CN1909064B

CN1909064B - 一种在线自然语音卷积混合信号的时域盲分离方法

Info

Publication number: CN1909064B
Application number: CN2006100302524A
Authority: CN
Inventors: 鲁晓丹; 张立明
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2006-08-22
Filing date: 2006-08-22
Publication date: 2011-05-18
Anticipated expiration: 2026-08-22
Also published as: CN1909064A

Abstract

本发明属于信号处理技术领域，具体为一种可以在线处理语音信号卷积混合盲分离的无监督学习算法。该算法可以应用于语音通信和机器人语音交互的前端处理方面。本算法充分考虑自然语音信号的时域相关性和非平稳特性，通过构造一组自适应的前馈滤波网络，对多个源的混合语音信号进行实时的分离工作，可以解决语音通信当中的语音增强问题以及机器人语音交互当中只允许单个说话人的局限性问题等。同时，算法本身复杂度较低，易于硬件实现，所以在电话会议，智能机器人，汽车通信等语音信号处理领域内有较好的应用前景。

Description

一种在线自然语音卷积混合信号的时域盲分离方法

技术领域

本发明属于信号处理技术领域，具体为一种可以在线处理语音信号卷积盲分离问题的无监督学习算法。该算法充分考虑自然语音信号的时域相关性和非平稳特性，可以对多个源的语音信号进行实时的分离工作，并且克服了已有算法在源数目变化时系统的不稳定性问题。所以在电话会议，智能机器人，汽车通信等语音信号处理领域内有广泛的应用前景。

技术背景

信号盲分离问题(BSS)是指在信号传播过程当中，当源信号和传播信道的各项参数都未知的情况下，仅仅通过观测到的混合信号和对源信号的一些统计特性假设来恢复源信号的问题，也称盲源分离问题。最早的盲分离问题是由经典的“鸡尾酒会”问题引出的。在早期的研究阶段，往往忽略信号在信道传播当中的延迟和滤波效应，并且对源信号加以理想的假设，所以得出了许多基于线性瞬时混合模型的经典方法，比如最小互信息、H-J、四阶矩、FastICA[9]等等。但是这些传统的方法其混合形式在时域当中为卷积混合，对于实际环境下的信号，特别是一些强反射环境下的信号分离问题，往往不能得到正确的分离结果。近几年来许多研究人员把研究的重点投入到更加接近实际环境的卷积混合信号盲分离方法的研究当中。这些方法往往基于成熟的ICA(独立元分析)理论[1]，在卷积的混合模型下进行扩展和延伸，得到适合于实际环境下的分离方法。这些算法总体上可以分为时域和频域两大类，其中频域方法是利用分段FFT(快速傅立叶变换)将时域的卷积混合转化为频域的瞬时混合，然后利用经典的ICA方法，对每个频点的复数混合信号进行分离。但是由于每个频点的分离是独立进行的，所以不可避免的存在不同频点之间的信号顺序不一致(Permutation)问题，同时信号域的转换对于信号的独立性假设也存在不可忽略的影响[8]。而时域的方法虽然不存在上述的问题，对通信信号和人造模拟信号能够得到比较好的分离效果，但是许多算法是基于信号存在稳定性，时间域和空间域的独立性等假设，一旦应用到实际的语音信号当中，特别是在线分离的场合，往往就会碰到很多问题。这其中包括Amari等人基于自然梯度的最小互信息方法[1][7]，Herbert Buchner等人的二阶统计量方法[6]等等。而本发明则是在现有经典方法的基础上，针对语音信号非平稳，时域相关等特点，特别是在实际情况中源数目随时间变化时传统在线算法当中出现的不稳定性等问题进行改进，提出一种适合于实际环境的在线语音盲分离算法。

参考文献：

[1]A Hyvarinen，J Karhunen，E Oja.Independent Component Analysis[M].John Wiley，NewYork，2001，147～289

[2]S Araki，S Makino，T Nishikawa，H Saruwatari.Fundamental limitation of frequencydomain blind source separation for convolutive of speech[A].Proc.ICASSP2001[C].Salt LakeCity，Utah，2001，2737～2740.

[3]Shun-ichi Amari，Scott C Douglas，Andrzej Cichocki，Howard H Yang.Novel on-lineadaptive learning algorithms for blind deconvolution using the natural gradient approach[A].Proc.11^th IFAC symposium on System Identification[C].Kitakyushu City，Japan，1997，1057～1062.

[4]Scott C Douglas，Hiroshi Sawada，Shoji Makino.Natural Gradient Multichannel BlindDeconvolution and Speech Separation Using Causal FIR Filters[J].IEEE transactions onspeech and audio processing，2005，13(1)：92～104.

[5]Herbert Bucher，Robert Aichner，Walter Kellermann.A generalization of blind sourceseparation algorithms for convolutive mixtures based on second-order statistics[J].IEEEtransactions on speech and audio processing，2005，13(1)：120～134.

[6]Andrzej Cichocki，Shun-ichi Amari.Adaptive Blind Signal and Image Processing[M].JohnWiley&Sons Ltd.2002

[7]S Choi，S Amari，A Cichocki，R Liu.Natural gradient learning with nonholonomic constraintfor blind deconvolution of multiple channels[A].Proc International Workshop on IndependentComponent Analysis and Blind Signal Separation(ICA’99)[C].1999，371～376.

[8]Y Inouye，R W Liu.A System-Theoretic Foundation for Blind Equalization of an FIR MIMOchannel System[J].IEEE transactions on Circuits and Systems-I：Fundamental Theory andApplications，2002，49(4)：425～436

发明内容

本发明的目的在于提出一种可以在线实时处理的、针对语音信号特殊统计特性的卷积混合时域盲分离方法。该方法应用在实际的语音处理当中，可以有效地对不同说话人的语音信号进行分离工作，解决语音识别领域当中只能允许单个说话人的局限性问题，同时应用到语音通信和机器人交互当中也可以取得比较好的效果。

本发明在经典算法的理论基础上，针对语音信号的特殊统计特性，提出一种新的基于自然梯度的在线迭代算法。该算法通过实时调整一组有限长度的有限冲激响应滤波器网络参数，对接收到的卷积混合信号进行在线盲分离，以恢复原始的自然语音信号。同时针对语音信号特有的时域相关性和非平稳统计特性，提出相应的算法约束条件，得到适合于分离自然语音信号的滤波器系数更新法则。该算法相比已有的经典算法从收敛特性和鲁棒性方面都得到显著的提高。

本方法具体的系统框架和实现如图1所示。

在不考虑噪声的情况下，设源信号向量为s(t)＝[s₁(t)，s₂(t)…s_m(t)]^T t＝0，1…，m为源信号的通道数。观测信号为x(t)＝[x₁(t)，x₂(t)…x_n(t)]^T t＝0，1…，n为观测信号的通道数(其中n≥m)。考虑到信号的延迟和滤波效应，s(t)和x(t)之间的关系用以下的因果卷积混合系统模型来表示：

x (t) = Σ_{p = 0}^{M} H_{p} s (t - p), M < + \infty - - - (1)

其中H_p为n×m维的混合-冲激响应阵，M为卷积延迟深度。我们研究的问题是：若已知观测信号x(t)，在未知H_p，M和s(t)的情况下，仅仅通过源信号之间的独立性(或者其他一些统计分布特性)假设来估计源信号s(t)。现有的卷积混合盲分离算法大部分利用对源信号的独立性假设，采用一组关于W(z，t)的FIR滤波器或者前馈网络模型对观测信号进行分离[3][4][5][6]，通过构造关于解混矩阵W(z，t)的代价函数，将源信号的恢复问题转化为关于解混矩阵W(z，t)的代价函数优化问题。其盲分离系统的网络数学模型如下：

y (t) = Σ_{p = 0}^{L} W_{p} (t) x (t - p), L > M - - - (2)

其中y(t)为解混系统的输出信号，W_p为n×n维的滤波器参数矩阵，L为解混滤波器长度。用Z变换域的表示方法可以简单写成：

y(t)＝W(z，t)x(t)

(W (z, t) = Σ_{p = 0}^{L} W_{p} (t) z^{- p}) - - - (3)

盲卷积混合和解混的模型如图1所示。在现有的算法条件下，恢复信号的幅度，延迟和次序与源信号之间有着不确定性。

传统的互信息方法[3]在理论上处理的为时间和空间域都为独立的信号分离问题，而二阶统计量方法[5]由于要求恢复信号的相关矩阵为满秩，故在源数目变化时存在很大的局限性。

通过一定的实验和分析，我们在自然梯度最小互信息方法的基础上，综合已有两类经典算法的优点提出以下改进后的算法：

首先，由于语音信号本身是非平稳信号，因此我们假设语音信号为短时平稳，对于在线算法采用时间序列上的block的分块方法，利用block分块内的平均统计量来代替瞬时量，并利用块之间的交叠来平缓信号统计特性的剧烈变化，改善算法的稳定性和收敛效果。

其次我们利用S.Choi提出非完备约束条件^[7]，把传统互信息方法中的Iδ_pq用Λδ_pq来代替，S.Choi证明了当Λ＝diag(f(y(t))y^T(t))时，迭代公式仍满足收敛条件。(其约束后算法的收敛性和稳定性在[7]中有详细说明)，但是他的方法只能用于解决时间域不相关的信号分离问题，同时约束条件Λδ_pq并未考虑信号的历史量。我们把block分块和带遗忘因子的在线更新思想利用到新的方法中，同时将非完备约束条件推广到时间域上，保留信号的时间域相关特性，得到如下改进后的W_p迭代公式：

W_{p} (k + 1) = W_{p} (k) + μ (k) {Σ_{q = 0}^{L} [(Λ_{pq} (k) - < f (y (t)) y^{T} (t - p + q) >^{(k)}) W_{q}]} - - - (4)

其中

Λ_{pq} (k) = \{\begin{matrix} (1 - λ) (Λ_{pp} (k - 1) + λdiag (< f (y (t)) y^{T} (t) >^{(k)}) & (if  p = q) \\ diag (< f (y (t)) y^{T} (t - p + q) >^{(k)}) & (if  p &NotEqual; q) \end{matrix}

其中，W_p是解混矩阵中延时为p的系数矩阵，k为当前信号block的序号，L是解混滤波器长度，μ为迭代步长(一般取较小的正值，0.001～0.1)，f(·)是和源信号统计特性相关的非线性函数，对于语音信号一般取符号函数sign()，<·>^(k)运算代表第k个block中信号求均值。diag为取矩阵的对角元素矩阵，λ是在线更新的遗忘因子，0.6＜λ＜1，其取决于信号在实际情况中变化的激烈程度。

从改进算法的迭代公式当中可以看出，矩阵W_p的每一次更新都取决于新进声音样本在一个时间段内的平均信息，特别是通过块的交叠，相比传统算法中的迭代方法它包含的当前统计信息更加准确，变化更加平稳。

在新的迭代公式当中我们采用如下的稳定约束条件：

Λ_pq(k)-<f(y(t))y^T(t-p+q)>^(k))＝0 (5)

展开为矩阵元素形式：

(I)

\{\begin{matrix} E {f (y_{i} (t)) y_{i} (t)} = Λ_{i} \\ E {f (y_{i} (t)) y_{i} (t)} = 0 & (i &NotEqual; j) \end{matrix},\begin{matrix} i, j = 0,1 . . . m & (p = q) \end{matrix}

这里Λ_i为对角矩阵Λ_pq中第i个对角元素

(II)

\{\begin{matrix} E {f (y_{i} (t)) y_{i} (t - τ)} = E {f (y_{i} (t)) y_{i} (t - τ)} & (τ &NotEqual; 0, τ = p - q); \\ E {f (y_{i} (t)) y_{j} (t - τ)} = 0 & (i &NotEqual; j, τ &NotEqual; 0) \end{matrix} \begin{matrix} , i, j = 0,1 . . . m & (p &NotEqual; q) \end{matrix}

改进后的约束条件(I)的幅值约束为Λ_i，当遇到目标源信号幅度和能量随时间变化的不稳定情况，特别是源信号数目变化，如静音或长时间停顿，该路恢复信号的能量不需要像传统互信息方法那样被约束到1，只要约束到Λ_i，而Λ_i是由恢复信号历史值和当前值的加权和得到，在静音时当前值很小，当选取合适的遗忘因子λ时，Λ_i可以较好的跟踪信号幅值的变化，从而消除了由于源信号幅值不稳定和数目变化给算法带来的发散和不稳定性因素。而改进方法中的稳定约束条件(II)，对于每一路信号保留了时间域的相关特性，这充分符合了语音信号的统计模型(同路信号存在时间相关性)，也改进了传统互信息方法只能对时间和空间同时独立的信号解混的问题。

综上所述，本发明算法的具体步骤如下：

1、建立并初始化盲分离网络W_p；

2、将观测信号即混合声音样本按时间先后排成信号序列X，利用解混网络

Y (t) = Σ_{p = 0}^{L} W_{p} (t) X (t - p),

恢复出原始数据(源信号)。

3、将得到的恢复信号进行block分块。

4、利用本发明提出的迭代公式更新网络权值W_p。

5、重复步骤2、3、4直至所有样本分离结束。

本发明提出的算法的收敛性是由文献[7]的非完备约束条件的证明保证的，而文献[7]的方法并未采用遗忘因子的更新思想，而且它和传统互信息方法在理论上都是基于目标信号为时间域独立的信号，只能对时间域独立的信号解混才能取得较好的效果，针对语音信号的时间相关特性，原有算法与语音信号的统计模型相悖，我们采用二阶统计量中保留信号时间相关性的思想，将非完备约束条件[7]推广到信号时间域上，使得改进后的算法更加满足语音信号的统计特性，本算法是针对具有时间相关的语音信号，同时考虑信号的非平稳性，采用分块平均和交叠的方法以及带遗忘因子的在线更新来解决跟踪信号幅值信息的同时兼顾信号的历史信息。从实验结果可以看出，本发明提出的方法对实际的语音卷积混合信号是有效的。

本发明的优点：

本发明在经典信号盲分离算法的理论基础上，结合自然语音信号特有的统计特性，提出了一种对于语音信号分离问题具有一定针对性的新的解决方案。该方法相比于传统在线方法从算法的收敛速度和分离效果来看都有明显的改进，同时解决了源数目随时间变化时算法的鲁棒性问题。本发明算法本身复杂度较低，易于硬件实现，所以在电话会议，智能机器人，汽车通信等语音信号处理领域内有较好的应用前景。

附图说明

图1盲卷积混合和解混系统框图。

图2用本发明提出的方法对有静音的语音信号解混结果，其中第一行为两路原信号，下面两行依次为混合和恢复信号。

图3为图2中一段结果的放大图。

图4用传统互信息方法对有静音的语音信号解混结果，其中第一行为两路原信号，下面两行依次为混合和恢复信号。

图5为图4中的一段结果的放大图。

图6传统互信息方法PI指数收敛图，其中横轴为原始算法迭代的次数。

图7本文改进算法PI指数收敛图，其中横轴为分块交叠后的迭代次数。

具体实施方式

下面利用采集的两段实际语音信号，分别利用传统的互信息方法和本发明提出的新的在线卷积盲分离时域方法进行信号的分离并对结果进行对比。为了体现算法的一般性和鲁棒性，所处理的语音信号中讲话人有停顿和静音(在实际情况下不可避免)。

同时为了定量的比较本发明提出的方法与已有方法的分离效果，我们采用人工构造的混合卷积矩阵来模拟实际的语音环境，其线性卷积混合矩阵的z域表达式为：

H (z) = (\begin{matrix} 0.65 + {0.27 z}^{- 1} + {0.20 z}^{- 2} & 0.55 + {0.20 z}^{- 1} + {0.13 z}^{- 2} \\ 0.45 + {0.26 z}^{- 1} + {0.16 z}^{- 2} & 0.6 + {0.28 z}^{- 1} + {0.18 z}^{- 2} \end{matrix})

采样样本为100000个点，算法中L＝4，block长度为200，迭代步长0.05，λ取0.8，非线性函数取符号函数sign().经过算法迭代之后，利用本发明提出算法的分离结果中，原信号、混合信号和恢复信号波形图为图2，局部放大图为图3。而利用传统互信息方法分离结果中，原信号、混合信号和恢复信号波形图为图4，局部放大图为图5：

把两种算法的分离效果进行对比可以明显看出改进算法在遇到语音信号中出现的静音和停顿时并没有像传统方法那样出现失真现象，静音的部分恢复信号比较平稳，体现了很好的稳定性和鲁棒性。

同时为了定量的比较两种方法的解混效果，我们采用Amari提出的PI指数^[6]曲线图来评判算法的解混和收敛效果，其定义式如(6)：

M_{PI} = Σ_{i = 1}^{n} \frac{Σ_{j} Σ_{p} | C_{i, j, p} | - \max_{p, j} | C_{i, j, p} |}{\max_{p, j} | C_{i, j, p} |} + Σ_{j = 1}^{n} \frac{Σ_{i} Σ_{p} | C_{i, j, p} | - \max_{p, i} | C_{i, j, p} |}{\max_{p, i} | C_{i, j, p} |} - - - (6)

其中用Z域表示混合矩阵为

H (z, t) = Σ_{p = 0}^{M} H_{p} (t) z^{- p},

解混矩阵为

W (z, t) = Σ_{p = 0}^{L} W_{p} (t) z^{- p},

整个系统的传递函数矩阵

C (z, t) = W (z, t) H (z, t) = Σ_{p = 0}^{M + L - 1} C_{p} (t) z^{- p},

C_j，p为矩阵C_p的第(i，j)个元素。该式前后两部分分别按行和列估计解混系统的恢复效果。从PI指数的物理意义可以看出，其值越小反映整个系统传递函数矩阵越对角化，也就是解混效果越好。

两个对比实验当中采用同样长度的声音样本和混合矩阵，PI指数随着迭代过程的收敛效果如图6和图7所示：

其中图6为传统算法的在迭代过程当中PI指数的收敛图，可以看出，算法收敛的过程并不平稳，收敛曲线几次出现振荡，并且最后的分离效果也并不理想。而图7为本文提出算法的结果，两个实验采用的声音样本是同样长度，由于信号分块和交叠，所以和图6相比虽然迭代次数不一样但是仍然可以明显看出算法收敛所需的样本数较少，同时收敛曲线比较平滑，没有出现振荡，收敛结果也明显好于前一种算法。

Claims

1.一种在线自然语音卷积混合信号的时域盲分离方法，其特征在于通过实时调整一组有限长度的滤波器网络参数，对接收到的卷积混合信号进行在线盲分离，以恢复原始的自然语音信号，同时针对语音信号特有的时域相关性和非平稳统计特性，提出相应的算法约束条件，得到适合于分离自然语音信号的滤波器系数更新法则；在不考虑噪声的情况下，设源信号向量为s(t)＝[s₁(t)，s₂(t)…s_m(t)]^T t＝0，1…，m为源信号的通道数，观测信号为x(t)＝[x₁(t)，x₂(t)…x_n(t)]^T t＝0，1…，n为观测信号的通道数，其中n≥m；s(t)和x(t)之间的关系用以下的因果卷积混合系统模型来表示：

x (t) = Σ_{p = 0}^{M} H_{p} s (t - p), M < + \infty

其中H_p为n×m维的混合-冲激响应阵，M为卷积延迟深度；具体步骤如下：

(1)建立并初始化盲分离网络W_p(t)；

(2)将观测信号即混合声音样本按时间先后排成信号序列：

x(t)＝[x₁(t)，x₂(t)…x_n(t)]^T t＝0，1…，

利用解混网络：

y (t) = Σ_{p = 0}^{L} W_{p} (t) x (t - p), L > M

恢复出原始信号，其中y(t)为解混系统的输出信号，W_p为n×n维的滤波器参数矩阵，L为解混滤波器长度；

(3)将得到的恢复信号进行block分块；

(4)利用下述迭代公式更新网络权值W_p；

W_{p} (k + 1) = W_{p} (k) + μ (k) {Σ_{q = 0}^{L} [(Λ_{pq} (k) - < f (y (t)) y^{T} (t - p + q) >^{(k)}) W_{q}]}

其中

Λ_{pq} (k) = \{\begin{matrix} (1 - λ) (Λ_{pp} (k - 1) + λdiag (< f (y (t)) y^{T} (t) >^{(k)}) & (if p = q) \\ diag (< f (y (t)) y^{T} (t - p + q) >^{(k)}) & (if p &NotEqual; q) \end{matrix}

其中，W_p是解混矩阵中延时为p的系数矩阵，k为当前信号block的序号，L是解混滤波器长度，μ为迭代步长，取值为0.001～0.1，f(·)是和源信号统计特性相关的非线性函数，<·>^(k)运算代表第k个block中信号求均值，diag为取矩阵的对角元素矩阵，λ是在线更新的遗忘因子，0.6＜λ＜1；

本步骤(4)中迭代公式的稳定约束条件为：

Λ_pq(k)-<f(y(t))y^T(t-p+q)>^(k)＝0

展开为矩阵元素形式：

(I) - - - \{\begin{matrix} E {f (y_{i} (t)) y_{i} (t)} = Λ_{i} \\ E {f (y_{i} (t)) y_{j} (t)} = 0, i &NotEqual; j \end{matrix} i, j = 0,1 . . . m, p = q

这里Λ_i为对角矩阵Λ_pq中第i个对角元素，

(II) - - - \{\begin{matrix} E {f (y_{i} (t)) y_{i} (t - τ)} = E {f (y_{i} (t)) y_{i} (t - τ)}, τ &NotEqual; 0, τ = p - q; \\ E {f (y_{i} (t)) y_{j} (t - τ)} = 0, i &NotEqual; j, τ &NotEqual; 0 \end{matrix} i, j = 0,1 . . . m, p &NotEqual; q

(5)重复步骤(2)、(3)、(4)，直到满足步骤(4)中的稳定约束条件，分离结束。