CN102231280B

CN102231280B - 卷积语音信号的频域盲分离排序算法

Info

Publication number: CN102231280B
Application number: CN2011101170222A
Authority: CN
Inventors: 刘琚; 王倩; 杜军; 刘朝晨; 吕宁
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2011-05-06
Filing date: 2011-05-06
Publication date: 2013-04-03
Anticipated expiration: 2031-05-06
Also published as: CN102231280A

Abstract

本发明提供了一种卷积语音信号的频域盲分离排序算法，对于卷积混叠语音信号，首先由时域转换到频域，在每个频带上使用频域ICA算法进行盲分离，然后使用本发明的排序算法进行排序：(1)选取基准频带进行对准；(2)根据已排序好的基准频带对剩余频带进行排序；(3)标记可能出现排序错误的频带，利用基于分离矩阵的DOA估计进行补充性对准。本发明利用基准频带对准的思想并结合了现有基于频带相关性的排序算法和基于DOA的排序算法两类排序算法的优势，具有很好的鲁棒性和准确性，并且在真实环境中仍然适用。

Description

卷积语音信号的频域盲分离排序算法

技术领域

本发明涉及一种解决卷积混合语音信号在频域盲源分离过程中存在的次序不确定性问题的方法，属于语音信号处理领域。

背景技术

盲分离算法是在源信号和混合过程未知的情况下，从观测的混合信号中估计出原始信号的方法。盲分离算法广泛应用于语音信号处理、无线通信、医学信号处理等多个领域。针对卷积盲分离问题，目前主要存在两类算法：第一类是时域分离算法，第二类是频域分离算法。频域语音信号盲分离算法相对于时域盲源分离算法来说，因其较小的计算量和良好的分离性能而受到研究人员的关注。但是频域分离算法也存在两个问题：一个是幅值不确定性，一个是次序不确定性。其中次序不确定性对卷积混合频域盲分离算法的影响非常大，可以说它是卷积混合频域盲分离算法成功与否的最关键因素，也是当前卷积盲分离研究的热点之一。因为次序不确定性会使相邻频带上分离出来的信号连接错误，最终导致分离失败。

目前解决频域盲分离次序不确定问题的方法主要有两大类：第一类是基于到达角估计(DOA)的排序方法，第二类是基于频带间相关性的排序方法。这两类排序算法的优缺点：

(1)基于DOA的排序算法具有很好的鲁棒性，因为在一个频带上的不对准不会影响其他频带；但是该算法准确性较差，计算量大。

(2)基于频带间相关性的排序算法具有较好的准确性，但是鲁棒性较差，因为在一个频带上的不对准会导致连续频带上的排序发生错误。

发明内容

本发明针对现有解决卷积频域盲分离中存在的次序不确定性问题的方法所存在的不足，提出一种具有较好的鲁棒性和准确性的卷积语音信号的频域盲分离排序算法。

本发明的卷积语音信号的频域盲分离排序算法，使用卷积混叠模型，对于卷积混叠语音信号，首先由时域转换到频域，在每个频带上使用频域ICA算法进行盲分离，然后按以下步骤进行排序，实现每个频带的对准：

(1)基准频带的对准：选取基准频带进行对准，在所有频带中选取基准频带，根据对于同一个语音信号在不同频带上能量随时间呈现相似的变化这一特点对基准频带进行排序；

(2)剩余频带的对准：根据已排序好的基准频带对剩余频带进行排序，每个剩余频带都有对应的基准频带，对应的基准频带是指距离该剩余频带最近的基准频带，利用已排序好的基准频带，根据同一语音信号在相邻频带上的幅度相关性这一特点，对每个剩余频带进行排序；

(3)补充性对准：标记可能出现排序错误的频带，利用基于分离矩阵的DOA估计进行补充性对准，对步骤(2)中可能出现对准错误的频带用基于到达角估计(DOA)的排序方法进行重新排序。

所述步骤(1)的具体实现步骤为：

A.选取基准频带，假设相邻基准频带间隔偶数个频带；

B.计算每个基准频带上的能量轮廓，遍历所有可能的排序，最终找到使目标函数最小化的排序即为最终的排序。

所述步骤(2)的具体实现步骤为：

A.根据分离矩阵计算每个频带上分离出来的信号；

B.计算每个剩余频带与对应的基准频带上分离信号的幅度相关性；

C.遍历所有可能的排序，找到幅度相关性最大的排序即为最终的排序。

所述步骤(3)的具体实现步骤为：

A.若在步骤(2)中对于不同的排序，个别频带上幅度相关性相差不大，则这些频带上有可能出现排序错误，对这些频带进行标记；

B.对标记的频带进行基于分离矩阵的DOA估计；

C.对估计出的DOA进行聚类，即找到分离矩阵相应的排序。

上述算法中第(1)步和第(2)步利用了基于频带相关性的排序算法的准确性高的优点，同时通过基准频带的选取在一定程度上克服了其鲁棒性差的缺点。第(3)步利用了基于DOA的排序算法鲁棒性高的优点来进行补充性对准，同时由于步骤三中所需对准的频带数很少，不会过多增加整个排序算法的计算复杂度。

本发明采用基准频带的思想并结合了现有的基于频带间相关性和基于到达角估计(DOA)这两类主要排序算法的优势，具有很好的鲁棒性和准确性。

附图说明

图1是频域盲分离流程框图。

图2是原始语音信号图。

图3是未排序的全局滤波器W(t)*H(t)的冲激响应图。

图4是本发明排序后的全局滤波器W(t)*H(t)的冲激响应图。

图5是经过每一步排序后的NRR比较图。

图6是真实环境下语音采集的房间布局示意图。

图7是真实环境下观测信号、估计信号和真实源信号图。

具体实施方式

本发明所使用的是K×K(K个源信号，K个观测信号)的卷积混叠模型：其中观测信号向量x(n)＝[x₁(n)，x₂(n)，..，x_K(n)]^T，源信号向量s(n)＝[s₁(n)，s₂(n)，..，s_K(n)]^T(上标“T”表示转置)，N为FIR滤波器的长度，

是延迟为l时的K×K混合滤波器矩阵，其中h_ij是第j个源信号到第i个传感器的冲击响应。对于卷积盲分离，目标是寻找L个K×K分离滤波器矩阵W(l)，估计出源信号

该式经过短时傅里叶变换(STFT)后，卷积混叠模型转换成在每个频带上的瞬时混叠，即在频带f_k，τ时间段上有Y(f_k，τ)＝W(f_k)X(f_k，τ)。通过频域ICA(独立成分分析)算法，在每个频带上得到K×K的分离矩阵W(f_k)。W(f_k)每一行为不同源信号的估计向量。要解决次序不确定性，即解决W(f_k)所有行的排序问题，使在所有频带上W(f_k)的同一行对应于同一个源信号。

频域盲分离流程如图1所示，采用L＝2048STFT，其中的交迭系数为0.75。频域ICA采用的是联合对角化算法(JADIAG)，接下来，需要解决频域盲分离排序问题，即要寻找正确的排序矩阵P(f)，通过W(f)←P(f)W(f)来更新W(f)。对于解决频域盲分离排序问题的算法具体实施方式如下：

1.基准频带的对准。选取基准频带f_b＝0，(M/L)F_S，(2M/L)F_S，...，((L-1)/L)F_S，其中M为正奇数，F_S为采样频率。对于一个语音信号，在不同频带上的能量随时间呈现相似的变化。基于该相似性，对基准频带进行排序。

首先，计算估计信号的零均值能量轮廓的对数值：

E (i, f_{b}, τ) = \log (Y_{i} (f_{b}, τ) Y_{i}^{*} (f_{b}, τ)) - mean (\log (Y_{i} (f_{b}, τ) Y_{i}^{*} (f_{b}, τ))), i = 1,2, . . ., K

其中Y_i(f_b，τ)是在基准频带f_b，时间段τ上的第i个估计信号。

然后，利用“Blind Separation of Speech Mixtures Based on Nonstationarity”in Proc.ofISSPA 2003Conf.，Paris，France，73-76，July 2003.(“基于非平稳性的语音盲分离”，《2003年ISSPA会议论文集》，法国巴黎，73-76，07/2003.)提出的一个目标函数：

Σ_{i = 1}^{K} {| | E (π_{i} (f_{b}), f_{b}, τ) - E_{i} (\cdot) | |}^{2}

其中E_i(·)是第i个源的能量轮廓，通过计算E(∏(i)，f_b，τ)在所有基准频带上的平均值求得。π_i(f_b)是指一种排序方式。遍历{1，...，K}所有的排序，能找到一种排序π₁(f_b)，π₂(f_b)，..，π_K(f_b)使得该目标函数最小，进而得到排序矩阵P(f_b)

2.剩余频带的对准。经过步骤1基准频带的对准后还有(1-1/M)L个频带没有进行对准。根据相邻频带间分离信号的幅度相关性进行排序。具体过程如下：对于第j个基准频带f_bj＝((j-1)M/L)F_s，它的相邻频带为f_bj-(M-1)/2，...，f_bj-1，f_bj+1，f_bj+2，...，f_bj+(M-1)/2，其中f_bj+l＝(((j-1)M+l)/L)F_s。在所有T个时间段τ₁，τ₂，..τ_T，频带f_bj+l上的第i个输出为Y_i(f_bj+l)＝[Y_i(f_bj+l，τ₁)，Y_i(f_bj+l，τ₂)，...，Y_i(f_bj+l，τ_T)，]，输出矩阵

计算Y(f_bjj)和(P(f_bj+l)Y(f_bj+l))^T的相关矩阵Cor^bj+l，矩阵中的元素

表示Y(f_bj)的第m行与(P(f_bj+l)Y(f_bj+l))的第n行的相关系数，其中P为排序矩阵。如果剩余频带是对准的，则Cor^bj+l应类似于一个对角阵，及对角线上的元素值远大于其他元素的值。则对于不同的排序矩阵，最小化目标函数

Σ_{m = 1}^{K} \frac{1}{| {Cor}_{mm}^{bj + l} |} Σ_{n &NotEqual; m}^{K} | {Cor}_{mm}^{bj + l} |,

对于2×2的卷积混叠模型，即为最小化

从而在每个剩余频带上分别得到一个排序矩阵P。

3.补充性对准。

经过步骤2对准后，绝大部分频带上实现正确的对准，但存在个别频带与其基准频带的相关矩阵Cor，其对角线上的元素值与其他元素的值相差不大。在这些频带上可能会出现对准错误。首先找到这些个别的频带，对于2×2的卷积混叠模型，这些频带上Cor中的元素满足下面的条件：

| \frac{{Cor}_{11}}{{Cor}_{12}} - \frac{{Cor}_{21}}{{Cor}_{22}} | < β

其中，β为设定的阈值。根据该条件，假设找到Z个可能出现对准错误的频带，记为f_q(q＝1，2，...，Z)，频带f_q上的分离矩阵记为W(f_q)。根据经典的DOA公式，如在“A robust andprecise method for solving the permutation problem of frequency-domain blind sourceseparation，”4th International Symposium on Independent Component Analysis and Blind SignalSeparation(ICA2003)，April 2003，Nara，Japan.(“一种解决频域盲分离排序问题的鲁棒且准确的方法，”第四届独立成分分析和盲信号分离国际研讨会(ICA 2003)，2003年4月，日本奈良)在频带f_q上估计出源信号的到达角θ_i(f_q)(i＝1，2)。

θ_{1} (f_{q}) = \arccos \frac{angle (- W {(f_{q})}_{21} / W {(f_{q})}_{22})}{2 π F_{s} c^{- 1} (d_{2} - d_{1})}

θ_{2} (f_{q}) = \arccos \frac{angle (- W {(f_{q})}_{11} / W {(f_{q})}_{22})}{2 π F_{s} c^{- 1} (d_{2} - d_{1})}

其中W(f_q)₁₁，W(f_q)₁₂，W(f_q)₂₁，W(f_q)₂₂是矩阵W(f_q)中的4个元素，c为声速，d₁和d₂是两个麦克风的位置。由上式可以看出W(f_q)的每一行决定一个源信号的到达角。

选取一个基准频带f_bj，如基准频带f_b3，估计两个到达角θ₁(f_b3)，θ₂(f_b3)。如果(θ₁(f_b3)-θ₂(f_b3))(θ₁(f_q)-θ₂(f_q))＜0，则将W(f_q)的两行颠倒顺序。

这样，在每个频带上都得到了排序好的分离矩阵W(f)，对其进行离散傅里叶逆变换得到时域上的分离矩阵，然后通过

对观测信号进行卷积得到估计信号y(n)。

下面通过两部分实验来验证本发明的性能。第一部分，对人工卷积的语音文件进行盲分离实验。第二部分，采集真实语音环境中的混叠语音进行盲分离实验，展示分离效果。在两部分实验中，使用2×2的卷积混叠模型。

(1)对人工卷积的语音文件进行盲分离实验。

房间的冲击响应是由roomix.m(http://sound.media.mit.edu/ica-bench)生成，它是在真实的3.5m×7m×3m的会议室环境中测量得出的。两个原始语音信号如图2所示，采样率为16kHz，β＝0.5。

a.W(t)*H(t)图。经过JADIAG盲分离算法但未对分离矩阵排序时的全局滤波器W(t)*H(t)(W(t)是经过排序后的分离滤波器，H(t)是房间冲击响应即混合滤波器，“*”是卷积符号)如图3所示。经过本发明的排序方法，得到的全局滤波器W(t)*H(t)图，如图4所示，(W(t)*H(t))₁₁和(W(t)*H(t))₂₂相比于(W(t)*H(t))₁₂和(W(t)*H(t))₂₁，包含了全局滤波器绝大部分能量，并且集中在很短的时间段内，相当于两个单位冲击函数。由此可见两个源信号已经被很好地估计出来。

b.NRR比较。

噪声消除率(NRR)定义如下：

NRR = \frac{1}{2} Σ_{l = 1}^{2} ({SNR}_{l}^{(O)} - {SNR}_{l}^{(I)})

{SNR}_{l}^{(O)} = {10 \log}_{10} \frac{Σ_{f} {| G_{ll} (f_{k}) S_{l} (f_{k}) |}^{2}}{Σ_{f} {| G_{\ln} (f_{k}) S_{n} (f_{k}) |}^{2}}

{SNR}_{l}^{(I)} = {10 \log}_{10} \frac{Σ_{f} {| G_{ll} (f_{k}) S_{l} (f_{k}) |}^{2}}{Σ_{f} {| G_{\ln} (f_{k}) S_{n} (f_{k}) |}^{2}}

其中

和

分别是估计信号的信噪比和源信号的信噪比，n＝1，2，并且n≠l。当计算一个信号

或

时，将另一个信号视为噪声。G_ij(f_k)和H_ij(f_k)分别是G(f_k)和H(f_k)的第i行第j列，G(f_k)＝W(f_k)H(f_k)，其中H(f_k)是混合矩阵，W(f_k)是分离矩阵。可见，NRR越大，证明分离效果越好。经过每一步排序后的NRR值如图5所示，因为第一步是对基准频带进行排序，而基准频带的数目占频带总数的比例很小，所以NRR提升不明显；经过第二步排序后，绝大部分频带实现正确的对准，NRR有了明显的提高；第三步作为对第二步排序的补充性对准，NRR有了一定的改进。

(2)采集真实语音环境中的混叠语音进行盲分离实验。

在如图6所示房间里以12kHz的采样率采集两段语音信号。观测信号的信噪比为11dB。如图7所示，第1行和第2行是两个观测信号，第3行和第4行显示的是估计出的源信号，最后两行显示的是真实的源信号。通过比较估计信号和真实源信号的波形，观测信号已成功实现盲分离，可见本发明在真实环境中也是适用的。

Claims

1.一种卷积语音信号的频域盲分离排序算法，其特征是，使用卷积混叠模型，对于卷积混叠语音信号，首先由时域转换到频域，在每个频带上使用频域ICA算法进行盲分离，然后按以下步骤进行排序，实现每个频带的对准：

（1）基准频带的对准：选取基准频带进行对准，在所有频带中选取基准频带，假设相邻基准频带间隔偶数个频带，根据对于同一个语音信号在不同频带上能量随时间呈现相似的变化这一特点对基准频带进行排序；

（2）剩余频带的对准：根据已排序好的基准频带对剩余频带进行排序，每个剩余频带都有对应的基准频带，对应的基准频带是指距离该剩余频带最近的基准频带，利用已排序好的基准频带，根据同一语音信号在相邻频带上的幅度相关性这一特点，对每个剩余频带进行排序；

（3）补充性对准：标记可能出现排序错误的频带，利用基于分离矩阵的DOA估计进行补充性对准，对步骤（2）中可能出现对准错误的频带用基于到达角估计的排序方法进行重新排序。

2.根据权利要求1所述的卷积语音信号的频域盲分离排序算法，其特征是：所述步骤（2）的具体实现步骤为：

A．根据分离矩阵计算每个频带上分离出来的信号；

B．计算每个剩余频带与对应的基准频带上分离信号的幅度相关性；

C．遍历所有可能的排序，找到幅度相关性最大的排序即为最终的排序。

3.根据权利要求1所述的卷积语音信号的频域盲分离排序算法，其特征是：所述步骤（3）的具体实现步骤为：

A．若在步骤（2）中对于不同的排序，个别频带上幅度相关性相差不大，则这些频带上有可能出现排序错误，对这些频带进行标记；

B．对标记的频带进行基于分离矩阵的DOA估计；

C．对估计出的DOA进行聚类，即找到分离矩阵相应的排序。