CN100495537C

CN100495537C - 强鲁棒性语音分离方法

Info

Publication number: CN100495537C
Application number: CNB2007100248948A
Authority: CN
Inventors: 褚轶景; 丁和平; 邱小军
Original assignee: National Research Council of Canada; Nanjing University
Current assignee: National Research Council of Canada; Nanjing University
Priority date: 2007-07-05
Filing date: 2007-07-05
Publication date: 2009-06-03
Anticipated expiration: 2027-07-05
Also published as: CN101083078A

Abstract

本发明公开了强鲁棒性语音分离算法，采用单声源作用检测方法检测出单声源作用时段，在单声源作用时段实现分离滤波器估计，两声源同时作用时进行混合语音分离；A)采用单声源作用检测方法，使用检测滤波器D_i(n)，i＝1，2实现单声源作用时段的检测：即检测出只有一个声源(s₁或s₂)发声的时段。B)当单声源作用时段被检测出后，在单声源作用时段进行分离滤波器W_ij(n)，i，j＝1，2的估计；C)分离滤波器估计完成后，使用分离滤波器分离混合语音，得到分离后的语音信号u_i(n)，i＝1，2。该方法计算量小，更易实现。

Description

强鲁棒性语音分离方法

一、技术领域

本发明涉及一种实现两混合语音分离而鲁棒性较强的方法。

二、背景技术

鸡尾酒会效应通常会影响语音质量。如何将两个不同方向传来的混合语音分离，现有的解决办法是1)使用扬声器阵列实现波达方向(DOA)识别技术及2)基于独立分量分析(ICA)的盲分离技术。阵列方法主瓣宽度难以做到很窄，旁瓣难以抑制；盲分离技术则要求信号互不相关，这使得此技术的实际应用受阻。

中国专利公开CN00804884.3用于语音识别的声调特性，(皇家菲利浦电子有限公司)增强的声音声调特性首先通过引入带有自适应切除的在线的先行追溯基频(FO)轮廓而得到，这个基频用作为信号预处理前端。FO轮廓随后借助于时变的加权移动平均(MA)滤波器并结合FO轮廓的加权的(更多地关注元音)最小平方而被分解为词汇声调影响、词组语调影响、和随机影响。词组语调影响被定义为发声的FO轮廓的长期趋势，它可用FO轮廓的加权移动平均来近似，而其加权值与信号的周期性程度有关。

CN200510067777.0利用中枢网络分离语音信号，它能够分离和重建在语音信号的频率成分被背景噪声掩盖的环境中传输的语音信号。该语音分离系统从一个音频源获得一个伴有噪声的语音信号。然后噪声语音信号可通过一个已训练为能够从背景噪声中隔离和重建纯净语音信号的中枢网络进行馈送。一旦噪声语音信号通过中枢网络进行馈送，该语音信号分离系统就产生一个充分降噪的估值语音信号。

CN00815076.1语音识别的健壮特征提取方法和装置，涉及一种在有噪声环境下用于语音识别的健壮(robust)特征提取方法和装置，在其中按频谱分量的特征对一个语音信号分段。将语音信号划分成L次能带中的许多短期频谱分量，其中的L＝1，2，...，并且根据仅含噪声的片段估算一个噪声频谱。然后根据对应的短期频谱执行对估算的噪声频谱的频谱减法，并且为各个短期频谱分量计算出含噪声的概率。最后为含语音的概率很低的各短期频谱的这些频谱分量执行内插，以便平滑那些仅含噪声的短期频谱。通过对含噪声的频谱分量执行内插就能从近旁找到可靠的频谱语音分量。

但现有技术未涉及混合语音分离过滤，尤其是鲁棒性高，计算量较小的语音分离方法并未作为专利提出。

如图1，假设房间中有两个声源发出音频信号(s₁和s₂)，同时有两个麦克风对信号采样(x₁和x₂)。如果两声源同时发声，s₁和s₂通过房间固有的传递函数H_ij，i，j＝1，2混合，麦克风将会得到混合语音。

三、发明内容

本发明的目的是提供一种鲁棒性高，计算量较小的语音分离算法。该方法假设声源存在足够长的单声源作用时段，采用简单的单声源作用时段检测方法，在单声源作用时段实现分离滤波器估计，两声源同时作用时段进行混合语音分离。

本发明是通过以下技术方案来实现的：

强鲁棒性语音分离方法，采用两路麦克风接收信号x₁和x₂，且每路信号分别联接分离滤波器W_ij(n)，i，j＝1，2(如图1)，同时x₁和x₂分别联接检测滤波器D_i(n)，i＝1，2(如图2)，使用单声源作用检测方法检测出单声源作用时段后，再进行分离滤波器估计，这样，两声源同时作用时就可以进行混合语音分离；本发明提供一种鲁棒性较强的方法，可以实现混合语音的分离，在系统输出分别得到s₁和s₂还原后的信号u₁和u₂。方法的关键在于假设声源存在足够长的单声源作用时段(即只有s_i，i＝1或2，作用的时段)，此时x₁、x₂分别为

x_{j} (n) = Σ_{k = 0}^{K - 1} h_{ji} (k) s_{i} (n - k) + v_{j} (n), j = 1,2 - - - (1)

其中，h_ji(k)是分离滤波器H_ji的第k个系数。利用自适应仿射算法最小化u_3-i(n)，即得

其中A_i是长度为(L-K+1)的任意滤波器(假设L>K)。

估计出分离滤波器后，两声源同时发声时可以在输出端得到分离后的语音信号

其中，

D = H_{11} &CircleTimes; H_{22} - H_{12} &CircleTimes; H_{21},

代表卷积。

A)采用单声源作用检测方法，使用检测滤波器D_i(n)，i＝1，2实现单声源作用时段的检测：即检测出只有一个声源(s₁或s₂)发声的时段。当然，两麦克风接收到的信号(x₁和x₂)同时输入；

B)当单声源作用时段被检测出后，开始分离滤波器W_ij(n)，i，j＝1，2的估计；

C)使用分离滤波器分离混合语音，得到分离后的语音信号u_i(n)，i＝1，2。

本发明特点是：本发明采用一种简单的单声源作用检测方法，在单声源作用时段进行分离滤波器估计，两声源同时作用时段进行混合语音分离。本方法思路简单，计算量不大，鲁棒性好，较易实现。

四、附图说明

图1为语音混合原理及分离滤波器(四个分离滤波器中，{W_j1}与x₁联接，{W_j2}与x₂联接，j＝1，2)的结构框图；

图2为检测滤波器(两个检测滤波器D₁、D₂分别与x₁、x₂联接)的结构框图。

五、具体实施方式

下面通过实施案例对本发明进行详细说明：

如图1，假设房间中有两个声源发出音频信号(s₁和s₂)，两麦克风接收信号，要求麦克风之间的距离大于1米，可以是全指向性的(如麦克风置于房间中间的情况)或者指向声源方向(如麦克风置于房间壁面上的情况)。对于声源的位置没有特别的限制，但两声源之间距离越大，分离效果会越好。检测滤波器的检测、分离滤波器的估计及混合语音的分离均可由软件完成。视听室实地录音中，两扬声器相距1米，两全指向性麦克风相距3米，置于房间中间，该算法在正常的背景噪声下(信噪比为13dB)可达到的信号干扰比(即其任一输出中两声源信号的能量之比值)SIR指标为18dB；低信噪比(5dB)时，SIR仍可达到14dB，完全可以实现混合语音分离，充分体现了此算法的鲁棒性。

本发明实施包括三个阶段：单声源作用检测阶段；分离滤波器估计阶段；及混合语音分离阶段。第一阶段即步骤A)由图2所示滤波器组D_i(n)，i＝1，2实现，第二、三阶段即步骤B)、C)由图1所示滤波器组W_ij(n)，i，j＝1，2实现。第二阶段中，在检测出只有信号s₁作用或只有信号s₂作用时，对分离滤波器{W_1j}{W_2j}，j＝1，2，分别进行估计。

首先令i＝1，估计W₁₁和W₁₂(如图1所示x₁、x₂分别经W₁₁、W₁₂滤波)：

(1)即步骤A)两个检测滤波器(如图2x₁、x₂分别经D₁、D₂滤波)工作，滤波器长度为L(大小视房间混响时间及采样频率而定)，按式(4)(5)更新，步长较大，具体可根据实际情况调节但须满足μ_j<1，(j＝1，2)，P＝5：

E_i(n)＝X^T _e(n)[D^T _i(n)D^T _3-i(n)]^T (4)

D_j(n+1)＝D_j(n)-μ_jX_Pj(n)[X^T _Pj(n)X_Pj(n)+δI]^-1E_i(n) (5)

其中，[D^T _i(n)D^T _3-i(n)]是由两滤波器系数依次排列组成的长度为2L的行向量且它的第一个系数固定为1；X_e(n)为2LxP的矩阵，X_Pj(n)为LxP的矩阵，具体如式(6)(7)所示；I是P阶单位矩阵；δ是一个很小的正数，一般令其为0.01。检测滤波器输出为：

u_{D} (n) = Σ_{i = 1}^{2} Σ_{l = 0}^{L - 1} D_{i, l} (n) x_{i} (n - l),

D_i，l(n)是n时刻检测滤波器的第l个系数。

X_{e} (n) = [\begin{matrix} x_{i} (n) & x_{i} (n - 1) & \cdot \cdot \cdot & x_{i} (n - P + 1) \\ x_{i} (n - 1) \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ x_{i} (n - L + 1) & \cdot \cdot \cdot & \cdot \cdot \cdot & x_{i} (n - L - P + 2) \\ x_{3 - i} (n) & x_{3 - i} (n - 1) & \cdot \cdot \cdot & x_{3 - i} (n - P + 1) \\ x_{3 - i} (n - 1) \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ x_{3 - i} (n - L + 1) & \cdot \cdot \cdot & \cdot \cdot \cdot & x_{3 - i} (n - L - P + 2) \end{matrix}] - - - (6)

X_{P_{j}} (n) = [\begin{matrix} x_{j} (n) & x_{j} (n - 1) & \cdot \cdot \cdot & x_{j} (n - P + 1) \\ x_{j} (n - 1) \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ x_{j} (n - L + 1) & \cdot \cdot \cdot & \cdot \cdot \cdot & x_{j} (n - L - P + 2) \end{matrix}] - - - (7)

(2)步骤B)和C)当检测滤波器输出u_D(n)的绝对值的平均值(1/N)Σⁿ _m＝n-N+1|u_D(n)|(N的值根据录音的采样频率而定，一般满足样本u_D(n)长度达到100ms)小于某一门限T时(T值根据实际情况调节，约为输入信号能量的1/4)，说明只有一个声源发声。此时令分离滤波器的系数与测量滤波器的系数相同，即W_ij＝D_j，j＝1，2，并开始分离滤波器更新；输入信号仍为x₁和x₂，更新公式如(4)(5)，其中D_j用W_ij代替，但步长减小；

(3)当检测滤波器输出u_D(n)的绝对值的平均值(1/N)Σⁿ _m＝n-N+1|u_D(n)|大于T时，说明两个声源同时发声，W_ij停止更新，令i＝2，重复步骤(1)(2)，估计W₂₂和W₂₁(如图1所示x₁、x₂分别经W₂₂、W₂₁滤波)。

(4)当检测滤波器输出u_D(n)的绝对值的平均值(1/N)∑ⁿ _m＝n-N+1|u_D(n)|大于T时，W_ij停止更新。可以按式(8)进行混合语音分离，得到分离信号u_j(n)，j＝1，2：

u_{j} (n) = Σ_{i = 1}^{2} Σ_{l = 0}^{L - 1} w_{ji} (l) x_{i} (n - l), - - - (8)

其中，w_ji(l)是分离滤波器W_ji的第l个系数。

Claims

1、强鲁棒性语音分离方法，其特征是采用单声源作用检测方法检测单声源作用时段，在检测出的单声源作用时段实现分离滤波器估计，最后利用估计出的分离滤波器实现双声源作用时混合语音的分离；

A)采用单声源作用检测方法，使用检测滤波器D_i(n)，i＝1，2实现单声源作用时段的检测：即检测出只有一个声源(s₁或s₂)发声的时段。

B)当单声源作用时段被检测出后，在单声源作用时段进行分离滤波器W_ij(n)，i，j＝1，2的估计；

C)分离滤波器估计完成后，使用分离滤波器分离混合语音，得到分离后的语音信号u_i(n)，i＝1，2。

2、根据权利要求1所述的强鲁棒性语音分离方法，其特征是采用两路麦克风接收信号x₁和x₂，且每路信号分别联接分离滤波器W_ij(n)，i，j＝1，2，同时x₁和x₂分别联接检测滤波器D_i(n)，i＝1，2：在步骤A)时，检测滤波器D_i(n)用于单声源作用时段的检测；步骤B)时，估计分离滤波器W_ij(n)。

3、根据权利要求1所述的强鲁棒性语音分离方法，其特征是在步骤A)检测滤波的方法：滤波器长度为L，按下述式(1)、(2)更新，i＝1，满足μ_j<1，(j＝1，2)，P＝5：

E_i(n)＝X^T _e(n)[D^T _i(n)D^T _3-i(n)]^T (1)

D_j(n+1)＝D_j(n)-μ_jX_Pj(n)[X^T _Pj(n)X_Pjn)+δI]^-1E_i(n) (2)

其中，[D^T _i(n)D^T _3-i(n)]是由两滤波器系数顺次排列组成的长度为2L的行向量且它的第一个系数固定为1；X_e(n)为2LxP的矩阵，X_Pj(n)为LxP的矩阵，具体如下述式(3)、(4)所示；I是P阶单位矩阵；δ为0.01；

X_{e} (n) = [\begin{matrix} x_{i} (n) & x_{i} (n - 1) & \cdot \cdot \cdot & x_{i} (n - P + 1) \\ x_{i} (n - 1) \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ x_{i} (n - L + 1) & \cdot \cdot \cdot & \cdot \cdot \cdot & x_{i} (n - L - P + 2) \\ x_{3 - i} (n) & x_{3 - i} (n - 1) & \cdot \cdot \cdot & x_{3 - i} (n - P + 1) \\ x_{3 - i} (n - 1) \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ x_{3 - i} (n - L + 1) & \cdot \cdot \cdot & \cdot \cdot \cdot & x_{3 - i} (n - L - P + 2) \end{matrix}] - - - (3)

X_{P_{j}} (n) = [\begin{matrix} x_{j} (n) & x_{j} (n - 1) & \cdot \cdot \cdot & x_{j} (n - P + 1) \\ x_{j} (n - 1) \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ x_{j} (n - L + 1) & \cdot \cdot \cdot & \cdot \cdot \cdot & x_{j} (n - L - P + 2) \end{matrix}] - - - (4)

4、根据权利要求3所述的强鲁棒性语音分离方法：其特征是步骤B)和C)中：当检测滤波器输出u_D(n)的绝对值的平均值(1/N)∑ⁿ _m＝n-N+1|u_D(n)|小于某一门限T时，令分离滤波器的系数与测量滤波器的系数相同，即W_ij＝D_j，W_ij开始更新；输入信号仍为x₁和x₂，更新公式如式(1)、(2)，其中D_j用W_ij代替，但步长减小；

当检测滤波器输出u_D(n)的绝对值的平均值(1/N)∑ⁿ _m＝n-N+1|u_D(n)|大于T时，W_ij停止更新，令i＝2，重复步骤B)；

检测滤波器输出u_D(n)的绝对值的平均值(1/N)∑ⁿ _m=n-N+1|u_D(n)|大于T时，W_ij停止更新，进行混合语音分离，得到分离信号u_j(n)，j＝1，2。