CN102543098B

CN102543098B - 一种分频段切换cmn非线性函数的频域语音盲分离方法

Info

Publication number: CN102543098B
Application number: CN2012100226210A
Authority: CN
Inventors: 林秋华
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2012-02-01
Filing date: 2012-02-01
Publication date: 2013-04-10
Anticipated expiration: 2032-02-01
Also published as: CN102543098A

Abstract

本发明公开了一种分频段切换CMN非线性函数的频域语音盲分离方法，属于语音增强技术领域。其特征是将基于峭度分布特性将频域语音分为低频和中频两个频段，应用三种分频段方案切换复数CMN算法的非线性函数，使至少一种方案与频域语音的高斯性和对称性最为匹配。与单一非线性函数CMN算法相比，本发明能够适应语音在高斯性和对称性方面的变化，显著提高语音分离性能，当采用一般的幅度相关法进行各频点语音调序时，两路语音分离信噪比最大可提高11dB，而且性能稳定，易于软硬件实现，可广泛用于计算机感知与决策、无人驾驶等关键技术中完成语音增强功能，进一步提升语音识别和内容理解等语音信号处理任务的整体性能。

Description

一种分频段切换CMN非线性函数的频域语音盲分离方法

技术领域

本发明涉及一种语音增强方法，特别是涉及一种频域语音盲分离方法。

背景技术

语音识别和内容理解是计算机感知与决策、无人驾驶等国家关键技术中的重要功能。然而，由于自然环境下的语音常常受到环境噪声、多人多方对话等干扰，其信噪比和可懂度大为降低，严重时可造成语音识别和内容理解失败。所以，消除各种语音干扰(即语音增强)是语音信号处理的首要环节。因为语音和噪声特性复杂多变，人们一直在探索稳定、有效的语音增强方法，但至今仍面临巨大挑战。

传统的语音增强方法包括自适应滤波、谱减法、波束形成等。这些方法通常需要准确的先验信息(如噪声特性)，有时因难于精确获得这些信息而导致性能下降。为此，对先验信息要求很低的盲源分离(简称盲分离)方法近年来已成为语音增强的研究热点。盲分离方法几乎不需要语音信号及其混合方面的任何信息，即能从多路语音混合信号(来自麦克风)中分离出各个语音信号，实现语音增强功能。现有研究结果表明，在强混响环境中，语音和麦克风之间的响应是一个高阶FIR滤波器。因此，实际语音混合信号需要用卷积混合模型进行描述，语音增强问题也就变成了盲分离解卷积问题。

目前，盲分离解卷积有时域和频域两种方法。顾名思义，时域方法在时域内学习FIR混合滤波器的逆，当滤波器阶数较低时分离性能较好。但在实际应用中，混合滤波器的阶数较高(如几千阶)，逆滤波器的阶数也就很高，众多的学习参数致使时域方法计算量繁重、收敛困难。相比之下，频域方法通过短时傅里叶变换(short time Fourier transform，STFT)将时域卷积混合信号转化为各个频点的复数瞬时混合信号，这样只需对各频点语音混合信号进行瞬时盲分离，就可以实现解卷积。因此，频域方法具有运算量小、收敛速度快等优势，已成为语音增强的热点方法之一，也是本发明所采用的处理方法。

频域语音盲分离的一种常用做法包括三步：(1)在各频点对复数语音混合信号进行盲分离，(2)在各频点对各个语音分离信号进行排序，(3)对排序后各语音信号进行傅里叶反变换(inverse discrete Fourier transform，IDFT)得到时域语音分离信号。其中，第一步的复数语音混合信号盲分离最为关键，其性能好坏直接决定后续两步的成败。如果分离效果好，第二步的排序易于进行且正确率高，第三步获取的分离语音信噪比就高；如果分离不好，将造成排序错误和分离失败。目前，实现第一步频域语音分离的复数盲分离算法主要有，适于分离环形(circular)信号的CfastICA(complex fastICA)，适于分离非环形(noncircular)信号的SUT(strongly uncorrelating transform)，适于分离环形和非环形混合信号的JADE(joint approximate diagonalization of eigenmatrices)、KM(kurtosismaximization)、CMN(complex maximization of non-Gaussianity)、ACMN(adaptable CMN)等算法。非环形度测量结果表明，各频点语音信号为环形和非环形混合信号，因此，JADE、KM、CMN、ACMN等算法在分离语音信号时性能明显优于CfastICA和SUT。

然而，JADE、KM、CMN、ACMN等算法并非专门为分离频域语音信号而开发，也就是说，这些算法并未考虑语音的各种特性及其变化，所以尚不能直接提供令人满意的语音分离结果。例如，ACMN可针对源信号分布自适应调整非线性函数与之匹配，但仅限于对称分布源信号，而大多数语音为非对称分布信号，所以ACMN在分离语音时性能并不理想。同样，JADE和KM因为目标函数与语音特性不匹配，语音分离性能也不够好。最具潜力的分离算法当属CMN，其非线性函数较多，有的适合对称分布信号，有的适合非对称分布信号，所以可提供与语音分布相匹配的非线性函数，分离性能高于ACMN、JADE和KM等算法。但是，CMN算法存在的最大问题是，采用了单一非线性函数，不能适应不同语音在高斯性和对称性方面发生的变化，致使其在分离频域语音时性能存在较大波动。具体表现为，单一非线性函数CMN算法对有些语音混合信号的分离效果较好，但对另外一些语音混合信号的分离效果却较差。而且，即使在分离效果较好的情况下，单一非线性函数也不能适应语音信号在全频段发生的特性改变，致使分离性能上限受到限制。

发明内容

本发明的目的在于，提供一种分频段切换CMN非线性函数的频域语音盲分离方法，以匹配不同语音发生的高斯性和对称性变化，或同一语音在全频段发生的高斯性和对称性改变，解决单一非线性函数CMN算法的性能波动及性能受限问题。

本发明的技术方案是，基于网上公布的众多纯净语音信号，定量计算其频域语音的峭度值，统计得到频域语音的高斯性，即低频段语音属于超高斯分布，峭度值大于零，中频段语音属于高斯分布，峭度值约等于零。根据这一峭度分布特性，将频域语音分为低频和中频两个频段，应用以下三种分频段方案切换复数CMN算法的非线性函数，使至少一种方案与频域语音的高斯性和对称性最为匹配：

(1)低频段采用非线性函数asinh(x)，中频段采用非线性函数x^0.8；

(2)低频段采用非线性函数asinh(2x)，中频段采用非线性函数x^0.8；

(3)低频段采用非线性函数asinh(2x)，中频段采用非线性函数asinh(x)。其中，x表示频域语音信号，非线性函数asinh(x)和asinh(2x)用于匹配低频段非对称语音分布以及语音高斯性变化；在中频段，选择非线性函数x^0.8匹配对称分布语音，选择非线性函数asinh(x)匹配非对称分布语音。因此，三种分频段方案性能互补，总有一种方案适应语音信号变化引起的高斯性和对称性变化，输出优于单一非线性函数CMN算法的分离结果。接下来，在对三种分频段方案分离的各频点语音进行调序和IDFT后，本发明总能提供一种较为理想的分离语音。

对于不同的语音信号，其频域峭度的低频段和中频段分界点会略有不同。大量的实验测试和统计结果表明，以100Hz～300Hz范围内的任意频率为频段分界点时，本发明分离性能均很稳定且相近。因此，在三种分频段方案中，可选取100Hz～300Hz范围内的任意频率为分界点，将频域语音分为低频和中频两个频段。

本发明所达到的效果和益处是，与基于单一非线性函数CMN算法的频域语音盲分离方法相比，本发明能够适应语音在高斯性和对称性方面的变化，显著提高语音分离性能。例如，在大量的两路混合语音分离实验中，采用一般的幅度相关法进行各频点语音调序时，单组语音分离信噪比最大可提高11dB，多组语音分离信噪比平均可提高4dB。此外，本发明性能稳定，易于软硬件实现，可广泛用于计算机感知与决策、无人驾驶等关键技术中完成语音增强功能，进一步提升语音识别和内容理解等语音信号处理任务的整体性能。

附图说明

附图是本发明分离两路语音混合信号的具体步骤。

具体实施方式

下面结合技术方案和附图，详细叙述本发明的一个具体实施例。

假设有两路麦克风录制的语音混合信号，记为x1，x2，其中包含两个说话人同时讲话的语音s1，s2，即x1，x2是s1，s2的混合信号，s1，s2在x1，x2中互相干扰。为了获取两个纯净语音s1，s2，需要分离混合信号x1，x2。具体分离步骤如附图所示。

第一步，将x1，x2进行加窗分帧处理和STFT变换，得到频域语音混合信号x1(f，t)，x2(f，t)。

第二步，低频、中频分段，可选取100Hz～300Hz范围内的任意频率如200Hz为分界点，将频域语音混合信号x1(f，t)，x2(f，t)分为低频和中频两个频段。

第三步，采用本发明对各频点语音混合信号x1(f，t)，x2(f，t)进行分离，即采用以下三种分频段方案：(1)CMN1：低频段asinh(x)，中频段x^0.8；(2)CMN2：低频段asinh(2x)，中频段x^0.8；(3)CMN3：低频段asinh(2x)，中频段asinh(x)，切换复数CMN算法的非线性函数，对各频点语音混合信号分别进行盲分离，得到三种分离结果y11(f，t)，y12(f，t)；y21(f，t)，y22(f，t)；y31(f，t)，y32(f，t)。

第四步，分别对本发明分离的各频点语音信号y11(f，t)，y12(f，t)；y21(f，t)，y22(f，t)；y31(f，t)，y32(f，t)进行排序，如采用一般的幅度相关排序法，然后分别对排序后的频域语音进行IDFT，获取三种时域语音分离信号y11，y12；y21，y22；y31，y32。

第五步，对y11，y12；y21，y22；y31，y32进行选择，如选择其中信噪比最高的语音分离信号，记为y1，y2，将其作为纯净语音s1，s2的最终估计信号。

Claims

1.一种分频段切换CMN非线性函数的频域语音盲分离方法，其特征是，将频域语音分为低频和中频两个频段，其中，以100Hz~300Hz范围内的任意频率为分界点，将频域语音分为低频和中频两个频段，或者，基于峭度分布特性将频域语音分为低频和中频两个频段，低频段语音的峭度值大于零，中频段语音的峭度值约等于零；采用以下三种分频段方案切换复数CMN算法的非线性函数，对各频点语音混合信号分别进行盲分离，得到三种分离结果，采用幅度相关排序法对得到的三种分离结果进行排序，并对排序后的频域语音进行IDFT，获取三种时域语音分离信号，在所获取的三种时域语音分离信号中选择最佳的分离信号作为最终分离结果：

(1) 低频段采用非线性函数asinh(x)，中频段采用非线性函数x^0.8;

(2) 低频段采用非线性函数asinh(2x)，中频段采用非线性函数x^0.8;

(3) 低频段采用非线性函数asinh(2x)，中频段采用非线性函数asinh(x)。

2.根据权利要求1所述的一种分频段切换CMN非线性函数的频域语音盲分离方法，其特征是，基于峭度分布特性将频域语音分为低频和中频两个频段。

3.根据权利要求1所述的一种分频段切换CMN非线性函数的频域语音盲分离方法，其特征是，以100Hz~300Hz范围内的任意频率为分界点，将频域语音分为低频和中频两个频段。

4.根据权利要求1所述的一种分频段切换CMN非线性函数的频域语音盲分离方法，其特征是，低频段采用非线性函数asinh(x)和asinh(2x)与非对称语音分布以及语音非零峭度的大小变化相匹配；中频段选择非线性函数x^0.8匹配对称分布语音，选择非线性函数asinh(x)匹配非对称分布语音。