CN102543098B - 一种分频段切换cmn非线性函数的频域语音盲分离方法 - Google Patents
一种分频段切换cmn非线性函数的频域语音盲分离方法 Download PDFInfo
- Publication number
- CN102543098B CN102543098B CN2012100226210A CN201210022621A CN102543098B CN 102543098 B CN102543098 B CN 102543098B CN 2012100226210 A CN2012100226210 A CN 2012100226210A CN 201210022621 A CN201210022621 A CN 201210022621A CN 102543098 B CN102543098 B CN 102543098B
- Authority
- CN
- China
- Prior art keywords
- frequency
- voice
- nonlinear function
- cmn
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种分频段切换CMN非线性函数的频域语音盲分离方法,属于语音增强技术领域。其特征是将基于峭度分布特性将频域语音分为低频和中频两个频段,应用三种分频段方案切换复数CMN算法的非线性函数,使至少一种方案与频域语音的高斯性和对称性最为匹配。与单一非线性函数CMN算法相比,本发明能够适应语音在高斯性和对称性方面的变化,显著提高语音分离性能,当采用一般的幅度相关法进行各频点语音调序时,两路语音分离信噪比最大可提高11dB,而且性能稳定,易于软硬件实现,可广泛用于计算机感知与决策、无人驾驶等关键技术中完成语音增强功能,进一步提升语音识别和内容理解等语音信号处理任务的整体性能。
Description
技术领域
本发明涉及一种语音增强方法,特别是涉及一种频域语音盲分离方法。
背景技术
语音识别和内容理解是计算机感知与决策、无人驾驶等国家关键技术中的重要功能。然而,由于自然环境下的语音常常受到环境噪声、多人多方对话等干扰,其信噪比和可懂度大为降低,严重时可造成语音识别和内容理解失败。所以,消除各种语音干扰(即语音增强)是语音信号处理的首要环节。因为语音和噪声特性复杂多变,人们一直在探索稳定、有效的语音增强方法,但至今仍面临巨大挑战。
传统的语音增强方法包括自适应滤波、谱减法、波束形成等。这些方法通常需要准确的先验信息(如噪声特性),有时因难于精确获得这些信息而导致性能下降。为此,对先验信息要求很低的盲源分离(简称盲分离)方法近年来已成为语音增强的研究热点。盲分离方法几乎不需要语音信号及其混合方面的任何信息,即能从多路语音混合信号(来自麦克风)中分离出各个语音信号,实现语音增强功能。现有研究结果表明,在强混响环境中,语音和麦克风之间的响应是一个高阶FIR滤波器。因此,实际语音混合信号需要用卷积混合模型进行描述,语音增强问题也就变成了盲分离解卷积问题。
目前,盲分离解卷积有时域和频域两种方法。顾名思义,时域方法在时域内学习FIR混合滤波器的逆,当滤波器阶数较低时分离性能较好。但在实际应用中,混合滤波器的阶数较高(如几千阶),逆滤波器的阶数也就很高,众多的学习参数致使时域方法计算量繁重、收敛困难。相比之下,频域方法通过短时傅里叶变换(short time Fourier transform,STFT)将时域卷积混合信号转化为各个频点的复数瞬时混合信号,这样只需对各频点语音混合信号进行瞬时盲分离,就可以实现解卷积。因此,频域方法具有运算量小、收敛速度快等优势,已成为语音增强的热点方法之一,也是本发明所采用的处理方法。
频域语音盲分离的一种常用做法包括三步:(1)在各频点对复数语音混合信号进行盲分离,(2)在各频点对各个语音分离信号进行排序,(3)对排序后各语音信号进行傅里叶反变换(inverse discrete Fourier transform,IDFT)得到时域语音分离信号。其中,第一步的复数语音混合信号盲分离最为关键,其性能好坏直接决定后续两步的成败。如果分离效果好,第二步的排序易于进行且正确率高,第三步获取的分离语音信噪比就高;如果分离不好,将造成排序错误和分离失败。目前,实现第一步频域语音分离的复数盲分离算法主要有,适于分离环形(circular)信号的CfastICA(complex fastICA),适于分离非环形(noncircular)信号的SUT(strongly uncorrelating transform),适于分离环形和非环形混合信号的JADE(joint approximate diagonalization of eigenmatrices)、KM(kurtosismaximization)、CMN(complex maximization of non-Gaussianity)、ACMN(adaptable CMN)等算法。非环形度测量结果表明,各频点语音信号为环形和非环形混合信号,因此,JADE、KM、CMN、ACMN等算法在分离语音信号时性能明显优于CfastICA和SUT。
然而,JADE、KM、CMN、ACMN等算法并非专门为分离频域语音信号而开发,也就是说,这些算法并未考虑语音的各种特性及其变化,所以尚不能直接提供令人满意的语音分离结果。例如,ACMN可针对源信号分布自适应调整非线性函数与之匹配,但仅限于对称分布源信号,而大多数语音为非对称分布信号,所以ACMN在分离语音时性能并不理想。同样,JADE和KM因为目标函数与语音特性不匹配,语音分离性能也不够好。最具潜力的分离算法当属CMN,其非线性函数较多,有的适合对称分布信号,有的适合非对称分布信号,所以可提供与语音分布相匹配的非线性函数,分离性能高于ACMN、JADE和KM等算法。但是,CMN算法存在的最大问题是,采用了单一非线性函数,不能适应不同语音在高斯性和对称性方面发生的变化,致使其在分离频域语音时性能存在较大波动。具体表现为,单一非线性函数CMN算法对有些语音混合信号的分离效果较好,但对另外一些语音混合信号的分离效果却较差。而且,即使在分离效果较好的情况下,单一非线性函数也不能适应语音信号在全频段发生的特性改变,致使分离性能上限受到限制。
发明内容
本发明的目的在于,提供一种分频段切换CMN非线性函数的频域语音盲分离方法,以匹配不同语音发生的高斯性和对称性变化,或同一语音在全频段发生的高斯性和对称性改变,解决单一非线性函数CMN算法的性能波动及性能受限问题。
本发明的技术方案是,基于网上公布的众多纯净语音信号,定量计算其频域语音的峭度值,统计得到频域语音的高斯性,即低频段语音属于超高斯分布,峭度值大于零,中频段语音属于高斯分布,峭度值约等于零。根据这一峭度分布特性,将频域语音分为低频和中频两个频段,应用以下三种分频段方案切换复数CMN算法的非线性函数,使至少一种方案与频域语音的高斯性和对称性最为匹配:
(1)低频段采用非线性函数asinh(x),中频段采用非线性函数x0.8;
(2)低频段采用非线性函数asinh(2x),中频段采用非线性函数x0.8;
(3)低频段采用非线性函数asinh(2x),中频段采用非线性函数asinh(x)。其中,x表示频域语音信号,非线性函数asinh(x)和asinh(2x)用于匹配低频段非对称语音分布以及语音高斯性变化;在中频段,选择非线性函数x0.8匹配对称分布语音,选择非线性函数asinh(x)匹配非对称分布语音。因此,三种分频段方案性能互补,总有一种方案适应语音信号变化引起的高斯性和对称性变化,输出优于单一非线性函数CMN算法的分离结果。接下来,在对三种分频段方案分离的各频点语音进行调序和IDFT后,本发明总能提供一种较为理想的分离语音。
对于不同的语音信号,其频域峭度的低频段和中频段分界点会略有不同。大量的实验测试和统计结果表明,以100Hz~300Hz范围内的任意频率为频段分界点时,本发明分离性能均很稳定且相近。因此,在三种分频段方案中,可选取100Hz~300Hz范围内的任意频率为分界点,将频域语音分为低频和中频两个频段。
本发明所达到的效果和益处是,与基于单一非线性函数CMN算法的频域语音盲分离方法相比,本发明能够适应语音在高斯性和对称性方面的变化,显著提高语音分离性能。例如,在大量的两路混合语音分离实验中,采用一般的幅度相关法进行各频点语音调序时,单组语音分离信噪比最大可提高11dB,多组语音分离信噪比平均可提高4dB。此外,本发明性能稳定,易于软硬件实现,可广泛用于计算机感知与决策、无人驾驶等关键技术中完成语音增强功能,进一步提升语音识别和内容理解等语音信号处理任务的整体性能。
附图说明
附图是本发明分离两路语音混合信号的具体步骤。
具体实施方式
下面结合技术方案和附图,详细叙述本发明的一个具体实施例。
假设有两路麦克风录制的语音混合信号,记为x1,x2,其中包含两个说话人同时讲话的语音s1,s2,即x1,x2是s1,s2的混合信号,s1,s2在x1,x2中互相干扰。为了获取两个纯净语音s1,s2,需要分离混合信号x1,x2。具体分离步骤如附图所示。
第一步,将x1,x2进行加窗分帧处理和STFT变换,得到频域语音混合信号x1(f,t),x2(f,t)。
第二步,低频、中频分段,可选取100Hz~300Hz范围内的任意频率如200Hz为分界点,将频域语音混合信号x1(f,t),x2(f,t)分为低频和中频两个频段。
第三步,采用本发明对各频点语音混合信号x1(f,t),x2(f,t)进行分离,即采用以下三种分频段方案:(1)CMN1:低频段asinh(x),中频段x0.8;(2)CMN2:低频段asinh(2x),中频段x0.8;(3)CMN3:低频段asinh(2x),中频段asinh(x),切换复数CMN算法的非线性函数,对各频点语音混合信号分别进行盲分离,得到三种分离结果y11(f,t),y12(f,t);y21(f,t),y22(f,t);y31(f,t),y32(f,t)。
第四步,分别对本发明分离的各频点语音信号y11(f,t),y12(f,t);y21(f,t),y22(f,t);y31(f,t),y32(f,t)进行排序,如采用一般的幅度相关排序法,然后分别对排序后的频域语音进行IDFT,获取三种时域语音分离信号y11,y12;y21,y22;y31,y32。
第五步,对y11,y12;y21,y22;y31,y32进行选择,如选择其中信噪比最高的语音分离信号,记为y1,y2,将其作为纯净语音s1,s2的最终估计信号。
Claims (4)
1.一种分频段切换CMN非线性函数的频域语音盲分离方法,其特征是,将频域语音分为低频和中频两个频段,其中,以100Hz~300Hz范围内的任意频率为分界点,将频域语音分为低频和中频两个频段,或者,基于峭度分布特性将频域语音分为低频和中频两个频段,低频段语音的峭度值大于零,中频段语音的峭度值约等于零;采用以下三种分频段方案切换复数CMN算法的非线性函数,对各频点语音混合信号分别进行盲分离,得到三种分离结果,采用幅度相关排序法对得到的三种分离结果进行排序,并对排序后的频域语音进行IDFT,获取三种时域语音分离信号,在所获取的三种时域语音分离信号中选择最佳的分离信号作为最终分离结果:
(1) 低频段采用非线性函数asinh(x),中频段采用非线性函数x0.8 ;
(2) 低频段采用非线性函数asinh(2x),中频段采用非线性函数x0.8 ;
(3) 低频段采用非线性函数asinh(2x),中频段采用非线性函数asinh(x)。
2.根据权利要求1所述的一种分频段切换CMN非线性函数的频域语音盲分离方法,其特征是,基于峭度分布特性将频域语音分为低频和中频两个频段。
3.根据权利要求1所述的一种分频段切换CMN非线性函数的频域语音盲分离方法,其特征是,以100Hz~300Hz范围内的任意频率为分界点,将频域语音分为低频和中频两个频段。
4.根据权利要求1所述的一种分频段切换CMN非线性函数的频域语音盲分离方法,其特征是,低频段采用非线性函数asinh(x)和asinh(2x)与非对称语音分布以及语音非零峭度的大小变化相匹配;中频段选择非线性函数x0.8匹配对称分布语音,选择非线性函数asinh(x)匹配非对称分布语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100226210A CN102543098B (zh) | 2012-02-01 | 2012-02-01 | 一种分频段切换cmn非线性函数的频域语音盲分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100226210A CN102543098B (zh) | 2012-02-01 | 2012-02-01 | 一种分频段切换cmn非线性函数的频域语音盲分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102543098A CN102543098A (zh) | 2012-07-04 |
CN102543098B true CN102543098B (zh) | 2013-04-10 |
Family
ID=46349834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100226210A Expired - Fee Related CN102543098B (zh) | 2012-02-01 | 2012-02-01 | 一种分频段切换cmn非线性函数的频域语音盲分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102543098B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110010148B (zh) * | 2019-03-19 | 2021-03-16 | 中国科学院声学研究所 | 一种低复杂度的频域盲分离方法及系统 |
CN111899754A (zh) * | 2020-07-29 | 2020-11-06 | 哈尔滨理工大学 | GA_FastICA算法的语音分离效果算法 |
CN113362831A (zh) * | 2021-07-12 | 2021-09-07 | 科大讯飞股份有限公司 | 一种说话人分离方法及其相关设备 |
CN114220454B (zh) * | 2022-01-25 | 2022-12-09 | 北京荣耀终端有限公司 | 一种音频降噪方法、介质和电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4496379B2 (ja) * | 2003-09-17 | 2010-07-07 | 財団法人北九州産業学術推進機構 | 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法 |
JP4675177B2 (ja) * | 2005-07-26 | 2011-04-20 | 株式会社神戸製鋼所 | 音源分離装置,音源分離プログラム及び音源分離方法 |
WO2007100330A1 (en) * | 2006-03-01 | 2007-09-07 | The Regents Of The University Of California | Systems and methods for blind source signal separation |
US7970564B2 (en) * | 2006-05-02 | 2011-06-28 | Qualcomm Incorporated | Enhancement techniques for blind source separation (BSS) |
-
2012
- 2012-02-01 CN CN2012100226210A patent/CN102543098B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102543098A (zh) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102543098B (zh) | 一种分频段切换cmn非线性函数的频域语音盲分离方法 | |
CN101828335B (zh) | 稳健双麦克风噪声抑制系统 | |
CN101297352B (zh) | 用于编码和解码音频信号的装置及其方法 | |
CN102097099A (zh) | 使用通过线性组合的频谱分析的源声分离器及其方法 | |
CN107068162B (zh) | 一种语音增强方法、装置及终端设备 | |
CN102469387A (zh) | 抑制噪音系统与方法 | |
CN104219013A (zh) | 一种视频会议系统的多麦克风混音方法 | |
CN106797526A (zh) | 音频处理装置、方法和程序 | |
CN108877831B (zh) | 基于多标准融合频点筛选的盲源分离快速方法及系统 | |
US20150163600A1 (en) | Method and computer program product of processing sound segment and hearing aid | |
Zhang et al. | Beijing zkj-npu speaker verification system for voxceleb speaker recognition challenge 2021 | |
CN113329372B (zh) | 用于车载通话的方法、装置、设备、介质和产品 | |
CN104778951A (zh) | 语音增强的方法和装置 | |
CN103000183B (zh) | 语音增强方法 | |
CN103310800B (zh) | 一种抗噪声干扰的浊语音检测方法及系统 | |
CN110675888A (zh) | 一种基于RefineNet和评价损失的语音增强方法 | |
Wang et al. | Dasformer: Deep alternating spectrogram transformer for multi/single-channel speech separation | |
Kothapally et al. | Deep neural mel-subband beamformer for in-car speech separation | |
JP2022521811A (ja) | 優先度を持つ空間認識マルチバンド圧縮システム | |
CN103440870A (zh) | 一种音频降噪方法及装置 | |
CN107426391A (zh) | 免提通话终端及其语音信号处理方法、装置 | |
CN107426392A (zh) | 免提通话终端及其语音信号处理方法、装置 | |
Ravenscroft et al. | Utterance weighted multi-dilation temporal convolutional networks for monaural speech dereverberation | |
Mu et al. | A multi-stage triple-path method for speech separation in noisy and reverberant environments | |
Vilouras | Acoustic scene classification using fully convolutional neural networks and per-channel energy normalization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130410 Termination date: 20160201 |
|
CF01 | Termination of patent right due to non-payment of annual fee |