CN1514431A - 非线性谱减缺失分量估计方法 - Google Patents

非线性谱减缺失分量估计方法 Download PDF

Info

Publication number
CN1514431A
CN1514431A CNA031274978A CN03127497A CN1514431A CN 1514431 A CN1514431 A CN 1514431A CN A031274978 A CNA031274978 A CN A031274978A CN 03127497 A CN03127497 A CN 03127497A CN 1514431 A CN1514431 A CN 1514431A
Authority
CN
China
Prior art keywords
noise
ratio
disappearance
subband
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031274978A
Other languages
English (en)
Other versions
CN1212603C (zh
Inventor
杜利民
罗宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CNB031274978A priority Critical patent/CN1212603C/zh
Publication of CN1514431A publication Critical patent/CN1514431A/zh
Application granted granted Critical
Publication of CN1212603C publication Critical patent/CN1212603C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种根据局部信噪比,估计受噪声掩蔽的语音子带特征分量的方法。其特征为:通过调整参数A、B、C、N,使在信噪比较大的语音段,噪声更新系数α取较大值,噪声子带特征矢量的估计更新较慢;在信噪比较低的静音段,噪声更新系数α取较小值,噪声子带特征矢量的估计更新较快。在信噪较高的情况下,无论是非平稳噪声还是平稳噪声,非线性谱减缺失分量估计方法都具有良好性能。

Description

非线性谱减缺失分量估计方法
技术领域
本发明涉及到计算机技术应用技术,特别是语音识别技术中根据局部信噪比,估计语音特征矢量受噪声掩蔽的分量的非线性谱减缺失分量估计技术。
背景技术
噪声鲁棒性问题是语音识别技术目前面临的主要挑战之一,深入研究基于数据重建的语音识别鲁棒性技术,具有重要的理论意义和广泛应用价值。
当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知,使其变得不易察觉,这种现象称为掩蔽效应。根据人耳掩蔽效应,人们提出了缺失特征方法。缺失特征方法认为噪声和语音在时间~频率域上不同区域具有不同局部信噪比,并进行缺失分量估计,即把局部信噪比较低的区域标记为“缺失矢量”,而局部信噪比较高的区域标记为“可靠矢量”,然后进行语音识别。
缺失分量估计是缺失特征方法应用于鲁棒语音识别的基础,对缺失特征方法的性能有重要的影响。谱减法假设语音信号是平稳或者缓变的,并根据历史噪声功率谱估计当前噪声功率谱。谱减法可以估计出语音每个美子带内的信噪比,因此可以用于缺失分量估计。
谱减法假设噪声是平稳或者缓变的,并利用历史噪声谱估计当前噪声谱。基于谱减法的缺失分量估计方法和步骤如下:
1)假设噪声为平稳或者缓变信号,且在语音的起始部分仅仅包括了噪声。使用若干起始美子带特征的平均作为噪声子带特征矢量的估计;
2)估计在每个美子带内的局部信噪比;
首先,估计每个美子带内噪声能量:
Figure A0312749700061
其中,NSi(k)表示受噪声破坏的语音第i帧美子带特征的第k个分量(对应第k个美三角子带内的受噪声破坏语音的能量); 表示噪声第i帧美子带特征的第k个分量的估计(对应第k个美三角子带内的噪声能量估计)。α,噪声更新系数,定义了根据当前信号,噪声能量估计更新速度的快慢;β,噪声门限,定义了更新噪声能量估计的信号能量门限。
然后,估计每个美子带内的局部信噪比:
S N ^ R i ( k ) = 10 L og 10 ( NS i ( k ) - N ^ i ( k ) N ^ i ( k ) ) - - - ( 2 )
3)缺失分量估计:
Figure A0312749700064
掩蔽门限δ是判断特征是否可靠的门限。δ的取值范围根据人耳掩蔽效应进行选择和调整。
基于谱减法的缺失分量估计算法根据当前输入信号能量,调整噪声谱估计,进而进行局部信噪比估计,根据局部信噪比估计完成缺失分量估计。一系列实验表明,基于谱减法的缺失分量估计算法在处理非平稳噪声时遇到了困难:如果噪声谱估计根据当前输入信号能量更新得比较快,在静音段,噪声谱能够得到较好的估计,但是在语音段,噪声谱估计受到语音谱的影响发生较大误差;如果噪声谱估计根据当前输入信号能量更新得比较慢,在语音段,噪声谱估计受到语音谱的影响较小,但是在静音段,噪声谱不能很好得到跟随和估计。
发明内容
本发明的目的是为了解决这些问题,通过调整参数A、B、C、N,使非线性谱减缺失分量估计算法达到如下目的:在信噪比较大的语音段,α取较大值,噪声子带特征矢量的估计更新较慢;在信噪比较低的静音段,α取较小值,噪声子带特征矢量的估计更新较快。
为了达到上述目的,本发明的技术解决方案是提出一种非线性谱减缺失分量估计方法,是根据局部信噪比,估计语音受噪声掩蔽部份的缺失分量,其通过调整参数A、B、C、N,使在信噪比较大的语音段,噪声更新系数α取较大值,噪声子带特征矢量的估计更新较慢;在信噪比较低的静音段,噪声更新系数α取较小值,噪声子带特征矢量的估计更新较快。
所述的非线性谱减缺失分量估计方法,其算法步骤包括:
第一步,噪声子带特征矢量估计:
若噪声为平稳或者缓变信号,且在语音的起始部分仅包括噪声,使用若干起始美子带特征矢量平均作为噪声矢量估计;当噪声为非平稳噪声的时候,首先对含噪语音进行基于能量的端点检测,然后,利用噪声段美子带特征矢量平均作为噪声矢量的估计;
第二步,估计在每个美子带内的局部信噪比:
根据含噪语音能量和噪声能量估计,估计新输入信号与噪声的信噪比:
S N ^ R = 10 log 10 ( NS i - N ^ i - 1 N ^ i - 1 )
其中,NSi为含噪语音能量,
Figure A0312749700072
为上一桢的噪声能量估计;根据信噪比估计,构造如下函数,根据新输入信号与噪声能量比估计,计算噪声更新系数α:
α = A + [ B * ( S N ^ R - C ) ] 2 N 1 + [ B * ( S N ^ R - C ) ] 2 N
得到噪声更新系数α后,估计每个美子带内噪声能量:
N i ′ ( k ) = ( 1 - α ) NS i ( k ) + α N ^ i - 1 ( k )
估计每个美子带内的局部信噪比:
S N ^ R i ( k ) = 10 Log 10 ( NS i ( k ) - N ^ i ( k ) N ^ i ( k ) )
第三步,缺失分量估计:
其中,δ是判断特征是否可靠的门限。
所述的非线性谱减缺失分量估计方法,其算法第二步中,其中,0≤A≤1,为更新范围系数,用来调整噪声更新系数α的取值范围,确定了A取值,即确定了噪声更新系数α的取值范围:A≤α<1。
所述的非线性谱减缺失分量估计方法,其所述噪声更新系数α,决定了根据当前信号更新噪声能量估计的快慢。
所述的非线性谱减缺失分量估计方法,其算法第二步中,其中 α = A + [ B * ( S N ^ R - C ) ] 2 N 1 + [ B * ( S N ^ R - C ) ] 2 N 公式中 β = [ B * ( S N ^ R - C ) ] 2 N > 0 , 调整β的取值可以改变噪声更新系数α的取值;选择不同B、C、N,可以获得不同的β计算公式,称B为扩展系数,C为信噪比偏移,N为更新阶数。
所述的非线性谱减缺失分量估计方法,其算法第二步中,其中每个美子带内噪声能量公式的NSi(k)表示受噪声破坏的语音第I帧美子带特征的第k个分量,即对应第k个美三角子带内的受噪声破坏语音的能量;
Figure A0312749700087
表示噪声第I帧美子带特征的第k个分量的估计,即对应第k个美三角子带内的噪声能量估计。
所述的非线性谱减缺失分量估计方法,其在非平稳Babble噪声环境下,非线性谱减缺失分量估计方法明显降低了缺失分量估计误差;在语音段,语音美子带特征矢量更接近原始纯净语音特征矢量;在静音段,有效的去除了基于谱减法的缺失分量估计方法引起的“伪语音”特征矢量;在平稳高斯白噪声环境下,非线性谱减缺失分量估计方法的性能和基于谱减法的缺失分量估计算法的性能接近。
附图说明
图1为噪声对语音美子带特征矢量的破坏示意图,(图中的汉语语音是:谈到汽车定点(tan2 dao4 qi4 chel ding4 dian3);
图2为含噪语音的缺失分量估计图。
具体实施方式
【算法描述】
基于谱减法的缺失分量估计方法面临的最大的挑战来自于噪声谱估计。在静音段,缺失分量估计算法希望噪声谱估计能够根据当前输入信号快速进行更新;而在语音段由于语音信号能量较高,如果根据当前输入信号进行快速更新,有可能在噪声谱估计中引入较多语音谱信息,估计误差变大,因此在语音段,缺失分量估计算法希望噪声谱估计根据当前输入信号进行更新的速度较慢。
为了达到这个目的,对基于谱减法的缺失分量估计方法,提出了如下的非线性谱减缺失分量估计方法:
1)噪声子带特征矢量估计
谱减法假设噪声为平稳或者缓变信号,且在语音的起始部分仅包括噪声,使用若干起始美子带特征矢量平均作为噪声矢量估计。当噪声为非平稳噪声的时候,使用该方法初始化噪声子带特征矢量的估计并不能取得明显的效果。为了更好的初始化噪声功率谱,首先对含噪语音进行基于能量的端点检测,然后,利用噪声段美子带特征矢量平均作为噪声矢量的估计。
2)估计在每个美子带内的局部信噪比;
根据含噪语音能量和噪声能量估计,估计新输入信号与噪声的信噪比:
S N ^ R = 10 log 10 ( NS i - N ^ i - 1 N ^ i - 1 ) - - - ( 4 )
其中,NSi为含噪语音能量,
Figure A0312749700102
为上一桢的噪声能量估计。根据信噪比估计,构造如下函数,根据新输入信号与噪声能量比估计,计算噪声更新系数α:
α = A + [ B * ( S N ^ R - C ) ] 2 N 1 + [ B * ( S N ^ R - C ) ] 2 N - - - - ( 5 )
其中,0≤A≤1,用来调整噪声更新系数α的取值范围,称之为更新范围系数。确定了A取值,即确定了噪声更新系数α的取值范围:A≤α<1。
通过调整更新范围系数A,希望达到如下目的:在信噪比较高的语音段,α取较大值,噪声子带特征矢量更新较慢;在信噪比较低的静音段,α取较小值,噪声子带特征矢量更新较快。
β = [ B * ( S N ^ R - C ) ] 2 N > 0 , 是与信噪比有关的量,调整β的取值可以改变噪声更新系数α的取值。选择不同B、C、N,可以获得不同的β计算公式,称B为扩展系数,C为信噪比偏移,N为更新阶数。
得到噪声更新系数α后,估计每个美子带内噪声能量:
N ′ i ( k ) = ( 1 - α ) NS i ( k ) + α N ^ i - 1 ( k ) - - - ( 6 )
其中,NSi(k)表示受噪声破坏的语音第i帧美子带特征的第k个分量(对应第k个美三角子带内的受噪声破坏语音的能量); 表示噪声第i帧美子带特征的第k个分量的估计(对应第k个美三角子带内的噪声能量估计)。噪声更新系数α,决定了根据当前信号更新噪声能量估计的快慢。
估计每个美子带内的局部信噪比:
S N ^ R i = 10 Log 10 ( NS i ( k ) - N ^ i ( k ) N ^ i ( k ) ) - - - ( 7 )
3)缺失分量估计:
Figure A0312749700113
其中,δ是判断特征是否可靠的门限。
人耳对声音的感知具有明显的非线性特性,在语音特征中融入一些反映人耳听觉特性的因素能够显著提高语音识别系统的性能,考虑到听觉系统的临界带效应,通常选用在美频率域上均匀分布的三角滤波器组对语音特征矢量进行子带特征分析,在语音识别技术中得到了广泛的应用。
下面,将以语音美(Mel)子带特征矢量的缺失分量估计来说明基于非线性谱减缺失分量估计方法。
纯净语音受到噪声破坏后,美子带特征的形态和分布发生了比较大的畸变,因此将造成语音识别系统性能大大下降,如图1所示。从图1可以看出,噪声破坏了纯净语音特征矢量的形态和分布,由于噪声特性和强度的不同,不同的噪声对语音特征的破坏作用也不同。
缺失分量估计的目的是把语音特征S分为两个矢量:受到噪声严重破坏的“缺失矢量”Sm和未受到噪声破坏的“可靠矢量”S°。图2给出了对含噪语音(高斯白噪声、Babble噪声,SNR=15dB)进行缺失分量估计的结果。
从缺失分量估计的结果看,基于谱减法的缺失分量估计带来了噪声平稳性限制:对受高斯白噪声破坏的语音,基于谱减法的缺失分量估计取得了相对较好的结果,但由于语音特征的随机性,也出现了一定的估计误差;对非平稳babble噪声,基于谱减法的缺失分量估计效果不太理想:在语音段,美子带特征“可靠矢量”的分布和数值出现了较大误差;同时,在信噪比很低,不会出现美子带特征“可靠矢量”的静音段,出现了大量“可靠矢量”(参见图2)。
实验结果表明,在非平稳Babble噪声环境下,非线性谱减缺失分量估计方法明显降低了缺失分量估计误差。因此,在语音段,语音美子带特征矢量更接近原始纯净语音特征矢量;在静音段,有效的去除了基于谱减法的缺失分量估计方法引起的“伪语音”特征矢量。在平稳高斯白噪声环境下,非线性谱减缺失分量估计方法的性能和基于谱减法的缺失分量估计算法的性能比较接近。
因此,在信噪较高的情况下,无论噪声是非平稳Babble噪声还是平稳高斯白噪声环境下,非线性谱减缺失分量估计方法都具有良好性能。

Claims (8)

1、一种非线性谱减缺失分量估计方法,该方法根据局部信噪比,估计语音受噪声掩蔽的语音子带特征“缺失”分量,其特征为:通过调整参数A、B、C、N,使在信噪比较大的语音段,噪声更新系数α取较大值,噪声子带特征矢量的估计更新较慢;在信噪比较低的静音段,噪声更新系数α取较小值,噪声子带特征矢量的估计更新较快。
2、如权利要求1所述的非线性谱减缺失分量估计方法,其特征为:算法步骤包括:
第一步,噪声子带特征矢量估计:
若噪声为平稳或者缓变信号,且在语音的起始部分仅包括噪声,使用若干起始美子带特征矢量平均作为噪声矢量估计;当噪声为非平稳噪声的时候,首先对含噪语音进行基于能量的端点检测,然后,利用噪声段美子带特征矢量平均作为噪声矢量的估计;
第二步,估计在每个美子带内的局部信噪比:
根据含噪语音能量和噪声能量估计,估计新输入信号与噪声的信噪比:
S N ^ R = 10 lo g 10 ( NS i - N ^ i - 1 N ^ i - 1 )
其中,NSi为含噪语音能量, 为上一桢的噪声能量估计;根据信噪比估计,构造如下函数,根据新输入信号与噪声能量比估计,计算噪声更新系数α:
α = A + [ B * ( S N ^ R - C ) ] 2 N 1 + [ B * ( S N ^ R - C ) ] 2 N
得到噪声更新系数α后,估计每个美子带内噪声能量:
N ′ i ( k ) = ( 1 - α ) N S i ( k ) + α N ^ i - 1 ( k )
估计每个美子带内的局部信噪比:
S N ^ R i ( k ) = 10 Lo g 10 ( NS i ( k ) - N ^ i ( k ) N ^ i ( k ) )
第三步,缺失分量估计:
Figure A0312749700032
其中,δ是判断特征是否可靠的门限。
3、如权利要求2所述的非线性谱减缺失分量估计方法,其特征为:算法第二步中,其中,0 ≤A≤1,为更新范围系数,用来调整噪声更新系数α的取值范围,确定了A取值,即确定了噪声更新系数α的取值范围:A≤α<1。
4、如权利要求2或3所述的非线性谱减缺失分量估计方法,其特征为:当α取较大值时,在信噪比较高的语音段,噪声子带特征矢量更新较慢;当α取较小值时,在信噪比较低的静音段,噪声子带特征矢量更新较快。
5、如权利要求2或3所述的非线性谱减缺失分量估计方法,其特征为:所述噪声更新系数α,决定了根据当前信号更新噪声能量估计的快慢。
6、如权利要求2所述的非线性谱减缺失分量估计方法,其特征为:算法第二步中,其中 α = A + [ B * ( S N ^ R - C ) ] 2 N 1 + [ B * ( S N ^ R - C ) ] 2 N 公式中 β = [ B * ( S N ^ R - C ) ] 2 N > 0 , 调整β的取值可以改变噪声更新系数α的取值;选择不同B、C、N,可以获得不同的β计算公式,称B为扩展系数,C为信噪比偏移,N为更新阶数。
7、如权利要求2所述的非线性谱减缺失分量估计方法,其特征为:算法第二步中,其中每个美子带内噪声能量公式的NSi(k)表示受噪声破坏的语音第I帧美子带特征的第k个分量,即对应第k个美三角子带内的受噪声破坏语音的能量; 表示噪声第I帧美子带特征的第k个分量的估计,即对应第k个美三角子带内的噪声能量估计。
8、如权利要求1所述的非线性谱减缺失分量估计方法,其特征为:在非平稳Babble噪声环境下,非线性谱减缺失分量估计方法明显降低了缺失分量估计误差;在语音段,语音美子带特征矢量更接近原始纯净语音特征矢量;在静音段,有效的去除了基于谱减法的缺失分量估计方法引起的“伪语音”特征矢量;在平稳高斯白噪声环境下,非线性谱减缺失分量估计方法的性能和基于谱减法的缺失分量估计算法的性能接近。
CNB031274978A 2003-08-08 2003-08-08 非线性谱减缺失分量估计方法 Expired - Fee Related CN1212603C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB031274978A CN1212603C (zh) 2003-08-08 2003-08-08 非线性谱减缺失分量估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB031274978A CN1212603C (zh) 2003-08-08 2003-08-08 非线性谱减缺失分量估计方法

Publications (2)

Publication Number Publication Date
CN1514431A true CN1514431A (zh) 2004-07-21
CN1212603C CN1212603C (zh) 2005-07-27

Family

ID=34239697

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031274978A Expired - Fee Related CN1212603C (zh) 2003-08-08 2003-08-08 非线性谱减缺失分量估计方法

Country Status (1)

Country Link
CN (1) CN1212603C (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1841500B (zh) * 2005-03-30 2010-04-14 松下电器产业株式会社 一种基于自适应非线性谱减的抗噪方法和装置
CN102110441A (zh) * 2010-12-22 2011-06-29 中国科学院声学研究所 一种基于时间反转的声掩蔽信号产生方法
CN103578477A (zh) * 2012-07-30 2014-02-12 中兴通讯股份有限公司 基于噪声估计的去噪方法和装置
CN112102818A (zh) * 2020-11-19 2020-12-18 成都启英泰伦科技有限公司 结合语音活性检测和滑动窗噪声估计的信噪比计算方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1841500B (zh) * 2005-03-30 2010-04-14 松下电器产业株式会社 一种基于自适应非线性谱减的抗噪方法和装置
CN102110441A (zh) * 2010-12-22 2011-06-29 中国科学院声学研究所 一种基于时间反转的声掩蔽信号产生方法
CN103578477A (zh) * 2012-07-30 2014-02-12 中兴通讯股份有限公司 基于噪声估计的去噪方法和装置
CN103578477B (zh) * 2012-07-30 2017-04-12 中兴通讯股份有限公司 基于噪声估计的去噪方法和装置
CN112102818A (zh) * 2020-11-19 2020-12-18 成都启英泰伦科技有限公司 结合语音活性检测和滑动窗噪声估计的信噪比计算方法

Also Published As

Publication number Publication date
CN1212603C (zh) 2005-07-27

Similar Documents

Publication Publication Date Title
CN110197670B (zh) 音频降噪方法、装置及电子设备
CN108831499B (zh) 利用语音存在概率的语音增强方法
CN1083183C (zh) 用来降低语音信号中噪声的方法和装置
KR100752529B1 (ko) 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법
CN1185622C (zh) 语音识别的健壮特征提取方法和装置
CN1210608A (zh) 一种有噪语音参数增强的方法和装置
CN109643554A (zh) 自适应语音增强方法和电子设备
CN1286788A (zh) 关于低比特率语音编码器的噪声抑制
CN1727860A (zh) 增益受限的噪音抑制
CN1356014A (zh) 利用频谱减除的双拾音器信号降噪系统和方法
BRPI0816792B1 (pt) método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo
CN1650349A (zh) 用于抗噪声语音识别的在线参数直方图正态化
CN1140869A (zh) 用于降低噪声的方法
CN1967659A (zh) 用于助听器的语音增强方法
CN102044244A (zh) 信号分类方法和装置
CN105489226A (zh) 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
CN1240051C (zh) 语音增强设备
US7885810B1 (en) Acoustic signal enhancement method and apparatus
CN112786064A (zh) 一种端到端的骨气导语音联合增强方法
CN118016079B (zh) 一种智能语音转写方法及系统
Li et al. A complexity reduction of ETSI advanced front-end for DSR
CN1655230A (zh) 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法
CN1212603C (zh) 非线性谱减缺失分量估计方法
CN1805011A (zh) 一种提高移动通信设备语音质量的自适应滤波方法及装置
CN1201287C (zh) 语音识别的隐马尔可夫模型边缘化解码数据重建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee