CN1212603C - 非线性谱减缺失分量估计方法 - Google Patents
非线性谱减缺失分量估计方法 Download PDFInfo
- Publication number
- CN1212603C CN1212603C CNB031274978A CN03127497A CN1212603C CN 1212603 C CN1212603 C CN 1212603C CN B031274978 A CNB031274978 A CN B031274978A CN 03127497 A CN03127497 A CN 03127497A CN 1212603 C CN1212603 C CN 1212603C
- Authority
- CN
- China
- Prior art keywords
- noise
- ratio
- subband
- energy
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种非线性谱减缺失分量估计方法,是根据局部信噪比,估计受噪声掩蔽的语音子带特征分量的方法。该方法通过调整参数,使在信噪比较大的语音段,噪声子带特征矢量的估计更新较慢;在信噪比较低的静音段,噪声子带特征矢量的估计更新较快。因此,在信噪比较高的情况下,无论是非平稳噪声还是平稳噪声,非线性谱减缺失分量估计方法都具有良好性能。
Description
技术领域
本发明涉及到计算机技术应用技术,特别是语音识别技术中根据局部信噪比,估计语音特征矢量受噪声掩蔽的分量的非线性谱减缺失分量估计技术。
背景技术
噪声鲁棒性问题是语音识别技术目前面临的主要挑战之一,深入研究基于数据重建的语音识别鲁棒性技术,具有重要的理论意义和广泛应用价值。
当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知,使其变得不易察觉,这种现象称为掩蔽效应。根据人耳掩蔽效应,人们提出了缺失特征方法。缺失特征方法认为噪声和语音在时间~频率域上不同区域具有不同局部信噪比,并进行缺失分量估计,即把局部信噪比较低的区域标记为“缺失矢量”,而局部信噪比较高的区域标记为“可靠矢量”,然后进行语音识别。
缺失分量估计是缺失特征方法应用于鲁棒语音识别的基础,对缺失特征方法的性能有重要的影响。谱减法假设语音信号是平稳或者缓变的,并根据历史噪声功率谱估计当前噪声功率谱。谱减法可以估计出语音每个美子带内的信噪比,因此可以用于缺失分量估计。
谱减法假设噪声是平稳或者缓变的,并利用历史噪声谱估计当前噪声谱。基于谱减法的缺失分量估计方法和步骤如下:
1)假设噪声为平稳或者缓变信号,且在语音的起始部分仅仅包括了噪声。使用若干起始美子带特征的平均作为噪声子带特征矢量的估计;
2)估计在每个美子带内的局部信噪比;
首先,估计每个美子带内噪声能量:
其中,NSi(k)表示受噪声破坏的语音第i帧美子带特征的第k个分量(对应第k个美三角子带内的受噪声破坏语音的能量);
表示噪声第i帧美子带特征的第k个分量的估计(对应第k个美三角子带内的噪声能量估计)。α,噪声更新系数,定义了根据当前信号,噪声能量估计更新速度的快慢;β,噪声门限,定义了更新噪声能量估计的信号能量门限。
然后,估计每个美子带内的局部信噪比:
3)缺失分量估计:
掩蔽门限δ是判断特征是否可靠的门限。δ的取值范围根据人耳掩蔽效应进行选择和调整。
基于谱减法的缺失分量估计算法根据当前输入信号能量,调整噪声谱估计,进而进行局部信噪比估计,根据局部信噪比估计完成缺失分量估计。一系列实验表明,基于谱减法的缺失分量估计算法在处理非平稳噪声时遇到了困难:如果噪声谱估计根据当前输入信号能量更新得比较快,在静音段,噪声谱能够得到较好的估计,但是在语音段,噪声谱估计受到语音谱的影响发生较大误差;如果噪声谱估计根据当前输入信号能量更新得比较慢,在语音段,噪声谱估计受到语音谱的影响较小,但是在静音段,噪声谱不能很好得到跟随和估计。
发明内容
本发明的目的是为了解决这些问题,通过调整参数,使非线性谱减缺失分量估计算法达到如下目的:在信噪比较大的语音段,α取较大值,噪声子带特征矢量的估计更新较慢;在信噪比较低的静音段,α取较小值,噪声子带特征矢量的估计更新较快。
为了达到上述目的,本发明的技术解决方案是提出一种非线性谱减缺失分量估计方法,是根据局部信噪比,估计语音受噪声掩蔽部份的缺失分量,其通过调整参数,使在信噪比较大的语音段,噪声更新系数α取较大值,噪声子带特征矢量的估计更新较慢;在信噪比较低的静音段,噪声更新系数α取较小值,噪声子带特征矢量的估计更新较快。
所述的非线性谱减缺失分量估计方法,其算法步骤包括:
第一步,噪声子带特征矢量估计:
若噪声为平稳或者缓变信号,且在语音的起始部分仅包括噪声,使用若干起始美子带特征矢量平均作为噪声矢量估计;当噪声为非平稳噪声的时候,首先对含噪语音进行基于能量的端点检测,然后,利用噪声段美子带特征矢量平均作为噪声矢量的估计;
第二步,估计在每个美子带内的局部信噪比:
根据含噪语音能量和噪声能量估计,估计新输入信号与噪声的信噪比:
其中,0≤A≤1,为更新范围系数,B为扩展系数,C为信噪比偏移,N为更新阶数,NSi为含噪语音能量,
为上一桢的噪声能量估计。
得到噪声更新系数α后,估计每个美子带内噪声能量:
其中,NSi为含噪语音能量,
为噪声能量估计。估计每个美子带内的局部信噪比:
第三步,缺失分量估计:
其中,δ是判断特征是否可靠的门限。
所述的非线性谱减缺失分量估计方法,其算法第二步中,其中,0≤A≤1,为更新范围系数,用来调整噪声更新系数α的取值范围,确定了A取值,即确定了噪声更新系数α的取值范围:A≤α≤1。
所述的非线性谱减缺失分量估计方法,其所述噪声更新系数α,决定了根据当前信号更新噪声能量估计的快慢。
所述的非线性谱减缺失分量估计方法,其算法第二步中,其中 公式中
调整β的取值可以改变噪声更新系数α的取值;选择不同B、C、N,可以获得不同的β计算公式,称B为扩展系数,C为信噪比偏移,N为更新阶数。
所述的非线性谱减缺失分量估计方法,其算法第二步中,其中每个美子带内噪声能量公式的NSi(k)表示受噪声破坏的语音第I帧美子带特征的第k个分量,即对应第k个美三角子带内的受噪声破坏语音的能量;表示噪声第I帧美子带特征的第k个分量的估计,即对应第k个美三角子带内的噪声能量估计。
所述的非线性谱减缺失分量估计方法,其在非平稳Babble噪声环境下,非线性谱减缺失分量估计方法明显降低了缺失分量估计误差;在语音段,语音美子带特征矢量更接近原始纯净语音特征矢量;在静音段,有效的去除了基于谱减法的缺失分量估计方法引起的“伪语音”特征矢量;在平稳高斯白噪声环境下,非线性谱减缺失分量估计方法的性能和基于谱减法的缺失分量估计算法的性能接近。
附图说明
图1为噪声对语音美子带特征矢量的破坏示意图;
图2为含噪语音的缺失分量估计图。
具体实施方式
【算法描述】
基于谱减法的缺失分量估计方法面临的最大的挑战来自于噪声谱估计。在静音段,缺失分量估计算法希望噪声谱估计能够根据当前输入信号快速进行更新;而在语音段由于语音信号能量较高,如果根据当前输入信号进行快速更新,有可能在噪声谱估计中引入较多语音谱信息,估计误差变大,因此在语音段,缺失分量估计算法希望噪声谱估计根据当前输入信号进行更新的速度较慢。
为了达到这个目的,对基于谱减法的缺失分量估计方法,提出了如下的非线性谱减缺失分量估计方法:
1)噪声子带特征矢量估计
谱减法假设噪声为平稳或者缓变信号,且在语音的起始部分仅包括噪声,使用若干起始美子带特征矢量平均作为噪声矢量估计。当噪声为非平稳噪声的时候,使用该方法初始化噪声子带特征矢量的估计并不能取得明显的效果。为了更好的初始化噪声功率谱,首先对含噪语音进行基于能量的端点检测,然后,利用噪声段美子带特征矢量平均作为噪声矢量的估计。
2)估计在每个美子带内的局部信噪比;
根据含噪语音能量和噪声能量估计,估计新输入信号与噪声的信噪比:
其中,0≤A≤1,用来调整噪声更新系数α的取值范围,称之为更新范围系数。确定了A取值,即确定了噪声更新系数α的取值范围:A≤α≤1。
通过调整更新范围系数A,希望达到如下目的:在信噪比较高的语音段,α取较大值,噪声子带特征矢量更新较慢;在信噪比较低的静音段,α取较小值,噪声子带特征矢量更新较快。
得到噪声更新系数α后,估计每个美子带内噪声能量:
其中,NSi(k)表示受噪声破坏的语音第i帧美子带特征的第k个分量(对应第k个美三角子带内的受噪声破坏语音的能量);
表示噪声第i帧美子带特征的第k个分量的估计(对应第k个美三角子带内的噪声能量估计)。噪声更新系数α,决定了根据当前信号更新噪声能量估计的快慢。
估计每个美子带内的局部信噪比:
3)缺失分量估计:
其中,δ是判断特征是否可靠的门限。
人耳对声音的感知具有明显的非线性特性,在语音特征中融入一些反映人耳听觉特性的因素能够显著提高语音识别系统的性能,考虑到听觉系统的临界带效应,通常选用在美频率域上均匀分布的三角滤波器组对语音特征矢量进行子带特征分析,在语音识别技术中得到了广泛的应用。
下面,将以语音美(Mel)子带特征矢量的缺失分量估计来说明基于非线性谱减缺失分量估计方法。
纯净语音受到噪声破坏后,美子带特征的形态和分布发生了比较大的畸变,因此将造成语音识别系统性能大大下降,如图1所示。从图1可以看出,噪声破坏了纯净语音特征矢量的形态和分布,由于噪声特性和强度的不同,不同的噪声对语音特征的破坏作用也不同。
缺失分量估计的目的是把语音特征S分为两个矢量:受到噪声严重破坏的“缺失矢量”Sm和未受到噪声破坏的“可靠矢量”So。图2给出了对含噪语音(高斯白噪声、Babble噪声,SNR=15dB)进行缺失分量估计的结果。
从缺失分量估计的结果看,基于谱减法的缺失分量估计带来了噪声平稳性限制:对受高斯白噪声破坏的语音,基于谱减法的缺失分量估计取得了相对较好的结果,但由于语音特征的随机性,也出现了一定的估计误差;对非平稳babble噪声,基于谱减法的缺失分量估计效果不太理想:在语音段,美子带特征“可靠矢量”的分布和数值出现了较大误差;同时,在信噪比很低,不会出现美子带特征“可靠矢量”的静音段,出现了大量“可靠矢量”(参见图2)。
实验结果表明,在非平稳Babble噪声环境下,非线性谱减缺失分量估计方法明显降低了缺失分量估计误差。因此,在语音段,语音美子带特征矢量更接近原始纯净语音特征矢量;在静音段,有效的去除了基于谱减法的缺失分量估计方法引起的“伪语音”特征矢量。在平稳高斯白噪声环境下,非线性谱减缺失分量估计方法的性能和基于谱减法的缺失分量估计算法的性能比较接近。
因此,在信噪较高的情况下,无论噪声是非平稳Babble噪声还是平稳高斯白噪声环境下,非线性谱减缺失分量估计方法都具有良好性能。
Claims (2)
1、一种非线性谱减缺失分量估计方法,该方法根据局部信噪比,估计语音受噪声掩蔽的语音子带特征“缺失”分量,其特征为:通过调整参数,使在信噪比较大的语音段,噪声子带特征矢量的估计更新较慢;在信噪比较低的静音段,噪声子带特征矢量的估计更新较快;
算法步骤包括:
第一步,噪声子带特征矢量估计:
若噪声为平稳或者缓变信号,且在语音的起始部分仅包括噪声,使用若干起始美子带特征矢量平均作为噪声矢量估计;当噪声为非平稳噪声的时候,首先对含噪语音进行基于能量的端点检测,然后,利用噪声段美子带特征矢量平均作为噪声矢量的估计;
第二步,估计在每个美子带内的局部信噪比:
根据含噪语音能量和噪声能量估计,估计新输入信号与噪声的信噪比:
其中,NSi为含噪语音能量,
为上一帧的噪声能量估计。根据信噪比估计,构造如下函数,根据新输入信号与噪声能量比估计,计算噪声更新系数α:
在
公式中
调整β的取值可以改变噪声更新系数α的取值;选择不同B、C、N,可以获得不同的β计算公式,称B为扩展系数,C为信噪比偏移,N为更新阶数;
其中,0≤A≤1,为更新范围系数,用来调整噪声更新系数α的取值范围,确定了A取值,即确定了噪声更新系数α的取值范围:A≤α≤1;
得到噪声更新系数α后,估计每个美子带内噪声能量:
10其中,每个美子带内噪声能量公式的NSi(k)表示受噪声破坏的语音第i帧美子带特征的第k个分量,即对应第k个美三角子带内的受噪声破坏语音的能量;
表示噪声第i帧美子带特征的第k个分量的估计,即对应第k个美三角子带内的噪声能量估计;
估计每个美子带内的局部信噪比:
第三步,缺失分量估计:
其中,δ是判断特征是否可靠的门限。
2、如权利要求1所述的非线性谱减缺失分量估计方法,其特征为:所述噪声更新系数α,决定了根据当前信号更新噪声能量估计的快慢。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB031274978A CN1212603C (zh) | 2003-08-08 | 2003-08-08 | 非线性谱减缺失分量估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB031274978A CN1212603C (zh) | 2003-08-08 | 2003-08-08 | 非线性谱减缺失分量估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1514431A CN1514431A (zh) | 2004-07-21 |
CN1212603C true CN1212603C (zh) | 2005-07-27 |
Family
ID=34239697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB031274978A Expired - Fee Related CN1212603C (zh) | 2003-08-08 | 2003-08-08 | 非线性谱减缺失分量估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1212603C (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1841500B (zh) * | 2005-03-30 | 2010-04-14 | 松下电器产业株式会社 | 一种基于自适应非线性谱减的抗噪方法和装置 |
CN102110441A (zh) * | 2010-12-22 | 2011-06-29 | 中国科学院声学研究所 | 一种基于时间反转的声掩蔽信号产生方法 |
CN103578477B (zh) * | 2012-07-30 | 2017-04-12 | 中兴通讯股份有限公司 | 基于噪声估计的去噪方法和装置 |
CN112102818B (zh) * | 2020-11-19 | 2021-01-26 | 成都启英泰伦科技有限公司 | 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 |
-
2003
- 2003-08-08 CN CNB031274978A patent/CN1212603C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1514431A (zh) | 2004-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108831499B (zh) | 利用语音存在概率的语音增强方法 | |
CN107274908B (zh) | 基于新阈值函数的小波语音去噪方法 | |
CN1083183C (zh) | 用来降低语音信号中噪声的方法和装置 | |
KR100752529B1 (ko) | 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법 | |
US20080281589A1 (en) | Noise Suppression Device and Noise Suppression Method | |
CN1185622C (zh) | 语音识别的健壮特征提取方法和装置 | |
CN1286788A (zh) | 关于低比特率语音编码器的噪声抑制 | |
CN1727860A (zh) | 增益受限的噪音抑制 | |
JP6793706B2 (ja) | 音声信号を検出するための方法および装置 | |
JP2010539539A (ja) | 音声明瞭化を伴うスピーチ改善 | |
CN105489226A (zh) | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 | |
US20100183067A1 (en) | Post-processing for reducing quantization noise of an encoder during decoding | |
US7885810B1 (en) | Acoustic signal enhancement method and apparatus | |
CN112786064A (zh) | 一种端到端的骨气导语音联合增强方法 | |
JP2004341339A (ja) | 雑音抑圧装置 | |
CN1212603C (zh) | 非线性谱减缺失分量估计方法 | |
Choi | Noise reduction algorithm in speech by Wiener filter | |
Li et al. | A complexity reduction of ETSI advanced front-end for DSR | |
Wu et al. | Voice activity detection based on auto-correlation function using wavelet transform and teager energy operator | |
CN1201287C (zh) | 语音识别的隐马尔可夫模型边缘化解码数据重建方法 | |
Shao et al. | A versatile speech enhancement system based on perceptual wavelet denoising | |
You et al. | Kalman filtering speech enhancement incorporating masking properties for mobile communication in a car environment | |
Singh et al. | Binary mask based method for enhancement of mixed noise speech of low SNR input | |
Balakrishnan et al. | Wavelet denoising and speech enhancement | |
Singh et al. | Noise removal in single channel Hindi speech patterns by using binary mask thresholding function in various mother wavelets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |