CN1185622C - 语音识别的健壮特征提取方法和装置 - Google Patents

语音识别的健壮特征提取方法和装置 Download PDF

Info

Publication number
CN1185622C
CN1185622C CNB008150761A CN00815076A CN1185622C CN 1185622 C CN1185622 C CN 1185622C CN B008150761 A CNB008150761 A CN B008150761A CN 00815076 A CN00815076 A CN 00815076A CN 1185622 C CN1185622 C CN 1185622C
Authority
CN
China
Prior art keywords
spectrum
short
noise
term
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB008150761A
Other languages
English (en)
Other versions
CN1384960A (zh
Inventor
R·布吕克纳
H·-G·希尔施
R·克利施
V·斯普林格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN1384960A publication Critical patent/CN1384960A/zh
Application granted granted Critical
Publication of CN1185622C publication Critical patent/CN1185622C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Image Analysis (AREA)
  • Facsimile Transmission Control (AREA)

Abstract

本发明涉及一种在有噪声环境下用于语音识别的健壮(robust)特征提取方法和装置,在其中按频谱分量的特征对一个语音信号分段。将语音信号划分成L次能带中的许多短期频谱分量,其中的L=1,2,...,并且根据仅含噪声的片段估算一个噪声频谱。然后根据对应的短期频谱执行对估算的噪声频谱的频谱减法,并且为各个短期频谱分量计算出含噪声的概率。最后为含语音的概率很低的各短期频谱的这些频谱分量执行内插,以便平滑那些仅含噪声的短期频谱。通过对含噪声的频谱分量执行内插就能从近旁找到可靠的频谱语音分量。

Description

语音识别的健壮特征提取方法和装置
技术领域
本发明涉及到在噪声环境中对语音识别执行健壮(robust)特征提取的方法和装置。
背景技术
语音识别领域中的一个主要问题是如何准确地识别在噪声环境中出现的语音。不同类型的所有可能的噪声都会影响到语音识别,并可能造成识别精度急剧恶化。
特别是在移动电话或是在识别出话音口令之后允许访问的访问系统等领域中,语音识别变得更为重要。特别是在上述这些领域中,在可能的不同类型噪声当中,最成问题的是附加的稳定或不稳定背景噪声。造成识别精度恶化的另一种噪声是通过传输信道发送待识别语音时会受到传输信道频率特性的影响。附加噪声往往是由背景噪声组合了传输线上产生的噪声构成的。
按照现有技术所知是提供一种所谓的线性或非线性频谱减法。频谱减法是一种噪声抑制技术,可以减少附加噪声对语音的影响。它是通过从有噪声量值或功率频谱中直接减去噪声量值或功率频谱来估算清晰语音的量值或功率频谱。这种技术是为了在各种通信状况下增强语音而开发的。
频谱减法需要在停顿期间估算噪声,并且还假定噪声特性变化缓慢,以保证对噪声的估算仍然有效。这种方法的成功与否要求健壮端点的有效性或者是声音活动检测器能够区分语音和噪声。然而,良好的语音和噪声区分是一个必要条件,但是在低信噪比(SNR)条件下难以实现。
另外,即使频谱减法的计算由于是在语音停顿期间估算噪声而有效的,再者即使是这种技术能够在保留其他处理步骤不变的条件下作为一种预处理技术,频谱减法方法的性能仍对噪声和提取噪声的方法有很强的依赖性。与此有关的问题在于,即使能降低宽带噪声,还会剩下一些残余噪声(Junqua等人的“Robustness in automatic speechrecognition”;Kluwer Academic Publisher;1996;Section 9.2Speech Enhancement,page 277 ff.)。
无论如何,即使用上述方法能够改善语音识别,噪声特性的估算对这些方案也是至关紧要的。如上所述,为了标出语音信号中仅仅包含噪声的那些片段,就需要区别语音和噪声。但是这种区别不可能是没有误差的,并且难以实现。除此之外,在检查包含叠加的语音和稳定噪声的语音信号的片段时,这些片段可能被解释成对应着一个频谱噪声分量和一个频谱语音分量的分布函数的重叠。这些分布函数重叠取决于SNR。重叠越高,SNR就越低。因此,在这种情况下,在语音的频谱量值等于或小于噪声值的那些频谱区内,就无法确定是否有包含语音的短期频谱。
发明内容
本发明的目的是提供一种解决上述问题的方法和装置,在有噪声环境下实现一种更健壮的语音识别。
本发明的优点是滤除仅仅包含噪声的短期频谱,并且对有噪声的语音片段额外用可靠的分量内插不可靠的频谱分量,这样就能改善语音识别,或者是更直接地提取健壮特征,支持一种改进的语音识别。
本发明进一步的优点是根据与短期频谱相邻的至少一个频谱分量和/或至少一个时间上在前的频谱分量执行内插,按照预料滤除包含语音的概率比较低的那一个所谓的不可靠语音分量。
可以用两个相邻的频谱分量和一个时间上在前的分量改善语音识别。
本发明进一步的优点是将计算的概率与一个阈值相比较,以确定必须对哪一个频谱分量执行内插。
本发明进一步的优点是根据无噪声语音对频谱分量执行内插。
根据本发明一个实施例执行两个内插,可以获得更好的语音识别。
本发明进一步的优点是在MEL频率范围的基础上划分短期频谱的YYY,因为MEL频率范围是在人的听觉范围。
进一步的优点是采用这种语音识别方法用语音来控制诸如移动电话,电话机或者是访问系统等电子设备,用于接入或拨号等等。
附图说明
以下要借助于实施例和附图进一步解释本发明。以下的附图有:
图1:按照权利要求1在特征提取中集中的内插,
图2:按照权利要求6在特征提取中集中的内插,
图3:按照权利要求9在特征提取中集中的内插,
图4:存在语音的概率函数的一个示意图。
具体实施方式
为了使语音识别相对于噪声更加健壮,可以采用一种健壮特征提取方案。这一方案尝试从语音信号中提取对噪声不敏感或者是不受噪声影响的那些特征。进而,这种特征提取方案主要是基于短期频谱分析。另外,大多数语音识别系统都是基于MEL频率范围内的短期分析。MEL频率范围是基于人的听觉范围,并且在现有技术中是公知的,因此在本文中不必深入描述。
术语健壮应该包括在上述现有技术中对稳定和不稳定背景噪声的健壮性。在本申请中,除了上述的健壮性之外还应该包括对任何类型的电子设备产生的未知频率特性的健壮性,例如是采用本发明的移动电话或任何其它电话中的麦克风和/或数字或者是模拟滤波器的频率特性。
以下要借助于图1进一步解释本发明。在经过与本发明无关并且是现有技术所公知的装帧和变换之后,将一个语音信号分离成L子带中的许多短期频谱分量,其中的L=1,2,...,L,最好是在10到30MEL的范围内。可以根据MEL频率范围内的短期频谱分析来划分短期频谱分量。这种滤波器组在MEL频率范围内的输出是在若干个L子带中的一种短期量值或功率频谱,其中的L=1,2,...。
下一步执行的ES是根据仅仅包含噪声的那些片段估算一个噪声频谱。可以采用一个话音活动检测器来完成。根据被话音活动检测器标记为噪声的那一片段中的所有频谱计算出平均频谱。将这一平均频谱作为估算的噪声频谱。
然后执行频谱减法,从有噪声短期频谱Ssub中减去估算的噪声频谱,并且产生一个估算结果。一种办法是在量值域内对频谱分量执行减法计算如下:
       |Sl(ti)|=|Xl(ti)|-|Nl(ti)|                (1)
其中|Sl|=频谱语音分量的估算结果,
|Xl|=实际的有噪声输入分量
|Nl|=估算的噪声分量
在时间=t并且子带l=1,...,L。
应该注意到诸如Sl,t等数值在所有公式中的意思都应该是一样的。下一步是计算各短期频谱分量包含噪声的概率。以下要详细说明这种概率的计算。
如果对短期频谱分量计算出的概率是包含语音的概率很低,就在下一步IP内插这一频谱分量。
由于当今使用的大多数语音识别系统都采用了倒谱系数,可以按以下方式进一步处理需要平滑和内插的上述短期频谱。一种算法是对各个短期频谱分量取对数,并且最终通过离散余弦变换DCT将其变换成许多倒谱系数。
以下要详细说明对各短期频谱的频谱分量的内插。
如上所述计算出一个频谱分量包含语音的概率。如果概率计算结果是包含语音的概率很低,就认为该频谱分量是不可靠的。然后内插这些不可靠的频谱分量。例如是根据查看与这一短期频谱相邻的子带的至少一个频谱分量和/或至少一个时间上在前或后续的频谱分量来执行内插。
在一个最佳实施例中是对两个相邻的子带和一个时间上在前的频谱分量执行内插。
例如,内插是通过计算以下的加权和来执行的:
    |Sl(ti)|=[probl(ti)×|Sl(ti)|+probl-1(ti)×|Sl-1(ti)|+
              probl+1(ti)×|Sl+1(ti)|+probl(ti-1)|Sl(ti-1)|]/(∑prob)(2)
其中的prob=子带1的概率。
其次相邻的任何其他子带也可以作为内插的基础,受到篇幅所限无需进一步描述。
如上所述计算出各频谱分量包含噪声的概率。算出|Sl(ti)|/|Xl(ti)|之间的比例。该比例间接地包括短期频谱在时间ti处的信噪比。如图4所示,该比例取负无穷大到1之间的值,图中的X-轴表示比例,而Y-轴代表概率prob。在噪声分量|Nl(ti)|大于实际频谱分量Sl(ti)的情况下出现负值。它代表噪声也就是不可靠分量。与此相比,如果估算出没有噪声并且存在纯语音,就取1值。图4表示用来定义频谱分量包含语音的概率的一个例子。
如上所述,在对短期频谱计算的概率表明频谱中包含语音的概率很低的情况下就执行内插。由于计算的概率不一定总是0或1,最好是确定一个阈值来限定频谱分量,如果其对应的比例低于这一阈值就认为是包含语音的概率很低。
该阈值最好是0.6,也可以是0到1之间的任意值。该阈值可以预定,或者是根据环境而改变。
以下参照图2来解释另一个实施例。
应该注意到,在所有附图中具有相同标记的那些框是为了表达相同的意思。
除了上述步骤之外,还要为各个短期频谱确定数目为M的频谱距离。上述频谱距离是在相减之后的短期频谱与数目为M的包含无噪声语音的频谱之间确定的,M=1,2,...。进而要为各个短期频谱确定至少一个包含无噪声语音的频谱,它与上述短期频谱具有最小的频谱距离。
频谱距离可以这样来计算:
Error(|S(ti)|,|V(m)|)=∑probl(ti)×(|Sl(ti)|-|Vl(m)|)2/∑probl(ti)(3)
其中V(m)=包含无噪声语音的频谱,而m是码本入口之一。
将计算出的具有最小误差的那一个认为是具有最小频谱距离。
然后从具有最小频谱距离的上述无噪声语音频谱中提取频谱信息用来执行内插。无论如何也能获得所有具有最小频谱距离的那些无噪声语音频谱。
执行内插的一种可能性是计算实际估算的频谱分量|Sl(ti)|的一个加权和以及最接近矢量的对应分量。可以按以下方式执行:
     |Sl(ti)|=probl(ti)|Sl(ti)|+(1-probl(ti))×Vl(mclosest)  (4)
这一公式的基础是基于语音仅仅出现在一个L维频谱特征空间中的某些区域中的常识。按照这一常识,包含语音的概率低的那些频谱分量的内插是基于从码本CB中最接近的那个入口或者是一个以上接近的入口中提取频谱信息。
以下要借助于图3说明本发明的另一个最佳实施例。
如图3所示,除了第一内插IP1还执行另一个内插IP2。在图示的例子中,第一内插是基于至少一个相邻子带的频谱分量,和/或该短期频谱的至少一个时间上在前或后续的频谱分量,就象权利要求2和图1所表示的那样。
按照权利要求7和图2,第二内插IP2是基于从具有最小频谱距离的上述无噪声语音频谱提取频谱信息。
无论如何这并不是为了限制本发明,例如可以首先执行按照权利要求7的内插,然后再执行权利要求2的内插。总之应该特别注意到,两次内插的基本方式都是对不可靠的短期频谱分量或者最好是含语音的概率较低的上述短期频谱分量执行内插。一般来说,含噪声的频谱分量的内插是基于可以从近旁找到的可用于两次内插的可靠的频谱语音分量。
以下要参照图1来说明在有噪声环境中用于语音识别的健壮特征提取的一种装置。该装置包括一个滤波器组MEL,用于将语音信号划分成L子带中的许多频谱分量,其中的L=1,2,...。
用于估算仅含噪声的噪声频谱片段的其他估算装置ES是可以预见的。
该装置还可以进一步包括用来从对应的短期频谱中执行对估算噪声频谱的频谱减法的一个减法器SSub,以及用来估算各短期频谱包含噪声的概率的一个计算器。
如果对短期频谱分量包含语音的计算的概率是可以预见的,在这种装置中同样可以包括用于内插各短期频谱的频谱分量的内插装置IP。
在本发明的另一个最佳实施例中提供了一个比较器,用于将计算的概率和限定了包含语音的最低概率的一个阈值相比较。
最后,为了获得倒谱系数,可以采用对各个频谱分量采取对数算法的装置和用来执行离散余弦变换DCT的装置,并且其输出是被用于语音识别的许多倒谱系数。
以下要参照图2解释另一个最佳实施例。应该注意到对同样的框仍然采用同样的缩写。
除了图1中所示的装置以外,包含无噪声语音频谱的码本CB是可以预见的,并且有一个用来为各个短期频谱分量确定M个频谱距离的确定装置,在相减之后确定短期频谱之间的上述频谱距离,并且提供M个包含无噪声语音频谱的频谱。
进而,用于为各个短期频谱确定与上述短期频谱具有最小距离的包含无噪声语音的至少一个频谱的确定装置MATCH是可以预见的,其结果是用内插装置IP的一个输入来执行内插。
最后要说明一种可以加载到电子设备的存储器中的一种计算机程序产品(没有附图)。可加载到诸如移动电话等等的存储器中的一种计算机程序产品包括用来执行权利要求1到12的任何步骤的软件代码部分或模块。
最好将这种计算机程序存储在一种计算机可读介质上。
最后还可以将这种方法和装置以及计算机程序产品用于语音识别,用来控制电子设备。这种电子设备例如是电话或移动电话,或是一种存取装置。

Claims (17)

1.一种在有噪声环境下用于语音识别的健壮特征提取方法,在其中按频谱分量对一个语音信号分段,它包括以下步骤:
-将语音信号划分成L子带中的许多短期频谱分量,其中的L=1,2,...
-根据仅含噪声的片段估算一个噪声频谱,
-根据对应的每一子带的短期频谱执行对估算的噪声频谱的频谱减法,得到估算的频谱分量,
-为各个短期频谱分量计算出含噪声的概率,以及
-如果为短期频谱分量计算出的含语音概率低于一个阈值,就插入各个短期频谱的估算频谱分量。
2.按照权利要求1的方法,其特征是根据至少一个子带和/或该短期频谱中在时间上在前或后续的频谱分量执行内插。
3.按照权利要求2的方法,其特征是根据两个相邻的子带和一个时间上提前的频谱分量来执行内插。
4.按照权利要求1到3之一的方法,其特征是将计算出的概率和限定了包含语音的最低概率的一个阈值相比较。
5.按照权利要求1的方法,其特征是对每个频谱分量采取一种算法,并且执行离散余弦变换(DCT)。
6.按照权利要求1的方法,其特征是还有以下步骤:
-为各个短期频谱分量确定M个频谱距离,在相减之后确定短期频谱之间的上述频谱距离,并且提供M个包含无噪声语音的频谱,
-为各个短期频谱确定与上述短期频谱具有最小频谱距离的包含无噪声语音的至少一个频谱。
7.按照权利要求6的方法,其特征是
-通过从具有最小频谱距离的上述无噪声语音频谱中提取频谱信息来执行内插。
8.按照权利要求6或7的方法,其特征是通过计算一个加权均方差(MSE)来确定频谱距离。
9.按照权利要求2和7的方法,其特征是按照权利要求2执行第一内插,并按照权利要求7执行第二内插。
10.按照权利要求6的方法,其特征是包含无噪声语音的频谱被包含在用无噪声语音训练的一个码本中。
11.按照权利要求9的方法,其特征是存储在码本中的频谱信息是cepstral参数。
12.按照权利要求1的方法,其特征是基于MEL频率范围将语音划分成多个子带。
13.在有噪声环境下用于语音识别的一种健壮特征提取装置,在其中以频谱分量为特征对一个语音信号分段,它包括
-一个滤波器组(MEL),用于将语音信号划分成L子带中的许多频谱分量,其中的L=1,2,...,
-一个估算装置(ES),语音估算仅含噪声的噪声频谱片段,
-一个减法器(SSub),根据对应的每一子带的短期频谱执行对估算的噪声频谱的频谱减法,得到估算的频谱分量,
-一个计算器,用于为各个短期频谱计算其含噪声的概率,以及
-内插装置(IP),如果为短期频谱分量计算的概率是包含语音,就插入各个短期频谱的估算频谱分量。
14.按照权利要求13的装置,其特征是有一个比较器,用于将计算的概率和限定了包含语音的最低概率的一个阈值相比较。
15.按照权利要求13或14的装置,其特征是有一个对各个频谱分量采取一种算法的装置(log),以及用来执行变换的一个离散余弦变换(DCT)装置。
16.按照权利要求13的装置,其特征在于
-包含无噪声语音频谱的一个码本(CB),
-为各个短期频谱分量确定M个频谱距离的确定装置,在相减之后确定短期频谱之间的上述频谱距离,并且提供M个包含无噪声语音频谱的频谱,以及
-为各个短期频谱确定与上述短期频谱具有最小距离的包含无噪声语音的至少一个频谱的确定装置(MATCH)。
17.按照权利要求13的装置,其特征在于滤波器组是一个MEL滤波器组。
CNB008150761A 1999-10-29 2000-09-30 语音识别的健壮特征提取方法和装置 Expired - Fee Related CN1185622C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP99203613.7 1999-10-29
EP99203613A EP1096471B1 (en) 1999-10-29 1999-10-29 Method and means for a robust feature extraction for speech recognition

Publications (2)

Publication Number Publication Date
CN1384960A CN1384960A (zh) 2002-12-11
CN1185622C true CN1185622C (zh) 2005-01-19

Family

ID=8240813

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008150761A Expired - Fee Related CN1185622C (zh) 1999-10-29 2000-09-30 语音识别的健壮特征提取方法和装置

Country Status (8)

Country Link
US (1) US6678657B1 (zh)
EP (1) EP1096471B1 (zh)
JP (1) JP2003513340A (zh)
CN (1) CN1185622C (zh)
AT (1) ATE277400T1 (zh)
AU (1) AU7660800A (zh)
DE (1) DE69920461T2 (zh)
WO (1) WO2001033552A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
EP1229516A1 (en) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Method, device, terminal and system for the automatic recognition of distorted speech data
GB0103245D0 (en) * 2001-02-09 2001-03-28 Radioscape Ltd Method of inserting additional data into a compressed signal
TW533406B (en) * 2001-09-28 2003-05-21 Ind Tech Res Inst Speech noise elimination method
KR100400226B1 (ko) * 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
AU2003264818A1 (en) * 2002-11-05 2004-06-07 Koninklijke Philips Electronics N.V. Spectrogram reconstruction by means of a codebook
DE10305369B4 (de) * 2003-02-10 2005-05-19 Siemens Ag Benutzeradaptives Verfahren zur Geräuschmodellierung
JP3907194B2 (ja) * 2003-05-23 2007-04-18 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US7516069B2 (en) * 2004-04-13 2009-04-07 Texas Instruments Incorporated Middle-end solution to robust speech recognition
EP1635331A1 (en) * 2004-09-14 2006-03-15 Siemens Aktiengesellschaft Method for estimating a signal to noise ratio
JP4729927B2 (ja) * 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
KR101335417B1 (ko) * 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
DE102008033056A1 (de) 2008-07-15 2010-01-21 Volkswagen Ag Kraftfahrzeug mit einem Mikrofon zur akustischen Eingabe eines Befehls zur Bedienung der Funktion des Kraftfahrzeuges
CN102290047B (zh) * 2011-09-22 2012-12-12 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
CN105139855A (zh) * 2014-05-29 2015-12-09 哈尔滨理工大学 一种两阶段稀疏分解的说话人识别方法与装置
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
US9838737B2 (en) * 2016-05-05 2017-12-05 Google Inc. Filtering wind noises in video content
CN106356070B (zh) * 2016-08-29 2019-10-29 广州市百果园网络科技有限公司 一种音频信号处理方法,及装置
CN110738990B (zh) * 2018-07-19 2022-03-25 南京地平线机器人技术有限公司 识别语音的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法

Also Published As

Publication number Publication date
CN1384960A (zh) 2002-12-11
AU7660800A (en) 2001-05-14
WO2001033552A1 (en) 2001-05-10
US6678657B1 (en) 2004-01-13
EP1096471B1 (en) 2004-09-22
JP2003513340A (ja) 2003-04-08
DE69920461D1 (de) 2004-10-28
ATE277400T1 (de) 2004-10-15
EP1096471A1 (en) 2001-05-02
DE69920461T2 (de) 2005-12-01

Similar Documents

Publication Publication Date Title
CN1185622C (zh) 语音识别的健壮特征提取方法和装置
US7181390B2 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US9286909B2 (en) Method and system for robust audio hashing
CN1727860B (zh) 语音噪音抑制方法和语音噪音抑制器
CN1210608A (zh) 一种有噪语音参数增强的方法和装置
EP1008140B1 (en) Waveform-based periodicity detector
CN1205601C (zh) 用于与说话者无关的话音识别系统的构造话音模板的方法和设备
Gu et al. Perceptual harmonic cepstral coefficients for speech recognition in noisy environment
EP0996110A1 (en) Method and apparatus for speech activity detection
CN1650349A (zh) 用于抗噪声语音识别的在线参数直方图正态化
KR20000023379A (ko) 정보 처리 장치 및 방법, 정보 기록 장치 및 방법, 기록매체 및 제공 매체
KR20060007363A (ko) 백엔드 음성 활동 검출 장치 및 방법을 이용한 분산스피치 인식
US7885810B1 (en) Acoustic signal enhancement method and apparatus
US7475012B2 (en) Signal detection using maximum a posteriori likelihood and noise spectral difference
CN1460248A (zh) 语音增强设备
EP2769378A2 (fr) Codage hierarchique perfectionne
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
WO2007041789A1 (en) Front-end processing of speech signals
EP1229517B1 (en) Method for recognizing speech with noise-dependent variance normalization
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
US9215350B2 (en) Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same
US20030191640A1 (en) Method for extracting voice signal features and related voice recognition system
CN1212603C (zh) 非线性谱减缺失分量估计方法
Chen et al. Robust voice activity detection algorithm based on the perceptual wavelet packet transform
US20070255557A1 (en) Morphology-based speech signal codec method and apparatus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee