CN1783211A - 语音区别方法 - Google Patents

语音区别方法 Download PDF

Info

Publication number
CN1783211A
CN1783211A CNA200510128718XA CN200510128718A CN1783211A CN 1783211 A CN1783211 A CN 1783211A CN A200510128718X A CNA200510128718X A CN A200510128718XA CN 200510128718 A CN200510128718 A CN 200510128718A CN 1783211 A CN1783211 A CN 1783211A
Authority
CN
China
Prior art keywords
frame
noise
probability
overbar
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200510128718XA
Other languages
English (en)
Other versions
CN100585697C (zh
Inventor
金灿佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN1783211A publication Critical patent/CN1783211A/zh
Application granted granted Critical
Publication of CN100585697C publication Critical patent/CN100585697C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种语音区别方法,它包括把输入话音信号划分多个帧;从划分的帧中获得参数;使用获得的参数,为每个帧建立状态j的特征矢量的概率密度函数模型;从所建的PDF模型和获得的参数获得相应帧将是噪声帧的概率P0以及相应帧将是语音帧的概率P1。进一步,使用获得的概率P0和P1,执行假设检验,以确定相应的帧是噪声帧还是语音帧。

Description

语音区别方法
技术领域
本发明涉及语音检测方法,并且更为具体地,涉及有效地确定包括语音和噪声数据的输入话音信号中的语音和非语音(例如,噪声)部分的语音区别方法。
背景技术
先前的研究指出,两个人之间的一般电话交谈大约包括40%的语音和60%的静音。而且,噪声数据可以比用舒适的噪声生成(CNG)技术的语音数据更低的比特率编码。以不同的编码率对输入话音信号(包括噪声和语音数据)进行编码称为可变速率编码。此外,可变速率语音编码通常用于无线电话通信中。为了有效地完成可变速率的语音编码,用话音活动检波器(VAD)来确定语音部分和噪声部分。
在国际电信联盟(ITU-T)的电信标准部分提出的G.729标准中,可以获得如线谱密度(LSF)、全频带能量(Ef)、低频带能量(E1)、零点交叉速率(ZC)等的输入信号的参数。也可以获得该信号的频谱失真(ΔS)。然后,获得的值与先前由实验结果确定的特定常量进行比较,以确定输入的信号的特定部分是语音部分还是噪声部分。
此外,在GSM(全球移动通信系统)网络中,当输入话音信号(包括噪声和语音)时,估计噪声的频谱,使用估计的频谱构造噪声抑制滤波器,且该输入的话音信号穿越噪声抑制滤波器。然后,计算该信号的能量,并把计算出的能量与预设的阈值进行比较,以确定特定部分是语音部分还是噪声部分。
上述方法要求多个不同的参数,并基于先前确定的经验数据,即,过去的数据确定输入信号的该特殊部分是语音部分还是噪声部分。然而,语音的特性对每个特定的人来说是非常不同的。例如,不同年龄的人的语音的特性,无论是男性还是女性等等,会改变语音的特性。因此,因为VAD使用先前确定的经验数据,故VAD不提供最佳的语音分析性能。
改善经验主义方法的另一种语音分析方法使用概率理论来确定输入信号的特定部分是否为语音部分。然而,这种方法也是有缺点的,因为它不考虑基于任一特定谈话而具有各种频谱的噪声的不同特性。
发明内容
因此,本发明的一个目标是解决上述以及其他问题。
本发明的另一个目标是提供有效确定包括语音和噪声数据的输入话音信号中的语音和噪声部分的语音区别方法。
为了达到根据本发明的目的的这些以及其他优点,作为这里体现并广泛描述的,提供了一种语音区别方法。根据本发明的一个方面的语音检测方法包括把输入话音信号分为多个帧、从分开的帧中获得参数、使用获得的参数为每个帧在状态j下的特征矢量建立一概率密度函数模型、从所建的PDF模型和获得的参数中获得相应的帧为噪声帧的概率P0和相应的帧为语音帧的概率P1。而且,使用获得的概率P0和P1完成假设检验以确定相应的帧是噪声帧还是语音帧。
根据本发明的另一个方面,提供了一种用于执行计算机指令的计算机程序产品,该计算机指令包括配置成把输入话音信号分成多个帧的第一计算机代码、配置成获得为这些分开的帧的参数的第二计算机代码、配置成使用获得的参数为每个在状态j的特征矢量建立概率密度函数模型的第三计算机代码、以及配置成从所建的PDF模型和获得的参数中获得相应的帧为噪声帧的概率P0和相应的帧为语音帧的概率P1的第四计算机代码。该计算机指令也包括配置成使用获得的概率P0和P1执行假设检验以确定相应的帧是噪声帧还是语音帧的第五计算机代码。
从此后给出的详细描述中,本发明的适用性的又一个范围将变得明显。然而,应该理解,详细描述和特定的例子尽管指出了本发明优选的实施例,但仅是为了说明,因为从这种详细描述中的各种变化和修改都在本发明的精神和范围之内,这对本发明的技术人员来说是显而易见的。
附图说明
从下面给出的详细描述及相应的附图中,本发明将变得更能全面理解。详细描述和相应的附图仅是为了说明,因此并非是本发明的限制,并且其中:
图1是显示根据本发明的一个实施例的语音区别方法的流程图;以及
图2A和图2B是显示完成的试验结果以分别确定许多状态和混和物的图表。
具体实施方式
现在,将对本发明优选的实施例做详细描述,附图示出其例子。
根据本发明的一方面的语音区别方法的算法使用下面两个假设:
H0:为只包括噪声数据的噪声部分。
H1:为包括语音和噪声的语音部分。
为了检验以上假设,执行自反(reflexive)算法,将参考图1显示的流程图讨论该算法。
参考图1,输入话音信号被分为多个帧(S10)。在一个例子中,输入话音信号被分为10毫秒间隔的帧。进一步,当整个话音信号被分为10毫米间隔的帧时,每个帧的值被称为概率过程内的“状态”。
在输入信号被划分为多个帧后,从划分的帧(S20)中获得一组参数。这些参数包括,例如,从相应的帧中获得的语音特征矢量 0;在状态j的第k个混合物的特征的均值矢量mjk;在状态j的第k个混合物的权值矢量cjk;在状态j的第k个混合物的协方差矩阵Cjk;一帧将对应于静音帧或噪声帧的先验概率P(H0);一帧将对应于语音帧的的先验概率P(H1);假设该帧包括静音,当前状态将为静音帧或噪声帧的第j个状态的当前状态的先验概率P(H0j|H1);以及假设该语音帧包括语音,当前状态将为语音帧的第j个状态的先验概率P(H1j|H1)。
可通过训练过程获得上述参数,其中记录实际话音和噪声并将其存储在语音数据库内。由相应的应用、参数文件的大小以及试验获得的许多状态和性能要求间的关系确定要被分配给语音和噪声的状态数量。类似地确定混合物的数量。
例如,图2A和图2B是示出用于确定状态和混合物数量的试验结果的图表。具体地,图2A和图2B是分别显示根据状态和混合物的数量的语音区别速率的图表。如图2A所示,当状态数量过小或过大时,语音区别率降低。类似地,如图2B所示,当混合物的数量过小或过大时,语音区别率降低。因此,使用试验过程来确定状态和混和物的数量。此外,可以使用各种参数估计技术来确定上述参数,如期望最大值算法(E-M算法)。
进一步,参考图1,在步骤(S20)提取参数后,由使用提取的参数的高斯混合物建立状态j的特征矢量的概率密度函数(PDF)模型(S30)。也可以使用log凹函数或椭圆对称函数来计算PDF。
L.R.Rabiner和B-H.HWANG所写的“Fundamentals of Speech Recoginition”(Englewood Cliffs,新泽西.Prentice Hall,1993),以及由S.E.Levinson、L.R.Rabiner和M.M.Sondhi所写的“An introduction to the application of thetheory of probabilistic functions of a Markov process to automatic speechrecognition(贝尔系统技术.J,1983年4月)”中描述了使用高斯混合物的PDF方法,两者因此整体结合与此。因为该方法众所周知,故省略了详细描述。
此外,使用高斯混合物在状态j的特征矢量的PDF由下列等式表示:
b j ( o _ ) = Σ k = 1 N mix c jk N ( o _ , m _ jk , C jk )
这里,N表示采样矢量的总数。
接着,使用计算出的PDF和其他参数获得概率P0和P1。具体地,从提取的参数中获得对应帧为静音帧或噪声帧的概率P0(S40),以及从提取的参数中获得对应帧为语音帧的概率P1(S60)。进一步,计算概率P0和P1,因为并不知道该帧是语音帧还是噪声帧。
进一步,可使用下列等式计算概率P0和P1
P 0 = max j ( b j ( o _ ) · P ( H 0 , j | H 0 ) ) = max j ( Σ k = 1 N mix c jk N ( o _ , m _ jk , C jk ) · P ( H 0 , j | H 0 ) )
P 1 = max j ( b j ( o _ ) · P ( H 1 , j | H 1 ) ) = max j ( Σ k = 1 N miz c jk N ( o _ , m _ jk , C jk ) · P ( H 1 , j | H 1 ) )
同样地,如图1所示,在计算概率P1之前,在分开的帧上执行噪声频谱相减过程(S50)。相减技术使用先前获得的噪声频谱。
此外,在计算概率P0和P1后,执行假设检验(S70)。使用计算出的概率P0和P1及来自估计统计值标准的特定准则,用该假设检验来确定相应的帧是噪声帧还是语音帧。例如,该准则可能为由以下等式定义的MAP(最大后验)准则:
Figure A20051012871800101
这里, η = P ( H 1 ) P ( H 0 ) .
也可以使用其他准则,如最大似然性(ML)极小极大准则、Neman-Pearson检验、CFAR(恒定虚警率)(Constant False Alarm Rate)检验等等。
然后,在假设检验后,应用延迟释放模式(Hang Over Scheme)(S80)。使用延迟释放模式来阻止低能量的声音,如“f”、“th”、“h”等等因其他高能量的声音被错误地确定为噪声,以及阻止中止声音,如“k”、“p”、“t”等等(开始为高能量后来为低能量的声音)在用低能量发音时被确定为静音。进一步,如果帧被确定为噪声帧,且该帧在被确定为语音帧的多个帧之间,则延迟释放模式任意决定该静音帧为语音帧,因为当考虑很小的10毫秒间隔的帧时,语音不会突然变为静音。
此外,如果应用延迟释放模式后,相应的帧被确定为噪声帧,则为确定的噪声帧计算噪声频谱。因此,根据本发明的一个实施例,可使用计算出的噪声频谱来升级步骤S50执行的噪声频谱相减过程(S90)。进一步,可有选择地执行分别在S80和S50的延迟释放模式和噪声频谱相减过程。即,这一个或两个步骤可省略。
正如迄今为止所述,在根据本发明的实施例的语音区别方法中,分别将语音和噪声(静音)部分作为状态处理,从而适合具有各种频谱的语音或噪声。同样,在数据库内集合的噪声数据上使用训练过程,以提供对不同类型噪声的有效响应。此外,在本发明中,因为由如E-M算法的方法可获得随机优化参数,故确定帧为语音帧还是噪声帧的过程得到改善。
进一步,也可通过在话音记录中只记录语音部分而不记录噪声部分,使用本发明来节省存储空间,或者本发明也可被用作有线或无线电话中为可变速率编码器的算法的一部分。
根据本发明的教义,使用传统的通用数字计算机或编程的微处理器可方便地实现本发明,这对本领域的技术人员而言是明显的。熟练的程序员根据本发明的教义,可轻易地进行适当的软件编码,这对本领域的技术人员而言是明显的。本发明也可准备用由此互联传统计算机电路的适当网络的应用专用集成电路来实现,这对本领域的技术人员而言是明显的。
在通用数字计算机或微处理器上实现的本发明的任何部分包括计算机程序产品,该产品是包括能被用于对计算机编程以执行本发明的过程的指令的存储介质。该存储介质包括但不限于,包括软盘、光盘、CD-ROM、以及磁性光盘、ROM、EEPROM、磁卡或光卡的任何类型的磁盘,或者适于存储电子指令的任何类型的介质。
本发明可以许多形式实现,而不会脱离其精神或基本特性,也应该理解,除非另外指明,上述实施例不作为前面详细描述的限制,但应宽泛地被认为处在附加的权利要求的精神和范围内,并且因此所有的变化和修改都落入权利要求的界限和范围内,或者因此附加的权利要求也意图包含这种界限和范围的等价物。

Claims (24)

1.一种语音区别方法,该方法包含:
把输入话音信号划分为多个帧;
从划分的帧中获得参数;
使用获得的参数,为每个帧在状态j的特征矢量建立概率密度函数模型;
从所建的PDF模型和获得的参数中获得相应帧是噪声帧的概率P0以及相应帧是语音帧的概率P1;以及
使用获得的概率P0和P1,执行假设检验,以确定相应的帧为噪声帧还是语音帧。
2.如权利要求1所述的方法,其特征在于,所述参数包含:
从帧中获得的语音特征矢量 0
在状态j下第k个混合物的特征的均值矢量mjk
在状态j下第k个混合物的权值矢量cjk
在状态j下第k个混合物的协方差矩阵Cjk
一帧将是静音帧或噪声帧的的先验概率P(H0);
一帧将是语音帧的先验概率P(H1);
假设该帧是噪声帧,当前状态将是噪声帧的第j个状态的先验概率P(H0,j|H0);以及
假设该帧是语音帧,当前状态将为语音帧的第j个状态的先验概率P(H1,j|H1)。
3.如权利要求2所述的方法,其特征在于,基于要求的性能、参数文件的大小以及实验获得的在状态和混合物的数量与所要求性能间的关系确定状态和混合物的数量。
4.如权利要求1所述的方法,其特征在于,使用包含收集并记录的实际语音和噪声的数据库来获得所述参数。
5.如权利要求1所述的方法,其特征在于,使用高斯混合物、log凹函数或椭圆对称函数来建立所述概率密度函数的模型。
6.如权利要求5所述的方法,其特征在于,使用所述高斯混合物的所述概率密度函数用下列等式表示:
b j ( o ‾ ) = Σ k = 1 N mix c jk N ( o ‾ , m ‾ jk , C jk ) .
7.如权利要求1所述的方法,其特征在于,由下列等式获得所述帧将是噪声帧的概率P0
P 0 = max j ( b j ( o ‾ ) · P ( H 0 , j | H 0 ) ) = max j ( Σ k = 1 N mix c jk N ( o ‾ , m ‾ jk , C jk ) · P ( H 0 , j | H 0 ) ) .
8.如权利要求1所述的方法,其特征在于,由下列等式获得所述帧将是语音帧的概率P1
P 1 = max j ( b j ( o ‾ ) · P ( H 1 , j | H 1 ) ) = max j ( Σ k = 1 N mix c jk N ( o ‾ , m ‾ jk , C jk ) · P ( H 1 , j | H 1 ) ) .
9.如权利要求1所述的方法,其特征在于,使用概率P0和P1以及选择的准则,所述假设检验确定相应的帧是语音帧还是噪声帧。
10.如权利要求9所述的方法,其特征在于,所述准则是MAP(最大后验)准则、最大似然性(ML)极小极大准则、Neman-Pearson检验、恒定虚警率检验中之一种。
11.如权利要求10所述的方法,其特征在于,所述MAP准则由下列等式定义:
H 0 P 0 P 1 > < &eta; H 1 , &eta; = P ( H 1 ) P ( H 0 ) .
12.如权利要求1所述的方法,其特征在于,所述方法进一步包含:
使用在获得概率P1前先前获得的噪声频谱结果,有选择地在相应的帧上执行噪声频谱相减过程。
13.如权利要求1所述的方法,其特征在于,所述方法进一步包含:
在执行假设检验后有选择地应用延迟释放模式。
14.如权利要求12所述的方法,其特征在于,
当相应的帧被确定为噪声帧时,用确定的噪声帧的当前噪声频谱来更新噪声频谱相减过程。
15.一种用于执行计算机指令的计算机程序产品,所述计算机指令包括:
配置成把输入话音信号划分成多个帧的第一计算机代码;
配置成为这些划分的帧获得参数的第二计算机代码;
配置成使用获得的参数为每个帧在状态j下建立特征矢量的概率密度函数模型的第三计算机代码;
配置成从所建的PDF模型和获得的参数获得相应的帧是噪声帧的概率P0和相应的帧是语音帧的概率P1的第四计算机代码;以及
配置成使用获得的概率P0和P1执行假设检验以确定相应的帧是噪声帧还是语音帧的第五计算机代码。
16.如权利要求15所述的计算机程序产品,其特征在于,所述参数包含:
从帧中获得的语音特征矢量 0
在状态j下第k个混合物的特征的均值矢量mjk
在状态j下第k个混合物的权值矢量cjk
在状态j下第k个混合物的协方差矩阵Cjk
一帧将是静音帧或噪声帧的的先验概率P(H0);
一帧将是语音帧的先验概率P(H1);
假设该帧是噪声帧,当前状态将是噪声帧的第j个状态的先验概率P(H0,j|H0);以及
假设该帧是语音真,当前状态将是语音帧的第j个状态的先验概率P(H1,j|H1)。
17.如权利要求15所述的计算机程序产品,其特征在于,使用所述高斯混合物建立所述概率密度函数模型用下列等式表示:
b j ( o &OverBar; ) = &Sigma; k = 1 N mix c jk N ( o &OverBar; , m &OverBar; jk , C jk ) .
18.如权利要求15所述的计算机程序产品,其特征在于,由下列等式获得将所述帧是噪声帧的概率P0
P 0 = max j ( b j ( o &OverBar; ) &CenterDot; P ( H 0 , j | H 0 ) ) = max j ( &Sigma; k = 1 N mix c jk N ( o &OverBar; , m &OverBar; jk , C jk ) &CenterDot; P ( H 0 , j | H 0 ) ) .
19.如权利要求15所述的计算机程序产品,其特征在于,由下列等式获得将所述帧是语音帧的概率P1
P 1 = max j ( b j ( o &OverBar; ) &CenterDot; P ( H 1 , j | H 1 ) ) = max j ( &Sigma; k = 1 N mix c jk N ( o &OverBar; , m &OverBar; jk , C jk ) &CenterDot; P ( H 1 , j | H 1 ) ) .
20.如权利要求15所述的计算机程序产品,其特征在于,使用概率P0和P1以及一选择的准则,所述第五计算机代码确定相应的帧为语音帧还是噪声帧
21.如权利要求20所述的计算机程序产品,其特征在于,所述准则是MAP(最大后验)准则、最大似然性(ML)极小极大准则、Neman-Pearson检验、恒定虚警率检验中之一种。
22.如权利要求21所述的计算机程序产品,其特征在于,所述MAP准则由下列等式定义:
H 0 P 0 P 1 > < &eta; H 1 , &eta; = P ( H 1 ) P ( H 0 ) .
23.如权利要求15所述的计算机程序产品,其特征在于,所述计算机程序产品进一步包含:
第六计算机代码,配置成使用在获得概率P1前先前获得的噪声频谱结果,有选择地在相应的帧上执行噪声频谱相减过程。
24.如权利要求23所述的计算机程序产品,其特征在于,所述计算机程序产品进一步包含:
配置成当相应的帧被确定为噪声帧时,用确定的噪声帧的当前噪声频谱来更新所述噪声频谱相减过程的第七计算机代码。
CN200510128718A 2004-11-25 2005-11-25 语音区别方法 Expired - Fee Related CN100585697C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040097650A KR100631608B1 (ko) 2004-11-25 2004-11-25 음성 판별 방법
KR1020040097650 2004-11-25

Publications (2)

Publication Number Publication Date
CN1783211A true CN1783211A (zh) 2006-06-07
CN100585697C CN100585697C (zh) 2010-01-27

Family

ID=35519866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510128718A Expired - Fee Related CN100585697C (zh) 2004-11-25 2005-11-25 语音区别方法

Country Status (5)

Country Link
US (1) US7761294B2 (zh)
EP (1) EP1662481A3 (zh)
JP (1) JP2006154819A (zh)
KR (1) KR100631608B1 (zh)
CN (1) CN100585697C (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105810201A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 语音活动检测方法及其系统
CN106356070A (zh) * 2016-08-29 2017-01-25 广州市百果园网络科技有限公司 一种音频信号处理方法,及装置
CN111192573A (zh) * 2018-10-29 2020-05-22 宁波方太厨具有限公司 基于语音识别的设备智能化控制方法
WO2020238681A1 (zh) * 2019-05-31 2020-12-03 京东数字科技控股有限公司 音频处理方法、装置和人机交互系统

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
JP4755555B2 (ja) * 2006-09-04 2011-08-24 日本電信電話株式会社 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP4673828B2 (ja) * 2006-12-13 2011-04-20 日本電信電話株式会社 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
KR100833096B1 (ko) 2007-01-18 2008-05-29 한국과학기술연구원 사용자 인식 장치 및 그에 의한 사용자 인식 방법
JP5291004B2 (ja) * 2007-03-02 2013-09-18 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 通信ネットワークにおける方法及び装置
JP4364288B1 (ja) * 2008-07-03 2009-11-11 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
US9009053B2 (en) 2008-11-10 2015-04-14 Google Inc. Multisensory speech detection
US8666734B2 (en) 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
US8428759B2 (en) 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
US8253684B1 (en) 2010-11-02 2012-08-28 Google Inc. Position and orientation determination for a mobile computing device
JP5599064B2 (ja) * 2010-12-22 2014-10-01 綜合警備保障株式会社 音認識装置および音認識方法
CN103650040B (zh) * 2011-05-16 2017-08-25 谷歌公司 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置
KR102315574B1 (ko) 2014-12-03 2021-10-20 삼성전자주식회사 데이터 분류 방법 및 장치와 관심영역 세그멘테이션 방법 및 장치
CN110349597B (zh) * 2019-07-03 2021-06-25 山东师范大学 一种语音检测方法及装置
CN110827858B (zh) * 2019-11-26 2022-06-10 思必驰科技股份有限公司 语音端点检测方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691087B2 (en) * 1997-11-21 2004-02-10 Sarnoff Corporation Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components
KR100303477B1 (ko) 1999-02-19 2001-09-26 성원용 가능성비 검사에 근거한 음성 유무 검출 장치
US6349278B1 (en) * 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
KR100513175B1 (ko) * 2002-12-24 2005-09-07 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105810201A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 语音活动检测方法及其系统
CN105810201B (zh) * 2014-12-31 2019-07-02 展讯通信(上海)有限公司 语音活动检测方法及其系统
CN106356070A (zh) * 2016-08-29 2017-01-25 广州市百果园网络科技有限公司 一种音频信号处理方法,及装置
CN106356070B (zh) * 2016-08-29 2019-10-29 广州市百果园网络科技有限公司 一种音频信号处理方法,及装置
CN111192573A (zh) * 2018-10-29 2020-05-22 宁波方太厨具有限公司 基于语音识别的设备智能化控制方法
CN111192573B (zh) * 2018-10-29 2023-08-18 宁波方太厨具有限公司 基于语音识别的设备智能化控制方法
WO2020238681A1 (zh) * 2019-05-31 2020-12-03 京东数字科技控股有限公司 音频处理方法、装置和人机交互系统

Also Published As

Publication number Publication date
JP2006154819A (ja) 2006-06-15
KR20060058747A (ko) 2006-05-30
US7761294B2 (en) 2010-07-20
EP1662481A3 (en) 2008-08-06
EP1662481A2 (en) 2006-05-31
KR100631608B1 (ko) 2006-10-09
CN100585697C (zh) 2010-01-27
US20060111900A1 (en) 2006-05-25

Similar Documents

Publication Publication Date Title
CN100585697C (zh) 语音区别方法
EP2089877B1 (en) Voice activity detection system and method
CN106409310B (zh) 一种音频信号分类方法和装置
EP2070085B1 (en) Packet based echo cancellation and suppression
CN106875936B (zh) 语音识别方法及装置
CN107331386B (zh) 音频信号的端点检测方法、装置、处理系统及计算机设备
CN103377651B (zh) 语音自动合成装置及方法
Veisi et al. Hidden-Markov-model-based voice activity detector with high speech detection rate for speech enhancement
KR20000071366A (ko) 음성 인식 시스템에서 특성을 추출하는 방법
CN111326169A (zh) 一种语音质量的评价方法及装置
CN1218945A (zh) 静态和非静态信号的鉴别
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
KR100551953B1 (ko) 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법
Borah et al. Speaker identification in the presence of packet losses
Shoba et al. Speech enhancement using phoneme level classification
Das et al. Decision directed constrained iterative speech enhancement.
Martin et al. Robust speech/non-speech detection using LDA applied to MFCC for continuous speech recognition
Onshaunjit et al. LSP Trajectory Analysis for Speech Recognition
Djamel et al. An Efficient Front-End for Distributed Speech Recognition over Mobile
Vlaj et al. Usage of frame dropping and frame attenuation algorithms in automatic speech recognition systems
US20060161433A1 (en) Codec-dependent unit selection for mobile devices
Talwar HMM-based non-intrusive speech quality and implementation of Viterbi score distribution and hiddenness based measures to improve the performance of speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100127

Termination date: 20171125

CF01 Termination of patent right due to non-payment of annual fee