CN1628337A - 语音识别方法及其装置 - Google Patents
语音识别方法及其装置 Download PDFInfo
- Publication number
- CN1628337A CN1628337A CNA028291026A CN02829102A CN1628337A CN 1628337 A CN1628337 A CN 1628337A CN A028291026 A CNA028291026 A CN A028291026A CN 02829102 A CN02829102 A CN 02829102A CN 1628337 A CN1628337 A CN 1628337A
- Authority
- CN
- China
- Prior art keywords
- interval
- mentioned
- mountain peak
- free zone
- free
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000009825 accumulation Methods 0.000 claims description 4
- 230000008878 coupling Effects 0.000 description 14
- 238000010168 coupling process Methods 0.000 description 14
- 238000005859 coupling reaction Methods 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
可提供一种进行端点自由的语音识别并且可以改善在噪音下的识别性能的语音识别方法及其装置。其构成包含对输入语音进行音响分析并对此输入信号输出功率的分析步骤;将上述功率连续超过规定阈值的区间作为山峰区间检测,将功率最大的山峰区间作为最大山峰区间,假定在该最大山峰区间低于上述阈值的点以前存在始端自由区间,并且假定在上述最大山峰区间超过上述阈值的点以后存在终端自由区间,输出始端自由区间和终端自由区间的组合的端点自由区间决定步骤;对利用上述组合的始端自由区间和终端自由区间决定的模式与标准模式进行模式匹配的比较步骤。
Description
技术领域
本发明涉及改善在噪音条件下的识别性能的语音识别方法及其装置。
背景技术
语音识别的进行是将输入信号的功率与预先设定的阈值进行比较,并且将检测出的大于等于阈值的区间作为语音区间,并且与预先确定的标准模式进行模式匹配。
可是,在噪音条件下,由于有时噪音的功率电平超过上述阈值,语音区间检测可能出错而成为错误识别的原因的这一问题过去一直存在。因此,作为对策,有一种不唯一决定始端和终端,而是对取得始端和终端的组合的整个区间进行模式匹配的称为端点自由的识别方法。然而,却存在在对整个区间进行模式匹配时,“东大阪(Higashi-Osaka)”的发音被识别为“大阪(Osaka)”等的部分匹配引起的错误识别的问题。
为了使其减少,历来存在限制取得始端和终端的组合的范围,即限制端点自由范围的技术。作为这一技术的一例,见日本专利特开昭63-300295号公报。
图5为示出在日本专利特开昭63-300295号公报中的一构成例的框图。在本例中,说明的是进行特定的讲话者的单词识别的场合。在从信号的输入端1输入输入信号2时,分析单元3对输入信号2进行A/D变换,分割为称为帧的各个短时间区间,对各个帧进行音响分析,对各帧计算并输出特征矢量X(t)(t=1,2,3,...,T)的时间序列4及功率P(t)和零交叉次数Z(t)(t=1,2,3,...,T)的时间序列5。此处T是输入信号2的全部帧数。特征矢量X(t),比如,是利用LPC分析所得到的LPCケプストラム:倒谱(对数倒频谱)。零交叉次数Z(t)用于检测有声区间。就是说,因为有声音的功率集中于低频分量之故零交叉次数Z(t)很少,在本例中,如后所述,可以将语音功率大于等于规定值且零交叉次数Z(t)少的区间看作有声音。
有声音决定单元7,以输入信号的功率P(t)和零交叉次数Z(t)(t=1,2,3,...,T)的时间序列5作为输入,如图6所示,将语音功率超过预定阈值的帧作为语音区间的始端PB检测出,而将语音功率低于预定阈值的帧作为语音区间的终端PE检测出。另外,在检测的语音区间内,将零交叉次数Z(t)小于预定的阈值的帧作为有声区间的始端ZB检测出,而将大于等于阈值的帧作为有声区间的终端ZE检测。
于是,将从上述语音区间的始端PB到有声区间的始端ZB为止的区间决定为始端自由区间Bfree={PB,ZB}。此处PB是始端自由区间的起始帧,ZB是始端自由区间的最后帧。另外,将从上述有声区间的终端ZE到有声区间的终端PE为止的区间决定为终端自由区间Efree={ZE,PE}。此处ZE是终端自由区间的起始帧,PE是终端自由区间的最后帧。
有声音决定单元7,将上述始端自由区间Bfree={PB,ZB}和终端自由区间Efree={ZE,PE}作为端点自由区间信息8输出。
比较单元11,将特征矢量的时间序列4、以及作为端点自由区间信息8的始端自由区间Bfree={PB,ZB}和终端自由区间Efree={ZE,PE}作为输入,在始端自由区间和终端自由区间内的全部始终端的组合中进行与存放于标准模式存储器9中的标准模式10的模式匹配,比如,利用DP匹配的模式匹配,并将距离值最小的作为识别结果。在标准模式存储器9中,作为当作预先识别对象的各单词的标准模式REF(i),(i=1,2,3,...,K),存放各单词的特征矢量的时间序列。此处的K是标准模式数。特征矢量X(t)是,比如,借助LPC(线形预测编码)分析所得到的LPC倒谱。
如上所述,在现有技术中,假设在检测到的语音区间和有声区间之间存在正确的语音区间的始终端,限制端点自由区间。然而,非恒定噪音的种类多种多样,如汽车内噪音,由于在功率集中在频谱的低频区域的噪音中,零交叉次数少,判定有声区间的危险性大。在判定噪音为有声音时,由于进行包含噪音区间的模式识别,就会成为错误识别的原因。
本发明系有鉴于上述问题而完成的发明,其目的在于提供一种不需要对正确判定困难的有声区间进行判定,有效地限制端点自由区间,改善语音识别精度的语音识别装置。
发明内容
第1发明涉及的语音识别方法为:包含对输入语音进行音响分析并对此输入信号输出功率的分析步骤;将上述功率连续超过规定阈值的区间作为山峰区间检测,功率最大的山峰区间作为最大山峰区间,假定在该最大山峰区间低于上述阈值的点以前存在始端自由区间,并且假定在上述最大山峰区间超过上述阈值的点以后存在终端自由区间,输出始端自由区间和终端自由区间的组合的端点自由区间决定步骤;对由上述组合的始端自由区间和终端自由区间决定的模式和标准模式进行模式匹配的比较步骤。
第2发明涉及的语音识别方法为:上述比较步骤的构成为将由上述端点自由区间决定步骤输出的全部的始端自由区间和终端自由区间的组合决定的各模式和标准模式进行模式匹配。
第3发明涉及的语音识别方法为:上述端点自由区间决定步骤的构成为将在检测出的上述山峰区间之中、功率的累积最大的山峰区间作为最大山峰区间。
第4发明涉及的语音识别方法为:上述分析步骤的构成为在每个检测点输出功率,上述端点自由区间决定单元,将在检测出的上述山峰区间中、上述每个检测点的功率之中上位的规定个数的检测点的功率之和成为最大的山峰区间作为最大山峰区间。
第5发明涉及的语音识别方法为:上述端点自由区间决定步骤的构成为假定在上述最大山峰区间以前的山峰区间超过上述阈值的点的附近存在上述始端自由区间,并且假定在上述最大山峰区间以后的山峰区间低于上述阈值的点的附近存在上述终端自由区间。
第6发明涉及的语音识别方法为:上述端点自由区间决定步骤的构成为假定上述始端自由区间存在的范围的宽度和假定上述终端自由区间存在的范围的宽度依各山峰区间而不同。
第7发明涉及的语音识别方法为:上述分析步骤的构成为在每个帧输出功率,上述端点自由区间决定单元,将功率低于上述阈值的帧作为低于上述阈值的点,而将功率超过上述阈值的帧作为超过上述阈值的点。
第8发明涉及的语音识别装置为:包含对输入语音进行音响分析并针对此输入信号输出功率的分析单元;将上述功率连续超过规定阈值的区间作为山峰区间检测,将功率最大的山峰区间作为最大山峰区间,假定在该最大山峰区间低于上述阈值的点以前存在始端自由区间,并且假定在上述最大山峰区间超过上述阈值的点以后存在终端自由区间,输出始端自由区间和终端自由区间的组合的端点自由区间决定单元;对由上述组合的始端自由区间和终端自由区间决定的模式与标准模式进行模式匹配的比较单元。
第9发明涉及的语音识别装置为:上述比较单元的构成为将由上述端点自由区间决定单元输出的全部的始端自由区间和终端自由区间的组合决定的各模式和标准模式进行模式匹配。
第10发明涉及的语音识别装置为:上述端点自由区间决定单元的构成为将在检测出的上述山峰区间之中、功率的累积最大的山峰区间作为最大山峰区间。
第11发明涉及的语音识别装置为:上述分析单元的构成为在每个检测点输出功率,上述端点自由区间决定单元,将在检测出的上述山峰区间中、上述每个检测点的功率之中上位的规定个数的检测点的功率之和成为最大的山峰区间作为最大山峰区间。
第12发明涉及的语音识别装置为:上述端点自由区间决定单元的构成为假定在上述最大山峰区间以前的山峰区间超过上述阈值的点的附近存在上述始端自由区间,并且假定在上述最大山峰区间以后的山峰区间低于上述阈值的点的附近存在上述终端自由区间。
第13发明涉及的语音识别装置为:上述端点自由区间决定单元的构成为假定上述始端自由区间存在的范围的宽度和假定上述终端自由区间存在的范围的宽度依各山峰区间而不同。
第14发明涉及的语音识别装置为:上述分析单元的构成为在每个帧输出功率,上述端点自由区间决定单元,将功率低于上述的帧作为低于上述阈值的点,而将功率超过上述的帧作为超过上述阈值的点。
附图说明
图1为利用本发明的实施例1和实施例2的语音识别装置的构成图。
图2为本发明的实施例1的始端自由区间和终端自由区间的决定方法的说明图。
图3为本发明的实施例2的始端自由区间和终端自由区间的决定方法的说明图。
图4为本发明的实施例2的始端自由区间和终端自由区间的决定方法的说明图。
图5为利用现有技术的语音识别装置的构成图。
图6为利用现有技术的始端自由区间和终端自由区间的决定方法的说明图。
具体实施方式
实施例1
图1为示出利用本发明的实施例1的语音识别装置的构成的框图。在该图中,1是进行信号输入的信号输入端,2是由信号输入端1输入的输入信号,3是对输入信号2进行音响分析的分析单元,4是由分析单元3算出的输入信号的特征矢量的时间序列,5是由分析单元3算出的输入信号的功率的时间序列,6是根据输入信号的功率的时间序列5决定端点自由区间的端点自由区间决定单元,8是由端点自由区间决定单元6输出的端点自由区间信息,9是存储在用于语音识别的比较处理中使用的标准模式的标准模式存储器,10是在用于语音识别的比较处理中使用的标准模式,而11是进行与各单词的标准模式的模式匹配的比较单元。
在本实施例中,说明的是进行特定的讲话者的单词识别的场合。在标准模式存储器9中,作为当作预先识别对象的各单词的标准模式REF(i),(i=1,2,3,...,K),存放各单词的特征矢量的时间序列。此处的K是标准模式数。特征矢量X(t)是,比如,借助LPC分析所得到的LPC倒谱。
下面对动作予以说明。在从信号输入端1输入输入信号2时,在分析单元3对输入信号2进行A/D变换之后,将每个很短的时间区间分割为称为帧的单位,对各个帧进行音响分析,计算并输出该帧的特征矢量X(t)(t=1,2,3,...,T)的时间序列4及功率P(t)(t=1,2,3,...,T)的时间序列5。此处T是输入信号2的全部帧数。特征矢量X(t),比如,是利用LPC(线形预测)分析所得到的LPC倒谱。功率P(t),比如,可通过将帧内的输入信号的数字值的平方和取对数而得出。
端点自由区间决定单元6,将输入信号的功率P(t)(t=1,2,3,...,T)作为输入,如图2所示,将功率超过预定阈值的帧连续超过规定数目的区间作为山峰区间H{i}={B(i),E(i)}(i=1,2,3,...N)检测出。此处,B(i)是山峰区间的始端,即功率是超过上述阈值的帧。另外,E(i)是山峰区间的终端,即功率低于上述阈值的帧。在图2的示例中,N=3。
之后,端点自由区间决定单元6,利用(1)式或(2)式,计算各山峰区间PH(i)={B(i),E(i)}(i=1,2,3,...N)的功率强度PK{i}(i=1,2,3,...N),按照(3)式检测出功率强度最大的山峰作为功率强度最大山峰区间PH(I)。在(2)式中,t(i,j)是各山峰区间PH(i)={B(i),E(i)}的区间内的帧,为功率是第j大的帧。所以,t(i,1),成为在山峰区间PH(i)内功率大的帧。由此,(2)式,对各山峰区间,可利用在该山峰区间中功率最大的上位M个功率值计算功率强度。另一方面,(1)式,对各山峰区间,计算功率强度作为该区间内的全部功率之和。使用(1)、(2)式帧的哪一个,也可以根据语音识别装置使用时设定的环境噪音的种类及作为识别对象的语音而选择。
I=argmax(i)PK(i) (3)
在本实施例中,因为假设功率强度最大山峰区间是语音,比如,对功率的山峰的持续时间短,瞬时信号功率大的尖峰状的噪音可使用式(1),反之,通过对每帧的功率不大的噪音使用(2)式,可使噪音区间不会成为功率强度最大山峰区间。
之后,端点自由区间决定单元6,按照(4)式、(5)式,将从最初的山峰区间的始端B1到功率强度最大山峰区间的始端B(I)为止的区间上添加始端边缘(margin)bm1,bm2所得到的区间决定为始端自由区间BF={bfL,bfR}。此处,bfL是始端自由区间的起始帧,bfR是始端自由区间的最终帧,并且始端边缘bm1,bm2是预先确定的≥0的常数。
bfL=B(I)-bm1 (4)
bfR=B(I)+bm2 (5)
之后,按照(6)、(7)式,端点自由区间决定单元6,将从最后的山峰区间的终端E(N)到功率强度最大山峰区间的始端E(I)为止的区间上添加终端边缘(margin)em1,em2所得到的区间决定为终端自由区间EF={efL,efR}。此处,efL是终端自由区间的起始帧,efR是终端自由区间的最终帧。终端边缘em1,em2是预先确定的≥0的常数。由以上的处理决定的始端自由区间BF和终端自由区间如图2所示。
efL=E(I)-em1 (6)
efR=E(N)+bm2 (7)
端点自由区间决定单元6,将上述始端自由区间BF={bfL,bfR}和终端自由区间EF={efL,efR}作为端点自由区间信息8输出。
比较单元11,以特征矢量的时间序列4以及由端点自由区间信息8确定的始端自由区间BF={bfL,bfR}和终端自由区间EF={efL,efR}作为输入,利用始端自由区间和终端自由区间的全部始终端的组合与存放于标准模式存储器9中的各单词的标准模式10的REF(i)进行模式匹配。依次对全部标准模式REF(i)(i=1,2,3,...,K)进行这一处理,将全部这些始终端组合和标准模式的比较结果中差异最小的标准模式作为识别结果12输出。作为模式匹配的方法,比如,可以使用DP匹配。
如上所述,本实施例是在噪音下根据“功率强度最大的山峰不是背景噪音,而是作为识别对象的语音或其一部分”这一假定:
(1)在功率强度最大的山峰的区间内不设置大于等于始端边缘bm2和终端边缘em1的端点自由区间;
(2)端点自由区间不跨越功率最大的山峰,就是说,根据在功率强度最大的山峰的后方,不包含始端自由区间,而在功率强度最大的山峰的前方不包含终端自由区间,对端点自由区间进行限制。
显然,在噪音下,人的发声大,在大多的噪音下上述假定成立。利用本实施例的语音识别装置,根据这一假定,不需要对很难正确判定的有声音区间进行判定,通过尽力有效地限制使语音的内部不包含端点自由区间,可以降低部分匹配所引起的误识别。
另外,在本实施例中,作为模式识别的方法,使用的是DP匹配,但对于HMM(隐藏马尔科夫模型)等其他的模式匹配方法也可获得同样的效果。另外,连续语音识别及非特定讲话者的单词识别及连续语音也可以获得同样的效果。
实施例2
下面对本发明的另一实施例的语音识别装置进行说明。在本实施例的语音识别装置中,端点自由区间决定单元6的动作有如下的改变。就是说,首先,端点自由区间决定单元6,将输入信号的功率P(t)(t=1,2,3,...,T)作为输入,利用与实施例1同样的动作,在功率超过预定阈值的帧大于等于规定数目的连续的山峰间PH(i)={B(i),E(i)}(i=1,2,3,...N)时,检测出功率强度最大山峰区间PH(I)。之后,将在功率强度最大山峰区间PH(I)及其先行的各山峰区间的始端B(i),(i=1,2,3,...,N)的前后添加始端边缘bm1,bm2所得到的区间作为始端自由区间BF(i)={bfL(i),bfR(i)}(i=1,2,...,I)。其中,bfL(i)是第i个始端自由区间的起始帧,可由(8)式求出。另外,bfR(i)是第i个始端自由区间的最终帧,可由(9)式求出。始端边缘bmL(i),bmR(i)是预先确定的大于等于0的常数。
bfL(i)=B(i)-bmL(i),(i=1,2,3,...,N) (8)
bfR(i)=B(i)+bmR(i),(i=1,2,3,...,N) (9)
之后,按照(10)、(11)式,将在功率强度最大山峰区间PH(I)及其后续的各山峰区间的始端E(i),(i=I,I+1,...,N)的前后添加终端边缘em1,em2所得到的区间作为终端自由区间EF(i)={efL(i),efR(i)}(i=1,2,...,N-I+1)。其中,efL(i)是第i个终端自由区间的起始帧,efR(i)是第i个终端自由区间的最终帧。终端边缘emL(i),emR(i)是预先确定的大于等于0的常数。通过以上处理决定的始端自由区间和终端自由区间如图3所示。
efL(i)=E(I-1+i)-emL(i),(i=1,2,3,...,N-I+1) (10)
efR(i)=E(I-1+i)+emR(i),(i=1,2,3,...,N-1+1) (11)
另外,上述始端边缘bmL(i)和bmR(i),既可对每个始端自由区间BF(i)设定不同的值,也可作为共用值。
在始端自由区间大时,就会出现对始端误检的鲁棒性增强但部分匹配的危险性变大的折衷关系。第1个始端自由区间BF1的始端自由区间bfL1,由于是向着语音外侧的自由区间,即使数值增大,部分匹配的危险性也不会相应地增大。不过,第一个始端自由区间BF1的右侧和第二个及其以后的始端自由区间,有可能是语音区间内,在将始端边缘bmL(i)和bmR(i)的设定值加大时,部分匹配的可能性会增加。
于是,在使第二个及其以后的始端自由区间的左右两侧的始端边缘和第一个始端自由区间的右侧的始端边缘成为小于第一个及其以后的始端自由区间的左侧的始端边缘的值或为0时,在内侧的自由区间变小,或变为0,具有抑制部分匹配的效果。
同样,上述终端边缘emL(i)和emR(i),既可对每个终端自由区间EF(i)设定不同的值,也可作为共用值。
最后的终端自由区间EF(N-I+1)的右侧的边缘efR(N-I+1),由于是向着语音外侧的自由区间,即使数值增大,部分匹配的危险性也不会相应地增大。不过,最后的终端自由区间的左侧和最后以外的终端自由区间,有可能是语音区间内,在将终端边缘emL(i)和emR(i)的设定值加大时,部分匹配的可能性会增加。
于是,在使最后以外的终端自由区间的左右两侧的终端边缘和最后的终端自由区间的左侧成为小于最后的终端自由区间的右侧的边缘的值或为0时,在内侧的自由区间变小,或变为0,具有抑制部分匹配的效果。
图4示出使第二个及其以后的始端自由区间的左右两侧的始端边缘和第一个始端自由区间的右侧的始端边缘为0,或使最后一个以外的终端自由区间的左右两侧的终端边缘和最后的终端自由区间的左侧的终端边缘为0的场合。
比较单元10,将特征矢量的时间序列4以及作为端点自由区间信息8的始端自由区间BF(i)={bfL(i),bfR(i)}(i=1,2,...,I)和终端自由区间EF(i)={efL(i),efR(i)}(i=1,2,...,N-I+I)作为输入,利用始端自由区间和终端自由区间内的全部始终端的组合,进行与存放于标准模式存储器9中的作为各单词的标准模式10的REF(i)的模式匹配。依次对全部标准模式REF(i)(i=1,2,3,...,K)进行这一处理,将距离值最小的作为识别结果12输出。作为模式匹配的方法,比如,可以使用DP匹配。
因为在实际的非恒定噪音下,在语音的始端和终端多半可观察到功率的山峰的上升和山峰的终端,利用本实施例的语音识别装置,除了在实施方式1中说明的端点自由区间的限制之外,将始端的自由区间限制到功率的山峰的上升前后的区间和将终端的自由区间限制到功率的山峰的上升前后的区间,可以更进一步降低由于匹配引起的误识别。
因为本发明具有如上的构成,不需要对正确判定困难的有声区间进行判定,通过有效地进行限制使端点自由区间尽量不包含在语音的内部,可以降低由于部分匹配引起的误识别。
另外,因为本发明具有如上的构成,可以从全部始终端组合之中,选择与标准模式差异最小的始终端的组合。
另外,因为本发明具有如上的构成,可以在功率的山峰的持续时间短,而瞬时信号功率大的尖峰状的噪音发生的环境下有效地进行语音识别。
另外,因为本发明具有如上的构成,可以在功率的山峰的持续时间长,但功率的极大值不大的噪音的环境下有效地进行语音识别。
另外,因为本发明具有如上的构成,可以使始端和终端的误检减少。
另外,因为本发明具有如上的构成,在使始端和终端的误检减少的同时,可以抑制部分匹配的危险性。
另外,因为本发明具有如上的构成,可适用于以帧为单位进行音响分析的语音识别装置。
Claims (14)
1.一种语音识别方法,其特征在于:包含:
对输入语音进行音响分析并对此输入信号输出功率的分析步骤;
将上述功率连续超过规定阈值的区间作为山峰区间检测,将功率最大的山峰区间作为最大山峰区间,假定在该最大山峰区间低于上述阈值的点以前存在始端自由区间,并且假定在上述最大山峰区间超过上述阈值的点以后存在终端自由区间,输出始端自由区间和终端自由区间的组合的端点自由区间决定步骤;以及
对由上述组合的始端自由区间和终端自由区间决定的模式与标准模式进行模式匹配的核对步骤。
2.如权利要求1所述的语音识别方法,其特征在于:上述端点自由区间决定步骤输出多个始端自由区间和终端自由区间的组合,上述核对步骤的构成为将由上述端点自由区间决定步骤输出的全部的始端自由区间和终端自由区间的组合所决定的各模式与标准模式进行模式匹配。
3.如权利要求1至2中任何一项所述的语音识别方法,其特征在于:上述端点自由区间决定步骤的构成为将在检测出的上述山峰区间之中,功率的累积最大的山峰区间作为最大山峰区间。
4.如权利要求1至2中任何一项所述的语音识别方法,其特征在于:上述分析步骤的构成为在每个检测点输出功率,上述端点自由区间决定单元,将在检测出的上述山峰区间中、上述每个检测点的功率之中上位的规定个数的检测点的功率之和成为最大的山峰区间作为最大山峰区间。
5.如权利要求1至4中任何一项所述的语音识别方法,其特征在于:上述端点自由区间决定步骤的构成为假定在上述最大山峰区间以前的山峰区间超过上述阈值的点的附近存在上述始端自由区间,并且假定在上述最大山峰区间以后的山峰区间低于上述阈值的点的附近存在上述终端自由区间。
6.如权利要求1至4中任何一项所述的语音识别方法,其特征在于:上述端点自由区间决定步骤的构成为假定上述始端自由区间存在的范围的宽度和假定上述终端自由区间存在的范围的宽度依各山峰区间而不同。
7.如权利要求1至6中任何一项所述的语音识别方法,其特征在于:上述分析步骤的构成为在每个帧输出功率,上述端点自由区间决定单元,将功率低于上述阈值的帧作为低于上述阈值的点,而将功率超过上述阈值的帧作为超过上述阈值的点。
8.一种语音识别装置,其特征在于:包含:
对输入语音进行音响分析并对于此输入信号输出功率的分析单元;
将上述功率连续超过规定阈值的区间作为山峰区间检测,将功率最大的山峰区间作为最大山峰区间,假定在该最大山峰区间低于上述阈值的点以前存在始端自由区间,并且假定在上述最大山峰区间超过上述阈值的点以后存在终端自由区间,输出始端自由区间和终端自由区间的组合的端点自由区间决定单元;以及
对由上述组合的始端自由区间和终端自由区间决定的模式与标准模式进行模式匹配的核对单元。
9.如权利要求8所述的语音识别装置,其特征在于:上述端点自由区间决定单元输出多个始端自由区间和终端自由区间的组合,上述核对单元的构成为将由上述端点自由区间决定单元输出的全部的始端自由区间和终端自由区间的组合所决定的各模式与标准模式进行模式匹配。
10.如权利要求8至9中任何一项所述的语音识别装置,其特征在于:上述端点自由区间决定单元的构成为将在检测出的上述山峰区间之中功率的累积最大的山峰区间作为最大山峰区间。
11.如权利要求8至9中任何一项所述的语音识别装置,其特征在于:上述分析单元的构成为在每个检测点输出功率,上述端点自由区间决定单元,将在检测出的上述山峰区间中、上述每个检测点的功率之中上位的规定个数的检测点的功率之和成为最大的山峰区间作为最大山峰区间。
12.如权利要求8至11中任何一项所述的语音识别装置,其特征在于:上述端点自由区间决定单元的构成为假定在上述最大山峰区间以前的山峰区间超过上述阈值的点的附近存在上述始端自由区间,并且假定在上述最大山峰区间以后的山峰区间低于上述阈值的点的附近存在上述终端自由区间。
13.如权利要求8至11中任何一项所述的语音识别装置,其特征在于:上述端点自由区间决定单元的构成为假定上述始端自由区间存在的范围的宽度和假定上述终端自由区间存在的范围的宽度依各山峰区间而不同。
14.如权利要求8至13中任何一项所述的语音识别装置,其特征在于:构成为上述分析单元在每个帧输出功率,上述端点自由区间决定单元,将功率低于上述的帧作为低于上述阈值的点,而将功率超过上述的帧作为超过上述阈值的点。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2002/005847 WO2003107326A1 (ja) | 2002-06-12 | 2002-06-12 | 音声認識方法及びその装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1628337A true CN1628337A (zh) | 2005-06-15 |
Family
ID=29727345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA028291026A Pending CN1628337A (zh) | 2002-06-12 | 2002-06-12 | 语音识别方法及其装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20050165604A1 (zh) |
EP (1) | EP1513135A1 (zh) |
JP (1) | JPWO2003107326A1 (zh) |
CN (1) | CN1628337A (zh) |
WO (1) | WO2003107326A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100580770C (zh) * | 2005-08-08 | 2010-01-13 | 中国科学院声学研究所 | 基于能量及谐波的语音端点检测方法 |
CN108877778A (zh) * | 2018-06-13 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3673507B2 (ja) * | 2002-05-16 | 2005-07-20 | 独立行政法人科学技術振興機構 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
KR101992676B1 (ko) * | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
JP6341092B2 (ja) * | 2012-10-31 | 2018-06-13 | 日本電気株式会社 | 表現分類装置、表現分類方法、不満検出装置及び不満検出方法 |
JP6213476B2 (ja) * | 2012-10-31 | 2017-10-18 | 日本電気株式会社 | 不満会話判定装置及び不満会話判定方法 |
US20150310877A1 (en) * | 2012-10-31 | 2015-10-29 | Nec Corporation | Conversation analysis device and conversation analysis method |
WO2014069120A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 分析対象決定装置及び分析対象決定方法 |
US20140278393A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US9786274B2 (en) | 2015-06-11 | 2017-10-10 | International Business Machines Corporation | Analysis of professional-client interactions |
TWI672690B (zh) * | 2018-03-21 | 2019-09-21 | 塞席爾商元鼎音訊股份有限公司 | 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61143800A (ja) * | 1984-12-18 | 1986-07-01 | 株式会社東芝 | 音声認識装置 |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
JPH0293696A (ja) * | 1988-09-30 | 1990-04-04 | Sanyo Electric Co Ltd | 音声認識装置 |
EP0475759B1 (en) * | 1990-09-13 | 1998-01-07 | Oki Electric Industry Co., Ltd. | Phoneme discrimination method |
JPH08292787A (ja) * | 1995-04-20 | 1996-11-05 | Sanyo Electric Co Ltd | 音声・非音声判別方法 |
JP3789246B2 (ja) * | 1999-02-25 | 2006-06-21 | 株式会社リコー | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
-
2002
- 2002-06-12 EP EP02738666A patent/EP1513135A1/en not_active Withdrawn
- 2002-06-12 WO PCT/JP2002/005847 patent/WO2003107326A1/ja not_active Application Discontinuation
- 2002-06-12 US US10/511,158 patent/US20050165604A1/en not_active Abandoned
- 2002-06-12 JP JP2004514058A patent/JPWO2003107326A1/ja not_active Withdrawn
- 2002-06-12 CN CNA028291026A patent/CN1628337A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100580770C (zh) * | 2005-08-08 | 2010-01-13 | 中国科学院声学研究所 | 基于能量及谐波的语音端点检测方法 |
CN108877778A (zh) * | 2018-06-13 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
CN108877778B (zh) * | 2018-06-13 | 2019-09-17 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
US10937448B2 (en) | 2018-06-13 | 2021-03-02 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice activity detection method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JPWO2003107326A1 (ja) | 2005-10-20 |
WO2003107326A1 (ja) | 2003-12-24 |
EP1513135A1 (en) | 2005-03-09 |
US20050165604A1 (en) | 2005-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1228761C (zh) | 用于经噪声补偿的话音识别的系统和方法 | |
CN1205601C (zh) | 用于与说话者无关的话音识别系统的构造话音模板的方法和设备 | |
CN1248190C (zh) | 快速频域音调估计方法和装置 | |
CN1120470C (zh) | 利用快速和精细匹配在人群中识别讲话者的方法和装置 | |
CN1277248C (zh) | 语音识别系统 | |
US6959276B2 (en) | Including the category of environmental noise when processing speech signals | |
CN1141696C (zh) | 基于语音识别专用芯片的非特定人语音识别、语音提示方法 | |
CN1123862C (zh) | 基于语音识别专用芯片的特定人语音识别、语音回放方法 | |
CN1628337A (zh) | 语音识别方法及其装置 | |
CN1675684A (zh) | 具有后端声音活动检测的分布式语音识别设备和方法 | |
CN1909060A (zh) | 提取浊音/清音分类信息的方法和设备 | |
CN1950882A (zh) | 语音识别系统中的语音结束检测 | |
CN1650349A (zh) | 用于抗噪声语音识别的在线参数直方图正态化 | |
CN1773605A (zh) | 一种应用于语音识别系统的语音端点检测方法 | |
CN1582468A (zh) | 有效存储语音识别模型的系统和方法 | |
CN1534596A (zh) | 使用残差模型用于共振峰追踪的方法和装置 | |
CN1458645A (zh) | 语音识别设备和语音识别程序 | |
CN1198261C (zh) | 基于决策树的语音辨别方法 | |
CN101123090B (zh) | 通过使用平方根折扣的统计语言的语音识别 | |
CN1152366C (zh) | 声音识别系统 | |
CN1214362C (zh) | 用于确定信号间相关系数和信号音高的设备和方法 | |
CN1249665C (zh) | 语音识别系统 | |
CN101067929A (zh) | 使用共振峰增强提取话音共振峰轨迹的方法 | |
CN1181466C (zh) | 基于子带能量和特征检测技术的语音信号端点检测方法 | |
CN1426048A (zh) | 基于熵的端点检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |