CN1506937A - 语音识别装置 - Google Patents

语音识别装置 Download PDF

Info

Publication number
CN1506937A
CN1506937A CNA031541003A CN03154100A CN1506937A CN 1506937 A CN1506937 A CN 1506937A CN A031541003 A CNA031541003 A CN A031541003A CN 03154100 A CN03154100 A CN 03154100A CN 1506937 A CN1506937 A CN 1506937A
Authority
CN
China
Prior art keywords
word
mark
model
control treatment
word model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA031541003A
Other languages
English (en)
Inventor
池田雅彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renesas Technology Corp
Original Assignee
Renesas Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renesas Technology Corp filed Critical Renesas Technology Corp
Publication of CN1506937A publication Critical patent/CN1506937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种语音识别装置,在对每个单词进行语音识别的对照处理中,也能减少对照处理的次数,提高处理速度。通过单词模型产生器4产生的单词模型的集合被送到对照对象单词选择器3,从其中选择成为对照对象的1个单词模型。通过单词对照处理器2,判断路径源相对成为对照对象的现在状态的分数是否在被存储在与单词对照处理器2连接的最大值存储缓冲器8中的基于分数的最大值设定的规定范围内,如果路径源的分数在上述范围内,将该路径源的分数作为算入对象取得累积分数,如果路径源的分数在上述范围之外,省略对于对照对象之状态的分数计算。

Description

语音识别装置
技术领域
本发明涉及一种语音识别装置,特别是涉及一种可高速化进行单词语音对照处理的语音识别装置。
背景技术
作为现有的语音识别方法的一个例子,列举出在日本专利文献1中披露的方法。即,在日本专利文献1中,披露了一种语音识别方法,通过状态和节点(node)表示隐藏马尔可夫模型(Hidden MarkovModel)的网络,在该网络上,通过维特比(Viterbi)算法,对于在各状态产生的语音识别候选者,将在识别处理过程中必需的项目与全部累积对照分数组成分组,然后传播、处理,通过这样,减少了累积对照分数的计算量,存储量也相对地减少。
【日本专利文献1】特开平8-221090号公报(第4栏~第8栏,图1)
发明内容
但是,上述方法是以使用维特比(Viterbi)算法通过帧同步处理的语音识别为前提的,限制了技术的应用。
本发明是为了解决上述问题做出的,其目的是提供一种语音识别装置,其能够在对每个单词进行语音识别的对照处理中,减少对照处理的次数,提高处理速度。
根据本发明的权利要求1所述的语音识别装置,包括:声音处理部,其把按时间序列供给的输入语音信号转换成特征向量,区分为多个帧进行输出;单词模型产生部,其基于预先准备的识别对象单词和声音模型,产生至少1个单词模型;对照处理部,其使用通过沿着给出最大概率的状态序列获得最终概率的维特比算法,对每个单词进行所述至少一个单词模型和所述特征向量的对照处理;最大值存储部,其对于在所述多个帧的每一个中含有的多个状态,存储基于概率计算的分数(スコア)在各个帧中的最大值;其中,所述对照处理部基于所述分数的最大值,从所述多个状态,选择应该计算出其分数的计算对象状态,对于该计算对象状态之外的状态省略计算分数的加大间隔处理。
附图说明
图1是说明基于HMM进行对照处理的概念图。
图2是表示本发明的第1实施例的语音识别装置的构成的方框图。
图3是表示本发明的第1实施例的语音识别装置的操作的流程图。
图4是表示本发明的第1实施例的语音识别装置的操作的流程图。
图5是表示本发明的第2实施例的语音识别装置的构成的方框图。
图6是说明本发明的第2实施例的语音识别装置的操作的流程图。
图7是表示本发明的第2实施例的语音识别装置的变形例的构成的方框图。
图8是说明基于DP配法进行对照处理的概念图。
图9是说明基于DP配法进行对照处理的概念图。
具体实施方式
在说明本发明的实施形式之前,说明单词语音对照使用的隐藏马尔可夫模型(Hidden Markov Model:下面称为HMM)。
图1是表示对连接4个状态构成的单词进行HMM对照处理的模型图。在这里,状态相当于为语音最小单位的音素(phoneme)。而且,音素通常知道有元音和辅音。
在图1中,横轴表示在把以时间序列输入的输入单词(语音)分割成规定长度的各个帧单位的情况下的帧数(i);纵轴表示登记的单词的音素号码(j);在矩阵的格子点中配置圆标记,而在各个格子点,表示从输入单词的每个帧所提取的声音特征量,和登记单词的在各状态的对照概率的信息。而且,在下文中把语音号码称为状态号码,把矩阵的格子点称为音素片。
图1所示的HMM对照处理由箭头表示从对着图左下角的开始状态S(0,0)直到右上角的最终状态S(I,J)的状态转移序列,兼表示状态转移序列并非1个的情况。例如,观察某状态S(i,j)的情况下,到达状态S(i,j),如图所详述,存在2个路径P1和P2。即,路径P1是从状态S(i-1,j)开始的路径,是从相同状态号码开始的转移(称为自身环)。而路径P2是从状态S(i-1,j-1)开始的路径,是从不同的状态号码开始的转移。
在这里,把直到到达状态S(i-1,j)的概率的累积值(累积分数)表示为P(i-1,j)的情况下,通过路径P1到达状态S(i,j)的情况下概率wk1利用下述的公式(1)表示。而且,开始状态S(0,0)的分数被赋予初始值,例如P(0,0)=1。
公式1:
wk1=P(i-1,j)×a{(i-1,j),(i,j)}× b{(i-1,j),(i,j),Yi}    ......(1)
在这里,a{(i-1,j),(i,j)}是从状态S(i-1,j)到状态S(i,j)的转移概率,b{(i-1,j),(i,j),yi}是从状态S(i-1,j)向状态S(i,j)转移中语音特征向量Yi的出现概率。
另外,把直到到达状态S(i-1,j-1)的累积分数表示为P(i-1,j-1)的情况下,通过路径P2到达状态S(i,j)的情况下概率wk2利用下述的公式(2)表示。
公式2:
wk2=P(i-1,j-1)×a{(i-1,j-1),(i,j)}×b{(i-1,j-1),(i,j),Yi}    ......(2)
在这里,a{(i-1,j-1),(i,j)}是从状态S(i-1,j-1)到状态S(i,j)的转移概率,b{(i-1,j-1),(i,j),yi}是从状态S(i-1,j-1)向状态S(i,j)转移中语音特征向量Yi的出现概率。
基于由上述公式(1)、(2)得到的概率wk1和wk2,在状态S(i,j)的累积分数P(i,j)由下述公式(3)给出。
公式3:
P(i,j)=max(wk1,wk2)             ......(3)
即,在通过路径P1和P2的情况下,分别得到的概率wk1和wk2中较大的一个作为状态S(i,j)的累积分数P(i,j)。
进行上述处理直到最终的帧,在最终状态S(I,J)的累积分数P(I,J)是单词分数。
而且,对于路径源仅一个的状态,利用把该路径源的分数算入而算出自己的分数,不使用上述公式(3)。
而且,对于上述公式(1)和公式(2),通过增加对数表达式成为算式,所以得到的概率被称为累积分数。
而且,上述HMM对照处理是以left-to-right模型作为周知的模型。
HMM的对照处理是这样的,从开始状态直到到达最终状态,根据沿着任意状态转移序列输出信号的累积分数的大小来判断输入单词和登记单词的类似性,对多个登记单词进行上述的HMM对照处理,单词分数为最大的登记单词被判断为与输入单词最类似的单词。这样,把沿着给出最大概率的状态序列求得概率的算法称为维特比(Viterbi)算法。
<A.实施例1>
<A-1.装置构成和操作>
使用图2~图4说明本发明的语音识别装置的实施例1的构成和操作。
<A-1-1.装置整体的操作>
图2是表示实施例1的语音识别装置100的构成的方框图。如图2所示,以时间序列输入的语音输入A1首先被送到声音分析器11,对每个帧提取声音特征量。即,在声音分析器11,对语音信号进行例如LPC(Linear Predictive Coding线性预测)分析获得语音的功率谱,从该功率谱把作为主要是声带振动的发声源的音源信号的频谱,与由肺、颚、舌等发音器官形成的声音过滤器(发音过滤器)的频谱分离,将仅与发音过滤器的特性有关的信息作为声音特征量提取出来。而且,在声音特征量的提取过程中采用对数倒频谱(Cepstrum)分析。另外,施加将通过对数倒频谱分析得到的对数倒频谱系数变换为基于人类的听觉特性的唛对数倒频谱系数的处理,但是也可以利用现有技术提取这些声音特征量,所以省略了这方面的说明。
在通过声音分析器11提取出声音特征量之后,在语音周期检测器12基于功率(声音的强度)检测出语音周期,将输入语音特征向量V1作为声音特征量的时间序列数据输出。而且,也可以将声音分析器11和语音周期检测器12共同称为声音处理部。
输入语音特征向量V1按时间序列提供给单词对照处理器2,施加与登记单词的HMM对照处理。
在这里,基于对照对象单词选择器3、单词模型产生器4和单词集合产生器5的操作,说明到选择成为用于施加HMM对照处理的对照对象的单词之前的操作。
例如,在由EEPROM(Electrically Erasable Programable ROM)构成的识别对象单词词典7中,登记以例如文本形式按照假名表述的多个单词(登记单词),单词集合产生器5这样操作,使得从它们中,例如把前头的几个音素作为共同项,把前头的几个音素相似的单词作成集合。在这种操作中,将以假名表述的登记单词重写成声音模型(HMM),该声音模型是通过将在声音模型存储部6中存储的概率分布配置成矩阵状表示的,通过声音模型的相互比较产生上述集合。
即,如上所述,由于声音模型具有概率分布,通过比较声音模型关于前头几个音素的概率分布,判断分布状态的类似性,由类似的声音模型产生集合也可以。
然后,通过单词模型产生器4,对由单词集合产生器5产生的单词集合,进行变换为能够由单词对照处理器2对照的形式的单词模型集合的操作。
在这里,单词集合的产生和变换到声音模型可以在每当输入语音特征向量V1被输入时进行,也可以在识别对象单词词典7被更新时产生,使得将集合信息保持在单词集合产生器5中。另外,也可以作为单词模型的集合存储在单词模型产生器4中。
而且,声音分析器11、语音区间检测器12、对照对象单词选择器3、对照结果判断器9、单词模型产生器4和单词集合产生器5的操作可以通过执行程序的CPU(Central Processing Unit)来实现。
通过单词模型产生器4产生的单词模型的集合被送到对照对象单词选择器3,从其中选择一个单词模型作为对照对象。
通过对照对象单词选择器3选择的一个单词模型被送到单词对照处理器2,进行与输入语音特征向量V1,即与输入语音的对照处理。这种对照处理是使用先前说明的HMM的处理。
在单词对照处理器2,对通过对照对象单词选择器3依次选择的多个单词模型进行HMM对照处理,得到表示各单词模型的最终累积分数的单词分数。而且,单词对照处理器2的操作可以通过构成单词模型产生器4和单词集合产生器5的所述CPU来实现,也可以通过另外设有的DSP(Digital Signal Processor)来实现。
然后,在对照结果判断器9,存储从单词对照处理器2送来的各单词模型的单词分数,把单词分数最高的单词模型作为与语音输入的单词相对应的单词模型而判断出,把该单词模型的输出单词数据D1输出。而且,对照结果判断器9兼有将关于对照结果的信息D2反馈给对照对象单词选择器3的功能,对照对象单词选择器3基于该信息D2提高了选择操作的效率。
这里,使用图3和图4所示的流程图分别说明单词对照处理器2的对照处理和对照对象单词选择器3的选择操作,包括最大值存储缓冲器8和对照结果判断器9的操作。而且,参照图1所示的HMM对照处理说明对照处理。
<A-1-2.单词对照处理器的操作>
使用图3说明单词对照处理器2的操作。
当开始对照处理时,首先,将以时间序列提供的输入语音特征向量V1的帧号码0的帧(i=0)确定为对照对象(步骤S11)。然后,首先,通过指定单词模型的状态号码0(j=0)(步骤S12),使对照对象为状态S(0,0)。而且,最终帧号码是J,最终状态号码是I。
下面,在步骤S13,判断对照对象是否是状态S(0,0),在状态S(0,0)的情况转到步骤S15,进行分数的获得(步骤S13)。
另一方面,如果在步骤S13判断出为状态S(0,0)之外的状态S(i,j),在步骤S14,判定路径源是否为计算对象状态。
这种操作是这样操作的,判断作为分数获得对象的现在状态S(i,j)的一个之前状态,即路径源的分数是否存储在与单词对照处理器2连接的最大值存储缓冲器8中的基于每个帧的分数的最大值设定的规定范围内。
更具体地说,对于输入语音特征向量V1的每个帧,最大值存储缓冲器8存储分数的最大值。该值是作为与过去进行的相同输入进行对照处理的结果而得到的值,但是如下面的说明,是每次对照处理时可以更新的值。而且,在语音识别装置100首次进行对照处理时,最好设定预先设定的规定的值作为缺省值。
然后,对该分数的最大值设定分数的范围使得为例如规定的百分数之内的值,判定路径源的分数是否在该范围内。
当路径源的分数在上述范围内时,将该路径源的分数作为算入候选,基于公式(3)获得状态S(i,j)的累积分数(步骤S15)。然后,在获得分数后,转到步骤S16。
而且,在路径源只有一个的情况,通过把该路径源的分数计入而计算出自身的分数,不使用公式(3)。
另一方面,当判断路径源的分数在上述范围之外时,省略对状态S(i,j)的分数计算,转入步骤S16。
在步骤S16,判断现在的状态号码是否到达最终号码(J),当没有到达最终号码时,状态号码加1,重复步骤S14以下的操作。
另外,当达到最终状态号码时转入步骤S17,将在1个帧中由对从状态号码0到J的状态进行的对照处理得到的各个状态的分数,与存储在最大值存储缓冲器8中的作为现在对照对象的帧号码的帧中的分数的最大值进行比较,得到比较高分数的情况下用新得到的较高分数来更新存储的分数的最大值。
下面,在步骤S18,判断现在的帧号码是否达到最终号码(I),当没有达到最终号码时,将帧号码加1,重复步骤S12以下的操作。
上述操作意思是,例如,对帧号码0的帧结束了对从状态号码0到J的状态进行对照处理之后,对帧号码1的帧对从状态号码0到J的状态进行对照处理。
而且,当达到最终帧号码时,结束对通过对照对象单词选择器3选择的1个单词模型的对照操作。
这样,基于规定的阈值,设有省略分数计算的状态,能够缩短对照处理需要的时间。而且,如图1所示,在HMM对照处理中,直到到达最终状态S(I,J)的状态转移序列,通常采用以状态(0,0)为开始点大致沿着对角线的路线,通过终端之外路线的可能性很小,图1所列出的左上部的角部区域和右下部的角部区域通常不需要计算分数,省略分数计算也不会产生障碍。
而且,如利用图1说明的那样,在最终状态S(I,J)的累积分数成为单词分数,通过对对照对象单词选择器3依次选择的多个单词模型进行上述步骤S11~S18的操作,获得各个单词模型的单词分数。
<A-1-3.对照对象单词选择器的操作>
对照对象单词选择器3在从由单词模型产生器4产生的单词模型集合中选择成为对照对象的1个单词模型时进行了说明,然而,这是图4中步骤S24~S26所示的基本操作,在这些基本操作之前,可以进行步骤S21~S23所示的预处理操作。
即,对照对象单词选择器3接收由单词模型产生器4产生的单词模型的集合,但是在该集合不是1个而是多个的情况下,如果对多个集合中分别包含的多个单词模型进行对照处理,可能需要长时间来输出最终的输出单词数据D1。
因此,当单词模型的集合为多个时,从各个单词模型的集合中分别选择代表模型,将该代表模型送到单词对照处理器2进行对照处理,就该结果得到的单词分数,与在对照结果判断器9中预先设定的判断基准值进行比较。结果,当该单词分数与判断值相差很远时,进行预先处理操作,即是把提取上述代表模型的单词模型的集合判断为不适合进行对照处理的集合的操作。
而且,判断为不适合进行对照处理的集合从对照对象中排除。
对照对象单词选择器3的操作,与上述预处理操作一起,利用图4来说明。
当开始单词选择操作时,首先,在步骤S20,判断从单词模型产生器4输入的单词模型的集合是否是多个,如果是多个就转入步骤S21,如果单词模型的集合是1个就转入步骤S24。
在步骤S21,从由单词模型产生器4输入的单词模型的多个集合分别选择代表模型。即,如单词集合产生器5的操作中说明的那样,单词模型集合的产生中,例如,通过比较吻合声音模型关于前头几个音素的概率分布由类似的声音模型产生集合,此时,由类似性的高低将集合内的声音模型分类,将类似性高的声音模型集合起来,最好将该集合的最中心的声音模型作为代表模型。
下面,在步骤S22,从多个代表模型中选择一个并送到单词对照处理器2,进行HMM对照处理。而且,在这种情况下,也可以进行任意选择。
将作为在单词对照处理器2执行的HMM对照处理结果而得到的单词分数送到对照结果判断器9,与预先设定的判断基准值进行比较。该判定基准值可基于经验值设定,例如,可使用过去得到的单词分数的平均值等。然后,将是否超过该判断基准值的判断结果作为信息D2反馈给对照对象单词选择器3。
下面,在步骤S23,基于是否超过上述判断基准值的判断结果,判断提取上述代表模型的单词模型集合是否是对照对象集合。然后,如果判断出是不适合进行对照处理的集合,将该集合从对照对象中排除,选择其它的集合(步骤S28),重复步骤S21以下的操作。
另外,在步骤S23,如果判断是适合进行对照处理的集合,在步骤S24,从该集合中选择一个单词模型。然后,送到单词对照处理器2(步骤S25),按照用图3说明的过程进行对照处理。
而且,在步骤S26,判断在集合内是否存在未处理的单词模型,如果存在未处理的单词模型,重复步骤S24以下的操作,如果集合内全部单词模型已被处理,在步骤S27,判断是否存在未处理的集合,如果存在未处理的集合,在步骤S28选择新的集合。而且,如果全部集合已被处理就结束选择动作。
<A-2.特有的作用和效果>
如上述说明,语音识别装置100中,在由单词对照处理器2进行的HMM对照处理中,判断路径源(即以前状态)相对多个状态中成为对照对象的现在状态的分数是否在存储在与单词对照处理器2连接的最大值缓冲器8中的基于每个帧的分数的最大值设定的规定范围内,如果路径源的分数在上述范围内,将该路径源的分数作为计算对象,获得累积分数,如果路径源的分数在上述范围外,省略对对照对象的状态的分数计算。
这样,即使在对每个单词进行语音识别的对照处理中,能够进行与所谓的定向(beam)搜索法同样的加大间隔处理,能减少对1个单词进行对照处理花费的时间。
另外,由于进行如下预处理操作,由单词集合产生器5产生类似单词的集合,通过对照对象单词选择器3,从各单词模型选择代表模型,将该代表模型送到单词对照处理器2进行对照处理,基于其结果得到的单词分数,判断是否对提取上述代表模型的单词模型集合进行对照处理,所以,大幅度减少了对照处理花费的时间,能进一步提高处理速度。
<B.实施例2>
<B-1.装置构成和操作>
参照图5~图7说明本发明的语音识别装置的实施例2的构成和操作。
<B-1-1.装置的整体操作>
图5是表示实施例2的语音识别装置200的构成的方框图。而且,在图5中,与用图2说明的语音识别装置100相同的部件用相同的标记表示,省略了重复的说明。
如图5所示,输入语音特征向量V1以时间序列送到单词对照处理器24,进行与登记单词的HMM对照处理。单词对照处理器24基本上进行与图2所示的单词对照处理器2相同的操作,但除了最大值存储缓冲器8之外,还与临时存储缓冲器28连接,在最大值存储缓冲器8中存储的分数最大值的更新程序有一些不同。而且,后面叙述单词对照处理器24的操作。
另外,单词集合产生器25兼有如下功能:进行操作,使得从识别对象单词词典7例如产生前头几个音素相似的集合,但此时接收从对照结果判断器9输出的输出单词数据D1来进行统计处理,将含有该单词的单词集合的优先级设定为高,或赋予优先级,使得提高该单词在单词集合的优先级,使得输出次数多的单词在对照对象单词选择器3中优先选择。
<B-1-2.单词对照处理器的操作>
参照图6说明单词对照处理器24的操作。而且,在图6中,步骤S31~S36的操作与参照图3说明的步骤S11~S16的操作相同,省略重复的说明。
在步骤S36,判断现在的状态号码是否到达最终号码(J),如果未到达最终号码,将状态号码加1,重复步骤S34以下的操作。另外,如果到达最终状态号码,转入步骤S37。
在步骤S37,将通过重复步骤S34~S36获得的1个帧的从状态号码0到J的各个状态的分数中为最大值的分数存储在临时存储缓冲器28中。而且,这种存储是暂时的,不象存储在最大值存储缓冲器8中的各个帧的最大值一样比较长时间地保持,可使用与最大值存储缓冲器8不同的缓冲器。
在记录1个帧的分数的最大值之后,在步骤S38,判断现在的帧号码是否到达最终号码(I),如果没有到达最终号码,将帧号码加1,重复步骤S32以下的操作。
另外,如果到达最终状态号码,转入步骤S39,将作为最终状态S(I,J)的累积分数的单词分数送到对照结果判断器9。
在对照结果判断器9,将过去接收到的单词分数与从单词对照处理器24接收到的最新单词分数进行比较,如果最新单词分数为迄今为止的最大值,将该信息作为信息D3反馈给单词对照处理器24(步骤S40)。
在单词对照处理器24,接收信息D3,如果由步骤S39输出的单词分数为最大值,通过将存储在临时存储缓冲器28中的各帧的分数的最大值写入到最大值存储缓冲器8中,更新最大值存储缓冲器8的存储内容(步骤S41)。
在更新最大值存储缓冲器8的存储内容后,结束对通过对照对象单词选择器3选择的1个单词模型的对照操作。
另外,如果由步骤S39输出的单词分数不是最大值时,不更新最大值存储缓冲器8的存储内容,结束对通过对照对象单词选择器3选择的1个单词模型的对照操作。
<B-2.特征作用和效果>
如上述说明,语音识别装置200中,在单词对照处理器24的HMM对照处理中,判断路径源相对对照对象的状态的分数是否在存储在与单词对照处理器24连接的最大值存储缓冲器8中的基于每个帧的分数的最大值设定的规定范围内,如果路径源的分数在上述范围内,计算该路径源的分数获得累积分数,如果路径源的分数在上述范围之外,省略对对照对象状态的分数的计算。这样,即使在对每个单词进行语音识别的对照处理中,能够进行与所谓的定向(beam)搜索法同样的加大间隔处理,能减少对1个单词进行对照处理花费的时间。
另外,单词对照处理器24中,将各帧的各个状态的分数的最大值存储在临时存储缓冲器28中,在修正对1个单词模型的对照处理后,仅当该单词模型的单词分数为最大值时,通过将存储在临时存储缓冲器28中的各帧的分数的最大值写入最大值存储缓冲器8中,更新最大值存储缓冲器8的存储内容,所以,例如,仅对一部分帧,通过将有时是好的对照结果的单词模型的分数记录到最大值存储缓冲器8中,从而能够防止得到不正确的对照结果。
另外,在单词集合产生器25产生类似单词的集合,通过对照对象单词选择器3,从各单词模型选择代表模型,将该代表模型送到单词对照处理器24来进行对照处理,基于其结果得到的单词分数,进行预处理操作,该操作判断是否对于提取上述代表模型的单词模型的集合进行对照处理,所以,能大幅度减少对照处理所花费的时间,能更高速地处理。
另外,在单词集合产生器25,接收从对照结果判断器9输出的输出单词数据D1,进行统计处理,赋予优先等级,使得输出次数多的单词在对照对象单词选择器3中成为单词集合的代表模型,所以,输入频度高的单词优先成为对照对象,例如,当语音输入的单词的词汇少,而且输入单词有偏离的时候,能极大地提高对照的命中率,进一步提高对照处理速度。
<B-3.变形例>
图7表示上述说明的语音识别装置200的变形例的构成。而且,在图7中,与参照图2和图5说明的语音识别装置100和200相同的构件被赋予相同的标记,省略了重复说明。
在图7所示的语音识别装置200A,将通过单词模型产生器4产生的单词模型集合的数据送到模型词典缓冲器27,临时存储。
然后,将保持在模型词典缓冲器27中的单词模型集合的数据送到对照对象单词选择器23,从其中选择成为对照对象的1个单词模型。
这里,对照对象单词选择器23与参照图2说明的对照对象单词选择器3具有同样的功能,但还具有这些功能,接收从对照结果判断器9输出的输出单词数据D1,进行统计处理,对保持在模型词典缓冲器27内的单词模型集合之数据的重新排列来提高含有输出次数多的单词的集合的对照级别,使得输出次数多的单词在对照对象单词选择器23被优先选择。而且,基于上述统计处理,进行数据的重新排列使得提高输出次数多的单词在集合内的优先位次。
这样,在语音识别装置200A中,具有模型词典缓冲器27,其存储由单词模型产生器4产生的单词模型之集合的数据,在对照对象单词选择器23中,接收从对照结果判断器9输出的输出单词数据D1,进行统计处理,对存储在模型词典缓冲器27内的单词模型之集合的数据进行重新排列,使得优先地选择输出次数多的单词,如果输入单词有偏离,能极大地提高对照的命中率,进一步提高对照处理速度。
<C.其它的变形例>
在上述说明的语音识别装置100和200的每个中,说明了单词集合产生器5或25为了产生前头几个因素相似的集合而进行的操作,但这仅是一个例子,还可以通过登记单词的单词长度来产生集合。
即,基于登记的单词产生的声音模型具有与音素和持续时间有关的信息,能够容易地推断出单词的长度,所以能容易地基于单词长度产生集合。
当采用这种方式时,由于语音输入的单词的单词长度与帧数有关,所以根据帧数推断输入单词长度,在对照对象单词选择器3中,通过优先地选择具有近似于该输入单词长度的单词长度的单词集合来对照,能够更高速地对照处理。
另外,由于在音素的信息中也含有关于功率(声音的强度)和功率之变化的信息,所以可以根据登记单词内的功率变化,根据静音(或者低功率)的次数产生单词集合。
而且,用不着说,可以使用单词的前头几个音素的相似性、单词长度和功率变化的任意组合。
<D.对照处理的其它例子>
在以上说明的实施例1和2中,表示了使用HMM对照处理作为对照处理的例子,但也可以通过使用DP匹配法进行对照处理。以下说明DP匹配法。
即使同一个人说同样的话,其持续时间每次都变化,而且非线性伸缩。为此,在标准模型与输入语音的比较中,为了相同的音素相互对应,进行非线性伸缩时间轴的时间标准化。
在这里,由A=a1,a2,...ai,...aI和B=b1,b2,...bj,...bI表示应该对应的2个时间序列,如图8所示,假想由横轴和纵轴形成的平面,其中横轴表示将输入模式帧排列成时间序列的序列A,纵轴表示将标准模式帧排列成时间序列的序列B。而且,由于标准模式被准备了多种种类,所以对应于该多种种类的标准模式的平面被假想为多个。在这种情况下,A、B两序列的时间轴的对应关系,即时间伸缩函数,由该平面上的格子点c=(i,j)的序列F表示。
然后,当由d(c)=d(i,j)表示2个特征向量ai和bi的频谱距离时,沿着序列F的距离之和H(F)由下面的公式(4)表示。
【公式4】
H ( F ) = &Sigma;d ( C k ) &CenterDot; W k &Sigma; W k . . . ( 4 )
该和H(F)的值越小,表示序列A和序列B有好的对应关系。
这里,Wk是关于序列F的正加权。为了防止单调性和连续性以及极端的伸缩,增加各种限制,给出了图9所示的时间伸缩函数F的限制,即对路径的倾斜限制。
在图9中,横轴表示输入语音帧,纵轴表示存储在词典中的单词的帧,i轴、j轴表示DP匹配的路径模型的例子。
如图9所示,当假想4个路径P11、P12、P13和P14时,没有变更词典帧号码的路径的继续受到限制,如路径P13和P14,路径P14从计算对象中被排除。而且,路径P11~P13汇聚到点(i,j)。
将图9的路径模型的情况的累积计算公式化,成为如下的公式(5)。
【公式5】
g ( i , j ) = min g ( i - 1 , j ) g ( i - 1 , j - 1 ) g ( i - 1 , j - 2 ) + d ( i , j ) . . . ( 5 )
在公式(5)中,g(i,j)表示点(i,j)的累积距离,g(i-1,j)表示路径P3的累积距离,g(i-1,j-1)表示路径P2的累积距离,g(i-1,j-2)表示路径P1的累积距离,d(i,j)表示距未图示的始点的欧几里得距离。
在这里,假设g(1,1)=d(1,1),首先固定j=1而i一直到达I顺序变化,同时计算上述公式(5)。然后,将j值加1而i再同样变化来进行计算。重复这种操作直到j=J,从而得到序列A和序列B的2个时间序列之间的时间标准化后的累积距离。
该累积距离相当于由HMM对照处理说明的累积分数,根据累积距离的大小判断输入单词和登记单词的类似性,是基于DP匹配法的对照处理。在本发明中,可以使用DP匹配法来代替HMM对照处理。
根据本发明的权利要求1所述的语音识别装置,在对照处理部,基于分数的最大值从多个状态选择计算其分数的计算对象状态,进行对于该计算对象状态之外的状态省略计算分数的加大间隔处理,所以,即使在对每个单词进行语音识别的对照处理中,能够进行与所谓的定向(beam)搜索法同样的加大间隔处理,能减少对1个单词进行对照处理花费的时间。

Claims (10)

1.语音识别装置,包括:
声音处理部,其把按时间序列供给的输入语音信号转换成特征向量,区分为多个帧进行输出;
单词模型产生部,其基于预先准备的识别对象单词和声音模型,产生至少1个单词模型;
对照处理部,其使用通过沿着给出最大概率的状态序列获得最终累积概率的维特比算法,对每个单词进行所述至少一个单词模型和所述特征向量的对照处理;
最大值存储部,其对于在所述多个帧的每一个中含有的多个状态,存储在基于概率计算出的分数在各个帧中的最大值;
其中,所述对照处理部基于所述分数的最大值,从所述多个状态,选择应该计算出其分数的计算对象状态,进行对于该计算对象状态之外的状态省略计算分数的加大间隔处理。
2.根据权利要求1所述的语音识别装置,所述对照处理是使用隐藏马尔可夫模型的对照处理,该模型是将所述累积分数作为对照结果而获得的,其是通过对矩阵状配置的所述多个状态,指定累积各个状态分别具有的所述分数直到到达最终状态前获得的多个路径中,给出最大累积分数的路径进行的;
所述对照处理部的所述加大间隔处理包括这种处理,在所述对照处理时,当到达成为分数算出的判断对象的现在状态前的前状态的分数是在基于存储在所述最大值存储部中的所述分数的最大值而设定的规定范围内的时候,将所述现在状态作为所述计算对象状态,当所述前状态的分数是在所述规定的范围外的时候,省略对所述现在状态中计算其分数。
3.根据权利要求2所述的语音识别装置,所述对照处理部还包括下述功能,在每一帧将存储在所述最大值存储部的所述分数的最大值与通过所述对照处理获得的各状态的最新分数进行比较,当存在超过所述分数的最大值的所述最新分数的时候,用所述最新分数重写所述分数的最大值。
4.根据权利要求2所述的语音识别装置,所述至少一个单词模型是多个单词模型,所述语音识别装置还包括对照结果判断部,其从所述对照处理部接收所述对照结果的信息,将对最近接收的最新单词模型的所述对照结果与对已经接收的其它单词模型的所述对照结果进行比较,判断最好的最好对照结果;
所述对照处理部还包括下述功能:
获得通过所述对照处理得到的各个帧中的各个状态的最新分数的最大值,按每个帧存储在规定的临时存储部;
和接收所述对照结果判断部的判断结果的信息,当对所述最新单词模型的所述对照结果是所述最好对照结果的时候,将存储在所述最大值存储部中的所述最新分数的最大值改写为存储在所述临时存储部中的所述各个帧中的各状态的最大值。
5.根据权利要求2所述的语音识别装置,所述至少1个单词模型是多个单词模型,
所述单词模型产生部具有如下功能:基于规定的共同项将所述多个单词模型分类成多个单词模型集合,并输出;
所述语音识别装置还包括对照对象单词选择部,其接收所述多个单词模型集合,从各个单词模型集合选择分别成为代表的代表模型,并送到所述对照处理部,基于使用所述代表模型的对照结果,决定是否对所述单词模型集合内剩余的单词模型进行所述对照处理。
6.根据权利要求5所述的语音识别装置,所述单词模型产生部将所述识别对象单词中从前头数2个以上预先确定个数的音素的类似性用作所述规定的共同项进行分类。
7.根据权利要求5所述的语音识别装置,所述单词模型产生部将所述识别对象单词中单词长度用作所述规定的共同项进行分类。
8.根据权利要求5所述的语音识别装置,所述单词模型产生部将所述识别对象单词中,基于功率的变化信息,把静音部或者低功率部出现次数用作所述规定的共同项进行分类。
9.根据权利要求5所述的语音识别装置,所述语音识别装置还包括对照结果判断部,其从所述对照处理部接收所述对照结果的信息,将对最近接收的最新单词模型的所述对照结果与对已经接收的其它单词模型的所述对照结果进行比较,将呈现最好的最好对照结果的单词模型作为相当于输入单词的单词数据输出;
所述单词模型产生部具有下列功能:接收所述对照结果判断部输出的所述单词数据,进行统计处理,给予优先位次,使得输出次数多的单词模型在所述对照对象单词选择部被优先地选择。
10.根据权利要求5所述的语音识别装置,
所述语音识别装置还包括:
对照结果判断部,其从所述对照处理部接收所述对照结果的信息,将对最近接收的最新单词模型的所述对照结果与对已经接收的其它单词模型的所述对照结果进行比较,将呈现最好的最好对照结果的单词模型作为相当于输入单词的单词数据输出;
模型词典部,将由所述单词模型产生部产生的所述单词模型的数据临时地存储;
所述对照对象单词选择部具有下列功能:
接收所述对照结果判断部输出的所述单词数据,进行统计处理,对存储在所述模型词典部的所述单词模型的数据进行重新排列,使得优先选择输出次数多的单词模型。
CNA031541003A 2002-12-12 2003-08-19 语音识别装置 Pending CN1506937A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP360356/2002 2002-12-12
JP2002360356A JP2004191705A (ja) 2002-12-12 2002-12-12 音声認識装置

Publications (1)

Publication Number Publication Date
CN1506937A true CN1506937A (zh) 2004-06-23

Family

ID=32500984

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA031541003A Pending CN1506937A (zh) 2002-12-12 2003-08-19 语音识别装置

Country Status (3)

Country Link
US (1) US20040117187A1 (zh)
JP (1) JP2004191705A (zh)
CN (1) CN1506937A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373561A (zh) * 2015-07-24 2017-02-01 三星电子株式会社 声学得分计算和语音识别的设备和方法
CN108074562A (zh) * 2016-11-11 2018-05-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN113011177A (zh) * 2021-03-15 2021-06-22 北京百度网讯科技有限公司 模型训练和词向量确定方法、装置、设备、介质和产品

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005096271A1 (ja) * 2004-03-30 2005-10-13 Pioneer Corporation 音声認識装置及び音声認識方法
JP2006201749A (ja) * 2004-12-21 2006-08-03 Matsushita Electric Ind Co Ltd 音声による選択装置、及び選択方法
US8682668B2 (en) 2008-05-16 2014-03-25 Nec Corporation Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
CN103198722A (zh) * 2013-03-15 2013-07-10 肖云飞 英语培训方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9021489D0 (en) * 1990-10-03 1990-11-14 Ensigma Ltd Methods and apparatus for verifying the originator of a sequence of operations
JP3627299B2 (ja) * 1995-07-19 2005-03-09 ソニー株式会社 音声認識方法及び装置
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US7035802B1 (en) * 2000-07-31 2006-04-25 Matsushita Electric Industrial Co., Ltd. Recognition system using lexical trees

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373561A (zh) * 2015-07-24 2017-02-01 三星电子株式会社 声学得分计算和语音识别的设备和方法
CN106373561B (zh) * 2015-07-24 2021-11-30 三星电子株式会社 声学得分计算和语音识别的设备和方法
CN108074562A (zh) * 2016-11-11 2018-05-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN108074562B (zh) * 2016-11-11 2021-12-03 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN113011177A (zh) * 2021-03-15 2021-06-22 北京百度网讯科技有限公司 模型训练和词向量确定方法、装置、设备、介质和产品
CN113011177B (zh) * 2021-03-15 2023-09-29 北京百度网讯科技有限公司 模型训练和词向量确定方法、装置、设备、介质和产品

Also Published As

Publication number Publication date
US20040117187A1 (en) 2004-06-17
JP2004191705A (ja) 2004-07-08

Similar Documents

Publication Publication Date Title
CN1199148C (zh) 语音识别装置、语音识别方法
CN1296886C (zh) 语音识别系统和方法
CN1169116C (zh) 语音识别装置和识别方法
CN1311422C (zh) 语音识别评价装置和语音识别评价方法
US8612235B2 (en) Method and system for considering information about an expected response when performing speech recognition
CN101828218B (zh) 通过多形式段的生成和连接进行的合成
US7228276B2 (en) Sound processing registering a word in a dictionary
CN1123863C (zh) 基于语音识别的信息校核方法
CN1236423C (zh) 说话人声音的后台学习
Gonzalvo et al. Recent advances in Google real-time HMM-driven unit selection synthesizer
CN1244902C (zh) 语音识别装置和语音识别方法
TWI471854B (zh) 引導式語者調適語音合成的系統與方法及電腦程式產品
US20060041429A1 (en) Text-to-speech system and method
US20040243412A1 (en) Adaptation of speech models in speech recognition
CN1365488A (zh) 语音识别方法和装置以及记录介质
CN1534597A (zh) 利用具有转换状态空间模型的变化推理的语音识别方法
CN101030369A (zh) 基于子词隐含马尔可夫模型的嵌入式语音识别方法
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
CN1238058A (zh) 语音处理系统
CN1835075A (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN1692405A (zh) 语音处理设备、语言处理方法、存储介质及程序
CN1282151C (zh) 语音识别设备和语音识别方法
CN1506937A (zh) 语音识别装置
CN1223985C (zh) 语音识别置信度评价方法和系统及应用该方法的听写装置
CN1499484A (zh) 汉语连续语音识别系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication