CN1471078A - 字识别设备、字识别方法和字识别程序 - Google Patents

字识别设备、字识别方法和字识别程序 Download PDF

Info

Publication number
CN1471078A
CN1471078A CNA031453031A CN03145303A CN1471078A CN 1471078 A CN1471078 A CN 1471078A CN A031453031 A CNA031453031 A CN A031453031A CN 03145303 A CN03145303 A CN 03145303A CN 1471078 A CN1471078 A CN 1471078A
Authority
CN
China
Prior art keywords
accumulation
external voice
similarity
word
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA031453031A
Other languages
English (en)
Inventor
小林载
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2002194235A external-priority patent/JP4213416B2/ja
Priority claimed from JP2002194236A external-priority patent/JP4167014B2/ja
Priority claimed from JP2002194237A external-priority patent/JP2004037799A/ja
Application filed by Pioneer Corp filed Critical Pioneer Corp
Publication of CN1471078A publication Critical patent/CN1471078A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

该字识别设备配有:一个特性参数生成器(5),它从输入发音中提取语音分段、把分段分割成帧以及生成该发音的特性参数;一个声学模型存储器(6),它在子字级别上存储语音的特性参数;关键字模型生成器(8),它使用从关键字存储器(7)中输出的关键字的发声数据和从该声学模型存储器(6)输出的特性参数,生成关键字模型;一个关键字似然性计算器(11,21),它计算在该发音的特性参数和该关键字模型的特性参数之间的关键字相似性;以及一个维特比处理器(14,24,32,42),它计算该关键字模型的累积相似性。

Description

字识别设备、字识别方法 和字识别程序
技术领域
本发明涉及字识别设备、字识别方法和字识别程序。更特别地,本发明涉及的字识别设备、字识别方法和字识别程序即便在外部语音模型不能很好地处理输入的发音时也能够适当地执行语音识别,并且,本发明的字识别设备、字识别方法和字识别程序使用了通过对字长度的归一化处理而得到的归一化累计相似性,并适合于使用具有很少的状态数的关键字模型进行语音识别。
背景技术
图1是表示一个包含两端都连接在外部语音模型上的关键字的关键字模型λ配置的概念图。在本例中相似性使用似然性(概率)表示。
把输入语音分成帧并且输出该输入语音的特性参数。此处的特性参数是对每个频带的能量进行向量量化或其类似处理而得到的。更明确地,通常使用线性预测系数、LPC倒频谱、或者每个频带的能量等的向量量化。
另一方面,从关键字数据库输出关键字的发声数据并且从外部语音数据库输出外部语音的发声数据,以及通过将关键字的两端都和外部语音模型相连接来产生关键字模型。然后从声学模型数据库取出声学模型和对应于关键字模型发音数据的转移概率以便产生关键字模型的特性参数。
然后,由关键字似然性计算设备计算并输出在输入语音的特性参数和关键字模型的特性参数之间的关键字似然性。
具体来说,通过在逐帧为基础的每个状态中比较输入语音的特性参数和关键字模型的特性参数来计算似然性(发生概率)并且该结果作为在每个时间点上给定状态的状态似然性而被输出。
实际上,为了改进语音识别率准备了两种类型的数据库(关键字数据库和外部语音数据库),产生了包含两端与外部语音模型连接的关键字的关键字模型和包含两端与外部语音模型连接的外部语音模型,以及使用累计关键字似然性以识别关键字,该似然性由根据包含该关键字模型的路径的维特比算法方法来确定。
在根据一种模型(诸如对任何语音都输出特别小的距离的补白(Filler)模型)利用维特比算法方法执行语音识别时,关键字的状态数越少,则发音参数特性和关键字参数特性之间的累积距离越小,因而越难于提取正确的关键字。为了解决这个问题,有的语音识别技术使用通过累积距离对字长度进行归一化而得到的归一化累积距离作为判断识别结果的根据以避免对字的长度的依赖。例如,在日本专利申请公报出版物No.6-167994第0099段公开了一种技术,它使用语音分段的归一化帧计数以便对最终概率(一种累积的相似性)进行归一化。
实际上为了提高语音识别准确性,准备了两种数据库类型(关键字数据库和外部语音数据库),产生了包含其两端都与通配符模型连接的关键字的关键字模型和外部语音模型,使用维特比算法方法从包含关键字模型的路径中计算累积关键字距离,并且使用维特比算法方法从包含外部模型的路径中计算累积外部语音距离。从累积关键字距离中减去累积外部语音距离,并且把所得差值进行对字长度的归一化以输出用于语音识别的归一化累积距离。
通常,在HMM(隐马尔可夫模型)中状态延续时间的概率密度是一个对数函数。然而这只能满足一个不现实的状态持续时间而不能提供合适的语音模型。
为了解决这个问题,可以利用一项技术(不完全马尔可夫模型),它涉及把状态持续时间的概率密度明显地引入到HMM中并从语音数据库中得到它们。
现在将描述如何使用维特比算法方法计算累积距离(一种累积相似性)。
图3是一个表明所包含的关键字的两端都连接在通配符模型上的关键字模型λ的配置的概念图。
图4表示了在使用维特比算法方法计算累积距离D(t,m)时的网格图,此时如图3所示的关键字模型λ输出的符号序列为{a,b,a)。
箭头方向显示了状态的转移。根据通常被用于语音识别的关键字模型λ,只有两种可能的状态转移类型,转移到和当前状态相同的状态以及转移到当前状态的下一个状态,如图3中所示。因而在图4中只使用了两种箭头:平移的箭头表示转移到与当前状态相同的状态以及向上斜的箭头表示转移到下一个状态。在图4的网格中,垂直方向表示模型的状态而平行方向表示帧(时间)的前移。
下面给出描述根据网格图计算图3中输出的符号序列为{a,b,a}时的累积距离D(t,m)的例子。
另外,符号a表示通配符而符号b表示关键字模型。在图4的网格图中符号a是由顶层和底层的行表示的外部语音状态。符号b是在表示外部语音状态的两行之间所夹的三行所表示的关键字本身。图5表示符号序列和关键字模型之间的对应关系。
在初始状态,在每个时间点(帧编号)上每个状态的状态距离被计算并存储在状态距离表P(t,m)中。使用从时间序列上的输入发音的每个预定帧中取出的特性参数(每个频带的能量的量化向量)以及存储在关键字数据库中的关键字特性参数来计算通常被用作状态距离的距离(欧几里德距)。
这里使用的模型具有状态iS(INITIAL)作为它的初始状态,这意味着在时间点t=1时的初始状态是状态iS(INITIAL)。状态S1作为状态iS(INITIAL)时的状态距离P(1,1)为P(1,1)=0。其它的状态S2,S3,S4,S5所分别对应的状态距离P(1,2),P(1,3),P(1,4),P(1,5)理论上最好是无穷大(∝)。然而由于在数学计算中不能处理无穷大,因此在计算中使用比实际计算中可以得到的距离值大得多的值Rfm代替。因而,输入状态S1的累积距离D(1,1)=0并使用充分大的数值Rfm作为其它状态S2,S3,S4,S5的累积距离D(1,2),D(1,3),D(1,4),D(1,5)。
随着时间的前移,在时间点t=2时状态S1的累积距离D(2,1)由状态S1在时间点t=1时的累积距离D(1,1)、状态S1在时间点t=2时的状态距离P(2,1)以及转移的拟合程度b(S1,S2)的和给出:即D(2,1)=D(1,1)+P(2,1)+b(S1,S2)。因而输入D(1,1)+P(2,1)+b(S1,S2)作为时间点t=2时状态S1的累积距离D(2,1)。
转移拟合度b(u,v)是状态u将会转移到状态v的概率的指标。它的值是当已知一个声学模型时,从状态u和状态v之间连接的频率得出的。
在维特比算法方法中,状态S2在时间点t=2时的累积距离D(2,2)是下面两个和值中较小的:即状态S1在时间点t=1时的累积距离D(1,1)、状态S2在时间点t=2时的状态距离P(2,2)以及转移的拟合度b(S1,S2)之和,即D(1,1)+P(2,2)+b(S1,S2);和状态S2在时间点t=1时的累积距离D(1,2)、状态S2在时间点t=2时的状态距离P(2,2)以及转移的拟合度b(S2,S2)之和,即D(1,2)+P(2,2)+b(S2,S2)。因而输入D(2,2)=Min{D(1,1)+P(2,2)+b(S1,S2),D(1,2)+P(2,2)+b(S2,S2)}作为状态S2在时间点t=2时的累积距离D(2,2)。
此时,状态转移信息被输入到表示状态转移的有或者无的状态转移信息表I(2,2)。例如,如果D(1,1)+P(2,2)+b(S1,S2)≥D(1,2)+P(2,2)+b(S2,S2),那么当前的累积距离是D(2,2)=D(1,2)+P(2,2)+b(S2,S2),意味着当前状态D(1,2)与前一状态相同。因而状态转移信息I(2,2)包含一个显示没有状态转移的符号或者数值,例如“Auto”。反之,如果D(1,1)+P(2,2)+b(S1,S2)<D(1,2)+P(2,2)+b(S2,S2),那么当前累积距离是D(2,2)=D(1,1)+P(2,2)+b(S1,S2),意味着发生从前一状态D(1,1)的转移。结果,状态转移信息I(2,2)包含了一个显示状态转移的符号或者数值,例如“Next”。
实际上,如上所述由于该充分大的值Rfm被赋给D(1,2),因此D(1,1)+P(2,2)+b(S1,S2)<D(1,2)+P(2,2)+b(S2,S2)成立,而状态转移信息I(2,2)中包含符号“Next”,这显示发生了从状态D(1,1)到状态D(2,2)的转移。
进而,在维特比算法方法中,时间点t=2时状态S3的累积距离D(2,3)也是以下两个和中较小的:即状态S2在时间点t=1时的累积距离D(1,2)、状态S 3在时间点t=2时的状态距离P(2,3)以及转移的拟合度b(S2,S3)之和,即D(1,2)+P(2,3)+b(S2,S3);和状态S3在时间点t=1时的累积距离D(1,3)、状态S3在时间点t=2时的状态距离P(2,3)以及转移的拟合度b(S3,S3)之和,即D(1,3)+P(2,3)+b(S3,S3)。因而输入D(2,3)=Min{D(1,2)+P(2,3)+b(S2,S 3),D(1,3)+P(2,3)+b(S 3,S3))作为状态S3在时间点t=2时的累积距离D(2,2)。根据状态转移情况状态转移信息I(2,3)中包含“Auto”或者“next”。
与此相似,状态S4在时间点t=2时的累积距离D(2,4)是D(1,3)+P(2,4)+b(S3,S4)和D(1,4)+P(2,4)+b(S4,S4)中较小的。根据状态转移情况,状态转移信息I(2,4)中包含“Auto”或者“next”。
同样,状态S5在时间点t=2时的累积距离D(2,5)是D(1,4)+P(2,5)+b(S4,S5)和D(1,5)+P(2,5)+b(S5,S5)中较小的。根据状态转移情况,状态转移信息I(2,5)中包含含“Auto”或者“next”。
随着状态进一步转移,状态S1到S5在时间点t=3的累积距离D(3,1)到D(3,5)也被计算,并确定和存储状态转移信息I(3,1)到I(3,5)。
对状态S1到S5在时间点t=4到t=12时的累积距离D和转移信息I也同样地计算并且作为状态S1到S5的累积距离D(12,m)(m在1到5之间)输入到图4中最右列中。
在网格图中,模型在输出符号序列时的累积距离出现在右上角,这表示最后一帧的最终的状态。因而在图4的网格中,关键字模型λ输出符号序列P{a,b,a)时的累积距离为D(12,5)。
如果在对符号序列λ进行维特比处理期间记录下状态信息I,并且完成对符号序列λ的维特比处理,那么采取的路径可以从记录下的状态转移信息I中得到。根据状态转移信息I从最后一帧的最终状态开始对轨迹进行回溯,就可以得到表示符号序列λ转移处理的状态序列(最佳路径)。
另一方面,用于归一化处理的字长度通常是与语音分段相对应的关键字分段,如前面提到的文件中已公开的。
对所有存储在关键字数据库中的符号序列(例如{a,b,b))执行上述的处理,并把具有最小归一化累积距离的符号序列作为识别结果而输出。
然而,当关键字是使用字识别设备从发音中提取时,如果发音的分段比关键字分段长会降低识别的效果。
发明人观察了阻碍语音识别性能提高的情况并且发现性能不高的外部语音模型和非关键字分段(此后称为外部语音分段)不正确的匹配会导致低似然性,正是这个现象构成了阻碍。
图2中表示了似然性的时间变化和实际输出的错误关键字以及应当输出的关键字(今后称为“正确的关键字”)的最佳路径上的累积似然性。上面的图表示似然性的时间变化而下面的图表示累积似然的时间变化。由于该图对应似然性,所以曲线向右倾斜。在最初的关键字段(CS到CF),正确的关键字的似然性很高,但是在外部语音分段(ES到CS),外部语音似然性在某处有一个特别小的值。如果没有包含在发音中的关键字偶然地和实际发声的外部语音匹配而外部语音似然很小,那么这一错误关键字的累积似然趋向于变得大于包含在发音中的实际的关键字。发明者发现:由于这个影响关键字模型的累积似然在语音分段的结束点(SE)小于外部语音模型的累积似然,使得维特比处理产生了错误的结果。
发明内容
本发明的目的是提供一种不会因为外部语音模型的性能不能和外部语音分段中的发音匹配而受到影响的字识别设备、字识别方法和字识别程序。
本发明提供了一种不会因为外部语音模型不能足够精确地和外部语音分段中的发音匹配而受到影响的字识别设备、字识别方法和字识别程序。
然而,在使用通过累积距离对字长度进行归一化而得到归一化距离的字识别方法中,如果没有包含在发音中的关键字产生了匹配,那么由维特比算法方法得到的最佳路径就不能正确的适配输入发音。特别地,当因为关键字模型的一个状态继续很长时间,字长度被认为大于实际分析中可能的字长度时,如果使用与作为字长度的语音分段相对应的归一化帧计数来对累积距离进行归一化,那么输出关键字的字长度越长,该关键字的归一化累积距离越小。因此也许输出的是不包含在发音中并且其累积距离小于正确的关键字的归一化累积距离的关键字。特别地,如果一个比包含在发音中的关键字的关键字模型具有较少的状态数的关键字模型被用于匹配,表示该关键字本身的状态通常会持续很长时间。结果,由于同一状态已持续很长时间,计算所得的该错误关键字的估计字长将大于相应地实际预测的字长并且将根据这一估计输出该关键字分段的归一化帧计数。因此,不能正确检测到状态转移并且被估计的该字长度长得不切实际,这样导致了小的归一化累积距离。这会引起问题,使得不包含在发音中的关键字被作为识别的关键字而输出。
如果使用不包含在发音中的关键字的关键字模型进行匹配,得到的最佳路径不一定对应于实际可利用的路径。如果使用最佳路径进行归一化处理,也许会导致一个很小的归一化累积距离。因此,很容易会把错误的关键字作为识别关键字输出。
使用归一化累积距离进行语音识别时会识别出错误的关键字的原因在于即便是状态转移继续了不切实际长的时间也不会采取任何措施处理,本发明就是基于这种认识作出的。本发明的另一个目的是提供字识别设备、字识别方法和字识别程序,它可以避免选取一条不切实际的长路径作为最佳路径并且因此把错误的关键字作为被识别关键字输出。
正常地,HMM允许一个不切实际的长状态持续时间,这样会降低识别准确性。不完全马尔可夫模型包含大量的计算,使它很难实行实时处理。
在字识别中,如果不包含在发音中的关键字产生了匹配,使用维特比算法方法得到的最佳路径不能正确的与输入发音相一致。特别地,其字长度被认为大于实际被分析的关键字的可能长度的关键字会被输出,因为某一关键字模型的一种状态持续了很长时间。特别是如果关键字模型的状态数小于包含在发音中的关键字的关键字模型并被用于匹配时,表示关键字本身状态通常会持续很长时间。
如果没有关键字被包含在发音中,使用维特比算法方法得到的最佳路径可能不会与输入发音相一致。因此,累积距离变小并且容易把错误的关键字作为被识别关键字输出。
进行语音识别时会识别出错误的关键字的原因在于即便是状态转移继续了不切实际长的时间也不会采取任何措施处理,本发明就是基于这种认识作出的。本发明的另一个目的是提供字识别设备、字识别方法和字识别程序,它可以避免选取一条不切实际的长路径作为最佳路径并且因此把错误的关键字作为被识别关键字输出。
以下将描述本发明。附带地,在附图中使用的参考数字将插入到以下的描述中以助于理解本发明,但是这并不打算把本发明限制在图里所表示的形式中。
本发明的以上目的可以使用字识别设备完成,它具有:诸如CPU等可以从输入发音中提取语音分段的特性参数生成装置5,它把语音分段分割成帧,并产生发音的特性参数;诸如HD等的声学模型数据库6,它在子字级别级存储语音的特性参数;诸如CPU等的关键字模型生成装置8,它使用从诸如HD等的关键字数据库7中输出的关键字的发声数据以及从该声学模型数据库(中)输出的特性参数生成关键字模型;诸如CPU等的关键字相似性计算装置11,21,它计算发音的特性参数和关键字模型的特性参数之间的关键字相似性;以及诸如CPU等的累积关键字相似性计算装置14,24,32,42,它计算该关键字模型的累积相似性。
在本发明的字识别设备的一个方面,该累积关键字相似性计算装置14,24,32,42使用维特比算法方法计算该关键字模型的累积相似性。
在本发明字识别设备的另一个方面,该字识别设备进一步具有:诸如CPU等的外部语音模型生成装置10,它使用从诸如HD等的外部语音数据库9输出的外部语音发声数据和从声学模型数据库6输出的特性参数以生成外部语音模型;以及诸如CPU等的外部语音相似性计算装置12,22,它计算发音的特性参数和外部语音模型的特性参数之间的外部语音相似性。
在本发明的字识别设备的更进一步方面,字识别设备进一步具有诸如CPU等的限值设定装置13,23,其中如果外部语音相似性超出了预设范围,则该限值设定装置13,23把预设值作为外部语音相似性输出。
这样,如果外部语音相似性超出了预设范围,则把一个预设值作为外部语音相似性输出。因而即使外部语音模型不能很好地匹配外部语音分段中的发音,它的影响也可以被消除。
从而,累积相似性的是使用维特比算法方法来计算的。
在本发明的字识别设备的进一步方面,该关键字相似性计算装置11计算语音的特性参数和关键字模型的特性参数之间的关键字似然性;外部语音相似性计算装置12计算发音的特性参数和外部语音模型的特性参数之间外部语音似然性;如果外部语音似然性小于预设值,则限值设定装置13把预设值作为外部语音似然性输出;并且该累积相似性计算装置14计算关键字模型的累积似然性。
这样,如果外部语音似然性小于预设值,就把预设值作为外部语音似然性输出。因而,即便外部语音模型不能很好的匹配外部语音分段中的发音,它的影响也可以被消除。
在本发明的字识别设备更进一步方面,关键字相似性计算装置21计算该发音的特性参数和该关键字模型的特性参数之间的关键字距离;诸如CPU等的外部语音相似性计算装置22计算该发音的特性参数和该外部语音模型的特性参数之间的外部语音距离;如果外部语音距离大于预定值,则该限值设定装置23输出预设值作为外部语音距离;并且该累积相似性计算装置24计算该关键字模型的累积距离。
这样,如果外部语音大于预设值,该预设值被作为外部语音距离输出。因而,即便外部语音模型不能很好的与外部语音分段中的发音进行匹配,所带来的影响也可以被消除。
如果外部语音相似性超出了预设范围,则依照本发明的该字识别设备输出预设值作为外部语音相似性。因而,即便外部语音模型不能很好的与外部语音分段中的发音进行匹配,所带来的影响也可以被消除。
在本发明的字识别设备更进一步方面,该累积关键字相似性计算装置32,42输出状态转移信息;并且该字识别设备还具有:诸如CPU等的字长计算装置34,44,它根据从连续自转移的数目中减去预设值获得的数目来处理字长,以及诸如CPU等的累积相似性归一化装置35,45,它根据累积关键字相似性和字长使该发音的累积相似性归一化。
这样,可以从输入发音生成特性参数、生成关键字模型、计算累积关键字相似性,以及然后使用该字长计算装置输出的字长归一化累积相似性。
在本发明的字识别设备更进一步方面,该字识别设备还提供:诸如CPU等的外部语音模型生成装置10,它使用从外部语音数据库9中输出的外部语音的发声数据和从声学模型数据库6输出的特性参数生成外部语音模型;以及诸如CPU等的外部语音相似性计算装置12,22,它计算发音的特性参数和外部语音模型的特性参数之间的外部语音相似性;诸如CPU等的累积外部语音相似性计算装置33,43,它计算该外部语音模型的累积相似性,其中该累积相似性归一化装置35,45根据累积关键字相似性、累积外部语音相似性以及字长使发音的累积相似性归一化。
这样,可以由输入发音生成特性参数、生成关键字模型和外部语音模型、计算累积关键字相似性和累积外部语音相似性并且然后使用由字长计算装置输出的字长以归一化累积相似性。
这使得对输入发音通过分割提取语音分段获得的帧生成特性参数的管理成为可能。
在本发明的字识别设备的更进一步方面,该累积相似性归一化装置35,45通过把该累积关键字相似性和累积外部语音相似性之间的差除以字长而完成对累积相似性的归一化。
这样,可以通过把累积关键字相似性和累积外部语音相似性之间的差除以字长而完成对累积相似性的归一化。
在本发明的字识别设备的更进一步方面,该关键字相似性计算装置21计算发音的特性参数和关键字模型的特性参数之间的关键字距离;该外部语音相似性计算装置22计算发音的特性参数和外部语音模型的特性参数之间的外部语音距离;该累积关键字相似性计算装置42在输出状态转移信息的同时计算累积关键字距离;该累积外部语音相似性计算装置43计算该外部语音模型的外部语音距离;该字长计算装置44直到连续的自转移的数目超过了预定值并发生了向不同状态之间的转移之前不会给字长增加任何东西;以及该累积相似性归一化装置45根据累积关键字距离、累积外部语音距离以及字长而使发音的累积距离归一化。
这样,可以由输入发音生成特性参数、生成关键字模型和外部语音模型、计算累积关键字距离和累积外部语音距离并且然后使用由字长计算装置输出的字长而使累积距离归一化。
在本发明的字识别设备的更进一步方面,该关键字相似性计算装置11计算发音的特性参数和关键字模型的特性参数之间的似然性;该外部语音相似性计算装置12计算发音的特性参数和外部语音模型的特性参数之间的似然性;该累积关键字相似性计算装置32在输出状态转移信息的同时计算关键字似然性;该累积外部语音相似性计算装置33计算该外部语音模型的累积外部语音似然性;该字长计算装置34直到连续的自转移的数目超过预定值并发生了向不同状态的转移时给字长增加一个大于1的值;并且该累积相似性归一化装置35根据累积关键字似然性、累积外部语音似然性以及字长对发音的累积似然进行归一化处理。
这样,可以由输入发音生成特性参数、生成关键字模型和外部语音模型、计算累积关键字似然性和累积外部语音似然性并且然后使用由字长计算装置输出的字长使累积似然性归一化。
即便由维特比算法方法决定的最佳路径中包含一个持续了很长时间的状态,依照本发明的字识别设备也不会向字长增加任何超过自转移门限数字的任何数字。因而可以阻止由于字长归一化导致输出错误的关键字。
在本发明的字识别处理装置的更进一步方面,该字识别设备还具有诸如CPU的持续时间控制装置52,其中:该累积关键字相似性计算装置42输出状态转移信息;并且当连续的自转移的数目超过预设值时该持续时间控制装置52给累积关键字相似性增加一个预定值。
这样,可以由输入发音生成特性参数、生成关键字模型、计算累积关键字似然性,并且然后当连续自转移的数目超过预设值时给累积关键字相似性增加一个预定值。
在本发明的字识别设备的更进一步方面,该关键字相似性计算装置21计算发音的特性参数和关键字模型的特性参数之间的关键字距离;并且该累积关键字相似性计算装置42计算累积关键字距离。
这样,可以由输入发音生成特性参数、生成关键字模型、计算累积关键字似然性,并且然后当连续自转移的数目超过预设值时给累积关键字相似性增加一个预定值。
在本发明的字识别设备的更进一步方面,该关键字相似性计算装置11计算发音的特性参数和关键字模型的特性参数之间匹配的似然性;并且该累积关键字相似性计算装置32计算关键字似然性。
这样,可以由输入发音生成特性参数、生成关键字模型、计算累积关键字似然性,并且然后当连续自转移的数目超过预设值时给累积关键字相似性增加一个预定值。
即便由维特比算法方法决定的最佳路径中包含一个持续了很长时间的状态,依照本发明的该字识别设备根据通过向累积相似性增加了预定值而得到的经调整的累积关键字相似性执行维特比处理。因而可以消除不现实的自转移连续状况。
本发明的以上目的可以通过字识别方法达到,该方法具有:特性参数生成处理,用于从输入发音中提取语音分段,分割成帧并且生成该发音的特性参数;关键字模型生成处理,用于使用从诸如HD的关键字数据库7中输出的关键字发声数据以及从诸如HD的声学模型数据库6输出的特性参数生成关键字模型,该数据库6中以子字的级别存储语音的特性参数;关键字相似性计算处理,用于计算发音的特性参数和关键字模型的特性参数之间的关键字相似性;以及累积关键字相似性计算处理,用于计算该关键字模型的累积相似性。
在本发明的字识别方法的一个方面,在累积关键字相似性计算处理中使用维特比算法方法计算累积相似性。
在本发明的字识别方法的另一个方面,该字识别方法还具有:外部语音模型生成处理,它使用从诸如HD等的外部语音数据库9输出的外部语音发声数据以及从该声学模型数据库6中输出的特性参数生成外部语音模型;以及外部语音相似性计算处理,它计算发音的特性参数和外部语音模型的特性参数之间的外部语音相似性。
在本发明的字识别方法的更进一步方面,该字识别方法还提供限值设定处理,其中:如果外部语音相似性超出了预设值,在限值设定处理中输出预设值作为外部语音相似性。
这样,如果外部语音相似性超出了预设值,输出预设值作为外部语音相似性。因而即便外部语音模型不能很好的和外部语音分段中的发音进行匹配,所带来的影响也可以被消除。
在本发明的字识别方法的更进一步方面,在关键字相似性计算处理中,计算发音的特性参数和关键字模型的特性参数之间匹配的关键字似然性;在外部语音相似性计算处理中,计算发音的特性参数和外部语音的特性参数之间匹配的外部语音似然性;如果外部语音似然小于预设值,在限值设定处理中输出该预设值作为外部语音似然性;并且在累积相似性计算处理中计算该关键字模型的累积似然性。
这样,如果外部语音似然性小于预设值,该预设值作为外部语音似然性被输出。因而,即便外部语音模型不能很好的和外部语音分段中的发音匹配,也可以消除由此带来的影响。
在本发明的字识别方法的更进一步方面,在关键字相似性计算处理中计算发音的特性参数和关键字模型的特性参数之间的关键字距离;外部语音相似性计算处理计算发音的特性参数和外部语音模型的特性参数之间的外部语音距离;如果外部语音距离大于预设值,则在限值设定处理中把该预设值作为外部语音距离输出;并且在累积相似性计算处理中计算该关键字模型的累积距离。
这样,如果外部语音似然大于预设值,该预设值作为外部语音似然性而被输出。因而,即便外部语音模型不能很好地执行和外部语音分段中的发音匹配,也可以消除由此带来的影响。
在本发明的字识别方法的更进一步方面,在累积关键字相似性计算处理中,输出状态转移信息;并且该字识别设备还提供:字长计算处理,它根据通过在连续自转移的数目中减去预设值所获得的数字来处理字长,以及累积相似性归一化处理,它根据累积关键字相似性和字长对发音的累积相似性进行归一化。
这样可以由输入发音生成特性参数、生成关键字模型、计算累积关键字相似性并且然后使用从字长计算装置输出的字长对累积相似性进行归一化。
在本发明的字识别方法的更进一步方面,该字识别方法还提供:外部语音模型生成处理,它使用从外部语音数据库9中输出的外部语音发声数据以及从声学模型数据库6中输出的特性参数生成外部语音模型;以及外部语音相似性计算处理,它计算发音的特性参数和外部语音模型的特性参数之间的外部语音相似性,累积外部语音相似性计算处理,它计算外部语音模型的累积相似性,其中在累积相似性归一化处理中根据累积关键字相似性、累积外部语音相似性以及字长对发音的累积相似性进行归一化。
这样,可以从输入发音生成特性参数、生成关键字模型和外部语音模型、计算累积关键字似然性和累积外部语音似然性并且然后使用由字长计算装置输出的字长对累积似然性归一化。
在本发明的字识别方法的更进一步方面,在累积相似性归一化处理中,通过把累积关键字相似性和累积外部语音相似性之间的差值除以字长而完成对累积相似性的归一化处理。
这样可以通过把累积关键字相似性和累积外部语音相似性之间的差值除以字长完成对累积相似性的归一化处理。
在本发明的字识别方法的更进一步方面,在关键字相似性计算处理中,计算发音的特性参数和关键字模型的特性参数之间的关键字距离;在外部语音相似性计算处理中,计算发音特性参数和外部语音特性参数之间的外部语音距离;在累积关键字相似性计算处理中,在输出状态转移信息的同时计算累积关键字距离;在累积外部语音相似性计算处理中,计算外部语音模型的累积外部语音距离;在字长计算处理中,直到连续的自转移数目超过预设值并且发生向不同状态的转移之前不向字长增加任何东西;以及在累积相似性归一化处理中,根据累积关键字距离、累积外部语音距离和字长对累积距离进行归一化。
这样,可以由输入发音生成特性参数、生成关键字模型和外部语音模型、计算累积关键字距离和累积外部语音距离并且然后使用由字长计算装置输出的字长对累积距离归一化。
在本发明的字识别方法更进一步方面,在关键字相似性计算处理中,计算发音的特性参数和关键字模型的特性参数之间匹配的似然性;在外部语音相似性计算处理中,计算发音的特性参数和外部语音模型的特性参数之间匹配的似然性;在累积关键字相似性计算处理中,在输出状态转移信息的同时计算累积关键字似然性;在累积外部语音相似性计算处理中,计算外部语音模型的累积外部语音似然;在字长计算处理中,直到当连续的自转移数目超过预定值并且发生到不同状态的转移时才向字长增加一个大于1的值;在累积相似性归一化处理中,根据累积关键字似然、累积外部语音似然以及字长对发音的累积似然进行归一化处理。
这样,可以由输入发音生成特性参数、生成关键字模型和外部语音模型、计算累积关键字似然和累积外部语音似然并且然后使用由字长计算装置输出的字长归一化累积似然。
在本方面的字识别方法的更进一步方面,该字识别方法还提供持续时间控制处理,其中:在累积关键字相似性计算处理中,输出状态转移信息;并且在持续时间控制处理中,当连续的自转移数目超过预定值时就对累积关键字相似性增加一个预定值。
这样,可以由输入的发音生成特性参数、生成关键字模型、计算累积关键字相似性并且然后当连续的自转移数目超过预设值时对累积关键字相似性增加一个预定值。
在本发明的字识别方法的更进一步方面,在关键字相似性计算处理中,计算发音的特性参数和关键字模型的特性参数之间的关键字距离;并且在累积关键字相似性计算处理中,计算累积关键字距离。
这样,可以由输入的发音生成特性参数、生成关键字模型、计算累积关键字相似性并且然后当连续的自转移数目超过预设值时就对累积关键字相似性增加一个预定值。
在本发明的字识别方法的更进一步方面,在关键字相似性计算处理中,计算发音的特性参数和关键字模型的特性参数之间的似然性;并且在累积关键字相似性计算处理中,计算累积关键字似然性。
这样,可以由输入发音生成特性参数、生成关键字模型、计算累积关键字相似性并且然后当连续的自转移数目超过预设值时就对累积关键字相似性增加一个预定值。
本发明的以上目标可以通过在包括在字识别设备中的计算机上运行的字识别程序来完成,其中该字识别程序使计算机具有以下功能:特性参数生成装置5,用于从输入发音中提取语音分段、把语音分段分割成帧并生成该发音的特性参数;声学模型数据库6,用于在子字的级别上存储语音的特性参数;关键字模型生成装置8,它使用从关键字数据库7输出的关键字发声数据和从声学模型数据库6输出的特性参数生成关键字模型;关键字相似性计算装置11,12,用于计算在发音的特性参数和关键字模型的特性参数之间的关键字相似性;以及累积关键字相似性计算装置14,24,32,42,用于计算该关键字模型的累积相似性。
本发明的字识别程序的一方面,累积关键字相似性计算装置14,24,32,42使用维特比算法方法计算累积相似性。
在本发明的字识别程序的另一个方面,外部语音模型生成装置10使用从外部语音数据库9输出的外部语音发声数据和从声学模型数据库6输出的特性参数生成外部语音模型;以及外部语音相似性计算装置12,22计算发音的特性参数和外部语音模型的特性参数之间的外部语音相似性。
在本发明的字识别程序的更进一步方面,该字识别程序还使计算机具有进一步的如限值设定装置13,23的功能,其中:如果外部语音相似性超出了预设范围,则该限值设定装置13,23把预设值作为外部语音相似性输出。
这样,如果外部语音相似性超出了预设范围,就把一个预设值作为外部语音相似性输出。因而,即使外部语音模型不能很好地执行以匹配外部语音分段中的发音,也可以消除所带来的影响。
在本发明的字识别程序的进一步方面,该关键字相似性计算装置11计算语音的特性参数和关键字模型的特性参数之间的关键字似然性;该外部语音相似性计算装置12计算发音的特性参数和外部语音模型的特性参数之间的外部语音似然性;如果外部语音似然性小于预设值,则限值设定装置13把预设值作为外部语音似然性输出;并且该累积相似性计算装置14计算关键字模型的累积似然性。
这样,如果外部语音似然性小于预设值,就把预设值作为外部语音似然性输出。因而,即便外部语音模型不能很好的执行以匹配外部语音分段中的发音,它所带来的影响也可以被消除。
在本发明的字识别程序更进一步方面,该关键字相似性计算装置21计算该发音的特性参数和该关键字模型的特性参数之间的关键字距离;该字识别程序使计算机具有功能如:外部语音相似性计算装置22计算该发音的特性参数和该外部语音模型的特性参数之间的外部语音距离;如果外部语音距离大于预定值,则该限值设定装置23输出预设值作为外部语音距离;并且该累积相似性计算装置24计算该关键字模型的累积距离。
这样,如果外部语音大于预设值,该预设值被作为外部语音距离而输出。因而,即便外部语音模型不能很好地执行以便与外部语音分段中的发音进行匹配,它所带来的影响也可以被消除。
在本发明的字识别设备更进一步方面,该累积关键字相似性计算装置32,42输出状态转移信息;并且该字识别程序还使计算机具有功能如:字长计算装置34,44,它根据从相继的自转移数目中减去预设值而获得的数目来处理字长,以及累积相似性归一化装置35,45,它根据累积关键字相似性和字长使该发音的累积相似性归一化。
这样,可以从输入发音生成特性参数、生成关键字模型、计算累积关键字相似性,以及然后使用该字长计算装置输出的字长使累积相似性归一化。
在本发明的字识别程序的更进一步方面,外部语音生成装置10使用从外部语音数据库9中输出的外部语音的发声数据和从声学模型数据库输出的特性参数生成外部语音模型;以及外部语音相似性计算装置12,22计算在发音的特性参数和外部语音模型的特性参数之间的外部语音相似性;累积外部语音相似性计算装置33,43计算该外部语音模型的累积相似性,其中该累积相似性归一化装置35,45根据累积关键字相似性、累积外部语音相似性以及字长使该发音的累积相似性归一化。
这样,可以由输入发音生成特性参数、生成关键字模型和外部语音模型、计算累积关键字相似性和累积外部语音相似性并且然后使用由字长计算装置输出的字长使累积相似性归一化。
在本发明的字识别设备的更进一步方面,该累积相似性归一化装置35,45通过把该累积关键字相似性和累积外部语音相似性之间的差除以字长而完成对累积相似性的归一化。
这样,可以通过把累积关键字相似性和累积外部语音相似性之间的差除以字长而完成对累积相似性的归一化。
在本发明的字识别程序的更进一步方面,该关键字相似性计算装置21计算发音的特性参数和关键字模型的特性参数之间的关键字距离;该外部语音相似性计算装置22计算发音的特性参数和外部语音模型的特性参数之间的外部语音距离;该累积关键字相似性计算装置42在输出状态转移信息的同时计算累积关键字距离;该累积外部语音相似性计算装置43计算该外部语音模型的外部语音距离;该字长计算装置44直到连续的自转移的数目超过了预定值并发生不同状态之间的转移之前不会给字长增加任何东西;以及该累积相似性归一化装置45根据累积关键字距离、累积外部语音距离以及字长使发音的累积距离归一化。
这样,可以由输入发音生成特性参数、生成关键字模型和外部语音模型、计算累积关键字距离和累积外部语音距离并且然后使用由字长计算装置输出的字长使累积距离归一化。
在本发明的字识别程序的更进一步方面,该关键字相似性计算装置11计算发音的特性参数和关键字模型的特性参数之间的似然性;该外部语音相似性计算装置12计算发音的特性参数和外部语音模型的特性参数之间的似然性;该累积关键字相似性计算装置32在输出状态转移信息的同时计算关键字似然性;该累积外部语音相似性计算装置33计算该外部语音模型的累积外部语音似然性;该字长计算装置34直到连续自转移的数目超过预定值并发生向不同状态的转移时向字长增加一个大于1的值;并且该累积相似性归一化装置35根据累积关键字似然性、累积外部语音似然性以及字长对发音的累积似然进行归一化处理。
这样,可以由输入发音生成特性参数、生成关键字模型和外部语音模型、计算累积关键字似然性和累积外部语音似然性并且然后使用由字长计算装置输出的字长使累积似然性归一化。
在本发明的字识别处理程序的更进一步方面,该字识别程序还使得计算机具有的功能如持续时间控制装置52,其中:该累积关键字相似性计算装置42输出状态转移信息;并且当连续的自转移的数目超过预设值时,该持续时间控制装置52给累积关键字相似性增加一个预定值。
这样,可以由输入发音生成特性参数、生成关键字模型、计算累积关键字相似性,并且然后当连续的自转移的数目超过预设值时为累积关键字相似性增加一个预定值。
在本发明的字识别程序的更进一步方面,该关键字相似性计算装置21计算在发音的特性参数和关键字模型的特性参数之间的关键字距离;并且该累积关键字相似性计算装置42计算累积关键字距离。
这样,可以由输入发音生成特性参数、生成关键字模型、计算累积关键字相似性,并且然后当连续自转移的数目超过预设值时为累积关键字相似性增加一个预定值。
在本发明的字识别程序的更进一步方面,该关键字相似性计算装置11计算在发音的特性参数和关键字模型的特性参数之间的似然性;并且该累积关键字相似性计算装置32计算累积关键字似然性。
这样,可以由输入发音生成特性参数、生成关键字模型、计算累积关键字相似性,并且然后当连续自转移的数目超过预设值时为累积关键字相似性增加一个预定值。
附图说明
图1是表示由两端都和外部语音模型连接的关键字组成的关键字模型λ结构的概念图;
图2是表示当错误的关键字和正确的关键字依照现有技术被输出时似然性和累积似然性随时间而变化的图;
图3是由两端都和通配符模型连接的关键字构成的关键字模型λ的结构的框图;
图4是当使用维特比算法方法计算累积距离时所使用的网格的图;
图5是表示符号序列和关键字模型之间对应关系的图;
图6是表示依照本发明的第一实施例的字识别设备原理结构的框图;
图7是表示字识别设备运作概况的流程图;
图8是当错误关键字和正确关键字根据本发明被输出时似然性和累积似然性随时间而变化的图;
图9是表示依照第二实施例的原理结构的框图;
图10是依照该第二实施例的操作概况的流程图;
图11是表示依照本发明的第三实施例的字识别设备的原理配置的框图;
图12表示依照本发明的第三实施例的字识别设备操作概况的流程图;
图13是表示依照本发明的第三实施例的字识别设备的字长计算处理(步骤25)的详细流程图;
图14是表示依照本发明的第四实施例的字识别设备的操作概况的流程图;
图15是表示依照本发明的第四实施例的字识别设备的字长计算处理(步骤30)的详细流程图;
图16是表示依照本发明的第五实施例的字识别设备原理结构的框图;
图17是表示依照本发明的第五实施例字识别装置的操作概况的流程图;
图18是表示依照本发明第五实施例的字识别设备的字长计算处理(步骤34)的详细流程图;
图19是表示依照本发明的第六实施例的字识别设备操作概况的流程图;
图20是表示依照本发明的第七实施例字识别设备的原理结构的框图;
图21是表示依照本发明的第七实施例的字识别设备的操作概况的流程图;
图22是表示依照本发明的第八实施例的字识别设备的原理结构的框图;
图23是表示依照本发明的第八实施例的字识别设备的操作概况的流程图。
具体实施方式
(第一实施例)
下面将参考附图说明依照本发明第一实施例的字识别设备。
图6是表示依照本发明第一实施例的字识别设备原理结构的框图。
在本实施例中使用似然性(概率)表示相似性。如图6所示依照本实施例的该字识别设备包括一个麦克风1、LPF(低通滤波器)2、A/D转换器3、语音分段提取处理器4、作为特性参数生成装置的特性参数生成器5、作为声学模型数据库的声学模型存储器6、作为关键字数据库的关键字存储器7、作为关键字模型生成装置的关键字模型生成器8、作为外部语音数据库的外部语音存储器9、作为外部语音生成装置的外部语音模型生成器10、作为关键字相似性计算装置和关键字似然性计算装置的关键字似然性计算器11、作为外部语音相似性计算装置和外部语音似然性计算装置的外部语音似然性计算器12、作为限值设定装置的限值设定器13、作为累积相似性计算装置和累积似然性计算装置的维特比处理器14以及关键字识别器17。
首先,输入语音被麦克风1转换成电信号。然后高频部分被LPF2从电信号中去除。
从LPF2中得到的语音模拟信号被A/D转换器3以预定抽样率转换成数字信号。
该语音分段提取处理器4包括例如一个CPU(中央处理单元)。它从输入的数字信号中提取语音分段。
该特性参数生成器5包括例如一个CPU。它把语音分段提取处理器4提取的语音分段进一步分割成帧并从这些帧生成输入语音的特性参数。通常使用线性预测系数的量化向量、LPC倒频谱或者每个频带内的能量作为特性参数。
该声学存储器6包括例如HD(硬盘)。它在子字级别(即音素或者音节级)上存储声学模型。当发声数据被输入时,它根据相应声学模型生成特性参数。该声学模型存储器6也存储转移概率。
该关键字存储器7包括例如HD。它以发声数据的形式存储关键字。
该关键字模型生成器8包括例如CPU。它提取从关键字存储器7输出的关键字并通过把被提取的关键字两端和外部语音模型连接生成关键字模型。然后,它通过从声学模型存储器6中提取和关键字模型的发声数据对应的声学模型而生成关键字模型的特性参数。
该外部语音存储器9包括例如HD。它以发声数据的形式存储外部语音。
该外部语音模型生成器包括例如CPU。它提取从外部语音存储器9输出的外部语音模型并通过把被提取的外部语音两端和外部语音模型连接而生成外部语音模型。然后,它通过从声学模型存储器6中提取的与外部语音模型的发声数据对应的声学模型,生成外部语音模型的特性参数。
该关键字似然性计算器11包括例如CPU。它计算并输出在语音的特性参数和关键字模型特性参数之间的似然性(关键字似然性)。
该外部语音似然性计算器12包括例如CPU。它计算并输出该语音的特性参数和关键字模型特性参数之间的似然性(外部语音似然性)。
该限值设定器13包括例如CPU。如果由外部语音似然性计算器12输出的外部语音似然性小于预设值,它把预设值作为外部语音似然性输出。
维特比处理器14包括例如CPU。它在输出表示存在或者不存在状态转移的状态转移信息的同时计算与外部语音模型连接的关键字模型的累积似然性。
关键字识别器17包括例如CPU。它使用维特比处理器14输出的累积似然性执行语音识别。
下面参考图7说明具有以上结构的字识别设备的操作概况。
图7是表示字识别设备的操作概况的流程图。
首先,执行初始化处理(步骤1),以便为维特比处理做准备。
通过麦克风1输入的自发语音被LPF2滤波并被A/D转换器3以预定抽样率进行A/D转换。然后语音分段提取处理器4从自发语音中提取语音分段并且特性参数生成器5生成特性参数。
当初始化处理(步骤1)完成后,开始生成关键字模型和外部语音模型的处理(步骤2)。
该关键字模型生成器8从关键字存储器7和外部语音存储器9提取关键字和外部语音并通过在被提取的关键字两端连接外部语音模型生成关键字模型。另一方面,该外部语音生成器10提取从外部语音存储器9输出的外部语音并生成外部语音模型。然后,关键字模型生成器8和外部语音模型生成器10从声学模型存储器6提取声学模型和它们的与关键字模型和外部语音模型发声数据相对应的转移概率并生成关键字模型和外部语音模型的特性参数。
在结束生成关键字模型和外部语音模型的处理(步骤2)后,执行关键字似然性计算处理(步骤3)、外部语音似然性计算处理(步骤4)以及外部语音似然性调整处理(步骤5)。我们以关键字似然性计算处理开始描述。
该关键字似然性计算器11使用该输入语音的特性参数和该关键字模型的特性参数计算并输出关键字似然性。
具体来说,该关键字似然性计算器11通过比较步骤1中生成的该输入语音的特性参数和关键字模型的特性参数以逐帧为基础计算关键字似然性,并把结果作为给定状态在每个时间点上的状态似然性P以状态似然性表P(t,m)的形式输出到维特比处理器14。
下面说明与步骤3并行执行的外部语音似然性计算处理(步骤4)和在步骤4后执行的外部语音似然性调整处理(步骤5)。
该外部语音似然计算器12计算在输入语音的特性参数和外部语音模型的特性参数之间的似然性。这一计算的处理方式与步骤3中对输入语音的特性参数和关键字模型的特性参数之间的似然性的计算相似。
在完成外部语音似然性计算处理(步骤4)后,就开始外部语音似然性调整处理(步骤5)。
该限值设定器13判断在外部语音似然性计算处理(步骤4)中输出的外部语音似然性是否小于预设值。如果外部语音似然性等于或者大于该预设值,限值设定器13把外部语音似然性输出到维特比处理器14。如果外部语音似然性小于该预设值,限值设定器13把这一预设值作为外部语音似然性输出到维特比处理器14。
在关键字似然性计算处理(步骤3)、外部语音似然性计算处理(步骤4)以及外部语音似然性调整处理(步骤5)结束后,就执行维特比处理(步骤6)。
维特比处理器14根据在关键字似然性计算处理(步骤3)中输出的输入语音的特性参数和关键字模型的特性参数之间的状态似然性P计算累积似然性。
在维特比处理(步骤6)结束后,根据输出的累积似然性在关键字识别处理(步骤7)对关键字进行识别和判定。
接下来,参考图8对本实施例的操作进行描述。图8时表示在错误关键字(未包含在发音中的关键字)和正确关键字(包含在发音中的关键字)被输出时,最佳路径上似然性和累积似然性随时间的变化,其中使用与图2中相同的语音模型。所使用的似然性是对数似然性。
当该外部语音的似然性低于限定值时,该似然性被该限定值代替。这可防止在正确关键字的起始点(CS)以前正确关键字的似然性会比错误关键字小得太多。因此,在发音的结束点(SE)正确关键字的似然性比错误关键字大,使得有可能输出正确关键字。
本实施例具有以下优点。
即便外部语音模型不能精确地匹配发音也可以输出正确的关键字。
由于对外部语音似然性的限值处理不需要很高的性能,因而可以被容易地合并到只具有诸如导航系统那样的有限资源的语音识别装置中。
另外,该第一实施例不仅限于上述例子,还可以做以下修改。
在步骤3和步骤4中所使用的相似性可以是对数似然性。使用对数似然性使我们可以利用加法和减法来计算累积似然性(步骤4),这样可加快计算处理。
(第二实施例)
将参考附图来说明依照本发明第二实施例的字识别设备。
图9是表示依照本发明第二实施例的字识别装置的原理结构的框图。和第一实施例中相同的部件采用与第一实施例相同的标号并省略对它们的详细描述。
本实施例与第一实施例的不同在于:相似性使用距离表示,而第一实施例的相似性使用似然性(概率)表示。其它部分与第一实施例相似。
如图9所示依照本实施例的该字识别设备包括作为关键字相似性计算装置和关键字距离计算装置的关键字距离计算器21、作为外部语音相似性计算装置和外部语音距离计算装置的外部语音距离计算器22、作为限值设定装置的限值设定器23、作为累积相似性计算装置和累积距离计算装置的维特比处理器24
该关键字距离计算器21由例如CPU组成。它计算并输出在输入语音的特性参数和关键字模型特性参数之间的距离(关键字距离)。
该外部语音距离计算器22由例如CPU组成。它计算并输出在该输入语音的特性参数和外部语音模型特性参数之间的距离(外部语音距离)。
该限值设定器23由例如CPU组成。如果由外部语音距离计算器22输出的外部语音距离大于预设值,它把预设值作为外部语音距离输出。
维特比处理器24由例如CPU组成。它计算与外部语音模型连接的关键字模型的累积距离。
下面参考图10说明具有以上结构的该字识别设备的操作概况。
图10是表示依照该第二实施例的字识别设备的操作概况的流程图。与第一实施例中相同的部件采用相同的索引数字表示,并且省略对它们的描述。
如第一实施例中那样,在完成生成关键字模型以及外部语音模型的处理(步骤2)后,就执行关键字距离计算处理(步骤13)、外部语音距离计算处理(步骤14)以及外部语音距离调整处理(步骤15)。下面以关键字距离计算处理(步骤13)开始描述。
该关键距离计算器21计算并输出在该输入语音的特性参数和该关键字模型的特性参数之间的关键字距离。
具体来说,该关键字距离计算器11通过比较步骤1中生成的该输入语音的特性参数和关键字模型的特性参数,以逐帧为基础计算关键字距离,并把结果作为给定状态在每个时间点上的状态距离P以状态距离表的形式输出到维特比处理器24。
下面说明与步骤3并行执行的外部语音距离计算处理(步骤14)和在步骤14后执行的外部语音距离调整处理(步骤15)。
该外部语音距离计算器22计算并输出在输入语音的特性参数和外部语音模型的特性参数之间的距离。
在完成外部语音距离计算处理(步骤14)后,就开始外部语音距离调整处理(步骤15)。
该限值设定器23判断在外部语音距离计算处理(步骤14)中输出的外部语音距离是否大于预设值。如果外部语音距离不大于该预设值,则限值设定器23把外部语音距离输出到维特比处理器24。如果外部语音距离大于该预设值,限值设定器23把预设值作为外部语音距离输出到维特比处理器24。
在关键字距离计算处理(步骤13)、外部语音距离计算处理(步骤14)以及外部语音距离调整处理(步骤15)结束后,就执行维特比处理(步骤16)。
维特比处理器24根据在关键字距离计算处理(步骤13)中输出的输入语音的特性参数和关键字模型的特性参数之间的匹配的状态距离,使用维特比算法方法计算累积距离。在第二实施例中,由于相似性使用距离表示,距离越小相似性越高。因此在维特比算法方法中转移到状态i的两个箭头里,选择具有比较小的累积距离的分支。维特比处理器24把维特比处理结束时判定的最后一帧的最后一个状态的累积距离输出到关键字识别器17。
在维特比处理(步骤16)完成后,根据输出的累积距离在关键字识别处理(步骤17)中对该关键字进行识别和判定。
另外,该第二实施例不仅限于上述例子,还可以做以下修改。
尽管在以上例子中使用了欧几里德距离,但是也可以选用马哈朗诺比斯距离(Maha lanobis distance)或者汉明距离。简而言之,本发明中不仅可以使用欧几里德距,而且还可以使用任何可用数值表示相似性差异的参数。
可以对第一实施例和第二实施例做以下修改。
在以上例子中使用维特比算法方法作为匹配方法,但是也可以使用DP匹配或者其它技术。换而言之,依照本发明,在语音识别中可以使用的模型不局限于维特比模型,也可以使用其它的模型,只要这些模型可以根据它们表示的是关键字的状态还是外部语音的状态作出区分。
在以上实施例中使用不同部件执行不同功能:在第一实施例中的关键字模型生成器8、关键字似然性计算器11、维特比处理器14、外部语音模型生成器10、外部语音似然性计算器12以及限值设定器13;以及在第二实施例中的关键字模型生成器8、关键字距离计算器21、维特比处理器24、外部语音模型生成器10、外部语音距离计算器22以及限值设定器23。然而由于所有的部件使用相同的内部处理,因为可以在分时的基础上使用单一计算装置执行不同功能。这样可以减少部件的数目,从而减少该字识别设备的制造费用。
除了在所附的权利要求中的技术要点以外,下面将描述可以从以上实施例中得到的技术要点以及它们的优点。
在权利要求4到6、18到20以及32到34中的任一条所建议的本发明中,用于计算累积相似性的该累积装置可以使用DP匹配方法。换言之,可以用在依照本发明的语音识别中的模型不局限于基于维特比的模型,还可以使用其它的模型,只要这些模型可以根据它们表示的是关键字的状态还是外部语音的状态进行划分。
(第三实施例)
下面参考附图说明依照本发明的第三实施例的字识别装置。
图11是表示依照本发明的第三实施例的字识别装置原理配置的框图。与以上实施例中相同的部件使用相同的参考数字标记并且省略对它们的具体描述。
在本实施例中使用距离表示相似性。如图11所示,依照本实施例的该字识别设备包括一个麦克风1、一个LPF(低通滤波器)2、A/D转换器3、作为特性参数生成装置的特性参数生成器5、作为声学模型数据库的声学模型存储器6、作为关键字数据库的关键字存储器7、作为关键字模型生成装置的关键字模型生成器8、作为外部语音数据库的外部语音存储器9、作为外部语音生成装置的外部语音模型生成器10、作为关键字相似性计算装置和关键字距离计算装置的关键字距离计算器21、作为外部语音相似性计算装置和外部语音距离计算装置的外部语音距离计算器22、作为累积关键字相似性计算装置和累积关键字距离计算装置的关键字维特比计算器42、作为累积外部语音相似性计算装置和累积外部语音距离计算装置的外部语音维特比计算器43、作为字长计算装置的字长计算器44、作为累积相似性归一化装置和累积距离归一化装置的累积距离归一化处理器45以及关键字识别器17。
该关键字距离计算器21由例如CPU组成。它计算并输出在输入语音的特性参数和关键字模型特性参数之间的关键字距离。
该外部语音距离计算器22由例如CPU组成。它计算并输出在该输入语音的特性参数和外部语音模型特性参数之间的外部语音距离。
该关键字维特比计算器42由例如CPU组成。它在输出表示是否发生状态转移的状态转移信息的同时计算累积关键字距离。
该外部语音维特比计算器43由例如CPU组成。它计算外部语音模型的累积外部语音距离。
该字长计算器44由例如CPU组成。它使用由关键字维特比计算器42输出的状态转移信息来计算字长。
该累积距离归一化处理器45由例如CPU组成。它根据字长计算器44输出的字长,使用累积关键字距离和累积外部语音距离计算归一化的累积距离。
下面参考图12描述具有以上结构的字识别设备的操作概况。
图12是表示该字识别设备操作概况的流程图。
首先,执行初始化处理(步骤21),以便为维特比处理做准备。
由麦克风1输入的语音信号通过LPF2以及A/D转换器3到达特性参数生成器5,该生成器然后从语音信号中提取语音分段、将它分成帧,并且从这些帧生成输入语音的特性参数。
当初始化处理(步骤21)完成后,开始生成关键字模型和外部语音模型的处理(步骤22)。
关键字和外部语音可从关键字存储器7和外部语音存储器9中提取得到。通配符模型与关键字的两端连接以生成关键字模型。也同样生成外部语音模型。连接到关键字模型和外部语音模型的是相同的通配符模型。从声学模型存储器6中提取与关键字模型和外部语音模型的发声数据相对应的转移拟合程度和声学模型,然后生成关键字模型和外部语音模型的特性参数。
在结束生成关键字模型和外部语音模型的处理(步骤22)后,执行关键字距离计算处理(步骤23)和外部语音距离计算处理(步骤26)。下面说明关键字距离计算处理(步骤26)和它的后续处理(步骤24和25)。
关键字距离计算器21对输入语音的特性参数和关键字模型的特性参数之间的距离进行计算并输出。
具体来说,该关键字距离计算器21通过比较步骤21中生成的该输入语音的特性参数和关键字模型的特性参数,在逐帧的基础上计算用距离表示的关键字相似性,并把结果作为给定状态在每个时间点上的状态距离P输出到状态距离表P(t,m)。
在完成关键字距离计算处理(步骤23)后,开始关键字维特比计算处理(步骤24)。
该关键字维特比计算器42根据在关键字距离计算处理(步骤23)中输出的在输入语音的特性参数和关键字模型的特性参数之间的状态距离P,使用维特比算法方法计算累积关键字距离。该关键字维特比计算器42把指示是否存在状态转移的状态转移信息I(t,m)以与帧变化同步的方式输出到字长计算器44。
在执行关键字维特比计算处理(步骤24)的同时,并发执行字长计算处理(步骤25)。
使用从关键字维特比计算器42输出的状态转移信息I(t,m),该字长计算器44计算字长并把它输出到累积距离归一化处理器45。
具体来说,字长计算器根据步骤24输出的状态转移信息I(t,m)观察自转移是否继续。由于状态转移信息的输出意味着发生了帧改变,因此当状态转移信息输出时该字长计算器44使字长增加。然而如果从一个状态转移到相同状态的数目(自转移的数目)超过了预设数目(自转移的门限数目),即便帧改变该字长计算器44也不会使字长增加,直到发生了到不同状态的转移。这样,当自转移持续了不切实际的长时间时,该字长计算器44会阻止字长继续增加。
实验显示自转移门限的合适的数目根据字长而变化。它还和抽样频率等因素有关。它被设定成以不使自然语音的特征被取消掉为准。
这样就结束了字长计算处理(步骤25)。
接下来,说明与步骤23到25并发执行的外部语音距离计算处理(步骤26)以及随后执行的外部语音维特比计算处理(步骤27)。
该外部语音距离计算器22对输入语音的特性参数和外部语音模型的特性参数之间的距离进行计算并输出。这一计算是以与步骤23中计算在输入语音的特性参数和关键字模型的特性参数之间的距离相似的方式进行的。
在完成外部语音距离计算处理(步骤26)后,执行外部语音维特比计算处理(步骤27)。
该外部语音维特比计算器43根据由外部语音距离计算处理(步骤26)中输出的在输入语音的特性参数和外部语音模型的特性参数之间的距离,使用维特比算法方法来计算累积外部语音距离。
这样结束了外部语音维特比计算处理(步骤27)。
接下来,说明字长归一化处理(步骤28)。
在完成字长计算处理(步骤25)和外部语音维特比计算处理(步骤27)后,执行字长归一化处理(步骤28)。
在步骤25和27以后,当接收到累积关键字距离和累积外部语音距离时,累积距离归一化处理器45从累计关键字距离中减去累积外部语音距离,用从字长计算器44中输出的字长对差值进行归一化,因而计算归一化的累积距离。
在完成字长归一化处理(步骤28)后,在下面的语音识别处理(步骤29)中使用归一化累积距离执行语音识别。
图13是表示按照第三实施例的字长计算器44的字长计算处理(步骤25)包括字长控制的详细流程图。另外,要输入以下数据:状态转移信息I、自转移计数器R、字长计数器L、当前帧号码n以及当前状态号码m。
在步骤121中,字长计算器44判断当前帧号码为n并当前状态号码为m的状态转移信息I(n,m)中是否指示为从不同状态的转移。如果判断结果为“True”(真)(来自不同状态的转移),则该字长计算器44进入步骤122,但是如果判断结果是“False”(假)(自转移)则进入步骤123。
在步骤122,由于判断结果为“True”(来自不同状态的转移),从当前状态开始计数自转移的数目,因而自转移计数器R(n,m)被复位为0。同时,转移源的字长L(n-1,m-1)被存储到当前帧号码为n、当前状态号码为m的字长L(n,m)。
在步骤123,由于判断结果为“False”(自转移),因此继续从前一帧的号码对自转移的数目进行计数,所以转移源的自转移计数器R(n-1,m)加1并用该结果替换当前帧号码为n、当前状态号码为m的自转移计数器R(n,m)。同时,转移源的字长L(n-1,m)被存储到当前帧号码为n、当前状态号码为m的字长L(n,m)中。然后字长计算器44进入到步骤124。
在步骤124字长计算器44判断当前帧号码为n、当前状态号码为m的自转移计数器R(n,m)指示的值是否等于或者大于预定门限Thresh。如果判断结果为“True”(自转移计数器R(n,m)指示的值等于或者大于预定门限Thresh),该字长计数器L(n,m)不增加。如果判断结果为“False”(自转移计数器R(n,m)指示的值小于预定门限),字长计算器44进入步骤125。
在步骤125,字长计算器44判断当前状态m是否表示为一关键字。如果步骤125中的判断结果为“True”,则在步骤126中当前帧号码为n、状态号码为m的L(n,m)增1。如果结果是“False”(m表示外部语音的状态),则字长计数器L(n,m)不增加。
当在前N个帧中前M个状态的字长被输出到字长归一化处理中时,每个状态号码为m帧号码为n的由步骤121到126所决定的字长和自转移计数被存储。
本实施例具有以下优点。
由于步骤22中连接到关键字模型和外部语音模型上的是同一个通配符,通过步骤28从累积关键字距离中减去累积外部语音距离,可以通过消除很有可能包含在语音分段开始和结束中的外部语音,以提取关键字本身的累积距离。
因此可以避免出现这样的现象,即由于不现实地过长的最佳路径而导致语音参数与不包含在发音中但却具有比较小的状态数的关键字模型相匹配,使得正确的关键字的归一化累积距离小于错误的关键字的归一化累积距离。
由于字长控制处理只需要极低的性能,因此可以被方便的集成到诸如导航系统这样的资源受限的语音识别设备中。
(第四实施例)
参考图14对依照本发明第四实施例的字识别设备进行说明。
图14是表示依照第四实施例的字识别设备操作概况的流程图。在此省略与第三实施例中相同的部件的具体描述。
根据第三实施例,当自转移数目超过自转移门限数目时,监视状态转移信息I(t,m)的该字长计算器44在步骤25中不会增加字长。然而根据第四实施例,在完成步骤24和27以后,就直接计算字长(步骤210),而跳过步骤25。
具体来说,根据第四实施例,在步骤24和27完成后,流程进行到字长计算处理(步骤30),在此根据步骤24中记录的状态转移信息I对超过自转移门限数目的自转移数目进行计数。字长是通过从被判断为语音分段的分段的帧数中减去超过自转移门限数目的数目。
在完成字长计算处理(步骤30)后,流程转到字长归一化处理(步骤31)。
累积距离归一化处理器45从累积关键字距离中减去累积外部语音距离,使用由字长计算器44输出的字长对差值进行归一化处理,从而计算归一化的累积距离。
在完成字长归一化处理(步骤31)后,在随后的语音识别处理(步骤29)利用归一化累积距离执行语音识别。
图15是详细表示按照第四实施例的字长计算器44的字长计算处理(步骤30)包括字长控制的流程图。
首先,执行初始化处理(步骤131)以进行字长控制。具体来说,在当前的帧号码n和当前的状态号码m分别被设定为关键字模型的最大提取帧长N和最大状态号码M时,字长计数器WordLen、自转移计数器Alen以及超额计数器Overpath都被置为0。
在完成初始化处理(步骤131)后,利用步骤132到140所示的回溯计算字长。
首先字长计算器44判断当前分析的状态是否为关键字状态(步骤132)。如果当前状态是关键字状态,该字长计数器WordLen增1(步骤133)。如果当前状态是外部语音状态,不增加WordLen。
接下来,字长计算器44判断当前帧号码为n、当前状态号码为m的状态转移信息I(n,m)是否表示一个来自不同状态的转移(步骤134)。如果该状态转移信息I(n,m)表示是来自不同状态的转移(YES),则当前状态号码m减1,并且自转移计数器Alen被初始化为0(步骤135)。
如果状态转移信息I(n,m)表示是自转移(NO),字长计算器44对自转移计数器Alen加1并且判断自转移计数所指示的值是否等于或者大于预定门限Thresh(步骤137)。如果自转移计数显示一个等于或者大于预设门限Thresh的值,该字长计算器44对超额字计数器Overpath加1(步骤138)。如果自转移计数器显示一个小于预定门限的值,该字长计算器44不增加超额字计数器Overpath。
在根据状态转移信息执行相应处理(步骤134到步骤138)后,字长计算器44对当前帧号码n减1(步骤139)。
然后,字长计算器44判断当前帧号码是否已经达到第一帧(步骤140)。如果当前帧号码已经返回到该第一帧,则从字长计数器WordLen的值中减去超额字计数器Overpath的值(步骤141)并把差值作为字长的计算结果输出。
重复步骤132到140,直到当前帧到达该第一帧。
本实施例具有以下优点。
由于本实施例中使用已被记录下以用于回溯的状态转移信息I,因此可以减小字长计算的负载。
另外,第四实施例并不只限于以上描述的例子,还可以进行以下修改。
在上述实施例中,使用被记录以用于回溯的状态转移信息I来计算超过自转移门限数目的自转移数目。备选地,超过自转移门限数目的自转移数目可以被分开存储。这样可以在由于某些原因引起了需要对状态信息I的覆盖时确保程序的灵活性。
(第五实施例)
下面,参考附图说明依照本发明第五实施例的字识别设备。
图16是表示根据依照本发明第五实施例的字识别设备原理结构的框图。与以上实施例相同的部件使用相同的参考数字标记并省略对它们的详细描述。
本实施例与第三实施例的不同在于相似性使用似然性(概率)表示,而在第三实施例中使用距离表示相似性。其余部分和第三实施例相似以。
如图16所示依照本实施例的字识别设备包括作为关键字相似性计算装置和关键字似然性计算装置的关键字似然性计算器11、作为外部语音相似性计算装置和外部语音似然性计算装置的外部语音似然性计算器12、作为累积关键字相似性计算装置和累积关键字似然性计算装置的关键字维特比计算器32、作为累积外部语音相似性计算装置和累积外部语音似然性计算装置的外部语音维特比计算器33、作为字长计算装置的字长计算器34、作为累积相似性归一化装置和累积似然性归一化装置的累积距离归一化处理器35。
该关键字维特比计算器32由例如CPU组成。它在输出指示是否存在状态转移的状态转移信息的同时计算累积关键字似然。
该外部语音维特比计算器33由例如CPU组成。它计算外部语音模型的累积外部语音似然性。
该字长计算器34由例如CPU组成。它使用关键字维特比计算器32输出的状态转移信息来计算字长。
该累积似然性归一化处理器35由例如CPU组成。它根据字长计算器3 4输出的字长,使用累积关键字似然性和累积外部语音似然性使累积似然性归一化。
下面参考图17描述具有以上结构的字识别设备的操作概况。
图17是表示依照该第五实施例的字识别设备操作概况的流程图。与第三实施例中相同的部件使用相同的数字标记并省略对它们的具体描述。
和在第三实施例中一样,在完成关键字模型和外部语音模型生成处理(步骤22)后,就执行关键字似然性计算处理(步骤32)和外部语音似然性计算处理(步骤34)。下面描述该关键字似然性计算处理(步骤32)和后续处理(步骤33和34)。
关键字似然性计算器11对输入语音的特性参数和关键字模型的特性参数之间的似然性进行计算并输出。
具体来说,该关键字似然性计算器11通过比较步骤21中生成的该输入语音的特性参数和关键字模型的特性参数,以逐帧为基础计算似然性,并把结果作为给定状态在每个时间点上的状态似然性输出到状态似然性表。
在完成关键字似然性计算处理(步骤32)后,开始关键字维特比计算处理(步骤33)。
该关键字维特比计算器32根据在关键字似然计算处理(步骤32)中输出的输入语音的特性参数和关键字模型的特性参数之间的似然性,使用维特比算法方法计算累积关键字似然性。在第五实施例中由于使用似然性表示相似性,似然性越高,相似性越高。因此在维特比算法方法中,在两个转移到状态I的箭头之中选取具有较高累积似然性的箭头。该关键字维特比计算器32与帧的变化同步地把表示是否存在状态转移的状态转移信息输出到字长计算器34。
在执行关键字维特比计算处理(步骤33)的同时,并发执行字长计算处理(步骤34)。
该字长计算器34使用从关键字维特比计算器32输出的状态转移信息计算字长并把结果输出到累积似然性归一化处理器35。
具体来说,字长计算器34根据步骤33输出的状态转移信息观察自转移是否继续。由于状态转移信息的输出意味着发生了帧改变,因此当状态转移信息输出时该字长计算器34增加字长。另外,如果自转移的数目超过了自转移的门限数目,字长计算器34除了在发生了转移到不同状态之前在每次有状态转移信息输出时要增加字长以外,还根据超出自转移门限数目的自转移数目将该字长增加一个预定值。
此处的预定值应足够大以在使用字长对累积似然性归一化时消除不切实际的连续自转移的影响。它可以通过学习决定。
这样结束字长计算处理(步骤34)。
接下来,说明与步骤32到34并发执行的外部语音似然性计算处理(步骤35)以及后续执行的外部语音维特比计算处理(步骤36)。
外部语音似然性计算器12计算输入语音的特性参数和外部语音模型的特性参数之间匹配的似然性。
在完成外部语音似然计算处理(步骤35)后,开始外部语音维特比计算处理(步骤36)。
该外部语音维特比计算器33根据由外部语音似然性计算处理(步骤35)中输出的输入语音的特性参数和外部语音模型的特性参数之间匹配的似然性,使用维特比算法方法计算累积外部语音似然性。由于使用似然表示相似性,似然性越高,相似性越高,因此在维特比算法方法中对转移到状态i的两个箭头中选取具有比较高的累积似然性的箭头。
这样结束外部语音维特比计算处理(步骤36)。
接下来,说明字长归一化处理(步骤37)。
在完成字长计算处理(步骤34)和外部语音维特比计算处理(步骤36)后,执行字长归一化处理(步骤37)。
在步骤34和36以后,当接收到累积关键字似然性和累积外部语音似然性时,累积似然性归一化处理器35从累计关键字似然性中减去累积外部语音似然性,用从字长计算器34中输出的字长对差值进行归一化,由此计算归一化累积似然性。
在完成字长归一化处理(步骤37)后,在下面的语音识别处理(步骤29)中使用归一化累积似然性执行语音识别。
图18是表示按照本发明第五实施例的字长计算器34的字长计算处理(步骤34)包括字长控制的详细流程图。另外,要输入以下数据:状态转移信息I、自转移计数器R、字长计数器L、当前帧号码n以及当前状态号码m。
在步骤151中,字长计算器34判断当前帧号码为n并当前状态号码为m的状态转移信息I(n,m)中是否指示为从不同状态的转移。如果判断结果为“True”(来自不同状态的转移),该字长计算器34进入步骤152,但是如果判断结果是“False”(自转移)进入步骤153。
在步骤152,由于判断结果为“True”(来自不同状态的转移),从当前状态开始计数自转移的数目,因而自转移计数器R(n,m)被复位为0。同时,转移源的字长L(n-1,m-1)被存储到当前帧号码为n、当前状态号码为m的字长L(n,m)。
在步骤153,由于判断结果为“False”(自转移),从前一帧号码继续对自转移的数目进行计数,因而转移源的自转移计数器R(n-1,m)加1并用结果替换当前帧号码为n、当前状态号码为m的自转移计数器R(n,m)。同时,转移源的字长L(n-1,m)被存储到当前帧号码为n、当前状态号码为m的字长L(n,m)。然后字长计算器34进入到步骤154。
在步骤154字长计算器34判断当前帧号码为n、当前状态号码为m的自转移计数器R(n,m)指示的值是否等于或者大于预定门限Thresh。如果判断结果为“True”(自转移计数器R(n,m)指示的值等于或者大于预定门限Thresh),大于1的预定常数ck被加到字长计数器L(n,m)(步骤157)中。如果判断结果为“False”(自转移计数器R(n,m)指示的值小于预定门限),字长计算器34进入步骤155。
在步骤155,字长计算器34判断当前状态m是否表示关键字。如果步骤155中的判断结果为“True”,在步骤156中当前帧号码为n、状态号码为m的字长计数器L(n,m)增1。如果判断结果是“False”(m表示外部语音的状态),大于1的预定常数ck被加到字长计数器L(n,m)(步骤157)。
当在前N个帧中前M个状态的字长和自转移计数被输出到字长归一化处理中时,每个状态号码为m帧号码为n、由步骤151到157所决定的字长和自转移计数被存储。
另外,该第五实施例并不局限与以上所描述的例子还可以做以下改变。
所使用的相似性可以是对数似然性。对数似然性的使用使得使用加和减计算累积似然性成为可能,从而加速了计算处理。
如第四实施例中一样,字长计算装置可以像超过的次数同样多的次数存储超过自转移门限数目的数目并添加一个预定值到该字长。同样,超过门限值数目的该次数可以根据状态转移信息决定。这样可以减少在维特比处理中字长计算的计算负载。
(第六实施例)
参考图19对依照本发明第六实施例的字识别设备进行说明。
图19是表示依照第六实施例的字识别设备操作概况的流程图。根据以上所述的第三实施例,在完成维特比处理和字长计算后,使用维特比处理的最终输出和字长计算器的最终输出对字长进行归一化。然而,根据第六实施例,在维特比处理中选定要转移到的状态后,使用那时字长对那时累积距离进行归一化并使用归一化结果选择要转移到的状态。
首先,执行初始化处理(步骤161)以进行字长控制。具体来说,当前的帧号码n和当前的状态号码m分别被设定为1的同时,字长表L和自转移计数表R被初始化为0。
然后,开始包括字长计算在内的详细的维特比处理。判断当前帧号码n是否已经到达语音分段中的帧号码N(步骤162)。如果当前帧还未到达结束点,步骤163到步骤172中的包括字长计算在内的维特比处理被重复执行直到最后一帧被处理完。当最后一帧处理完成后,执行步骤175中的处理。
如步骤162中的情形一样,在步骤163中判断当前状态计数m是否已经到达关键字模型的最后一个状态。如果当前状态已经到达最后状态,帧计数n增1,状态计数被初始化为1(步骤174),并且返回到步骤162。如果当前状态还未到达最后状态,则对每个状态重复步骤164到172中包含字长计算在内的维特比处理。
在步骤164,生成维特比处理期间用于比较当前状态累积距离的信息。Da表示前一帧中当前状态的归一化累积距离,而Db表示前一帧中前一状态的归一化累积距离。使用前一帧中当前状态的累积外部语音距离U(n-1)、字长L(n-1,m)以及字长L(n-1,m-1)计算Da和Db。具体来说,Da由转移源的累积距离D(n-1,m)减去前一帧的累积外部语音距离U(n-1)给出,以上各项都除以转移源的字长L(n-1,m)。如果L(n-1,m)=0,则Da由转移源的累积距离D(n-1,m)减去前一帧的累积外部语音距离U(n-1)给出。相似地,Db由转移源的累积距离D(n-1,m-1)减去前一帧的累积外部语音距离U(n-1)给出,以上各项都除以转移源的字长L(n-1,m)。如果L(n-1,m)=0,Db由转移源的累积距离D(n-1,m-1)减去前一帧的累积外部语音距离U(n-1)给出。
在步骤165,判断由步骤164得到的两个值Da和Db是否满足Da≤Db。
如果步骤165中的判断结果是“True”,则当前帧中当前状态的距离值P(n,m)被加到前一帧中当前状态的累积距离D(n-1,m)中,并且结果被用来取代当前帧中当前状态的累积距离D(n,m)。同样,为了表示自转移,增1的自转移计数器R(n,m-1)被用来取代自转移计数器R(n,m)。进而,由于Da≤Db为真,为了表示帧号码为n状态号码为m的转移源是帧号码为n-1状态号码为m,使用L(n-1,m)取代字长变量Length。
在步骤167中,判断自转移计数器R(n,m)表示的是否为一个等于或者小于预定门限的值Thresh。如果步骤167中的判断结果为“True”,判断当前状态m是否属于关键字分段(步骤169)。如果步骤169的判断结果为“True”,则字长变量Length增1。如果步骤167或者步骤169的判断结果为“False”,则流程跳过步骤170直接到步骤171。
如果步骤165中的判断结果是“False”,则在步骤168中计算累积距离D(n,m)、将自转移计数器R(n,m)初始化并且计算字长变量Length。这意味着帧号码n状态号码m的转移源是帧号码n-1状态m-1。简而言之,此处的转移是来自不同状态的转移。因此帧号码n状态号码m的累积距离D(n,m)可以由转移源的累积距离D(n-1,m-1)与当前状态的距离值P(n,m)的和给出。同样,由于转移是来自不同状态的转移,自转移计数器R(n,m)被初始化为0并且使用转移源的字长L(n-1,m-1)取代Length变量。当步骤167的判断结果为“True”时,进入后续步骤169和170。
在步骤171,暂时存储的Length变量被存储在字长计数器L(n,m)中。在步骤171后,状态计数器m在步骤172中增1。
在步骤172中状态计数器增加后,流程转到步骤163判断最后状态。
当直到最后一帧为止的所有帧都已经经过了步骤162到步骤174后,在步骤175中使用字长L(N,M)和累积外部语音距离U(N)对最后一帧中的最后一个状态的累积距离D(N,M)进行归一化以获得归一化累积距离D’(N,M)。具体来说,从步骤174中获得的累积距离D(N,M)中减去累积外部语音距离U(N)并且把结果除以字长L(N,M)以获得D’(N,M),然后把D’(N,M)作为计算结构输出。
根据本实施例,由于反应字长的累积距离可以用在维特比处理的状态中,因此可以进一步改善识别的性能。
另外,对第一实施例到第六实施例可以做如下改变。
在上述例子中,使用维特比算法方法作为匹配方法,但是也可以使用DP匹配或者其它技术。换言之,依照本发明可用在语音识别中的模型不仅限于基于维特比的模型,也可以使用其它的模型,只要这些模型是根据它们表示的是关键字状态还是外部语音状态而进行划分的。
尽管在上述实施例中字长归一化、字长计算以及外部语音距离计算是分开执行的,但如果可以在帧的级别上对三个进程实现同步,就可以在维特比处理中比较不同状态的累积距离同时,使用归一化累计距离。那样,由于维特比处理的状态转移信息是根据归一化累积距离生成的,因此可以进一步改善识别性能。
尽管在以上例子中使用了欧几里德距离,但是也可以选用马哈朗诺比斯距离(Mahalanobis distance)或者汉明距离。简而言之,本发明中不仅可以使用欧几里德距离,而且还可以使用任何可以用数值来表示相似性差异的参数。
在以上实施例中使用不同的部件执行不同功能:在第三实施例时是关键字模型生成器8、关键字距离计算器21、关键字维特比计算器42、外部语音模型生成器10、外部语音距离计算器22以及外部语音维特比计算器43;以及在第五实施例时是关键字模型生成器8、关键字似然性计算器11、关键字维特比计算器32、外部语音生成器10、外部语音似然性计算器12以及外部语音维特比计算器33。然而,由于各部件使用相同的处理,因此可以使用单个部件在分时的基础上执行多种功能。这样减少了部件数目,从而减少了字识别设备的制造花费。
除了在权利要求中公开的技术要点以外,还可以从以上实施例中得出以下技术要点和它们的优点。
在权利要求8、10、11、22、24、25、36、38以及39中任意一项所限定的本发明中,用于计算累积相似性的计算装置也可以使用DP匹配方法。换言之,依照本发明用于语音识别中的模型不仅限于基于维特比的模型,而且还可以使用其它模型,只要这些模型可以根据它们表示的是关键字状态还是外部语音状态进行划分。
在权利要求10、24以及38中任意一项所限定的本发明中,该字长计算装置可以存储超过自转移门限数目的自转移数目,并且在使用该字长对累积距离进行归一化处理之前通过从帧的号码中减去超过门限数目的该数目。这样可以减少维特比处理期间的字长计算负载。
在权利要求11、25以及39中的任意一项所限定的本发明中,该字长计算装置可以存储超过自转移门限数目的自转移数目,并且在使用该字长对累积距离进行归一化处理之前把预定的值与超过数同样次数加到字长上。这样可以减少维特比处理期间的字长计算负载。
(第七实施例)
以下将参考附图说明依照本发明第七实施例的字识别设备。
图20是表示根据依照本发明第七实施例的字识别设备原理结构的框图。与以上实施例相同的部件使用相同的参考数字标记并省略对它们的详细描述。
在本实施例中使用距离表示相似性。如图20所示,依照本实施例的该字识别设备包括一个麦克风1、一个LPF2、A/D转换器3、作为特性参数生成装置的特性参数生成器4、作为声学模型数据库的声学模型存储器5、作为关键字模型数据库的关键字存储器6、作为关键字模型生成装置的关键字模型生成器7、外部语音存储器8、作为关键字相似性计算装置和关键字距离计算装置的关键字距离计算器21、作为累积关键字相似性计算装置和累积关键字距离计算装置的关键字维特比计算器42、作为持续时间控制装置的持续时间控制器52以及关键字识别器53。
该关键字维特比计算器42由例如CPU组成。它在把表示状态转移是如何发生的状态转移信息输出到持续时间控制器52的同时,使用从持续时间控制器52输出的被调整的累积关键字距离来计算累积关键字距离。
该持续时间控制器52由例如CPU组成。如果从一个状态到同一状态的连续转移数目(自转移数目)超过预设数目(自转移门限数目),则该持续时间控制器52把通过加一个预定值到累积关键字距离而得到的调整过的累积关键字距离输出到关键字维特比计算器42。
该关键字识别器53由例如CPU组成。它使用关键字维特比计算器42输出的累积关键字距离识别关键字。
下面参考图21说明具有以上构造的字识别设备的操作概况。
图21是表示该字识别设备操作概况的流程图。
首先,执行初始化处理(步骤51),以便为维特比处理做准备。
由麦克风1输入的语音信号通过LPF2以及A/D转换器3到达特性参数生成器4,该生成器然后从语音信号中提取语音分段、将它分成帧,并且从这些帧生成输入语音的特性参数。
当初始化处理(步骤51)完成后,就开始生成关键字模型和外部语音模型的处理(步骤52)。
关键字和外部语音可从关键字存储器6和外部语音存储器8中提取得到。通配符模型与关键字的两端连接以生成关键字模型。从声学模型存储器5中提取与关键字模型的发声数据相对应的转移拟合程度和声学模型,然后生成关键字模型的特性参数。
在结束关键字模型生成处理(步骤52)后,执行关键字距离计算处理(步骤53)。
关键字距离计算器21对在输入语音的特性参数和关键字模型的特性参数之间的距离进行计算并输出。
具体来说,该关键字距离计算器21通过比较步骤51中生成的该输入语音的特性参数和关键字模型的特性参数,以帧为基础计算用距离表示的关键字相似性,并把结果作为给定状态在每个时间点上的状态距离P输出到状态距离表P(t,m)。
在完成关键字距离计算处理(步骤53)后,开始关键字维特比计算处理(步骤54)。
该关键字维特比计算器42根据在关键字距离计算处理(步骤53)中输出的输入语音的特性参数和关键字模型的特性参数之间的状态距离P,使用维特比算法方法计算累积关键字距离。该关键字维特比计算器42把指示是否存在状态转移的状态转移信息I(t,m)与该时刻的累积关键字距离一起与帧的变化同步地输出到持续时间控制器52。
使用从关键字维特比计算器42输出的状态转移信息I(t,m),持续时间控制器52判断自转移的数目是否超过了自转移门限数目。如果超过了门限数目,该持续时间控制器52把通过把预定值加到累积关键字距离而获得的调整过的累积关键字距离输出到关键字维特比计算器42。
具体来说,该持续时间控制器52根据状态转移信息I(t,m)观测自转移是否继续。由于状态转移信息的输出意味着发生了帧的变化,如果自转移数目超过了自转移门限数目,则该持续时间控制器52把调整过的累积关键字距离输出到该关键字维特比计算器42。
实验表明合适的自转移门限数目根据字而变化。它也随抽样频率等因素而变化。它的设定应该以不会使自然语音的特性被取消为标准。
当在语音部分相同的声音持续了一个不切实际长的时间时,会超过自转移门限数目。由于被添加到累积距离(也就是累积相似性)以消除该不切实际的发音的预定值是一个正值,因此调整过的累积关键字距离比该未被调整的累积关键字距离具有更大的值。
在所有帧的关键字维特比计算处理(步骤54)完成以后,在随后的语音识别处理(步骤55)中使用被输出的累积距离进行语音识别。
本实施例具有以下优点。
如果超过了自转移的门限数目,根据通过把预定值(正值)加到累积关键字距离而获得的调整过的累积关键字距离来执行维特比处理。这样可以消除自转移数目持续过长时间的情形。
由于持续时间控制需要很低的吞吐量,它可以被容易的集成到诸如导航系统这样的资源受限的语音识别设备。
(第八实施例)
下面参考附图说明依照本发明第八实施例的字识别设备。
图22是表示依照第八实施例的该字识别设备原理构造的框图。与以上实施例相同的部件使用同样的参考数字标记并且省略对它们的详细说明。
本实施例和第七实施例的不同在于相似性使用似然性(概率)表示,而在第七实施例中使用距离表示相似性。其它与第七实施例相似。
如图22所示,依照本实施例的该字识别设备包括作为关键字相似性计算装置和关键字似然性计算装置的关键字似然性计算器11、作为累积关键字相似性计算装置和累积关键字似然性计算装置的关键字维特比计算器32、作为持续时间控制装置的持续时间控制器51以及关键字识别器17。
该持续时间控制器51由例如CPU组成。如果自转移数目超过了自转移的门限数目,该持续时间控制器51把通过加一个预定值到累积关键字似然性而得到的调整过的累积关键字似然性输出到关键字维特比计算器32。
下面参考图23说明具有以上构造的字识别设备的操作概况。
图23是表示依照第八实施例的该字识别设备操作概况的流程图。与第七实施例中相同的部件使用相同的索引数字标记并在此省略对它们的详细描述。
如在第七实施例中那样,在完成关键字模型生成处理(步骤52)以后就执行关键字似然性计算处理(步骤63)。
关键字似然性计算器11对在输入语音的特性参数和关键字模型的特性参数之间的似然性进行计算并输出。
具体来说,该关键字似然性计算器11通过比较步骤51中生成的该输入语音的特性参数和关键字模型的特性参数,在逐帧的基础上计算用距离表示的关键字相似性,并把结果作为给定状态在每个时间点上的状态距离P输出到状态似然性表。
在完成关键字似然计算处理(步骤63)后,就开始关键字维特比计算处理(步骤64)。
该关键字维特比计算器32根据在关键字距离计算处理(步骤63)中输出的输入语音的特性参数和关键字模型的特性参数之间的状态似然性P,使用维特比算法方法计算累积关键字似然性。在第五实施例中,由于使用似然性表示相似性,似然性越高,相似性越高。因此在维特比算法方法中,在转移到状态i的两个箭头中选取具有比较高的累积似然性的箭头。该关键字维特比计算器32把指示是否存在状态转移的状态转移信息与该时刻的累积关键字似然性一起以与帧变化同步的方式输出到持续时间控制器51。
使用从关键字维特比计算器32输出的状态转移信息I,持续时间控制器51判断自转移的数目是否超过了自转移门限数目。如果超过了门限数目,该持续时间控制器51把通过把预定值加到累积关键字似然性而获得的调整过的累积关键字似然性输出到关键字维特比计算器32。
具体来说,该持续时间控制器51根据状态转移信息,观测自转移是否继续。由于状态转移信息的输出意味着发生了帧的变化,如果自转移数目超过了自转移门限数目,则该持续时间控制器52把调整过的累积关键字似然输出到该关键字维特比计算器32。
当在语音部分相同的声音持续了一个不切实际长的时间时,会超过自转移门限数目。由于被添加到累积似然性(也就是累积相似性)以消除该不切实际的发音的预定值是一个负值,因此调整过的累积关键字似然性比该未被调整的累积关键字似然性具有较小的值。
在所有帧的关键字维特比计算处理(步骤64)完成以后,在随后的语音识别处理(步骤65)中使用被输出的累积似然性进行语音识别。
本实施例具有以下优点。
如果超过了自转移的门限数目,根据通过把预定值(负值)加到累积关键字似然性而获得的调整过的累积关键字似然性执行维特比处理。这样可以消除自转移数目持续过长时间的情形。
另外,第五实施例并不局限于以上的例子,还可以做以下修改。
所用的相似性可以是对数似然性。使用对数似然性使得可以使用加法和减法来计算累积似然性,这样加速了计算处理。
另外,对第一到第八实施例可做以下修改。
在上述例子中使用维特比算法方法作为匹配方法,但是也可以选用DP匹配或者其它技术。换言之,可以用于根据本发明的语音识别中的模型不仅限于基于维特比的模型,并且还可以使用其它的模型,只要它们是按照表示关键字状态还是外部语音状态而划分的。
尽管在以上例子中使用了欧几里德距离,但是也可以选用马哈朗诺比斯距离或者汉明距离。简而言之,本发明中不仅可以使用欧几里德距,而且还可以使用任何可用数值来表示相似性差异的参数。
在不脱离本发明的精神和基本特征的情况下,可以用其它特定形式实现本发明。因而本实施例的各方面仅用于示例而非限制本发明,因而,由所附权利要求而非前述描述所定义的本发明范围以及在权利要求等价的内涵和范围内的各种变化都包含在此的。

Claims (42)

1.一种字识别设备,其特征在于:
特性参数生成装置(5),它从输入发音中提取语音分段、把语音分段分割成帧并产生发音的特性参数;
声学模型数据库(6),它在子字级别上存储语音的特性参数;
关键字模型生成装置(8),它使用从关键字数据库(7)中输出的关键字以及从该声学模型数据库(6)中输出的特性参数的发声数据来生成关键字模型;
关键字相似性计算装置(11,21),它计算在发音的特性参数和关键字模型的特性参数之间的关键字相似性;
累积关键字相似性计算装置(14,24,32,42),它计算该关键字模型的累积相似性。
2.依照权利要求1的该字识别设备,其特征在于:
该累积关键字相似性计算装置(14,24,32,42)使用维特比算法方法计算该关键字模型的累积相似性。
3.依照权利要求2的该字识别设备,其特征进一步在于:
外部语音模型生成装置(10),它使用从外部语音数据库(9)输出的外部语音发声数据和从声学模型数据库(6)输出的特性参数来生成外部语音模型;以及
外部语音相似性计算装置(12,22),它计算在发音的特性参数和外部语音模型的特性参数之间的外部语音相似性。
4.依照权利要求3的该字识别设备,还包括限值设定装置(13,23),其特征在于:
如果外部语音相似性超出了预设范围,该限值设定装置(13,23)把一个预设值作为外部语音相似性输出。
5.依照权利要求4的该字识别设备,其特征在于:
该关键字相似性计算装置(11)计算在语音的特性参数和关键字模型的特性参数之间的关键字似然性;
外部语音相似性计算装置(12)计算在发音的特性参数和外部语音模型的特性参数之间的外部语音似然性;
如果外部语音似然性小于预设值,则限值设定装置(13)把预设值作为外部语音似然性输出;以及
该累积相似性计算装置(14)计算关键字模型的累积似然性。
6.依照权利要求4的该字识别设备,其特征在于:
关键字相似性计算装置(21)计算在该发音的特性参数和该关键字模型的特性参数之间的关键字距离;
外部语音相似性计算装置(22)计算在该发音的特性参数和该外部语音模型的特性参数之间的外部语音距离;
如果外部语音距离大于预定值,则该限值设定装置(23)输出预设值作为外部语音距离;以及
该累积相似性计算装置(24)计算该关键字模型的累积距离。
7.依照权利要求2的该字识别设备,其特征在于:
累积关键字相似性计算装置(32,42)输出状态转移信息;以及
该字识别设备还提供:
字长计算装置(34,44),它根据从连续自转移的数目中减去预设值而获得的数字来处理字长,以及
累积相似性归一化装置(35,45),它根据累积关键字相似性和字长对该发音的累积相似性进行归一化。
8.依照权利要求7的该字识别设备,还包括:
外部语音模型生成装置(10),它使用从外部语音数据库(9)中输出的外部语音的发声数据和从声学模型数据库(6)输出的特性参数来生成外部语音模型;以及
外部语音相似性计算装置(12,22),它计算在发音的特性参数和外部语音模型的特性参数之间的外部语音相似性,
累积外部语音相似性计算装置(33,43),它计算该外部语音模型的累积相似性,
其特征在于该累积相似性归一化装置(35,45)根据累积关键字相似性、累积外部语音相似性以及字长对发音的累积相似性进行归一化。
9.依照权利要求8的该字识别设备,其特征在于:该累积相似性归一化装置(35,45)通过把该累积关键字相似性和累积外部语音相似性之间的差除以字长而完成对累积相似性的归一化。
10.依照权利要求9的该字识别设备,其特征在于:
该关键字相似性计算装置(21)计算在发音的特性参数和关键字模型的特性参数之间的关键字距离;
该外部语音相似性计算装置(22)计算在发音的特性参数和外部语音模型的特性参数之间的外部语音距离;
该累积关键字相似性计算装置(42)在输出状态转移信息的同时计算累积关键字距离;
该累积外部语音相似性计算装置(43)计算该外部语音模型的外部语音距离;
如果连续自转移的数目超过了预定值,则该字长计算装置(44)直到并发生向不同状态的转移之前不会给字长增加任何东西;以及
该累积相似性归一化装置(45)根据累积关键字距离、累积外部语音距离以及字长对发音的累积距离进行归一化。
11.依照权利要求9的该字识别设备,其特征在于:
该关键字相似性计算装置(11)计算在发音的特性参数和关键字模型的特性参数之间的似然性;
该外部语音相似性计算装置(12)计算在发音的特性参数和外部语音模型的特性参数之间的似然性;
该累积关键字相似性计算装置(32)在输出状态转移信息的同时计算累积关键字似然性;
该累积外部语音相似性计算装置(33)计算该外部语音模型的累积外部语音似然性;
如果连续自转移的数目超过预定值,则该字长计算装置(34)直到发生向不同状态的转移时才向字长增加一个大于1的值;以及
该累积相似性归一化装置(35)根据累积关键字似然性、累积外部语音似然性以及字长对发音的累积似然进行归一化。
12.依照权利要求2的该字识别设备,还包括持续时间控制装置(52),其特征在于:
该累积关键字相似性计算装置(42)输出状态转移信息;以及
如果连续自转移的数目超过预设值,则该持续时间控制装置(52)给累积关键字相似性增加一个预定值。
13.依照权利要求12的该字识别设备,其特征在于:
该关键字相似性计算装置(21)计算在发音的特性参数和关键字模型的特性参数之间的关键字距离;以及
该累积关键字相似性计算装置(42)计算累积关键字距离。
14.依照权利要求12的该字识别设备,其特征在于
该关键字相似性计算装置(11)计算在发音的特性参数和关键字模型的特性参数之间的似然性;以及
该累积关键字相似性计算装置(32)计算关键字似然性。
15.一种字识别方法,其特征在于:
特性参数生成处理,用于从输入发音中提取语音分段,将它分割成帧并且生成该发音的特性参数;
关键字模型生成处理,用于使用从关键字数据库(7)中输出的关键字发声数据以及从声学模型数据库(6)输出的特性参数来生成关键字模型,该数据库(6)中在子字级别上存储语音的特性参数;
关键字相似性计算处理,用于计算在发音的特性参数和关键字模型的特性参数之间的关键字相似性;以及
累积关键字相似性计算处理,用于计算该关键字模型的累积相似性。
16.依照权利要求15的该字识别方法,其特征在于:
在累积关键字相似性计算处理中使用维特比算法方法计算累积相似性。
17.依照权利要求16的该字识别方法,其特征还在于:
外部语音模型生成处理,它使用从外部语音数据库(9)输出的外部语音发声数据以及从该声学模型数据库(6)中输出的特性参数来生成外部语音模型;以及
外部语音相似性计算处理,它计算在发音的特性参数和外部语音模型的特性参数之间的外部语音相似性。
18.依照权利要求17的该字识别方法,还包括一个限值设定处理,其特征在于:
如果外部语音相似性超出了预设范围,在限值设定处理中输出预设值作为外部语音相似性。
19.依照权利要求18的该字识别方法,其特征在于:
在关键字相似性计算处理中,计算在发音的特性参数和关键字模型的特性参数之间的关键字似然性;
在外部语音相似性计算处理中,计算在发音的特性参数和外部语音的特性参数之间的外部语音似然性;
如果外部语音似然性小于预设值,在限值设定处理中输出该预设值作为外部语音似然性;以及
在累积相似性计算处理中计算该关键字模型的累积似然性。
20.依照权利要求18的该字识别方法,其特征在于:
在关键字相似性计算处理中计算在发音的特性参数和关键字模型的特性参数之间的关键字距离;
由外部语音相似性计算处理计算在发音的特性参数和外部语音模型的特性参数之间的外部语音距离;
如果外部语音距离大于预设值,在限值设定处理中,把该预设值作为外部语音距离输出;以及
在累积相似性计算处理中计算该关键字模型的累积距离。
21.依照权利要求16中的该字识别方法,其特征在于:
在累积关键字相似性计算处理中输出状态转移信息;以及
该字识别方法还包括:
字长计算处理,它根据通过从连续自转移的数目中减去预设值而获得的数字来处理字长,以及
累积相似性归一化处理,它根据累积关键字相似性和字长对发音的累积相似性进行归一化。
22.依照权利要求21的该字识别方法,还包括:
外部语音模型生成处理,它使用从外部语音数据库(9)中输出的外部语音发声数据以及从声学模型数据库(6)中输出的特性参数来生成外部语音模型;以及
外部语音相似性计算处理,它计算在发音的特性参数和外部语音模型的特性参数之间的外部语音相似性,
累积外部语音相似性计算处理,它计算外部语音模型的累积相似性,
其特征在于,在累积相似性归一化处理中根据累积关键字相似性、累积外部语音相似性以及字长对发音的累积相似性进行归一化。
23.依照权利要求22的该字识别方法,其特征在于,在该累积相似性归一化处理中通过把累积关键字相似性和累积外部语音相似性之间的差值除以字长来完成对累积相似性的归一化处理。
24.依照权利要求23的该字识别方法,其特征在于:
在关键字相似性计算处理中,计算在发音的特性参数和关键字模型的特性参数之间的关键字距离;
在外部语音相似性计算处理中,计算在发音特性参数和外部语音特性参数之间的外部语音距离;
在累积关键字相似性计算处理中,在输出状态转移信息的同时计算累积关键字距离;
在累积外部语音相似性计算处理中,计算外部语音模型的累积外部语音距离;
在字长计算处理中,如果连续的自转移数目超过预设值,则直到发生向不同状态的转移之前不向字长增加任何东西;以及
在累积相似性归一化处理中,根据累积关键字距离、累积外部语音距离和字长对累积距离进行归一化。
25.依照权利要求23的该字识别方法,其特征在于:
在关键字相似性计算处理中,计算在发音的特性参数和关键字模型的特性参数之间的似然性;
在外部语音相似性计算处理中,计算在发音的特性参数和外部语音模型的特性参数之间的似然性;
在累积关键字相似性计算处理中,在输出状态转移信息的同时计算累积关键字似然性;
在累积外部语音相似性计算处理中,计算外部语音模型的累积外部语音似然性;
在字长计算处理中,如果连续的自转移数目超过预定值,则直到发生向不同状态的转移时才向字长增加一个大于1的值;以及
在累积相似性归一化处理中,根据累积关键字似然性、累积外部语音似然性以及字长对该发音的累积似然性进行归一化处理。
26.依照权利要求16的该字识别方法,还包括持续时间控制处理,其特征在于:
在累积关键字相似性计算处理中,输出状态转移信息;以及
在持续时间控制处理中,如果连续的自转移数目超过预定值,则对累积关键字相似性增加一个预定值。
27.依照权利要求26的该字识别方法,其特征在于:
在关键字相似性计算处理中,计算在发音的特性参数和关键字模型的特性参数之间的关键字距离;以及
在累积关键字相似性计算处理中,计算累积关键字距离。
28.依照权利要求26的该字识别方法,其特征在于:
在关键字相似性计算处理中,计算在发音的特性参数和关键字模型的特性参数之间的似然性;以及
在累积关键字相似性计算处理中,计算累积关键字似然性。
29.运行在被包括在字识别设备中的计算机上的字识别程序,其特征在于该字识别程序使计算机具有以下功能:
特性参数生成装置(5),它从输入的发音中提取语音分段、把语音分段分割成帧并生成该发音的特性参数;
声学模型数据库(6),它在子字级别上存储语音的特性参数;
关键字模型生成装置(8),它使用从关键字数据库(7)输出的关键字发声数据和从声学模型数据库(6)输出的特性参数来生成关键字模型;
关键字相似性计算装置(11,12),它计算在发音的特性参数和关键字模型的特性参数之间的关键字相似性;以及
累积关键字相似性计算装置(14,24,32,42),它计算该关键字模型的累积相似性。
30.依照权利要求29的该字识别程序,特征在于:
该累积关键字相似性计算装置(14,24,32,42)使用维特比算法方法计算该关键字模型的累积相似性。
31.依照权利要求30的该字识别程序,其特征在于该字识别程序使计算机还具有以下功能:
外部语音模型生成装置(10),它使用从外部语音数据库(9)输出的外部语音发声数据和从声学模型数据库(6)输出的特性参数来生成外部语音模型;以及
外部语音相似性计算装置(12,22),它计算在发音的特性参数和外部语音模型的特性参数之间的外部语音相似性。
32.依照权利要求31的该字识别程序,该字识别程序使该计算机还具有作为限值设定装置(13,23)的功能,其特征在于:
如果外部语音相似性超出了预设范围,该限值设定装置(13,23)把预设值作为外部语音相似性输出。
33.依照权利要求32的该字识别程序,其特征在于:
该关键字相似性计算装置(11)计算在语音的特性参数和关键字模型的特性参数之间的关键字似然性;
该外部语音相似性计算装置(12)计算在发音的特性参数和外部语音模型的特性参数之间的外部语音似然性;
如果外部语音似然性小于预设值,则该限值设定装置(13)把预设值作为外部语音似然性输出;以及
该累积相似性计算装置(14)计算关键字模型的累积似然。
34.依照权利要求32的该字识别程序,其特征在于:
该关键字相似性计算装置(21)计算在该发音的特性参数和该关键字模型的特性参数之间的关键字距离;
该字识别程序使计算机具有作为外部语音相似性计算装置(22)的功能,该装置用于计算在该发音的特性参数和该外部语音模型的特性参数之间的外部语音距离;
如果外部语音距离大于预定值,则该限值设定装置(23)输出预设值作为外部语音距离;以及
该累积相似性计算装置(24)计算该关键字模型的累积距离。
35.依照权利要求30的该字识别程序,其特征在于:
该累积关键字相似性计算装置(32,42)输出状态转移信息;以及
该字识别程序还使计算机具有以下功能:
字长计算装置(34,44)它根据从连续的自转移数目中减去预设值而获得的数目来处理字长,以及
累积相似性归一化装置(35,45),它根据累积关键字相似性和字长对该发音的累积相似性进行归一化。
36.依照权利要求35的该字识别程序,其中该字识别程序使该计算机具有以下功能:
外部语音生成装置(10),它使用从外部语音数据库(9)中输出的外部语音的发声数据和从声学模型数据库输出的特性参数生成外部语音模型;以及
外部语音相似性计算装置(12,22),它计算在发音的特性参数和外部语音模型的特性参数之间的外部语音相似性,
累积外部语音相似性计算装置(33,43),它计算该外部语音模型的累积相似性,
其特征在于,该累积相似性归一化装置(35,45)根据累积关键字相似性、累积外部语音相似性以及字长对该发音的累积相似性进行归一化。
37.依照权利要求36的该字识别程序,其特征在于,该累积相似性归一化装置(35,45)通过把该累积关键字相似性和累积外部语音相似性之间的差除以字长来完成对累积相似性的归一化。
38.依照权利要求37的该字识别程序,其特征在于:
该关键字相似性计算装置(21)计算在发音的特性参数和关键字模型的特性参数之间的关键字距离;
该外部语音相似性计算装置(22)计算在发音的特性参数和外部语音模型的特性参数之间的外部语音距离;
该累积关键字相似性计算装置(42)在输出状态转移信息的同时计算累积关键字距离;
该累积外部语音相似性计算装置(43)计算该外部语音模型的外部语音距离;
如果连续自转移的数目超过预定值,则该字长计算装置(44)直到发生向不同状态的转移之前不会给字长增加任何东西;以及
该累积相似性归一化装置(45)根据累积关键字距离、累积外部语音距离以及字长对发音的累积距离进行归一化。
39.依照权利要求37的该字识别程序,其特征在于:
该关键字相似性计算装置(11)计算在发音的特性参数和关键字模型的特性参数之间的似然性;
该外部语音相似性计算装置(12)计算在发音的特性参数和外部语音模型的特性参数之间的似然性;
该累积关键字相似性计算装置(32)在输出状态转移信息的同时计算累积关键字似然性;
该累积外部语音相似性计算装置(33)计算该外部语音模型的累积外部语音似然性;
如果连续自转移的数目超过预定值,则该字长计算装置(34)直到发生向不同状态的转移时才向字长增加一个大于1的值;以及
该累积相似性归一化装置(35)根据累积关键字似然性、累积外部语音似然性以及字长对发音的累积似然性进行归一化。
40.依照权利要求30的该字识别程序,该字识别程序使计算机进一步具有作为持续时间控制装置(52)的功能,其特征在于:
该累积关键字相似性计算装置(42)输出状态转移信息;以及
如果连续自转移的数目超过预设值,则该持续时间控制装置(52)给累积关键字相似性增加一个预定值。
41.依照权利要求40的该字识别程序,其特征在于:
该关键字相似性计算装置(21)计算在发音的特性参数和关键字模型的特性参数之间的关键字距离;以及
该累积关键字相似性计算装置(42)计算累积关键字距离。
42.依照权利要求40的该字识别程序,其特征在于:
该关键字相似性计算装置(11)计算在发音的特性参数和关键字模型的特性参数之间的似然性;以及
该累积关键字相似性计算装置(32)计算累积关键字似然性。
CNA031453031A 2002-07-03 2003-07-03 字识别设备、字识别方法和字识别程序 Pending CN1471078A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2002194235A JP4213416B2 (ja) 2002-07-03 2002-07-03 ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
JP194236/2002 2002-07-03
JP194235/2002 2002-07-03
JP194237/2002 2002-07-03
JP2002194236A JP4167014B2 (ja) 2002-07-03 2002-07-03 ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
JP2002194237A JP2004037799A (ja) 2002-07-03 2002-07-03 ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム

Publications (1)

Publication Number Publication Date
CN1471078A true CN1471078A (zh) 2004-01-28

Family

ID=29721031

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA031453031A Pending CN1471078A (zh) 2002-07-03 2003-07-03 字识别设备、字识别方法和字识别程序

Country Status (3)

Country Link
US (1) US20040006470A1 (zh)
EP (1) EP1378885A3 (zh)
CN (1) CN1471078A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101165779B (zh) * 2006-10-20 2010-06-02 索尼株式会社 信息处理装置和方法、程序及记录介质
CN101789073B (zh) * 2009-01-22 2013-06-26 富士通株式会社 字符识别装置及其字符识别方法
CN105976814A (zh) * 2015-12-10 2016-09-28 乐视致新电子科技(天津)有限公司 头戴设备的控制方法和装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040166481A1 (en) * 2003-02-26 2004-08-26 Sayling Wen Linear listening and followed-reading language learning system & method
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
US8027943B2 (en) 2007-08-16 2011-09-27 Facebook, Inc. Systems and methods for observing responses to invitations by users in a web-based social network
US20090049127A1 (en) * 2007-08-16 2009-02-19 Yun-Fang Juan System and method for invitation targeting in a web-based social network
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US8214213B1 (en) * 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
WO2008033095A1 (en) * 2006-09-15 2008-03-20 Agency For Science, Technology And Research Apparatus and method for speech utterance verification
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
US8051086B2 (en) * 2009-06-24 2011-11-01 Nexidia Inc. Enhancing call center performance
US8700399B2 (en) 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
US8880203B2 (en) * 2010-05-21 2014-11-04 Fisher-Rosemount Systems, Inc. On-line alignment of a process analytical model with actual process operation
US8953468B2 (en) * 2011-05-24 2015-02-10 International Business Machines Corporation Voice over internet protocol (VoIP) session quality
PL399698A1 (pl) * 2012-06-27 2014-01-07 Voice Lab Spólka Z Ograniczona Odpowiedzialnoscia Sposób doboru zlozonosci dyskretnego modelu akustycznego w systemie automatycznego rozpoznawania mowy
US10593320B2 (en) * 2018-01-07 2020-03-17 International Business Machines Corporation Learning transcription errors in speech recognition tasks
US10607596B2 (en) * 2018-01-07 2020-03-31 International Business Machines Corporation Class based learning for transcription errors in speech recognition tasks
JP7482086B2 (ja) 2021-07-01 2024-05-13 株式会社東芝 キーワード検出装置、方法及びプログラム
CN116663549B (zh) * 2023-05-18 2024-03-19 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
JPH06167994A (ja) * 1992-11-30 1994-06-14 Sony Corp 音声認識装置
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
EP0800158B1 (en) * 1996-04-01 2001-06-27 Hewlett-Packard Company, A Delaware Corporation Word spotting
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
JP2001516904A (ja) * 1997-09-18 2001-10-02 シーメンス アクチエンゲゼルシヤフト 音声言語中のキーワードの認識方法
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
US6535850B1 (en) * 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
DE60028219T8 (de) * 2000-12-13 2007-06-14 Sony Deutschland Gmbh Verfahren zur Spracherkennung

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101165779B (zh) * 2006-10-20 2010-06-02 索尼株式会社 信息处理装置和方法、程序及记录介质
CN101789073B (zh) * 2009-01-22 2013-06-26 富士通株式会社 字符识别装置及其字符识别方法
CN105976814A (zh) * 2015-12-10 2016-09-28 乐视致新电子科技(天津)有限公司 头戴设备的控制方法和装置

Also Published As

Publication number Publication date
EP1378885A2 (en) 2004-01-07
US20040006470A1 (en) 2004-01-08
EP1378885A3 (en) 2004-05-26

Similar Documents

Publication Publication Date Title
CN1471078A (zh) 字识别设备、字识别方法和字识别程序
CN1159704C (zh) 信号分析装置
CN1162838C (zh) 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN1842702A (zh) 声音合成装置和声音合成方法
CN1237502C (zh) 生成声音模型的方法、装置和生成声音模型的计算机程序
CN1331449A (zh) 用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统
CN1324556C (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN1290031C (zh) 字符信息的转换处理系统
CN1194337C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN1898723A (zh) 信号解码装置以及信号解码方法
CN1462428A (zh) 语音处理装置
CN1734445A (zh) 用于对话的方法、装置和程序及其中存储程序的存储介质
CN1879147A (zh) 文本到语音转换方法和系统、及其计算机程序产品
CN1717720A (zh) 声处理系统、声处理装置、声处理方法、声处理程序及存储媒体
CN1151573A (zh) 声音识别方法,信息形成方法,声音识别装置和记录介质
CN101046964A (zh) 基于重叠变换压缩编码的错误隐藏帧重建方法
CN1453767A (zh) 语音识别装置以及语音识别方法
CN101038625A (zh) 图像处理装置和方法
CN1311423C (zh) 利用多语言字典执行语音识别的系统和方法
CN1226039A (zh) 指数计算装置和解码装置
CN1702736A (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN1755663A (zh) 信息处理设备、信息处理方法和程序
CN1669071A (zh) 用于在音频代码的编码/解码处理之间转换代码的方法和装置以及使用该方法和装置的存储介质
CN1220173C (zh) 基频特性曲线产生方法
CN1679084A (zh) 发送设备和发送方法、接收设备和接收方法、收发器设备、通信设备和方法、记录媒体、和程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned