CN1133467A - 矢量量化 - Google Patents

矢量量化 Download PDF

Info

Publication number
CN1133467A
CN1133467A CN 95103235 CN95103235A CN1133467A CN 1133467 A CN1133467 A CN 1133467A CN 95103235 CN95103235 CN 95103235 CN 95103235 A CN95103235 A CN 95103235A CN 1133467 A CN1133467 A CN 1133467A
Authority
CN
China
Prior art keywords
vector
label
series
subordinate
eigenvector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 95103235
Other languages
English (en)
Other versions
CN1149533C (zh
Inventor
坪香英一
中橘顺一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP01094494A external-priority patent/JP3144203B2/ja
Priority claimed from JP6053973A external-priority patent/JPH07261790A/ja
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1133467A publication Critical patent/CN1133467A/zh
Application granted granted Critical
Publication of CN1149533C publication Critical patent/CN1149533C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一个用于矢量化的代码本乃是发言者适应的,或者一发言者是被归一化的,结果,为了学习、它遵照使用小取样数的代码本。一运动矢量被设置用于每一组或一输入矢量的重心。该运动矢量是这样设置的,即当使用从一发言者取得的用于学习的取样时,一个分别地确定的目标函数达到最大,如果被确定的达到最大,或者达到最小,如果被确定的达到最小,该发言者在当重心或输入矢量被一个相应于该运动矢量的量移动时使用该系统。

Description

矢量量化器
本发明涉及在模式识别和使用矢量量化的通讯中使代码本(Code book)适应于一发言者以及归一化一欲识别的输入信号或者归一化一欲传送到一发言者的信号的一种装置。
矢量量化在传送语言信号等方面被广泛地使用作高效率编码的一种基本技术,并且用于如语言识别这样的模式识别。以下描述矢量量化的执行。
一个感兴趣的矢量空间被分成M个局部空间。标号(数字)1,……,M被分派到该局部空间。一对应标号m的局部空间m(m=1,…,M)的典型矢量(代码矢量)μm被加以确定。然后使用一代码本将一个矢量y转换成标号1,…,M的任何一个,在该代码本中μm可被认为是使用m的。具体地,该矢量y被转换成一个标号:这里d(u、v)代表矢量u和v之间的距离。
上述一个分部空间由组合一组训练矢量(training vectors)加以确定。作为这样组合的一种方法,经常使用熟悉的LBG算法。在这种情况下,该典型的矢量μm是该组m的重力或平均矢量的中心,并且还仍被认为是该组m的重心。
使用矢量量化传送语言信号描述如下。
发射机将欲传送的—PCM语言信号分成每一个包括几个取样的块,将其每块作为一个n维矢量处理,并将它们转换成一系列使用上述代码本的标号。该处理将参照指明缓冲存储器的图1、2和3加以描述,在缓冲存储器中1连续的几个取样被交替地储存。1表示一个开关,用于转换该缓冲器2和3,以使它们交替地储存上述几个取样。4表示一个开关,用于选择性地输出在该缓冲存储器2和3中的几个取样。部件1-4使得当写操作在另一缓冲储存器上执行时,读操作在该缓冲存储上执行。5表示一代码本,其中,每个m组的一n维典型矢量按照它能使用的标号进行检索的方式被存储起来。6表示一比较部件,用于将存储在该缓冲存储器2和3中的该n维矢量同存储在该代码码本5中的M曲型矢量相比较。7表示用于选择相应该典型矢量的标号的一标号选择部分,该典型矢量根据比较结果是最靠近缓冲存储器2和3中的典型矢量。选择的标号被加以传送。换言之,连续的几个取样被按序转换成标号,而这标号被传送出去。
接收机使用一具有如上所述相同结构的代码本,将接收的标号系列转换成相应的矢量系列,以便将它们恢复成时间波形。8表示一代码矢量读出部分,而9表示代码本。该代码本9具有与代码本5相同的结构。n维代码矢量(典型矢量)相应接收的标号,使用代码矢量读出部分8从代码本9读出。11和12表示缓冲存储器,用于交替地储存从代码本9读出的每个包括几个分量的代码矢量。10表示一个开关,用于交替地将从代码本9读出的代码矢量指定到缓冲存储器11和12。13表示一个开关,用于交替地读以及输出该缓冲存储器11和12的内容。这样,缓冲器11和12储存了在缓冲存储器2和3中使用代码矢量取得的矢量的近似值。因此,如果该近似值连续地读出用于上述典型的n维矢量单元,则可得到与发送信号在形式上相近似的解码信号。缓冲存储器11和12是相配合的。结果它们中之一个执行写,而另一个执行读。通过开关13,在缓冲存储器11和12上交替执行读出。
例如,如下所述,就传送一语言信号而论,这样的装置提供了一发送比特率,在该语言信号中,一个取样由12位代表,这里代码本尺寸M=256,而一个块的长度n=8。当发送-PCM信号时,每一块发送的量为12×8=96位,如果执行矢量量化,该所要求的位仅仅是那些用于区分标号的位,即仅仅log2 256=8(位)是要求的。这意味着该发送比特率降低12倍。在这种情况下包括储存在上述存储器中的几个取样的每一个矢量y由紧靠它的重心近似(量化)。因此,代码本尺寸M越大,这样量化误差越小。但是,用于编码所要求的位数将增加。典型矢量按上述方式从一组准备用于学习(Learning)的矢量取得。为精确地做这件事,用于学习的矢量必须随着代码尺寸M增加。因此,该代码尺寸务必根据同这样的量化,发送比特率,典型矢量的估计误差等有关的考虑意向来决定。
一种语言识别装置将一未知的语言传导转换成一系列声学特征矢量,并且计算预先储存的,同每一个种类相关的每个参考模型的相似性,用于根据该一系列声学特征矢量进行识别,以认出该最大相似性的参考模型。图2为使用矢量量化的一般语言识别装置的方块图,其中,20表示一特征提取部分,用于将一输入语言信号转换成特征矢量。例如,使用一滤波器存储单元,LPC分析,频谱分析等,一输入语言信号,每10msec被转换为n维特征矢量。21表示一个代码本,用于存储由组合一组特征矢量得到的每组的重心,该一组特征矢量,如上所述,是使用已知组合方法提前从用于学习的语言得到的,并且每一个都标明使用该标号可检索的。22表示一包括表示在图1中的一比较部分14和一标号选择部分15的矢量量化部分。这样,由特征提取部分20得到的一特征矢量被转换成具有的重心紧靠与代码本21有关的特征矢量的组的标号。23表示参考模型储存部分,其中,同用于识别的各种单元相关的参考模型被储存起来。例如经常使用用于识别的单元,字,字节以及语音。24表示一校验部分,它根据在矢量量化部分22输出端上得到的一系列标号计算储存在参考模型储存部分23中的参考模型的相似性。25表示一确定部分,它确定用于识别的相应最大相似性的参考模型的单元作为识别结果。
已经提出的参考模型包括一具有各种识别单元发声作为一系列标号的模型,以及一具有所谓HMMS(Hidden Markov Models)的模型,其中状态,状态的发送,以及在每一状态中一特征矢量的出现的次数都受限定。
前者为已知的SPLIT方法,其中一系列相应未知输入发声的符号相对于一系列作为参数模型的标号进行校验,或者其中来自特征提取部分20的从未知输入端得到的输出矢量转换成用于各种重心的距离矢量(对各个重心矢量是介于帧间的距离)或者类似的矢量(对各个重心矢量分量是帧的类似物),而不是转换成标号,而且这样得到的距离(类似)矢量相对于参考模型进行校验。
后者是已经成为重要技术潮流的一种方法,并且是基于如下述原理,即使业已对它进行了各种改善。假定供未知输入端识别的一系列特征矢量用y=y1,y2…,yT表示了具有由HMMλ产生的长度T的一任意系列状态用X=X1,X2,…,XT表示;从状态i到状态j转换的可能性由aij表示;状态i的初始可能性,即当t=1时该状态i的可能性用ci表示;以及在状态1中的一矢量yt出现的次数用Wi(yt)表示。这样,来自λ的一系列特征矢量y出现次数用方程2、3和4表示。
方程2 L 1 ( Y | λ ) = Σ x π x 1 Π t = 1 T a x t x t + 1 Π t = 1 T ω x t ( y t ) 另一方面,
方程3 L 2 ( Y | λ ) = max x [ π x 1 Π t = 1 T a x t x t + 1 Π t = 1 T ω x t ( y t ) ] 另一方面,方程3两边的算法可以如下取得。
方程4 L 3 ( Y | λ ) = max x [ log π x 1 + Σ t = 1 T log a x t x t + 1 + Σ t = 1 T log ω x t ( y t ) ]
图4说明一模型的状态的转换,这是经常使用的。在该图中指数W表示对应一个用于识别的单元W。如果该模型用HMMW,图2中参考模型储存部分23储存HMMW1,HMMW2,……,HMMW,如图3中所示那样。识别结果将由L1(Y/λw),L2(Y/λw)表示在方程5中,以及L3(Y/λw)对应于识别的该单元W。
Figure A9510323500184
在方程5中,如果用方程2,则i=1;如果用方程3,i=2;以及如果用方程4,i=3。
有三种HMMS,即连续HMMS,分立HMMS,以及FVQ式HMMS,后者依赖于这种方式,在该方式中,如于状态i的一特征矢量出现的次数是受限定的。本发明讲述分立HMMS和FVQ式HMMS。
根据分立HMMS
方程6 ω 1 ( y t ) = b im ; m = arg max k [ d ( y t , μ k ) ] 这里bim表示状态i,一标号m出现或然率。
作为对分立HMMS的一种改善,存在着基于模糊矢量量化(FXQ或HMMS)的HMMS。对于正常矢量量化,一特征矢量yt被单值地量化到最靠近组的典型矢量。但根据模糊矢量量化,对于一组的该特征矢量yt的从属值被限定为0≤Utm≤1,以及Ut1+Ut2+…+Utm=1,并将给出下列定义。
方程7 ω i ( y t ) = Σ m = 1 M u tm b lm 或者 log ω 1 ( y t ) = Σ m = 1 M u tm log b tm 或者    方程8 ω 1 ( y t ) = Π m = 1 M ( b im ) u tm
一般地,根据多种发言者的各种句子,字等的发声,代码本被作为平均值得到。对于这样的一种平均值将引起失真的增加,该失真将导至通信中一解码信号在质量上的下降,以及导致语言识别中识别性能的降低,如果对每一个发言者产生一代码本,并且使用的代码本依赖该发言者改变,则性能将被改善。但是,由于庞大的用于学习的数据必须甚至从单个发言者收集,所以这是不实际的。
当HMMS储存在此字小的字节或语音单元中时,由于在学习的字之间和识别的字之间的上下文、字节顺序、语音等的差异,性能将下降。
当在识别时间环境不同于在收集和记录用于学习的数据的时间时,性能也能下降。
如上所述,现有技术语言识别的问题是性能的降低,能由不同的发言者以及在学习时间和识别时间之间的上下文所引起。
根据本发明的第一方面,提供了一种矢量量化器,它包括用于储存在一特征矢量空间中的某些典型矢量的参考代码本,因此,它们能用相应的标号检索;一学习矢量储存装置,用于储存学习用的某些矢量;一目标函数计算装置,用于计算定义为典型矢量函数的目标函数以及学习用的矢量;一运动矢量计算装置,用于计算运动矢量;以及一匹配装置,用于将运动矢量附加到典型矢量而得到新的典型矢量,其中,输入矢量借助于将该输入矢量转换成标号或从属矢量进行编码,对于使用新典型矢量的标号,标号或从属矢量分量为该输入矢量的从属值,而其中该运动矢量计算装置计算与所说用于学习的矢量相关的目标函数的所说新典型矢量的最大值。
根据本发明的第二方面,提供了一种矢量量化器,它包括用于储存在一特征矢量空间中的某些典型矢量的参考代码本,它们能用相应的标号检索;一学习矢量储存装置,用于储存学习用的某些矢量;一目标函数计算装置,用于计算定义的典型矢量函数的实体函数以及学习用的矢量;一运动矢量装置,用于计算运动的矢量;以及一归化装置,用于将该运动矢量附加到输入矢量,其中,输入矢量借助于将该运动矢量附加到输入矢量进行编码,以得到归化的输入矢量,并且由于将它们转换成标号或从属矢量,对于标号,它们的分量是输矢量的从属值,而且,其中运动矢量计算装置进行计算,结果,当学习用矢量和运动矢量的和被放置在参考代码本中作为新的学习用矢量时,目标函数最大。
在按本发明第一方面的矢量量化器中,某些特征矢量空间中的典型矢量储存在一个参考代码本中,因此它们能使用相应的标号进行检索;某些学习用矢量提前储存在学习矢量存储装置中;定义为典型矢量函数的一目标函数以及学习用矢量由一目标函数计算装置进行计算;运动矢量由运动矢量计算装置进行计算;而新的典型矢量是使用一匹配装置将该运动矢量附加到典型矢量得到的。欲编码的输入矢量被转换成标号或从属矢量,对于由一使用新典型矢量的矢量量化装置提供的标号,它们的分量是输入矢量的从属值,而运动矢量计算装置进行计算,结果新典型矢量使与学习用矢量相关的目标函数达最大值。
在按本发明第二方面的矢量量化器中,在一特征矢量空间中的某些典型矢量被储存在一参考代码本中,因此可使用相应的标号检索;某些学习用矢量提前储存在一学习矢量存储装置中;定义为典型矢量函数的一目标函数和学习用矢量由一目标函数计算装置进行计算;运动矢量由一运动矢量计算装置进行计算;以及该运动矢量由一归一化装置附加到欲编码的输入矢量,以得到归一化的输入矢量。归一化输入矢量由一矢量归一化装置转换成标号或从属矢量,对于使用典型矢量的标号,它们的分量是该输入矢量的从属值。运动矢量由运动矢量计算装置进行计算,因此,当学习用矢量和运动矢量的和放置在参考代码本作为新的学习用矢量时,目标函数达最大。
图1说明基于矢量量化的一种传送方法的原理。
图2说明基于矢量量化的一种语言识别的一般原理。
图3说明图2中参考模型储存部分的细节。
图4说明一种HMM(Hidden Markov Model)的原理。
图5说明按本发明的一种匹配方法的实施例的原理。
图6说明本发明另一实施例的原理。
图7是基于按图5中说明原理的矢量量化的一种信号发射机的方块图。
图8是基于按图6中说明原理的矢量量化的一种信号发射机的方块图。
图9表示用于图7和图8中发射机的一种接收机的实施例。
图10表示用于图7和图8中发射机的一种接收机的实施例。
图11表示用于图8中发射机的一种接收机的另一实施例。
图12是基于按图5中说明原理的矢量量化的一种模式识别装置的方块图。
图13是基于按图6中说明原理的矢量量化的一种模式识别装置的方块图。
图14说明基于发言者归一化的一种发射机的实施例。
图15说明基于发言者归一化的一种接收机的实施例。
图16说明基于发言者归一化的一种识别装置的实施例。
图17说明用于按本发明的发言者归一化的一种方法的另一实施例。
图18说明按本发明的一种代码本校正装置的实施例的方块图。
图19是说明代码校正部分一种实施例的方块图,该代码校正部分是按本发明的一种代码校正装置的重要部分。
图20是说明本发明操作的流程图。
图21是说明在图20中的出现率计算公式由方程9代表的操作的流程图。
图22是说明计算一校正矢量的分母和分子的操作的流程图,其中,在图20中的校正矢量是对每组得到的。
图23是说明在图20中的校正矢量是对每组得到的操作的流程图。
图24是说明计算一校正矢量分母和分子的操作的流程图,其中图20中的校正矢量一般是对所有组得到并使用的。
图25是说明在图20中的校正矢量一般是对所有组得到并使用的操作的流程图。
图26是说明按本发明的一种特征矢量归化装置的实施例的方块图。
图27是说明校正矢量校正部分的实施例的方块图,该部分是本发明的特征矢量归一化装置的重要部分。
图28是说明包括一代码本归一化装置的语言识别器的实施例的方块图。
图29是说明包括一归一化矢量调整装置的语言识别器的实施例的方块图。
图30说明按本发明的一种匹配方法的实施例的原理。
图31说明本发明另实施例的原理。
图32是一种按本发明的一发言者归一化方法的另一实施例的方块图。
图33是图30矢量量化的方块图,其中过去的输入声音逐渐忘却。
图34是图31的矢量量化的方块图,其中过去的输入声音逐渐忘却。
本实施例论述发言者的归一化或代码本的匹配。具体地,本发明涉及一种方法,如早先所述,在无监控基础上,仅仅根据发言者的几个欲被识别的声音,借助于校正赖于扬声器的输入矢量或借助于赖于该发言者的代码本的典型矢量,它能解决若干问题(即该系统不教导什么字、句子等,该扬声器就已经发音)。
一代码本是由组合一组从许多发言者的发声得到的特征矢量建立起来的。组合方法包括所谓硬组合,其中,每一个特征矢量被指派到仅一个组,以及所谓模糊组合,其中,按照用于该组的特征矢量的从属值,每一个特征矢量被指派到每一组。对于硬组合方法,有一种称为LGB方法的算法。对于模糊组合,使用已知的方法,例如模糊K-装置方法。虽然本发明既能使用硬组合,也能使用模糊组合,硬组合能看成是模糊组合的一种特殊情况。
模糊组合执行如下,
一系列数字y1,y2…,yn,…,yN被分派到从多个扬声器发声得到的特征矢量。这点是用来决定一重心矩阵V=[u1,u2,…,uM]以及一从属矩阵U=[Unm],结果下列实体函数最小,使Un1+Un2+…Unm=1,对于一组m,这里Unm代表一特征矢量y的成员数值(m=1,…,M)而m代表该组m的一重心矢量。
方程9 J = Σ n = 1 N Σ m = 1 M u nm F d ( y n , μ m )
这由在矩阵V和U上交替地重复一种操作来实现,其中该矩阵V式U中之一是固定的,而当使用其他矩阵时,实体函数J最小。特别地,固定V,以及作为δJU=0对U的解得到U′的操作,固定U,以及作为δJV=0对V的解得到V′的操作,以及建立U=U′和V=V′作为新U和V的操作交替地重复,直到获得收敛为止。F代表模糊,并且F>1·F值越大,组间模糊越大。
模糊组合在下面步骤中执行,这里
   d(yn,μm)=(yn-μm)T(yn-μm)(步骤1-1)
组数,计算循环数,以及实体函数值分别赋于M,S=0,以及J(0)=1,而成员数矩阵U=[Unm]的初始值U(o)被适当地给定。(步骤1-2)
我们赋于S=S+1(步骤1-3)
一组m(m=1,…,M)的平均矢量μm(s)由下面方程得到
方程10 μ m ( a ) = Σ n = 1 N ( u nm ( s - 1 ) ) F y n Σ n = 1 N ( u nm ( s - 1 ) ) F ; 1 ≤ m ≤ M (步骤1-4)
每个点到组的从属矩阵用下面方程进行计算
方程11
Figure A9510323500261
步骤(1-5)
目标函数计算如下,
方程12 J ( s ) = Σ n = 1 N Σ m = 1 M ( u nm ( s ) ) F d ( y n , μ m ( s ) ) (步骤1-6)
确定下列用于确定的条件是否满足
方程13 | J ( s - 1 ) - J ( s ) | J ( s - 1 ) ≤ ϵ 如果否,处理转到步骤1-2。如果是,处理终止。
有一个提前定义的适当小正数。该值越小,计算重心的精度越高,然后收敛时间将更长。
在上述步骤中,方程10由对μm(S-1)解|J(S-1)V|μm(S-1)|=0得到,而方程11用μm(s-1)解下列方程得到,这里有一个拉格朗日的不确定因子。
方程14 ∂ ∂ u nm ( s - 1 ) ( J ( s - 1 ) + θ ( Σ k = 1 M u nk ( s - 1 ) - 1 ) )
此外,如果模糊F-1>1+0,1/(F-1)->。当μm(S-1)靠近yn时,
d(yn,μm (S-1))<d(yn,μh (S-1))对h≠m
d(yn,μm (S-1))=d(yn,μh (S-1))对h=m因此,
{d(yn,μm (S-1))/d(yn,μh (S-1))}1/(F-1)->0对h≠m
{d(yn,μm (S-1))/d(yn,μh (S-1))}1/(F-1)=l对h=m则,方程15 u nm ( s ) = 1 form = arg min h [ d ( y n , μ h ) ] u nm ( s ) = 0 form ≠ arg min h [ d ( y n , μ h ) ] 硬组合就这样执行。
硬组合在执行模糊组合时给出Unm(S)=L(n),m(s),这里L(n)代表紧靠yn的标号。δij代表克罗尼柯增量。δij=1,如果i=j,以及δij=0时,如果i≠j。因此,上述程序对硬组合情况将由下面取代。
首先,目标函数是:
  方程16   J = Σ n = 1 N Σ m = 1 M δ L ( n ) , m d ( y n , μ m ) 在此情况下,组合如下执行。(步骤2-1)
我们赋S=0以及J(0)=1(步骤2-2)
我们赋S=S+1(步骤2-3)
一组(m=1,……,M)的平均矢量μm(S)由下面方程取得
方程17 μ m ( s ) = Σ n = 1 N ( δ L ( n ) , m ) F y n Σ n = 1 N ( δ L ( n ) , m ) F = 1 | C m | Σ n : L ( n ) = m y n 这里|Cm|代表包括在组m中的矢量的整数。(步骤2-4)
紧靠每个点的重心对每个点的组进行计算。
方程18 m ^ = arg min m [ d ( y n , μ m ( s ) ) ] 步骤(2-5) L ( n ) = m ^
目标函数计算如下
方程19 J ( s ) = Σ m = 1 M Σ n = 1 N δ L ( n ) , m d ( y n , μ m ( s ) ) = Σ m = 1 M Σ n : L ( n ) = m d ( y n , μ m ( s ) ) (步骤2-6)
确定用于确定的下列条件是否满足。
方程20 | J ( s - 1 ) - J ( s ) | J ( s ) ≤ ϵ 如果否,处理转到步骤2-2。如果是,处理终止。
如上所述产生一代码本。这样产生的代码本适合发音者A的发声。
该点是将重心μm(S)(m=1,……M)转换成紧靠发音者A的发声的μm′。按照本发明第一实施例,这是由赋μm′=μm=hm以及从发言者A的发声寻求最佳hm执行此转换完成的。特别地,这能借助于寻求给出一适当小的解的hm来完成:
方程21 J ' = Σ 1 = 1 1 Σ m = 1 M u 1 m F d ( y A 1 , μ m ' ) = Σ i = 1 I Σ m = 1 M u im F d ( y A i , μ m + h m ) 这里用于匹配代码本的从发言者A的发声得到的特征矢量一系列数字yA 1,yA 2,…,yA I表示。
如上所述,按照下面步骤定义d(y,n)T(y-n)将给出hm·S代表确定上限的一个值,用作操作循环数。(步骤3-1)
从属矩阵U=[Unm]的初始值U(0)由下式给出:
方程22 u nm ( o ) = 1 Σ k = 1 M d ( y A 1 , μ m + h m ( o ) ) d ( y A i , μ k + h k ( o ) ) 1 / ( F - 1 ) ; 1 ≤ m ≤ M , 1 ≤ n ≤ N 这里组数由M表示;计算循环数S=0;目标函数值J(o)=∞;以及hm(o)=0(m=1,…,M)。(步骤3-2)
我们赋S=S+1(步骤3-3)
一运动矢量hm(S)(m=1,…,M)由下面方程得到。
方程23 h m ( a ) = Σ i = 1 I ( u im ( m - 1 ) ) F ( y A 1 - μ m ) Σ i = 1 I ( u im ( m - 1 ) ) F (步骤3-4)
对于组的每个点学习用矢量的从属矩阵用下面方程计算。
方程24 u im ( a ) = 1 Σ k = 1 M d ( y A i , μ m + h m ( a ) ) d ( y A i , μ k + h m ( a ) ) 1 / ( F - 1 ) :1≤m≤M,1≤1≤N(步骤3-5)
目标函数计算如下。
方程25 J ( a ) = Σ i = 1 I Σ m = 1 M ( u im ( a ) ) F d ( y a 1 , μ m + h m ( m ) ) (步骤3-6)
确定用于确定的下列条件是否满足
方程26 | J ( m - 1 ) - J ( m ) | J ( m - 1 ) ≤ δors ≥ S 如果否,处理返回步骤3-2,如果是,处理终止。
步骤3-6中的δ是一个适当小的数,它取决于代码本重心接近用于学习的声频输入的程度,该代码本是准备用作参考值的。如果δ小而S大,代码本将接近由仅使用用于发声的组合得到的声频输入。当用于学习的发声数量小时,重心的分布过偏用于学习的发声,而这是可取的。因此,对取决于用于学习的发声数量的δ和S必须选择适当的幅值。
当用于学习的发声数量小时,在目标函数(方程21)中的hm对m=1,…,M各种值最好保持共用。本发明的第二个实施例是该装置的一个例示,其中h=h1=h2=…,hM,而实体函数是:
方程27 J m = Σ i = 1 I Σ m = 1 M u 1 m F d ( y A i , μ m ' ) = Σ i = 1 I Σ m = 1 M u im F d ( y A 1 , μ m + h ) h从下面步骤取得。(步骤4-1)
从属矩阵U=[Unm]的初始值U(o)由下式给出:
方程28 u nm ( o ) = 1 Σ k = 1 M d ( y A i , μ m + h ( o ) ) d ( y A i , μ k + h ( o ) ) 1 / ( F - 1 ) 1≤m≤M,1≤n≤N这里组数由M表示;计算循环数S=0;目标函数值J(o)=∞;以及hm(o)=0。(步骤4-2)
我们赋S=S+1。(步骤4-3)
运动矢量h(S)由下面方程得到。
方程29 h ( a ) = Σ i = 1 I Σ m = 1 M ( u 1 m ( s - 1 ) ) F ( y A i - μ m ) Σ 1 = i I Σ m = i M ( u im ( m - 1 ) ) F (步骤4-4)
对于组的每个点(学习用矢量)的从属矩阵采用下面方程计算。
方程30 u 1 m ( m ) = 1 Σ k = 1 M d ( y A i , μ m + h ( m ) ) d ( y A i , μ k + h ( m ) ) 1 / ( F - 1 ) ; 1 ≤ m ≤ M , 1 ≤ 1 ≤ N (步骤4-5)
目标函数计算如下
方程31 J ( a ) = Σ i = 1 I Σ m = 1 M ( u im ( m ) ) F d ( y A l , μ m + h ( a ) ) (步骤4-6)
确定用于确定的下列条件是否满足。
方程32 | J ( m - 1 ) - J ( m ) | J ( m - 1 ) ≤ δors ≥ S 如果否,处理返回到步骤4-2。如果是,处理终止。
再就这种情况而论,用于学习的发声对重心校正量的影响能通过选择δ和S加以调整。
图5是表示本发明第一和第二实施例结构的方块图。对于第一实施例,执行步骤3-1—3-6,对第二实施例,执行4-1—4-6步骤。50表示一输入端,用来产生一代码本的学习用矢量yA 1,…,YA N输入到该端上。51表示一缓冲存储器,用于储存学习用矢量YA 1,…,YA No54表示一个参考代码本,其中按照允许它们使用标号检索方式,储存从多个扬声器产生的代码矢量。53表示一运动矢量储存部分,而55表示一个相加器,它将参考代码本54的内容同运动矢量储存部分53的内容相加。52表示运动矢量计算部分,它根据缓冲存储器51的内容和相加器55的输出按第一实施例中的步骤6-1—6-6计算hm(m=1,…,M),并且在第二实施例的步骤4-1—4-6上作计算。计算的运动矢量被储存在运动矢量存储部分53中。当上述重复计算起动时,运动矢量储存部分53的内容被初始化到0,按照这种结构,在计算期间,运动矢量储存部分53的内容都重写,每次一运动矢量要进行校正。如果满足步骤3-6或步骤4-6中的收敛条件,在运动矢量储存部分53中最终得到匹配于发言者A的运动矢量。将这样得到的运动矢量附加到参考代码本的输出就能得到适合于该发言者A的典型矢量。
图6表示一匹配代码本56插在相加器55和运动矢量计算部分52之间的情况。很明显,这种结构将最终提供一匹配代码本作为适合于扬声器A的代码本。
图7和图8表示使用上述原理的一种通信设备的发射的实施例。
图7表示采用了图5中所示的匹配一扬声器的方法。方块1,2,3,4,6和7与图1中是有相同编号的方块按相同的方式操作。图7中的方块51-54与图6中具有相同编号的方块按相同的方式操作,并多半用作发言者匹配。每次发言者替换一新成员,代表新发言者与该参考代码本不一致的运动矢量被进行弄清,并且如上所述,被储存在运动矢量储存部分53中。当开关4的输出和代码本5的内容在图1所示的系统中进行比较时,图7表示开关4的输出同相加器55输出相比执该相加器55的输出可以为是已经对发言者偏差进行补偿的一个参考代码本。
图8表示使用如图6所示的用于发言者匹配的方法的一种情况。对于这种情况,如上所述,插入一匹配代码本。比较器6比较开关中的输出以及该匹配代码字的输出。这是由于该匹配代码字储存是对扬声器补偿结果的典型矢量。
图9-12表示用来从一系列如上所述接收到的标号再生初始取样系列的一种接收机的实施例。
参照图9,同发言者有关的运动矢量首先被接收到,并提前储存在一运动矢量存储部分中,因此,相应于接收的标号的矢量从参考代码本读出。这样读出的代码矢量根据上述运动矢量储存部分的内容由相加器93进行补偿,而方块10-13执行类似于上述的那些处理,以便获得一解码信号。
图10表示提供一种匹配代码本101的情况。具体地,相加器93的输出是运动矢量92的内容与参考代码本18的内容的和,用来对所有的代码矢量进行计算,并提前储存在匹配代码本中,并且该匹配代码本被用来替代图1中的代码本9。
图11表示一代码字自身而不是运动矢量从发射机提前发送的情况。具体地,由一例如在图8中所示的发射机产生的匹配代码本的内容被传送到一代码本111并储存在其中。这并不是说该代码本81相应于图1中的代码本9。
图12和图13表示实施例,其中,如上所述的用于发言者匹配的方法应用到声音的识别。
图12表示在图5中的该方法的一种应用,其中元件51-55执行类似于图5中的那些元件的功能。因此,在执行发言者匹配之后,相加器55的输出被用来替代图2中的代码本21。
图13表示在图6中的该方法的一种应用,其中元件51-56执行类似于图6中那些元件的功能,因此,在执行发言者匹配之后,匹配代码本56的输出被用来替代图2中的代码本21。
现在将描述本发明的其他实施例。
用一计算公式计算乘积的和或累加,以取得一系列特征矢量的出现率受到等于代码本尺寸的整数1-M的限制。为降低计算量,在多数情况中使用小的数字。在本实施例中,该限制范围用字母K表示。
图18是示意说明按本发明的代码本校正器的方块图。
401表示一校正言语储存部分,它储存一发言者以后称作为用于校正的言语的R个(r=1~R)已知言语Sr(以后称作为校正言语)(该言语内容对该代码校正器是提前得知的)。对发言者而言,参考代码本(以后也简称代码本)是加以校正的,即使用言语识别的发言者。该言语被用来顺序地校正代码本。这些校正言语可以是任何字或句子,只要其内容是已知的。
402表示一特征提取部分,它将校正言语Sr转换成一系列固定间隔的特征矢量Yr=Yr1,Yr2,…,Yrt,…,Yrt。Tr表示在校正言语Sr被转换成一系列特征矢量时数据的帧数。
403表示一校正特征矢量储存部分,它使用特征提取部分402储存一系列由储存在校正言语储存部分401中的校正言语Sr的r(r=1-R)个发声而得到的特征矢量Yr
404表示一数据控制部分,它根据关于在该R个发声中的那一个发声(r)是目前处理的,以及该第r个发声的内容是什么的确定来控制下面的处理。在下面的说明中,术语″(r)″意味第r个发声的内容(发声内容的HMM的号数W)。
405表示一模糊矢量量化部分,它使用由数据控制部分404送出的发声号数r,从校正特征矢量储存部分403读出一系列特征矢量Yr,用第一到第K顺序的标号,控制递增距离dr(t,m)对储存在下面描述的代码本储存部分406中的矢量C1-Cm编码,以及用于各代码矢量的特征矢量Yt的从属值将它们转换成距离矢量drt=(dt1,dt2,…,dtk),标号矢量Ort=(Ut1,Ut2,…,Utk)以及从属矢量Urt=(Ut1,Ut2…,Utk),在时间t的不同的点上替换特征矢量Yrt,该各代码矢量是由用于特征矢量Yt的标号组进行检索的。并将特征矢量Yrt的系列Yr转换成一系列距离矢量Dr=dr1,dr2,…,drT一系列标号矢量Or=Or1,Or2,…,OrT,以及一系列成员数矢量Ur=Ur1,Ur2,…,UrT。
406表示代码本储存部分,用于存储代码矢量Cm,结果它们能使用给定的标号m进行检索,代码矢量由模糊矢量量化部分405用于矢量量化。
407表示一HMM储存部分,它储存按欲识别的字的号数W提前产生的HMM,状态转换概率矩阵A和标号出现概率矩阵B被储存来用于每一个欲识别的字。因此,在第W位置的HMMλW由λw{AwBw}表示。
408表示一代码校正部分,它使用校正言语和在某些由HMMS及时计算的点中处于某些状态的HMMS的概率校正代码储存部分406中的代码矢量Cm,语HMMS对应于储存在HMM存储部分407中的校正语言,以便使由与代码本相关的通道概率加数的一系列特征矢量的量化误差的失真降低到最小,并将取得作为校正结果的新代码矢量C′m转移到代码本储存部分406。
409表示一校正收敛确定部分,当代码矢量用校正言语校正体,它确定收敛的状态。如果满足收敛的确定条件,则它使校正操作终止,而如果否,则它使校正代码矢量重复直到满足该条件为止。
本发明的特征在于代码校正部分408的结构,其中,提供的言语内容是已知的,使用由对应言语内容的HMMS计算的通道概率,以便使由与代码本相关的通道概率加数的一系列特征矢量的量化误差的失真降低到最小。
图19是表示代码本校正部分的具体结构的方块图。
终端1-9连接到图18中的元件。终端1和7连接到代码本储存部分406。终端1接收代码本C,而终端7传送校正的代码本C′。终端5和6连接到HMM储存部分407。终端5接收对应于第r个字的HMM的状态转移概率矩阵Aword(r)。终端6接收上述的标号出现概率矩阵Bword(r)。终端2、3和4连接到模糊矢量量化部分405,以便接收距离矢量Dr系列,标号矢量Or系列,以及用于第r个字的从属矢量Ur系列。端8连接到校正收敛确定部分409,并传送一个用于确定收敛的平均目标函数值J于它。无需说,该值可以用附加各种目标函数得到,而不用其平均值。端9连接到数据控制部分404,以便接收关于位置(r)的信息,这里存在目前校正言语数据,并且当r=R时,计算校正矢量C和平均目标函数值J。
代码本校正部分408,即图19,使用上述交换的信息进行操作。
501表示一特征矢量系列出现率计算部分,它计算在时间t对每一个点的特征矢量Wi(t)的出现率,以及根据从属值计算HMMS的每个状态i,以及根据距离矢量系列,标号矢量系列,从属矢量系列计算标号出现概率,以及计算在端点2、3、4和6接收到的标号出现概率矩阵,以便得到一特征矢量出现率矩阵Ω。
502表示一通道概率计算部分,它计算是在时间t某个点处某种状态i的HMM的概率的通道概率ri(t),以及每个状态i,以得到一通道概率矩阵。
503表示一校正矢量分母/分子计算部分,它计算校正矢量计算方程的分母和分子。
504表示一校正矢量分母/分子储存部分,它储存对于由校正矢量分母/分子计算部分503计算的校正矢量计算公式的分母和分子,供下面描述的校正矢量计算部分之用。
505表示一目标函数值计算部分,如上所述它按照方程35,使用通道概率ri(t),从属矢量Ur t,以及距离矢量dr t计算用于确定收敛的目标函数值Jr。    方程35 J r = Σ t = 1 T r Σ i = 1 I r 1 ( t ) Σ k = 1 K U to tk F · d to tk
506表示一目标函数值储存部分,它根据量R储存由目标函数值计算部分505接收的目标函数值Jr,R相应于用于校正的字的总数。这并非说它可以累加那些值而不是储存它们。
在上述操作在R校正字上执行之后(终端8信号″R″),将执行下面的操作。
507表示一校正矢量计算部分,根据校正矢量计算公式,它从对于储存在校正矢量分母/分子储存部分中的校正矢量的分母和分子得到一组校正矢量ΔC。
508表示一校正代码矢量计算部分,它使用从终端1接收的未校正的代码字C的代码矢量值及由校正矢量计算部分507得到的校正矢量△C计算校正的代码本C′的代码矢量值,并通过终端7将它们传送到代码矢量储存部分406。
509表示一平均目标函数值计算部分,它由平均所有目标函数值得到一平均目标函数值Jave,并通过终端8将其传送到校正收敛确定部分409。
按本发明的该代码本校正部分的结构表示如下。一般地说,该结构可按两种方法使用。一种方法是用于校正该代码本的代码矢量的校正矢量对单独组是分别得到的,另一种方法是得到共用的校正矢量。
前一种对单独组分别得到校正矢量的情况将参照在图20-23中表示的流程图进行描述,这些图说明代码本校正操作的执行情况。
在步骤601,校验用于校正的一发言者的内容已知的言语Sr是否储存在校正言语储存部分401中。如果是,处理进到下一步骤,而如果否,如602所示,储存校正言语。步骤603,相应于使用在特征提取部分402的已知的特征矢量提取装置将校正言语Sr转换成特征矢量Yr,并根据校正言语的r=1~R发声执行操作。所得到的特征矢量,如604所示,储存在校正特征矢量储存部分403中。
下面操作将重复,直到确定该校正已经达到收敛。首先,为对以下步骤作准备,在步骤605,对用于校正矢量的分母和分子的缓冲寄存器清零。在步骤606或607,读出在校正言语数据中的特征矢量Yr系列,而在步骤608,根据一已知方法,模糊矢量量化部分405和代码矢量储存部分406执行矢量量化,以便计算从属矢量Ur系列和标号矢量Or系列。
在步骤609,即在图21中,在步骤707按照计算公式(方程36)对t=1-Tr以及i=1~T执行计算在特征矢量系列出现率计算部分501中的特征矢量出现率Wi(t)。
方程36 ω 1 ( t ) = Π k = 1 K b u lo tk to t Or log ω 1 ( t ) = Σ k = 1 K U to tk · log b lo tk ω 1 ( t ) = Σ k = 1 K b lo tk · U to tk
在步骤610,使用已知的前向/反向算法,通道概率计算部分502计算该通道概率ri(t)。如在技术中熟悉的,在仅考虑最佳通道的Viterbi算法中,该Viterbi算法可替代使用。
在步骤611,即在图22中,在步骤803,对所有代码Cm(m=1-M)重复校正矢量分母/分子计算部分503的操作,直到特征矢量Yr第r系列的帧长度Tv终止为止,以及在步骤806,计算相应第r个发声内容的HMM的状态I的数量(在步骤809的条件满足)。在步骤810,使用用于分母的方程37和用于分子的方程38计算对于校正矢量计算公式的分母和分子。对于每个标号m,方程37和38都是取得校正矢量计算公式(方程39)分母和分子的方程。
方程37,38,39 ΔC m - r denom = Σ t = 1 T r Σ l = 1 I r 1 ( t ) U tm F d tm r ΔC m - r numer = Σ t = 1 T r Σ l = 1 I r 1 ( t ) · U tm F Δ C m - = Σ r = 1 R Σ t = 1 T r Σ l = 1 I r 1 ( t ) U tm F d tm r Σ r = 1 R Σ t = 1 T r Σ i = 1 I r 1 ( t ) U tm F
ΔCr m_denom和ΔC1r m_numer分别代表一个计算公式的分母和分子,以便得到用于第r字的第m组的一校正矢量ΔCm。
当所有帧长度Tr和数I终止时(在步骤806和803的条件已被满足),则这部分的计算将被终止。
重复操作步骤608-611,直到在步骤612确定已选择了最后的特征矢量YR的系列,即对于整个特征矢量Yr系列(r=1-R),按整个校正言语计算用于每个代码矢量的校正矢量计算公式的分母和分子。然后,在步骤613-615,即在图9中,计算校正矢量ΔC={ΔC1,ΔC2,…,Cm}组以及校正的代码本C′={C1′,C2′,…,Cm′}。
如903所示,在步骤613,即步骤904,使用校正矢量计算公式的分母和分子,根据方程40,得到用于每一组的校正矢量ΔCm
方程40 Δ C _ = Σ r = 1 R Δ C _ - r mumer Σ r = 1 R ΔC - r denom
一旦得到校正矢量ΔC的组,它可被附加到未校正代码本C的代码矢量(614,即905),之后该未校正的代码本C由校正的代码本C′取代作为一新的代码本C(615,即906)。
在步骤616将确定,对用于收敛的一预定条件,校正是否已达到收敛。如果是,该处理终止,并且在那个体内可用的代码本被用作用于该发言者的代码本。如果确定收敛未达到,处理返回步骤605,并重复,直到取得收敛。
现在,将参照在图20,20,24和25中所示的流程图描述对所有组取得公用校正矢量的后一种情况,图25说明代码本校正操作的执行。
在步骤601,校验用于校正的发言者的内容已知的言语Sr是否储存在校正言语储存部分401中。如果是,处理进到下一步骤,而如果否,如602所示,储存校正言语,步骤603,相应于使用在特征提取部分402的已知的特征矢量提取装置将校正言语Sr转换成特征矢量Yr,并根据校正言语的r=1-R发声执行操作。所得到的特征矢量,如604所示,储存在校正特征矢量储存部分403中。
下面操作将重复,直到确定该校正已经达到收敛。首先,为对顺序的步骤作准备,在步骤605,对用于校正矢量的分母和分子的缓存器清零。在步骤606或607,读出在校正言语数据中的特征矢量Yr系列而在步骤608,根据一已知的方法,模糊矢量量化部分405和代码矢量储存部分406执行矢量量化,以便计算距离矢量Dr系列,从属矢量Ur系列,以及标号矢量Or系列。
在步骤609,即在图21中,在步骤707,按照上述计算公式(方程36),对t=1-TY以及=1-I执行计算在特征矢量系列出现率计算部分501中的特征矢量出现率Wi(t)。
在步骤610,使用已知的前向/反向算法,通道概率计算部分502计算该通道概率Yi(t)。如在技术中熟悉的,在仅考虑最佳通道的Viterbi算法中,该Viterbi算法可替代使用。
在步骤611,即在图24中,对所有代码Cm(m=1一M)重复校正矢量分母/分子计算部分503的操作,直到特征矢量Yr第r个系列的帧长度Tr经过步骤1003,以及相应于第r个发声的内容的HMM的状态I的数在步骤1006计数(满足步骤1009的条件)。在步骤1010,使用用作分母的方程31和用作分子的方程42计算对于校正矢量计算公式的分母和分子。方程41和42是取得计算公式(方程43)的分母和分子的方程,以得到用于所有标号的一公用校正矢量。
方程41,42,43 ΔC - r denom = Σ t = 1 T r Σ l = 1 I r 1 ( t ) Σ k = 1 K U to tk F d to tk r ΔC - r numer = Σ t = 1 T r Σ l = 1 I r 1 ( t ) Σ k = 1 K U to tk F Δ C _ = Σ t = 1 T r Σ l = 1 I r 1 ( t ) Σ k = 1 K U to tk F d to tk r Σ t = 1 T r Σ i = 1 I r 1 ( t ) Σ k = 1 K U to tk F
ΔCr m_denem和ΔCr m_numer代表得到用于所有第r个字的组的一公用校正矢量的计算公式的分母和分子。
当所有的帧长度Tr和数I终止时(已满足步骤1006和1003的条件),这部分的计算也将终止。
在步骤608-611操作将重复,直到在步骤612确定已选定特征矢量YR的最后系列为止,即对于特征矢量Yr(r=1~R)的整个系列,按照用于整个校正言语的公用代码矢量,计算校正矢量计算公式的分母和分子。之后,在步骤613-615,即在图25中,计算该公用校正矢量ΔC和校正的代码本C′={C1′,C2,…,CM′}。
在步骤613,即步骤1101,按照方程44,使用校正矢量计算公式的分母和分子,得到用于整个组的公用校正矢量ΔC。
方程44 Δ C m _ = Σ r = 1 R ΔC m _ r numer Σ r = 1 R ΔC m _ r denom
一旦得到该校正矢量ΔC,它将被附加到未校正的代码本C(614,即1105),然后该未校正的代码本C由该校正的代码本C′取代作为一新的代码本C(615,即1106)。
在步骤616将确定对于用于收敛的一预定条件,校正是否已经达到收敛。如果是,该处理终止,并且在那个时间上可用的代码本被用作发言者的代码本。如果否,处理返回到605,重复执行605,直到达到收敛为止。
在上述实施例中,在称为校正矢量的未校正和校正矢量间用于绘图的一矢量取得之后,就可得到一校正代码本。这并非说,校正的代码本的代码矢量能直接得到,其结果由与该代码本相关的通道概率加数的特征矢量系列的量化误差失真将是最小。
言语识别能简单地实现,只要用在上述实施例中得到的校正的代码本取代在前述普通言语识别设备的代码储存器302中的值。
上述要点为本发明的一个特征之一,改型在实现着,由此与由通道概率加数的量化有关的失真将被降到最小。对于低通道概率情况,即如果存在同HMM不紧密相关的部分,则这样的一个部分将被阻止用于匹配。
至此,关于发言者匹配一代码本的说明已经进行了说明,与此相反的方法也可考虑,其中,发言者和一参考代码本相匹配,即执行发言者量化。具体地,方程21改为:
方程33 J ' = Σ i = 1 I Σ m = 1 M u 1 m F d ( y A 1 , μ m + h m ) = Σ i = 1 I Σ m = 1 M u im F { ( y A 1 - ( μ m + h m ) ) T ( y A 1 - ( μ m + h m ) } = Σ i = 1 I Σ m = 1 M u im F { ( y A 1 - h m ) - μ m } T { ( y A 1 - h m ) - μ m } 因此,YA1减hm可看作为一发言者对一代码本的量化。方程33相应图5或图6中的结构,如果它们结合图17a和图17b的结构使用,下面表示的方程34将从方程33得出。
方程34 J ' ' = Σ i = 1 I Σ m = 1 M u im F d ( y A i + h m , μ m ) = Σ i = 1 I Σ m = 1 M u im F ( ( y A i + h m ) - μ m ) T ( ( y A i + h m ) - μ m ) 图14表示一种发射机的实施例,它根据本发明第三个实施例,在使用发言者量化的矢量量化基础上,使用通信方法,其中,使用图5或图6中的结构。元件51-55执行如上所述的相同操作。在这种情况中,如上所述的学习用的运动矢量从输入矢量减去,并且用参考代码本54执行矢量量化。131代表一相减器,它从输入矢量中减去运动矢量。
图15表示与上述发射机(结合图14)结合使用的接收机,它将用一参考代码本91接收的一系列标号转换成一系列代码矢量,并将由发射机分别发射的运动矢量附加到代码矢量,以得到解码的矢量。141表示执行该相加的相加器。92表示一运动矢量储存部分,用于储存由相加器141相加的运动矢量,当发言者改变时,运动矢量从发射机发射。
图16表示根据本发明第三实施例的,在使用发言者量化的基础上的一种言语识别器的实施例。51-55执行如上所述的相同操作。对这种情况,相似地,如上所述学习用的运动矢量由相减器131从输入矢量减去,而矢量量化用参考代码本54执行。131代表一相减器,它从输入矢量中减去运动矢量。
很明显,使用图17a和图17b的结构将使得提供一发/收器和结构实质相同的言语识别器成为可能。对此,相加和相减是部分地颠倒的(未示)。
在上述实施例中,代码矢量的校正是由将校正矢量ΔC加到校正矢量C完成的。如果从校正矢量ΔC得到的一预定矢量ΔH(以下称作量化矢量)是从输入发言者的言语的特征矢量Yt中减去的,则能消去输入言语中与发言者相关的差异。这就使执行发言者量化成为可能。
方程45
yt= yt-Δ H
对这情况,量化矢量提前随未改变的代码矢量值储存起来,并在识别时间,量化矢量从特征矢量系列的每一帧中的特征矢量中减去。图26是用来对发言者量化产生这样一种量化矢量△H的方块图。
1201表示一校正言语储存部分,它储存一发言者(以后称作为用于校正的言语)的R个(r=1-R)已知言语Sr(以后称作为校正言语)(该言语内容对该代码校正器是提前得知的),对发言者而言,得到一个量化矢量,即使用言语识别系统的发言者。该言语用于顺序的校正操作。
1202表示一特征提取部分,它如使用在上述识别设备中那样,根据相同特征提取程序将校正言语Sr转换成一系列固定间隔的特征矢量Yr=Yr1,Yr2,…,Yrt,…,YrT。 Tr表示在校正言语Sr被转换成一系列特征矢量时数据的帧数。
1203表示一校正特征矢量储存部分,它使用特征提取部分1202储存一系列由储存在校正言语储存部分1201中的校正言语Sr的r(r=1-R)个发声而得到的特征矢量Yr
1204表示一数据控制部分,它根据关于在该R个发声中的哪一个发声是目前处理的。以及该第r个发声的内容是什么的确定来控制下面的处理。在下面的说明中,术语″字(r)″意味第r个发声的内容(发声内容的HMM的号数W)。
1205表示一量化矢量储存部分,储存用于校正特征矢量的一量化矢量。
1206表示一特征矢量归一化部分,使用储存在归化矢量储存部分1205中的归一化矢量△H,在时间t的不同点由校正特征矢量的值Yt得到校正的特征矢量。
1207表示一模糊矢量量化部分,它使用由数据控制部分1204送出的发声号数r,从校正特征矢量储存部分1203读出一系列特征矢量Yr1在使用储存在归一化矢量储存部分1205中的归一化矢量的特征矢量归一化部分,在时间t的各个点,校正特征矢量Yr t,用第一到第K顺序的标号,按照递增距离dr(t,m)对储存在下面描述的代码本储存部分1208中的矢量C1-CM编码,以及用用于各代码矢量的特征矢量Yt的从属值将它们转换成距离矢量dr t(dt1,dt2,…,dtk),标号矢量Or t=(Ot1,Ot2,…,Otk),以及从属矢量Ur t=Ur 1,Ur 2,…,UrT,替换校正的特征矢量,该各代码矢量是由用于特征矢量Yt的符号组进行检索的。K可取任意值,从1高达代码本尺寸M,并限制下面将描述的取得特征矢量的出现率的计算量。
1208表示一代码本储存部分,用于存储代码矢量Cm,结果它们能使用给定的标号m进行检索,代码矢量由模糊矢量部分1207用于矢量量化。
1209表示一HMM储存部分,它储存按欲识别的字的号数W提前产生的HMM,状态转换概率矩阵A和标号出现概率矩阵B被储存来用于每一个欲识别的字。因此,在第W位置的HMMλw由λw={Aw,Bw}表示。
1210表示一归一化矢量调节部分,使用相应于储存在该HMM储存部分1209中的校正言语的内容的校正言语和HMMS调整在归一化矢量储存部分1205中的归一化矢量ΔH的值,以便使由与代码本相关的通道概率加数的特征矢量系列的量化误差的失真降到最小,并传送作为调整结果得到的一新的归一化矢量ΔH′到归一化矢量储存部分1205。
1211表示校正收敛确定部分,当归一化矢量用校正言语校正时,它确定收敛的状态。它使校正操作终止,如果满足预先确定的收敛条件,如果否,它使用同样的校正言语重复校正,直到当按序匹配归一化矢量时满足条件为止。
本发明的特征在于归一化矢量调节部分1210的结构,其中,提供的言语的内容是已知的,该归一化矢量被调整得使由与代码本相关的通道概率加数的归一化矢量校正的特征矢量系列的量化误差的失真降到最小。
图27是表示归一化矢量调节部分具体结构的方块图。
终端1-10连接到图26的元件,终端1连接到代码本储存部分1208,以便接收代码本C。终端5和6接到HMM储存部分1209。终端5接收相应第r字的HMM的状态转移概率矩阵Aword(r)。终端6接收和上述相同的标号出现概率矩阵Bword(r)。终端2、3和4连接到模糊矢量化部分1207,以便接收距离矢量Dr系列,标号矢量Ov系列,以及用于第r字的从属矢量Ur。终端7和10连接到归一化矢量储存部分1205。终端7接收归一化矢量ΔH,而终端10传送一校正的归一化矢量ΔH′。终端8连接到校正收敛确定部分1211,并传送一平均目标函数值J于它用于确定收敛。终端9连接到数据控制部分1204,以便接收关于存在着目前的校正言语的位置(r)的信息,并且当r=R时,计算归一化矢量H和平均目标数值J。
代码本校正部分1210,即图27,用如上所述交换的信息进行操作。
1301表示一特征矢量系列出现率计算部分,它对时间t每一个点计算由方程36表示的一特征矢量的出现率,以及根据从属值计算HMM的每个状态i,以及根据距离矢量系列,标号矢量系列,从属矢量系列计算标号出现概率,以及计算在终端2、3、4和6收到的标号出现概率矩阵,以便得到特征矢量出现率矩阵Ω。
1302表示一通道概率计算部分,它计算通道概率ri(t),该概率是在时间t某点处某一状态i的HMM的概率,并计算每一个状态i,以便得到一通道概率矩阵。
1303表示一校正矢量分母/分子计算部分,它计算一校正矢量计算方程的分母和分子。
1304表示一校正矢量分母/分子储存部分,它储存用于一校正矢量计算公式的分母和分子,该公式是由下述供一校正矢量计算部分用的校正矢量分母/分子计算部分1303进行计算的。
1305表示一目标函数值计算部分,它按方程35,使用上述通道概率ri(t),从属矢量Ur t,以及距离矢量dr t计算用来确定收敛的目标函数值Jr
1036表示一目标函数值储存部分,它根据量R储存来自该目标函数值计算部分1305的目标函数值Jr,量R相应于用于校正的全部字量。这并非说,它可以累加这些值,而不是储存它们。
在R校正字上执行上述操作之后(终端8信号″R″)将执行下列操作。
1037表示一校正矢量计算部分,它按照校正矢量计算公式,从用于储存在校正矢量分母/分子储存部分1304的校正矢量的分母和分子得到一组校正矢量ΔC,并通过终端10将其传送到校正矢量储存部分1205。
1038表示一归一化矢量计算部分,它根据由校正矢量计算部分得到的校正矢量ΔC以及在终端7接收到的未校正的归一化矢量ΔH获得新归一化矢量ΔH′。
1039表示一平均目标函数值计算部分,它由平均所有储存在目标函数值储存部分1306中的目标函数值得到一平均目标函数值Jave,并通过终端7将其传送到校正收敛确定部分1211。
在该上述特征矢量归一化设备中的校正矢量计算公式相应方程41,42,43和44。
上述说明是集中于这样一些情况,其中一个系统被分成学习状态和识别状态,它也可能执行通信和识别,只要在正进行谈话和识别处理期间重复地学习已给定的(正好)每一个声调。具体地,在图5-图8,图12-图14中表示的缓冲存储器51取成一种状态,其中它经常接收输入信号,以及运动矢量在接收到的言语数据基础上,按照上述方法,在适当的间隔上进行计算,以便允许代码本重写,以及用于发言者归一化的归一化矢量进行修改。这使得当一般无意识脱离学习状态的发言者时执行实时发言者归一化,以及按照该发言者特征变化执行发言者匹配或归一化成为可能。按本发明校正言语在代码本校正设备和矢量归一化设备的上述实施例中是提前发音的,当考虑该言语的内容必须已知这个要求时,则对于使用该语言识别系统的发言者而言,不必提前发校正言语的音,如果由于识别结果能看作上述语言的内容,识别结果呈现出高的可靠性。
对于这种情况,识别结果可认为是可靠的,只要相似性本身是高的,或者对第一和第二条件间的相似性存在大的差异。相反,识别结果可认为不大可靠的。因此,可以这样来建立适当的阀值,即如果超出这个阈值,代码本就将被校正,如果相反,代码本将不被校正。这样,用识别结果能执行代码本的校正,甚至言语的内容是未知的。
图28是这样的一种言语识别设备的方块图。
1401表示一特征提取部分,它使用例如LPC分析将未知的言语信号转换成固定间隔上的特征矢量,以取得特征矢量系列Y=Y1,Y2,…,Yt…,YT。T代表特征矢量Y的系列的长度用于未知言语信号。
1402表示一储存代码矢量的代码本储存部分,结果它们能使用分给它们的标号进行检索。
1043表示一模糊矢量量化部分,它按照递增距离dr(t,m)用K符号对储存在代码本储存部分1402中的矢量进行编码,以及用用于各个代码矢量的特征矢量Yt,将它们转成距离矢量dv t=(dt1,dt2,…,dtk),标号矢量Or t=Ot1,Ot2,…,Otk),以及从属矢量Ur t=Ut1,Ut2,…,Utk)来取代由特征提取部分1401提取的特征矢量Y,该各个代码矢量是用用于特征矢量Yt的标号组进行检索的,以及将该特征矢量Yt的系列Y转换成一系列距离矢量D=d1,d2,…,dT,一系列标号矢量O=O1,O2,…,OT,以及一系列从属矢量U=U1,U2,…,UT
1404表示一HMM储存部分,它储有按欲识别的字的号数W提前产生的HMMλw(W=1-W),一状态转移概率矩阵A,以及储存用于欲识别的每一个字的一标号出现概率矩阵B。因此,处第W位置的HMMλw由λw={Aw,Bw}W=1W表示。
1405表示一特征矢量系列出现率计算部分,它使用由模糊矢量量化部分1403得到的标号矢量O的系列,从属矢量U的系列,储存在HMM储存部分1404中的第W个字的标号出现概率矩阵Bw,按照公式36计算特征矢量系列出现率矩阵ΩW={ωwit}。
当在时间t的一点处,特征矢量Yt服从于模糊矢量量化时,标号出现概率biotk是来自HMM的状态i的第K个标号Otk的出现概率。
1406表示一相似性计算部分,使用用于由特征矢量系列出现率计算部分1405计算的HMMλw的特征矢量系列出现率矩阵Ωw以及用于储存在HMM部分1404中的HMMλw的状态转换概率矩阵AW计算相似性L(Y/λw)。
1407表示一相似性储存部分,为以后进行比较,它储存用于与由相似性计算部分1406计算的特征矢量Y的系列相关的每一个字的HMMλw的相似性L(X/λw)。
1408表示一比较/确定部分,它确定与HMM相关联的字,即它在储存在相似性储存部分1407中的HMM中给出最大相似性作为识别的一个条件。
元件1405-1407的每一个操作对用于每个字的HMMλw只执行一次,并且重复直到W等于W。这此操作的结果由比较/确定部分1408估算。
1409表示一识别选择物(candidate)可靠性计算部分,它使用储存在相似性储存部分1407等中的用于识别的选择物的相似性,计算由比较/确定部分1408选择的用于识别的选择物的可靠性。
1410表示一代码本校正执行确定部分,它传送一代码本校正信号到下面描述的代码本校正部分,以执行该代码本的校正,如果由识别选择物可靠性计算部分1409取得的用于识别的选择物的可靠性等于或大于一预定的阈值。
1411表示一代码本校正部分,它从代码本校正执行确定部分接收代码本校正信号,使用储存在代码本储存部分1402中的代码字,由模糊矢量量化部分1403取得的距离矢量D的系列,标号矢量O的系列,从属矢量U的系列,以及通道概率校正代码本,并将校正的代码本送到代码本储存部分。
类似地,归一化矢量能使用识别结果进行校正,即使言语的内容是未知的,只要这样制作一种装置,即当一阈值被超过时调整该归一化矢量,否则将不作调整。
图29是这样一种言语识别设备的方块图。
1501是一特征提取部分,它使用已知的如LPC分析方法,将一未知信号转换成在固定间隔上的特征矢量,以取得一特征矢量系列Y=Y1,Y2,…,Yt,…YT。 T代表特征矢量Y系列的长度,用于未知言语信号。
1502表示一归一化矢量存储部分,它储存一归一化矢量,用于归一化特征矢量。
1503表示一特征矢量归一化部分,它使用归一化矢量归一化特征矢量。
1504表示一代码本储存部分,它储存代码矢量,结果它们能使用给予它们的标号进行检索。
1505表示一模糊矢量量化部分,它用K个标号,按照递增距离dr(t,m)对储存在代码本储存部分1502中的矢量编码,以及用用于各代码矢量的归一化特征矢量Y’t的从属值将它们转换成距离矢量dt=(dt1,dt2,…,dtk),标号矢量Or t=(Ot1,Ot2,…,Otk),以及从属矢量Ur t=(Ut1,Ut2,…,Utk),替代由特征矢量归一化部分归一化的特征矢量Y’t,以及将该归一化的特征矢量Y’t的系列Y′转换成一距离矢量D=d1,d2,…,dT,一标号矢量系列O=O1,O2,…,OT,以及一从属矢量系列U=U1,U2,…UT
1506表示一HMM储存部分,它储存提前按欲识别的字的号数W产生的HMMλw(ω=1-W),一状态转移概率矩阵A以及对每一个欲识别的字储存的一标号出现率矩阵B。因此,在第W位置的HMMλw由λw={Aw,Bw}W=1-W表示。
1507表示一特征矢量系列出现率计算部分,它使用由模糊矢量量化部分1505取得的标号矢量O的系列,从属矢量U的系列,以及储存在该HMM储存部分1506中的第W个字的标号出现概率矩阵Bw,按方程36计算用于HMMλw的一特征矢量系列出现率矩阵ΩW={ωwit}。
当在时间t一个点处,特征矢量Y′t服从于模糊矢量量化时,符号出现概率biotk是该出现的概率,只要第K标号Otk来自HMM的一个状态i。
1508表示一相似性计算部分,它使用用于由特征矢量系列出现率计算部分1507计算的HMMλw计算相似性L(Y/λw),以及用于储存在HMM储存部分1506中的HMMλw的状态转移概率矩阵Aw
1509表示一相似性储存部分,为了以后进行比较,它储存用于每一个字的HMMλw的相似性L(Y/λw),该每一个字与由相信性计算部分1508计算的特征矢量Y的系列有关。
1510表示一比较/确定部分,它确立与HMM相关的字,即在储存在相似性储存部分1509的HMM中给出最大相似性。
元件1507-1509的每一个操作对用于每个字的HMMλw只执行一次,并被重复直至W等于W。这些操作的结果由比较/确定部分1510估算。
1511表示一识别选择物可靠性计算部分,它使用储存在相似性储存部分1509等中的用于识别的选择物的相似性,计算由比较/确定部分1510选择的用于识别的选择物的可靠性。
1512表示一归一化矢量调节执行确定部分,它传送一归一化矢量调节信号到下面描述的一归一化矢量调节部分,以执行归一化矢量的调整,如果由识别选择物可靠性计算部分1511取得的用于识别的选择物的可靠性等于或大于一预定的阈值。
1513表示一归一化矢量调整部分,它从归一化矢量调整执行确定部分接收归一化矢量调整信号,使用储存在归一化矢量储存部分1502中归一化矢量,由模糊矢量量化部分1505得到的距离矢量D系列,标号矢量O系列,从属矢量U系列,以及与用于识别的选择物有的HMM的通道概率调整该归一化矢量,并且将校正的归一化矢量送到归一化矢量储存部分。
所要求是将一重心μm(m=1,…,M)转换成对发言者A是最佳的μm′。这样一种转换(匹配)是系列地执行的,并且匹配可以在不同的时间执行,例如在言语的间隙或预定的间隔执行。本发明的实施例将描述关于一种假设,即匹配在输入一个字的每一时间执行。
按照本发明第一实施例,当一个字的第n个发声输入时,它是服从于表示成μm1(n)=μm+hm(n)的转换,并用从发言者A的字的n个过去的发声中寻求最佳hm(n)的方法执行。
本发明的特征在于从属值和矢量Wm(n)以及瞬时运动矢量Δm(n)仅由多半是目前输入的一个字的第n个发言进行计算的,而其中最佳运动矢量hm(n)是在从属值和运动矢量Vm(n-1)累积乘积以及从属值矢量Wm(n-1)的累积和基础上对所有从第一到第n个发音的发音进行计算的,该从属值矢量Wm(n-1)已经由(n-1)个过去的发音进行计算。因此,所得到的μm′(n)经常被转换的在输入发音中(包括过去的发音)的最佳者。
具体地,当由发言者A的第n个发音得到的特征矢量被表示为YA 1(n),YA 2(n),…,YA I(n)时,仅仅用于第n个发音的一目标函数J′(n)被定义为方程46,而用于所有n个发音的目标函数JJ′(n)被定义为方程47。
方程46和方程47 J ' ( n ) = Σ i = 1 I n Σ m = 1 M u im ( n ) F d ( y A l ( n ) , μ m ' ( n ) ) = Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A i ( n ) , μ m ' ( n - 1 ) + Δ m ( n ) ) JJ ' ( n ) = Σ r = 1 n Σ i = 1 I r Σ m = 1 M u im ( r ) F d ( y A i ( r ) , μ m 1 ( r ) ) = Σ r = 1 n - 1 Σ i = 1 I r Σ m = 1 M u im ( r ) F d ( y A 1 ( r ) , μ m 1 ( r ) ) + Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A i ( n ) , μ m ' ( n ) ) = JJ ' ( n - 1 ) + Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A i ( n ) , μ m + h m ( n ) )
因此,该转换能由求得对方程46给出一适当小的解Δm(n)以及对方程47给出一适当小的解hm(n)来完成。如果给出定义(Y,μ)=(Y-μ)T(Y-μ)(如在早先描述的例子中那样),则这样的Δm(n)和hm(n)将按下列步骤得到。S表示目前值,作为用于得到Δm(n)的计算循环的上限。(步骤3-1)
在发言者发言输入之前,置所有初始值。
等待输入其中设置全目标函数JJ′=∞;从属值和运动矢量Vm=0(m=1,…,M)累积乘积;从属值矢量Wm=0(m=1,…,M)的累积和;以及输入字n=0的个数的言语。(步骤3-2)
输入语言,之后,输入字的个数,n=n+1。(步骤3-3)
设置关于每一个输入的计算的循环数,如S=0,设置目标函数值如J(o)=∞,以及Δm(o)=0(m=1,…,M)。(步骤3-4)
对于用于第n个输入的从属矩阵U(n)=[Unm(n)]的初始值U(n)(o)由下面方程给出
方程48
uim(n)(θ) 1 Σ k = 1 M ( d ( y A i ( n ) , μ m + h m ( n - 1 ) + Δ m ( n ) ( θ ) ) d ( y A l ( n ) , μ k + h k ( n - 1 ) + Δ k ( n ) ( θ ) ) ) 1 / ( F - 1 ) 1≤m≤M、1≤i≤In
这里In表示第n个发音的帧长度。(步骤3-5)
S=S+1(步骤3-6)
瞬时运动矢量Δm(n)(s)(m=1,…,M)由下面方程得到。
方程49 Δ m ( n ) ( s ) = Σ | m | I n ( ulm ( n ) ( s - 1 ) ) F ( y A i ( n ) - μ m - h m ( n - 1 ) ) ) Σ i = 1 I n ( ulm ( n ) ( s - 1 ) ) f
uim(n)(s) 1 Σ k = 1 M ( d ( y A i ( n ) , μ m + h m ( n - 1 ) + Δ m ( n ) ( a ) * ) d ( y A i ( n ) , μ k + h k ( n - 1 ) + Δ k ( n ) ( s ) ) ) 1 / ( F - 1 ) ; 1≤m≤M、1≤i≤In(步骤3-7)
对组的每个点(输入矢量)的从属矩阵按下面方程计算。
方程50
uim(n)(s) 1 Σ k = 1 M ( d ( y A i ( n ) , μ m + h m ( n - 1 ) + Δ m ( n ) ( s ) ) d ( y A i ( n ) , μ k + h k ( n - 1 ) + Δ k ( n ) ( s ) ) ) 1 / ( F - 1 ) 1≤m≤M、1≤i≤In
(步骤3-8)
计算目标函数。
方程51 J ( s ) = Σ i = 1 I n Σ m = 1 M ( u im ( n ) ( s ) ) F d ( y A i ( n ) , μ m + h m ( n ) + Δ m ( n ) ) (步骤3-9)
确定用于确定对目前输入言语的瞬时运动矢量计算的以下条件是否满足。
方程52 | J ( s - 1 ) - J ( s ) | J ( s - 1 ) ≤ δors ≥ S 如果否,处理返回到步骤3-5。如果是,处理进行到下一个步骤。(步骤3-10)仅用于第n个发音的从属值矢量Wm(n)的和按下面方程计算
方程53 W m ( n ) = Σ i = 1 I n u im ( n ) ( s ) (步骤3-11)
修改从属值矢量Wm的累积和以及从属值和运动矢量Vm的累积乘积。
方程54
Wm=Wm1+Wm(n)
Vm=Vm+wm(n)×Δm(n)(步骤3-12)
运动矢量hm(n)(m=1,…,M)由下面方程得到。
方程55 h m ( n ) = V m W m (步骤3-13)
计算全部目标函数
方程56
JJ’(n)=JJ’(n-1)+J(n)(s)(步骤3-14)
确定用于确定对每一个输入发音的瞬时矢量计算的以下条件是否满足。
方程57 | JJ ' ( n - 1 ) - JJ ' ( n ) | JJ ' ( n - 1 ) ≤ δδ 如果否,处理返回到步骤3-2,以等待言语输入。如果是,终止匹配。
步骤3-9中的δ和步骤3-14中的δδ是适当小的值,并且取决于准备作为参考的一代码本的多少重心偏向于输入言语。当δ是小,而S是大时,重心偏向于由对仅使用输入言语分组的代码本。当过去输入的发音n的数量小时,可考虑不希望有的情况,即重心的分布过分偏向于该输入言语。所以,对于依赖输入发音n的数量的δi和S,必须选择适当的大小。
当输入发音n的数量小时,最好使在目标函数(方程21)中的Δm(n)以及在所有目标函数(方程47)中的hm(n)对m=1,…,M是通用的。具体地,该想法使用在本发明的第二实施中,其中Δ(n)=Δ1 (n)=Δ2 (n)=…=Δm(n);hn+h 1(n)=h2(n)=…=hM(n);一个仅用于第n发音的目标函数J″(n)由方程58确定。而用于所有几个发音的全目标函数JJ″(n)由方程59确定:
方程58 J ' ' ( n ) = Σ i = 1 I n Σ m = 1 M u im ( n ) F d ( y R i ( n ) , μ m ' ( n ) ) = Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A i ( n ) , μ m ' ( n - 1 ) + Δ ( n ) )
方程59 JJ ″ ( n ) = Σ n = 1 n Σ i = 1 I n Σ m = 1 n u im ( n ) F d ( y A i ( r ) , μ m ' ( r ) ) = Σ n = 1 n = 1 Σ i = 1 I n Σ m = 1 M u im ( r ) F d ( y A 1 ( r ) , μ m ' ( r ) ) + Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A 1 ( n ) , μ m ' ( n ) ) = JJ ' ( n - 1 ) + Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A 1 ( n ) , μ n + h ( n ) )
(步骤4-1)
在发言者的发言输入之前置所有初始值。
等待输入其中设置全目标函数JJ′=∞;从属值矢量Wm=0的累积和;从属值和运动矢量Vm累积乘积;以及输入字n=0的个数的言语。(步骤4-2)
输入言语,输入字的个数n=n+1。(步骤4-3)
设置关于每一个输入计算的循环数S=0。设置目标函数值J(o)=∞以及Δm(o)=0。(步骤4-4)
对于用于第n个输入的从属矩阵U(n)=[Unm(n)]的初始值U(n)(o)由下面方程给出。
方程60
uim(n)(θ) 1 Σ k = 1 M ( d ( y A 1 ( n ) , μ n + h ( n - 1 ) + Δ ( n ) ( θ ) ) d ( y A i ( n ) , μ k + h ( n - 1 ) + Δ ( n ) ( θ ) ) ) 1 ( F - 1 ) 1≤m≤M、1≤i≤In这里±n代表第n个发音的帧长度。(步骤4-5)
S=S+1。
(步骤4-6)
瞬时运动矢量Δm(n)(s)由下面方程得到。
方程61 Δ ( n ) ( s ) = Σ m = 1 M Σ i = 1 I n ( u im ( n ) ( s - 1 ) ) F ( y A i - μ m - h ( n - 1 ) ) Σ m = 1 M Σ i = 1 I n ( u im ( n ) ( s - 1 ) ) F (步骤4-7)
用于组的每一个点(输入矢量)的从属矩阵按下面公式计算。
方程62uim(n)(s) 1 Σ k = 1 M ( d ( y A 1 ( n ) , μ m + h ( n - 1 ) + Δ ( n ) ( s ) ) d ( y A 1 ( n ) , μ k + h ( n - 1 ) + Δ ( n ) ( s ) ) ) 1 / ( F - 1 ) 1≤m≤M、1≤i≤In(步骤4-8)
计算目标函数。
方程63 J ( s ) = Σ i = 1 I n Σ m = 1 M ( u im ( n ) ( s ) ) F d ( y A i ( n ) , μ m + h ( n ) + Δ ( n ) )
(步骤4-9)
确定用于确定对目前输入言语的瞬时运动矢量计算的以下条是否满足。
方程64 | J ( s - 1 ) - J ( s ) | J ( s - 1 ) ≤ δors ≥ S 如果否,处理返回步骤4-5,如果是,处理进到下一步骤。(步骤4-10)
仅用于第n发音的从属值矢量Wm(n)的和按下面方程计算。
方程65 w ( n ) = Σ i = 1 l n Σ m = 1 M u im ( n ) ( 9 ) (步骤4-11)
修改从属值矢量累积和以及从属值和运动矢量的累积乘积。
方程66W=W+w(n)V=V+w(n)×Δ(n)运动矢量h(n)由下面方程得到。
方程67 h ( n ) = V W
(步骤4-13)
计算全目标函数。
方程68
JJ’(n)=JJ’(n-1)+J’(n)(s)(步骤4-14)
确定用于确定对每一个输入发音的运动矢量计算的下列条件是否满足。
方程69 | JJ ' ( n - 1 ) - JJ ' ( n ) | JJ ' ( n - 1 ) ≤ δδ 如果否,处理返回到步骤4-2,以等待言语输入。如果是,终止匹配。
还是对于这种情况,输入言语重心校正量的影响能通过选择δ,S和δδ加以调整。
图30是表示第一和第二实施例的方块图。对第一实施例,执行步骤3-1—3-14,对第二实施例,执行步骤4-1—4-14。
4000表示一输入端,一系列作为在第n个输入发音上执行的特征提取结果的特征矢量Y1 A(n),…,YA I(n)输入到该输入端、5000代表一参考代码本,它储存由多个od发言者产生的代码矢量,结果它们可使用标号进行检索。
4200表示一瞬时运动矢量储存部分。4900表示一运动矢量储存部分。5100表示将参考代码本5000,瞬时运动矢量储存部分4200,以及运动矢量储存部分4900的内容相加的一相加器。
4100表示一瞬时运动矢量计算部分,它按照第一实施例中的步骤3-3—3-9计算Δm(n)(m=1,…,M)并且由通过输入端4000输入的内容和相加器5100的输出,按第二实施例中的步骤4-3—4-9计算Δ(n)。计算的瞬时运动矢量储存在瞬时运动矢量储存部分4200。当上述重复计算启动时,瞬时运动矢量储存部分4200的内容被初始化到0。使用这种结构,瞬时运动矢量储存部分的内容每次都被重写,在计算期间得到修改的瞬时运动矢量。
如果满足在步骤309或步骤409对于终止的条件,与最后由发言者A给出的第n个发音相匹配的瞬时运动矢量在瞬时运动矢量储存部分4200得到。如果确认瞬时运动矢量收敛,则一运动矢量被进行计算,过去输入的发音也反映在该计算中(下面描述)。
4400表示一从属值矢量累积和储存部分。4300表示将从属值矢量累积和储存部分4400的内容和瞬时运动矢量计算部分4100的输出相加的一相加器(从属值矢量和)。从属值矢量累积和储存部分的内容重写到修改的从属值矢量累积和。
4700表示一从属值和运动矢量累积乘积储存部分。4600表示一相加器。4500表示一乘法器,它将瞬时运动矢量计算部分4100的输出(从属值矢量和)同瞬时运动矢量储存部分4200的内容相乘。该乘积同从属值和运动矢量的累积乘积储存部分4700在相加器4600处相加。这样,从属值和运动矢量的累积乘积储存部分4700重写到修改的从属和运动矢量的累积乘积。4800表示一除法器,而4900表示一运动矢量储存部分。除法器4800用从属值矢量的累积和储存部分4400的内容去除从属值和运动矢量的累积乘积储存部分4700的内容。具体地,在第一实施例,运动矢量hm(n)按步骤3-1,3-2,以及3-10—3-14进行计算。在第二实施例,运动矢量h(n)按步骤4-1,4-2以及4-10—4-14进行计算。这样的操作被重复进行,每次输入一输入的发音。一个适合发言者A的典型矢量能够借助于将这样得到的运动矢量加到参考代码本的输出而得到。
虽然说明集中在一代码本对一发言者的匹配,反过来,也可能使一发言对一参考代码本匹配,即能执行发言者的归一化。具体地,方程46和47能变成:
方程70 J ' ( n ) = Σ i = 1 I n Σ m = 1 M u im ( n ) F d ( y A 1 ( n ) , μ m ' ( n ) ) = Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A i ( n ) , μ m ' ( n - 1 ) + Δ m ( n ) ) = Σ i = 1 I n Σ m = 1 M u im F ( n ) { y A i ( n ) - ( μ m ' ( n - 1 ) + Δ m ( n ) ) } T {yA i(n)-(μm’(n-1)+Δm(n))} = Σ i = 1 I n Σ m = 1 M u im F ( n ) { y A 1 ( n ) - Δ m ( n ) ) - μ m ' ( n - 1 ) } T {(yA i(n)-Δm(n))-μm’(n-1)}
以及           方程71 JJ ' ( m ) = Σ f = 1 n Σ i = 1 I n Σ m = 1 M u im ( r ) F d ( y A 1 ( r ) , μ m ' ( r ) ) = Σ r = 1 n - 1 Σ i = 1 I r Σ m = 1 M u im ( r ) F d ( y A 1 ( r ) , μ m ' ( r ) ) + Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A 1 ( n ) , μ m ' ( n ) ) = JJ ' ( n - 1 ) + Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A 1 ( n ) , μ m + h m ( n ) ) = JJ , ( n - 1 ) + Σ i = 1 I n Σ m = 1 M u im F ( n ) { y A 1 ( n ) - ( μ m ( n - 1 ) + h m ( n ) ) } T {yA i(n)-(μm(n-1)+hm(n))}=JJ’(n-1)+ Σ i = 1 I n Σ m = 1 M u im F ( n ) { ( y A 1 ( n ) - h m ( n ) ) - μ m ( n - 1 ) } T {(yA i(n)-hn(n))-μm(n-1)}因此,从YA i中减去hm能认为将一发言者归一化到一代码本。方程70和71分别相应于图30和31。如果图32的结构被用来给与它们,则方程72和73能被推导出来和方程70及71相关。
方程72和73 J ' ( n ) = Σ i = 1 I n Σ m = 1 M u im ( n ) F d ( y R 1 ( n ) ' , μ m ) = Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A i ( n ) + h m ( n - 1 ) + Δ m ( n ) , μ m ) = Σ i = 1 I n Σ m = 1 M u im F ( n ) { y A i ( n ) + h m ( n - 1 ) + Δ m ( n ) ) - μ m } T {(yA i(n)+hm(n-1)+Δm(n))-μm} JJ ' ( n ) = Σ n = 1 n Σ i = 1 I n Σ m = t M u im ( r ) F d ( y A i ( r ) ' , μ m ) = Σ r = 1 n - 1 Σ i = 1 I r Σ m = 1 M u im ( r ) F d ( y A i ( r ) + h m ( r ) , μ m ) + Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A i ( n ) + h m ( n ) , μ m ) = JJ ' ( n - 1 ) + Σ i = 1 I n Σ m = 1 M u im F ( n ) d ( y A i ( n ) + h m ( n ) , μ m ) =JJ’(n-1)+ Σ i = 1 I n Σ m = 1 M u im F ( n ) ( y A i ( n ) + h m ( n ) - μ m ) T · μ m {yA i(n)+hm(n)-μm(n))]
上述内容是这样一种情况,即所有由发言者A输入到本系统的过去的声音被用于匹配,但是存在着这样一种可能性,即在使用该发言者期间,情况会改变,而且在这种情况下,最好适应地使用某些时间以前的声音。那就是在图30,31,32等中的从属值矢量的累积和储存部分4400和从属值和运动矢量累积乘积储存部分4700用前述方法,用每一个确定周期的储存内容计算运动矢量,以重写代码本或修改发言者归一化的归一化矢量。
使用健忘系数α(0<α<1)改变方程54和66,以及74和75将导致这样一种情况,即当从属值矢量和瞬时运动矢量从某一过去时间进行计算时,则该过去时越长,乘与矢量的值越小。因此,输入越是接近目前时间,输入被更大地加数。
方程74和75
Wm=α×Wm+wm(n)
Vm=α×Vm+wm(n)×Δm(n)
W=α×W+w(n)
V=α×V+w(n)×Δ(n)
对于这样情况的结构,如图33和34所示,在从属值和运动矢量的累积乘积储存部分4700和相加器4600之间放置一个乘法器5400,而且在从属值矢量4600之间放置一个乘法器5400,而且在从属值矢量的累积和储存部分4400和相加器5500之间放置一乘法器5500,以及健忘系数从健忘系数储存部分5300输出到这些同矢量储存部分4700,4400相乘的乘法器5400,5500。
现在说明将在执行审查本发明效果的试验上进行。一参考代码提前以20个男发言者产生、连续的匹配用由一未知发言者的发音输入执行。
关于识别试验使用100个字,结果在无匹配情况下对20人形成84.2%的平均识别率。连续的匹配使识别率上升到88.7%。
按本发明实施例,虽然运动矢量被计算为h1,h2,hM,它们给出目标函数极端值,这些值可以用不合理的祖传方法或其他类似方法得到。而本发明实施例集中在一种情况,其中减小目标函数的hi是存在的,增大目标函数的hi可以依赖于目标函数定义得到。例如,当在本实施例中的J由-J替代时当然这将发生。此外,术语″加″和″减″已用在本实施例中,它们可以进行交换,因为伴随一负信号或相反的话,加就意味着减。
如上所述,本发明使使用小数量取样对具体发言者发声修改一代码本,或者归一化该发言者的发声成为可能,由此它遵守一参考代码本。因此它可能用少量的学习改善对于通信的通信质量以及对于识别的识别精度。
按本发明,一代码本使用内容未知的言语和一校正矢量来进行校正,该校正矢量由用同该言语相关的HMMS计算的通道概率加数,并且被取来使与代码本相关的量化失真降到最小。这使补偿在产生HMMS的时间和识别时间之间的环境条件方面的差异成为可能,因此,使言语识别设备对环境变化有抵抗力。
按照本发明,特征矢量使用内容未知的言语和一归一化矢量来进行校正的,该归一化矢量由用同该言语相关的HMMS计算的通道概率加数,并且被取来使与代码本相关的量化失真降低到最小,这使补偿在产生HMMS的时间和识别时间之间的环境条件方面的差异成为可能,因此,使言语识别设备对环境变化有抵抗力。

Claims (30)

1.一种矢量量化器包括:
一参考代码本,用于储存在一特征矢量空间中的若干典型矢量,使能使用相应的标号对它们进行检索;
一学习矢量储存装置,用于储存若干用于学习的矢量;
一目标函数计算装置,用于计算被定义为所说典型矢量和所说用于学习的矢量的函数的目标函数;
一运动矢量计算装置,用于计算运动矢量;以及
一匹配装置,用于将所说运动矢量与所说典型矢量相加取得新的典型矢量,其中:
通过将该输入矢量转换成标号或从属矢量对输入矢量进行编码,该从属矢量的分量,为用于所说新典型矢量的标号的所说输入矢量的从属值;以及
所说运动矢量计算装置计算与所说用于学习的矢量相关的目标函数的所说新典型矢量的最大值。
2.一种矢量量化器包括:
一参考代码本,用于储存在一特征矢量空间中的若干典型矢量,使能使用相应的标号对它们进行检索;
一学习矢量储存装置,用于储存若干用于学习的矢量;
一目标函数计算装置,用于计算被定义为所说典型矢量和所说用于学习的矢量的函数的目标函数;
一运动矢量计算装置,用于计算运动矢量;以及
一归一化装置,用于将所说运动矢量与输入矢量相比,其中:
输入矢量通过将该运动矢量与该输入矢量相加对输入矢量进行编码,以得到所说归一化输入矢量,以及将它们转换成标号或从属矢量进行编码,该从属量矢量的分量为用于该标号的所说输入矢量的从属值;以及
所说运动矢量计算装置当用于学习的所说计算所说目标函数的最大值。
3.一种矢量量化器包括:
一参考代码本,用于储存在一特征矢量空间中的若干典型矢量因此,它们中每一个能使用相关的标号进行检索;
一言语输入装置,用于输入言语;
一言语分析装置,用于执行对于所说输入言语的特征提取,以便将它转换成一特征矢量系列;
一矢量量化装置,用于将所说特征矢量转换成标号或一从属值矢量,其分量为所说用于典型矢量的特征矢量的从属值;
一目标函数计算装置,用于计算被定义为所说典型矢量和所说特征矢量系列的函数的目标函数;
一瞬时运动矢量计算装置,用于计算仅与目前输入发音有关的一运动矢量(瞬时运动矢量);
一从属值矢量和计算装置,用于计算在用于计算所说瞬时运动矢量的输入言语段表中的所说从属值的和(从属值矢量和);
一从属值和运动矢量乘积计算装置,用于计算所说为瞬时运动矢量和所说从属值矢量乘积的一矢量(从属值和运动矢量的乘积);
一从属值矢量的累积和储存装置,用于累积和储存过去的从属值矢量和;
一从属值和运动矢量的累积乘积储存装置,用于累积和储存过去的从属值和运动矢量的乘积;
一运动矢量计算装置,用于根据储存在所说从属值和运动矢量累积乘积储存装置中的从属值和运动矢量的过去的累积乘积,以及储存在所说从属值矢量的累积和存储装置中的从属值矢量的过去的累积和计算过去的运动矢量;以及
一匹配装置,用于将所说运动矢量与所说典型矢量相加,以得到新的典型矢量,其中所说瞬时运动矢量计算装置计算所说新典型矢量,使所说目标函数接近于和用于目前输入发音的特征矢量有关的极值,以及其中所说运动矢量计算装置计算使全目标函数接近于和用于过去输入发音的特征矢量有关的极值。
4.一种矢量量化器包括:
一参考代码本,用于储存在一特定矢量空间中的若干典型矢量,使它们中每一个能使用相关的标号进行检索;
一语言输入装置,用于输入言语;
一言语分析装置,用于执行对于所说输入言语的特征提取,以便将它转换成一特征矢量系列;
一矢量量化装置,用于将所说特征矢量转换成标号或一从属值矢量,其分量为所说用于典型矢量的特征矢量的从属值;
一目标函数计算装置,用于计算被定义为所说典型矢量和所说特征矢量系列的函数的目标函数;
一瞬时运动矢量计算装置,用于计算仅与目前输入发音有关的一运动矢量(瞬时运动矢量);
一从属值矢量和计算装置,用于计算在用于计算所说瞬时运动矢量的输入言语段表中的所说从属值的和(从属值矢量和);
一从属值和运动矢量乘积计算装置,用于计算所说为瞬时运动矢量和所说从属值矢量乘积的一矢量(从属值和运动矢量和乘积);
一从属值矢量的累积和储存装置,用于累积和储存过去的从属值矢量和;
一从属值和运动矢量的累积乘积存储装置,用于累积和存储过去的从属值和运动矢量的乘积;
一运动矢量计算装置,用于根据储存在所说从属值和运动矢量累积乘积存储装置中的从属值和运动矢量的过去的累积乘积,以及储存在所说从属值矢量的累积和存储装置中的从属值矢量的过去的累积和计算过去的运动矢量;以及
一归一化装置,用于将所说运动矢量与一输入矢量相加,其中,所说瞬时运动计算装置当目前输入矢量与所说运动矢量和被取代作为用于学习的一新矢量时计算使所说目标函数接近于和所说参考代码本相关的极值,以及其中当过去的输入矢量和所说运动矢量的和被取代作为用于学习的新矢量时,所说运动矢量计算装置计算使全目标函数接近于和所说参考代码本相关的极值。
5.按权利要求1或2的矢量量化器,其中所说运动矢量计算装置得到用于每一个典型矢量的一运动矢量。
6.按权利要求1或2的矢量量化器,其中所说运动矢量计算装置得到用于所有典型矢量的一公用运动矢量。
7.按权利要求1的矢量量化器包括一个相加器,用于将一运动矢量和在参考代码本中的每一个典型矢量相加,其中矢量量化根据所说相加器输出执行。
8.按权利要求1的矢量量化器包括一个相加器,用于将一运动矢量和在参考代码本中的每一个典型矢量相加,从一个用于储存所说相加器输出的匹配代码本,其中矢量量化根据所说匹配代码本输出执行。
9.一种信号发射机包括发射由权利要求7或8的矢量量化器编码的标号的一标号发射装置以及一运动矢量发射装置。
10.一种信号发射机包括发射由权利要求8的矢量量化器编码的标号的一标号发射装置以及用于发射一匹配代码本的匹配代码发射装置。
11.一种信号接收机,包括一运动矢量储存部分,用于储存由权利要求9的信号发射机发射的运动矢量,一参考代码本,一相加器用于将由与一标号相关的所说参考代码本读出的一典型矢量同按照该标号由所说运动矢量储存部分读出的一运动矢量相加,以及一译码器,用于提供所说相加器的输出,作为用于所说标号的解码矢量。
12.一种信号接收机,包括一运动矢量储存部分,用于储存由权利要求9的信号发射机发射的运动矢量,一参考代码本,一匹配代码本,用于储存在所说参考代码中与标号相关的典型矢量同按照该标号由所说运动矢量储存部分读出的所说运动矢量的和,以及一解码器,用于提供在所说与标号相关的匹配代码本中的一代码矢量,该标号正被接收作为用于所说标号的一解码矢量。
13.一种信号接收机,包括一匹配代码本储存部分,用于储存由权利要求10的信号发射机发射的匹配代码本,以及一解码器,用于提供在所说与标号相关的匹配代码中的一代码矢量,该标号已被接收作为用于所说标号的一解码矢量。
14.一识别设备,包括权利要求1的矢量量化器,根据已经输入的每个特征矢量系列执行矢量量化,用于将它们转换成标号,以及用于按序将所说特征矢量系列转换成标号系列,一HMM储存装置,用于储存HMM于每一单元以便识别,其中每一标号的出现率被确定用于每一状态,以及一相似性计算装置,用于计算每一个所说HMMS的相似性,用于所说标号系列,用于与HMM相关的识别单元给出相似性的最大值,视作为识别结果。
15.一识别设备,包括权利要求1的矢量量化器,根据已经输入的特征矢量系列中之一个系列执行矢量量化,用于将它们转换成其分量是矢量的从属值的从属矢量,用于单独的标号,以及用于按序将所说特征矢量系列转换成所说从属矢量系列,一HMM储存装置用于储存用于每个单元的HMM,以用于识别其中每一个标号的出现概率被确定用于每个状态,以及一相似性计算装置,用于计算每一个所说HMMS的相似性,用于所说从属矢量系列,用于与HMM相关的识别单元给出相似性的最大值作为识别结果。
16.一矢量量化器包括:
一参考代码本储存装置,用于储存在一特征矢量空间中有限数量的典型矢量,使它们能使用指定的标号进行检索;
一矢量量化装置,用于使用所说参考代码本将每个特征矢量系列转换成一组与标号相关的从属值,以便将所说特征矢量转换成从属矢量系列;
一HMM储存装置,用于储存HMMS,对于它,所说标号出现概率(标号出现概率)以及一状态转移概率被确定采用于其每一状态;
一特征矢量系列出现率的计算装置,用于根据所说标号出现率和所说从属矢量,计算来自所说HMMS的特征矢量系列的出现率;
一通道概率计算装置,用于根据所说特征矢量出现率和所说HMM转移概率,计算在时间t的某点处某一状态的存在的概率;以及
一代码本校正装置,用于校正所说典型矢量,其中,所说代码本校正装置包括一校正矢量计算装置,用于校正所说典型矢量,以使来自由所说通道概率加数的所说参考代码本的特征矢量系列的量化误差的失真降到最小,以及被形成来校正所说典型矢量。
17.一种矢量量化器包括:
一参考代码本储存装置,用于储存在一特征矢量空间中有限数量的典型矢量,使它们能使用指定的标号进行检索;
一矢量量化装置,用于使用所说参考代码本,将所说特征矢量系列转换成一组与标号相关的从属值,以便将所说特征矢量转换成从属矢量系列;
一HMM储存装置,用于储存HMMS,对于它,所说标号出现概率(标号出现概率)以及一状态转移概率被确定来用于其每一状态;
一特征矢量系列出现率计算装置,用于根据所说标号出现率和所说从属矢量,计算来自所说HMMS的特征矢量系列的出现率;
一通道概率计算装置,用于根据所说特征矢量出现率和所说HMM转移概率,计算在时间t的某点处理一状态的存在的概率;
一相似性计算装置,用于计算用于每一个与所说特征矢量系列有关的所说每一个字的HMM的相似性;
一比较和确定装置,用于确定识别的结果;
一识别选择物可靠性计算装置,用于计算一种选择物的可靠性,用于由所说比较和确定装置得到的识别;
一代码本校正执行确定装置,用于指令该参考代码本的校正执行,如果所说用于识别的可靠性超过一预定的阈值;以及
一代码本校正装置,用于校正每个所说代码矢量,其中所说参考本代码校正装置包括一校正矢量计算装置,用于校正所说典型矢量,以使来自所说代码本的由所说通道概率加权的特征矢量系列的量化误差的失真降到最小,以及当由使用用于识别的选择物作为言语内容而言语的内容未知时被形成来校正所说参考代码本。
18.按权利要求1的一识别设备包括矢量量化器,根据已经输入的每个特征矢量系列执行矢量量化,用于将它们转换成标号,以及用于按序将所说特征矢量系列转换成标号系列,一识别模型储存装置,用于储存由一标号系列表示的识别模型,用于用于识别的每个单元,以及一距离计算装置,用于计算距离或在所说输入标号系列和每个所说识别模型之间的类似性,用于与识别模型相关的识别单元给出所说距离的最小值或所说类似性的最大值,视作为识别的结果。
19.按权利要求1的一识别设备,包括矢量量化器,根据已经输入的特征矢量系列中之一个系列执行矢量量化,用于将它们转换成其分量是各个标号的矢量从属值的从属矢量,以及用于按序将所说特征矢量系列转换成所说从属矢量系列,一识别模型储存装置,用于储存表一标号系列识别模型,用于用于识别的每个单元,以及一距离计算装置,用于计算距离或在所说输入标号系列和每个所说识别模型之间的类似性,用于与识别模型相关的识别单元给出所说距离的最小值或所说类似性的最大值视作为识别结果。
20.按权利要求2的矢量量化器,包括将一运动矢量和输入矢量相加的一相加器,其中矢量量化根据所说相加器输出执行。
21.一信号发射机包括一标号发射装置,用于发射由权利要求20的矢量量化器编码的标号,以及一运动矢量发射装置,用于发射一运动矢量。
22.一种信号接收机,包括一运动矢量储存部分,用于储存由权利要求21的信号发射机发射的运动矢量,一参考代码本,一相减器,按照接收到的一个标号,从由所说参考代码本的读出的一典型矢量减去从所说运动矢量储存装置读出的一运动矢量,以及一解码器,用于提供所说相减器输出作为用于所说标号的解码矢量。
23.一种识别设备,包括权利要求2的矢量量化器,根据已经输入的每个特征矢量系列的一归一化矢量执行矢量量化,用于将它们转成标号系列,并用于按序将所说特征矢量系列转换成一标号系列,一HMM储存装置,用于储存一HMM,用于用于识别的每一单元,其中,每一标号的出现概率被确定来自于每个状态,以及一相似性计算装置,用于计算用于所说从属矢量的每个所说HMMS的相似性,用于与HMM相关的识别单元给出相似性的最大值视作识别结果。
24.一种识别设备,包括按权利要求2的矢量量化器,根据已经输入的每个特征矢量系列的归一化矢量执行矢量量化,用于将它们转换成其分量是各个标号的矢量的从属值的从属矢量,以及用于按序将所说特征矢量系列转换成所说从属矢量系列,一HMM储存装置用于储存用于每个单元的HMM,以用于识别,其中每一个标号的出现概率被确定用于每个状态,以及一相似性计算装置,用于计算每一个所说HMMS的相似性,用于所说从属矢量系列,用于与HMM相关的识别单元给出相信性的最大值作为识别结果。
25.一矢量量化器包括:
一参考代码本储存装置,用于储存在一特征矢量量空间中有限数量的典型矢量,使它们能使用指定的标号进行检索;
一矢量量化装置,用于使用所说参考代码本将每个特征矢量系列转换成一组与一标号相关的从属值,以便将所说特征矢量转换成从属矢量系列;
一HMM储存装置,用于储存HMMS,对于它,所说标号出现概率(符号出现率)以及一状态转移概率被确定用于其每一状态;
一特征矢量系列出现率计算装置,用于根据所说标号出现率和所说从属矢量,计算来自所说HMMS的特征矢量系列的出现率;
一通道概率计算装置,用于根据所说特征矢量出现率和所说HMM转移概率在时间t的某点处某一状态的存在的概率;
一特征矢量校正装置,用于校正所说特征矢量;以及
一归一化矢量调整装置,用于计算用于校正所说特征矢量的一归一矢量,其中所说归化矢量调整装置包括一校正矢量计算装置,用于校正所说典型矢量,以使来自由所说通道概率加权的所说参考代码本的所说特征矢量系列的量化误差的失真降到最小,以及被形成来校正所说典型矢量。
26.一矢量量化器包括:
一参考代码本储存装置,用于储存在一特征矢量空间中有限数量的典型矢量,使它们能使用指定的标号进行检索;
一矢量量化装置,用于使用所说参考代码本,将所说特征矢量系列转换成一组与标号相关的从属值,以便将所说特征矢量转换成从属矢量系列;
一HMM储存装置,用于储存HMMS,对于它,所说标号出现概率(标号出现概率)以及一状态转移概率被确定来用于其每一状态;
一特征矢量系列出现率计算装置,用于根据所说标号出现率和所说从属矢量,计算来自所说HMMS的特征矢量系列的出现概率;
一通道概率计算装置,用于根据所说特征矢量出现概率和所说HMM转移概率,计算在时间t的某点处某一状态的存在的概率;
一相似性计算装置,用于计算用于每一个与所说特征矢量系列有关的所说每一个字的HMM的相似性;
一比较和确定装置,用于确定识别的结果;
一识别选择物可靠性计算装置,用于计算由所说比较和确定装置得到的识别选择物的可靠性;
一代码本校正执行确定装置,用于指令该参考代码本的校正执行,如果所说用于识别的可靠性超过一预定的阈值;
一特征矢量校正装置,用于校正所说特征矢量;以及
一归一化矢量调整装置,用于计算用于校正所说特征矢量的一校正矢量,其中所说参考代码本校正装置包括一校正矢量计算装置,用于校正所说典型矢量,以使来自由所说通道概率加权的所说参考代码本的所说特征矢量系列的量化误差的失真降到最小,以及当由使用识别的选择物作为言语的内容而言语的内容未知时被形成来校正所说参考代码本。
27.一种识别设备,包括权利要求2的矢量量化器,根据已经输入的每个特征矢量系列的一归一化矢量执行矢量量化,用于将它们转换成标号系列,并用于按序将所说特征矢量系列转换成一标号系列,一识别模型储存装置,用于储存由一标号系列表示的一识别模型,用于用于识别的每一单元,以及一距离计算装置,用于计算在所说输入标号系列和每一个所说识别模型之间的距离或类似性,用于与识别模型相关的识别单元给出所说距离的最小值或所说类似性的最大值视作为识别结果。
28.一种识别设备,包括按权利要求2的矢量量化器,根据已经输入的每个特征矢量系列的归一化矢量执行矢量量化,用于将它们转换成其分量是各个标号的矢量的从属值的从属矢量,以及用于按序将所说特征矢量系列转换成所说从属矢量系列,一识别模型储存装置,用于储存由一标号系列表示的一识别模型,用于用于识别的每一单元,一距离计算装置,用于计算在所说从属矢量系列和每一个所说识别模型之间的距离或类似性,用于与识别模型相关的识别单元给出所说距离的最小值或所说类似性的最大值视作为识别结果。
29.按权利要求1的矢量量化器包括一暂存装置,用于顺序地,实时地储存一输入信号的预定的固定的信号部分,其中,对每一个使用所说暂存装置内容作为用于学习矢量的所说信号部分执行一代码本或一运动矢量的顺次匹配。
30.按权利要求2的矢量量化器,包括一暂存器装置,用于顺序地,实时地储存一输入信号的预定的固定的信号部分,其中,对每一个使用所说暂存装置内容作为用于学习的矢量的所说信号部分顺序地计算用于校正输入信号的运动矢量。
CNB951032356A 1899-12-30 1995-02-01 矢量量化器 Expired - Fee Related CN1149533C (zh)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
JP053,973/1994 1899-12-30
JP073,593/1994 1899-12-30
JP01094494A JP3144203B2 (ja) 1994-02-02 1994-02-02 ベクトル量子化装置
JP010,944/1994 1994-02-02
JP010,944/94 1994-02-02
JP6053973A JPH07261790A (ja) 1994-03-24 1994-03-24 音声認識装置
JP053,973/94 1994-03-24
JP7359394 1994-04-12
JP073,593/94 1994-04-12
JP222,269/94 1994-09-16

Publications (2)

Publication Number Publication Date
CN1133467A true CN1133467A (zh) 1996-10-16
CN1149533C CN1149533C (zh) 2004-05-12

Family

ID=34396805

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB951032356A Expired - Fee Related CN1149533C (zh) 1899-12-30 1995-02-01 矢量量化器

Country Status (1)

Country Link
CN (1) CN1149533C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593519B (zh) * 2008-05-29 2012-09-19 夏普株式会社 检测语音关键词的方法和设备及检索方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593519B (zh) * 2008-05-29 2012-09-19 夏普株式会社 检测语音关键词的方法和设备及检索方法和系统

Also Published As

Publication number Publication date
CN1149533C (zh) 2004-05-12

Similar Documents

Publication Publication Date Title
CN1159704C (zh) 信号分析装置
CN1145142C (zh) 矢量量化方法和语音编码方法及其装置
CN1156822C (zh) 音频信号编码方法、解码方法,及音频信号编码装置、解码装置
CN1162838C (zh) 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN1242378C (zh) 音频编码解码系统
CN1205603C (zh) 在用于宽带信号编码的代数码本中索引脉冲位置和符号的方法和设备
CN1131507C (zh) 音频信号编码装置、解码装置及音频信号编码·解码装置
CN1151573A (zh) 声音识别方法,信息形成方法,声音识别装置和记录介质
CN1245706C (zh) 多模式语音编码器
CN1331826A (zh) 可变速率语音编码
CN1237502C (zh) 生成声音模型的方法、装置和生成声音模型的计算机程序
CN1331825A (zh) 周期性语音编码法
CN1842702A (zh) 声音合成装置和声音合成方法
CN1632864A (zh) 扩散矢量生成方法及扩散矢量生成装置
CN1160703C (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN1228866A (zh) 语音处理系统及方法
CN1338096A (zh) 用于分析-合成celp型语音编码的自适应窗
CN1734445A (zh) 用于对话的方法、装置和程序及其中存储程序的存储介质
CN1808414A (zh) 学习、识别和生成数据的方法和设备以及计算机程序
CN1091906C (zh) 模式识别方法和系统以及模式数据处理系统
CN1465043A (zh) 语音识别装置和语音识别方法
CN1515077A (zh) 数字地图形状矢量编码方法和位置信息发送方法
CN1462428A (zh) 语音处理装置
CN1898723A (zh) 信号解码装置以及信号解码方法
CN1471078A (zh) 字识别设备、字识别方法和字识别程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CI01 Correction of invention patent gazette

Correction item: Priority

Correct: Item 4:1994.09.16 JP 222269/1994

False: 3 items

Number: 19

Page: 483

Volume: 20

CI03 Correction of invention patent

Correction item: Priority

Correct: Item 4:1994.09.16 JP 222269/1994

False: 3 items

Number: 19

Page: The title page

Volume: 20

COR Change of bibliographic data

Free format text: CORRECT: PRIORITY; FROM: 3 TO: NO. 4:1994.9.16 JP 222269/1994

ERR Gazette correction

Free format text: CORRECT: PRIORITY; FROM: 3 TO: NO. 4:1994.9.16 JP 222269/1994

C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee