本实施例论述发言者的归一化或代码本的匹配。具体地,本发明涉及一种方法,如早先所述,在无监控基础上,仅仅根据发言者的几个欲被识别的声音,借助于校正赖于扬声器的输入矢量或借助于赖于该发言者的代码本的典型矢量,它能解决若干问题(即该系统不教导什么字、句子等,该扬声器就已经发音)。
一代码本是由组合一组从许多发言者的发声得到的特征矢量建立起来的。组合方法包括所谓硬组合,其中,每一个特征矢量被指派到仅一个组,以及所谓模糊组合,其中,按照用于该组的特征矢量的从属值,每一个特征矢量被指派到每一组。对于硬组合方法,有一种称为LGB方法的算法。对于模糊组合,使用已知的方法,例如模糊K-装置方法。虽然本发明既能使用硬组合,也能使用模糊组合,硬组合能看成是模糊组合的一种特殊情况。
模糊组合执行如下,
一系列数字y1,y2…,yn,…,yN被分派到从多个扬声器发声得到的特征矢量。这点是用来决定一重心矩阵V=[u1,u2,…,uM]以及一从属矩阵U=[Unm],结果下列实体函数最小,使Un1+Un2+…Unm=1,对于一组m,这里Unm代表一特征矢量y的成员数值(m=1,…,M)而m代表该组m的一重心矢量。
方程9
这由在矩阵V和U上交替地重复一种操作来实现,其中该矩阵V式U中之一是固定的,而当使用其他矩阵时,实体函数J最小。特别地,固定V,以及作为δJ/δU=0对U的解得到U′的操作,固定U,以及作为δJ/δV=0对V的解得到V′的操作,以及建立U=U′和V=V′作为新U和V的操作交替地重复,直到获得收敛为止。F代表模糊,并且F>1·F值越大,组间模糊越大。
模糊组合在下面步骤中执行,这里
d(yn,μm)=(yn-μm)T(yn-μm)(步骤1-1)
组数,计算循环数,以及实体函数值分别赋于M,S=0,以及J(0)=1,而成员数矩阵U=[Unm]的初始值U(o)被适当地给定。(步骤1-2)
我们赋于S=S+1(步骤1-3)
一组m(m=1,…,M)的平均矢量μm(s)由下面方程得到
方程10 (步骤1-4)
每个点到组的从属矩阵用下面方程进行计算
目标函数计算如下,
方程12 (步骤1-6)
确定下列用于确定的条件是否满足
方程13 如果否,处理转到步骤1-2。如果是,处理终止。
有一个提前定义的适当小正数。该值越小,计算重心的精度越高,然后收敛时间将更长。
在上述步骤中,方程10由对μm(S-1)解|J(S-1)V|μm(S-1)|=0得到,而方程11用μm(s-1)解下列方程得到,这里有一个拉格朗日的不确定因子。
方程14
此外,如果模糊F-1>1+0,1/(F-1)->。当μm(S-1)靠近yn时,
d(yn,μm (S-1))<d(yn,μh (S-1))对h≠m
d(yn,μm (S-1))=d(yn,μh (S-1))对h=m因此,
{d(yn,μm (S-1))/d(yn,μh (S-1))}1/(F-1)->0对h≠m
{d(yn,μm (S-1))/d(yn,μh (S-1))}1/(F-1)=l对h=m则,方程15 硬组合就这样执行。
硬组合在执行模糊组合时给出Unm(S)=L(n),m(s),这里L(n)代表紧靠yn的标号。δij代表克罗尼柯增量。δij=1,如果i=j,以及δij=0时,如果i≠j。因此,上述程序对硬组合情况将由下面取代。
首先,目标函数是:
方程16
在此情况下,组合如下执行。(步骤2-1)
我们赋S=0以及J(0)=1(步骤2-2)
我们赋S=S+1(步骤2-3)
一组(m=1,……,M)的平均矢量μm(S)由下面方程取得
方程17 这里|Cm|代表包括在组m中的矢量的整数。(步骤2-4)
紧靠每个点的重心对每个点的组进行计算。
方程18 步骤(2-5)
目标函数计算如下
方程19 (步骤2-6)
确定用于确定的下列条件是否满足。
方程20 如果否,处理转到步骤2-2。如果是,处理终止。
如上所述产生一代码本。这样产生的代码本适合发音者A的发声。
该点是将重心μm(S)(m=1,……M)转换成紧靠发音者A的发声的μm′。按照本发明第一实施例,这是由赋μm′=μm=hm以及从发言者A的发声寻求最佳hm执行此转换完成的。特别地,这能借助于寻求给出一适当小的解的hm来完成:
方程21 这里用于匹配代码本的从发言者A的发声得到的特征矢量一系列数字yA 1,yA 2,…,yA I表示。
如上所述,按照下面步骤定义d(y,n)T(y-n)将给出hm·S代表确定上限的一个值,用作操作循环数。(步骤3-1)
从属矩阵U=[Unm]的初始值U(0)由下式给出:
方程22 这里组数由M表示;计算循环数S=0;目标函数值J(o)=∞;以及hm(o)=0(m=1,…,M)。(步骤3-2)
我们赋S=S+1(步骤3-3)
一运动矢量hm(S)(m=1,…,M)由下面方程得到。
方程23 (步骤3-4)
对于组的每个点学习用矢量的从属矩阵用下面方程计算。
方程24 :1≤m≤M,1≤1≤N(步骤3-5)
目标函数计算如下。
方程25 (步骤3-6)
确定用于确定的下列条件是否满足
方程26 如果否,处理返回步骤3-2,如果是,处理终止。
步骤3-6中的δ是一个适当小的数,它取决于代码本重心接近用于学习的声频输入的程度,该代码本是准备用作参考值的。如果δ小而S大,代码本将接近由仅使用用于发声的组合得到的声频输入。当用于学习的发声数量小时,重心的分布过偏用于学习的发声,而这是可取的。因此,对取决于用于学习的发声数量的δ和S必须选择适当的幅值。
当用于学习的发声数量小时,在目标函数(方程21)中的hm对m=1,…,M各种值最好保持共用。本发明的第二个实施例是该装置的一个例示,其中h=h1=h2=…,hM,而实体函数是:
方程27 h从下面步骤取得。(步骤4-1)
从属矩阵U=[Unm]的初始值U(o)由下式给出:
方程28 1≤m≤M,1≤n≤N这里组数由M表示;计算循环数S=0;目标函数值J(o)=∞;以及hm(o)=0。(步骤4-2)
我们赋S=S+1。(步骤4-3)
运动矢量h(S)由下面方程得到。
方程29 (步骤4-4)
对于组的每个点(学习用矢量)的从属矩阵采用下面方程计算。
方程30 (步骤4-5)
目标函数计算如下
方程31 (步骤4-6)
确定用于确定的下列条件是否满足。
方程32 如果否,处理返回到步骤4-2。如果是,处理终止。
再就这种情况而论,用于学习的发声对重心校正量的影响能通过选择δ和S加以调整。
图5是表示本发明第一和第二实施例结构的方块图。对于第一实施例,执行步骤3-1—3-6,对第二实施例,执行4-1—4-6步骤。50表示一输入端,用来产生一代码本的学习用矢量yA 1,…,YA N输入到该端上。51表示一缓冲存储器,用于储存学习用矢量YA 1,…,YA No54表示一个参考代码本,其中按照允许它们使用标号检索方式,储存从多个扬声器产生的代码矢量。53表示一运动矢量储存部分,而55表示一个相加器,它将参考代码本54的内容同运动矢量储存部分53的内容相加。52表示运动矢量计算部分,它根据缓冲存储器51的内容和相加器55的输出按第一实施例中的步骤6-1—6-6计算hm(m=1,…,M),并且在第二实施例的步骤4-1—4-6上作计算。计算的运动矢量被储存在运动矢量存储部分53中。当上述重复计算起动时,运动矢量储存部分53的内容被初始化到0,按照这种结构,在计算期间,运动矢量储存部分53的内容都重写,每次一运动矢量要进行校正。如果满足步骤3-6或步骤4-6中的收敛条件,在运动矢量储存部分53中最终得到匹配于发言者A的运动矢量。将这样得到的运动矢量附加到参考代码本的输出就能得到适合于该发言者A的典型矢量。
图6表示一匹配代码本56插在相加器55和运动矢量计算部分52之间的情况。很明显,这种结构将最终提供一匹配代码本作为适合于扬声器A的代码本。
图7和图8表示使用上述原理的一种通信设备的发射的实施例。
图7表示采用了图5中所示的匹配一扬声器的方法。方块1,2,3,4,6和7与图1中是有相同编号的方块按相同的方式操作。图7中的方块51-54与图6中具有相同编号的方块按相同的方式操作,并多半用作发言者匹配。每次发言者替换一新成员,代表新发言者与该参考代码本不一致的运动矢量被进行弄清,并且如上所述,被储存在运动矢量储存部分53中。当开关4的输出和代码本5的内容在图1所示的系统中进行比较时,图7表示开关4的输出同相加器55输出相比执该相加器55的输出可以为是已经对发言者偏差进行补偿的一个参考代码本。
图8表示使用如图6所示的用于发言者匹配的方法的一种情况。对于这种情况,如上所述,插入一匹配代码本。比较器6比较开关中的输出以及该匹配代码字的输出。这是由于该匹配代码字储存是对扬声器补偿结果的典型矢量。
图9-12表示用来从一系列如上所述接收到的标号再生初始取样系列的一种接收机的实施例。
参照图9,同发言者有关的运动矢量首先被接收到,并提前储存在一运动矢量存储部分中,因此,相应于接收的标号的矢量从参考代码本读出。这样读出的代码矢量根据上述运动矢量储存部分的内容由相加器93进行补偿,而方块10-13执行类似于上述的那些处理,以便获得一解码信号。
图10表示提供一种匹配代码本101的情况。具体地,相加器93的输出是运动矢量92的内容与参考代码本18的内容的和,用来对所有的代码矢量进行计算,并提前储存在匹配代码本中,并且该匹配代码本被用来替代图1中的代码本9。
图11表示一代码字自身而不是运动矢量从发射机提前发送的情况。具体地,由一例如在图8中所示的发射机产生的匹配代码本的内容被传送到一代码本111并储存在其中。这并不是说该代码本81相应于图1中的代码本9。
图12和图13表示实施例,其中,如上所述的用于发言者匹配的方法应用到声音的识别。
图12表示在图5中的该方法的一种应用,其中元件51-55执行类似于图5中的那些元件的功能。因此,在执行发言者匹配之后,相加器55的输出被用来替代图2中的代码本21。
图13表示在图6中的该方法的一种应用,其中元件51-56执行类似于图6中那些元件的功能,因此,在执行发言者匹配之后,匹配代码本56的输出被用来替代图2中的代码本21。
现在将描述本发明的其他实施例。
用一计算公式计算乘积的和或累加,以取得一系列特征矢量的出现率受到等于代码本尺寸的整数1-M的限制。为降低计算量,在多数情况中使用小的数字。在本实施例中,该限制范围用字母K表示。
图18是示意说明按本发明的代码本校正器的方块图。
401表示一校正言语储存部分,它储存一发言者以后称作为用于校正的言语的R个(r=1~R)已知言语Sr(以后称作为校正言语)(该言语内容对该代码校正器是提前得知的)。对发言者而言,参考代码本(以后也简称代码本)是加以校正的,即使用言语识别的发言者。该言语被用来顺序地校正代码本。这些校正言语可以是任何字或句子,只要其内容是已知的。
402表示一特征提取部分,它将校正言语Sr转换成一系列固定间隔的特征矢量Yr=Yr1,Yr2,…,Yrt,…,Yrt。Tr表示在校正言语Sr被转换成一系列特征矢量时数据的帧数。
403表示一校正特征矢量储存部分,它使用特征提取部分402储存一系列由储存在校正言语储存部分401中的校正言语Sr的r(r=1-R)个发声而得到的特征矢量Yr。
404表示一数据控制部分,它根据关于在该R个发声中的那一个发声(r)是目前处理的,以及该第r个发声的内容是什么的确定来控制下面的处理。在下面的说明中,术语″(r)″意味第r个发声的内容(发声内容的HMM的号数W)。
405表示一模糊矢量量化部分,它使用由数据控制部分404送出的发声号数r,从校正特征矢量储存部分403读出一系列特征矢量Yr,用第一到第K顺序的标号,控制递增距离dr(t,m)对储存在下面描述的代码本储存部分406中的矢量C1-Cm编码,以及用于各代码矢量的特征矢量Yt的从属值将它们转换成距离矢量drt=(dt1,dt2,…,dtk),标号矢量Ort=(Ut1,Ut2,…,Utk)以及从属矢量Urt=(Ut1,Ut2…,Utk),在时间t的不同的点上替换特征矢量Yrt,该各代码矢量是由用于特征矢量Yt的标号组进行检索的。并将特征矢量Yrt的系列Yr转换成一系列距离矢量Dr=dr1,dr2,…,drT一系列标号矢量Or=Or1,Or2,…,OrT,以及一系列成员数矢量Ur=Ur1,Ur2,…,UrT。
406表示代码本储存部分,用于存储代码矢量Cm,结果它们能使用给定的标号m进行检索,代码矢量由模糊矢量量化部分405用于矢量量化。
407表示一HMM储存部分,它储存按欲识别的字的号数W提前产生的HMM,状态转换概率矩阵A和标号出现概率矩阵B被储存来用于每一个欲识别的字。因此,在第W位置的HMMλW由λw{AwBw}表示。
408表示一代码校正部分,它使用校正言语和在某些由HMMS及时计算的点中处于某些状态的HMMS的概率校正代码储存部分406中的代码矢量Cm,语HMMS对应于储存在HMM存储部分407中的校正语言,以便使由与代码本相关的通道概率加数的一系列特征矢量的量化误差的失真降低到最小,并将取得作为校正结果的新代码矢量C′m转移到代码本储存部分406。
409表示一校正收敛确定部分,当代码矢量用校正言语校正体,它确定收敛的状态。如果满足收敛的确定条件,则它使校正操作终止,而如果否,则它使校正代码矢量重复直到满足该条件为止。
本发明的特征在于代码校正部分408的结构,其中,提供的言语内容是已知的,使用由对应言语内容的HMMS计算的通道概率,以便使由与代码本相关的通道概率加数的一系列特征矢量的量化误差的失真降低到最小。
图19是表示代码本校正部分的具体结构的方块图。
终端1-9连接到图18中的元件。终端1和7连接到代码本储存部分406。终端1接收代码本C,而终端7传送校正的代码本C′。终端5和6连接到HMM储存部分407。终端5接收对应于第r个字的HMM的状态转移概率矩阵Aword(r)。终端6接收上述的标号出现概率矩阵Bword(r)。终端2、3和4连接到模糊矢量量化部分405,以便接收距离矢量Dr系列,标号矢量Or系列,以及用于第r个字的从属矢量Ur系列。端8连接到校正收敛确定部分409,并传送一个用于确定收敛的平均目标函数值J于它。无需说,该值可以用附加各种目标函数得到,而不用其平均值。端9连接到数据控制部分404,以便接收关于位置(r)的信息,这里存在目前校正言语数据,并且当r=R时,计算校正矢量C和平均目标函数值J。
代码本校正部分408,即图19,使用上述交换的信息进行操作。
501表示一特征矢量系列出现率计算部分,它计算在时间t对每一个点的特征矢量Wi(t)的出现率,以及根据从属值计算HMMS的每个状态i,以及根据距离矢量系列,标号矢量系列,从属矢量系列计算标号出现概率,以及计算在端点2、3、4和6接收到的标号出现概率矩阵,以便得到一特征矢量出现率矩阵Ω。
502表示一通道概率计算部分,它计算是在时间t某个点处某种状态i的HMM的概率的通道概率ri(t),以及每个状态i,以得到一通道概率矩阵。
503表示一校正矢量分母/分子计算部分,它计算校正矢量计算方程的分母和分子。
504表示一校正矢量分母/分子储存部分,它储存对于由校正矢量分母/分子计算部分503计算的校正矢量计算公式的分母和分子,供下面描述的校正矢量计算部分之用。
505表示一目标函数值计算部分,如上所述它按照方程35,使用通道概率ri(t),从属矢量Ur t,以及距离矢量dr t计算用于确定收敛的目标函数值Jr。 方程35
506表示一目标函数值储存部分,它根据量R储存由目标函数值计算部分505接收的目标函数值Jr,R相应于用于校正的字的总数。这并非说它可以累加那些值而不是储存它们。
在上述操作在R校正字上执行之后(终端8信号″R″),将执行下面的操作。
507表示一校正矢量计算部分,根据校正矢量计算公式,它从对于储存在校正矢量分母/分子储存部分中的校正矢量的分母和分子得到一组校正矢量ΔC。
508表示一校正代码矢量计算部分,它使用从终端1接收的未校正的代码字C的代码矢量值及由校正矢量计算部分507得到的校正矢量△C计算校正的代码本C′的代码矢量值,并通过终端7将它们传送到代码矢量储存部分406。
509表示一平均目标函数值计算部分,它由平均所有目标函数值得到一平均目标函数值Jave,并通过终端8将其传送到校正收敛确定部分409。
按本发明的该代码本校正部分的结构表示如下。一般地说,该结构可按两种方法使用。一种方法是用于校正该代码本的代码矢量的校正矢量对单独组是分别得到的,另一种方法是得到共用的校正矢量。
前一种对单独组分别得到校正矢量的情况将参照在图20-23中表示的流程图进行描述,这些图说明代码本校正操作的执行情况。
在步骤601,校验用于校正的一发言者的内容已知的言语Sr是否储存在校正言语储存部分401中。如果是,处理进到下一步骤,而如果否,如602所示,储存校正言语。步骤603,相应于使用在特征提取部分402的已知的特征矢量提取装置将校正言语Sr转换成特征矢量Yr,并根据校正言语的r=1~R发声执行操作。所得到的特征矢量,如604所示,储存在校正特征矢量储存部分403中。
下面操作将重复,直到确定该校正已经达到收敛。首先,为对以下步骤作准备,在步骤605,对用于校正矢量的分母和分子的缓冲寄存器清零。在步骤606或607,读出在校正言语数据中的特征矢量Yr系列,而在步骤608,根据一已知方法,模糊矢量量化部分405和代码矢量储存部分406执行矢量量化,以便计算从属矢量Ur系列和标号矢量Or系列。
在步骤609,即在图21中,在步骤707按照计算公式(方程36)对t=1-Tr以及i=1~T执行计算在特征矢量系列出现率计算部分501中的特征矢量出现率Wi(t)。
方程36 或
在步骤610,使用已知的前向/反向算法,通道概率计算部分502计算该通道概率ri(t)。如在技术中熟悉的,在仅考虑最佳通道的Viterbi算法中,该Viterbi算法可替代使用。
在步骤611,即在图22中,在步骤803,对所有代码Cm(m=1-M)重复校正矢量分母/分子计算部分503的操作,直到特征矢量Yr第r系列的帧长度Tv终止为止,以及在步骤806,计算相应第r个发声内容的HMM的状态I的数量(在步骤809的条件满足)。在步骤810,使用用于分母的方程37和用于分子的方程38计算对于校正矢量计算公式的分母和分子。对于每个标号m,方程37和38都是取得校正矢量计算公式(方程39)分母和分子的方程。
方程37,38,39
ΔCr m_denom和ΔC1r m_numer分别代表一个计算公式的分母和分子,以便得到用于第r字的第m组的一校正矢量ΔCm。
当所有帧长度Tr和数I终止时(在步骤806和803的条件已被满足),则这部分的计算将被终止。
重复操作步骤608-611,直到在步骤612确定已选择了最后的特征矢量YR的系列,即对于整个特征矢量Yr系列(r=1-R),按整个校正言语计算用于每个代码矢量的校正矢量计算公式的分母和分子。然后,在步骤613-615,即在图9中,计算校正矢量ΔC={ΔC1,ΔC2,…,Cm}组以及校正的代码本C′={C1′,C2′,…,Cm′}。
如903所示,在步骤613,即步骤904,使用校正矢量计算公式的分母和分子,根据方程40,得到用于每一组的校正矢量ΔCm。
方程40
一旦得到校正矢量ΔC的组,它可被附加到未校正代码本C的代码矢量(614,即905),之后该未校正的代码本C由校正的代码本C′取代作为一新的代码本C(615,即906)。
在步骤616将确定,对用于收敛的一预定条件,校正是否已达到收敛。如果是,该处理终止,并且在那个体内可用的代码本被用作用于该发言者的代码本。如果确定收敛未达到,处理返回步骤605,并重复,直到取得收敛。
现在,将参照在图20,20,24和25中所示的流程图描述对所有组取得公用校正矢量的后一种情况,图25说明代码本校正操作的执行。
在步骤601,校验用于校正的发言者的内容已知的言语Sr是否储存在校正言语储存部分401中。如果是,处理进到下一步骤,而如果否,如602所示,储存校正言语,步骤603,相应于使用在特征提取部分402的已知的特征矢量提取装置将校正言语Sr转换成特征矢量Yr,并根据校正言语的r=1-R发声执行操作。所得到的特征矢量,如604所示,储存在校正特征矢量储存部分403中。
下面操作将重复,直到确定该校正已经达到收敛。首先,为对顺序的步骤作准备,在步骤605,对用于校正矢量的分母和分子的缓存器清零。在步骤606或607,读出在校正言语数据中的特征矢量Yr系列而在步骤608,根据一已知的方法,模糊矢量量化部分405和代码矢量储存部分406执行矢量量化,以便计算距离矢量Dr系列,从属矢量Ur系列,以及标号矢量Or系列。
在步骤609,即在图21中,在步骤707,按照上述计算公式(方程36),对t=1-TY以及=1-I执行计算在特征矢量系列出现率计算部分501中的特征矢量出现率Wi(t)。
在步骤610,使用已知的前向/反向算法,通道概率计算部分502计算该通道概率Yi(t)。如在技术中熟悉的,在仅考虑最佳通道的Viterbi算法中,该Viterbi算法可替代使用。
在步骤611,即在图24中,对所有代码Cm(m=1一M)重复校正矢量分母/分子计算部分503的操作,直到特征矢量Yr第r个系列的帧长度Tr经过步骤1003,以及相应于第r个发声的内容的HMM的状态I的数在步骤1006计数(满足步骤1009的条件)。在步骤1010,使用用作分母的方程31和用作分子的方程42计算对于校正矢量计算公式的分母和分子。方程41和42是取得计算公式(方程43)的分母和分子的方程,以得到用于所有标号的一公用校正矢量。
方程41,42,43
ΔCr m_denem和ΔCr m_numer代表得到用于所有第r个字的组的一公用校正矢量的计算公式的分母和分子。
当所有的帧长度Tr和数I终止时(已满足步骤1006和1003的条件),这部分的计算也将终止。
在步骤608-611操作将重复,直到在步骤612确定已选定特征矢量YR的最后系列为止,即对于特征矢量Yr(r=1~R)的整个系列,按照用于整个校正言语的公用代码矢量,计算校正矢量计算公式的分母和分子。之后,在步骤613-615,即在图25中,计算该公用校正矢量ΔC和校正的代码本C′={C1′,C2,…,CM′}。
在步骤613,即步骤1101,按照方程44,使用校正矢量计算公式的分母和分子,得到用于整个组的公用校正矢量ΔC。
方程44
一旦得到该校正矢量ΔC,它将被附加到未校正的代码本C(614,即1105),然后该未校正的代码本C由该校正的代码本C′取代作为一新的代码本C(615,即1106)。
在步骤616将确定对于用于收敛的一预定条件,校正是否已经达到收敛。如果是,该处理终止,并且在那个时间上可用的代码本被用作发言者的代码本。如果否,处理返回到605,重复执行605,直到达到收敛为止。
在上述实施例中,在称为校正矢量的未校正和校正矢量间用于绘图的一矢量取得之后,就可得到一校正代码本。这并非说,校正的代码本的代码矢量能直接得到,其结果由与该代码本相关的通道概率加数的特征矢量系列的量化误差失真将是最小。
言语识别能简单地实现,只要用在上述实施例中得到的校正的代码本取代在前述普通言语识别设备的代码储存器302中的值。
上述要点为本发明的一个特征之一,改型在实现着,由此与由通道概率加数的量化有关的失真将被降到最小。对于低通道概率情况,即如果存在同HMM不紧密相关的部分,则这样的一个部分将被阻止用于匹配。
至此,关于发言者匹配一代码本的说明已经进行了说明,与此相反的方法也可考虑,其中,发言者和一参考代码本相匹配,即执行发言者量化。具体地,方程21改为:
方程33 因此,YA1减hm可看作为一发言者对一代码本的量化。方程33相应图5或图6中的结构,如果它们结合图17a和图17b的结构使用,下面表示的方程34将从方程33得出。
方程34 图14表示一种发射机的实施例,它根据本发明第三个实施例,在使用发言者量化的矢量量化基础上,使用通信方法,其中,使用图5或图6中的结构。元件51-55执行如上所述的相同操作。在这种情况中,如上所述的学习用的运动矢量从输入矢量减去,并且用参考代码本54执行矢量量化。131代表一相减器,它从输入矢量中减去运动矢量。
图15表示与上述发射机(结合图14)结合使用的接收机,它将用一参考代码本91接收的一系列标号转换成一系列代码矢量,并将由发射机分别发射的运动矢量附加到代码矢量,以得到解码的矢量。141表示执行该相加的相加器。92表示一运动矢量储存部分,用于储存由相加器141相加的运动矢量,当发言者改变时,运动矢量从发射机发射。
图16表示根据本发明第三实施例的,在使用发言者量化的基础上的一种言语识别器的实施例。51-55执行如上所述的相同操作。对这种情况,相似地,如上所述学习用的运动矢量由相减器131从输入矢量减去,而矢量量化用参考代码本54执行。131代表一相减器,它从输入矢量中减去运动矢量。
很明显,使用图17a和图17b的结构将使得提供一发/收器和结构实质相同的言语识别器成为可能。对此,相加和相减是部分地颠倒的(未示)。
在上述实施例中,代码矢量的校正是由将校正矢量ΔC加到校正矢量C完成的。如果从校正矢量ΔC得到的一预定矢量ΔH(以下称作量化矢量)是从输入发言者的言语的特征矢量Yt中减去的,则能消去输入言语中与发言者相关的差异。这就使执行发言者量化成为可能。
方程45
yt=
yt-Δ
H
对这情况,量化矢量提前随未改变的代码矢量值储存起来,并在识别时间,量化矢量从特征矢量系列的每一帧中的特征矢量中减去。图26是用来对发言者量化产生这样一种量化矢量△H的方块图。
1201表示一校正言语储存部分,它储存一发言者(以后称作为用于校正的言语)的R个(r=1-R)已知言语Sr(以后称作为校正言语)(该言语内容对该代码校正器是提前得知的),对发言者而言,得到一个量化矢量,即使用言语识别系统的发言者。该言语用于顺序的校正操作。
1202表示一特征提取部分,它如使用在上述识别设备中那样,根据相同特征提取程序将校正言语Sr转换成一系列固定间隔的特征矢量Yr=Yr1,Yr2,…,Yrt,…,YrT。 Tr表示在校正言语Sr被转换成一系列特征矢量时数据的帧数。
1203表示一校正特征矢量储存部分,它使用特征提取部分1202储存一系列由储存在校正言语储存部分1201中的校正言语Sr的r(r=1-R)个发声而得到的特征矢量Yr。
1204表示一数据控制部分,它根据关于在该R个发声中的哪一个发声是目前处理的。以及该第r个发声的内容是什么的确定来控制下面的处理。在下面的说明中,术语″字(r)″意味第r个发声的内容(发声内容的HMM的号数W)。
1205表示一量化矢量储存部分,储存用于校正特征矢量的一量化矢量。
1206表示一特征矢量归一化部分,使用储存在归化矢量储存部分1205中的归一化矢量△H,在时间t的不同点由校正特征矢量的值Yt得到校正的特征矢量。
1207表示一模糊矢量量化部分,它使用由数据控制部分1204送出的发声号数r,从校正特征矢量储存部分1203读出一系列特征矢量Yr1在使用储存在归一化矢量储存部分1205中的归一化矢量的特征矢量归一化部分,在时间t的各个点,校正特征矢量Yr t,用第一到第K顺序的标号,按照递增距离dr(t,m)对储存在下面描述的代码本储存部分1208中的矢量C1-CM编码,以及用用于各代码矢量的特征矢量Yt的从属值将它们转换成距离矢量dr t(dt1,dt2,…,dtk),标号矢量Or t=(Ot1,Ot2,…,Otk),以及从属矢量Ur t=Ur 1,Ur 2,…,UrT,替换校正的特征矢量,该各代码矢量是由用于特征矢量Yt的符号组进行检索的。K可取任意值,从1高达代码本尺寸M,并限制下面将描述的取得特征矢量的出现率的计算量。
1208表示一代码本储存部分,用于存储代码矢量Cm,结果它们能使用给定的标号m进行检索,代码矢量由模糊矢量部分1207用于矢量量化。
1209表示一HMM储存部分,它储存按欲识别的字的号数W提前产生的HMM,状态转换概率矩阵A和标号出现概率矩阵B被储存来用于每一个欲识别的字。因此,在第W位置的HMMλw由λw={Aw,Bw}表示。
1210表示一归一化矢量调节部分,使用相应于储存在该HMM储存部分1209中的校正言语的内容的校正言语和HMMS调整在归一化矢量储存部分1205中的归一化矢量ΔH的值,以便使由与代码本相关的通道概率加数的特征矢量系列的量化误差的失真降到最小,并传送作为调整结果得到的一新的归一化矢量ΔH′到归一化矢量储存部分1205。
1211表示校正收敛确定部分,当归一化矢量用校正言语校正时,它确定收敛的状态。它使校正操作终止,如果满足预先确定的收敛条件,如果否,它使用同样的校正言语重复校正,直到当按序匹配归一化矢量时满足条件为止。
本发明的特征在于归一化矢量调节部分1210的结构,其中,提供的言语的内容是已知的,该归一化矢量被调整得使由与代码本相关的通道概率加数的归一化矢量校正的特征矢量系列的量化误差的失真降到最小。
图27是表示归一化矢量调节部分具体结构的方块图。
终端1-10连接到图26的元件,终端1连接到代码本储存部分1208,以便接收代码本C。终端5和6接到HMM储存部分1209。终端5接收相应第r字的HMM的状态转移概率矩阵Aword(r)。终端6接收和上述相同的标号出现概率矩阵Bword(r)。终端2、3和4连接到模糊矢量化部分1207,以便接收距离矢量Dr系列,标号矢量Ov系列,以及用于第r字的从属矢量Ur。终端7和10连接到归一化矢量储存部分1205。终端7接收归一化矢量ΔH,而终端10传送一校正的归一化矢量ΔH′。终端8连接到校正收敛确定部分1211,并传送一平均目标函数值J于它用于确定收敛。终端9连接到数据控制部分1204,以便接收关于存在着目前的校正言语的位置(r)的信息,并且当r=R时,计算归一化矢量H和平均目标数值J。
代码本校正部分1210,即图27,用如上所述交换的信息进行操作。
1301表示一特征矢量系列出现率计算部分,它对时间t每一个点计算由方程36表示的一特征矢量的出现率,以及根据从属值计算HMM的每个状态i,以及根据距离矢量系列,标号矢量系列,从属矢量系列计算标号出现概率,以及计算在终端2、3、4和6收到的标号出现概率矩阵,以便得到特征矢量出现率矩阵Ω。
1302表示一通道概率计算部分,它计算通道概率ri(t),该概率是在时间t某点处某一状态i的HMM的概率,并计算每一个状态i,以便得到一通道概率矩阵。
1303表示一校正矢量分母/分子计算部分,它计算一校正矢量计算方程的分母和分子。
1304表示一校正矢量分母/分子储存部分,它储存用于一校正矢量计算公式的分母和分子,该公式是由下述供一校正矢量计算部分用的校正矢量分母/分子计算部分1303进行计算的。
1305表示一目标函数值计算部分,它按方程35,使用上述通道概率ri(t),从属矢量Ur t,以及距离矢量dr t计算用来确定收敛的目标函数值Jr。
1036表示一目标函数值储存部分,它根据量R储存来自该目标函数值计算部分1305的目标函数值Jr,量R相应于用于校正的全部字量。这并非说,它可以累加这些值,而不是储存它们。
在R校正字上执行上述操作之后(终端8信号″R″)将执行下列操作。
1037表示一校正矢量计算部分,它按照校正矢量计算公式,从用于储存在校正矢量分母/分子储存部分1304的校正矢量的分母和分子得到一组校正矢量ΔC,并通过终端10将其传送到校正矢量储存部分1205。
1038表示一归一化矢量计算部分,它根据由校正矢量计算部分得到的校正矢量ΔC以及在终端7接收到的未校正的归一化矢量ΔH获得新归一化矢量ΔH′。
1039表示一平均目标函数值计算部分,它由平均所有储存在目标函数值储存部分1306中的目标函数值得到一平均目标函数值Jave,并通过终端7将其传送到校正收敛确定部分1211。
在该上述特征矢量归一化设备中的校正矢量计算公式相应方程41,42,43和44。
上述说明是集中于这样一些情况,其中一个系统被分成学习状态和识别状态,它也可能执行通信和识别,只要在正进行谈话和识别处理期间重复地学习已给定的(正好)每一个声调。具体地,在图5-图8,图12-图14中表示的缓冲存储器51取成一种状态,其中它经常接收输入信号,以及运动矢量在接收到的言语数据基础上,按照上述方法,在适当的间隔上进行计算,以便允许代码本重写,以及用于发言者归一化的归一化矢量进行修改。这使得当一般无意识脱离学习状态的发言者时执行实时发言者归一化,以及按照该发言者特征变化执行发言者匹配或归一化成为可能。按本发明校正言语在代码本校正设备和矢量归一化设备的上述实施例中是提前发音的,当考虑该言语的内容必须已知这个要求时,则对于使用该语言识别系统的发言者而言,不必提前发校正言语的音,如果由于识别结果能看作上述语言的内容,识别结果呈现出高的可靠性。
对于这种情况,识别结果可认为是可靠的,只要相似性本身是高的,或者对第一和第二条件间的相似性存在大的差异。相反,识别结果可认为不大可靠的。因此,可以这样来建立适当的阀值,即如果超出这个阈值,代码本就将被校正,如果相反,代码本将不被校正。这样,用识别结果能执行代码本的校正,甚至言语的内容是未知的。
图28是这样的一种言语识别设备的方块图。
1401表示一特征提取部分,它使用例如LPC分析将未知的言语信号转换成固定间隔上的特征矢量,以取得特征矢量系列Y=Y1,Y2,…,Yt…,YT。T代表特征矢量Y的系列的长度用于未知言语信号。
1402表示一储存代码矢量的代码本储存部分,结果它们能使用分给它们的标号进行检索。
1043表示一模糊矢量量化部分,它按照递增距离dr(t,m)用K符号对储存在代码本储存部分1402中的矢量进行编码,以及用用于各个代码矢量的特征矢量Yt,将它们转成距离矢量dv t=(dt1,dt2,…,dtk),标号矢量Or t=Ot1,Ot2,…,Otk),以及从属矢量Ur t=Ut1,Ut2,…,Utk)来取代由特征提取部分1401提取的特征矢量Y,该各个代码矢量是用用于特征矢量Yt的标号组进行检索的,以及将该特征矢量Yt的系列Y转换成一系列距离矢量D=d1,d2,…,dT,一系列标号矢量O=O1,O2,…,OT,以及一系列从属矢量U=U1,U2,…,UT。
1404表示一HMM储存部分,它储有按欲识别的字的号数W提前产生的HMMλw(W=1-W),一状态转移概率矩阵A,以及储存用于欲识别的每一个字的一标号出现概率矩阵B。因此,处第W位置的HMMλw由λw={Aw,Bw}W=1W表示。
1405表示一特征矢量系列出现率计算部分,它使用由模糊矢量量化部分1403得到的标号矢量O的系列,从属矢量U的系列,储存在HMM储存部分1404中的第W个字的标号出现概率矩阵Bw,按照公式36计算特征矢量系列出现率矩阵ΩW={ωwit}。
当在时间t的一点处,特征矢量Yt服从于模糊矢量量化时,标号出现概率biotk是来自HMM的状态i的第K个标号Otk的出现概率。
1406表示一相似性计算部分,使用用于由特征矢量系列出现率计算部分1405计算的HMMλw的特征矢量系列出现率矩阵Ωw以及用于储存在HMM部分1404中的HMMλw的状态转换概率矩阵AW计算相似性L(Y/λw)。
1407表示一相似性储存部分,为以后进行比较,它储存用于与由相似性计算部分1406计算的特征矢量Y的系列相关的每一个字的HMMλw的相似性L(X/λw)。
1408表示一比较/确定部分,它确定与HMM相关联的字,即它在储存在相似性储存部分1407中的HMM中给出最大相似性作为识别的一个条件。
元件1405-1407的每一个操作对用于每个字的HMMλw只执行一次,并且重复直到W等于W。这此操作的结果由比较/确定部分1408估算。
1409表示一识别选择物(candidate)可靠性计算部分,它使用储存在相似性储存部分1407等中的用于识别的选择物的相似性,计算由比较/确定部分1408选择的用于识别的选择物的可靠性。
1410表示一代码本校正执行确定部分,它传送一代码本校正信号到下面描述的代码本校正部分,以执行该代码本的校正,如果由识别选择物可靠性计算部分1409取得的用于识别的选择物的可靠性等于或大于一预定的阈值。
1411表示一代码本校正部分,它从代码本校正执行确定部分接收代码本校正信号,使用储存在代码本储存部分1402中的代码字,由模糊矢量量化部分1403取得的距离矢量D的系列,标号矢量O的系列,从属矢量U的系列,以及通道概率校正代码本,并将校正的代码本送到代码本储存部分。
类似地,归一化矢量能使用识别结果进行校正,即使言语的内容是未知的,只要这样制作一种装置,即当一阈值被超过时调整该归一化矢量,否则将不作调整。
图29是这样一种言语识别设备的方块图。
1501是一特征提取部分,它使用已知的如LPC分析方法,将一未知信号转换成在固定间隔上的特征矢量,以取得一特征矢量系列Y=Y1,Y2,…,Yt,…YT。 T代表特征矢量Y系列的长度,用于未知言语信号。
1502表示一归一化矢量存储部分,它储存一归一化矢量,用于归一化特征矢量。
1503表示一特征矢量归一化部分,它使用归一化矢量归一化特征矢量。
1504表示一代码本储存部分,它储存代码矢量,结果它们能使用给予它们的标号进行检索。
1505表示一模糊矢量量化部分,它用K个标号,按照递增距离dr(t,m)对储存在代码本储存部分1502中的矢量编码,以及用用于各代码矢量的归一化特征矢量Y’t的从属值将它们转换成距离矢量dt=(dt1,dt2,…,dtk),标号矢量Or t=(Ot1,Ot2,…,Otk),以及从属矢量Ur t=(Ut1,Ut2,…,Utk),替代由特征矢量归一化部分归一化的特征矢量Y’t,以及将该归一化的特征矢量Y’t的系列Y′转换成一距离矢量D=d1,d2,…,dT,一标号矢量系列O=O1,O2,…,OT,以及一从属矢量系列U=U1,U2,…UT。
1506表示一HMM储存部分,它储存提前按欲识别的字的号数W产生的HMMλw(ω=1-W),一状态转移概率矩阵A以及对每一个欲识别的字储存的一标号出现率矩阵B。因此,在第W位置的HMMλw由λw={Aw,Bw}W=1-W表示。
1507表示一特征矢量系列出现率计算部分,它使用由模糊矢量量化部分1505取得的标号矢量O的系列,从属矢量U的系列,以及储存在该HMM储存部分1506中的第W个字的标号出现概率矩阵Bw,按方程36计算用于HMMλw的一特征矢量系列出现率矩阵ΩW={ωwit}。
当在时间t一个点处,特征矢量Y′t服从于模糊矢量量化时,符号出现概率biotk是该出现的概率,只要第K标号Otk来自HMM的一个状态i。
1508表示一相似性计算部分,它使用用于由特征矢量系列出现率计算部分1507计算的HMMλw计算相似性L(Y/λw),以及用于储存在HMM储存部分1506中的HMMλw的状态转移概率矩阵Aw。
1509表示一相似性储存部分,为了以后进行比较,它储存用于每一个字的HMMλw的相似性L(Y/λw),该每一个字与由相信性计算部分1508计算的特征矢量Y的系列有关。
1510表示一比较/确定部分,它确立与HMM相关的字,即在储存在相似性储存部分1509的HMM中给出最大相似性。
元件1507-1509的每一个操作对用于每个字的HMMλw只执行一次,并被重复直至W等于W。这些操作的结果由比较/确定部分1510估算。
1511表示一识别选择物可靠性计算部分,它使用储存在相似性储存部分1509等中的用于识别的选择物的相似性,计算由比较/确定部分1510选择的用于识别的选择物的可靠性。
1512表示一归一化矢量调节执行确定部分,它传送一归一化矢量调节信号到下面描述的一归一化矢量调节部分,以执行归一化矢量的调整,如果由识别选择物可靠性计算部分1511取得的用于识别的选择物的可靠性等于或大于一预定的阈值。
1513表示一归一化矢量调整部分,它从归一化矢量调整执行确定部分接收归一化矢量调整信号,使用储存在归一化矢量储存部分1502中归一化矢量,由模糊矢量量化部分1505得到的距离矢量D系列,标号矢量O系列,从属矢量U系列,以及与用于识别的选择物有的HMM的通道概率调整该归一化矢量,并且将校正的归一化矢量送到归一化矢量储存部分。
所要求是将一重心μm(m=1,…,M)转换成对发言者A是最佳的μm′。这样一种转换(匹配)是系列地执行的,并且匹配可以在不同的时间执行,例如在言语的间隙或预定的间隔执行。本发明的实施例将描述关于一种假设,即匹配在输入一个字的每一时间执行。
按照本发明第一实施例,当一个字的第n个发声输入时,它是服从于表示成μm1(n)=μm+hm(n)的转换,并用从发言者A的字的n个过去的发声中寻求最佳hm(n)的方法执行。
本发明的特征在于从属值和矢量Wm(n)以及瞬时运动矢量Δm(n)仅由多半是目前输入的一个字的第n个发言进行计算的,而其中最佳运动矢量hm(n)是在从属值和运动矢量Vm(n-1)累积乘积以及从属值矢量Wm(n-1)的累积和基础上对所有从第一到第n个发音的发音进行计算的,该从属值矢量Wm(n-1)已经由(n-1)个过去的发音进行计算。因此,所得到的μm′(n)经常被转换的在输入发音中(包括过去的发音)的最佳者。
具体地,当由发言者A的第n个发音得到的特征矢量被表示为YA 1(n),YA 2(n),…,YA I(n)时,仅仅用于第n个发音的一目标函数J′(n)被定义为方程46,而用于所有n个发音的目标函数JJ′(n)被定义为方程47。
方程46和方程47
因此,该转换能由求得对方程46给出一适当小的解Δm(n)以及对方程47给出一适当小的解hm(n)来完成。如果给出定义(Y,μ)=(Y-μ)T(Y-μ)(如在早先描述的例子中那样),则这样的Δm(n)和hm(n)将按下列步骤得到。S表示目前值,作为用于得到Δm(n)的计算循环的上限。(步骤3-1)
在发言者发言输入之前,置所有初始值。
等待输入其中设置全目标函数JJ′=∞;从属值和运动矢量Vm=0(m=1,…,M)累积乘积;从属值矢量Wm=0(m=1,…,M)的累积和;以及输入字n=0的个数的言语。(步骤3-2)
输入语言,之后,输入字的个数,n=n+1。(步骤3-3)
设置关于每一个输入的计算的循环数,如S=0,设置目标函数值如J(o)=∞,以及Δm(o)=0(m=1,…,M)。(步骤3-4)
对于用于第n个输入的从属矩阵U(n)=[Unm(n)]的初始值U(n)(o)由下面方程给出
方程48
uim(n)(θ)= 1≤m≤M、1≤i≤In
这里In表示第n个发音的帧长度。(步骤3-5)
S=S+1(步骤3-6)
瞬时运动矢量Δm(n)(s)(m=1,…,M)由下面方程得到。
方程49
uim(n)(s)= 1≤m≤M、1≤i≤In(步骤3-7)
对组的每个点(输入矢量)的从属矩阵按下面方程计算。
方程50
uim(n)(s)= 1≤m≤M、1≤i≤In
(步骤3-8)
计算目标函数。
方程51 (步骤3-9)
确定用于确定对目前输入言语的瞬时运动矢量计算的以下条件是否满足。
方程52 如果否,处理返回到步骤3-5。如果是,处理进行到下一个步骤。(步骤3-10)仅用于第n个发音的从属值矢量Wm(n)的和按下面方程计算
方程53 (步骤3-11)
修改从属值矢量Wm的累积和以及从属值和运动矢量Vm的累积乘积。
方程54
Wm=Wm1+Wm(n)
Vm=Vm+wm(n)×Δm(n)(步骤3-12)
运动矢量hm(n)(m=1,…,M)由下面方程得到。
方程55 (步骤3-13)
计算全部目标函数
方程56
JJ’(n)=JJ’(n-1)+J(n)(s)(步骤3-14)
确定用于确定对每一个输入发音的瞬时矢量计算的以下条件是否满足。
方程57 如果否,处理返回到步骤3-2,以等待言语输入。如果是,终止匹配。
步骤3-9中的δ和步骤3-14中的δδ是适当小的值,并且取决于准备作为参考的一代码本的多少重心偏向于输入言语。当δ是小,而S是大时,重心偏向于由对仅使用输入言语分组的代码本。当过去输入的发音n的数量小时,可考虑不希望有的情况,即重心的分布过分偏向于该输入言语。所以,对于依赖输入发音n的数量的δi和S,必须选择适当的大小。
当输入发音n的数量小时,最好使在目标函数(方程21)中的Δm(n)以及在所有目标函数(方程47)中的hm(n)对m=1,…,M是通用的。具体地,该想法使用在本发明的第二实施中,其中Δ(n)=Δ1 (n)=Δ2 (n)=…=Δm(n);hn+h 1(n)=h2(n)=…=hM(n);一个仅用于第n发音的目标函数J″(n)由方程58确定。而用于所有几个发音的全目标函数JJ″(n)由方程59确定:
方程58
方程59
(步骤4-1)
在发言者的发言输入之前置所有初始值。
等待输入其中设置全目标函数JJ′=∞;从属值矢量Wm=0的累积和;从属值和运动矢量Vm累积乘积;以及输入字n=0的个数的言语。(步骤4-2)
输入言语,输入字的个数n=n+1。(步骤4-3)
设置关于每一个输入计算的循环数S=0。设置目标函数值J(o)=∞以及Δm(o)=0。(步骤4-4)
对于用于第n个输入的从属矩阵U(n)=[Unm(n)]的初始值U(n)(o)由下面方程给出。
方程60
uim(n)(θ)= 1≤m≤M、1≤i≤In这里±n代表第n个发音的帧长度。(步骤4-5)
S=S+1。
(步骤4-6)
瞬时运动矢量Δm(n)(s)由下面方程得到。
方程61 (步骤4-7)
用于组的每一个点(输入矢量)的从属矩阵按下面公式计算。
方程62uim(n)(s)= 1≤m≤M、1≤i≤In(步骤4-8)
计算目标函数。
方程63
(步骤4-9)
确定用于确定对目前输入言语的瞬时运动矢量计算的以下条是否满足。
方程64 如果否,处理返回步骤4-5,如果是,处理进到下一步骤。(步骤4-10)
仅用于第n发音的从属值矢量Wm(n)的和按下面方程计算。
方程65 (步骤4-11)
修改从属值矢量累积和以及从属值和运动矢量的累积乘积。
方程66W=W+w(n)V=V+w(n)×Δ(n)运动矢量h(n)由下面方程得到。
方程67
(步骤4-13)
计算全目标函数。
方程68
JJ’(n)=JJ’(n-1)+J’(n)(s)(步骤4-14)
确定用于确定对每一个输入发音的运动矢量计算的下列条件是否满足。
方程69 如果否,处理返回到步骤4-2,以等待言语输入。如果是,终止匹配。
还是对于这种情况,输入言语重心校正量的影响能通过选择δ,S和δδ加以调整。
图30是表示第一和第二实施例的方块图。对第一实施例,执行步骤3-1—3-14,对第二实施例,执行步骤4-1—4-14。
4000表示一输入端,一系列作为在第n个输入发音上执行的特征提取结果的特征矢量Y1 A(n),…,YA I(n)输入到该输入端、5000代表一参考代码本,它储存由多个od发言者产生的代码矢量,结果它们可使用标号进行检索。
4200表示一瞬时运动矢量储存部分。4900表示一运动矢量储存部分。5100表示将参考代码本5000,瞬时运动矢量储存部分4200,以及运动矢量储存部分4900的内容相加的一相加器。
4100表示一瞬时运动矢量计算部分,它按照第一实施例中的步骤3-3—3-9计算Δm(n)(m=1,…,M)并且由通过输入端4000输入的内容和相加器5100的输出,按第二实施例中的步骤4-3—4-9计算Δ(n)。计算的瞬时运动矢量储存在瞬时运动矢量储存部分4200。当上述重复计算启动时,瞬时运动矢量储存部分4200的内容被初始化到0。使用这种结构,瞬时运动矢量储存部分的内容每次都被重写,在计算期间得到修改的瞬时运动矢量。
如果满足在步骤309或步骤409对于终止的条件,与最后由发言者A给出的第n个发音相匹配的瞬时运动矢量在瞬时运动矢量储存部分4200得到。如果确认瞬时运动矢量收敛,则一运动矢量被进行计算,过去输入的发音也反映在该计算中(下面描述)。
4400表示一从属值矢量累积和储存部分。4300表示将从属值矢量累积和储存部分4400的内容和瞬时运动矢量计算部分4100的输出相加的一相加器(从属值矢量和)。从属值矢量累积和储存部分的内容重写到修改的从属值矢量累积和。
4700表示一从属值和运动矢量累积乘积储存部分。4600表示一相加器。4500表示一乘法器,它将瞬时运动矢量计算部分4100的输出(从属值矢量和)同瞬时运动矢量储存部分4200的内容相乘。该乘积同从属值和运动矢量的累积乘积储存部分4700在相加器4600处相加。这样,从属值和运动矢量的累积乘积储存部分4700重写到修改的从属和运动矢量的累积乘积。4800表示一除法器,而4900表示一运动矢量储存部分。除法器4800用从属值矢量的累积和储存部分4400的内容去除从属值和运动矢量的累积乘积储存部分4700的内容。具体地,在第一实施例,运动矢量hm(n)按步骤3-1,3-2,以及3-10—3-14进行计算。在第二实施例,运动矢量h(n)按步骤4-1,4-2以及4-10—4-14进行计算。这样的操作被重复进行,每次输入一输入的发音。一个适合发言者A的典型矢量能够借助于将这样得到的运动矢量加到参考代码本的输出而得到。
虽然说明集中在一代码本对一发言者的匹配,反过来,也可能使一发言对一参考代码本匹配,即能执行发言者的归一化。具体地,方程46和47能变成:
方程70 {yA i(n)-(μm’(n-1)+Δm(n))} {(yA i(n)-Δm(n))-μm’(n-1)}
以及 方程71 {yA i(n)-(μm(n-1)+hm(n))}=JJ’(n-1)+ {(yA i(n)-hn(n))-μm(n-1)}因此,从YA i中减去hm能认为将一发言者归一化到一代码本。方程70和71分别相应于图30和31。如果图32的结构被用来给与它们,则方程72和73能被推导出来和方程70及71相关。
方程72和73 {(yA i(n)+hm(n-1)+Δm(n))-μm} =JJ’(n-1)+ {yA i(n)+hm(n)-μm(n))]
上述内容是这样一种情况,即所有由发言者A输入到本系统的过去的声音被用于匹配,但是存在着这样一种可能性,即在使用该发言者期间,情况会改变,而且在这种情况下,最好适应地使用某些时间以前的声音。那就是在图30,31,32等中的从属值矢量的累积和储存部分4400和从属值和运动矢量累积乘积储存部分4700用前述方法,用每一个确定周期的储存内容计算运动矢量,以重写代码本或修改发言者归一化的归一化矢量。
使用健忘系数α(0<α<1)改变方程54和66,以及74和75将导致这样一种情况,即当从属值矢量和瞬时运动矢量从某一过去时间进行计算时,则该过去时越长,乘与矢量的值越小。因此,输入越是接近目前时间,输入被更大地加数。
方程74和75
Wm=α×Wm+wm(n)
Vm=α×Vm+wm(n)×Δm(n)
W=α×W+w(n)
V=α×V+w(n)×Δ(n)
对于这样情况的结构,如图33和34所示,在从属值和运动矢量的累积乘积储存部分4700和相加器4600之间放置一个乘法器5400,而且在从属值矢量4600之间放置一个乘法器5400,而且在从属值矢量的累积和储存部分4400和相加器5500之间放置一乘法器5500,以及健忘系数从健忘系数储存部分5300输出到这些同矢量储存部分4700,4400相乘的乘法器5400,5500。
现在说明将在执行审查本发明效果的试验上进行。一参考代码提前以20个男发言者产生、连续的匹配用由一未知发言者的发音输入执行。
关于识别试验使用100个字,结果在无匹配情况下对20人形成84.2%的平均识别率。连续的匹配使识别率上升到88.7%。
按本发明实施例,虽然运动矢量被计算为h1,h2,hM,它们给出目标函数极端值,这些值可以用不合理的祖传方法或其他类似方法得到。而本发明实施例集中在一种情况,其中减小目标函数的hi是存在的,增大目标函数的hi可以依赖于目标函数定义得到。例如,当在本实施例中的J由-J替代时当然这将发生。此外,术语″加″和″减″已用在本实施例中,它们可以进行交换,因为伴随一负信号或相反的话,加就意味着减。