CN109559749B - 用于语音识别系统的联合解码方法及系统 - Google Patents
用于语音识别系统的联合解码方法及系统 Download PDFInfo
- Publication number
- CN109559749B CN109559749B CN201811583120.3A CN201811583120A CN109559749B CN 109559749 B CN109559749 B CN 109559749B CN 201811583120 A CN201811583120 A CN 201811583120A CN 109559749 B CN109559749 B CN 109559749B
- Authority
- CN
- China
- Prior art keywords
- sequence
- posterior
- recognition system
- score
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000004927 fusion Effects 0.000 claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000003860 storage Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000002864 sequence alignment Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 238000007500 overflow downdraw method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 210000005266 circulating tumour cell Anatomy 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000009885 systemic effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种用于语音识别系统的联合解码方法及系统,应用于第一语音识别系统和第二语音识别系统之间的联合解码,其中方法包括:获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列;采用DTW算法确定所述第一后验分数序列和所述第二后验分数序列之间的对齐关系;根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果;对所述融合结果进行解码处理。本发明在进行语音识别系统的融合时只需要进行一次解码即可,并且在对两系统的结果进行融合前实现了两系统的后验得分的对齐,保证了融合效果。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种用于语音识别系统的联合解码方法及系统。
背景技术
连接主义时序分类算法(CTC,connectionist temporal classification)已经成功的在语音识别任务中得到使用。在没有帧级别的标注下,CTC可以自动的学习到语音帧和音素标注的对应关系。虽然这对于缩短训练的流程有益,但是成为了系统在帧级别融合的困难。
关于语音识别的系统融合技术主要有通过识别输出投票错误减小算法(ROVER),混合网络融合技术(confusion network combination),最小贝叶斯风险网格融合技术(minimum Bayes risk lattice combination),联合解码(joint decoding)。
ROVER:将每一个识别系统的识别结果根据最小编辑距离做对齐后,选择每个位置(slot)上置信度最高的字;
Confusion network combination:与ROVER方法类似,但是是将每一个识别系统生成的lattice进行融合后对齐,然后选出每个位置(slot)上置信度最高的字,相比ROVER候选的字更多;
minimum Bayes risk lattice combination:和Confusion networkcombination一样也是在lattice上做融合,但是是计算融合后的lattice中通过优化最小贝叶斯风险找到一条最优的解码路径;
Joint decoding:分加权融合不同系统声学模型的后验分数,然后进行解码。
ROVER,Confusion network combination,minimum Bayes risk latticecombination方法都需要多次解码,确切的讲,有几套系统就需要解码多少次,很费时;joint decoding方法虽然只需要一次解码,但是对于CTC系统,系统的后验得分序列往往不是对齐的,融合效果不能保证稳定。
发明内容
本发明实施例提供一种用于语音识别系统的联合解码方法及系统,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种用于语音识别系统的联合解码方法,应用于第一语音识别系统和第二语音识别系统之间的联合解码,所述方法包括:
获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列;
采用DTW算法确定所述第一后验分数序列和所述第二后验分数序列之间的对齐关系;
根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果;
对所述融合结果进行解码处理。
第二方面,本发明实施例提供一种用于语音识别系统的联合解码系统,应用于第一语音识别系统和第二语音识别系统之间的联合解码,所述系统包括:
序列获取模块,用于获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列;
序列对齐模块,用于采用DTW算法确定所述第一后验分数序列和所述第二后验分数序列之间的对齐关系;
融合模块,用于根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果;
解码模块,用于对所述融合结果进行解码处理。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项用于语音识别系统的联合解码方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项用于语音识别系统的联合解码方法。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项用于语音识别系统的联合解码方法。
本发明实施例的有益效果在于:本发明在进行语音识别系统的融合时只需要进行一次解码即可,并且在对两系统的结果进行融合前实现了两系统的后验得分的对齐,保证了融合效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的用于语音识别系统的联合解码方法的一实施例的流程图;
图2为本发明中使用的DTW算法的示意图;
图3为本发明中的评分融合模式示意图;
图4为本发明的用于语音识别系统的联合解码方法的另一实施例的流程图;
图5为本发明中的CTC和混合声学模型之间的声学融合示意图;
图6为本发明的用于语音识别系统的联合解码系统的一实施例的原理框图;
图7为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在过去的几年中,深度神经网络已经成为大词汇量连续语音识别中最先进的声学模型。在传统的混合方法中,深度神经网络用于生成帧级的Senone后验,并且它们的分布被重新表示为隐马尔可夫模型(HMM)的发射概率。然而,在声学建模之前首先要求帧级传感器状态标签。最近,越来越多的人关注语音识别的端到端方法。连接主义时间分类(CTC)是一种端到端模型,关键思想是使用中间标签表示,允许重复标签和空白标签的出现,以表示信息量较少的帧。基于CTC的声学模型可以自动学习语音帧和目标标签之间的对齐,因此不需要用于帧级标签准备的阶段。
在不同系统产生的错误模式中发现了差异,例如,系统DNN,CNN和基于RNN的声学模型,这些差异足以通过系统融合方法获得更好的性能。已经提出了许多系统融合方法,例如,ROVER,混淆网络融合,最小贝叶斯风险(MBR)网格融合和联合解码。与首先单独对每个系统进行解码的其他方法不同,联合解码效率更高,因为它只需要一个融合声学概率的单个解码阶段,并且性能甚至优于其他的融合方法。
虽然基于GMM-HMM或DNN-HMM的语音识别系统的融合方法被广泛使用。但是,对基于CTC的系统的调查研究是有限的。特别是对于声学概率的融合,简单的加权平均效果并不稳定,因为两个带有尖峰的后序列之间的不同步会相互干扰。
在本发明中,我们提出了一种使用动态时间规整(DTW,Dynamic Time Warping)来解决同步问题的方法。提出了三种不同的声学得分融合方法来融合对齐的序列,并且可以获得显着的改进。
本发明的实施例提供一种用于语音识别系统的联合解码方法,应用于第一语音识别系统和第二语音识别系统之间的联合解码。其中,所述第一语音识别系统和第二语音识别系统可以均为CTC语音识别系统,或者所述第一语音识别系统为CTC语音识别系统,所述第二语音识别系统为混合语音识别系统。
如图1所示,本发明的实施例提供的用于语音识别系统的联合解码方法包括:
S10、获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列。
S20、采用DTW算法确定所述第一后验分数序列和所述第二后验分数序列之间的对齐关系。示例性地,所述对齐关系为:所述第一后验分数序列中的一个序列值与所述第二后验分数序列中的多个序列值相对应形成一对多序列值对和/或所述第二后验分数序列中的一个序列值与所述第一后验分数序列中的多个序列值相对应形成一对多序列值对。
动态时间规整(DTW)算法是自动语音识别、时间序列分析和许多其他模式匹配应用中的流行处理方法。它测量两个时间序列之间的相似性,这两个时间序列的速度可能不同,并且“规整”一个(或两个)序列的时间轴以实现最佳对齐。图2显示了一个简单示例的DTW算法。
示例性地,第一后验分数序列和第二后验分数序列分别对应于时间序列Q和C,每个序列的长度分别为n和m:
Q=q1,q2,...,qi,...,qn (1)
C=c1,c2,...,cj,...,cm (2)
为了使用DTW对齐两个序列,我们构造了一个n×m矩阵,其中,矩阵的(第i,第j)个元素包含分别以点qi和cj结尾的两个子序列之间的最小距离d(qi,cj)。通过从DTW[n,m]到DTW[1,1]的回溯来找出最佳对齐路径P,路径P是一组连续的矩阵索引元素,其定义Q和C之间的映射。P的第k个元素被定义为pk=(ik,jk)。所以我们有:
P=p1,p2,...,pk,...,pl (3)
其中,max(m,n)≤l<m+n+1。
有时我们想要添加一个局部性约束,这要求Qi仅在|i-j|时才与Cj匹配不大于w,其中w是窗口参数。可以很容易地修改经典算法以适应局部性约束。
S30、根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果;
S40、对所述融合结果进行解码处理;本发明实施例中所采用的对融合结果的解码方法可以为现有技术中任意的解码方法。
基于CTC的系统学习直接从输入序列x映射到输出序列z,并估计P(z|x)。在预测期间,给定帧级别的声学特征,它提供音素或字符的后序列。对于不同的CTC系统,输出可能不同步。因此,我们首先需要对这些序列进行对齐,并且在这项工作中使用DTW。在DTW算法中使用的该距离可以是来自最后隐藏层的向量的欧几里德距离或每个系统中的softmax层输出的两个分布之间的Kullback-Leibler距离。附加的局部约束参数w可以限制帧在合理的时间窗口中彼此匹配。算法的细节在算法1中解释。
算法1具有局部约束的动态时间规整算法,用于基于CTC的系统的联合解码:
完成序列对齐后,我们需要结合不同序列的声学得分。本文提出了三种评分融合方法,并将其命名为A)拓展,B)不变,C)压缩。图3显示了这些模式的示例。Q和C是两个声学后验序列,长度为4。在拓展模式中,Q(C)中与多于一个点对齐的点将分成具有相同值的多个点,然后与C(Q)合并。合并序列的长度将比原始序列Q和C长;在不变模式中,一个序列,例如,Q,被假定为参考序列。与Q中的一个点对齐的C中的多个点将首先加权平均合并后,再与Q中所对应的点合并。与Q中的多个点对齐的C中的点将被分割以匹配C中的点。新生成的序列的长度保持与参考序列Q相同;在压缩模式中,Q(C)中与序列C(Q)中的一个点对齐的多个点将首先加权平均合并后再与C(Q)中对应的点合并。新生成的序列的长度将短于Q和C。
如上所述,合并的后序列如下导出:
DTW_align=DTW(PQ(Y|X),RC(Y|X),dist) (4)
其中,PQ(Y|X)和PC(Y|X)是两个单独的声学后验序列,dist∈{Euclid,KL},并且合并模式∈{拓展,不变,压缩}。
在一些实施例中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
将所述一对多序列值对中的单独一方的序列值数量扩展成与另一方的序列值数量相等,扩展得到的序列值与所述单独一方的序列值相等。
在一些实施例中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
选择所述第一后验分数序列或者所述第二后验分数序列作为参考序列,另一个序列作为可变序列;
保持所述参考序列中的序列值数量不变,将所述可变序列中的同时与参考序列中的同一个序列值相对应的多个序列值的均值作为新的序列值与所述同一个序列值相对应;
将所述可变序列中的同时与所述参考序列中的多个序列值相对应的序列值进行等值扩展,以形成与所述参考序列中的多个序列值的一一对应。
在一些实施例中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
将所述一对多序列值对中的单独一方的序列值相对应的多个序列值的均值作为新的序列值与所述单独一方的序列值相对应。
在一些实施例中,所述第一语音识别系统为CTC语音识别系统,所述第二语音识别系统为混合语音识别系统;如图4所示,在该实施例中,所述获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列包括:
S11、获取所述CTC语音识别系统的输出序列作为所述第一后验分数序列;
S12、获取所述混合语音识别系统输出的所有senone状态;
S13、建立所述所有senone状态与相应的音素之间的映射关系,其中,每一个音素对应多个senone状态;
S14、分别将所述每一个音素所对应的多个senone状态中的最大概率值确定为后验概率值;
S15、将对应于所述每一个音素的后验概率值构成所述第二后验分数序列。
与基于CTC的系统不同,CTC和混合系统之间的声学融合并不简单,因为这两个系统的训练标准不同,并且声学建模单元通常不相同。音素,字符甚至字将直接用于CTC模型,相比之下,绑定的senone状态通常用于混合系统。
首先,我们需要从混合模型中的senone状态到CTC模型中的音素进行映射。在构建senone状态的决策树时,使树根对应于真实音素,senone状态和真实的phone的映射是多对一的,即几个senone状态可以映射到同一音素。在这里,我们选择特定音素的所有候选状态中的最大概率,稍后将与CTC概率相结合。例如,有音素yu附属的K个senone状态,那么代表音素yu的后验是:
除了混合模型建模单元的映射之外,我们还必须除了CTC中的符号blank,这在混合模型中不存在。我们使用CTC中的空白概率作为“门”来控制混合系统后面的映射音素,并且声学得分融合仅在非空白音素上执行。CTC和混合声学模型之间的声学融合如图5所示,新生成的后验计算如下:
Pnew(y|x)=Pctc(y|x)+α·(1-Pctc(yblk|x)).Phyb(y|x) (7)
其中,Pctc(y|x)是来自CTC模型的原始音素声学得分,Phyb(y|x)是来自混合系统的映射音素概率,α是混合声学得分的融合权重。以这种方式,来自混合系统的声学得分Phyb(y|x)可以用(1-Pctc(yblk|x))适当地衰减。
根据所述对齐关系确定所述第一后验分数序列和所述第二后验分数序列中对应于相同音素的序列值之间的一一对应关系;也可以采用使用DTW算法对齐后的拓展模式或者不变模式或者压缩模式实现,距离函数只考虑发音的因素,不考虑第一分数序列中的blank。
为清楚的展现本发明实施例的方法及系统相对于现有技术取得了有益的技术效果,现将发明人在实际中所进行的实验展示如下:
1)、实验装置和单基准系统
在本实验中评估了所提出的系统融合方法,在大词汇量普通话语音识别任务中基于CTC系统的联合解码和基于CTC与基于混合模型的系统的联合解码。训练集中有2000小时的转录数据。所有的话语都是从在线语音识别服务中提取出来的。本发明的训练集包含250万个话语,平均持续时间为3秒。本发明还构建了一个测试集来评估性能,该测试集也是从在线服务中提取的,没有说话者重复,测试集由8509个话语组成。
对于实验,发明人准备了基于混合的系统和三个基于CTC的系统。使用来自语音识别工具包Kaldi训练好的马尔可夫模型(HMM)的对齐来训练混合HMM-LSTM系统。输入是在25ms窗口上计算的40维Filter Bank特征,帧移10ms。混合模型HMM-LSTM声学神经网络由3个LSTM层1536个单元堆叠,每个单元具有320个子单元的循环投影层。输出层是全连接层后接softmax层,具有9663个上下文相关的状态目标。采用输入层跳帧来减少计算。对于基于CTC的模型,发明人使用LSTM,CLDNN和DFSMN作为本发明的基准系统。基于CTC的LSTM声学模型的构造与混合LSTM相同,除了输出层为121维,120音素和空白作为目标。其他两个系统的输入是40维Filter Bank特征,具有长度为11(5+1+5)的上下文窗口,总共440维。CLDNN由1个卷积层(feature map大小为9×8),1个全连接ReLU层,一个跳帧层和3个LSTM层组成1536个单元,每个单元具有320个子单元的循环投影层,最后接一个全连接的softmax层。DFSMN的架构为11*40-8×[2048-512(20,0)]-3×2048-512–121。输入为40维Fbank特征,上下文窗口为11。后接8个DFSMN组件,3个全连接的ReLU层和1个具有121维度的softmax层。通过下采样输入特征在DFSMN中也采用跳帧。所有三个神经网络中的较低帧速率为30ms。
基准系统的性能如表1所示,四个系统分别表示为LSTM-HYB,LSTM-CTC,CLDNN-CTC和DFSMN-CTC。实验结果表明,CLDNN-CTC和DFSMN-CTC的性能略优于基于LSTM的CTC或混合系统,DFSMN-CTC在所有声学模型中表现最佳。
表1.CTC和混合基准的WER(%)比较。
基准模型 | 词错误率 |
LSTM-HYB | 15.23 |
LSTM-CTC | 16.14 |
CLDNN-CTC | 15.31 |
DFSMN-CTC | 14.95 |
2)、基于CTC的系统联合解码评估
首先评估基于CTC的系统之间的系统融合。使用所提出的DTW对齐和得分融合方法执行联合解码方法,并将其表示为符号对来自两个CTC系统的最后隐藏层的输出向量计算欧几里德距离,并且DTW中的窗口参数选择为1,因为我们假设序列之间的不同步偏差应该在[-30ms,30ms]之间。除了所提出的三种方法之外,还实现了具有普通模式的联合解码,即,直接在帧级上将声学概率与加权平均相结合,而不预先在两个序列上进行DTW对齐。为了比较,Kaldi最小贝叶斯风险(MBR)网格融合也用于这两个系统的合并,用表示。系统融合用两种设置评估,DFSMN-CTC和CLDNN-CTC以及CLDNN-CTC和LSTM-CTC,实验结果如表2所示。
与单个系统相比,所提出的两个CTC系统的联合解码可以得到相当大的改进。与CTC输出上没有DTW对齐的普通模式相比,所提出的DTW对齐和声学得分融合是有用的并且可以比普通模式获得更好的结果,并且普通模式对于CTC系统不稳定。
3)、基于CTC混合的系统联合解码评估
在此研究CTC和混合系统之间的系统融合。首先使用Kaldi训练的transition模型得到绑定的senone状态和音素之间的映射关系,然后执行本发明前述实施例中所提及的映射和声学得分计算。实验使用DFSMN-CTC和LSTM-HYB系统进行。在[0.1-0.5]的范围内研究等式7中的参数α。正常的MBR网格融合也用Kaldi实现以进行比较。所有实验结果列于表3中。观察到当融合CTC和混合系统时存在改进。通过适当的α设置,所提出的CTC-Hybrid系统联合解码策略优于传统的MBR网格融合,并且所提出的方法可以获得实质性的改进。
在发明中提出了一种系统融合方法,该方法使用基于CTC和基于CTC混合的系统之间的联合解码。对于基于CTC的系统,首先执行DTW算法以对齐CTC输出,然后使用适当的声学概率融合方法来生成用于解码的新的声学得分序列。此外,CTC和混合系统之间的联合解码也设计了建模单元映射和声学得分的计算。实验结果表明,与单一系统相比,新提出的系统融合方法可以得到显著和稳定的改进,并且在两种情况下也优于传统的MBR网格融合。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
如图6所示,本发明的实施例还提供一种用于语音识别系统的联合解码系统600,应用于第一语音识别系统和第二语音识别系统之间的联合解码,所述系统600包括:
序列获取模块610,用于获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列;
序列对齐模块620,用于采用DTW算法确定所述第一后验分数序列和所述第二后验分数序列之间的对齐关系;
融合模块630,用于根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果;
解码模块640,用于对所述融合结果进行解码处理。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项用于语音识别系统的联合解码方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项用于语音识别系统的联合解码方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行用于语音识别系统的联合解码方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时用于语音识别系统的联合解码方法。
上述本发明实施例的用于语音识别系统的联合解码系统可用于执行本发明实施例的用于语音识别系统的联合解码方法,并相应的达到上述本发明实施例的实现用于语音识别系统的联合解码方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
图7是本申请另一实施例提供的执行用于语音识别系统的联合解码方法的电子设备的硬件结构示意图,如图7所示,该设备包括:
一个或多个处理器710以及存储器720,图7中以一个处理器710为例。
执行用于语音识别系统的联合解码方法的设备还可以包括:输入装置730和输出装置740。
处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器720作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的用于语音识别系统的联合解码方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于语音识别系统的联合解码方法。
存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于语音识别系统的联合解码装置的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至用于语音识别系统的联合解码装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其融合。
输入装置730可接收输入的数字或字符信息,以及产生与用于语音识别系统的联合解码装置的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器720中,当被所述一个或者多个处理器710执行时,执行上述任意方法实施例中的用于语音识别系统的联合解码方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种用于语音识别系统的联合解码方法,应用于第一语音识别系统和第二语音识别系统之间的联合解码,所述方法包括:
获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列;
采用DTW算法确定所述第一后验分数序列和所述第二后验分数序列之间的对齐关系;
根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果;
对所述融合结果进行解码处理;
所述第一语音识别系统为CTC语音识别系统,所述第二语音识别系统为混合语音识别系统;
所述获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列包括:
获取所述CTC语音识别系统的输出序列作为所述第一后验分数序列;
获取所述混合语音识别系统输出的所有senone状态;
建立所述所有senone状态与相应的音素之间的映射关系,其中,每一个音素对应多个senone状态;
分别将所述每一个音素所对应的多个senone状态中的最大概率值确定为后验概率值;
将对应于所述每一个音素的后验概率值构成所述第二后验分数序列。
2.根据权利要求1所述的方法,其中,所述对齐关系为:所述第一后验分数序列中的一个序列值与所述第二后验分数序列中的多个序列值相对应形成一对多序列值对和/或所述第二后验分数序列中的一个序列值与所述第一后验分数序列中的多个序列值相对应形成一对多序列值对。
3.根据权利要求2所述的方法,其中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
将所述一对多序列值对中的单独一方的序列值数量扩展成与另一方的序列值数量相等,扩展得到的序列值与所述单独一方的序列值相等。
4.根据权利要求2所述的方法,其中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
选择所述第一后验分数序列或者所述第二后验分数序列作为参考序列,另一个序列作为可变序列;
保持所述参考序列中的序列值数量不变,将所述可变序列中的同时与所述参考序列中的同一个序列值相对应的多个序列值的均值作为新的序列值与所述同一个序列值相对应;
将所述可变序列中的同时与所述参考序列中的多个序列值相对应的序列值进行等值扩展,以形成与所述参考序列中的多个序列值的一一对应。
5.根据权利要求2所述的方法,其中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
将所述一对多序列值对中的单独一方的序列值相对应的多个序列值的均值作为新的序列值与所述单独一方的序列值相对应。
6.根据权利要求1所述的方法,其中,所述根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果包括:
根据所述对齐关系确定所述第一后验分数序列和所述第二后验分数序列中对应于相同音素的序列值之间的一一对应关系;
基于以下公式实现对对应于相同音素的序列值之间的融合:
Pnew(y|x)=Pctc(y|x)+α·(1-Pctc(yblk|x))·Phyb(y|x)
其中,Pctc(y|x)是来自CTC模型的原始音素声学得分,Phyb(y|x)是来自混合系统的映射音素概率,α是混合声学得分的融合权重。
7.一种用于语音识别系统的联合解码系统,应用于第一语音识别系统和第二语音识别系统之间的联合解码,所述系统包括:
序列获取模块,用于获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列;
序列对齐模块,用于采用DTW算法确定所述第一后验分数序列和所述第二后验分数序列之间的对齐关系;
融合模块,用于根据所述对齐关系融合所述第一后验分数序列和所述第二后验分数序列以得到融合结果;
解码模块,用于对所述融合结果进行解码处理;
所述第一语音识别系统为CTC语音识别系统,所述第二语音识别系统为混合语音识别系统;
所述获取所述第一语音识别系统的第一后验分数序列,和所述第二语音识别系统的第二后验分数序列包括:
获取所述CTC语音识别系统的输出序列作为所述第一后验分数序列;
获取所述混合语音识别系统输出的所有senone状态;
建立所述所有senone状态与相应的音素之间的映射关系,其中,每一个音素对应多个senone状态;
分别将所述每一个音素所对应的多个senone状态中的最大概率值确定为后验概率值;
将对应于所述每一个音素的后验概率值构成所述第二后验分数序列。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任意一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811583120.3A CN109559749B (zh) | 2018-12-24 | 2018-12-24 | 用于语音识别系统的联合解码方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811583120.3A CN109559749B (zh) | 2018-12-24 | 2018-12-24 | 用于语音识别系统的联合解码方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109559749A CN109559749A (zh) | 2019-04-02 |
CN109559749B true CN109559749B (zh) | 2021-06-18 |
Family
ID=65870856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811583120.3A Active CN109559749B (zh) | 2018-12-24 | 2018-12-24 | 用于语音识别系统的联合解码方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109559749B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634469B (zh) * | 2019-09-27 | 2022-03-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音信号处理方法、装置及存储介质 |
CN111009235A (zh) * | 2019-11-20 | 2020-04-14 | 武汉水象电子科技有限公司 | 一种基于cldnn+ctc声学模型的语音识别方法 |
CN110930980B (zh) * | 2019-12-12 | 2022-08-05 | 思必驰科技股份有限公司 | 一种中英文混合语音的声学识别方法及系统 |
CN111340134B (zh) * | 2020-03-11 | 2022-09-06 | 南京理工大学 | 一种基于局部动态规整的快速模板匹配方法 |
CN111524524B (zh) * | 2020-04-28 | 2021-10-22 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103474069A (zh) * | 2013-09-12 | 2013-12-25 | 中国科学院计算技术研究所 | 用于融合多个语音识别系统的识别结果的方法及系统 |
CN104167206A (zh) * | 2013-05-17 | 2014-11-26 | 佳能株式会社 | 声学模型合并方法和设备以及语音识别方法和系统 |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
WO2018066436A1 (ja) * | 2016-10-05 | 2018-04-12 | 国立研究開発法人情報通信研究機構 | 音響モデルの学習装置及びそのためのコンピュータプログラム |
KR20180059031A (ko) * | 2016-11-25 | 2018-06-04 | 한국전자통신연구원 | 음향모델 생성 장치 및 방법 |
CN108615525A (zh) * | 2016-12-09 | 2018-10-02 | 中国移动通信有限公司研究院 | 一种语音识别方法及装置 |
-
2018
- 2018-12-24 CN CN201811583120.3A patent/CN109559749B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104167206A (zh) * | 2013-05-17 | 2014-11-26 | 佳能株式会社 | 声学模型合并方法和设备以及语音识别方法和系统 |
CN103474069A (zh) * | 2013-09-12 | 2013-12-25 | 中国科学院计算技术研究所 | 用于融合多个语音识别系统的识别结果的方法及系统 |
CN105161092A (zh) * | 2015-09-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
WO2018066436A1 (ja) * | 2016-10-05 | 2018-04-12 | 国立研究開発法人情報通信研究機構 | 音響モデルの学習装置及びそのためのコンピュータプログラム |
KR20180059031A (ko) * | 2016-11-25 | 2018-06-04 | 한국전자통신연구원 | 음향모델 생성 장치 및 방법 |
CN108615525A (zh) * | 2016-12-09 | 2018-10-02 | 中国移动通信有限公司研究院 | 一种语音识别方法及装置 |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Novel Front-End Features Based on Neural Graph Embeddings for DNN-HMM and LSTM-CTC Acoustic Modeling;Liu Yuzong 等;《INTERSPEECH 2016》;20160930;793-797 * |
基于MTL-DNN系统融合的混合语言模型语音识别方法;范正光 等;《数据采集与处理》;20170531;第32卷(第5期);1012-1021 * |
Also Published As
Publication number | Publication date |
---|---|
CN109559749A (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109559749B (zh) | 用于语音识别系统的联合解码方法及系统 | |
CN108417217B (zh) | 说话人识别网络模型训练方法、说话人识别方法及系统 | |
CN110246487B (zh) | 用于单通道的语音识别模型的优化方法及系统 | |
CN108417205B (zh) | 语义理解训练方法和系统 | |
US11145292B2 (en) | Method and device for updating language model and performing speech recognition based on language model | |
CN108922518B (zh) | 语音数据扩增方法和系统 | |
CN106534548B (zh) | 语音纠错方法和装置 | |
CN109346064B (zh) | 用于端到端语音识别模型的训练方法及系统 | |
CN110556100A (zh) | 端到端语音识别模型的训练方法及系统 | |
CN110970031B (zh) | 语音识别系统及方法 | |
CN108108428B (zh) | 一种构建语言模型的方法、输入法及系统 | |
CN108389575B (zh) | 音频数据识别方法及系统 | |
US12039982B2 (en) | Joint automatic speech recognition and speaker diarization | |
CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
CN108417207B (zh) | 一种深度混合生成网络自适应方法及系统 | |
CN112861521B (zh) | 语音识别结果纠错方法、电子设备及存储介质 | |
CN111767383B (zh) | 对话状态跟踪方法、系统及人机对话方法 | |
CN110930980A (zh) | 一种中英文混合语音的声学识别模型、方法及系统 | |
CN110349569B (zh) | 定制化产品语言模型的训练和识别方法及装置 | |
CN111667728B (zh) | 语音后处理模块训练方法和装置 | |
CN113362829B (zh) | 说话人验证方法、电子设备及存储介质 | |
KR20190012419A (ko) | 발화 유창성 자동 평가 시스템 및 방법 | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN113361396A (zh) | 多模态的知识蒸馏方法及系统 | |
CN111816167B (zh) | 说话者嵌入学习方法、说话者识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |