CN111933125B - 联合模型的语音识别方法、装置和计算机设备 - Google Patents
联合模型的语音识别方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111933125B CN111933125B CN202010968245.9A CN202010968245A CN111933125B CN 111933125 B CN111933125 B CN 111933125B CN 202010968245 A CN202010968245 A CN 202010968245A CN 111933125 B CN111933125 B CN 111933125B
- Authority
- CN
- China
- Prior art keywords
- sequence
- recognition
- identification
- model
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000007704 transition Effects 0.000 claims description 71
- 230000001186 cumulative effect Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 abstract description 7
- 238000012549 training Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 18
- 238000012360 testing method Methods 0.000 description 12
- 238000012795 verification Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种联合模型的语音识别方法、装置和计算机设备,首先将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到第一语音识别模型对应的第一识别序列、第二语音识别模型对应的第二识别序列,其中,第一语音识别模型为基于HMM的语音识别模型,第二语音识别模型为端到端语音识别模型。系统根据第二识别序列对所述第一识别序列进行校正,得到最终识别结果。本申请通过将两种不同类型的语音识别模型的识别序列进行相互结合,通过第二识别序列对第一识别序列进行校正,从而有效提高对语音分割的准确度。
Description
技术领域
本申请涉及语音识别技术领域,特别涉及一种联合模型的语音识别方法、装置和计算机设备。
背景技术
现有技术中,语音识别模型法是一种广泛应用的语音识别技术,语音识别模型法可分为基于人工神经网络的方法和基于隐马尔可夫模型的方法,但对于语音分割任务,这两种方法均存在一定的局限性(基于人工神经网络的方法无法有效分辨出空白标签对应的声学单元;而隐马尔可夫模型预测出来的声学单元严重依赖基于HMM(Hidden MarkovModel)的语音识别模型的识别率,如果模型的预测结果与待分割语音的真实标签存在较大误差,那么分割出来的语音标签就存在错误标识),导致采用这两种语音识别方法进行语音分割的准确度较低。
发明内容
本申请的主要目的为提供一种联合模型的语音识别方法、装置和计算机设备,旨在解决现有语音识别模型法的语音分割的准确度较低的弊端。
为实现上述目的,本申请提供了一种基于联合模型的语音识别方法,包括:
将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到所述第一语音识别模型对应的第一识别序列、所述第二语音识别模型对应的第二识别序列,其中,所述第一语音识别模型为基于HMM的语音识别模型,所述第二语音识别模型为端到端语音识别模型;
根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果。
进一步的,所述第一识别序列为词格形式,所述根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果的步骤,包括:
以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度;
根据所述序列相似度对所述第一识别序列的最优路径进行权重更新;
从权重更新后的所述第一识别序列中,解码得到最优输出序列,并将所述最优输出序列作为所述最终识别结果。
进一步的,所述以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度的步骤,包括:
从所述第一识别序列中筛选出最优路径输出序列;
调用最少编辑距离算法,计算所述最优路径输出序列和所述第二识别序列之间的编辑距离;
进一步的,所述根据所述序列相似度对所述第一识别序列的最优路径进行权重更新的步骤,包括:
使用所述Pn替换所述最优路径输出序列对应的所述hn,实现对所述第一识别序列的最优路径进行权重更新。
进一步的,所述从权重更新后的所述第一识别序列中,解码得到最优输出序列的步骤,包括:
分别计算权重更新后的所述第一识别序列中各路径的累积转移概率;
从所述第一识别序列的各路径中,选择最大的累积转移概率对应的路径进行解码,得到所述最优输出序列。
进一步的,所述将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到所述第一语音识别模型对应的第一识别序列、所述第二语音识别模型对应的第二识别序列的步骤之后,包括:
判断所述第一识别序列与所述第二识别序列是否为不等长序列;
若所述第一识别序列与所述第二识别序列为不等长序列,则判定所述第一语音识别模型不能有效分割所述待识别语音,并输出提示信息。
进一步的,所述将所述最优输出序列作为所述最终识别结果的步骤,包括:
采用词格工具提取所述待识别语音的对齐信息;
使用所述对齐信息对所述最优输出序列进行归类,得到所述最终识别结果。
本申请还提供了一种基于联合模型的语音识别装置,包括:
第一识别模块,用于将待识别语音输入第一语音识别模型中,得到第一识别序列,其中,所述第一语音识别模型为基于HMM的语音识别模型;
第二识别模块,用于将待识别语音输入第二语音识别模型中,得到第二识别序列,其中,所述第二语音识别模型为端到端语音识别模型;
校正模块,用于根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果。
进一步的,所述校正模块,包括:
计算单元,用于以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度;
更新单元,用于根据所述序列相似度对所述第一识别序列的最优路径进行权重更新;
解码单元,用于从权重更新后的所述第一识别序列中,解码得到最优输出序列,并将所述最优输出序列作为所述最终识别结果。
进一步的,所述计算单元,包括:
筛选子单元,用于从所述第一识别序列中筛选出最优路径输出序列;
第一计算子单元,用于调用最少编辑距离算法,计算所述最优路径输出序列和所述第二识别序列之间的编辑距离;
进一步的,所述更新单元,包括:
更新子单元,用于使用所述Pn替换所述最优路径输出序列对应的所述hn,实现对所述第一识别序列的最优路径进行权重更新。
进一步的,所述解码单元,包括:
第四计算子单元,用于分别计算权重更新后的所述第一识别序列中各路径的累积转移概率;
解码子单元,用于从所述第一识别序列的各路径中,选择最大的累积转移概率对应的路径进行解码,得到所述最优输出序列。
进一步的,所述语音识别装置,还包括:
判断模块,用于判断所述第一识别序列与所述第二识别序列是否为不等长序列;
提示模块,用于若所述第一识别序列与所述第二识别序列为不等长序列,则判定所述第一语音识别模型不能有效分割所述待识别语音,并输出提示信息。
进一步的,所述解码单元,还包括:
提取子单元,用于采用词格工具提取所述待识别语音的对齐信息;
归类子单元,用于使用所述对齐信息对所述最优输出序列进行归类,得到所述最终识别结果。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种联合模型的语音识别方法、装置和计算机设备,首先将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到第一语音识别模型对应的第一识别序列、第二语音识别模型对应的第二识别序列,其中,第一语音识别模型为基于HMM的语音识别模型,第二语音识别模型为端到端语音识别模型。系统根据第二识别序列对所述第一识别序列进行校正,得到最终识别结果。本申请通过将两种不同类型的语音识别模型的识别序列进行相互结合,通过第二识别序列对第一识别序列进行校正,从而有效提高对语音分割的准确度。
附图说明
图1是本申请一实施例中联合模型的语音识别方法步骤示意图;
图2是本申请一实施例中联合模型的语音识别装置整体结构框图;
图3是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种基于联合模型的语音识别方法,包括:
S1:将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到所述第一语音识别模型对应的第一识别序列、所述第二语音识别模型对应的第二识别序列,其中,所述第一语音识别模型为基于HMM的语音识别模型,所述第二语音识别模型为端到端语音识别模型;
S2:根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果。
本实施例中,系统在接收到待识别语音后,将待识别语音分别输入第一语音识别模型和第二语音识别模型中,经过语音识别模型对待识别语音的相应处理后,第一语音识别模型输出第一识别序列,第二语音识别模型输出第二识别序列。第一语音识别模型为基于HMM的语音识别模型(比如HMM-GMM、HMM-DNN、HMM-LSTM等关于HMM和人工神经网络的混合结构),第一语音识别模型训练时,按7:2:2的比例划分Aishell1语料库,分别获得训练集、验证集和测试集,训练集和验证集用于基于HMM的语音识别模型训练,测试集则是用于测试基于HMM的语音识别模型训练后的准确率。基于HMM的语音识别模型的模型输入特征采用39维的MFCC特征,在傅里叶变换过程中,语音帧长为25ms,帧移为10ms。模型训练过程中,采用Kaldi工具箱进行搭建HMM-GMM语音识别模型,该模型采用三音素作为HMM的隐含状态,其中采用决策树进行聚类后的有效三音素为6890个,模型训练过程中采用400个单高斯模型对语音特征进行分类。第二语音识别模型为端到端语音识别模型(比如LSTM-CTC和基于注意力机制模型),第二语音识别模型训练时,同样按7:2:2的比例划分Aishell1语料库,分别获得训练集、验证集和测试集,训练集、验证集用于端到端语音识别模型训练,测试集则是用于测试端到端语音识别模型训练后的准确率。端到端语音识别模型的模型输入特征采用161维的对数幅度谱特征,在傅里叶变换过程中,语音帧长为25ms,帧移为10ms。模型训练过程中,采用Espnet平台搭建基于LSTM-CTC的端到端语音识别模型,模型具体由3层CNN+2层BLSTM+2层DNN组成,模型输入维度设置为60*161,对应的输出维度为60*4096,其中核心单元BLSTM采用单向2048个神经元。系统采用第二识别序列对第一识别序列进行校正,从而提高第一识别序列的准确率,矫正后的第一识别序列即为最终识别结果。具体地,在本实施例中,第一识别序列为词格形式(词格形式包含多种解码途径)系统以第二识别序列为基准,首先计算出第一识别序列与第二识别序列之间的序列相似度。然后,根据序列相似度对第一识别序列的最优路径进行权重更新(权重更新后的第一识别序列的各个解码路径都会发生变更),系统从权重更新后的第一识别序列(此时依然是词格形式)中,通过维比特算法解码得到最优输出序列,并将最优输出序列作为最终识别结果,完成对待识别语音的语音识别。本实施例中,通过将两种不同类型的语音识别模型(基于HMM的语音识别模型和端到端语音识别模型)的识别结果进行结合,以第二识别序列为基础,对第一识别序列进行校验,从而有效提高对待识别语音的识别准确率。
进一步的,所述第一识别序列为词格形式,所述根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果的步骤,包括:
S201:以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度;
S202:根据所述序列相似度对所述第一识别序列的最优路径进行权重更新;
S203:从权重更新后的所述第一识别序列中,解码得到最优输出序列,并将所述最优输出序列作为所述最终识别结果。
本实施例中,系统以第二识别序列为基准,调用预设算法计算得到第一识别序列与第二识别序列之间的序列相似度。具体地,系统首先通过维比特算法从第一识别序列中筛选出最优路径输出序列,再调用最少编辑算法,计算最优路径输出序列与第二识别序列之间的编辑距离。系统将编辑距离代入第一公式中,计算得到序列相似度。其中,第一公式为:,I为序列相似度,d为编辑距离。在得到第一识别序列和第二识别序列的序列相似度后,系统调用第二公式,并将序列相似度代入其中,从而计算得到更新转移概率。其中,第二公式为:,Pn为最优路径输出序列的第n个更新转移概率,hn为最优路径输出序列当前的第n个转移概率。系统使用Pn替换最优路径输出序列对应的hn,比如P1替换h1,P2替换h2,依次类推,在完成Pn的替换后,实现对第一识别序列的最优路径的权重更新,而原来的第一识别序列中的各个解码路径也会相应发生改变,此时的最优路径输出序列可能已经不是最优路径了。系统分别计算权重更新后的第一识别序列中各路径的累积转移概率,然后从第一识别序列的各路径中,选择最大的累积转移概率对应的路径进行解码,从而得到最优输出序列。系统将最优输出序列作为待识别语音的最终识别结果,在经过基于第二识别序列的校正后,此时针对待识别语音的最优输出序列的识别准确率大幅提高。
进一步的,所述以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度的步骤,包括:
S2011:从所述第一识别序列中筛选出最优路径输出序列;
S2012:调用最少编辑距离算法,计算所述最优路径输出序列和所述第二识别序列之间的编辑距离;
本实施例中,词格形式的第一识别序列包含有多种解码路径,系统通过维比特算法从第一识别序列中筛选出最优路径输出序列(即累积转移概率最大的路径所形成的序列)。系统采用最少编辑距离算法(其中编辑动作包括删除、替换和插入三种),计算出最优路径输出序列和第二识别序列之间的编辑距离。系统调用第一公式,并将编辑距离代入第一公式中,计算得到最优路径输出序列和第二识别序列之间的编辑距离。其中,第一公式为:,I为序列相似度,d为编辑距离。在第一公式中,编辑距离d的取值范围为,且取值为整数。当两序列完全相同,编辑距离d=0,据上式计算I=1;当两序列编辑距离趋向,据上式计算I趋向0,因此,本实施例中的序列相似度范围设置为[0,1]。
进一步的,所述根据所述序列相似度对所述第一识别序列的最优路径进行权重更新的步骤,包括:
S2022:使用所述Pn替换所述最优路径输出序列对应的所述hn,实现对所述第一识别序列的最优路径进行权重更新。
本实施例中,系统调用第二公式,并将序列相似度代入第二公式中,从而计算出更新转移概率。其中,第二公式为:,Pn为所述最优路径输出序列的第n个更新转移概率,hn为最优路径输出序列当前的第n个转移概率。系统使用计算得到的Pn分别替换最优路径输出序列对应的hn,比如P1替换h1,P2替换h2,......,Pn替换hn,在完成最优路径输出序列中各个转移概率的替换后,第一识别序列的各个解码路径所对应的累积转移概率会发生变更,从而使得解码的最优路径随着改变,实现对第一识别序列的最优路径的权重更新。
进一步的,所述从权重更新后的所述第一识别序列中,解码得到最优输出序列的步骤,包括:
S2031:分别计算权重更新后的所述第一识别序列中各路径的累积转移概率;
S2032:从所述第一识别序列的各路径中,选择最大的累积转移概率对应的路径进行解码,得到所述最优输出序列。
本实施例中,系统分别计算权重更新后的第一识别序列中各解码路径的累积转移概率,其中累积转移概率为解码路径所对应的各个转移概率的乘积。系统从计算后的各个累积转移概率中筛选出最大的一个累积转移概率,最大的累积转移概率所对应的路径即为第一识别序列权重更新后的最优路径。系统对最大的累积转移概率对应的路径进行解码,从而得到最优输出序列。
进一步的,所述所述将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到所述第一语音识别模型对应的第一识别序列、所述第二语音识别模型对应的第二识别序列的步骤之后,包括:
S3:判断所述第一识别序列与所述第二识别序列是否为不等长序列;
S4:若所述第一识别序列与所述第二识别序列为不等长序列,则判定所述第一语音识别模型不能有效分割所述待识别语音,并输出提示信息。
本实施例中,系统判断第一识别序列和第二识别序列是否为不等长序列,如果第一识别序列与第二识别序列为不等长序列,则判定第一语音识别模型在分割待识别语音时,无法有效分割其中的语音帧,并输出相应的提示信息。用户在接收到提示信息后,可以重新采集待识别语音。
进一步的,所述将所述最优输出序列作为所述最终识别结果的步骤,包括:
S401:采用词格工具提取所述待识别语音的对齐信息;
S402:使用所述对齐信息对所述最优输出序列进行归类,得到所述最终识别结果。
本实施例中,系统调用kaldi的词格工具提取待识别语音的对齐信息,其中,对齐信息包括字和词组的解码ID、解码ID对应的HMM状态。系统根据对齐信息对重新编码后的最优输出序列进行归类,实现待识别语音中语音帧与识别文字之间的对齐,对齐后得到最终识别结果并输出,完成待识别语音的整个识别流程。
本实施例提供的一种联合模型的语音识别方法、装置和计算机设备,首先将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到第一语音识别模型对应的第一识别序列、第二语音识别模型对应的第二识别序列,其中,第一语音识别模型为基于HMM的语音识别模型,第二语音识别模型为端到端语音识别模型。系统根据第二识别序列对所述第一识别序列进行校正,得到最终识别结果。本申请通过将两种不同类型的语音识别模型的识别序列进行相互结合,通过第二识别序列对第一识别序列进行校正,从而有效提高对语音分割的准确度。
参照图2,本申请一实施例中还提供了一种基于联合模型的语音识别装置,包括:
第一识别模块1,用于将待识别语音输入第一语音识别模型中,得到第一识别序列,其中,所述第一语音识别模型为基于HMM的语音识别模型;
第二识别模块2,用于将待识别语音输入第二语音识别模型中,得到第二识别序列,其中,所述第二语音识别模型为端到端语音识别模型;
校正模块3,用于根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果。
本实施例中,系统在接收到待识别语音后,将待识别语音分别输入第一语音识别模型和第二语音识别模型中,经过语音识别模型对待识别语音的相应处理后,第一语音识别模型输出第一识别序列,第二语音识别模型输出第二识别序列。第一语音识别模型为基于HMM的语音识别模型(比如HMM-GMM、HMM-DNN、HMM-LSTM等关于HMM和人工神经网络的混合结构),第一语音识别模型训练时,按7:2:2的比例划分Aishell1语料库,分别获得训练集、验证集和测试集,训练集和验证集用于基于HMM的语音识别模型训练,测试集则是用于测试基于HMM的语音识别模型训练后的准确率。基于HMM的语音识别模型的模型输入特征采用39维的MFCC特征,在傅里叶变换过程中,语音帧长为25ms,帧移为10ms。模型训练过程中,采用Kaldi工具箱进行搭建HMM-GMM语音识别模型,该模型采用三音素作为HMM的隐含状态,其中采用决策树进行聚类后的有效三音素为6890个,模型训练过程中采用400个单高斯模型对语音特征进行分类。第二语音识别模型为端到端语音识别模型(比如LSTM-CTC和基于注意力机制模型),第二语音识别模型训练时,同样按7:2:2的比例划分Aishell1语料库,分别获得训练集、验证集和测试集,训练集、验证集用于端到端语音识别模型训练,测试集则是用于测试端到端语音识别模型训练后的准确率。端到端语音识别模型的模型输入特征采用161维的对数幅度谱特征,在傅里叶变换过程中,语音帧长为25ms,帧移为10ms。模型训练过程中,采用Espnet平台搭建基于LSTM-CTC的端到端语音识别模型,模型具体由3层CNN+2层BLSTM+2层DNN组成,模型输入维度设置为60*161,对应的输出维度为60*4096,其中核心单元BLSTM采用单向2048个神经元。系统采用第二识别序列对第一识别序列进行校正,从而提高第一识别序列的准确率,矫正后的第一识别序列即为最终识别结果。具体地,在本实施例中,第一识别序列为词格形式(词格形式包含多种解码途径)系统以第二识别序列为基准,首先计算出第一识别序列与第二识别序列之间的序列相似度。然后,根据序列相似度对第一识别序列的最优路径进行权重更新(权重更新后的第一识别序列的各个解码路径都会发生变更),系统从权重更新后的第一识别序列(此时依然是词格形式)中,通过维比特算法解码得到最优输出序列,并将最优输出序列作为最终识别结果,完成对待识别语音的语音识别。本实施例中,通过将两种不同类型的语音识别模型(基于HMM的语音识别模型和端到端语音识别模型)的识别结果进行结合,以第二识别序列为基础,对第一识别序列进行校验,从而有效提高对待识别语音的识别准确率。
进一步的,所述校正模块3,包括:
计算单元,用于以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度;
更新单元,用于根据所述序列相似度对所述第一识别序列的最优路径进行权重更新;
解码单元,用于从权重更新后的所述第一识别序列中,解码得到最优输出序列,并将所述最优输出序列作为所述最终识别结果。
本实施例中,系统以第二识别序列为基准,调用预设算法计算得到第一识别序列与第二识别序列之间的序列相似度。具体地,系统首先通过维比特算法从第一识别序列中筛选出最优路径输出序列,再调用最少编辑算法,计算最优路径输出序列与第二识别序列之间的编辑距离。系统将编辑距离代入第一公式中,计算得到序列相似度。其中,第一公式为:,I为序列相似度,d为编辑距离。在得到第一识别序列和第二识别序列的序列相似度后,系统调用第二公式,并将序列相似度代入其中,从而计算得到更新转移概率。其中,第二公式为:,Pn为最优路径输出序列的第n个更新转移概率,hn为最优路径输出序列当前的第n个转移概率。系统使用Pn替换最优路径输出序列对应的hn,比如P1替换h1,P2替换h2,依次类推,在完成Pn的替换后,实现对第一识别序列的最优路径的权重更新,而原来的第一识别序列中的各个解码路径也会相应发生改变,此时的最优路径输出序列可能已经不是最优路径了。系统分别计算权重更新后的第一识别序列中各路径的累积转移概率,然后从第一识别序列的各路径中,选择最大的累积转移概率对应的路径进行解码,从而得到最优输出序列。系统将最优输出序列作为待识别语音的最终识别结果,在经过基于第二识别序列的校正后,此时针对待识别语音的最优输出序列的识别准确率大幅提高。
进一步的,所述计算单元,包括:
筛选子单元,用于从所述第一识别序列中筛选出最优路径输出序列;
第一计算子单元,用于调用最少编辑距离算法,计算所述最优路径输出序列和所述第二识别序列之间的编辑距离;
本实施例中,词格形式的第一识别序列包含有多种解码路径,系统通过维比特算法从第一识别序列中筛选出最优路径输出序列(即累积转移概率最大的路径所形成的序列)。系统采用最少编辑距离算法(其中编辑动作包括删除、替换和插入三种),计算出最优路径输出序列和第二识别序列之间的编辑距离。系统调用第一公式,并将编辑距离代入第一公式中,计算得到最优路径输出序列和第二识别序列之间的编辑距离。其中,第一公式为:,I为序列相似度,d为编辑距离。在第一公式中,编辑距离d的取值范围为,且取值为整数。当两序列完全相同,编辑距离d=0,据上式计算I=1;当两序列编辑距离趋向,据上式计算I趋向0,因此,本实施例中的序列相似度范围设置为[0,1]。
进一步的,所述更新单元,包括:
更新子单元,用于使用所述Pn替换所述最优路径输出序列对应的所述hn,实现对所述第一识别序列的最优路径进行权重更新。
本实施例中,系统调用第二公式,并将序列相似度代入第二公式中,从而计算出更新转移概率。其中,第二公式为:,Pn为所述最优路径输出序列的第n个更新转移概率,hn为最优路径输出序列当前的第n个转移概率。系统使用计算得到的Pn分别替换最优路径输出序列对应的hn,比如P1替换h1,P2替换h2,......,Pn替换hn,在完成最优路径输出序列中各个转移概率的替换后,第一识别序列的各个解码路径所对应的累积转移概率会发生变更,从而使得解码的最优路径随着改变,实现对第一识别序列的最优路径的权重更新。
进一步的,所述解码单元,包括:
第四计算子单元,用于分别计算权重更新后的所述第一识别序列中各路径的累积转移概率;
解码子单元,用于从所述第一识别序列的各路径中,选择最大的累积转移概率对应的路径进行解码,得到所述最优输出序列。
本实施例中,系统分别计算权重更新后的第一识别序列中各解码路径的累积转移概率,其中累积转移概率为解码路径所对应的各个转移概率的乘积。系统从计算后的各个累积转移概率中筛选出最大的一个累积转移概率,最大的累积转移概率所对应的路径即为第一识别序列权重更新后的最优路径。系统对最大的累积转移概率对应的路径进行解码,从而得到最优输出序列。
进一步的,所述语音识别装置,还包括:
判断模块4,用于判断所述第一识别序列与所述第二识别序列是否为不等长序列;
提示模块5,用于若所述第一识别序列与所述第二识别序列为不等长序列,则判定所述第一语音识别模型不能有效分割所述待识别语音,并输出提示信息。
本实施例中,系统判断第一识别序列和第二识别序列是否为不等长序列,如果第一识别序列与第二识别序列为不等长序列,则判定第一语音识别模型在分割待识别语音时,无法有效分割其中的语音帧,并输出相应的提示信息。用户在接收到提示信息后,可以重新采集待识别语音。
进一步的,所述解码单元,还包括:
提取子单元,用于采用词格工具提取所述待识别语音的对齐信息;
归类子单元,用于使用所述对齐信息对所述最优输出序列进行归类,得到所述最终识别结果。
本实施例中,系统调用kaldi的词格工具提取待识别语音的对齐信息,其中,对齐信息包括字和词组的解码ID、解码ID对应的HMM状态。系统根据对齐信息对重新编码后的最优输出序列进行归类,实现待识别语音中语音帧与识别文字之间的对齐,对齐后得到最终识别结果并输出,完成待识别语音的整个识别流程。
本实施例提供的一种联合模型的语音识别装置,首先将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到第一语音识别模型对应的第一识别序列、第二语音识别模型对应的第二识别序列,其中,第一语音识别模型为基于HMM的语音识别模型,第二语音识别模型为端到端语音识别模型。系统根据第二识别序列对所述第一识别序列进行校正,得到最终识别结果。本申请通过将两种不同类型的语音识别模型的识别序列进行相互结合,通过第二识别序列对第一识别序列进行校正,从而有效提高对语音分割的准确度。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储第一公式等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于联合模型的语音识别方法。
上述处理器执行上述基于联合模型的语音识别方法的步骤:
S1:将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到所述第一语音识别模型对应的第一识别序列、所述第二语音识别模型对应的第二识别序列,其中,所述第一语音识别模型为基于HMM的语音识别模型,所述第二语音识别模型为端到端语音识别模型;
S2:根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果。
进一步的,所述第一识别序列为词格形式,所述根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果的步骤,包括:
S201:以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度;
S202:根据所述序列相似度对所述第一识别序列的最优路径进行权重更新;
S203:从权重更新后的所述第一识别序列中,解码得到最优输出序列,并将所述最优输出序列作为所述最终识别结果。
进一步的,所述以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度的步骤,包括:
S2011:从所述第一识别序列中筛选出最优路径输出序列;
S2012:调用最少编辑距离算法,计算所述最优路径输出序列和所述第二识别序列之间的编辑距离;
进一步的,所述根据所述序列相似度对所述第一识别序列的最优路径进行权重更新的步骤,包括:
S2022:使用所述Pn替换所述最优路径输出序列对应的所述hn,实现对所述第一识别序列的最优路径进行权重更新。
进一步的,所述从权重更新后的所述第一识别序列中,解码得到最优输出序列的步骤,包括:
S2031:分别计算权重更新后的所述第一识别序列中各路径的累积转移概率;
S2032:从所述第一识别序列的各路径中,选择最大的累积转移概率对应的路径进行解码,得到所述最优输出序列。
进一步的,所述所述将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到所述第一语音识别模型对应的第一识别序列、所述第二语音识别模型对应的第二识别序列的步骤之后,包括:
S3:判断所述第一识别序列与所述第二识别序列是否为不等长序列;
S4:若所述第一识别序列与所述第二识别序列为不等长序列,则判定所述第一语音识别模型不能有效分割所述待识别语音,并输出提示信息。
进一步的,所述将所述最优输出序列作为所述最终识别结果的步骤,包括:
S401:采用词格工具提取所述待识别语音的对齐信息;
S402:使用所述对齐信息对所述最优输出序列进行归类,得到所述最终识别结果。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于联合模型的语音识别方法,所述语音识别方法包括具体为:
S1:将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到所述第一语音识别模型对应的第一识别序列、所述第二语音识别模型对应的第二识别序列,其中,所述第一语音识别模型为基于HMM的语音识别模型,所述第二语音识别模型为端到端语音识别模型;
S2:根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果。
进一步的,所述第一识别序列为词格形式,所述根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果的步骤,包括:
S201:以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度;
S202:根据所述序列相似度对所述第一识别序列的最优路径进行权重更新;
S203:从权重更新后的所述第一识别序列中,解码得到最优输出序列,并将所述最优输出序列作为所述最终识别结果。
进一步的,所述以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度的步骤,包括:
S2011:从所述第一识别序列中筛选出最优路径输出序列;
S2012:调用最少编辑距离算法,计算所述最优路径输出序列和所述第二识别序列之间的编辑距离;
进一步的,所述根据所述序列相似度对所述第一识别序列的最优路径进行权重更新的步骤,包括:
S2022:使用所述Pn替换所述最优路径输出序列对应的所述hn,实现对所述第一识别序列的最优路径进行权重更新。
进一步的,所述从权重更新后的所述第一识别序列中,解码得到最优输出序列的步骤,包括:
S2031:分别计算权重更新后的所述第一识别序列中各路径的累积转移概率;
S2032:从所述第一识别序列的各路径中,选择最大的累积转移概率对应的路径进行解码,得到所述最优输出序列。
进一步的,所述所述将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到所述第一语音识别模型对应的第一识别序列、所述第二语音识别模型对应的第二识别序列的步骤之后,包括:
S3:判断所述第一识别序列与所述第二识别序列是否为不等长序列;
S4:若所述第一识别序列与所述第二识别序列为不等长序列,则判定所述第一语音识别模型不能有效分割所述待识别语音,并输出提示信息。
进一步的,所述将所述最优输出序列作为所述最终识别结果的步骤,包括:
S401:采用词格工具提取所述待识别语音的对齐信息;
S402:使用所述对齐信息对所述最优输出序列进行归类,得到所述最终识别结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种基于联合模型的语音识别方法,其特征在于,包括:
将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到所述第一语音识别模型对应的第一识别序列、所述第二语音识别模型对应的第二识别序列,其中,所述第一语音识别模型为基于HMM的语音识别模型,所述第二语音识别模型为端到端语音识别模型;
根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果;
所述第一识别序列为词格形式,所述根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果的步骤,包括:
以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度;
根据所述序列相似度对所述第一识别序列的最优路径进行权重更新;
从权重更新后的所述第一识别序列中,解码得到最优输出序列,并将所述最优输出序列作为所述最终识别结果。
4.根据权利要求3所述的基于联合模型的语音识别方法,其特征在于,所述从权重更新后的所述第一识别序列中,解码得到最优输出序列的步骤,包括:
分别计算权重更新后的所述第一识别序列中各路径的累积转移概率;
从所述第一识别序列的各路径中,选择最大的累积转移概率对应的路径进行解码,得到所述最优输出序列。
5.根据权利要求1所述的基于联合模型的语音识别方法,其特征在于,所述将待识别语音分别输入第一语音识别模型和第二语音识别模型中,得到所述第一语音识别模型对应的第一识别序列、所述第二语音识别模型对应的第二识别序列的步骤之后,包括:
判断所述第一识别序列与所述第二识别序列是否为不等长序列;
若所述第一识别序列与所述第二识别序列为不等长序列,则判定所述第一语音识别模型不能有效分割所述待识别语音,并输出提示信息。
6.根据权利要求1所述的基于联合模型的语音识别方法,其特征在于,所述将所述最优输出序列作为所述最终识别结果的步骤,包括:
采用词格工具提取所述待识别语音的对齐信息;
使用所述对齐信息对所述最优输出序列进行归类,得到所述最终识别结果。
7.一种基于联合模型的语音识别装置,其特征在于,包括:
第一识别模块,用于将待识别语音输入第一语音识别模型中,得到第一识别序列,其中,所述第一语音识别模型为基于HMM的语音识别模型;
第二识别模块,用于将待识别语音输入第二语音识别模型中,得到第二识别序列,其中,所述第二语音识别模型为端到端语音识别模型;
校正模块,用于根据所述第二识别序列对所述第一识别序列进行校正,得到最终识别结果;
所述校正模块,包括:
计算单元,用于以所述第二识别序列为基准,调用预设算法计算得到所述第一识别序列与所述第二识别序列之间的序列相似度;
更新单元,用于根据所述序列相似度对所述第一识别序列的最优路径进行权重更新;
解码单元,用于从权重更新后的所述第一识别序列中,解码得到最优输出序列,并将所述最优输出序列作为所述最终识别结果。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010968245.9A CN111933125B (zh) | 2020-09-15 | 2020-09-15 | 联合模型的语音识别方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010968245.9A CN111933125B (zh) | 2020-09-15 | 2020-09-15 | 联合模型的语音识别方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111933125A CN111933125A (zh) | 2020-11-13 |
CN111933125B true CN111933125B (zh) | 2021-02-02 |
Family
ID=73333523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010968245.9A Active CN111933125B (zh) | 2020-09-15 | 2020-09-15 | 联合模型的语音识别方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111933125B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863489B (zh) * | 2021-04-26 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及介质 |
CN113763960B (zh) * | 2021-11-09 | 2022-04-26 | 深圳市友杰智新科技有限公司 | 模型输出的后处理方法、装置和计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937972A (zh) * | 2012-10-15 | 2013-02-20 | 上海外教社信息技术有限公司 | 一种视听字幕制作系统及方法 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111179917A (zh) * | 2020-01-17 | 2020-05-19 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111292740A (zh) * | 2018-11-21 | 2020-06-16 | 财团法人工业技术研究院 | 语音辨识系统及其方法、与电脑程序产品 |
CN111341305A (zh) * | 2020-03-05 | 2020-06-26 | 苏宁云计算有限公司 | 一种音频数据标注方法、装置及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101359689B1 (ko) * | 2012-01-20 | 2014-02-10 | 한국과학기술원 | 준-마르코프 모델을 이용한 연속 음소 인식 방법, 이를 처리하는 시스템 및 기록매체 |
JP6812843B2 (ja) * | 2017-02-23 | 2021-01-13 | 富士通株式会社 | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 |
-
2020
- 2020-09-15 CN CN202010968245.9A patent/CN111933125B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937972A (zh) * | 2012-10-15 | 2013-02-20 | 上海外教社信息技术有限公司 | 一种视听字幕制作系统及方法 |
CN111292740A (zh) * | 2018-11-21 | 2020-06-16 | 财团法人工业技术研究院 | 语音辨识系统及其方法、与电脑程序产品 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111179917A (zh) * | 2020-01-17 | 2020-05-19 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111341305A (zh) * | 2020-03-05 | 2020-06-26 | 苏宁云计算有限公司 | 一种音频数据标注方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111933125A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112435656A (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
CN111933125B (zh) | 联合模型的语音识别方法、装置和计算机设备 | |
US7324941B2 (en) | Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these | |
CN113506574A (zh) | 自定义命令词的识别方法、装置和计算机设备 | |
CN111223476B (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN110808049B (zh) | 语音标注文本修正方法、计算机设备和存储介质 | |
CN112509560B (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN113270103A (zh) | 基于语义增强的智能语音对话方法、装置、设备及介质 | |
CN114360522A (zh) | 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备 | |
CN115497484B (zh) | 语音解码结果处理方法、装置、设备及存储介质 | |
CN112733911A (zh) | 实体识别模型的训练方法、装置、设备和存储介质 | |
CN114360521B (zh) | 语音识别模型的训练方法、语音误识别的检测方法及设备 | |
CN113724688B (zh) | 语音识别的后处理方法、装置和计算机设备 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN112767921A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN113223504B (zh) | 声学模型的训练方法、装置、设备和存储介质 | |
CN113569021B (zh) | 用户分类的方法、计算机设备和可读存储介质 | |
CN117672176A (zh) | 基于语音自监督学习表征的重读可控语音合成方法及装置 | |
CN113268564A (zh) | 相似问题的生成方法、装置、设备及存储介质 | |
CN112464649A (zh) | 多音字的拼音转换方法、装置、计算机设备和存储介质 | |
CN115831100A (zh) | 语音命令词识别方法、装置、设备及存储介质 | |
CN114723986A (zh) | 文本图像匹配方法、装置、设备及存储介质 | |
CN113486674A (zh) | 基于人工智能的针对多轮对话进行语义分析的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Speech recognition method, device, and computer equipment for joint models Granted publication date: 20210202 Pledgee: Shenzhen Shunshui Incubation Management Co.,Ltd. Pledgor: SHENZHEN YOUJIE ZHIXIN TECHNOLOGY Co.,Ltd. Registration number: Y2024980029366 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |