CN113707135A - 一种高精度连续语音识别的声学模型训练方法 - Google Patents

一种高精度连续语音识别的声学模型训练方法 Download PDF

Info

Publication number
CN113707135A
CN113707135A CN202111251770.XA CN202111251770A CN113707135A CN 113707135 A CN113707135 A CN 113707135A CN 202111251770 A CN202111251770 A CN 202111251770A CN 113707135 A CN113707135 A CN 113707135A
Authority
CN
China
Prior art keywords
acoustic model
training
model
acoustic
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111251770.XA
Other languages
English (en)
Other versions
CN113707135B (zh
Inventor
游萌
高君效
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN202111251770.XA priority Critical patent/CN113707135B/zh
Publication of CN113707135A publication Critical patent/CN113707135A/zh
Application granted granted Critical
Publication of CN113707135B publication Critical patent/CN113707135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明属于语音识别技术领域,公开了一种高精度连续语音识别的声学模型训练方法,包括如下步骤:步骤1.准备训练语料并提取语音特征;步骤2:计算声学模型;步骤3.声学模型初始化,步骤4.根据步骤4确定的训练迭代次数对步骤4的初始化声学模型进行迭代,步骤5.训练结束后选择合并前N个解码正确率最高的声学模型,对声学模型参数做平均并合并为最终声学模型。本发明优化了语音模型识别序列表达式,通过预先解码确定正确标注文本的同时,调整模型参数,尽可能减少容易混淆的正确结果和错误结果的整体差异性,提高了声学模型参数的解码精度。

Description

一种高精度连续语音识别的声学模型训练方法
技术领域
本发明属于语音识别技术领域,具体涉及一种高精度连续语音识别的声学模型训练方法。
背景技术
传统的声学建模方式基于隐马尔科夫框架,采用高斯混合模型( Gaussianmixture model,gmm) 来描述语音声学特征的概率分布,由于隐马尔科夫模型属于典型的浅层学习结构,是一种将原始输入信号转换到特征空间的简单结构,在海量数据下其性能受到限制。后期学术界将神经网络和隐马尔科夫模型配合使用,即混合模型对输出概率分布进行建模,提升整体效果,但提升相对仍然非常有限。
连续语音识别近似自然语音,是针对连续的长语句音频流,即来自说话人直接录入的语音,或者电话或其他音视频领域的音频信号,将包含大词汇量的音频信息自动转化成文字的过程。在输入的声音中,检测出可靠的语音,并排除静音,背景噪声和音乐等实时送入语音识别解码器进行识别。
为解决长语句识别结果不佳的问题,行业内通常的做法是使用大数据量的语音语料投入训练,可以提高综合性能,但是神经网络和隐马尔科夫模型的训练方式和解码模型的最终性能存在瓶颈,最终性能存在瓶颈的根本原因是以神经网络为代表的深度学习的梯度下降算法不能无限拟合所有训练数据特征,并且解码模型只是对一定样本量训练数据存在的有限空间的数学建模,并不代表现实中无限数据的可能,在有限数据训练和解码模型的情况下使连续语音识别效果难以改善。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种高精度连续语音识别的声学模型训练方法。
本发明所述一种高精度连续语音识别的声学模型训练方法,其特征在于,包括如下步骤:
步骤1.准备训练语料并提取语音特征作为训练集;并提取训练集语料的说话人声学特征;计算训练语料的帧数、特征维度和语音帧数-文本标注组合数量;
步骤2:计算声学模型参数;
声学模型参数计算公式如下所示:
Figure 949485DEST_PATH_IMAGE001
----公式④
P(Ou | Wu)表示对应词序列Wu和观测序列Ou得到的观测最大似然概率,Wu是词序列标注,Ou是观测序列,是声学模型参数,P(Wu)是语言模型产生的对应词序列Wu的概率;
Wu是词序列标注,W′是在Wu词序列标注的基础上将语言学信息加入后的词序列;
分母中P(Ou | W′)表示对应词序列W′和观测序列Ou得到的观测最大似然概率,P(W′)是语言模型产生的对应词序列W′的概率;
Figure 900123DEST_PATH_IMAGE002
是声学模型参数,
Figure 343481DEST_PATH_IMAGE003
表示已知样本的最大概率参数,u表示词序列中词条数目;
步骤3.声学模型初始化,
首先计算用于深度神经网络训练的预条件矩阵;
使用线性判别分析矩阵在预条件矩阵计算中,进行线性去相关,并按照指定的学习率和语音帧数-文本标注组合数量确定训练迭代次数,以及步骤3得到的声学模型参数,初始化声学模型;
步骤4.根据步骤3确定的训练迭代次数对步骤3的初始化声学模型进行迭代,每次迭代具体步骤为:
使用步骤1中的训练集对声学模型进行训练,
采用公式⑤或公式⑥对声学模型的参数进行调整;
其中公式⑤为
Figure 695965DEST_PATH_IMAGE004
----公式⑤
左边Q(θ;D)是训练方法中使用的新目标函数,其中θ是模型参数,D是训练数据;公式⑤右边Om表示第m个句子的观测序列,Wm表示第m个句子的标注文本,M为句子总数量;
公式⑥为
Figure 638513DEST_PATH_IMAGE005
----公式⑥
Wm表示第m个句子的标注文本,对应第m个句子的观测序列Om,M为句子总数量,P(Wm|Om;θ)表示对应词序列Wm,在声学模型的模型参数为θ时,得到观测序列Om的观测最大似然概率;
Om表示第m个句子的观测序列,Wm表示第m个句子的标注文本,M为句子总数量;
声学模型参数的更新过程中,达到目前目标函数的局部最优时本次迭代结束;
步骤5.步骤4中全部迭代结束后,在全部迭代次数得到的声学模型中,选择合并前N个解码正确率最高的声学模型,对声学模型参数做平均并合并为最终声学模型,N为合并数。
本发明优化了语言模型识别序列表达式,通过预先解码确定正确标注文本的同时,调整模型参数,尽可能减少容易混淆的正确结果和错误结果的整体差异性,提高了声学模型参数的解码精度。
附图说明
图1为本发明的一个具体实施方式示意图;
图2为本发明所述解码图的一个具体实施方式示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明公开了一种高精度连续语音识别的声学模型训练方法,如图1所示,包括如下步骤:
步骤1.准备训练语料并提取语音特征;
训练语料可划分为训练集、验证集和测试集,并提取训练语料的说话人声学特征(ivector);计算训练语料的帧数、特征维度和语音帧数-文本标注组合数量;
训练集数据量较大,通过模型在训练集上不断迭代训练模型,验证集用于对模型迭代的训练参数做更新调整,估计训练中的泛化误差,并根据泛化误差对声学模型参数做更新。测试集用于测试训练后的模型的实际解码效果,对模型的实际使用场景下的评估作用。
步骤2:计算声学模型参数。
声学模型参数计算为一个分数形式,对分母,用训练集的语料强制对齐结果训练隐马尔科夫(hmm)模型参数,使用维特比(Viterbi)解码算法训练,在可能产生预测事件序列的维特比路径下,尤其是在hmm模型中寻找观测结果最有可能的动态规划算法。
初始训练时将标注文本和每一帧特征序列进行平均对齐,强制给每一个音素分配帧,然后随着隐马尔科夫-高斯混合模型的最大似然的训练迭代,更新统计量更新对齐结果。
然后训练一个二元语法音素的语言模型,再以高斯混合模型的决策树,状态转移概率和音素级别的语言模型作为声学模型训练输入,在大词汇量连续语音识别实验中,由于使用包含全部帧数作为输入,可引入相邻帧神经网络对不同的特征帧之间的相互关系进行建模,使用高斯混合模型的决策树,状态转移概率和音素级别的语言模型。
本发明中声学模型参数计算公式如下所示:
Figure 138764DEST_PATH_IMAGE006
-----公式④
P(Ou | Wu)表示对应词序列Wu和观测序列Ou得到的观测最大似然概率,Wu是词序列标注,Ou是观测序列,
Figure 559381DEST_PATH_IMAGE007
是声学模型参数,P(Wu)是语言模型产生的对应词序列Wu的概率;
Wu是词序列标注,W′是在Wu词序列标注的基础上将语言学信息加入后的词序列;
分母中P(Ou | W′)表示对应词序列W′和观测序列Ou得到的观测最大似然概率,P(W′)是语言模型产生的对应词序列W′的概率,
Figure 31951DEST_PATH_IMAGE003
表示已知样本的最大概率参数,u表示词序列中词条数目。
步骤3.声学模型初始化,
首先计算用于深度神经网络训练的预条件矩阵,
使用线性判别分析矩阵(LDA)在预条件矩阵计算中进行线性去相关,并按照指定的学习率和语音帧数-文本标注组合数量确定训练迭代次数,并利用步骤2计算出的声学模型参数,初始化声学模型;
步骤4.根据步骤3确定的训练迭代次数对步骤3的初始化声学模型进行迭代,每次迭代具体步骤为:
使用步骤1中的训练集对声学模型进行训练,
采用下式对声学模型的参数进行调整;
Figure 145400DEST_PATH_IMAGE008
-----公式⑤
左边Q(θ;D)是训练方法中使用的新目标函数,其中θ是模型参数,D是训练数据。公式⑤右边Om表示第m个句子的观测序列,Wm表示第m个句子的标注文本,M为句子总数量;
步骤1中的验证集可用于估计训练中的泛化误差,并根据泛化误差对声学模型参数做更新。测试集用于最终的训练过程结束后声学模型在实际应用场景下的性能表现,即用于实际的误差表示。
声学模型参数的更新过程中,模型的学习率决定模型训练的目标函数能否收敛到局部最小值,通过设定一个合适的学习率可以使目标函数在一定数量内迭代次数收敛,达到目前目标函数的局部最优时本次迭代结束;
步骤5.训练结束后选择合并前N个迭代训练中解码正确率最高的声学模型,对声学模型参数做平均并合并为最终声学模型,N为合并数,根据精度或计算条件设置,例如可取N=3至10。
本发明的发明目的是对连续语音识别的声学模型训练方法进行性能提升,改善声学模型的识别效果。
语音识别是将接收音频转为文字的工作,最优的词序列即句子是由解码器在限定的词序列空间内搜索得到。公式如下:
Figure 132948DEST_PATH_IMAGE009
-----公式①
公式①中得到的
Figure 357256DEST_PATH_IMAGE010
是语音识别系统基于概率模型所得出的识别结果,在给定语音的观测序列O的情况下,求词序列W的概率,推导得到概率最大的词序列W是最可能的识别结果。
P(W|O)用于描述语音的观测序列O和词序列W的匹配程度的概率。公式①通过计算P(W|O)求词序列W的概率,即求得概率最大的词序列做为最可能的识别结果。
根据贝叶斯定理:
Figure 418753DEST_PATH_IMAGE011
-----公式②
结合公式①和公式②得到:
Figure 703104DEST_PATH_IMAGE012
----- 公式⑦
上述公式的分子部分可以拆分成两个部分:
概率P(O|W)是给定词序列W得到观测序列O的概率,称作观测最大似然概率,又称为声学模型;概率P(W)称作先验概率,指给定词序列W的概率,在语音识别系统中又称为语言模型。分母P(O)表示输入的观察向量的时间序列,在文字文本在时间前后的顺序表示。
现有技术中是利用事先处理好的固定语音,采用神经网络和隐马尔科夫模型配合使用进行对声学模型的训练,以最大化观测最大似然概率P(O|W)的值,计算过程称为最大似然声学模型训练。
语音识别过程是用语音的特征序列匹配状态图并搜索最优路径,状态图有很多条路径,每条路径表示一种可能的识别结果且每条路径上都有一个路径得分,该路径得分表征语音和识别结果的匹配程度,对两条路径的比较判断即比较路径得分,分数高的路径识别结果更优,获得分数高的路径上的概率表示识别结果和声音更匹配,也更接近或完全匹配真实语音的文字。
因此,要求解最大化的概率,需要在状态图中多条路径运行搜索遍历算法进行计算。
具体做法是根据声学模型计算某一帧声学特征在某一个状态上的声学得分,声学得分是该帧声学特征对于该状态的对数观察概率,称为对数似然值。
对公式⑦中的目标函数取对数log,计算声学模型参数
Figure 177947DEST_PATH_IMAGE013
-----公式③
公式③中P(Ou | Wu)表示对应词序列Wu和观测序列Ou得到的观测最大似然概率,Wu是词序列标注,Ou是观测序列,
Figure 205946DEST_PATH_IMAGE014
是声学模型参数,P(Wu)是语言模型产生的对应词序列的概率。P(Ou)位于分母部分,是所有训练语音文本的语言模型概率,带有下标u的变量表示所有的词序列。
公式③中分子部分和分母部分都是在标注文本上结合语言模型和声学模型的计算概率,分母部分的计算是集合了所有可能词序列的概率。
现有通常的声学模型训练是基于最大似然训练,仅考虑最大化正确路径概率;本发明提出的方法,在最大化正确路径的同时,也增加所有其他路径的概率比值计算,目的是做到不仅保证正确路径概率最大,同时错误路径概率尽可能降低,使二者概率之差最大化。
本发明将语言学信息增加入公式③,得到改进的声学模型参数计算公式④,如下所示:
Figure 387529DEST_PATH_IMAGE015
-----公式④
公式④中分子部分和公式③的传统方法相同,所不同的是分母。
对公式③做全概率展开,得到分母
Figure 577202DEST_PATH_IMAGE016
,是由训练好的声学模型结合所有可能的词序列概率计算得到,即对分母部分的所有训练文本使用语言模型加权计算求加权概率和。
分母中P(Ou | W′)表示对应词序列W′和观测序列Ou得到的观测最大似然概率,P(W′)是语言模型产生的对应词序列W′的概率;
分母中P(Ou | W′)表示加权概率和的声学模型,P(W′)表示加权概率和的语言模型。
Wu是词序列标注,W′是在Wu词序列标注的基础上将语言学信息加入后的词序列表示,即加入语言模型特征信息的词序列,用于表示标注文本中的单词总数。
公式④的分子中参考状态序列的标注是通过对标注文本进行强制声学对齐得到的,用于处理对应单词级文本序列P(W′)的所有可能的参考状态序列,可以在词序列上使用前向后向算法得到分子的后验概率。
公式④中分母遍历所有可能的词序列,求和运算在解码得到的词图上完成,公式④中分母部分计算对应分母词图的后验概率,通过log计算使其成为一个损失函数,该损失函数可以化为两个词图的值的比率表示,公式中分子分母代表标注的分子词图和解码输出分母词图形成对应关系的表示。
为了获得更良好的识别效果并结合公式④,如果分子计算参数越大的同时也期望分母计算参数越小,显示出分子部分和分母部分明显的计算差异性,声学模型参数
Figure 40806DEST_PATH_IMAGE017
值越大,意味着在模型解码方面越优异,而如果分子计算参数和分母计算参数贴近,没有表现出足够的差异性,那么声学模型参数值接近1,可见在改进后的公式中加大打分差异可直接使声学模型参数的解码性能提高。
本方法使用音素作为语言模型的建模单元,语言模型基于n-gram统计学特点,本质上是一个文本序列的统计,可以预测当前文本下一个词出现的概率,配合声学模型的概率估计所有文本出现的概率,包括训练文本和它的所有解码图上的路径,得到分母部分即按照语言模型的训练语音文本的加权概率和。
公式④在解码过程除了保留最优路径的词图之外,分母部分实际考虑了词序列W′参数的各种可能,综合以上语音识别的过程是在解码空间中评估匹配所有的路径,打分最高的路径代表最可能的识别结果。
传统的最大似然训练单纯是促使正确路径的分数尽可能高,本发明提出的算法核心思想着眼于加大所有路径之间的打分差异,不单使正确路径的分数更高,同时还使可能错误路径的分数尽可能低,放大了正确和错误路径的差异性,使最终的识别效果保持高精度。
在神经网络的训练过程中神经元的计算需要使用交叉熵生成对齐和词图,词图用于语音模型的得分重估计。分子分母表示解码过程中一部分解码路径的集合,将这些路径使用表示图连接的数据结构保存形成词图,由于是连接形式的图结构,词图可以表现解码路径,还可以将解码路径中的一些路径分数和标注信息等保存在边和节点上,即词图是解码过程中多条路径的数据集合表示。
在实际的识别过程中,根据公式④的分母部分需要生成解码图,而解码图路径因为数量过大较难穷举,可以对解码路径的选择优化算法使其变成有限数量,对所有解码路径数量进行压缩,对小概率的得分路径做剪枝,去掉不可能出现的解码路径和较低解码得分的解码路径,使解码路径减少,使可能错误的分数尽可能低的同时使正确路径的得分更高,等同于提高了解码路径之间的打分差异。
高斯混合模型从一个音频文件提取一序列的特征,对于每一帧的特征从特征到逻辑状态的排布,会产生上千个逻辑状态。那么在初期解码时处理带有发射概率的状态,先对前一帧的带令牌的所有状态进行遍历。对于当前状态,遍历从当前状态出发的跳转,对于每个跳转使用当前帧的特征和跳转的输入标签计算声学分数。跳转的输入标签表示HMM模型中的隐状态,可以找到这个隐状态对于的GMM模型,根据当前GMM模型来计算这一帧声学特征在这个状态下的声学分数。
对多条路径的选择使用预先解码的方式,先使用初期GMM的训练模型做解码运算,GMM模型解码结果就是对解码路径的选择优化的判断条件,对解码结果做初期的筛查,对小概率路径提前做剔除剪枝,对极低概率的可能识别结果做出路径上的预打分,在每一条路径上对分数的高低做打分操作。
遍历解码图全部路径并做上述剔除剪枝后保留多条优势路径。训练公式④分母所有可能需要遍历的单词标注序列,将公式④分母的求和运算限制在剪枝后的小型词图上,保留最优路径的同时通过初期解码保留了概率大的词序列,而去掉了小概率得分路径。
上述处理后,公式④分母的计算过程中,一方面解码正确单词的序列可能性提高,另一方面错误的可能路径已经减少,提高准确性的同时又降低了错误出现概率,在有限的被压缩的解码路径中寻找最优解码路径的计算量降低,提高了解码计算的精度,使得解码识别后的结果更为精准。
现有技术的神经网络训练采用反向传播实现参数优化,在目标函数训练数据生成词图时并不能包含所有可能的声学特征序列,因此神经网络训练迭代过程中也会出现过拟合而导致识别效果变差。
传统的声学模型参数训练一般是基于极大似然准则,使用最大似然估计即假设一种概率分布,用已知的数据去估计这种分布的训练参数,而估计的训练参数可能存在过大或过小而在空间分布中不易于获得局部最优的情况,可以利用估计分布的特点提出交叉熵的训练目标损失函数,通过交叉熵的参数计算尽可能达到估计真实参数分布的情况,本发明改进了神经网络训练方法,为避免过拟合而引入交叉熵作为训练的损失函数。
对原目标函数和交叉熵目标函数做插值计算生成一个新目标函数对神经网络进行训练,引入插值计算可以降低过拟合现象,同时降低训练中的字错误率,具体做法如下。
本发明提出的新目标函数如下:
Figure 606917DEST_PATH_IMAGE018
-----公式⑤
Figure 908585DEST_PATH_IMAGE019
-----公式⑥
公式⑤左边Q(θ;D)是训练方法中使用的新目标函数,其中是模型参数,D是训练数据。公式⑤右边Om表示第m个句子的观测序列,Wm表示第m个句子的标注文本,M为句子总数量。两者之间分布的相互状态和实际降低训练数据中字错误率呈现正相关性。神经网络训练对应的目标函数选择往往会取决于初始模型和训练数据,试验结论表示目标函数的初始模型和训练数据需要反复调整测试,才有可能得到更好的模型参数调整效果。
公式⑥是公式⑤的后续推导,在公式⑥等号右边中,Wm表示第m个句子的标注文本,对应第m个句子的观测序列Om,体现了具体估计模型和真实概率分布之间的差异,概率分布之间的相似度使用随机变量表示。公式⑥左边Q(θ;D)表示对数据集中所拟合出的概率分布的相关状态,相关概率分布的状态使用目标函数的调整和得到随机遍历数据集之间的随机变量的相似度表示,结合声学模型优化目标函数是计算两者之间分布的相互状态,取log用于最大化两者之间分布的相互状态,相当于最小化真实分布于其概率估计的近似分布的交叉熵,使公式⑥的目标函数能够减低训练数据中的字错误率。
公式⑤和公式⑥表述本实施例的神经网络训练时目标函数的计算,通过目标函数对声学模型训练可以更加体现优异的参数分布,进而在对语音解码方面获得更多的识别率。
神经网络初始状态下提供的零向量或较差的概率估计,在输入特征到某个隐层的激活函数上使用一个概率分布,经验的概率分布从训练数据的标注中得到,经验的概率分布使用交叉熵准则,通行的最小化交叉熵准则等价于最小化经验分布和神经网络参数估计分布的KL距离。
而神经网络的输出概率和目标函数之间存在条件规律,条件概率分布函数中的参数由训练数据推断得到,基于输入数据或者特征值的观察数据,模型输出一个概率分布,然后据此分布来预测和拟合真实值的最大概率分布。不同的模型需要估计的参数不同,神经网络为代表的非线性模型由每层的权重来定义,可使用本发明提出的新型目标函数公式⑤和公式⑥以计算概率分布。
本发明改进了神经网络训练方法,为避免过拟合,基于目标函数同时引入交叉熵作为训练的损失函数。对原目标函数和交叉熵目标函数做插值计算生成一个新目标函数对神经网络进行训练,引入插值计算可以降低过拟合现象,同时降低训练中的字错误率。
针对长语句和大词汇量的连续语音识别的训练阶段,本发明提出的新型声学模型训练方法,不同于行业传统的仅提高训练数据所建立模型上的最大似然估计的训练方法,通过优化整个识别序列表达式分成了分子和分母的两个部分,通过预先解码确定正确标注文本的同时,调整模型参数尽可能减少容易混淆的正确结果和错误结果从而表现整体差异性,进而提高整体声学模型参数的解码精度。
全部迭代结束后选择合并前N个解码正确率最高的声学模型,对声学模型参数做平均并合并为最终声学模型。
语言模型用于处理文字或词序列本身的概率,该概率表示一组词或者多个字组成的单元本身是正常语言的可能性。而声学模型用于处理对于给定的文字或词序列后对于实际语音信号的概率,即存在多大的可能性可发出对应文字或词序列的这个声音。
公式
Figure 269159DEST_PATH_IMAGE020
中分子部分和分母部分都是在标注文本上结合语言模型和声学模型计算概率,分母部分的计算是集合了所有可能词序列的概率。现有通常的声学模型训练是基于最大似然训练,仅考虑最大化正确路径的概率;本发明提出的方法在最大化正确路径的同时,也增加所有其他路径的概率比值计算,目的是做到不仅保证正确路径概率最大,同时错误路径概率尽可能降低,使二者概率之间的差异最大化。
在分母部分体现更多参数可控的优势,更具解码候选路径的参数优化能力,具有比传统最大似然模型参数更加丰富和全面的解码表示,对分子部分表示正确单词的序列标注的同时分母部分也考虑所有词序列的可能性。
采用声学模型和语言模型合并组成语言识别模型,可以用于语音识别,其中声学模型的获得可以采用以下现有技术:
指定变换矩阵并配置神经网络类型、层数及各层之间激活函数;配置声学模型训练中初始神经网络的网络类型和网络参数;
通过初始变换矩阵的调整提升对声学模型分类的效果,配置声学模型中神经网络类型、层数及各层激活函数;配置网络参数,所述网络参数包括数据维度,i-vector维度,语料分块的上下文范围即分块大小。
一个具体实施例为:识别内容(你好,智能,管家,打开)四个短句中的某一个,假设解码空间有4条不同的路径分别对应(你好,智能,管家,打开)四个短句可能的识别结果,给定的文本标注是“管家”短句。
传统处理方法中最大似然的目标函数仅仅是使数值logP(管家)最大,再通俗的举例讲述,传统方法的训练好比反复教授看图识字的过程,反复强调这是“管家”,这是“管家”,这是“管家”。而本发明提出的方法不同于传统教授方法,在反复强调正确内容的同时也反复强调否定性的内容,这是“管家”,不是“你好”、“智能”、“打开”,如此反复训练。那么基于上述举例描述本发明提出的新型声学模型的优化目标函数是使数值 log(P(管家)/(P(你好)+P(智能)+P(打开)))最大。
结合公式④在解码过程除了保留最优路径的词图之外,分母部分实际考虑了词序列W′参数的各种可能,本具体实施例结合公式④在解码空间中评估匹配所有的路径,在初始的大型解码图中存在打分最高的路径代表最可能的识别结果。在词序列中上述词图的构成由一个具体实施方式如图2所示:
如图2所示,结合公式④首先形成原始的大型解码图,在大型解码图的构成中使用初期GMM的训练模型做解码运算,GMM模型解码的结果就是对解码路径做出选择优化的判断条件,对解码的结果做初期的筛查,对小概率不可能得到的路径提前做剔除,对极低的可能识别结果做出路径上的预打分。
图2中各个数字符号含义在本领域有约定俗成的含义,其中端头粗体的单个数字“21”表示输入标签序号,图中尾部的同心双圆圈“0”表示转移弧连接结束。从左到右观察网络节点的连接,两个数字构成的“(19)0”,“(20)38”,“(9)16”等不带括号数字表示进入连接后的输入标签序号,前带括号数字表示当前转移弧连接进入和结束之间的非排序序号。标号用于从节点开始逐帧输入沿着转移弧表示解码路径上的文本信息,通过计算分子分母表示差异性得到识别结果。
以“(35)智│234.66,-93.00,0.122”说明节点各个文字含义,“234.66”表示分子部分得分, “-93.00”为分母部分得分,“0.122”是计算权重,权重越高表示识别正确的几率越大。从图中可看到“(8)管家│779.21,-96.00,0.654”为最高分子分母差异性的解码得分,“0.654”权重最高;其余各个节点的数字含义与此类似。
后续转移弧连接到结束位置没有解码得分超过这个分数的节点,即“管家”为解码几率最高的识别结果,如具体实施例所示。最后位置“(2)</s>│113.60,-13.00,0.122”节点中“</s>”最后表示短句结束,转移弧连接结束位置为同心双圆圈“0”。
新型声学模型的优化目标函数中分母部分对于“管家”标注的文本是解码空间中对于所有路径的集合,即解码空间中所有标注的路径。分子部分是正确标注的路径表示,分子分母共同作用的结果即正确的路径得分与所有路径的得分的比值。综合上述专利内容指出一方面提高分子的得分,另一方面压低分母的错误得分,使正确解码路径在整个空间中的分数优势更明显。
传统的方法是没有分子分母的差异性比对过程,而本发明在假设语音文本内容是“管家”,在三个词的初次解码后的高分路径是“智能”和“管家”两条路径,在优化目标函数引入了语言模型作为分母的一个因子,比传统方法只有最大似然估计的单纯声学模型参数的训练方式相比,提出的新型方法有着分母部分体现更多参数可控的优势,表现出高分路径是“智能”和“管家”这样更具解码候选路径的参数优化能力,具有比传统最大似然估计模型有着更加丰富和全面的参数表示,对分子部分表示正确单词的序列标注的同时分母也考虑所有词序列的可能性。
连续语音识别需要长语句巨量语料数据做训练,基于传统的最大似然估计需要训练数据过于巨大,因为只有近乎巨量或近似无穷数量的语料可以训练出无限近似真实的模型参数,但是理论上巨量语料或无限数据训练最好的模型不符合现实条件。本发明提出的方法针对现实训练语料有限的情况,训练时通过目标函数的分子分母比值计算做代价相关的判断方法,产生一个识别正确的量并最大程度使分子部分得分最大,同时压低分母部分得分,如上述简单举例的分子部分对于“管家”标注的文本,同时产生一个识别错误的量最大程度的加权使分母部分得分最小,如举例中分母部分对于“你好,智能,打开”标注的文本,即产生一个可调整的分数用于衡量解码代价的度量,保持模型参数的训练致力于解码优劣的比值差异也就是为提高模型解码效果提供了直接的支持,在现实条件下训练最优的模型参数以达到最良好的识别效果。
例如文本标注是“管家”单词,经过预先解码后剩下的高分路径可能是“管家”和“智能”两条路径,本发明提出的新目标函数公式⑤对“管家”和“智能”两条路径做出完全差异性比对,优化目标函数引入了分母计算的同时也加入了语言模型的概念,相比传统的只使用最大似然的纯声学模型优化本发明提出的方法有着更丰富的信息差异性区别优势,这些差异性区别优势包含在分子和分母词图中,具体到实际运行的程序中预先解码时,可以通过词图配置参数控制分母的大小。词图配置的数值越高过滤的分母越大,选择的优势路径就越少,合适的配置词图参数大小可以调整解码的高低精度。
结合公式⑥的目标函数的定义,神经网络训练计算的输出是一种概率的参数,在神经网络的输出概率和目标函数之间存在条件规律,条件概率分布函数中的参数由训练数据推断得到,基于输入数据及特征值的观察概率,模型输出一个概率分布,然后公式⑥计算概率分布来预测拟合真实值的最大概率。对于以上目标函数的定义和使用方式,标注文本对应声学特征序列,结合声学模型优化目标函数,并且避免过拟合而引入了交叉熵作为第二个训练的损失函数,对目标函数训练和交叉熵目标函数做插值生成一个新的目标函数来对神经网络进行训练。引入插值计算进而声学模型的训练在解码测试上获得了更优异的识别效果。
有关训练的数据准备,在准备阶段就把训练数据切分成固定大小的计算块,一般为计算块的时长;通过大量实验,从0.5秒,0.8秒,1.5秒,2.0秒等待选的参数中迭代反复实验,可确定1.5秒的固定计算块大小最为合适。提出的训练方法相比较传统的声学模型训练方法在识别率方面有很大的性能提升,新型训练方法在解码模型保持实时性的同时大幅减低连续语音识别的字错误率。
本发明提出连续语言识别的训练方法对数据语料在数量上没有过多的要求,在试验中一般不需要大数据量的语料作为训练数据,在具体的训练过程中对训练数据有充分随机打散的训练数据处理算法,抽取760小时,和1670小时和3200小时的数据语料和配合格式不同参数训练若干组声学模型,从实际测试中发现760小时的声学模型训练明显优于传统760小时时延神经网络同级别数据语料的声学模型训练的测试验证结果,1670小时和3200小时数据训练的声学模型测试解码结果远高于5000小时以上时延神经网络训练基线测试结果。从3200小时语料的训练实验和1670小时的语料训练的实验解码测试对比研究发现,新型的声学模型训练方法在保持实时性的同时大幅减低连续语音识别的字错误率,分别从11.81%,12.63%减低至5.85%和6.98%,验证了本发明可以提升连续语音识别的精度。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (1)

1.一种高精度连续语音识别的声学模型训练方法,其特征在于,包括如下步骤:
步骤1.准备训练语料并提取语音特征作为训练集;并提取训练集语料的说话人声学特征;计算训练语料的帧数、特征维度和语音帧数-文本标注组合数量;
步骤2.计算声学模型参数;
声学模型参数计算公式如下所示:
Figure 921078DEST_PATH_IMAGE001
----公式④
P(Ou | Wu)表示对应词序列Wu和观测序列Ou得到的观测最大似然概率,Wu是词序列标注,Ou是观测序列,是声学模型参数,P(Wu)是语言模型产生的对应词序列Wu的概率;
Wu是词序列标注,W′是在Wu词序列标注的基础上将语言学信息加入后的词序列;
分母中P(Ou | W′)表示对应词序列W′和观测序列Ou得到的观测最大似然概率,P(W′)是语言模型产生的对应词序列W′的概率;
Figure 811454DEST_PATH_IMAGE002
是声学模型参数,
Figure 794454DEST_PATH_IMAGE003
表示已知样本的最大概率参数,u表示词序列中词条数目;
步骤3.声学模型初始化,
首先计算用于深度神经网络训练的预条件矩阵;
使用线性判别分析矩阵在预条件矩阵计算中,进行线性去相关,并按照指定的学习率和语音帧数-文本标注组合数量确定训练迭代次数,以及步骤3得到的声学模型参数,初始化声学模型;
步骤4.根据步骤3确定的训练迭代次数对步骤3的初始化声学模型进行迭代,每次迭代具体步骤为:
使用步骤1中的训练集对声学模型进行训练,
采用公式⑤或公式⑥对声学模型的参数进行调整;
其中公式⑤为
Figure 455242DEST_PATH_IMAGE004
----公式⑤
左边Q(θ;D)是训练方法中使用的新目标函数,其中θ是模型参数,D是训练数据;公式⑤右边Om表示第m个句子的观测序列,Wm表示第m个句子的标注文本,M为句子总数量;
公式⑥为
Figure 472877DEST_PATH_IMAGE005
----公式⑥
Wm表示第m个句子的标注文本,对应第m个句子的观测序列Om,M为句子总数量,P(Wm |Om;θ)表示对应词序列Wm,在声学模型的模型参数为θ时,得到观测序列Om的观测最大似然概率;
Om表示第m个句子的观测序列,Wm表示第m个句子的标注文本,M为句子总数量;
声学模型参数的更新过程中,达到目前目标函数的局部最优时本次迭代结束;
步骤5.步骤4中全部迭代结束后,在全部迭代次数得到的声学模型中,选择合并前N个解码正确率最高的声学模型,对声学模型参数做平均并合并为最终声学模型,N为合并数。
CN202111251770.XA 2021-10-27 2021-10-27 一种高精度连续语音识别的声学模型训练方法 Active CN113707135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111251770.XA CN113707135B (zh) 2021-10-27 2021-10-27 一种高精度连续语音识别的声学模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111251770.XA CN113707135B (zh) 2021-10-27 2021-10-27 一种高精度连续语音识别的声学模型训练方法

Publications (2)

Publication Number Publication Date
CN113707135A true CN113707135A (zh) 2021-11-26
CN113707135B CN113707135B (zh) 2021-12-31

Family

ID=78646927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111251770.XA Active CN113707135B (zh) 2021-10-27 2021-10-27 一种高精度连续语音识别的声学模型训练方法

Country Status (1)

Country Link
CN (1) CN113707135B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420101A (zh) * 2022-03-31 2022-04-29 成都启英泰伦科技有限公司 一种未知语言端侧命令词小数据学习识别方法
CN114842837A (zh) * 2022-07-04 2022-08-02 成都启英泰伦科技有限公司 一种快速声学模型训练方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054892A1 (en) * 2008-05-28 2011-03-03 Koreapowervoice Co., Ltd. System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
CN103839545A (zh) * 2012-11-23 2014-06-04 三星电子株式会社 用于构建多语言声学模型的设备和方法
CN104637482A (zh) * 2015-01-19 2015-05-20 孔繁泽 一种语音识别方法、装置、系统以及语言交换系统
CN106531160A (zh) * 2016-10-26 2017-03-22 安徽省云逸智能科技有限公司 一种基于词网语言模型的连续语音识别系统
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
US20180204566A1 (en) * 2015-05-22 2018-07-19 National Institute Of Information And Communications Technology Speech recognition device and computer program
US20180226078A1 (en) * 2014-12-02 2018-08-09 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
CN108564941A (zh) * 2018-03-22 2018-09-21 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN109065029A (zh) * 2018-10-10 2018-12-21 内蒙古工业大学 一种小规模语料dnn-hmm声学模型
KR20190080833A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 음성 정보 기반 언어 모델링 시스템 및 방법
US20200335093A1 (en) * 2015-10-09 2020-10-22 Google Llc Latency constraints for acoustic modeling
CN111933123A (zh) * 2020-09-15 2020-11-13 成都启英泰伦科技有限公司 一种基于门控循环单元的声学建模方法
CN112233654A (zh) * 2019-07-15 2021-01-15 成都启英泰伦科技有限公司 一种本地离线智能语音识别模组识别率检测系统及方法
CN113140215A (zh) * 2015-01-16 2021-07-20 三星电子株式会社 用于执行话音识别的方法和设备
CN113223504A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 声学模型的训练方法、装置、设备和存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054892A1 (en) * 2008-05-28 2011-03-03 Koreapowervoice Co., Ltd. System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
CN103839545A (zh) * 2012-11-23 2014-06-04 三星电子株式会社 用于构建多语言声学模型的设备和方法
US20180226078A1 (en) * 2014-12-02 2018-08-09 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
CN113140215A (zh) * 2015-01-16 2021-07-20 三星电子株式会社 用于执行话音识别的方法和设备
CN104637482A (zh) * 2015-01-19 2015-05-20 孔繁泽 一种语音识别方法、装置、系统以及语言交换系统
US20180204566A1 (en) * 2015-05-22 2018-07-19 National Institute Of Information And Communications Technology Speech recognition device and computer program
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
US20200335093A1 (en) * 2015-10-09 2020-10-22 Google Llc Latency constraints for acoustic modeling
CN106531160A (zh) * 2016-10-26 2017-03-22 安徽省云逸智能科技有限公司 一种基于词网语言模型的连续语音识别系统
CN108564941A (zh) * 2018-03-22 2018-09-21 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN109065029A (zh) * 2018-10-10 2018-12-21 内蒙古工业大学 一种小规模语料dnn-hmm声学模型
KR20190080833A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 음성 정보 기반 언어 모델링 시스템 및 방법
CN112233654A (zh) * 2019-07-15 2021-01-15 成都启英泰伦科技有限公司 一种本地离线智能语音识别模组识别率检测系统及方法
CN111933123A (zh) * 2020-09-15 2020-11-13 成都启英泰伦科技有限公司 一种基于门控循环单元的声学建模方法
CN113223504A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 声学模型的训练方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUNG-CHENG CHIU,等: "STATE-OF-THE-ART SPEECH RECOGNITION WITH SEQUENCE-TO-SEQUENCE MODELS", 《ICASSP 2018》 *
刘加,等: "大规模词表连续语音识别引擎紧致动态网络的构建", 《清华大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420101A (zh) * 2022-03-31 2022-04-29 成都启英泰伦科技有限公司 一种未知语言端侧命令词小数据学习识别方法
CN114420101B (zh) * 2022-03-31 2022-05-27 成都启英泰伦科技有限公司 一种未知语言端侧命令词小数据学习识别方法
CN114842837A (zh) * 2022-07-04 2022-08-02 成都启英泰伦科技有限公司 一种快速声学模型训练方法
CN114842837B (zh) * 2022-07-04 2022-09-02 成都启英泰伦科技有限公司 一种快速声学模型训练方法

Also Published As

Publication number Publication date
CN113707135B (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
US7457745B2 (en) Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
Watanabe et al. Variational Bayesian estimation and clustering for speech recognition
EP4018437B1 (en) Optimizing a keyword spotting system
EP0763816A2 (en) Discriminative utterance verification for connected digits recognition
CN113707135B (zh) 一种高精度连续语音识别的声学模型训练方法
EP1701337B1 (en) Method of speech recognition
CN112927682B (zh) 一种基于深度神经网络声学模型的语音识别方法及系统
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
Kadyan et al. Refinement of HMM model parameters for punjabi automatic speech recognition (PASR) system
Ney et al. The RWTH large vocabulary continuous speech recognition system
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
Kala et al. Reinforcement learning of speech recognition system based on policy gradient and hypothesis selection
Bell et al. The UEDIN ASR systems for the IWSLT 2014 evaluation
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP4233831B2 (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
Yu et al. Bayesian adaptive inference and adaptive training
JP3176210B2 (ja) 音声認識方法及び音声認識装置
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
Young Acoustic modelling for large vocabulary continuous speech recognition
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
Yang et al. Automatic grammar augmentation for robust voice command recognition
JPH07104780A (ja) 不特定話者連続音声認識方法
JPH10254477A (ja) 音素境界検出装置及び音声認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant