CN113223504B

CN113223504B - 声学模型的训练方法、装置、设备和存储介质

Info

Publication number: CN113223504B
Application number: CN202110482404.9A
Authority: CN
Inventors: 冷金强; 王瑞璋; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2023-12-26
Anticipated expiration: 2041-04-30
Also published as: CN113223504A

Abstract

本申请涉及人工智能领域，揭示了声学模型的训练方法，包括：获取训练集中各训练语句分别对应的音频数据；将各音频数据分别输入分解的时延神经网络，得到各音频数据分别对应的推测状态序列；将各音频数据分别输入预训练的语言模型，得到各音频数据分别对应的推测词序列；获取各音频数据分别对应的标注状态序列和标注词序列；将各音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数；依次将训练集上训练语句输入至分解的时延神经网络，调整分解的时延神经网络的参数至第一损失函数收敛，得到第一声学模型。使声学模型体积较小的情况下提高训练效果，具有良好的识别效果。

Description

声学模型的训练方法、装置、设备和存储介质

技术领域

本申请涉及人工智能领域，特别是涉及到声学模型的训练方法、装置、设备和存储介质。

背景技术

传统的声学模型是基于混合高斯-隐马尔科夫模型，训练模型小、速度快，但是高斯混合模型没有利用帧的上下文信息，后来发展为基于DNN模型，DNN能利用帧的上下文信息，但是学习依然没有包含历史信息。基于RNN模型的学习包含了历史信息，但训练梯度不好控制，梯度容易消失或者爆炸。当前没有学习信息全面、且适用于小体积模型的声学模型，不满足小型智能设备的部署需求。

发明内容

本申请的主要目的为提供声学模型的训练方法，旨在解决现有声学模型不满足小型智能设备的部署需求的技术问题。

本申请提出一种声学模型的训练方法，包括：

获取训练集中各训练语句分别对应的音频数据；

将各所述音频数据分别输入分解的时延神经网络，得到各所述音频数据分别对应的推测状态序列；

将各所述音频数据分别输入预训练的语言模型，得到各所述音频数据分别对应的推测词序列；

获取各所述音频数据分别对应的标注状态序列和标注词序列；

将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数；

依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型。

优选地，所述将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数的步骤，包括：

获取词图中所述标注状态序列对应的第一路径概率，以及所述标注词序列对应的第二路径概率；

获取分母图中所有推测状态序列分别对应的第一推测路径的概率，以及所有推测词序列分别对应的第二推测路径的概率；

将所述训练集中各训练语句分别对应的第一路径概率和第二路径概率，代入所述预设函数架构的分子部分；

将所述训练集中各训练语句分别对应的第一推测路径的概率和第二推测路径的概率，代入所述预设函数架构的分母部分；

根据代入后的所述分子部分和所述分母部分形成所述第一损失函数。

优选地，所述依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型的步骤之后，包括：

获取指定训练语句对应的推测状态序列和标注状态序列对应的相似度因子项，其中，所述指定训练语句为所述训练集中任一训练语句；

将所述训练集中所有训练语句分别对应的相似度因子项，依次填充至所述分母部分得到修正后的分母部分；

根据所述分子部分和所述修正后的分母部分，形成第二损失函数；

通过所述第二损失函数在所述训练集上训练所述第一声学模型至收敛，得到第二声学模型。

优选地，所述分解的时延神经网络中设置瓶颈层，所述将各所述音频数据分别输入分解的时延神经网络，得到各所述音频数据分别对应的推测状态序列的步骤之前，包括：

获取时延神经网络对应的预设权重矩阵；

将所述预设权重矩阵分解为第一矩阵和第二矩阵，其中，所述第二矩阵为半正交矩阵；

获取所述半正交矩阵处理各所述音频数据后的第一输出数据；

将所述第一输出数据经过所述瓶颈层输入所述第一矩阵进行深度计算，输出各所述音频数据分别对应的推测状态序列。

优选地，所述获取词图中所述标注状态序列对应的第一路径概率的步骤，包括：

获取所述指定训练语句对应的指定词图以及所述指定词图对应的起始节点；

计算与所述起始节点连接的各阶段对应的后验概率；

将最大后验概率对应的节点，作为连接在所述起始节点时序之后的第二节点；

按照所述第二节点的确定方式，依次确定所述起始节点时序之后的所有节点，连接形成所述指定训练语句对应的第一路径；

求和所述第一路径中各节点分别对应的概率值，得到所述指定训练语句对应的第一路径概率；

根据所述指定训练语句对应的第一路径概率的计算方式，得到词图中所述标注状态序列对应的第一路径概率。

优选地，所述分母图为基于音素的n-gram语言模型，所述获取分母图中所有推测状态序列分别对应的第一推测路径的概率的步骤，包括：

获取所述分母图中所述指定训练语句的各帧数据分别对应节点的所有概率值；

确定指定节点对应的概率最高的n个指定概率，其中，所述指定节点为所述分母图中的任一节点；

依据所述指定训练语句的各帧数据分别对应n个指定概率，形成所述指定训练语句对应的所有推测状态序列的概率图；

根据所述指定训练语句的概率图的确定方式，确定所述训练集中所有训练语句分别对应的概率图；

组合所述训练集中所有训练语句分别对应的概率图，形成分母图中所有推测状态序列分别对应的第一推测路径的概率。

优选地，所述第一损失函数的公式为所述第二损失函数的公式为/>其中，F_LF-mmi表示第一损失函数，F_LF-Bmmi表示第二损失函数，U表示所述训练集中所有训练语句，u表示第u个训练语句，P表示概率，O_u表示第u个训练语句对应的特征向量序列，/>表示第u个训练语句对应的标注状态序列，S_u表示第u个训练语句对应的推测状态序列，/>表示第u个训练语句对应的标注词序列，W_u表示第u个训练语句对应的推测词序列，/>表示第u个训练语句对应的相似度因子项，b表示因子，/>表示相似函数。

本申请还提供了一种声学模型的训练装置，包括：

第一获取模块，用于获取训练集中各训练语句分别对应的音频数据；

第一输入模块，用于将各所述音频数据分别输入分解的时延神经网络，得到各所述音频数据分别对应的推测状态序列；

第二输入模块，用于将各所述音频数据分别输入预训练的语言模型，得到各所述音频数据分别对应的推测词序列；

第二获取模块，用于获取各所述音频数据分别对应的标注状态序列和标注词序列；

第一形成模块，用于将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数；

第一训练模块，用于依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过分解的时延神经网络，借助预训练的语言模型得到推测词序列和标注词序列的关系，结合音频数据对应的推测状态序列、推测词序列、标注状态序列和标注词序列形成的损失函数，迭代训练得到小体积的声学模型，使得在降低维度、减少模型参数的同时，增加训练深度、增大感受野，使声学模型体积较小的情况下，提高声学模型训练效果，使得部署于智能设备的小体积声学模型具有良好的识别效果。

附图说明

图1本申请一实施例的声学模型的训练方法流程示意图；

图2本申请一实施例的声学模型的训练系统流程示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的声学模型的训练方法，包括：

S1：获取训练集中各训练语句分别对应的音频数据；

S2：将各所述音频数据分别输入分解的时延神经网络，得到各所述音频数据分别对应的推测状态序列；

S3：将各所述音频数据分别输入预训练的语言模型，得到各所述音频数据分别对应的推测词序列；

S4：获取各所述音频数据分别对应的标注状态序列和标注词序列；

S5：将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数；

S6：依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型。

本申请实施例中，上述训练集由训练语句组成，训练语句包括汉字字符组成的文本句子，以及对文本句子中各汉字字符对应的音频数据，即训练语句为文字和音频相对应的数据对，其中文本句子包括标注状态序列和标注词序列。上述标注词序列即文本句子中依次排列的分词排布。上述标注状态序列根据选定的分词任务决定，比如实体识别任务，则只对预定义的实体进行标注即得到标注状态序列，对应分词为预定义的实体时标注为“Y”，对应分词不是预定义的实体时标注为“N”，从而形成有Y和N组成的标注状态序列。

本申请的声学模型为TDNN(Time-Delay Neural Network，时延神经网络)的变形，原TDNN包括输入层、若干个依次排布的隐藏层以及输出层组成，根据时间的推移，通过指定步频对音频数据中的每一帧数据进行过滤分析以提取当前帧对应的特征向量，比如步频为3，每帧数据对应13维MFCC特征，设置6个隐藏层，则共有3*13*6＝234个权重，并形成权重矩阵，输出层基于234个权重共同通过延时映射将权重矩阵映射至输出层，计算得到当前帧对应的预测分类分数，将分数最大的分类作为当前帧对应的推测状态。本申请的声学模型是基于分解的时延神经网络，即在若干个依次排布的隐藏层中设置了瓶颈层Bottlenecklayer，对若干个隐藏层进行分解，以改变维度增加特征映射中的视野范围。上述瓶颈层Bottleneck layer使用的是1*1的卷积神经网络。本申请结合分解的时延神经网络对音频数据分析处理后输出的推测状态序列，结合预训练的语言模型对音频数据分析处理后输出的推测词序列，以及该音频数据对应的训练语句原预先标注的标注状态序列和标注词序列，形成损失函数并连接于上述分解的时延神经网络的输出层之后以迭代训练分解的时延神经网络。上述推测词序列由预训练的语言模型得到，以辅助本申请的声学模型的训练。上述预训练的语言模型基于不同的特征抽取机制进行选择，本申请优选聚焦于n-gram提取的CNNs(Convolutional Neural Network，卷积神经网络)，以考虑序列的位置信息。推测词序列通过预训练的语言模型逐一分析音频数据中各帧音频，分别对应推测出各帧音频分别对应的分词得到。本申请为不影响模型的建模能力，将原时延神经网络的若干个隐藏层进行分解，使得权重矩阵进行了分解降维，形成两个矩阵，得到分解的时延神经网络，使得在降低维度、减少模型参数的同时，增加训练深度、增大感受野，使模型体积较小的情况下，提高模型训练效果，使得部署于智能设备的小体积声学模型具有良好的识别效果。

进一步地，所述将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数的步骤S5，包括：

S51：获取词图中所述标注状态序列对应的第一路径概率，以及所述标注词序列对应的第二路径概率；

S52：获取分母图中所有推测状态序列分别对应的第一推测路径的概率，以及所有推测词序列分别对应的第二推测路径的概率；

S53：将所述训练集中各训练语句分别对应的第一路径概率和第二路径概率，代入所述预设函数架构的分子部分；

S54：将所述训练集中各训练语句分别对应的第一推测路径的概率和第二推测路径的概率，代入所述预设函数架构的分母部分；

S55：根据代入后的所述分子部分和所述分母部分形成所述第一损失函数。

本申请实施例的第一损失函数的预设函数架构为其中，F_LF-mmi表示第一损失函数的函数值，U表示所述训练集中所有训练语句，u表示第u个训练语句，P表示概率，O_u表示第u个训练语句对应的特征向量序列，/>表示第u个训练语句对应的标注状态序列，S_u表示第u个训练语句对应的推测状态序列，/>表示第u个训练语句对应的标注词序列，W_u表示第u个训练语句对应的推测词序列，r表示训练集中的标注数据。

上述P(W)为预训练的语言模型，表示将训练语句输入预训练的语言模型后输出的推测词序列概率，P(O|S)为声学模型，表示将训练语句的特征向量序列O输入声学模型后对应输出的推测状态序列S的推测状态概率。预训练的语言模型可对输入语句进行帧数据分析，得到各帧数据分别对应的词序列概率。比如预训练的语言模型可对输入语句某帧帧数据“wei lai”进行向量映射，通过计算该映射向量与标注向量的差异度，得到该帧数据对应各分词的概率，比如“wei lai”对应分词“未来”的概率为90％，对应分词“维莱”的概率为30％等等，优选概率值最大的分词作为该帧数据对应的分词，然后依次确定某语句中所有分词的排列次序，将依据概率值最大规则确定的所有分词的连接路径作为概率路径。

词图指的是句子中所有词可能构成的图。如果词A相邻的下一个词可能是B的话，那么A和B之间具有一条路径E(A,B)。句子中的某个词可能有多个后续，同时也可能有多个前驱，它们之间的路径分布构成的图形成词图。本申请实施例通过词图中的路径近似计算得到训练语句的特征向量序列对应的标注序列，代表语音对应的词与词之间连接形成的正确路径，包括标注状态序列的概率路径及标注词序列的概率路径，分别以第一概率路径和第二概率路径向区分。先根据各分词对应的最大概率形成某一训练语句的音频数据对应的分词排序序列，即标注词序列。比如得到的标注词序列为“分词A至分词B至分词C至分词D”。然后根据特征分类，得到标注词对应的标注状态序列。比如本申请的分类任务为识别命名实体，且分词A和分词C为命名实体，则标注词序列“分词A至分词B至分词C至分词D”对应的标注状态序列为“YNYN”。分母图为基于音素的语言模型，是基于声母和韵母双音素模型，在较小计算量的基础上得到推测序列对应的概率图，包括了发音正确的后验概率路径以及其他所有可能存在的概率路径，为区分推测状态序列和推测词序列分别对应的推测路径的概率，以第一推测路径的概率和第二推测路径的概率相区分。上述“第一”、“第二”仅用于区分，不用于限定，其他处的类似用语作用相同，不赘述。

本申请通过通过求正确路径在上述包括所有概率路径的概率图中的最大值，作为声学模型的损失函数，使得分子部分最大且分母部分最小时，为损失函数的最优解，使声学模型快速学习到区分正确路径和相似路径的区别特征，提高识别效果。

进一步地，所述依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型的步骤S6之后，包括：

S7：获取指定训练语句对应的推测状态序列和标注状态序列对应的相似度因子项，其中，所述指定训练语句为所述训练集中任一训练语句；

S8：将所述训练集中所有训练语句分别对应的相似度因子项，依次填充至所述分母部分得到修正后的分母部分；

S9：根据所述分子部分和所述修正后的分母部分，形成第二损失函数；

S10：通过所述第二损失函数在所述训练集上训练所述第一声学模型至收敛，得到第二声学模型。

本申请实施例中，为进一步提高声学模型区分正确路径和相似路径的精准区分能力，在通过第一损失函数训练收敛后，通过将相似度因子项增加至第一损失函数形成第二损失函数，并在第二损失函数下继续训练声学模型，即降低了学习率，提高声学模型的区分精准度，提高训练效果。第二损失函数的公式为F_LF-Bmmi表示第二损失函数的函数值，/>表示第u个训练语句对应的相似度因子项，表示标准的标注数据与模型输出的推测数据之间的相似度或差异度，b表示常数因子，A()表示相似函数，/>表示第u个训练语句对应的标注状态序列和推测状态序列之间的相似度。本申请实施例通过先进行lfmmi(Lattice-Free Maximum Mutual Information)训练至模型收敛，能够在训练过程中直接计算所有可能路径的后验概率,省去了鉴别性训练前需要提前生成词图lattice的麻烦。然后再通过增加相似度因子项进行微调的迭代训练，以降低微调过程中的学习率，学习率可以降低到原模型学习率的千分之一，可快速收敛，使声学模型识别准确度的提高不依赖于训练时间的叠加。本申请的第二声学模型的平均绝对准确率相比第一声学模型提升0.5个百分点。

进一步地，所述分解的时延神经网络中设置瓶颈层，所述将各所述音频数据分别输入分解的时延神经网络，得到各所述音频数据分别对应的推测状态序列的步骤S2之前，包括：

S21：获取时延神经网络对应的预设权重矩阵；

S22：将所述预设权重矩阵分解为第一矩阵和第二矩阵，其中，所述第二矩阵为半正交矩阵；

S23：获取所述半正交矩阵处理各所述音频数据后的第一输出数据；

S24：将所述第一输出数据经过所述瓶颈层输入所述第一矩阵进行深度计算，输出各所述音频数据分别对应的推测状态序列。

本申请实施例中分解的时延神经网络，通过设置瓶颈层联络分解的两个权重矩阵。举例地，本申请中的时延神经网络的隐藏层为6层，步频为3，每帧数据对应13维MFCC特征，得到的预设权重矩阵为234个权重组成的矩阵。通过在第三层和第四层之间设置瓶颈层，将预设权重矩阵中的234个权重分成两个权重矩阵，分别为靠近模型输入端的前三层隐藏层对应的117个权重组成的第二矩阵，和后三层隐藏层对应的117个权重组成的第一矩阵。通过设置瓶颈层联络分解的两个矩阵设置瓶颈层联络分解的两个矩阵，增大了时延神经网络的隐藏层节点数，比如每一层隐藏层的节点数由原来的1024*128增大到1536*25，丰富学习的特征维度，增强声学模型的鲁棒性。且限定设置在前的第二矩阵为半正交矩阵，降低中间层的维数，在减少声学模型参数的同时，依然保持很好的建模能力。

本申请其他实施例中，为防止中间的隐藏层把声学模型节点的数量增大，影响模型体积，同时把Dropout去掉，Dropout是让数据多样化，在数据越来越多的情况下去掉Dropout，不影响数据的丰富性，可学到的特征更丰富。

进一步地，所述获取词图中所述标注状态序列对应的第一路径概率S51的步骤，包括：

S511：获取所述指定训练语句对应的指定词图以及所述指定词图对应的起始节点；

S512：计算与所述起始节点连接的各阶段对应的后验概率；

S513：将最大后验概率对应的节点，作为连接在所述起始节点时序之后的第二节点；

S514：按照所述第二节点的确定方式，依次确定所述起始节点时序之后的所有节点，连接形成所述指定训练语句对应的第一路径；

S515：求和所述第一路径中各节点分别对应的概率值，得到所述指定训练语句对应的第一路径概率；

S516：根据所述指定训练语句对应的第一路径概率的计算方式，得到词图中所述标注状态序列对应的第一路径概率。

本申请实施例的第一路径概率，通过在词图上依次确定各语音帧分别对应节点的最大后验概率得到。每个语句的分词排布形成一个词图，上述词图为语句中对应的各语音帧的分词概率组成，即可能的分词之间的连接次序，通过依次计算后验概率，确定与当前节点的分词相连的后一节点的分词，依次类推计算得到正确路径中所有的节点分别对应的分词排序，形成正确路径，并通过求和正确路径中各节点分别对应的概率值得到正确路径对应的路径概率，代入损失函数的分子部分。举例地，语句“我们北方人喜欢吃面食”，对应的分词组合为{我，我们，北方，北方人，人，喜欢，吃，面，面食}，根据上述分词组合确定该语句对应的词图，并在词图中通过近似路径计算方式，确定该语句中的各分词，以及各分词之间的连接次序。比如起始节点为分词“我们”对应的节点，然后计算“我们”与分词组合中其他剩余分词连接时的后验概率，将后验概率最大的分词，作为连接在“我们”之后的下一分词，依次确定该语句对应的标注词序列。然后根据当前的分类任务，将标注词序列转化成标注状态序列，比如分类任务为预定义的实体识别，识别实体人物名称，则通过判断各分词为预设实体类别的概率，得到该语句的标注状态序列，比如该语句对应的标注词序列为“我们-北方人-喜欢-吃-面食”，对应的标准状态序列为“Y-Y-N-N-N”，将“我们-北方人-喜欢-吃-面食”对应在词图中各分词为预设实体类别的概率加和起来，即为标注状态序列对应的第一路径概率。

进一步地，所述分母图为基于音素的n-gram语言模型，所述获取分母图中所有推测状态序列分别对应的第一推测路径的概率的步骤S52，包括：

S521：获取所述分母图中所述指定训练语句的各帧数据分别对应节点的所有概率值；

S522：确定指定节点对应的概率最高的n个指定概率，其中，所述指定节点为所述分母图中的任一节点；

S523：依据所述指定训练语句的各帧数据分别对应n个指定概率，形成所述指定训练语句对应的所有推测状态序列的概率图；

S524：根据所述指定训练语句的概率图的确定方式，确定所述训练集中所有训练语句分别对应的概率图；

S525：组合所述训练集中所有训练语句分别对应的概率图，形成分母图中所有推测状态序列分别对应的第一推测路径的概率。

本申请实施例中，通过n-best情况下的维特比算法，获得概率最高的n条序列，作为推测路径。上述n-best情况下的维特比算法，表示每个节点的后验概率值不是只保留最大值，而是保留n个最大值，即从降序排列中保留排序靠前的top n的最值，然后得到语句对应的概率最高的n条推测词序列，并将n条推测词序列作为该语句的推测路径并形成概率图。每条推测路径中各节点对应的概率之和为该推测路径的概率，根据该推测路径中各节点对应的分类任务中的分类概率，得到该推测路径对应的推测状态序列的路径概率，通过计算概率图中各推测路径的概率之和作为损失函数的分母部分，以便在概率图中快速区分识别正确路径。

参照图2，本申请一实施例的声学模型的训练装置，包括：

第一获取模块1，用于获取训练集中各训练语句分别对应的音频数据；

第一输入模块2，用于将各所述音频数据分别输入分解的时延神经网络，得到各所述音频数据分别对应的推测状态序列；

第二输入模块3，用于将各所述音频数据分别输入预训练的语言模型，得到各所述音频数据分别对应的推测词序列；

第二获取模块4，用于获取各所述音频数据分别对应的标注状态序列和标注词序列；

第一形成模块5，用于将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数；

第一训练模块6，用于依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型。

本申请实施例的相关解释，适用方法对应部分的解释，不赘述。

进一步地，形成模块5，包括：

第一获取单元，用于获取词图中所述标注状态序列对应的第一路径概率，以及所述标注词序列对应的第二路径概率；

第二获取单元，用于获取分母图中所有推测状态序列分别对应的第一推测路径的概率，以及所有推测词序列分别对应的第二推测路径的概率；

第一作为单元，用于将所述训练集中各训练语句分别对应的第一路径概率和第二路径概率，代入所述预设函数架构的分子部分；

第二作为单元，用于将所述训练集中各训练语句分别对应的第一推测路径的概率和第二推测路径的概率，代入所述预设函数架构的分母部分；

形成单元，用于根据代入后的所述分子部分和所述分母部分形成所述第一损失函数。

进一步地，声学模型的训练装置，包括：

第三获取模块，用于获取指定训练语句对应的推测状态序列和标注状态序列对应的相似度因子项，其中，所述指定训练语句为所述训练集中任一训练语句；

添加模块，用于将所述训练集中所有训练语句分别对应的相似度因子项，依次填充至所述分母部分得到修正后的分母部分；

第二形成模块，用于根据所述分子部分和所述修正后的分母部分，形成第二损失函数；

第二训练模块，用于通过所述第二损失函数在所述训练集上训练所述第一声学模型至收敛，得到第二声学模型。

进一步地，所述分解的时延神经网络中设置瓶颈层，声学模型的训练装置，包括：

第四获取模块，用于获取时延神经网络对应的预设权重矩阵；

分解模块，用于将所述预设权重矩阵分解为第一矩阵和第二矩阵，其中，所述第二矩阵为半正交矩阵；

第五获取模块，用于获取所述半正交矩阵处理各所述音频数据后的第一输出数据；

计算模块，用于将所述第一输出数据经过所述瓶颈层输入所述第一矩阵进行深度计算，输出各所述音频数据分别对应的推测状态序列。

进一步地，第一获取单元，包括：

第一获取子单元，用于获取所述指定训练语句对应的指定词图以及所述指定词图对应的起始节点；

计算子单元，用于计算与所述起始节点连接的各阶段对应的后验概率；

作为子单元，用于将最大后验概率对应的节点，作为连接与所述起始节点时序之后的第二节点；

第一确定子单元，用于按照所述第二节点的确定方式，依次确定所述起始节点时序之后的所有节点，连接形成所述指定训练语句对应的第一路径；

求和子单元，用于求和所述第一路径中各节点分别对应的概率值，得到所述指定训练语句对应的第一路径概率；

得到子单元，用于根据所述指定训练语句对应的第一路径概率的计算方式，得到词图中所述标注状态序列对应的第一路径概率。

进一步地，所述分母图为基于音素的n-gram语言模型，第二获取单元，包括：

第二获取子单元，用于获取所述分母图中所述指定训练语句的各帧数据分别对应节点的所有概率值；

第二确定子单元，用于确定指定节点对应的概率最高的n个指定概率，其中，所述指定节点为所述分母图中的任一节点；

形成子单元，用于依据所述指定训练语句的各帧数据分别对应n个指定概率，形成所述指定训练语句对应的所有推测状态序列的概率图；

第三确定子单元，用于根据所述指定训练语句的概率图的确定方式，确定所述训练集中所有训练语句分别对应的概率图；

组合子单元，用于组合所述训练集中所有训练语句分别对应的概率图，形成分母图中所有推测状态序列分别对应的第一推测路径的概率。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储声学模型的训练过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现声学模型的训练方法。

上述处理器执行上述声学模型的训练方法，包括：获取训练集中各训练语句分别对应的音频数据；将各所述音频数据分别输入分解的时延神经网络，得到各所述音频数据分别对应的推测状态序列；将各所述音频数据分别输入预训练的语言模型，得到各所述音频数据分别对应的推测词序列；获取各所述音频数据分别对应的标注状态序列和标注词序列；将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数；依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型。

上述计算机设备，通过分解的时延神经网络，借助预训练的语言模型得到推测词序列和标注词序列的关系，结合音频数据对应的推测状态序列、推测词序列、标注状态序列和标注词序列形成的损失函数，迭代训练得到小体积的声学模型，使得在降低维度、减少模型参数的同时，增加训练深度、增大感受野，使声学模型体积较小的情况下，提高声学模型训练效果，使得部署于智能设备的小体积声学模型具有良好的识别效果。

在一个实施例中，上述处理器将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数的步骤，包括：获取词图中所述标注状态序列对应的第一路径概率，以及所述标注词序列对应的第二路径概率；获取分母图中所有推测状态序列分别对应的第一推测路径的概率，以及所有推测词序列分别对应的第二推测路径的概率；将所述训练集中各训练语句分别对应的第一路径概率和第二路径概率，代入所述预设函数架构的分子部分；将所述训练集中各训练语句分别对应的第一推测路径的概率和第二推测路径的概率，代入所述预设函数架构的分母部分；根据代入后的所述分子部分和所述分母部分形成所述第一损失函数。

在一个实施例中，上述处理器依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型的步骤之后，包括：获取指定训练语句对应的推测状态序列和标注状态序列对应的相似度因子项，其中，所述指定训练语句为所述训练集中任一训练语句；将所述训练集中所有训练语句分别对应的相似度因子项，依次填充至所述分母部分得到修正后的分母部分；根据所述分子部分和所述修正后的分母部分，形成第二损失函数；通过所述第二损失函数在所述训练集上训练所述第一声学模型至收敛，得到第二声学模型。

在一个实施例中，所述分解的时延神经网络中设置瓶颈层，上述处理器将各所述音频数据分别输入分解的时延神经网络，得到各所述音频数据分别对应的推测状态序列的步骤之前，包括：获取时延神经网络对应的预设权重矩阵；将所述预设权重矩阵分解为第一矩阵和第二矩阵，其中，所述第二矩阵为半正交矩阵；获取所述半正交矩阵处理各所述音频数据后的第一输出数据；将所述第一输出数据经过所述瓶颈层输入所述第一矩阵进行深度计算，输出各所述音频数据分别对应的推测状态序列。

在一个实施例中，上述处理器获取词图中所述标注状态序列对应的第一路径概率的步骤，包括：获取所述指定训练语句对应的指定词图以及所述指定词图对应的起始节点；计算与所述起始节点连接的各阶段对应的后验概率；将最大后验概率对应的节点，作为连接与所述起始节点时序之后的第二节点；按照所述第二节点的确定方式，依次确定所述起始节点时序之后的所有节点，连接形成所述指定训练语句对应的第一路径；求和所述第一路径中各节点分别对应的概率值，得到所述指定训练语句对应的第一路径概率；根据所述指定训练语句对应的第一路径概率的计算方式，得到词图中所述标注状态序列对应的第一路径概率。

在一个实施例中，所述分母图为基于音素的n-gram语言模型，上述处理器获取分母图中所有推测状态序列分别对应的第一推测路径的概率的步骤，包括：获取所述分母图中所述指定训练语句的各帧数据分别对应节点的所有概率值；确定指定节点对应的概率最高的n个指定概率，其中，所述指定节点为所述分母图中的任一节点；依据所述指定训练语句的各帧数据分别对应n个指定概率，形成所述指定训练语句对应的所有推测状态序列的概率图；根据所述指定训练语句的概率图的确定方式，确定所述训练集中所有训练语句分别对应的概率图；组合所述训练集中所有训练语句分别对应的概率图，形成分母图中所有推测状态序列分别对应的第一推测路径的概率。

在一个实施例中，上述处理器的第一损失函数的公式为所述第二损失函数的公式为其中，F_LF-mmi表示第一损失函数，F_LF-Bmmi表示第二损失函数，U表示所述训练集中所有训练语句，u表示第u个训练语句，P表示概率，O_u表示第u个训练语句对应的特征向量序列，/>表示第u个训练语句对应的标注状态序列，S_u表示第u个训练语句对应的推测状态序列，/>表示第u个训练语句对应的标注词序列，W_u表示第u个训练语句对应的推测词序列，/>表示第u个训练语句对应的相似度因子项，b表示因子，/>表示相似函数。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现声学模型的训练方法，包括：获取训练集中各训练语句分别对应的音频数据；将各所述音频数据分别输入分解的时延神经网络，得到各所述音频数据分别对应的推测状态序列；将各所述音频数据分别输入预训练的语言模型，得到各所述音频数据分别对应的推测词序列；获取各所述音频数据分别对应的标注状态序列和标注词序列；将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数；依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型。

上述计算机可读存储介质，通过分解的时延神经网络，借助预训练的语言模型得到推测词序列和标注词序列的关系，结合音频数据对应的推测状态序列、推测词序列、标注状态序列和标注词序列形成的损失函数，迭代训练得到小体积的声学模型，使得在降低维度、减少模型参数的同时，增加训练深度、增大感受野，使声学模型体积较小的情况下，提高声学模型训练效果，使得部署于智能设备的小体积声学模型具有良好的识别效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种声学模型的训练方法，其特征在于，包括：

获取训练集中各训练语句分别对应的音频数据；

依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型；

所述将各所述音频数据分别对应的推测状态序列、推测词序列、标注状态序列和标注词序列填充至预设函数架构中形成第一损失函数的步骤，包括：

根据代入后的所述分子部分和所述分母部分形成所述第一损失函数；

所述获取词图中所述标注状态序列对应的第一路径概率的步骤，包括：

计算与所述起始节点连接的各阶段对应的后验概率；

根据所述指定训练语句对应的第一路径概率的计算方式，得到词图中所述标注状态序列对应的第一路径概率；

所述分母图为基于音素的n-gram语言模型，所述获取分母图中所有推测状态序列分别对应的第一推测路径的概率的步骤，包括：

2.根据权利要求1所述的声学模型的训练方法，其特征在于，所述依次将所述训练集上训练语句输入至所述分解的时延神经网络，调整所述分解的时延神经网络的参数至所述第一损失函数收敛，得到第一声学模型的步骤之后，包括：

3.根据权利要求2所述的声学模型的训练方法，其特征在于，所述分解的时延神经网络中设置瓶颈层，所述将各所述音频数据分别输入分解的时延神经网络，得到各所述音频数据分别对应的推测状态序列的步骤之前，包括：

获取时延神经网络对应的预设权重矩阵；

4.根据权利要求2所述的声学模型的训练方法，其特征在于，所述第一损失函数的公式为所述第二损失函数的公式为其中，F_LF-mmi表示第一损失函数，F_LF-Bmmi表示第二损失函数，U表示所述训练集中所有训练语句，u表示第u个训练语句，P表示概率，O_u表示第u个训练语句对应的特征向量序列，/>表示第u个训练语句对应的标注状态序列，S_u表示第u个训练语句对应的推测状态序列，/>表示第u个训练语句对应的标注词序列，W_u表示第u个训练语句对应的推测词序列，/>表示第u个训练语句对应的相似度因子项，b表示因子，/>表示相似函数。

5.一种声学模型的训练装置，用于实现权利要求1-4中任意一项所述的方法，其特征在于，包括：

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。