CN113096646B

CN113096646B - 音频识别方法、装置、电子设备及存储介质

Info

Publication number: CN113096646B
Application number: CN201911328104.4A
Authority: CN
Inventors: 张邦鑫; 李成飞; 杨嵩; 汪光璟; 刘子韬
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-06-07
Anticipated expiration: 2039-12-20
Also published as: CN113096646A

Abstract

本申请提出一种音频识别方法、装置、电子设备及存储介质。具体实现方案为：从待识别音频中提取身份标识信息；确定与身份标识信息对应的个人语言模型，个人语言模型是利用与身份标识信息对应的个人语料训练得到的；将个人语言模型与基础语言模型进行融合；利用融合后的模型对待识别音频进行识别。本申请实施例中，利用个人语料训练得到个人语言模型，将个人语言模型与基础语言模型进行融合，使得融合后的模型区分了说话人的风格，提升了音频识别系统对说话人音频的识别能力。

Description

音频识别方法、装置、电子设备及存储介质

技术领域

本申请涉及信息技术领域，尤其涉及一种音频识别方法、装置、电子设备及存储介质。

背景技术

语言模型是音频识别的基础，且语言模型对于数据具有很强的依赖性。一般来说，要训练的语言模型必须针对特定的音频识别系统所在的领域搜集大量的语料。然而，在实际开发音频识别系统时特定领域的语料搜集费时费力，而且成本也很大。如果直接使用其他领域的语料训练而成的模型，则性能会急剧下降。因此，在这种情况下语言模型在线增量自适应显得尤为重要。语言模型自适应技术一般是将一个通用的、训练充分的模型和一个特定场景的、训练不充分的模型通过某种方法组合成一个新的模型。这种方式的语言模型自适应是以离线的方式进行的。离线语言模型自适应具有更新时间长、性能差等缺点。在线增量自适应是在语音识别过程中利用初步识别的文本实时的对语言模型进行重新训练、融合，从而进一步提升语音识别的性能。在线增量语言模型自适应是以实时的方式进行模型的自适应，优点是模型更新快、性能高。

针对特定领域语言模型训练数据不匹配及数据稀疏问题，传统的语言模型在线增量自适应直接将初步识别结果作为训练语料重新训练说话人语言模型，然后和基础语言模型进行融合。这种实现方式的缺点主要在于：重新训练说话人语言模型并没有区分说话人，每个说话人的说话风格的差异会造成语音识别系统对新的说话人识别性能下降。

发明内容

本申请实施例提供一种音频识别方法、装置、电子设备及存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种音频识别方法，包括：

从待识别音频中提取身份标识信息；

确定与身份标识信息对应的个人语言模型，个人语言模型是利用与身份标识信息对应的个人语料训练得到的；

将个人语言模型与基础语言模型进行融合；

利用融合后的模型对待识别音频进行识别。

在一种实施方式中，上述方法还包括：

训练通用领域语言模型和专用领域语言模型；

将训练好的通用领域语言模型和专用领域语言模型分别进行测试，得到困惑度结果；

根据困惑度结果，使用最大期望算法计算融合插值比例；

根据融合插值比例将通用领域语言模型和专用领域语言模型进行融合，得到基础语言模型。

在一种实施方式中，上述方法还包括：

获取与身份标识信息对应的个人语料；

根据个人语料训练得到与身份标识信息对应的个人语言模型。

在一种实施方式中，根据个人语料训练得到与身份标识信息对应的个人语言模型，包括：

从个人语料中提取出词向量；

将词向量输入到预设个人模型，通过预设个人模型得到个人语料的识别结果；

根据个人语料的识别结果，利用损失函数对预设个人模型进行训练，得到与身份标识信息对应的个人语言模型。

在一种实施方式中，将词向量输入到预设个人模型，通过预设个人模型得到个人语料的识别结果，包括：

将词向量分别输入到预设个人模型的卷积层和合并层；

通过卷积层提取词向量对应的词的位置信息；

通过合并层将词向量和词向量对应的词的位置信息进行合并操作，得到合并信息；

将合并信息输入到预设个人模型的长短期记忆网络中，通过长短期记忆网络提取个人语料的语义特征；

对个人语料的语义特征进行映射操作和归一化操作，得到个人语料的识别结果。

在一种实施方式中，卷积层采用跳跃卷积网络，通过跳跃卷积网络使得卷积层中的每一层接收该层之前的所有卷积层的输出信息。

在一种实施方式中，通过合并层将词向量和词向量对应的词的位置信息进行合并操作，得到合并信息，包括：

将词向量对应的词的位置信息进行重塑操作，以对齐词向量和词向量对应的词的位置信息的数据维度；

将数据维度对齐的词向量和词向量对应的词的位置信息进行合并操作。

在一种实施方式中，损失函数的惩罚项包括L1正则和L2正则。

在一种实施方式中，损失函数采用如下公式：

其中，loss表示损失函数，N表示训练集中语料的数量，T+1表示句子词序列长度，

表示句子的似然概率，

表示增量自适应之后的长短期记忆网络的权重参数，w_w表示增量自适应之前的长短期记忆网络的权重参数，

表示L2正则，

表示L1正则，β表示平衡L1正则与L2正则程度的系数，α是L1正则和L2正则的系数。

在一种实施方式中，上述方法还包括：

将待识别音频的识别结果存储到与身份标识信息对应的个人语料库；

利用与身份标识信息对应的个人语料库中的个人语料更新个人语言模型。

在一种实施方式中，上述方法还包括：

在无法确定与身份标识信息对应的个人语言模型的情况下，根据身份标识信息和待识别音频创建与身份标识信息对应的个人语言模型。

在一种实施方式中，根据身份标识信息和待识别音频创建与身份标识信息对应的个人语言模型，包括：

利用基础语言模型对待识别音频进行识别；

根据识别的结果和身份标识信息，得到与身份标识信息对应的个人语料；

第二方面，本申请实施例提供了一种音频识别装置，包括：

提取单元，用于从待识别音频中提取身份标识信息；

确定单元，用于确定与身份标识信息对应的个人语言模型，个人语言模型是利用与身份标识信息对应的个人语料训练得到的；

融合单元，用于将个人语言模型与基础语言模型进行融合；

识别单元，用于利用融合后的模型对待识别音频进行识别。

在一种实施方式中，上述装置还包括基础语言模型训练单元，基础语言模型训练单元用于：

训练通用领域语言模型和专用领域语言模型；

根据困惑度结果，使用最大期望算法计算融合插值比例；

在一种实施方式中，上述装置还包括个人语言模型训练单元，个人语言模型训练单元包括：

获取子单元，用于获取与身份标识信息对应的个人语料；

第一训练子单元，用于根据个人语料训练得到与身份标识信息对应的个人语言模型。

在一种实施方式中，第一训练子单元包括：

第一提取子单元，用于从个人语料中提取出词向量；

识别子单元，用于将词向量输入到预设个人模型，通过预设个人模型得到个人语料的识别结果；

第二训练子单元，用于根据个人语料的识别结果，利用损失函数对预设个人模型进行训练，得到与身份标识信息对应的个人语言模型。

在一种实施方式中，识别子单元包括：

输入子单元，用于将词向量分别输入到预设个人模型的卷积层和合并层；

第二提取子单元，用于通过卷积层提取词向量对应的词的位置信息；

合并子单元，用于通过合并层将词向量和词向量对应的词的位置信息进行合并操作，得到合并信息；

第三提取子单元，用于将合并信息输入到预设个人模型的长短期记忆网络中，通过长短期记忆网络提取个人语料的语义特征；

归一化单元，用于对个人语料的语义特征进行映射操作和归一化操作，得到个人语料的识别结果。

在一种实施方式中，合并子单元用于：

在一种实施方式中，损失函数的惩罚项包括L1正则和L2正则。

在一种实施方式中，损失函数采用如下公式：

表示句子的似然概率，

表示L2正则，

在一种实施方式中，个人语言模型训练单元还用于：

在无法确定与身份标识信息对应的个人语言模型的情况下，利用基础语言模型对待识别音频进行识别；

第三方面，本申请实施例提供了一种电子设备，该设备包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：利用个人语料训练得到个人语言模型，将个人语言模型与基础语言模型进行融合，使得融合后的模型区分了说话人的风格，提升了音频识别系统对说话人音频的识别能力。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为根据本申请实施例的音频识别方法的流程图；

图2为根据本申请实施例的音频识别方法的个人语言模型的识别流程图；

图3为根据本申请实施例的音频识别方法的个人语言模型的总体结构图；

图4为根据本申请实施例的音频识别方法的个人语言模型的计算流程图；

图5为根据本申请实施例的音频识别方法的增量自适应示意图；

图6是根据本申请实施例的音频识别装置的结构示意图；

图7是根据本申请实施例的音频识别装置的结构示意图；

图8是根据本申请实施例的音频识别装置的个人语言模型训练单元的结构示意图；

图9是根据本申请实施例的音频识别装置的第一训练子单元的结构示意图；

图10是根据本申请实施例的音频识别装置的识别子单元的结构示意图；

图11是用来实现本申请实施例的电子设备的框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1为根据本申请实施例的音频识别方法的流程图。如图1所示，该音频识别方法可以包括：

步骤S110，从待识别音频中提取身份标识信息；

步骤S120，确定与身份标识信息对应的个人语言模型，个人语言模型可以是利用与身份标识信息对应的个人语料训练得到的；

步骤S130，将个人语言模型与基础语言模型进行融合；

步骤S140，利用融合后的模型对待识别音频进行识别。

语言模型是描述自然语言内在固有规律的数学模型，可以用来计算一个句子的概率，利用语言模型可以判断哪个单词序列出现的可能性更大、更加符合人说话的可能性。特定领域中的语言模型的识别性能通常情况下会与每个说话人的说话风格有关。例如，教学场景下的语言模型在线增量自适应的性能对于每个学生的说话风格十分敏感，传统的语言模型在线增量自适应的方法无法解决上述问题。

本申请首先训练与每个说话人对应的个人语言模型。例如，可利用现有的音频识别模型对每个说话人的音频进行初步识别。针对每个说话人的音频初步识别结果进行个人语料库的数据回流，也就是将每个说话人的音频初步识别结果保存在对应的个人语料库中。个人语料库中的数据积累到一定规模时，可进行说话人的个人语言模型的训练。可针对每个说话人建立个人信息库，个人信息库的内容可包括个人语料库和利用个人语料库中的个人语料训练得到的个人语言模型。其中，个人信息库是与每个说话人的身份标识信息相对应的。

在步骤S110中，首先接收待识别音频，然后从待识别音频中提取身份标识信息。例如，在教学场景下，学生在登录系统时输入了账号、学生姓名等ID信息(身份标识号)，然后学生录制其自身的音频文件并上传系统。系统在保存上述音频文件时，其音频文件的命名中可包括账号、学生姓名等ID信息。因此，在接收待识别音频之后，可从待识别音频文件的命名中提取学生ID信息。

在步骤S120中，根据待识别音频中的学生ID信息，可将学生ID信息与个人信息库的身份标识信息进行匹配。若匹配成功，则将个人信息库中的个人语言模型确定为与身份标识信息对应的个人语言模型。

在步骤S130中，将步骤S120中确定的个人语言模型与基础语言模型(baseline语言模型)进行融合。在一种实施方式中，基础语言模型可采用现有的音频识别模型。可将个人语言模型与基础语言模型的参数进行融合。参数融合的方式可包括将参数加权求和等。

在步骤S140中，利用融合后的模型对待识别音频进行识别，可以区分个人说话风格，使得识别性能得到提升。在一个示例中，可首先利用基础语言模型对待识别音频进行识别，包括对待识别音频中的每个句子进行打分。其中，可对待识别音频中的每个句子对应的不同的文字串进行打分，识别的目的是找出与该对待识别音频对应的概率最大的文字串。例如，在音频识别过程中，可得到与待识别音频对应的词序列，有的词序列听起来很像识别结果的文字串，但实际上这些词序列并不都是正确的句子。利用语言模型可以判断哪个单词序列出现的可能性更大、更加符合人说话的可能性。比如一个待识别音频中的句子对应的词序列可以是词序列一：“你现在在干什么？”也可以是词序列二：“你西安载感什么？”显然，词序列一是正确的句子，其相应的打分也较高。在利用基础语言模型对待识别音频中的每个句子进行打分的基础上，还可针对该待识别音频选择个人语言模型，与基础语言模型融合后，利用融合后的模型对待识别音频中的每个句子进行重打分，从而对待识别音频进行进一步地识别。最后输出最终的识别结果，同时将最终的识别结果保存到对应的个人语料库中。

在一种实施方式中，上述方法还包括：

训练通用领域语言模型和专用领域语言模型；

根据困惑度结果，使用最大期望算法计算融合插值比例；

通常情况下一些特定领域都具有领域综合性，例如在教学场景中的音频识别涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域。以教学场景为例，本申请实施例中，可搜集通用领域的语料进行通用N-gram(汉语语言模型)语言模型训练，同时对教育领域语料进行N-gram语言模型训练。

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，称之为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息，它基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram(3-gram)。例如：“我爱她”这句话中的词袋模型特征是“我”，“爱”,“她”。这些特征和句子“她爱我”的特征是一样的。如果加入Bi-Gram，第一句话的特征还有“我-爱”和“爱-她”，这两句话“我爱她”和“她爱我”就能区别开来了。

在一种实施方式中，可搜集通用领域的语料进行通用3-gram语言模型训练，得到通用领域语言模型。同时对专用领域语料进行3-gram语言模型训练，得到专用领域语言模型。例如，对教育领域语料进行3-gram语言模型训练，得到教育领域语言模型。

仍以教学领域为例，可在教育领域语料中提前定义一个测试集，并且该测试集与训练集分别采用不同的语料。也就是说，该测试与训练3-gram教育领域的语言模型的训练集无交集。

在定义测试集的基础上，再将训练好的通用领域语言模型、教育领域语言模型在该测试集上测试句子级别的困惑度，得到两个困惑度结果。其中，困惑度用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型在预测样本上的优劣程序。低困惑度的概率分布模型或概率模型能更好地预测样本。

根据上述两个困惑度结果使用EM算法(Expectation-Maximization algorithm,最大期望算法)计算两个语言模型融合的插值比例。其中，EM算法是一类通过迭代进行极大似然估计的优化算法。最后，根据插值比例融合通用领域语言模型和专用领域语言模型，得到基础语言模型。在一个示例中，通用领域语言模型和专用领域语言模型的模型结构是一样的，可将通用领域语言模型和专用领域语言模型的对应参数进行融合，从而得到基础语言模型。

在一种实施方式中，上述方法还包括：

获取与身份标识信息对应的个人语料；

如前述，可利用现有的音频识别模型对每个说话人的音频进行初步识别。例如，可利用基础语言模型对每个说话人的音频进行初步识别。其中，系统在保存说话人的音频文件时，其音频文件的命名中可包括账号、学生姓名等ID信息。因此，每个说话人的音频文件名中都包括对应的说话人的身份标识信息。可将每个说话人的音频初步识别结果保存在对应的个人语料库中。然后利用个人语料库中个人语料训练说话人的个人语言模型，得到与身份标识信息对应的个人语言模型。

从个人语料中提取出词向量；

个人语言模型的输入层接受的是词序列，具体对应的是词序列的词向量。本申请实施例中，首先利用词向量提取工具从个人语料中提取出词向量。然后将词向量输入到预设个人模型中，利用预设个人模型对个人语料进行识别。其中，预设个人模型包括没有经过训练的个人语言模型或者没有训练好的个人语言模型。在预设个人模型训练过程中，通过最小化损失函数求解和评估模型。利用损失函数作为预设个人模型的学习准则，对预设个人模型进行优化。例如损失函数可被用于模型的参数估计。

图2为根据本申请实施例的音频识别方法的个人语言模型的识别流程图。如图2所示，在一种实施方式中，将词向量输入到预设个人模型，通过预设个人模型得到个人语料的识别结果，包括：

步骤S210，将词向量分别输入到预设个人模型的卷积层和合并层；

步骤S220，通过卷积层提取词向量对应的词的位置信息；

步骤S230，通过合并层将词向量和词向量对应的词的位置信息进行合并操作，得到合并信息；

步骤S240，将合并信息输入到预设个人模型的长短期记忆网络中，通过长短期记忆网络提取个人语料的语义特征；

步骤S250，对个人语料的语义特征进行映射操作和归一化操作，得到个人语料的识别结果。

图3为根据本申请实施例的音频识别方法的个人语言模型的总体结构图。如图3所示，个人语言模型包括：输入层、卷积层CNN(Convolutional Neural Networks，卷积神经网络)、合并层、LSTM(Long Short-Term Memory，长短期记忆网络)层、Softmax层和输出层。其中，卷积层采用SCN(Skip Convolutional Network，跳跃卷积网络)结构。在个人语言模型的结构中，特征提取器分别使用CNN和LSTM。

参见图2和图3，在步骤S210中，通过图3中的输入层，在模型训练阶段将从个人语料中提取出的词向量分别输入到预设个人模型的卷积层和合并层。

在步骤S220中，通过卷积层提取词向量对应的词的位置信息。在图3的示例中，模型包含三个卷积层和一个LSTM层，分别提取人语料的文本特征。可利用卷积层CNN提取词向量对应的词的位置信息，利用长短期记忆网络LSTM提取个人语料的语义特征。

参见图3，个人语言模型的卷积层中采用跳跃卷积网络结构SCN，并在模型中使用合并层(Merge Layer)对SCN和输入层输入的词向量进行合并操作。本申请中的个人语言模型在SCN部分与经典的CNN有所不同，本申请中的个人语言模型采用了跳跃连接。可将本申请中的个人语言模型称为SCN-LSTM语言模型。以三个卷积层为例，卷积层1的编码信息在输入到卷积层2的同时也被直接输入到卷积层3，在卷积层3进行信息编码之前先对卷积层1和卷积层2的编码信息进行合并。具体来说，就是在SCN通道中互相连接这三个卷积层，第三个卷积层会接受卷积层1的编码信息作为其额外的输入。

传统CNN在第m层的输出信息可用以下公式一表示为：

S_m＝C_m(S_m-1)

其中，C_m表示卷积操作；S_m表示卷积层中第m层的编码信息，也就是第m层的输出信息。

而对于SCN，在第m层的输入信息中除了包括第m-1层的输出信息之外，还增加了来自第m-1层之前所有卷积层的输出信息。以三个卷积层为例，在卷积层3的输入信息中，增加了来自卷积层1的输出信息作为卷积层3的输入信息。SCN中三个卷积层的情况下卷积层3的输入信息可用以下公式二表示为：

R_m＝C_m(R_m-1)+R_m-1

其中，C_m表示卷积操作；R_m表示卷积层中第m层的输入信息。在公式二右边的第一项中，R_m-1表示卷积层中第m-1层的输入信息，再经过m-1层的卷积处理后得到的C_m(R_m-1)为m-1层的输出信息。在公式二右边的第二项中，R_m-1表示卷积层中第m-1层的输入信息，同时也是第m-2层的输出信息。可见，在第m层的输入信息中增加了来自第m-2层的输出信息。公式二适用于三个卷积层的情况，即在卷积层3的输入信息中，除了包括卷积层2的输出信息之外，增加了来自卷积层1的输出信息作为卷积层3的输入信息。

本申请实施例中，在个人语言模型中采用SCN的计算方式保证了卷积层学习到的词的位置信息不会被过滤掉。另外，采用SCN的计算方式也加速了模型的收敛。传统的语言模型在线增量自适应中说话人语言模型的训练方法为循环神经网络语言模型，使用这种方法训练模型速度很慢，不能满足需求。本申请实施例中，在线增量自适应模型采用轻量级、训练收敛速度快的卷积结构SCN和LSTM结合的网络，可加快模型训练速度，满足用户需求。

参见图3，在通过卷积层提取词向量对应的词的位置信息后，将词的位置信息输出给合并层。另一方面，输入层也将从个人语料中提取出的词向量分别输入到合并层。在步骤S230中，在合并层中将词向量和词向量对应的词的位置信息进行合并操作。

在一种实施方式中，步骤S230，通过合并层将词向量和词向量对应的词的位置信息进行合并操作，得到合并信息，包括：

在这种实施方式中，对SCN层的输出信息进行reshape(重塑)操作。reshape操作包括调整数组或矩阵的维度和形状，比如将2*3的矩阵调整为3*2的矩阵。其中维度和形状变化是基于数组元素不能改变的前提下进行，变成的新形状中所包含的元素个数符合原来元素个数。SCN层的输出信息也就是词的位置信息，通过reshape操作将词的位置信息的维度调整成与输入层的词向量的子序列相同的维度。

合并操作包括向量逐点相加、向量逐点相乘和向量拼接中的至少一种。例如，在个人语言模型中可选择向量逐点相加作为合并操作以生成合并信息。在一种实施方式中，可在个人语言模型中设置展开层，SCN层的输出送入展开层进行数据维度对齐，然后与输入层的词向量进行逐点相加。

在步骤S240中，将合并层操作得到的合并信息输入到LSTM层中，使用LSTM层对个人语料的文本的词向量和SCN学习到的词的位置信息进行语义级别特征提取。例如，在句子序列中包括t个词，则与句子序列中的词的个数t相对应，LSTM层中的数据计算过程可包括t个步骤。在每一步中依次向LSTM层中添加一个词进行处理，预测下一个词是什么的概率。在LSTM层中的数据计算过程可用如下公式表示：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

h_t＝o_t×tanh(C_t)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

其中，f_t和i_t分别表示句子序列中第t步遗忘门和输入门。在每个句子序列上，遗忘门控制每一个单词的信息的遗忘程度，输入门会控制每一个词信息写入长时信息的程度。例如，数据计算过程已经进行到第50个步骤，当前处理单元已经记录了第50个词，则可以用句子中已经处理的部分所包括的词的个数50来表示写入长时信息的程度。σ表示Sigmoid函数，其中，f_t和i_t两个门选用Sigmoid函数，取值范围是[0,1]。tanh函数取值是[-1,1]。W_f、b_f分别表示遗忘门的权重矩阵和偏置矩阵。h_t表示句子序列中第t步的输出。x_t表示合并操作之后第t个词的词向量和词向量对应的词的位置信息。

表示备选的用来更新的状态。W_c、b_c分别表示计算

的权重矩阵和偏置矩阵。C_t表示t时刻的神经元的状态。C_t-1表示t-1时刻的神经元的状态。o_t表示输出门，控制写入长时信息的输出程度。W_o、b_o分别表示输出门的权重矩阵和偏置矩阵。

参见图3和图2，在个人语言模型的LSTM层后接入Softmax层。在步骤S250中，对LSTM层输出的个人语料的语义特征进行映射操作和归一化操作，得到个人语料的识别结果。在一种实施方式中，在Softmax层中，可先将LSTM层的输出结果接入一个全连接层，在全连接层中将LSTM层的输出结果映射成句子下一个词的概率的预测结果。然后对句子下一个词的概率的预测结果进行Softmax操作，使得预测结果具有合理的概率分布。

图4为根据本申请实施例的音频识别方法的个人语言模型的计算流程图。图4示出了本申请实施例的SCN-LSTM语言模型的第i步和第i+1步的详细计算过程。如图4所示，在第i步的计算过程中，W_i表示第i步的输入信息，即句子中第i个词的词向量，将W_i输入给合并层。同时将该句子中所有词的词向量输入给SCN层。输入信息经SCN层处理后得到词的位置信息，再将词的位置信息输出给展开层进行reshape操作，经reshape操作后再输入给合并层。在合并层将词向量与reshape操作后的词的位置信息进行合并操作。其中，图4中的圆圈中的“+”表示合并操作，得到合并信息。再将合并信息输出给LSTM层提取语义特征，最后将LSTM层的处理结果输出给Softmax层得到第i步的输出结果

也就是对于第i+1个词的预测结果。另外，在第i步的计算过程中，还将第i步的LSTM层的计算结果输入给第i+1步的LSTM层，使得在第i+1步中，LSTM层可以在前i步的处理结果的基础上做进一步地处理。最终，各个步骤的输出结果、

…组合成了最后的输出结果。

在一种实施方式中，损失函数的惩罚项包括L1正则和L2正则。为保证个人语言模型的在增量自适应后不会出现高偏差，可在损失函数部分引入L1正则和L2正则相结合的方式对模型自适应前后的参数进行约束，以避免由于高偏差导致的模型自适应前后的变化太大，例如模型参数可能变化太大。模型自适应前后的变化太大可能导致自适应后模型的识别效果变差。

在一个示例中，可定义句子词序列长度为T+1，在SCN-LSTM模型中，句子的似然概率可表示为：

P_scn-lstm(w_t|w_＜t)＝P_scn-lstm(w_t|h_t)＝softmax(w_wh(t)+b_w)

其中，w_w和b_w分别表示SCN-LSTM模型的输出层的权重矩阵和偏置矩阵。h_t和h(t)表示句子序列中第t步的输出。具体地，h_t表示历史编码信息，历史编码信息也是SCN-LSTM模型在第t步的输出结果。h(t)表示在第t步中LSTM层输出给Softmax层的输出信息。公式中的似然概率P为条件概率，w_t表示第t步的预测概率，w_＜t表示根据历史信息进行预测。

在一个示例中，可在不同的应用阶段使用不同的损失函数。例如教学场景中对于新学生而言，尚无足够的个人语料用来训练个人语言模型的阶段可称为未增量自适应阶段。在未增量自适应阶段，可使用如下公式三作为损失函数：

其中，公式三中的loss表示未增量自适应阶段的损失函数，N表示训练集中语料的数量，T+1表示句子词序列长度，

表示句子的似然概率。

仍以教学场景为例，对于已经积累了足够的个人语料，并根据个人语料已经训练得到了对应的个人语言模型的情况，可称为增量自适应阶段。在增量自适应阶段，有了新的个人语料，可使用新的个人语料重新训练个人语言模型，以更新个人语言模型的参数。

在增量自适应阶段，可使用交叉熵(cross-entropy)优化模型的参数。交叉熵可用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵来衡量。例如，使用交叉熵作为损失函数，p表示增量自适应之前的概率分布，q则为增量自适应之后的模型的预测概率分布，交叉熵损失函数可以衡量p与q的相似性。在增量自适应阶，可使用如下公式四作为损失函数：

其中，公式四中的loss表示增量自适应阶段的损失函数，N表示训练集中语料的数量，T+1表示句子词序列长度，

表示句子的似然概率，

表示L2正则，

仍以教学场景为例，语言模型在线增量自适应的性能对于模型自适应前后的参数的分布变化十分敏感，传统的语言模型在线增量自适应无法解决上述问题。本申请实施例中，对模型增量自适应前后的参数进行约束，以避免由于模型自适应前后出现高偏差而导致自适应后模型的识别效果变差。

在一种实施方式中，上述方法还包括：

在增量自适应阶段，有了新的个人语料，可利用个人语言模型识别新的个人语料，将识别结果存储到与身份标识信息对应的个人语料库。可使用个人语料库中新的个人语料重新训练个人语言模型，以更新个人语言模型的参数。

在一种实施方式中，上述方法还包括：

利用基础语言模型对待识别音频进行识别；

例如，在教学场景中，对于新学生，也就是在个人信息库中没有匹配的学生ID，可使用基础语言模型对新学生的待识别音频进行识别，例如对待识别音频中的每个句子进行打分。同时，为新学生创建个人语料库，并保存识别结果到个人语料库中。使用个人语料库中的个人语料进行个人语言模型的训练，创建个人语言模型。

图5为根据本申请实施例的音频识别方法的增量自适应示意图。如图5所示，针对接收到的语音信号，在个人信息库中检索，进行个人信息判断。对于个人信息库中没有检索到的学生ID，建立个人语料库并保存个人语料。对于个人信息库中已有的学生ID，则保存个人语料。保存的个人语料可用于个人语言模型的增量自适应。同时，针对接收到的语音信号，进行音频特征提取。将提取的音频特征输入解码器。解码器用于将声学模型和基础语言模型对语音信号中句子的打分结果进行组合。其中，声学模型主要利用拼音对语音信号进行识别，例如，给出句子中的字的对应的各种同音字的概率。通过解码器可得到针对接收到的语音信号的初步识别结果。例如通过解码器可得到与语音信号对应的若干个不同的文字串。在初步识别结果的基础上，再利用基础语言模型和个人语言模型融合后的模型对初步识别结果进行重打分，得到最后的识别结果并输出。其中，融合后的模型可对初步识别结果进行文本级别的处理，例如进行语义分析等。

在一种实施方式中，基础语言模型和个人语言模型的模型结构是一样的，可将基础语言模型和个人语言模型的对应参数进行融合，从而得到融合后的模型。参数融合的方式可包括将参数加权求和等。

上述技术方案中的优点或有益效果至少包括：利用个人语料训练得到个人语言模型，将个人语言模型与基础语言模型进行融合，使得融合后的模型区分了说话人的风格，提升了音频识别系统对说话人音频的识别能力。同时通过卷积层的SCN结构和对于模型参数的约束，保证了自适应模型速度快、模型参数变化相对稳定。

图6是根据本申请实施例的音频识别装置的结构示意图。如图6所示，该装置可以包括：

提取单元100，用于从待识别音频中提取身份标识信息；

确定单元200，用于确定与身份标识信息对应的个人语言模型，个人语言模型是利用与身份标识信息对应的个人语料训练得到的；

融合单元300，用于将个人语言模型与基础语言模型进行融合；

识别单元400，用于利用融合后的模型对待识别音频进行识别。

图7是根据本申请实施例的音频识别装置的结构示意图。如图7所示，在一种实施方式中，上述装置还包括基础语言模型训练单元500，基础语言模型训练单元500用于：

训练通用领域语言模型和专用领域语言模型；

根据困惑度结果，使用最大期望算法计算融合插值比例；

图8是根据本申请实施例的音频识别装置的个人语言模型训练单元的结构示意图。参见图7和图8所示，在一种实施方式中，上述装置还包括个人语言模型训练单元600，个人语言模型训练单元600包括：

获取子单元610，用于获取与身份标识信息对应的个人语料；

第一训练子单元620，用于根据个人语料训练得到与身份标识信息对应的个人语言模型。

图9是根据本申请实施例的音频识别装置的第一训练子单元的结构示意图。如图9所示，在一种实施方式中，第一训练子单元620包括：

第一提取子单元621，用于从个人语料中提取出词向量；

识别子单元622，用于将词向量输入到预设个人模型，通过预设个人模型得到个人语料的识别结果；

第二训练子单元623，用于根据个人语料的识别结果，利用损失函数对预设个人模型进行训练，得到与身份标识信息对应的个人语言模型。

图10是根据本申请实施例的音频识别装置的识别子单元的结构示意图。如图10所示，在一种实施方式中，识别子单元622包括：

输入子单元6221，用于将词向量分别输入到预设个人模型的卷积层和合并层；

第二提取子单元6222，用于通过卷积层提取词向量对应的词的位置信息；

合并子单元6223，用于通过合并层将词向量和词向量对应的词的位置信息进行合并操作，得到合并信息；

第三提取子单元6224，用于将合并信息输入到预设个人模型的长短期记忆网络中，通过长短期记忆网络提取个人语料的语义特征；

归一化单元6225，用于对个人语料的语义特征进行映射操作和归一化操作，得到个人语料的识别结果。

在一种实施方式中，合并子单元6223用于：

在一种实施方式中，损失函数的惩罚项包括L1正则和L2正则。

在一种实施方式中，损失函数采用如下公式：

表示句子的似然概率，

表示L2正则，

在一种实施方式中，个人语言模型训练单元600还用于：

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图11示出根据本发明一实施例的电子设备的结构框图。如图11所示，该电子设备包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的音频识别方法。存储器910和处理器920的数量可以为一个或多个。

该电子设备还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(PeripheralComponentInterconnect，PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频识别方法，其特征在于，包括：

从待识别音频中提取身份标识信息；

确定与所述身份标识信息对应的个人语言模型，所述个人语言模型是利用与所述身份标识信息对应的个人语料训练得到的；

将所述个人语言模型与基础语言模型进行融合；

利用融合后的模型对所述待识别音频进行识别。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

训练通用领域语言模型和专用领域语言模型；

将训练好的所述通用领域语言模型和所述专用领域语言模型分别进行测试，得到困惑度结果；

根据所述困惑度结果，使用最大期望算法计算融合插值比例；

根据所述融合插值比例将所述通用领域语言模型和所述专用领域语言模型进行融合，得到所述基础语言模型。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与所述身份标识信息对应的个人语料；

根据所述个人语料训练得到与所述身份标识信息对应的所述个人语言模型。

4.根据权利要求3所述的方法，其特征在于，根据所述个人语料训练得到与所述身份标识信息对应的所述个人语言模型，包括：

从所述个人语料中提取出词向量；

将所述词向量输入到预设个人模型，通过所述预设个人模型得到所述个人语料的识别结果；

根据所述个人语料的识别结果，利用损失函数对所述预设个人模型进行训练，得到与所述身份标识信息对应的所述个人语言模型。

5.根据权利要求4所述的方法，其特征在于，将所述词向量输入到预设个人模型，通过所述预设个人模型得到所述个人语料的识别结果，包括：

将所述词向量分别输入到所述预设个人模型的卷积层和合并层；

通过所述卷积层提取所述词向量对应的词的位置信息；

通过所述合并层将所述词向量和所述词向量对应的词的位置信息进行合并操作，得到合并信息；

将所述合并信息输入到所述预设个人模型的长短期记忆网络中，通过所述长短期记忆网络提取所述个人语料的语义特征；

对所述个人语料的语义特征进行映射操作和归一化操作，得到所述个人语料的识别结果。

6.根据权利要求5所述的方法，其特征在于，所述卷积层采用跳跃卷积网络，通过所述跳跃卷积网络使得所述卷积层中的每一层接收该层之前的所有卷积层的输出信息。

7.根据权利要求5所述的方法，其特征在于，通过所述合并层将所述词向量和所述词向量对应的词的位置信息进行合并操作，得到合并信息，包括：

将所述词向量对应的词的位置信息进行重塑操作，以对齐所述词向量和所述词向量对应的词的位置信息的数据维度；

将数据维度对齐的所述词向量和所述词向量对应的词的位置信息进行合并操作。

8.根据权利要求4所述的方法，其特征在于，所述损失函数的惩罚项包括L1正则和L2正则。

9.根据权利要求8所述的方法，其特征在于，所述损失函数采用如下公式：

表示句子的似然概率，

表示L2正则，

10.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将所述待识别音频的识别结果存储到与所述身份标识信息对应的个人语料库；

利用与所述身份标识信息对应的个人语料库中的个人语料更新所述个人语言模型。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

在无法确定与所述身份标识信息对应的个人语言模型的情况下，根据所述身份标识信息和所述待识别音频创建与所述身份标识信息对应的个人语言模型。

12.根据权利要求11所述的方法，其特征在于，根据所述身份标识信息和所述待识别音频创建与所述身份标识信息对应的个人语言模型，包括：

利用所述基础语言模型对所述待识别音频进行识别；

根据所述识别的结果和所述身份标识信息，得到与所述身份标识信息对应的个人语料；

13.一种音频识别装置，其特征在于，包括：

提取单元，用于从待识别音频中提取身份标识信息；

确定单元，用于确定与所述身份标识信息对应的个人语言模型，所述个人语言模型是利用与所述身份标识信息对应的个人语料训练得到的；

融合单元，用于将所述个人语言模型与基础语言模型进行融合；

识别单元，用于利用融合后的模型对所述待识别音频进行识别。

14.根据权利要求13所述的装置，其特征在于，还包括基础语言模型训练单元，所述基础语言模型训练单元用于：

训练通用领域语言模型和专用领域语言模型；

15.根据权利要求13所述的装置，其特征在于，还包括个人语言模型训练单元，所述个人语言模型训练单元包括：

获取子单元，用于获取与所述身份标识信息对应的个人语料；

第一训练子单元，用于根据所述个人语料训练得到与所述身份标识信息对应的所述个人语言模型。

16.根据权利要求15所述的装置，其特征在于，所述第一训练子单元包括：

第一提取子单元，用于从所述个人语料中提取出词向量；

识别子单元，用于将所述词向量输入到预设个人模型，通过所述预设个人模型得到所述个人语料的识别结果；

第二训练子单元，用于根据所述个人语料的识别结果，利用损失函数对所述预设个人模型进行训练，得到与所述身份标识信息对应的所述个人语言模型。

17.根据权利要求16所述的装置，其特征在于，所述识别子单元包括：

输入子单元，用于将所述词向量分别输入到所述预设个人模型的卷积层和合并层；

第二提取子单元，用于通过所述卷积层提取所述词向量对应的词的位置信息；

合并子单元，用于通过所述合并层将所述词向量和所述词向量对应的词的位置信息进行合并操作，得到合并信息；

第三提取子单元，用于将所述合并信息输入到所述预设个人模型的长短期记忆网络中，通过所述长短期记忆网络提取所述个人语料的语义特征；

归一化单元，用于对所述个人语料的语义特征进行映射操作和归一化操作，得到所述个人语料的识别结果。

18.根据权利要求17所述的装置，其特征在于，所述卷积层采用跳跃卷积网络，通过所述跳跃卷积网络使得所述卷积层中的每一层接收该层之前的所有卷积层的输出信息。

19.根据权利要求17所述的装置，其特征在于，所述合并子单元用于：

20.根据权利要求16所述的装置，其特征在于，所述损失函数的惩罚项包括L1正则和L2正则。

21.根据权利要求20所述的装置，其特征在于，所述损失函数采用如下公式：

表示句子的似然概率，

表示L2正则，

22.根据权利要求15所述的装置，其特征在于，所述个人语言模型训练单元还用于：

23.根据权利要求13至22中任一项所述的装置，其特征在于，所述个人语言模型训练单元还用于：

24.根据权利要求23所述的装置，其特征在于，所述个人语言模型训练单元还用于：

在无法确定与所述身份标识信息对应的个人语言模型的情况下，利用所述基础语言模型对所述待识别音频进行识别；

25.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至12中任一项所述的方法。

26.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的方法。