CN111833845B

CN111833845B - 多语种语音识别模型训练方法、装置、设备及存储介质

Info

Publication number: CN111833845B
Application number: CN202010761691.2A
Authority: CN
Inventors: 郑振鹏; 王健宗; 罗剑; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2023-11-24
Anticipated expiration: 2040-07-31
Also published as: WO2021135438A1; CN111833845A

Abstract

本申请公开了一种多语种语音识别模型训练方法，涉及人工智能领域，所述方法通过第一语种对语音识别模型进行训练，得到初始语音识别模型；搭建自适应网络函数，并将自适应网络函数嵌入初始语音识别模型的隐藏层中，得到初始多语种语音识别模型；通过第二语种的语音数据对初始多语种语音识别模型进行模型训练，得到训练结果；对初始多语种语音识别模型进行迭代更新，直到训练结果落入预设标准训练结果范围内，输出多语种语音识别模型。此外，本申请还涉及区块链技术，本申请中的第一语种的语音数据、第二语种的语音数据可存储于区块链中。本申请在初始语音识别模型的隐藏层嵌入自适应网络函数，可以提高多语种语音识别模型训练的效率。

Description

多语种语音识别模型训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种多语种语音识别模型训练方法、装置、设备及存储介质。

背景技术

目前语音识别技术已经非常成熟了，在有些语音识别机构的技术研究下，语音识别模型的识别精度已经可以达到94.5％，可以说已经可以达到人类的听觉感知能力了。但是这种性能优良的语音识别模型仅局限于几个使用广泛的语言，比如英语、法语等。目前，世界上有超过五千种语言被世界各地的人们使用，然而在这五千种语言中只有十种语言被广泛的使用，它们分别是：汉语、英语、俄语、西班牙语、印度语、阿拉伯语、葡萄牙语、孟加拉语、德语和日语。而其他的语言，由于使用人数较少，所以很难收集它们的语音数据，其相应的语音数据标注工作也相当难实施，因此大多数语种的语音识别模型不得不面对数据稀疏的问题，如何通过少量的语音数据训练成熟的语音识别模型称为行业研究的热点。

将多种语料结合起来共同训练，以提高语音识别模型对于语种的识别精度是目前语音识别行业内比较新型的语音识别模型训练方式，基于多任务学习(Multple TaskLearning,MTL)的模型框架训练多语种语音识别模型，其中，MTL模型包括网络的共享层(Shared Layers，SL)和独占层(Exclusive Layers，EL)，SL用于学习各个语种的共同特征，EL用于学习各个语种的差异特征。但通过MTL模型来训练多语种语音识别模型需要精细化设计模型结构，以提高语音识别模型精度，而每一个语种的语音识别模型对应的模型结构都不相同，因此，如何训练出一种多语种语音识别模型，使各个不同语种既能分享共同特征，又能够学习到各个语种的差异特征，使得训练出来的语音识别模型可以适用于各个语种的语音识别，成为一个巨大的挑战。

发明内容

本申请实施例的目的在于提出一种多语种语音识别模型训练方法、装置、计算机设备及存储介质，以解决现有的多语种语音识别模型均需要精细化设计模型结构，模型训练效率较低的问题。

为了解决上述技术问题，本申请实施例提供一种多语种语音识别模型训练方法，采用了如下所述的技术方案：

获取第一语种的语音数据，通过第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，其中，初始语音识别模型包括若干个隐藏层；

搭建自适应网络函数，并将自适应网络函数分别嵌入到若干个隐藏层中，得到初始多语种语音识别模型；

获取第二语种的语音数据，通过第二语种的语音数据对初始多语种语音识别模型进行模型训练，得到训练结果；

判断训练结果是否在预设标准训练结果范围内，若训练结果不在预设标准结果范围内，则对初始多语种语音识别模型进行迭代更新，直到训练结果落入预设标准训练结果范围内为止，输出多语种语音识别模型。

为了解决上述技术问题，本申请实施例还提供一种多语种语音识别模型训练装置，采用了如下所述的技术方案：

第一训练模块，用于获取第一语种的语音数据，通过第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，其中，初始语音识别模型包括若干个隐藏层；

函数搭建模块，用于搭建自适应网络函数，并将自适应网络函数分别嵌入到若干个隐藏层中，得到初始多语种语音识别模型；

第二训练模块，用于获取第二语种的语音数据，通过第二语种的语音数据对初始多语种语音识别模型进行模型训练，得到训练结果；

迭代更新模块，用于判断训练结果是否在预设标准训练结果范围内，若训练结果不在预设标准结果范围内，则对初始多语种语音识别模型进行迭代更新，直到训练结果落入预设标准训练结果范围内为止，输出多语种语音识别模型。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，处理器执行计算机可读指令时实现如上述任一项的多语种语音识别模型训练方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述任一项的多语种语音识别模型训练方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开了一种多语种语音识别模型训练方法，涉及人工智能领域，所述多语种语音识别模型训练方法不同于以往的语音识别模型训练方法，而是通过搭建自适应网络函数，并将自适应网络函数嵌入到已经训练好的初始语音识别模型的隐藏层中，得到初始多语种语音识别模型，然后再通过第二语种的语音数据对初始多语种语音识别模型进行训练，得到训练结果，根据训练结果对初始多语种语音识别模型进行迭代更新，输出训练结果符合要求的多语种语音识别模型。本申请通过搭建自适应网络函数，并将自适应网络函数嵌入到已经训练好的初始语音识别模型的隐藏层中，利用自适应网络函数区分不同语种之间的共同特征和差异特征，在本申请中不同语种之间的共同特征的识别结果可以复用，因此在进行多语种语音识别模型训练时，只需对不同语种之间的差异特征进行识别，本申请可以显著提高多语种语音识别模型训练的效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的多语种语音识别模型训练方法的一个实施例的流程图；

图3示出了图2中S203的一种具体实施方式的流程图；

图4示出了图3中S304的一种具体实施方式的流程图；

图5示出了根据本申请的多语种语音识别模型训练装置的一个实施例的结构示意图；

图6是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的多语种语音识别模型训练方法一般由服务器执行，相应地，多语种语音识别模型训练装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的多语种语音识别模型训练方法的一个实施例的流程图。所述的多语种语音识别模型训练方法，包括以下步骤：

S201，获取第一语种的语音数据，通过第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，其中，初始语音识别模型包括若干个隐藏层。

其中，语音数据是指由计算设备的语音采集模块对用户语音进行采集、处理后得到的数字化格式数据。计算设备例如包括但不限于智能手机、平板电脑、个人计算机、笔记本电脑等设备，语音采集模块例如包括这些设备的麦克风和声卡等部件。

在本申请具体的实施例中，在获取第一语种的语音数据之后，还包括对第一语种的语音数据进行预处理，所述的预处理包括但不限于对用户语音的采样量化和VAD(VoiceActivityDetection，端点检测)等等。这里的VAD是指在噪声环境中检测语音的存在与否，可用于语音编码等系统中，起到降低语音编码速率、节省通信带宽、提高识别率等作用。当上述计算设备开启语音采集功能时，可通过内置或外置的麦克风等采集设备对环境中获取的各种声音进行VAD，从其中检测出用户语音。当计算设备检测到用户语音后，进一步确定语音的起始点，进而开始采集环境中的语音，并形成数字形式的语音数据。经过对采集语音的预处理，提高了语音数据的高频分辨率，使得语音数据变得更加平滑，方便了语音数据的后续处理。

具体的，初始语音识别模型为成熟的单语种语音模型，可通过已知语料及其语音特征对语音识别模型进行训练得到，语音识别模型可通过CNN(Convolutional NeuralNetwork，卷积神经网络)、DNN(Deep Neural Network，深度神经网络)等神经网络或者它们的组合网络来构建。一种初始语音识别模型如中文语音识别模型，通过获取中文语料，提取中文语料中的语音特征，通过中文语料及其语音特征训练语音识别模型，得到成熟的中文语音识别模型。在本申请其他实施例中，初始语音识别模型也可以是英文语音识别模型、日文语音识别模型，或者其他语种的语音识别模型，本申请对此并不做限定。

在本实施例中，多语种语音识别模型训练方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式获取第一语种的语音数据。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

在本申请具体的实施例中，初始语音识别模型包括输入层、隐藏层和输出层。输入层用于接收语音特征的输入。隐藏层用于对输入的语音特征进行处理，初始语音识别模型包括若干个隐藏层。输出层用于计算输入语音特征的输出概率，不同的语音特征分别对应不同的音素。由此，在输入层输入于已知语料的语音特征，隐藏层用于对输入的语音特征进行处理，输出层计算并输出语音特征的识别结果，并通过不断迭代优化语音识别模型的损失函数(例如softmax函数)，可训练得到能够准确表达出输入语料语音识别结果的语言识别模型。

进一步地，获取第一语种的语音数据，通过第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，具体包括：

对第一语种的语音数据进行特征提取，得到第一语种的语音特征。

其中，计算设备可使用预设的特征提取算法处理上述第一语种的语音数据，以得到相应的语音特征。这里的特征提取算法例如包括但不限于MF CC(Me l-f req ue ncyCepstrum Coefficients，梅尔频率倒谱系数)算法和FBank(Mel-scale Filter Bank，梅尔标度滤波器组)算法，分别可对应提取语音数据的MFCC特征和FBank特征。

对第一语种的语音特征进行向量特征转换，得到第一语种的语音特征向量。

其中，语音识别模型输入层的权值和偏置通过预先均设置一个初始参数，使得语音识别模型能够对输入的语音特征向量进行特征转换，其中，权值和偏置是用于对输入的语音数据在网络中进行的折射变换计算的模型参数，使得网络经过计算输出的结果能够与实际情况相符。

具体的，通过语音识别模型的输入层对第一语种的语音特征进行向量特征转换，输出经过向量特征转换处理后的第一语种的语音特征向量。

对第一语种的语音特征向量进行加权计算，得到第一语种的语音特征权值。

具体的，通过语音识别模型的隐藏层对第一语种的语音特征向量进行加权计算，输出第一语种的语音特征权值。

进一步地，对第一语种的语音特征向量进行加权计算，得到第一语种的语音特征权值，具体包括：

将第一语种的语音特征向量输入到预先设置好的卷积核中进行卷积运算，得到初始矩阵。

其中，语音识别模型的隐藏层中预先设置有卷积核，卷积计算处理过程为，对于一m*n的矩阵，以1维卷积为例，构建一x*n的卷积核，该卷积核在原始矩阵上滑动运算。例如m的值为5，x的值为1，则卷积核自上而下滑动，x首先与第一行的n维向量相乘并求和，得到一个值，随后x继续往下滑动与第2行，第3行…进行卷积运算，共得到5*1的矩阵，即为卷积结果。

具体的，当隐藏层接收到第一语种的语音特征向量后，利用预先设置好的卷积核对第一语种的语音特征向量进行卷积处理，输出初始矩阵。

对初始矩阵进行注意力矩阵运算，得到权重矩阵。

具体的，得到初始矩阵之后，根据预先设置好的注意力矩阵函数对初始矩阵进行注意力矩阵运算处理，得到对应的输出结果，上述输出结果即为权重矩阵。

通过权重矩阵对第一语种的语音特征向量进行加权计算，得到第一语种的语音特征权值。

具体的，得到权重矩阵之后，通过权重矩阵对第一语种的语音特征向量进行加权计算，得到第一语种的语音特征权值。

在本实施例中，当隐藏层接收到第一语种的语音特征向量后，利用预先设置好的卷积核对第一语种的语音特征向量进行卷积处理，输出初始矩阵，根据预先设置好的注意力矩阵函数对初始矩阵进行注意力矩阵运算处理，得到权重矩阵，通过权重矩阵对第一语种的语音特征向量进行加权计算，得到第一语种的语音特征权值，能够在计算能力有限的情况下，将计算资源分配给关键数据信息，进一步提高运算精度，从而能够快速、准确地获取计算语音特征权值，保证后续利用的语音特征权值对语音内容进行识别的准确性。

对第一语种的语音特征权值进行发音音素概率计算，输出概率最大的识别结果。

其中，音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位，从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。音素一般分为元音和辅音两大类，不同的语种可划分出不同的发音音素。以汉语普通话为例，包括22个辅音和10个元音，而英语国际音标共有48个音素，其中元音音素20个，辅音音素28个。通过发音音素可以确定输入的语音数据对应的内容。

具体的，通过语音识别模型的输出层对第一语种的语音特征权值进行发音音素概率计算，输出概率最大的识别结果。其中，输出层包括多个输出元，每个输出元对应于语种A所包括的一个发音音素，输出层接收隐藏层的加权计算结果，并利用语音识别模型的损失函数基于加权计算结果计算语种A的发音音素概率，根据发音音素概率确定输入的语音特征对应的语音内容。

基于识别结果与预设标准识别结果，使用反向传播算法进行拟合，获取预测误差。

其中，反向传播算法，即误差反向传播算法(Backpropagationalgorithm，BP算法)适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上，用于深度学习网络的误差计算。BP网络的输入、输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层，并转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，以作为修改权值的依据。

具体的，基于识别结果与预设标准识别结果，使用反向传播算法对语音识别模型各个网络层的初始参数进行调整，在调整过程中对语音识别模型各个网络层参数进行误差反传更新，获取更新后的各个网络层的权值和偏置，采用更新后的权值和偏置，对第一语种的语音数据进行误差计算，得到预测误差。

将预测误差与预设的预测阈值进行比较，若预测误差大于预测阈值，则对语音识别模型进行迭代更新，直到预测误差小于或等于预测阈值为止，输出初始语音识别模型。

其中，对语音识别模型进行迭代更新具体为利用预先设置好的语音识别模型的损失函数，通过对语音识别模型中各个网络层的初始参数进行调整的方式进行迭代更新，当计算得到的上述预测差小于或等于预测阈值，则停止迭代，并输出初始语音识别模型。

在本申请具体实施例中，针对语种A，将提取得到的语种A的语音特征输入至语音识别模型的输入层，在输入层进行向量特征转换，并将向第一个隐藏层输出语种A的语音特征向量，初始语音识别模型包括若干个隐藏层，每个隐藏层接收下一个隐藏层的输出值之后，使用本层的权重矩阵进行加权计算，并将加权计算结果输出至上一个隐藏层，位于最上层的隐藏层的加权计算结果输出到输出层，输出层包括多个输出元，每个输出元对应于语种A所包括的一个发音音素，输出层接收最上层的隐藏层的加权计算结果，并利用语音识别模型的损失函数基于加权计算结果计算语种A的发音音素概率，根据发音音素概率确定输入的语音特征对应的语音内容。

在上述实施例中，基于已知语料提取的语音特征，并将提取到的语音特征输入语音识别模型，可确定其属于每个发音音素的目标概率值(例如为0或1)，并对语音识别模型进行迭代更新，通过上述训练过程可不断调整输入层、隐藏层和输出层的权值和偏置，最终得到满足预设条件的、成熟的语言识别模型。

S202，搭建自适应网络函数，并将自适应网络函数分别嵌入到若干个隐藏层中，得到初始多语种语音识别模型。

进一步地，在本申请具体的实施例中，通过以下公式搭建自适应网络函数：

其中，为自适应网络函数，max(0,x)为自适应网络函数中的共同特征，为自适应网络函数中的差异特征，/>为自适应激活参数，b_i为共享的网络参数，G为特征权值。

在搭建完成自适应网络函数的搭建之后，将自适应网络函数分别嵌入到初始语音识别模型的若干个隐藏层中，得到初始多语种语音识别模型。在进行多语种语音模型训练时，利用自适应网络函数区分不同语种之间的共同特征和差异特征，在本申请中不同语种之间的共同特征的识别结果可以复用，因此在进行多语种语音识别模型训练时，只需对不同语种之间的差异特征进行识别，本申请可以显著提高多语种语音识别模型训练的效率。

S203，获取第二语种的语音数据，通过第二语种的语音数据对初始多语种语音识别模型进行模型训练，得到训练结果。

进一步地，请参考图3，图3示出了图2中S203的一种具体实施方式的流程图，初始多语种语音识别模型也包括输入层、隐藏层和输出层，获取第二语种的语音数据，通过第二语种的语音数据对初始多语种语音识别模型进行模型训练，得到训练结果，具体包括：

S301，对第二语种的语音数据进行特征提取，得到第二语种的语音特征。

具体的，通过初始多语种语音识别模型的输入层对第二语种的语音数据进行向量特征转换，输出经过向量特征转换处理后的第二语种的语音特征向量。

S302，从初始多语种语音识别模型的数据库中获取第一语种的语音特征。

在S201获取第一语种的语音数据，通过第一语种的语音数据对语音识别模型进行训练时，系统会将第一语种的语音数据对应的语音特征、语音特征向量、语音特征权值以及识别结果存储在语音识别模型的数据库中，在进行特征识别之前，先从语音识别模型的数据库中提取第一语种的语音特征。

S303，通过自适应网络函数对第一语种的语音特征和第二语种的语音特征进行特征识别，得到共同特征和差异特征。

具体的，从第一语种的语音特征中提取对应的音素特征，以及从第二语种的语音特征中提取对应的音素特征，通过自适应网络函数逐个比对每一个第一语种的音素特征与每一个第二语种的音素特征，通过比对结果确定两个不同语种的音素是否属于共同特征。在本申请具体的实施方式中，若第二语种的某一个音素特征与第一语种的某一个音素特征相同，则确定两者为共同特征，若第二语种的某一个音素特征与第一语种的所有音素特征不相同，确定第二语种的此音素特征为差异特征。

S304，通过共同特征和差异特征对初始多语种语音识别模型进行模型训练，输出训练结果。

在本实施例中，通过对第二语种的语音数据进行特征提取，得到第二语种的语音特征，从初始多语种语音识别模型的数据库中获取第一语种的语音特征，通过自适应网络函数对第一语种的语音特征和第二语种的语音特征进行特征识别，得到共同特征和差异特征，通过共同特征和差异特征对初始多语种语音识别模型进行模型训练，输出训练结果，利用自适应网络函数可以快速区分不同语种之间的共同特征和差异特征，在进行多语种语音识别模型训练时，不同语种之间的共同特征的识别结果可以复用，因此只需对不同语种之间的差异特征进行识别，本申请可以显著提高多语种语音识别模型训练的效率。

进一步地，请参考图4，图4示出了图3中S304的一种具体实施方式的流程图，上述步骤S304分别通过共同特征和差异特征对初始多语种语音识别模型进行模型训练，输出训练结果，具体包括：

S401，对差异特征进行向量特征转换，得到差异特征向量。

具体的通过初始多语种语音识别模型的输入层对差异特征进行向量特征转换，得到差异特征向量。

S402，对差异特征向量进行加权计算，得到差异特征权值。

具体的通过初始多语种语音识别模型的隐藏层对差异特征向量进行加权计算，得到差异特征权值。

S403，对差异特征权值进行发音音素概率计算，输出差异特征的识别结果。

具体的，通过初始多语种语音识别模型的输出层对差异特征权值进行发音音素概率计算，输出差异特征的识别结果。

在本申请一种具体的实施例中，可以基于音素后验概率算法计算发音音素概率，音素后验概率算法通过搭建对应的音素混淆网络，对网络中的每一条路径计算语音的声学似然值，利用获得的声学似然值来计算音素后验概率的分子部分，将混淆网络所有路径上的声学似然值进行时间规整后累加作为音素后验概率的分母，从而计算出更为精确的音素后验概率。音素后验概率算法具体的计算公式为：

其中，p(ph)为发音音素概率，((x₁,...,x_t)|(s₁,...,s_t))为规整前的声学似然值，p_nor((x₁,...,x_t)|(s₁,...,s_t)_ref)为规整后的声学似然值，CN为包含多条音素并联路径的混淆网络,x_t为输入的第t帧语音特征，s_t为第t帧语音特征对应的隐马尔科夫模型的状态，该状态为正态分布N(δ_t,∑_t)，δ_t和∑_t分别是隐马尔科夫模型的均值矢量和协方差矩阵，其具体数值可以从语音识别模型中获得。

S404，从初始多语种语音识别模型的数据库中获取共同特征的识别结果。

其中，在进行采用第二语种的语音数据训练初始多语种语音识别模型，可以通过初始多语种语音识别模型的自适应网络函数对第一语种的语音特征和第二语种的语音特征进行特征识别，得到两者的共同特征和差异特征，而针对于两者共同特征部分的识别结果可以继续复用第一语种的语音数据的识别结果。

S405，将共同特征的识别结果与差异特征的识别结果进行组合，形成训练结果。

具体的，将从初始多语种语音识别模型的数据库中获取到的共同特征的识别结果与差异特征的识别结果进行组合，得到训练结果。

在本实施例中，利用自适应网络函数区分不同语种之间的共同特征和差异特征，在本申请中不同语种之间的共同特征的识别结果可以复用，因此在进行多语种语音识别模型训练时，只需对不同语种之间的差异特征进行识别，本申请可以显著提高多语种语音识别模型训练的效率。

S204，判断训练结果是否在预设标准训练结果范围内，若训练结果不在预设标准结果范围内，则对初始多语种语音识别模型进行迭代更新，直到训练结果落入预设标准训练结果范围内为止，输出多语种语音识别模型。

进一步地，对初始多语种语音识别模型进行迭代更新，直到训练结果落入预设标准训练结果范围内为止，输出多语种语音识别模型，具体包括：

通过反向传播算法对训练结果与预设标准训练结果进行拟合，获取训练误差。

将训练误差与预设的标准阈值进行比较。

若训练误差大于标准阈值，则对多语种语音识别模型进行迭代更新，直到训练误差小于或等于标准阈值为止，输出多语种语音识别模型。

具体的，将第二语种的语音数据输入到初始多语种语音识别模型，得到训练结果，通过反向传播算法对训练结果与预设标准训练结果进行拟合，获取训练误差，将训练误差与预设的标准阈值进行比较，若训练误差大于标准阈值，则对多语种语音识别模型进行迭代更新，若训练误差小于或等于标准阈值为止，输出多语种语音识别模型。通过获取训练误差以及对多语种语音识别模型进行迭代更新，可以提高多语种语音识别模型识别准确度。

其中，对语音识别模型进行迭代更新具体为反复在初始多语种语音识别模型上输入第二语种的语音数据进行模型训练，并在训练过程中利用预先设置好的语音识别模型的损失函数，通过对语音识别模型中各个网络层的初始参数进行调整的方式进行迭代更新，当计算得到的上述预测差小于或等于预测阈值，则停止迭代，并输出初始语音识别模型。

本申请公开了一种多语种语音识别模型训练方法，涉及人工智能领域，所述多语种语音识别模型训练方法不同于以往的语音识别模型训练方法，而是通过搭建自适应网络函数，并将自适应网络函数嵌入到已经训练好的初始语音识别模型的隐藏层中，得到初始多语种语音识别模型，然后再通过第二语种的语音数据对初始多语种语音识别模型进行训练，得到训练结果。

根据训练结果对初始多语种语音识别模型进行迭代更新，输出训练结果符合要求的多语种语音识别模型。本申请通过搭建自适应网络函数，并将自适应网络函数嵌入到已经训练好的初始语音识别模型的隐藏层中，利用自适应网络函数区分不同语种之间的共同特征和差异特征，在本申请中不同语种之间的共同特征的识别结果可以复用，因此在进行多语种语音识别模型训练时，只需对不同语种之间的差异特征进行识别，本申请可以显著提高多语种语音识别模型训练的效率。

需要强调的是，为进一步保证上述第一语种的语音数据、第二语种的语音数据的私密和安全性，上述第一语种的语音数据、第二语种的语音数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图5，作为对上述图2所示方法的实现，本申请提供了一种多语种语音识别模型训练装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的多语种语音识别模型训练装置400包括：第一训练模块501、函数搭建模块502、第二训练模块503以及迭代更新模块504，其中：

第一训练模块501，用于获取第一语种的语音数据，通过第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，其中，初始语音识别模型包括若干个隐藏层；

函数搭建模块502，用于搭建自适应网络函数，并将自适应网络函数分别嵌入到若干个隐藏层中，得到初始多语种语音识别模型；

第二训练模块503，用于获取第二语种的语音数据，通过第二语种的语音数据对初始多语种语音识别模型进行模型训练，得到训练结果；

迭代更新模块504，用于判断训练结果是否在预设标准训练结果范围内，若训练结果不在预设标准结果范围内，则对初始多语种语音识别模型进行迭代更新，直到训练结果落入预设标准训练结果范围内为止，输出多语种语音识别模型。

进一步地，第一训练模块501具体包括：

第一特征提取单元，用于对第一语种的语音数据进行特征提取，得到第一语种的语音特征；

第一特征转换单元，用于对第一语种的语音特征进行向量特征转换，得到第一语种的语音特征向量；

第一加权计算单元，用于对第一语种的语音特征向量进行加权计算，得到第一语种的语音特征权值；

第一概率计算单元，用于对第一语种的语音特征权值进行发音音素概率计算，输出概率最大的识别结果；

反向拟合单元，用于基于识别结果与预设标准识别结果，使用反向传播算法进行拟合，获取预测误差；

迭代更新单元，用于将预测误差与预设的预测阈值进行比较，若预测误差大于预测阈值，则对语音识别模型进行迭代更新，直到预测误差小于或等于预测阈值为止，输出初始语音识别模型。

进一步地，加权计算单元具体包括：

卷积运算子单元，用于将第一语种的语音特征向量输入到预先设置好的卷积核中进行卷积运算，得到初始矩阵；

注意力矩阵运算子单元，用于对初始矩阵进行注意力矩阵运算，得到权重矩阵；

加权计算子单元，用于通过权重矩阵对第一语种的语音特征向量进行加权计算，得到第一语种的语音特征权值。

进一步地，在函数搭建模块502中，通过以下公式搭建自适应网络函数：

进一步地，第二训练模块503具体包括：

第二特征提取单元，用于对第二语种的语音数据进行特征提取，得到第二语种的语音特征；

特征获取单元，用于从初始多语种语音识别模型的数据库中获取第一语种的语音特征；

特征识别单元，用于通过自适应网络函数对第一语种的语音特征和第二语种的语音特征进行特征识别，得到共同特征和差异特征；

模型训练单元，用于通过共同特征和差异特征对初始多语种语音识别模型进行模型训练，输出训练结果。

进一步地，迭代更新模块504具体包括：

第二特征转换单元，用于对差异特征进行向量特征转换，得到差异特征向量；

第二加权计算单元，用于对差异特征向量进行加权计算，得到差异特征权值；

第二概率计算单元，用于对差异特征权值进行发音音素概率计算，输出差异特征的识别结果；

识别结果获取单元，用于从初始多语种语音识别模型的数据库中获取共同特征的识别结果；

结果组合单元，用于将共同特征的识别结果与差异特征的识别结果进行组合，形成训练结果。

本申请公开了一种多语种语音识别模型训练装置，涉及人工智能领域，所述多语种语音识别模型训练装置包括：第一训练模块501，用于获取第一语种的语音数据，通过第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，其中，初始语音识别模型包括若干个隐藏层；函数搭建模块502，用于搭建自适应网络函数，并将自适应网络函数分别嵌入到若干个隐藏层中，得到初始多语种语音识别模型；第二训练模块503，用于获取第二语种的语音数据，通过第二语种的语音数据对初始多语种语音识别模型进行模型训练，得到训练结果；迭代更新模块504，用于判断训练结果是否在预设标准训练结果范围内，若训练结果不在预设标准结果范围内，则对初始多语种语音识别模型进行迭代更新，直到训练结果落入预设标准训练结果范围内为止，输出多语种语音识别模型。本申请通过搭建自适应网络函数，并将自适应网络函数嵌入到已经训练好的初始语音识别模型的隐藏层中，利用自适应网络函数区分不同语种之间的共同特征和差异特征，在本申请中不同语种之间的共同特征的识别结果可以复用，因此在进行多语种语音识别模型训练时，只需对不同语种之间的差异特征进行识别，本申请可以显著提高多语种语音识别模型训练的效率。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图6，图6为本实施例计算机设备基本结构框图。

所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器61可以是所述计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器61也可以是所述计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件，例如多语种语音识别模型训练方法的计算机可读指令等。此外，所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中，所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据，例如运行所述多语种语音识别模型训练方法的计算机可读指令。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本申请公开了一种计算机设备，涉及人工智能领域，通过搭建自适应网络函数，并将自适应网络函数嵌入到已经训练好的初始语音识别模型的隐藏层中，得到初始多语种语音识别模型，然后再通过第二语种的语音数据对初始多语种语音识别模型进行训练，得到训练结果，根据训练结果对初始多语种语音识别模型进行迭代更新，输出训练结果符合要求的多语种语音识别模型。本申请通过搭建自适应网络函数，并将自适应网络函数嵌入到已经训练好的初始语音识别模型的隐藏层中，利用自适应网络函数区分不同语种之间的共同特征和差异特征，在本申请中不同语种之间的共同特征的识别结果可以复用，因此在进行多语种语音识别模型训练时，只需对不同语种之间的差异特征进行识别，本申请可以显著提高多语种语音识别模型训练的效率。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的多语种语音识别模型训练方法的步骤。

本申请公开了一种计算机可读存储介质，涉及人工智能领域，通过搭建自适应网络函数，并将自适应网络函数嵌入到已经训练好的初始语音识别模型的隐藏层中，得到初始多语种语音识别模型，然后再通过第二语种的语音数据对初始多语种语音识别模型进行训练，得到训练结果，根据训练结果对初始多语种语音识别模型进行迭代更新，输出训练结果符合要求的多语种语音识别模型。本申请通过搭建自适应网络函数，并将自适应网络函数嵌入到已经训练好的初始语音识别模型的隐藏层中，利用自适应网络函数区分不同语种之间的共同特征和差异特征，在本申请中不同语种之间的共同特征的识别结果可以复用，因此在进行多语种语音识别模型训练时，只需对不同语种之间的差异特征进行识别，本申请可以显著提高多语种语音识别模型训练的效率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种多语种语音识别模型训练方法，其特征在于，所述多语种语音识别模型训练方法包括：

获取第一语种的语音数据，通过所述第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，其中，所述初始语音识别模型包括若干个隐藏层；

搭建自适应网络函数，并将所述自适应网络函数分别嵌入到若干个所述隐藏层中，得到初始多语种语音识别模型；

获取第二语种的语音数据，通过所述第二语种的语音数据对所述初始多语种语音识别模型进行模型训练，得到训练结果；

判断所述训练结果是否在预设标准训练结果范围内，若所述训练结果不在所述预设标准训练结果范围内，则对所述初始多语种语音识别模型进行迭代更新，直到所述训练结果落入所述预设标准训练结果范围内为止，输出多语种语音识别模型；

所述获取第一语种的语音数据，通过所述第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，具体包括：

对所述第一语种的语音数据进行特征提取，得到所述第一语种的语音特征；

对所述第一语种的语音特征进行向量特征转换，得到所述第一语种的语音特征向量；

对所述第一语种的语音特征向量进行加权计算，得到所述第一语种的语音特征权值；

对所述第一语种的语音特征权值进行发音音素概率计算，输出概率最大的识别结果；

基于所述识别结果与预设标准识别结果，使用反向传播算法进行拟合，获取预测误差；

将所述预测误差与预设的预测阈值进行比较，若所述预测误差大于所述预测阈值，则对所述语音识别模型进行迭代更新，直到所述预测误差小于或等于所述预测阈值为止，输出初始语音识别模型；

通过以下公式搭建所述自适应网络函数：

其中，为自适应网络函数，max(0,x)为自适应网络函数中的共同特征，为自适应网络函数中的差异特征，/>为自适应激活参数，b_i为共享的网络参数，G为特征权值，特征权值包含多个，i表示第i个特征权值，x为输入的语音特征，n为隐藏层数量，m表示第m层隐藏层；

获取第二语种的语音数据，通过所述第二语种的语音数据对所述初始多语种语音识别模型进行模型训练，得到训练结果，具体包括：

对所述第二语种的语音数据进行特征提取，得到所述第二语种的语音特征；

从所述初始多语种语音识别模型的数据库中获取所述第一语种的语音特征；

通过所述自适应网络函数对所述第一语种的语音特征和所述第二语种的语音特征进行特征识别，得到共同特征和差异特征；

通过所述共同特征和所述差异特征对所述初始多语种语音识别模型进行模型训练，输出训练结果；

所述对所述初始多语种语音识别模型进行迭代更新，直到所述训练结果落入所述预设标准训练结果范围内为止，输出多语种语音识别模型，具体包括：

通过反向传播算法对所述训练结果与所述预设标准训练结果进行拟合，获取训练误差；

将所述训练误差与预设的标准阈值进行比较；

若所述训练误差大于标准阈值，则对所述多语种语音识别模型进行迭代更新，直到所述训练误差小于或等于标准阈值为止，输出多语种语音识别模型。

2.如权利要求1所述的多语种语音识别模型训练方法，其特征在于，所述对所述第一语种的语音特征向量进行加权计算，得到所述第一语种的语音特征权值，具体包括：

将所述第一语种的语音特征向量输入到预先设置好的卷积核中进行卷积运算，得到初始矩阵；

对所述初始矩阵进行注意力矩阵运算，得到权重矩阵；

通过所述权重矩阵对所述第一语种的语音特征向量进行加权计算，得到所述第一语种的语音特征权值。

3.如权利要求1所述的多语种语音识别模型训练方法，其特征在于，所述通过所述共同特征和所述差异特征对所述初始多语种语音识别模型进行模型训练，输出训练结果，具体包括：

对所述差异特征进行向量特征转换，得到差异特征向量；

对所述差异特征向量进行加权计算，得到差异特征权值；

对所述差异特征权值进行发音音素概率计算，输出差异特征的识别结果；

从所述初始多语种语音识别模型的数据库中获取所述共同特征的识别结果；

将所述共同特征的识别结果与所述差异特征的识别结果进行组合，形成训练结果。

4.一种多语种语音识别模型训练装置，其特征在于，所述多语种语音识别模型训练装置实现如权利要求1至3中任一项所述的多语种语音识别模型训练方法的步骤，所述多语种语音识别模型训练装置包括：

第一训练模块，用于获取第一语种的语音数据，通过所述第一语种的语音数据对语音识别模型进行训练，得到初始语音识别模型，其中，所述初始语音识别模型包括若干个隐藏层；

函数搭建模块，用于搭建自适应网络函数，并将所述自适应网络函数分别嵌入到若干个所述隐藏层中，得到初始多语种语音识别模型；

第二训练模块，用于获取第二语种的语音数据，通过所述第二语种的语音数据对所述初始多语种语音识别模型进行模型训练，得到训练结果；

迭代更新模块，用于判断所述训练结果是否在预设标准训练结果范围内，若所述训练结果不在所述预设标准训练结果范围内，则对所述初始多语种语音识别模型进行迭代更新，直到所述训练结果落入所述预设标准训练结果范围内为止，输出多语种语音识别模型。

5.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至3中任一项所述的多语种语音识别模型训练方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至3中任一项所述的多语种语音识别模型训练方法的步骤。