CN109616103A

CN109616103A - 声学模型的训练方法、装置及存储介质

Info

Publication number: CN109616103A
Application number: CN201910018912.4A
Authority: CN
Inventors: 袁胜龙
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2019-04-12
Anticipated expiration: 2039-01-09
Also published as: CN109616103B

Abstract

本发明提供一种声学模型的训练方法、装置及存储介质，其中方法包括：采用中文训练数据训练初始模型得到第一神经网络；根据第一神经网络得到第二神经网络；其中，第二神经网络的隐层采用第一神经网络的第一隐层初始化，N+S个节点的权值采用随机初始化；采用中文训练数据训练第二神经网络得到第三神经网络；采用中文训练数据和英文训练数据对第三神经网络进行训练得到声学模型。本发明提供的声学模型的训练方法、装置及存储介质中，训练得到的声学模型应用于中英文混合语音数据的识别时，提高了声学模型对中文语音数据的识别率。

Description

声学模型的训练方法、装置及存储介质

技术领域

本发明涉及电子技术，本发明尤其涉及一种声学模型的训练方法、装置及存储介质。

背景技术

随着电子技术的发展，语音识别技术逐渐进入人们生活中的工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。作为与人们生活最为接近的生活场景，常见的电子设备一般都能够具备语音识别功能，以实现用户与电子设备之间进行语音内容的交互，进而使得用户能够通过语音控制电子设备中的通讯录、输入法、地图、车载导航等软件实现相关功能。电子设备大多通过其所具有的语音识别模块通过机器学习的方式，实现对用户所说的语音内容进行识别。其中，当语音识别模块获取用户的语音数据后，通过神经网络分类器对语音数据进行特征提取、并将语音数据的特征与声学模型进行对比后，最终通过分类器确定用户的语音数据对应所表达的语义。

由于电子设备中的语音识别模块通常会内置神经网络中的声学模型，在电子设备识别语音数据前需要对声学模型进行训练。而针对用户与电子设备之间进行语音内容的交互时，用户所说出口的语音中通常是中英文数据混合组成，例如“今天的weather(天气)怎么样”的应用场景，向语音识别模块中内置的声学模型提出了既能识别中文语音数据又能够识别英文语音数据的要求。因此，现有技术中，在声学模型的训练时，通常会同时将X个类别的中文语音数据和Y个类别的英文语音数据组成的中英文混合的语音数据共同作为神经网络的输入层，经过神经网络进行特征提取后，得到神经网络输出层的X+Y个节点，该X+Y个节点所具有的权值用于，根据待识别的语音数据与该X+Y个节点的语音数据的相似程度进行分类识别。

但是采用现有技术训练声学模型的过程中，由于神经网络训练过程中反向传播的特性，输出层每个节点的权值都会参与神经网络隐层节点的计算，而对于同时作为神经网络输入层节点输入神经网络的中英文混合语音数据由于发音方式不同而会互相影响。实际训练得到的声学模型在后续识别语音数据过程中，对于中文语音数据的识别率较低。因此，如何提高中英文混合语音数据训练的声学模型对中文语音数据的识别率，是目前亟待解决的技术问题。

发明内容

本发明提供一种声学模型的训练方法、装置及存储介质，将经过中文语音数据训练得到的第一神经网络，并向第一神经网络的输出层添加随机化的对应中文语音数据类别的节点和对应英文语音数据类别的节点得到第二神经网络后，通过中文语音数据训练第二神经网络得到第三神经网络，再通过中文语音数据和英文语音数据组成的中英文混合数据训练第三神经网络得到声学模型。

由于本发明提供的声学模型在训练过程中，通过中文语音数据得到的第一神经网络和第二神经网络的隐层的权值，强化了用于中英文混合数据训练的第三神经网络的隐层中的权值，从而在声学模型应用于中英文混合语音数据的识别时，提高了声学模型对中文语音数据的识别率。

本发明第一方面提供一种声学模型的训练方法，包括：

采用中文训练数据训练初始模型得到第一神经网络；其中，所述第一神经网络包含第一隐层和第一输出层，所述第一输出层包含N个节点，所述N个节点对应中文语音数据的N个类别，所述N为大于等于2的整数；

根据所述第一神经网络得到第二神经网络；其中，所述第二神经网络的输出层包含N+S个节点，N个节点对应中文语音数据的N个类别，S个节点对应英文语音数据的S个类别，所述第二神经网络的隐层采用所述第一隐层初始化，所述N+S个节点权值采用随机初始化，所述N+S为大于等于3的整数；

采用所述中文训练数据训练所述第二神经网络得到第三神经网络；

采用所述中文训练数据和所述英文训练数据对所述第三神经网络进行训练得到声学模型。

在本发明第一方面一实施例中，所述采用中文训练数据训练初始模型得到第一神经网络，包括：

将所述N个中文训练数据作为所述初始模型的输入层节点，采用基于CTC的训练准则，优化神经网络，得到第一神经网络。

在本发明第一方面一实施例中，所述根据所述第一神经网络得到第二神经网络之前，还包括：

采用高斯随机化的方式获取所述N+S个节点的权值的初始值。

在本发明第一方面一实施例中，所述将所述N个中文训练数据作为初始模型的输入，采用基于CTC的训练准则，优化神经网络，得到第一神经网络，包括：

根据基于CTC训练准则的损失函数得到第一神经网络；其中，y^k为节点k的权值，为CTC路径中属于节点k的权值，p(z|x)为CTC所经过路径的总权值。

在本发明第一方面一实施例中，所述采用高斯随机化的方式获取所述N+S个节点的权值的初始值，包括：

根据确定标准正态分布Z后，根据Y＝(u|Z＝v)获取所述后S个节点的权值的初始值；

其中，U1和U2为服从[0,1]均匀分布的随机数，u为S个节点的权值的初始值的均值，v为S个节点的权值的初始值的方差。

本发明第二方面提供一种声学模型的训练装置，包括：

训练模块，用于采用中文训练数据训练初始模型得到第一神经网络；其中，所述第一神经网络包含第一隐层和第一输出层，所述第一输出层包含N个节点，所述N个节点对应所述中文语音数据的N个类别，所述N为大于等于2的整数；

处理模块，用于根据所述第一神经网络得到第二神经网络；其中，所述第二神经网络的输出层包含N+S个节点，N个节点对应所述中文语音数据的N个类别，S个节点对应英文语音数据的S个类别，所述第二神经网络的隐层采用所述第一隐层初始化，所述N+S个节点的权值采用随机初始化，所述N+S为大于等于3的整数；

所述训练模块还用于，采用所述中文训练数据训练所述第二神经网络得到第三神经网络；

所述训练模块还用于，采用所述中文训练数据和所述英文训练数据对所述第三神经网络进行训练得到声学模型。

在本发明第二方面一实施例中，所述训练模块具体用于，

将所述N个中文训练数据作为输入，采用基于CTC的训练准则，优化神经网络，得到第一神经网络。

在本发明第二方面一实施例中，所述处理模块还用于，

采用高斯随机化的方式获取所述N+S个节点的权值的初始值。

在本发明第二方面一实施例中，所述训练模块具体用于，

在本发明第二方面一实施例中，所述处理模块具体用于，

本发明第三方面提供一种电子设备，包括：

处理器，存储器以及计算机程序；其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如前述第一方面任一实施例所述的方法的指令。

本发明第四方面提供一种计算即可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被执行时，实现如前述第一方面任一实施例所述的方法。

综上，本发明提供一种声学模型的训练方法、装置及存储介质，其中方法包括：采用中文训练数据训练初始模型得到第一神经网络；其中，第一神经网络包含第一隐层和第一输出层，第一输出层包含N个节点，N个节点对应中文语音数据的N个类别，N为大于等于2的整数；根据第一神经网络得到第二神经网络；其中，第二神经网络的输出层包含N+S个节点，N个节点对应中文语音数据的N个类别，S个节点对应英文语音数据的N个类别，第二神经网络的隐层采用第一隐层初始化，N+S个节点的权值采用随机初始化，N+S为大于等于3的整数；采用中文训练数据训练第二神经网络得到第三神经网络；采用中文训练数据和英文训练数据对第三神经网络进行训练得到声学模型。本发明提供的声学模型的训练方法、装置及存储介质中，将经过中文语音数据训练得到的第一神经网络，并向第一神经网络的输出层添加随机化的对应中文语音数据类别的节点和对应英文语音数据类别的节点得到第二神经网络后，通过中文语音数据训练第二神经网络得到第三神经网络，再通过中文语音数据和英文语音数据组成的中英文混合数据训练第三神经网络得到声学模型。即，通过中文语音数据得到的第一神经网络和第二神经网络的隐层的权值，强化了用于中英文混合数据训练的第三神经网络的隐层中的权值，从而在声学模型应用于中英文混合语音数据的识别时，提高了声学模型对中文语音数据的识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的声学模型的训练方法应用场景示意图；

图2为现有技术中声学模型的训练方法一实施例的应用示意图；

图3为本发明提供的声学模型的训练方法一实施例的流程示意图；

图4为本发明提供的声学模型的训练方法一实施例的应用示意图；

图5为本发明提供的声学模型的训练装置一实施例的结构示意图；

图6为本发明提供的电子设备一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在介绍本发明提供的声学模型的训练方法前，先结合图1对本申请提供的声学模型的训练方法所应用的场景以及现有技术中存在的问题进行说明。

其中，图1为本发明提供的声学模型的训练方法应用场景示意图。如图1所示为电子设备2对用户1的语音数据进行语义识别的场景，以电子设备为手机为例。当用户1希望使用手机2查看天气时，可能会说出“今天weather(天气)怎么样”的语音，该语音中既包含中文语音数据“今天”和“怎么样”，又包含英文语音数据“weather”。而当电子设备2获取到用户的语音数据后，通过内置的语音识别模块21对用户的语音数据进行识别。其中，语音识别模块21具体将用户的语音数据“今天weather怎么样”作为声学模型210的输入数据，在本发明各实施例中，声学模型210基于神经网络实现。当用户的语音数据作为声学模型210的输入层，并经过声学模型210的隐层和输出层的处理后，声学模型210的根据输出层节点各节点的权值确定用户的语音数据的语义为“今天”、“weather”“怎么样”。并在确定用户语音数据的语义后，电子设备2可以响应用户1的语音数据例如在其显示屏幕22的显示界面上向用户显示天气。

具体地，用于对语音数据进行语义识别的声学模型210需要提前语音识别服务的提供商进行训练并内置在手机2中，以在手机2获取用户1的语音数据后通过声学模型进行语义识别。而针对用户2与电子设备1之间进行语音内容的交互时，用户所说出口的语音中通常是中英文数据混合组成，例如图1中所示的“今天的weather怎么样”的应用场景，向语音识别模块中内置的声学模型提出了既能识别中文语音数据又能够识别英文语音数据的要求。

图2为现有技术中声学模型的训练方法一实施例的应用示意图。如图2所示的现有技术中，基于神经网络实现的在声学模型的在训练时，通常会同时将例如“今天”、“你好”、“我”等X个类别的中文语音数据、和例如“open”、“weather”、“call”等Y个类别的英文语音数据组成的X+Y个类别的中英文混合的语音数据，共同作为神经网络的X+Y个输入层节点，经过神经网络的隐层进行特征提取训练后，得到神经网络输出层的X+Y个中英文节点，该输出层的X+Y个节点所具有的权值用于，根据待识别的语音数据与该X+Y个节点的语音数据的相似程度进行分类识别。例如在上述实施例中，若将“今天的weather怎么样”的语音数据送入图3所示实施例中训练得到的神经网络，其输出的X+Y个节点中，权值最大的节点为中文语音数据“今天”、“怎么样”对应的中文节点，以及英文语音数据“weather”对应的英文节点。则声学模型能够根据X+Y个节点中权值最大的三个节点确定语音数据的语义。

在如图3所示的基于神经网络的声学模型的训练过程中，首先，建立神经网络的初始模型，将X+Y个类别的中英文混合语音数据作为初始模型的输入，并对神经网络的初始模型的隐层各节点和输出层各节点的权值赋予随机数，以根据所输入的X+Y个类别的中英文混合语音数据，通过神经网络的前向传播和误差的反向传播过程对神经网络中隐层和输出层各节点的权值进行更新后，得到的神经网络隐层各节点的权值能够用于表征X+Y个已经训练的中英文语音数据的特征。但是由于神经网络训练过程中反向传播的特性，其输入层、输出层、隐层每个节点的权值都会参与神经网络隐层节点权值的计算。而由于中英文发音方式不同，实际训练声学模型时，英文语音数据通常会影响中文语音数据的识别准确率，造成了根据中英文混合语音数据共同训练得到的声学模型在后续识别语音数据过程中，实际识别效果表明其与纯中文语音数据输入神经网络训练得到的声学模型相比，对于中文语音数据的识别率较低。因此，如何提高中英文混合语音数据训练的声学模型对中文语音数据的识别率，是目前亟待解决的技术问题。

下面结合图3和图4，以具体地实施例对本发明提供的声学模型的训练方法的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。其中，图3为本发明提供的声学模型的训练方法一实施例的流程示意图；图4为本发明提供的声学模型的训练方法一实施例的应用示意图。

如图3所示，本实施例提供的声学模型的训练方法包括：

S101：采用中文训练数据训练初始模型得到第一神经网络；其中，第一神经网络包含第一隐层和第一输出层，第一输出层包含N个节点，第一输出层的N个节点一一对应中文语音数据的N个类别，N为大于等于2的整数。

具体地，本实施例的执行主体可以是具备相关数据处理功能的电子设备，例如：手机、平板电脑、笔记本电脑、台式电脑或者服务器等。或者，本实施例的执行主体还可以是电子设备中的芯片：如CPU或者GPU等。或者，本实施例的执行主体还可以是存储介质中存储的软件程序。本发明后续实施例以执行主体为电子设备为例进行说明，而并不作为对其进行的限定。

则当作为本实施例执行主体的电子设备在根据中英文混合的语音数据训练声学模型时，首先建立神经网络的初始模型，向初始模型的隐层和输出层中的各节点的权值初始化幅值随机数，并将中英文混合的语音数据中的中文语音数据作为神经网络的初始模型的输入层的N个节点。如图4所示的S1中，由于用于训练神经网络的中文语音数据的N个类别为已知的类别，则将中文语音数据作为输入层的N个节点，送入神经网络的隐层进行训练；经过神经网络的隐层训练之后，得到的隐层记为第一隐层，输出层输出的与中文语音数据的N个类别一一对应的N个中文节点，记为第一输出层。

例如：S101中可以将常用的3000个中文语音数据：“你好”、“今天”、“天气”……作为初始模型的输入层节点，由神经网络的隐层中每个节点，对输入层的每个节点进行特征提取以及分类的计算后，得到的第一神经网络的输出层具有权值的3000个节点。该输出层的3000个节点中的中文语音数据的3000个类别一一对应，并且当中文语音数据中第一个类别的中文语音数据“你好”作为输入层的节点输入神经网络的隐层后，则神经网络的输出层的3000个节点中，“你好”对应的第一个节点权值最大。

在本发明一种可能的实现方式中，如图4所示S1中的神经网络可以基于BP(backpropagation)神经网络实现。其中，BP神经网络具有输入层、隐层和输出层，并且其输入层、隐和输出层中节点的数量可以进行设置。通过BP算法计算神经网络中每个输入层节点前向传播和误差的反向传播两个过程产生输出层的节点的权值。其中，前向传播时，输入层节点通过隐层作用于输出层节点，经过非线性变换产生输出层节点权值，若实际输出层节点权值与期望不相符，则转入误差的反向传播过程。误差反向传播是将输出层节点的误差通过隐层向输入层逐层反传，并将误差分摊给隐层中各层所有单元，以从各层获得的误差信号作为调整各层中节点权值的依据。

其中，本实施例如图4所示S1中的神经网络通过中文语音数据训练第一神经网络时，需要首先对初始模型的隐层和输出层的节点进行初始化。以初始模型的隐层数目为一层，隐层中节点数目为3000，输出层节点数目为3000为例，则在S101中需要先对隐层的3000个节点和输出层的3000个节点的权值赋予随机数，得到初始模型，以使得后续第一神经网络计算的前向传播和反向传播过程中，在初始模型的基础上进行隐层和输出层每个节点权值的计算。随后，经过S101中神经网络的隐层、输出层对输入层每个节点的计算后，隐层中3000个节点和输出层3000个节点的均计算得到了新的权值，并得到新的神经网络。新的神经网络中各节点的权值用于表征已学习的中文语音数据的特征，使得后续待识别的中文语音数据输入神经网络后，新的神经网络通过隐层的3000个节点对待识别中文语音数据进行计算后，能够通过输出层的待识别中文语音数据。

可选地，在S101一种可能的实现方式中，可以将中文语音数据作为初始模型的输入，采用基于连续时序分类(Connectionist Temporal Classification，CTC)的训练准则，优化神经网络，得到第一神经网络。具体地，CTC训练准则基于语音数据序列，通过使损失函数最大化的原则以计算得到神经网络的隐层各节点权值。基于CTC训练准则的神经网络训练流程与传统神经网络相同，均为先构建损失函数(loss function)之后，根据BP算法进行训练。其中，损失函数为则S101中通过损失函数对神经网络进行优化，例如，对于如图4所示S1中示例中的任意隐层的节点k，y^k为神经网络中节点k的权值，为CTC路径中属于节点k的权值，p(z|x)为CTC所经过路径的总权值。经过CTC训练准则以及BP训练之后得到的神经网络为所述的第一神经网络，其中，第一神经网络中隐层每个节点都包括所用于表示输入层节点的中文语音数据的权值。需要说明的是，本实施例中对于CTC训练准则以及BP神经网络未示出之处可参照现有技术，本发明各实施例对于CTC训练准则以及BP神经网络本身的计算算法并不进行限定。而使用中文语音数据训练得到包括输出层、隐层和输入层的神经网络的方法均在本实施例限定范围内，并且可以理解的是，由于输入层数据不同，会带来所训练的神经网络的隐层各节点的权值不同。

S102：根据第一神经网络得到第二神经网络；其中，第二神经网络的输出层包含N+S个节点，N个节点对应中文语音数据的N个类别，S个节点对应英文语音数据的S个类别，第二神经网络的隐层采用第一隐层初始化，N+S个节点权值采用随机初始化，N+S为大于等于3的整数。

具体地，S102在S101通过中文语音数据训练得到的第一神经网络的基础上进行处理。如图4所示，S1为S101中通过中文语音数据训练得到的输出层具有中文节点的第一神经网络，S2为S102得到的第二神经网络。其中，第二网络的隐层，使用S1中得到的第一神经网络的第一隐层全部的节点进行初始化，即，第二神经网络的隐层节点分布与第一神经网络的隐层的节点分布相同，并且第二神经网络隐层各节点的权值与第一神经网络中相同位置的节点的权值相同。并且第二神经网络的输出层的全部节点都进行更新，不保留第一神经网络中的输出层节点，而是根据待训练的中文语音数据和英文语音数据，将第二神经网络的输出层初始化N+S个节点，并且每个节点的权值都进行随机数的初始化赋值。其中，N+S个节点中的前N个节点为中文节点、N个中文节点与中文语音数据的N个类别一一对应；N+S个节点中的后S个节点为英文节点、N个英文节点与英文语音数据的S个类别一一对应。

可选地，在S102一种可能的实现方式中，通过高斯随机化方式对第二神经网络中N+S个新增的节点的权值进行初始化权值的赋值。其中，需要生成两组独立的随机数U1和U2，这两组数在(0，1]上均匀分布；根据确定标准正态分布Z后，根据Y＝(u|Z＝v)调整标准正态分布的均值和方差后，得到后S个节点的权值的初始值。U1和U2为服从[0,1]均匀分布的随机数，u为S个节点的权值的初始值的均值，v为S个节点的权值的初始值的方差。特别地，本实施例中可以设置u＝0.02，v＝0.01。其中，本实施例中使用高斯随机化方式取随机数以及调整标准正态分布均值和方差方式可参照现有技术，本实施例对此不做限定。

S103：采用中文训练数据训练第二神经网络得到第三神经网络。

具体地，在S103中，将中文训练数据作为S102中得到的第二神经网络的输入层的节点，输入如图4中S2所示的第二神经网络进行训练，训练完成后得到第三神经网络。其中，中文语音数据与S101中训练第一神经网络时所使用的中文语音数据的内容以及排列均相同。

S104：采用中文训练数据和英文训练数据对第三神经网络进行训练得到声学模型。

具体地，在S104中，将中文语音数据和英文语音数据作为S103中得到的第三神经网络的输入层的节点，输入如图S3所示的第三神经网络进行训练，训练完成后的第三神经网络为所述的声学模型。声学模型中隐层的各节点的权值用于表征已经过神经网络学习训练的中文语音数据和英文语音数据的特征。其中，中文语音数据与S101、S103中训练第一神经网络以及第三神经网络时所使用的中文语音数据的内容以及排列均相同，英文语音数据为新增的常用英文语音数据例如：“hello”、“bye”、“weather”……的S个类别的英文语音数据。中文语音数据和英文语音数据作为输入层节点，经过第三神经网络的隐层训练之后，第三神经网络的输出层输出N+S个节点，其中，前N个节点为中文节点，与输入层中的前中文语音数据的N个类别一一对应，后S个节点为英文节点，与输入层中的后英文语音数据的S个类别一一对应。

则经过S104训练得到的声学模型中，隐层各节点的权值用于表征已经过神经网络学习训练的中文语音数据和英文语音数据的特征，使得后续待识别的语音数据输入声学模型后，声学模型通过隐层的N+S个节点对待识别的语音数据进行计算后，能够通过输出层的待识别中文语音数据。其中，若待识别的语音数据为中文“你好”，则经过声学模型的隐层计算后的输出层N+S个节点中，权值最大的节点应为前N个中文节点中“你好”对应的节点；而若待识别的语音数据为英文“hello”，则经过声学模型的隐层计算后的输出层N+S个节点中，权值最大的节点应为后S个英文节点中“hello”对应的节点。

可选地，S104中所训练的第二神经网络、S103中所训练的第二神经网络需要与S101中第一神经网络的类型相同，例如第三神经网络和第二神经网络都为BP神经网络。并且，S104中训练第三神经网络、S103中训练第二神经网络时，也可以采用CTC训练准则对神经网络进行优化，其实现原理相同，仅为节点数目上的增减，不再赘述。

综上，本实施例提供的声学模型的训练方法中，先通过中文节点训练得到第一神经网络后，使用第一神经网络中已经训练的隐层节点作为第二神经网络的隐层节点。随后再将中文语音数据作为第二神经网络的输入层节点，由第二神经网络的隐层在前述隐层节点的基础上训练得到第三神经网络模型后，再将中文语音数据和英文语音数据组成的中英文混合的语音数据作为第三神经网络模型的输入层节点，再进一步地对中英文混合语音数据进行训练得到声学模型。其中，本实施例提供的基于中英文混合语音数据的声学模型训练方法中，在将中英文混合语音数据送入神经网络训练之前，先通过中文语音数据训练得到的第一神经网络和第二神经网络中的隐层节点，并通过第二神经网络中隐层节点的权值对用于训练中英文混合数据的第三神经网络的隐层节点进行权值的初始化，由于隐层节点的权值已经能够用于表征中文语音数据的特征，在此隐层基础之上，各节点再根据中英文混合的语音数据对神经网络进行训练。

因此，本实施例提供的基于中英文混合语音数据的声学模型训练方法，与现有技术中，将神经网络中隐层全部节点的权值初始化随机数后，再通过中英文混合的语音数据进行训练相比，用于训练声学模型的第三神经网络的隐层已经包含了能够表征中文语音数据的特征的权值，因此即使加入了英文语音数据，由于通过中文语音数据得到的第一神经网络和第二神经网络的隐层的权值强化了第三神经网络的隐层中节点的权值，也还是能够减少中英文混合语音数据在声学模型训练过程中英文语音数据对中文语音数据的影响，使得训练得到声学模型在应用于中英文混合识别时，能够提高声学模型对中文语音数据的识别率。

图5为本发明提供的声学模型的训练装置一实施例的结构示意图。如图5所示，本实施例提供的声学模型的训练装置包括：训练模块501和处理模块502。

其中，训练模块501用于采用中文训练数据训练初始模型得到第一神经网络；其中，第一神经网络包含第一隐层和第一输出层，第一输出层包含N个节点，N个节点对应中文语音数据的N个类别，N为大于等于2的整数；处理模块502用于根据第一神经网络得到第二神经网络；其中，第二神经网络的输出层包含N+S个节点，N个节点对应中文语音数据的N个类别，S个节点对应英文语音数据的S个类别，第二神经网络的隐层采用第一隐层初始化，N+S个节点的权值采用随机初始化，N+S为大于等于3的整数；训练模块501还用于，采用中文训练数据训练第二神经网络得到第三神经网络；训练模块501还用于，采用中文训练数据和英文训练数据对第三神经网络进行训练得到声学模型。

可选地，训练模块501具体用于，将中文训练数据作为初始模型的输入层节点，采用基于CTC的训练准则，优化神经网络，得到第一神经网络。

可选地，处理模块502具体还用于，采用高斯随机化的方式获取N+S个节点的权值的初始值。

可选地，训练模块501具体用于，根据基于CTC训练准则的损失函数得到第一神经网络；其中，y^k为节点k的权值，为CTC路径中属于节点k的权值，p(z|x)为CTC所经过路径的总权值。

在本发明第二方面一实施例中，处理模块502具体用于，根据确定标准正态分布Z后，根据Y＝(u|Z＝v)获取后S个节点的权值的初始值；其中，U1和U2为服从[0,1]均匀分布的随机数，u为S个节点的权值的初始值的均值，v为S个节点的权值的初始值的方差。

如图5所示的声学模型的训练装置可用于执行前述对应实施例提供的声学模型的训练方法，其实现方式与原理相同，不再赘述。

图6为本发明提供的电子设备一实施例的结构示意图。如图6所示，本实施例的电子设备60包括：存储器61和处理器62。其中，存储器61可以是独立的物理单元，与处理器62可以通过总线63连接。存储器61、处理器62也可以集成在一起，通过硬件实现等。存储器61用于存储实现以上方法实施例的计算机程序，处理器63调用该计算机程序，执行以上方法实施例的操作。

可选地，当上述实施例的方法中的部分或全部通过软件实现时，上述电子设备60也可以只包括处理器。用于存储程序的存储器位于电子设备60之外，处理器通过电路/电线与存储器连接，用于读取并执行存储器中存储的计算机程序。处理器62可以是中央处理器(Central Processing Unit，CPU)，网络处理器(Network Processor，NP)或者CPU和NP的组合。处理器62还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit，ASIC)，可编程逻辑器件(ProgrammableLogic Device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device，CPLD)，现场可编程逻辑门阵列(Field-Programmable GateArray，FPGA)，通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。存储器61可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random-Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-volatile Memory)，例如快闪存储器(FlashMemory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-state Drive，SSD)；存储器还可以包括上述种类的存储器的组合。

另外，本发明还提供一种程序产品，例如，计算机可读存储介质，包括：计算机程序，计算机程序在被处理器执行时用于执行以上方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种声学模型的训练方法，其特征在于，包括：

采用中文训练数据训练初始模型得到第一神经网络；其中，所述第一神经网络包含第一隐层和第一输出层，所述第一输出层包含N个节点，所述N个节点对应所述中文语音数据的N个类别，所述N为大于等于2的整数；

根据所述第一神经网络得到第二神经网络；其中，所述第二神经网络的输出层包含N+S个节点，N个节点对应所述中文语音数据的N个类别，S个节点对应英文语音数据的S个类别，所述第二神经网络的隐层采用所述第一隐层初始化，所述N+S个节点的权值采用随机初始化，所述N+S为大于等于3的整数；

2.根据权利要求1所述的方法，其特征在于，所述采用中文训练数据训练初始模型得到第一神经网络，包括：

将所述中文训练数据作为所述初始模型的输入层节点，采用基于CTC的训练准则，优化神经网络，得到第一神经网络。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一神经网络得到第二神经网络之前，还包括：

采用高斯随机化的方式获取所述N+S个节点的权值的初始值。

4.根据权利要求2所述的方法，其特征在于，所述将所述中文训练数据作为所述初始模型的输入层节点，采用基于CTC的训练准则，优化神经网络，得到第一神经网络，包括：

5.根据权利要求3所述的方法，其特征在于，所述采用高斯随机化的方式获取所述N+S个节点的权值的初始值，包括：

6.一种声学模型训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述训练模块具体用于，

8.根据权利要求6或7所述的装置，其特征在于，所述处理模块还用于，

采用高斯随机化的方式获取所述N+S个节点的权值的初始值。

9.根据权利要求7所述的装置，其特征在于，所述训练模块具体用于，

10.根据权利要求8所述的装置，其特征在于，所述处理模块具体用于，

11.一种电子设备，其特征在于，包括：

处理器，存储器以及计算机程序；其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如权利要求1-5任一项所述的方法的指令。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被执行时，实现如权利要求1-5任一项所述的方法。