CN109887491A

CN109887491A - 声学模型训练方法和装置、电子设备、计算机可读介质

Info

Publication number: CN109887491A
Application number: CN201910205421.0A
Authority: CN
Inventors: 孙建伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-14
Anticipated expiration: 2039-03-18
Also published as: CN109887491B

Abstract

本公开提供了一种声学模型训练方法，该方法包括：获取精标数据的语音特征和普通数据的语音特征，其中，精标数据是指标注后得到的数据，普通数据是指未标注的数据，根据精标数据的语音特征和预设的网络模型确定单输入模型，根据单输入模型、精标数据的语音特征和普通数据的语音特征确定双输入声学模型。本公开还提供了一种声学模型训练装置、电子设备、计算机可读介质。

Description

声学模型训练方法和装置、电子设备、计算机可读介质

技术领域

本公开实施例涉及互联网技术领域，特别涉及声学模型训练方法和装置、电子设备、计算机可读介质。

背景技术

随着互联网和语音技术的发展，声学模型的训练的相关技术逐渐被重视。其中，语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言，是一种方便的人机交互方式。声学模型的准确率决定了语音识别的正确性和效果。

在现有技术中，声学模型的训练方法为：获取所有数据对应的音频，基于音频提取所有数据对应的特征，并结合单输入声学模型进行训练，对训练后的模型进行解码测试。

发明内容

本公开实施例提供声学模型训练方法和装置、电子设备、计算机可读介质。

第一方面，本公开实施例提供了一种声学模型训练方法，包括：

获取精标数据的语音特征和普通数据的语音特征，其中，所述精标数据是指标注后得到的数据，所述普通数据是指未标注的数据；

根据所述精标数据的语音特征和预设的网络模型确定单输入模型；

根据所述单输入模型、所述精标数据的语音特征和所述普通数据的语音特征确定双输入声学模型。

在一些实施例中，所述根据所述单输入模型、所述精标数据的语音特征和所述普通数据的语音特征确定双输入声学模型，包括：

对所述单输入模型进行复制和合并，得到双输入初始模型；

采用所述精标数据的语音特征和所述普通数据的语音特征对所述双输入初始模型进行训练，得到所述双输入声学模型。

在一些实施例中，所述对所述单输入模型进行复制和合并，得到双输入初始模型，包括：

对所述单输入模型的输入层进行复制，将复制后的输入层和所述单输入模型合并，得到所述双输入初始模型。

在一些实施例中，所述单输入模型包括数据采集层和隐层，所述将复制后的输入层和所述单输入模型合并，包括：

将复制后的输入层和所述单输入模型中的输入层共用所述单输入模型中的数据采集层和隐层。

在一些实施例中，在根据所述单输入模型、所述精标数据的语音特征和所述普通数据的语音特征确定双输入声学模型之后，还包括：

将所述双输入声学模型拆解为两个单输入模型；

选取包括用于输入所述精标数据的语音特征的输入层的单输入模型；

采用所述精标数据的语音特征对选取出的单输入模型进行训练，得到声学模型。

在一些实施例中，在所述获取精标数据的语音特征和普通数据的语音特征之前，还包括：

获取初始精标数据和初始普通数据；

分别获取所述初始精标数据和所述初始普通数据的音频，并分别从所述初始精标数据的音频中提取所述初始精标数据的语音特征,从所述初始普通数据的音频中提取所述初始普通数据的语音特征；

基于所述初始精标数据、所述初始普通数据、所述初始精标数据的语音特征和所述初始普通数据的语音特征构建训练列表；

所述获取精标数据的语音特征和普通数据的语音特征包括：

根据精标数据从所述训练列表的所述初始精标数据的语音特征中获取精标数据的语音特征，并根据普通数据从所述训练列表的所述初始普通数据的语音特征中获取普通数据的语音特征。

在一些实施例中，所述根据所述精标数据的语音特征和预设的网络模型确定单输入模型，包括：

采用所述精标数据的语音特征对预设的网络模型依次进行帧级别训练和句子级别训练，得到所述单输入模型。

第二方面，本公开实施例提供了一种声学模型训练装置，包括：

获取模块，用于获取精标数据的语音特征和普通数据的语音特征，其中，所述精标数据是指标注后得到的数据，所述普通数据是指未标注的数据；

单输入模型确定模块，用于根据所述精标数据的语音特征和预设的网络模型确定单输入模型；

双输入声学模型确定模块，用于根据所述单输入模型、所述精标数据的语音特征和所述普通数据的语音特征确定双输入声学模型。

在一些实施例中，所述双输入声学模型确定模块具体用于：

对所述单输入模型进行复制和合并，得到双输入初始模型；

在一些实施例中，所述双输入声学模型确定模块具体用于：

在一些实施例中，所述单输入模型包括数据采集层和隐层，所述双输入声学模型确定模块具体用于：将复制后的输入层和所述单输入模型中的输入层共用所述单输入模型中的数据采集层和隐层。

在一些实施例中，还包括：

拆解模块，用于将所述双输入声学模型拆解为两个单输入模型；

选取模块，用于选取包括用于输入所述精标数据的语音特征的输入层的单输入模型；

训练模块，用于采用所述精标数据的语音特征对选取出的单输入模型进行训练，得到声学模型。

在一些实施例中，还包括：

所述获取模块还用于，获取初始精标数据和初始普通数据；

所述获取模块还用于，分别获取所述初始精标数据和所述初始普通数据的音频，并分别从所述初始精标数据的音频中提取所述初始精标数据的语音特征,从所述初始普通数据的音频中提取所述初始普通数据的语音特征；

构建模块，用于基于所述初始精标数据、所述初始普通数据、所述初始精标数据的语音特征和所述初始普通数据的语音特征构建训练列表；

则所述获取模块具体用于，根据精标数据从所述训练列表的所述初始精标数据的语音特征中获取精标数据的语音特征，并根据普通数据从所述训练列表的所述初始普通数据的语音特征中获取普通数据的语音特征。

在一些实施例中，所述单输入模型确定模块具体用于：

第三方面，本公开实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上任一实施例所述的方法。

第四方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上任一实施例所述的方法。

本公开实施例提供的获取精标数据的语音特征和普通数据的语音特征，其中，精标数据是指标注后得到的数据，普通数据是指未标注的数据，根据精标数据的语音特征和预设的网络模型确定单输入模型，根据单输入模型、精标数据的语音特征和普通数据的语音特征确定双输入声学模型的技术方案，避免了现有技术中基于音频对应的全部数据的语音特征进行训练时，由于数据混杂且多造成的训练结果不精准的问题，实现了高效且精准的训练的技术效果。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为根据本公开实施例的声学模型训练方法的流程图；

图2为根据本公开实施例的声学模型训练方法的初始化的流程图；

图3为根据本公开实施例的确定双输入声学模型的流程图；

图4为根据本公开另一实施例的声学模型训练方法的流程图；

图5为根据本公开实施例的声学模型训练装置的示意图；

图6为根据本公开另一实施例的声学模型训练装置的示意图；

图7为根据本公开另一实施例的声学模型训练装置的示意图；

图8为根据本公开实施例提供的电子设备的框架图；

附图标记：

1、获取模块，2、单输入模型确定模块，3、双输入声学模型确定模块，4、拆解模块，5、选取模块，6、训练模块，7、构建模块，11、处理单元(或处理器)，12、存储器，13、总线，14、RAM，15、高速缓存，16、存储系统，17、程序组件，18、实用工具，19、外部设备，20、显示器，21、I/O接口，22、网络适配器。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的声学模型训练方法和装置、电子设备、计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

根据本公开实施例的一个方面，本公开实施例提供了一种声学模型训练方法。

请参阅图1，图1为根据本公开实施例的声学模型训练方法的流程图。

如图1所示，该方法包括：

S1：获取精标数据的语音特征和普通数据的语音特征，其中，精标数据是指标注后得到的数据，普通数据是指未标注的数据。

现有技术中，在对声学模型进行训练时，对音频进行特征提取，得到音频对应的所有数据的语音特征。而在该步骤中，是分别获取精标数据的语音特征和普通数据的语音特征。

也就是说，在本实施例中，获取到音频(包括地图对应的音频和车载语音对应的音频等)后，先对音频对应的数据中的部分数据进行标注，被标注的数据即为精标数据。而未被标注的数据即为普通数据。数据标注的过程可参考现有技术中的标注方法。且，可基于实际应用预先选取待标注的数据。即，具体被标注的数据可基于实际需求进行确定。优选地，基于不同的应用场景和应用需求，可设置不同的待标注的数据的类型和数量。

S2：根据精标数据的语音特征和预设的网络模型确定单输入模型。

其中，网络模型可以是任意一种神经网络模型，例如深度卷积神经网络模型，或者深度循环神经网络模型等，本实施例对此不作任何限定。

在该步骤中，通过精标数据的语音特征对网络模型进行训练。如，当网络模型为深度卷积神经网络模型，则将精标数据的语音特征输入至深度卷积神经网络模型，以便对深度卷积神经网络模型进行训练，进而得到单输入模型。

S3：根据单输入模型、精标数据的语音特征和普通数据的语音特征确定双输入声学模型。

通过本公开实施例提供的分别获取精标数据的语音特征和普通数据的语音特征，并根据精标数据的语音特征和网络模型确定单输入模型，再根据精标数据的语音特征、普通数据的语音特征和单输入模型确定双输入声学模型的技术方案，避免了现有技术中基于音频对应的全部数据的语音特征进行训练时，由于数据混杂且多造成的训练结果不精准的问题，实现了高效且精准的训练的技术效果。

结合图2可知，在一些实施例中，在S1之前，该方法还包括初始化的步骤：

S01：获取初始精标数据和初始普通数据。

其中，初始精标数据是相对于精标数据而言的，同理初始普通数据也是相对于普通数据而言的。本实施例中所述的初始精标数据和精标普通数据是指根据大量的数据进行分类得到的。

S02：分别获取初始精标数据和初始普通数据的音频，并分别从初始精标数据的音频中提取初始精标数据的语音特征,从初始普通数据的音频中提取初始普通数据的语音特征。

其中，语音特征包括fbank特征和mfcc特征。mfcc特征还用于在训练过程中进行监测。具体地，对mfcc特征和标注文本进行高斯混合模型训练(gmm训练)，得到转移状态，基于转移状态确定语音特征的标签，基于该标签监控训练过程中的语音特征的动态。

S03：基于初始精标数据、初始普通数据、初始精标数据的语音特征和初始普通数据的语音特征构建训练列表。

在本实施例中，训练列表体现了初始精标数据和与其相应的语音特征之间的对应关系，亦体现了初始普通数据和与其相应的语音特征之间的对应关系。即，当得到某个数据时(不管是精标数据还是普通数据)，均能通过该训练列表快速地找到该数据对应的语音特征。

优选地，由于数据的多样性和时效性，可通过定期或不定期的方式对训练列表进行更新。其中，对训练列表进行更新包括但不限于：将很长时间未曾使用，或者确定已经不会再用的数据以及语音特征进行删除；将首次出现的数据以及语音特征补充至训练列表中。

相应的，S1具体包括：根据精标数据从训练列表的初始精标数据的语音特征中获取精标数据的语音特征，并根据普通数据从训练列表的初始普通数据的语音特征中获取普通数据的语音特征。

通过本公开实施例的提供的构建训练列表的技术方案，可根据精标数据和普通数据从训练列表中直接提取相应的精标数据的语音特征和普通数据的语音特征，无需再进行特征分析和提取的步骤，实现了节约时间，提高效率的技术效果。

在一些实施例中，S2包括：采用精标数据的语音特征对预设的网络模型依次进行帧级别训练和句子级别训练，得到单输入模型。

也就是说，采用精标数据的语音特征对网络模型进行训练的过程至少包括两个部分，一个部分为对网络模型进行帧级别训练，另一个部分为对进行了帧级别训练后的网络模型进行句子级别的训练。

其中，句子级别的训练具体为ctc句子级别训练。而为使得训练得到的单输入模型更加精确，在本申请中，结合了迭代训练的方式。即，在进行ctc句子级别训练时，对ctc句子的损失值进行监测，只有当损失值小于预设的阈值时，或者，迭代次数达到预设次数时，才确定ctc句子级别训练结束，得到单输入模型。具体地，单输入模型为ctc单输入模型。

结合图3可知，在一些实施例中，S3包括：

S3-1：对单输入模型进行复制和合并，得到双输入初始模型。

在一些实施例中，S3-1包括：对单输入模型的输入层进行复制，将复制后的输入层和单输入模型合并，得到双输入初始模型。

也就是说，在对单输入模型进行复制时，可仅对单输入模型的输入层进行复制，以便节约时间和成本。

具体地，对ctc单输入模型进行复制，是指对ctc单输入模型的全连接层和softmax层进行复制，并将复制后的全连接层和softmax层与ctc单输入模型的全连接层和softmax层进行拆解，成为独立的一个输入层，并重新与ctc单输入模型进行合并，得到双输入初始模型。

S3-2：采用精标数据的语音特征和普通数据的语音特征对双输入初始模型进行训练，得到双输入声学模型。

在该步骤中，由于双输入初始模型包括两个输入层，则通过其中的一个输入层输入精标数据的语音特征，通过另一个输入层输入普通数据的语音特征，进而对双输入初始模型进行训练。通过采用不同的输入层输入不同类型的语音特征，可避免不同类型的语音特征之间的干扰，从而实现训练的精准性。

可以理解的是，单输入模型至少包括数据采集层和隐层，当然，双输入初始模型和双输入声学模型也至少包括数据采集层和隐层。在双输入初始模型中，包括单输入模型和基于单输入模型得到的复制后的输入层，且单输入模型的输入层和复制后的输入层共用数据采集和隐层。也就是说，双输入初始模型包括两个输入层，且两个输入层共用数据采集层和隐层。同理，双输入声学模型包括两个输入层，且两个输入层共用数据采集层和隐层。

由于两个输入层对数据采集层和隐层进行共用，使得训练过程中，精标数据的语音特征和普通数据的语音特征的泛化能力得到加强，且精标数据的语音特征被普通数据的而语音特征的干扰会降低，从而使得双输入声学模型的整体性能得到加强。

结合图4可知，在一些实施例中，在S3之后，该方法还包括：

S4：将双输入声学模型拆解为两个单输入模型。

可以理解的是，在对双输入声学模型进行拆分后，会得到两个单输入模型。其中，一个与精标数据的语音特征对应，另一个与普通数据的语音特征对应。

S5：选取包括用于输入精标数据的语音特征的输入层的单输入模型。

S6：采用精标数据的语音特征对选取出的单输入模型进行训练，得到声学模型。

在从两个单输入模型中选取与精标数据的语音特征的输入层的单输入模型后，采用精标数据的语音特征对选取出的单输入模型再次进行训练，得到声学。

在一些实施例中，S6包括：采用精标数据的语音特征对选取出的单输入模型进行句子级别的训练。

可以理解的是，由于在S2中，已经执行过句子级别的训练的步骤，而在进行句子级别的训练时，是以一定的学习率进行的。为提高训练的声学模型的整体性能，在S2中进行句子级别的训练的学习率比S6中的句子级别的训练的学习率高。优选地，S2中进行句子级别的训练的学习率为S6中的句子级别的训练的学习率高的十倍。

需要说明的是，在本实施例中S1-S3与前一实施例中的S1-S3相同，在此不再赘述。

通过本公开实施例提供的将双输入声学模型拆解，并从中选取精标数据的语音特征的输入层的单输入模型，以便采用精标数据的语音特征对选取出的单输入模型进行训练，得到声学模型的技术方案，可避免在前序训练的过程中(即S1至S3)精标数据的语音特征受到普通数据的语音特征的影响，造成的训练得到的模型(即双输入声学模型)的精确度不高的问题，进而实现提升模型(即声学模型)的精确度的技术效果。

根据本公开实施例提供的另一个方面，本公开实施例提供了一种声学模型训练装置。

请参阅图5，图5为根据本公开实施例的声学模型训练装置的示意图。

如图5所示，该装置包括：

获取模块1，用于获取精标数据的语音特征和普通数据的语音特征，其中，精标数据是指标注后得到的数据，普通数据是指未标注的数据；

单输入模型确定模块2，用于根据精标数据的语音特征和预设的网络模型确定单输入模型；

双输入声学模型确定模块3，根据单输入模型、精标数据的语音特征和普通数据的语音特征确定双输入声学模型。

在一些实施例中，双输入声学模型确定模块3具体用于：

对单输入模型进行复制和合并，得到双输入初始模型；

采用精标数据的语音特征和普通数据的语音特征对双输入初始模型进行训练，得到双输入声学模型。

在一些实施例中，双输入声学模型确定模块3具体用于：

对单输入模型的输入层进行复制，将复制后的输入层和单输入模型合并，得到双输入初始模型。

在一些实施例中，单输入模型包括数据采集层和隐层，双输入声学模型确定模块3具体用于：将复制后的输入层和单输入模型中的输入层共用单输入模型中的数据采集层和隐层。

结合图6可知，在一些实施例中，该装置还包括：

拆解模块4，用于将双输入声学模型拆解为两个单输入模型；

选取模块5，用于选取包括用于输入精标数据的语音特征的输入层的单输入模型；

训练模块6，用于采用精标数据的语音特征对选取出的单输入模型进行训练，得到声学模型。

结合图7可知，在一些实施例中，该装置还包括：

获取模块1还用于，获取初始精标数据和初始普通数据；

获取模块1还用于，分别获取初始精标数据和初始普通数据的音频，并分别从初始精标数据的音频中提取初始精标数据的语音特征,从初始普通数据的音频中提取初始普通数据的语音特征；

构建模块7，用于基于初始精标数据、初始普通数据、初始精标数据的语音特征和初始普通数据的语音特征构建训练列表；

则获取模块1具体用于，根据精标数据从训练列表的初始精标数据的语音特征中获取精标数据的语音特征，并根据普通数据从训练列表的初始普通数据的语音特征中获取普通数据的语音特征。

在一些实施例中，单输入模型确定模块2具体用于：采用精标数据的语音特征对预设的网络模型依次进行帧级别训练和句子级别训练，得到单输入模型。

根据本公开实施例提供的另一个方面，本公开实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述任一实施例中所述的方法。

请参阅图8，图8为根据本公开实施例提供的电子设备的框架图。

图8显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：一个或者多个处理器或者处理单元11，存储器12，连接不同组件(包括存储器12和处理单元11)的总线13。

总线13表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备统访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器12可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)14和/或高速缓存15(即高速缓存存储器)。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统16可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线13相连。存储器12可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序组件17的程序/实用工具18，可以存储在例如存储器12中，这样的程序组件17包括但不限于操作系统、一个或者多个应用程序、其它程序组件以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序组件17通常执行本发明所描述的实施例中的功能和/或方法。

电子设备也可以与一个或多个外部设备19(例如键盘、指向设备、显示器20等)通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口21进行。并且，电子设备还可以通过网络适配器22与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器22通过总线13与纠错装置的其它组件通信。应当明白，尽管图中未示出，可以结合纠错装置使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元11通过运行存储在存储器12中的多个程序中的至少一个程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的任务分配方法。

根据本公开实施例提供的另一个方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如上任一实施例所述的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种声学模型训练方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述单输入模型、所述精标数据的语音特征和所述普通数据的语音特征确定双输入声学模型，包括：

对所述单输入模型进行复制和合并，得到双输入初始模型；

3.根据权利要求2所述的方法，其中，所述对所述单输入模型进行复制和合并，得到双输入初始模型，包括：

4.根据权利要求3所述的方法，其中，所述单输入模型包括数据采集层和隐层，所述将复制后的输入层和所述单输入模型合并，包括：

5.根据权利要求1至4中任一项所述的方法，其中，在根据所述单输入模型、所述精标数据的语音特征和所述普通数据的语音特征确定双输入声学模型之后，还包括：

将所述双输入声学模型拆解为两个单输入模型；

6.根据权利要求1至4中任一项所述的方法，其中，在所述获取精标数据的语音特征和普通数据的语音特征之前，还包括：

获取初始精标数据和初始普通数据；

所述获取精标数据的语音特征和普通数据的语音特征包括：

7.根据权利要求1至4中任一项所述的方法，其中，所述根据所述精标数据的语音特征和预设的网络模型确定单输入模型，包括：

8.一种声学模型训练装置，包括：

9.根据权利要求8所述的装置，其中，所述双输入声学模型确定模块具体用于：

对所述单输入模型进行复制和合并，得到双输入初始模型；

10.根据权利要求9所述的装置，其中，所述双输入声学模型确定模块具体用于：

11.根据权利要求10所述的装置，其中，所述单输入模型包括数据采集层和隐层，所述双输入声学模型确定模块具体用于：将复制后的输入层和所述单输入模型中的输入层共用所述单输入模型中的数据采集层和隐层。

12.根据权利要求8至11中任一项所述的装置，其中，还包括：

13.根据权利要求8至11中任一项所述的装置，其中，还包括：

所述获取模块还用于，获取初始精标数据和初始普通数据；

14.根据权利要求8至11中任一项所述的装置，其中，所述单输入模型确定模块具体用于：

15.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至7中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1至7中任一所述的方法。