CN109616101B

CN109616101B - 声学模型训练方法、装置、计算机设备和可读存储介质

Info

Publication number: CN109616101B
Application number: CN201910110789.9A
Authority: CN
Inventors: 霍昱光; 陈泽明
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2022-03-11
Anticipated expiration: 2039-02-12
Also published as: CN109616101A

Abstract

本申请提出一种声学模型训练方法、装置、计算机设备和可读存储介质，其中，方法包括：在初始声学模型使用过程中，获取初始声学模型对应的反馈数据，其中反馈数据中包括用于表征初始声学模型的识别结果准确的正反馈数据，及用于表征初始声学模型的识别结果错误的负反馈数据；根据反馈数据及初始声学模型对应的原始训练数据，对初始声学模型进行修正训练。该方法能够实现充分利用客户端上实际可收集的反馈数据，作为训练数据，节省时间和人力成本，并且，由于反馈数据与客户端同源，可以避免训练有偏的情况发生，提升声学模型的性能。

Description

声学模型训练方法、装置、计算机设备和可读存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种声学模型训练方法、装置、计算机设备和可读存储介质。

背景技术

目前，输入法、客户端、智能设备(例如手机、机器人等)可以提供有语音输入和识别功能，通过语音识别系统对用户输入的语音数据进行识别，得到对应的识别结果。

声学模型作为语音识别系统的组成部分之一，对识别结果的准确性起到非常重要的作用。现有技术中，在对声学模型进行训练时，一般通过企业内部的标注团队对某一来源的音频数据进行标注，获得训练数据，而后，将处理好的训练数据加入到声学模型训练中，并通过调整各种训练数据的比例和训练参数，来提升声学模型的性能。

然而，上述训练数据是通过人工标注获取的，人工标注数据不仅需花费大量人力、财力、时间进行标注及重检，而且无法保证采集到的音频数据与客户端数据同源，可能造成训练有偏，降低声学模型的性能。

发明内容

本申请提出一种声学模型训练方法、装置、计算机设备和可读存储介质，以实现充分利用客户端上实际可收集的反馈数据，作为训练数据，节省时间和人力成本，并且，由于反馈数据与客户端同源，可以避免训练有偏的情况发生，提升声学模型的性能，用于解决现有技术中通过人工标注获取声学模型的训练数据，不仅需花费大量人力、财力、时间进行标注及重检，而且无法保证采集到的音频数据与客户端数据同源，可能造成训练有偏的技术问题。

本申请第一方面实施例提出了一种声学模型训练方法，包括：

在初始声学模型使用过程中，获取所述初始声学模型对应的反馈数据，其中反馈数据中包括用于表征所述初始声学模型的识别结果准确的正反馈数据，及用于表征所述初始声学模型的识别结果错误的负反馈数据；

根据所述反馈数据及所述初始声学模型对应的原始训练数据，对所述初始声学模型进行修正训练。

本申请实施例的声学模型训练方法，通过在初始声学模型使用过程中，获取初始声学模型对应的反馈数据，其中，反馈数据中包括用于表征初始声学模型的识别结果准确的正反馈数据，及用于表征初始声学模型的识别结果错误的负反馈数据，而后，根据反馈数据及初始声学模型对应的原始训练数据，对初始声学模型进行修正训练。由此，可以实现充分利用客户端上实际可收集的反馈数据，作为训练数据，相较于现有技术中人工标注数据的方式，可以大幅节省时间和人力成本，且增加训练数据的累积量。并且，由于反馈数据与客户端同源，可以避免训练有偏的情况发生，提升声学模型的性能。此外，根据反馈数据及初始声学模型对应的原始训练数据，对初始声学模型进行修正训练，可以使得初始声学模型有针对性地学习之前不能正确分类的负反馈数据的特征，同时强化了初始声学模型对原始可正确分类的性能，从而提升语音识别系统输出结果的准确性。

本申请第二方面实施例提出了一种声学模型训练装置，包括：

获取模块，用于在初始声学模型使用过程中，获取所述初始声学模型对应的反馈数据，其中反馈数据中包括用于表征所述初始声学模型的识别结果准确的正反馈数据，及用于表征所述初始声学模型的识别结果错误的负反馈数据；

修正模块，用于根据所述反馈数据及所述初始声学模型对应的原始训练数据，对所述初始声学模型进行修正训练。

本申请实施例的声学模型训练装置，通过在初始声学模型使用过程中，获取初始声学模型对应的反馈数据，其中，反馈数据中包括用于表征初始声学模型的识别结果准确的正反馈数据，及用于表征初始声学模型的识别结果错误的负反馈数据，而后，根据反馈数据及初始声学模型对应的原始训练数据，对初始声学模型进行修正训练。由此，可以实现充分利用客户端上实际可收集的反馈数据，作为训练数据，相较于现有技术中人工标注数据的方式，可以大幅节省时间和人力成本，且增加训练数据的累积量。并且，由于反馈数据与客户端同源，可以避免训练有偏的情况发生，提升声学模型的性能。此外，根据反馈数据及初始声学模型对应的原始训练数据，对初始声学模型进行修正训练，可以使得初始声学模型有针对性地学习之前不能正确分类的负反馈数据的特征，同时强化了初始声学模型对原始可正确分类的性能，从而提升语音识别系统输出结果的准确性。

本申请第三方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请第一方面实施例提出的声学模型训练方法。

本申请第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面实施例提出的声学模型训练方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的声学模型训练方法的流程示意图；

图2为本申请实施例二所提供的声学模型训练方法的流程示意图；

图3为本申请实施例三所提供的声学模型训练方法的流程示意图；

图4为本申请实施例四所提供的声学模型训练方法的流程示意图；

图5为传统的声学模型训练策略示意图；

图6为本申请实施例中的初始声学模型训练策略示意图；

图7为本申请实施例五所提供的声学模型训练方法的流程示意图；

图8为本申请实施例六所提供的声学模型训练装置的结构示意图；

图9为本申请实施例七所提供的声学模型训练装置的结构示意图；

图10示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请主要针对现有技术中人工标注获取声学模型的训练数据，不仅需花费大量人力、财力、时间进行标注及重检，而且无法保证采集到的音频数据与客户端数据同源，可能造成训练有偏的技术问题，提出一种声学模型训练方法。

下面参考附图描述本申请实施例的声学模型训练方法、装置、计算机设备和可读存储介质。

图1为本申请实施例一所提供的声学模型训练方法的流程示意图。

本申请实施例以该声学模型训练方法被配置于声学模型训练装置中来举例说明，该声学模型训练装置可以应用于具有语音输入和识别功能的输入法、客户端或智能设备，或者，应用于与上述客户端或者智能设备联网的服务器中，以实现声学模型训练功能。

其中，智能设备可以为任意一种具有计算处理能力的设备、器械或者机器，例如智能设备可以为机器人，或者为其他设备(比如移动终端、智能家电等等)，对此不作限制。移动终端可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备，智能家电可以为智能电视、空调、冰箱等家用电器。

如图1所示，该声学模型训练方法包括以下步骤：

步骤101，在初始声学模型使用过程中，获取初始声学模型对应的反馈数据，其中，反馈数据中包括用于表征初始声学模型的识别结果准确的正反馈数据，及用于表征初始声学模型的识别结果错误的负反馈数据。

本申请实施例中，初始声学模型的输出为：用户输入的语音数据对应的识别标签，其中，识别标签为可以为音素、音节或其他声学建模单元。用户输入的语音数据经声学模型、字典和语言模型等模块处理后，由语音识别系统进行输出，输出结果为：语音数据对应的初始识别结果。

本申请实施例中，反馈数据分为两类：第一类为用户未对初始识别结果进行修改的反馈数据，此时，可认为语音识别系统输出的初始识别结果与用户发音相匹配，因此，可以确定初始声学识别模型的识别结果准确，可将这类反馈数据归为正反馈数据；第二类为用户对初始识别结果进行修改的反馈数据，此时，可认为语音识别系统输出的初始识别结果与用户发音不匹配或不完全一致，因此，可以确定初始声学模型的识别结果错误，可将这类反馈数据归为负反馈数据。

本申请实施例中，可以在可构成数据闭环的语音识别场景中，例如，具有语音输入和识别功能的输入法、客户端中，利用语音识别系统，对用户输入的各语音数据进行识别，得到初始识别结果，并判断用户是否对上述初始识别结果进行修改，若是，则可以将对应的语音数据以及初始声学模型输出的识别标签，作为负反馈数据，若否，则可以将对应的语音数据以及初始声学模型输出的识别标签，作为正反馈数据。

作为一种可能的实现方式，可以按照预设比例，获取正反馈数据和负反馈数据，例如，当预设比例为1:1时，可以每选一条负反馈数据，就选一条正反馈数据，或者，当预设比例为2:1时，可以每选两条负反馈数据，就选一条正反馈数据，或者，当预设比例为1:2时，可以每选一条负反馈数据，就选两条正反馈数据，等等，对此不作限制。

步骤102，根据反馈数据及初始声学模型对应的原始训练数据，对初始声学模型进行修正训练。

可以理解的是，语音识别系统输出的初始识别结果与初始声学模型的性能息息相关，当初始声学模型的性能未达到较优状态时，可能发生语音识别系统输出的初始识别结果与用户表达的内容不匹配或者不完全一致的情况。因此，为了实现提升初始声学模型的性能，从而提升语音识别系统输出的初始识别结果的准确性，可以对初始声学模型进行修正训练。

本申请实施例中，在对初始声学模型进行修正训练时，如果仅利用初始声学模型原本已经能够正确识别的正反馈数据，对初始声学模型进行修正训练，可能造成初始声学模型对正样本过拟合的情况发生，从而降低声学模型的性能；而如果仅利用初始声学模型识别错误的负反馈数据，对初始声学模型进行修正训练，可能造成初始声学模型过度学习新加入的负反馈数据的特征，从而导致训练有偏的情况发生。

因此，本申请实施例中，为了避免在修正训练时，初始声学模型发生过度学习新加入的负反馈数据的特征而导致训练有偏的情况，以及避免初始声学模型对正样本过拟合的情况发生，在获取到反馈数据时，可以根据正反馈数据、负反馈数据以及初始声学模型对应的原始训练数据，对初始声学模型进行修正训练。由此，可以使得初始声学模型有针对性地学习之前不能正确分类的负反馈数据的特征，同时强化了初始声学模型对原始可正确分类的性能，从而提升语音识别系统输出结果的准确性。

作为一种可能的实现方式，在初始声学模型使用过程中，可以利用初始声学模型对用户输入的每条语音数据进行识别，确定各语音数据对应的识别标签以及语音识别系统识别得到的初始识别结果，从而根据用户是否对初始识别结果进行修改，以及各语音数据的识别标签来确定初始声学模型对应的反馈数据。下面结合图2，对上述过程进行详细说明。

图2为本申请实施例二所提供的声学模型训练方法的流程示意图。

如图2所示，该声学模型训练方法可以包括以下步骤：

步骤201，在初始声学模型使用过程中，获取初始声学模型对每条语音数据的识别标签及初始识别结果。

本申请实施例中，语音数据为用户输入的，识别标签为初始声学模型的输出结果，初始识别结果为语音识别系统的输出结果。

本申请实施例中，当用户通过输入法、客户端或者智能设备输入语音数据后，声学模型训练装置可以获取用户输入的语音数据，并利用语音识别系统对上述语音数据进行识别，可以得到语音数据对应的初始识别结果，以及初始声学模型输出的识别标签。

步骤202，根据每条语音数据的识别标签、初始识别结果及获取的最终识别结果，生成初始声学模型对应的反馈数据。

本申请实施例中，最终识别结果为语音识别系统输出后，并经过用户确认的识别结果，即最终识别结果为与用户输入的语音数据对应的，且语义正确的文本信息。

举例而言，当用户使用搜索类客户端，并输入语音数据“声学模型的特点”，若语音识别系统输出的初始识别结果为“声学模型的特点”，用户确认并进行搜索，此时，可以确定最终识别结果为“声学模型的特点”，而若语音识别系统输出的初始识别结果为“声学模型的优点”，用户对其进行修改为“声学模型的特点”并进行搜索，此时，可以确定最终识别结果为“声学模型的特点”。

本申请实施例中，针对每条语音数据，当初始识别结果与最终识别结果不同时，可以确定语音识别系统或初始声学模型识别有误，此时，可以将该语音数据以及对应的识别标签，作为负反馈数据，而当初始识别结果与最终识别结果相同时，可以确定语音识别系统或初始声学模型识别正确，此时，可以将该语音数据以及对应的识别标签，作为正反馈数据。

步骤203，根据反馈数据及初始声学模型对应的原始训练数据，对初始声学模型进行修正训练。

步骤203的执行过程可以参见上述实施例中步骤102的执行过程，在此不做赘述。

本申请实施例的声学模型训练方法，通过在初始声学模型使用过程中，获取初始声学模型对每条语音数据的识别标签及初始识别结果，根据每条语音数据的识别标签、初始识别结果及获取的最终识别结果，生成初始声学模型对应的反馈数据。由此，可以提升正反馈数据以及负反馈数据确定结果的准确性，从而利用反馈数据及初始声学模型对应的原始训练数据，对初始声学模型进行修正时，可以提升声学模型的性能。

需要说明的是，当用户对语音识别系统输出的初始识别结果进行修改时，若用户仅修改了初始识别结果中的标点符号，此时，由于并不影响初始识别结果的准确性，或者，不影响初始识别结果的语义，因此，可以不将对应的语音数据以及识别标签作为负反馈数据。并且，实际应用时，可能发生用户输入一条语音数据后，又手动输入文本信息的情况，例如用户语音输入“声学模型”后，语音识别系统输出的识别结果为“声学模型”，此时，语音识别系统或初始声学模型识别正确，若用户又在初始识别结果后手动输入“的输入和输出分别是什么”，则可能将对应的语音数据以及识别标签作为负反馈数据。因此，本申请中，为了提升正反馈数据以及负反馈数据确定的准确性，从而提升声学模型的性能，针对步骤202，只有当初始识别结果与最终识别结果不同，且初始识别结果与最终识别结果的差异满足预设条件时，才确定对应的语音数据及识别标签为负反馈数据，从而可以避免负反馈数据的数据准确性无法保证，而造成模型性能下降的情况发生。下面结合图3，对上述过程进行详细说明。

图3为本申请实施例三所提供的声学模型训练方法的流程示意图。

如图3所示，在上述实施例的基础上，步骤202具体可以包括以下子步骤：

步骤301，若第一语音数据的第一初始识别结果与第一最终识别结果相同，则确定第一语音数据及第一识别标签为正反馈数据。

本申请实施例中，第一语音数据可以指一条语音数据，也可以指初始识别结果与最终识别结果相同的多条语音数据，对此不作限制。

本申请实施例中，可以判断第一语音数据的第一初始识别结果是否与第一最终识别结果相同，若是，则确定语音识别系统和声学模型识别正确，因此，可以将第一语音数据及第一识别标签，作为正反馈数据。

步骤302，若第二语音数据的第二初始识别结果与第二最终识别结果不同、且第二初始识别结果与第二最终识别结果的差异满足预设条件，则确定第二语音数据及第二识别标签为负反馈数据。

本申请实施例中，第二语音数据可以指一条语音数据，也可以指初始识别结果与最终识别结果不同的多条语音数据，对此不作限制。

本申请实施例中，第二初始识别结果与第二最终识别结果的差异满足预设条件，可以包括：第二最终识别结果与第二初始识别结果的差异信息包括非标点字符、且第二初始识别结果中包含的非标点字符的数量与第二最终识别结果中包含的非标点字符的数量相同。

可以理解的是，当用户仅修改了初始识别结果中的标点符号，此时，并不影响初始识别结果的准确性，因此，可以将对应的语音数据以及识别标签作为正反馈数据。而当用户修改了初始识别结果中的文字信息时，此时，也不能确定语音识别系统和声学模型识别错误，例如，可能发生用户输入一条语音数据后，又手动输入文本信息的情况。并且，一般情况下，语音识别系统输出的识别结果的字数与用户说出的字数相同，此时，即使初始识别结果错误，用户对初始识别结果进行修改后，字数与初始识别结果的字数也应相同。因此，为了避免用户输入一条语音数据后，又手动输入文本信息，而造成语音数据误识别为负反馈数据的情况发生，本申请中，可以将用户删除标点符号后字数未变的初始识别结果，对应的语音数据以及识别标签作为负反馈数据。

具体地，可以判断第二语音数据的第二初始识别结果是否与第二最终识别结果不同，若是，则进一步判断第二最终识别结果与第二初始识别结果的差异信息是否仅包括标点字符，若仅包括标点字符，则将第二语音数据及第二识别标签作为正反馈数据，若包括非标点字符，此时，可以进一步判断第二初始识别结果中包含的非标点字符的数量与第二最终识别结果中包含的非标点字符的数量是否相同，若相同，则将第二语音数据及第二识别标签，作为负反馈数据，若不同，则将第二语音数据进行丢弃。

作为一种示例，参见图4，图4为本申请实施例四所提供的声学模型训练方法的流程示意图。用户输入的语音数据或音频数据经声学模型、语言模型和字典等处理后，可以输出初始识别结果，而后根据最终识别结果，判断用户是否对初始识别结果进行修改，若否，则将语音数据以及声学模型输出的识别标签，作为正反馈数据，若是，则进一步判断初始识别结果中包含的非标点字符的数量与最终识别结果中包含的非标点字符的数量是否相同，若相同，则将语音数据以及声学模型输出的识别标签，作为负反馈数据，若不同，则将语音数据进行丢弃。

本申请实施例的声学模型训练方法，通过若第一语音数据的第一初始识别结果与第一最终识别结果相同，则确定第一语音数据及第一识别标签为正反馈数据，若第二语音数据的第二初始识别结果与第二最终识别结果不同、且第二初始识别结果与第二最终识别结果的差异满足预设条件，则确定第二语音数据及第二识别标签为负反馈数据。由此，可以提升正反馈数据以及负反馈数据确定结果的准确性，从而利用反馈数据及初始声学模型对应的原始训练数据，对初始声学模型进行修正训练时，可以提升声学模型的性能。

作为一种示例，参见图5，图5为传统的声学模型训练策略示意图。其中，声学模型包括输入层、隐层和输出层，在获取到新的训练数据后，将新的训练数据以及原始训练数据(旧的训练数据)一起输入至输入层，由输出层输出训练数据对应的识别标签，语音识别系统输出训练数据对应的识别结果。

然而，由于负反馈数据的可置信度低于正反馈数据，若将新的训练数据和旧的训练数据一起输入至输入层，在通过同一个输出层输出的话，可能造成初始声学模型过度学习新加入的负反馈数据，从而导致训练有偏的情况发生。

因此，本申请实施例中，为了避免在对初始声学模型进行修正训练时，初始声学模型发生过度学习新加入的负反馈数据的特征而导致训练有偏的情况，以及避免初始声学模型对正样本过拟合的情况发生，可以采用类似于深度学习中多任务学习的隐层共享策略，对初始声学模型进行修正训练。

具体地，可以在图5所示结构的基础上，增加一个输出层，在对初始声学模型进行修正训练时，初始声学模型之前使用过的原始训练数据和正反馈数据仍从原始的输入层和输出层进出初始声学模型，负反馈数据从新增的输出层输出初始声学模型，最后，以原始的输出层作为初始声学模型的输出层。在对初始声学模型进行修正训练时，通过对原始训练数据、正反馈数据与负反馈数据进行隐层共享，在学习到之前未识别对的负反馈数据的特征的情况下，可以保证初始声学模型不会训偏，在确定正反馈数据为识别正确的假设基础上，进一步使用正反馈数据对原始输出层进行修正训练，可以强化原始输出层的分类性能。下面结合图6和图7对上述过程进行详细说明。

如图6所示，更新后的初始声学模型中包括输入层、隐层、第一输出层及第二输出层，则参见图7，该声学模型训练方法可以包括以下步骤：

步骤401，在利用初始声学模型的输入层、隐层及第一输出层对获取的语音数据进行识别过程中，获取语音数据对应的识别标签及识别结果。

需要说明的是，由于负反馈数据的可置信度低于正反馈数据，因此，在进行语音识别时，不使用负反馈数据对应的第二输出层，作为实际的输出层，而仍采用第一输出层作为声学模型的实际输出层。

因此，本申请中，可以利用初始声学模型的输入层、隐层及第一输出层对获取的语音数据进行识别，确定初始声学模型输出的语音数据对应的识别标签，同时可以获取语音识别系统输出的语音数据对应的识别结果，即利用初始声学模型的输入层、隐层及第一输出层来获取反馈数据。并判断用户是否对识别结果进行修改，若是，则将语音数据以及对应的识别标签，作为负反馈数据，若否，则将语音数据以及对应的识别标签，作为正反馈数据。

步骤402，根据初始声学模型中的第一输出层，对初始声学模型进行更新，以获取包括第二输出层的更新后的初始声学模型。

本申请实施例中，对初始声学模型进行更新时，可以通过直接将第一输出层进行复制后，得到第二输出层。

具体的，由于获取的反馈数据中既包括正反馈数据又包括负反馈数据，而负反馈数据的可置信度低于正反馈数据，因此，在进行模型修正训练时，为了避免负反馈数据对初始声学模型中的第一输出层的影响，可以在初始声学模型中设置一个专门用于输出负反馈数据对应标签的第二输出层。从而使得修正训练过程中只在隐层中对负反馈数据的特征进行学习，从而在提高隐层处理能力的同时，不影响初始声学模型中的第一输出层。

步骤403，将正反馈数据与原始训练数据中的每条第三语音数据分别输入更新后的初始声学模型中的输入层、隐层及第一输出层，并将负反馈数据中的每条第二语音数据分别输入更新后的初始声学模型中的输入层、隐层及第二输出层，以确定第一输出层输出每条第三语音数据对应的识别标签、且第二输出层输出第二语音数据对应的识别标签时，输入层、隐层及第一输出层分别对应的修正后的处理参数。

本申请实施例中，第三语音数据包含第一语音数据以及原始训练数据中的语音数据。

如图6所示，在对初始声学模型进行修正时，初始声学模型之前使用过的原始训练数据和正反馈数据(第三语音数据)，依次输入至输入层、隐层及第一输出层，负反馈数据(第二语音数据)输入至输入层、隐层及第二输出层，第一输出层可以输出每条第三语音数据对应的识别标签，并且第二输出层可以输出第二语音数据对应的识别标签，此时，可以确定输入层、隐层及第一输出层分别对应的修正后的处理参数。本申请中，第三语音数据和第二语音数据可以进行隐层共享，在隐层中对第二语音数据的特征进行学习，而不在第二输出层对第二语音数据的分类进行学习，可以实现在学习到之前未识别对的负反馈数据的特征的情况下，可以保证初始声学模型不会训偏，在确定正反馈数据为识别正确的假设基础上，进一步使用正反馈数据对第一输出层进行训练，可以强化第一输出层的分类性能。

作为一种示例，对初始声学模型进行修正时，使用的正训练数据(包括原始训练数据和正反馈数据)与负训练数据(负反馈数据)的比例为1:1，而后将第一语音数据、第二语音数据和原始训练数据添加至训练列表中，即将正反馈数据、负反馈数据和原始训练数据添加至训练列表。假设训练列表中有100条语音数据，启动训练时，可以将整个训练列表中的语音数据随机打乱，100条语音数据中的原始训练数据、正反馈数据以及负反馈数据随机打散。在对初始声学模型进行训练的过程中，可以按照打散后的训练列表给初始声学模型传训练数据，每一步传给初始声学模型一个batch(批)，假设一个batch的容量设为10，则第一步传给初始声学模型的训练数据为训练列表中第1至10号的语音数据，第二步将训练列表中的第11至20号的语音数据传给初始声学模型进行训练，以此类推。

由于训练列表中的语音数据为随机打散的，每个batch中有各个来源的数据，包括原始训练数据、正反馈数据和负反馈数据，每个batch中各个来源的数据，在同一步中一起对初始声学模型进行修正或者微调。

可以理解的是，对于成熟的语音识别系统而言，正反馈数据的数量远大于负反馈数据的数量，例如，对于百度输入法而言，正反馈数据的数量为负反馈数据的3至4倍，因此，本申请中，同时利用正反馈数据、负反馈数据以及原始训练数据进行隐层共享的方式，相较于仅使用原始训练数据和负反馈数据进行隐层共享的方式，可以成倍地增加训练数据的累积，提升声学模型的性能。

为了实现上述实施例，本申请还提出一种声学模型训练装置。

图8为本申请实施例六所提供的声学模型训练装置的结构示意图。

如图8所示，该声学模型训练装置包括：获取模块110和修正模块120。

其中，获取模块110，用于在初始声学模型使用过程中，获取初始声学模型对应的反馈数据，其中反馈数据中包括用于表征初始声学模型的识别结果准确的正反馈数据，及用于表征初始声学模型的识别结果错误的负反馈数据。

修正模块120，用于根据反馈数据及初始声学模型对应的原始训练数据，对初始声学模型进行修正训练。

进一步地，在本申请实施例的一种可能的实现方式中，参见图9，在图8所示实施例的基础上，获取模块110，可以包括：

获取子模块111，用于在初始声学模型使用过程中，获取初始声学模型对每条语音数据的识别标签及初始识别结果。

生成子模块112，用于根据每条语音数据的识别标签、初始识别结果及获取的最终识别结果，生成初始声学模型对应的反馈数据。

作为一种可能的实现方式，生成子模块112，具体用于：若第一语音数据的第一初始识别结果与第一最终识别结果相同，则确定第一语音数据及第一识别标签为正反馈数据；若第二语音数据的第二初始识别结果与第二最终识别结果不同、且第二初始识别结果与第二最终识别结果的差异满足预设条件，则确定第二语音数据及第二识别标签为负反馈数据。

作为一种可能的实现方式，第二初始识别结果与第二最终识别结果的差异满足预设条件，包括：第二最终识别结果与第二初始识别结果的差异信息包括非标点字符、且第二初始识别结果中包含的非标点字符的数量与第二最终识别结果中包含的非标点字符的数量相同。

作为一种可能的实现方式，初始声学模型中包括输入层、隐层及第一输出层，获取模块110，具体用于：在利用初始声学模型的输入层、隐层及第一输出层对获取的语音数据进行识别过程中，获取语音数据对应的识别标签及识别结果。

作为一种可能的实现方式，修正模块120，具体用于：根据初始声学模型中的第一输出层，对初始声学模型进行更新，以获取包括第二输出层的更新后的初始声学模型；将正反馈数据与原始训练数据中的每条第三语音数据分别输入更新后的初始声学模型中的输入层、隐层及第一输出层，并将负反馈数据中的每条第二语音数据分别输入更新后的初始声学模型中的输入层、隐层及第二输出层，以确定第一输出层输出每条第三语音数据对应的识别标签、且第二输出层输出第二语音数据对应的识别标签时，输入层、隐层及第一输出层分别对应的修正后的处理参数。

需要说明的是，前述对声学模型训练方法实施例的解释说明也适用于该实施例的声学模型训练装置，此处不再赘述。

为了实现上述实施例，本申请还提出一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如本申请前述实施例提出的声学模型训练方法。

为了实现上述实施例，本申请还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请前述实施例提出的声学模型训练方法。

图10示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图10显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示，通常称为“硬盘驱动器”)。尽管图10中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的声学模型训练方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种声学模型训练方法，其特征在于，包括：

根据所述反馈数据及所述初始声学模型对应的原始训练数据，对所述初始声学模型进行修正训练；

其中，所述获取所述初始声学模型对应的反馈数据，包括：

在所述初始声学模型使用过程中，获取所述初始声学模型对每条语音数据的识别标签及初始识别结果；

根据每条语音数据的识别标签、初始识别结果及获取的最终识别结果，生成所述初始声学模型对应的反馈数据，包括：

若第二语音数据的第二初始识别结果与第二最终识别结果不同、且所述第二初始识别结果与所述第二最终识别结果的差异满足预设条件，则确定所述第二语音数据及第二识别标签为负反馈数据；

其中，所述根据所述反馈数据及所述初始声学模型对应的原始训练数据，对所述初始声学模型进行修正训练，包括：

根据所述初始声学模型中的第一输出层，对所述初始声学模型进行更新，以获取包括第二输出层的更新后的初始声学模型；

将正反馈数据与原始训练数据中的每条第三语音数据分别输入所述更新后的初始声学模型中的输入层、隐层及第一输出层，并将所述负反馈数据中的每条第二语音数据分别输入所述更新后的初始声学模型中的输入层、隐层及所述第二输出层，以确定所述第一输出层输出每条第三语音数据对应的识别标签、且所述第二输出层输出所述第二语音数据对应的识别标签时，所述输入层、隐层及第一输出层分别对应的修正后的处理参数。

2.如权利要求1所述的方法，其特征在于，所述根据每条语音数据的识别标签、初始识别结果及获取的最终识别结果，生成所述初始声学模型对应的反馈数据，包括：

若第一语音数据的第一初始识别结果与第一最终识别结果相同，则确定所述第一语音数据及第一识别标签为正反馈数据。

3.如权利要求2所述的方法，其特征在于，所述第二初始识别结果与所述第二最终识别结果的差异满足预设条件，包括：

所述第二最终识别结果与所述第二初始识别结果的差异信息包括非标点字符、且所述第二初始识别结果中包含的非标点字符的数量与所述第二最终识别结果中包含的非标点字符的数量相同。

4.如权利要求1-3任一所述的方法，其特征在于，所述初始声学模型中包括输入层、隐层及第一输出层；

所述在初始声学模型使用过程中，获取所述初始声学模型对应的反馈数据，包括：

在利用所述初始声学模型的输入层、隐层及第一输出层对获取的语音数据进行识别过程中，获取所述语音数据对应的识别标签及识别结果。

5.一种声学模型训练装置，其特征在于，包括：

修正模块，用于根据所述反馈数据及所述初始声学模型对应的原始训练数据，对所述初始声学模型进行修正训练；

其中，所述获取模块，包括：

获取子模块，用于在所述初始声学模型使用过程中，获取所述初始声学模型对每条语音数据的识别标签及初始识别结果；

生成子模块，用于根据每条语音数据的识别标签、初始识别结果及获取的最终识别结果，生成所述初始声学模型对应的反馈数据；

其中，所述生成子模块，具体用于：

所述修正模块，具体用于：

6.如权利要求5所述的装置，其特征在于，所述生成子模块，具体用于：

7.如权利要求6所述的装置，其特征在于，所述第二初始识别结果与所述第二最终识别结果的差异满足预设条件，包括：

8.如权利要求5-7任一所述的装置，其特征在于，所述初始声学模型中包括输入层、隐层及第一输出层；

所述获取模块，具体用于：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-4中任一所述的声学模型训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的声学模型训练方法。