CN110544469B

CN110544469B - 语音识别模型的训练方法及装置、存储介质、电子装置

Info

Publication number: CN110544469B
Application number: CN201910833277.5A
Authority: CN
Inventors: 刘洋; 唐大闰
Original assignee: Miaozhen Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2022-04-19
Anticipated expiration: 2039-09-04
Also published as: CN110544469A

Abstract

本发明提供了一种语音识别模型的训练方法及装置、存储介质、电子装置，其中，上述方法包括：获取以下至少之一数据：获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据；使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练，采用上述技术方案，解决了相关技术中在不同的背景噪声场景下，语音识别模型识别正常语音的准确率低等问题，提高了语音识别模型抗不同背景噪声的鲁棒性。

Description

语音识别模型的训练方法及装置、存储介质、电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种语音识别模型的训练方法及装置、存储介质、电子装置。

背景技术

连锁餐厅为了提高服务员的服务规范，要求服务员按照餐厅指定的话术为顾客服务。通过佩戴录音设备，语音模型识别出服务员是否按照要求的话术进行服务，在当前主流的语音识别模型中，安静场景下能达到很高的识别准确性，但是真实环境的语音识别场景中，由于环境比较嘈杂，如连锁餐厅的环境，涉及到餐厅的不同背景噪声，如餐厅播放的背景音乐、服务员佩戴录音设备过程中产生的设备的摩擦噪声等，使得识别效果的准确率大大下降。

针对相关技术中，在不同的背景噪声场景下，语音识别模型识别正常语音的准确率低等问题，尚未提出有效的技术方案。

发明内容

本发明实施例提供了一种语音识别模型的训练方法及装置、存储介质、电子装置，以至少解决相关技术中在不同的背景噪声场景下，语音识别模型识别正常语音的准确率低等问题。

根据本发明的一个实施例，提供了一种语音识别模型的训练方法，包括：获取以下至少之一数据：获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据；使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练。

在本发明实施例中，使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练之后，所述方法还包括：使用训练后的语音识别模型对有噪声的所述目标场景下的目标对象的语音进行识别，得到语音识别结果。

在本发明实施例中，使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练，包括：对至少由所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据组成的集合按照预定比例划分为三个子集，其中，所述子集包括：训练集，测试集，验证集；使用所述训练集对所述语音识别模型进行训练。

在本发明实施例中，所述预定比例包括：7:2:1，8:1:1。

在本发明实施例中，使用所述训练集对所述语音识别模型进行训练之后，所述方法还包括：使用所述测试集对训练后的语音识别模型进行测试，以测试所述训练后的语音识别模型是否正确；和/或使用所述验证集对训练后的语音识别模型进行验证，以测试所述训练后的语音识别模型是否正确。

根据本发明的另一个实施例，还提供了一种语音识别模型的训练装置，包括：获取模块，用于获取以下至少之一数据：获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据；处理模块，用于使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练。

在本发明实施例中，所述处理模块，还用于使用训练后的语音识别模型对有噪声的所述目标场景下的目标对象的语音进行识别，得到语音识别结果。

在本发明实施例中，所述处理模块，用于对至少由所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据组成的集合按照预定比例划分为三个子集，其中，所述子集包括：训练集，测试集，验证集；使用所述训练集对所述语音识别模型进行训练。

在本发明实施例中，所述预定比例包括：7:2:1，8:1:1。

根据本发明的另一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取以下至少之一数据：获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据；使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练，采用上述技术方案，解决了相关技术中在不同的背景噪声场景下，语音识别模型识别正常语音的准确率低等问题，进而提供了一种语音识别准确率高的语音识别模型，也提高了语音识别模型抗不同背景噪声的鲁棒性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音识别模型的训练方法的流程图；

图2是根据本发明实施例的语音识别模型的训练装置的结构框图；

图3是根据本发明优选实施例的语音识别模型的训练示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明实施例提供了一种语音识别模型的训练方法，图1是根据本发明实施例的语音识别模型的训练方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，获取以下至少之一数据：获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据；

步骤S104，使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练。

在本发明实施例中，所述预定比例包括：7:2:1，8:1:1。

即本发明实施例的上述技术方案，语音识别模型能够适应不同目标场景(例如，餐厅，操场)等的噪声环境，进而提供了一种抗不同噪声源的语音识别模型，通过对训练数据混合不同的背景噪声源，让语音识别模型在复杂环境下，仍然有稳定的识别效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

在本实施例中还提供了一种语音识别模型的训练装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的语音识别模型的训练装置的结构框图，如图2所示，该装置包括：

获取模块20，用于获取以下至少之一数据：获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据；

处理模块22，用于使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练。

通过本发明，获取以下至少之一数据：获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据；使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练，采用上述技术方案，解决了相关技术中在不同的背景噪声场景下，语音识别模型识别正常语音的准确率低等问题，进而提供了一种语音识别准确率高的语音识别模型。

在本发明实施例中，所述处理模块22，还用于使用训练后的语音识别模型对有噪声的所述目标场景下的目标对象的语音进行识别，得到语音识别结果。

在本发明实施例中，所述处理模块22，用于对至少由所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据组成的集合按照预定比例划分为三个子集，其中，所述子集包括：训练集，测试集，验证集；使用所述训练集对所述语音识别模型进行训练。

在本发明实施例中，所述预定比例包括：7:2:1，8:1:1。

在本发明实施例中，所述处理模块22，还用于使用所述测试集对训练后的语音识别模型进行测试，以测试所述训练后的语音识别模型是否正确；和/或使用所述验证集对训练后的语音识别模型进行验证，以测试所述训练后的语音识别模型是否正确。

即本发明实施例的上述技术方案，语音识别模型能够适应不同目标场景(例如，餐厅，操场)等的噪声环境，进而提供了一种抗不同噪声源的语音识别模型，通过对训练数据进行语音增强，让语音识别模型在复杂环境下，仍然有稳定的识别效果。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

为了更好的理解上述语音识别模型的训练流程，以下结合示例进行说明，但不用于限定本发明实施例的技术方案，具体可包括以下步骤：

本发明优先实施例针对连锁餐厅中服务员服务话术，通过收集噪声数据，混合到收集的音频数据中，加大训练数据时长，达到真实场景下的识别效果。

基于图3所示的架构，本发明优选实施例提供的语音识别训练过程包括以下步骤：

步骤1：通过音频录制模块，准备服务员话术，服务员佩戴录音设备按照话术服务顾客，录音设备收集音频数据。并对该数据进行人工标注，得到标注结果。

步骤2：通过噪声收集模块，录制不同连锁餐厅场景噪声，收集噪声数据。

步骤3：通过安静场景的音频模块获取准备安静场景下的音频数据，该音频数据可以购买，或免费获取，并对该音频数据标注，得到标注结果。

步骤4：语音增强模块，将噪音数据分别混合到步骤3产生的音频数据中，产生数据A，在将噪音数据混合到步骤1产生的音频数据中产生数据B。步骤1的音频数据、步骤2的噪声数据、数据A和数据B这四份数据构成了训练数据，需要说明的是，上述(数据混合的方式仅仅作为一种示例，实际处理方式并不唯一。

步骤5：数据准备模块，基于步骤4产生的训练数据，将训练数据按照7:2:1的比例划分为训练集、测试集、验证集，需要说明的是，划分比例也是不唯一，优选考虑将训练集划分的比重大。

步骤6：特征提取模块，根据步骤5准备的数据，进行梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient，简称为MFCC特征提取，该方法是语音识别过程中特征提取通用的方法。

步骤7：声学模型训练模块，使用步骤6产生的特征数据和对应音频的标注结果，进行训练获得隐马尔科夫模型-混合高斯模型HMM-GMM或隐马尔科夫模型-深度神经网络HMM-DNN的声学模型。

语言模型、字典的获取过程，可以采用现有技术中任何一种现有方案，本发明实施例对此不作限定。

步骤8：基于声学模型对未知语音帧序列进行识别，组合声学模型、字典、语言模型，最终获得解码过程中产生的最大概率的文本路径，输出为识别得到的文本。

可见，采用上述实施例以及优选实施例的技术方案，充分利用语音增强后的训练数据，用来模拟真实数据，尽可能的识别目标场景中，服务员(可以理解为上述实施例的目标对象)的话术，同时，能够更好地抗背景噪声带来的影响，提高对应场景中服务员语音识别的准确性。

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，获取以下至少之一数据：获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据；

S2，使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练。

本发明的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的示例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别模型的训练方法，其特征在于，包括：

获取以下至少之一数据：获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述不同目标场景的噪声数据混合到无噪声的所述目标场景对应的音频数据中，得到的第二语音数据、将所述不同目标场景的噪声数据混合到所述第一语音数据中确定的第三语音数据；

使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练；

其中，使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练之后，所述方法还包括：

使用训练后的语音识别模型对有噪声的所述目标场景下的目标对象的语音进行识别，得到语音识别结果。

2.根据权利要求1所述的方法，其特征在于，使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练，包括：

对至少由所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据组成的集合按照预定比例划分为三个子集，其中，所述子集包括：训练集，测试集，验证集；

使用所述训练集对所述语音识别模型进行训练。

3.根据权利要求2所述的方法，其特征在于，所述预定比例包括：7:2:1，8:1:1。

4.一种语音识别模型的训练装置，其特征在于，包括：

获取模块，用于获取以下至少之一数据：获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述不同目标场景的噪声数据混合到无噪声的所述目标场景对应的音频数据中，得到的第二语音数据、将所述噪声数据混合到所述第一语音数据中确定的第三语音数据；

处理模块，用于使用所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据对语音识别模型进行训练；

所述处理模块，还用于使用训练后的语音识别模型对有噪声的所述目标场景下的目标对象的语音进行识别，得到语音识别结果。

5.根据权利要求4所述的装置，其特征在于，所述处理模块，用于对至少由所述第一语音数据，所述噪声数据，所述第二语音数据和所述第三语音数据组成的集合按照预定比例划分为三个子集，其中，所述子集包括：训练集，测试集，验证集；使用所述训练集对所述语音识别模型进行训练。

6.根据权利要求5所述的装置，其特征在于，所述预定比例包括：7:2:1，8:1:1。

7.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至3任一项中所述的方法。

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至3任一项中所述的方法。