CN112669826A

CN112669826A - 声学模型优化方法及装置，电子设备

Info

Publication number: CN112669826A
Application number: CN202011556009.2A
Authority: CN
Inventors: 韩雨; 李健; 陈明; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-16
Anticipated expiration: 2040-12-24
Also published as: CN112669826B

Abstract

本发明提供了一种声学模型优化方法及装置，电子设备，其中，所述声学模型优化方法包括：制备预设数量的语音训练样本；依据预设网络层数、每层结点数构建声学模型中的编码器组件和解码器组件；为所述解码器组件包含的各层解码器建立残差连接；依据所述语音训练样本，对构建的所述声学模型进行训练，得到优化后的声学模型。本发明提供的声学模型优化方法所优化的声学模型，每一层解码器的信息都得到充分得到利用，能够提高声学模型的识别率。

Description

声学模型优化方法及装置，电子设备

技术领域

本发明涉及语音识别技术领域，特别是涉及一种声学模型优化方法及装置，电子设备。

背景技术

传统的端到端的语音识别网络模型结构如图1所示，该模型由编码器组件和解码器组件构成，编码器由多个编码器堆叠而成，解码器组件由多个解码器堆叠而成。编码器部分，主要作用是将输入序列转化成一个固定长度向量解码器部分，主要作用是编码后的向量转化为输出序列。

传统的语音识别网络模型中解码器组件仅是由多个解码器串联而成，网络只利用了最后一层解码器的结果作为输出，而前面几层解码器的信息无法得到充分利用。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种声学模型优化方法及装置，电子设备。

第一方面，本发明实施例公开了一种声学模型优化方法，包括：制备预设数量的语音训练样本，其中，所述语音训练样本包括：音频、对应的文本信息以及预设特征；依据预设网络层数、每层结点数构建声学模型中的编码器组件和解码器组件；为所述解码器组件包含的各层解码器建立残差连接；依据所述语音训练样本，对构建的所述声学模型进行训练，得到优化后的声学模型。

可选地，为所述解码器组件包含的各层解码器建立残差连接的步骤，包括：

针对所述解码器组件中的每层解码器，分别将所述层解码器与所述层解码器之后的各层解码器连接。

可选地，制备预设数量的语音训练样本的步骤，包括：

采集第一预设数量的第一语音训练样本；其中，所述第一语音训练样本包括：音频、对应的文本信息以及预设特征；

分别对各所述第一语音训练样本进行样本扩充处理，得到第二预设数量的第二语音训练样本；其中，所述第一预设数量与所述第二预设数量之和为所述预设数量；

将所述第一语音训练样本和所述第二语音训练样本，确定为所制备的语音训练样本。

可选地，所述扩充处理包括以下至少之一：对语音训练样本对应的音频长度进行缩短或延长、向所述音频中加入混响或者向所述音频中加入噪音。

可选地，在所述依据所述语音训练样本，对构建的所述声学模型进行训练，得到优化后的声学模型的步骤之后，所述方法还包括：

将待预测语音数据输入所述优化后的声学模型中，根据声学模型得分选取得分最高的N个文本，得到多个候选输出文本；

采用语言模型对声学模型的多个候选输出文本进行重打分；

将重打分后分值最高的候选输出文本作为目标识别文本。

第二方面，本发明实施例公开了一种声学模型优化装置，所述装置包括：制备模块，用于制备预设数量的语音训练样本，其中，所述语音训练样本包括：音频、对应的文本信息以及预设特征；构建模块，用于依据预设网络层数、每层结点数构建声学模型中的编码器组件和解码器组件；连接模块，用于为所述解码器组件包含的各层解码器建立残差连接；训练模块，用于依据所述语音训练样本，对构建的所述声学模型进行训练，得到优化后的声学模型。

可选地，所述连接模块具体用于：

可选地，所述制备模块包括：

第一子模块，用于采集第一预设数量的第一语音训练样本；其中，所述第一语音训练样本包括：音频、对应的文本信息以及预设特征；

第二子模块，用于分别对各所述第一语音训练样本进行样本扩充处理，得到第二预设数量的第二语音训练样本；其中，所述第一预设数量与所述第二预设数量之和为所述预设数量；

第三子模块，用于将所述第一语音训练样本和所述第二语音训练样本，确定为所制备的语音训练样本。

第三方面，本发明实施例公开了一种电子设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质；当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如上任一项所述的声学模型优化方法。

第四方面，本发明实施例公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一项所述的声学模型优化方法。

本发明实施例中，为声学模型的解码器组件中包含的各层解码器建立残差连接，将残差连接引入到声学模型的解码器之间，由于残差连接能够解决梯度弥散问题，使得网络的训练更加容易。因此，通过互相连接所有的解码器层，每个解码器层都会与前面所有解码器层在通道维度上连接在一起，并作为下一层解码器的输入，使得解码器组件中每一层解码器的信息都得到充分得到利用，能够提高声学模型的识别率。

附图说明

图1是传统的端到端的语音识别网络模型的结构示意图；

图2是本发明实施例的一种声学模型优化方法的步骤流程图；

图3是本发明实施例的一种声学模型优化装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图2，示出了本发明实施例的一种声学模型优化方法的步骤流程图。

本发明实施例的声学模型优化方法可以包括以下步骤：

步骤101：制备预设数量的语音训练样本。

其中，语音训练样本包括：音频、对应的文本信息以及预设特征。预设特征可以为FBANK特征。

预设数量可以由本领域技术人员根据实际需求进行设置，本申请实施例中对此不做具体限制。语音训练样本用于对后续所构建的声学模型进行训练，待声学模型训练完成后，即可通过所训练的声学模型进行语音预测。

步骤102：依据预设网络层数、每层结点数构建声学模型中的编码器组件和解码器组件。

在实际实现过程中，网络层数和每层的结点数可由本领域技术人员根据识别率和实时率灵活设置，本申请实施例中对此不做具体限制。例如：设置12层编码器和6层解码器，每层结点均为2048。

步骤103：为解码器组件包含的各层解码器建立残差连接。

为解码器组件包含的各层解码器建立残差连接时，可针对解码器组件中的每层解码器，分别将该层解码器与该层解码器之后的各层解码器连接。

以解码器组件包含6层解码器为例，构建解码器的残差连接时，第1层解码器连接到第2、3、4、5、6层，第2层连接到第3、4、5、6层…第5层连接到第6层。每层解码器的输入通过拼接的方式进行连接，或者通过求和的方式连接。

相较于传统的声学模型中将解码器组中各层解码器串联而成，基于最后一层解码器的输出得到解码的结果结构而言，本发明将残差连接引入到声学模型的解码器组件中，每个解码器层都会接受其前面所有解码器层作为其额外的输入。每个解码器层都会与前面所有解码器层在通道维度上连接在一起，并作为下一层解码器的输入。引入残差连接可以缓解解码器层无法得到充分利用、模型网络梯度消失等问题，使得网络训练更加容易。

步骤104：依据语音训练样本，对构建的声学模型进行训练，得到优化后的声学模型。

依据语音训练样本对声学模型进行训练时，逐个将语音训练样本输入声学模型中，每次输入训练声学模型后，对声学模型的相关参数进行调整，通过多次训练可将声学模型训练成预测能力符合预设规定的模型。

本发明实施例中提供的声学模型优化方法，为声学模型的解码器组件中包含的各层解码器建立残差连接，将残差连接引入到声学模型的解码器之间，由于残差连接能够解决梯度弥散问题，使得网络的训练更加容易。因此，通过互相连接所有的解码器层，每个解码器层都会与前面所有解码器层在通道维度上连接在一起，并作为下一层解码器的输入，使得解码器组件中每一层解码器的信息都得到充分得到利用，能够提高声学模型的识别率。

在一种可选地实施例中，制备预设数量的语音训练样本的步骤，包括以下子步骤：

子步骤一：采集第一预设数量的第一语音训练样本；

其中，第一语音训练样本包括：音频、对应的文本信息以及预设特征。

第一语音训练样本可以从语音训练样本库中随机选取，或者通过其他途径获得。第一预设数量可由本领域技术人员根据实际需求进行设置，本申请实施例中对此不做具体限制，例如：第一预设数量设置为10万、8万或者5万等。

子步骤二：分别对各第一语音训练样本进行样本扩充处理，得到第二预设数量的第二语音训练样本；

其中，扩充处理包括以下至少之一：对语音训练样本对应的音频长度进行缩短或延长、向所述音频中加入混响或者向所述音频中加入噪音。

第一预设数量与第二预设数量之和为预设数量。

通过扩充的语音训练样本训练声学模块，可以提升所训练的声学模型的鲁棒性、识别率。在对语音训练样本进行扩充时，可将语音训练样本进行单倍或多倍扩充，具体扩充倍率可由本领域技术人员根据实际需求进行设置，本申请实施例度此不做具体限制。

子步骤三：将第一语音训练样本和第二语音训练样本，确定为所制备的语音训练样本。

该种可选地制备语音训练样本的方式，仅逐个对第一语音训练样本进行标记即可，剩余的语音训练样本基于第一语音训练样本扩充得到，不仅能够节省准备语音训练样本所耗人力、时间，还能够提升所训练声学模型的鲁棒性和识别率。

在一种可选地实施例中，在依据语音训练样本，对构建的声学模型进行训练，得到优化后的声学模型之后，该方法还包括如下步骤：

首先，将待预测语音数据输入所述优化后的声学模型中，得到多个候选输出文本；其次，采用语言模型结合所述待预测语音数据，分别对所述声学模型的多个候选输出文本进行重打分；最后，将重打分后分值最高的候选输出文本作为目标识别文本。声学模型选取得分最高的N个文本作为候选输出文本。

参照图3，示出了本发明实施例的一种声学模型优化装置的结构框图。

本发明实施例的声学模型优化装置可以包括以下模块：

制备模块201，用于制备预设数量的语音训练样本，其中，所述语音训练样本包括：音频、对应的文本信息以及预设特征；

构建模块202，用于依据预设网络层数、每层结点数构建声学模型中的编码器组件和解码器组件；

连接模块203，用于为所述解码器组件包含的各层解码器建立残差连接；

训练模块204，用于依据所述语音训练样本，对构建的所述声学模型进行训练，得到优化后的声学模型。

可选地，所述连接模块具体用于：

针对所述解码器组件中的每层解码器，分别将所述层解码器与所述解码器之后的各层解码器连接。

可选地，所述制备模块包括：

可选地，所述装置还包括：

输入模块，用于在所述训练模块依据所述语音训练样本，对构建的所述声学模型进行训练，得到优化后的声学模型之后，将待预测语音数据输入所述优化后的声学模型中，根据声学模型得分选得分最高的N个文本，得到多个候选输出文本；

打分模块，用于采用语言模型结合所述待预测语音数据，分别对所述多个候选输出文本进行重打分；

确定模块，用于将重打分后分值最高的候选输出文本作为目标识别文本。

本发明实施例中提供的声学模型优化装置，为声学模型的解码器组件中包含的各层解码器建立残差连接，将残差连接引入到声学模型的解码器之间，由于残差连接能够解决梯度弥散问题，使得网络的训练更加容易。因此，通过互相连接所有的解码器层，每个解码器层都会与前面所有解码器层在通道维度上连接在一起，并作为下一层解码器的输入，使得解码器组件中每一层解码器的信息都得到充分得到利用，能够提高声学模型的识别率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本发明的实施例中，还提供了一种电子设备。该电子设备可以包括一个或多个处理器，以及其上存储有指令的一个或多个机器可读介质，指令例如应用程序。当所述指令由所述一个或多个处理器执行时，使得所述处理器执行上述的声学模型优化方法。

在本发明的实施例中，还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序可由电子设备的处理器执行，以完成上述的声学模型优化方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种声学模型优化方法及装置，电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种声学模型优化方法，其特征在于，所述方法包括：

制备预设数量的语音训练样本，其中，所述语音训练样本包括：音频、对应的文本信息以及预设特征；

依据预设网络层数、每层结点数构建声学模型中的编码器组件和解码器组件；

为所述解码器组件包含的各层解码器建立残差连接；

依据所述语音训练样本，对构建的所述声学模型进行训练，得到优化后的声学模型。

2.根据权利要求1所述的方法，其特征在于，为所述解码器组件包含的各层解码器建立残差连接的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，制备预设数量的语音训练样本的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述扩充处理包括以下至少之一：对语音训练样本对应的音频长度进行缩短或延长、向所述音频中加入混响或者向所述音频中加入噪音。

5.根据权利要求1所述的方法，其特征在于，在所述依据所述语音训练样本，对构建的所述声学模型进行训练，得到优化后的声学模型的步骤之后，所述方法还包括：

采用语言模型对声学模型的多个候选输出文本进行重打分；

将重打分后分值最高的候选输出文本作为目标识别文本。

6.一种声学模型优化装置，其特征在于，所述装置包括：

制备模块，用于制备预设数量的语音训练样本，其中，所述语音训练样本包括：音频、对应的文本信息以及预设特征；

构建模块，用于依据预设网络层数、每层结点数构建声学模型中的编码器组件和解码器组件；

连接模块，用于为所述解码器组件包含的各层解码器建立残差连接；

训练模块，用于依据所述语音训练样本，对构建的所述声学模型进行训练，得到优化后的声学模型。

7.根据权利要求6所述的装置，其特征在于，所述连接模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述制备模块包括：

9.根据权利要求6所述的装置，其特征在于，所述扩充处理包括以下至少之一：对语音训练样本对应的音频长度进行缩短或延长、向所述音频中加入混响或者向所述音频中加入噪音。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质；

当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如权利要求1至5任一项所述的声学模型优化方法。