CN111243574B

CN111243574B - 一种语音模型自适应训练方法、系统、装置及存储介质

Info

Publication number: CN111243574B
Application number: CN202010033373.4A
Authority: CN
Inventors: 唐浩元; 王佳珺; 鄢戈; 王飞; 王欢良
Original assignee: Suzhou Qdreamer Network Technology Co ltd
Current assignee: Suzhou Qdreamer Network Technology Co ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2023-01-03
Anticipated expiration: 2040-01-13
Also published as: CN111243574A

Abstract

一种语音模型自适应训练方法、系统、装置及存储介质。本发明涉及一种语音识别的训练方法，尤其是一种语音模型自适应训练方法，包括训练和解码；训练包括以下步骤：训练声学特征提取；生成音素状态对齐序列；计算训练后验概率分别输出第一后验概率和第二后验概率；自适应训练，将音素状态对齐序列与第二后验概率计算交叉熵准则；解码包括以下步骤：测试声学特征提取；计算测试后验概率分别输出第一后验概率和第二后验概率；似然度计算与融合，将第一后验概率和第二后验概率进行似然度融合；将经过融合的似然度送入解码器解码生成语音的文本。本发明通过对通用语音识别模型采用自适应训练和似然度融合在保证通用语音识别性能的同时，提升了新任务的语音识别的准确率。

Description

一种语音模型自适应训练方法、系统、装置及存储介质

技术领域

本发明涉及一种语音识别的训练方法，尤其是一种语音模型自适应训练方法、系统、装置及存储介质。

背景技术

语音识别技术作为人工智能的关键技术之一，能够将输入的语音信号转变成文字信号，进而方便存储，检索和传播。近年来随着移动互联网的兴起和深度神经网络技术在语音识别技术中的快速发展，基于深度神经网络(DNN)的声学模型在搜索引擎，输入法，故事机等产品领域中被广泛使用。例如讯飞，谷歌，亚马逊等公司的基于神经网络的通用声学模型被广大开发者应用于会议记录系统，手机助手，游戏机等产品中。

目前主流公司提供的DNN声学模型是采用多个领域(如新闻、人机对话、搜索、数字串、带噪语音等)的语音数据进行学习后得到的。通常情况下，不同领域下的语音数据在统计特性上存在差别，直接将通用DNN声学模型应用于目标领域的测试音频中性能较差。而实际中即便是同一款产品也会涉及到多种领域的识别，语音公司在训练通用DNN声学模型时往往并不清楚这些模型会被开发者应用于什么样的领域，无法为每个产品单独训练一个DNN声学模型。而开发者在发现通用DNN声学模型在特定领域识别性能较差时，往往希望提升模型在该特定领域下识别性能的同时保持在其他领域下的识别性能。

自适应算法的核心在于使用少量目标领域数据对通用DNN声学模型的参数进行训练，降低语音模型与目标领域语音数据之间的统计特性失配。开发者可以自己录制少量目标领域的语音数据，并使用自适应算法对通用语音识别模型进行参数更新，进而提升语音模型在目标领域下的识别性能。然而目前的自适应训练方法虽然能够大幅度提升目标领域的识别性能，但是却不可避免的会大幅度降低在其他领域下的识别性能。

发明内容

为解决上述问题，本发明提供一种在提升目标领域识别性能的同时，保持了在非目标领域的识别性能的一种语音模型自适应训练方法，具体技术方案为：

一种语音模型自适应训练方法，包括训练和解码；

所述训练包括以下步骤：

S11、训练声学特征提取，对训练音频进行预加重，加窗分帧，提取训练声学特征，所述训练声学特征选择梅尔频谱特征；

S12、生成音素状态对齐序列，将训练声学特征通过深度神经网络通用声学模型生成音素对齐序列，然后利用决策树将所述音素对齐序列转换为音素状态对齐序列，使用音素状态对齐序列中的音素状态ID作为声学建模基本单元；

S13、计算训练后验概率，将S11中提取的训练声学特征送入预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型中，经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率，其中所述第一输出支路为深度神经网络通用声学模型原有的输出支路，所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路；

S14、自适应训练，将S12中得到的音素状态对齐序列与S13中得到的第二后验概率计算交叉熵准则，所述交叉熵准则的数学公式为：

式中：

s_t表示t时刻音素状态对齐序列中的音素状态ID；

p1(s_t|x_t)表示t时刻第二输出支路在建模单元s_t输出的第二后验概率；

所述交叉熵准则为模型的目标函数，通过批量随机梯度下降算法对S13中第二输出支路的隐藏层和输出层的参数进行更新，所述第一输出支路及底层共享层的参数保持不变；

所述解码包括以下步骤：

S21、测试声学特征提取，对测试音频进行预加重，加窗分帧，提取测试声学特征，所述测试声学特征选择梅尔频谱特征；

S22、计算测试后验概率，将S21中提取的测试声学特征x_t送入经过训练的所述深度神经网络声学模型中，经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率；

S23、似然度计算与融合，先进行似然度的计算，然后进行似然度的融合；

似然度的计算：

将S22中得到的第一后验概率和第二后验概率进行似然度计算，似然度计算公式如下：

式中：

p0(x_t|k)表示测试声学特征x_t，第一输出支路中建模单元k的似然度；

p1(x_t|k)表示测试声学特征x_t，第二输出支路中建模单元k的似然度；

p0(k|x_t)表示测试声学特征x_t，第一输出支路建模单元k输出的后验概率；

p1(k|x_t)表示测试声学特征x_t，第二输出支路建模单元k输出的后验概率；

p(k)为建模单元k的先验概率，所述先验概率从状态对齐序列中统计得到；

似然度的融合：

对第一输出支路中各声学建模单元的似然度和经过参数更新后的第二输出支路中各声学建模单元的似然度进行融合，融合公式为：

p(x_t|k)＝w₀×p0(x_t|k)+w₁×p1(x_t|k)

w₀为第一输出支路输出的似然度的融合权重系数；

w₁为第二输出支路输出的似然度的融合权重系数；

w₀和w₁满足w₀+w₁＝1；

S23、生成语音的文本，将经过融合的似然度送入解码器解码生成语音的文本。

进一步的，所述S11和S21中帧长选择25ms，帧移10ms，梅尔滤波器阶数续选择为40，对得到的静态梅尔频谱特征进行均值归一化并计算其一阶差分和二阶差分。

进一步的，所述深度神经网络以音素状态序列中的音素状态ID作为声学建模基本单元。

一种语音模型自适应训练系统，包括声学特征提取系统，用于对训练音频或测试音频提取梅尔频谱特征；音素对齐系统，用于将训练声学特征生成音素对齐序列，然后将所述音素对齐序列转换为音素状态对齐序列；后验概率计算系统，所述后验概率计算系统包括预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型，所述第一输出支路为深度神经网络通用声学模型原有的输出支路，所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路，所述后验概率计算系统用于将声学特征经过前向运算后分别输出第一后验概率和第二后验概率；自适应训练系统，所述自适应训练系统在训练时用于将音素状态对齐序列与第二后验概率通过交叉熵准则对所述深度神经网络声学模型的第二输出支路的参数进行更新；似然度融合系统，用于将训练后的后验概率计算系统计算测试音频的声学特征得到的第一后验概率和第二后验概率，并进行似然度融合计算；解码器系统，用于将经过似然度融合系统得到的似然度送入解码器解码生成语音的文本。

一种语音模型自适应训练装置，所述装置包括处理器、存储器以及程序；所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行语音模型自适应训练方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行语音模型自适应训练方法的步骤。

与现有技术相比本发明具有以下有益效果：

本发明提供的一种语音模型自适应训练方法由于深度神经网络声学模型的原有输出支路没有参与训练，原输出支路在非目标领域上的识别性能与原始模型完全相同，而新建的输出支路由于使用目标领域语音数据进行了参数更新，因此在目标领域上的识别性能会优于原始模型；将两条支路的似然度融合能够充分利用两个输出支路各自在非目标领域与目标领域的建模能力，在提升目标领域识别性能的基础上也保持了原始模型在非目标领域下的识别性能。

附图说明

图1是本发明的训练流程图；

图2是本发明的解码流程图；

图3是深度神经网络声学模型结构示意图。

具体实施方式

现结合附图对本发明作进一步说明。

如图1和图2所示，一种语音模型自适应训练方法，包括训练和解码；

训练包括以下步骤：

式中：

s_t表示t时刻音素状态对齐序列中的音素状态ID；

所述交叉熵准则为模型的目标函数，通过批量随机梯度下降算法对S13中第二输出支路的隐藏层输出层的参数进行更新，所述第一输出支路及底层共享层的参数保持不变；

解码包括以下步骤：

似然度的计算：

式中：

似然度的融合：

p(x_t|k)＝w₀×p0(x_t|k)+w₁×p1(x_t|k)

w₀为第一输出支路输出的似然度的融合权重系数；

w₁为第二输出支路输出的似然度的融合权重系数；

w₀和w₁满足w₀+w₁＝1；

步骤S11和S21中帧长选择25ms，帧移10ms，梅尔滤波器阶数续选择为40，对得到的静态梅尔频谱特征进行均值归一化并计算其一阶差分和二阶差分。

人耳对低频音调的感知较灵敏，而对高频音调的感知较迟钝，梅尔频谱模拟了人耳的这种特性，是基于人耳听觉提出的一种声学特征，被广泛应用于语音识别技术当中。梅尔滤波器阶数续选择为40，对得到的静态梅尔频谱特征进行均值归一化并计算其一阶，二阶差分。

深度神经网络以音素状态序列中的音素状态ID作为声学建模基本单元。音素状态对齐序列给出了每一帧数据对应的状态，作为声学特征的标注参与神经网络模型的自适应训练。深度神经网络声学模型以音素状态序列中的音素状态ID作为基本建模单元。

深度神经网络声学通用模型具有一个输入层，多个隐藏层和一个输出层，声学特征送入输入层，经过前向运算后输出层输出各声学建模单元的后验概率。现在对已有的深度神经网络声学通用模型的最后一层隐藏层和输出层进行复制，创建一个新的输出支路作为第二输出支路。此时的深度神经网络声学模型具有两条输出支路，当声学特征送入输入层后，经过前向运算，两个输出层均会输出各自的后验概率。该深度神经网络声学模型可以看成是两个参数共享的独立的深度神经网络声学模型；从图3中可以看到，除最后一个隐层和输出层外，两个深度神经网络声学模型共享了底层所有的参数。

使用反向传播算法对所述深度神经网络声学模型进行多次迭代训练得到目标声学模型。在模型迭代训练中新创建输出支路中的隐层和输出层逐渐学习到目标领域语音数据的统计特性，因而该输出支路能够大幅度提升目标领域下语音数据的识别性能。而模型原有输出支路由于没有参与训练因此在其他领域下语音识别性能将保持不变。

由于原有输出支路没有参与训练，即第一输出支路没有参与训练，第一输出支路在非目标领域上的识别性能与原始的深度神经网络声学通用模型完全相同，而新建支路由于使用目标领域语音数据进行了参数更新，因此在目标领域上的识别性能会优于原始的深度神经网络声学通用模型。将第一输出支路和第二输出支路的后验概率进行似然度融合能够充分利用两个输出支路各自在非目标领域与目标领域的建模能力，在提升目标领域识别性能的基础上也保持了原始的深度神经网络声学通用模型在非目标领域下的识别性能。

存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。

Claims

1.一种语音模型自适应训练方法，其特征在于，包括训练和解码；

所述训练包括以下步骤：

式中：

s_t表示t时刻音素状态对齐序列中的音素状态ID；

所述交叉熵准则为模型的目标函数，通过批量随机梯度下降算法对S13中第二输出支路隐藏层和输出层的参数进行更新，所述第一输出支路及底层共享层的参数保持不变；

所述解码包括以下步骤：

似然度的计算：

式中：

似然度的融合：

p(x_t|k)＝w₀×p0(x_t|k)+w₁×p1(x_t|k)

w₀为第一输出支路输出的似然度的融合权重系数；

w₁为第二输出支路输出的似然度的融合权重系数；

w₀和w₁满足w₀+w₁＝1；

2.根据权利要求1所述的一种语音模型自适应训练方法，其特征在于，

所述S11和S21中帧长选择25ms，帧移10ms，梅尔滤波器阶数续选择为40，对得到的静态梅尔频谱特征进行均值归一化并计算其一阶差分和二阶差分。

3.一种语音模型自适应训练系统，其特征在于，包括

声学特征提取系统，用于对训练音频或测试音频提取梅尔频谱特征；

音素对齐系统，用于将训练声学特征生成音素对齐序列，然后将所述音素对齐序列转换为音素状态对齐序列；

后验概率计算系统，所述后验概率计算系统包括预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型，所述第一输出支路为深度神经网络通用声学模型原有的输出支路，所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路，所述后验概率计算系统用于将声学特征经过前向运算后分别输出第一后验概率和第二后验概率；

自适应训练系统，所述自适应训练系统在训练时用于将音素状态对齐序列与第二后验概率通过交叉熵准则对所述深度神经网络声学模型的第二输出支路的参数进行更新；

似然度融合系统，用于将训练后的后验概率计算系统计算测试音频的声学特征得到的第一后验概率和第二后验概率，并进行似然度融合计算；

解码器系统，用于将经过似然度融合系统得到的似然度送入解码器解码生成语音的文本。

4.一种语音模型自适应训练装置，其特征在于，所述装置包括

处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行权利要求1所述的语音模型自适应训练方法的步骤。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行权利要求1所述的语音模型自适应训练方法的步骤。