CN110875035A

CN110875035A - 新型多任务联合的语音识别训练架构和方法

Info

Publication number: CN110875035A
Application number: CN201911019755.5A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-03-10

Abstract

本发明公开了一种新型多任务联合的语音识别训练架构和方法，属于智能语音领域，包括Seq2seq模型和联结时序分类模型，Seq2seq模型用于编码语音或频谱，提取高维特征，根据上下文向量、注意力向量以及输入标签来逐步解码，并输出发音单元；所述联结时序分类模型用于辅助训练所述Seq2seq模型的语音、发音对齐，按照权重计算损失值，根据所述Seq2seq模型的损失值得到总损失值，使用反向传播算法更新所述Seq2seq模型的参数。联结时序分类部分能帮助Seq2seq模型在音频和文字间单调对齐，同时能使注意力模块更快收敛，减少了训练阶段和推理阶段的无规律的对齐。

Description

新型多任务联合的语音识别训练架构和方法

技术领域

本发明涉及语音识别技术领域，特别是指一种新型多任务联合的语音识别训练架构和方法。

背景技术

语音识别(Automatic Speech Recognition，ASR)，是一种可以将语音信号转换成文字的技术，语音识别技术和语音合成技术(Text-To-Speech,TTS)共同成为智能语音交互中不可或缺的技术。语音合成是机器的嘴巴，是让机器说得出；语音识别是机器的耳朵，让机器听得懂。无论是语音输入、实时字幕、语音助手、同传等需求和应用场景，语音识别技术都在发挥着越来越大的作用。

语音识别主要分为两个模块：声学模型(语音->拼音)，语言模型(拼音->汉字)。语音识别主要方法有：HMM-GMM(图1所示)和深度学习方法。深度学习方法又包括Seq2seq模型和联结时序分类(Connectionist Temporal Classification, CTC)两种，Seq2seq模型的原理如图2，简化图如图3所示。

1、联结时序分类模型

业界普遍使用窄而深的神经网络结构来拟合频谱特征，使用联结时序分类作为对齐工具。

缺点:缺乏语言建模能力，不能整合语言模型进行联合优化；不能建模模型输出之间的依赖关系；要求符合条件独立的假设。

优点:具备单调对齐特性。

2、Seq2seq模型

Seq2seq模型包含三个模块:编码器、注意力模块、解码器。Seq2seq模型利用编码器部分提取语音(或频谱)的高维特征，用解码器输出发音单元(音素、拼音、汉字)，用注意力模块作为语音帧与发音单元的对齐工具。

优点:效果十分不错。

缺点：过于灵活，缺乏对单调对齐的强制约束，较难学习，因为较长的输入序列与较短的输出序列之间很难对齐，而且attention部分在噪音环境下表现不好，易受干扰。

现有技术中没有将二者组合的技术方案。

发明内容

本发明提出一种新型多任务联合的语音识别训练架构和方法，用联结时序分类作为辅助训练任务帮助训练Seq2seq模型，编码器部分也会被联结时序分类共享，联结时序分类部分能帮助Seq2seq模型在音频和文字间单调对齐，同时能使注意力模块更快收敛，减少了训练阶段和推理阶段的无规律的对齐。

本发明的技术方案是这样实现的：

一种新型多任务联合的语音识别训练架构，包括Seq2seq模型和联结时序分类模型，所述Seq2seq模型用于编码语音或频谱，提取高维特征，根据上下文向量、注意力向量以及输入标签来逐步解码，并输出发音单元；所述联结时序分类模型用于辅助训练所述Seq2seq模型的语音、发音对齐，按照权重计算损失值，根据所述Seq2seq模型的损失值得到总损失值，使用反向传播算法更新所述 Seq2seq模型的参数。

作为本发明的一个优选实施例，所述Seq2seq模型包括编码器、注意力模块、解码器，所述编码器用于编码语音或频谱，提取高维特征；所述注意力模块用于语音和发音的对齐，输出上下文向量、输入标签、历史状态至所述解码器；所述解码器用于解码和输出拼音序列，计算发音单元和输入标签的交叉熵损失值。

作为本发明的一个优选实施例，所述联结时序分类模型包括卷积网络模块、循环网络模块、全连接层和损失值计算模块，所述卷积网络模块接收语音或频谱，所述编码器输出第一参数矩阵至所述全连接层，所述卷积网络模块和循环网络模块输出第二参数矩阵至所述全连接层；所述全连接层对上述第一参数矩阵和第二参数矩阵进行矩阵运算，得到拼音概率矩阵，并传输至所述损失值计算模块；所述损失值计算模块根据拼音概率矩阵计算损失值，再与交叉熵损失值相加得到总损失值。

一种新型多任务联合的语音识别训练方法，具体包括以下步骤：

S1，关联Seq2seq模型和联结时序分类模型，将语音或频谱分别传输至所述Seq2seq模型和联结时序分类模型；

S2，所述Seq2seq模型编码语音或频谱，提取高维特征，根据上下文向量、注意力向量以及输入标签来逐步解码，并输出发音单元；

S3，计算发音单元与输入标签的交叉熵损失值；

S4，所述联结时序分类模型根据语音或频谱以及所述Seq2seq模型传递的参数计算损失值；

S5，将Seq2seq模型的交叉熵损失值和联结时序模型的损失值按权重相加，得到总损失值，使用反向传播算法更新所述Seq2seq模型的参数。

作为本发明的一个优选实施例，步骤S5中，总损失值ζ_MTL的计算公式为：

ζ_MTL＝λζ_CTC+(1-λ)ζ_Attention

其中，λ为权重，取值范围为[0,1]，ζ_CTC为联结时序分类模型的损失值，ζ_Attention为Seq2seq模型的交叉熵损失值。

作为本发明的一个优选实施例，联结时序分类模型的损失值，其计算公式为：

ζ_CTC＝-lnP(y^*|x)

其中，x表示输入频谱或语音数值矩阵，y*表示标签序列的概率矩阵，P(y* |x)表示通过计算输入频谱或语音数值矩阵得到y*的条件概率，再通过负对数似然函数计算出联结时序分类模型的损失值。

作为本发明的一个优选实施例，Seq2seq模型的交叉熵损失值，其计算公式为：

x是输入参数矩阵，

表示从第一个输出标签到第u-1个输出标签，

是第u个输出标签，所以

表示在x和

的条件下，得到输出的

概率。这里使用负对数似然函数计算某个输出标签的损失值，最后通过

将u个输出标签的损失值相加得到Seq2seq模型的交叉熵损失值。

作为本发明的一个优选实施例，所述λ＝0.2。

本发明的有益效果在于：用联结时序分类作为辅助训练任务帮助训练 Seq2seq模型，编码器部分也会被联结时序分类共享，联结时序分类部分能帮助 Seq2seq模型在音频和文字间单调对齐，同时能使注意力模块更快收敛，减少了训练阶段和推理阶段的无规律的对齐。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中语音识别方法的流程图；

图2为现有技术中Seq2seq模型的原理图；

图3为现有技术中Seq2seq模型的方框图；

图4为本发明联结时序分类模型的原理方框图；

图5为本发明一种新型多任务联合的语音识别训练架构的原理方框图；

图6为本发明一种新型多任务联合的语音识别训练方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图4和5所示，本发明提出了一种新型多任务联合的语音识别训练架构，包括Seq2seq模型和联结时序分类模型，Seq2seq模型用于编码语音或频谱，提取高维特征，根据上下文向量、注意力向量以及输入标签来逐步解码，并输出发音单元(如音素、拼音)；联结时序分类模型用于辅助训练Seq2seq模型的语音、发音对齐，按照权重计算损失值，根据Seq2seq模型的损失值得到总损失值，使用反向传播算法更新Seq2seq模型的参数。通常编码器和解码器内部都会使用长短时循环神经网络单元(Long Short-Term Memory，LSTM)实现，这种神经网络单元的运算与卷积神经网络单元不同，卷积网络可以并行运算，但长短时循环神经网络单元只能够迭代运行，因此性能较差，但效果更好，因为考虑到了上下文的信息。

作为本发明的一个优选实施例，Seq2seq模型包括编码器、注意力模块、解码器，编码器用于编码语音或频谱，提取高维特征；注意力模块用于语音和发音的对齐，输出上下文向量、输入标签、历史状态至解码器；解码器用于解码和输出拼音序列，计算发音单元和输入标签的交叉熵损失值。

作为本发明的一个优选实施例，联结时序分类模型包括卷积网络模块、循环网络模块、全连接层和损失值计算模块，所述卷积网络模块接收语音或频谱，所述编码器输出第一参数矩阵至全连接层，编码器部分的输出，除了传递给注意力模块以外，还需要传递全连接层。卷积网络模块和循环网络模块输出第二参数矩阵至全连接层；全连接层对上述第一参数矩阵和第二参数矩阵进行矩阵运算，得到拼音概率矩阵，并传输至损失值计算模块；损失值计算模块根据拼音概率矩阵计算损失值，再与交叉熵损失值相加得到总损失值。

如图6所示，本发明还提出了一种新型多任务联合的语音识别训练方法，具体包括以下步骤：

S1，关联Seq2seq模型和联结时序分类模型，将语音或频谱分别传输至 Seq2seq模型和联结时序分类模型；

S2，Seq2seq模型编码语音或频谱，提取高维特征，根据上下文向量、注意力向量以及输入标签来逐步解码，并输出发音单元；

S3，计算发音单元与输入标签的交叉熵损失值；解码器部分接受三项输入: 注意力机制传递来的上下文向量、输入标签、历史状态，并输出拼音序列,计算解码器输出与标签序列的交叉熵损失值。

S4，联结时序分类模型根据语音或频谱以及Seq2seq模型传递的参数计算损失值；编码器部分的输出，除了传递给注意力模块以外，还需要传递全连接层；将全连接层的参数矩阵与编码器部分的输出参数矩阵进行矩阵运算，得到每个拼音的概率；拼音概率矩阵传递给联结时序分类模块，计算损失值。具体的，在实施过程中，步骤S3和步骤S4无先后顺序的强制要求。

S5，其中，λ为权重，ζCTC为联结时序分类模型的损失值，ζAttention为Seq2seq 模型的交叉熵损失值。

步骤S5中，总损失值ζMTL的计算公式为：

ζ_MTL＝λζ_CTC+(1-λ)ζ_Attention

其中，λ为权重，ζCTC为联结时序分类模型的损失值，ζAttention为Seq2seq 模型的交叉熵损失值。λ的取值范围为[0,1]，当λ为0时，总损失值等于Seq2seq 模型的交叉熵损失值，当λ为1时，总损失值等于联结时序分类模型的损失值。λ取值不同，最终语音识别模型的效果有差别，收敛速度也有差别。

联结时序分类模型的损失值，其计算公式为：

ζ_CTC＝-lnP(y^*|x)

Seq2seq模型的交叉熵损失值，其计算公式为：

x是输入参数矩阵，

Figure 904156DEST_PATH_FDA0002246812880000025

表示从第一个输出标签到第u-1个输出标签，

是第u个输出标签，所以

表示在x和

的条件下，得到输出的

由实验可知，参数λ＝0.2时效果最佳。此时语音识别模型收敛较快，Seq2seq 模型更快学会对齐，而最终的语音识别效果也更好。

本发明引入了联结时序分类模型，构建联合训练架构，有效地缓解了传统seq2seq架构的缺点，通过迫使注意力机制的单调对齐，提高了模块的泛化能力、减少了训练阶段和推理阶段之间的无规律对齐。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种新型多任务联合的语音识别训练架构，其特征在于：包括Seq2seq模型和联结时序分类模型，所述Seq2seq模型用于编码语音或频谱，提取高维特征，根据上下文向量、注意力向量以及输入标签来逐步解码，并输出发音单元；所述联结时序分类模型用于辅助训练所述Seq2seq模型的语音、发音对齐，按照权重计算损失值，根据所述Seq2seq模型的损失值得到总损失值，使用反向传播算法更新所述Seq2seq模型的参数。

2.根据权利要求1所述的新型多任务联合的语音识别训练架构，其特征在于：所述Seq2seq模型包括编码器、注意力模块、解码器，所述编码器用于编码语音或频谱，提取高维特征；所述注意力模块用于语音和发音的对齐，输出上下文向量、输入标签、历史状态至所述解码器；所述解码器用于解码和输出拼音序列，计算发音单元和输入标签的交叉熵损失值。

3.根据权利要求2所述的新型多任务联合的语音识别训练架构，其特征在于：所述联结时序分类模型包括卷积网络模块、循环网络模块、全连接层和损失值计算模块，所述卷积网络模块接收语音或频谱，所述编码器输出第一参数矩阵至所述全连接层，所述卷积网络模块和循环网络模块输出第二参数矩阵至所述全连接层；所述全连接层对上述第一参数矩阵和第二参数矩阵进行矩阵运算，得到拼音概率矩阵，并传输至所述损失值计算模块；所述损失值计算模块根据拼音概率矩阵计算损失值，再与交叉熵损失值按权重相加得到总损失值。

4.一种新型多任务联合的语音识别训练方法，其特征在于，具体包括以下步骤：

S3，计算发音单元与输入标签的交叉熵损失值；

5.根据权利要求4所述的新型多任务联合的语音识别训练方法，其特征在于：步骤S5中，总损失值ζ_MTL的计算公式为：

ζ_MTL＝λζ_CTC+(1-λ)ζ_Attention

6.根据权利要求5所述的新型多任务联合的语音识别训练方法，其特征在于：联结时序分类模型的损失值，其计算公式为：

ζ_CTC＝-lnP(y^*|x)

其中，x表示输入频谱或语音数值矩阵，y*表示标签序列的概率矩阵，P(y*|x)表示通过计算输入频谱或语音数值矩阵得到y*的条件概率，再通过负对数似然函数计算出联结时序分类模型的损失值。

7.根据权利要求5所述的新型多任务联合的语音识别训练方法，其特征在于：Seq2seq模型的交叉熵损失值，其计算公式为：