CN113488029A

CN113488029A - 基于参数共享非自回归语音识别训练解码方法及系统

Info

Publication number: CN113488029A
Application number: CN202110699356.9A
Authority: CN
Inventors: 温正棋; 田正坤
Original assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-10-08
Anticipated expiration: 2041-06-23
Also published as: CN113488029B

Abstract

本发明公开了基于参数共享非自回归语音识别训练解码方法及系统，训练方法：提取语音训练数据的特征，构成声学特征序列；将声学特征序列进行声学编码，输出声学编码状态序列；将声学编码状态序列和空白填充序列进行非自回归解码，结合文本标注训练数据，计算非自回归交叉熵损失；将声学编码状态序列和文本标注训练数据进行自回归解码，结合文本标注训练数据，计算自回归交叉熵损失；根据非自回归交叉熵损失和自回归交叉熵损失加权，得到联合损失，计算梯度，并进行反向传播；循环执行，直至训练完成；解码方法：通过训练好的模型进行语音识别；系统包括声学特征序列提取模块、声学编码器、非自回归解码器、自回归解码器、联合损失计算模块。

Description

基于参数共享非自回归语音识别训练解码方法及系统

技术领域

本发明涉及电子信号处理技术领域，尤其是涉及了基于参数共享非自回归语音识别训练解码方法及系统。

背景技术

语音识别作为人机交互的入口，是人工智能领域中一个重要的研究方向。端到端语音识别丢弃了混合语音识别模型依赖的发音词典、语言模型和解码网络，实现了音频特征序列到文字序列的直接转换。经典的编码解码模型使用字自回归方式进行解码，其编码器将输入语音编码为高层次的特征表示；解码器从起始符号开始，在编辑器输出的基础上，逐步的预测出对应的文本序列，直到预测到结束标记为止。自回归解码的时序依赖特性严重影响了解码的效率，并且很难通过GPU并行计算来进行加速，使得自回归模型部署于实时性要求比较高的场景有了一定的局限性。非自回归模型大大提高了解码效率，其可以直接将声学编码状态序列转换为目标文本序列，不需要逐步解码。然而非自回归模型面临着训练困难等问题，以及其识别准确率距离自回归模型还有一些差距。

发明内容

为解决现有技术的不足，加速非回归模型训练速度，缩小非自回归模型与自回归模型识别准确率之间的差距，本发明采用如下的技术方案：

基于参数共享非自回归语音识别训练方法，包括如下步骤：

S11，获取语音训练数据和对应的文本标注训练数据，并提取一系列语音训练数据的特征，构成声学特征序列；

S12，将声学特征序列进行声学编码，输出声学编码状态序列；

S13，将声学编码状态序列和空白填充序列进行非自回归解码，通过解码输出的概率矩阵，结合文本标注训练数据，计算非自回归交叉熵损失L_NAR；

S14，将声学编码状态序列和文本标注训练数据，即带有起始标记的目标文本序列进行自回归解码，通过解码输出的概率矩阵，结合文本标注训练数据，计算自回归交叉熵损失L_AR；

S15，根据非自回归交叉熵损失L_NAR和自回归交叉熵损失L_AR加权，得到联合损失L_Joint＝αL_NAR+(1-α)L_AR计算梯度，并进行反向传播，α表示非自回归交叉熵损失在联合损失函数中的权重，α的值为0.3～0.5时效果最好；

S16，循环执行S12至S15，直至达到预设的训练结束条件，完成训练。

进一步地，所述自回归解码，依次进行词嵌入、位置编码、6层自回归解码层解码和1层输出映射，自回归解码层包括遮蔽多层自注意力机制层、多头注意力机制层和前馈映射层，将带有起始标记的目标文本序列进行词嵌入，得到的词嵌入表示序列添加位置编码后，输入到遮蔽多层自注意力机制层，每层遮蔽自注意力机制的计算如下：

其中，Q表示查询值、K表示关键值、V表示内容值，d_k是向量K的维度，M表示一个上三角矩阵，对角线上方元素为-INF，在计算机中表示负无穷小，其对应位置通过softmax计算后变成0，以此实现对于特定位置信息的遮蔽操作，对角线下方元素为0，多头注意力机制层将多个遮蔽自注意力机制的输出向量拼接到一起，再通过前馈映射层得到输出结果。

进一步地，所述非自回归解码，依次进行词嵌入、位置编码、6层非自回归解码层解码和1层输出映射，非自回归解码层包括多层自注意力机制层、多头注意力机制层和前馈映射层，空白填充序列输入词嵌入，得到的词嵌入表示序列添加位置编码后，输入到多层自注意力机制层，每层自注意力机制的计算如下：

其中，Q表示查询值、K表示关键值、V表示内容值，d_k是向量K的维度；

多头注意力机制层将多个自注意力机制的输出向量拼接到一起，再通过前馈映射层得到输出结果。

进一步地，所述多头注意力机制层包括多头自注意力机制层和多头编码解码注意力机制层，实现如下：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MultiHeadAttention(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中，W_i ^Q、W_i ^K、W_i ^V、W^O表示可以学习的权重矩阵，MultiHeadAttention表示多头编码解码注意力机制，对于多头自注意力机制，其中Q＝K＝V，均表示前一层网络的输出序列，对于多头编码解码注意力机制，其中Q表示前一层网络的输出序列，K＝V表示所述声学编码状态序列，MultiHeadAttention将多个输出向量head_i拼接到一起后，经过线性层映射到一个固定维度。

进一步地，所述前馈映射层计算的实现如下：

FFN(x)＝GLU(xW₁+b₁)W₂+b₂

x表示前馈映射层的输入，W₁和W₂表示权重矩阵，b₁和b₂表示权重偏置向量。

进一步地，所述S11中提取语音训练数据的特征，是在时域下，对语音训练数据的语音波形信号加窗分帧后，进行离散傅里叶变换，提取特定频率分量的系数，组成特征向量，一系列的特征向量构成声学特征序列，所述特定频率分量的系数包括梅尔频率倒谱系数、梅尔滤波器组系数。

进一步地，所述S12中的声学编码，使用带有卷积前端模块的Transformer模型构建，包括卷积前端模块和Transformer编码层，卷积前端模块包括一组卷积层和线性映射层，卷积层将输入的声学特征序列计算和时序降采样后，将不同卷积层通道的声学特征进行拼接，使卷积层通道维度和声学特征维度整合到同一纬度，通过线性映射层进行线性变换，使卷积前端模块的输出匹配Transformer编码层的输入维度，即编码器的维度。

进一步地，所述位置编码，将词嵌入表示序列，加上正余弦位置编码，所述正余弦位置编码包括偶数位置编码PE(t，2i)＝sin(t/10000^2i/d_model)和奇数位置编码PE(t，2i+1)＝cos(t/10000^2i/d_model)，t表示词嵌入表示序列的时间轴的第t个位置，i表示转换后的词嵌入表示序列特征轴的第i个位置，d_model表示模型维度。

基于参数共享非自回归语音识别解码方法，完成训练后，对语音数据进行解码，包括如下步骤：

S21，获取语音数据并提交处理器；

S22，对语音数据提取特征，得到声学特征序列；

S23，将语音特征序列进行声学编码，计算得到声学编码状态序列；

S24，将固定长度为L的空白填充序列和声学编码状态序列，进行非自回归解码，得到概率矩阵；

S25，基于概率矩阵，沿着时间轴从左到右，依据Beam Search搜索方法找到以结束标记<EOS>为结尾的概率最高的N条路径，并作为候选序列；

S26，将这N条候选序列第一个位置填充开始标记<BOS>并删除结束标记，然后伴随声学编码状态序列一起，进行自回归解码，根据输出的概率矩阵分别计算每条候选序列的分数；

S27，依据自回归解码后二次评估的分数，对N条候选序列进行重新排序，将评分最高的序列输出作为最终识别结果。

基于参数共享非自回归语音识别系统，包括声学特征序列提取模块、声学编码器、非自回归解码器、自回归解码器、联合损失计算模块；

所述声学特征序列提取模块，训练阶段，用于提取一系列语音训练数据的特征，构成声学特征序列；解码阶段，用于提取一系列语音数据的特征，构成声学特征序列；

所述声学编码器，用于将声学特征序列转变为声学编码状态序列；

所述非自回归解码器，训练阶段，用于将声学编码状态序列和空白填充序列作为输入，输出概率矩阵；解码阶段，用于将声学编码状态序列和空白填充序列作为输入，根据输出的概率矩阵，生成多条候选序列；

所述自回归解码器，训练阶段，用于将声学编码状态序列和文本标注训练数据，即带有起始标记的目标文本序列作为输入，输出概率矩阵；解码阶段，对非自回归解码器生成的多条候选序列，伴随声学编码状态序列一起，进行自回归解码，根据输出的概率矩阵，分别计算每条候选序列的分数，将评分最高的候选序列作为最终识别结果，完成解码；

所述非自回归解码器与自回归解码器具有相同的网络结构，使用同一模型来实现，其区别在于自回归解码器的结构为了建模输入序列之间的时序依赖关系，在训练和解码过程中的每一步引入遮蔽序列，实现对于特定位置信息的遮蔽操作，遮蔽掉序列中的未来时刻；

所述联合损失计算模块，训练阶段，通过非自回归解码器输出的概率矩阵，结合文本标注训练数据，计算非自回归交叉熵损失；通过自回归解码器输出的概率矩阵，结合文本标注训练数据，计算自回归交叉熵损失；通过权重，对非自回归交叉熵损失和自回归交叉熵损失加权，计算梯度，并进行反向传播，循环训练，直至达到预设的训练结束条件，完成训练。

本发明的优势和有益效果在于：

本发明在非自回归模型的基础上，引入了自回归模型来辅助训练和解码。其通过参数共享和联合训练的方式，大大降低了非自回归模型的训练难度，提高了模型的训练速度。并且本发明所提出的基于非自回归模型和自回归模型的两步解码方式，能够在低延时的条件下，大大提升模型的解码准确率。

附图说明

图1是本发明的系统结构示意图。

图2是本发明中非自回归解码器结构示意图。

图3是本发明中非自回归解码层结构示意图。

图4是本发明中自回归解码器结构示意图。

图5是本发明中自回归解码层结构示意图。

图6是本发明中解码过程示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

基于两步解码的参数共享非自回归模型及训练方法，基于自注意力变换网络构建的模型包括基于自注意力机制的声学编码器、基于自注意力机制的解码器，如图1所示，包括以下步骤：

步骤1，获取语音训练数据和对应的文本标注训练数据，并提取一系列语音训练数据的特征，构成语音特征序列；

语音识别的目标是将连续语音信号转化为文字序列，在识别过程中，通过对时域下的波形信号加窗分帧后进行离散傅里叶变换，提取特定频率分量的系数组成特征向量，一系列的特征向量构成语音特征序列，语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)。典型地采用80维的FBANK特征。

步骤2，将语音特征序列输入声学编码器中进行计算，输出声学编码状态序列；

本实施例采用Transformer结构作为声学编码器，声学编码器包含一个卷积前端模块和12层Transformer编码层。其中卷积前端模块包含有两个层卷积和一个线性映射层，卷积核的大小均为3×3(两个堆叠的3×3卷积)，第一层卷积的通道数与输入特征维度匹配，输出通道数等于模型维度，第二次卷积的输入通道数与输出通道数均等于模型维度，两层卷积的步长均为2，因此每层卷积降采样2倍，两层卷积近似将输入特征序列降采样了4倍，然后将通道维度和特征维度整合到同一纬度，然后通过线性变换以使得模块输出匹配编码器的输入维度。

步骤3，将声学编码状态序列和空白填充序列输入至非自回归解码器，根据目标文本序列计算交叉熵损失L_NAR；

如图2所示，非自回归解码器包含词嵌入模块、位置编码模块、6层非自回归解码层和一层输出映射层。

非自回归解码器与自回归解码器中应用的位置编码模块，其用于在获取到的词嵌入表示序列基础上加上正余弦位置编码，所述正余弦位置编码包括偶数位置编码PE(t，2i)＝sin(t/10000^2i/d_model)和奇数位置编码PE(t，2i+1)＝cos(t/10000^2i/d_model)，t表示词嵌入表示序列的时间轴的第t个位置，i表示转换后的词嵌入表示序列特征轴的第i个位置，d_model表示模型维度。

如图3所示，非自回归解码层中使用了多层自注意力机制层，多头编码解码注意力机制层和前馈映射层，所述多头注意力层机制的实现如下：

MultiHeadAttention(Q，K，V)＝Concat(head₁，...，head_h)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MultiHeadAttention表示多头注意力机制，将多个自注意力机制的输出向量head_i拼接到一起后经过线性层映射到一个固定维度，再通过前馈映射得到输出结果，Wi_i ^Q、W_i ^K、W_i ^V、W^O表示可以学习的权重矩阵，d_k是向量K的维度。对于多头自注意力机制，其中Q＝K＝V，均表示前一层网络的输出序列；对于多头编码解码注意力机制，其中Q表示前一层网络的输出序列，K＝V，表示的是声学编码状态序列。

所述前馈映射层计算的实现如下：

FFN(x)＝GLU(xW₁+b₁)W₂+b₂

计算交叉熵损失：

其中，U表示目标文本序列的长度，y_i表示目标文本序列中第i个标记(数值为1)，p_i表示模型在第i个位置softmax输出标记y_i的概率，数值范围在0和1之间。

步骤4，将声学编码状态序列和带有起始标记的目标文本序列输入至自回归解码器，根据目标文本序列计算交叉熵损失L_AR；

如图4所示，自回归解码器包含词嵌入模块、位置编码模块、6层非自回归解码层和一层输出映射层。

如图5所示，自回归解码器中使用了遮蔽多层自注意力机制层，多头编码解码注意力机制层和前馈映射层，其中多头编码解码注意力机制和前馈映射层的计算与非自回归解码器相同。其遮蔽自注意力机制的计算如下：

其中M表示一个上三角矩阵，对角线上方元素为-INF，对角线下方元素为0。遮蔽多头注意力机制仍然按照同样的方法，将多个遮蔽自注意力机制的输出拼接到一起。

计算交叉熵损失：

步骤5，将非自回归解码器损失L_NAR和自回归解码器损失L_AR进行加权得到联合损失L_Joint＝αL_NAR+(1-α)L_AR，根据两者的联合损失L_Joint计算梯度，并进行反向传播；

根据经验设定计算权重系数α的取值范围在0.3～0.5之间。

步骤6，循环执行S12至S15，直至达到预设的训练结束条件，完成训练。

如图6所示，基于两步解码的参数共享非自回归模型解码方法。

解码步骤1，从文件路径中读取语音文件并提交给处理器；

处理器可以是智能手机，云端服务器或者其他嵌入式设备。

解码步骤2，对输入语音提取特征，得到语音特征序列；

语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)，特征处理方法与训练过程保持一致。

解码步骤3，将语音特征序列依次声学编码器，计算得到声学编码状态序列；

解码步骤4，将固定长度为L的空白填充序列和声学编码状态序列输入到自回归解码器，计算得到输出概率矩阵；

典型地，设置固定长度L大于等于目标文本中序列的最大长度。对于中文语音识别任务而言，一个典型值是60。

解码步骤4，基于输出概率矩阵，沿着时间轴从左到右，依据Beam Search搜索方法找到以结束标记<EOS>为结尾的概率最高的N条路径，并作为候选序列；

所有的解码路径均从输出概率矩阵的最左端开始，到结束标记<EOS>为止。

每条可行路径均表示一条可能的识别序列。每条路径的概率的计算为路径中所有标签的对数概率相加的平均值。

概率最高的N条可能的识别序列构成候选序列。

解码步骤5，将这N条候选第一个位置填充开始标记<BOS>并删除掉结束标记，然后伴随声学编码状态序列一起传送至自回归解码器，来分别计算每条候选序列的分数；

所有的N条候选序列删除掉结尾的结束标记，并在开始添加一个开始标记，输入到自回归解码器中。

计算自回归解码器预测原始N条候选序列(包含结束标记，不包含开始标记)的概率。使用自回归预测得到的概率作为二次评分。二次评分仍然使用每一条候选序列中所有标记的对数概率和的平均值来表示。

解码步骤6，依据自回归解码器二次评估的分数，对这N条候选序列进行重新排序，然后将评分最高的序列输出作为最终识别结果。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于参数共享非自回归语音识别训练方法，其特征在于包括如下步骤：

S14，将声学编码状态序列和文本标注训练数据进行自回归解码，通过解码输出的概率矩阵，结合文本标注训练数据，计算自回归交叉熵损失L_AR；

S15，根据非自回归交叉熵损失L_NAR和自回归交叉熵损失L_AR加权，得到联合损失L_Joint＝αL_NAR+(1-α)L_AR计算梯度，并进行反向传播，α表示非自回归交叉熵损失在联合损失函数中的权重；

2.如权利要求1所述的基于参数共享非自回归语音识别训练方法，其特征在于所述自回归解码，依次进行词嵌入、位置编码、自回归解码层解码和输出映射，自回归解码层包括遮蔽多层自注意力机制层、多头注意力机制层和前馈映射层，将带有起始标记的目标文本序列进行词嵌入，得到的词嵌入表示序列添加位置编码后，输入到遮蔽多层自注意力机制层，每层遮蔽自注意力机制的计算如下：

其中，Q表示查询值、K表示关键值、V表示内容值，d_k是向量K的维度，M表示上三角矩阵，对角线上方元素为-INF，对角线下方元素为0，多头注意力机制层将多个遮蔽自注意力机制的输出向量拼接到一起，再通过前馈映射层得到输出结果。

3.如权利要求1所述的基于参数共享非自回归语音识别训练方法，其特征在于所述非自回归解码，依次进行词嵌入、位置编码、非自回归解码层解码和输出映射，非自回归解码层包括多层自注意力机制层、多头注意力机制层和前馈映射层，空白填充序列输入词嵌入，得到的词嵌入表示序列添加位置编码后，输入到多层自注意力机制层，每层自注意力机制的计算如下：

4.如权利要求2或3所述的基于参数共享非自回归语音识别训练方法，其特征在于所述多头注意力机制层包括多头自注意力机制层和多头编码解码注意力机制层，实现如下：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MultiHeadAttention(Q，K，V)＝Concat(head₁，...，head_h)W^O

5.如权利要求2或3所述的基于参数共享非自回归语音识别训练方法，其特征在于所述前馈映射层计算的实现如下：

FFN(x)＝GLU(xW₁+b₁)W₂+b₂

6.如权利要求1所述的基于参数共享非自回归语音识别训练方法，其特征在于所述S11中提取语音训练数据的特征，是在时域下，对语音训练数据的语音波形信号加窗分帧后，进行离散傅里叶变换，提取特定频率分量的系数，组成特征向量，一系列的特征向量构成声学特征序列，所述特定频率分量的系数包括梅尔频率倒谱系数、梅尔滤波器组系数。

7.如权利要求1所述的基于参数共享非自回归语音识别训练方法，其特征在于所述S12中的声学编码，使用带有卷积前端模块的Transformer模型构建，包括卷积前端模块和Transformer编码层，卷积前端模块包括一组卷积层和线性映射层，卷积层将输入的声学特征序列计算和时序降采样后，将卷积层通道维度和声学特征维度整合到同一纬度，通过线性映射层进行线性变换，使卷积前端模块的输出匹配Transformer编码层的输入维度。

8.如权利要求2或3所述的基于参数共享非自回归语音识别训练方法，其特征在于所述位置编码，将词嵌入表示序列，加上正余弦位置编码，所述正余弦位置编码包括偶数位置编码PE(t，2i)＝sin(t/10000^2i/d_model)和奇数位置编码PE(t，2i+1)＝cos(t/10000^2i/d_model)，t表示词嵌入表示序列的时间轴的第t个位置，i表示转换后的词嵌入表示序列特征轴的第i个位置，d_model表示模型维度。

9.基于参数共享非自回归语音识别解码方法，其特征在于包括如下步骤：

S21，获取语音数据；

S22，对语音数据提取特征，得到声学特征序列；

S25，基于概率矩阵，沿着时间轴，找到以结束标记为结尾的概率最高的N条路径，并作为候选序列；

S26，将这N条候选序列第一个位置填充开始标记并删除结束标记，然后伴随声学编码状态序列一起，进行自回归解码，根据输出的概率矩阵分别计算每条候选序列的分数；

S27，依据自回归解码后评估的分数，将评分最高的序列输出作为最终识别结果。

10.基于参数共享非自回归语音识别系统，包括声学特征序列提取模块、声学编码器、非自回归解码器、自回归解码器、联合损失计算模块；

所述自回归解码器，训练阶段，用于将声学编码状态序列和文本标注训练数据作为输入，输出概率矩阵；解码阶段，对非自回归解码器生成的多条候选序列，伴随声学编码状态序列一起，进行自回归解码，根据输出的概率矩阵，分别计算每条候选序列的分数，将评分最高的候选序列作为最终识别结果，完成解码；

所述非自回归解码器与自回归解码器具有相同的网络结构，使用同一模型来实现，其区别在于自回归解码器的结构，在训练和解码过程中引入遮蔽序列，实现对于特定位置信息的遮蔽操作；