CN112037798B

CN112037798B - 基于触发式非自回归模型的语音识别方法及系统

Info

Publication number: CN112037798B
Application number: CN202010987375.7A
Authority: CN
Inventors: 田正坤; 温正棋
Original assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2022-03-01
Anticipated expiration: 2040-09-18
Also published as: CN112037798A

Abstract

本发明公开了基于触发式非自回归模型的语音识别方法及系统，方法包括：S11，提取声学特征序列；S12，生成卷积降采样序列；S13，生成声学编码状态序列；S14，计算预测标记的概率分布和联结时序损失；S15，计算尖峰的位置和个数；S16，声学解码器计算交叉熵损失；S17，根据联结时序损失和交叉熵损失的联合损失计算梯度，进行反向传播；S18，循环执行S12至S17，直至完成训练；系统包括：依次相互连接的声学特征序列提取模块、卷积降采样模块、声学编码器、联结时序分类模块、声学解码器、联合损失计算模块，联结时序分类模块包括线性变化模块、联结时序损失计算模块、尖峰抽取模块。

Description

基于触发式非自回归模型的语音识别方法及系统

技术领域

本发明涉及电子信号处理技术领域，尤其是涉及了基于触发式非自回归模型的语音识别方法及系统。

背景技术

语音识别作为人机交互的入口，是人工智能领域中一个重要的研究方向。端到端语音识别丢弃了混合语音识别模型依赖的发音词典、语言模型和解码网络，实现了音频特征序列到文字序列的直接转换。作为序列到序列的模型的代表，语音转换器(Speech-Transformer)具有极强的序列建模能力。模型采用整段语音作为输入，经过编码器将输入语音编码为高层次的特征表示；解码器从起始符号开始，在编辑器输出的基础上，逐步的预测出对应的文本序列，直到预测到结束标记为止。这种解码方法我们称之为自回归式解码。自回归式解码依赖于过去时间生成的标记，这种时序依赖特性严重影响了解码的效率，并且很难通过GPU并行计算来进行加速，使得自回归模型部署于实时性要求比较高的场景有了一定的局限性。针对这一问题，本发明提出了一种基于触发式非自回归模型的语音识别方法。

发明内容

为解决现有技术的不足，提高语音识别解码的效率，提高语音识别实时性的目的，本发明采用如下的技术方案：

基于触发式非自回归模型的语音识别方法，包括如下步骤：

S11，获取语音训练数据和对应的文本标注训练数据，并提取一系列语音训练数据的特征，构成声学特征序列；

S12，将声学特征序列输入卷积降采样模块中，计算并输出卷积降采样序列；

S13，将卷积降采样序列输入声学编码器中，输出声学编码状态序列；

S14，将声学编码状态序列输入线性变换层，并结合文本标注训练数据计算联结时序损失，所述线性变换层用于计算得到预测标记的概率分布；

S15，根据预测标记的概率分布计算尖峰的位置和个数，非空格标记的概率大于触发阈值时，标记为一个尖峰位置，相邻的尖峰仅保留第一个，并存储尖峰位置；

S16，将尖峰位置对应的触发声学编码状态序列和声学编码状态序列输入声学解码器，并结合文本标注训练数据计算交叉熵损失；

S17，将联结时序损失和交叉熵损失进行加权，根据两者的联合损失计算梯度，进行反向传播，优化触发式非自回归模型；

S18，循环执行S12至S17，直至达到预设的训练结束条件，完成训练。

将声学编码状态序列输入一个线性变换层，计算得到预测标记的概率分布，并计算联结时序损失，辅助模型收敛，根据尖峰位置来获得初始化的解码器输入，尖峰个数表示了语句中所包含的标记个数，避免了冗余计算，避免了时序依赖，提高了解码速度，提升了解码的精度。

所述S11，通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换，提取特定频率分量的系数组成特征向量，一系列的特征向量构成语音特征序列，所述系数是梅尔频率倒谱系数或梅尔滤波器组系数。

所述S12，卷积降采样模块采用两层二维卷积，卷积核大小均为3×3，步长均为2，将输入特征序列降采样了4倍。

所述编码器是基于自注意力机制的声学编码器，卷积降采样模块将语音特征序列转换为卷积降采样序列后，对序列中的特征加上正余弦位置编码，正余弦位置编码包括偶数位置编码PE(t,2i)＝sin(t/10000^2i/d_model)和奇数位置编码PE(t,2i+1)＝cos(t/10000^2i/d_model)，t表示转换后的语音特征的时间步，i表示转换后的语音特征的第i个位置，d_model表示维度。

所述声学编码器是基于自注意力机制的声学编码器，包括多层自注意力机制的编码模块，每个编码模块包括多头自注意力层和前馈网络层，所述多头自注意力层机制的实现如下：

MultiHeadAttention(Q,K,V)＝Concat(head₁,...,head_h)W^O

MultiHeadAttention表示多头注意力机制，将多个自注意力机制的输出向量head_i拼接到一起后经过线性层映射到一个固定维度，再通过前馈网络得到输出结果，W_i ^Q、

W^O表示可以学习的权重矩阵，Q＝K＝V＝X，均表示第一层自注意力编码模块输入的卷积降采样序列，或者前一层自注意力编码模块的输出，d_k是向量K的维度；

所述前馈网络层计算的实现如下：

FFN(x)＝GLU(xW₁+b₁)W₂+b₂

x表示前馈网络层的输入，W₁和W₂表示权重矩阵，b₁和b₂表示权重偏置向量；

所述声学解码器包括多层基于自注意力机制的解码模块，每个解码模块包括多头自注意力层、多头源注意力层和前馈网络层，所述解码模块的多头自注意力层机制和前馈网络层计算的实现与所述声学编码器一致，第一层的输入为所述触发声学编码状态序列，或者前一层自注意力编码模块的输出，多头源注意力层机制与多头自注意力机制不同处在于，多头源注意力层机制的K和V第一层的输入为所述声学编码状态序列。

所述S15，触发阈值的范围在0.5至0.8之间，避免触发阈值过低时引起触发尖峰过多，触发阈值过高时漏掉一些触发尖峰位置，引起最终解码结果漏字。

所述S17，联合损失函数L＝αL_CTC+(1-α)L_CE，α表示联结时序损失在联合损失函数中的权重，L_CTC表示联结时序损失，L_CE表示交叉熵损失，将α设为0.5，更好的优化CTC模块和解码器部分，避免优化过程因失衡导致优化效果变差。

完成训练后，对语音数据进行解码，包括如下步骤：

S21，获取语音数据并提交处理器；

S22，对语音数据提取特征，得到语音特征序列；

S23，将语音特征序列依次通过卷积降采样模块和声学编码器，计算得到声学编码状态序列；

S24，将声学编码状态序列通过线性变换层，计算标记的概率分布，并进一步得到每个位置属于非空格标记的概率；

S25，非空格标记的概率大于触发阈值时，标记为一个尖峰位置，相邻的尖峰仅保留第一个，存储尖峰的位置；

S26，将尖峰位置对应的触发声学编码状态序列输入声学解码器，声学解码器输出的每个位置的最高概率所表示的标记相连接，至结束标记为止，以此表示目标序列，解码完成。声学解码器输入的序列的长度不会一直等于真实文本的长度，往往会略长于真实文本，因此，增加了一个结束标记，当连接最大概率标记的过程中遇到了结束标记，就在结束标记位置停止。

为声学解码器的输入扩充空白向量，避免解码过程中的漏字；

基于触发式非自回归模型的语音识别系统，包括：依次相互连接的声学特征序列提取模块、卷积降采样模块、声学编码器、联结时序分类模块、声学解码器、联合损失计算模块，所述联结时序分类模块包括线性变化模块、联结时序损失计算模块、尖峰抽取模块，其中，声学编码器又与声学解码器连接，线性变化模块分别与声学编码器、联结时序损失计算模块和尖峰抽取模块连接，尖峰抽取模块与声学解码器连接，联结时序损失计算模块与联合损失计算模块连接；

声学特征序列提取模块，用于提取一系列语音训练数据或语音数据的特征，构成声学特征序列；

卷积降采样模块，用于将声学特征序列降采样为卷积降采样序列；

声学编码器，用于将卷积降采样序列编码为声学编码状态序列；

线性变化模块，用于计算得到预测标记的概率分布；

联结时序损失计算模块，用于结合预测标记的概率分布和文本标注训练数据，计算联结时序损失；

尖峰抽取模块，根据预测标记的概率分布计算尖峰的位置和个数，非空格标记的概率大于触发阈值时，标记为一个尖峰位置，相邻的尖峰仅保留第一个，并存储尖峰位置，生成尖峰位置对应的触发声学编码状态序列；

声学解码器，用于将触发声学编码状态序列和声学编码状态序列作为输入，并结合文本标注训练数据计算交叉熵损失；

联合损失计算模块，用于将联结时序损失和交叉熵损失进行加权，根据两者的联合损失计算梯度，进行反向传播；

系统训练部分，将语音训练数据、文本标注训练数据输入系统进行循环训练，直至达到预设的训练结束条件，完成训练；

系统解码部分，将语音数据输入系统，依次经过声学特征序列提取模块、卷积降采样模块、声学编码器、线性变化模块、尖峰抽取模块、声学解码器，由声学解码器输出的每个位置的最高概率所表示的标记相连接，至结束标记为止，以此表示目标序列，完成解码。

本发明的优势和有益效果在于：

本发明避免了冗余计算，避免了时序依赖，提高了解码速度，提升了解码的精度；将声学编码状态序列输入一个线性变换层，计算得到预测标记的概率分布，并计算联结时序损失，辅助模型收敛，根据尖峰位置来获得初始化的解码器输入，尖峰个数表示了语句中所包含的标记个数，避免了冗余计算。

附图说明

图1是本发明的整体结构示意图。

图2是本发明中卷积降采样模块结构示意图。

图3是本发明中自注意力编码器结构示意图。

图4是本发明中自注意力解码器结构示意图。

图5是本发明中解码示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

实施例一：

流式端到端语音识别模型及训练方法，基于自注意力变换网络构建的模型包括基于自注意力机制的声学编码器、基于自注意力机制的解码器，如图1-4所示，包括以下步骤：

步骤1，获取语音训练数据和对应的文本标注训练数据，并提取一系列语音训练数据的特征，构成语音特征序列；

语音识别的目标是将连续语音信号转化为文字序列，在识别过程中，通过对时域下的波形信号加窗分帧后进行离散傅里叶变换，提取特定频率分量的系数组成特征向量，一系列的特征向量构成语音特征序列，语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)。

步骤2，将语音特征序列输入卷积降采样模块中进行计算，输出卷积降采样序列；

降采样过程采用两层2维卷积对输入的语音特征序列进行处理，其中卷积核的大小均为3×3(两个堆叠的3×3卷积)，第一层卷积的通道数与输入特征维度匹配，输出通道数等于模型维度，第二次卷积的输入通道数与输出通道数均等于模型维度，两层卷积的步长均为2，因此每层卷积降采样2倍，两层卷积近似将输入特征序列降采样了4倍，卷积的输出是4维特征，模块将通道维度和特征维度整合到同一纬度，然后通过线性变换以使得模块输出匹配编码器的输入维度，由于编码器是基于自注意力机制的声学编码器，因此对转换后的特征加上正余弦位置编码，正余弦位置编码包括偶数位置编码PE(t,2i)＝sin(t/10000^2i/d_model)，奇数位置编码PE(t,2i+1)＝cos(t/10000^2i/d_model)，其中t表示处理后的语音特征的时间步，i表示处理后的语音特征的第i个位置，d_model表示模型的维度。

步骤3，将卷积降采样序列输入一个基于注意力机制的序列到序列模型的编码器中，输出声学编码状态序列；

声学编码器采用的是基于自注意力机制的声学编码器，在其他实现中，编码器可以使用基于长短时记忆网络(LSTM)等其他类型的编码器来代替，而基于自注意力机制的声学编码器，由6层或者12层的基于自注意力机制的编码模块堆叠构成，每个模块包含一个多头自注意力层(Multi-Head Attention)和一个前馈网络层(Feed-Forward Network)，通过经验参数，采用4或者8个注意力头，前馈网络层包含两层线性变换，线性层之间使用非线性激活函数，根据经验使用门控线性单元(GLU)作为激活函数。

多头注意力机制的实现为：

MultiHeadAttention(Q,K,V)＝Concat(head₁,...,head_h)W^O

其中MultiHeadAttention表示多头注意力机制，其将多个自注意力机制的输出向量head_i拼接到一起后经过线性层映射到一个固定维度，然后通过前馈网络FFN得到输出结果，公式中的W_i ^Q、

W^O都是可以学习的权重矩阵，对于自注意力编码模块，Q＝K＝V＝X，均表示第一层自注意力编码模块输入的卷积降采样序列，或者前一层自注意力编码模块的输出，d_k是向量K的维度(等于X的维度)；

前馈计算的实现为：

FFN(x)＝GLU(xW₁+b₁)W₂+b₂

x表示前馈网络层的输入，W₁和W₂表示权重矩阵，b₁和b₂表示权重偏置向量。

步骤4，将声学编码状态序列输入一个线性变换层，并结合文本标注训练数据计算联结时序损失(CTC损失)；

CTC部分的线性变换层的输入是模型维度，输出是词表大小，线性变换的输出通过Softmax函数计算得到预测标记的概率分布。

步骤5，根据步骤4中线性层预测的空格概率，计算尖峰概率的位置和个数，非空格的概率通过1减去空格的概率计算得到，非空格概率大于一个阈值，即标记一个尖峰位置，相邻的尖峰仅保留第一个，并存储尖峰的位置；

根据经验设定计算尖峰的阈值范围在0.5～0.8之间，当非空格概率大于这一阈值，即可被标记为尖峰，尖峰的位置通常位于发音词的中间，具有一定的初始信息，尖峰的个数表示了输入语音中标记的个数。当触发阈值低于0.5时，会引起触发尖峰过多，当触发阈值高于0.8时，会漏掉一些触发尖峰位置，引起最终解码结果漏字。

步骤6，使用尖峰位置对应的触发声学编码状态序列和声学编码器输出的声学编码状态序列作为解码器的输入，根据解码器的输出概率结合文本标注训练数据计算交叉熵损失；

基于自注意力机制的解码器，由6层基于自注意力机制的解码模块构成，每个模块包含一个多头自注意力层、一个多头源注意力层和一个前馈网络层。其中多头自注意力层和多头源注意力层均包含4个注意力头；前馈网络层，包含两层线性连接，第一层线性层的输出经过门控线性单元作为非线性激活函数，不同于自回归模型结构，触发式非自回归模型的训练过程中不再使用Mask在每一训练步遮蔽后面的时序信息。

自注意力机制和前馈层的计算与编码器端完全一致，其第一层输入是触发声学编码状态序列，后续层的输入是前一层的输出，源注意力机制的计算与自注意力机制相同，不同之处在于源注意力机制的K和V来自于声学解码器输出的声学编码状态序列，源注意力机制的Q仍与自注意力机制的Q相同。

步骤7，将步骤4中的联结时序损失和步骤6的交叉熵损失进行加权，并根据联合损失计算梯度，并进行反向传播，优化模型；

公式表示如下：

L＝αL_CTC+(1-α)L_CE

α表示联结时序损失在联合损失函数中的权重，L表示联合损失函数，L_CTC表示联结时序损失(CTC损失)，L_CE表示交叉熵损失，通过实验表明，将α设置为0.5时效果最好，此时CTC模块和解码器部分都能被很好地优化，避免优化过程因失衡导致优化效果变差。

步骤8，循环执行步骤2-7，直至达到预设的训练结束条件，得到训练好的非自回归端到端语音识别模型，至此完成模型训练。

实施例二：

如图5所示，流式端到端语音识别模型的解码方法。

解码步骤1，从文件路径中读取语音文件并提交给处理器；

处理器可以是智能手机，云端服务器或者其他嵌入式设备。

解码步骤2，对输入语音提取特征，得到语音特征序列；

语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)，特征处理方法与训练过程保持一致。

解码步骤3，将语音特征序列依次通过卷积降采样模块和编码器，计算得到编码状态序列；

解码步骤4，将编码状态序列通过CTC部分的线性变换，并计算标记的概率分布，进一步得到编码序列的每个位置属于非空格标记的概率；

解码步骤5，如果上述非空格概率大于预先设定的阈值，即被标记为触发尖峰位置，如果两个尖峰相邻仅保留第一个，记录触发尖峰位置；

解码器的输入可以扩充3～4个空白向量，来避免解码过程中漏字；

解码步骤6，将触发尖峰位置对应的声学编码序列作为解码器的输入，解码器输出的每个位置的最高概率所表示的标记从左到右连接起来(到结束标记为止)即表示目标序列，结束标记标志着文本的最后一个位置，至此，解码过程全部结束。

假设解码器的输入是一个长度为M的序列(M是编码器触发尖峰的个数)，解码器的输出的长度也是一个长度为M的序列，序列的每个位置都是一个长度为N的向量，N表示建模单元的个数(即词表的大小)；解码过程中，在解码序列的每个位置，记录长度为N的向量中概率最高的位置，其索引即表示预测的标记(也就是建模单元)，将每个位置得到的标记从左到右连接起来，得到长度为M的文本序列，事实上，M的长度不会一直等于真实文本的长度，往往会略长于真实文本，因此，在建模单元中增加了一个结束标记，如果从左到右连接最大概率标记的过程中遇到了结束标记，就在结束标记位置停止即可，此时的预测文本长度小于M。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于触发式非自回归模型的语音识别方法，其特征在于包括如下步骤：

S17，将联结时序损失和交叉熵损失进行加权，根据两者的联合损失计算梯度，进行反向传播；

2.如权利要求1所述的基于触发式非自回归模型的语音识别方法，其特征在于所述S11，通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换，提取特定频率分量的系数组成特征向量，一系列的特征向量构成语音特征序列，所述系数是梅尔频率倒谱系数或梅尔滤波器组系数。

3.如权利要求1所述的基于触发式非自回归模型的语音识别方法，其特征在于所述S12，卷积降采样模块采用两层二维卷积，卷积核大小均为3×3，步长均为2。

4.如权利要求1所述的基于触发式非自回归模型的语音识别方法，其特征在于所述编码器是基于自注意力机制的声学编码器，卷积降采样模块将语音特征序列转换为卷积降采样序列后，对序列中的特征加上正余弦位置编码，所述正余弦位置编码包括偶数位置编码PE(t，2i)＝sin(t/10000^2i/d_model)和奇数位置编码PE(t，2i+1)＝cos(t/10000^2i/d_model)，t表示转换后的语音特征的时间步，i表示转换后的语音特征的第i个位置，d_model表示维度。

5.如权利要求1所述的基于触发式非自回归模型的语音识别方法，其特征在于所述声学编码器是基于自注意力机制的声学编码器，包括多层自注意力机制的编码模块，每个编码模块包括多头自注意力层和前馈网络层，所述多头自注意力层机制的实现如下：

MultiHeadAttention(Q，K，V)＝Concat(head₁，...，head_h)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MultiHeadAttention表示多头注意力机制，将多个自注意力机制的输出向量head_i拼接到一起后经过线性层映射到一个固定维度，再通过前馈网络得到输出结果，W_i ^Q、W_i ^K、W_i ^V、W^O表示可以学习的权重矩阵，Q＝K＝V＝X，均表示第一层自注意力编码模块输入的卷积降采样序列，或者前一层自注意力编码模块的输出，d_k是向量K的维度；

所述前馈网络层计算的实现如下：

FFN(x)＝GLU(xW₁+b₁)W₂+b₂

6.如权利要求1所述的基于触发式非自回归模型的语音识别方法，其特征在于所述S15，触发阈值的范围在0.5至0.8之间。

7.如权利要求1所述的基于触发式非自回归模型的语音识别方法，其特征在于所述S17，联合损失函数L＝αL_CTC+(1-α)L_CE，α表示联结时序损失在联合损失函数中的权重，L_CTC表示联结时序损失，L_CE表示交叉熵损失，α为0.5。

8.如权利要求1所述的基于触发式非自回归模型的语音识别方法，其特征在于完成训练后，对语音数据进行解码，包括如下步骤：

S21，获取语音数据并提交处理器；

S22，对语音数据提取特征，得到语音特征序列；

S26，将尖峰位置对应的触发声学编码状态序列输入声学解码器，声学解码器输出的每个位置的最高概率所表示的标记相连接，至结束标记为止，以此表示目标序列，解码完成。

9.如权利要求8所述的基于触发式非自回归模型的语音识别方法，其特征在于为声学解码器的输入扩充空白向量。

10.基于触发式非自回归模型的语音识别系统，其特征在于包括：依次相互连接的声学特征序列提取模块、卷积降采样模块、声学编码器、联结时序分类模块、声学解码器、联合损失计算模块，所述联结时序分类模块包括线性变化模块、联结时序损失计算模块、尖峰抽取模块，其中，声学编码器又与声学解码器连接，线性变化模块分别与声学编码器、联结时序损失计算模块和尖峰抽取模块连接，尖峰抽取模块与声学解码器连接，联结时序损失计算模块与联合损失计算模块连接；

线性变化模块，用于计算得到预测标记的概率分布；

系统解码部分，将语音数据输入系统，依次经过系统的声学特征序列提取模块、卷积降采样模块、声学编码器、线性变化模块、尖峰抽取模块、声学解码器，由声学解码器输出的每个位置的最高概率所表示的标记相连接，至结束标记为止，以此表示目标序列，完成解码。