CN111415667A

CN111415667A - 一种流式端到端语音识别模型训练和解码方法

Info

Publication number: CN111415667A
Application number: CN202010220477.6A
Authority: CN
Inventors: 温正棋; 田正坤
Original assignee: Limit Element Hangzhou Intelligent Polytron Technologies Inc
Current assignee: Limit Element Hangzhou Intelligent Polytron Technologies Inc
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-07-14
Anticipated expiration: 2040-03-25
Also published as: CN111415667B

Abstract

本发明属于电子信号处理技术领域，公开一种流式端到端语音识别模型的训练方法和解码方法，第一阶段采用交叉熵损失函数进行优化，第二阶段模型参数保持不变，继续使用负对数损失函数进行优化，第二阶段输入的不是整段的语音而是固定长度的语音片段。解码过程从音频采集器中以流式的方式读取语音数据，每0.4秒就将存储的语音提交给处理器；对固定长度的语音提取特征，得到语音特征序列；将语音特征序列以及之前预测得到的文字序列输入到解码器中进行预测，直到预测得到一个空格；重复上述步骤直到输入语音结束并解码得到最后一个空格标记。本发明解决了端到端语音识别模型无法直接应用于具有很高实时性要求的流式语音识别任务的问题。

Description

一种流式端到端语音识别模型训练和解码方法

技术领域

本发明涉及电子信号处理技术领域，特别是指一种流式端到端语音识别模型的训练和解码方法。

背景技术

语音识别作为人机交互的入口，是人工智能领域中一个重要的研究方向。不同于传统的基于高斯混合模型-隐马尔科夫模型的混合模型(GMM-HMM)的语音识别方法，端到端语音识别丢弃了发音词典、语言模型和解码网络，直接实现了音频特征序列到文字序列的转换。基于注意力机制的序列到序列的模型作为一种端到端模型，具有极强的序列建模能力。基于注意力机制的序列到序列模型在识别一段语音的内容时，要求输入整段语音进行输入。这一特点严重影响了基于注意力机制的序列到序列模型被应用于流式语音识别任务。流式语音识别任务的典型特点是要求语音识别具有很高的实时性，要求能做到边说话边识别。

发明内容

本发明提出一种流式端到端语音识别模型的训练和解码方法，解决了现有技术中端到端语音模型要求完整的语音输入，无法直接应用于流式语音识别任务的问题。

本发明的技术方案是这样实现的：

一种流式端到端语音识别模型的训练方法，包括以下步骤：

步骤S100，获取语音训练数据和对应的文本标注训练数据，并提取所述语音训练数据的特征，得到语音特征序列；

步骤S200，将降采样后的语音特征序列输入一个基于注意力机制的序列到序列模型的编码器中，输出声学编码状态序列；

步骤S300，将语音对应文本序列和声学编码状态序列输入到解码器中，并计算输出概率分布；

步骤S400，基于输出概率分布计算交叉熵损失；

步骤S500，循环执行步骤S200-S500，直至达到预设的训练结束条件，得到训练好的端到端语音识别模型，至此完成第一阶段的模型训练；

步骤S600，在第一阶段训练模型的基础上，将输入的语音分成N个固定长度的片段，然后依次输入编码器中，分别计算得到N个固定长度的片段上的声学编码状态序列；

步骤S700，依次每个声学状态序列和整个文本序列输入到解码器中，输入得到一个概率分布网络；

步骤S800，概率分布网络中存在多条对齐路径，依据前后向算法，计算得到所有可行路径的概率和，然后计算路径概率和的负对数损失，并计算参数对应的梯度，进行反向传播；

步骤S900，循环执行步骤S600-S800，直至达到预设的训练结束条件，得到训练好的端到端语音识别模型，至此完成全部的模型训练。

优选的，所述流式端到端语音识别模型基于自注意力变换网络构建，其包括基于自注意力机制或者基于长短时记忆网络或者卷积网络的声学编码器和基于自注意力机制或者基于长短时记忆网络或者卷积网络的解码器；所述基于自注意力机制的声学编码器其结构为6层自注意力编码模块；所述基于自注意力机制的解码器其结构为6层自注意力解码模块；所述自注意力编码模块包括多头自注意力层和前馈层；所述自注意力解码模块包括多头自注意力层、多头源注意力层和前馈层。

优选的，步骤S100中提取所述语音训练数据的特征具体指的是提取所述语音训练数据的梅尔频率倒谱系数或梅尔滤波器组系数。

优选的，步骤S200中降采样具体指的是采用两层2维卷积对输入的语音特征序列进行处理，或者对每帧语音特征进行拼接操作，对拼接后的特征降采样，将拼帧后的特征进行线性变换。

优选的，步骤S800中负对数损失值的计算方法为：

L＝-ln p(y|x)

其中，L为负对数损失值，y为文本标注训练数据，x为语音特征，p(y|x)表示所有对齐路径的概率和。

一种流式端到端语音识别模型的解码方法，包括以下步骤：

步骤1，从音频采集器中以流式的方式读取语音数据，每隔设定时间就将存储的语音提交给处理器；

步骤2，对固定长度的语音提取特征，得到语音特征序列；

步骤3，将语音特征序列以及之前预测得到的文字序列输入到解码器中进行预测，直到预测得到一个空格；

步骤4，重复解码步骤1-3，直到输入语音结束并解码得到最后一个空格标记。

优选的，步骤1中每隔0.4秒就将存储的语音提交给处理器。

优选的，采用束搜索进行优化。

本发明的有益效果在于：使得端到端模型在参数以及模型结构不发生根本改变的情况下进行流式语音识别，并且保持极高的精度。在本发明中首先通过交叉熵预训练使得模型获得了很好的性能，同时简化了模型继续优化的难度。两阶段训练方法，加速了模型收敛，提高了模型的性能表现。在解码过程中，所述的解码方法大大提高了解码速度，同时保证了解码准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种实施例的流式端到端语音识别模型的自注意力声学编码器结构示意图；

图2为本发明一种实施例的流式端到端语音识别模型的自注意力解码器结构示意图；

图3为本发明一种实施例的流式端到端语音识别模型的第一阶段训练示例图；

图4为本发明一种实施例的流式端到端语音识别模型的第二阶段训练示例图；

图5为本发明一种实施例的流式端到端语音识别模型的第二阶段中所有可行路径的概率分布图；

图6为本发明一种实施例的流式端到端语音识别模型的解码示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1-图5所示，本发明提出了一种流式端到端语音识别模型的训练方法，包括以下步骤：

步骤S400，基于输出概率分布计算交叉熵损失；

为了更清晰地对本发明流式端到端语音识别模型的训练方法进行说明，下面结合附图对本发明方法一种实施例中各步骤进行展开详述。

步骤S100，获取语音训练数据和对应的文本标注训练数据，并提取所述语音训练数据的特征，得到语音特征序列。

语音识别的目标是将连续语音信号转化为文字序列。在识别过程中，通过对时域下的波形信号加窗分帧后进行离散傅里叶变换，提取特定频率分量的系数组成特征向量，最后通过拼接每帧的特征向量得到语音特征序列。

在本实施例中，先获取流式端到端语音识别模型的训练数据，包括语音训练数据和对应的文本标注训练数据，提取所述语音训练数据的特征。语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)。

在一些优选的实施方式中，步骤S100和步骤S200之间还包括降采样处理步骤：

对语音特征序列中的语音特征进行降采样处理；降采样方法可以通过语音特征帧的拼接或者通过卷积神经网络进行(卷积的步长表示降采样率)。其中特征帧拼接的实现方法为获取所述语音特征序列中的第T帧语音特征的前三帧语音特征和后两帧语音特征，与其进行拼接，并降采样到40ms的帧率；若第T-3帧语音特征、第T-2帧语音特征、第T-1帧语音特征、第T+1帧、第2帧语音特征中任一帧语音特征不存在，则将其对应的位置填充为0。

步骤S200，将降采样后的语音特征序列输入一个基于注意力机制的序列到序列模型的编码器中，输出声学编码状态序列。

在本实施例中，降采样过程采用两层2维卷积对输入的语音特征序列进行处理，其中卷积核的大小均为3x3，第一层卷积的通道数与输入特征维度匹配，输出通道数等于模型维度320，第二次卷积的输入通道数与输出通道数均等于模型维度320。两层卷积的步长均为2。两层卷积近似将输入特征序列降采样了4倍。此外也可以通过对每帧语音特征进行拼接操作来实现同样的效果，左边拼三帧，右边拼两帧，共六帧。若当前帧语音特征为第一帧、第二帧、第三帧，即左边三帧不够的情况下，缺少的一帧填充为0。若当前帧语音特征为最后一帧，即右边不足两帧特征，则将右边缺少的特征帧也填充为0。然后对拼接后的特征降采样到40ms的帧率，然后将拼帧后的特征通过线性变换，以匹配模型维度320。如果再用基于自注意力机制的声学编码器，应该对转换后的特征加上正余弦位置编码。

其中正余弦位置编码为：

偶数位置编码PE(t，2i)＝sin(t/10000^2i/d_model)

奇数位置编码PE(t，2i+1)＝cos(t/10000^2i/d_model)

其中t表示处理后的语音特征的时间步，i表示处理后的语音特征的第i个位置。

在本实施例中，声学编码器采用的是基于自注意力机制的声学编码器，在其他实现中，编码器可以使用基于长短时记忆网络的编码器或者基于卷积神经网络的编码器来代替。基于自注意力机制的声学编码器，包含6层基于自注意力机制的编码模块构成，每个模块包含一个多头自注意力层和一个前馈网络层。其中多头自注意力层包含4个注意力头，注意力机制的输入和输出维度均为320；前馈网络层，包含两层线性链接，第一层线性层的输入维度为320，输出维度为1280，线性层的输出经过非线性激活函数，然后输入到第二线性层，前馈网络层的输出维度为320。

在本实施例中，多头注意力机制的实现为：

MultiHeadAttention(Q,K,V)＝Concat(head₁,...,head_h)W^o

其中MultiHeadAttention表示多头注意力机制，其将多个自注意力机制的输出向量head_i拼接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中的W_i ^Q、W_i ^K、W_i ^V、W^O都是权重矩阵。X是自注意力模块的输入，d_k是向量K的维度(等于X的维度)。

前馈计算的实现为：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中W₁和W₂都是权重矩阵，b₁和b₂是权重偏置向量

在本实施例中，自注意力机制的QKV均表示同一输出序列。

步骤S300，将语音对应文本序列和声学编码状态序列输入到解码器中，并计算输出概率分布。

在本实施例中，编码器采用的是基于自注意力机制的解码器，在其他实现中，编码器可以使用基于长短时记忆网络的编码器等来代替。基于自注意力机制的解码器，包含6层基于自注意力机制的编码模块构成，每个模块包含一个多头自注意力层，一个多头源注意力层和一个前馈网络层。其中多头自注意力层和源注意力层均包含4个注意力头，输入和输出维度均为320；前馈网络层，包含两层线性链接，第一层线性层的输入维度为320，输出维度为1280，线性层的输出经过非线性激活函数，然后输入到第二线性层，前馈网络层的输出维度为320。

在本实施例中，自注意力机制和前馈层的计算与编码器端完全一致，源注意力机制的计算与自注意力机制相同，不同之处在于其K和V表示声学编码序列，Q表示模型上一层的输出序列。

步骤S400，基于输出概率分布计算交叉熵损失，并计算参数对应的梯度，然后应用反向传播算法来更新模型参数。

步骤S600,在第一阶段训练模型的基础上，将输入的语音分成N个固定长度的片段，然后依次输入编码器中，分别计算得到N个固定长度的片段上的声学编码状态序列。

在本实施例中，固定长度的语音片段选择长度为0.4秒，不同实现先长度可以变化。

步骤S700,依次每个声学状态序列和整个文本序列输入到解码器中，输入得到一个概率分布网络；

步骤S800,概率分布网络中存在多条可能的对齐路径，依据前后向算法，可以计算得到所有可行路径的概率和，然后计算路径概率和的负对数损失,并计算参数对应的梯度，进行反向传播；

其中，负对数损失函数，其计算如公式(1)所示：

L＝-ln p(y|x)

L为负对数损失值，y为文本标注训练数据，x为语音特征，p(y|x)表示所有对齐路径的概率和。

负对数损失函数的计算使用前后向算法进行。前后向算法使用的是动态规划的思想，高效的实现了所有可行路径的求和问题。

如图4所示，横轴表示语音段的编号，用n表示，纵轴表示文本轴，用u表示，图中的每个圆圈都表示一个由联合网络预测得到的概率分布，箭头表示路径的转移，向右的箭头表示预测得到一个空标记，向上的箭头表示预测得到一个非空标记。任意一条从左下角起始到右上角结束的路径都是模型的一条可能的路径，计算语音模型损失就是利用前后向算法对所有的可能路径求概率和。

步骤S900,循环执行步骤S600-S800，直至达到预设的训练结束条件，得到训练好的端到端语音识别模型，至此完成全部的模型训练。

如图6所示，本发明还提出了一种流式端到端语音识别模型解码方法，包括以下步骤：

解码步骤1，从音频采集器中以流式的方式读取语音数据,每0.4秒就将存储的语音提交给处理器。

本实施例中所述的音频采集器包括手机、电脑、智能音箱等嵌入式设备的各种麦克风。

本实施例中的处理器包括手机、电脑、智能音箱等各种嵌入式设备的中央处理器芯片。

解码步骤2，对固定长度的语音提取特征，得到语音特征序列；

本实施例中的语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)。特征处理方法与训练过程保持一致。

解码步骤3，将语音特征序列以及之前预测得到的文字序列(包括起始符号，但不包括句中空格标记)输入到解码器中进行预测，直到预测得到一个空格；

本实施例中，起始标记也采用空格代替，也就是输入到解码器的句首包含一个空格，句中没有空格标记。

解码步骤4，重复解码步骤1-3，直到输入语音结束并解码得到最后一个空格标记。至此，解码过程全部结束。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的流式端到端语音识别模型的训练系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

所述技术领域的技术人员可以清楚的了解到，未描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种流式端到端语音识别模型的训练方法，其特征在于，包括以下步骤：

步骤S400，基于输出概率分布计算交叉熵损失；

2.根据权利要求1所述的流式端到端语音识别模型的训练方法，其特征在于，所述流式端到端语音识别模型基于自注意力变换网络构建，其包括基于自注意力机制或者基于长短时记忆网络或者卷积网络的声学编码器和基于自注意力机制或者基于长短时记忆网络或者卷积网络的解码器；所述基于自注意力机制的声学编码器其结构为6层自注意力编码模块；所述基于自注意力机制的解码器其结构为6层自注意力解码模块；所述自注意力编码模块包括多头自注意力层和前馈层；所述自注意力解码模块包括多头自注意力层、多头源注意力层和前馈层。

3.根据权利要求1所述的流式端到端语音识别模型的训练方法，其特征在于，步骤S100中提取所述语音训练数据的特征具体指的是提取所述语音训练数据的梅尔频率倒谱系数或梅尔滤波器组系数。

4.根据权利要求1所述的流式端到端语音识别模型的训练方法，其特征在于，步骤S200中降采样具体指的是采用两层2维卷积对输入的语音特征序列进行处理，或者对每帧语音特征进行拼接操作，对拼接后的特征降采样，将拼帧后的特征进行线性变换。

5.根据权利要求1所述的流式端到端语音识别模型的训练方法，其特征在于，步骤S800中负对数损失值的计算方法为：

L＝-ln p(y|x)

6.一种流式端到端语音识别模型的解码方法，其特征在于，

步骤2，对固定长度的语音提取特征，得到语音特征序列；

7.根据权利要求6所述的流式端到端语音识别模型的解码方法，其特征在于，步骤1中每隔0.4秒就将存储的语音提交给处理器。

8.根据权利要求6或7所述的流式端到端语音识别模型的解码方法，其特征在于，采用束搜索进行优化。