CN110473529A

CN110473529A - 一种基于自注意力机制的流式语音转写系统

Info

Publication number: CN110473529A
Application number: CN201910850127.5A
Authority: CN
Inventors: 温正棋; 田正坤
Original assignee: Limit Element (hangzhou) Intelligent Polytron Technologies Inc
Current assignee: Beijing Zhongke Zhiji Technology Co ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2019-11-19
Anticipated expiration: 2039-09-09
Also published as: CN110473529B

Abstract

本发明公开了一种基于自注意力机制的流式语音转写系统，包括特征前端处理模块，自注意力音频编码网络模块，自注意力预测网络模块，联合网络模块；特征前端处理模块：用于接收输入声学特征，并转换为特定维度的向量；自注意力音频编码网络模块：与特征前端处理模块相连，用于接收处理后的声学特征，得到编码后的声学状态向量；自注意力预测网络模块：用于根据输入的上一时刻预测标记，生成一个语言状态向量。联合网络模块：与自注意力音频编码网络模块和自注意力预测网络模块相连，用来结合声学状态和语言状态，并计算新的预测标记的概率。本发明提供了一种基于自注意力机制的流式前馈语音编码器，以提高传统语音编码器的计算效率和精度。

Description

一种基于自注意力机制的流式语音转写系统

技术领域

本发明涉及电子行业信号处理技术领域，具体涉及一种基于自注意力机制的流式语音转写系统。

背景技术

语音作为人类交流信息的主要手段之一，语音识别技术主要是让计算机能够识别人类语音并转写为对应的文本。在语音识别技术的发展过程中，早期的研究主要是采用基于混合高斯模型和隐马尔科夫模型的方法，深度神经网络的发展使得高斯模型被深度神经网络所替代。近年来，随着计算机技术的发展，端到端模型因为简化的流程，优雅的模型结构，受到了越来越多人的关注。

循环神经网络语音转写系统采用循环神经网络作为基本的网络框架。基于循环神经网络进行语音识别建模，具有很多优点，模型能够建模长距离的文本依赖关系，提高模型的精度。但是循环神经网络递归的进行计算在训练过程中效率比较低下。自注意力机制也能够建模长距离的依赖关系，但是需要以完整的序列作为输入，虽然具有很高的计算效率，但是并不能应用于流式序列建模任务。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于自注意力机制的流式语音转写系统，本发明提供了一种基于自注意力机制的流式前馈语音编码器，以提高传统语音编码器的计算效率和精度。

为了解决上述技术问题，采用如下技术方案：

一种基于自注意力机制的流式语音转写系统，包括特征前端处理模块，自注意力音频编码网络模块，自注意力预测网络模块，联合网络模块；

所述特征前端处理模块：用于接收输入声学特征，并转换为特定维度的向量；

所述自注意力音频编码网络模块：与特征前端处理模块相连，用于接收处理后的声学特征，得到编码后的声学状态向量S_t；

所述自注意力预测网络模块：所述自注意力预测网络模块为一个神经网络语言模型，用于根据输入的上一时刻预测标记，生成一个语言状态向量。

所述联合网络模块：与自注意力音频编码网络模块和自注意力预测网络模块相连，用来结合声学状态和语言状态，并计算新的预测标记的概率。

进一步，所述特征前端处理模块采用两个1维卷积结构对输入的声学特征进行处理。

进一步，所述声学状态向量S_t＝FFN(MultiHeadAttention(X，X，X))。

进一步，所述自注意力音频编码网络模块包括多头流式自注意力层和前馈网络层，

所述多头流式自注意力层分别与特征前端处理模块和前馈网络层相连接，所述多头流式自注意力层用于在固定的窗口内部计算自注意力信息以建模上下文信息；

所述前馈网络层与所述多头流式自注意力层相连接，所述前馈网络层用于对自注意力机制输出的信息进行非线性变换。

进一步，所述多头流式自注意力层的计算方式如下：

MultiHeadAttention(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中MultiHeadAttention表示多头注意力机制，其将多个自注意力机制的输出向量headi_拼接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中W^O都是权重矩阵都是权重矩阵，X是自注意力模块的输入，d_k是向量K的维度。

进一步，所述前馈网络层的计算方式如下：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中W₁和W₂都是权重矩阵，b₁和b₂是权重偏置向量。

进一步，所述自注意力预测网络模块包括文本编码模块、位置编码模块、多头自注意力层和前馈网络层，

文本编码模块用于接收上一时刻预测标记作为输入，通过词嵌入的方式编码为固定维度的向量；

所述位置编码模块根据特征矩阵的行列信息进行正弦余弦编码，以使得输入文本信息中具有位置信息；

所述多头自注意力层：与文本编码模块、位置编码模块和前馈网络层相连，通过建模先前预测的标记的信息，抽取对预测当前解码状态有关的信息；

所述前馈网络层用于对多头自注意力机制的输出进行非线性编码，抽取有用的高层表示。

进一步，所述联合网络模块与自注意力音频编码网络模块和自注意力预测网络模块分别相连接，所述联合网络模块用于结合声学编码状态向量和语言编码状态向量，计算出一个新标记的概率，并将预测得到的非空标记输入到自注意力预测网络模块中计算新的语言编码状态向量。

进一步，所述新的预测标记的概率的公式如下：

S_J＝Linear(Concat(S_t，S_u))

P(k|t，u)＝softmax(Linear(Tanh(S_j)))

联合网络模块接收自注意力音频编码网络模块产生的声学状态S_t和自注意力预测网络模块产生的语言状态S_u作为输入，将两个状态拼接在一起产生联合状态S_j，并根据联合状态预测基于第t时刻的声学状态和第u位置的语言状态预测出词表中第k个标记的概率。

进一步，所述自注意力机制内设有流式自注意力机制，所述流式自注意力机制用于对输入的音频信息增加一个滑动的窗口，计算每个中心节点的自注意力信息只考虑窗口内部的节点，多层网络的堆叠实现了建模长距离依赖信息。

从上述技术方案可以看出，本发明具有以下有益效果：

(1)本发明中，模型中没有任何循环网络结构，完全使用前馈网络结构，大大提高了模型的训练和计算效率；

(2)本发明中，使用流式自注意力机制代替循环神经网络进行局部上下文建模，通过多层流式注意力机制堆叠来建模长距离的上下文依赖关系，并实现了时延可控的流式建模；

(3)本发明中，没有将音频特征直接输入流式自注意力机制，而是经过了一个特征处理前端，一方面是对特征进行维度变化，另一方面对特征进行抽象表示，提高模型的建模能力。

附图说明

图1是本发明实施例基于自注意力机制的流式语音转写系统中整体结构示意图；

图2是本发明实施例基于自注意力机制的流式语音转写系统中特征前端处理模块的结构示意图；

图3本发明实施例基于自注意力机制的流式语音转写系统中自注意力音频编码网络模块的结构示意图；

图4本发明实施例基于自注意力机制的流式语音转写系统中自注意力预测网络模块的结构示意图；

图5本发明实施例基于自注意力机制的流式语音转写系统中联合网络模块的结构示意图。

图6本发明实施例基于自注意力机制的流式语音转写系统中流式自注意力机制的结构示意图。

【主要符号说明】

1-特征前端处理模块； 2-自注意力音频编码网络模块；

3-自注意力预测网络模块； 4-联合网络模块；

11-1维卷积模块； 12-1维卷积模块；

31-文本编码模块； 32-位置编码模块；

33-多头自注意力层； 34-前馈网络层。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明基于自注意力机制的流式语音转写系统中，使用自注意力机制代替循环神经网络来建模时序信息，通过限制自注意力机制的范围和堆叠多层结构实现了流式语音建模而仅仅有很少的性能损失，本发明是一种端到端的语音识别系统，能够直接将输入特征序列转写为对应的文本序列。

在本发明的一个示例性实施例中，如图1所示，一种基于自注意力机制的流式语音转写系统，包括特征前端处理模块1，自注意力音频编码网络模块2，自注意力预测网络模块3，联合网络模块4；

所述特征前端处理模块1：用于接收输入声学特征，并转换为特定维度的向量；

所述自注意力音频编码网络模块2：与特征前端处理模块1相连，用于接收处理后的声学特征，得到编码后的声学状态向量S_t；

所述自注意力预测网络模块3：所述自注意力预测网络模块3为一个神经网络语言模型，用于根据输入的上一时刻预测标记，生成一个语言状态向量。

所述联合网络模块4：与自注意力音频编码网络模块2和自注意力预测网络模块3相连，用来结合声学状态和语言状态，并计算新的预测标记的概率。

本发明中，使用自注意力机制代替循环神经网络来建模时序信息，通过限制自注意力机制的范围和堆叠多层结构实现了流式语音建模而仅仅有很少的性能损失。以下分别对各个模块进行详细说明。

在本实施例中，参看图2，所述特征前端处理模块1采用1维卷积结构11和1维卷积结构12对输入的声学特征进行处理。一方面用来将特征映射为特定的维度，另一方面通过卷积结构对特征编码位置信息，最终得到包含位置信息的特征序列；

具体地，在本实施例中，所述声学状态向量S_t＝FFN(MultiHeadAttention(X，X，X))。

具体地，在本实施例中，所述自注意力音频编码网络模块2包括多头流式自注意力层和前馈网络层，

所述多头流式自注意力层分别与特征前端处理模块1和前馈网络层相连接，所述多头流式自注意力层用于在固定的窗口内部计算自注意力信息以建模上下文信息；

具体地，在本实施例中，所述多头流式自注意力层的计算方式如下：

MultiHeadAttention(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中MultiHeadAttention表示多头注意力机制，其将多个自注意力机制的输出向量head_i拼接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中W^O都是权重矩阵都是权重矩阵，X是自注意力模块的输入，d_k是向量K的维度。

具体地，在本实施例中，所述前馈网络层的计算方式如下：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中W₁和W₂都是权重矩阵，^b ₁和b₂是权重偏置向量。

具体地，在本实施例中，如图4所示，所述自注意力预测网络模块3包括文本编码模块31、位置编码模块32、多头自注意力层33和前馈网络层34，

文本编码模块31，接受上一时刻预测标记作为输入，通过词嵌入

Embedding的方式编码为固定维度的向量X_u；X_u＝Embedding(index_u)

位置编码模块3232，根据特征矩阵的行列信息进行正弦余弦编码

POS(X_u)，以使得输入文本信息中具有位置信息；

E_u＝X_u+POS(X_u)；

所述多头自注意力层33：与文本编码模块31、位置编码模块32和前馈网络层34相连，通过建模先前预测的标记的信息，抽取对预测当前解码状态有关的信息；抽取对预测当前解码状态有关的信息，其计算方式与自注意力音频编码网络模块2的多头自注意力层33完全相同

所述前馈网络层34用于对多头自注意力机制的输出进行非线性编码，抽取有用的高层表示。其计算方式与自注意力音频编码网络模块2的前馈网络层34完全相同。

自注意力预测网络采用

S_u＝FFN(MultiHeadAttention(E_0：u，E_0：u，E_0：u))

具体地，在本实施例中，所述联合网络模块4与自注意力音频编码网络模块2和自注意力预测网络模块3分别相连接，所述联合网络模块4用于结合声学编码状态向量和语言编码状态向量，计算出一个新标记的概率，并将预测得到的非空标记输入到自注意力预测网络模块3中计算新的语言编码状态向量。

具体地，在本实施例中，所述新的预测标记的概率的公式如下：

S_j＝Linear(Concat(S_t，S_u))

P(k|t，u)＝softmax(Linear(Tanh(S_j)))

联合网络模块4接收自注意力音频编码网络模块2产生的声学状态S_t和自注意力预测网络模块3产生的语言状态S_u作为输入，将两个状态拼接在一起产生联合状态S_j，并根据联合状态预测基于第t时刻的声学状态和第u位置的语言状态预测出词表中第k个标记的概率。

具体地，在本实施例中，所述自注意力机制内设有流式自注意力机制，所述流式自注意力机制用于对输入的音频信息增加一个滑动的窗口，计算每个中心节点的自注意力信息只考虑窗口内部的节点，多层网络的堆叠实现了建模长距离依赖信息。

流式注意力机制是自注意力机制的一个子集，考虑的长度信息不太一样。

具体公式如下：

其中，h_t表示注意力中的一个头在第t时刻的自注意力向量，Nl表示上文的计算状态数量，Nr表示下文的状态计算数量，α_τ表示注意力权重，s_τ表示注意力机制层的输入向量。

本发明基于自注意力机制的流式语音编码器以python语言编写在深度学习框架pytorch下编写，在windows平台下和在linux平台下均可运行，当然也可以采用其他的编程语言编写和深度学习框架进行实现，在其他平台上运行。此外，本发明可以应用于电脑终端、手持式移动设备或其它形式的移动设备。

以上仅为本发明的具体实施例，但本发明的技术特征并不局限于此。任何以本发明为基础，为解决基本相同的技术问题，实现基本相同的技术效果，所作出地简单变化、等同替换或者修饰等，皆涵盖于本发明的保护范围之中。

Claims

1.一种基于自注意力机制的流式语音转写系统，其特征在于：包括特征前端处理模块，自注意力音频编码网络模块，自注意力预测网络模块，联合网络模块；

2.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统，其特征在于：所述特征前端处理模块采用两个1维卷积结构对输入的声学特征进行处理。

3.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统，其特征在于：所述声学状态向量S_t＝FFN(MultiHeadAttention(X，X，X))。

4.根据权利要求1或3所述的一种基于自注意力机制的流式语音转写系统，其特征在于：所述自注意力音频编码网络模块包括多头流式自注意力层和前馈网络层，

5.根据权利要求4所述的一种基于自注意力机制的流式语音转写系统，其特征在于：所述多头流式自注意力层的计算方式如下：

MultiHeadAttention(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中MultiHeadAttention表示多头注意力机制，其将多个自注意力机制的输出向量head_i拼接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中 W^O都是权重矩阵都是权重矩阵，X是自注意力模块的输入，d_k是向量K的维度。

6.根据权利要求4所述的一种基于自注意力机制的流式语音转写系统，其特征在于：所述前馈网络层的计算方式如下：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中W₁和W₂都是权重矩阵，b₁和b₂是权重偏置向量。

7.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统，其特征在于：所述自注意力预测网络模块包括文本编码模块、位置编码模块、多头自注意力层和前馈网络层，

8.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统，其特征在于：所述联合网络模块与自注意力音频编码网络模块和自注意力预测网络模块分别相连接，所述联合网络模块用于结合声学编码状态向量和语言编码状态向量，计算出一个新标记的概率，并将预测得到的非空标记输入到自注意力预测网络模块中计算新的语言编码状态向量。

9.根据权利要求8所述的一种基于自注意力机制的流式语音转写系统，其特征在于：所述新的预测标记的概率的公式如下：

S_j＝Linear(Concat(S_t，S_u))

P(k|t，u)＝softmax(Linear(Tanh(S_j)))

10.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统，其特征在于：所述自注意力机制内设有流式自注意力机制，所述流式自注意力机制用于对输入的音频信息增加一个滑动的窗口，计算每个中心节点的自注意力信息只考虑窗口内部的节点，多层网络的堆叠实现了建模长距离依赖信息。