CN112599122A

CN112599122A - 基于自注意力机制和记忆网络的语音识别方法及装置

Info

Publication number: CN112599122A
Application number: CN202011434955.XA
Authority: CN
Inventors: 罗剑; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-04-02
Anticipated expiration: 2040-12-10
Also published as: CN112599122B; WO2022121150A1

Abstract

本申请公开了一种基于自注意力机制和记忆网络的语音识别方法及装置，涉及人工智能技术领域，可以解决目前在进行语音识别时，现有模型在计算复杂度和准确率上都有一定的局限性，导致语音识别效果较差且效率较低的问题。其中方法包括：依据自注意力机制和记忆网络LSTM更新RNN‑Transducer模型的编码器结构和解码器结构；提取目标语音的语音序列特征以及文本序列特征；利用更新后的RNN‑Transducer模型基于所述语音序列特征和所述文本序列特征，确定所述目标语音对应的目标文本标签。本申请适用于对语音的在线识别，例如可应用于对话机器人、在线教育、实时会议系统等场景。

Description

基于自注意力机制和记忆网络的语音识别方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及到一种基于自注意力机制和记忆网络的语音识别方法及装置。

背景技术

最近几年，含有自注意力机制(Self-Attention)的语音识别模型越来越受到了人们的关注。相比于传统的循环神经网络模型(RNN)，自注意力机制模型具有可以高并行度训练、低延迟等优点。但是，对于实时语音识别模型来说，自注意力机制模型有一个非常有挑战性的问题是，随着语音长度的增长，自注意力机制模型的计算复杂度会同步地进行增长。为了解决这个问题，通常的做法是把自注意力的感受野限制在一个固定的窗长里面。这种做法可以保证模型的计算时效性，但是会一定程度影响模型的识别效果。

同时，联结时序分类(Connectionist Temporal Classification，CTC)是通常使用的用来训练端到端语音识别的时序分类算法。然而，CTC有一个非常明显的问题是，CTC是对于语音的每一帧进行识别，从而每一帧的识别都是条件独立的。所以，基于CTC准则训练的模型，达到很好的效果，通常需要一个语言模型配合。而RNN-Transducer(RNN-T)准则对CTC准则进行了一个补充，通常来说，RNN-Transducer由一个编码器(EncoderNetwork)、解码器(DecoderNetwork)、和一个联合网络(JointNetwork)组成。但是据了解，业界主流的RNN-Transducer模型的编码器和解码器结构还是传统的RNN模型结构，由于传统RNN模型结构存在收敛速度慢、难以有效进行并行训练的问题，导致语音识别准确率不高，且效率较低。

总而言之，传统的自注意力机制模型、RNN-Transducer模型在计算复杂度和准确率上都有一定的局限性，导致语音识别效果较差且效率较低。

发明内容

有鉴于此，本申请提供了一种基于自注意力机制和记忆网络的语音识别方法及装置，主要解决目前在进行语音识别时，现有模型在计算复杂度和准确率上都有一定的局限性，导致语音识别效果较差且效率较低的问题。

根据本申请的一个方面，提供了一种基于自注意力机制和记忆网络的语音识别方法，该方法包括：

提取目标语音的语音序列特征以及文本序列特征；

依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构；

利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征，确定所述目标语音对应的目标文本标签。

根据本申请的另一个方面，提供了一种基于自注意力机制和记忆网络的语音识别装置，该装置包括：

提取模块，用于提取目标语音的语音序列特征以及文本序列特征；

更新模块，用于依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构；

确定模块，用于利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征，确定所述目标语音对应的目标文本标签。

根据本申请的又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述基于自注意力机制和记忆网络的语音识别方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于自注意力机制和记忆网络的语音识别方法。

借由上述技术方案，本申请提供的一种基于自注意力机制和记忆网络的语音识别方法、装置及计算机设备，与利用传统的RNN-Transducer语音识别模型进行语音识别的方式相比，本申请可在RNN-Transducer语音识别模型中引入自注意力机制和记忆网络LSTM，即利用自注意力机制和记忆网络重建RNN-Transducer语音识别模型的编码器结构和解码器结构。在提取出目标语音的语音序列特征以及文本序列特征后，进一步利用更新后的声学编码器模块计算得到语音序列特征对应的编码器隐变量，利用更新后的语言解码器模块计算得到文本序列特征对应的解码器隐变量，最后利用联合网络模块基于编码器隐变量和解码器隐变量确定得到目标语音对应的目标文本标签。在本申请中，通过在RNN-Transducer模型中添加自注意力机制，使得RNN-Transducer模型可以并行计算，故可加快语音识别模型的训练和推理速度，增大语音识别的准确率。同时，由于传统的加窗自注意力机制会失去模型对长时信息的建模能力，故本申请在RNN-Transducer模型中同时加入记忆网络LSTM，将历史的长时信息保留在记忆网络LSTM中，从而可进一步提高模型的建模能力和识别效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种基于自注意力机制和记忆网络的语音识别方法的流程示意图；

图2示出了本申请实施例提供的另一种基于自注意力机制和记忆网络的语音识别方法的流程示意图；

图3示出了本申请实施例提供的一种基于自注意力机制和记忆网络的语音识别模型的结构示意图；

图4示出了本申请实施例提供的一种基于自注意力机制和记忆网络的语音识别装置的结构示意图；

图5示出了本申请实施例提供的另一种基于自注意力机制和记忆网络的语音识别装置的结构示意图。

具体实施方式

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前在进行语音识别时，现有模型在计算复杂度和准确率上都有一定的局限性，导致语音识别效果较差且效率较低的问题，本申请实施例提供了一种基于自注意力机制和记忆网络的语音识别方法，如图1所示，该方法包括：

101、依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构。

在本申请中，通过将自注意力机制与RNN-Transducer模型相结合，即在RNN-Transducer模型的编码器和解码器结构中引入自注意力机制，利用自注意力机制使得RNN-Transducer模型可以并行计算，从而可加快模型的训练和推理速度，以及识别的准确率。同时，由于传统的加窗自注意力机制会失去模型对长时信息的建模能力，本申请还可在自注意力机制中加入记忆网络LSTM，将历史的长时信息保留在记忆网络LSTM中，从而方便利用历史的长时信息辅助进行当前时刻语音的文本标签识别，进一步提高模型的建模能力和识别效果。

对于本申请的执行主体可为用于实时确定目标语音对应文本标签的语音识别系统，在语音识别系统中配置有基于自注意力机制和记忆网络改进后的语音识别模型(RNN-Transducer模型)，利用RNN-Transducer模型中的声学编码器和语言解码器联合确定目标语音在当前时刻下的目标文本标签。

102、提取目标语音的语音序列特征以及文本序列特征。

其中，目标语音为实时接收到的由目标用户上传的语音数据，对应人工智能环境下实时采集到的自然语音信息，如对应对话机器人、在线教育、实时会议系统等场景下用户上传的语音数据。语音序列特征对应当前时刻下未进行语音编码解码处理的语音数据的声学特征集合。文本序列特征对应当前时刻下对用户语音数据已进行语音编码解码处理，得到的历史文本特征集合。由于语言解码器的解码过程是一个循环过程，t时刻输入语言解码器的是t-1时刻之前得到的文本标签。故在本申请中，为了获取得到当前时刻的文本标签预测结果，可首先提取当前时刻下所有未进行编解码处理的目标语音的声学特征，并进一步整合为语音序列特征，同时提取当前时刻之前针对目标语音已进行编解码处理的历史预测文本标签，并依据历史预测文本标签构建文本序列特征，以便后续基于语音序列特征和文本序列特征得到当前时刻下的文本标签预测结果。

相应的，在依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构后，可进一步得到包含新网络结构的声学编码器以及语言解码器。在具体的应用场景中，可利用声学编码器提取目标语音在当前时刻下的语音序列特征，利用语言解码器在记忆网络中提取目标语音在历史时刻下的文本序列特征。

103、利用更新后的RNN-Transducer模型基于语音序列特征和文本序列特征，确定目标语音对应的目标文本标签。

对于本实施例，在具体的应用场景中，在利用RNN-Transducer模型中包含新网络结构的声学编码器提取出语音序列特征后，还可进一步将语音序列特征转换为向量表示的编码器隐变量；在利用RNN-Transducer模型中包含新网络结构的语言解码器提取出文本序列特征后，还可进一步将文本序列特征转换为向量表示的解码器隐变量。在计算得到编码器隐变量和解码器隐变量后，可利用RNN-Transducer模型中的联合网络模块将编码器隐变量和解码器隐变量组合在一起，进一步确定得到目标语音对应目标文本标签的识别结果。

通过本实施例中基于自注意力机制和记忆网络的语音识别方法，与利用传统的RNN-Transducer语音识别模型进行语音识别的方式相比，本申请可在RNN-Transducer语音识别模型中引入自注意力机制和记忆网络LSTM，即利用自注意力机制和记忆网络重建RNN-Transducer语音识别模型的编码器结构和解码器结构。在提取出目标语音的语音序列特征以及文本序列特征后，进一步利用更新后的声学编码器模块计算得到语音序列特征对应的编码器隐变量，利用更新后的语言解码器模块计算得到文本序列特征对应的解码器隐变量，最后利用联合网络模块基于编码器隐变量和解码器隐变量确定得到目标语音对应的目标文本标签。在本申请中，通过在RNN-Transducer模型中添加自注意力机制，使得RNN-Transducer模型可以并行计算，故可加快语音识别模型的训练和推理速度，增大语音识别的准确率。同时，由于传统的加窗自注意力机制会失去模型对长时信息的建模能力，故本申请在RNN-Transducer模型中同时加入记忆网络LSTM，将历史的长时信息保留在记忆网络LSTM中，从而进一步提高模型的建模能力和识别效果。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种基于自注意力机制和记忆网络的语音识别方法，如图2所示，该方法包括：

201、依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构。

本申请在算法模型上，针对传统语音识别模型的局限性，利用自注意力机制以及记忆网络LSTM设计全新的RNN-Transducer架构，组成一个具备实际应用价值的实时语音识别模型，具体可参见图3所示的语音识别模型的结构示意图，模型由三个网络模块构成：一是声学编码器EncoderNetwork模块，二是语言解码器DecoderNetwork模块，三是联合网络JointNetwork模块。具体的，为了将自注意力机制和记忆网络LSTM更新至RNN-Transducer模型的编码器结构和解码器结构中，可进一步创建包含记忆自注意力模块和二维卷积模块的声学编码器，以及包含记忆自注意力模块和一维卷积模块的语言解码器，其中，在记忆自注意力模块中均包括包括加窗的自注意力机制网络和记忆网络LSTM。在进行语音识别时，可由声学编码器EncoderNetwork模块和语言解码器DecoderNetwork模块分别计算得到声学特征信息以及文字特征信息，通过将声学特征信息和文字特征信息输入联合网络JointNetwork模块，即可输出语音的文本预测结果。

202、提取目标语音的语音序列特征以及文本序列特征。

对于本实施例，在具体的应用场景中，在得到包含新网络结构的声学编码器以及语言解码器后，可利用声学编码器提取目标语音在当前时刻下的语音序列特征，利用语言解码器在记忆网络中提取目标语音在历史时刻下的文本序列特征。相应的，实施例步骤202具体可以包括：对当前时刻未解码的目标语音进行加窗分帧处理，并提取每帧目标语音的语音特征；基于帧序号将语音特征整合为目标语音的语音序列特征；提取当前时刻解码完成的目标语音的文本序列特征。

其中，为了消除因为人类发声器官缺陷和采集设备缺陷带来的混叠、高次谐波失真等因素对语音信号质量的影响，在获取到目标语音后，可对目标语音进行数据预处理，具体可包括预加重，分帧，加窗等操作。在具体的应用场景中，由于语音信号在一个短时间范围内其特性基本保持不变，即语音信号具有短时平稳性，所以在对目标语音进行分析时应建立在“短时”的基础上，将目标语音分成一段一段来分析其特征，其中每一段成为一“帧”。由于帧太大不能得到语音信号随时间变化的特性，帧太小不能提取出语音信号的特征，故可将每帧切分为20-30ms大小，在对目标语音进行加窗分帧处理后，可得到每帧目标语音对应语音特征的一个矢量。语音序列特征可通过组帧获取得到，即基于帧序号整合各帧下的语音特征矢量，帧序号大小表示每帧对应语音的时间先后。

对于本实施例，通过将语音识别任务看作是一个序列到序列的问题。具体来说，首先逐帧计算目标语音中的语音特征，最后可基于每帧对应的帧序号对语音特征进行整合，进一步得到目标语音的语音序列特征，表示为：

X_t＝[x₀,…,x_T]

其中，T为语音序列的总帧数，x_t表示为第t帧所包含的语音特征。

相应的，可利用在记忆网络中提取目标文本在历史时刻已经解码完成的文本特征，进一步进行整合，可得到目标语音对应的文本序列特征，表示为：

Y_u＝[x₀,…,y_U]

其中，U为语音对应文本的总长度，y_u表示为第u个文本特征。

203、利用声学编码器将语音序列特征转换为编码器隐变量。

对于改进后的RNN-Transducer模型，声学编码器会首先将从头开始的语音序列特征x_1:作为输入特征，并在每一帧计算出一个编码器隐变量。声学编码器的作用是对目标语音的声学特征进行提取，然后转换为语音特征的向量表示，也就是说将当前时刻t看到的所有语音信号x_1:t输入到编码器网络，产生时刻t的语音特征的向量表示，即编码器隐变量e_t：

e_t＝EncoderNetwork(x_1:t)

如图3所示，声学编码器对应的声学编码器网络由2个部分组成：(1)2-D卷积模块，(2)记忆自注意力模块。2-D卷积模块是从时域和频域两个维度来对声学特征进行特征卷积，卷积的设计能够克服声学信号在两个域维度上的变化性。而记忆自注意力模块，是由加窗的自注意力机制网络，和记忆网络LSTM共同组成。相应的，为了依据声学编码器计算得到语音序列特征对应的编码器隐变量，实施例步骤203具体可以包括：将语音序列特征输入声学编码器中的二维卷积模块，获取第一卷积特征；依据第一卷积特征以及声学编码器中自注意力机制网络的加窗窗长确定原始声学特征，并根据原始声学特征计算自注意力机制表示；利用声学编码器中的记忆网络LSTM以及原始声学特征确定隐藏层状态表示；根据原始声学特征、自注意力机制表示以及隐藏层状态表示计算权重归一化结果；依据权重归一化结果在FFN前馈网络中计算编码器隐变量。

对应的公式描述为：

s_t＝[X′_t-l:X′_t+r]

m_t＝MultiHeadAttention(s_t)

h_t＝LSTM(h_t-1:s_t)

f_t＝LayerNorm(m_t+h_t+s_t)

e_t＝LayerNorm(FFN(f_t)+f_t)

其中，X′_t为将语音序列特征输入二维卷积模块后，获取得到的第一卷积特征，l和r分别表示加窗的自注意力机制网络左边的窗长和右边的窗长。MultiHeadAttention为多头自注意力机制网络，通过该网络可以产生原始语音的自注意力机制表示m_t。LSTM为长短时记忆网络，h_t为记忆网络的隐藏层状态表示，加上原始声学特征s_t，和自注意力机制表示m_t，三者共同组成信号特征，传递到LayerNorm层权重归一化网络，以及FFN前馈网络。LayerNorm层的作用是对特征信号进行归一化，提高网络训练时的收敛速度和稳定性。FFN层的作用是让特征信号再经过若干层网络，对特征信号进行再融合后，最终输出编码器隐变量e_t。

204、利用语言解码器将文本序列特征转换为解码器隐变量。

对于改进后的RNN-Transducer模型，语言解码器会把当前所有的文本序列y_1:u-1循环地输入到网络中，得到解码器隐变量。语言解码器的作用是将之前已经解码的文字y_t,u-1作为输入，转换成为文字的特征信息d_u：

d_u＝DecoderNetwork(y_t,u-1)

如图3所示，语言解码器对应的语言解码器网络结构和声学编码器网络结构相似，不同之处在于：解码器网络使用的是1-D卷积模块，只在时间维度对语言特征进行卷积。与声学编码器网络结构相同之处在于：在语言解码器网络中，还包括记忆自注意力模块，记忆自注意力模块，同样是由加窗的自注意力机制网络，和LSTM记忆网络共同组成。然而，由于声学特征的刻画难度要远远大于文本特征，因此记忆自注意力模块的网络层数要少于声学编码器模块。相应的，为了依据语言解码器计算得到文本序列特征对应的解码器隐变量，实施例步骤204具体可以包括：将文本序列特征输入语言解码器中的一维卷积模块，获取第二卷积特征；依据第二卷积特征以及语言解码器中自注意力机制网络的加窗窗长确定原始文本特征，并根据原始文本特征计算自注意力机制表示；利用语言解码器中的记忆网络LSTM以及原始文本特征确定隐藏层状态表示；根据原始文本特征、自注意力机制表示以及隐藏层状态表示计算权重归一化结果；依据权重归一化结果在FFN前馈网络中计算解码器隐变量。

对应的公式描述为：

s_u＝[Y′_u-l:Y′_u+r]

m_u＝MultiHeadA ttention(s_u)

h_u＝LSTM(h_u-1:s_u)

f_u＝LayerNorm(m_u+h_u+s_u)

d_u＝LayerNorm(FFN(f_u)+f_u)

其中，Y_u′为将文本序列特征输入一维卷积模块后，获取得到的第二卷积特征，l和r分别表示加窗的自注意力机制网络左边的窗长和右边的窗长。MultiHeadAttention为多头自注意力机制网络，通过该网络可以产生原始文本的自注意力机制表示m_u。LSTM为长短时记忆网络，h_u为记忆网络的隐藏层状态表示，加上原始文本特征s_u，和自注意力机制表示m_u，三者共同组成信号特征，传递到LayerNorm层权重归一化网络，以及FFN前馈网络。LayerNorm层的作用是对特征信号进行归一化，提高网络训练时的收敛速度和稳定性。FFN层的作用是让特征信号再经过若干层网络，对特征信号进行再融合后，最终输出语言解码器的特征表示(解码器隐变量)d_u。

205、基于编码器隐变量和解码器隐变量确定目标语音对应的目标文本标签。

对于RNN-Transducer模型，在包含声学编码器网络以及语言解码器网络之外，还包括联合网络，联合网络的作用就是将语言模型和声学模型的状态通过某种思路结合在一起，可以是拼接操作，也可以是直接相加等，考虑到语言模型和声学模型可能有不同的权重问题，在本申请中，优选拼接的方式进行特征融合。如图3所示，RNN-Transducer的联合网络由联合层、线性层、激活层、和映射层组成。对于本实施例，在具体的应用场景中，可在联合网络通过拼接将编码器隐变量和解码器隐变量组合在一起，得到语音和文本的融合特征，进一步可通过线性层、激活层、和映射层确定出与融合特征匹配的文本标签。相应的，在基于编码器隐变量和解码器隐变量确定目标语音对应的目标文本标签时，具体可包括：基于RNN-Transducer模型中的联合网络将编码器隐变量和解码器隐变量拼接得到融合特征；确定与融合特征匹配的目标文本标签。

其中，在确定与融合特征匹配的目标文本标签时，可利用联合网络直接输出一个文本标签，作为融合特征对应文本标签的匹配结果。此外，还可针对一个融合特征生成预设数量个文本标签，每个文本标签配置有不同的预测概率，预测概率与文本标签的准确度成正比，文本标签对应的预测概率越高，表示该文本标签的识别准确率越高。进而可筛选出预测概率最高的文本标签，将其确定为目标语音对应的目标文本标签。

206、输出目标文本标签。

借由上述基于自注意力机制和记忆网络的语音识别方法，本申请提出在RNN-Transducer模型中引入自注意力机制和记忆网络LSTM，即利用自注意力机制和记忆网络重建RNN-Transducer语音识别模型的编码器结构和解码器结构。在提取出目标语音的语音序列特征以及文本序列特征后，进一步利用更新后的声学编码器模块计算得到语音序列特征对应的编码器隐变量，利用更新后的语言解码器模块计算得到文本序列特征对应的解码器隐变量，最后利用联合网络模块基于编码器隐变量和解码器隐变量确定得到目标语音对应的目标文本标签。在本申请中，通过在RNN-Transducer模型中添加自注意力机制，使得RNN-Transducer模型可以并行计算，故可提高模型的训练和推理速度，从而提高模型的识别准确率。同时，由于传统的加窗自注意力机制会失去模型对长时信息的建模能力，故本申请在RNN-Transducer模型中同时加入记忆网络LSTM，将历史的长时信息保留在记忆网络LSTM中，从而进一步提高模型的建模能力和识别精准度。

进一步的，作为图1和图2所示方法的具体实现，本申请实施例提供了一种基于自注意力机制和记忆网络的语音识别装置，如图4所示，该装置包括：更新模块31、提取模块32、确定模块33；

更新模块31，可用于依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构；

提取模块32，可用于提取目标语音的语音序列特征以及文本序列特征；

确定模块33，可用于利用更新后的RNN-Transducer模型基于语音序列特征和文本序列特征，确定目标语音对应的目标文本标签。

在具体的应用场景中，为了得到语音识别效果更强的语音识别模型，如图5所示，更新模块31，具体可包括：构建单元311、更新单元312；

构建单元311，用于构建包含记忆自注意力模块和二维卷积模块的声学编码器，以及包含记忆自注意力模块和一维卷积模块的语言解码器，记忆自注意力模块包括加窗的自注意力机制网络和记忆网络LSTM；

更新单元312，用于将声学编码器和语言解码器更新至RNN-Transducer模型中。

相应的，为了提取出目标语音的语音序列特征以及文本序列特征，如图5所示，提取模块32，具体可包括：第一提取单元321、整合单元322、第二提取单元323；

第一提取单元321，可用于对当前时刻未解码的目标语音进行加窗分帧处理，并提取每帧目标语音的语音特征；

整合单元322，可用于基于帧序号将语音特征整合为目标语音的语音序列特征；

第二提取单元323，可用于提取当前时刻解码完成的目标语音的文本序列特征。

在具体的应用场景中，为了确定得到目标语音对应的目标文本标签，如图5所示，确定模块33，具体可包括：转换单元331、确定单元332；

转换单元331，用于利用声学编码器将语音序列特征转换为编码器隐变量，以及利用语言解码器将文本序列特征转换为解码器隐变量；

确定单元332，用于基于编码器隐变量和解码器隐变量确定目标语音对应的目标文本标签。

相应的，为了利用声学编码器将语音序列特征转换为编码器隐变量，转换单元331，具体可用于将语音序列特征输入声学编码器中的二维卷积模块，获取第一卷积特征；依据第一卷积特征以及声学编码器中自注意力机制网络的加窗窗长确定原始声学特征，并根据原始声学特征计算自注意力机制表示；利用声学编码器中的记忆网络LSTM以及原始声学特征确定隐藏层状态表示；根据原始声学特征、自注意力机制表示以及隐藏层状态表示计算权重归一化结果；依据权重归一化结果在FFN前馈网络中计算编码器隐变量。

相应的，为了利用语言解码器将文本序列特征转换为解码器隐变量，转换单元331，具体可用于将文本序列特征输入语言解码器中的一维卷积模块，获取第二卷积特征；依据第二卷积特征以及语言解码器中自注意力机制网络的加窗窗长确定原始文本特征，并根据原始文本特征计算自注意力机制表示；利用语言解码器中的记忆网络LSTM以及原始文本特征确定隐藏层状态表示；根据原始文本特征、自注意力机制表示以及隐藏层状态表示计算权重归一化结果；依据权重归一化结果在FFN前馈网络中计算解码器隐变量。

在具体的应用场景中，为了基于编码器隐变量和解码器隐变量确定得到目标语音对应的目标文本标签，确定单元332，具体可用于基于RNN-Transducer模型中的联合网络将编码器隐变量和解码器隐变量拼接得到融合特征；确定与融合特征匹配的目标文本标签。

相应的，在确定与融合特征匹配的目标文本标签时，确定单元332，具体可用于生成预设数量个与融合特征匹配的文本标签；将预测概率最高的文本标签确定为目标文本标签。

在具体的应用场景中，如图5所示，本装置还包括：输出模块34；

输出模块34，可用于输出目标文本标签。

需要说明的是，本实施例提供的一种基于自注意力机制和记忆网络的语音识别装置所涉及各功能单元的其他相应描述，可以参考图1至图2的对应描述，在此不再赘述。

基于上述如图1至图2所示方法，相应的，本实施例还提供了一种非易失性存储介质，其上存储有计算机可读指令，该可读指令被处理器执行时实现上述如图1至图2所示的基于自注意力机制和记忆网络的语音识别方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1至图2所示的方法和图4、图5所示的虚拟装置实施例，为了实现上述目的，本实施例还提供了一种计算机设备，该计算机设备包括存储介质和处理器；非易失性存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1至图2所示的基于自注意力机制和记忆网络的语音识别方法。

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，与目前现有技术相比，本申请提出在RNN-Transducer模型中引入自注意力机制和记忆网络LSTM，即利用自注意力机制和记忆网络重建RNN-Transducer语音识别模型的编码器结构和解码器结构。在提取出目标语音的语音序列特征以及文本序列特征后，进一步利用更新后的声学编码器模块计算得到语音序列特征对应的编码器隐变量，利用更新后的语言解码器模块计算得到文本序列特征对应的解码器隐变量，最后利用联合网络模块基于编码器隐变量和解码器隐变量确定得到目标语音对应的目标文本标签。在本申请中，通过在RNN-Transducer模型中添加自注意力机制，使得RNN-Transducer模型可以并行计算，故可提高模型的训练和推理速度，从而提高模型的识别准确率。同时，由于传统的加窗自注意力机制会失去模型对长时信息的建模能力，故本申请在RNN-Transducer模型中同时加入记忆网络LSTM，将历史的长时信息保留在记忆网络LSTM中，从而进一步提高模型的建模能力和识别精准度。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于自注意力机制和记忆网络的语音识别方法，其特征在于，包括：

提取目标语音的语音序列特征以及文本序列特征；

2.根据权利要求1所述的方法，其特征在于，所述依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构，具体包括：

构建包含记忆自注意力模块和二维卷积模块的声学编码器，以及包含所述记忆自注意力模块和一维卷积模块的语言解码器，所述记忆自注意力模块包括加窗的自注意力机制网络和记忆网络LSTM；

将所述声学编码器和所述语言解码器更新至RNN-Transducer模型中。

3.根据权利要求1所述的方法，其特征在于，所述提取目标语音的语音序列特征以及文本序列特征，具体包括：

对当前时刻未解码的目标语音进行加窗分帧处理，并提取每帧目标语音的语音特征；

基于帧序号将所述语音特征整合为所述目标语音的语音序列特征；

提取当前时刻解码完成的目标语音的文本序列特征。

4.根据权利要求2所述的方法，其特征在于，所述利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征，确定所述目标语音对应的目标文本标签，具体包括：

利用所述声学编码器将所述语音序列特征转换为编码器隐变量，以及利用所述语言解码器将所述文本序列特征转换为解码器隐变量；

基于所述编码器隐变量和所述解码器隐变量确定所述目标语音对应的目标文本标签。

5.根据权利要求4所述的方法，其特征在于，所述利用所述声学编码器将所述语音序列特征转换为编码器隐变量，具体包括：

将所述语音序列特征输入所述声学编码器中的所述二维卷积模块，获取第一卷积特征；

依据所述第一卷积特征以及所述声学编码器中所述自注意力机制网络的加窗窗长确定原始声学特征，并根据所述原始声学特征计算自注意力机制表示；

利用所述声学编码器中的所述记忆网络LSTM以及所述原始声学特征确定隐藏层状态表示；

根据所述原始声学特征、所述自注意力机制表示以及所述隐藏层状态表示计算权重归一化结果；

依据所述权重归一化结果在FFN前馈网络中计算编码器隐变量。

6.根据权利要求4所述的方法，其特征在于，所述利用所述语言解码器将所述文本序列特征转换为解码器隐变量，具体包括：

将所述文本序列特征输入所述语言解码器中的所述一维卷积模块，获取第二卷积特征；

依据所述第二卷积特征以及所述语言解码器中所述自注意力机制网络的加窗窗长确定原始文本特征，并根据所述原始文本特征计算自注意力机制表示；

利用所述语言解码器中的所述记忆网络LSTM以及所述原始文本特征确定隐藏层状态表示；

根据所述原始文本特征、所述自注意力机制表示以及所述隐藏层状态表示计算权重归一化结果；

依据所述权重归一化结果在FFN前馈网络中计算解码器隐变量。

7.根据权利要求4所述的方法，其特征在于，所述基于所述编码器隐变量和所述解码器隐变量确定所述目标语音对应的目标文本标签，具体包括：

基于所述RNN-Transducer模型中的联合网络将所述编码器隐变量和所述解码器隐变量拼接得到融合特征；

确定与所述融合特征匹配的目标文本标签；

所述确定与所述融合特征匹配的目标文本标签，具体包括：

生成预设数量个与所述融合特征匹配的文本标签；

将预测概率最高的文本标签确定为目标文本标签；

在所述确定与所述融合特征匹配的目标文本标签之后，具体还包括：

输出所述目标文本标签。

8.一种基于自注意力机制和记忆网络的语音识别装置，其特征在于，包括：

9.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的基于自注意力机制的语音识别方法。

10.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于自注意力机制的语音识别方法。