CN111179918B

CN111179918B - 联结主义时间分类和截断式注意力联合在线语音识别技术

Info

Publication number: CN111179918B
Application number: CN202010106791.1A
Authority: CN
Inventors: 张鹏远; 缪浩然; 程高峰; 颜永红
Original assignee: Zhongkexinli Guangzhou Technology Co ltd; Institute of Acoustics CAS
Current assignee: Zhongkexinli Guangzhou Technology Co ltd; Institute of Acoustics CAS
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2022-10-14
Anticipated expiration: 2040-02-20
Also published as: CN111179918A

Abstract

本发明实施例提供了一种联结主义时间分类和截断式注意力联合在线语音识别技术。构建了基于编码器、解码器、截断式注意力和联结主义时间分类器的语音识别神经网络模型，采用交叉熵准则和联结主义时间分类准则训练该神经网络模型；将语音流输入解码器，将存留的汉字序列输入编码器，利用截断式注意力机制截取有效的语音片段；根据截取的语音片段，对每条存留的汉字序列预测多个汉字，并于之构成一个新的汉字序列，并评分；联结主义时间分类器将解码拓展的多组汉字序列和已接收的语音对齐，并评分；对两种评分取平均，对各汉字序列进行剪枝；当满足终止条件时输出识别结果。该方法很大程度提升在线语音识别的性能。

Description

联结主义时间分类和截断式注意力联合在线语音识别技术

技术领域

本发明涉及语音识别领域，尤其涉及一种联结主义时间分类和截断式注意力联合在线语音识别技术。

背景技术

端对端语音识别技术简化了传统的语音识别技术，直接实现语音特征序列转换为汉字序列。目前主流的端对端语音识别模型采用编码器、解码器和注意力机制的结构组成统一的神经网络模型，使用交叉熵准则训练模型。通常基于注意力机制的端对端语音识别模型依赖完整的语音，不适合实时地将语音特征转换为汉字序列。同时，使用交叉熵训练的模型，在解码阶段识别性能较差。

发明内容

本发明的目的旨在克服现有的基于编码器、解码器和注意力机制的结构的端对端语音识别模型不能应用于实时转写在线任务的问题，通过发明截断式注意力机制实时地截断输入的语音流，使得端对端语音识别模型在语音输入的同时输出汉字序列。同时采用联结主义时间分类准则和交叉熵准则联合训练，解决解码阶段识别性能差的问题。

本发明为解决上述技术问题采用的技术方案为，一方面提供一种端对端语音在线语音识别方法，所述方法基于神经网络模型，所述神经网络模型包括编码器、解码器、注意力截断网络、联结主义时间分类器，所述方法包括：

获取待解码的语音流，提取所述语音流的声学特征流；

编码器根据所述声学特征流，得到编码特征流；

获取留存的汉字序列；将所述留存的汉字序列输入解码器，解码器生成状态序列；

根据所述状态序列，以及编码特征流，所述注意力截断网络截取有效的编码特征；

根据所述有效的编码特征，解码器给出多个所述留存的汉字序列的后续一位预测汉字，每个所述预测汉字和留存的汉字序列构成一个新汉字序列，解码器根据所述新汉字序列，得到第一预测评分；

对齐所述新汉字序列和所述编码特征流，所述联结主义时间分类器根据联结主义时间分类准则对对齐后的新汉字序列进行估算，得到第二预测评分；

根据第一预测评分和第二预测评分，得到综合预测评分，根据所述综合预测评分，保留综合预测评分最高的若干所述新汉字序列；

判断所述新汉字序列是否包含终止符，

若不包含，

将其变为留存汉字序列，输入解码器，继续后续汉字的预测；

若包含，

以所述综合预测评分最高的所述新汉字序列做作为识别结果，并输出。

优选地，所述对齐所述新汉字序列和所述语音包括，使用维特比算法所述对齐所述新汉字序列和所述语音。

优选地，所述获取待解码的语音流，提取所述语音流的声学特征流；编码器根据所述声学特征流，得到编码特征流；获取留存的汉字序列；根据所述留存的汉字序列，以及编码特征流，解码器截取有效的语音片段；包括：

将待解码的语音流对应的声学特征序列X＝[x₁，x₂，...x_t]输入编码器，实时地输出新的特征序列H＝[h₁，h₂，...，h_t]；

同时将存留的汉字序列Y＝[sos，y₁，...，y_i-1]输入解码器，解码器在依次处理存留的汉字序列中的每一个汉字后产生的最终状态s_i-1，根据最终状态s_i-1，从上一次截断点τ_i-1开始依次向后计算H中每帧h_j的截断概率,即j＝τ_i-1，τ_i-1+1，...，

当概率第一次大于0.5时停止计算，并将当前j的值作为新的截断点τ_i；

若在输入的语音流中未能找到满足条件的截断点，则等待新的语音流输入，直至找到满足条件的截断点；

对于解码的初始状态，存留的汉字序列为Y_init＝[sos],语音的截断点为τ₀＝1。

具体地，根据所述截断点τ_i，注意力截断网络计算出截断点之前每帧语音对应的权重，即j＝1，...，τ_i，

并对前τ_i个特征序列

根据上述权重加权求和，并与解码器内部产生的状态s_i-1一同输入解码器,解码器在预测下一个汉字时,对每一个汉字输出一个概率，选择概率最大的前M个汉字作为解码器预测的M种结果，M为自然数，每个汉字y_i都与存留的汉字序列Y＝[sos，y₁，...，y_i-1]构成一个新的汉字序列Y＝[sos，y₁，...，y_i-1，y_i]，新的汉字序列的分数是存留汉字序列的分数加上当前预测汉字的概率之对数值，初始的汉字序列Y_init＝[sos]分数为零。

进一步具体地，根据每一个新的汉字序列Y＝[sos，y₁，...，y_i-1，y_i]，联结主义时间分类器对已经计算得到的特征序列H＝[h₁，h₂，...，h_t]中的每一特征，计算每一个汉字的概率p(y_k|h_j)；

采用维特比算法将汉字序列Y和特征序列H对齐，若对齐过程中需要更多的特征序列，则等待新的语音流输入，直到完成对齐；

对齐结束后，采用联结主义时间分类准则计算特征序列H对应的汉字序列的分数。

另一方面，提供一种端对端语音在线语音识别神经网络模型的训练方法，所述神经网络模型包括编码器、解码器、注意力截断网络、联结主义时间分类器，所述方法包括：

获取有汉字标签的音频文件，提取所述音频文件的声学特征序列；

编码器根据所述声学特征序列，得到编码特征序列；

将所述汉字标签的汉字序列，输入解码器，解码器据以生成状态序列；

根据编码特征序列、所述状态序列，注意力截断网络生成注意力特征；

根据所述汉字序列、所述注意力特征，以及所述汉字序列中一个汉字的一个后续汉字，计算后续汉字的损失；

依次计算汉字序列中每个汉字的后续汉字损失，并累积所述汉字序列中每个汉字的后续汉字损失，作为第一预测损失；

根据编码特征序列，联结主义时间分类器直接根据所述汉字序列计算联结主义时间分类准则损失函数，作为第二预测损失；

结合所述第一预测损失和所述第二预测损失，更新所述编码器、解码器。

优选地，所述编码器由多层单向长短期记忆网络堆叠组成，可以将语音对应的T帧声学特征序列X＝[x₁，...，x_T]经过非线性变换后得到新的特征序列H＝[h₁，...，h_T]；

所述解码器由多层单向长短期记忆网络堆叠组成，将汉字序列Y_in＝[y₀，y₁，...，y_n]输入解码器,其中y₀＝sos，表示起始符；

解码器依次处理所述汉字序列中每一个汉字，最终给出汉字序列Y_out＝[y₁，...，y_n，eos]中每个汉字的概率，其中eos代表终止符；包括：

所述解码器将依次处理每一个汉字，包括，当解码器计算完第i-1个汉字的概率后，解码器将内部产生的状态s_i-1输入注意力截断网络，注意力截断网络将计算在第j帧截断语音的概率：

其中W_h和W_s是参数矩阵，b和v是参数向量，g和r是参数标量，根据截断语音的概率进一步计算特征序列H中第j帧的权重：

然后将特征序列H根据上述权重加权求和，并与s_i一同输入解码器，由解码器计算输出第i个汉字的概率p(y_i|Y_0：i-1)。

具体地，根据所述汉字标签的汉字序列Y_out＝[y₁，...，y_n，eos]和解码器的输出概率

计算对应的交叉熵:

然后根据特征序列H和汉字序列Y，由前向-后向算法计算联结主义时间分类准则对应的损失函数L_ctc，采用误差反向传播算法最小化损失函数

L＝0.5L_CE+0.5L_ctc

根据所述损失函数，更新所述神经网络模型。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种端对端语音在线语音识别方法的流程图；

图2为本发明实施例提供的一种端对端语音在线语音识别神经网络模型的训练方法的流程图；

图3为本发明实施例提供的一种端对端语音在线语音识别神经网络模型的训练方法的一种实施方案图；

图4为本发明实施例提供的一种端对端语音在线语音识别方法的一种实施方案图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种端对端语音在线语音识别方法的流程图，如图1所示，所述方法基于以一种神经网络模型，所述神经网络模型由训练所得，并包括编码器、解码器、注意力截断网络、联结主义时间分类器，该方法包括如下步骤：

步骤S101,获取待解码的语音流，提取所述语音流的声学特征流；

在一个实施例中，所述待解码的语音流，为实时接收的语音流，如图3中所示。

步骤S102,编码器根据所述声学特征流，得到编码特征流；

步骤S103,获取留存的汉字序列；将所述留存的汉字序列输入解码器，解码器生成状态序列；

步骤S104,根据所述状态序列，以及编码特征流，所述注意力截断网络截取有效的编码特征；

在一个实施例中，将待解码的语音流对应的声学特征序列X＝[x₁，x₂，...x_t]输入解码器，实时地输出新的特征序列H＝[h₁，h₂，...，h_t]；同时将存留的汉字序列Y＝[sos，y₁，...，y_i-1]输入解码器，解码器在依次处理存留的汉字序列中的每一个汉字后，将内部产生的最终状态s_i-1输入截断式注意力机制，截断式注意力机制从上一次截断点τ_i-1开始依次向后计算每帧h_j的截断概率,即j＝τ_i-1，τ_i-1+1，...，

直至在概率第一次大于0.5时停止计算，并将当前j的值作为新的截断点τ_i，若在输入的语音流中未能找到满足条件的截断点，则等待新的语音流输入，直至找到满足条件的截断点，对于解码的初始状态，存留的汉字序列为Y_init＝[sos],语音的截断点为τ₀＝1。

步骤S105,根据所述有效的编码特征，解码器给出多个所述留存的汉字序列的后续一位预测汉字，每个所述预测汉字和留存的汉字序列构成一个新汉字序列，解码器根据所述新汉字序列，得到第一预测评分；

在一个实施例中，注意力截断网络(根据截断式注意力机制)计算出截断点之前每帧语音对应的权重，即j＝1，...，τ_i，

并对前τ_i个特征序列

根据上述权重加权求和，并与解码器内部产生的状态s_i-1一同输入解码器,解码器在预测下一个汉字时,对词汇表内的每一个汉字输出一个概率，选择概率最大的前M个汉字作为解码器预测的M种结果，每个汉字y_i都与存留的汉字序列Y＝[sos，y₁，...，y_i-1]构成一个新的汉字序列Y＝[sos，y₁，...，y_i-1，y_i]，新的汉字序列的分数(第一预测评分)是存留汉字序列的分数加上当前预测汉字的概率之对数值，初始的汉字序列Y_init＝[sos]分数为零。

步骤S106,对齐所述新汉字序列和所述编码特征流，所述联结主义时间分类器根据联结主义时间分类准则对对齐后的新汉字序列进行估算，得到第二预测评分；

在一个实施例中，联结主义时间分类器对已经计算得到的特征序列H＝[h₁，h₂，...，h_t]中的每一特征，计算汇表内的每一个汉字的概率p(y_k|h_j)，然后采用维特比算法将汉字序列Y和特征序列H对齐，若对齐过程中需要更多的特征序列，则等待新的语音流输入，直到完成对齐，对齐结束后，采用联结主义时间分类准则计算特征序列H对应汉字序列的分数(第二预测评分)。

步骤S107,根据第一预测评分和第二预测评分，得到综合预测评分，根据所述综合预测评分，保留综合预测评分最高的若干所述新汉字序列；

在一个实施例中，对每一个新的汉字序列，将前述基于截断式注意力机制的解码器所计算的分数和基于联结主义时间分类准则所计算的分数取平均，作为该的汉字序列的分数(综合预测评分)，然后对步骤S105中输出的多组汉字序列进行剪枝，挑选分数最高的前N个汉字序列，作为新的一组存留序列。

步骤S108,判断所述新汉字序列是否包含终止符，

若不包含，

将其变为留存汉字序列，输入解码器，即回到步骤S103,继续后续汉字的预测；

若包含，

步骤S109，以所述综合预测评分最高的所述新汉字序列做作为识别结果，并输出。

在一个实施例中，如果所有存留序列的最后一个字符均为终止符eos，或者联结主义时序分类器所对齐的语音片段已经到达了语音终点，则收集,该汉字序列，其余存留的汉字序列作为解码器的输入被继续拓展，重复步骤S103至步骤S108，且若所有的存留序列都被收集，测终止解码器。在另又一个实施例中，在收集的汉字序列中选取分数最高(综合预测评分)的汉字序列作为最终的识别结果。

根据本发明的核心思想，上述步骤可以进一步进行细化，如图4示出本发明实施例提供的一种端对端语音在线语音识别方法的一种实施方案图，凡在本发明的核心精神之内，均应属于本发明的保护范围之内。

图2为本发明一个实施例提供的一种端对端语音在线语音识别神经网络模型的训练方法的流程图，该神经网络模型包括编码器、解码器、注意力截断网络、联结主义时间分类器，如图2所示，所述训练方法包括如下步骤：

步骤S201，获取有汉字标签的音频文件，提取所述音频文件的声学特征序列；

在一个实施例中，提取的声学特征流为梅尔频率倒谱系数(MFCC)升学特征流，入图3所示。

步骤S202，编码器根据所述声学特征序列，得到编码特征序列；

步骤S203，将所述汉字标签的汉字序列，输入解码器，解码器据以生成状态序列；

步骤S204，根据编码特征序列、所述状态序列，注意力截断网络生成注意力特征；

步骤S205，根据所述汉字序列、所述注意力特征，以及所述汉字序列中一个汉字的一个后续汉字，计算后续汉字的损失；

步骤S206，重复步骤S203-205,依次计算汉字序列中每个汉字的后续汉字损失，并累积所述汉字序列中每个汉字的后续汉字损失，作为第一预测损失

步骤S207，根据编码特征序列，联结主义时间分类器直接根据所述汉字序列计算联结主义时间分类准则损失函数，作为第二预测损失；

步骤S208，结合所述第一预测损失和所述第二预测损失，更新所述编码器、解码器、注意力截断网络、联结主义时间分类器。

在一个实施例中，所述神经网络模型在训练之前构建，其中，编码器由多层单向长短期记忆网络堆叠组成，可以将语音对应的T帧声学特征序列X＝[x₁，...，x_T]经过非线性变换后得到新的特征序列H＝[h₁，...，h_T]；

在另一个实施例中，进行第一预测汉字为给出汉字序列中每个汉字概率，具体包括，解码器由多层单向长短期记忆网络堆叠组成，将汉字序列Y_in＝[y₀，y₁，...，y_n]输入解码器,其中y₀＝sos，表示起始符。解码器将依次处理每一个汉字，最终给出汉字序列Y_out＝[y₁，...，y_n，eos]中每个汉字的概率，其中eos代表终止符；在解码器处理的过程中，当解码器计算完第i-1个汉字的概率后，解码器将内部产生的状态s_i-1输入注意力截断网络，根据截断式注意力机制将计算在第j帧截断语音的概率：

在另一个实施例中，确定第一预测损失具体为，根据正确标签(汉字序列)Y_out＝[y₁，...，y_n，eos]和解码器的输出概率

计算对应的交叉熵:

确定第二预测损失具体为，然后根据特征序列H和正确标签Y，由前向-后向算法计算联结主义时间分类准则对应的损失函数L_ctc，采用误差反向传播算法最小化损失函数

L＝0.5L_CE+0.5L_ctc。

根据本发明的核心思想，上述步骤可以进一步进行细化，如图3示出本发明实施例提供的一种端对端语音在线语音识别神经网络模型的训练方法的一种实施方案图，凡在本发明的核心精神之内，均应属于本发明的保护范围之内。

从以上实施例可以看出，采用本发明实施例提供的一种截断式注意力机制，让端对端语音识别系统在解码的过程中可以截取语音流，同时输出汉字序列，达到在线解码的目的。同时通过引入联结主义时间分类准则，采用联合训练和解码的方式，提升了端对端语音识别系统的性能。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。