CN111931736B

CN111931736B - 利用非自回归模型与整合放电技术的唇语识别方法、系统

Info

Publication number: CN111931736B
Application number: CN202011030959.1A
Authority: CN
Inventors: 赵洲; 童鑫远; 肖俊; 吴飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-19
Anticipated expiration: 2040-09-27
Also published as: CN111931736A

Abstract

本发明公开了一种利用非自回归模型与整合放电技术的唇语识别方法、系统，属于唇语识别领域。主要包括如下步骤：1）获取唇语识别训练样本集；2）建立非自回归神经网络模型，包括特征提取网络、编码网络、解码网络和整合放电模块，并在训练过程中引入两个辅助解码器。3）采集要预测语言的唇语视频并处理为连续的唇形图像数据，由训练好的模型生成唇语识别结果。本发明采用整合放电技术模拟源视频帧与输出文本序列之间的对应关系，采用辅助连接时序分类解码器及辅助自回归解码器强化编码器的图像特征表示能力，采用噪声并行解码技术与字节对编码技术减轻唇语识别固有的歧义性问题，实现了良好的并行性，有效提升了唇语识别的性能。

Description

利用非自回归模型与整合放电技术的唇语识别方法、系统

技术领域

本发明涉及唇语识别，尤其涉及一种利用非自回归模型与整合放电技术的唇语识别方法、系统。

背景技术

唇语识别是计算机视觉领域中的一个难点，也是语音识别领域一个重要的发展方向，其目标是针对于给定的包含发言者嘴型的一段视频或者一组连续的图片，预测发言者正在说的话。

近年来唇语识别技术的准确度有了明显的提高。但是，现有的唇语识别技术主要建立在自回归模型的基础上，在识别过程中需要逐一生成目标词条，具有较高的推测延迟。而现有的非自回归模型面临着如下的一系列挑战。

（1）输入视频帧和目标文本词条之间的序列长度存在很大差异，因此在推断阶段很难估计输出序列的长度或定义正确的解码器输入。

（2）真实的目标序列分布在整个时间上显示出很强的相关性，但是非自回归模型通常会在条件上彼此独立地生成目标标记，因而会产生重复的单词。

（3）模型缺乏有效的对齐机制，因此若仅训练原始非自回归模型，编码器的特征表示能力很弱，更难以解决唇语识别中固有的歧义问题。

综上，现有的基于非自回归模型的唇语识别技术还不能有效地解决上述问题，导致了在文本复杂的情况下性能有限，难以满足高要求场景下的使用。

发明内容

本发明的目的在于解决现有技术中利用自回归模型进行唇语识别存在延迟性较高的问题，且目前针对唇语识别领域的非自回归模型技术还不成熟，依旧存在上述中的技术问题。因此，本发明提出一种利用非自回归模型与整合放电技术的唇语识别方法、系统。本发明采用整合放电技术模拟源视频帧与输出文本序列之间的对应关系，采用一个辅助连接时序分类(CTC)解码器及一个辅助自回归解码器强化编码器的图像特征表示能力，采用NPD技术与BPE技术减轻唇语识别固有的歧义性问题，实现了良好的并行性，有效提升了唇语识别的性能。

为了实现上述目的，本发明具体采用如下技术方案：

一种利用非自回归模型与整合放电技术的唇语识别系统，包括如下步骤：

1）获取唇语识别训练样本集。

2）建立非自回归神经网络模型，包括特征提取网络、编码网络、解码网络和整合放电模块；采用唇语识别训练样本集对步骤2）建立的非自回归神经网络模型进行训练，并在训练过程中引入两个辅助解码器。

具体为：

2.1）对一组唇形图像数据进行位置编码，然后采用特征提取网络获得唇形图像的图像特征，将位置编码信息和图像特征信息作为编码网络的输入，得到编码网络输出序列；将编码网络输出序列分别作为两个辅助解码器的输入，得到两个辅助损失。

2.2）将编码网络输出序列进行预处理，得到权重嵌入序列，并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块进一步处理，生成对齐后的嵌入序列。

2.3）采用解码器网络对整合放电模块输出的对齐后的嵌入序列进行解码，得到预测文本序列及其主损失；结合两个辅助损失和主损失，更新编码网络和解码网络的参数，得到最终的非自回归神经网络模型。

3）采集要预测语言的唇语视频并处理为连续的唇形图像数据，由训练好的非自回归神经网络模型生成唇语识别结果。

本发明的另一目的在于提供一种利用非自回归模型与整合放电技术的唇语识别系统，用于实现上述的唇语识别方法，所述的唇语识别系统包括：

数据采集模块：用于获取源视频和对应的对齐文本。

数据预处理模块：其用于接收数据采集模块中的数据，并将源视频预处理为源图像序列，将对应的对齐文本预处理得到目标文本序列。

非自回归神经网络模块：其用于提取源图像序列的图像特征和位置编码，并进一步编码和解码，得到预测文本序列。

辅助解码模块：其用于对非自回归神经网络模块进行辅助训练。

训练模块：其用于在系统处于训练阶段时，根据多任务损失函数对非自回归神经网络模块和辅助解码模块进行训练，训练结束后保存模型参数文件。

唇语识别任务执行模块：当接收到唇语识别任务信号时，读取数据预处理模块生成的待识别的源图像序列，加载训练模块生成的模型参数文件，得到训练好的模型；将待识别的源图像序列作为模型输入，生成识别结果。

相对于传统方法，本发明有效提升了唇语识别的性能，具体体现在：

（1）针对传统方法无法很好处理输入帧和目标文本词条之间的序列长度差异问题以及目标序列分布的时间相关性问题，本发明对由编码网络得到的一系列权重嵌入序列进行缩放，在训练阶段，使缩放后的权重嵌入序列总和等于目标文本序列的长度，并利用整合放电模块对缩放后的权重嵌入序列进行扫描求和，通过定位声边界将连续视频信号编码为离散的词条嵌入，保留时序信息的同时直接对应于目标词条，有效地提高了模型估计输出序列的长度的能力，并减轻目标序列中时间相关性对模型并行识别正确率带来的影响。

（2）针对传统方法的编码器特征表示能力不强的问题，本发明在对编码网络进行训练时引入了辅助CTC解码器以及辅助自回归模型解码器，并通过额外的损失函数进行优化，有效提高了编码器的特征提取能力。

（3）针对传统方法无法很好处理唇语识别固有的歧义性问题以及拼写错误，本发明在整合放电模型中使用了NPD技术，确定一个集束尺寸来生成多个在预设区间内的整数偏移量，对生成的权重嵌入序列进行缩放，产生多个候选的权重嵌入序列。通过集束生成多组结果，再通过训练有素的自回归模型进行打分，保证了预测的准确性。

此外，本发明还将BPE应用于文本数据预处理中，压缩目标序列并使每个词条包含更多的语言信息，与传统字符级编码相比，减少了词条之间的依赖性，有效地减少了歧义和拼写带来的错误。

附图说明

图1是本发明所使用的带整合放电技术的非自回归神经网络的整体模型在训练阶段的示意图。

图2是本发明所使用的整合放电模块的处理流程。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明用带整合放电技术的非自回归神经网络进行唇语识别包括如下步骤：

步骤一、获取唇语识别训练样本集。

步骤二、建立非自回归神经网络模型，包括特征提取网络、编码网络、解码网络和整合放电模块；采用唇语识别训练样本集对建立的非自回归神经网络模型进行训练，并在训练过程中引入两个辅助解码器，得到训练好的非自回归神经网络模型。

步骤三、采集要预测语言的唇语视频并处理为连续的唇形图像数据，由训练好的非自回归神经网络模型生成唇语识别结果。

在本发明的一项具体实施中，对步骤一的实施过程进行了介绍。

所述的唇语识别训练样本集是由源视频和对应的对齐文本经预处理后得到的，具体为：将一段源视频裁剪得到以嘴唇为中心的一组固定大小的唇形图像，每一帧对应一幅唇形图像，得到源图像序列，对文本数据采用BPE算法进行分词处理，得到对应该组唇形图像数据的目标文本序列；每一个训练样本由一组唇形图像数据与真实的目标文本序列构成，唇形图像数据和真实的目标文本序列构成了唇语识别训练样本集。

在本发明的一项具体实施中，对步骤二的实施过程进行了介绍。

2.1）建立非自回归神经网络模型。

建立由特征提取网络、编码网络、解码网络和整合放电模块组成的网络模型。

所述非自回归神经网络模型中的特征提取网络由一个时空卷积神经网络构成，包含四层三维卷积层、三维池化层、RELU激活层和两层全连接层；特征提取网络是一个可以与编码-解码网络同时训练的时空卷积神经网络。

所述非自回归神经网络模型中的编码网络是由自注意力层与前馈层堆叠而成的，在本实施例中采用Transformer模型中的编码器，由N个编码子块堆叠构成。

所述非自回归神经网络模型中的解码网络由N个解码子块堆叠构成，解码子块的结构与编码子块的结构相同。在本实施例中采用的解码网络是将传统的Transformer解码网络删除相互注意力层后得到的，仅由自注意力层与前馈层堆叠而成。

2.2）对模型进行训练。

a. 编码网络处理流程：

采用唇语识别训练样本集对建立的非自回归神经网络模型进行训练，并在训练过程中引入两个辅助解码器，在本实施例中，所述的两个辅助解码器分别为辅助连接时序分类解码器和辅助自回归解码器。

对一组唇形图像数据进行位置编码，然后采用特征提取网络获得唇形图像的图像特征，将位置编码信息和图像特征信息作为编码网络的输入，经由编码网络输出编码结果，得到编码网络输出序列。

所述编码网络的输出有三个分支：

第一分支将编码网络输出序列传递至辅助连接时序分类解码器，结合真实的目标文本序列，得到CTC损失。

第二分支将编码网络输出序列传递至辅助自回归解码器，得到第一预测文本序列；将第一预测文本序列与真实的目标文本序列进行比较，得到辅助自回归损失。

第三分支将编码网络输出序列进行预处理，得到权重嵌入序列，并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块进一步处理，生成对齐后的嵌入序列；对整合放电模块输出的对齐后的嵌入序列进行解码，得到第二预测文本序列；将第二预测文本序列与真实的目标文本序列进行比较，得到主损失。

在进行位置编码时，使用固定的位置嵌入公式提取其位置信息，所述位置嵌入公式具体为：

其中，pos表示所计算图像特征向量在整个图像特征序列中的位置，d _model表示模型图像特征向量的维度，其偶数维度与奇数维度的计算公式不同，i即图像特征向量的具体维度，其取值受限于d _model。

b. 辅助训练处理流程：

将编码网络输出序列传递到辅助CTC解码器与辅助自回归解码器中，用于辅助编码网络的训练，得到两个辅助损失。

在本发明实施例中，所述的辅助CTC解码器可以促使源图像特征序列与目标文本序列的单调对齐，其具体为：引入一组中间表示路径φ(y)，称为一个目标文本序列y的CTC 路径；每个CTC路径均由分散的目标文本词条和空格组成，可以通过删除重复的单词和空格来归化为最终的目标文本序列y；y的似然可以计算为与其对应的所有CTC路径的概率之和：

，其中，x为源序列；c为一组中间表示路径φ(y)中的其中一个CTC路径，

为源图像特征序列x对应CTC路径c的概率，

为源图像特征序列x对应目标文本序列y的概率。

所述的辅助自回归解码器使用Teacher Forcing学习策略，其输入为训练样本集中的真实的目标文本序列，而非上一个状态的输出，以加快非自回归编码器的学习效率。

本发明使用额外的损失函数

对辅助CTC解码器进行优化，使用

交叉熵来对辅助自回归解码器进行优化；其中，x为源图像特征序列，y为目标文本序列，(X,Y)表示一批中的源视频帧和目标文本序列对的集合，P (y|x)为基于源图像特征序列x预测出序列y的概率。

c. 解码网络阶段处理流程：

在辅助训练的同时，将编码网络输出序列进行预处理，得到权重嵌入序列，并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块进一步处理，生成对齐后的嵌入序列。在本实施例中，所述的预处理为对编码网络输出序列进行一维卷积与全连接，得到权重嵌入序列

。

在训练过程中，所述权重嵌入序列

在经整合放电模块处理前，会进行

倍数的缩放，生成新的权重嵌入序列

，其中，

是第i个缩放后的权重，

是缩放前的权重嵌入序列中第i个权重，

为目标标签

的长度；如此，序列

总和等于

，这将使整合放电模块使用正确的长度来预测序列f，有利于交叉熵的训练。

如图2所示，自左向右遍历扫描

并累加求和，当和达到预设阈值时(本实施例中取1.0)，意味着模块检测到了一个声学边界，此时，将最后一个扫描到的

拆分成

和

，其中，

将用于当前轮次的整合放电，

将用于下一轮次的整合放电。

重置累加求和结果并继续扫描，生成新的权重嵌入序列

，k=1,2,…K；K＞m，且对于拆分后的

，

；对于第k轮整合放电，计算

，

为第k轮整合放电对应的下标集合；按照整合放电轮次进行整合，最终生成对齐后的嵌入序列

。

采用解码器网络对整合放电模块输出的对齐后的嵌入序列进行解码，得到预测文本序列及其主损失。

在本发明的一项具体实施中，所述解码网络接收整合放电模块生成的对齐后的嵌入序列

作为输入，生成对应的文本词条

；对于生成对应的文本词条

，使用交叉熵损失函数

进行评估；至此，本发明一共涉及三个损失函数，在编码-解码网络训练过程中，结合两个辅助损失和主损失，使用总损失函数

更新网络的参数，得到最终的非自回归神经网络模型；其中，

为三个控制损失函数的超参数，在训练的不同阶段有着不同的设置，

为辅助连接时序分类解码器的损失，

为辅助自回归解码器的损失，

为主解码器的损失。

在本发明的一项具体实施中，对步骤三的实施过程进行了介绍。

采集要预测语言的唇语视频并处理为连续的唇形图像数据，由训练好的非自回归神经网络模型生成唇语识别结果。

具体为：

3.1）采集待预测语言的唇语视频并处理为连续的唇形图像数据，将训练好的非自回归神经网络模型以连续的唇形图像作为输入，将编码网络输出序列进行预处理，得到待预测权重嵌入序列

。

3.2）整合放电模块会采用NPD技术，确定一个集束尺寸B，通过长度控制生成2B+1 个[-B,B]之间的整数偏移量

，对待预测权重嵌入序列

进行缩放，具体为：

，Z表示整数集合；生成2B+1个

候选权重嵌入序列；在本实施中，B取值为4。

3.3）对于2B+1个候选权重嵌入序列，与编码网络输出序列共同传递至整合放电模块并行处理，再经解码网络生成2B+1个预测文本序列；采用训练成熟的AR模型对2B+1个预测文本序列进行评分，选择得分最高的预测文本作为最终的唇语识别结果。

在本实施例中，采用一个训练成熟的自回归模型中进行打分，并按照

选择最优者输出；其中，

为序列A被自回归模型生成的概率，

表示给定源语句x和权重嵌入序列w时FastLR模型可以生成的最优解，θ为模型参数。

在本发明的一项具体实施中，还提出了一种利用非自回归模型与整合放电技术的唇语识别系统，包括：

数据采集模块：用于获取源视频和对应的对齐文本。

数据预处理模块：其用于接收数据采集模块中的数据，并将源视频预处理为源图像序列，将对应的对齐文本预处理得到目标文本序列。具体的预处理流程为：将一段源视频裁剪得到以嘴唇为中心的一组唇形图像，每一帧对应一幅唇形图像，得到源图像序列，对文本数据采用BPE算法进行分词处理，得到对应该组唇形图像数据的目标文本序列。

其中，所述的非自回归神经网络模块中配置有非自回归神经网络模型，具体包括：

特征提取网络子模块，由一个时空卷积神经网络构成，包含四层三维卷积层、三维池化层、RELU激活层和两层全连接层构成，其用于提取源图像序列的图像特征和位置编码。

编码网络子模块，其用于对源图像特征序列进一步编码。

整合放电模块，其用于对编码网络输出序列和经过预处理后得到的权重嵌入序列进行对齐处理，生成对齐后的嵌入序列。

解码网络子模块，其用于对对齐后的嵌入序列进行解码。

所述的预处理后得到的权重嵌入序列由一个编码后处理模块执行，具体执行过程如下：

将编码网络输出序列依次经过一维卷积层和全连接层处理，得到权重嵌入序列w。

在系统处于训练阶段时，对权重嵌入序列w进行缩放，得到缩放后的权重嵌入序列

，缩放倍数为

，

为目标文本序列的长度。然后自左向右遍历扫描

并累加求和，当和达到预设阈值时，将当前时刻扫描的

拆分成

和

，其中，

将用于当前轮次的整合放电，

将用于下一轮次的整合放电。

重置累加求和结果并继续扫描，生成新的权重嵌入序列

，对于第k轮整合放电，计算

，

为第k轮整合放电对应的下标集合；按照整合放电轮次进行整合，最终生成对齐后的嵌入序列。

在系统处于识别阶段时，引入NPD技术，确定一个集束尺寸来生成多个在预设区间内的整数偏移量，对生成的权重嵌入序列进行缩放，产生多个候选的权重嵌入序列。

其中，所述的唇语识别任务执行模块包括：

模型文件执行模块：用于读取数据预处理模块生成的待识别的源图像序列，加载训练模块生成的模型参数文件，得到训练好的模型；将待识别的源图像序列作为模型输入，生成识别结果。

评判模块：其用于对多个候选识别结果进行打分，选择得分最高的预测文本作为最终的唇语识别结果。所述打分的方式不限，在本实施中，采用训练成熟的AR模型进行评判。

在本申请所提供的具体实施方式中，应该理解到，以上所描述的系统实施例仅仅是示意性的，例如所述非自回归神经网络模块，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接，可以是电性或其它的形式。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在GRID以及LRS2数据集上面进行实验验证，下面是两个数据集的基本情况介绍。

表1 数据集

数据集	句子数	词数	词汇表大小	时长(小时)
					GRID	33k	165k	51	27.5
LRS2(仅训练与验证集)	47k	337k	18k	29

本发明对两个数据集有着不同的处理方法：

对于GRID数据集，本发明采用与Assael等人相同的分割方法，从每个说话者中选择255个随机句子进行评估；在图像预处理方面，将图像先转换为灰度图，然后使用Dlib面部检测器将视频图像裁剪为包含嘴巴区域的100×50固定大小；在本文预处理方面，由于GRID数据集的词汇量很小，且大多数单词都很简单，因此本发明不在GRID上应用字节对编码，只在字符级别编码目标序列；在神经网络方面，使用本发明所述的时空卷积神经网络提取图像特征，并与编码-解码神经网络共同训练。

对于LRS2数据集，本发明将数据集划分成三部分，训练集、验证集和测试集分别包含46k个、1082个、1243个句子，在图像预处理方面，将图像转为灰度图，并在中央裁剪为114×114固定大小的图像；在文本预处理方面，使用BPE技术将词划分为子词，并将词汇表尺寸缩小为1k；在神经网络方面，使用Afouras等人在非公开数据集MV-LRS上预训练的视觉前端捕捉视觉特征，并不与编码-解码网络一起训练。

本发明将去掉整合放电模块并在解码网络中加入相互注意力层的非自回归网络模型NAR-LR作为基准线，采用字错误率和字符错误率进行准确率评分，计算方式均可使用

计算，其中，S, D, I分别为替换，删除，插入的字或字符数量，N 为替换、删除、正确的字或字符数量之和。

下面是在两个数据集上的测试准确率：

表2 在GRID数据集上的对比效果

表3 在LRS2数据集上的对比效果

如表2和表3所示，不同于自回归算法逐个识别单词，非自回归模型在预测阶段并行生成所有单词，这对非自回归模型的序列对齐能力是一个很大的挑战，也导致了非自回归模型对上下文信息的利用远不如自回归模型，使得唇语识别的歧义性更加严重。故而非自回归模型在提高翻译速度的同时，牺牲了一定的翻译准确率。然而，从上述数据结果可以见得，本发明在识别准确率方面已经超过了一部分传统的自回归算法，如WAS以及BLSTM+CTC，且与经典自回归算法LipNet及LIBS有着相当的性能，并比非自回归模型的基准线高出了一大截。

本发明以时下热门的自回归TM-seq2seq模型为基准，在LRS2数据集的测试阶段加速情况。

表4 在LRS2数据集的测试阶段加速效果

从表4结果可知，本发明通过非自回归的方式，极大地提高了唇语识别的速率，与TM-seq2seq算法相比提高了5.81倍，且只损失了5.5%的精确度。

本发明通过消融实验验证本发明所采用技术的合理性与必要性。

表5 消融实验结果

通过表5的结果可知，本发明在识别速度方面较自回归模型有了极大的提升，体现出非自回归模型的高效并行性，且在准确率方面也接近了一些自回归模型。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种利用非自回归模型与整合放电技术的唇语识别方法，其特征在于包括如下步骤：

1)获取唇语识别训练样本集；

2)建立非自回归神经网络模型，包括特征提取网络、编码网络、解码网络和整合放电模块；采用唇语识别训练样本集对步骤2)建立的非自回归神经网络模型进行训练，并在训练过程中引入两个辅助解码器；所述的两个辅助解码器分别为辅助连接时序分类解码器和辅助自回归解码器；所述的步骤2)具体包括如下步骤：

2.1)对一组唇形图像数据进行位置编码，然后采用特征提取网络获得唇形图像的图像特征，将位置编码信息和图像特征信息作为编码网络的输入，得到编码网络输出序列；将编码网络输出序列分别作为两个辅助解码器的输入，得到两个辅助损失；

2.2)将编码网络输出序列进行预处理，得到权重嵌入序列，并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块处理，生成对齐后的嵌入序列；

2.3)采用解码网络对整合放电模块输出的对齐后的嵌入序列进行解码，得到预测文本序列及其主损失；结合两个辅助损失和主损失，更新编码网络和解码网络的参数，得到最终的非自回归神经网络模型；

3)采集要预测语言的唇语视频并处理为连续的唇形图像数据，由训练好的非自回归神经网络模型生成唇语识别结果。

2.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法，其特征在于，所述的唇语识别训练样本集是由源视频和对应的对齐文本经预处理后得到的，具体为：将一段源视频裁剪得到以嘴唇为中心的一组唇形图像，每一帧对应一幅唇形图像，得到源图像序列，对文本数据采用BPE算法进行分词处理，得到对应该组唇形图像数据的目标文本序列；每一个训练样本由一组唇形图像数据与真实的目标文本序列构成。

3.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法，其特征在于，所述非自回归神经网络模型中的特征提取网络由一个时空卷积神经网络构成，包含四层三维卷积层、三维池化层、RELU激活层和两层全连接层；

所述非自回归神经网络模型中的编码网络采用Transformer模型中的编码器，由N个编码子块堆叠构成；

所述非自回归神经网络模型中的解码网络由N个解码子块堆叠构成，解码子块的结构与编码子块的结构相同。

4.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法，其特征在于，所述编码网络的输出有三个分支：

第一分支将编码网络输出序列传递至辅助连接时序分类解码器，结合真实的目标文本序列，得到辅助连接时序分类解码器的损失；

第二分支将编码网络输出序列传递至辅助自回归解码器，得到第一预测文本序列；将第一预测文本序列与真实的目标文本序列进行比较，得到辅助自回归解码器的损失；

第三分支将编码网络输出序列进行预处理，得到权重嵌入序列，并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块处理，生成对齐后的嵌入序列；对整合放电模块输出的对齐后的嵌入序列进行解码，得到第二预测文本序列；将第二预测文本序列与真实的目标文本序列进行比较，得到主解码器的损失；

用于训练非自回归神经网络模型的总损失函数如下：

L＝λ₁L_ctc+λ₂L_AR+λ₃L_FLR

其中，λ₁,λ₂,λ₃是超参数，L_ctc为辅助连接时序分类解码器的损失，L_AR为辅助自回归解码器的损失，L_FLR为主解码器的损失。

5.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法，其特征在于，所述的辅助自回归解码器采用Transformer模型中的解码器，并使用TeacherForcing学习策略，将真实的目标文本序列作为输入，以交叉熵作为损失函数进行训练。

6.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法，其特征在于，所述的辅助连接时序分类解码器用于将编码网络输出序列映射到目标文本序列，具体为：

引入一组中间表示路径φ(y)，y是目标文本序列，所述的中间表示路径为目标文本序列的CTC路径，每个CTC路径均由分散的目标文本序列中的单词和空格组成；

计算目标文本序列的似然：

其中，x为源图像特征序列，c为CTC路径，P_ctc(c|x)为源图像特征序列x对应CTC路径c的概率，P_ctc(y|x)为源图像特征序列x对应目标文本序列y的概率；

采用CTC损失来优化CTC路径，CTC损失函数为：

其中，(X,Y)表示唇形图像数据与真实的目标文本序列对的集合，即唇语识别训练样本集；(x,y)表示一组唇形图像数据与真实的目标文本序列，即一个样本对。

7.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法，其特征在于，步骤2.2)具体为：

2.2.1)将编码网络输出序列h＝(h₁,h₂,...,h_m)依次经过一维卷积层和全连接层处理，得到权重嵌入序列w＝(w₁,w₂,...,w_m)；

2.2.2)对权重嵌入序列进行缩放，得到缩放后的权重嵌入序列，表示为w′＝(w′₁,w′₂,...,w′_m)，w′_i是第i个缩放后的权重，缩放倍数为

为目标文本序列的长度，w_i是缩放前的权重嵌入序列中第i个权重；

2.2.3)自左向右遍历扫描w′_i并累加求和，当和达到预设阈值时，将当前时刻扫描的w′_i拆分成w′_i,1和w′_i,2，其中，w′_i,1将用于当前轮次的整合放电，w′_i,2将用于下一轮次的整合放电；

2.2.4)重置累加求和结果并继续扫描，生成新的权重嵌入序列{w′_k}；对于第k轮整合放电，计算

A_k为第k轮整合放电对应的下标集合；按照整合放电轮次进行整合，最终生成对齐后的嵌入序列f＝(f₁,f₂,...,f_n)。

8.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法，其特征在于，步骤3)具体为：

3.1)采集待预测语言的唇语视频并处理为连续的唇形图像数据，将训练好的非自回归神经网络模型以连续的唇形图像作为输入，将编码网络输出序列进行预处理，得到待预测权重嵌入序列

3.2)确定一个集束尺寸B，通过长度控制生成2B+1个[-B,B]之间的整数偏移量

对待预测权重嵌入序列

进行缩放，具体为：

Z表示整数集合；生成2B+1个

候选权重嵌入序列；

3.3)对于2B+1个候选权重嵌入序列，与编码网络输出序列共同传递至整合放电模块并行处理，再经解码网络生成2B+1个预测文本序列；采用训练成熟的AR模型对2B+1个预测文本序列进行评分，选择得分最高的预测文本作为最终的唇语识别结果。

9.一种利用非自回归模型与整合放电技术的唇语识别系统，其特征在于，用于实现权利要求1所述的唇语识别方法，所述的唇语识别系统包括：

数据采集模块：用于获取源视频和对应的对齐文本；

数据预处理模块：其用于接收数据采集模块中的数据，并将源视频预处理为源图像序列，将对应的对齐文本预处理得到目标文本序列；

非自回归神经网络模块：其用于提取源图像序列的图像特征和位置编码，并进一步编码和解码，得到预测文本序列；

辅助解码模块：其用于对非自回归神经网络模块进行辅助训练；

训练模块：其用于在系统处于训练阶段时，根据多任务损失函数对非自回归神经网络模块和辅助解码模块进行训练，训练结束后保存模型参数文件；