CN113657253B

CN113657253B - 使用注意力引导自适应记忆的实时唇语识别方法和系统

Info

Publication number: CN113657253B
Application number: CN202110935654.3A
Authority: CN
Inventors: 赵洲; 程诗卓; 沈子栋; 林志杰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2023-12-05
Anticipated expiration: 2041-08-16
Also published as: CN113657253A

Abstract

本发明公开了一种使用注意力引导自适应记忆的实时唇语识别方法和系统，属于唇语识别技术领域。为了解决在生成句子的句法结构的同时考虑单调排列的挑战，本发明建立了SimulLR模型并采用CTC预训练、模型预热和课程学习的方式促进SimulLR模型的训练。此外，为了使得编码器学习到更好的时空表示，本发明构造了一个截断三维时空卷积网络和时限自注意机制在视频片段内实现帧对帧的交互。此外，由于在实时场景中的存储有限，历史信息总是受到限制，为了实现一个好的权衡，本发明设计了注意力引导自适应记忆模块来组织历史语义信息，并在可接受的计算感知延迟范围内增强视觉表示。可实现实时解码，适用于更多应用场景。

Description

使用注意力引导自适应记忆的实时唇语识别方法和系统

技术领域

本发明涉及唇语识别技术领域，具体涉及一种使用注意力引导自适应记忆的实时唇语识别方法和系统。

背景技术

唇语识别，是识别给定视频片段中唇动所对应的语句而不依赖于特定语音流的技术，在众多场景中的应用吸引了广泛关注，包括识别公共环境下或嘈杂环境下的口头指示，以及为听障人士提供帮助。

虽然之前探索唇语识别的工作已经获得了显著的效果，但它们都是非实时的训练，生成的预测依赖于对完整视频的获取，因此对于一段包含了固定帧数的视频，且口头语句是实时生成的情况下，实时唇语识别是一个更加困难的过程，但对于实时理解(如直播视频流)是非常重要的拓展。由于实时解码的低延时性，实时唇语识别能够处理大量的视频数据(如长电影)而不用首先看完完整的视频。本领域的研究重点在于实时唇语识别技术，具体是基于部分输入识别出语句，这就需要做到视觉-文本跨模态翻译的实时解码，十分具有挑战性。

对于实时解码，该模型需要学习视频片段和目标标记符(例如单词)的单调排列，并且选择一个合适的时机以在精度和延迟之间达到一个良好的权衡来预测下一个单词，具有以下挑战：

(1)由于不同视频中同单词的长度存在显著差异，很难去估计单词的持续时间和学习出这种单调排列。传统的自回归方法利用整个视频的语义信息，在不考虑单调排列的情况下以单词同步模式工作，使其实际上是非实时的。

(2)为了学习更好的跨模态解码的时空表示，传统的非实时方法在视觉编码器中采用了多个三维卷积核自注意层，由于他们感受野拓展到了整个视频，因此不能拓展到实时模型中。

(3)在实际场景中，存储总是受到极长的输入序列的限制，历史信息也可能不可获取，这使得通过有限的视觉上下文预测新单词更为困难。

早期的研究侧重于单个单词的分类，然后转向全语句的预测，这些工作主要基于CTC的模型和自回归模型来进行非实时唇语识别。其中，LipNet利用了循环神经网络的时空卷积特征和上下文模型，Chen等人设计了一个系统来利用唇语识别和唇合成的任务对偶性来改进这两个任务；Afouras等人首先引入了Transformer自注意架构到唇语识别任务中，Zhao等人通过从语音识别中提取多粒度的知识特征，加强了唇语识别的训练能力；此外，Liu等人研究了非自回归唇语识别技术，利用整合放电技术来估计输出序列的长度，缓解时间相关性问题。然而，这些方法都是以非实时的方式来探究唇语识别方法，其中推理环节的句子预测依赖于整个视频中的讲话人的脸部图像。

发明内容

为了解决上述中的技术问题，本发明提供了一种使用注意力引导自适应记忆的实时唇语识别方法和系统，实现实时解码，旨在基于给定的部分输入而不是整个序列生成预测，适用于更多应用场景。

为了实现上述目的，本发明采用如下技术方案：

一种使用注意力引导自适应记忆的实时唇语识别方法，包括以下步骤：

1)获取没有音频流的唇语视频片段s；

2)采用截断三维时空卷积网络对当前时刻获得的片段s中的第t个视频片段s_t执行时空卷积，得到的卷积结果经序列编码器编码为视觉特征表达在序列编码器中引入时限自注意机制，掩盖不可获取的视频片段和未来的视频片段，使得当前时刻仅能看到视频片段s_t之前的a个视频片段；

3)利用自适应记忆模块中的记忆库信息加强序列编码器的输出结果，获得强化视觉特征表达；同时根据每一个记忆库在当前时刻的信息熵，对记忆库信息进行更新；

4)解码器结合历史时刻已生成的预测语句与强化视觉特征表达进行解码；所述的解码器包括一个语言模型和一个联合网络，将历史时刻已生成的预测语句通过一个语言模型进行处理，得到历史语义特征表达；再将历史语义特征表达和强化视觉特征表达作为联合网络的输入执行联合解码，生成当前时刻预测词w_i；

5)结合历史时刻已生成的预测语句与当前时刻预测词，生成实时唇语识别结果。

进一步的，将所述的截断三维时空卷积网络、序列编码器、解码器进行端到端训练，训练分为三个阶段：

第一阶段：CTC预训练

引入了一组中间CTC路径φ(w)，每条路径由目标词和空白组成，作为目标词序列w，CTC损失可以由下式计算：

其中，表示CTC损失，P_ctc(w|s)表示表示在CTC路径下产生目标序列w的概率，c表示CTC路径上的标记词，s表示视频片段，P(c|s)表示在视频片段s下生成词c的概率；

第二阶段：预热

首先应用2层结构的序列编码器关注于训练截断三维时空卷积网络，实现截断三维时空卷积网络的预热；之后固定截断三维时空卷积网络的参数，增加序列编码器的深度至预设深度，实现序列编码器的预热；

第三阶段：课程式学习

将训练集中的视频片段从短至长排列，先使用短视频片段训练，依次增加视频片段的长度，训练损失为：

其中，P_td(w|s)表示当前时间和解码路径下产生目标序列w的概率，P(d|R)表示在联合矩阵R下获得解码路径d的概率，表示解码损失。

本发明还提出了一种使用注意力引导自适应记忆的实时唇语识别系统，用于实现上述的实时唇语识别方法。

与现有技术相比，本发明的优势在于：

本发明针对实时唇语识别任务设计了一种具有注意力引导的自适应记忆的实时唇语识别方法，为了解决在生成句子的句法结构的同时考虑单调排列的挑战，本发明建立了SimulLR模型并设计了有效的训练策略，包括CTC预训练、模型预热和课程学习，以促进SimulLR模型的训练。此外，为了使得编码器学习到更好的时空表示，本发明构造了一个截断三维时空卷积网络和时限自注意机制在视频片段内实现帧对帧的交互。此外，由于在实时场景中的存储有限，历史信息总是受到限制，为了实现一个好的权衡，本发明设计了注意力引导自适应记忆模块来组织历史语义信息，并在可接受的计算感知延迟范围内增强视觉表示。在GRID和TCD-TIMIT数据集上的实验表明，SimulLR优于传统模型，具有高效率和高准确率，证明了本发明方法的有效性。

附图说明

图1为本发明方法的整体框架设计图。

图2为本发明采用的注意力引导的自适应记忆模块示意图。

图3为本发明实施例中的DualLip与SimulLR在TCD-TIMIT数据集下NCA延迟与不同长度的目标语句的关系。

图4为本发明实施例中在TCD-TIMIT数据集下，识别准确度与NCA延迟在不同片段大小下的关系。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

一、首先引入实时唇语识别的问题描述。

给定没有音频流的视频片段集合s：

s＝{s₁,s₂,…,s_t,…,s_n}

唇语识别旨在预测唇语表达的词序列：

w＝{w₁,w₂,…,w_i,…,w_u}

其中，s_t是第t个视频片段，n是片段数，w_i是词序列中的第i个词，u是目标词序列的长度。

在实时情况下，唇语识别模型需要依据部分输入，以预测第i个词w_i所需的部分片段集合作为示例，表示为：

其中，n(w_i)是预测第i个词w_i所需要的片段长度，且对于单调排列有：

n(w_i)≥(w_i-1)

此外，由于有限存储，本发明假设相邻的有限片段是可获取的，将所需的部分片段进一步表示为：

其中，a是第i个词预测时可以获得的视频片段数量，是预测第i个词w_i所需的视频片段集合。

对于实时唇语识别模型，预测目标序列w关于视频片段的单调对齐，将解码片段路径表示为：

最优化目标可以通过下式计算：

其中，P(w|s)表示即时产生目标序列w的概率，该项为所有可行解码片段路径的和d∈φ(w)；φ(w)表示对于目标序列w的所有解码路径，表示视频片段集合/>对应第i个词w_i的可能性。

二、基于上述问题描述，本发明提出一种使用注意力引导自适应记忆的实时唇语识别方法。如图1所示，本发明提出一种完整的SimulLR模型来解决上述问题，可以归纳为以下步骤：

步骤1：获取没有音频流的唇语视频片段s；

步骤2：采用截断三维时空卷积网络对当前时刻获得的片段s中的第t和视频片段s_t执行时空卷积，得到的卷积结果经序列编码器编码为视觉特征表达在序列编码器中引入时限自注意机制，掩盖不可获取的视频片段和未来的视频片段，使得当前时刻仅能看到视频片段s_t之前的a个视频片段；

步骤3：利用自适应记忆模块中的记忆库信息加强序列编码器的输出结果，获得强化视觉特征表达；同时根据每一个记忆库在当前时刻的信息熵，对记忆库信息进行更新；

步骤4：解码器结合历史时刻已生成的预测语句与强化视觉特征表达进行解码；所述的解码器包括一个语言模型和一个联合网络，将历史时刻已生成的预测语句通过一个语言模型进行处理，得到历史语义特征表达；再将历史语义特征表达和强化视觉特征表达作为联合网络的输入执行联合解码，生成当前时刻预测词w_i；

步骤5：结合历史时刻已生成的预测语句与当前时刻预测词，生成实时唇语识别结果。

将本发明采用的模型简称为SimulLR模型，由一个用于提取视觉特征的截断三维时空卷积网络、一个基于Transformer的序列编码器、一个用于语言建模和词预测的基于Transducer的跨模态解码器、一个用于组织历史视频片段语义信息和在可接受计算感知延迟范围内加强视觉特征表达的基于注意力引导的自适应记忆模块组成。

我们还设计了几个有效的训练策略，包括CTC预训练、模型预热、课程式学习来加强SimulLR模型的训练。

下面分别进行具体介绍。

(一)将截断三维时空卷积网络和序列编码器称为实时视觉编码器。

1.截断三维时空卷积网络：为了让跨模态解码器学习到更好的时空表达，以往的非实时方法在编码层中使用了多个三维卷积，但由于它们使得感受野拓展到了整个视频，因此不能被直接转移到本发明的实时模型中。为了解决这个问题，本发明在时间维度上截断了三维卷积网络，并仅在单个视频片段s_t中执行时空卷积，如图1所示，它引入了足够的时空上下文进行表示学习，同时保持实时方式而不依赖整个视频的信息。

2.序列编码器：视频片段的序列建模基于堆叠的多头自注意层和前馈层，如Transformer和基于Transformer提出的唇语识别模型TM-seq2seq。此外，为了实现实时解码，本发明采用了时限自注意，这个机制中，在多头注意力层中执行时限自注意机制，将当前时刻可获取的视频片段表示为：

其中，表示生成当前时刻对应的第i个预测词w_i时所能够获取到的部分视频片段集合，s_t为当前时刻读取到的单个视频片段，t＝n(w_i)表示当前时刻获得的视频片段索引。

本发明采用上述中有限的视频片段数来模拟存储限制。将编码好的第t个视频片段s_t的视觉特征表达表示为即/>为序列编码器的输出。

(二)实时跨模态解码器。

实时跨模态解码器基于神经网络而构造，具体来说，在每个时间步，解码器(联合网络)基于部分输入来预测词w_i，或产生一个空传输ε来读取下一个视频片段/>同时，已生成的预测语句{w₁,w₂，…,w_i-1}的语义结构通过一个语言模型LM(*)进行处理，引入到联合网络的解码过程中去。通过该解码过程，通过读入有限的视频片段以及已经产生的预测语句，逐渐生成新的预测词，然后合并进最终的预测结果中。

上述提及的语言模型采用一个单向的基于Transformer的语言模型，将生成的预测语句{w₁，w₂，…，w_i-1}作为语言模型的输入，通过语言模型中的多头自注意和前馈层来获取已生成语句的历史上下文信息，输出历史语义特征表达

上述提及的联合网络用于利用实时视觉编码器生成的视觉特征表达，以及单向语言模型生成的语义表达，生成预测词。联合网络利用softmax函数来计算联合矩阵R，R的尺寸为[视频长度(索引为t)，词序列长度(索引为i)，词汇维度]，其中联合矩阵中的元素R_t,i表示对应视频片段s_t与词w_i的词概率分布，是通过将连接起来输入一个多层感知机计算得到的。

解码路径可以表达为在联合矩阵R中从起点(0,0)到终点(n,u)的路径。因此，之前的优化目标可以进一步表达为：

其中，P_td(w|s)表示当前时间所有解码路径下视频片段s产生目标词序列w的概率，P(d|R)表示在联合矩阵R下获得解码路径d的概率。

(三)注意力引导的自适应记忆模块。

在真实场景中，存储总是受限于输入序列(如大量视频数据)的长度，因此对于实时解码，有些历史片段可能是不可获取的，这会使得使用有限视觉上下文预测新的单词更加困难。为了达到良好的存储-精确度权衡，本发明引入了注意力引导的自适应记忆模块来组织历史片段的语义信息，同时在可接受的计算感知延迟内加强视觉特征表达。

在本发明的一项具体实施中，所述的自适应记忆模块中包含k个记忆库，表示为{m₁,m₂,…,m_k}，m_k表示第k个记忆库，每一个记忆库中存储一个被压缩后的历史视频片段信息并不断更新。注意力引导的自适应记忆主要包括两部分内容：强化视觉特征表达、吸收新片段-丢弃过时片段。

1.强化视觉特征表达：每次计算当前的视觉特征表达时，调用最新的记忆库{m₁,m₂,…,m_k}，计算出编码器-记忆的相互注意力，获得强化视觉特征表达/>计算公式为：

其中，α_i是第i个记忆力库m_i和视频片段s_t的注意力得分，是第i个记忆力库的注意力分布。/>是加强后的视觉特征表达，实际上用于计算联合矩阵R；需要注意的是，本发明采用点积注意力来获得所有记忆库的注意力得分。

2.吸收新段-丢弃过时片段

因为注意力分布反映了当前视频片段和记忆库中存在的片段的相似性，如果这个片段跟某些已有片段距离足够接近，某些记忆库中的片段就是多余的。为了获得更高的记忆效率，同时避免存储冗余信息，本发明基于注意力分布/>引导的信息熵I_t，自适应地吸收新片段，所述的信息熵I_t根据以下式子得出：

高信息熵则代表了更加平滑的注意力分布，表明更多信息与视频片段s_t包含的记忆不同，而低信息熵则代表信息冗余。本实施例中，若I_t<γ_e，则属于低信息熵，否则属于高信息熵。为了达到更高的记忆效率，当属于低信息熵时，我们吸收根据图2中动量更新，满足I_t<γ_e的冗余视觉特征，由下式得出：

m_i:＝γ_mm_i+(1-γ_m)Summarize(s_t)

其中，γ_e是信息熵门限，γ_m是控制移动平均值影响的参数，Summarize(*)是聚合同一个片段中不同帧特征的操作(如最大池化)。:＝表示赋值。argmax_i表示取i值操作，即表示选取使得/>最大的i值。

对那些与现有记忆库不同的视频片段，我们简单地替换掉适应性记忆中最少使用的片段，同时，计数索引会基于软注意力分布更新，见下式：

其中，count(m_i)和life(m_i)分别代表m_i的计数索引和它在记忆库中留存的生命周期。LFU(m_i)表示m_i的置换得分，将置换得分最小的m_i丢弃，并补充一个新的记忆库，即将当前视频片段s_t的视觉特征经过上(m_i:＝γ_mm_i+(1-γ_m)Summarize(s_t))式压缩后存储进去，保持记忆库的数量不变。

(四)SimulLR模型的训练。

1.使用CTC损失的预训练：首先使用传统CTC损失预训练模型，没有考虑目标序列的语义结构，CTC也在帧同步模式下工作，引入了一组中间CTC路径φ(w)，每条路径由目标词和空白组成，作为目标词序列w，CTC损失可以由下式计算：

其中，表示CTC损失，P_ctc(w|s)表示表示在CTC路径下产生目标序列w的概率，c表示CTC路径上的标记词，s表示视频片段，P(c|s)表示在视频片段s下生成词c的概率。

通过预训练模型，我们能够通过下式训练出带有实时唇语识别损失的解码器。

2.模型预热：尽管更好的视觉编码器(堆叠自注意和前馈层)可以有效促进预测，它也使得训练基于Transducer方法的更深的结构更加困难。本发明我们为更深结构的唇语识别传感器设计了一种模型预热的策略。特别的，1)我们首先应用层数较浅的序列编码器(更少自注意和前馈层)，关注于训练截断的三维卷积层，这就预热了三维卷积层的编码器；2)然后冻结截断三维卷积层的参数，然后使用更深的网络结构，预热序列编码器；3)我们通过提出的损失函数，同时训练视觉预热好的编码器和实时解码器。

3.课程式学习：为了进一步使得训练稳定，最后利用了基于课程式学习的训练范式，首先使用较短的视频作为开始，学习到简单层次的唇语识别，然后逐步加长训练视频的时长。

需要说明的是，本发明提出的实时唇语识别方法不仅仅能得到唇语对应的单词序列，还可以是字符序列、音素序列等其他标记符，这与数据集中提供的目标生成结果有关，本实施例中是以单词序列为例进行说明的。

与前述的一种使用注意力引导自适应记忆的实时唇语识别方法的实施例相对应，本申请还提供了一种使用注意力引导自适应记忆的实时唇语识别系统的实施例，其包括：

数据获取模块，其用于获取没有音频流的唇语视频片段集合s。

实时视觉编码器模块，其采用截断三维时空卷积网络对当前时刻获得的第t个视频片段s_t执行时空卷积，得到的卷积结果经序列编码器编码为视觉特征表达在序列编码器中引入时限自注意机制，掩盖不可获取的视频片段和未来的视频片段，使得当前时刻仅能看到视频片段s_t之前的a个视频片段。

自适应记忆模块，其用于根据记忆库信息加强序列编码器的输出结果，获得强化视觉特征表达；同时根据每一个记忆库在当前时刻的信息熵，对记忆库信息进行更新。

实时跨模态解码器模块，其用于结合历史时刻已生成的预测语句与强化视觉特征表达进行解码；所述的解码器包括一个语言模型和一个联合网络，将历史时刻已生成的预测语句通过一个语言模型进行处理，得到历史语义特征表达；再将历史语义特征表达和强化视觉特征表达作为联合网络的输入执行联合解码，生成当前时刻预测词w_i。

识别结果输出模块，其用于结合历史时刻已生成的预测语句与当前时刻预测词，生成实时唇语识别结果。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为自适应记忆模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

实施例

本发明在下述两个数据集上进行了实验验证。

(1)GRID：GRID数据集包含34000个由34人说出的语句，这个数据集容易学习，因为所有语句都有限制的语法，且包含6到10个词。GRID的词汇也很小，包含51个不同的词，其中有4个命令、4个颜色、4个介词、25个字母、10个数字和4个副词。所有唇动视频都有75帧的固定时长，帧速率为25fps。本实施例随机选取了每个说话者255个句子作为评估。

(2)TCD-TIMIT：TCD_TIMI数据集包含59位说话者，讲出了大概100个语音功能丰富的句子，使得这个数据集更加有挑战性，但是更加贴近实际场景。同时，视频时长和句子长度也相较GRID更长，且可变。

实现细节如下：

(1)数据预处理：对于视频，为了提取到唇动，首先使用Dlib检测器获得了256*256对齐的脸，从对齐脸中裁剪出160*80的以嘴唇为中心的区域，然后缩放到100*60的区域作为视频输入。为了提高识别准确度，我们使用了数据加强策略，包括水平40％概率翻转，以40％概率裁减掉0-5％的水平垂直像素。特别的，我们对更简单的GRID数据集，将视频片段转换为灰度来减少计算消耗。对于句子，我们为GRID数据集构建了一个字母级别的词汇表，为TCD-TIMIT数据集构建了一个音素级别的词汇表，这些与传统的数据预处理工作类似。

(2)模型设置：为了实时解码，我们将可获取段数a设置为2；对于每个视频片段中的帧数n_f，GRID设为3，TCD-TIMIT数据集设为5；记忆库数量k设为20。对于用于提取时空表达的截断三维卷积层，我们堆叠了6个使用最大池化和RELU激活的三维卷积层以及两个全连接层，卷积核大小设为3*3。对于序列编码器和语言模型，我们都堆叠了4个带有前馈网络的自注意层，对GRID数据集设d_hidden＝256，对TCD-TIMIT设d_hidden＝512。联合网络采用一个两层非线性变换。

(3)训练设置：对于GRID数据集，我们使用CTC损失预训练模型，经过10次迭代；然后预热视觉编码器，使用了两个序列编码器层，进行20次迭代；此后训练整个模型，使用4个编码器层，进行100次迭代。

对于TCD-TIMIT数据集，我们使用CTC损失预训练模型经过50次迭代；预热视觉编码器，使用了两个序列编码器层，进行50次迭代；然后训练整个模型，使用4个编码器层，进行150次迭代。

为了训练SimulLR模型，我们使用了Adam优化器；对于初始学习率，GRID数据集设为0.0005，TCD-TIMIT数据集设为0.0003，并且根据更新步，缩小率设为0.99。

(4)评估指标：在推理阶段，SimulLR模型使用适应性记忆进行了实时解码，根据前人工作，对于GRID数据集，我们使用了字符错误率CER和词错误率WER作为评测识别质量的指标；对于TCD-TIMIT数据集，我们使用了音素错误率PER，因为该数据集的输出是音素序列。不同的错误率可以通过下式计算：

S,D,I,M分别是替代、删除、插入和推理标记符(单词)的数目。

为了计算实时解码的延时，我们考虑了非计算感知延迟NCA，将平均NCA延迟AL_NCA定义为：

其中，T_s(ms)是帧采样速率，τ(w)代表单词的索引，d_NCA(w_i)表示对于生成词w_i的NCA延迟，r＝(n·n_f)/u是视频片段和目标词序列的长度比。

与本发明进行对比的模型包括非实时模型(LSTM、lipNet、FastLR、LCANet、DuaLip)和下述实时模型：

LR-RNN-CTC：使用卷积网络和单向循环神经网络作为视觉编码器，通过提到的CTC损失训练实时模型，需要注意的是循环神经网络已经是一个天然的记忆网络，用来组织历史信息。

LR-RNN-TD：进一步考虑生成序列的句法结构，引入语言模型，然后通过Transducer损失训练实时模型。

LR-TM-CTC：使用Transformer架构替换掉RNN序列编码器，使用CTC损失训练模型。

LR-TM-TD：使用Transformer架构，引入语言模型，然后使用Transducer损失训练模型。

表1GRID数据集上的单词错误率(WER)和字符错误率(CER)，和TCD-TIMIT数据集上音素错误率(PER)

如表1所示，可以看到：1)本发明提出的SimulLR比所有对比模型要优秀很多，表明我们的实时唇语识别方法是有效的；2)我们的方法也获得了与前沿非实时方法如DualLip不相上下的结果，尤其是在GRID数据集中，表明了我们方法的潜力。

为了进一步探索我们提出SimulLR的时间效率，我们记录了实时和非实时模型的预测延时并进行比较。

首先测量了DualLip和SimulLR推理的NCA延时，以及对应的识别准确度，n_f设为5和20，评估在Nvidia 2080Ti GPU下进行，结果如表2所示。

表2TCD-TIMIT数据集下，NCA延迟与对应识别准确度在不同段大小下的比较，

结果表明，与非实时方法DualLip相比，SimulLR在n_f＝5的情况下加速了9.10倍，在n_f＝20的情况下加速了4.70倍。同时SimulLR在n_f＝20的情况下也达到了有竞争力的结果，PER为49.743％，同时等待时间更短，这表明适应性记忆用来合并历史信息的强大能力。如图3所示，尤其是对于长句子，本发明相对非实时方法DualLip，加速比增长的很快。这是由于在推理中，非实时模型要等待整个视频处理，使得NCA延迟根据目标序列的长度增长而上升，而SimulLR的NCA延迟接近于保持一个较小的常数。

为了探索实时解码的性能，我们还测量了TCD-TIMIT数据集中不同段大小n_f的NCA延迟和错误率，如图4。注意，对于n_f＝inf表示移除了记忆，所有历史片段都是可获得的。可见，识别准确率随着片段大小增长而增长，但会牺牲NCA延时。注意到在n_f＝20的情况下，SimuulLR获得了比获得所有历史信息的模型更好的表现，表明相比于直接与所有历史片段交互，我们提出的记忆能够更好的组织历史信息，丢弃掉过时的片段，提取到对预测有效的上下文信息。

(5)消融实验：通过逐渐加入不同技术，用来评估每个技术的有效性，评估结果如表3。

表3GRID和TCD-TIMIT上的消融结果

其中，LR Transducer(基准)：我们构建了只有卷积网络和Transformer架构的视觉编码器和帧同步的基于Transducer的实时解码器作为基准模型。

基准+CTC：为了使得训练稳定，同时提升性能，我们首先为基准模型部署了CTC预训练，结果表明CTC预训练对于视觉帧与文本单词的跨模态对齐非常有帮助。

基准+CTC+TC3D：为了加强视觉表达，同时保持实时性，我们将视觉编码器中二维卷积网络替换为了截断三维卷积层，结果表明该层能促进视觉编码器的特征表达。

基准+CTC+TC3D+WARM：为了进一步提升性能，我们使用了预热策略来逐步训练更深网络，结果表明，模型预热技术能进一步促进视觉编码器的特征学习，提升性能。

基准+CTC+TC3D+WARM+MEM：有限历史条件下，为了减少计算消耗，我们进一步加入了注意力引导的适应性记忆来组织历史段的语义信息，同时加强视觉表达。表3表明，使用适应性记忆能极大提升性能，说明提出的记忆能有效组织历史信息、合并全局上下文，加强视觉表达。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，包括以下步骤：

1)获取没有音频流的唇语视频片段集合s；

2)采用截断三维时空卷积网络对当前时刻获得的第t个视频片段s_t执行时空卷积，得到的卷积结果经序列编码器编码为视觉特征表达在序列编码器中引入时限自注意机制，掩盖不可获取的视频片段和未来的视频片段，使得当前时刻仅能看到视频片段s_t之前的a个视频片段；所述截断三维时空卷积网络在时间维度上截断了三维卷积网络，并仅在单个视频片段s_t中执行时空卷积；所述的序列编码器包括多头注意力层和前馈层，在多头注意力层中执行时限自注意机制，将当前时刻可获取的视频片段表示为：

其中，表示生成当前时刻对应的第i个预测词w_i时所能够获取到的部分视频片段集合，s_t为当前时刻读取到的单个视频片段，t＝n(w_i)表示当前时刻获得的视频片段索引；

2.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，所述的语言模型采用一个单向的基于Transformer的语言模型，将历史时刻已生成的预测语句{w₁,w₂,…,w_i-1}作为语言模型的输入，通过语言模型中的多头自注意和前馈层来获取已生成语句的历史上下文信息，输出历史语义特征表达

3.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，所述的自适应记忆模块中包含k个记忆库，表示为{m₁,m₂,…,m_k}，m_k表示第k个记忆库，每一个记忆库中存储一个被压缩后的历史视频片段信息并不断更新；

每次计算当前的视觉特征表达时，调用最新的记忆库{m₁,m₂,…,m_k}，计算出编码器-记忆的相互注意力，获得强化视觉特征表达/>计算公式为：

其中，α_i是第i个记忆力库m_i和视频片段s_t的注意力得分，是第i个记忆力库的注意力分布。

4.根据权利要求3所述的使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，获得强化视觉特征表达之后，更新记忆库，更新过程为：

计算当前记忆库的信息熵I_t：

若I_t<γ_e，则属于低信息熵，更新公式为：

m_i:＝γ_mm_i+(1-γ_m)Summarize(s_t)

其中，:＝表示赋值操作，γ_e是信息熵门限，γ_m是控制移动平均值影响的参数，Summarize(*)是聚合帧特征的操作，argmax_i表示取i值操作，表示选取使得/>最大的i值；

若I_t≥γ_e，则属于高信息熵，引入一个新的记忆库来替换掉过时的记忆库；所述的过时的记忆库的通过计算每一个记忆库的置换得分获得：

其中，count(m_i)和life(m_i)分别代表m_i的计数索引和它在记忆库中留存的生命周期；LFU(m_i)表示m_i的置换得分，将置换得分最小的m_i丢弃，并补充一个新的记忆库m_i:＝γ_mm_i+(1-γ_m)Summarize(s_t)。

5.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，所述的联合网络根据历史语义特征表达和强化视觉特征表达/>计算联合矩阵R；联合矩阵中的元素R_t,i表示对应视频片段s_t与词w_i的词概率分布，是通过将/>连接起来输入一个多层感知机计算得到的。

6.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，利用联合矩阵R计算解码优化目标：

7.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，将所述的截断三维时空卷积网络、序列编码器、解码器进行端到端训练，训练分为三个阶段：

第一阶段：CTC预训练

引入了一组中间CTC路径φ(w)，每条路径由目标词和空白组成，作为目标词序列w，CTC损失由下式计算：

第二阶段：预热

第三阶段：课程式学习

8.一种使用注意力引导自适应记忆的实时唇语识别系统，其特征在于，用于实现权利要求1所述的实时唇语识别方法。