CN113239903B

CN113239903B - 一种跨模态唇读的对抗性双重对比自监督学习方法

Info

Publication number: CN113239903B
Application number: CN202110773180.7A
Authority: CN
Inventors: 张雪毅; 刘丽; 常冲; 刘忠; 龙云利
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-10-01
Anticipated expiration: 2041-07-08
Also published as: CN113239903A

Abstract

本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法，该方法包括视觉编码器、音频编码器、两个具有平均池的多尺度时间卷积网络、身份鉴别器和模态分类器。该方法通过结合基于视听同步的双对比学习、身份对抗训练和模态对抗训练来学习有效的视觉表示。在双对比学习中，将噪声对比估计作为训练目标，来区分真实样本和噪声样本。在对抗训练中，提出了一个身份鉴别器和一个模态分类器用于视听表示，身份鉴别器用来区分输入的视觉特征是否具有共同的身份，模态分类器是预测输入特征是属于视觉模态还是音频模态，然后利用动量梯度反转层实现对抗性训练。

Description

一种跨模态唇读的对抗性双重对比自监督学习方法

技术领域

本发明属于图像处理领域，具体是涉及到一种跨模态唇读的对抗性双重对比自监督学习方法。

背景技术

监督深度学习在图像分类、目标检测与分割、语音识别、机器翻译等许多领域都取得了革命性的进展。尽管监督学习在过去的几年里取得了显著的进步，但它的成功很大程度上依赖于大量的人工注释训练数据。然而，对于一些特定的任务，例如唇读，注释的成本可能非常昂贵。近年来，自监督学习因其高标记效率和良好的泛化能力而受到越来越多的关注。自监督学习方法在自然语言处理、计算机视觉和跨模表示学习中显示出了巨大的潜力。

人类在言语感知过程中，既依赖于听声音，又依赖于看唇动。如果我们听到的声音与我们看到的唇动不匹配，我们会感到困惑，这意味着声音和唇动传达的是相同的语音信息。在这一观察的驱动下，声音和唇动可以自然地被视为相互监督的信号，以学习多种下游任务的辨别性A-V表示（视听表示），如跨模态检索、语音识别和唇读。

基于深度学习的唇读工作主要集中在可视化前端网络和序列后端网络这两个子网的架构设计上。在视觉前端网络的设计上，很多文献利用深度卷积进行视觉特征提取。唇读任务主要有两个:单词水平和句子水平。前者是对输入视频中的孤立单词进行分类，通常采用多分类交叉熵损失训练。后者用于句子级序列预测，可以使用连接主义者时间分类损失(CTC)和序列间损失来训练模型。视听自监督学习的目的是在不需要任何人工标注的情况下，从同时发生的视听数据对中提取有效的表示。基于音频和视频的自然同步特性，现有的方法主要采用对比学习来实现这一目标。

发明内容

给定一个说话的面部视频，嘴唇的动作和音频是自然地同时发生和同步的。以往在这方面的研究尝试采用两两对比的策略，使视觉嵌入与相应的音频嵌入更接近并进一步远离非相应的音频嵌入，尽管取得了显著的进步，但这些方法有以下缺点：首先，两两对比学习需要人工选择负样本，其效果很大程度上取决于负样本的有效性；其次，表示学习仅依赖于同步的音视频数据对，其他自监督信号，如说话者相关信息和模态信息，也可以用来优化学习表示的质量，但是这些自监控信号通常在以前的工作中被忽略。

为了解决这些缺陷，本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法(Adversarial Dual-Contrast Self-Supervised Learning，ADC-SSL)，该方法包括视觉编码器，音频编码器，两个具有平均池的多尺度时间卷积网络，身份鉴别器和模态分类器，该方法通过结合基于A-V同步的双对比学习，身份对抗训练和模态对抗训练来学习有效的视觉表示，在A-V同步的双对比学习中，视觉编码器和音频编码器用来提取A-V嵌入（A表示音频，V表示视频），使用基于噪声对比估计的损失函数训练所述A-V嵌入，得到短时的A-V同步表示，使用两个具有平均池的多尺度时间卷积网络用来聚合所述短时的A-V同步表示的全局语音信息。在身份对抗训练和模态对抗训练中，身份鉴别器用来区分输入的A-V嵌入是否具有共同的身份，模态分类器预测输入A-V嵌入是属于视觉模态还是音频模态，然后利用基于动量更新的动量梯度反转层实现对抗性训练。

给出一个嘴巴说话的视频

以及相应的音频

，视觉编码器

和音频编码器

用来提取A-V嵌入。为了保证A-V嵌入的一致性，音频编码器网络和视觉编码器网络都以相同的时长摄取剪辑。

双对比学习目标

和

的目的是使视觉嵌入在短时间尺度和长时间尺度上更接近于相应的音频嵌入。对抗性学习目标

和

使学习到的嵌入不分模式信息和身份信息。

本发明将噪声对比估计(NCE)作为训练目标。NCE构造了一个二值分类任务，其目标是区分真实样本和噪声样本。本发明提出了一种基于NCE的对比损失用于实现A-V同步的前置任务。

设

和

分别为视觉表示和音频表示，其中𝑇为时间时长，然后，随机抽取一小批量

样本，产生

嵌入。从一个小批量中给出一个可视化的嵌入

，将相应的音频嵌入

作为正样本，其他

嵌入作为负样本。其中

表示小批量的示例索引，

表示步伐。使用

来测量两个嵌入

和

之间的相似度。然后，一个正对

的损失函数定义为

其中

是温度超参数，本质上，这只是一个简单的

方式的交叉熵损失，它将一个小批量内的所有其他负对中的正对区分出来。这种损失使得正配对的相似性高于负配对的相似性。这个损失是基于短时间的A-V同步，短时间同步损失

在一个小批量中是:

与以往工作中使用的手工选择负样本和复杂的学习策略相比，

集成了困难负样本(嵌入来自相同的视频和音频)和容易负样本(嵌入来自一个小批量中其他视频在)，这明显简化了训练。

实际上，

是基于精确同步的假设进行的。然而，在视频中有时会出现不同步的问题。

在不同步视频上执行可能会影响性能。基于此，建议基于语音匹配对整个视频进行对比学习。为此，引入了两个具有平均池的多尺度时间卷积网络(MSTCN)来聚合用于短时的A-V同步表示的全局语音信息，记为

和

。让

和

，与

类似，长时间同步损失

可以定义为:

基于上述的双对比学习方法，可以在很大程度上缓解非同步例子所带来的负面影响。

本发明还提出了两个新颖而简单的前置任务来迫使学习到的A-V表示从身份相关信息和模态信息中分离出来。两个对抗性前置任务是基于自监督的对抗性训练来执行的。

身份识别的依据是，来自单个视频的表征具有相同的身份。构建一个身份鉴别器

，其目的是区分两个输入嵌入是否具有相同的身份。两种输入嵌入都是从视觉编码器的输出中随机抽取的。然后，身份辨别损失

可以定义为:

这是一个简单的二元交叉熵损失用于双向分类。其中

是总采样数，

是第i次抽样从特征集中抽取的两个特征样本，

是单位标号。

类似于上面提到的身份识别，模态分类器构建了一个模态分类器

，其目的是区分输入嵌入是否从音频编码器中提取。然后是模态分类损失

是：

为了使表示从身份相关信息和模态信息中分离出来，本发明提出了一个新的梯度反转层(GRL)的应用。GRL用于学习领域无关的特征。在网络的向前传递过程中GRL扮演着身份函数的角色。在梯度反向通道阶段，GRL将相应分支的加权梯度反向流动。在身份鉴别器和模态分类器的顶部添加了GRL层。因此，GRL将反向传播到编码器网络

和

的加权梯度的符号进行反转，基于动量更新的梯度反转层对梯度更新中的加权超参数进行动量更新。

结合双对比损失、模态分类损失和身份鉴别器损失，本发明提出的ADC-SSL方法的最终损失函数可以写成:

并通过以上公式对网络进行端到端的训练。

网络体系结构主要包括：

视觉编码器采用ResNet34的一个简单变体，在本发明中称为C3D_ResNet34，作为视觉编码器网络

。C3D_ResNet34只将第一个卷积核展开为3D核，时间接受场为5，并去掉最后一个全连接层。

音频编码器与类似，音频编码器网络

基于VGG-M卷积模型，但针对音频MFCCs特性修改了滤波器尺寸。

多尺度时间卷积网络（MSTCN），其函数

和

是从短时间表示中聚合多尺度语音信息。它们由三个堆叠的多尺度膨胀TCN层、一个全连通(FC)层和一个平均池化层组成。

身份鉴别器

由一个卷积层、两个线性层和一个softmax传输函数激活层叠加而成。卷积层是对两个输入嵌入进行聚合。模态分类器

由两个线性层和一个softmax传输函数激活层组成。

本发明的有益效果是，本发明考虑了基于噪声对比估计(NCE)的对比损失，NCE损失使得嵌入远不是一个负样本，而是多个负样本。此外，本发明还在短时间和长时间的视听表示上都采用了对比学习方法，这种双对比方法可以通过整合多尺度语音信息进一步优化表示学习。

在对抗性训练中，从单个视频中提取的视觉表征具有共同的特征;否则，身份信息不同。其目的是迫使学习到的视觉呈现摆脱身份信息和模态信息。为此，本发明提出了一个标识识别器和一个模态分类器用于A-V表示。前者的功能是区分输入的视觉特征是否具有共同的身份;后者是预测输入特征是属于视觉模态还是音频模态,然后利用梯度反转层实现对抗性训练。原有的GRL很难平衡这些不同的训练目标。为了解决这一问题，本发明提出了动量梯度反转层(M-GRL)。基于动量更新机制的M-GRL算法通过自动学习最优加权超参数来优化训练过程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为ADC-SSL方法的总体流程；

图2为嵌入空间中的嵌入表示视觉编码器和音频编码器的输出；

图3为

和

前70000次迭代的曲线；

图4为训练和验证的精度曲线。

具体实施方式

如图1所示，给出一个嘴巴说话的视频

以及相应的音频

，首先介绍了一种视觉编码器

和一个音频编码器

来提取A-V嵌入。为了保证A-V嵌入的一致性，音频编码器网络和视觉编码器网络都以相同的时长摄取剪辑，一般为0.2秒。具体来说，音频编码器的输入是13维梅尔频率倒谱系数(MFCCs)，每10ms提取一次，帧长25ms。输入到视觉编码器的是5个连续的以口腔为中心裁剪的视频(= 25)帧。

为了学习有效的唇读视觉表征，引入了三种前置任务。双对比学习目标

和

和

使学习到的嵌入不分模式信息和身份信息。

之前的方法大多采用两两对比的策略来训练模型，这就造成了负面挖掘的困难。此外，最近在自监督学习方面的研究进展表明，训练可以从更多的消极因素中获得显著的好处。基于此，本发明将噪声对比估计

作为训练目标。

构造了一个二值分类任务，其目标是区分真实样本和噪声样本，并提出了一种基于NCE的对比损失用于实现A-V同步的前置任务。

设

和

分别表示视觉表示和音频表示，其中T为时间时长，然后，随机抽取一小批量N样本，并针对从该小批量衍生的A-V对定义了同步任务，从而产生

嵌入。从一个小批量中给出一个可视化的嵌入

(以及音频嵌入)，将相应的音频嵌入

作为正样本，其他

嵌入作为负样本。其中

表示小批量的示例索引，t表示步伐。使用

来测量两个嵌入

和

之间的相似度。然后，一个正对

的损失函数定义为

其中

是温度超参数，本质上，这只是一个简单的

在一个小批量中是：

。

集成了困难负样本(嵌入来自相同的视频和音频)和容易负样本(嵌入来自小批量中其他视频)，这明显简化了训练。

实际上，

在不同步视频上执行可能会影响性能。基于此，建议基于语音匹配对整个视频进行对比学习。为此，引入了两个具有平均池的多尺度时间卷积网络(MSTCN)来聚合用于短时A-V同步表示的全局语音信息，记为

和

。如图2所示，让

和

，与

类似，长时间同步损失

可以定义为：

。

基于上述的双对比学习方法，本发明可以在很大程度上缓解非同步例子所带来的负面影响。

本发明还提出了两个新颖而简单的前置任务来迫使学习到的A-V表示从身份相关信息和模态信息中分离出来。两个对抗性前置任务(如图2所示)是基于自监督的对抗性训练来执行的。

身份识别。身份识别的依据是，来自单个视频的表征具有相同的身份。构建一个身份鉴别器

，其目的是区分两个输入嵌入是否具有相同的身份。两种输入嵌入都是从视觉编码器的输出中随机抽取的。然后,身份辨别损失

可以定义为:

实际上，这是一个简单的二元交叉熵损失用于双向分类。其中

是总采样数，

第i次抽样从特征集中抽取的两个特征样本，

是单位标号。

模态分类。类似于上面提到的身份识别，构建了一个模态分类器

是：

动量梯度反转层。为了使表示从身份相关信息和模态信息中分离出来，提出了一个新的梯度反转层(GRL)的应用。GRL用于学习领域无关的特征。在网络的向前传递过程中GRL扮演着身份函数的角色。在梯度反向通道阶段，GRL将相应分支的加权梯度反向流动。受此启发，在身份鉴别器

和模态分类器

的顶部添加了GRL层。因此，GRL将反向传播到编码器网络

和

的加权梯度的符号进行反转。

通过这种方式，对抗性训练的目标是进行极大极小学习，可以写成:

。

其中，

，

，

和

分别是

，

，

和

的参数。具体来说，A-V 编码器网络被训练来最大化

和

，而模态分类器和身份鉴别器则尽量减少损失。

的梯度更新

可以写成:

其中

是学习速率。

,

为GRL上应用的加权超参数。固定的

，

会使训练变得不稳定，甚至不收敛。为了在对比学习和对抗训练之间取得更好的平衡，提出了M-GRL对加权超参数

，

进行动量更新。

以模态分类器为例，应根据模态分类器的不确定性动态调整加权超参数。当不确定性很高时，网络应该更多地关注对比目标。否则，更要重视对抗性训练。具体来说，将不确定性量化为

。

的最大值是

。其中C是类别的数目

，

为类别C的概率。为此，将

重新表述为：

其中

和

被超参数约束。在实验中，设置

=0.5和

=0.001。为了保证训练的稳定性，用动量机制更新

。

在这里

是动量系数，

为当前小批量的不确定性。通过这种方式，

可自动优化至最佳值。M-GRL 同样适用于身份鉴别器。

整体损失。结合双对比损失、模态分类损失和身份鉴别器损失，本发明提出的ADC-SSL方法的最终损失函数可以写成:

并通过以上公式对网络进行端到端的训练。

网络体系结构主要包括：

音频编码器与类似，音频编码器网络

基于VGG-M卷积模型，但针对音频MFCCs特性修改了滤波器尺寸。

MSTCN 中函数

和

是从短时间表示中聚合多尺度语音信息。它们由三个堆叠的多尺度膨胀 TCN 层、一个全连通(FC)层和一个平均池化层组成。

身份鉴别器

由一个卷积层、两个线性层和一个 softmax 传输函数激活叠加而成。卷积层是对两个输入嵌入进行聚合。模态分类器

由两个线性层和一个softmax 传输函数激活层组成。

数据集和技术细节如下：

（1）LRW。LRW 数据集是常用的词级视觉语音分类任务。它由多达 1000 个语音500 个不同的英语单词，由数百个不同的人说。每个视频的长度为 1.16 秒(29 帧)，在视频中间会说出一个单词。

（2）LRS3。这个数据集都是句子级唇读任务常用的数据集，包含三个集：预训练集、验证集、测试集。LRS3 是从 TED 和 TEDx 视频中选取的，包含超过 420 万单词，词汇量为51000。本发明使用的数据集统计如表 1 所示。

表1 用于训练和测试的数据集的描述

（3）技术细节。对于所有的数据集，使用人脸对齐检测器为每个视频帧检测68个人脸地标点。对于视觉编码器的输入，根据检测到的标志点裁剪出大小为112×112像素的口腔中心视频。视频输入被转换为灰度，所有帧根据所有视频的总体均值和方差进行归一化。将表示映射到应用对比损失的嵌入空间。对于超参数，“温度超参数”

设为0.07，动量系数

。采用标准的Adam算法对整个网络参数进行优化。Adam权重衰减是0.0001，Adam动量是0.9。对于视觉输入，使用数据增强技术，例如水平翻转和随机移动。

M-GRL的有效性，原始的GRL对网络的训练会导致不稳定甚至不收敛。在这里，进一步阐述了M-GRL的有效性。假设在这里应用原始的GRL，这里的

，

是常数。在实验中会发现很难设定

，

合适的值。取

为例。如果

= 0.1，

几乎收敛为零。也就是说，模态对抗性训练根本不起作用。如果

= 0.5，训练过于关注对抗性目标，经过几次迭代后不收敛。与原有的模糊学习模型相比，本发明所提出的M-GRL模型在对比学习和对抗训练之间取得了更好的平衡。图3列出了训练过程中的

和

曲线。经过一些迭代，

,

都收敛到最优值从而使对比学习和对抗训练保持平衡。

跨通道检索，采用跨模态检索任务来评价A-V表示之间的相似度。对LRW测试集(共25000个样本)进行跨模态检索。给定一个源视频(音频)，目标是根据表示的余弦相似度找到匹配的音频(视频)。这里报告@1和@10的结果，如表2所示，本发明的方法明显优于基线方法。

表2 不同训练目标下1:25000 A-V检索结果

消融实验，为了评估三种前置任务对检索结果的影响，本发明还进行了几种消融实验。以双对比学习为基准。然后对同一性对抗训练和模态对抗训练的效果进行了消融研究。如表2所示，采用双对比学习和模态对抗训练的方法得到了最好的结果。然而，身份对抗训练的引入对跨模态检索有副作用。这证明除了语音信息外，身份信息也可以用于跨模态检索。

单词级别的唇读，在LRW上进行词级唇读的目的是根据输入的视频识别孤立的词类。在此任务上的实验表明，ADC-SSL学习的视觉表征对唇读是有效的。在没有对视觉编码器网络进行任何微调的情况下，使用由提出的自监督方法学习到的表示与最先进的自监督基线进行性能比较。此外，在相同的网络架构下，还将其性能与从头训练的完全监督的对等体进行了比较。

单词级别唇读网络包含两个子网络:前端视觉编码器和后端序列网络。前端架构直接取自可视编码器

。对于后端网络，提出了一个2层的时间卷积网络，然后是一个500路的softmax传输函数分类层。这种简单的后端分类器被广泛用于评估学习到的视觉表示的有效性。遵循公共评估协议，其中只有后端在固定的视觉编码器网络上训练分类器，并将LRW上的测试精度作为表征质量的代表。结果如表3所示。ADC-SSL训练方法大大超过了最先进的自监督方法。本实验还提供了消融研究的结果。结果表明，在本发明使用的所有四个训练目标对分类性能都是有用的，其中短时间同步

对该实验结果的贡献最大。

表3

值得注意的是，本发明的结果(83.9%)甚至超过了受监督的对应结果(79.1%)。图4给出了这两种方法的训练曲线，图4中，曲线a为固定视觉编码器的训练曲线的训练精度曲线，曲线b为从零开始的训练曲线的训练精度曲线，曲线c为固定视觉编码器的训练曲线的验证精度曲线，曲线d为从零开始的训练曲线的验证精度曲线。

可以看到，经过10个周期，训练准确率基本相同(约95%)。但验证精度差异明显(约3%)。这一现象表明，与从零开始训练相比，通过自监督方法学习到的表示可以有效地防止过拟合。此外，还列出了基于自监督的预训练对整个网络进行微调的结果。与本发明的结果相比，它的性能并没有显著改善(83.9% vs 84.0%)。

句子级唇读，句子级唇读的目的是通过说话人的嘴的运动来推断讲话的内容。与单词级唇读任务相比，该任务更复杂，更实用。为了进一步评估学习到的视觉表征的质量，本发明提供了这个任务的实验结果。目前还没有用于这项任务的自监督学习的基准方法，所以直接将其与最先进的端到端方法进行比较。

Transformer的后端。对于句子级唇读任务，输出维度为39，包括26个字母、10个数字、1个标点“’”以及[空格]和[EOS]。序列后端网络采用常用的Transformer变种(Transformer_seq2seq)网络。在这个变体中，本发明去掉了Transformer编码器部分的嵌入层，因为输入是视觉表示，而不是词类索引。此外，解码器的最后一个完全连接层的输出维度被更改为39，以适应词汇表的大小。

评估协议。对于所有的实验，本发明报告了字符错误率(CER)和单词错误率(WER)。CER定义为

，其中S、D、I分别为假设进行替换、删除和插入的次数，N为参考文献的字符数。WER和CER的计算方法相同。区别在于该公式是适用于字符级别还是单词级别。

训练的细节。利用LRS3的前训练集进行自监督学习。之后，视觉编码器中的参数被固定。在Transformer后端训练时，从2个伴随词开始训练，然后随着训练的进行逐渐增加单词的数量。由于输入视频中每个单词的时间都是标记的，所以可以很容易地选择数据集中任意一个连续的句子实例，得到长输入视频中相应的帧。该模型首先在LRS3文本标注的预处理集上进行训练。然后分别在LRS3的训练集-验证集集合上进行微调。

Transformer接受了强迫策略的训练。在训练过程中，将前一个解码步骤的真实数据作为解码器的输入。在推理阶段，解码器的预测在最后的时间步反馈到解码器的输入。解码采用宽度为6的波束搜索。为了进行公平的性能比较，不使用外部语言模型来优化预测结果。

比较评估。结果如表4所示。ADC-SSL自监督方法在LRS3数据集上都超过了最新的完全监督方法，没有在视觉编码器前端进行任何调整。

表4 句子级别唇读的结果

值得注意的是，有些SOTA方法(如TM- CTC, TM-seq2seq, CTC+KD)需要在额外的单词级别唇读数据集上进行预训练，如LRW数据集。其中TM-seq2seq和TM-CTC在句子级别MV-LRS数据集上对可视化前端进行预训练。建议仅在LRS3的训练前数据集上进行自监督训练。此外，CTC+KD的结果是通过在大规模纯音频语料库上训练的自动语音识别(ASR)模型中提取知识获得的。

为了更好地进行比较，在没有额外数据集的情况下重现了监督版本，结果列在表4的倒数第二列。可以看到，本发明的自监督训练方法明显优于从零开始的训练。这也为跨模态自监督训练可以有效防止过拟合的猜想提供了证据。

综上所述，基于ADC-SSL方法的自监督训练能够提取唇读的有效视觉表征。通过对单词级唇读任务和句子级唇读任务的实验和分析，证明本发明所提出的自监督训练能够有效地防止过拟合。

Claims

1.一种跨模态唇读的对抗性双重对比自监督学习方法，其特征是，该方法包括视觉编码器，音频编码器，两个具有平均池的多尺度时间卷积网络，身份鉴别器和模态分类器，该方法通过结合基于A-V同步的双对比学习，身份对抗训练和模态对抗训练来学习有效的视觉表示，在A-V同步的双对比学习中，使用视觉编码器和音频编码器分别从输入的视频和音频中提取，得到A-V嵌入，使用基于噪声对比估计的损失函数训练所述A-V嵌入，得到短时的A-V同步表示，使用两个具有平均池的多尺度时间卷积网络用来聚合所述短时的A-V同步表示的全局语音信息，在身份对抗训练和模态对抗训练中，身份鉴别器用来区分输入的A-V嵌入是否具有共同的身份，模态分类器预测输入的A-V嵌入是属于视觉模态还是音频模态，然后利用基于动量更新的动量梯度反转层实现对抗性训练，其中所述视觉编码器采用