CN113239903B - 一种跨模态唇读的对抗性双重对比自监督学习方法 - Google Patents
一种跨模态唇读的对抗性双重对比自监督学习方法 Download PDFInfo
- Publication number
- CN113239903B CN113239903B CN202110773180.7A CN202110773180A CN113239903B CN 113239903 B CN113239903 B CN 113239903B CN 202110773180 A CN202110773180 A CN 202110773180A CN 113239903 B CN113239903 B CN 113239903B
- Authority
- CN
- China
- Prior art keywords
- modal
- visual
- audio
- training
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000008485 antagonism Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 74
- 230000000007 visual effect Effects 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims description 21
- 238000012546 transfer Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims 5
- 230000004931 aggregating effect Effects 0.000 claims 2
- 230000000644 propagated effect Effects 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 8
- 230000003042 antagnostic effect Effects 0.000 description 6
- 238000002679 ablation Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法,该方法包括视觉编码器、音频编码器、两个具有平均池的多尺度时间卷积网络、身份鉴别器和模态分类器。该方法通过结合基于视听同步的双对比学习、身份对抗训练和模态对抗训练来学习有效的视觉表示。在双对比学习中,将噪声对比估计作为训练目标,来区分真实样本和噪声样本。在对抗训练中,提出了一个身份鉴别器和一个模态分类器用于视听表示,身份鉴别器用来区分输入的视觉特征是否具有共同的身份,模态分类器是预测输入特征是属于视觉模态还是音频模态,然后利用动量梯度反转层实现对抗性训练。
Description
技术领域
本发明属于图像处理领域,具体是涉及到一种跨模态唇读的对抗性双重对比自监督学习方法。
背景技术
监督深度学习在图像分类、目标检测与分割、语音识别、机器翻译等许多领域都取得了革命性的进展。尽管监督学习在过去的几年里取得了显著的进步,但它的成功很大程度上依赖于大量的人工注释训练数据。然而,对于一些特定的任务,例如唇读,注释的成本可能非常昂贵。近年来,自监督学习因其高标记效率和良好的泛化能力而受到越来越多的关注。自监督学习方法在自然语言处理、计算机视觉和跨模表示学习中显示出了巨大的潜力。
人类在言语感知过程中,既依赖于听声音,又依赖于看唇动。如果我们听到的声音与我们看到的唇动不匹配,我们会感到困惑,这意味着声音和唇动传达的是相同的语音信息。在这一观察的驱动下,声音和唇动可以自然地被视为相互监督的信号,以学习多种下游任务的辨别性A-V表示(视听表示),如跨模态检索、语音识别和唇读。
基于深度学习的唇读工作主要集中在可视化前端网络和序列后端网络这两个子网的架构设计上。在视觉前端网络的设计上,很多文献利用深度卷积进行视觉特征提取。唇读任务主要有两个:单词水平和句子水平。前者是对输入视频中的孤立单词进行分类,通常采用多分类交叉熵损失训练。后者用于句子级序列预测,可以使用连接主义者时间分类损失(CTC)和序列间损失来训练模型。视听自监督学习的目的是在不需要任何人工标注的情况下,从同时发生的视听数据对中提取有效的表示。基于音频和视频的自然同步特性,现有的方法主要采用对比学习来实现这一目标。
发明内容
给定一个说话的面部视频,嘴唇的动作和音频是自然地同时发生和同步的。以往在这方面的研究尝试采用两两对比的策略,使视觉嵌入与相应的音频嵌入更接近并进一步远离非相应的音频嵌入,尽管取得了显著的进步,但这些方法有以下缺点:首先,两两对比学习需要人工选择负样本,其效果很大程度上取决于负样本的有效性;其次,表示学习仅依赖于同步的音视频数据对,其他自监督信号,如说话者相关信息和模态信息,也可以用来优化学习表示的质量,但是这些自监控信号通常在以前的工作中被忽略。
为了解决这些缺陷,本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法(Adversarial Dual-Contrast Self-Supervised Learning,ADC-SSL),该方法包括视觉编码器,音频编码器,两个具有平均池的多尺度时间卷积网络,身份鉴别器和模态分类器,该方法通过结合基于A-V同步的双对比学习,身份对抗训练和模态对抗训练来学习有效的视觉表示,在A-V同步的双对比学习中,视觉编码器和音频编码器用来提取A-V嵌入(A表示音频,V表示视频),使用基于噪声对比估计的损失函数训练所述A-V嵌入,得到短时的A-V同步表示,使用两个具有平均池的多尺度时间卷积网络用来聚合所述短时的A-V同步表示的全局语音信息。在身份对抗训练和模态对抗训练中,身份鉴别器用来区分输入的A-V嵌入是否具有共同的身份,模态分类器预测输入A-V嵌入是属于视觉模态还是音频模态,然后利用基于动量更新的动量梯度反转层实现对抗性训练。
本发明将噪声对比估计(NCE)作为训练目标。NCE构造了一个二值分类任务,其目标是区分真实样本和噪声样本。本发明提出了一种基于NCE的对比损失用于实现A-V同步的前置任务。
设和分别为视觉表示和音频表示,其中𝑇为时间时长,然后,随机抽取一小批量样本,产生嵌入。从一个小批量中给出一个可视化的嵌入,将相应的音频嵌入作为正样本,其他嵌入作为负样本。其中表示小批量的示例索引,表示步伐。使用来测量两个嵌入和之间的相似度。然后,一个正对的损失函数定义为
其中是温度超参数,本质上,这只是一个简单的方式的交叉熵损失,它将一个小批量内的所有其他负对中的正对区分出来。这种损失使得正配对的相似性高于负配对的相似性。这个损失是基于短时间的A-V同步,短时间同步损失在一个小批量中是:
实际上,是基于精确同步的假设进行的。然而,在视频中有时会出现不同步的问题。在不同步视频上执行可能会影响性能。基于此,建议基于语音匹配对整个视频进行对比学习。为此,引入了两个具有平均池的多尺度时间卷积网络(MSTCN)来聚合用于短时的A-V同步表示的全局语音信息,记为 和 。让和,与类似,长时间同步损失可以定义为:
基于上述的双对比学习方法,可以在很大程度上缓解非同步例子所带来的负面影响。
本发明还提出了两个新颖而简单的前置任务来迫使学习到的A-V表示从身份相关信息和模态信息中分离出来。两个对抗性前置任务是基于自监督的对抗性训练来执行的。
为了使表示从身份相关信息和模态信息中分离出来,本发明提出了一个新的梯度反转层(GRL)的应用。GRL用于学习领域无关的特征。在网络的向前传递过程中GRL扮演着身份函数的角色。在梯度反向通道阶段,GRL将相应分支的加权梯度反向流动。在身份鉴别器和模态分类器的顶部添加了GRL层。因此,GRL将反向传播到编码器网络和的加权梯度的符号进行反转,基于动量更新的梯度反转层对梯度更新中的加权超参数进行动量更新。
结合双对比损失、模态分类损失和身份鉴别器损失,本发明提出的ADC-SSL方法的最终损失函数可以写成:
并通过以上公式对网络进行端到端的训练。
网络体系结构主要包括:
视觉编码器采用ResNet34的一个简单变体,在本发明中称为C3D_ResNet34,作为视觉编码器网络。C3D_ResNet34只将第一个卷积核展开为3D核,时间接受场为5,并去掉最后一个全连接层。
本发明的有益效果是,本发明考虑了基于噪声对比估计(NCE)的对比损失,NCE损失使得嵌入远不是一个负样本,而是多个负样本。此外,本发明还在短时间和长时间的视听表示上都采用了对比学习方法,这种双对比方法可以通过整合多尺度语音信息进一步优化表示学习。
在对抗性训练中,从单个视频中提取的视觉表征具有共同的特征;否则,身份信息不同。其目的是迫使学习到的视觉呈现摆脱身份信息和模态信息。为此,本发明提出了一个标识识别器和一个模态分类器用于A-V表示。前者的功能是区分输入的视觉特征是否具有共同的身份;后者是预测输入特征是属于视觉模态还是音频模态,然后利用梯度反转层实现对抗性训练。原有的GRL很难平衡这些不同的训练目标。为了解决这一问题,本发明提出了动量梯度反转层(M-GRL)。基于动量更新机制的M-GRL算法通过自动学习最优加权超参数来优化训练过程。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为ADC-SSL方法的总体流程;
图2为嵌入空间中的嵌入表示视觉编码器和音频编码器的输出;
图4为训练和验证的精度曲线。
具体实施方式
如图1所示,给出一个嘴巴说话的视频以及相应的音频,首先介绍了一种视觉编码器和一个音频编码器来提取A-V嵌入。为了保证A-V嵌入的一致性,音频编码器网络和视觉编码器网络都以相同的时长摄取剪辑,一般为0.2秒。具体来说,音频编码器的输入是13维梅尔频率倒谱系数(MFCCs),每10ms提取一次,帧长25ms。输入到视觉编码器的是5个连续的以口腔为中心裁剪的视频(= 25)帧。
之前的方法大多采用两两对比的策略来训练模型,这就造成了负面挖掘的困难。此外,最近在自监督学习方面的研究进展表明,训练可以从更多的消极因素中获得显著的好处。基于此,本发明将噪声对比估计作为训练目标。构造了一个二值分类任务,其目标是区分真实样本和噪声样本,并提出了一种基于NCE的对比损失用于实现A-V同步的前置任务。
设和分别表示视觉表示和音频表示,其中T为时间时长,然后,随机抽取一小批量N样本,并针对从该小批量衍生的A-V对定义了同步任务,从而产生嵌入。从一个小批量中给出一个可视化的嵌入(以及音频嵌入),将相应的音频嵌入作为正样本,其他嵌入作为负样本。其中表示小批量的示例索引,t表示步伐。使用来测量两个嵌入和之间的相似度。然后,一个 正对的损失函数定义为
其中是温度超参数,本质上,这只是一个简单的方式的交叉熵损失,它将一个小批量内的所有其他负对中的正对区分出来。这种损失使得正配对的相似性高于负配对的相似性。这个损失是基于短时间的A-V同步,短时间同步损失在一个小批量中是:
实际上,是基于精确同步的假设进行的。然而,在视频中有时会出现不同步的问题。在不同步视频上执行可能会影响性能。基于此,建议基于语音匹配对整个视频进行对比学习。为此,引入了两个具有平均池的多尺度时间卷积网络(MSTCN)来聚合用于短时A-V同步表示的全局语音信息,记为 和 。如图2所示,让和,与类似,长时间同步损失可以定义为:
基于上述的双对比学习方法,本发明可以在很大程度上缓解非同步例子所带来的负面影响。
本发明还提出了两个新颖而简单的前置任务来迫使学习到的A-V表示从身份相关信息和模态信息中分离出来。两个对抗性前置任务(如图2所示)是基于自监督的对抗性训练来执行的。
身份识别。身份识别的依据是,来自单个视频的表征具有相同的身份。构建一个身份鉴别器,其目的是区分两个输入嵌入是否具有相同的身份。两种输入嵌入都是从视觉编码器的输出中随机抽取的。然后,身份辨别损失可以定义为:
动量梯度反转层。为了使表示从身份相关信息和模态信息中分离出来,提出了一个新的梯度反转层(GRL)的应用。GRL用于学习领域无关的特征。在网络的向前传递过程中GRL扮演着身份函数的角色。在梯度反向通道阶段,GRL将相应分支的加权梯度反向流动。受此启发,在身份鉴别器和模态分类器的顶部添加了GRL层。因此,GRL将反向传播到编码器网络和的加权梯度的符号进行反转。
通过这种方式,对抗性训练的目标是进行极大极小学习,可以写成:
以模态分类器为例,应根据模态分类器的不确定性动态调整加权超参数。当不确定性很高时,网络应该更多地关注对比目标。否则,更要重视对抗性训练。具体来说,将不确定性量化为。的最大值是。其中C是类别的数目,为类别C的概率。为此,将重新表述为:
整体损失。结合双对比损失、模态分类损失和身份鉴别器损失,本发明提出的ADC-SSL方法的最终损失函数可以写成:
并通过以上公式对网络进行端到端的训练。
网络体系结构主要包括:
视觉编码器采用ResNet34的一个简单变体,在本发明中称为C3D_ResNet34,作为视觉编码器网络。C3D_ResNet34只将第一个卷积核展开为3D核,时间接受场为5,并去掉最后一个全连接层。
数据集和技术细节如下:
(1)LRW。LRW 数据集是常用的词级视觉语音分类任务。它由多达 1000 个语音500 个不同的英语单词,由数百个不同的人说。每个视频的长度为 1.16 秒(29 帧),在视频中间会说出一个单词。
(2)LRS3。这个数据集都是句子级唇读任务常用的数据集,包含三个集:预训练集、验证集、测试集。LRS3 是从 TED 和 TEDx 视频中选取的,包含超过 420 万单词,词汇量为51000。本发明使用的数据集统计如表 1 所示。
表1 用于训练和测试的数据集的描述
(3)技术细节。对于所有的数据集,使用人脸对齐检测器为每个视频帧检测68个人脸地标点。对于视觉编码器的输入,根据检测到的标志点裁剪出大小为112×112像素的口腔中心视频。视频输入被转换为灰度,所有帧根据所有视频的总体均值和方差进行归一化。将表示映射到应用对比损失的嵌入空间。对于超参数,“温度超参数”设为0.07,动量系数。采用标准的Adam算法对整个网络参数进行优化。Adam权重衰减是0.0001,Adam动量是0.9。对于视觉输入,使用数据增强技术,例如水平翻转和随机移动。
M-GRL的有效性,原始的GRL对网络的训练会导致不稳定甚至不收敛。在这里,进一步阐述了M-GRL的有效性。假设在这里应用原始的GRL,这里的,是常数。在实验中会发现很难设定,合适的值。取为例。如果 = 0.1,几乎收敛为零。也就是说,模态对抗性训练根本不起作用。如果 = 0.5,训练过于关注对抗性目标,经过几次迭代后不收敛。与原有的模糊学习模型相比,本发明所提出的M-GRL模型在对比学习和对抗训练之间取得了更好的平衡。图3列出了训练过程中的和曲线。 经过一些迭代,,都收敛到最优值从而使对比学习和对抗训练保持平衡。
跨通道检索,采用跨模态检索任务来评价A-V表示之间的相似度。对LRW测试集(共25000个样本)进行跨模态检索。给定一个源视频(音频),目标是根据表示的余弦相似度找到匹配的音频(视频)。这里报告@1和@10的结果,如表2所示,本发明的方法明显优于基线方法。
表2 不同训练目标下1:25000 A-V检索结果
消融实验,为了评估三种前置任务对检索结果的影响,本发明还进行了几种消融实验。以双对比学习为基准。然后对同一性对抗训练和模态对抗训练的效果进行了消融研究。如表2所示,采用双对比学习和模态对抗训练的方法得到了最好的结果。然而,身份对抗训练的引入对跨模态检索有副作用。这证明除了语音信息外,身份信息也可以用于跨模态检索。
单词级别的唇读,在LRW上进行词级唇读的目的是根据输入的视频识别孤立的词类。在此任务上的实验表明,ADC-SSL学习的视觉表征对唇读是有效的。在没有对视觉编码器网络进行任何微调的情况下,使用由提出的自监督方法学习到的表示与最先进的自监督基线进行性能比较。此外,在相同的网络架构下,还将其性能与从头训练的完全监督的对等体进行了比较。
单词级别唇读网络包含两个子网络:前端视觉编码器和后端序列网络。前端架构直接取自可视编码器。对于后端网络,提出了一个2层的时间卷积网络,然后是一个500路的softmax传输函数分类层。这种简单的后端分类器被广泛用于评估学习到的视觉表示的有效性。遵循公共评估协议,其中只有后端在固定的视觉编码器网络上训练分类器,并将LRW上的测试精度作为表征质量的代表。结果如表3所示。ADC-SSL训练方法大大超过了最先进的自监督方法。本实验还提供了消融研究的结果。结果表明,在本发明使用的所有四个训练目标对分类性能都是有用的,其中短时间同步对该实验结果的贡献最大。
表3
值得注意的是,本发明的结果(83.9%)甚至超过了受监督的对应结果(79.1%)。图4给出了这两种方法的训练曲线,图4中,曲线a为固定视觉编码器的训练曲线的训练精度曲线,曲线b为从零开始的训练曲线的训练精度曲线,曲线c为固定视觉编码器的训练曲线的验证精度曲线,曲线d为从零开始的训练曲线的验证精度曲线。
可以看到,经过10个周期,训练准确率基本相同(约95%)。但验证精度差异明显(约3%)。这一现象表明,与从零开始训练相比,通过自监督方法学习到的表示可以有效地防止过拟合。此外,还列出了基于自监督的预训练对整个网络进行微调的结果。与本发明的结果相比,它的性能并没有显著改善(83.9% vs 84.0%)。
句子级唇读,句子级唇读的目的是通过说话人的嘴的运动来推断讲话的内容。与单词级唇读任务相比,该任务更复杂,更实用。为了进一步评估学习到的视觉表征的质量,本发明提供了这个任务的实验结果。目前还没有用于这项任务的自监督学习的基准方法,所以直接将其与最先进的端到端方法进行比较。
Transformer的后端。对于句子级唇读任务,输出维度为39,包括26个字母、10个数字、1个标点“’”以及[空格]和[EOS]。序列后端网络采用常用的Transformer变种(Transformer_seq2seq)网络。在这个变体中,本发明去掉了Transformer编码器部分的嵌入层,因为输入是视觉表示,而不是词类索引。此外,解码器的最后一个完全连接层的输出维度被更改为39,以适应词汇表的大小。
评估协议。对于所有的实验,本发明报告了字符错误率(CER)和单词错误率(WER)。CER定义为,其中S、D、I分别为假设进行替换、删除和插入的次数,N为参考文献的字符数。WER和CER的计算方法相同。区别在于该公式是适用于字符级别还是单词级别。
训练的细节。利用LRS3的前训练集进行自监督学习。之后,视觉编码器中的参数被固定。在Transformer后端训练时,从2个伴随词开始训练,然后随着训练的进行逐渐增加单词的数量。由于输入视频中每个单词的时间都是标记的,所以可以很容易地选择数据集中任意一个连续的句子实例,得到长输入视频中相应的帧。该模型首先在LRS3文本标注的预处理集上进行训练。然后分别在LRS3的训练集-验证集集合上进行微调。
Transformer接受了强迫策略的训练。在训练过程中,将前一个解码步骤的真实数据作为解码器的输入。在推理阶段,解码器的预测在最后的时间步反馈到解码器的输入。解码采用宽度为6的波束搜索。为了进行公平的性能比较,不使用外部语言模型来优化预测结果。
比较评估。结果如表4所示。ADC-SSL自监督方法在LRS3数据集上都超过了最新的完全监督方法,没有在视觉编码器前端进行任何调整。
表4 句子级别唇读的结果
值得注意的是,有些SOTA方法(如TM- CTC, TM-seq2seq, CTC+KD)需要在额外的单词级别唇读数据集上进行预训练,如LRW数据集。其中TM-seq2seq和TM-CTC在句子级别MV-LRS数据集上对可视化前端进行预训练。建议仅在LRS3的训练前数据集上进行自监督训练。此外,CTC+KD的结果是通过在大规模纯音频语料库上训练的自动语音识别(ASR)模型中提取知识获得的。
为了更好地进行比较,在没有额外数据集的情况下重现了监督版本,结果列在表4的倒数第二列。可以看到,本发明的自监督训练方法明显优于从零开始的训练。这也为跨模态自监督训练可以有效防止过拟合的猜想提供了证据。
综上所述,基于ADC-SSL方法的自监督训练能够提取唇读的有效视觉表征。通过对单词级唇读任务和句子级唇读任务的实验和分析,证明本发明所提出的自监督训练能够有效地防止过拟合。
Claims (10)
1.一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,该方法包括视觉编码器,音频编码器,两个具有平均池的多尺度时间卷积网络,身份鉴别器和模态分类器,该方法通过结合基于A-V同步的双对比学习,身份对抗训练和模态对抗训练来学习有效的视觉表示,在A-V同步的双对比学习中,使用视觉编码器和音频编码器分别从输入的视频和音频中提取,得到A-V嵌入,使用基于噪声对比估计的损失函数训练所述A-V嵌入,得到短时的A-V同步表示,使用两个具有平均池的多尺度时间卷积网络用来聚合所述短时的A-V同步表示的全局语音信息,在身份对抗训练和模态对抗训练中,身份鉴别器用来区分输入的A-V嵌入是否具有共同的身份,模态分类器预测输入的A-V嵌入是属于视觉模态还是音频模态,然后利用基于动量更新的动量梯度反转层实现对抗性训练,其中所述视觉编码器采用,所述音频编码器为基于VGG-M的卷积模型。
2.如权利要求1所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,音频编码器网络和视觉编码器网络都以相同的时长摄取剪辑。
9.如权利要求1所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,在身份鉴别器和模态分类器的顶部添加梯度反转层,梯度反转层将反向传播到编码器网络的加权梯度的符号反转,基于动量更新的梯度反转层对梯度更新中的加权超参数进行动量更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110773180.7A CN113239903B (zh) | 2021-07-08 | 2021-07-08 | 一种跨模态唇读的对抗性双重对比自监督学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110773180.7A CN113239903B (zh) | 2021-07-08 | 2021-07-08 | 一种跨模态唇读的对抗性双重对比自监督学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239903A CN113239903A (zh) | 2021-08-10 |
CN113239903B true CN113239903B (zh) | 2021-10-01 |
Family
ID=77141355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110773180.7A Active CN113239903B (zh) | 2021-07-08 | 2021-07-08 | 一种跨模态唇读的对抗性双重对比自监督学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239903B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332637B (zh) * | 2022-03-17 | 2022-08-30 | 北京航空航天大学杭州创新研究院 | 遥感影像水体提取方法、遥感影像水体提取的交互方法 |
CN115294985B (zh) * | 2022-10-08 | 2022-12-09 | 北京信工博特智能科技有限公司 | 一种基于对比学习的多分类语音命令识别方法及识别系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488131A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于自监督对抗的图片文本跨模态检索方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787428A (zh) * | 2016-01-08 | 2016-07-20 | 上海交通大学 | 基于稀疏编码的唇语特征身份认证方法 |
KR102257181B1 (ko) * | 2016-09-13 | 2021-05-27 | 매직 립, 인코포레이티드 | 감각 안경류 |
CN111953922B (zh) * | 2019-05-16 | 2022-05-27 | 南宁富联富桂精密工业有限公司 | 视频会议的人脸辨识方法、服务器及计算机可读存储介质 |
CN110765868A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 唇读模型的生成方法、装置、设备及存储介质 |
CN111783566B (zh) * | 2020-06-15 | 2023-10-31 | 神思电子技术股份有限公司 | 一种基于唇语同步和神态适配效果增强的视频合成方法 |
CN111753704B (zh) * | 2020-06-19 | 2022-08-26 | 南京邮电大学 | 一种基于视频人物唇读识别的时序集中预测方法 |
CN112216271B (zh) * | 2020-10-11 | 2022-10-14 | 哈尔滨工程大学 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
-
2021
- 2021-07-08 CN CN202110773180.7A patent/CN113239903B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488131A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于自监督对抗的图片文本跨模态检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113239903A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fernandez-Lopez et al. | Survey on automatic lip-reading in the era of deep learning | |
CN110751208B (zh) | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 | |
Zhou et al. | Modality attention for end-to-end audio-visual speech recognition | |
CN112997186A (zh) | “存活性”检测系统 | |
Palaskar et al. | End-to-end multimodal speech recognition | |
CN105760852A (zh) | 一种融合脸部表情和语音的驾驶员情感实时识别方法 | |
CN113239903B (zh) | 一种跨模态唇读的对抗性双重对比自监督学习方法 | |
Ding et al. | Audio-visual keyword spotting based on multidimensional convolutional neural network | |
CN109147763A (zh) | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN113851131A (zh) | 一种跨模态唇语识别方法 | |
Ghaemmaghami et al. | Complete-linkage clustering for voice activity detection in audio and visual speech | |
Huang et al. | CALLip: Lipreading using contrastive and attribute learning | |
Liu et al. | Exploring deep learning for joint audio-visual lip biometrics | |
CN117668262A (zh) | 基于人工智能语音与图像识别技术的声像档案利用系统 | |
CN110807370B (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
Sheng et al. | Zero-shot personalized lip-to-speech synthesis with face image based voice control | |
Chiţu¹ et al. | Automatic visual speech recognition | |
Thangthai | Computer lipreading via hybrid deep neural network hidden Markov models | |
ElMaghraby et al. | Noise-robust speech recognition system based on multimodal audio-visual approach using different deep learning classification techniques | |
JP7510080B2 (ja) | 学習装置、検索装置、学習方法、及びプログラム | |
Dumpala et al. | Sentiment classification on erroneous ASR transcripts: a multi view learning approach | |
CN114121018A (zh) | 语音文档分类方法、系统、设备及存储介质 | |
Sahrawat et al. | " Notic My Speech"--Blending Speech Patterns With Multimedia | |
Nguyen et al. | Improving self-supervised learning for audio representations by feature diversity and decorrelation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |