CN113239903B - 一种跨模态唇读的对抗性双重对比自监督学习方法 - Google Patents

一种跨模态唇读的对抗性双重对比自监督学习方法 Download PDF

Info

Publication number
CN113239903B
CN113239903B CN202110773180.7A CN202110773180A CN113239903B CN 113239903 B CN113239903 B CN 113239903B CN 202110773180 A CN202110773180 A CN 202110773180A CN 113239903 B CN113239903 B CN 113239903B
Authority
CN
China
Prior art keywords
modal
visual
audio
training
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110773180.7A
Other languages
English (en)
Other versions
CN113239903A (zh
Inventor
张雪毅
刘丽
常冲
刘忠
龙云利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110773180.7A priority Critical patent/CN113239903B/zh
Publication of CN113239903A publication Critical patent/CN113239903A/zh
Application granted granted Critical
Publication of CN113239903B publication Critical patent/CN113239903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法,该方法包括视觉编码器、音频编码器、两个具有平均池的多尺度时间卷积网络、身份鉴别器和模态分类器。该方法通过结合基于视听同步的双对比学习、身份对抗训练和模态对抗训练来学习有效的视觉表示。在双对比学习中,将噪声对比估计作为训练目标,来区分真实样本和噪声样本。在对抗训练中,提出了一个身份鉴别器和一个模态分类器用于视听表示,身份鉴别器用来区分输入的视觉特征是否具有共同的身份,模态分类器是预测输入特征是属于视觉模态还是音频模态,然后利用动量梯度反转层实现对抗性训练。

Description

一种跨模态唇读的对抗性双重对比自监督学习方法
技术领域
本发明属于图像处理领域,具体是涉及到一种跨模态唇读的对抗性双重对比自监督学习方法。
背景技术
监督深度学习在图像分类、目标检测与分割、语音识别、机器翻译等许多领域都取得了革命性的进展。尽管监督学习在过去的几年里取得了显著的进步,但它的成功很大程度上依赖于大量的人工注释训练数据。然而,对于一些特定的任务,例如唇读,注释的成本可能非常昂贵。近年来,自监督学习因其高标记效率和良好的泛化能力而受到越来越多的关注。自监督学习方法在自然语言处理、计算机视觉和跨模表示学习中显示出了巨大的潜力。
人类在言语感知过程中,既依赖于听声音,又依赖于看唇动。如果我们听到的声音与我们看到的唇动不匹配,我们会感到困惑,这意味着声音和唇动传达的是相同的语音信息。在这一观察的驱动下,声音和唇动可以自然地被视为相互监督的信号,以学习多种下游任务的辨别性A-V表示(视听表示),如跨模态检索、语音识别和唇读。
基于深度学习的唇读工作主要集中在可视化前端网络和序列后端网络这两个子网的架构设计上。在视觉前端网络的设计上,很多文献利用深度卷积进行视觉特征提取。唇读任务主要有两个:单词水平和句子水平。前者是对输入视频中的孤立单词进行分类,通常采用多分类交叉熵损失训练。后者用于句子级序列预测,可以使用连接主义者时间分类损失(CTC)和序列间损失来训练模型。视听自监督学习的目的是在不需要任何人工标注的情况下,从同时发生的视听数据对中提取有效的表示。基于音频和视频的自然同步特性,现有的方法主要采用对比学习来实现这一目标。
发明内容
给定一个说话的面部视频,嘴唇的动作和音频是自然地同时发生和同步的。以往在这方面的研究尝试采用两两对比的策略,使视觉嵌入与相应的音频嵌入更接近并进一步远离非相应的音频嵌入,尽管取得了显著的进步,但这些方法有以下缺点:首先,两两对比学习需要人工选择负样本,其效果很大程度上取决于负样本的有效性;其次,表示学习仅依赖于同步的音视频数据对,其他自监督信号,如说话者相关信息和模态信息,也可以用来优化学习表示的质量,但是这些自监控信号通常在以前的工作中被忽略。
为了解决这些缺陷,本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法(Adversarial Dual-Contrast Self-Supervised Learning,ADC-SSL),该方法包括视觉编码器,音频编码器,两个具有平均池的多尺度时间卷积网络,身份鉴别器和模态分类器,该方法通过结合基于A-V同步的双对比学习,身份对抗训练和模态对抗训练来学习有效的视觉表示,在A-V同步的双对比学习中,视觉编码器和音频编码器用来提取A-V嵌入(A表示音频,V表示视频),使用基于噪声对比估计的损失函数训练所述A-V嵌入,得到短时的A-V同步表示,使用两个具有平均池的多尺度时间卷积网络用来聚合所述短时的A-V同步表示的全局语音信息。在身份对抗训练和模态对抗训练中,身份鉴别器用来区分输入的A-V嵌入是否具有共同的身份,模态分类器预测输入A-V嵌入是属于视觉模态还是音频模态,然后利用基于动量更新的动量梯度反转层实现对抗性训练。
给出一个嘴巴说话的视频
Figure 301067DEST_PATH_IMAGE001
以及相应的音频
Figure 20761DEST_PATH_IMAGE002
,视觉编码器
Figure 64941DEST_PATH_IMAGE003
和音频编码器
Figure 870086DEST_PATH_IMAGE004
用来提取A-V嵌入。为了保证A-V嵌入的一致性,音频编码器网络和视觉编码器网络都以相同的时长摄取剪辑。
双对比学习目标
Figure 923492DEST_PATH_IMAGE005
Figure 497693DEST_PATH_IMAGE006
的目的是使视觉嵌入在短时间尺度和长时间尺度上更接近于相应的音频嵌入。对抗性学习目标
Figure 712774DEST_PATH_IMAGE007
Figure 5215DEST_PATH_IMAGE008
使学习到的嵌入不分模式信息和身份信息。
本发明将噪声对比估计(NCE)作为训练目标。NCE构造了一个二值分类任务,其目标是区分真实样本和噪声样本。本发明提出了一种基于NCE的对比损失用于实现A-V同步的前置任务。
Figure 95268DEST_PATH_IMAGE009
Figure 523976DEST_PATH_IMAGE010
分别为视觉表示和音频表示,其中𝑇为时间时长,然后,随机抽取一小批量
Figure 909958DEST_PATH_IMAGE011
样本,产生
Figure 689695DEST_PATH_IMAGE012
嵌入。从一个小批量中给出一个可视化的嵌入
Figure 84904DEST_PATH_IMAGE013
,将相应的音频嵌入
Figure 368118DEST_PATH_IMAGE014
作为正样本,其他
Figure 190580DEST_PATH_IMAGE012
嵌入作为负样本。其中
Figure 192034DEST_PATH_IMAGE015
表示小批量的示例索引,
Figure 859776DEST_PATH_IMAGE016
表示步伐。使用
Figure 263076DEST_PATH_IMAGE017
来测量两个嵌入
Figure 522019DEST_PATH_IMAGE018
Figure 745189DEST_PATH_IMAGE019
之间的相似度。然后,一个正对
Figure 482201DEST_PATH_IMAGE020
的损失函数定义为
Figure 740007DEST_PATH_IMAGE021
其中
Figure 638693DEST_PATH_IMAGE022
是温度超参数,本质上,这只是一个简单的
Figure 880319DEST_PATH_IMAGE024
方式的交叉熵损失,它将一个小批量内的所有其他负对中的正对区分出来。这种损失使得正配对的相似性高于负配对的相似性。这个损失是基于短时间的A-V同步,短时间同步损失
Figure 155442DEST_PATH_IMAGE025
在一个小批量中是:
Figure 267755DEST_PATH_IMAGE026
与以往工作中使用的手工选择负样本和复杂的学习策略相比,
Figure 602921DEST_PATH_IMAGE027
集成了困难负样本(嵌入来自相同的视频和音频)和容易负样本(嵌入来自一个小批量中其他视频在),这明显简化了训练。
实际上,
Figure 66263DEST_PATH_IMAGE028
是基于精确同步的假设进行的。然而,在视频中有时会出现不同步的问题。
Figure 655332DEST_PATH_IMAGE028
在不同步视频上执行可能会影响性能。基于此,建议基于语音匹配对整个视频进行对比学习。为此,引入了两个具有平均池的多尺度时间卷积网络(MSTCN)来聚合用于短时的A-V同步表示的全局语音信息,记为
Figure 887730DEST_PATH_IMAGE029
Figure 128219DEST_PATH_IMAGE030
Figure 344436DEST_PATH_IMAGE031
Figure 961362DEST_PATH_IMAGE030
。让
Figure 48267DEST_PATH_IMAGE032
Figure 459657DEST_PATH_IMAGE033
,与
Figure 897591DEST_PATH_IMAGE028
类似,长时间同步损失
Figure 318208DEST_PATH_IMAGE034
可以定义为:
Figure 259620DEST_PATH_IMAGE036
Figure 107490DEST_PATH_IMAGE037
基于上述的双对比学习方法,可以在很大程度上缓解非同步例子所带来的负面影响。
本发明还提出了两个新颖而简单的前置任务来迫使学习到的A-V表示从身份相关信息和模态信息中分离出来。两个对抗性前置任务是基于自监督的对抗性训练来执行的。
身份识别的依据是,来自单个视频的表征具有相同的身份。构建一个身份鉴别器
Figure 32721DEST_PATH_IMAGE038
,其目的是区分两个输入嵌入是否具有相同的身份。两种输入嵌入都是从视觉编码器的输出中随机抽取的。然后,身份辨别损失
Figure 991449DEST_PATH_IMAGE039
可以定义为:
Figure 52946DEST_PATH_IMAGE040
这是一个简单的二元交叉熵损失用于双向分类。其中
Figure 337297DEST_PATH_IMAGE041
是总采样数,
Figure 218665DEST_PATH_IMAGE042
是第i次抽样从特征集中抽取的两个特征样本,
Figure 981085DEST_PATH_IMAGE043
是单位标号。
类似于上面提到的身份识别,模态分类器构建了一个模态分类器
Figure 162668DEST_PATH_IMAGE044
,其目的是区分输入嵌入是否从音频编码器中提取。然后是模态分类损失
Figure 352341DEST_PATH_IMAGE045
是:
Figure 986584DEST_PATH_IMAGE046
为了使表示从身份相关信息和模态信息中分离出来,本发明提出了一个新的梯度反转层(GRL)的应用。GRL用于学习领域无关的特征。在网络的向前传递过程中GRL扮演着身份函数的角色。在梯度反向通道阶段,GRL将相应分支的加权梯度反向流动。在身份鉴别器和模态分类器的顶部添加了GRL层。因此,GRL将反向传播到编码器网络
Figure 552695DEST_PATH_IMAGE047
Figure 323205DEST_PATH_IMAGE048
的加权梯度的符号进行反转,基于动量更新的梯度反转层对梯度更新中的加权超参数进行动量更新。
结合双对比损失、模态分类损失和身份鉴别器损失,本发明提出的ADC-SSL方法的最终损失函数可以写成:
Figure 182314DEST_PATH_IMAGE049
并通过以上公式对网络进行端到端的训练。
网络体系结构主要包括:
视觉编码器采用ResNet34的一个简单变体,在本发明中称为C3D_ResNet34,作为视觉编码器网络
Figure 38275DEST_PATH_IMAGE050
。C3D_ResNet34只将第一个卷积核展开为3D核,时间接受场为5,并去掉最后一个全连接层。
音频编码器与类似,音频编码器网络
Figure 408076DEST_PATH_IMAGE051
基于VGG-M卷积模型,但针对音频MFCCs特性修改了滤波器尺寸。
多尺度时间卷积网络(MSTCN),其函数
Figure 298672DEST_PATH_IMAGE052
Figure 830147DEST_PATH_IMAGE053
是从短时间表示中聚合多尺度语音信息。它们由三个堆叠的多尺度膨胀TCN层、一个全连通(FC)层和一个平均池化层组成。
身份鉴别器
Figure 173404DEST_PATH_IMAGE054
由一个卷积层、两个线性层和一个softmax传输函数激活层叠加而成。卷积层是对两个输入嵌入进行聚合。模态分类器
Figure 81317DEST_PATH_IMAGE055
由两个线性层和一个softmax传输函数激活层组成。
本发明的有益效果是,本发明考虑了基于噪声对比估计(NCE)的对比损失,NCE损失使得嵌入远不是一个负样本,而是多个负样本。此外,本发明还在短时间和长时间的视听表示上都采用了对比学习方法,这种双对比方法可以通过整合多尺度语音信息进一步优化表示学习。
在对抗性训练中,从单个视频中提取的视觉表征具有共同的特征;否则,身份信息不同。其目的是迫使学习到的视觉呈现摆脱身份信息和模态信息。为此,本发明提出了一个标识识别器和一个模态分类器用于A-V表示。前者的功能是区分输入的视觉特征是否具有共同的身份;后者是预测输入特征是属于视觉模态还是音频模态,然后利用梯度反转层实现对抗性训练。原有的GRL很难平衡这些不同的训练目标。为了解决这一问题,本发明提出了动量梯度反转层(M-GRL)。基于动量更新机制的M-GRL算法通过自动学习最优加权超参数来优化训练过程。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为ADC-SSL方法的总体流程;
图2为嵌入空间中的嵌入表示视觉编码器和音频编码器的输出;
图3为
Figure 826419DEST_PATH_IMAGE056
Figure 528796DEST_PATH_IMAGE057
前70000次迭代的曲线;
图4为训练和验证的精度曲线。
具体实施方式
如图1所示,给出一个嘴巴说话的视频
Figure 624928DEST_PATH_IMAGE058
以及相应的音频
Figure 70953DEST_PATH_IMAGE059
,首先介绍了一种视觉编码器
Figure 936140DEST_PATH_IMAGE060
和一个音频编码器
Figure 74998DEST_PATH_IMAGE061
来提取A-V嵌入。为了保证A-V嵌入的一致性,音频编码器网络和视觉编码器网络都以相同的时长摄取剪辑,一般为0.2秒。具体来说,音频编码器的输入是13维梅尔频率倒谱系数(MFCCs),每10ms提取一次,帧长25ms。输入到视觉编码器的是5个连续的以口腔为中心裁剪的视频(= 25)帧。
为了学习有效的唇读视觉表征,引入了三种前置任务。双对比学习目标
Figure 127267DEST_PATH_IMAGE062
Figure 376983DEST_PATH_IMAGE063
的目的是使视觉嵌入在短时间尺度和长时间尺度上更接近于相应的音频嵌入。对抗性学习目标
Figure 96677DEST_PATH_IMAGE064
Figure 406436DEST_PATH_IMAGE065
使学习到的嵌入不分模式信息和身份信息。
之前的方法大多采用两两对比的策略来训练模型,这就造成了负面挖掘的困难。此外,最近在自监督学习方面的研究进展表明,训练可以从更多的消极因素中获得显著的好处。基于此,本发明将噪声对比估计
Figure 946002DEST_PATH_IMAGE066
作为训练目标。
Figure 733829DEST_PATH_IMAGE067
构造了一个二值分类任务,其目标是区分真实样本和噪声样本,并提出了一种基于NCE的对比损失用于实现A-V同步的前置任务。
Figure 308030DEST_PATH_IMAGE068
Figure 788690DEST_PATH_IMAGE069
分别表示视觉表示和音频表示,其中T为时间时长,然后,随机抽取一小批量N样本,并针对从该小批量衍生的A-V对定义了同步任务,从而产生
Figure 81131DEST_PATH_IMAGE070
嵌入。从一个小批量中给出一个可视化的嵌入
Figure 905605DEST_PATH_IMAGE071
(以及音频嵌入),将相应的音频嵌入
Figure 865471DEST_PATH_IMAGE072
作为正样本,其他
Figure 251453DEST_PATH_IMAGE073
嵌入作为负样本。其中
Figure 765611DEST_PATH_IMAGE075
表示小批量的示例索引,t表示步伐。使用
Figure 160820DEST_PATH_IMAGE076
来测量两个嵌入
Figure 709613DEST_PATH_IMAGE077
Figure 266497DEST_PATH_IMAGE078
之间的相似度。然后,一个 正对
Figure 533530DEST_PATH_IMAGE079
的损失函数定义为
Figure 466851DEST_PATH_IMAGE080
其中
Figure 870150DEST_PATH_IMAGE081
是温度超参数,本质上,这只是一个简单的
Figure 597935DEST_PATH_IMAGE082
方式的交叉熵损失,它将一个小批量内的所有其他负对中的正对区分出来。这种损失使得正配对的相似性高于负配对的相似性。这个损失是基于短时间的A-V同步,短时间同步损失
Figure 352264DEST_PATH_IMAGE083
在一个小批量中是:
Figure 89276DEST_PATH_IMAGE084
与以往工作中使用的手工选择负样本和复杂的学习策略相比,
Figure 347082DEST_PATH_IMAGE085
集成了困难负样本(嵌入来自相同的视频和音频)和容易负样本(嵌入来自小批量中其他视频),这明显简化了训练。
实际上,
Figure 511347DEST_PATH_IMAGE086
是基于精确同步的假设进行的。然而,在视频中有时会出现不同步的问题。
Figure 487393DEST_PATH_IMAGE087
在不同步视频上执行可能会影响性能。基于此,建议基于语音匹配对整个视频进行对比学习。为此,引入了两个具有平均池的多尺度时间卷积网络(MSTCN)来聚合用于短时A-V同步表示的全局语音信息,记为
Figure 762517DEST_PATH_IMAGE088
Figure 874829DEST_PATH_IMAGE030
Figure 475575DEST_PATH_IMAGE089
Figure 673338DEST_PATH_IMAGE030
。如图2所示,让
Figure 752153DEST_PATH_IMAGE090
Figure 984551DEST_PATH_IMAGE091
,与
Figure 490619DEST_PATH_IMAGE092
类似,长时间同步损失
Figure 674213DEST_PATH_IMAGE093
可以定义为:
Figure 291139DEST_PATH_IMAGE094
Figure 643623DEST_PATH_IMAGE095
基于上述的双对比学习方法,本发明可以在很大程度上缓解非同步例子所带来的负面影响。
本发明还提出了两个新颖而简单的前置任务来迫使学习到的A-V表示从身份相关信息和模态信息中分离出来。两个对抗性前置任务(如图2所示)是基于自监督的对抗性训练来执行的。
身份识别。身份识别的依据是,来自单个视频的表征具有相同的身份。构建一个身份鉴别器
Figure 320592DEST_PATH_IMAGE096
,其目的是区分两个输入嵌入是否具有相同的身份。两种输入嵌入都是从视觉编码器的输出中随机抽取的。然后,身份辨别损失
Figure 492947DEST_PATH_IMAGE097
可以定义为:
Figure 179144DEST_PATH_IMAGE098
实际上,这是一个简单的二元交叉熵损失用于双向分类。其中
Figure 120555DEST_PATH_IMAGE099
是总采样数,
Figure 968425DEST_PATH_IMAGE100
第i次抽样从特征集中抽取的两个特征样本,
Figure 628077DEST_PATH_IMAGE101
是单位标号。
模态分类。类似于上面提到的身份识别,构建了一个模态分类器
Figure 852385DEST_PATH_IMAGE102
,其目的是区分输入嵌入是否从音频编码器中提取。然后是模态分类损失
Figure 913881DEST_PATH_IMAGE103
是:
Figure 667074DEST_PATH_IMAGE104
动量梯度反转层。为了使表示从身份相关信息和模态信息中分离出来,提出了一个新的梯度反转层(GRL)的应用。GRL用于学习领域无关的特征。在网络的向前传递过程中GRL扮演着身份函数的角色。在梯度反向通道阶段,GRL将相应分支的加权梯度反向流动。受此启发,在身份鉴别器
Figure 79601DEST_PATH_IMAGE105
和模态分类器
Figure 842020DEST_PATH_IMAGE106
的顶部添加了GRL层。因此,GRL将反向传播到编码器网络
Figure 758024DEST_PATH_IMAGE107
Figure 213276DEST_PATH_IMAGE108
的加权梯度的符号进行反转。
通过这种方式,对抗性训练的目标是进行极大极小学习,可以写成:
Figure 581940DEST_PATH_IMAGE109
其中,
Figure 882472DEST_PATH_IMAGE110
Figure 184140DEST_PATH_IMAGE111
Figure 544714DEST_PATH_IMAGE112
Figure 400675DEST_PATH_IMAGE113
分别是
Figure 504897DEST_PATH_IMAGE114
Figure 661072DEST_PATH_IMAGE115
Figure 691082DEST_PATH_IMAGE116
Figure 34339DEST_PATH_IMAGE117
的参数。具体来说,A-V 编码器网络被训练来最大化
Figure 942252DEST_PATH_IMAGE118
Figure 687354DEST_PATH_IMAGE119
,而模态分类器和身份鉴别器则尽量减少损失。
Figure 389731DEST_PATH_IMAGE120
的梯度更新
Figure 220284DEST_PATH_IMAGE121
可以写成:
Figure 931888DEST_PATH_IMAGE122
其中
Figure 531496DEST_PATH_IMAGE123
是学习速率。
Figure 404775DEST_PATH_IMAGE124
,
Figure 722623DEST_PATH_IMAGE125
为GRL上应用的加权超参数。固定的
Figure 237918DEST_PATH_IMAGE126
Figure 692033DEST_PATH_IMAGE127
会使训练变得不稳定,甚至不收敛。为了在对比学习和对抗训练之间取得更好的平衡,提出了M-GRL对加 权超参数
Figure 736213DEST_PATH_IMAGE128
Figure 806937DEST_PATH_IMAGE129
进行动量更新。
以模态分类器为例,应根据模态分类器的不确定性动态调整加权超参数。当不确定性很高时,网络应该更多地关注对比目标。否则,更要重视对抗性训练。具体来说,将不确定性量化为
Figure 594764DEST_PATH_IMAGE130
Figure 168965DEST_PATH_IMAGE131
的最大值是
Figure 649625DEST_PATH_IMAGE132
。其中C是类别的数目
Figure 942066DEST_PATH_IMAGE133
Figure 268005DEST_PATH_IMAGE134
为类别C的概率。为此,将
Figure 962292DEST_PATH_IMAGE135
重新表述为:
Figure 613853DEST_PATH_IMAGE136
其中
Figure 128011DEST_PATH_IMAGE137
Figure 756176DEST_PATH_IMAGE138
被超参数约束。在实验中,设置
Figure 570548DEST_PATH_IMAGE137
=0.5和
Figure 127432DEST_PATH_IMAGE138
=0.001。为了保证训练的稳定性,用动量机制更新
Figure 128886DEST_PATH_IMAGE139
Figure 327786DEST_PATH_IMAGE140
在这里
Figure 731085DEST_PATH_IMAGE141
是动量系数,
Figure 458870DEST_PATH_IMAGE142
为当前小批量的不确定性。通过这种方式,
Figure 947620DEST_PATH_IMAGE143
可自动优化至最佳值。M-GRL 同样适用于身份鉴别器。
整体损失。结合双对比损失、模态分类损失和身份鉴别器损失,本发明提出的ADC-SSL方法的最终损失函数可以写成:
Figure 419053DEST_PATH_IMAGE144
并通过以上公式对网络进行端到端的训练。
网络体系结构主要包括:
视觉编码器采用ResNet34的一个简单变体,在本发明中称为C3D_ResNet34,作为视觉编码器网络
Figure 676859DEST_PATH_IMAGE145
。C3D_ResNet34只将第一个卷积核展开为3D核,时间接受场为5,并去掉最后一个全连接层。
音频编码器与类似,音频编码器网络
Figure 841124DEST_PATH_IMAGE146
基于VGG-M卷积模型,但针对音频MFCCs特性修改了滤波器尺寸。
MSTCN 中函数
Figure 82749DEST_PATH_IMAGE147
Figure 92294DEST_PATH_IMAGE148
是从短时间表示中聚合多尺度语音信息。它们由三个堆叠的多尺度膨胀 TCN 层、一个全连通(FC)层和一个平均池化层组成。
身份鉴别器
Figure 470185DEST_PATH_IMAGE149
由一个卷积层、两个线性层和一个 softmax 传输函数激活叠加而成。卷积层是对两个输入嵌入进行聚合。模态分类器
Figure 805352DEST_PATH_IMAGE150
由两个线性层和一个softmax 传输函数激活层组成。
数据集和技术细节如下:
(1)LRW。LRW 数据集是常用的词级视觉语音分类任务。它由多达 1000 个语音500 个不同的英语单词,由数百个不同的人说。每个视频的长度为 1.16 秒(29 帧),在视频中间会说出一个单词。
(2)LRS3。这个数据集都是句子级唇读任务常用的数据集,包含三个集:预训练集、验证集、测试集。LRS3 是从 TED 和 TEDx 视频中选取的,包含超过 420 万单词,词汇量为51000。本发明使用的数据集统计如表 1 所示。
表1 用于训练和测试的数据集的描述
Figure 268694DEST_PATH_IMAGE151
(3)技术细节。对于所有的数据集,使用人脸对齐检测器为每个视频帧检测68个人脸地标点。对于视觉编码器的输入,根据检测到的标志点裁剪出大小为112×112像素的口腔中心视频。视频输入被转换为灰度,所有帧根据所有视频的总体均值和方差进行归一化。将表示映射到应用对比损失的嵌入空间。对于超参数,“温度超参数”
Figure 81929DEST_PATH_IMAGE153
设为0.07,动量系数
Figure 314328DEST_PATH_IMAGE155
。采用标准的Adam算法对整个网络参数进行优化。Adam权重衰减是0.0001,Adam动量是0.9。对于视觉输入,使用数据增强技术,例如水平翻转和随机移动。
M-GRL的有效性,原始的GRL对网络的训练会导致不稳定甚至不收敛。在这里,进一步阐述了M-GRL的有效性。假设在这里应用原始的GRL,这里的
Figure 85975DEST_PATH_IMAGE156
Figure 771034DEST_PATH_IMAGE157
是常数。在实验中会发现很难设定
Figure 387960DEST_PATH_IMAGE156
Figure 740444DEST_PATH_IMAGE157
合适的值。取
Figure 915948DEST_PATH_IMAGE157
为例。如果
Figure 88303DEST_PATH_IMAGE157
= 0.1,
Figure 243341DEST_PATH_IMAGE158
几乎收敛为零。也就是说,模态对抗性训练根本不起作用。如果
Figure 450332DEST_PATH_IMAGE157
= 0.5,训练过于关注对抗性目标,经过几次迭代后不收敛。与原有的模糊学习模型相比,本发明所提出的M-GRL模型在对比学习和对抗训练之间取得了更好的平衡。图3列出了训练过程中的
Figure 563781DEST_PATH_IMAGE156
Figure 223433DEST_PATH_IMAGE157
曲线。 经过一些迭代,
Figure 182161DEST_PATH_IMAGE156
,
Figure 243658DEST_PATH_IMAGE157
都收敛到最优值从而使对比学习和对抗训练保持平衡。
跨通道检索,采用跨模态检索任务来评价A-V表示之间的相似度。对LRW测试集(共25000个样本)进行跨模态检索。给定一个源视频(音频),目标是根据表示的余弦相似度找到匹配的音频(视频)。这里报告@1和@10的结果,如表2所示,本发明的方法明显优于基线方法。
表2 不同训练目标下1:25000 A-V检索结果
Figure 262430DEST_PATH_IMAGE159
消融实验,为了评估三种前置任务对检索结果的影响,本发明还进行了几种消融实验。以双对比学习为基准。然后对同一性对抗训练和模态对抗训练的效果进行了消融研究。如表2所示,采用双对比学习和模态对抗训练的方法得到了最好的结果。然而,身份对抗训练的引入对跨模态检索有副作用。这证明除了语音信息外,身份信息也可以用于跨模态检索。
单词级别的唇读,在LRW上进行词级唇读的目的是根据输入的视频识别孤立的词类。在此任务上的实验表明,ADC-SSL学习的视觉表征对唇读是有效的。在没有对视觉编码器网络进行任何微调的情况下,使用由提出的自监督方法学习到的表示与最先进的自监督基线进行性能比较。此外,在相同的网络架构下,还将其性能与从头训练的完全监督的对等体进行了比较。
单词级别唇读网络包含两个子网络:前端视觉编码器和后端序列网络。前端架构直接取自可视编码器
Figure 409377DEST_PATH_IMAGE160
。对于后端网络,提出了一个2层的时间卷积网络,然后是一个500路的softmax传输函数分类层。这种简单的后端分类器被广泛用于评估学习到的视觉表示的有效性。遵循公共评估协议,其中只有后端在固定的视觉编码器网络上训练分类器,并将LRW上的测试精度作为表征质量的代表。结果如表3所示。ADC-SSL训练方法大大超过了最先进的自监督方法。本实验还提供了消融研究的结果。结果表明,在本发明使用的所有四个训练目标对分类性能都是有用的,其中短时间同步
Figure 437376DEST_PATH_IMAGE161
对该实验结果的贡献最大。
表3
Figure 353380DEST_PATH_IMAGE162
值得注意的是,本发明的结果(83.9%)甚至超过了受监督的对应结果(79.1%)。图4给出了这两种方法的训练曲线,图4中,曲线a为固定视觉编码器的训练曲线的训练精度曲线,曲线b为从零开始的训练曲线的训练精度曲线,曲线c为固定视觉编码器的训练曲线的验证精度曲线,曲线d为从零开始的训练曲线的验证精度曲线。
可以看到,经过10个周期,训练准确率基本相同(约95%)。但验证精度差异明显(约3%)。这一现象表明,与从零开始训练相比,通过自监督方法学习到的表示可以有效地防止过拟合。此外,还列出了基于自监督的预训练对整个网络进行微调的结果。与本发明的结果相比,它的性能并没有显著改善(83.9% vs 84.0%)。
句子级唇读,句子级唇读的目的是通过说话人的嘴的运动来推断讲话的内容。与单词级唇读任务相比,该任务更复杂,更实用。为了进一步评估学习到的视觉表征的质量,本发明提供了这个任务的实验结果。目前还没有用于这项任务的自监督学习的基准方法,所以直接将其与最先进的端到端方法进行比较。
Transformer的后端。对于句子级唇读任务,输出维度为39,包括26个字母、10个数字、1个标点“’”以及[空格]和[EOS]。序列后端网络采用常用的Transformer变种(Transformer_seq2seq)网络。在这个变体中,本发明去掉了Transformer编码器部分的嵌入层,因为输入是视觉表示,而不是词类索引。此外,解码器的最后一个完全连接层的输出维度被更改为39,以适应词汇表的大小。
评估协议。对于所有的实验,本发明报告了字符错误率(CER)和单词错误率(WER)。CER定义为
Figure 277473DEST_PATH_IMAGE163
,其中S、D、I分别为假设进行替换、删除和插入的次数,N为参考文献的字符数。WER和CER的计算方法相同。区别在于该公式是适用于字符级别还是单词级别。
训练的细节。利用LRS3的前训练集进行自监督学习。之后,视觉编码器中的参数被固定。在Transformer后端训练时,从2个伴随词开始训练,然后随着训练的进行逐渐增加单词的数量。由于输入视频中每个单词的时间都是标记的,所以可以很容易地选择数据集中任意一个连续的句子实例,得到长输入视频中相应的帧。该模型首先在LRS3文本标注的预处理集上进行训练。然后分别在LRS3的训练集-验证集集合上进行微调。
Transformer接受了强迫策略的训练。在训练过程中,将前一个解码步骤的真实数据作为解码器的输入。在推理阶段,解码器的预测在最后的时间步反馈到解码器的输入。解码采用宽度为6的波束搜索。为了进行公平的性能比较,不使用外部语言模型来优化预测结果。
比较评估。结果如表4所示。ADC-SSL自监督方法在LRS3数据集上都超过了最新的完全监督方法,没有在视觉编码器前端进行任何调整。
表4 句子级别唇读的结果
Figure 911717DEST_PATH_IMAGE164
值得注意的是,有些SOTA方法(如TM- CTC, TM-seq2seq, CTC+KD)需要在额外的单词级别唇读数据集上进行预训练,如LRW数据集。其中TM-seq2seq和TM-CTC在句子级别MV-LRS数据集上对可视化前端进行预训练。建议仅在LRS3的训练前数据集上进行自监督训练。此外,CTC+KD的结果是通过在大规模纯音频语料库上训练的自动语音识别(ASR)模型中提取知识获得的。
为了更好地进行比较,在没有额外数据集的情况下重现了监督版本,结果列在表4的倒数第二列。可以看到,本发明的自监督训练方法明显优于从零开始的训练。这也为跨模态自监督训练可以有效防止过拟合的猜想提供了证据。
综上所述,基于ADC-SSL方法的自监督训练能够提取唇读的有效视觉表征。通过对单词级唇读任务和句子级唇读任务的实验和分析,证明本发明所提出的自监督训练能够有效地防止过拟合。

Claims (10)

1.一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,该方法包括视觉编码器,音频编码器,两个具有平均池的多尺度时间卷积网络,身份鉴别器和模态分类器,该方法通过结合基于A-V同步的双对比学习,身份对抗训练和模态对抗训练来学习有效的视觉表示,在A-V同步的双对比学习中,使用视觉编码器和音频编码器分别从输入的视频和音频中提取,得到A-V嵌入,使用基于噪声对比估计的损失函数训练所述A-V嵌入,得到短时的A-V同步表示,使用两个具有平均池的多尺度时间卷积网络用来聚合所述短时的A-V同步表示的全局语音信息,在身份对抗训练和模态对抗训练中,身份鉴别器用来区分输入的A-V嵌入是否具有共同的身份,模态分类器预测输入的A-V嵌入是属于视觉模态还是音频模态,然后利用基于动量更新的动量梯度反转层实现对抗性训练,其中所述视觉编码器采用
Figure 727606DEST_PATH_IMAGE001
,所述音频编码器为基于VGG-M的卷积模型。
2.如权利要求1所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,音频编码器网络和视觉编码器网络都以相同的时长摄取剪辑。
3.如权利要求1所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,双对比学习目标为短时间同步损失
Figure 710474DEST_PATH_IMAGE002
和长时间同步损失
Figure 525983DEST_PATH_IMAGE003
4.如权利要求3所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,
Figure 345035DEST_PATH_IMAGE004
Figure 638613DEST_PATH_IMAGE005
分别为视觉表示和音频表示,其中T为时长,
Figure 475988DEST_PATH_IMAGE006
为嘴巴说话视频,
Figure 462398DEST_PATH_IMAGE007
为与
Figure 768746DEST_PATH_IMAGE006
相对应的音频,
Figure 866015DEST_PATH_IMAGE008
为视觉编码器,
Figure 549107DEST_PATH_IMAGE009
为音频编码器,随机抽取N个示例的小批量样本,产生
Figure 706419DEST_PATH_IMAGE010
嵌入,从中给出一个可视化的嵌入
Figure 500063DEST_PATH_IMAGE011
,相应的音频嵌入
Figure 135443DEST_PATH_IMAGE012
作为正样本,其他
Figure 212990DEST_PATH_IMAGE013
嵌入作为负样本,其中
Figure 541203DEST_PATH_IMAGE014
表示小批量的示例索引,
Figure 556563DEST_PATH_IMAGE015
表示步伐,使用
Figure 261214DEST_PATH_IMAGE016
来测量两个嵌入
Figure 927688DEST_PATH_IMAGE017
Figure 161223DEST_PATH_IMAGE018
之间的相似度,一个正对
Figure 663880DEST_PATH_IMAGE019
的损失函数定义为
Figure 641063DEST_PATH_IMAGE020
Figure 693201DEST_PATH_IMAGE021
是温度超参数,短时间同步损失
Figure 363217DEST_PATH_IMAGE022
5.如权利要求4所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,所述两个具有平均池的多尺度时间卷积网络用来聚合用于A-V表示的全局语音信息,分别表示为
Figure 353170DEST_PATH_IMAGE023
Figure 134044DEST_PATH_IMAGE024
Figure 853738DEST_PATH_IMAGE025
Figure 822219DEST_PATH_IMAGE024
Figure 424102DEST_PATH_IMAGE026
Figure 884033DEST_PATH_IMAGE027
,损失函数为
Figure 254971DEST_PATH_IMAGE028
长时间同步损失
Figure 657003DEST_PATH_IMAGE029
6.如权利要求5所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,身份鉴别器为
Figure 480602DEST_PATH_IMAGE030
,身份辨别损失
Figure 744225DEST_PATH_IMAGE031
Figure 969670DEST_PATH_IMAGE032
其中 𝐾 是总采样数,
Figure 355651DEST_PATH_IMAGE033
是第i次抽样从特征集中抽取的两个特征样本,
Figure 56760DEST_PATH_IMAGE034
∈{0,1}是单位标号。
7.如权利要求6所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,模态分类器为
Figure 983128DEST_PATH_IMAGE035
,模态分类损失
Figure 938446DEST_PATH_IMAGE036
Figure 557646DEST_PATH_IMAGE037
8.如权利要求7所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,该方法的最终损失函数为
Figure 480471DEST_PATH_IMAGE038
9.如权利要求1所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,在身份鉴别器和模态分类器的顶部添加梯度反转层,梯度反转层将反向传播到编码器网络的加权梯度的符号反转,基于动量更新的梯度反转层对梯度更新中的加权超参数进行动量更新。
10.如权利要求1所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,视觉编码器采用C3D_ResNet34作为视觉编码器网络
Figure 944951DEST_PATH_IMAGE039
,C3D_ResNet34将第一个卷积核展开为3D核,时间接受场为5,并去掉最后一个全连接层,音频编码器网络
Figure 285933DEST_PATH_IMAGE040
基于VGG-M卷积模型,多尺度时间卷积网络,由三个堆叠的多尺度膨胀TCN层、一个全连通FC层和一个平均池化层组成,身份鉴别器
Figure 76035DEST_PATH_IMAGE041
由一个卷积层、两个线性层和一个softmax传输函数激活层叠加而成,卷积层是对两个输入嵌入进行聚合,模态分类器由两个线性层和一个softmax传输函数激活层组成。
CN202110773180.7A 2021-07-08 2021-07-08 一种跨模态唇读的对抗性双重对比自监督学习方法 Active CN113239903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110773180.7A CN113239903B (zh) 2021-07-08 2021-07-08 一种跨模态唇读的对抗性双重对比自监督学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110773180.7A CN113239903B (zh) 2021-07-08 2021-07-08 一种跨模态唇读的对抗性双重对比自监督学习方法

Publications (2)

Publication Number Publication Date
CN113239903A CN113239903A (zh) 2021-08-10
CN113239903B true CN113239903B (zh) 2021-10-01

Family

ID=77141355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110773180.7A Active CN113239903B (zh) 2021-07-08 2021-07-08 一种跨模态唇读的对抗性双重对比自监督学习方法

Country Status (1)

Country Link
CN (1) CN113239903B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114332637B (zh) * 2022-03-17 2022-08-30 北京航空航天大学杭州创新研究院 遥感影像水体提取方法、遥感影像水体提取的交互方法
CN115294985B (zh) * 2022-10-08 2022-12-09 北京信工博特智能科技有限公司 一种基于对比学习的多分类语音命令识别方法及识别系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488131A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于自监督对抗的图片文本跨模态检索方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787428A (zh) * 2016-01-08 2016-07-20 上海交通大学 基于稀疏编码的唇语特征身份认证方法
KR102257181B1 (ko) * 2016-09-13 2021-05-27 매직 립, 인코포레이티드 감각 안경류
CN111953922B (zh) * 2019-05-16 2022-05-27 南宁富联富桂精密工业有限公司 视频会议的人脸辨识方法、服务器及计算机可读存储介质
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
CN111783566B (zh) * 2020-06-15 2023-10-31 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN111753704B (zh) * 2020-06-19 2022-08-26 南京邮电大学 一种基于视频人物唇读识别的时序集中预测方法
CN112216271B (zh) * 2020-10-11 2022-10-14 哈尔滨工程大学 一种基于卷积块注意机制的视听双模态语音识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488131A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于自监督对抗的图片文本跨模态检索方法

Also Published As

Publication number Publication date
CN113239903A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
Fernandez-Lopez et al. Survey on automatic lip-reading in the era of deep learning
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
Zhou et al. Modality attention for end-to-end audio-visual speech recognition
CN112997186A (zh) “存活性”检测系统
Palaskar et al. End-to-end multimodal speech recognition
CN105760852A (zh) 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN113239903B (zh) 一种跨模态唇读的对抗性双重对比自监督学习方法
Ding et al. Audio-visual keyword spotting based on multidimensional convolutional neural network
CN109147763A (zh) 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN113851131A (zh) 一种跨模态唇语识别方法
Ghaemmaghami et al. Complete-linkage clustering for voice activity detection in audio and visual speech
Huang et al. CALLip: Lipreading using contrastive and attribute learning
Liu et al. Exploring deep learning for joint audio-visual lip biometrics
CN117668262A (zh) 基于人工智能语音与图像识别技术的声像档案利用系统
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Sheng et al. Zero-shot personalized lip-to-speech synthesis with face image based voice control
Chiţu¹ et al. Automatic visual speech recognition
Thangthai Computer lipreading via hybrid deep neural network hidden Markov models
ElMaghraby et al. Noise-robust speech recognition system based on multimodal audio-visual approach using different deep learning classification techniques
JP7510080B2 (ja) 学習装置、検索装置、学習方法、及びプログラム
Dumpala et al. Sentiment classification on erroneous ASR transcripts: a multi view learning approach
CN114121018A (zh) 语音文档分类方法、系统、设备及存储介质
Sahrawat et al. " Notic My Speech"--Blending Speech Patterns With Multimedia
Nguyen et al. Improving self-supervised learning for audio representations by feature diversity and decorrelation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant