CN113851131A - 一种跨模态唇语识别方法 - Google Patents
一种跨模态唇语识别方法 Download PDFInfo
- Publication number
- CN113851131A CN113851131A CN202110941080.0A CN202110941080A CN113851131A CN 113851131 A CN113851131 A CN 113851131A CN 202110941080 A CN202110941080 A CN 202110941080A CN 113851131 A CN113851131 A CN 113851131A
- Authority
- CN
- China
- Prior art keywords
- module
- lip
- audio
- speaker
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000000007 visual effect Effects 0.000 claims abstract description 33
- 238000013507 mapping Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 5
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 230000000306 recurrent effect Effects 0.000 claims description 35
- 230000009471 action Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 14
- 230000007774 longterm Effects 0.000 claims description 9
- 238000005728 strengthening Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000000052 comparative effect Effects 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种跨模态唇语识别方法,包括S1,数据预处理:获取视频数据的嘴唇区域和音频数据的特征矩阵;S2,模型训练:依次进行说话人识别任务的训练、跨模态对比学习、模型参数、标准化唇语特征等步骤直到模型收敛;S3,模型部署:仅输入待识别的非训练数据视频序列,使用视觉识别分支获取说话人唇形特点,并对唇语特征进行标准化,最后进行唇语特征到文字的映射。本方法在无需额外人为标注数据的前提下,能够提取到具有更好可区分性的视觉特征,特征提取的泛化性和鲁棒性更好,能够跨说话人使用,也无需为每个类别样本单独训练一组模型参数。
Description
技术领域
本发明涉及识别领域,尤其涉及一种跨模态唇语识别方法。
背景技术
唇语识别是一种视觉语言识别技术,其主要利用视频中的唇部运动信息,结合语言先验知识和上下文信息的语言识别技术来实现。唇语识别在语言理解和交流中都起到重要作用,常在无法获得有效音频信息的情况下使用。它也具有极高的应用价值,可以被应用于言语障碍患者的治疗、安防领域、军用设备和人机交互当中。
传统的唇语识别方法的局限在于只关注视频输入信息,在没有额外经验知识引导的情况下无法学习到较好的视觉可分特征。因此,这些方法通常依赖大量有准确标签的数据,然而在现实生活中获取有标签数据的成本异常高昂。
发明内容
鉴于上述问题,本发明的目的在于提供一种跨模态唇语识别方法,包括
S1,数据预处理:
对于视频数据,首先识别脸部的68个关键点,并通过仿射变换将每张脸部图像标准化为正面视图,最后裁剪出嘴唇区域;
对于音频数据,首先将其下采样为16kHz,并转换为梅尔倒谱系数特征,然后将所有时刻的梅尔倒谱系数向量进行归一化并按照时间顺序组成特征矩阵;
S2,模型训练:
S21,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在每个分支的属性学习模块中进行说话人识别任务的训练;
S22,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在两个分支共用的对比学习模块中,利用说话人识别任务获取的表征,标准化语义特征,然后进行音视频跨模态对比学习;
S23,仅输入音频序列,去除说话人音色特点,准化语音特征,利用反向传播算法对语音识别分支的模型参数进行更新,以确保参与对比学习的中间音频特征S正确;
S24,仅输入视频序列,去除说话人唇形特点,标准化唇语特征,利用反向传播算法对唇语识别分支的模型参数进行更新;
重复以上S21-S24直到学习率衰减后连续多轮训练内损失函数值不再降低,即模型收敛;S3,模型部署:
仅输入待识别的非训练数据视频序列,使用视觉识别分支,去除说话人唇形特点,并对唇语特征进行标准化,最后进行唇语特征到文字的映射。
作为优选,所述视觉识别分支包括3D卷积模块、第一递归神经网络模块、第一说话人特征提取模块、第一属性学习模块、对比学习模块、第二递归神经网络模块、第一注意力模块和第一映射模块;
所述3D卷积模块用于获取唇部动作的短时特征;
所述第一递归神经网络模块用于建立唇部动作的长时依赖关系;
所述第一说话人特征提取模块用于提取不同说话人的唇形特征;
所述第一属性学习模块用于利用已获得的说话人唇形特征消除不同说话人的唇形差异;
所述对比学习模块用于使用跨音视频数据的自监督对比学习方法,使模型从视频数据自身的另一表现形式音频中获得先验知识,并引导视觉识别分支学习唇形特征;
所述第二递归神经网络模块用于强化经过对比学习层的视频中间特征S序列的上下文关系;
所述第一注意力模块用于在时域中通过对第二递归神经网络模块输出的不同时间点特征分配不同的权重来帮助模型忽略无关的视频帧;
所述第一映射层用于将第一注意力模块输出的最终唇部运动特征映射到文本域中。
作为优选,所述语音识别分支包括:
2D卷积模块、第三递归神经网络模块、第二说话人特征提取模块、第二属性学习模块、对比学习模块、第四递归神经网络模块、第二注意力模块和第二映射模块;
所述2D卷积模块用于对梅尔倒谱特征进行短时语音特征提取;
所述第三递归神经网络模块用于建立语音特征的长时依赖关系;
所述第二说话人特征提取模块用于提取不同说话人的音色特征;
所述第二属性学习模块用于利用已获得的说话人音色特征消除不同说话人的音色差异;
所述第四递归神经网络模块用于强化经过对比学习模块的音频中间特征S序列的上下文关系;
所述第二注意力模块用于在时域中通过对第四递归神经网络模块输出的不同时间点特征分配不同的权重来帮助模型忽略无关的音频片段;
所述第二映射模块用于将第二注意力模块输出的最终音频特征映射到文本域中。
作为优选,所述第一映射层包括基于带ReLU激活函数的多层感知机的非线性映射的分类器。
作为优选,使用联结主义时间分类损失函数分别对视觉识别分支和语音识别分支进行约束。
本方法通过使用自监督的跨模态对比学习方法,在无需额外人为标注数据的前提下,通过音频信息帮助唇语识别分支从输入的视频序列中提取到具有更好可区分性的视觉特征,并以此为基础区分发音不同但口型相似的唇语视频序列。
相比于两阶段的传统唇语识别方法,本方法基于深度学习构建端到端唇语识别系统,特征提取的泛化性和鲁棒性更好,能够跨说话人使用,也无需为每个类别样本单独训练一组模型参数。
传统方法对不同说话人数据的泛化能力较差,而本方法应用属性学习对来自不同说话人的唇语特征进行标准化,极大地提升了算法应对不同说话人唇形的鲁棒性。
本方法基本不需要人工打标签,而是利用音频模态信息作为引导,通过端到端的跨音视频数据自监督学习方法,在音频信息的指导下帮助唇语模型获取更好的视觉特征,提升算法在唇语识别问题上的性能表现。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1,为本发明一种跨模态唇语识别方法的模型一种示例性实施例图。
图2,为本发明的模型训练步骤的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明提供了一种跨模态唇语识别方法,包括
S1,数据预处理:
对于视频数据,首先识别脸部的68个关键点,并通过仿射变换将每张脸部图像标准化为正面视图,最后裁剪出嘴唇区域;
对于音频数据,首先将其下采样为16kHz,并转换为梅尔倒谱系数特征,然后将所有时刻的梅尔倒谱系数向量进行归一化并按照时间顺序组成特征矩阵;
S2,模型训练:
S21,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在每个分支的属性学习模块中进行说话人识别任务的训练;
S22,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在两个分支共用的对比学习模块中,利用说话人识别任务获取的表征,标准化语义特征。然后进行音视频跨模态对比学习;
S23,仅输入音频序列,去除说话人音色特点,标准化语音特征,利用反向传播算法对语音识别分支的模型参数进行更新,以确保参与对比学习的中间音频特征S正确;
S24,仅输入视频序列,去除说话人唇形特点,标准化唇语特征,利用反向传播算法对唇语识别分支的模型参数进行更新;
重复以上S21-S24直到学习率衰减后连续多轮训练内损失函数值不再降低,即模型收敛;S3,模型部署:
仅输入待识别的非训练数据视频序列,使用视觉识别分支,去除说话人唇形特点,并对唇语特征进行标准化,最后进行唇语特征到文字的映射。
本方法基本不需要人工打标签,而是利用音频模态信息作为引导,通过端到端的跨音视频数据自监督学习方法,在音频信息的指导下帮助唇语模型获取更好的视觉特征,提升算法在唇语识别问题上的性能表现。
作为优选,所述视觉识别分支包括3D卷积模块、第一递归神经网络模块、第一说话人特征提取模块、第一属性学习模块、对比学习模块、第二递归神经网络模块、第一注意力模块和第一映射模块;
所述3D卷积模块用于获取唇部动作的短时特征;
所述第一递归神经网络模块用于建立唇部动作的长时依赖关系;
所述第一说话人特征提取模块用于提取不同说话人的唇形特征;
所述第一属性学习模块用于利用已获得的说话人唇形特征消除不同说话人的唇形差异;
所述对比学习模块用于使用跨音视频数据的自监督对比学习方法,使模型从视频数据自身的另一表现形式音频中获得先验知识,并引导视觉识别分支学习唇形特征;
所述第二递归神经网络模块用于强化经过对比学习层的视频中间特征S序列的上下文关系;
所述第一注意力模块用于在时域中通过对第二递归神经网络模块输出的不同时间点特征分配不同的权重来帮助模型忽略无关的视频帧;
所述第一映射层用于将第一注意力模块输出的最终唇部运动特征映射到文本域中。
具体的,各个模块之间的数据输入输出关系如下:
待识别视频序列->3D卷积模块->唇部动作短时特征;
唇部动作短时特征->第一递归神经网络模块->唇部动作长时依赖关系、唇部序列总体特征;
唇部序列总体特征->第一说话人特征提取模块->不同说话人的唇形特征;
不同说话人的唇形特征、唇部动作长时依赖关系->第一属性学习模块->消除个人差异的唇部动作长时依赖关系;
消除个人差异的唇部动作长时依赖关系、消除个人差异的音频长时依赖关系->对比学习模块->区分度更高的唇部动作特征、音频中间特征;
区分度更高的唇部动作特征->第二递归神经网络模块->上下文联系更紧密的高区分度唇部动作特征;
上下文联系更紧密的高区分度唇部动作特征->第一注意力模块->忽略不发音的唇部动作特征;
忽略不发音的唇部动作特征->第一映射模块->文本。
作为优选,所述语音识别分支包括:
2D卷积模块、第三递归神经网络模块、第二说话人特征提取模块、第二属性学习模块、对比学习模块、第四递归神经网络模块、第二注意力模块和第二映射模块;
所述2D卷积模块用于对梅尔倒谱特征进行短时语音特征提取;
所述第三递归神经网络模块用于建立语音特征的长时依赖关系;
所述第二说话人特征提取模块用于提取不同说话人的音色特征;
所述第二属性学习模块用于利用已获得的说话人音色特征消除不同说话人的音色差异;
所述第四递归神经网络模块用于强化经过对比学习模块的音频中间特征S序列的上下文关系;
所述第二注意力模块用于在时域中通过对第四递归神经网络模块输出的不同时间点特征分配不同的权重来帮助模型忽略无关的音频片段;
所述第二映射模块用于将第二注意力模块输出的最终音频特征映射到文本域中。
具体的,各个模块之间的数据输入输出关系如下:
待识别音频梅尔倒谱系数特征序列->2D卷积模块->音频短时特征;
音频短时特征->第三递归神经网络模块->音频长时依赖关系、音频序列总体特征;
音频序列总体特征->第二说话人特征提取模块->不同说话人的音色特征;
不同说话人的音色特征、音频长时依赖关系->第二属性学习模块->消除个人差异的音频长时依赖关系;
消除个人差异的唇部动作长时依赖关系、消除个人差异的音频长时依赖关系->对比学习模块->区分度更高的唇部动作特征、音频中间特征;
音频中间特征->第四递归神经网络模块->上下文联系更紧密的音频中间特征;
上下文联系更紧密的音频中间特征->第二注意力模块->忽略不发音的音频中间特征忽略不发音的音频中间特征->第二映射模块->文本。
作为优选,所述第一映射层包括基于带ReLU激活函数的多层感知机的非线性映射的分类器。
作为优选,使用联结主义时间分类损失函数分别对视觉识别分支和语音识别分支进行约束。
本方法使用端到端训练的神经网络实现唇语识别功能,如图1所示,模型总体由两个独立分支组成,右侧分支负责唇语识别,左侧分支负责语音识别,算法的核心思想是:基于自监督的对比学习方法,利用具有更好区分度的音频信息来提高模型对视觉输入信号,即唇部运动或唇形特征的辨别能力。图2,为本发明的模型训练步骤。
在右侧的视觉识别分支中,
我们首先应用3D卷积模块从视频序列中提取嘴唇运动的短期依赖特征,并在卷积层后应用ReLU激活函数和最大池化层。
由于3D卷积模块含有较多的参数,极易在小规模数据集上产生过拟合现象,因此我们还应用dropout层来缓解过拟合问题。
如总体结构图右侧唇语识别分支所示,在使用3D卷积模块获取唇部动作的短时特征后,我们使用一层双向GRU,即第一递归神经网络模块以建立唇部动作的长时依赖关系。
相比于单向递归网络,双向递归网络能够对序列的正反顺序进行建模,以从序列中获取更丰富的语义信息。而相较于LSTM,使用GRU在一定程度上减少了参数量,进一步缓解了过拟合问题。
在总体结构图左侧的语音识别分支中,
音频信号被转化为梅尔倒谱系数输入分支中。由于转化后的梅尔倒谱特征是二维矩阵形式,因此我们将视觉识别分支中用于提取短时时间特征的3D卷积部分简化为2D卷积并应用到语音识别分支中,并保持该分支的其余部分与视觉识别分支一致。
在对视频和音频进行长时间关系建模后,如总体结构图的中部所示(上下两个GRU层之间,应用对比学习模块CL和属性学习模块AL的位置),
对获得的中间特征S运用属性学习归一化不同说话人的唇形差异使模型获取跨说话人的鲁棒特征,
再使用跨音视频数据的自监督对比学习方法,使模型从视频数据自身的另一表现形式(音频)中获得一定程度的先验知识,并引导视觉识别分支学习到具有更好可区分度的唇形特征。
然后,如结构图下部所示,我们再次采用一层双向GRU强化序列的上下文关系,并在时域中使用注意力模块,通过对不同时间点的特征分配不同的权重来帮助模型忽略无关的视频帧。
最后,我们将模型学习到的唇部运动特征映射到文本域中。因为唇形到文字的映射不满足单射且满射的关系,因此我们使用带ReLU激活函数的多层感知机(MLP)设计了一个非线性映射的分类器,如图中最下方矩形所示。
介于唇语和语音识别的输入与输出文本长度不同,存在对齐的问题,因此我们使用联结主义时间分类损失(Connectionist Temporal Classification loss)函数分别对两个网络分支进行约束。
为取得更鲁棒的跨说话人唇语特征,我们在算法中设计了属性学习模块(总体结构中的AL),用于标准化来自不同说话人的唇部特征。该属性学习模块被同时应用于视频和语音识别分支,一般而言,GRU的最终隐藏层特征包含了说话人的属性信息、情绪信息等。如图所示,我们将GRU的最后输出特征输入属性学习模块中,并在说话人标签的监督下学习如何通过序列总体特征对说话人进行分类,即图中展示的AL模块下方输出说话人分类结果。在该分支训练征程的情况下,AL模块的中间特征作为说话人信息的表征,并将其变换用于标准化GRU每个时刻输出的唇语特征,如图箭头所示。
唇语识别问题如此困难的原因是可明显区分的唇形较少,唇形只能用14个视素进行表示,而音频信号有42个音素对语音进行表示。因此,相比于唇语特征,语音特征天然地具有更好的可区分度,尤其是当说话人说出口型接近但发音不同的词时。因此使用音频指导视频学习是一个有效且可行的方案。为取得区分度更高的唇部特征,我们引入音频特征以提升视频模型分支对于相似唇形的辨识能力。利用自监督的跨音-视频模态对比学习方法,在时间维度上约束来自同一样本、同一时刻的音频和视频特征对尽可能相似,并使此时的视频特征与其他样本的同一时刻音频或视频特征尽可能不同。考虑到同一时刻不同语句间有较大可能存在相同的语义,因此一种可选的方式是对特征序列进行时间维度上的打乱后再进行对比学习约束。
本发明具有以下优点:
本方法通过使用自监督的跨模态对比学习方法,在无需额外人为标注数据的前提下,通过音频信息帮助唇语识别分支从输入的视频序列中提取到具有更好可区分性的视觉特征,并以此为基础区分发音不同但口型相似的唇语视频序列。
相比于两阶段的传统唇语识别方法,本方法基于深度学习构建端到端唇语识别系统,特征提取的泛化性和鲁棒性更好,能够跨说话人使用,也无需为每个类别样本单独训练一组模型参数。
传统方法对不同说话人数据的泛化能力较差,而本方法应用属性学习对来自不同说话人的唇语特征进行标准化,极大地提升了算法应对不同说话人唇形的鲁棒性。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。
Claims (5)
1.一种跨模态唇语识别方法,其特征在于,包括:
S1,数据预处理:
对于视频数据,首先识别脸部的68个关键点,并通过仿射变换将每张脸部图像标准化为正面视图,最后裁剪出嘴唇区域;
对于音频数据,首先将其下采样为16kHz,并转换为梅尔倒谱系数特征,然后将所有时刻的梅尔倒谱系数向量进行归一化并按照时间顺序组成特征矩阵;
S2,模型训练:
S21,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在每个分支的属性学习模块中进行说话人识别任务的训练;
S22,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在两个分支共用的对比学习模块中,利用说话人识别任务获取的表征,标准化语义特征,然后进行音视频跨模态对比学习;
S23,仅输入音频序列,去除说话人音色特点,标准化语音特征,利用反向传播算法对语音识别分支的模型参数进行更新,以确保参与对比学习的中间音频特征S正确;
S24,仅输入视频序列,去除说话人唇形特点,标准化唇语特征,利用反向传播算法对唇语识别分支的模型参数进行更新;
重复以上S21-S24直到学习率衰减后连续多轮训练内损失函数值不再降低,即模型收敛;
S3,模型部署:
仅输入待识别的非训练数据视频序列,使用视觉识别分支,去除说话人唇形特点,并对唇语特征进行标准化,最后进行唇语特征到文字的映射。
2.根据权利要求1所述的一种跨模态唇语识别方法,其特征在于,所述视觉识别分支包括3D卷积模块、第一递归神经网络模块、第一说话人特征提取模块、第一属性学习模块、对比学习模块、第二递归神经网络模块、第一注意力模块和第一映射模块;
所述3D卷积模块用于获取唇部动作的短时特征;
所述第一递归神经网络模块用于建立唇部动作的长时依赖关系;
所述第一说话人特征提取模块用于提取不同说话人的唇形特征;
所述第一属性学习模块用于利用已获得的说话人唇形特征消除不同说话人的唇形差异;
所述对比学习模块用于使用跨音视频数据的自监督对比学习方法,使模型从视频数据自身的另一表现形式音频中获得先验知识,并引导视觉识别分支学习唇形特征;
所述第二递归神经网络模块用于强化经过对比学习层的视频中间特征S序列的上下文关系;
所述第一注意力模块用于在时域中通过对第二递归神经网络模块输出的不同时间点特征分配不同的权重来帮助模型忽略无关的视频帧;
所述第一映射层用于将第一注意力模块输出的最终唇部运动特征映射到文本域中。
3.根据权利要求2所述的一种跨模态唇语识别方法,其特征在于,所述语音识别分支包括:
2D卷积模块、第三递归神经网络模块、第二说话人特征提取模块、第二属性学习模块、对比学习模块、第四递归神经网络模块、第二注意力模块和第二映射模块;
所述2D卷积模块用于对梅尔倒谱特征进行短时语音特征提取;
所述第三递归神经网络模块用于建立语音特征的长时依赖关系;
所述第二说话人特征提取模块用于提取不同说话人的音色特征;
所述第二属性学习模块用于利用已获得的说话人音色特征消除不同说话人的音色差异;
所述第四递归神经网络模块用于强化经过对比学习模块的音频中间特征S序列的上下文关系;
所述第二注意力模块用于在时域中通过对第四递归神经网络模块输出的不同时间点特征分配不同的权重来帮助模型忽略无关的音频片段;
所述第二映射模块用于将第二注意力模块输出的最终音频特征映射到文本域中。
4.根据权利要求2所述的一种跨模态唇语识别方法,其特征在于,所述第一映射层包括基于带ReLU激活函数的多层感知机的非线性映射的分类器。
5.根据权利要求3所述的一种跨模态唇语识别方法,其特征在于,使用联结主义时间分类损失函数分别对视觉识别分支和语音识别分支进行约束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110941080.0A CN113851131A (zh) | 2021-08-17 | 2021-08-17 | 一种跨模态唇语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110941080.0A CN113851131A (zh) | 2021-08-17 | 2021-08-17 | 一种跨模态唇语识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113851131A true CN113851131A (zh) | 2021-12-28 |
Family
ID=78975533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110941080.0A Pending CN113851131A (zh) | 2021-08-17 | 2021-08-17 | 一种跨模态唇语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113851131A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114519880A (zh) * | 2022-02-09 | 2022-05-20 | 复旦大学 | 基于跨模态自监督学习的主动说话人识别方法 |
CN114581813A (zh) * | 2022-01-12 | 2022-06-03 | 北京云辰信通科技有限公司 | 视觉语言识别方法以及相关设备 |
CN115392315A (zh) * | 2022-08-31 | 2022-11-25 | 济南永信新材料科技有限公司 | 一种基于可转移特征的齿轮箱故障检测方法 |
WO2023184714A1 (zh) * | 2022-03-29 | 2023-10-05 | 华为技术有限公司 | 驱动虚拟人说话和模型训练方法、装置、计算设备及系统 |
CN117152317B (zh) * | 2023-11-01 | 2024-02-13 | 之江实验室科技控股有限公司 | 数字人界面控制的优化方法 |
-
2021
- 2021-08-17 CN CN202110941080.0A patent/CN113851131A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581813A (zh) * | 2022-01-12 | 2022-06-03 | 北京云辰信通科技有限公司 | 视觉语言识别方法以及相关设备 |
CN114519880A (zh) * | 2022-02-09 | 2022-05-20 | 复旦大学 | 基于跨模态自监督学习的主动说话人识别方法 |
CN114519880B (zh) * | 2022-02-09 | 2024-04-05 | 复旦大学 | 基于跨模态自监督学习的主动说话人识别方法 |
WO2023184714A1 (zh) * | 2022-03-29 | 2023-10-05 | 华为技术有限公司 | 驱动虚拟人说话和模型训练方法、装置、计算设备及系统 |
CN115392315A (zh) * | 2022-08-31 | 2022-11-25 | 济南永信新材料科技有限公司 | 一种基于可转移特征的齿轮箱故障检测方法 |
CN117152317B (zh) * | 2023-11-01 | 2024-02-13 | 之江实验室科技控股有限公司 | 数字人界面控制的优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106056207B (zh) | 一种基于自然语言的机器人深度交互与推理方法与装置 | |
CN113851131A (zh) | 一种跨模态唇语识别方法 | |
Kumar et al. | Deep learning based assistive technology on audio visual speech recognition for hearing impaired | |
CN106127156A (zh) | 基于声纹和人脸识别的机器人交互方法 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
WO2015158017A1 (zh) | 智能交互及心理慰藉机器人服务系统 | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN105760852A (zh) | 一种融合脸部表情和语音的驾驶员情感实时识别方法 | |
CN116863038A (zh) | 一种文本生成数字人语音及面部动画的方法 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
KR20200084443A (ko) | 음성 변조 시스템 및 방법 | |
CN112597841B (zh) | 一种基于门机制多模态融合的情感分析方法 | |
CN113592251B (zh) | 一种多模态融合的教态分析系统 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
Mishra et al. | Gender differentiated convolutional neural networks for speech emotion recognition | |
CN113239903B (zh) | 一种跨模态唇读的对抗性双重对比自监督学习方法 | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
Goh et al. | Audio-visual speech recognition system using recurrent neural network | |
CN117592564A (zh) | 问答交互方法、装置、设备及介质 | |
KR20220047080A (ko) | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 | |
Nanduri et al. | A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data | |
Mendiratta et al. | A robust isolated automatic speech recognition system using machine learning techniques | |
Thangthai | Computer lipreading via hybrid deep neural network hidden Markov models | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |