CN112053690B - 一种跨模态多特征融合的音视频语音识别方法及系统 - Google Patents
一种跨模态多特征融合的音视频语音识别方法及系统 Download PDFInfo
- Publication number
- CN112053690B CN112053690B CN202011001648.2A CN202011001648A CN112053690B CN 112053690 B CN112053690 B CN 112053690B CN 202011001648 A CN202011001648 A CN 202011001648A CN 112053690 B CN112053690 B CN 112053690B
- Authority
- CN
- China
- Prior art keywords
- lip
- att
- sequence
- features
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 230000033001 locomotion Effects 0.000 claims abstract description 43
- 239000013598 vector Substances 0.000 claims description 79
- 230000006870 function Effects 0.000 claims description 30
- 230000003287 optical effect Effects 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012886 linear function Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 241000282414 Homo sapiens Species 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 12
- 230000007246 mechanism Effects 0.000 abstract description 8
- 230000000007 visual effect Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000007613 environmental effect Effects 0.000 abstract description 3
- 230000009012 visual motion Effects 0.000 abstract description 3
- 230000001815 facial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及音视频语音识别技术,考虑到在实际机器人应用环境中,语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况,本发明提供一种跨模态多特征融合的音视频语音识别方法及系统,本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合,利用不同模态之间的关联性,更加准确的获取用户所表达的语音内容,提升复杂背景噪音条件下语音识别精度,提高人机交互中语音识别性能,有效克服噪声环境下纯语音识别准确率低的问题。
Description
技术领域
本发明涉及音视频语音识别技术,具体涉及一种跨模态多特征融合的音视频语音识别方法及系统。
背景技术
自动语音识别(Automatic Speech Recognition, ASR)技术的目的是让机器能够“听懂”人类的语音,将人类语音信息转化为可读的文字信息,是实现人机语音交互的关键技术。在人类的各种表达方式中,语言所包含的信息最丰富也最精确。随着深度学习的逐渐发展,安静环境下的语音识别率高于95%,已经超越人类的识别准确率。
但在人机交互的实际应用中,复杂的背景噪声会对语音质量和语音清晰度产生较大影响,严重影响语音识别性能,导致语音识别失效。然而本质上人类语言互动是多模态的,人类大脑可以整合语音信息以及与发音密切相关的嘴唇运动视觉信息进行语言交互。语言感知不仅与听觉相关,还与视觉紧密相关,利用跨模态多特征融合的音视频语音识别方法成为提升复杂背景噪音条件下语音识别精度的重要途径。但是,具体如何融合语音-视频信息实现跨模态多特征融合的音视频语音识别以提升复杂背景噪音条件下语音识别精度,则仍然是一项亟待解决的关键技术问题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,考虑到在实际机器人应用环境中,语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况,本发明提供一种跨模态多特征融合的音视频语音识别方法及系统,本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合,利用不同模态之间的关联性,更加准确的获取用户所表达的语音内容,提升复杂背景噪音条件下语音识别精度,提高人机交互中语音识别性能,有效克服噪声环境下纯语音识别准确率低的问题。
为了解决上述技术问题,本发明采用的技术方案为:
一种跨模态多特征融合的音视频语音识别方法,包括:
1)针对说话人的音频数据进行预处理,得到语谱图序列Xa;针对说话人的视频数据进行预处理,提取唇部区域图像序列Xv,提取唇部运动信息得到光流图序列Xo;
2)针对语谱图序列Xa进行特征提取得到语音时序特征Ha,针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv,针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho;
3)采用多头注意力机制针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho计算不同模态下的关联表示,得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动特征的关联表示Vo 。
4)首先通过注意力层的输出与输入特征之间的相关性,得到输入侧各模态特征注意力向量A c att ,V l att ,V o att ;其次通过多重线性函数对各注意力向量进行联合表示,得到最终的表示向量h f ;然后将表示向量h f 通过前馈神经网络和softmax函数得到其概率分布形式;最后将概率分布形式的表示向量h f 通过Beam-search的方式找到最优的识别结果。
可选地,步骤1)中针对说话人的音频数据进行预处理的步骤包括:针对说话人的音频数据进行预加重,将预加重的音频数据进行分帧处理,将不定长的音频序列划分成若干固定长度的语音片段形成语音帧,将分帧后的音频数据进行加窗处理以平滑语音信号;通过快速傅里叶变换将每帧的音频数据变成相应的频谱图,然后将每帧对应频谱图按轴频率轴拼接,最后进行对数能量谱变换得到语谱图序列Xa。
可选地,步骤1)中针对说话人的视频数据进行预处理的步骤包括:进行面部检测得到人脸信息;使用人脸关键点检测模型得到人脸关键点;最后通过人脸关键点坐标进行唇部区域估计,得到所需的唇部区域,从而提取得到唇部区域图像序列Xv;步骤1)中提取唇部运动信息得到光流图序列Xo具体是将唇部区域图像序列Xv输入预设的光流估计CNN模型,得到对应的光流图序列Xo。
可选地,步骤2)中针对语谱图序列Xa进行特征提取得到语音时序特征Ha的步骤包括:通过长短时记忆网络对语谱图序列Xa进行时间动态进行建模,得到语谱图序列Xa对应的深层表达形式Ha;步骤2)针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv的步骤包括:将得到的唇部区域图像序列Xv中每帧唇部区域图像进行灰度转换,并利用全体均值和归一化处理进行标准化;然后利用3D时空卷积网络对唇部区域图像序列Xv进行特征提取,获取唇部区域的深层特征Hv;步骤2)中针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho的步骤包括:将得到的光流图序列Xo中每帧唇部区域图像进行灰度转换,并利用全体均值和归一化处理进行标准化;然后利用3D时空卷积网络对光流图序列Xo进行特征提取,获取唇部间运动信息的动态特征Ho。
可选地,步骤3)中的详细步骤包括:3.1)针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho,将其利用线性映射矩阵W i q 、W i k 和W i v 分别映射为特征空间Q i 、K i 、V i ,其中i表示多头注意力机制的第i个头;3.2)分别针对语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho三者的特征空间Q i 、K i 、V i 进行向量点乘,得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo;
可选地,步骤3.1)中利用线性映射矩阵W i q 、W i k 和W i v 分别映射为特征空间Q i 、K i 、V i 的函数表达式为:
Q
i
=W
i
q
H
K
i
=W
i
k
H
V
i
=W
i
v
H
上式中,H是指语音时序特征Ha、唇部时序特征Hv或唇部间运动时序特征Ho。
可选地,步骤4)中的详细步骤包括:4.1)针对注意力层输出的目标序列Y={y i |i=,1,2,3,...,n},通过注意力层计算输出的目标序列Y与输入侧的语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo的相关性,分别得到语音特征注意力向量A c att 、唇部特征注意力向量V l att 和唇部间运动的注意力向量V o att ,其中n为输出序列的长度;4.2)通过多重线性函数对语音特征注意力向量A c att 、唇部特征注意力向量V l att 和唇部间运动的注意力向量V o att 进行联合表示,得到最终的表示向量h f ;4.3)首先通过前馈神经网络对表示向量h f 进行线性变换,将表示向量h f 投射到对应的标签类别向量空间中;然后通过softmax函数得到每个输出特征对应类别的概率分布形式,最后利用Beam search寻找最优的识别结果。
可选的,步骤4.2)中通过多重线性函数对语音特征注意力向量A c att 、唇部特征注意力向量V l att 和唇部间运动的注意力向量V o att 进行联合表示的函数表达式为:
h f = Multilinear(A c att , V l att , V o att )= A c att ×V l att ×V o att
上式中,Multilinear为多重线性函数,A c att 为语音特征注意力向量,V l att 为唇部特征注意力向量,V o att 为唇部间运动的注意力向量;
可选的,步骤4.3)通过前馈神经网络h f 进行线性变换,利用softmax函数的得到每个输出特征对应类别的概率分布的表达式为:
P(y i |h f ) = softmax(FFN(h f ))
上式中,P(y i |h f )为得到的第i个输出特征对应类别y i 的概率分布,FFN为前馈神经网络;softmax为归一化指数函数。
此外,本发明还提供一种跨模态多特征融合的音视频语音识别系统,包括计算机设备,该计算机设备至少包括相互连接的微处理器和存储器,该微处理器被编程或配置以执行所述跨模态多特征融合的音视频语音识别方法的步骤,或者该存储器中存储有被编程或配置以执行所述跨模态多特征融合的音视频语音识别方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被编程或配置以执行所述跨模态多特征融合的音视频语音识别方法的计算机程序。
和现有技术相比,本发明具有下述优点:考虑到在实际机器人应用环境中,语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况,本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合,利用不同模态之间的关联性,更加准确的获取用户所表达的语音内容,提升复杂背景噪音条件下语音识别精度,提高人机交互中语音识别性能,有效克服噪声环境下纯语音识别准确率低的问题。本发明方法融合了语音信息、视觉信息和视觉运动信息,引入多头注意力机制,可以在编码端建立输入侧不同时刻数据之间的时序关联性,得到每个模态输入序列的上下文特征;通过多重线性函数融合不同模态特征,充分利用了不同模态之间的关联性;在输出端特定的选择输入中相关的信息,提高了时序模型对于长输入序列的学习能力。本发明方法适用于不同噪声环境下语音识别,具有很好的抗噪声干扰能力,为实际环境下的人机交互提供了可能。
附图说明
图1为本发明实施例方法的基本流程示意图。
图2为本发明实施例方法的多模语音识别原理示意图。
图3为本发明实施例中的语音信息预处理示意图。
图4为本发明实施例中的视觉信息预处理示意图。
图5为本发明实施例中的人脸关键点示意图。
具体实施方式
如图1和图2所示,一种跨模态多特征融合的音视频语音识别方法,包括:
1)针对说话人的音频数据进行预处理,得到语谱图序列Xa;针对说话人的视频数据进行预处理,提取唇部区域图像序列Xv,提取唇部运动信息得到光流图序列Xo;
2)针对语谱图序列Xa进行特征提取得到语音时序特征Ha,针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv,针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho;
3)采用多头注意力机制针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho计算不同模态下的关联表示,得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动特征的关联表示Vo;
4)首先通过注意力层的输出与输入特征之间的相关性,得到输入侧各模态特征注意力向量A c att ,V l att ,V o att ;其次通过多重线性函数对各注意力向量进行联合表示,得到最终的表示向量h f ;然后将表示向量h f 通过前馈神经网络和softmax函数得到其概率分布形式;最后将概率分布形式的表示向量h f 通过Beam-search的方式找到最优的识别结果。
参见图2可知,步骤1)~步骤2)为数据预处理的过程;步骤3)为编码端进行特征解码的过程;步骤4)为解码端进行特征解码的过程。
如图3所示,步骤1)中针对说话人的音频数据进行预处理的步骤包括:
针对说话人的音频数据进行预加重,用于增强音频信号的高频部分使信号的频谱更加平稳,消除嘴唇的影响,补偿音频信号被发音系统所抑制的高频部分,提高语音分辨率;
将预加重的音频数据进行分帧处理,将不定长的音频序列划分成若干固定长度的语音片段形成语音帧,本实施例中,语音帧为N个采样点构成的一个观测单位,在分帧时为了避免窗边界对每帧的端头信号的遗漏,帧与帧之间要有重叠区,每帧的所占的时间为N/f*1000。例如本发明中采用f=16khz的采样频率,采样点数为N=400,即为每帧的时间长度为40ms,每两帧之间的重叠区为15ms,则1s中的语音信号可以得到40帧的音频数据。
将分帧后的音频数据进行加窗处理(加窗就是把每一帧音频数据中元素与窗序列对应元素相乘)以平滑语音信号;通过快速傅里叶变换(FFT)将每帧的音频数据变成相应的频谱图,然后将每帧对应频谱图按轴频率轴拼接,最后进行对数能量谱变换得到语谱图序列Xa,其形式为:
Xa={x a i |i=,1,2,3,...,t},其中t 为语音帧的数量。
如图4所示,步骤1)中针对说话人的视频数据进行预处理的步骤包括:进行面部检测得到人脸信息;使用人脸关键点检测模型得到人脸关键点;最后通过人脸关键点坐标进行唇部区域估计,得到所需的唇部区域,从而提取得到唇部区域图像序列Xv,其形式为:
Xv={x v i |i=,1,2,3,...,m},其中m为唇部区域图像数量。需要说明的是,人脸检测、人脸关键点检测模型均为现有技术,本实施例中人脸关键点检测模型使用开源人脸库Dlib的人脸关键点检测模型,可得到68个人脸关键点,如图5所示。
步骤1)中提取唇部运动信息得到光流图序列Xo具体是将唇部区域图像序列Xv输入预设的光流估计CNN模型,得到对应的光流图序列Xo,其形式为:
Xo={x o i |i=,1,2,3,...,k},其中k为唇部区域光流图的数量。
作为一种可选的实施方式,如图2所示,本实施例中采用的光流估计CNN模型具体为选用PWC-Net神经网络,PWC-Net神经网络是一种紧凑而有效的光流估计CNN模型,融合了几种经典的光流估计技术,包括图像金字塔,变形和本量(Pyramid, Warping, and CostVolume),是目前最优的光流估计CNN模型。此外也可以采用其他光流估计CNN模型。
本实施例中,步骤2)中针对语谱图序列Xa进行特征提取得到语音时序特征Ha的步骤包括:通过长短时记忆网络(Long Short-Term Memory:简称LSTM)对语谱图序列Xa进行时间动态进行建模,得到语谱图序列Xa对应的深层表达形式Ha,其形式为:
Ha={h a 1 , h a 2 , h a 3 ,..., h a t },其中t为语谱图序列Xa的元素数量。
深层表达形式Ha中任意元素的计算方式为:
h t =LSTM(x t , h t-1 )
上式中,h t 为t时刻的输出,x t 为t时刻的网络输入值,h t-1 为t-1时刻的网络输出值,LSTM为长短时记忆网络,长短时记忆网络具有记忆细胞让它来保存长期的状态,称为单元状态(cell state),用C表示。对于长短时记忆网络,在t时刻输入由三个:当前时刻网络输入值x t ,上一时刻网络输出值h t-1 ,以及上一时刻单元状态C t-1 ,长短时记忆网络的输出值有两个:当前时刻的网络输出值h t ,以及当前刻单元状态C t 。
其中,长短时记忆网络的结构包括:
遗忘层(Forget Layer):用于计算上一时刻的单元状态C t-1 有多少保留到当前时刻的单元状态C t ,其函数表达式为:
上式中,f t 为遗忘层的输出,W f 是遗忘门的权重矩阵,[h t-1 , x t ]表示两个向量的串联,b f 是遗忘层的偏置项,σ是sigmoid 激励函数。
输入层(Input layer):计算当前时刻网络的输入x t 有多少保存到单元状态C t ,保存的信息由进行表示。
上式中,i t 为输入层的输出,W i 是输入层的权重矩阵,b i 是输入层的偏置项,σ是sigmoid 激励函数。W C 是计算单元的权重矩阵,b C 是计算单元的偏置项。
状态层(State layer):用于进行当前时刻单元状态C t 的计算,可以将当前的记忆和以前的记忆进行组合。
输出层(Output layer):计算记忆的单元状态C t 有多少输出到长短时记忆网络当前时刻的网络输出值h t 。
上式中,O t 为输出层的输出,W o 是输出层的权重矩阵,b o 是输出层的偏置项,h t 是长短时记忆网络当前时刻的网络输出值。LSTM可以在最近的信息和历史信息之间进行切换,决定哪些信息要保留和遗忘。
在卷积神经网络中,时空卷积可以同时计算时间和时间维度特征。而时序视觉数据是一个3维立方体结构,通过3D卷积核应用到多个连续帧,从而可以捕获运动信息。本实施例中,步骤2)针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv的步骤包括:将得到的唇部区域图像序列Xv中每帧唇部区域图像进行灰度转换,并利用全体均值和归一化处理进行标准化;然后利用3D时空卷积网络对唇部区域图像序列Xv进行特征提取,获取唇部区域的深层特征Hv,其形式为:
Hv={h v 1 , h v 2 , h v 3 ,..., h v m },其中m为唇部区域图像序列Xv的元素数量。
步骤2)中针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho的步骤包括:将得到的光流图序列Xo中每帧唇部区域图像进行灰度转换,并利用全体均值和归一化处理进行标准化;然后利用3D时空卷积网络对光流图序列Xo进行特征提取,获取唇部间运动信息的动态特征Ho,其形式为:
Ho={h o 1 , h o 2 , h o 3 ,..., h o k },其中k为唇部区域光流图序列Xo的元素数量。
作为一种可选的实施方式,本实施例中3D时空卷积网络具体采用2D/3D Resnet实现,此外也可以根据需要采用其他具有3D卷积核的3D时空卷积网络。
步骤3)利用多头注意力机制(Multi-head attention)计算每个模态输入序列的上下文表示和不同模态间的联合表示。多头注意力机制是由多个自注意力组成,通过每个head在不同的子空间中表示特征,关注不同位置的信息。并且可以使模型并行化处理,减少模型的运算能力。本实施例中,步骤3)中的详细步骤包括:3.1)针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho,将其利用线性映射矩阵W i q 、W i k 和W i v 分别映射为特征空间Q i 、K i 、V i ,其中i表示多头注意力机制的第i个头;3.2)分别针对语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho三者的特征空间Q i 、K i 、V i 进行向量点乘,得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo;
本实施例中,步骤3.1)中利用线性映射矩阵W i q 、W i k 和W i v 分别映射为特征空间Q i 、K i 、V i 的函数表达式为:
Q
i
=W
i
q
H
K
i
=W
i
k
H
V
i
=W
i
v
H
上式中,H是指语音时序特征Ha、唇部时序特征Hv或唇部间运动时序特征Ho。其中,i表示多头注意力机制的第i个头,W i q 、W i k 和W i v 为任意第i个头对应的参数矩阵,
本实施例中,步骤3.2)中计算语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo其中其主要计算公式为:
多头注意力机制实际上为多个注意力的连接,其计算公式如下:
上式中,head i 表示第i个头的注意力,j表示头的总数量,Att i (Q,K,V)表示每个头的注意力函数,softmax表示归一化指数函数,Q i 、K i 、V i 为语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho在第i个头映射结果,d k 为Q i K i T对应的维度,MultiHead(Q,K,V)表示多头注意力函数,Contact(head 1 ,head 2 ,... , head j )表示将head 1 ~head j 连接。
步骤4)在解码端,首先通过注意力机制计算模型的输出与输入特征之间的相关性,得到输入侧每个模态特征向量的加权值,相关性越高对应的权重越大;其次通过多重线性函数对语音特征注意力向量A c att 、唇部特征注意力向量V l att 和唇部间运动的注意力向量V o att 进行联合表示,得到最终的表示向量h f ;然后通过前馈神经网络将其映射到标签类别空间,并利用softmax函数得到每个输出特征对应类别的概率分布形式,最后采用定向搜索技术Beam search(详见Furcy D, Koenig S. Limited discrepancy beam search[C]IJCAI. 2005.)的方式找到最优的识别结果。本实施例中,步骤4)中的详细步骤包括:4.1)针对注意力层输出的目标序列Y={y i |i=,1,2,3,...,n},通过注意力层计算输出的目标序列Y与输入侧的语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo的相关性,分别得到语音特征注意力向量A c att 、唇部特征注意力向量V l att 和唇部间运动的注意力向量V o att ,其中n为输出序列的长度;4.2)通过多重线性函数对语音特征注意力向量A c att 、唇部特征注意力向量V l att 和唇部间运动的注意力向量V o att 进行联合表示,得到最终的表示向量h f ;4.3)首先通过前馈神经网络对表示向量h f 进行线性变换,将表示向量h f 投射到对应的标签类别向量空间中;然后通过softmax函数得到每个输出特征对应类别的概率分布形式,最后利用Beam search寻找最优的识别结果。
本实施例中,步骤4.2)中通过多重线性函数对语音特征注意力向量A c att 、唇部特征注意力向量V l att 和唇部间运动的注意力向量V o att 进行联合表示的函数表达式为:
h f = Multilinear(A c att , V l att , V o att )= A c att ×V l att ×V o att
上式中,Multilinear为多重线性函数,A c att 为语音特征注意力向量,V l att 为唇部特征注意力向量,V o att 为唇部间运动的注意力向量;
本实施例中,步骤4.3)通过前馈神经网络h f 进行线性变换,利用softmax函数的得到每个输出特征对应类别的概率分布的表达式为:
P(y i |h f ) = softmax(FFN(h f ))
上式中,P(y i |h f )为得到的第i个输出特征对应类别y i 的概率分布,FFN为前馈神经网络;softmax为归一化指数函数。
需要说明的是,本实施例方法仅涉及对现有Beam search方法的应用,并不包含对现有Beam search方法的任何改进。现有Beam search方法的工作原理如下:
Beam search搜索策略在预测的每一时间步长中,都保留Top-k高概率的词。并且之后的每个时间步长,都基于上个步长的输出序列。然后挑选出所有组合中条件概率最大的 k个,作为该时间步长下的候选输出序列,最后从K个候选挑出最优的作为识别结果。其中k为超参数beam size(束宽),k越大,得到更好结果的可能性更大。
为了得到最佳的音视频语音识别效果,实施例在大型音视频数据集LRS2(详见https://www.bbc.co.uk/rd/projects/lip-reading-datasets)上进行模型的训练、测试,得到最优的语音识别模型。LRS2数据集收集数千小时的口语句子和短语,以及相对应的面部;其由143000句话语组成,它包含230万个单词,4.1万个词汇量。作为本实施例方法的对比:对比方法WLAS算法(详见Chung J S, Senior A, Vinyals O, et al. Lip readingsentences in the wild[C]2017 IEEE Conference on Computer Vision and PatternRecognition (CVPR). IEEE, 2017: 3444-3453.)。而且,采用词错误率(Word ErrorRate,WER)来衡量识别结果的准确性,词错误率越低表明识别效果越好。词错误率为编辑距离(Edit Distance)和标签长度(Label length)的比值。编辑距离(Edit Distance)是衡量两个字符串相似度的度量指标,一般是指通过单词替换、单词插入和单词删除三种编辑操作将一个转成另一个所需的最少编辑操作次数。表1为本实施例方法与WLAS算法在LRS2数据集下的识别结果。
表 1本实施例方法与WLAS 算法在 LRS2数据集下的识别结果比较。
由表1可知,本实施例跨模态多特征融合的音视频语音识别的词错误率均低于WLAS 算法,在安静和噪声环境下的语音识别准确率均获得了提升。
综上所述,人机交互的实际应用中,噪声和多声源存在的情况下,单语音模态的识别精度低,严重影响单模态语音识别性能,导致语音识别失效。然而实际上人类语言互动是多模态的,在噪声的环境下面部表情通过视频获取相对较稳定,因此本实施例跨模态多特征融合的音视频语音识别方法通过融合语音信息,视觉信息和视觉间运动信息,实现了一种跨模态多特征的语音识别方式,本实施例方法利用了不同模态之间的关联性,通过补充缺失的信息来提高对其它模态的识别能力,为复杂环境下的人机交互中语音精准提供有效的解决方案。
此外,本实施例还提供一种跨模态多特征融合的音视频语音识别系统,包括:
多模态数据预处理程序单元,用于针对说话人的音频数据进行预处理,得到语谱图序列Xa;针对说话人的视频数据进行预处理,提取唇部区域图像序列Xv,提取唇部运动信息得到光流图序列Xo;
多模态特征提取程序单元,用于针对语谱图序列Xa进行特征提取得到语音时序特征Ha,针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv,针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho;
多模态特征联合表示程序单元,用于采用多头注意力机制针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho计算不同模态下的关联表示
语音识别程序单元,用于输出目标序列,首先通过注意力机制计算模型的输出与输入特征之间的相关性,得到输入侧各模态特征注意力向量A c att ,V l att ,V o att ;其次通过多重线性函数对各注意力向量进行联合表示,得到最终的表示向量h f ;然后通过前馈神经网络和softmax函数得到其概率分布形式;最后通过Beam-search的方式找到最优的识别结果。
此外,本实施例还提供一种跨模态多特征融合的音视频语音识别系统,包括计算机设备,该计算机设备至少包括相互连接的微处理器和存储器,该微处理器被编程或配置以执行前述跨模态多特征融合的音视频语音识别方法的步骤,或者该存储器中存储有被编程或配置以执行前述跨模态多特征融合的音视频语音识别方法的计算机程序。此外,作为一种本地的执行方式,计算机设备还连接有麦克风、摄像头等传感器,用于实现视频和语音信号数据的采集。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被编程或配置以执行前述跨模态多特征融合的音视频语音识别方法的计算机程序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种跨模态多特征融合的音视频语音识别方法,其特征在于,包括:
1)针对说话人的音频数据进行预处理,得到语谱图序列Xa;针对说话人的视频数据进行预处理,提取唇部区域图像序列Xv,提取唇部运动信息得到光流图序列Xo;
2)针对语谱图序列Xa进行特征提取得到语音时序特征Ha,针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv,针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho;
3)采用多头注意力机制针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho计算不同模态下的关联表示,得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动特征的关联表示Vo;
4)首先通过注意力层的输出与输入特征之间的相关性,得到输入侧各模态特征注意力向量A c att,V l att,V o att;其次通过多重线性函数对各注意力向量进行联合表示,得到最终的表示向量h f ;然后将表示向量h f通过前馈神经网络和softmax函数得到其概率分布形式;最后将概率分布形式的表示向量h f通过Beam-search的方式找到最优的识别结果。
2.根据权利要求1所述的跨模态多特征融合的音视频语音识别方法,其特征在于,步骤1)中针对说话人的音频数据进行预处理的步骤包括:针对说话人的音频数据进行预加重,将预加重的音频数据进行分帧处理,将不定长的音频序列划分成若干固定长度的语音片段形成语音帧,将分帧后的音频数据进行加窗处理以平滑语音信号;通过快速傅里叶变换将每帧的音频数据变成相应的频谱图,然后将每帧对应频谱图按轴频率轴拼接,最后进行对数能量谱变换得到语谱图序列Xa。
3.根据权利要求1所述的跨模态多特征融合的音视频语音识别方法,其特征在于,步骤1)中针对说话人的视频数据进行预处理的步骤包括:进行面部检测得到人脸信息;使用人脸关键点检测模型得到人脸关键点;最后通过人脸关键点坐标进行唇部区域估计,得到所需的唇部区域,从而提取得到唇部区域图像序列Xv;步骤1)中提取唇部运动信息得到光流图序列Xo具体是将唇部区域图像序列Xv输入预设的光流估计CNN模型,得到对应的光流图序列Xo。
4.根据权利要求1所述的跨模态多特征融合的音视频语音识别方法,其特征在于,步骤2)中针对语谱图序列Xa进行特征提取得到语音时序特征Ha的步骤包括:通过长短时记忆网络对语谱图序列Xa进行时间动态进行建模,得到语谱图序列Xa对应的深层表达形式的语音时序特征Ha;步骤2)针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv的步骤包括:将得到的唇部区域图像序列Xv中每帧唇部区域图像进行灰度转换,并利用全体均值和归一化处理进行标准化;然后利用3D时空卷积网络对唇部区域图像序列Xv进行特征提取,获取唇部时序特征Hv;步骤2)中针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho的步骤包括:将得到的光流图序列Xo中每帧唇部区域图像进行灰度转换,并利用全体均值和归一化处理进行标准化;然后利用3D时空卷积网络对光流图序列Xo进行特征提取,获取唇部间运动时序特征Ho。
5.根据权利要求1所述的跨模态多特征融合的音视频语音识别方法,其特征在于,步骤3)中的详细步骤包括:3.1)针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho,将其利用线性映射矩阵W i q、W i k和W i v分别映射为特征空间Q i、K i、V i,其中i表示多头注意力机制的第i个头;3.2)分别针对语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho三者的特征空间Q i、K i、V i进行向量点乘,得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo。
6. 根据权利要求5所述的跨模态多特征融合的音视频语音识别方法,其特征在于,步骤3.1)中利用线性映射矩阵W i q、W i k和W i v分别映射为特征空间Q i、K i、V i的函数表达式为:
Q
i
=W
i
q
H
K
i
=W
i
k
H
V
i
=W
i
v
H
上式中,H是指语音时序特征Ha、唇部时序特征Hv或唇部间运动时序特征Ho。
7. 根据权利要求1所述的跨模态多特征融合的音视频语音识别方法,其特征在于,步骤4)中的详细步骤包括:4.1)针对注意力层输出的目标序列Y={y i|i=,1,2,3,...,n},通过注意力层计算输出的目标序列Y与输入侧的语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo的相关性,分别得到语音特征注意力向量A c att、唇部特征注意力向量V l att和唇部间运动的注意力向量V o att,其中n为输出序列的长度;4.2)通过多重线性函数对语音特征注意力向量A c att、唇部特征注意力向量V l att和唇部间运动的注意力向量V o att进行联合表示,得到最终的表示向量h f;4.3)首先通过前馈神经网络对表示向量h f进行线性变换,将表示向量h f投射到对应的标签类别向量空间中;然后通过softmax函数得到每个输出特征对应类别的概率分布形式,最后利用Beam search寻找最优的识别结果。
8. 根据权利要求7所述的跨模态多特征融合的音视频语音识别方法,其特征在于,步骤4.2)中通过多重线性函数对语音特征注意力向量A c att、唇部特征注意力向量V l att和唇部间运动的注意力向量V o att进行联合表示的函数表达式为:
h f = Multilinear(A c att, V l att, V o att)= A c att×V l att×V o att
上式中,Multilinear为多重线性函数,A c att为语音特征注意力向量,V l att为唇部特征注意力向量,V o att为唇部间运动的注意力向量;
步骤4.3)通过前馈神经网络对表示向量h f进行线性变换,利用softmax函数的得到每个输出特征对应类别的概率分布的表达式为:
P(y i|h f) = softmax(FFN(h f))
上式中,P(y i|h f)为得到的第i个输出特征对应类别y i的概率分布,FFN为前馈神经网络;softmax为归一化指数函数。
9.一种跨模态多特征融合的音视频语音识别系统,包括计算机设备,该计算机设备至少包括相互连接的微处理器和存储器,其特征在于,该微处理器被编程或配置以执行权利要求1~8中任意一项所述跨模态多特征融合的音视频语音识别方法的步骤,或者该存储器中存储有被编程或配置以执行权利要求1~8中任意一项所述跨模态多特征融合的音视频语音识别方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质中存储有被编程或配置以执行权利要求1~8中任意一项所述跨模态多特征融合的音视频语音识别方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011001648.2A CN112053690B (zh) | 2020-09-22 | 2020-09-22 | 一种跨模态多特征融合的音视频语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011001648.2A CN112053690B (zh) | 2020-09-22 | 2020-09-22 | 一种跨模态多特征融合的音视频语音识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112053690A CN112053690A (zh) | 2020-12-08 |
CN112053690B true CN112053690B (zh) | 2023-12-29 |
Family
ID=73603782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011001648.2A Active CN112053690B (zh) | 2020-09-22 | 2020-09-22 | 一种跨模态多特征融合的音视频语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112053690B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786052B (zh) * | 2020-12-30 | 2024-05-31 | 科大讯飞股份有限公司 | 语音识别方法、电子设备和存储装置 |
CN112989977B (zh) * | 2021-03-03 | 2022-09-06 | 复旦大学 | 一种基于跨模态注意力机制的视听事件定位方法及装置 |
CN113128431B (zh) * | 2021-04-25 | 2022-08-05 | 北京亮亮视野科技有限公司 | 视频片段检索方法、装置、介质与电子设备 |
CN113505652B (zh) * | 2021-06-15 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 活体检测方法、装置、电子设备和存储介质 |
CN113435421B (zh) * | 2021-08-26 | 2021-11-05 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
CN114548442B (zh) * | 2022-02-25 | 2022-10-21 | 万表名匠(广州)科技有限公司 | 一种基于互联网技术的腕表维修管理系统 |
CN115410561B (zh) * | 2022-11-02 | 2023-02-17 | 中汽数据有限公司 | 基于车载多模交互的语音识别方法及装置、介质和设备 |
CN116343809B (zh) * | 2022-11-18 | 2024-04-02 | 上海玄戒技术有限公司 | 视频语音增强的方法及装置、电子设备和存储介质 |
CN115620110B (zh) * | 2022-12-16 | 2023-03-21 | 华南理工大学 | 一种视频事件定位与识别方法、装置及存储介质 |
CN116129931B (zh) * | 2023-04-14 | 2023-06-30 | 中国海洋大学 | 一种视听结合的语音分离模型搭建方法及语音分离方法 |
CN116797981B (zh) * | 2023-08-18 | 2023-11-28 | 成都锦城学院 | 一种基于深度学习的跨模态视频情感处理方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015154419A1 (zh) * | 2014-09-03 | 2015-10-15 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
CN109524006A (zh) * | 2018-10-17 | 2019-03-26 | 天津大学 | 一种基于深度学习的汉语普通话唇语识别方法 |
WO2019161198A1 (en) * | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
CN110276259A (zh) * | 2019-05-21 | 2019-09-24 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111310672A (zh) * | 2020-02-19 | 2020-06-19 | 广州数锐智能科技有限公司 | 基于时序多模型融合建模的视频情感识别方法、装置及介质 |
EP3698359A1 (en) * | 2017-10-18 | 2020-08-26 | Soapbox Labs Ltd. | Methods and systems for speech detection |
CN111640424A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
-
2020
- 2020-09-22 CN CN202011001648.2A patent/CN112053690B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015154419A1 (zh) * | 2014-09-03 | 2015-10-15 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
EP3698359A1 (en) * | 2017-10-18 | 2020-08-26 | Soapbox Labs Ltd. | Methods and systems for speech detection |
WO2019161198A1 (en) * | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
CN109524006A (zh) * | 2018-10-17 | 2019-03-26 | 天津大学 | 一种基于深度学习的汉语普通话唇语识别方法 |
CN111640424A (zh) * | 2019-03-01 | 2020-09-08 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN110276259A (zh) * | 2019-05-21 | 2019-09-24 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111310672A (zh) * | 2020-02-19 | 2020-06-19 | 广州数锐智能科技有限公司 | 基于时序多模型融合建模的视频情感识别方法、装置及介质 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
Non-Patent Citations (3)
Title |
---|
Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion Recognition.《ICMI '19: 2019 International Conference on Multimodal Interaction》.2019,562–566. * |
基于 Kinect 辅助的机器人带噪语音识别;王建荣 等;《第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集》;1-5 * |
基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别;王一鸣 等;电信科学(第12期);第79-89页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112053690A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112053690B (zh) | 一种跨模态多特征融合的音视频语音识别方法及系统 | |
Jahangir et al. | Deep learning approaches for speech emotion recognition: State of the art and research challenges | |
Song et al. | Multimodal sparse transformer network for audio-visual speech recognition | |
Chiu et al. | How to train your avatar: A data driven approach to gesture generation | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
KR20060090687A (ko) | 시청각 콘텐츠 합성을 위한 시스템 및 방법 | |
CN113822192A (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
CN112581569B (zh) | 自适应情感表达的说话人面部动画生成方法及电子装置 | |
US20220172710A1 (en) | Interactive systems and methods | |
Taylor et al. | Audio-to-visual speech conversion using deep neural networks | |
CN111554279A (zh) | 一种基于Kinect的多模态人机交互系统 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
Liu et al. | Audio-visual keyword spotting based on adaptive decision fusion under noisy conditions for human-robot interaction | |
CN114581812B (zh) | 视觉语言识别方法、装置、电子设备及存储介质 | |
Deena et al. | Visual speech synthesis by modelling coarticulation dynamics using a non-parametric switching state-space model | |
CN115171176A (zh) | 对象情绪的分析方法、装置和电子设备 | |
Asadiabadi et al. | Multimodal speech driven facial shape animation using deep neural networks | |
CN116312512A (zh) | 面向多人场景的视听融合唤醒词识别方法及装置 | |
Liu et al. | Real-time speech-driven animation of expressive talking faces | |
Lan et al. | Low level descriptors based DBLSTM bottleneck feature for speech driven talking avatar | |
Wei et al. | Mapping ultrasound-based articulatory images and vowel sounds with a deep neural network framework | |
Jayanthi et al. | Sign Language Recognition using Deep CNN with Normalised Keyframe Extraction and Prediction using LSTM: CONTINUOUS SIGN LANGUAGE GESTURE RECOGNITION AND PREDICTION | |
Choudhury et al. | Review of Various Machine Learning and Deep Learning Techniques for Audio Visual Automatic Speech Recognition | |
Rupauliha et al. | Multimodal emotion recognition in polish (student consortium) | |
Yasui et al. | Multimodal speech recognition using mouth images from depth camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |