CN112053690B

CN112053690B - 一种跨模态多特征融合的音视频语音识别方法及系统

Info

Publication number: CN112053690B
Application number: CN202011001648.2A
Authority: CN
Inventors: 李树涛; 宋启亚; 孙斌
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2023-12-29
Anticipated expiration: 2040-09-22
Also published as: CN112053690A

Abstract

本发明涉及音视频语音识别技术，考虑到在实际机器人应用环境中，语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况，本发明提供一种跨模态多特征融合的音视频语音识别方法及系统，本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合，利用不同模态之间的关联性，更加准确的获取用户所表达的语音内容，提升复杂背景噪音条件下语音识别精度，提高人机交互中语音识别性能，有效克服噪声环境下纯语音识别准确率低的问题。

Description

一种跨模态多特征融合的音视频语音识别方法及系统

技术领域

本发明涉及音视频语音识别技术，具体涉及一种跨模态多特征融合的音视频语音识别方法及系统。

背景技术

自动语音识别(Automatic Speech Recognition, ASR)技术的目的是让机器能够“听懂”人类的语音，将人类语音信息转化为可读的文字信息，是实现人机语音交互的关键技术。在人类的各种表达方式中，语言所包含的信息最丰富也最精确。随着深度学习的逐渐发展,安静环境下的语音识别率高于95%，已经超越人类的识别准确率。

但在人机交互的实际应用中，复杂的背景噪声会对语音质量和语音清晰度产生较大影响，严重影响语音识别性能，导致语音识别失效。然而本质上人类语言互动是多模态的，人类大脑可以整合语音信息以及与发音密切相关的嘴唇运动视觉信息进行语言交互。语言感知不仅与听觉相关，还与视觉紧密相关，利用跨模态多特征融合的音视频语音识别方法成为提升复杂背景噪音条件下语音识别精度的重要途径。但是，具体如何融合语音-视频信息实现跨模态多特征融合的音视频语音识别以提升复杂背景噪音条件下语音识别精度，则仍然是一项亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，考虑到在实际机器人应用环境中，语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况，本发明提供一种跨模态多特征融合的音视频语音识别方法及系统，本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合，利用不同模态之间的关联性，更加准确的获取用户所表达的语音内容，提升复杂背景噪音条件下语音识别精度，提高人机交互中语音识别性能，有效克服噪声环境下纯语音识别准确率低的问题。

为了解决上述技术问题，本发明采用的技术方案为：

一种跨模态多特征融合的音视频语音识别方法，包括：

1）针对说话人的音频数据进行预处理，得到语谱图序列Xa；针对说话人的视频数据进行预处理，提取唇部区域图像序列Xv，提取唇部运动信息得到光流图序列Xo；

2）针对语谱图序列Xa进行特征提取得到语音时序特征Ha，针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv，针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho；

3）采用多头注意力机制针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho计算不同模态下的关联表示，得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动特征的关联表示Vo 。

4）首先通过注意力层的输出与输入特征之间的相关性，得到输入侧各模态特征注意力向量A _c ^att,V _l ^att,V _o ^att；其次通过多重线性函数对各注意力向量进行联合表示，得到最终的表示向量h _f；然后将表示向量h _f通过前馈神经网络和softmax函数得到其概率分布形式；最后将概率分布形式的表示向量h _f通过Beam-search的方式找到最优的识别结果。

可选地，步骤1）中针对说话人的音频数据进行预处理的步骤包括：针对说话人的音频数据进行预加重，将预加重的音频数据进行分帧处理，将不定长的音频序列划分成若干固定长度的语音片段形成语音帧，将分帧后的音频数据进行加窗处理以平滑语音信号；通过快速傅里叶变换将每帧的音频数据变成相应的频谱图，然后将每帧对应频谱图按轴频率轴拼接，最后进行对数能量谱变换得到语谱图序列Xa。

可选地，步骤1）中针对说话人的视频数据进行预处理的步骤包括：进行面部检测得到人脸信息；使用人脸关键点检测模型得到人脸关键点；最后通过人脸关键点坐标进行唇部区域估计，得到所需的唇部区域，从而提取得到唇部区域图像序列Xv；步骤1）中提取唇部运动信息得到光流图序列Xo具体是将唇部区域图像序列Xv输入预设的光流估计CNN模型，得到对应的光流图序列Xo。

可选地，步骤2）中针对语谱图序列Xa进行特征提取得到语音时序特征Ha的步骤包括：通过长短时记忆网络对语谱图序列Xa进行时间动态进行建模，得到语谱图序列Xa对应的深层表达形式Ha；步骤2）针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv的步骤包括：将得到的唇部区域图像序列Xv中每帧唇部区域图像进行灰度转换，并利用全体均值和归一化处理进行标准化；然后利用3D时空卷积网络对唇部区域图像序列Xv进行特征提取，获取唇部区域的深层特征Hv；步骤2）中针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho的步骤包括：将得到的光流图序列Xo中每帧唇部区域图像进行灰度转换，并利用全体均值和归一化处理进行标准化；然后利用3D时空卷积网络对光流图序列Xo进行特征提取，获取唇部间运动信息的动态特征Ho。

可选地，步骤3）中的详细步骤包括：3.1）针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho，将其利用线性映射矩阵W _i ^q、W _i ^k和W _i ^v分别映射为特征空间Q _i、K _i、V _i，其中i表示多头注意力机制的第i个头；3.2）分别针对语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho三者的特征空间Q _i、K _i、V _i进行向量点乘，得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo；

可选地，步骤3.1）中利用线性映射矩阵W _i ^q、W _i ^k和W _i ^v分别映射为特征空间Q _i、K _i、V _i的函数表达式为：

Q _i =W _i ^q H

K _i =W _i ^k H

V _i =W _i ^v H

上式中，H是指语音时序特征Ha、唇部时序特征Hv或唇部间运动时序特征Ho。

可选地，步骤4）中的详细步骤包括：4.1）针对注意力层输出的目标序列Y={y _i|i=,1,2,3,...,n}，通过注意力层计算输出的目标序列Y与输入侧的语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo的相关性，分别得到语音特征注意力向量A _c ^att、唇部特征注意力向量V _l ^att和唇部间运动的注意力向量V _o ^att，其中n为输出序列的长度；4.2）通过多重线性函数对语音特征注意力向量A _c ^att、唇部特征注意力向量V _l ^att和唇部间运动的注意力向量V _o ^att进行联合表示，得到最终的表示向量h _f；4.3）首先通过前馈神经网络对表示向量h _f进行线性变换，将表示向量h _f投射到对应的标签类别向量空间中；然后通过softmax函数得到每个输出特征对应类别的概率分布形式，最后利用Beam search寻找最优的识别结果。

可选的，步骤4.2）中通过多重线性函数对语音特征注意力向量A _c ^att、唇部特征注意力向量V _l ^att和唇部间运动的注意力向量V _o ^att进行联合表示的函数表达式为：

h _f = Multilinear(A _c ^att, V _l ^att, V _o ^att)= A _c ^att×V _l ^att×V _o ^att

上式中，Multilinear为多重线性函数，A _c ^att为语音特征注意力向量，V _l ^att为唇部特征注意力向量，V _o ^att为唇部间运动的注意力向量；

可选的，步骤4.3）通过前馈神经网络h _f进行线性变换，利用softmax函数的得到每个输出特征对应类别的概率分布的表达式为：

P(y _i|h _f) = softmax(FFN(h _f))

上式中，P(y _i|h _f)为得到的第i个输出特征对应类别y _i的概率分布，FFN为前馈神经网络；softmax为归一化指数函数。

此外，本发明还提供一种跨模态多特征融合的音视频语音识别系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，该微处理器被编程或配置以执行所述跨模态多特征融合的音视频语音识别方法的步骤，或者该存储器中存储有被编程或配置以执行所述跨模态多特征融合的音视频语音识别方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行所述跨模态多特征融合的音视频语音识别方法的计算机程序。

和现有技术相比，本发明具有下述优点：考虑到在实际机器人应用环境中，语音交互易受复杂环境噪声影响、而面部运动信息通过视频获取、且相对较稳定这一情况，本发明通过注意力机制对语音信息、视觉信息和视觉运动信息进行融合，利用不同模态之间的关联性，更加准确的获取用户所表达的语音内容，提升复杂背景噪音条件下语音识别精度，提高人机交互中语音识别性能，有效克服噪声环境下纯语音识别准确率低的问题。本发明方法融合了语音信息、视觉信息和视觉运动信息，引入多头注意力机制，可以在编码端建立输入侧不同时刻数据之间的时序关联性，得到每个模态输入序列的上下文特征；通过多重线性函数融合不同模态特征，充分利用了不同模态之间的关联性；在输出端特定的选择输入中相关的信息，提高了时序模型对于长输入序列的学习能力。本发明方法适用于不同噪声环境下语音识别，具有很好的抗噪声干扰能力，为实际环境下的人机交互提供了可能。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例方法的多模语音识别原理示意图。

图3为本发明实施例中的语音信息预处理示意图。

图4为本发明实施例中的视觉信息预处理示意图。

图5为本发明实施例中的人脸关键点示意图。

具体实施方式

如图1和图2所示，一种跨模态多特征融合的音视频语音识别方法，包括：

3）采用多头注意力机制针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho计算不同模态下的关联表示，得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动特征的关联表示Vo；

参见图2可知，步骤1）～步骤2）为数据预处理的过程；步骤3）为编码端进行特征解码的过程；步骤4）为解码端进行特征解码的过程。

如图3所示，步骤1）中针对说话人的音频数据进行预处理的步骤包括：

针对说话人的音频数据进行预加重，用于增强音频信号的高频部分使信号的频谱更加平稳，消除嘴唇的影响，补偿音频信号被发音系统所抑制的高频部分，提高语音分辨率；

将预加重的音频数据进行分帧处理，将不定长的音频序列划分成若干固定长度的语音片段形成语音帧，本实施例中，语音帧为N个采样点构成的一个观测单位，在分帧时为了避免窗边界对每帧的端头信号的遗漏，帧与帧之间要有重叠区，每帧的所占的时间为N/f*1000。例如本发明中采用f=16khz的采样频率，采样点数为N=400，即为每帧的时间长度为40ms，每两帧之间的重叠区为15ms，则1s中的语音信号可以得到40帧的音频数据。

将分帧后的音频数据进行加窗处理（加窗就是把每一帧音频数据中元素与窗序列对应元素相乘）以平滑语音信号；通过快速傅里叶变换（FFT）将每帧的音频数据变成相应的频谱图，然后将每帧对应频谱图按轴频率轴拼接，最后进行对数能量谱变换得到语谱图序列Xa，其形式为：

Xa={x _a ⁱ|i=,1,2,3,...,t}，其中t 为语音帧的数量。

如图4所示，步骤1）中针对说话人的视频数据进行预处理的步骤包括：进行面部检测得到人脸信息；使用人脸关键点检测模型得到人脸关键点；最后通过人脸关键点坐标进行唇部区域估计，得到所需的唇部区域，从而提取得到唇部区域图像序列Xv，其形式为：

Xv={x _v ⁱ|i=,1,2,3,...,m}，其中m为唇部区域图像数量。需要说明的是，人脸检测、人脸关键点检测模型均为现有技术，本实施例中人脸关键点检测模型使用开源人脸库Dlib的人脸关键点检测模型，可得到68个人脸关键点，如图5所示。

步骤1）中提取唇部运动信息得到光流图序列Xo具体是将唇部区域图像序列Xv输入预设的光流估计CNN模型，得到对应的光流图序列Xo，其形式为：

Xo={x _o ⁱ|i=,1,2,3,...,k}，其中k为唇部区域光流图的数量。

作为一种可选的实施方式，如图2所示，本实施例中采用的光流估计CNN模型具体为选用PWC-Net神经网络，PWC-Net神经网络是一种紧凑而有效的光流估计CNN模型，融合了几种经典的光流估计技术，包括图像金字塔，变形和本量(Pyramid, Warping, and CostVolume)，是目前最优的光流估计CNN模型。此外也可以采用其他光流估计CNN模型。

本实施例中，步骤2）中针对语谱图序列Xa进行特征提取得到语音时序特征Ha的步骤包括：通过长短时记忆网络（Long Short-Term Memory：简称LSTM）对语谱图序列Xa进行时间动态进行建模，得到语谱图序列Xa对应的深层表达形式Ha，其形式为：

Ha={h _a ¹, h _a ², h _a ³,..., h _a ^t}，其中t为语谱图序列Xa的元素数量。

深层表达形式Ha中任意元素的计算方式为：

h _t=LSTM(x _t , h _t-1)

上式中，h _t为t时刻的输出，x _t为t时刻的网络输入值，h _t-1为t-1时刻的网络输出值，LSTM为长短时记忆网络，长短时记忆网络具有记忆细胞让它来保存长期的状态，称为单元状态(cell state)，用C表示。对于长短时记忆网络，在t时刻输入由三个：当前时刻网络输入值x _t，上一时刻网络输出值h _t-1，以及上一时刻单元状态C _t-1，长短时记忆网络的输出值有两个：当前时刻的网络输出值h _t，以及当前刻单元状态C _t。

其中，长短时记忆网络的结构包括：

遗忘层（Forget Layer）：用于计算上一时刻的单元状态C _t-1有多少保留到当前时刻的单元状态C _t，其函数表达式为：

上式中，f _t为遗忘层的输出，W _f是遗忘门的权重矩阵，[h _t-1, x _t]表示两个向量的串联，b _f是遗忘层的偏置项，σ是sigmoid 激励函数。

输入层（Input layer）：计算当前时刻网络的输入x _t有多少保存到单元状态C _t，保存的信息由进行表示。

上式中，i _t为输入层的输出，W _i是输入层的权重矩阵，b _i是输入层的偏置项，σ是sigmoid 激励函数。W _C是计算单元的权重矩阵，b _C是计算单元的偏置项。

状态层（State layer）：用于进行当前时刻单元状态C _t的计算，可以将当前的记忆和以前的记忆进行组合。

输出层（Output layer）：计算记忆的单元状态C _t有多少输出到长短时记忆网络当前时刻的网络输出值h _t。

上式中，O _t为输出层的输出，W _o是输出层的权重矩阵，b _o是输出层的偏置项，h _t是长短时记忆网络当前时刻的网络输出值。LSTM可以在最近的信息和历史信息之间进行切换，决定哪些信息要保留和遗忘。

在卷积神经网络中，时空卷积可以同时计算时间和时间维度特征。而时序视觉数据是一个3维立方体结构，通过3D卷积核应用到多个连续帧，从而可以捕获运动信息。本实施例中，步骤2）针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv的步骤包括：将得到的唇部区域图像序列Xv中每帧唇部区域图像进行灰度转换，并利用全体均值和归一化处理进行标准化；然后利用3D时空卷积网络对唇部区域图像序列Xv进行特征提取，获取唇部区域的深层特征Hv，其形式为：

Hv={h _v ¹, h _v ², h _v ³,..., h _v ^m}，其中m为唇部区域图像序列Xv的元素数量。

步骤2）中针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho的步骤包括：将得到的光流图序列Xo中每帧唇部区域图像进行灰度转换，并利用全体均值和归一化处理进行标准化；然后利用3D时空卷积网络对光流图序列Xo进行特征提取，获取唇部间运动信息的动态特征Ho，其形式为：

Ho={h _o ¹, h _o ², h _o ³,..., h _o ^k}，其中k为唇部区域光流图序列Xo的元素数量。

作为一种可选的实施方式，本实施例中3D时空卷积网络具体采用2D/3D Resnet实现，此外也可以根据需要采用其他具有3D卷积核的3D时空卷积网络。

步骤3）利用多头注意力机制（Multi-head attention）计算每个模态输入序列的上下文表示和不同模态间的联合表示。多头注意力机制是由多个自注意力组成，通过每个head在不同的子空间中表示特征，关注不同位置的信息。并且可以使模型并行化处理，减少模型的运算能力。本实施例中，步骤3）中的详细步骤包括：3.1）针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho，将其利用线性映射矩阵W _i ^q、W _i ^k和W _i ^v分别映射为特征空间Q _i、K _i、V _i，其中i表示多头注意力机制的第i个头；3.2）分别针对语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho三者的特征空间Q _i、K _i、V _i进行向量点乘，得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo；

本实施例中，步骤3.1）中利用线性映射矩阵W _i ^q、W _i ^k和W _i ^v分别映射为特征空间Q _i、K _i、V _i的函数表达式为：

Q _i =W _i ^q H

K _i =W _i ^k H

V _i =W _i ^v H

上式中，H是指语音时序特征Ha、唇部时序特征Hv或唇部间运动时序特征Ho。其中，i表示多头注意力机制的第i个头，W _i ^q、W _i ^k和W _i ^v为任意第i个头对应的参数矩阵，

本实施例中，步骤3.2）中计算语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo其中其主要计算公式为：

多头注意力机制实际上为多个注意力的连接，其计算公式如下：

上式中，head _i表示第i个头的注意力，j表示头的总数量，Att _i(Q,K,V)表示每个头的注意力函数，softmax表示归一化指数函数，Q _i、K _i、V _i为语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho在第i个头映射结果，d _k为Q _i K _i ^T对应的维度，MultiHead(Q,K,V)表示多头注意力函数，Contact(head ₁,head ₂,... , head _j)表示将head ₁～head _j连接。

步骤4）在解码端，首先通过注意力机制计算模型的输出与输入特征之间的相关性，得到输入侧每个模态特征向量的加权值，相关性越高对应的权重越大；其次通过多重线性函数对语音特征注意力向量A _c ^att、唇部特征注意力向量V _l ^att和唇部间运动的注意力向量V _o ^att进行联合表示，得到最终的表示向量h _f；然后通过前馈神经网络将其映射到标签类别空间，并利用softmax函数得到每个输出特征对应类别的概率分布形式，最后采用定向搜索技术Beam search（详见Furcy D, Koenig S. Limited discrepancy beam search[C]IJCAI. 2005.）的方式找到最优的识别结果。本实施例中，步骤4）中的详细步骤包括：4.1）针对注意力层输出的目标序列Y={y _i|i=,1,2,3,...,n}，通过注意力层计算输出的目标序列Y与输入侧的语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo的相关性，分别得到语音特征注意力向量A _c ^att、唇部特征注意力向量V _l ^att和唇部间运动的注意力向量V _o ^att，其中n为输出序列的长度；4.2）通过多重线性函数对语音特征注意力向量A _c ^att、唇部特征注意力向量V _l ^att和唇部间运动的注意力向量V _o ^att进行联合表示，得到最终的表示向量h _f；4.3）首先通过前馈神经网络对表示向量h _f进行线性变换，将表示向量h _f投射到对应的标签类别向量空间中；然后通过softmax函数得到每个输出特征对应类别的概率分布形式，最后利用Beam search寻找最优的识别结果。

本实施例中，步骤4.2）中通过多重线性函数对语音特征注意力向量A _c ^att、唇部特征注意力向量V _l ^att和唇部间运动的注意力向量V _o ^att进行联合表示的函数表达式为：

本实施例中，步骤4.3）通过前馈神经网络h _f进行线性变换，利用softmax函数的得到每个输出特征对应类别的概率分布的表达式为：

P(y _i|h _f) = softmax(FFN(h _f))

需要说明的是，本实施例方法仅涉及对现有Beam search方法的应用，并不包含对现有Beam search方法的任何改进。现有Beam search方法的工作原理如下：

Beam search搜索策略在预测的每一时间步长中，都保留Top-k高概率的词。并且之后的每个时间步长，都基于上个步长的输出序列。然后挑选出所有组合中条件概率最大的 k个，作为该时间步长下的候选输出序列，最后从K个候选挑出最优的作为识别结果。其中k为超参数beam size（束宽），k越大，得到更好结果的可能性更大。

为了得到最佳的音视频语音识别效果，实施例在大型音视频数据集LRS2(详见https://www.bbc.co.uk/rd/projects/lip-reading-datasets)上进行模型的训练、测试，得到最优的语音识别模型。LRS2数据集收集数千小时的口语句子和短语，以及相对应的面部；其由143000句话语组成，它包含230万个单词，4.1万个词汇量。作为本实施例方法的对比：对比方法WLAS算法（详见Chung J S, Senior A, Vinyals O, et al. Lip readingsentences in the wild[C]2017 IEEE Conference on Computer Vision and PatternRecognition (CVPR). IEEE, 2017: 3444-3453.）。而且，采用词错误率（Word ErrorRate，WER）来衡量识别结果的准确性，词错误率越低表明识别效果越好。词错误率为编辑距离(Edit Distance)和标签长度（Label length）的比值。编辑距离(Edit Distance)是衡量两个字符串相似度的度量指标，一般是指通过单词替换、单词插入和单词删除三种编辑操作将一个转成另一个所需的最少编辑操作次数。表1为本实施例方法与WLAS算法在LRS2数据集下的识别结果。

表 1本实施例方法与WLAS 算法在 LRS2数据集下的识别结果比较。

由表1可知，本实施例跨模态多特征融合的音视频语音识别的词错误率均低于WLAS 算法，在安静和噪声环境下的语音识别准确率均获得了提升。

综上所述，人机交互的实际应用中，噪声和多声源存在的情况下，单语音模态的识别精度低，严重影响单模态语音识别性能，导致语音识别失效。然而实际上人类语言互动是多模态的，在噪声的环境下面部表情通过视频获取相对较稳定，因此本实施例跨模态多特征融合的音视频语音识别方法通过融合语音信息，视觉信息和视觉间运动信息，实现了一种跨模态多特征的语音识别方式，本实施例方法利用了不同模态之间的关联性，通过补充缺失的信息来提高对其它模态的识别能力，为复杂环境下的人机交互中语音精准提供有效的解决方案。

此外，本实施例还提供一种跨模态多特征融合的音视频语音识别系统，包括：

多模态数据预处理程序单元，用于针对说话人的音频数据进行预处理，得到语谱图序列Xa；针对说话人的视频数据进行预处理，提取唇部区域图像序列Xv，提取唇部运动信息得到光流图序列Xo；

多模态特征提取程序单元，用于针对语谱图序列Xa进行特征提取得到语音时序特征Ha，针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv，针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho；

多模态特征联合表示程序单元，用于采用多头注意力机制针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho计算不同模态下的关联表示

语音识别程序单元，用于输出目标序列，首先通过注意力机制计算模型的输出与输入特征之间的相关性，得到输入侧各模态特征注意力向量A _c ^att,V _l ^att,V _o ^att；其次通过多重线性函数对各注意力向量进行联合表示，得到最终的表示向量h _f；然后通过前馈神经网络和softmax函数得到其概率分布形式；最后通过Beam-search的方式找到最优的识别结果。

此外，本实施例还提供一种跨模态多特征融合的音视频语音识别系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，该微处理器被编程或配置以执行前述跨模态多特征融合的音视频语音识别方法的步骤，或者该存储器中存储有被编程或配置以执行前述跨模态多特征融合的音视频语音识别方法的计算机程序。此外，作为一种本地的执行方式，计算机设备还连接有麦克风、摄像头等传感器，用于实现视频和语音信号数据的采集。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行前述跨模态多特征融合的音视频语音识别方法的计算机程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种跨模态多特征融合的音视频语音识别方法，其特征在于，包括：

2.根据权利要求1所述的跨模态多特征融合的音视频语音识别方法，其特征在于，步骤1）中针对说话人的音频数据进行预处理的步骤包括：针对说话人的音频数据进行预加重，将预加重的音频数据进行分帧处理，将不定长的音频序列划分成若干固定长度的语音片段形成语音帧，将分帧后的音频数据进行加窗处理以平滑语音信号；通过快速傅里叶变换将每帧的音频数据变成相应的频谱图，然后将每帧对应频谱图按轴频率轴拼接，最后进行对数能量谱变换得到语谱图序列Xa。

3.根据权利要求1所述的跨模态多特征融合的音视频语音识别方法，其特征在于，步骤1）中针对说话人的视频数据进行预处理的步骤包括：进行面部检测得到人脸信息；使用人脸关键点检测模型得到人脸关键点；最后通过人脸关键点坐标进行唇部区域估计，得到所需的唇部区域，从而提取得到唇部区域图像序列Xv；步骤1）中提取唇部运动信息得到光流图序列Xo具体是将唇部区域图像序列Xv输入预设的光流估计CNN模型，得到对应的光流图序列Xo。

4.根据权利要求1所述的跨模态多特征融合的音视频语音识别方法，其特征在于，步骤2）中针对语谱图序列Xa进行特征提取得到语音时序特征Ha的步骤包括：通过长短时记忆网络对语谱图序列Xa进行时间动态进行建模，得到语谱图序列Xa对应的深层表达形式的语音时序特征Ha；步骤2）针对唇部区域图像序列Xv进行特征提取得到唇部时序特征Hv的步骤包括：将得到的唇部区域图像序列Xv中每帧唇部区域图像进行灰度转换，并利用全体均值和归一化处理进行标准化；然后利用3D时空卷积网络对唇部区域图像序列Xv进行特征提取，获取唇部时序特征Hv；步骤2）中针对光流图序列Xo进行特征提取得到唇部间运动时序特征Ho的步骤包括：将得到的光流图序列Xo中每帧唇部区域图像进行灰度转换，并利用全体均值和归一化处理进行标准化；然后利用3D时空卷积网络对光流图序列Xo进行特征提取，获取唇部间运动时序特征Ho。

5.根据权利要求1所述的跨模态多特征融合的音视频语音识别方法，其特征在于，步骤3）中的详细步骤包括：3.1）针对得到的语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho，将其利用线性映射矩阵W _i ^q、W _i ^k和W _i ^v分别映射为特征空间Q _i、K _i、V _i，其中i表示多头注意力机制的第i个头；3.2）分别针对语音时序特征Ha、唇部时序特征Hv和唇部间运动时序特征Ho三者的特征空间Q _i、K _i、V _i进行向量点乘，得到语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo。

6. 根据权利要求5所述的跨模态多特征融合的音视频语音识别方法，其特征在于，步骤3.1）中利用线性映射矩阵W _i ^q、W _i ^k和W _i ^v分别映射为特征空间Q _i、K _i、V _i的函数表达式为：

Q _i =W _i ^q H

K _i =W _i ^k H

V _i =W _i ^v H

7. 根据权利要求1所述的跨模态多特征融合的音视频语音识别方法，其特征在于，步骤4）中的详细步骤包括：4.1）针对注意力层输出的目标序列Y={y _i|i=,1,2,3,...,n}，通过注意力层计算输出的目标序列Y与输入侧的语音特征的关联表示Ac、唇部特征的关联表示Vl和唇部间运动的关联表示Vo的相关性，分别得到语音特征注意力向量A _c ^att、唇部特征注意力向量V _l ^att和唇部间运动的注意力向量V _o ^att，其中n为输出序列的长度；4.2）通过多重线性函数对语音特征注意力向量A _c ^att、唇部特征注意力向量V _l ^att和唇部间运动的注意力向量V _o ^att进行联合表示，得到最终的表示向量h _f；4.3）首先通过前馈神经网络对表示向量h _f进行线性变换，将表示向量h _f投射到对应的标签类别向量空间中；然后通过softmax函数得到每个输出特征对应类别的概率分布形式，最后利用Beam search寻找最优的识别结果。

8. 根据权利要求7所述的跨模态多特征融合的音视频语音识别方法，其特征在于，步骤4.2）中通过多重线性函数对语音特征注意力向量A _c ^att、唇部特征注意力向量V _l ^att和唇部间运动的注意力向量V _o ^att进行联合表示的函数表达式为：

步骤4.3）通过前馈神经网络对表示向量h _f进行线性变换，利用softmax函数的得到每个输出特征对应类别的概率分布的表达式为：

P(y _i|h _f) = softmax(FFN(h _f))

9.一种跨模态多特征融合的音视频语音识别系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，其特征在于，该微处理器被编程或配置以执行权利要求1～8中任意一项所述跨模态多特征融合的音视频语音识别方法的步骤，或者该存储器中存储有被编程或配置以执行权利要求1～8中任意一项所述跨模态多特征融合的音视频语音识别方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有被编程或配置以执行权利要求1～8中任意一项所述跨模态多特征融合的音视频语音识别方法的计算机程序。