CN111754992A

CN111754992A - 一种噪声鲁棒的音视频双模态语音识别方法及系统

Info

Publication number: CN111754992A
Application number: CN202010613971.9A
Authority: CN
Inventors: 魏莹; 刘美娟
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-09
Anticipated expiration: 2040-06-30
Also published as: CN111754992B

Abstract

本公开提供了一种噪声鲁棒的音视频双模态语音识别方法及系统，提取音频的梅尔频率倒谱系数以及它的一阶二阶动态系数作为音频特征，视频分帧并经过人脸检测和对齐，截取固定的唇部区域送入到残差网络，以得到视频特征；引入注意机制将音视频的高层网络的特征信息进行对齐矫正，得到融合音频和视频的特征表示，实现了特征的前期融合，并经过音、视频两个独立的注意机制，实现了特征的后期融合，然后解码输出识别结果，在低信噪比噪声情况下，明显提升了识别准确率。作为进一步的改进和优化，在特征的后期融合时加入模态注意力，根据音视频模态的信息含量自适应地赋予音视频特征的权重，再进行特征的融合，使得模型更稳健。

Description

一种噪声鲁棒的音视频双模态语音识别方法及系统

技术领域

本公开属于语音识别技术领域，涉及一种噪声鲁棒的音视频双模态语音识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

人类在交流过程中，调动了多种感官的使用，不仅仅是靠听觉来理解对方，视觉方面带来的感受也帮助人们更好的交流沟通，尤其是在噪声环境下，当我们听不清对方的语言时，通过观察对方的肢体语言、面部表情以及唇部动作，可以来帮助理解对方的话。在语音识别这一技术研究中，也开始考虑视觉因素的影响，以求贴近于现实的同时提升语音识别。语音识别在生活中具有非常广泛的应用，这一研究也越来越受到人们关注，希望音视频双模态语音识别能应对更复杂的环境，为科技和生活都带来更好的便利。

在语音识别这一领域，音频语音识别相对成熟，因而有了普遍适用的音频特征，梅尔倒谱系数以及它的一些变体。视频语音识别相对于语音识别发展较晚，而且视频信息提取的特征也比较多元化，如基于模型的特征、基于图像变换的特征、基于几何的特征、基于运动的特征等，这些特征输入到诸如支持向量机、隐马尔科夫模型进行分类识别。然而，这些分类器不能很好的处理具有长依赖关系的句子。深度学习的发展带来了语音识别的一个突破，其中卷积神经网络可以提取更丰富的不同层次的音视频特征信息，递归神经网络能够学习长的依赖关系，解决长序列训练过程中的梯度消失和梯度爆炸问题。因此出现了许多结合神经网络的语音识别模型以及音视频双模态语音识别模型。

视频语音识别相对于语音识别起步较晚，是仅从视觉信息来识别语音，借助于深度学习的发展，现在已经有很多的关于视频语音识别的工作，它们从唇部区域提取特征并输出音素或视素的预测结果。针对音频语音识别中存在的固有问题，如对噪声的容忍性不足，声音缺失时将无法补足这一缺失的信息等，视觉模态的加入可以有效解决这些问题，因此，音视频双模态语音识别越来越受到关注和研究，它解决了单模态下难以解决的一些问题，在这方面也有越来越多的工作，但也存在着相应的难题。

音视频双模态语音识别在识别过程中主要有特征提取、信息融合以及分类识别，其中特征提取和信息融合是两大难题。其一，由于视觉信息和特征的多元化，哪些视觉特征与声学语音的梅儿频率倒谱系数相匹配是一个难点，其二，不同帧速率运行的音视频数据流的融合是一个难题，因为唇语识别的准确率在大多数情况下是远低于语音识别的，不恰当的融合甚至可能会降低语音识别原本的结果。

发明内容

本公开为了解决上述问题，提出了一种噪声鲁棒的音视频双模态语音识别方法及系统，本公开对噪声是鲁棒的，更加适用于噪声污染比较严重的环境中。

根据一些实施例，本公开采用如下技术方案：

一种噪声鲁棒的音视频双模态语音识别方法，包括以下步骤：

提取音频的梅尔频率倒谱系数并加入它的一阶二阶动态系数作为音频特征，视频分帧并经过Dlib的人脸检测和对齐，截取固定的唇部区域送入到残差网络，以得到视频特征；

引入注意机制，进行特征的前期融合，利用获取的唇部特征对音频特征进行补充修正，得到融合音频和视频的特征表示，并经过音、视频两个独立的注意机制得到特征的后期融合，实现特征的混合融合，然后解码输出识别结果。

作为进一步的限定，在特征的后期融合时加入模态注意力，根据模态的信息含量来显式、自适应地赋予音视频特征的权重，再进行特征的融合，使得模型更稳健。

这反应了模型认为不同模态在当前输出时的相对重要程度，因为在噪声不同、说话人发音清晰程度不同的情况下，听觉和视觉所携带信息的比重是不固定的。因此，最好的方式自然应当是能够根据模态的信息含量来显式、自适应地赋予权重，这个权重可以依赖数据进行自动学习调整。

当然，可以根据音频质量自适应选择合适的模型，应对不同噪声环境下的识别。即整体模型对音频质量进行评估后，根据信噪比自适应的选择模式进行识别。

经过上述改进，可以得到五种模型：音频语音识别模型、视频语音识别模型、特征前期融合的音视频双模态语音识别模型、特征后期融合的音视频双模态语音识别模型，和混合融合的音视频双模态语音识别模型，可以根据采集的音频质量，自适应选择适合的模型。

上述技术方案中，提取音频的梅尔频率倒谱系数以及它的一阶二阶动态系数作为音频特征，这一特征兼具了声音的静态和动态信息，在视频特征提取上，主要是用到残差网络来输出更有代表性的高层次视频特征，残差网络的使用不仅解决了网络深度的问题也提取了辨别性的特征；在编码阶段通过注意机制融合音视频两种信息，使得当音频信息缺失或受噪声影响时，视频信息可以矫正或重建音频信息，实现了特征的前期融合，在解码阶段，又引入了双重注意机制，一个用于音频，一个用于视频，来提高语音识别的正确率，并实现了特征的后期融合。这一方法大大提升了噪声污染严重情况下的识别结果。

作为进一步的改进和优化，在特征的后期融合时加入模态注意力，根据音视频模态的信息含量自适应地赋予音视频特征的权重，再进行特征的融合，使得模型更稳健。

作为可选择的实施方式，所述视频的编码和解码过程，都由门控循环单元(GRU)实现。

作为可选择的实施方式，所述音频的编码和解码过程，都由门控循环单元(GRU)实现。

作为可选择的实施方式，在视频的特征提取方面，对视频数据进行预处理，利用残差网络将视频数据降维为一维特征向量。

作为可选择的实施方式，在视频对特征提取过程中，删除首尾部分静音帧。

作为可选择的实施方式，在音频的特征提取方面，对音频数据进行预处理，预处理包括下采样、预加重、加窗分帧、梅尔滤波，得到梅尔频率倒谱系数，并加入它的一阶二阶动态系数，作为音频的特征。

作为可选择的实施方式，在音频的文本处理中，在每句话的开始和结尾都加入一个静音符。

一种噪声鲁棒的音视频双模态语音识别系统，包括：

音频特征提取模块，被配置为提取音频的梅尔频率倒谱系数以及它的一阶二阶动态系数作为音频特征；

视频特征提取模块，被配置为对视频分帧进行Dlib的人脸检测与对齐，截取固定的唇部区域送入到残差网络，以得到视频特征；

特征融合模块，被配置为基于注意机制将音、视频的高层网络的特征信息进行对齐矫正，得到融合音频和视频的特征表示，实现特征的前期融合；被配置为对修正后的音频特征和视频特征进行两个独立的注意机制的解码，实现特征的后期融合；

作为进一步优化，在特征后期经过两个独立的注意机制时，加入模态注意力，根据音视频模态的信息含量自适应的赋予各自的权重，再进行特征的融合；

识别模块，被配置为对融合后的特征的解码，并输出识别结果。为应对不同环境下的识别，可以根据音频质量自适应选择合适的模型进行识别。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种噪声鲁棒的音视频双模态语音识别方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种噪声鲁棒的音视频双模态语音识别方法。

与现有技术相比，本公开的有益效果为：

本公开使用门控循环单元(GRU)作为编码解码的网络结构，它可以记录句子的长时信息，同时解决了神经网络中存在的梯度爆炸和消失问题。

本公开提取音频的梅尔频率倒谱系数以及它的一阶二阶动态系数作为音频特征，这一特征兼具了声音的静态和动态信息，在视频特征提取上，主要是用到残差网络来输出更有代表性的高层次视频特征，残差网络的使用不仅解决了网络深度的问题也提取了辨别性的特征。

本公开兼顾了特征的早期和后期的融合，在编码阶段通过注意机制融合音视频两种信息，使得当音频信息缺失或受噪声影响时，视频信息可以矫正或重建音频信息，在解码阶段，又引入了双重注意机制，一个用于音频，一个用于视频，来提高语音识别的正确率，这一方法大大提升了噪声污染严重情况下的识别结果。

本公开在特征的后期融合时又加入模态注意力，根据音视频模态的信息含量自适应地赋予各自特征的权重，再进行特征的融合，使得模型更加稳定可靠。

本公开的音视频双模态语音识别模型识别结果优于音频模型，尤其是在低信噪比噪声情况下，明显提升了识别准确率。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是引入注意力模型的Encoder-Decoder框架；

图2是GRU结构图；

图3是残差网络(ResNet)结构图；

图4是本实施例中视频语音识别模型网络架构图；

图5是本实施例中音频语音识别模型网络架构图；

图6是本实施例中音视频双模态语音识别模型网络架构图；

图7是本实施例中基于自适应模型选择的语音识别模型网络架构图；

图8是本实施例中GRID数据库的部分视频帧；

图9是本实施例中部分唇部固定区域连续序列；

图10是本实施例中音频识别中集束搜索宽度对单词错误率的影响。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本公开提供一种音视频特征融合的双模态语音识别。针对音视频双模态语音识别过程中存在的两大难题提出可行性解决方法。同时，这一方法对噪声是鲁棒的，更加适用于噪声污染比较严重的环境中。

在特征提取阶段，提取音频的梅尔频率倒谱系数以及它的一阶二阶动态系数作为音频特征，视频分帧并经过Dlib的人脸检测和对齐，截取固定的唇部区域送入到残差网络输出更有代表性的高层次视频特征。

在信息融合方面，引入注意机制将音视频的高层网络的特征信息进行对齐矫正，得到一个融合了音频和视频的特征表示，实现特征的前期融合，并经过音、视频两个独立的注意机制的解码阶段识别输出，实现了特征的后期融合，有效解决了音视频速率不同、信息不等长等问题，这一模型也更能适用于噪声污染环境下。也非常希望模型更稳健，以应对不同噪声的环境，设计了根据音频质量自适应的选择合适的模型去识别。对比于其他现有的在公开的数据库GRID上的工作，本公开对技术方案实现了具有前景的结果。

关键技术点包括：

注意机制

在Seq2seq解码中，注意机制发挥了很好的作用，其框架如图1所示。编码器负责将输入序列编码成固定长度的语义向量，解码器的任务就是根据源语句子的中间语义表示c和已经生成的历史信息y₁,y₂...y_i-1来生成i时刻的单词y_i,

y_i＝f(c_i,y₁,y₂...y_i-1)

其中，c_i是根据当前生成单词不断变化的，它包含了目标句子中的每个单词学习到的对应源语句子中单词的注意力分配概率信息，这也是注意机制模型的关键，使得注意力机制在语音识别中发挥了良好的作用，因为源语句子中的每个单词对当前输出单词的影响力是不同的，根据影响力的大小来确定当前时刻的输出，更符合人类认知,这类似于人的大脑的注意力，更多的把注意力放在感兴趣的事物上。f函数是解码器的非线性变换函数。

从Seq2seq框架中，抽出注意机制，可以得到它的本质思想公式如下，

α_i,j＝similarity(query_i,value_j)

其中，α_i,j是在目标输出第i个单词query_i时源语句子中第j个单词value_j的注意力分配系数，α_i,j的值越高，表示第i个输出在第j个输入上分配的注意力越多，在生成第i个输出的时候受第j个输入的影响也就越大。在语音识别中，query往往是当前解码状态向量，value表示编码记忆中的状态向量。

门控循环单元(GRU)

众所周知，递归神经网络(RNN)在处理序列的长依赖问题上存在梯度爆炸和消失问题。长短时记忆网络(LSTM)的提出则解决了这一问题，并在机器学习、语音识别等方面得到广泛应用。LSTM采用细胞状态的通道贯穿整个时间序列，并通过忘记门、输入门、输出门的结构来去除或增加信息到细胞状态。门控循环单元(GRU)是LSTM的一种变体，它对LSTM做了简化，相比LSTM，使用GRU能够达到相当的效果，并且相比之下更容易进行训练，能够很大程度上提高训练效率，因此很多时候会更倾向于使用GRU。GRU将LSTM的三门结构变为两个门结构：更新门(Update Gate)Z和重置门(Reset Gate)r，其结构图如图2所示。从直观上来说，重置门r决定了如何将新的输入信息与前面的记忆相结合，更新门Z定义了前面记忆保存到当前时间步的量。GRU的工作方程式如下：

z_t＝sigmoid(W_z.[h_t-1,x_t]+b_z)

r_t＝sigmoid(W_r.[h_t-1,x_t]+b_r)

其中z_t，r_t分别为更新门和重置门,x_t为第t个时间步的输入向量，h_t-1是前一个时间步t-1的信息，[h_t-1,x_t]表示两个向量的级联。W为各个门的权值矩阵，

表示Hadamard积。

相比LSTM，GRU的构造更简单，比LSTM少一个gate，网络训练的参数相对较少。在训练数据很大的情况下GRU能节省很多时间，提高了训练效率，而且达到和LSTM相当的效果。

残差网络(ResNet)

深层次网络训练有两个瓶颈，一是梯度消失，二是网络退化。残差网络的提出很好的解决了上面两个难题。它的思想是：一个网络层，存在最优化的网络层次，那么深层次网络是有很多网络层为冗余层的，希望这些冗余层能够完成恒等映射，保证经过该恒等层的输入和输出完全相同。那么就可以将原网络的几层改成一个残差块，残差块的具体构造如图3所示。

F(x)为残差，x为输入值，F(X)是经过第一层线性变化并激活后的输出，第二层进行线性变化之后激活之前，F(x)加入了这一层输入值X，然后再进行激活后输出。因此，残差网络更容易优化，并且能够通过增加相当的深度来提高准确率，还解决了增加深度所带来的退化问题，这样能够通过单纯地增加网络深度，来提高网络性能。

应用残差网络可以很好的来提取视频特征，它可以整合低中高不同层次的特征，特征的层次可以靠加深网络的层次来丰富，网络的深度越高，可抽取的特征层次就越丰富。

作为一种典型实施例，具体包括以下步骤：

构建不同模型：

模型结构

1.1视频语音识别模型

视频语音识别模型包含了预处理、编码、解码三个阶段，如图4所示。在预处理阶段，使用10层的残差网络(ResNet)将数据降维为一维特征向量，然后在编码阶段，特征向量经过了两层大小为128的GRU。最后在注意机制解码中，使用了单层128单元的GRU，并经过Softmax函数得到输出结果。

1.2音频语音识别模型

音频语音识别模型的结构和视频模型一样，如图5所示，不同的是预处理阶段。原始音频信号经过下采样、预加重、加窗分帧、梅尔滤波得到梅尔频率倒谱系数，并加入它的一阶二阶动态系数作为音频的特征。

1.3音视频双模态语音识别模型

音视频双模态语音识别整体模型如图6所示，兼顾了特征的早期和后期融合。编码阶段的注意机制使得音频特征可以在视觉信息的帮助下进行矫正，实现了特征的前期融合。在解码阶段，则再次使用视觉信息，并通过双重注意机制联合音视频信息进行识别，实现了特征的后期融合，这有利于噪声污染下的语音识别。在进一步的优化中，在特征的后期融合时加入了模态注意力，根据音视频模态的信息含量来自适应地赋予各自特征的权重，再进行特征的融合，这可以使得模型更稳健。

1.4基于自适应模型选择的音视频双模态语音识别模型

不同的模型有各自的优缺点，希望能够根据音频质量来选择合适的模型，集合它们的优势，如图7所示。主要是根据音频质量来选择是否进行特征的前期融合，因为在噪声不同的情况下，特征的前期融合对整个的最终识别结果影响是很大的。当然也可以选择其他优化的模型。

进行试验

实验基于TensorFlow框架，在公开的数据库GRID上进行单独的音频语音识别、视频语音识别、音视频双模态语音识别以及基于自适应模型选择的音视频双模态语音识别，并对音频加三种不同信噪比的噪声(高斯白噪声，咖啡厅噪声，街道噪声)，探究视频对语音识别的影响。

2.1数据集

在公开的数据库GRID上进行实验。GRID数据集是由34个人，每人1000条英文句子的音频和视频组成，视频分为正常质量(360x288；～1kbit/s)画质和高质量(720x576；～6kbit/s)画质，实验使用的是高质量画质的视频。部分视频帧如图8所示。由于第21个人的视频缺失，所以实验使用了33人的音视频语料库。

每个英文句子都是一个单语法多词序列，由动词(4)+颜色(4)+介词(4)+字母(25)+数字(10)+副词(4)组成，例如'bin blue at f two now'，括号中为所能选择的单词个数。

数据预处理

2.2.1音频预处理

为方便增加噪声，原始音频信号下采样到22050HZ。通过使用一个时长25ms，帧移10ms的汉明窗，经过梅尔滤波，提取音频信号的梅尔频率倒谱系数,并加入了特征的一阶二阶动态系数，最终得到每10ms的90维的音频特征向量。在音频的文本处理中，在每一句话的开始和结尾都加入了sil静音符，使音视频与文本更精确的对应，提高识别率。

2.2.2视频预处理

每个视频都是由75帧的序列组成的，每一帧的大小为720x576，以25Fps的帧率提取视频序列的每一帧。然后，使用Dlib(shape_predictor_68_face_landmarks)进行检测和对齐脸部，提取大小为90x126的唇部固定区域如图9所示，紧接着进行下采样为36x36的图像,并经过残差网络(ResNet)得到每一帧64维的视频特征。考虑到视频前后的静音帧数较多问题，去掉部分静音帧，保留少部分静音帧以适应文本的sil静音符，最终实验使用55帧的数据。

2.3优化和评估

在训练过程中，使用Adam优化器来优化真实字符与预测字符的交叉熵损失，所有实验的学习率为0.0001，批次大小为64，并在解码阶段使用集束搜索，设置集束搜索宽度为6，图10显示了集束搜索宽度对实验结果的影响，选择合适的集束搜索宽度，不仅可以降低识别错误率，还可以节省时间。

在评估中，应用同一个测试集进行实验，并使用编辑距离(Levenshtein)作为性能指标，定义字符错误率和单词错误率为CER＝(I+D+S)/N，WER＝(I+D+S)/N,其中I、D、S为从真实值到预测值的插入、删除、替换的操作次数，N为真实值的个数。

2.4训练

训练单模态(音频语音识别、视频语音识别)和双模态(音视频特征混合融合的双模态语音识别、基于自适应模型选择的音视频双模态语音识别)语音识别模型。GRID数据库的80％用于训练，20％用于测试。单模态系统训练各自的音频流、视频流，最终对测试集预测输出，双模态系统则同时输入音频流和视频流进行训练测试。在音频语音识别和音视频特征融合的双模态语音识别中，对音频加入三种不同信噪比的噪声(高斯白噪声，咖啡厅噪声，街道噪声)进行训练测试，探究视频对语音识别的影响。因为在语音识别中，音频相对占主导地位，由于视频同音异义词的存在，使得不同字符的唇部视频序列有可能是相同的，因此把视频信息作为语音识别的一个辅助，用来矫正被污染的音频信号和重建缺失的音频信号。在解码阶段，则使用音、视频两个独立的注意机制联合决策，这进一步使得识别更稳定更准确。

2.5实验结果和分析

按照上述的实验，可得到如下所示的实验结果。

TABLE 1.GRID数据库在不同噪声不同信噪比条件下的视频(V)、音频(A)、音视频双模态(AV)的语音识别的CER(％)和WER(％)

为探究音视频双模态模型对噪声语音信号的鲁棒性，对音频信号添加信噪比(SNR)为-5、0、10的三种类型的噪声，高斯白噪声，咖啡厅噪声，街道噪声。对比噪声情况下的语音识别模型，音视频特征混合融合的双模态模型的识别错误率更低。而且，还可以得出这样的结论，在低信噪比时，音视频双模态模型极大的提升了识别率，这是因为在低信噪比时，语音污染相对严重，视频就起到了很大的纠正作用。也可以看出，在语音信号相对干净的情况下，音视频融合的方法并没有比单独的语音识别效果好，这是因为此时只是语音就足够识别，视频自身也存在同音异义词的不确定性，反而干扰了预测，但是在低信噪的时候，视频起到了非常重要的作用，大大提升了识别率。

TABLE 2.GRID数据库在不同噪声不同信噪比条件下的基于模型选择的音视频双模态的语音识别的CER(％)和WER(％)

基于自适应模型选择的音视频双模态语音识别改善了实验1中存在的问题，这是通过一个选择机制来完成的。系统首先对音频质量评估SNR，然后根据SNR来选择识别的模式。高信噪比时的识别模式，没有对音频特征修正这一部分，从而减少了视觉信息的影响，提升了结果。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种噪声鲁棒的音视频双模态语音识别方法，其特征是：包括以下步骤：

提取音频的梅尔频率倒谱系数以及它的一阶二阶动态系数作为音频特征，视频分帧并经过人脸的检测和对齐，截取固定的唇部区域送入到残差网络，以得到视频特征；

2.如权利要求1所述的一种噪声鲁棒的音视频双模态语音识别方法，其特征是：所述视频编码和解码过程，都由门控循环单元实现；

或/和，所述音频的编码和解码过程，都由门控循环单元实现。

3.如权利要求1所述的一种噪声鲁棒的音视频双模态语音识别方法，其特征是：在特征的后期融合时加入模态注意力，根据模态的信息含量自适应地赋予音视频特征的权重，再进行特征的融合。

4.如权利要求1所述的一种噪声鲁棒的音视频双模态语音识别方法，其特征是：在视频的特征提取方面，对视频数据进行预处理，利用残差网络将视频数据降维为一维特征向量。

5.如权利要求1所述的一种噪声鲁棒的音视频双模态语音识别方法，其特征是：在视频对特征提取过程中，删除首尾部分静音帧。

6.如权利要求1所述的一种噪声鲁棒的音视频双模态语音识别方法，其特征是：在音频的特征提取方面，对音频数据进行预处理，预处理包括下采样、预加重、加窗分帧、梅尔滤波得到梅尔频率倒谱系数，并加入它的一阶二阶动态系数，作为音频的特征。

7.如权利要求1所述的一种噪声鲁棒的音视频双模态语音识别方法，其特征是：在音频的文本处理中，在每句话的开始和结尾都加入一个静音符。

8.一种噪声鲁棒的音视频双模态语音识别系统，其特征是：包括：

视频特征提取模块，被配置为对视频分帧进行人脸检测与对齐，截取固定的唇部区域送入到残差网络，以得到视频特征；

特征融合模块，被配置为基于注意机制将音、视频的高层网络的特征信息进行对齐矫正，得到融合音频和视频的特征表示，实现特征的前期融合；被配置为对修正后的音频特征和视频特征进行两个独立的注意机制的解码，实现特征的后期融合，在特征后期经过两个独立的注意机制时，加入模态注意力，根据音视频模态的信息含量自适应的赋予各自的权重，再进行特征的融合；

识别模块，被配置为对融合后的特征的解码，并输出识别结果。

9.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任意项所述的一种噪声鲁棒的音视频双模态语音识别方法。

10.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任意项所述的一种噪声鲁棒的音视频双模态语音识别方法。