CN112967713B

CN112967713B - 一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质

Info

Publication number: CN112967713B
Application number: CN202110092107.3A
Authority: CN
Inventors: 王志; 郭加伟; 余凡; 赵欣伟
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-01-23
Filing date: 2021-01-23
Publication date: 2023-08-22
Anticipated expiration: 2041-01-23
Also published as: CN112967713A

Abstract

本发明公开了一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质，本方法在视听语音识别子网络中所使用的Skip RNN相比普通的RNN改善了推理速度慢，梯度消失以及难以捕获长期依存关系等问题，采用的TCN可以解决视频帧提取特征不完善问题，采用的多模态融合注意力机制可以有效改善多模态融合问题，采用了多次模态融合来提升识别准确率。

Description

一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质

【技术领域】

本发明属于语音识别领域，涉及一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质。

【背景技术】

语音识别是人工智能、自然语言处理和信号处理的基本问题，尤其在近十年的深度学习的勃兴中其得到了巨大的发展。目前语音识别的性能已经有了很大提升，但是在有噪声干扰的情况下，语音信号表现出极大的波动性，语音识别算法性能不尽如人意。如何提高噪声环境下语音识别系统的性能已经成为自然语言处理领域的热门问题。

视觉唇语识别技术与听觉语音识别技术的目标均是预测所说内容对应的文本信息，因此视觉唇语和听觉语音可以视为共享相同基本分布的两种异构模式。针对这个特点，多模态视听语音识别被创造性的提出。

多模态视听语音识别算法主要分为三步：提取视频和音频特征、音视频特征融合以及识别。但是在视频特征提取以及音视频特征融合中依然存在一些问题，采用普通的卷积神经网络(CNN)去提取视频特征只是单纯的将图像中的特征提取出来，并没有将视频帧关联的时序信息提取出来。在音视频特征融合中，如何赋予不同的模态以不同的权重是一个难题。一般语音识别的准确率是高于唇语识别的，如果在特征融合中被赋予了错误的权重，那么融合后的准确率比单纯语音识别准确率更低。

【发明内容】

本发明的目的在于克服上述现有技术的缺点，提供一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质，解决了现有技术中存在的视频帧提取信息不完善问题和特征融合问题。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于多次模态融合的视听语音识别方法，包括以下步骤：

步骤1，将音频信号进行傅里叶变换后获得语谱图，所述语谱图乘以梅尔标度滤波器后获得语音语谱图；从原始视频中提取出原始视频特征；

步骤2，将语音语谱图输入至第一音频编码器中获得第一音频特征，将原始视频特征输入至第一视频编码器中获得第一视频特征；

步骤3，通过特征融合层融合第一音频特征和第一视频特征，获得第一融合特征；

步骤4，通过第一音频解码器对第一融合特征解码，获得语音增强语谱图；

步骤5，通过第二音频编码器处理语音增强语谱图获得音频上下文向量；通过第二视频编码器处理原始视频特征获得视频上下文向量；所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层Skip LSTM组成；

步骤6，通过注意力层融合音频上下文向量和视频上下文向量，获得第二融合特征；

步骤7，通过第二音频解码器解码处理第二融合特征，获得识别出的概率最大的字符。

本发明的进一步改进在于：

优选的，步骤1中，从原始视频中提取出原始视频特征的具体过程为：将原始视频通过ffmpeg开源工具读取成视频帧，通过dlib开源工具对视频帧进行人脸检测，将检测后的每个视频帧裁剪成120x120的包含人脸的图片，然后使用OpenCV从包含人脸的图片中裁剪出32x32大小的唇部图片，所有的唇部图片通过三维残差网络提取出原始视频特征。

优选的，步骤2中，所述第一音频编码器和第一视频编码器均由三个时间卷积块堆叠组成。

优选的，步骤3中，将第一音频特征和第一视频特征以通道层面相加后，送入全连接层得到第一融合特征。

优选的，所述第一音频解码器为一个时间卷积块。

优选的，步骤6中，注意力层通过多模态注意力机制融合，具体的公式为：

a＝softmax(sim(Q,K))

公式中，Q代表音频模态，K代表视频模态，sim是求Q与K之间的相关性。

优选的，步骤7中，所述第二音频解码器为一层Skip LSTM。

一种基于多次模态融合的视听语音识别装置，包括：

转换模块，用于将音频信号进行傅里叶变换后获得语谱图，所述语谱图乘以梅尔标度滤波器后获得语音语谱图；从原始视频中提取出原始视频特征；

第一提取模块，用于将语音语谱图输入至第一音频编码器中获得第一音频特征，将原始视频特征输入至第一视频编码器中获得第一视频特征；

第一融合模块，用于通过特征融合层融合第一音频特征和第一视频特征，获得第一融合特征；

第一解码模块，用于通过第一音频解码器对第一融合特征解码，获得语音增强语谱图；

第二提取模块，用于通过第二音频编码器处理语音增强语谱图获得音频上下文向量；通过第二视频编码器处理原始视频特征获得视频上下文向量；所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层Skip LSTM组成；

第二融合模块，用于通过注意力层融合音频上下文向量和视频上下文向量，获得第二融合特征；

第二解码模块，用于通过第二音频解码器解码处理第二融合特征，获得识别出的概率最大的字符。

一种基于多次模态融合的视听语音识别设备，包括处理器和存储器；

所述存储器，用于存储计算机执行指令；

所述处理器，用于执行存储器存储的计算机执行指令。

一种计算机可读存储介质，存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述的基于多次模态融合的视听语音识别方法。

与现有技术相比，本发明具有以下有益效果：

本发明公开了一种基于多次模态融合的视听语音识别方法，本方法在视听语音识别子网络中所使用的Skip RNN相比普通的RNN改善了推理速度慢，梯度消失以及难以捕获长期依存关系等问题，采用的TCN可以解决视频帧提取特征不完善问题，采用的多模态融合注意力机制可以有效改善多模态融合问题，采用了多次模态融合来提升识别准确率。

本发明还公开了一种基于多次模态融合的视听语音识别装置，该装置通过多个转换、提取、融合和解码模块，完成了视频特征和音频的特征的多次提取和融合，最终提升了语音识别的准确率。

本发明还公开了一种基于多次模态融合的视听语音识别设备，其包括处理器和存储器；所述存储器，用于存储计算机执行指令；所述处理器，用于执行存储器存储的计算机执行指令。

本发明还公开了一种计算机可读存储介质，存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述的语音识别方法。

【附图说明】

图1是整体网络结构图；

图2是视听语音增强子网络结构图；

图3是视听语音识别子网络结构图；

图4是时间卷积块网络结构；

图5是LRS2数据集中的一个视频帧；

图6是添加了10db NOISE-A噪声的语谱图。

【具体实施方式】

下面结合附图对本发明做进一步详细描述：

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性；此外，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明公开了一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质，参见图1，该方法包括以下步骤：

S1、：参见图2，首先对两种模态信息进行预处理和提取特征。

S101、：对音频信号重采样到16kHz，然后做一次短时傅里叶变换(STFT)。短时傅里叶变换中的参数设置包括，将STFT窗口大小设置为640个样本，相当于40ms，相当于单个视频帧(25fps)的长度，窗口移动长度为10ms以保证相邻窗口重叠75％。将短时傅里叶变换得到的语谱图乘以梅尔标度滤波器组得到梅尔标度语谱图，得到最终的语音语谱图。

S102、：首先将原始视频通过ffmpeg开源工具读取成视频帧，接下来使用dlib开源工具对视频帧进行人脸检测，将每个视频帧裁剪成120x120的包含人脸的图片，然后使用OpenCV裁剪出32x32大小的唇部图片，使用三维残差网络(3D ResNet)作为视频特征提取器提取原始视频特征，将唇部图片送入三维残差网络得到最终的原始视频特征，采用三维卷积神经网络去提取视频特征是因为它在捕获视频帧的时序信息和空间信息中表现优异。

S2、本方法有两个子网络，分别是视听语音增强子网络和视听语音识别子网络。

S201、：如图4所示，将语音语谱图和原始视频特征分别送入语音增强子网络的第一音频编码器和第一视频编码器中，两个编码器基本结构相同，都是由时间卷积块堆叠而成。时间卷积块结构如图3所示。音频编码器由两个时间卷积块堆叠而成，而视频编码器是由三个时间卷积块堆叠而成，两个编码器采用的时间卷积块层数不同是因为它们的时序信息表达不同，视频帧比音频更难捕捉序列信息。时间卷积块在序列上的表现优于普通的LSTM，TCN在实现了输入与输出长度相同的同时也不会遗漏从过去从现在所捕获的信息。这得益于一维全连接卷积神经网络和扩张因果卷积神经网络。一维全连接卷积神经网络的每个隐藏层的长度与输入层的长度相同，并且添加了零填充长度(内核大小减1)，以使后续层的长度与先前的层相同。语谱图通过音频编码器处理后得到第一音频特征，视频特征通过视频编码器处理后得到第一视频特征。

S202、：对两个编码器输出的第一音频特征和第一视频特征使用特征融合层进行特征融合，首先将第一音频特征和第一视频特征以通道层面相加，接着再送入全连接层得到融合后的特征，这样融合后的特征同时包含了音频信息和视频信息，而且视频信息也有效的对音频信息进行了补充，特征融合层实质上是全连接层，为了使视频特征和音频特征在通道层面进行融合，得到第一融合特征。

S203、：参见图2，将第一融合特征输入第一音频解码器，对融合特征进行解码，将解码后的特征送入全连接层以输出和初始语音语谱图同纬度的语音增强语谱图。第一音频解码器是由一个时间卷积块(TCN block)堆叠而成。训练loss可表达为：

其中f(x_i)指输出的语音语谱图，y_i指输入的语音语谱图，训练目标是降低两个语谱图的平均绝对误差。

S204、：参见图3，将语音增强语谱图和步骤S102中的三维残差卷积神经网络提取出来的原始视频特征分别送入视听语音识别子网络的第二音频编码器和第二视频编码器中，输出音频上下文向量和视频上下文向量。第二视频编码器和第二音频编码器结构相同，都是由一层TCN block(时间卷积块)和两层Skip LSTM组成，语音增强语谱图和原始视频特征均先通过TCN block处理，再通过两层Skip LSTM处理。传统的递归神经网络(RNN)在序列建模任务中表现出出色的性能。但是，在长序列上训练RNN经常会遇到诸如推理速度慢、梯度消失或者梯度爆炸以及难以捕获长期依存关系的问题。而Skip递归神经网络模型通过跳过状态更新来扩展现有RNN模型，并缩短了计算图的有效尺寸。

Skip RNN接收一个输入序列x＝(x₁,…,x_T)，接收的输入序列x＝(x₁,…,x_T)即为上述的语音增强谱图或原始视频特征，将接收的输入序列输出一个状态序列s＝(s₁,…,s_T)，Skip RNN与普通RNN的核心区别是一个二进制状态更新门u_t∈{0,1}，当u_t＝0时RNN的状态发生更新，当u_t＝1时RNN此时间步的状态会复制前一时间步的状态也就是不发生更新。此过程可表示为公式：

s_t＝u_t·S(s_t-1,x_t)+(1-u_t)·s_t-1 (1)

公式中的s_t和s_t-1分别表示时间步t和t-1时的递归神经网络状态，u_t表示状态是否更新，S(s_t-1,x_t)表示状态更新过程。

计算二进制状态更新门u_t的过程可表示如下：

其中公式中的表示时间步t中执行状态更新的概率，f_binarize的作用是对输入的值二进制化，在本发明中f_binarize用round函数实现。

状态更新的概率随着连续跳过的状态个数的增加而增加，在时间步t时RNN的状态并没有更新，那么在时间步t+1，会加上/>来增大当前时间步发生状态更新的概率，如果在时间步t时RNN的状态更新了，即u_t＝0，那么在时间步t+1，/>以上可以表示为：

公式3中的σ是sigmoid激活函数，W_p是一个权重向量，b_p表示偏差。

S205、：参见图3，将第二音频编码器和第二视频编码器输出的音频上下文向量和视频上下文向量输入至注意力层进行特征融合，此次融合和之前视听语音增强子网络的融合有很大不同，语音增强子网络只是简单的两种模态特征相加，而此融合层是通过注意力机制赋予两个模态不同的权重完成融合。传统的RNN机制实际中存在长信息梯度消失的问题，对于较长的语音信息和视频信息，本发明很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息，所以随着信息长度的增加，普通编码器-解码器结构的效果会显著下降。为了解决这一由长序列到定长向量转化而造成的信息损失的瓶颈，Attention注意力机制被引入。Attention机制即将注意力关注于编码器编码产生的上下文向量。同样的，Attention模型中，当本发明在识别当前字符时，本发明会寻找其所对应的语音和视频信息，并结合上一步已经识别的字符作出相应的识别，这样，当本发明decoder预测字符的时候就可以看到encoder的所有信息，而不仅局限于原来模型中定长的隐藏向量，并且不会丧失长程的信息。

本发明提出一种多模态注意力(Attention)机制，可表示为：

a＝softmax(sim(Q,K))

公式中，Q代表音频模态，即为音频上下文向量，K代表视频模态，即为视频上下文向量，sim是求Q与K之间的相关性，经过softmax函数进行归一化将原始相关性得分sim整理成所有元素权重之和为1的a。那么a可表示为赋予视频模态的权重，1-a表示为赋予音频模态的权重，那么音频上下文向量和视频上下文向量的第二融合特征可表示为：

Y＝a·K+(1-a)·Q

S206、参见图3，将第二融合特征送入第二音频解码器中，此第二音频解码器由一层Skip LSTM组成，将解码器输出的向量传入全连接层网络，将得到的向量输入softmax函数中，确定输出字符的概率，最终输出概率最大的字符。

S207、本发明使用Tensorflow深度学习框架，并在四块GTX 2080ti上进行训练。使用Adam优化器和dropout、标签平滑来训练网络。初始学习速率设置为10^-4，如果训练之后误差没有改善，则将学习率降低2倍。首先训练视听语音增强子网络，输入时语谱图和视频特征，输出是增强语谱图，训练目标是最小化输入语谱图和增强语谱图之间的差异，当视听语音增强子网络收敛后，将其网络参数固定，与视听语音识别子网络进行联合训练，将语音增强语谱图和视频特征传入视听语音识别子网络，输出字符，当视听语义识别子网络收敛后，再将视听语音增强子网络参数接触固定，与视听语音识别子网络进行联合训练。

更为具体的，本发明公开了一种基于多次模态融合的视听语音识别装置，包括：

第一融合模块，用于通过特征融合层融合第一音频特征和第一视频特征，

获得第一融合特征；

本实施例中基于多次模态融合的视听语音识别确定设备包括：处理器以及存储器；其中

处理器，用于执行存储器存储的计算机执行指令，以实现上述实施例中数据处理设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述；

存储器，用于存储计算机执行指令。

可选的，存储器既可以是独立的，也可以跟处理器集成在一起。

当存储器独立设置时，该数据处理设备还包括总线，用于连接所述处理器和存储器。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的基于多次模态融合的视听语音识别方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，简称ISA)总线、外部设备互连(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器、磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质相耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件未完成。前述的程序可以存储于计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤：而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

实施例

如图5和图6所示，本实验采用的数据集是公开数据集LRS2数据集，该数据集由37000多个来自英国广播公司电视的句子组成，每个句子的长度不超过100个字符。数据集主要包含了两类文件，视频文件以及对应的文本文件。因为视频中不同的光照强度以及不同说话者速率和口音，其进行语音识别的难度很大。为了验证提出方法的有效性，本实施例中将两种噪声(NOISA-A噪声和NOISA-B噪声)以不同的信噪比加入数据集中，其中信噪比SNR可表示为：

其中，∑_ts²(t)表示纯净的不带噪声的语音能量，而∑_tn²(t)表示为噪声能量。

为了合成特定信噪比的混合语音，本实施例需要调整噪声能量，如需要q分贝混合语音，调整噪声能量的大小为原来的α倍，可表示为：

即可得出：

S4、本实验采用的评价指标是字符错误率(CER)，可表示为：

其中S表示被替换的字符数，D表示被删除的字符数，I表示被插入的字符数，N表示真实的字符总数。

S5、实验结果对比

根据以上实验条件，可以得到以下实验结果：

表1是LRS2数据集在不同噪声不同信噪比条件下的字错率(CER/％)，其中AV代表多模态语音识别方法，AE代表多模态语音增强方法。A代表NOISA-A噪声，B代表NOISA-B噪声。

表1

表2是使用Skip LSTM与普通LSTM的多模态语音识别模型的字错率(CER/％)。

表2

关键技术点包括：

Skip递归神经网络(Skip RNN)

递归神经网络(RNN)在序列建模任务中表现出出色的性能。但是，在长序列上训练RNN经常会遇到诸如推理速度慢、梯度消失或者梯度爆炸以及难以捕获长期依存关系的问题。而Skip RNN模型通过跳过状态更新来扩展现有RNN模型，并缩短了计算图的有效尺寸。Skip RNN接收一个输入序列x＝(x₁,…,x_T)，输出一个状态序列s＝(s₁,…,s_T)，Skip RNN与普通RNN的核心区别是一个二进制状态更新门u_t∈{0,1}，当u_t＝0时RNN的状态发生更新，当u_t＝1时RNN此时间步的状态会复制前一时间步的状态也就是不发生更新。此过程可表示为公式：

s_t＝u_t·S(s_t-1,x_t)+(1-u_t)·s_t-1 (1)

计算u_t的过程可表示如下：

时间卷积块(时间卷积块)

TCN在序列上的表现优于普通的LSTM，而且TCN实现了输入与输出长度相同，还有TCN不会遗漏从过去从现在所捕获的信息。这得益于一维全连接卷积神经网络和扩张因果卷积神经网络。一维全连接卷积神经网络的每个隐藏层的长度与输入层的长度相同，并且添加了零填充长度(内核大小减1)，以使后续层的长度与先前的层相同。

因果卷积的意思是所谓因果，也就是对于输出t时刻的数据y_t，其输入只可能是t以及t以前的时刻，即x₀…x_t，扩张因果卷积其基本结构如下：

这是一个kernel size＝3,dilations＝[1,2,4,8]的扩张因果卷积神经网络，kernel size等于3，即每一层的输入是上一层的三个时间步的输出；dilations＝[1,2,4,8]，即每一层的输入的时间间隔有多大。

注意力机制

拿机器翻译举例，机器翻译解决的是输入是一串在某种语言中的一句话，输出是目标语言相对应的话的问题，如将一句英语翻译成一句中文。通常的配置是编码器-解码器结构即encoder-decoder结构，即encoder读取输入的句子将其转换为定长的一个向量，然后decoder再将这个向量翻译成对应的目标语言的文字。通常encoder及decoder均采用RNN结构如LSTM或GRU等。RNN机制实际中存在长程梯度消失的问题，对于较长的句子，本发明很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。为了解决这一由长序列到定长向量转化而造成的信息损失的瓶颈，Attention注意力机制被引入。Attention机制即将注意力关注于本发明翻译部分对应的上下文。同样的，Attention模型中，当本发明翻译当前词语时，本发明会寻找源语句中相对应的几个词语，并结合之前的已经翻译的部分作出相应的翻译，这样，当本发明decoder预测目标翻译的时候就可以看到encoder的所有信息，而不仅局限于原来模型中定长的隐藏向量，并且不会丧失长程的信息。

本发明提出一种多模态注意力机制，可表示为：

a＝softmax(sim(Q,K))

其中，Q代表音频模态，K代表视频模态，sim是求Q与K之间的相关性，经过softmax函数进行归一化将原始相关性得分sim整理成所有元素权重之和为1的a。那么a可表示为赋予视频模态的权重，1-a表示为赋予音频模态的权重，那么音频和视频模态的融合特征可表示为：

Y＝a·K+(1-a)·Q

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多次模态融合的视听语音识别方法，其特征在于，包括以下步骤：

步骤4，通过第一音频解码器对第一融合特征解码，获得语音增强语谱图；具体的步骤为：

将第一融合特征输入第一音频解码器，对融合特征进行解码，将解码后的特征送入全连接层以输出和初始语音语谱图同纬度的语音增强语谱图；第一音频解码器由时间卷积块堆叠组成，训练loss的公式为：

其中，f(x_i)指输出的语音语谱图，y_i指输入的语音语谱图，训练目标为降低两个语谱图的平均绝对误差；

步骤5，通过第二音频编码器处理语音增强语谱图获得音频上下文向量；通过第二视频编码器处理原始视频特征获得视频上下文向量；所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层Skip LSTM组成；具体的步骤为：

将语音增强语谱图和原始视频特征分别送入视听语音识别子网络的第二音频编码器和第二视频编码器中，输出音频上下文向量和视频上下文向量；第二视频编码器和第二音频编码器结构相同，均由一层时间卷积块和两层Skip LSTM组成，语音增强语谱图和原始视频特征均先通过时间卷积块处理，再通过两层Skip LSTM处理；

Skip RNN接收一个输入序列x＝(x₁，...，x_T)，接收的输入序列x＝(x₁，...，x_T)为上述的语音增强谱图或原始视频特征，将接收的输入序列输出一个状态序列s＝(s₁，...，s_T)，当u_t＝0时RNN的状态发生更新，当u_t＝1时RNN此时间步的状态会复制前一时间步的状态也就是不发生更新；此过程表示为公式：

s_t＝u_t·S(s_t-1，x_t)+(1-u_t)·s_t-1 (1)

式中，s_t和s_t-1分别表示时间步t和t-1时的递归神经网络状态，u_t表示状态是否更新，S(s_t-1，x_t)表示状态更新过程；

计算二进制状态更新门u_t的公式为：

式中，表示时间步t中执行状态更新的概率，f_binarize用于对输入的值二进制化，f_binarize通过round函数；

状态更新的概率随着连续跳过的状态个数的增加而增加，在时间步t时RNN的状态并没有更新，在时间步t+1，会加上/>以增大当前时间步发生状态更新的概率；如果在时间步t时RNN的状态更新了，即u_t＝0，那么在时间步t+1，/>具体的公式为：

其中，σ是sigmoid激活函数，W_p是权重向量，b_p表示偏差；

2.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法，其特征在于，步骤1中，从原始视频中提取出原始视频特征的具体过程为：将原始视频通过ffmpeg开源工具读取成视频帧，通过dlib开源工具对视频帧进行人脸检测，将检测后的每个视频帧裁剪成120x120的包含人脸的图片，然后使用OpenCV从包含人脸的图片中裁剪出32x32大小的唇部图片，所有的唇部图片通过三维残差网络提取出原始视频特征。

3.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法，其特征在于，步骤2中，所述第一音频编码器和第一视频编码器均由三个时间卷积块堆叠组成。

4.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法，其特征在于，步骤3中，将第一音频特征和第一视频特征以通道层面相加后，送入全连接层得到第一融合特征。

5.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法，其特征在于，所述第一音频解码器为一个时间卷积块。

6.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法，其特征在于，步骤6中，注意力层通过多模态注意力机制融合，具体的公式为：

a＝softmax(sim(Q,K)

7.根据权利要求1所述的一种基于多次模态融合的视听语音识别方法，其特征在于，步骤7中，所述第二音频解码器为一层Skip LSTM。

8.一种用于实现权利要求1所述试听语音识别方法的基于多次模态融合的视听语音识别装置，其特征在于，包括：

第二提取模块，用于通过第二音频编码器处理语音增强语谱图获得音频上下文向量；通过第二视频编码器处理原始视频特征获得视频上下文向量；所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层SkipLSTM组成；

9.一种基于多次模态融合的视听语音识别设备，其特征在于，包括处理器和存储器；

所述存储器，用于存储计算机执行指令；

所述处理器，用于执行存储器存储的计算机执行指令，实现如权利要求1-7任意一项所述基于多次模态融合的视听语音识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要1至7任一项所述的基于多次模态融合的视听语音识别方法。