CN115565533A

CN115565533A - 语音识别方法、装置、设备及存储介质

Info

Publication number: CN115565533A
Application number: CN202211150707.1A
Authority: CN
Inventors: 张景宣; 万根顺; 潘嘉; 刘聪; 胡国平; 刘庆峰; 付中华; 高建清
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2023-01-03

Abstract

本申请公开了一种语音识别方法、装置、设备及存储介质，本申请获取说话人说话过程的语音和拍摄的视频，采用多模态语音识别模型处理语音及视频，得到输出的识别文本，其中模型被配置为：从输入的视频中提取视觉特征，从输入的语音中提取声学特征，并基于注意力机制，对视觉特征和声学特征进行编、解码处理，得到预测的识别文本。本申请中的多模态语音识别模型采用注意力机制对视觉特征和声学特征进行编、解码处理，能够充分考虑各帧视觉特征与各帧声学特征间的关注程度，对语音识别准确度提升更高。并且，由于不需要将视觉特征和声学特征进行对齐，也即不需要进行预处理操作，降低了处理的复杂度。

Description

语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，更具体的说，是涉及一种语音识别方法、装置、设备及存储介质。

背景技术

随着神经网络技术的发展，语音识别的准确度也在大幅提升。为了进一步提升语音识别的准确度，现有的单模态语音识别技术方案通常通过在训练中引入噪声来提升模型对于噪声环境的鲁棒性。

在结合多模态的语音识别技术中，如结合音频和视频的多模态语音识别技术中，传统方案基于混合框架进行。该框架中要求输入的视频帧和语音帧特征能够在时间上进行一一对齐，进一步按照对齐后的结果，将视频特征和语音特征逐帧融合，然后对融合后的特征进行处理，得到识别结果。第一方面，这种方式需要对输入的视频和音频进行预处理对齐操作，增加了处理流程。另一方面，按照时间对齐进行融合的策略，也并未充分考虑音视频特征间的对应关系，导致音频和视频的结合不够深，对识别准确度的提升不高。

发明内容

鉴于上述问题，提出了本申请以便提供一种语音识别方法、装置、设备及存储介质，以解决现有多模态语音识别过程，按照时间对齐方式，对音频、视频特征进行融合，导致处理流程复杂且融合深度不够，识别准确度提升不高的问题。具体方案如下：

第一方面，提供了一种语音识别方法，包括：

获取说话人说话过程的语音及拍摄的视频，所述视频包括人脸视频或唇形视频；

采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本；

其中，所述多模态语音识别模型被配置为：从输入的视频中提取视觉特征，从输入的语音中提取声学特征，基于注意力机制，对所述视觉特征和所述声学特征进行编、解码处理，得到预测的识别文本。

第二方面，提供了一种语音识别装置，包括：

数据获取单元，用于获取说话人说话过程的语音及拍摄的视频，所述视频包括人脸视频或唇形视频；

多模态识别单元，用于采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本；

第三方面，提供了一种语音识别设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的语音识别方法的各个步骤。

第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的语音识别方法的各个步骤。

借由上述技术方案，本申请获取说话人说话过程的语音和拍摄的视频，该视频可以是人脸视频也可以是唇部视频，进一步采用预配置的多模态语音识别模型处理语音及视频，得到输出的识别文本。其中本申请中多模态语音识别模型被配置为：从输入的视频中提取视觉特征，从输入的语音中提取声学特征，并基于注意力机制，对视觉特征和声学特征进行编、解码处理，得到预测的识别文本。由此可知，本申请中的多模态语音识别模型区别于现有技术，采用注意力机制对视觉特征和声学特征进行编、解码处理，能够充分考虑各帧视觉特征与各帧声学特征间的关注程度，通过训练，能够更好的结合视觉特征和声学特征间的关联关系来预测识别文本，实现了视觉特征和声学特征间的深层次的结合，对语音识别准确度提升更高。并且，由于不需要将视觉特征和声学特征进行对齐，也即不需要进行预处理操作，降低了处理的复杂度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的语音识别方法的一流程示意图；

图2示例了一种多模态语音识别模型结构示意图；

图3示例了另一种多模态语音识别模型结构示意图；

图4示例了一种视频支路预训练过程示意图；

图5和图6分别示例了两种包含不同结构的注意力处理模块的多模态语音识别模型的结构示意图；

图7为本申请实施例提供的一种语音识别装置结构示意图；

图8为本申请实施例提供的语音识别设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种语音识别方案，具体地，提供了一种多模态的语音识别方案，多模态数据可以包括语音及视频。在对语音和视频进行处理过程，可以基于注意力机制对语音和视频进行结合，无需将语音和视频对齐，且结合程度更深，基于此得到的识别文本的准确度也更高。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。

接下来，结合图1所述，本申请的语音识别方法可以包括如下步骤：

步骤S100、获取说话人说话过程的语音及拍摄的视频。

其中，所述视频可以包括人脸视频或唇形视频。其中，视频可以采用人脸检测技术，对拍摄的视频进行人脸提取，或者是唇形提取，以得到人脸视频或唇形视频。

由于视频信号并不会受到周围环境噪声或者干扰人声的影响，而说话人的人脸视频或唇形视频可以有效的作为语音的互补信号，消除语音中的干扰因子，从而能够达到提升语音识别鲁棒性的效果。

步骤S110、采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本，所述多模态语音识别模型被配置为：从输入的视频中提取视觉特征，从输入的语音中提取声学特征，基于注意力机制，对所述视觉特征和所述声学特征进行编、解码处理，得到预测的识别文本。

本申请中的多模态语音识别模型区别于现有技术，采用注意力机制对视觉特征和声学特征进行编、解码处理，能够充分考虑各帧视觉特征与各帧声学特征间的关注程度，通过训练，能够更好的结合视觉特征和声学特征间的关联关系来预测识别文本，实现了视觉特征和声学特征间的深层次的结合，对语音识别准确度提升更高。并且，由于不需要将视觉特征和声学特征进行对齐，也即不需要进行预处理操作，降低了处理的复杂度。

本申请的实施例中，提供了多模态语音识别模型的几种不同组成结构。接下来分别介绍：

第一种、

如图2所示：

多模态语音识别模型可以包括语音识别子模块及视频识别子模块。其中：

语音识别子模块用于，从输入的语音中提取声学特征，基于注意力机制，对所述声学特征进行编、解码处理，得到解码后的各字符的后验概率；

视频识别子模块用于，从输入的视频中提取视觉特征，基于注意力机制，对所述视觉特征进行编、解码处理，得到解码后的各字符的后验概率；

将语音识别子模块和视频识别子模块的后验概率求平均，并基于平均后验概率预测最终的识别文本。

其中，语音识别子模块可以采用语音识别模型，视频识别子模块可以采用视频识别模型，两种模型可以采用现有的方式进行训练，也可以采用本申请下文提及的训练方式进行训练。两种模型均可以单独进行文本识别。

在解码过程中，假设单语音识别子模块识别的后验概率为p^a,而对应的视频识别子模块识别的后验概率为p^v,则最终的文本分类概率由两者加权平均得到：

p^av＝λp^a+(1-λ)p^v

其中λ是控制两种子模块在集成模型中贡献比例的系数。可以在音视频验证集集合上调整该参数，使得验证集识别效果最佳，从而得到该系数的估计值。

本实施例提供的多模态语音识别模型，通过后验概率融合方式对语音识别子模块和视频识别子模块进行融合，其优势是音视频识别子模块各自都是独立的模型，具有比较好的可解释性。在不同的环境下，可以动态的调整超参数λ来控制多模态语音识别模型对音视频的依赖程度，所以也更加灵活。

第二种、

如图3所示：

多模态语音识别模型可以包括视频编码器、音频编码器和注意力处理模块。

其中，视频编码器用于，从输入的视频中提取视觉特征；

音频编码器用于，从输入的语音中提取声学特征；

注意力处理模块用于，基于注意力机制，对所述视觉特征和所述声学特征进行编、解码处理，得到预测的识别文本。

由图3可知，本申请的多模态语音识别模型包括视频支路和音频支路。本实施例中，考虑到音、视频信号本身具有差异性，因此可以分别采用预训练方式，对视频支路和音频支路进行预先训练。

首先对音频支路的预训练过程进行介绍：

音频支路可以包括音频编码器和音频解码器，训练过程可以包括：

S1、获取说话人说话过程的训练语音及所述训练语音对应的识别文本标签。

S2、利用所述音频编码器提取所述训练语音的声学特征。

S3、利用音频解码器基于所述声学特征进行解码预测，得到预测的识别文本。

S4、以所述预测的识别文本趋近于所述识别文本标签为目标，更新所述音频编码器和音频解码器的网络参数。

其中，所述音频编码器和音频解码器可以采用conformer结构。Conformer结构由多个Conformer Block堆叠组成。而一个Conformer Block又由前馈层，多头自注意力模块，卷积模块和层归一化模块组成。

经过预训练后的音频支路，其中的音频编码器可以作为图3示例的多模态语音识别模型中的音频编码器。

进一步地，本实施例中预训练的音频支路可以作为前述实施例中图2对应的语音识别子模块。

其次，对视频支路的预训练过程进行介绍：

视频支路采用人脸视频或唇形视频作为输入。视频支路单独训练过程类似语音支路，同样可以采用编解码结构，具体地，视频支路可以包括视频编码器和视频解码器。

对于视频编码器，可以采用3DCNN+ResNet18的结构作为前端处理模块，从输入视频中提取视觉特征。进一步采用多层conformer block堆叠作为后端处理模块，对视觉特征的长时间结构信息进行建模。

对于视频解码器，同样可以采用conformer结构。

为了训练视频编码器，类似语音支路的训练方式，本实施例采用识别文本标签作为视频支路的预测目标，该视频支路就是一个纯视频输入的端到端语音识别系统。本实施例中为了提升视频支路的识别效果，考虑到视素单元可以更加符合人脸或唇部视频的动作规律，在使用识别文本标签作为预测目标的基础上，进一步结合视素训练目标，可以辅助视频支路更好的区分不同的唇语发音动作，能够更加有效的训练视频支路，提升视频支路的识别效果。

其中，视素是一种对唇语动作的分类单元，指唇形特征在一个单词的发音过程中用于识别的最小可区分单位。由于视觉信号本身缺失了语音中的一些信息，不同的发音可能对应相同的视素单元，例如/f/和/v/音素,又例如/b/和/p/音素。下面表格列出了视素单元和音素之间的对应关系的一个例子。

表1

接下来，结合图4，对视频支路的预训练过程进行介绍，包括如下步骤：

S1、获取对说话人说话过程拍摄的训练视频、所述训练视频对应的识别文本标签及所述训练视频中每一帧对应的视素标签。

本实施例中介绍了一种获取训练视频中每一帧对应的视素标签的可选实施过程，可以包括：

S11、基于训练视频对应的识别文本标签的发音信息，得到识别文本标签的音素序列。

S12、将所述音素序列与所述训练视频对应的音频进行时间对齐，得到每一帧对应的音素。

S13、参考预设的音素与视素间的对应关系，确定每一帧对应的视素。

其中，音素与视素间的对应关系可以参照上表1所示。

S2、利用所述视频编码器提取所述训练视频的视觉特征，基于所述视觉特征预测所述训练视频中每一帧对应的视素预测结果。

S3、利用视频解码器基于所述视觉特征进行解码预测，得到预测的识别文本。

S4、以所述视素预测结果趋近于所述视素标签，以及所述预测的识别文本趋近于所述识别文本标签为目标，更新所述视频编码器和视频解码器的网络参数。

具体地，编码器的输出可以通过一个线性分类层，对当前帧所对应的视素进行预测。视素预测结果和识别文本预测结果均可以采用交叉熵准则作为损失函数。

经过预训练后的视频支路，其中的视频编码器可以作为图3示例的多模态语音识别模型中的视频编码器。

进一步地，本实施例中预训练的视频支路可以作为前述实施例中图2对应的视频识别子模块。

在本申请的一些实施例中，对于图3示例的多模态语音识别模型，其中的注意力处理模块可以有多种不同的组成结构，如图5和图6，分别示例了两种包含不同结构的注意力处理模块的多模态语音识别模型。

图5示例的多模态语音识别模型中，注意力处理模块由多模态融合层和解码器组成。

对于视觉特征和声学特征，在编码器端进行基于注意力机制的融合，具体地：

多模态融合层用于，确定所述音频编码器提取的声学特征对所述视频编码器提取的每一帧视觉特征的关注程度，并以所述关注程度作为对应帧的融合权重，将每一帧视觉特征与所述声学特征进行融合，得到融合后的音视频特征。

其中，多模态融合层可以使用音频编码器提取的声学特征作为query向量，视频编码器提取的视觉特征作为key和value向量，进行多头跨模态注意力(multi-head cross-modal attention)操作，动态的选取视觉特征中有用的部分特征。具体来说，定义声学特征为A，视觉特征为V，则多头跨模态注意力操作中的一个head的权重attention计算为：

其中，W、U₁、U₂为可训练的网络参数，d表示特征的通道维度。

多头跨模态注意力操作得到的融合后音视频特征可以经过FFN层和归一化层，同残差支路的声学特征进行相加融合，得到最终的融合后的音视频特征。其中，多模态融合层可以堆叠N次，以充分融合声学特征和视觉特征。最终融合后的音视频特征输入至解码器进行解码，得到识别文本。

所述解码器用于，对所述音视频特征进行解码，得到预测的识别文本。

在图5示例的多模态语音识别模型中，多模态融合层为新引入的模型参数，其余各结构(如音频编码器、视频编码器和解码器)可以采用预训练方式训练得到，具体地，音频编码器可以复用前述音频支路预训练过程训练得到的音频编码器，视频编码器可以复用前述视频支路预训练过程训练得到的视频编码器，解码器可以复用前述音频支路预训练过程训练得到的音频解码器。

在此基础上，可以对多模态语音识别模型进行进一步网络参数的微调，微调过程可以包括：

S1、获取训练数据集，所述训练数据集包括多组训练样本及每组训练样本对应的识别文本标签，每一组训练样本包括说话人说话过程的训练语音及拍摄的训练视频。

S2、采用所述训练数据集对多模态语音识别模型中各结构的网络参数进行微调，其中，多模态语音识别模型中除多模态融合层外的其余各结构复用预训练后的网络参数。

在上述微调阶段，可以将音频编码器、视频编码器和解码器的网络参数固定，或者以较小的学习率进行微调，主要训练多模态融合层的网络参数。

图6示例的多模态语音识别模型中，注意力处理模块为双头注意力解码器模块，其可以包括：自注意力层、声学注意力层、视觉注意力层和拼接层。

对于视觉特征和声学特征，在解码器端进行基于注意力机制的融合，具体地：

自注意力层用于，基于历史解码结果确定解码器状态特征。

声学注意力层用于，确定解码器状态特征对音频编码器输出的每一帧的声学特征的关注程度，并以所述关注程度作为对应帧的权重，将每一帧声学特征与解码器状态特征进行加权，得到第一加权解码器状态特征。

视觉注意力层用于，确定解码器状态特征对视频编码器输出的每一帧的视觉特征的关注程度，并以所述关注程度作为对应帧的权重，将每一帧视觉特征与解码器状态特征进行加权，得到第二加权解码器状态特征。

拼接层用于，将所第一加权解码器状态特征与所述第二加权解码器状态特征进行拼接，并基于拼接后的解码器状态特征，确定当前解码结果，直至解码得到全部的识别文本。

具体地，定义自注意力层基于历史解码结果确定的解码器状态特征Q作为query向量，则解码器状态特征Q分别对声学特征A和视觉特征V进行attention计算：

其中，W,

表示可训练的网络参数，d表示特征的通道维度。

解码器状态特征Q分别对声学特征A和视觉特征V进行attention计算的结果，各自经过FFN层及归一化层处理后，通过特征通道维度进行拼接，并基于拼接后的解码器状态特征，确定当前解码结果，直至解码得到全部的识别文本。

在图6示例的多模态语音识别模型中，音频编码器及视频编码器可以采用预训练方式训练得到，具体地，音频编码器可以复用前述音频支路预训练过程训练得到的音频编码器，视频编码器可以复用前述视频支路预训练过程训练得到的视频编码器。

S1、获取训练数据集，所述训练数据集包括多组训练样本及每组训练样本对应的识别文本标签，每一组训练样本包括说话人说话过程的训练语音及拍摄的训练视频；

S2、采用所述训练数据集对多模态语音识别模型中各结构的网络参数进行微调，其中，多模态语音识别模型中除双头注意力解码器模块外的其余各结构复用预训练后的网络参数。

在上述微调阶段，可以将音频编码器和视频编码器的网络参数固定，或者以较小的学习率进行微调，主要训练双头注意力解码器模块的网络参数。

上述实施例中对图5、图6示例的多模态语音识别模型进行网络参数微调的过程，涉及到获取训练数据集。本实施例中，对该获取训练数据集的过程进行说明。

本申请可以收集或者录制采集大量的视频和对应的音频文件，形成多模态数据库。在多模态数据库构建中，视频部分需要准备好需要的人脸视频图像，并且要确保语音和说话者的人脸是对应关系，例如在一个讨论会中可能出现多张人脸，则需要根据当前语音和视频定位出对应的说话人的人脸。具体来说，该流程可以包括如下步骤：

S1、收集视频文件及对应的音频文件。

S2、对所述音频文件进行语音检测，并包含语音的片段进行截取，得到语音片段。

S3、若所述语音片段对应的视频中存在字幕，则对所述语音片段对应的视频中的字幕进行文本识别，得到文本识别结果，以及，识别所述语音片段的转写文本。

S4、判断所述文本识别结果与所述转写文本的相似度是否超过设定阈值，若是，丢弃所述语音片段及对应的视频，若否，保留所述语音片段及对应的视频，并以文本识别结果作为所述语音片段最终的识别文本标签。

S5、对于保留的语音片段对应的视频，从中提取人脸视频帧。

S6、对于提取的每一人脸视频帧，和视频对应的语音片段一并输入预配置的唇形和语音一致性检测模型中，得到一致性检测结果，若结果表示一致，则保留所述人脸视频帧及对应的语音片段，否则，丢弃所述人脸视频帧及对应的语音片段。

其中，唇形和语音一致性检测模型用于判断输入的语音片段是否和视频帧中人脸唇形的动作相符合。

S7、由最终保留的人脸视频帧组成训练视频，保留的语音片段组成训练语音，语音片段最终的识别文本标签作为训练样本对应的识别文本标签。

值得注意的是，在实际应用中，受限于场景或设备，可能无法获取到有效的视频。为了提升系统的鲁棒性，能够在视频缺失情况下继续保持较好的识别效果，本案在训练多模态语音识别模型时，可以采用视频支路随机遮蔽策略。在前述对视频支路预训练过程，可以对视频支路p_mask％的视频片段进行随机遮蔽。在使用音视频数据对多模态语音识别模型进行微调训练阶段，除了随机的对视频片段遮蔽，模型还可以以

％的概率直接丢弃整个视频支路。同时为了防止模型过于依赖音频支路输入，模型还可以以

％概率丢弃音频支路，以

％的概率同时使用音视频支路。

对于多模态语音识别模型由语音识别子模块及视频识别子模块组成的结构，为了应对视频支路的信号缺失的问题，可以实时的调整融合系数λ。例如，当视频质量不可靠时，可以采用λ＝1，此时多模态语音识别模型等价于单语音识别系统。

下面对本申请实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

参见图7，图7为本申请实施例公开的一种语音识别装置结构示意图。

如图7所示，该装置可以包括：

数据获取单元11，用于获取说话人说话过程的语音及拍摄的视频，所述视频包括人脸视频或唇形视频；

多模态识别单元12，用于采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本；

可选的，上述多模态识别单元所采用的多模态语音识别模型可以包括：视频编码器、音频编码器、注意力处理模块；

所述视频编码器用于，从输入的视频中提取视觉特征；

所述音频编码器用于，从输入的语音中提取声学特征；

所述注意力处理模块用于，基于注意力机制，对所述视觉特征和所述声学特征进行编、解码处理，得到预测的识别文本。

可选的，本申请的装置还可以包括：

模型预训练单元，用于对多模态语音识别模型中的视频编码器进行预训练，该预训练过程可以包括：

获取对说话人说话过程拍摄的训练视频、所述训练视频对应的识别文本标签及所述训练视频中每一帧对应的视素标签；

利用所述视频编码器提取所述训练视频的视觉特征，基于所述视觉特征预测所述训练视频中每一帧对应的视素预测结果；

利用视频解码器基于所述视觉特征进行解码预测，得到预测的识别文本；

以所述视素预测结果趋近于所述视素标签，以及所述预测的识别文本趋近于所述识别文本标签为目标，更新所述视频编码器和视频解码器的网络参数。

可选的，上述模型预训练单元获取训练视频中每一帧对应的视素标签的过程，可以包括：

基于训练视频对应的识别文本标签的发音信息，得到识别文本标签的音素序列；

将所述音素序列与所述训练视频对应的音频进行时间对齐，得到每一帧对应的音素；

参考预设的音素与视素间的对应关系，确定每一帧对应的视素。

可选的，上述多模态语音识别模型中的注意力处理模块可以包括：多模态融合层和解码器；

所述多模态融合层用于，确定所述音频编码器提取的声学特征对所述视频编码器提取的每一帧视觉特征的关注程度，并以所述关注程度作为对应帧的融合权重，将每一帧视觉特征与所述声学特征进行融合，得到融合后的音视频特征；

在上述注意力处理模块的结构的基础上，本申请的装置还可以包括：

第一模型微调单元，用于在对多模态语音识别模型中的音频编码器、视频编码器和解码器采用预训练方式训练之后，对多模态语音识别模型的网络参数进行微调，该微调过程包括：

获取训练数据集，所述训练数据集包括多组训练样本及每组训练样本对应的识别文本标签，每一组训练样本包括说话人说话过程的训练语音及拍摄的训练视频；

采用所述训练数据集对多模态语音识别模型中各结构的网络参数进行微调，其中，多模态语音识别模型中除多模态融合层外的其余各结构复用预训练后的网络参数。

可选的，上述多模态语音识别模型中的注意力处理模块可以是双头注意力解码器模块，其包括：

自注意力层用于，基于历史解码结果确定解码器状态特征；

声学注意力层用于，确定解码器状态特征对音频编码器输出的每一帧的声学特征的关注程度，并以所述关注程度作为对应帧的权重，将每一帧声学特征与解码器状态特征进行加权，得到第一加权解码器状态特征；

视觉注意力层用于，确定解码器状态特征对视频编码器输出的每一帧的视觉特征的关注程度，并以所述关注程度作为对应帧的权重，将每一帧视觉特征与解码器状态特征进行加权，得到第二加权解码器状态特征；

第二模型微调单元，用于在对多模态语音识别模型中的音频编码器和视频编码器采用预训练方式训练之后，对多模态语音识别模型的网络参数进行微调，该微调过程包括：

采用所述训练数据集对多模态语音识别模型中各结构的网络参数进行微调，其中，多模态语音识别模型中除双头注意力解码器模块外的其余各结构复用预训练后的网络参数。

可选的，上述多模态语音识别模型可以包括语音识别子模块及视频识别子模块；

所述语音识别子模块用于，从输入的语音中提取声学特征，基于注意力机制，对所述声学特征进行编、解码处理，得到解码后的各字符的后验概率；

所述视频识别子模块用于，从输入的视频中提取视觉特征，基于注意力机制，对所述视觉特征进行编、解码处理，得到解码后的各字符的后验概率；

可选的，上述第一模型微调单元及第二模型微调单元获取训练数据集的过程，可以包括：

收集视频文件及对应的音频文件；

对所述音频文件进行语音检测，并包含语音的片段进行截取，得到语音片段；

若所述语音片段对应的视频中存在字幕，则对所述语音片段对应的视频中的字幕进行文本识别，得到文本识别结果，以及，识别所述语音片段的转写文本；

判断所述文本识别结果与所述转写文本的相似度是否超过设定阈值，若是，丢弃所述语音片段及对应的视频，若否，保留所述语音片段及对应的视频，并以文本识别结果作为所述语音片段最终的识别文本标签；

对于保留的语音片段对应的视频，从中提取人脸视频帧；

对于提取的每一人脸视频帧，和视频对应的语音片段一并输入预配置的唇形和语音一致性检测模型中，得到一致性检测结果，若结果表示一致，则保留所述人脸视频帧及对应的语音片段，否则，丢弃所述人脸视频帧及对应的语音片段；

由最终保留的人脸视频帧组成训练视频，保留的语音片段组成训练语音，语音片段最终的识别文本标签作为训练样本对应的识别文本标签。

本申请实施例提供的语音识别装置可应用于语音识别设备，如终端：手机、电脑等。可选的，图8示出了语音识别设备的硬件结构框图，参照图8，语音识别设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多模态语音识别模型包括：视频编码器、音频编码器、注意力处理模块；

所述视频编码器用于，从输入的视频中提取视觉特征；

所述音频编码器用于，从输入的语音中提取声学特征；

3.根据权利要求2所述的方法，其特征在于，所述音频编码器和所述视频编码器分别采用预训练方式训练得到，其中，视频编码器的预训练过程包括：

4.根据权利要求3所述的方法，其特征在于，获取训练视频中每一帧对应的视素标签的过程，包括：

5.根据权利要求2所述的方法，其特征在于，所述注意力处理模块包括：多模态融合层和解码器；

6.根据权利要求2所述的方法，其特征在于，所述注意力处理模块为双头注意力解码器模块，其包括：

自注意力层用于，基于历史解码结果确定解码器状态特征；

7.根据权利要求5所述的方法，其特征在于，所述多模态语音识别模型中的音频编码器、视频编码器和解码器采用预训练方式训练得到，在训练之后还包括：

8.根据权利要求6所述的方法，其特征在于，所述多模态语音识别模型中的音频编码器和视频编码器采用预训练方式训练得到，在训练之后还包括：

9.根据权利要求1所述的方法，其特征在于，所述多模态语音识别模型包括语音识别子模块及视频识别子模块；

10.根据权利要求7或8所述的方法，其特征在于，所述获取训练数据集，包括：

收集视频文件及对应的音频文件；

对于保留的语音片段对应的视频，从中提取人脸视频帧；

11.一种语音识别装置，其特征在于，包括：

12.一种语音识别设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～10中任一项所述的语音识别方法的各个步骤。

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～10中任一项所述的语音识别方法的各个步骤。