CN115240246A

CN115240246A - 语音识别方法、装置、设备、存储介质和程序产品

Info

Publication number: CN115240246A
Application number: CN202210736932.7A
Authority: CN
Inventors: 崔洋洋; 余俊澎; 王星宇
Original assignee: Shanghai Youme Information Technology Co ltd
Current assignee: Shanghai Youme Information Technology Co ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-10-25

Abstract

本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取待进行身份认证的目标用户的目标视频，并基于目标视频提取多个数据集，各数据集包括目标用户的声音片段和目标用户的脸部图像，且，各数据集中的声音片段和脸部图像的视频时间对应；对于各数据集，提取数据集中的脸部图像的至少两个脸部特征；对于各数据集，将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到语音识别模型输出的与数据集对应的语音识别结果。采用本方法能够提高语音识别的准确率。

Description

语音识别方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音识别方法、装置、设备、存储介质和程序产品。

背景技术

随着语音识别技术的迅速发展，语音作为身份识别的有效手段逐渐成熟，即利用语音识别技术准确识别出语音的内容，并根据识别出的内容去执行身份识别的操作。

传统的语音识别技术通常是基于声学特征实现语音内容的识别。

但是，这种语音识别方式，识别准确率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音识别准确率的语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种语音识别方法。该方法包括：

获取待进行身份认证的目标用户的目标视频，并基于目标视频提取多个数据集，各数据集包括目标用户的声音片段和目标用户的脸部图像，且，各数据集中的声音片段和脸部图像的视频时间对应；

对于各数据集，提取数据集中的脸部图像的至少两个脸部特征；

对于各数据集，将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到语音识别模型输出的与数据集对应的语音识别结果。

在其中一个实施例中，该至少两个脸部特征包括面部表情特征，提取数据集中的脸部图像的至少两个脸部特征，包括：

将数据集中的脸部图像输入至面部表情识别模型，得到面部表情识别模型输出的数据集中脸部图像的面部表情特征。

在其中一个实施例中，该将数据集中的脸部图像输入至面部表情识别模型，得到面部表情识别模型输出的数据集中脸部图像的面部表情特征，包括：

获取数据集中脸部图像对应的关键点热图；

将数据集中的脸部图像以及关键点热图，输入至面部表情识别模型，得到面部表情识别模型输出的面部表情特征。

在其中一个实施例中，该面部表情识别模型包括生成对抗子模型以及分类子模型；将数据集中的脸部图像输入至面部表情识别模型，得到面部表情识别模型输出的数据集中脸部图像的面部表情特征，包括：

将数据集中的脸部图像输入至生成对抗子模型，得到与数据集中的脸部图像对应的无表情人脸图像；

获取数据集中的脸部图像以及无表情人脸图像之间的残差信息，并将残差信息输入至分类子模型，得到分类子模型输出的面部表情特征。

在其中一个实施例中，该至少两个脸部特征包括唇部运动特征；提取数据集中的脸部图像的至少两个脸部特征，包括：

获取数据集中的脸部图像对应的唇部关键点信息；

根据唇部关键点信息，得到数据集中的脸部图像的唇部运动特征。

在其中一个实施例中，该至少两个脸部特征包括真假脸表征特征；提取数据集中的脸部图像的至少两个脸部特征，包括：

获取数据集中的脸部图像对应的脸部骨骼信息；

基于脸部骨骼信息，得到数据集中的脸部图像的真假脸表征特征。

在其中一个实施例中，将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到语音识别模型输出的与数据集对应的语音识别结果，包括：

提取数据集中的声音片段的多个声音特征；

对多个声音特征进行融合处理，得到数据集中的声音片段对应的声音综合特征；

将声音综合特征以及数据集中的脸部图像的至少两个脸部特征，输入至语音识别模型，得到语音识别模型输出的与数据集对应的语音识别结果。

在其中一个实施例中，该语音识别模型包括Bi-LSTM子模型、SVM子模型以及CTC子模型；将声音综合特征以及数据集中的脸部图像的至少两个脸部特征，输入至语音识别模型，得到语音识别模型输出的与数据集对应的语音识别结果，包括：

将声音综合特征以及数据集中的脸部图像的至少两个脸部特征，输入至Bi-LSTM子模型，得到Bi-LSTM子模型输出的数据集对应的中间融合特征；

将中间融合特征输入至SVM子模型，得到SVM子模型输出的中间融合特征的后验概率；

基于中间融合特征以及后验概率，得到CTC子模型输出的与数据集对应的语音识别结果。

第二方面，本申请还提供了一种语音识别装置。该装置包括：

获取模块，用于获取待进行身份认证的目标用户的目标视频，并基于目标视频提取多个数据集，各数据集包括目标用户的声音片段和目标用户的脸部图像，且，各数据集中的声音片段和脸部图像的视频时间对应；

提取模块，用于对于各数据集，提取数据集中的脸部图像的至少两个脸部特征；

识别模块，用于对于各数据集，将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到语音识别模型输出的与数据集对应的语音识别结果。

在其中一个实施例中，该至少两个脸部特征包括面部表情特征，该提取模块，具体用于：

在其中一个实施例中，该提取模块，还具体用于：

获取数据集中脸部图像对应的关键点热图；

在其中一个实施例中，该面部表情识别模型包括生成对抗子模型以及分类子模型；该提取模块，还具体用于：

在其中一个实施例中，该至少两个脸部特征包括唇部运动特征；该提取模块，还具体用于：

获取数据集中的脸部图像对应的唇部关键点信息；

在其中一个实施例中，该至少两个脸部特征包括真假脸表征特征；该提取模块，还具体用于：

获取数据集中的脸部图像对应的脸部骨骼信息；

在其中一个实施例中，该识别模块，具体用于：

提取数据集中的声音片段的多个声音特征；

在其中一个实施例中，该语音识别模型包括Bi-LSTM子模型、SVM子模型以及CTC子模型；该识别模块，还具体用于：

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一所述的语音识别方法。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一所述的语音识别方法。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述第一方面任一所述的语音识别方法。

上述语音识别方法、装置、计算机设备、存储介质和计算机程序产品，获取待进行身份认证的目标用户的目标视频，并基于目标视频提取多个数据集，各数据集包括目标用户的声音片段和目标用户的脸部图像，且，各数据集中的声音片段和脸部图像的视频时间对应；对于各数据集，提取数据集中的脸部图像的至少两个脸部特征；对于各数据集，将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到语音识别模型输出的与数据集对应的语音识别结果。本申请实施例通过将语音声音片段以及脸部图像的至少两个脸部特征输入至语音识别模型，得到语音识别模型输出的与数据集对应的语音识别结果，在进行语音识别时融合了视觉特征和声学特征，实现了基于多模态信息得到语音识别结果的目的，提高了语音识别结果的准确性。而且由于输入至语音识别模型中的视觉特征为至少两个脸部特征，在进行语音识别时结合了多类型的脸部特征，提高了利用视觉信息校正语音识别结果的可靠性，进一步提高了语音识别结果的准确性。

附图说明

图1为一个实施例中语音识别方法的流程示意图；

图2为一个实施例中面部表情识别模型的结构示意图；

图3为一个实施例中沙漏模型的结构示意图；

图4为一个实施例中步骤1021的流程示意图；

图5为另一个实施例中面部表情识别模型的结构示意图；

图6为一个实施例中步骤102的流程示意图；

图7为另一个实施例中步骤102的流程示意图；

图8为一个实施例中步骤103的流程示意图；

图9为一个实施例中步骤503的流程示意图；

图10为另一个实施例中语音识别方法的流程示意图；

图11为一个实施例中语音识别装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供了一种语音识别方法。该语音识别方法，其执行主体可以是语音识别装置，该语音识别装置可以通过软件、硬件或者软硬件结合的方式实现成为终端或服务器的部分或者全部。其中，终端可以是个人计算机、笔记本电脑、媒体播放器、智能电视、智能手机、平板电脑和便携式可穿戴设备等；服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

下述方法实施例中，均以执行主体是终端为例来进行说明。可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

请参考图1，其示出了本申请实施例提供的一种语音识别方法的流程图。如图1所示，该语音识别方法可以包括以下步骤：

步骤101，获取待进行身份认证的目标用户的目标视频，并基于目标视频提取多个数据集。

其中，各数据集包括目标用户的声音片段和目标用户的脸部图像，且，各数据集中的声音片段和脸部图像的视频时间对应。

可选的，该目标视频可以为终端调用视频采集设备采集到的目标用户用于进行身份认证的视频，也可以为终端接收到由目标用户通过外部设备发送的用于进行身份认证的视频。

具体的，目标用户在要进行身份认证时，需要说出设定的信息内容，该设定的信息内容可以为目标用户与终端约定的文字口令信息，也可以是终端界面上随机显示的文字信息，抑或是用户基于终端界面输出的问题做出的答复信息。目标用户在说出设定的信息内容时，会利用视频采集设备录制视频，该视频采集设备对应的视野范围至少包括目标用户的整个人脸。

可选的，对目标视频进行分离处理，得到该目标视频对应的音频流和视频画面流。可选的，对视频画面流进行插值处理，使音频流和视频画面流具有相同的速率。

可选的，通过对音频流进行分段处理，去除音频流中句与句之间的停顿，得到的多个声音片段；根据各声音片段的视频时间，对视频画面流进行分段处理，得到各声音片段对应的视频画面片段，将视频画面片段包括的各帧画面作为该目标用户的脸部图像。

可选的，该数据集中的脸部图像的数量为多张。

步骤102，对于各数据集，提取数据集中的脸部图像的至少两个脸部特征。

可选的，该脸部特征包括：唇部运动特征、面部表情特征以及真假脸表征特征等等。

由于人脸中唇部变化以及人脸情绪对于语音具有较大的影响，因此，可通过获取唇部运动特征以及面部表情特征，得到唇部变化情况以及人脸情绪信息。此外，随着人工智能技术的发展，在利用目标视频进行身份验证时也存在有利用人工智能生成假脸视频的情况。即该目标视频也可能为通过视频处理手段生成的一个视频，即视频中人脸为基于人工智能生成的假脸，因此，为提高身份验证的可靠性，也可能需要对视频中人脸的真假性进行识别。

因此，可选用唇部运动特征、面部表情特征以及真假脸表征特征中至少两个特征作为脸部图像对应的待提取的脸部特征。

可选的，利用图像提取算法对数据集中的脸部图像进行特征提取，得到各脸部特征。具体的，该图像提取算法为深度学习算法模型。

步骤103，对于各数据集，将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到语音识别模型输出的与数据集对应的语音识别结果。

可选的，在得到各数据集对应的语音识别结果后，根据语音识别结果确定用户身份。

可选的，将该语音识别结果与设定的信息内容进行比较，根据比较结果，输出用户身份的识别结果。具体的，若该语音识别结果与设定的信息内容一致，则用户身份认证成功，否则，用户身份认证失败。

该实施例中，获取待进行身份认证的目标用户的目标视频，并基于目标视频提取多个数据集，各数据集包括目标用户的声音片段和目标用户的脸部图像，且，各数据集中的声音片段和脸部图像的视频时间对应；对于各数据集，提取数据集中的脸部图像的至少两个脸部特征；对于各数据集，将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到语音识别模型输出的与数据集对应的语音识别结果。本申请实施例通过将语音声音片段以及脸部图像的至少两个脸部特征输入至语音识别模型，得到语音识别模型输出的与数据集对应的语音识别结果，在进行语音识别时融合了视觉特征和声学特征，实现了基于多模态信息得到语音识别结果的目的，提高了语音识别结果的准确性。而且由于输入至语音识别模型中的视觉特征为至少两个脸部特征，在进行语音识别时结合了多类型的脸部特征，提高了利用视觉信息校正语音识别结果的可靠性，进一步提高了语音识别结果的准确性。

进一步的，基于图1所示的实施例，该至少两个脸部特征包括面部表情特征，步骤102中提取数据集中的脸部图像的至少两个脸部特征，包括：

步骤1021：将数据集中的脸部图像输入至面部表情识别模型，得到面部表情识别模型输出的数据集中脸部图像的面部表情特征。

在一种可选的实现方式中，获取数据集中脸部图像对应的关键点热图；将数据集中的脸部图像以及关键点热图，输入至面部表情识别模型，得到面部表情识别模型输出的面部表情特征。

具体的，基于如图2所示的面部表情识别模型，得到该面部表情特征。可选的，该面部表情特征为面部表情类型信息。

可选的，采用关键点热图回归方法，得到脸部图像对应的关键点热图。其中，该关键点热图回归方法对应的网络模型为沙漏模型。如图3所示，该沙漏模型的拓扑结构为对称的下采样-上采样结构，每个下采样层均对应有一个上采样层。将脸面图像输入至沙漏模型中，会先利用卷积层、最大池化层对脸部图像进行下采样；在达到最低分辨率后，开始进行上采样和跨尺度组合特征的过程，直至上采样后得到的脸部图像的分辨率达到最大分辨率。经过多次不同分辨率的脸部图像的跨尺度组合特征过程后，该沙漏模型最终输出一个脸部图像对应的最大特征图。

在得到最大特征图后，对该最大特征图执行2次1x1卷积操作，得到脸部图像对应的关键点热图。

如图2所示，采用关键点热图回归方法得到脸部图像对应的关键点热图；对脸部图像进行卷积特征提取后，得到脸部图像对应的卷积特征图；将关键点热图以及卷积特征依次输入识别器、FC层以及softmax层，最终得到面部表情类型信息。

在另一种可选的实现方式中，面部表情识别模型包括生成对抗子模型以及分类子模型。如图4所示，步骤1021的实现过程包括以下步骤：

步骤201，将数据集中的脸部图像输入至生成对抗子模型，得到与数据集中的脸部图像对应的无表情人脸图像。

可选的，输入至生成对抗子模型的信息还包括：与数据集中的脸部图像对应的无表情人脸图像。

可选的，该生成对抗子模型包括生成器和判别器。生成器用于根据随机噪声生成无表情人脸图像，判别器用于基于脸部图像以及无表情人脸图像进行判别。具体的，判别器是基于多尺度分类器D₁和D₂实现的，其中，这两个多尺度分类器D₁和D₂的网络结构相同，但是输入至D₁和D₂的图像的尺寸不同。

可选的，该生成对抗子模型的训练过程，该训练过程包括：获取训练样本集，其中，训练样本集包括样本人脸图像、样本人脸图像对应的表情标签、样本人脸图像对应的样本无表情人脸图像以及样本无表情人脸图像对应的表情标签；基于样本人脸图像、样本人脸图像对应的表情标签、样本无表情人脸图像以及样本无表情人脸图像对应的表情标签，训练初始生成对抗子模型，得到生成对抗子模型。在生成器和判别器对应的损失值均满足训练目标时，则该生成对抗子模型训练完成。

可选的，生成器的目的是使得判别器能够将生成器生成的图像判别为真实图像，其对应的损失函数的计算公式如下：

L_adv＝-E(log(D₁(E|y^B)))-E(log(D₁(E|y^A)))-E(log(D₂(E|y^B)))-

E(log(D₂(E|y^A)))；

其中，L_adv表示生成器对应的对抗损失值；y^A表示样本人脸图像对应的表情标签，y^B为样本无表情人脸图像对应的表情标签；E为生成器生成的无表情人脸图像。

可选的，判别器的目的是能够将真实输入图像判别为真，且将生成器生成的图像判别为假。该判别器对应的损失函数的表达式如下：

L_Di＝-E(log(D_i(A|y^A)))-E(log(1-D_i(E|y^B)))-E(log(D_i(B|y^B)))-

E(log(1-D_i(F|y^A)))i＝1,2；

其中，

表示多尺度分类器D₁对应的损失值；

表示多尺度分类器D₂对应的损失值；L_D为判别器对应的损失值；A为样本人脸图像；B为样本无表情人脸图像；y^A表示样本人脸图像A对应的表情标签，y^B为样本无表情人脸图像B对应的表情标签；E为生成器生成的无表情人脸图像，F为生成器生成的带表情的人脸图像。

步骤202，获取数据集中的脸部图像以及无表情人脸图像之间的残差信息，并将残差信息输入至分类子模型，得到分类子模型输出的面部表情特征。

可选的，如图5所示，该面部表情识别模型还包括重构子模型；该重构子模型包括编码器和解码器；该重构子模型用于根据输入的两张人脸图像进行重构，得到重构图像。

可选的，该输入至重构子模型的两张人脸图像可以为两张相同的人脸图像或者带表情人脸图像和其对应的无表情人脸图像。

具体的，在该输入至重构子模型的两张人脸图像包括带表情人脸图像和其对应的无表情人脸图像时，该重构图像包括第一重构图像、第二重构图像、第三重构图像以及第四重构图像，该第一重构图像为对带表情人脸图像以及带表情人脸图像复制图像的目标区域互相置换后得到的重构图像；该第三重构图像为对无表情人脸图像以及无表情人脸图像复制图像的目标区域互相置换后得到的重构图像；该第二重构图像和第四重构图像分别为两张图像的目标区域置换得到的重构图像。

可选的，该重构子模型训练过程包括：获取训练样本集，其中，训练样本集包括样本人脸图像以及样本人脸图像对应的样本无表情人脸图像；基于样本人脸图像以及样本人脸图像对应的样本无表情人脸图像，训练初始重构子模型，得到重构子模型。

将样本人脸图像A以及样本无表情人脸图像B输入至编码器后，得到图像A和图像B的对应的编码向量Z_A和Z_B；获取Z_A中带有表情对应的目标图像区域对应的第一编码信息，以及图像B中目标区域对应的第二编码信息；将Z_A的第一编码信息和Z_B的第二编码区域进行置换，得到编码向量Z_C和Z_D；将Z_A、Z_B、Z_C和Z_D四个向量进行串联组合，得到4个组合向量[Z_A,Z_A]、[Z_C,Z_A]、[Z_B,Z_B]以及[Z_D,Z_B]；将4个组合向量分别输入至解码器中，得到重构图像A′和B′，即计算公式如下：

Dec([Z_A,Z_A])＝R_A，A′＝A+R_A；

Dec([Z_C,Z_A])＝R_C，C＝A+R_C；

Dec([Z_B,Z_B])＝R_B，B′＝B+R_B；

Dec([Z_D,Z_B])＝R_D，D＝B+R_D；

其中，Dec(·)表示解码器，其中，A′、C、B′和D分别为第一重构图像、第二重构图像以及第三重构图像以及第四重构图像。

当重构子模型的损失满足训练目标时，该重构子模型训练完成。具体的，该重构子模型对应的损失函数为：

L_rac＝‖A-A′‖₂+‖B-B′‖₂，

其中，L_rac表示重构子模型的损失值，A为样本人脸图像，B为样本无表情人脸图像；A′表示第一重构图像；B′表示第三重构图像。

可选的，将生成器生成的图像E输入至重构子模型中，得到对应的残差信息R_E，其计算公式如下：

Dec([Z_E,Z_I])＝R_E，E＝I+R_E，

其中，Z_E表示生成器生成的图像E对应的编码向量，Z_I表示数据集中的脸部图像I对应的编码向量，R_E为残差信息，I表示数据集中的脸部图像。

可选的，该分类子模型对应的损失函数为：

其中，L_cls表示该分类子模型的损失值，

表示人脸图像的第i部分

对应的分类结果，y_i表示人脸图像的第i部分

的权重概率值。

可选的，面部表情识别模型可以是终端自行训练的；可选地，为了节约终端的计算资源，生成面部表情识别模型也可以由服务器训练，训练完成后发送至终端。

本实施例以终端自行训练面部表情识别模型为例描述该面部表情识别模型的训练过程，该训练过程包括：获取训练样本集，其中，训练样本集包括样本人脸图像以及样本人脸图像对应的无表情人脸图像；基于样本人脸图像以及样本人脸图像对应的无表情人脸图像，训练初始面部表情识别模型，得到面部表情识别模型。

具体的，建立初始面部表情识别模型，基于样本人脸图像以及样本人脸图像对应的无表情人脸图像，对初始面部表情识别模型执行多次训练过程，直至对当某次训练过程的中间面部表情识别模型对应的损失值满足预设条件时，该面部表情识别模型训练完成。该面部表情识别模型的损失函数的计算公式为：L_adv＝L_cls+L_rac+L_adv；其中，该L_adv表示生成器对应的对抗损失值，L_rac表示重构子模型对应的损失值，L_cls表示该分类子模型的损失值。

该实施例中，通过生成对抗子模型从人脸图像中分离出表情成分以用于面部表情特征的识别，提高了面部表情特征的有效性。

在本申请实施例中，该至少两个脸部特征包括唇部运动特征。基于以上任一实施例，如图6所示，步骤102提取数据集中的脸部图像的至少两个脸部特征，包括步骤301和步骤302：

步骤301，获取数据集中的脸部图像对应的唇部关键点信息。

可选的，对脸部图像进行降噪处理后对唇部进行定位，得到唇部关键点信息。

步骤302，根据唇部关键点信息，得到数据集中的脸部图像的唇部运动特征。

可选的，根据唇部关键点信息，得到唇部特征点对应的位置坐标；根据唇部特征点对应的位置坐标，得到内外唇角度信息，并将该内外唇角度信息作为唇部运动特征。

该实施例中，获取数据集中的脸部图像对应的唇部关键点信息，根据唇部关键点信息，得到数据集中的脸部图像的唇部运动特征，实现了对唇部运动特征的获取，便于后续结合唇部变化信息，进行语音识别。

在本申请实施例中，该至少两个脸部特征包括真假脸表征特征。基于以上任一实施例，如图7所示，步骤102提取数据集中的脸部图像的至少两个脸部特征，包括步骤401和步骤402：

步骤401，获取数据集中的脸部图像对应的脸部骨骼信息。

可选的，对脸部图像进行人脸骨骼关键点提取，得到脸部图像对应的脸部骨骼信息。

步骤402，基于脸部骨骼信息，得到数据集中的脸部图像的真假脸表征特征。

可选的，基于脸部骨骼信息，确定脸部图像中的人脸的真假性，得到该真假脸表征特征。

该实施例中，获取数据集中的脸部图像对应的脸部骨骼信息，基于脸部骨骼信息，得到数据集中的脸部图像的真假脸表征特征，实现了对真假脸表征特征的获取，便于后续结合真假脸信息进行语音识别。

在本申请实施例中，如图8所示，基于以上任一实施例，步骤103中将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到语音识别模型输出的与数据集对应的语音识别结果的实现过程，包括步骤501、步骤502和步骤503：

步骤501，提取数据集中的声音片段的多个声音特征。

可选的，该声音特征包括时域特征、谱图特征以及统计特征等等。其中，时域特征包括谐波特征、基频特征以及采样率；谱图特征包括梅尔倒谱系数、长时信号变化特征；统计特征包括高过零率比率。

步骤502，对多个声音特征进行融合处理，得到数据集中的声音片段对应的声音综合特征。

可选的，该融合处理方法为加权融合处理方法。即基于以下公式，得到该声音综合特征z：

z＝f(w₁v₁+w₂v₂+…+w_nv_n)，

其中，z表示声音综合特征，w_i(i＝1,2,…,n)为第i个声音特征v_i对应权重；v_i(i＝1,2,…,n)为第i个声音特征。

步骤503，将声音综合特征以及数据集中的脸部图像的至少两个脸部特征，输入至语音识别模型，得到语音识别模型输出的与数据集对应的语音识别结果。

可选的，对该声音综合特征以及各脸部特征分别进行归一化处理，将归一化处理得到的声音综合特征以及各脸部特征输入至语音识别模型，得到语音识别结果。

该实施例，通过对多个声音特征进行融合处理，得到数据集中的声音片段对应的声音综合特征，实现了语音特征的充分提取，提高了输入至语音识别模型中的声音特征的可靠性，进一步提高了语音识别结果的准确性。

在本申请实施例中，该语音识别模型包括Bi-LSTM子模型、SVM子模型以及CTC子模型，如图9所示，基于图1所示的实施例，步骤503将声音综合特征以及数据集中的脸部图像的至少两个脸部特征，输入至语音识别模型，得到语音识别模型输出的与数据集对应的语音识别结果的实现过程，包括以下步骤：

步骤601，将声音综合特征以及数据集中的脸部图像的至少两个脸部特征，输入至Bi-LSTM子模型，得到Bi-LSTM子模型输出的数据集对应的中间融合特征。

可选的，将基于声音综合特征得到的声音序列以及基于脸部特征得到的图像特征序列输入至Bi-LSTM子模型，得到中间融合特征。

步骤602，将中间融合特征输入至SVM子模型，得到SVM子模型输出的中间融合特征的后验概率。

步骤603，基于中间融合特征以及后验概率，得到CTC子模型输出的与数据集对应的语音识别结果。

该实施例中，通过将声音综合特征以及数据集中的脸部图像的至少两个脸部特征，输入至Bi-LSTM子模型，得到Bi-LSTM子模型输出的数据集对应的中间融合特征，实现了对上下文信息的结合，提高了语音识别的准确性。

在本申请实施例中，如图10所示，该实施例提供了一种语音识别方法，该方法包括以下步骤：

步骤701，获取待进行身份认证的目标用户的目标视频，并基于目标视频提取多个数据集。

步骤702，对于各数据集，将数据集中的脸部图像输入至面部表情识别模型，得到面部表情识别模型输出的数据集中脸部图像的面部表情特征。

具体的，获取数据集中脸部图像对应的关键点热图；将数据集中的脸部图像以及关键点热图输入至生成对抗子模型，得到与数据集中的脸部图像对应的无表情人脸图像；获取数据集中的脸部图像以及无表情人脸图像之间的残差信息，并将残差信息输入至分类子模型，得到分类子模型输出的面部表情特征。

步骤703，对于各数据集，获取数据集中的脸部图像对应的唇部关键点信息；根据唇部关键点信息，得到数据集中的脸部图像的唇部运动特征。

步骤704，对于各数据集，获取数据集中的脸部图像对应的脸部骨骼信息；基于脸部骨骼信息，得到数据集中的脸部图像的真假脸表征特征。

步骤705，对于各数据集，提取数据集中的声音片段的多个声音特征，对多个声音特征进行融合处理，得到数据集中的声音片段对应的声音综合特征。

步骤706，对于各数据集，将声音综合特征以及数据集中的脸部图像的面部表情特征、唇部运动特征以及真假脸表征特征，输入至Bi-LSTM子模型，得到Bi-LSTM子模型输出的数据集对应的中间融合特征。

步骤707，将中间融合特征输入至SVM子模型，得到SVM子模型输出的中间融合特征的后验概率。

步骤708，基于中间融合特征以及后验概率，得到CTC子模型输出的与数据集对应的语音识别结果。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音识别方法的语音识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音识别装置实施例中的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种语音识别装置，包括：获取模块、提取模块和识别模块，其中：

在一个实施例中，该至少两个脸部特征包括面部表情特征，该提取模块，具体用于：

在一个实施例中，该提取模块，还具体用于：

获取数据集中脸部图像对应的关键点热图；

在一个实施例中，该面部表情识别模型包括生成对抗子模型以及分类子模型；该提取模块，还具体用于：

在一个实施例中，该至少两个脸部特征包括唇部运动特征；该提取模块，还具体用于：

获取数据集中的脸部图像对应的唇部关键点信息；

在一个实施例中，该至少两个脸部特征包括真假脸表征特征；该提取模块，还具体用于：

获取数据集中的脸部图像对应的脸部骨骼信息；

在一个实施例中，该识别模块，具体用于：

提取数据集中的声音片段的多个声音特征；

在一个实施例中，该语音识别模型包括Bi-LSTM子模型、SVM子模型以及CTC子模型；该识别模块，具体用于：

上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取数据集中脸部图像对应的关键点热图；将数据集中的脸部图像以及关键点热图，输入至面部表情识别模型，得到面部表情识别模型输出的面部表情特征。

将数据集中的脸部图像输入至生成对抗子模型，得到与数据集中的脸部图像对应的无表情人脸图像；获取数据集中的脸部图像以及无表情人脸图像之间的残差信息，并将残差信息输入至分类子模型，得到分类子模型输出的面部表情特征。

获取数据集中的脸部图像对应的唇部关键点信息；根据唇部关键点信息，得到数据集中的脸部图像的唇部运动特征。

获取数据集中的脸部图像对应的脸部骨骼信息；基于脸部骨骼信息，得到数据集中的脸部图像的真假脸表征特征。

提取数据集中的声音片段的多个声音特征；对多个声音特征进行融合处理，得到数据集中的声音片段对应的声音综合特征；将声音综合特征以及数据集中的脸部图像的至少两个脸部特征，输入至语音识别模型，得到语音识别模型输出的与数据集对应的语音识别结果。

将声音综合特征以及数据集中的脸部图像的至少两个脸部特征，输入至Bi-LSTM子模型，得到Bi-LSTM子模型输出的数据集对应的中间融合特征；将中间融合特征输入至SVM子模型，得到SVM子模型输出的中间融合特征的后验概率；基于中间融合特征以及后验概率，得到CTC子模型输出的与数据集对应的语音识别结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：

在一个实施例中，该计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取待进行身份认证的目标用户的目标视频，并基于所述目标视频提取多个数据集，各所述数据集包括所述目标用户的声音片段和所述目标用户的脸部图像，且，各所述数据集中的声音片段和脸部图像的视频时间对应；

对于各所述数据集，提取所述数据集中的脸部图像的至少两个脸部特征；

对于各所述数据集，将所述数据集中的声音片段和所述数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到所述语音识别模型输出的与所述数据集对应的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述至少两个脸部特征包括面部表情特征，所述提取所述数据集中的脸部图像的至少两个脸部特征，包括：

将所述数据集中的脸部图像输入至面部表情识别模型，得到所述面部表情识别模型输出的所述数据集中脸部图像的所述面部表情特征。

3.根据权利要求2所述的方法，其特征在于，所述将所述数据集中的脸部图像输入至面部表情识别模型，得到所述面部表情识别模型输出的所述数据集中脸部图像的所述面部表情特征，包括：

获取所述数据集中脸部图像对应的关键点热图；

将所述数据集中的脸部图像以及所述关键点热图，输入至所述面部表情识别模型，得到所述面部表情识别模型输出的所述面部表情特征。

4.根据权利要求2所述的方法，其特征在于，所述面部表情识别模型包括生成对抗子模型以及分类子模型；所述将所述数据集中的脸部图像输入至面部表情识别模型，得到所述面部表情识别模型输出的所述数据集中脸部图像的所述面部表情特征，包括：

将所述数据集中的脸部图像输入至所述生成对抗子模型，得到与所述数据集中的脸部图像对应的无表情人脸图像；

获取所述数据集中的脸部图像以及所述无表情人脸图像之间的残差信息，并将所述残差信息输入至所述分类子模型，得到所述分类子模型输出的所述面部表情特征。

5.根据权利要求1所述的方法，其特征在于，所述至少两个脸部特征包括唇部运动特征；所述提取所述数据集中的脸部图像的至少两个脸部特征，包括：

获取所述数据集中的脸部图像对应的唇部关键点信息；

根据所述唇部关键点信息，得到所述数据集中的脸部图像的所述唇部运动特征。

6.根据权利要求1所述的方法，其特征在于，所述至少两个脸部特征包括真假脸表征特征；所述提取所述数据集中的脸部图像的至少两个脸部特征，包括：

获取所述数据集中的脸部图像对应的脸部骨骼信息；

基于所述脸部骨骼信息，得到所述数据集中的脸部图像的所述真假脸表征特征。

7.根据权利要求1所述的方法，其特征在于，所述将所述数据集中的声音片段和所述数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到所述语音识别模型输出的与所述数据集对应的语音识别结果，包括：

提取所述数据集中的声音片段的多个声音特征；

对所述多个声音特征进行融合处理，得到所述数据集中的声音片段对应的声音综合特征；

将所述声音综合特征以及所述数据集中的脸部图像的所述至少两个脸部特征，输入至所述语音识别模型，得到所述语音识别模型输出的与所述数据集对应的所述语音识别结果。

8.根据权利要求7所述的方法，其特征在于，所述语音识别模型包括Bi-LSTM子模型、SVM子模型以及CTC子模型；所述将所述声音综合特征以及所述数据集中的脸部图像的所述至少两个脸部特征，输入至所述语音识别模型，得到所述语音识别模型输出的与所述数据集对应的所述语音识别结果，包括：

将所述声音综合特征以及所述数据集中的脸部图像的所述至少两个脸部特征，输入至所述Bi-LSTM子模型，得到所述Bi-LSTM子模型输出的所述数据集对应的中间融合特征；

将所述中间融合特征输入至所述SVM子模型，得到所述SVM子模型输出的所述中间融合特征的后验概率；

基于所述中间融合特征以及所述后验概率，得到所述CTC子模型输出的与所述数据集对应的所述语音识别结果。

9.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取待进行身份认证的目标用户的目标视频，并基于所述目标视频提取多个数据集，各所述数据集包括所述目标用户的声音片段和所述目标用户的脸部图像，且，各所述数据集中的声音片段和脸部图像的视频时间对应；

提取模块，用于对于各所述数据集，提取所述数据集中的脸部图像的至少两个脸部特征；

识别模块，用于对于各所述数据集，将所述数据集中的声音片段和所述数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到所述语音识别模型输出的与所述数据集对应的语音识别结果。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。