CN113053361A

CN113053361A - 语音识别方法、模型训练方法、装置、设备及介质

Info

Publication number: CN113053361A
Application number: CN202110291861.XA
Authority: CN
Inventors: 李森
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-29
Anticipated expiration: 2041-03-18
Also published as: CN113053361B

Abstract

本公开涉及一种语音识别方法、模型训练方法、装置、设备及介质。本公开通过获取目标语音数据、以及目标语音数据对应的目标视频数据，并分别获取目标语音数据的第一特征信息和目标视频数据的第二特征信息。进一步，将相同维度的第一特征信息和第二特征信息进行融合处理，得到目标融合数据，并根据该目标融合数据确定用户语义。相比于单独采用听觉数据进行语音识别，本实施例通过目标语音数据和目标视频数据相融合的方式进行语音识别，可以提高语音识别的准确率，从而可以提高用户体验。

Description

语音识别方法、模型训练方法、装置、设备及介质

技术领域

本公开涉及信息技术领域，尤其涉及一种语音识别方法、模型训练方法、装置、设备及介质。

背景技术

在智能家居系统中，语音识别技术占据着比较重要的地位。具体的，具有语音识别功能的终端设备，例如，智能音箱、智能手机等可以采集用户的语音信息，并针对用户的语音信息进行语音识别，从而获得用户语义。进一步，根据用户语义进行反馈应答。

但是，在实际应用中，环境中可能会存在噪声、远场等多种干扰因素，使得语音识别的准确率会受到很大的影响，例如出现误判、错判等情况。从而影响用户体验。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音识别方法、模型训练方法、装置、设备及介质，以提高语音识别的准确率，从而提高用户体验。

第一方面，本公开实施例提供一种语音识别方法，包括：

获取目标语音数据、以及所述目标语音数据对应的目标视频数据；

分别获取所述目标语音数据的第一特征信息和所述目标视频数据的第二特征信息；

将所述第一特征信息和所述第二特征信息映射到相同的空间维度，得到相同维度的第一特征信息和第二特征信息；

将所述相同维度的第一特征信息和第二特征信息进行融合处理，得到目标融合数据；

根据所述目标融合数据确定用户语义。

第二方面，本公开实施例提供一种模型训练方法，所述模型包括：第一卷积层、第二卷积层和全连接层；所述方法包括：

获取预设文本对应的样本语音信息和样本视频信息；

根据所述预设文本中的多个预设标签将所述样本语音信息切分为多段样本语音数据，以及根据所述多个预设标签将所述样本视频信息切分为多段样本视频数据；

针对同一预设标签对应的样本语音数据和样本视频数据，分别获取所述样本语音数据的第三特征信息和所述样本视频数据的第四特征信息；

根据所述多个预设标签中的每个预设标签、所述每个预设标签分别对应的第三特征信息和第四特征信息，对第一卷积层、第二卷积层和全连接层进行训练，所述第一卷积层和所述第二卷积层用于将同一预设标签对应的第三特征信息和第四特征信息映射到相同的空间维度，所述全连接层用于对样本融合数据进行分类，所述样本融合数据是将同一预设标签对应的相同维度的第三特征信息和第四特征信息进行融合处理后得到的数据。

第三方面，本公开实施例提供一种语音识别装置，包括：

获取模块，用于获取目标语音数据、以及所述目标语音数据对应的目标视频数据；分别获取所述目标语音数据的第一特征信息和所述目标视频数据的第二特征信息；

映射模块，用于将所述第一特征信息和所述第二特征信息映射到相同的空间维度，得到相同维度的第一特征信息和第二特征信息；

融合模块，用于将所述相同维度的第一特征信息和第二特征信息进行融合处理，得到目标融合数据；

确定模块，用于根据所述目标融合数据确定用户语义。

第四方面，本公开实施例提供一种模型训练装置，所述模型包括：第一卷积层、第二卷积层和全连接层；所述装置包括：

获取模块，用于获取预设文本对应的样本语音信息和样本视频信息；

切分模块，用于根据所述预设文本中的多个预设标签将所述样本语音信息切分为多段样本语音数据，以及根据所述多个预设标签将所述样本视频信息切分为多段样本视频数据；

所述获取模块还用于：针对同一预设标签对应的样本语音数据和样本视频数据，分别获取所述样本语音数据的第三特征信息和所述样本视频数据的第四特征信息；

训练模块，用于根据所述多个预设标签中的每个预设标签、所述每个预设标签分别对应的第三特征信息和第四特征信息，对第一卷积层、第二卷积层和全连接层进行训练，所述第一卷积层和所述第二卷积层用于将同一预设标签对应的第三特征信息和第四特征信息映射到相同的空间维度，所述全连接层用于对样本融合数据进行分类，所述样本融合数据是将同一预设标签对应的相同维度的第三特征信息和第四特征信息进行融合处理后得到的数据。

第五方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面或第二方面所述的方法。

第六方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面或第二方面所述的方法。

本公开实施例提供的语音识别方法、模型训练方法、装置、设备及介质，通过获取目标语音数据、以及目标语音数据对应的目标视频数据，并分别获取目标语音数据的第一特征信息和目标视频数据的第二特征信息。进一步，将相同维度的第一特征信息和第二特征信息进行融合处理，得到目标融合数据，并根据该目标融合数据确定用户语义。相比于单独采用听觉数据进行语音识别，本实施例通过目标语音数据和目标视频数据相融合的方式进行语音识别，可以提高语音识别的准确率，从而可以提高用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的语音识别方法流程图；

图2为本公开实施例提供的应用场景的示意图；

图3为本公开实施例提供的视听融合处理模块的结构示意图；

图4为本公开实施例提供的听觉通道处理模块对听觉数据的处理过程的示意图；

图5为本公开实施例提供的视觉通道处理模块对视觉数据的处理过程的示意图；

图6为本公开另一实施例提供的语音识别方法流程图；

图7为本公开实施例提供的模型训练方法流程图；

图8为本公开实施例提供的语音识别装置的结构示意图；

图9为本公开实施例提供的模型训练装置的结构示意图；

图10为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

通常情况下，具有语音识别功能的终端设备，例如，智能音箱、智能手机等可以采集用户的语音信息，并针对用户的语音信息进行语音识别，从而获得用户语义。进一步，根据用户语义进行反馈应答。但是，在实际应用中，环境中可能会存在噪声、远场等多种干扰因素，使得语音识别的准确率会受到很大的影响，例如出现误判、错判等情况。从而影响用户体验。针对该问题，本公开实施例提供了一种语音识别方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的语音识别方法流程图。该方法具体步骤如下：

S101、获取目标语音数据、以及所述目标语音数据对应的目标视频数据。

本公开实施例所述的语音识别方法可以适用于如图2所示的应用场景，在该场景中可以包括终端和服务器。该终端具体包括但不限于智能音箱、智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、台式机、笔记本电脑、一体机、智能家居设备等。本实施例以智能音箱21为例。具体的，智能音箱21可包括语音采集模块和视频采集模块。其中，语音采集模块可用于采集语音信息，语音采集模块具体可以是麦克风。视频采集模块可用于采集视频信息，该视频采集模块具体可以是摄像头。该智能音箱21中的处理模块可以根据该语音采集模块采集的语音信息和该视频采集模块采集的视频信息进行语音识别。或者，该智能音箱21可以将该语音采集模块采集的语音信息和该视频采集模块采集的视频信息发送给服务器20，服务器20可以根据该语音采集模块采集的语音信息和该视频采集模块采集的视频信息进行语音识别。下面以智能音箱21中的处理模块进行语音识别为例进行示意性说明。

具体的，该智能音箱21中的处理模块具体可以是如图3所示的视听融合处理模块。如图3所示，该视听融合处理模块包括视觉通道、听觉通道、视觉卷积层、听觉卷积层、全连接层1和全连接层2。具体的，该视听融合处理模块可以实现视觉数据和听觉数据的融合处理，具体的，该融合处理可以称为双模态数据融合。

人类言语交流行为的研发发现，人类大脑对言语的理解不仅仅依赖于声音，还会结合部分视觉信息。此外，有研究表明，视觉信息和听觉信息具有互补性，在某些复杂的环境下，人类会通过视觉观察到的信息来补充听觉信息的缺失，从而实现互补，提高感知能力。因此，本实施例基于双模态实现语音识别，具体可以通过语音采集模块采集语音信息、通过视频采集模块采集视频信息，并通过对语音信息和视频信息进行分析处理，从而正确且快速的分析出用户语音语义。

如图3所示，视觉数据输入到视觉通道处理模块进行数据处理，听觉数据输入到听觉通道处理模块进行数据处理。

在一种可能的实现方式中，视觉数据可以是视觉采集模块采集到的目标视频数据，听觉数据可以是听觉采集模块采集到的目标语音数据。其中，该目标视频数据和该目标语音数据相对应。例如，该目标视频数据和该目标语音数据可以是同一用户在向智能音箱21说同一句话时采集的。

在另一种可能的实现方式中，获取目标语音数据、以及所述目标语音数据对应的目标视频数据，包括：采集用户的目标语音信息和目标视频信息；根据多个预设标签将所述目标语音信息切分为多段目标语音数据、以及根据所述多个预设标签将所述目标视频信息切分为多段目标视频数据；获取同一预设标签对应的目标语音数据和目标视频数据。

例如，如图3所示的视觉数据可以是根据多个预设标签将视觉采集模块采集到的目标语音信息切分为多段目标语音数据后，从该多段目标语音数据中获取的某一段目标语音数据。同理，如图3所示的听觉数据可以是根据多个预设标签将听觉采集模块采集到的目标语音信息切分为多段目标语音数据后，从该多段目标语音数据中获取的某一段目标语音数据。其中，该听觉数据和该视觉数据可以是同一预设标签对应的目标语音数据和目标视频数据。

S102、分别获取所述目标语音数据的第一特征信息和所述目标视频数据的第二特征信息。

如图3所示，视觉通道处理模块对视觉数据进行数据处理后可以得到视觉特征。听觉通道处理模块对听觉数据进行数据处理后可以得到听觉特征。在该听觉数据为目标语音数据、该视觉数据为目标视频数据的情况下，该听觉特征可记为第一特征信息，该视觉特征可记为第二特征信息。其中，视觉通道处理模块和视觉通道处理模块可以相互独立分别处理视觉数据和听觉数据。

可选的，获取所述目标语音数据的第一特征信息，包括：对所述目标语音数据进行预处理，得到预处理后的目标语音数据；对所述预处理后的目标语音数据进行特征提取，得到所述目标语音数据的第一特征信息。

如图4所示为听觉通道处理模块对听觉数据的处理过程。例如，在听觉数据输入到听觉通道处理模块后，听觉通道处理模块可以首先对该听觉数据进行预处理，具体的，该预处理包括采样、预加重、分帧、加窗、端点检测等常规语音处理手段。预处理的目的是为了提取到鲁棒性较好的特征，以便后续的识别任务。针对预处理后的听觉数据，可以进行特征提取，从而得到听觉特征。在该听觉数据为目标语音数据的情况下，该听觉特征可以是该目标语音数据的第一特征信息。具体的，听觉特征可以包括常规的特征，例如，梅尔频率倒谱系数、梅尔标度滤波器组、线性预测系数等。

可选的，获取所述目标视频数据的第二特征信息，包括：提取所述目标视频数据中嘴唇的运动轨迹；根据所述目标视频数据中嘴唇的运动轨迹，确定所述目标视频数据的第二特征信息。

如图5所示为视觉通道处理模块对视觉数据的处理过程。例如，在该视觉数据输入到视觉通道处理模块后，视觉通道处理模块可以按照标签对该视觉数据进行数据切分，例如，切分为多段目标视频数据，从而使得多段目标视频数据和多段目标语音数据一一对应，也就是说，提取每个目标语音数据所对应的目标视频数据，切分时根据预设标签进行切分，未与目标语音数据所对应的目标视频数据可以作为多余的数据而丢弃。进一步，视觉通道处理模块可以提取多段目标视频数据中每一段目标视频数据中嘴唇的运动轨迹，即嘴唇轨迹，之后进行后处理，例如包括归一化、主成分分析等处理技术，从而得到视觉特征。该视觉特征可以记为目标视频数据的第二特征信息。

S103、将所述第一特征信息和所述第二特征信息映射到相同的空间维度，得到相同维度的第一特征信息和第二特征信息。

如图3所示的视觉卷积层和听觉卷积层分别是由多个卷积层组成的子网络，视觉通道处理模块对视觉数据进行处理后得到的视觉特征可以输入到视觉卷积层。听觉通道处理模块对听觉数据进行处理后得到的听觉特征可以输入到听觉卷积层。具体的，视觉卷积层可以对视觉特征进行特征提取，听觉卷积层可以对听觉特征进行特征提取。其中，视觉卷积层和听觉卷积层可以对视觉特征和听觉特征进行独立的特征提取。通过视觉卷积层和听觉卷积层可以将并行不同空间维度的视觉特征和听觉特征映射到相同的空间维度中，以便后续融合且从融合数据中学习到更高层次的特征。也就是说，通过视觉卷积层和听觉卷积层可以将并行不同空间维度的第一特征信息和所述第二特征信息映射到相同的空间维度，从而得到相同维度的第一特征信息和第二特征信息。

可选的，将所述第一特征信息和所述第二特征信息映射到相同的空间维度，得到相同维度的第一特征信息和第二特征信息，包括：将所述第一特征信息输入到第一卷积层，将所述第二特征信息输入到第二卷积层；根据所述第一卷积层和所述第二卷积层得到相同维度的第一特征信息和第二特征信息。

例如，可以将图3所示的听觉卷积层记为第一卷积层，将视觉卷积层记为第二卷积层。将第一特征信息输入到第一卷积层，将第二特征信息输入到第二卷积层，根据该第一卷积层和第二卷积层得到相同维度的第一特征信息和第二特征信息。

S104、将所述相同维度的第一特征信息和第二特征信息进行融合处理，得到目标融合数据。

例如，多段目标视频数据中的第i段目标视频数据通过视觉通道处理模块进行处理后得到

多段目标语音数据中的第i段目标语音数据通过听觉通道处理模块进行处理后得到

经过视觉卷积层处理、以及

经过听觉卷积层处理后可以得到相同维度的第一特征信息和第二特征信息。进一步，对相同维度的第一特征信息和第二特征信息进行融合处理，得到目标融合数据，该目标融合数据可以记为D_i，

D_i表示第i段目标视频数据对应的视觉特征和第i段目标语音数据对应的听觉特征构成的新的数据。

S105、根据所述目标融合数据确定用户语义。

可选的，根据所述目标融合数据确定用户语义，包括：将所述目标融合数据作为全连接层的输入，通过所述全连接层对所述目标融合数据进行分类，得到所述用户语义。

例如，D_i可以作为如图3所示的全连接层1的输入，全连接层1可以进一步对D_i进行分类。进一步，全连接层1的输出可以作为全连接层2的输入，全连接层2可以输出语音识别的结果即用户语义。具体的，全连接层1和全连接层2涉及到的后期的数据更新和反向传播算法可以采用常规方法。具体的，全连接层1和全连接层2可以分别采用2048个节点。

本公开实施例通过获取目标语音数据、以及目标语音数据对应的目标视频数据，并分别获取目标语音数据的第一特征信息和目标视频数据的第二特征信息。进一步，将相同维度的第一特征信息和第二特征信息进行融合处理，得到目标融合数据，并根据该目标融合数据确定用户语义。相比于单独采用听觉数据进行语音识别，本实施例通过目标语音数据和目标视频数据相融合的方式进行语音识别，可以提高语音识别的准确率，从而可以提高用户体验。

另外，由于本实施例在数据融合处理之前，分开单独处理目标语音数据和目标视频数据，因此，融合处理后得到的目标融合数据通过两层全连接层即可实现语音识别，从而提高了语音识别的效率。例如，如果不将目标语音数据和目标视频数据分开单独处理，则需要花费较大功率来处理该目标语音数据和目标视频数据，导致网络层数较多，例如，一般为4层以上。但是，本实施例通过将目标语音数据和目标视频数据分开单独处理，使得融合处理后得到的目标融合数据通过两层全连接层即可实现语音识别，从而使得语音识别所需的功耗较低，提高了语音识别的效率。也就是说，通过本实施例所述的语音识别方法不仅可以提高语音识别的准确率，同时还可以提高语音识别的效率，从而可以平衡识别准确率和处理实时性的要求。

通常情况下，语音识别是基于时频分析后得到的语音时频谱完成的，其中，语音时频谱具有结构特点。因此，若提高语音识别率，需要克服语音信号所面临的各种多样性，包括说话人的多样性(说话人自身、以及说话人之间)、环境的多样性等。由于卷积神经网络提供在时间和空间上的平移不变性卷积，因此，将卷积神经网络的思想应用在语音识别的声学建模中，可以利用卷积的不变性来克服语音信号本身的多样性。从这个角度来看，可以将整个语音信号分析得到的语音时频谱作为一张图像来处理，采用图像中广泛应用的深层卷积网络对该语音时频谱进行语音识别。因此，如图3所示的视觉卷积层、听觉卷积层可以是卷积神经网络(Convolutional Neural Network，CNN)或深层卷积网络。此外，从实用性角度考虑，CNN比较容易实现大规模并行化计算。虽然在CNN卷积运算中涉及到很多小矩阵操作，运算较慢。但是，CNN的加速运算相对比较成熟，例如，可以将多个小矩阵转换为一个大矩阵的乘积。一些通用框架如张量流(Tensorflow)、卷积神经网络框架(ConvolutionalArchitecture For Fast Feature Embedding，CAFFE)等也提供了CNN的并行化加速，从而为CNN应用于语音识别奠定了基础。具体的，视觉卷积层可以输出高维度的视觉特征，听觉卷积层可以输出高维度的听觉特征。高维度的视觉特征和高维度的听觉特征可用于进行分类，从而实现语音识别。也就是说，相比于传统的时频域处理语音信号，卷积神经网络可以提取高维度特征，具有广泛性。

图6为本公开实施例提供的语音识别方法流程图。在上述实施例的基础上，获取目标语音数据、以及所述目标语音数据对应的目标视频数据之前，该方法还包括如下几个步骤：

S601、获取预设文本对应的样本语音信息和样本视频信息。

例如图3所示的视听融合处理模块可以通过训练过程后才可以进行语音识别。训练过程中，用户可以对着智能音箱读一段文字，该一段文字可以记为预设文本。在用户读这一段文字的过程中，智能音箱中的视频采集模块可以采集用户的视频信息得到样本视频信息，智能音箱中的语音采集模块可以采集用户的语音信息得到样本语音信息。

S602、根据所述预设文本中的多个预设标签将所述样本语音信息切分为多段样本语音数据，以及根据所述多个预设标签将所述样本视频信息切分为多段样本视频数据。

具体的，可以根据这一段文字中的每个字将该样本语音信息切分为多段样本语音数据，每个样本语音数据可以是一个字的读音。同时，还可以根据这一段文字中的每个字将该样本视频信息切分为多段样本视频数据，每个样本视频数据可以是用户读一个字时的视频数据。也就是说，一个字可以对应一个样本语音数据和一个样本视频数据。

S603、针对同一预设标签对应的样本语音数据和样本视频数据，分别获取所述样本语音数据的第三特征信息和所述样本视频数据的第四特征信息。

例如，同一个字的样本语音数据可以输入到听觉通道处理模块进行处理得到该样本语音数据的特征信息，该特征信息可以记为第三特征信息。该同一个字的样本视频数据可以输入到视觉通道处理模块进行处理得到该样本视频数据的特征信息，该特征信息可以记为第四特征信息。

S604、根据所述多个预设标签中的每个预设标签、所述每个预设标签分别对应的第三特征信息和第四特征信息，对第一卷积层、第二卷积层和全连接层进行训练，所述第一卷积层和所述第二卷积层用于将同一预设标签对应的第三特征信息和第四特征信息映射到相同的空间维度，所述全连接层用于对样本融合数据进行分类，所述样本融合数据是将同一预设标签对应的相同维度的第三特征信息和第四特征信息进行融合处理后得到的数据。

例如，可以将第三特征信息输入到听觉卷积层，将第四特征信息输入到视觉卷积层，听觉卷积层和视觉卷积层用于将同一个字对应的第三特征信息和第四特征信息映射到相同的空间维度，得到相同维度的第三特征信息和第四特征信息。其中，同一个字对应的第三特征信息和第四特征信息可以并行输入到听觉卷积层和视觉卷积层。进一步，可以对相同维度的第三特征信息和第四特征信息进行融合处理得到样本融合数据，样本融合数据可以作为全连接层1的输入，全连接层1用于对该样本融合数据进行分类。从而可以通过该段文字中的每个文字、每个文字分别对应的第三特征信息和第四特征信息，对听觉卷积层、视觉卷积层、全连接层1、全连接层2进行训练，得到听觉卷积层、视觉卷积层、全连接层1、全连接层2分别对应的训练参数。

具体的，听觉卷积层或视觉卷积层可以作为子网络层，子网络层和全连接层的参数配置可以参照如下表1所示：

表1

其中，n表示节点数目。f/s中的f表示卷积核尺寸，6即6*6，s表示步数。p/s中的p表示池化核尺寸，3即3*3，s表示步数，此处用最大池化。激活函数用sigmoid函数。

例如，在如图3所示的视听融合处理模块被训练好之后，在使用阶段中，用户可以对着智能音箱说话，智能音箱可以采集用户的语音信息和视频信息。进一步，智能音箱对该语音信息和视频信息进行处理，例如，通过如图3所示的训练好之后的视听融合处理模块来实现对该语音信息和视频信息的处理和分析，从而得到用户语义。进一步，智能音箱可以根据该用户语义向用户反馈应答语句。

可以理解的是，S601-S604可以是对视听融合处理模块的训练过程。S101-S105可以是在对视听融合处理模块训练完成后，利用训练完成的视听融合处理模块进行语音识别的过程。视听融合处理模块的训练过程和利用训练完成的视听融合处理模块进行语音识别的过程可以由同一个设备来执行，也可以分别由不同的设备来执行。本实施例可以适用于视听融合处理模块的训练过程和利用训练完成的视听融合处理模块进行语音识别的过程由同一个设备来执行的场景。

本公开实施例通过获取目标语音数据、以及目标语音数据对应的目标视频数据，并分别获取目标语音数据的第一特征信息和目标视频数据的第二特征信息。进一步，将相同维度的第一特征信息和第二特征信息进行融合处理，得到目标融合数据，并根据该目标融合数据确定用户语义。相比于单独采用听觉数据进行语音识别，本实施例通过目标语音数据和目标视频数据相融合的方式进行语音识别，可以提高语音识别的准确率，从而可以提高用户体验。另外，由于本实施例在数据融合处理之前，分开单独处理目标语音数据和目标视频数据，因此，融合处理后得到的目标融合数据通过两层全连接层即可实现语音识别，从而提高了语音识别的效率。

图7为本公开实施例提供的模型训练方法流程图。本实施例可以适用于视听融合处理模块的训练过程和利用训练完成的视听融合处理模块进行语音识别的过程由同不同设备来执行的场景。所述模型包括：第一卷积层、第二卷积层和全连接层；该方法具体包括：

S701、获取预设文本对应的样本语音信息和样本视频信息。

S702、根据所述预设文本中的多个预设标签将所述样本语音信息切分为多段样本语音数据，以及根据所述多个预设标签将所述样本视频信息切分为多段样本视频数据。

S703、针对同一预设标签对应的样本语音数据和样本视频数据，分别获取所述样本语音数据的第三特征信息和所述样本视频数据的第四特征信息。

S704、根据所述多个预设标签中的每个预设标签、所述每个预设标签分别对应的第三特征信息和第四特征信息，对第一卷积层、第二卷积层和全连接层进行训练，所述第一卷积层和所述第二卷积层用于将同一预设标签对应的第三特征信息和第四特征信息映射到相同的空间维度，所述全连接层用于对样本融合数据进行分类，所述样本融合数据是将同一预设标签对应的相同维度的第三特征信息和第四特征信息进行融合处理后得到的数据。

具体的，S701-S704的实现过程和具体原理可以参照S601-S604，此处不再赘述。

图8为本公开实施例提供的语音识别装置的结构示意图。该装置可以是上述实施例所述的终端或服务器，或者可以是上述实施例所述的终端或服务器中的部件。本公开实施例提供的语音识别装置可以执行语音识别方法实施例提供的处理流程，如图8所示，语音识别装置80包括：

获取模块81，用于获取目标语音数据、以及所述目标语音数据对应的目标视频数据；分别获取所述目标语音数据的第一特征信息和所述目标视频数据的第二特征信息；

映射模块82，用于将所述第一特征信息和所述第二特征信息映射到相同的空间维度，得到相同维度的第一特征信息和第二特征信息；

融合模块83，用于将所述相同维度的第一特征信息和第二特征信息进行融合处理，得到目标融合数据；

确定模块84，用于根据所述目标融合数据确定用户语义。

可选的，获取模块81具体用于：

采集用户的目标语音信息和目标视频信息；

根据多个预设标签将所述目标语音信息切分为多段目标语音数据、以及根据所述多个预设标签将所述目标视频信息切分为多段目标视频数据；

获取同一预设标签对应的目标语音数据和目标视频数据。

可选的，所述获取模块81具体用于：

对所述目标语音数据进行预处理，得到预处理后的目标语音数据；

对所述预处理后的目标语音数据进行特征提取，得到所述目标语音数据的第一特征信息。

可选的，所述获取模块81具体用于：

提取所述目标视频数据中嘴唇的运动轨迹；

根据所述目标视频数据中嘴唇的运动轨迹，确定所述目标视频数据的第二特征信息。

可选的，映射模块82具体用于：

将所述第一特征信息输入到第一卷积层，将所述第二特征信息输入到第二卷积层；

根据所述第一卷积层和所述第二卷积层得到相同维度的第一特征信息和第二特征信息。

可选的，确定模块84具体用于：

将所述目标融合数据作为全连接层的输入，通过所述全连接层对所述目标融合数据进行分类，得到所述用户语义。

可选的，获取模块81还用于：获取预设文本对应的样本语音信息和样本视频信息；

所述装置80还包括：切分模块85和训练模块86；

切分模块85具体用于：根据所述预设文本中的多个预设标签将所述样本语音信息切分为多段样本语音数据，以及根据所述多个预设标签将所述样本视频信息切分为多段样本视频数据；

获取模块81还用于：针对同一预设标签对应的样本语音数据和样本视频数据，分别获取所述样本语音数据的第三特征信息和所述样本视频数据的第四特征信息；

训练模块86具体用于：根据所述多个预设标签中的每个预设标签、所述每个预设标签分别对应的第三特征信息和第四特征信息，对第一卷积层、第二卷积层和全连接层进行训练，所述第一卷积层和所述第二卷积层用于将同一预设标签对应的第三特征信息和第四特征信息映射到相同的空间维度，所述全连接层用于对样本融合数据进行分类，所述样本融合数据是将同一预设标签对应的相同维度的第三特征信息和第四特征信息进行融合处理后得到的数据。

图8所示实施例的语音识别装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图9为本公开实施例提供的模型训练装置的结构示意图。该装置可以是上述实施例所述的终端或服务器，或者可以是上述实施例所述的终端或服务器中的部件。本公开实施例提供的模型训练装置可以执行模型训练方法实施例提供的处理流程，所述模型包括：第一卷积层、第二卷积层和全连接层；如图9所示，模型训练装置90包括：

获取模块91，用于获取预设文本对应的样本语音信息和样本视频信息；

切分模块92，用于根据所述预设文本中的多个预设标签将所述样本语音信息切分为多段样本语音数据，以及根据所述多个预设标签将所述样本视频信息切分为多段样本视频数据；

所述获取模块91还用于：针对同一预设标签对应的样本语音数据和样本视频数据，分别获取所述样本语音数据的第三特征信息和所述样本视频数据的第四特征信息；

训练模块93，用于根据所述多个预设标签中的每个预设标签、所述每个预设标签分别对应的第三特征信息和第四特征信息，对第一卷积层、第二卷积层和全连接层进行训练，所述第一卷积层和所述第二卷积层用于将同一预设标签对应的第三特征信息和第四特征信息映射到相同的空间维度，所述全连接层用于对样本融合数据进行分类，所述样本融合数据是将同一预设标签对应的相同维度的第三特征信息和第四特征信息进行融合处理后得到的数据。

图9所示实施例的模型训练装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图10为本公开实施例提供的电子设备的结构示意图。该电子设备可以是上述实施例所述的终端或服务器。本公开实施例提供的电子设备可以执行语音识别方法或模型训练方法实施例提供的处理流程，如图10所示，电子设备100包括：存储器101、处理器102、计算机程序和通讯接口103；其中，计算机程序存储在存储器101中，并被配置为由处理器102执行如上所述的语音识别方法或模型训练方法。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的语音识别方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

根据所述目标融合数据确定用户语义。

2.根据权利要求1所述的方法，其特征在于，获取目标语音数据、以及所述目标语音数据对应的目标视频数据，包括：

采集用户的目标语音信息和目标视频信息；

获取同一预设标签对应的目标语音数据和目标视频数据。

3.根据权利要求1或2所述的方法，其特征在于，获取所述目标语音数据的第一特征信息，包括：

4.根据权利要求1或2所述的方法，其特征在于，获取所述目标视频数据的第二特征信息，包括：

提取所述目标视频数据中嘴唇的运动轨迹；

5.根据权利要求1所述的方法，其特征在于，将所述第一特征信息和所述第二特征信息映射到相同的空间维度，得到相同维度的第一特征信息和第二特征信息，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述目标融合数据确定用户语义，包括：

7.根据权利要求5或6所述的方法，其特征在于，获取目标语音数据、以及所述目标语音数据对应的目标视频数据之前，所述方法还包括：

获取预设文本对应的样本语音信息和样本视频信息；

8.一种模型训练方法，其特征在于，所述模型包括：第一卷积层、第二卷积层和全连接层；所述方法包括：

获取预设文本对应的样本语音信息和样本视频信息；

9.一种语音识别装置，其特征在于，包括：

确定模块，用于根据所述目标融合数据确定用户语义。

10.根据权利要求9所述的装置，其特征在于，所述获取模块具体用于：

采集用户的目标语音信息和目标视频信息；

获取同一预设标签对应的目标语音数据和目标视频数据。

11.根据权利要求9或10所述的装置，其特征在于，所述获取模块具体用于：

12.根据权利要求9或10所述的装置，其特征在于，所述获取模块具体用于：

提取所述目标视频数据中嘴唇的运动轨迹；

13.根据权利要求9所述的装置，其特征在于，所述映射模块具体用于：

14.根据权利要求9所述的装置，其特征在于，所述确定模块具体用于：

15.根据权利要求13或14所述的装置，其特征在于，所述获取模块还用于：获取预设文本对应的样本语音信息和样本视频信息；

所述装置还包括：切分模块和训练模块；

所述切分模块具体用于：根据所述预设文本中的多个预设标签将所述样本语音信息切分为多段样本语音数据，以及根据所述多个预设标签将所述样本视频信息切分为多段样本视频数据；

所述训练模块具体用于：根据所述多个预设标签中的每个预设标签、所述每个预设标签分别对应的第三特征信息和第四特征信息，对第一卷积层、第二卷积层和全连接层进行训练，所述第一卷积层和所述第二卷积层用于将同一预设标签对应的第三特征信息和第四特征信息映射到相同的空间维度，所述全连接层用于对样本融合数据进行分类，所述样本融合数据是将同一预设标签对应的相同维度的第三特征信息和第四特征信息进行融合处理后得到的数据。

16.一种模型训练装置，其特征在于，所述模型包括：第一卷积层、第二卷积层和全连接层；所述装置包括：

17.一种电子设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。