CN111462732A

CN111462732A - 语音识别方法和装置

Info

Publication number: CN111462732A
Application number: CN201910054959.6A
Authority: CN
Inventors: 张仕良; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2020-07-28
Anticipated expiration: 2039-01-21
Also published as: CN111462732B

Abstract

本申请公开了语音识别方法和装置。其中，语音识别方法包括：通过获取待识别的语音数据、及与语音数据对应的图像数据；通过声学特征提取子网络，提取语音数据的声学特征；以及，通过视觉特征提取子网络，从图像数据中提取与语音数据对应的视觉特征；通过声学得分预测子网络，至少根据声学特征和视觉特征，获取语音数据的声学得分；根据声学得分，确定与语音数据对应的文本序列。采用这种处理方式，使得既区分音频和视频在语音识别中的权重，又融合两种模态特征进行声学建模；因此，可以有效提升声学建模的性能及鲁棒性，从而提升语音识别性能及鲁棒性。

Description

语音识别方法和装置

技术领域

本申请涉及语音识别技术领域，具体涉及语音识别系统、方法和装置，声学模型构建方法和装置，以及电子设备。

背景技术

随着人工智能时代的到来，一个显著的变化是越来越多的智能物联网(IoT)设备出现在日常生活中，如智能电视、地铁语音购票机、点餐机等等。智能IoT设备的出现极大地方便人们的日常生活，同时也提出一个问题：如何更加便捷地和这些设备进行交互。语音交互是人和人之间最便捷的交互方式，所以关于如何和IoT设备进行交互，首选也是语音交互。

对于一个智能的语音交互系统，可以通过语音识别，语义理解，语音合成等模块来完成用语音指令来控制智能设备，从而可以替代传统的手动操作。在这个链路中，语音识别是核心技术模块之一，其功能是将人的语音转化成设备可以识别的文本。关于语音识别的研究由来已久，但是直到2009年深度神经网络在语音识别中的应用，才使得语音识别系统的性能获得极大提升，开始慢慢走向实用化。

目前的IoT设备，例如地铁语音购票机、点餐机等，都是服务于公共场所，所以面临着强噪声干扰。目前主流的语音识别系统都是从音频信号出发，提取声学特征，然后进行声学建模。但是在噪声环境下，音频容易受噪声的干扰。现有的方法是从麦克风阵列信号处理的角度去处理这个问题，但是效果依旧不能完全让人满意。人类的语音不仅和音频相关，也和视觉信号相关。发不同的音会对应不同的口型，而且视觉信号不受噪声的干扰。所以联合音频和视频的语音识别(audio-visual speech recognition，AVSR)是一个潜在的解决方案。

关于联合音频和视频的语音识别的研究由来已久，该技术的研究主要集中在如何融合音频和视频信号，主要存在的方式有：1)特征融合：将音频特征和视频特征直接进行拼接，或者先进行一些变换以后再进行拼接；2)模型融合：分别训练基于音频的语音识别模型和基于视频的语音识别模型，然后解码的时候将两种进行融合。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：1)采用特征融合相比模型融合可以利用音频信号和视频信号之间的关联性，但是没法区分音频和视频在系统中的权重，并且，采用特征融合的识别系统在使用过程中如果出现视频模态丢失性能会出现很大的损失；2)基于模型融合的系统可以根据模型的性能分配音频和视频的权重，但是没法有效利用音频和视频之间的关联性；3)由于音频和视频都是一个长时相关联的信号，如何有效利用这种长时关联性对于系统性能至关重要，但是，目前的联合音频和视频的语音识别系统采用的都是简单的没有长时相关建模能力的深度神经网络。

目前在一些噪声干扰不是很强的环境下，语音识别系统的性能已经达到了实用化的要求，甚至于在某些场合可能超过人类的平均水平。但是在强噪声环境下的语音识别，目前系统的识别性能和鲁棒性还远远低于人类的水平，具有很大的提升空间。

发明内容

本申请提供语音识别方法，以解决现有技术存在的强噪声环境下的语音识别性能和鲁棒性较低的问题。本申请另外提供语音识别系统和装置，声学模型构建方法和装置，以及电子设备。

本申请提供一种语音识别方法，包括：

获取待识别的语音数据、及与所述语音数据对应的图像数据；

通过声学模型包括的声学特征提取子网络，提取所述语音数据的声学特征；以及，通过所述声学模型包括的视觉特征提取子网络，从所述图像数据中提取与所述语音数据对应的视觉特征；

通过所述声学模型包括的声学得分预测子网络，至少根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；

根据所述声学得分，确定与所述语音数据对应的文本序列。

可选的，所述声学模型包括如下网络结构的模块之一：深层前馈序列记忆神经网络结构DFSMN、深度卷积神经网络DCNN，双向长短时记忆网络BLSTM。

可选的，所述根据所述声学得分，并确定与所述语音数据对应的文本序列，包括：

通过语言模型获取所述语音数据的语言得分；

根据所述声学得分和所述语言得分，确定所述文本序列。

可选的，还包括：

获取所述语音数据的第一声学特征；

所述通过声学模型包括的声学特征提取子网络，并提取所述语音数据的声学特征，包括：

将所述第一声学特征作为所述声学特征提取子网络的输入数据，通过所述声学特征提取子网络，从所述第一声学特征中提取所述声学特征。

可选的，还包括：

获取所述图像数据的图像特征；

通过所述图像声学特征提取子网络，从所述图像特征中提取所述视觉特征。

可选的，还包括：

获取包括文本序列标注信息的训练数据集；所述训练数据包括训练用语音数据、与所述训练用语音数据对应的训练用图像数据、及文本序列；

构建神经网络；所述神经网络包括所述声学特征提取子网络、训练用图像声学特征提取子网络和声学得分预测子网络；

根据所述训练数据集训练所述神经网络。

可选的，所述训练用图像声学特征提取子网络包括视频模态丢失层和第一图像声学特征提取子网络；

所述视觉特征采用如下步骤提取：

通过所述视频模态丢失层，判断是否丢失所述图像数据；

若是，则清除所述图像数据；

若否，则通过所述第一图像声学特征提取子网络，从所述图像数据中提取视觉特征。

本申请还提供一种语音识别装置，包括：

数据获取单元，用于获取待识别的语音数据、及与所述语音数据对应的图像数据；

特征提取单元，用于通过声学模型包括的声学特征提取子网络，提取所述语音数据的声学特征；以及，通过所述声学模型包括的视觉特征提取子网络，从所述图像数据中提取与所述语音数据对应的视觉特征；

声学得分预测单元，用于通过所述声学模型包括的声学得分预测子网络，至少根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；

文本序列确定单元，用于根据所述声学得分，确定与所述语音数据对应的文本序列。

可选的，所述文本序列确定单元包括：

语言得分获取子单元，用于通过语言模型获取所述语音数据的语言得分；

文本序列确定子单元，用于根据所述声学得分和所述语言得分，确定所述文本序列。

可选的，还包括：

第一特征提取单元，用于获取所述语音数据的第一声学特征；

所述特征提取单元，具体用于将所述第一声学特征作为所述声学特征提取子网络的输入数据，通过所述声学特征提取子网络，从所述第一声学特征中提取所述声学特征。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的语音识别方法，通过获取待识别的语音数据、及与所述语音数据对应的图像数据；通过声学模型包括的声学特征提取子网络，提取所述语音数据的声学特征；以及，通过所述声学模型包括的视觉特征提取子网络，从所述图像数据中提取与所述语音数据对应的视觉特征；通过所述声学模型包括的声学得分预测子网络，至少根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；根据所述声学得分，确定与所述语音数据对应的文本序列；这种处理方式，使得通过声学特征提取子网络和视觉特征提取子网络分别实现对于声学特征和视觉特征的深层建模，提取深层的特征表达，区分音频和视频在语音识别中的权重，然后通过声学得分预测子网络来融合两种模态特征，对融合的特征进行声学建模，由此实现联合优化音视频特征融合和声学建模；因此，可以有效提升声学建模的性能及鲁棒性，从而提升语音识别性能及鲁棒性。

本申请实施例提供的声学模型构建方法，通过获取包括文本序列标注信息的训练数据集；所述训练数据包括语音数据、与所述语音数据对应的训练用图像数据、及文本序列；构建神经网络；其中，所述神经网络包括声学特征提取子网络、图像声学特征提取子网络和声学得分预测子网络；所述声学特征提取子网络，用于从所述语音数据中提取声学特征；所述图像声学特征提取子网络，用于从所述图像数据中提取视觉特征；所述声学得分预测子网络，用于根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；将所述语音数据作为所述声学特征提取子网络的输入数据，将所述图像数据作为所述图像声学特征提取子网络的输入数据，将所述文本序列作为所述声学得分预测子网络的输出数据，根据所述训练数据集对所述神经网络进行训练，得到声学模型；这种处理方式，使得通过声学特征提取子网络和视觉特征提取子网络分别实现对于声学特征和视觉特征的深层建模，提取深层的特征表达，区分音频和视频在语音识别中的权重，然后通过声学得分预测子网络来融合两种模态特征，对融合的特征进行声学建模，由此实现联合优化音视频特征融合和声学建模；因此，可以有效提升声学模型的准确度。

附图说明

图1是本申请提供的一种语音识别方法的实施例的流程图；

图2是本申请提供的一种语音识别方法的实施例的解码阶段的声学模型示意图；

图3是本申请提供的一种语音识别方法的实施例的具体流程图；

图4是本申请提供的一种语音识别方法的实施例的训练阶段的声学模型示意图；

图5是本申请提供的一种语音识别装置的实施例的示意图；

图6是本申请提供的一种语音识别装置的实施例的具体示意图；

图7是本申请提供的电子设备的实施例的示意图；

图8是本申请提供的一种声学模型构建方法的实施例的流程图；

图9是本申请提供的一种声学模型构建装置的实施例的示意图；

图10是本申请提供的电子设备的实施例的示意图；

图11是本申请提供的语音识别系统的实施例的示意图；

图12是本申请提供的语音识别系统的实施例的具体示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了语音识别系统、方法和装置，声学模型构建方法和装置，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

本申请提供的技术方案，其核心的技术思想为：获取待识别的语音数据、及与所述语音数据对应的图像数据；通过声学模型包括的声学特征提取子网络，提取所述语音数据的声学特征；以及，通过所述声学模型包括的视觉特征提取子网络，从所述图像数据中提取与所述语音数据对应的视觉特征；通过所述声学模型包括的声学得分预测子网络，至少根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；根据所述声学得分，确定与所述语音数据对应的文本序列。由于通过声学特征提取子网络和视觉特征提取子网络分别实现对于声学特征和视觉特征的深层建模，提取深层的特征表达，区分音频和视频在识别中的权重，然后通过声学得分预测子网络来融合两种模态特征，对融合的特征进行声学建模，由此实现联合优化音视频特征融合和声学建模，因此可以有效提升声学建模的性能及鲁棒性，从而提升语音识别性能及鲁棒性。

第一实施例

请参考图1，其为本申请提供的一种语音识别方法实施例的流程图，该方法的执行主体包括语音识别装置。本申请提供的一种语音识别方法包括：

步骤S101：获取待识别的语音数据、及与所述语音数据对应的图像数据。

下面首先对待识别的语音数据及其获取方式进行说明。

所述语音数据是语音信号按时间排序的采样值序列，这些采样值的大小表示了语音信号在采样点处的能量，静音部分能量值较小，有效语音部分的能量值较大。而语音信号是一个以时间为自变量的一维连续函数。语音信号中静音部分声波的振幅很小，而有效语音部分的振幅比较大，一个信号的振幅从直观上表示了信号能量的大小。

所述语音信号可通过语音采集装置采集得到。所述语音采集装置，可以是传声器或传声器阵列。传声器是一种声音传感器，是将声音信号转换为电信号的能量转换器件，也称麦克风、话筒、微音器。传声器，可以是由声音的振动传到麦克风的振膜上，推动里边的磁铁形成变化的电流，这样变化的电流送到后面的声音处理电路进行放大处理。例如，通过地铁语音购票机包括的传声器阵列采集嘈杂背景下的语音信号。

在通过语音采集装置采集得到语音信号后，可对采集到的语音信号进行空时采样处理，采样后的语音数据可作为待识别的语音数据。所述语音数据的形成过程如下所述。首先，可通过传声器阵列采集阵列接收范围内的语音信号，并将语音信号转换为模拟电信号；然后通过前端放大单元将模拟电信号放大；接着可将模拟电信号用多通道同步采样单元进行采样，转换为数字电信号，形成语音数据。

所述待识别的语音数据，可能只包括有效语音，还可能同时包括有效语音和无效语音。为了获得较高的语音识别准确率，可对待识别的语音数据进行端点检测(VoiceActivity Detection,VAD)处理。

音频端点检测就是从连续的语音流中检测出有效的语音段。它包括两个方面，检测出有效语音的起始点即前端点，检测出有效语音的结束点即后端点。在语音应用中进行语音的端点检测至少具有以下优点：1)在存储或传输语音的场景下，从连续的语音流中分离出有效语音，可以降低存储或传输的数据量；2)在有些应用场景中，使用端点检测可以简化人机交互，比如在录音的场景中，语音后端点检测可以省略结束录音的操作。

所述待识别的语音数据，可能只包括话音信号，还可能同时包括话音信号和噪音信号。为了获得较高的语音识别准确率，还可对待识别的语音数据进行降噪处理。例如，使用波束形成技术(如MVDR等等算法)在嘈杂背景下分离出话音信号，并将其增强，获得增强后的话音信号。

具体实施时，还可对待识别的语音数据进行声学特征提取等等处理，获取所述第一声学特征，例如，使用MFCC特征提取算法从语音数据中提取出频谱特征，提取出的声学特征(如FBK特征、基频特征、共振峰特征、频谱特征等等)将作为声学模型包括的声学特征提取子网络的输入数据；这种处理方式，使得可降低声学特征提取子网络的输入层的特征维度，进而降低声学特征提取子网络的复杂度；因此，可以有效提升识别效率。

以上对待识别的语音数据及其获取方式进行了说明，下面再对与待识别的语音数据对应的图像数据及其获取方式进行说明。

所述图像数据包括当不限于说话者的口部图像数据。由于人类的语音不仅和音频相关，也和视觉信号相关，发不同的音会对应不同的口型，而且视觉信号不受噪声的干扰，因此可联合音频和视频进行语音识别。

所述图像数据可通过图像采集装置采集得到。所述图像采集装置，可以是摄像头、照相机等等。所述图像采集装置采集到的原始图像可能包括环境图像和人脸图像。为了获得较高的语音识别准确率及识别效率，可首先利用人脸检测技术(如SSD、MTCNN等等算法)检测出人脸，然后再通过人脸特征点定位算法(如ASM、AAM、SDM、ESR等等算法)确定人脸内部特征点(如眼睛、鼻尖、嘴角点以及眉毛等等)，继而就可以从原始图像中截取出所述口部图像。

在本实施例中，对收集到的语音数据进行端点检测，得到有效的语音；然后进行分帧(如帧长为25毫秒，帧移为10毫秒等等)，从每帧语音数据中提取声学特征(如40维的FBK特征)。假设1秒语音对应100帧语音数据，1秒视频对应30帧图像数据，两者帧率不一致，可对语音帧进行降采样的方式每3帧合并为1帧，然后对图像数据进行填充，保证两者帧率一致，由此可实现获取与所述语音数据对应的图像数据。

具体实施时，还可对所述图像数据进行图像特征提取的处理，例如，使用2维DCT变换技术对所述图像数据进行简单变换，经过DCT变换后的数据能量非常集中；这种处理方式，使得可降低视觉特征提取子网络的输入层的特征维度，进而降低视觉特征提取子网络的复杂度；因此，可以有效提升识别效率。

以上对与待识别的语音数据对应的图像数据及其获取方式进行了说明。

在获取到待识别的语音数据及与其对应的图像数据之后，就可以进入步骤S103通过声学模型从两种数据中分别提取深层表达的语音特征。

步骤S103：通过声学模型包括的声学特征提取子网络，提取所述语音数据的声学特征；以及，通过所述声学模型包括的视觉特征提取子网络，从所述图像数据中提取与所述语音数据对应的视觉特征。

所述声学模型，包括声学特征提取子网络、视觉特征提取子网络及声学得分预测子网络。其中，声学特征提取子网络用于提取所述语音数据的声学特征；视觉特征提取子网络用于从所述图像数据中提取与所述语音数据对应的视觉特征；声学得分预测子网络，用于根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分。

所述声学特征提取子网络的输入数据，可以是从每帧语音数据中提取的声学特征(如基频特征、共振峰特征、频谱特征等等)，每帧语音数据的时长通常为10毫秒，对于每个输入的语音帧会有相对应的一个输出目标。通过声学特征提取子网络，对该声学特征进行非线性变换后得到深层表达的语音特征，该语音特征的维度通常低于声学特征提取子网络输入层的声学特征维度。

所述声学特征提取子网络，可采用多种深度神经网络结构，包括但不限于以下网络结构的至少一个：深层前馈序列记忆神经网络结构(Deep Feed-forward SequentialMemory Network，DFSMN)，深度卷积神经网络(Deep Convolutional Neural Network,DCNN)，双向长短时记忆网络(bidirectional long short-term memory,BLSTM)等等。

基于DFSMN网络结构的声学模型在大词汇量的英文识别和中文识别任务上都可以取得相比于基于DCNN或BLSTM等网络结构的声学模型显著的性能提升。而且基于DFSMN网络结构的声学模型在训练速度，模型参数量，解码速度，而且模型的延时上相比于基于DCNN或BLSTM等网络结构都具有明显的优势。

所述视觉特征提取子网络的输入数据，可以是所述图像数据本身，也可以是经过2维DCT变换或其它方式抽取得到的图像特征，视觉特征提取子网络对该输入层数据进行非线性变换后得到深层表达的视觉特征，该视觉特征的维度通常低于视觉特征提取子网络输入层的数据维度。

请参考图2，其为本申请提供的一种语音识别方法实施例的声学模型的示意图。在本实施例中，声学特征提取子网络和视觉特征提取子网络的网络结构相似，声学特征提取子网络的输入层数据为40维的声学特征，视觉特征提取子网络的输入层数据为40维的图像特征，这两个子网络均包括一个ReLU层，一个线性层，4个DFSMN模块。具体实施时，层数的选择及网络结构可以更加多变。

在声学特征提取子网络和视觉特征提取子网络中，一个很重要的层是DFSMN模块的使用。图2示出了本实施例中DFSMN模块的详细结构，包含一个ReLU层，一个线性层，一个记忆模块。这些模型的操作可采用如下公式：

其中

和

分别代表ReLU层和线性投影层的输出，

代表记忆模块的输出。如图2所示，ReLU层采用的节点数目为2048，线性投影层和记忆模块的节点数目为512，具体实施时，可以根据需要调节节点数目。

在通过声学模型的声学特征提取子网络和视觉特征提取子网络分别从语音数据和图像数据中分别提取出深层表达的特征之后，就可以进入步骤S105通过声学模型声学得分预测子网络，融合两种特征进行所述语音数据的声学得分的预测。

步骤S105：通过所述声学模型包括的声学得分预测子网络，至少根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分。

声学模型用于预测给定的声学特征属于各个声学建模单元的概率。声学得分预测子网络的输入数据，包括通过声学特征提取子网络和视觉特征提取子网络提取得到的声学特征和视觉特征，声学得分预测子网络将融合两种模态特征进行进一步的声学建模，预测给定的声学特征属于各个声学建模单元的概率，即声学得分。

所述声学得分预测子网络的输出层大小可以是声学建模单元的数目，例如，可以采用绑定的音素状态(CD-State)和绑定的音素(CD-Phone)作为输出层建模单元。在本实施例中，声学建模单元为字符，声学建模单元可以是数千个汉字，那么，一句话的声学得分可以用相对应的声学建模单元乘积得到。

步骤S107：根据所述声学得分，确定与所述待识别语音对应的文本序列。

在获得每帧输入声学模型的语音数据对应的声学得分之后，获得的声学得分可以结合语言模型得分，通过搜索的方式得到一个最优路径，这个最优路径相对应的输出就是最终得到的输出文本序列。

声学模型主要是用于预测给定的声学特征属于各个声学建模单元的概率。语言模型则表示一个文本序列出现的先验概率。所述语音识别装置(解码器)可通过联合声学模型的得分和语言模型的得分，然后采用最优路径搜索的方式得到解码序列，也就是最终的识别结果。其中声学模型是语音识别系统的核心组件，很大程度上决定了语音识别系统的性能。

在一个示例中，步骤S107可包括如下子步骤：1)通过语言模型获取所述语音数据的语言得分；2)根据所述声学得分和所述语言得分，确定所述文本序列。由于在语音识别系统中应用的语言模型技术属于较为较为成熟的现有技术，因此此处不再赘述。

在另一个示例中，步骤S107可采用二遍编码的方式实现，即：先通过声学模型的声学得分确定多个候选文本序列，然后通过语言模型从多个候选文本序列中确定最终的识别结果。在这种情况下，通常采用更加复杂的语言模型，例如NNLM。

需要说明的是，要实施本申请实施例提供的语音识别方法，首先要构建所述声学模型，所述声学模型可从训练数据中学习获得。

请参考图3，其为本申请提供的一种语音识别方法实施例的构建声学模型的流程图。在本实施例中，所述方法还包括如下步骤：

步骤S301：获取包括文本序列标注信息的训练数据集。

所述训练数据，包括训练用语音数据、与所述训练用语音数据对应的训练用图像数据、及文本序列。训练数据集包括多条训练数据。

步骤S303：构建神经网络。

所述神经网络，包括所述声学特征提取子网络、训练用图像声学特征提取子网络和声学得分预测子网络。所述训练用图像声学特征提取子网络，可以与训练得到的声学模型的所述图像声学特征提取子网络具有相同的网络结构。所述神经网络可以采用深度神经网络。

对于基于特征融合的音视频语音识别，在模型训练期间，本申请实施例使用并行的音频和视频语料库。然而，在实际应用中，由于难以一直捕获说话者的嘴部区域，可能发生视觉模态缺失问题。这种训练和测试之间的不匹配问题将对语音识别性能造成很大的影响。作为应对，本申请实施例提出采用per-frame dropout正则化来提升音视频语音识别系统对于视频模态丢失的鲁棒性。

相应的，所述训练用图像声学特征提取子网络，也可以在声学模型的所述图像声学特征提取子网络的网络结构基础上，增加一个视频模态丢失层(Per-frame dropout层)，即：所述训练用图像声学特征提取子网络包括视频模态丢失层和第一图像声学特征提取子网络。

如图4所示，在所述图像声学特征提取子网络的输入层之后，包括一个Per-framedropout层，该层可只存在于声学模型的训练阶段的网络结构中，将Per-frame dropout层的后续层构成的网络称为和第一图像声学特征提取子网络。其中，Per-frame层的操作可采用如下方式：

其中，x_t是输入的视觉特征序列，p是一个0～1的常数，α是一个伯努利随机量。

在这种情况下，所述视觉特征采用如下步骤提取：1)通过所述视频模态丢失层，判断是否丢失所述图像数据；2)若是，则清除所述图像数据；3)若否，则通过所述第一图像声学特征提取子网络，从所述图像中提取视觉特征。

其中，所述通过所述视频模态丢失层，并判断是否丢失所述图像数据的步骤，可包括如下步骤：1)生成随机数；若所述随机数大于或者等于预设的视频模态丢失概率值，则判定丢失所述图像数据。其中，概率值可根据需求设置。

为了模仿视觉模态的缺失，本申请实施例对所述声学模型中的图像声学特征提取子网络采用了per-frame dropout操作，从而对于给定的声学特征序列x_a和视觉特征序列x_v，所述声学模型的输入到输出的映射关系可以用如下的公式表示：

y＝f_joint(f_audio(x_a)；f_visual(f_dropout，p(x_v))).

步骤S305：根据所述训练数据集训练所述神经网络。

在获取到训练数据集后，就可以通过机器学习算法，从所述训练数据集中学习得到所述声学模型。

在一个示例中，所述训练用图像声学特征提取子网络包括视频模态丢失层和第一图像声学特征提取子网络；相应的，可将训练后的去除所述视频模态丢失层的网络作为所述声学模型。

从上述实施例可见，本申请实施例提供的语音识别方法，通过获取待识别的语音数据、及与所述语音数据对应的图像数据；通过声学模型包括的声学特征提取子网络，提取所述语音数据的声学特征；以及，通过所述声学模型包括的视觉特征提取子网络，从所述图像数据中提取与所述语音数据对应的视觉特征；通过所述声学模型包括的声学得分预测子网络，至少根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；根据所述声学得分，确定与所述语音数据对应的文本序列；这种处理方式，使得通过声学特征提取子网络和视觉特征提取子网络分别实现对于声学特征和视觉特征的深层建模，提取深层的特征表达，区分音频和视频在语音识别中的权重，然后通过声学得分预测子网络来融合两种模态特征，对融合的特征进行声学建模，由此实现联合优化音视频特征融合和声学建模；因此，可以有效提升声学建模的性能及鲁棒性，从而提升语音识别性能及鲁棒性。

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种语音识别装置。该装置是与上述方法的实施例相对应。

第二实施例

请参看图5，其为本申请的语音识别装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种语音识别装置，包括：

数据获取单元501，用于获取待识别的语音数据、及与所述语音数据对应的图像数据；

特征提取单元502，用于通过声学模型包括的声学特征提取子网络，提取所述语音数据的声学特征；以及，通过所述声学模型包括的视觉特征提取子网络，从所述图像数据中提取与所述语音数据对应的视觉特征；

声学得分预测单元503，用于通过所述声学模型包括的声学得分预测子网络，至少根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；

文本序列确定单元504，用于根据所述声学得分，确定与所述语音数据对应的文本序列。

可选的，所述文本序列确定单元504包括：

可选的，还包括：

请参看图6，其为本申请的语音识别装置的实施例的具体示意图。可选的，还包括：

训练数据获取单元601，用于获取包括文本序列标注信息的训练数据集；所述训练数据包括训练用语音数据、与所述训练用语音数据对应的训练用图像数据、及文本序列；

网络构建单元602，用于构建神经网络；所述神经网络包括所述声学特征提取子网络、训练用图像声学特征提取子网络和声学得分预测子网络；

模型训练单元603，用于根据所述训练数据集训练所述神经网络。

第三实施例

请参考图7，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器701和存储器702；所述存储器，用于存储实现语音识别方法的程序，该设备通电并通过所述处理器运行该语音识别方法的程序后，执行下述步骤：获取待识别的语音数据、及与所述语音数据对应的图像数据；通过声学模型包括的声学特征提取子网络，提取所述语音数据的声学特征；以及，通过所述声学模型包括的视觉特征提取子网络，从所述图像数据中提取与所述语音数据对应的视觉特征；通过所述声学模型包括的声学得分预测子网络，至少根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；根据所述声学得分，确定与所述语音数据对应的文本序列。

在上述的实施例中，提供了一种语音识别方法，与之相对应的，本申请还提供一种声学模型构建方法。该方法是与上述方法的实施例相对应。

第四实施例

请参考图8，其为本申请提供的一种声学模构建方法实施例的流程图，该方法的执行主体包括声学模型构建装置。由于该方法实施例是实施例一的方法实施例的一部分，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。

本申请提供的一种声学模型构建方法包括：

步骤S801：获取包括文本序列标注信息的训练数据集；所述训练数据包括语音数据、与所述语音数据对应的训练用图像数据、及文本序列。

步骤S803：构建神经网络。

其中，所述神经网络包括声学特征提取子网络、图像声学特征提取子网络和声学得分预测子网络；所述声学特征提取子网络，用于从所述语音数据中提取声学特征；所述图像声学特征提取子网络，用于从所述图像数据中提取视觉特征；所述声学得分预测子网络，用于根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分。

步骤S805：将所述语音数据作为所述声学特征提取子网络的输入数据，将所述图像数据作为所述图像声学特征提取子网络的输入数据，将所述文本序列作为所述声学得分预测子网络的输出数据，根据所述训练数据集对所述深度神经网络进行训练，得到声学模型。

在一个示例中，所述图像声学特征提取子网络包括视频模态丢失层和第一图像声学特征提取子网络；所述视觉特征采用如下步骤提取：1)通过所述视频模态丢失层，判断是否丢失所述图像数据；2)若是，则清除所述图像数据；3)若否，则通过所述第一图像声学特征提取子网络，从所述图像数据中提取视觉特征；相应的，步骤S805可包括如下步骤：1)根据所述训练数据集对所述深度神经网络进行训练；2)将训练后的去除所述视频模态丢失层的网络作为所述声学模型。

在一个示例中，所述通过所述视频模态丢失层，判断是否丢失所述图像数据，包括如下子步骤：1)生成随机数；2)若所述随机数大于或者等于预设的视频模态丢失概率值，则判定丢失所述图像数据。

从上述实施例可见，本申请实施例提供的声学模型构建方法，通过获取包括文本序列标注信息的训练数据集；所述训练数据包括语音数据、与所述语音数据对应的训练用图像数据、及文本序列；构建神经网络；其中，所述深度神经网络包括声学特征提取子网络、图像声学特征提取子网络和声学得分预测子网络；所述声学特征提取子网络，用于从所述语音数据中提取声学特征；所述图像声学特征提取子网络，用于从所述图像数据中提取视觉特征；所述声学得分预测子网络，用于根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；将所述语音数据作为所述声学特征提取子网络的输入数据，将所述图像数据作为所述图像声学特征提取子网络的输入数据，将所述文本序列作为所述声学得分预测子网络的输出数据，根据所述训练数据集对所述深度神经网络进行训练，得到声学模型；这种处理方式，使得通过声学特征提取子网络和视觉特征提取子网络分别实现对于声学特征和视觉特征的深层建模，提取深层的特征表达，区分音频和视频在语音识别中的权重，然后通过声学得分预测子网络来融合两种模态特征，对融合的特征进行声学建模，由此实现联合优化音视频特征融合和声学建模；因此，可以有效提升声学模型的准确度。

在上述的实施例中，提供了一种声学模型构建方法，与之相对应的，本申请还提供一种声学模型构建装置。该装置是与上述方法的实施例相对应。

第五实施例

请参看图9，其为本申请的声学模型构建装置的实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种声学模型构建装置，包括：

训练数据获取单元901，用于获取包括文本序列标注信息的训练数据集；所述训练数据包括训练用语音数据、与所述训练用语音数据对应的训练用图像数据、及文本序列；

网络构建单元903，用于构建神经网络；所述神经网络包括所述声学特征提取子网络、训练用图像声学特征提取子网络和声学得分预测子网络；

模型训练单元905，用于根据所述训练数据集训练所述神经网络。

第六实施例

请参考图10，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器1001和存储器1002；所述存储器，用于存储实现声学模型构建方法的程序，该设备通电并通过所述处理器运行该声学模型构建方法的程序后，执行下述步骤：获取包括文本序列标注信息的训练数据集；所述训练数据包括训练用语音数据、与所述训练用语音数据对应的训练用图像数据、及文本序列；构建神经网络；所述神经网络包括所述声学特征提取子网络、训练用图像声学特征提取子网络和声学得分预测子网络；根据所述训练数据集训练所述神经网络。

第七实施例

请参考图11，其为本申请的语音识别系统实施例的示意图。由于系统实施实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施实施例仅仅是示意性的。

本实施例的一种语音识别系统，包括：上述实施例所述的语音识别装置1101和声学模型构建装置1102。所述声学模型构建装置1102通常部署于服务器，但并不局限于服务器，也可以是能够实现所述语音识别方法的任何设备；所述语音识别装置1101通常部署于需要进行语音交互的设备，如智能电视、地铁语音购票机、点餐机等等。

请参考图12，其为本申请的语音识别系统实施例的具体示意图。在本实施例中，语音识别装置1101部署在地铁语音购票机上，地铁语音购票机能够通过麦克风采集得到购票者的有关购票的语音信号,同时通过摄像头采集购票者的人脸图像；然后对采集到的语音信号进行空时采样处理，再对采样后的语音数据进行端点检测、降噪、声学特征提取等处理，接下来就可以通过声学模型包括的声学特征提取子网络，提取所述语音数据的声学特征；以及，通过所述声学模型包括的视觉特征提取子网络，从所述图像数据中提取与所述语音数据对应的视觉特征；通过所述声学模型包括的声学得分预测子网络，至少根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；根据所述声学得分，确定与所述语音数据对应的文本序列。

在本实施例中，所述声学模型构建装置1101部署在服务器上，通过获取包括文本序列标注信息的训练数据集；所述训练数据包括语音数据、与所述语音数据对应的训练用图像数据、及文本序列；构建神经网络；其中，所述深度神经网络包括声学特征提取子网络、图像声学特征提取子网络和声学得分预测子网络；所述声学特征提取子网络，用于从所述语音数据中提取声学特征；所述图像声学特征提取子网络，用于从所述图像数据中提取视觉特征；所述声学得分预测子网络，用于根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；将所述语音数据作为所述声学特征提取子网络的输入数据，将所述图像数据作为所述图像声学特征提取子网络的输入数据，将所述文本序列作为所述声学得分预测子网络的输出数据，根据所述训练数据集训练所述深度神经网络，得到声学模型。此后，就可以将训练好的声学模型通过网络发送至地铁语音购票机上，以便于对购票者的语音进行识别。此外，在服务器上还可部署有语言模型构建装置，用于生成语言模型，并将语言模型发送至地铁语音购票机上，以便于对语音识别装置1101在获得声学得分后，可以结合语言模型得分，通过搜索的方式得到一个最优路径，这个最优路径相对应的输出就是最终得到的输出文本序列。

从上述实施例可见，本申请实施例提供的语音识别系统，通过根据训练数据集生成声学模型，并通过获取待识别的语音数据、及与所述语音数据对应的图像数据；通过声学模型包括的声学特征提取子网络，提取所述语音数据的声学特征；以及，通过所述声学模型包括的视觉特征提取子网络，从所述图像数据中提取与所述语音数据对应的视觉特征；通过所述声学模型包括的声学得分预测子网络，至少根据所述声学特征和所述视觉特征，获取所述语音数据的声学得分；根据所述声学得分，确定与所述语音数据对应的文本序列；这种处理方式，使得通过声学特征提取子网络和视觉特征提取子网络分别实现对于声学特征和视觉特征的深层建模，提取深层的特征表达，区分音频和视频在语音识别中的权重，然后通过声学得分预测子网络来融合两种模态特征，对融合的特征进行声学建模，由此实现联合优化音视频特征融合和声学建模；因此，可以有效提升声学建模的性能及鲁棒性，从而提升语音识别性能及鲁棒性。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种语音识别方法，其特征在于，包括：

根据所述声学得分，确定与所述语音数据对应的文本序列。

2.根据权利要求1所述的方法，其特征在于，

所述声学模型包括如下网络结构的模块之一：深层前馈序列记忆神经网络结构DFSMN、深度卷积神经网络DCNN，双向长短时记忆网络BLSTM。

3.根据权利要求1所述的方法，其特征在于，所述根据所述声学得分，并确定与所述语音数据对应的文本序列，包括：

通过语言模型获取所述语音数据的语言得分；

根据所述声学得分和所述语言得分，确定所述文本序列。

4.根据权利要求1所述的方法，其特征在于，还包括：

获取所述语音数据的第一声学特征；

5.根据权利要求1所述的方法，其特征在于，还包括：

获取所述图像数据的图像特征；

6.根据权利要求1所述的方法，其特征在于，还包括：

根据所述训练数据集训练所述神经网络。

7.根据权利要求6所述的方法，其特征在于，

所述训练用图像声学特征提取子网络包括视频模态丢失层和第一图像声学特征提取子网络；

所述视觉特征采用如下步骤提取：

通过所述视频模态丢失层，判断是否丢失所述图像数据；

若是，则清除所述图像数据；

8.一种语音识别装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述文本序列确定单元包括：

10.根据权利要求8所述的装置，其特征在于，还包括：