CN114822504A

CN114822504A - 基于人工智能的语音识别方法、装置、设备和存储介质

Info

Publication number: CN114822504A
Application number: CN202210375934.8A
Authority: CN
Inventors: 刘博卿; 王健宗; 张之勇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-29

Abstract

本申请涉及人工智能技术，提出了一种基于人工智能的语音识别方法、装置、设备和存储介质，该方法包括：对获取的原始语音数据进行降噪处理，得到对应的降噪语音数据；将原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型进行语音识别效果预测，得到目标后验概率；根据目标后验概率确定原始语音数据对应的待识别语音数据；对待识别语音数据进行语音识别，将得到的目标识别文本作为原始语音数据对应的语音识别结果。本申请提高了语音识别的识别率和鲁棒性，同时兼顾了对高噪语音和低噪语音的识别，适应范围广。

Description

基于人工智能的语音识别方法、装置、设备和存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种基于人工智能的语音识别方法、装置、设备和存储介质。

背景技术

语音识别是一种多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。为了提高语音识别在噪音环境下的鲁棒性，在前端使用降噪模块得到了广泛应用。但是降噪模块的引入，可能会导致语音在低噪环境下的识别率下降，反而起到了负作用。为了解决这个问题现有技术是使用信噪比SNR进行判断。如果是高噪环境则使用降噪语音进行语音识别，如果是低噪环境则直接对语音进行识别，这种利用信噪比确定是否需要使用降噪模型的方法所选择的依据过于单一、草率和不充足且不精准。

发明内容

为了解决现有技术中降噪模块在低噪和高噪环境下对语音的识别率无法达到统一正向作用的技术问题。本申请提供了一种基于人工智能的语音识别方法、装置、设备和存储介质，其主要目的在于在高噪低噪共存环境下提高语音识别率。

为实现上述目的，本申请提供了一种语音识别方法，该方法包括：

对获取的原始语音数据进行降噪处理，得到对应的降噪语音数据；

将原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型进行语音识别效果预测，得到目标后验概率；

根据目标后验概率从原始语音数据、降噪语音数据和融合语音数据中确定待识别语音数据，其中，融合语音数据是利用目标后验概率对原始语音数据和降噪语音数据进行融合得到的；

对待识别语音数据进行语音识别，将得到的目标识别文本作为原始语音数据对应的语音识别结果。

此外，为实现上述目的，本申请还提供了一种语音识别装置，该装置包括语音去噪模块、语音识别效果预测模块、语音选择模块和语音识别模块；

语音去噪模块，用于对获取的原始语音数据进行降噪处理，得到对应的降噪语音数据，并将原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型；

语音识别效果预测模块，用于基于已训练的语音识别效果预测模型根据原始语音数据和降噪语音数据进行语音识别效果预测，得到目标后验概率；

语音选择模块，用于根据目标后验概率从原始语音数据、降噪语音数据和融合语音数据中确定待识别语音数据，其中，融合语音数据是利用目标后验概率对原始语音数据和降噪语音数据进行融合得到的；

语音识别模块，用于对待识别语音数据进行语音识别，将得到的目标识别文本作为原始语音数据对应的语音识别结果。

为实现上述目的，本申请还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时执行如前面任一项的语音识别方法的步骤。

为实现上述目的，本申请还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如前面任一项的语音识别方法的步骤。

本申请提出的基于人工智能的语音识别方法、装置、设备和存储介质，通过对原始语音数据、降噪语音数据的语音识别效果进行预测，根据预测结果中的目标后验概率来确定原始语音数据对应的待识别语音数据，对待识别语音数据进行语音识别，提高了语音识别的识别率和鲁棒性；同时，兼顾了对高噪语音和低噪语音的识别，可以同时保证语音在高噪和低噪环境下的识别准确率，适应范围广。本申请使得部署有降噪模块的语音识别系统可以兼顾高噪语音和低噪语音的准确识别。

附图说明

图1为本申请一实施例中语音识别方法的流程示意图；

图2为本申请一实施例中语音识别装置的结构框图；

图3为本申请一实施例中计算机设备的内部结构框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为本申请一实施例中语音识别方法的流程示意图。参考图1，该语音识别方法包括以下步骤S100-S400。

S100：对获取的原始语音数据进行降噪处理，得到对应的降噪语音数据。

具体地，该语音识别方法应用于计算机设备中。其中，计算机设备可以但不限于各种服务器、个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

获取原始语音数据，对原始语音数据进行降噪处理，得到降噪语音数据。

S200：将原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型进行语音识别效果预测，得到目标后验概率。

具体地，已训练的语音识别效果预测模型用于对原始语音数据或对应的降噪语音数据进行语音识别或原始语音数据和对应的降噪语音数据进行语音识别效果的预测。后验概率用于表征对对应语音数据的语音识别效果的预测。后验概率越大表示语音识别效果可能越好，后验概率越小表示语音识别效果可能越差。

目标后验概率可以包括原始语音数据的第一目标后验概率，根据第一目标后验概率和第二目标后验概率之和为1可以计算得到对应的降噪语音数据的第二目标后验概率。目标后验概率也可以包括对应的降噪语音数据的第二目标后验概率，根据第一目标后验概率和第二目标后验概率之和为1可以计算得到原始语音数据的第一目标后验概率。目标后验概率还可以包括原始语音数据的第一目标后验概率和对应的降噪语音数据的第二目标后验概率。

S300：根据目标后验概率从原始语音数据、降噪语音数据和融合语音数据中确定待识别语音数据，其中，融合语音数据是利用目标后验概率对原始语音数据和降噪语音数据进行融合得到的。

具体地，在原始语音数据被语音识别前先进行语音识别效果预测，得到目标后验概率。

由于语音信号的多样性和复杂性，语音识别模块只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。因此，语音识别模型对于原始语音数据、降噪后的语音数据以及由原始语音数据与降噪后的语音数据融合得到的语音数据的语音识别效果可能不同。

根据目标后验概率可以预先确定是使用原始语音数据进行最终的语音识别，还是使用降噪语音数据进行最终的语音识别，或者根据目标后验概率计算得到融合语音数据，使用融合的语音数据进行最终的语音识别。

S400：对待识别语音数据进行语音识别，将得到的目标识别文本作为原始语音数据对应的语音识别结果。

具体地，语音识别(Automatic Speech Recognition)技术是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语音。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。本实施例通过ASR(自动语音识别)技术将待识别语音数据语音转化为文字得到目标识别文本。

如果确定原始语音数据为待识别语音数据，则对原始语音数据进行语音识别，将得到的目标识别文本作为语音识别结果。

如果确定降噪语音数据为待识别语音数据，则对降噪语音数据进行语音识别，将得到的目标识别文本作为原始语音数据的语音识别结果。

如果确定融合语音数据为待识别语音数据，则对融合语音数据进行语音识别，将得到的目标识别文本作为原始语音数据的语音识别结果。

本实施例通过对原始语音数据、降噪语音数据的语音识别效果进行预测，根据预测结果中的目标后验概率来确定原始语音数据对应的待识别语音数据，对待识别语音数据进行语音识别，提高了语音识别的识别率和鲁棒性；同时，兼顾了对高噪语音和低噪语音的识别，适应范围广。

在一个实施例中，步骤S200具体包括：

对原始语音数据进行声学特征提取得到对应的第一声学特征，对降噪语音数据进行声学特征提取得到对应的第二声学特征；

对第一声学特征和第二声学特征进行特征融合，得到第一融合特征；

根据第一融合特征执行语音识别效果预测，得到目标后验概率。

具体地，声学特征为一种语音特征序列。声学特征可以为MFCC特征序列或FBANK特征序列但不局限于此。第一声学特征和第二声学特征可以为维度为128维的特征序列但不局限于此，具体可以根据实际情况定义。

特征融合即特征拼接，例如，第一声学特征和第二声学特征为维度为128维特征序列，则融合后得到的第一融合特征的维度为256维的特征序列。

已训练的语音识别效果预测模型根据第一融合特征进行语音识别效果预测，即可得到目标后验概率。

在一个实施例中，在步骤S200之前，该方法还包括：

获取原始语音数据的估计噪音数据，

根据降噪语音数据和估计噪音数据计算得到原始语音数据对应的信噪比，将信噪比输入至已训练的语音识别效果预测模型；

将原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型进行语音识别效果预测，得到目标后验概率，包括：

对原始语音数据进行声学特征提取得到对应的第一声学特征，对降噪语音数据进行声学特征提取得到对应的第二声学特征，

对第一声学特征和第二声学特征进行第一特征融合，得到第一融合特征，

根据第一融合特征执行第一语音识别效果预测，得到中间后验概率，

将中间后验概率作为第一中间层特征与作为第二中间层特征的信噪比进行第二特征融合，得到第二融合特征，

根据第二融合特征执行第二语音识别效果预测，得到目标后验概率。

具体地，原始语音数据的估计噪音数据是在语音降噪过程中通过语音降噪模块从原始语音数据中分离出来的或根据原始语音数据预估出来的。

原始语音数据的信噪比是与原始语音数据、降噪语音数据关联后一同输入至已训练的语音识别效果预测模型的。

声学特征为一种语音特征序列。声学特征可以为MFCC特征序列或FBANK特征序列但不局限于此。第一声学特征和第二声学特征可以为维度为128维的特征序列但不局限于此，具体可以根据实际情况定义。

已训练的语音识别效果预测模型依次包括第一特征融合层、2层LSTM模型、第一全连接层、第二特征融合层、第二全连接层。第一全连接层和第二全连接层的输出层使用softmax层，其中隐含层后的激活函数可以使用ReLU函数。

特征融合即特征拼接，例如，第一声学特征和第二声学特征为维度为128维特征序列，则融合后得到的第一融合特征的维度为256维的特征序列。第一特征融合层用于将第一声学特征和第二声学特征进行第一特征融合，得到第一融合特征。第一融合特征作为LSTM模型的输入，第一全连接层根据LSTM模型的输出执行第一语音识别效果预测，得到中间后验概率。中间后验概率包括了原始语音数据的第一中间后验概率和降噪语音数据的第二中间后验概率，第一中间后验概率与第二中间后验概率之和为1。

第一全连接层将中间后验概率传输给第二特征融合层，第二特征融合层将中间后验概率作为第一中间层特征与作为第二中间层特征的原始语音数据的信噪比进行第二特征融合得到第二融合特征。第二连接层根据第二融合特征进行语音识别效果预测，即可得到目标后验概率。

本实施例将原始语音数据、降噪语音数据、原始语音数据与降噪语音数据的信噪比结合用来进行语音识别效果的预测，得到的预测效果更精准，进而能够更精确的确定待识别语音数据，提高了原始语音数据的识别率或识别效果。

在一个实施例中，目标后验概率包括第一目标后验概率和第二目标后验概率，第一目标后验概率表征对原始语音数据的识别效果，第二目标后验概率表征对降噪语音数据的识别效果，第一目标后验概率和第二目标后验概率之和为1；

步骤S300具体包括：

若第一目标后验概率大于第二目标后验概率，则确定原始语音数据为待识别语音数据，若第一目标后验概率小于第二目标后验概率，则确定降噪语音数据为原始语音数据的待识别语音数据；

或，根据第一目标后验概率、第二目标后验概率对原始语音数据和降噪语音数据进行融合，将融合后得到的语音数据作为原始语音数据对应的待识别语音数据。

具体地，如果原始语音数据的第一目标后验概率大于降噪语音数据的第二目标后验概率，则说明对原始语音数据的预测识别效果优于降噪语音数据的预测识别效果，因此，选用原始语音数据作为待识别语音数据。

如果原始语音数据的第一目标后验概率小于降噪语音数据的第二目标后验概率，则说明对原始语音数据的预测识别效果不如降噪语音数据的预测识别效果，因此，选用降噪语音数据作为待识别语音数据。

如果原始语音数据的第一目标后验概率等于降噪语音数据的第二目标后验概率，则说明对原始语音数据的预测识别效果与降噪语音数据的预测识别效果相同，因此，选用原始语音数据或降噪语音数据作为待识别语音数据均可。但选择降噪语音数据更优，因为在语音识别时降噪语音数据的数据处理量更小。

在另外一个具体实施例中，不论原始语音数据的第一目标后验概率与降噪语音数据的第二目标后验概率大小如何，都会对原始语音数据和降噪语音数据进行融合，将融合后得到的融合语音数据作为待识别语音数据。

融合后的语音数据＝第一目标后验概率*原始语音数据+第二目标后验概率*降噪语音数据，具体如公式(1)所示：

其中，

为融合语音后的语音数据，

为降噪语音数据和Y为原始语音数据。p₀为第一目标后验概率，1-p₀为第二目标后验概率。

本申请的语音识别方法应用于语音识别系统，语音识别系统包括语音去噪模块、部署有已训练或待训练的语音识别效果预测模型的语音识别效果预测模块、语音选择模块和语音识别模块。语音选择模块具体包括用于降噪噪语音和原始语音选择的原始降噪选择模块和/或语音融合模块。本申请实现了由数据驱动的神经网络模型更好的决定降噪模块是否会对语音识别模块起正向作用，从而提高系统的在高噪低噪共存环境下的整体识别率。

在一个实施例中，在步骤S200之前，方法还包括：

获取不同的已知语音片段及对应的降噪语音片段；

生成每个已知语音片段对应的数据标签，根据数据标签对对应的训练样本进行打标，其中，每个训练样本包括已知语音片段及对应的降噪语音片段，数据标签包括第一后验概率和第二后验概率，第一后验概率表征对对应已知语音片段的识别效果，第二后验概率表征对对应已知语音片段的降噪语音片段的识别效果，第一后验概率与第二后验概率之和为1；

利用打标的训练样本对预训练的语音识别效果预测模型进行训练，直至满足收敛条件，得到已训练的语音识别效果预测模型。

具体地，已知语音片段是已知其真实的语音识别文本的语音片段，且已知语音片段与其降噪语音片段语音识别的识别效果也是已知的。数据标签就是对一组已知语音片段及对应的降噪语音片段的已知识别效果的表示。

一个训练样本包括已知语音片段及对应的降噪语音片段，利用数据标签对对应训练样本进行打标得到打标的训练样本。所有打标的训练样本组成了训练集。

利用训练集对预训练的语音识别效果预测模型进行训练，在损失函数(例如使用交叉熵损失函数但不局限于此)降低到一个阈值或训练次数达到预设训练次数后则停止训练。利用达到收敛条件时的模型参数对预训练的语音识别效果预测模型进行模型构建得到已训练的语音识别效果预测模型。

在一个实施例中，在步骤S200之前，该方法还包括：

获取不同的已知语音片段及对应的降噪语音片段和信噪比；

生成每个已知语音片段对应的数据标签，根据数据标签对对应的训练样本进行打标，其中，每个训练样本包括已知语音片段及对应的降噪语音片段和信噪比，数据标签包括第一后验概率和第二后验概率，第一后验概率表征对对应已知语音片段的识别效果，第二后验概率表征对对应已知语音片段的降噪语音片段的识别效果，第一后验概率与第二后验概率之和为1；

信噪比的计算公式如公式(2)所示：

其中，

为降噪语音片段，

为根据已知语音片段估计的噪音片断。

一个训练样本包括已知语音片段、对应的降噪语音片段和信噪比，利用数据标签对对应训练样本进行打标得到打标的训练样本。所有打标的训练样本组成了训练集。

利用训练集对预训练的语音识别效果预测模型进行训练，即，计算损失函数和梯度，根据梯度更新模型参数，然后利用更新的模型参数构建新的预训练的语音识别效果预测模型，利用新的预训练的语音识别效果预测模型

在损失函数降低到一个阈值或训练次数达到预设训练次数后则停止训练。利用达到收敛条件时的模型参数对预训练的语音识别效果预测模型进行模型构建得到已训练的语音识别效果预测模型。

在一个实施例中，生成每个已知语音片段对应的数据标签，包括：

获取已知语音片段的实际语音文本；

对已知语音片段进行语音识别得到第一识别文本，对降噪语音片段进行语音识别得到第二识别文本；

计算实际语音文本与第一识别文本的相似度得到第一相似度，计算实际语音文本与第二识别文本的相似度得到第二相似度；

根据第一相似度和第二相似度确定已知语音片段的第一后验概率和降噪语音片段的第二后验概率；

将第一后验概率和第二后验概率组成数据标签。

具体地，已知语音片段的实际语音文本是已知语音片段中的语音所对应的真实文本，实际语音文本可以是人工识别并提供给计算机设备的。分别对已知语音片段和对应的降噪语音片段进行语音识别得到第一识别文本和第二识别文本。

第一识别文本和第二识别文本与作为真实文本的实际语音文本可能相同也可能存在差异。因此，需要计算出第一识别文本与实际语音文本的第一相似度、第二识别文本与实际语音文本的第二相似度，第一相似度和第二相似度表征了第一识别文本与实际语音文本的差异、第二识别文本与实际语音文本的差异。根据第一相似度和第二相似度可以确定对已知语音片段和降噪语音片段的识别效果，即得到第一后验概率和第二后验概率。相似度越高对应的后验概率越大。

相似度可以通过计算两个文本之间的编辑距离得到。

在一个实施例中，根据第一相似度和第二相似度确定已知语音片段的第一后验概率和降噪语音片段的第二后验概率，包括：

若第一相似度大于第二相似度，则确定已知语音片段的第一后验概率为1、降噪语音片段的第二后验概率为0；

若第一相似度小于或等于第二相似度，则确定已知语音片段的第一后验概率为0、降噪语音片段的第二后验概率为1。

具体地，本实施例的后验概率只有1和0两个取值，简化了训练复杂度。即使使用融合后的语音数据，实质也是选择后验概率为1的语音数据作为待识别语音数据。本实施例降低了运算开销。

计算第一相似度与第二相似度之和，得到相似度之和；

将第一相似度与相似度之和的比值作为已知语音片段的第一后验概率；

将第二相似度与相似度之和的比值作为降噪语音片段的第二后验概率。

具体地，本实施例通过相似度的比值来确定后验概率，能够表征相似度越高后验概率越大，且能保证第一后验概率与第二后验概率之和为1。

另外，本实施例相较于后验概率只有1和0两个取值实现了后验概率的多元化和精确化。通过本实施例得到的数据标签更能精确的表征未降噪的原始语音数据与降噪后的降噪语音数据的语音识别效果。对于模型训练而言，可以使得预训练的语音识别效果预测模型的后验概率预测结果更精准。

在一个实施例中，计算实际语音文本与第一识别文本的相似度得到第一相似度，计算实际语音文本与第二识别文本的相似度得到第二相似度，包括：

计算实际语音文本与第一识别文本的编辑距离，得到第一编辑距离，计算实际语音文本与第二识别文本的编辑距离，得到第二编辑距离；

根据第一编辑距离得到实际语音文本与第一识别文本的第一相似度，根据第二编辑距离得到实际语音文本与第二识别文本的第二相似度。

具体地，本实施例通过编辑距离来确定文本之间的相似度。编辑距离越大相似度越低，编辑距离越小相似度越高。

编辑距离(Edit Distance)又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。在信息论、语言学和计算机科学领域，LevenshteinDistance是用来度量两个序列相似程度的指标。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

编辑距离相似度＝1-编辑距离/max(字符串1长度，字符串2的长度)。

以第一后验概率和第二后验概率取值为0或1为例，模型数据标签(p₀₀,p₁₁)按照公式(3)进行生成：

其中，W代表已知语音片段的实际语音文本，W_Y代表对已知语音片段(带噪的原始语音片段)进行语音识别的第一识别文本，

代表对经去噪模块或去噪模型降噪或去噪处理后得到的降噪语音片段进行语音识别的第二识别结果，dist(*)代表两个文本之间的编辑距离，即dist(W,W_Y)为实际语音文本与第一识别文本的第一编辑距离，

为实际语音文本与第二识别文本的第二编辑距离。p₀₀为已知语音片段对应的第一后验概率，p₁₁为已知语音片段对应的降噪语音片段对应的第二后验概率。

由于相似度与编辑距离成反比，因此，模型数据标签(p₀₀,p₁₁)还可以按照公式(4)进行生成：

(p₀₀,p₁₁)＝[1,0],第一相似度>第二相似度

(p₀₀,p₁₁)＝[0,1],第一相似度≤第二相似度公式(4)

其中，p₀₀为已知语音片段对应的第一后验概率，p₁₁为已知语音片段对应的降噪语音片段对应的第二后验概率。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理以实现语音识别。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请使用神经网络模型对降噪模块是否对语音识别模型有正向作用进行决定，并可利用输出概率对降噪语音和原始语音进行融合或根据输出概率选择原始语音或降噪语音作为待识别语音，提高了整体语音识别系统的识别率。选择模型的引入无需对ASR模型(语音识别模型)和降噪模型进行联合训练或者微调训练，节约开发成本，使各模块保持独立性，便于维护。

图2为本申请一实施例中语音识别装置的结构框图。参考图2，该装置包括：语音去噪模块100、语音识别效果预测模块200、语音选择模块300和语音识别模块400；

语音去噪模块100，用于对获取的原始语音数据进行降噪处理，得到对应的降噪语音数据，并将原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型；

语音识别效果预测模块200，用于基于已训练的语音识别效果预测模型根据原始语音数据和降噪语音数据进行语音识别效果预测，得到目标后验概率；

语音选择模块300，用于根据目标后验概率从原始语音数据、降噪语音数据和融合语音数据中确定待识别语音数据，其中，融合语音数据是利用目标后验概率对原始语音数据和降噪语音数据进行融合得到的；

语音识别模块400，用于对待识别语音数据进行语音识别，将得到的目标识别文本作为原始语音数据对应的语音识别结果。

语音识别装置一般设置于服务器/终端设备中。

在一个实施例中，语音识别效果预测模块200包括：

特征提取模块，用于对原始语音数据进行声学特征提取得到对应的第一声学特征，对降噪语音数据进行声学特征提取得到对应的第二声学特征；

第一特征融合模块，用于对第一声学特征和第二声学特征进行特征融合，得到第一融合特征；

第一预测模块，用于根据第一融合特征执行语音识别效果预测，得到目标后验概率。

在一个实施例中，该装置还包括：

噪音数据获取模块，用于获取原始语音数据的估计噪音数据，

信噪比计算模块，用于根据降噪语音数据和估计噪音数据计算得到原始语音数据对应的信噪比，将信噪比输入至已训练的语音识别效果预测模型；

语音识别效果预测模块200包括：

特征提取模块，用于对原始语音数据进行声学特征提取得到对应的第一声学特征，对降噪语音数据进行声学特征提取得到对应的第二声学特征，

第一特征融合模块，用于对第一声学特征和第二声学特征进行第一特征融合，得到第一融合特征，

第一预测模块，用于根据第一融合特征执行第一语音识别效果预测，得到中间后验概率，

第二特征融合模块，用于将中间后验概率作为第一中间层特征与作为第二中间层特征的信噪比进行第二特征融合，得到第二融合特征，

第二预测模块，用于根据第二融合特征执行第二语音识别效果预测，得到目标后验概率。

语音选择模块300具体包括：

原始降噪选择模块，用于若第一目标后验概率大于第二目标后验概率，则确定原始语音数据为待识别语音数据，若第一目标后验概率小于第二目标后验概率，则确定降噪语音数据为原始语音数据的待识别语音数据；

或，

语音融合模块，用于根据第一目标后验概率、第二目标后验概率对原始语音数据和降噪语音数据进行融合，将融合后得到的语音数据作为原始语音数据对应的待识别语音数据。

在一个实施例中，该装置还包括：

样本语音获取模块，用于获取不同的已知语音片段及对应的降噪语音片段；

标签生成模块，用于生成每个已知语音片段对应的数据标签，根据数据标签对对应的训练样本进行打标，其中，每个训练样本包括已知语音片段及对应的降噪语音片段，数据标签包括第一后验概率和第二后验概率，第一后验概率表征对对应已知语音片段的识别效果，第二后验概率表征对对应已知语音片段的降噪语音片段的识别效果，第一后验概率与第二后验概率之和为1；

训练模块，用于利用打标的训练样本对预训练的语音识别效果预测模型进行训练，直至满足收敛条件，得到已训练的语音识别效果预测模型。

在一个实施例中，该装置还包括：

样本语音获取及计算模块，用于获取不同的已知语音片段及对应的降噪语音片段和信噪比；

标签生成模块，用于生成每个已知语音片段对应的数据标签，根据数据标签对对应的训练样本进行打标，其中，每个训练样本包括已知语音片段及对应的降噪语音片段和信噪比，数据标签包括第一后验概率和第二后验概率，第一后验概率表征对对应已知语音片段的识别效果，第二后验概率表征对对应已知语音片段的降噪语音片段的识别效果，第一后验概率与第二后验概率之和为1；

在一个实施例中，标签生成模块具体包括：

文本获取模块，用于获取已知语音片段的实际语音文本；

语音识别模块，还用于对已知语音片段进行语音识别得到第一识别文本，对降噪语音片段进行语音识别得到第二识别文本；

相似度计算模块，用于计算实际语音文本与第一识别文本的相似度得到第一相似度，计算实际语音文本与第二识别文本的相似度得到第二相似度；

后验概率确定模块，用于根据第一相似度和第二相似度确定已知语音片段的第一后验概率和降噪语音片段的第二后验概率；

标签组合模块，用于将第一后验概率和第二后验概率组成数据标签。

在一个实施例中，后验概率确定模块，具体用于若第一相似度大于第二相似度，则确定已知语音片段的第一后验概率为1，降噪语音片段的第二后验概率为0，若第一相似度小于或等于第二相似度，则确定已知语音片段的第一后验概率为0，降噪语音片段的第二后验概率为1。

在一个实施例中，后验概率确定模块具体包括：

求和模块，用于计算第一相似度与第二相似度之和，得到相似度之和；

第一比例计算模块，用于将第一相似度与相似度之和的比值作为已知语音片段的第一后验概率；

第二比例计算模块，用于将第二相似度与相似度之和的比值作为降噪语音片段的第二后验概率。

在一个实施例中，相似度计算模块具体包括：

编辑距离计算单元，用于计算实际语音文本与第一识别文本的编辑距离，得到第一编辑距离，计算实际语音文本与第二识别文本的编辑距离，得到第二编辑距离；

相似度计算单元，用于根据第一编辑距离得到实际语音文本与第一识别文本的第一相似度，根据第二编辑距离得到实际语音文本与第二识别文本的第二相似度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图3为本申请一实施例中计算机设备的内部结构框图。如图3所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质，也可以是易失性存储介质。存储介质存储有操作系统，还可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器实现语音识别方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行语音识别方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序)，处理器执行计算机可读指令时实现上述实施例中语音识别方法的步骤，例如图1所示的步骤S100至步骤S400及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机可读指令时实现上述实施例中语音识别装置的各模块/单元的功能，例如图2所示模块100至模块400的功能。为避免重复，这里不再赘述。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机可读指令和/或模块，处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

存储器可以集成在处理器中，也可以与处理器分开设置。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例中语音识别方法的步骤，例如图1所示的步骤S100至步骤S400及该方法的其它扩展和相关步骤的延伸。或者，计算机可读指令被处理器执行时实现上述实施例中语音识别装置的各模块/单元的功能，例如图2所示模块100至模块400的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指示相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

将所述原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型进行语音识别效果预测，得到目标后验概率；

根据所述目标后验概率从所述原始语音数据、降噪语音数据和融合语音数据中确定待识别语音数据，其中，所述融合语音数据是利用所述目标后验概率对所述原始语音数据和降噪语音数据进行融合得到的；

对所述待识别语音数据进行语音识别，将得到的目标识别文本作为所述原始语音数据对应的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型进行语音识别效果预测，得到目标后验概率，包括：

对所述原始语音数据进行声学特征提取得到对应的第一声学特征，对所述降噪语音数据进行声学特征提取得到对应的第二声学特征；

对所述第一声学特征和第二声学特征进行特征融合，得到第一融合特征；

根据所述第一融合特征执行语音识别效果预测，得到目标后验概率。

3.根据权利要求1所述的方法，其特征在于，在所述将所述原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型进行语音识别效果预测，得到目标后验概率之前，所述方法还包括：

获取所述原始语音数据的估计噪音数据，

根据所述降噪语音数据和估计噪音数据计算得到所述原始语音数据对应的信噪比，将所述信噪比输入至所述已训练的语音识别效果预测模型；

所述将所述原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型进行语音识别效果预测，得到目标后验概率，包括：

对所述原始语音数据进行声学特征提取得到对应的第一声学特征，对所述降噪语音数据进行声学特征提取得到对应的第二声学特征，

对所述第一声学特征和第二声学特征进行第一特征融合，得到第一融合特征，

根据所述第一融合特征执行第一语音识别效果预测，得到中间后验概率，

将所述中间后验概率作为第一中间层特征与作为第二中间层特征的所述信噪比进行第二特征融合，得到第二融合特征，

根据所述第二融合特征执行第二语音识别效果预测，得到目标后验概率。

4.根据权利要求1所述的方法，其特征在于，所述目标后验概率包括第一目标后验概率和第二目标后验概率，所述第一目标后验概率表征对所述原始语音数据的识别效果，所述第二目标后验概率表征对所述降噪语音数据的识别效果，所述第一目标后验概率和第二目标后验概率之和为1；

所述根据所述目标后验概率从所述原始语音数据、降噪语音数据和融合语音数据中确定待识别语音数据，包括：

若所述第一目标后验概率大于所述第二目标后验概率，则确定所述原始语音数据为待识别语音数据，若所述第一目标后验概率小于所述第二目标后验概率，则确定所述降噪语音数据为所述原始语音数据的待识别语音数据；

或，根据所述第一目标后验概率、第二目标后验概率对所述原始语音数据和降噪语音数据进行融合，将融合后得到的语音数据作为所述原始语音数据对应的待识别语音数据。

5.根据权利要求2所述的方法，其特征在于，在所述将所述原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型进行语音识别效果预测，得到目标后验概率之前，所述方法还包括：

获取不同的已知语音片段及对应的降噪语音片段；

生成每个所述已知语音片段对应的数据标签，根据所述数据标签对对应的训练样本进行打标，其中，每个所述训练样本包括已知语音片段及对应的降噪语音片段，所述数据标签包括第一后验概率和第二后验概率，所述第一后验概率表征对对应已知语音片段的识别效果，所述第二后验概率表征对对应已知语音片段的降噪语音片段的识别效果，所述第一后验概率与第二后验概率之和为1；

6.根据权利要求3所述的方法，其特征在于，在所述将所述原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型进行语音识别效果预测，得到目标后验概率之前，所述方法还包括：

获取不同的已知语音片段及对应的降噪语音片段和信噪比；

生成每个所述已知语音片段对应的数据标签，根据所述数据标签对对应的训练样本进行打标，其中，每个所述训练样本包括已知语音片段及对应的降噪语音片段和信噪比，所述数据标签包括第一后验概率和第二后验概率，所述第一后验概率表征对对应已知语音片段的识别效果，所述第二后验概率表征对对应已知语音片段的降噪语音片段的识别效果，所述第一后验概率与第二后验概率之和为1；

7.根据权利要求5或6所述的方法，其特征在于，所述生成每个所述已知语音片段对应的数据标签，包括：

获取所述已知语音片段的实际语音文本；

对所述已知语音片段进行语音识别得到第一识别文本，对所述降噪语音片段进行语音识别得到第二识别文本；

计算所述实际语音文本与所述第一识别文本的相似度得到第一相似度，计算所述实际语音文本与所述第二识别文本的相似度得到第二相似度；

根据所述第一相似度和第二相似度确定所述已知语音片段的第一后验概率和所述降噪语音片段的第二后验概率；

将所述第一后验概率和第二后验概率组成数据标签。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一相似度和第二相似度确定所述已知语音片段的第一后验概率和所述降噪语音片段的第二后验概率，包括：

若所述第一相似度大于所述第二相似度，则确定所述已知语音片段的第一后验概率为1、所述降噪语音片段的第二后验概率为0；

若所述第一相似度小于或等于所述第二相似度，则确定所述已知语音片段的第一后验概率为0、所述降噪语音片段的第二后验概率为1。

9.根据权利要求7所述的方法，其特征在于，所述根据所述第一相似度和第二相似度确定所述已知语音片段的第一后验概率和所述降噪语音片段的第二后验概率，包括：

计算所述第一相似度与第二相似度之和，得到相似度之和；

将所述第一相似度与所述相似度之和的比值作为所述已知语音片段的第一后验概率；

将所述第二相似度与所述相似度之和的比值作为所述降噪语音片段的第二后验概率。

10.根据权利要求7所述的方法，其特征在于，所述计算所述实际语音文本与所述第一识别文本的相似度得到第一相似度，计算所述实际语音文本与所述第二识别文本的相似度得到第二相似度，包括：

计算所述实际语音文本与所述第一识别文本的编辑距离，得到第一编辑距离，计算所述实际语音文本与所述第二识别文本的编辑距离，得到第二编辑距离；

根据所述第一编辑距离得到所述实际语音文本与所述第一识别文本的第一相似度，根据所述第二编辑距离得到所述实际语音文本与所述第二识别文本的第二相似度。

11.一种语音识别装置，其特征在于，所述装置包括语音去噪模块、语音识别效果预测模块、语音选择模块和语音识别模块；

所述语音去噪模块，用于对获取的原始语音数据进行降噪处理，得到对应的降噪语音数据，并将所述原始语音数据和降噪语音数据输入至已训练的语音识别效果预测模型；

所述语音识别效果预测模块，用于基于所述已训练的语音识别效果预测模型根据所述原始语音数据和降噪语音数据进行语音识别效果预测，得到目标后验概率；

所述语音选择模块，用于根据所述目标后验概率从所述原始语音数据、降噪语音数据和融合语音数据中确定待识别语音数据，其中，所述融合语音数据是利用所述目标后验概率对所述原始语音数据和降噪语音数据进行融合得到的；

所述语音识别模块，用于对所述待识别语音数据进行语音识别，将得到的目标识别文本作为所述原始语音数据对应的语音识别结果。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时执行如权利要求1-10任一项所述的语音识别方法的步骤。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时，使得所述处理器执行如权利要求1-10任一项所述的语音识别方法的步骤。