CN111816165A

CN111816165A - 语音识别方法、装置及电子设备

Info

Publication number: CN111816165A
Application number: CN202010645765.6A
Authority: CN
Inventors: 陈孝良; 冯大航; 郭震
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-23

Abstract

本公开涉及语音识别技术领域，提供一种语音识别方法、装置及电子设备，以解决语音识别准确性较低的问题。该方法包括：获取待识别语音；对待识别语音进行特征提取，获得语音特征信息；根据目标声学模型以及目标语言模型，确定语音特征信息对应的目标字符序列；其中，目标语言模型包括第一语言模型以及第二语言模型，第一语言模型通过第一场景的命令词训练文本进行语言模型训练得到，第二语言模型通过第一文本训练集进行语言模型训练得到。在语音识别过程中，不但采用了两个语言模型，而且第一语言模型是通过第一场景的命令词训练文本进行语言模型训练得到的，可增强第一语言模型对第一场景下的相关命令词的识别能力，如此，可提高语音识别准确性。

Description

语音识别方法、装置及电子设备

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音识别方法、装置及电子设备。

背景技术

语音识别技术，也称为自动语音识别(Automatic Speech Recognition，ASR)，是是一种将语音转为文本的技术，应用广泛。例如，可应用于家用电器以及声控设备(例如，移动终端、智能玩具、电视、计算机、汽车、音响、电梯等)，也可用于紧急呼叫等领域。通过对语音识别得到文本，将文本转换为可读的命令，根据命令可执行相应的操作。例如，对于电梯使用环境，针对的是能将人在电梯内说出的控制语音识别为相关指令词，然后转换为电梯控制芯片可读的命令，即可根据该命令控制电梯执行相应的操作，即通过语音实现对电梯的控制。然而，目前常采用的语音识别方法在语音识别过程中，识别准确性较低。

发明内容

本公开实施例提供一种语音识别方法、装置及电子设备，以解决现有语音识别准确性较低的问题。

为了解决上述技术问题，本公开是这样实现的：

第一方面，本公开实施例提供了一种语音识别方法，所述方法包括：

获取待识别语音；

对所述待识别语音进行特征提取，获得语音特征信息；

根据目标声学模型以及目标语言模型，确定所述语音特征信息对应的目标字符序列；

其中，所述目标语言模型包括第一语言模型以及第二语言模型，所述第一语言模型通过第一场景的命令词训练文本进行语言模型训练得到，所述第二语言模型通过第一文本训练集进行语言模型训练得到。

第二方面，本公开实施例还提供一种语音识别装置，所述装置包括：

语音获取模块，用于获取待识别语音；

特征提取模块，用于对所述待识别语音进行特征提取，获得语音特征信息；

识别模块，用于根据目标声学模型以及目标语言模型，确定所述语音特征信息对应的目标字符序列；

第三方面，本公开实施例还提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本公开各实施例提供的方法中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现本公开各实施例提供的方法中的步骤。

本公开实施例中，利用目标声学模型、第一语言模型和第二语言模型，确定语音特征信息对应的目标字符序列，实现对待识别语音的语音识别。即在语音识别过程中，不但采用了两个语言模型，而且其中的第一语言模型是通过第一场景的命令词训练文本进行语言模型训练得到的，可增强第一语言模型对第一场景下的相关命令词的识别能力，如此，可提高语音识别准确性。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的语音识别方法的流程图之一；

图2是本公开实施例提供的语音识别方法的流程图之二；

图3是本公开实施例提供的实现语音识别方法的原理图；

图4是本公开实施例提供的电子设备的模块示意图之一；

图5是本公开实施例提供的电子设备的模块示意图之二。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

参见图1，提供一实施例的语音识别方法，上述方法包括以下步骤：

步骤101：获取待识别语音。

上述方法可应用于电子设备，该电子设备可以电梯控制设备等，也即是说，上述方法可应用于第一场景，第一场景可以是电梯识别场景等。待识别语音可以是用户的输入语音，例如，在上述方法应用的场景下，用户需通过语音进行相应控制，则用户可进行语音输入，从而可获得待识别语音。

步骤102：对待识别语音进行特征提取，获得语音特征信息。

需要说明的是，是对待识别语音进行声学特征提取，得到语音特征信息，即得到声学特征信息。进行声学特征提取得到声学特征信息的方式有多种，本公开实施例不作限定，例如，可提取MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征等。

步骤103：根据目标声学模型以及目标语言模型，确定语音特征信息对应的目标字符序列。

其中，目标语言模型包括第一语言模型以及第二语言模型，第一语言模型通过第一场景的命令词训练文本进行语言模型训练得到，第二语言模型通过第一文本训练集进行语言模型训练得到。

在进行特征提取得到待识别语音的语音特征信息后，即可利用目标声学模型以及目标语言模型，确定语音特征信息对应的目标字符序列，即待识别语音对应的目标字符序列，实现对待识别语音的识别。其中，第一场景可以是上述方法应用的场景，例如，可以是电梯场景等。需要说明的是，第二语言模型可以是已在使用的已训练的语言模型，其可以是应用在第二场景中的语言模型，即第二语言模型为已训练的应用在第二场景下的语言模型，例如，第二场景可以是音响识别场景、车载识别场景、电梯场景等。第一文本训练集可以是用于语言模型训练的通用文本训练集。第一语言模型是通过第一场景下的命令词训练文本进行训练得到，如此，可增强第一语言模型对第一场景下的相关命令词的识别能力，从而可提高待识别语音的识别准确性。

本公开实施例的语音识别方法中，利用目标声学模型、第一语言模型和第二语言模型，确定语音特征信息对应的目标字符序列，实现对待识别语音的语音识别。即在语音识别过程中，采用了利用不同训练数据训练得到的两个语言模型，其中的第一语言模型是通过第一场景的命令词训练文本进行语言模型训练得到的，可增强第一语言模型对第一场景下的相关命令词的识别能力，第二语言模型是通过第一文本训练集训练得到，通过第二训练模型可确保与第一文本训练集相关的词的识别能力，如此，可使目标语言模型到优化，根据目标声学模型以及目标语言模型实现语音识别，可提高语音识别准确性。

如图2所示，在一个实施例中，根据目标声学模型以及目标语言模型，确定语音特征信息对应的目标字符的步骤103，包括：

步骤1031：通过目标声学模型识别语音特征信息的音素序列。

声学模型用于将语音特征信息转换为音素序列，目标声学模型为经过训练得到的声学模型，例如，可以是在已训练的声学模型基础上进行训练得到。

步骤1032：通过第一语言模型识别音素序列的多个第一字符序列，以及多个第一字符序列的第一概率得分，以及通过第二语言模型识别音素序列的多个第二字符序列，以及多个第二字符序列的第二概率得分。

需要说明的是，语音识别即是对语音进行识别得到文本的过程，第一字符序列可以理解为第一文本，第二字符序列可以理解为第二文本。例如，通过第一语言模型识别音素序列的多个第一字符序列包括第一字符序列L1和第一字符序列L2，第一字符序列L1为“今天晴天”，第一字符序列L2为“今天天晴”，即得到的2个第一文本包括“今天晴天”和“今天天晴”，并且还可得到第一字符序列L1的第一概率得分以及第一字符序列L2的第一概率得分，后续在上述2个第一文本中确定第一语言模型的第一目标文本即第一目标字符序列。又例如，通过第二语言模型识别音素序列的多个第二字符序列包括第二字符序列L3和第二字符序列L4，第二字符序列L3为“今天晴天”，第二字符序列L4为“今天下雨”，即得到的2个第二文本包括“今天晴天”和“今天下雨”，并且还可得到第二字符序列L3的第人概率得分以及第二字符序列L4的第儿概率得分，后续在上述2个第二文本中确定第二语言模型的第二目标文本即第二目标字符序列。

语言模型基于音素序列确定字符序列，需要说明的是，基于音素序列确定字符序列的过程中，例如通过第一语言模型识别音素序列的多个第一字符序列，以及通过第二语言模型识别音素序列的多个第二字符序列的过程中，首先通过词典确定目标声学模型输出的音素序列对应的词序列，词典可以理解为包括音素与词的映射关系，然后，将音素序列对应的词序列分别输入第一语言模型和第二语言模型，通过第一语言模型确定多个第一字符序列，通过第二语言模型确定多个第二字符序列。在本实施例中，目标语言模型为已训练的语言模型，包括第一语言模型和第二语言模型，可通过第一语言模型识别音素序列的多个第一字符序列以及得到多个第一字符序列的第一概率得分，以及可通过第二语言模型识别音素序列的多个第二字符序列以及得到多个第二字符序列的第二概率得分。即第一语言模型和第二语言模型相互独立，对音素序列进行独立处理。

步骤1033：通过解码算法从多个第一字符序列中确定第一目标字符序列，以及从多个第二字符序列中确定第二目标字符序列。

可将多个第一字符序列的第一概率得分以及多个第二字符序列的第二概率得分作为解码算法的输入，通过解码算法分别从多个第一字符序列中确定第一目标字符序列，以及从多个第二字符序列中确定第二目标字符序列。需要说明的是，解码算法对第一语言模型的多个第一字符序列以及第二语言模型的多个第二字符序列分别进行独立解码，得到第一目标字符序列和第二目标字符序列。另外，需要说明的是，还需将目标声学模型输出的音素序列作为解码算法的输入，即输入至解码算法，解码算法基于音素序列和多个第一字符序列，在多个第一字符序列中寻找一个最佳的字符序列，即第一目标字符序列。以及解码算法基于音素序列和多个第二字符序列，在多个第二字符序列中寻找一个最佳的字符序列，即第二目标字符序列。需要说明的是，解码算法的种类较多，在本公开实施例中不作限定，例如，上述解码算法可以采用viterbi算法等。

步骤1034：基于第一目标字符序列的第一概率得分以及第二目标字符序列的第二概率得分，从第一目标字符序列以及第二目标字符序列中确定目标字符序列。

确定第一目标字符序列以及第二目标字符序列之后，即可根据第一目标字符序列的第一概率得分以及第二目标字符序列的第二概率得分，从第一目标字符序列以及第二目标字符序列中确定待识别语音的最终字符序列，即目标字符序列，也可以理解为目标文本。

在本实施例中，通过解码算法可从第一语言模型的多个第一字符序列中确定第一目标字符序列，还可从第二语言模型的多个第二字符序列中确定第二目标字符序列，然后还需利用第一目标字符序列的第一概率得分以及第二目标字符序列的第二概率得分，从第一目标字符序列以及第二目标字符序列中确定目标字符序列，如此，可提高目标字符序列的准确性，从而提高语音识别准确性。

在一个实施例中，基于第一目标字符序列的第一概率得分以及第二目标字符序列的第二概率得分，从第一目标字符序列以及第二目标字符序列中确定目标字符序列，包括：基于第一目标字符序列的第一概率得分以及第一语言模型的第一预设系数，确定第一目标概率得分；基于第二目标字符序列的第二概率得分以及第二语言模型的第二预设系数，确定第二目标概率得分；将第一目标概率得分以及第二目标概率得分中最大概率得分对应的字符序列确定为目标字符序列。

需要说明的是，第一预设系数和第二预设系数均大于零。第一预设系数用于表示第一语言模型的重要程度，值越大，第一语言模型越重要，第二预设系数用于表示第二语言模型的重要程度，值越大，第一语言模型越重要。第一预设系数与第二预设系数可以相同或不同，若相同，表示第一语言模型和第二语言模型同等重要。第一预设系数和第二预设系数之和可以为1。

在第一目标字符序列的第一概率得分的基础上，利用第一预设系数计算得到第一目标概率得分，作为一个示例，可以是将第一目标字符序列的第一概率得分乘以第一预设系数得到第一目标概率得分。在第二目标字符序列的第二概率得分的基础上，利用第二预设系数计算得到第二目标概率得分，作为一个示例，可以是将第二目标字符序列的第二概率得分乘以第二预设系数得到第二目标概率得分。

在本实施例中，在确定目标字符序列中，将第一目标字符序列和第二目标字符序列中，第一目标概率得分以及第二目标概率得分中最大概率得分对应的字符序列作为目标字符序列，即目标字符序列为第一目标字符序列和第二目标字符序列中最大概率得分的字符序列，提高目标字符序列的准确性，从而提高语音识别准确性。

在一个示例中，第一预设系数包括第一预设子系数和第二预设子系数，第二预设系数包括第三预设子系数和第四预设子系数，第一预设子系数和第二预设子系数均大于零，第三预设子系数和第四预设子系数均大于零，第一预设子系数和第三预设子系数之和为1，第一预设子系数和第三预设子系数可以相同或不同，第二预设子系数与第四预设子系数可以相同或不同。第一目标概率得分可以是第一目标字符序列的第一概率得分乘以第一预设子系数的结果与第二子系数的和，第二目标概率得分可以是第二目标字符序列的第二概率得分乘以第三预设子系数的结果与第三子系数的和。

在一个实施例中，通过以下方式训练得到目标声学模型：获取第一场景的语音训练样本；基于语音训练样本对第一声学模型进行训练，得到目标声学模型，第一声学模型与已训练的声学模型相同。

即在本实施例中，目标声学模型不但是在已训练的声学模型的基础上进行训练得到，而且是利用第一场景下的语音训练样本对第一声学模型进行训练得到，可增强声学模型对第一场景下的语音的识别能力，如此，在训练过程中，无需大量的语音训练样本，只需在第一场景下的语音训练样本进行训练即可，减少训练成本以及训练周期，而且可提高目标声学模型对语音特征信息识别的准确性。

在一个实施例中，基于语音训练样本对已训练的声学模型进行训练，得到目标声学模型，包括：基于第一正则化准则以及语音训练样本，对第一声学模型进行训练，得到目标声学模型。其中，第一正则化准则与第一损失函数以及第一散度正相关，第一损失函数与训练过程中对语音训练样本的预测输出概率向量以及语音训练样本的真实概率向量相关，第一散度与语音训练样本中每一帧语音样本的第一预测输出概率以及语音训练样本中每一帧语音样本的第二预测输出概率相关，目标帧语音样本的第一预测输出概率为目标帧语音样本在已训练的声学模型中的预测输出概率，目标帧语音样本的第二预测输出概率为在训练过程中目标帧语音样本在第一声学模型中的预测输出概率，目标帧语音样本为语音训练样本中任一帧语音样本。

即在训练过程中，第一声学模型基于语音训练样本会输出预测输出概率向量，而且对于语音训练样本会对应有真实概率向量，真实概率向量会输入到第一声学模型中，通过预测输出概率向量以及真实概率向量，可得到第一损失函数的值。第一正则化准则不仅与第一损失函数正相关，还与第一散度正相关，即在训练过程中，不仅考虑了第一损失函数，而且还考虑了第一散度。需要说明的是，第一损失函数可用于表示语音训练样本的预测输出概率向量与语音训练样本的真实概率向量之间的差异。第一损失函数的值越大，差异越大。

第一散度与第一预测输出概率以及第二预测输出概率相关，第一预测输出概率为语音训练样本中每一帧语音样本在已训练的声学模型中的预测输出概率，第二预测输出概率为在训练过程中每一帧语音样本在第一声学模型中的预测输出概率。即对于语音训练样本，进行分帧处理，会得到多帧语音样本。在训练过程中，第一声学模型对于每一帧语音样本会有一个第二预测输出概率，而且可将语音训练样本的每一帧语音样本输入已训练的声学模型中，得到每一帧语音样本的第一预测输出概率。上述语音训练样本的预测输出概率向量包括语音训练样本的每一帧语音样本的第二预测输出概率，语音训练样本的真实概率向量包括语音训练样本的每一帧语音样本的真实概率向量，任一帧语音样本的真实概率向量包括该帧语音样本属于每个音素类别的真实概率，例如，有C(正整数)个音素类别，即包括C个真实概率。任一帧语音样本的第二预测输出概率中包括该帧语音样本通过第一声学模型预测的该帧语音样本属于每个音素类别的第二概率，例如，有C(正整数)个音素类别，即包括C个第二概率。则任一帧语音样本的第一预测输出概率中包括该帧语音样本通过已训练的声学模型预测的该帧语音样本属于每个音素类别的第一概率，即包括C个第一概率。

在本实施例中，在训练得到目标声学模型的过程中，基于第一正则化准则以及第一场景下的语音训练样本进行训练，得到目标声学模型，其中，第一正则化准则不但考虑了第一损失函数，而且还考虑了第一散度，进而使目标声学模型得到优化，如此可提高训练得到的目标声学模型的准确性。

作为一个示例，第一正则化准则可以是第一损失函数与第一散度的加权和。第一损失函数的权重与第一散度的权重均大于零，且小于1，且第一损失函数的权重与第一散度的权重之和为1。例如，第一散度的权重的范围可以为[0.0625，0.5]，第一损失函数的权重为1减去第一散度的权重，则第一损失函数的权重的范围可以为[0.5，0.9375]。作为一个示例，第一散度与第一预测输出概率以及第二预测输出概率正相关。

在一个实施例中，根据目标声学模型以及目标语言模型，确定语音特征信息对应的目标字符序列之后，还包括：在目标字符序列中包括第一场景下的命令词的情况下，若平均概率得分大于预设阈值，则输出目标字符序列的第一控制指令。其中，平均概率得分为目标字符序列对应的概率得分与待识别语音的总帧数的比值。

需要说明的是，在对待识别语音进行特征提取过程中，是需对待识别语音进行分帧处理，得到待识别语音的多帧语音，然后对每一帧语音进行特征提取，得到每一帧语音的语音特征，从而得到待识别语音的语音特征信息，即语音特征信息包括多帧语音信息的语音特征。上述待识别语音的总帧数即为对待识别语音进行分帧处理得到的多帧语音的总帧数。将目标字符序列对应的概率得分除以待识别语音的总帧数得到帧平均置信度，即平均概率得分。然后比较平均概率得分与预设阈值，若平均概率得分大于预设阈值，则输出目标字符序列的第一控制指令，以减少误识别输出控制指令造成误控制，从而减小误控制风险。第一控制指令为与第一场景相关的控制指令。另外，在本实施例中，还需对目标字符序列中是否包括第一场景下的命令词进行判断，是在目标字符序列中包括第一场景下的命令词的情况下，若平均概率得分大于预设阈值，则输出目标字符序列的第一控制指令，以减小误识别进行控制的风险。

举例说明，若第一场景为电梯识别场景，用户在电梯中输入语音，在输入语音的目标字符序列中包括电梯识别场景下的命令词(例如，去一楼、去一层、取消一楼、取消一层等)的情况下，若平均概率得分大于预设阈值，则将目标字符序列相应的电梯控制指令输出给电梯控制芯片，通过电梯控制芯片控制电梯执行相应的操作，例如，目标字符序列中包括去一楼的命令次，即可控制电梯去一楼，即向一楼运行。

下面以一个具体实施例对上述语音识别方法的过程加以具体说明。以电梯识别场景为例进行说明，通过本公开的语音识别方法能将人在电梯内说出的控制语音转换为相应的目标字符序列，然后将其对应的电梯控制芯片可读的控制指令传递至电梯控制芯片，用以对电梯进行控制。

目前常用的语音识别方案中，首先需要利用大量的电梯环境下的语音作为训练集进行训练，成本高、训练周期长且语音识别准确性较低。本公开针对上述问题，从声学模型，语言模型，解码器(即对应解码算法)三个方面进行优化调整，使用少量电梯环境下的语音迭代更新已有的声学模型(即已训练的声学模型)，并加入一个与电梯环境下的指令词相关的第一语言模型作为辅助，且使用帧平均置信度控制误识别，从而降低训练成本和训练周期，达到提升识别率并控制误识别率的目的。

如图3所示。首先，在已训练的声学模型的基础上，收集少量的电梯环境下的语音训练样本(即真实场景语音数据)进行KL散度(Kullback–Leibler divergence，KLD)迭代，对已训练的声学模型进行加强训练。已训练的声学模型是一个由大数据量训练出的声学模型，例如，可以是应用在音箱识别场景、车载识别场景等的声学模型。收集少量的电梯环境下的语音训练样本，在有效时长上不做限制，一般认为在已训练的声学模型训练数据时长的1％以下。

模型训练即使不断更新模型参数的过程，在本实施例中，目标声学模型的参数W和b通过语音训练样本训练得到。W为目标声学模型的权重参数，b为目标声学模型的偏移参数。语音训练样本的数量有多个，对于每一个语音训练样本S，包括M帧语音样本(可以理解为包括一个样本语音中M帧语音的特征向量)以及对应的真实概率向量，M为正整数，即S＝{(O_m，y_m)|0≤m≤M}，m为整数，O_m为第m帧语音的特征向量，y_m为O_m对应的真实概率向量。散度是度量两个概率分布的相似性的度量指标。例如，本公开实施例中的第一散度定义如下：

其中，R_KLD(W_SI,b_SI；W,b；S)为利用语音训练样本S训练时得到的第一散度，C为音素类别的数量，i为正整数，且1≤i≤C，P_SI(i|O_m；W_SI,b_SI)为通过已训练的声学模型预测的O_m属于音素类别i的第一概率，其中，W_SI为已训练的声学模型的权重参数，b_SI为已训练的声学模型的偏移参数，P(i|O_m；W,b)为通过第一声学模型预测的O_m属于音素类别i的第二概率，其中，W为第一声学模型的权重参数，b为第一声学模型的偏移参数，训练过程中，不断的调整W和b，训练完成后得到的目标声学模型的模型参数即为训练完成得到的W和b，也就是说目标声学模型即为训练完成的第一声学模型。

在训练过程中，使用正则化准则进行参数的调整，即在本实施例中，将第一散度增加到自适应准则中，得到第一正则化准则，公式如下：

J_KLD(W,b；S)＝(1-ρ)J(W,b；S)+ρR_KLD(W_SI,b_SI；W,b；S)。

其中，J_KLD(W,b；S)为第一正则化准则，J(W,b；S)为自适应准则，也可称为第一损失函数，ρ为第一散度的权重，1-ρ则为第一损失函数的权重。ρ可预先根据历史识别效果以及语音训练样本与已训练的声学模型的训练数据(即用于训练得到已训练的声学模型的训练数据)的比例设定。即利用上述第一正则化准则进行训练，实现已训练的声学模型的微调，得到目标声学模型。

然后，在原有通用语言模型即第二语言模型的基础上，增加一个与电梯环境下的命令词相关的第一语言模型，第二语言模型以电梯环境下的命令词训练文本为主进行训练得到，通用语言模型一般用于识别一些通用语句，例如“今天天气怎么样”，第一语言模型则主要用于识别电梯的命令词，例如，“去一楼”、“去二层”以及“取消三楼”等。对于第一语言模型和第二语言模型，采用解码算法独立解码，每个语言模型解得一个最优字符序列和语言模型得分(即概率得分)。第一语言模型设有第一预设系数，包括第一预设子系数scale1和第二预设子系数margin1，第二语言模型设有第二预设系数，包括第三预设子系数scale2和第四预设子系数margin2。第一语言模型的第一目标概率得分PM1＝scale1*P1+margin1，P1为第一概率得分，*表示乘号，第二语言模型的第二目标概率得分PM2＝scale2*P2+margin2，P2为第二概率得分。将第一目标概率得分以及第二目标概率得分中最大概率得分对应的字符序列确定为目标字符序列，即取第一语言模型和第二语言模型目标概率得分最高的字符序列作为待识别语音的识别结果。

其次，在解码器方面，定义帧平均置信度，帧平均置信度＝目标字符序列对应的概率得分/待识别语音的总帧数，预先选取一个适当的预设阈值，在目标字符序列中包括电梯相关的命令词的情况下，判断帧平均置信度是否大于预设阈值，若大于，表示识别成功，将相应的电梯控制指令发送给电梯控制芯片。

将本公开实施例的语音识别方法应用于智能电梯语音交互系统中，以句识别率评价智能电梯语音交互系统对连续语音的正确识别情况，句识别率定义：

其中，上式ρ_SR为句识别率，n_SR为智能电梯语音交互系统正确识别句数，N_SL为标注总句数。通过本公开实施例的语音识别方法，在表1和表2中的场景1，句识别率可在85％以上，在表1和表2场景2，句识别率在75％以上。

表1典型噪声环境

表2典型噪声环境下的语音输入要求

另外，为了使识别出来的字符序列和标准的字符序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的字符序列中字符的总个数的百分比，即为字符错误率，则命令词识别率定义：

T为替换字符个数，D为删除字符个数，R为插入字符个数，N为字符总个数。本公开实施例的语音识别方法在场景1命令词识别率可在95％以上，在场景2命令词识别率在90％以上。

即本公开实施例的语音识别方法中，目标声学模型使用少量电梯环境下的语音训练样本进行训练即可得到，降低训练成本和训练周期，在第二语言模型基础上，加入第二语言模型提高电梯指令词识别率，且定义帧平均置信度，控制电梯指令词误识别。

参见图4，图4是本公开实施例提供的一种语音识别装置400的模块示意图，装置400包括：

语音获取模块401，用于获取待识别语音；

特征提取模块402，用于对待识别语音进行特征提取，获得语音特征信息；

识别模块403，用于根据目标声学模型以及目标语言模型，确定语音特征信息对应的目标字符序列；

参见图5，在一个实施例中，识别模块403，包括：

第一处理模块4031，用于通过目标声学模型识别语音特征信息的音素序列；

第二处理模块4032，用于通过第一语言模型识别音素序列的多个第一字符序列，以及多个第一字符序列的第一概率得分，以及通过第二语言模型识别音素序列的多个第二字符序列，以及多个第二字符序列的第二概率得分；

第一确定模块4033，用于通过解码算法从多个第一字符序列中确定第一目标字符序列，以及从多个第二字符序列中确定第二目标字符序列；

第二确定模块4034，用于基于第一目标字符序列的第一概率得分以及第二目标字符序列的第二概率得分，从第一目标字符序列以及第二目标字符序列中确定目标字符序列。

在一个实施例中，第二确定模块，包括：

第一概率确定模块，用于基于第一目标字符序列的第一概率得分以及第一语言模型的第一预设系数，确定第一目标概率得分；

第二概率确定模块，用于基于第二目标字符序列的第二概率得分以及第二语言模型的第二预设系数，确定第二目标概率得分；

目标字符确定模块，用于将第一目标概率得分以及第二目标概率得分中最大概率得分对应的字符序列确定为目标字符序列。

在一个实施例中，装置400，还包括：

样本获取模块，用于获取第一场景的语音训练样本；

训练模块，用于基于语音训练样本对第一声学模型进行训练，得到目标声学模型，第一声学模型与已训练的声学模型相同。

在一个实施例中，基于语音训练样本进行训练，得到目标声学模型，包括：

基于第一正则化准则以及语音训练样本，对第一声学模型进行训练，得到目标声学模型；

其中，第一正则化准则与第一损失函数以及第一散度正相关，第一损失函数与训练过程中对语音训练样本的预测输出概率向量以及语音训练样本的真实概率向量相关，第一散度与语音训练样本中每一帧语音样本的第一预测输出概率以及语音训练样本中每一帧语音样本的第二预测输出概率相关，目标帧语音样本的第一预测输出概率为语音训练样本中每一帧语音样本在已训练的声学模型中的预测输出概率，目标帧语音样本的第二预测输出概率为在训练过程中每一帧语音样本在第一声学模型中的预测输出概率，目标帧语音样本为语音训练样本中任一帧语音样本。

在一个实施例中，装置400，还包括：

输出模块，用于在目标字符序列中包括第一场景下的命令词的情况下，若平均概率得分大于预设阈值，则输出目标字符序列的第一控制指令；

其中，平均概率得分为目标字符序列对应的概率得分与待识别语音的总帧数的比值。

电子设备300能够实现上述方法实施例中方法实现的各个过程，技术特征一一对应，技术效果相同，为避免重复，这里不再赘述。

在一个实施例中，本公开实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音识别方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本公开各个实施例的方法。

上面结合附图对本公开的实施例进行了描述，但是本公开并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本公开的启示下，在不脱离本公开宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本公开的保护之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音；

对所述待识别语音进行特征提取，获得语音特征信息；

2.如权利要求1所述的方法，其特征在于，所述根据目声学模型以及目标语言模型，确定所述语音特征信息对应的目标字符，包括：

通过所述目标声学模型识别所述语音特征信息的音素序列；

通过所述第一语言模型识别所述音素序列的多个第一字符序列，以及所述多个第一字符序列的第一概率得分，以及通过所述第二语言模型识别所述音素序列的多个第二字符序列，以及所述多个第二字符序列的第二概率得分；

通过解码算法从所述多个第一字符序列中确定第一目标字符序列，以及从所述多个第二字符序列中确定第二目标字符序列；

基于所述第一目标字符序列的第一概率得分以及所述第二目标字符序列的第二概率得分，从所述第一目标字符序列以及所述第二目标字符序列中确定所述目标字符序列。

3.如权利要求2所述的方法，其特征在于，所述基于所述第一目标字符序列的第一概率得分以及所述第二目标字符序列的第二概率得分，从所述第一目标字符序列以及所述第二目标字符序列中确定所述目标字符序列，包括：

基于所述第一目标字符序列的第一概率得分以及所述第一语言模型的第一预设系数，确定第一目标概率得分；

基于所述第二目标字符序列的第二概率得分以及所述第二语言模型的第二预设系数，确定第二目标概率得分；

将所述第一目标概率得分以及所述第二目标概率得分中最大概率得分对应的字符序列确定为所述目标字符序列。

4.如权利要求1所述的方法，其特征在于，通过以下方式训练得到所述目标声学模型：

获取所述第一场景的语音训练样本；

基于所述语音训练样本对第一声学模型进行训练，得到所述目标声学模型，所述第一声学模型与已训练的声学模型相同。

5.如权利要求4所述的方法，其特征在于，所述基于所述语音训练样本进行训练，得到所述目标声学模型，包括：

基于第一正则化准则以及所述语音训练样本，对第一声学模型进行训练，得到所述目标声学模型；

其中，所述第一正则化准则与第一损失函数以及第一散度正相关，所述第一损失函数与训练过程中对所述语音训练样本的预测输出概率向量以及所述语音训练样本的真实概率向量相关，所述第一散度与所述语音训练样本中每一帧语音样本的第一预测输出概率以及所述语音训练样本中每一帧语音样本的第二预测输出概率相关，目标帧语音样本的第一预测输出概率为所述语音训练样本中每一帧语音样本在所述已训练的声学模型中的预测输出概率，所述目标帧语音样本的第二预测输出概率为在训练过程中每一帧语音样本在所述第一声学模型中的预测输出概率，所述目标帧语音样本为所述语音训练样本中任一帧语音样本。

6.如权利要求1所述的方法，其特征在于，所述根据目标声学模型以及目标语言模型，确定所述语音特征信息对应的目标字符序列之后，还包括：

在所述目标字符序列中包括所述第一场景下的命令词的情况下，若平均概率得分大于预设阈值，则输出所述目标字符序列的第一控制指令；

其中，所述平均概率得分为所述目标字符序列对应的概率得分与所述待识别语音的总帧数的比值。

7.一种语音识别装置，其特征在于，所述装置包括：

语音获取模块，用于获取待识别语音；

8.如权利要求7所述的装置，其特征在于，所述识别模块，包括：

第一处理模块，用于通过所述目标声学模型识别所述语音特征信息的音素序列；

第二处理模块，用于通过所述第一语言模型识别所述音素序列的多个第一字符序列，以及所述多个第一字符序列的第一概率得分，以及通过所述第二语言模型识别所述音素序列的多个第二字符序列，以及所述多个第二字符序列的第二概率得分；

第一确定模块，用于通过解码算法从所述多个第一字符序列中确定第一目标字符序列，以及从所述多个第二字符序列中确定第二目标字符序列；

第二确定模块，用于基于所述第一目标字符序列的第一概率得分以及所述第二目标字符序列的第二概率得分，从所述第一目标字符序列以及所述第二目标字符序列中确定所述目标字符序列。

9.如权利要求8所述的装置，其特征在于，所述第二确定模块，包括：

第一概率确定模块，用于基于所述第一目标字符序列的第一概率得分以及所述第一语言模型的第一预设系数，确定第一目标概率得分；

第二概率确定模块，用于基于所述第二目标字符序列的第二概率得分以及所述第二语言模型的第二预设系数，确定第二目标概率得分；

目标字符确定模块，用于将所述第一目标概率得分以及所述第二目标概率得分中最大概率得分对应的字符序列确定为所述目标字符序列。

10.如权利要求7所述的装置，其特征在于，还包括：

样本获取模块，用于获取所述第一场景的语音训练样本；

训练模块，用于基于所述语音训练样本对第一声学模型进行训练，得到所述目标声学模型，所述第一声学模型与已训练的声学模型相同。

11.如权利要求10所述的装置，其特征在于，所述基于所述语音训练样本进行训练，得到所述目标声学模型，包括：

12.如权利要求7所述的装置，其特征在于，还包括：

输出模块，用于在所述目标字符序列中包括所述第一场景下的命令词的情况下，若平均概率得分大于预设阈值，则输出所述目标字符序列的第一控制指令；

13.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6中任一所述的方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法中的步骤。