CN114708854A

CN114708854A - 语音识别方法、装置、电子设备和存储介质

Info

Publication number: CN114708854A
Application number: CN202210283915.2A
Authority: CN
Inventors: 杨军; 方磊; 桑宏报; 何雪; 胡鹏; 周振昆; 宣璇; 方四安; 柳林
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-07-05

Abstract

本发明提供一种语音识别方法、装置、电子设备和存储介质，所述方法包括：确定待识别语音；基于第一语音识别模型，对待识别语音的频谱特征进行声学状态预测，得到待识别语音的第一声学状态后验概率；基于第二语音识别模型，对待识别语音的语义特征进行声学状态预测，得到待识别语音的第二声学状态后验概率；融合第一声学状态后验概率和第二声学状态后验概率，基于融合得到的融合后验概率进行语音识别解码，得到待识别语音的识别文本。本发明提供的语音识别方法、装置、电子设备和存储介质，在领域场景下能够准确进行语音识别。

Description

语音识别方法、装置、电子设备和存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的迅速发展，语音识别技术在教育、娱乐、医疗、交通等各领域得到的广泛应用。

目前，多通过采集通用场景下的大量语料数据训练得到语音识别模型，并基于语音识别模型进行语音识别。然而，该语音识别模型应用于特定领域场景下时，语音识别精度较低。

发明内容

本发明提供一种语音识别方法、装置、电子设备和存储介质，用以解决现有技术中在特定领域场景下语音识别精度较低的缺陷。

本发明提供一种语音识别方法，包括：

确定待识别语音；

基于第一语音识别模型，对所述待识别语音的频谱特征进行声学状态预测，得到所述待识别语音的第一声学状态后验概率；

基于第二语音识别模型，对所述待识别语音的语义特征进行声学状态预测，得到所述待识别语音的第二声学状态后验概率；

融合所述第一声学状态后验概率和所述第二声学状态后验概率，基于融合得到的融合后验概率进行语音识别解码，得到所述待识别语音的识别文本；

所述第一语音识别模型基于领域样本语音的频谱特征及其标签识别文本训练得到，所述第二语音识别模型基于所述领域样本语音的语义特征及其标签识别文本训练得到。

根据本发明提供的一种语音识别方法，所述基于融合得到的融合后验概率进行语音识别解码，得到所述待识别语音的识别文本，包括：

基于所述融合后验概率进行语音识别解码，得到至少两个第一候选文本；

基于各第一候选文本分别与所述待识别语音的声学贴合度，和/或，各第一候选文本的语言流畅度，确定各第一候选文本的识别得分；

基于各第一候选文本的识别得分，确定所述待识别语音的识别文本。

根据本发明提供的一种语音识别方法，所述基于各第一候选文本的识别得分，确定所述待识别语音的识别文本，包括：

基于第三语音识别模型，对所述待识别语音的频谱特征进行语音识别，得到至少两个第二候选文本；

基于各第二候选文本的识别得分，确定参照识别文本；

基于所述参照识别文本的字符数以及所述待识别语音的语音时长，确定所述参照识别文本的单位时长字符数；

基于所述参照识别文本的单位时长字符数，以及各第一候选文本的识别得分，确定所述识别文本；

所述各第二候选文本是基于第三语音识别模型，对所述待识别语音的频谱特征进行语音识别得到的，所述第三语音识别模型基于领域样本语音的频谱特征及其标签识别文本训练得到。

根据本发明提供的一种语音识别方法，所述基于所述参照识别文本的单位时长字符数，以及各第一候选文本的识别得分，确定所述识别文本，包括：

在所述参照识别文本的单位时长字符数小于等于字符阈值的情况下，基于所述各第一候选文本的识别得分，以及所述各第二候选文本的识别得分，确定所述识别文本。

在所述参照识别文本的单位时长字符数大于字符阈值的情况下，基于各第一候选文本的识别得分，确定所述识别文本。

根据本发明提供的一种语音识别方法，所述各第一候选文本分别与所述待识别语音的声学贴合度的确定步骤包括：

基于第四语音识别模型，对所述待识别语音进行语音识别，得到所述各第一候选文本作为所述第四语音识别模型的识别结果的识别概率，将所述识别概率确定为所述声学贴合度；

所述第四语音识别模型基于领域样本语音的频谱特征及其标签识别文本训练得到，所述第四语音识别模型与所述第二语音识别模型的结构不同；

所述各第一候选文本分别与所述待识别语音的语言流畅度的确定步骤包括：

基于第五语音识别模型，对所述待识别语音进行语音识别，得到所述各第一候选文本作为所述第五语音识别模型的识别结果的识别概率，将所述识别概率作为所述语言流畅度；

所述第五语音识别模型基于通用样本语音的频谱特征及其标签识别文本训练得到，所述第五语音识别模型与所述第四语音识别模型的结构不同。

根据本发明提供的一种语音识别方法，所述融合所述第一声学状态后验概率和所述第二声学状态后验概率，基于融合得到的融合后验概率进行语音识别解码，得到所述待识别语音的识别文本，包括：

基于预设权重，对所述第一声学状态后验概率和所述第二声学状态后验概率进行加权融合，得到所述融合后验概率；

基于所述融合后验概率进行语音识别解码，得到所述待识别语音的识别文本。

本发明还提供一种语音识别装置，包括：

语音确定单元，用于确定待识别语音；

第一预测单元，用于基于第一语音识别模型，对所述待识别语音的频谱特征进行声学状态预测，得到所述待识别语音的第一声学状态后验概率；

第二预测单元，用于基于第二语音识别模型，对所述待识别语音的语义特征进行声学状态预测，得到所述待识别语音的第二声学状态后验概率；

语音识别单元，用于融合所述第一声学状态后验概率和所述第二声学状态后验概率，基于融合得到的融合后验概率进行语音识别解码，得到所述待识别语音的识别文本；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

本发明提供的语音识别方法、装置、电子设备和存储介质，融合第一声学状态后验概率和第二声学状态后验概率，使得融合得到的融合后验概率中融合有频谱特征的后验概率和语义特征的后验概率，实现频谱特征与语义特征在语音识别时的互补，从而能够基于融合后得到的融合后验概率准确进行语音识别解码，进而准确对领域场景下的语音进行识别。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音识别方法的流程示意图；

图2是本发明提供的语音识别方法中步骤140的实施方式的流程示意图之一；

图3是本发明提供的语音识别方法中步骤143a的实施方式的流程示意图；

图4是本发明提供的语音识别方法中步骤140的实施方式的流程示意图之二；

图5是本发明提供的语音识别装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着人工智能技术的迅速发展，语音识别技术在教育、娱乐、医疗、交通等各领域得到的广泛应用。目前，多通过采集通用场景下的大量语料数据训练得到语音识别模型，并基于语音识别模型进行语音识别，且该语音识别模型应用于通用场景下时具有较好的识别效果。

然而，由于特定领域场景与通用场景分别对应的待识别语音在信道、主题、话者、环境噪声等方面均存在不同程度的差异，从而在将传统方法中训练得到的语音识别模型应用于特定场景下时，识别效果较差。

此外，若基于特定领域场景下的语料数据训练得到特定领域场景下的语音识别模型，为了能够使得训练得到的模型能够具有较好的识别效果，则需要大量特定领域场景下的语料数据，但在特定领域场景下的语料数据通常不易获取，也就是获取足量特定领域场景下的语料数据难度较大。

对此，本发明提供一种语音识别方法。图1是本发明提供的语音识别方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、确定待识别语音。

具体地，待识别语音即需要进行语音识别的语音数据。其中，待识别语音可以是用户通过电子设备实时录制的语音数据，此处电子设备可以是智能手机、平板电脑，还可以是智能电器例如音响、电视和空调等，电子设备在得到待识别语音后，还可以对待识别语音进行放大和降噪，另外，待识别语音也可以是已存储或接收到的语音数据，本发明实施例对此不作具体限定。

步骤120、基于第一语音识别模型，对待识别语音的频谱特征进行声学状态预测，得到待识别语音的第一声学状态后验概率；第一语音识别模型基于领域样本语音的频谱特征及其标签识别文本训练得到。

具体地，待识别语音的频谱特征用于表征待识别语音中各分词的音节信息，即可以理解为待识别语音的频谱特征用于表征待识别语音的细节特征信息。

在确定待识别语音后，可以提取待识别语音的频谱特征。其中，可以通过特征提取算法提取待识别语音的频谱特征，如可以基于傅里叶变换提取待识别语音的频谱特征。

在得到待识别语音的频谱特征后，将待识别语音的频谱特征输入至第一语音识别模型，由第一语音识别模型基于频谱特征中包含的各分词的音节信息，进行声学状态预测，得到待识别语音的第一声学状态后验概率。其中，第一声学状态后验概率用于表征频谱特征对应的后验概率，即可以理解为第一声学状态后验概率用于表征频谱特征对于语音识别的重要程度，第一声学状态后验概率越大，表明频谱特征对于语音识别越重要，也就是基于频谱特征进行语音识别后得到的识别结果越准确。

其中，第一语音识别模型基于领域样本语音及其标签识别文本训练得到，领域样本语音是在领域场景下采集的语音，其标签识别文本为领域样本语音对应的标签。其中，领域场景下的语音与通用场景下的语音之间在信道、主题、话者、环境噪声等方面均存在不同程度的差异，如通用场景可以为一般的生活场景，而领域场景可以为特定行业领域场景，如领域场景可以为医疗领域场景。

步骤130、基于第二语音识别模型，对待识别语音的语义特征进行声学状态预测，得到待识别语音的第二声学状态后验概率；第二语音识别模型基于领域样本语音的语义特征及其标签识别文本训练得到。

具体地，待识别语音的语义特征用于表征待识别语音中各分词之间的上下文语义信息，即可以理解为待识别语音的频谱特征用于表征待识别语音的全局特征信息。

在确定待识别语音后，提取待识别语音的语义特征。其中，可以基于领域语音识别模型提取待识别语音的语义特征，该领域语音识别模型可以是基于领域样本语音及其标签识别文本，对第二初始模型进行训练得到。第二初始模型可以基于通用样本语音及其标签识别文本训练得到，通用样本语音领是在通用场景下采集的语音，第一初始模型的结构可以为端到端模型结构。

在得到待识别语音的语义特征后，将待识别语音的语义特征输入至第二语音识别模型，由第二语音识别模型基于语义特征中包含的各分词之间的上下文信息，进行声学状态预测，得到待识别语音的第二声学状态后验概率。其中，第二声学状态后验概率用于表征语义特征对应的后验概率，即可以理解为第二声学状态后验概率用于表征语义特征对于语音识别的重要程度，第二声学状态后验概率越大，表明语义特征对于语音识别越重要，也就是基于语义特征进行语音识别后得到的识别结果越准确。

其中，第二语音识别模型基于领域样本语音及其标签识别文本训练得到，领域样本语音是在领域场景下采集的语音，其标签识别文本为领域样本语音对应的标签，领域场景可以为特定行业领域场景，如领域场景可以为医疗领域场景。其中，领域样本语音的标签识别文本可以基于第一语音识别模型或第二语音识别模型的第一初始模型确定，第一初始模型可以基于通用样本语音及其标签识别文本训练得到。

需要说明的是，第一语音识别模型与第二语音识别模型的结构可以相同或不同，如第一语音识别模型与第二语音识别模型的结构可以均为端到端模型结构，也可以是第一语音识别模型的结构为声学模型+语言模型结构，第二语音识别模型的结构为端到端模型结构，本发明实施例对此不作具体限定。

可以理解的是，第一语音识别模型和第二语音识别模型可以基于领域样本语音及其标签识别文本，对通用语音识别模型进行训练得到。其中，通用语音识别模型是基于通用样本语音及其标签识别文本训练得到，由于通用语音识别模型在通用场景下具备良好的识别效果，也就是通用语音识别模型能够准确对语音中的通用词语、通用语句等进行识别，此时第一语音识别模型和第二语音识别模型可以不需要针对领域场景下的通用词语、通用语句等方面去增量获取对应的领域样本语音进行训练，而可以针对领域场景下的特定词语、特定语句等进行训练，不仅减少了领域样本语音的采集量，而且加快了模型的收敛速度。

步骤140、融合第一声学状态后验概率和第二声学状态后验概率，基于融合得到的融合后验概率进行语音识别解码，得到待识别语音的识别文本。

具体地，频谱特征用于表征各分词的音节信息，语义特征用于表征各分词之间的上下文信息，也就是频谱特征从细节层面表征待识别语音的特征信息，语音特征从全局层面表征待识别语音的特征信息。

对于不同的语音，频谱特征和语义特征进行语音识别时的重要程度可能不同，即对于某些语音，频谱特征的重要程度可能大于语义特征；对于某些语音，语义特征的重要程度可能大于频谱特征。

对此，本发明实施例融合第一声学状态后验概率和第二声学状态后验概率，使得融合得到的融合后验概率中融合有频谱特征的后验概率和语义特征的后验概率，而频谱特征和语义特征是从不同层面表征待识别语音的特征信息，也就是频谱特征和语义特征之间能够实现互补，从而能够基于融合后得到的融合后验概率准确进行语音识别解码，进而准确得到待识别语音的识别文本。

需要说明的是，本发明实施例实现频谱特征和语义特征之间的互补，即能够同时借助频谱特征和语义特征中的信息进行语音识别，从而不需要增量采集领域样本语音及其标签识别文本进行训练去学习频谱特征或语义特征中的信息，减少了领域样本语音的采集量。

本发明实施例提供的语音识别方法，融合第一声学状态后验概率和第二声学状态后验概率，使得融合得到的融合后验概率中融合有频谱特征的后验概率和语义特征的后验概率，实现频谱特征与语义特征在语音识别时的互补，从而能够基于融合后得到的融合后验概率准确进行语音识别解码，进而准确对领域场景下的语音进行识别。

基于上述实施例，图2是本发明提供的语音识别方法中步骤140的实施方式的流程示意图之一，如图2所示，步骤140中基于融合得到的融合后验概率进行语音识别解码，得到待识别语音的识别文本，包括：

步骤141a、基于融合后验概率进行语音识别解码，得到至少两个第一候选文本。

具体地，基于融合后验概率进行语音识别解码后，可以得到至少两个候选识别文本，且各候选识别文本的置信度可能不同。可以将所有候选识别文本作为第一候选文本，也可以选取置信度大于阈值的候选识别文本作为第一候选文本，本发明实施例对此不作具体限定。其中，各候选识别文本的置信度可以采用各第一候选识别文本作为待识别语音的识别结果的概率来表征。

其中，可以采用有限加权状态转换机(Weighted Finite State Transducers,WFST)，联合融合后验概率进行语音识别解码，得到多个第一候选文本。

步骤142a、基于各第一候选文本分别与待识别语音的声学贴合度，和/或各第一候选文本的语言流畅度，各第一候选文本的识别得分；

步骤143a、基于各第一候选文本的识别得分，确定待识别语音的识别文本。

具体地，声学贴合度用于从声学层面表征各第一候选文本中各分词与待识别语音中对应分词的匹配度，声学贴合度越高，表明对应的第一候选文本中各分词与待识别语音中对应分词的匹配度越高，也即对应第一候选文本为识别文本的概率越大。语言流畅度用于从语言层面表征各第一候选文本的语言表达通顺程度，语言流畅度越高，表明对应的第一候选文本语言表达越通顺，也即对应第一候选文本为识别文本的概率越大。各第一候选文本的识别得分用于表征各第一候选文本为待识别语音的识别文本的置信度，识别得分越高，表明对应的第一候选文本为识别文本的置信度越高。

其中，可以将各第一候选文本与待识别语音的声学贴合度作为对应的第一候选文本的识别得分，也可以将各第一候选文本的语言流畅度作为对应第一候选文本的识别得分，还可以对各第一候选文本的声学贴合度和语言流畅度进行加权融合，并以融合后的结果作为对应第一候选文本的识别得分。

在确定各第一候选文本的识别得分后，可以将最大识别得分对应的第一候选文本作为识别文本，也可以将识别得分大于阈值的第一候选文本作为识别文本，本发明实施例对此不作具体限定。

由此可见，本发明实施例基于各第一候选文本分别与待识别语音的声学贴合度，和/或各第一候选文本的语言流畅度，从声学层面和/或语言层面确定各第一候选文本的识别得分，进而可以基于各第一候选文本的识别得分，准确确定待识别语音的识别文本。

基于上述任一实施例，图3是本发明提供的语音识别方法中步骤143a的实施方式的流程示意图，如图3所示，步骤143a具体包括：

步骤1431a、基于第三语音识别模型，对待识别语音的频谱特征进行语音识别，得到至少两个第二候选文本。

具体地，第二候选识别文本是基于第三语音识别模型，对待识别语音的频谱特征进行语音识别得到的，由于频谱特征用于表征待识别语音的细节特征信息，从而第二候选识别文本可以理解为是从局部细节层面得到的识别结果。

步骤1432a、基于各第二候选文本的识别得分，确定参照识别文本。

具体地，各第二候选文本的识别得分用于表征各第二候选文本为待识别语音的识别文本的置信度，识别得分越高，表明对应的第二候选文本为识别文本的置信度越高。其中，各第二候选文本的识别得分可以基于各第二候选文本与待识别语音的声学贴合度，和/或各第二候选文本的语言流畅度确定，如可以将各第二候选文本与待识别语音的声学贴合度作为对应的第二候选文本的识别得分，也可以将各第二候选文本的语言流畅度作为对应第二候选文本的识别得分，还可以对各第二候选文本的声学贴合度和语言流畅度进行加权融合，并以融合后的结果作为对应第二候选文本的识别得分。

可选地，本发明实施例可以以最高识别得分对应的第二候选文本作为参照识别文本，也可以以识别得分大于阈值的第二候选文本作为参照识别文本，本发明实施例对此不作具体限定。

步骤1433a、基于参照识别文本的字符数以及待识别语音的语音时长，确定参照识别文本的单位时长字符数。

具体地，参照识别文本的单位时长字符数指第三语音识别模型对待识别语音进行识别时得到的参照识别文本对应的单位时长字符数，其可以通过待识别语音的语音时长以及参照识别文本的字符数确定，如参照识别文本的单位时长字符数＝参照识别文本的字符数/待识别语音的语音时长。

步骤1434a、基于参照识别文本的单位时长字符数，以及各第一候选文本的识别得分，确定识别文本。

具体地，第三语音识别模型在对待识别语音进行语音识别时，可能会存在插入错误，例如待识别语音为“我爱工作”，但第三语音识别模型可能在识别过程中存在插入错误，从而导致得到的参照识别文本可能为“我爱爱爱爱爱爱爱工作”，明显存在过多插入词“爱”。

鉴于通常情况下用户在单位时长内说话的字符数是有上限的，若参照识别文本的单位时长字符数较大，则表明第三语音识别模型中输出的参照识别文本存在插入错误的概率越高，而各第二候选识别文本是基于第三语音识别模型确定的，即也表明各第二候选识别文本存在插入错误的概率也较高，此时可以基于各第一候选文本的识别得分从各第一候选文本中确定识别文本。若参照识别文本的单位时长字符数较小，则表明第三语音识别模型中输出的参照识别文本存在插入错误的概率越低，而各第二候选识别文本是基于第三语音识别模型确定的，则表明各第二候选识别文本存在插入错误的概率也较低，即第二候选识别文本的置信度较高；同时由于各第一候选文本是结合频谱特征和语义特征得到的识别结果，也即各第一候选文本的置信度较高，此时可以从置信度均较高的各第一候选文本和各第二候选文本中确定识别文本。

由此可见，本发明实施例基于参照识别文本的单位时长字符数，可以确定参照识别文本中是否存在插入错误，进而能够准确获取识别文本。

基于上述任一实施例，步骤1434a具体包括：

在参照识别文本的单位时长字符数小于等于字符阈值的情况下，基于各第一候选文本的识别得分，以及各第二候选文本的识别得分，确定识别文本。

需要说明的是，参照识别文本是从各第二候选文本中确定的文本，即参照识别文本是从局部细节层面得到的识别结果，第一候选文本是基于语义特征进行语音识别得到的，且语义特征用于表征待识别语音中的全局特征信息，从而第一候选识别文本可以理解为是从全局层面得到的识别结果。参照识别文本的单位时长字符数可以理解为用于表征待识别语音的全局特征信息，而参照识别文本是关注细节特征信息得到的识别结果，其在识别过程中可能会忽略全局特征信息，因此本发明实施例基于参照识别文本的单位时长字符数，判断参照识别文本是否存在插入错误。

在参照识别文本的单位时长字符数小于等于字符阈值的情况下，表明第三语音识别模型中输出的参照识别文本存在插入错误的概率较低，而各第二候选识别文本是基于第三语音识别模型确定的，则表明各第二候选识别文本存在插入错误的概率也较低，即第二候选识别文本的置信度较高；同时由于各第一候选文本是结合频谱特征和语义特征得到的识别结果，也即各第一候选文本的置信度较高，此时可以从置信度均较高的各第一候选文本和各第二候选文本中确定识别文本，以实现准确获取待识别语音的识别文本。

基于上述任一实施例，步骤1434a具体包括：

在参照识别文本的单位时长字符数大于字符阈值的情况下，基于各第一候选文本的识别得分，确定识别文本。

具体地，在参照识别文本的单位时长字符数大于字符阈值的情况下，表明第三语音识别模型中输出的参照识别文本存在插入错误的概率越高，而各第二候选识别文本是基于第三语音识别模型确定的，即也表明各第二候选识别文本存在插入错误的概率也较高，即各第二候选识别文本的置信度较低，在此情况下从各第一候选文本中确定识别文本，以准确获取待识别语音的识别文本。

基于上述任一实施例，各第一候选文本分别与待识别语音的声学贴合度的确定步骤包括：

基于第四语音识别模型，对待识别语音进行语音识别，得到各第一候选文本作为第四语音识别模型的识别结果的识别概率，将识别概率确定为声学贴合度；

第四语音识别模型基于领域样本语音的频谱特征及其标签识别文本训练得到，第四语音识别模型与第二语音识别模型的结构不同。

具体地，声学贴合度用于从声学层面表征各第一候选文本中各分词与待识别语音中对应分词的匹配度，声学贴合度越高，表明对应的第一候选文本中各分词与待识别语音中对应分词的匹配度越高，也即对应第一候选文本为识别文本的概率越大。

其中，各第一候选文本的声学贴合度是将待识别语音的频谱特征输入至第四语音识别模型，由第四语音识别模型以各第一候选文本作为识别结果，确定各第一候选文本作为识别结果的识别概率，并将识别概率作为各第一候选文本的声学贴合度。

同理，各第二候选文本的声学贴合度是将待识别语音的频谱特征输入至第四语音识别模型，由第四语音识别模型以各第二候选文本作为识别结果，确定各第二候选文本作为识别结果的识别概率，并将识别概率作为各第二候选文本的声学贴合度。

需要说明的是，第四语音识别模型与第三语音识别模型的结构可以相同或不同，若第四语音识别模型与第三语音识别模型的结构相同，则第二候选文本、第一候选文本的声学贴合度以及第二候选文本的声学贴合度均是基于同一模型确定的，也就是第一候选文本的声学贴合和第二候选文本的声学贴合度是在相同条件下确定的，准确率更高。

基于上述任一实施例，各第一候选文本分别与待识别语音的语言流畅度的确定步骤包括：

基于第五语音识别模型，对待识别语音进行语音识别，得到各第一候选文本作为第五语音识别模型的识别结果的识别概率，将识别概率作为语言流畅度；

第五语音识别模型基于通用样本语音的频谱特征及其标签识别文本训练得到，第五语音识别模型与第四语音识别模型的结构不同。

具体地，语言流畅度用于从语言层面表征各第一候选文本的语言表达通顺程度，语言流畅度越高，表明对应的第一候选文本语言表达越通顺，也即对应第一候选文本为识别文本的概率越大。

其中，各第一候选文本的语言流畅度是将待识别语音的频谱特征输入至第五语音识别模型，由第五语音识别模型以各第一候选文本作为识别结果，确定各第一候选文本作为识别结果的识别概率，并将识别概率作为各第一候选文本的语言流畅度。

同理，各第二候选文本的语言流畅度是将待识别语音的频谱特征输入至第五语音识别模型，由第五语音识别模型以各第二候选文本作为识别结果，确定各第二候选文本作为识别结果的识别概率，并将识别概率作为各第二候选文本的语言流畅度。

其中，第五语音识别模型与第四语音识别模型的结构不同，从而第五语音识别模型和第四语音识别模型能够从不同层面确定候选文本的声学贴合度和语言流畅度。例如，第四语音识别模型可以为声学模型(如端到端模型)，第五语音识别模型可以为语言模型(如GPT-2语言模型)，从而第四语音识别模型可以从声学层面确定声学贴合度，第五语音识别模型可以从语言层面确定语言流畅度，进而准确得到候选文本的识别得分，以准确确定待识别语音的识别文本。

基于上述任一实施例，图4是本发明提供的语音识别方法中步骤140的实施方式的流程示意图之二，如图4所示，步骤140具体包括：

步骤141b、基于预设权重，对第一声学状态后验概率和第二声学状态后验概率进行加权融合，得到融合后验概率；

步骤142b、基于融合后验概率进行语音识别解码，得到待识别语音的识别文本。

具体地，第一声学状态后验概率用于表征频谱特征对应的后验概率，第二声学状态后验概率用于表征语义特征对应的后验概率。对于不同的语音，频谱特征和语义特征进行语音识别时的重要程度可能不同，也即第一声学状态后验概率与第二声学状态后验概率对应的权重不同。

对此，本发明实施例基于预设权重，对第一声学状态后验概率和第二声学状态后验概率进行加权融合，使得融合得到的融合后验概率中融合有频谱特征的后验概率和语义特征的后验概率，而频谱特征和语义特征是从不同层面表征待识别语音的特征信息，也就是频谱特征和语义特征之间能够实现互补，从而能够基于融合后得到的融合后验概率准确进行语音识别解码，进而准确得到待识别语音的识别文本。其中，预设权重可以基于实际情况具体设置，本发明实施例对此不作具体限定。

可选地，融合后验概率可以基于如下公式确定：

式中，

表示融合后验概率，

表示第一声学状态后验概率，

表示第二声学状态后验概率，α表示预设权重，取值范围为(0,1)。

基于上述任一实施例，本发明还提供一种语音识别方法，该方法包括：

首先，确定待识别语音，并提取待识别语音的频谱特征，以及基于领域语音识别模型提取待识别语音的语义特征。其中，领域语音识别模型可以是基于领域样本语音及其标签识别文本，对通用语音识别模型进行训练得到。通用识别语音识别模型基于通用样本语音及其标签识别文本训练得到，其模型结构可以为端到端模型结构。

接着，基于第一语音识别模型，对待识别语音的频谱特征进行声学状态预测，得到待识别语音的第一声学状态后验概率。同时，基于第二语音识别模型，对待识别语音的语义特征进行声学状态预测，得到待识别语音的第二声学状态后验概率。其中，第一语音识别模型基于领域样本语音的频谱特征及其标签识别文本，对第一初始模型进行训练得到，第二语音识别模型基于领域样本语音的语义特征及其标签识别文本，对第一初始模型进行训练得到。第一初始模型基于通用样本语音及其标签识别文本训练得到，第一初始模型结构可以为声学模型+语言模型结构，也即第一语音识别模型与第二语音识别模型的结构相同。

其中，在基于第一初始模型对第一语音识别模型和第二语音识别模型进行训练时，可以采用迁移学习的方式进行训练，还可以采用其它学习方式进行训练，本发明实施例对此不作具体限定。再有，用于训练第一语音识别模型和第二语音识别模型的标签识别文本可以为帧级别状态标签文本，其可以基于第一初始模型对领域样本语音的频谱特征进行语音识别确定。

在确定第一声学状态后验概率和第二声学状态后验概率后，基于预设权重对二者进行融合，得到融合后验概率，并采用WFST进行联合语音识别解码，得到多个第一候选文本。同时，基于第三语音识别模型，对待识别语音的频谱特征进行语音识别，得到多个第二候选文本。其中，第三语音识别模型基于领域样本语音的频谱特征及其标签识别文本训练得到，第三语音识别模型与第一语音识别模型的结构不同，如第一语音识别模型的结构为声学模型+语言模型结构，第三语音识别模型的结构为端到端模型结构。

基于第三语音识别模型，以各第一候选文本作为答案，确定各第一候选文本与待识别语音的声学贴合度，以及基于第五语音识别模型，确定各第一候选文本的语言流畅度，然后对各第一候选文本分别与待识别语音的声学贴合度和各第一候选文本的语言流畅度进行加权融合，确定各第一候选文本的识别得分。其中，第五语音识别模型基于通用样本语音的频谱特征及其标签识别文本训练得到，第五语音识别模型的结构可以为GPT-2语言模型结构。

同理，采用各第一候选文本的识别得分的确定方法，确定各第二候选文本的识别得分。其中，用于确定各第一候选文本和各第二候选文本的识别得分的权重可以根据实际情况设置，本发明实施例对此不作具体限定。

接着，从各第二候选文本中选取识别得分最高的文本作为参照识别文本，并基于参照识别文本的字符数以及待识别语音的语音时长，确定参照识别文本的单位时长字符数。

若参照识别文本的单位时长字符数小于等于字符阈值，则从各第一候选文本和各第二候选文本中选取识别得分最高的文本作为待识别语音的识别文本。若目标文本的单位时长字符数大于字符阈值，则将各第一候选文本中识别得分最高的文本作为待识别语音的识别文本。

由此可见，本发明实施例基于融合得到的融合后验概率，实现频谱特征与语义特征在语音识别时的互补，从而能够基于融合后得到的融合后验概率准确进行语音识别解码，进而准确得到各第一候选文本。同时结合第三语音识别模型和第五语音识别模型确定各第一候选文本的识别得分以及各第二候选文本的识别得分，进而能够准确从各第一候选文本和各第二候选文本中确定待识别语音的识别文本。

下面对本发明提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

基于上述任一实施例，本发明还提供一种语音识别装置，图5是本发明提供的语音识别装置的结构示意图，如图5所示，该装置包括：

语音确定单元510，用于确定待识别语音；

第一预测单元520，用于基于第一语音识别模型，对所述待识别语音的频谱特征进行声学状态预测，得到所述待识别语音的第一声学状态后验概率；

第二预测单元530，用于基于第二语音识别模型，对所述待识别语音的语义特征进行声学状态预测，得到所述待识别语音的第二声学状态后验概率；

语音识别单元540，用于融合所述第一声学状态后验概率和所述第二声学状态后验概率，基于融合得到的融合后验概率进行语音识别解码，得到所述待识别语音的识别文本；

基于上述任一实施例，所述语音识别单元540，包括：

解码单元，用于基于所述融合后验概率进行语音识别解码，得到至少两个第一候选文本；

得分确定单元，用于基于各第一候选文本分别与所述待识别语音的声学贴合度，和/或，各第一候选文本的语言流畅度，确定各第一候选文本的识别得分；

识别文本确定单元，用于基于各第一候选文本的识别得分，确定所述待识别语音的识别文本。

基于上述任一实施例，所述文本确定单元，包括：

候选文本确定单元，用于基于第三语音识别模型，对所述待识别语音的频谱特征进行语音识别，得到至少两个第二候选文本；；

参照文本确定单元，用于基于各第二候选文本的识别得分，确定参照识别文本；

字符数确定单元，用于基于所述参照识别文本的字符数以及所述待识别语音的语音时长，确定所述参照识别文本的单位时长字符数；

文本确定子单元，用于基于所述参照识别文本的单位时长字符数，以及各第一候选文本的识别得分，确定所述识别文本；

基于上述任一实施例，所述文本确定子单元，用于：

基于上述任一实施例，所述装置还包括：

贴合度确定单元，用于基于第四语音识别模型，对所述待识别语音进行语音识别，得到所述各第一候选文本作为所述第四语音识别模型的识别结果的识别概率，将所述识别概率确定为所述声学贴合度；

流畅度确定单元，用于基于第五语音识别模型，对所述待识别语音进行语音识别，得到所述各第一候选文本作为所述第五语音识别模型的识别结果的识别概率，将所述识别概率作为所述语言流畅度；

基于上述任一实施例，所述语音识别单元540，包括：

融合单元，用于基于预设权重，对所述第一声学状态后验概率和所述第二声学状态后验概率进行加权融合，得到所述融合后验概率；

解码单元，用于基于所述融合后验概率进行语音识别解码，得到所述待识别语音的识别文本。

图6是本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、存储器(memory)620、通信接口(Communications Interface)630和通信总线640，其中，处理器610，存储器620，通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令，以执行语音识别方法，该方法包括：确定待识别语音；基于第一语音识别模型，对所述待识别语音的频谱特征进行声学状态预测，得到所述待识别语音的第一声学状态后验概率；基于第二语音识别模型，对所述待识别语音的语义特征进行声学状态预测，得到所述待识别语音的第二声学状态后验概率；融合所述第一声学状态后验概率和所述第二声学状态后验概率，基于融合得到的融合后验概率进行语音识别解码，得到所述待识别语音的识别文本；所述第一语音识别模型基于领域样本语音的频谱特征及其标签识别文本训练得到，所述第二语音识别模型基于所述领域样本语音的语义特征及其标签识别文本训练得到。

此外，上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音识别方法，该方法包括：确定待识别语音；基于第一语音识别模型，对所述待识别语音的频谱特征进行声学状态预测，得到所述待识别语音的第一声学状态后验概率；基于第二语音识别模型，对所述待识别语音的语义特征进行声学状态预测，得到所述待识别语音的第二声学状态后验概率；融合所述第一声学状态后验概率和所述第二声学状态后验概率，基于融合得到的融合后验概率进行语音识别解码，得到所述待识别语音的识别文本；所述第一语音识别模型基于领域样本语音的频谱特征及其标签识别文本训练得到，所述第二语音识别模型基于所述领域样本语音的语义特征及其标签识别文本训练得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音识别方法，该方法包括：确定待识别语音；基于第一语音识别模型，对所述待识别语音的频谱特征进行声学状态预测，得到所述待识别语音的第一声学状态后验概率；基于第二语音识别模型，对所述待识别语音的语义特征进行声学状态预测，得到所述待识别语音的第二声学状态后验概率；融合所述第一声学状态后验概率和所述第二声学状态后验概率，基于融合得到的融合后验概率进行语音识别解码，得到所述待识别语音的识别文本；所述第一语音识别模型基于领域样本语音的频谱特征及其标签识别文本训练得到，所述第二语音识别模型基于所述领域样本语音的语义特征及其标签识别文本训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

确定待识别语音；

2.根据权利要求1所述的语音识别方法，其特征在于，所述基于融合得到的融合后验概率进行语音识别解码，得到所述待识别语音的识别文本，包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述基于各第一候选文本的识别得分，确定所述待识别语音的识别文本，包括：

基于各第二候选文本的识别得分，确定参照识别文本；

4.根据权利要求3所述的语音识别方法，其特征在于，所述基于所述参照识别文本的单位时长字符数，以及各第一候选文本的识别得分，确定所述识别文本，包括：

5.根据权利要求3所述的语音识别方法，其特征在于，所述基于所述参照识别文本的单位时长字符数，以及各第一候选文本的识别得分，确定所述识别文本，包括：

6.根据权利要求2所述的语音识别方法，其特征在于，所述各第一候选文本分别与所述待识别语音的声学贴合度的确定步骤包括：

7.根据权利要求1至6任一项所述的语音识别方法，其特征在于，所述融合所述第一声学状态后验概率和所述第二声学状态后验概率，基于融合得到的融合后验概率进行语音识别解码，得到所述待识别语音的识别文本，包括：

8.一种语音识别装置，其特征在于，包括：

语音确定单元，用于确定待识别语音；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法。