CN112489638B

CN112489638B - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN112489638B
Application number: CN202011272782.6A
Authority: CN
Inventors: 郑晓明; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2023-12-29
Anticipated expiration: 2040-11-13
Also published as: CN112489638A

Abstract

本申请提供了一种语音识别方法、装置、设备及存储介质，涉及语音识别技术领域。通过对待识别语音进行韵律检测，根据韵律检测结果对音素后验概率进行变调，以变调后的音素后验概率进行解码路径搜索，提高语音识别的准确性。对待识别语音进行韵律预测，得到所述待识别语音的韵律结构；根据所述待识别语音的声学特征，对所述待识别语音进行发音预测，得到所述待识别语音的多个音素后验概率；根据所述韵律结构，对所述多个音素后验概率中的一个或多个音素后验概率进行变调；以变调后的多个音素后验概率在有限状态转换器中进行路径搜索，解码得到所述待识别语音的对应文本。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音识别方法、装置、设备及存储介质。

背景技术

语音识别(Automatic Speech Recognition，ASR)是一项研究如何将人类说话的声音识别转换为文本的技术，其广泛应用于语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等服务中。

实际人的发音中，音节在连续发出时会发生音调变化现象，即一些音节的调值会受到后面的音调声调的影响而发生改变。目前的语音识别技术无法在不增加解码路径的情况下，识别出语音中的变调，导致存在变调发音的语音无法被正确识别。

发明内容

本申请实施例提供一种语音识别方法、装置、设备及存储介质，通过对待识别语音进行韵律检测，根据韵律检测结果对音素后验概率进行变调，以变调后的音素后验概率进行解码路径搜索，提高语音识别的准确性。

本申请实施例第一方面提供一种语音识别方法，所述方法包括：

对待识别语音进行韵律预测，得到所述待识别语音的韵律结构；

根据所述待识别语音的声学特征，对所述待识别语音进行发音预测，得到所述待识别语音的多个音素后验概率；

根据所述韵律结构，对所述多个音素后验概率中的一个或多个音素后验概率进行变调；

以变调后的多个音素后验概率在有限状态转换器中进行路径搜索，解码得到所述待识别语音的对应文本。

可选地，根据所述待识别语音的声学特征，对所述待识别语音进行发音预测，得到所述待识别语音的多个音素后验概率，包括：

将所述待识别语音的声学特征输入基于隐马尔可夫模型建立的声学模型，对所述待识别语音进行多状态的发音预测，得到所述待识别语音的多个三音子状态后验概率；

获得每个三音子状态后验概率的原始声调；

根据所述韵律结构，对所述多个音素后验概率中的一个或多个音素后验概率进行变调，包括:

根据所述韵律结构，修改所述多个三音子状态后验概率中的一个或多个三音子状态后验概率的原始声调。

可选地，所述方法还包括：

获得音频样本，并对所述音频样本的每个音频帧标记韵律信息；

将具有韵律信息标记的音频样本输入预设模型，对所述预设模型进行训练；

将经过多次训练后的预设模型确定为韵律预测模型；

对待识别语音进行韵律预测，得到所述待识别语音的韵律结构，包括：

利用所述韵律预测模型对所述待识别语音进行韵律预测，得到所述待识别语音的韵律结构。

可选地，利用所述韵律预测模型对所述待识别语音进行韵律预测，得到所述待识别语音的韵律结构，包括：

利用所述韵律预测模型对所述待识别语音的每个音频帧标记韵律信息；

获得所述待识别语音的所有音频帧形成的时间序列；

根据每个音频帧在所述待识别语音中的延续时长，确定每个音频帧对应的韵律信息在所述时间序列的标记位置；

根据所述标记位置，将所述每个音频帧对应的韵律信息标记到所述时间序列，得到所述待识别语音的韵律结构。

根据所述韵律结构，对所述多个音素后验概率中的一个或多个音素后验概率进行变调，包括：

依次确定所述待识别语音的多个音素后验概率对应的音频帧；

根据多个音频帧在所述待识别语音中的延续时长，确定所述多个音素后验概率对应的时间信息；

根据所述多个音素后验概率对应的时间信息，在所述韵律结构中匹配所述多个音素后验概率对应的韵律信息；

根据所述多个音素后验概率对应的韵律信息，在所述多个音素后验概率中确定一个或多个韵律词；

在任意的韵律词中存在产生变调的预设搭配时，对所述预搭配中的音素后验概率进行变调。

本申请实施例第二方面提供一种语音识别装置，所述装置包括：

韵律预测模块，用于对待识别语音进行韵律预测，得到所述待识别语音的韵律结构；

发音预测模块，用于根据所述待识别语音的声学特征，对所述待识别语音进行发音预测，得到所述待识别语音的多个音素后验概率；

变调模块，用于根据所述韵律结构，对所述多个音素后验概率中的一个或多个音素后验概率进行变调；

解码模块，用于以变调后的多个音素后验概率在有限状态转换器中进行路径搜索，解码得到所述待识别语音的对应文本。

可选地，所述发音预测模块包括：

发音预测子模块，用于将所述待识别语音的声学特征输入基于隐马尔可夫模型建立的声学模型，对所述待识别语音进行多状态的发音预测，得到所述待识别语音的多个三音子状态后验概率；

声调获得子模块，用于获得每个三音子状态后验概率的原始声调；

所述变调模块包括:

声调修改子模块，用于根据所述韵律结构，修改所述多个三音子状态后验概率中的一个或多个三音子状态后验概率的原始声调。

可选地，所述装置还包括；

标记模块，用于获得音频样本，并对所述音频样本的每个音频帧标记韵律信息；

训练模块，用于将具有韵律信息标记的音频样本输入预设模型，对所述预设模型进行训练；

韵律预测模型确定模块，用于将经过多次训练后的预设模型确定为韵律预测模型；

所述韵律预测模块包括：

韵律预测子模块，用于利用所述韵律预测模型对所述待识别语音进行韵律预测，得到所述待识别语音的韵律结构。

可选地，所述韵律预测子模块包括：

第一标记子单元，用于利用所述韵律预测模型对所述待识别语音的每个音频帧标记韵律信息；

获得子单元，用于获得所述待识别语音的所有音频帧形成的时间序列；

标记位置确定子单元，用于根据每个音频帧在所述待识别语音中的延续时长，确定每个音频帧对应的韵律信息在所述时间序列的标记位置；

第二标记子单元，用于根据所述标记位置，将所述每个音频帧对应的韵律信息标记到所述时间序列，得到所述待识别语音的韵律结构。

可选地，所述变调模块包括：

音频帧确定子模块，用于依次确定所述待识别语音的多个音素后验概率对应的音频帧；

时间信息确定子模块，用于根据多个音频帧在所述待识别语音中的延续时长，确定所述多个音素后验概率对应的时间信息；

匹配子模块，用于根据所述多个音素后验概率对应的时间信息，在所述韵律结构中匹配所述多个音素后验概率对应的韵律信息；

韵律词确定子模块，用于根据所述多个音素后验概率对应的韵律信息，在所述多个音素后验概率中确定一个或多个韵律词；

变调子模块，用于在任意的韵律词中存在产生变调的预设搭配时，对所述预搭配中的音素后验概率进行变调。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

本申请在将音素后验概率输入HCLG进行解码前，根据韵律预测结果，判断韵律词对应的音素后验概率是否变调，再将变调后的音素后验概率输入HCLG进行解码，使WFST选择正确的路径对相关音素后验概率进行解码，提高解码的准确性，进而提高语音识别的准确性。并且由于上述方法是在将音素后验概率输入HCLG前，根据待识别语音的韵律信息，动态对音素后验概率进行变调，不会影响WFST在HCLG中对搜索路径的选择，所以本申请通过对语音变调的方式，提高语音识别准确性的方法，不会在解码过程中增加搜索的冗余路径，保证快速解码。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的语音识别的步骤流程图；

图2是本申请实施例中具有韵律信息标记的音频样本的示意图；

图3是本申请实施例中有限状态转换器的示例图；

图4是本申请实施例提出的对音素后验概率进行变调的步骤流程图；

图5是本申请实施例提出的语音识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

语音发音变调可以指在实际人的发音中，音节在连续发出时会发生音调变化现象，即一些音节的调值会受到后面的音调声调的影响而发生改变。例如，“总理”的原始读音为“zong3li3”，拼音后的“3”指的是拼音的音调，在实际人的发音中，由于上下文的语调影响，一般会发生音调变化，即将“总理”读作“zong2li3”，这是词语内的变调。当前的语音识别技术，在不增加解码路径的情况下，无法识别出语音中的发生变调的单词，从而导致语音识别的正确率较低。

如果将各种可能变调的词条加入到发音词典中，只能识别出语音中存在的部分变调情况，即只能识别出用户输入的语音中的词内变调，对于词间变调的情况并不能识别。同时由于词表增加了，会增加路径搜索的冗余，路径的冗余也会带来识别错误的可能。

本申请实施例提出一种语音识别方法，通过对待识别语音进行韵律检测，根据韵律检测结果对音素后验概率进行变调，以变调后的音素后验概率进行解码路径搜索，提高语音识别的准确性。

图1是本申请实施例的语音识别的步骤流程图。如图1所示：

步骤S11：对待识别语音进行韵律预测，得到所述待识别语音的韵律结构；

韵律预测可采用深度学习等各种预测方法。本申请一种实施例提出了韵律预测的方法。

步骤S11-1：获得音频样本，并对所述音频样本的每个音频帧标记韵律信息；

韵律信息可以包括：韵律词、语调短语、语法词等。韵律词是从韵律学的角度定义的，用于表示最小的能够自由运用的语言单位的单词。语法词可以是具有独立语义的单词。语调短语可以是有规则性语法结构的、停延和音步的音域展敛，可以使用规则控制的可能多音步的短语。

以“使用程序节省了时间且提高了数据的准确性”为例，韵律短语可以是“程序节省了时间”，韵律词可以是“准确性”，语法短语可以是“适用程序”、“节约时间”等。

获得音频样本后，先根据音频样本的语义内容获得该音频样本的韵律信息，以及韵律信息在音频样本中的位置，再将韵律信息标记到音频样本对应的音频帧中。

示例地，假设音频样本的内容是“通过展览馆中的文物”，对该音频样本标记韵律信息后，音频样本的内容是“通过#1展览#1馆中#1的#1文物#2”。其中，#1是韵律词的标记，#2是语法词的标记。上述音频样本的内容中，“展览”、“馆中”等词语可以是韵律词，“文物”可以是语法词。

图2是本申请实施例中具有韵律信息标记的音频样本的示意图。如图2所示：25毫秒为一帧，多个音频帧组成音频样本，韵律信息标记在音频帧的对应位置。本申请实施例是在音频文件对应的声谱图中标记相应的韵律信息，具体以内容使“通过#1展览#1馆中#1的#1文物#2”的音频样本为例，在该音频样本对应的声谱图中，或者在音频文件对应的时间图谱中标记韵律信息。

如图2所示，“t”对应第1-5个音频帧，“ong”对应第6-20音频帧，“g”对应第21-30个音频帧，“u”对应31-45个音频帧，“o”对应第46-60个音频帧，可以得到声音谱中，“通过#1”为韵律词，韵律词的标记在音素“o”的位置，图2中第60个音频帧为音素“o”的末端，因此音频样本的第60个音频帧的位置为韵律词“通过”的边界位置。

不位于韵律词边界位置的音频帧可能标记有语法词的标记(#2)，例如音素“u”对应的音频帧的标记可以是#2，不位于韵律词边界位置的音频帧还可能标记空置标记，以表示该音频帧不停顿，例如音素“ong”对应的音频帧的标记可以是空置标记(#0)，以区别该音频帧与位于韵律词边界位置的音频帧。

步骤S11-2：将具有韵律信息标记的音频样本输入预设模型，对所述预设模型进行训练；

预设模型可以是基于支持向量机(SVM)、循环神经网络(RNN)的深度学习方法等建立的神经网络模型。

步骤S11-3：将经过多次训练后的预设模型确定为韵律预测模型；

多次训练后，直至预设模型对音频样本进行韵律检测能够得到准确的韵律信息，以能够对音频准确预测韵律信息的预设模型作为韵律预测模型。具体训练预设模型的方法本申请实施例不做限制。

步骤S11-4：利用所述韵律预测模型对所述待识别语音进行韵律预测，得到所述待识别语音的韵律结构。

待识别语音的韵律结构是指具有韵律标记的时间序列。该时间序列由待识别语音中的音频帧排列形成。

利用标记有韵律信息的音频样本训练得到韵律预测模型，能够对语音(音频)进行韵律预测，从而为音素后验概率变调提供基础。

步骤S12：根据所述待识别语音的声学特征，对所述待识别语音进行发音预测，得到所述待识别语音的多个音素后验概率；

对待识别语音进行特征采集得到的声学特征可以是：基频F0、梅尔倒谱系数MFCC等。对待识别语音进行发音预测是指预测待识别语音的音素。音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。一般地，应用于英语语料的音素可以是应用于汉语语料的音素可以是[a、ai、an、ao、b、c、d、ei、er、en、f、g、h、ui、g、k、n、m、l、ou、p、ing…]。音素后验概率可以指音素的概率向量。在本申请的一种示例中，假设待识别语音的内容是“你好”，提取该待识别语音的声学特征后，将其输入声学模型，得到“nihao”中每个音素状态的音素后验概率，例如音素n的音素后验概率是：[a-0.5％、ai-0.5％、an-1％、ao-0.5％、b-0.6％、c-0.4％、d-0.1％、ei-0.5％、er-2％、en-1％、f-0.5％、g-1％、h-0.3％、ui-0.4、e-0.4％、g-0.5％、k-0.5％、n-80％、i-3％、m-0.5％、l-2％、ou-0.5％、p-0.5％、ing-2％]，n对应的概率得分是80％，那么基于声学模型预测的音素后验概率，“你好”的第一个发音是n。对内容是“你好”的待待识别语音进行发音预测后，可以得到四个音素后验概率。

本申请实施例中的得到的音素后验概率还具有其原始声调。继续以上述示例说明，音素“i”的音素后验概率可以表示为[a-0.5％、ai-0.5％、an-1％、ao-0.5％、b-0.6％、c-0.4％、d-0.1％、ei-0.5％、er-2％、en-1％、f-0.5％、g-1％、h-0.3％、ui-0.4、e-0.4％、g-0.5％、k-0.5％、n-3％、i-80％、m-0.5％、l-2％、ou-0.5％、p-0.5％、ing-2％......]1，1指的是音素后验概率的原始声调。

步骤S13：根据所述韵律结构，对所述多个音素后验概率中的一个或多个音素后验概率进行变调；

由于声学模型是逐帧对待识别语音的声学特征进行的发音预测，那么得到多个音素后验概率也是依据其所对应的音频帧的时间依次排列的。

示例地，内容是“你好”的音频，“你”对应第1-100个音频帧，“好”对应第101-200个音频帧，“你”的发音“ni”中音素“n”的音素后验概率“[a-0.5％、ai-0.5％、an-1％、ao-0.5％、b-0.6％、c-0.4％、d-0.1％、ei-0.5％、er-2％、en-1％、f-0.5％、g-1％、h-0.3％、ui-0.4、e-0.4％、g-0.5％、k-0.5％、n-80％、i-3％、m-0.5％、l-2％、ou-0.5％、p-0.5％、ing-2％......]”对应的是音频的第1-50个音频帧，音素“i”对应的是音频的第51-100个音频帧，依次类推。每个音频帧在音频中的延续时长是25毫秒，那么0-1.25秒的时间对应是音素“n”的音素后验概率。以此类推可以得到每个音素对应的时间，从而依据音素对应的时间，对多个音素的音素后验概率依次排列。

韵律结构可以指具有韵律信息的时间序列，那么根据时间，可以确定韵律结构中，目标韵律信息所在位置对应的音素后验概率。假设韵律结构中韵律词的标记#1位于250毫秒(第100帧)的位置，那么对应到多个音素后验概率，该韵律词的标记#1位于音素“i”的音素后验概率“[a-0.5％、ai-0.5％、an-1％、ao-0.5％、b-0.6％、c-0.4％、d-0.1％、ei-0.5％、er-2％、en-1％、f-0.5％、g-1％、h-0.3％、ui-0.4、e-0.4％、g-0.5％、k-0.5％、n-3％、i-80％、m-0.5％、l-2％、ou-0.5％、p-0.5％、ing-2％......]1”的位置。

以韵律词的标记#1确定韵律词的边界位置，进而在多个音素后验概率中，确定对应韵律词的连续音素组成的音素组合。假设两个连续的音素组合的原始声调都是(上声)三声，则对两个连续的音素中的前一个音素组合进行变调。例如，内容是“这里#1是#1展览馆#1”的待识别语音，韵律词标记#1位于“这里”和“展览馆”的位置，即位于拼音“zheli”中音素“i”的位置，以及位于拼音“zhanlanguan”中音素“an”的位置，连续两个音素组合“zhe4li1”中，音素组合“zhe”和音素组合“li”分别是四声和一声，不对“zhe4li1”进行变调；连续两个音素组合“zhan3lan3guan3”中，音素组合“zhan”、“lan”和音素组合“guan”都是三声，对“zhan3lan3guan3”进行变调。

除此之外，根据韵律词的标记#1确定韵律词的边界位置后，还可以在多个音素后验概率中，确定对应两个相邻的韵律词的音素组合。假设对应两个相邻的韵律词的音素组合中都存在原始声调是(上声)三声的音素，即使这两个原始声调是(上声)三声的音素相邻，也不对这两个音素进行变调。例如，内容是“通过#1展览#1馆中#1的文物”的待识别语音，对其进行韵律预测后，得到音素组合“zhanlan”中的音素“an”后为韵律词的边界位置，那么音素组合“zhanlan”和音素组合“guanzhong”为相邻的音素组合，即使拼音“lan”中的音素“an”与拼音“guan”中的音素“g”相连，并且拼音“lan3”和拼音“guan3”都为三声，由于拼音“lan”与拼音“guan”之间是韵律词边界，所以不需要对“lan3”变调。

步骤S14：以变调后的多个音素后验概率在有限状态转换器中进行路径搜索，解码得到所述待识别语音的对应文本。

有限状态转换器(HCLG)可以是由语言模型(G)，词汇表(L)，上下文相关信息(C)，隐马尔可夫模型(H)构建的从上下文相关音素子状态到词的转换器。

图3是本申请实施例中有限状态转换器的示例图。图3中的示例图是以音频的内容是“你好”、“你说”为例建立的有限状态转换器的示意图。如图3所示，有限状态转换器中具有多个状态节点和转移弧，每个转移弧为一条可能的搜索路径，可以是对应音素的搜索路径，例如“i3/<eps>”、“ao3:<eps>”、“uo1：<eps>”，其中<eps>为占位符，“i”为音素，“3”为声调；也可以是单词(根据语言模型得到)以及择单词的搜索路径，例如“n：你/1.0986”、“h:好/1.792”、“sh：说/1.792”、n：你/0.40527，其中，n为输入字符，你是输出字符，1.0986为选择该条路径的概率；“sil:<eps>/0.69336”为对应静音的转移弧，“sil”为silence的缩写。“#1：<eps>”中的“#1”是消岐符号，<eps>是占位符；；节点3是指：指向节点的多个转移弧可以合并的情况下，可以将指向节点3的多个转移换的概率合并到节点3，输出最终的结果“你好”或“你说”。

图3对应的有限状态转换器仅支持“你好”或你说的搜索结果，语音识别系统中常用的有限状态转换器的状态节点和转移弧有成千上万的数量，具体数据由其所在的语音系统支持的识别语料库决定。

在有限状态转换器中进行路径搜索解码一般使用加权有限状态解码器(WFSTweighted finite-state transducer)执行。

现有技术下音素后验概率，将多个音素后验概率输入HCLG进行解码时，WFST会选择“lan”的转移弧进行路径搜索和解码，虽然输入HCLG的“zhan”“lan”“guan”的音素“an”的音素后验概率的声调是三声，但WFST始终只能基于声调是三声的“lan”对该多个音素后验概率进行解码，无法变调的情况。

而本申请在将音素后验概率输入HCLG进行解码前，根据韵律预测结果，判断韵律词对应的音素后验概率是否变调，再将变调后的音素后验概率输入HCLG进行解码，使WFST选择正确的路径对相关音素后验概率进行解码，提高解码的准确性，进而提高语音识别的准确性。并且由于上述方法是在将音素后验概率输入HCLG前，根据待识别语音的韵律信息，动态对音素后验概率进行变调，不会影响WFST在HCLG中对搜索路径的选择，所以本申请通过对语音变调的方式，提高语音识别准确性的方法，不会在解码过程中增加搜索的冗余路径，保证快速解码。

示例地，本申请实施例在将“展览馆”对应的多个音素后验概率(六个音素后验概率)输入有限状态转换器(HCLG)前，韵律词的标记#1位于“zhan3lan3guan3”的位置，即：“zhan3lan3guan3”#1，由此判断韵律词的边界是“guan”，那么“zhan3lan3guan3”是独立的韵律词，在该韵律词(音素“lan3guan3”对应的韵律词)中，“lan”和“guan”的声调都是三声，进而对“lan”进行变调，得到“zhan3lan2guan3”对应的多个音素后验概率，再将变调后的“zhan3lan2guan3对应的多个音素后验概率输入HCLG，WFST基于二声的lan进行解码。能够正确识别人在说话过程中产生的自然变调情况，进而提高语音识别的准确性。

在本申请的另一种实施例中，利用采用隐马尔科夫模型进行建模的声学模型。

隐马尔可夫模型(HMM Hidden Markov Model)是可以描述等多种状态的模型。因此，采用隐马尔可夫模型建立的声学模型，可以将音素分为三种状态，例如，基于隐马尔可夫模型，可以将音素a，分为a₁、a₂、a₃三种状态。将三音字状态的后验概率进行解码，更能识别实际发音的多种可能，例如方言的不准确发音等，根据对待识别语音预测的韵律信息，对三音字状态的后验概率进行变调，再根据变调后的三音字状态的后验概率进行解码，提高了对多种可能状态的语音识别的准确性，例如方言的变调情况。

获得每个三音子状态后验概率的原始声调；

以音素“n”为例，“n”有三种三音子状态后验概率，即n-1、n-2、n-3的三音子状态后验概率。

音素后验概率的原始声调和三音子状态后验概率的原始声调也是判断是否对音素进行变调的依据。

用于根据所述韵律结构，修改所述多个三音子状态后验概率中的一个或多个三音子状态后验概率的原始声调。

修改三音子状态后验概率的原始声调是指，当同一个韵律词中出现两个三声相连的音素时，例如韵律词“展览馆”对应的音素“zhan3lan3guan3”，将“lan”的三声修改为二声。

本申请另一种实施例提出了利用韵律预测模型进行韵律预测的方法。具体方法如下：

韵律预测模型是在输入的音频文件上标记韵律信息。音频文件可以分为多个音频帧。示例地：一个音频文件由100个25毫秒的音频帧组成，相邻两帧之间有重叠的部分(帧移)，一般情况下帧移为10毫秒，韵律信息标记在组成音频文件的音频帧处。

获得所述待识别语音的所有音频帧形成的时间序列；

由于每个音频帧是25毫秒，所以能够直接根据音频帧的时间，得到时间序列。示例地：一个10帧音频文件的时间序列可以是：[25ms-25ms-25ms-25ms-25ms-25ms-25ms-25ms-25ms-25ms]。

音频帧在待识别语音中的延续时长可以指，播放待识别语音的音频文件时，音频帧的播放时长。

示例地：一个音频文件由10个25毫秒的音频帧组成，假设第二个音频帧的韵律信息是韵律词的标记是#1，那么该韵律词的标记#1在时间序列：[25ms-25ms-25ms-25ms-25ms-25ms-25ms-125ms-25ms-25ms]中的位置是：[25ms-25ms#1-25ms-25ms-25ms-25ms-25ms-25ms-25ms-25ms]

继续以上述示例进行说明，除第二个音频帧的韵律信息是韵律词的标记是#1外，第十个音频帧的韵律信息是韵律词的标记是#2，那么最终得到的韵律结构是：[25ms-25ms#1-25ms-25ms-25ms-25ms-25ms-25ms-25ms-25ms#2]。

本申请实施例对待识别语音进行韵律预测，得到具有训练信息的时间序列，同时待识别语音的多个音素后验概率也是根据待识别语音的每个音频帧得到的，音频帧的时间相同，从而可以根据韵律结构，判断多个音素后验概率中对应韵律词的音素后验概率组合，例如音频词语“展览馆”，根据“展览馆”在音频文件中对应的时长以及韵律结构中韵律词边界#1的位置，可以确定“展览馆”的音素后验概率组合，即拼音“zhanlanguan”对应韵律词，再进一步结合韵律词对应的音素后验概率组合中是否存在三声相连的情况，对音素后验概率进行变调。

本申请另一个实施例提出了对音素后验概率进行变调的方法。图4是本申请实施例提出的对音素后验概率进行变调的步骤流程图。如图4所示：

步骤S41：依次确定所述待识别语音的多个音素后验概率对应的音频帧；步骤S42：根据多个音频帧在所述待识别语音中的延续时长，确定所述多个音素后验概率对应的时间信息；步骤S43：根据所述多个音素后验概率对应的时间信息，在所述韵律结构中匹配所述多个音素后验概率对应的韵律信息；步骤S44：根据所述多个音素后验概率对应的韵律信息，在所述多个音素后验概率中确定一个或多个韵律词；步骤S45：在任意的韵律词中存在产生变调的预设搭配时，对所述预搭配中的音素后验概率进行变调。

预设搭配是指三声和三声相连的音频音素组合。“tongguo”为一种音素组合，其中的音素包括：“t”“ong”“g”“u”“o”。音素后验概率组合是指将“tongguo”中每个音素都以音素后验概率的形式表示。

示例地，假设待识别语音的内容是“通过展览馆中的文物”，对待识别语音进行发音预测后得到多个音素后验概率，其中多个音素后验概率对应的音素是“tong1guo4zhan3lan3guan3zhong1de1wen1wu4”，音素t的音素后验概率是：[a-0.5％、ai-0.5％、an-1％、ao-0.5％、b-0.6％、c-0.4％、d-0.1％、ei-0.5％、er-2％、en-1％、f-0.5％、g-1％、h-0.3％、ui-0.4、e-0.4％g-0.5％、k-0.5％、n-3％、i-1％、m-0.5％、l-2％、ou-0.5％、p-0.5％、ing-2％、t-79％]，其他音素的音素后验概率可以参照音素t的音素后验概率。

假设待识别语音进行韵律预测后的得到的韵律结构是：[25ms-25ms-25ms-25ms#1-25ms-25ms#1-25ms-25ms-25ms-25ms-25ms-25ms-25ms#1]，其中25ms对应一个音素，对应的待识别语音的内容是“这里#1是#1展览馆#1”。

依据“zhe4li1shi4zhan3lan3guan3”对应的音频帧，zh对应待识别语音的第一个音频帧，e对应待识别语音的第二个音频帧，那么在韵律结构[25ms-25ms-25ms-25ms#1-25ms-25ms#1-25ms-25ms-25ms-25ms-25ms-25ms-25ms#1]中匹配“an”的韵律信息是#1，可以确定“zhan3lan3guan3”为一个韵律词，该韵律词的边界位置是“an”进一步检测得到韵律词中“zhan3lan3guan3”存在预设搭配，“zhan”“lan”“guan”都是三声，将“lan”修改为二声。

基于同一发明构思，本申请实施例提供一种语音识别装置。图5是本申请实施例提出的语音识别装置的示意图。如图5所示，该装置包括：

韵律预测模块51，用于对待识别语音进行韵律预测，得到所述待识别语音的韵律结构；

发音预测模块52，用于根据所述待识别语音的声学特征，对所述待识别语音进行发音预测，得到所述待识别语音的多个音素后验概率；

变调模块53，用于根据所述韵律结构，对所述多个音素后验概率中的一个或多个音素后验概率进行变调；

解码模块54，用于以变调后的多个音素后验概率在有限状态转换器中进行路径搜索，解码得到所述待识别语音的对应文本。

可选地，所述发音预测模块包括：

所述变调模块包括:

可选地，所述装置还包括；

所述韵律预测模块包括：

可选地，所述韵律预测子模块包括：

可选地，所述变调模块包括：

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的语音识别方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的语音识别方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进或说明的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音识别方法、装置、设备及存储介质，进行了详细介绍，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

以变调后的多个音素后验概率在有限状态转换器中进行路径搜索，解码得到所述待识别语音的对应文本；

其中所述变调为改变声调。

2.根据权利要求1所述的方法，其特征在于，根据所述待识别语音的声学特征，对所述待识别语音进行发音预测，得到所述待识别语音的多个音素后验概率，包括：

获得每个三音子状态后验概率的原始声调；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将经过多次训练后的预设模型确定为韵律预测模型；

4.根据权利要求3所述的方法，其特征在于，利用所述韵律预测模型对所述待识别语音进行韵律预测，得到所述待识别语音的韵律结构，包括：

获得所述待识别语音的所有音频帧形成的时间序列；

5.根据权利要求1所述的方法，其特征在于，根据所述韵律结构，对所述多个音素后验概率中的一个或多个音素后验概率进行变调，包括：

在任意的韵律词中存在产生变调的预设搭配时，对所述预设搭配中的音素后验概率进行变调。

6.一种语音识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述发音预测模块包括：

所述变调模块包括:

8.根据权利要求6所述的装置，其特征在于，所述装置还包括；

所述韵律预测模块包括：

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-5任一所述的方法的步骤。