CN110390948B

CN110390948B - 一种快速语音识别的方法及系统

Info

Publication number: CN110390948B
Application number: CN201910669707.4A
Authority: CN
Inventors: 洪国强; 肖龙源; 李稀敏; 蔡振华; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2022-04-19
Anticipated expiration: 2039-07-24
Also published as: CN110390948A

Abstract

本发明公开了一种快速语音识别的方法及系统，其包括以下步骤：根据预设的文本数据库生成状态网络图；获取待验证语音以及该待验证语音对应的文本内容；根据所述文本内容从所述状态网络图中提取对应的状态路径，所述状态路径的节点为音素；将所述待验证语音划分为一个以上的语音帧，并提取所述语音帧对应的声学特征；将所述声学特征与所述状态路径相对齐，得到每个语音帧对应的节点；根据所述语音帧和对应节点的音素计算其对应的后验概率，并计算所述待验证语音的所有语音帧的平均后验概率；对所述平均后验概率进行阈值计算，判断所述待验证语音与所述文本内容是否相匹配，从而能够减少计算资源消耗和提高计算速度及提高验证的准确率。

Description

一种快速语音识别的方法及系统

技术领域

本发明涉及语音识别技术领域，特别是一种快速语音识别的方法及其应用该方法的系统。

背景技术

随着模式识别和人工智能的发展，语音技术和声纹识别技术得到了长足的进步并开始在实际生活中发挥着越来越重要的作用。

语音识别指的是将语音转化为文本的技术，通过语音识别，计算机能够知道用户口述的文本内容。语音识别的分类，从词汇量多少上，可分为大、中、小规模；从形式上，可分为孤立词和连续语音识别。语音识别技术自20世纪80年代发展到现在，随着语料积累以及算法进步，在识别能力上有了极大的提高。识别对象从最初的小词汇量朗读语音，逐渐扩展为几十万乃至上百万词的大词汇量口语对话。从2012年至今，随着深度学习的推广，基于深度神经网络的语音识别方法再一次大幅度提升了语音识别性能，推动语音识别进入大规模实用阶段。现有技术已经可以在大多数情况下准确识别朗读的数字口令。

声纹识别又称为说话人识别，实现的是从声音到说话人身份的转换。将语音技术应用于身份验证已有一些先例。例如，动态数字声纹识别技术；该技术是让使用者念一段随机数字串(即，动态数字验证)，在保证所念的数字串正确的情况下再进行语音的声纹验证。

但是，传统的动态数字验证方式是将语音内容进行识别和转换为文本内容，并将转换的文本内容与预设的文本内容进行比对，两者一致则认为语音正确。该方法的问题有两个，一个是计算资源消耗和计算速度，另一个是其准确率的问题。

发明内容

本发明为解决上述问题，提供了一种快速语音识别的方法及系统，能够减少计算资源消耗和提高计算速度及提高验证的准确率。

为实现上述目的，本发明采用的技术方案为：

一种快速语音识别的方法，其包括以下步骤：

根据预设的文本数据库生成状态网络图；

获取待验证语音以及该待验证语音对应的文本内容；

根据所述文本内容从所述状态网络图中提取对应的状态路径，所述状态路径的节点为音素；

将所述待验证语音划分为一个以上的语音帧，并提取所述语音帧对应的声学特征；

将所述声学特征与所述状态路径相对齐，得到每个语音帧对应的节点；

根据所述语音帧和对应节点的音素计算其对应的后验概率，并计算所述待验证语音的所有语音帧的平均后验概率；

对所述平均后验概率进行阈值计算，若所述平均后验概率大于预设阈值，则所述待验证语音与所述文本内容相匹配，否则验证不通过。

优选的，所述状态网络图是利用所述文本数据库中的文本进行搭建单词串联网络，并将所述单词串联网络展开成音素网络；再将音素网络中的每个因素转换成对应的隐马尔科夫模型，每个隐马尔科夫模型由若干个状态构成，从而扩展为所述状态网络图。

进一步的，所述状态网络图和提取的所述状态路径为Graph图，是由隐马尔科夫模型、音素、文本构成的有限状态机。

优选的，所述文本数据库中的文本包括数字、字母、词汇中的任一种或者两种以上的组合，所述待验证语音对应的文本内容是从所述文本数据库中的文本中随机抽取的，待验证用户根据该随机抽取的文本内容进行朗读得到所述待验证语音。

优选的，将所述待验证语音划分为一个以上的语音帧，是根据预设的帧长和预设的步长对所述待验证语音进行分帧处理得到所述语音帧；其中，预设的帧长采用25ms，预设的步长采用10ms；所述语音帧对应的声学特征采用mfcc特征、fbank特征、plp特征、lpc特征中的任一种或者两种以上的组合。

优选的，将所述声学特征与所述状态路径相对齐，是利用所述状态路径对所述声学特征的向量序列进行强制对齐，使所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐，并判断对齐后的音素序列和向量序列是否一一对应。

优选的，所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐，是采用viterbi算法对所述音素序列和所述向量序列进行解码操作，得到所述向量序列到所述音素序列的映射关系。

优选的，根据所述语音帧和对应节点的音素计算其对应的后验概率，是通过对所述状态路径的每个音素分别建立一个HMM，每一个HMM具有一个对应的GMM概率密度函数；根据所述语音帧的对应的音素得到该语音帧对应的GMM，该语音帧在所述对应的GMM上的概率即为所述后验概率；将所述待验证语音的所有语音帧的后验概率之和除以所述语音帧的数量，得到所述平均后验概率。

优选的，对所述平均后验概率进行阈值计算，所述预设阈值是根据待验证语音的说话场景、对应的文本内容的类型、使用的语音模型、验证的精度要求进行综合计算得到。

对应的，本发明还提供一种快速语音识别的系统，其包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，所述处理器用于运行所述计算机程序时，执行上述任一项所述方法的步骤。

本发明的有益效果是：

(1)本发明通过将待验证语音的声学特征与对应的文本内容的状态路径进行对齐和计算后验概率和平均后验概率，并根据平均后验概率的阈值计算结果进行判断待验证语音与文本内容是否相匹配，能够减少计算资源消耗和提高计算速度及提高验证的准确率；

(2)本发明的文本内容是从预设的文本数据库中随机抽取，即，文本内容对于待验证用户来说是未知的随机内容，但对于验证系统来说是已知内容，验证准确率更高；

(3)本发明所述文本内容对应的状态路径是从整体的状态网络图中提取生成的小图，待验证语音与文本内容的匹配只需将待验证语音的对应声学特征和文本内容的对应状态路径进行对齐比较，算法更简单，计算量更小；

(4)本发明通过对待验证语音进行分帧处理，将分帧后的语音帧与文本内容对应的状态路径的节点进行映射匹配，算法更准确。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种快速语音识别的方法的流程简图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的一种快速语音识别的方法，其包括以下步骤：

根据预设的文本数据库生成状态网络图；

获取待验证语音以及该待验证语音对应的文本内容；

将所述待验证语音划分为一个以上的语音帧，并提取所述语音帧对应的声学特征(前端特征)；

所述状态网络图是利用所述文本数据库中的文本进行搭建单词串联网络，并将所述单词串联网络展开成音素网络；再将音素网络中的每个因素转换成对应的隐马尔科夫模型，每个隐马尔科夫模型由若干个状态构成，从而扩展为所述状态网络图。本实施例中，所述状态网络图和提取的所述状态路径为Graph图，是由隐马尔科夫模型、音素、文本构成的有限状态机。

所述文本数据库中的文本包括数字、字母、词汇中的任一种或者两种以上的组合，所述待验证语音对应的文本内容是从所述文本数据库中的文本中随机抽取的，待验证用户根据该随机抽取的文本内容进行朗读得到所述待验证语音。本实施例中，所述文本优选为数字型文本。

将所述待验证语音划分为一个以上的语音帧，是根据预设的帧长和预设的步长对所述待验证语音进行分帧处理得到所述语音帧；其中，预设的帧长采用25ms，预设的步长采用10ms；所述语音帧对应的声学特征采用mfcc特征、fbank特征、plp特征、lpc特征中的任一种或者两种以上的组合。所述语音帧与所述声学特征在颗粒度上是一致的，一个语音帧生成一个对应的声学特征。

优选的，在对所述语音帧进行对齐处理之前，还预先对所述语音帧进行数据预处理(去除静寂声音)。计算各帧语音数据的累积能量E，

当所述语音帧的累积能量E大于预设静音阈值，则采纳为有效语音帧，否则为静音帧，并将所述有效语音帧的所述声学特征与所述状态路径相对齐。具体是，利用所述状态路径对所述声学特征的向量序列进行强制对齐，使所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐，并判断对齐后的音素序列和向量序列是否一一对应。其中，所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐，是采用viterbi算法对所述音素序列和所述向量序列进行解码操作，得到所述向量序列到所述音素序列的映射关系。

根据所述语音帧和对应节点的音素计算其对应的后验概率，是通过对所述状态路径的每个音素分别建立一个HMM，每一个HMM具有一个对应的GMM概率密度函数；根据所述语音帧的对应的音素得到该语音帧对应的GMM，该语音帧在所述对应的GMM上的概率即为所述后验概率；将所述待验证语音的所有语音帧的后验概率之和除以所述语音帧的数量，得到所述平均后验概率。

所述平均后验概率的计算公式如下：

其中，Pn为每个语音帧对应的后验概率，N为所述语音帧的数量，∑Pn表示所述待验证语音为所述对应的文本内容的可能值，由于每个待验证用户的说话快慢不一致，时长不同，因此根据上述公式计算得到平均后验概率P，使其判断更准确。

最后，对所述平均后验概率进行阈值计算，所述预设阈值是根据待验证语音的说话场景、对应的文本内容的类型、使用的语音模型、验证的精度要求进行综合计算得到。例如，通过收集真实场景或模拟场景的样本数据和计算得到的平均后验概率，并进行统计分析得到每个场景对应的优选阈值，避免误判。

另外，本发明还提供一种快速语音识别的系统，其包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，所述处理器用于运行所述计算机程序时，执行上述任一项所述方法的步骤。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种快速语音识别的方法，其特征在于，包括以下步骤：

根据预设的文本数据库生成状态网络图；

获取待验证语音以及该待验证语音对应的文本内容；

2.根据权利要求1所述的一种快速语音识别的方法，其特征在于：所述状态网络图是利用所述文本数据库中的文本进行搭建单词串联网络，并将所述单词串联网络展开成音素网络；再将音素网络中的每个音素转换成对应的隐马尔科夫模型，每个隐马尔科夫模型由若干个状态构成，从而扩展为所述状态网络图。

3.根据权利要求1或2所述的一种快速语音识别的方法，其特征在于：所述状态网络图和提取的所述状态路径为Graph图，是由隐马尔科夫模型、音素、文本构成的有限状态机。

4.根据权利要求1所述的一种快速语音识别的方法，其特征在于：所述文本数据库中的文本包括数字、字母、词汇中的任一种或者两种以上的组合，所述待验证语音对应的文本内容是从所述文本数据库中的文本中随机抽取的，待验证用户根据该随机抽取的文本内容进行朗读得到所述待验证语音。

5.根据权利要求1所述的一种快速语音识别的方法，其特征在于：将所述待验证语音划分为一个以上的语音帧，是根据预设的帧长和预设的步长对所述待验证语音进行分帧处理得到所述语音帧；其中，预设的帧长采用25ms，预设的步长采用10ms；所述语音帧对应的声学特征采用mfcc特征、fbank特征、plp特征、lpc特征中的任一种或者两种以上的组合。

6.根据权利要求1所述的一种快速语音识别的方法，其特征在于：将所述声学特征与所述状态路径相对齐，是利用所述状态路径对所述声学特征的向量序列进行强制对齐，使所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐，并判断对齐后的音素序列和向量序列是否一一对应。

7.根据权利要求1或6所述的一种快速语音识别的方法，其特征在于：所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐，是采用viterbi算法对所述音素序列和所述向量序列进行解码操作，得到所述向量序列到所述音素序列的映射关系。

8.根据权利要求1所述的一种快速语音识别的方法，其特征在于：根据所述语音帧和对应节点的音素计算其对应的后验概率，是通过对所述状态路径的每个音素分别建立一个HMM，每一个HMM具有一个对应的GMM概率密度函数；根据所述语音帧的对应的音素得到该语音帧对应的GMM，该语音帧在所述对应的GMM上的概率即为所述后验概率；将所述待验证语音的所有语音帧的后验概率之和除以所述语音帧的数量，得到所述平均后验概率。

9.根据权利要求8所述的一种快速语音识别的方法，其特征在于：对所述平均后验概率进行阈值计算，所述预设阈值是根据待验证语音的说话场景、对应的文本内容的类型、使用的语音模型、验证的精度要求进行综合计算得到。

10.一种快速语音识别的系统，其特征在于，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，所述处理器用于运行所述计算机程序时，执行权利要求1至9任一项所述方法的步骤。