CN112687266A

CN112687266A - 语音识别方法、装置、计算机设备和存储介质

Info

Publication number: CN112687266A
Application number: CN202011527331.2A
Authority: CN
Inventors: 赵金昊; 袁丁; 周维聪; 刘云峰; 吴悦
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-20
Anticipated expiration: 2040-12-22
Also published as: CN112687266B

Abstract

本申请提供了一种语音识别方法、装置、计算机设备和存储介质。该方法包括：获取对待识别的音频进行初步解码得到的词图；获取所述音频所属的目标业务场景下的场景语料数据；根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序；将重排序后的词图中每条路径上的词序列，输入至预先训练得到的神经网络语言模型，以通过神经网络语言模型对重排序后的词图进行再次重排序，以对对重排序后各边对应的概率进行修正；所述神经网络语言模型，是使用不分场景的第一原始语料数据训练得到；根据再次重排序后的词图，输出针对所述音频的语音识别结果。本申请的方案能够提高语音识别准确性。

Description

语音识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域和语音识别技术领域，特别是涉及一种语音识别方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了很多先进技术，语音识别技术即为其中一项重要的技术。准确地进行语音识别，在很多领域都有着很重要的意义。

在传统的语音识别过程中，是通过通用模型将原始的音频识别变为词图，基于该词图来达到音频识别的目的。然而，不同的场景会有特定的话语，比如保险和银行的话术存在差异，保险通常推荐保险产品，银行通常办理贷款等业务，因此，通用模型对特定场景的语音识别准确率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够避免响应不灵活的基于语音通话的语音交互方法、装置、计算机设备和存储介质。

一种语音识别方法，所述方法包括：

获取对待识别的音频进行初步解码得到的词图；

获取所述音频所属的目标业务场景下的场景语料数据；所述场景语料数据，是在所述音频所属的目标业务场景下收集的语料数据；

根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序；重排序后的词图中各边对应的概率，是经所述N元语法语言模型进行调整后的概率；

将重排序后的词图中每条路径上的词序列，输入至预先训练得到的神经网络语言模型，以通过神经网络语言模型对重排序后的词图进行再次重排序；所述神经网络语言模型，是使用不分场景的第一原始语料数据训练得到；其中，再次重排序后的词图中各边对应的概率，是对重排序后各边对应的概率进行修正，得到的概率；

根据再次重排序后的词图，输出针对所述音频的语音识别结果。

在其中一个实施例中，所述获取对待识别的音频进行初步解码得到的词图，包括：

获取通用的声学模型和语言模型；所述通用的声学模型和语言模型，是预先使用第二原始语料数据训练得到；

将待识别的音频，输入至所述通用的声学模型和语音模型进行初步解码，得到对应的词图。

在其中一个实施例中，所述词图包括边和节点；所述根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序，包括：

根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序，以确定所述词图中各条边的第一概率；

所述通过神经网络语言模型对重排序后的词图进行再次重排序，包括：

通过神经网络语言模型，对重排序后的词图进行再次重排序，以对重排序后的词图中各条边的第一概率进行修正。

在其中一个实施例中，所述根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序，以确定所述词图中各条边的概率，包括：

使用N元语法算法统计所述场景语料数据中各词组的概率；

根据统计出的各词组的概率，调整所述词图中各条边的概率，以得到词图中各条边调整后的第一概率。

在其中一个实施例中，所述通过神经网络语言模型，对重排序后的词图进行再次重排序，以对重排序后的词图中各条边的第一概率进行修正，包括：

通过神经网络语言模型针对重排序后的词图中各边进行概率预测，得到第二概率；

针对词图中的每条边，按照第一预设比例保留所述每条边对应的所述第一概率，并按照第二预设比例使用每条边所对应的所述第二概率，得到每条边对应的修正后的概率；其中，所述第一预设比例和所述第二预设比例之和为1。

在其中一个实施例中，所述根据再次重排序后的词图，输出针对所述音频的语音识别结果，包括：

确定再次重排序后的词图中各条路径；

根据每条路径上各边所对应的概率，得到每条路径所对应的概率；

将概率最大的路径所对应的词序列，作为所述音频的语音识别结果。

在其中一个实施例中，所述获取所述音频所属的目标业务场景下的场景语料数据，包括：

确定所述音频所属的目标业务场景；

若所述目标业务场景为银行业务场景，则获取在所述银行业务场景下采集的场景语料数据；

若所述目标业务场景为保险业务场景，则获取在所述保险业务场景下采集的场景语料数据。

一种控制语音机器人响应的装置，所述装置包括：

初步解码模块，用于获取对待识别的音频进行初步解码得到的词图；

重排序模块，用于获取所述音频所属的目标业务场景下的场景语料数据；所述场景语料数据，是在所述音频所属的目标业务场景下收集的语料数据；根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序；重排序后的词图中各边对应的概率，是经所述N元语法语言模型进行调整后的概率；将重排序后的词图中每条路径上的词序列，输入至预先训练得到的神经网络语言模型，以通过神经网络语言模型对重排序后的词图进行再次重排序；所述神经网络语言模型，是使用不分场景的第一原始语料数据训练得到；其中，再次重排序后的词图中各边对应的概率，是对重排序后各边对应的概率进行修正，得到的概率；

输出模块，用于根据再次重排序后的词图，输出针对所述音频的语音识别结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取对待识别的音频进行初步解码得到的词图；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取对待识别的音频进行初步解码得到的词图；

上述语音识别方法、装置、计算机设备和存储介质，根据待识别的音频所属的目标业务场景下的场景语料数据，训练N元语法语言模型，以对由该音频初步解码得到的词图进行重排序，从而对该词图各边对应的概率进行调整，使得调整后的词图更加贴合该音频所属的目标业务场景。再将重排序后的词图中每条路径上的词序列，输入至由不分场景的原始语料数据训练的神经网络语言模型，以对重排序后的词图进行再次重排序，从而对使用场景语料数据进行调整后的词图中各边的概率进行修正。通过使用场景语料数据训练的N元语法语言模型对词图重排序、以及使用原始语料数据训练的神经网络语言模型再次进行重排序这两种方式实现串行地重排序，既使用了相符的场景语料数据的特征、又使用了原始语料数据的特征来调整词图，提高了词图的准确性，进而提高了语音识别的准确性。

附图说明

图1为一个实施例中语音识别方法的应用环境图；

图2为一个实施例中语音识别方法的流程示意图；

图3为一个实施例中的词图示意图；

图4为一个实施例中语音识别方法的原理示意图；

图5为另一个实施例中语音识别方法的流程示意图；

图6为一个实施例中语音识别装置的框图；

图7为一个实施例中重排序模块的框图；

图8为一个实施例中计算机设备的内部结构图；

图9另为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音识别方法，可以应用于如图1所示的应用环境中。其中，服务器102通过网络与终端104进行通信。其中，终端104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

服务器102可以获取对终端104发送的待识别的音频进行初步解码得到的词图。其中，终端104可以采集输入的音频，并将采集的音频作为待识别音频发送至服务器102，服务器102可以对待识别的音频进行初步解码得到词图。也可以是终端104自身对待识别的音频进行初步解码得到词图，然后将词图发送至服务器102。对此不作限定。

服务器102可以获取该待识别的音频所属的目标业务场景下的场景语料数据；所述场景语料数据，是在音频所属的目标业务场景下收集的语料数据。服务器102可以根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序；重排序后的词图中各边对应的概率，是经所述N元语法语言模型进行调整后的概率。服务器102可以将重排序后的词图中每条路径上的词序列，输入至预先训练得到的神经网络语言模型，以通过神经网络语言模型对重排序后的词图进行再次重排序；所述神经网络语言模型，是使用不分场景的第一原始语料数据训练得到；其中，再次重排序后的词图中各边对应的概率，是对重排序后各边对应的概率进行修正，得到的概率。服务器102可以根据再次重排序后的词图，得到针对音频的语音识别结果。服务器102可以将语音识别结果发送至终端104。

需要说明的是，图1仅是示意说明，在其他实施例中，终端104采集到音频后，也可以自行执行本申请各实施例中的语音识别方法，而不用发送至服务器102来进行语音识别处理。

在一个实施例中，如图2所示，提供了一种语音识别方法，该方法可以应用于计算机设备，计算机设备可以是终端或服务器，该方法具体可以包括以下步骤：

步骤202，获取对待识别的音频进行初步解码得到的词图。

其中，词图，是包括节点和边的一个有向无环图(directed acyclic graph)。边建于节点与节点之间，即在节点与节点之间建边。

对待识别的音频进行初步解码到得到的词图，即为待识别的音频所表达的句子内容中的各个词构成的图。词图中每条边具有相应的概率，用于表示该条边所对应的词语发生的概率(相当于词之间的打分)。

在一个实施例中，词图中的词可以在边上，即，在词图的节点与节点之间的边上，记录有词。每条边的概率，即用于表示边上的词语发生的概率。

图3为一个实施例中的词图示意图。参见图3，圆形的数字标号则表示节点，节点与节点之间的连线即为边，<s>为起始标识符，</s>为结束标识符。“北京”、“背景”、“换”等词语在词图的边上，而并不在节点上。

在另一个实施例中，词图中的词也可以在节点上，即，在词图的节点上记录词语。节点与节点之间的连线即为边。由于词图是有向图，所以，每条边的概率，用于表示后一个词依赖于前一个词发生的概率。

在一个实施例中，计算机设备可以直接获取已经初步解码得到的词图。

在另一个实施例中，计算机设备也可以对待识别音频进行初步解码，来生成词图。比如，计算机设备可以通过预先训练的通用的语言模型和声学模型对待识别的音频进行初步解码得到词图，也可以采用模板匹配方法、概率语法分析法等传统方法来进行初步解码(即进行初步的语音识别处理)得到词图。这里对获取词图的具体实现方式不做限定。

可以理解，由于词图中具有识别出的各个词语，词语之间的有向关系、以及每条边所对应的词语的发生概率，所以，对待识别的音频进行初步解码，相当于已经对待识别的音频进行了通用的语音识别处理(即使用对所有领域都适用的通用方法，对音频进行了语音识别处理)，词图则相当于待识别的音频的初步语音识别结果。本申请的方案相当于通过后续进阶处理对该初步语音识别结果进行调整，从而提高其语音识别准确性。

步骤204，获取音频所属的目标业务场景下的场景语料数据。

其中，目标业务场景，是指待识别的音频所属的业务场景。即，待识别的音频表达的内容所属业务的领域类型。场景语料数据，是在目标业务场景下收集的所产生的语料数据。可能理解，目标业务场景下的场景语料数据，具有目标业务场景下的特定的语言表达特征。可以理解，场景语料数据是特定业务场景下的语料数据，其数据量比较小。比如，场景语料数据可以仅是50M-100M的小数据量的语料数据。

为了便于理解，现举例说明。假设，如果是银行领域下的业务的相关话术，那么，待识别的音频属于的业务场景即为银行业务场景。银行业务场景下的场景语料数据，则是在处理银行业务时产生的语言内容，比如，在办理银行贷款业务时，产生的就是与办理贷款相关的语言内容，具有办理贷款时特定的语言表达特征。

如果是保险领域下的业务相关话术，则该音频属于的业务场景即为保险业务场景。保险业务场景下的场景语料数据，则是在处理保险业务时产生的语言内容，比如，在推荐保险产品时，产生的就是与保险推荐相关的语言内容，具有推荐保险产品时特定的语言表达特征。

如果是生物医学领域下的业务相关话术，则该音频属于的业务场景即为生物医学业务场景。生物医学业务场景下的场景语料数据，则是在处理生物医学业务时产生的语言内容，比如，在处理生物医学相关业务时，产生的就是与生物医学相关的专业化语言内容，具有生物医学领域特定的语言表达特征。

可以理解，不同的业务场景会有特定的话术，所以，步骤202中经过通用的语音识别处理解码得到的词图，对特定业务场景下的语音识别准确率不高。因此，计算机设备可以识别音频所属的目标业务场景，并获取该目标业务场景下的场景语料数据，并在后续步骤中，结合该场景语料数据对使用通用的语音识别处理得到的词图进行调整，从而使词图更符合该音频所属的特定业务场景。

场景语料数据是对目标业务场景下产生的语料(即语言内容)进行收集得到的。在步骤202之后，如果当前收集的目标业务场景下的场景语料数据满足预设使用条件，则可以直接获取已经收集到的目标业务场景下的场景语料数据。其中，满足预设使用条件，是指满足能够被使用的条件。预设使用条件，可以包括收集的场景语料数据的数量超过预设数量阈值，或者，收集的场景语料数据超过预设数量阈值、且噪声小于预设噪声阈值或范围等。如果当前未收集目标业务场景下的场景语料数据、或者当前收集的该场景语料数据未满足预设使用条件，则可以执行收集目标业务场景下的场景语料数据，直至当前收集的该场景语料数据满足预设使用条件。

在一个实施例中，步骤204获取音频所属的目标业务场景下的场景语料数据，包括：确定音频所属的目标业务场景；若目标业务场景为银行业务场景，则获取在银行业务场景下采集的场景语料数据；若目标业务场景为保险业务场景，则获取在保险业务场景下采集的场景语料数据。

步骤206，根据场景语料数据训练N元语法语言模型，并使用N元语法语言模型对词图进行重排序。

其中，N元语法语言模型，即N-gram语言模型。N元语法语言模型，用于确定按照N元语法将句子划分得到的各个词组的概率。那么，根据场景语料数据训练出的N元语法语言模型，用于确定按照N元语法将场景语料数据划分得到的各个词组的概率。对词图进行重排序，是指重新确定词图中各条边的概率。重排序后的词图中各边对应的概率，是经所述N元语法语言模型进行调整后的概率。

N元语法语言模型中的N是正整数。在一个实施例中，N可以为4，即N元语法语言模型可以为4元语法语言模型。在其他实施例中，N还可以为大于4或者小于4的其他正整数，所以，N元语法语言模型还可以是2元语法语言模型、3元语法语言模型或者5元语法语言模型等，对此不作限定，具体可以根据实际需求确定。

具体地，计算机设备可以使用N元语法算法将场景语料数据划分词组，并计算各个词组的概率，以训练N元语法语言模型。其中，每个词组中词数量小于等于N，每个词组中词的数量可以不同。计算机设备可以使用训练得到的N元语法语言模型中各个词组的概率，对词图进行重排序，以重新确定词图中各条边的概率。从而使词图更符合该音频所属的特定业务场景。

比如，假设该音频用于表达银行业务场景下的贷款业务的话术，以词在节点上的词图结构为例，假设，对该音频进行初步解码得到的词图中存在“分-期”和“分-七”这两条边(可以理解，在词在节点上的词图结构中，“分”、“期”、以及“七”分别位于不同节点上，节点“分”和节点“期”之间存在一条边，节点“分”和节点“七”之间也存在一条边)。在初步解码得到的词图中可能“分-七”这条边比“分-期”这条边的概率高，经过使用银行业务场景下的场景语料数据训练的N元语法语言模型进行重排序后，就会将“分-期”这条边对应的概率提高，将“分-七”这条边对应的概率降低，使得“分-期”这条边的概率高于“分-七”这条边的概率。这样显然更符合银行业务这一特定场景，从而提高了语音识别结果的准确性。

步骤208，将重排序后的词图中每条路径上的词序列，输入至预先训练得到的神经网络语言模型，以通过神经网络语言模型对重排序后的词图进行再次重排序。

其中，神经网络语言模型，是使用不分场景的第一原始语料数据训练得到、用于预测各词组的概率的神经网络模型。再次重排序，是指对由场景语料数据训练的N元语法语言模型进行调整后的词图的各条边的概率，再次进行修正的处理。再次重排序后的词图中各边对应的概率，是对重排序后各边对应的概率进行修正，得到的概率。

可以理解，不分场景的原始语料数据，是经过长期累积得到的不分场景的语料库，其会涵盖多个场景下的语料数据，所以，会比场景语料数据的数据量要大。比如，场景语料数据的数据量可以仅是50M-100M，而原始语料数据的数据量可能是3G大小。

具体地，计算机设备可以基于神经网络技术，预先使用不分场景的第一原始语料数据训练得到神经网络语言模型。计算机设备可以将词图中同一条路径上的各词组成的词序列输入至神经网络语言模型中进行预测，输出该条路径上各词的出现概率，可以理解，各词的出现概率与词图上各边的概率相对应，因此，可以根据神经网络语言模型所预测的路径上各词的出现概率，对使用场景语料数据训练的N元语法语言模型进行重排序后的词图中各边的概率进行再次重排序，以对词图中各边的概率进行修正。

步骤210，根据再次重排序后的词图，输出针对音频的语音识别结果。

具体地，计算机设备可以统计再次重排序后的词图中的各个路径所对应的概率，将概率最大的路径上的具有先后顺序的词序列，作为对音频输出的语音识别结果。

在一个实施例中，步骤210根据再次重排序后的词图，输出针对所述音频的语音识别结果，包括：确定再次重排序后的词图中各条路径；根据每条路径上各边所对应的概率，得到每条路径所对应的概率；将概率最大的路径所对应的词序列，作为所述音频的语音识别结果。

可以理解，词图中的路径是从起始标识符开始，到终止标识符截止的完整路径。从起始标识符到终止标识符之间存在可能存在多条路径。路径上包括多条有向的边和节点。不论词在节点上还是在边上，都属于在路径上，所以，在路径上有一个或多个词。比如，图3中节点1、3、5、6、7和8所在的路径上，就有“北京、换、映、你”这几个词。

具体地，计算机设备可以基于词图这个结构，来确定重排序后的词图中各条路径。计算机设备可以整合每条路径上各边所对应的概率，得到每条路径所对应的概率。计算机设备可以对词图中的各条路径所对应的概率进行大小比对，从中筛选出概率最大的路径。计算机设备可以从词图中提取概率最大的路径上的词，得到词序列，并将该词序列作为该待识别的音频的语音识别结果。

可以理解，初步解码的词图，相当于使用适用于各领域的通用的语音识别方法对音频进行初步的语音识别处理，得到的初步语音识别结果。所以，使用场景语料数据训练N元语法语言模型对该初步得到的词图进行重排序，能够对该词图中各边的概率进行调整，相当于使词图所表示的语音识别结果能够更加贴合音频自身所属的业务场景，从而提高语音识别结果的准确性。接着，再使用神经网络语言模型对词图进行再次重排序，由于神经网络语言模型是使用不分场景的第一原始语料数据训练到得到的，所以，相当于既使用场景特征又使用原始特征，能够修正使用场景语料数据带来的过度场景化的情况。

上述语音识别方法，根据待识别的音频所属的目标业务场景下的场景语料数据，训练N元语法语言模型，以对由该音频初步解码得到的词图进行重排序，从而对该词图各边对应的概率进行调整，使得调整后的词图更加贴合该音频所属的目标业务场景。再将重排序后的词图中每条路径上的词序列，输入至由不分场景的原始语料数据训练的神经网络语言模型，以对重排序后的词图进行再次重排序，从而对使用场景语料数据进行调整后的词图中各边的概率进行修正。通过使用场景语料数据训练的N元语法语言模型对词图重排序、以及使用原始语料数据训练的神经网络语言模型再次进行重排序这两种方式实现串行地重排序，既使用了相符的场景语料数据的特征、又使用了原始语料数据的特征来调整词图，提高了词图的准确性，进而提高了语音识别的准确性。

此外，由于神经网络语言模型能够基于上下文信息进行预测，所以，使用神经网络语言模型对词图进行再次重排序，能够考虑到词图中各路径上的词语的上下文信息，一定程度上能够提高预测的准确性，进而基于此对词图进行再次重排序，根据再次重排序后的词图，输出针对音频的语音识别结果，能够进一步地提高语音识别结果的准确性。

在一个实施例中，所述获取对待识别的音频进行初步解码得到的词图，包括：获取通用的声学模型和语言模型；所述通用的声学模型和语言模型，是预先使用第二原始语料数据训练得到；将待识别的音频，输入至所述通用的声学模型和语音模型进行初步解码，得到对应的词图。

其中，第二原始语料数据，是不分场景的原始语料数据。可以理解，第一原始语料数据和第二原始语料数据可以相同或不同，对此不作限定。

通用的声学模型和语言模型，是对任何场景或任何领域都适用的声学模型和语言模型。可以理解，由于声学模型和语言模型，是根据不分场景的原始语料数据训练得到的，所以，该声学模型和语言模型，是通用的，即对任何场景或任何领域都适用。

具体地，计算机设备可以直接获取已经预先训练的通用的声学模型和语言模型，也可以获取第二原始语料数据，训练通用的声学模型和语言模型。计算机设备可以将待识别的音频输入至通用的声学模型和语音模型进行初步解码，即进行初步的语音识别处理，得到对应的词图。可以理解，得到的词图中各条边具有相对应的概率，即为各边所对应的词的出现概率。

上述实施例中，先使用原始语料数据训练的通用的声学模型和语言模型对音频进行初步解码得到词图，该词图能够反映基础的语音识别结果，后续只需要使用较小量的场景语料数据训练N元语法语言模型来进行调整，即可使词图具备场景特征，相较于将场景语料数据和原始语料数据整合起来训练一个完整的语言模型来解码而言，降低了计算量，且避免了整合场景语料数据和原始语料数据这一繁复处理，提高了效率。

在一个实施例中，所述词图包括边和节点。步骤206所述根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序，包括：根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序，以确定所述词图中各条边的第一概率。步骤208通过神经网络语言模型对重排序后的词图进行再次重排序，包括：通过神经网络语言模型，对重排序后的词图进行再次重排序，以对重排序后的词图中各条边的第一概率进行修正。

其中，第一概率，是使用N元语法语言模型对词图进行重排序后各条边的概率。对第一概率进行修正，是指在第一概率的基础上进行调整。

具体地，计算机设备可以使用N元语法算法将场景语料数据划分词组，并统计各个词组的概率，以训练N元语法语言模型。计算机设备可以根据针对N元语法语言模型统计的由场景语料数据划分得到的词组的概率，对词图进行重排序，以确定词图中各条边的第一概率。

可以理解，场景语料数据是在目标业务场景下独立收集的，所以，可以是用户自己收集场景语料数据而不用对外公开、且也不用从外获取，提高了场景语料数据的真实性以及收集的安全性。

进一步地，计算机设备可以将重排序后的词图中同一条路径上的各词组成的词序列输入至神经网络语言模型中，以对同路径上的各个词组的概率进行预测，并根据神经网络语言模型所预测的概率，来对重排序后的词图中各条边的第一概率进行修正，以对词图进行再次重排序。

可以理解，神经网络语言模型可以在预先训练后直接提供用户使用的，所以，用户只会使用该训练好的神经网络语言模型，而不会向用户保留训练该神经网络语言模型所使用的原始语料数据，进一步地提高了安全性。

在一个实施例中，计算机设备可以保留词图中各边的概率，并将N元语法语言模型中对场景语料数据划分得到的各个词组的概率，与词图中相应的边的概率相结合，以重新确定词图各条边的概率，即得到各条边重新确定后的第一概率。具体地，计算机设备可以确定N元语法语言模型中对场景语料数据划分得到的各个词组在词图中相对应的边，并将各词组的概率与相应的边所对应的概率相乘，得到的概率作为该边调整后的概率。可以理解，若对场景语料数据划分得到的词组，与词图中的边所对应的词组相匹配，则说明该边与对场景语料数据划分得到的该词组相对应。

在一个实施例中，计算机设备也可以将词图中各边的概率删除，然后，将N元语法语言模型中对场景语料数据划分得到的各个词组的概率，作为相应的边重新确定后的概率。即，替代词图中各边原有的概率。

在一个实施例中，根据神经网络语言模型所预测的概率，来对重排序后的词图中各条边的第一概率进行修正，可以是将根据神经网络语言模型所预测的概率与各条边的第一概率进行加权求和。在其他实施例中，也可以是将神经网络语言模型所预测的概率与各条边的第一概率相乘等修正处理。这里并不对具体修正方式做限定，只要能够实现修正概率后的词图所表达的语音识别结果，既保持场景特性，又具有神经网络语言模型所赋予的特征即可。

上述实施例中，先使用场景语料数据训练N元语法语言模型来调整词图，再使用基于原始语料数据训练的神经网络语言模型进行修正，既使用了相符的场景语料数据的特征、又使用了原始语料数据的特征来调整词图，提高了词图的准确性。而且，不需要将场景语料数据与原始语料数据整合在一起，就能够使得词图既具备场景语料数据的特征又具备原始语料数据的特征，既实现了数据的分离，又节省了时间。

在一个实施例中，根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序，以确定所述词图中各条边的第一概率，包括：使用N元语法算法统计所述场景语料数据中各词组的概率；根据统计出的各词组的概率，调整所述词图中各条边的概率，以得到词图中各条边调整后的第一概率。

具体地，计算机设备可以使用N元语法算法将场景语料数据划分词组，以将场景语料数据划分为词数量小于等于N的词组，并统计划分得到的各个词组的概率，以训练N元语法语言模型。计算机设备可以确定N元语法语言模型中对场景语料数据划分得到的各个词组在词图中相对应的边，并根据通过训练N元语法语言模型所统计的各词组的概率，对词图中相应的边所对应的概率进行调整。可以理解，若对场景语料数据划分得到的词组，与词图中的边所对应的词组相匹配，则说明该边与对场景语料数据划分得到的该词组相对应。

在一个实施例中，计算机设备可以将统计的各词组的概率与相应的边所对应的概率相乘，将相乘得到的概率作为该边调整后的第一概率。

在其他实施例中，计算机设备也可以将统计的各词组的概率与相应的边所对应的概率进行加权求和，并将加权求和后得到的概率作为该边调整后的第一概率。具体地，可以为通过训练N元语法语言模型所统计的各词组的概率赋予第一权重，并为词图中相应的边对应的概率赋予第二权重，基于第一权重和第二权重，对统计的各词组的概率与相应的边所对应的概率进行加权求和。其中，第一权重可以大于第二权重。

上述实施例中，使用场景语料数据训练生成N元语法语言模型所需要消耗的资源很少，基本不需要消耗很多内存，而且处理速度很快，在加速的情况下，不到10分钟就可以完成生成和加载，因此，使用该N元语法语言模型能够在消耗较少资源的情况下，就可以为词图赋予场景特征，即，在提高词图准确性的同时，避免了过多资源的消耗以及提高了处理效率。

在一个实施例中，所述通过神经网络语言模型，对重排序后的词图进行再次重排序，以对重排序后的词图中各条边的第一概率进行修正，包括：通过神经网络语言模型针对重排序后的词图中各边进行概率预测，得到第二概率；针对词图中的每条边，按照第一预设比例保留所述每条边对应的所述第一概率，并按照第二预设比例使用每条边所述第二概率，得到每条边对应的修正后的概率；其中，所述第一预设比例和所述第二预设比例之和为1。

其中，第二概率，是由神经网络语言模型对重排序后的词图中各边进行概率预测后，得到的概率。

具体地，计算机设备可以将重排序后的词图中同一条路径上的各词组成的词序列输入至神经网络语言模型中，以对同路径上的各个词组的概率进行预测，并将预测的概率作为路径上各词组所对应的边对应的第二概率。由于，可以通过神经网络语言模型预测出重排序后的词图中各边对应的第二概率。可以理解，词图中的每条边则可以分别对应重排序后的第一概率，以及通过神经网络语言模型预测的第二概率。

因此，针对词图中的每条边，计算机设备可以按照第一预设比例保留所述每条边对应的第一概率，并按照第二预设比例使用每条边所对应的所述第二概率，得到每条边对应的修正后的概率；其中，所述第一预设比例和所述第二预设比例之和为1。第二预设比例可以为经验值。

可以理解，针对词图中的每条边，计算机设备可以将该边对应的所述第一概率乘以第一预设比例，以实现对第一概率的部分保留，并将该边对应的第二概率乘以第二预设比例，然后，将第一概率乘以第一预设比例得到的乘积，与第二概率乘以第二预设比例得到的乘积进行求和，将求和得到的概率作为该边对应的修正后的概率。

在一个实施例中，第一预设比例可以为0.55，第二预设比例可以为0.45。则可以将词图中每条边对应的第一概率(即，经过N元语法语言模型重排序后的概率)保留0.55的占比(即用第一概率乘以0.55)，将剩余的0.45占比的不保留的概率来使用该边对应的第二概率(即，通过神经网络语言模型预测的概率)进行修正调整(即用第二概率乘以0.45后，与第一概率乘以0.55的乘积求和)，得到词图中每条边修正后的概率。

上述实施例中，将使用场景语料数据训练的N元语法语言模型重排序调整后的各边的第一概率、与使用原始语料数据训练的神经网络语言模型预测的各边的第二概率按照预设占比进行融合，得到最后的修正后的概率，相较于单独以某一种结果为主导而言，大大提高了修正的准确性。

图4为一个实施例中语音识别方法的原理示意图。现结合图4描述本申请实施例中语音识别方法的处理流程。具体如下：

1)可以预先使用不分场景的原始语料数据训练得到原始的通用的声学模型和语言模型(如图4中虚线框404中所示)，并发布给特定场景下的用户对象进行使用，用户对象可以是银行或者保险公司或者生物医学公司等。

2)用户对象可以将待识别的音频402先输入至原始的声学模型和语言模型进行初步解码到的词图406。比如，

3)若在该音频所属的目标业务场景下尚未产生足够的场景语料数据，则可以直接使用N元语法算法对词图进行重排序，基于重排序后的词图输出语音识别结果。

4)若在该音频所属的目标业务场景下已产生足够(即满足预设使用条件)的场景语料数据，则收集该目标业务场景下场景语料数据。

比如，如果用户对象是银行，那么，该音频则属于银行业务场景，则收集银行业务场景下产生的场景语料数据(即银行业务对应的场景语料数据)。又比如，如果用户对象是保险公司，那么，该音频则属于保险公司业务场景，则收集保险公司业务场景下产生的场景语料数据(即保险公司业务对应的场景语料数据)。

5)使用这些场景语料数据训练N元语法语言模型408来对初步解码得到的词图406进行重排序(即进行N元语法重排序)，以重新确定词图中各边的概率。

6)将重排序后的词图，使用采用原始语料数据训练得到的神经网络语言模型410进行再次重排序，以对步骤5)中重新确定的词图中各边的概率进行修正，从而对词图进行更新。

7)根据更新后的词图中概率最高的路径上的词序列作为语音识别结果，进行输出。

如图5所示，在一个实施例中，提供了另一种语音识别方法，该方法具体包括以下步骤：

步骤502，预先使用第二原始语料数据训练得到通用的声学模型和语言模型。

步骤504，将待识别的音频，输入至通用的声学模型和语音模型进行初步解码，得到对应的词图。

步骤506，若音频所属的目标业务场景为银行业务场景，则获取在银行业务场景下采集的场景语料数据。

步骤508，若音频所属的目标业务场景为保险业务场景，则获取在保险业务场景下采集的场景语料数据。

步骤510，使用N元语法算法统计场景语料数据中各词组的概率，训练N元语法语言模型。

步骤512，通过训练N元语法语言模型所统计的场景语料数据中各词组的概率，对词图进行N元语法重排序，以调整词图中各条边的概率，得到词图中各条边调整后的第一概率。

步骤514，将重排序后的词图中每条路径上的词序列，输入至预先训练得到的神经网络语言模型，以通过神经网络语言模型针对重排序后的词图中各边进行概率预测，得到第二概率。

步骤516，针对词图中的每条边，按照第一预设比例保留每条边对应的第一概率，并按照第二预设比例使用每条边所对应的第二概率，得到词图中每条边对应的修正后的概率，以对词图进行再次重排序。

步骤518，根据确定再次重排序后的词图中各条路径；根据每条路径上各边所对应的概率，得到每条路径所对应的概率。

步骤520，将概率最大的路径所对应的词序列，作为音频的语音识别结果。

应该理解的是，虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，本申请各实施例的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种语音识别装置，包括：初步解码模块602、重排序模块604以及输出模块606，其中：

初步解码模块602，用于获取对待识别的音频进行初步解码得到的词图；

重排序模块604，用于获取所述音频所属的目标业务场景下的场景语料数据；所述场景语料数据，是在所述音频所属的目标业务场景下收集的语料数据；根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序；重排序后的词图中各边对应的概率，是经所述N元语法语言模型进行调整后的概率；将重排序后的词图中每条路径上的词序列，输入至预先训练得到的神经网络语言模型，以通过神经网络语言模型对重排序后的词图进行再次重排序；所述神经网络语言模型，是使用不分场景的第一原始语料数据训练得到；其中，再次重排序后的词图中各边对应的概率，是对重排序后各边对应的概率进行修正，得到的概率；

输出模块606，用于根据再次重排序后的词图，输出针对所述音频的语音识别结果。

在一个实施例中，初步解码模块602还用于获取通用的声学模型和语言模型；所述通用的声学模型和语言模型，是预先使用第二原始语料数据训练得到；将待识别的音频，输入至所述通用的声学模型和语音模型进行初步解码，得到对应的词图。

如图7所示，在一个实施例中，所述词图包括边和节点。重排序模块604，包括：

N元语法重排序模块604a，用于根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序，以确定所述词图中各条边的第一概率；

神经网络重排序模块604b，用于通过神经网络语言模型，对重排序后的词图进行再次重排序，以对重排序后的词图中各条边的第一概率进行修正。

在一个实施例中，N元语法重排序模块604a还用于使用N元语法算法统计所述场景语料数据中各词组的概率；根据统计出的各词组的概率，调整所述词图中各条边的概率，以得到词图中各条边调整后的第一概率。

在一个实施例中，神经网络重排序模块604b还用于通过神经网络语言模型针对重排序后的词图中各边进行概率预测，得到第二概率；针对词图中的每条边，按照第一预设比例保留所述每条边对应的所述第一概率，并按照第二预设比例使用每条边所对应的所述第二概率，得到每条边对应的修正后的概率；其中，所述第一预设比例和所述第二预设比例之和为1。

在一个实施例中，输出模块606还用于确定再次重排序后的词图中各条路径；根据每条路径上各边所对应的概率，得到每条路径所对应的概率；将概率最大的路径所对应的词序列，作为所述音频的语音识别结果。

在一个实施例中，初步解码模块602还用于确定所述音频所属的目标业务场景；若所述目标业务场景为银行业务场景，则获取在所述银行业务场景下采集的场景语料数据；若所述目标业务场景为保险业务场景，则获取在所述保险业务场景下采集的场景语料数据。

关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8或图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取对待识别的音频进行初步解码得到的词图；

使用N元语法算法统计所述场景语料数据中各词组的概率；

确定再次重排序后的词图中各条路径；

确定所述音频所属的目标业务场景；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取对待识别的音频进行初步解码得到的词图；

使用N元语法算法统计所述场景语料数据中各词组的概率；

确定再次重排序后的词图中各条路径；

确定所述音频所属的目标业务场景；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取对待识别的音频进行初步解码得到的词图；

2.根据权利要求1所述的方法，其特征在于，所述获取对待识别的音频进行初步解码得到的词图，包括：

3.根据权利要求1所述的方法，其特征在于，所述词图包括边和节点；所述根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述场景语料数据训练N元语法语言模型，并使用所述N元语法语言模型对所述词图进行重排序，以确定所述词图中各条边的概率，包括：

使用N元语法算法统计所述场景语料数据中各词组的概率；

5.根据权利要求3所述的方法，其特征在于，所述通过神经网络语言模型，对重排序后的词图进行再次重排序，以对重排序后的词图中各条边的第一概率进行修正，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据再次重排序后的词图，输出针对所述音频的语音识别结果，包括：

确定再次重排序后的词图中各条路径；

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述获取所述音频所属的目标业务场景下的场景语料数据，包括：

确定所述音频所属的目标业务场景；

8.一种控制语音机器人响应的装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。