CN104064184B

CN104064184B - 异构解码网络的构建方法及系统、语音识别方法及系统

Info

Publication number: CN104064184B
Application number: CN201410290869.4A
Authority: CN
Inventors: 鹿晓亮; 单言丰; 刘强
Original assignee: iFlytek Co Ltd
Current assignee: Iflytek Medical Technology Co ltd
Priority date: 2014-06-24
Filing date: 2014-06-24
Publication date: 2017-03-08
Anticipated expiration: 2034-06-24
Also published as: CN104064184A

Abstract

本发明公开了一种异构解码网络的构建方法及系统、语音识别方法及系统，构建方法包括：获取业务所需的命令词解码网络和听写解码网络；构建命令词训练数据集和听写训练数据集；利用命令词训练数据集和听写训练数据集，确定命令词解码网络的补偿得分；优化命令词解码网络，并使优化后的命令词解码网络的每个弧上保存有命令词条、补偿得分、以及对应命令词条的声学模型得分；将优化后的命令词解码网络和听写解码网络并联组成异构解码网络。应用本发明实施例异构解码网络的构建方法及系统，通过配置一套识别引擎完成多种不同业务的并联识别、节省系统资源；应用本发明实施例语音识别方法及系统，可以提高识别效果及识别效率，降低系统的复杂度。

Description

异构解码网络的构建方法及系统、语音识别方法及系统

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种异构解码网络的构建方法及系统、语音识别方法及系统。

背景技术

语音识别技术就是让机器通过识别和理解过程将语音信号转变为相应的文本或命令的技术。现有的语音识别系统，通常只能单独支持命令词识别(基于规则的语音识别系统)或听写识别(基于统计的语音识识别系统)。因此，在一些多业务的场景(比如在车载设备上的应用，既需要命令词识别，如“打电话给xxx”、“发短信给xxx”，还需要听写识别，如短信的内容，导航的目的地等；再比如手机语音助手上的使用，对于大部分的功能，比如聊天、查天气、查股票等都是听写识别，但是打电话和发短信功能都是使用的命令词识别)下，需要同时配置这两种系统，实现多种不同语音业务的并联识别。

基于规则的语音识别系统利用命令词解码网络实现解码，而基于统计的语音识别系统利用听写解码网络实现解码。由于这两种类型的解码网络的结构不同，所以针对这两种类型的解码网络需要分别配置不同的识别引擎才能完成识别工作。这种方式不仅会占用大量系统资源，影响系统性能，而且，由于听写解码网络和命令词解码网络的结构不一致，需要进行置信度判决来选择最终的识别结果，可靠性差，效率低，而且增加了整个语音识别系统的复杂度。

发明内容

本发明实施例一方面提供了一种异构解码网络的构建方法及系统，可以在多业务的场景下，通过配置一套识别引擎完成多种不同业务的并联识别、节省系统资源。

本发明实施例另一方面提供了一种基于该异构解码网络的语音识别方法及系统，以提高识别效果及识别效率，降低系统的复杂度。

本发明实施例提供一种异构解码网络的构建方法，包括：

获取业务所需的命令词解码网络和听写解码网络，所述命令词解码网络的每个弧上保存有一个命令词条以及对应所述命令词条的声学模型得分，所述听写解码网络的每个弧上保存有一个听写词条以及均对应所述听写词条的声学模型得分和语言模型得分；

构建命令词训练数据集和听写训练数据集，所述命令词训练数据集内的命令词训练数据由所述命令词条构成，所述听写训练数据集内的听写训练数据由所述听写词条构成；

利用所述命令词训练数据集和所述听写训练数据集，确定命令词解码网络的补偿得分；

优化所述命令词解码网络，并使优化后的命令词解码网络的每个弧上保存有所述命令词条、所述补偿得分、以及对应所述命令词条的声学模型得分；

将优化后的命令词解码网络和所述听写解码网络并联组成异构解码网络。

优选地，所述利用所述命令词训练数据集和所述听写训练数据集，确定命令词解码网络的补偿得分包括：

依次将所述命令词训练数据集内的每一个命令词训练数据输入至所述命令词解码网络和所述听写解码网络，分别得到对应所述命令词训练数据的第一命令词网络得分和第一听写网络得分；所述第一命令词网络得分为与所述命令词训练数据相匹配的命令词条对应的声学模型得分，所述第一听写网络得分为与所述命令词训练数据相匹配的听写词条对应的声学模型得分和语言模型得分之和；

依次将所述听写训练数据集内的每一个听写训练数据分别输入至所述命令词解码网络和所述听写解码网络，分别得到对应所述听写训练数据的第二命令词网络得分和第二听写网络得分，所述第二命令词网络得分为与所述听写训练数据相匹配的命令词条对应的声学模型得分，所述第二听写网络得分为与所述听写训练数据相匹配的听写词条对应的声学模型得分和语言模型得分之和；

确定所述命令词解码网络的补偿得分，并使所述补偿得分满足预设条件：对于命令词训练数据集内的设定比例的命令词训练数据，所述第一命令词网络得分与所述补偿得分之和大于所述第一听写网络得分；对于听写训练数据集内的设定比例的听写训练数据，所述第二命令词网络得分与所述补偿得分之和小于所述第二听写网络得分。

优选地，所述确定所述命令词解码网络的补偿得分，并使所述补偿得分满足预设条件包括：

获取满足第一取值范围且能够整除第一步进量的第一参数，以及满足第二取值范围且能够整除第二步进量的第二参数的所有参数组合；

依次对每一组参数组合，获取所述命令词训练数据集内满足第一预设条件的命令词训练数据个数，所述第一预设条件为：所述第一参数和所述命令词训练数据对应的第一命令词网络得分的乘积与所述第二参数的和，大于所述命令词训练数据对应的第一听写网络得分；

依次对每一组参数组合，获取所述听写训练数据集内满足第二预设条件的听写训练数据个数，所述第二预设条件为：所述第一参数和所述听写训练数据对应的第二命令词网络得分的乘积与所述第二参数的和，小于所述听写训练数据对应的第二听写网络得分；

确定优选参数组合，所述优选参数组合对应的命令词训练数据个数和听写训练数据个数之和，大于其它参数组合对应的命令词训练数据个数和听写训练数据个数之和；

将所述优选参数组合中第一参数和任意第一命令词网络得分的乘积与所述优选参数组合中第二参数的和，再减去所述第一命令词网络得分所得的结果，作为所述命令词解码网络的补偿得分。

获取满足设定的取值范围且能够整除设定的步进量的参数集合；

依次对所述参数集合中的每一个参数，获取所述命令词训练数据集内满足第三预设条件的命令词训练数据个数，所述第三预设条件为：所述命令词训练数据对应的第一命令词网络得分与所述参数的和，大于所述命令词训练数据对应的第一听写网络得分；

依次对所述参数集合中的每一个参数，获取所述听写训练数据集内满足第四预设条件的听写训练数据个数，所述第四预设条件为：所述听写训练数据对应的第二命令词网络得分与所述参数的和，小于所述听写训练数据对应的第二听写网络得分；

确定优选参数，所述优选参数对应的命令词训练数据个数和听写训练数据个数之和，大于其它参数对应的命令词训练数据个数和听写训练数据个数之和；

将所述优选参数作为所述命令词解码网络补偿得分。

本发明实施例还提供一种异构解码网络的构建系统，包括：

解码网络获取单元，用于获取业务所需的命令词解码网络和听写解码网络，所述命令词解码网络的每个弧上保存有一个命令词条以及对应所述命令词条的声学模型得分，所述听写解码网络的每个弧上保存有一个听写词条以及均对应所述听写词条的声学模型得分和语言模型得分；

训练数据集构建单元，用于构建命令词训练数据集和听写训练数据集，所述命令词训练数据集内的命令词训练数据由所述命令词条构成，所述听写训练数据集内的听写训练数据由所述听写词条构成；

补偿得分确定单元，用于利用所述命令词训练数据集和所述听写训练数据集，确定命令词解码网络的补偿得分；

优化单元，用于优化所述命令词解码网络，并使优化后的命令词解码网络的每个弧上保存有所述命令词条、所述补偿得分、以及对应所述命令词条的声学模型得分；

并联单元，用于将优化后的命令词解码网络和所述听写解码网络并联组成异构解码网络。

优选地，所述补偿得分确定单元包括：

第一网络得分获取单元，用于依次将所述命令词训练数据集内的每一个命令词训练数据输入至所述命令词解码网络和所述听写解码网络，分别得到对应所述命令词训练数据的第一命令词网络得分和第一听写网络得分；所述第一命令词网络得分为与所述命令词训练数据相匹配的命令词条对应的声学模型得分，所述第一听写网络得分为与所述命令词训练数据相匹配的听写词条对应的声学模型得分和语言模型得分之和；

第二网络得分获取单元，用于依次将所述听写训练数据集内的每一个听写训练数据分别输入至所述命令词解码网络和所述听写解码网络，分别得到对应所述听写训练数据的第二命令词网络得分和第二听写网络得分，所述第二命令词网络得分为与所述听写训练数据相匹配的命令词条对应的声学模型得分，所述第二听写网络得分为与所述听写训练数据相匹配的听写词条对应的声学模型得分和语言模型得分之和；

第一补偿得分确定单元，用于确定所述命令词解码网络的补偿得分，并使所述补偿得分满足预设条件：对于命令词训练数据集内的设定比例的命令词训练数据，所述第一命令词网络得分与所述补偿得分之和大于所述第一听写网络得分；对于听写训练数据集内的设定比例的听写训练数据，所述第二命令词网络得分与所述补偿得分之和小于所述第二听写网络得分。

优选地，所述第一补偿得分确定单元包括：

参数组合获取单元，用于获取满足第一取值范围且能够整除第一步进量的第一参数，以及满足第二取值范围且能够整除第二步进量的第二参数的所有参数组合；

第一命令词训练数据个数获取单元，用于依次对每一组参数组合，获取所述命令词训练数据集内满足第一预设条件的命令词训练数据个数，所述第一预设条件为：所述第一参数和所述命令词训练数据对应的第一命令词网络得分的乘积与所述第二参数的和，大于所述命令词训练数据对应的第一听写网络得分；

第一听写训练数据个数获取单元，用于依次对每一组参数组合，获取所述听写训练数据集内满足第二预设条件的听写训练数据个数，所述第二预设条件为：所述第一参数和所述听写训练数据对应的第二命令词网络得分的乘积与所述第二参数的和，小于所述听写训练数据对应的第二听写网络得分；

优选参数组合确定单元，用于确定优选参数组合，所述优选参数组合对应的命令词训练数据个数和听写训练数据个数之和，大于其它参数组合对应的命令词训练数据个数和听写训练数据个数之和；

第二补偿得分确定单元，用于将所述优选参数组合中第一参数和任意第一命令词网络得分的乘积与所述优选参数组合中第二参数的和，再减去所述第一命令词网络得分所得的结果，作为所述命令词解码网络的补偿得分。

优选地，所述第一补偿得分确定单元包括：

参数集合获取单元，用于获取满足设定的取值范围且能够整除设定的步进量的参数集合；

第二命令词训练数据个数获取单元，用于依次对所述参数集合中的每一个参数，获取所述命令词训练数据集内满足第三预设条件的命令词训练数据个数，所述第三预设条件为：所述命令词训练数据对应的第一命令词网络得分与所述参数的和，大于所述命令词训练数据对应的第一听写网络得分；

第二听写训练数据个数获取单元，用于依次对所述参数集合中的每一个参数，获取所述听写训练数据集内满足第四预设条件的听写训练数据个数，所述第四预设条件为：所述听写训练数据对应的第二命令词网络得分与所述参数的和，小于所述听写训练数据对应的第二听写网络得分；

优选参数确定单元，用于确定优选参数，所述优选参数对应的命令词训练数据个数和听写训练数据个数之和，大于其它参数对应的命令词训练数据个数和听写训练数据个数之和；

第三补偿得分确定单元，用于将所述优选参数作为所述命令词解码网络补偿得分。

本发明实施例还提供一种基于所述的异构解码网络的语音识别方法，包括：

获取语音数据；

将所述语音数据分别输入至所述优化后的命令词解码网络以及所述听写解码网络中，分别得到命令词网络得分和听写网络得分；所述命令词网络得分为与所述语音数据相匹配的命令词条对应的声学模型得分与所述补偿得分之和，所述听写网络得分为与所述语音数据相匹配的听写词条对应的声学模型得分和语言模型得分之和；

判断所述命令词网络得分是否大于所述听写网络得分；

如果是，则确定与所述语音数据相匹配的命令词条为语音识别结果；

否则，确定与所述语音数据相匹配的听写词条为语音识别结果。

本发明实施例还提供一种基于所述的异构解码网络的语音识别系统，包括：

语音数据获取单元，用于获取语音数据；

网络得分获取单元，用于将所述语音数据分别输入至所述优化后的命令词解码网络以及所述听写解码网络中，分别得到命令词网络得分和听写网络得分；所述命令词网络得分为与所述语音数据相匹配的命令词条对应的声学模型得分与所述补偿得分之和，所述听写网络得分为与所述语音数据相匹配的听写词条对应的声学模型得分和语言模型得分之和；

判断单元，用于判断所述命令词网络得分是否大于所述听写网络得分；

确定单元，用于在所述命令词网络得分大于所述听写网络得分的情况下，确定与所述语音数据相匹配的命令词条为语音识别结果；在所述命令词网络得分小于或等于所述听写网络得分的情况下，确定与所述语音数据相匹配的听写词条为语音识别结果。

本发明实施例异构解码网络的构建方法及系统，通过将命令词解码网络构建成与听写解码网络一样的网络结构，可以实现命令词解码网络和听写解码网络的并联，从而在多业务的场景下，通过配置一套识别引擎完成多种不同业务的并联识别，大大节省了系统资源，增强系统性能。另外，应用本发明实施例基于异构解码网络的语音识别方法及系统，由于命令词解码网络与听写解码网络的结构相同，所以可以通过简单地比较两个解码网络输出的网络得分来选择最终的识别结果，提高了对语音数据的识别效果及识别效率，降低了系统的复杂度。

附图说明

图1示出了本发明实施例异构解码网络的构建方法的流程图；

图2示出了本发明实施例中利用命令词训练数据集和听写训练数据集，确定命令词解码网络的补偿得分的流程图；

图3示出了本发明实施例中确定所述命令词解码网络的补偿得分，并使补偿得分满足预设条件的一种流程图；

图4示出了本发明实施例中确定所述命令词解码网络的补偿得分，并使补偿得分满足预设条件的另一种流程图；

图5示出了本发明实施例异构解码网络的构建系统的结构示意图；

图6示出了本发明实施例中补偿得分确定单元的结构示意图；

图7示出了本发明实施例中第一补偿得分确定单元的一种结构示意图；

图8示出了本发明实施例中第一补偿得分确定单元的另一种结构示意图；

图9示出了本发明实施例基于异构解码网络的语音识别方法的流程图；

图10示出了本发明实施例基于异构解码网络的语音识别系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

为了解决现有技术中命令词解码网络和听写解码网络的结构不同导致的：需要分别配置不同的识别引擎才能完成识别工作，会占用大量系统资源，影响系统性能；需要进行置信度判决来选择最终的识别结果，可靠性差，效率低，而且增加了整个语音识别系统的复杂度，本发明实施例一方面提供了一种异构解码网络的构建方法及系统，可以在多业务的场景下，通过配置一套识别引擎完成多种不同业务的并联识别、节省系统资源。

如图1所示，是本发明实施例异构解码网络的构建方法的流程图，所述异构解码网络的构建方法包括以下步骤：

步骤101：获取业务所需的命令词解码网络和听写解码网络，所述命令词解码网络的每个弧上保存有一个命令词条以及对应所述命令词条的声学模型得分，所述听写解码网络的每个弧上保存有一个听写词条以及均对应所述听写词条的声学模型得分和语言模型得分。

具体地，根据业务需求构建解码网络是语音识别的前提，解码网络的基本结构是一个有向图，由结点和弧组成，弧上保存了一个词条以及这个词条的声学模型信息和/或语言模型信息，声学模型信息一般表现为声学模型得分，语言模型信息一般表现为语言模型得分，语音识别就是根据输入的语音数据在这个有向图上寻找一条最优路径的过程。

本发明实施例涉及到两种解码网络，分别为命令词解码网络与听写解码网络，其中命令词解码网络是针对特定业务构建的网络，通常只支持特定的命令词，即：命令词解码网络的每个弧上保存有一个命令词条以及对应所述命令词条的声学模型得分。例如可以针对导航业务构建一个命令词解码网络“导航到{地名}”，该命令词解码网络的每个弧上保存有一个地名(例如“北京路”、“南京路”、“上海路”等)以及对应该地名的声学模型得分，可以看出命令词解码网络的结构简单，仅支持特点说法，是针对命令词条的识别，并且该解码网络的弧上仅保存有命令词条和声学模型得分，未保存语言模型得分，这是由命令词解码网络的特点决定的。听写解码网络比命令词解码网络更为复杂，听写解码网络的每个弧上保存有一个听写词条以及均对应所述听写词条的声学模型得分和语言模型得分，可以看出听写解码网络能够支持通用识别。

基于以上两种类型的解码网络的特点，在某些情况下，需要能够对某个特定的业务有较好的支持，同时又能支持通用转写，就需要同时使用命令词解码网络和听写解码网络，也就是解码网络并联的技术，同时使用两种解码网络进行语音识别，根据得分选取最优结果，具体的网络并联方法将结合以下步骤102至步骤105进行详细地阐述。

步骤102：构建命令词训练数据集和听写训练数据集，所述命令词训练数据集内的命令词训练数据由所述命令词条构成，所述听写训练数据集内的听写训练数据由所述听写词条构成。

比如，所述命令词训练数据集包括5000句命令词录音，每一条命令词录音为一个命令词训练数据；所述听写训练数据集包括5000句听写录音，每一条听写录音为一个听写训练数据。

步骤103：利用所述命令词训练数据集和所述听写训练数据集，确定命令词解码网络的补偿得分。

具体地，在构建完成命令词训练数据集和听写训练数据集训练集之后，就可以开始进行参数的训练了。在本发明的一优选实施例中，采用一阶线性分类的方法对参数进行训练，最终得到最优的补偿得分。所述利用命令词训练数据集和听写训练数据集，确定命令词解码网络的补偿得分的方法将在下文中结合图2至图4进行详细地阐述。

通过上述训练方法得到的最优的补偿得分可以看作是命令词解码网络的通用的语言模型得分(即补偿得分)。

步骤104：优化所述命令词解码网络，并使优化后的命令词解码网络的每个弧上保存有所述命令词条、所述补偿得分、以及对应所述命令词条的声学模型得分。

具体地，经过优化处理后，所述优化后的命令词解码网络的每个弧上保存有一个命令词条、补偿得分以及与所述命令词条相对应的声学模型得分，由于补偿得分可以看成是命令词解码网络的语言模型得分，所以，优化后的命令词解码网络的网络结构与听写解码网络的网络结构是一致的。

步骤105：将优化后的命令词解码网络和所述听写解码网络并联组成异构解码网络。

具体地，将网络结构一致的优化后的命令词解码网络和听写解码网络并联组成异构解码网络。

如图2所示，是本发明实施例中利用命令词训练数据集和听写训练数据集，确定命令词解码网络的补偿得分的流程图，所述确定命令词解码网络的补偿得分包括以下步骤：

步骤201：依次将所述命令词训练数据集内的每一个命令词训练数据输入至所述命令词解码网络和所述听写解码网络，分别得到对应所述命令词训练数据的第一命令词网络得分和第一听写网络得分；所述第一命令词网络得分为与所述命令词训练数据相匹配的命令词条对应的声学模型得分，所述第一听写网络得分为与所述命令词训练数据相匹配的听写词条对应的声学模型得分和语言模型得分之和。

具体地，所述命令词解码网络的每个弧上不仅包括命令词条和与该命令词条相对应的声学模型得分，还包括与该命令词条相对应的声学特征，同样地，所述听写解码网络的每个弧上不仅包括听写词条以及均与该听写词条相对应的声学模型得分和语言模型得分，还包括该听写词条的声学特征。

第一命令词网络得分的获取过程为：将一个命令词训练数据输入至命令词解码网络后，命令词解码网络比较该命令词训练数据的声学特征与该命令词解码网络具有的各个弧上的命令词条的声学特征，通过比较，确定一个与该命令词训练数据的声学特征最匹配的命令词条，并将该命令词条对应的声学模型得分作为针对该命令词训练数据的第一命令词网络得分。

第一听写网络得分的获取过程为：将一个命令词训练数据输入至听写解码网络后，听写解码网络比较该命令词训练数据的声学特征与该听写解码网络具有的各个弧上的听写词条的声学特征，通过比较，确定一个与该命令词训练数据的声学特征最匹配的听写词条，并将该听写词条对应的声学模型得分与语言模型得分之和作为针对该命令词训练数据的第一听写网络得分。

从而，对应命令词训练数据集内所有命令词训练数据的第一命令词网络得分和第一听写网络得分如下表所示，其中依次对应各个命令词训练数据的第一命令词网络得分分别为：x1,x2,x3…,xn，依次对应各个命令词训练数据的第一听写网络得分分别为：y1,y2,y3…,yn。

步骤202：依次将所述听写训练数据集内的每一个听写训练数据分别输入至所述命令词解码网络和所述听写解码网络，分别得到对应所述听写训练数据的第二命令词网络得分和第二听写网络得分，所述第二命令词网络得分为与所述听写训练数据相匹配的命令词条对应的声学模型得分，所述第二听写网络得分为与所述听写训练数据相匹配的听写词条对应的声学模型得分和语言模型得分之和。

具体地，类似步骤201，第二命令词网络得分的获取过程为：将一个听写训练数据输入至命令词解码网络后，命令词解码网络比较该听写训练数据的声学特征与该命令词解码网络具有的各个弧上的命令词条的声学特征，通过比较，确定一个与该听写训练数据的声学特征最匹配的命令词条，并将该命令词条对应的声学模型得分作为针对该听写训练数据的第二命令词网络得分。

第二听写网络得分的获取过程为：将一个听写训练数据输入至听写解码网络后，听写解码网络比较该听写训练数据的声学特征与该听写解码网络具有的各个弧上的听写词条的声学特征，通过比较，确定一个与该听写训练数据的声学特征最匹配的听写词条，并将该听写词条对应的声学模型得分与语言模型得分之和作为针对该听写训练数据的第二听写网络得分。

从而，对应听写训练数据集内所有听写训练数据的第二命令词网络得分和第二听写网络得分如下表所示，其中依次对应各个听写训练数据的第二命令词网络得分分别为：w1,w2,w3…,wn，依次对应各个听写训练数据的第二听写网络得分分别为：z1,z2,z3…,zn。

步骤203：确定所述命令词解码网络的补偿得分，并使所述补偿得分满足预设条件：对于命令词训练数据集内的设定比例的命令词训练数据，所述第一命令词网络得分与所述补偿得分之和大于所述第一听写网络得分；对于听写训练数据集内的设定比例的听写训练数据，所述第二命令词网络得分与所述补偿得分之和小于所述第二听写网络得分。

具体地，在得到第一命令词网络得分、第一听写网络得分、第二命令词网络得分和第二听写网络得分后，需要根据这些网络得分确定命令词解码网络的补偿得分，确定的理想原则是：如果输入的语音数据属于命令词语料的话，那么命令词解码网络输出的网络得分与所述补偿得分之和总是大于听写解码网络输出的网络得分；反之，如果输入的语音数据属于听写语料的话，那么听写解码网络输出的网络得分就应该总是大于命令词解码网络输出的网络得分与所述补偿得分之和，这样就可以保证识别结果可以从正确的网络中得到。但是，事实上这一点很难做到，这是因为用于训练所述补偿得分的命令词训练数据集和听写训练数据集是有限的，从而不能保证加入补偿得分的解码网络总是得到正确的识别结果。

基于上述分析，本实施例中确定所述补偿得分的原则(即所述预设条件)为：对于命令词训练数据集内的设定比例的命令词训练数据，所述第一命令词网络得分与所述补偿得分之和大于所述第一听写网络得分；对于听写训练数据集内的设定比例的听写训练数据，所述第二命令词网络得分与所述补偿得分之和小于所述第二听写网络得分。因此，对于有限的命令司训练数据集和听写训练数据集来说，确定的补偿得分仅需满足：对应设定比例的命令词训练数据的第一命令词网络得分与补偿得分之和大于相应的第一听写网络得分，并且对应设定比例的听写训练数据的第二命令词网络得分与补偿得分之和小于相应的第二听写网络得分即可，从而对于在有限的训练数据集的基础上确定的补偿得分，能够最大程度上提升识别率(即最大程度上提高识别结果的准确率)。

下面结合图3和图4详细阐述补偿得分的确定过程，也可以称为训练过程。

如图3所示，是本发明实施例中确定所述命令词解码网络的补偿得分，并使补偿得分满足预设条件的一种流程图，所述确定所述命令词解码网络的补偿得分包括以下步骤：

步骤301：获取满足第一取值范围且能够整除第一步进量的第一参数，以及满足第二取值范围且能够整除第二步进量的第二参数的所有参数组合。

具体地，首先在第一取值范围内获取所有能够整除第一步进量的第一参数，并且在第二取值范围内获取所有能够整除第二步进量的第二参数，然后对所有的第一参数和第二参数进行排列组合，得到所有的参数组合。特别地，所述第一取值范围优选为0.9～1.1，所述第一步进量优选为0.01，从而第一参数可以选择为0.9，0.91，0.92，…，1.1；所述第二取值范围优选为1000～20000，所述第二步进量优选为10，从而第二参数可以选择为1000，1010，1020，…，20000。

步骤302：依次对每一组参数组合，获取所述命令词训练数据集内满足第一预设条件的命令词训练数据个数，所述第一预设条件为：所述第一参数和所述命令词训练数据对应的第一命令词网络得分的乘积与所述第二参数的和，大于所述命令词训练数据对应的第一听写网络得分。

具体地，对于每一组参数组合，都获取命令词训练数据集内满足第一预设条件的命令词训练数据的个数，结合步骤201中的参数表示方法，所述第一预设条件可以表示为：aX+b>Y，其中a表示第一参数，b表示第二参数，X表示第一命令词网络得分的向量，取值可以为x1,x2,x3…或xn，Y表示第一听写网络得分的向量，取值可以为y1,y2,y3…或yn。

步骤303：依次对每一组参数组合，获取所述听写训练数据集内满足第二预设条件的听写训练数据个数，所述第二预设条件为：所述第一参数和所述听写训练数据对应的第二命令词网络得分的乘积与所述第二参数的和，小于所述听写训练数据对应的第二听写网络得分。

具体地，对于每一组参数组合，都获取听写训练数据集内满足第二预设条件的听写训练数据的个数，结合步骤202中的参数表示方法，所述第二预设条件可以表示为：aW+b<Z，其中a表示第一参数，b表示第二参数，W表示第二命令词网络得分的向量，取值可以为w1,w2,w3…或wn，Z表示第二听写网络得分的向量，取值可以为z1,z2,z3…或zn。

步骤304：确定优选参数组合，所述优选参数组合对应的命令词训练数据个数和听写训练数据个数之和，大于其它参数组合对应的命令词训练数据个数和听写训练数据个数之和。

具体地，对于每组参数组合，都对应有一个命令词训练数据个数和听写训练数据个数，在所有参数组合中，确定一组优选的参数组合，使得对应该优选参数组合的命令词训练数据个数和听写训练数据个数之和，大于其它参数组合对应的命令词训练数据个数和听写训练数据个数之和。

步骤305：将所述优选参数组合中第一参数和任意第一命令词网络得分的乘积与所述优选参数组合中第二参数的和，再减去所述第一命令词网络得分所得的结果，作为所述命令词解码网络的补偿得分。

具体地，假设优选参数组合中的第一参数表示为a*，第二参数表示为b*，则该第一参数和任意第一命令词网络得分(例如x1)的乘积与该第二参数的和可以表示为a*×x1+b*，由上述第一预设条件的第二预设条件可知，可以将a*×x1+b*看作是命令词解码网络的整体网络得分(声学模型得分与语言模型得分之和)，由于x1表示命令词解码网络的声学模型得分，所以可以将a*×x1+b*-x1标定为命令词解码网络的语言模型得分(即命令词解码网络的补偿得分)。

由于确定优选参数组合的过程中，需要遍历所有参数组合，增加了系统的复杂度，所以在本发明的另一优选的实施例中提供了另一种简便、高效的确定命令词解码网络的补偿得分的方法：直接将第一参数固定为1，然后在第二取值范围内寻找最优的第二参数即可。

如图4所示，是本发明实施例中确定所述命令词解码网络的补偿得分，并使补偿得分满足预设条件的另一种流程图，所述确定所述命令词解码网络的补偿得分包括以下步骤：

步骤401：获取满足设定的取值范围且能够整除设定的步进量的参数集合。

具体地，所述参数相当于步骤301至步骤305中的第二参数，同样地，所述第二取值范围优选为1000～20000，所述第二步进量优选为10，从而所述参数可以选择为1000，1010，1020，…，20000。

步骤402：依次对所述参数集合中的每一个参数，获取所述命令词训练数据集内满足第三预设条件的命令词训练数据个数，所述第三预设条件为：所述命令词训练数据对应的第一命令词网络得分与所述参数的和，大于所述命令词训练数据对应的第一听写网络得分。

具体地，对于每一个参数，都获取命令词训练数据集内满足第三预设条件的命令词训练数据的个数，结合步骤201中的参数表示方法，所述第三预设条件可以表示为：X+b>Y，其中b表示参数，X表示第一命令词网络得分的向量，取值可以为x1,x2,x3…或xn，Y表示第一听写网络得分的向量，取值可以为y1,y2,y3…或yn。

步骤403：依次对所述参数集合中的每一个参数，获取所述听写训练数据集内满足第四预设条件的听写训练数据个数，所述第四预设条件为：所述听写训练数据对应的第二命令词网络得分与所述参数的和，小于所述听写训练数据对应的第二听写网络得分。

具体地，对于每一个参数，都获取听写训练数据集内满足第四预设条件的听写训练数据的个数，结合步骤202中的参数表示方法，所述第四预设条件可以表示为：W+b<Z，其中b表示参数，W表示第二命令词网络得分的向量，取值可以为w1,w2,w3…或wn，Z表示第二听写网络得分的向量，取值可以为z1,z2,z3…或zn。

步骤404：确定优选参数，所述优选参数对应的命令词训练数据个数和听写训练数据个数之和，大于其它参数对应的命令词训练数据个数和听写训练数据个数之和。

具体地，对于每个参数，都对应有一个命令词训练数据个数和听写训练数据个数，在所有参数中，确定一个优选的参数，使得对应该优选参数的命令词训练数据个数和听写训练数据个数之和，大于其它参数对应的命令词训练数据个数和听写训练数据个数之和。

步骤405：将所述优选参数作为所述命令词解码网络补偿得分。

具体地，假设优选参数表示为b*，类似步骤305中的推导过程，该第一参数(在本实施例中取值为1)和任意第一命令词网络得分(例如x1)的乘积与该第二参数(本实施例中的参数)的和可以表示为1×x1+b*，由上述第三预设条件的第四预设条件可知，可以将1×x1+b*看作是命令词解码网络的整体网络得分(声学模型得分与语言模型得分之和)，由于x1表示命令词解码网络的声学模型得分，所以可以将1×x1+b*-x1＝b*标定为命令词解码网络的语言模型得分(即命令词解码网络的补偿得分)，即直接将该优选参数b*作为命令词解码网络补偿得分。

在实际实施过程中，通过验证，采用本实施例中确定补偿得分的方法(即将第一参数直接置为1，只调整第二参数)，训练出来的补偿得分，能够使得识别网络的识别准确度达到95％以上。

综上，应用本实施例异构解码网络的构建方法，通过将命令词解码网络构建成与听写解码网络一样的网络结构，可以实现命令词解码网络和听写解码网络的并联，从而在多业务的场景下，通过配置一套识别引擎完成多种不同业务的并联识别，大大节省了系统资源，增强系统性能。

相应地，本发明实施例还提供一种异构解码网络的构建系统。

如图5所示，是本发明实施例异构解码网络的构建系统的结构示意图，该系统包括：

解码网络获取单元501，用于获取业务所需的命令词解码网络和听写解码网络，所述命令词解码网络的每个弧上保存有一个命令词条以及对应所述命令词条的声学模型得分，所述听写解码网络的每个弧上保存有一个听写词条以及均对应所述听写词条的声学模型得分和语言模型得分；

训练数据集构建单元502，用于构建命令词训练数据集和听写训练数据集，所述命令词训练数据集内的命令词训练数据由所述命令词条构成，所述听写训练数据集内的听写训练数据由所述听写词条构成；

补偿得分确定单元503，用于利用所述命令词训练数据集和所述听写训练数据集，确定命令词解码网络的补偿得分；

优化单元504，用于优化所述命令词解码网络，并使优化后的命令词解码网络的每个弧上保存有所述命令词条、所述补偿得分、以及对应所述命令词条的声学模型得分；

并联单元505，用于将优化后的命令词解码网络和所述听写解码网络并联组成异构解码网络。

如图6所示，是本发明实施例中补偿得分确定单元的结构示意图，所述补偿得分确定单元包括：

第一网络得分获取单元601，用于依次将所述命令词训练数据集内的每一个命令词训练数据输入至所述命令词解码网络和所述听写解码网络，分别得到对应所述命令词训练数据的第一命令词网络得分和第一听写网络得分；所述第一命令词网络得分为与所述命令词训练数据相匹配的命令词条对应的声学模型得分，所述第一听写网络得分为与所述命令词训练数据相匹配的听写词条对应的声学模型得分和语言模型得分之和；

第二网络得分获取单元602，用于依次将所述听写训练数据集内的每一个听写训练数据分别输入至所述命令词解码网络和所述听写解码网络，分别得到对应所述听写训练数据的第二命令词网络得分和第二听写网络得分，所述第二命令词网络得分为与所述听写训练数据相匹配的命令词条对应的声学模型得分，所述第二听写网络得分为与所述听写训练数据相匹配的听写词条对应的声学模型得分和语言模型得分之和；

第一补偿得分确定单元603，用于确定所述命令词解码网络的补偿得分，并使所述补偿得分满足预设条件：对于命令词训练数据集内的设定比例的命令词训练数据，所述第一命令词网络得分与所述补偿得分之和大于所述第一听写网络得分；对于听写训练数据集内的设定比例的听写训练数据，所述第二命令词网络得分与所述补偿得分之和小于所述第二听写网络得分。

如图7所示，是本发明实施例中第一补偿得分确定单元的一种结构示意图，所述第一补偿得分确定单元包括：

参数组合获取单元701，用于获取满足第一取值范围且能够整除第一步进量的第一参数，以及满足第二取值范围且能够整除第二步进量的第二参数的所有参数组合；

第一命令词训练数据个数获取单元702，用于依次对每一组参数组合，获取所述命令词训练数据集内满足第一预设条件的命令词训练数据个数，所述第一预设条件为：所述第一参数和所述命令词训练数据对应的第一命令词网络得分的乘积与所述第二参数的和，大于所述命令词训练数据对应的第一听写网络得分；

第一听写训练数据个数获取单元703，用于依次对每一组参数组合，获取所述听写训练数据集内满足第二预设条件的听写训练数据个数，所述第二预设条件为：所述第一参数和所述听写训练数据对应的第二命令词网络得分的乘积与所述第二参数的和，小于所述听写训练数据对应的第二听写网络得分；

优选参数组合确定单元704，用于确定优选参数组合，所述优选参数组合对应的命令词训练数据个数和听写训练数据个数之和，大于其它参数组合对应的命令词训练数据个数和听写训练数据个数之和；

第二补偿得分确定单元705，用于将所述优选参数组合中第一参数和任意第一命令词网络得分的乘积与所述优选参数组合中第二参数的和，再减去所述第一命令词网络得分所得的结果，作为所述命令词解码网络的补偿得分。

如图8所示，是本发明实施例中第一补偿得分确定单元的另一种结构示意图，所述第一补偿得分确定单元包括：

参数集合获取单元801，用于获取满足设定的取值范围且能够整除设定的步进量的参数集合；

第二命令词训练数据个数获取单元802，用于依次对所述参数集合中的每一个参数，获取所述命令词训练数据集内满足第三预设条件的命令词训练数据个数，所述第三预设条件为：所述命令词训练数据对应的第一命令词网络得分与所述参数的和，大于所述命令词训练数据对应的第一听写网络得分；

第二听写训练数据个数获取单元803，用于依次对所述参数集合中的每一个参数，获取所述听写训练数据集内满足第四预设条件的听写训练数据个数，所述第四预设条件为：所述听写训练数据对应的第二命令词网络得分与所述参数的和，小于所述听写训练数据对应的第二听写网络得分；

优选参数确定单元804，用于确定优选参数，所述优选参数对应的命令词训练数据个数和听写训练数据个数之和，大于其它参数对应的命令词训练数据个数和听写训练数据个数之和；

第三补偿得分确定单元805，用于将所述优选参数作为所述命令词解码网络补偿得分。

值得说明的是，上述各单元的具体处理过程可参照前面本发明实施例异构解码网络的构建方法中的描述，在此不再赘述。

综上，应用本实施例异构解码网络的构建系统，通过将命令词解码网络构建成与听写解码网络一样的网络结构，可以实现命令词解码网络和听写解码网络的并联，从而可以在多业务的场景下，通过配置一套识别引擎完成多种不同业务的并联识别，大大节省了系统资源，增强系统性能。

本发明实施例另一方面提供了一种基于上述异构解码网络的语音识别方法及系统，以提高识别效果及识别效率，降低系统的复杂度。

如图9所示，是本发明实施例基于异构解码网络的语音识别方法，所述方法包括以下步骤：

步骤901：获取语音数据。

步骤902：将所述语音数据分别输入至所述优化后的命令词解码网络以及所述听写解码网络中，分别得到命令词网络得分和听写网络得分；所述命令词网络得分为与所述语音数据相匹配的命令词条对应的声学模型得分与所述补偿得分之和，所述听写网络得分为与所述语音数据相匹配的听写词条对应的声学模型得分和语言模型得分之和。

具体地，所述命令词网络得分和听写网络得分的获取过程与步骤201或步骤202中所阐述的获取方法相同，只是将命令词训练数据或听写训练数据替换为所述语言数据，故在此不再赘述。

步骤903：判断所述命令词网络得分是否大于所述听写网络得分。

步骤904：如果是，则确定所述与语音数据相匹配的命令词条为语音识别结果。

步骤905：否则，确定所述与语音数据相匹配的听写词条为语音识别结果。

相应地，本发明实施例还提供一种基于上述异构解码网络的语音识别系统。

如图10所示，是本发明实施例基于异构解码网络的语音识别系统的结构示意图，该系统包括：

语音数据获取单元1001，用于获取语音数据；

网络得分获取单元1002，用于将所述语音数据分别输入至所述优化后的命令词解码网络以及所述听写解码网络中，分别得到命令词网络得分和听写网络得分；所述命令词网络得分为与所述语音数据相匹配的命令词条对应的声学模型得分与所述补偿得分之和，所述听写网络得分为与所述语音数据相匹配的听写词条对应的声学模型得分和语言模型得分之和；

判断单元1003，用于判断所述命令词网络得分是否大于所述听写网络得分；

确定单元1004，用于在所述命令词网络得分大于所述听写网络得分的情况下，确定所述与语音数据相匹配的命令词条为语音识别结果；在所述命令词网络得分小于或等于所述听写网络得分的情况下，确定所述与语音数据相匹配的听写词条为语音识别结果。

综上，采用本发明实施例基于异构解码网络的语音识别方法及系统，由于命令词解码网络与听写解码网络的结构相同，所以可以通过简单地比较两个解码网络输出的网络得分来选择最终的识别结果，提高了对语音数据的识别效果及识别效率，降低了系统的复杂度。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，以上所述仅为本发明的较佳实施例，但本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种异构解码网络的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述命令词训练数据集和所述听写训练数据集，确定命令词解码网络的补偿得分包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述命令词解码网络的补偿得分，并使所述补偿得分满足预设条件包括：

4.根据权利要求2所述的方法，其特征在于，所述确定所述命令词解码网络的补偿得分，并使所述补偿得分满足预设条件包括：

将所述优选参数作为所述命令词解码网络补偿得分。

5.一种异构解码网络的构建系统，其特征在于，包括：

6.根据权利要求5所述的系统，其特征在于，所述补偿得分确定单元包括：

7.根据权利要求6所述的系统，其特征在于，所述第一补偿得分确定单元包括：

8.根据权利要求6所述的系统，其特征在于，所述第一补偿得分确定单元包括：

9.一种基于权利要求1至4任一项所述的异构解码网络的语音识别方法，其特征在于，包括：

获取语音数据；

判断所述命令词网络得分是否大于所述听写网络得分；

10.一种基于权利要求1至4任一项所述的异构解码网络的语音识别系统，其特征在于，包括：

语音数据获取单元，用于获取语音数据；