CN110827802A

CN110827802A - 语音识别训练和解码方法及装置

Info

Publication number: CN110827802A
Application number: CN201911052184.5A
Authority: CN
Inventors: 陆沁
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-21

Abstract

本发明公开语音识别训练和解码方法及装置，其中，一种语音识别训练方法，包括：对于初始说法和至少一个初始词条，分别训练与初始说法对应的n‑gram语言模型和与至少一个初始词条对应的至少一个grammar语言模型；基于n‑gram语言模型构成初始说法解码网络；基于至少一个grammar语言模型相应地构成至少一个初始词条解码网络。本申请的方法和装置提供的方案适用于本地，提供了较灵活的说法识别及较精准的关键词识别，且支持用户自定义并快速在本地进行更新。

Description

语音识别训练和解码方法及装置

技术领域

本发明属于语音识别技术领域，尤其涉及语音识别训练和解码方法及装置。

背景技术

相关技术中，语音识别技术越来越广泛地运用到生活中，给人们的生活带来了极大的便利。语言模型作为语音识别技术中的一个重要部分，能计算一串词序列的概率，从而帮助给出更符合人语言习惯的词序列。

常用的语言模型有基于语法网络的grammar语言模型，基于统计的 n-gram语言模型，以及基于神经网络的语言模型。grammar语言模型是把语言层信息组织成一个固定的语法，解码时只能识别出语法中语句，灵活度较差，但对于语法中语句识别准确率较高。n-gram语言模型假设第K个词的出现只与前面的K-n个词相关，通过统计语料中n个词同时出现的次数，即可算出整句的概率。n-gram语言模型存在回退，因而理论上可以识别出任意语句，灵活性较大。但同时，这种灵活性，加上n- gram语言模型使用概率平滑技术模拟出的低频词概率与实际概率存在一定差异，导致识别错误的概率升高。神经网络语言模型是用一个关于θ的函数F(w,context(w),θ)来表示当前词为w时，其上下文为context(x)的概率。神经网络对参数的共享，使其对低频词具有天然的平滑能力，从而具有更好的泛化性。循环神经网络能更有的理由历史信息，从而进一步提高识别正确性。但神经网络训练的计算复杂度较高，无法实现本地训练及快速更新。

市面上已有的运用于本地的识别系统，部分采用grammar语言模型。grammar语言模型构成的解码网络小，且对于语法内语句识别准确率高，能保证有限说法的识别。但用户往往不能满足于这种局限的识别。因而另一部分本地识别系统采用n-gram语言模型来增加灵活性，但同时会带来性识别准确率的下降，从而导致用户的不满。

支持用户自定义的产品目前较少。而那些少数支持自定义的，或需要通过网络上传到云端更新模型，或需要在本地消耗较多资源和较长时间更新模型。因而可以推断，它们是将用户自定义部分的文本融入原有文本中，重新训练了语言模型。

发明内容

本发明实施例提供一种语音识别训练和解码方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音识别训练方法，包括：对于初始说法和至少一个初始词条，分别训练与所述初始说法对应的n-gram 语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型；基于所述n-gram语言模型构成初始说法解码网络；基于所述至少一个 grammar语言模型构成至少一个初始词条解码网络。

第二方面，本发明实施例提供一种语音识别解码方法，包括：将接收的语句文本分为说法和至少一个词条；获取所述语句文本中的所述说法和所述至少一个词条的顺序；根据所述顺序，先进入与所述说法对应的n-gram语言模型解码网络进行解码，当走到词条路径时，跳转到相应的词条的grammar语言模型解码网络进行解码，当词条网络走到终点后，跳回与所述说法对应的n-gram语言模型解码网络进行解码。

第三方面，本发明实施例提供一种语音识别训练装置，包括：模型训练模块，配置为对于初始说法和至少一个初始词条，分别训练与所述说法对应的n-gram语言模型和与所述至少一个初始词条对应的至少一个 grammar语言模型；说法解码网络构成模块，配置为基于所述n-gram语言模型构成初始说法解码网络；词条解码网络构成模块，配置为基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。

第四方面，本发明实施例提供一种语音识别解码装置，包括：分词模块，配置为将接收的语句文本分为说法和至少一个词条；顺序获取模块，配置为获取所述语句文本中的所述说法和所述至少一个词条的顺序；解码模块，配置为根据所述顺序，先进入与所述说法对应的n-gram语言模型解码网络进行解码，当走到词条路径时，跳转到相应的词条的grammar语言模型解码网络进行解码，当词条网络走到终点后，跳回与所述说法对应的n-gram语言模型解码网络进行解码。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音识别训练方法或语音识别解码方法的步骤。

第六方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音识别训练方法或语音识别解码方法的步骤。

本申请的方法和装置提供的方案通过将一些通用的说法和词条分别训练成相应的语言模型。说法训练为n-gram语言模型，可以更好地满足说法本身的多样性，提供较灵活的说法识别。词条单独训练成相应的 grammar语言模型，更突显词条识别的重要性，可以获得更精准的关键字识别。从而使得最终获得的解码网络能够容许词条的灵活多样，也能增强词条识别的准确度，总体用户体验更好。进一步地，由于只包含一些通用的说法和词条，因此整体所需存储空间较小，可以适用于本地存储和离线使用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音识别训练方法的流程图；

图2为本发明一实施例提供的一种语音识别解码方法的流程图；

图3-图8为本发明一实施例提供的一种语音识别系统的一个具体实施例的各阶段的解码网络示意图；

图9为本发明一实施例提供的一种语音识别训练装置的框图；

图10为本发明一实施例提供的一种语音识别解码装置的框图；

图11是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的语音识别训练方法一实施例的流程图，本实施例的语音识别训练方法可以适用于具备语音识别解码能力的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备语音识别解码能力的智能终端等。

如图1所示，在步骤101中，对于初始说法和至少一个词条，分别训练与所述初始说法对应的n-gram语言模型和与所述至少一个词条对应的至少一个grammar语言模型；

在步骤102中，基于所述n-gram语言模型构成初始说法解码网络；

在步骤103中，基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。

在本实施例中，对于步骤101，语音识别训练装置在训练时，对于初始说法和至少一个初始词条，分别训练相应的语言模型，其中，对于初始说法，训练与该多个初始说法对应的n-gram语言模型，对于至少一个初始词条，每一个词条单独训练一个grammar语言模型。其中，针对点歌这个功能，初始说法例如可以包括“我想听…的…”，或者“放一首…吧”等，相关的词条包括@歌手和@歌曲等，对于其他的功能如导航、讲故事等也包括相应地初始说法和相关的词条，在此不再赘述。之后，对于步骤102，语音识别训练装置根据训练的对应于初始说法的n-gram语言模型构建初始说法解码网络用于对用户的说法进行解码，例如“放一首…吧”、“我想听…的…”、“来一首…”等说法都会被构建到同一初始说法解码网络中，本申请在此没有限制，在此不再赘述。最后，对于步骤103，语音识别训练装置根据训练的对应于各初始词条的至少一个grammar语言模型相应地构建至少一个初始词条解码网络，例如词条@歌手对应一个初始词条解码网络，词条@歌曲也对应一个初始词条解码网络，本申请在此没有限制，在此不再赘述。

需要说明的是，虽然采用不同的步骤编号对上述步骤进行先后顺序的限定，但是某些步骤可以是并行执行的，例如上述步骤102和步骤103 就可以并列执行，在此不再赘述。

本实施例的方法通过将一些通用的说法和词条分别训练成相应的语言模型。说法训练为n-gram语言模型，可以更好地满足说法本身的多样性，提供较灵活的说法识别。词条单独训练成相应的grammar语言模型，更突显词条识别的重要性，可以获得更精准的关键字识别。从而使得最终获得的解码网络能够容许词条的灵活多样，也能增强词条识别的准确度，总体用户体验更好。进一步地，由于只包含一些通用的说法和词条，因此整体所需存储空间较小，可以适用于本地存储和离线使用。

在一些可选的实施例中，上述方法还包括：响应于用户添加新的说法，训练与所述新的说法对应的新的n-gram语言模型；将所述新的n- gram语言模型构成的解码网络与初始说法解码网络合并成新的说法解码网络。从而当用户添加新的说法时，会训练相应的n-gram语言模型，然后将新的n-gram语言模型构成的解码网络与初始说法解码网络合并成新的说法解码网络，从而用户添加的新的说法也能被识别。并且可以支持用户自定义说法。进一步地，由于用户自定义的说法有限，因此能在消耗资源较少的情况下快速更新解码网络，也能适用于本地。

在另一些可选的实施例中，上述方法还包括：响应于用户添加新的词条，生成与所述新的词条对应的新的grammar语言模型；将所述新的 grammar语言模型构成的解码网络与对应的初始词条解码网络合并成新的词条解码网络；将所述新的词条解码网络的路径概率归一。从而当用户添加新的词条时，会训练相应的grammar语言模型，之后将构建的新的解码网络与初始词条解码网络合并成新的说法解码网络，然后再进行概率归一。从而用户添加的新的词条也能被识别。并且可以支持用户自定义词条。进一步地，由于用户自定义的词条有限，因此能在消耗资源较少的情况下快速更新解码网络，也能适用于本地。

进一步可选的，上述将所述新的词条解码网络的路径概率归一包括：修改所述新的词条解码网络中每条完整路径的概率以使得所述新的词条解码网络的整体概率保持为1。从而可以始终保持词条的解码网络的整体概率为1。

在一些可选的实施例中，上述将所述新的n-gram语言模型构成的解码网络与初始说法解码网络合并成新的说法解码网络包括：将所述新的 n-gram语言模型构成的解码网络与初始说法解码网络并联成新的说法解码网络。上述将所述新的grammar语言模型构成的解码网络与初始词条解码网络合并成新的词条解码网络包括：将所述新的grammar语言模型构成的解码网络与初始词条解码网络并联成新的词条解码网络。从而通过并联的方式将新的解码网络与初始解码网络合并，使其形成新的解码网络，更好地用于说法和词条的解码。

请参考图2，其示出了本申请一实施例提供的一种语音识别解码方法的流程图，本实施例的语音识别训练方法可以适用于具备语音识别解码能力的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备语音识别解码能力的智能终端等。

如图2所示，在步骤201中，将接收的语句文本分为说法和至少一个词条；

在步骤202中，获取所述语句文本中的所述说法和所述至少一个词条的顺序；

在步骤203中，根据所述顺序，当走到说法路径时，进入与所述说法对应的n-gram语言模型解码网络进行解码，当走到词条路径时，进入对应的词条的grammar语言模型解码网络进行解码。

在本实施例中，对于步骤201，语音识别解码装置接收到语句文本之后，将该语句文本分成说法和至少一个词条，例如语句文本“我想去北京看看XXX广场”可以分解为说法“我想去…看看…”和词条@城市和@景点，本申请在此没有限制。之后，对于步骤202，语音识别解码装置获取该语句文本中说法和词条的顺序。最后对于步骤203，按照该顺序依次走到相应的路径，当走到说法路径时，进入与该说法对应的n-gram语言模型解码网络进行解码，当走到词条路径时，进入对应的词条的grammar语言模型解码网络进行解码。例如，“我想去北京看看XXX广场”会先使用与“我想去…看看…”的n-gram语言模型解码网络进行解码，先对“我想去”进行解码，然后转到词条@城市，然后再回到“看看”，之后再转到词条 @景点进行解码，从而完整地完成对整个语句文本的解码。

本实施例的方法通过采用预先训练好的说法解码网络和词条解码网络对语句文本进行解码，可以使得说法可以被n-gram语言模型更好地解码，而词条也会被grammar语言模型更精准地解码，用户体验更好。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

本申请的方案提出了一种语音识别系统，包括语音识别训练装置和语音识别解码装置。

本发明的识别系统适用于本地，提供了较灵活说的法识别及较精准的关键词识别，且支持用户自定义并快速在本地进行更新。用户往往更关注一些关键词的识别正确性，而允许一些其它词的识别错误。因而本发明提供一种适用于本地的识别系统，该系统的语言模型部分包含一个 ngram语言模型和多个grammar语言模型。本发明将语句文本分为说法和词条两部分，分别训练语言模型。通常，词条在句中的重要性大于说法，而说法的灵活性大于词条，因此本发明将说法部分训练n-gram语言模型，以适应说法的多样性；词条部分训练grammar语言模型以增强词条识别的准确率。

解码时，首先进入n-gram语言模型构成的解码网络，当走到词条路径时，进入对应词条的grammar解码网络。例如将说法“我想听#歌手#的 #歌曲#”训练成一个n-gram语言模型，将“周杰伦”、“简单爱”分别生成的歌手、歌曲词条grammar网络，语句“我想听周杰伦的简单爱”即能通过两部分组合而成的解码网络被正确识别。

本发明的识别系统在用户下载时即包含一个涵盖常用说法的n-gram 语言模型解码网络，和一些常用词条的grammar语言模型解码网络。同时，本发明的识别系统会给出支持的词条，并支持用户添加相关自定义的说法及词条内容。用户添加的说法会生成一个n-gram语言模型解码网络，与系统中原有的ngram语言模型网络并联成一个新的n-gram语言模型解码网络；用户添加的词条内容，会单独生成相应词条的grammar解码网络，与系统中原有词条的grammar解码网络并联成一个新网络，并将新网络路径概率归一。用户自定义的说法及词条内容有限，生成的 ngram及grammar语言模型较小，因而能在消耗较少资源的情况下快速更新解码网络，适用于本地。

下面将结合附图图3-图8，对一个具体实施例进行详细描述。

本发明实施例中系统初始包含一个如图3所示的说法3-gram解码网络及如图4图5所示的词条grammar解码网络。

当用户说“我想听周杰伦的告白气球”时，将首先进入图3网络，按0 →1→18→27→26→24进行状态转移，输出“我想听”，-ln概率为1.792，接着进入图4网络，按0→1进行状态转移，输出“周杰伦”，-ln概率为 1.609(即-ln(1/5))，然后回到图3状态24，按24→22→30进行状态转移，输出“的”，-ln概率为1.099，接着进入图5网络，按0→1→2进行状态转移，输出“告白气球”，-ln概率为1.609(即-ln(1/5))，然后回到图3 状态30，按30→3进行状态转移，结束，总体输出“我想听周杰伦的告白气球”，-ln概率1.792+1.609+1.099+1.609＝6.109。

当用户说“放周杰伦的告白气球”时，将首先进入图3网络，按0→1 →2→15→33进行装填转移，输出“放”，-ln概率为 1.281+3.219+0.693＝5.193。接着进入图4按0→1进行状态转移，输出“周杰伦”，-ln概率为1.609，随之回到图3状态33，按33→22→30状态转移，输出为“的”，-ln概率为1.099，然后进入图5按0→1→2进行状态转移，输出“告白气球”，-ln概率为1.609，接着回到图3状态30，按30→3 转移，结束。总体输出“放周杰伦的告白气球”，-ln概率为 5.193+1.609+1.099+1.609＝9.51。此处的-ln概率(9.51)较大，说明原说法 3-gram对该说法支持得不够好。因此为识别得更好，用户可添加自定义说法“放@歌手的@歌曲”，本发明系统会将用户自定义说法训练3- gram语言模型并生成解码网络，与原说法解码网络并联，形成如图6所示的新的说法3-gram解码网络。

当用户再次说“放周杰伦的告白气球”时，首先进入图6按0→34→35 →42→44状态转移，输出“放”，-ln概率为0，随后转至图4，按0→1状态转移，输出“周杰伦”，-ln概率为1.609，再回到图6状态44，按44→ 43→45状态转移，输出“的”，-ln概率为0，转至图5，按0→1→2状态转移，输出“告白气球”，-ln概率为1.609，转回图6状态45，按45→37 状态转移，结束，总体输出“放周杰伦的告白气球”，-ln概率为 1.609+1.609＝3.218。注意此时的-ln概率(3.218)远小于原始说法网络下的- ln概率(9.51)，因而有更大概率正确识别用户所说的“放周杰伦的告白气球”。

当用户说“放苏运莹的野子”时，由于图4网络无法输出“苏运莹”，图 5网络无法输出“野子”，因而无法正确识别该说法。用户可添加“苏运莹”至词条@歌手，同时添加“野子”至词条@歌曲。本发明的识别系统会添加“苏运莹”至@歌手识别网络，并修改网络中每条完整路径的概率为- ln(1/N)(N是完整路径总数)，如图7所示；同时系统会添加“野子”至@歌曲识别网络，并同样修改网络中每条完整路径的概率为-ln(1/N)，如图8 所示。

此时，当用户再说“放苏运莹的野子”时，将首先进入图6网络，按0 →34→35→42→44状态转移，输出“放”，-ln概率为0，随后转至图7，按0→2→3→1状态转移，输出“苏运莹”，-ln概率为1.792(即-ln(1/6)) ，再回到图6状态44，按44→43→45状态转移，输出“的”，-ln概率为0 ，转至图8，按0→7→2状态转移，输出“野子”，-ln概率为1.792，转回图6状态45，按45→37状态转移，结束，总体输出“放周杰伦的告白气球”，-ln概率为1.792+1.792＝3.584。因而“放苏运莹的野子”此时能较高概率的被正确识别。

以上说明中可以看出，本发明的识别系统对于说法支持较为灵活，而对词条的支持比较严格。同时，本发明在支持用户自定义时，仅需生成用户自定义部分的解码网络，与原网络并联，简单高效，能快速在本地实现。

请参考图9，其示出了本发明一实施例提供的一种语音识别训练装置的框图。

如图9所示，语音识别训练装置900，包括模型训练模块910、说法解码网络构成模块920和词条解码网络构成模块930。

其中，模型训练模块910，配置为对于初始说法和至少一个初始词条，分别训练与所述初始说法对应的n-gram语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型；说法解码网络构成模块920 ，配置为基于所述n-gram语言模型构成初始说法解码网络；词条解码网络构成模块930，配置为基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。

请参考图10，其示出了本发明一实施例提供的一种语音识别解码装置的框图。

如图10所示，语音识别解码装置包括分词模块1010、顺序获取模块 1020和解码模块1030。

其中，分词模块1010，配置为将接收的语句文本分为说法和至少一个词条；顺序获取模块1020，配置为获取所述语句文本中的所述说法和所述至少一个词条的顺序；解码模块1030，配置为根据所述顺序，先进入与所述说法对应的n-gram语言模型解码网络进行解码，当走到词条路径时，跳转到相应的词条的grammar语言模型解码网络进行解码，当词条网络走到终点后，跳回与所述说法对应的n-gram语言模型解码网络进行解码。

应当理解，图9和图10中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图9和图10中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如分词模块可以描述为将接收的语句文本分为说法和至少一个词条的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如分词模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音识别训练和解码方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

对于初始说法和至少一个初始词条，分别训练与所述说法对应的n- gram语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型；

基于所述n-gram语言模型构成初始说法解码网络；

基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将接收的语句文本分为说法和至少一个词条；

获取所述语句文本中的所述说法和所述至少一个词条的顺序；

根据所述顺序，先进入与所述说法对应的n-gram语言模型解码网络进行解码，当走到词条路径时，跳转到相应的词条的grammar语言模型解码网络进行解码，当词条网络走到终点后，跳回与所述说法对应的n- gram语言模型解码网络进行解码。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据上述装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至上述装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项方法。

图11是本发明实施例提供的电子设备的结构示意图，如图11所示，该设备包括：一个或多个处理器1110以及存储器1120，图11中以一个处理器1110为例。上述方法的设备还可以包括：输入装置1130和输出装置1140。处理器1110、存储器1120、输入装置1130和输出装置 1140可以通过总线或者其他方式连接，图11中以通过总线连接为例。存储器1120为上述的非易失性计算机可读存储介质。处理器1110通过运行存储在存储器1120中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例方法。输入装置1130可接收输入的数字或字符信息，以及产生与上述装置的用户设置以及功能控制有关的键信号输入。输出装置1140可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音识别训练装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

基于所述n-gram语言模型构成初始说法解码网络；

作为一种实施方式，上述电子设备应用于语音识别解码装置中，包括：

将接收的语句文本分为说法和至少一个词条；

根据所述顺序，当走到说法路径时，进入与所述说法对应的n-gram 语言模型解码网络进行解码，当走到词条路径时，进入对应的词条的 grammar语言模型解码网络进行解码。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID 和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别训练方法，包括：

对于初始说法和至少一个初始词条，分别训练与所述初始说法对应的n-gram语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型；

基于所述n-gram语言模型构成初始说法解码网络；

2.根据权利要求1所述的方法，其中，所述方法还包括：

响应于用户添加新的说法，训练与所述新的说法对应的新的n-gram语言模型；

将所述新的n-gram语言模型构成的解码网络与初始说法解码网络合并成新的说法解码网络。

3.根据权利要求2所述的方法，其中，所述方法还包括：

响应于用户添加新的词条，生成与所述新的词条对应的新的grammar语言模型；

将所述新的grammar语言模型构成的解码网络与对应的初始词条解码网络合并成新的词条解码网络；

将所述新的词条解码网络的路径概率归一。

4.根据权利要求3所述的方法，其中，所述将所述新的词条解码网络的路径概率归一包括：

修改所述新的词条解码网络中每条完整路径的概率以使得所述新的词条解码网络的整体概率保持为1。

5.根据权利要求3所述的方法，其中，所述将所述新的n-gram语言模型构成的解码网络与初始说法解码网络合并成新的说法解码网络包括：

将所述新的n-gram语言模型构成的解码网络与初始说法解码网络并联成新的说法解码网络；

所述将所述新的grammar语言模型构成的解码网络与初始词条解码网络合并成新的词条解码网络包括：

将所述新的grammar语言模型构成的解码网络与初始词条解码网络并联成新的词条解码网络。

6.一种语音识别解码方法，包括：

将接收的语句文本分为说法和至少一个词条；

根据所述顺序，当走到说法路径时，进入与所述说法对应的n-gram语言模型解码网络进行解码，当走到词条路径时，进入对应的词条的grammar语言模型解码网络进行解码。

7.一种语音识别训练装置，包括：

模型训练模块，配置为对于初始说法和至少一个初始词条，分别训练与所述说法对应的n-gram语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型；

说法解码网络构成模块，配置为基于所述n-gram语言模型构成初始说法解码网络；

词条解码网络构成模块，配置为基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。

8.一种语音识别解码装置，包括：

分词模块，配置为将接收的语句文本分为说法和至少一个词条；

顺序获取模块，配置为获取所述语句文本中的所述说法和所述至少一个词条的顺序；

解码模块，配置为根据所述顺序，先进入与所述说法对应的n-gram语言模型解码网络进行解码，当走到词条路径时，跳转到相应的词条的grammar语言模型解码网络进行解码，当词条网络走到终点后，跳回与所述说法对应的n-gram语言模型解码网络进行解码。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。