CN108399914A

CN108399914A - 一种语音识别的方法和装置

Info

Publication number: CN108399914A
Application number: CN201710065885.7A
Authority: CN
Inventors: 徐礼逵
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-02-06
Filing date: 2017-02-06
Publication date: 2018-08-14
Anticipated expiration: 2037-02-06
Also published as: CN108399914B

Abstract

本发明实施例提供了一种语音识别的方法和装置，所述方法包括：当接收到语音数据，识别所述语音数据得到候选识别文本集合；判断所述候选识别文本集合中是否存在易混淆词对；若所述候选识别文本集合中存在易混淆词对，则采用预置的语言模型和贝叶斯模型得到所述候选识别文本集合的候选识别文本的评分；采用所述评分从所述候选识别文本中筛选出目标识别文本。本发明实施例中引入贝叶斯评分，提高了语音数据中易混淆词的识别准确度，提高了用户体验。

Description

一种语音识别的方法和装置

技术领域

本发明涉及语音技术领域，特别是涉及一种语音识别的方法和一种语音识别的装置。

背景技术

目前，移动互联网的快速发展带动了移动智能设备如手机、平板电脑的广泛普及，而作为移动设备上人机交互最方便自然的方式之一，语音识别正逐渐被广大用户所接受。

尽管随着语音识别技术的发展，语音识别性能取得了较大进步，但是语音识别受到如发音相同等的易混淆词的影响，很难从用户的发音准确识别出而导致识别错误。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音识别的方法和相应的一种语音识别的装置。

为了解决上述问题，本发明实施例公开了一种语音识别的方法，包括：

当接收到语音数据，识别所述语音数据得到候选识别文本集合；

判断所述候选识别文本集合中是否存在易混淆词对；

若所述候选识别文本集合中存在易混淆词对，则采用预置的语言模型和贝叶斯模型得到所述候选识别文本集合的候选识别文本的评分；

采用所述评分从所述候选识别文本中筛选出目标识别文本。

可选地，还包括：

若所述候选识别文本集合中不存在易混淆词对，则采用预置的语言模型得到所述候选识别文本集合的候选识别文本的评分。

可选地，所述判断所述候选识别文本集合中是否存在易混淆词对的步骤包括：

判断所述候选识别文本集合中在预置易混淆词库中是否存在匹配项；

当所述候选识别文本集合中在预置易混淆词库中存在匹配项时，判断为所述候选识别文本集合中存在易混淆词对。

可选地，所述贝叶斯模型通过如下方式进行训练：

从语料库中抽取包含易混淆词的训练语料；

抽取所述训练语料的训练词形；

采用所述训练词形训练贝叶斯模型。

可选地，所述采用预置的语言模型和贝叶斯模型得到所述候选识别文本集合的候选识别文本的评分的步骤包括：

从所述候选识别文本中提取出词形；

将所述词形输入到预置的贝叶斯模型，得到所述候选识别文本集合的候选识别文本的贝叶斯评分；

将所述词形输入到预置的语言模型，得到所述候选识别文本集合的候选识别文本的语言评分；

采用所述贝叶斯评分和语言评分得到所述候选识别文本的评分。

可选地，所述采用所述评分从所述候选识别文本中筛选出目标识别文本的步骤包括：

将所述评分按照由大到小的顺序进行排序；

将所述排序在最前的评分所对应的候选识别文本作为目标识别文本。

可选地，所述语言模型通过如下方式进行训练：

从语料库中获取注音训练语料；

采用所述注音训练语料训练所述语言模型。

可选地，所述注音训练语料通过如下方式获得：

从语料库中抽取包含多音字的训练语料；

抽取所述训练语料的训练词形和所述训练词形的训练位置特征；

对所述多音字进行分类注音得到注音多音字；

采用所述训练词形和所述训练词形的训练位置特征训练最大熵模型，得到所述注音多音字的最大出现概率；

基于所述最大出现概率的注音多音字修改所述训练语料得到注音训练语料；

采用所述注音训练语料修改所述语料库。

本发明实施例还公开了一种语音识别的装置，包括：

候选识别文本集合获得模块，用于当接收到语音数据，识别所述语音数据得到候选识别文本集合；

易混淆词对判断模块，用于判断所述候选识别文本集合中是否存在易混淆词对；

第一文本评分模块，用于若所述候选识别文本集合中存在易混淆词对，则采用预置的语言模型和贝叶斯模型得到所述候选识别文本集合的候选识别文本的评分；

目标识别文本筛选模块，用于采用所述评分从所述候选识别文本中筛选出目标识别文本。

可选地，还包括：

第二文本评分模块，用于若所述候选识别文本集合中不存在易混淆词对，则采用预置的语言模型得到所述候选识别文本集合的候选识别文本的评分。

可选地，所述易混淆词对判断模块包括：

匹配项查找子模块，用于判断所述候选识别文本集合中在预置易混淆词库中是否存在匹配项；

易混淆词对判定子模块，用于当所述候选识别文本集合中在预置易混淆词库中存在匹配项时，判断为所述候选识别文本集合中存在易混淆词对。

可选地，所述装置还包括贝叶斯模型训练模块，所述贝叶斯模型训练模块包括：

第一训练语料抽取子模块，用于从语料库中抽取包含易混淆词的训练语料；

训练词形抽取子模块，用于抽取所述训练语料的训练词形；

贝叶斯模型训练子模块，用于采用所述训练词形训练贝叶斯模型。

可选地，所述第一文本评分模块包括：

词形提取子模块，用于从所述候选识别文本中提取出词形；

词形输入子模块，用于将所述词形输入到预置的贝叶斯模型，得到所述候选识别文本集合的候选识别文本的贝叶斯评分；

语言评分获得子模块，用于将所述词形输入到预置的语言模型，得到所述候选识别文本集合的候选识别文本的语言评分；

总评分获得子模块，用于采用所述贝叶斯评分和语言评分得到所述候选识别文本的评分。

可选地，所述目标识别文本筛选模块包括：

评分排序子模块，用于将所述评分按照由大到小的顺序进行排序；

目标识别文本确定子模块，用于将所述排序在最前的评分所对应的候选识别文本作为目标识别文本。

可选地，所述装置还包括语言模型训练模块，所述语言模型训练模块包括：

注音训练语料获取子模块，用于从语料库中获取注音训练语料；

语言模型训练子模块，用于采用所述注音训练语料训练所述语言模型。

可选地，所述装置还包括注音训练语料生成模块，所述注音训练语料生成模块包括：

第二训练语料抽取子模块，用于从语料库中抽取包含多音字的训练语料；

特征提取子模块，用于抽取所述训练语料的训练词形和所述训练词形的训练位置特征；

多音字注音子模块，用于对所述多音字进行分类注音得到注音多音字；

最大出现概率得到子模块，用于采用所述训练词形和所述训练词形的训练位置特征训练最大熵模型，得到所述注音多音字的最大出现概率；

注音训练语料得到子模块，用于基于所述最大出现概率的注音多音字修改所述训练语料得到注音训练语料；

语料库修改子模块，用于采用所述注音训练语料修改所述语料库。

本发明实施例还公开了一种语音识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

判断所述候选识别文本集合中是否存在易混淆词对；

采用所述评分从所述候选识别文本中筛选出目标识别文本。

本发明实施例包括以下优点：

本发明实施例在接收到语音数据时将该语音数据转换为候选识别文本集合，如果该候选识别文本集合中的候选识别文本中存在易混淆词，则将该基于预置的预置贝叶斯模型和语言模型对于各个候选识别文本进行评分，最终基于该评分从筛选出目标识别文本，本发明实施例中引入贝叶斯评分，提高了语音数据中易混淆词的识别准确度。

附图说明

图1是本发明的一种语音识别的方法实施例一的步骤流程图；

图2是本发明的一种语音识别的方法实施例二的步骤流程图；

图3是本发明的一种语音识别的装置实施例的结构框图；

图4是根据一示例性实施例示出的一种语音识别的装置的框图；

图5是根据另一示例性实施例示出的一种语音识别的装置的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种语音识别方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，当接收到语音数据，识别所述语音数据得到候选识别文本集合；

当接收到用户输入的语音数据时，本发明实施例将对于该语音数据进行识别，得到包含多个候选识别文本的候选识别文本集合。

在具体实现中，为了均衡系统解码效率和解码准确率，在提高识别率的同时不占用过长的解码时间，提出使用多次解码的方式。其中，二遍解码，一遍是利用小语言模型加声学模型快速得到一个候选集，然后二遍利用大语言模型得到最终识别结果。

具体地，首先在一遍解码中采用小语言模型加声学模型得到的结果集合，该结果集合即为本发明实施例的候选识别文本集合。当得到候选识别文本集合之后，还可以利用本发明实施例经重新训练后的语言模型对于一遍解码生成的候选识别文本集合进行二遍解码，得到最终所需的目标识别文本。

当然，在实施本发明实施例时，也可以通过其他方式来得到初步的候选识别文本，本发明实施例对此无需加以限制。

步骤102，判断所述候选识别文本集合中是否存在易混淆词对；若所述候选识别文本集合中存在易混淆词对，则执行步骤103；

本发明实施例的易混淆词对可以是通过对语音识别错误分析统计得到的，诸如“做”和“坐”、“电”和“店”、“树”和“竖”等词对。对于统计分析得到的这些易混淆词对，可以保存到一个指定的易混淆词库中备用。

作为本发明的一种可选实施例，所述步骤102可以包括如下子步骤：

当获取到候选识别文本集合时，将该候选识别文本集合中的候选识别文本与预置的易混淆词库进行比对，如果候选识别文本中存在与易混淆词库匹配的词，可以视为该候选识别文本集合中存在易混淆词对。

步骤103，采用预置的语言模型和贝叶斯模型得到所述候选识别文本集合的候选识别文本的评分；

其中，语音识别技术，也可以称为自动语音识别(Automatic SpeechRecognition，ASR)，其任务是把用户所发出的语音中词汇内容转换为计算机可读入的文本。语音识别技术是一种综合性的技术，它涉及到多个学科领域，如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等等。

应用本发明实施例，可以在终端部署的语音识别系统可以在声学模型(AcousticModel，AM)与语言模型(Language Model，LM)的指导下针对接收到的语音数据识别得到一个或多个候选识别文本。

声学模型(Acoustic Model，AM)是自动语音识别系统的模型中最底层的部分，同时也是自动语音识别系统中最关键的组成单元，声学模型建模的好坏会直接从根本上影响语音识别系统的识别效果和鲁棒性。声学模型实验概率统计的模型对带有声学信息的语音基本单元建立模型，描述其统计特性。通过对声学模型的建模，可以较有效地衡量语音的特征矢量序列和每一个发音模板之间的相似度，可以有助于判断该段语音的声学信息，即语音的内容。语者的语音内容都是由一些基本的语音单元组成，这些基本的语音单元可以是句子、词组、词、音节(syllable)、子音节(Sub-syllable)或者音素等。

由于语音信号的时变性、噪声和其它一些不稳定因素，单纯靠声学模型无法达到较高的语音识别的准确率。在人类语言中，每一句话的单词直接有密切的联系，这些单词层面的信息可以减少声学模型上的搜索范围，有效地提高识别的准确性，要完成这项任务，语言模型是必不可少的，它提供了语言中词之间的上下文信息以及语义信息。

语言模型(Language Model，LM)具体可以包括N-Gram模型、马尔可夫N元模型(Markov N-gram)、指数模型(Exponential Models)、决策树模型(Decision Tree Models)等等。而N-Gram模型是最常被使用的统计语言模型。

本发明实施例的语音识别过程中，除了部署有声学模型和语言模型之外，还引入了贝叶斯模型，基于贝叶斯模型可以解决易混淆词对的识别问题。

步骤104，采用所述评分从所述候选识别文本中筛选出目标识别文本。

对于存在易混淆词对的候选识别文本集合，本发明实施例将采用预置的语言模型和贝叶斯模型分别为各个候选识别文本进行打分，最后基于这两个模型的打分从候选识别文本中筛选出所需的目标识别文本。声学模型对于本发明实施例的影响很小，可以视为一个定量忽略不计。

本发明实施例在接收到语音数据时将该语音数据转换为候选识别文本集合，如果该候选识别文本集合中的候选识别文本中存在易混淆词，则将该基于预置的预置贝叶斯模型和语言模型对于各个候选识别文本进行评分，最终基于该评分从筛选出目标识别文本，本发明实施例中引入贝叶斯评分，提高了语音数据中易混淆词的识别准确度，提高了用户体验。

参照图2，示出了本发明的一种语音识别方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201，当接收到语音数据，识别所述语音数据得到候选识别文本集合；

步骤202，判断所述候选识别文本集合中是否存在易混淆词对；若所述候选识别文本集合中存在易混淆词对，则执行步骤203，若所述候选识别文本集合中不存在易混淆词对，则执行步骤204；

步骤203，采用预置的语言模型和贝叶斯模型得到所述候选识别文本集合的候选识别文本的评分；

在本发明实施例中，对于语音识别得到的到候选识别文本集合，会先确定是否存在易混淆词对，如果存在易混淆词对，则需要引入贝叶斯模型，结合语言模型一起对于候选识别文本进行打分。如果不存在易混淆词对，则可以只使用语言模型对于候选识别文本进行打分。

作为本发明的一种可选实施例，所述语言模型可以通过如下方式进行训练：

从语料库中获取注音训练语料；

采用所述注音训练语料训练所述语言模型。

在本发明实施例中，采用注音训练语料对于语言模型进行训练。语言模型可以使用Ngram语言模型。Ngram语言模型是利用语句中前面N-1个词来预测第N个词的语言模型，公式表达如下：

P(S)＝P(w1，w2，w3，w4，w5，…，wn)

＝p(w1)p(w2|w1)p(w3|w1，w2)...p(wn|w1，w2，…，wn-1)

在上述公式中，P表示概率，S表示语句，w表示语句S中的单词，w1，w2，…，wn则分别代表语句S中第一个词，第二个词，…，第n个词。

Ngram语言模型基于马尔科夫假设，即下一个词出现仅依赖于它前面一个或几个词。例如，可以假设下一个词的出现依赖它前面的N-1词(N为正整数)。

本发明实施例的语言模型，是基于注音训练语料来进行训练。所谓注音训练语料，是指针对语句中的多音字，按照该多音字在语句中正确读音在进行标注。

例如：差_cha4 了一天的时间

在上述示例中的多音字“差”，是采用“差_cha4”在语句中进行标注的。由于本发明实施例的语言模型是基于注音语料来进行训练，因此能够解决一字多音带来的概率借用问题。

具体地，本发明实施例的注音训练语料可以通过如下方式获得：

从语料库中抽取包含多音字的训练语料；

对所述多音字进行分类注音得到注音多音字；

采用所述注音训练语料修改所述语料库。

本发明实施例中可以针对所有的多音字进行过滤，筛选出容易导致识别错误的多音字，并保存在指定的多音字库，对于在该多音字库中存在匹配项的语料，可以认为是含有多音字的语料。

从语料库中抽取含有多音字的语料，对多音字前后N个词抽取词形以及该词形的位置特征，训练多音字最大熵分类模型。

最大熵分类模型：熵是随机变量不确定性的度量，不确定性越大，熵值越大；为了准确的估计随机变量的状态，一般习惯性最大化熵，认为在所有可能的概率模型的集合中，熵最大的模型是最好的模型。换言之，在已知部分知识的前提下，最不确定或最随机的推断就是最合理的推断，最大熵分类模型公式如下：

在上述公式中，X表示特征，Y表示结果。具体到多音字确定中，X表示词形、位置特征，Y表示多音字发音。

最大熵分类模型训练示例如下：

语料：今天就差你一个了。

那么，从语料中抽取出来的词形以及词形的位置特征则是：N-2＝今天，N-1＝就，N+1＝你，N+2＝一个，N+3＝了。

将词形和位置特征输入最大熵分类模型，得到“差”的概率P(cha4)＝82％，P(chai1)＝18％，由于差_cha4的概率大于差_chai1，则将该语句中的差变为差_cha4。

在本发明实施例中，对所有语料中的多音字，按照上述的最大熵分类模型进行分类注音，得到的结果如下：

差了一天的时间 →差_cha4 了一天的时间

差了一个下人去办理→差_chai1 了一个下人去办理

那么，针对多音词“差”，在先的语料库为：

差 chai1

差 cha4

修改后的语料库则为：

差_chai1 chai1

差_cha4 cha4

本发明实施例根据该结果修改语料库，拆分多音字，使得语料库中多音字都带有注音，即该语料库中的语料变为注音训练语料。

在训练语言模型时，就从修改后的语料库中获取到注音训练语料来进行训练，例如：

差了一天的时间

现在语料库中的语句是：

差_cha4 了一天的时间

本发明实施例是通过注音的方式拆分了多音字，实际上使得多音字变成了多个不同的词，因此，本发明实施例多音字注音可以解决一字多音带来的概率借用问题。举例如下：

拆了一天的快递→差(chai1)了一天的快递

在以前错误识别结果中，声学模型上差借用的是chai1的发音，语言模型上借用的是chai1和cha4两个词的得分，所以导致错误结果语言模型得分很高，而本发明实施例使用多音字注音后：

差→差_chai1

差→差_cha4

由于本发明实施例将“差”拆分为两个不同的词，那么就再也不会发生多音字带来的概率借用问题。

作为本发明的一种可选实施例，所述贝叶斯模型通过如下方式进行训练：

从语料库中抽取包含易混淆词的训练语料；

抽取所述训练语料的训练词形；

采用所述训练词形训练贝叶斯模型。

本发明实施例中，对于含有易混淆词对的语料，抽取整句词形特征，训练易混淆词对的贝叶斯模型。

其中，贝叶斯模型是基于贝叶斯定理实现，贝叶斯定理具体是指：事件A在事件B(发生)的条件下的概率，与事件B在事件A(发生)的条件下的概率是不一样的；然而，这两者是有确定的关系的，具体贝叶斯模型公式如下：

在上述公式中，A，B代表事件，P(A)就是事件A发生的概率，P(A|B)是一个条件概率，代表事件B已经发生条件下事件A发生的概率。

贝叶斯模型训练简单示例如下：

首先从语料库中抽取含有易混淆词对的语料，抽取该语料整句的词形，输入到训练易混淆词对的贝叶斯模型，最后的模型需要得到如下信息：

P(火车|做)

P(火车|坐)

P(作业|做)

P(作业|坐)

……

其中，

P(火车|做)＝P(火车，做)/P(做)

P(火车，做)代表了语料中火车和做同时出现的概率；

P(做)代表了语料中出现了做的概率；

以句子为单位，假设语料有10000000句，其中2000句中出现了“做”，200句中同时出现了“火车”和“做”。那么：

P(火车，做)＝2000/10000000

P(做)＝200/10000000

P(火车|做)＝P(火车，做)/P(做)＝200/2000＝0.1

对于得到的贝叶斯模型数据，就可以用于后续在二遍解码中进一步确认易混淆词了。

作为本发明的一种可选实施例，所述步骤203可以包括如下子步骤：

从所述候选识别文本中提取出词形；

在本发明实施例中，如果候选识别文本集合中存在易混淆词对，则引入贝叶斯模型，结合语言模型同时进行评分。即从候选识别文本中提取出词形，然后将该词形分布输入到贝叶斯模型和语言模型中，得到贝叶斯评分和语言评分，再将两者插值得到该候选识别文本的评分。

在一种示例中，二遍解码中如果语音识别文本集合含有易混淆词对，启动贝叶斯模型和Ngram模型同时打分，插值后作为语言总得分，如果不引入贝叶斯模型，那么可能会出现识别错误，具体例子如下：

做了很久将近一天两夜的火车LM＝-23.7，AM＝242.5①

坐了很久将近一天两夜的火车LM＝-27.9，AM＝242.5②

score＝LM*λ+AM,(λ＝12，λ一般取值8-15之间)

其中，LM为语言模型的打分，AM为声学模型的打分。从上面的得分可以看出①句的得分更高，从而导致输出错误的结果。

而在本发明实施例中，在引入贝叶斯模型后可以很好地解决上述问题。具体例子如下：

做了很久将近一天两夜的火车LM＝-23.7AM＝242.5BM＝-21.1①

坐了很久将近一天两夜的火车LM＝-27.9AM＝242.5BM＝-5.9②

score＝(0.5*LM+0.5*BM)*λ+AM

其中，BM为贝叶斯模型的打分。

贝叶斯评分插值后，②句的得分更高，能够识别出正确的结果。

其中，对于“做”“坐”贝叶斯模型文件如下(得分均为以10为底的对数值)：

#bayes model

做 -2.9

坐 -4.1

...

火车|做＝-18.2

火车|坐＝-1.8

...

#end

具体到上面的例子，带入公式得：

P(做|火车)＝P(火车|做)+P(做)＝-18.2+(-2.9)＝-21.1

P(坐|火车)＝P(火车|坐)+P(坐)＝-1.8+(-4.1)＝-5.9

注：上面的式子变成了概率相加是因为两边都取了对数。

需要说明的是，语句中其他词也可以参与了计算，例如“一天两夜”，但是由于其他词无论是“做”还是“坐”的识别，概率变化很小，所以实际中可以不参与计算。

本发明实施例的贝叶斯模型，实际解决的是长距离依赖问题。由于贝叶斯模型看的是整个语句，所以“坐”和“火车”无论中间加了多少的修饰词，这个强依赖关系都能得到很好的建模。

具体地，首先长距离依赖问题是指由于含有依赖关系的两个词距离太长，导致模型没法对其建模而导致的问题。

继续以上述例子为例：

做了很久将近一天两夜的火车

上句中“做”和“火车”有依赖关系，也就是说“火车”确定了该用哪个zuo4，语言模型看的是前面N个词(N通常取3，4)，也就是说“火车”由于距离不够看不到zuo4。但是贝叶斯模型是对整句话建模，火车能够看到zuo4，能够确定“做”。因此贝叶斯模型解决了语言模型不能解决的长距离依赖问题。

本发明实施例的贝叶斯模型其实可以用在很多其他易混淆词对上，如：dian4是什么时候*(*代表一个词汇)。

上面这个语句中，dian4应该是哪个字？店？电？在*这个词汇揭晓前，我们是无法确定的，*可以是“发现”，也可以是“出售”。所以说词汇*确认前，是无法得到dian4的正确结果的，可惜的是，当确认了*是什么的时候，dian4已经确定了。这就是Ngram语言模型的一大缺点，无法解决长距离依赖问题。同样的易混淆词汇还有再在、话画等等。

步骤204，采用预置的语言模型得到所述候选识别文本集合的候选识别文本的评分；

在本发明实施例中，如果候选识别文本集合中不存在易混淆词对，那么可以无需引用贝叶斯模型，只需要使用语言模型进行评分即可。由于语言模型的处理过程与上述引入了贝叶斯模型的语言模型的处理过程基本类似，就不再赘述了。

需要说明的是，由于本发明实施例的语言模型是通过注音多音字训练过，因此对于多音字识别具有优化的作用，即能够解决一字多音带来的概率借用问题。

步骤205，采用所述评分从所述候选识别文本中筛选出目标识别文本。

作为本发明的一种可选实施例，所述步骤205可以包括如下子步骤：

将所述评分按照由大到小的顺序进行排序；

本发明实施例最终会对于候选识别文本所得的评分按照由大到小的顺序进行排序，然后将排序在最前的评分对应的候选识别文本，作为本次语音识别的目标识别文本。

需要强调的是，本发明实施例多音字和易混淆词的处理是属于两个完全不同的处理过程，其解决的问题、方法、步骤都是完全不同的，在实际应用中可以分别使用，也可以同时使用，因为两者都起到了优化模型的效果，并且不冲突。具体在本发明实施例中，多音字和易混淆词的处理过程分别如下：

多音字的处理过程为：

1)提取训练语料中词形、位置特征，

2)利用上述特征训练最大熵分类模型，确定多音字发音；

3)然后利用带发音的多音字训练语言模型。

到这一步以后，多音字已经处理完毕，也即是说多音字相关的步骤只有语料处理，语言模型训练。

易混淆词的处理过程为：

1)提取语料中词形特征；

2)利用上述特征训练贝叶斯模型；

3)语言模型训练(易混淆词处理过程不同于多音字，多音字是修改了语言模型，易混淆词是重新训练了另外一个模型，即贝叶斯模型)。

具体应用到语音识别解码处理过程中，进行一遍解码，得到一个候选识别文本集合，然后判断候选识别文本集合中的句子是否有易混淆词，如果是，则再启用贝叶斯模型、Ngram语言模型进行二遍解码，然后从候选识别集合中筛选出最终的语音识别结果。也即是说易混淆词相关的步骤只有语料处理，贝叶斯模型训练、后处理筛选最终结果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种语音识别的装置实施例的结构框图，具体可以包括如下模块：

候选识别文本集合获得模块301，用于当接收到语音数据，识别所述语音数据得到候选识别文本集合；

易混淆词对判断模块302，用于判断所述候选识别文本集合中是否存在易混淆词对；

第一文本评分模块303，用于若所述候选识别文本集合中存在易混淆词对，则采用预置的语言模型和贝叶斯模型得到所述候选识别文本集合的候选识别文本的评分；

目标识别文本筛选模块304，用于采用所述评分从所述候选识别文本中筛选出目标识别文本。

作为本发明的一种可选实施例，所述装置还可以包括：

作为本发明的一种可选实施例，所述易混淆词对判断模块302可以包括如下子模块：

作为本发明的一种可选实施例，所述装置还可以包括语言模型训练模块，所述语言模型训练模块可以包括如下模块：

作为本发明的一种可选实施例，所述装置还包括注音训练语料生成模块，所述注音训练语料生成模块包括：

作为本发明的一种可选实施例，所述装置还包括贝叶斯模型训练模块，所述贝叶斯模型训练模块包括：

训练词形抽取子模块，用于抽取所述训练语料的训练词形；

作为本发明的一种可选实施例，所述第一文本评分模块303可以包括如下子模块：

词形提取子模块，用于从所述候选识别文本中提取出词形；

作为本发明的一种可选实施例，所述目标识别文本筛选模块304可以包括如下子模块：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图4是根据一示例性实施例示出的一种语音识别的装置500的框图。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等，可用于离线语音识别。

参照图4，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理部件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件514经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件514还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置500的处理器执行时，使得装置500能够执行一种语音识别的方法，所述方法包括：

判断所述候选识别文本集合中是否存在易混淆词对；

采用所述评分从所述候选识别文本中筛选出目标识别文本。

可选地，所述装置500还经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令：

可选地，所述判断所述候选识别文本集合中是否存在易混淆词对，包括：

可选地，所述语言模型通过如下方式进行训练：

从语料库中获取注音训练语料；

采用所述注音训练语料训练所述语言模型。

可选地，所述注音训练语料通过如下方式获得：

从语料库中抽取包含多音字的训练语料；

对所述多音字进行分类注音得到注音多音字；

采用所述注音训练语料修改所述语料库。

可选地，所述贝叶斯模型通过如下方式进行训练：

从语料库中抽取包含易混淆词的训练语料；

抽取所述训练语料的训练词形；

采用所述训练词形训练贝叶斯模型。

可选地，所述采用预置的语言模型和贝叶斯模型得到所述候选识别文本集合的候选识别文本的评分，包括：

从所述候选识别文本中提取出词形；

可选地，所述采用所述评分从所述候选识别文本中筛选出目标识别文本，包括：

将所述评分按照由大到小的顺序进行排序；

图5是根据另一示例性实施例示出的一种语音识别的装置1900的框图。例如，装置1900可以是服务器，可用于在线语音识别。

该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得移动终端能够执行一种语音识别的方法包括：

判断所述候选识别文本集合中是否存在易混淆词对；

采用所述评分从所述候选识别文本中筛选出目标识别文本。

可选地，所述装置1900还经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令：

可选地，所述语言模型通过如下方式进行训练：

从语料库中获取注音训练语料；

采用所述注音训练语料训练所述语言模型。

可选地，所述注音训练语料通过如下方式获得：

从语料库中抽取包含多音字的训练语料；

对所述多音字进行分类注音得到注音多音字；

采用所述注音训练语料修改所述语料库。

可选地，所述贝叶斯模型通过如下方式进行训练：

从语料库中抽取包含易混淆词的训练语料；

抽取所述训练语料的训练词形；

采用所述训练词形训练贝叶斯模型。

从所述候选识别文本中提取出词形；

将所述评分按照由大到小的顺序进行排序；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别的方法，其特征在于，包括：

判断所述候选识别文本集合中是否存在易混淆词对；

采用所述评分从所述候选识别文本中筛选出目标识别文本。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述判断所述候选识别文本集合中是否存在易混淆词对的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述贝叶斯模型通过如下方式进行训练：

从语料库中抽取包含易混淆词的训练语料；

抽取所述训练语料的训练词形；

采用所述训练词形训练贝叶斯模型。

5.根据权利要求1所述的方法，其特征在于，所述采用预置的语言模型和贝叶斯模型得到所述候选识别文本集合的候选识别文本的评分的步骤包括：

从所述候选识别文本中提取出词形；

6.根据权利要求1所述的方法，其特征在于，所述采用所述评分从所述候选识别文本中筛选出目标识别文本的步骤包括：

将所述评分按照由大到小的顺序进行排序；

7.根据权利要求1-6任一所述的方法，其特征在于，所述语言模型通过如下方式进行训练：

从语料库中获取注音训练语料；

采用所述注音训练语料训练所述语言模型。

8.根据权利要求7所述的方法，其特征在于，所述注音训练语料通过如下方式获得：

从语料库中抽取包含多音字的训练语料；

对所述多音字进行分类注音得到注音多音字；

采用所述注音训练语料修改所述语料库。

9.一种语音识别的装置，其特征在于，包括：

10.一种语音识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

判断所述候选识别文本集合中是否存在易混淆词对；

采用所述评分从所述候选识别文本中筛选出目标识别文本。