CN105244029A

CN105244029A - 语音识别后处理方法及系统

Info

Publication number: CN105244029A
Application number: CN201510560841.2A
Authority: CN
Inventors: 金重九; 胡加学; 赵乾; 王道广; 于振华; 孙昌年
Original assignee: iFlytek Co Ltd
Current assignee: Iflytek Medical Technology Co ltd
Priority date: 2015-08-28
Filing date: 2015-08-28
Publication date: 2016-01-13
Anticipated expiration: 2035-08-28
Also published as: CN105244029B

Abstract

本发明公开了一种语音识别后处理方法及系统，该方法包括：预先利用语音识别容易出错的词对构建错词检测模型；在接收到待识别语音数据后，对所述语音数据进行语音识别，得到识别结果；依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征；利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，得到修正后的识别结果。利用本发明，可以提高语音识别结果后处理的效果，准确修正识别结果中错误词。

Description

语音识别后处理方法及系统

技术领域

本发明涉及自然语言处理领域，具体涉及一种语音识别后处理方法及系统。

背景技术

随着人机交互的广泛应用，人们对人机交互的准确度要求越来越高。语音识别作为人机交互中的重要环节，直接影响人机交互的体验。然而，现有的语音识别系统经常会由于语音数据的不理想、声学模型或语言模型的不完美而出现识别错误的结果，增加了语义理解的难度，并降低了用户体验度。因此，需要对语音识别结果进行后处理，即对错误的识别结果修正，将修正后的识别结果反馈给用户。

现有的语音识别后处理方法主要是首先通过领域专家构建语义知识库，给出具体的词法规则、句法规则及语义规则，构建语义模板；然后将语音识别结果同语义知识库中的模板进行匹配，发现识别错误的词；最后根据语义知识库模板将识别错误的词进行修正，得到修正后结果。这种方法需要大量领域专家对知识库中词法规则、句法规则及语义规则进行归纳和整理构建语义知识库模板，如果语义知识库构建的不完整或冗余较多时，后处理效果较差。此外，这种方法需要大量的领域专家进行标注，成本较高，花费时间较长。因此，如何提高语音识别结果进行后处理的效果，准确修正语音识别结果中错误词具有重大的意义。

发明内容

本发明提供一种语音识别后处理方法及系统，以提高语音识别结果后处理的效果，准确的修正语音识别结果中错误词。

为此，本发明提供如下技术方案：

一种语音识别后处理方法，包括：

预先利用语音识别容易出错的词对构建错词检测模型；

在接收到待识别语音数据后，对所述语音数据进行语音识别，得到识别结果；

依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征；

利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，并且如果检测得到的对应当前词的词对为正确词对的概率大于设定阈值，则将所述词对中的词典词替换所述当前词；

检测完成后，输出修正后的识别结果。

优选地，所述利用语音识别容易出错的词对构建错词检测模型包括：

通过聚类方式确定语音识别容易出错的词对，得到错词对集合；

利用所述错词对集合构建错词检测模型。

优选地，所述通过聚类方式确定语音识别容易出错的词对，得到错词对集合包括：

获取训练语音数据；

对所述训练语音数据进行语音识别，得到识别文本；

获取包含所述识别文本中各词的通用文本；

利用所述识别文本训练得到所述识别文本中各词的词向量，并将其作为所述词的识别词向量，并利用所述通用文本训练得到所述通用文本中各词的词向量，并将其作为所述词的通用词向量；

对所述识别文本中各词的识别词向量进行聚类，得到各词的类别；

根据所述通用词向量计算每个类别中两个词之间的通用语义相似度；

计算每个类别中两个词之间的声学相似度；

如果计算得到的两个词的通用语义相似度低于设定的第一阈值，并且声学相似度高于设定的第二阈值，则将所述两个词作为错词对加入到错词对集合中。

优选地，所述利用所述识别文本训练得到所述识别文本中各词的词向量包括：

对所述识别文本中的各词进行向量初始化，得到各词的初始词向量；

利用神经网络对各词的初始词向量进行训练，得到所述识别文本中各词的词向量。

优选地，所述根据所述通用词向量计算每个类别中两个词之间的通用语义相似度包括：

计算每个类别中两个词的通用词向量之间的距离；

根据计算得到的两个词的通用词向量之间的距离确定所述两个词之间的通用语义相似度。

优选地，所述计算每个类别中两个词之间的声学相似度包括：

计算每个类别中两个词的声学距离；

根据计算得到的两个词的声学距离确定所述两个词之间的声学相似度。

优选地，所述利用所述错词对集合构建错词检测模型包括：

提取所述错词对集合中每个错词对的标注信息，所述标注信息用于表示所述错词对中其中一个词是否应该识别为其中另一个词；

提取所述错词对集合中识别错误词的语义特征，所述语义特征包括；错词的上下文相关环境特征、错词的识别词向量、错词的通用词向量；

提取所述错词对集合中每个词所对应语音数据的声学特征；

利用提取的错词对的标注信息、语义特征及声学特征，构建错词检测模型。

一种语音识别后处理系统，包括：

检测模型构建模块，用于预先利用语音识别容易出错的词对构建错词检测模型；

接收模块，用于接收待识别语音数据；

语音识别模块，用于对所述接收模块接收的语音数据进行语音识别，得到识别结果；

特征提取模块，用于依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征；

修正模块，用于利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，并且如果检测得到的对应当前词的词对为正确词对的概率大于设定阈值，则将所述词对中的词典词替换所述当前词；

输出模块，用于在所述修正模块对所述识别结果中的各词检测完成后，输出修正后的识别结果。

优选地，所述检测模型构建模块包括：

错词对集合生成模块，用于通过聚类方式确定语音识别容易出错的词对，得到错词对集合；

模型构建模块，用于利用所述错词对集合构建错词检测模型。

优选地，所述错词对集合生成模块包括：

训练数据获取单元，用于获取训练语音数据；

识别文本获取单元，用于调用所述语音识别模块对所述训练语音数据进行语音识别，得到识别文本；

通用文本获取单元，用于获取包含所述识别文本中各词的通用文本；

词向量训练单元，用于利用所述识别文本训练得到所述识别文本中各词的词向量，并将其作为所述词的识别词向量，并利用所述通用文本训练得到所述通用文本中各词的词向量，并将其作为所述词的通用词向量；

聚类单元，用于对所述识别文本中各词的识别词向量进行聚类，得到各词的类别；

通用语义相似度计算单元，用于根据所述通用词向量计算每个类别中两个词之间的通用语义相似度；

声学相似度计算单元，用于计算每个类别中两个词之间的声学相似度；

判断单元，用于判断每个类别中两个词的通用语义相似度是否低于设定的第一阈值，并且所述两个词的声学相似度是否高于设定的第二阈值，如果是，则将所述两个词作为错词对加入到错词对集合中。

优选地，所述通用语义相似度计算单元，具体用于计算每个类别中两个词的通用词向量之间的距离，并根据计算得到两个词的通用词向量之间的距离确定所述两个词之间的通用语义相似度。

优选地，所述声学相似度计算单元，具体用于计算每个类别中两个词的声学距离，并根据计算得到的两个词的声学距离确定所述两个词之间的声学相似度。

优选地，所述模型构建模块包括：

标注信息提取单元，用于提取所述错词对集合中每个错词对的标注信息，所述标注信息用于表示所述错词对中其中一个词是否应该识别为其中另一个词；

语义特征提取单元，用于提取所述错词对集合中识别错误词的语义特征，所述语义特征包括；错词的上下文相关环境特征、错词的识别词向量、错词的通用词向量；

声学特征提取单元，用于提取所述错词对集合中每个词所对应语音数据的声学特征；

模型生成单元，用于利用提取的错词对的标注信息、语义特征及声学特征，构建错词检测模型。

本发明实施例提供的语音识别后处理方法及系统，预先利用语音识别容易出错的词对构建错词检测模型，在对待识别语音数据进行语音识别后，将得到的识别结果利用该错词检测模型对其进行修正，从而可以提高语音识别结果后处理效果，准确修正语音识别结果中的错误词，提升用户体验度。

进一步地，由于错词检测模型的构建是通过预先收集大量语音数据，并进行语音识别，根据识别文本发现语音识别容易出错的词，得到错词对集合，然后根据该错词对集合中的各词与语音识别相关的一些特征来构建的，从而使后续对语音识别结果进行后处理的过程不依赖于由专家构建的语义知识库，有效地避免了语音识别后处理过程受人为因素的影响，进一步提高了处理效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施语音识别后处理方法的流程图；

图2是本发明实施例语音识别后处理方法中生成错词对集合的一种流程图；

图3是本发明实施例中两个词拼音元素最小编辑距离路径示意图；

图4是本发明实施例中每个聚类中词与词之间的关系象限图；

图5是本发明实施例中利用错词对集合构建错词检测模型的流程图；

图6是本发明实施例语音识别后处理系统的结构示意图；

图7是本发明实施例中错词对集合生成模块的结构示意图；

图8是本发明实施例中模型构建模块的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例语音识别后处理方法的流程图，包括以下步骤：

步骤101，预先利用语音识别容易出错的词对构建错词检测模型。

错词检测模型的构建可以首先确定语音识别容易出错的词对，得到错词对集合，然后利用所述错词对集合构建错词检测模型，具体构建过程将在后面详细描述。

步骤102，在接收到待识别语音数据后，对所述语音数据进行语音识别，得到识别结果。

具体的语音识别方法可以采用现有技术，对此本发明实施例不做限定。

步骤103，依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征。

所述语义特征包括所述词的上下文相关环境特征、所述词的识别词向量及通用词向量；其中，所述上下文相关环境特征包括：当前词前后邻接词的词性、当前词在句中的位置等信息；所述识别词向量是指根据识别文本训练得到的词向量；所述通用词向量是指根据通用文本训练得到的词向量。词向量的具体训练过程将在后面详细说明。所述声学特征可以为每个词的拼音信息，或者为：基频特征、和/或频谱特征等，基频特征如F0，频谱特征如MFCC(MelFrequencyCepstrumCoefficient，梅尔频率倒谱系数)特征等。至此，可以得到每个词对中识别结果中词的语义特征及声学特征，以及词典词的声学特征，将这些特征作为该词对的特征，利用错词检测模型对该词对进行检测；需要说明的是，所述词典词的通用语义向量和识别词向量也可以根据通用文本训练得到，也可以将所述词典词的通用语义向量和识别词向量作为词典词的语义特征，加入到词对特征中。

步骤104，利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，并且如果检测得到的对应当前词的词对为正确词对的概率大于设定阈值，则将所述词对中的词典词替换所述当前词。

具体地，对于识别结果中的各词，依次将对应该词的每个词对的特征作为错词检测模型的输入，得到该词对为正确词对的概率，当所述概率大于预先设定的阈值时，则将词对中识别正确词替换识别结果中相应词，即将该词对中的词典词替换识别结果中相应词，从而得到修正后的识别结果。如识别结果中词“查循”与词典中词“查询”组成词对，提取该词对的特征作为错词检测模型的输入，得到该词对为正确词对的概率0.89，超过预先设定的阈值0.8，则在识别结果中，将“查循”替换为“查询”。

需要说明的是，当有多个词对的概率大于预先设定的阈值时，则选择概率最大的词对中词典词替换识别结果中相应词。

步骤105，检测完成后，输出修正后的识别结果。

本发明实施例提供的语音识别后处理方法，预先利用语音识别容易出错的词对构建错词检测模型，也就是说，将语音识别中的错误聚集到一起，从错误中自动学习到其中识别错误的规律性，在对待识别语音数据进行语音识别后，将得到的识别文本利用该错词检测模型对其进行修正，也就是说，利用这种识别错误的规律性，“反向”发现识别中的错误，从而可以提高语音识别结果后处理效果，准确修正语音识别结果中错误词，提升用户体验度。

在实际应用中，可以通过聚类方式确定语音识别容易出错的词对，得到错词对集合。

如图2所示，是本发明实施例语音识别后处理方法中生成错词对集合的一种流程图，包括以下步骤：

步骤201，获取训练语音数据。

步骤202，对所述训练语音数据进行语音识别，得到识别文本。

具体地，可以预先收集大量语音数据，并利用现有的语音识别系统对这些语音数据进行识别，得到大量识别文本。所述语音数据可以是所有领域的语音数据，也可以是根据用户实际需求定制的相应领域的语音数据。

步骤203，获取包含所述识别文本中各词的通用文本。

比如，可以利用现有识别系统中语言模型的训练文本作为所述通用文本，当然，所述训练文本需要包含上述识别文本中的所有词。

步骤204，利用所述识别文本训练得到所述识别文本中各词的词向量，并将其作为所述词的识别词向量，并利用所述通用文本训练得到所述通用文本中各词的词向量，并将其作为所述词的通用词向量。

识别词向量的训练过程如下：首先对所述识别文本包含的词进行去重，即去除其中重复的词，将去重后的各词进行向量初始化，得到各词的初始词向量，然后利用神经网络对各词的初始词向量进行训练，得到所述识别文本中各词的词向量。

所述通用词向量是指利用收集的大量通用文本，训练得到的各词的词向量。

通用词向量的训练过程与识别词向量的训练过程相同，首先对所述通用文本包含的词进行去重，即去除其中重复的词，将去重后的各词进行向量初始化，得到各词的初始词向量，然后利用神经网络对各词的初始词向量进行训练，得到所述通用文本中各词的词向量。

步骤205，对所述识别文本中各词的识别词向量进行聚类，得到各词的类别。

比如，可以利用各词的识别词向量之间的距离进行聚类，得到各识别词向量的类别，该类别即为所述识别词向量对应的词的类别。

识别词向量之间的距离具体可以是余弦距离、欧式距离、马式距离等，以余弦距离为例，如公式(1)所示：

D (\overset{&RightArrow;}{x}, \overset{&RightArrow;}{y}) = \frac{\overset{&RightArrow;}{x} \cdot \overset{&RightArrow;}{y}}{|| \overset{&RightArrow;}{x} || || \overset{&RightArrow;}{y} ||} = \frac{x_{1} \cdot y_{1} + x_{2} \cdot y_{2} + ... + x_{n} \cdot y_{n}}{\sqrt{x_{1}^{2} + x_{2}^{2} + ... + x_{n}^{2}} \sqrt{y_{1}^{2} + y_{2}^{2} + ... + y_{n}^{2}}} - - - (1)

其中，为识别词向量和的余弦距离，x₁...x_n为识别词向量的值，y₁...y_n为识别词向量的值。

余弦距离越小，两个识别词向量越接近，越容易被聚到同一类中。具体聚类算法可以采用K-means算法、KD-Tree算法等。

如表1所示为聚类后部分识别词向量表示的词及其所属类别。

表1：

类1	类2	类3	类4	类5
					查看一下	网银	邮政储蓄	详单	新加坡
查讯	个人网银	工商银行	通话详单	澳门
					查看	网上银行	建设银行	通话记录	台湾
查	浦发	农业银行	详单查询	香港
					查询	动态密码	农行	详	韩国
查清单	银行卡	储蓄卡	单是	内地
					查的	签约	借记卡	单是吧	英国
旬	请问	信用卡	单是吗	9毛9

查寻到	证书版网银	邮政	前五个月	法国
					寻找	手续费	银行	前一天	2块9毛9

步骤206，根据所述通用词向量计算每个类别中两个词之间的通用语义相似度。

两个词之间的通用语义相似度可以根据两个词的通用词向量之间的距离来确定，两个词之间的通用词向量距离越近，则两个词的通用语义相似度越高。当然，两个词之间的通用语义相似度也可以直接使用两个词的通用词向量之间的距离表示，如余弦距离等，具体计算公式可参照前述公式(1)。

步骤207，计算每个类别中两个词之间的声学相似度。

两个词之间的声学相似度可以根据两个词的声学距离来确定，两个词之间的声学距离越近，则两个词的声学相似度越高。当然，两个词之间的声学相似度也可以直接使用两个词的声学距离表示。声学距离的计算可以通过两个词拼音中每个字符转换距离来计算，即根据字符转换混淆矩阵中两个字符的转换距离来计算；当然，也可以提取两词对应语音数据的基频、频谱特征计算声学距离。以根据两词拼音字符转换距离计算声学距离为例，如表2为部分字符转换混淆矩阵，其中，第一行和第一列为相互转换的字符，两个字符相交处为转换距离。

表2：

	a	ai	an	ang	ao	b	c	ch	d	e	ei	en	eng
														a	-	0.67	0.65	0.72	0.6	1	1	1	1	0.6	0.893	0.88	0.927
ai	0.67	-	0.7	0.95	0.928	1	1	1	1	0.914	0.763	0.866	0.928
														an	0.654	0.699	-	0.6	0.938	1	1	1	1	0.954	0.944	0.67	0.832
ang	0.716	0.95	0.6	-	0.793	1	1	1	1	0.972	0.971	0.877	0.737

根据两个词拼音的字符转换距离计算两个词的声学距离，具体的计算公式如下式(2)所示：

D_{a c o u} (a_{1}, a_{2}) = \frac{1}{1 + D_{e d i t} (a_{1}, a_{2})} - - - (2)

其中，为两个词的声学距离，D_edit(a₁,a₂)为两个词拼音字符的转换距离，该距离可以根据动态规划方法，查找两个词字符转换距离表中的最小编辑距离路径，将所述路径上的字符转换距离融合后即可得到，具体融合方法可以是取平均或加权组合等。

例如根据表2混淆矩阵中的字符转换距离，对“报案”和“备菜”的声学距离计算过程如下：

1)将每个词转换成拼音

报案->baoan

备菜->beicai

2)根据字符转换混淆矩阵，查表得到每个拼音字符的转换距离如表3所示：

表3：

	b	ao	an
				b	0	1	1
ei	1	0.976	0.944
				c	1	1	1
ai	1	0.928	0.699

3)利用动态规划方法，计算两词拼音字符转换距离。

具体计算时，利用动态规划方法查找字符转换距离表，找到最小编辑距离路径，将该路径上的字符转换距离融合后即可得到两词的最小编辑距离，如图3所示，可以将最小编辑距离路径上的转换距离直接累加，将累加得到的值作为两个词的最小编辑距离，即0+0+0.976+1+0.699＝2.675。

步骤208，如果计算得到的两个词的通用语义相似度低于设定的第一阈值，并且声学相似度高于设定的第二阈值，则将所述两个词作为错词对加入到错词对集合中。

在根据计算得到的通用语义相似度及声学相似度确定语音识别时容易出错的词对时，可以基于以下原则：

如果分别使用识别词向量与通用词向量计算得到的两词之间的距离基本一致，则语音识别得到的词为正确的识别词；如果分别使用识别词向量与通用词向量计算到的两词之间的距离差别较大，即使用识别词向量计算到的两词之间的距离较小，使用通用词向量计算到的两词之间的距离较大，并且声学相似度较高时，则该词对为语音识别时容易出错的词对。

因此，根据声学相似度及通用语义相似度将每个聚类中的词分为四类，分别落在四个象限中。如图4为每个聚类中词与词之间的关系象限图。

落在第一象限中的词对，两词之间的声学相似度高，通用语义相似度低，即落在第一象限内的两词使用识别词向量计算得到的两词之间的距离较近，而使用通用词向量计算的两词之间的距离较远，二者差别较大，并且落在该象限内的两词之间的声学相似度较高，则可以确定落在该象限内的词为语音识别容易出错的词对，如“美国-没过”，“查询-查循”。

落在第二象限中的词对，两词之间的声学相似度高，通用语义相似度高，在语音识别时，不易出错，该象限中的词一般为比较相近的同义词，如“网银-网上银行”。

落在第三象限中的词对，两词之间的声学相似度低，通用语义相似度高，语音识别不易出错，如“安徽-皖”。

落在第四象限中的词对，两词之间的声学相似度低，通用语义相似度低，语音识别不易出错。

由此可见，落在第二至第四象限内的词对在语音识别时不容易出错，只有落在第一象限内的词对在语音识别时容易出错。

如图5所示，是本发明实施例中利用错词对集合构建错词检测模型的流程图，包括以下步骤：

步骤501，提取错词对集合中每个错词对的标注信息。

所述标注信息用于表示所述错词对中其中一个词是否应该识别为其中另一个词，如词对“没过-美国”表示“没过”的正确识别词为“美国”，根据训练语音数据“我在美国办理的信用卡”的识别结果“我在没过办理的信用卡”，可以确定当前词对中“没过”应该识别为“美国”，则当前词对为正确的词对，因此，词对“美国-没过”的标注信息为：正确词对。

需要说明的是，当一个词对中的两个词都出现在训练语料中，并且相互识别成对方，如词对“美国-没过”，语料中的语音数据“我在美国办理的信用卡”的识别结果为“我在没过办理的信用卡”，语料中的语音数据“我这次考试没过”的识别结果为“我这次考试美国”，则可以将当前词对作为两个正确词对，即词对“美国-没过”的标注信息为：正确词对；词对“没过-美国”的标注信息为：正确词对。所述标注信息可以通过人工进行标注得到。

步骤502，提取错词对集合中识别错误词的语义特征。

所述语义特征包括：错词的上下文相关环境特征、错词的识别词向量、错词的通用词向量。其中，所述上下文相关环境特征如当前词前一个词的词性、当前词在句中的位置、当前词后一个词的词性等；所述识别词向量和通用词向量前面已有详细说明，在此不再赘述。需要说明的是，在进行上述信息标注时可以同时记录识别错误词所在的识别文本，这样，从这些识别文本中即可方便地提取到错词的上下文相关环境特征。

步骤503，提取所述错词集合中每个词所对应语音数据的声学特征。

所述声学特征可以是基频特征和/或频谱特征，基频特征如F0，频谱特征如MFCC(MelFrequencyCepstrumCoefficient)特征，所述声学特征还可以是错词对中每个词的拼音信息。

步骤504，利用提取的错词对的标注信息、语义特征及声学特征，构建错词检测模型。

所述错词检测模型可以采用统计学中常用的分类模型，如支持向量机模型、神经网络模型等。模型的输入为当前词对的标注信息、语义特征及声学特征，其中标注信息可以作为错词检测模型的分类标签；模型的输出为当前词对为正确词对的概率。

进一步地，当前词对的语义特征还可以包括词对中非识别结果中词的识别语义向量和通用语义向量，所述识别语义向量和通用语义向量在前面已有详细说明，在此不再赘述。

可见，由于错词检测模型的构建是通过预先收集大量语音数据，并进行语音识别，根据识别文本发现语音识别容易出错的词，得到错词对集合，然后根据该错词对集合中的各词对与语音识别相关的一些特征来构建的，从而使后续对语音识别结果进行后处理的过程不依赖于由专家构建的语义知识库，有效地避免了语音识别后处理过程受人为因素的影响，进一步提高了处理效果。

相应地，本发明实施例还提供一种语音识别后处理系统，如图6所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

检测模型构建模块600，用于预先利用语音识别容易出错的词对构建错词检测模型；

接收模块601，用于接收待识别语音数据；

语音识别模块602，用于对所述接收模块601接收的语音数据进行语音识别，得到识别结果；

特征提取模块603，用于依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征，各特征的具体解释可参照前面本发明方法实施例中的说明；

修正模块604，用于利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，并且如果检测得到的对应当前词的词对为正确词对的概率大于设定阈值，则将所述词对中的词典词替换所述当前词；

输出模块605，用于在所述修正模块604对所述识别结果中的各词检测完成后，输出修正后的识别结果。

上述语音识别模块602具体可以采用现有的语音识别技术对语音数据进行识别，对此本发明实施例不做限定。

上述检测模型构建模块600具体可以首先确定语音识别容易出错的词对，得到错词对集合，然后利用所述错词对集合构建错词检测模型。相应地，检测模型构建模块600的一种具体结构包括：错词对集合生成模块和模型构建模块，其中，所述错词对集合生成模块用于通过聚类方式确定语音识别容易出错的词对，得到错词对集合；所述模型构建模块用于利用所述错词对集合构建错词检测模型。

如图7所示，是本发明实施例中错词对集合生成模块的一种结构示意图。

所述错词对集合生成模型包括以下各单元：

训练数据获取单元71，用于获取训练语音数据；

识别文本获取单元72，用于调用语音识别模块对所述训练语音数据进行语音识别，得到识别文本；

通用文本获取单元73，用于获取包含所述识别文本中各词的通用文本；

词向量训练单元74，用于利用所述识别文本训练得到所述识别文本中各词的词向量，并将其作为所述词的识别词向量，并利用所述通用文本训练得到所述通用文本中各词的词向量，并将其作为所述词的通用词向量；

聚类单元75，用于对所述识别文本中各词的识别词向量进行聚类，得到各词的类别，比如，可以利用各词的识别词向量之间的距离进行聚类，得到各识别词向量的类别，该类别即为所述识别词向量对应的词的类别；

通用语义相似度计算单元76，用于根据所述通用词向量计算每个类别中两个词之间的通用语义相似度；

声学相似度计算单元77，用于计算每个类别中两个词之间的声学相似度；

判断单元78，用于判断每个类别中两个词的通用语义相似度是否低于设定的第一阈值，并且所述两个词的声学相似度是否高于设定的第二阈值，如果是，则将所述两个词作为错词对加入到错词对集合中。

上述词向量训练单元74对识别词向量及通用词向量的训练是相同的，只是用到的训练文本是不同的。具体地，识别词向量的训练过程如下：首先对所述识别文本包含的词进行去重，即去除其中重复的词，将去重后的各词进行向量初始化，得到各词的初始词向量，然后利用神经网络对各词的初始词向量进行训练，得到所述识别文本中各词的词向量。通用词向量的训练过程如下：首先对所述通用文本包含的词进行去重，即去除其中重复的词，将去重后的各词进行向量初始化，得到各词的初始词向量，然后利用神经网络对各词的初始词向量进行训练，得到所述通用文本中各词的词向量。

上述通用语义相似度计算单元76具体可以计算每个类别中两个词的通用词向量之间的距离，并根据计算得到两个词的通用词向量之间的距离确定所述两个词之间的通用语义相似度，具体计算过程可参照前面本发明方法实施例中的描述。

上述声学相似度计算单元77具体可以计算每个类别中两个词的声学距离，并根据计算得到的两个词的声学距离确定所述两个词之间的声学相似度，具体计算过程可参照前面本发明方法实施例中的描述。

如图8所示，是本发明实施例中模型构建模块的一种结构示意图。

所述模型构建模块包括：

标注信息提取单元81，用于提取错词对集合中每个错词对的标注信息，所述标注信息用于表示所述错词对中其中一个词是否应该识别为其中另一个词；

语义特征提取单元82，用于提取错词对集合中识别错误词的语义特征，所述语义特征包括；错词的上下文相关环境特征、错词的识别词向量、错词的通用词向量；

声学特征提取单元83，用于提取错词对集合中每个词所对应语音数据的声学特征；

模型生成单元84，用于利用提取的错词对的标注信息、语义特征及声学特征，构建错词检测模型。

本发明实施例提供的语音识别后处理系统，预先利用语音识别容易出错的词对构建错词检测模型，也就是说，将语音识别中的错误聚集到一起，从错误中自动学习到其中识别错误的规律性，在对待识别语音数据进行语音识别后，将得到的识别文本利用该错词检测模型对其进行修正，也就是说，利用这种识别错误的规律性，“反向”发现识别中的错误，从而可以提高语音识别结果后处理效果，准确修正语音识别结果中错误词，提升用户体验度。

进一步地，由于错词检测模型的构建是通过预先收集大量语音数据，并进行语音识别，根据识别结果发现语音识别容易出错的词，得到错词集合，然后根据该错词集合中的各词与语音识别相关的一些特征来构建的，从而使后续对语音识别结果进行后处理的过程不依赖于由专家构建的语义知识库，有效地避免了语音识别后处理过程受人为因素的影响，进一步提高了处理效果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别后处理方法，其特征在于，包括：

预先利用语音识别容易出错的词对构建错词检测模型；

检测完成后，输出修正后的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述利用语音识别容易出错的词对构建错词检测模型包括：

利用所述错词对集合构建错词检测模型。

3.根据权利要求2所述的方法，其特征在于，所述通过聚类方式确定语音识别容易出错的词对，得到错词对集合包括：

获取训练语音数据；

对所述训练语音数据进行语音识别，得到识别文本；

获取包含所述识别文本中各词的通用文本；

计算每个类别中两个词之间的声学相似度；

4.根据权利要求3所述的方法，其特征在于，所述利用所述识别文本训练得到所述识别文本中各词的词向量包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述通用词向量计算每个类别中两个词之间的通用语义相似度包括：

计算每个类别中两个词的通用词向量之间的距离；

6.根据权利要求3所述的方法，其特征在于，所述计算每个类别中两个词之间的声学相似度包括：

计算每个类别中两个词的声学距离；

7.根据权利要求2所述的方法，其特征在于，所述利用所述错词对集合构建错词检测模型包括：

提取所述错词对集合中每个词所对应语音数据的声学特征；

8.一种语音识别后处理系统，其特征在于，包括：

接收模块，用于接收待识别语音数据；

9.根据权利要求8所述的系统，其特征在于，所述检测模型构建模块包括：

10.根据权利要求9所述的系统，其特征在于，所述错词对集合生成模块包括：

训练数据获取单元，用于获取训练语音数据；

11.根据权利要求10所述的系统，其特征在于，

所述通用语义相似度计算单元，具体用于计算每个类别中两个词的通用词向量之间的距离，并根据计算得到两个词的通用词向量之间的距离确定所述两个词之间的通用语义相似度。

12.根据权利要求10所述的系统，其特征在于，

所述声学相似度计算单元，具体用于计算每个类别中两个词的声学距离，并根据计算得到的两个词的声学距离确定所述两个词之间的声学相似度。

13.根据权利要求9所述的系统，其特征在于，所述模型构建模块包括：