CN105869634B

CN105869634B - 一种基于领域的带反馈语音识别后文本纠错方法及系统

Info

Publication number: CN105869634B
Application number: CN201610200575.7A
Authority: CN
Inventors: 钟将; 崔磊; 时待吾; 何隆
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2019-11-19
Anticipated expiration: 2036-03-31
Also published as: CN105869634A

Abstract

本发明公开了一种基于领域的带反馈语音识别后文本纠错方法，属于语音识别领域；该方法基于汉语句子结构的语音停顿错误来分析语音识别后文本句，检测句子分隔符前后是否符合汉语的句式规则，找到停顿错误，基于音素串相似度计算来划分句子并转换成拼音，并将拼音根据音素表转换成音素串，找到语料库中与该串相似的音素串对应的句子，基于本体的受控词查询模块通过该领域的受控词表建立本体，通过本体纠正识别后文本句中的领域相关词的错误，反馈模块将匹配的结果输出，并将用户选择正确的识别结果和原始的音素串添加进语料库中。通过本发明，语音识别的原始结果如果正确也不会收到影响，而且通过本体和反馈机制可以更好的确定语音识别的准确性。

Description

一种基于领域的带反馈语音识别后文本纠错方法及系统

技术领域

本发明涉及语音识别技术领域，特别是一种基于领域的带反馈语音识别后文本纠错方法。

背景技术

随着计算科学技术的迅猛发展，人类和计算机、机器进行语言交流的机会日益增加且越发重要，怎么使它“理解”人的语言并做出恰当回应就摆上了研究的日程，语音识别的研究目标就是让机器“听懂”人类的语言。

语音识别过程也可以分为前处理过程和后处理过程。前处理过程主要是对输入的语音信号提取参数进行分析，其重点在语音信号处理方面。而后处理主要是完成音节到汉字的转换，即将语音信息转换成计算机内码。这是一个小字符集映射到大字符集的问题，其涉及的范畴属中文信息处理、自然语言理解及人工智能。

语音识别后处理过程主要通过语言模型实现，把语言模型应用于语音识别中要解决两个问题，一是能够用数学模型来描述语言中词的语言结构，二是在给定这样一种结构的基础上，如何把它和模式识别器结合找出一种有效的识别算法。常见的语言模型有两种：

(1)基于统计的语言模型，通过训练大量语料获得语言单位之间的内在的规律来修正语音识别后的语言模型，使识别后的语言模型更加符合一般的语言规律。它的优点是对开放性纠错支持的较好，因为它是从广义的语言学上着手的，不过在某些特定领域上，它的性能尚有待提高。基于规则的语言模型一般是面向比较特殊的语音识别系统，但一般来说，基于规则的语言模型鲁棒性并不强，实用性较弱。

(2)基于统计学语言模型，用概率统计的方法来揭示语言单位内在的统计规律，它们大多是以词语为分析单位，通过考察词与词之间的关系，根据语法、语义知识来判断词语使用正确与否。但是这种方法需要大量的语料进行训练，对于特定领域的语音识别后纠错，由于语料库的限制，纠错比较困难，而且对一些不常出现的词语尤其是同音词的纠错比较困难。

因此，需要一种基于领域的带反馈语音识别后文本纠错方法及系统。

发明内容

本发明的目的就是提供一种基于领域的带反馈语音识别后文本纠错方法及系统。

本发明的目的是通过这样的技术方案实现的：

本发明提供的一种基于领域的带反馈语音识别后文本纠错方法，包括以下步骤：

S1、根据受控词典对语音识别后文本句进行词性标注，根据汉语句子结构识别停顿错误；

S2、将文本句转换成音素串，并与文本库中的音素串进行匹配，如果匹配成功，则转到步骤S4；如果匹配不成功，则转到步骤S3；

S3、根据本体与受控词典中进行匹配，如果匹配不成功，则结束识别过程；如果匹配成功，则进入下一步；

S4、将一个或者多个匹配的结果输出；

S5、将用户选择的识别成功的文本句和对应的原始文本的音素串添加到文本库中。

进一步，所述步骤S1中的停顿错误识别过程还包括以下步骤：

S11、收集领域相关词语构成受控词典，基于汉语词典将对受控词典中词语进行词性标注，并对常用的汉语句子结构进行建模；

S12、得到语音识别后的文本；

S13、对识别后的文本停顿处两边的句子进行词性划分；

S14、将已标注的句子结构与收录好的句子结构进行匹配，如果匹配成功，则该句子无停顿错误，输出该文本句；如果不匹配则该句子停顿有错误如果存在，则合并停顿分句输出文本句。

进一步，所述步骤S2中音素串的匹配过程具体包括以下步骤：

S21、根据音素串长度设置预设匹配阈值；

S22、计算语料库中的音素串与识别的音素串的相似度，判断两个音素串的编辑距离是否超过预设阈值，如果没有超过，则匹配成功；如果超过，则匹配失败。

进一步，所述步骤S3中根据本体和受控词典的匹配具体包括以下步骤：

S31、找到语音识别后文本标注时受控词典中不存在的文本词，将未识别的词语本身、未识别词语与左边词语结合、未识别词语和右边词语结合、未识别词语与左右两边词语结合后转换成音素串与受控词典中词语进行匹配，选择相似度最高且匹配长度最长的词语替换该词语；

S32、对于出现多个完全匹配项或者多个最相似匹配项的情况，通过本体建立文本上下文的语境联系，选择本体所属领域的匹配词进行替换；如果无上下文联系，则将多种结果都加入到匹配文本中，供用户选择。

本实施例还提供了一种基于领域的带反馈语音识别后文本纠错系统，包括语音停顿错误分析模块、语音匹配模块、受控词查询模块和反馈模块；

所述语音停顿错误分析模块，用于对语音识别后文本进行词性标注并判断语音停顿是否存在错误状态；

所述语音匹配模块，用于将文本句转换成音素串并与文本库中的音素串进行匹配；

所述受控词查询模块，用于纠正文本句中未在受控词典中的词语并根据本体纠正同音词错误；

所述反馈模块，用于将匹配的一个结果或者多个结果输出，并将用户选择识别正确的文本句和原始语音识别后文本的音素串添加到文本库中。

进一步，所述语音停顿错误分析模块中的停顿错误识别过程是通过以下步骤来实现的：

S12、得到语音识别后的文本；

S13、对识别后的文本停顿处两边的句子进行词性划分；

进一步，所述语音匹配模块中的音素串的匹配过程具体是通过以下步骤来实现的：

S21、根据音素串长度设置预设匹配阈值；

进一步，所述受控词查询模块中根据本体和受控词典的匹配具体是通过以下步骤来实现的：

由于采用了上述技术方案，本发明具有如下的优点：

本发明提供的一种基于领域的带反馈语音识别后文本纠错方法，基于汉语句子结构的语音停顿错误分析，对语音识别后文本句进行分析，检测句子分隔符前后是否符合汉语的句式规则，找到停顿错误，并将拼音根据音素表转换成音素串，找到语料库中与该音素串相似的音素串对应的句子，基于受控词表建立本体，通过本体纠正识别后文本句中的领域相关词的错误，反馈模块将匹配的结果输出，并将用户选择正确的识别结果和原始的音素串添加进语料库中。通过本发明，语音识别的原始结果如果正确也不会受到影响，而且通过本体和反馈机制可以更好的确定语音识别的准确性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

本发明的附图说明如下。

图1是本发明中纠错方法的基本流程和结构图

图2是本发明中基于领域的带反馈语音识别后文本纠错方法的处理流程图。

图3是本发明中语音停顿错误识别流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

实施例1

如图所示，本实施例提供的一种基于领域的带反馈语音识别后文本纠错方法，包括以下步骤：

S2、将文本句转换成音素串，并与已矫正文本库中的音素串进行匹配，如果匹配成功，则转到步骤S4；如果匹配不成功，则转到步骤S3；

S4、将一个或者多个匹配的结果输出；

S5、将用户选择的识别成功的文本句和对应的原始文本的音素串添加到文本库(即语料库或已矫正文本库)中。

所述步骤S1中的停顿错误识别过程还包括以下步骤：

S12、通过现有的语音识别软件(科大讯飞语音输入法等)得到语音识别后的文本；

S13、对识别后的文本停顿处两边的句子进行词性划分，对无法进行词性标注的默认其词性是名词；

S14、将已标注的句子结构与收录好的句子结构进行匹配，匹配成功则该句子无停顿错误，输出该文本句；如果不匹配则该句子停顿有错误如果存在，则合并停顿分句输出文本句。

所述步骤S2中音素串的匹配过程具体包括以下步骤：

S21、根据音素串长度设置预设匹配阈值；

S22、计算语料库中的音素串与识别的音素串的相似度，判断两个音素串的编辑距离是否超过预设阈值，如果没有超过，则匹配成功，如果超过，则匹配失败。

所述步骤S3中根据本体和受控词典的匹配具体包括以下步骤：

语音停顿错误分析模块，用于对语音识别后文本进行词性标注并判断语音停顿是否存在错误状态；

语音匹配模块，用于将文本句转换成音素串并与已矫正文本库中的音素串进行匹配；

受控词查询模块，用于纠正文本句中未在受控词典中的词语并根据本体纠正同音词错误；

反馈模块，用于将匹配的一个结果或者多个结果输出，并将用户选择识别正确的文本句和原始语音识别后文本的音素串添加到文本库(即语料库或已矫正文本库)中。

所述语音停顿错误分析模块中的停顿错误识别过程是通过以下步骤来实现的：

S12、得到语音识别后的文本；

S13、对识别后的文本停顿处两边的句子进行词性划分；

所述语音匹配模块中的音素串的匹配过程具体是通过以下步骤来实现的：

S21、根据音素串长度设置预设匹配阈值；

所述受控词查询模块中根据本体和受控词典的匹配具体是通过以下步骤来实现的：

实施例2

本发明的目的是提供一种基于领域的带反馈语音识别后文本纠错方法，包括以下步骤：

S1、对语音识别后的文本进行词性标注，并判断该语句是否存在停顿错误，如果存在由于停顿而产生的分句，则将两句合并。

S2、将文本句转换成音素串，设置阈值，查找语料库中是否已经识别过该语句，如果识别成功则转到步骤S4，否则转到步骤S3。

S3、根据受控词典和本体对文本句中的词语进行纠错。

S4、将纠错的结果输出到前台页面供用户选择，并将用户正确的识别结果和原始音素串加入到语料库中。

所述步骤S1中语音识别后句子停顿错误判断由以下步骤组成：

S10、收集领域相关词语构成受控词典，基于汉语词典将对受控词典中词语进行词性标注，并对常用的汉语句子结构进行建模，如主谓宾结构等。

S11、同时对识别后的文本停顿处两边的句子进行词性划分，对无法进行词性标注的默认其词性是名词，将标注好的句子结构与收录好的句子结构进行匹配，匹配成功则该句子无停顿错误，如果不匹配则该句子停顿有错误。

本实施通过建立基于音素串相似度计算的语音匹配模块和基于本体的受控词查询模块来实行双重纠错，保证了纠错的准确性，其中，基于音素串相似度计算的语音匹配模块保证了纠错的效率，如果语音识别后的语句已经出现在语料库中，则可以直接在语料库找到，如果没有找到则需要通过受控词典和本体进行纠错。其中，本体是根据受控词典建立，而且根据受控词的特征，会创建多个本体，以从多个侧面矫正错误。

因此，本实施例提供的纠错方法结合了规则和统计学语言模型，弥补了双方的不足；通过对常用语句子结构的建模来消除语音识别常见的停顿错误；通过本体对同音词进行纠错，这样实现了基于上下文语境而不是基于词频纠错。

通过将基于规则和统计学语言模型相结合实现语音识别后文本纠错，通过对受控词典的词性标注和句式分析对识别后文本进行分词和断句，通过本体和语料库去纠错，所述语料库是基于反馈建立的，保证了语料的准确性。

本实施例提供的一种基于领域的带反馈语音识别后文本纠错系统，包括基于汉语句子结构的语音停顿错误分析模块，基于音素串相似度计算的语音匹配模块，基于本体的受控词查询模块和反馈模块。

所述基于汉语句子结构的语音停顿错误分析模块：用于分割语音识别后文本句子的结构，根据词性判断分隔符前后语句的完整性，并基于该分割确定该语句中带有该领域特征的关键词位置。

所述基于音素串相似度计算的语音匹配模块：将划分好的句子转换成汉语拼音的音素串，设置阈值，查找语料库中与该串最相似的音素串对应的汉语句子。

所述基于本体的受控词查询模块：在没有在语料库中找到相应的匹配串基础上，根据本体矫正句子中带有领域特征的受控词的错误。

所述反馈模块：用于将匹配的一个或多个结果输出，供用户选择，并将用户选择正确的语音识别结果及其相应的原始音素串添加到语料库中。

实施例3

本实施例中设定该领域为股票领域，输入语音第一句为“查找电子产业行业涨跌幅”，由语音引擎识别后的文本为“查找电子产业行业，张跌幅”，通过受控词典的词性标注结果为“查找”为动词，“电子产业”为名词，“行业”为名词，“张”在受控词典中不存在，标注为名词，“跌幅”标注为名词。通过句式模板的词性匹配可知，“查找电子产业行业”匹配句式，而“张跌幅”不匹配句式，故而将两句合并。然后将该句转换成音素串，由于语料库为空，无法通过语料库进行匹配，需要对受控词典中不存在的词进行匹配，该句子中“张”在受控词典中不存在，需要将“行业张”、“张跌幅”和“行业张跌幅”分别转换成音素串，与受控词典中受控词的音素串匹配，得到“张跌幅”与受控词典中“涨跌幅”完全匹配，则该句转换为“查找电子产业行业涨跌幅”。在进行词性标注的同时，根据受控词典建立本体，将识别词语与本体匹配，电子产业对应在行业本体之下，并有涨跌幅属性。

设定输入语音第二句为“查看和森科技股票最新价”，由语音引擎识别后的文本为“查看禾森科技股票最新家”，首先仍然需要进行词性标注，“查看”为动词，“禾森科技”为名词，“股票”识别为名词，“最新”识别为形容词，“家”在受控词典中不存在，标记为名词。通过音素串匹配结果，“禾森科技”的音素串与受控词典中“禾森科技”和“和森科技”完全匹配，由于禾森科技在本体中不在电子产业的本体下，而和森科技在电子产业的本体下，故“禾森科技”纠正为“和森科技”。“家”不存在受控词典中故将“最新家”转换成音素串与受控词典匹配，其与“最新价”完全匹配，则原句纠正为“查看和森科技股票最新价”。

本发明能纠正由于语音停顿而产生的断句错误，通过本体可以纠正同音词的错误，通过音素串匹配受控词典可以纠正带有领域特征的受控词的识别错误。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于领域的带反馈语音识别后文本纠错方法，其特征在于：包括以下步骤：

S4、将一个或者多个匹配的结果输出；

2.根据权利要求1所述的基于领域的带反馈语音识别后文本纠错方法，其特征在于：所述步骤S1中的停顿错误识别过程还包括以下步骤：

S12、得到语音识别后的文本；

S13、对识别后的文本停顿处两边的句子进行词性划分；

S14、将已标注的句子结构与收录好的句子结构进行匹配，如果匹配成功，则该句子无停顿错误，输出该文本句；如果不匹配则该句子停顿有错误，则合并停顿分句输出文本句。

3.根据权利要求1所述的基于领域的带反馈语音识别后文本纠错方法，其特征在于：所述步骤S2中音素串的匹配过程具体包括以下步骤：

S21、根据音素串长度设置预设匹配阈值；

S22、计算文本库中的音素串与识别的音素串的相似度，判断两个音素串的编辑距离是否超过预设阈值，如果没有超过，则匹配成功；如果超过，则匹配失败。

4.根据权利要求1所述的基于领域的带反馈语音识别后文本纠错方法，其特征在于：所述步骤S3中根据本体和受控词典的匹配具体包括以下步骤：

S31、找到语音识别后文本标注时受控词典中不存在的文本词，将未识别的词语本身、未识别词语与左边词语结合、未识别词语和右边词语结合以及未识别词语与左右两边词语结合后转换成音素串与受控词典中词语进行匹配，选择相似度最高且匹配长度最长的词语替换该词语；

5.一种基于领域的带反馈语音识别后文本纠错系统，其特征在于：包括语音停顿错误分析模块、语音匹配模块、受控词查询模块和反馈模块；

6.根据权利要求5所述的基于领域的带反馈语音识别后文本纠错系统，其特征在于：所述语音停顿错误分析模块中的停顿错误识别过程是通过以下步骤来实现的：

S12、得到语音识别后的文本；

S13、对识别后的文本停顿处两边的句子进行词性划分；

7.根据权利要求5所述的基于领域的带反馈语音识别后文本纠错系统，其特征在于：所述语音匹配模块中的音素串的匹配过程具体是通过以下步骤来实现的：

S21、根据音素串长度设置预设匹配阈值；

8.根据权利要求5所述的基于领域的带反馈语音识别后文本纠错系统，其特征在于：所述受控词查询模块中根据本体和受控词典的匹配具体是通过以下步骤来实现的：