CN107045496A

CN107045496A - 语音识别后文本的纠错方法及纠错装置

Info

Publication number: CN107045496A
Application number: CN201710256101.9A
Authority: CN
Inventors: 洪光华; 刘兆来
Original assignee: CHANJET INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHANJET INFORMATION TECHNOLOGY Co Ltd
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2017-08-15
Anticipated expiration: 2037-04-19
Also published as: CN107045496B

Abstract

本发明提供了一种语音识别后文本的纠错方法及纠错装置。其中，一种语音识别后文本的纠错方法，包括：对语音识别后文本进行预处理；对预处理后的文本进行搜索意图的识别；根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错。通过本发明的技术方案，实现人机自有交互，有效解决语音搜索中语音识别不准的问题，提高语音识别的准确率，满足企业搜索需求，提升用户体验。

Description

语音识别后文本的纠错方法及纠错装置

技术领域

本发明涉及语音搜索技术领域，具体而言，涉及一种语音识别后文本的纠错方法，还涉及一种语音识别后文本的纠错装置。

背景技术

在日常工作生活中，经常遇到从企业员工管理系统中查找员工信息或者从企业客户关系管理系统中查找客户信息的需求，传统的查找联系人信息的方式一般有两种：一是在特定的输入框，输入联系人的姓名、电话号码等；二是翻阅整个通讯录。这两种方式在某些场景下均存在不方便操作的缺点，比如在商场、地铁等拥挤的场合，此外，依次翻阅通讯录，当通讯录条目很多时，不但耗时还容易漏掉要查找的信息。

随着智能设备的普及和自然语言处理技术的发展，语音输入因其方便、快捷的特性而成为越来越重要的人机交互手段。但是由于语言的复杂多样和周围噪声影响，语音识别的结果往往与用户实际想输入的内容有较大的偏差，这就需要针对语音识别后的文本做进一步的纠错处理，才能应用到实际系统中。

因此，如何提供一种适用于通讯录搜索的语音识别后文本纠错方案，能够有效解决通讯录语音搜索中语音识别不准的问题，成为目前亟待解决的技术问题。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的一个目的在于提出了一种语音识别后文本的纠错方法。

本发明的另一个目的在于提出了一种语音识别后文本的纠错装置。

有鉴于此，本发明提出了一种语音识别后文本的纠错方法，包括：对语音识别后文本进行预处理；对预处理后的文本进行搜索意图的识别；根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错。

根据本发明的语音识别后文本的纠错方法，通过对语音识别后文本进行预处理、识别搜索意图、抽取属性信息，并计算属性信息与候选词库中的任一候选词的相似度，根据相似度值的高低对抽取出的属性信息进行纠错，从而有效解决语音搜索中语音识别不准的问题，提高了语音识别的准确率，满足企业搜索需求，实现人机自由交互，提升用户体验。

另外，根据本发明上述的语音识别后文本的纠错方法，还可以具有如下附加的技术特征：

在上述技术方案中，优选地，预处理的具体步骤，包括：将纠错词典内若干词汇与语音识别后文本进行比对，当纠错词典内的某一词汇存在于语音识别后文本中，则直接用纠错词典内的某一词汇对应的正确词汇替换语音识别后文本中与纠错词典内的某一词汇相同的词汇；删除语音识别后文本中包含的语气词；删除语音识别后文本中包含的标点。

在该技术方案中，通过统计通讯录搜索领域容易识别错误的短语、句子片段，制定相应的纠错词典(dict)，并且分析这些常见错误的上下文环境，在预处理阶段，如果纠错词典内的某一词汇存在于语音识别后文本中，并且满足该词条上下文环境，则直接用正确的词语替换错误词语。比如“在研发部”容易被识别为“代言发布”，因为“代言发布”在通讯录搜索领域基本不会出现，所以如果句子主语是人或代词，可以直接替换。同时，过滤掉语气词等干扰词，如句子末尾的“呢，啊”等；处理句子中的逗号等断句标点。比如，在语音输入时，如果出现停顿，语音识别后的文本会加入逗号，通过统计分析语音识别文本语料，统计通讯录搜索中常见的句子片段，如果该片段中出现断句标点，则去掉该标点，如“在XX部门”、“XX部门的经理”等。通过本发明的技术方案，能够提高纠正结果的准确性，进而提高语音识别的准确率。

在上述任一技术方案中，优选地，对预处理后的文本进行搜索意图的识别的具体步骤，包括：将预处理后的文本与搜索意图识别模板库内的模板进行比对，当预处理后的文本与搜索意图识别模板库内的某一模板匹配时，将模板库内的某一模板作为搜索意图识别的结果；当预处理后的文本与搜索意图识别模板库内的任一模板均不匹配时，抽取预处理后的文本的有效特征，将有效特征带入预设的分类器模型中进行分类，将得到的类别作为搜索意图识别的结果；其中，有效特征包括搜索语法、特征词位置关系、句子结构。

在该技术方案中，通过依次调用搜索意图识别模板库内的规则模板，如果预处理后的文本匹配某个类别的模板(例如，类别C)，则认为该搜索意图为当前类别C；否则，通过分词、抽取预处理后的文本的有效特征，并将该有效特征带入预设的分类器进行分类，将得到的类别作为搜索意图。例如，语音识别后文本为“张敏的电话是什么”，识别到的搜索意图应为“根据人名查找电话”。

其中，优选地，通过分析不同搜索意图对应的query的语法、句法特点，为不同的意图制定不同的模板，在系统初始化时，将这些模板放入搜索意图识别模板库。优选地，通过分析不同搜索意图的query的语法、句法特点，抽取每个类别的query的词语、特征词位置关系、句子结构等作为特征，然后通过卡方统计(CHI)选择每个类型的有效特征，通过机器学习算法库(liblinear)在收集的语料上训练多类分类器模型，得到预设的分类器模型。

在上述任一技术方案中，优选地，根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息的具体步骤，包括：根据待抽取的属性信息，从预处理后的文本中识别待抽取的属性片段；获取待抽取的属性信息对应的抽取模板及上下文关键词，根据抽取模板的权重及上下文关键词的权重，计算每个待抽取的属性片段的分值；将分值按照由高到低的顺序进行排序，抽取出排列在第一位的分值对应的待抽取的属性片段，作为属性信息；权重的计算公式为：其中，c(x,y)表示训练数据中有效特征y与属性信息x同时出现的次数，c(x)表示训练数据中属性信息x出现的次数；待抽取的属性片段的分值的计算公式为：其中，c(i)表示上下文关键词i对于属性信息的权重，p(j)表示抽取模板j对属性信息的权重。

在该技术方案中，系统初始化时，根据要抽取的属性，在语音识别语料库中统计每个属性的位置、上下文信息，分别为每个属性指定相应的抽取模板和上下文关键词表，并给每个抽取模板和上下文关键词赋一个权重，根据抽取模板的权重及上下文关键词的权重，计算每个待抽取的属性片段的分值，抽取出最高分值对应的待抽取的属性片段，作为属性信息。

在上述任一技术方案中，优选地，根据识别出的搜索意图，从预处理后的文本中抽取属性信息的具体步骤，还包括：对待抽取的属性片段进行分词并标注词性；当词性为姓名的词语时，判断词语的长度是否小于2个字，当判断结果为否时，直接抽取待抽取属性信息片段，作为姓名属性信息；否则判断词语的首字符是否存在于姓氏字典中，当词语的首字符存在于姓氏词典中时，则判断词语后面的相邻词语是否为单字或两个字，在判断结果为是时，将词语与词语后面的相邻词语进行合并，作为姓名属性信息；当词语后面的相邻词语大于两个字时，则判断词语前面的相邻词语是否为单字，并在判断结果为是时，将词语与词语前面的相邻词语进行合并，作为姓名属性信息。

在该技术方案中，通过对待抽取的属性片段进行分词并标注词性，判断是否有词性标注为人名的词语，如果有，则判断该词语长度，如果不小于2个字，直接抽取该片段；如果有词性标注为人名的词语并且该词语长度小于两个汉字，则判断首字是否在常用姓氏词典中，如果是，判断该词语后面相邻词语的是否为单个汉字或两个汉字，如果后面词语是单字或两个汉字，则合并这两个词语作为人名片段；如果有词性标注为人名的词语并且该词语长度小于两个汉字，但是其后续相邻词语长度大于两个汉字，则判断该词语前面相邻的词语是否为单字，如果是，则将该词语与其前面的单字合并作为人名片段。

其中，优选地，如果上述步骤抽取人名字段失败，则根据获取的人名正则表达式和人名上下文权重计算query中各片段的得分，抽取得分最高的片段作为人名片段。

在上述任一技术方案中，优选地，计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错的具体步骤，包括：通过声学混淆矩阵计算候选词库中任一候选词与属性信息的相似度并由高到低进行排序，将排序在第一位的相似度对应的任一候选词作为纠错结果，其中，相似度的计算公式为：其中，表示声母c_i被识别为声母c_j的概率，|c_i|表示训练数据中声母c_i出现的次数，c(i,j)表示训练数据中声母c_i被错误识别为声母c_j的次数；p(V_j|V_i)表示韵母V_j被识别为韵母V_i的概率。

在该技术方案中，通过声学混淆矩阵计算候选词列表中，每个词与该属性信息的相似度，返回相似度得分最高的候选词，作为纠错结果。假设属性抽取阶段抽取的属性信息为A，候选词列表中第i个词为T_i，则计算A与T_i相似度的步骤如下：假设属性抽取阶段抽取的信息转化成拼音序列c₁v₁c₂v₂…c_nv_n，候选词T_i对应的拼音序列为c_i1v_i1c_i2v_i2...c_inv_in，其中C_i表示声母，v_i表示韵母，取属性信息和候选词中长度较短的长度length，以候选词较短为例，假设候选词长度为length，则用从属性信息中依次取长度为length的子片段，计算该子片段与候选词相似度，取各个子片段中得分最高的作为该候选词得分；然后，依次计算候选词列表中每个词与子片段的得分，取分数最高的候选词作为纠错结果。

在上述任一技术方案中，优选地，属性信息包括：姓名、电话、邮箱、职位、部门；搜索意图包括：根据人名查电话、根据人名查邮箱、根据人名查部门、根据人名查职位、根据电话查人名、根据邮箱查人名、根据部门查人名、根据部门职位查人名。

在该技术方案中，属性信息包括但不限于姓名、电话、邮箱、职位、部门；搜索意图包括但不限于根据人名查电话、根据人名查邮箱、根据人名查部门、根据人名查职位、根据电话查人名、根据邮箱查人名、根据部门查人名、根据部门职位查人名。在具体实现时，可以依据企业搜索需求，设置不同的属性信息，以及制定不同的搜索意图。

在上述任一技术方案中，优选地，还包括：根据搜索意图及纠错后的属性信息，构建查询树，进行查询。

在该技术方案中，根据意图识别和属性抽取的结果，构建查询树。例如，语音输入“张敏的电话是什么”，意图识别为根据人名找电话，抽取的人名是“张敏”，则查询条件为name字段是张敏，返回值是电话号码。

本发明还提出一种语音识别后文本的纠错装置，包括：预处理模块，用于对语音识别后文本进行预处理；意图识别模块，用于对预处理后的文本进行搜索意图的识别；属性抽取模块，用于根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；纠错模块，用于计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错。

根据本发明的语音识别后文本的纠错装置，通过对语音识别后文本进行预处理、识别搜索意图、抽取属性信息，并计算属性信息与候选词库中的任一候选词的相似度，根据相似度值的高低对抽取出的属性信息进行纠错，从而有效解决语音搜索中语音识别不准的问题，提高了语音识别的准确率，满足企业搜索需求，实现人机自由交互，提升用户体验。

另外，根据本发明上述的语音识别后文本的纠错装置，还可以具有如下附加的技术特征：

在上述技术方案中，优选地，预处理模块，具体用于：将纠错词典内若干词汇与语音识别后文本进行比对，当纠错词典内的某一词汇存在于语音识别后文本中，则直接用纠错词典内的某一词汇对应的正确词汇替换语音识别后文本中与纠错词典内的某一词汇相同的词汇；删除语音识别后文本中包含的语气词；删除语音识别后文本中包含的标点。

在上述任一技术方案中，优选地，意图识别模块，具体用于：将预处理后的文本与搜索意图识别模板库内的模板进行比对，当预处理后的文本与搜索意图识别模板库内的某一模板匹配时，将模板库内的某一模板作为搜索意图识别的结果；当预处理后的文本与搜索意图识别模板库内的任一模板均不匹配时，抽取预处理后的文本的有效特征，将有效特征带入预设的分类器模型中进行分类，将得到的类别作为搜索意图识别的结果；其中，有效特征包括搜索语法、特征词位置关系、句子结构。

在上述任一技术方案中，优选地，属性抽取模块，具体用于：根据待抽取的属性信息，从预处理后的文本中识别待抽取的属性片段；获取待抽取的属性信息对应的抽取模板及上下文关键词，根据抽取模板的权重及上下文关键词的权重，计算每个待抽取的属性片段的分值；将分值按照由高到低的顺序进行排序，抽取出排列在第一位的分值对应的待抽取的属性片段，作为属性信息；权重的计算公式为：其中，c(x,y)表示训练数据中有效特征y与属性信息x同时出现的次数，c(x)表示训练数据中属性信息x出现的次数；待抽取的属性片段的分值的计算公式为：其中，c(i)表示上下文关键词i对于属性信息的权重，p(j)表示抽取模板j对属性信息的权重。

在上述任一技术方案中，优选地，属性抽取模块，具体还用于：对待抽取的属性片段进行分词并标注词性；当词性为姓名的词语时，判断词语的长度是否小于2个字，当判断结果为否时，直接抽取待抽取属性信息片段，作为姓名属性信息；否则判断词语的首字符是否存在于姓氏字典中，当词语的首字符存在于姓氏词典中时，则判断词语后面的相邻词语是否为单字或两个字，在判断结果为是时，将词语与词语后面的相邻词语进行合并，作为姓名属性信息；当词语后面的相邻词语大于两个字时，则判断词语前面的相邻词语是否为单字，并在判断结果为是时，将词语与词语前面的相邻词语进行合并，作为姓名属性信息。

在上述任一技术方案中，优选地，纠错模块，具体用于：通过声学混淆矩阵计算候选词库中任一候选词与属性信息的相似度并由高到低进行排序，将排序在第一位的相似度对应的任一候选词作为纠错结果，其中，相似度的计算公式为：其中，表示声母c_i被识别为声母c_j的概率，|c_i|表示训练数据中声母c_i出现的次数，c(i,j)表示训练数据中声母c_i被错误识别为声母c_j的次数；p(V_j|V_i)表示韵母V_j被识别为韵母V_i的概率。

在上述任一技术方案中，优选地，还包括：查询模块，用于根据搜索意图及纠错后的属性信息，构建查询树，进行查询。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明的一个实施例的语音识别后文本的纠错方法的流程示意图；

图2示出了根据本发明的另一个实施例的语音识别后文本的纠错方法的流程示意图；

图3示出了根据本发明的又一个实施例的语音识别后文本的纠错方法的流程示意图；

图4示出了根据本发明的再一个实施例的语音识别后文本的纠错方法的流程示意图；

图5示出了根据本发明的第五个实施例的语音识别后文本的纠错方法的流程示意图；

图6示出了根据本发明的第六个实施例的语音识别后文本的纠错方法的流程示意图；

图7示出了根据本发明的第七个实施例的语音识别后文本的纠错方法的流程示意图；

图8示出了根据本发明的一个实施例的语音识别后文本的纠错装置的示意框图；

图9示出了根据本发明的另一个实施例的语音识别后文本的纠错装置的示意框图；

图10示出了根据本发明的一个实施例的语音识别后文本的纠错系统的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，根据本发明的一个实施例的语音识别后文本的纠错方法的流程示意图。其中，该纠错方法包括：

步骤102，对语音识别后文本进行预处理；

步骤104，对预处理后的文本进行搜索意图的识别；

步骤106，根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；

步骤108，计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错。

在该实施例中，通过对语音识别后文本进行预处理、识别搜索意图、抽取属性信息，并计算属性信息与候选词库中的任一候选词的相似度，根据相似度值的高低对抽取出的属性信息进行纠错，从而有效解决语音搜索中语音识别不准的问题，提高了语音识别的准确率，满足企业搜索需求，实现人机自由交互，提升用户体验。

如图2所示，根据本发明的另一个实施例的语音识别后文本的纠错方法的流程示意图。其中，该纠错方法包括：

步骤202，对语音识别后文本进行预处理；

其中，预处理的具体步骤，包括：

步骤2022，将纠错词典内若干词汇与语音识别后文本进行比对，当纠错词典内的某一词汇存在于语音识别后文本中，则直接用纠错词典内的某一词汇对应的正确词汇替换语音识别后文本中与纠错词典内的某一词汇相同的词汇；

步骤2024，删除语音识别后文本中包含的语气词；删除语音识别后文本中包含的标点；

步骤204，对预处理后的文本进行搜索意图的识别；

步骤206，根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；

步骤208，计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错。

在该实施例中，通过统计通讯录搜索领域容易识别错误的短语、句子片段，制定相应的纠错词典(dict)，并且分析这些常见错误的上下文环境，在预处理阶段，如果纠错词典内的某一词汇存在于语音识别后文本中，并且满足该词条上下文环境，则直接用正确的词语替换错误词语。比如“在研发部”容易被识别为“代言发布”，因为“代言发布”在通讯录搜索领域基本不会出现，所以如果句子主语是人或代词，可以直接替换。同时，过滤掉语气词等干扰词，如句子末尾的“呢，啊”等；处理句子中的逗号等断句标点。比如，在语音输入时，如果出现停顿，语音识别后的文本会加入逗号，通过统计分析语音识别文本语料，统计通讯录搜索中常见的句子片段，如果该片段中出现断句标点，则去掉该标点，如“在XX部门”、“XX部门的经理”等。通过本发明的技术方案，能够提高纠正结果的准确性，进而提高语音识别的准确率。

如图3所示，根据本发明的又一个实施例的语音识别后文本的纠错方法的流程示意图。其中，该纠错方法包括：

步骤302，对语音识别后文本进行预处理；

步骤304，对预处理后的文本进行搜索意图的识别；

其中，对预处理后的文本进行搜索意图的识别的具体步骤，包括：

步骤3042，将预处理后的文本与搜索意图识别模板库内的模板进行比对，当预处理后的文本与搜索意图识别模板库内的某一模板匹配时，将模板库内的某一模板作为搜索意图识别的结果；

步骤3044，当预处理后的文本与搜索意图识别模板库内的任一模板均不匹配时，抽取预处理后的文本的有效特征，将有效特征带入预设的分类器模型中进行分类，将得到的类别作为搜索意图识别的结果；其中，有效特征包括搜索语法、特征词位置关系、句子结构；

步骤306，根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；

步骤308，计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错。

在该实施例中，通过依次调用搜索意图识别模板库内的规则模板，如果预处理后的文本匹配某个类别的模板(例如，类别C)，则认为该搜索意图为当前类别C；否则，通过分词、抽取预处理后的文本的有效特征，并将该有效特征带入预设的分类器进行分类，将得到的类别作为搜索意图。例如，语音识别后文本为“张敏的电话是什么”，识别到的搜索意图应为“根据人名查找电话”。

如图4所示，根据本发明的再一个实施例的语音识别后文本的纠错方法的流程示意图。其中，该纠错方法包括：

步骤402，对语音识别后文本进行预处理；

步骤404，对预处理后的文本进行搜索意图的识别；

步骤406，根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；具体步骤，包括：

步骤4062，根据待抽取的属性信息，从预处理后的文本中识别待抽取的属性片段；

步骤4064，获取待抽取的属性信息对应的抽取模板及上下文关键词，根据抽取模板的权重及上下文关键词的权重，计算每个待抽取的属性片段的分值；

步骤4066，将分值按照由高到低的顺序进行排序，抽取出排列在第一位的分值对应的待抽取的属性片段，作为属性信息；

权重的计算公式为：其中，c(x,y)表示训练数据中有效特征y与属性信息x同时出现的次数，c(x)表示训练数据中属性信息x出现的次数；

待抽取的属性片段的分值的计算公式为：其中，c(i)表示上下文关键词i对于属性信息的权重，p(j)表示抽取模板j对属性信息的权重。

步骤408，计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错。

在该实施例中，系统初始化时，根据要抽取的属性，在语音识别语料库中统计每个属性的位置、上下文信息，分别为每个属性指定相应的抽取模板和上下文关键词表，并给每个抽取模板和上下文关键词赋一个权重，根据抽取模板的权重及上下文关键词的权重，计算每个待抽取的属性片段的分值，抽取出最高分值对应的待抽取的属性片段，作为属性信息。

如图5所示，根据本发明的第五个实施例的语音识别后文本的纠错方法的流程示意图。其中，该纠错方法包括：

步骤502，对语音识别后文本进行预处理；

步骤504，对预处理后的文本进行搜索意图的识别；

步骤506，根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；步骤506的具体步骤，还包括：

步骤5062，根据待抽取的属性信息，从预处理后的文本中识别待抽取的属性片段；

步骤5064，对待抽取的属性片段进行分词并标注词性；当词性为姓名的词语时，判断词语的长度是否小于2个字，当判断结果为否时，直接抽取待抽取属性信息片段，作为姓名属性信息；

步骤5066，否则判断词语的首字符是否存在于姓氏字典中，当词语的首字符存在于姓氏词典中时，则判断词语后面的相邻词语是否为单字或两个字，在判断结果为是时，将词语与词语后面的相邻词语进行合并，作为姓名属性信息；

步骤5068，当词语后面的相邻词语大于两个字时，则判断词语前面的相邻词语是否为单字，并在判断结果为是时，将词语与词语前面的相邻词语进行合并，作为姓名属性信息；

步骤508，计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错。

在该实施例中，通过对待抽取的属性片段进行分词并标注词性，判断是否有词性标注为人名的词语，如果有，则判断该词语长度，如果不小于2个字，直接抽取该片段；如果有词性标注为人名的词语并且该词语长度小于两个汉字，则判断首字是否在常用姓氏词典中，如果是，判断该词语后面相邻词语的是否为单个汉字或两个汉字，如果后面词语是单字或两个汉字，则合并这两个词语作为人名片段；如果有词性标注为人名的词语并且该词语长度小于两个汉字，但是其后续相邻词语长度大于两个汉字，则判断该词语前面相邻的词语是否为单字，如果是，则将该词语与其前面的单字合并作为人名片段。

如图6所示，根据本发明的第六个实施例的语音识别后文本的纠错方法的流程示意图。其中，该纠错方法包括：

步骤602，对语音识别后文本进行预处理；

步骤604，对预处理后的文本进行搜索意图的识别；

步骤606，根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；

步骤608，计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错；步骤608具体步骤，包括：

步骤6082，通过声学混淆矩阵计算候选词库中任一候选词与属性信息的相似度并由高到低进行排序；

步骤6084，将排序在第一位的相似度对应的任一候选词作为纠错结果；

相似度的计算公式为：

其中，表示声母c_i被识别为声母c_j的概率，|c_i|表示训练数据中声母c_i出现的次数，c(i,j)表示训练数据中声母c_i被错误识别为声母c_j的次数；p(V_j|V_i)表示韵母V_j被识别为韵母V_i的概率。

在该实施例中，通过声学混淆矩阵计算候选词列表中，每个词与该属性信息的相似度，返回相似度得分最高的候选词，作为纠错结果。假设属性抽取阶段抽取的属性信息为A，候选词列表中第i个词为T_i，则计算A与T_i相似度的步骤如下：假设属性抽取阶段抽取的信息转化成拼音序列c₁v₁c₂v₂…c_nv_n，候选词T_i对应的拼音序列为c_i1v_i1c_i2v_i2...c_inv_in，其中C_i表示声母，v_i表示韵母，取属性信息和候选词中长度较短的长度length，以候选词较短为例，假设候选词长度为length，则用从属性信息中依次取长度为length的子片段，计算该子片段与候选词相似度，取各个子片段中得分最高的作为该候选词得分；然后，依次计算候选词列表中每个词与子片段的得分，取分数最高的候选词作为纠错结果。

在上述任一实施例中，优选地，属性信息包括：姓名、电话、邮箱、职位、部门；搜索意图包括：根据人名查电话、根据人名查邮箱、根据人名查部门、根据人名查职位、根据电话查人名、根据邮箱查人名、根据部门查人名、根据部门职位查人名。

在该实施例中，属性信息包括但不限于姓名、电话、邮箱、职位、部门；搜索意图包括但不限于根据人名查电话、根据人名查邮箱、根据人名查部门、根据人名查职位、根据电话查人名、根据邮箱查人名、根据部门查人名、根据部门职位查人名。在具体实现时，可以依据企业搜索需求，设置不同的属性信息，以及制定不同的搜索意图。

如图7所示，根据本发明的第七个实施例的语音识别后文本的纠错方法的流程示意图。其中，该纠错方法包括：

步骤702，对语音识别后文本进行预处理；

步骤704，对预处理后的文本进行搜索意图的识别；

步骤706，根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；

步骤708，计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错；

步骤710，根据搜索意图及纠错后的属性信息，构建查询树，进行查询。

在该实施例中，根据意图识别和属性抽取的结果，构建查询树。例如，语音输入“张敏的电话是什么”，意图识别为根据人名找电话，抽取的人名是“张敏”，则查询条件为name字段是张敏，返回值是电话号码。

如图8所示，根据本发明的一个实施例的语音识别后文本的纠错装置的示意框图。其中，该纠错装置包括：

预处理模块802，用于对语音识别后文本进行预处理；

意图识别模块804，用于对预处理后的文本进行搜索意图的识别；

属性抽取模块806，用于根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；

纠错模块808，用于计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错。

在上述实施例中，优选地，预处理模块802，具体用于：将纠错词典内若干词汇与语音识别后文本进行比对，当纠错词典内的某一词汇存在于语音识别后文本中，则直接用纠错词典内的某一词汇对应的正确词汇替换语音识别后文本中与纠错词典内的某一词汇相同的词汇；删除语音识别后文本中包含的语气词；删除语音识别后文本中包含的标点。

在上述任一实施例中，优选地，意图识别模块804，具体用于：将预处理后的文本与搜索意图识别模板库内的模板进行比对，当预处理后的文本与搜索意图识别模板库内的某一模板匹配时，将模板库内的某一模板作为搜索意图识别的结果；当预处理后的文本与搜索意图识别模板库内的任一模板均不匹配时，抽取预处理后的文本的有效特征，将有效特征带入预设的分类器模型中进行分类，将得到的类别作为搜索意图识别的结果；其中，有效特征包括搜索语法、特征词位置关系、句子结构。

在上述任一实施例中，优选地，属性抽取模块806，具体用于：根据待抽取的属性信息，从预处理后的文本中识别待抽取的属性片段；获取待抽取的属性信息对应的抽取模板及上下文关键词，根据抽取模板的权重及上下文关键词的权重，计算每个待抽取的属性片段的分值；将分值按照由高到低的顺序进行排序，抽取出排列在第一位的分值对应的待抽取的属性片段，作为属性信息；权重的计算公式为：其中，c(x,y)表示训练数据中有效特征y与属性信息x同时出现的次数，c(x)表示训练数据中属性信息x出现的次数；待抽取的属性片段的分值的计算公式为：其中，c(i)表示上下文关键词i对于属性信息的权重，p(j)表示抽取模板j对属性信息的权重。

在上述任一实施例中，优选地，属性抽取模块806，具体还用于：对待抽取的属性片段进行分词并标注词性；当词性为姓名的词语时，判断词语的长度是否小于2个字，当判断结果为否时，直接抽取待抽取属性信息片段，作为姓名属性信息；否则判断词语的首字符是否存在于姓氏字典中，当词语的首字符存在于姓氏词典中时，则判断词语后面的相邻词语是否为单字或两个字，在判断结果为是时，将词语与词语后面的相邻词语进行合并，作为姓名属性信息；当词语后面的相邻词语大于两个字时，则判断词语前面的相邻词语是否为单字，并在判断结果为是时，将词语与词语前面的相邻词语进行合并，作为姓名属性信息。

在上述任一实施例中，优选地，纠错模块808，具体用于：通过声学混淆矩阵计算候选词库中任一候选词与属性信息的相似度并由高到低进行排序，将排序在第一位的相似度对应的任一候选词作为纠错结果，其中，相似度的计算公式为：其中，表示声母c_i被识别为声母c_j的概率，|c_i|表示训练数据中声母c_i出现的次数，c(i,j)表示训练数据中声母c_i被错误识别为声母c_j的次数；p(V_j|V_i)表示韵母V_j被识别为韵母V_i的概率。

如图9所示，根据本发明的另一个实施例的语音识别后文本的纠错装置的示意框图。其中，该纠错装置包括：

预处理模块902，用于对语音识别后文本进行预处理；

意图识别模块904，用于对预处理后的文本进行搜索意图的识别；

属性抽取模块906，用于根据识别出的搜索意图，确定待抽取的属性信息，从预处理后的文本中抽取属性信息；

纠错模块908，用于计算属性信息与候选词库中任一候选词的相似度，根据相似度对抽取出的属性信息进行纠错

查询模块910，用于根据搜索意图及纠错后的属性信息，构建查询树，进行查询。

具体实施例，如图10所示，根据本发明的一个实施例的语音识别后文本的纠错系统的示意图。其中，该纠错系统包括：

预处理模块1002，用于对语音识别后文本进行预处理；

意图识别模块1004，用于对语音识别后文本的搜索意图进行识别，其中，该模块将通讯录检索意图分为根据人名查电话、根据人名查邮箱、根据人名查部门、根据人名查职位、根据电话查人名、根据邮箱查人名、根据部门查人名、根据部门职位查人名等8个类别；同时，意图识别模块1004使用了基于规则的方法，通过分析不同搜索意图对应的query的语法、句法特点，为不同的意图制定不同的模板，在系统初始化时，将这些模板放入意图识别模板库1012；还使用了基于统计的方法，通过分析不同搜索意图的query，抽取每个类别的query的词语、特征词位置关系、句子结构等作为特征，然后通过卡方统计(CHI)选择每个类型的有效特征，通过机器学习算法库(liblinear)在收集的语料上训练多类分类器模型；

信息抽取和纠错模块1006，根据意图识别模块1004识别出的意图，确定待抽取属性，从信息抽取模板库1014获取相应的抽取模板，以及在关键词库1010中获取上下文关键词，并给每个模板和关键词赋一个权重，从而计算每一个待抽取属性片段的分值，将分值最高的属性片段作为用于通讯录搜索需要的属性，并计算该属性与纠错词库中任一词的相似度，根据相似度对抽取出的属性进行纠错。其中，意图和待抽取属性以及查找目标属性的对应关系，如表1所示：

表1.搜索意图与属性抽取、查找目标属性对应关系

意图	待抽取属性	查找目标属性
			根据人名查电话	人名	电话
根据人名查邮箱	人名	邮箱
			根据人名查部门	人名	部门
根据人名查职位	人名	职位
			根据电话查人名	电话	人名
根据邮箱查人名	邮箱	人名
			根据部门查人名	部门名称	人名
根据部门职位查人名	部门名称、职位名称	人名

检索模块1008，根据抽取的意图及纠错后的属性信息，构建查询树，进行查询；

关键词库1010，用于存储属性片段的上下文关键词；

意图识别模板库1012，用于存储8个类别的规则模板；

信息抽取模板库1014，用于存储于待抽取属性相对应的抽取模板；及

纠错词库1016。

在该实施例中，通过对语音识别后文本进行预处理、识别搜索意图、抽取属性信息，并计算属性信息与纠错词库中的任一词的相似度，取分数最高的词作为纠错结果，并根据意图及纠错后的属性，构建查询树，进行查询。从而有效解决语音搜索中语音识别不准的问题，提高了语音识别的准确率，满足企业搜索需求，实现人机自由交互，提升用户体验。在具体实现时，检测与验证结果如表2：

表2.检测与验证结果

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别后文本的纠错方法，其特征在于，包括：

对所述语音识别后文本进行预处理；

对预处理后的文本进行搜索意图的识别；

根据识别出的所述搜索意图，确定待抽取的属性信息，从所述预处理后的文本中抽取所述属性信息；

计算所述属性信息与候选词库中任一候选词的相似度，根据所述相似度对抽取出的所述属性信息进行纠错。

2.根据权利要求1所述的语音识别后文本纠错的方法，其特征在于，所述预处理的具体步骤，包括：

将纠错词典内若干词汇与所述语音识别后文本进行比对，当所述纠错词典内的某一词汇存在于所述语音识别后文本中，则直接用所述纠错词典内的某一词汇对应的正确词汇替换所述语音识别后文本中与所述纠错词典内的某一词汇相同的词汇；

删除所述语音识别后文本中包含的语气词；

删除所述语音识别后文本中包含的标点。

3.根据权利要求1所述的语音识别后文本纠错的方法，其特征在于，所述对预处理后的文本进行搜索意图的识别的具体步骤，包括：

将所述预处理后的文本与搜索意图识别模板库内的模板进行比对，当所述预处理后的文本与所述搜索意图识别模板库内的某一模板匹配时，将所述模板库内的某一模板作为所述搜索意图识别的结果；

当所述预处理后的文本与所述搜索意图识别模板库内的任一模板均不匹配时，抽取所述预处理后的文本的有效特征，将所述有效特征带入预设的分类器模型中进行分类，将得到的类别作为所述搜索意图识别的结果；

其中，所述有效特征包括搜索语法、特征词位置关系、句子结构。

4.根据权利要求1所述的语音识别后文本纠错的方法，其特征在于，所述根据识别出的所述搜索意图，确定待抽取的属性信息，从所述预处理后的文本中抽取所述属性信息的具体步骤，包括：

根据所述待抽取的属性信息，从所述预处理后的文本中识别待抽取的属性片段；

获取所述待抽取的属性信息对应的抽取模板及上下文关键词，根据所述抽取模板的权重及所述上下文关键词的权重，计算每个所述待抽取的属性片段的分值；

将所述分值按照由高到低的顺序进行排序，抽取出排列在第一位的所述分值对应的所述待抽取的属性片段，作为所述属性信息；

所述权重的计算公式为：

其中，c(x,y)表示训练数据中有效特征y与属性信息x同时出现的次数，c(x)表示训练数据中所述属性信息x出现的次数；

所述待抽取的属性片段的分值的计算公式为：

其中，c(i)表示上下文关键词i对于所述属性信息的权重，p(j)表示抽取模板j对所述属性信息的权重。

5.根据权利要求4所述的语音识别后文本纠错的方法，其特征在于，所述根据识别出的搜索意图，从所述预处理后的文本中抽取属性信息的具体步骤，还包括：

对所述待抽取的属性片段进行分词并标注词性；

当所述词性为姓名的词语时，判断所述词语的长度是否小于2个字，当判断结果为否时，直接抽取所述待抽取属性信息片段，作为姓名属性信息；否则

判断所述词语的首字符是否存在于姓氏字典中，当所述词语的首字符存在于所述姓氏词典中时，则判断所述词语后面的相邻词语是否为单字或两个字，在判断结果为是时，将所述词语与所述词语后面的相邻词语进行合并，作为所述姓名属性信息；

当所述词语后面的相邻词语大于两个字时，则判断所述词语前面的相邻词语是否为单字，并在判断结果为是时，将所述词语与所述词语前面的相邻词语进行合并，作为所述姓名属性信息。

6.根据权利要求1所述的语音识别后文本纠错的方法，其特征在于，所述计算所述属性信息与候选词库中任一候选词的相似度，根据所述相似度对抽取出的所述属性信息进行纠错的具体步骤，包括：

通过声学混淆矩阵计算候选词库中任一候选词与所述属性信息的相似度并由高到低进行排序；

将排序在第一位的所述相似度对应的任一所述候选词作为纠错结果；

所述相似度的计算公式为：

7.根据权利要求1至6中任一项所述的语音识别后文本纠错的方法，其特征在于，所述属性信息包括：姓名、电话、邮箱、职位、部门；

所述搜索意图包括：根据人名查电话、根据人名查邮箱、根据人名查部门、根据人名查职位、根据电话查人名、根据邮箱查人名、根据部门查人名、根据部门职位查人名。

8.根据权利要求1至6中任一项所述的语音识别后文本纠错的方法，其特征在于，还包括：根据所述搜索意图及纠错后的所述属性信息，构建查询树，进行查询。

9.一种语音识别后文本的纠错装置，其特征在于，包括：

预处理模块，用于对所述语音识别后文本进行预处理；

意图识别模块，用于对预处理后的文本进行搜索意图的识别；

属性抽取模块，用于根据识别出的所述搜索意图，确定待抽取的属性信息，从所述预处理后的文本中抽取所述属性信息；

纠错模块，用于计算所述属性信息与候选词库中任一候选词的相似度，根据所述相似度对抽取出的所述属性信息进行纠错。

10.根据权利要求9所述的语音识别后文本的纠错装置，其特征在于，所述预处理模块，具体用于：

删除所述语音识别后文本中包含的语气词；

删除所述语音识别后文本中包含的标点。

11.根据权利要求9所述的语音识别后文本的纠错装置，其特征在于，所述意图识别模块，具体用于：

12.根据权利要求9所述的语音识别后文本的纠错装置，其特征在于，所述属性抽取模块，具体用于：

所述权重的计算公式为：

所述待抽取的属性片段的分值的计算公式为：

13.根据权利要求12所述的语音识别后文本的纠错装置，其特征在于，所述属性抽取模块，具体还用于：

对所述待抽取的属性片段进行分词并标注词性；

14.根据权利要求9所述的语音识别后文本的纠错装置，其特征在于，所述纠错模块，具体用于：

所述相似度的计算公式为：

15.根据权利要求9至14中任一项所述的语音识别后文本的纠错装置，其特征在于，所述属性信息包括：姓名、电话、邮箱、职位、部门；

16.根据权利要求9至14中任一项所述的语音识别后文本的纠错装置，其特征在于，还包括：查询模块，用于根据所述搜索意图及纠错后的所述属性信息，构建查询树，进行查询。