CN110428822B

CN110428822B - 一种语音识别纠错方法及人机对话系统

Info

Publication number: CN110428822B
Application number: CN201910717838.5A
Authority: CN
Inventors: 兰飞
Original assignee: Chongqing College of Electronic Engineering
Current assignee: Chongqing College of Electronic Engineering
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2022-05-03
Anticipated expiration: 2039-08-05
Also published as: CN110428822A

Abstract

本发明涉及语音识别纠错技术领域，具体为一种语音识别纠错方法及人机对话系统，该方法包括以下步骤：获取语音识别结果和候选语义片段以及语音识别结果的拼音和候选语义片段的拼音；将语音识别结果和候选语义片段进行组合，形成若干新的纠错文本，计算纠错文本的组合分数，根据组合分数筛选纠错文本得到纠错候选列表；语言模型优化步骤，利用语言模型计算语言模型评分，并根据组合分数和语言模型评分生成最终纠错列表。本发明提供的一种语音识别纠错方法及人机对话系统，可以在语音识别错误后，更加准确的匹配出纠错文本，有效的减少语音识别的结果对中文人机对话流程的跳转影响，提高人机对话质量。

Description

一种语音识别纠错方法及人机对话系统

技术领域

本发明涉及语音识别纠错技术领域，具体为一种语音识别纠错方法及人机对话系统。

背景技术

人机对话技术的研究最早可以追溯到上世纪六十年代，自阿兰·图灵提出通过图灵测试来检验机器是否具有人类智能的设想以来，研究人员就开始致力于人机对话系统的研究。目前，市面上有众多人机对话的产品，如智能语音助手、电话机器人等，这些产品中语音识别技术都是非常重要的模块。由于用户的非标准化表达、方言、环境噪声等因素，导致错误的语音识别结果，这是导致人机对话失败的主要原因。

我国语音识别研究工作起步于五十年代，近年来由于深度学习技术的推动，语音识别技术发展很快。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。国内语音识别技术领先的单位有科大讯飞、阿里、百度等互联网巨头厂商。这些厂商在汉语语音识别上投入了巨大的人力和财力，在各类学术竞赛中获得领先水平，在实际的工业生产中，收集了大量的模型训练语料，在短时间内形成了语音识别的技术高地。目前，考虑到语音识别的效果，国内很多的人机交互产品选择采用互联网巨头语音识别技术。但是，在特定的交互场景下，互联网巨头语音识别技术仍有很大的不足，尤其是大量环境噪声下的短文本识别。此时，由于无法直接修改语音识别模型，只能够致力于将语音识别结果映射到场景相关的文本上去。在人机对话过程中，预设了用户的说话语义范围，而在语音识别中并没有这个假设，所以，采用中文人机对话中的候选语料纠正语音识别结构，对于提高人机对话质量有重要的意义。

发明内容

本发明意在提供一种语音识别纠错方法及一种人机对话系统，可以在语音识别错误后，更加准确的匹配出纠错文本，有效的减少语音识别的结果对中文人机对话流程的跳转影响，提高人机对话质量。

为了解决上述技术问题，本申请提供如下技术方案：

一种语音识别纠错方法，包括以下步骤：

获取语音识别结果和候选语义片段以及语音识别结果的拼音和候选语义片段的拼音；

将语音识别结果和候选语义片段进行组合，形成若干新的纠错文本，计算语音识别结果和候选语义片段的拼音相似度和纠错文本的组合分数，根据组合分数筛选纠错文本得到纠错候选列表；

语言模型优化步骤，利用语言模型计算语言模型评分，并根据组合分数和语言模型评分生成最终纠错列表。

本发明技术方案中，通过使用拼音空间相似度算法，并采用了动态规划方法计算最优语义文本组合，形成纠错候选列表，可以更加准确的匹配出正确的语义文本，并且，通过采用拼音空间相似度算法和语言模型融合的方式，不仅仅从发音上，更结合字符串之间本身的语义关系，可以避免纠错候选列表中存在语序不通、同音错别字等问题，进一步提高匹配的准确度。将其应用于人机对话系统后，可以有效的减少语音识别的结果对中文人机对话流程的跳转影响，提高人机对话质量。

进一步，计算各个语义文本的拼音相似度评分具体包括以下步骤：

计算语音识别结果的拼音对应的字符串的子字符串和候选语义片段之间的拼音相似度，形成相似度矩阵M_k；

根据拼音相似度计算组合分数；

对组合分数按照由大到小排序，并取前N个组合分数对应的候选语义片段，得到纠错候选列表。

说明：M_k为大小为n*n的矩阵，其中n表示语音识别结果的字符数量，语音识别结果的字符串对应的拼音以[str0,str1,str2,...,str n-1]表示，候选语义片段对应的拼音以s1、s2…Sx表示,则M_k中的元素M_k(i,j)，0<＝i<＝j<＝n-1，表示字符串[str0,str1,str2,...,str n-1]的子字符串[stri,...,strj]和字符串sk的拼音相似度；

通过构建相似度矩阵，将各个子字符串与候选语义片段的拼音相似度以矩阵的形式表征，根据拼音相似度计算各个纠错文本的组合分数。

进一步，相似度矩阵的计算步骤中，采用动态规划从正向、反向两个方向运算。

可以加速运算，提高计算效率，缩短处理时间。

进一步，所述语言模型优化步骤包括：

语言模型评分步骤，将纠错候选列表输入语言模型，计算纠错候选列表中各个纠错文本的ngram分数；

分数融合步骤，按照预设的权重，将语言模型评分和组合分数进行加权求和，得到最终评分；

排序步骤，按照分数由高到低将纠错候选列表中的纠错文本进行排序。

通过语音模型优化步骤，对各个纠错文本进行语音模型评分，进而可以从发音以外的角度，如语义、上下文、语言规则等来进行评分，避免出现语序不通、同音错别字、无法理解等问题，通过加权求和，实现分数的融合计算。

进一步，计算语音识别结果的拼音与每个语义片段的拼音的相似度矩阵的步骤中，采用基于编辑距离的算法来计算两个字符串的相似度。

编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。通过编辑距离可以很容易的确定两个字符串之间的拼音相似度。

进一步，本申请还公开了一种人机对话系统，该系统包括语音识别纠错模块，所述语音识别纠错模块使用了以上任意一种语音识别纠错方法。

通过使用以上的语音识别纠错模块，可以有效的减少语音识别的结果对中文人机对话流程的跳转影响，进而提高人际交互的质量。

进一步，还包括语音识别模块、话术模块、意图识别模块，所述话术模块用于向用户发送对话内容或根据用户的语音对应的意图回应用户的对话内容，所述语音识别模块用于识别用户的语音内容，所述意图识别模块用于根据语音内容和对话内容上下文识别用户的意图，所述语音识别纠错模块用于在意图识别模块识别失败后，生成纠错候选列表，所述意图识别模块还用于根据语音识别纠错模块生成的纠错候选列表重新识别用户的意图。

当无法正确识别用户语音内容的意图时，通过语音识别纠错模块来对语音识别的结果进行纠正，进而避免语音识别的结果影响意图的识别。

附图说明

图1为本发明一种语音识别纠错方法实施例中的方法流程图；

图2为本发明一种人机对话系统实施例中运行的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

如图1所示，一种语音识别纠错方法，包括以下步骤：

其中，计算各个语义文本的拼音相似度评分具体包括以下步骤：

计算语音识别结果的拼音对应的字符串的子字符串和候选语义片段的拼音之间的拼音相似度，形成相似度矩阵M_k；

根据拼音相似度计算组合分数；

具体的，假设语音识别的字符串的长度为n,对应汉语拼音[str0,str1,str2,...,str n-1]。候选语义片段为t1、t2、...、tX，对应拼音s1、s2、…、sX。

相似度矩阵M_k的矩阵大小为：n*n，其中M_k(i,j)，0<＝i<＝j<＝n-1，表示字符串[stri,...,strj]和字符串sk的拼音相似度。计算语音识别结果的拼音与每个语义片段的拼音的相似度矩阵的步骤中，采用基于编辑距离的算法来计算两个字符串的相似度。整个过程可以使用动态规划从正向、反向两个方向加速运算。

然后计算得分最高的前N个片段组合F(n)。

初始状态，F(1)为M_k(0,0)对应的得分最高的前N个字符串，及字符串str0和候选片段拼音s1、s2、…、sX相似度最高的前N个字符串。

用F_score(n)表示最优片段组合F(n)对应的组合分数，length_weight表示字符串长度权重(我们希望候选集由长候选字符串所组成)。动态规划的从n-1到n的决策过程如下，F(n)可能由下列多种情况组成：

F_score(n)＝M_k(0,n-1)*n*length_weight；这种情况组合分数为整个语音识别的字符串和候选片段拼音匹配的相似度乘以字符串的长度n，再乘以字符串长度权重；

F_score(n)＝F_score(1)+M_k(1,n-1)*(n-1)*length_weight；这种情况组合分数为第一个字符串的最优组合分数，加上字符串[str1,str2,...,str n-1]和候选片段拼音匹配的相似度乘以字符串的长度n-1，再乘以字符串长度权重；

F_score(n)＝F_score(2)+M_k(2,n-1)*(n-2)*length_weight；这种情况组合分数为字符串[str0,str1]的最优组合分数，加上字符串[str3,...,str n-1]和候选片段拼音匹配的相似度乘以字符串的长度n-2，再乘以字符串长度权重；

按照上述过程迭代计算，中间的情况不再赘述，最后的两种情况为：

F_score(n)＝F_score(n-1)+M_k(n-1,n-1)*1*length_weight；这种情况组合分数为字符串[str0,...,str n-2]的最优组合分数，加上字符串[strn-1]和候选片段拼音匹配的相似度乘以字符串的长度1，再乘以字符串长度权重；

F_score(n)＝F_score(n-1)+self_score；这种情况组合分数为字符串[str0,...,str n-2]的最优组合分数，加上新增字符串[str n-1]本身对应的相似度设定值self_score。

对F_score(n)的各种情况进行排序，取前N个，即可得到纠错候选列表。

语言模型优化步骤包括：

分数融合步骤，按照预设的权重，将语言模型评分和组合分数进行加权求和，得到最终评分；最终评分＝w1*ngram分数+w2*F_score(n)，w1，w2为权重。

本实施例还公开了一种人机对话系统，该系统包括语音识别模块、话术模块、意图识别模块和语音识别纠错模块，语音识别纠错模块使用了以上方法。话术模块用于向用户发送对话内容或根据用户的语音对应的意图回应用户的对话内容，语音识别模块用于识别用户的语音内容，意图识别模块用于根据语音内容和对话内容上下文识别用户的意图，语音识别纠错模块用于在意图识别模块识别失败后，生成纠错候选列表，意图识别模块还用于根据语音识别纠错模块生成的纠错候选列表重新识别用户的意图。

该系统运行流程如图2所示，该人机对话中，基于有限状态机等方式管理多轮对话。在每一轮会话中，首先机器人发起会话，用户回答后，语音经过语音识别转化成文本，机器人采用自然语义理解技术识别用户意图。如果意图识别的结果是有限状态机的识别范围，则本轮对话结束，开始下一轮对话。如果意图识别结果不在设定范围，可能是语音识别错误导致，则纠正语音识别的结果，再意图识别后结束本轮会话。

本申请以一个来源于电话机器人的楼盘介绍业务的真实通话数据作为数据集进行了实验和评测，该数据集包括200段人机对话中用户的录音片段，以1-5秒钟的短录音文件为主，录音质量相对语音识别通用评测数据较差。

本申请的重点是语音识别纠错，而不是语音识别。为了快速实验，中文语音识别采用了3家互联网巨头公司的5款产品(包括两个收费产品)将语音转文字。5款产品的平均准确率如表一所示。

表一：语音识别平均准确率

由上表可以看出，尽管国内互联网巨头采用的语音识别算法可能差距不大，但由于模型训练、应用场景的原因，对特定人机对话场景的语音识别效果也是相差甚大，这也间接的证明了语音纠错的必要性。另外，可以看出语音识别准确率和拼音相似度呈正相关性，拼音准确率高于对应的语音识别的文本准确率，基于拼音的语音识别纠错有助于进一步提升文本准确率。

在人机对话流程中，有58个前期未找到对应流程的样本，纠错后命中流程的30个。其中22个命中正确，8个命中错误。下面是一些具体纠错结果：

robot代表机器人，userq代表原始语音识别后的结果，corrections 0代表纠错的得分最高的结果。Shot代表命中何种流程。

示例一：

robot:先生，今天是你车贷的还款期，请你按时还款。

userq:我已经怀了。

corrections 0:我已经还了

shot:还款了

示例二：

robot:请问你现在方便吗

userq:我再可测

corrections 0:我在开车

shot:不方便

示例三：

robot:我是XX售后机器人，今天回访你使用我们洗衣机的情况，请问你现在方便吗？

userq:你试试

corrections 0:你是谁

shot:身份信息

本实施例公开的一种语音识别纠错方法以及人机对话系统，可以减少语音识别的结果对中文人机对话流程的跳转影响。本实施例的方案具有以下优点：

1、纠错过程不只考虑了待纠错文本本身，还结合了人机对话的上下文。

2、纠错过程使用了拼音空间相似度算法，并采用了动态规划方法计算最优语义文本组合。

3、纠错结果采用了拼音空间相似度算法和语言模型融合的方式。

通过以上实验可以看出，人机对话任务未识别到跳转流程的共58个样本，纠错后30样本被识别到跳转流程，其中有22处正确跳转，8处错误跳转。所以，该文的语音纠错算法提高了中文人机对话流程的跳转率，纠错后正确跳转的比例为73％。

实施例二

本实施例中，计算得分最高的前N个片段组合F(n)时也是采用动态规划的方法。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种语音识别纠错方法，其特征在于：包括以下步骤：

语言模型优化步骤，利用语言模型计算语言模型评分，并根据组合分数和语言模型评分生成最终纠错列表；

计算语音识别结果和候选语义片段的拼音相似度具体包括以下步骤：

根据拼音相似度计算组合分数；计算所述组合分数时加权字符串长度；

对组合分数按照由大到小排序，并取前N个组合分数对应的候选语义片段，得到纠错候选列表；

假设语音识别的字符串的长度为n,对应汉语拼音[str0,str1,str2,...,str n-1]；候选语义片段为t1、t2、...、tX，对应拼音s1、s2、...、sX；相似度矩阵M_k的矩阵大小为：n*n，其中M_k(i,j)，0<＝i<＝j<＝n-1，表示字符串[stri,...,strj]和字符串sk的拼音相似度；

计算语音识别结果的拼音与每个语义片段的拼音的相似度矩阵的步骤中，采用基于编辑距离的算法来计算两个字符串的相似度；

相似度矩阵的计算步骤中，采用动态规划从正向、反向两个方向运算；

计算得分最高的前N个片段组合F(n)；

初始状态，F(1)为M_k(0,0)对应的得分最高的前N个字符串，及字符串str0和候选片段拼音s1、s2、...、sX相似度最高的前N个字符串；

用F_score(n)表示最优片段组合F(n)对应的组合分数，length_weight表示字符串长度权重；动态规划的从n-1到n的决策过程如下，F(n)由下列多种情况组成：

F_score(n)＝F_score(n-1)+self_score；这种情况组合分数为字符串[str0,...,strn-2]的最优组合分数，加上新增字符串[str n-1]本身对应的相似度设定值self_score；

对F_score(n)的各种情况进行排序，取前N个，得到纠错候选列表；

所述语言模型优化步骤包括：

排序步骤，按照最终评分由高到低将纠错候选列表中的纠错文本进行排序。

2.一种人机对话系统，其特征在于：包括语音识别纠错模块，所述语音识别纠错模块使用了如权利要求1中所述的语音识别纠错方法。

3.根据权利要求2所述的一种人机对话系统，其特征在于：还包括语音识别模块、话术模块、意图识别模块，所述话术模块用于向用户发送对话内容或根据用户的语音对应的意图回应用户的对话内容，所述语音识别模块用于识别用户的语音内容，所述意图识别模块用于根据语音内容和对话内容上下文识别用户的意图，所述语音识别纠错模块用于在意图识别模块识别失败后，生成纠错候选列表，所述意图识别模块还用于根据语音识别纠错模块生成的纠错候选列表重新识别用户的意图。