CN106528616B

CN106528616B - 一种人机交互过程中的语言纠错方法及系统

Info

Publication number: CN106528616B
Application number: CN201610871257.3A
Authority: CN
Inventors: 刘楚; 李稀敏; 蔡振华; 刘晓葳; 肖龙源; 朱敬华; 王宇
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2019-12-17
Anticipated expiration: 2036-09-30
Also published as: CN106528616A

Abstract

本发明公开了一种人机交互过程中的语言纠错方法及系统，其利用互联网信息进行获取语料，利用该语料进行构建语料库，对所述语料库中的语料进行分词处理得到分词数据，根据所述分词数据进行计算各个词之间的关联度，并根据所述分词数据中每个词出现的频率进行计算每个词的热度，然后根据所述分词数据进行训练语言模型，并将所述关联度和所述热度作为所述语言模型的模型参数；获取用户的输入数据时，对所述输入数据进行分词处理得到该输入数据对应的分词数据，利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序，最后对排序后的分词数据进行合并及输出结果数据；能够较好的解决因输入法等原因造成的同音字错误的问题。

Description

一种人机交互过程中的语言纠错方法及系统

技术领域

本发明涉及通信技术领域，特别是一种人机交互过程中的语言纠错方法及其应用该方法的系统。

背景技术

随着互联网及电子商务、人工智能的普及应用，自动客服、聊天机器人等智能产品也越来越多。智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的，例如大规模知识处理技术、自然语言理解技术、知识管理技术、自动问答系统、推理技术等等，具有行业通用性，不仅为企业提供了细粒度知识管理技术，还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段；同时还能够为企业提供精细化管理所需的统计分析信息。

智能客服的工作方法为首先提取、识别用户提出的问题，然后将用户提出的问题转化为机器可识别的语言，再从预先部署的知识库中提取与用户问题相对应的数据，反馈给用户。

现有技术的智能客服主要存在以下问题：

由于输入法问题或者个人输入习惯、操作失误、网络新鲜词汇等因素，会导致智能客服所遇到的问题中经常出现无法理解的词语，从而导致智能客服无法作出及时、正确的反应。尤其是采用拼音输入法问题造成的同音字错误较为普遍，目前市面上使用拼音输入法的人占到了90％以上，所以同音字错误占到了总体错误率的半数以上。

发明内容

本发明为解决上述问题，提供了一种人机交互过程中的语言纠错方法及系统，能够较好的解决因输入法等原因造成的同音字错误的问题。

为实现上述目的，本发明采用的技术方案为：

一种人机交互过程中的语言纠错方法，其包括以下步骤：

10)利用互联网信息进行获取语料，并利用该语料进行构建语料库；

20)对所述语料库中的语料进行分词处理得到分词数据；

30)根据所述分词数据进行计算各个词之间的关联度；

40)根据所述分词数据中每个词出现的频率进行计算每个词的热度；

50)根据所述分词数据进行训练语言模型，并将所述关联度和所述热度作为所述语言模型的模型参数；

60)获取用户的输入数据，并对所述输入数据进行分词处理得到该输入数据对应的分词数据；

70)利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序，并对排序后的分词数据进行合并及输出结果数据。

优选的，所述分词处理，是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。

优选的，所述语言模型，是采用Bigram语言模型。

优选的，所述的步骤70)中，所述分词数据的排序，进一步包括以下步骤：

71)确定首词：将备选首词之后的备选相邻后词中热度最高的备选相邻后词作为第一参考后词，计算所述备选首词与所述第一参考后词之间的关联度，取关联度最高的备选首词作为结果首词；

72)确定中间词：将备选中间词之后的备选相邻后词中热度最高的备选相邻后词作为第二参考后词，计算所述备选中间词与所述结果首词之间的关联度，并计算所述备选中间词与所述第二参考后词之间的关联度，取两个关联度均最高的备选中间词作为结果中间词；

73)确定末词：计算备选末词与所述结果中间词之间的关联度，并对比各个备选末词的热度，取关联度和热度均最高的备选末词作为结果末词。

另外，本发明还提供一种人机交互过程中的语言纠错系统，其包括：

语料获取模块，其利用互联网信息进行获取语料，并利用该语料进行构建语料库；

分词模块，用于对所述语料库中的语料进行分词处理得到分词数据；

句子粒度纠错模块，其根据所述分词数据进行计算各个词之间的关联度；

词粒度纠错模块，其根据所述分词数据中每个词出现的频率进行计算每个词的热度；

模型训练模块，其根据所述分词数据进行训练语言模型，并将所述关联度和所述热度作为所述语言模型的模型参数；

结果合成模块，其利用所述语言模型对分词数据进行重新排序与合并，得到结果数据；

获取用户的输入数据时，所述分词模块对所述输入数据进行分词处理得到该输入数据对应的分词数据，所述结果合成模块利用所述语言模型将所述输入数据对应的分词数据按照所述关联度和所述热度进行排序，并对排序后的分词数据进行合并及输出结果数据。

优选的，所述分词模块是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。

优选的，所述模型训练模块是根据所述分词数据进行训练Bigram语言模型。

优选的，所述结果合成模块进一步包括：

首词确定单元：将备选首词之后的备选相邻后词中热度最高的备选相邻后词作为第一参考后词，计算所述备选首词与所述第一参考后词之间的关联度，取关联度最高的备选首词作为结果首词；

中间词确定单元：将备选中间词之后的备选相邻后词中热度最高的备选相邻后词作为第二参考后词，计算所述备选中间词与所述结果首词之间的关联度，并计算所述备选中间词与所述第二参考后词之间的关联度，取两个关联度均最高的备选中间词作为结果中间词；

末词确定单元：计算备选末词与所述结果中间词之间的关联度，并对比各个备选末词的热度，取关联度和热度均最高的备选末词作为结果末词。

本发明的有益效果是：

(1)本发明的语言纠错方法，通过对语料库中的语料进行分词处理构建语言模型，并将每个词的热度以及各个词之间的关联度作为该语言模型的模型参数，使用时，将用户的输入数据按照同样的方法进行分词处理得到对应的分词数据，并利用训练好的语言模型对该分词数据进行排序和合并，得到结果数据；能够根据用户的输入数据快速做出响应和纠错，并提供可靠的结果数据；应用在本发明的智能客服时，访客问题即为用户的输入数据，若访客问题是错误的，则很难得到智能客服的正确回复，因此，采用本发明的纠错方法能够提高访客问题的识别效率、回复效率，用户体验更好；

(2)本发明对所述分词数据进行排序时，不仅考虑每个词的热度以及各个词之间的关联度，还进一步考虑每个词的前词及后词之间的关系，能够提高纠错的效率以及准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种人机交互过程中的语言纠错方法的流程简图；

图2为本发明一种人机交互过程中的语言纠错系统的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的一种人机交互过程中的语言纠错方法，其包括以下步骤：

20)对所述语料库中的语料进行分词处理得到分词数据；

30)根据所述分词数据进行计算各个词之间的关联度；

所述分词处理，是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。

分词方法示例如下:

输入数据为：科学技术是第一生产力；

分词后得到的分词数据为：科学，技术，是，第一，生产力；

输入数据为：科学发展是第一生产力；

分词后得到的分词数据为：科学，发展，是，第一，生产力；

输入数据为：科学技术与工程；

分词后得到的分词数据为：科学，技术，与，工程；

输入数据为：科学计算器；

分词后得到的分词数据为：科学，计算器。

分词的关联度的示例如下：

“科学”与“技术”的关联度为2000；

“科学”与“发展”的关联度为1500；

“科学”与“计算器”的关联度为100；

“第一”与“生产力”的关联度为300。

分词的热度的示例如下：

“科学”热度12000，“技术”热度16000，“第一”热度8000，“生产力”热度3000。

所述语言模型，是采用Bigram语言模型。

所述的步骤70)中，所述分词数据的排序，进一步包括以下步骤：

如图2所示，本发明还提供一种人机交互过程中的语言纠错系统，其包括：

所述分词模块是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。

所述模型训练模块是根据所述分词数据进行训练Bigram语言模型。

所述结果合成模块进一步包括：

以下列举一具体实施例进行说明整体纠错流程：

1.访客输入：可学计数是第一声禅理

2.分词后得到的分词数据为：可学，计数，是，第一声，禅理

3.词粒度纠错模块计算后，按热度排序得到：

(科学，咳血，可学)(技术，计数，基数，奇数，记述)(是，事，时，市)(第一，敌意)(生产力，盛产梨)

4.根据语言模型中的模型参数，得到如下结果：

“科学”热度12000，“咳血”热度1500，“可学”热度1800，“技术”热度16000，“计数”热度10000，“基数”热度8000，“奇数”热度9000，“记述”热度6000；

“科学”与“技术”关联度2000，“科学”与“计数”关联度1000，“科学”与“基数”关联度50，“科学”与“奇数”关联度20，“科学”与“记述”关联度200。

5.按首词、中间词、末词三种位置来计算确定结果：

5.1确定首词的方法：

将首词中出现的每个词，与其后的词中词频最高的词(热度值最高的)，其关联值进行对比，然后取关联度值最高的词，确定为首词。

如：“科学”与“技术”关联度2000，“咳血”与“技术”关联度20，“可学”与“技术”关联度300，则首词确定为“科学”。

5.2确定中间词的方法：

将出现的每个中间词与已确定首词的关联度值，与中间词本身的热度值，以及与其后的词(取词频，即词热度值最高的词)之间的关联度值，三者之间进行计算，取结果最高者确定为中间词。

如：

“科学”与“技术”关联度2000x“技术”热度16000x“技术”与“是”关联度1500＝结果1

“科学”与“计数”关联度1000x“计数”热度10000x“计数”与“是”关联度800＝结果2

“科学”与“基数”关联度500x“基数”热度8000x“基数”与“是”关联度300＝结果3

“科学”与“奇数”关联度20x“奇数”热度9000x“奇数”与“是”关联度100＝结果4

“科学”与“记述”关联度200x“记述”热度6000x“记述”与“是”关联度100＝结果5

则确定结果1，为中间词。

5.3确定未词的方法：

将末词中出现的每个词与已确定前词(位于其位置前的一个词，即中间词)的关联度值，与末词本身的热度值，二者之间进行计算，取结果最高者确定为中间词。

如：

“第一”与“生产力”关联度800x“生产力”热度1200＝结果1

“第一”与“盛产梨”关联度50x“盛产梨”热度400＝结果2

则确定结果1，为末词。

6.输出结果

最后通过结果合成模块根据计算的结果，将各词合并，最终得到结果：

(科学)(技术)(是)(第一)(生产力)。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种人机交互过程中的语言纠错方法，其特征在于，包括以下步骤：

20)对所述语料库中的语料进行分词处理得到分词数据；

30)根据所述分词数据进行计算各个词之间的关联度；

70)利用所述语言模型对所述输入数据对应的分词数据按照所述关联度和所述热度进行排序，并对排序后的分词数据进行合并及输出结果数据；

2.根据权利要求1所述的一种人机交互过程中的语言纠错方法，其特征在于：所述分词处理，是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。

3.根据权利要求1所述的一种人机交互过程中的语言纠错方法，其特征在于：所述语言模型，是采用Bigram语言模型。

4.一种人机交互过程中的语言纠错系统，其特征在于，包括：

获取用户的输入数据时，所述分词模块对所述输入数据进行分词处理得到该输入数据对应的分词数据，所述结果合成模块利用所述语言模型将所述输入数据对应的分词数据按照所述关联度和所述热度进行排序，并对排序后的分词数据进行合并及输出结果数据；

其中，所述结果合成模块进一步包括：

5.根据权利要求4所述的一种人机交互过程中的语言纠错系统，其特征在于：所述分词模块是利用jieba分词工具对所述语料库中的语料以及对所述用户的输入数据进行分词处理。

6.根据权利要求4所述的一种人机交互过程中的语言纠错系统，其特征在于：所述模型训练模块是根据所述分词数据进行训练Bigram语言模型。