CN108959588B

CN108959588B - 基于大数据的文本客服机器人智能学习方法

Info

Publication number: CN108959588B
Application number: CN201810751763.8A
Authority: CN
Inventors: 刘鹏; 向业锋; 毛力; 谭毅
Original assignee: Sichuan Taojin Niwo Information Technology Co ltd
Current assignee: Sichuan Taojin Niwo Information Technology Co ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2021-10-08
Anticipated expiration: 2038-07-10
Also published as: CN108959588A

Abstract

为了提升人机对话的智能性和准确度，本发明提供了一种基于大数据的文本客服机器人智能学习方法，包括：(A)利用用于训练的文本形式的对话大数据O按照语境进行分类；(B)检测好感度信息Ginfo、类似语句重复度信息Iinfo、对话时长信息Linfo，对大数据O进行训练。本发明计算过程快速，进行SVM训练后的自学习效率大大提高。

Description

基于大数据的文本客服机器人智能学习方法

技术领域

本发明涉及人工智能技术领域，更具体地，涉及基于大数据的文本客服机器人智能学习方法。

背景技术

现在的人机对话问答系统中，当用户输入问题后，识别用户所要询问的意图是整个问答系统中核心的部分，意图识别正确但准确率太低，会造成后期给用户返回答案时，答案太多而无法选择最优答案的问题；意图识别错误会造成无法理解用户的意思，从而会给用户提供其不想要的答案或者直接无法给出答案。现有的问答系统，主要是通过计算机的算法逻辑来实现，基本过程包括问题分析、信息检索和答案抽取三个过程。在这三个过程中，任何一个环节出现纰漏，用户将无法得到正确的结果。更为重要的是，由于这种问答系统的可调性较差，无法利用用户问题，让自己变得更加智能，所以当用户再一次输入同样的问提，基于同样的逻辑，用户还是无法获取正确结果，除非对这套问答系统的算法逻辑进行修改。由此可见，问答系统的可调性已成为影响问答系统准确性和及时性的关键问题。

现有意图识别的方法都是基于人工标注大量的语料来进行训练和预测，由于需要大量的人工标注，会存在很多的不可控因素，比如每个标注人员对于语料理解的不同会导致不同的标注结果，对相同的问题会有重复标注的结果，以及不同的分类标注里有相同语料的标注；而且当需要添加新的意图分类的时候，必须由相关人员进行商讨、确定，再培训标注人员才能开始进行标注工作，机器无法自动添加新的分类。在整个训练模型的过程中会消耗大量的人力物力，并且由于诸多的不可控因素会影响函数训练的速度和进度。

发明内容

为了提升人机对话的智能性和准确度，本发明提供了一种基于大数据的文本客服机器人智能学习方法，包括：

(A)利用用于训练的文本形式的对话大数据O按照语境进行分类；

(B)检测好感度信息Ginfo、类似语句重复度信息Iinfo、对话时长信息Linfo，对大数据O进行训练。

进一步地，所述语境包括售前、售中和售后三种语境，这三种语境分别具有彼此不同的、预先确定的权值。

进一步地，所述好感度信息Ginfo包括使用礼貌用语的次数信息Ginfo_wordnum、词语内容信息Ginfo_wordcontent以及使用表情的次数信息Ginfo_facenum和表情对应的ASCII码Ginfo_facecontent。

进一步地，所述类似语句重复度信息Iinfo包括重复语句的次数信息Iinfo_num以及词语内容信息Iinfo_content。

进一步地，所述对大数据O进行训练包括：

对用于训练的文本形式的对话数据按照语义拆分成不同词语；

对于第g个语句和第g+1个语句，对其中不同语义对应的词语进行相似度卷积，并将卷积值最大的定义为最大词语，将卷积值最小的定义为最小词语，g为1，2，…，Num1，其中Num1表示用于训练的文本形式的对话数据中的语句个数；

对于第g+1个语句，删除上述最小词语，并将所述用于训练的文本形式的对话数据中的各语句均删除与其相邻的下一语句中的最小词语，其中第一句全句保留，从而得到由经过上述删除后得到的多个语句以及第一语句按照时间顺序合并而成的中间对话数据R；

设样本训练集合为TRAIN＝{(R，Ginfo_wordcontent，Ginfo_facecontent，Iinfo_content}，将TRAIN中的各个元素以出现次数作为替代标识，空缺位置以Ginfo_wordnum、Ginfo_facenum、Iinfo_num的算术平均数与4的商的余数填充，形成矩阵A1；将TRAIN中的各个元素以出现次数作为替代标识，空缺位置以Ginfo_wordnum、Ginfo_facenum、Iinfo_num的几何平均数与4的商的余数填充，形成矩阵A2；

计算矩阵A1的特征值CH1和矩阵A2的特征值CH2，依照售前、售中和售后三种语境将CH1和CH2乘以预先确定的权值；设迭代次数Iter为(CH1+CH2)的几何平均值的上整数,在大数据O范围内以最大词语作为初始解对((Li-1*CH1+Li+1*CH2)/(Li-1*CH2+Li+1*CH1))进行迭代，对得到的最终迭代值m取上整数M；对大数据O进行M次SVM训练，上述i＝1,...,N。

本发明计算过程快速，进行SVM训练后的自学习效率大大提高。

具体实施方式

本发明提供了一种基于大数据的文本客服机器人智能学习方法，包括：

优选地，所述语境包括售前、售中和售后三种语境，这三种语境分别具有彼此不同的、预先确定的权值。

优选地，所述好感度信息Ginfo包括使用礼貌用语的次数信息Ginfo_wordnum、词语内容信息Ginfo_wordcontent以及使用表情的次数信息Ginfo_facenum和表情对应的ASCII码Ginfo_facecontent。

优选地，所述类似语句重复度信息Iinfo包括重复语句的次数信息Iinfo_num以及词语内容信息Iinfo_content。

优选地，所述对大数据O进行训练包括：

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于大数据的文本客服机器人智能学习方法，包括：

（A）利用用于训练的文本形式的对话大数据O按照语境进行分类；

（B）检测好感度信息Ginfo、类似语句重复度信息Iinfo、对话时长信息Linfo，对大数据O进行训练；

所述语境包括售前、售中和售后三种语境，这三种语境分别具有彼此不同的、预先确定的权值；

所述好感度信息Ginfo包括使用礼貌用语的次数信息Ginfo_wordnum、词语内容信息Ginfo_wordcontent以及使用表情的次数信息Ginfo_facenum和表情对应的ASCII码Ginfo_facecontent；

所述类似语句重复度信息Iinfo包括重复语句的次数信息Iinfo_num以及词语内容信息Iinfo_content；

其特征在于，所述对大数据O进行训练包括：

对于第g个语句和第g+1个语句，对其中不同语义对应的词语进行相似度卷积，并将卷积值最大的定义为最大词语，将卷积值最小的定义为最小词语，g为1，2，…，Num1-1，其中Num1表示用于训练的文本形式的对话数据中的语句个数；

设样本训练集合为TRAIN＝{(R，Ginfo_wordcontent，Ginfo_facecontent，Iinfo_content}，将TRAIN中的各个元素以出现次数作为替代标识，空缺位置以Ginfo_wordnum、Ginfo_facenum、 Iinfo_num的算术平均数与4的商的余数填充，形成矩阵A1；将TRAIN中的各个元素以出现次数作为替代标识，空缺位置以Ginfo_wordnum、 Ginfo_facenum、 Iinfo_num的几何平均数与4的商的余数填充，形成矩阵A2；

计算矩阵A1的特征值CH1和矩阵A2的特征值CH2，依照售前、售中和售后三种语境将CH1和CH2乘以预先确定的权值；设迭代次数Iter为(CH1+CH2)的几何平均值的上整数,利用CH1和CH2在大数据O范围内以最大词语作为初始解进行迭代，对得到的最终迭代值m取上整数M；对大数据O进行M次SVM训练。