CN108959588B - 基于大数据的文本客服机器人智能学习方法 - Google Patents
基于大数据的文本客服机器人智能学习方法 Download PDFInfo
- Publication number
- CN108959588B CN108959588B CN201810751763.8A CN201810751763A CN108959588B CN 108959588 B CN108959588 B CN 108959588B CN 201810751763 A CN201810751763 A CN 201810751763A CN 108959588 B CN108959588 B CN 108959588B
- Authority
- CN
- China
- Prior art keywords
- ginfo
- training
- big data
- information
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
为了提升人机对话的智能性和准确度,本发明提供了一种基于大数据的文本客服机器人智能学习方法,包括:(A)利用用于训练的文本形式的对话大数据O按照语境进行分类;(B)检测好感度信息Ginfo、类似语句重复度信息Iinfo、对话时长信息Linfo,对大数据O进行训练。本发明计算过程快速,进行SVM训练后的自学习效率大大提高。
Description
技术领域
本发明涉及人工智能技术领域,更具体地,涉及基于大数据的文本客服机器人智能学习方法。
背景技术
现在的人机对话问答系统中,当用户输入问题后,识别用户所要询问的意图是整个问答系统中核心的部分,意图识别正确但准确率太低,会造成后期给用户返回答案时,答案太多而无法选择最优答案的问题;意图识别错误会造成无法理解用户的意思,从而会给用户提供其不想要的答案或者直接无法给出答案。现有的问答系统,主要是通过计算机的算法逻辑来实现,基本过程包括问题分析、信息检索和答案抽取三个过程。在这三个过程中,任何一个环节出现纰漏,用户将无法得到正确的结果。更为重要的是,由于这种问答系统的可调性较差,无法利用用户问题,让自己变得更加智能,所以当用户再一次输入同样的问提,基于同样的逻辑,用户还是无法获取正确结果,除非对这套问答系统的算法逻辑进行修改。由此可见,问答系统的可调性已成为影响问答系统准确性和及时性的关键问题。
现有意图识别的方法都是基于人工标注大量的语料来进行训练和预测,由于需要大量的人工标注,会存在很多的不可控因素,比如每个标注人员对于语料理解的不同会导致不同的标注结果,对相同的问题会有重复标注的结果,以及不同的分类标注里有相同语料的标注;而且当需要添加新的意图分类的时候,必须由相关人员进行商讨、确定,再培训标注人员才能开始进行标注工作,机器无法自动添加新的分类。在整个训练模型的过程中会消耗大量的人力物力,并且由于诸多的不可控因素会影响函数训练的速度和进度。
发明内容
为了提升人机对话的智能性和准确度,本发明提供了一种基于大数据的文本客服机器人智能学习方法,包括:
(A)利用用于训练的文本形式的对话大数据O按照语境进行分类;
(B)检测好感度信息Ginfo、类似语句重复度信息Iinfo、对话时长信息Linfo,对大数据O进行训练。
进一步地,所述语境包括售前、售中和售后三种语境,这三种语境分别具有彼此不同的、预先确定的权值。
进一步地,所述好感度信息Ginfo包括使用礼貌用语的次数信息Ginfo_wordnum、词语内容信息Ginfo_wordcontent以及使用表情的次数信息Ginfo_facenum和表情对应的ASCII码Ginfo_facecontent。
进一步地,所述类似语句重复度信息Iinfo包括重复语句的次数信息Iinfo_num以及词语内容信息Iinfo_content。
进一步地,所述对大数据O进行训练包括:
对用于训练的文本形式的对话数据按照语义拆分成不同词语;
对于第g个语句和第g+1个语句,对其中不同语义对应的词语进行相似度卷积,并将卷积值最大的定义为最大词语,将卷积值最小的定义为最小词语,g为1,2,…,Num1,其中Num1表示用于训练的文本形式的对话数据中的语句个数;
对于第g+1个语句,删除上述最小词语,并将所述用于训练的文本形式的对话数据中的各语句均删除与其相邻的下一语句中的最小词语,其中第一句全句保留,从而得到由经过上述删除后得到的多个语句以及第一语句按照时间顺序合并而成的中间对话数据R;
设样本训练集合为TRAIN={(R,Ginfo_wordcontent,Ginfo_facecontent,Iinfo_content},将TRAIN中的各个元素以出现次数作为替代标识,空缺位置以Ginfo_wordnum、Ginfo_facenum、Iinfo_num的算术平均数与4的商的余数填充,形成矩阵A1;将TRAIN中的各个元素以出现次数作为替代标识,空缺位置以Ginfo_wordnum、Ginfo_facenum、Iinfo_num的几何平均数与4的商的余数填充,形成矩阵A2;
计算矩阵A1的特征值CH1和矩阵A2的特征值CH2,依照售前、售中和售后三种语境将CH1和CH2乘以预先确定的权值;设迭代次数Iter为(CH1+CH2)的几何平均值的上整数,在大数据O范围内以最大词语作为初始解对((Li-1*CH1+Li+1*CH2)/(Li-1*CH2+Li+1*CH1))进行迭代,对得到的最终迭代值m取上整数M;对大数据O进行M次SVM训练,上述i=1,...,N。
本发明计算过程快速,进行SVM训练后的自学习效率大大提高。
具体实施方式
本发明提供了一种基于大数据的文本客服机器人智能学习方法,包括:
(A)利用用于训练的文本形式的对话大数据O按照语境进行分类;
(B)检测好感度信息Ginfo、类似语句重复度信息Iinfo、对话时长信息Linfo,对大数据O进行训练。
优选地,所述语境包括售前、售中和售后三种语境,这三种语境分别具有彼此不同的、预先确定的权值。
优选地,所述好感度信息Ginfo包括使用礼貌用语的次数信息Ginfo_wordnum、词语内容信息Ginfo_wordcontent以及使用表情的次数信息Ginfo_facenum和表情对应的ASCII码Ginfo_facecontent。
优选地,所述类似语句重复度信息Iinfo包括重复语句的次数信息Iinfo_num以及词语内容信息Iinfo_content。
优选地,所述对大数据O进行训练包括:
对用于训练的文本形式的对话数据按照语义拆分成不同词语;
对于第g个语句和第g+1个语句,对其中不同语义对应的词语进行相似度卷积,并将卷积值最大的定义为最大词语,将卷积值最小的定义为最小词语,g为1,2,…,Num1,其中Num1表示用于训练的文本形式的对话数据中的语句个数;
对于第g+1个语句,删除上述最小词语,并将所述用于训练的文本形式的对话数据中的各语句均删除与其相邻的下一语句中的最小词语,其中第一句全句保留,从而得到由经过上述删除后得到的多个语句以及第一语句按照时间顺序合并而成的中间对话数据R;
设样本训练集合为TRAIN={(R,Ginfo_wordcontent,Ginfo_facecontent,Iinfo_content},将TRAIN中的各个元素以出现次数作为替代标识,空缺位置以Ginfo_wordnum、Ginfo_facenum、Iinfo_num的算术平均数与4的商的余数填充,形成矩阵A1;将TRAIN中的各个元素以出现次数作为替代标识,空缺位置以Ginfo_wordnum、Ginfo_facenum、Iinfo_num的几何平均数与4的商的余数填充,形成矩阵A2;
计算矩阵A1的特征值CH1和矩阵A2的特征值CH2,依照售前、售中和售后三种语境将CH1和CH2乘以预先确定的权值;设迭代次数Iter为(CH1+CH2)的几何平均值的上整数,在大数据O范围内以最大词语作为初始解对((Li-1*CH1+Li+1*CH2)/(Li-1*CH2+Li+1*CH1))进行迭代,对得到的最终迭代值m取上整数M;对大数据O进行M次SVM训练,上述i=1,...,N。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.基于大数据的文本客服机器人智能学习方法,包括:
(A)利用用于训练的文本形式的对话大数据O按照语境进行分类;
(B)检测好感度信息Ginfo、类似语句重复度信息Iinfo、对话时长信息Linfo,对大数据O进行训练;
所述语境包括售前、售中和售后三种语境,这三种语境分别具有彼此不同的、预先确定的权值;
所述好感度信息Ginfo包括使用礼貌用语的次数信息Ginfo_wordnum、词语内容信息Ginfo_wordcontent以及使用表情的次数信息Ginfo_facenum和表情对应的ASCII码Ginfo_facecontent;
所述类似语句重复度信息Iinfo包括重复语句的次数信息Iinfo_num以及词语内容信息Iinfo_content;
其特征在于,所述对大数据O进行训练包括:
对用于训练的文本形式的对话数据按照语义拆分成不同词语;
对于第g个语句和第g+1个语句,对其中不同语义对应的词语进行相似度卷积,并将卷积值最大的定义为最大词语,将卷积值最小的定义为最小词语,g为1,2,…,Num1-1,其中Num1表示用于训练的文本形式的对话数据中的语句个数;
对于第g+1个语句,删除上述最小词语,并将所述用于训练的文本形式的对话数据中的各语句均删除与其相邻的下一语句中的最小词语,其中第一句全句保留,从而得到由经过上述删除后得到的多个语句以及第一语句按照时间顺序合并而成的中间对话数据R;
设样本训练集合为TRAIN={(R,Ginfo_wordcontent,Ginfo_facecontent,Iinfo_content},将TRAIN中的各个元素以出现次数作为替代标识,空缺位置以Ginfo_wordnum、Ginfo_facenum、 Iinfo_num的算术平均数与4的商的余数填充,形成矩阵A1;将TRAIN中的各个元素以出现次数作为替代标识,空缺位置以Ginfo_wordnum、 Ginfo_facenum、 Iinfo_num的几何平均数与4的商的余数填充,形成矩阵A2;
计算矩阵A1的特征值CH1和矩阵A2的特征值CH2,依照售前、售中和售后三种语境将CH1和CH2乘以预先确定的权值;设迭代次数Iter为(CH1+CH2)的几何平均值的上整数,利用CH1和CH2在大数据O范围内以最大词语作为初始解进行迭代,对得到的最终迭代值m取上整数M;对大数据O进行M次SVM训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810751763.8A CN108959588B (zh) | 2018-07-10 | 2018-07-10 | 基于大数据的文本客服机器人智能学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810751763.8A CN108959588B (zh) | 2018-07-10 | 2018-07-10 | 基于大数据的文本客服机器人智能学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959588A CN108959588A (zh) | 2018-12-07 |
CN108959588B true CN108959588B (zh) | 2021-10-08 |
Family
ID=64482567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810751763.8A Active CN108959588B (zh) | 2018-07-10 | 2018-07-10 | 基于大数据的文本客服机器人智能学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959588B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110933239A (zh) * | 2019-12-30 | 2020-03-27 | 秒针信息技术有限公司 | 话术检测方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279528A (zh) * | 2013-05-31 | 2013-09-04 | 俞志晨 | 一种基于人机结合的问答系统及方法 |
CN104301554A (zh) * | 2013-07-18 | 2015-01-21 | 中兴通讯股份有限公司 | 一种对客服人员的服务质量进行质检的装置及方法 |
CN107506426A (zh) * | 2017-08-18 | 2017-12-22 | 四川长虹电器股份有限公司 | 一种智能电视自动智能应答机器人的实现方法 |
CN107870896A (zh) * | 2016-09-23 | 2018-04-03 | 苏宁云商集团股份有限公司 | 一种对话分析方法及装置 |
CN107895000A (zh) * | 2017-10-30 | 2018-04-10 | 昆明理工大学 | 一种基于卷积神经网络的跨领域语义信息检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701120B (zh) * | 2014-11-28 | 2019-05-03 | 华为技术有限公司 | 确定语义匹配度的方法和装置 |
-
2018
- 2018-07-10 CN CN201810751763.8A patent/CN108959588B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279528A (zh) * | 2013-05-31 | 2013-09-04 | 俞志晨 | 一种基于人机结合的问答系统及方法 |
CN104301554A (zh) * | 2013-07-18 | 2015-01-21 | 中兴通讯股份有限公司 | 一种对客服人员的服务质量进行质检的装置及方法 |
CN107870896A (zh) * | 2016-09-23 | 2018-04-03 | 苏宁云商集团股份有限公司 | 一种对话分析方法及装置 |
CN107506426A (zh) * | 2017-08-18 | 2017-12-22 | 四川长虹电器股份有限公司 | 一种智能电视自动智能应答机器人的实现方法 |
CN107895000A (zh) * | 2017-10-30 | 2018-04-10 | 昆明理工大学 | 一种基于卷积神经网络的跨领域语义信息检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108959588A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104809103B (zh) | 一种人机对话的语义分析方法及系统 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
KR102316063B1 (ko) | 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN105589844A (zh) | 一种用于多轮问答系统中缺失语义补充的方法 | |
CN110781277A (zh) | 文本识别模型相似度训练方法、系统、识别方法及终端 | |
CN107305550A (zh) | 一种智能问答方法及装置 | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN106844344B (zh) | 用于对话的贡献度计算方法及主题抽取方法和系统 | |
CN110413972B (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN114461777B (zh) | 智能问答方法、装置、设备及存储介质 | |
WO2022048194A1 (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN117149984B (zh) | 一种基于大模型思维链的定制化培训方法及装置 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN115146124A (zh) | 问答系统应答方法及其装置、设备、介质、产品 | |
CN112579666A (zh) | 智能问答系统和方法及相关设备 | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN111930937A (zh) | 基于bert的智慧政务文本多分类方法及系统 | |
CN114492396A (zh) | 用于汽车专有名词的文本错误纠正方法及可读存储介质 | |
CN116166688A (zh) | 基于自然语言交互的业务数据检索方法、系统及处理设备 | |
CN108959588B (zh) | 基于大数据的文本客服机器人智能学习方法 | |
CN108897888B (zh) | 语音客服培训场景下的人机对练方法 | |
CN110532394A (zh) | 订单备注文本的处理方法及系统 | |
CN108959275B (zh) | 基于在线语言翻译的人机对练系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |