CN109033428B - 一种智能客服方法及系统 - Google Patents

一种智能客服方法及系统 Download PDF

Info

Publication number
CN109033428B
CN109033428B CN201810910686.6A CN201810910686A CN109033428B CN 109033428 B CN109033428 B CN 109033428B CN 201810910686 A CN201810910686 A CN 201810910686A CN 109033428 B CN109033428 B CN 109033428B
Authority
CN
China
Prior art keywords
question
answer
answers
model
questions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810910686.6A
Other languages
English (en)
Other versions
CN109033428A (zh
Inventor
邓昕
王飞
洪伟俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Panchuang Network Technology Co ltd
Original Assignee
Shenzhen Panchuang Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Panchuang Network Technology Co ltd filed Critical Shenzhen Panchuang Network Technology Co ltd
Priority to CN201810910686.6A priority Critical patent/CN109033428B/zh
Publication of CN109033428A publication Critical patent/CN109033428A/zh
Application granted granted Critical
Publication of CN109033428B publication Critical patent/CN109033428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种智能客服方法及系统,该方法包括以下步骤:建立问答数据库,其由若干条包括问题、答案的问答数据组成;建立与问答数据库相关联的问答模型,所述问答模型针对输入的问答数据形成映射关系,匹配问答数据中的问题及与之对应的答案;用户提出待解答问题,问答模型从问答数据库中找出匹配度最高的N条答案,再使用三种特征工程的方法对N条答案再进行一次相似度计算,给出对应答案推荐给用户;获取用户对推荐的答案评分,基于该评分优化调整问答模型,使得问答模型匹配出来的结果更加准确。本发明相比传统的客服更具智能性,回答更快速高效;可以不断学习调整,使得问答精确度更高,更有利于大规模使用,极大地节省了人工客服的成本。

Description

一种智能客服方法及系统
技术领域
本发明涉及客服问答领域,特别涉及一种智能客服方法及系统。
背景技术
随着商品化的快速发展及信息化的高速推进,产品售前、售后咨询服务在企业在整个商业链中越来越重要,其提供的服务品质好坏极大地影响着消费者的决策,从而也影响着企业营收。
现有的售前、售后咨询服务,大多是借助人工来应对,然而,人工客户既有上班时间的限制,还有回答容量的限制,更为重要的是,在人力成本高昂的今天,会增加企业成本。
因而,现有技术存在问题,需要进一步改进。
发明内容
针对现有技术存在的问题,本发明提供一种智能客服方法及系统,使得现有的客服更具智能性,极大的节约了人工客服资源。
为实现上述目的,本发明的具体技术方案如下:
一种智能客服方法,包括以下步骤:
建立问答数据库,其由若干条包括问题、答案的问答数据组成;
建立与问答数据库相关联的问答模型,所述问答模型针对输入的问答数据形成映射关系,匹配问答数据中的问题及与之对应的答案;
用户提出待解答问题,问答模型从问答数据库中找出匹配度最高的N条答案,再使用三种特征工程的方法对N条答案再进行一次相似度计算,给出对应答案推荐给用户;
获取用户对推荐的答案评分,基于该评分优化调整问答模型,使得问答模型匹配出来的结果更加准确。
作为本发明优选的方案,所述问答模型匹配后给出对应答案具体方法为:
使用TFIDF算法和Doc2Vec算法从问答数据库中找出匹配度最高的20条答案;
将匹配度最高的20条答案再进行一次相似度计算;
以相似度由高到低的排序将答案推荐给用户。
作为本发明优选的方案,将匹配度最高的20条答案再进行一次相似度计算的具体方法为:
使用三种特征工程的方法对匹配度最高的20条答案再进行一次相似度计算,三种方法计算方式如下:
(1)、计算相同关键词的比例
KeyW1表示提出问题中非重复关键词的个数,KeyW2表示匹配问题中包含提出问题中关键词的个数。则:
Figure BDA0001761759730000021
(2)、计算句子长度的差异率
Lenl,Len2分别表示提出问题与匹配问题的长度,即两个问题中词的个数。则:
Figure BDA0001761759730000022
(3)、计算关键词的顺序
对用户输入问题的关键词排序成自然数序列,找出匹配问题中与输入问题相同的关键词的集合W,W中每个关键词的值为输入问题的自然数序列中对应关键词的值,定义MaxRev为最大逆序数,即关键词的组合数;Rev表示W的逆序数,则:
Figure BDA0001761759730000031
(4)基于这三种特征工程方法得到总的相似度计算方式:
Sim=λ1*WordSim+λ2*LenSim+λ3*OrdSim
其中,λ1、λ2、λ3为系数参数,取值为λ123∈(0-1),且λ123=1。
作为本发明优选的方案,该方法中问答模型优化的步骤:
按权重λ1’使用TF-IDF模型选词,其中TF、IDF计算公式如下:
Figure BDA0001761759730000032
Figure BDA0001761759730000033
按权重λ2’使用Doc2Vec模型选词向量,并根据评分,调整λ1’、λ2’在问答模型中的权重:
Sim=λ1′*Simtfidf2′*Simdoc2vec
作为本发明优选的方案,所述问答数据库可以经由用户批量或逐条导入问答数据建立。
本发明还提供上述客服方法的系统,其包括:
问答数据库,其由若干条包括问题、答案的问答数据组成;
问答模型,所述问答模型针对输入的问答数据形成映射关系,匹配问答数据中的问题及与之对应的答案。
采用本发明的技术方案,具有以下有益效果:
(1)、相比传统的客服,更具智能性,回答更快速高效;
(2)、通过用户评分,可以使得模型融合优化,更好的调整模型,模型更加精确;
(3)、可以不断学习调整,使得问答精确度更高,更有利于大规模使用,从而极大地节省了人工客服的成本。
附图说明
图1为本发明方法的实现流程图;
图2为本发明系统的原理框图。
具体实施方式
以下结合附图和具体实施例,对本发明进一步说明。
参照图1所示,本发明提供一种智能客服方法,包括以下步骤:
S1:建立问答数据库,其由若干条包括问题、答案的问答数据组成;
此步骤可以由用户导入问答数据来完成,用户导入问答数据的方式有两种方式,分别是批量导入或逐条导入问答数据。用户导入的数据将会保存到用户对应的数据库表中。另外,用户也可以选择不导入数据,直接使用系统中的数据。
S2:建立与问答数据库相关联的问答模型,所述问答模型针对输入的问答数据形成映射关系,匹配问答数据中的问题及与之对应的答案;
上步之后,用户导入数据后可以重新训练模型,使得模型能够更加准确匹配用户的用户所提的问题。同样的用户也可以不重新训练模型,使用原有模型进行匹配问题。
S3:用户提出待解答问题,问答模型从问答数据库中找出匹配度最高的N条答案,再使用三种特征工程的方法对N条答案再进行一次相似度计算,给出对应答案推荐给用户。
该步骤具体按如下实施:
(1)、用户提问出问题;
(2)、使用TFIDF算法和Doc2Vec算法从问答数据库中找出匹配度最高的20条答案;
(3)、使用三种特征工程的方法对匹配度最高的20条答案再进行一次相似度计算,三种方法计算方式如下:
a)、计算相同关键词的比例
KeyW1表示提出问题中非重复关键词的个数,KeyW2表示匹配问题中包含提出问题中关键词的个数。则:
Figure BDA0001761759730000051
其中,相同的非重复关键词个数越多,两个问题越相似。
b)、计算句子长度的差异率
Lenl,Len2分别表示提出问题与匹配问题的长度,即两个问题中词的个数。则:
Figure BDA0001761759730000052
其中,两个问题的长度越接近越相似。
c)、计算关键词的顺序
对用户输入问题的关键词排序成自然数序列,找出匹配问题中与输入问题相同的关键词的集合W,W中每个关键词的值为输入问题的自然数序列中对应关键词的值,定义MaxRev为最大逆序数,即关键词的组合数;Rev表示W的逆序数,则:
Figure BDA0001761759730000061
其中,两个问题关键词的顺序越接近越相似。
d)基于这三种特征工程方法得到总的相似度计算方式:
Sim=λ1*WordSim+λ2*LenSim+λ3*OrdSim
其中,λ1、λ2、λ3为系数参数,取值为λ123∈(0-1),且λ123=1。
(4)、基于匹配的问题找到该问题对应的答案推荐给用户。
S4:获取用户对推荐的答案评分,基于该评分优化调整问答模型,使得问答模型匹配出来的结果更加准确。
该系统中,对问答模型进行优化步骤为:
按权重λ1’使用TF-IDF模型选词,其中TF、IDF计算公式如下:
Figure BDA0001761759730000062
Figure BDA0001761759730000063
按权重λ2’使用Doc2Vec模型选词向量,并根据评分,调整λ1’、λ2’在问答模型中的权重:
Sim=λ1′*Simmtfidf2′*Simdoc2vec (式1)
式1中,λ1’、λ2’为系数参数,取值为λ1’、λ2’∈(0-1),且λ1’+λ2’=1。
其中,TF-IDF模型,即词频-逆文件频率。在该项目中,词频指的是将数据库中所有问题进行分词后,每个词在所有词中出现的频率。词的逆文件频率的思想是如果包含该词的问题越少,IDF值越大,说明该词能更好的区分不同问题之间的差异。
Doc2Vec模型匹配与用户输入问题相似度高的问题。Doc2Vec模型的原理和Word2Vec模型的原理相似,并在其基础上加上了一个段落向量。该段落向量可以表达段落的主旨。在本项目中,段落向量就是每个问题向量。在训练过程中,设置窗口大小为3,即每次从问题中取三个词向量输入到模型中进行训练,同时每次训练都会将这个段落向量一并输入进行训练,如此训练不仅考虑了问题上下文内容,同时还考虑了整个问题的含义。能过使得训练出来的词向量更好的表达词的意义。基于该项目数据库中的问题训练出来的词向量,通过计算用户输入的问题和数据库中的问题的余弦相似度,匹配出和输入问题相似度高的问题。
由于TFIDF模型是基于词频等去定义词,而Doc2Vec模型是基于语义去定义词,两个模型有一定的差异性,因此在本发明中,我们将两个模型进行融合,分别给每个模型得到的相似度设置一个权重,计算公式如(式1),基于用户对匹配问题的评分,优化两个模型的权重参数,使得模型匹配出来的结果更加准确。
另外,本发明还提供上述客服方法的系统,其包括:
问答数据库10,其由若干条包括问题111、答案112的问答数据11组成;
问答模型20,所述问答模型针对输入的问答数据11形成映射关系,匹配问答数据11中的问题111及与之对应的答案112;
用户评分单元30,针对用户提出的问题,经问答模型20匹配推荐答案后,经用户评分单元30评分,依据该评分,优化问答模型20。
本发明所提供的技术方案,相比传统的客服,更具智能性,回答更快速高效;可以不断学习调整,使得问答精确度更高,更有利于大规模使用,从而极大地节省了人工客服的成本。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (3)

1.一种智能客服方法,其特征在于,包括以下步骤:
建立问答数据库,其由若干条包括问题、答案的问答数据组成;
建立与问答数据库相关联的问答模型,所述问答模型针对输入的问答数据形成映射关系,匹配问答数据中的问题及与之对应的答案;
用户提出待解答问题,问答模型从问答数据库中找出匹配度最高的N条答案,再使用三种特征工程的方法对N条答案再进行一次相似度计算,给出对应答案推荐给用户;
获取用户对推荐的答案评分,基于该评分优化调整问答模型,使得问答模型匹配出来的结果更加准确;
使用TFIDF算法和Doc2Vec算法从问答数据库中找出匹配度最高的20条答案;
将匹配度最高的20条答案再进行一次相似度计算;
以相似度由高到低的排序将答案推荐给用户;
将匹配度最高的20条答案再进行一次相似度计算的具体方法为:
使用三种特征工程的方法对匹配度最高的20条答案再进行一次相似度计算,三种方法计算方式如下:
(1)、计算相同关键词的比例
KeyW1表示提出问题中非重复关键词的个数,KeyW2表示匹配问题中包含提出问题中关键词的个数;则:
Figure DEST_PATH_FDA0001761759720000021
(2)、计算句子长度的差异率
Len1,Len2分别表示提出问题与匹配问题的长度,即两个问题中词的个数,则:
Figure FDA0003159317900000021
(3)、计算关键词的顺序
对用户输入问题的关键词排序成自然数序列,找出匹配问题中与输入问题相同的关键词的集合W,W中每个关键词的值为输入问题的自然数序列中对应关键词的值,定义MaxRev为最大逆序数,即关键词的组合数;Rev表示W的逆序数,则:
Figure FDA0003159317900000022
(4)基于这三种特征工程方法得到总的相似度计算方式:
Sim=λ1*WordSim+λ2*LenSim+λ3*OrdSim
其中,λ1、λ2、λ3为系数参数,取值为λ123∈(0-1),且λ123=1;该方法还包括问答模型优化的步骤:
按权重λ1’使用TF-IDF模型选词,其中TF、IDF计算公式如下:
Figure FDA0003159317900000023
Figure FDA0003159317900000024
按权重λ2’使用Doc2Vec模型选词向量,并根据评分,调整λ1’、λ2’在问答模型中的权重:
Sim=λ1′*Simtfidf2′*Simdoc2vec
其中,λ1’、λ2’为系数参数,取值为λ1’、λ2’∈(0-1),且λ1’+λ2’=1;
其中,TF-IDF模型,即词频-逆文件频率,词频指的是将数据库中所有问题进行分词后,每个词在所有词中出现的频率;词的逆文件频率的思想是如果包含该词的问题越少,IDF值越大,说明该词能更好的区分不同问题之间的差异;Doc2Vec模型匹配与用户输入问题相似度高的问题;Doc2Vec模型的原理和Word2Vec模型的原理相似,并在其基础上加上了一个段落向量;该段落向量可以表达段落的主旨;段落向量就是每个问题向量;在训练过程中,设置窗口大小为3,即每次从问题中取三个词向量输入到模型中进行训练,同时每次训练都会将这个段落向量一并输入进行训练。
2.根据权利要求1所述的智能客服方法,其特征在于,所述问答数据库可以经由用户批量或逐条导入问答数据建立。
3.根据权利要求1-2任一项所述的智能客服方法的系统,其特征在于,包括:
问答数据库,其由若干条包括问题、答案的问答数据组成;
问答模型,所述问答模型针对输入的问答数据形成映射关系,匹配问答数据中的问题及与之对应的答案。
CN201810910686.6A 2018-08-10 2018-08-10 一种智能客服方法及系统 Active CN109033428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810910686.6A CN109033428B (zh) 2018-08-10 2018-08-10 一种智能客服方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810910686.6A CN109033428B (zh) 2018-08-10 2018-08-10 一种智能客服方法及系统

Publications (2)

Publication Number Publication Date
CN109033428A CN109033428A (zh) 2018-12-18
CN109033428B true CN109033428B (zh) 2021-09-10

Family

ID=64632816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810910686.6A Active CN109033428B (zh) 2018-08-10 2018-08-10 一种智能客服方法及系统

Country Status (1)

Country Link
CN (1) CN109033428B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858863B (zh) * 2019-04-29 2023-07-14 深圳市优必选科技有限公司 一种答复推荐方法、答复推荐装置及电子设备
CN111858887B (zh) * 2020-07-13 2022-09-20 北京航空航天大学 一种机场服务的社区问答系统
CN113327612A (zh) * 2021-05-27 2021-08-31 广州广电运通智能科技有限公司 基于智能点评的语音应答优化方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103005A (zh) * 2016-02-23 2017-08-29 阿里巴巴集团控股有限公司 问答语料的收集方法及装置
CN107305578A (zh) * 2016-04-25 2017-10-31 北京京东尚科信息技术有限公司 人机智能问答方法和装置
CN107844533A (zh) * 2017-10-19 2018-03-27 云南大学 一种智能问答系统及分析方法
CN108108449A (zh) * 2017-12-27 2018-06-01 哈尔滨福满科技有限责任公司 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法
CN108153876A (zh) * 2017-12-26 2018-06-12 爱因互动科技发展(北京)有限公司 智能问答方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2622592A4 (en) * 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
US20170364519A1 (en) * 2016-06-15 2017-12-21 International Business Machines Corporation Automated Answer Scoring Based on Combination of Informativity and Specificity Metrics
CN106469212B (zh) * 2016-09-05 2019-10-15 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
US10699215B2 (en) * 2016-11-16 2020-06-30 International Business Machines Corporation Self-training of question answering system using question profiles

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103005A (zh) * 2016-02-23 2017-08-29 阿里巴巴集团控股有限公司 问答语料的收集方法及装置
CN107305578A (zh) * 2016-04-25 2017-10-31 北京京东尚科信息技术有限公司 人机智能问答方法和装置
CN107844533A (zh) * 2017-10-19 2018-03-27 云南大学 一种智能问答系统及分析方法
CN108153876A (zh) * 2017-12-26 2018-06-12 爱因互动科技发展(北京)有限公司 智能问答方法及系统
CN108108449A (zh) * 2017-12-27 2018-06-01 哈尔滨福满科技有限责任公司 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法

Also Published As

Publication number Publication date
CN109033428A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN106815252B (zh) 一种搜索方法和设备
WO2020119063A1 (zh) 专家知识推荐方法、装置、计算机设备及存储介质
US8589457B1 (en) Training scoring models optimized for highly-ranked results
US10621185B2 (en) Method and apparatus for recalling search result based on neural network
CN106528642B (zh) 一种基于tf-idf特征提取的短文本分类方法
CN106709040B (zh) 一种应用搜索方法和服务器
CN109033428B (zh) 一种智能客服方法及系统
US9589277B2 (en) Search service advertisement selection
Lu et al. Selective transfer learning for cross domain recommendation
CN109447266B (zh) 一种基于大数据的农业科技服务智能分拣方法
US20110289025A1 (en) Learning user intent from rule-based training data
WO2018157625A1 (zh) 基于强化学习的排序学习方法及服务器
CN107832432A (zh) 一种搜索结果排序方法、装置、服务器和存储介质
CN106021364A (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN103064903B (zh) 图片检索方法和装置
WO2011054245A1 (zh) 移动搜索方法、装置和系统
US20030212663A1 (en) Neural network feedback for enhancing text search
CN108664515B (zh) 一种搜索方法及装置,电子设备
CN112084307B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN109359302A (zh) 一种领域化词向量的优化方法及基于其的融合排序方法
US20160098437A1 (en) Information retrieval method and apparatus
CN112862567A (zh) 一种在线展会的展品推荐方法与系统
CN115858731A (zh) 一种法规库法规匹配方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant