CN109033428B

CN109033428B - 一种智能客服方法及系统

Info

Publication number: CN109033428B
Application number: CN201810910686.6A
Authority: CN
Inventors: 邓昕; 王飞; 洪伟俊
Original assignee: Shenzhen Panchuang Network Technology Co ltd
Current assignee: Shenzhen Panchuang Network Technology Co ltd
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2021-09-10
Anticipated expiration: 2038-08-10
Also published as: CN109033428A

Abstract

本发明公开一种智能客服方法及系统，该方法包括以下步骤：建立问答数据库，其由若干条包括问题、答案的问答数据组成；建立与问答数据库相关联的问答模型，所述问答模型针对输入的问答数据形成映射关系，匹配问答数据中的问题及与之对应的答案；用户提出待解答问题，问答模型从问答数据库中找出匹配度最高的N条答案，再使用三种特征工程的方法对N条答案再进行一次相似度计算，给出对应答案推荐给用户；获取用户对推荐的答案评分，基于该评分优化调整问答模型，使得问答模型匹配出来的结果更加准确。本发明相比传统的客服更具智能性，回答更快速高效；可以不断学习调整，使得问答精确度更高，更有利于大规模使用，极大地节省了人工客服的成本。

Description

一种智能客服方法及系统

技术领域

本发明涉及客服问答领域，特别涉及一种智能客服方法及系统。

背景技术

随着商品化的快速发展及信息化的高速推进，产品售前、售后咨询服务在企业在整个商业链中越来越重要，其提供的服务品质好坏极大地影响着消费者的决策，从而也影响着企业营收。

现有的售前、售后咨询服务，大多是借助人工来应对，然而，人工客户既有上班时间的限制，还有回答容量的限制，更为重要的是，在人力成本高昂的今天，会增加企业成本。

因而，现有技术存在问题，需要进一步改进。

发明内容

针对现有技术存在的问题，本发明提供一种智能客服方法及系统，使得现有的客服更具智能性，极大的节约了人工客服资源。

为实现上述目的，本发明的具体技术方案如下：

一种智能客服方法，包括以下步骤：

建立问答数据库，其由若干条包括问题、答案的问答数据组成；

建立与问答数据库相关联的问答模型，所述问答模型针对输入的问答数据形成映射关系，匹配问答数据中的问题及与之对应的答案；

用户提出待解答问题，问答模型从问答数据库中找出匹配度最高的N条答案，再使用三种特征工程的方法对N条答案再进行一次相似度计算，给出对应答案推荐给用户；

获取用户对推荐的答案评分，基于该评分优化调整问答模型，使得问答模型匹配出来的结果更加准确。

作为本发明优选的方案，所述问答模型匹配后给出对应答案具体方法为：

使用TFIDF算法和Doc2Vec算法从问答数据库中找出匹配度最高的20条答案；

将匹配度最高的20条答案再进行一次相似度计算；

以相似度由高到低的排序将答案推荐给用户。

作为本发明优选的方案，将匹配度最高的20条答案再进行一次相似度计算的具体方法为：

使用三种特征工程的方法对匹配度最高的20条答案再进行一次相似度计算，三种方法计算方式如下：

(1)、计算相同关键词的比例

KeyW1表示提出问题中非重复关键词的个数，KeyW2表示匹配问题中包含提出问题中关键词的个数。则：

(2)、计算句子长度的差异率

Lenl，Len2分别表示提出问题与匹配问题的长度，即两个问题中词的个数。则：

(3)、计算关键词的顺序

对用户输入问题的关键词排序成自然数序列，找出匹配问题中与输入问题相同的关键词的集合W，W中每个关键词的值为输入问题的自然数序列中对应关键词的值，定义MaxRev为最大逆序数，即关键词的组合数；Rev表示W的逆序数，则：

(4)基于这三种特征工程方法得到总的相似度计算方式：

Sim＝λ₁*WordSim+λ₂*LenSim+λ₃*OrdSim

其中，λ₁、λ₂、λ₃为系数参数，取值为λ₁/λ₂/λ₃∈(0-1)，且λ₁+λ₂+λ₃＝1。

作为本发明优选的方案，该方法中问答模型优化的步骤：

按权重λ₁’使用TF-IDF模型选词，其中TF、IDF计算公式如下：

按权重λ₂’使用Doc2Vec模型选词向量，并根据评分，调整λ₁’、λ₂’在问答模型中的权重：

Sim＝λ₁′*Sim_tfidf+λ₂′*Sim_doc2vec

作为本发明优选的方案，所述问答数据库可以经由用户批量或逐条导入问答数据建立。

本发明还提供上述客服方法的系统，其包括：

问答数据库，其由若干条包括问题、答案的问答数据组成；

问答模型，所述问答模型针对输入的问答数据形成映射关系，匹配问答数据中的问题及与之对应的答案。

采用本发明的技术方案，具有以下有益效果：

(1)、相比传统的客服，更具智能性，回答更快速高效；

(2)、通过用户评分，可以使得模型融合优化，更好的调整模型，模型更加精确；

(3)、可以不断学习调整，使得问答精确度更高，更有利于大规模使用，从而极大地节省了人工客服的成本。

附图说明

图1为本发明方法的实现流程图；

图2为本发明系统的原理框图。

具体实施方式

以下结合附图和具体实施例，对本发明进一步说明。

参照图1所示，本发明提供一种智能客服方法，包括以下步骤：

S1：建立问答数据库，其由若干条包括问题、答案的问答数据组成；

此步骤可以由用户导入问答数据来完成，用户导入问答数据的方式有两种方式，分别是批量导入或逐条导入问答数据。用户导入的数据将会保存到用户对应的数据库表中。另外，用户也可以选择不导入数据，直接使用系统中的数据。

S2：建立与问答数据库相关联的问答模型，所述问答模型针对输入的问答数据形成映射关系，匹配问答数据中的问题及与之对应的答案；

上步之后，用户导入数据后可以重新训练模型，使得模型能够更加准确匹配用户的用户所提的问题。同样的用户也可以不重新训练模型，使用原有模型进行匹配问题。

S3：用户提出待解答问题，问答模型从问答数据库中找出匹配度最高的N条答案，再使用三种特征工程的方法对N条答案再进行一次相似度计算，给出对应答案推荐给用户。

该步骤具体按如下实施：

(1)、用户提问出问题；

(2)、使用TFIDF算法和Doc2Vec算法从问答数据库中找出匹配度最高的20条答案；

(3)、使用三种特征工程的方法对匹配度最高的20条答案再进行一次相似度计算，三种方法计算方式如下：

a)、计算相同关键词的比例

其中，相同的非重复关键词个数越多，两个问题越相似。

b)、计算句子长度的差异率

其中，两个问题的长度越接近越相似。

c)、计算关键词的顺序

其中，两个问题关键词的顺序越接近越相似。

d)基于这三种特征工程方法得到总的相似度计算方式：

Sim＝λ₁*WordSim+λ₂*LenSim+λ₃*OrdSim

(4)、基于匹配的问题找到该问题对应的答案推荐给用户。

S4：获取用户对推荐的答案评分，基于该评分优化调整问答模型，使得问答模型匹配出来的结果更加准确。

该系统中，对问答模型进行优化步骤为：

按权重λ₁’使用TF-IDF模型选词，其中TF、IDF计算公式如下：

Sim＝λ₁′*Simm_tfidf+λ₂′*Sim_doc2vec (式1)

式1中，λ₁’、λ₂’为系数参数，取值为λ₁’、λ₂’∈(0-1)，且λ₁’+λ₂’＝1。

其中，TF-IDF模型，即词频-逆文件频率。在该项目中，词频指的是将数据库中所有问题进行分词后，每个词在所有词中出现的频率。词的逆文件频率的思想是如果包含该词的问题越少，IDF值越大，说明该词能更好的区分不同问题之间的差异。

Doc2Vec模型匹配与用户输入问题相似度高的问题。Doc2Vec模型的原理和Word2Vec模型的原理相似，并在其基础上加上了一个段落向量。该段落向量可以表达段落的主旨。在本项目中，段落向量就是每个问题向量。在训练过程中，设置窗口大小为3，即每次从问题中取三个词向量输入到模型中进行训练，同时每次训练都会将这个段落向量一并输入进行训练，如此训练不仅考虑了问题上下文内容，同时还考虑了整个问题的含义。能过使得训练出来的词向量更好的表达词的意义。基于该项目数据库中的问题训练出来的词向量，通过计算用户输入的问题和数据库中的问题的余弦相似度，匹配出和输入问题相似度高的问题。

由于TFIDF模型是基于词频等去定义词，而Doc2Vec模型是基于语义去定义词，两个模型有一定的差异性，因此在本发明中，我们将两个模型进行融合，分别给每个模型得到的相似度设置一个权重，计算公式如(式1)，基于用户对匹配问题的评分，优化两个模型的权重参数，使得模型匹配出来的结果更加准确。

另外，本发明还提供上述客服方法的系统，其包括：

问答数据库10，其由若干条包括问题111、答案112的问答数据11组成；

问答模型20，所述问答模型针对输入的问答数据11形成映射关系，匹配问答数据11中的问题111及与之对应的答案112；

用户评分单元30，针对用户提出的问题，经问答模型20匹配推荐答案后，经用户评分单元30评分，依据该评分，优化问答模型20。

本发明所提供的技术方案，相比传统的客服，更具智能性，回答更快速高效；可以不断学习调整，使得问答精确度更高，更有利于大规模使用，从而极大地节省了人工客服的成本。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种智能客服方法，其特征在于，包括以下步骤：

获取用户对推荐的答案评分，基于该评分优化调整问答模型，使得问答模型匹配出来的结果更加准确；

将匹配度最高的20条答案再进行一次相似度计算；

以相似度由高到低的排序将答案推荐给用户；

将匹配度最高的20条答案再进行一次相似度计算的具体方法为：

(1)、计算相同关键词的比例

KeyW1表示提出问题中非重复关键词的个数，KeyW2表示匹配问题中包含提出问题中关键词的个数；则：

(2)、计算句子长度的差异率

Len1，Len2分别表示提出问题与匹配问题的长度，即两个问题中词的个数，则：

(3)、计算关键词的顺序

(4)基于这三种特征工程方法得到总的相似度计算方式：

Sim＝λ₁*WordSim+λ₂*LenSim+λ₃*OrdSim

其中，λ₁、λ₂、λ₃为系数参数，取值为λ₁/λ₂/λ₃∈(0-1)，且λ₁+λ₂+λ₃＝1；该方法还包括问答模型优化的步骤：

按权重λ₁’使用TF-IDF模型选词，其中TF、IDF计算公式如下：

Sim＝λ₁′*Sim_tfidf+λ₂′*Sim_doc2vec

其中，λ₁’、λ₂’为系数参数，取值为λ₁’、λ₂’∈(0-1)，且λ₁’+λ₂’＝1；

其中，TF-IDF模型，即词频-逆文件频率，词频指的是将数据库中所有问题进行分词后，每个词在所有词中出现的频率；词的逆文件频率的思想是如果包含该词的问题越少，IDF值越大，说明该词能更好的区分不同问题之间的差异；Doc2Vec模型匹配与用户输入问题相似度高的问题；Doc2Vec模型的原理和Word2Vec模型的原理相似，并在其基础上加上了一个段落向量；该段落向量可以表达段落的主旨；段落向量就是每个问题向量；在训练过程中，设置窗口大小为3，即每次从问题中取三个词向量输入到模型中进行训练，同时每次训练都会将这个段落向量一并输入进行训练。

2.根据权利要求1所述的智能客服方法，其特征在于，所述问答数据库可以经由用户批量或逐条导入问答数据建立。

3.根据权利要求1-2任一项所述的智能客服方法的系统，其特征在于，包括：

问答数据库，其由若干条包括问题、答案的问答数据组成；