CN112000782A

CN112000782A - 一种基于k-means聚类算法的智能客服问答系统

Info

Publication number: CN112000782A
Application number: CN202010763828.8A
Authority: CN
Inventors: 赵炜; 成思远; 宋峥峥; 张冬亚; 殷娣娣; 刘惠; 刁首人; 赵小萌; 李丹; 庄磊; 王尧; 赵继生
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Priority date: 2020-08-01
Filing date: 2020-08-01
Publication date: 2020-11-27

Abstract

本发明涉及智能客服技术领域，且公开了一种基于k‑means聚类算法的智能客服问答系统，包括以下步骤：1)用户意图理解，获得用户问题，确定客户问题的焦点；2)根据客户问题的焦点，快速定位，对文本进行向量空间表示与特征向量的选择与权重计算，本发明的优点在于：通过焦点快速定位，对文本进行向量空间表示与特征向量的选择与权重计算，并且向量空间模型为文本中提取其特征项组成特征向量，并以某种方式为特征项赋权，向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权，能够使智能客服快速的获知用户所提出的问题，通过知识库将准确的回答用户问题，并且会收入该问题，完成自我学习，提升了问答精准度。

Description

一种基于k-means聚类算法的智能客服问答系统

技术领域

本发明涉及智能客服技术领域，具体为一种基于k-means聚类算法的智能客服问答系统。

背景技术

近年来，随着电网业务快速发展，企业级关键应用系统规模和业务功能持续扩充、用户规模的急剧增长，广大用户对业务咨询、问题投诉等方面的服务需求也显著增加，导致运维客户服务的压力随之加大。2019年公司“三型两网、世界一流”战略目标的确立，将会带来影响电网公司信息化发展的新一波浪潮，可以预见未来对信通客服能力的要求会达到一个新的层面。而同时，一方面静态的FAQ方式难以给用户快速准确的解答，一方面人工服务却需要经常进行简单重复性的回复。当前河北信息通信客服主要是通过186客服电话为全体电力员工提供各类系统运维支撑服务，日均电话量600通，业务高峰期话务量1200通，业务高峰期由于客服坐席接听量有限，弃话率较高。与此同时，人们越来越依靠互联网获取相关信息，如何准确高效地从大量信息中获取所需知识成为亟待解决的问题。传统的做法可能是询问业务人员、查看相关文档或者直接利用搜索引擎搜索答案。但是这些方式往往存在着获取知识耗时较长，所得知识不精确的问题，因此本发明提出一种基于k-means聚类算法的智能客服问答系统，用于解决上述问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于k-means聚类算法的智能客服问答系统，具备问答精准等优点，解决了获取知识耗时较长，知识不精确的问题。

(二)技术方案

为实现上述问答精准目的，本发明提供如下技术方案：一种基于 k-means聚类算法的智能客服问答系统，包括以下步骤：

1)用户意图理解，获得用户问题，确定客户问题的焦点；

2)根据客户问题的焦点，快速定位，对文本进行向量空间表示与特征向量的选择与权重计算；

3)计算查询向量与文本向量的相似度；

4)对语义相似度进行计算；

5)得出计算结果后根据问题内容设置算法设计策略；

6)构建知识库标准体系，并根据知识库内容回答客户问题，并记录客户问题到知识库，完成自我学习

优选的，所述步骤1)中的焦点通过专有名词和名词短语的识别，并结合词性标注技术，去除语气词,助词等无意义词汇，结合对句子主干的分析和理解，对问句的焦点和核心成分进行标记和提取。

优选的，所述步骤1)通过同义词与问题的类型对问句进行扩展和深层理解，所述步骤1)中根据用户问句中的关键词对知识库文档的各个段落进行索引

优选的，所述步骤2)中向量空间模型为文本中提取其特征项组成特征向量，并以某种方式为特征项赋权。

优选的，所述步骤3)中对查询向量与文本向量相似度的计算公式使用向量距离计算公式与向量余弦距离计算公式。

优选的，所述步骤4)中对语义相似度进行计算的方法选用统计学习法、语义词典法与编辑距离法，所述统计学习法使用skip-gram 模型和Negative Sampling算法。

优选的，所述步骤4)中语义相似度的计算分为句子相似度计算与段落相似度计算，所述句子相似度计算采用TF-IDF算法与N-Gram 语言模型，所述段落相似度计算采用加权二部图匹配算法与机器学习算法doc2vect，所述TF-IDF算法是基于词频统计的文本相似度计算方法，所述TF-IDF算法待计算相似度的两句话用词越相似，它们描述同一概念的可能性就越大，所述TF-IDF算法通过分词，列出所有的词语，然后计算词频，写出词频向量，计算两个句子相似度的问题就转化成计算空间中两个向量的余弦值，所述向量的两条线段之间形成一个夹角，我们可以通过向量夹角的大小，来判断句子的相似程度，夹角越小，句子相似度就越高，所述N-Gram语言模型本身用来预测在已知某个字符串的情况下，下一个位置出现某个词语的概率，常用来判断某个句子的写法是否符合规范。

优选的，所述步骤5)中算法设计策略包括有分治法、动态规划法与贪心算法，所述分治法是将一个难以直接解决的大问题，分割成一些规模较小的相同问题，以便各个击破，分而治之，所述分治法的策略是：对于一个规模为n的问题，若该问题可以容易地解决(比如说规模n较小)则直接解决，否则将其分解为k个规模较小的子问题，这些子问题互相独立且与原问题形式相同，递归地解这些子问题，然后将各子问题的解合并得到原问题的解，所述动态规划法所处理的问题是一个多阶段决策问题，一般由初始状态开始，通过对中间阶段决策的选择，达到结束状态，这些决策形成了一个决策序列，同时确定了完成整个过程的一条活动路线，通常是求最优的活动路线。

优选的，所述步骤2)中对于向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权，所述特征项选择由处理速度、精度、存储空间等方面的具体要求来决定，所述特征项赋权同时包含提高查全率和查准率的赋权因子。

优选的，所述步骤1)中依照文本片断索引提取候选文文件片断，并按照其与用户问句的相关性进行排序。

(三)有益效果

与现有技术相比，本发明提供了一种基于k-means聚类算法的智能客服问答系统，具备以下有益效果：

该基于k-means聚类算法的智能客服问答系统，通过焦点快速定位，对文本进行向量空间表示与特征向量的选择与权重计算，并且向量空间模型为文本中提取其特征项组成特征向量，并以某种方式为特征项赋权，向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权，特征项选择由处理速度、精度、存储空间等方面的具体要求来决定，特征项赋权同时包含提高查全率和查准率的赋权因子，同时计算查询向量与文本向量的相似度，对语义相似度进行计算，并且构建知识库标准体系，并根据知识库内容回答客户问题，并记录客户问题到知识库，完成自我学习，能够使智能客服快速的获知用户所提出的问题，通过知识库将准确的回答用户问题，并且会收入该问题，完成自我学习，大大提高了客服工作效率，提升了问答精准度。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：一种基于k-means聚类算法的智能客服问答系统，包括以下步骤：

1)用户意图理解，获得用户问题，确定客户问题的焦点，问句焦点是指问句中核心的句法和语义成分，通常表现为专有名词或者名词短语。对问题焦点的识别是用户问句处理的关键所在。我们通过专有名词和名词短语的识别，并结合词性标注技术，去除语气词,助词等无意义词汇，结合对句子主干的分析和理解，对问句的焦点和核心成分进行标记和提取，问句的扩展和深层理解对问句的扩展主要有两种方法：一个是根据同义词进行扩展，一个是根据问题的类型进行扩展。为了确保输入问句的信息不被改变，根据同义词对问句进行扩展时，要求扩展词与被扩展词之间意义必须完全一样，为了保证问句扩展的有效性，必须引入词义消歧技术。根据问题类型的扩展，主要根据问题所属的类别使用该类别相应的词来表达问题中的隐含的、潜在的信息，从而引导系统有针对性地在文本中挖掘答案，问答对数据的索引文本片断索引根据用户问句中的关键词对知识库文档的各个段落进行索引，其核心是信息检索的搜索引擎。它接受用户问句，依照文本片断索引提取候选文文件片断，并按照其与用户问句的相关性进行排序；

2)根据客户问题的焦点，快速定位，对文本进行向量空间表示与特征向量的选择与权重计算，对于计算机来说，中文文本就是由汉字和标点符号等最基本的语言符号组成的字符串，由字构成词，由词构成短语，进而形成句、段、节、章、篇等语言结构。用尽量简单并且准确的方法表示文档，是进行文本检索的前提；

3)计算查询向量与文本向量的相似度，语义相似度计算算法研究是语义搜索引擎的核心，语义分为词语、句子、段落三个层次，词语层次有语义字典，针对句子和段落层次，基于加权二部图匹配的中文段落相似度计算算法，可使段落相似度计算准确度有了很大提升。词语、句子、段落三个层次又分别有相应的计算方法；

4)对语义相似度进行计算，基于语义字典的方法。常用的语义字典有HowNet(知网字典)和同义词词林。知网是一个常识知识库，它以概念为描述对象，概念表示中文和英文词语的多种语义。知网用来揭示概念与概念之间或者概念所具有的属性之间的基本关系。汉语中，每个词语都有若干概念组成，每个概念确定一个语义方向，而概念又是由多个义原构成，所有义原都是通过上下位关系组织成为一个树状义原层次体系，这是词语语义相似度计算的基础；

5)得出计算结果后根据问题内容设置算法设计策略；

6)构建知识库标准体系，并根据知识库内容回答客户问题，并记录客户问题到知识库，完成自我学习，标签只是一种内容组织方式，是一种关联性很强的关键字，能很方便的帮助我们找到合适的内容及内容分类。标签解决的是描述(或命名)的问题，但在实际应用中，还需要解决数据之间的关联。所以，我们通常将标签作为一个体系来设计，从而解决数据之间的关联问题。一般来说，将能关联到具体用户数据的标签，称为叶子标签。对叶子标签进行分类汇总的标签，称为父标签。父标签和叶子标签共同构成标签体系，但两者是相对概念，要做标签体系，我们要先确定的就是系统结构，常规来看一般都是讲标签随内容或用户建设。在确定系统结构之后，我们要进行相关的算法选择，并且大致选定学习的范围和地点，以供机器学习，至此整个标签体系的搭建流程就此完毕。随着不断的内容填充进来，要有相应的标签不断补充进来，常规网络的标签是随用户和内容添加的，但是会有局限性，也就是标签体系较难或无法透彻追查其它相关联内容。实际上标签体系的核心价值，体现在相应建立起信息和人、人与人之间的关联。有一个常规方案就是单独建立标签体系，将标签平铺于系统中，也就是二维化。通过机器学习，建立标签的基本联系网络，之后贴合于用户与内容中即可。无立体结构的上下层级展示，好处是可以避免了一维化的后果。换句话说如果有层级，那么不可避免的就会变成一级、二级。

步骤1)中的焦点通过专有名词和名词短语的识别，并结合词性标注技术，去除语气词,助词等无意义词汇，结合对句子主干的分析和理解，对问句的焦点和核心成分进行标记和提取，语义相似度计算算法研究是语义搜索引擎的核心，语义分为词语、句子、段落三个层次，词语层次有语义字典，针对句子和段落层次，基于加权二部图匹配的中文段落相似度计算算法，可使段落相似度计算准确度有了很大提升。词语、句子、段落三个层次又分别有相应的计算方法。

步骤1)通过同义词与问题的类型对问句进行扩展和深层理解，步骤1)中根据用户问句中的关键词对知识库文档的各个段落进行索引，步骤1)中依照文本片断索引提取候选文文件片断，并按照其与用户问句的相关性进行排序。

步骤2)中向量空间模型为文本中提取其特征项组成特征向量，并以某种方式为特征项赋权，步骤2)中对于向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权，特征项选择由处理速度、精度、存储空间等方面的具体要求来决定，特征项赋权同时包含提高查全率和查准率的赋权因子。

步骤3)中对查询向量与文本向量相似度的计算公式使用向量距离计算公式与向量余弦距离计算公式，公式具体如下：

步骤4)中对语义相似度进行计算的方法选用统计学习法、语义词典法与编辑距离法，统计学习法使用skip-gram模型和Negative Sampling算法。

步骤4)中语义相似度的计算分为句子相似度计算与段落相似度计算，句子相似度计算采用TF-IDF算法与N-Gram语言模型，段落相似度计算采用加权二部图匹配算法与机器学习算法doc2vect，

TF-IDF算法是基于词频统计的文本相似度计算方法。待计算相似度的两句话用词越相似，它们描述同一概念的可能性就越大。通过分词，列出所有的词语，然后计算词频，写出词频向量，计算两个句子相似度的问题就转化成计算空间中两个向量的余弦值。向量的两条线段之间形成一个夹角，我们可以通过向量夹角的大小，来判断句子的相似程度，夹角越小，句子相似度就越高。在n维向量空间中，A 是[A1,A2,...,An]，B是[B1,B2,...,Bn]，则A与B的夹角 θ的余弦计算公式如下：

N-Gram语言模型本身用来预测在已知某个字符串的情况下，下一个位置出现某个词语的概率，常用来判断某个句子的写法是否符合规范。如果我们有一个由m个词组成的序列(或者说一个句子)，我们希望算得概率123(......)m P W，W，W W，根据链式规则，可得：

P(w₁，w₂，…，w_m)＝P(w₁)P(w₂|w₁)P(w₃|w₁，w₂)P(w_m|w₁，…，w_m-1)

加权二部图匹配算法对于段落的相似度计算代表性的方法是采用向量空间模型(Vector Space Model)来实现。VSM就是把段落中的一个词语视为空间中的一个维度。这样就把一个段落表示成为一个n 维的间向量。所以可以利用向量间的夹角余弦来衡量两个段落间的相似性。

机器学习算法doc2vect把抽象的自然语言转化成能够让计算机处理的格式，首先就是找到一种方法让复杂的自然语言符号二进制化，让机器学习算法能够识别。自然语言处理到目前使用最为广泛的文本向量化方法为One-hot Representation，这种方法把文本中每个词汇都表示成N维向量。这个向量的维度是词表大小，其中大部分维度的值都是0，只有一个维度的值为1，这个维度就代表了当前的词汇。这种方法很明显的缺点就是词与词之间都是孤立的，违背自然语言的本身特点；词表如果太大，比如几万到几十万，那么每个词向量维度都会高达几万到几十万。对后期词向量的数学运算就会力不从心。既然上述这种易于理解的One-hot Representation词向量表示方式具有这样的重要缺陷，那么就需要一种既能表示词本身又可以考虑语义距离的词向量表示方法——词嵌入，常规机器训练流程是：先确定方法→训练集→特征选取→训练→分类器；分类：新样本→特征选取→ 分类→判决。

步骤5)中算法设计策略包括有分治法、动态规划法与贪心算法，

分治法是将一个难以直接解决的大问题，分割成一些规模较小的相同问题，以便各个击破，分而治之，分治法的策略是：对于一个规模为n的问题，若该问题可以容易地解决(比如说规模n较小)则直接解决，否则将其分解为k个规模较小的子问题，这些子问题互相独立且与原问题形式相同，递归地解这些子问题，然后将各子问题的解合并得到原问题的解。这种算法设计策略叫做分治法。

动态规划法所处理的问题是一个多阶段决策问题，一般由初始状态开始，通过对中间阶段决策的选择，达到结束状态。这些决策形成了一个决策序列，同时确定了完成整个过程的一条活动路线，通常是求最优的活动路线。

贪心算法基本思路如下：

1.建立数学模型来描述问题；

2.把求解的问题分成若干个子问题；

3.对每一子问题求解，得到子问题的局部最优解；

4.把子问题的解局部最优解合成原来解问题的一个解。

本发明的有益效果是：通过焦点快速定位，对文本进行向量空间表示与特征向量的选择与权重计算，并且向量空间模型为文本中提取其特征项组成特征向量，并以某种方式为特征项赋权，向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权，特征项选择由处理速度、精度、存储空间等方面的具体要求来决定，特征项赋权同时包含提高查全率和查准率的赋权因子，同时计算查询向量与文本向量的相似度，对语义相似度进行计算，并且构建知识库标准体系，并根据知识库内容回答客户问题，并记录客户问题到知识库，完成自我学习，能够使智能客服快速的获知用户所提出的问题，通过知识库将准确的回答用户问题，并且会收入该问题，完成自我学习，大大提高了客服工作效率，提升了问答精准度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于k-means聚类算法的智能客服问答系统，其特征在于，包括以下步骤：

1)用户意图理解，获得用户问题，确定客户问题的焦点；

3)计算查询向量与文本向量的相似度；

4)对语义相似度进行计算；

5)得出计算结果后根据问题内容设置算法设计策略；

6)构建知识库标准体系，并根据知识库内容回答客户问题，并记录客户问题到知识库，完成自我学习。

2.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统，其特征在于，所述步骤1)中的焦点通过专有名词和名词短语的识别，并结合词性标注技术，去除语气词,助词等无意义词汇，结合对句子主干的分析和理解，对问句的焦点和核心成分进行标记和提取。

3.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统，其特征在于，所述步骤1)通过同义词与问题的类型对问句进行扩展和深层理解，所述步骤1)中根据用户问句中的关键词对知识库文档的各个段落进行索引。

4.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统，其特征在于，所述步骤2)中向量空间模型为文本中提取其特征项组成特征向量，并以某种方式为特征项赋权。

5.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统，其特征在于，所述步骤3)中对查询向量与文本向量相似度的计算公式使用向量距离计算公式与向量余弦距离计算公式。

6.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统，其特征在于，所述步骤4)中对语义相似度进行计算的方法选用统计学习法、语义词典法与编辑距离法，所述统计学习法使用skip-gram模型和Negative Sampling算法。

7.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统，其特征在于，所述步骤4)中语义相似度的计算分为句子相似度计算与段落相似度计算，所述句子相似度计算采用TF-IDF算法与N-Gram语言模型，所述段落相似度计算采用加权二部图匹配算法与机器学习算法doc2vect。

8.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统，其特征在于，所述步骤5)中算法设计策略包括有分治法、动态规划法与贪心算法。

9.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统，其特征在于，所述步骤2)中对于向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权，所述特征项选择由处理速度、精度、存储空间等方面的具体要求来决定，所述特征项赋权同时包含提高查全率和查准率的赋权因子。

10.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统，其特征在于，所述步骤1)中依照文本片断索引提取候选文文件片断，并按照其与用户问句的相关性进行排序。