CN112000782A - 一种基于k-means聚类算法的智能客服问答系统 - Google Patents
一种基于k-means聚类算法的智能客服问答系统 Download PDFInfo
- Publication number
- CN112000782A CN112000782A CN202010763828.8A CN202010763828A CN112000782A CN 112000782 A CN112000782 A CN 112000782A CN 202010763828 A CN202010763828 A CN 202010763828A CN 112000782 A CN112000782 A CN 112000782A
- Authority
- CN
- China
- Prior art keywords
- vector
- feature
- text
- question
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 46
- 238000003064 k means clustering Methods 0.000 title claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 40
- 238000013461 design Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 239000008358 core component Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及智能客服技术领域,且公开了一种基于k‑means聚类算法的智能客服问答系统,包括以下步骤:1)用户意图理解,获得用户问题,确定客户问题的焦点;2)根据客户问题的焦点,快速定位,对文本进行向量空间表示与特征向量的选择与权重计算,本发明的优点在于:通过焦点快速定位,对文本进行向量空间表示与特征向量的选择与权重计算,并且向量空间模型为文本中提取其特征项组成特征向量,并以某种方式为特征项赋权,向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权,能够使智能客服快速的获知用户所提出的问题,通过知识库将准确的回答用户问题,并且会收入该问题,完成自我学习,提升了问答精准度。
Description
技术领域
本发明涉及智能客服技术领域,具体为一种基于k-means聚类算 法的智能客服问答系统。
背景技术
近年来,随着电网业务快速发展,企业级关键应用系统规模和业 务功能持续扩充、用户规模的急剧增长,广大用户对业务咨询、问题 投诉等方面的服务需求也显著增加,导致运维客户服务的压力随之加 大。2019年公司“三型两网、世界一流”战略目标的确立,将会带 来影响电网公司信息化发展的新一波浪潮,可以预见未来对信通客服 能力的要求会达到一个新的层面。而同时,一方面静态的FAQ方式难 以给用户快速准确的解答,一方面人工服务却需要经常进行简单重复 性的回复。当前河北信息通信客服主要是通过186客服电话为全体电 力员工提供各类系统运维支撑服务,日均电话量600通,业务高峰期 话务量1200通,业务高峰期由于客服坐席接听量有限,弃话率较高。 与此同时,人们越来越依靠互联网获取相关信息,如何准确高效地从 大量信息中获取所需知识成为亟待解决的问题。传统的做法可能是询 问业务人员、查看相关文档或者直接利用搜索引擎搜索答案。但是这些方式往往存在着获取知识耗时较长,所得知识不精确的问题,因此 本发明提出一种基于k-means聚类算法的智能客服问答系统,用于解 决上述问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于k-means聚类算法 的智能客服问答系统,具备问答精准等优点,解决了获取知识耗时较 长,知识不精确的问题。
(二)技术方案
为实现上述问答精准目的,本发明提供如下技术方案:一种基于 k-means聚类算法的智能客服问答系统,包括以下步骤:
1)用户意图理解,获得用户问题,确定客户问题的焦点;
2)根据客户问题的焦点,快速定位,对文本进行向量空间表示 与特征向量的选择与权重计算;
3)计算查询向量与文本向量的相似度;
4)对语义相似度进行计算;
5)得出计算结果后根据问题内容设置算法设计策略;
6)构建知识库标准体系,并根据知识库内容回答客户问题,并 记录客户问题到知识库,完成自我学习
优选的,所述步骤1)中的焦点通过专有名词和名词短语的识别, 并结合词性标注技术,去除语气词,助词等无意义词汇,结合对句子 主干的分析和理解,对问句的焦点和核心成分进行标记和提取。
优选的,所述步骤1)通过同义词与问题的类型对问句进行扩展 和深层理解,所述步骤1)中根据用户问句中的关键词对知识库文档 的各个段落进行索引
优选的,所述步骤2)中向量空间模型为文本中提取其特征项组 成特征向量,并以某种方式为特征项赋权。
优选的,所述步骤3)中对查询向量与文本向量相似度的计算公 式使用向量距离计算公式与向量余弦距离计算公式。
优选的,所述步骤4)中对语义相似度进行计算的方法选用统计 学习法、语义词典法与编辑距离法,所述统计学习法使用skip-gram 模型和Negative Sampling算法。
优选的,所述步骤4)中语义相似度的计算分为句子相似度计算 与段落相似度计算,所述句子相似度计算采用TF-IDF算法与N-Gram 语言模型,所述段落相似度计算采用加权二部图匹配算法与机器学习 算法doc2vect,所述TF-IDF算法是基于词频统计的文本相似度计算 方法,所述TF-IDF算法待计算相似度的两句话用词越相似,它们描 述同一概念的可能性就越大,所述TF-IDF算法通过分词,列出所有 的词语,然后计算词频,写出词频向量,计算两个句子相似度的问题 就转化成计算空间中两个向量的余弦值,所述向量的两条线段之间形 成一个夹角,我们可以通过向量夹角的大小,来判断句子的相似程度, 夹角越小,句子相似度就越高,所述N-Gram语言模型本身用来预测 在已知某个字符串的情况下,下一个位置出现某个词语的概率,常用 来判断某个句子的写法是否符合规范。
优选的,所述步骤5)中算法设计策略包括有分治法、动态规划 法与贪心算法,所述分治法是将一个难以直接解决的大问题,分割成 一些规模较小的相同问题,以便各个击破,分而治之,所述分治法的 策略是:对于一个规模为n的问题,若该问题可以容易地解决(比如 说规模n较小)则直接解决,否则将其分解为k个规模较小的子问题, 这些子问题互相独立且与原问题形式相同,递归地解这些子问题,然 后将各子问题的解合并得到原问题的解,所述动态规划法所处理的问 题是一个多阶段决策问题,一般由初始状态开始,通过对中间阶段决 策的选择,达到结束状态,这些决策形成了一个决策序列,同时确定 了完成整个过程的一条活动路线,通常是求最优的活动路线。
优选的,所述步骤2)中对于向量空间表示与特征向量的选择与 权重计算包括特征项选择与特征项赋权,所述特征项选择由处理速度、 精度、存储空间等方面的具体要求来决定,所述特征项赋权同时包含 提高查全率和查准率的赋权因子。
优选的,所述步骤1)中依照文本片断索引提取候选文文件片断, 并按照其与用户问句的相关性进行排序。
(三)有益效果
与现有技术相比,本发明提供了一种基于k-means聚类算法的智 能客服问答系统,具备以下有益效果:
该基于k-means聚类算法的智能客服问答系统,通过焦点快速定 位,对文本进行向量空间表示与特征向量的选择与权重计算,并且向 量空间模型为文本中提取其特征项组成特征向量,并以某种方式为特 征项赋权,向量空间表示与特征向量的选择与权重计算包括特征项选 择与特征项赋权,特征项选择由处理速度、精度、存储空间等方面的 具体要求来决定,特征项赋权同时包含提高查全率和查准率的赋权因 子,同时计算查询向量与文本向量的相似度,对语义相似度进行计算, 并且构建知识库标准体系,并根据知识库内容回答客户问题,并记录 客户问题到知识库,完成自我学习,能够使智能客服快速的获知用户 所提出的问题,通过知识库将准确的回答用户问题,并且会收入该问 题,完成自我学习,大大提高了客服工作效率,提升了问答精准度。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施 例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于 本发明保护的范围。
实施例:一种基于k-means聚类算法的智能客服问答系统,包括 以下步骤:
1)用户意图理解,获得用户问题,确定客户问题的焦点,问句 焦点是指问句中核心的句法和语义成分,通常表现为专有名词或者名 词短语。对问题焦点的识别是用户问句处理的关键所在。我们通过专 有名词和名词短语的识别,并结合词性标注技术,去除语气词,助词 等无意义词汇,结合对句子主干的分析和理解,对问句的焦点和核心 成分进行标记和提取,问句的扩展和深层理解对问句的扩展主要有两 种方法:一个是根据同义词进行扩展,一个是根据问题的类型进行扩 展。为了确保输入问句的信息不被改变,根据同义词对问句进行扩展 时,要求扩展词与被扩展词之间意义必须完全一样,为了保证问句扩 展的有效性,必须引入词义消歧技术。根据问题类型的扩展,主要根 据问题所属的类别使用该类别相应的词来表达问题中的隐含的、潜在 的信息,从而引导系统有针对性地在文本中挖掘答案,问答对数据的 索引文本片断索引根据用户问句中的关键词对知识库文档的各个段 落进行索引,其核心是信息检索的搜索引擎。它接受用户问句,依照 文本片断索引提取候选文文件片断,并按照其与用户问句的相关性进 行排序;
2)根据客户问题的焦点,快速定位,对文本进行向量空间表示 与特征向量的选择与权重计算,对于计算机来说,中文文本就是由汉 字和标点符号等最基本的语言符号组成的字符串,由字构成词,由词 构成短语,进而形成句、段、节、章、篇等语言结构。用尽量简单并 且准确的方法表示文档,是进行文本检索的前提;
3)计算查询向量与文本向量的相似度,语义相似度计算算法研 究是语义搜索引擎的核心,语义分为词语、句子、段落三个层次,词 语层次有语义字典,针对句子和段落层次,基于加权二部图匹配的中 文段落相似度计算算法,可使段落相似度计算准确度有了很大提升。 词语、句子、段落三个层次又分别有相应的计算方法;
4)对语义相似度进行计算,基于语义字典的方法。常用的语义 字典有HowNet(知网字典)和同义词词林。知网是一个常识知识库, 它以概念为描述对象,概念表示中文和英文词语的多种语义。知网用 来揭示概念与概念之间或者概念所具有的属性之间的基本关系。汉语 中,每个词语都有若干概念组成,每个概念确定一个语义方向,而概 念又是由多个义原构成,所有义原都是通过上下位关系组织成为一个 树状义原层次体系,这是词语语义相似度计算的基础;
5)得出计算结果后根据问题内容设置算法设计策略;
6)构建知识库标准体系,并根据知识库内容回答客户问题,并 记录客户问题到知识库,完成自我学习,标签只是一种内容组织方式, 是一种关联性很强的关键字,能很方便的帮助我们找到合适的内容及 内容分类。标签解决的是描述(或命名)的问题,但在实际应用中,还 需要解决数据之间的关联。所以,我们通常将标签作为一个体系来设 计,从而解决数据之间的关联问题。一般来说,将能关联到具体用户 数据的标签,称为叶子标签。对叶子标签进行分类汇总的标签,称为 父标签。父标签和叶子标签共同构成标签体系,但两者是相对概念, 要做标签体系,我们要先确定的就是系统结构,常规来看一般都是讲 标签随内容或用户建设。在确定系统结构之后,我们要进行相关的算 法选择,并且大致选定学习的范围和地点,以供机器学习,至此整个 标签体系的搭建流程就此完毕。随着不断的内容填充进来,要有相应 的标签不断补充进来,常规网络的标签是随用户和内容添加的,但是会有局限性,也就是标签体系较难或无法透彻追查其它相关联内容。 实际上标签体系的核心价值,体现在相应建立起信息和人、人与人之 间的关联。有一个常规方案就是单独建立标签体系,将标签平铺于系 统中,也就是二维化。通过机器学习,建立标签的基本联系网络,之 后贴合于用户与内容中即可。无立体结构的上下层级展示,好处是可 以避免了一维化的后果。换句话说如果有层级,那么不可避免的就会 变成一级、二级。
步骤1)中的焦点通过专有名词和名词短语的识别,并结合词性 标注技术,去除语气词,助词等无意义词汇,结合对句子主干的分析 和理解,对问句的焦点和核心成分进行标记和提取,语义相似度计算 算法研究是语义搜索引擎的核心,语义分为词语、句子、段落三个层 次,词语层次有语义字典,针对句子和段落层次,基于加权二部图匹 配的中文段落相似度计算算法,可使段落相似度计算准确度有了很大 提升。词语、句子、段落三个层次又分别有相应的计算方法。
步骤1)通过同义词与问题的类型对问句进行扩展和深层理解, 步骤1)中根据用户问句中的关键词对知识库文档的各个段落进行索 引,步骤1)中依照文本片断索引提取候选文文件片断,并按照其与 用户问句的相关性进行排序。
步骤2)中向量空间模型为文本中提取其特征项组成特征向量, 并以某种方式为特征项赋权,步骤2)中对于向量空间表示与特征向 量的选择与权重计算包括特征项选择与特征项赋权,特征项选择由处 理速度、精度、存储空间等方面的具体要求来决定,特征项赋权同时 包含提高查全率和查准率的赋权因子。
步骤3)中对查询向量与文本向量相似度的计算公式使用向量距 离计算公式与向量余弦距离计算公式,公式具体如下:
步骤4)中对语义相似度进行计算的方法选用统计学习法、语义 词典法与编辑距离法,统计学习法使用skip-gram模型和Negative Sampling算法。
步骤4)中语义相似度的计算分为句子相似度计算与段落相似度 计算,句子相似度计算采用TF-IDF算法与N-Gram语言模型,段落 相似度计算采用加权二部图匹配算法与机器学习算法doc2vect,
TF-IDF算法是基于词频统计的文本相似度计算方法。待计算相 似度的两句话用词越相似,它们描述同一概念的可能性就越大。通过 分词,列出所有的词语,然后计算词频,写出词频向量,计算两个句 子相似度的问题就转化成计算空间中两个向量的余弦值。向量的两条 线段之间形成一个夹角,我们可以通过向量夹角的大小,来判断句子 的相似程度,夹角越小,句子相似度就越高。在n维向量空间中,A 是[A1,A2,...,An],B是[B1,B2,...,Bn],则A与B的夹角 θ的余弦计算公式如下:
N-Gram语言模型本身用来预测在已知某个字符串的情况下,下 一个位置出现某个词语的概率,常用来判断某个句子的写法是否符合 规范。如果我们有一个由m个词组成的序列(或者说一个句子),我 们希望算得概率123(......)m P W,W,W W,根据链式规则,可得:
P(w1,w2,…,wm)=P(w1)P(w2|w1)P(w3|w1,w2)P(wm|w1,…,wm-1)
加权二部图匹配算法对于段落的相似度计算代表性的方法是采 用向量空间模型(Vector Space Model)来实现。VSM就是把段落中的 一个词语视为空间中的一个维度。这样就把一个段落表示成为一个n 维的间向量。所以可以利用向量间的夹角余弦来衡量两个段落间的相 似性。
机器学习算法doc2vect把抽象的自然语言转化成能够让计算机 处理的格式,首先就是找到一种方法让复杂的自然语言符号二进制化, 让机器学习算法能够识别。自然语言处理到目前使用最为广泛的文本 向量化方法为One-hot Representation,这种方法把文本中每个词 汇都表示成N维向量。这个向量的维度是词表大小,其中大部分维度 的值都是0,只有一个维度的值为1,这个维度就代表了当前的词汇。 这种方法很明显的缺点就是词与词之间都是孤立的,违背自然语言的 本身特点;词表如果太大,比如几万到几十万,那么每个词向量维度 都会高达几万到几十万。对后期词向量的数学运算就会力不从心。既然上述这种易于理解的One-hot Representation词向量表示方式具 有这样的重要缺陷,那么就需要一种既能表示词本身又可以考虑语义 距离的词向量表示方法——词嵌入,常规机器训练流程是:先确定方 法→训练集→特征选取→训练→分类器;分类:新样本→特征选取→ 分类→判决。
步骤5)中算法设计策略包括有分治法、动态规划法与贪心算法,
分治法是将一个难以直接解决的大问题,分割成一些规模较小的 相同问题,以便各个击破,分而治之,分治法的策略是:对于一个规 模为n的问题,若该问题可以容易地解决(比如说规模n较小)则直 接解决,否则将其分解为k个规模较小的子问题,这些子问题互相独 立且与原问题形式相同,递归地解这些子问题,然后将各子问题的解 合并得到原问题的解。这种算法设计策略叫做分治法。
动态规划法所处理的问题是一个多阶段决策问题,一般由初始状 态开始,通过对中间阶段决策的选择,达到结束状态。这些决策形成 了一个决策序列,同时确定了完成整个过程的一条活动路线,通常是 求最优的活动路线。
贪心算法基本思路如下:
1.建立数学模型来描述问题;
2.把求解的问题分成若干个子问题;
3.对每一子问题求解,得到子问题的局部最优解;
4.把子问题的解局部最优解合成原来解问题的一个解。
本发明的有益效果是:通过焦点快速定位,对文本进行向量空间 表示与特征向量的选择与权重计算,并且向量空间模型为文本中提取 其特征项组成特征向量,并以某种方式为特征项赋权,向量空间表示 与特征向量的选择与权重计算包括特征项选择与特征项赋权,特征项 选择由处理速度、精度、存储空间等方面的具体要求来决定,特征项 赋权同时包含提高查全率和查准率的赋权因子,同时计算查询向量与 文本向量的相似度,对语义相似度进行计算,并且构建知识库标准体 系,并根据知识库内容回答客户问题,并记录客户问题到知识库,完 成自我学习,能够使智能客服快速的获知用户所提出的问题,通过知识库将准确的回答用户问题,并且会收入该问题,完成自我学习,大 大提高了客服工作效率,提升了问答精准度。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术 人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这 些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权 利要求及其等同物限定。
Claims (10)
1.一种基于k-means聚类算法的智能客服问答系统,其特征在于,包括以下步骤:
1)用户意图理解,获得用户问题,确定客户问题的焦点;
2)根据客户问题的焦点,快速定位,对文本进行向量空间表示与特征向量的选择与权重计算;
3)计算查询向量与文本向量的相似度;
4)对语义相似度进行计算;
5)得出计算结果后根据问题内容设置算法设计策略;
6)构建知识库标准体系,并根据知识库内容回答客户问题,并记录客户问题到知识库,完成自我学习。
2.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤1)中的焦点通过专有名词和名词短语的识别,并结合词性标注技术,去除语气词,助词等无意义词汇,结合对句子主干的分析和理解,对问句的焦点和核心成分进行标记和提取。
3.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤1)通过同义词与问题的类型对问句进行扩展和深层理解,所述步骤1)中根据用户问句中的关键词对知识库文档的各个段落进行索引。
4.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤2)中向量空间模型为文本中提取其特征项组成特征向量,并以某种方式为特征项赋权。
5.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤3)中对查询向量与文本向量相似度的计算公式使用向量距离计算公式与向量余弦距离计算公式。
6.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤4)中对语义相似度进行计算的方法选用统计学习法、语义词典法与编辑距离法,所述统计学习法使用skip-gram模型和Negative Sampling算法。
7.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤4)中语义相似度的计算分为句子相似度计算与段落相似度计算,所述句子相似度计算采用TF-IDF算法与N-Gram语言模型,所述段落相似度计算采用加权二部图匹配算法与机器学习算法doc2vect。
8.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤5)中算法设计策略包括有分治法、动态规划法与贪心算法。
9.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤2)中对于向量空间表示与特征向量的选择与权重计算包括特征项选择与特征项赋权,所述特征项选择由处理速度、精度、存储空间等方面的具体要求来决定,所述特征项赋权同时包含提高查全率和查准率的赋权因子。
10.根据权利要求1所述的一种基于k-means聚类算法的智能客服问答系统,其特征在于,所述步骤1)中依照文本片断索引提取候选文文件片断,并按照其与用户问句的相关性进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010763828.8A CN112000782A (zh) | 2020-08-01 | 2020-08-01 | 一种基于k-means聚类算法的智能客服问答系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010763828.8A CN112000782A (zh) | 2020-08-01 | 2020-08-01 | 一种基于k-means聚类算法的智能客服问答系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112000782A true CN112000782A (zh) | 2020-11-27 |
Family
ID=73463280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010763828.8A Pending CN112000782A (zh) | 2020-08-01 | 2020-08-01 | 一种基于k-means聚类算法的智能客服问答系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112000782A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271755A (zh) * | 2023-11-21 | 2023-12-22 | 青岛海尔乐信云科技有限公司 | 基于人工智能的客诉闭环规则引擎管理控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050032937A (ko) * | 2003-10-02 | 2005-04-08 | 한국전자통신연구원 | 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템 |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN108776677A (zh) * | 2018-05-28 | 2018-11-09 | 深圳前海微众银行股份有限公司 | 平行语句库的创建方法、设备及计算机可读存储介质 |
CN109033284A (zh) * | 2018-07-12 | 2018-12-18 | 国网福建省电力有限公司 | 基于知识图谱的电力信息运维系统数据库构建方法 |
CN109145099A (zh) * | 2018-08-17 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 基于人工智能的问答方法和装置 |
CN110909165A (zh) * | 2019-11-25 | 2020-03-24 | 杭州网易再顾科技有限公司 | 数据处理方法、装置、介质及电子设备 |
-
2020
- 2020-08-01 CN CN202010763828.8A patent/CN112000782A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050032937A (ko) * | 2003-10-02 | 2005-04-08 | 한국전자통신연구원 | 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템 |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN108776677A (zh) * | 2018-05-28 | 2018-11-09 | 深圳前海微众银行股份有限公司 | 平行语句库的创建方法、设备及计算机可读存储介质 |
CN109033284A (zh) * | 2018-07-12 | 2018-12-18 | 国网福建省电力有限公司 | 基于知识图谱的电力信息运维系统数据库构建方法 |
CN109145099A (zh) * | 2018-08-17 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 基于人工智能的问答方法和装置 |
CN110909165A (zh) * | 2019-11-25 | 2020-03-24 | 杭州网易再顾科技有限公司 | 数据处理方法、装置、介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
刘国刚;: "人工智能客户服务体系的研究与实现", 现代电信科技, no. 03, 15 March 2009 (2009-03-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271755A (zh) * | 2023-11-21 | 2023-12-22 | 青岛海尔乐信云科技有限公司 | 基于人工智能的客诉闭环规则引擎管理控制方法 |
CN117271755B (zh) * | 2023-11-21 | 2024-03-08 | 青岛海尔乐信云科技有限公司 | 基于人工智能的客诉闭环规则引擎管理控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN112270188B (zh) | 一种提问式的分析路径推荐方法、系统及存储介质 | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN112685538B (zh) | 一种结合外部知识的文本向量检索方法 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN113220864B (zh) | 智能问答数据处理系统 | |
CN113722492A (zh) | 一种意图识别方法及装置 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
Nugraha et al. | Typographic-based data augmentation to improve a question retrieval in short dialogue system | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
Celikyilmaz et al. | A graph-based semi-supervised learning for question-answering | |
CN114118082A (zh) | 一种简历检索方法及装置 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN117591635A (zh) | 一种用于大模型问答的文本分割检索方法 | |
CN112000782A (zh) | 一种基于k-means聚类算法的智能客服问答系统 | |
CN111767733A (zh) | 一种基于统计分词的文献密级甄别方法 | |
CN116757188A (zh) | 一种基于对齐查询实体对的跨语言信息检索训练方法 | |
CN110688559A (zh) | 一种检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |