CN107861951A - 智能客服中的会话主题识别方法 - Google Patents
智能客服中的会话主题识别方法 Download PDFInfo
- Publication number
- CN107861951A CN107861951A CN201711305527.5A CN201711305527A CN107861951A CN 107861951 A CN107861951 A CN 107861951A CN 201711305527 A CN201711305527 A CN 201711305527A CN 107861951 A CN107861951 A CN 107861951A
- Authority
- CN
- China
- Prior art keywords
- session
- customer service
- intelligent customer
- feature
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
Abstract
本发明涉及语义识别技术领域领域,尤其涉及一种智能客服中的会话主题识别方法。所述智能客服中的会话主题识别方法,包括如下步骤:建立多种会话主题类别;对智能客服与客户的会话语料中客户的问话内容进行语义泛化处理;对经过语义泛化处理的会话语料进行文本特征提取;通过领域本体对提取的文本特征进行扩展;使用主题分类算法并根据经过扩展的文本特征对所述会话语料进行分类。本发明解决了现有技术中不能对智能客服中的会话主题进行准确识别的问题,提高了智能客服语义理解能力,改善了智能客服与客户沟通效率低下的问题,增强了用户的使用体验。
Description
技术领域
本发明涉及语义识别技术领域领域,尤其涉及一种智能客服中的会话主题识别方法。
背景技术
随着在线购物规模的不断扩大以及线上购物顾客数不断增长,电商网站需要提供越来越多的客服人员以满足顾客在购物过程中的信息咨询需求。随着当前人力成本的不断上升,电商企业需要投入的客单维护成本也逐渐成为制约电商规模化发展制约要素之一,因而在这过程中电商智能客服机器人需求也变得越来越加强烈。电商智能客服机器人不仅可以极大的减少客服成本,而且还可以实现当客户规模迅速增大时只需简单地增加机器就可以快速满足需求,而不需要大量扩大客服人员队伍。
电商智能客服机器人的本质为问答系统,根据用户发出的咨询从知识库中或者通过推理寻找答案返回给客户。然而在电商客服领域的问答中,存在着口语化严重、信息缺省、强上下文关系、问答中有着严密的业务逻辑性等特点,现有的问答语义理解技术还无法达到电商领域智能客服机器人的语义理解需求。和传统的主题识别不同智能客服系统的主题是为了区分不同的业务处理场景。智能客服中的会话的主题决定了答案所属的范畴和不同的业务处理方式,是语义理解中一个关键的子问题。会话主题识别问题实际上是属于一个会话文本的分类问题。文本分类即给定一组已经定义好的类别集合C={c1,c2,…,cn}和一组文本集D={d1,d2,…,dn},找到文本D与分类C之间的映射关系δ:D→C。文本分类在自然语言理解、信息整理、信息过滤筛选等领域都着广泛的使用。
文本分类主要是两个步骤:(1)文本表示,(2)分类学习。文本表示是指将文本内容提取出特征并进行量化作为分类模型的输入参数,这也是一个特征工程,需要进行特征选择、特征提取和特征构造。分类学习主要是训练分类器使得文本的量化特征作为输入可以得到正确的分类。分类学习任务属于监督学习,目的是给定一组分类好的数据集进行训练最终得到一个分类器实现文档与分类间的映射δ:D→C。
然而,目前还没有很好的方法对电商领域中智能客服与客户的会话主题进行识别,进而导致智能客服与客户的沟通效率较低,用户体验较差。
发明内容
本发明提供一种智能客服中的会话主题识别方法,用以解决现有技术不能对智能客服中的会话主题进行准确识别的问题,以提高智能客服的语义理解能力,改善智能客服与客户沟通效率低下的问题,进而增强用户的使用体验。
为了解决上述问题,本发明提供了一种智能客服中的会话主题识别方法,包括如下步骤:
提供多组智能客服与客户的会话语料,并建立多种会话主题类别;
对所述会话语料中客户的问话内容进行语义泛化处理;
对经过语义泛化处理的会话语料进行文本特征提取;
通过领域本体对提取的文本特征进行扩展;
使用主题分类算法对经过扩展的文本特征按照多种会话主题类别进行分类。
优选的,所述多种会话主题类别包括订单、账户、优惠券、商品、其他中的一种或几种。
优选的,所述文本特征包括主题相关词、词性特征、命名实体、句式特征、逻辑特征中的一种或几种。
优选的,对经过语义泛化处理的会话语料进行文本特征提取的具体步骤包括:
采用Tf-Idf方法对经过语义泛化处理的会话语料进行文本特征提取。
优选的,对所述会话语料中客户的问话内容进行语义泛化处理的具体步骤包括:
对所述会话语料中客户问话内容中的实体信息进行语义泛化处理。
优选的,通过领域本体对所述文本特征进行扩展的具体步骤包括:
通过领域本体对所述文本特征进行上位扩展、下位扩展、同义扩展、平级扩展。
优选的,通过领域本体对提取出的文本特征进行扩展的具体步骤还包括:
通过领域本体对提取出的一文本特征进行扩展,以获得与该文本特征对应的扩展集,所述扩展集中包括多个与该文本特征对应的扩展特征;
根据所述扩展集中每个扩展特征与其对应的文本特征之间的关系,赋予每个扩展特征一权重值,以表征每一扩展特征对主题识别的贡献度。
优选的,所述主题分类算法为K最邻近算法或朴素贝叶斯算法。
优选的,使用主题分类算法并根据经过扩展的文本特征对所述会话语料进行分类的具体步骤包括:
所述多种会话主题类别包括订单、账户、优惠券、商品、其他共5种特征;
假设当前会话已经产生的会话内容S,S经过特征提取得到的一系列的特征F1,F2...Fm,Ci表示会话的主题类型,则主题分类就是找到某个Ci使得满足如下式子:
P(Ci|Fm)>P(Cj|Fm)(i≠j,1≤i,j≤5)
得到概率P(Ci|Fm)最大的主题即为当前的会话所属主题。
本发明提供的智能客服中的会话主题识别方法,首先对会话主题的分类进行了归类,然后对主题识别中所用到的特征进行了分析,并提出了对实体信息进行抽象化为“概念”来优化特征提取的方法,并结合本体扩展技术来提高主题识别准确度,解决了现有技术中不能对智能客服中的会话主题进行准确识别的问题,提高了智能客服语义理解能力,改善了智能客服与客户沟通效率低下的问题,增强了用户的使用体验。
附图说明
附图1是本发明具体实施方式的智能客服中的会话主题识别方法流程示意图;
附图2是本发明具体实施方式的智能客服中的会话主题识别方法中分类器训练流程图。
具体实施方式
下面结合附图对本发明提供的智能客服中的会话主题识别方法的具体实施方式做详细说明。
本具体实施方式提供了一种智能客服中的会话主题识别方法,附图1是本发明具体实施方式的智能客服中的会话主题识别方法流程示意图。如图1所示,本具体实施方式提供的智能客服中的会话主题识别方法,包括如下步骤:
步骤S11,建立多种会话主题类别。会话主题分类其实是为了预测或者识别客户的对话的主题,可以辅助智能客服系统更准确的理解客户所需要处理的业务,缩小信息的处理范围,提高信息处理的效率。因此主题分类表示着智能客服与客户之间进行业务类别,智能客服的会话主题分类也就是说要对不同业务场景进行归类。为了简化处理过程,降低计算复杂度,且符合实际应用需求,优选的,所述多种会话主题类别包括订单、账户、优惠券、商品、其他中的一种或几种。更优选的,所述多种会话主题类别包括订单、账户、优惠券、商品、其他。本具体实施方式对电商领域智能客服系统的会话主题分为五类,如表1所示。
表1会话主题分类
步骤S12,对智能客服与客户的会话语料中客户的问话内容进行语义泛化处理。语义泛化是指在问句的处理过程中,利用语义知识库中的知识,用词语的语义类别替代该词语的过程。通过语义泛化概念进行语义泛化处理可以很好的提供特征的识别度。本具体实施方式的语义泛化处理主要是对会话语料中的特定部分内容进行语义泛化,以使得该部分的内容可以使用相同的概念进行描述。优选的,本具体实施方式针对所述会话语料中客户问话内容中的实体信息进行语义泛化。以下是对实体信息内容进行语义泛化的规则及其描述举例,如下表2所示。
表2会话中实体抽象部分实例
语义泛化从一方面来说,它可以减少语义特征;另一方面来说,它也可以增加语义特征,而且所泛化的特征能更有效的描述该文档主题。例如会话语料中出现的订单号21***CP***实体信息,如果是使用Tf(Term Frequency,词频)来描述该特征,在学习的过程中不论语料规模多大,该特征出现频率最多将在1次左右,通过Tf-Idf(term frequency–inverse document frequency,词频-逆向文件频率)计算结果由于该特征的主题描述能力很微弱该特征将在学习中直接被舍弃,然而通过语义泛化后可以聚集大量相似特征“[订单号]”就可以很大程度上保留它的主题描述能力,作为一个新的语义特征来对文本分析。这些特征还可以作为一种变量实体,在语义表达的时候使用相应实体信息进行填充。
步骤S13,对经过语义泛化处理的会话语料进行文本特征提取。本具体实施方式在主题识别特征的选择的基础上,设计了新的适合智能客服会话主题识别的文本特征:
1)主题相关词由于电商客服对话中问句属于短文本,特征词提取非常关键,如快递、订单号、物流等,这些词和主题高度相关。
2)词性特征如其中涉及数词、量词,该会话为订单主题相关性可能性较大,这些对识别特定主题有一定的辅助作用。
3)命名实体主要是识别人名、地名以及时间,如果会话中含有这些实体该会话为订单主题分类可能性较大,一般都是询问物流相关信息的会话。
4)句式特征例如订单主题中退款问题,“…还没…退…?”,订单主题中询问物流相关的问题,“….送到..?”。
5)逻辑特征主要是识别句子中主题相关词在会话中出现次序,例如客户第一次是“商品”,第二次是关于“价格”则优惠券或者商品主题相关性更大。
为了适应电商领域的实际情况,且提高后续主题识别的精准度,优选的,采用Tf-Idf方法对经过语义泛化处理的会话语料进行文本特征提取。在完成文本特征的提取之后,对特征进行主题相关度评分,句式与逻辑特征主要通过建立规则直接识别主题,以计算提取出的每一文本特征的向量权值,从而将文本特征量化,便于后续应用分类器进行分类训练或分类测试。其中,根据提取出的文本特征计算每一文本特征的向量取值,从而将文本特征量化的模型目前主要有两种1)向量空间模型,2)布尔模型。向量空间模型利用特征集(t1,t2,…,tn)构建一个n维向量W={w1,w2,…,wn}来量化表示特征ti在文本中的重要程度,布尔模型则是向量模型的简化版,特征由0和1固定值表示。本领域技术人员可以根据实际需要进行选择。
步骤S14,通过领域本体对提取的文本特征进行扩展。在电商领域,客户咨询通常比较简短导致文本特征稀疏,基于统计学的处理方法受很大限制。如“这个商品什么时候可以到?”,该句子可学习的特征很少,如果上下文语义信息不够充分想要通过这一句话直接预测用户的对话主题极其困难。本具体实施方式通过对这些稀少的特征进行扩展,以便能更可靠的确定该会话语料所属的主题。而利用领域本体信息来实现特征扩展,扩展的概念集是该领域范畴的特征,它可以使得处于该主题领域的特征向该主题分类靠近是比较合理的做法。为了全面、准确的丰富短文本的语义特征,优选的,本具体实施方式通过领域本体对所述文本特征进行上位扩展、下位扩展、同义扩展、平级扩展。
为了将扩展得到的扩展词输入到后续的分类器中进行训练或测试,以进一步提高会话主题识别的准确度,优选的,通过领域本体对提取出的文本特征进行扩展的具体步骤还包括:
(S14-1)通过领域本体对提取出的文本特征进行扩展,以获得与该文本特征对应的扩展集,所述扩展集中包括多个与该文本特征对应的扩展特征。例如文本特征为信用卡,可以获得该文本特征扩展集{付款方式、{支付宝、快钱、财付通、微信}、订单、…}等。
(S14-2)根据所述扩展集中每个扩展特征与其对应的文本特征之间的关系,赋予每个扩展特征一权重值,以表征每一扩展特征对主题识别的贡献度,从而对扩展集中的每个扩展词进行量化。
步骤S15,使用主题分类算法并根据经过扩展的文本特征对所述会话语料进行分类。附图2是本发明具体实施方式的智能客服中的会话主题识别方法中分类器训练流程图。优选的,所述主题分类算法(即图2中的分类器)为K最邻近算法或朴素贝叶斯算法。
K最邻近算法(k-Nearest Neighbors algorithm,KNN)是一种用于分类和回归的非参数统计方法。K最邻近工作原理比较简单,对于一个待分类文本dx,根据相似性度函数从整个训练集中找出k个最相似(即特征空间中最邻近)的样本dk,对k个样本所属的类别ck分别进行加权统计,权重最大的类别即是文本x属于的一个类别。相似度度量函数使用欧式距离计算,具体如下式(1)所示:
待分类文本dx和k个样本所属的类别ck权重的计算公式如下式(2)所示:
W(dx,ck)最大的即为dx所属的类别,ck表示样本k所属的类别。
KNN算法简单,但是由于其受每个分类的样本数量大小影响容易导致分类误差较大,样本数量越多的分类往往越容易靠近。由于朴素贝叶斯分类算法(Naive BayesClassifier,NBC)所需估计的参数很少,对缺失数据不太敏感,算法复杂度相对其他算法较为简单。因此,本具体实施方式采用朴素贝叶斯分类器作为会话主题的分类器。朴素贝叶斯分类算法是一系列以假设各个特征之间相互独立的条件下使用贝叶斯定理为基础的简单概率分类器。它的工作原理是对于待分类项,计算此项出现的条件下在各个类别出现的概率,概率最大的类别就认为该项属于那个类别。
朴素贝叶斯主要有三种不同概率模型的分类器。第一种为多项式模型。该模型将一个特征出现作为一个事件,整个文本有多个特征的集合事件。具体公式如下式(3)、(4)所示:
P(yk)为先验概率,N是样本总个数,k是样本类别总个数,是类别为yk样本总个数,a是平滑值。
P(xi|yk)为特征xi属类别yk概率,Nyk是类别类别yk的总样本个数,类别yk的含特征xi样本个数,a是平滑值。
第二种是伯努利模型,每个特征的取值只能是1和0。该模型统计文档某个特征出现在多少个文档当中的时候,多项式模型则统计次数而伯努利模型忽略出现的次数特征只判断有则取值为1没有则为0。它的文本特征所属分类概率P(xi|yk)计算方法如下所示:
1)文档特征xi=1时,P(xi=1|yk)
2)文档特征xi=0时,1-P(xi=1|yk)
第三种为高斯模型,它用于特征具有连续值时。同时假定所有特征都遵循高斯分布,即正态分布。
由于对会话语料进行文本处理的特征是离散化的特征,因此本具体实施方式使用朴素贝叶斯多项式模型的分类器。朴素贝叶斯多项式模型的分类器中影响准确率比较大的有两类因素一个先验概率另外一个因素是特征词的提取,为了提高分类器的准确率本具体实施方式在特征提取过程加入了抽象特征提取(即语义泛化处理)与语义扩展。
优选的,使用主题分类算法并根据经过扩展的文本特征对所述会话语料进行分类的具体步骤包括:
(S15-1)所述多种会话主题类别包括订单、账户、优惠券、商品、其他共5种特征;
(S15-2)假设当前会话已经产生的会话内容S,S经过特征提取得到的一系列的特征F1,F2...Fm,Ci表示会话的主题类型,则主题分类就是找到某个Ci使得满足如下式(5):
P(Ci|Fm)>P(Cj|Fm)(i≠j,1≤i,j≤5) (5)
得到概率P(Ci|Fm)最大的主题即为当前的会话所属主题。具体分类器算法流程如图2所示。
为了验证本具体实施方式提出的会话主题识别的效果,设计了如下评价实验:从智能客服与客户的会话语料库中整理出了818组会话数据,共8076条对话记录作为实验数据,并将实验数据分成两部分:75%的实验数据作为训练集数据和25%的实验数据作为测试集数据。从会话语料中只提取客户提问部分的内容用于主题识别和测试而对于会话语料中的客服的回答部分内容则丢弃不用于实验。KNN准确率表示采用K最邻近算法得到的实验结果,NBC准确率表示采用原始的朴素贝叶斯多项式模型得到的实验结果,改进特征后NBC准确率表示采用本具体实施方式提供的进过改进后的朴素贝叶斯多项式模型(即包括步骤S15-1、S15-2)得到的实验结果。最终的实验统计结果如表3所示:
表3主题分类算法实验结果
表3中对话轮数表示用户发起的第n轮对话,第i轮的准确率表示在到当前第i轮的所有历史对话数据进行主题判断,对话轮数越高表示可以用于处理的文本资料越多。KNN整体比NBC好,但是由于算法资源消耗太多以及超参引起的准确率不稳定等因素在实际应用中不予考虑。由于训练的语料比较少以及语料本身就有一定的错误率,因此导致实验整体准确率不高;但是从实验中可以看出经过概念抽象与语义扩展等处理后会话主题识别准确率有一定程度的提升。
本具体实施方式提供的智能客服中的会话主题识别方法,首先对会话主题的分类进行了归类,然后对主题识别中所用到的特征进行了分析,并提出了对实体信息进行抽象化为“概念”来优化特征提取的方法,并结合本体扩展技术来提高主题识别准确度,解决了现有技术中不能对智能客服中的会话主题进行准确识别的问题,提高了智能客服语义理解能力,改善了智能客服与客户沟通效率低下的问题,增强了用户的使用体验。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种智能客服中的会话主题识别方法,其特征在于,包括如下步骤:
建立多种会话主题类别;
对智能客服与客户的会话语料中客户的问话内容进行语义泛化处理;
对经过语义泛化处理的会话语料进行文本特征提取;
通过领域本体对提取的文本特征进行扩展;
使用主题分类算法并根据经过扩展的文本特征对所述会话语料进行分类。
2.根据权利要求1所述的智能客服中的会话主题识别方法,其特征在于,所述多种会话主题类别包括订单、账户、优惠券、商品、其他中的一种或几种。
3.根据权利要求1所述的智能客服中的会话主题识别方法,其特征在于,所述文本特征包括主题相关词、词性特征、命名实体、句式特征、逻辑特征中的一种或几种。
4.根据权利要求1所述的智能客服中的会话主题识别方法,其特征在于,对经过语义泛化处理的会话语料进行文本特征提取的具体步骤包括:
采用Tf-Idf方法对经过语义泛化处理的会话语料进行文本特征提取。
5.根据权利要求1所述的智能客服中的会话主题识别方法,其特征在于,对所述会话语料中客户的问话内容进行语义泛化处理的具体步骤包括:
对所述会话语料中客户问话内容中的实体信息进行语义泛化处理。
6.根据权利要求1所述的智能客服中的会话主题识别方法,其特征在于,通过领域本体对所述文本特征进行扩展的具体步骤包括:
通过领域本体对所述文本特征进行上位扩展、下位扩展、同义扩展、平级扩展。
7.根据权利要求6所述的智能客服中的会话主题识别方法,其特征在于,通过领域本体对提取出的文本特征进行扩展的具体步骤还包括:
通过领域本体对提取出的一文本特征进行扩展,以获得与该文本特征对应的扩展集,所述扩展集中包括多个与该文本特征对应的扩展特征;
根据所述扩展集中每个扩展特征与其对应的文本特征之间的关系,赋予每个扩展特征一权重值,以表征每一扩展特征对主题识别的贡献度。
8.根据权利要求1所述的智能客服中的会话主题识别方法,其特征在于,所述主题分类算法为K最邻近算法或朴素贝叶斯算法。
9.根据权利要求8所述的智能客服中的会话主题识别方法,其特征在于,使用主题分类算法并根据经过扩展的文本特征对所述会话语料进行分类的具体步骤包括:
所述多种会话主题类别包括订单、账户、优惠券、商品、其他共5种特征;假设当前会话已经产生的会话内容S,S经过特征提取得到的一系列的特征F1,F2...Fm,Ci表示会话的主题类型,则主题分类就是找到某个Ci使得满足如下式子:
P(Ci|Fm)>P(Cj|Fm)(i≠j,1≤i,j≤5)
得到概率P(Ci|Fm)最大的主题即为当前的会话所属主题。
10.根据权利要求1所述的智能客服中的会话主题识别方法,其特征在于,对所述会话语料中客户的问话内容进行语义泛化处理之前还包括如下步骤:
对所述会话语料进行分词处理;
去除经分词处理的会话语料中的低频词、停用词、标记信息,所述低频词是在所述会话语料中出现的频率小于预设值的词。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2017111431692 | 2017-11-17 | ||
CN201711143169 | 2017-11-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107861951A true CN107861951A (zh) | 2018-03-30 |
Family
ID=61705375
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711305527.5A Pending CN107861951A (zh) | 2017-11-17 | 2017-12-11 | 智能客服中的会话主题识别方法 |
CN201711305840.9A Active CN108052583B (zh) | 2017-11-17 | 2017-12-11 | 电商本体构建方法 |
CN201711305473.2A Active CN107967261B (zh) | 2017-11-17 | 2017-12-11 | 智能客服中交互式问句语义理解方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711305840.9A Active CN108052583B (zh) | 2017-11-17 | 2017-12-11 | 电商本体构建方法 |
CN201711305473.2A Active CN107967261B (zh) | 2017-11-17 | 2017-12-11 | 智能客服中交互式问句语义理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN107861951A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763242A (zh) * | 2018-03-26 | 2018-11-06 | 广州视源电子科技股份有限公司 | 标签生成方法及装置 |
CN108920715A (zh) * | 2018-07-26 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 客服的智能化辅助方法、装置、服务器和存储介质 |
CN109635117A (zh) * | 2018-12-26 | 2019-04-16 | 零犀(北京)科技有限公司 | 一种基于知识图谱识别用户意图方法及装置 |
CN110457455A (zh) * | 2019-07-25 | 2019-11-15 | 重庆兆光科技股份有限公司 | 一种三值逻辑问答咨询优化方法、系统、介质和设备 |
CN111061815A (zh) * | 2019-12-13 | 2020-04-24 | 携程计算机技术(上海)有限公司 | 会话数据分类方法 |
CN111353028A (zh) * | 2020-02-20 | 2020-06-30 | 支付宝(杭州)信息技术有限公司 | 用于确定客服话术簇的方法及装置 |
CN111400458A (zh) * | 2018-12-27 | 2020-07-10 | 上海智臻智能网络科技股份有限公司 | 一种自动泛化方法及其装置 |
CN111401069A (zh) * | 2018-12-27 | 2020-07-10 | 深圳市优必选科技有限公司 | 会话文本的意图识别方法、意图识别装置及终端 |
CN111859985A (zh) * | 2020-07-23 | 2020-10-30 | 平安普惠企业管理有限公司 | Ai客服模型测试方法、装置、电子设备及存储介质 |
WO2021028776A1 (en) * | 2019-08-09 | 2021-02-18 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
CN113127618A (zh) * | 2021-04-16 | 2021-07-16 | 北京奇艺世纪科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN113657700A (zh) * | 2021-06-29 | 2021-11-16 | 云南昆钢电子信息科技有限公司 | 一种基于大数据的矿山安全生产实时监测方法和系统 |
WO2022170876A1 (zh) * | 2021-02-10 | 2022-08-18 | 华为技术有限公司 | 一种处理对话数据的方法、装置、系统及存储介质 |
CN115118689A (zh) * | 2022-06-30 | 2022-09-27 | 哈尔滨工业大学(威海) | 一种特定领域智能客服营销机器人的搭建方法 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108614897B (zh) * | 2018-05-10 | 2021-04-27 | 四川长虹电器股份有限公司 | 一种面向自然语言的内容多样化搜索方法 |
CN108763211B (zh) * | 2018-05-23 | 2020-07-31 | 中国科学院自动化研究所 | 融合蕴含知识的自动文摘方法及系统 |
CN109033142B (zh) * | 2018-06-11 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN110727799B (zh) * | 2018-06-29 | 2022-08-16 | 杭州海康威视数字技术股份有限公司 | 本体构建方法及装置 |
CN109063034B (zh) * | 2018-07-16 | 2022-01-04 | 浙江大学 | 基于空间和社交多媒体数据的室内空间语义价值计算方法 |
CN109241269B (zh) * | 2018-07-27 | 2020-07-17 | 深圳追一科技有限公司 | 任务型机器人词槽填充方法 |
CN109189906A (zh) * | 2018-08-17 | 2019-01-11 | 国家电网有限公司客户服务中心 | 智能客服对连贯语境下多问句完整语义的识别方法 |
US10742813B2 (en) * | 2018-11-08 | 2020-08-11 | N3, Llc | Semantic artificial intelligence agent |
CN109815322B (zh) * | 2018-12-27 | 2021-03-12 | 东软集团股份有限公司 | 应答的方法、装置、存储介质及电子设备 |
CN109858020A (zh) * | 2018-12-29 | 2019-06-07 | 航天信息股份有限公司 | 一种基于语义图获取税务业务问题答案的方法及系统 |
CN109829036A (zh) * | 2019-02-12 | 2019-05-31 | 浙江核新同花顺网络信息股份有限公司 | 一种对话管理方法及相关装置 |
CN109949805B (zh) * | 2019-02-21 | 2021-03-23 | 江苏苏宁银行股份有限公司 | 基于意图识别及有限状态自动机的智能催收机器人及催收方法 |
CN110134943B (zh) * | 2019-04-03 | 2023-04-18 | 平安科技(深圳)有限公司 | 领域本体生成方法、装置、设备及介质 |
CN111813901A (zh) * | 2019-04-11 | 2020-10-23 | 阿里巴巴集团控股有限公司 | 会话内容生成和处理方法、对话机器人的诊断方法及装置 |
CN110147432B (zh) * | 2019-05-07 | 2023-04-07 | 大连理工大学 | 一种基于有限状态自动机的决策搜索引擎实现方法 |
CN110244941B (zh) * | 2019-06-17 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 任务开发方法、装置、电子设备及计算机可读存储介质 |
CN110516697B (zh) * | 2019-07-15 | 2021-08-31 | 清华大学 | 基于证据图聚合与推理的声明验证方法及系统 |
CN110688459A (zh) * | 2019-09-29 | 2020-01-14 | 联想(北京)有限公司 | 一种智能交互方法及智能设备 |
TWI735380B (zh) * | 2019-11-20 | 2021-08-01 | 中央研究院 | 自然語言處理方法與其計算裝置 |
CN111224863B (zh) * | 2019-12-10 | 2021-06-22 | 平安国际智慧城市科技股份有限公司 | 会话任务生成方法、装置、计算机设备和存储介质 |
CN111177322A (zh) * | 2019-12-30 | 2020-05-19 | 成都数之联科技有限公司 | 一种领域知识图谱的本体模型构建方法 |
CN111506292B (zh) * | 2020-04-15 | 2021-06-15 | 思必驰科技股份有限公司 | 用于人机对话的语音技能跳转方法、电子设备及存储介质 |
CN112214685B (zh) * | 2020-09-27 | 2023-03-28 | 电子科技大学 | 一种基于知识图谱的个性化推荐方法 |
CN112699238A (zh) * | 2020-12-29 | 2021-04-23 | 厦门市美亚柏科信息股份有限公司 | 一种基于标签的知识本体构建方法、终端设备及存储介质 |
CN114118080B (zh) * | 2021-11-10 | 2022-09-13 | 北京深维智信科技有限公司 | 一种从销售会话中自动识别客户意向的方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101465749A (zh) * | 2008-12-29 | 2009-06-24 | 武汉大学 | 基于Web Service组合的问答服务构建方法 |
US20130268656A1 (en) * | 2012-04-10 | 2013-10-10 | Seven Networks, Inc. | Intelligent customer service/call center services enhanced using real-time and historical mobile application and traffic-related statistics collected by a distributed caching system in a mobile network |
CN104699786A (zh) * | 2015-03-17 | 2015-06-10 | 浪潮通信信息系统有限公司 | 一种语义智能搜索的通信网络投诉系统 |
CN104834651A (zh) * | 2014-02-12 | 2015-08-12 | 北京京东尚科信息技术有限公司 | 一种提供高频问题回答的方法和装置 |
CN105677822A (zh) * | 2016-01-05 | 2016-06-15 | 首都师范大学 | 一种基于对话机器人的招生自动问答方法及系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100280989A1 (en) * | 2009-04-29 | 2010-11-04 | Pankaj Mehra | Ontology creation by reference to a knowledge corpus |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建系统及方法 |
CN102117281B (zh) * | 2009-12-30 | 2013-05-08 | 北京亿维讯科技有限公司 | 一种构建领域本体的方法 |
CN102868695B (zh) * | 2012-09-18 | 2015-06-17 | 天格科技(杭州)有限公司 | 基于会话树的智能在线客服方法及系统 |
US9311294B2 (en) * | 2013-03-15 | 2016-04-12 | International Business Machines Corporation | Enhanced answers in DeepQA system according to user preferences |
CN103207856B (zh) * | 2013-04-03 | 2015-10-28 | 同济大学 | 一种本体概念及层次关系生成方法 |
KR20150145490A (ko) * | 2014-06-19 | 2015-12-30 | 종 진 임 | 쇼핑몰 주문 처리 시의 개인정보 보호 방법 및 장치 |
US9626358B2 (en) * | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
CN105354180B (zh) * | 2015-08-26 | 2019-01-04 | 欧阳江 | 一种实现开放式语义交互服务的方法及系统 |
CN106776649B (zh) * | 2015-11-24 | 2020-02-14 | 中科国力(镇江)智能技术有限公司 | 一种基于可视化流程图的智能问答多轮交互方法和系统 |
CN106156003B (zh) * | 2016-06-30 | 2018-08-28 | 北京大学 | 一种问答系统中的问句理解方法 |
CN106649260B (zh) * | 2016-10-19 | 2022-01-25 | 中国计量大学 | 基于评论文本挖掘的产品特征结构树构建方法 |
CN106874259B (zh) * | 2017-02-23 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种基于状态机的语义解析方法及装置、设备 |
CN107133349B (zh) * | 2017-05-24 | 2018-02-23 | 北京无忧创新科技有限公司 | 一种对话机器人系统 |
-
2017
- 2017-12-11 CN CN201711305527.5A patent/CN107861951A/zh active Pending
- 2017-12-11 CN CN201711305840.9A patent/CN108052583B/zh active Active
- 2017-12-11 CN CN201711305473.2A patent/CN107967261B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101465749A (zh) * | 2008-12-29 | 2009-06-24 | 武汉大学 | 基于Web Service组合的问答服务构建方法 |
US20130268656A1 (en) * | 2012-04-10 | 2013-10-10 | Seven Networks, Inc. | Intelligent customer service/call center services enhanced using real-time and historical mobile application and traffic-related statistics collected by a distributed caching system in a mobile network |
CN104834651A (zh) * | 2014-02-12 | 2015-08-12 | 北京京东尚科信息技术有限公司 | 一种提供高频问题回答的方法和装置 |
CN104699786A (zh) * | 2015-03-17 | 2015-06-10 | 浪潮通信信息系统有限公司 | 一种语义智能搜索的通信网络投诉系统 |
CN105677822A (zh) * | 2016-01-05 | 2016-06-15 | 首都师范大学 | 一种基于对话机器人的招生自动问答方法及系统 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763242A (zh) * | 2018-03-26 | 2018-11-06 | 广州视源电子科技股份有限公司 | 标签生成方法及装置 |
CN108920715A (zh) * | 2018-07-26 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 客服的智能化辅助方法、装置、服务器和存储介质 |
CN109635117A (zh) * | 2018-12-26 | 2019-04-16 | 零犀(北京)科技有限公司 | 一种基于知识图谱识别用户意图方法及装置 |
CN111400458A (zh) * | 2018-12-27 | 2020-07-10 | 上海智臻智能网络科技股份有限公司 | 一种自动泛化方法及其装置 |
CN111401069A (zh) * | 2018-12-27 | 2020-07-10 | 深圳市优必选科技有限公司 | 会话文本的意图识别方法、意图识别装置及终端 |
CN110457455A (zh) * | 2019-07-25 | 2019-11-15 | 重庆兆光科技股份有限公司 | 一种三值逻辑问答咨询优化方法、系统、介质和设备 |
CN110457455B (zh) * | 2019-07-25 | 2022-02-22 | 重庆兆光科技股份有限公司 | 一种三值逻辑问答咨询优化方法、系统、介质和设备 |
GB2601936A (en) * | 2019-08-09 | 2022-06-15 | Ibm | Query relaxation using external domain knowledge for query answering |
US11841867B2 (en) | 2019-08-09 | 2023-12-12 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
WO2021028776A1 (en) * | 2019-08-09 | 2021-02-18 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
CN111061815A (zh) * | 2019-12-13 | 2020-04-24 | 携程计算机技术(上海)有限公司 | 会话数据分类方法 |
CN111061815B (zh) * | 2019-12-13 | 2023-04-25 | 携程计算机技术(上海)有限公司 | 会话数据分类方法 |
CN111353028A (zh) * | 2020-02-20 | 2020-06-30 | 支付宝(杭州)信息技术有限公司 | 用于确定客服话术簇的方法及装置 |
CN111353028B (zh) * | 2020-02-20 | 2023-04-18 | 支付宝(杭州)信息技术有限公司 | 用于确定客服话术簇的方法及装置 |
CN111859985A (zh) * | 2020-07-23 | 2020-10-30 | 平安普惠企业管理有限公司 | Ai客服模型测试方法、装置、电子设备及存储介质 |
CN111859985B (zh) * | 2020-07-23 | 2023-09-12 | 上海华期信息技术有限责任公司 | Ai客服模型测试方法、装置、电子设备及存储介质 |
WO2022170876A1 (zh) * | 2021-02-10 | 2022-08-18 | 华为技术有限公司 | 一种处理对话数据的方法、装置、系统及存储介质 |
CN113127618A (zh) * | 2021-04-16 | 2021-07-16 | 北京奇艺世纪科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN113127618B (zh) * | 2021-04-16 | 2023-09-01 | 北京奇艺世纪科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN113657700A (zh) * | 2021-06-29 | 2021-11-16 | 云南昆钢电子信息科技有限公司 | 一种基于大数据的矿山安全生产实时监测方法和系统 |
CN115118689A (zh) * | 2022-06-30 | 2022-09-27 | 哈尔滨工业大学(威海) | 一种特定领域智能客服营销机器人的搭建方法 |
CN115118689B (zh) * | 2022-06-30 | 2024-04-23 | 哈尔滨工业大学(威海) | 一种特定领域智能客服营销机器人的搭建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107967261B (zh) | 2021-05-25 |
CN107967261A (zh) | 2018-04-27 |
CN108052583B (zh) | 2020-07-24 |
CN108052583A (zh) | 2018-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
CN111241837B (zh) | 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 | |
CN109933670B (zh) | 一种基于组合矩阵计算语义距离的文本分类方法 | |
CN103309953B (zh) | 一种基于多rbfnn分类器集成的多样化图像标注和检索方法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN109871443A (zh) | 一种基于记账场景的短文本分类方法及装置 | |
CN110750645A (zh) | 基于对抗训练的跨领域虚假评论识别方法 | |
Zhao et al. | The study on the text classification for financial news based on partial information | |
CN112597302B (zh) | 基于多维评论表示的虚假评论检测方法 | |
CN110083836A (zh) | 一种文本预测结果的关键证据抽取方法 | |
CN113761218A (zh) | 一种实体链接的方法、装置、设备及存储介质 | |
CN107169061A (zh) | 一种融合双信息源的文本多标签分类方法 | |
CN109766911A (zh) | 一种行为预测方法 | |
CN111813939A (zh) | 一种基于表征增强与融合的文本分类方法 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
Zhu et al. | SCGRU: A general approach for identifying multiple classes of self-admitted technical debt with text generation oversampling | |
CN111930944B (zh) | 文件标签分类方法及装置 | |
CN110245234A (zh) | 一种基于本体和语义相似度的多源数据样本关联方法 | |
Trupthi et al. | Possibilistic fuzzy C-means topic modelling for twitter sentiment analysis | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN111191029B (zh) | 基于监督学习和文本分类的ac构建方法 | |
Kusum et al. | Sentiment analysis using global vector and long short-term memory | |
Spichakova et al. | Application of Machine Learning for Assessment of HS Code Correctness. | |
CN110348497A (zh) | 一种基于WT-GloVe词向量构建的文本表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180330 |
|
RJ01 | Rejection of invention patent application after publication |