CN109783623A - 一种真实场景下用户与客服对话的数据分析方法 - Google Patents
一种真实场景下用户与客服对话的数据分析方法 Download PDFInfo
- Publication number
- CN109783623A CN109783623A CN201811589984.6A CN201811589984A CN109783623A CN 109783623 A CN109783623 A CN 109783623A CN 201811589984 A CN201811589984 A CN 201811589984A CN 109783623 A CN109783623 A CN 109783623A
- Authority
- CN
- China
- Prior art keywords
- user
- customer service
- intention
- real scene
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种真实场景下用户与客服对话的数据分析方法,其特点是在原始会话数据中抽取用户会话的意图和重要句段,并将不同表述的相同意图聚集在一起进行文本摘要,得到同一意图的场景描述信息。本发明与现有技术相比具有从文档中提取表达整篇文章关键信息的部分,为后续的文本分析提供了极大地便利,场景信息分析正确,有效挖掘和分析大量非结构化数据,为智能客服系统提供了有效的解决方案,工作效率高,尤其是对网络客服系统的对话文本挖掘,提出了一个十分有效的优化方法,具有广泛的实用意义。
Description
技术领域
本发明涉及文本挖掘技术领域,尤其是一种基于文本聚类和文本挖掘的真实场景下用户与客服对话的数据分析方法。
背景技术
客服部门在日常运营过程中,会产生大量的非结构化的文本数据,这些数据中往往蕴含了用户对企业产品最真实的反馈数据,客服部门在日常工作中,投入了大量的人力进行人工回复和分析。在知识爆炸的时代,人们每天都需要面对海量数据,合理利用信息,高效地处理文本提取有用的信息就变得极为重要。文本聚类是自然语言处理中的一项重要技术,它主要将大量文本语料通过机器处理,自动分成若干类别。作为一种无监督的机器学习方法,文本聚类技术不需要预先对文档手工标注类别,因此具有较强的灵活性和自动化处理能力。文本聚类已经成为对文本信息进行有效地挖掘、摘要提取的重要手段,所以利用文本摘要技术能够从文档中提取表达整篇文章关键信息的部分,为后续的文本分析提供了极大地便利,有望提升该类数据的分析与挖掘能力,不仅有望降低人工回复、分析和客服部门的日常运营成本,还能大大提升公司产品设计的优化水平。
现有技术的客服系统存在的问题是人工回复和分析,不但浪费了大量的人力资源,而且运营成本高,效率低。
发明内容
本发明的目的是针对现有技术的不足而设计的一种真实场景下用户与客服对话的数据分析方,采用意图聚类以及会话摘要技术,从文档中提取表达整篇文章关键信息的部分,有效挖掘和分析大量非结构化数据,对真实场景下用户与客服的对话进行分析,得到同一意图的场景描述信息,为智能客服系统提供了有效的解决方案,场景信息分析正确,工作效率高,尤其是对客服系统中对话文本挖掘的探索与实践,为后续的文本分析提供了极大地便利,提出了一个十分有效的优化方法,具有广泛的实用意义。
本发明的目的是这样实现的:一种真实场景下用户与客服对话的数据分析方法,其特点是采用文本聚类和文本摘要技术,对真实场景下用户与客服的对话进行分析,得到同一意图的场景描述信息,其具体分析包括下述步骤:
a)、从原始会话数据中抽取用户会话的意图;
b)、从原始会话数据中抽取重要句段;
c)、对会话意图进行聚类;
d)、对有相同意图的会话内容进行文本摘要,得到同一意图下的场景描述。
所述抽取用户会话的意图是在用户会话中抽取出用户所表达的意图,即用户遇到的问题或者发起本轮会话的原因。
所述抽取重要句段是在会话中抽取出描述场景的关键句段,真实场景下的会话噪音繁多,为了增加后续数据分析的有效性,过滤掉噪音数据。
所述聚类是将不同表述的相同意图聚集在一起。
所述文本摘要是对同一类意图下的所有会话数据进行文本摘要,得到同一意图的场景描述信息。
本发明与现有技术相比具有从文档中提取表达整篇文章关键信息的部分,为后续的文本分析提供了极大地便利,场景信息分析正确,有效挖掘和分析大量非结构化数据,为智能客服系统提供了有效的解决方案,工作效率高,尤其是对网络客服系统中对话文本挖掘的探索与实践,提出了一个十分有效的优化方法,具有广泛的实用意义。
附图说明
图1为本发明流程示意图。
具体实施方式
以下通过某一网络客服对话这一特定场景的具体实例,对本发明作进一步的详细说明。
实施例1
参阅附图1,本发明按下述步骤进行真实场景下用户与客服对话的数据分析:
(一)抽取用户关键意图语句
根据观察及经验,用户往往会在第一时间将自己需要咨询的问题或者投诉的内容表达出来,因此,在不损失相对较多的语义信息的前提下,可以直接提取用户的第一个句话表示用户的意图以简化模型,以达到去除对话噪声干扰的效果。同时,由于部分用户的第一句段是“你好”、“请问在吗”这些问候性质的对话,为了避免提取到这些无意义的语句,在初始化时过滤掉了问候语,在用户会话中抽取出用户所表达的意图。
(二)抽取关键句段
在咨询或者投诉的过程中,用户大多数情况下都会借助否定词或者疑问词来提出遇到的问题,因此,为了进一步地提炼用户与客服对话信息,采取以下方法来提取关键句段:
1)找到否定词或者疑问词所在的短句作为关键句子;
2)设置步长大小为2,提取关键句前后2句话作为关键句段。
在极少情况下,用户与客服的会话中不包含任意否定词或者疑问词,这种情况下直接将会话前5句和后5句作为关键句段,在会话中抽取出描述场景的关键句段,真实场景下的会话噪音繁多,为了增加后续数据分析的有效性,过滤掉噪音数据。
(三)意图聚类
直接从客服与用户的对话数据中训练词向量,并采取了短文本向量编码方式表示文本,即将文本分词后的词向量均值作为该文本在向量空间上的编码。“K-means”算法是一个经典的基于划分的聚类方法,通过词向量均值的短文本编码方法,作为意图的特征进行输入,然后使用“K-means”算法将不同表述的相同意图聚集在一起。由于直接使用传统的“K-means”算法得到的聚类效果存在将关于同一意图的会话拆分成若干类的问题,本发明基于关键词连接矩阵的聚类合并方法,算法思想为:把聚类个数设置得稍大,再对“K-means”算法的初步聚类结果进行合并修正,从而得到更加准确的聚类结果。通过对“K-means”聚类结果的观察,需要修正重新合并为具有下述一类特点的样本:
a、客户均在描述同一个内容,但是表述的方式不一样;
b、虽然表述的方式各异,但总是会提到一些具有明显辨识度的关键词。
利用关键词提取算法提取每一类的关键词,然后将关键词集合交叉程度较高的若干类合并成新的一类,其具体步骤如下:
1)记“K-means”聚类结果有k类,对于这类中的每一类,计算各词的“tf-idf”值并从大小排序,并取前5个词语作为该类的关键词;
2)以第i类的关键词集合与第j类的关键词集合的重叠个数作为连接度;
3)设定合并阈值为3,连接度超过合并阈值的类别合并为新的一类。
(四)对有相同意图的会话进行文本摘要
对同一类意图下的所有会话数据采用抽取式文档摘要的方法,对同一意图中各个会话中的句子进行评分排序,选取得分最高的作为该意图的场景描述信息。由于各类的摘要均是直接从客户对话来提取中,语句通顺度、可读性比较高,其抽取式的效果十分依赖于评分的标准,因此,针对网络客服对话这一特定场景制定合适的评分规则,评分准则包括基于相似度的评分标准和基于关键词的评分标准以及句子流畅度得分。
1)基于相似度的评分标准
识别一个会话中重要的句子,可以看作是衡量会话中每个句子和会话意图的相似度,相似度越高表示这个句子越重要,因此,对会话中关键句段和意图进行编码后,计算会话中每个句子的向量和意图的向量的余弦相似度,就可以抽取出重要的句子。
2)关键词命中得分标准
对于某一类的一个样本,对它进行分词,得到词语列表,若词语属于该类的关键词,则视为命中,最后将命中率作为这个样本的关键词命中得分,关键词命中得分越高,说明句子语义在类别的关键问题上的集中程度越高。
3)句子流畅度得分标准
对于会话中的每个句子,使用步骤(三)中训练得到的“skip-gram”语言模型计算得到句子的概率作为句子的流畅度得分。
上述三项评分的规则如下:
a、为了避免选取长度较短的句子,对句子长度制定了一定的限制,本文设定的阈值为7,只有大于阈值的样本才参与评分,从而避免了提取的摘要过短。
b、三项评分的得分越高越好,优先考虑基于相似度的评分,其次考虑基于关键词的得分,句子流畅度得分的权重最低。对于同一个意图,取得分最高的前n个句子作为摘要,本实施取10个句子作为摘要,如若句子总数小于n,则所有句子直接作为摘要。
(五)聚类摘要的润色
通过上述步骤所提取的文本摘要可能存在口语化严重,冗余信息较多,不够精炼,如用户反复说同一句话,导致摘要重复度高等问题,所以对文本摘要进行润色,去除“你好”、“啊”、“呀”等口语化词语,以空格作为分隔符切割摘要,只保留含有关键词的句段,重新拼接成新的摘要,进行重复子串检索,如果存在长度占比大于40%的重复子串,则对其进行去重,对摘要进行分词,利用正则表达式匹配数字,如果数字部分长度占比大于50%,则去除该分词。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
Claims (5)
1.一种真实场景下用户与客服对话的数据分析方法,其特征在于采用文本聚类和文本摘要技术,对真实场景下用户与客服的对话进行分析,得到同一意图的场景描述信息,其具体分析包括下述步骤:
a)、从原始会话数据中抽取用户会话的意图;
b)、从原始会话数据中抽取重要句段;
c)、对会话意图进行聚类;
d)、对有相同意图的会话内容进行文本摘要,得到同一意图下的场景描述。
2.根据权利要求1所述真实场景下用户与客服对话的数据分析方法,其特征在于所述抽取用户会话的意图是在用户会话中抽取出用户所表达的意图。
3.根据权利要求1所述真实场景下用户与客服对话的数据分析方法,其特征在于所述抽取重要句段是在用户会话中抽取出描述场景的关键句段,过滤真实场景下的噪音数据。
4.根据权利要求1所述真实场景下用户与客服对话的数据分析方法,其特征在于所述聚类是将不同表述的相同意图聚集在一起。
5.根据权利要求1所述真实场景下用户与客服对话的数据分析方法,其特征在于所述文本摘要是对同一类意图下的所有会话数据进行文本摘要,得到同一意图的场景描述信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811589984.6A CN109783623A (zh) | 2018-12-25 | 2018-12-25 | 一种真实场景下用户与客服对话的数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811589984.6A CN109783623A (zh) | 2018-12-25 | 2018-12-25 | 一种真实场景下用户与客服对话的数据分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109783623A true CN109783623A (zh) | 2019-05-21 |
Family
ID=66498219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811589984.6A Pending CN109783623A (zh) | 2018-12-25 | 2018-12-25 | 一种真实场景下用户与客服对话的数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783623A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287283A (zh) * | 2019-05-22 | 2019-09-27 | 中国平安财产保险股份有限公司 | 意图模型训练方法、意图识别方法、装置、设备及介质 |
CN110413788A (zh) * | 2019-07-30 | 2019-11-05 | 携程计算机技术(上海)有限公司 | 会话文本的场景类别的预测方法、系统、设备和存储介质 |
CN111291186A (zh) * | 2020-01-21 | 2020-06-16 | 北京捷通华声科技股份有限公司 | 一种基于聚类算法的上下文挖掘方法、装置和电子设备 |
CN111339767A (zh) * | 2020-02-21 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 对话源数据处理方法及装置、电子设备、计算机可读介质 |
CN111881267A (zh) * | 2020-05-25 | 2020-11-03 | 重庆兆光科技股份有限公司 | 一种抽取对话语料中关键语句的方法、系统、设备及介质 |
CN116226356A (zh) * | 2023-05-08 | 2023-06-06 | 深圳市拓保软件有限公司 | 一种基于nlp的智能客服交互方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095950A (zh) * | 2016-06-14 | 2016-11-09 | 中国科学院自动化研究所 | 一种人机对话中教授意图答案生成方法 |
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
-
2018
- 2018-12-25 CN CN201811589984.6A patent/CN109783623A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095950A (zh) * | 2016-06-14 | 2016-11-09 | 中国科学院自动化研究所 | 一种人机对话中教授意图答案生成方法 |
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
Non-Patent Citations (1)
Title |
---|
刘渊杰: ""社区问答系统最佳回答机制的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287283A (zh) * | 2019-05-22 | 2019-09-27 | 中国平安财产保险股份有限公司 | 意图模型训练方法、意图识别方法、装置、设备及介质 |
CN110287283B (zh) * | 2019-05-22 | 2023-08-01 | 中国平安财产保险股份有限公司 | 意图模型训练方法、意图识别方法、装置、设备及介质 |
CN110413788A (zh) * | 2019-07-30 | 2019-11-05 | 携程计算机技术(上海)有限公司 | 会话文本的场景类别的预测方法、系统、设备和存储介质 |
CN110413788B (zh) * | 2019-07-30 | 2023-01-31 | 携程计算机技术(上海)有限公司 | 会话文本的场景类别的预测方法、系统、设备和存储介质 |
CN111291186A (zh) * | 2020-01-21 | 2020-06-16 | 北京捷通华声科技股份有限公司 | 一种基于聚类算法的上下文挖掘方法、装置和电子设备 |
CN111291186B (zh) * | 2020-01-21 | 2024-01-09 | 北京捷通华声科技股份有限公司 | 一种基于聚类算法的上下文挖掘方法、装置和电子设备 |
CN111339767A (zh) * | 2020-02-21 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 对话源数据处理方法及装置、电子设备、计算机可读介质 |
CN111339767B (zh) * | 2020-02-21 | 2023-07-21 | 百度在线网络技术(北京)有限公司 | 对话源数据处理方法及装置、电子设备、计算机可读介质 |
CN111881267A (zh) * | 2020-05-25 | 2020-11-03 | 重庆兆光科技股份有限公司 | 一种抽取对话语料中关键语句的方法、系统、设备及介质 |
CN116226356A (zh) * | 2023-05-08 | 2023-06-06 | 深圳市拓保软件有限公司 | 一种基于nlp的智能客服交互方法及系统 |
CN116226356B (zh) * | 2023-05-08 | 2023-07-04 | 深圳市拓保软件有限公司 | 一种基于nlp的智能客服交互方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783623A (zh) | 一种真实场景下用户与客服对话的数据分析方法 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN105335352A (zh) | 基于微博情感的实体识别方法 | |
CN109165294A (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN105630890B (zh) | 基于智能问答系统会话历史的新词发现方法及系统 | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
CN107480200A (zh) | 基于词标签的词语标注方法、装置、服务器及存储介质 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
Esfahani et al. | Context-specific language modeling for human trafficking detection from online advertisements | |
CN111488429A (zh) | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
Beleveslis et al. | A hybrid method for sentiment analysis of election related tweets | |
CN113407842B (zh) | 模型训练方法、主题推荐理由的获取方法及系统、电子设备 | |
Ilievski et al. | Context-enhanced adaptive entity linking | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
Kanev et al. | Application of formal grammar in text mining and construction of an ontology | |
CN108717637B (zh) | 一种电商安全相关实体的自动挖掘方法及系统 | |
Shrawankar et al. | Construction of news headline from detailed news article | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190521 |