CN112667777A - 一种用于客户来电诉求的分类方法 - Google Patents
一种用于客户来电诉求的分类方法 Download PDFInfo
- Publication number
- CN112667777A CN112667777A CN202011589546.7A CN202011589546A CN112667777A CN 112667777 A CN112667777 A CN 112667777A CN 202011589546 A CN202011589546 A CN 202011589546A CN 112667777 A CN112667777 A CN 112667777A
- Authority
- CN
- China
- Prior art keywords
- incoming call
- keywords
- appeal
- word segmentation
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明涉及一种用于客户来电诉求的分类方法,包括以下步骤:S1:提取客户来电诉求工单中的来电时间、来电内容和来电号码;S2:基于语义对客户来电诉求工单中的来电内容进行文本挖掘,提取关键词;S3:通过关键词将客户来电诉求工单进行分类,找到热点问题。其中,客服工单系统中提取出诉求工单中的来电内容、来电时间和来电号码,对文本进行文本挖掘,采用的是基于字典的文本挖掘的算法,基于语义的关键词提取是一种有效增加分词词典丰富性和提高文本分类准确度的有效手段,通过关键词对客户来电诉求工单进行分类,找到当下关注的热点问题。
Description
技术领域
本发明涉及电力管理领域,更具体地,涉及一种用于客户来电诉求的分类方法。
背景技术
电话热线是电网公司面向全国用电客户的服务窗口,针对用电的各种问题,用电户都可以进行拨打电话热线进行反映。电话热线主要涉及的业务有业务咨询、故障报修、投诉、举报、意见、建议等业务分类。其中50%以上的业务为咨询类业务,比如咨询电费、咨询缴费方式、咨询营业厅位置等。当坐席人员在客户拨打电话热线咨询客户需求时,坐席人员开始记录来电用户的一些基本情况和来电用户的具体诉求,这里的诉求就是被客服人员记录并形成工单,每一个用户的每一次来电都是一条记录,这些记录也就成为大数据时代数据。
与以往文本挖掘在互联网、医学、金融等取得的成绩相比较,电力行业的文本挖掘技术研究相对落后,而随着文本数据的日益增多,文本挖掘逐渐成为电力行业不可或缺的数据挖掘技术,通过文本挖掘技术,挖掘出客户诉求中客户的“热点问题”,了解客户的真实诉求,至关重要。
近年来,基于大型语料库的统计自然语言处理技术发展迅速,促使机器能够一定程度上‘理解’人类语言。随着数据的积累,大量的短文本数据,未被合理使用,浪费大量的有效信息。从理论上看,文本分类模型主要包括两种,一种是主题分类,有助于相关部门识别敏感话题、热点问题分析等,另一种是情感分析,通过分析诉求内容,理解客户的情感变化,及时调整营销策略,服务质量,提高客户满意度。随着NLP技术的不断完善,逐步逼近人工智能,因此电力领域,须引进NLP技术,以丰富现有的电力数据挖掘理论体系,挖掘出每一个工单内容的诉求热点,挖掘出文本中的真实诉求内容。
现有的技术中,中国发明专利CN105335496A公开了“基于余弦相似度文本挖掘算法的客服重复来电处理方法”,公开日为2016年02月17日,提取对95598工单文本,进行数据清理,剔除异常来电号码;对数据进行预处理,提取相同来电的工单,构建重复来电工单文本集;将文本转换成计算机能够识别的语言,建立向量空间模型,利用特征向量表征文本;将整个文本用以特征项的权重为分量的向量来表示,基于特征向量利用空间中的两个向量的夹角余弦来度量文档之间的相似度,利用层次聚类提取同一用户的相似内容的重复来电工单,对语义特征进行分析;对重复来电工单反映的问题进行及时记录,派单并跟踪记录;该发明中,通过构建重复来电工单文本集,将文本转换成计算机语言,建立向量空间模型,利用特征向量表征文本,利用层次聚类提取同一用户的相似内容的重复来电工单,对语义特征进行分析,但是层次聚类的算法并不能精确提取关键词,对语义特征的分析不准确。
发明内容
本发明为解决目前只能人工统计电话热线投诉的热点问题的技术缺陷,提供了一种用于客户来电诉求的分类方法。
为实现以上发明目的,采用的技术方案是:
一种用于客户来电诉求的分类方法,包括以下步骤:
S1:提取客户来电诉求工单中的来电时间、来电内容和来电号码;
S2:基于语义对客户来电诉求工单中的来电内容进行文本挖掘,提取关键词;
S3:通过关键词将客户来电诉求工单进行分类,找到热点问题。
上述方案中,客服工单系统中提取出诉求工单中的来电内容、来电时间和来电号码,对文本进行文本挖掘,采用的是基于字典的文本挖掘的算法,基于语义的关键词提取是一种有效增加分词词典丰富性和提高文本分类准确度的有效手段,通过关键词对客户来电诉求工单进行分类,找到当下关注的热点问题。
在步骤S2中,包括以下步骤:
S21:针对客户来电诉求工单的来电内容构建电力专业分词词典;
S22:根据电力专业分词词典依次进行语义槽的填充和词串的合并,并跟新电力专业分词词典;
S23:根据电力专业分词词典提取关键词。
所述来电内容包括客服工作单标识、供电单位、业务子类标识、受理时间和来话内容字段。
在步骤S21中,包括以下步骤:
S211:对客户来电诉求工单进行分词;
S212:根据分词后的词汇特征提取关键字;
S213:根据没有包含在通用分词词典中的分词构建电力专业分词词典。
在步骤S211中,所述分词利用结巴中文分词方法对客户来电诉求工单中的来电内容进行中文分词,其中分词用到的分词词典为通用词典。
在步骤S22中,语义槽的填充包括以下步骤:
S221:根据通用分词词典将原始工单内容进行分词处理;
S222:针对分词结果进行特征筛选,将与电力专业相关性低的词汇剔除;
S223:将剔除后剩余的关键词词汇带到原始工单内容中进行文本搜索,文本搜索的范围就是以原始工单内容的长度;
S224:从文本首字符开始,若首字符匹配成功,则将词放入语义槽中,若匹配不成功,接着对下一个字符进行匹配,直到遍历相应的工单内容;
S225:若第一个关键词匹配成功,则判断下一个关键词的位置,若是与首字符的位置信息,相差为1,则将这一关键词放入语义槽中,依次类推,直到将相应工单的所有关键词进行遍历,无法匹配,则停止;
S226:将得到的所有关键词进行特征筛选,将不符合语法的关键词进行剔除,得到最终的电力专业关键词,将其加入到电力专业分词词典;
S227:根据电力专业分词词典,选取tf-idf的关键词提取方法进行关键词进行提取。
在步骤S226中,还包括停用词库,不符合语法的关键词被剔除后,更新至停用词库。
在步骤S227中,tf-idf的关键词提取方法包括以下算法:
计算tf-idf:tf_idf=tf×idf
其中,n表示某词在文章中的出现次数,N表示文章总词数,a表示语料库的文档总数,A表示包含该词的文档数。
所述tf-idf为一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
在步骤S3中,客户来电诉求工单的分类包括热点分类和应用分类。
本发明从客服工单系统中提取出诉求工单中的来电内容,对文本进行解析,通过对大量诉求工单的分析,发现一条工单记录往往会描述一个多种修饰的来表达诉求,若将其强行分开,会造成理解混乱,降低工单分类的准确性。在针对文本内容分完词后,会出现分词不准,文本挖掘采用的是基于字典的文本挖掘算法,分词的结果依赖分词词典的丰富程度,在尝试了很多方法之后,发现基于语义的关键词提取是一种有效增加分词词典丰富性和提高文本分类准确度的有效手段。接着通过词汇特征提取,根据文本语义提取出的关键词,其关键词属于电力专业专有名词,但通用分词词典没有包含在内,关键词构建电力专业分词词典。针对每一条具体的工单内容,实现语义槽的填充和词串合并功能,达到分类的目的。
与现有技术相比,本发明的有益效果是:
本发明提供的一种用于客户来电诉求的分类方法,客服工单系统中提取出诉求工单中的来电内容、来电时间和来电号码,对文本进行文本挖掘,采用的是基于字典的文本挖掘的算法,基于语义的关键词提取是一种有效增加分词词典丰富性和提高文本分类准确度的有效手段,通过关键词对客户来电诉求工单进行分类,找到当下关注的热点问题。
附图说明
图1为本发明的整体方法流程图;
图2为本发明的文本挖掘的方法流程图;
图3为本发明的构建电力专业分词词典的方法流程图;
图4为本发明的语义槽填充的方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1、图2、图3和图4所示,一种用于客户来电诉求的分类方法,包括以下步骤:
S1:提取客户来电诉求工单中的来电时间、来电内容和来电号码;
S2:基于语义对客户来电诉求工单中的来电内容进行文本挖掘,提取关键词;
S3:通过关键词将客户来电诉求工单进行分类,找到热点问题。
上述方案中,客服工单系统中提取出诉求工单中的来电内容、来电时间和来电号码,对文本进行文本挖掘,采用的是基于字典的文本挖掘的算法,基于语义的关键词提取是一种有效增加分词词典丰富性和提高文本分类准确度的有效手段,通过关键词对客户来电诉求工单进行分类,找到当下关注的热点问题。
在步骤S2中,包括以下步骤:
S21:针对客户来电诉求工单的来电内容构建电力专业分词词典;
S22:根据电力专业分词词典依次进行语义槽的填充和词串的合并,并跟新电力专业分词词典;
S23:根据电力专业分词词典提取关键词。
所述来电内容包括客服工作单标识、供电单位、业务子类标识、受理时间和来话内容字段。
在步骤S21中,包括以下步骤:
S211:对客户来电诉求工单进行分词;
S212:根据分词后的词汇特征提取关键字;
S213:根据没有包含在通用分词词典中的分词构建电力专业分词词典。
在步骤S211中,所述分词利用结巴中文分词方法对客户来电诉求工单中的来电内容进行中文分词,其中分词用到的分词词典为通用词典。
在步骤S22中,语义槽的填充包括以下步骤:
S221:根据通用分词词典将原始工单内容进行分词处理;
S222:针对分词结果进行特征筛选,将与电力专业相关性低的词汇剔除;
S223:将剔除后剩余的关键词词汇带到原始工单内容中进行文本搜索,文本搜索的范围就是以原始工单内容的长度;
S224:从文本首字符开始,若首字符匹配成功,则将词放入语义槽中,若匹配不成功,接着对下一个字符进行匹配,直到遍历相应的工单内容;
S225:若第一个关键词匹配成功,则判断下一个关键词的位置,若是与首字符的位置信息,相差为1,则将这一关键词放入语义槽中,依次类推,直到将相应工单的所有关键词进行遍历,无法匹配,则停止;
S226:将得到的所有关键词进行特征筛选,将不符合语法的关键词进行剔除,得到最终的电力专业关键词,将其加入到电力专业分词词典;
S227:根据电力专业分词词典,选取tf-idf的关键词提取方法进行关键词进行提取。
在步骤S226中,还包括停用词库,不符合语法的关键词被剔除后,更新至停用词库。
在步骤S227中,tf-idf的关键词提取方法包括以下算法:
计算tf-idf:tf_idf=tf×idf
其中,n表示某词在文章中的出现次数,N表示文章总词数,a表示语料库的文档总数,A表示包含该词的文档数。
所述tf-idf为一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
在步骤S3中,客户来电诉求工单的分类包括热点分类和应用分类。
实施例2
本实施例包括以下步骤:
(1)数据获取:从客服工单信息表中选取客服工作单标识、供电单位、业务子类标识、受理时间、来话内容字段组成的数据宽表作为建模数据;
(2)数据处理:剔除来电内容为‘测试’、为空、‘1’和‘。’的来电内容工单;
(3)搭建停用词词库:搭建通用的停用词词库,根据停用词库进行第一次中文分词,根据分词结果对停用词词库进行更新,将对电力行业无用的词汇进行添加到停用词词库中,不断进行更新停用词词库,更新停用词词库也就是特征选取,剔除一些对于电力专业无关紧要的词,无关紧要的词包括‘客户’和‘一些’,将无关紧要的词更新到停用词词库中;
(4)分词:利用结巴中文分词方法对客服工单中的来电内容进行中文分词,其中分词用到的分词词典为通用词典(结巴分词自带词典,是适合所有场景的通用词典,但是相对的电力专业词汇较少),根据通用词典进行中文分词,分词结果进行去停用词处理;
(5)构建电力专业分词词典:根据步骤(3)中更新的停用词词库以及步骤(4)中中文分词结果,利用语义槽的处理,对去除停用词之后的分词结果进行位置匹配,若去除停用词之后,相邻词汇的位置信息也相差1,则将二者进行结合,组合成短语,将得到的短语结果进行人工筛选,选取电力专业的专业词汇进行保存,得到关键短语,将以上得到的关键短语进行保存,基于以上关键短语构建电力专业分词词典。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种用于客户来电诉求的分类方法,其特征在于,包括以下步骤:
S1:提取客户来电诉求工单中的来电时间、来电内容和来电号码;
S2:基于语义对客户来电诉求工单中的来电内容进行文本挖掘,提取关键词;
S3:通过关键词将客户来电诉求工单进行分类,找到热点问题。
2.根据权利要求1所述的一种用于客户来电诉求的分类方法,其特征在于,在步骤S2中,包括以下步骤:
S21:针对客户来电诉求工单的来电内容构建电力专业分词词典;
S22:根据电力专业分词词典依次进行语义槽的填充和词串的合并,并跟新电力专业分词词典;
S23:根据电力专业分词词典提取关键词。
3.根据权利要求2所述的一种用于客户来电诉求的分类方法,其特征在于,所述来电内容包括客服工作单标识、供电单位、业务子类标识、受理时间和来话内容字段。
4.根据权利要求2所述的一种用于客户来电诉求的分类方法,其特征在于,在步骤S21中,包括以下步骤:
S211:对客户来电诉求工单进行分词;
S212:根据分词后的词汇特征提取关键字;
S213:根据没有包含在通用分词词典中的分词构建电力专业分词词典。
5.根据权利要求4所述的一种用于客户来电诉求的分类方法,其特征在于,在步骤S211中,所述分词利用结巴中文分词方法对客户来电诉求工单中的来电内容进行中文分词,其中分词用到的分词词典为通用词典。
6.根据权利要求4所述的一种用于客户来电诉求的分类方法,其特征在于,在步骤S22中,语义槽的填充包括以下步骤:
S221:根据通用分词词典将原始工单内容进行分词处理;
S222:针对分词结果进行特征筛选,将与电力专业相关性低的词汇剔除;
S223:将剔除后剩余的关键词词汇带到原始工单内容中进行文本搜索,文本搜索的范围就是以原始工单内容的长度;
S224:从文本首字符开始,若首字符匹配成功,则将词放入语义槽中,若匹配不成功,接着对下一个字符进行匹配,直到遍历相应的工单内容;
S225:若第一个关键词匹配成功,则判断下一个关键词的位置,若是与首字符的位置信息,相差为1,则将这一关键词放入语义槽中,依次类推,直到将相应工单的所有关键词进行遍历,无法匹配,则停止;
S226:将得到的所有关键词进行特征筛选,将不符合语法的关键词进行剔除,得到最终的电力专业关键词,将其加入到电力专业分词词典;
S227:根据电力专业分词词典,选取tf-idf的关键词提取方法进行关键词进行提取。
7.根据权利要求6所述的一种用于客户来电诉求的分类方法,其特征在于,在步骤S226中,还包括停用词库,不符合语法的关键词被剔除后,更新至停用词库。
9.根据权利要求8所述的一种用于客户来电诉求的分类方法,其特征在于,所述tf-idf为一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
10.根据权利要求1所述的一种用于客户来电诉求的分类方法,其特征在于,在步骤S3中,客户来电诉求工单的分类包括热点分类和应用分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011589546.7A CN112667777A (zh) | 2020-12-28 | 2020-12-28 | 一种用于客户来电诉求的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011589546.7A CN112667777A (zh) | 2020-12-28 | 2020-12-28 | 一种用于客户来电诉求的分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112667777A true CN112667777A (zh) | 2021-04-16 |
Family
ID=75411730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011589546.7A Pending CN112667777A (zh) | 2020-12-28 | 2020-12-28 | 一种用于客户来电诉求的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667777A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704451A (zh) * | 2021-08-30 | 2021-11-26 | 广东电网有限责任公司 | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 |
CN115687577A (zh) * | 2023-01-04 | 2023-02-03 | 交通运输部公路科学研究所 | 一种道路运输常态化问题诉求发现方法及系统 |
CN115858787A (zh) * | 2022-12-12 | 2023-03-28 | 交通运输部公路科学研究所 | 一种基于公路运输中问题诉求信息的热点提取和挖掘方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721229B1 (en) * | 2010-12-30 | 2017-08-01 | United Services Automobile Association (Usaa) | Systems and methods for monitored social media participation |
CN108345670A (zh) * | 2018-02-09 | 2018-07-31 | 国网江苏省电力有限公司电力科学研究院 | 一种用于95598电力工单的服务热点发现方法 |
CN110955777A (zh) * | 2019-12-11 | 2020-04-03 | 国网河北省电力有限公司电力科学研究院 | 一种基于95598工单提升客服质量的方法 |
CN111177389A (zh) * | 2019-12-30 | 2020-05-19 | 佰聆数据股份有限公司 | 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质 |
CN111368539A (zh) * | 2020-03-02 | 2020-07-03 | 贵州电网有限责任公司 | 一种热点分析建模方法 |
-
2020
- 2020-12-28 CN CN202011589546.7A patent/CN112667777A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721229B1 (en) * | 2010-12-30 | 2017-08-01 | United Services Automobile Association (Usaa) | Systems and methods for monitored social media participation |
CN108345670A (zh) * | 2018-02-09 | 2018-07-31 | 国网江苏省电力有限公司电力科学研究院 | 一种用于95598电力工单的服务热点发现方法 |
CN110955777A (zh) * | 2019-12-11 | 2020-04-03 | 国网河北省电力有限公司电力科学研究院 | 一种基于95598工单提升客服质量的方法 |
CN111177389A (zh) * | 2019-12-30 | 2020-05-19 | 佰聆数据股份有限公司 | 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质 |
CN111368539A (zh) * | 2020-03-02 | 2020-07-03 | 贵州电网有限责任公司 | 一种热点分析建模方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704451A (zh) * | 2021-08-30 | 2021-11-26 | 广东电网有限责任公司 | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 |
CN113704451B (zh) * | 2021-08-30 | 2023-01-13 | 广东电网有限责任公司 | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 |
WO2023029420A1 (zh) * | 2021-08-30 | 2023-03-09 | 广东电网有限责任公司湛江供电局 | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 |
CN115858787A (zh) * | 2022-12-12 | 2023-03-28 | 交通运输部公路科学研究所 | 一种基于公路运输中问题诉求信息的热点提取和挖掘方法 |
CN115687577A (zh) * | 2023-01-04 | 2023-02-03 | 交通运输部公路科学研究所 | 一种道路运输常态化问题诉求发现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8239189B2 (en) | Method and system for estimating a sentiment for an entity | |
CN113704451B (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN112667777A (zh) | 一种用于客户来电诉求的分类方法 | |
CN101667194A (zh) | 基于用户评论文本特征的自动摘要方法及其自动摘要系统 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN110781679A (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN109947934A (zh) | 针对短文本的数据挖掘方法及系统 | |
CN111368539A (zh) | 一种热点分析建模方法 | |
CN114971730A (zh) | 文案素材提取方法及其装置、设备、介质、产品 | |
CN112949713A (zh) | 一种基于复杂网络的集成学习的文本情感分类方法 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
Gao et al. | Sentiment classification for stock news | |
Ajallouda et al. | Kp-use: an unsupervised approach for key-phrases extraction from documents | |
Velmurugan et al. | Mining implicit and explicit rules for customer data using natural language processing and apriori algorithm | |
CN116628173A (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN116933782A (zh) | 一种电商文本关键词提取处理方法及系统 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
CN112529627A (zh) | 商品隐式属性抽取方法、装置、计算机设备及存储介质 | |
CN111753540A (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
Anley et al. | Opinion Mining of Tourists' Sentiments: Towards a Comprehensive Service Improvement of Tourism Industry | |
Ahmad et al. | Aspect Based Sentiment Analysis and Opinion Mining on Twitter Data Set Using Linguistic Rules | |
Abudureheman | Design of a User Comment Management System Based on Text Mining: Innovative Organization Management for E-Commerce | |
Ren et al. | Sentiment analysis of Internet performance data | |
Rahamatallah et al. | Constructing opinion mining model of sudanese telecom products | |
CN110110195B (zh) | 一种杂质清除方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |