CN107992609A - 一种基于文本分类技术和决策树的投诉倾向判断方法 - Google Patents

一种基于文本分类技术和决策树的投诉倾向判断方法 Download PDF

Info

Publication number
CN107992609A
CN107992609A CN201711346831.4A CN201711346831A CN107992609A CN 107992609 A CN107992609 A CN 107992609A CN 201711346831 A CN201711346831 A CN 201711346831A CN 107992609 A CN107992609 A CN 107992609A
Authority
CN
China
Prior art keywords
mrow
msub
complaint
user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711346831.4A
Other languages
English (en)
Other versions
CN107992609B (zh
Inventor
黄剑文
徐晖
冯歆尧
彭泽武
温柏坚
杨朝谊
伍江瑶
万婵
党笠
丘荣恭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Guangdong Power Grid Co Ltd
Original Assignee
Information Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Guangdong Power Grid Co Ltd filed Critical Information Center of Guangdong Power Grid Co Ltd
Priority to CN201711346831.4A priority Critical patent/CN107992609B/zh
Publication of CN107992609A publication Critical patent/CN107992609A/zh
Application granted granted Critical
Publication of CN107992609B publication Critical patent/CN107992609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Public Health (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Accounting & Taxation (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于文本分类技术和决策树的投诉倾向判断方法,包括下述步骤:从数据库管理系统获取用户信息,包括用户档案信息和客服工单信息,并据此建立用户历史来电情况表;确定获取用户信息的时间窗;确定预判周期及用于预判的特征数据集;确定预判群体范围;本发明可以在用户来电时,准确地判别用户的投诉倾向程度,为设计策略库和采取不同的安抚和引导策略提供参考,充分利用从结构化数据提取的客户诉求信息,同时对工单中来电内容的非结构化文本数据经过系统的分析,根据客户的历史来电信息对客户的未来投诉实现事前预测,可以减少客户投诉风险,树立电力公司的良好社会形象。

Description

一种基于文本分类技术和决策树的投诉倾向判断方法
技术领域
本发明涉及电力行业客户管理技术领域,具体涉及一种基于文本分类技术和决策树的投诉倾向判断方法。
背景技术
随着电力体制改革的深入推进和社会经济的快速发展,企业和居民对电力服务的要求越来越高,电力市场的营销和服务竞争面临新格局,迫切的需要改变传统的工作模式,树立市场化服务意识,适应市场格局变化,而提升服务水平、减少客户投诉、赢得客户信任,是当前供电企业迫切解决的问题。95598客服系统作为直接面向客户,与客户沟通交流的渠道,而存储话务数据的数据库管理系统拥有海量的客户数据,该部分客户数据主要分为结构化数据和非结构化数据两部分。目前,针对从结构化数据提取的客户诉求信息的利用程度远远不够,同时对工单中来电内容的非结构化文本数据也没有经过系统的分析,难以根据客户的历史来电信息对客户的未来投诉实现事前预测。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于文本分类技术和决策树的投诉倾向判断方法,该方法可以在用户来电时,准确地判别用户的投诉倾向程度,为设计策略库和采取不同的安抚和引导策略提供参考,可以减少客户投诉风险,树立电力公司的良好社会形象。
本发明的目的通过下述技术方案实现:
一种基于文本分类技术和决策树的投诉倾向判断方法,包括下述步骤:
步骤1,从数据库管理系统获取用户信息,包括用户档案信息和客服工单信息,并据此建立用户历史来电情况表;
步骤1.1,确定获取用户信息的时间窗;
步骤1.2,确定预判周期及用于预判的特征数据集;
步骤1.3,确定预判群体范围;
步骤1.4,确定所需的原数据字段,所述原数据字段包括用户编号、业务类别代码、工单来源代码、来电内容、接通时间和挂机时间;
步骤2,将用户历史来电情况表输入分析计算平台并进行数据预处理,得到模型数据集;
步骤2.1,根据原数据字段构造所需变量;
步骤2.2,数据质量检查;
步骤2.3,数据清洗,所述数据清洗包括异常值处理和缺失值处理,并输出数据质量良好的历史来电情况表;
步骤2.4,训练集计算;
步骤2.5,数据变换,将连续型变量转换为离散型数据;
步骤3,制定越级分类规则对全量训练集的用户进行投诉倾向判断;
所述越级分类规则为:
其中TYPE为用户类别,为1时表示越级投诉群体,为0时表示非越级投诉群体;
步骤4,基于历史来电数据,根据越级分类规则对用户进行类别区分,将用户分为越级投诉倾向群体和非越级投诉倾向群体两大类,其中,越级投诉倾向群体为12398、12345历史来电行为客户群体;非越级投诉群体为历史来电行为特征未通过12398和12345来电的群体;
步骤5,针对所述越级投诉倾向群体,在下一个预判周期内的类别标记为“投诉高倾向”,同时得到非越级投诉数据集;
步骤5.1,根据客服工单信息表中工单来源代码,判断用户来电历史途径是否为12398或12345;
SUM(CASE WHEN GDLYDM='06'THEN 1ELSE 0END)
SUM(CASE WHEN GDLYDM IN('07','08','13')THEN 1ELSE 0END)
其中“GDLYDM”表示“工单来源代码”,“06”表示12398来电;“07”、“08”、“13”均表示12345来电;
步骤6,制定文本分类规则对所述步骤5中获得的非越级投诉数据集进行投诉倾向判断;
步骤7,运用文本分类进行识别、匹配,识别来电内容包含特殊字眼的用户群体;
步骤7.1,剔除非文字信息;
步骤7.2,剔除停用词;
步骤7.3,文本切分词;
步骤7.4,构建情感词典;
步骤7.5,词匹配,根据构建的情感词典,使用词语文本匹配的方法找出来电内容包含特殊字眼的客户群体;
步骤8,针对来电内容包含特殊字眼群体,则该类群体在下一个预判周期内的类别标记为“投诉高倾向”,同时得到非越级投诉、历史工单无特殊字眼的数据集;
步骤9,根据所述步骤8中获得的非越级投诉、历史工单无特殊字眼的数据集,制定决策树分类规则,对非越级投诉、历史工单无特殊字眼的用户进行投诉倾向判断;
步骤10,进行特征选择,在特征选择后的训练集上执行决策树算法,确定投诉倾向预测模型,输出投诉风险标签;
步骤10.1,所述特征选择可分为业务类别特征、电话拨打行为特征、回访特征和回复特征四大维度;
所述业务类别特征,是指用户历史不同业务办理类型的来电情况,包括故障报修次数、咨询次数、举报次数、建议次数、意见次数和投诉次数六个类型;
所述电话拨打行为特征,是指用户历史来电的拨打行为,主要为来电拨打时长;
所述回访特征,是指用户来电后工单处理情况回访结果,包括回访不满意次数和是否存在回访投诉两个类型;
所述回复特征,是指用户对于工单处理的回复结果,主要为客户回复满意度;客户回复满意度能够反应客户本次电话事件的问题解决程度,直接关系到客户投诉倾向的程度,客户回复满意度主要包括回复不满意次数、回复满意次数和回复非常满意次数;
步骤10.2,构造决策树,对各特征值的取值范围作定义;
利用ID3算法构造决策树,选择公式进行给定样本所需的期望信息计算;
其中,I为给定样本的期望值,S是s个数据样本的集合,即S指的是一个数据集合,其中包含s个数据样本,假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,3,…,m),设Si是类Ci的样本数,Pi是任意样本属于Ci的概率,一般可用Si,s来估计;
根据以下公式计算熵值:
其中,E(A)为各个特征的熵值,Sij是子集Sj中类Ci的样本数;
最后计算各个特征的信息增益,由期望信息和熵值可以得到相应的信息增益值;对于在分支上将获得的信息增益可以由以下公式得到:
Gain(A)=I(S1,S2,…,Sm)-E(A),
其中,Gain(A)为各个特征的信息增益;
步骤10.3,基于上述计算得出各个特征的信息增益,最终确定特征包括拨打时长、回访不满意次数、投诉次数和是否存在回访投诉,进而得出决策树;
步骤10.4,提取分类规则,得出投诉风险标签。
本发明与现有技术相比具有以下的有益效果:
本发明可以在用户来电时,准确地判别用户的投诉倾向程度,为设计策略库和采取不同的安抚和引导策略提供参考,充分利用从结构化数据提取的客户诉求信息,同时对工单中来电内容的非结构化文本数据经过系统的分析,根据客户的历史来电信息对客户的未来投诉实现事前预测,可以减少客户投诉风险,树立电力公司的良好社会形象。
附图说明
图1为本发明的判断投诉风险流程图;
图2为本发明的文本分类流程图;
图3为本发明的决策树状图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1~3所示,一种基于文本分类技术和决策树的投诉倾向判断方法,包括下述步骤:
步骤1,从数据库管理系统获取用户信息,包括用户档案信息和客服工单信息,并据此建立用户历史来电情况表;
所述步骤1中获取用户数据的步骤进一步包括:
步骤1.1,确定获取用户信息的时间窗;时间窗口为近12个月,即2016年9月至2017年9月,其中2017年9月的数据为已知类别标识数据,构造训练数据集目标变量,2016年9月至2017年8月的数据为已知行为特征数据,构造训练数据集的特征变量;
步骤1.2,确定预判周期及用于预判的特征数据集;预判周期为1个月,即2017年10月,构造用于预判的特征数据集的时间窗口为12个月,即2016年10月至2017年9月;
步骤1.3,确定预判群体范围;预判群体为广东电网全量用户;
步骤1.4,确定所需的表中的字段;其中,所需原数据字段包括:用户编号、业务类别代码、工单来源代码、来电内容、接通时间、挂机时间;
步骤2,将用户历史来电情况表输入分析计算平台并进行数据预处理,得到模型数据集;数据总样本量为15044,其中投诉样本数为1686,非投诉样本数为13358;
所述步骤2中进行数据预处理的方法进一步包括:
步骤2.1,根据原始字段构造所需变量,变量如下表所示:
步骤2.2,数据质量检查;检查历史来电情况表;
步骤2.3,数据清洗;包括异常值处理和缺失值处理,输出数据质量良好的历史来电情况表;
步骤2.4,训练集计算;根据步骤2.1的规则消除时间序列属性从而获得所述变量的具体数据值;
步骤2.5,数据变换;将连续型变量转换为离散型数据;
步骤3,制定越级分类规则对全量训练集的用户进行投诉倾向判断;
越级分类规则为:
其中TYPE为用户类别,为1时表示越级投诉群体,为0时表示非越级投诉群体。
步骤4,基于2017年9月的历史来电数据,根据越级分类规则对用户进行类别区分,将用户分为越级投诉倾向群体和非越级投诉倾向群体两大类;
其中,越级投诉倾向群体为12398、12345历史来电行为客户群体;非越级投诉群体为历史来电行为特征未通过12398和12345来电的群体;
步骤5,针对越级投诉倾向群体(12398、12345历史来电客户群体),该类群体在下一个预判周期(下一个月,即2017年10月)内的类别标记为“投诉高倾向”,同时得到非越级投诉数据集;
所述步骤5中的方法进一步包括:
步骤5.1,根据客服工单信息表中工单来源代码,判断用户来电历史途径是否为12398或12345;
SUM(CASE WHEN GDLYDM='06'THEN 1ELSE 0END)
SUM(CASE WHEN GDLYDM IN('07','08','13')THEN 1ELSE 0END)
其中“GDLYDM”表示“工单来源代码”,“06”表示12398来电;“07”、“08”、“13”均表示12345来电;
步骤6,制定文本分类规则对步骤5中获得的非越级投诉数据集进行投诉倾向判断;
步骤7,运用文本分类进行识别、匹配,识别来电内容包含特殊字眼的用户群体;
如图2所示,所述步骤7中的方法进一步包括:
步骤7.1,剔除非文字信息;工单数据的来电内容中含有大量的非文字信息,这些信息不仅不能在后续的分析研究中得到应用,还会对研究过程造成一定的干扰,所以文本处理的第一步就是剔除这些无用信息,包括半角格式和全角格式的数字,标点符号以及其他可能的信息;经过剔除非文字信息,原始投诉内容中数字、空格、标点符号等等非文字信息被剔除,只剩下文字信息;
客户投诉内容如下表所示:
客户投诉内容剔除非文字信息如下表所示:
步骤7.2,剔除停用词;与非文本信息相同,停用词也会对文本分析造成一定程度的干扰,所以在删除完非文本信息之后第二步将进行停用词的处理;选取停用词的方法很多,由于文本处理己经相当成熟,有很多比较全的停用词表,包括:“其、该、于、中、有、会、但、却、……”等;停用词被删除,剩下的文本虽然在人的理解方面变得不通顺,但是在计算机处理上更加清晰简单;
客户投诉内容剔除停用词如下表所示:
步骤7.3,文本切分词;基于中科院ICTCLAS分析系统的分词展示,当客户来电内容进行以上的初步处理之后,需要进行下一步的文本切分词,中科院的ICTCLAS分词系统是中科院研究出来基于语料库的统计分词方法进行分词的一种分词工具,且在目前为止文本分词应用很广、效果很好的工具,而且在常用的分词软件中可以直接调用此系统,所以本发明将选取ICTCLAS分词工具嵌入R软件中实现分词,所述R软件为运用R语言进行数据分析的软件,R软件将文本分词后,使用空格表示隔开,没有被空格隔开的被系统识别为一个字符串组合,即一个词语;
分词结果如下表所示:
步骤7.4,构建情感词典;词频统计进而构建情感词典,是文本分析必须过程,因为词语是文本的核心,文本情感的载体;对2017年9月的投诉工单来电内容的部分统计结果如下表所示:
不满 1781
投诉 1614
经常 365
赔偿 300
情绪 294
激动 259
频繁 242
意见 230
曝光 136
媒体 116
急需 27
法律 14
律师 7
推脱 4
... ...
步骤7.5,词匹配;根据构建的情感词典,使用词语文本匹配的方法找出来电内容包含特殊字眼的客户群体;
步骤8,针对来电内容包含特殊字眼群体,则该类群体在下一个预判周期(下一个月,即2017年10月)内的类别标记为“投诉高倾向”,同时得到非越级投诉、历史工单无特殊字眼的数据集;
步骤9,根据步骤8中获得的非越级投诉、历史工单无特殊字眼的数据集,制定决策树分类规则,对非越级投诉、历史工单无特殊字眼的用户进行投诉倾向判断;
步骤10,进行特征选择,在特征选择后的训练集上执行决策树算法,确定投诉倾向预测模型,输出投诉风险标签;
所述步骤10中的方法进一步包括:
步骤10.1,考虑投诉产生原因,特征选择可分为:业务类别特征、电话拨打行为特征、回访特征和回复特征四大维度;
业务类别特征,是指用户历史不同业务办理类型的来电情况,包括故障报修次数、咨询次数、举报次数、建议次数、意见次数、投诉次数六个类型;
电话拨打行为特征,是指用户历史来电的拨打行为,主要为来电拨打时长;
回访特征,是指用户来电后工单处理情况回访结果,包括回访不满意次数和是否存在回访投诉两个类型;
回复特征,是指用户对于工单处理的回复结果,主要为客户回复满意度;客户回复满意度(即客户对客服的评价)能够反应客户本次电话事件的问题解决程度,直接关系到客户投诉倾向的程度,客户满意度主要包括回复不满意次数、回复满意次数和回复非常满意次数,
步骤10.2,构造决策树,对各特征值的取值范围作定义,如下表所示:
变量名 离散处理 区间说明
故障报修次数 0,1,2 0代表1次,1代表2次,2代表2次以上
咨询次数 0,1,2 0代表1次,1代表2次,2代表2次以上
举报次数 0,1,2 0代表1次,1代表2次,2代表2次以上
建议次数 0,1,2 0代表1次,1代表2次,2代表2次以上
意见次数 0,1,2 0代表1次,1代表2次,2代表2次以上
投诉次数 0,1,2 0代表1次,1代表2次,2代表2次以上
拨打时长 0,1,2 0代表1分钟以下,1代表1-2分钟,2代表2分钟以上
回访不满意次数 0,1,2 0代表1次,1代表2次,2代表2次以上
是否存在回访投诉 0,1 0代表无回访投诉,1代表有回访投诉
回复不满意次数 0,1,2 0代表1次,1代表2次,2代表2次以上
回复满意次数 0,1,2 0代表1次,1代表2次,2代表2次以上
回复非常满意次数 0,1,2 0代表1次,1代表2次,2代表2次以上
利用ID3算法构造决策树,选择公式进行给定样本所需的期望信息计算;
其中,I为给定样本的期望值,S是s个数据样本的集合,即S指的是一个数据集合,其中包含s个数据样本,假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,3,…,m),设Si是类Ci的样本数,Pi是任意样本属于Ci的概率,一般可用Si,s来估计;
根据以下公式计算熵值:
其中,E(A)为各个特征的熵值,Sij是子集Sj中类Ci的样本数;
最后计算各个特征的信息增益,由期望信息和熵值可以得到相应的信息增益值;对于在分支上将获得的信息增益可以由以下公式得到:
Gain(A)=I(S1,S2,…,Sm)-E(A),
其中,Gain(A)为各个特征的信息增益;
步骤10.3,基于上述计算得出各个特征的信息增益,最终确定特征包括拨打时长、回访不满意次数、投诉次数和是否存在回访投诉,进而得出如图3所示的决策树;
步骤10.4,提取分类规则,得出投诉风险标签;
最终综合以上步骤,得到关于投诉风险的预测结果如下表所示:
本发明可以在用户来电时,准确地判别用户的投诉倾向程度,为设计策略库和采取不同的安抚和引导策略提供参考,充分利用从结构化数据提取的客户诉求信息,同时对工单中来电内容的非结构化文本数据经过系统的分析,根据客户的历史来电信息对客户的未来投诉实现事前预测,可以减少客户投诉风险,树立电力公司的良好社会形象。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (1)

1.一种基于文本分类技术和决策树的投诉倾向判断方法,其特征在于,包括下述步骤:
步骤1,从数据库管理系统获取用户信息,包括用户档案信息和客服工单信息,并据此建立用户历史来电情况表;
步骤1.1,确定获取用户信息的时间窗;
步骤1.2,确定预判周期及用于预判的特征数据集;
步骤1.3,确定预判群体范围;
步骤1.4,确定所需的原数据字段,所述原数据字段包括用户编号、业务类别代码、工单来源代码、来电内容、接通时间和挂机时间;
步骤2,将用户历史来电情况表输入分析计算平台并进行数据预处理,得到模型数据集;
步骤2.1,根据原数据字段构造所需变量;
步骤2.2,数据质量检查;
步骤2.3,数据清洗,所述数据清洗包括异常值处理和缺失值处理,并输出数据质量良好的历史来电情况表;
步骤2.4,训练集计算;
步骤2.5,数据变换,将连续型变量转换为离散型数据;
步骤3,制定越级分类规则对全量训练集的用户进行投诉倾向判断;
所述越级分类规则为:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>T</mi> <mi>Y</mi> <mi>P</mi> <mi>E</mi> <mo>=</mo> <mn>1</mn> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mn>12398</mn> <mi>o</mi> <mi>r</mi> <mn>12345</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>T</mi> <mi>Y</mi> <mi>P</mi> <mi>E</mi> <mo>=</mo> <mn>0</mn> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <mi>n</mi> <mi>o</mi> <mi>t</mi> <mn>12398</mn> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi> </mi> <mi>n</mi> <mi>o</mi> <mi>t</mi> <mn>12345</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>
其中TYPE为用户类别,为1时表示越级投诉群体,为0时表示非越级投诉群体;
步骤4,基于历史来电数据,根据越级分类规则对用户进行类别区分,将用户分为越级投诉倾向群体和非越级投诉倾向群体两大类,其中,越级投诉倾向群体为12398、12345历史来电行为客户群体;非越级投诉群体为历史来电行为特征未通过12398和12345来电的群体;
步骤5,针对所述越级投诉倾向群体,在下一个预判周期内的类别标记为“投诉高倾向”,同时得到非越级投诉数据集;
步骤5.1,根据客服工单信息表中工单来源代码,判断用户来电历史途径是否为12398或12345;
SUM(CASE WHEN GDLYDM='06'THEN 1 ELSE 0 END)
SUM(CASE WHEN GDLYDM IN('07','08','13')THEN 1 ELSE 0 END)
其中“GDLYDM”表示“工单来源代码”,“06”表示12398来电;“07”、“08”、“13”均表示12345来电;
步骤6,制定文本分类规则对所述步骤5中获得的非越级投诉数据集进行投诉倾向判断;
步骤7,运用文本分类进行识别、匹配,识别来电内容包含特殊字眼的用户群体;
步骤7.1,剔除非文字信息;
步骤7.2,剔除停用词;
步骤7.3,文本切分词;
步骤7.4,构建情感词典;
步骤7.5,词匹配,根据构建的情感词典,使用词语文本匹配的方法找出来电内容包含特殊字眼的客户群体;
步骤8,针对来电内容包含特殊字眼群体,则该类群体在下一个预判周期内的类别标记为“投诉高倾向”,同时得到非越级投诉、历史工单无特殊字眼的数据集;
步骤9,根据所述步骤8中获得的非越级投诉、历史工单无特殊字眼的数据集,制定决策树分类规则,对非越级投诉、历史工单无特殊字眼的用户进行投诉倾向判断;
步骤10,进行特征选择,在特征选择后的训练集上执行决策树算法,确定投诉倾向预测模型,输出投诉风险标签;
步骤10.1,所述特征选择可分为业务类别特征、电话拨打行为特征、回访特征和回复特征四大维度;
所述业务类别特征,是指用户历史不同业务办理类型的来电情况,包括故障报修次数、咨询次数、举报次数、建议次数、意见次数和投诉次数六个类型;
所述电话拨打行为特征,是指用户历史来电的拨打行为,主要为来电拨打时长;
所述回访特征,是指用户来电后工单处理情况回访结果,包括回访不满意次数和是否存在回访投诉两个类型;
所述回复特征,是指用户对于工单处理的回复结果,主要为客户回复满意度;客户回复满意度能够反应客户本次电话事件的问题解决程度,直接关系到客户投诉倾向的程度,客户回复满意度主要包括回复不满意次数、回复满意次数和回复非常满意次数;
步骤10.2,构造决策树,对各特征值的取值范围作定义;
利用ID3算法构造决策树,选择公式进行给定样本所需的期望信息计算;
<mrow> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>log</mi> <mn>2</mn> </msub> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> </mrow>
其中,I为给定样本的期望值,S是s个数据样本的集合,即S指的是一个数据集合,其中包含s个数据样本,假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,3,…,m),设Si是类Ci的样本数,Pi是任意样本属于Ci的概率,一般可用Si,s来估计;
根据以下公式计算熵值:
<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <mfrac> <mrow> <msub> <mi>S</mi> <mrow> <mn>1</mn> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>S</mi> <mrow> <mn>2</mn> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mi>j</mi> </mrow> </msub> </mrow> <mi>S</mi> </mfrac> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,E(A)为各个特征的熵值,Sij是子集Sj中类Ci的样本数;
最后计算各个特征的信息增益,由期望信息和熵值可以得到相应的信息增益值;对于在分支上将获得的信息增益可以由以下公式得到:
Gain(A)=I(S1,S2,…,Sm)-E(A),
其中,Gain(A)为各个特征的信息增益;
步骤10.3,基于上述计算得出各个特征的信息增益,最终确定特征包括拨打时长、回访不满意次数、投诉次数和是否存在回访投诉,进而得出决策树;
步骤10.4,提取分类规则,得出投诉风险标签。
CN201711346831.4A 2017-12-15 2017-12-15 一种基于文本分类技术和决策树的投诉倾向判断方法 Active CN107992609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711346831.4A CN107992609B (zh) 2017-12-15 2017-12-15 一种基于文本分类技术和决策树的投诉倾向判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711346831.4A CN107992609B (zh) 2017-12-15 2017-12-15 一种基于文本分类技术和决策树的投诉倾向判断方法

Publications (2)

Publication Number Publication Date
CN107992609A true CN107992609A (zh) 2018-05-04
CN107992609B CN107992609B (zh) 2021-05-18

Family

ID=62038419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711346831.4A Active CN107992609B (zh) 2017-12-15 2017-12-15 一种基于文本分类技术和决策树的投诉倾向判断方法

Country Status (1)

Country Link
CN (1) CN107992609B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897798A (zh) * 2018-06-12 2018-11-27 广东电网有限责任公司 用电客服工单分类方法、装置以及电子设备
CN109165763A (zh) * 2018-06-13 2019-01-08 广西电网有限责任公司电力科学研究院 一种95598客服工单的潜在被投诉的评估方法及装置
CN109274842A (zh) * 2018-09-18 2019-01-25 阿里巴巴集团控股有限公司 客服水平波动的关键因素定位方法、装置及设备
CN109858702A (zh) * 2019-02-14 2019-06-07 中国联合网络通信集团有限公司 客户升级投诉的预测方法、装置、设备及可读存储介质
CN109871597A (zh) * 2019-01-28 2019-06-11 平安科技(深圳)有限公司 解决潜在投诉的方法、装置、计算机设备和存储介质
CN110032643A (zh) * 2019-04-02 2019-07-19 上海建工四建集团有限公司 一种建筑维修工单分析方法、装置、存储介质及客户端
CN110110881A (zh) * 2019-03-21 2019-08-09 贵州电网有限责任公司 电力客户需求预测分析方法及系统
CN110119851A (zh) * 2019-05-23 2019-08-13 上海建工四建集团有限公司 一种建筑机电系统故障智能预测方法和系统
CN110378727A (zh) * 2019-07-05 2019-10-25 深圳壹账通智能科技有限公司 产品潜在用户确定方法、装置、计算机设备和存储介质
CN110827040A (zh) * 2019-10-31 2020-02-21 支付宝(杭州)信息技术有限公司 一种消费者诉求解决方法和系统
CN110889526A (zh) * 2018-09-07 2020-03-17 中国移动通信集团有限公司 一种用户升级投诉行为预测方法及系统
CN111340323A (zh) * 2018-12-19 2020-06-26 中国移动通信集团湖南有限公司 一种投诉服务请求自动派单方法及系统
CN111353792A (zh) * 2020-05-25 2020-06-30 广东电网有限责任公司惠州供电局 一种可视化展现与数据分析的客户画像系统
CN111489095A (zh) * 2020-04-15 2020-08-04 腾讯科技(深圳)有限公司 一种风险用户管理方法、装置、计算机设备和存储介质
CN111741155A (zh) * 2020-06-24 2020-10-02 广西东信易通科技有限公司 一种基于隐私号平台降低投诉率的系统
CN112183068A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种客户投诉事件差异化处理方法及系统
CN113253997A (zh) * 2021-06-23 2021-08-13 南京铉盈网络科技有限公司 一种图形化前端工程化框架构建方法
CN113377833A (zh) * 2021-06-08 2021-09-10 中电福富信息科技有限公司 基于电信大数据的不满意服务标签的构建方法
CN113495909A (zh) * 2020-04-06 2021-10-12 中信百信银行股份有限公司 客诉单量预警方法、装置、电子设备及存储介质
CN113592297A (zh) * 2021-07-30 2021-11-02 国家电网有限公司客户服务中心 一种电力系统专属式客户管理方法及系统
CN113610399A (zh) * 2021-08-09 2021-11-05 广州品唯软件有限公司 一种客服后台的风险监控方法、系统及装置
CN114169770A (zh) * 2021-12-09 2022-03-11 福州大学 考虑人事时多要素的供电质量投诉预警系统
CN117114452A (zh) * 2023-10-23 2023-11-24 中科云谷科技有限公司 用于确定施工方案的方法、处理器、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106065A1 (en) * 2001-03-01 2009-04-23 Bowie David J Process for automatically handling electronic requests for notification of unsolicited commercial email and other service disruptions
CN104680428A (zh) * 2015-03-16 2015-06-03 朗新科技股份有限公司 一种电网客户满意度模型的构建方法
CN105095588A (zh) * 2015-08-05 2015-11-25 中国联合网络通信集团有限公司 移动互联网用户投诉的预测方法和装置
CN105468649A (zh) * 2014-09-11 2016-04-06 阿里巴巴集团控股有限公司 一种待展示对象匹配的判断方法及其装置
CN106250398A (zh) * 2016-07-19 2016-12-21 北京京东尚科信息技术有限公司 一种投诉事件的投诉内容分类判定方法及装置
CN106529804A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析方法
CN106980929A (zh) * 2017-01-05 2017-07-25 国网福建省电力有限公司 一种基于随机森林的停电投诉风险预测方法
CN107220732A (zh) * 2017-05-31 2017-09-29 福州大学 一种基于梯度提升树的停电投诉风险预测方法
CN107437124A (zh) * 2017-07-20 2017-12-05 大连大学 一种基于大数据分析的运营商投诉与故障关联分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106065A1 (en) * 2001-03-01 2009-04-23 Bowie David J Process for automatically handling electronic requests for notification of unsolicited commercial email and other service disruptions
CN105468649A (zh) * 2014-09-11 2016-04-06 阿里巴巴集团控股有限公司 一种待展示对象匹配的判断方法及其装置
CN104680428A (zh) * 2015-03-16 2015-06-03 朗新科技股份有限公司 一种电网客户满意度模型的构建方法
CN105095588A (zh) * 2015-08-05 2015-11-25 中国联合网络通信集团有限公司 移动互联网用户投诉的预测方法和装置
CN106250398A (zh) * 2016-07-19 2016-12-21 北京京东尚科信息技术有限公司 一种投诉事件的投诉内容分类判定方法及装置
CN106529804A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析方法
CN106980929A (zh) * 2017-01-05 2017-07-25 国网福建省电力有限公司 一种基于随机森林的停电投诉风险预测方法
CN107220732A (zh) * 2017-05-31 2017-09-29 福州大学 一种基于梯度提升树的停电投诉风险预测方法
CN107437124A (zh) * 2017-07-20 2017-12-05 大连大学 一种基于大数据分析的运营商投诉与故障关联分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
关军 等: "基于决策树SVM算法的电信运营商投诉分类解决方案", 《辽宁省通信学会2011年通信网络与信息技术年会》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897798A (zh) * 2018-06-12 2018-11-27 广东电网有限责任公司 用电客服工单分类方法、装置以及电子设备
CN109165763A (zh) * 2018-06-13 2019-01-08 广西电网有限责任公司电力科学研究院 一种95598客服工单的潜在被投诉的评估方法及装置
CN109165763B (zh) * 2018-06-13 2021-12-07 广西电网有限责任公司电力科学研究院 一种电网客服工单的潜在被投诉的评估方法及装置
CN110889526B (zh) * 2018-09-07 2022-06-28 中国移动通信集团有限公司 一种用户升级投诉行为预测方法及系统
CN110889526A (zh) * 2018-09-07 2020-03-17 中国移动通信集团有限公司 一种用户升级投诉行为预测方法及系统
CN109274842A (zh) * 2018-09-18 2019-01-25 阿里巴巴集团控股有限公司 客服水平波动的关键因素定位方法、装置及设备
CN109274842B (zh) * 2018-09-18 2020-08-07 阿里巴巴集团控股有限公司 客服水平波动的关键因素定位方法、装置及设备
CN111340323A (zh) * 2018-12-19 2020-06-26 中国移动通信集团湖南有限公司 一种投诉服务请求自动派单方法及系统
CN111340323B (zh) * 2018-12-19 2023-09-05 中国移动通信集团湖南有限公司 一种投诉服务请求自动派单方法及系统
CN109871597A (zh) * 2019-01-28 2019-06-11 平安科技(深圳)有限公司 解决潜在投诉的方法、装置、计算机设备和存储介质
CN109871597B (zh) * 2019-01-28 2023-08-18 平安科技(深圳)有限公司 解决潜在投诉的方法、装置、计算机设备和存储介质
CN109858702A (zh) * 2019-02-14 2019-06-07 中国联合网络通信集团有限公司 客户升级投诉的预测方法、装置、设备及可读存储介质
CN109858702B (zh) * 2019-02-14 2021-02-19 中国联合网络通信集团有限公司 客户升级投诉的预测方法、装置、设备及可读存储介质
CN110110881B (zh) * 2019-03-21 2021-10-26 贵州电网有限责任公司 电力客户需求预测分析方法及系统
CN110110881A (zh) * 2019-03-21 2019-08-09 贵州电网有限责任公司 电力客户需求预测分析方法及系统
CN110032643B (zh) * 2019-04-02 2021-04-27 上海建工四建集团有限公司 一种建筑维修工单分析方法、装置、存储介质及客户端
CN110032643A (zh) * 2019-04-02 2019-07-19 上海建工四建集团有限公司 一种建筑维修工单分析方法、装置、存储介质及客户端
CN110119851A (zh) * 2019-05-23 2019-08-13 上海建工四建集团有限公司 一种建筑机电系统故障智能预测方法和系统
CN110119851B (zh) * 2019-05-23 2021-11-09 上海建工四建集团有限公司 一种建筑机电系统故障智能预测方法和系统
CN110378727A (zh) * 2019-07-05 2019-10-25 深圳壹账通智能科技有限公司 产品潜在用户确定方法、装置、计算机设备和存储介质
CN110827040A (zh) * 2019-10-31 2020-02-21 支付宝(杭州)信息技术有限公司 一种消费者诉求解决方法和系统
CN113495909A (zh) * 2020-04-06 2021-10-12 中信百信银行股份有限公司 客诉单量预警方法、装置、电子设备及存储介质
CN111489095B (zh) * 2020-04-15 2023-07-25 腾讯科技(深圳)有限公司 一种风险用户管理方法、装置、计算机设备和存储介质
CN111489095A (zh) * 2020-04-15 2020-08-04 腾讯科技(深圳)有限公司 一种风险用户管理方法、装置、计算机设备和存储介质
CN111353792A (zh) * 2020-05-25 2020-06-30 广东电网有限责任公司惠州供电局 一种可视化展现与数据分析的客户画像系统
CN111741155A (zh) * 2020-06-24 2020-10-02 广西东信易通科技有限公司 一种基于隐私号平台降低投诉率的系统
CN111741155B (zh) * 2020-06-24 2022-02-18 广西东信易通科技有限公司 一种基于隐私号平台降低投诉率的系统
CN112183068A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种客户投诉事件差异化处理方法及系统
CN113377833A (zh) * 2021-06-08 2021-09-10 中电福富信息科技有限公司 基于电信大数据的不满意服务标签的构建方法
CN113253997B (zh) * 2021-06-23 2021-10-08 南京铉盈网络科技有限公司 一种图形化前端工程化框架构建方法
CN113253997A (zh) * 2021-06-23 2021-08-13 南京铉盈网络科技有限公司 一种图形化前端工程化框架构建方法
CN113592297A (zh) * 2021-07-30 2021-11-02 国家电网有限公司客户服务中心 一种电力系统专属式客户管理方法及系统
CN113592297B (zh) * 2021-07-30 2023-11-24 国家电网有限公司客户服务中心 一种电力系统专属式客户管理方法及系统
CN113610399A (zh) * 2021-08-09 2021-11-05 广州品唯软件有限公司 一种客服后台的风险监控方法、系统及装置
CN114169770A (zh) * 2021-12-09 2022-03-11 福州大学 考虑人事时多要素的供电质量投诉预警系统
CN117114452A (zh) * 2023-10-23 2023-11-24 中科云谷科技有限公司 用于确定施工方案的方法、处理器、装置及存储介质
CN117114452B (zh) * 2023-10-23 2024-01-09 中科云谷科技有限公司 用于确定施工方案的方法、处理器、装置及存储介质

Also Published As

Publication number Publication date
CN107992609B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN107992609A (zh) 一种基于文本分类技术和决策树的投诉倾向判断方法
CN110619506B (zh) 一种岗位画像生成方法、岗位画像生成装置及电子设备
Dosman et al. Socioeconomic determinants of health‐and food safety‐related risk perceptions
CN111160992A (zh) 一种基于用户画像体系的营销系统
Gil-Clavel et al. Demographic differentials in Facebook usage around the world
CN115271635B (zh) 智慧社区服务平台系统
CN110532400A (zh) 基于文本分类预测的知识库维护方法及装置
CN109255027B (zh) 一种电商评论情感分析降噪的方法和装置
CN112101971B (zh) 敏感客户识别方法、系统及存储介质
CN110222145A (zh) 一种智能法律评估方法和系统
CN113064992A (zh) 投诉工单结构化处理方法、装置、设备及存储介质
CN113051291A (zh) 工单信息的处理方法、装置、设备及存储介质
CN115759640A (zh) 一种智慧城市的公共服务信息处理系统及方法
CN106570763A (zh) 用户影响力评估的方法及系统
CN113435627A (zh) 基于工单轨迹信息的电力客户投诉预测方法及装置
CN106528850A (zh) 基于机器学习聚类算法的门禁数据异常检测方法
CN112711711A (zh) 基于知识库的客户营销线索推荐方法及装置
CN107705227A (zh) 一种用于提供法律金融服务的网络系统
CN105303349A (zh) 一种铁路货运业务预警方法
CN113191922A (zh) 诉讼决策信息请求处理方法及装置
CN108509588A (zh) 一种基于大数据的律师评估方法及推荐方法
CN116151840A (zh) 一种基于大数据的用户服务数据智能管理系统及方法
CN114880663A (zh) 一种基于异常检测的黑产作弊识别方法和系统
CN114064873A (zh) 保险领域faq知识库构建方法、装置及电子设备
Soylu et al. Predicting the June 2019 Istanbul Mayoral Election with Twitter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant