CN106530127A - 基于文本挖掘技术的客户投诉预警监测分析系统 - Google Patents
基于文本挖掘技术的客户投诉预警监测分析系统 Download PDFInfo
- Publication number
- CN106530127A CN106530127A CN201610984218.4A CN201610984218A CN106530127A CN 106530127 A CN106530127 A CN 106530127A CN 201610984218 A CN201610984218 A CN 201610984218A CN 106530127 A CN106530127 A CN 106530127A
- Authority
- CN
- China
- Prior art keywords
- complaint
- data
- early warning
- text
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 35
- 238000012544 monitoring process Methods 0.000 title claims abstract description 30
- 238000005065 mining Methods 0.000 title claims abstract description 15
- 238000007405 data analysis Methods 0.000 claims abstract description 5
- 238000005516 engineering process Methods 0.000 claims description 15
- 230000008451 emotion Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000011221 initial treatment Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims 1
- 238000005070 sampling Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 4
- 230000005611 electricity Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Water Supply & Treatment (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于文本挖掘技术的投诉预警监测分析系统,包括:文本数据规范化模块,将录入的文本数据转成统一规则的规范化数据模式;规范化数据分析预警模块,通过建立投诉分析等级聚类模型对规范化数据模式进行分析,根据聚类结果划分投诉风险等级,根据风险所在等级发出预警。本发明的投诉预警分析系统是以保证客户满意度最高为前提,大幅减少了人工梳理抽检的工作量,有效改进了被动式的事后溯源追责管理模式,便于有针对性的开展事前主动服务,从而实现对客户诉求的及时响应的专业管理要求。
Description
技术领域
本发明涉及基于文本挖掘技术的客户投诉预警监测分析系统,所属领域为电力行业客户危机管理领域。
背景技术
随着电力体制改革的逐步深化,电力销售市场竞争加剧,迫切需要供电企业迅速改变传统的思维方式和工作模式,进一步树立市场化服务意识,创新商业化服务模式,提升定制化、个性化服务水平,赢得客户的信任,确保市场份额。同时,随着民众自主意识和维权意识的不断提升,供电企业每一次的电价调整、服务手续变更甚至故障抢修,都受到了广大民众的密切关注。
作为与客户交流、沟通的重要窗口,95598客户服务系统记录了海量的客户信息。该系统中的数据主要分为结构化数据和非结构化数据。目前,针对系统中的结构化数据,系统通过对投诉数量、客户的满意度打分或问题处理时效等方面进行统计分析。对于客户反馈信息非结构化数据主要是以人工抽检梳理为主,不便于及时准确的掌握客户关注热点问题;且仅限于从时间、区域、业务类型等维度进行统计分析,使得监测分析的精细化程度不够;同时对投诉工单的文本数据虽然进行逐一的人工溯源分析,缺乏自动化监测分析,且侧重于事后追责,无法实现事前预警。
发明内容
本发明所要解决的技术问题在于克服现有技术不足,提供一种基于文本挖掘技术的投诉预警监测系统,能够针对专业管理部门及时、准确掌握客户反馈热点问题,以及事前预警客户投诉风险的要求,在客户反馈信息纷繁复杂、表达方式灵活多样下实现对客户投诉风险度的预警,解决了目前人工梳理效率低和事后溯源追责的被动式管理问题,从而保证了对每条工单的投诉风险等级预测,便于及时开展主动服务,提升了客户满意度。
为解决上述技术问题,本发明采用的技术方案是:
一种基于文本挖掘技术的投诉预警监测分析系统,包括:
文本数据规范化模块,用于将录入的文本数据转成统一规则的规范化数据模式;
规范化数据分析预警模块,用于通过建立投诉分析等级聚类模型对规范化数据模式进行分析,根据聚类结果划分投诉风险等级,根据风险所在等级发出相应的预警。
采用文本数据规范化模块将文本数据转化为结构化、标准化的规范化表达式,便于后期 处理应用;采用规范化数据分析预警模块实现对客户投诉风险等级的判定与预警,省去人工梳理和判别,有效提高了工作效率。
作为本发明的进一步限定方案,文本数据规范化模块包括:
文本初始处理单元,用于对录入的文本数据进行分词和去噪处理,获得各个文本数据中的关键词;
文本特征向量化单元,用于将各个关键词进行向量化并作归一化处理,获得由各个关键词Wi在文件dj中的向量化归一化结果建立的实数值矩阵,关键词Wi在文件dj中的向量化归一化结果为:
式中:N表示文件总数量;Ni表示包含关键词Wi的文件数量;n为关键词总次数;Wi为第i个关键词;dj表示第j个文件;tfij为关键词Wi在文件dj中的词频;为所有关键词在文件dj中的词频平方和;为文件总数量与包含关键词Wi文件的数量比值加上调整项0.01后取对数;
文本数据相似性匹配单元,用于根据建立的实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;
规范化数据生成单元,用于将匹配好的文本数据按照设定的统一规范化模式生成规范化数据。
作为本发明的进一步限定方案,规范化数据分析预警模块包括:
情感倾向度计算单元,用于对规范化数据进行情感判断并划分为积极、消极和中心三类;
投诉风险等级划分单元,用于根据客户等级、业务类型、积极倾向度以及投诉历史参数建立投诉分析等级聚类模型,并根据聚类结果制定投诉风险等级规则;
投诉分析预警单元,用于根据制定的投诉风险等级规则,选择模型变量参数,利用贝叶斯分类建立分类学习模型,通过对分类学习模型的训练实现对未知文本数据的投诉风险等级的预测。
作为本发明的进一步限定方案,情感倾向度计算单元的具体工作步骤为:
(1)建立连词和否定词词典库;
(2)根据连词和否定词词典库从规范化数据中抽取连词和否定词,并标记相应词在规范 化数据中的位置;
(3)匹配现有的情感词典库,获得词汇的极性及其情感评分值;
(4)通过连词位置,确定前句与后句所占比重,再根据否定词位置判断双重否定以及邻近词汇的极性反转;
(5)利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分;
(6)循环步骤(2)至(5),若情感计算评分为正则为积极,为负则为消极,否则为中心。
作为本发明的进一步限定方案,投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、有投诉倾向级、一般级以及无投诉倾向级这五个风险等级。
作为本发明的进一步限定方案,规范化数据分析预警模块还包括:
模型验证单元,用于将验证集数据输入建立的分类学习模型,获得验证集数据中各文本数据的投诉风险等级,并将结果集与验证集数据中对应的等级数据进行比对,计算模型预测的正确率。
本发明的有益效果在于:利用文本挖掘技术,将文本数据转化为结构化、标准化的规范化表达式;其次对客户反馈的文本信息进行情感分析,并计算其情感倾向度;最后利用有监督的分类学习算法,建立投诉预警监测模型,实现对客户投诉风险等级的判定与预警。
附图说明
图1为规范化表达式建立流程示意图;
图2为本发明提出的投诉风险等级计算流程图;
图3为本发明提出的投诉预警模型建立步骤示意图;
图4为本发明提出的投诉预警模型验证流程示意图;
图5为各区域工单数分布图;
图6为各等级工单数据分布图。
具体实施方式
下面结合附图,对本发明作详细说明:
本发明一种基于文本挖掘技术的投诉预警监测分析系统,包括文本数据规范化模块和规范化数据分析预警模块,其中,文本数据规范化模块,用于将录入的文本数据转成统一规则的规范化数据模式;规范化数据分析预警模块,用于通过建立投诉分析等级聚类模型对规范 化数据模式进行分析,根据聚类结果划分投诉风险等级,根据风险所在等级发出相应的预警。
采用文本数据规范化模块将文本数据转化为结构化、标准化的规范化表达式,便于后期处理应用;采用规范化数据分析预警模块实现对客户投诉风险等级的判定与预警,省去人工梳理和判别,有效提高了工作效率。
作为本发明进一步公开方案,文本数据规范化模块包括文本初始处理单元、文本特征向量化单元、文本数据相似性匹配单元以及规范化数据生成单元;文本数据规范化模块的具体处理步骤如图1所示,首先将录入的文本数据(95598工单数据)进行分词、去噪处理;接着进行向量化处理成向量矩阵、词相关矩阵;然后进行关联分析生成近义词词库;根据业务类型和近义词词库对文本数据进行规范化表达。
其中,文本初始处理单元,用于对录入的文本数据进行分词和去噪处理,获得各个文本数据中的关键词;
文本特征向量化单元,用于将各个关键词进行向量化并作归一化处理,获得由各个关键词Wi在文件dj中的向量化归一化结果建立的实数值矩阵,关键词Wi在文件dj中的向量化归一化结果为:
式中:N表示文件总数量;Ni表示包含关键词Wi的文件数量;n为关键词总次数;Wi为第i个关键词;dj表示第j个文件;tfij为关键词Wi在文件dj中的词频;为所有关键词在文件dj中的词频平方和;为文件总数量与包含关键词Wi文件的数量比值加上调整项0.01后取对数;
文本数据相似性匹配单元,用于根据建立的实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;
规范化数据生成单元,用于将匹配好的文本数据按照设定的统一规范化模式生成规范化数据。
作为本发明进一步公开方案,规范化数据分析预警模块包括:
情感倾向度计算单元,用于对规范化数据进行情感判断并划分为积极、消极和中心三类;
投诉风险等级划分单元,用于根据客户等级、业务类型、积极倾向度以及投诉历史参数建立投诉分析等级聚类模型,并根据聚类结果制定投诉风险等级规则;
投诉分析预警单元,用于根据制定的投诉风险等级规则,选择模型变量参数(如有无投诉历史、业务类型以及客户等级),利用贝叶斯分类建立分类学习模型,通过对分类学习模型的训练实现对未知文本数据的投诉风险等级的预测。
本发明基于文本挖掘技术的投诉预警监测分析系统实现的具体步骤为:
(一)建立规范化表达式
1、中文分词
基于95598工单数据,建立分词语料库和特殊符号表,对预料库中相邻共现的各个字的组合的频度进行统计,计算其相关度。计算公式如下:
其中,M表示预料库字数,NA表示A在预料库中出现的次数,NB表示B在预料库中出现的次数,NAB表示AB在预料库中一起出现的次数。
2、文本特征向量化
从95598工单文本内容中选择出一部分最为有效的特征,使得新特征空间的维度往往远小于原始空间维度,实现对文本特征向量的进一步净化,并在保持原文本含义的情况下,计算最能反馈文本内容,又简洁的特征向量。通过对文本特征项做归一化处理,减轻了不同长度文本对文本相似度计算结果的影响。计算公式如下:
式中:N表示文件总数量;Ni表示包含关键词Wi的文件数量;n为关键词总次数;Wi为第i个关键词;dj表示第j个文件;tfij为关键词Wi在文件dj中的词频;为所有关键词在文件dj中的词频平方和;为文件总数量与包含关键词Wi文件的数量比值加上调整项0.01后取对数。
3、根据词向量转换后的实数值矩阵,利用余弦定理,计算各个词组间的余弦相似度,并将余弦距离最近的词进行匹配,形成近义词词库。
4、建立规范化表达式
结合95598系统业务分类,实现对客户反馈文本信息的规范化表示,形如:投诉-超崔人员-态度。
(二)建立投诉预警监测模型
1、计算情感倾向度
(1)基于大连理工大学情感词典,以95598工单业务类别为表扬文本作为补充修改,同时建立连词和否定词词典,建立情感训练库。
(2)从95598工单中抽取连词和否定词,并标记相应词位置。
(3)匹配情感词典,确定词汇极性及其情感评分值,词汇极性和情感评分值为情感词典中现有的基本参数。
(4)通过连词位置,确定前句与后句所占比重,同时根据否定词位置判读双重否定,以及邻进词汇的极性反转。
(5)累加工单文本情感计算评分。
(6)循环步骤(2)至(5),若为正则为积极,为负则为消极,否则为中心。
2、制定投诉风险等级
通过将工单文本数据转换成向量化矩阵,选取客户等级、积极倾向度、投诉历史等参数,建立投诉分析等级聚类模型,最终根据聚类结果,将投诉风险等级划分为5类,如图2所示。
3、建立投诉分析预警模型
将数据源分为模型训练集和验证集,并根据制定的投诉风险等级规则,选择模型变量(如有无投诉历史、业务类型、客户等级等),利用贝叶斯分类建立分类学习模型,通过模型训练实现对未知工单的投诉风险等级的预测,模型训练的步骤如图3所示。
4、模型验证
如图4所示,将验证集数据输入分类学习模型,通过模型预测各工单的投诉风险等级,并将结果集与验证集中的数据进行比对,计算模型预测的正确率。
实施例:
收集95598系统南京市8月份工单数据,共计87359条。包括业务咨询、故障报修、建议、意见、投诉、举报等九类工单的数据。其中南京市区产生工单最多为58151条,其次为江宁区为13248条,各区域工单数分布详见图5。
1、8月份主动服务等级工单监测分析
通过模型计算,将8月份南京市工单分为五类主动服务等级。其中一级工单为232条,二级工单为208条,由于一级、二级工单的主动服务等级较高,需要进行及时处理,所以以下重点分析一级、二级工单在各区域的分布情况以及模型验证监测分析。各等级工单数据分布详情见图6:
(1)各等级工单在区域的监测分析
根据模型监测结果,南京市区一级、二级工单数量最多分别为109条和90条;其次为江宁区分别为66条和62条;浦口、六合、溧水相对较少,其中浦口分别为20、24条,六合分别为14、14条,溧水区分别为14、10条;高淳区最少分别为9、8条。各等级工单在区域的业务和数量分布详见下表:
(2)一级、二级工单内容分析
根据模型监测结果,各区域一级工单内容排名最高的为报修-无电,占比分别为江宁约占26%,浦口约占28%,市区约占22%,六合约占31%,高淳约占26%,溧水约占31%;一级工单内容排名第二的为设备-故障和报修-多户-无电,其中江宁、浦口和南京市区排名第二的内容是设备-故障,分别占16%、18%和21%,六合、高淳和溧水排名第二的内容为报修-多户-无电,分别占18%、19%和25%。二级工单内容在各区域的占比排名情况与第一等级类似,具体如下表:
2、模型预警监测分析
在监测周期内,利用主动服务预警模型,共预警一级、二级工单440条(投诉类工单128条,非投诉类工单312条)。经过验证发现,在一级、二级非投诉类工单中有35条最终引起客户投诉,其中有13条工单(一级工单7条,二级工单6条)直接引起客户投诉,主要业务类型是故障报修5条、服务申请3条、业务咨询5条;剩余22条(一级工单12条,二级工单10条)工单是通过关联最终引起客户投诉,共9条。在这35条工单中,业务咨询占比最高约为54%,其次是故障报修和服务申请,分别约为34%、12%。
通过对模型预警结果的监测分析,在实际发生的128条投诉工单中,有106条是客户在没有历史行为的情况下直接进行投诉。剩余工单是客户在投诉前有相应的故障报修、业务咨询等历史行为,且全部包含在本次监测结果中。验证了模型对监测周期内非投诉类工单后期转化为投诉工单的捕获能力。
利用投诉预警模型,及时捕获投诉风险度较的工单,便于业务部门及时开展主动服务,从而降低投诉工单数据,提升客户的满意度。
Claims (6)
1.一种基于文本挖掘技术的投诉预警监测分析系统,其特征在于,包括:
文本数据规范化模块,用于将录入的文本数据转成统一规则的规范化数据模式;
规范化数据分析预警模块,用于通过建立投诉分析等级聚类模型对规范化数据模式进行分析,根据聚类结果划分投诉风险等级,根据风险所在等级发出相应的预警。
2.根据权利要求1所述的基于文本挖掘技术的投诉预警监测分析系统,其特征在于,文本数据规范化模块包括:
文本初始处理单元,用于对录入的文本数据进行分词和去噪处理,获得各个文本数据中的关键词;
文本特征向量化单元,用于将各个关键词进行向量化并作归一化处理,获得由各个关键词Wi在文件dj中的向量化归一化结果建立的实数值矩阵,关键词Wi在文件dj中的向量化归一化结果为:
式中:N表示文件总数量;Ni表示包含关键词Wi的文件数量;n为关键词总次数;Wi为第i个关键词;dj表示第j个文件;tfij为关键词Wi在文件dj中的词频;为所有关键词在文件dj中的词频平方和;为文件总数量与包含关键词Wi文件的数量比值加上调整项0.01后取对数;
文本数据相似性匹配单元,用于根据建立的实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;
规范化数据生成单元,用于将匹配好的文本数据按照设定的统一规范化模式生成规范化数据。
3.根据权利要求2所述的基于文本挖掘技术的投诉预警监测分析系统,其特征在于,规范化数据分析预警模块包括:
情感倾向度计算单元,用于对规范化数据进行情感判断并划分为积极、消极和中心三类;
投诉风险等级划分单元,用于根据客户等级、业务类型、积极倾向度以及投诉历史参数建立投诉分析等级聚类模型,并根据聚类结果制定投诉风险等级规则;
投诉分析预警单元,用于根据制定的投诉风险等级规则,选择模型变量参数,利用贝叶斯分类建立分类学习模型,通过对分类学习模型的训练实现对未知文本数据的投诉风险等级的预测。
4.根据权利要求3所述的基于文本挖掘技术的投诉预警监测分析系统,其特征在于,情感倾向度计算单元的具体工作步骤为:
(1)建立连词和否定词词典库;
(2)根据连词和否定词词典库从规范化数据中抽取连词和否定词,并标记相应词在规范化数据中的位置;
(3)匹配现有的情感词典库,获得词汇的极性及其情感评分值;
(4)通过连词位置,确定前句与后句所占比重,再根据否定词位置判断双重否定以及邻近词汇的极性反转;
(5)利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分;
(6)循环步骤(2)至(5),若情感计算评分为正则为积极,为负则为消极,否则为中心。
5.根据权利要求3所述的基于文本挖掘技术的投诉预警监测分析系统,其特征在于,投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、有投诉倾向级、一般级以及无投诉倾向级这五个风险等级。
6.根据权利要求3所述的基于文本挖掘技术的投诉预警监测分析系统,其特征在于,规范化数据分析预警模块还包括:
模型验证单元,用于将验证集数据输入建立的分类学习模型,获得验证集数据中各文本数据的投诉风险等级,并将结果集与验证集数据中对应的等级数据进行比对,计算模型预测的正确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610984218.4A CN106530127B (zh) | 2016-11-09 | 2016-11-09 | 基于文本挖掘技术的客户投诉预警监测分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610984218.4A CN106530127B (zh) | 2016-11-09 | 2016-11-09 | 基于文本挖掘技术的客户投诉预警监测分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106530127A true CN106530127A (zh) | 2017-03-22 |
CN106530127B CN106530127B (zh) | 2023-07-14 |
Family
ID=58350324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610984218.4A Expired - Fee Related CN106530127B (zh) | 2016-11-09 | 2016-11-09 | 基于文本挖掘技术的客户投诉预警监测分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106530127B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107147521A (zh) * | 2017-05-10 | 2017-09-08 | 山东浪潮商用系统有限公司 | 一种投诉业务预警监控方法 |
CN107180070A (zh) * | 2017-03-29 | 2017-09-19 | 暨南大学 | 一种风险信息自动分类、识别与预警方法及系统 |
CN107944761A (zh) * | 2017-12-18 | 2018-04-20 | 广东广业开元科技有限公司 | 基于人工智能消费维权指数企业投诉预警监测分析方法 |
CN107992613A (zh) * | 2017-12-18 | 2018-05-04 | 广东广业开元科技有限公司 | 一种基于机器学习的文本挖掘技术消费维权指标分析方法 |
CN108021704A (zh) * | 2017-12-27 | 2018-05-11 | 广东广业开元科技有限公司 | 一种基于社会舆情数据挖掘技术的坐席优化配置方法 |
CN108108352A (zh) * | 2017-12-18 | 2018-06-01 | 广东广业开元科技有限公司 | 一种基于机器学习文本挖掘技术的企业投诉风险预警方法 |
CN108269218A (zh) * | 2018-04-18 | 2018-07-10 | 广东电网有限责任公司 | 一种外部诉求处理信息系统 |
CN109636607A (zh) * | 2018-12-18 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于模型部署的业务数据处理方法、装置和计算机设备 |
CN109710766A (zh) * | 2018-12-29 | 2019-05-03 | 云南电网有限责任公司电力科学研究院 | 一种工单数据的投诉倾向分析预警方法及装置 |
CN109858976A (zh) * | 2019-02-22 | 2019-06-07 | 北京智乐瑟维科技有限公司 | 产品的业务预警方法、装置、存储介质和设备 |
CN110349039A (zh) * | 2019-06-13 | 2019-10-18 | 中国平安人寿保险股份有限公司 | 投诉风险评估方法、系统、计算机设备及可读存储介质 |
CN110493806A (zh) * | 2018-05-15 | 2019-11-22 | 中国移动通信集团浙江有限公司 | 移动网络投诉溯源方法及装置 |
CN111105248A (zh) * | 2019-12-03 | 2020-05-05 | 广东电网有限责任公司 | 一种基于客户画像的客户诉求自动预警系统 |
CN111222896A (zh) * | 2020-01-17 | 2020-06-02 | 中信百信银行股份有限公司 | 客诉问题处理方法、装置、设备及存储介质 |
CN111355849A (zh) * | 2018-12-24 | 2020-06-30 | 北京国双科技有限公司 | 一种话务工单处理方法及装置 |
CN111353792A (zh) * | 2020-05-25 | 2020-06-30 | 广东电网有限责任公司惠州供电局 | 一种可视化展现与数据分析的客户画像系统 |
CN113360647A (zh) * | 2021-06-03 | 2021-09-07 | 云南大学 | 一种基于聚类的5g移动业务投诉溯源分析方法 |
CN114169770A (zh) * | 2021-12-09 | 2022-03-11 | 福州大学 | 考虑人事时多要素的供电质量投诉预警系统 |
CN115564332A (zh) * | 2022-10-08 | 2023-01-03 | 深圳中科保泰科技有限公司 | 基于大数据的政务风险分析方法及系统 |
US11954443B1 (en) | 2021-06-03 | 2024-04-09 | Wells Fargo Bank, N.A. | Complaint prioritization using deep learning model |
US12008579B1 (en) | 2021-08-09 | 2024-06-11 | Wells Fargo Bank, N.A. | Fraud detection using emotion-based deep learning model |
US12079826B1 (en) | 2021-06-25 | 2024-09-03 | Wells Fargo Bank, N.A. | Predicting customer interaction using deep learning model |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188705A (zh) * | 2011-12-29 | 2013-07-03 | 中国移动通信集团广东有限公司 | 一种对批量投诉进行告警定位的方法和告警定位装置 |
CN103886501A (zh) * | 2014-04-08 | 2014-06-25 | 苏州大学 | 一种基于语义情感分析的贷后风险预警系统 |
CN105335496A (zh) * | 2015-10-22 | 2016-02-17 | 国网山东省电力公司电力科学研究院 | 基于余弦相似度文本挖掘算法的客服重复来电处理方法 |
CN105930347A (zh) * | 2016-04-05 | 2016-09-07 | 浙江远传信息技术股份有限公司 | 基于文本分析的停电原因识别系统 |
-
2016
- 2016-11-09 CN CN201610984218.4A patent/CN106530127B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188705A (zh) * | 2011-12-29 | 2013-07-03 | 中国移动通信集团广东有限公司 | 一种对批量投诉进行告警定位的方法和告警定位装置 |
CN103886501A (zh) * | 2014-04-08 | 2014-06-25 | 苏州大学 | 一种基于语义情感分析的贷后风险预警系统 |
CN105335496A (zh) * | 2015-10-22 | 2016-02-17 | 国网山东省电力公司电力科学研究院 | 基于余弦相似度文本挖掘算法的客服重复来电处理方法 |
CN105930347A (zh) * | 2016-04-05 | 2016-09-07 | 浙江远传信息技术股份有限公司 | 基于文本分析的停电原因识别系统 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180070A (zh) * | 2017-03-29 | 2017-09-19 | 暨南大学 | 一种风险信息自动分类、识别与预警方法及系统 |
CN107147521A (zh) * | 2017-05-10 | 2017-09-08 | 山东浪潮商用系统有限公司 | 一种投诉业务预警监控方法 |
CN107147521B (zh) * | 2017-05-10 | 2020-02-14 | 浪潮天元通信信息系统有限公司 | 一种投诉业务预警监控方法 |
CN107944761A (zh) * | 2017-12-18 | 2018-04-20 | 广东广业开元科技有限公司 | 基于人工智能消费维权指数企业投诉预警监测分析方法 |
CN107992613A (zh) * | 2017-12-18 | 2018-05-04 | 广东广业开元科技有限公司 | 一种基于机器学习的文本挖掘技术消费维权指标分析方法 |
CN108108352A (zh) * | 2017-12-18 | 2018-06-01 | 广东广业开元科技有限公司 | 一种基于机器学习文本挖掘技术的企业投诉风险预警方法 |
CN108021704B (zh) * | 2017-12-27 | 2021-05-04 | 广东广业开元科技有限公司 | 一种基于社会舆情数据挖掘技术的坐席优化配置方法 |
CN108021704A (zh) * | 2017-12-27 | 2018-05-11 | 广东广业开元科技有限公司 | 一种基于社会舆情数据挖掘技术的坐席优化配置方法 |
CN108269218A (zh) * | 2018-04-18 | 2018-07-10 | 广东电网有限责任公司 | 一种外部诉求处理信息系统 |
CN110493806B (zh) * | 2018-05-15 | 2022-08-05 | 中国移动通信集团浙江有限公司 | 移动网络投诉溯源方法及装置 |
CN110493806A (zh) * | 2018-05-15 | 2019-11-22 | 中国移动通信集团浙江有限公司 | 移动网络投诉溯源方法及装置 |
CN109636607B (zh) * | 2018-12-18 | 2024-03-15 | 平安科技(深圳)有限公司 | 基于模型部署的业务数据处理方法、装置和计算机设备 |
CN109636607A (zh) * | 2018-12-18 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于模型部署的业务数据处理方法、装置和计算机设备 |
CN111355849A (zh) * | 2018-12-24 | 2020-06-30 | 北京国双科技有限公司 | 一种话务工单处理方法及装置 |
CN109710766A (zh) * | 2018-12-29 | 2019-05-03 | 云南电网有限责任公司电力科学研究院 | 一种工单数据的投诉倾向分析预警方法及装置 |
CN109710766B (zh) * | 2018-12-29 | 2023-01-20 | 云南电网有限责任公司电力科学研究院 | 一种工单数据的投诉倾向分析预警方法及装置 |
CN109858976A (zh) * | 2019-02-22 | 2019-06-07 | 北京智乐瑟维科技有限公司 | 产品的业务预警方法、装置、存储介质和设备 |
CN110349039A (zh) * | 2019-06-13 | 2019-10-18 | 中国平安人寿保险股份有限公司 | 投诉风险评估方法、系统、计算机设备及可读存储介质 |
CN110349039B (zh) * | 2019-06-13 | 2024-03-05 | 中国平安人寿保险股份有限公司 | 投诉风险评估方法、系统、计算机设备及可读存储介质 |
CN111105248A (zh) * | 2019-12-03 | 2020-05-05 | 广东电网有限责任公司 | 一种基于客户画像的客户诉求自动预警系统 |
CN111222896A (zh) * | 2020-01-17 | 2020-06-02 | 中信百信银行股份有限公司 | 客诉问题处理方法、装置、设备及存储介质 |
CN111353792A (zh) * | 2020-05-25 | 2020-06-30 | 广东电网有限责任公司惠州供电局 | 一种可视化展现与数据分析的客户画像系统 |
CN113360647A (zh) * | 2021-06-03 | 2021-09-07 | 云南大学 | 一种基于聚类的5g移动业务投诉溯源分析方法 |
US11954443B1 (en) | 2021-06-03 | 2024-04-09 | Wells Fargo Bank, N.A. | Complaint prioritization using deep learning model |
US12079826B1 (en) | 2021-06-25 | 2024-09-03 | Wells Fargo Bank, N.A. | Predicting customer interaction using deep learning model |
US12008579B1 (en) | 2021-08-09 | 2024-06-11 | Wells Fargo Bank, N.A. | Fraud detection using emotion-based deep learning model |
CN114169770A (zh) * | 2021-12-09 | 2022-03-11 | 福州大学 | 考虑人事时多要素的供电质量投诉预警系统 |
CN114169770B (zh) * | 2021-12-09 | 2024-09-06 | 福州大学 | 考虑人事时多要素的供电质量投诉预警系统 |
CN115564332A (zh) * | 2022-10-08 | 2023-01-03 | 深圳中科保泰科技有限公司 | 基于大数据的政务风险分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106530127B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106530127A (zh) | 基于文本挖掘技术的客户投诉预警监测分析系统 | |
CN106529804A (zh) | 基于文本挖掘技术的客户投诉预警监测分析方法 | |
CN104820629B (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN110334212A (zh) | 一种基于机器学习的领域性审计知识图谱构建方法 | |
CN108108352A (zh) | 一种基于机器学习文本挖掘技术的企业投诉风险预警方法 | |
CN107861942A (zh) | 一种基于深度学习的电力疑似投诉工单识别方法 | |
CN111950932A (zh) | 基于多源信息融合的中小微企业综合质量画像方法 | |
CN107122432A (zh) | 企业社会责任分析方法、装置和系统 | |
CN103150333A (zh) | 微博媒体中的意见领袖识别方法 | |
CN107885849A (zh) | 一种基于文本分类的情绪指数分析系统 | |
CN114860882A (zh) | 一种基于文本分类模型的公平竞争审查辅助方法 | |
CN106227802A (zh) | 一种基于中文自然语言处理和多核分类器的多信源股价预测方法 | |
Li et al. | Credit risk management of scientific and technological enterprises based on text mining | |
Featherstone et al. | Validating sentiment analysis on opinion mining using self-reported attitude scores | |
CN114004218A (zh) | 一种针对政府工作报告的nlp识别方法 | |
CN107886223A (zh) | 民事案件复杂度指标评价方法及系统 | |
CN116629609A (zh) | 一种基于文本挖掘的企业安全生产风险等级划分方法 | |
CN108763349B (zh) | 基于社交媒体数据的城市土地利用混合度测算方法及系统 | |
CN110750622A (zh) | 基于大数据的金融事件发现方法 | |
Zhou et al. | Sentiment Analysis on Power Rationing Micro Blog Comments Based on SnowNLP-SVM-LDA Model | |
CN115239190A (zh) | 一种安全责任制综合评估系统 | |
Nakano et al. | Enhancing Sentiment Analysis based Investment by Large Language Models in Japanese Stock Market | |
Wang et al. | Fault location of strip steel surface quality defects on hot-rolling production line based on information fusion of historical cases and process data | |
CN114266646A (zh) | 基于网联摘要计算的用户消费行为监测分析方法及系统 | |
CN110968795B (zh) | 一种公司形象提升系统的数据关联匹配系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230714 |