CN107506475A - 一种基于Spark的海量电力客服文本分类方法 - Google Patents

一种基于Spark的海量电力客服文本分类方法 Download PDF

Info

Publication number
CN107506475A
CN107506475A CN201710803201.9A CN201710803201A CN107506475A CN 107506475 A CN107506475 A CN 107506475A CN 201710803201 A CN201710803201 A CN 201710803201A CN 107506475 A CN107506475 A CN 107506475A
Authority
CN
China
Prior art keywords
customer service
spark
text
power customer
electric power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710803201.9A
Other languages
English (en)
Inventor
李彬
邬庆莉
李钊
陈亮
陈硕
唐胜
谢玉波
曹健
李强
杨智斌
秦鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA REALTIME DATABASE Co Ltd
State Grid Corp of China SGCC
State Grid Liaoning Electric Power Co Ltd
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Original Assignee
CHINA REALTIME DATABASE Co Ltd
State Grid Corp of China SGCC
State Grid Liaoning Electric Power Co Ltd
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA REALTIME DATABASE Co Ltd, State Grid Corp of China SGCC, State Grid Liaoning Electric Power Co Ltd, Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd filed Critical CHINA REALTIME DATABASE Co Ltd
Priority to CN201710803201.9A priority Critical patent/CN107506475A/zh
Publication of CN107506475A publication Critical patent/CN107506475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种对客户服务文本的分类方法,特别是一种基于Spark的海量电力客户服务文本分类方法。随着智能电网技术的不断发展,电网企业发挥数据资源的战略资产作用,关键在于提升海量数据的管理和支撑能力,实现信息共享,为企业管理提供运营决策分析支持。本发明通过建立电力客户服务情感词典,对客服工单进行分词,分词后的数据存储至HDFS文件,运用Spark从中加载并转换成RDD,预处理后用改良的分类算法进行训练得出模型。本方法可以大幅提升工单数据的分类分析的准确性和高效性,以挖掘客户的真实诉求。

Description

一种基于Spark的海量电力客服文本分类方法
技术领域
本发明涉及一种对客户服务文本的分类方法,特别是电力行业基于Spark的海量客服文本分类方法。
技术背景
随着智能电网技术的不断发展,电网企业发挥数据资源的战略资产作用,关键在于提升海量数据的管理和支撑能力,实现信息共享,为企业管理提供运营决策分析支持。大数据是海量、多样化的数据资源,既包含传统的结构化业务数据,也包括文本等非结构化数据。电力客户服务呼叫中心为电力客户提供优质便捷的服务,需要对大量的工单数据进行分析,工单分类分析的准确性和高效性都需要提高无法适应数据量的增大,无法客观反映在不同工单中的供电服务热点事件,无法有效挖掘客户的真实诉求。
本发明提出了一种基于Spark的海量文本分类方法,可以大幅提升工单数据的分类分析的准确性和高效性,以挖掘客户的真实诉求。
Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
发明内容及附图
图1为一种基于Spark的海量电力客服文本分类方法完整流程图。
一种基于Spark的海量电力客服文本分类方法是:
1)构建电力客户服务情感词典,分为电力客户服务主词表、电力客户服务量词表、电力客户服务停用词,同时,根据电力客服的领域特性,从评论文本中整理出具有代表性的常见词串;
2)根据电力客户服务情感词典,对电力客服工单数据文本进行分词;
3)将分词后的电力客户服务文本数据集存储至HDFS文件系统中,Spark从HDFS中加载电力客户服务,并将数据转换成RDD存于内存;
4)对RDD进行相应的预处理,用改良后分类算法对训练集进行训练,得出分类模型;
5)运用交叉验证技术,得出分类模型的准确率。

Claims (5)

1.一种基于Spark的海量电力客服文本分类方法,其特征是:针对业务场景,比较了多个公开的情感词典,选择知网情感词典为基础,并根据电力客服领域的特点,针对性地选取了上百个词串,构建出了适用于电力客服文本分类的情感词典。
2.根据权利要求1所述,一种基于Spark的海量电力客服文本分类方法,其特征是:结合IKAnalyzer分词器,运用“正向迭代最细粒度切分算法”,根据业务场景需求,控制好分词的粒度,例如文本“仙女镇花园小区3幢2单元101室交错电费”,分词后文本是“仙女镇”“花园”“小区”“3幢”“2单元”“101室”“交错”“电费”,而不是“仙女”“镇”“交”“错”,因为这样的分词粒度过分的细,失去了分类的必要性和价值。
3.根据权利要求2所述,一种基于Spark的海量电力客服文本分类方法,其特征是:完成分词后,每个词都可以作为单独的特征,然而我们需要将中文的词汇转变成双精度类型的数值来表现;通常情况下,我们运用这个词汇的TF-IDF值当作特征值,该方法为文本中的各个词汇运算出两个数值:一个是词频(TF),即各个词汇在文本中存在的次数,另一个是逆文档频率(IDF),用来判断某个词在整个文档语料库中呈现的频繁水平;这两个值的乘积,也就是TF*IDF,表示了一个词与某个文本的相关程度;Spark的MLlib里存在两个方法能够得出TF-IDF,分别是HashingTF和IDF;HashingTF能够单次运行在某个文本里,同时也能够应用在全部的RDD中;它需要每个文本都运用对象的可迭代序列来体现。
4.根据权利要求3所述,一种基于Spark的海量电力客服文本分类方法,其特征是:根据贝叶斯定理的原理,我们需要求出分类类别的先验概率和调整因子(也称作“可能性函数”),Naive Bayes分类器是一种统计学分类引擎,构筑在已经存在的结果上,因此必须要有多组已经辨认完成的文本,例如:“客户投诉”、“客户求助”、“客户建议”、“紧急预警”等分组;然后用这些分组,对分类器训练。
5.根据权利要求4所述,一种基于Spark的海量电力客服文本分类方法,其特征是:Multinomial Naive Bayes模型假设各个特征之间条件独立,为算法的并行化提供了有力的条件;结合Spark的并行计算框架,得出电力客户服务分类模型。
CN201710803201.9A 2017-09-08 2017-09-08 一种基于Spark的海量电力客服文本分类方法 Pending CN107506475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710803201.9A CN107506475A (zh) 2017-09-08 2017-09-08 一种基于Spark的海量电力客服文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710803201.9A CN107506475A (zh) 2017-09-08 2017-09-08 一种基于Spark的海量电力客服文本分类方法

Publications (1)

Publication Number Publication Date
CN107506475A true CN107506475A (zh) 2017-12-22

Family

ID=60695919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710803201.9A Pending CN107506475A (zh) 2017-09-08 2017-09-08 一种基于Spark的海量电力客服文本分类方法

Country Status (1)

Country Link
CN (1) CN107506475A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364626A (zh) * 2020-11-25 2021-02-12 广东电网有限责任公司佛山供电局 一种安全措施智能管理方法及系统
CN112782469A (zh) * 2021-01-13 2021-05-11 公诚管理咨询有限公司 一种基于分布式计算的智能电网计量处理方法
CN113284007A (zh) * 2021-05-27 2021-08-20 国网电力科学研究院武汉能效测评有限公司 基于电力保险套餐的用电信息处理系统及其处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820703A (zh) * 2015-05-12 2015-08-05 武汉数为科技有限公司 一种文本精细分类方法
CN105760493A (zh) * 2016-02-18 2016-07-13 国网江苏省电力公司电力科学研究院 一种电力营销服务热点95598工单自动分类方法
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820703A (zh) * 2015-05-12 2015-08-05 武汉数为科技有限公司 一种文本精细分类方法
CN105760493A (zh) * 2016-02-18 2016-07-13 国网江苏省电力公司电力科学研究院 一种电力营销服务热点95598工单自动分类方法
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364626A (zh) * 2020-11-25 2021-02-12 广东电网有限责任公司佛山供电局 一种安全措施智能管理方法及系统
CN112364626B (zh) * 2020-11-25 2023-09-01 广东电网有限责任公司佛山供电局 一种安全措施智能管理方法及系统
CN112782469A (zh) * 2021-01-13 2021-05-11 公诚管理咨询有限公司 一种基于分布式计算的智能电网计量处理方法
CN113284007A (zh) * 2021-05-27 2021-08-20 国网电力科学研究院武汉能效测评有限公司 基于电力保险套餐的用电信息处理系统及其处理方法
CN113284007B (zh) * 2021-05-27 2023-07-04 国网电力科学研究院武汉能效测评有限公司 基于电力保险套餐的用电信息处理系统及其处理方法

Similar Documents

Publication Publication Date Title
Cai et al. Deeplearning model used in text classification
Ni et al. Sentiment Analysis based on GloVe and LSTM-GRU
PhridviRaj et al. Data mining–past, present and future–a typical survey on data streams
CN106528642B (zh) 一种基于tf-idf特征提取的短文本分类方法
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN104112026B (zh) 一种短信文本分类方法及系统
Do et al. Multiview deep learning for predicting twitter users' location
Yin et al. A new SVM method for short text classification based on semi-supervised learning
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN108446391A (zh) 数据的处理方法、装置、电子设备和计算机可读介质
Oza et al. Prediction of online lectures popularity: a text mining approach
CN107506475A (zh) 一种基于Spark的海量电力客服文本分类方法
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
Durga et al. Deep-Sentiment: An Effective Deep Sentiment Analysis Using a Decision-Based Recurrent Neural Network (D-RNN)
Nodarakis et al. Using hadoop for large scale analysis on twitter: A technical report
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及系统
CN109871889B (zh) 突发事件下大众心理评估方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
Huang Research on sentiment classification of tourist destinations based on convolutional neural network
CN108804410B (zh) 一种基于人工智能文本语义相似度分析的语义解释方法
Sun et al. Chinese microblog sentiment classification based on convolution neural network with content extension method
Kumar et al. Sarcasm detection in Telugu and Tamil: an exploration of machine learning and deep neural networks
Fen et al. Research on internet hot topic detection based on MapReduce architecture
CN111859924A (zh) 一种基于word2vec模型构建词网的方法和装置
Ahmad et al. Sentiment analysis of social media contents using machine learning algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171222