CN107506475A - 一种基于Spark的海量电力客服文本分类方法 - Google Patents
一种基于Spark的海量电力客服文本分类方法 Download PDFInfo
- Publication number
- CN107506475A CN107506475A CN201710803201.9A CN201710803201A CN107506475A CN 107506475 A CN107506475 A CN 107506475A CN 201710803201 A CN201710803201 A CN 201710803201A CN 107506475 A CN107506475 A CN 107506475A
- Authority
- CN
- China
- Prior art keywords
- customer service
- spark
- text
- power customer
- electric power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000005611 electricity Effects 0.000 claims 2
- 108090000623 proteins and genes Proteins 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
- 230000011218 segmentation Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000010224 classification analysis Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 abstract description 2
- 238000013500 data storage Methods 0.000 abstract 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种对客户服务文本的分类方法,特别是一种基于Spark的海量电力客户服务文本分类方法。随着智能电网技术的不断发展,电网企业发挥数据资源的战略资产作用,关键在于提升海量数据的管理和支撑能力,实现信息共享,为企业管理提供运营决策分析支持。本发明通过建立电力客户服务情感词典,对客服工单进行分词,分词后的数据存储至HDFS文件,运用Spark从中加载并转换成RDD,预处理后用改良的分类算法进行训练得出模型。本方法可以大幅提升工单数据的分类分析的准确性和高效性,以挖掘客户的真实诉求。
Description
技术领域
本发明涉及一种对客户服务文本的分类方法,特别是电力行业基于Spark的海量客服文本分类方法。
技术背景
随着智能电网技术的不断发展,电网企业发挥数据资源的战略资产作用,关键在于提升海量数据的管理和支撑能力,实现信息共享,为企业管理提供运营决策分析支持。大数据是海量、多样化的数据资源,既包含传统的结构化业务数据,也包括文本等非结构化数据。电力客户服务呼叫中心为电力客户提供优质便捷的服务,需要对大量的工单数据进行分析,工单分类分析的准确性和高效性都需要提高无法适应数据量的增大,无法客观反映在不同工单中的供电服务热点事件,无法有效挖掘客户的真实诉求。
本发明提出了一种基于Spark的海量文本分类方法,可以大幅提升工单数据的分类分析的准确性和高效性,以挖掘客户的真实诉求。
Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
发明内容及附图
图1为一种基于Spark的海量电力客服文本分类方法完整流程图。
一种基于Spark的海量电力客服文本分类方法是:
1)构建电力客户服务情感词典,分为电力客户服务主词表、电力客户服务量词表、电力客户服务停用词,同时,根据电力客服的领域特性,从评论文本中整理出具有代表性的常见词串;
2)根据电力客户服务情感词典,对电力客服工单数据文本进行分词;
3)将分词后的电力客户服务文本数据集存储至HDFS文件系统中,Spark从HDFS中加载电力客户服务,并将数据转换成RDD存于内存;
4)对RDD进行相应的预处理,用改良后分类算法对训练集进行训练,得出分类模型;
5)运用交叉验证技术,得出分类模型的准确率。
Claims (5)
1.一种基于Spark的海量电力客服文本分类方法,其特征是:针对业务场景,比较了多个公开的情感词典,选择知网情感词典为基础,并根据电力客服领域的特点,针对性地选取了上百个词串,构建出了适用于电力客服文本分类的情感词典。
2.根据权利要求1所述,一种基于Spark的海量电力客服文本分类方法,其特征是:结合IKAnalyzer分词器,运用“正向迭代最细粒度切分算法”,根据业务场景需求,控制好分词的粒度,例如文本“仙女镇花园小区3幢2单元101室交错电费”,分词后文本是“仙女镇”“花园”“小区”“3幢”“2单元”“101室”“交错”“电费”,而不是“仙女”“镇”“交”“错”,因为这样的分词粒度过分的细,失去了分类的必要性和价值。
3.根据权利要求2所述,一种基于Spark的海量电力客服文本分类方法,其特征是:完成分词后,每个词都可以作为单独的特征,然而我们需要将中文的词汇转变成双精度类型的数值来表现;通常情况下,我们运用这个词汇的TF-IDF值当作特征值,该方法为文本中的各个词汇运算出两个数值:一个是词频(TF),即各个词汇在文本中存在的次数,另一个是逆文档频率(IDF),用来判断某个词在整个文档语料库中呈现的频繁水平;这两个值的乘积,也就是TF*IDF,表示了一个词与某个文本的相关程度;Spark的MLlib里存在两个方法能够得出TF-IDF,分别是HashingTF和IDF;HashingTF能够单次运行在某个文本里,同时也能够应用在全部的RDD中;它需要每个文本都运用对象的可迭代序列来体现。
4.根据权利要求3所述,一种基于Spark的海量电力客服文本分类方法,其特征是:根据贝叶斯定理的原理,我们需要求出分类类别的先验概率和调整因子(也称作“可能性函数”),Naive Bayes分类器是一种统计学分类引擎,构筑在已经存在的结果上,因此必须要有多组已经辨认完成的文本,例如:“客户投诉”、“客户求助”、“客户建议”、“紧急预警”等分组;然后用这些分组,对分类器训练。
5.根据权利要求4所述,一种基于Spark的海量电力客服文本分类方法,其特征是:Multinomial Naive Bayes模型假设各个特征之间条件独立,为算法的并行化提供了有力的条件;结合Spark的并行计算框架,得出电力客户服务分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710803201.9A CN107506475A (zh) | 2017-09-08 | 2017-09-08 | 一种基于Spark的海量电力客服文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710803201.9A CN107506475A (zh) | 2017-09-08 | 2017-09-08 | 一种基于Spark的海量电力客服文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107506475A true CN107506475A (zh) | 2017-12-22 |
Family
ID=60695919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710803201.9A Pending CN107506475A (zh) | 2017-09-08 | 2017-09-08 | 一种基于Spark的海量电力客服文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107506475A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364626A (zh) * | 2020-11-25 | 2021-02-12 | 广东电网有限责任公司佛山供电局 | 一种安全措施智能管理方法及系统 |
CN112782469A (zh) * | 2021-01-13 | 2021-05-11 | 公诚管理咨询有限公司 | 一种基于分布式计算的智能电网计量处理方法 |
CN113284007A (zh) * | 2021-05-27 | 2021-08-20 | 国网电力科学研究院武汉能效测评有限公司 | 基于电力保险套餐的用电信息处理系统及其处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820703A (zh) * | 2015-05-12 | 2015-08-05 | 武汉数为科技有限公司 | 一种文本精细分类方法 |
CN105760493A (zh) * | 2016-02-18 | 2016-07-13 | 国网江苏省电力公司电力科学研究院 | 一种电力营销服务热点95598工单自动分类方法 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
-
2017
- 2017-09-08 CN CN201710803201.9A patent/CN107506475A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820703A (zh) * | 2015-05-12 | 2015-08-05 | 武汉数为科技有限公司 | 一种文本精细分类方法 |
CN105760493A (zh) * | 2016-02-18 | 2016-07-13 | 国网江苏省电力公司电力科学研究院 | 一种电力营销服务热点95598工单自动分类方法 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364626A (zh) * | 2020-11-25 | 2021-02-12 | 广东电网有限责任公司佛山供电局 | 一种安全措施智能管理方法及系统 |
CN112364626B (zh) * | 2020-11-25 | 2023-09-01 | 广东电网有限责任公司佛山供电局 | 一种安全措施智能管理方法及系统 |
CN112782469A (zh) * | 2021-01-13 | 2021-05-11 | 公诚管理咨询有限公司 | 一种基于分布式计算的智能电网计量处理方法 |
CN113284007A (zh) * | 2021-05-27 | 2021-08-20 | 国网电力科学研究院武汉能效测评有限公司 | 基于电力保险套餐的用电信息处理系统及其处理方法 |
CN113284007B (zh) * | 2021-05-27 | 2023-07-04 | 国网电力科学研究院武汉能效测评有限公司 | 基于电力保险套餐的用电信息处理系统及其处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | Deeplearning model used in text classification | |
Ni et al. | Sentiment Analysis based on GloVe and LSTM-GRU | |
PhridviRaj et al. | Data mining–past, present and future–a typical survey on data streams | |
CN106528642B (zh) | 一种基于tf-idf特征提取的短文本分类方法 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
CN104112026B (zh) | 一种短信文本分类方法及系统 | |
Do et al. | Multiview deep learning for predicting twitter users' location | |
Yin et al. | A new SVM method for short text classification based on semi-supervised learning | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN108446391A (zh) | 数据的处理方法、装置、电子设备和计算机可读介质 | |
Oza et al. | Prediction of online lectures popularity: a text mining approach | |
CN107506475A (zh) | 一种基于Spark的海量电力客服文本分类方法 | |
Zhang et al. | Exploring deep recurrent convolution neural networks for subjectivity classification | |
Durga et al. | Deep-Sentiment: An Effective Deep Sentiment Analysis Using a Decision-Based Recurrent Neural Network (D-RNN) | |
Nodarakis et al. | Using hadoop for large scale analysis on twitter: A technical report | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN109871889B (zh) | 突发事件下大众心理评估方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Huang | Research on sentiment classification of tourist destinations based on convolutional neural network | |
CN108804410B (zh) | 一种基于人工智能文本语义相似度分析的语义解释方法 | |
Sun et al. | Chinese microblog sentiment classification based on convolution neural network with content extension method | |
Kumar et al. | Sarcasm detection in Telugu and Tamil: an exploration of machine learning and deep neural networks | |
Fen et al. | Research on internet hot topic detection based on MapReduce architecture | |
CN111859924A (zh) | 一种基于word2vec模型构建词网的方法和装置 | |
Ahmad et al. | Sentiment analysis of social media contents using machine learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171222 |