CN106484873A - 一种大数据分类处理方法 - Google Patents

一种大数据分类处理方法 Download PDF

Info

Publication number
CN106484873A
CN106484873A CN201610891609.1A CN201610891609A CN106484873A CN 106484873 A CN106484873 A CN 106484873A CN 201610891609 A CN201610891609 A CN 201610891609A CN 106484873 A CN106484873 A CN 106484873A
Authority
CN
China
Prior art keywords
classification
data
processing method
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610891609.1A
Other languages
English (en)
Inventor
马萧萧
刘科材
周熙
陈兴波
蒲通
冯良怀
赖林
伍显友
温大川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHENGDU DONGFANGSHENGXING ELECTRONICS Co Ltd
Original Assignee
CHENGDU DONGFANGSHENGXING ELECTRONICS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU DONGFANGSHENGXING ELECTRONICS Co Ltd filed Critical CHENGDU DONGFANGSHENGXING ELECTRONICS Co Ltd
Priority to CN201610891609.1A priority Critical patent/CN106484873A/zh
Publication of CN106484873A publication Critical patent/CN106484873A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据分类处理方法,它包括学习训练和分类两个步骤,该方法对大数据进行分类,经过分类处理后,用户直接以分类信息管理和使用数据,获取系统智能推荐的相关内容等,能够进行智能学习,分类越积累,分类越准确,推荐相关内容也更准确。

Description

一种大数据分类处理方法
技术领域
本发明涉及数据处理领域,特别是一种大数据分类处理方法。
背景技术
分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法用于预测数据对象的离散类别。
分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。
发明内容
本发明的目的在于克服现有技术的不足,提供一种大数据分类处理方法,对大数据进行分类,经过分类处理后,用户直接以分类信息管理和使用数据,获取系统智能推荐的相关内容等。
本发明的目的是通过以下技术方案来实现的:一种大数据分类处理方法,它包括学习训练和分类两个步骤;
所述的学习训练包括如下子步骤:
S11:收集已经分类好的文章,形成语料库;
S12:通过庖丁分词将语料库的文章分解成一个一个的词语;
S13:去掉停用词和中性词;
S14:对去掉停用词和中性词后的词汇进行TF-IDF矢量化;
S15:概率统计:根据每一个词汇的TF-IDF值,筛选出用于分类的词汇;
S16:根据以上处理,再根据精度需要,得到一组用于进行分类的常用词汇;
S17:将用于分类的词语形成标准的ARFF数据;
S18:根据ARFF数据采用不同算法计算出用于分类的模型数据;
所述的分类包括如下子步骤:
S21:提交分类任务;
S22:获取需要分类的信息;
S23:庖丁分词,对需要分类的信息进行分词;
S24:去掉需要分类的信息中的停用词和中性词,得到用于分类的基本词汇;
S25:进行常用词筛选,得到最终需要用于分类的词语;
S26:对用于分类的词语进行TF-IDF计算,形成分类用ARFF数据;
S27:用学习训练得到的模型数据结合ARFF数据,计算出分到每一类的概率,并进行加权计算,得到分类结果。
所述的停用词包括但不限于的、地、得。
所述的中性词包括但不限于我们、里面、一个、两个。
所述的TF-IDF值包括TF和IDF,TF为某一个词在某一类文章中的概率,IDF该词不在其他类文章的概率。
所述的模型数据的计算算法包括朴素贝叶斯方法、基于C4.5实现的决策树算法和SMO算法。
所述的常用词筛选根据学习训练中得到的常用词汇进行筛选。
本发明的有益效果是:本发明提供了一种大数据分类处理方法,对大数据进行分类,经过分类处理后,用户直接以分类信息管理和使用数据,获取系统智能推荐的相关内容等,能够进行智能学习,分类越积累,分类越准确,推荐相关内容也更准确。
附图说明
图1为学习训练方法流程图;
图2为分类方法流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
一种大数据分类处理方法,它包括学习训练和分类两个步骤;
如图1所示,所述的学习训练包括如下子步骤:
S11:收集已经分类好的文章,形成语料库,文章越多越好;
S12:通过庖丁分词将语料库的文章分解成一个一个的词语,庖丁分词采用开源的第三方软件;
S13:去掉停用词和中性词,如的、地、得、我们、里面、一个、两个等没有任何意义的词;
S14:对去掉停用词和中性词后的词汇进行TF-IDF矢量化;
S15:概率统计:根据每一个词汇的TF-IDF值,筛选出用于分类的词汇,TF-IDF值包括TF和IDF,TF为某一个词在某一类文章中的概率,IDF该词不在其他类文章的概率,一般采用TF*log IDF来判断词汇是否适用于分类;
S16:根据以上处理,再根据精度需要,得到一组用于进行分类的常用词汇;
S17:将用于分类的词语形成标准的ARFF数据;
S18:根据ARFF数据采用不同算法计算出用于分类的模型数据,算法包括朴素贝叶斯方法、基于C4.5实现的决策树算法和SMO算法,得到NaiveBayes,j48,SMO,三种模型数据。
C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类;SMO算法由Microsoft Research的JohnC. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。
如图2所示,所述的分类包括如下子步骤:
S21:提交分类任务;
S22:获取需要分类的信息,通过WebService输入需要分类的文本;
S23:庖丁分词,对需要分类的信息进行分词;
S24:去掉需要分类的信息中的停用词和中性词,得到用于分类的基本词汇;
S25:根据学习训练中得到的常用词汇进行筛选,得到最终需要用于分类的词语;
S26:对用于分类的词语进行TF-IDF计算,形成分类用ARFF数据;
S27:用学习训练得到的NaiveBayes,j48,SMO,三种模型数据结合ARFF数据,计算出分到每一类的概率,并进行加权计算,得到分类结果,并通过Webservice返回分类值。

Claims (6)

1.一种大数据分类处理方法,其特征在于,它包括学习训练和分类两个步骤;
所述的学习训练包括如下子步骤:
S11:收集已经分类好的文章,形成语料库;
S12:通过庖丁分词将语料库的文章分解成一个一个的词语;
S13:去掉停用词和中性词;
S14:对去掉停用词和中性词后的词汇进行TF-IDF矢量化;
S15:概率统计:根据每一个词汇的TF-IDF值,筛选出用于分类的词汇;
S16:根据以上处理,再根据精度需要,得到一组用于进行分类的常用词汇;
S17:将用于分类的词语形成标准的ARFF数据;
S18:根据ARFF数据采用不同算法计算出用于分类的模型数据;
所述的分类包括如下子步骤:
S21:提交分类任务;
S22:获取需要分类的信息;
S23:庖丁分词,对需要分类的信息进行分词;
S24:去掉需要分类的信息中的停用词和中性词,得到用于分类的基本词汇;
S25:进行常用词筛选,得到最终需要用于分类的词语;
S26:对用于分类的词语进行TF-IDF计算,形成分类用ARFF数据;
S27:用学习训练得到的模型数据结合ARFF数据,计算出分到每一类的概率,并进行加权计算,得到分类结果。
2.根据权利要求1所述的一种大数据分类处理方法,其特征在于:所述的停用词包括但不限于的、地、得。
3.根据权利要求1所述的一种大数据分类处理方法,其特征在于:所述的中性词包括但不限于我们、里面、一个、两个。
4.根据权利要求1所述的一种大数据分类处理方法,其特征在于:所述的TF-IDF值包括TF和IDF,TF为某一个词在某一类文章中的概率,IDF该词不在其他类文章的概率。
5.根据权利要求1所述的一种大数据分类处理方法,其特征在于:所述的模型数据的计算算法包括朴素贝叶斯方法、基于C4.5实现的决策树算法和SMO算法。
6.根据权利要求1所述的一种大数据分类处理方法,其特征在于:所述的常用词筛选根据学习训练中得到的常用词汇进行筛选。
CN201610891609.1A 2016-10-13 2016-10-13 一种大数据分类处理方法 Pending CN106484873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610891609.1A CN106484873A (zh) 2016-10-13 2016-10-13 一种大数据分类处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610891609.1A CN106484873A (zh) 2016-10-13 2016-10-13 一种大数据分类处理方法

Publications (1)

Publication Number Publication Date
CN106484873A true CN106484873A (zh) 2017-03-08

Family

ID=58269376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610891609.1A Pending CN106484873A (zh) 2016-10-13 2016-10-13 一种大数据分类处理方法

Country Status (1)

Country Link
CN (1) CN106484873A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053251A (zh) * 2017-12-18 2018-05-18 北京小度信息科技有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103092994A (zh) * 2013-02-20 2013-05-08 苏州思方信息科技有限公司 基于信息概念格矫正的svm文本自动分类方法及其系统
CN104866606A (zh) * 2015-06-02 2015-08-26 浙江师范大学 一种MapReduce并行化大数据文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103092994A (zh) * 2013-02-20 2013-05-08 苏州思方信息科技有限公司 基于信息概念格矫正的svm文本自动分类方法及其系统
CN104866606A (zh) * 2015-06-02 2015-08-26 浙江师范大学 一种MapReduce并行化大数据文本分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053251A (zh) * 2017-12-18 2018-05-18 北京小度信息科技有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN108053251B (zh) * 2017-12-18 2021-03-02 北京小度信息科技有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和系统

Similar Documents

Publication Publication Date Title
Sarker Machine learning: Algorithms, real-world applications and research directions
Xie et al. Customer churn prediction using improved balanced random forests
Bamakan et al. A new intrusion detection approach using PSO based multiple criteria linear programming
CN109471938A (zh) 一种文本分类方法及终端
Ghosh et al. Improving classification model's performance using linear discriminant analysis on linear data
Farid et al. Novel class detection in concept-drifting data stream mining employing decision tree
CN110633989A (zh) 一种风险行为生成模型的确定方法及装置
CN110555305A (zh) 基于深度学习的恶意应用溯源方法及相关装置
Nguyen et al. An efficient local region and clustering-based ensemble system for intrusion detection
CN109783633A (zh) 数据分析服务流程模型推荐方法
Najjar et al. Sentiment analysis combination in terrorist detection on Twitter: A brief survey of approaches and techniques
Hossain et al. A study towards Bangla fake news detection using machine learning and deep learning
Al Hammadi et al. Data mining in education-an experimental study
Nurcahyawati et al. Improving sentiment reviews classification performance using support vector machine-fuzzy matching algorithm
CN106484873A (zh) 一种大数据分类处理方法
Al Duhayyim et al. Optimized stacked autoencoder for IoT enabled financial crisis prediction model
Xiao et al. A multiple-instance stream learning framework for adaptive document categorization
Hassan et al. Model for phishing websites classification using artificial neural network
Ganghishetti et al. Association rule mining via evolutionary multi-objective optimization
CN110175733B (zh) 一种舆论信息处理方法和服务器
Wongchinsri et al. Sr-based binary classification in credit scoring
Dass et al. Cyberbullying detection on social networks using LSTM model
Arif et al. Optimizing XCSR for text classification
Alsudani et al. Enhancing intrusion detection with LSTM recurrent neural network optimized by emperor penguin algorithm
Umamaheswari et al. Opinion mining using hybrid methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170308