CN106484873A - 一种大数据分类处理方法 - Google Patents
一种大数据分类处理方法 Download PDFInfo
- Publication number
- CN106484873A CN106484873A CN201610891609.1A CN201610891609A CN106484873A CN 106484873 A CN106484873 A CN 106484873A CN 201610891609 A CN201610891609 A CN 201610891609A CN 106484873 A CN106484873 A CN 106484873A
- Authority
- CN
- China
- Prior art keywords
- classification
- data
- processing method
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据分类处理方法,它包括学习训练和分类两个步骤,该方法对大数据进行分类,经过分类处理后,用户直接以分类信息管理和使用数据,获取系统智能推荐的相关内容等,能够进行智能学习,分类越积累,分类越准确,推荐相关内容也更准确。
Description
技术领域
本发明涉及数据处理领域,特别是一种大数据分类处理方法。
背景技术
分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法用于预测数据对象的离散类别。
分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。
发明内容
本发明的目的在于克服现有技术的不足,提供一种大数据分类处理方法,对大数据进行分类,经过分类处理后,用户直接以分类信息管理和使用数据,获取系统智能推荐的相关内容等。
本发明的目的是通过以下技术方案来实现的:一种大数据分类处理方法,它包括学习训练和分类两个步骤;
所述的学习训练包括如下子步骤:
S11:收集已经分类好的文章,形成语料库;
S12:通过庖丁分词将语料库的文章分解成一个一个的词语;
S13:去掉停用词和中性词;
S14:对去掉停用词和中性词后的词汇进行TF-IDF矢量化;
S15:概率统计:根据每一个词汇的TF-IDF值,筛选出用于分类的词汇;
S16:根据以上处理,再根据精度需要,得到一组用于进行分类的常用词汇;
S17:将用于分类的词语形成标准的ARFF数据;
S18:根据ARFF数据采用不同算法计算出用于分类的模型数据;
所述的分类包括如下子步骤:
S21:提交分类任务;
S22:获取需要分类的信息;
S23:庖丁分词,对需要分类的信息进行分词;
S24:去掉需要分类的信息中的停用词和中性词,得到用于分类的基本词汇;
S25:进行常用词筛选,得到最终需要用于分类的词语;
S26:对用于分类的词语进行TF-IDF计算,形成分类用ARFF数据;
S27:用学习训练得到的模型数据结合ARFF数据,计算出分到每一类的概率,并进行加权计算,得到分类结果。
所述的停用词包括但不限于的、地、得。
所述的中性词包括但不限于我们、里面、一个、两个。
所述的TF-IDF值包括TF和IDF,TF为某一个词在某一类文章中的概率,IDF该词不在其他类文章的概率。
所述的模型数据的计算算法包括朴素贝叶斯方法、基于C4.5实现的决策树算法和SMO算法。
所述的常用词筛选根据学习训练中得到的常用词汇进行筛选。
本发明的有益效果是:本发明提供了一种大数据分类处理方法,对大数据进行分类,经过分类处理后,用户直接以分类信息管理和使用数据,获取系统智能推荐的相关内容等,能够进行智能学习,分类越积累,分类越准确,推荐相关内容也更准确。
附图说明
图1为学习训练方法流程图;
图2为分类方法流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
一种大数据分类处理方法,它包括学习训练和分类两个步骤;
如图1所示,所述的学习训练包括如下子步骤:
S11:收集已经分类好的文章,形成语料库,文章越多越好;
S12:通过庖丁分词将语料库的文章分解成一个一个的词语,庖丁分词采用开源的第三方软件;
S13:去掉停用词和中性词,如的、地、得、我们、里面、一个、两个等没有任何意义的词;
S14:对去掉停用词和中性词后的词汇进行TF-IDF矢量化;
S15:概率统计:根据每一个词汇的TF-IDF值,筛选出用于分类的词汇,TF-IDF值包括TF和IDF,TF为某一个词在某一类文章中的概率,IDF该词不在其他类文章的概率,一般采用TF*log IDF来判断词汇是否适用于分类;
S16:根据以上处理,再根据精度需要,得到一组用于进行分类的常用词汇;
S17:将用于分类的词语形成标准的ARFF数据;
S18:根据ARFF数据采用不同算法计算出用于分类的模型数据,算法包括朴素贝叶斯方法、基于C4.5实现的决策树算法和SMO算法,得到NaiveBayes,j48,SMO,三种模型数据。
C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类;SMO算法由Microsoft Research的JohnC. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。
如图2所示,所述的分类包括如下子步骤:
S21:提交分类任务;
S22:获取需要分类的信息,通过WebService输入需要分类的文本;
S23:庖丁分词,对需要分类的信息进行分词;
S24:去掉需要分类的信息中的停用词和中性词,得到用于分类的基本词汇;
S25:根据学习训练中得到的常用词汇进行筛选,得到最终需要用于分类的词语;
S26:对用于分类的词语进行TF-IDF计算,形成分类用ARFF数据;
S27:用学习训练得到的NaiveBayes,j48,SMO,三种模型数据结合ARFF数据,计算出分到每一类的概率,并进行加权计算,得到分类结果,并通过Webservice返回分类值。
Claims (6)
1.一种大数据分类处理方法,其特征在于,它包括学习训练和分类两个步骤;
所述的学习训练包括如下子步骤:
S11:收集已经分类好的文章,形成语料库;
S12:通过庖丁分词将语料库的文章分解成一个一个的词语;
S13:去掉停用词和中性词;
S14:对去掉停用词和中性词后的词汇进行TF-IDF矢量化;
S15:概率统计:根据每一个词汇的TF-IDF值,筛选出用于分类的词汇;
S16:根据以上处理,再根据精度需要,得到一组用于进行分类的常用词汇;
S17:将用于分类的词语形成标准的ARFF数据;
S18:根据ARFF数据采用不同算法计算出用于分类的模型数据;
所述的分类包括如下子步骤:
S21:提交分类任务;
S22:获取需要分类的信息;
S23:庖丁分词,对需要分类的信息进行分词;
S24:去掉需要分类的信息中的停用词和中性词,得到用于分类的基本词汇;
S25:进行常用词筛选,得到最终需要用于分类的词语;
S26:对用于分类的词语进行TF-IDF计算,形成分类用ARFF数据;
S27:用学习训练得到的模型数据结合ARFF数据,计算出分到每一类的概率,并进行加权计算,得到分类结果。
2.根据权利要求1所述的一种大数据分类处理方法,其特征在于:所述的停用词包括但不限于的、地、得。
3.根据权利要求1所述的一种大数据分类处理方法,其特征在于:所述的中性词包括但不限于我们、里面、一个、两个。
4.根据权利要求1所述的一种大数据分类处理方法,其特征在于:所述的TF-IDF值包括TF和IDF,TF为某一个词在某一类文章中的概率,IDF该词不在其他类文章的概率。
5.根据权利要求1所述的一种大数据分类处理方法,其特征在于:所述的模型数据的计算算法包括朴素贝叶斯方法、基于C4.5实现的决策树算法和SMO算法。
6.根据权利要求1所述的一种大数据分类处理方法,其特征在于:所述的常用词筛选根据学习训练中得到的常用词汇进行筛选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610891609.1A CN106484873A (zh) | 2016-10-13 | 2016-10-13 | 一种大数据分类处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610891609.1A CN106484873A (zh) | 2016-10-13 | 2016-10-13 | 一种大数据分类处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106484873A true CN106484873A (zh) | 2017-03-08 |
Family
ID=58269376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610891609.1A Pending CN106484873A (zh) | 2016-10-13 | 2016-10-13 | 一种大数据分类处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106484873A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108053251A (zh) * | 2017-12-18 | 2018-05-18 | 北京小度信息科技有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN108573031A (zh) * | 2018-03-26 | 2018-09-25 | 上海万行信息科技有限公司 | 一种基于内容的投诉分类方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033964A (zh) * | 2011-01-13 | 2011-04-27 | 北京邮电大学 | 基于块划分及位置权重的文本分类方法 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN103092994A (zh) * | 2013-02-20 | 2013-05-08 | 苏州思方信息科技有限公司 | 基于信息概念格矫正的svm文本自动分类方法及其系统 |
CN104866606A (zh) * | 2015-06-02 | 2015-08-26 | 浙江师范大学 | 一种MapReduce并行化大数据文本分类方法 |
-
2016
- 2016-10-13 CN CN201610891609.1A patent/CN106484873A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033964A (zh) * | 2011-01-13 | 2011-04-27 | 北京邮电大学 | 基于块划分及位置权重的文本分类方法 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN103092994A (zh) * | 2013-02-20 | 2013-05-08 | 苏州思方信息科技有限公司 | 基于信息概念格矫正的svm文本自动分类方法及其系统 |
CN104866606A (zh) * | 2015-06-02 | 2015-08-26 | 浙江师范大学 | 一种MapReduce并行化大数据文本分类方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108053251A (zh) * | 2017-12-18 | 2018-05-18 | 北京小度信息科技有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN108053251B (zh) * | 2017-12-18 | 2021-03-02 | 北京小度信息科技有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN108573031A (zh) * | 2018-03-26 | 2018-09-25 | 上海万行信息科技有限公司 | 一种基于内容的投诉分类方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sarker | Machine learning: Algorithms, real-world applications and research directions | |
Xie et al. | Customer churn prediction using improved balanced random forests | |
Bamakan et al. | A new intrusion detection approach using PSO based multiple criteria linear programming | |
CN109471938A (zh) | 一种文本分类方法及终端 | |
Ghosh et al. | Improving classification model's performance using linear discriminant analysis on linear data | |
Farid et al. | Novel class detection in concept-drifting data stream mining employing decision tree | |
CN110633989A (zh) | 一种风险行为生成模型的确定方法及装置 | |
CN110555305A (zh) | 基于深度学习的恶意应用溯源方法及相关装置 | |
Nguyen et al. | An efficient local region and clustering-based ensemble system for intrusion detection | |
CN109783633A (zh) | 数据分析服务流程模型推荐方法 | |
Najjar et al. | Sentiment analysis combination in terrorist detection on Twitter: A brief survey of approaches and techniques | |
Hossain et al. | A study towards Bangla fake news detection using machine learning and deep learning | |
Al Hammadi et al. | Data mining in education-an experimental study | |
Nurcahyawati et al. | Improving sentiment reviews classification performance using support vector machine-fuzzy matching algorithm | |
CN106484873A (zh) | 一种大数据分类处理方法 | |
Al Duhayyim et al. | Optimized stacked autoencoder for IoT enabled financial crisis prediction model | |
Xiao et al. | A multiple-instance stream learning framework for adaptive document categorization | |
Hassan et al. | Model for phishing websites classification using artificial neural network | |
Ganghishetti et al. | Association rule mining via evolutionary multi-objective optimization | |
CN110175733B (zh) | 一种舆论信息处理方法和服务器 | |
Wongchinsri et al. | Sr-based binary classification in credit scoring | |
Dass et al. | Cyberbullying detection on social networks using LSTM model | |
Arif et al. | Optimizing XCSR for text classification | |
Alsudani et al. | Enhancing intrusion detection with LSTM recurrent neural network optimized by emperor penguin algorithm | |
Umamaheswari et al. | Opinion mining using hybrid methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170308 |