CN103942286A - 一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法 - Google Patents

一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法 Download PDF

Info

Publication number
CN103942286A
CN103942286A CN201410143640.8A CN201410143640A CN103942286A CN 103942286 A CN103942286 A CN 103942286A CN 201410143640 A CN201410143640 A CN 201410143640A CN 103942286 A CN103942286 A CN 103942286A
Authority
CN
China
Prior art keywords
carry out
predictor
classification
correlation analysis
bayes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410143640.8A
Other languages
English (en)
Inventor
张永军
杨利娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201410143640.8A priority Critical patent/CN103942286A/zh
Publication of CN103942286A publication Critical patent/CN103942286A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法。初步选定一些可能与目标因子具有相关性的预测因子,对预测因子和目标因子进行模型训练,再对训练结果利用相关系数进行相关性分析,如果预测因子和目标因子相关性不大或者不相关,可以立即终止贝叶斯分类算法,不再进行后面的精度评估等步骤,以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子;如果预测因子和目标因子相关性很大或者相关时,再在此基础上进行精度评估,评价贝叶斯分类算法的好坏。通过在分类模型的基础上进行相关性判断,不仅可以使分类预测结果更加可靠,而且可以节约资源,提高算法的效率。

Description

一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法
技术领域
本发明涉及一种基于Hadoop的贝叶斯分类数据挖掘方法,尤其涉及一种能够在分类预测结果的基础上利用相关系数分析预测因子和目标因子相关性的基于Hadoop的贝叶斯分类数据挖掘方法。
技术背景
现有的贝叶斯分类数据挖掘方法。主要是对事先选定的一些预测因子和目标因子进行预处理、模型训练、精度评估等处理以达到分类预测的目的,既在已知预测因子的情况下,推断出目标因子最大可能出现的值。这种方法:
用户事先选定可能与目标因子具有相关性的预测因子,但当选取的预测因子和目标因子相关性不大或者不相关时,如果还按照原有的步骤进行处理,不仅分类预测结果不可靠,最终的精度评估也无法达到令人满意的结果,而且还浪费时间和影响算法的效率。
由此可见,现有的贝叶斯分类数据挖掘方法具有比较大的缺点及限制,无法满足人们的需要。
本发明内容
为了解决现有技术中存在的问题,本发明提供了一种能够在分类预测结果的基础上利用相关系数分析预测因子和目标因子相关性的基于Hadoop的贝叶斯分类数据挖掘方法。
本发明解决现有技术的问题,所采用的技术方案是:提供一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法,其包括以下步骤:初步选定一些可能与目标值具有相关性的预测因子,对预测因子和目标因子进行模型训练,再对训练结果进行相关性分析,如果预测因子和目标因子相关性不大或者不相关,可以立即终止贝叶斯分类算法,不再进行后面的精度评估等步骤,以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子;如果预测因子和目标因子相关性很大或者相关时,再在此基础上进行精度评估,评价贝叶斯分类算法的好坏。
本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是该方法在Hadoop上利用其分布式文件系统HDFS和MapReduce并行编程模型来实现。
Hadoop文件系统HDFS是分布式计算的存储基础,它具有高容错性,可以部署在廉价的硬件设备上,适合那些有大数据集的应用,并提供了对数据读写的高吞吐率。
MapReduce编程模型将运行大规模的集群上的复杂的并行计算抽象为两个函数:Map函数和Reduce函数。首先将一个大任务分割为多个并行的Map任务块,然后将Map分别给集群中的各个节点进行运算,最后Reduce把分解后的多个任务块的处理结果汇总起来,从而得到最终的结果。因此,MapReduce可处理的任务应满足:待处理的任务(或数据集)可以分割成许多个小任务(或小数据集),并且每一个小任务(或小数据集)都可以完全的并行计算。
本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是对原始数据进行预处理,以去掉不正确或被损坏的无效数据和离散化原始数据。
预处理又可分为三个部分:第一是数据的选取,其目的是确定挖掘的操作对象;第二是数据的预处理,海量的原始数据一般都存在偏差和缺失的情况,这些数据若被用于数据挖掘,则在进行数据挖掘之前必须进行数据的预处理,去除数据中的噪声、冗余以及对缺省值进行填充等;第三是数据的转换,数据转换的方式也有所不同,针对特定的挖掘算法,将数据转换成相应的分析模型,建立的适合挖掘算法的分析模型是数据挖掘成功的关键。
本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案将原始数据分成两部分训练集和测试集,前者用来训练贝叶斯分类器模型,后者用来测试分类器的精度。
本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是对进行预处理后的训练集运行MapReduce实现的贝叶斯分类算法,得到贝叶斯分类模型。
朴素贝叶斯假设当给定类变量时,属性变量之间条件相对独立。设有限集合C,cj是C的第j类决策属性,集合Ω中n个属性变量X1,X2…Xn,其给定的描述属性值为x1,x2…xn,{x1,x2…xn,cj}是由已知类别的样本组成的集合。对C进行预测的分类器为朴素贝叶斯分类器.即
c NB = arg max c j ∈ C { P ( C j ) Π i = 1 n P ( x i | c j ) }
其中cNB表示朴素贝叶斯分类器输出的目标值。
本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是对贝叶斯分类模型利用相关系数进行相关性分析。
随机变量X与Y的协方差为Cov(X,Y)=E(X-EX)(Y-EY),相关系数为 取值在-1到1之间。当ρXY=0时,称X,Y不相关;当|ρXY|=1时,称X,Y完全相关,此时,X,Y之间具有线性函数关系;当|ρXY|<1时,X的变动引起Y的部分变动,|ρXY|的绝对值越大,X的变动引起Y的变动就越大,|ρXY|>0.8时为高度相关,当0.5<|ρXY|<0.8时为显著相关,当0.3<|ρXY|<0.5时为低度相关,当|ρXY|<0.3时为不相关。
在分类结果的基础上分别计算各预测因子与目标因子的相关系数,根据计算结果决定是否进行精度评估还是立即终止。当相关系数的值小于0.5时,可以判定此预测因子与目标因子低度相关或者不相关,可以立即终止贝叶斯分类算法,不再进行后面的精度评估等步骤,以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子;当所有相关系数的值均大于0.5时,可以判定预测因子与目标因子相关性很大或者相关,再在此基础上进行精度评估,评价贝叶斯分类算法的好坏。
本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是当预测因子和目标因子相关或者相关性比较大的时候,利用测试集对得到的贝叶斯分类器进行精度评估。
实际应用中对分类器性能的精度评估指标主要有三个:(1)预测精度:预测精度越高的分类器,分类预测能力也就是越准确的,本发明中采用分割一部分数据集作为测试集的方法测试分类模型的精度;(2)计算效率:由于数据量非常巨大,导致算法的时间和空间复杂度也非常高,高效的计算式分类效率的保证;(3)模型描述的简洁度:对模型的描述应易于被研究人员理解和使用。
相较于现有技术,本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的有益效果是:本发明中的一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法,通过预测因子的值推断出目标因子的最大可能值,当选取的预测因子与目标因子相关性不大或者不相关时,通过现有的贝叶斯分类数据挖掘方法得到的结果意义不大,而此发明所采用的方法在得到的贝叶斯分类模型基础上,对预测因子和目标因子进行相关性分析,只有判定两者相关才进行接下来的处理,这样不仅可以使分类预测结果更加可靠,而且可以节约资源,提高算法的效率。
附图说明
图1是本发明利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的步骤示意图。
图2是本发明利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的具体程序流程图。
具体实施方式
下面结合附图对本发明进一步说明。
请参阅图1,是本发明利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的步骤示意图。主要步骤为:获取原始数据对它进行去除无效数据和离散化等处理后,分为训练集和测试集两部分,训练集运行贝叶斯分类算法得到分类模型,对分类模型进行相关性分析,当判定预测因子和目标因子无关时,终止数据挖掘过程,需重新选择预测因子;当判定预测因子和目标因子相关时,利用测试集对得到的贝叶斯分类器进行精度评估,如果精度没有达到期望值,仍需重新构造分类模型。
请参阅图2,是本发明利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的具体程序流程图。预处理、模型训练、相关分析和精度评估四大过程顺序执行,后一次过程都依赖于前一次的执行结果,一次MapReduce过程无法完成任务。因此将四大过程的任务依次串连起来,将预处理和模型训练的结果分别存储为中间数据,四个过程顺序组合的MapReduce作业共同完成任务。
本发明中的利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法,通过预测因子的值推断出目标因子的最大可能值,在得到的贝叶斯分类模型基础上,对预测因子和目标因子利用相关系数进行相关性分析,只有判定两者相关才进行接下来的处理,这样不仅可以使分类预测结果更加可靠,而且可以节约资源,提高算法的效率。

Claims (7)

1.一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法,其包括以下步骤:初步选定一些可能与目标因子具有相关性的预测因子,对预测因子和目标因子进行模型训练,再对训练结果利用相关系数进行相关性分析,如果预测因子和目标值相关性不大或者不相关,可以立即终止贝叶斯分类算法,不再进行后面的精度评估等步骤,以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子;如果预测因子和目标因子相关性很大或者相关时,再在此基础上进行精度评估,评价贝叶斯分类算法的好坏。
2.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法在Hadoop上利用其分布式文件系统HDFS和MapReduce并行编程模型来实现。
3.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法对原始数据进行预处理,以去掉不正确或被损坏的无效数据和离散化原始数据。
4.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法将原始数据分成两部分训练集和测试集,前者用来训练贝叶斯分类器模型,后者用来测试分类器的精度。
5.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法对进行预处理后的训练集运行MapReduce实现的贝叶斯分类算法,得到贝叶斯分类模型。
6.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法对贝叶斯分类模型利用相关系数进行相关性分析,
根据分析结果决定是否进行精度评估还是立即终止以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子进行数据挖掘。
7.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法当预测因子和目标值相关或者相关性比较大的时候,利用测试集对得到的贝叶斯分类器进行精度评估。
CN201410143640.8A 2014-04-10 2014-04-10 一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法 Pending CN103942286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410143640.8A CN103942286A (zh) 2014-04-10 2014-04-10 一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410143640.8A CN103942286A (zh) 2014-04-10 2014-04-10 一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法

Publications (1)

Publication Number Publication Date
CN103942286A true CN103942286A (zh) 2014-07-23

Family

ID=51189954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410143640.8A Pending CN103942286A (zh) 2014-04-10 2014-04-10 一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法

Country Status (1)

Country Link
CN (1) CN103942286A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110050240A (zh) * 2016-12-14 2019-07-23 Abb 瑞士有限公司 用于监视技术系统的状态的计算机系统和方法
CN110427398A (zh) * 2018-04-28 2019-11-08 北京资采信息技术有限公司 一种基于数据挖掘与分析的模型管理工具
CN113129126A (zh) * 2021-04-15 2021-07-16 算话智能科技有限公司 一种业务数据处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354757A (zh) * 2008-09-08 2009-01-28 中国科学院地理科学与资源研究所 一种精细尺度下的动态风险及易损性预测方法
CN103235982A (zh) * 2013-04-16 2013-08-07 中国水产科学研究院东海水产研究所 一种基于贝叶斯网络模型的渔场预报方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354757A (zh) * 2008-09-08 2009-01-28 中国科学院地理科学与资源研究所 一种精细尺度下的动态风险及易损性预测方法
CN103235982A (zh) * 2013-04-16 2013-08-07 中国水产科学研究院东海水产研究所 一种基于贝叶斯网络模型的渔场预报方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘寅: ""Hadoop下基于贝叶斯分类的气象数据挖掘研究"", 《中国优秀硕士学位论文全文数据库基础科学辑》 *
许士国等: ""洮儿河镇西站径流长期预报研究"", 《水文》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110050240A (zh) * 2016-12-14 2019-07-23 Abb 瑞士有限公司 用于监视技术系统的状态的计算机系统和方法
CN110427398A (zh) * 2018-04-28 2019-11-08 北京资采信息技术有限公司 一种基于数据挖掘与分析的模型管理工具
CN113129126A (zh) * 2021-04-15 2021-07-16 算话智能科技有限公司 一种业务数据处理方法及装置

Similar Documents

Publication Publication Date Title
Wang et al. SS-XGBoost: a machine learning framework for predicting newmark sliding displacements of slopes
Winkler et al. Pipe failure modelling for water distribution networks using boosted decision trees
CN111406267B (zh) 使用性能预测神经网络的神经架构搜索
US20220076150A1 (en) Method, apparatus and system for estimating causality among observed variables
Oommen et al. Sampling bias and class imbalance in maximum-likelihood logistic regression
CN109587713A (zh) 一种基于arima模型的网络指标预测方法、装置及存储介质
WO2021004324A1 (zh) 资源数据的处理方法、装置、计算机设备和存储介质
CN106656662A (zh) 异常带宽确定方法、系统及电子设备
JP7545461B2 (ja) データ処理方法、データ処理装置、電子機器、記憶媒体およびコンピュータプログラム
Li et al. Study on the forecasting models of slope stability under data mining
CN104182489A (zh) 一种文本大数据的查询处理方法
Kappen et al. The variational garrote
CN112634992A (zh) 分子性质预测方法及其模型的训练方法及相关装置、设备
CN103942286A (zh) 一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法
CN101789000A (zh) 搜索引擎中的模式分类方法
Liu et al. Ace-Sniper: Cloud-Edge Collaborative Scheduling Framework With DNN Inference Latency Modeling on Heterogeneous Devices
Kim et al. EnvBERT: multi-label text classification for imbalanced, noisy environmental news data
CN103049669A (zh) 基于多元周期平稳时序分析及灰色理论的水华预测及因素分析方法
Farid et al. Developing a new model based on neuro-fuzzy system for predicting roof fall in coal mines
US20190065987A1 (en) Capturing knowledge coverage of machine learning models
Li et al. Application of the artificial bee colony algorithm-based projection pursuit method in statistical rock mass stability estimation
Zheng et al. Software Defect Prediction Model Based on Improved Deep Forest and AutoEncoder by Forest.
Shu et al. Mutual information-based feature selection from set-valued data
CN105022798A (zh) 一种基于预测关系的离散贝叶斯网络分类数据挖掘方法
Lee et al. Using data analytics to analyze reservoir databases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140723