CN103559205A - 基于MapReduce的并行特征选择方法 - Google Patents
基于MapReduce的并行特征选择方法 Download PDFInfo
- Publication number
- CN103559205A CN103559205A CN201310467990.5A CN201310467990A CN103559205A CN 103559205 A CN103559205 A CN 103559205A CN 201310467990 A CN201310467990 A CN 201310467990A CN 103559205 A CN103559205 A CN 103559205A
- Authority
- CN
- China
- Prior art keywords
- variable
- feature
- characteristic variable
- mutual information
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Complex Calculations (AREA)
Abstract
Description
技术领域
本发明涉及一种基于MapReduce的并行特征选择方法,更具体的说,尤其涉及一种可对海量数据进行快速特征提取的基于MapReduce的并行特征选择方法。
背景技术
近年来,很多领域的数据集不论是在数量上还是特征变量数上都变得越来越大,如基因组工程、文本分类、图像检索和客户关系管理等。这可能会给很多机器学习方法的可扩展性和学习性能带来严重的问题。如何选择信息量最大的特征变量组合是一个至关重要的问题。特征选择是从原始特征集中根据一定的评价标准来选择特征子集,从而有效降低特征变量集维数的过程。特征选择可有效降低特征变量维数,去除不相关数据,提高学习精度,提高结果的可理解性。因此,特征选择对于高维数据的机器学习任务变得十分必要。
相关分析是特征选择基础,相关系数是一种常用相关测度,它只能测量变量之间的线性关系。逐步回归是另一种常用的特征选择方法,它主要用于线性回归问题。熵是一个可以度量任意随机变量不确定性的测度,基于熵的互信息可以度量变量之间任意统计相关性,基于互信息的特征选择已被广泛应用。但是,随着电子和信息机技术的快速发展,电子数据量呈指数级增长。数据洪流已成为急需解决的突出问题,科学家们面临各个领域产生的不断增长的海量数据处理问题,如生物信息学、生物医学、化学信息学、网络等等。常规的特征选择方法无法处理大规模的数据集。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种可对海量数据进行快速特征提取的基于MapReduce的并行特征选择方法。
本发明的基于MapReduce的并行特征选择方法,其特别之处在于,通过以下步骤来实现:a).数据划分,将初始数据 平均划分为份,设其分别为、、…、;b).数据部署,设参与运算的计算节点的数目为个,将划分后的份数据平均分配到个Map计算节点上;c).建立向量,设和为两个向量,其中Φ,,表示已选择的特征集,初始为空集;表示未选中的特征集,初始为数据的所有特征变量,为特征变量数;设为类变量,设需要从个特征变量中选取个特征;d).求取联合互信息,对于个Map计算节点中的任意一个计算节点来说,在处理每一份数据的过程中,均计算向量与类变量之间的联合互信息,其中:,;e).选取特征变量,步骤d)中,使联合互信息最大的特征变量作为该计算节点从该份数据中选择的特征变量,并将该特征变量序列号和相应的联合互信息值传递给Reduce计算节点;f).统计被选中特征的数目,在Reduce计算节点,统计所有Map计算节点记录的特征变量的序列号,判断是否存在统计数量相等的特征变量,如果不存在,则将统计数量最多的序列号所对应的特征变量作为选取的全局特征变量;如果存在,则执行步骤g);g).联合互信息值的比较,对统计数量相等的特征变量,分别对各自变量所对应的联合互信息值进行求和计算,选择具有较大联合互信息值的特征变量作为全局特征变量;h).被选中特征的添加和删除,将选中的全局特征变量添加至向量中,即令;并将选中的全局特征变量从向量中删除,即令;i).判断选中特征的数目,判断已选中特征变量的数目是否已达到个,如果达到个,则整个特征选择过程结束;如果没达到个,则重复执行步骤d)~h)重选择下一个特征。
本发明的基于MapReduce的并行特征选择方法,步骤d)中联合互信息的求取采用基于香农熵的互信息求取方法,其采用以下步骤:d-1).建立特征变量,特征变量集用向量=表示,表示第个特征变量,其中,,每个特征变量有个不同的取值;d-2).建立类变量,类变量用表示,,,所有的特征映射到个不同的类中;特征变量和类变量都是离散值;d-3).获取概率分布,通过对样本的统计得到概率分布,设是特征变量的概率分布, 设是类变量的概率分布,设是特征变量与类变量的联合概率分布;
(1)
本发明的有益效果是:本发明的基于MapReduce的并行特征选择方法,首先将大型数据集均匀划分成个子数据集,将各子数据集分布到个Map计算节点上,在各Map计算节点进行特征选择计算,再将各计算节点得到的特征变量在Reduce计算节点进行综合,得到全局的特征选择变量,并达到预先指定的特征变量的数目;本发明的特征选择方法,可快速、有效地在海量数据集中提取出信息量最大的特征变量组合,适于海量数据的特征提取。
具体实施方式
下面结合实施例对本发明作进一步说明。
并行特征选择方法将是处理大规模数据的主要选择,许多并行算法采用不同的并行处理技术,如多线程、MPI、MapReduce、工作流技术等,不同并行技术有不同的性能和适用范围。MPI适合于处理计算密集型问题,特别是模拟计算,由于其对运行环境要求高,编程复杂等因素,在实际应用中不易使用。MapReduce是信息检索领域提出的一种分布式数据处理模型,Hadoop是目前应用最广的开源MapReduce的软件。但Hadoop架构下的MapReduce模型不支持迭代的Map和Reduce任务,而这是许多数据挖掘算法所需要的。Fox教授开发了一个迭代的MapReduce架构软件Twister。Twister的MapReduce方式是“一次配置,多次运行”。
有许多并行算法是简单的迭代结构,如数据聚类、降维、链接分析、机器学习和计算机视觉等领域的很多算法,这些算法可通过迭代MapReduce计算来实现。Fox教授开发了第一个迭代MapReduce计算软件Twister。
MapReduce作业由客户端程序控制,在配置过程中,客户端分配MapReduce方法给作业,准备键值对,如果需要,通过文件划分为MapReduce任务准备静态数据。在两次迭代之间,客户端接收由Combine方法得到的结果,当任务完成时,作业退出。
Map进程运行在计算节点上,加载Map类通过其并启动Map任务。在初始化过程中,Map任务根据划分文件从当地磁盘加载静态数据缓存到内存中。大多数由用户定义计算任务在Map节点执行,Twister使用静态调度目的是为了充分利用本地数据缓存。
Reduce进程在计算节点执行,Reduce节点数由客户端程序配置,Reduce任务依赖于Map任务的结果,进程之间通过消息进行通讯。
合并任务是为了收集MapReduce结果,Twister利用脚本操作本地磁盘的静态输入数据和部分输出数据,目的是模拟分布式文件系统的特征,在这些脚本里,Twister将静态数据平行分布到各计算节点,利用类生成划分文件。
本发明的基于MapReduce的并行特征选择方法,通过以下步骤来实现:
譬如在对某一区域的人群采集的数据中,人体的身高、体重、血型、年龄等信息可作为特征变量,而性别可作为类变量。
该步骤中联合互信息的求取采用基于香农熵的互信息求取方法,其通过以下步骤来实现:
对于每一份数据,计算节点会选择出联合互信息具有最大值的特征变量,并记录序列号和联合互信息值;例如,如果计算节点1分得了、、三分数据,则计算节点1会分别计算出、、数据中使得互信息最大的特征变量,并作相应记录。
f).统计被选中特征的数目,在Reduce计算节点,统计所有Map计算节点记录的特征变量的序列号,判断是否存在统计数量相等的特征变量,如果不存在,则将统计数量最多的序列号所对应的特征变量作为选取的全局特征变量;如果存在,则执行步骤g);
作为一个具体的实施例,在成人检查数据库中有123个属性,被分为2类。每一个属性表示为二值变量,即0或1,标记为+1或-1,它是一个二值分类。该数据库包括两个文件,一个是用于训练,另一种是用于测试。训练文件包括32562个样本,测试文件包括16282个样本。在这个例子中,使用了4个计算节点,训练数据被随机分割成m部分。每一部分都有大致相等的数据量。
本实例在FutureGrid平台的India节点进行分析,twister0.9软件部署在每个计算节点上。每个计算节点都安装了Ubuntu Linux操作系统,该处理器是3GHz的英特尔Xeon处理器,10GB RAM。
对于训练样本应用本文提出的并行特征选择方法,选择的特征变量数据指定为20,数据集被划分成4,2和1份,并行支持向量机用4个计算节点进行分类。表1中列出的特征选择结果和分类正确率。
表1
为了进行比较,根据相关系数对特征变量进行选取,相关系数用来测量类变量和特征变量之间的相关性。相关系数根据下面公式进行计算。
表2
选择的特征变量 | 正确率 |
39,62,38,41,74,73,0,61,81,72,71,50,63,51,77,18,28,34,48,3 | 81.32 |
从表1的分析结果中,可以发现计算节点越多,特征选择的运算速度越快,具有线性加速比。分类结果表明,不同划分方案的分类正确率是相似的,这说明并行特征选择方法是有效的,表1和表2分析结果显示,基于互信息的特征选择的结果比常规的的特征选择方法要好。
可见,特征选择是机器学习和模式识别的一个重要任务,基于互信息的特征选择被认为最有效的特征选择方法之一,为了提高计算速度,它可以实现近似线性速度比,实例分析结果表明,该方法可有效降低计算成本。分类结果的正确率与没有进行数据划分的分类结果相似。
Claims (2)
1.一种基于MapReduce的并行特征选择方法,其特征在于,通过以下步骤来实现:
f).统计被选中特征的数目,在Reduce计算节点,统计所有Map计算节点记录的特征变量的序列号,判断是否存在统计数量相等的特征变量,如果不存在,则将统计数量最多的序列号所对应的特征变量作为选取的全局特征变量;如果存在,则执行步骤g);
2.根据权利要求1所述的基于MapReduce的并行特征选择方法,其特征在于,步骤d)中联合互信息的求取采用基于香农熵的互信息求取方法,其采用以下步骤:
(1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310467990.5A CN103559205A (zh) | 2013-10-09 | 2013-10-09 | 基于MapReduce的并行特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310467990.5A CN103559205A (zh) | 2013-10-09 | 2013-10-09 | 基于MapReduce的并行特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103559205A true CN103559205A (zh) | 2014-02-05 |
Family
ID=50013452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310467990.5A Pending CN103559205A (zh) | 2013-10-09 | 2013-10-09 | 基于MapReduce的并行特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103559205A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050242A (zh) * | 2014-05-27 | 2014-09-17 | 哈尔滨理工大学 | 基于最大信息系数的特征选择、分类方法及其装置 |
CN104778254A (zh) * | 2015-04-20 | 2015-07-15 | 北京蓝色光标品牌管理顾问股份有限公司 | 一种非参数的话题自动标注的分布式系统和标注方法 |
CN105183813A (zh) * | 2015-08-26 | 2015-12-23 | 山东省计算中心(国家超级计算济南中心) | 基于互信息的用于文档分类的并行特征选择方法 |
CN105740388A (zh) * | 2016-01-27 | 2016-07-06 | 上海晶赞科技发展有限公司 | 一种基于分布漂移数据集的特征选择方法 |
CN106022521A (zh) * | 2016-05-19 | 2016-10-12 | 四川大学 | 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法 |
CN108197307A (zh) * | 2018-01-31 | 2018-06-22 | 湖北工业大学 | 一种文本特征的选择方法及系统 |
CN108920533A (zh) * | 2018-06-08 | 2018-11-30 | 中国科学院计算技术研究所 | 一种向量化的整体同步并行计算方法及系统 |
CN109241770A (zh) * | 2018-08-10 | 2019-01-18 | 深圳前海微众银行股份有限公司 | 基于同态加密的信息值计算方法、设备及可读存储介质 |
CN109325357A (zh) * | 2018-08-10 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 基于rsa的信息值计算方法、设备及可读存储介质 |
CN112181289A (zh) * | 2014-12-31 | 2021-01-05 | 三星电子株式会社 | 电子系统及其操作方法以及计算机可读介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336790A (zh) * | 2013-06-06 | 2013-10-02 | 湖州师范学院 | 基于Hadoop的邻域粗糙集快速属性约简方法 |
-
2013
- 2013-10-09 CN CN201310467990.5A patent/CN103559205A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336790A (zh) * | 2013-06-06 | 2013-10-02 | 湖州师范学院 | 基于Hadoop的邻域粗糙集快速属性约简方法 |
Non-Patent Citations (2)
Title |
---|
孙占全等: ""基于关联度的特征提取方法及其在中医中的应用"", 《生物医学工程学杂志》, vol. 25, no. 5, 22 December 2008 (2008-12-22) * |
王广涛等: ""一种新的基于信息熵的属性选择算法"", 《计算机研究与发展》, 5 May 2010 (2010-05-05) * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050242A (zh) * | 2014-05-27 | 2014-09-17 | 哈尔滨理工大学 | 基于最大信息系数的特征选择、分类方法及其装置 |
CN104050242B (zh) * | 2014-05-27 | 2018-03-27 | 哈尔滨理工大学 | 基于最大信息系数的特征选择、分类方法及其装置 |
CN112181289A (zh) * | 2014-12-31 | 2021-01-05 | 三星电子株式会社 | 电子系统及其操作方法以及计算机可读介质 |
CN104778254A (zh) * | 2015-04-20 | 2015-07-15 | 北京蓝色光标品牌管理顾问股份有限公司 | 一种非参数的话题自动标注的分布式系统和标注方法 |
CN104778254B (zh) * | 2015-04-20 | 2018-03-27 | 北京蓝色光标品牌管理顾问股份有限公司 | 一种非参数的话题自动标注的分布式系统和标注方法 |
CN105183813A (zh) * | 2015-08-26 | 2015-12-23 | 山东省计算中心(国家超级计算济南中心) | 基于互信息的用于文档分类的并行特征选择方法 |
CN105740388B (zh) * | 2016-01-27 | 2019-03-05 | 上海晶赞科技发展有限公司 | 一种基于分布漂移数据集的特征选择方法 |
CN105740388A (zh) * | 2016-01-27 | 2016-07-06 | 上海晶赞科技发展有限公司 | 一种基于分布漂移数据集的特征选择方法 |
CN106022521A (zh) * | 2016-05-19 | 2016-10-12 | 四川大学 | 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法 |
CN108197307A (zh) * | 2018-01-31 | 2018-06-22 | 湖北工业大学 | 一种文本特征的选择方法及系统 |
CN108920533A (zh) * | 2018-06-08 | 2018-11-30 | 中国科学院计算技术研究所 | 一种向量化的整体同步并行计算方法及系统 |
CN108920533B (zh) * | 2018-06-08 | 2021-03-09 | 中国科学院计算技术研究所 | 一种向量化的整体同步并行计算方法及系统 |
CN109241770A (zh) * | 2018-08-10 | 2019-01-18 | 深圳前海微众银行股份有限公司 | 基于同态加密的信息值计算方法、设备及可读存储介质 |
CN109325357A (zh) * | 2018-08-10 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 基于rsa的信息值计算方法、设备及可读存储介质 |
CN109241770B (zh) * | 2018-08-10 | 2021-11-09 | 深圳前海微众银行股份有限公司 | 基于同态加密的信息值计算方法、设备及可读存储介质 |
CN109325357B (zh) * | 2018-08-10 | 2021-12-14 | 深圳前海微众银行股份有限公司 | 基于rsa的信息值计算方法、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103559205A (zh) | 基于MapReduce的并行特征选择方法 | |
CN108427708B (zh) | 数据处理方法、装置、存储介质和电子装置 | |
Gernhard | The conditioned reconstructed process | |
Wang et al. | Parallel online sequential extreme learning machine based on MapReduce | |
Esteves et al. | Competitive k-means, a new accurate and distributed k-means algorithm for large datasets | |
US11915104B2 (en) | Normalizing text attributes for machine learning models | |
CN111507768B (zh) | 一种潜在用户的确定方法及相关装置 | |
CN108683530B (zh) | 多维度数据的数据分析方法、装置及存储介质 | |
CN113435602A (zh) | 确定机器学习样本的特征重要性的方法及系统 | |
CN107908536B (zh) | Cpu-gpu异构环境中对gpu应用的性能评估方法及系统 | |
CN114332984B (zh) | 训练数据处理方法、装置和存储介质 | |
CN110069502A (zh) | 基于Spark架构的数据均衡分区方法及计算机存储介质 | |
US7991617B2 (en) | Optimum design management apparatus from response surface calculation and method thereof | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
Ulanov et al. | Modeling scalability of distributed machine learning | |
CN114219562A (zh) | 模型的训练方法、企业信用评估方法和装置、设备、介质 | |
DeMasi et al. | Identifying HPC codes via performance logs and machine learning | |
Dong | Application of Big Data Mining Technology in Blockchain Computing | |
CN111325255B (zh) | 特定人群圈定方法、装置、电子设备及存储介质 | |
CN111107493B (zh) | 一种移动用户位置预测方法与系统 | |
CN111291795A (zh) | 人群特征分析方法、装置、存储介质和计算机设备 | |
Saini et al. | New approach for clustering of big data: DisK-means | |
Tøn et al. | Wild animal species classification from camera traps using metadata analysis | |
CN114419738A (zh) | 一种姿态检测方法、装置、电子设备以及存储介质 | |
Wang et al. | A deep reinforcement learning method for solving task mapping problems with dynamic traffic on parallel systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140205 |
|
RJ01 | Rejection of invention patent application after publication |