CN103559205A - 基于MapReduce的并行特征选择方法 - Google Patents

基于MapReduce的并行特征选择方法 Download PDF

Info

Publication number
CN103559205A
CN103559205A CN201310467990.5A CN201310467990A CN103559205A CN 103559205 A CN103559205 A CN 103559205A CN 201310467990 A CN201310467990 A CN 201310467990A CN 103559205 A CN103559205 A CN 103559205A
Authority
CN
China
Prior art keywords
variable
feature
characteristic variable
mutual information
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310467990.5A
Other languages
English (en)
Inventor
孙占全
顾卫东
李钊
赵彦玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center
Original Assignee
Shandong Computer Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center filed Critical Shandong Computer Science Center
Priority to CN201310467990.5A priority Critical patent/CN103559205A/zh
Publication of CN103559205A publication Critical patent/CN103559205A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明的基于MapReduce的并行特征选择方法,包括:a)将数据划分为份;b)将
Figure 255464DEST_PATH_IMAGE002
份数据分配到
Figure DEST_PATH_IMAGE004
个Map计算节点上;c)建立已选择的特征集
Figure DEST_PATH_IMAGE006
和未选中的特征集
Figure DEST_PATH_IMAGE008
;d)求取向量
Figure DEST_PATH_IMAGE010
与类变量
Figure DEST_PATH_IMAGE012
之间的联合互信息
Figure DEST_PATH_IMAGE014
;e)联合互信息
Figure DEST_PATH_IMAGE016
最大的特征变量作为特征变量,并将特征变量序列号

Description

基于MapReduce的并行特征选择方法
技术领域
本发明涉及一种基于MapReduce的并行特征选择方法,更具体的说,尤其涉及一种可对海量数据进行快速特征提取的基于MapReduce的并行特征选择方法。 
背景技术
近年来,很多领域的数据集不论是在数量上还是特征变量数上都变得越来越大,如基因组工程、文本分类、图像检索和客户关系管理等。这可能会给很多机器学习方法的可扩展性和学习性能带来严重的问题。如何选择信息量最大的特征变量组合是一个至关重要的问题。特征选择是从原始特征集中根据一定的评价标准来选择特征子集,从而有效降低特征变量集维数的过程。特征选择可有效降低特征变量维数,去除不相关数据,提高学习精度,提高结果的可理解性。因此,特征选择对于高维数据的机器学习任务变得十分必要。 
相关分析是特征选择基础,相关系数是一种常用相关测度,它只能测量变量之间的线性关系。逐步回归是另一种常用的特征选择方法,它主要用于线性回归问题。熵是一个可以度量任意随机变量不确定性的测度,基于熵的互信息可以度量变量之间任意统计相关性,基于互信息的特征选择已被广泛应用。但是,随着电子和信息机技术的快速发展,电子数据量呈指数级增长。数据洪流已成为急需解决的突出问题,科学家们面临各个领域产生的不断增长的海量数据处理问题,如生物信息学、生物医学、化学信息学、网络等等。常规的特征选择方法无法处理大规模的数据集。 
发明内容
本发明为了克服上述技术问题的缺点,提供了一种可对海量数据进行快速特征提取的基于MapReduce的并行特征选择方法。 
本发明的基于MapReduce的并行特征选择方法,其特别之处在于,通过以下步骤来实现:a).数据划分,将初始数据 
Figure 2013104679905100002DEST_PATH_IMAGE002
平均划分为
Figure 2013104679905100002DEST_PATH_IMAGE004
份,设其分别为
Figure 2013104679905100002DEST_PATH_IMAGE006
Figure 2013104679905100002DEST_PATH_IMAGE008
、…、
Figure 2013104679905100002DEST_PATH_IMAGE010
;b).数据部署,设参与运算的计算节点的数目为
Figure 2013104679905100002DEST_PATH_IMAGE012
个,将划分后的份数据平均分配到
Figure 479149DEST_PATH_IMAGE012
个Map计算节点上;c).建立向量,设
Figure 2013104679905100002DEST_PATH_IMAGE014
Figure 2013104679905100002DEST_PATH_IMAGE016
为两个向量,其中Φ,,
Figure 882055DEST_PATH_IMAGE014
表示已选择的特征集,初始为空集;
Figure 277264DEST_PATH_IMAGE016
表示未选中的特征集,初始为数据的所有特征变量,
Figure 2013104679905100002DEST_PATH_IMAGE022
为特征变量数;设
Figure 2013104679905100002DEST_PATH_IMAGE024
为类变量,设需要从
Figure 993994DEST_PATH_IMAGE022
个特征变量中选取
Figure 2013104679905100002DEST_PATH_IMAGE026
个特征;d).求取联合互信息,对于
Figure 323344DEST_PATH_IMAGE012
个Map计算节点中的任意一个计算节点
Figure 2013104679905100002DEST_PATH_IMAGE028
来说,在处理每一份数据的过程中,均计算向量与类变量
Figure 397610DEST_PATH_IMAGE024
之间的联合互信息
Figure 2013104679905100002DEST_PATH_IMAGE032
,其中:
Figure 2013104679905100002DEST_PATH_IMAGE034
Figure 2013104679905100002DEST_PATH_IMAGE036
;e).选取特征变量,步骤d)中,使联合互信息
Figure 2013104679905100002DEST_PATH_IMAGE038
最大的特征变量
Figure 2013104679905100002DEST_PATH_IMAGE040
作为该计算节点从该份数据中选择的特征变量,并将该特征变量序列号
Figure 2013104679905100002DEST_PATH_IMAGE042
和相应的联合互信息值传递给Reduce计算节点;f).统计被选中特征的数目,在Reduce计算节点,统计所有Map计算节点记录的特征变量的序列号,判断是否存在统计数量相等的特征变量,如果不存在,则将统计数量最多的序列号所对应的特征变量
Figure 559165DEST_PATH_IMAGE040
作为选取的全局特征变量;如果存在,则执行步骤g);g).联合互信息值的比较,对统计数量相等的特征变量,分别对各自变量所对应的联合互信息值进行求和计算,选择具有较大联合互信息值的特征变量
Figure 365578DEST_PATH_IMAGE040
作为全局特征变量;h).被选中特征的添加和删除,将选中的全局特征变量
Figure 119907DEST_PATH_IMAGE040
添加至向量
Figure 355454DEST_PATH_IMAGE014
中,即令
Figure 2013104679905100002DEST_PATH_IMAGE044
;并将选中的全局特征变量
Figure 941156DEST_PATH_IMAGE040
从向量
Figure 184050DEST_PATH_IMAGE016
中删除,即令
Figure 2013104679905100002DEST_PATH_IMAGE046
;i).判断选中特征的数目,判断已选中特征变量的数目是否已达到
Figure 117021DEST_PATH_IMAGE026
个,如果达到个,则整个特征选择过程结束;如果没达到
Figure 724031DEST_PATH_IMAGE026
个,则重复执行步骤d)~h)重选择下一个特征。 
本发明的基于MapReduce的并行特征选择方法,步骤d)中联合互信息的求取采用基于香农熵的互信息求取方法,其采用以下步骤:d-1).建立特征变量,特征变量集用向量
Figure 2013104679905100002DEST_PATH_IMAGE048
=
Figure 2013104679905100002DEST_PATH_IMAGE050
表示,表示第
Figure 2013104679905100002DEST_PATH_IMAGE054
个特征变量,其中
Figure 2013104679905100002DEST_PATH_IMAGE058
,每个特征变量有
Figure 2013104679905100002DEST_PATH_IMAGE060
个不同的取值;d-2).建立类变量,类变量用
Figure 260796DEST_PATH_IMAGE024
表示,
Figure 2013104679905100002DEST_PATH_IMAGE062
Figure 2013104679905100002DEST_PATH_IMAGE064
,所有的特征映射到
Figure 2013104679905100002DEST_PATH_IMAGE066
个不同的类中;特征变量和类变量都是离散值;d-3).获取概率分布,通过对样本的统计得到概率分布,设
Figure 2013104679905100002DEST_PATH_IMAGE068
是特征变量
Figure 2013104679905100002DEST_PATH_IMAGE070
的概率分布, 设
Figure 2013104679905100002DEST_PATH_IMAGE072
是类变量
Figure 46175DEST_PATH_IMAGE024
的概率分布,设是特征变量
Figure 875722DEST_PATH_IMAGE070
与类变量
Figure 373700DEST_PATH_IMAGE024
的联合概率分布; 
d-4).计算特征变量香农熵,通过公式(1)计算出特征变量
Figure 207663DEST_PATH_IMAGE070
的香农熵;
     (1)
d-5).计算类变量香农熵,通过公式(2)计算出类变量
Figure 968422DEST_PATH_IMAGE024
的香农熵;
Figure 2013104679905100002DEST_PATH_IMAGE078
     (2)
d-6).计算联合香农熵,通过公式(3)计算特征变量
Figure 913244DEST_PATH_IMAGE070
与类变量
Figure 265728DEST_PATH_IMAGE024
之间的联合香农熵;
Figure 2013104679905100002DEST_PATH_IMAGE080
     (3)
其中,
Figure 86572DEST_PATH_IMAGE070
可用特征变量集
Figure 2013104679905100002DEST_PATH_IMAGE082
代替,即推广到
Figure 2013104679905100002DEST_PATH_IMAGE084
个特征变量的情况;
d-7).求取互信息,通过公式(4)求取特征变量
Figure 275239DEST_PATH_IMAGE070
与类变量之间基于香农熵的联合互信息;
Figure 2013104679905100002DEST_PATH_IMAGE086
     (3)
                   =
Figure 2013104679905100002DEST_PATH_IMAGE088
其中,
Figure 870940DEST_PATH_IMAGE070
可用特征变量集
Figure 984390DEST_PATH_IMAGE082
代替。
本发明的有益效果是:本发明的基于MapReduce的并行特征选择方法,首先将大型数据集均匀划分成个子数据集,将各子数据集分布到个Map计算节点上,在各Map计算节点进行特征选择计算,再将各计算节点得到的特征变量在Reduce计算节点进行综合,得到全局的特征选择变量,并达到预先指定的特征变量的数目;本发明的特征选择方法,可快速、有效地在海量数据集中提取出信息量最大的特征变量组合,适于海量数据的特征提取。 
具体实施方式
下面结合实施例对本发明作进一步说明。 
并行特征选择方法将是处理大规模数据的主要选择,许多并行算法采用不同的并行处理技术,如多线程、MPI、MapReduce、工作流技术等,不同并行技术有不同的性能和适用范围。MPI适合于处理计算密集型问题,特别是模拟计算,由于其对运行环境要求高,编程复杂等因素,在实际应用中不易使用。MapReduce是信息检索领域提出的一种分布式数据处理模型,Hadoop是目前应用最广的开源MapReduce的软件。但Hadoop架构下的MapReduce模型不支持迭代的Map和Reduce任务,而这是许多数据挖掘算法所需要的。Fox教授开发了一个迭代的MapReduce架构软件Twister。Twister的MapReduce方式是“一次配置,多次运行”。 
有许多并行算法是简单的迭代结构,如数据聚类、降维、链接分析、机器学习和计算机视觉等领域的很多算法,这些算法可通过迭代MapReduce计算来实现。Fox教授开发了第一个迭代MapReduce计算软件Twister。 
MapReduce作业由客户端程序控制,在配置过程中,客户端分配MapReduce方法给作业,准备键值对,如果需要,通过文件划分为MapReduce任务准备静态数据。在两次迭代之间,客户端接收由Combine方法得到的结果,当任务完成时,作业退出。 
Map进程运行在计算节点上,加载Map类通过其并启动Map任务。在初始化过程中,Map任务根据划分文件从当地磁盘加载静态数据缓存到内存中。大多数由用户定义计算任务在Map节点执行,Twister使用静态调度目的是为了充分利用本地数据缓存。 
Reduce进程在计算节点执行,Reduce节点数由客户端程序配置,Reduce任务依赖于Map任务的结果,进程之间通过消息进行通讯。 
合并任务是为了收集MapReduce结果,Twister利用脚本操作本地磁盘的静态输入数据和部分输出数据,目的是模拟分布式文件系统的特征,在这些脚本里,Twister将静态数据平行分布到各计算节点,利用类生成划分文件。 
本发明的基于MapReduce的并行特征选择方法,通过以下步骤来实现: 
a).数据划分,将初始数据
Figure 946978DEST_PATH_IMAGE002
平均划分为
Figure 70791DEST_PATH_IMAGE004
份,设其分别为
Figure 230508DEST_PATH_IMAGE006
Figure 643035DEST_PATH_IMAGE008
、…、
Figure 484083DEST_PATH_IMAGE010
b).数据部署,设参与运算的计算节点的数目为
Figure 727983DEST_PATH_IMAGE012
个,将划分后的
Figure 917656DEST_PATH_IMAGE004
份数据平均分配到个Map计算节点上;
采用
Figure 256026DEST_PATH_IMAGE012
个计算节点,可提高数据的运算速率,减少用时。
c).建立向量,设
Figure 557694DEST_PATH_IMAGE014
Figure 731318DEST_PATH_IMAGE016
为两个向量,其中
Figure 118437DEST_PATH_IMAGE018
Φ,
Figure 550555DEST_PATH_IMAGE020
,
Figure 441151DEST_PATH_IMAGE014
表示已选择的特征集,初始为空集;表示未选中的特征集,初始为数据
Figure 660091DEST_PATH_IMAGE002
的所有特征变量,
Figure 649562DEST_PATH_IMAGE022
为特征变量数;设
Figure 473293DEST_PATH_IMAGE024
为类变量,设需要从
Figure 441249DEST_PATH_IMAGE022
个特征变量中选取个特征; 
譬如在对某一区域的人群采集的数据中,人体的身高、体重、血型、年龄等信息可作为特征变量,而性别可作为类变量。
d).求取联合互信息,对于
Figure 311301DEST_PATH_IMAGE012
个Map计算节点中的任意一个计算节点来说,在处理每一份数据的过程中,均计算向量
Figure 190713DEST_PATH_IMAGE030
与类变量
Figure 774141DEST_PATH_IMAGE024
之间的联合互信息
Figure 836906DEST_PATH_IMAGE032
,其中:
Figure 884496DEST_PATH_IMAGE034
Figure 194255DEST_PATH_IMAGE036
; 
该步骤中联合互信息的求取采用基于香农熵的互信息求取方法,其通过以下步骤来实现:
d-1).建立特征变量,特征变量集用向量=
Figure 128505DEST_PATH_IMAGE050
表示, 
Figure 30602DEST_PATH_IMAGE052
表示第
Figure 511262DEST_PATH_IMAGE054
个特征变量,其中
Figure 616753DEST_PATH_IMAGE056
Figure 536167DEST_PATH_IMAGE058
,每个特征变量有
Figure 230454DEST_PATH_IMAGE060
个不同的取值;
d-2).建立类变量,类变量用表示,
Figure 939850DEST_PATH_IMAGE064
,所有的特征映射到个不同的类中;特征变量和类变量都是离散值;
d-3).获取概率分布,通过对样本的统计得到概率分布,设
Figure 389734DEST_PATH_IMAGE068
是特征变量
Figure 719084DEST_PATH_IMAGE070
的概率分布, 设
Figure 731034DEST_PATH_IMAGE072
是类变量
Figure 134333DEST_PATH_IMAGE024
的概率分布,设是特征变量
Figure 209923DEST_PATH_IMAGE070
与类变量
Figure 822301DEST_PATH_IMAGE024
的联合概率分布;
d-4).计算特征变量香农熵,通过公式(1)计算出特征变量
Figure 345686DEST_PATH_IMAGE070
的香农熵;
Figure 585650DEST_PATH_IMAGE076
     (1)
d-5).计算类变量香农熵,通过公式(2)计算出类变量
Figure 561696DEST_PATH_IMAGE024
的香农熵;
Figure 164716DEST_PATH_IMAGE078
     (2)
d-6).计算联合香农熵,通过公式(3)计算特征变量
Figure 621236DEST_PATH_IMAGE070
与类变量
Figure 956402DEST_PATH_IMAGE024
之间的联合香农熵;
Figure 747641DEST_PATH_IMAGE080
     (3)
其中,
Figure 455484DEST_PATH_IMAGE070
可用特征变量集
Figure 953461DEST_PATH_IMAGE082
代替,即推广到
Figure 272578DEST_PATH_IMAGE084
个特征变量的情况;
d-7).求取互信息,通过公式(4)求取特征变量
Figure 488796DEST_PATH_IMAGE070
与类变量
Figure 433618DEST_PATH_IMAGE024
之间基于香农熵的联合互信息;
     
                   =
Figure 541700DEST_PATH_IMAGE088
           (4)
其中,
Figure 979634DEST_PATH_IMAGE070
可用特征变量集
Figure 462568DEST_PATH_IMAGE082
代替。
e).选取特征变量,步骤d)中,使联合互信息
Figure 935138DEST_PATH_IMAGE038
最大的特征变量
Figure 596057DEST_PATH_IMAGE040
作为该计算节点从该份数据中选择的特征变量,并将该特征变量序列号
Figure 521288DEST_PATH_IMAGE042
和相应的联合互信息值传递给Reduce计算节点; 
对于每一份数据,计算节点会选择出联合互信息具有最大值的特征变量,并记录序列号和联合互信息值;例如,如果计算节点1分得了
Figure 745596DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE094
三分数据,则计算节点1会分别计算出
Figure 945109DEST_PATH_IMAGE006
Figure 229459DEST_PATH_IMAGE092
Figure 704303DEST_PATH_IMAGE094
数据中使得互信息最大的特征变量,并作相应记录。
f).统计被选中特征的数目,在Reduce计算节点,统计所有Map计算节点记录的特征变量的序列号,判断是否存在统计数量相等的特征变量,如果不存在,则将统计数量最多的序列号所对应的特征变量
Figure 279772DEST_PATH_IMAGE040
作为选取的全局特征变量;如果存在,则执行步骤g); 
g).联合互信息值的比较,对统计数量相等的特征变量,分别对各自变量所对应的联合互信息值进行求和计算,选择具有较大联合互信息值的特征变量
Figure 461355DEST_PATH_IMAGE040
作为全局特征变量;
h).被选中特征的添加和删除,将选中的全局特征变量
Figure 978924DEST_PATH_IMAGE040
添加至向量
Figure 878747DEST_PATH_IMAGE014
中,即令
Figure 444857DEST_PATH_IMAGE044
;并将选中的全局特征变量
Figure 293996DEST_PATH_IMAGE040
从向量
Figure 920149DEST_PATH_IMAGE016
中删除,即令
Figure 369585DEST_PATH_IMAGE046
i).判断选中特征的数目,判断已选中特征变量的数目是否已达到
Figure 473807DEST_PATH_IMAGE026
个,如果达到个,则整个特征选择过程结束;如果没达到个,则重复执行步骤d)~h) 选择下一个特征。
作为一个具体的实施例,在成人检查数据库中有123个属性,被分为2类。每一个属性表示为二值变量,即0或1,标记为+1或-1,它是一个二值分类。该数据库包括两个文件,一个是用于训练,另一种是用于测试。训练文件包括32562个样本,测试文件包括16282个样本。在这个例子中,使用了4个计算节点,训练数据被随机分割成m部分。每一部分都有大致相等的数据量。 
本实例在FutureGrid平台的India节点进行分析,twister0.9软件部署在每个计算节点上。每个计算节点都安装了Ubuntu Linux操作系统,该处理器是3GHz的英特尔Xeon处理器,10GB RAM。 
对于训练样本应用本文提出的并行特征选择方法,选择的特征变量数据指定为20,数据集被划分成4,2和1份,并行支持向量机用4个计算节点进行分类。表1中列出的特征选择结果和分类正确率。 
表1 
Figure DEST_PATH_IMAGE096
为了进行比较,根据相关系数对特征变量进行选取,相关系数用来测量类变量和特征变量之间的相关性。相关系数根据下面公式进行计算。
Figure DEST_PATH_IMAGE098
        (5) 
其中,
Figure DEST_PATH_IMAGE100
是两个变量的协方差,
Figure DEST_PATH_IMAGE102
的标准偏差。通过计算相关系数,选择20个特征变量。选定的变量作为并行支持向量机的输入;表2中列出的分类正确率。
表2 
选择的特征变量 正确率
39,62,38,41,74,73,0,61,81,72,71,50,63,51,77,18,28,34,48,3 81.32
从表1的分析结果中,可以发现计算节点越多,特征选择的运算速度越快,具有线性加速比。分类结果表明,不同划分方案的分类正确率是相似的,这说明并行特征选择方法是有效的,表1和表2分析结果显示,基于互信息的特征选择的结果比常规的的特征选择方法要好。
可见,特征选择是机器学习和模式识别的一个重要任务,基于互信息的特征选择被认为最有效的特征选择方法之一,为了提高计算速度,它可以实现近似线性速度比,实例分析结果表明,该方法可有效降低计算成本。分类结果的正确率与没有进行数据划分的分类结果相似。 

Claims (2)

1.一种基于MapReduce的并行特征选择方法,其特征在于,通过以下步骤来实现:
a).数据划分,将初始数据                                               
Figure 2013104679905100001DEST_PATH_IMAGE002
平均划分为
Figure 2013104679905100001DEST_PATH_IMAGE004
份,设其分别为
Figure 2013104679905100001DEST_PATH_IMAGE006
Figure 2013104679905100001DEST_PATH_IMAGE008
、…、
Figure 2013104679905100001DEST_PATH_IMAGE010
b).数据部署,设参与运算的计算节点的数目为
Figure 2013104679905100001DEST_PATH_IMAGE012
个,将划分后的
Figure 921310DEST_PATH_IMAGE004
份数据平均分配到
Figure 157119DEST_PATH_IMAGE012
个Map计算节点上;
c).建立向量,设
Figure 2013104679905100001DEST_PATH_IMAGE014
Figure 2013104679905100001DEST_PATH_IMAGE016
为两个向量,其中
Figure 2013104679905100001DEST_PATH_IMAGE018
Φ,
Figure 2013104679905100001DEST_PATH_IMAGE020
,表示已选择的特征集,初始为空集;
Figure 821242DEST_PATH_IMAGE016
表示未选中的特征集,初始为数据
Figure 917374DEST_PATH_IMAGE002
的所有特征变量,
Figure 2013104679905100001DEST_PATH_IMAGE022
为特征变量数;设
Figure 2013104679905100001DEST_PATH_IMAGE024
为类变量,设需要从
Figure 238765DEST_PATH_IMAGE022
个特征变量中选取
Figure 2013104679905100001DEST_PATH_IMAGE026
个特征;
d).求取联合互信息,对于
Figure 431849DEST_PATH_IMAGE012
个Map计算节点中的任意一个计算节点
Figure 2013104679905100001DEST_PATH_IMAGE028
来说,在处理每一份数据的过程中,均计算向量
Figure 2013104679905100001DEST_PATH_IMAGE030
与类变量
Figure 446072DEST_PATH_IMAGE024
之间的联合互信息
Figure 2013104679905100001DEST_PATH_IMAGE032
,其中:
Figure 2013104679905100001DEST_PATH_IMAGE034
Figure 2013104679905100001DEST_PATH_IMAGE036
e).选取特征变量,步骤d)中,使联合互信息
Figure 2013104679905100001DEST_PATH_IMAGE038
最大的特征变量
Figure DEST_PATH_IMAGE040
作为该计算节点从该份数据中选择的特征变量,并将该特征变量序列号
Figure DEST_PATH_IMAGE042
和相应的联合互信息值传递给Reduce计算节点;
f).统计被选中特征的数目,在Reduce计算节点,统计所有Map计算节点记录的特征变量的序列号,判断是否存在统计数量相等的特征变量,如果不存在,则将统计数量最多的序列号所对应的特征变量
Figure 720846DEST_PATH_IMAGE040
作为选取的全局特征变量;如果存在,则执行步骤g);
g).联合互信息值的比较,对统计数量相等的特征变量,分别对各自变量所对应的联合互信息值进行求和计算,选择具有较大联合互信息值的特征变量
Figure 32878DEST_PATH_IMAGE040
作为全局特征变量;
h).被选中特征的添加和删除,将选中的全局特征变量
Figure 18152DEST_PATH_IMAGE040
添加至向量
Figure 140960DEST_PATH_IMAGE014
中,即令
Figure DEST_PATH_IMAGE044
;并将选中的全局特征变量
Figure 274001DEST_PATH_IMAGE040
从向量
Figure 140457DEST_PATH_IMAGE016
中删除,即令
Figure DEST_PATH_IMAGE046
i).判断选中特征的数目,判断已选中特征变量的数目是否已达到
Figure 42554DEST_PATH_IMAGE026
个,如果达到
Figure 523214DEST_PATH_IMAGE026
个,则整个特征选择过程结束;如果没达到
Figure 628704DEST_PATH_IMAGE026
个,则重复执行步骤d)~h)选择下一个特征。
2.根据权利要求1所述的基于MapReduce的并行特征选择方法,其特征在于,步骤d)中联合互信息的求取采用基于香农熵的互信息求取方法,其采用以下步骤:
d-1).建立特征变量,特征变量集用向量
Figure DEST_PATH_IMAGE048
=表示, 
Figure DEST_PATH_IMAGE052
表示第
Figure DEST_PATH_IMAGE054
个特征变量,其中
Figure DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE058
,每个特征变量有
Figure DEST_PATH_IMAGE060
个不同的取值;
d-2).建立类变量,类变量用
Figure 233604DEST_PATH_IMAGE024
表示,
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE064
,所有的特征映射到
Figure DEST_PATH_IMAGE066
个不同的类中;特征变量和类变量都是离散值;
d-3).获取概率分布,通过对样本的统计得到概率分布,设
Figure DEST_PATH_IMAGE068
是特征变量的概率分布, 设
Figure DEST_PATH_IMAGE072
是类变量
Figure 740940DEST_PATH_IMAGE024
的概率分布,设是特征变量
Figure 220199DEST_PATH_IMAGE070
与类变量
Figure 265516DEST_PATH_IMAGE024
的联合概率分布;
d-4).计算特征变量香农熵,通过公式(1)计算出特征变量
Figure 723042DEST_PATH_IMAGE070
的香农熵;
     (1)
d-5).计算类变量香农熵,通过公式(2)计算出类变量
Figure 84884DEST_PATH_IMAGE024
的香农熵;
Figure DEST_PATH_IMAGE078
     (2)
d-6).计算联合香农熵,通过公式(3)计算特征变量
Figure 172926DEST_PATH_IMAGE070
与类变量
Figure 502276DEST_PATH_IMAGE024
之间的联合香农熵;
Figure DEST_PATH_IMAGE080
     (3)
其中,
Figure 310963DEST_PATH_IMAGE070
可用特征变量集代替,即推广到
Figure DEST_PATH_IMAGE084
个特征变量的情况;
d-7).求取互信息,通过公式(4)求取特征变量
Figure 792891DEST_PATH_IMAGE070
与类变量之间基于香农熵的联合互信息;
                   =
Figure DEST_PATH_IMAGE088
     (4)
其中,
Figure 413021DEST_PATH_IMAGE070
可用特征变量集
Figure 477929DEST_PATH_IMAGE082
代替。
CN201310467990.5A 2013-10-09 2013-10-09 基于MapReduce的并行特征选择方法 Pending CN103559205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310467990.5A CN103559205A (zh) 2013-10-09 2013-10-09 基于MapReduce的并行特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310467990.5A CN103559205A (zh) 2013-10-09 2013-10-09 基于MapReduce的并行特征选择方法

Publications (1)

Publication Number Publication Date
CN103559205A true CN103559205A (zh) 2014-02-05

Family

ID=50013452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310467990.5A Pending CN103559205A (zh) 2013-10-09 2013-10-09 基于MapReduce的并行特征选择方法

Country Status (1)

Country Link
CN (1) CN103559205A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050242A (zh) * 2014-05-27 2014-09-17 哈尔滨理工大学 基于最大信息系数的特征选择、分类方法及其装置
CN104778254A (zh) * 2015-04-20 2015-07-15 北京蓝色光标品牌管理顾问股份有限公司 一种非参数的话题自动标注的分布式系统和标注方法
CN105183813A (zh) * 2015-08-26 2015-12-23 山东省计算中心(国家超级计算济南中心) 基于互信息的用于文档分类的并行特征选择方法
CN105740388A (zh) * 2016-01-27 2016-07-06 上海晶赞科技发展有限公司 一种基于分布漂移数据集的特征选择方法
CN106022521A (zh) * 2016-05-19 2016-10-12 四川大学 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法
CN108197307A (zh) * 2018-01-31 2018-06-22 湖北工业大学 一种文本特征的选择方法及系统
CN108920533A (zh) * 2018-06-08 2018-11-30 中国科学院计算技术研究所 一种向量化的整体同步并行计算方法及系统
CN109241770A (zh) * 2018-08-10 2019-01-18 深圳前海微众银行股份有限公司 基于同态加密的信息值计算方法、设备及可读存储介质
CN109325357A (zh) * 2018-08-10 2019-02-12 深圳前海微众银行股份有限公司 基于rsa的信息值计算方法、设备及可读存储介质
CN112181289A (zh) * 2014-12-31 2021-01-05 三星电子株式会社 电子系统及其操作方法以及计算机可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336790A (zh) * 2013-06-06 2013-10-02 湖州师范学院 基于Hadoop的邻域粗糙集快速属性约简方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336790A (zh) * 2013-06-06 2013-10-02 湖州师范学院 基于Hadoop的邻域粗糙集快速属性约简方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙占全等: ""基于关联度的特征提取方法及其在中医中的应用"", 《生物医学工程学杂志》, vol. 25, no. 5, 22 December 2008 (2008-12-22) *
王广涛等: ""一种新的基于信息熵的属性选择算法"", 《计算机研究与发展》, 5 May 2010 (2010-05-05) *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050242A (zh) * 2014-05-27 2014-09-17 哈尔滨理工大学 基于最大信息系数的特征选择、分类方法及其装置
CN104050242B (zh) * 2014-05-27 2018-03-27 哈尔滨理工大学 基于最大信息系数的特征选择、分类方法及其装置
CN112181289A (zh) * 2014-12-31 2021-01-05 三星电子株式会社 电子系统及其操作方法以及计算机可读介质
CN104778254A (zh) * 2015-04-20 2015-07-15 北京蓝色光标品牌管理顾问股份有限公司 一种非参数的话题自动标注的分布式系统和标注方法
CN104778254B (zh) * 2015-04-20 2018-03-27 北京蓝色光标品牌管理顾问股份有限公司 一种非参数的话题自动标注的分布式系统和标注方法
CN105183813A (zh) * 2015-08-26 2015-12-23 山东省计算中心(国家超级计算济南中心) 基于互信息的用于文档分类的并行特征选择方法
CN105740388B (zh) * 2016-01-27 2019-03-05 上海晶赞科技发展有限公司 一种基于分布漂移数据集的特征选择方法
CN105740388A (zh) * 2016-01-27 2016-07-06 上海晶赞科技发展有限公司 一种基于分布漂移数据集的特征选择方法
CN106022521A (zh) * 2016-05-19 2016-10-12 四川大学 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法
CN108197307A (zh) * 2018-01-31 2018-06-22 湖北工业大学 一种文本特征的选择方法及系统
CN108920533A (zh) * 2018-06-08 2018-11-30 中国科学院计算技术研究所 一种向量化的整体同步并行计算方法及系统
CN108920533B (zh) * 2018-06-08 2021-03-09 中国科学院计算技术研究所 一种向量化的整体同步并行计算方法及系统
CN109241770A (zh) * 2018-08-10 2019-01-18 深圳前海微众银行股份有限公司 基于同态加密的信息值计算方法、设备及可读存储介质
CN109325357A (zh) * 2018-08-10 2019-02-12 深圳前海微众银行股份有限公司 基于rsa的信息值计算方法、设备及可读存储介质
CN109241770B (zh) * 2018-08-10 2021-11-09 深圳前海微众银行股份有限公司 基于同态加密的信息值计算方法、设备及可读存储介质
CN109325357B (zh) * 2018-08-10 2021-12-14 深圳前海微众银行股份有限公司 基于rsa的信息值计算方法、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN103559205A (zh) 基于MapReduce的并行特征选择方法
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
Gernhard The conditioned reconstructed process
Wang et al. Parallel online sequential extreme learning machine based on MapReduce
Esteves et al. Competitive k-means, a new accurate and distributed k-means algorithm for large datasets
US11915104B2 (en) Normalizing text attributes for machine learning models
CN111507768B (zh) 一种潜在用户的确定方法及相关装置
CN108683530B (zh) 多维度数据的数据分析方法、装置及存储介质
CN113435602A (zh) 确定机器学习样本的特征重要性的方法及系统
CN107908536B (zh) Cpu-gpu异构环境中对gpu应用的性能评估方法及系统
CN114332984B (zh) 训练数据处理方法、装置和存储介质
CN110069502A (zh) 基于Spark架构的数据均衡分区方法及计算机存储介质
US7991617B2 (en) Optimum design management apparatus from response surface calculation and method thereof
CN110472659B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
Ulanov et al. Modeling scalability of distributed machine learning
CN114219562A (zh) 模型的训练方法、企业信用评估方法和装置、设备、介质
DeMasi et al. Identifying HPC codes via performance logs and machine learning
Dong Application of Big Data Mining Technology in Blockchain Computing
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN111107493B (zh) 一种移动用户位置预测方法与系统
CN111291795A (zh) 人群特征分析方法、装置、存储介质和计算机设备
Saini et al. New approach for clustering of big data: DisK-means
Tøn et al. Wild animal species classification from camera traps using metadata analysis
CN114419738A (zh) 一种姿态检测方法、装置、电子设备以及存储介质
Wang et al. A deep reinforcement learning method for solving task mapping problems with dynamic traffic on parallel systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140205

RJ01 Rejection of invention patent application after publication