CN103559205A

CN103559205A - 基于MapReduce的并行特征选择方法

Info

Publication number: CN103559205A
Application number: CN201310467990.5A
Authority: CN
Inventors: 孙占全; 顾卫东; 李钊; 赵彦玲
Original assignee: Shandong Computer Science Center
Current assignee: Shandong Computer Science Center
Priority date: 2013-10-09
Filing date: 2013-10-09
Publication date: 2014-02-05

Abstract

本发明的基于MapReduce的并行特征选择方法，包括：a)将数据划分为份；b)将

份数据分配到

个Map计算节点上；c)建立已选择的特征集

和未选中的特征集

；d)求取向量

与类变量

之间的联合互信息

；e)联合互信息

最大的特征变量作为特征变量，并将特征变量序列号

Description

基于MapReduce的并行特征选择方法

技术领域

本发明涉及一种基于MapReduce的并行特征选择方法，更具体的说，尤其涉及一种可对海量数据进行快速特征提取的基于MapReduce的并行特征选择方法。

背景技术

近年来，很多领域的数据集不论是在数量上还是特征变量数上都变得越来越大，如基因组工程、文本分类、图像检索和客户关系管理等。这可能会给很多机器学习方法的可扩展性和学习性能带来严重的问题。如何选择信息量最大的特征变量组合是一个至关重要的问题。特征选择是从原始特征集中根据一定的评价标准来选择特征子集，从而有效降低特征变量集维数的过程。特征选择可有效降低特征变量维数，去除不相关数据，提高学习精度，提高结果的可理解性。因此，特征选择对于高维数据的机器学习任务变得十分必要。

相关分析是特征选择基础，相关系数是一种常用相关测度，它只能测量变量之间的线性关系。逐步回归是另一种常用的特征选择方法，它主要用于线性回归问题。熵是一个可以度量任意随机变量不确定性的测度，基于熵的互信息可以度量变量之间任意统计相关性，基于互信息的特征选择已被广泛应用。但是，随着电子和信息机技术的快速发展，电子数据量呈指数级增长。数据洪流已成为急需解决的突出问题，科学家们面临各个领域产生的不断增长的海量数据处理问题，如生物信息学、生物医学、化学信息学、网络等等。常规的特征选择方法无法处理大规模的数据集。

发明内容

本发明为了克服上述技术问题的缺点，提供了一种可对海量数据进行快速特征提取的基于MapReduce的并行特征选择方法。

本发明的基于MapReduce的并行特征选择方法，其特别之处在于，通过以下步骤来实现：a).数据划分，将初始数据

Figure 2013104679905100002DEST_PATH_IMAGE002

平均划分为

份，设其分别为

Figure 2013104679905100002DEST_PATH_IMAGE006

、

Figure 2013104679905100002DEST_PATH_IMAGE008

、…、

Figure 2013104679905100002DEST_PATH_IMAGE010

；b).数据部署，设参与运算的计算节点的数目为

个，将划分后的份数据平均分配到

个Map计算节点上；c).建立向量，设

和

Figure 2013104679905100002DEST_PATH_IMAGE016

为两个向量，其中Φ，,

表示已选择的特征集，初始为空集；

表示未选中的特征集，初始为数据的所有特征变量，

Figure 2013104679905100002DEST_PATH_IMAGE022

为特征变量数；设

Figure 2013104679905100002DEST_PATH_IMAGE024

为类变量，设需要从

个特征变量中选取

Figure 2013104679905100002DEST_PATH_IMAGE026

个特征；d).求取联合互信息，对于

个Map计算节点中的任意一个计算节点

来说，在处理每一份数据的过程中，均计算向量与类变量

之间的联合互信息

Figure 2013104679905100002DEST_PATH_IMAGE032

，其中：

Figure 2013104679905100002DEST_PATH_IMAGE034

，

Figure 2013104679905100002DEST_PATH_IMAGE036

；e).选取特征变量，步骤d)中，使联合互信息

Figure 2013104679905100002DEST_PATH_IMAGE038

最大的特征变量

Figure 2013104679905100002DEST_PATH_IMAGE040

作为该计算节点从该份数据中选择的特征变量，并将该特征变量序列号

和相应的联合互信息值传递给Reduce计算节点；f).统计被选中特征的数目，在Reduce计算节点，统计所有Map计算节点记录的特征变量的序列号，判断是否存在统计数量相等的特征变量，如果不存在，则将统计数量最多的序列号所对应的特征变量

作为选取的全局特征变量；如果存在，则执行步骤g)；g).联合互信息值的比较，对统计数量相等的特征变量，分别对各自变量所对应的联合互信息值进行求和计算，选择具有较大联合互信息值的特征变量

作为全局特征变量；h).被选中特征的添加和删除，将选中的全局特征变量

添加至向量

中，即令

Figure 2013104679905100002DEST_PATH_IMAGE044

；并将选中的全局特征变量

从向量

中删除，即令

Figure 2013104679905100002DEST_PATH_IMAGE046

；i).判断选中特征的数目，判断已选中特征变量的数目是否已达到

个，如果达到个，则整个特征选择过程结束；如果没达到

个，则重复执行步骤d)～h)重选择下一个特征。

本发明的基于MapReduce的并行特征选择方法，步骤d)中联合互信息的求取采用基于香农熵的互信息求取方法，其采用以下步骤：d-1).建立特征变量，特征变量集用向量

Figure 2013104679905100002DEST_PATH_IMAGE048

=

Figure 2013104679905100002DEST_PATH_IMAGE050

表示，表示第

个特征变量，其中，

Figure 2013104679905100002DEST_PATH_IMAGE058

,每个特征变量有

个不同的取值；d-2).建立类变量，类变量用

表示，

Figure 2013104679905100002DEST_PATH_IMAGE062

，

Figure 2013104679905100002DEST_PATH_IMAGE064

，所有的特征映射到

个不同的类中；特征变量和类变量都是离散值；d-3).获取概率分布，通过对样本的统计得到概率分布，设

Figure 2013104679905100002DEST_PATH_IMAGE068

是特征变量

Figure 2013104679905100002DEST_PATH_IMAGE070

的概率分布, 设

Figure 2013104679905100002DEST_PATH_IMAGE072

是类变量

的概率分布，设是特征变量

与类变量

的联合概率分布；

d-4).计算特征变量香农熵，通过公式(1)计算出特征变量

的香农熵；

(1)

d-5).计算类变量香农熵，通过公式（2）计算出类变量

的香农熵；

Figure 2013104679905100002DEST_PATH_IMAGE078

(2)

d-6).计算联合香农熵，通过公式（3）计算特征变量

与类变量

之间的联合香农熵；

Figure 2013104679905100002DEST_PATH_IMAGE080

(3)

其中，

可用特征变量集

Figure 2013104679905100002DEST_PATH_IMAGE082

代替，即推广到

个特征变量的情况；

d-7).求取互信息，通过公式（4）求取特征变量

与类变量之间基于香农熵的联合互信息；

Figure 2013104679905100002DEST_PATH_IMAGE086

(3)

=

Figure 2013104679905100002DEST_PATH_IMAGE088

其中，

可用特征变量集

代替。

本发明的有益效果是：本发明的基于MapReduce的并行特征选择方法，首先将大型数据集均匀划分成个子数据集，将各子数据集分布到个Map计算节点上，在各Map计算节点进行特征选择计算，再将各计算节点得到的特征变量在Reduce计算节点进行综合，得到全局的特征选择变量，并达到预先指定的特征变量的数目；本发明的特征选择方法，可快速、有效地在海量数据集中提取出信息量最大的特征变量组合，适于海量数据的特征提取。

具体实施方式

下面结合实施例对本发明作进一步说明。

并行特征选择方法将是处理大规模数据的主要选择，许多并行算法采用不同的并行处理技术，如多线程、MPI、MapReduce、工作流技术等，不同并行技术有不同的性能和适用范围。MPI适合于处理计算密集型问题，特别是模拟计算，由于其对运行环境要求高，编程复杂等因素，在实际应用中不易使用。MapReduce是信息检索领域提出的一种分布式数据处理模型，Hadoop是目前应用最广的开源MapReduce的软件。但Hadoop架构下的MapReduce模型不支持迭代的Map和Reduce任务，而这是许多数据挖掘算法所需要的。Fox教授开发了一个迭代的MapReduce架构软件Twister。Twister的MapReduce方式是“一次配置，多次运行”。

有许多并行算法是简单的迭代结构，如数据聚类、降维、链接分析、机器学习和计算机视觉等领域的很多算法，这些算法可通过迭代MapReduce计算来实现。Fox教授开发了第一个迭代MapReduce计算软件Twister。

MapReduce作业由客户端程序控制，在配置过程中，客户端分配MapReduce方法给作业，准备键值对，如果需要，通过文件划分为MapReduce任务准备静态数据。在两次迭代之间，客户端接收由Combine方法得到的结果，当任务完成时，作业退出。

Map进程运行在计算节点上，加载Map类通过其并启动Map任务。在初始化过程中，Map任务根据划分文件从当地磁盘加载静态数据缓存到内存中。大多数由用户定义计算任务在Map节点执行，Twister使用静态调度目的是为了充分利用本地数据缓存。

Reduce进程在计算节点执行，Reduce节点数由客户端程序配置，Reduce任务依赖于Map任务的结果，进程之间通过消息进行通讯。

合并任务是为了收集MapReduce结果，Twister利用脚本操作本地磁盘的静态输入数据和部分输出数据，目的是模拟分布式文件系统的特征，在这些脚本里，Twister将静态数据平行分布到各计算节点，利用类生成划分文件。

本发明的基于MapReduce的并行特征选择方法，通过以下步骤来实现：

a).数据划分，将初始数据

平均划分为

份，设其分别为

、

、…、

；

b).数据部署，设参与运算的计算节点的数目为

个，将划分后的

份数据平均分配到个Map计算节点上；

采用

个计算节点，可提高数据的运算速率，减少用时。

c).建立向量，设

和

为两个向量，其中

Φ，

,

表示已选择的特征集，初始为空集；表示未选中的特征集，初始为数据

的所有特征变量，

为特征变量数；设

为类变量，设需要从

个特征变量中选取个特征；

譬如在对某一区域的人群采集的数据中，人体的身高、体重、血型、年龄等信息可作为特征变量，而性别可作为类变量。

d).求取联合互信息，对于

个Map计算节点中的任意一个计算节点来说，在处理每一份数据的过程中，均计算向量

与类变量

之间的联合互信息

，其中：

，

；

该步骤中联合互信息的求取采用基于香农熵的互信息求取方法，其通过以下步骤来实现：

d-1).建立特征变量，特征变量集用向量=

表示,

表示第

个特征变量，其中

，

，每个特征变量有

个不同的取值；

d-2).建立类变量，类变量用表示，，

，所有的特征映射到个不同的类中；特征变量和类变量都是离散值；

d-3).获取概率分布，通过对样本的统计得到概率分布，设

是特征变量

的概率分布, 设

是类变量

的概率分布，设是特征变量

与类变量

的联合概率分布；

d-4).计算特征变量香农熵，通过公式(1)计算出特征变量

的香农熵；

(1)

d-5).计算类变量香农熵，通过公式（2）计算出类变量

的香农熵；

(2)

d-6).计算联合香农熵，通过公式（3）计算特征变量

与类变量

之间的联合香农熵；

(3)

其中，

可用特征变量集

代替，即推广到

个特征变量的情况；

d-7).求取互信息，通过公式（4）求取特征变量

与类变量

之间基于香农熵的联合互信息；

=

(4)

其中，

可用特征变量集

代替。

e).选取特征变量，步骤d)中，使联合互信息

最大的特征变量

和相应的联合互信息值传递给Reduce计算节点；

对于每一份数据，计算节点会选择出联合互信息具有最大值的特征变量，并记录序列号和联合互信息值；例如，如果计算节点1分得了

、

、

三分数据，则计算节点1会分别计算出

、

、

数据中使得互信息最大的特征变量，并作相应记录。

f).统计被选中特征的数目，在Reduce计算节点，统计所有Map计算节点记录的特征变量的序列号，判断是否存在统计数量相等的特征变量，如果不存在，则将统计数量最多的序列号所对应的特征变量

作为选取的全局特征变量；如果存在，则执行步骤g)；

g).联合互信息值的比较，对统计数量相等的特征变量，分别对各自变量所对应的联合互信息值进行求和计算，选择具有较大联合互信息值的特征变量

作为全局特征变量；

h).被选中特征的添加和删除，将选中的全局特征变量

添加至向量

中，即令

；并将选中的全局特征变量

从向量

中删除，即令

；

i).判断选中特征的数目，判断已选中特征变量的数目是否已达到

个，如果达到个，则整个特征选择过程结束；如果没达到个，则重复执行步骤d)～h) 选择下一个特征。

作为一个具体的实施例，在成人检查数据库中有123个属性，被分为2类。每一个属性表示为二值变量，即0或1，标记为+1或-1，它是一个二值分类。该数据库包括两个文件，一个是用于训练，另一种是用于测试。训练文件包括32562个样本，测试文件包括16282个样本。在这个例子中，使用了4个计算节点，训练数据被随机分割成m部分。每一部分都有大致相等的数据量。

本实例在FutureGrid平台的India节点进行分析，twister0.9软件部署在每个计算节点上。每个计算节点都安装了Ubuntu Linux操作系统，该处理器是3GHz的英特尔Xeon处理器，10GB RAM。

对于训练样本应用本文提出的并行特征选择方法，选择的特征变量数据指定为20，数据集被划分成4，2和1份，并行支持向量机用4个计算节点进行分类。表1中列出的特征选择结果和分类正确率。

表1

为了进行比较，根据相关系数对特征变量进行选取，相关系数用来测量类变量和特征变量之间的相关性。相关系数根据下面公式进行计算。

（5）

其中，

是两个变量的协方差，

、是的标准偏差。通过计算相关系数，选择20个特征变量。选定的变量作为并行支持向量机的输入;表2中列出的分类正确率。

表2

选择的特征变量	正确率
		39,62,38,41,74,73,0,61,81,72,71,50,63,51,77,18,28,34,48,3	81.32

从表1的分析结果中，可以发现计算节点越多，特征选择的运算速度越快，具有线性加速比。分类结果表明，不同划分方案的分类正确率是相似的，这说明并行特征选择方法是有效的，表1和表2分析结果显示，基于互信息的特征选择的结果比常规的的特征选择方法要好。

可见，特征选择是机器学习和模式识别的一个重要任务，基于互信息的特征选择被认为最有效的特征选择方法之一，为了提高计算速度，它可以实现近似线性速度比，实例分析结果表明，该方法可有效降低计算成本。分类结果的正确率与没有进行数据划分的分类结果相似。