CN109243535A

CN109243535A - 同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法

Info

Publication number: CN109243535A
Application number: CN201811106078.6A
Authority: CN
Inventors: 姜涛; 李钧涛
Original assignee: Henan university of economics and law
Current assignee: Henan university of economics and law
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2019-01-18

Abstract

本发明提出了同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法。具体为首先部署一个底层为HDFS、且含有2ⁿ个节点的Hama平台，接着在本地计算阶段，Hama平台上的每个节点做双聚类挖掘工作，如果为第1个超步，则只需要利用本地源数据，否则只需将新接收到的数据与本地数据进行匹配，然后在全局通信阶段，利用蝶形网络方法对节点进行分组并通信，在障栅同步阶段进行通信的同步；依照此方法，经过多次迭代，最终挖掘出所有双聚类，该方法使得通信量较少，有效减少了通信的数据量与挖掘结果的冗余度，提升了节点的利用率。

Description

同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法

技术领域

本发明属于Hama BSP编程领域，具体涉及一种同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法。

背景技术

高通量技术(比如基因微阵列)的飞速发展使得同时测量一个器官的所有基因的表达水平成为可能。这样，也就积累了大量的基因表达数据。这些数据可以看作n×m的矩阵，其中n为基因数目(行数)、m为实验条件个数(列数)、矩阵中的每个数据表示给定基因在设定实验下的表达水平。目前，双聚类已经成为一种重要的基因表达数据分析工具，因为其在推断和创建基因调控网络中发挥着重要的作用。设计双聚类算法的目的是从基因表达数据中发现部分行和部分列组成的子矩阵，该子矩阵中的部分行和部分列在基因表达水平上又要表现出同样的升降趋势。目前已经有许多关于双聚类挖掘的单机算法，但是双聚类的挖掘属于数据密集型计算中的一种，所以迫切需要加快其处理速度。

Hama BSP是一种可以提升矩阵和图等数据处理的编程模型。该模型包括三个阶段，分别为本地计算阶段、全局通信阶段、障栅同步阶段。上述三个阶段统称一个超步。在本地计算阶段，每个节点只对存储在本地内存中的数据进行计算。在全局通信阶段，对任何非本地数据进行操作。在障栅同步阶段，等待所有通信行为的结束。图1描述了传统的HamaBSP处理框架。

通常，一个算法的完全执行需要多个超步。一般情况下，全局通信阶段需要传递的数据量不大且无冗余信息。然而，一些应用领域，如寻找基因表达数据中的双聚类，需要每两行数据之间都要做计算。这种情况下，每个节点都要将本地数据传递给其他节点，同时接收其他节点传递过来的数据。这样就相当于每个节点都拥有全局数据，且所有节点的挖掘结果是相同的，也就降低为单机处理的情况，并没有充分发挥分布式并行平台的优势。因此，Hama BSP的通信与计算模式并不能直接扩展到寻找基因表达数据中的双聚类应用中，为此，必须根据基因表达数据等密集型计算数据的特点来改善Hama BSP编程模型的通信与计算模式。

发明内容

要解决的技术问题

为了提升双聚类挖掘的效率、充分发挥分布式并行平台的优势、有效避免冗余数据传递造成的计算效率低下这一问题，本发明提出一种同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法。

技术方案

一种同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法，其特征在于步骤如下：

前提：创建一个具有N个节点的集群，其中N＝2ⁿ，n为迭代次数(也称超步)。在每个节点上，首先部署Hadoop系统(Hama利用其中的HDFS文件系统)，接着安装Hama。为了方便表示，每个节点用整数来表示，范围为[0，2ⁿ-1]。

步骤1：本地计算阶段：在第step个超步中，每个节点主要做双聚类的挖掘工作。首先做本地变量的声明与初始化工作，利用geneSet存储属于同一双聚类的多个基因的名称，geneSets依照先后顺序存储所挖掘出的双聚类中的基因名集合，cdSeq存储属于同一双聚类的实验条件序列，cdSeqs同样依照先后顺序存储所挖掘出的双聚类中的实验条件序列的集合，Array[]记录对应的长度为m的cdSeq的内存地址，Array1[]记录对应长度小于m的cdSeq的内存地址，ArrayNo[]记录对应的长度为m的cdSeq的数量，并将其初始化为0，超步数目step初始化为1。

步骤1.1：如果step＝1，即为第1个超步，则只需要将本节点原有数据进行最长公共子序列匹配。

步骤1.2：否则，则需要将接收到的数据与本地数据(含前几个超步中传递过来的数据)、中间结果进行最长公共子序列匹配。

步骤2：全局通信阶段：将N个节点分为(log₂N)/2^step-1组，1≤step≤n，即每一组必须有2^step个成员，即每组节点数grpSz为2^step，且这些成员拥有连续的编号；接着每一组又分成2个半组，即每个半组节点数hfGrpSz为2^step-1；然后每个半组中的节点与另一个半组中步长之差为2^step-1的节点进行交互。

步骤3：障栅同步阶段：等待所有通信行为的结束，即已交互完的节点等待未交互完的节点。

步骤4：step＝step+1，重复步骤1.2至3，直到没有信息传递(flag为false)或者超步数目达到log₂N，Hama平台的计算工作就停止下来。

上述同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘算法的伪代码如下：

有益效果

本发明提出的一种同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法，具体为首先部署一个底层为HDFS、且含有2ⁿ个节点的Hama平台，接着在本地计算阶段，Hama平台上的每个节点做双聚类挖掘工作，如果为第1个超步，则只需要利用本地源数据，否则只需将新接收到的数据与本地数据进行匹配，然后在全局通信阶段，利用蝶形网络方法对节点进行分组并通信，在障栅同步阶段进行通信的同步；依照此方法，经过多次迭代，最终挖掘出所有双聚类，该方法使得通信量较少，有效减少了通信的数据量与挖掘结果的冗余度，提升了节点的利用率。

附图说明

图1传统的Hama BSP框架

图2基于蝶形网络的Hama BSP框架BNHB

图3 BNHB框架上双聚类的挖掘过程

图4 BNHB框架上的基于分布式哈希表的去冗余处理过程

图5 BNHB框架上的数据传输过程

图6双聚类方法在单机与BNHB上性能的比较

图7双聚类方法在BNHB与Hama BSP框架下性能的比较，行变化情况下扩展性比较

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明提出了一种同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法，其中的基于蝶形网络的Hama BSP框架BNHB如图2所示。

实施例1

例1(双聚类挖掘方法在BNHB上的实现).基因表达数据集实例见表1(a)，算法输入的源数据见表1(b)，该数据是每行基因表达数据经过排序并替换为列标签生成的，读入数据时的分片数据见图3的第一排，最终挖掘结果见表1(c)，双聚类列(属性)结果阈值为0.6。

表1

例1的详细过程如下。首先，每个节点读入一份数据，之后进入不大于log₂N个超步的处理过程。在第1个超步过程中(step＝1)，首先进入本地计算阶段，每个节点利用图3中第1排中各自获取到的数据在本地做两两比对处理，接着产生中间结果，见图3中第2排。接下来进入全局通信阶段，首先集群中的4个节点分为2组(log₂4/2^step-1＝2)，且每个分组中的成员个数都为2，即4/2＝2。上述2个分组又分成2个小半组。即，第一个分组中的节点0和节点1分成节点0与节点1两个小半组，第2个小组的再分组方法同上。同1组内两个小半组之间的交互步长为小半组大小，即2/2＝1。分组过后，节点0将数据“g₀：0，1，2，3”、“g₄：1，2，3，0”、“g₈：2，3，0，1”和“g₁₂：3，0，1，2”传递给节点1，节点1将数据“g₁：0，1，2”传递给节点0，节点2将数据“g₂：0，1，2，3”传递给节点3，节点3将数据“g₃：0，1，2，3”传递给节点2。为了等待节点间完成数据的交互工作，4个节点进入障栅同步阶段。在第2个超步中，首先进入本地计算阶段，每个节点首先做收到数据与本地源数据间的比对工作。之后，每个节点做收到数据与本地中间结果间的比对工作。接下来进入全局通信阶段，首先集群之上的4个节点分为1组((log₂4/2^2-1＝1))。之后又将这个分组分成2个小半组，即第1个小半组的成员为节点0和节点1，第2个小半组的成员为节点2和节点3。同1组内两个小半组之间的交互步长为小半组大小2，即4/2＝2。分组过后，节点0将数据“g₄：1，2，3，0”、“g₈：2，3，0，1”和“g₁₂：3，0，1，2”传递给节点2，节点1将数据“g₈：2，3，0，1”和“g₁₂：3，0，1，2”传递给节点3，节点2和节点3没有数据要传递给节点0与节点1，这是因为这两个节点本地的数据都有了最长的公共子序列。之后，4个节点进入大同步阶段。最后，由于超步的数目达到log₂N，4个节点输出最终结果。

1.节点交互以及数据传输的规则

规则1.一个基因的源列标签排列数据(先对每一行基因表达数据做排序处理，接着将相应表达值替换为各自列标签，简称源数据)，如果没有获取到最长的最长公共子序列(如果列标签排列数据的列数为m，那么其最长公共子序列的最长长度就为m)，那么就将该基因的源列标签数据传递给其要进行交互的节点。

规则2.如果一个基因的源列标签排列数据已经在某个超步中使用，即其已经获取到最长的最长公共子序列，那么该源数据在后续的超步中就不再传递给其他节点。

规则3.由基因的源列标签排列数据产生的中间结果不传递给其他节点。

规则4.如果来自节点i的源列标签排列数据传递给节点j，该源数据将与节点j中的源数据做比对，并找到最长公共子序列。

规则5.来自节点i的源列标签排列数据将与节点j产生的中间结果作比对，并找出最长公共子序列。

规则6.如果没有源数据要传输或者超步个数达到log₂N，那么Hama平台的计算工作就要停止。

2.基于分布式哈希表的去冗余方法

2.1通过分布式哈希表来总结cdSeq及其数目

通过哈希分割方法得到的4份数据见图3。当产生一个cdSeq后，其采用自定义哈希函数hash(cdSeq，No)(No代表所有种类的cdSeq个数)计算存储该cdSeq的内存地址，长度为m的cdSeq的内存地址存储在Array[hash]中，长度小于m的cdSeq的内存地址存储在Array1[hash]中。分布式哈希表DHT用来检测该cdSeq是否已经存储在内存中。如果已经存在或者产生，那么就将该cdSeq的个数加1，即数组中该元素的位置ArrayNo[hash]加1。例如，其读取到数据“g₃：0 1 2 3”，见图4。接着计算其哈希地址，通过计算得到哈希地址为3，即(0×10³+1×10²+2×10¹+3)mod 4＝3，其中mod表示取模操作。之后，将“0 1 2 3”作为第一个长度为4的cdSeq存储在cdSeqs中，即将“0 1 2 3”在链表中的地址0存储到数组Array[3]中(3为上述已经算出的哈希地址，且将Array[3]＝-1变为Array[3]＝0)。同时，将“0 1 2 3”的数量加1，其通过ArrayNo[3]中内容的改变来体现，即将其值ArrayNo[3]＝0变为ArrayNo[3]＝1。其他数据的处理过程同上。类似地，挖掘长度小于4的cdSeq的过程与挖掘长度为4的过程相同，更多细节请参考图4。

2.2通过分布式哈希表来减少数据传输量的例子

在基本Hama BSP框架中，每个节点都要将自身产生的中间结果传递给其他节点，这一特点不适用于基因表达数据，因为其产生的中间结果数目巨大。在图5中，ArrayNo[hash]记录每一个长度为m的cdSeq的个数，这是规则1的具体实现。其他5个规则的使用方法见图3。如果ArrayNo[hash]中的记录为1，那么就将该行记录到行号集合rowSend中。当做完本地计算之后，该节点将记录在行号集合rowSend中的行号的本地数据传递给相应的其他节点。例如，在图5中，两个节点中的行号集合rowSend中记录的需要传递的数据都为行0，因为这是第1个超步，即步长为1，两个节点都将本地的行0的源数据传递给对方。上述所要传递的数据量是本地数据量的1/4，且远远小于中间挖掘结果的数据量。

3.结果完整性的证明

定理1.利用同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法，经过两两通信与数据传输之后获得的结果是完整的。

证明：设基因g_i在所有生理条件下的表达值表示为D(g_i，T)，且D(g_i，T)＝(x_i0，x_i1，…，x_im)。接着，给出列标签关于基因g_i的表达值由小到大排列的数据，用g_i表示，取值为g_i＝(e_i0，e_i1，…，e_im)，其中e_ij是个整数，范围为[0，m-1]。假设v是g_i的一个子集合，且v＝(e_io，…，e_ip，…，e_iq)，其中0≤o≤p≤q≤m-1。长度为k的子集合的数目为所以假设含有n个基因的源列标签排列数据分为2^τ份，其中τ＝log₂N，N为集群中节点的个数。节点i中分到的数据为“g_i0，g_i1，…，g_ij”。

因为拥有N个节点的集群的超步个数不超过log₂N，所以首先证明超步个数为log₂N情况下数据的完整性，之后证明超步个数小于log₂N情况下数据的完整性。

(I)超步个数为log₂N情况下数据的完整性：集群的最大迭代步数为τ+3，其中包含τ个超步、1个源数据存储步、1个预处理步和1个结果总结步。第i步中第j个节点上保存的数据表示为R_ij，最终结果表示为R_τ+2。

长度为m的cdSeq结果的完整性可以由规则1和规则2来保证。接下来证明长度为k的cdSeq结果的完整性，虽然规则1至6可以确保其成立，但是要考虑N²种情况。这里只给出节点0的N种情况，节点i的N种情况与节点0的类似，由于篇幅限制，不一一给出。

(1)如果g_ij中的v_nk与g_i’j’中的v_n’k’相同，g_ij和g_i’j’在同一节点上(节点0)，那么v_nk∈R₀₀，v_n’k’∈R_τ+2。

(2)如果g_ij中的v_nk与g_i’j’中的v_n’k’相同，g_ij和g_i’j’在节点0和节点1上，那么v_nk∈R₀₀，或v_n’k’∈R_τ+2。

(3)如果g_ij中的v_nk与g_i’j’中的v_n’k’相同，g_ij和g_i’j’在节点0和节点2上，那么v_nk∈R₀₀，v_n’k’∈R₀₀或R₁₀或v_n’k’∈R_τ+2。

(4)如果g_ij中的v_nk与g_i’j’中的v_n’k’相同，g_ij和g_i’j’在节点0和节点2上，那么<1>如果i∈[2^ξ，2^ξ+1](1≤ξ≤τ)且i是偶数，得到v_nk∈R₀₀，v_n’k’∈R_0i或v_n’k’∈R₀₀或…或v_n’k’∈R_τ+2；<2>如果i∈[2^ξ，2^ξ+1](1≤ξ≤τ)且i是奇数，得到v_nk∈R₀₀，v_n’k’∈R_0i-1或v_n’k’∈R₀₀或R₁₀或…或v_n’k’∈R_τ+2。

(5)如果g_ij中的v_nk与g_i’j’中的v_n’k’相同，g_ij和g_i’j’在节点0和节点N-1上，那么得到v_nk∈R₀₀，v_n’k’∈R_0N-2或v_n’k’∈R_0N-2 ²或R_1N-2 ²或 v_n’k’∈R₀₀或R₁₀或…或v_n’k’∈R_τ+2。

(II)超步个数小于log₂N情况下数据的完整性：集群的最大迭代步数为ξ+3(ξ＜τ)，其中包含ξ个超步、1个源数据存储步、1个预处理步和1个结果总结步。第i步中第j个节点上保存的数据表示为R_ij，最终结果表示为R_ξ+2。

(1)如果ξ＝0，那么其只有数据分割阶段、而没有数据交互阶段。如果g_ij中的v_nk与g_i’j’中的v_n’k’相同，g_ij和g_i’j’在不同的节点上(节点p和节点q)，那么g_ij中的v_nk与节点p上g_ij’中的v_mk相同，g_i’j’中的v_n’k’与节点q上g_i’j”中的v_m’k’相同，得到v_nk∈R_0p， v_n’k’∈R_ξ+2。

(2)如果ξ＝1，那么其有1个数据分割阶段、1个数据交互阶段，且分组大小和交互步长分别为2和1。如果g_ij中的v_nk与g_i’j’中的v_n’k’相同，g_ij和g_i’j’在不同的分组中(分组p与q)，因为分组p与q之间没有数据的交互，那么g_ij中的v_nk与分组p上g_ij’中的v_mk相同，g_i’j’中的v_n’k’与分组q上g_i’j”中的v_m’k’相同，得到v_nk∈R_i2 ^p-1，v_n’k’∈R_ξ+2。

(3)如果ξ＝i，那么其有1个数据分割阶段、i个数据交互阶段，且分组大小和交互步长分别为2ⁱ和2^i-1。如果g_ij中的v_nk与g_i’j’中的v_n’k’相同，g_ij和g_i’j’在不同的分组中(分组p与q)，因为分组p与q之间没有数据的交互，那么g_ij中的v_nk与分组p上g_ij’中的v_mk相同，g_i’j’中的v_n’k’与分组q上g_i’j”中的v_m’k’相同，得到v_nk∈R_0i， v_n’k’∈R_ξ+2。

综上所述，利用同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法，经过两两通信与数据传输之后获得的结果是完整的。该定理证明完毕。

定理2.当节点间没有数据交互，即每个节点本地数据都找到了cdSeq，那么BNHB平台之上的计算工作就可以停止了。

证明：因为本定理可以转化为定理1，所以这里不做证明。

定理3.在前边的超步中与节点i交互过的节点不必在后期与节点i交互。

证明：(根据数据的本地性来证明)当节点j已经与节点i交互过后，节点本地已经拥有了节点i的数据。尽管节点i在后期的数据出现了变化，因为其存储的是与本身相同或相似的数据，所以不必再次交互。该定理得到证明。

定理4.BNHB框架的最大超步个数为log₂N。

证明：假设BNHB框架的最大超步个数为n。根据蝶形网络的特性，第i个超步的步长为2^i-1。因为节点的个数是第n个超步的步长的2倍，那么BNHB平台上的节点数为2ⁿ，即N＝2ⁿ。又由于n＝log₂2ⁿ，所以BNHB框架的最大超步个数为log₂N。

实施例2

【具体性能分析】

我们将本发明方法进行性能分析，衡量同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法的优劣的最关键的因素包括：处理效率与可扩展性。处理效率通常用任务处理时间来度量，任务处理时间是指从用户发起双聚类挖掘请求到用户得到挖掘结果之间的时间。可扩展性通常通过不断增大数据量或者处理节点个数的方法来度量，度量的指标一般为任务处理时间。在我们的性能分析中采用的性能指标为任务处理时间。

我们采用了来自BroadInstitute网站上的6个真实的基因表达数据集，每个数据集中的行为基因、列为实验条件、每个单元格存放的为基因表达数据，数据集的具体属性如表2所示，下载地址为http：//portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi。

表2

测试1

主要分析不同基因表达数据的行数r或列数c对双聚类挖掘方法性能的影响，即r和c对任务处理时间的影响。

图6中的第一幅图显示了在单机与拥有4个节点的BNHB环境下，r＝1000，c的不同取值对双聚类挖掘方法处理时间的影响。图6中的第二幅图显示了在单机与拥有4个节点的BNHB环境下，c＝200，r的不同取值对双聚类挖掘方法处理时间的影响。从图6可以看出，在单机上运行双聚类方法的处理时间成指数级增长，在BNHB环境下运行双聚类方法的处理时间以线性级别增长，且斜率较小。

测试2

评估基本的Hama BSP模型与BNHB框架在4个集群节点情况下的可扩展性能。测试双聚类方法在Hama BSP和BNHB框架下的实现关于行数变化情况下的性能。

图7分别显示了c＝80、c＝140和c＝200三种情况下，r的不同取值对双聚类方法处理时间的影响。从图7可以看出，双聚类方法在BHNB框架下的运行时间要明显小于Hama BSP框架下的运行时间。

Claims

1.一种同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法，其特征在于步骤如下：

前提：创建一个具有N个节点的集群，其中N＝2ⁿ，n为迭代次数(也称超步)，在每个节点上，首先部署Hadoop系统(Hama利用其中的HDFS文件系统)，接着安装Hama，为了方便表示，每个节点用整数来表示，范围为[0，2ⁿ-1]；

步骤1：本地计算阶段：在第step个超步中，每个节点主要做双聚类的挖掘工作，首先做本地变量的声明与初始化工作，利用geneSet存储属于同一双聚类的多个基因的名称，geneSets依照先后顺序存储所挖掘出的双聚类中的基因名集合，cdSeq存储属于同一双聚类的实验条件序列，cdSeqs同样依照先后顺序存储所挖掘出的双聚类中的实验条件序列的集合，Array口记录对应的长度为m的cdSeq的内存地址，Arrayl[]记录对应长度小于m的cdSeq的内存地址，ArrayNo[]记录对应的长度为m的cdSeq的数量，并将其初始化为0，超步数目step初始化为1；

步骤1.1：如果step＝1，即为第1个超步，则只需要将本节点原有数据进行最长公共子序列匹配；

步骤1.2：否则，则需要将接收到的数据与本地数据(含前几个超步中传递过来的数据)、中间结果进行最长公共子序列匹配；

步骤2：全局通信阶段：将N个节点分为(log₂N)/2^step-1组，1≤step≤n，即每一组必须有2^step个成员，即每组节点数grpSz为2^setp，且这些成员拥有连续的编号；接着每一组又分成2个半组，即每个半组节点数hfGrpSz为2^step-1；然后每个半组中的节点与另一个半组中步长之差为2^step-1的节点进行交互；

步骤3：障栅同步阶段：等待所有通信行为的结束，即已交互完的节点等待未交互完的节点；

2.根据权利要求1所述的方法，其特征在于所属步骤1至4所述的同步编程模型HamaBSP下基于蝶形网络的双聚类挖掘算法的伪代码如下：