CN102651030A

CN102651030A - 一种基于gpu多序列比对算法的社交网络关联搜索方法

Info

Publication number: CN102651030A
Application number: CN2012101005268A
Authority: CN
Inventors: 金海�; 郑然�; 陈汉华; 张琼瑶; 冯晓文
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2012-04-09
Filing date: 2012-04-09
Publication date: 2012-08-29
Anticipated expiration: 2032-04-09
Also published as: CN102651030B

Abstract

本发明公开了一种基于GPU多序列比对算法的社交网络关联搜索方法，包括以下步骤：CPU对个体网页进行网络爬虫，以提取社交网络中的个体特征信息向量，CPU过滤个体特征信息向量中的冗余特征信息，以生成统一个体特征信息向量库，GPU根据统一个体特征信息向量库计算社交网络个体距离矩阵和矫正距离矩阵，GPU根据矫正距离矩阵构建社交网络关联路线指导树，GPU遍历社交网络关联路线指导树，以进行最优关联路线搜索。本发明充分利用GPU适合处理大量密集型数据的优势，将多序列比对算法解决关联搜索问题进行并行化，利用GPU完成矩阵及关联路线指导树的形成和遍历等复杂耗时操作，解决了社交网络数据量大和操作复杂性所带来的耗时长问题。

Description

一种基于GPU多序列比对算法的社交网络关联搜索方法

技术领域

本发明属于社交网络应用领域，更具体地，涉及一种GPU平台下实现基于多序列比对算法的社交网络关联搜索方法。

背景技术

在社交网络中，存在著名的“六度分割(Six degrees of Separation)”理论，即世界上任何两个个体，最多通过六个个体即可建立联系，亦称之为“小世界(Small World)”理论。随着社交网络的不断发展，对个体间关联路线的研究日渐成为社交网络应用的研究热点，即模拟验证“六度分割”理论，探索社交网络中任意两个体如何构建路线，建立关联关系。

现阶段，社交网络中个体间关联度的判定一般根据个体基本信息计算得出，不具有全面性和扩展性。同时，随着社交网络的发展，寻求个体间关联路线成为一种社交需求，不仅需要得到任意两个个体的关联度数据，还要搜索其构建关联的最优路线。经调研得出，目前尚未形成一套成熟的算法体系(即社交网络关联搜索)研究个体间如何构建联系。

在生物信息学领域，多序列比对算法被证实能有效寻找生物序列同源性关系，可推广应用于寻找其他个体或事物之间的联系。多序列比对算法的基本处理过程分为三个基本阶段：序列两两比对构建距离矩阵(Smith-Waterman算法)；根据距离矩阵构建关联进化路线指导树(Neighbor-Joining算法)；循环重构进化指导树，完成所有序列比对(Profile-Profile算法)。通过三个阶段的处理，可找出基因库中两序列间进化路线及亲缘远近关系。将该算法思想进行改进并推广应用于社交网络中，可探索个体间关联路线，寻找任意两个体构建关联关系的路径。

与此同时，随着社交网络的日益发展和用户数量不断增加，海量数据管理变得困难，数据操作的复杂性越来越高，传统的CPU无法达到准确快速获取个体关联路线搜索的目的。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于GPU多序列比对算法的社交网络关联搜索方法，旨在解决在GPU上实现社交网络关联搜索、任意指定社交网络中两个体并快速高效搜索出个体间最优关联路线的问题。

为实现上述目的，本发明提供了一种基于GPU多序列比对算法的社交网络关联搜索方法，包括以下步骤：

(1)CPU对个体网页进行网络爬虫，以提取社交网络中的个体特征信息向量(T₁，T₂，T₃，...，T_n)；

(2)CPU过滤所述个体特征信息向量(T₁，T₂，T₃，...，T_n)中的冗余特征信息，以生成统一个体特征信息向量库：

CPU对所述个体特征信息向量(T₁，T₂，T₃，...，T_n)的特征属性进行语义分析，以得出所述个体特征向量对应的特征属性集{P₁，P₂，P₃，...，P_n}；

CPU对所述特征属性集{P₁，P₂，P₃，...，P_n}的属性元素进行模拟训练，计算所述属性元素对个体间关联度的贡献因子，并得出与所述特征属性集{P₁，P₂，P₃，...，P_n}对应的特征贡献因子分数集{S₁，S₂，S₃，...，S_n}；

CPU根据网络聚焦算法，对所述特征贡献因子分数集{S₁，S₂，S₃，...，S_n}进行模拟评估处理，计算得出贡献因子分数阈值S_min，S_max)；

设置计数器c，并初始化c＝1；

CPU判断所述特征贡献因子分数集{S₁，S₂，S₃，...，S_n}中的元素S_c是否在所述贡献因子分数阈值(S_min，S_max)范围内；

若元素S_c在贡献因子分数阈值(S_min，S_max)范围内，则保留S_c，并保留与S_c对应的属性P_c；

判断c是否大于等于n；

若c大于等于n，则CPU得出统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}和统一标准的特征属性集{PU₁，PU₂，PU₃，...，PU_m}，并根据统一标准的特征属性集{PU₁，PU₂，PU₃，...，PU_m}对个体特征信息向量(T₁，T₂，T₃，...，T_n)进行批量过滤处理，以得到与统一标准特征属性集{PU₁，PU₂，PU₃，...，PU_m}对应的统一个体特征信息向量(TU₁，TU₂，TU₃，...，TU_m)，并形成统一个体特征信息向量库；

CPU将统一特征信息向量(TU₁，TU₂，TU₃...，TU_m)和统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}传入GPU；

(3)GPU根据所述统一个体特征信息向量库计算社交网络个体距离矩阵和矫正距离矩阵：

GPU根据所述统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}计算社交网络中两两个体间的距离，并构成社交网络个体距离矩阵D；

GPU获取社交网络中个体的总数C，设置计数器k，并初始化为k＝C，且设置社交网络的个体集合为{E₁，E₂，E₃，…，E_k}；

GPU根据多序列比对算法，对社交网络个体距离矩阵D进行关联计算，即对某一个体距离值和其他所有个体距离值进行关联处理，以得出更能真实反映个体间距离的矫正距离矩阵M；

(4)GPU根据所述矫正距离矩阵M，构建社交网络关联路线指导树：

GPU将所有个体的结点构成星形初始树；

GPU根据星形初始树遍历矫正距离矩阵M，以找出矫正距离矩阵M中最大的元数据对应的两个个体；

GPU根据找到的两个个体生成虚拟父结点，并计算虚拟父结点到两个个体结点的距离；

GPU根据所述计算方法计算出虚拟父结点到两个个体结点的距离后，将被合并的两个个体结点去除，并计算新的结点集合对应的距离矩阵和矫正距离矩阵；

设置k＝k-1，即每合并两个结点生成一个新结点后，结点个体集合{E₁，E₂，E₃，…，E_k}中结点个数减1；

判断k是否小于等于2；

若k小于等于2，则进入步骤(5)；

(5)GPU遍历所述社交网络关联路线指导树，以确定最优关联路线：

GPU查找社交网络关联路线指导树中待搜索的源个体及目标个体，并建立源个体和目标个体之间的关联路线；

GPU根据关联路线进行最短路径优先计算，以筛选出最短的关联路线，即得出社交网络中源个体和目标个体间最优关联路径。

本发明的方法还包括步骤：若元素S_c不在贡献因子分数阈值(S_min，S_max)范围内，则从特征贡献因子分数集{S₁，S₂，S₃，...，S_n}中将S_c去除，并从特征属性集{P₁，P₂，P₃，...，P_n}中将与S_c对应的P_c去除。

本发明的方法还包括步骤：若c不大于等于n，则c＝c+1，并返回所述CPU判断所述特征贡献因子分数集{S₁，S₂，S₃，...，S_n}中的元素S_i是否在所述贡献因子分数阈值(S_min，S_max)范围内的步骤。

本发明的方法还包括步骤：若k不小于等于2，则GPU计算所述新的虚拟父结点到除所述被合并的两个个体的结点以外所有结点的距离，以构成新的距离矩阵，GPU计算新的距离矩阵对应的矫正距离矩阵。

GPU根据所述统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}计算社交网络中两两个体间的距离，并构成社交网络个体距离矩阵D的步骤具体包括：GPU根据统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}遍历统一特征信息向量(TU₁，TU₂，TU₃...，TU_m)，以判断统一特征信息向量中的特征元数据的属性条件是否相同，若属性条件相同，则累加特征向量中特征元数据对应的贡献因子分数，否则进行下一个特征元数据的比较。

通过本发明所构思的以上技术方案，与现有技术相比，具有以下的技术效果：

(1)本发明基于GPU平台实现社交网络关联搜索，充分利用GPU适合处理大量密集型数据的优势，将多序列比对算法解决关联搜索问题进行并行化，利用GPU完成矩阵及关联路线指导树的形成和遍历等复杂耗时操作，解决了社交网络数据量大和操作复杂性所带来的耗时长问题。

(2)与现阶段社交网络仅根据个体基本信息判断其亲密度相比，本发明加入了个体间交互信息提取及统计训练的社交网络模型，能更真实更全面反映个体间亲密度，并以GPU平台下并行化的快速多序列比对算法为基础，探索个体间是如何产生关联的，即实现最优关联路线搜索，具有真实性和全面性。

附图说明

图1为本发明基于GPU多序列比对算法的社交网络关联搜索方法的流程图。

图2为本发明方法中构建关联路线指导树的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下首先对本发明的技术术语进行解释和说明：

个体间关联度：个体间关联关系的强弱程度。

贡献因子：是个体特征信息向量中向量元素对应的属性对个体间关联关系强弱程度的一种数值表达。

如图1所示，本发明基于GPU多序列比对算法的社交网络关联搜索方法包括如下步骤：

(1)CPU根据网络聚焦爬虫算法对个体网页进行网络爬虫，以提取社交网络中的个体特征信息向量(T₁，T₂，T₃，...，T_n)：

在社交网络中，通常通过爬虫算法提取页面信息，获取个体信息数据，若社交网络数据库公开，则可通过调用数据库直接获取该社交网络中个体特征信息，但通常社交网络涉及隐私保护，数据库信息并非公开化。本发明不仅提取个体基本信息，还根据语义分析提取个体间交互信息，因此需要定向抓取相关网页资源，即聚焦爬虫技术；

网络聚焦爬虫是一个自动提取网页的程序，涵盖了网页数据抽取、机器学习、数据挖掘、语义理解等技术，从社交网络中若干个个体页面URL开始，根据网页分析算法，基于给定的目标数据模式，选择性地访问与此数据模式相关的数据信息及网页相关的链接，为面向选择的用户查询提供数据资源。本发明根据网络聚焦爬虫技术，采用基于网页内容的分析算法，获取个体页面的基本信息及与其他个体间的交互信息，从而形成个体特征信息向量(T₁，T₂，T₃，...，T_n)，此时将存储该社交网络中所有对象的个体信息向量数据，形成该社交网络个体特征信息向量库。

(2)CPU过滤个体特征信息向量(T₁，T₂，T₃，...，T_n)中的冗余特征信息，以生成统一个体特征信息向量库：

由于在个体特征信息向量中，不是每个特征元数据均能反映个体间关联关系，即存在冗余特征信息，并且大量特征数据会造成内存浪费和数据操作困难，故需对CPU中个体特征信息向量进行过滤处理，去除冗余信息，以在GPU上形成的统一标准的特征信息向量模型。本步骤具体包括以下子步骤：

(2.1)CPU根据语义分析模型对个体特征信息向量(T₁，T₂，T₃，...，T_n)中的每个特征元数据进行属性语义分析，以得出个体特征向量对应的特征属性集{P₁，P₂，P₃，...，P_n}。其中，特征属性集中的属性P_i与特征信息向量中的特征T_i对应；

(2.2)CPU根据社交网络中信息过滤模型，将相关信息即特征贡献因子分数放入等待抓取的信息队列，对每个属性进行统计训练模拟，计算得出特征属性集{P₁，P₂，P₃，...，P_n}中每个属性的个体关联贡献因子，形成特征贡献因子分数集{S₁，S₂，S₃，...，S_n}；

(2.3)CPU根据网络聚焦算法，对(2.2)中形成的特征贡献因子分数集{S₁，S₂，S₃，...，S_n}进行模拟评估处理，计算得出贡献因子分数阈值S_min，S_max)；

(2.4)设置计数器c，并初始化c＝1；

(2.5)CPU判断特征贡献因子分数集{S₁，S₂，S₃，...，S_n}中的元素S_c是否在贡献因子分数阈值(S_min，S_max)范围内：

若元素S_c在贡献因子分数阈值(S_min，S_max)范围内，则保留S_c，并保留与S_c对应的属性P_c，并进入步骤(2.6)，否则执行步骤(2.7)；

(2.6)判断c是否大于等于n；

若c大于等于n，则CPU得出统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}和统一标准的特征属性集{PU₁，PU₂，PU₃，...，PU_m}，并根据统一标准的特征属性集{PU₁，PU₂，PU₃，...，PU_m}对个体特征信息向量(T₁，T₂，T₃，...，T_n)进行批量过滤处理，以得到与统一标准特征属性集{PU₁，PU₂，PU₃，...，PU_m}对应的统一个体特征信息向量(TU₁，TU₂，TU₃，...，TU_m)，并形成统一个体特征信息向量库，然后进入步骤(2.9)；

否则，执行步骤(2.8)；

(2.7)从特征贡献因子分数集{S₁，S₂，S₃，...，S_n}中将S_c去除，并从特征属性集{P₁，P₂，P₃，...，P_n}中将与S_c对应的P_c去除；

(2.8)设置c＝c+1，并返回步骤(2.5)；

(2.9)CPU将统一特征信息向量(TU₁，TU₂，TU₃...，TU_m)和统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}传入GPU；

(3)GPU根据统一个体特征信息向量库计算社交网络个体距离矩阵和矫正距离矩阵：

由于社交网络中两个体间距离通过两个体间的特征信息向量距离来衡量，故本发明通过计算两两个体的统一特征信息向量间的距离来代表个体间距离。本步骤具体包括以下子步骤：

(3.1)GPU根据步骤(2)中得出的统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}计算社交网络中两两个体间的距离，并构成社交网络个体距离矩阵D，具体为：GPU根据统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}遍历统一特征信息向量(TU₁，TU₂，TU₃...，TU_m)，以判断统一特征信息向量中的特征元数据的属性条件是否相同，若属性条件相同，则累加特征向量中特征元数据对应的贡献因子分数，否则进行下一个特征元数据的比较。

具体实施方式举例说明如下：设有个体E_i(TUi₁，TUi₂，TUi₃...，TUi_m)和个体E_j(TUj₁，TUj₂，TUj₃...，TUj_m)，E_i和E_j间距离S_ij初始化为0。首先，对统一特征模型向量中的特征值进行遍历比较，若TUi₁和TUj₁特征值相同，则累积加分S_ij，否则，处理下一特征元数据，直至完成所有特征元数据遍历比较，即得出个体E_i和个体E_j之间距离分数值S_ij。

按照以上实施方法，对社交网络中所有统一个体特征信息向量进行两两比对，即可得出个体距离矩阵D，其中两个体特征信息向量间距离分数和S_ij即为距离矩阵D中距离元素值。由于所有距离矩阵中S_ij和S_ji距离值相等，即该矩阵具有对称性，为减少存储空间，在CUDA中以上三角形式存储距离矩阵；

(3.2)GPU获取社交网络中个体的总数C，设置计数器k，并初始化为k＝C，且设置社交网络的个体集合为{E₁，E₂，E₃，…，E_k}；

(3.3)GPU根据多序列比对算法，对社交网络个体距离矩阵D进行关联计算，即对某一个体距离值和其他所有个体距离值进行关联处理，以得出更能真实反映个体间距离的矫正距离矩阵M，具体计算方法如公式(1)和(2)所示：

M(E_iE_j)＝d(E_i E_j)-[(r(E_i)+r(E_j)]/(C-2) (1)

r(E_i)＝d(E_i E₁)+d(E_i E₂)+d(E_i E₃)+…d(E_i E_k) (2)

其中d(EiEj)代表距离矩阵D中代表两个体距离的矩阵元，即个体E_i与个体E_j间的距离S_ij，r(E_i)为距离矩阵D中所有非E_i个体到E_i的距离和。

(4)根据步骤(3.3)计算得出的矫正距离矩阵M，构建社交网络关联路线指导树：

如图2所示，本步骤具体包括以下子步骤：

(4.1)GPU将所有个体的结点构成星形初始树；

(4.2)GPU根据星形初始树遍历矫正距离矩阵M，以找出矫正距离矩阵M中最大的元数据对应的两个个体：

根据公式(1)和(2)计算得出的矫正距离矩阵M可知，M中距离值越大，两个体亲密度越大。在GPU上多个线程并行遍历矫正距离矩阵M，找出距离值最大的两个体，设遍历得出社交网络的个体集合{E₁，E₂，E₃，…，E_k}中最大的元数据对应的两个个体为Ei和Ej，即距离最近的两个结点；

(4.3)GPU根据找到的两个个体生成虚拟父结点，并计算虚拟父结点到两个个体结点的距离：

在星形树中将结点E_i和E_j合并，生成新的虚拟根结点N₁插入星形树，完成关联路线指导树的第一次重构，并用如下公式(3)和(4)计算虚拟根结点N₁与E_i和E_j的联系，即N₁与E_i和E_j的距离值。

D(E_iN₁)＝d(E_i E_j)/2+[r(E_j)-r(E_i)]/2(C-2) (3)

D(E_jN₁)＝d(E_iE_j)-D(E_iN₁) (4)

其中D(E_iN₁)代表被去除的结点E_i到新的虚拟结点N₁的距离，d(EiEj)为距离矩阵D中代表两个体距离的矩阵元，r(E_i)为距离矩阵D中所有非E_i个体到E_i的距离之和；

(4.4)GPU根据步骤(4.3)所述计算方法计算出虚拟父结点到两个个体结点的距离后，将被合并的两个个体结点去除，并计算新的结点集合对应的距离矩阵和矫正距离矩阵：

GPU将(4.3)中被合并的结点E_i和E_j从最初的社交网络个体集合{E₁，E₂，E₃，…，E_k}中去除，并加入新结点N₁，得出新结点集合，并重新计算新结点集合中两两结点间距离，计算得出新结点集合对应的距离矩阵D⁽¹⁾，其中需重新计算新结点N₁到个体集合{E₁，E₂，E₃，…，E_k}中去除E_i和E_j的其他所有结点的距离，步骤(4.3)所述虚拟结点NX到新个体集合中其他结点距离计算方法如公式(5)所示：

D(E_mN₁)＝d(E_i E_m)+d(E_jE_m)-d(E_iE_j)/2 (5)

其中E_i和E_j为被去除结点，N₁为新生成虚拟结点，E_m为矩阵D中除E_i和E_j以外的结点，D(E_m N₁)代表虚拟结点到个体集合{E₁，E₂，E₃，…，E_k}中去除E_i和E_j的其他结点的距离，d(EiEj)代表距离矩阵D中代表两个体距离的矩阵元；

再按照公式(1)和(2)计算距离矩阵D⁽¹⁾对应的矫正距离矩阵M⁽¹⁾；

(4.5)设置k＝k-1，即每合并两个结点生成一个新结点后，结点个体集合{E₁，E₂，E₃，…，E_k}中结点个数减1；

(4.6)判断k是否小于等于2，若k大于2，则重复子步骤(4.2)-(4.4)；否则进入步骤(5)；

(5)GPU遍历步骤(4)得出的社交网络关联路线指导树，以确定最优关联路线，具体包括以下子步骤：

(5.1)GPU查找社交网络关联路线指导树中待搜索的源个体及目标个体，并建立源个体和目标个体之间的关联路线；

根据关联路线指导树的构建步骤和原理可知，指导树中每个虚拟根结点的两个子结点均为亲密度最高的两个个体，若指定该社交网络中任意源个体和目标个体，从源个体出发，对社交网络关联路线指导树进行层次遍历及深层遍历，直至扫描出目标个体并建立关联路线为止；

(5.2)GPU根据关联路线进行最短路径优先计算，以筛选出最短的关联路线，即得出社交网络中源个体和目标个体间最优关联路径；

首先在GPU上实现最短路径优先算法，即将最短路径优先算法并行化，本发明中采用基于Bellman-Ford-Moore的并行方案，在考虑算法并行实现的各种优化策略的同时，考虑了如何进行大规模图的数据分割问题，解决在显存空间有限情况下，求解大规模图的最短路径问题。然后利用此并行后的最短路径优先算法对(5.1)所述关联路线进行处理，得出该社交网络中源个体和目标个体间最优关联路径。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于GPU多序列比对算法的社交网络关联搜索方法，其特征在于，包括以下步骤：

设置计数器c，并初始化c＝1；

判断c是否大于等于n；

GPU将所有个体的结点构成星形初始树；

判断k是否小于等于2；

若k小于等于2，则进入步骤(5)；

2.根据权利要求1所述的社交网络关联搜索方法，其特征在于，还包括步骤：

若元素S_c不在贡献因子分数阈值(S_min，S_max)范围内，则从特征贡献因子分数集{S₁，S₂，S₃，...，S_n}中将S_c去除，并从特征属性集{P₁，P₂，P₃，...，P_n}中将与S_c对应的P_c去除。

3.根据权利要求1所述的社交网络关联搜索方法，其特征在于，还包括步骤：

若c不大于等于n，则c＝c+1，并返回所述CPU判断所述特征贡献因子分数集{S₁，S₂，S₃，...，S_n}中的元素S_c是否在所述贡献因子分数阈值(S_min，S_max)范围内的步骤。

4.根据权利要求1所述的社交网络关联搜索方法，其特征在于，还包括步骤：

若k不小于等于2，则GPU计算所述新的虚拟父结点到除所述被合并的两个个体的结点以外所有结点的距离，以构成新的距离矩阵；

GPU计算新的距离矩阵对应的矫正距离矩阵。

5.根据权利要求1所述的社交网络关联搜索方法，其特征在于，所述GPU根据所述统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}计算社交网络中两两个体间的距离，并构成社交网络个体距离矩阵D的步骤具体包括：GPU根据统一特征贡献因子分数集{S₁，S₂，S₃，...，S_m}遍历统一特征信息向量(TU₁，TU₂，TU₃...，TU_m)，以判断统一特征信息向量中的特征元数据的属性条件是否相同，若属性条件相同，则累加特征向量中特征元数据对应的贡献因子分数，否则进行下一个特征元数据的比较。