CN102651030A - 一种基于gpu多序列比对算法的社交网络关联搜索方法 - Google Patents

一种基于gpu多序列比对算法的社交网络关联搜索方法 Download PDF

Info

Publication number
CN102651030A
CN102651030A CN2012101005268A CN201210100526A CN102651030A CN 102651030 A CN102651030 A CN 102651030A CN 2012101005268 A CN2012101005268 A CN 2012101005268A CN 201210100526 A CN201210100526 A CN 201210100526A CN 102651030 A CN102651030 A CN 102651030A
Authority
CN
China
Prior art keywords
gpu
characteristic
social networks
individual
contribution factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101005268A
Other languages
English (en)
Other versions
CN102651030B (zh
Inventor
金海�
郑然�
陈汉华
张琼瑶
冯晓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN 201210100526 priority Critical patent/CN102651030B/zh
Publication of CN102651030A publication Critical patent/CN102651030A/zh
Application granted granted Critical
Publication of CN102651030B publication Critical patent/CN102651030B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于GPU多序列比对算法的社交网络关联搜索方法,包括以下步骤:CPU对个体网页进行网络爬虫,以提取社交网络中的个体特征信息向量,CPU过滤个体特征信息向量中的冗余特征信息,以生成统一个体特征信息向量库,GPU根据统一个体特征信息向量库计算社交网络个体距离矩阵和矫正距离矩阵,GPU根据矫正距离矩阵构建社交网络关联路线指导树,GPU遍历社交网络关联路线指导树,以进行最优关联路线搜索。本发明充分利用GPU适合处理大量密集型数据的优势,将多序列比对算法解决关联搜索问题进行并行化,利用GPU完成矩阵及关联路线指导树的形成和遍历等复杂耗时操作,解决了社交网络数据量大和操作复杂性所带来的耗时长问题。

Description

一种基于GPU多序列比对算法的社交网络关联搜索方法
技术领域
本发明属于社交网络应用领域,更具体地,涉及一种GPU平台下实现基于多序列比对算法的社交网络关联搜索方法。
背景技术
在社交网络中,存在著名的“六度分割(Six degrees of Separation)”理论,即世界上任何两个个体,最多通过六个个体即可建立联系,亦称之为“小世界(Small World)”理论。随着社交网络的不断发展,对个体间关联路线的研究日渐成为社交网络应用的研究热点,即模拟验证“六度分割”理论,探索社交网络中任意两个体如何构建路线,建立关联关系。
现阶段,社交网络中个体间关联度的判定一般根据个体基本信息计算得出,不具有全面性和扩展性。同时,随着社交网络的发展,寻求个体间关联路线成为一种社交需求,不仅需要得到任意两个个体的关联度数据,还要搜索其构建关联的最优路线。经调研得出,目前尚未形成一套成熟的算法体系(即社交网络关联搜索)研究个体间如何构建联系。
在生物信息学领域,多序列比对算法被证实能有效寻找生物序列同源性关系,可推广应用于寻找其他个体或事物之间的联系。多序列比对算法的基本处理过程分为三个基本阶段:序列两两比对构建距离矩阵(Smith-Waterman算法);根据距离矩阵构建关联进化路线指导树(Neighbor-Joining算法);循环重构进化指导树,完成所有序列比对(Profile-Profile算法)。通过三个阶段的处理,可找出基因库中两序列间进化路线及亲缘远近关系。将该算法思想进行改进并推广应用于社交网络中,可探索个体间关联路线,寻找任意两个体构建关联关系的路径。
与此同时,随着社交网络的日益发展和用户数量不断增加,海量数据管理变得困难,数据操作的复杂性越来越高,传统的CPU无法达到准确快速获取个体关联路线搜索的目的。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于GPU多序列比对算法的社交网络关联搜索方法,旨在解决在GPU上实现社交网络关联搜索、任意指定社交网络中两个体并快速高效搜索出个体间最优关联路线的问题。
为实现上述目的,本发明提供了一种基于GPU多序列比对算法的社交网络关联搜索方法,包括以下步骤:
(1)CPU对个体网页进行网络爬虫,以提取社交网络中的个体特征信息向量(T1,T2,T3,...,Tn);
(2)CPU过滤所述个体特征信息向量(T1,T2,T3,...,Tn)中的冗余特征信息,以生成统一个体特征信息向量库:
CPU对所述个体特征信息向量(T1,T2,T3,...,Tn)的特征属性进行语义分析,以得出所述个体特征向量对应的特征属性集{P1,P2,P3,...,Pn};
CPU对所述特征属性集{P1,P2,P3,...,Pn}的属性元素进行模拟训练,计算所述属性元素对个体间关联度的贡献因子,并得出与所述特征属性集{P1,P2,P3,...,Pn}对应的特征贡献因子分数集{S1,S2,S3,...,Sn};
CPU根据网络聚焦算法,对所述特征贡献因子分数集{S1,S2,S3,...,Sn}进行模拟评估处理,计算得出贡献因子分数阈值Smin,Smax);
设置计数器c,并初始化c=1;
CPU判断所述特征贡献因子分数集{S1,S2,S3,...,Sn}中的元素Sc是否在所述贡献因子分数阈值(Smin,Smax)范围内;
若元素Sc在贡献因子分数阈值(Smin,Smax)范围内,则保留Sc,并保留与Sc对应的属性Pc
判断c是否大于等于n;
若c大于等于n,则CPU得出统一特征贡献因子分数集{S1,S2,S3,...,Sm}和统一标准的特征属性集{PU1,PU2,PU3,...,PUm},并根据统一标准的特征属性集{PU1,PU2,PU3,...,PUm}对个体特征信息向量(T1,T2,T3,...,Tn)进行批量过滤处理,以得到与统一标准特征属性集{PU1,PU2,PU3,...,PUm}对应的统一个体特征信息向量(TU1,TU2,TU3,...,TUm),并形成统一个体特征信息向量库;
CPU将统一特征信息向量(TU1,TU2,TU3...,TUm)和统一特征贡献因子分数集{S1,S2,S3,...,Sm}传入GPU;
(3)GPU根据所述统一个体特征信息向量库计算社交网络个体距离矩阵和矫正距离矩阵:
GPU根据所述统一特征贡献因子分数集{S1,S2,S3,...,Sm}计算社交网络中两两个体间的距离,并构成社交网络个体距离矩阵D;
GPU获取社交网络中个体的总数C,设置计数器k,并初始化为k=C,且设置社交网络的个体集合为{E1,E2,E3,…,Ek};
GPU根据多序列比对算法,对社交网络个体距离矩阵D进行关联计算,即对某一个体距离值和其他所有个体距离值进行关联处理,以得出更能真实反映个体间距离的矫正距离矩阵M;
(4)GPU根据所述矫正距离矩阵M,构建社交网络关联路线指导树:
GPU将所有个体的结点构成星形初始树;
GPU根据星形初始树遍历矫正距离矩阵M,以找出矫正距离矩阵M中最大的元数据对应的两个个体;
GPU根据找到的两个个体生成虚拟父结点,并计算虚拟父结点到两个个体结点的距离;
GPU根据所述计算方法计算出虚拟父结点到两个个体结点的距离后,将被合并的两个个体结点去除,并计算新的结点集合对应的距离矩阵和矫正距离矩阵;
设置k=k-1,即每合并两个结点生成一个新结点后,结点个体集合{E1,E2,E3,…,Ek}中结点个数减1;
判断k是否小于等于2;
若k小于等于2,则进入步骤(5);
(5)GPU遍历所述社交网络关联路线指导树,以确定最优关联路线:
GPU查找社交网络关联路线指导树中待搜索的源个体及目标个体,并建立源个体和目标个体之间的关联路线;
GPU根据关联路线进行最短路径优先计算,以筛选出最短的关联路线,即得出社交网络中源个体和目标个体间最优关联路径。
本发明的方法还包括步骤:若元素Sc不在贡献因子分数阈值(Smin,Smax)范围内,则从特征贡献因子分数集{S1,S2,S3,...,Sn}中将Sc去除,并从特征属性集{P1,P2,P3,...,Pn}中将与Sc对应的Pc去除。
本发明的方法还包括步骤:若c不大于等于n,则c=c+1,并返回所述CPU判断所述特征贡献因子分数集{S1,S2,S3,...,Sn}中的元素Si是否在所述贡献因子分数阈值(Smin,Smax)范围内的步骤。
本发明的方法还包括步骤:若k不小于等于2,则GPU计算所述新的虚拟父结点到除所述被合并的两个个体的结点以外所有结点的距离,以构成新的距离矩阵,GPU计算新的距离矩阵对应的矫正距离矩阵。
GPU根据所述统一特征贡献因子分数集{S1,S2,S3,...,Sm}计算社交网络中两两个体间的距离,并构成社交网络个体距离矩阵D的步骤具体包括:GPU根据统一特征贡献因子分数集{S1,S2,S3,...,Sm}遍历统一特征信息向量(TU1,TU2,TU3...,TUm),以判断统一特征信息向量中的特征元数据的属性条件是否相同,若属性条件相同,则累加特征向量中特征元数据对应的贡献因子分数,否则进行下一个特征元数据的比较。
通过本发明所构思的以上技术方案,与现有技术相比,具有以下的技术效果:
(1)本发明基于GPU平台实现社交网络关联搜索,充分利用GPU适合处理大量密集型数据的优势,将多序列比对算法解决关联搜索问题进行并行化,利用GPU完成矩阵及关联路线指导树的形成和遍历等复杂耗时操作,解决了社交网络数据量大和操作复杂性所带来的耗时长问题。
(2)与现阶段社交网络仅根据个体基本信息判断其亲密度相比,本发明加入了个体间交互信息提取及统计训练的社交网络模型,能更真实更全面反映个体间亲密度,并以GPU平台下并行化的快速多序列比对算法为基础,探索个体间是如何产生关联的,即实现最优关联路线搜索,具有真实性和全面性。
附图说明
图1为本发明基于GPU多序列比对算法的社交网络关联搜索方法的流程图。
图2为本发明方法中构建关联路线指导树的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下首先对本发明的技术术语进行解释和说明:
个体间关联度:个体间关联关系的强弱程度。
贡献因子:是个体特征信息向量中向量元素对应的属性对个体间关联关系强弱程度的一种数值表达。
如图1所示,本发明基于GPU多序列比对算法的社交网络关联搜索方法包括如下步骤:
(1)CPU根据网络聚焦爬虫算法对个体网页进行网络爬虫,以提取社交网络中的个体特征信息向量(T1,T2,T3,...,Tn):
在社交网络中,通常通过爬虫算法提取页面信息,获取个体信息数据,若社交网络数据库公开,则可通过调用数据库直接获取该社交网络中个体特征信息,但通常社交网络涉及隐私保护,数据库信息并非公开化。本发明不仅提取个体基本信息,还根据语义分析提取个体间交互信息,因此需要定向抓取相关网页资源,即聚焦爬虫技术;
网络聚焦爬虫是一个自动提取网页的程序,涵盖了网页数据抽取、机器学习、数据挖掘、语义理解等技术,从社交网络中若干个个体页面URL开始,根据网页分析算法,基于给定的目标数据模式,选择性地访问与此数据模式相关的数据信息及网页相关的链接,为面向选择的用户查询提供数据资源。本发明根据网络聚焦爬虫技术,采用基于网页内容的分析算法,获取个体页面的基本信息及与其他个体间的交互信息,从而形成个体特征信息向量(T1,T2,T3,...,Tn),此时将存储该社交网络中所有对象的个体信息向量数据,形成该社交网络个体特征信息向量库。
(2)CPU过滤个体特征信息向量(T1,T2,T3,...,Tn)中的冗余特征信息,以生成统一个体特征信息向量库:
由于在个体特征信息向量中,不是每个特征元数据均能反映个体间关联关系,即存在冗余特征信息,并且大量特征数据会造成内存浪费和数据操作困难,故需对CPU中个体特征信息向量进行过滤处理,去除冗余信息,以在GPU上形成的统一标准的特征信息向量模型。本步骤具体包括以下子步骤:
(2.1)CPU根据语义分析模型对个体特征信息向量(T1,T2,T3,...,Tn)中的每个特征元数据进行属性语义分析,以得出个体特征向量对应的特征属性集{P1,P2,P3,...,Pn}。其中,特征属性集中的属性Pi与特征信息向量中的特征Ti对应;
(2.2)CPU根据社交网络中信息过滤模型,将相关信息即特征贡献因子分数放入等待抓取的信息队列,对每个属性进行统计训练模拟,计算得出特征属性集{P1,P2,P3,...,Pn}中每个属性的个体关联贡献因子,形成特征贡献因子分数集{S1,S2,S3,...,Sn};
(2.3)CPU根据网络聚焦算法,对(2.2)中形成的特征贡献因子分数集{S1,S2,S3,...,Sn}进行模拟评估处理,计算得出贡献因子分数阈值Smin,Smax);
(2.4)设置计数器c,并初始化c=1;
(2.5)CPU判断特征贡献因子分数集{S1,S2,S3,...,Sn}中的元素Sc是否在贡献因子分数阈值(Smin,Smax)范围内:
若元素Sc在贡献因子分数阈值(Smin,Smax)范围内,则保留Sc,并保留与Sc对应的属性Pc,并进入步骤(2.6),否则执行步骤(2.7);
(2.6)判断c是否大于等于n;
若c大于等于n,则CPU得出统一特征贡献因子分数集{S1,S2,S3,...,Sm}和统一标准的特征属性集{PU1,PU2,PU3,...,PUm},并根据统一标准的特征属性集{PU1,PU2,PU3,...,PUm}对个体特征信息向量(T1,T2,T3,...,Tn)进行批量过滤处理,以得到与统一标准特征属性集{PU1,PU2,PU3,...,PUm}对应的统一个体特征信息向量(TU1,TU2,TU3,...,TUm),并形成统一个体特征信息向量库,然后进入步骤(2.9);
否则,执行步骤(2.8);
(2.7)从特征贡献因子分数集{S1,S2,S3,...,Sn}中将Sc去除,并从特征属性集{P1,P2,P3,...,Pn}中将与Sc对应的Pc去除;
(2.8)设置c=c+1,并返回步骤(2.5);
(2.9)CPU将统一特征信息向量(TU1,TU2,TU3...,TUm)和统一特征贡献因子分数集{S1,S2,S3,...,Sm}传入GPU;
(3)GPU根据统一个体特征信息向量库计算社交网络个体距离矩阵和矫正距离矩阵:
由于社交网络中两个体间距离通过两个体间的特征信息向量距离来衡量,故本发明通过计算两两个体的统一特征信息向量间的距离来代表个体间距离。本步骤具体包括以下子步骤:
(3.1)GPU根据步骤(2)中得出的统一特征贡献因子分数集{S1,S2,S3,...,Sm}计算社交网络中两两个体间的距离,并构成社交网络个体距离矩阵D,具体为:GPU根据统一特征贡献因子分数集{S1,S2,S3,...,Sm}遍历统一特征信息向量(TU1,TU2,TU3...,TUm),以判断统一特征信息向量中的特征元数据的属性条件是否相同,若属性条件相同,则累加特征向量中特征元数据对应的贡献因子分数,否则进行下一个特征元数据的比较。
具体实施方式举例说明如下:设有个体Ei(TUi1,TUi2,TUi3...,TUim)和个体Ej(TUj1,TUj2,TUj3...,TUjm),Ei和Ej间距离Sij初始化为0。首先,对统一特征模型向量中的特征值进行遍历比较,若TUi1和TUj1特征值相同,则累积加分Sij,否则,处理下一特征元数据,直至完成所有特征元数据遍历比较,即得出个体Ei和个体Ej之间距离分数值Sij
按照以上实施方法,对社交网络中所有统一个体特征信息向量进行两两比对,即可得出个体距离矩阵D,其中两个体特征信息向量间距离分数和Sij即为距离矩阵D中距离元素值。由于所有距离矩阵中Sij和Sji距离值相等,即该矩阵具有对称性,为减少存储空间,在CUDA中以上三角形式存储距离矩阵;
(3.2)GPU获取社交网络中个体的总数C,设置计数器k,并初始化为k=C,且设置社交网络的个体集合为{E1,E2,E3,…,Ek};
(3.3)GPU根据多序列比对算法,对社交网络个体距离矩阵D进行关联计算,即对某一个体距离值和其他所有个体距离值进行关联处理,以得出更能真实反映个体间距离的矫正距离矩阵M,具体计算方法如公式(1)和(2)所示:
M(EiEj)=d(Ei Ej)-[(r(Ei)+r(Ej)]/(C-2)          (1)
r(Ei)=d(Ei E1)+d(Ei E2)+d(Ei E3)+…d(Ei Ek)    (2)
其中d(EiEj)代表距离矩阵D中代表两个体距离的矩阵元,即个体Ei与个体Ej间的距离Sij,r(Ei)为距离矩阵D中所有非Ei个体到Ei的距离和。
(4)根据步骤(3.3)计算得出的矫正距离矩阵M,构建社交网络关联路线指导树:
如图2所示,本步骤具体包括以下子步骤:
(4.1)GPU将所有个体的结点构成星形初始树;
(4.2)GPU根据星形初始树遍历矫正距离矩阵M,以找出矫正距离矩阵M中最大的元数据对应的两个个体:
根据公式(1)和(2)计算得出的矫正距离矩阵M可知,M中距离值越大,两个体亲密度越大。在GPU上多个线程并行遍历矫正距离矩阵M,找出距离值最大的两个体,设遍历得出社交网络的个体集合{E1,E2,E3,…,Ek}中最大的元数据对应的两个个体为Ei和Ej,即距离最近的两个结点;
(4.3)GPU根据找到的两个个体生成虚拟父结点,并计算虚拟父结点到两个个体结点的距离:
在星形树中将结点Ei和Ej合并,生成新的虚拟根结点N1插入星形树,完成关联路线指导树的第一次重构,并用如下公式(3)和(4)计算虚拟根结点N1与Ei和Ej的联系,即N1与Ei和Ej的距离值。
D(EiN1)=d(Ei Ej)/2+[r(Ej)-r(Ei)]/2(C-2)        (3)
D(EjN1)=d(EiEj)-D(EiN1)                        (4)
其中D(EiN1)代表被去除的结点Ei到新的虚拟结点N1的距离,d(EiEj)为距离矩阵D中代表两个体距离的矩阵元,r(Ei)为距离矩阵D中所有非Ei个体到Ei的距离之和;
(4.4)GPU根据步骤(4.3)所述计算方法计算出虚拟父结点到两个个体结点的距离后,将被合并的两个个体结点去除,并计算新的结点集合对应的距离矩阵和矫正距离矩阵:
GPU将(4.3)中被合并的结点Ei和Ej从最初的社交网络个体集合{E1,E2,E3,…,Ek}中去除,并加入新结点N1,得出新结点集合,并重新计算新结点集合中两两结点间距离,计算得出新结点集合对应的距离矩阵D(1),其中需重新计算新结点N1到个体集合{E1,E2,E3,…,Ek}中去除Ei和Ej的其他所有结点的距离,步骤(4.3)所述虚拟结点NX到新个体集合中其他结点距离计算方法如公式(5)所示:
D(EmN1)=d(Ei Em)+d(EjEm)-d(EiEj)/2             (5)
其中Ei和Ej为被去除结点,N1为新生成虚拟结点,Em为矩阵D中除Ei和Ej以外的结点,D(Em N1)代表虚拟结点到个体集合{E1,E2,E3,…,Ek}中去除Ei和Ej的其他结点的距离,d(EiEj)代表距离矩阵D中代表两个体距离的矩阵元;
再按照公式(1)和(2)计算距离矩阵D(1)对应的矫正距离矩阵M(1)
(4.5)设置k=k-1,即每合并两个结点生成一个新结点后,结点个体集合{E1,E2,E3,…,Ek}中结点个数减1;
(4.6)判断k是否小于等于2,若k大于2,则重复子步骤(4.2)-(4.4);否则进入步骤(5);
(5)GPU遍历步骤(4)得出的社交网络关联路线指导树,以确定最优关联路线,具体包括以下子步骤:
(5.1)GPU查找社交网络关联路线指导树中待搜索的源个体及目标个体,并建立源个体和目标个体之间的关联路线;
根据关联路线指导树的构建步骤和原理可知,指导树中每个虚拟根结点的两个子结点均为亲密度最高的两个个体,若指定该社交网络中任意源个体和目标个体,从源个体出发,对社交网络关联路线指导树进行层次遍历及深层遍历,直至扫描出目标个体并建立关联路线为止;
(5.2)GPU根据关联路线进行最短路径优先计算,以筛选出最短的关联路线,即得出社交网络中源个体和目标个体间最优关联路径;
首先在GPU上实现最短路径优先算法,即将最短路径优先算法并行化,本发明中采用基于Bellman-Ford-Moore的并行方案,在考虑算法并行实现的各种优化策略的同时,考虑了如何进行大规模图的数据分割问题,解决在显存空间有限情况下,求解大规模图的最短路径问题。然后利用此并行后的最短路径优先算法对(5.1)所述关联路线进行处理,得出该社交网络中源个体和目标个体间最优关联路径。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于GPU多序列比对算法的社交网络关联搜索方法,其特征在于,包括以下步骤:
(1)CPU对个体网页进行网络爬虫,以提取社交网络中的个体特征信息向量(T1,T2,T3,...,Tn);
(2)CPU过滤所述个体特征信息向量(T1,T2,T3,...,Tn)中的冗余特征信息,以生成统一个体特征信息向量库:
CPU对所述个体特征信息向量(T1,T2,T3,...,Tn)的特征属性进行语义分析,以得出所述个体特征向量对应的特征属性集{P1,P2,P3,...,Pn};
CPU对所述特征属性集{P1,P2,P3,...,Pn}的属性元素进行模拟训练,计算所述属性元素对个体间关联度的贡献因子,并得出与所述特征属性集{P1,P2,P3,...,Pn}对应的特征贡献因子分数集{S1,S2,S3,...,Sn};
CPU根据网络聚焦算法,对所述特征贡献因子分数集{S1,S2,S3,...,Sn}进行模拟评估处理,计算得出贡献因子分数阈值Smin,Smax);
设置计数器c,并初始化c=1;
CPU判断所述特征贡献因子分数集{S1,S2,S3,...,Sn}中的元素Sc是否在所述贡献因子分数阈值(Smin,Smax)范围内;
若元素Sc在贡献因子分数阈值(Smin,Smax)范围内,则保留Sc,并保留与Sc对应的属性Pc
判断c是否大于等于n;
若c大于等于n,则CPU得出统一特征贡献因子分数集{S1,S2,S3,...,Sm}和统一标准的特征属性集{PU1,PU2,PU3,...,PUm},并根据统一标准的特征属性集{PU1,PU2,PU3,...,PUm}对个体特征信息向量(T1,T2,T3,...,Tn)进行批量过滤处理,以得到与统一标准特征属性集{PU1,PU2,PU3,...,PUm}对应的统一个体特征信息向量(TU1,TU2,TU3,...,TUm),并形成统一个体特征信息向量库;
CPU将统一特征信息向量(TU1,TU2,TU3...,TUm)和统一特征贡献因子分数集{S1,S2,S3,...,Sm}传入GPU;
(3)GPU根据所述统一个体特征信息向量库计算社交网络个体距离矩阵和矫正距离矩阵:
GPU根据所述统一特征贡献因子分数集{S1,S2,S3,...,Sm}计算社交网络中两两个体间的距离,并构成社交网络个体距离矩阵D;
GPU获取社交网络中个体的总数C,设置计数器k,并初始化为k=C,且设置社交网络的个体集合为{E1,E2,E3,…,Ek};
GPU根据多序列比对算法,对社交网络个体距离矩阵D进行关联计算,即对某一个体距离值和其他所有个体距离值进行关联处理,以得出更能真实反映个体间距离的矫正距离矩阵M;
(4)GPU根据所述矫正距离矩阵M,构建社交网络关联路线指导树:
GPU将所有个体的结点构成星形初始树;
GPU根据星形初始树遍历矫正距离矩阵M,以找出矫正距离矩阵M中最大的元数据对应的两个个体;
GPU根据找到的两个个体生成虚拟父结点,并计算虚拟父结点到两个个体结点的距离;
GPU根据所述计算方法计算出虚拟父结点到两个个体结点的距离后,将被合并的两个个体结点去除,并计算新的结点集合对应的距离矩阵和矫正距离矩阵;
设置k=k-1,即每合并两个结点生成一个新结点后,结点个体集合{E1,E2,E3,…,Ek}中结点个数减1;
判断k是否小于等于2;
若k小于等于2,则进入步骤(5);
(5)GPU遍历所述社交网络关联路线指导树,以确定最优关联路线:
GPU查找社交网络关联路线指导树中待搜索的源个体及目标个体,并建立源个体和目标个体之间的关联路线;
GPU根据关联路线进行最短路径优先计算,以筛选出最短的关联路线,即得出社交网络中源个体和目标个体间最优关联路径。
2.根据权利要求1所述的社交网络关联搜索方法,其特征在于,还包括步骤:
若元素Sc不在贡献因子分数阈值(Smin,Smax)范围内,则从特征贡献因子分数集{S1,S2,S3,...,Sn}中将Sc去除,并从特征属性集{P1,P2,P3,...,Pn}中将与Sc对应的Pc去除。
3.根据权利要求1所述的社交网络关联搜索方法,其特征在于,还包括步骤:
若c不大于等于n,则c=c+1,并返回所述CPU判断所述特征贡献因子分数集{S1,S2,S3,...,Sn}中的元素Sc是否在所述贡献因子分数阈值(Smin,Smax)范围内的步骤。
4.根据权利要求1所述的社交网络关联搜索方法,其特征在于,还包括步骤:
若k不小于等于2,则GPU计算所述新的虚拟父结点到除所述被合并的两个个体的结点以外所有结点的距离,以构成新的距离矩阵;
GPU计算新的距离矩阵对应的矫正距离矩阵。
5.根据权利要求1所述的社交网络关联搜索方法,其特征在于,所述GPU根据所述统一特征贡献因子分数集{S1,S2,S3,...,Sm}计算社交网络中两两个体间的距离,并构成社交网络个体距离矩阵D的步骤具体包括:GPU根据统一特征贡献因子分数集{S1,S2,S3,...,Sm}遍历统一特征信息向量(TU1,TU2,TU3...,TUm),以判断统一特征信息向量中的特征元数据的属性条件是否相同,若属性条件相同,则累加特征向量中特征元数据对应的贡献因子分数,否则进行下一个特征元数据的比较。
CN 201210100526 2012-04-09 2012-04-09 一种基于gpu多序列比对算法的社交网络关联搜索方法 Expired - Fee Related CN102651030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210100526 CN102651030B (zh) 2012-04-09 2012-04-09 一种基于gpu多序列比对算法的社交网络关联搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210100526 CN102651030B (zh) 2012-04-09 2012-04-09 一种基于gpu多序列比对算法的社交网络关联搜索方法

Publications (2)

Publication Number Publication Date
CN102651030A true CN102651030A (zh) 2012-08-29
CN102651030B CN102651030B (zh) 2013-10-30

Family

ID=46693038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210100526 Expired - Fee Related CN102651030B (zh) 2012-04-09 2012-04-09 一种基于gpu多序列比对算法的社交网络关联搜索方法

Country Status (1)

Country Link
CN (1) CN102651030B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050175A (zh) * 2013-03-13 2014-09-17 中国科学院大学 利用gpu片上树群实现二维数据近邻搜索的并行方法
CN104376116A (zh) * 2014-12-01 2015-02-25 国家电网公司 一种人物信息的搜索方法及装置
CN104462318A (zh) * 2014-12-01 2015-03-25 国家电网公司 一种多网络中相同人名的身份识别方法及装置
CN104965761A (zh) * 2015-07-21 2015-10-07 华中科技大学 一种基于gpu/cpu混合架构的流程序多粒度划分与调度方法
CN105577434A (zh) * 2015-12-21 2016-05-11 中国电子科技集团公司第十五研究所 一种基于社交网络的多重关联挖掘的方法和装置
CN107341153A (zh) * 2016-04-28 2017-11-10 中国移动通信有限公司研究院 一种信息分析方法及系统
CN110059228A (zh) * 2019-03-11 2019-07-26 西安电子科技大学 一种dna数据集植入模体搜索方法及其装置与存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388024A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于复杂网络的压缩空间高效搜索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388024A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于复杂网络的压缩空间高效搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DANA SCHAA EL AT.: "《Exploring the Multiple-GPU Design Space》", 《IEEE XPLORE DIGITAL LIBRARY》 *
ŁUKASZ LIGOWSKI EL AT.: "《AN EFFICIENT IMPLEMENTATION OF SMITH WATERMAN ALGORITHM ON GPU USING CUDA, FOR MASSIVELY PARALLEL SCANNING OF SEQUENCE DATABASES》", 《IEEE XPLORE DIGITAL LIBRARY》 *
张倩: "《CUDA平台上序列对比并行软件的优化》", 《信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050175A (zh) * 2013-03-13 2014-09-17 中国科学院大学 利用gpu片上树群实现二维数据近邻搜索的并行方法
CN104376116A (zh) * 2014-12-01 2015-02-25 国家电网公司 一种人物信息的搜索方法及装置
CN104462318A (zh) * 2014-12-01 2015-03-25 国家电网公司 一种多网络中相同人名的身份识别方法及装置
CN104965761A (zh) * 2015-07-21 2015-10-07 华中科技大学 一种基于gpu/cpu混合架构的流程序多粒度划分与调度方法
CN104965761B (zh) * 2015-07-21 2018-11-02 华中科技大学 一种基于gpu/cpu混合架构的流程序多粒度划分与调度方法
CN105577434A (zh) * 2015-12-21 2016-05-11 中国电子科技集团公司第十五研究所 一种基于社交网络的多重关联挖掘的方法和装置
CN105577434B (zh) * 2015-12-21 2019-09-13 中国电子科技集团公司第十五研究所 一种基于社交网络的多重关联挖掘的方法和装置
CN107341153A (zh) * 2016-04-28 2017-11-10 中国移动通信有限公司研究院 一种信息分析方法及系统
CN107341153B (zh) * 2016-04-28 2020-05-12 中国移动通信有限公司研究院 一种信息分析方法及系统
CN110059228A (zh) * 2019-03-11 2019-07-26 西安电子科技大学 一种dna数据集植入模体搜索方法及其装置与存储介质
CN110059228B (zh) * 2019-03-11 2021-11-30 西安电子科技大学 一种dna数据集植入模体搜索方法及其装置与存储介质

Also Published As

Publication number Publication date
CN102651030B (zh) 2013-10-30

Similar Documents

Publication Publication Date Title
CN102651030B (zh) 一种基于gpu多序列比对算法的社交网络关联搜索方法
CN103942308B (zh) 大规模社交网络社区的检测方法及装置
CN103970722B (zh) 一种文本内容去重的方法
Jin et al. SCARAB: scaling reachability computation on large graphs
CN106776768B (zh) 一种分布式爬虫引擎的url抓取方法及系统
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN105930479A (zh) 一种数据倾斜处理方法及装置
CN105893585B (zh) 一种结合标签数据的二部图模型学术论文推荐方法
CN102831193A (zh) 基于分布式多级聚类的话题检测装置及方法
CN103886023B (zh) Excel数据表的存储、提取方法及系统
CN104021483A (zh) 旅客需求推荐方法
CN104598536B (zh) 一种分布式网络信息结构化处理方法
CN104021189A (zh) 一种民航旅客网络生成方法
CN109583472A (zh) 一种web日志用户识别方法和系统
US9934325B2 (en) Method and apparatus for distributing graph data in distributed computing environment
CN107239549A (zh) 数据库术语检索的方法、装置及终端
CN103678490B (zh) 一种基于Hadoop平台的Deep Web查询接口聚类方法
CN109002893A (zh) 一种序贯同步时序蒙特卡洛搜索算法
CN110019806A (zh) 一种文档聚类方法及设备
CN103761298B (zh) 一种基于分布式架构的实体匹配方法
CN108805755B (zh) 一种旅游套餐生成方法及装置
Du et al. GPSP: Graph partition and space projection based approach for heterogeneous network embedding
CN106844715A (zh) 一种图片检索匹配方法和装置
Leung et al. Data analytics on the board game Go for the discovery of interesting sequences of moves in joseki
CN103971031A (zh) 一种面向大规模基因数据的读段定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131030

Termination date: 20210409

CF01 Termination of patent right due to non-payment of annual fee