CN105808696B - 一种基于全局和局部特征的跨在线社交网络用户匹配方法 - Google Patents
一种基于全局和局部特征的跨在线社交网络用户匹配方法 Download PDFInfo
- Publication number
- CN105808696B CN105808696B CN201610121950.9A CN201610121950A CN105808696B CN 105808696 B CN105808696 B CN 105808696B CN 201610121950 A CN201610121950 A CN 201610121950A CN 105808696 B CN105808696 B CN 105808696B
- Authority
- CN
- China
- Prior art keywords
- node
- seed
- matched
- global
- globalrank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000008569 process Effects 0.000 title claims abstract description 17
- 230000007704 transition Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241001632422 Radiola linoides Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012917 library technology Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000008117 seed development Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于全局和局部特征的跨在线社交网络用户匹配方法,属于社交网络领域的节点匹配技术。所述方法包括初始种子发掘和种子扩张两个阶段。本发明针对使用多个社交网络的同一用户,利用全局和局部的结构化信息,设计高效的匹配算法,来识别属于同一用户的所有账号,从而整合用户多个来源的信息,为社会科学的研究和提供个性化服务奠定基础。本发明将社交网络建模成有权图,将用户之间的亲密程度作为边的权重,更符合实际;较现有技术,本发明具有更高的精度和召回率,更有效地实现了跨网络的用户匹配。
Description
技术领域
本发明属于社交网络领域的节点匹配技术,具体是指一种基于全局和局部特征的跨在线社交网络用户匹配方法,应用于解决多个在线社交网络间的用户匹配问题。
背景技术
在过去几年里,社交网络变得非常流行并被广泛使用。现在人们通常有多个社交网络账号,比如Facebook,Twitter和Flickr。社交网络用户匹配问题旨在识别一个人在各个社交网络的账号(参见参考文献[1]N.Korula and S.Lattanzi,“An efficientreconciliation algorithm for social networks,”Proceedings of the VLDBEndowment,vol.7,no.5,pp.377–388,2014.)。因此,社交网络用户匹配技术能有效地将用户多个来源的信息整合到一起,丰富用户信息,以便提供进一步的个性化服务。
社交网络用户匹配问题在学术界和工业界引起了广泛的关注。参考文献[2]~[6]提供的技术方案中利用在线社交网络或者在线社区中用户的语义信息(用户名、地理位置、个人资料等),使用机器学习算法来计算用户之间的相似度,从而跨网络识别共同用户。参考文献[7-9]都考虑社交网络的拓扑结构,将网络建模成无权图,通过挖掘节点的结构特征(节点度、共同邻居数等)来跨网络识别共同用户。参考文献[2]:J.Novak,P.Raghavan,andA.Tomkins,“Anti-aliasing on the web,”in Proceedings of the 13th internationalconference on World Wide Web.ACM,2004,pp.30–39.参考文献[3]:R.Zafarani andH.Liu,“Connecting corresponding identities across communities.”in ICWSM,2009.参考文献[4]:F.Abel,N.Henze,E.Herder,and D.Krause,“Interweaving public userprofiles on the web,”in User Modeling,Adaptation,andPersonalization.Springer,2010,pp.16–27.参考文献[5]:A.Malhotra,L.Totti,W.MeiraJr,P.Kumaraguru,and V.Almeida,“Studying user footprints in different onlinesocial networks,”in Proceedings of the 2012International Conference onAdvances in Social Networks Analysis and Mining(ASONAM 2012).IEEE ComputerSociety,2012,pp.1065–1070.参考文献[6]:S.Labitzke,I.Taranu,and H.Hartenstein,“What your friends tell others about you:Low cost linkability of socialnetwork profiles,”in Proc.5th International ACM Workshop on Social NetworkMining and Analysis,San Diego,CA,USA,2011.参考文献[7]:A.Narayanan andV.Shmatikov,“De-anonymizing social networks,”in Securityand Privacy,2009 30thIEEE Symposium on.IEEE,2009,pp.173–187.参考文献[8]:P.Pedarsani andM.Grossglauser,“On the privacy of anonymized networks,”in Proceedings of the17th ACM SIGKDD international conference on Knowledge discovery and datamining.ACM,2011,pp.1235–1243.参考文献[9]:E.Kazemi,H.S Hamed,andM.Grossglauser,“Growing a graph matching from a handful of seeds,”inProceedings of the Vldb Endowment International Conference on Very Large DataBases,vol.8,no.EPFL-ARTICLE-207759,2015.
总结来看,现有技术方案存在以下三方面的不足:
(1)只使用语义信息(用户名、位置、兴趣等),只能识别一小部分用户,且容易遭受虚假用户的攻击,但是可以先通过语义信息匹配一小部分用户作为种子用户,作为算法的初始条件。
(2)忽略了用户间的亲密程度,而把社交网络建模成无权图。但是现实中不同用户间的亲密程度是有差异的。
(3)只使用了局部特征(节点度,共同邻居数),而忽视了全局特征。然而全局特征可以极大地促进匹配的进程,降低初始条件。
发明内容
为解决上述问题,本发明研究了基于结构信息的社交网络用户匹配问题,针对使用多个社交网络的同一用户,利用全局和局部的结构化信息,设计高效的匹配算法,来识别属于同一用户的所有账号,从而整合用户多个来源的信息,为社会科学的研究和提供个性化服务奠定基础。本发明提供一种基于全局和局部特征的跨在线社交网络用户匹配方法,所述方法包括初始种子发掘和种子扩张两个阶段。
所述的种子发掘阶段,首先假定有个用户已匹配,作为种子用户,简称种子,形成初始种子集合I。
N为现实社交网络G中的节点数量。计算两个在线社交网络中所有节点的GlobalRank值,并按GlobalRank值降序排列,分别存放到链表L1和L2中。对于链表L1中每个未匹配的节点u,将其匹配到链表L2中的节点v。反向匹配链表L2中的节点v到链表L1中节点u,如果节点u和节点v双向都匹配,就将节点u和节点v视为一次成功的匹配,将节点对(u,v)加入种子集合I中,最终得到种子节点集合S。
所述的种子扩张阶段,将第一阶段中发掘的种子节点集合S中所有种子作为根节点,对于每个已发掘的种子节点s∈G1,从邻居节点中按GlobalRank值从大到小挑选节点。如果节点u是种子节点s的一个邻居并且节点u的已匹配的邻居节点集合N(u)中已匹配节点数目超过了一个预定义的阈值,挑选节点u并利用节点u已匹配的邻居节点来找到节点u的候选节点集合。接下来,根据两个节点的相似度从候选节点集合中挑选出跟节点u具有最高相似度的候选节点v。将节点对(u,v)加入节点集合M中,形成最终的扩张节点集合M。
本发明的优点在于:
(1)社交网络建模成有权图,将用户之间的亲密程度作为边的权重,更符合实际;
(2)提出一个统一的框架整合网络中节点的全局和局部特征,并基于此框架设计了一个两阶段算法,有效地实现跨在线社交网络用户匹配;
(3)较现有技术,实验验证本发明具有更高的精度和召回率,更有效地实现了跨网络的用户匹配。
附图说明
图1A是在不同边保留概率的情况下,NR-GL算法与KL算法的精度对比;
图1B是在不同边保留概率的情况下,NR-GL算法与KL算法的召回率对比;
图1C是在不同边保留概率的情况下,NR-GL算法与KL算法的F1分数对比;
图2是是对于动态α值与各个固定α值,NR-GL算法所取的精度;
图3是在不同边保留概率的情况下,NR-GL算法与KL算法运行时间对比;
图4为社交网络用户匹配实例。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明提供一种基于全局和局部特征的跨在线社交网络用户匹配方法,所述的社交网络,本发明中给出如下定义解释。
本发明将现实社交网络标记为带权无向图G=(V,E),其中V表示社交网络中所有节点的集合,E表示社交网络中所有边的集合(简称边集)。每个节点代表着一个用户,每条边代表着两个用户间存在的好友关系。对于每个用户,它跟不同朋友或用户之间存在不同的关系强度。任意两个用户u和u'的边euu'的关系强度(参见参考文献[10]:L.Page,S.Brin,R.Motwani,and T.Winograd,“The pagerank citation ranking:Bringing order to theweb,”Technical report,Stanford Digital Library Technologies Project,1998)由计算得来,其中Ngh(u)和Ngh(u')分别代表着节点u和u'的邻居节点集。
每个在线社交网络可以看做是现实社交网络的一个子集。这里用G1和G2来表示G的两个子集,即两个在线社交网络。接下来将介绍如何构建G1=(V1,E1)和G2=(V2,E2)的节点和边。
构建节点和边:本发明中假设上述的所有在线社交网络与现实社交网络拥有相同的节点集,即|V1|=|V2|=|V|。但本算法同样适用于|V1|≠|V2|,并且在构建边的时候也会给节点集带来一定的噪声,致使|V1|≠|V2|。另一个关键问题是如何从G的边集E中来构建G1和G2的边集。基于之前的工作(参见参考文献[1][8]),提出了独立删边模型,其包含了两个基本规则:一是边被挑选的概率与边上的权重正相关。如果边euu'上权重较大,说明用户u和u'有着较强的好友关系,这样他们更有可能在在线社交网络中继续保持好友关系;二是关于G1和G2边集的大小。假设边集E1和边集E2是分别以pe1和pe2的平均概率从边集E中挑选得来,其中pe1和pe2可以不必相等。这也就意味着得到G1=(V1,E1)要从G=(V,E)中删除(1-pe1)*|E|条边;G2=(V2,E2)同理。
基于上述的在线社交网络,本发明提供一种基于全局和局部特征的跨在线社交网络用户匹配方法,简称NR-GL。NR-GL方法是一种二阶段的社交网络用户匹配方法,包括初始种子发掘和并行种子扩展两个阶段。
第一步,初始种子发掘阶段:给定少量种子用户,发掘更多全局特征明显的用户。具体方法,介绍如下。
(1)首先假定有个用户已匹配,作为种子用户,简称种子,所有种子形成初始种子集合I。
N为现实社交网络G中的节点数量。
对于给定的两个在线社交网络G1=(V1,E1)和G2=(V2,E2),用户匹配就是要找到一对一的节点匹配M:V1→V2,并使得正确的用户匹配数目最大化。作为初始条件,本发明假设个用户已匹配,称之为种子用户。这是由于有些用户会将自己的社交网络账号连接起来,例如用同一个邮箱注册,或者是在自己Facebook的个人资料中放上自己Twitter的链接。此外,也可以使用语义信息匹配来挖掘种子用户。利用种子用户和给定两个在线社交网络的结构特征,本发明的匹配算法能高效正确地匹配大部分用户。
(2)计算两个在线社交网络中所有节点的GlobalRank值,并按GlobalRank值降序排列,分别存放到链表L1和L2中。
全局特征表现了节点在整个网络中的作用,它包括接近中心性、中介中心性等。本发明采用了最有效的衡量指标,即特征向量中心性。类似于PageRank(参见参考文献[11]:B.Viswanath,A.Mislove,M.Cha,and K.P.Gummadi,“On the evolution of userinteraction in facebook,”in Proceedings of the 2nd ACM workshop on Onlinesocial networks.ACM,2009,pp.37–42.),给每个节点定义了全局重要性GlobalRank。
假设有一个随机的步行者游走在带权无向图G中。他可能以给定概率Fuv从一个节点u走到另一个相连的节点v,也可能以另一给定概率Juw随机地跳到另一个节点w。节点u的全局重要性GlobalRank定义为达到最终稳定状态后随机的步行者停留在节点u上面的概率,记作R(u)。传统的PageRank算法计算GlobalRank值时并不考虑边上的权重,然而这些边上的权重有利于计算节点在整个网络中的作用。因此本发明提出在计算全局特征时个性化PageRank。具体来说,就是把节点u到邻居节点v的转移概率Fuv定义为从节点u到随机节点w的跳转概率Juw定义为其中,L(v)、L(w)、L(k)分别表示节点v、节点w和节点k的连接强度;Ngh(u)表示节点u的邻居节点集。
在定义完转移概率后,用迭代的方式来计算节点的全局重要性GlobalRank,具体为:
其中,ε是容忍误差,T是包含所有节点转移概率Fuv和跳转概率Juw的转移矩阵,R是包含了所有节点全局重要性GlobalRank的行向量,δ是两轮迭代所有节点全局重要性GlobalRank的差值和。
局部特征展现了节点自身的特性,全局特征则展现了节点在整个网络中的作用。基于此,本发明设计了一个统一模型UniRank来计算节点u和节点v之间的相似度Sim(u,v),表达公式为:
Sim(u,v)=α·Siml(u,v)+(1-α)·Simg(u,v)
其中,Siml(u,v)和Simg(u,v)分别为局部特征相似度和全局特征相似度;α为局部特征和全局特征之间的比重,对于不同的节点,α值在匹配过程中会跟着节点的全局特征排名而动态的调整。通过观测数据,将α值设为其中rG代表着该节点在所有N个节点中的排名,c是介于(1,e-1)的常数。一般α设定成较小的值,如0.5~0.6。
所述的局部特征包括共同已匹配邻居数和连接强度。
如果节点对(u',v')满足:u'∈Ngh(u),v'∈Ngh(v),并且节点u'已经匹配节点v',则把节点对(u',v')称为(u,v)共同已匹配邻居。其中,(u'∈G1,v'∈G2),(u∈G1,v∈G2)。
节点u∈V1与节点v∈V2共同已匹配邻居数目越多,节点u和节点v越相似,两者越有可能匹配上。
节点u的连接强度L(u)定义为:
L(u)=∑u'∈N(u)W(euu')。
其中,W(euu')为节点u和节点u'的边euu'的权重。
节点u∈V1与节点v∈V2连接强度越接近,节点u和节点v越相似,两者越有可能匹配上。
基于以上两个定义,用下面的公式来计算两个节点之间的局部特征相似度:
其中,N(u)和N(v)分别表示节点u和节点v已匹配的邻居节点集合,L(u)和L(v)分别表示节点u和节点v的连接强度。
如果节点u∈V1和节点v∈V2有着大小相似的GlobalRank值(即GlobalRank值最接近的两个节点),说明两个节点在社交网络G1和G2有着相似的重要性,很有可能对应着同一用户。因此用下面的公式来计算两个节点的全局特征相似度:
其中R(u)和R(v)代表了节点u和节点v的GlobalRank值。
对于两个在线社交网络,将节点的GlobalRank值降序排列,并分别存放在链表L1和链表L2中。
(3)节点匹配。
对于链表L1中每个未匹配的节点u,将其匹配到链表L2中的节点v。
如果节点u和节点v有相似的排名,并且节点v和节点u有着最高的相似度Sim(u,v),则将节点u匹配到节点v。
所述的相似的排名是指两个节点在各自链表中的排名相差在两倍以内。
由于初始种子发掘阶段的精度至关重要,一个错误的匹配可能会引发之后一连串的错误匹配。因此反向匹配链表L2中的节点v到链表L1中节点u,如果节点u和节点v双向都匹配,就将节点u和节点v视为一次成功的匹配。
这一阶段新匹配的节点与起初假定已匹配的节点一起构成了发掘的种子集合,而新的种子集合将作为下一阶段的输入。
该初始种子发掘算法伪代码如下:。
ΔS是指种子节点集合S大小的变化量,比如种子节点集合从2个元素变成3个元素,那么ΔS等于1。设置这个变量是为了步骤3,算法将迭代地运行算法,直到无法匹配更多的节点。
第二步,种子扩张阶段;
依靠全局匹配,第一阶段快速对部分用户进行了匹配。接下来,需要匹配剩余的节点。目标是保证匹配的精度和时间效率,并尽可能提高召回率。为了实现这些目标,本发明设计了一个基于广度优先的并行匹配算法。
基于广度优先的并行匹配算法,将第一阶段中发掘的所有种子作为根节点,并从根节点出发设计了一个种子扩张算法。对于每个已发掘的种子节点s∈G1,使用广度优先策略从邻居节点中按GlobalRank值从大到小挑选节点。如果节点u是种子节点s的一个邻居并且节点u的已匹配的邻居节点集合N(u)中已匹配节点数目超过了一个预定义的阈值,挑选节点u并利用节点u已匹配的邻居节点来找到节点u的候选节点集合。接下来,根据两个节点的相似度从候选节点集合中挑选出跟节点u具有最高相似度的候选节点v。这些候选节点集合中的候选节点带来了两方面的好处:一是这些候选节点集合中的候选节点更有可能被正确匹配;二是所述的候选节点带来了更多新的邻居,加速了种子扩张的匹配进程。
该种子扩张算法伪代码如下:
根据上述的初始种子发掘算法和种子扩张算法,可以得出初始种子发掘算法的时间复杂度是O(|S|2),种子扩张算法的时间复杂度是O(|S|·|D|2),其中|S|代表了第一阶段发掘的节点的数量,|D|代表了G1和G2中节点的最大的度。因此,本发明是一个多项式时间复杂度算法,总的时间复杂度是O(|S|2+|S|·|D|2)。
下面采用两个数据集来评估和对比本发明方法的优点和有益效果,所述的数据集分别是Facebook的公开数据集(参考文献[12]:D.Chakrabarti,Y.Zhan,and C.Faloutsos,“R-mat:A recursive model for graphmining.”in SDM,vol.4.SIAM,2004,pp.442–446.)和RMAT随机模型(参考文献[13]:D.Chakrabarti,Y.Zhan,and C.Faloutsos,“R-mat:Arecursive model for graph mining.”in SDM,vol.4.SIAM,2004,pp.442–446.)产生的网络。这两个社交网络的数据都视为现实社交网络G。其中社交网络Facebook的公开数据集包含63731个用户和817090条边,平均度为25.64。RMAT随机模型产生的合成数据包含131072个用户和9712628条边。以现实社交网络G为基础,计算出边上的权重,进而分别以pe1和pe2的选择概率用独立删边模型产生了G1和G2,并在高GlobalRank值的用户中选择数量的用户作为种子用户(已匹配)。
本发明通过三个指标来评价算法设计,包括精度、召回率和F1分数。精度p可以用下式表示:
其中NC表示正确匹配的数量,NM表示所取得的全部匹配数量。
召回率r可以用下式表示:
其中N表示现实社交网络G中的节点数量。
给定精度p和召回率r,性能的主要评价指标F1评分可以用下式表示:
其中精度p和召回率r均从每个用户匹配算法所得实验结果中计算得来。
参数设置上默认选择概率pe1=pe2=0.5,这意味着50%的边将被删除,从而导致节点度和节点数目也发生变化。因此删边对节点和边都带来了噪音,更为逼近真实情况。同时实验中把公式(3)中参数α的常量c设置为1.7。
本发明利用C++实现算法并与最新的社交网络用户匹配算法-KL算法(参见参考文献[1])进行了详细的比较。实验结论以及结果分析如下:
1)与KL算法相比较,本发明提出的算法能够显著地提高精度、召回率和F1分数。首先在Facebook数据集上,图1A~1C分别显示了在G1和G2相同边保留概率的情况下,本发明的NR-GL算法显著地提高了匹配的精度、召回率和F1分数。例如,在pe1=pe2=0.6的情况下,KL算法的精度、召回率和F1分数分别是0.051、0.366和0.09,而NR-GL算法将精度、召回率和F1分数提升到0.755、0.968和0.848,即NR-GL算法将F1分数提高了9倍多。这意味着本发明的算法在种子数较少的情况下更加有效。表1显示了G1和G2在不同边保留概率下,NR-GL算法显著地提高了匹配的精度、召回率和F1分数。易发现,边保留概率越大,节点之间的差异性更大,更容易正确匹配。然而在各类情况下NR-GL算法都取得了较好的效果。其次在RMAT数据集上,表2中显示了NR-GL算法取得了较好的效果,明显优于KL算法。原因在于,NR-GL算法在少量种子的前提下,先在第一阶段发掘更多的种子用户,然后再从这些用户开始扩张整个匹配过程。
2)动态变化公式(3)中α值比固定α值取得更高的精确度。实验中固定α值为0.1到0.9,间隔为0.1。图2中显示对于固定的α值,精度在α=0.8时达到最大。然而全局信息在初始阶段更为有效,所以设计了一个函数来动态调整α值,从而调整全局和局部信息的比例。图2中动态变化的α值下所获得的精度高于任何固定α值下所获得的精度。
3)本发明的NR-GL算法的运行时间明显比KL算法短:本发明用于仿真的服务器记录为:Intel六核2GHz CPU,16GB内存,1.1T硬盘,CentOS 6.4操作系统。根据实验结果,NR-GL算法在Facebook数据集上运行时间较为稳定,原因在于NR-GL算法为特定节点选择的候选节点数目较KL算法少,并且随着迭代次数增多,剩余未匹配节点数目变少,运行时间也会变短。
表1 不同边保留概率下的结果
表2 各类边保留概率下的结果
(pe<sub>1</sub>,pe<sub>2</sub>) | 精度 | 召回率 | F1 |
(0.3,0.3) | 0.973 | 0.852 | 0.908 |
(0.4,0.4) | 0.999 | 0.999 | 0.995 |
(0.5,0.5) | 1 | 1 | 0.999 |
(0.3,0.5) | 0.998 | 0.998 | 0.938 |
(0.4,0.6) | 1 | 1 | 0.997 |
本发明可以应用于多个社交网络信息整合中,利用节点的结构特征,匹配相似属性的节点,从而挖掘同一用户的多源信息。NR-GL算法以社交网络的拓扑结构为输入,以用户匹配集合作为输出。根据节点全局属性的幂律分布特征,本发明将匹配的过程分为两个阶段:第一阶段主要利用全局属性来发掘初始种子;第二阶段利用第一阶段发掘的种子和初始种子为根节点,不断扩张匹配的范围直至覆盖近乎整个网络。例如,图4给出了一个实施例。在该图中,带权无向图G1和G2分别代表了两个社交网络A和B,给定少量的已匹配用户,应用本发明提供的NR-GL算法,利用节点的全局和局部属性,计算节点对之间的相似分数,找到最有可能正确的一对结果。具体来说,当匹配G1中的节点u时,通过u'和v'这些已匹配的邻居节点,找到G2中候选节点v1、v2和v,然后计算这些节点与u之间的相似分数,若v取得了最大的相似分数,则匹配u和v并将这对节点放入已匹配节点集合。匹配的新节点对又会促进整个匹配过程,进而用同样方法匹配u1和v1、u2和v2。至此,两个网络中所有节点都正确匹配完毕。
Claims (4)
1.一种基于全局和局部特征的跨在线社交网络用户匹配方法,其特征在于:所述方法包括初始种子发掘和种子扩张两个阶段;
所述的种子发掘阶段,首先假定有个用户已匹配,作为种子用户,简称种子,形成初始种子集合I;N为现实社交网络G中的节点数量;计算两个在线社交网络中所有节点的GlobalRank值,并按GlobalRank值降序排列,分别存放到链表L1和L2中;对于链表L1中每个未匹配的节点u,将其匹配到链表L2中的节点v;反向匹配链表L2中的节点v到链表L1中节点u,如果节点u和节点v双向都匹配,就将节点u和节点v视为一次成功的节点匹配,将节点对(u,v)加入种子集合I中,最终得到种子节点集合S;
所述的种子扩张阶段,将第一阶段中发掘的种子节点集合S中所有种子作为根节点,对于每个已发掘的种子节点s∈G1,G1为G中的一个在线社交网络,从邻居节点中按GlobalRank值从大到小挑选节点;如果节点u1是种子节点s的一个邻居并且节点u1的已匹配的邻居节点集合N(u1)中已匹配节点数目超过了一个预定义的阈值,挑选节点u1并利用节点u1已匹配的邻居节点来找到节点u1的候选节点集合;接下来,根据两个节点的相似度从候选节点集合中挑选出跟节点u1具有最高相似度的候选节点v1;将节点对(u1,v1)加入节点集合M中,形成最终的扩张节点集合M;
所述的GlobalRank值是指全局重要性,通过如下方式得到:
把节点u1到邻居节点v2的转移概率定义为从节点u1到随机节点w的跳转概率定义为其中,L(v2)、L(w)、L(k1)和L(k2)分别表示邻居节点v2、随机节点w、节点k1和节点k2的连接强度;Ngh(u1)表示节点u1的邻居节点集;用迭代的方式来计算节点的全局重要性GlobalRank,具体为:
输入:在线社交网络G1和G2,
输出:每个节点的GlobalRank,
步骤1,给定一个容忍误差ε,
步骤2,初始迭代轮数i=0,
步骤3,第i+1轮迭代的R(i+1)等于T·R(i);
步骤4,计算第i+1轮与第i轮迭代后全局重要性的差值和δ,δ=||R(i+1)-R(i)||;
步骤5,迭代次数加1,即i=i+1,返回步骤3;
步骤6,直到δ<ε;
步骤7,得到所有节点的全局重要性GlobalRank;
其中,T是包含所有节点转移概率和跳转概率的转移矩阵,R是包含了所有节点全局重要性GlobalRank的行向量,δ是两轮迭代所有节点全局重要性GlobalRank的差值和。
2.根据权利要求1所述的一种基于全局和局部特征的跨在线社交网络用户匹配方法,其特征在于:所述的节点匹配是指节点u和节点v在链表中的排名最接近,并且节点v和节点u有着最接近的全局特征相似度Simg(u,v),则将节点u匹配到节点v;
全局特征相似度:
其中R(u)和R(v)代表了节点u和节点v的GlobalRank值。
3.根据权利要求1所述的一种基于全局和局部特征的跨在线社交网络用户匹配方法,其特征在于:所述的初始种子发掘采用算法伪代码如下:
输入:在线社交网络G1(V1,E1)和G2(V2,E2),初始种子集合I,按GlobalRank值降序排列后得到两个节点链表L1和节点链表L2;
输出:一个种子节点集合S;
步骤1,令S=I,
步骤2,ΔS=1,
步骤3,如果ΔS>0,
步骤4,链表L1中每个未匹配的节点u,
步骤5,获取节点u的排名r,
步骤6,链表L2中所有未匹配节点{v|v∈L2,rank(v)∈[1,2r]}加入到候选列表CL中;
步骤7,每个节点v∈CL,
步骤8,计算节点对(u,v)之间的相似度Sim(u,v);
步骤9,记录具有最高相似度的节点v*;
步骤10,用相同方法反向匹配v*;
步骤11,如果v*匹配回节点u,
步骤12,将节点对(u,v*)加入到种子节点集合S,并标记节点对中两个节点的相似度;
步骤13,得到最终的种子节点集合S;
ΔS是指种子节点集合S大小的变化量,V1为G1的节点集,V2为G2的节点集,E1为G1的边集,E2为G2的边集。
4.根据权利要求1所述的一种基于全局和局部特征的跨在线社交网络用户匹配方法,其特征在于:种子扩张算法伪代码如下:
输入:在线社交网络G1(V1,E1)和G2(V2,E2),种子节点集合S,
输出:一个已匹配用户的扩张节点集合M;
步骤1,令M=S,
步骤2,对于每个要被扩张的种子节点s,
步骤3,标记种子节点s为根节点root并加入到队列q中;
步骤4,对于根节点root的每个邻居节点u2∈G1,
步骤5,选择邻居节点中GlobalRank值最大且N(u2)超过阈值的未匹配节点u3;
步骤6,加入到队列q中;
步骤7,对于节点u3每个已匹配邻居节点u',
步骤8,找到G2中相应的节点v';
步骤9,将节点v'所有未匹配的邻居节点v3加入到候选列表CL;
步骤10,对于每个节点v3∈CL,
步骤11,计算(u3,v3)之间的相似度Sim(u3,v3);
步骤12,如果(u3,v3)取得的相似度最高,则认为节点u3和节点v3满足匹配条件,
步骤13,把节点对(u3,v3)加入到扩张节点集合M,
步骤14,得到种子扩张后的扩张节点集合M;
V1为G1的节点集,V2为G2的节点集,E1为G1的边集,E2为G2的边集;N(u2)为邻居节点u2已匹配的邻居节点集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610121950.9A CN105808696B (zh) | 2016-03-03 | 2016-03-03 | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610121950.9A CN105808696B (zh) | 2016-03-03 | 2016-03-03 | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105808696A CN105808696A (zh) | 2016-07-27 |
CN105808696B true CN105808696B (zh) | 2019-07-30 |
Family
ID=56466642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610121950.9A Active CN105808696B (zh) | 2016-03-03 | 2016-03-03 | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105808696B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107743070B (zh) * | 2016-08-12 | 2021-08-31 | 华为技术有限公司 | 一种双属性网络的社群划分方法及装置 |
CN108171612A (zh) * | 2016-12-06 | 2018-06-15 | 北京国双科技有限公司 | 一种关联方法和装置 |
CN107832583B (zh) * | 2017-11-08 | 2021-04-16 | 武汉大学 | 一种基于图匹配的跨物种生物通路发现方法 |
CN107945037A (zh) * | 2017-11-27 | 2018-04-20 | 北京工商大学 | 一种基于节点结构特征的社交网络去匿名化方法 |
CN108319677A (zh) * | 2018-01-30 | 2018-07-24 | 中南大学 | 动态变化的网络关系图的对齐方法 |
CN109117891B (zh) * | 2018-08-28 | 2022-04-08 | 电子科技大学 | 融合社交关系和命名特征的跨社交媒体账户匹配方法 |
CN111414406B (zh) * | 2019-01-04 | 2021-06-04 | 上海嗨普智能信息科技股份有限公司 | 一种用于识别不同渠道事务中的相同用户的方法和系统 |
CN111192154B (zh) * | 2019-12-25 | 2023-05-02 | 西安交通大学 | 一种基于风格迁移的社交网络用户节点匹配方法 |
CN111553657A (zh) * | 2020-04-28 | 2020-08-18 | 贝壳技术有限公司 | 基于行为分析的匹配方法和装置、电子设备和存储介质 |
CN112148989B (zh) * | 2020-10-16 | 2021-08-24 | 重庆理工大学 | 基于局部节点以及度折扣的社交网络节点影响力推荐系统 |
CN112507247B (zh) * | 2020-12-15 | 2022-09-23 | 重庆邮电大学 | 一种融合用户状态信息的跨社交网络用户对齐方法 |
CN117473353A (zh) * | 2023-10-26 | 2024-01-30 | 兰州交通大学 | 一种基于PageRank的改进K-means算法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894123A (zh) * | 2010-05-11 | 2010-11-24 | 清华大学 | 基于子图的链接相似度的快速近似计算系统和方法 |
CN104700311A (zh) * | 2015-01-30 | 2015-06-10 | 福州大学 | 一种社会网络中的邻域跟随社区发现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130097182A1 (en) * | 2011-10-13 | 2013-04-18 | Zhijiang He | Method for calculating distances between users in a social graph |
-
2016
- 2016-03-03 CN CN201610121950.9A patent/CN105808696B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894123A (zh) * | 2010-05-11 | 2010-11-24 | 清华大学 | 基于子图的链接相似度的快速近似计算系统和方法 |
CN104700311A (zh) * | 2015-01-30 | 2015-06-10 | 福州大学 | 一种社会网络中的邻域跟随社区发现方法 |
Non-Patent Citations (2)
Title |
---|
COSNET: Connecting Heterogeneous Social Networks with Local and Global Consistency;Yutao Zhang等;《ACM》;20151231;第1485-1494页 |
基于相似度传播的复杂网络间节点匹配算法;杜方 等;《信息与控制》;20110630;第40卷(第3期);第331-337页 |
Also Published As
Publication number | Publication date |
---|---|
CN105808696A (zh) | 2016-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105808696B (zh) | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 | |
CN106156127B (zh) | 选择数据内容向终端推送的方法及装置 | |
JP5197959B2 (ja) | スーパーユニットを用いた検索処理のためのシステム及び方法 | |
CN106250412B (zh) | 基于多源实体融合的知识图谱构建方法 | |
US8706739B1 (en) | Joining user profiles across online social networks | |
KR102080362B1 (ko) | 쿼리 확장 | |
CN109657074B (zh) | 基于地址树的新闻知识图谱构建方法 | |
CN102122291A (zh) | 一种基于树形日志模式分析的博客好友推荐方法 | |
Yang et al. | Identifying influential spreaders in complex networks based on network embedding and node local centrality | |
CN102663022B (zh) | 一种基于url的分类识别方法 | |
Li et al. | A deep dive into user display names across social networks | |
CN103942308A (zh) | 大规模社交网络社区的检测方法及装置 | |
JP2015512095A (ja) | 画像データベースにおける画像管理のための方法、装置、および、コンピュータで読取り可能な記録媒体 | |
CN104199938B (zh) | 基于rss的农用土地信息发送方法和系统 | |
CN105719191A (zh) | 多尺度空间下不确定行为语义的社交群体发现系统及方法 | |
CN106980639B (zh) | 短文本数据聚合系统及方法 | |
Zhang et al. | Identifying the same person across two similar social networks in a unified way: Globally and locally | |
CN103838804A (zh) | 一种基于社团划分的社交网络用户兴趣关联规则挖掘方法 | |
CN106354844A (zh) | 基于文本挖掘的服务组合包推荐系统及方法 | |
CN106844553A (zh) | 基于样本数据的数据探测和扩充方法及装置 | |
An et al. | A heuristic approach on metadata recommendation for search engine optimization | |
Guo et al. | Dynamic feature generation and selection on heterogeneous graph for music recommendation | |
CN103440308A (zh) | 一种基于形式概念分析的数字论文检索方法 | |
CN103365960A (zh) | 电力多级调度管理结构化数据的离线搜索方法 | |
Sun et al. | Distance dynamics based overlapping semantic community detection for node‐attributed networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |