CN110166287A - 一种基于带权超图的同一用户识别方法 - Google Patents

一种基于带权超图的同一用户识别方法 Download PDF

Info

Publication number
CN110166287A
CN110166287A CN201910366998.XA CN201910366998A CN110166287A CN 110166287 A CN110166287 A CN 110166287A CN 201910366998 A CN201910366998 A CN 201910366998A CN 110166287 A CN110166287 A CN 110166287A
Authority
CN
China
Prior art keywords
node
hypergraph
cum rights
account
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910366998.XA
Other languages
English (en)
Inventor
赵鹏飞
陈丹伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910366998.XA priority Critical patent/CN110166287A/zh
Publication of CN110166287A publication Critical patent/CN110166287A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services

Abstract

本发明提出了一种基于带权超图的同一用户识别方法,包括以下步骤:步骤1,构建带权超图模型;步骤2,计算节点拓扑结构相似性;步骤3,利用交叉匹配进行同一用户的识别进一步的;构建带权超图,利用带权超图对两个社交网络拓扑结构进行重构,更准确的描述原网络的拓扑结构,包括以下具体步骤:步骤1.1,在一个网络拓扑中发现节点存在好友关系,那么就将划分到同一个超边中,并赋予权重p;使用带权超图来表示网络中节点之间的关系,准确表示了节点所处的拓扑结构,提升了节点相似性计算的准确度,从而明显提高了同一用户识别方法的准确率和召回率。

Description

一种基于带权超图的同一用户识别方法
技术领域
本发明涉及一种基于带权超图的同一用户识别方法,属于信息安全领域。
背景技术
过去十年中,出现了许多类型的社交网站,并为大量关于现实世界社交行为的数据做出了巨大贡献。比如Twitter、新浪微博、Facebook、微信等都扮演了重要的角色,每天上亿的用户都在使用着这些社交媒体网络。由于在线社交媒体网络(SMN)的多样性,人们倾向于使用不同的SMN以达到不同的社交体验。显而易见,跨社交媒体平台的研究能解决许多理论和应用上的问题。然而,跨社交网络识别同一用户仍然是一个难题。虽然没有解决方案可以识别所有相同的匿名SMN用户,但是一些SMN元素可以用于识别跨多个SMN的部分用户。许多研究通过匹配用户个人信息属性,包括昵称、生日、位置、性别、头像等来解决用户识别问题。为了保证用户的隐私,现在很难获取用户个人的相关数据,因此这些方案现在不太适用。一些研究利用从用户发布的公开状态中得到的发布时间、位置信息以及书写风格来进行用户识别。由于难以获得位置数据并且难以从短句中提取书写风格,因此这些技术受到了限制。所以,现在基于用户朋友关系的研究慢慢流行起来了。
Narayanan和Shmatikov(NS)通过将社交媒体网络与已知身份相关联来对其进行去匿名化。NS针对有向网络,利用出/入邻居结点以及出/入度来计算匹配度,最终成功匹配30%的账户,错误率为12%。Bartunov等人提出了一种联合关系属性算法(JLA)来识别两个社交媒体网络中的同一现实用户。JLA综合考虑了用户个人信息属性以及网络结构属性。JLA先比较每个映射节点的邻居来寻找待匹配的未映射节点,然后利用Dice系数来计算两个未映射结点之间的网络距离得到结点间的相似度,最后比较相似度得到匹配用户。
现有的计算节点匹配度的同一现实用户识别方法,首先是对待识别用户节点所在的网络结构进行表示,大部分方法使用与待识别用户节点具有直接朋友关系的邻居用户节点来表示该用户节点所在的网络结构。然后计算不同社交媒体网络中待识别的用户节点所处网络结构的匹配度,主要使用共同好友数、Dice系数、Jaccard相关系数等常用的相似度计算方法。目前已知的识别方法在表示用户节点所处网络结构时没有考虑到待识别用户与社交媒体网络中其他用户的非直接好友关系,从而导致用户节点网络结构表示的精度下降,降低算法的性能。
发明内容
本发明所要解决的技术问题是网络节点拓扑结构表示的精度不足,算法性能低,为克服现有技术的不足而提供一种基于带权超图的同一用户识别方法。
本发明提供一种基于带权超图的同一用户识别方法,包括以下步骤:
步骤1,构建带权超图模型;
步骤2,计算节点拓扑结构相似性;
步骤3,利用交叉匹配进行同一用户的识别进一步的。
进一步的,所述步骤1的具体内容如下:
构建带权超图,利用带权超图对两个社交网络拓扑结构进行重构,更准确的描述原网络的拓扑结构,包括以下具体步骤:
步骤1.1, 在一个网络拓扑中发现节点存在好友关系,那么就将划分到同一个超边中,并赋予权重p;
步骤1.2,在一个网络拓扑中发现节点的好友,表示之间具有亲密度,那么就将划分到同一个超边中,并赋予权重q
步骤1.3,重复上述步骤构建带权超图模型。
进一步的,所述步骤2的具体内容如下:
将计算不同网络拓扑中两个节点的相似性转化为比较两个节点所处的拓扑结构的相似性,并利用节点间的亲密度来量化表示节点所处的拓扑结构,包括以下具体步骤:
步骤2.1,通过用户好友关系网络和带权超图模型进行亲密度的计算
步骤2.2,构建节点的拓扑结构;
步骤2.3,建立不同网络拓扑中的两个节点的相似性模型。
进一步的,所述步骤2.1中亲密度的计算,其具体的算法如下:
用户好友关系网络为,带权超图模型为,其中的两个节点的亲密度计算方法如式1所示:
其中是超边的权重,它体现超边中节点间的亲密度,权重越大表示超边中的节点关系越密切,亲密度越高;是超边的度,时超边中的节点好友关系网络中是直接相连的关系,此时超边中的两个节点之间的关系较为紧密,亲密度较高;时,超边中的节点在好友关系网络中只是拥有共同的好友,它们并不直接相连,所以此时超边中的节点之间的关系疏远,亲密度低;是节点-超边函数,当时,,当时,
进一步的,所述步骤2.2中,
节点,以及种子节点集合表示网络X中的节点,表示网络Y中与匹配的节点, 所在的拓扑结构表示为:
(7)
也即节点与网络拓扑中所有种子节点的亲密度。
进一步的,所述步骤2.3中,对于不同网络拓扑中两个节点,它们的相似性表示如下:
(8)
对应线下同一真实用户,那么它们与种子节点的亲密度的差值的绝对值则小,的相似性就大。
进一步的,所述步骤3的具体内容如下:
步骤3.1,设置过滤条件为:好友列表中种子节点数量最多;
步骤3.2,按照过滤条件从两个网络中选择一个待匹配账号
步骤3.3,得到待匹配账号,首先确定该账号来自于网络X还是网络Y,然后通过步骤2计算出与账号相似性最大的账号作为匹配返回;
步骤3.4,对账号和账号进行验证,当账号是账号的相似性最大的账号,而且的相似性大于或等于阈值,则认为互相匹配,将(,)加入到匹配结果集;
当账号不是账号的相似性最大的账号或者的相似性小于阈值,则将加入到未匹配队列中等待机会再匹配;
步骤3.5,将重置为,继续步骤3.3直到找到合适的用户匹配对为止或者没有可以匹配的节点时方法终止。
本发明采用以上技术方案与现有技术相比,具有以下技术效果 :使用带权超图来表示网络中节点之间的关系,准确表示了节点所处的拓扑结构,提升了节点相似性计算的准确度,从而明显提高了同一用户识别方法的准确率和召回率。
附图说明
图1为本发明中基于带权超图的同一用户识别方法的流程图。
图2为本发明中WHBUI与FRUI方法同等条件下召回率比较。
图3为本发明中WHBUI与FRUI方法同等条件下准确率比较。
具体实施方式
下面结合附图1-3对本发明的技术方案做进一步的详细说明:
本实施例提出了一种基于带权超图的同一用户识别方法,包括以下步骤:
步骤1,构建带权超图模型;
所述步骤1的具体内容如下:
构建带权超图,利用带权超图对两个社交网络拓扑结构进行重构,更准确的描述原网络的拓扑结构,包括以下具体步骤:
步骤1.1, 在一个网络拓扑中发现节点存在好友关系,那么就将划分到同一个超边中,并赋予权重p;
步骤1.2,在一个网络拓扑中发现节点的好友,表示之间具有亲密度,那么就将划分到同一个超边中,并赋予权重q;
步骤1.3,重复上述步骤构建带权超图模型。
步骤2,计算节点拓扑结构相似性:所述步骤2的具体内容如下:
将计算不同网络拓扑中两个节点的相似性转化为比较两个节点所处的拓扑结构的相似性,并利用节点间的亲密度来量化表示节点所处的拓扑结构,包括以下具体步骤:
步骤2.1,通过用户好友关系网络和带权超图模型进行亲密度的计算:
所述步骤2.1中亲密度的计算,其具体的算法如下:
用户好友关系网络为,带权超图模型为,其中的两个节点的亲密度计算方法如式1所示:
其中是超边的权重,它体现超边中节点间的亲密度,权重越大表示超边中的节点关系越密切,亲密度越高;是超边的度,时超边中的节点好友关系网络中是直接相连的关系,此时超边中的两个节点之间的关系较为紧密,亲密度较高;时,超边中的节点在好友关系网络中只是拥有共同的好友,它们并不直接相连,所以此时超边中的节点之间的关系疏远,亲密度低;是节点-超边函数,当时,,当时,
步骤2.2,构建节点的拓扑结构:
所述步骤2.2中,
节点,以及种子节点集合表示网络X中的节点,表示网络Y中与匹配的节点, 所在的拓扑结构表示为:
(7)
也即节点与网络拓扑中所有种子节点的亲密度。
步骤2.3,建立不同网络拓扑中的两个节点的相似性模型:
所述步骤2.3中,对于不同网络拓扑中两个节点,它们的相似性表示如下:
(8)
对应线下同一真实用户,那么它们与种子节点的亲密度的差值的绝对值则小,的相似性就大。
步骤3,利用交叉匹配进行同一用户的识别:
所述步骤3的具体内容如下:
步骤3.1,设置过滤条件为:好友列表中种子节点数量最多;
步骤3.2,按照过滤条件从两个网络中选择一个待匹配账号
步骤3.3,得到待匹配账号,首先确定该账号来自于网络X还是网络Y,然后通过步骤2计算出与账号相似性最大的账号作为匹配返回;
步骤3.4,对账号和账号进行验证,当账号是账号的相似性最大的账号,而且的相似性大于或等于阈值,则认为互相匹配,将(,)加入到匹配结果集;
当账号不是账号的相似性最大的账号或者的相似性小于阈值,则将加入到未匹配队列中等待机会再匹配;
步骤3.5,将重置为,继续步骤3.3直到找到合适的用户匹配对为止或者没有可以匹配的节点时方法终止。
本发明包括带权超图模型构建方法、节点拓扑结构相似性计算方法和交叉匹配方法三个部分,首先利用带权超图对原网络拓扑进行重构,然后基于带权超图计算节点拓扑结构的相似性,最后利用交叉匹配方法进行同一用户的识别;使用带权超图来表示网络中节点之间的关系,准确表示了节点所处的拓扑结构,提升了节点相似性计算的准确度,从而明显提高了同一用户识别方法的准确率和召回率。
为了验证算法的有效性,在真实社交网络上的测试结果表明,WHBUI方法在召回率和准确率上全面优于FRUI,这是因为WHBUI方法中使用的超图模型不仅保留了网络中的好友关系的拓扑信息,还加入了网络中的非好友关系信息,从而提高了识别方法的召回率和准确率。如图2和3所示,WHBUI和FRUI方法相比,平均召回率提高了3.4个百分点左右,平均准确率提高了5.5个百分点左右。
综上所述,本发明提出了一种基于带权超图的同一用户识别方法,使用带权超图来表示网络中节点之间的关系,从而提高了同一用户识别方法的准确率和召回率。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于带权超图的同一用户识别方法,其特征在于,包括以下步骤:
步骤1,构建带权超图模型;
步骤2,计算节点拓扑结构相似性;
步骤3,利用交叉匹配进行同一用户的识别。
2.根据权利要求1所述的一种基于带权超图的同一用户识别方法,其特征在于,所述步骤1的具体内容如下:
构建带权超图,利用带权超图对两个社交网络拓扑结构进行重构,更准确的描述原网络的拓扑结构,包括以下具体步骤:
步骤1.1, 在一个网络拓扑中发现节点存在好友关系,那么就将划分到同一个超边中,并赋予权重p;
步骤1.2,在一个网络拓扑中发现节点的好友,表示之间具有亲密度,那么就将划分到同一个超边中,并赋予权重q;
步骤1.3,重复上述步骤构建带权超图模型。
3.根据权利要求2所述的一种基于带权超图的同一用户识别方法,其特征在于,所述步骤2的具体内容如下:
将计算不同网络拓扑中两个节点的相似性转化为比较两个节点所处的拓扑结构的相似性,并利用节点间的亲密度来量化表示节点所处的拓扑结构,包括以下具体步骤:
步骤2.1,通过用户好友关系网络和带权超图模型进行亲密度的计算
步骤2.2,构建节点的拓扑结构;
步骤2.3,建立不同网络拓扑中的两个节点的相似性模型。
4.根据权利要求3所述的一种基于带权超图的同一用户识别方法,其特征在于,所述步骤2.1中亲密度的计算,其具体的算法如下:
用户好友关系网络为,带权超图模型为,其中的两个节点的亲密度计算方法如式1所示:
其中是超边的权重,它体现超边中节点间的亲密度,权重越大表示超边中的节点关系越密切,亲密度越高;是超边的度,时超边中的节点好友关系网络中是直接相连的关系,此时超边中的两个节点之间的关系较为紧密,亲密度较高;时,超边中的节点在好友关系网络中只是拥有共同的好友,它们并不直接相连,所以此时超边中的节点之间的关系疏远,亲密度低;是节点-超边函数,当时,,当时,
5.根据权利要求4所述的一种基于带权超图的同一用户识别方法,其特征在于,所述步骤2.2中,
节点,以及种子节点集合表示网络X中的节点,表示网络Y中与匹配的节点, 所在的拓扑结构表示为:
(7)
也即节点与网络拓扑中所有种子节点的亲密度。
6. 根据权利要求5所述的一种基于带权超图的同一用户识别方法,其特征在于,所述步骤2.3中,对于不同网络拓扑中两个节点,它们的相似性表示如下:
(8)
对应线下同一真实用户,那么它们与种子节点的亲密度的差值的绝对值则小,的相似性就大。
7.根据权利要求6所述的一种基于带权超图的同一用户识别方法,其特征在于,所述步骤3的具体内容如下:
步骤3.1,设置过滤条件为:好友列表中种子节点数量最多;
步骤3.2,按照过滤条件从两个网络中选择一个待匹配账号
步骤3.3,得到待匹配账号,首先确定该账号来自于网络X还是网络Y,然后通过步骤2计算出与账号相似性最大的账号作为匹配返回;
步骤3.4,对账号和账号进行验证,当账号是账号的相似性最大的账号,而且的相似性大于或等于阈值,则认为互相匹配,将(,)加入到匹配结果集;
当账号不是账号的相似性最大的账号或者的相似性小于阈值,则将加入到未匹配队列中等待机会再匹配;
步骤3.5,将重置为,继续步骤3.3直到找到合适的用户匹配对为止或者没有可以匹配的节点时方法终止。
CN201910366998.XA 2019-05-05 2019-05-05 一种基于带权超图的同一用户识别方法 Pending CN110166287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910366998.XA CN110166287A (zh) 2019-05-05 2019-05-05 一种基于带权超图的同一用户识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910366998.XA CN110166287A (zh) 2019-05-05 2019-05-05 一种基于带权超图的同一用户识别方法

Publications (1)

Publication Number Publication Date
CN110166287A true CN110166287A (zh) 2019-08-23

Family

ID=67633246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910366998.XA Pending CN110166287A (zh) 2019-05-05 2019-05-05 一种基于带权超图的同一用户识别方法

Country Status (1)

Country Link
CN (1) CN110166287A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815468A (zh) * 2020-06-04 2020-10-23 哈尔滨工程大学 一种基于用户身份关联的多源社交网络构建方法
CN112232834A (zh) * 2020-09-29 2021-01-15 中国银联股份有限公司 资源账户确定方法、装置、设备和介质
CN113114770A (zh) * 2021-04-14 2021-07-13 每日互动股份有限公司 用户识别方法、电子设备和计算机可读存储介质
CN113660114A (zh) * 2021-07-28 2021-11-16 中山大学 分布式网络随机空间抽样测量的重构方法、系统及介质
CN113904961A (zh) * 2021-09-09 2022-01-07 中山大学 一种用户行为识别方法、系统、设备及存储介质
CN116055385A (zh) * 2022-12-30 2023-05-02 中国联合网络通信集团有限公司 路由方法、管理节点、路由节点及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270588A1 (en) * 2016-03-16 2017-09-21 Adp, Llc Review Management System
US9787640B1 (en) * 2014-02-11 2017-10-10 DataVisor Inc. Using hypergraphs to determine suspicious user activities
CN108596220A (zh) * 2018-04-08 2018-09-28 大连理工大学 一种基于超图熵的桥节点识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9787640B1 (en) * 2014-02-11 2017-10-10 DataVisor Inc. Using hypergraphs to determine suspicious user activities
US20170270588A1 (en) * 2016-03-16 2017-09-21 Adp, Llc Review Management System
CN108596220A (zh) * 2018-04-08 2018-09-28 大连理工大学 一种基于超图熵的桥节点识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐乾: "基于带权超图的跨网络用户身份识别方法", 《计算机应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815468A (zh) * 2020-06-04 2020-10-23 哈尔滨工程大学 一种基于用户身份关联的多源社交网络构建方法
CN111815468B (zh) * 2020-06-04 2023-05-09 哈尔滨工程大学 一种基于用户身份关联的多源社交网络构建方法
CN112232834A (zh) * 2020-09-29 2021-01-15 中国银联股份有限公司 资源账户确定方法、装置、设备和介质
CN112232834B (zh) * 2020-09-29 2024-04-26 中国银联股份有限公司 资源账户确定方法、装置、设备和介质
CN113114770A (zh) * 2021-04-14 2021-07-13 每日互动股份有限公司 用户识别方法、电子设备和计算机可读存储介质
CN113114770B (zh) * 2021-04-14 2022-08-09 每日互动股份有限公司 用户识别方法、电子设备和计算机可读存储介质
CN113660114A (zh) * 2021-07-28 2021-11-16 中山大学 分布式网络随机空间抽样测量的重构方法、系统及介质
CN113660114B (zh) * 2021-07-28 2022-07-22 中山大学 分布式网络随机空间抽样测量的重构方法、系统及介质
CN113904961A (zh) * 2021-09-09 2022-01-07 中山大学 一种用户行为识别方法、系统、设备及存储介质
CN113904961B (zh) * 2021-09-09 2023-04-07 中山大学 一种用户行为识别方法、系统、设备及存储介质
CN116055385A (zh) * 2022-12-30 2023-05-02 中国联合网络通信集团有限公司 路由方法、管理节点、路由节点及介质

Similar Documents

Publication Publication Date Title
CN110166287A (zh) 一种基于带权超图的同一用户识别方法
Mouchet et al. Towards a consensus for calculating dendrogram‐based functional diversity indices
CN103778186B (zh) 一种“网络马甲”的检测方法
CN109597924B (zh) 一种基于人工免疫网络的微博社交圈挖掘方法及系统
CN104504264B (zh) 虚拟人建立方法及装置
CN108897789B (zh) 一种跨平台的社交网络用户身份识别方法
CN105488211A (zh) 基于特征分析的用户群确定方法
CN107767279A (zh) 一种基于lda的加权平均的个性化好友推荐方法
WO2013151905A2 (en) Network virtual user risk control method and system
CN108647800B (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN107330020B (zh) 一种基于结构和属性相似度的用户实体解析方法
WO2013022631A2 (en) Protecting network entity data while preserving network properties
CN105512301A (zh) 基于社交内容的用户分组方法
Rossetto et al. Where did all the trees come from? A novel multispecies approach reveals the impacts of biogeographical history and functional diversity on rain forest assembly
KR101224312B1 (ko) 소셜 네트워킹 서비스 사용자를 위한 친구 추천 방법, 이를 위한 기록 매체 및 이를 이용하는 소셜 네트워킹 서비스 및 서버
Zhang et al. Toward unsupervised protocol feature word extraction
CN106156117B (zh) 面向特定主题的隐蔽社区核心交际圈检测发现方法和系统
CN112836139B (zh) 融合用户特征和嵌入学习的跨社交网络用户身份关联方法
CN109284589A (zh) 一种跨社交网络实体身份解析方法
CN112084373A (zh) 一种基于图嵌入的多源异构网络用户对齐方法
Ahn et al. What makes the difference between popular games and unpopular games? analysis of online game reviews from steam platform using word2vec and bass model
Leão et al. Evolutionary patterns in the geographic range size of Atlantic Forest plants
CN104462061B (zh) 词语提取方法及提取装置
CN107358534A (zh) 社交网络的无偏数据采集系统及采集方法
CN106126681A (zh) 一种增量式流式数据聚类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190823

RJ01 Rejection of invention patent application after publication