CN112085614A - 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法 - Google Patents

一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法 Download PDF

Info

Publication number
CN112085614A
CN112085614A CN202010778007.1A CN202010778007A CN112085614A CN 112085614 A CN112085614 A CN 112085614A CN 202010778007 A CN202010778007 A CN 202010778007A CN 112085614 A CN112085614 A CN 112085614A
Authority
CN
China
Prior art keywords
users
behavior
social
user
social network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010778007.1A
Other languages
English (en)
Inventor
佟玲玲
时磊
段东圣
孙旷怡
井雅琪
段运强
彭成维
岳天一
周亚东
刘晓明
沈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202010778007.1A priority Critical patent/CN112085614A/zh
Publication of CN112085614A publication Critical patent/CN112085614A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,主要步骤为:1)预处理用户在社交网络上产生的时空行为数据,生成用户时空行为序列;2)基于时空行为序列数据定义并计算社交网络间任意两用户的相似度;3)构建以社交网络用户为节点的二部图,相同社交网络用户节点间无边,不同社交网络用户节点间边的权重等于用户相似度;4)计算二部图的最大权匹配;5)基于最大权匹配结果生成虚拟身份对齐结果。本发明能够为全方位分析用户在社交网络中扮演的角色、准确估计用户真实属性提供重要理论基础与技术支撑,所需要数据在现实社交网络中易于获取,计算过程易于通过分布式框架进行,可以在大规模复杂网络中快速做到虚拟用户身份对齐。

Description

一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法
技术领域
本发明属于社交媒体数据挖掘领域,特别涉及一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法。
背景技术
随着在线社交网络等互联网技术的飞速发展与大规模普及,网络空间内的数据越发呈现出多源异构的特性。个体在不同社交网络上的虚拟身份可能具有不同的社交关系,出于保护隐私的目的,个体在社交网络上填写的用户属性可能不具有真实性,基于单一一种社交网络,技术人员很难准确评估用户的真实社交关系与属性,这给精准推荐带来了难度,因此对个体在多个社交网络中的虚拟身份进行综合分析是一个有效的解决办法。其中适合于大规模社交网络的虚拟用户身份对齐技术是关键的技术。
当前主流的身份对齐技术主要包括基于虚拟用户在所属社交网络中的拓扑特性和基于用户属性进行对齐,由于社交网络的异构性以及用户填写的属性真实性存疑,上述技术的范围适用较窄,相比于拓扑特性和用户属性,用户的行为特性与时空数据在不同社交网络上具有更大相似性与更高的真实性,当能够有效获取用户在社交网络上的行为数据以及产生行为的时间与位置数据时,基于时空行为数据能够快速准确地实现跨社交网络虚拟用户身份对齐。
因此,怎样利用时空数据与行为数据进行虚拟用户身份对齐,成为了一个研究重点。
发明内容
为了克服上述现有技术的缺点,针对社交网络中用户身份虚拟化、隐蔽性的问题,本发明的目的在于提供一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,能够在规模较大的社交网络间实现快速、高效的虚拟用户身份对齐。
为了实现上述目的,本发明采用的技术方案是:
一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,包括如下步骤:
步骤1,针对社交网络中用户时空行为数据,将时空网格化,使得每一个网格对应于一个网格编号grid_index,其中时间上可以一天作为粒度,空间上可以区(县)作为粒度,将用户在社交网络上的多种线上行为(包括3种指定行为:发布、转发、评论)进行离散编码,每一种线上行为对应于一个行为编号activity_index。
步骤2,获取用户在社交网络上的线上行为对应的时间与位置数据,进而根据步骤1查找该时间与位置数据对应的时空网格的编号grid_index与该线上行为所对应的的行为编号activity_index,将该线上行为对应的网格编号grid_index和行为编号activity_index的组合作为一个行为元素e,行为元素e即二元组(grid_index、activity_index)。按时间顺序获取用户的在社交网络上所有线上行为的对应行为元素,由这些行为元素构成该用户的时空行为数据序列sequence,计算待对齐两个社交网络中所有待对齐用户的时空行为数据序列。
步骤3,根据步骤2中的时空行为数据序列,计算两个社交网络间的任意两个用户的行为序列相似度,方法如下:
步骤3.1,获取分属两个社交网络的两个用户的时空行为数据序列sequence1、sequence2,计算行为序列sequence1和行为序列sequence2的最长公共子序列subsequence;
步骤3.2,计算
Figure BDA0002619183820000021
作为sequence1与sequence2的相似度,其中|·|表示序列·的长度。
步骤4,将两个社交网络中的用户分别划分为对应的两个节点集合,构建完全二部图,具体构建过程包括以下步骤:
步骤4.1:获取待对齐的两个社交网络中的所有待对齐用户,为每一个用户定义一个相对应的节点。
步骤4.2:对于分属于两个社交网络的两个用户节点,计算用户间的时空行为序列相似度,将序列相似度作为节点间边的权重,同一社交网络中的节点间无边,由此得到二部带权图G。
步骤5,计算二部图的最大权匹配matching,可基于Kuhn-Munkres算法计算二部图最大权匹配。
步骤6,根据二部图最大权匹配,从该匹配中删除权重小于给定阈值的边,将剩余每条边连接的两个节点作为对齐的两个用户,从而计算得到对齐用户,生成跨社交网络虚拟用户对齐结果,具体包括以下步骤:
步骤6.1,定义阈值α,从二部图的最大权匹配matching中删除权重小于α的边,α的取值可为0.75;
步骤6.2,对于matching中的任意一条边edge,获取edge的两个端点node1与node2,获取node1在社交网络1中对应的虚拟用户user1,获取node2在社交网络2中对应的虚拟用户user2,将user1与user2作为一对被对齐的虚拟用户。
与现有技术相比,本发明的有益效果是:
(1)、本发明仅通过用户的时空数据与社交网络基础行为数据进行身份对齐,不需要额外的用户拓扑数据以及真实性难以确定的属性等数据,大多数社交网络中用户时空数据与行为数据数据量丰富,因此本发明适用于大多数社交网络间虚拟用户身份对齐。
(2)、本发明通过计算用户相似度进而基于二部图最大权匹配算法实现虚拟用户身份对齐,其中用户时空行为序列生成与时空行为序列相似度易于通过分布式框架进行计算,因此本发明适合于在大规模社交网络间进行虚拟用户身份对齐。
附图说明
图1为基于时空行为数据的跨社交网络身份对齐流程示意图。
图2为用户时空行为序列相似度计算示意图。
图3为由二部带权图最大权匹配生成对齐结果示意图。
具体实施方式
下面结合实施例对本发明做进一步详细描述,本发明整体流程如图1所示。
一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,包括如下步骤:
步骤S1:社交网络中用户时空行为数据预处理:
本实施例中的数据集收集自微博和tweeter,数据集中包括1000个志愿者的微博账号在2019年12月的全部行为与该1000个志愿者twitter账号在2019年12月的全部行为。
步骤S101:将时空网格化,时间上将一天作为粒度,空间上将区(县)作为粒度,每一个网格对应于一个编号grid_index,网格编号总数量等于区(县)总数乘以31(2019年12月有31天);将用户在社交网络上的3种线上行为(发布、转发、评论)进行离散编码,每一种行为对应于一个编号activity_index,发布、转发、评论三种行为的activity_index分别为0,1,2。
步骤S102:获取用户在社交网络上进行上述线上行为的时间与位置数据,进而确定该时间点与位置所属的时空网格,查找得到时空网格编号grid_index,同时查找该行为所对应的行为编号activity_index,将(grid_index、activity_index)二元组作为一个元素e。按时间顺序获取用户在社交网络上所有上述线上行为的对应元素,由这些元素构成用户在该社交网络上的时空行为数据序列sequence。
步骤S103:计算待对齐社交网络中所有待对齐用户在各自社交网络中的时空行为数据序列得到序列集sequence_set。
步骤S2:基于时空行为数据序列计算社交网络间用户相似度,用户相似度的计算具体过程包括以下步骤,时空行为序列相似度计算过程如图2所示。
步骤S201:从sequence_set中获取分属微博和tweeter的两个用户的时空行为数据序列sequence1、sequence2
步骤S202:计算sequence1和sequence2的最长公共子序列subsequence
步骤S203:计算
Figure BDA0002619183820000051
作为sequence1与sequence2的相似度。
步骤S3:构建以用户为节点的二部图,二部图具体构建过程包括以下步骤:
步骤S301:为每一个待对齐用户定义一个相对应的节点。
步骤S302:对于分属于两个社交网络的两个用户节点,计算用户间的时空行为序列相似度,将相似度作为节点间边的权重,同一社交网络中的节点间无边,由此得到二部带权图G,设社交网络1中拥有m个待对齐用户,社交网络2中拥有n个待对齐用户,则图G中共有m+n个节点,m×n条边。
步骤S4:计算二部图的最大权匹配,具体为:
步骤S401:基于Kuhn-Munkres算法计算二部带权图G的最大权匹配,得到matching。
步骤S5:根据最大权匹配生成跨社交网络虚拟用户对齐结果,具体包括以下步骤:
步骤S501:从matching删除权重小于α的边,α取0.75。
步骤S502:任取edge∈matching,获得edge的两个端点node1与node2,
获取node1在社交网络1中对应的虚拟用户user1,获取node2在社交网络2中对应的虚拟用户user2,将user1与user2作为一对被对齐的虚拟用户。
图3为由图G的最大权匹配matching生成最终对齐结果的过程示意图。1_usera、1_userb、1_userc为社交网络1待匹配用户,2_usera、2_userb、2_userc为社交网络2待匹配用户,在此二部图中,最大权匹配为{(1_usera,2_userc,权重0.7),(1_userb,2_usera,权重1),(1_userc,2_userb,权重1)},由于边(1_usera,2_userc)的权重小于α,因此从最大权匹配中删除此边得到边集{(1_userb,2_usera),(1_userc,2_userb)}。最终的身份对齐结果为社交网络1中的用户1_userb与社交网络2中的用户2_usera对齐,1_userc与2_userb对齐。
为了检验在本实施例中本发明所提出的基于时空行为数据的跨社交网络间虚拟用户对齐方法的效果,在数据集上进行了测试,数据集中包括对应于1000个真实用户的1000个微博账号和1000个tweeter账号,对于每个账号,数据集中包含账号在2019年12月的全部指定行为的记录,每一条记录由账号名、行为类型(发布、转发、评论)、时间戳、位置四个字段组成。在数据集的1000个tweeter账号与1000个微博账号间进行对齐,以1000个志愿的真实身份作为标记,使用查准率Precision和召回率Recall两个指标来评价身份对齐的效果。
Precision等于正确对齐的账号对的数目与算法输出的对齐节账号对数目的比值,Recall等于正确对齐的账号对数目与全部真实账号对的数(1000)的比值。
测试集的Precision值为95.5%,Recall为79.3%,对齐算法在测试数据集上的具体实验结果如表1所示。
表1为算法在测试数据集上的实验结果。
真实用户对数量 1000对
算法输出对齐用户对数量 830对
正确对齐的用户对数量 793对
Precision 793/830=95.5%
Recall 793/1000=79.3%
该实验结果表明本发明所提出的基于时空行为数据的与二部图最大权匹配的跨社交网络间虚拟用户对齐算法,能够为全方位分析用户在社交网络中扮演的角色、准确估计用户真实属性提供重要理论基础与技术支撑,进而满足提升推荐系统推荐精度、增加企业利润的商业需求,所需要数据在现实社交网络中易于获取,计算过程易于通过分布式框架进行,可以在大规模复杂网络中快速做到虚拟用户身份精准对齐。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (7)

1.一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,包括如下步骤:
步骤1,针对社交网络中用户时空行为数据,将时空网格化,使得每一个网格对应于一个网格编号,将用户在社交网络的多种线上行为进行离散编码,每一种线上行为对应于一个行为编号;
步骤2,获取用户在社交网络的线上行为对应的时间与位置数据,根据步骤1得到的网格编号和行为编号,将该线上行为对应的网格编号和行为编号的组合作为一个行为元素,并按时间顺序获取用户在社交网络上所有线上行为的对应行为元素,由这些行为元素构成该用户的时空行为数据序列,计算待对齐两个社交网络中所有待对齐用户的时空行为数据序列;
步骤3,根据步骤2中的时空行为数据序列,计算两个社交网络间的任意两个用户的行为序列相似度;
步骤4,将两个社交网络中的用户分别划分为对应的两个节点集合,构建完全二部图,以步骤3得到的用户间行为序列相似度为各个边的权值;
步骤5,根据步骤4得到的二部图,计算该二部图的最大权匹配;
步骤6,根据步骤5得到的二部图最大权匹配,从该匹配中删除权重小于给定阈值的边,将剩余每条边连接的两个节点作为对齐的两个用户,从而计算得到对齐用户。
2.根据权利要求1所述基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述步骤1中,在对时空进行网格化的过程中,时间上以一天作为粒度,空间上以区和县作为粒度。
3.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述步骤1的线上行为包括发布、转发和评论行为。
4.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述步骤3中计算两个社交网络间的任意两个用户的行为序列相似度,计算方法为:
步骤3.1,获取分属两个社交网络的两个用户的时空行为数据序列sequence1、sequence2,计算行为序列sequence1和行为序列sequence2的最长公共子序列subsequence;
步骤3.2,计算
Figure FDA0002619183810000021
作为sequence1与sequence2的相似度,其中|·|表示序列·的长度。
5.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述完全二部图的构建方法如下:
步骤4.1:获取待对齐的两个社交网络中的所有待对齐用户,为每一个用户定义一个相对应的节点。
步骤4.2:对于分属于两个社交网络的两个用户节点,计算用户间的时空行为序列相似度,将序列相似度作为节点间边的权重,同一社交网络中的节点间无边,由此得到带权二部图G。
6.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述步骤5中计算二部图的最大权匹配的方法为Kuhn-Munkres算法。
7.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述步骤6中计算对齐用户具体过程包括以下步骤:
步骤6.1,定义阈值α,从二部图的最大权匹配matching中删去权重小于α的边;
步骤6.2,任取一条边edge∈matching,获得edge的两个端点node1与node2,获取node1在社交网络1中对应的虚拟用户user1,获取node2在社交网络2中对应的虚拟用户user2,将user1与user2作为一对被对齐的虚拟用户。
CN202010778007.1A 2020-08-05 2020-08-05 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法 Pending CN112085614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010778007.1A CN112085614A (zh) 2020-08-05 2020-08-05 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010778007.1A CN112085614A (zh) 2020-08-05 2020-08-05 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法

Publications (1)

Publication Number Publication Date
CN112085614A true CN112085614A (zh) 2020-12-15

Family

ID=73736037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010778007.1A Pending CN112085614A (zh) 2020-08-05 2020-08-05 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法

Country Status (1)

Country Link
CN (1) CN112085614A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590912A (zh) * 2021-06-15 2021-11-02 北京交通大学 融合节点相对位置和绝对度分布的跨社交网络对齐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9098819B1 (en) * 2012-10-18 2015-08-04 Google Inc. Identifying social network accounts belonging to the same user
CN110134883A (zh) * 2019-04-22 2019-08-16 哈尔滨英赛克信息技术有限公司 一种异构社交网络位置实体锚链接识别方法
CN111475739A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络用户锚链接识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9098819B1 (en) * 2012-10-18 2015-08-04 Google Inc. Identifying social network accounts belonging to the same user
CN110134883A (zh) * 2019-04-22 2019-08-16 哈尔滨英赛克信息技术有限公司 一种异构社交网络位置实体锚链接识别方法
CN111475739A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络用户锚链接识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
叶娜 等: "模式无关的社交网络用户识别算法", 《西安交通大学学报》 *
徐乾: "跨社交网络用户身份识别算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
高兴: "基于时空感知的跨社交网络用户识别算法的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590912A (zh) * 2021-06-15 2021-11-02 北京交通大学 融合节点相对位置和绝对度分布的跨社交网络对齐方法
CN113590912B (zh) * 2021-06-15 2023-11-14 北京交通大学 融合节点相对位置和绝对度分布的跨社交网络对齐方法

Similar Documents

Publication Publication Date Title
US20230359669A1 (en) Methods and systems for associating internet devices
Deng et al. A user identification algorithm based on user behavior analysis in social networks
CN113095948B (zh) 一种基于图神经网络的多源异构网络用户对齐方法
Fan et al. A practical framework for privacy-preserving data analytics
AU2019101565A4 (en) User data sharing method and device
CN114928548A (zh) 一种社交网络信息传播规模预测方法及装置
CN103745014A (zh) 一种社交网络用户虚实映射方法和系统
US20140280313A1 (en) Processing unstructured data streams using continuous queries
WO2021217933A1 (zh) 同质网络的社群划分方法、装置、计算机设备和存储介质
CN114662157B (zh) 社交文本数据流的块压缩感知不可区分性保护方法及装置
WO2018077301A1 (zh) 账号筛选方法和装置
He et al. A topic community‐based method for friend recommendation in large‐scale online social networks
Yin et al. Autrust: A practical trust measurement for adjacent users in social networks
CN112085614A (zh) 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法
Khan et al. Criminal investigation using call data records (CDR) through big data technology
Zhang et al. Glasu: A communication-efficient algorithm for federated learning with vertically distributed graph data
Jing et al. Identification of microblog opinion leader based on user feature and interaction network
CN110704612B (zh) 一种社交群体发现方法、装置和存储介质
Riaz et al. Filtering the big data based on volume, variety and velocity by using Kalman filter recursive approach
Ma et al. Social account linking via weighted bipartite graph matching
Liu et al. Fast community discovery and its evolution tracking in time-evolving social networks
Piao et al. Research on hybrid-cloud-based user privacy protection of O2O platform
Wang et al. Locally random sampling for practical privacy protection in federated learning
CN112579831B (zh) 基于SimRank全局矩阵平滑收敛的网络社区发现方法、装置及存储介质
US20150032726A1 (en) Systems and methods for detecting missing data in query results

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201215

WD01 Invention patent application deemed withdrawn after publication