CN112085614A - 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法 - Google Patents
一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法 Download PDFInfo
- Publication number
- CN112085614A CN112085614A CN202010778007.1A CN202010778007A CN112085614A CN 112085614 A CN112085614 A CN 112085614A CN 202010778007 A CN202010778007 A CN 202010778007A CN 112085614 A CN112085614 A CN 112085614A
- Authority
- CN
- China
- Prior art keywords
- users
- behavior
- social
- user
- social network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 230000006399 behavior Effects 0.000 claims description 87
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,主要步骤为:1)预处理用户在社交网络上产生的时空行为数据,生成用户时空行为序列;2)基于时空行为序列数据定义并计算社交网络间任意两用户的相似度;3)构建以社交网络用户为节点的二部图,相同社交网络用户节点间无边,不同社交网络用户节点间边的权重等于用户相似度;4)计算二部图的最大权匹配;5)基于最大权匹配结果生成虚拟身份对齐结果。本发明能够为全方位分析用户在社交网络中扮演的角色、准确估计用户真实属性提供重要理论基础与技术支撑,所需要数据在现实社交网络中易于获取,计算过程易于通过分布式框架进行,可以在大规模复杂网络中快速做到虚拟用户身份对齐。
Description
技术领域
本发明属于社交媒体数据挖掘领域,特别涉及一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法。
背景技术
随着在线社交网络等互联网技术的飞速发展与大规模普及,网络空间内的数据越发呈现出多源异构的特性。个体在不同社交网络上的虚拟身份可能具有不同的社交关系,出于保护隐私的目的,个体在社交网络上填写的用户属性可能不具有真实性,基于单一一种社交网络,技术人员很难准确评估用户的真实社交关系与属性,这给精准推荐带来了难度,因此对个体在多个社交网络中的虚拟身份进行综合分析是一个有效的解决办法。其中适合于大规模社交网络的虚拟用户身份对齐技术是关键的技术。
当前主流的身份对齐技术主要包括基于虚拟用户在所属社交网络中的拓扑特性和基于用户属性进行对齐,由于社交网络的异构性以及用户填写的属性真实性存疑,上述技术的范围适用较窄,相比于拓扑特性和用户属性,用户的行为特性与时空数据在不同社交网络上具有更大相似性与更高的真实性,当能够有效获取用户在社交网络上的行为数据以及产生行为的时间与位置数据时,基于时空行为数据能够快速准确地实现跨社交网络虚拟用户身份对齐。
因此,怎样利用时空数据与行为数据进行虚拟用户身份对齐,成为了一个研究重点。
发明内容
为了克服上述现有技术的缺点,针对社交网络中用户身份虚拟化、隐蔽性的问题,本发明的目的在于提供一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,能够在规模较大的社交网络间实现快速、高效的虚拟用户身份对齐。
为了实现上述目的,本发明采用的技术方案是:
一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,包括如下步骤:
步骤1,针对社交网络中用户时空行为数据,将时空网格化,使得每一个网格对应于一个网格编号grid_index,其中时间上可以一天作为粒度,空间上可以区(县)作为粒度,将用户在社交网络上的多种线上行为(包括3种指定行为:发布、转发、评论)进行离散编码,每一种线上行为对应于一个行为编号activity_index。
步骤2,获取用户在社交网络上的线上行为对应的时间与位置数据,进而根据步骤1查找该时间与位置数据对应的时空网格的编号grid_index与该线上行为所对应的的行为编号activity_index,将该线上行为对应的网格编号grid_index和行为编号activity_index的组合作为一个行为元素e,行为元素e即二元组(grid_index、activity_index)。按时间顺序获取用户的在社交网络上所有线上行为的对应行为元素,由这些行为元素构成该用户的时空行为数据序列sequence,计算待对齐两个社交网络中所有待对齐用户的时空行为数据序列。
步骤3,根据步骤2中的时空行为数据序列,计算两个社交网络间的任意两个用户的行为序列相似度,方法如下:
步骤3.1,获取分属两个社交网络的两个用户的时空行为数据序列sequence1、sequence2,计算行为序列sequence1和行为序列sequence2的最长公共子序列subsequence;
步骤4,将两个社交网络中的用户分别划分为对应的两个节点集合,构建完全二部图,具体构建过程包括以下步骤:
步骤4.1:获取待对齐的两个社交网络中的所有待对齐用户,为每一个用户定义一个相对应的节点。
步骤4.2:对于分属于两个社交网络的两个用户节点,计算用户间的时空行为序列相似度,将序列相似度作为节点间边的权重,同一社交网络中的节点间无边,由此得到二部带权图G。
步骤5,计算二部图的最大权匹配matching,可基于Kuhn-Munkres算法计算二部图最大权匹配。
步骤6,根据二部图最大权匹配,从该匹配中删除权重小于给定阈值的边,将剩余每条边连接的两个节点作为对齐的两个用户,从而计算得到对齐用户,生成跨社交网络虚拟用户对齐结果,具体包括以下步骤:
步骤6.1,定义阈值α,从二部图的最大权匹配matching中删除权重小于α的边,α的取值可为0.75;
步骤6.2,对于matching中的任意一条边edge,获取edge的两个端点node1与node2,获取node1在社交网络1中对应的虚拟用户user1,获取node2在社交网络2中对应的虚拟用户user2,将user1与user2作为一对被对齐的虚拟用户。
与现有技术相比,本发明的有益效果是:
(1)、本发明仅通过用户的时空数据与社交网络基础行为数据进行身份对齐,不需要额外的用户拓扑数据以及真实性难以确定的属性等数据,大多数社交网络中用户时空数据与行为数据数据量丰富,因此本发明适用于大多数社交网络间虚拟用户身份对齐。
(2)、本发明通过计算用户相似度进而基于二部图最大权匹配算法实现虚拟用户身份对齐,其中用户时空行为序列生成与时空行为序列相似度易于通过分布式框架进行计算,因此本发明适合于在大规模社交网络间进行虚拟用户身份对齐。
附图说明
图1为基于时空行为数据的跨社交网络身份对齐流程示意图。
图2为用户时空行为序列相似度计算示意图。
图3为由二部带权图最大权匹配生成对齐结果示意图。
具体实施方式
下面结合实施例对本发明做进一步详细描述,本发明整体流程如图1所示。
一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,包括如下步骤:
步骤S1:社交网络中用户时空行为数据预处理:
本实施例中的数据集收集自微博和tweeter,数据集中包括1000个志愿者的微博账号在2019年12月的全部行为与该1000个志愿者twitter账号在2019年12月的全部行为。
步骤S101:将时空网格化,时间上将一天作为粒度,空间上将区(县)作为粒度,每一个网格对应于一个编号grid_index,网格编号总数量等于区(县)总数乘以31(2019年12月有31天);将用户在社交网络上的3种线上行为(发布、转发、评论)进行离散编码,每一种行为对应于一个编号activity_index,发布、转发、评论三种行为的activity_index分别为0,1,2。
步骤S102:获取用户在社交网络上进行上述线上行为的时间与位置数据,进而确定该时间点与位置所属的时空网格,查找得到时空网格编号grid_index,同时查找该行为所对应的行为编号activity_index,将(grid_index、activity_index)二元组作为一个元素e。按时间顺序获取用户在社交网络上所有上述线上行为的对应元素,由这些元素构成用户在该社交网络上的时空行为数据序列sequence。
步骤S103:计算待对齐社交网络中所有待对齐用户在各自社交网络中的时空行为数据序列得到序列集sequence_set。
步骤S2:基于时空行为数据序列计算社交网络间用户相似度,用户相似度的计算具体过程包括以下步骤,时空行为序列相似度计算过程如图2所示。
步骤S201:从sequence_set中获取分属微博和tweeter的两个用户的时空行为数据序列sequence1、sequence2
步骤S202:计算sequence1和sequence2的最长公共子序列subsequence
步骤S3:构建以用户为节点的二部图,二部图具体构建过程包括以下步骤:
步骤S301:为每一个待对齐用户定义一个相对应的节点。
步骤S302:对于分属于两个社交网络的两个用户节点,计算用户间的时空行为序列相似度,将相似度作为节点间边的权重,同一社交网络中的节点间无边,由此得到二部带权图G,设社交网络1中拥有m个待对齐用户,社交网络2中拥有n个待对齐用户,则图G中共有m+n个节点,m×n条边。
步骤S4:计算二部图的最大权匹配,具体为:
步骤S401:基于Kuhn-Munkres算法计算二部带权图G的最大权匹配,得到matching。
步骤S5:根据最大权匹配生成跨社交网络虚拟用户对齐结果,具体包括以下步骤:
步骤S501:从matching删除权重小于α的边,α取0.75。
步骤S502:任取edge∈matching,获得edge的两个端点node1与node2,
获取node1在社交网络1中对应的虚拟用户user1,获取node2在社交网络2中对应的虚拟用户user2,将user1与user2作为一对被对齐的虚拟用户。
图3为由图G的最大权匹配matching生成最终对齐结果的过程示意图。1_usera、1_userb、1_userc为社交网络1待匹配用户,2_usera、2_userb、2_userc为社交网络2待匹配用户,在此二部图中,最大权匹配为{(1_usera,2_userc,权重0.7),(1_userb,2_usera,权重1),(1_userc,2_userb,权重1)},由于边(1_usera,2_userc)的权重小于α,因此从最大权匹配中删除此边得到边集{(1_userb,2_usera),(1_userc,2_userb)}。最终的身份对齐结果为社交网络1中的用户1_userb与社交网络2中的用户2_usera对齐,1_userc与2_userb对齐。
为了检验在本实施例中本发明所提出的基于时空行为数据的跨社交网络间虚拟用户对齐方法的效果,在数据集上进行了测试,数据集中包括对应于1000个真实用户的1000个微博账号和1000个tweeter账号,对于每个账号,数据集中包含账号在2019年12月的全部指定行为的记录,每一条记录由账号名、行为类型(发布、转发、评论)、时间戳、位置四个字段组成。在数据集的1000个tweeter账号与1000个微博账号间进行对齐,以1000个志愿的真实身份作为标记,使用查准率Precision和召回率Recall两个指标来评价身份对齐的效果。
Precision等于正确对齐的账号对的数目与算法输出的对齐节账号对数目的比值,Recall等于正确对齐的账号对数目与全部真实账号对的数(1000)的比值。
测试集的Precision值为95.5%,Recall为79.3%,对齐算法在测试数据集上的具体实验结果如表1所示。
表1为算法在测试数据集上的实验结果。
真实用户对数量 | 1000对 |
算法输出对齐用户对数量 | 830对 |
正确对齐的用户对数量 | 793对 |
Precision | 793/830=95.5% |
Recall | 793/1000=79.3% |
该实验结果表明本发明所提出的基于时空行为数据的与二部图最大权匹配的跨社交网络间虚拟用户对齐算法,能够为全方位分析用户在社交网络中扮演的角色、准确估计用户真实属性提供重要理论基础与技术支撑,进而满足提升推荐系统推荐精度、增加企业利润的商业需求,所需要数据在现实社交网络中易于获取,计算过程易于通过分布式框架进行,可以在大规模复杂网络中快速做到虚拟用户身份精准对齐。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (7)
1.一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,包括如下步骤:
步骤1,针对社交网络中用户时空行为数据,将时空网格化,使得每一个网格对应于一个网格编号,将用户在社交网络的多种线上行为进行离散编码,每一种线上行为对应于一个行为编号;
步骤2,获取用户在社交网络的线上行为对应的时间与位置数据,根据步骤1得到的网格编号和行为编号,将该线上行为对应的网格编号和行为编号的组合作为一个行为元素,并按时间顺序获取用户在社交网络上所有线上行为的对应行为元素,由这些行为元素构成该用户的时空行为数据序列,计算待对齐两个社交网络中所有待对齐用户的时空行为数据序列;
步骤3,根据步骤2中的时空行为数据序列,计算两个社交网络间的任意两个用户的行为序列相似度;
步骤4,将两个社交网络中的用户分别划分为对应的两个节点集合,构建完全二部图,以步骤3得到的用户间行为序列相似度为各个边的权值;
步骤5,根据步骤4得到的二部图,计算该二部图的最大权匹配;
步骤6,根据步骤5得到的二部图最大权匹配,从该匹配中删除权重小于给定阈值的边,将剩余每条边连接的两个节点作为对齐的两个用户,从而计算得到对齐用户。
2.根据权利要求1所述基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述步骤1中,在对时空进行网格化的过程中,时间上以一天作为粒度,空间上以区和县作为粒度。
3.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述步骤1的线上行为包括发布、转发和评论行为。
5.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述完全二部图的构建方法如下:
步骤4.1:获取待对齐的两个社交网络中的所有待对齐用户,为每一个用户定义一个相对应的节点。
步骤4.2:对于分属于两个社交网络的两个用户节点,计算用户间的时空行为序列相似度,将序列相似度作为节点间边的权重,同一社交网络中的节点间无边,由此得到带权二部图G。
6.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述步骤5中计算二部图的最大权匹配的方法为Kuhn-Munkres算法。
7.根据权利要求1所述的基于时空行为数据的跨社交网络虚拟用户身份对齐方法,其特征在于,所述步骤6中计算对齐用户具体过程包括以下步骤:
步骤6.1,定义阈值α,从二部图的最大权匹配matching中删去权重小于α的边;
步骤6.2,任取一条边edge∈matching,获得edge的两个端点node1与node2,获取node1在社交网络1中对应的虚拟用户user1,获取node2在社交网络2中对应的虚拟用户user2,将user1与user2作为一对被对齐的虚拟用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010778007.1A CN112085614A (zh) | 2020-08-05 | 2020-08-05 | 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010778007.1A CN112085614A (zh) | 2020-08-05 | 2020-08-05 | 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112085614A true CN112085614A (zh) | 2020-12-15 |
Family
ID=73736037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010778007.1A Pending CN112085614A (zh) | 2020-08-05 | 2020-08-05 | 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085614A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590912A (zh) * | 2021-06-15 | 2021-11-02 | 北京交通大学 | 融合节点相对位置和绝对度分布的跨社交网络对齐方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9098819B1 (en) * | 2012-10-18 | 2015-08-04 | Google Inc. | Identifying social network accounts belonging to the same user |
CN110134883A (zh) * | 2019-04-22 | 2019-08-16 | 哈尔滨英赛克信息技术有限公司 | 一种异构社交网络位置实体锚链接识别方法 |
CN111475739A (zh) * | 2020-05-22 | 2020-07-31 | 哈尔滨工程大学 | 一种基于元路径的异质社交网络用户锚链接识别方法 |
-
2020
- 2020-08-05 CN CN202010778007.1A patent/CN112085614A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9098819B1 (en) * | 2012-10-18 | 2015-08-04 | Google Inc. | Identifying social network accounts belonging to the same user |
CN110134883A (zh) * | 2019-04-22 | 2019-08-16 | 哈尔滨英赛克信息技术有限公司 | 一种异构社交网络位置实体锚链接识别方法 |
CN111475739A (zh) * | 2020-05-22 | 2020-07-31 | 哈尔滨工程大学 | 一种基于元路径的异质社交网络用户锚链接识别方法 |
Non-Patent Citations (3)
Title |
---|
叶娜 等: "模式无关的社交网络用户识别算法", 《西安交通大学学报》 * |
徐乾: "跨社交网络用户身份识别算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
高兴: "基于时空感知的跨社交网络用户识别算法的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590912A (zh) * | 2021-06-15 | 2021-11-02 | 北京交通大学 | 融合节点相对位置和绝对度分布的跨社交网络对齐方法 |
CN113590912B (zh) * | 2021-06-15 | 2023-11-14 | 北京交通大学 | 融合节点相对位置和绝对度分布的跨社交网络对齐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230359669A1 (en) | Methods and systems for associating internet devices | |
Deng et al. | A user identification algorithm based on user behavior analysis in social networks | |
CN113095948B (zh) | 一种基于图神经网络的多源异构网络用户对齐方法 | |
Fan et al. | A practical framework for privacy-preserving data analytics | |
AU2019101565A4 (en) | User data sharing method and device | |
CN114928548A (zh) | 一种社交网络信息传播规模预测方法及装置 | |
CN103745014A (zh) | 一种社交网络用户虚实映射方法和系统 | |
US20140280313A1 (en) | Processing unstructured data streams using continuous queries | |
WO2021217933A1 (zh) | 同质网络的社群划分方法、装置、计算机设备和存储介质 | |
CN114662157B (zh) | 社交文本数据流的块压缩感知不可区分性保护方法及装置 | |
WO2018077301A1 (zh) | 账号筛选方法和装置 | |
He et al. | A topic community‐based method for friend recommendation in large‐scale online social networks | |
Yin et al. | Autrust: A practical trust measurement for adjacent users in social networks | |
CN112085614A (zh) | 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法 | |
Khan et al. | Criminal investigation using call data records (CDR) through big data technology | |
Zhang et al. | Glasu: A communication-efficient algorithm for federated learning with vertically distributed graph data | |
Jing et al. | Identification of microblog opinion leader based on user feature and interaction network | |
CN110704612B (zh) | 一种社交群体发现方法、装置和存储介质 | |
Riaz et al. | Filtering the big data based on volume, variety and velocity by using Kalman filter recursive approach | |
Ma et al. | Social account linking via weighted bipartite graph matching | |
Liu et al. | Fast community discovery and its evolution tracking in time-evolving social networks | |
Piao et al. | Research on hybrid-cloud-based user privacy protection of O2O platform | |
Wang et al. | Locally random sampling for practical privacy protection in federated learning | |
CN112579831B (zh) | 基于SimRank全局矩阵平滑收敛的网络社区发现方法、装置及存储介质 | |
US20150032726A1 (en) | Systems and methods for detecting missing data in query results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201215 |
|
WD01 | Invention patent application deemed withdrawn after publication |