CN111090814B - 基于度惩罚的迭代式跨社交网络用户账号关联方法 - Google Patents
基于度惩罚的迭代式跨社交网络用户账号关联方法 Download PDFInfo
- Publication number
- CN111090814B CN111090814B CN201911390821.XA CN201911390821A CN111090814B CN 111090814 B CN111090814 B CN 111090814B CN 201911390821 A CN201911390821 A CN 201911390821A CN 111090814 B CN111090814 B CN 111090814B
- Authority
- CN
- China
- Prior art keywords
- accounts
- account
- unmatched
- matched
- matrixes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Business, Economics & Management (AREA)
- Mathematical Analysis (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于度惩罚的迭代式跨社交网络用户账号关联方法,包括:通过已匹配的用户账号对及这些账号对在不同社交网络上的用户关系,利用度惩罚原则计算不同社交网络中未匹配账号之间的匹配度;通过社交网络内账号之间的关系,构建不同社交网络的邻接矩阵,提取两个社交网络邻接矩阵的子矩阵,利用矩阵乘法,有效获得所有未匹配账号对的匹配度矩阵;使用修正的最大值法从匹配度矩阵中获得关联结果;将关联结果插入到已匹配账号对集合,迭代执行前述3个步骤,直到某社交网络中所有账号都完成匹配或所有剩余未匹配账号对的匹配度为0。本发明方法提高了在跨社交网络用户账号关联中的关联准确率。
Description
技术领域
本发明涉及OSN用户账号关联领域,特别是一种基于度惩罚的迭代式跨社交网络用户账号关联方法。
背景技术
随着互联网技术的飞速发展,微博、微信、QQ空间、LinkedIn等在线社交网络(Online social network,OSN)应用迅速融入到人们的日常生活中,并成为主要的社交沟通工具。这些不同的设计网络应用为用户提供了不同的功能体验。例如,人们通常使用LinkedIn来关注与工作相关的内容,在微博上发布简短的文字来表达某刻的感悟,在微信上分享照片。
一个挑战性的任务是对不同OSN中属于相同相同自然人个体的账号进行用户账号关联(User account linkage,UAL)。当前,没有一个OSN应用可以完全替代所有类似的相关产品。因此,用户需要在不同OSN上注册帐户来使用这些应用。为了对个人隐私进行保护达到匿名效果,用户注册不同OSN账号时,可能会使用不同的用户名、头像和自我介绍。这样,用户就可以根据自己的个人喜好,自由、从容地使用互联网聊天、交友,并在不同OSN上分享信息。然而,匿名也在一定程度上对社会造成了危害。罪犯可以在OSN应用程序上注册大量不同的账号,用于从事非法活动,如散布谣言、传播病毒链接、诱导财务欺诈等。研究不同OSN用户账号的关联方法,可以建立网络罪犯违法犯罪的模式,模拟他们的网络行为,锁定他们的地理位置,甚至确定他们的真实身份,从而有效地对他们进行打击。
此外,对不同OSN用户账号的关联方法展开研究还有许多其他的好处。例如,可以帮助网站持有者研究用户行为,分析用户的兴趣,进而分析影响用户购买决策的因素。此外,构建一个集成的环境,OSN用户可以与来自不同OSN的虚拟联系人保持同步。
当前,主要有三种方法用于实现不同OSN中用户账号的关联,分别是基于用户档案的方法、基于用户发布内容的方法以及基于用户关系的方法。因用户在不同社交网络上可能空缺属性信息、有意识地错误填写相关信息等,基于用户档案的方法往往难以准确进行关联;基于用户发布内容的方法因用户行为模式不同,存在极大的数据稀疏性。基于用户关系的方法数据容易获取、不存在匿名性,且不同用户存在各自独特的朋友圈等优势,本发明关注于通过用户在OSN中的用户关系实现跨不同OSN的用户账号关联。
许多现实世界的OSN都表现出无标度属性,它们的度分布遵循幂律分布。共同匹配邻居的数量及其度属性对不同OSN中两个账号的匹配度有不同影响,可以用于跨OSN的用户账号关联。
发明内容
本发明所要解决的技术问题是提供一种基于度惩罚的迭代式跨社交网络用户账号关联方法,聚焦于OSN用户关系的无标度特性,基于度惩罚原则迭代地进行跨社交网络用户账号关联,提高关联准确率。
为解决上述技术问题,本发明采用的技术方案是:
一种基于度惩罚的迭代式跨社交网络用户账号关联方法,包括以下步骤:
步骤1:通过已匹配的用户账号对及这些账号对在不同社交网络上的用户关系,利用度惩罚原则计算不同社交网络中未匹配账号之间的匹配度;
所述度惩罚原则的计算公式为:
步骤2:计算所有未匹配账号的匹配度
1)通过社交网络中账号之间的好友关系,构建不同社交网络的邻接矩阵;邻接矩阵的行和列是社交网络中的账号,某元素的值为0表示行和列对应的账号之间没有好友关系,值为1表示行和列对应的账号之间有好友关系;
2)分别按照未匹配账号-已匹配账号、已匹配账号-未匹配账号关系,提取两个社交网络邻接矩阵的子矩阵;在提取子矩阵的过程中,社交网络α中已匹配账号的顺序需要与社交网络β中已匹配账号的顺序一致;
3)按照与不同社交网络邻接矩阵子矩阵相对应的关系,分别构建不同社交网络的度惩罚矩阵,然后将不同社交网络的邻接矩阵子矩阵与其度惩罚矩阵进行哈达玛乘积,不同社交网络得到的结果再进行内积运算,得到所有未匹配账号对的匹配度矩阵;
步骤3:使用修正的最大值法从匹配度矩阵中获得关联结果,具体采用以下方式进行匹配:
其中,1(·)是指示函数,当括号内条件为真时,输出结果为1,否则输出结果为0;max(·)是最大值函数;ψα和ψβ分别是社交网络α和β的已匹配账号构成的集合;δ是一个控制参数,取值范围是[0,1];R为不同OSN所有未匹配账号间的匹配度;
步骤4:将关联结果插入到已匹配账号对集合,再迭代执行上述步骤1至步骤3,直到某社交网络中所有账号都完成匹配或所有剩余未匹配账号对的匹配度为0。
与现有技术相比,本发明的有益效果是:
1)提出了一种度惩罚原则来计算不同OSN间属于同一自然人的未匹配节点之间的匹配度。在现实世界中,人的朋友圈关系高度个性化。因此,如果两个未匹配账号的共同匹配邻居越多,匹配度将越大;同时,如果某共同匹配邻居相连的账号越少,其对与之相连的未匹配账号间的匹配度的贡献越大。本发明提出的度罚原则利通过未匹配账号对共同匹配邻居的度的对数的倒数之和来计算两个未匹配账号之间的匹配度,有效地平衡了上述两种情况。
2)设计了一种子矩阵提取与对应相乘的方法,高效、快速地得到不同OSN间所有未匹配账号间的匹配度。
3)采用一种迭代式的匹配方法,将关联结果插入到已匹配账号对集合,匹配流程迭代地进行执行,直到某社交网络中所有账号都完成匹配或所有剩余未匹配账号对的匹配度为0。
附图说明
图1是不同OSN间的匹配账号、未匹配账号关联关系示意图。
图2是本发明关联方法的匹配流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图2所示,本发明基于度惩罚的迭代式跨社交网络用户账号关联方法,包括度惩罚原则、计算所有未匹配节点的匹配度、挑选匹配的账号配对、迭代获取更多配对,具体如下:
一、通过度惩罚原则计算匹配度
大量的自然网络或人工网络具有某些共同的拓扑特征,如小世界网络特性、无标度特性等。无标度特性指的是具有该特征的网络的度分布服从幂律分布。Delicious、Flickr、Twitter和YouTube等社交网络都具有这一特性。这意味着存在少部分度大的账号,以及大部分度小的账号。不同OSN中两个未匹配账号间的共同匹配邻居的度对判别这两个未匹配账号是否属于同一自然人个体有影响。例如,如果某个人只有一个,他在不同OSN中都添加了一个账号为好友,那么有非常大的可能,他在不同OSN上添加的账号属于同一自然人个体也就是他唯一的朋友。相反,如果一个人的朋友非常多,如果只根据他的好友关系,则很难判定哪些账号属于同一自然人。
通过已匹配的用户账号对及这些账号对在不同社交网络上的用户关系,利用度惩罚原则计算不同社交网络中未匹配账号之间的匹配度,度惩罚原则的计算公式为:
其中,rij表示社交网络α中的未匹配账号与社交网络β中的未匹配账号间的匹配度,Φ表示所有已匹配账号对构成的集合,Γ(·)表示某账号的邻居(即存在网络关系的账号)构成的集合,k表示某账号的度。当k=0时,log-1(k)没有意义,因此,使用了拉普拉斯平滑,对度进行了加1处理。
通过上述公式,如果两个未匹配账号的共同匹配邻居越多,rij将越大;同时,如果某共同匹配邻居相连的账号越少,rij将越小。
二、计算所有未匹配账号的匹配度
通过度惩罚原则,可以计算不同OSN中任意两未匹配账号之间的匹配度。然而,逐一计算不同OSN中两两未匹配账号之间的匹配度效率过于低下。因此,提出一种矩阵运算方法,可以直接快速求得不同OSN中所有未匹配账号之间的匹配度,得到所有未匹配账号对的匹配度矩阵。
使用矩阵乘法快速得到所有不同OSN未匹配账号间的匹配度矩阵时:
1)首先通过社交网络中账号之间的好友关系,构建不同社交网络的邻接矩阵。邻接矩阵的行和列是社交网络中的账号,某元素的值为0表示行和列对应的账号之间没有好友关系,值为1表示行和列对应的账号之间有好友关系。社交网络中的好友关系有可能是有向的,例如微博中账号vi可以关注账号vj,账号vi也可以被账号vj关注;也有可能是无向的,例如微信中,账号vi添加账号vj并通过验证后,就成为了好友。本步骤中构建的邻接矩阵,用无向形式进行表示。
2)分别按照未匹配账号-已匹配账号、已匹配账号-未匹配账号关系,提取两个社交网络邻接矩阵的子矩阵。在提取子矩阵的过程中,社交网络α中已匹配账号的顺序需要与社交网络β中已匹配账号的顺序一致,后续矩阵乘法的结果才能反映出不同社交网络未匹配账号间的关系。
3)按照与不同社交网络邻接矩阵子矩阵相对应的关系,分别构建不同社交网络的度惩罚矩阵,然后将不同社交网络的邻接矩阵子矩阵与其度惩罚矩阵进行哈达玛乘积,不同社交网络得到的结果再进行内积运算,得到所有未匹配账号对的匹配度矩阵。
具体为:
用eij表示某个OSN中两个账号之间的用户关系,如果两个账号存在关系,则eij=1;否则,eij=0。对不同OSN中未匹配账号对如果已匹配账号对是它们的共同匹配邻居,则与均等于1,由此,如果已匹配账号对不是它们的共同匹配邻居,则或将等于1,由此,或由此,公式(2)可以替换为:
用向量形式,公式(4)可以表示为:
其中,n α和n β分别为社交网络α和β的未匹配账号的数目。
公式(7)中,因此,Hα是扩展nα-n份形成的矩阵。同理,Hβ是扩展nβ-n份形成的矩阵。Eα和Eβ是社交网络α和β的邻接矩阵按照未匹配账号-已匹配账号、已匹配账号-未匹配账号提取的子矩阵,其中已匹配账号的顺序保持一致。
综上可以通过公式(7)当中的矩阵乘法,快速有效获得所有未匹配账号对的匹配度矩阵。
三、挑选匹配的账号配对
得到所有未匹配账号对的匹配度矩阵后,需要通过匹配度矩阵挑选满足条件的未匹配账号对成为匹配账号对。匹配度值越大,矩阵元素行和列对应的账号对属于同一自然人个体的可能性越大。一种可行的方法是选择矩阵中最大值所在位置对应的账号对为匹配账号对。但是,该方法能够匹配出的账号对过于有限。基于此,使用如下方式进行匹配:
其中,1(·)是指示函数,当括号内条件为真时,输出结果为1,否则输出结果为0;max(·)是最大值函数;ψα和ψβ分别是社交网络α和β的已匹配账号构成的集合;δ是一个控制参数,取值范围是[0,1]。
先找到匹配度矩阵中的最大值(记为max(R)),然后将不同社交网络未匹配账号之间匹配度大于δ·max(R)(0≤δ≤1)的账号对作为属于同一自然人的账号匹配对。所有的未匹配账号只与另一个社交网络中的一个账号进行匹配,不会存在一个账号与多个另一设计网络中的账号同属一个自然人的情况。
四、迭代获取更多配对
通过步骤一至步骤四,可以得到一定数目的匹配账号对,但匹配数目比较有限。因此,将上述步骤得到的关联结果插入到已匹配账号对集合,然后匹配流程迭代地进行执行,直到某社交网络中所有账号都完成匹配或所有剩余未匹配账号对的匹配度为0。
Claims (1)
1.一种基于度惩罚的迭代式跨社交网络用户账号关联方法,其特征在于,包括以下步骤:
步骤1:通过已匹配的用户账号对及这些账号对在不同社交网络上的用户关系,利用度惩罚原则计算不同社交网络中未匹配账号之间的匹配度;
所述度惩罚原则的计算公式为:
步骤2:计算所有未匹配账号的匹配度
1)通过社交网络中账号之间的好友关系,构建不同社交网络的邻接矩阵;邻接矩阵的行和列是社交网络中的账号,某元素的值为0表示行和列对应的账号之间没有好友关系,值为1表示行和列对应的账号之间有好友关系;
2)分别按照未匹配账号-已匹配账号、已匹配账号-未匹配账号关系,提取两个社交网络邻接矩阵的子矩阵;在提取子矩阵的过程中,社交网络α中已匹配账号的顺序需要与社交网络β中已匹配账号的顺序一致;
3)按照与不同社交网络邻接矩阵子矩阵相对应的关系,分别构建不同社交网络的度惩罚矩阵,然后将不同社交网络的邻接矩阵子矩阵与其度惩罚矩阵进行哈达玛乘积,不同社交网络得到的结果再进行内积运算,得到所有未匹配账号对的匹配度矩阵;
步骤3:使用修正的最大值法从匹配度矩阵中获得关联结果,具体采用以下方式进行匹配:
其中,1(·)是指示函数,当括号内条件为真时,输出结果为1,否则输出结果为0;max(·)是最大值函数;ψa和ψβ分别是社交网络α和β的已匹配账号构成的集合;δ是一个控制参数,取值范围是[0,1];R为不同OSN所有未匹配账号间的匹配度;
步骤4:将关联结果插入到已匹配账号对集合,再迭代执行上述步骤1至步骤3,直到某社交网络中所有账号都完成匹配或所有剩余未匹配账号对的匹配度为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911390821.XA CN111090814B (zh) | 2019-12-30 | 2019-12-30 | 基于度惩罚的迭代式跨社交网络用户账号关联方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911390821.XA CN111090814B (zh) | 2019-12-30 | 2019-12-30 | 基于度惩罚的迭代式跨社交网络用户账号关联方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090814A CN111090814A (zh) | 2020-05-01 |
CN111090814B true CN111090814B (zh) | 2021-02-09 |
Family
ID=70397565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911390821.XA Active CN111090814B (zh) | 2019-12-30 | 2019-12-30 | 基于度惩罚的迭代式跨社交网络用户账号关联方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090814B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012178130A3 (en) * | 2011-06-24 | 2013-05-02 | Monster Worldwide, Inc. | Social match platform apparatuses, methods and systems |
CN105741175A (zh) * | 2016-01-27 | 2016-07-06 | 电子科技大学 | 一种对在线社交网络中账户进行关联的方法 |
CN107480714A (zh) * | 2017-08-09 | 2017-12-15 | 东北大学 | 基于全视角特征的跨社交网络用户识别方法 |
CN110489567A (zh) * | 2019-08-26 | 2019-11-22 | 重庆邮电大学 | 一种基于跨网络特征映射的节点信息获取方法及其装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8214301B2 (en) * | 2009-09-25 | 2012-07-03 | Microsoft Corporation | Social network mapping |
-
2019
- 2019-12-30 CN CN201911390821.XA patent/CN111090814B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012178130A3 (en) * | 2011-06-24 | 2013-05-02 | Monster Worldwide, Inc. | Social match platform apparatuses, methods and systems |
CN105741175A (zh) * | 2016-01-27 | 2016-07-06 | 电子科技大学 | 一种对在线社交网络中账户进行关联的方法 |
CN107480714A (zh) * | 2017-08-09 | 2017-12-15 | 东北大学 | 基于全视角特征的跨社交网络用户识别方法 |
CN110489567A (zh) * | 2019-08-26 | 2019-11-22 | 重庆邮电大学 | 一种基于跨网络特征映射的节点信息获取方法及其装置 |
Non-Patent Citations (2)
Title |
---|
Community-en-hanced de-anonymization of online social networks;Nilizadeh S,Kapadia A,Ahn Y Y;《Proceedings of the 2014 acm Sigsac Conference on Com-》;20141231;537-548 * |
基于带权超图的跨网络用户身份识别方法;徐 乾 等;《计算机应用》;20171231;第37卷(第12期);3435-3441 * |
Also Published As
Publication number | Publication date |
---|---|
CN111090814A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Evolutionary dynamics of information diffusion over social networks | |
Jiang et al. | Graphical evolutionary game for information diffusion over social networks | |
CN105247507B (zh) | 用于确定品牌的影响力得分的方法、系统和存储介质 | |
CN106886518B (zh) | 一种微博账号分类的方法 | |
US11361045B2 (en) | Method, apparatus, and computer-readable storage medium for grouping social network nodes | |
Topirceanu et al. | Weighted betweenness preferential attachment: A new mechanism explaining social network formation and evolution | |
CN108985954B (zh) | 一种建立各标识的关联关系的方法以及相关设备 | |
Liu et al. | Fa-gnn: Filter and augment graph neural networks for account classification in ethereum | |
CN110162692B (zh) | 用户标签确定方法、装置、计算机设备和存储介质 | |
CN112765364A (zh) | 群聊会话排序方法、装置、存储介质和电子设备 | |
CN104035978B (zh) | 社团发现方法及系统 | |
CN110502701B (zh) | 引入注意力机制的好友推荐方法、系统和存储介质 | |
Bao et al. | Privacy-preserving collaborative filtering algorithm based on local differential privacy | |
Chen et al. | Measurement and analysis of tips in foursquare | |
CN113409157B (zh) | 一种跨社交网络用户对齐方法以及装置 | |
CN111090814B (zh) | 基于度惩罚的迭代式跨社交网络用户账号关联方法 | |
Chen et al. | Community-based scholar recommendation modeling in academic social network sites | |
Dey et al. | Information spreading in Online Social Networks: A case study on Twitter network | |
Demirtas | Generating bivariate uniform data with a full range of correlations and connections to bivariate binary data | |
CN105488038B (zh) | 通信应用的个性化信息匹配方法及装置 | |
Fan et al. | Overlapping community structure detection in multi-online social networks | |
Kumar et al. | Improving attribute inference attack using link prediction in online social networks | |
Popereshnyak et al. | Tools and methods for intersubjective relationships in cyberspace forecasting | |
Lee et al. | Analysis of clustering coefficients of online social networks by duplication models | |
Jiang et al. | Evolutionary information diffusion over social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |