CN112836139A - 融合用户特征和嵌入学习的跨社交网络用户身份关联方法 - Google Patents

融合用户特征和嵌入学习的跨社交网络用户身份关联方法 Download PDF

Info

Publication number
CN112836139A
CN112836139A CN202110148895.3A CN202110148895A CN112836139A CN 112836139 A CN112836139 A CN 112836139A CN 202110148895 A CN202110148895 A CN 202110148895A CN 112836139 A CN112836139 A CN 112836139A
Authority
CN
China
Prior art keywords
user
smn
pair
social
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110148895.3A
Other languages
English (en)
Other versions
CN112836139B (zh
Inventor
王李冬
安康
张慧熙
胡克用
叶霞
刘军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Qianjiang College of Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianjiang College of Hangzhou Normal University filed Critical Qianjiang College of Hangzhou Normal University
Priority to CN202110148895.3A priority Critical patent/CN112836139B/zh
Publication of CN112836139A publication Critical patent/CN112836139A/zh
Application granted granted Critical
Publication of CN112836139B publication Critical patent/CN112836139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。本发明针对每一个种子用户对根据网络的拓扑结构选出候选用户对;然后获取每个用户的结构嵌入向量,将多层感知机模型作为映射函数;在候选用户对集合中对多种属性通过计算得到属性匹配度;再计算SMNA用户在MLP上的映射向量与SMNB用户的嵌入向量之间的欧式距离作为朋友匹配度;最后,综合属性匹配度和朋友匹配度,在候选配对用户对中选择匹配分值最大的用户对作为匹配用户对,并将新的配对用户对作为种子用户对迭代运行。本发明可以根据少量标注的用户对数据,找出特定的跨社交网络范围内的所有可能的关联用户对,对商业上的跨社交网络的应用起着至关重要的作用。

Description

融合用户特征和嵌入学习的跨社交网络用户身份关联方法
技术领域
本发明涉及社交网络的用户关系挖掘领域。尤其是涉及一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。
背景技术
自媒体时代越来越多的用户开始习惯在社交网络(Social Media Network,SMN)上实现日常的互动和信息的获取。现今,社交网络个数已达上百个,且种类繁多,典型的如校园类的人人网、开心网,学习类的知乎网等,综合类的如MySpace、Twitter和Facebook等。人们为了享受不同网站提供的服务往往需要注册为该网站的用户。普通用户拥有多个不同社交网站的帐号是较普遍的情况。用户可以在Foursquare上用手机与别人分享地理位置信息进行交流,也可以在MySpace上交友、分享个人信息并进行即时通讯。每个用户若在不同的社交网络注册,将在不同的社交网站包含其个人信息(如年龄,工作单位,毕业院校等等),以及发表的文本内容,发布的视频、图像等多媒体信息,以及在自己感兴趣内容下的评论、转发等。对这些信息进行整合、分析,将构成用户完整的个人画像。
现有的社交网络与社交网络之间由于功能不同,因此往往是相互独立的,而且针对同一用户在不同网络上的注册信息缺乏有效的管理平台进行统一管理。为了分析某用户甚至群体用户在社交网络上的行为,获取用户的完整图像(profile),需要整合用户在不同社交网络上的数据,其突破口在于跨社交平台的用户身份匹配,即识别用户在多个社交网络上的帐号。跨社交平台的身份匹配对商业上的信息服务推送、好友推荐以及网络安全治理有极其重要的意义。
同一用户在不同社交网络注册时往往会填报相同或相似的属性信息,如相同的用户名,相同的性别、生日等信息。这些信息为跨社交网络的身份匹配提供了一定的表面特征条件。但是,表面特征信息往往存在稀疏性、内容缺失以及部分属性与事实不符等特征,因此单纯依靠表征特征会提升匹配的错误率。此外,现阶段的社交网络都具备大数据特点,现有的监督式学习方法往往需要大量的标注数据集,而庞大的标注数据集在现有的条件下很难获取,这就需要用小部分的标注数据集进行训练。
发明内容
本发明的目的是克服现有技术的不足,提供一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。
本发明所采用的技术方案包括以下步骤:
步骤1.给定社交网络SMNA和社交网络SMNB,并通过人工标注获取少量种子用户对集合MPprior
步骤2.利用用户的连接关系使用网络嵌入方法学习得到社交网络SMNA和社交网络SMNB中每个节点的结构嵌入向量,利用种子用户对集合MPprior训练多层感知机模型,作为两个社交网络间节点的结构嵌入向量空间的映射函数;
步骤3.从种子用户对集合MPprior中随机选取一对种子用户c,利用该对种子用户c从两个社交网络中选取候选配对用户对集合;
步骤4.针对候选配对用户对集合中的每对候选配对用户对,利用用户名、毕业院校和地理位置以及个人简介的特征,通过Levenshtein距离和简单字符串匹配得到候选配对用户对的用户属性匹配度;
步骤5.针对候选配对用户对集合中的每对候选配对用户对,根据训练好的多层感知机模型,将社交网络SMNA用户的嵌入特征空间映射到社交网络SMNB用户的嵌入特征空间,再计算社交网络SMNA用户的映射向量与社交网络SMNB用户的嵌入向量之间的欧式距离作为两用户的朋友匹配度;
步骤6.利用用户属性匹配度和朋友匹配度的匹配准则得到匹配用户对,并将匹配用户对加入到匹配用户对集合MP中;
步骤7.将步骤3中选取的一对种子用户c从种子用户对集合MPprior中删除,并将匹配用户对加入种子用户对集合MPprior,返回步骤3,直到种子用户对集合MPprior为空。
进一步,所述的步骤1具体实现如下:
1-1.给定的社交网络SMNA和社交网络SMNB,分别表示为SMNA={UA,EA},SMNB={UB,EB};UA表示社交网络SMNA的用户实体集合,EA为社交网络SMNA的用户关系,UB表示社交网络SMNB的用户实体集合,EB为社交网络SMNB的用户关系,UAi代表用户实体集合UA中的第i个用户,UBj代表用户实体集合UB中的第j个用户;若用户UAi和用户UBj在现实生活中属于同一个体,则(UAi,UBj)∈MP,MP为匹配用户对集合;
1-2.通过人工标注段获取少量种子用户对集合MPprior,其中种子用户对集合MPprior是已知的匹配用户对。
进一步,所述的步骤2的具体实现过程如下:
2-1.针对社交网络SMNA中用户的连接关系对社交网络SMNA进行嵌入学习;给定节点UAj和节点UAi的嵌入向量分别为zAj和zAi,按照下式计算社交网络SMNA中节点UAj和节点UAi间存在边(UAi,UAj)的概率为:
Figure BDA0002931391650000031
基于此,社交网络SMNA嵌入学习的目标函数:
Figure BDA0002931391650000032
其中,σ(x)代表sigmoid函数,EA为社交网络SMNA中用户关系;
2-2.针对社交网络SMNB中用户的连接关系对社交网络SMNB进行嵌入学习;给定节点UBi和UBj的嵌入向量分别为zBi和zBj,按照下式计算社交网络SMNB中节点UBi和UBj间存在边的概率为:
Figure BDA0002931391650000041
基于此,社交网络SMNB嵌入学习的目标函数为:
Figure BDA0002931391650000042
其中,EB为社交网络SMNB中边的用户关系;;
2-3.综合两个网络的目标函数得到网络嵌入学习的最终目标函数:
Figure BDA0002931391650000043
为了学习到嵌入向量,需要对最终目标函数O进行最小化;采用随机梯度下降法分别对O1和O2进行最小化求解;同时采用负采样方法解决目标函数求解过程中的耗时较大问题,对于每条边(UAi,UAj),重新根据下式计算logp(UAj,UAi):
Figure BDA0002931391650000044
其中,
Figure BDA0002931391650000045
对边(UAi,UAj)建模,
Figure BDA0002931391650000046
对负采样边(UAi,UAk)建模,N代表负采样边的个数,设定N=5;针对负采样边的生成,即在选取了UAi后,如何选取另外一个节点形成负采样边,采用目前通用的负采样方法确定噪声分布pn(U)如下:
Figure BDA0002931391650000047
其中,dU代表节点U的度;基于噪声分布pn(U),采样N个节点与节点UAi构成N条负采样边;按照同样方法计算logp(UBj,UBi):
Figure BDA0002931391650000048
2-4.学习到所有节点的嵌入向量后,根据种子用户对的嵌入向量,学习SMNA和SMNB中节点的结构嵌入向量之间的映射函数
Figure BDA0002931391650000051
给定zAi∈ZA,映射函数
Figure BDA0002931391650000052
将向量zAi映射到向量空间ZB;其中,θ代表映射函数的参数集合;利用多层感知器模型构建非线性映射函数
Figure BDA0002931391650000053
获得向量空间ZA到向量空间ZB的映射关系;设计的多层感知器模型包括输入层、隐藏层和输出层;隐藏层单元个数设定为2*d,d为输入层个数,即向量zAi的维度;将种子用户对的结构嵌入向量作为训练数据,对MLP模型进行训练。
进一步,所述的步骤3的具体实现过程如下:
设UAi和UBj分别为两个社交网络中的先验种子用户,即UAi和UBj代表不同网络中的同一用户;如果满足UAk∈friend(UAi),UBl∈friend(UBj),则(UAk,UBl)属于候选配对用户对CMP,其中,friend(UAi)={UAj|(UAi,UAj)∈EA}。
进一步,所述的步骤4具体实现过程如下:
4-1.针对用户名、个人简介的信息,将其看作字符串并采用Levenshtein距离进行度量;将两个用户名U1和U2之间的用户名相似度Simu(U1,U2)按照下式进行计算:
Figure BDA0002931391650000054
其中,lev(U1,U2)表示用户U1和U2之间的Levenshtein距离,l(U1)、l(U2)分别表示用户名U1和U2的字符数;
4-2.针对毕业院校和地理位置的信息,若相同的院校和地理位置则匹配度为1,否则为0。
进一步,所述的步骤5具体实现过程如下:
5-1.针对候选配对用户对中的每对用户对,根据训练好的MLP模型,通过映射函数
Figure BDA0002931391650000055
将向量zAi映射到向量空间ZB,再计算
Figure BDA0002931391650000056
和向量zBj之间的距离得到用户UAi和用户UBj的用户匹配度:
Figure BDA0002931391650000061
进一步,所述的步骤6具体实现过程如下:
针对候选配对用户对集合中的候选配对用户对,计算每对候选配对用户对中两用户的匹配分值,选取匹配分值最大的候选配对用户对为匹配用户对,并将其加入到集合MP中;匹配分值Mat_score计算如下:
Mat_score(UAi,UBj)=(1-α)Rk(UAi,UBj)+αf(F_Matchij) (10)
Figure BDA0002931391650000062
其中,Matchk(UAi,UBj)表示为用户UAi和用户UBj在第k种匹配因子上的匹配度,1≤k≤|K|,k表示规则使用的匹配因子种类标记,K表示所有的属性匹配因子的种类集合,|K|代表匹配因子种类的总个数,参数α用于平衡属性匹配值和朋友匹配度,wk代表第k种匹配因子的权重;根据不同的数据集调整α和wk的值。
本发明有益效果如下:
本发明的关注点在于如何通过有效融合网络嵌入和用户表征特征实现两个社交平台上的用户身份关联,并解决上述技术问题。本发明根据少量标注的用户对数据,计算出特定的跨社交网络范围内的所有关联用户对,对商业上的跨社交网络的应用起着至关重要的作用,比如多社交网络的用户行为分析、跨社交网络的信息服务推送、跨平台的好友推荐以及政府机关、企事业单位的网络安全治理等。
附图说明
图1为融合用户表面特征和网络嵌入的跨社交网络用户身份关联方法流程图;
图2为两个社交网络的匹配用户示例图;
图3为候选配对用户对生成示例图;
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明主要包含候选用户对选取和匹配过程两部分。前者主要根据网络的拓扑结构选出有较大可能成为匹配用户对的候选用户对。后者在候选用户对集合中进一步选择,利用字符串匹配等手段计算用户属性匹配度,并利用网络嵌入学习算法计算朋友匹配度,最后通过融合用户属性匹配度和朋友匹配度的判定准则对匹配因子进行比较,以得到最终匹配用户对。上述两个过程相互迭代,直到种子用户集为空。具体包括以下步骤:
步骤1.给定社交网络SMNA和社交网络SMNB,并通过人工标注获取少量种子用户对集合MPprior
步骤2.利用用户的连接关系使用网络嵌入方法学习得到社交网络SMNA和社交网络SMNB中每个节点的结构嵌入向量,利用种子用户对集合MPprior训练多层感知机模型,作为两个社交网络间节点的结构嵌入向量空间的映射函数;
步骤3.从种子用户对集合MPprior中随机选取一对种子用户c,利用该对种子用户c从两个社交网络中选取候选配对用户对集合;
步骤4.针对候选配对用户对集合中的每对候选配对用户对,利用用户名、毕业院校和地理位置以及个人简介的特征,通过Levenshtein距离和简单字符串匹配得到候选配对用户对的用户属性匹配度;
步骤5.针对候选配对用户对集合中的每对候选配对用户对,根据训练好的多层感知机模型,将社交网络SMNA用户的嵌入特征空间映射到社交网络SMNB用户的嵌入特征空间,再计算社交网络SMNA用户的映射向量与社交网络SMNB用户的嵌入向量之间的欧式距离作为两用户的朋友匹配度;
步骤6.利用用户属性匹配度和朋友匹配度的匹配准则得到匹配用户对,并将匹配用户对加入到匹配用户对集合MP中;
步骤7.将步骤3中选取的一对种子用户c从种子用户对集合MPprior中删除,并将匹配用户对加入种子用户对集合MPprior,返回步骤3,直到种子用户对集合MPprior为空。
步骤1具体实现如下:
1-1.给定两个社交网络,分别表示为SMNA={UA,EA},SMNB={UB,EB}。UA表示网络SMNA的用户实体集合,EA为网络SMNA的用户关系(相互关注或连接关系),UB表示网络SMNB的用户实体集合,UAi代表用户集合UA中的第i个用户,UBj代表用户集合UB中的第j个用户。若用户UAi和用户UBj在现实生活中属于同一个体,则(UAi,UBj)∈MP,MP为配对用户集合。
本发明提供了图2所示的例子,图中虚线连接的不同社交网络中的两个节点构成了匹配用户对,集合{(2,7),(1,6),(4,0)}构成了匹配用户对集合MP。
1-2.通过人工标注手段获取少量种子用户对集合MPprior(已知的匹配用户对)。
本发明爬取了新浪微博用户数据和人人网用户数据,构成了三个网络对,具体信息见下表。爬取的数据包括用户信息(构成网络的节点)和用户之间的关注(构成网络的边),用户数据的属性信息包括用户名、毕业院校、所在城市以及个人简介。针对这三个网络对通过人工手段标注了152、143和167对配对用户对。
Figure BDA0002931391650000081
步骤2的具体实现过程如下:
2-1.针对社交网络SMNA中用户的连接关系(即朋友关系)对社交网络SMNA进行嵌入学习。给定节点UAj和节点UAi的嵌入向量zAj和zAi,可以按照下式计算社交网络SMNA中节点UAj和节点UAi间存在边的概率为:
Figure BDA0002931391650000091
其中,σ(x)代表sigmoid函数。基于此,社交网络SMNA嵌入学习的目标函数计算如下:
Figure BDA0002931391650000092
2-2.针对社交网络SMNB中用户的连接关系(即朋友关系)对社交网络SMNB进行嵌入学习。给定节点UBi和UBj的嵌入向量zBi和zBj,按照下式计算社交网络SMNB中节点UBi和UBj间存在边的概率为:
Figure BDA0002931391650000093
基于此,社交网络SMNB嵌入学习的目标函数为:
Figure BDA0002931391650000094
2-3.综合两个网络的目标函数得到网络嵌入学习的最终目标函数:
Figure BDA0002931391650000095
为了学习到嵌入向量,需要对目标函数O进行最小化。本发明采用随机梯度下降法分别对O1和O2进行最小化求解。同时,采用负采样方法(Negative Sampling)解决目标函数求解过程中的耗时较大问题,对于每条边(UAi,UAj),重新根据下式计算logp(UAj,UAi):
Figure BDA0002931391650000096
其中,
Figure BDA0002931391650000101
对可观察边进行建模,N代表负采样边的个数,
Figure BDA0002931391650000102
代表节点的度。根据经验值设定,本发明选取N=5,
Figure BDA0002931391650000103
按照同样方法计算logp(UBj,UBi):
Figure BDA0002931391650000104
2-4.学习到所有节点的嵌入向量之后,再根据种子配对用户对的嵌入向量,学习SMNA和SMNB中节点的结构嵌入向量之间的映射函数
Figure BDA0002931391650000105
给定zAi∈ZA,映射函数
Figure BDA0002931391650000106
将向量zAi映射到空间ZB。其中,θ代表映射函数的参数集合。本发明利用多层感知器模型(MLP)构建非线性映射函数
Figure BDA0002931391650000107
获得向量空间ZA到向量空间ZB的映射关系。设计的MLP模型包括输入层,隐藏层和输出层,隐藏层单元个数设定为2*d(d为输入层个数,即向量zAi的维度)。将种子配对用户的结构嵌入向量作为训练数据,对MLP模型进行训练。
步骤3的具体实现过程如下:
假设UAi和UBj为两个社交网络中的先验种子用户(即代表同一用户),如果满足UAk∈friend(UAi),UBl∈friend(UBj),则(UAk,UBl)属于候选用户对CMP,其中,friend(UAi)={UAj|(UAi,UAj)∈EA}。
本发明提供了图3所示的例子。图3描述了两个社交网络SMNA和SMNB,两个网络中的虚线表示先验种子点,即存在于两个社交网络中的同一用户。根据候选用户选取规则,从种子点出发,得到(Lisa,Ben)×(Lisa,Ray,Cathy,Violet)为候选用户对,其中,×表示笛卡儿积。
步骤4具体实现过程如下:
4-1.针对用户名信息和个人简介等文本信息,将其看作字符串并采用Levenshtein距离进行度量。Levenshtein距离作为计算两个字符串间的差异程度的字符串度量,曾被多次应用于用户名的差异度量并取得较好的效果。将两个用户名U1和U2之间的用户名相似度Simu(U1,U2)按照下式进行计算:
Figure BDA0002931391650000111
其中,lev(U1,U2)表示用户U1和U2之间的Levenshtein距离,l(ui)表示ui的字符数。
例如,用户名“杭州人”和“杭州人在北京”的相似度为0.5。
4-2.针对毕业院校和地理位置信息,若相同的院校和地理位置则匹配度为1,否则为0。
步骤5具体实现过程如下:
针对候选配对用户对中的每对用户对,根据训练好的MLP模型,通过计算
Figure BDA0002931391650000112
将向量zAi映射到空间ZB,再计算
Figure BDA0002931391650000113
和zBj之间的欧氏距离得到用户UAi和用户UBj的用户匹配度:
Figure BDA0002931391650000114
步骤6具体实现过程如下:
针对每一个候选配对中的两用户计算匹配分值,选取匹配分值最大的用户为匹配用户对,并将其加入到集合MP中。匹配分值Mat_score计算如下:
Mat_score(UAi,UBj)=(1-α)Rk(UAi,UBj)+αf(F_Matchij)
Figure BDA0002931391650000115
其中,Matchk(UAi,UBj)表示为用户UAi和用户UBj在匹配因子k上的匹配度,1≤k≤|K|,k表示规则使用的匹配因子,K表示所有的属性匹配因子集合,|K|代表匹配因子总个数,参数α用于平衡属性匹配值和朋友匹配度,wk代表匹配因子k的权重。本发明可以根据不同的数据集调整α和wk的值。
在步骤6中,本发明以爬取的新浪微博用户集以及人人网用户集为例,针对这三个网络将用户名、毕业院校、地理位置以及个人简介分别设定权重wk为0.3,0.2,0.2,0.3,参数α设为0.5。分别针对三个网络对进行用户身份关联并计算准确率。由于网络对的节点数目量较大,无法准确获取每对网络对的匹配用户对数目,从返回的结果中随机抽取200个用户对计算准确率,最终取得的平均准确率达到75.3%。

Claims (7)

1.融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于包括如下步骤:
步骤1.给定社交网络SMNA和社交网络SMNB,并通过人工标注获取少量种子用户对集合MPprior
步骤2.利用用户的连接关系使用网络嵌入方法学习得到社交网络SMNA和社交网络SMNB中每个节点的结构嵌入向量,利用种子用户对集合MPprior训练多层感知机模型,作为两个社交网络间节点的结构嵌入向量空间的映射函数;
步骤3.从种子用户对集合MPprior中随机选取一对种子用户c,利用该对种子用户c从两个社交网络中选取候选配对用户对集合;
步骤4.针对候选配对用户对集合中的每对候选配对用户对,利用用户名、毕业院校和地理位置以及个人简介的特征,通过Levenshtein距离和简单字符串匹配得到候选配对用户对的用户属性匹配度;
步骤5.针对候选配对用户对集合中的每对候选配对用户对,根据训练好的多层感知机模型,将社交网络SMNA用户的嵌入特征空间映射到社交网络SMNB用户的嵌入特征空间,再计算社交网络SMNA用户的映射向量与社交网络SMNB用户的嵌入向量之间的欧式距离作为两用户的朋友匹配度;
步骤6.利用用户属性匹配度和朋友匹配度的匹配准则得到匹配用户对,并将匹配用户对加入到匹配用户对集合MP中;
步骤7.将步骤3中选取的一对种子用户c从种子用户对集合MPprior中删除,并将匹配用户对加入种子用户对集合MPprior,返回步骤3,直到种子用户对集合MPprior为空。
2.根据权利要求1所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤1具体实现如下:
1-1.给定的社交网络SMNA和社交网络SMNB,分别表示为SMNA={UA,EA},SMNB={UB,EB};UA表示社交网络SMNA的用户实体集合,EA为社交网络SMNA的用户关系,UB表示社交网络SMNB的用户实体集合,EB为社交网络SMNB的用户关系,UAi代表用户实体集合UA中的第i个用户,UBj代表用户实体集合UB中的第j个用户;若用户UAi和用户UBj在现实生活中属于同一个体,则(UAi,UBj)∈MP,MP为匹配用户对集合;
1-2.通过人工标注段获取少量种子用户对集合MPprior,其中种子用户对集合MPprior是已知的匹配用户对。
3.根据权利要求2所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤2的具体实现过程如下:
2-1.针对社交网络SMNA中用户的连接关系对社交网络SMNA进行嵌入学习;给定节点UAj和节点UAi的嵌入向量分别为zAj和zAi,按照下式计算社交网络SMNA中节点UAj和节点UAi间存在边(UAi,UAj)的概率为:
Figure FDA0002931391640000021
基于此,社交网络SMNA嵌入学习的目标函数:
Figure FDA0002931391640000022
其中,σ(x)代表sigmoid函数,EA为社交网络SMNA中用户关系;
2-2.针对社交网络SMNB中用户的连接关系对社交网络SMNB进行嵌入学习;给定节点UBi和UBj的嵌入向量分别为zBi和zBj,按照下式计算社交网络SMNB中节点UBi和UBj间存在边的概率为:
Figure FDA0002931391640000023
基于此,社交网络SMNB嵌入学习的目标函数为:
Figure FDA0002931391640000024
其中,EB为社交网络SMNB中边的用户关系;;
2-3.综合两个网络的目标函数得到网络嵌入学习的最终目标函数:
Figure FDA0002931391640000031
为了学习到嵌入向量,需要对最终目标函数O进行最小化;采用随机梯度下降法分别对O1和O2进行最小化求解;同时采用负采样方法解决目标函数求解过程中的耗时较大问题,对于每条边(UAi,UAj),重新根据下式计算logp(UAj,UAi):
Figure FDA0002931391640000032
其中,
Figure FDA0002931391640000033
对边(UAi,UAj)建模,
Figure FDA0002931391640000034
对负采样边(UAi,UAk)建模,N代表负采样边的个数,设定N=5;针对负采样边的生成,即在选取了UAi后,如何选取另外一个节点形成负采样边,采用目前通用的负采样方法确定噪声分布pn(U)如下:
Figure FDA0002931391640000035
其中,dU代表节点U的度;基于噪声分布pn(U),采样N个节点与节点UAi构成N条负采样边;按照同样方法计算logp(UBj,UBi):
Figure FDA0002931391640000036
2-4.学习到所有节点的嵌入向量后,根据种子用户对的嵌入向量,学习SMNA和SMNB中节点的结构嵌入向量之间的映射函数
Figure FDA0002931391640000037
给定zAi∈ZA,映射函数
Figure FDA0002931391640000038
将向量zAi映射到向量空间ZB;其中,θ代表映射函数的参数集合;利用多层感知器模型构建非线性映射函数
Figure FDA0002931391640000039
获得向量空间ZA到向量空间ZB的映射关系;设计的多层感知器模型包括输入层、隐藏层和输出层;隐藏层单元个数设定为2*d,d为输入层个数,即向量zAi的维度;将种子用户对的结构嵌入向量作为训练数据,对MLP模型进行训练。
4.根据权利要求2或3所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤3的具体实现过程如下:
设UAi和UBj分别为两个社交网络中的先验种子用户,即UAi和UBj代表不同网络中的同一用户;如果满足UAk∈friend(UAi),UBl∈friend(UBj),则(UAk,UBl)属于候选配对用户对CMP,其中,friend(UAi)={UAj|(UAi,UAj)∈EA}。
5.根据权利要求4所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤4具体实现过程如下:
4-1.针对用户名、个人简介的信息,将其看作字符串并采用Levenshtein距离进行度量;将两个用户名U1和U2之间的用户名相似度Simu(U1,U2)按照下式进行计算:
Figure FDA0002931391640000041
其中,lev(U1,U2)表示用户U1和U2之间的Levenshtein距离,l(U1)、l(U2)分别表示用户名U1和U2的字符数;
4-2.针对毕业院校和地理位置的信息,若相同的院校和地理位置则匹配度为1,否则为0。
6.根据权利要求5所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤5具体实现过程如下:
5-1.针对候选配对用户对中的每对用户对,根据训练好的MLP模型,通过映射函数
Figure FDA0002931391640000042
将向量zAi映射到向量空间ZB,再计算
Figure FDA0002931391640000043
和向量zBj之间的距离得到用户UAi和用户UBj的用户匹配度:
Figure FDA0002931391640000044
7.根据权利要求6所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤6具体实现过程如下:
针对候选配对用户对集合中的候选配对用户对,计算每对候选配对用户对中两用户的匹配分值,选取匹配分值最大的候选配对用户对为匹配用户对,并将其加入到集合MP中;匹配分值Mat_score计算如下:
Mat_score(UAi,UBj)=(1-α)Rk(UAi,UBj)+αf(F_Matchij) (10)
Figure FDA0002931391640000051
其中,Matchk(UAi,UBj)表示为用户UAi和用户UBj在第k种匹配因子上的匹配度,1≤k≤|K|,k表示规则使用的匹配因子种类标记,K表示所有的属性匹配因子的种类集合,|K|代表匹配因子种类的总个数,参数α用于平衡属性匹配值和朋友匹配度,wk代表第k种匹配因子的权重;根据不同的数据集调整α和wk的值。
CN202110148895.3A 2021-02-03 2021-02-03 融合用户特征和嵌入学习的跨社交网络用户身份关联方法 Active CN112836139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110148895.3A CN112836139B (zh) 2021-02-03 2021-02-03 融合用户特征和嵌入学习的跨社交网络用户身份关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110148895.3A CN112836139B (zh) 2021-02-03 2021-02-03 融合用户特征和嵌入学习的跨社交网络用户身份关联方法

Publications (2)

Publication Number Publication Date
CN112836139A true CN112836139A (zh) 2021-05-25
CN112836139B CN112836139B (zh) 2022-04-01

Family

ID=75931842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110148895.3A Active CN112836139B (zh) 2021-02-03 2021-02-03 融合用户特征和嵌入学习的跨社交网络用户身份关联方法

Country Status (1)

Country Link
CN (1) CN112836139B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222775A (zh) * 2021-05-28 2021-08-06 北京理工大学 融合多模态信息及权重张量的用户身份关联方法
CN115080871A (zh) * 2022-07-07 2022-09-20 国家计算机网络与信息安全管理中心 一种跨社交网络社交用户对齐方法
CN116091260A (zh) * 2023-04-07 2023-05-09 吕梁学院 一种基于Hub-node节点的跨域实体身份关联方法及系统
CN116776193A (zh) * 2023-05-17 2023-09-19 广州大学 基于注意力机制的跨社交网络虚拟身份关联方法及装置
CN117574177A (zh) * 2024-01-15 2024-02-20 每日互动股份有限公司 一种用于用户扩线的数据处理方法、装置、介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130238600A1 (en) * 2012-03-07 2013-09-12 Cleanport, BV System, Method and Computer Program Product for Normalizing Data Obtained from a Plurality of Social Networks
US8706739B1 (en) * 2012-04-26 2014-04-22 Narus, Inc. Joining user profiles across online social networks
CN110347932A (zh) * 2019-06-04 2019-10-18 中国科学院信息工程研究所 一种基于深度学习的跨网络用户对齐方法
CN110599358A (zh) * 2019-07-10 2019-12-20 杭州师范大学钱江学院 一种基于概率因子图模型的跨社交网络用户身份关联方法
CN111815468A (zh) * 2020-06-04 2020-10-23 哈尔滨工程大学 一种基于用户身份关联的多源社交网络构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130238600A1 (en) * 2012-03-07 2013-09-12 Cleanport, BV System, Method and Computer Program Product for Normalizing Data Obtained from a Plurality of Social Networks
US8706739B1 (en) * 2012-04-26 2014-04-22 Narus, Inc. Joining user profiles across online social networks
CN110347932A (zh) * 2019-06-04 2019-10-18 中国科学院信息工程研究所 一种基于深度学习的跨网络用户对齐方法
CN110599358A (zh) * 2019-07-10 2019-12-20 杭州师范大学钱江学院 一种基于概率因子图模型的跨社交网络用户身份关联方法
CN111815468A (zh) * 2020-06-04 2020-10-23 哈尔滨工程大学 一种基于用户身份关联的多源社交网络构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YIZHUO YANG等: ""A Fusion Information Embedding Method for User Identity Matching across Social Networks"", 《2018 IEEE SMARTWORLD, UBIQUITOUS INTELLIGENCE & COMPUTING, ADVANCED & TRUSTED COMPUTING, SCALABLE COMPUTING & COMMUNICATIONS, CLOUD & BIG DATA COMPUTING, INTERNET OF PEOPLE AND SMART CITY INNOVATIONS》 *
刘奇飞: ""跨社交网络的用户身份关联技术研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 社会科学Ⅰ辑》 *
王李冬等: "基于CLA算法的跨社交平台用户身份匹配", 《计算机应用与软件》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222775A (zh) * 2021-05-28 2021-08-06 北京理工大学 融合多模态信息及权重张量的用户身份关联方法
CN115080871A (zh) * 2022-07-07 2022-09-20 国家计算机网络与信息安全管理中心 一种跨社交网络社交用户对齐方法
CN115080871B (zh) * 2022-07-07 2024-05-17 国家计算机网络与信息安全管理中心 一种跨社交网络社交用户对齐方法
CN116091260A (zh) * 2023-04-07 2023-05-09 吕梁学院 一种基于Hub-node节点的跨域实体身份关联方法及系统
CN116091260B (zh) * 2023-04-07 2023-07-25 吕梁学院 一种基于Hub-node节点的跨域实体身份关联方法及系统
CN116776193A (zh) * 2023-05-17 2023-09-19 广州大学 基于注意力机制的跨社交网络虚拟身份关联方法及装置
CN116776193B (zh) * 2023-05-17 2024-08-06 广州大学 基于注意力机制的跨社交网络虚拟身份关联方法及装置
CN117574177A (zh) * 2024-01-15 2024-02-20 每日互动股份有限公司 一种用于用户扩线的数据处理方法、装置、介质及设备
CN117574177B (zh) * 2024-01-15 2024-04-19 每日互动股份有限公司 一种用于用户扩线的数据处理方法、装置、介质及设备

Also Published As

Publication number Publication date
CN112836139B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN112836139B (zh) 融合用户特征和嵌入学习的跨社交网络用户身份关联方法
US11659050B2 (en) Discovering signature of electronic social networks
Riederer et al. Linking users across domains with location data: Theory and validation
CN109753602B (zh) 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN113139140B (zh) 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法
CN113222775B (zh) 融合多模态信息及权重张量的用户身份关联方法
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN110134883B (zh) 一种异构社交网络位置实体锚链接识别方法
Ju et al. Relationship strength estimation based on Wechat Friends Circle
CN112365007B (zh) 模型参数确定方法、装置、设备及存储介质
CN109885797B (zh) 一种基于多身份空间映射的关系网络构建方法
CN107392392A (zh) 基于深度学习的微博转发预测方法
CN114461943B (zh) 基于深度学习的多源poi语义匹配方法、装置及其存储介质
JP7092194B2 (ja) 情報処理装置、判定方法、及びプログラム
Yuan et al. User naming conventions mapping learning for social network alignment
CN114387005A (zh) 一种基于图分类的套利团伙识别方法
CN110008348A (zh) 结合节点和边进行网络图嵌入的方法和装置
CN117035059A (zh) 一种通信高效的隐私保护推荐系统及方法
CN107181672A (zh) 在位置社交网络中基于时间分布相对熵的好友推荐方法
US20230351153A1 (en) Knowledge graph reasoning model, system, and reasoning method based on bayesian few-shot learning
CN115080871A (zh) 一种跨社交网络社交用户对齐方法
CN110599358B (zh) 一种基于概率因子图模型的跨社交网络用户身份关联方法
Qin et al. A two-stagse approach for social identity linkage based on an enhanced weighted graph model
CN113127696A (zh) 一种提高基于行为的影响力度量准确性方法
Miao et al. Embedding based cross-network user identity association technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230413

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: Hangzhou City, Zhejiang province 310036 Xiasha Higher Education Park forest Street No. 16

Patentee before: HANGZHOU NORMAL UNIVERSITY QIANJIANG College

TR01 Transfer of patent right