CN112836139A - 融合用户特征和嵌入学习的跨社交网络用户身份关联方法 - Google Patents
融合用户特征和嵌入学习的跨社交网络用户身份关联方法 Download PDFInfo
- Publication number
- CN112836139A CN112836139A CN202110148895.3A CN202110148895A CN112836139A CN 112836139 A CN112836139 A CN 112836139A CN 202110148895 A CN202110148895 A CN 202110148895A CN 112836139 A CN112836139 A CN 112836139A
- Authority
- CN
- China
- Prior art keywords
- user
- smn
- pair
- social
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims abstract description 34
- 238000013507 mapping Methods 0.000 claims abstract description 33
- 238000005070 sampling Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 4
- ONCZDRURRATYFI-QTCHDTBASA-N methyl (2z)-2-methoxyimino-2-[2-[[(e)-1-[3-(trifluoromethyl)phenyl]ethylideneamino]oxymethyl]phenyl]acetate Chemical compound CO\N=C(/C(=O)OC)C1=CC=CC=C1CO\N=C(/C)C1=CC=CC(C(F)(F)F)=C1 ONCZDRURRATYFI-QTCHDTBASA-N 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 102100021947 Survival motor neuron protein Human genes 0.000 description 16
- 238000010586 diagram Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。本发明针对每一个种子用户对根据网络的拓扑结构选出候选用户对;然后获取每个用户的结构嵌入向量,将多层感知机模型作为映射函数;在候选用户对集合中对多种属性通过计算得到属性匹配度;再计算SMNA用户在MLP上的映射向量与SMNB用户的嵌入向量之间的欧式距离作为朋友匹配度;最后,综合属性匹配度和朋友匹配度,在候选配对用户对中选择匹配分值最大的用户对作为匹配用户对,并将新的配对用户对作为种子用户对迭代运行。本发明可以根据少量标注的用户对数据,找出特定的跨社交网络范围内的所有可能的关联用户对,对商业上的跨社交网络的应用起着至关重要的作用。
Description
技术领域
本发明涉及社交网络的用户关系挖掘领域。尤其是涉及一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。
背景技术
自媒体时代越来越多的用户开始习惯在社交网络(Social Media Network,SMN)上实现日常的互动和信息的获取。现今,社交网络个数已达上百个,且种类繁多,典型的如校园类的人人网、开心网,学习类的知乎网等,综合类的如MySpace、Twitter和Facebook等。人们为了享受不同网站提供的服务往往需要注册为该网站的用户。普通用户拥有多个不同社交网站的帐号是较普遍的情况。用户可以在Foursquare上用手机与别人分享地理位置信息进行交流,也可以在MySpace上交友、分享个人信息并进行即时通讯。每个用户若在不同的社交网络注册,将在不同的社交网站包含其个人信息(如年龄,工作单位,毕业院校等等),以及发表的文本内容,发布的视频、图像等多媒体信息,以及在自己感兴趣内容下的评论、转发等。对这些信息进行整合、分析,将构成用户完整的个人画像。
现有的社交网络与社交网络之间由于功能不同,因此往往是相互独立的,而且针对同一用户在不同网络上的注册信息缺乏有效的管理平台进行统一管理。为了分析某用户甚至群体用户在社交网络上的行为,获取用户的完整图像(profile),需要整合用户在不同社交网络上的数据,其突破口在于跨社交平台的用户身份匹配,即识别用户在多个社交网络上的帐号。跨社交平台的身份匹配对商业上的信息服务推送、好友推荐以及网络安全治理有极其重要的意义。
同一用户在不同社交网络注册时往往会填报相同或相似的属性信息,如相同的用户名,相同的性别、生日等信息。这些信息为跨社交网络的身份匹配提供了一定的表面特征条件。但是,表面特征信息往往存在稀疏性、内容缺失以及部分属性与事实不符等特征,因此单纯依靠表征特征会提升匹配的错误率。此外,现阶段的社交网络都具备大数据特点,现有的监督式学习方法往往需要大量的标注数据集,而庞大的标注数据集在现有的条件下很难获取,这就需要用小部分的标注数据集进行训练。
发明内容
本发明的目的是克服现有技术的不足,提供一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。
本发明所采用的技术方案包括以下步骤:
步骤1.给定社交网络SMNA和社交网络SMNB,并通过人工标注获取少量种子用户对集合MPprior;
步骤2.利用用户的连接关系使用网络嵌入方法学习得到社交网络SMNA和社交网络SMNB中每个节点的结构嵌入向量,利用种子用户对集合MPprior训练多层感知机模型,作为两个社交网络间节点的结构嵌入向量空间的映射函数;
步骤3.从种子用户对集合MPprior中随机选取一对种子用户c,利用该对种子用户c从两个社交网络中选取候选配对用户对集合;
步骤4.针对候选配对用户对集合中的每对候选配对用户对,利用用户名、毕业院校和地理位置以及个人简介的特征,通过Levenshtein距离和简单字符串匹配得到候选配对用户对的用户属性匹配度;
步骤5.针对候选配对用户对集合中的每对候选配对用户对,根据训练好的多层感知机模型,将社交网络SMNA用户的嵌入特征空间映射到社交网络SMNB用户的嵌入特征空间,再计算社交网络SMNA用户的映射向量与社交网络SMNB用户的嵌入向量之间的欧式距离作为两用户的朋友匹配度;
步骤6.利用用户属性匹配度和朋友匹配度的匹配准则得到匹配用户对,并将匹配用户对加入到匹配用户对集合MP中;
步骤7.将步骤3中选取的一对种子用户c从种子用户对集合MPprior中删除,并将匹配用户对加入种子用户对集合MPprior,返回步骤3,直到种子用户对集合MPprior为空。
进一步,所述的步骤1具体实现如下:
1-1.给定的社交网络SMNA和社交网络SMNB,分别表示为SMNA={UA,EA},SMNB={UB,EB};UA表示社交网络SMNA的用户实体集合,EA为社交网络SMNA的用户关系,UB表示社交网络SMNB的用户实体集合,EB为社交网络SMNB的用户关系,UAi代表用户实体集合UA中的第i个用户,UBj代表用户实体集合UB中的第j个用户;若用户UAi和用户UBj在现实生活中属于同一个体,则(UAi,UBj)∈MP,MP为匹配用户对集合;
1-2.通过人工标注段获取少量种子用户对集合MPprior,其中种子用户对集合MPprior是已知的匹配用户对。
进一步,所述的步骤2的具体实现过程如下:
2-1.针对社交网络SMNA中用户的连接关系对社交网络SMNA进行嵌入学习;给定节点UAj和节点UAi的嵌入向量分别为zAj和zAi,按照下式计算社交网络SMNA中节点UAj和节点UAi间存在边(UAi,UAj)的概率为:
基于此,社交网络SMNA嵌入学习的目标函数:
其中,σ(x)代表sigmoid函数,EA为社交网络SMNA中用户关系;
2-2.针对社交网络SMNB中用户的连接关系对社交网络SMNB进行嵌入学习;给定节点UBi和UBj的嵌入向量分别为zBi和zBj,按照下式计算社交网络SMNB中节点UBi和UBj间存在边的概率为:
基于此,社交网络SMNB嵌入学习的目标函数为:
其中,EB为社交网络SMNB中边的用户关系;;
2-3.综合两个网络的目标函数得到网络嵌入学习的最终目标函数:
为了学习到嵌入向量,需要对最终目标函数O进行最小化;采用随机梯度下降法分别对O1和O2进行最小化求解;同时采用负采样方法解决目标函数求解过程中的耗时较大问题,对于每条边(UAi,UAj),重新根据下式计算logp(UAj,UAi):
其中,对边(UAi,UAj)建模,对负采样边(UAi,UAk)建模,N代表负采样边的个数,设定N=5;针对负采样边的生成,即在选取了UAi后,如何选取另外一个节点形成负采样边,采用目前通用的负采样方法确定噪声分布pn(U)如下:其中,dU代表节点U的度;基于噪声分布pn(U),采样N个节点与节点UAi构成N条负采样边;按照同样方法计算logp(UBj,UBi):
2-4.学习到所有节点的嵌入向量后,根据种子用户对的嵌入向量,学习SMNA和SMNB中节点的结构嵌入向量之间的映射函数给定zAi∈ZA,映射函数将向量zAi映射到向量空间ZB;其中,θ代表映射函数的参数集合;利用多层感知器模型构建非线性映射函数获得向量空间ZA到向量空间ZB的映射关系;设计的多层感知器模型包括输入层、隐藏层和输出层;隐藏层单元个数设定为2*d,d为输入层个数,即向量zAi的维度;将种子用户对的结构嵌入向量作为训练数据,对MLP模型进行训练。
进一步,所述的步骤3的具体实现过程如下:
设UAi和UBj分别为两个社交网络中的先验种子用户,即UAi和UBj代表不同网络中的同一用户;如果满足UAk∈friend(UAi),UBl∈friend(UBj),则(UAk,UBl)属于候选配对用户对CMP,其中,friend(UAi)={UAj|(UAi,UAj)∈EA}。
进一步,所述的步骤4具体实现过程如下:
4-1.针对用户名、个人简介的信息,将其看作字符串并采用Levenshtein距离进行度量;将两个用户名U1和U2之间的用户名相似度Simu(U1,U2)按照下式进行计算:
其中,lev(U1,U2)表示用户U1和U2之间的Levenshtein距离,l(U1)、l(U2)分别表示用户名U1和U2的字符数;
4-2.针对毕业院校和地理位置的信息,若相同的院校和地理位置则匹配度为1,否则为0。
进一步,所述的步骤5具体实现过程如下:
进一步,所述的步骤6具体实现过程如下:
针对候选配对用户对集合中的候选配对用户对,计算每对候选配对用户对中两用户的匹配分值,选取匹配分值最大的候选配对用户对为匹配用户对,并将其加入到集合MP中;匹配分值Mat_score计算如下:
Mat_score(UAi,UBj)=(1-α)Rk(UAi,UBj)+αf(F_Matchij) (10)
其中,Matchk(UAi,UBj)表示为用户UAi和用户UBj在第k种匹配因子上的匹配度,1≤k≤|K|,k表示规则使用的匹配因子种类标记,K表示所有的属性匹配因子的种类集合,|K|代表匹配因子种类的总个数,参数α用于平衡属性匹配值和朋友匹配度,wk代表第k种匹配因子的权重;根据不同的数据集调整α和wk的值。
本发明有益效果如下:
本发明的关注点在于如何通过有效融合网络嵌入和用户表征特征实现两个社交平台上的用户身份关联,并解决上述技术问题。本发明根据少量标注的用户对数据,计算出特定的跨社交网络范围内的所有关联用户对,对商业上的跨社交网络的应用起着至关重要的作用,比如多社交网络的用户行为分析、跨社交网络的信息服务推送、跨平台的好友推荐以及政府机关、企事业单位的网络安全治理等。
附图说明
图1为融合用户表面特征和网络嵌入的跨社交网络用户身份关联方法流程图;
图2为两个社交网络的匹配用户示例图;
图3为候选配对用户对生成示例图;
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明主要包含候选用户对选取和匹配过程两部分。前者主要根据网络的拓扑结构选出有较大可能成为匹配用户对的候选用户对。后者在候选用户对集合中进一步选择,利用字符串匹配等手段计算用户属性匹配度,并利用网络嵌入学习算法计算朋友匹配度,最后通过融合用户属性匹配度和朋友匹配度的判定准则对匹配因子进行比较,以得到最终匹配用户对。上述两个过程相互迭代,直到种子用户集为空。具体包括以下步骤:
步骤1.给定社交网络SMNA和社交网络SMNB,并通过人工标注获取少量种子用户对集合MPprior;
步骤2.利用用户的连接关系使用网络嵌入方法学习得到社交网络SMNA和社交网络SMNB中每个节点的结构嵌入向量,利用种子用户对集合MPprior训练多层感知机模型,作为两个社交网络间节点的结构嵌入向量空间的映射函数;
步骤3.从种子用户对集合MPprior中随机选取一对种子用户c,利用该对种子用户c从两个社交网络中选取候选配对用户对集合;
步骤4.针对候选配对用户对集合中的每对候选配对用户对,利用用户名、毕业院校和地理位置以及个人简介的特征,通过Levenshtein距离和简单字符串匹配得到候选配对用户对的用户属性匹配度;
步骤5.针对候选配对用户对集合中的每对候选配对用户对,根据训练好的多层感知机模型,将社交网络SMNA用户的嵌入特征空间映射到社交网络SMNB用户的嵌入特征空间,再计算社交网络SMNA用户的映射向量与社交网络SMNB用户的嵌入向量之间的欧式距离作为两用户的朋友匹配度;
步骤6.利用用户属性匹配度和朋友匹配度的匹配准则得到匹配用户对,并将匹配用户对加入到匹配用户对集合MP中;
步骤7.将步骤3中选取的一对种子用户c从种子用户对集合MPprior中删除,并将匹配用户对加入种子用户对集合MPprior,返回步骤3,直到种子用户对集合MPprior为空。
步骤1具体实现如下:
1-1.给定两个社交网络,分别表示为SMNA={UA,EA},SMNB={UB,EB}。UA表示网络SMNA的用户实体集合,EA为网络SMNA的用户关系(相互关注或连接关系),UB表示网络SMNB的用户实体集合,UAi代表用户集合UA中的第i个用户,UBj代表用户集合UB中的第j个用户。若用户UAi和用户UBj在现实生活中属于同一个体,则(UAi,UBj)∈MP,MP为配对用户集合。
本发明提供了图2所示的例子,图中虚线连接的不同社交网络中的两个节点构成了匹配用户对,集合{(2,7),(1,6),(4,0)}构成了匹配用户对集合MP。
1-2.通过人工标注手段获取少量种子用户对集合MPprior(已知的匹配用户对)。
本发明爬取了新浪微博用户数据和人人网用户数据,构成了三个网络对,具体信息见下表。爬取的数据包括用户信息(构成网络的节点)和用户之间的关注(构成网络的边),用户数据的属性信息包括用户名、毕业院校、所在城市以及个人简介。针对这三个网络对通过人工手段标注了152、143和167对配对用户对。
步骤2的具体实现过程如下:
2-1.针对社交网络SMNA中用户的连接关系(即朋友关系)对社交网络SMNA进行嵌入学习。给定节点UAj和节点UAi的嵌入向量zAj和zAi,可以按照下式计算社交网络SMNA中节点UAj和节点UAi间存在边的概率为:
其中,σ(x)代表sigmoid函数。基于此,社交网络SMNA嵌入学习的目标函数计算如下:
2-2.针对社交网络SMNB中用户的连接关系(即朋友关系)对社交网络SMNB进行嵌入学习。给定节点UBi和UBj的嵌入向量zBi和zBj,按照下式计算社交网络SMNB中节点UBi和UBj间存在边的概率为:
基于此,社交网络SMNB嵌入学习的目标函数为:
2-3.综合两个网络的目标函数得到网络嵌入学习的最终目标函数:
为了学习到嵌入向量,需要对目标函数O进行最小化。本发明采用随机梯度下降法分别对O1和O2进行最小化求解。同时,采用负采样方法(Negative Sampling)解决目标函数求解过程中的耗时较大问题,对于每条边(UAi,UAj),重新根据下式计算logp(UAj,UAi):
2-4.学习到所有节点的嵌入向量之后,再根据种子配对用户对的嵌入向量,学习SMNA和SMNB中节点的结构嵌入向量之间的映射函数给定zAi∈ZA,映射函数将向量zAi映射到空间ZB。其中,θ代表映射函数的参数集合。本发明利用多层感知器模型(MLP)构建非线性映射函数获得向量空间ZA到向量空间ZB的映射关系。设计的MLP模型包括输入层,隐藏层和输出层,隐藏层单元个数设定为2*d(d为输入层个数,即向量zAi的维度)。将种子配对用户的结构嵌入向量作为训练数据,对MLP模型进行训练。
步骤3的具体实现过程如下:
假设UAi和UBj为两个社交网络中的先验种子用户(即代表同一用户),如果满足UAk∈friend(UAi),UBl∈friend(UBj),则(UAk,UBl)属于候选用户对CMP,其中,friend(UAi)={UAj|(UAi,UAj)∈EA}。
本发明提供了图3所示的例子。图3描述了两个社交网络SMNA和SMNB,两个网络中的虚线表示先验种子点,即存在于两个社交网络中的同一用户。根据候选用户选取规则,从种子点出发,得到(Lisa,Ben)×(Lisa,Ray,Cathy,Violet)为候选用户对,其中,×表示笛卡儿积。
步骤4具体实现过程如下:
4-1.针对用户名信息和个人简介等文本信息,将其看作字符串并采用Levenshtein距离进行度量。Levenshtein距离作为计算两个字符串间的差异程度的字符串度量,曾被多次应用于用户名的差异度量并取得较好的效果。将两个用户名U1和U2之间的用户名相似度Simu(U1,U2)按照下式进行计算:
其中,lev(U1,U2)表示用户U1和U2之间的Levenshtein距离,l(ui)表示ui的字符数。
例如,用户名“杭州人”和“杭州人在北京”的相似度为0.5。
4-2.针对毕业院校和地理位置信息,若相同的院校和地理位置则匹配度为1,否则为0。
步骤5具体实现过程如下:
步骤6具体实现过程如下:
针对每一个候选配对中的两用户计算匹配分值,选取匹配分值最大的用户为匹配用户对,并将其加入到集合MP中。匹配分值Mat_score计算如下:
Mat_score(UAi,UBj)=(1-α)Rk(UAi,UBj)+αf(F_Matchij)
其中,Matchk(UAi,UBj)表示为用户UAi和用户UBj在匹配因子k上的匹配度,1≤k≤|K|,k表示规则使用的匹配因子,K表示所有的属性匹配因子集合,|K|代表匹配因子总个数,参数α用于平衡属性匹配值和朋友匹配度,wk代表匹配因子k的权重。本发明可以根据不同的数据集调整α和wk的值。
在步骤6中,本发明以爬取的新浪微博用户集以及人人网用户集为例,针对这三个网络将用户名、毕业院校、地理位置以及个人简介分别设定权重wk为0.3,0.2,0.2,0.3,参数α设为0.5。分别针对三个网络对进行用户身份关联并计算准确率。由于网络对的节点数目量较大,无法准确获取每对网络对的匹配用户对数目,从返回的结果中随机抽取200个用户对计算准确率,最终取得的平均准确率达到75.3%。
Claims (7)
1.融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于包括如下步骤:
步骤1.给定社交网络SMNA和社交网络SMNB,并通过人工标注获取少量种子用户对集合MPprior;
步骤2.利用用户的连接关系使用网络嵌入方法学习得到社交网络SMNA和社交网络SMNB中每个节点的结构嵌入向量,利用种子用户对集合MPprior训练多层感知机模型,作为两个社交网络间节点的结构嵌入向量空间的映射函数;
步骤3.从种子用户对集合MPprior中随机选取一对种子用户c,利用该对种子用户c从两个社交网络中选取候选配对用户对集合;
步骤4.针对候选配对用户对集合中的每对候选配对用户对,利用用户名、毕业院校和地理位置以及个人简介的特征,通过Levenshtein距离和简单字符串匹配得到候选配对用户对的用户属性匹配度;
步骤5.针对候选配对用户对集合中的每对候选配对用户对,根据训练好的多层感知机模型,将社交网络SMNA用户的嵌入特征空间映射到社交网络SMNB用户的嵌入特征空间,再计算社交网络SMNA用户的映射向量与社交网络SMNB用户的嵌入向量之间的欧式距离作为两用户的朋友匹配度;
步骤6.利用用户属性匹配度和朋友匹配度的匹配准则得到匹配用户对,并将匹配用户对加入到匹配用户对集合MP中;
步骤7.将步骤3中选取的一对种子用户c从种子用户对集合MPprior中删除,并将匹配用户对加入种子用户对集合MPprior,返回步骤3,直到种子用户对集合MPprior为空。
2.根据权利要求1所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤1具体实现如下:
1-1.给定的社交网络SMNA和社交网络SMNB,分别表示为SMNA={UA,EA},SMNB={UB,EB};UA表示社交网络SMNA的用户实体集合,EA为社交网络SMNA的用户关系,UB表示社交网络SMNB的用户实体集合,EB为社交网络SMNB的用户关系,UAi代表用户实体集合UA中的第i个用户,UBj代表用户实体集合UB中的第j个用户;若用户UAi和用户UBj在现实生活中属于同一个体,则(UAi,UBj)∈MP,MP为匹配用户对集合;
1-2.通过人工标注段获取少量种子用户对集合MPprior,其中种子用户对集合MPprior是已知的匹配用户对。
3.根据权利要求2所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤2的具体实现过程如下:
2-1.针对社交网络SMNA中用户的连接关系对社交网络SMNA进行嵌入学习;给定节点UAj和节点UAi的嵌入向量分别为zAj和zAi,按照下式计算社交网络SMNA中节点UAj和节点UAi间存在边(UAi,UAj)的概率为:
基于此,社交网络SMNA嵌入学习的目标函数:
其中,σ(x)代表sigmoid函数,EA为社交网络SMNA中用户关系;
2-2.针对社交网络SMNB中用户的连接关系对社交网络SMNB进行嵌入学习;给定节点UBi和UBj的嵌入向量分别为zBi和zBj,按照下式计算社交网络SMNB中节点UBi和UBj间存在边的概率为:
基于此,社交网络SMNB嵌入学习的目标函数为:
其中,EB为社交网络SMNB中边的用户关系;;
2-3.综合两个网络的目标函数得到网络嵌入学习的最终目标函数:
为了学习到嵌入向量,需要对最终目标函数O进行最小化;采用随机梯度下降法分别对O1和O2进行最小化求解;同时采用负采样方法解决目标函数求解过程中的耗时较大问题,对于每条边(UAi,UAj),重新根据下式计算logp(UAj,UAi):
其中,对边(UAi,UAj)建模,对负采样边(UAi,UAk)建模,N代表负采样边的个数,设定N=5;针对负采样边的生成,即在选取了UAi后,如何选取另外一个节点形成负采样边,采用目前通用的负采样方法确定噪声分布pn(U)如下:其中,dU代表节点U的度;基于噪声分布pn(U),采样N个节点与节点UAi构成N条负采样边;按照同样方法计算logp(UBj,UBi):
4.根据权利要求2或3所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤3的具体实现过程如下:
设UAi和UBj分别为两个社交网络中的先验种子用户,即UAi和UBj代表不同网络中的同一用户;如果满足UAk∈friend(UAi),UBl∈friend(UBj),则(UAk,UBl)属于候选配对用户对CMP,其中,friend(UAi)={UAj|(UAi,UAj)∈EA}。
7.根据权利要求6所述的融合用户特征和嵌入学习的跨社交网络用户身份关联方法,其特征在于步骤6具体实现过程如下:
针对候选配对用户对集合中的候选配对用户对,计算每对候选配对用户对中两用户的匹配分值,选取匹配分值最大的候选配对用户对为匹配用户对,并将其加入到集合MP中;匹配分值Mat_score计算如下:
Mat_score(UAi,UBj)=(1-α)Rk(UAi,UBj)+αf(F_Matchij) (10)
其中,Matchk(UAi,UBj)表示为用户UAi和用户UBj在第k种匹配因子上的匹配度,1≤k≤|K|,k表示规则使用的匹配因子种类标记,K表示所有的属性匹配因子的种类集合,|K|代表匹配因子种类的总个数,参数α用于平衡属性匹配值和朋友匹配度,wk代表第k种匹配因子的权重;根据不同的数据集调整α和wk的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110148895.3A CN112836139B (zh) | 2021-02-03 | 2021-02-03 | 融合用户特征和嵌入学习的跨社交网络用户身份关联方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110148895.3A CN112836139B (zh) | 2021-02-03 | 2021-02-03 | 融合用户特征和嵌入学习的跨社交网络用户身份关联方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836139A true CN112836139A (zh) | 2021-05-25 |
CN112836139B CN112836139B (zh) | 2022-04-01 |
Family
ID=75931842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110148895.3A Active CN112836139B (zh) | 2021-02-03 | 2021-02-03 | 融合用户特征和嵌入学习的跨社交网络用户身份关联方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836139B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222775A (zh) * | 2021-05-28 | 2021-08-06 | 北京理工大学 | 融合多模态信息及权重张量的用户身份关联方法 |
CN115080871A (zh) * | 2022-07-07 | 2022-09-20 | 国家计算机网络与信息安全管理中心 | 一种跨社交网络社交用户对齐方法 |
CN116091260A (zh) * | 2023-04-07 | 2023-05-09 | 吕梁学院 | 一种基于Hub-node节点的跨域实体身份关联方法及系统 |
CN116776193A (zh) * | 2023-05-17 | 2023-09-19 | 广州大学 | 基于注意力机制的跨社交网络虚拟身份关联方法及装置 |
CN117574177A (zh) * | 2024-01-15 | 2024-02-20 | 每日互动股份有限公司 | 一种用于用户扩线的数据处理方法、装置、介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130238600A1 (en) * | 2012-03-07 | 2013-09-12 | Cleanport, BV | System, Method and Computer Program Product for Normalizing Data Obtained from a Plurality of Social Networks |
US8706739B1 (en) * | 2012-04-26 | 2014-04-22 | Narus, Inc. | Joining user profiles across online social networks |
CN110347932A (zh) * | 2019-06-04 | 2019-10-18 | 中国科学院信息工程研究所 | 一种基于深度学习的跨网络用户对齐方法 |
CN110599358A (zh) * | 2019-07-10 | 2019-12-20 | 杭州师范大学钱江学院 | 一种基于概率因子图模型的跨社交网络用户身份关联方法 |
CN111815468A (zh) * | 2020-06-04 | 2020-10-23 | 哈尔滨工程大学 | 一种基于用户身份关联的多源社交网络构建方法 |
-
2021
- 2021-02-03 CN CN202110148895.3A patent/CN112836139B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130238600A1 (en) * | 2012-03-07 | 2013-09-12 | Cleanport, BV | System, Method and Computer Program Product for Normalizing Data Obtained from a Plurality of Social Networks |
US8706739B1 (en) * | 2012-04-26 | 2014-04-22 | Narus, Inc. | Joining user profiles across online social networks |
CN110347932A (zh) * | 2019-06-04 | 2019-10-18 | 中国科学院信息工程研究所 | 一种基于深度学习的跨网络用户对齐方法 |
CN110599358A (zh) * | 2019-07-10 | 2019-12-20 | 杭州师范大学钱江学院 | 一种基于概率因子图模型的跨社交网络用户身份关联方法 |
CN111815468A (zh) * | 2020-06-04 | 2020-10-23 | 哈尔滨工程大学 | 一种基于用户身份关联的多源社交网络构建方法 |
Non-Patent Citations (3)
Title |
---|
YIZHUO YANG等: ""A Fusion Information Embedding Method for User Identity Matching across Social Networks"", 《2018 IEEE SMARTWORLD, UBIQUITOUS INTELLIGENCE & COMPUTING, ADVANCED & TRUSTED COMPUTING, SCALABLE COMPUTING & COMMUNICATIONS, CLOUD & BIG DATA COMPUTING, INTERNET OF PEOPLE AND SMART CITY INNOVATIONS》 * |
刘奇飞: ""跨社交网络的用户身份关联技术研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 社会科学Ⅰ辑》 * |
王李冬等: "基于CLA算法的跨社交平台用户身份匹配", 《计算机应用与软件》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222775A (zh) * | 2021-05-28 | 2021-08-06 | 北京理工大学 | 融合多模态信息及权重张量的用户身份关联方法 |
CN115080871A (zh) * | 2022-07-07 | 2022-09-20 | 国家计算机网络与信息安全管理中心 | 一种跨社交网络社交用户对齐方法 |
CN115080871B (zh) * | 2022-07-07 | 2024-05-17 | 国家计算机网络与信息安全管理中心 | 一种跨社交网络社交用户对齐方法 |
CN116091260A (zh) * | 2023-04-07 | 2023-05-09 | 吕梁学院 | 一种基于Hub-node节点的跨域实体身份关联方法及系统 |
CN116091260B (zh) * | 2023-04-07 | 2023-07-25 | 吕梁学院 | 一种基于Hub-node节点的跨域实体身份关联方法及系统 |
CN116776193A (zh) * | 2023-05-17 | 2023-09-19 | 广州大学 | 基于注意力机制的跨社交网络虚拟身份关联方法及装置 |
CN116776193B (zh) * | 2023-05-17 | 2024-08-06 | 广州大学 | 基于注意力机制的跨社交网络虚拟身份关联方法及装置 |
CN117574177A (zh) * | 2024-01-15 | 2024-02-20 | 每日互动股份有限公司 | 一种用于用户扩线的数据处理方法、装置、介质及设备 |
CN117574177B (zh) * | 2024-01-15 | 2024-04-19 | 每日互动股份有限公司 | 一种用于用户扩线的数据处理方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112836139B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112836139B (zh) | 融合用户特征和嵌入学习的跨社交网络用户身份关联方法 | |
US11659050B2 (en) | Discovering signature of electronic social networks | |
Riederer et al. | Linking users across domains with location data: Theory and validation | |
CN109753602B (zh) | 一种基于机器学习的跨社交网络用户身份识别方法和系统 | |
CN113139140B (zh) | 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法 | |
CN113222775B (zh) | 融合多模态信息及权重张量的用户身份关联方法 | |
CN112084373B (zh) | 一种基于图嵌入的多源异构网络用户对齐方法 | |
CN110134883B (zh) | 一种异构社交网络位置实体锚链接识别方法 | |
Ju et al. | Relationship strength estimation based on Wechat Friends Circle | |
CN112365007B (zh) | 模型参数确定方法、装置、设备及存储介质 | |
CN109885797B (zh) | 一种基于多身份空间映射的关系网络构建方法 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN114461943B (zh) | 基于深度学习的多源poi语义匹配方法、装置及其存储介质 | |
JP7092194B2 (ja) | 情報処理装置、判定方法、及びプログラム | |
Yuan et al. | User naming conventions mapping learning for social network alignment | |
CN114387005A (zh) | 一种基于图分类的套利团伙识别方法 | |
CN110008348A (zh) | 结合节点和边进行网络图嵌入的方法和装置 | |
CN117035059A (zh) | 一种通信高效的隐私保护推荐系统及方法 | |
CN107181672A (zh) | 在位置社交网络中基于时间分布相对熵的好友推荐方法 | |
US20230351153A1 (en) | Knowledge graph reasoning model, system, and reasoning method based on bayesian few-shot learning | |
CN115080871A (zh) | 一种跨社交网络社交用户对齐方法 | |
CN110599358B (zh) | 一种基于概率因子图模型的跨社交网络用户身份关联方法 | |
Qin et al. | A two-stagse approach for social identity linkage based on an enhanced weighted graph model | |
CN113127696A (zh) | 一种提高基于行为的影响力度量准确性方法 | |
Miao et al. | Embedding based cross-network user identity association technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230413 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Patentee after: Yami Technology (Guangzhou) Co.,Ltd. Address before: Hangzhou City, Zhejiang province 310036 Xiasha Higher Education Park forest Street No. 16 Patentee before: HANGZHOU NORMAL UNIVERSITY QIANJIANG College |
|
TR01 | Transfer of patent right |