CN110097125A - 一种基于嵌入表示的跨网络账户关联方法 - Google Patents

一种基于嵌入表示的跨网络账户关联方法 Download PDF

Info

Publication number
CN110097125A
CN110097125A CN201910373894.1A CN201910373894A CN110097125A CN 110097125 A CN110097125 A CN 110097125A CN 201910373894 A CN201910373894 A CN 201910373894A CN 110097125 A CN110097125 A CN 110097125A
Authority
CN
China
Prior art keywords
user
account
social networks
user account
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910373894.1A
Other languages
English (en)
Other versions
CN110097125B (zh
Inventor
马江涛
乔亚琼
王艳军
李祖贺
吴怀广
张宏坡
尚松涛
陶红伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University, Zhengzhou University of Light Industry filed Critical Zhengzhou University
Priority to CN201910373894.1A priority Critical patent/CN110097125B/zh
Publication of CN110097125A publication Critical patent/CN110097125A/zh
Application granted granted Critical
Publication of CN110097125B publication Critical patent/CN110097125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于嵌入表示的跨网络账户关联方法,包括:分别提取源社交网络和目标社交网络中每个用户账户的用户生成内容特征向量和社交网结构特征向量;使用向量拼接的方法依次将源社交网络和目标社交网络中每个用户账户的用户生成内容特征向量与社交网结构特征向量进行拼接,获得拼接向量;遍历目标社交网络中的所有用户账户,将目标社交网络中的每个用户账户依次与源社交网络中的每个用户账户组成候选用户账户对,并根据拼接向量计算每个候选用户账户对的余弦相似度;按照余弦相似度值由大到小的顺序对所有候选用户账户对进行排序,建立相似度偏好列表;根据相似度偏好列表依次预测两个社交网络中的候选用户账户对是否为锚链接用户对。

Description

一种基于嵌入表示的跨网络账户关联方法
技术领域
本发明涉及一种跨网络账号关联方法,具体的说,涉及了一种基于嵌入表示的跨网络账户关联方法。
背景技术
近年来,随着在线社交网络的快速发展,社交网络分析引起了研究者的关注。在线社交网络提供的各种服务已经成为我们生活的一部分。为了享用更多的社交网络服务,用户常常同时使用多个社交网络。在不同的网络中有相当一部分用户是重叠用户。重叠用户发现不仅是学术界研究的一个重要问题,而且对产业界也会产生较大的商业价值。虽然研究者针对跨网络的重叠用户匹配研究方面取得了丰硕的研究成果,但是如何有效地融合网络的结构信息、丰富的用户节点和社交结构特征进行跨网络链接预测仍然是一个很有挑战的问题,这使得跨网络链接预测仍然是一个开放的研究问题。
基于用户生成内容的方法是从网页上采集用户生成内容,但是该方法的前提是跨社交平台的用户账户名是一致的,而在现实中存在很多重名用户。这类方法无法处理用户名、用户生成内容、行为和社交结构信息的缺失问题,并且没有给出为什么这些缺失信息如何影响关联结果的解释。也有基于用户社交网络结构的方法,其的不足之处是其仅能利用用户的社交网络结构特征,无法有效地使用用户的画像特征、用户生成内容特征。因此,现有的方法并不能很好地实现跨网络账号关联目的。
为了解决以上存在的问题,人们一直在寻求一种理想的技术解决方案。
发明内容
本发明的目的是针对现有技术的不足,从而提供了一种基于嵌入表示的跨网络账户关联方法。
为了实现上述目的,本发明所采用的技术方案是:一种基于嵌入表示的跨网络账户关联方法,其特征在于,包括以下步骤:
步骤1,分别提取源社交网络和目标社交网络中每个用户账户的用户生成内容特征向量和社交网结构特征向量,所述用户生成内容特征向量包括用户画像特征向量和用户文本特征向量;
步骤2,使用向量拼接的方法依次将源社交网络和目标社交网络中每个用户账户的用户生成内容特征向量与社交网结构特征向量进行拼接,获得拼接向量;
步骤3,遍历目标社交网络中的所有用户账户,将目标社交网络中的每个用户账户依次与源社交网络中的每个用户账户组成候选用户账户对,并根据拼接向量计算每个候选用户账户对的余弦相似度;
步骤4,按照余弦相似度值由大到小的顺序对所有候选用户账户对进行排序,建立相似度偏好列表;
步骤5,根据相似度偏好列表依次预测两个社交网络中的候选用户账户对是否为锚链接用户对。
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说:
1、本发明基于嵌入表示的跨网络账户关联方法,融合了用户生成内容特征和用户的社交结构特征,提出使用网络嵌入的方法对网络节点的社交结构特征进行建模,并把网络结构特征转化为向量特征,从而可以高效地计算节点网络结构的相似性。
2、本发明提出使用文本内容嵌入的方法对网络用户节点的画像特征(用户名、注册地、性别、简介)和用户生成内容(UGC)特征进行建模,把这些特征转化为向量特征,从而可以有效地计算网络账户生成内容的相似性。
3、本发明提出一个浅层用户空间模型来表示用户的社交结构特征和用户画像及UGC特征,并使用向量串接接的方法把用户网络结构特征和用户生成内容特征连接起来,使用用户向量的余弦相似度对用户相似性进行度量,根据用户向量的余弦相似度对跨网络的用户账户进行锚链接预测。
附图说明
图1是锚链接预测示意图。
图2是基于嵌入表示的跨网络账户关联方法的锚链接预测框架图。
图3:锚链接预测结果的ROC曲线。
图4:不同ra的锚链接AUC曲线。
图5:不同ra的锚链接Precision@30曲线。
图6:不同α的锚链接AUC曲线。
具体实施方式
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
如图1所示,一个人可能同时拥有微博账号和Twitter账号,即不同社交网络中的用户会重叠,这样,就存在一个从微博账号到Twitter账号的对应关系。对于每个社交网络账户,都有一个简介信息(profile),简介信息中基本信息包括昵称、真实姓名、所在地位置、性别、生日、博客地址、个性域名、注册时间、电子邮箱;工作信息;教育信息和标签信息(所感兴趣的领域:根据主题模型抽取出的词)。Twitter账户中有用户昵称、所在地位置、个人主页地址等信息。我们假定在一个社交网络中每人只有一个社交账号。每个锚链接表示两个网络中的一对账号属于同一个用户,预测锚链接的目标是发现两个社交网络中成对的账号。
图2给出了本发明的基于嵌入表示的跨网络账户关联方法的框架,其中A和B表示两个社交网络,C和D为用户h的嵌入式表示示意图,E为用户h的文本内容的嵌入式表示,F为h的网络结构嵌入式表示,A’和B’中的虚线hh’、ii’、jj’、kk’为锚链接的预测结果。
定义1(社交网络):用G=(U,E)表示一个社交网络,U表示网络中的用户集合,E表示用户中的社交关系的集合。
定义2(锚链接):给出两个社交网络G(s)和G(t),如果(ui∈U(s))∧(vj∈U(t))并且ui和vj属于同一个用户,即f(ui,vj)=1,其中U(s)和U(t)分别是G(s)和G(t)网络中用户的集合。
定义3(嵌入表示空间)(Embedding Representation Space(ERS)):嵌入表示空间(ERS)为一个三元组(U,A,D),中U={u1,u2,…,uN}是所有N个用户账户的集合。A=(a1,a2,…,ad)表示d维属性的向量,每个用户对应一个d维向量,即1≤k≤N,D表示距离函数,D(ui,vj)是两个用户账户ui与vj之间的距离。F=(f1,f2,…,fm)表示每个用户u的m维特征向量。
定义4(映射函数):把社交网络G中每个社交网络账号ui∈U(s)对应的浅层空间中映射函数记为Φ,Φ(ui)=Φ(F(ui))=vj,vj∈U(t)。把Φ的逆函数记为Φ-1,对于所有的u∈U,Φ-1(Φ(u))=u。
对于任一平台G映射函数Φ都是未知的,跨平台的用户锚链接问题定义如下:
锚链接预测:假定有两个异质社交网络G(s)和G(t),在U(s)和U(t)的中用户账户中存在着一对一的锚链接关系。锚链接预测的目标是预测一对用户账号u(i)和v(j)之间是否有锚链接关系,即:
其中为u(i)在浅层用户空间对应的特征向量F,f要判定一个用户对应在不同平台上的账户。然而,在实际中,由于浅层用户空间和映射函数Φ都是未知的,导致这种理想的二值函数是很难实现的。如果两个用户账户u(i)和v(j)在社交网络中越相似则他们在浅层空间中的距离就越小,因此将跨网络锚链接预测问题转化为一个最短距离优化问题,即:通过最小化下面的目标函数找出Φ从而解决跨网络锚链接预测问题:
本发明提供一种基于嵌入表示的跨网络账户关联方法,该方法包括以下步骤:
步骤1,分别提取源社交网络和目标社交网络中每个用户账户的用户生成内容特征向量和社交网结构特征向量,所述用户生成内容特征向量包括用户画像特征向量和用户文本特征向量。
将用户账户的个人注册信息送入至Doc2Vec文本深度表示模型中,经Doc2Vec文本深度表示模型的训练获得每个用户账户的用户画像特征向量;将用户的推文信息送入至Doc2Vec文本深度表示模型中,经Doc2Vec文本深度表示模型的训练获得每个用户账户的用户文本特征向量;所述个人注册信息包括登录名、昵称、所在地、性别、生日、简介、教育信息、职业信息、联系信息以及标签信息等。
社交网络用户的画像信息和用户生成内容是描述用户的一个重要特征,具体提取时,把用户最近推文拼接起来组成一个长文档,使用Doc2Vec方法把此文档转换成向量。Doc2Vec基于词向量word2vec方法的拓展,它是一种非监督的学习方法,可以获得句子、段落和文档的向量表示,训练出来的向量可以通过计算距离来找句子、段落和文档之间的相似性。在训练过程中,每个单词都被映射到向量空间中,将上下文的词向量级联或者求和作为特征,预测句子中的下一个单词。给定如下训练单词序列,目标函数是:
其中,w1,w2,w3,…,wT为训练词的序列,此式最大化单词wt在序列中出现的概率。
训练句向量的方法词向量的方法非常类似,训练词向量的核心思想是根据每个单词的上下文预测单词的含义,也就是说上下文的单词对单词的具体含义是有影响的。本发明采用同样的思路训练doc2vec,在doc2vec中每个段落/句子都被映射到向量空间中,可以用矩阵的一列来表示。每个单词同样被映射到向量空间,可以用矩阵的一列来表示。然后将段落向量和词向量级联得到特征,预测句子中的下一个单词。这个段落向量/句向量也可以认为是一个单词,它的作用相当于是上下文的记忆单元或者是这个段落的主题。在训练模型的时候固定上下文的长度,用滑动窗口的方法产生训练集。段落向量、句向量在该上下文中共享。此过程分为两个阶段:首先是训练模型阶段,即在已知的训练数据(用户的画像内容和用户最近推文作为训练数据)中得到词向量,softmax的参数以及段落向量/句向量;然后是推理阶段,即在矩阵中添加相应的列,使用上述方法进行训练,使用梯度下降的方法得到新段落的向量表示。
用户账户的社交拓扑结构也是描述网络用户的一个重要特征,网络结构嵌入方法可以很好地描述用户账户的社交拓扑结构。网络结构嵌入的方法是把网络节点嵌入到低维向量空间中,图中的每个顶点都被表示为一个低维向量,因此可以根据向量的相似性来度量网络节点的相似性,网络结构可以嵌入到低维向量空间,易于并行实现。
具体的,将用户账户的社交拓扑结构送入至网络嵌入表示模型中,经网络嵌入表示模型的训练获得用户账户的社交网络结构特征向量:
首先把每个节点映射到低维嵌入向量空间:ENC(v)=Zv,Zv为d维嵌入空间,v为网络中的节点,两个网络中的节点u、v在d维嵌入空间的结构相似性,如下式所示:
其中similarity(u,v)表示u、v在网络中的结构相似性,右式表示u、v在嵌入空间中的向量的点积;
使用随机游走策略R对每个节点u的邻居进行采样得到NR(u),根据下式优化嵌入向量:
优化嵌入空间使随机游走访问的网络节点出现的概率最大化,使用下面的softmax对P(v|zu)进行调参,从而预测u和v在随机游走中共现的概率:
把此共现概率代入到上式中,得到:
采用负采样的方法近似获得节点的相似性:
其中为sigmoid函数,ni~PV为所有节点的随机分布。
步骤2,依次将源社交网络G(s)和目标社交网络G(t)中每个用户账户的画像特征与社交结构特征进行拼接,获得拼接向量,其中,在进行画像特征与社交结构特征的拼接时,具体可采用向量拼接的方法进行拼接,源社交网络G(s)中每个用户账户us的拼接向量为us(d+n),源社交网络G(s)中每个用户账户ut的拼接向量为ut(d+n)。
步骤3,遍历目标社交网络中的所有用户账户,将目标社交网络中的每个用户账户依次与源社交网络中的每个用户账户组成用户账户对,并根据拼接向量计算每个用户账户对的余弦相似度。
步骤4,按照余弦相似度值由大到小的顺序对所有用户账户对进行排序,建立相似度偏好列表。
步骤5,根据相似度偏好列表找出两个社交网络中的锚链接用户对。具体包括以下步骤:
步骤5.1,将锚链接用户对集合M初始化为空集合;
步骤5.2,根据账户拼接向量的余弦相似度值初始化目标社交网络中的每个用户账户所对应的候选用户账户对之间所有边的权重;
步骤5.3,根据相似度偏好列表,使用带权二部图匹配算法逐一判断目标社交网络中的每个用户账户所对应的候选用户账户对是否为锚链接用户对;这里账户关联问题就转化为一个二部图匹配问题,解决二部图匹配的步骤为:初始化匹配子图为空,使用宽度优先搜索的方法寻找增广路径,如果找到,则把把增广路径添加到匹配子图中,如果找不到则回溯到没有遍历的账户中,继续使用宽度优先搜索的方法寻找增广路径,直至遍历完成所有账户;
使用带权二部图匹配算法逐一判断目标社交网络中的每个用户账户所对应的候选用户账户对是否为锚链接用户对时,若某个候选用户账户对的边权值和为1,则该候选用户账户对即为锚链接用户对,若某个候选用户账户对的边权值和为0,则该候选用户账户对不是锚链接用户对;
步骤5.4,将已经匹配好的锚链接用户对添加到锚链接用户对集合M中,并将对应的锚链接用户分别从源社交网络和目标社交网络中删除。
本发明提出的浅层表示模型把用户生成内容嵌入表示和网络结构嵌入表示结合起来作为用户账户的特征,根据此模型预测跨网络的锚链接。首先训练网络中用户生成内容特征(画像特征和用户推文内容特征);然后训练网络节点的网络结构特征,在训练网络结构的过程中使用基于随机游走的负采样方法来降低训练的时间复杂度;接着把两种特征通过向量拼接的方法连接起来,并根据拼接后的向量计算向量的余弦相似度,此余弦相似度为用户账户对的相似度;然后对可能的锚链接账号对根据相似度值进行排序建立相似度偏好列表;最后对两个网络中的账号对根据相似度进行锚链接匹配,具体算法见表1:
表1 Con&Net:基于嵌入表示的跨网络账户关联方法
对比分析
数据集
从学术社交网络Aminer中检索计算机领域的研究者,爬取研究者的主页,有些研究者提供了他们的twitter账号和新浪微博账号,以此为基准事实数据。然后以此用户为种子节点分别爬取他们在新浪微博和twitter中的好友节点(以深度优先的方式进行,爬取深度为4,twitter的平均度为3.43[41]),分别爬取了153456、154697个用户节点,其中的基准事实节点对为14978对。
测试准则
使用十折交叉验证的方法评估方法的性能,使用预测的结果在前30个中的准确率precision(Pre@N)和ROC曲线下的面积AUC来定量分析提出的方法效果。其中,ROC是受试工作者曲线,AUC是ROC下的面积,它是链接预测中常用的指标。准确率Pre@N见下式,其中|unmappedUser@N|是嵌入空间中前N个预测结果中未匹配的账户对数量,A、B为两个社交网络,|unmappedUserPair|为所有未匹配的用户对数量。
基线方法
选择四种方法作为基线方法与本发明方法进行比较,基线方法分别如下:
NS首次研究了跨社交网络的账号关联问题,它仅仅基于网络拓扑结构进行跨网络账号关联,此方法具有自增强学习能力,能把匹配出的账户对加入到种子节点中从而匹配更对的候选账户对。
COSNET方法提出基于能量的模型进行跨网络间的账号关联,它融合了用户昵称、主页地址等文本特征和自我网络结构特征匹配网络之间的账户。
SDA使用ER模型及通用网络模型对跨网络的用户进行链接,此方法适用于任意类型的网络模型。
MC基于平均熵的受限主动学习方法,当一个未标记的锚链接被查询时,此方法可以标记多个链接信息。
对比结果
以随机地采样锚链接作为正样例训练集,其余的(1-ra)锚链接和负样例一起作为负样例训练集。使用ra采样的正样例和混合的负样例(负样例和其余的(1-ra)锚链接)训练的分类器把待匹配的锚链接分为验证机集和测试集。现有的从验证集里获得的概率用来逼近桥接概率,此概率被用在验证集和测试集上。基于链接预测的结果,此方法进一步跨网络传播预测信息,传播概率为α∈[0,1.0]。回到初始点的概率为c∈[0,1.0]。在实验中αt=0.5,c=0.2。
在图3中给出了锚链接预测的ROC曲线,这里ra=0.9。从图中可以看出,本发明方法的ROC曲线下的面积是最大的,AUC值为0.8485,它比第二名的MC方法高11%,比SDA方法高14%,比COSNET方法的AUC值高17%,比最后一名的NS方法高23%。
图4给出了本发明方法与基线方法的AUC在不同ra下的比较结果,其中ra从0.1到0.9变化,从图可以看出,当ra增大时大部分方法的效果均有所提高。当ra较小时,所有的基线方法效果均不好,本发明方法仍能取得较好的表现。
图5给出了本发明方法与基线方法在Precision@30上的比较结果。在ra从0.1到0.9变化的过程中本发明方法的AUC比紧随其后的MC方法高25%,比最后一名的NS方法高56%。这说明了融合知识信息和用户社交结构信息可以取得更好的效果。在图5中,本发明方法的Precision@30比其它的基线方法效果都要好。本发明方法优于SDA说明融合节点知识和节点社交结构的方法优于基于社交结构的方法,本发明方法优于cosnet方法说明基于嵌入表示方法优于基于能量模型的方法。因此,本发明方法在预测跨网络之间的锚链接中的AUC和Precision@30均优于现有的基线方法。
本发明方法针对跨网络的链路预测问题,提出用户浅层模型把用户的画像特征、用户生成特征和用户社交结构特征嵌入到一个低维向量空间中,并提出基于嵌入表示的方法利用网络用户的画像特征、用户生成内容特征和社交结构特征对跨网络的锚链接用户进行链接预测。使用Doc2vec的方法表示网络用户的文本特征,使用网络嵌入的方法表示用户节点的社交结构特征。在真实数据集上的实验表明本发明方法优于现有的基线方法,其ROC、AUC和Precision@30值均优于目前的基线方法。
针对参数对本发明方法的影响,实验中取α∈[0:1;0:9]来比较本发明方法与基线方法的AUC。图6给出了α对实验结果的影响,α从0.1到0.9变化,本发明方法和基线方法在α的变化过程中总体表现稳定,当α从[0.1,0.6]变化过程中本发明方法有明显的提升,当α∈[0.6,0.8]时表现稳定,当α为0.9时稍微下降。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (5)

1.一种基于嵌入表示的跨网络账户关联方法,其特征在于,包括以下步骤:
步骤1,分别提取源社交网络和目标社交网络中每个用户账户的用户生成内容特征向量和社交网结构特征向量,所述用户生成内容特征向量包括用户画像特征向量和用户文本特征向量;
步骤2,使用向量拼接的方法依次将源社交网络和目标社交网络中每个用户账户的用户生成内容特征向量与社交网结构特征向量进行拼接,获得拼接向量;
步骤3,遍历目标社交网络中的所有用户账户,将目标社交网络中的每个用户账户依次与源社交网络中的每个用户账户组成候选用户账户对,并根据拼接向量计算每个候选用户账户对的余弦相似度;
步骤4,按照余弦相似度值由大到小的顺序对所有候选用户账户对进行排序,建立相似度偏好列表;
步骤5,根据相似度偏好列表依次预测两个社交网络中的候选用户账户对是否为锚链接用户对。
2.根据权利要求1所述的基于嵌入表示的跨网络账户关联方法,其特征在于,步骤5具体包括以下步骤:
步骤5.1,将锚链接用户对集合M初始化为空集合;
步骤5.2,根据账户拼接向量的余弦相似度值初始化目标社交网络中的每个用户账户所对应的候选用户账户对之间所有边的权重;
步骤5.3,根据相似度偏好列表,使用带权二部图匹配算法逐一判断目标社交网络中的每个用户账户所对应的候选用户账户对是否为锚链接用户对;
步骤5.4,将已经匹配好的锚链接用户对添加到锚链接用户对集合M中,并将对应的锚链接用户分别从源社交网络和目标社交网络中删除。
3.根据权利要求2所述的基于嵌入表示的跨网络账户关联方法,其特征在于,步骤5.3中,根据相似度偏好列表,使用带权二部图匹配算法逐一判断目标社交网络中的每个用户账户所对应的候选用户账户对是否为锚链接用户对时,若某个候选用户账户对的边权值和为1,则该候选用户账户对即为锚链接用户对,若某个候选用户账户对的边权值和为0,则该候选用户账户对不是锚链接用户对。
4.根据权利要求1所述的基于嵌入表示的跨网络账户关联方法,其特征在于:
步骤1中,将用户账户的个人注册信息送入至Doc2Vec文本深度表示模型中,经Doc2Vec文本深度表示模型的训练获得每个用户账户的用户画像特征向量;将用户的推文信息送入至Doc2Vec文本深度表示模型中,经Doc2Vec文本深度表示模型的训练获得每个用户账户的用户文本特征向量;所述个人注册信息包括登录名、昵称、所在地、性别、生日、简介、教育信息、职业信息、联系信息以及标签信息等。
5.根据权利要求1所述的基于嵌入表示的跨网络账户关联方法,其特征在于:步骤1中,将用户账户的社交拓扑结构送入至网络嵌入表示模型中,经网络嵌入表示模型的训练获得用户账户的社交网络结构特征向量:
首先把每个节点映射到低维嵌入向量空间:ENC(v)=Zv,Zv为d维嵌入空间,v为网络中的节点,两个网络中的节点u、v在d维嵌入空间的结构相似性,如下式所示:
其中similarity(u,v)表示u、v在网络中的结构相似性,右式表示u、v在嵌入空间中的向量的点积;
使用随机游走策略R对每个节点u的邻居进行采样得到NR(u),根据下式优化嵌入向量:
优化嵌入空间使随机游走访问的网络节点出现的概率最大化,使用下面的softmax对P(v|zu)进行调参,从而预测u和v在随机游走中共现的概率:
把此共现概率代入到上式中,得到:
采用负采样的方法近似获得节点的相似性:
其中为sigmoid函数,ni~PV为所有节点的随机分布。
CN201910373894.1A 2019-05-07 2019-05-07 一种基于嵌入表示的跨网络账户关联方法 Active CN110097125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910373894.1A CN110097125B (zh) 2019-05-07 2019-05-07 一种基于嵌入表示的跨网络账户关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910373894.1A CN110097125B (zh) 2019-05-07 2019-05-07 一种基于嵌入表示的跨网络账户关联方法

Publications (2)

Publication Number Publication Date
CN110097125A true CN110097125A (zh) 2019-08-06
CN110097125B CN110097125B (zh) 2022-10-14

Family

ID=67446985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910373894.1A Active CN110097125B (zh) 2019-05-07 2019-05-07 一种基于嵌入表示的跨网络账户关联方法

Country Status (1)

Country Link
CN (1) CN110097125B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515986A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 一种社交网络图的处理方法、装置及存储介质
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
CN111028044A (zh) * 2019-10-22 2020-04-17 贝壳技术有限公司 一种拼租方法、装置、电子设备和存储介质
CN111176838A (zh) * 2019-12-18 2020-05-19 北京百度网讯科技有限公司 为二分图中的节点分配嵌入向量的方法以及装置
CN111192154A (zh) * 2019-12-25 2020-05-22 西安交通大学 一种基于风格迁移的社交网络用户节点匹配方法
CN111340566A (zh) * 2020-03-23 2020-06-26 京东数字科技控股有限公司 一种商品分类方法、装置、电子设备及存储介质
CN111368552A (zh) * 2020-02-26 2020-07-03 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111475738A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络位置锚链接识别方法
CN111475739A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络用户锚链接识别方法
CN112084373A (zh) * 2020-08-05 2020-12-15 国家计算机网络与信息安全管理中心 一种基于图嵌入的多源异构网络用户对齐方法
CN112115981A (zh) * 2020-08-26 2020-12-22 微梦创科网络科技(中国)有限公司 一种社交网络博主的embedding评估方法及系统
CN112232834A (zh) * 2020-09-29 2021-01-15 中国银联股份有限公司 资源账户确定方法、装置、设备和介质
CN112651764A (zh) * 2019-10-12 2021-04-13 武汉斗鱼网络科技有限公司 一种目标用户识别方法、装置、设备和存储介质
CN113572679A (zh) * 2021-06-30 2021-10-29 北京百度网讯科技有限公司 账户亲密度的生成方法、装置、电子设备和存储介质
CN115048563A (zh) * 2022-08-15 2022-09-13 中国电子科技集团公司第三十研究所 基于熵权法的跨社交网络用户身份匹配方法、介质及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2866421A1 (en) * 2013-10-25 2015-04-29 Huawei Technologies Co., Ltd. Method and apparatus for identifying a same user in multiple social networks
CN109635201A (zh) * 2018-12-18 2019-04-16 苏州大学 异质社交网络跨平台关联用户账户挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2866421A1 (en) * 2013-10-25 2015-04-29 Huawei Technologies Co., Ltd. Method and apparatus for identifying a same user in multiple social networks
CN109635201A (zh) * 2018-12-18 2019-04-16 苏州大学 异质社交网络跨平台关联用户账户挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨奕卓等: "基于融合表示学习的跨社交网络用户身份匹配", 《计算机工程》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515986A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 一种社交网络图的处理方法、装置及存储介质
CN110515986B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 一种社交网络图的处理方法、装置及存储介质
CN112651764A (zh) * 2019-10-12 2021-04-13 武汉斗鱼网络科技有限公司 一种目标用户识别方法、装置、设备和存储介质
CN112651764B (zh) * 2019-10-12 2023-03-31 武汉斗鱼网络科技有限公司 一种目标用户识别方法、装置、设备和存储介质
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
CN111028044A (zh) * 2019-10-22 2020-04-17 贝壳技术有限公司 一种拼租方法、装置、电子设备和存储介质
CN111028044B (zh) * 2019-10-22 2023-10-27 贝壳技术有限公司 一种拼租方法、装置、电子设备和存储介质
CN111176838B (zh) * 2019-12-18 2023-12-22 北京百度网讯科技有限公司 为二分图中的节点分配嵌入向量的方法以及装置
CN111176838A (zh) * 2019-12-18 2020-05-19 北京百度网讯科技有限公司 为二分图中的节点分配嵌入向量的方法以及装置
CN111192154B (zh) * 2019-12-25 2023-05-02 西安交通大学 一种基于风格迁移的社交网络用户节点匹配方法
CN111192154A (zh) * 2019-12-25 2020-05-22 西安交通大学 一种基于风格迁移的社交网络用户节点匹配方法
CN111368552A (zh) * 2020-02-26 2020-07-03 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111340566A (zh) * 2020-03-23 2020-06-26 京东数字科技控股有限公司 一种商品分类方法、装置、电子设备及存储介质
CN111340566B (zh) * 2020-03-23 2023-12-08 京东科技控股股份有限公司 一种商品分类方法、装置、电子设备及存储介质
CN111475739A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络用户锚链接识别方法
CN111475739B (zh) * 2020-05-22 2022-07-29 哈尔滨工程大学 一种基于元路径的异质社交网络用户锚链接识别方法
CN111475738A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络位置锚链接识别方法
CN111475738B (zh) * 2020-05-22 2022-05-17 哈尔滨工程大学 一种基于元路径的异质社交网络位置锚链接识别方法
CN112084373A (zh) * 2020-08-05 2020-12-15 国家计算机网络与信息安全管理中心 一种基于图嵌入的多源异构网络用户对齐方法
CN112084373B (zh) * 2020-08-05 2022-06-03 国家计算机网络与信息安全管理中心 一种基于图嵌入的多源异构网络用户对齐方法
CN112115981A (zh) * 2020-08-26 2020-12-22 微梦创科网络科技(中国)有限公司 一种社交网络博主的embedding评估方法及系统
CN112115981B (zh) * 2020-08-26 2024-05-03 微梦创科网络科技(中国)有限公司 一种社交网络博主的embedding评估方法及系统
CN112232834A (zh) * 2020-09-29 2021-01-15 中国银联股份有限公司 资源账户确定方法、装置、设备和介质
CN112232834B (zh) * 2020-09-29 2024-04-26 中国银联股份有限公司 资源账户确定方法、装置、设备和介质
CN113572679B (zh) * 2021-06-30 2023-04-07 北京百度网讯科技有限公司 账户亲密度的生成方法、装置、电子设备和存储介质
CN113572679A (zh) * 2021-06-30 2021-10-29 北京百度网讯科技有限公司 账户亲密度的生成方法、装置、电子设备和存储介质
CN115048563A (zh) * 2022-08-15 2022-09-13 中国电子科技集团公司第三十研究所 基于熵权法的跨社交网络用户身份匹配方法、介质及装置

Also Published As

Publication number Publication date
CN110097125B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN110097125A (zh) 一种基于嵌入表示的跨网络账户关联方法
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
Li et al. AliMeKG: Domain knowledge graph construction and application in e-commerce
CN106598950B (zh) 一种基于混合层叠模型的命名实体识别方法
CN111259672A (zh) 基于图卷积神经网络的中文旅游领域命名实体识别方法
Mayr et al. Bibliometric-enhanced information retrieval
CN105389332A (zh) 一种地理社交网络下的用户相似性计算方法
Zhang et al. Learning distributed representations of data in community question answering for question retrieval
El Mohadab et al. Predicting rank for scientific research papers using supervised learning
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN108647800A (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
Ji et al. Attention based meta path fusion for heterogeneous information network embedding
CN115329085A (zh) 一种社交机器人分类方法及系统
Sharma et al. A study of tree based machine learning techniques for restaurant reviews
Jokar et al. Overlapping community detection in complex networks using fuzzy theory, balanced link density, and label propagation
CN110008411A (zh) 一种基于用户签到稀疏矩阵的深度学习兴趣点推荐方法
CN114048754A (zh) 一种融合上下文信息图卷积的中文短文本分类方法
Song et al. Identifying the topology of the K‐pop video community on Y ou T ube: A combined C o‐comment analysis approach
Sun et al. Mapping users across social media platforms by integrating text and structure information
Yu et al. A new method for link prediction using various features in social networks
Al-Mukhtar et al. Greedy modularity graph clustering for community detection of large co-authorship network
Wang et al. Park recommendation algorithm based on user reviews and ratings
Huang et al. An Empirical Study of Finding Similar Exercises

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant