CN112507247B - 一种融合用户状态信息的跨社交网络用户对齐方法 - Google Patents
一种融合用户状态信息的跨社交网络用户对齐方法 Download PDFInfo
- Publication number
- CN112507247B CN112507247B CN202011476008.7A CN202011476008A CN112507247B CN 112507247 B CN112507247 B CN 112507247B CN 202011476008 A CN202011476008 A CN 202011476008A CN 112507247 B CN112507247 B CN 112507247B
- Authority
- CN
- China
- Prior art keywords
- user
- users
- social network
- network
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 238000005295 random walk Methods 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000003062 neural network model Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 19
- 230000007704 transition Effects 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims 2
- 238000013508 migration Methods 0.000 claims 2
- 230000004913 activation Effects 0.000 claims 1
- 238000003012 network analysis Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 5
- 244000046052 Phaseolus vulgaris Species 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于社交网络分析领域,具体涉及一种融合用户状态信息的跨社交网络用户对齐方法;所述方法包括采用随机游走采样的方式提取用户的局部特征;采用迭代的方式计算出用户的状态值,循环比较具有相似状态值的用户集合作为该用户的全局特征;将局部特征和全局特征输入到词向量模型的神经网络模型中映射为低维特征向量;将用户在两个社交网络中的低维特征向量采用预设的映射函数进行对齐,输出源社交网络中的用户与目标社交网络中的用户中可能存在的潜在对齐用户对;本发明利用网络嵌入方法分别从局部和全局提取出社交用户特征,利用节点状态量化节点在网络中的重要性,通过融合节点状态以及迭代地更新训练对齐模型,提高用户识别的准确率。
Description
技术领域
本发明属于社交网络分析领域,具体涉及一种融合用户状态信息的跨社交网络用户对齐方法。
背景技术
随着社交网络的快速发展,一个用户通常在多个社交平台注册账户,通过网络对齐在不同网络中识别出属于相同用户的不同账户在商业应用、网络安全、推荐系统等方面具有关键作用。
现有技术在解决跨网络用户对齐的问题主要包括用户特征提取、模型构建和用户对齐三个阶段,在用户特征提取阶段的特征主要分为三类:基于用户配置文件信息、基于用户生成内容信息和基于网络结构,然后将提取的特征作为模型构建阶段的输入,根据已知对齐节点的可用性训练监督模型或非监督模型,最后利用训练后的模型预测两个用户身份是否匹配,其对齐过程参考如图1所示。
因为跨不同社交网络的用户信息存在较大噪声,且用户生成内容信息获取难度大,导致基于属性信息和生成内容信息的方法容易陷入信息不足、信息缺失、信息伪造等困境中,而社交网络结构拥有获取难度低、真实性高以及网络结构中隐含丰富信息等特点,所以现有技术利用网络结构,从节点自我网络、节点度、一阶邻居和公共邻居等角度提取用户特征来判断多网络用户是否对齐,但他们仅使用局部特征进行跨两个社交网络的用户对齐。例如中国专利CN111476673A提出了一种基于神经网络的社交网络间的用户对齐的方法、装置和介质,基于网络结构只考虑局部信息来进行随机游走,从局部角度基于拓扑一致性假设认为相同用户在不同网络中具有一致的连接结构;但单一角度特征即局部特征并不能准确反映用户的属性,结合局部和全局两个角度更有利于获取更多的用户特征。虽然中国专利CN105808696A还提出了一种基于全局和局部特征的跨在线社交网络用户匹配方法,但是该方法中使用公共映射邻居作为局部特征来判断网络的潜在匹配对,但由于网络的复杂性以及未知性,已知的锚节点对在网络中的分布是不确定的,相对大型网络来说分布可能很稀疏,这时通过判断公共映射邻居个数并不能识别潜在匹配节点,比如潜在对齐的节点与锚节点对距离很远,同时,该发明使用一个参数来结合局部特征和全局特征,但由于用户节点在不同网络中存在不同语义,在两个维度上的匹配结果可能存在较大差异。
发明内容
为了解决现有技术存在的问题,本发明提供了一种融合用户状态信息的跨社交网络用户对齐方法。本发明分别从局部和全局的角度提取用户丰富的结构信息,并将两个原始社交网络嵌入到公共低维向量空间,基于用户潜在特征训练一个映射函数,使用余弦距离衡量两个用户之间的相似性,按照相似度列表进行匹配,达到用户对齐的目的。
为实现上述发明目的,解决跨社交网络用户对齐,本发明采用的技术方案包括以下步骤:
一种融合用户状态信息的跨社交网络用户对齐方法,所述方法包括:
采用随机游走采样的方式提取社交网络中的用户的局部特征;
采用迭代的方式计算出社交网络中的用户的状态值,循环比较具有相似状态值的用户集合作为该用户的全局特征;
将局部特征和全局特征输入到词向量模型中的神经网络模型中,将所述社交网络用户映射为低维特征向量;
将用户在两个社交网络中的低维特征向量采用预设的映射函数进行对齐,输出源社交网络中的用户与目标社交网络中的用户中可能存在的潜在对齐用户对。
本发明的有益效果:
本发明利用网络嵌入方法分别从局部和全局的角度提取出社交用户特征,利用节点状态量化节点在网络中的重要性,通过融合节点状态利用已知锚节点对训练监督对齐模型,提高了用户识别的准确率;在给定相同社交网络数据集条件下,本发明可以比仅考虑局部结构或仅利用配置文件信息的方法识别出更多的不同社交网络上的用户。
附图说明
图1为传统用户对齐方法的阶段流程图;
图2为本发明实施例采用的用户对齐框架图;
图3为本发明实施例采用的用户对齐方法流程图;
图4是本发明实施例中局部特征的随机游走示意图;
图5是本发明实施例中用户所处于的不同状态示意图;
图6是本发明实施例中的局部特征和全局特征的提取和融合过程示意图;
图7是本发明实施例中实施例中模拟的随机游走示意图;
图8是本发明实施例中用户游走后的用户的状态示意图;
图9是本发明实施例采用的词向量模型中的神经网络模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
社交网络间的用户对齐作为社交网络分析中的一个基本和关键的问题,旨在从不同的社交网络平台中识别出属于同一用户的社交账号,社交网络用户对齐其实质就是让用户身份u指实际自然人P在社交平台上的独特的账户表示,它由三部分组成,分别是配置文件、内容和网络。配置文件表示用户的一组特征描述,包括用户名、位置、年龄等属性。内容表示用户参与活动的一组属性,包括时间、位置、文本和图像等。网络表示用户与其他用户社交关系属性的一组特征。
考虑到现有技术中所存在的技术问题,图2是本发明实施例的用户对齐架构图;本实施例假设存在源社交网络和目标社交网络,将源社交网络中的用户与目标社交网络中的用户对齐;先分别对源社交网络和目标社交网络中的用户提取出局部信息和全局信息,并将局部信息和全局信息进行融合;将融合后的信息嵌入空间;将嵌入空间中的向量输入到对齐模型中,实现源社交网络与目标社交网络中用户的对齐。
可以理解是,所述源社交网络与所述目标社交网络都可以有多个,本实施例为了方便展示,所以仅仅只采用了一个源社交网络和一个目标社交网络。
例如,用户A分别在微博社交网络平台、知乎社交网络平台以及豆瓣社交网络平台上进行注册并发表了相关的内容,通过本发明的用户对齐方法,将微博社交网络平台作为源社交网络,将豆瓣社交网络平台作为目标社交网络;分别采集微博平台和豆瓣平台的用户数据,通过本发明的用户对齐方法,就可以在豆瓣平台上找出微博中用户A的潜在对齐用户;经过一些处理后,最终可以将位于微博的用户A与位于豆瓣上的用户A进行对齐。
图3是本发明实施例的对齐方法的流程图,如图3所示,一种融合用户状态信息的跨社交网络用户对齐方法包括以下步骤:
101、采用随机游走采样的方式提取社交网络中的用户的局部特征;
本步骤目的是提取用户在网络中的局部信息,与用户直接相连的节点可以反映用户邻居的微观结构,而相距较远的高阶邻居反映出当前节点邻居的宏观特性,本发明利用深度优先游走(DFS)和广度优先游走(BFS)同时考虑节点直接邻居和高阶邻居,即所述局部特征。
在一个实施例中,对社交网络中的每个用户,以该用户对应的用户节点作为起点,随机访问该用户的邻居用户作为下一跳,然后以下一跳作为起点再次随机访问其邻居节点,根据社交网络中的用户平均度,直至构成一个定长的序列长度,然后重复上述过程,得到用户的随机游走序列作为用户的局部特征。
在一个更为优选的实施例中,给定一个社交网络G=(V,E),V表示网络中的节点集,E表示节点之间的边关系。给定起始节点t∈V,模拟随机游走,如图4所示,假设已经采样了[t,vi],为综合DFS和BFS的特性,本发明引入两个参数即第一游走参数p和第二游走参数q来控制节点vi下一次随机游走产生的方式,参数p控制采样在起始节点周围游走,反映BFS特性,即在当前节点的小社区内具有相似性,参数q反映DFS特征,旨在获取高阶邻居,通过p和q进行有中心地保留原始节点的局部特征。定义一个概率分布Tpq(t,vj)表示当前用户vi到其邻居用户vj的转移概率P(vj|vi):
其中,wij表示用户vi和用户vj之间的边权重,Tpq(t,vj)表示概率分布,即标准化前的转移概率,Z是用来标准化的常数,具体地:
Tpq(t,vj)表示当前用户vi基于其起始用户t到其不同邻居用户vj的转移概率分布,直观的解释这个概率分布:如果用户t与用户vj相等即dis(t,vj)=0,则采样到vj的概率为如果用户t与用户vj为直接邻居即dis(t,vj)=1,则采样到vj的概率为1;如果t与vj为不直接相连的高阶邻居,则采样到vj的概率为
本实施例中,仅考虑一阶和二阶邻居用户,更为高阶的邻居用户可以在本实施例的基础上,继续推广使用,本发明对此不做限定。
对于每个节点,迭代一定次数得到保留该节点以上所述局部特征的随机游走序列。
102、采用迭代的方式计算出社交网络中的用户的状态值,循环比较具有相似状态值的用户集合作为该用户的全局特征;
本步骤旨在为每个节点寻找具有相似角色的节点作为其在网络中的全局特征。首先,本发明提出了节点全局状态概念,本发明中的全局特征指节点在网络中的全局状态。节点全局状态可以反映节点在网络中的不同角色,体现不同重要性,如图5所示中,编号1的用户相比编号2的用户的重要性更大,编号3的用户起着桥接作用,连接不同的用户群体;编号3的用户重要性比1和2的用户都大,为了方便实施,编号1的用户作为组织者用户,编号2的用户作为成员用户,编号3的用户作为连接者用户。
其中,S(vi)表示用户vi的状态值;π表示用户vi到邻居用户的概率,(1-π)表示用户vi到其他非邻居用户的概率;|V|表示社交网络中的用户数,n(vi)是用户vi的邻居集合,本实施例中指的用户vi的直接相邻邻居;L(vj)表示用户vj的出链数;S(vj)表示用户vj的状态值。
本发明所采用的状态值能够反映用户在社交网络中的地位,即体现用户在社交网络中的重要性,如果一个节点具有很多的邻居用户,说明该用户比较重要,即他的状态值较大,如果一个节点与具有较大状态值的节点具有连接关系,那么其状态值也得到相应的提高。即将当前节点的状态值先均匀分配给具有连接关系的节点,则反映节点vi链接到当前节点vj时能够提升的状态值大小。
根据用户的状态值公式迭代计算节点状态值,当相邻两次迭代计算值的差异达到指定阈值,则停止迭代,此时则得到社交网络中每个用户的状态值。对于给定节点,循环比较具有相似状态值的节点集合作为该节点的全局特征,也即是将当前用户的状态值与其他用户的状态值进行比较,将具有相似状态值的用户所形成的用户集合作为当前用户的全局特征。
本发明所采用的全局特征,相比较于传统技术,能够在社交网络中按照状态值划分出具有不同状态值的用户,能够在稀疏的大型社交网络中准确的挖掘出用户在整个社交网络中的重要程度;通过计算状态值就能够反映出用户在社交网络中的全局特征。
103、将局部特征和全局特征输入到词向量模型中的神经网络模型中,将所述社交网络用户映射为低维特征向量;
本步骤目的是融合节点局部和全局状态特征,本实施例中利用自然语言词向量模型word2vec,将节点的局部和全局状态序列输入skip-gram模型,通过训练该模型将每个节点映射成一个固定长度的短向量,构成低维向量空间。
图6给出了本发明实施例中提取并融合局部特征和全局特征的过程,如图6所示,所述过程主要包括针对社交网络中的所有用户,对这些用户分别提取出特征,按照随机游走的不同采样方式提取出局部特征,按照用户状态值在整个网络中寻找具有相似角色状态关系的节点集,提取出全局特征,将局部特征序列和全局特征序列进行融合,将融合后的用户序列输入到skip-gram神经网络中,对所述神经网络模型进行优化训练,输出融合局部和全局特征的用户低维向量。
具体过程包括采用skip-gram模型对用户的随机游走序列以及相似状态用户序列进行训练,训练完成后,将所有用户编码为one-hot形式输入映射到权重矩阵中,使用梯度下降计算给定用户生成其相邻用户的条件概率并最大化该概率,得到用户与嵌入向量的映射表,训练结束后分别把不同社交网络里的所有用户通过查表表示为低维空间的用户向量。
在上述实施例的基础上,对于用户vi以及其用户序列[v1,v2,v3,…,vl],其中l表示序列长度,采用极大似然估计学习出社交网络中的潜在表示,其目标函数为:
其中f:vi→zi为映射函数,c是上下文窗口大小,条件概率p(vj|f(vi))为
zi为节点vi的嵌入向量,在上述目标函数中引入负采样加快训练效率,并对其中的极大似然估计部分的内容进行改进,表示为:
104、将用户在两个社交网络中的低维特征向量采用预设的映射函数进行对齐训练,利用对齐模型输出源社交网络中用户的候选锚节点,通过最小化与目标社交网络中的用户的预测损失,判断可能存在的潜在对齐用户对。
本步骤目的是基于学习到的两个网络的潜在向量表示,利用已知锚用户对及其潜在表示和学习一个映射函数Φ:Zs→Zt,映射函数的目的是使得在源社交网络Zs中的用户表示经过映射函数后其与在目标社交网络Zt中对应节点的距离最小。令Θ表示映射函数即对齐模型的所有参数,定义损失函数:
对源社交网络中待对齐节点,建立二部图迭代计算与目标社交网络中用户的相似性,当相似度达到预设阈值,则将目标社交网络中的该用户作为候选对齐节点,以此可得到一个潜在对齐的用户列表。如表1所示,表示DBLP的两个社交网络:数据挖掘和机器学习。
表1社交网络用户数据
本实施例首先对网络数据进行局部结构信息采样。设置随机游走长度80,迭代次数10次,学习率设为0.001,转移概率p=0.5,q=2。如图7所示,给定源节点B,模拟一个长度为l=5的随机游走,综合BFS和DFS采样策略生成不同的用户序列,依次可以表示为:[B,G,B,E,K],[B,C,B,E,G],[B,D,E,B,C]以及[B,G,E,B,F]。
本实施例首先计算节点状态值,阈值设置∈=0.001,阻尼系数π=0.85,使用图8描述节点状态值的计算过程,不同填充代表不同状态值;其中用户BCE的状态值最大,用户DF的状态值次之,用户GHI的状态值再次之,用户AJK的状态值最小。
首先初始化每个节点的状态值|V|表示网络节点个数,根据式节点状态值计算可得S(A)=S(B)=S(C)=…=S(K)=1/11;然后使用一个矩阵M表示社交网络节点间的边权重,mij表示用户vi和邻居用户vj之间的边权,将当前用户权重归一化后均匀分配给出链邻居用户即可得mDA=0.5,mDB=0.5,mED=0.33,mEB=0.33,mBC=1,mGB=0.5,mHB=0.5,mHE=0.5,mGE=0.5,mIB=0.5,mIE=0.5,mEF=0.33,mFB=0.5,mFE=0.5,mKE=1,mJE=1。遍历社交网络中的所有用户,根据状态值计算公式将每个用户的状态值S根据边权分配给其出链用户,进行多次迭代更新计算,当两次状态值达到指定阈值如|S′(A)-S(A)|<∈时停止迭代并得到所有用户的状态值,S(A)=0.033,S(D)=0.039,S(B)=0.384,S(C)=0.343,S(E)=0.081,S(F)=0.039,S(G)=S(H)=S(I)=S(J)=S(K)=0.016。由计算结果可对应图8中不同颜色节点的重要性。
由于网络用户各自状态的差异性,相似状态但状态值不相似,所以本发明将网络用户的状态分为不同状态等级,初始时具有一致状态值,迭代更新后处于不同状态级。对于每个用户,在相同状态级游走寻找指定长度的用户序列,作为全局状态特征。在图7中设计序列长度为3,对用户B可得全局特征[B,C,E],对用户G可得全局特征[G,H,I],对用户D可得全局特征[D,A,F]等。对大型社交网络本发明设置全局状态值序列长度可以更长,例如可以设置为80。
融合局部特征和全局特征的网络嵌入。本发明将用户的局部特征和全局特征序列输入skip-gram模型,如图9所示。在节点嵌入的计算过程中设置窗口大小c=10,维度d=128,得到源社交网络和目标社交网络向量表示Zs和Zt。
训练非线性对齐模型Φ:Zs→Zt,对源社交网络中待对齐节点,利用式相似性计算公式计算源社交网络节点与目标社交网络的节点间可能存在的潜在锚节点对之间的余弦距离,选择最相似的top_k个节点作为候选锚节点返回,与待预测节点存在稳定对齐关系则表示准确对齐,统计数量标记为hit_number,即有
本发明采用如下评价指标衡量对齐模型性能,
本发明将数据集以9:1的比例分为训练集Vtrain和测试集Vtest。其中k表示对源社交网络中待测试用户通过与目标社交网络中的用户计算相似性得到存在潜在对齐的用户列表长度,列表中用户为可能与当前用户对齐的用户集合,本实施例中通过构建二部图,对源网络中节点与目标网络中所有节点建立预测链接,计算相似性得到候选对齐节点列表,将候选用户的相似度与阈值进行比较,得到最终识别结果,hit_number为匹配个数,在最相似的top_k个节点中,正确对齐的节点在列表中排名越靠前,对齐的准确度越高。
本发明采用10次测试结果的平均值作为最终结果,采用四种现有技术与本发明进行对比:
Mego2Vec,这是一种利用节点的自我网络,结合用户名来解决一种局部网络的用户对齐方法;
PALE,仅利用网络结构的方法,基于一致性假设解决社交用户对齐问题;
MAH,利用超图构建网络的高阶信息,超图能一定程度上反映用户的全局信息。
在给定相同数据集上,对比现有技术Mego2Vec、PALE和MAH,记录在预测不同top_k值时的结果,如表2所示。
表2实例结果
由表2分析对比结果,Mego2Vec和PALE虽然从不同角度分析节点邻居,但Mego2Vec的自我网络局限于直接相连的一阶邻居,PALE利用公共邻居,MAG通过计算两两用户对之间的权重为每个网络构建一个社交图,通过流形对齐,得到最终识别的用户排序结果,虽然识别出一定的潜在用户对,但它们都忽略了节点全局状态的差异。本发明通过融合局部结构和全局状态特征的用户对齐方法,有效改进跨社交网络用户对齐的准确率,并且能够比现有技术识别出更多的潜在对齐用户对。
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述方法包括:
采用随机游走采样的方式提取社交网络中的用户的局部特征;
采用迭代的方式计算出社交网络中的用户的状态值,循环比较具有相似状态值的用户集合作为该用户的全局特征;
将局部特征和全局特征输入到词向量模型中的神经网络模型中,将所述社交网络用户映射为低维特征向量;
将用户在两个社交网络中的低维特征向量采用预设的映射函数进行对齐,输出源社交网络中的用户与目标社交网络中的用户中可能存在的潜在对齐用户对。
2.根据权利要求1所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述采用随机游走采样的方式提取社交网络中的用户的局部特征包括按照深度优先游走和广度优先游走分别设置出对应的第一游走参数和第二游走参数;按照所述第一游走参数和第二游走参数计算出用户游走的概率分布;按照所述概率分布计算出当前用户到其他邻居用户的转移概率;确定出用户游走的路线即随机游走序列,即为用户的局部特征。
5.根据权利要求1所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述循环比较具有相似状态值的用户集合作为该用户的全局特征包括当相邻两次迭代的状态值的差异达到指定阈值,则停止迭代,得到社交网络每个节点的状态值;将当前用户的状态值与其他用户的状态值进行比较,将具有相似状态值的用户所形成的用户集合作为当前用户的全局特征。
6.根据权利要求1所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述将局部特征和全局特征输入到词向量模型中的神经网络模型中包括利用自然语言词向量模型将用户的局部特征和全局特征输入到神经网络模型中,采用极大似然估计的目标函数训练所述神经网络模型,将每个用户映射成一个固定长度的短向量,并构成低维向量空间;所述短向量即为所述低维特征向量。
9.根据权利要求1所述的一种融合用户状态信息的跨社交网络用户对齐方法,其特征在于,所述输出源社交网络中的用户与目标社交网络中的用户中可能存在的潜在对齐用户对包括对源社交网络中的待对齐用户迭代计算其与目标社交网络的用户之间的相似度,当所述相似度达到预设阈值,则将目标社交网络的用户作为对齐用户,并形成源社交网络的待对齐用户的用户列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011476008.7A CN112507247B (zh) | 2020-12-15 | 2020-12-15 | 一种融合用户状态信息的跨社交网络用户对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011476008.7A CN112507247B (zh) | 2020-12-15 | 2020-12-15 | 一种融合用户状态信息的跨社交网络用户对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507247A CN112507247A (zh) | 2021-03-16 |
CN112507247B true CN112507247B (zh) | 2022-09-23 |
Family
ID=74973565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011476008.7A Active CN112507247B (zh) | 2020-12-15 | 2020-12-15 | 一种融合用户状态信息的跨社交网络用户对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507247B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095948B (zh) * | 2021-03-24 | 2023-06-06 | 西安交通大学 | 一种基于图神经网络的多源异构网络用户对齐方法 |
CN113326485B (zh) * | 2021-05-07 | 2022-09-09 | 南京邮电大学 | 基于动态网络表示学习的抗近邻合谋数字指纹生成方法 |
CN113409157B (zh) * | 2021-05-19 | 2022-06-28 | 桂林电子科技大学 | 一种跨社交网络用户对齐方法以及装置 |
CN113590912B (zh) * | 2021-06-15 | 2023-11-14 | 北京交通大学 | 融合节点相对位置和绝对度分布的跨社交网络对齐方法 |
CN114202035B (zh) * | 2021-12-16 | 2023-04-07 | 成都理工大学 | 一种多特征融合的大规模网络社区检测算法 |
CN115080871B (zh) * | 2022-07-07 | 2024-05-17 | 国家计算机网络与信息安全管理中心 | 一种跨社交网络社交用户对齐方法 |
CN115048563A (zh) * | 2022-08-15 | 2022-09-13 | 中国电子科技集团公司第三十研究所 | 基于熵权法的跨社交网络用户身份匹配方法、介质及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332000A (zh) * | 2011-07-22 | 2012-01-25 | 深圳市财富万方信息技术有限公司 | 一种个人社会化服务系统及其实现方法 |
CN105808696A (zh) * | 2016-03-03 | 2016-07-27 | 北京邮电大学 | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 |
CN107368534A (zh) * | 2017-06-21 | 2017-11-21 | 南京邮电大学 | 一种预测社交网络用户属性的方法 |
CN109753602A (zh) * | 2018-12-04 | 2019-05-14 | 中国科学院计算技术研究所 | 一种基于机器学习的跨社交网络用户身份识别方法和系统 |
CN109981337A (zh) * | 2019-02-04 | 2019-07-05 | 复旦大学 | 面向数据开放共享的多源数据对齐方法 |
CN110347932A (zh) * | 2019-06-04 | 2019-10-18 | 中国科学院信息工程研究所 | 一种基于深度学习的跨网络用户对齐方法 |
CN110442758A (zh) * | 2019-07-23 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种图对齐方法、装置和存储介质 |
CN110532436A (zh) * | 2019-07-17 | 2019-12-03 | 中国人民解放军战略支援部队信息工程大学 | 基于社区结构的跨社交网络用户身份识别方法 |
CN111476673A (zh) * | 2020-04-02 | 2020-07-31 | 中国人民解放军国防科技大学 | 基于神经网络的社交网络间用户对齐的方法、装置、介质 |
CN111667275A (zh) * | 2020-06-19 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 用户身份识别方法、装置、设备及其介质 |
CN111814066A (zh) * | 2020-07-01 | 2020-10-23 | 重庆邮电大学 | 基于启发式算法的动态社交用户对齐方法及系统 |
CN111931903A (zh) * | 2020-07-09 | 2020-11-13 | 北京邮电大学 | 一种基于双层图注意力神经网络的网络对齐方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350035A (zh) * | 2008-09-22 | 2009-01-21 | 北京理工大学 | 基于内容的三维模型检索方法试验平台 |
US8900596B2 (en) * | 2009-11-18 | 2014-12-02 | The Board Of Regents Of The University Of Texas System | Physicochemical (PCP) based consensus sequences and uses thereof |
US9070242B2 (en) * | 2011-07-01 | 2015-06-30 | Digital Creations, LLC | Techniques for controlling game event influence and/or outcome in multi-player gaming environments |
CA2844903A1 (en) * | 2011-08-12 | 2013-02-21 | School Improvement Network, Llc | Automatic determination of user alignments and recommendations for electronic resources |
CN105718885B (zh) * | 2016-01-20 | 2018-11-09 | 南京邮电大学 | 一种人脸特征点跟踪方法 |
CN106250812B (zh) * | 2016-07-15 | 2019-08-20 | 汤一平 | 一种基于快速r-cnn深度神经网络的车型识别方法 |
CN107526850A (zh) * | 2017-10-12 | 2017-12-29 | 燕山大学 | 基于多重个性化特征混合架构的社交网络好友推荐方法 |
CN110889434B (zh) * | 2019-10-29 | 2023-04-21 | 东南大学 | 一种基于活动的社交网络活动特征提取方法 |
CN111178178B (zh) * | 2019-12-16 | 2023-10-10 | 汇纳科技股份有限公司 | 结合区域分布的多尺度行人重识别方法、系统、介质及终端 |
-
2020
- 2020-12-15 CN CN202011476008.7A patent/CN112507247B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332000A (zh) * | 2011-07-22 | 2012-01-25 | 深圳市财富万方信息技术有限公司 | 一种个人社会化服务系统及其实现方法 |
CN105808696A (zh) * | 2016-03-03 | 2016-07-27 | 北京邮电大学 | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 |
CN107368534A (zh) * | 2017-06-21 | 2017-11-21 | 南京邮电大学 | 一种预测社交网络用户属性的方法 |
CN109753602A (zh) * | 2018-12-04 | 2019-05-14 | 中国科学院计算技术研究所 | 一种基于机器学习的跨社交网络用户身份识别方法和系统 |
CN109981337A (zh) * | 2019-02-04 | 2019-07-05 | 复旦大学 | 面向数据开放共享的多源数据对齐方法 |
CN110347932A (zh) * | 2019-06-04 | 2019-10-18 | 中国科学院信息工程研究所 | 一种基于深度学习的跨网络用户对齐方法 |
CN110532436A (zh) * | 2019-07-17 | 2019-12-03 | 中国人民解放军战略支援部队信息工程大学 | 基于社区结构的跨社交网络用户身份识别方法 |
CN110442758A (zh) * | 2019-07-23 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种图对齐方法、装置和存储介质 |
CN111476673A (zh) * | 2020-04-02 | 2020-07-31 | 中国人民解放军国防科技大学 | 基于神经网络的社交网络间用户对齐的方法、装置、介质 |
CN111667275A (zh) * | 2020-06-19 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 用户身份识别方法、装置、设备及其介质 |
CN111814066A (zh) * | 2020-07-01 | 2020-10-23 | 重庆邮电大学 | 基于启发式算法的动态社交用户对齐方法及系统 |
CN111931903A (zh) * | 2020-07-09 | 2020-11-13 | 北京邮电大学 | 一种基于双层图注意力神经网络的网络对齐方法 |
Non-Patent Citations (2)
Title |
---|
一种基于用户结构和属性的无监督用户对齐方法;俞冬明等;《南京大学学报(自然科学)》;20200130(第01期);第6-13页 * |
基于深度学习的领域知识对齐模型研究:知识网络视角;余传明等;《情报学报》;20200524(第05期);第67-79页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112507247A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507247B (zh) | 一种融合用户状态信息的跨社交网络用户对齐方法 | |
CN112784881B (zh) | 网络异常流量检测方法、模型及系统 | |
US20240163684A1 (en) | Method and System for Constructing and Analyzing Knowledge Graph of Wireless Communication Network Protocol, and Device and Medium | |
CN110851645A (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
CN112988917B (zh) | 一种基于多种实体上下文的实体对齐方法 | |
Xie et al. | Unsupervised user identity linkage via factoid embedding | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN110866134B (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN114268547B (zh) | 一种多属性决策的空中应急通信网络关键节点识别方法 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN114169442A (zh) | 基于双原型网络的遥感图像小样本场景分类方法 | |
CN109686402B (zh) | 基于动态加权相互作用网络中关键蛋白质识别方法 | |
CN113297429B (zh) | 一种基于神经网络架构搜索的社交网络链路预测方法 | |
CN116842459B (zh) | 一种基于小样本学习的电能计量故障诊断方法及诊断终端 | |
CN101901251B (zh) | 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法 | |
CN113836707A (zh) | 基于加速属性网络嵌入算法的电力系统社区探测方法和装置 | |
CN109948242A (zh) | 基于特征哈希的网络表示学习方法 | |
CN115734274A (zh) | 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法 | |
CN114254093A (zh) | 多空间知识增强的知识图谱问答方法及系统 | |
CN112365139A (zh) | 一种图卷积神经网络下的人群危险程度分析方法 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN111738346A (zh) | 一种生成式对抗网络估值的不完整数据聚类方法 | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN116720975A (zh) | 基于结构相似的局部社区发现方法及系统 | |
CN104156462A (zh) | 基于元胞自动学习机的复杂网络社团挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |