CN111815468A - 一种基于用户身份关联的多源社交网络构建方法 - Google Patents

一种基于用户身份关联的多源社交网络构建方法 Download PDF

Info

Publication number
CN111815468A
CN111815468A CN202010498851.9A CN202010498851A CN111815468A CN 111815468 A CN111815468 A CN 111815468A CN 202010498851 A CN202010498851 A CN 202010498851A CN 111815468 A CN111815468 A CN 111815468A
Authority
CN
China
Prior art keywords
node
nodes
super
edge
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010498851.9A
Other languages
English (en)
Other versions
CN111815468B (zh
Inventor
王勇
潘中怀
杨静
张泽宝
王昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010498851.9A priority Critical patent/CN111815468B/zh
Publication of CN111815468A publication Critical patent/CN111815468A/zh
Application granted granted Critical
Publication of CN111815468B publication Critical patent/CN111815468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的一种基于用户身份关联的多源社交网络构建方法,属于社交网络分析技术领域。首先定义伪超边的概念并构造伪超边超图模型,通过引入拓扑亲密值度量超图中节点间拓扑结构相似性,然后将超图中节点的用户名属性向量化进行相似度计算,进而提出基于联合锁定策略的用户身份关联方法实现跨社交网络用户匹配,最后基于用户匹配结果进行社交关系填补完成多源社交网络构建。本发明提出的基于用户身份关联的多源社交网络的构建方法最大化利用网络拓扑信息,综合利用结构特性和用户属性进行用户匹配,克服单一网络的局限性,构建的网络更加完备、精准,在种子节点有限的情况下也能获得较好地效果。

Description

一种基于用户身份关联的多源社交网络构建方法
技术领域
本发明涉及基于一种基于用户身份关联的多源社交网络构建方法,属于社交网络分析技术领域。
背景技术
随着互联网技术的高速发展和移动智能终端的大量普及,人们通过多个社交网络平台进行信息交流、情感沟通等,社交网络已经成为维持社会关系、信息传播的重要媒介和平台,基于社交网络的舆情监控、广告推送以及好友推荐等成为前沿热点研究领域之一。社交网络构建是社交网络分析研究的基础和核心,构建更加完备和精准的多源社交网络是保障分析结果准确与有效应用的关键。面对多源异构网络融合的复杂性,现阶段国内外多源社交网络构建研究较少,主要集中在单一目标网络建模方面。一般地,跨媒体社交网络构建主要通过研究社交网络固有的“小世界”、“无标度”等特性,基于图论、统计学等领域知识,进行单一社交网络模型构建,然后结合跨社交网络用户关联、关系填补等技术,进而实现多源社交网络的构建。
基于用户身份关联是多源社交网络构建的核心关键技术,常用方法主要包括:基于字符串的相似性进行匹配,利用机器学习等技术提取用户单一属性字符串或结合的多种属性字符串来计算用户的相似程度,并依据用户属性的重要程度或特有程度施以不同大小的权重完成跨社交网络用户身份的匹配;基于拓扑结构的算法,利用网络拓扑结构蕴含信息,结合多属性方法对用户进行识别,提高了匹配准确率;利用用户属性和三度影响力原则创建的匹配模型来推测用户的身份特征,从而解决了因局部拓扑结构稀疏导致的匹配结果不稳定的问题。现有基于用户身份关联的多源社交网络构建方法大多依赖属性字符串的匹配或与匹配过程的相互组合,或是利用拓扑结构进行相似性计算,前者需要大量的种子节点进行训练,后者依据过于单一,因而很难做到种子节点较少的情况下精确匹配与社交关系的有效填补,如何更加有效地描述、刻画现实世界的真实网络依然是重要挑战。
发明内容
本发明的目的是提出一种基于用户身份关联的多源社交网络构建方法,以克服单一网络的局限性,使构建的网络更加完备、精准,在种子节点有限的情况下也能获得较好地效果。
一种基于用户身份关联的多源社交网络构建方法,所述构建方法包括以下步骤:
步骤一、使用伪超边超图模型构建算法PHA建立伪超边超图模型,融入弱连接的非直接好友关系;
步骤二、基于伪超边超图模型,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,然后根据不同网络节点之间的拓扑相似度,通过对拓扑相似度的分段划分获得节点候选集;
步骤三、利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度;
步骤四、采用基于联合锁定策略的用户身份关联算法JUA处理候选集,识别当前最优跨网络节点对,加入种子节点集,重复JUA算法并最终输出匹配节点集合;
步骤五、利用基于用户身份关联的多源社交网络构建算法UACA根据匹配节点集合进行多源社交网络的融合,返回融合后的复合网络。
进一步的,在步骤一中,使用伪超边超图模型构建算法PHA建立伪超边超图模型,具体为:社交网络Gh(Vh,Eh,Eph)的超图结构称为伪超边超图模型,其中Vh是超点集,代表网络中的用户节点,Eh是超边集,表示具有直接好友关系的用户构成超边集合,Eph是伪超边集,表示拥有共同好友关系的非好友节点构成的伪超边集合,对于伪超边超图模型中的直接好友关系和拥有共同好友关系设置不同的权值,由超边内节点关系权重应大于伪超边,对于节点间直接相连所构成的超边关系,将其权重设置为
Figure BDA0002523988020000021
对于由弱连接关系构建的伪超边结构,由于节点之间并没有直接相连,将其权值设置为δ且
Figure BDA0002523988020000022
并引入参数q<1,令
Figure BDA0002523988020000023
以比值的形式度量两种关系。
进一步的,在步骤二中,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,具体的计算方法为:
Figure BDA0002523988020000024
其中,Gh为种子节点集,f(vi,vj)为节点关系函数,用于判断节点对(vi,vj)所在的节点关系,Eh/Eph/Null为返回值;当f(vi,vj)返回Eh时,
Figure BDA0002523988020000031
此时超边中的两个节点联系紧密,拓扑亲密值高;当f(vi,vj)返回Eph时,
Figure BDA0002523988020000032
此时两节点在网络中为弱连接关系,不直接相连,所以节点联系疏远,拓扑亲密值低;否则,
Figure BDA0002523988020000033
进一步的,在步骤二中,不同网络节点之间的拓扑相似度的具体计算方法为:
Figure BDA0002523988020000034
其中,
Figure BDA0002523988020000035
Figure BDA0002523988020000036
是不同社交网络中的任意节点,
Figure BDA0002523988020000037
分别为第K个种子节点对之间的拓扑亲密值,
Figure BDA0002523988020000038
为不同网络中的节点
Figure BDA0002523988020000039
和节点
Figure BDA00025239880200000310
与所有种子节点对的
Figure BDA00025239880200000311
之和。
进一步的,在步骤三中,利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度,具体为:
TF-IDF=tfj,ni*idfj,
其中,tfj,ni表示对用户名进行二分词后的特征j在用户名ni中出现的频次,idfj,为逆向特征频率,表示特征j出现在整个候选集用户名中的次数和候选集中用户名总数,计算方法如下公式所示:
Figure BDA00025239880200000312
其中,|N|为用户名总数,ni为N中的一个用户名,
在节点候选集中节点用户名属性的向量化表示后,使用余弦相似度方法进行用户名的相似度计算,计算方法如下公式所示:
Figure BDA00025239880200000313
其中,CCname代表两个用户名的相似度,ni、nj代表候选集中节点用户名属性的向量化表示后的向量空间,tki、tkj表示用户名中第K个特征向量与TF-IDF权重的乘积。
进一步的,在步骤四中,采用基于联合锁定策略的用户身份关联算法JUA处理候选集输出节点对匹配,具体为:
步骤四一、将一般简单网络Gx(Vx,Ex)和Gy(Vy,Ey),输入超边与伪超边的权重比值q以及种子点集S,构建伪超边超图模型
Figure BDA0002523988020000041
Figure BDA0002523988020000042
步骤四二、遍历节点,计算节点与每个种子节点的拓扑亲密值T,进而根据每个节点的T值计算出拓扑相似度Sn,依据拓扑相似度Sn的值在两个网络中选择最优值节点对进入候选集;
步骤四三、之后计算候选集中节点用户名的余弦相似度,选择用户名属性相似度和Sn都较为相似的两个节点作为结果加入匹配结果集,将步骤四三的匹配结果作为种子节点加入种子节点集S;
步骤四四、重新计算T和Sn并重复步骤四二至步骤四三,当所有节点均已被遍历时停止迭代,输出最后的匹配结果集。
进一步的,在步骤五中,利用基于用户身份关联的多源社交网络构建算法UACA依据匹配结果集进行多源社交网络融合,具体为:
步骤五一、遍历JUA算法得到的匹配节点结果集合,并在伪超边超图模型网络中一一标记;
步骤五二、生成一个新的节点,将标记节点对的连线全部复制,将标记的节点对及其身上的连线全部清除;
步骤五三、对每一对标记的节点做出步骤五一至步骤五二的操作,最后输出构建完成的融合网络。
本发明的主要优点是:本发明提出一种基于用户身份关联的多源社交网络构建方法,首先定义伪超边的概念并构造伪超边超图模型,通过引入拓扑亲密值度量超图中节点间拓扑结构相似性,然后将超图中节点的用户名属性向量化进行相似度计算,进而提出基于联合锁定策略的用户身份关联方法实现跨社交网络用户匹配,最后基于用户匹配结果进行社交关系填补完成多源社交网络构建。本发明提出的基于用户身份关联的多源社交网络的构建方法最大化利用网络拓扑信息,综合利用结构特性和用户属性进行来用户匹配,克服单一网络的局限性,构建的网络更加完备、精准,在种子节点有限的情况下也能获得较好地效果。
附图说明
图1为本发明的一种基于用户身份关联的多源社交网络构建方法的方法流程图;
图2为用户名所含特征数量示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,本发明提出了一种基于用户身份关联的多源社交网络构建方法的一实施例,所述构建方法包括以下步骤:
步骤一、使用伪超边超图模型构建算法PHA建立伪超边超图模型,融入弱连接的非直接好友关系;
步骤二、基于伪超边超图模型,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,然后根据不同网络节点之间的拓扑相似度,通过对拓扑相似度的分段划分获得节点候选集;
步骤三、利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度;
步骤四、采用基于联合锁定策略的用户身份关联算法JUA处理候选集,识别当前最优跨网络节点对,加入种子节点集,重复JUA算法并最终输出匹配节点集合;
步骤五、利用基于用户身份关联的多源社交网络构建算法UACA根据匹配节点集合进行多源社交网络的融合,返回融合后的复合网络。
在步骤一中,使用伪超边超图模型构建算法PHA建立伪超边超图模型,具体为:社交网络Gh(Vh,Eh,Eph)的超图结构称为伪超边超图模型,其中Vh是超点集,代表网络中的用户节点,Eh是超边集,表示具有直接好友关系的用户构成超边集合,Eph是伪超边集,表示拥有共同好友关系的非好友节点构成的伪超边集合,对于伪超边超图模型中的直接好友关系和拥有共同好友关系设置不同的权值,由超边内节点关系权重应大于伪超边,对于节点间直接相连所构成的超边关系,将其权重设置为
Figure BDA0002523988020000061
对于由弱连接关系构建的伪超边结构,由于节点之间并没有直接相连,将其权值设置为δ且
Figure BDA0002523988020000062
并引入参数q<1,令
Figure BDA0002523988020000063
以比值的形式度量两种关系。
在步骤二中,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,具体的计算方法为:
Figure BDA0002523988020000064
其中,Gh为种子节点集,f(vi,vj)为节点关系函数,用于判断节点对(vi,vj)所在的节点关系,Eh/Eph/Null为返回值;当f(vi,vj)返回Eh时,
Figure BDA0002523988020000065
此时超边中的两个节点联系紧密,拓扑亲密值高;当f(vi,vj)返回Eph时,
Figure BDA0002523988020000066
此时两节点在网络中为弱连接关系,不直接相连,所以节点联系疏远,拓扑亲密值低;否则,
Figure BDA0002523988020000067
具体的,由于好友关系在不同社交网络中非常容易保持一致性,所以在多个好友网络间,可以借助已知是同一用户的节点(种子节点)来判断其他用户(待匹配用户)是否为同一用户,因为多网络中的同一用户与种子节点之间具有跨网络一致性。因此可利用这种一致性来筛选待匹配用户对的候选集。
在超图模型网络中,两个节点同时存在的超边与伪超边越多,这两个节点间的拓扑亲密值就越高,且超边权值高于伪超边,拓扑亲密值刻画了两个好友间的一种亲密程度。
已知社交关系网络G(V,E),以及在其上构建的伪超边超图模型网络Gh(Vh,Eh,Eph),Gh中的两个节点vi∈Vh和vj∈Vh的拓扑亲密值计算方法如下式所示:
Figure BDA0002523988020000071
其中,Gh表示种子节点集,f(vi,vj)是节点关系函数,用来判断节点对(vi,vj)所在的节点关系,返回值为Eh/Eph/Null;当f(vi,vj)返回Eh时,
Figure BDA0002523988020000072
此时超边中的两个节点联系比较紧密,拓扑亲密值较高;当f(vi,vj)返回Eph时,
Figure BDA0002523988020000073
此时两节点在网络中为弱连接关系,并不直接相连,所以节点联系较为疏远,拓扑亲密值较低;否则,
Figure BDA0002523988020000074
可利用节点的拓扑亲密值来比较不同网络中的用户相似度。因此,对于不同网络中的两个节点
Figure BDA0002523988020000075
Figure BDA0002523988020000076
它们的网络拓扑结构相似性便可以一定程度上表示用户相似性,据此来求取待匹配节点对的候选集。拓扑相似度计算表达式如下式所示:
Figure BDA0002523988020000077
若节点
Figure BDA0002523988020000078
Figure BDA0002523988020000079
是现实中的同一个真实用户,那么它们与所有种子节点的拓扑亲密值的差的绝对值
Figure BDA00025239880200000710
就会很小,那么用户相似度
Figure BDA00025239880200000711
就会很大。通过计算所有的待匹配节点的Sn值并进行分段划分,便可获得节点对候选集。
在步骤二中,不同网络节点之间的拓扑相似度的具体计算方法为:
Figure BDA00025239880200000712
其中,
Figure BDA00025239880200000713
Figure BDA00025239880200000714
是不同社交网络中的任意节点,
Figure BDA00025239880200000715
分别为第K个种子节点对之间的拓扑亲密值,
Figure BDA00025239880200000716
为不同网络中的节点
Figure BDA00025239880200000717
和节点
Figure BDA00025239880200000718
与所有种子节点对的
Figure BDA00025239880200000719
之和。
在步骤三中,利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度,具体为:
TF-IDF=tfj,ni*idfj,
其中,tfj,ni表示对用户名进行二分词后的特征j在用户名ni中出现的频次,idfj,为逆向特征频率,表示特征j出现在整个候选集用户名中的次数和候选集中用户名总数,计算方法如下公式所示:
Figure BDA0002523988020000081
其中,|N|为用户名总数,ni为N中的一个用户名,
在节点候选集中节点用户名属性的向量化表示后,使用余弦相似度方法进行用户名的相似度计算,计算方法如下公式所示:
Figure BDA0002523988020000082
其中,CCname代表两个用户名的相似度,ni、nj代表候选集中节点用户名属性的向量化表示后的向量空间,
Figure BDA0002523988020000083
表示用户名中第K个特征向量与TF-IDF权重的乘积。
具体的,社交网络内的相邻好友的节点拓扑亲密值相近,且他们拓扑亲密值差值及拓扑结构相似性可以在一定程度上反映出节点相似情况。在此基础上,若要进一步锁定匹配的节点对,还需要借助其他信息来判定。
生活中常用的用户名是一个个字符串,且极可能包含特殊字符,若要计算字符串之间的相似度,最常用的方法便是将其转化为一个数字再进行比对,因此本实施例采用自然语言处理领域的分词方法对用户名信息向量化处理,将字符串分割成多个特征,并用向量的多个维度来表示。
在此之前,本实施例要先对用户名统一规格,首先将英文字母统一大小写,然后去掉里面的表情元素等特殊符号,再将用户名的中英文字符分离,得到中英文字符串。在特征提取时,分词的效果很大程度上影响着相似度的计算,对于“n-gram”频数,由于用户名本身一般不会太长,因此对于中英文字符串均取n=2,相当于对原始字符串进行二分词;最后利用TF-IDF策略计算每个特征的权值,从而实现用户名属性的向量化表示。
对每个“2-gram”特征j,其词频表达式如下式所示:
Figure BDA0002523988020000084
其中,|N|为用户名总数,ni为N中的一个用户名。
参照图2所示,例如在{Susua,Sue,Susa,Lisa}所组成的用户名集合N中,从观察来看,Susun与Susa最为相似,Sue与Lisa毫无相似性,接下来通过计算的方式对其验证。
由于例子中的用户名为纯英文,因此将用户名字符串直接进行“2-gram”分词,即上述集合含有特征:su,us,ua等,所有特征及其频数如图2所示。
计算得到各特征的idf值,如表1所示:
Figure BDA0002523988020000091
表1用户名特征词频idf
再与其频数相乘即可得到用户名字符串对应的向量表示形式,即VSusua=(0.83,1,2,0,0,0,0);VSue=(0.415,0,0,2,0,0,0);VSusa=(0.415,1,0,0,1,0,0);VLisa=(0,0,0,0,1,2,2)。对于含有中文的用户名同理,只需将中英文字符串特征按对应位置结合即可。本实施例使用余弦相似度来计算用户名的相似度,四个用户名的余弦相似度CCname值如表2所示。
Figure BDA0002523988020000092
表2用户名字符串的相似度
由于前面提出的方法已经确定了待匹配节点对的候选集,因此本处实际上并不需要对所有用户名都进行相似度计算,因此候选集大大降低了算法的运行时间(本示例为了演示计算了所有用户名间的相似度)。由数据可知,Susua、Susa、Sue三个相似的用户中Susua与Susa更相似一些,Sue与Susua较相似,Lisa与Susa略有相似,这与人们的视觉感受相符,从理论上表明了算法具有一定的有效性,本示例仅为了说明该部分的逻辑可行性。
在步骤四中,采用基于联合锁定策略的用户身份关联算法JUA处理候选集输出节点对匹配,具体为:
步骤四一、将一般简单网络Gx(Vx,Ex)和Gy(Vy,Ey),输入超边与伪超边的权重比值q以及种子点集S,构建伪超边超图模型
Figure BDA0002523988020000101
Figure BDA0002523988020000102
步骤四二、遍历节点,计算节点与每个种子节点的拓扑亲密值T,进而根据每个节点的T值计算出拓扑相似度Sn,依据拓扑相似度Sn的值在两个网络中选择最优值节点对进入候选集;
步骤四三、之后计算候选集中节点用户名的余弦相似度,选择用户名属性相似度和Sn都较为相似的两个节点作为结果加入匹配结果集,将步骤四三的匹配结果作为种子节点加入种子节点集S;
步骤四四、重新计算T和Sn并重复步骤四二至步骤四三,当所有节点均已被遍历时停止迭代,输出最后的匹配结果集。
在步骤五中,利用基于用户身份关联的多源社交网络构建算法UACA依据匹配结果集进行网络融合,具体为:
步骤五一、遍历JUA算法得到的匹配节点结果集合,并在伪超边超图模型网络中一一标记;
步骤五二、生成一个新的节点,将标记节点对的连线全部复制,将标记的节点对及其身上的连线全部清除;
步骤五三、对每一对标记的节点做出步骤五一至步骤五二的操作,最后输出构建完成的融合网络。

Claims (7)

1.一种基于用户身份关联的多源社交网络构建方法,其特征在于,所述构建方法包括以下步骤:
步骤一、使用伪超边超图模型构建算法PHA建立伪超边超图模型,融入弱连接的非直接好友关系;
步骤二、基于伪超边超图模型,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,然后根据不同网络节点之间的拓扑相似度,通过对拓扑相似度的分段划分获得节点候选集;
步骤三、利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度;
步骤四、采用基于联合锁定策略的用户身份关联算法JUA处理候选集,识别当前最优跨网络节点对,加入种子节点集,重复JUA算法并最终输出匹配节点集合;
步骤五、利用基于用户身份关联的多源社交网络构建算法UACA根据匹配节点集合进行多源社交网络的融合,返回融合后的复合网络。
2.根据权利要求1所述的一种基于用户身份关联的多源社交网络构建方法,其特征在于,在步骤一中,使用伪超边超图模型构建算法PHA建立伪超边超图模型,具体为:社交网络Gh(Vh,Eh,Eph)的超图结构称为伪超边超图模型,其中Vh是超点集,代表网络中的用户节点,Eh是超边集,表示具有直接好友关系的用户构成超边集合,Eph是伪超边集,表示拥有共同好友关系的非好友节点构成的伪超边集合,对于伪超边超图模型中的直接好友关系和拥有共同好友关系设置不同的权值,由超边内节点关系权重应大于伪超边,对于节点间直接相连所构成的超边关系,将其权重设置为
Figure FDA0002523988010000011
对于由弱连接关系构建的伪超边结构,由于节点之间并没有直接相连,将其权值设置为δ且
Figure FDA0002523988010000012
并引入参数q<1,令
Figure FDA0002523988010000013
以比值的形式度量两种关系。
3.根据权利要求1所述的一种基于用户身份关联的多源社交网络构建方法,其特征在于,在步骤二中,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,具体的计算方法为:
Figure FDA0002523988010000014
其中,Gh为种子节点集,f(vi,vj)为节点关系函数,用于判断节点对(vi,vj)所在的节点关系,Eh/Eph/Null为返回值;当f(vi,vj)返回Eh时,
Figure FDA0002523988010000021
此时超边中的两个节点联系紧密,拓扑亲密值高;当f(vi,vj)返回Eph时,
Figure FDA0002523988010000022
此时两节点在网络中为弱连接关系,不直接相连,所以节点联系疏远,拓扑亲密值低;否则,
Figure FDA0002523988010000023
4.根据权利要求1所述的一种基于用户身份关联的多源社交网络构建方法,其特征在于,在步骤二中,不同网络节点之间的拓扑相似度的具体计算方法为:
Figure FDA0002523988010000024
其中,
Figure FDA0002523988010000025
Figure FDA0002523988010000026
是不同社交网络中的任意节点,
Figure FDA0002523988010000027
分别为第K个种子节点对之间的拓扑亲密值,
Figure FDA0002523988010000028
为不同网络中的节点
Figure FDA0002523988010000029
和节点
Figure FDA00025239880100000210
与所有种子节点对的
Figure FDA00025239880100000211
之和。
5.根据权利要求1所述的一种基于用户身份关联的多源社交网络构建方法,其特征在于,在步骤三中,利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度,具体为:
TF-IDF=tfj,ni*idfj,
其中,tfj,ni表示对用户名进行二分词后的特征j在用户名ni中出现的频次,idfj,为逆向特征频率,表示特征j出现在整个候选集用户名中的次数和候选集中用户名总数,计算方法如下公式所示:
Figure FDA00025239880100000212
其中,|N|为用户名总数,ni为N中的一个用户名,
在节点候选集中节点用户名属性的向量化表示后,使用余弦相似度方法进行用户名的相似度计算,计算方法如下公式所示:
Figure FDA0002523988010000031
其中,CCname代表两个用户名的相似度,ni、nj代表候选集中节点用户名属性的向量化表示后的向量空间,tki、tkj表示用户名中第K个特征向量与TF-IDF权重的乘积。
6.根据权利要求1所述的一种基于用户身份关联的多源社交网络构建方法,其特征在于,在步骤四中,采用基于联合锁定策略的用户身份关联算法JUA处理候选集输出节点对匹配,具体为:
步骤四一、将一般简单网络Gx(Vx,Ex)和Gy(Vy,Ey),输入超边与伪超边的权重比值q以及种子点集S,构建伪超边超图模型
Figure FDA0002523988010000032
Figure FDA0002523988010000033
步骤四二、遍历节点,计算节点与每个种子节点的拓扑亲密值T,进而根据每个节点的T值计算出拓扑相似度Sn,依据拓扑相似度Sn的值在两个网络中选择最优值节点对进入候选集;
步骤四三、之后计算候选集中节点用户名的余弦相似度,选择用户名属性相似度和Sn都较为相似的两个节点作为结果加入匹配结果集,将步骤四三的匹配结果作为种子节点加入种子节点集S;
步骤四四、重新计算T和Sn并重复步骤四二至步骤四三,当所有节点均已被遍历时停止迭代,输出最后的匹配结果集。
7.根据权利要求1所述的一种基于用户身份关联的多源社交网络构建方法,其特征在于,在步骤五中,利用基于用户身份关联的多源社交网络构建算法UACA依据匹配结果集进行多源社交网络融合,具体为:
步骤五一、遍历JUA算法得到的匹配节点结果集合,并在伪超边超图模型网络中一一标记;
步骤五二、生成一个新的节点,将标记节点对的连线全部复制,将标记的节点对及其身上的连线全部清除;
步骤五三、对每一对标记的节点做出步骤五一至步骤五二的操作,最后输出构建完成的融合网络。
CN202010498851.9A 2020-06-04 2020-06-04 一种基于用户身份关联的多源社交网络构建方法 Active CN111815468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010498851.9A CN111815468B (zh) 2020-06-04 2020-06-04 一种基于用户身份关联的多源社交网络构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010498851.9A CN111815468B (zh) 2020-06-04 2020-06-04 一种基于用户身份关联的多源社交网络构建方法

Publications (2)

Publication Number Publication Date
CN111815468A true CN111815468A (zh) 2020-10-23
CN111815468B CN111815468B (zh) 2023-05-09

Family

ID=72848469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010498851.9A Active CN111815468B (zh) 2020-06-04 2020-06-04 一种基于用户身份关联的多源社交网络构建方法

Country Status (1)

Country Link
CN (1) CN111815468B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836139A (zh) * 2021-02-03 2021-05-25 杭州师范大学钱江学院 融合用户特征和嵌入学习的跨社交网络用户身份关联方法
CN113297397A (zh) * 2021-05-12 2021-08-24 山东大学 一种基于层次化多模态信息融合的信息匹配方法及系统
CN113806450A (zh) * 2021-05-21 2021-12-17 西南交通大学 一种基于综合交通大数据的融合型旅客关系网络构建方法
CN115048563A (zh) * 2022-08-15 2022-09-13 中国电子科技集团公司第三十研究所 基于熵权法的跨社交网络用户身份匹配方法、介质及装置
CN116091260A (zh) * 2023-04-07 2023-05-09 吕梁学院 一种基于Hub-node节点的跨域实体身份关联方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133944A (zh) * 2014-07-11 2014-11-05 西南交通大学 一种超网络的构建方法
US20150347480A1 (en) * 2014-05-30 2015-12-03 Georgetown University Process and Framework For Facilitating Data Sharing Using a Distributed Hypergraph
CN107145541A (zh) * 2017-04-24 2017-09-08 安徽师范大学 基于超图结构的社交网络推荐模型构建方法
CN107257356A (zh) * 2017-04-19 2017-10-17 苏州大学 一种基于超图分割的社交用户数据优化放置方法
WO2018077301A1 (zh) * 2016-10-31 2018-05-03 中国科学技术大学先进技术研究院 账号筛选方法和装置
CN110166287A (zh) * 2019-05-05 2019-08-23 南京邮电大学 一种基于带权超图的同一用户识别方法
CN110532436A (zh) * 2019-07-17 2019-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150347480A1 (en) * 2014-05-30 2015-12-03 Georgetown University Process and Framework For Facilitating Data Sharing Using a Distributed Hypergraph
CN104133944A (zh) * 2014-07-11 2014-11-05 西南交通大学 一种超网络的构建方法
WO2018077301A1 (zh) * 2016-10-31 2018-05-03 中国科学技术大学先进技术研究院 账号筛选方法和装置
CN107257356A (zh) * 2017-04-19 2017-10-17 苏州大学 一种基于超图分割的社交用户数据优化放置方法
CN107145541A (zh) * 2017-04-24 2017-09-08 安徽师范大学 基于超图结构的社交网络推荐模型构建方法
CN110166287A (zh) * 2019-05-05 2019-08-23 南京邮电大学 一种基于带权超图的同一用户识别方法
CN110532436A (zh) * 2019-07-17 2019-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘可心: "基于用户交互行为的在线社交网络社区发现方法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
徐乾: "跨社交网络用户身份识别算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王勇: "社会网络结构及影响力分析方法研究", 《中国博士学位论文全文数据库 基础科学辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836139A (zh) * 2021-02-03 2021-05-25 杭州师范大学钱江学院 融合用户特征和嵌入学习的跨社交网络用户身份关联方法
CN113297397A (zh) * 2021-05-12 2021-08-24 山东大学 一种基于层次化多模态信息融合的信息匹配方法及系统
CN113297397B (zh) * 2021-05-12 2022-08-09 山东大学 一种基于层次化多模态信息融合的信息匹配方法及系统
CN113806450A (zh) * 2021-05-21 2021-12-17 西南交通大学 一种基于综合交通大数据的融合型旅客关系网络构建方法
CN115048563A (zh) * 2022-08-15 2022-09-13 中国电子科技集团公司第三十研究所 基于熵权法的跨社交网络用户身份匹配方法、介质及装置
CN116091260A (zh) * 2023-04-07 2023-05-09 吕梁学院 一种基于Hub-node节点的跨域实体身份关联方法及系统

Also Published As

Publication number Publication date
CN111815468B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111815468B (zh) 一种基于用户身份关联的多源社交网络构建方法
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
CN111737535B (zh) 一种基于元结构和图神经网络的网络表征学习方法
CN103218397B (zh) 一种基于无向图修改的社交网络隐私保护方法
CN113222775B (zh) 融合多模态信息及权重张量的用户身份关联方法
CN107145527A (zh) 对齐异构社交网络中基于元路径的链路预测方法
CN104268271A (zh) 一种兴趣和网络结构双内聚的社交网络社区发现方法
CN105608624A (zh) 基于用户体验的微博大数据兴趣社区分析优化方法
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN112988917A (zh) 一种基于多种实体上下文的实体对齐方法
CN114265986B (zh) 一种融合知识图谱结构与路径语义的信息推送方法和系统
CN113095948B (zh) 一种基于图神经网络的多源异构网络用户对齐方法
CN112417063B (zh) 一种基于异构关系网络的相容功能项推荐方法
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN113486190A (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN108052683B (zh) 一种基于余弦度量规则的知识图谱表示学习方法
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN113434782B (zh) 基于联合嵌入学习模型的跨社交网络用户身份识别方法
CN116955846B (zh) 融合主题特征和交叉注意力的级联信息传播预测方法
CN117237140A (zh) 一种融合图卷积神经网络和Transformer的社交网络影响力最大化方法
CN115982374B (zh) 大坝应急响应知识库联动的多视角学习实体对齐方法和系统
CN106202174B (zh) 一种多边形场景拓扑关系表达方法
CN109472115A (zh) 基于地理信息的大规模复杂网络建模方法及装置
CN104598613A (zh) 一种用于垂直领域的概念关系构建方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant