CN111815468B - 一种基于用户身份关联的多源社交网络构建方法 - Google Patents
一种基于用户身份关联的多源社交网络构建方法 Download PDFInfo
- Publication number
- CN111815468B CN111815468B CN202010498851.9A CN202010498851A CN111815468B CN 111815468 B CN111815468 B CN 111815468B CN 202010498851 A CN202010498851 A CN 202010498851A CN 111815468 B CN111815468 B CN 111815468B
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- pseudo
- user
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 101000608672 Homo sapiens Uveal autoantigen with coiled-coil domains and ankyrin repeats Proteins 0.000 claims description 6
- 102100039543 Uveal autoantigen with coiled-coil domains and ankyrin repeats Human genes 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 3
- 241001632422 Radiola linoides Species 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 238000003012 network analysis Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 241001632427 Radiola Species 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的一种基于用户身份关联的多源社交网络构建方法,属于社交网络分析技术领域。首先定义伪超边的概念并构造伪超边超图模型,通过引入拓扑亲密值度量超图中节点间拓扑结构相似性,然后将超图中节点的用户名属性向量化进行相似度计算,进而提出基于联合锁定策略的用户身份关联方法实现跨社交网络用户匹配,最后基于用户匹配结果进行社交关系填补完成多源社交网络构建。本发明提出的基于用户身份关联的多源社交网络的构建方法最大化利用网络拓扑信息,综合利用结构特性和用户属性进行用户匹配,克服单一网络的局限性,构建的网络更加完备、精准,在种子节点有限的情况下也能获得较好地效果。
Description
技术领域
本发明涉及基于一种基于用户身份关联的多源社交网络构建方法,属于社交网络分析技术领域。
背景技术
随着互联网技术的高速发展和移动智能终端的大量普及,人们通过多个社交网络平台进行信息交流、情感沟通等,社交网络已经成为维持社会关系、信息传播的重要媒介和平台,基于社交网络的舆情监控、广告推送以及好友推荐等成为前沿热点研究领域之一。社交网络构建是社交网络分析研究的基础和核心,构建更加完备和精准的多源社交网络是保障分析结果准确与有效应用的关键。面对多源异构网络融合的复杂性,现阶段国内外多源社交网络构建研究较少,主要集中在单一目标网络建模方面。一般地,跨媒体社交网络构建主要通过研究社交网络固有的“小世界”、“无标度”等特性,基于图论、统计学等领域知识,进行单一社交网络模型构建,然后结合跨社交网络用户关联、关系填补等技术,进而实现多源社交网络的构建。
基于用户身份关联是多源社交网络构建的核心关键技术,常用方法主要包括:基于字符串的相似性进行匹配,利用机器学习等技术提取用户单一属性字符串或结合的多种属性字符串来计算用户的相似程度,并依据用户属性的重要程度或特有程度施以不同大小的权重完成跨社交网络用户身份的匹配;基于拓扑结构的算法,利用网络拓扑结构蕴含信息,结合多属性方法对用户进行识别,提高了匹配准确率;利用用户属性和三度影响力原则创建的匹配模型来推测用户的身份特征,从而解决了因局部拓扑结构稀疏导致的匹配结果不稳定的问题。现有基于用户身份关联的多源社交网络构建方法大多依赖属性字符串的匹配或与匹配过程的相互组合,或是利用拓扑结构进行相似性计算,前者需要大量的种子节点进行训练,后者依据过于单一,因而很难做到种子节点较少的情况下精确匹配与社交关系的有效填补,如何更加有效地描述、刻画现实世界的真实网络依然是重要挑战。
发明内容
本发明的目的是提出一种基于用户身份关联的多源社交网络构建方法,以克服单一网络的局限性,使构建的网络更加完备、精准,在种子节点有限的情况下也能获得较好地效果。
一种基于用户身份关联的多源社交网络构建方法,所述构建方法包括以下步骤:
步骤一、使用伪超边超图模型构建算法PHA建立伪超边超图模型,融入弱连接的非直接好友关系;
步骤二、基于伪超边超图模型,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,然后根据不同网络节点之间的拓扑相似度,通过对拓扑相似度的分段划分获得节点候选集;
步骤三、利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度;
步骤四、采用基于联合锁定策略的用户身份关联算法JUA处理候选集,识别当前最优跨网络节点对,加入种子节点集,重复JUA算法并最终输出匹配节点集合;
步骤五、利用基于用户身份关联的多源社交网络构建算法UACA根据匹配节点集合进行多源社交网络的融合,返回融合后的复合网络。
进一步的,在步骤一中,使用伪超边超图模型构建算法PHA建立伪超边超图模型,具体为:社交网络Gh(Vh,Eh,Eph)的超图结构称为伪超边超图模型,其中Vh是超点集,代表网络中的用户节点,Eh是超边集,表示具有直接好友关系的用户构成超边集合,Eph是伪超边集,表示拥有共同好友关系的非好友节点构成的伪超边集合,对于伪超边超图模型中的直接好友关系和拥有共同好友关系设置不同的权值,由超边内节点关系权重应大于伪超边,对于节点间直接相连所构成的超边关系,将其权重设置为对于由弱连接关系构建的伪超边结构,由于节点之间并没有直接相连,将其权值设置为δ且并引入参数q<1,令以比值的形式度量两种关系。
进一步的,在步骤二中,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,具体的计算方法为:
其中,Gh为种子节点集,f(vi,vj)为节点关系函数,用于判断节点对(vi,vj)所在的节点关系,Eh/Eph/Null为返回值;当f(vi,vj)返回Eh时,此时超边中的两个节点联系紧密,拓扑亲密值高;当f(vi,vj)返回Eph时,此时两节点在网络中为弱连接关系,不直接相连,所以节点联系疏远,拓扑亲密值低;否则,
进一步的,在步骤二中,不同网络节点之间的拓扑相似度的具体计算方法为:
进一步的,在步骤三中,利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度,具体为:
TF-IDF=tfj,ni*idfj,
其中,tfj,ni表示对用户名进行二分词后的特征j在用户名ni中出现的频次,idfj,为逆向特征频率,表示特征j出现在整个候选集用户名中的次数和候选集中用户名总数,计算方法如下公式所示:
其中,|N|为用户名总数,ni为N中的一个用户名,
在节点候选集中节点用户名属性的向量化表示后,使用余弦相似度方法进行用户名的相似度计算,计算方法如下公式所示:
其中,CCname代表两个用户名的相似度,ni、nj代表候选集中节点用户名属性的向量化表示后的向量空间,tki、tkj表示用户名中第K个特征向量与TF-IDF权重的乘积。
进一步的,在步骤四中,采用基于联合锁定策略的用户身份关联算法JUA处理候选集输出节点对匹配,具体为:
步骤四二、遍历节点,计算节点与每个种子节点的拓扑亲密值T,进而根据每个节点的T值计算出拓扑相似度Sn,依据拓扑相似度Sn的值在两个网络中选择最优值节点对进入候选集;
步骤四三、之后计算候选集中节点用户名的余弦相似度,选择用户名属性相似度和Sn都较为相似的两个节点作为结果加入匹配结果集,将步骤四三的匹配结果作为种子节点加入种子节点集S;
步骤四四、重新计算T和Sn并重复步骤四二至步骤四三,当所有节点均已被遍历时停止迭代,输出最后的匹配结果集。
进一步的,在步骤五中,利用基于用户身份关联的多源社交网络构建算法UACA依据匹配结果集进行多源社交网络融合,具体为:
步骤五一、遍历JUA算法得到的匹配节点结果集合,并在伪超边超图模型网络中一一标记;
步骤五二、生成一个新的节点,将标记节点对的连线全部复制,将标记的节点对及其身上的连线全部清除;
步骤五三、对每一对标记的节点做出步骤五一至步骤五二的操作,最后输出构建完成的融合网络。
本发明的主要优点是:本发明提出一种基于用户身份关联的多源社交网络构建方法,首先定义伪超边的概念并构造伪超边超图模型,通过引入拓扑亲密值度量超图中节点间拓扑结构相似性,然后将超图中节点的用户名属性向量化进行相似度计算,进而提出基于联合锁定策略的用户身份关联方法实现跨社交网络用户匹配,最后基于用户匹配结果进行社交关系填补完成多源社交网络构建。本发明提出的基于用户身份关联的多源社交网络的构建方法最大化利用网络拓扑信息,综合利用结构特性和用户属性进行来用户匹配,克服单一网络的局限性,构建的网络更加完备、精准,在种子节点有限的情况下也能获得较好地效果。
附图说明
图1为本发明的一种基于用户身份关联的多源社交网络构建方法的方法流程图;
图2为用户名所含特征数量示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,本发明提出了一种基于用户身份关联的多源社交网络构建方法的一实施例,所述构建方法包括以下步骤:
步骤一、使用伪超边超图模型构建算法PHA建立伪超边超图模型,融入弱连接的非直接好友关系;
步骤二、基于伪超边超图模型,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,然后根据不同网络节点之间的拓扑相似度,通过对拓扑相似度的分段划分获得节点候选集;
步骤三、利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度;
步骤四、采用基于联合锁定策略的用户身份关联算法JUA处理候选集,识别当前最优跨网络节点对,加入种子节点集,重复JUA算法并最终输出匹配节点集合;
步骤五、利用基于用户身份关联的多源社交网络构建算法UACA根据匹配节点集合进行多源社交网络的融合,返回融合后的复合网络。
在步骤一中,使用伪超边超图模型构建算法PHA建立伪超边超图模型,具体为:社交网络Gh(Vh,Eh,Eph)的超图结构称为伪超边超图模型,其中Vh是超点集,代表网络中的用户节点,Eh是超边集,表示具有直接好友关系的用户构成超边集合,Eph是伪超边集,表示拥有共同好友关系的非好友节点构成的伪超边集合,对于伪超边超图模型中的直接好友关系和拥有共同好友关系设置不同的权值,由超边内节点关系权重应大于伪超边,对于节点间直接相连所构成的超边关系,将其权重设置为对于由弱连接关系构建的伪超边结构,由于节点之间并没有直接相连,将其权值设置为δ且并引入参数q<1,令以比值的形式度量两种关系。
在步骤二中,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,具体的计算方法为:
其中,Gh为种子节点集,f(vi,vj)为节点关系函数,用于判断节点对(vi,vj)所在的节点关系,Eh/Eph/Null为返回值;当f(vi,vj)返回Eh时,此时超边中的两个节点联系紧密,拓扑亲密值高;当f(vi,vj)返回Eph时,此时两节点在网络中为弱连接关系,不直接相连,所以节点联系疏远,拓扑亲密值低;否则,
具体的,由于好友关系在不同社交网络中非常容易保持一致性,所以在多个好友网络间,可以借助已知是同一用户的节点(种子节点)来判断其他用户(待匹配用户)是否为同一用户,因为多网络中的同一用户与种子节点之间具有跨网络一致性。因此可利用这种一致性来筛选待匹配用户对的候选集。
在超图模型网络中,两个节点同时存在的超边与伪超边越多,这两个节点间的拓扑亲密值就越高,且超边权值高于伪超边,拓扑亲密值刻画了两个好友间的一种亲密程度。
已知社交关系网络G(V,E),以及在其上构建的伪超边超图模型网络Gh(Vh,Eh,Eph),Gh中的两个节点vi∈Vh和vj∈Vh的拓扑亲密值计算方法如下式所示:
其中,Gh表示种子节点集,f(vi,vj)是节点关系函数,用来判断节点对(vi,vj)所在的节点关系,返回值为Eh/Eph/Null;当f(vi,vj)返回Eh时,此时超边中的两个节点联系比较紧密,拓扑亲密值较高;当f(vi,vj)返回Eph时,此时两节点在网络中为弱连接关系,并不直接相连,所以节点联系较为疏远,拓扑亲密值较低;否则,
可利用节点的拓扑亲密值来比较不同网络中的用户相似度。因此,对于不同网络中的两个节点和它们的网络拓扑结构相似性便可以一定程度上表示用户相似性,据此来求取待匹配节点对的候选集。拓扑相似度计算表达式如下式所示:
在步骤二中,不同网络节点之间的拓扑相似度的具体计算方法为:
在步骤三中,利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度,具体为:
TF-IDF=tfj,ni*idfj,
其中,tfj,ni表示对用户名进行二分词后的特征j在用户名ni中出现的频次,idfj,为逆向特征频率,表示特征j出现在整个候选集用户名中的次数和候选集中用户名总数,计算方法如下公式所示:
其中,|N|为用户名总数,ni为N中的一个用户名,
在节点候选集中节点用户名属性的向量化表示后,使用余弦相似度方法进行用户名的相似度计算,计算方法如下公式所示:
具体的,社交网络内的相邻好友的节点拓扑亲密值相近,且他们拓扑亲密值差值及拓扑结构相似性可以在一定程度上反映出节点相似情况。在此基础上,若要进一步锁定匹配的节点对,还需要借助其他信息来判定。
生活中常用的用户名是一个个字符串,且极可能包含特殊字符,若要计算字符串之间的相似度,最常用的方法便是将其转化为一个数字再进行比对,因此本实施例采用自然语言处理领域的分词方法对用户名信息向量化处理,将字符串分割成多个特征,并用向量的多个维度来表示。
在此之前,本实施例要先对用户名统一规格,首先将英文字母统一大小写,然后去掉里面的表情元素等特殊符号,再将用户名的中英文字符分离,得到中英文字符串。在特征提取时,分词的效果很大程度上影响着相似度的计算,对于“n-gram”频数,由于用户名本身一般不会太长,因此对于中英文字符串均取n=2,相当于对原始字符串进行二分词;最后利用TF-IDF策略计算每个特征的权值,从而实现用户名属性的向量化表示。
对每个“2-gram”特征j,其词频表达式如下式所示:
其中,|N|为用户名总数,ni为N中的一个用户名。
参照图2所示,例如在{Susua,Sue,Susa,Lisa}所组成的用户名集合N中,从观察来看,Susun与Susa最为相似,Sue与Lisa毫无相似性,接下来通过计算的方式对其验证。
由于例子中的用户名为纯英文,因此将用户名字符串直接进行“2-gram”分词,即上述集合含有特征:su,us,ua等,所有特征及其频数如图2所示。
计算得到各特征的idf值,如表1所示:
表1用户名特征词频idf
再与其频数相乘即可得到用户名字符串对应的向量表示形式,即VSusua=(0.83,1,2,0,0,0,0);VSue=(0.415,0,0,2,0,0,0);VSusa=(0.415,1,0,0,1,0,0);VLisa=(0,0,0,0,1,2,2)。对于含有中文的用户名同理,只需将中英文字符串特征按对应位置结合即可。本实施例使用余弦相似度来计算用户名的相似度,四个用户名的余弦相似度CCname值如表2所示。
表2用户名字符串的相似度
由于前面提出的方法已经确定了待匹配节点对的候选集,因此本处实际上并不需要对所有用户名都进行相似度计算,因此候选集大大降低了算法的运行时间(本示例为了演示计算了所有用户名间的相似度)。由数据可知,Susua、Susa、Sue三个相似的用户中Susua与Susa更相似一些,Sue与Susua较相似,Lisa与Susa略有相似,这与人们的视觉感受相符,从理论上表明了算法具有一定的有效性,本示例仅为了说明该部分的逻辑可行性。
在步骤四中,采用基于联合锁定策略的用户身份关联算法JUA处理候选集输出节点对匹配,具体为:
步骤四二、遍历节点,计算节点与每个种子节点的拓扑亲密值T,进而根据每个节点的T值计算出拓扑相似度Sn,依据拓扑相似度Sn的值在两个网络中选择最优值节点对进入候选集;
步骤四三、之后计算候选集中节点用户名的余弦相似度,选择用户名属性相似度和Sn都较为相似的两个节点作为结果加入匹配结果集,将步骤四三的匹配结果作为种子节点加入种子节点集S;
步骤四四、重新计算T和Sn并重复步骤四二至步骤四三,当所有节点均已被遍历时停止迭代,输出最后的匹配结果集。
在步骤五中,利用基于用户身份关联的多源社交网络构建算法UACA依据匹配结果集进行网络融合,具体为:
步骤五一、遍历JUA算法得到的匹配节点结果集合,并在伪超边超图模型网络中一一标记;
步骤五二、生成一个新的节点,将标记节点对的连线全部复制,将标记的节点对及其身上的连线全部清除;
步骤五三、对每一对标记的节点做出步骤五一至步骤五二的操作,最后输出构建完成的融合网络。
Claims (4)
1.一种基于用户身份关联的多源社交网络构建方法,其特征在于,所述构建方法包括以下步骤:
步骤一、使用伪超边超图模型构建算法PHA建立伪超边超图模型,融入弱连接的非直接好友关系;
步骤二、基于伪超边超图模型,计算同一网络中非种子节点与所有种子节点之间的拓扑亲密值,然后根据不同网络节点之间的拓扑相似度,通过对拓扑相似度的分段划分获得节点候选集;
步骤三、利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度;
步骤四、采用基于联合锁定策略的用户身份关联算法JUA处理候选集,识别当前最优跨网络节点对,加入种子节点集,重复JUA算法并最终输出匹配节点集合;
步骤五、利用基于用户身份关联的多源社交网络构建算法UACA根据匹配节点集合进行多源社交网络的融合,返回融合后的复合网络;
在步骤一中,使用伪超边超图模型构建算法PHA建立伪超边超图模型,具体为:社交网络Gh(Vh,Eh,Eph)的超图结构称为伪超边超图模型,其中Vh是超点集,代表网络中的用户节点,Eh是超边集,表示具有直接好友关系的用户构成超边集合,Eph是伪超边集,表示拥有共同好友关系的非好友节点构成的伪超边集合,对于伪超边超图模型中的直接好友关系和拥有共同好友关系设置不同的权值,超边内节点关系权重大于伪超边,对于节点间直接相连所构成的超边关系,将其权重设置为对于由弱连接关系构建的伪超边结构,由于节点之间并没有直接相连,将其权值设置为δ且并引入参数q<1,令以比值的形式度量两种关系;
在步骤四中,采用基于联合锁定策略的用户身份关联算法JUA处理候选集输出节点对匹配,具体为:
步骤四二、遍历节点,计算节点与每个种子节点的拓扑亲密值T,进而根据每个节点的T值计算出拓扑相似度Sn,依据拓扑相似度Sn的值在两个网络中选择最优值节点对进入候选集;
步骤四三、之后计算候选集中节点用户名的余弦相似度,选择用户名属性相似度和Sn都较为相似的两个节点作为结果加入匹配结果集,将步骤四三的匹配结果作为种子节点加入种子节点集S;
步骤四四、重新计算T和Sn并重复步骤四二至步骤四三,当所有节点均已被遍历时停止迭代,输出最后的匹配结果集;
在步骤五中,利用基于用户身份关联的多源社交网络构建算法UACA依据匹配结果集进行多源社交网络融合,具体为:
步骤五一、遍历JUA算法得到的匹配节点结果集合,并在伪超边超图模型网络中一一标记;
步骤五二、生成一个新的节点,将标记节点对的连线全部复制,将标记的节点对及其身上的连线全部清除;
步骤五三、对每一对标记的节点做出步骤五一至步骤五二的操作,最后输出构建完成的融合网络。
4.根据权利要求1所述的一种基于用户身份关联的多源社交网络构建方法,其特征在于,在步骤三中,利用TF-IDF策略实现节点候选集中节点用户名属性的向量化表示,并使用余弦相似度来计算候选集中节点对中用户名的相似度,具体为:
TF-IDF=tfj,ni*idfj,
其中,tfj,ni表示对用户名进行二分词后的特征j在用户名ni中出现的频次,idfj,为逆向特征频率,其值为对候选集中用户名总数与特征j出现在整个候选集任意用户名中的总次数的商进行对数运算所得数值,计算方法如下公式所示:
其中,|N|为用户名总数,ni为N中的任意一个用户名,j为任意用户名的“2-gram″特征,j∈ni,|j|特征j出现在整个候选集任意用户名中的总次数,
在节点候选集中节点用户名属性的向量化表示后,使用余弦相似度方法进行用户名的相似度计算,计算方法如下公式所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010498851.9A CN111815468B (zh) | 2020-06-04 | 2020-06-04 | 一种基于用户身份关联的多源社交网络构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010498851.9A CN111815468B (zh) | 2020-06-04 | 2020-06-04 | 一种基于用户身份关联的多源社交网络构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111815468A CN111815468A (zh) | 2020-10-23 |
CN111815468B true CN111815468B (zh) | 2023-05-09 |
Family
ID=72848469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010498851.9A Active CN111815468B (zh) | 2020-06-04 | 2020-06-04 | 一种基于用户身份关联的多源社交网络构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111815468B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836139B (zh) * | 2021-02-03 | 2022-04-01 | 杭州师范大学钱江学院 | 融合用户特征和嵌入学习的跨社交网络用户身份关联方法 |
CN113297397B (zh) * | 2021-05-12 | 2022-08-09 | 山东大学 | 一种基于层次化多模态信息融合的信息匹配方法及系统 |
CN113806450B (zh) * | 2021-05-21 | 2022-10-14 | 西南交通大学 | 一种基于综合交通大数据的融合型旅客关系网络构建方法 |
CN114757636B (zh) * | 2022-03-14 | 2024-08-23 | 天津大学 | 基于超网络结构的企业研发设计资源共享模型的建模方法 |
CN115098795A (zh) * | 2022-06-16 | 2022-09-23 | 清华-伯克利深圳学院筹备办公室 | 数据分析方法、数据分析装置、设备及存储介质 |
CN115048563A (zh) * | 2022-08-15 | 2022-09-13 | 中国电子科技集团公司第三十研究所 | 基于熵权法的跨社交网络用户身份匹配方法、介质及装置 |
CN116091260B (zh) * | 2023-04-07 | 2023-07-25 | 吕梁学院 | 一种基于Hub-node节点的跨域实体身份关联方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133944A (zh) * | 2014-07-11 | 2014-11-05 | 西南交通大学 | 一种超网络的构建方法 |
CN107145541A (zh) * | 2017-04-24 | 2017-09-08 | 安徽师范大学 | 基于超图结构的社交网络推荐模型构建方法 |
CN107257356A (zh) * | 2017-04-19 | 2017-10-17 | 苏州大学 | 一种基于超图分割的社交用户数据优化放置方法 |
WO2018077301A1 (zh) * | 2016-10-31 | 2018-05-03 | 中国科学技术大学先进技术研究院 | 账号筛选方法和装置 |
CN110166287A (zh) * | 2019-05-05 | 2019-08-23 | 南京邮电大学 | 一种基于带权超图的同一用户识别方法 |
CN110532436A (zh) * | 2019-07-17 | 2019-12-03 | 中国人民解放军战略支援部队信息工程大学 | 基于社区结构的跨社交网络用户身份识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9996567B2 (en) * | 2014-05-30 | 2018-06-12 | Georgetown University | Process and framework for facilitating data sharing using a distributed hypergraph |
-
2020
- 2020-06-04 CN CN202010498851.9A patent/CN111815468B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133944A (zh) * | 2014-07-11 | 2014-11-05 | 西南交通大学 | 一种超网络的构建方法 |
WO2018077301A1 (zh) * | 2016-10-31 | 2018-05-03 | 中国科学技术大学先进技术研究院 | 账号筛选方法和装置 |
CN107257356A (zh) * | 2017-04-19 | 2017-10-17 | 苏州大学 | 一种基于超图分割的社交用户数据优化放置方法 |
CN107145541A (zh) * | 2017-04-24 | 2017-09-08 | 安徽师范大学 | 基于超图结构的社交网络推荐模型构建方法 |
CN110166287A (zh) * | 2019-05-05 | 2019-08-23 | 南京邮电大学 | 一种基于带权超图的同一用户识别方法 |
CN110532436A (zh) * | 2019-07-17 | 2019-12-03 | 中国人民解放军战略支援部队信息工程大学 | 基于社区结构的跨社交网络用户身份识别方法 |
Non-Patent Citations (3)
Title |
---|
基于用户交互行为的在线社交网络社区发现方法研究;刘可心;《中国优秀硕士学位论文全文数据库 基础科学辑》;20200215(第2期);第A002-179页 * |
社会网络结构及影响力分析方法研究;王勇;《中国博士学位论文全文数据库 基础科学辑》;20190715(第7期);第A002-3页 * |
跨社交网络用户身份识别算法研究;徐乾;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181215(第12期);第I139-153页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111815468A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111815468B (zh) | 一种基于用户身份关联的多源社交网络构建方法 | |
CN110837602B (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
CN110532436B (zh) | 基于社区结构的跨社交网络用户身份识别方法 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN109743196B (zh) | 一种基于跨双层网络随机游走的网络表征方法 | |
CN114330312B (zh) | 标题文本处理方法、装置、存储介质和程序 | |
CN105741175A (zh) | 一种对在线社交网络中账户进行关联的方法 | |
CN112988917A (zh) | 一种基于多种实体上下文的实体对齐方法 | |
CN109871504B (zh) | 一种基于异构信息网络与深度学习的课程推荐系统 | |
CN111143672B (zh) | 基于知识图谱的专业特长学者推荐方法 | |
CN111737535A (zh) | 一种基于元结构和图神经网络的网络表征学习方法 | |
CN112084373B (zh) | 一种基于图嵌入的多源异构网络用户对齐方法 | |
CN113486190A (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN112417063B (zh) | 一种基于异构关系网络的相容功能项推荐方法 | |
CN105608624A (zh) | 基于用户体验的微博大数据兴趣社区分析优化方法 | |
CN112966091A (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN109960755B (zh) | 一种基于动态迭代快速梯度的用户隐私保护方法 | |
CN115357728A (zh) | 基于Transformer的大模型知识图谱表示方法 | |
CN110136017A (zh) | 一种基于数据增强和非负矩阵稀疏分解的群组发现方法 | |
CN111783879A (zh) | 基于正交注意力机制的层次化压缩图匹配方法及系统 | |
CN116401353A (zh) | 一种结合内部与外部知识图谱的安全多跳问答方法及系统 | |
CN116955846B (zh) | 融合主题特征和交叉注意力的级联信息传播预测方法 | |
CN104156462B (zh) | 基于元胞自动学习机的复杂网络社团挖掘方法 | |
CN117034186A (zh) | 基于关联信息的知识库融合方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |