CN109885797B - 一种基于多身份空间映射的关系网络构建方法 - Google Patents

一种基于多身份空间映射的关系网络构建方法 Download PDF

Info

Publication number
CN109885797B
CN109885797B CN201910119063.1A CN201910119063A CN109885797B CN 109885797 B CN109885797 B CN 109885797B CN 201910119063 A CN201910119063 A CN 201910119063A CN 109885797 B CN109885797 B CN 109885797B
Authority
CN
China
Prior art keywords
node
identity
nodes
attribute
core identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910119063.1A
Other languages
English (en)
Other versions
CN109885797A (zh
Inventor
胡瑞敏
朱玟谦
詹泽行
李登实
黄文心
王中元
王晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910119063.1A priority Critical patent/CN109885797B/zh
Publication of CN109885797A publication Critical patent/CN109885797A/zh
Application granted granted Critical
Publication of CN109885797B publication Critical patent/CN109885797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于多身份空间映射的关系网络构建方法,利用个体身份相关数据将个体映射至多元身份空间,然后根据不同属性维度组合具备不同的身份辨识粒度和社会语义区分度,选取高辨识粒度和高社会语义区分度的属性组合作为个体的聚类维度,将用户在这些属性空间中进行聚类处理,最后通过个体间共现的频度来判定个体间是否存在关系,进而实现关系网络的构建。本发明具有高效、准确、去参数化等特点,可应用于推荐系统,网络安全等领域。

Description

一种基于多身份空间映射的关系网络构建方法
技术领域
本发明属于数据挖掘技术领域,涉及一种基于多身份空间映射的关系网络构建方法,适用于复杂身份环境下的关系挖掘与关系网络构建。
背景技术
随着网络科学(Network Science)的快速发展及相关理论的广泛应用,大多数复杂系统如通信网络系统,社会交际系统,跨国公司组织系统等能够以网络的形式进行高效表达,借助网络分析方法,更好的实现了复杂系统中深层规律与演化特征的挖掘,这是传统数据挖掘方法难以企及的,网络科学也因此成为一直被高度关注和研究的热点学科。网络的构建是网络科学的研究的基础,如何将原始数据准确高效的构建成网络,是网络分析开展的重要前提和基础,是网络科学中的重要基础问题。
传统的网络构建方法是根据节点间直接存在的“关系”进行构建的,如线上社交平台中,以用户为节点,用户间的好友关系为连边则可构建出线上社交网络,互联网空间中,以网站为节点,网站间的链接关系为连边则可构建出线上网站链接网络。但现实应用环境中,往往只能获取到节点的个体信息,节点间的关系信息难以获取,针对此类情况,传统的数据挖掘方法如K-means算法,层次聚类算法无法完成实现高精准度和细粒度的深层关系挖掘,为此需要设计一种关系挖掘方法将蕴含在节点个体信息中的关系信息映射至网络拓扑空间。
发明内容
本发明的目的是提供一种基于节点个体身份信息实现节点间潜在关系挖掘的技术方案,该发明能够准确且高效的实现节点间深层次的关系挖掘。
本发明所采用的技术方案是:一种基于多身份空间映射的关系网络构建方法,其特征在于,包括以下步骤:
步骤1:获取节点身份相关属性向量,记为Ii={Ari1,Ari2,…,Arin},其中Ii表示第i个节点,Arij表示Ii第j个身份属性的属性值,其中身份属性包含职业,收入,工作地点等具有个体辨识性的属性;
步骤2:定义节点身份核心标识集;
在节点身份空间中,称属性集合M为节点a的身份核心标识集,如果M满足:
1)M能够唯一识别出节点a;
2)M的任何真子集都无法唯一识别出节点a;
节点的身份核心标识集不唯一,节点可以不具备核心标识集,也可具备多个核心标识集;定义由两个或两个以上身份属性组成的核心标识集为群体性核心标识集;
步骤3:对属性集合{Ari}进行全排列,根据排列路径计算每个节点的核心标识集;
步骤4:根据步骤2,挑选出每由两个或两个以上属性组成的身份核心标识集作为节点的群体性核心标识集,记为{Agroupi}j,{Agroupi}j表示第j个节点的第i个群体性核心标识集序号;任意节点对之间进行对应{Agroupi}j的交集运算,得到具有群体划分性的属性组合Bgroup;
Bgroup在群体性核心标识集中出现的频度计算公式为:
Figure GDA0002720232150000021
步骤5:按照频度顺序排序Bgroup,选取大于阈值Θ的Bgroup作为下一步的聚类的维度标准,由此得到具有群体划分性的属性组集合{Bgroupi};
步骤6:对于集合{Bgroupi}任一元素Bgroupj,提取出节点在Bgroupj属性维度下的属性数据,构成身份向量,对身份向量进行聚类处理,得到K个聚类结果,其中K是{Bgroupi}中元素的个数;
步骤7:统计节点的聚类结果,根据每个节点与其他节点出现在不同分类结果中的次数,计算出关注节点i与任一节点j之间的联系强度cor(i,j),
Figure GDA0002720232150000022
其中,co(k,i,l)表示节点i与节点l在第k个聚类结果中是否属于同一类,如果是则值为1,否则为0;
步骤8:判断节点间关联强弱,联系强度cor(i,j)大于阈值Δ的节点之间存在联系,节点之间存在连边,进而构建出节点集合的关系网络,实现了节点可信内在关系的挖掘。
相对于现有技术相比,本发明的有益效果在于:
(1)本发明充分考虑了身份表达理论的深层机理,提出了观测空间中个体身份的标识方法,实现了个体与身份空间的正向映射。
(2)本发明提出的群体划分性属性集的构建,在确保身份属性具有足够辨识性的前提下,较大程度上克服了属性间相关性过高带来的数据冗余。
(3)本发明将个体间的关系投射到多身份空间中,通过不同维度的身份空间综合判定个体间的关系,相比传统基于单空间的关系构建,这种方法的辨识粒度更细化,置信度更高。
附图说明
图1为本发明实施例的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供了一种基于多身份空间映射的关系网络构建方法,通过计算具有群体辨识性的属性片段,将个体映射至多个身份空间,在不同身份空间中考察个体间的关联强度,进而实现节点间可信关系的挖掘;具体实现包括以下步骤:
步骤1:获取节点身份相关属性向量,记为Ii={Ari1,Ari2,…,Arin},其中Ii表示第i个节点,Arij表示Ii第j个身份属性的属性值,其中身份属性包含职业、收入、工作地点等具有个体辨识性的属性;实例中节点为某学术实验室的学生及工作人员,属性数据选取的是职业,导师,办公室位置等12个属性;
步骤2:定义节点身份核心标识集;
在节点身份空间中,称属性集合M为节点a的身份核心标识集,如果M满足:
1)M能够唯一识别出节点a;
2)M的任何真子集都无法唯一识别出节点a;
节点的身份核心标识集不唯一,节点可以不具备核心标识集,也可具备多个核心标识集;定义由两个或两个以上身份属性组成的核心标识集为群体性核心标识集;
步骤3:计算每个节点的核心标识集,对属性集合{Ari}进行全排列;
对于每个属性组合路径如Ar1→Ar2→…→Arn,按照属性Ar1对节点集合进行分类,划分后如果有单个节点类组的存在,则这些节点的标识集记为Ar1,去除这些节点,在Ar1分类结果的基础上按Ar2对节点进行分类,分类后单个节点类组的节点标识集记为Ar1+Ar2,去除这些节点。重复上述步骤直至到属性Arn或所有的节点都被去除。实例中的属性种类是12种,需要计算
Figure GDA0002720232150000042
条路径。
执行完上述步骤后即得到每个节点的标识集,判断每个节点的标识集是否具有包含关系,包含关系中最小的集合及不具有包含关系的集合作为节点的身份核心标识集,如节点2的标识集是{{Ar1,Ar3,Ar6},{Ar1,Ar3,Ar6,Ar12},{Ar3,Ar5,Ar11,Ar13,Ar20}},根据上述步骤得到节点2的核心标识集是{{Ar1,Ar3,Ar6},{Ar3,Ar5,Ar11,Ar13,Ar20}}。
步骤4:根据步骤2,挑选出每由两个或两个以上属性组成的身份核心标识集作为节点的群体性核心标识集,记为{Agroupi}j,{Agroupi}j表示第j个节点的第i个群体性核心标识集序号;任意节点对之间进行对应{Agroupi}j的交集运算,得到具有群体划分性的属性组合Bgroup;
Bgroup在群体性核心标识集中出现的频度计算公式为:
Figure GDA0002720232150000041
步骤5:按照频度顺序排序Bgroup,选取大于阈值Θ的Bgroup作为下一步的聚类的维度标准,由此得到具有群体划分性的属性组集合{Bgroupi};
实例中的节点间存在联系比较普遍,Θ选取0.35作为实例的阈值,得到的具有社团划分性的{Bgroupi}元素个数为13。
步骤6:对于集合{Bgroupi}任一元素Bgroupj,提取出节点在Bgroupj属性维度下的属性数据,构成身份向量,再利用基于密度的聚类算法(DBSCAN)对身份向量进行聚类处理,得到K个聚类结果,其中K是{Bgroupi}中元素的个数;实例中到13个聚类结果。
步骤7:统计节点的聚类结果,根据每个节点与其他节点出现在不同分类结果中的次数,计算出关注节点i与任一节点j之间的联系强度cor(i,j),
Figure GDA0002720232150000051
其中,co(k,i,l)表示节点i与节点l在第k个聚类结果中是否属于同一类,如果是则值为1,否则为0;
步骤8:判断节点间关联强弱,联系强度cor(i,j)大于阈值Δ的节点之间存在联系,节点之间存在连边,进而构建出节点集合的关系网络,实现了节点可信内在关系的挖掘。
考虑到师生,学生及老师间合作关系较为密切,实例中关联阈值Δ取值0.4。
本发明具备以下创新点:
1)提出了身份核心标识集的概念,将个体身份用最简的身份属性组合的方式线性表达,使得个体的身份核心标识集能够唯一识别个体,且核心标识集的任意真子集无法识别出个体身份。
2)根据核心标识集的概念,计算具有群体划分性的属性组合,由两个或两个以上属性组成的身份核心标识集作为节点的群体性核心标识集,记为{Agroupi}j。任意两节点之间进行{Agroupi}j的交集运算得到具有群体划分性的属性组合Bgruop,并计算群体性核心标识集中出现的频度。
3)选取大于阈值Θ的Bgruop作为下一步的聚类的维度标准,由此得到具有社团划分性的属性组集合{Bgourpi}.对于集合{Bgourpi}任一元素Bgruopj,提取出节点在Bgruopj属性维度下的属性数据,构成身份向量,利用基于密度的聚类算法(DBSCAN)对身份向量进行聚类处理。
4)统计节点的聚类结果,根据每个节点与其他节点出现在不同分类结果中的次数,计算出关注节点i与任一节点j之间的联系强度cor(i,j),根据联系强度cor(i,j)与阈值Δ的大小关系,判定节点间是否存在联系,进而完成关系网络的构建。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (3)

1.一种基于多身份空间映射的关系网络构建方法,其特征在于,包括以下步骤:
步骤1:获取节点身份相关属性向量,记为Ii={Ari1,Ari2,…,Arin},其中Ii表示第i个节点,Arij表示Ii第j个身份属性的属性值,其中身份属性包含具有个体辨识性的属性;
步骤2:定义节点身份核心标识集;
在节点身份空间中,称属性集合M为节点a的身份核心标识集,如果M满足:
1)M能够唯一识别出节点a;
2)M的任何真子集都无法唯一识别出节点a;
节点的身份核心标识集不唯一,节点可以不具备核心标识集,也可具备多个核心标识集;定义由两个或两个以上身份属性组成的核心标识集为群体性核心标识集;
步骤3:对属性集合{Ari}进行全排列,根据排列路径计算每个节点的核心标识集;
步骤4:根据步骤2,挑选出每由两个或两个以上属性组成的身份核心标识集作为节点的群体性核心标识集,记为{Agroupi}j,{Agroupi}j表示第j个节点的第i个群体性核心标识集序号;任意节点对之间进行对应{Agroupi}j的交集运算,得到具有群体划分性的属性组合Bgroup;
Bgroup在群体性核心标识集中出现的频度计算公式为:
Figure FDA0002720232140000011
步骤5:按照频度顺序排序Bgroup,选取大于阈值Θ的Bgroup作为下一步的聚类的维度标准,由此得到具有群体划分性的属性组集合{Bgroupi};
步骤6:对于集合{Bgroupi}任一元素Bgroupj,提取出节点在Bgroupj属性维度下的属性数据,构成身份向量,对身份向量进行聚类处理,得到K个聚类结果,其中K是{Bgroupi}中元素的个数;
步骤7:统计节点的聚类结果,根据每个节点与其他节点出现在不同分类结果中的次数,计算出关注节点i与任一节点j之间的联系强度cor(i,j),
Figure FDA0002720232140000021
其中,co(k,i,l)表示节点i与节点l在第k个聚类结果中是否属于同一类,如果是则值为1,否则为0;
步骤8:判断节点间关联强弱,联系强度cor(i,j)大于阈值Δ的节点之间存在联系,节点之间存在连边,进而构建出节点集合的关系网络,实现了节点可信内在关系的挖掘。
2.根据权利要求1所述的基于多身份空间映射的关系网络构建方法,其特征在于,步骤3中所述计算每个节点的核心标识集,具体实现过程是:对于每个属性组合路径Ar1→Ar2→…→Arn,按照属性Ar1对节点集合进行分类,划分后如果有单个节点类组的存在,则这些节点的标识集记为Ar1,去除这些节点,在Ar1分类结果的基础上按Ar2对节点进行分类,分类后单个节点类组的节点标识集记为Ar1+Ar2,去除这些节点;重复上述步骤直至到属性Arn或所有的节点都被去除,即得到每个节点的标识集;判断每个节点的标识集是否具有包含关系,包含关系中最小的集合及不具有包含关系的集合作为节点的身份核心标识集。
3.根据权利要求1所述的基于多身份空间映射的关系网络构建方法,其特征在于:步骤6中,用基于密度的聚类算法DBSCAN对身份向量进行聚类处理。
CN201910119063.1A 2019-02-18 2019-02-18 一种基于多身份空间映射的关系网络构建方法 Active CN109885797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910119063.1A CN109885797B (zh) 2019-02-18 2019-02-18 一种基于多身份空间映射的关系网络构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910119063.1A CN109885797B (zh) 2019-02-18 2019-02-18 一种基于多身份空间映射的关系网络构建方法

Publications (2)

Publication Number Publication Date
CN109885797A CN109885797A (zh) 2019-06-14
CN109885797B true CN109885797B (zh) 2020-12-01

Family

ID=66928139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910119063.1A Active CN109885797B (zh) 2019-02-18 2019-02-18 一种基于多身份空间映射的关系网络构建方法

Country Status (1)

Country Link
CN (1) CN109885797B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115102920B (zh) * 2022-07-28 2022-11-18 京华信息科技股份有限公司 基于关系网络的个体的传输管控方法
CN116109121B (zh) * 2023-04-17 2023-06-30 西昌学院 基于大数据分析的用户需求挖掘方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768670A (zh) * 2012-05-31 2012-11-07 哈尔滨工程大学 基于节点属性标签传播的网页聚类方法
CN107392229A (zh) * 2017-06-21 2017-11-24 清华大学 一种基于最面向社会关系抽取的网络表示方法
CN109272378A (zh) * 2018-08-23 2019-01-25 阿里巴巴集团控股有限公司 一种风险群组的发现方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228698A1 (en) * 2007-03-16 2008-09-18 Expanse Networks, Inc. Creation of Attribute Combination Databases
US9898773B2 (en) * 2014-11-18 2018-02-20 Microsoft Technology Licensing, Llc Multilingual content based recommendation system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768670A (zh) * 2012-05-31 2012-11-07 哈尔滨工程大学 基于节点属性标签传播的网页聚类方法
CN107392229A (zh) * 2017-06-21 2017-11-24 清华大学 一种基于最面向社会关系抽取的网络表示方法
CN109272378A (zh) * 2018-08-23 2019-01-25 阿里巴巴集团控股有限公司 一种风险群组的发现方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
互联网用户身份同一性判定若干关键技术研究;刘东;《中国博士学位论文全文数据库信息科技辑》;20171215;全文 *

Also Published As

Publication number Publication date
CN109885797A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
Yao et al. Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
Li et al. Multiple location profiling for users and relationships from social network and content
CN107133277B (zh) 一种基于动态主题模型和矩阵分解的旅游景点推荐方法
CN109783639B (zh) 一种基于特征提取的调解案件智能分派方法及系统
CN110597870A (zh) 一种企业关系挖掘方法
Herzog et al. Record linkage
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN107169063A (zh) 一种基于社交信息的用户属性预测方法与系统
CN112836139B (zh) 融合用户特征和嵌入学习的跨社交网络用户身份关联方法
CN109885797B (zh) 一种基于多身份空间映射的关系网络构建方法
Ju et al. Relationship strength estimation based on Wechat Friends Circle
Mughaid et al. A smart geo-location job recommender system based on social media posts
Kadavankandy et al. The power of side-information in subgraph detection
US11561970B2 (en) Techniques for accurately specifying identification information
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
CN109977131A (zh) 一种房型匹配系统
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
Zhang et al. Community detection in attributed collaboration network for statisticians
CN110633394B (zh) 基于特征加强的图压缩方法
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
CN109543712B (zh) 时态数据集上的实体识别方法
Jenson et al. Mining location information from users' spatio-temporal data
Papayiannis et al. On clustering uncertain and structured data with Wasserstein barycenters and a geodesic criterion for the number of clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant