CN111026919A - 一种基于双视图的自适应两级加权目标社区发现及检测方法 - Google Patents
一种基于双视图的自适应两级加权目标社区发现及检测方法 Download PDFInfo
- Publication number
- CN111026919A CN111026919A CN201911111006.5A CN201911111006A CN111026919A CN 111026919 A CN111026919 A CN 111026919A CN 201911111006 A CN201911111006 A CN 201911111006A CN 111026919 A CN111026919 A CN 111026919A
- Authority
- CN
- China
- Prior art keywords
- community
- node
- attribute
- target
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 230000003044 adaptive effect Effects 0.000 title claims description 18
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000005065 mining Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000005284 excitation Effects 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 6
- 238000013401 experimental design Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 241001632422 Radiola linoides Species 0.000 claims 1
- 238000011160 research Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 241001632427 Radiola Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于双视图的自适应两级加权目标社区发现及检测方法,包括如下步骤:基于用户提供的样例节点,建立有限节点序列的候选节点替换路径以组成社区主干,根据该社区主干推断用户偏好;利用网络的属性和结构两类信息,构建社区主干的属性视图和结构视图以双视图表示,并设计了一种自适应的两级加权目标社区核心检测方法,用于计算每个目标社区在两个视图以及对应视图下单个变量的权重;基于社区的内部连通性和外部可分离性定义目标社区的质量评分,挖掘得到高质量的目标社区。本发明有效地挖掘用户偏好信息,同时利用节点属性和结构信息挖掘高质量的目标社区,进而提高目标社区发现精度,还适用于大规模复杂网络中的目标社区的提取。
Description
技术领域
本发明属于复杂网络分析领域,具体而言,涉及一种新型的目标社区发现及检测方法。
背景技术
现实世界中事物与事物之间是密切联系的,普遍存在的联系将大部分事物映射成一个个复杂系统,这些系统往往能表示为图或网络的形式,其中节点表示数据对象,边表示数据对象之间的关系。已有研究发现:现实世界的网络中存在明显“社区”特性,即社区结构满足社区内连接尽可能稠密、社区间连接尽可能稀疏。网络中社区结构识别对于理解网络功能、发现网络中隐藏规律以及预测网络中个体行为具有重要的理论和现实意义,已逐渐成为当今复杂网络分析领域的研究热点,研究成果被广泛应用于恐怖组织识别、用户兴趣分析和商品推荐、Web文档聚类、生物分子功能团识别等众多领域。事实上,现实世界网络中节点间除了存在连接关系外,节点往往可由描述其特征的属性信息刻画。以Web2.0时代下的Web交互平台(微博、微信、Twitter、Facebook、Flickr、优酷、YouTube等)为例,其除了由个体间关系构成社交网络(用户关系、微博转发评论关系、图片共享关系、视频共同共观看关系等数据),个体还可以基于自身特性描述(用户兴趣、微博/微信文本、图像标签、视频主题/标签/评论等)。此外,大多数社区发现研究都是以获取全局网络的所有信息为前提,这在实践中难以满足。面向此类网络(属性网络或属性图)的目标社区发现的主要目标是充分挖掘用户给定的先验样例节点从而定位与用户偏好密切相关的目标社区,即社区内不仅节点间连接关系稠密、节点在特定的子空间下属性相似性也较大且与样例节点尽可能相似。属性网络或属性图目标社区发现有益于充分利用异构数据信息间的互补特性,常具有更好的挖掘效果。
针对属性网络的社区发现方法已经得到了广泛的研究,然而,现有的大多数方法未能面向用户定位基于用户偏好的目标社区。因此,在属性网络中如何基于用户给定的样例信息挖掘与用户兴趣相关的内部一致且与外部分离良好的高影响力目标社区显得尤为重要。少数研究人员通过对已有社区发现方法改进,在一定程度上实现目标社区发现并提升目标社区质量,但是现有算法的局限性使得基于用户兴趣的目标社区发现任务面临严峻挑战,如何同时利用节点间的连接关系和节点属性信息进行更有效的目标社区挖掘是一个重要的研究问题。
具体而言,结合节点属性及结构信息,利用用户给定的先验信息挖掘用户偏好信息;同时目标社区必须遵从社区的内部紧密且与外部分离良好的内在特征,保证社区质量;而且特定应用决定了社区质量与外部影响力具有内在关联性。已有研究表明,现实社会中人们更关注于自身质量较高且具有一定的向外传播信息能力的社区,导致社区内部质量与外部影响力的相关性成为研究瓶颈。
发明内容
本发明的目的在于提供一种基于双视图的自适应两级加权目标社区发现及检测方法(Adaptive Two-level weighted target Communities detection with DoubleViews,ATV-DV),综合考虑网络中节点的属性信息与结构信息的关联性特征,能够基于用户偏好,利用网络中的局部信息,快读、精确地发现网络中的目标社区。
本发明提出如下的技术方案,一种基于双视图的自适应两级加权目标社区发现及检测方法,包括如下步骤:
步骤1,获取用户给定的样例节点,融合节点属性及其邻居量化节点质量;寻找样例节点替换路径,解决样例节点质量依赖,利用样例节点替换路径及其邻居,挖掘路径所在的社区主干;
步骤2,基于社区主干中节点附着的属性和节点间的连接信息,分别构建社区主干的属性视图和结构视图;
步骤3,使用自适应两级权重挖掘方法,在步骤2的双视图上挖掘两个视图的权重及每个视图下变量的权重,以及目标社区的核心集合,自适应平衡网络中节点属性和结构间的关系;
步骤4,基于社区内部一致性和外部可分离性定义高质量目标社区模型,并融合节点属性和结构特征扩展每个目标社区核心,挖掘高质量的目标社区;
步骤5,进行实验设计。
进一步地,所述步骤1中量化节点质量的方法,包括如下步骤:
步骤11,获取样例节点,节点上附着若干属性信息;
步骤12,根据样例节点及其邻居节点,求节点之间的属性相似性,两个节点u,v之间的属性相似度由s(u,v)表示为:
s(u,v)=exp(-||f(u)-f(v)||2) (1)
其中,||f(u)-f(v)||2是节点属性矢量之间的2范数,属性相似性介于0和1之间。
步骤13,挖掘领域社区:对于给定节点v的邻域社区定义为:
T(v)={v|(u,v)∈E∧s(u,v)≥δ}∪{u},
其中,S(v)={s(u,v)|(u,v)∈E}表示所有邻居于节点v的属性相似性的集合;
步骤14,量化节点质量:给定节点v的质量计算如下:
进一步地,所述步骤1中得到路径所在的社区主干的方法,包括如下步骤:
步骤15,计算节点的影响邻域:两个相邻节点vi,vj 之间的影响区域IA(vi,vj)是计算如下:
IA(vi,vj)={v|v∈(T(vi)∩T(vj))} (4)
步骤16,计算节点影响区域密度:两个相邻节点u,v的共同影响邻域密度dIA(u,v)为:
其中,IA(vi,vj)表示IA(vi,vj)中实际存在的链接数除以IA(vi,vj)中可能存在的链接数;
步骤17,计算节点关系强度:对于给定的两个相邻节点u,v之间的关系强度nrs(u,v)为:
步骤18,挖掘样例节点替换路径:利用与样例节点关系最紧密且影响最大的邻居替换示例节点,并进行迭代,形成从任何示例节点s到目标社区的核心成员的替代路径S=<s1,s2,...,st>,(s1=s);
步骤19,检测社区主干:给定社区主干GS=(VS,ES,FS),其中,VS={u|(u,v)∈E,s(u,v)>δ,v∈S},|VS|=h表示社区主干中节点的集合,ES={(u,v)|(u,v)∈E,u∈VS,v∈VS}是节点之间的一组无向边,FS:VS->D1×···×Dr是一个属性函数,Dim={1,2,···,r}是所有属性维度的集,Dr是第r属性的值域,f(v)为每节点v的属性矢量,fvi表示节点v的第i个属性的值fi S=[fi1,fi2,...,fir]T;
进一步地,所述步骤2中社区主干的属性视图和结构视图的构建方法,包括如下步骤:
步骤21,构建属性视图:给定社区主干GS=(VS,ES,FS),其中,VS={u|(u,v)∈E,s(u,v)>δ,v∈S},|VS|=h表示社区主干中节点的集合,ES={(u,v)|(u,v)∈E,u∈VS,v∈VS}是节点之间的一组无向边,FS:VS->D1×···×Dr是一个属性函数,Dim={1,2,···,r}是所有属性维度的集,Dr是第r属性的值域,f(v)为每节点v的属性矢量,fvi表示节点v的第i个属性的值,则矩阵FS∈Rr×h表示社区主干的属性视图,其中,fi S=[fi1,fi2,...,fir]T;
步骤22,构建结构视图:给定社区主干GS=(VS,ES,FS),利用"LINE"新型网络嵌入方法,将社区主干中的每个节点用矢量表示此节点,其中m表示节点矢量的维度,则矩阵OS∈Rm×h表示社区主干的结构视图。
进一步地,所述步骤3中基于属性视图和结构视图上挖掘两个视图的权重及每个视图下变量的权重,以及目标社区的核心集合的方法,包括如下步骤:
步骤31,给定样例节点及其替换路经所在的网络骨干和目标社区的最大个数k;
步骤32,将骨干网络划分为具有视图和单个变量权重的k目标社区种子,该过程被建模为最小化以下目标函数:
其中,U是一个h×k的分区矩阵,其元素uil是二进制的,其中uil=1指示节点vi分配给第l个目标社区的种子;Z={z1,z2,...,zk}表示k个目标社区种子的中心;W是一个2×k的矩阵,其中wi=[wi1,wi2]T是第i个种子的双视图的权重向量;L∈Rk×(r+m)其中li是r+m个变量的权重;λ>0,η>0是两个给定的参数;k是目标社区的数量,没有特殊要求,k的值通常较小整数值;d(vij,zlj)是第i个对象和第l种子中心之间在第j个变量上的:
d(vij,zlj)=||vij-zlj||2 (8)
进一步地,所述步骤4基于社区内部一致性和外部可分离性挖掘高质量的目标社区的方法,包括如下步骤:
步骤41,计算节点间的加权相似度:基于两级权重wy,ly下,节点u和v之间的加权相似性s(u,v|wy,ly)为:
步骤42,量化社区质量:基于社区的内部一致性和外部可分离性标准,Cy的社区质量评分量化为:
步骤43,扩充样例节点替换路径所在的网络骨干挖掘得到的社区种子得到目标社区:首先选取一个目标社区的种子;然后基于社区质量模型,计算目标社区种子中节点邻居加入目标社区中的社区质量变化情况,选择模块度正向变化最大的节点加入;不断地重复邻居节点加入的过程,直至社区质量没有正向变化终止阈值,此时挖掘得到选定的种子所对应的目标社区;重复上述过程,直至所有种子扩张完成。
进一步地,所述步骤5中的实验设计包括选取实验数据和恰当的评价指标;寻找最佳模型对应的输入参数设置;选取四种目标社区发现算法与本发明算法对比;列举案例。
进一步地,所述输入参数设置,其中,η是控制子空间中属性激励强度的正参数,而λ是控制双视图激励强度的正参数。本发明将这两个参数都设定为定参数,并通过实验筛选出通用最佳参数。
进一步地,将η设为[0.5;1;3;5;7;9],λ设为[0.5;1;3;5;7;9];对于η,λ的每种组合,运行ATC-DV生成10个目标社区的检测结果,并计算出10个结果中NMI和F1的两个性能指标的平均值。
进一步地,所述算法对比及分析具体为:Focusco需要用户提供几个类似的节点作为示例节点;TSCM是一种目标群体检测技术;TCU-SA利用网络结构,且利用节点的属性子空间来量化内部一致性和外部可分性,从而捕获用户预抓取的目标社区;这些方法的所有其他参数都设置为论文中描述的默认值,所有比较算法的结果平均超过10次运行,每次运行随机提供示例节点,这些方法的所有其他参数都设置为论文中描述的默认值。
与现有技术相比本发明的有益效果在于:
本发明通过求解示例节点依赖关系示例节点扩展阶段将用户给定的示例节点替换为潜在目标社区的核心节点,该节点类似于示例节点,并可能连接目标社区中的大多数节点。自适应地平衡结构信息和属性信息:为每个视图分配了视图权重,以标识视图的紧凑性,并且为视图中的每个变量分配了可变权重,以确定变量,不仅可以自动平衡每个节点的结构链接和属性信息,以学习融合权重,还可以通过权重值捕获每个群集的子空间,避免了样例节点携带信息有限导致社区种子和用户偏好偏差问题,提升了算法的总体效率。
本发明利用种子集合及其对应的两级权重信息并以种子的邻居作为候选节点,综合考虑社区内部连接紧密程度以及社区与外部节点分离程度,速度快同时无信息损耗,提高了算法的整体执行效率;最后,为了避免社区间的冗余问题,对于挖掘得到的若干潜在目标社区,去除掉与其余潜在目标社区重叠度高的潜在目标社区,将剩余潜在目标社区为网络中的目标社区挖掘结果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例基于双视图的自适应两级加权目标社区发现及检测方法的基本技术流图;
图2为本发明实施例基于双视图的自适应两级加权目标社区发现及检测方法中样例节点替换步骤示意图;
图3为本发明实施例基于双视图的自适应两级加权目标社区发现及检测方法中基于双视图两级权重挖掘示意图;
图4为本发明实施例基于双视图的自适应两级加权目标社区发现及检测方法中目标社区发现示意图。
具体实施方式
下面参照附图来描述发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释发明的技术原理,并非在限制发明的保护范围。
需要说明的是,在发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对发明的限制。
此外,还需要说明的是,在发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在发明中的具体含义。
请参阅图1所示,本发明有效地挖掘用户偏好信息,同时利用节点属性和结构信息挖掘高质量的目标社区,进而提高目标社区发现精度,还适用于大规模复杂网络中的目标社区的提取。
首先,获取网络数据,进行数据预处理:获取网络数据,选取DBLP数据作为复杂网络数据,本数据由作者、作者发表的文章标题,年份、会议/期刊以及所属的邻域组成;去除数据的不相关信息,只留下作者、作者发表的文章标题,年份、会议/期刊以及所属的邻域;利用预处理后的数据构建网络:对于DBLP数据中的作者表收拾为网络中的节点;作者与作者之间至少合作发表过一篇文章,则对应节点间添加一条边。例如H.Vincent Poor和Shlomo Shamai、SanjeevR.Kulkarni、Lalitha Sankar、Yingbin Liang、Mung Chiang之间存在合作关系。
再次,构建网络之后将变为:网络中存在以下四条边(H.Vincent Poor,ShlomoShamai),(H.Vincent Poor,SanjeevR.Kulkarni),(H.Vincent Poor,Lalitha Sankar),(H.Vincent Poor,Yingbin Liang),(H.Vincent Poor,Mung Chiang)。为网络中的节点附加属性信息:考虑到DBLP数据中涉及的会议/期刊较多,因此将所有期刊/会议基于其所在得研究领域进行划分,一个期刊/只属于一个领域;作者根据其在每个研究发表的论文数量构建节点属性向量。
具体关于基于双视图的自适应两级加权目标社区发现及检测方法,包括如下步骤:
步骤1,获取用户给定的样例节点,融合节点属性及其邻居量化节点质量;寻找样例节点替换路径,解决样例节点质量依赖,利用样例节点替换路径及其邻居,挖掘路径所在的社区主干。
步骤1中量化节点质量的方法,包括如下步骤:
步骤11,获取样例节点,节点上附着若干属性信息。
步骤12,根据样例节点及其邻居节点,求节点之间的属性相似性,两个节点u,v之间的属性相似度由s(u,v)表示为:
s(u,v)=exp(-||f(u)-f(v)||2) (1)
其中,||f(u)-f(v)||2是节点属性矢量之间的2范数,属性相似性介于0和1之间。
步骤13,挖掘领域社区:对于给定节点v的邻域社区定义为:
T(v)={v|(u,v)∈E∧s(u,v)≥δ}∪{u},
其中,S(v)={s(u,v)|(u,v)∈E}表示所有邻居于节点v的属性相似性的集合;
步骤14,量化节点质量:给定节点v,假设v的邻居节点为{v1,v2,v3,v4},且网络中存在边(v1,v2),(v2,v3),(v1,v4),则v的质量根据如下计算公式得mass(v)=3:
其中,步骤1中得到路径所在的社区主干的方法,包括如下步骤:
步骤15,计算节点的影响邻域:给定节点u,v,u和v之间有一条边,假设u的邻居节点为{v,v1,v2,v4},v的邻居节点为{u,v1,v2,v3,v4},则两个相邻节点vi,vj之间的影响区域根据如下公式是计算得IA(vi,vj)={u,v,v1,v2}:
IA(vi,vj)={v|v∈(T(vi)∩T(vj))} (4)
步骤16,计算节点影响区域密度:两个相邻节点u,v的共同影响邻域密度定义为两个节点能共同影响到得节点间真实存在得边闭上所有可能存在得边,则点u,v的共同影响邻域密度根据如下公式计算得dIA(u,v)=5/6:
其中,IA(vi,vj)表示IA(vi,vj)中实际存在的链接数除以IA(vi,vj)中可能存在的链接数;
步骤17,计算节点关系强度:综合考虑就两个节点间的属性相似度、影响区域密度、以及共同影响的节点质量,根据如下公式量化两个节点间的关系强弱,对于给定的两个相邻节点u,v之间的关系强度nrs(u,v)为:
请参阅图2所示,步骤18,挖掘样例节点替换路径:利用与样例节点关系最紧密且影响最大的邻居替换示例节点,并进行迭代,形成从任何示例节点到目标社区的核心成员的替代路径。
假设给定样例节点s,且存在节点s1质量高于s且与节点s关系较强,则将节点s1加入样例节点替换路径,并进行迭代,直到没有邻居能够替换当前替换路径中的最后一个节点st,则停止替换,得到最终替换路径S=<s1,s2,...,st>,(s1=s);
步骤19,检测社区主干:给定社区主干GS=(VS,ES,FS),其中,VS={u|(u,v)∈E,s(u,v)>δ,v∈S},|VS|=h表示社区主干中节点的集合,ES={(u,v)|(u,v)∈E,u∈VS,v∈VS}是节点之间的一组无向边,FS:VS->D1×···×Dr是一个属性函数,Dim={1,2,···,r}是所有属性维度的集,Dr是第r属性的值域,f(v)为每节点v的属性矢量,fvi表示节点v的第i个属性的值。
步骤2,基于社区主干中节点附着的属性和节点间的连接信息,分别构建社区主干的属性视图和结构视图。
其中,步骤2中社区主干的属性视图和结构视图的构建方法,包括如下步骤:
步骤21,构建属性视图:给定社区主干GS=(VS,ES,FS),其中,VS={u|(u,v)∈E,s(u,v)>δ,v∈S},|VS|=h表示社区主干中节点的集合,ES={(u,v)|(u,v)∈E,u∈VS,v∈VS}是节点之间的一组无向边,FS:VS->D1×···×Dr是一个属性函数,Dim={1,2,···,r}是所有属性维度的集,Dr是第r属性的值域,f(v)为每节点v的属性矢量,fvi表示节点v的第i个属性的值,则矩阵FS∈Rr×h表示社区主干的属性视图,其中,fi S=[fi1,fi2,...,fir]T;
步骤22,构建结构视图:给定社区主干GS=(VS,ES,FS),利用"LINE"新型网络嵌入方法,将社区主干中的每个节点用矢量表示此节点,其中m表示节点矢量的维度,则矩阵OS∈Rm×h表示社区主干的结构视图。
步骤3,使用自适应两级权重挖掘方法,在步骤2的属性视图和结构视图这双视图上挖掘两个视图的权重及每个视图下变量的权重,以及目标社区的核心集合,自适应平衡网络中节点属性和节点间的关系。
具体的,步骤3中基于属性视图和结构视图上挖掘两个视图的权重及每个视图下变量的权重,以及目标社区的核心集合的方法,包括如下步骤:
步骤31,给定样例节点及其替换路经所在的网络骨干和目标社区的最大个数k;
步骤32,将骨干网络划分为具有视图和单个变量权重的k目标社区种子,该过程被建模为最小化以下目标函数:
其中,U是一个h×k的分区矩阵,其元素uil是二进制的,其中uil=1指示节点vi分配给第l个目标社区的种子;Z={z1,z2,...,zk}表示k个目标社区种子的中心;W是一个2×k的矩阵,其中wi=[wi1,wi2]T是第i个种子的双视图的权重向量;L∈Rk×(r+m)其中li是r+m个变量的权重;λ>0,η>0是两个给定的参数;k是目标社区的数量,没有特殊要求,k的值通常较小整数值;d(vij,zlj)是第i个对象和第l种子中心之间在第j个变量上的:
d(vij,zlj)=||vij-zlj||2 (8)
请参阅图3所示,叙述了目标社区核心及两级权重挖掘过程,不同实体圆代表不同目标社区核心。
步骤4,基于社区内部一致性和外部可分离性定义高质量目标社区模型,并融合节点属性和结构特征扩展每个目标社区核心,挖掘高质量的目标社区。
具体的,步骤4基于社区内部一致性和外部可分离性挖掘高质量的目标社区的方法,包括如下步骤:
步骤41,计算节点间的加权相似度:基于两级权重wy,ly下,节点u和v之间的加权相似性s(u,v|wy,ly)为:
步骤42,量化社区质量:基于社区的内部一致性和外部可分离性标准,Cy的社区质量评分量化为:
步骤43,扩充样例节点替换路径所在的网络骨干挖掘得到的社区种子得到目标社区:首先选取一个目标社区的种子;然后基于社区质量模型,计算目标社区种子中节点邻居加入目标社区中的社区质量变化情况,选择模块度正向变化最大的节点加入;不断地重复邻居节点加入的过程,直至社区质量没有正向变化终止阈值,此时挖掘得到选定的种子所对应的目标社区;重复上述过程,直至所有种子扩张完成。
参阅图请4所示,展示了目标社区挖掘结果,其中深色节点为种子节点,不同程度颜色实体圆标记不同目标社区。
步骤5,为验证上述算法可行性,进行实验设计。具体的,步骤5中的实验设计包括选取实验数据和恰当的评价指标;寻找最佳模型对应的输入参数设置;选取四种目标社区发现算法与本发明算法对比;列举案例。
输入参数设置,由于模型的输入参数较多,所以不同参数设置会对算法结果带来不同程度的影响。其中,η是控制子空间中属性激励强度的正参数,而λ是控制双视图激励强度的正参数。本发明将这两个参数都设定为定参数,并通过实验筛选出通用最佳参数。
将η设为[0.5;1;3;5;7;9],λ设为[0.5;1;3;5;7;9];对于η,λ的每种组合,运行ATC-DV生成10个目标社区的检测结果,并计算出10个结果中NMI和F1的两个性能指标的平均值。
为了测试本发明在目标社区检测中的性能,将其与最新的目标群体算法进行了比较。算法对比及分析具体为:Focusco需要用户提供几个类似的节点作为示例节点;TSCM是一种目标群体检测技术;TCU-SA利用网络结构,且利用节点的属性子空间来量化内部一致性和外部可分性,从而捕获用户预抓取的目标社区。
这些方法的所有其他参数都设置为论文中描述的默认值,所有比较算法的结果平均超过10次运行,每次运行随机提供示例节点,这些方法的所有其他参数都设置为论文中描述的默认值。
求解示例节点依赖关系:示例节点扩展阶段将用户给定的示例节点替换为潜在目标社区的核心节点,该节点类似于示例节点,并可能连接目标社区中的大多数节点。自适应地平衡结构信息和属性信息:为每个视图分配了视图权重,以标识视图的紧凑性,并且为视图中的每个变量分配了可变权重,以确定变量,不仅可以自动平衡每个节点的结构链接和属性信息,以学习融合权重,还可以通过权重值捕获每个群集的子空间,避免了样例节点携带信息有限导致社区种子和用户偏好偏差问题,提升了算法的总体效率。
本发明利用种子集合及其对应的两级权重信息并以种子的邻居作为候选节点,综合考虑社区内部连接紧密程度以及社区与外部节点分离程度,速度快同时无信息损耗,提高了算法的整体执行效率;最后,为了避免社区间的冗余问题,对于挖掘得到的若干潜在目标社区,去除掉与其余潜在目标社区重叠度高的潜在目标社区,将剩余潜在目标社区为网络中的目标社区挖掘结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于双视图的自适应两级加权目标社区发现及检测方法,其特征在于:包括如下步骤:
步骤1,获取用户给定的样例节点,融合节点属性及其邻居量化节点质量;寻找样例节点替换路径,解决样例节点质量依赖,利用样例节点替换路径及其邻居,挖掘路径所在的社区主干;
步骤2,基于社区主干中节点附着的属性和节点间的连接信息,分别构建社区主干的属性视图和结构视图;
步骤3,使用自适应两级权重挖掘方法,在所述步骤2的属性视图和结构视图双视图上挖掘两个视图的权重及每个视图下变量的权重,以及目标社区的核心集合,自适应平衡网络中节点属性和结构间的关系;
步骤4,基于社区内部一致性和外部可分离性定义高质量目标社区模型,并融合节点属性和结构特征扩展每个目标社区核心,挖掘高质量的目标社区;
步骤5,进行实验设计。
2.根据权利要求1所述的基于双视图的自适应两级加权目标社区发现及检测方法,其特征在于,所述步骤1中量化节点质量的方法,包括如下步骤:
步骤11,获取样例节点,节点上附着若干属性信息;
步骤12,根据样例节点及其邻居节点,求节点之间的属性相似性,两个节点u,v之间的属性相似度由s(u,v)表示为:
s(u,v)=exp(-||f(u)-f(v)||2) (1)
其中,||f(u)-f(v)||2是节点属性矢量之间的2范数,属性相似性介于0和1之间。
步骤13,挖掘领域社区:对于给定节点v的邻域社区定义为:
T(v)={v|(u,v)∈E∧s(u,v)≥δ}∪{u},
其中,S(v)={s(u,v)|(u,v)∈E}表示所有邻居于节点v的属性相似性的集合;
步骤14,量化节点质量:给定节点v的质量计算如下:
3.根据权利要求1所述的基于双视图的自适应两级加权目标社区发现及检测方法,其特征在于,所述步骤1中得到路径所在的社区主干的方法,包括如下步骤:
步骤15,计算节点的影响邻域:两个相邻节点vi,vj之间的影响区域IA(vi,vj)是计算如下:
IA(vi,vj)={v|v∈(T(vi)∩T(vj))} (4)
步骤16,计算节点影响区域密度:两个相邻节点u,v的共同影响邻域密度dIA(u,v)为:
其中,IA(vi,vj)表示IA(vi,vj)中实际存在的链接数除以IA(vi,vj)中可能存在的链接数;
步骤17,计算节点关系强度:对于给定的两个相邻节点u,v之间的关系强度nrs(u,v)为:
步骤18,挖掘样例节点替换路径:利用与样例节点关系最紧密且影响最大的邻居替换示例节点,并进行迭代,形成从任何示例节点s到目标社区的核心成员的替代路径S=<s1,s2,...,st>,(s1=s);
步骤19,检测社区主干:给定社区主干GS=(VS,ES,FS),其中,VS={u|(u,v)∈E,s(u,v)>δ,v∈S},|VS|=h表示社区主干中节点的集合,ES={(u,v)|(u,v)∈E,u∈VS,v∈VS}是节点之间的一组无向边,FS:VS->D1×…×Dr是一个属性函数,Dim={1,2,…,r}是所有属性维度的集,Dr是第r属性的值域,f(v)为每节点v的属性矢量,fvi表示节点v的第i个属性的值。
4.根据权利要求1所述的基于双视图的自适应两级加权目标社区发现及检测方法,其特征在于,所述步骤2中社区主干的属性视图和结构视图的构建方法,包括如下步骤:
步骤21,构建属性视图:给定社区主干GS=(VS,ES,FS),其中,VS={u|(u,v)∈E,s(u,v)>δ,v∈S},|VS|=h表示社区主干中节点的集合,ES={(u,v)|(u,v)∈E,u∈VS,v∈VS}是节点之间的一组无向边,FS:VS->D1×…×Dr是一个属性函数,Dim={1,2,…,r}是所有属性维度的集,Dr是第r属性的值域,f(v)为每节点v的属性矢量,fvi表示节点v的第i个属性的值,则矩阵FS∈Rr×h表示社区主干的属性视图,其中,fi S=[fi1,fi2,...,fir]T;
5.根据权利要求1所述的基于双视图的自适应两级加权目标社区发现及检测方法,其特征在于,所述步骤2中基于属性视图和结构视图上挖掘两个视图的权重及每个视图下变量的权重,以及目标社区的核心集合的方法,包括如下步骤:
步骤31,给定样例节点及其替换路经所在的网络骨干和目标社区的最大个数k;
步骤32,将骨干网络划分为具有视图和单个变量权重的k目标社区种子,该过程被建模为最小化以下目标函数:
其中,U是一个h×k的分区矩阵,其元素uil是二进制的,其中uil=1指示节点vi分配给第l个目标社区的种子;Z={z1,z2,...,zk}表示k个目标社区种子的中心;W是一个2×k的矩阵,其中wi=[wi1,wi2]T是第i个种子的双视图的权重向量;L∈Rk×(r+m)其中li是r+m个变量的权重;λ>0,η>0是两个给定的参数;k是目标社区的数量,没有特殊要求,k的值通常较小整数值;d(vij,zlj)是第i个对象和第l种子中心之间在第j个变量上的:
d(vij,zlj)=||vij-zlj||2 (8)
6.根据权利要求1所述的基于双视图的自适应两级加权目标社区发现及检测方法,其特征在于,所述步骤4基于社区内部一致性和外部可分离性挖掘高质量的目标社区的方法,包括如下步骤:
步骤41,计算节点间的加权相似度:基于两级权重wy,ly下,节点u和v之间的加权相似性s(u,v|wy,ly)为:
步骤42,量化社区质量:基于社区的内部一致性和外部可分离性标准,Cy的社区质量评分量化为:
步骤43,扩充样例节点替换路径所在的网络骨干挖掘得到的社区种子得到目标社区:首先选取一个目标社区的种子;然后基于社区质量模型,计算目标社区种子中节点邻居加入目标社区中的社区质量变化情况,选择模块度正向变化最大的节点加入;不断地重复邻居节点加入的过程,直至社区质量没有正向变化终止阈值,此时挖掘得到选定的种子所对应的社区目标;重复上述过程,直至所有种子扩张完成。
7.根据权利要求1所述的基于双视图的自适应两级加权目标社区发现及检测方法,其特征在于,所述步骤5中的实验设计过程包括:
选取实验数据和恰当的评价指标;
寻找最佳模型对应的输入参数设置;
选取四种目标社区发现算法与本发明算法对比;
列举案例。
8.根据权利要求7所述的基于双视图的自适应两级加权目标社区发现及检测方法,其特征在于,所述输入参数设置的过程:其中,η是控制子空间中属性激励强度的正参数,λ是控制双视图激励强度的正参数。
9.根据权利要求8所述的基于双视图的自适应两级加权目标社区发现及检测方法,其特征在于,将η设为[0.5;1;3;5;7;9],λ设为[0.5;1;3;5;7;9];对于η,λ的每种组合,运行ATC-DV生成10个目标社区的检测结果,并计算出10个结果中NMI和F1的两个性能指标的平均值。
10.根据权利要求7所述的基于双视图的自适应两级加权目标社区发现及检测方法,其特征在于,所述算法对比及分析具体为:Focusco需要用户提供几个类似的节点作为示例节点;TSCM是一种目标群体检测技术;TCU-SA利用网络结构,且利用节点的属性子空间来量化内部一致性和外部可分性,从而捕获用户预抓取的目标社区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911111006.5A CN111026919A (zh) | 2019-11-14 | 2019-11-14 | 一种基于双视图的自适应两级加权目标社区发现及检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911111006.5A CN111026919A (zh) | 2019-11-14 | 2019-11-14 | 一种基于双视图的自适应两级加权目标社区发现及检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111026919A true CN111026919A (zh) | 2020-04-17 |
Family
ID=70201504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911111006.5A Pending CN111026919A (zh) | 2019-11-14 | 2019-11-14 | 一种基于双视图的自适应两级加权目标社区发现及检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026919A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084418A (zh) * | 2020-07-29 | 2020-12-15 | 浙江工业大学 | 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 |
CN113395172A (zh) * | 2021-05-18 | 2021-09-14 | 中国电子科技集团公司第五十四研究所 | 一种基于通信网的重要用户发现及行为预测方法 |
-
2019
- 2019-11-14 CN CN201911111006.5A patent/CN111026919A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084418A (zh) * | 2020-07-29 | 2020-12-15 | 浙江工业大学 | 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 |
CN112084418B (zh) * | 2020-07-29 | 2023-07-28 | 浙江工业大学 | 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 |
CN113395172A (zh) * | 2021-05-18 | 2021-09-14 | 中国电子科技集团公司第五十四研究所 | 一种基于通信网的重要用户发现及行为预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Personalized federated learning with graph | |
Kuncheva et al. | Community detection in multiplex networks using locally adaptive random walks | |
Kokiopoulou et al. | Distributed classification of multiple observation sets by consensus | |
CN109921936A (zh) | 基于memetic框架的多目标动态网络社区划分方法 | |
CN111026919A (zh) | 一种基于双视图的自适应两级加权目标社区发现及检测方法 | |
Petkos et al. | Graph-based multimodal clustering for social event detection in large collections of images | |
CN111667881B (zh) | 一种基于多网络拓扑结构的蛋白质功能预测方法 | |
Bharti et al. | Clustering‐based resource discovery on Internet‐of‐Things | |
Wang et al. | Visual space optimization for zero-shot learning | |
CN112784118A (zh) | 一种对三角形结构敏感的图中的社区发现方法和装置 | |
Petkos et al. | Graph-based multimodal clustering for social multimedia | |
Guo et al. | Multi-view feature learning for VHR remote sensing image classification | |
Zhang et al. | Hierarchical community detection based on partial matrix convergence using random walks | |
Di Massa et al. | A comparison between recursive neural networks and graph neural networks | |
CN112232147B (zh) | 用于人脸模型超参数自适应获取的方法、装置和系统 | |
CN112214684B (zh) | 一种种子扩展的重叠社区发现方法及装置 | |
Zhang et al. | Can Transformer and GNN Help Each Other? | |
Valverde-Rebaza et al. | Link prediction in online social networks using group information | |
CN116757262B (zh) | 图神经网络的训练方法、分类方法、装置、设备及介质 | |
CN113990397B (zh) | 基于有监督学习检测蛋白质复合物的方法及装置 | |
Rashid et al. | Unlocking the power of social networks with community detection techniques for isolated and overlapped communities: a review | |
Ferdowsi et al. | Tscda: a dynamic two-stage community discovery approach | |
CN115238073A (zh) | 一种融合异构信息网络与生成对抗网络的服务分类方法 | |
Liu et al. | Similarity-based common neighbor and sign influence model for link prediction in signed social networks | |
Tao et al. | Structural identity representation learning of blockchain transaction network for metaverse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200417 |