CN115827996B - 一种具有共享约束的社区查询方法及系统 - Google Patents
一种具有共享约束的社区查询方法及系统 Download PDFInfo
- Publication number
- CN115827996B CN115827996B CN202310166904.0A CN202310166904A CN115827996B CN 115827996 B CN115827996 B CN 115827996B CN 202310166904 A CN202310166904 A CN 202310166904A CN 115827996 B CN115827996 B CN 115827996B
- Authority
- CN
- China
- Prior art keywords
- path
- attribute
- community
- paths
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000005065 mining Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 18
- 238000013461 design Methods 0.000 claims description 5
- 238000010845 search algorithm Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005304 joining Methods 0.000 claims description 2
- 230000002159 abnormal effect Effects 0.000 claims 3
- 240000002329 Inga feuillei Species 0.000 claims 1
- 238000012423 maintenance Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000002331 protein detection Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种具有共享约束的社区查询方法及系统。该方法如下:一、获取目标领域的原始多源异构关系数据,以图的方式构建目标领域的异构网络。异构网络中包含多种不同类型的节点。二、根据查询要求,设定最大共享次数α和目标节点q;目标节点为q为被搜索的对象。之后,在异构网络上依次进行数据处理、初始子图构建、k‑truss属性社区发掘以及社区的调整优化,获取社区查询的查询结果。本发明在传统社区查询方法基础上引入社区的共享约束概念,用以控制查询社区的紧密程度。同时,本发明充分考虑查询实体间的属性关系,使找到的社区除了包含元路径的异构连接关系外,还兼具属性距离小的紧密特性。
Description
技术领域
本发明属于信息检索领域,涉及社区查询,具体涉及一种具有共享约束的社区查询方法及系统。
背景技术
近年来,随着互联网、大数据等新兴技术的不断发展与普及,网络上积累的信息数据不断增长,这些数据构成了非常复杂且庞大的关系网络,既描述了客观存在的实体信息,也蕴含了实体间复杂的关联关系,是一种典型的多源异构关系数据。例如,在学术网络中,这种实体间关系表现为学者与论文、期刊之间的发表;在生物蛋白网络中,这种关系表示的是不同蛋白质及蛋白质群组之间的相互依赖与作用;在公共安全领域中,这种异构关系体现为犯罪分子与犯罪事件、案发地点之间的关联。通过海量的多源异构关系数据挖掘数据背后潜在的关联,对于学术资源发掘、生物医学研究以及公共安全防控等各个领域都具有重大的意义。因此,精准、高效的社区查询是目前数据挖掘领域研究的重点。
社区查询是指在复杂的关系网络图中寻找结构或属性上具有紧密关联的群体,被广泛应用于社交圈发现、生物蛋白检测、推荐系统以及智慧公共安全等各个场景。对于社区查询方向的研究将有助于充分发挥海量数据资源的优势,精准定位关键的目标群体,提高社会资源利用率。
针对复杂的关系网络,目前社区查询主要采用经典的k-truss、k-core结构作为社区模型,返回的社区普遍存在“搭便车”效应,包含一些与社区群体关联较弱的节点。例如,在关系为犯罪分子、犯罪事件与案发地点的公共安全网络中,目标是找到一个犯罪团伙的核心骨干,基于传统社区模型得到的查询结果中存在犯罪组织的外围成员因为参与了某项大型犯罪事件而被包括在核心骨干社区中。该大型犯罪事件在构建社区关系过程中作为节点同时被犯罪团伙中的核心成员与外围成员所共享,外围成员通过该事件构建起与核心骨干成员的关系连边从而被引入社区。对于同一节点被其他多个节点所共享,从而在这些节点间建立起连边关系,导致在查询社区中引入一些松散节点的现象,被称作“搭便车效应”。传统社区查询模型对于节点共享次数的忽视引发的“搭便车效应”将削弱社区查询结果的紧密性。此外,社区网络关系的可视化将有助于对社区信息的进一步挖掘与分析,但目前各研究领域缺少简单易用的社区查询系统专门用于社区查询相关的可视化应用服务。
发明内容
本发明的目的在于针对上述不足,提供一种具有共享约束的社区查询方法及系统,其在传统社区模型基础上进行改进,增加共享约束以解决传统社区模型存在的“搭便车效应”问题。
第一方面,本发明提供一种具有共享约束的社区查询方法,其包括以下步骤。
步骤一、获取目标领域的原始多源异构关系数据,以图的方式构建目标领域的异构网络。异构网络中包含多种不同类型的节点;其中一种类型的节点为用户节点。
步骤二、根据查询要求,设定最大共享次数α和目标节点q;目标节点q为被搜索的对象。之后,在异构网络上依次进行数据处理、初始子图构建、k-truss属性社区发掘以及社区的调整优化,获取社区查询的查询结果,具体过程如下。
2-1.对步骤一构建的异构网络进行数据处理,获取与目标节点q连通的子网络。在子网络上计算各路径的路径优先级Prio(r)的表达式为:
Prio(r)=β·f C(r)+(1-β)·f D(r)
其中,f C(r)为路径r的冲突性;β为路径冲突性权重;f D(r)为路径r的两个节点之间的属性距离。
2-2.根据目标节点q,在步骤1提取的子网络上构建的初始子图G。
2-2-1.构建初始为空集的外扩路径集合R,初始时,根据子网络将目标节点q与其邻接点之间的路径加入外扩路径集合R。
2-2-2.根据路径的优先级,选择外扩路径集合R中的路径加入初始子图G。
2-2-3.在子网络上寻找在本轮加入初始子图G的各邻接节点两两间的连接路径,并加入外扩路径集合R;重复一次步骤2-2-2。
2-2-4.以执行一次步骤2-2-2和步骤2-2-3作为一轮初始子图G的更新过程;将上一轮初始子图G的更新过程中加入初始子图G内的各节点作为初始节点。取各初始节点与其邻接点之间的路径作为待外扩路径。将剩余共享次数不为0的待外扩路径加入外扩路径集合R中。
2-2-5.重复步骤2-2-2至2-2-4,直到不再有任何路径能够加入到外扩路径集合R中之后,以所得的初始子图G作为异构图。
2-3.在步骤2-2得到的异构图的基础上进行k-truss属性社区发掘以及社区的调整优化,所得k-truss属性社区作为查询结果。
作为优选,步骤一构建的异构网络中的节点表示目标领域中的实体。异构网络中的节点具有文本型属性和/或数值型属性。
作为优选,所述的异构网络中包含两种类型的节点,分别为用户节点和事件节点;用户节点与事件节点之间的连边表示用户参与连接的事件。
作为优选,步骤2-1中所述的与目标节点q连通的子网络根据元路径采用广度优先搜索算法获取。
作为优选,步骤2-1中,两个节点之间的属性距离的计算过程如下:子网络上同类型的任意两个节点的各属性类型之间均具有一个属性距离;计算子网络上同类型节点间的不同属性的属性距离;数值型属性的属性距离采用曼哈顿距离计算,文本型属性的属性距离采用Jaccard距离计算;以两个同类型节点的所有属性类型的属性距离的加权平均值作为该两个同类型节点的属性距离f D(u,v);u、v表示同类型的两个节点。
作为优选,步骤2-1中所述的路径r的冲突性f C(r)表达式为:
f C(r)=max{f C(v)}
其中,f C(v)为路径r上各节点的冲突性。
节点的冲突性f C(v)的表达式为:
f C(v)=c(v)/l(v)
其中,c(v)为节点v在子网络中被所有路径所经过的次数;l(v)为节点v的剩余可共享次数。
作为优选,步骤2-2-2的具体过程为:根据路径的优先级对外扩路径集合R内所有路径进行升序排序,每次选择优先级最小的路径加入初始子图G中,直至外扩路径集合R为空。每次将路径加入初始子图G后均更新外扩路径集合R内所有受影响的路径的剩余共享次数、冲突性及优先级。受影响的路径为与被加入初始子图G的路径相交的路径。所有受影响的路径的剩余共享次数均减小1;路径的剩余共享次数的初始值为最大共享次数α。移除外扩路径集合R内的端点重复路径以及包含剩余共享次数为0的节点的路径。端点重复路径为两个端部节点已在初始子图G通过一条路径直接连接的路径。对从外扩路径集合R内移除的路径进行标记。
作为优选,步骤2-3的具体过程为。
(1)在步骤2-2得到的异构图上进行k-truss属性社区发掘。根据k-truss模型,不断删除异构图中属性距离最大的路径并进行k-truss结构的维护,直至删除属性距离最大的路径后无法维持k-truss结构时,不再继续删除异构图中属性距离最大的路径,得到k-truss属性社区。
(2)对k-truss属性社区进行社区调优。在子网络图中搜索异构图更新路径。删除当前k-truss社区中属性距离最大的路径,并将异构图更新路径加入k-truss属性社区。
异构图更新路径满足以下四个条件。
条件1.删除当前k-truss属性社区中属性距离最大的路径,并将异构图更新路径加入k-truss属性社区后,依旧维持k-truss的社区结构。
条件2.异构图上更新路径的剩余共享次数不为0。
条件3.异构图上更新路径的属性距离小于k-truss属性社区中属性距离最大的路径的属性距离。
条件4.异构图上更新路径未被标记为已经访问。
(3)重复步骤(1)至步骤(3),当子网络图中不存在异构图更新路径时,以最终的k-truss属性社区作为查询结果。
第二方面,本发明提供一种具有共享约束的社区查询系统,其用于执行前述的社区查询方法;该社区查询系统包括前端UI、展示层、应用层、算法层和数据层。所述的前端UI通过图形化组件向用户提供社区查询界面。所述的展示层用于进行页面加载性能设计以及查询参数设置、查询结果调节。所述的应用层用于向算法层输入包括最大共享次数α以及目标节点信息,向展示层和前端UI发送查询结果。所述的算法层用于执行数据处理、初始子图构建、k-truss属性社区发掘以及社区的调整优化的过程。数据层用于封装属性数据、元路径以及异构网络图。
第三方面,本发明提供一种计算机设备,其包括存储器和至少一个处理器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行前述的社区查询方法。
第四方面,本发明提供一种可读存储介质,存储有计算机指令;所述计算机指令被处理器执行时用于实现如前述的社区查询方法。
本发明的有益效果如下:本发明在传统社区查询方法基础上引入社区的共享约束概念,用以控制查询社区的紧密程度,解决传统社区查询方法存在的“搭便车效应”问题,且通过共享次数的调整避免了严格的共享约束带来的稀疏图问题,支持社区查询系统对于社区网络关系图的动态演化。同时,本发明充分考虑查询实体间的属性关系,使找到的社区除了包含元路径的异构连接关系外,还兼具属性距离小的紧密特性。通过属性距离与冲突性混合的方式构建满足共享约束的初始子图,避免了对共享次数进行组合分配带来的巨大开销,能够在多项式时间内返回近似查询结果,提高查询效率,支持海量数据下的异构网络社区查询,具有更为广泛的适用性。
附图说明
图1为本发明提供的社区查询系统的架构图。
图2为本发明提供的社区查询系统的算法层工作流程图。
图3为本发明在步骤S1中构建的异构网络的示意图。
图4为本发明在步骤S2-2中获得的异构图。
图5为本发明在步骤S2-2中获得的异构图对应的同构图。
图6为本发明在步骤S2-5中获得查询结果对应的同构图。
具体实施方式
下面将结合附图对本发明进行进一步说明。
如图1所示,一种具有共享约束的社区查询方法,采用的社区查询系统包括前端UI、展示层、应用层、算法层和数据层。
前端UI用于页面形象设计,通过图形化组件向用户提供精美的社区查询界面以及良好的交互体验,呈现社区的动态演示过程,便于用户对社区关系的进一步分析、调节与应用。
展示层用于前端页面的渲染与页面的交互式设计,主要包括页面加载性能设计以及查询参数设置、查询结果调节等交互对应的设计。
应用层用于集成社区查询系统的功能接口,主要为基于共享约束的属性社区查询算法,输入包括社区结构约束k,最大共享次数α以及查询目标节点,接口返回与目标节点具有紧密社区关系的同类型节点集合。
算法层用于具体实现应用层基于共享约束的属性社区查询算法,主要分为数据处理、初始子图构建、k-truss属性社区发掘以及社区的调整优化四个步骤,得到满足k-truss结构、属性以及共享次数约束的社区。
数据层用于封装属性数据、元路径以及异构网络图,以支持算法层的图查询。
该社区查询方法,具体包括以下步骤。
S1.社区查询系统的数据层首先获取目标领域的原始多源异构关系数据,以图的方式构建目标领域的异构网络。异构网络的节点表示目标领域中的实体,实体分为多种不同的类型,而节点间的边表示两个实体的某种确定关系,每个边都有一个关系的类型。通过对不同节点类型间的关系进行抽取,得到异构网络模式图,其刻画的是节点类型与边类型之间的抽象层关系。异构网络中的节点具有文本型属性以及数值型属性,同类型节点间的属性距离用于描述两个实体在文本型属性及数值型属性上的综合相似程度,属性距离越小,表明两个实体相似程度越高。异构网络的属性距离为同类型节点两两间属性距离的最大值。
根据异构网络模式图,可以提取出特定的元路径,用于表示节点的连接方式。通过定义元路径,可以在异构网络中以某种特定的连接方式对节点进行遍历访问。在本实施例中异构网络包含节点A及节点P,分别表示用户实体以及事件,用户节点A与事件节点P之间的连边表示用户参与了连接的事件。用户类型节点包含文本型属性,如:地址、工作以及学历等,以及数值型属性,如:年龄、收入等。元路径定义为A-P-A,表示对异构网络遍历访问的连接关系为用户——事件——用户,目标为找到参与相似事件的社区群体。
如图3所示,本实施例中共有六个用户节点(即图3中的a1~a6)和五个事件节点(即图3中的p1~p5;其中,用户节点a1与事件节点p1、p2连接,说明用户节点a1参与了事件节点p1、p2对应的事件。其他用户节点同理。
S2.社区查询系统的算法层通过统一的访问接口加载步骤S1所述的异构网络,在异构网络上依次进行数据处理、初始子图构建、k-truss属性社区发掘以及社区的调整优化。本实施例中设定k-truss约束k=4,最大共享次数α=3,目标节点q。本实施例中,目标节点q为一个用户节点,具体为图3中的节点a2;因此,本实施例中将目标节点q称为节点a2。具体流程如图2所示,首先,根据元路径采用广度优先搜索算法获取与目标节点连通的子网络,在子网络上计算属性距离、冲突性及优先级;接着,从目标节点a2开始扩展初始子图,依次选择属性距离及冲突性小的元路径进行连接,获得满足共享次数约束的初始子图G;然后,根据k-truss模型,不断删除初始子图G中属性距离最大的边并进行k-truss结构的维护,得到k-truss属性社区;最后,在删除属性距离最大边无法维持k-truss结构时,引入满足共享次数约束、属性距离更小且未被访问的元路径进行社区调优;重复k-truss属性社区查询步骤以及社区调优步骤,直到不存在可引入的路径使删除属性距离最大边后子图G仍然能维持k-truss约束时,返回当前社区作为查询结果。具体包括以下步骤。
S2-1.对异构网络进行数据处理,根据元路径采用广度优先搜索算法获取与目标节点a2连通的子网络。在子网络上计算属性距离、冲突性以及路径优先级。
S2-1-1.网络上同类型的任意两个节点的各属性类型均具有一个属性距离;计算子网络上同类型节点间的不同属性的属性距离,数值型属性的属性距离采用曼哈顿距离计算,文本型属性的属性距离采用Jaccard距离计算;两个同类型节点的所有属性类型的属性距离的加权平均值作为该两个同类型节点的属性距离f D(u,v);u、v表示同类型的两个节点。
S2-1-2.计算子网络上节点及路径的冲突性。冲突性用于刻画节点或路径在异构网络中的访问次数与剩余共享次数,分为节点的冲突性、路径的冲突性以及节点对的冲突性,路径上各节点的冲突性f C(v)的表达式为:
f C(v)=c(v)/l(v)
其中,c(v)为节点v在子网络中被所有路径所经过的次数;l(v)为节点v的剩余可共享次数;剩余可共享次数的初始值为最大共享次数α。
随着初始子图G的扩展,节点的剩余共享次数l(v)不断减少,冲突性f C(v)不断增大。对于∀v∈r,路径r的冲突性定义为该条路径上点冲突性最大值,其表达式为:
f C(r)=max{f C(v)}
对于∀u∈r∩v∈r,节点对(u,v)的冲突性表示为两点间所有路径冲突性的最小值,其表达式为:
f C(u,v)=min{f C(r)}
S2-1-3.计算子网络上各路径的优先级。优先级基于对异构网络中节点的属性关联以及冲突性考虑,优先将共享次数分配给属性关系紧密、访问次数少、剩余共享次数多的路径,使后续构建的初始子图在满足共享约束的前提下尽可能具备较大的规模与属性的紧密性。对于任意路径r,路径r的优先级定义为属性距离与冲突性的加权和Prio(r),其表达式为:
Prio(r)=β·f C(r)+(1-β)·f D(r)
其中,β为路径冲突性权重;f D(r)为路径r的两个端部节点之间的属性距离。
S2-2.如图4所示,根据目标节点a2,在子网络上构建满足剩余共享次数不为0的初始子图G,具体包括以下步骤。
S2-2-1.构建初始为空集的外扩路径集合R,初始时,根据子网络将目标节点a2与其邻接点之间的路径{r1,r2,r3,...}加入外扩路径集合R。本实施例中,目标节点a2通过元路径A-P-A的邻接点为节点a1,a3,a4,a5。加入外扩路径集合R的路径数量为8条。本步骤产生的路径为图4中的a2-p1-a1,a2-p2-a3,a2-p3-a3,a2-p3-a4,a2-p4-a4,a2-p1-a5,a2-p3-a5,a2-p4-a5。
S2-2-2.根据路径的优先级对外扩路径集合R内所有路径进行升序排序,每次选择优先级最小的路径加入初始子图G中,直至外扩路径集合R为空。每次将路径加入初始子图G后均更新外扩路径集合R内所有受影响的路径的剩余共享次数、冲突性及优先级。受影响的路径为与被加入初始子图G的路径相交的路径。所有受影响的路径的剩余共享次数均减小1;移除外扩路径集合R内端点重复路径以及包含剩余共享次数为0的节点的路径。端点重复路径为两个端部节点已在初始子图G通过一条路径直接连接的路径。对从外扩路径集合R内移除的路径进行标记,表示已经访问。
在本实施例中,假设路径a2-p4-a5优先级最小,将该路径加入初始子图G,其余经过节点p4的路径a2-p4-a4的剩余共享次数-1,节点对(a2,a5)间已有路径a2-p4-a5连接,因此路径a2-p1-a5和a2-p3-a5从集合R中移除,并标记为已访问。重复操作直至集合R为空。目标节点a2第一轮外扩加入初始子图G的路径有{a2-p1-a1,a2-p2-a3,a2-p4-a4,a2-p4-a5}。
S2-2-3.在子网络上寻找在本轮加入初始子图G的各邻接节点两两间的连接路径,并加入外扩路径集合R;重复步骤S2-2-2,继续向初始子图G中加入路径。
在本实施例中,在步骤S2-2-2执行后,邻接节点a1,a3,a4,a5间相连路径为图4中的a1-p1-a5,a4-p5-a5,a3-p3-a4,a3-p3-a5,将这些路径加入初始子图G。
S2-2-4.以一次步骤S2-2-2和步骤S2-2-3的执行作为一轮初始子图G的更新过程;将上一轮初始子图G的更新过程中加入初始子图G内的各节点作为初始节点。取各初始节点与其邻接点之间的路径作为待外扩路径。将剩余共享次数不为0的待外扩路径加入外扩路径集合R中。
S2-2-5.重复步骤S2-2-2至S2-2-4,直到不再有任何路径能够加入到外扩路径集合R中之后,将更新完成的初始子图G作为后续处理的异构图。
在本实施例中,第二轮初始子图G的更新过程以a1,a3,a4,a5作为起始节点,满足剩余共享次数不为0约束的连接路径为图4中的a4-p5-a6和a5-p5-a6,将这些路径加入初始子图G。
本实施例中最终得到的异构图(即最终的初始子图G)如图4所示。将本步骤得到的异构图转换为同构图;图5为所得的同构图;同构图是在异构图的基础上省去事件节点,将用户节点直接相邻。
S2-3.在步骤2-2得到的异构图上进行k-truss属性社区发掘。根据k-truss模型,不断删除异构图中属性距离最大的路径并进行k-truss结构的维护,直至删除属性距离最大的路径后无法维持k-truss结构,得到k-truss属性社区。
S2-4.对k-truss属性社区进行社区调优。在子网络图中搜索异构图更新路径。删除当前k-truss社区中属性距离最大的路径,并将异构图更新路径加入k-truss属性社区。
异构图更新路径满足以下四个条件。
条件1.删除当前k-truss属性社区中属性距离最大的路径,并将异构图更新路径加入k-truss属性社区后,依旧维持k-truss的社区结构。
条件2.异构图上更新路径的剩余共享次数不为0。
条件3.异构图上更新路径的属性距离小于k-truss属性社区中属性距离最大的路径的属性距离。
条件4.异构图上更新路径未被标记为已经访问。
S2-5.重复S2-3至S2-4,当子网络图中不存在异构图更新路径时,算法层以最后得到的k-truss属性社区作为查询结果;
本实施例中得到的社区查询结果是在图4基础上删除属性关联性较弱的部分路径;社区查询结果转换成的同构图见图6;从图6中可以看出,图6中的同构图相较于图5中的同构图删除了部分属性关联性较低的路径。
S3.应用层向用户提供社区查询的接口,调用步骤S2的方法完成以下功能:输入社区结构参数k值为4,共享次数α为3以及目标节点a2,通过步骤S2的方法(即算法层)实现基于共享约束的属性社区查询,满足对不同结构社区的查询需求。
S4.展示层提供用户界面的渲染以及交互功能,根据用户请求将应用层接口返回的社区查询结果以图形化方式呈现。前端UI采用Vue框架集成Element-UI、Echarts、DataV组件进行社区网络关系的可视化。用户输入应用层接口所需的社区查询参数。通过Ajax(即Asynchronous Javascript And XML,异步JavaScript和XML)向应用层发送Get和Post方法请求,将基于共享约束的属性社区查询结果渲染在前端页面。用户通过调节社区的共享次数α以及k值,可以在前端展示层页面观测到动态演化的社区网络图。
应当说明的是,以上仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (7)
1.一种具有共享约束的社区查询系统;其特征在于:包括前端UI、展示层、应用层、算法层和数据层;所述的前端UI通过图形化组件向用户提供社区查询界面;所述的展示层用于进行页面加载性能设计以及查询参数设置、查询结果调节;所述的应用层用于向算法层输入包括最大共享次数α以及目标节点信息,向展示层和前端UI发送查询结果;所述的算法层用于执行数据处理、初始子图构建、k-truss属性社区发掘以及社区的调整优化的过程;数据层用于封装属性数据、元路径以及异构网络图;
使用该具有共享约束的社区查询系统进行社区查询的方法,包括以下步骤:
步骤一、获取目标领域的原始多源异构关系数据,以图的方式构建目标领域的异构网络;异构网络中包含多种不同类型的节点;
步骤二、根据查询要求,设定最大共享次数α和目标节点q;目标节点q为被搜索的对象;之后,在异构网络上依次进行数据处理、初始子图构建、k-truss属性社区发掘以及社区的调整优化,获取社区查询的查询结果,具体过程如下:
2-1.对步骤一构建的异构网络进行数据处理,获取与目标节点q连通的子网络;在子网络上计算各路径的路径优先级Prio(r)的表达式为:
Prio(r)=β·f C (r)+(1-β)·f D (r)
其中,f C (r)为路径r的冲突性;β为路径冲突性权重;f D (r)为路径r的两个节点之间的属性距离;
2-2.根据目标节点q,在步骤一提取的子网络上构建初始子图G,作为满足共享约束的异构图;
2-3.在步骤2-2得到的异构图的基础上进行k-truss属性社区发掘以及社区的调整优化,所得k-truss属性社区作为查询结果。
2.根据权利要求1所述的一种具有共享约束的社区查询系统,其特征在于:步骤一构建的异构网络中的节点表示目标领域中的实体;异构网络中的节点具有文本型属性和/或数值型属性。
3.根据权利要求1所述的一种具有共享约束的社区查询系统,其特征在于:步骤2-2的具体过程如下:
2-2-1.构建初始为空集的外扩路径集合R,初始时,根据子网络将目标节点q与其邻接点之间的路径加入外扩路径集合R;
2-2-2.根据路径的优先级,选择外扩路径集合R中的路径加入初始子图G;
2-2-3.在子网络上寻找在本轮加入初始子图G的各邻接节点两两间的连接路径,并加入外扩路径集合R;重复一次步骤2-2-2;
2-2-4.以执行一次步骤2-2-2和步骤2-2-3作为一轮初始子图G的更新过程;将上一轮初始子图G的更新过程中加入初始子图G内的各节点作为初始节点;取各初始节点与其邻接点之间的路径作为待外扩路径;将剩余共享次数不为0的待外扩路径加入外扩路径集合R中;
2-2-5.重复步骤2-2-2至2-2-4,直到不再有任何路径能够加入到外扩路径集合R中之后,以所得的初始子图G作为满足共享约束的异构图。
4. 根据权利要求1所述的一种具有共享约束的社区查询系统,其特征在于:步骤2-1中所述的与目标节点q连通的子网络根据元路径采用广度优先搜索算法获取;步骤2-1中两个节点之间的属性距离的计算过程如下:子网络上同类型的任意两个节点的各属性类型之间均具有一个属性距离;计算子网络上同类型节点间的不同属性的属性距离;数值型属性的属性距离采用曼哈顿距离计算,文本型属性的属性距离采用Jaccard距离计算;以两个同类型节点的所有属性类型的属性距离的加权平均值作为该两个同类型节点的属性距离f D (u,v);u、v表示同类型的两个节点。
5. 根据权利要求1所述的一种具有共享约束的社区查询系统,其特征在于:步骤2-1中所述的路径r的冲突性f C (r)表达式为:
f C (r)=max{f C (v)}
其中,f C (v)为路径r上各节点的冲突性;
节点的冲突性f C (v)的表达式为:
f C (v)=c(v)/l(v)
其中,c(v)为节点v在子网络中被所有路径所经过的次数;l(v)为节点v的剩余可共享次数。
6.根据权利要求3所述的一种具有共享约束的社区查询系统,其特征在于:步骤2-2-2的具体过程为:根据路径的优先级对外扩路径集合R内所有路径进行升序排序,每次选择优先级最小的路径加入初始子图G中,直至外扩路径集合R为空;每次将路径加入初始子图G后均更新外扩路径集合R内所有受影响的路径的剩余共享次数、冲突性及优先级;受影响的路径为与被加入初始子图G的路径相交的路径;所有受影响的路径的剩余共享次数均减小1;路径的剩余共享次数的初始值为最大共享次数α;移除外扩路径集合R内的端点重复路径以及包含剩余共享次数为0的节点的路径;端点重复路径为两个端部节点已在初始子图G通过一条路径直接连接的路径;对从外扩路径集合R内移除的路径进行标记。
7.根据权利要求1所述的一种具有共享约束的社区查询系统,其特征在于:步骤2-3的具体过程为:
(1)在步骤2-2得到的异构图上进行k-truss属性社区发掘;根据k-truss模型,不断删除异构图中属性距离最大的路径并进行k-truss结构的维护,直至删除属性距离最大的路径后无法维持k-truss结构时,不再继续删除异构图中属性距离最大的路径,得到k-truss属性社区;
(2)对k-truss属性社区进行社区调优;在子网络图中搜索异构图更新路径;删除当前k-truss社区中属性距离最大的路径,并将异构图更新路径加入k-truss属性社区;
异构图更新路径满足以下四个条件:
条件1.删除当前k-truss属性社区中属性距离最大的路径,并将异构图更新路径加入k-truss属性社区后,依旧维持k-truss的社区结构;
条件2.异构图上更新路径的剩余共享次数不为0;
条件3.异构图上更新路径的属性距离小于k-truss属性社区中属性距离最大的路径的属性距离;
条件4.异构图上更新路径未被标记为已经访问;
(3)重复步骤(1)至步骤(3),当子网络图中不存在异构图更新路径时,以最终的k- truss属性社区作为查询结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310166904.0A CN115827996B (zh) | 2023-02-27 | 2023-02-27 | 一种具有共享约束的社区查询方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310166904.0A CN115827996B (zh) | 2023-02-27 | 2023-02-27 | 一种具有共享约束的社区查询方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115827996A CN115827996A (zh) | 2023-03-21 |
CN115827996B true CN115827996B (zh) | 2023-05-02 |
Family
ID=85522288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310166904.0A Active CN115827996B (zh) | 2023-02-27 | 2023-02-27 | 一种具有共享约束的社区查询方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115827996B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006121575A2 (en) * | 2005-05-10 | 2006-11-16 | Alice Muntz | Method and apparatus for distributed community finding |
CN113254797A (zh) * | 2021-04-19 | 2021-08-13 | 江汉大学 | 一种社交网络社区的搜索方法、装置以及处理设备 |
CN113424180A (zh) * | 2021-05-13 | 2021-09-21 | 清华大学 | 基于时间跨度优化的短时社区搜索方法 |
CN114722304A (zh) * | 2022-04-15 | 2022-07-08 | 南开大学 | 异质信息网络上基于主题的社区搜索方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090164929A1 (en) * | 2007-12-20 | 2009-06-25 | Microsoft Corporation | Customizing Search Results |
CN102810113B (zh) * | 2012-06-06 | 2015-09-09 | 北京航空航天大学 | 一种针对复杂网络的混合型聚类方法 |
CN104462260B (zh) * | 2014-11-21 | 2018-07-10 | 深圳大学 | 一种基于k-核的社交网络中的社区搜索方法 |
CN106709037B (zh) * | 2016-12-29 | 2019-11-08 | 武汉大学 | 一种基于异构信息网络的电影推荐方法 |
CN112131261B (zh) * | 2020-10-09 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 基于社区网络的社区查询方法、装置和计算机设备 |
CN114760202A (zh) * | 2022-03-04 | 2022-07-15 | 重庆邮电大学 | 一种网络切片场景下服务功能链可靠构建与部署方法 |
CN114691958A (zh) * | 2022-04-02 | 2022-07-01 | 杭州电子科技大学 | 一种基于用户地理位置多样性的社区检索方法 |
-
2023
- 2023-02-27 CN CN202310166904.0A patent/CN115827996B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006121575A2 (en) * | 2005-05-10 | 2006-11-16 | Alice Muntz | Method and apparatus for distributed community finding |
CN113254797A (zh) * | 2021-04-19 | 2021-08-13 | 江汉大学 | 一种社交网络社区的搜索方法、装置以及处理设备 |
CN113424180A (zh) * | 2021-05-13 | 2021-09-21 | 清华大学 | 基于时间跨度优化的短时社区搜索方法 |
CN114722304A (zh) * | 2022-04-15 | 2022-07-08 | 南开大学 | 异质信息网络上基于主题的社区搜索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115827996A (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Keywords‐driven and popularity‐aware paper recommendation based on undirected paper citation graph | |
Zhuge | Communities and emerging semantics in semantic link network: Discovery and learning | |
WO2014107988A1 (zh) | 微博用户群体结构发现分析方法及系统 | |
CN107784598A (zh) | 一种网络社区发现方法 | |
CN108520035A (zh) | 基于星形分解的sparql基本图模式查询处理方法 | |
US20240169224A1 (en) | Architecture for providing insights in networks domain | |
CN113228059A (zh) | 面向跨网络的表示学习算法 | |
CN110162716B (zh) | 一种基于社区检索的影响力社区搜索方法和系统 | |
Rodríguez-Mazahua et al. | Horizontal partitioning of multimedia databases using hierarchical agglomerative clustering | |
Hou et al. | META-CODE: Community detection via exploratory learning in topologically unknown networks | |
CN108470251B (zh) | 基于平均互信息的社区划分质量评价方法及系统 | |
Yang et al. | Three-fast-inter incremental association Markov blanket learning algorithm | |
CN115827996B (zh) | 一种具有共享约束的社区查询方法及系统 | |
CN113407810B (zh) | 一种基于大数据的城市信息和服务集成系统及方法 | |
CN112380267B (zh) | 一种基于隐私图的社区发现方法 | |
CN106844790A (zh) | 一种用于社交网络中用户组分析的快速时态查询方法 | |
Bai et al. | Optimized algorithm for skyline community discovery in multi-valued networks | |
Daoud et al. | Building a new semantic social network using semantic web-based techniques | |
CN102103595A (zh) | 一种基于搜索引擎的群体智能系统 | |
CN106599187B (zh) | 一种基于边不稳定度的社区发现系统及方法 | |
Qi | A review: Random walk in graph sampling | |
Xie et al. | Influential attribute community search | |
Raju et al. | CILPA: a cohesion index based label propagation algorithm for unveiling communities in complex social networks | |
Chen et al. | Toponym Based Community Search in Large Social Network | |
Wilson et al. | A general inference network based architecture for multimedia information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |