CN112967146B - 一种基于标签传播的科研社区发现方法及装置 - Google Patents
一种基于标签传播的科研社区发现方法及装置 Download PDFInfo
- Publication number
- CN112967146B CN112967146B CN202110147516.9A CN202110147516A CN112967146B CN 112967146 B CN112967146 B CN 112967146B CN 202110147516 A CN202110147516 A CN 202110147516A CN 112967146 B CN112967146 B CN 112967146B
- Authority
- CN
- China
- Prior art keywords
- label
- network
- node
- nodes
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000011160 research Methods 0.000 title claims abstract description 33
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000000644 propagated effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于标签传播的科研社区发现方法及装置。该社区发现方法包括:根据初始网络中边两端节点属性的相似度,调整该网络中所有边的权重,得到新的网络;对新的网络进行初始化后,根据网络的拓扑结构和边的权重多次遍历网络中所有边进行多标签传播,当网络中所有节点的标签不再发生变化,则结束多标签传播过程,得到所有节点的最终标签列表;根据网络中所有节点的最终标签列表,将网络划分为预设数量的社区,以发现重叠社区。采用该社区发现方法最终划分的社区内部的节点连接紧密且节点属性相似度高,社区之间的节点连接稀疏且属性相似度低,并且可以发现重叠社区。此外,该社区发现方法时间复杂度低,可以应用于大规模网络。
Description
技术领域
本发明涉及一种基于标签传播的科研社区发现方法,同时也涉及相应的科研社区发现装置,属于复杂网络分析技术领域。
背景技术
复杂网络是由学者定义的一种网络,其特点是规模较大,节点数量常在十万以上,而且连接关系复杂,包含着丰富的信息。社交网络、生物网络、学术网络等都是典型的复杂网络,因此针对复杂网络的研究具有十分重要的意义。社区发现方法是研究复杂网络时常用的一类方法;如图1所示,通过将复杂网络划分为多个社区,使得社区内部连接紧密,社区之间连接稀疏,实现发现复杂网络中的社区结构,进而深度挖掘复杂网络中的信息。
随着现实世界中信息的不断丰富,社区发现的一个常见应用场景是属性网络,其特点是网络中的节点上有丰富的属性信息。例如,社交网络中,用户为节点,其个人简介、兴趣列表等是属性信息;论文引用网络中,论文是节点,论文的分类、关键词、引用数等是属性信息。如图2展示了一个科研属性网络,其节点是人,网络中的边代表了人与人之间的关系,并且人本身是有丰富的属性信息的,例如:姓名、年龄、性别、研究领域等等,这些属性信息显然是很有价值的。
然而,目前大多数社区发现方法只研究网络的拓扑结构,而没有关注同样包含丰富信息的节点属性信息;在考虑了节点属性信息的社区发现方法中,普遍存在不能发现重叠社区、难以应用于大规模网络等问题。
发明内容
本发明所要解决的首要技术问题在于提供一种基于标签传播的科研社区发现方法。
本发明所要解决的另一技术问题在于提供一种基于标签传播的科研社区发现装置。
为了实现上述目的,本发明采用下述技术方案:
根据本发明实施例的第一方面,提供一种基于标签传播的科研社区发现方法,包括如下步骤:
步骤S1、根据初始网络中边两端节点属性的相似度,调整该网络中所有边的权重,得到新的网络;
步骤S2、对新的网络进行初始化后,根据网络的拓扑结构和边的权重多次遍历网络中所有边进行多标签传播,当网络中所有节点的标签不再发生变化,则结束多标签传播过程,得到所有节点的最终标签列表;
步骤S3、根据网络中所有节点的最终标签列表,将网络划分为预设数量的社区,以发现重叠社区。
其中较优地,将所述初始网络中每条边的权重与该边两端节点之间的属性相似度相乘作为每条边新的权重,以调整该网络中每条边的权重,并删除每个节点的属性信息,得到新的网络。
其中较优地,当所述初始网络中任意一条边两端节点vi和vj的属性信息采用离散表示形式时,采用如下公式计算该边两端节点vi和vj之间的属性相似度;
上式中,s为节点属性信息的维度,从1开始共有s维,并且每一维的值都是0或1;I{2}(Tik+Tjk)为示性函数,表示只有当节点vi和节点vj在第s维的属性均为1时,两节点的相似度增加2,否则不变;为了避免节点之间的属性相似度为0的情况,将最终结果加1。
其中较优地,当所述初始网络中任意一条边两端节点vi和vj的属性信息采用稠密表示形式时,采用如下公式计算该边两端节点vi和vj之间的属性相似度;
上式中,s为节点属性信息的维度,从1开始共有s维,Aiq表示节点vi在第q维的数值,Ajq表示节点vj在第q维的数值。
其中较优地,对所述新的网络进行初始化时,将网络中每个节点的ID设置为每个节点的标签列表中的首个标签。
其中较优地,根据所述新的网络的拓扑结构和边的权重每遍历一次网络中所有边进行一轮多标签传播,得到本轮标签传播后的所有节点的标签列表,具体包括如下步骤:
步骤S21、初始化标签为字典的新列表,用于记录本轮标签传播的节点的各标签权重;
步骤S22、根据网络的拓扑结构,确定每条边的源节点和目标节点,将每条边的源节点用于进行标签传播的标签列表中的所有标签按照权重的降序依次传播给目标节点,以更新所述目标节点的标签及标签权重;
步骤S23、遍历完所有边,删除每个节点的标签字典记录的各标签权重小于标签阈值的标签后,并从每个节点余下标签中选择预设数量权重最高的标签作为本轮标签传播后的每个节点的标签列表。
其中较优地,每条边的源节点用于进行标签传播的标签列表中的各个标签的权重为:上一轮标签传播后得到的所述源节点标签列表中的各个标签降序排列后得到的每个标签的衰减系数与相应边的权重的乘积。
其中较优地,每条边的源节点每向目标节点传播一个标签,所述目标节点的当前标签列表中若没有该标签,则将该标签添加到标签列表中,所述目标节点的所述当前标签列表中若有该标签,则将所述当前标签列表中的该标签的权重进行叠加。
其中较优地,将网络划分为预设数量的社区,包括如下步骤:
遍历网络中所有节点的最终标签列表,计算各个标签的总权重,选择权重最大的预设数量的标签作为网络最终的社区,如果权重最大的标签的数量小于预设数量,则保留所有的标签;
遍历网络中所有节点,对标签进行筛选,将节点对应划分到相应的社区中,对于不属于任何社区的节点,直接将其加入到包含节点数最多的社区中,得到初始网络的社区结构。
根据本发明实施例的第二方面,提供一种基于标签传播的科研社区发现装置,包括处理器和存储器,所述处理器读取所述存储器中的计算机程序或指令,用于执行以下操作:
根据初始网络中边两端节点属性的相似度,调整该网络中所有边的权重,得到新的网络;
对新的网络进行初始化后,根据网络的拓扑结构和边的权重多次遍历网络中所有边进行多标签传播,当网络中所有节点的标签不再发生变化,则结束多标签传播过程,得到所有节点的最终标签列表;
根据网络中所有节点的最终标签列表,将网络划分为预设数量的社区,以发现重叠社区。
本发明所提供的基于标签传播的科研社区发现方法及装置通过初始网络中节点的属性信息,计算节点之间的属性相似度,基于此调整网络中所有边的权重,使得网络中边的权重综合了网络结构和节点的属性相似度。然后,基于调整后的边的权重和网络的拓扑结构进行多标签传播,使得最终划分的社区内部的节点连接紧密且节点属性相似度高,社区之间的节点连接稀疏且属性相似度低,并且可以发现重叠社区。此外,该科研社区发现方法时间复杂度低,可以应用于大规模网络。
附图说明
图1为现有典型社区的结构示意图;
图2为现有一科研属性网络的示意图;
图3为本发明实施例提供的基于标签传播的科研社区发现方法的流程图;
图4为本发明实施例提供的基于标签传播的科研社区发现方法中,初始网络为无权网络时调整所有边的权重,得到新的网络的示意图;
图5为采用本发明实施例提供的基于标签传播的科研社区发现方法得到的一个社区划分示意图;
图6为本发明实施例提供的基于标签传播的科研社区发现装置的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容做进一步的详细说明。
为了实现将复杂网络划分为预设数量的社区,并可以发现重叠社区,如图3所示,本发明实施例提供基于标签传播的科研社区发现方法,包括如下步骤:
步骤S1、根据初始网络中边两端节点属性的相似度,调整该网络中所有边的权重,得到新的网络。
已知初始网络包含有若干数量的节点和边,并且每个节点都带有属性信息(如数值、数值列表、文本、图像、音频、视频、网络等);其中,节点表示实体,边表示节点之间有直接的联系。例如,以论文合作网络为例,把学者实体当作网络的节点,任意两节点代表的学者合作发表过科研论文,则有一条边将这两个节点相连。
由于初始网络中每条边的两端均连接有节点,每个节点都带有属性信息,而每个节点的属性信息采用离散或稠密表示形式;因此,根据每个节点的属性信息采用的表示形式,使用相应的方法计算初始网络中每条边两端的节点之间的属性相似度。
具体的说,当任意一条边两端节点vi和vj的属性信息采用离散表示形式时,采用如下公式(1)计算该边两端节点vi和vj之间的属性相似度。
上式中,s为节点属性信息的维度,从1开始共有s维,并且每一维的值都是0或1;I{2}(Tik+Tjk)为示性函数,表示只有当节点vi和节点vj在第s维的属性均为1时,两节点的相似度增加2,否则不变。为了避免节点之间的属性相似度为0的情况,将最终结果加1。
当任意一条边两端节点vi和vj的属性信息采用稠密表示形式时,采用如下公式(2)计算该边两端节点vi和vj之间的属性相似度(即属性向量的余弦相似度)。
上式中,s为节点属性信息的维度,从1开始共有s维,Aiq表示节点vi在第q维的数值,Ajq表示节点vj在第q维的数值。
因此,根据公式(1)或公式(2),计算初始网络中每条边两端节点之间的属性相似度后,将初始网络中每条边的权重与该边两端节点之间的属性相似度相乘作为每条边新的权重,以调整初始网络中每条边的权重,并删除每个节点的属性信息,得到新的网络,即通过初始网络的节点属性信息构造一个不包含节点属性信息的新的有权网络。其中,新的网络中删除每个节点的属性信息,用于节约内存及计算资源。
需要强调的是,对于初始网络为无权网络时,初始网络中每条边的权重均为1;对于初始网络为有权网络时,初始网络中每条边的权重为该边的实际权重。
如图4所示,以初始网络为无权网络为例,该无权网络包含节点v1~v3,节点v1~v3通过边两两相连,假设任意两个节点的属性信息均采用离散表示形式,根据公式(1)计算得到v1和v2之间的属性相似度为1,v1和v3之间的属性相似度为3,v2和v3之间的属性相似度为3,由于无权网络中每条边的权重均为1,因此,可以得到v1和v2之间边新的权重为1,v1和v3之间边新的权重为3,v2和v3之间边新的权重为3。将节点v1~v3的属性信息删除后,与新的权重的各条边构成新的网络。
步骤S2、对新的网络进行初始化后,根据网络的拓扑结构和边的权重多次遍历网络中所有边进行多标签传播,当网络中所有节点的标签不再发生变化,则结束多标签传播过程,得到所有节点的最终标签列表。
对新的网络进行初始化时,将网络中每个节点的ID(每个节点唯一编号)设置为每个节点的标签列表中的首个标签。由于网络初始状态下(还未进行标签传播),每个节点标签列表中仅有一个标签,即每个节点的ID,因此根据每个节点标签列表中仅有的一个标签进行第一轮多标签传播。
由于新的网络仅包含节点和边,因此根据该网络的拓扑结构和边的权重每遍历一次网络中所有边进行一轮多标签传播,得到本轮标签传播后的所有节点的标签列表,具体包括如下步骤:
步骤S21、初始化标签为字典的新列表,用于记录本轮标签传播的节点的各标签权重。
步骤S22、根据网络的拓扑结构,确定每条边的源节点和目标节点,将每条边的源节点用于进行标签传播的标签列表中的所有标签按照权重的降序依次传播给目标节点,以更新目标节点的标签及标签权重。
对于有向网络,边的起始节点为源节点,边的结束节点为目标节点;对于无向网络,边的两个节点既是源节点,也是目标节点。因此,针对有向网络,按照网络中边的指向,将每条边的源节点标签列表中的所有标签按照权重的降序依次传播给目标节点;针对无向网络,每条边要进行正反向两次的标签传播,即以每条边其中一个节点为源节点,将该源节点标签列表中的所有标签按照权重的降序依次传播给目标节点;然后再以该目标节点为源节点,将该源节点标签列表中的所有标签按照权重的降序依次传播给目标节点。
每条边的源节点用于进行标签传播的标签列表中的各个标签的权重为:上一轮标签传播后得到的该源节点标签列表中的各个标签降序排列后得到的每个标签的衰减系数与相应边的权重的乘积。这样不仅可以充分利用节点的属性信息(新的网络中边的权重与节点属性信息相关),而且本轮标签传播中,网络中任何目标节点接收的都是上一轮标签传播后得到的源节点的标签信息,使得多标签传播的结果与边的遍历顺序无关,从而能够得到更稳定的社区划分。
其中,上一轮标签传播后得到的节点标签列表中的各个标签的权重降序排列后得到的每个标签的衰减系数为1-(h-1)α,h表示该标签在标签降序列表中的顺序,衰减因子α是一个远小于1的数。衰减因子α和网络的一些特征有关,由公式3表示:
上式中,VD表示节点的平均度数,CV表示社区平均包含的节点数,VC表示节点平均属于的社区数量,k1,k2,k3,b均为参数。经过实验,得到一组效果较好的参数k1=10,k2=-21,k3=98,b=-75。为了限制α为正数,规定当α由公式3计算为负时,将α设置为
假设节点vi为源节点,节点vj为目标节点,并且节点vi在上一轮标签传播后得到的标签列表中包含有5个标签L1~L5,这5个标签按照权重的降序排列为L4、L1、L3、L5和L2,如果衰减因子α为0.1,节点vi和节点vj之间边的权重为2,则标签L4的衰减系数为1,标签的L1衰减系数为0.9,标签L3的衰减系数为0.8,标签L5的衰减系数为0.7,标签L2的衰减系数为0.6,此时源节点v1用于进行标签传播的标签列表中的各个标签的权重为:标签的L1的权重为1.8,标签的L2的权重为1.2,标签的L3的权重为1.6,标签的L4的权重为2,标签的L5的权重为1.4;那么,将源节点v1用于进行标签传播的标签列表中的所有标签按照权重的降序依次传播给目标节点vj,此时目标节点vj接收的源节点传播的标签顺序依次为L4、L1、L3、L5和L2。
每条边的源节点每向目标节点传播一个标签,目标节点当前的标签列表中若没有该标签,则将该标签添加到标签列表中,目标节点当前的标签列表中若有该标签,则将目标节点当前的标签列表中的该标签的权重进行叠加。
步骤S23、遍历完所有边,删除每个节点的标签字典记录的各标签权重小于标签阈值的标签后,并从每个节点余下标签中选择预设数量权重最高的标签作为本轮标签传播后的每个节点的标签列表。
为了避免在一轮标签传播后生成过多的标签,需要过滤无用的标签,从而更准确地划分网络。在一轮多标签传播过程结束后,需要进行标签裁剪的操作。因此,对于新的网络的每个节点的标签字典记录的各标签权重,删除标签权重小于标签阈值的标签,然后选择预设数量权重最高的标签作为本轮标签传播后的每个节点的标签列表;其中预设数量为实际所需划分的社区数量。其中,为了避免标签阈值过大时,会错误地移除对社区结构划分有用的标签,经过反复实验,得出标签阈值为10时,本基于标签传播的科研社区发现方法取得了最好的效果。
步骤S3、根据网络中所有节点的最终标签列表,将网络划分为预设数量的社区,以发现重叠社区。
多标签传播过程结束后,网络中的每个节点上都保留着多个标签,这些标签即为备选的社区。遍历所有节点的最终标签列表,计算各个标签的总权重,选择权重最大的预设数量的标签作为网络最终的社区,如果权重最大的标签的数量小于预设数量,则保留所有的标签。遍历网络中的节点,对标签进行筛选,将属于所选择的标签的节点归到相应的标签(即社区)里,最终得到初始网络的社区结构。极端情况下,每个节点最多属于预设数量的社区,最少属于0个社区,对于不属于任何社区的节点,直接将其加入到包含节点数最多的社区中。其中预设数量为实际所需划分的社区数量。
如图5所示,采用本基于标签传播的科研社区发现方法将某个网络划分为两个社区。不难发现,在拓扑结构方面,社区内部的节点连接紧密(同一个社区的节点之间的边较多),社区之间的节点连接稀疏(不同社区之间的边比较少)。在节点属性方面,社区内部的节点属性相似度高,社区之间的节点属性相似度低。并且,任意两个社区允许有共同节点,也就是节点可以属于多个社区,从而发现重叠社区。
在本发明中,多标签传播轮次应当综合考虑本基于标签传播的科研社区发现方法的效果和运行时间;经过实验,多标签传播轮次为10是一个比较合适的先验选择,如果连续3轮的标签传播都没有带来科研社区发现效果的提升,那么可以选择提前终止本基于标签传播的科研社区发现方法。
此外,如图6所示,本发明实施例还提供一种基于标签传播的科研社区发现装置,包括处理器32和存储器31,还可以根据实际需要进一步包括通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口。其中,存储器、通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口均与该处理器32连接。前已述及,存储器31可以是静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器等;处理器32可以是中央处理器(CPU)、图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理(DSP)芯片等。其它通信组件、传感器组件、电源组件、多媒体组件等均可以采用现有智能手机中的通用部件实现,在此就不具体说明了。
另外,本发明实施例提供的基于标签传播的科研社区发现装置,包括处理器32和存储器31,处理器32读取所述存储器31中的计算机程序或指令,用于执行以下操作:
根据初始网络中边两端节点属性的相似度,调整该网络中所有边的权重,得到新的网络。
对新的网络进行初始化后,根据网络的拓扑结构和边的权重多次遍历网络中所有边进行多标签传播,当网络中所有节点的标签不再发生变化,则结束多标签传播过程,得到所有节点的最终标签列表。
根据网络中所有节点的最终标签列表,将网络划分为预设数量的社区,以发现重叠社区。
另外,本发明实施例还提供一种计算机可读存储介质,所述可读存储介质上存储有指令,当其在计算机上运行时,使得所述计算机执行如上述图3所述的基于标签传播的科研社区发现方法,此处不再赘述其具体实现方式。
另外,本发明实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行如上述图3所述的基于标签传播的科研社区发现方法,此处不再赘述其具体实现方式。
本发明所提供的基于标签传播的科研社区发现方法及装置通过初始网络中节点的属性信息,计算节点之间的属性相似度,基于此调整网络中所有边的权重,使得网络中边的权重综合了网络结构和节点的属性相似度。然后,基于调整后的边的权重和网络的拓扑结构进行多标签传播,使得最终划分的社区内部的节点连接紧密且节点属性相似度高,社区之间的节点连接稀疏且属性相似度低,并且可以发现重叠社区。此外,该科研社区发现方法时间复杂度低,可以应用于大规模网络。
以上对本发明所提供的基于标签传播的科研社区发现方法及装置进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质内容的前提下对它所做的任何显而易见的改动,都将属于本发明专利权的保护范围。
Claims (8)
1.一种基于标签传播的科研社区发现方法,其特征在于包括如下步骤:
步骤S1. 根据初始网络中边两端节点属性的相似度,调整该网络中所有边的权重,得到新的网络;其中,所述节点为学者实体,所述节点的属性信息包括数值、文本、图像、音频、视频,所述边表示学者合作发表过科研论文;
步骤S2. 对新的网络进行初始化后,根据新的网络的拓扑结构和边的权重,多次遍历网络中的所有边以进行多标签传播;其中,初始化标签为字典的新列表,用于记录本轮标签传播的节点的各标签权重;根据网络的拓扑结构,确定每条边的源节点和目标节点,将每条边的源节点用于进行标签传播的标签列表中的所有标签按照权重的降序依次传播给目标节点,以更新所述目标节点的标签及标签权重;遍历完所有边,删除每个节点的标签字典记录的各标签权重小于标签阈值的标签后,并从每个节点余下标签中选择预设数量权重最高的标签作为本轮标签传播后的每个节点的标签列表;
当网络中的所有节点的标签不再发生变化时,结束多标签传播过程,得到所有节点的最终标签列表;
步骤S3. 遍历所有节点的最终标签列表,计算各个标签的总权重,选择权重最大的预设数量的标签作为网络最终的社区,如果权重最大的标签的数量小于预设数量,则保留所有的标签;
遍历网络中的所有节点,对标签进行筛选,将节点对应划分到相应的社区中,对于不属于任何社区的节点,直接将其加入到包含节点数最多的社区中,得到初始网络的社区结构;将网络划分为预设数量的社区,以发现重叠社区。
2.如权利要求1所述的基于标签传播的科研社区发现方法,其特征在于:
将所述初始网络中每条边的权重与该边两端节点之间的属性相似度相乘作为每条边新的权重,以调整该网络中每条边的权重,并删除每个节点的属性信息,得到新的网络。
3.如权利要求1所述的基于标签传播的科研社区发现方法,其特征在于:
当所述初始网络中任意一条边两端节点和/>的属性信息采用离散表示形式时,采用如下公式计算该边两端节点/>和/>之间的属性相似度;
上式中,/>节点属性信息的维度,从1开始共有/>维,并且每一维的值都是0或1;/>为示性函数,表示只有当节点/>和节点/>在第/>维的属性均为1时,两节点的相似度增加2,否则不变;为了避免节点之间的属性相似度为0的情况,将最终结果加1。
4.如权利要求1所述的基于标签传播的科研社区发现方法,其特征在于:
当所述初始网络中任意一条边两端节点和/>的属性信息采用稠密表示形式时,采用如下公式计算该边两端节点/>和/>之间的属性相似度;
上式中,/>节点属性信息的维度,从1开始共有/>维,/>表示节点/>在第/>维的数值,/>表示节点/>在第/>维的数值。
5.如权利要求1所述的基于标签传播的科研社区发现方法,其特征在于:
对所述新的网络进行初始化时,将网络中每个节点的ID设置为每个节点的标签列表中的首个标签。
6.如权利要求1所述的基于标签传播的科研社区发现方法,其特征在于:
每条边的源节点用于进行标签传播的标签列表中的各个标签的权重为:上一轮标签传播后得到的所述源节点标签列表中的各个标签降序排列后得到的每个标签的衰减系数与相应边的权重的乘积。
7.如权利要求1所述的基于标签传播的科研社区发现方法,其特征在于:
每条边的源节点每向目标节点传播一个标签,所述目标节点的当前标签列表中若没有该标签,则将该标签添加到标签列表中,所述目标节点的所述当前标签列表中若有该标签,则将所述当前标签列表中的该标签的权重进行叠加。
8.一种基于标签传播的科研社区发现装置,其特征在于包括处理器和存储器,所述处理器读取所述存储器中的计算机程序或指令,用于执行以下操作:
根据初始网络中边两端节点属性的相似度,调整该网络中所有边的权重,得到新的网络;其中,所述节点为学者实体,所述节点的属性信息包括数值、文本、图像、音频、视频,所述边表示学者合作发表过科研论文;
对新的网络进行初始化后,根据新的网络的拓扑结构和边的权重,多次遍历网络中的所有边以进行多标签传播;其中,初始化标签为字典的新列表,用于记录本轮标签传播的节点的各标签权重;根据网络的拓扑结构,确定每条边的源节点和目标节点,将每条边的源节点用于进行标签传播的标签列表中的所有标签按照权重的降序依次传播给目标节点,以更新所述目标节点的标签及标签权重;遍历完所有边,删除每个节点的标签字典记录的各标签权重小于标签阈值的标签后,并从每个节点余下标签中选择预设数量权重最高的标签作为本轮标签传播后的每个节点的标签列表;
当网络中的所有节点的标签不再发生变化时,结束多标签传播过程,得到所有节点的最终标签列表;
遍历所有节点的最终标签列表,计算各个标签的总权重,选择权重最大的预设数量的标签作为网络最终的社区,如果权重最大的标签的数量小于预设数量,则保留所有的标签;
遍历网络中的所有节点,对标签进行筛选,将节点对应划分到相应的社区中,对于不属于任何社区的节点,直接将其加入到包含节点数最多的社区中,得到初始网络的社区结构;将网络划分为预设数量的社区,以发现重叠社区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110147516.9A CN112967146B (zh) | 2021-02-03 | 2021-02-03 | 一种基于标签传播的科研社区发现方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110147516.9A CN112967146B (zh) | 2021-02-03 | 2021-02-03 | 一种基于标签传播的科研社区发现方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112967146A CN112967146A (zh) | 2021-06-15 |
CN112967146B true CN112967146B (zh) | 2023-08-04 |
Family
ID=76273684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110147516.9A Active CN112967146B (zh) | 2021-02-03 | 2021-02-03 | 一种基于标签传播的科研社区发现方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112967146B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113422822B (zh) * | 2021-06-21 | 2022-04-26 | 广东电网有限责任公司 | 一种边缘计算自适应网络方法、系统、终端和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020267B (zh) * | 2012-12-26 | 2016-01-20 | 上海交通大学 | 基于三角簇多标签传播的复杂网络社区结构挖掘方法 |
CN103729475B (zh) * | 2014-01-24 | 2016-10-26 | 福州大学 | 一种社交网络中的多标签传播重叠社区发现方法 |
CN104636978B (zh) * | 2015-02-12 | 2017-11-14 | 西安电子科技大学 | 一种基于多标签传播的重叠社区检测方法 |
US10846052B2 (en) * | 2016-10-27 | 2020-11-24 | Tencent Technology (Shenzhen) Company Limited | Community discovery method, device, server and computer storage medium |
CN106991614A (zh) * | 2017-03-02 | 2017-07-28 | 南京信息工程大学 | Spark下基于标签传播的并行重叠社区发现方法 |
CN107153713B (zh) * | 2017-05-27 | 2018-02-23 | 合肥工业大学 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
CN107784598A (zh) * | 2017-11-21 | 2018-03-09 | 山西大学 | 一种网络社区发现方法 |
CN108809709A (zh) * | 2018-06-06 | 2018-11-13 | 山东大学 | 一种基于节点亲密性与标签传播的社区发现方法 |
-
2021
- 2021-02-03 CN CN202110147516.9A patent/CN112967146B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112967146A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107346336B (zh) | 基于人工智能的信息处理方法和装置 | |
US11860675B2 (en) | Latent network summarization | |
CN107861938B (zh) | 一种poi文案生成方法及装置,电子设备 | |
CN103995804B (zh) | 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置 | |
CN111275107A (zh) | 一种基于迁移学习的多标签场景图像分类方法及装置 | |
CN107145485B (zh) | 用于压缩主题模型的方法和装置 | |
CN112613602A (zh) | 基于知识感知超图神经网络的推荐方法及系统 | |
CN111539197A (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN111274485B (zh) | 一种基于社区发现的个性化推荐方法 | |
CN114065048A (zh) | 基于多异构图图神经网络的物品推荐方法 | |
JP2020101856A (ja) | コンピュータ、構成方法、及びプログラム | |
CN113704623B (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
US20140114974A1 (en) | Co-clustering apparatus, co-clustering method, recording medium, and integrated circuit | |
CN114692007B (zh) | 表示信息的确定方法、装置、设备及存储介质 | |
CN111353103B (zh) | 用于确定用户社群信息的方法和装置 | |
CN112967146B (zh) | 一种基于标签传播的科研社区发现方法及装置 | |
CN112069412A (zh) | 信息推荐方法、装置、计算机设备及存储介质 | |
CN116128055A (zh) | 图谱构建方法、装置、电子设备和计算机可读介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN114139052B (zh) | 用于智能推荐的排序模型训练方法、智能推荐方法及装置 | |
CN111292171B (zh) | 金融理财产品推送方法及装置 | |
CN117648625A (zh) | 一种图数据分类方法、装置、电子设备及存储介质 | |
CN117725220A (zh) | 文档表征和文档检索的方法、服务器及存储介质 | |
CN115994243A (zh) | 跨模态检索模型处理方法、装置、设备、产品及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |