CN112967146B

CN112967146B - 一种基于标签传播的科研社区发现方法及装置

Info

Publication number: CN112967146B
Application number: CN202110147516.9A
Authority: CN
Inventors: 张辉; 郝瑞; 葛胤池; 王德庆
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2023-08-04
Anticipated expiration: 2041-02-03
Also published as: CN112967146A

Abstract

本发明公开了一种基于标签传播的科研社区发现方法及装置。该社区发现方法包括：根据初始网络中边两端节点属性的相似度，调整该网络中所有边的权重，得到新的网络；对新的网络进行初始化后，根据网络的拓扑结构和边的权重多次遍历网络中所有边进行多标签传播，当网络中所有节点的标签不再发生变化，则结束多标签传播过程，得到所有节点的最终标签列表；根据网络中所有节点的最终标签列表，将网络划分为预设数量的社区，以发现重叠社区。采用该社区发现方法最终划分的社区内部的节点连接紧密且节点属性相似度高，社区之间的节点连接稀疏且属性相似度低，并且可以发现重叠社区。此外，该社区发现方法时间复杂度低，可以应用于大规模网络。

Description

一种基于标签传播的科研社区发现方法及装置

技术领域

本发明涉及一种基于标签传播的科研社区发现方法，同时也涉及相应的科研社区发现装置，属于复杂网络分析技术领域。

背景技术

复杂网络是由学者定义的一种网络，其特点是规模较大，节点数量常在十万以上，而且连接关系复杂，包含着丰富的信息。社交网络、生物网络、学术网络等都是典型的复杂网络，因此针对复杂网络的研究具有十分重要的意义。社区发现方法是研究复杂网络时常用的一类方法；如图1所示，通过将复杂网络划分为多个社区，使得社区内部连接紧密，社区之间连接稀疏，实现发现复杂网络中的社区结构，进而深度挖掘复杂网络中的信息。

随着现实世界中信息的不断丰富，社区发现的一个常见应用场景是属性网络，其特点是网络中的节点上有丰富的属性信息。例如，社交网络中，用户为节点，其个人简介、兴趣列表等是属性信息；论文引用网络中，论文是节点，论文的分类、关键词、引用数等是属性信息。如图2展示了一个科研属性网络，其节点是人，网络中的边代表了人与人之间的关系，并且人本身是有丰富的属性信息的，例如：姓名、年龄、性别、研究领域等等，这些属性信息显然是很有价值的。

然而，目前大多数社区发现方法只研究网络的拓扑结构，而没有关注同样包含丰富信息的节点属性信息；在考虑了节点属性信息的社区发现方法中，普遍存在不能发现重叠社区、难以应用于大规模网络等问题。

发明内容

本发明所要解决的首要技术问题在于提供一种基于标签传播的科研社区发现方法。

本发明所要解决的另一技术问题在于提供一种基于标签传播的科研社区发现装置。

为了实现上述目的，本发明采用下述技术方案：

根据本发明实施例的第一方面，提供一种基于标签传播的科研社区发现方法，包括如下步骤：

步骤S1、根据初始网络中边两端节点属性的相似度，调整该网络中所有边的权重，得到新的网络；

步骤S2、对新的网络进行初始化后，根据网络的拓扑结构和边的权重多次遍历网络中所有边进行多标签传播，当网络中所有节点的标签不再发生变化，则结束多标签传播过程，得到所有节点的最终标签列表；

步骤S3、根据网络中所有节点的最终标签列表，将网络划分为预设数量的社区，以发现重叠社区。

其中较优地，将所述初始网络中每条边的权重与该边两端节点之间的属性相似度相乘作为每条边新的权重，以调整该网络中每条边的权重，并删除每个节点的属性信息，得到新的网络。

其中较优地，当所述初始网络中任意一条边两端节点v_i和v_j的属性信息采用离散表示形式时，采用如下公式计算该边两端节点v_i和v_j之间的属性相似度；

上式中，s为节点属性信息的维度，从1开始共有s维，并且每一维的值都是0或1；I_{2}(T_ik+T_jk)为示性函数，表示只有当节点v_i和节点v_j在第s维的属性均为1时，两节点的相似度增加2，否则不变；为了避免节点之间的属性相似度为0的情况，将最终结果加1。

其中较优地，当所述初始网络中任意一条边两端节点v_i和v_j的属性信息采用稠密表示形式时，采用如下公式计算该边两端节点v_i和v_j之间的属性相似度；

上式中，s为节点属性信息的维度，从1开始共有s维，A_iq表示节点v_i在第q维的数值，A_jq表示节点v_j在第q维的数值。

其中较优地，对所述新的网络进行初始化时，将网络中每个节点的ID设置为每个节点的标签列表中的首个标签。

其中较优地，根据所述新的网络的拓扑结构和边的权重每遍历一次网络中所有边进行一轮多标签传播，得到本轮标签传播后的所有节点的标签列表，具体包括如下步骤：

步骤S21、初始化标签为字典的新列表，用于记录本轮标签传播的节点的各标签权重；

步骤S22、根据网络的拓扑结构，确定每条边的源节点和目标节点，将每条边的源节点用于进行标签传播的标签列表中的所有标签按照权重的降序依次传播给目标节点，以更新所述目标节点的标签及标签权重；

步骤S23、遍历完所有边，删除每个节点的标签字典记录的各标签权重小于标签阈值的标签后，并从每个节点余下标签中选择预设数量权重最高的标签作为本轮标签传播后的每个节点的标签列表。

其中较优地，每条边的源节点用于进行标签传播的标签列表中的各个标签的权重为：上一轮标签传播后得到的所述源节点标签列表中的各个标签降序排列后得到的每个标签的衰减系数与相应边的权重的乘积。

其中较优地，每条边的源节点每向目标节点传播一个标签，所述目标节点的当前标签列表中若没有该标签，则将该标签添加到标签列表中，所述目标节点的所述当前标签列表中若有该标签，则将所述当前标签列表中的该标签的权重进行叠加。

其中较优地，将网络划分为预设数量的社区，包括如下步骤：

遍历网络中所有节点的最终标签列表，计算各个标签的总权重，选择权重最大的预设数量的标签作为网络最终的社区，如果权重最大的标签的数量小于预设数量，则保留所有的标签；

遍历网络中所有节点，对标签进行筛选，将节点对应划分到相应的社区中，对于不属于任何社区的节点，直接将其加入到包含节点数最多的社区中，得到初始网络的社区结构。

根据本发明实施例的第二方面，提供一种基于标签传播的科研社区发现装置，包括处理器和存储器，所述处理器读取所述存储器中的计算机程序或指令，用于执行以下操作：

根据初始网络中边两端节点属性的相似度，调整该网络中所有边的权重，得到新的网络；

对新的网络进行初始化后，根据网络的拓扑结构和边的权重多次遍历网络中所有边进行多标签传播，当网络中所有节点的标签不再发生变化，则结束多标签传播过程，得到所有节点的最终标签列表；

根据网络中所有节点的最终标签列表，将网络划分为预设数量的社区，以发现重叠社区。

本发明所提供的基于标签传播的科研社区发现方法及装置通过初始网络中节点的属性信息，计算节点之间的属性相似度，基于此调整网络中所有边的权重，使得网络中边的权重综合了网络结构和节点的属性相似度。然后，基于调整后的边的权重和网络的拓扑结构进行多标签传播，使得最终划分的社区内部的节点连接紧密且节点属性相似度高，社区之间的节点连接稀疏且属性相似度低，并且可以发现重叠社区。此外，该科研社区发现方法时间复杂度低，可以应用于大规模网络。

附图说明

图1为现有典型社区的结构示意图；

图2为现有一科研属性网络的示意图；

图3为本发明实施例提供的基于标签传播的科研社区发现方法的流程图；

图4为本发明实施例提供的基于标签传播的科研社区发现方法中，初始网络为无权网络时调整所有边的权重，得到新的网络的示意图；

图5为采用本发明实施例提供的基于标签传播的科研社区发现方法得到的一个社区划分示意图；

图6为本发明实施例提供的基于标签传播的科研社区发现装置的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容做进一步的详细说明。

为了实现将复杂网络划分为预设数量的社区，并可以发现重叠社区，如图3所示，本发明实施例提供基于标签传播的科研社区发现方法，包括如下步骤：

步骤S1、根据初始网络中边两端节点属性的相似度，调整该网络中所有边的权重，得到新的网络。

已知初始网络包含有若干数量的节点和边，并且每个节点都带有属性信息(如数值、数值列表、文本、图像、音频、视频、网络等)；其中，节点表示实体，边表示节点之间有直接的联系。例如，以论文合作网络为例，把学者实体当作网络的节点，任意两节点代表的学者合作发表过科研论文，则有一条边将这两个节点相连。

由于初始网络中每条边的两端均连接有节点，每个节点都带有属性信息，而每个节点的属性信息采用离散或稠密表示形式；因此，根据每个节点的属性信息采用的表示形式，使用相应的方法计算初始网络中每条边两端的节点之间的属性相似度。

具体的说，当任意一条边两端节点v_i和v_j的属性信息采用离散表示形式时，采用如下公式(1)计算该边两端节点v_i和v_j之间的属性相似度。

上式中，s为节点属性信息的维度，从1开始共有s维，并且每一维的值都是0或1；I_{2}(T_ik+T_jk)为示性函数，表示只有当节点v_i和节点v_j在第s维的属性均为1时，两节点的相似度增加2，否则不变。为了避免节点之间的属性相似度为0的情况，将最终结果加1。

当任意一条边两端节点v_i和v_j的属性信息采用稠密表示形式时，采用如下公式(2)计算该边两端节点v_i和v_j之间的属性相似度(即属性向量的余弦相似度)。

因此，根据公式(1)或公式(2)，计算初始网络中每条边两端节点之间的属性相似度后，将初始网络中每条边的权重与该边两端节点之间的属性相似度相乘作为每条边新的权重，以调整初始网络中每条边的权重，并删除每个节点的属性信息，得到新的网络，即通过初始网络的节点属性信息构造一个不包含节点属性信息的新的有权网络。其中，新的网络中删除每个节点的属性信息，用于节约内存及计算资源。

需要强调的是，对于初始网络为无权网络时，初始网络中每条边的权重均为1；对于初始网络为有权网络时，初始网络中每条边的权重为该边的实际权重。

如图4所示，以初始网络为无权网络为例，该无权网络包含节点v₁～v₃，节点v₁～v₃通过边两两相连，假设任意两个节点的属性信息均采用离散表示形式，根据公式(1)计算得到v₁和v₂之间的属性相似度为1，v₁和v₃之间的属性相似度为3，v₂和v₃之间的属性相似度为3，由于无权网络中每条边的权重均为1，因此，可以得到v₁和v₂之间边新的权重为1，v₁和v₃之间边新的权重为3，v₂和v₃之间边新的权重为3。将节点v₁～v₃的属性信息删除后，与新的权重的各条边构成新的网络。

步骤S2、对新的网络进行初始化后，根据网络的拓扑结构和边的权重多次遍历网络中所有边进行多标签传播，当网络中所有节点的标签不再发生变化，则结束多标签传播过程，得到所有节点的最终标签列表。

对新的网络进行初始化时，将网络中每个节点的ID(每个节点唯一编号)设置为每个节点的标签列表中的首个标签。由于网络初始状态下(还未进行标签传播)，每个节点标签列表中仅有一个标签，即每个节点的ID，因此根据每个节点标签列表中仅有的一个标签进行第一轮多标签传播。

由于新的网络仅包含节点和边，因此根据该网络的拓扑结构和边的权重每遍历一次网络中所有边进行一轮多标签传播，得到本轮标签传播后的所有节点的标签列表，具体包括如下步骤：

步骤S21、初始化标签为字典的新列表，用于记录本轮标签传播的节点的各标签权重。

步骤S22、根据网络的拓扑结构，确定每条边的源节点和目标节点，将每条边的源节点用于进行标签传播的标签列表中的所有标签按照权重的降序依次传播给目标节点，以更新目标节点的标签及标签权重。

对于有向网络，边的起始节点为源节点，边的结束节点为目标节点；对于无向网络，边的两个节点既是源节点，也是目标节点。因此，针对有向网络，按照网络中边的指向，将每条边的源节点标签列表中的所有标签按照权重的降序依次传播给目标节点；针对无向网络，每条边要进行正反向两次的标签传播，即以每条边其中一个节点为源节点，将该源节点标签列表中的所有标签按照权重的降序依次传播给目标节点；然后再以该目标节点为源节点，将该源节点标签列表中的所有标签按照权重的降序依次传播给目标节点。

每条边的源节点用于进行标签传播的标签列表中的各个标签的权重为：上一轮标签传播后得到的该源节点标签列表中的各个标签降序排列后得到的每个标签的衰减系数与相应边的权重的乘积。这样不仅可以充分利用节点的属性信息(新的网络中边的权重与节点属性信息相关)，而且本轮标签传播中，网络中任何目标节点接收的都是上一轮标签传播后得到的源节点的标签信息，使得多标签传播的结果与边的遍历顺序无关，从而能够得到更稳定的社区划分。

其中，上一轮标签传播后得到的节点标签列表中的各个标签的权重降序排列后得到的每个标签的衰减系数为1-(h-1)α，h表示该标签在标签降序列表中的顺序，衰减因子α是一个远小于1的数。衰减因子α和网络的一些特征有关，由公式3表示：

上式中，VD表示节点的平均度数，CV表示社区平均包含的节点数，VC表示节点平均属于的社区数量，k₁，k₂，k₃，b均为参数。经过实验，得到一组效果较好的参数k₁＝10，k₂＝-21，k₃＝98，b＝-75。为了限制α为正数，规定当α由公式3计算为负时，将α设置为

假设节点v_i为源节点，节点v_j为目标节点，并且节点v_i在上一轮标签传播后得到的标签列表中包含有5个标签L₁～L₅，这5个标签按照权重的降序排列为L₄、L₁、L₃、L₅和L₂，如果衰减因子α为0.1，节点v_i和节点v_j之间边的权重为2，则标签L₄的衰减系数为1，标签的L₁衰减系数为0.9，标签L₃的衰减系数为0.8，标签L₅的衰减系数为0.7，标签L₂的衰减系数为0.6，此时源节点v₁用于进行标签传播的标签列表中的各个标签的权重为：标签的L₁的权重为1.8，标签的L₂的权重为1.2，标签的L₃的权重为1.6，标签的L₄的权重为2，标签的L₅的权重为1.4；那么，将源节点v₁用于进行标签传播的标签列表中的所有标签按照权重的降序依次传播给目标节点v_j，此时目标节点v_j接收的源节点传播的标签顺序依次为L₄、L₁、L₃、L₅和L₂。

每条边的源节点每向目标节点传播一个标签，目标节点当前的标签列表中若没有该标签，则将该标签添加到标签列表中，目标节点当前的标签列表中若有该标签，则将目标节点当前的标签列表中的该标签的权重进行叠加。

为了避免在一轮标签传播后生成过多的标签，需要过滤无用的标签，从而更准确地划分网络。在一轮多标签传播过程结束后，需要进行标签裁剪的操作。因此，对于新的网络的每个节点的标签字典记录的各标签权重，删除标签权重小于标签阈值的标签，然后选择预设数量权重最高的标签作为本轮标签传播后的每个节点的标签列表；其中预设数量为实际所需划分的社区数量。其中，为了避免标签阈值过大时，会错误地移除对社区结构划分有用的标签，经过反复实验，得出标签阈值为10时，本基于标签传播的科研社区发现方法取得了最好的效果。

多标签传播过程结束后，网络中的每个节点上都保留着多个标签，这些标签即为备选的社区。遍历所有节点的最终标签列表，计算各个标签的总权重，选择权重最大的预设数量的标签作为网络最终的社区，如果权重最大的标签的数量小于预设数量，则保留所有的标签。遍历网络中的节点，对标签进行筛选，将属于所选择的标签的节点归到相应的标签(即社区)里，最终得到初始网络的社区结构。极端情况下，每个节点最多属于预设数量的社区，最少属于0个社区，对于不属于任何社区的节点，直接将其加入到包含节点数最多的社区中。其中预设数量为实际所需划分的社区数量。

如图5所示，采用本基于标签传播的科研社区发现方法将某个网络划分为两个社区。不难发现，在拓扑结构方面，社区内部的节点连接紧密(同一个社区的节点之间的边较多)，社区之间的节点连接稀疏(不同社区之间的边比较少)。在节点属性方面，社区内部的节点属性相似度高，社区之间的节点属性相似度低。并且，任意两个社区允许有共同节点，也就是节点可以属于多个社区，从而发现重叠社区。

在本发明中，多标签传播轮次应当综合考虑本基于标签传播的科研社区发现方法的效果和运行时间；经过实验，多标签传播轮次为10是一个比较合适的先验选择，如果连续3轮的标签传播都没有带来科研社区发现效果的提升，那么可以选择提前终止本基于标签传播的科研社区发现方法。

此外，如图6所示，本发明实施例还提供一种基于标签传播的科研社区发现装置，包括处理器32和存储器31，还可以根据实际需要进一步包括通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口。其中，存储器、通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口均与该处理器32连接。前已述及，存储器31可以是静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器等；处理器32可以是中央处理器(CPU)、图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理(DSP)芯片等。其它通信组件、传感器组件、电源组件、多媒体组件等均可以采用现有智能手机中的通用部件实现，在此就不具体说明了。

另外，本发明实施例提供的基于标签传播的科研社区发现装置，包括处理器32和存储器31，处理器32读取所述存储器31中的计算机程序或指令，用于执行以下操作：

根据初始网络中边两端节点属性的相似度，调整该网络中所有边的权重，得到新的网络。

对新的网络进行初始化后，根据网络的拓扑结构和边的权重多次遍历网络中所有边进行多标签传播，当网络中所有节点的标签不再发生变化，则结束多标签传播过程，得到所有节点的最终标签列表。

另外，本发明实施例还提供一种计算机可读存储介质，所述可读存储介质上存储有指令，当其在计算机上运行时，使得所述计算机执行如上述图3所述的基于标签传播的科研社区发现方法，此处不再赘述其具体实现方式。

另外，本发明实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行如上述图3所述的基于标签传播的科研社区发现方法，此处不再赘述其具体实现方式。

以上对本发明所提供的基于标签传播的科研社区发现方法及装置进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将属于本发明专利权的保护范围。

Claims

1.一种基于标签传播的科研社区发现方法，其特征在于包括如下步骤：

步骤S1. 根据初始网络中边两端节点属性的相似度，调整该网络中所有边的权重，得到新的网络；其中，所述节点为学者实体，所述节点的属性信息包括数值、文本、图像、音频、视频，所述边表示学者合作发表过科研论文；

步骤S2. 对新的网络进行初始化后，根据新的网络的拓扑结构和边的权重，多次遍历网络中的所有边以进行多标签传播；其中，初始化标签为字典的新列表，用于记录本轮标签传播的节点的各标签权重；根据网络的拓扑结构，确定每条边的源节点和目标节点，将每条边的源节点用于进行标签传播的标签列表中的所有标签按照权重的降序依次传播给目标节点，以更新所述目标节点的标签及标签权重；遍历完所有边，删除每个节点的标签字典记录的各标签权重小于标签阈值的标签后，并从每个节点余下标签中选择预设数量权重最高的标签作为本轮标签传播后的每个节点的标签列表；

当网络中的所有节点的标签不再发生变化时，结束多标签传播过程，得到所有节点的最终标签列表；

步骤S3. 遍历所有节点的最终标签列表，计算各个标签的总权重，选择权重最大的预设数量的标签作为网络最终的社区，如果权重最大的标签的数量小于预设数量，则保留所有的标签；

遍历网络中的所有节点，对标签进行筛选，将节点对应划分到相应的社区中，对于不属于任何社区的节点，直接将其加入到包含节点数最多的社区中，得到初始网络的社区结构；将网络划分为预设数量的社区，以发现重叠社区。

2.如权利要求1所述的基于标签传播的科研社区发现方法，其特征在于：

将所述初始网络中每条边的权重与该边两端节点之间的属性相似度相乘作为每条边新的权重，以调整该网络中每条边的权重，并删除每个节点的属性信息，得到新的网络。

3.如权利要求1所述的基于标签传播的科研社区发现方法，其特征在于：

当所述初始网络中任意一条边两端节点和/>的属性信息采用离散表示形式时，采用如下公式计算该边两端节点/>和/>之间的属性相似度；

上式中，/>节点属性信息的维度，从1开始共有/>维，并且每一维的值都是0或1；/>为示性函数，表示只有当节点/>和节点/>在第/>维的属性均为1时，两节点的相似度增加2，否则不变；为了避免节点之间的属性相似度为0的情况，将最终结果加1。

4.如权利要求1所述的基于标签传播的科研社区发现方法，其特征在于：

当所述初始网络中任意一条边两端节点和/>的属性信息采用稠密表示形式时，采用如下公式计算该边两端节点/>和/>之间的属性相似度；

上式中，/>节点属性信息的维度，从1开始共有/>维，/>表示节点/>在第/>维的数值，/>表示节点/>在第/>维的数值。

5.如权利要求1所述的基于标签传播的科研社区发现方法，其特征在于：

对所述新的网络进行初始化时，将网络中每个节点的ID设置为每个节点的标签列表中的首个标签。

6.如权利要求1所述的基于标签传播的科研社区发现方法，其特征在于：

每条边的源节点用于进行标签传播的标签列表中的各个标签的权重为：上一轮标签传播后得到的所述源节点标签列表中的各个标签降序排列后得到的每个标签的衰减系数与相应边的权重的乘积。

7.如权利要求1所述的基于标签传播的科研社区发现方法，其特征在于：

每条边的源节点每向目标节点传播一个标签，所述目标节点的当前标签列表中若没有该标签，则将该标签添加到标签列表中，所述目标节点的所述当前标签列表中若有该标签，则将所述当前标签列表中的该标签的权重进行叠加。

8.一种基于标签传播的科研社区发现装置，其特征在于包括处理器和存储器，所述处理器读取所述存储器中的计算机程序或指令，用于执行以下操作：

根据初始网络中边两端节点属性的相似度，调整该网络中所有边的权重，得到新的网络；其中，所述节点为学者实体，所述节点的属性信息包括数值、文本、图像、音频、视频，所述边表示学者合作发表过科研论文；

对新的网络进行初始化后，根据新的网络的拓扑结构和边的权重，多次遍历网络中的所有边以进行多标签传播；其中，初始化标签为字典的新列表，用于记录本轮标签传播的节点的各标签权重；根据网络的拓扑结构，确定每条边的源节点和目标节点，将每条边的源节点用于进行标签传播的标签列表中的所有标签按照权重的降序依次传播给目标节点，以更新所述目标节点的标签及标签权重；遍历完所有边，删除每个节点的标签字典记录的各标签权重小于标签阈值的标签后，并从每个节点余下标签中选择预设数量权重最高的标签作为本轮标签传播后的每个节点的标签列表；

遍历所有节点的最终标签列表，计算各个标签的总权重，选择权重最大的预设数量的标签作为网络最终的社区，如果权重最大的标签的数量小于预设数量，则保留所有的标签；