CN116204716A

CN116204716A - 一种节点信息和标签传播的重叠社区划分预测方法及系统

Info

Publication number: CN116204716A
Application number: CN202310209551.8A
Authority: CN
Inventors: 刘洪涛; 李智强; 叶嘉奇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-02

Abstract

本发明涉及一种节点信息和标签传播的重叠社区划分预测方法及系统，属于计算机领域。该方法对获取的复杂网络数据集中的用户属性信息进行预处理，对获取到的数据集中的关系数据集进行处理，完成用户网络拓扑结构的构建和生成特征网络；将用户关键属性间的相关性转化为属性模块度矩阵，将拓扑结构矩阵和属性模块度矩阵融合为加权模块度矩阵，再将加权模块度矩阵分解得到用户网络的加权向量化表示；根据贝叶斯概率公式将各属性因子计算得到的影响力相乘，得到最终的用户影响力；在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度；使用用户标签影响度和用户重要度进行社区发现，获取社区；本发明对复杂网络社区划分预测结果更可靠。

Description

一种节点信息和标签传播的重叠社区划分预测方法及系统

技术领域

本发明属于计算机领域，涉及一种节点信息和标签传播的重叠社区划分预测方法及系统。

背景技术

复杂网络广泛存在于人类生活的各个方面，如社会网络、生物网络、工程网络、信息网络等。在上世界90年代，Watts和Strogatz两位学者在Nature这个顶级的期刊发表了为小世界网络模型，然后Albert和Barabasi在Science这个顶级期刊发表了无标度网络模型。因此，复杂网络这一新学科分支出现了。此外复杂的社交网络具有很强的社会效应。这种社会效应的表现为种类繁多但联系紧密的群体，群体内个体之间的接触相对频繁。如果一个个体被分成多个群体，那就是重叠社区检测。

传统的社区检测方法只关注网络拓扑结构信息，这种方法设计都是通过分析个体之间的关系进行社区划分，其发现的社区内部的关系紧密，而不同社区间的关系较为稀疏，但是这种方法并未考虑到网络中用户本身携带的属性信息。目前现有的许多经典的重叠社区检测方法并没有利用到网络中的用户属性信息。因此，它们还没有被用来检测网络中的重叠社区。如何在利用网络中的用户属性信息进行预测，是当前急需解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种节点信息和标签传播的重叠社区划分预测方法及系统。

为达到上述目的，本发明提供如下技术方案：

一种节点信息和标签传播的重叠社区划分预测方法，该方法包括以下步骤：

S1：对获取的复杂网络数据集中的用户属性信息进行预处理，包括对用户属性的短文本文档去除非文本部分、分词、去除停用词在内的预处理工作，对获取到的数据集中的关系数据集进行处理，包括用户关系处理以及对不活跃用户的剔除，完成用户网络拓扑结构的构建和生成特征网络；

S2：根据S1中获取到的特征网络进行特征处理，从用户属性周围的整体分布中捕获关于用户的关键属性信息，然后将用户关键属性间的相关性转化为属性模块度矩阵，接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵，再将加权模块度矩阵分解成特征值与特征向量的形式，得到用户网络的加权向量化表示；

S3：根据S2获取到的用户关键属性信息，用贝叶斯网络模型进行用户节点属性的先验概率学习，通过标识重要用户节点，使用相关领域专家知识获取各属性的先验概率，对具有重要影响力的属性值进行学习，建立用户属性-影响力的贝叶斯网络模型，根据贝叶斯概率公式将各属性因子计算得到的影响力相乘，得到最终的用户影响力，得到网络中所有用户影响力并按升序排序；

S4：根据S3获取到的网络中所有用户影响力信息，利用用户先验属性和用户总影响力计算出网络用户重要度，然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度；

S5：根据步骤S4中得到的用户标签影响度和用户重要度计算方式，进行社区发现，获取社区。

可选的，所述S1中对数据集的预处理的操作，包括以下步骤：

S11：从数据集中获取每个用户发布的短文本属性信息，针对于这些短文本属性信息，删除非文本部分包括html标签、非英文字符、标点符号、语气助词和借代词，对LDA模型语料库使用自有分词技术；

S12：对数据集中用户关系进行处理，接着对数据集中的用户进行活跃性判断，如果是用户与其他所有用户没有任何联系，则判定为不活跃用户以及对不活跃用户的剔除。

可选的，所述S2的具体步骤包括：

S21：对用户属性信息采用随机行走，获得用户特征对的经验统计量，然后给出观测特征的联合概率的无偏估计，从中提取用户关键属性信息并进行归一化处理；

S22：计算用户关键属性信息之间的Pearson相关系数的相似度，Pearson相关系数的值的绝对值越接近1，则说明线性关系越强，其中接近+1为正相关性越强，接近-1是负相关性越强；然后将得到的相似度构建为属性模块度矩阵，在通过自适应融合系数矩阵将拓扑结构矩阵和属性模块度矩阵融合为加权模块度矩阵；

S23：获取到上面的加权模块度矩阵，将加权模块度矩阵分解成特征值与特征向量形式,在映射为用户向量，结合用户向量化表示，得到用户之间带权的网络矩阵。

可选的，所述S3中，根据贝叶斯概率公式，使用乘法原理将各个属性影响力相乘得到最后的用户影响力，用户影响力计算公式为：

P(lnf)＝Πp(lnf|Attr)

其中，P(lnf)表示用户影响力，p(lnf|Attr)表示用户各个属性的影响力。

可选的，所述S4具体包括：

S41：基于节点先验属性的节点归一化重要性是不够的，更重要的用户与用户之间存在紧密的联系；提出基于用户先验属性和用户影响力算法的用户重要性计算方式为：

其中，lnf(i)代表用户i的先验重要性，β∈[0，1]用于度量相邻用户对用户i的影响程度；N(i)表示用户i的邻域集，d(j)为用户j的度；

S42.根据用户影响力和用户重要性，得到网络中用户标签重要度计算公式为：

LIS(i，l)表示对用户i在标签l重要度,N^l(i)表示用户i周围标签l的集合。

可选的，所述S5中，根据得到的用户标签影响度和用户重要度公式，进行社区发现，具体步骤包括：

S51：复杂网络中每个用户使用唯一的社区标签进行初始化；

S52：计算网络中每个用户的用户重要度和标签影响度，并初始化迭代次数值为1；

S53：标签按照用户重要度大小顺序通过网络传播，在传播的每一次迭代中，每个用户都将其标签更新为其最大邻居数所属的标签，当用户的相邻节点上的多个标签数量达到最大值时，选择用户标签影响度最大的标签更新用户；

S54：迭代次数达到最大迭代次数或每个用户的标签与其大多数相邻用户的标签相同，则将标签相同的用户置于同一社区中，运行结束；否则，设置迭代次数值加1，转步骤S53。

一种节点信息和标签传播的重叠社区划分预测系统，该系统包括：

数据预处理模块，用于获取复杂网络数据集中的用户属性信息并进行预处理，对获取到的数据集中的关系数据集进行处理，完成用户网络拓扑结构的构建和生成特征网络；

网络加权向量化处理模块，用于将用户关键属性间的相关性转化为属性模块度矩阵，接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵，再将加权模块度矩阵分解成特征值与特征向量的形式，得到了用户网络的加权向量化表示；

贝叶斯网络模型建立模块，根据贝叶斯网络模型进行用户节点属性的先验概率学习，通过标识重要用户节点，使用相关领域专家知识获取各属性的先验概率，对具有重要影响力的属性值进行学习，建立用户属性-影响力的贝叶斯网络模型；

社区划分模块，根据用户属性-影响力的贝叶斯网络模型计算用户影响力，然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度和用户重要度，最后利用上述得到的参数进行社区划分。

本发明的有益效果在于：本发明提供了一种基于复杂网络中用户属性信息的重叠社区发现方法,在传统的社区检测方法中引入用户的属性信息，将网络拓扑结构信息和节点属性信息融合加权模块度矩阵，将矩阵分解得到用户网络的加权向量化表示。在用户属性信息的基础上得到用户影响力。根据用户先验属性和用户总影响力计算网络出用户重要度和标签重要度，通过用户重要度和标签重要度的标签传播在用户加权网络上进行社区发现。本文将用户重要度和标签重要度引入标签传播过程中，避免标签传播过程中的随机性，可以获得稳定有效的结果。通过对真实数据集的实验，本发明的预测输出和实际社区划分状况拟合度更好，且预测输出稳定性较好，没有出现大幅度的波动，即本发明对复杂网络社区发现预测结果更可靠，更有优势。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明中实施的复杂网络中重叠社区发现预测模型效果。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提供了一种基于复杂网络中用户属性信息的重叠社区发现方法，采用图1所示社区发现流程图，表1为本发明社区发现模型的预测效果。

在一实施例中，如图1所示，本发明提出了一种基于复杂网络中用户属性信息的重叠社区发现方法，其特征在于，利用社交网络中的用户间的关系以及用户自身携带的短文本属性信息进行社区发现过程，包括如下步骤:

S1.对获取的复杂网络数据集中的用户属性信息进行预处理，包括对用户属性的短文本文档去除非文本部分、分词、去除停用词在内的预处理工作，对获取到的数据集中的关系数据集进行处理，包括用户关系处理以及对不活跃用户的剔除，完成用户网络拓扑结构的构建和生成特征网络；

S2.根据S1中获取到的特征网络进行特征处理，从用户属性周围的局部分布中捕获关于用户的关键属性信息，然后将用户关键属性间的相关性转化为属性模块度矩阵，接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵，再将加权模块度矩阵分解成特征值与特征向量的形式，得到了用户网络的加权向量化表示；

S3.根据S2获取到的用户关键属性信息，用贝叶斯网络模型进行用户节点属性的先验概率学习，通过标识重要用户节点，使用相关领域专家知识获取各属性的先验概率，对具有重要影响力的属性值进行学习，建立用户属性－影响力的贝叶斯网络模型，根据贝叶斯概率公式将各属性因子计算得到的影响力相乘，得到最终的用户影响力，得到网络中所有用户影响力并按升序排序；

S4.；根据S3获取到的网络中所有用户影响力信息，利用用户先验属性和用户总影响力计算出网络用户重要度，然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度；

S5.根据步骤S4中得到的用户标签影响度和用户重要度计算方式，进行社区发现，获取社区；

步骤S1中对数据集的预处理的操作，包括以下步骤：

S11.从数据集中获取每个用户发布的短文本属性信息，针对于这些短文本属性信息，删除非文本部分包括html标签，非英文字符和标点符号，语气助词，借代词等，而后对LDA模型语料库使用自有分词技术；

S12.对数据集中用户关系进行处理，接着对数据集中的用户进行活跃性判断，如果是用户与其他所有用户没有任何联系，则判定为不活跃用户以及对不活跃用户的剔除；

所述步骤S2的具体步骤包括：

S21.对用户属性信息采用随机行走，获得用户特征对的经验统计量，然后给出了观测特征的联合概率的无偏估计，从中提取用户关键属性信息并进行归一化处理。

S22.计算用户关键属性信息之间的Pearson相关系数的相似度，Pearson相关系数的值的绝对值越接近1，则说明线性关系越强，其中接近+1为正相关性越强，接近-1是负相关性越强。然后将得到的相似度构建为属性模块度矩阵，在通过自适应融合系数矩阵将拓扑结构矩阵和属性模块度矩阵融合为加权模块度矩阵。

S23.获取到上面的加权模块度矩阵，将加权模块度矩阵分解成特征值与特征向量形式,在映射为用户向量，结合用户向量化表示，得到用户之间带权的网络矩阵。

步骤S3中根据贝叶斯概率公式，使用乘法原理将各个属性影响力相乘得到最后的用户影响力，用户影响力计算公式为：

P(lnf)＝\prod{p(lnf|Attr)}

其中，P(lnf)表示用户影响力，p(lnf|Attr)表示用户各个属性的影响力

步骤S4中具体步骤包括：

S41.基于节点先验属性的节点归一化重要性是不够的，更重要的用户与用户之间存在紧密的联系。于是提出了一种基于用户先验属性和用户影响力算法的用户重要性计算方式为：

{NIS}_i＝lnf(i)+\beta\ast\sum_{j\inN(i)}\frac{lnf(j)}{d(j)}

其中，lnf(i)代表用户i的先验重要性，\beta\in[0,1]用于度量相邻用户对用户i的影响程度。N(i)表示用户i的邻域集，dj为用户j的度。

LIS(i,l)＝\sum_{j\in N^l(i)}\frac{{NIS}_j}{d(j)}

LIS(i,l)表示对用户i在标签l重要度,N^l(i)表示用户i周围标签l的集合。

步骤S5中根据步骤S4中得到的用户标签影响度和用户重要度公式，进行社区发现，具体步骤包括：

S51.复杂网络中每个用户使用唯一的社区标签(标识符)进行初始化。

S52.计算网络中每个用户的用户重要度和标签影响度，并初始化迭代次数值为1。

S53.标签按照用户重要度大小顺序通过网络传播，在传播的每一次迭代中，每个用户都将其标签更新为其最大邻居数所属的标签，当用户的相邻节点上的多个标签数量达到最大值时，选择用户标签影响度最大的标签更新用户。

S54.迭代次数达到最大迭代次数或每个用户的标签与其大多数相邻用户的标签相同，则将标签相同的用户置于同一社区中，运行结束。否则，设置迭代次数值加1，转步骤S53。

在一实施例中，本发明提出的当前预测方法的预测效果如表1所示：

表1方法在各数据集预测结果表

在一实施例中，本发明还提供了一种基于复杂网络中用户属性信息的重叠社区发现预测系统，包括：

贝叶斯网络模型建立模块，根据贝叶斯网络模型进行用户节点属性的先验概率学习，通过标识重要用户节点，使用相关领域专家知识获取各属性的先验概率，对具有重要影响力的属性值进行学习，建立用户属性－影响力的贝叶斯网络模型；

社区划分模块，根据用户属性－影响力的贝叶斯网络模型计算用户影响力，然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度和用户重要度，最后利用上述得到的参数进行社区划分。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种节点信息和标签传播的重叠社区划分预测方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的一种节点信息和标签传播的重叠社区划分预测方法，其特征在于：所述S1中对数据集的预处理的操作，包括以下步骤：

3.根据权利要求2所述的一种节点信息和标签传播的重叠社区划分预测方法，其特征在于：所述S2的具体步骤包括：

4.根据权利要求3所述的一种节点信息和标签传播的重叠社区划分预测方法，其特征在于：所述S3中，根据贝叶斯概率公式，使用乘法原理将各个属性影响力相乘得到最后的用户影响力，用户影响力计算公式为：

P(lnf)＝Πp(lnf|Attr)

5.根据权利要求4所述的一种节点信息和标签传播的重叠社区划分预测方法，其特征在于：所述S4具体包括：

6.根据权利要求5所述的一种节点信息和标签传播的重叠社区划分预测方法，其特征在于：所述S5中，根据得到的用户标签影响度和用户重要度公式，进行社区发现，具体步骤包括：

S51：复杂网络中每个用户使用唯一的社区标签进行初始化；

7.一种节点信息和标签传播的重叠社区划分预测系统，其特征在于：该系统包括：