CN116204716A - 一种节点信息和标签传播的重叠社区划分预测方法及系统 - Google Patents

一种节点信息和标签传播的重叠社区划分预测方法及系统 Download PDF

Info

Publication number
CN116204716A
CN116204716A CN202310209551.8A CN202310209551A CN116204716A CN 116204716 A CN116204716 A CN 116204716A CN 202310209551 A CN202310209551 A CN 202310209551A CN 116204716 A CN116204716 A CN 116204716A
Authority
CN
China
Prior art keywords
user
influence
attribute
network
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310209551.8A
Other languages
English (en)
Inventor
刘洪涛
李智强
叶嘉奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310209551.8A priority Critical patent/CN116204716A/zh
Publication of CN116204716A publication Critical patent/CN116204716A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种节点信息和标签传播的重叠社区划分预测方法及系统,属于计算机领域。该方法对获取的复杂网络数据集中的用户属性信息进行预处理,对获取到的数据集中的关系数据集进行处理,完成用户网络拓扑结构的构建和生成特征网络;将用户关键属性间的相关性转化为属性模块度矩阵,将拓扑结构矩阵和属性模块度矩阵融合为加权模块度矩阵,再将加权模块度矩阵分解得到用户网络的加权向量化表示;根据贝叶斯概率公式将各属性因子计算得到的影响力相乘,得到最终的用户影响力;在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度;使用用户标签影响度和用户重要度进行社区发现,获取社区;本发明对复杂网络社区划分预测结果更可靠。

Description

一种节点信息和标签传播的重叠社区划分预测方法及系统
技术领域
本发明属于计算机领域,涉及一种节点信息和标签传播的重叠社区划分预测方法及系统。
背景技术
复杂网络广泛存在于人类生活的各个方面,如社会网络、生物网络、工程网络、信息网络等。在上世界90年代,Watts和Strogatz两位学者在Nature这个顶级的期刊发表了为小世界网络模型,然后Albert和Barabasi在Science这个顶级期刊发表了无标度网络模型。因此,复杂网络这一新学科分支出现了。此外复杂的社交网络具有很强的社会效应。这种社会效应的表现为种类繁多但联系紧密的群体,群体内个体之间的接触相对频繁。如果一个个体被分成多个群体,那就是重叠社区检测。
传统的社区检测方法只关注网络拓扑结构信息,这种方法设计都是通过分析个体之间的关系进行社区划分,其发现的社区内部的关系紧密,而不同社区间的关系较为稀疏,但是这种方法并未考虑到网络中用户本身携带的属性信息。目前现有的许多经典的重叠社区检测方法并没有利用到网络中的用户属性信息。因此,它们还没有被用来检测网络中的重叠社区。如何在利用网络中的用户属性信息进行预测,是当前急需解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种节点信息和标签传播的重叠社区划分预测方法及系统。
为达到上述目的,本发明提供如下技术方案:
一种节点信息和标签传播的重叠社区划分预测方法,该方法包括以下步骤:
S1:对获取的复杂网络数据集中的用户属性信息进行预处理,包括对用户属性的短文本文档去除非文本部分、分词、去除停用词在内的预处理工作,对获取到的数据集中的关系数据集进行处理,包括用户关系处理以及对不活跃用户的剔除,完成用户网络拓扑结构的构建和生成特征网络;
S2:根据S1中获取到的特征网络进行特征处理,从用户属性周围的整体分布中捕获关于用户的关键属性信息,然后将用户关键属性间的相关性转化为属性模块度矩阵,接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵,再将加权模块度矩阵分解成特征值与特征向量的形式,得到用户网络的加权向量化表示;
S3:根据S2获取到的用户关键属性信息,用贝叶斯网络模型进行用户节点属性的先验概率学习,通过标识重要用户节点,使用相关领域专家知识获取各属性的先验概率,对具有重要影响力的属性值进行学习,建立用户属性-影响力的贝叶斯网络模型,根据贝叶斯概率公式将各属性因子计算得到的影响力相乘,得到最终的用户影响力,得到网络中所有用户影响力并按升序排序;
S4:根据S3获取到的网络中所有用户影响力信息,利用用户先验属性和用户总影响力计算出网络用户重要度,然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度;
S5:根据步骤S4中得到的用户标签影响度和用户重要度计算方式,进行社区发现,获取社区。
可选的,所述S1中对数据集的预处理的操作,包括以下步骤:
S11:从数据集中获取每个用户发布的短文本属性信息,针对于这些短文本属性信息,删除非文本部分包括html标签、非英文字符、标点符号、语气助词和借代词,对LDA模型语料库使用自有分词技术;
S12:对数据集中用户关系进行处理,接着对数据集中的用户进行活跃性判断,如果是用户与其他所有用户没有任何联系,则判定为不活跃用户以及对不活跃用户的剔除。
可选的,所述S2的具体步骤包括:
S21:对用户属性信息采用随机行走,获得用户特征对的经验统计量,然后给出观测特征的联合概率的无偏估计,从中提取用户关键属性信息并进行归一化处理;
S22:计算用户关键属性信息之间的Pearson相关系数的相似度,Pearson相关系数的值的绝对值越接近1,则说明线性关系越强,其中接近+1为正相关性越强,接近-1是负相关性越强;然后将得到的相似度构建为属性模块度矩阵,在通过自适应融合系数矩阵将拓扑结构矩阵和属性模块度矩阵融合为加权模块度矩阵;
S23:获取到上面的加权模块度矩阵,将加权模块度矩阵分解成特征值与特征向量形式,在映射为用户向量,结合用户向量化表示,得到用户之间带权的网络矩阵。
可选的,所述S3中,根据贝叶斯概率公式,使用乘法原理将各个属性影响力相乘得到最后的用户影响力,用户影响力计算公式为:
P(lnf)=Πp(lnf|Attr)
其中,P(lnf)表示用户影响力,p(lnf|Attr)表示用户各个属性的影响力。
可选的,所述S4具体包括:
S41:基于节点先验属性的节点归一化重要性是不够的,更重要的用户与用户之间存在紧密的联系;提出基于用户先验属性和用户影响力算法的用户重要性计算方式为:
Figure BDA0004112124240000031
其中,lnf(i)代表用户i的先验重要性,β∈[0,1]用于度量相邻用户对用户i的影响程度;N(i)表示用户i的邻域集,d(j)为用户j的度;
S42.根据用户影响力和用户重要性,得到网络中用户标签重要度计算公式为:
Figure BDA0004112124240000032
LIS(i,l)表示对用户i在标签l重要度,Nl(i)表示用户i周围标签l的集合。
可选的,所述S5中,根据得到的用户标签影响度和用户重要度公式,进行社区发现,具体步骤包括:
S51:复杂网络中每个用户使用唯一的社区标签进行初始化;
S52:计算网络中每个用户的用户重要度和标签影响度,并初始化迭代次数值为1;
S53:标签按照用户重要度大小顺序通过网络传播,在传播的每一次迭代中,每个用户都将其标签更新为其最大邻居数所属的标签,当用户的相邻节点上的多个标签数量达到最大值时,选择用户标签影响度最大的标签更新用户;
S54:迭代次数达到最大迭代次数或每个用户的标签与其大多数相邻用户的标签相同,则将标签相同的用户置于同一社区中,运行结束;否则,设置迭代次数值加1,转步骤S53。
一种节点信息和标签传播的重叠社区划分预测系统,该系统包括:
数据预处理模块,用于获取复杂网络数据集中的用户属性信息并进行预处理,对获取到的数据集中的关系数据集进行处理,完成用户网络拓扑结构的构建和生成特征网络;
网络加权向量化处理模块,用于将用户关键属性间的相关性转化为属性模块度矩阵,接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵,再将加权模块度矩阵分解成特征值与特征向量的形式,得到了用户网络的加权向量化表示;
贝叶斯网络模型建立模块,根据贝叶斯网络模型进行用户节点属性的先验概率学习,通过标识重要用户节点,使用相关领域专家知识获取各属性的先验概率,对具有重要影响力的属性值进行学习,建立用户属性-影响力的贝叶斯网络模型;
社区划分模块,根据用户属性-影响力的贝叶斯网络模型计算用户影响力,然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度和用户重要度,最后利用上述得到的参数进行社区划分。
本发明的有益效果在于:本发明提供了一种基于复杂网络中用户属性信息的重叠社区发现方法,在传统的社区检测方法中引入用户的属性信息,将网络拓扑结构信息和节点属性信息融合加权模块度矩阵,将矩阵分解得到用户网络的加权向量化表示。在用户属性信息的基础上得到用户影响力。根据用户先验属性和用户总影响力计算网络出用户重要度和标签重要度,通过用户重要度和标签重要度的标签传播在用户加权网络上进行社区发现。本文将用户重要度和标签重要度引入标签传播过程中,避免标签传播过程中的随机性,可以获得稳定有效的结果。通过对真实数据集的实验,本发明的预测输出和实际社区划分状况拟合度更好,且预测输出稳定性较好,没有出现大幅度的波动,即本发明对复杂网络社区发现预测结果更可靠,更有优势。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明中实施的复杂网络中重叠社区发现预测模型效果。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明提供了一种基于复杂网络中用户属性信息的重叠社区发现方法,采用图1所示社区发现流程图,表1为本发明社区发现模型的预测效果。
在一实施例中,如图1所示,本发明提出了一种基于复杂网络中用户属性信息的重叠社区发现方法,其特征在于,利用社交网络中的用户间的关系以及用户自身携带的短文本属性信息进行社区发现过程,包括如下步骤:
S1.对获取的复杂网络数据集中的用户属性信息进行预处理,包括对用户属性的短文本文档去除非文本部分、分词、去除停用词在内的预处理工作,对获取到的数据集中的关系数据集进行处理,包括用户关系处理以及对不活跃用户的剔除,完成用户网络拓扑结构的构建和生成特征网络;
S2.根据S1中获取到的特征网络进行特征处理,从用户属性周围的局部分布中捕获关于用户的关键属性信息,然后将用户关键属性间的相关性转化为属性模块度矩阵,接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵,再将加权模块度矩阵分解成特征值与特征向量的形式,得到了用户网络的加权向量化表示;
S3.根据S2获取到的用户关键属性信息,用贝叶斯网络模型进行用户节点属性的先验概率学习,通过标识重要用户节点,使用相关领域专家知识获取各属性的先验概率,对具有重要影响力的属性值进行学习,建立用户属性-影响力的贝叶斯网络模型,根据贝叶斯概率公式将各属性因子计算得到的影响力相乘,得到最终的用户影响力,得到网络中所有用户影响力并按升序排序;
S4.;根据S3获取到的网络中所有用户影响力信息,利用用户先验属性和用户总影响力计算出网络用户重要度,然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度;
S5.根据步骤S4中得到的用户标签影响度和用户重要度计算方式,进行社区发现,获取社区;
步骤S1中对数据集的预处理的操作,包括以下步骤:
S11.从数据集中获取每个用户发布的短文本属性信息,针对于这些短文本属性信息,删除非文本部分包括html标签,非英文字符和标点符号,语气助词,借代词等,而后对LDA模型语料库使用自有分词技术;
S12.对数据集中用户关系进行处理,接着对数据集中的用户进行活跃性判断,如果是用户与其他所有用户没有任何联系,则判定为不活跃用户以及对不活跃用户的剔除;
所述步骤S2的具体步骤包括:
S21.对用户属性信息采用随机行走,获得用户特征对的经验统计量,然后给出了观测特征的联合概率的无偏估计,从中提取用户关键属性信息并进行归一化处理。
S22.计算用户关键属性信息之间的Pearson相关系数的相似度,Pearson相关系数的值的绝对值越接近1,则说明线性关系越强,其中接近+1为正相关性越强,接近-1是负相关性越强。然后将得到的相似度构建为属性模块度矩阵,在通过自适应融合系数矩阵将拓扑结构矩阵和属性模块度矩阵融合为加权模块度矩阵。
S23.获取到上面的加权模块度矩阵,将加权模块度矩阵分解成特征值与特征向量形式,在映射为用户向量,结合用户向量化表示,得到用户之间带权的网络矩阵。
步骤S3中根据贝叶斯概率公式,使用乘法原理将各个属性影响力相乘得到最后的用户影响力,用户影响力计算公式为:
P(lnf)=\prod{p(lnf|Attr)}
其中,P(lnf)表示用户影响力,p(lnf|Attr)表示用户各个属性的影响力
步骤S4中具体步骤包括:
S41.基于节点先验属性的节点归一化重要性是不够的,更重要的用户与用户之间存在紧密的联系。于是提出了一种基于用户先验属性和用户影响力算法的用户重要性计算方式为:
{NIS}_i=lnf(i)+\beta\ast\sum_{j\inN(i)}\frac{lnf(j)}{d(j)}
其中,lnf(i)代表用户i的先验重要性,\beta\in[0,1]用于度量相邻用户对用户i的影响程度。N(i)表示用户i的邻域集,dj为用户j的度。
S42.根据用户影响力和用户重要性,得到网络中用户标签重要度计算公式为:
LIS(i,l)=\sum_{j\in N^l(i)}\frac{{NIS}_j}{d(j)}
LIS(i,l)表示对用户i在标签l重要度,N^l(i)表示用户i周围标签l的集合。
步骤S5中根据步骤S4中得到的用户标签影响度和用户重要度公式,进行社区发现,具体步骤包括:
S51.复杂网络中每个用户使用唯一的社区标签(标识符)进行初始化。
S52.计算网络中每个用户的用户重要度和标签影响度,并初始化迭代次数值为1。
S53.标签按照用户重要度大小顺序通过网络传播,在传播的每一次迭代中,每个用户都将其标签更新为其最大邻居数所属的标签,当用户的相邻节点上的多个标签数量达到最大值时,选择用户标签影响度最大的标签更新用户。
S54.迭代次数达到最大迭代次数或每个用户的标签与其大多数相邻用户的标签相同,则将标签相同的用户置于同一社区中,运行结束。否则,设置迭代次数值加1,转步骤S53。
在一实施例中,本发明提出的当前预测方法的预测效果如表1所示:
表1方法在各数据集预测结果表
Figure BDA0004112124240000071
在一实施例中,本发明还提供了一种基于复杂网络中用户属性信息的重叠社区发现预测系统,包括:
数据预处理模块,用于获取复杂网络数据集中的用户属性信息并进行预处理,对获取到的数据集中的关系数据集进行处理,完成用户网络拓扑结构的构建和生成特征网络;
网络加权向量化处理模块,用于将用户关键属性间的相关性转化为属性模块度矩阵,接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵,再将加权模块度矩阵分解成特征值与特征向量的形式,得到了用户网络的加权向量化表示;
贝叶斯网络模型建立模块,根据贝叶斯网络模型进行用户节点属性的先验概率学习,通过标识重要用户节点,使用相关领域专家知识获取各属性的先验概率,对具有重要影响力的属性值进行学习,建立用户属性-影响力的贝叶斯网络模型;
社区划分模块,根据用户属性-影响力的贝叶斯网络模型计算用户影响力,然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度和用户重要度,最后利用上述得到的参数进行社区划分。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种节点信息和标签传播的重叠社区划分预测方法,其特征在于:该方法包括以下步骤:
S1:对获取的复杂网络数据集中的用户属性信息进行预处理,包括对用户属性的短文本文档去除非文本部分、分词、去除停用词在内的预处理工作,对获取到的数据集中的关系数据集进行处理,包括用户关系处理以及对不活跃用户的剔除,完成用户网络拓扑结构的构建和生成特征网络;
S2:根据S1中获取到的特征网络进行特征处理,从用户属性周围的整体分布中捕获关于用户的关键属性信息,然后将用户关键属性间的相关性转化为属性模块度矩阵,接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵,再将加权模块度矩阵分解成特征值与特征向量的形式,得到用户网络的加权向量化表示;
S3:根据S2获取到的用户关键属性信息,用贝叶斯网络模型进行用户节点属性的先验概率学习,通过标识重要用户节点,使用相关领域专家知识获取各属性的先验概率,对具有重要影响力的属性值进行学习,建立用户属性-影响力的贝叶斯网络模型,根据贝叶斯概率公式将各属性因子计算得到的影响力相乘,得到最终的用户影响力,得到网络中所有用户影响力并按升序排序;
S4:根据S3获取到的网络中所有用户影响力信息,利用用户先验属性和用户总影响力计算出网络用户重要度,然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度;
S5:根据步骤S4中得到的用户标签影响度和用户重要度计算方式,进行社区发现,获取社区。
2.根据权利要求1所述的一种节点信息和标签传播的重叠社区划分预测方法,其特征在于:所述S1中对数据集的预处理的操作,包括以下步骤:
S11:从数据集中获取每个用户发布的短文本属性信息,针对于这些短文本属性信息,删除非文本部分包括html标签、非英文字符、标点符号、语气助词和借代词,对LDA模型语料库使用自有分词技术;
S12:对数据集中用户关系进行处理,接着对数据集中的用户进行活跃性判断,如果是用户与其他所有用户没有任何联系,则判定为不活跃用户以及对不活跃用户的剔除。
3.根据权利要求2所述的一种节点信息和标签传播的重叠社区划分预测方法,其特征在于:所述S2的具体步骤包括:
S21:对用户属性信息采用随机行走,获得用户特征对的经验统计量,然后给出观测特征的联合概率的无偏估计,从中提取用户关键属性信息并进行归一化处理;
S22:计算用户关键属性信息之间的Pearson相关系数的相似度,Pearson相关系数的值的绝对值越接近1,则说明线性关系越强,其中接近+1为正相关性越强,接近-1是负相关性越强;然后将得到的相似度构建为属性模块度矩阵,在通过自适应融合系数矩阵将拓扑结构矩阵和属性模块度矩阵融合为加权模块度矩阵;
S23:获取到上面的加权模块度矩阵,将加权模块度矩阵分解成特征值与特征向量形式,在映射为用户向量,结合用户向量化表示,得到用户之间带权的网络矩阵。
4.根据权利要求3所述的一种节点信息和标签传播的重叠社区划分预测方法,其特征在于:所述S3中,根据贝叶斯概率公式,使用乘法原理将各个属性影响力相乘得到最后的用户影响力,用户影响力计算公式为:
P(lnf)=Πp(lnf|Attr)
其中,P(lnf)表示用户影响力,p(lnf|Attr)表示用户各个属性的影响力。
5.根据权利要求4所述的一种节点信息和标签传播的重叠社区划分预测方法,其特征在于:所述S4具体包括:
S41:基于节点先验属性的节点归一化重要性是不够的,更重要的用户与用户之间存在紧密的联系;提出基于用户先验属性和用户影响力算法的用户重要性计算方式为:
Figure FDA0004112124230000021
其中,lnf(i)代表用户i的先验重要性,β∈[0,1]用于度量相邻用户对用户i的影响程度;N(i)表示用户i的邻域集,d(j)为用户j的度;
S42.根据用户影响力和用户重要性,得到网络中用户标签重要度计算公式为:
Figure FDA0004112124230000022
LIS(i,l)表示对用户i在标签l重要度,Nl(i)表示用户i周围标签l的集合。
6.根据权利要求5所述的一种节点信息和标签传播的重叠社区划分预测方法,其特征在于:所述S5中,根据得到的用户标签影响度和用户重要度公式,进行社区发现,具体步骤包括:
S51:复杂网络中每个用户使用唯一的社区标签进行初始化;
S52:计算网络中每个用户的用户重要度和标签影响度,并初始化迭代次数值为1;
S53:标签按照用户重要度大小顺序通过网络传播,在传播的每一次迭代中,每个用户都将其标签更新为其最大邻居数所属的标签,当用户的相邻节点上的多个标签数量达到最大值时,选择用户标签影响度最大的标签更新用户;
S54:迭代次数达到最大迭代次数或每个用户的标签与其大多数相邻用户的标签相同,则将标签相同的用户置于同一社区中,运行结束;否则,设置迭代次数值加1,转步骤S53。
7.一种节点信息和标签传播的重叠社区划分预测系统,其特征在于:该系统包括:
数据预处理模块,用于获取复杂网络数据集中的用户属性信息并进行预处理,对获取到的数据集中的关系数据集进行处理,完成用户网络拓扑结构的构建和生成特征网络;
网络加权向量化处理模块,用于将用户关键属性间的相关性转化为属性模块度矩阵,接着拓扑结构矩阵和属性模块度矩阵自适应融合为加权模块度矩阵,再将加权模块度矩阵分解成特征值与特征向量的形式,得到了用户网络的加权向量化表示;
贝叶斯网络模型建立模块,根据贝叶斯网络模型进行用户节点属性的先验概率学习,通过标识重要用户节点,使用相关领域专家知识获取各属性的先验概率,对具有重要影响力的属性值进行学习,建立用户属性-影响力的贝叶斯网络模型;
社区划分模块,根据用户属性-影响力的贝叶斯网络模型计算用户影响力,然后在用户影响力计算方法的基础上得到社区划分过程中需要的标签重要度和用户重要度,最后利用上述得到的参数进行社区划分。
CN202310209551.8A 2023-03-07 2023-03-07 一种节点信息和标签传播的重叠社区划分预测方法及系统 Pending CN116204716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310209551.8A CN116204716A (zh) 2023-03-07 2023-03-07 一种节点信息和标签传播的重叠社区划分预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310209551.8A CN116204716A (zh) 2023-03-07 2023-03-07 一种节点信息和标签传播的重叠社区划分预测方法及系统

Publications (1)

Publication Number Publication Date
CN116204716A true CN116204716A (zh) 2023-06-02

Family

ID=86517047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310209551.8A Pending CN116204716A (zh) 2023-03-07 2023-03-07 一种节点信息和标签传播的重叠社区划分预测方法及系统

Country Status (1)

Country Link
CN (1) CN116204716A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821451A (zh) * 2023-06-19 2023-09-29 云洞(上海)科技股份有限公司 一种基于全生命周期的用户管理系统和方法
CN117591569A (zh) * 2024-01-16 2024-02-23 北京大也智慧数据科技服务有限公司 具有影响力的用户筛选方法、装置、存储介质及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821451A (zh) * 2023-06-19 2023-09-29 云洞(上海)科技股份有限公司 一种基于全生命周期的用户管理系统和方法
CN116821451B (zh) * 2023-06-19 2024-03-22 苏州浩海医疗科技有限公司 一种基于全生命周期的用户管理系统和方法
CN117591569A (zh) * 2024-01-16 2024-02-23 北京大也智慧数据科技服务有限公司 具有影响力的用户筛选方法、装置、存储介质及设备
CN117591569B (zh) * 2024-01-16 2024-06-18 北京大也智慧数据科技服务有限公司 具有影响力的用户筛选方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
Goldberger et al. Training deep neural-networks using a noise adaptation layer
CN111737474B (zh) 业务模型的训练和确定文本分类类别的方法及装置
CN110472090B (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
CN109408627B (zh) 一种融合卷积神经网络和循环神经网络的问答方法及系统
CN116204716A (zh) 一种节点信息和标签传播的重叠社区划分预测方法及系统
CN112015868B (zh) 基于知识图谱补全的问答方法
CN112214685A (zh) 一种基于知识图谱的个性化推荐方法
CN110705301A (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN111611801B (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN113806582B (zh) 图像检索方法、装置、电子设备和存储介质
CN115880120A (zh) 一种在线政务服务系统及服务方法
Ding et al. User identification across multiple social networks based on naive Bayes model
CN117688946A (zh) 基于大模型的意图识别方法、装置、电子设备和存储介质
CN115878750A (zh) 信息处理方法、装置、设备及计算机可读存储介质
CN112148994A (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN117574915A (zh) 基于多方数据源的公共数据平台及其数据分析方法
CN112489790A (zh) 关键数据确定方法、装置、设备及存储介质
Jiang et al. Bakgrastec: A background knowledge graph based method for short text classification
CN109299291A (zh) 一种基于卷积神经网络的问答社区标签推荐方法
CN115034837A (zh) 一种基于知识图谱的产品销量预测方法、设备和介质
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN114912009A (zh) 用户画像的生成方法、装置、电子设备和计算机程序介质
Zhu et al. Text-enhanced network representation learning
CN111401070A (zh) 词义相似度确定方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination