CN107103551A - 一种选取种子节点的合著网络社区划分方法 - Google Patents

一种选取种子节点的合著网络社区划分方法 Download PDF

Info

Publication number
CN107103551A
CN107103551A CN201710166346.2A CN201710166346A CN107103551A CN 107103551 A CN107103551 A CN 107103551A CN 201710166346 A CN201710166346 A CN 201710166346A CN 107103551 A CN107103551 A CN 107103551A
Authority
CN
China
Prior art keywords
node
community
author
academic
corporations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710166346.2A
Other languages
English (en)
Inventor
吴渝
常雨箫
李红波
艾伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710166346.2A priority Critical patent/CN107103551A/zh
Publication of CN107103551A publication Critical patent/CN107103551A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明请求保护一种结合学术社团中心度选取种子节点的合著网络社区划分方法,涉及学术作者合著行为分析和社区划分领域,具体是一种能够展示复杂合著网络中社区结构的社区划分算法。包括以下步骤:首先,根据作者发表文章的不同属性,结合Salton法计算合作强度构建合著网络;其次,不单考虑作者自身权威度,还考虑了相邻的学者对其的影响,计算节点的学术社团中心度;最后,根据节点的学术社团中心度作为选取种子节点的依据,并将其融入到Louvain社区划分算法的第二阶段,即种子节点间不进行合并,非种子节点应尽量合并到种子节点所属的社区。本发明解决了现有算法中大社区过度合并、小社区数量过多的问题,能更准确的发现与划分合著网络中的学术社团。

Description

一种选取种子节点的合著网络社区划分方法
技术领域
本发明涉及学术作者权威度和社区划分领域,具体是一种能够展示复杂合著网络中社区结构的社区划分算法。
背景技术
1994年以来,IEEE和ACM等大型数字图书馆出现以来,国内外的一些学者就开始关注和研究合著网络。其主要原因在于:对合著网络的当前状态和结构进行观察可以提供许多有价值的数据。合著网络属于一种典型的社会复杂网络,它具有其拥有的一些结构特征,如小世界特征、网络中存在内聚倾向以及无标度特征等等。因此,一些分析社会复杂网络的工具和方法同样可应用于合著网络,以深入挖掘合著网络潜藏的有用信息。这些工具和方法已成为当前研究合著网络的主要手段。
钱振华等人在《北京科技大学学报》第27卷第4期提出一种合著网络中的社区划分方法,以若干个不同的局部带有影响力的节点为核心,并使节点的影响力从核心逐层向外均匀扩散,最终形成了以影响力最大的节点为核心,逐层扩展中节点的影响力不断衰减,它们之间相互关联形成一个局部区域,扩展到方法的停止,节点影响力很小,到达该局部区域的网络边缘。该文章提出的方法,仅有的一个划分阶段导致节点之间存在过度合并的现象,且社区划分中逐层扩展的做法导致迭代时间过长,算法效率也很低。
申请号为201410650818.8的中国专利描述了一种基于层次聚类的复杂网络社区划分方法,从全局中心节点建立初始社区,再根据联系紧密程度一层一层地扩展社区,最后把一些过小的社区融合到大社区中。初始化社区过程为:选取度数最大的k个节点,按照节点的相似度合成若干个社区。扩展社区过程首先标记所有节点的层数,然后根据节点与社区的链接强度把节点分到相应的社区中。融合小社区过程首先要确定小社区的大小,计算小社区中的每个节点v的相邻节点与每个大社区C的公共节点个数,将v重新划分到公共节点数最大的社区中。选取最优结果过程要做10次试验,根据扩展模块度选出最终结果。本发明不需要预先知道社区数目,时间复杂度为O(m),可以处理大型复杂网络,提高了社区划分的准确度。但是,该专利只能泛性的分析复杂网络的社区结构,没有针对不同种类复杂网络精确挑选包含重要社区结构信息的节点进行划分,最终的划分结果无法准确反映不同种类的社交网络中的社交行为。
现有的合著网络社区划分方法存在以下缺点:(1)没有结合合著网络中的特性进行深度的社区划分研究;(2)算法效率低,运行时间长。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种算法效率提高的方法。本发明的技术方案如下:
一种选取种子节点的合著网络社区划分方法,其包括以下步骤:首先,根据作者各自发表的文章数和合著发表文章数,采用萨顿法计算作者之间的合作强度,将计算得出的合作强度值赋值给节点之间的边,构建合著网络,其中每个作者作为合著网络的节点;其次,根据作者之间的合作强度计算节点的学术社团中心度,其中不单考虑作者自身权威度,还考虑了相邻的学者对其的影响;最后,根据节点的学术社团中心度作为选取种子节点的依据,采用改进的社区发现算法,在改进的社区发现算法的阶段一与鲁文算法的阶段一相同,结果为网络图G中的节点最终被划分成社区集合C;并将其融入到Louvain社区划分算法的第二阶段,即种子节点间不进行合并,非种子节点应尽量合并到种子节点所属的社区。
进一步的,所述采用Salton法计算作者之间的合作关系强度,将计算得出的值赋值给节点之间的边,构建合著网络,合作关系强度公式如下:
式中,rsij为作者i和作者j的合作关系强度,hij为作者i和作者j合作发表的文章数,hi和hj分别表示作者i和作者j各自发表的文章数。
进一步的,所述根据作者之间的合作强度计算节点的学术社团中心度包括:
根据计算出的作者合作强度,根据以下公式计算节点的学术社团中心度:
CD(i)=(1-d)*deg(i)+d∑jrsij*CD(j)*w(i,j)
式中,CD(i)为节点i的学术社团中心度,deg(i)为节点i的度数,rsij为节点i和j间的合作强度,w(i,j)为节点j对节点i的权威贡献程度,d表示收敛系数。
进一步的,所述Louvain社区划分算法的第二阶段具体包括步骤:
将每个节点各视为一个社区,对于每个非种子节点i,假设它的邻居节点属于t个社区,将节点i依次添加到t个社区中,并计算节点添加前与添加后的模块度值变化ΔQj=(j=1,2…,t),若该社区中包含种子节点,则将该社区添加到集合D1中,否则添加到集合D2中;
计算集合D1中ΔQj的最大值记为maxΔQ,若maxΔQ大于0,则将节点i分配到D1最大值所对应的社区,否则计算集合D2中ΔQj的最大值记为maxΔQ,若maxΔQ大于0,则将节点i分配到ΔQj最大值所对应的社区,若不符合上述所描述的两种情况,则节点i所属的社区需保持不变;
重复以上步骤,直到所有非种子节点i所属的社区不再发生变化,输出社区划分结果,流程结束。
进一步的,采用学术社团中心度选取种子节点,其集合为s,选取公式如下:
S={i|CD(i)>E+p},E表示CD(i)的平均值,p表示CD(i)的标准方差
本发明的优点及有益效果如下:
本发明针对现有技术的上述不足,提出了一种基于鲁文的社区划分方法,其要点在于引入基于萨顿法的合作关系强度的作者学术社团中心度作为选取种子节点的依据。在此基础上,将种子节点的思想融合进鲁文算法的第二阶段,提出一种适合复杂合著网络的社区划分算法,用以更好的揭示社团结构,解决Louvain算法中的算法效率低下和节点过度合并的问题。
附图说明
图1是本发明提供优选实施例构建合著网络准备工作;
图2为本发明算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如附图1-2所示,一种结合学术社团中心度选取种子节点的合著网络社区划分方法,其包括以下内容:
1.根据作者各自发表和合著发表文章,采用Salton法计算作者之间的合作关系强度,将计算得出的值赋值给节点之间的边,构建合著网络,公式如下:
式中,rsij为作者i和作者j的合作关系强度,hij为作者i和作者j合作发表的文章数,hi和hj分别表示作者i和作者j各自发表的文章数。
2.学术社团中心度在计算中心度的时候,不单考虑作者自身,还考虑了相邻的学者,认为如果一个学者和某知名学者有过合作,那么这个学者通常也会比较有名。具体到合著网络中,则节点的学术社团中心度不单考虑节点自身的度数,也要考虑邻居节点的贡献。
根据步骤1计算出的作者合作强度,以下公式计算节点的学术社团中心度:
A1~A4:根据Salton法,计算作者之间的合作关系强度,并将其赋值于边权重。将合作关系强度应用到节点的学术社团中心度的计算当中,输出每个节点的学术社团中心度值作为点的权重:
CD(i)=(1-d)*deg(i)+d∑jrsij*CD(j)*w(i,j)
根据点和边的权重,构建合著网络,式中,CD(i)为节点i的学术社团中心度,deg(i)为节点i的度数,rsij为节点i和j间的合作强度,w(i,j)为节点j对节点i的权威贡献程度,d表示收敛系数。
本文改进的社区发现算法有两个阶段,阶段一与Louvain算法的阶段一相同,结果为网络图G中的节点最终被划分成社区集合C。其改进主要集中在阶段二,且改进的算法中阶段二不需要迭代执行。改进的算法中阶段二包含三个步骤。首先,对阶段一的划分结果进行压缩,形成新的网络图G′。
阶段一、B1:将每个节点各视为一个社区。对于每个节点i,假设它的邻居节点属于t个社区,将节点i依次添加到邻居节点的t个社区中,并计算节点添加前与添加后的模块度值变化ΔQj(j=1,2…,t),计算ΔQj的最大值记为maxΔQ。
B2:maxΔQ若大于0,则将节点i分配到ΔQj最大值所对应的社区,否则节点所属的社区保持不变。在所有节点分配结束时,得到一个社区划分结果,记录该社区划分所对应的模块度值ΔQj。对划分结果进行压缩,形成新的网络图G′。
阶段二、B3:然后,在新的网络图G′中,采用学术社团中心度选取种子节点,其集合为S,选取公式如下:
S={i|CD(i)>E+p}
B4:然后,每个节点各自归为一个社区。对于每个非种子节点i,假设其邻居节点属于t个社区,将节点i依次添加到t个社区中,并计算添加前后的模块度值变化ΔQj(j=1,2…,t),若该社区中包含种子节点,则将该社区添加到集合D1中,否则添加到集合D2中。
B5:计算集合D1中ΔQj的最大值记为maxΔQ,若maxΔQ大于0,则将节点i分配到D1最大值所对应的社区,否则计算集合D2中ΔQj的最大值记为maxΔQ,若maxΔQ大于0,则将节点i分配到ΔQj最大值所对应的社区,若不符合上述所描述的两种情况,则节点i所属的社区需保持不变。
B6:重复步骤B4、B5,直到所有非种子节点i所属的社区不再发生变化。输出社区划分结果,流程结束。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种选取种子节点的合著网络社区划分方法,其特征在于,包括以下步骤:首先,根据作者各自发表的文章数和合著发表文章数,采用萨顿Salton法计算作者之间的合作强度,将计算得出的合作强度值赋值给节点之间的边,构建合著网络,其中每个作者作为合著网络的节点;其次,根据作者之间的合作强度计算节点的学术社团中心度,其中不单考虑作者自身权威度,还考虑了相邻的学者对其的影响;最后,根据节点的学术社团中心度作为选取种子节点的依据,采用改进的社区发现算法,在改进的社区发现算法的阶段一与鲁文Louvain算法的阶段一相同,结果为网络图G中的节点最终被划分成社区集合C;并将其融入到鲁文社区划分算法的第二阶段,即种子节点间不进行合并,非种子节点应尽量合并到种子节点所属的社区。
2.根据权利要求1所述的选取种子节点的合著网络社区划分方法,其特征在于,所述采用Salton法计算作者之间的合作关系强度,将计算得出的值赋值给节点之间的边,构建合著网络,合作关系强度公式如下:
<mrow> <msub> <mi>rs</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>h</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <msqrt> <mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>&amp;times;</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> </mrow> </msqrt> </mrow>
式中,rsij为作者i和作者j的合作关系强度,hij为作者i和作者j合作发表的文章数,hi和hj分别表示作者i和作者j各自发表的文章数。
3.根据权利要求2所述的选取种子节点的合著网络社区划分方法,其特征在于,所述根据作者之间的合作强度计算节点的学术社团中心度包括:
根据计算出的作者合作强度,根据以下公式计算节点的学术社团中心度:
CD(i)=(1-d)*deg(i)+d∑jrdij*CD(j)*w(i,j)
式中,CD(i)为节点i的学术社团中心度,deg(i)为节点i的度数,rsij为节点i和j间的合作强度,w(i,j)为节点j对节点i的权威贡献程度,d表示收敛系数。
4.根据权利要求2所述的选取种子节点的合著网络社区划分方法,其特征在于,所述Louvain社区划分算法的第二阶段具体包括步骤:
将每个节点各视为一个社区,对于每个非种子节点i,假设它的邻居节点属于t个社区,将节点i依次添加到t个社区中,并计算节点添加前与添加后的模块度值变化ΔQj(j=1,2…,t),若该社区中包含种子节点,则将该社区添加到集合D1中,否则添加到集合D2中;
计算集合D1中ΔQj的最大值记为amxΔQ,若amxΔQ大于0,则将节点i分配到D1最大值所对应的社区,否则计算集合D2中ΔQj的最大值记为maxΔQ,若maxΔQ大于0,则将节点i分配到ΔQj最大值所对应的社区,若不符合上述所描述的两种情况,则节点i所属的社区需保持不变;
重复以上步骤,直到所有非种子节点i所属的社区不再发生变化,输出社区划分结果,流程结束。
5.根据权利要求4所述的选取种子节点的合著网络社区划分方法,其特征在于,采用学术社团中心度选取种子节点,其集合为S,选取公式如下:
S={i|CD(i)>E+p}表示CD(i)的平均值,p表示CD(i)的标准方差。
CN201710166346.2A 2017-03-20 2017-03-20 一种选取种子节点的合著网络社区划分方法 Pending CN107103551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710166346.2A CN107103551A (zh) 2017-03-20 2017-03-20 一种选取种子节点的合著网络社区划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710166346.2A CN107103551A (zh) 2017-03-20 2017-03-20 一种选取种子节点的合著网络社区划分方法

Publications (1)

Publication Number Publication Date
CN107103551A true CN107103551A (zh) 2017-08-29

Family

ID=59675467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710166346.2A Pending CN107103551A (zh) 2017-03-20 2017-03-20 一种选取种子节点的合著网络社区划分方法

Country Status (1)

Country Link
CN (1) CN107103551A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959543A (zh) * 2018-07-02 2018-12-07 吉林大学 一种学术合作作者网络划分方法
CN110519368A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 一种获取传播网络中节点权威度的方法及相关设备
CN110674390A (zh) * 2019-08-14 2020-01-10 国家计算机网络与信息安全管理中心 基于置信度的群体发现方法及装置
CN111694900A (zh) * 2019-02-28 2020-09-22 阿里巴巴集团控股有限公司 一种网络图的处理方法及装置
CN112463977A (zh) * 2020-10-22 2021-03-09 三盟科技股份有限公司 基于知识图谱的社区挖掘方法、系统、计算机及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020302A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统
CN103425737A (zh) * 2013-07-03 2013-12-04 西安理工大学 面向网络的重叠社区发现方法
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN105243593A (zh) * 2015-08-04 2016-01-13 电子科技大学 基于混合测度的加权网络社区聚类方法
CN106022936A (zh) * 2016-05-25 2016-10-12 南京大学 适用论文合作网络的基于社团结构的影响最大化算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020302A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统
CN103425737A (zh) * 2013-07-03 2013-12-04 西安理工大学 面向网络的重叠社区发现方法
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN105243593A (zh) * 2015-08-04 2016-01-13 电子科技大学 基于混合测度的加权网络社区聚类方法
CN106022936A (zh) * 2016-05-25 2016-10-12 南京大学 适用论文合作网络的基于社团结构的影响最大化算法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959543A (zh) * 2018-07-02 2018-12-07 吉林大学 一种学术合作作者网络划分方法
CN111694900A (zh) * 2019-02-28 2020-09-22 阿里巴巴集团控股有限公司 一种网络图的处理方法及装置
CN111694900B (zh) * 2019-02-28 2023-06-13 阿里巴巴集团控股有限公司 一种网络图的处理方法及装置
CN110674390A (zh) * 2019-08-14 2020-01-10 国家计算机网络与信息安全管理中心 基于置信度的群体发现方法及装置
CN110519368A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 一种获取传播网络中节点权威度的方法及相关设备
CN110519368B (zh) * 2019-08-27 2021-09-07 腾讯科技(深圳)有限公司 一种获取传播网络中节点权威度的方法及相关设备
CN112463977A (zh) * 2020-10-22 2021-03-09 三盟科技股份有限公司 基于知识图谱的社区挖掘方法、系统、计算机及存储介质

Similar Documents

Publication Publication Date Title
CN107103551A (zh) 一种选取种子节点的合著网络社区划分方法
CN110120097B (zh) 大场景机载点云语义建模方法
CN103207856B (zh) 一种本体概念及层次关系生成方法
CN103218817B (zh) 植物器官点云的分割方法和系统
Bolzoni et al. Efficient itinerary planning with category constraints
CN107578061A (zh) 基于最小化损失学习的不平衡样本分类方法
CN109241674A (zh) 一种智能网联车辆编队的多时延稳定性分析方法
CN103699678B (zh) 一种基于多阶段分层采样的层次聚类方法和系统
CN109284316A (zh) 基于数据源多维特性的真值发现方法
CN105550244A (zh) 一种自适应聚类方法
CN111599406B (zh) 结合网络聚类方法的全局多网络比对方法
CN102930350A (zh) 绿色产品设计方案的不确定性优化决策方法
CN109522416A (zh) 一种金融风险控制知识图谱的构建方法
CN102708327A (zh) 一种基于谱优化的网络社区发现方法
CN106294418A (zh) 检索方法和检索系统
CN104102699B (zh) 一种聚簇图集合中的子图检索方法
Gao et al. Pattern-based topic models for information filtering
CN102682162A (zh) 基于复杂网络社区发现的层次重叠核心药群发现方法
CN113626723A (zh) 一种基于表示学习的属性图社区搜索方法和系统
CN103412878A (zh) 基于领域知识地图社区结构的文档主题划分方法
CN111680205B (zh) 一种基于事理图谱的事件演化分析方法及装置
CN105162648B (zh) 基于骨干网络扩展的社团检测方法
CN107622047A (zh) 一种设计决策知识的提取和表达方法
CN110135102A (zh) 面向碎片化建模的相似度量方法
Joest et al. A user-aware tour proposal framework using a hybrid optimization approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170829