CN110929044A - 一种面向学术合作网络的社区检测方法和装置 - Google Patents
一种面向学术合作网络的社区检测方法和装置 Download PDFInfo
- Publication number
- CN110929044A CN110929044A CN201911220175.2A CN201911220175A CN110929044A CN 110929044 A CN110929044 A CN 110929044A CN 201911220175 A CN201911220175 A CN 201911220175A CN 110929044 A CN110929044 A CN 110929044A
- Authority
- CN
- China
- Prior art keywords
- scholars
- community
- academic
- network
- scholar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 238000010276 construction Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000011160 research Methods 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 27
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 12
- 230000006978 adaptation Effects 0.000 claims description 9
- 238000005065 mining Methods 0.000 claims description 9
- 238000011161 development Methods 0.000 claims description 8
- 238000003012 network analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 239000002609 medium Substances 0.000 description 10
- 235000013162 Cocos nucifera Nutrition 0.000 description 3
- 244000060011 Cocos nucifera Species 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于社会网络分析技术领域,具体涉及一种面向学术合作网络的社区检测方法和装置。本发明一种面向学术合作网络的社区检测方法具体步骤为:获取学者发表论文的数据,对数据进行预处理,计算出每两个学者之间的合作次数;构建邻接矩阵与学术合作网络;搜索社区中心学者;分配非中心学者;输出社区检测结果。本发明一种面向学术合作网络的社区检测装置包括处理器、缓存、通信接口和储存介质通过总线连接。且处理器包括:获取数据模块,邻接矩阵构建模块,搜索社区中心学者模块,分配非中心学者模块,和输出检测结果模块构成。本发明有效提高了学术合作以及学术社区检测的精度和检测效率。
Description
技术领域
本发明属于社会网络分析技术领域,具体涉及一种面向学术合作网络的社区检测方法和装置。
背景技术
在知识经济时代,学者在科技创新方面扮演着重要角色,而科研合作有利于知识的共享,学者在将自己的知识和经验共享的同时,也有可能给彼此带来创作的灵感,因此科研合作对于技术创新有重要的作用。随着越来越多的学者在各个领域开展了大量的合作,学术合作网络变得更加庞大与复杂,其中蕴含着大量有价值的信息。通常将由学者论文合作关系数据构建的学术合作网络建模为复杂网络,其中将学者抽象为网络节点,将学者之间的合作关系抽象为节点之间的连边。社区结构作为一种数据组织形式广泛存在于各种复杂网络中,如:在学术合作网络中具有共同研究兴趣的学者往往形成同一社区,而社区中心是该领域的一些权威专家。对学术合作网络进行社区结构挖掘,可以获取个人、机构以及地区之间的科研合作与学术交流水平,也可以获取该网络中学者合作的紧密程度与合作模式以及各个学科发展趋势,这样不仅有利于学者找到合适的合作对象,同时也能反映特定领域的热点问题和科研合作质量,能帮助学者了解所在学科。
传统的社区检测方法认为每个学者只能归属于一个学术团体。随着研究的深入,人们发现存在一个学者同时参与多个学术团体的情况,即社区结构表现出重叠特性。除此之外,学术合作网络含有丰富的属性信息,社区的形成除了与节点间拓扑结构相关外,还受到节点的属性信息的影响,如:具有共同研究兴趣的学者往往构成同一社区。然而传统的社区检测方法仅依赖拓扑关系进行社区结构的检测,忽略了节点的属性信息在社区形成中的作用。有的方法虽然考虑到了节点的属性信息,也是独立运用拓扑结构和节点属性两类信息进行社区检测,忽略了两类信息在网络社区形成过程中的共同作用。这都导致了社区检测结果可靠性不高。
发明内容
针对检测结果准确度差,效率低等问题本发明提供了一种面向学术合作网络的社区检测方法和装置。
为了达到上述目的,本发明采用了下列技术方案:
一种面向学术合作网络的社区检测方法,包括以下步骤:
步骤1,获取数据;
步骤2,构建邻接矩阵与学术合作网络;
步骤3,搜索社区中心学者;
步骤4,分配非中心学者;
步骤5,输出社区检测结果。
进一步地,所述步骤1中获取数据的具体操作为:
获取学者发表论文的数据,对数据进行预处理,计算出每两个学者之间的合作次数。学者之间的合作次数越多,表明两个学者的研究课题越相似,通过分析所有学者的合作关系及合作次数,可以让学者很容易找到跟他研究领域相同的其他学者,为学者提供了合适的合作对象。
所述预处理的具体操作是将学者发表论文的数据进行合作关系的匹配;
所述学者发表论文的数据包括作者、题目、摘要、关键字和项目资助信息。
再进一步地,所述步骤2中构建邻接矩阵与学术合作网络的具体操作为:
其中i和j表示学者,n表示学者的总数,表示由不同学者之间的合作关系构成的邻接矩阵,表示第i个学者与第j个学者之间的合作关系;若两个学者之间有合作关系,则否则研究邻接矩阵中学者之间的合作关系,可以更好的了解作者合作的紧密程度与合作模式。
通过邻接矩阵构建学术合作网络:G=<V,E,HG>
其中,G表示一个学术合作网络,表示由网络中的n个学者组成的集合,vi表示学术合作网络中第i个学者的节点;表示由学术合作网络中学者间合作关系对应的边组成的集合,节点间的边ei,j代表第i个学者与第j 个学者存在合作关系;表示学术合作网络中学者间的合作次数组成的集合,其中HG(i,j)表示第i个学者与第j个学者的合作次数。在由各个学者构成的学术合作网络G中,网络中的稠密部分能反映特定领域的热点问题。
所述学术合作网络中的每一个网络节点表示一个学者;
所述学术合作网络是由学者论文的合作关系数据构建的。
更进一步地,所述步骤3中的搜索社区中心学者的具体操作为:
将HG(i,j)作为两个学者间的属性同质值,计算每个模体的属性同质值,计算公式如下:
其中Ar表示第r个模体的属性同质值,δr表示第r个模体中边的总数,b表示模体中每条边的编号,startb和endb表示模体中由第b条边相连的两个学者;
所述属性同质值表示学术合作网络中对应的两个学者间的属性相似程度, Ar取值越大,表示学术合作网络中两个学者之间的属性相似程度越高。学者之间的属性相似度越高,表明两个学者的研究领域越相似。
计算包含在模体中的任意两个学者之间的属性-结构连接强度,计算公式如下:
其中attrij表示包含在模体中的学者vi和vj之间的属性-结构连接强度,MTr表示学术合作网络G=<V,E,HG>中的第r个模体,{i,j}∈MTr表示学者vi和vj同时被包含在MTr中;
对于学者vi,通过遍历学术合作网络中所有的学者,计算学者vi的密集度,计算公式如下:
其中Densityi表示学者vi的密集度,n为学术合作网络中的学者总数,学者vi的密集度是学者与社区内其它学者间的属性-结构连接强度之和。学者的密集度越大,表明学者与社区内其他学者之间不仅有很大的属性相似度而且存在着很强的拓扑结构联系。
计算两个学者间的相似度和每条边的边适应度:
Φi=Nb(i)+{vi}-{vj}和Φj=Nb(j)+{vj}-{vi}表示由边ei,j连接的两个学者邻域,其中{vi}表示只包含学者vi的集合,{vj}表示只包含学者vj的集合,Nb(i)和Nb(j) 分别表示学者vi和学者vj的相邻学者,与学者vi有合作关系的其他学者称为学者 vi的相邻学者;
计算两个相邻学者间的直接相似度,计算公式如下:
其中DS(i,j)为学者vi与vj之间的直接相似度,用于表示学术合作网络中相邻学者之间的相似程度;AS(i,j)为学者vi与vj之间的属性相似度,用于表示学术合作网络中两个学者之间的属性相似程度;AS(i)为学者vi与所有相邻学者的属性相似度总和;Degree(r)为与学者vr有直接关联关系的学者总和;
计算两个不相邻学者间的间接相似度,计算公式如下:
其中IS(i,j)为学者vi与学者vj间的间接相似度,用于表示学术合作网络中不相邻学者间的相似程度,num=min(DS(i,i1),DS(i1,i2),...,DS(in,j)),num表示由学者vi到学者vj的路径中所有相邻学者间直接相似度的最小值,dtmax为设定的阈值,dti,j为学者vi与学者vj之间的路径长度;
计算学术合作网络G=<V,E,HG>中两个学者vi和vj之间的相似度S(i,j),计算公式如下:
其中S(i,j)用于表示学术合作网络中学者vi与vj间的相似度,DS(i,j)为学术合作网络中学者vi与vj之间的直接相似度,IS(i,j)为学术合作网络中学者vi与vj间的间接相似度。直接相似度指有直接合作关系的两个学者之间的相似度,间接相似度存在间接合作关系的两个学者之间的相似度,作者之间的相似度越大,表明研究的领域越相似。
计算每条边的边适应度,用于表示学术合作网络中两个学者之间关联性的强度,取值越大,两个学者关联性越强,计算公式如下:
计算边ei,j相对于学者邻域Φi的边适应度,计算公式如下:
计算边ei,j相对于学者邻域Φj的边适应度,计算公式如下:
表示学者vj与学者邻域Φj内学者间相似度总和,vb是学者邻域Φj内不同于学者vj的学者,S(a,b)表示学者va和vb之间的相似度。边适应度表示学术合作网络中两个学者之间关联性的强度,取值越大,两个学者关联性越强,研究的领域越相似。
计算学者的间隔度:
对于学者vi,通过遍历学术合作网络中所有的学者,找出比学者vi密集度大的学者,学者vi的间隔度的计算公式如下:
其中,Intervali为学者vi的间隔度,学者vj是比学者vi的密集度大的学者,EFij为边ei,j的边适应度,Densityi和Densityj分别表示学者vi和vj的密集度。间隔度是指学者与比其密集度大的所有学者的关联性强度的和的倒数,其值越大,表明学者与比其密集度大的所有学者之间的关联性越弱,从而表明学者与比其密集度大的学者的研究领域相差很远。这有助于发现不同领域的研究热点。
选出社区中心集合:选择密集度Densityi和间隔度Intervali乘积最大的K个学者作为学术合作网络各个社区的社区中心,其中第k个社区的中心节点记为ck,从而得到社区中心学者集合由每个社区中心作者确定一个社区。作者的密集度Densityi和间隔度Intervali乘积最大,说明作者与本研究领域内的其他作者有很强的关联性和属性相似度,而与其他研究领域的作者有很弱的关联性和属性相似度。密集度Densityi和间隔度Intervali乘积最大的作者符合社区中心的特性,故将该作者作为社区中心。
更进一步地,所述步骤4中分配非中心学者的具体操作为:
根据隶属度分配非中心学者,对学术合作网络进行社区结构划分,以找出至少一个社区;
根据密集度和间隔度,计算非中心学者关于每个社区的隶属度,用来表示非中心学者隶属于该社区的概率大小,
其中,MSuk表示学者hu关于第k个社区的隶属度,EFuk表示边eu,k的边适应度,其取值越大表示两个学者关联性越强,EFux表示边eu,x的边适应度,LCu表示比学者hu的密集度大的社区中心学者的集合;
通过设定阈值判断非中心学者是否为重叠节点,对于学者vi,将学者vi分配到社区k,其中表示学者vi关于社区1的隶属度MSi1、学者vi关于社区2的隶属度MSi2、...、学者vi关于社区g的隶属度MSig中所有隶属度的最大值。学者vi关于社区k的隶属度与关于社区g的隶属度满足MSig/MSik>θ(0<θ<1),θ为阈值,则学者vi是社区k和 g的重叠节点;
再通过隶属度将非中心学者分配到隶属度最大的社区。非中心学者关于社区的隶属度越大,非中心学者与该社区内的其他作者之间的属性相似度和关联性越强。故将非中心学者分配到隶属度最大的社区,该社区由具有共同研究兴趣的学者构成,这有助于学者找到合适的合作对象。
更进一步地,所述步骤5输出社区检测结果的具体操作是:划分后的每个社区由具有共同研究兴趣的学者构成,对学术合作网络进行社区结构挖掘,获取个人、机构以及地区之间的科研合作与学术交流情况,获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势;学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况,找到合适的合作对象。由于具有共同研究兴趣的学者构成同一社区,所以学者通过寻找同一社区中的其他学者就可以找到合适的合作对象。
一种面向学术合作网络的社区检测装置,包括以下设备构成:处理器、缓存、通信接口和储存介质通过总线连接;
所述处理器包括:获取数据模块,用于获取学术合作网络中学者发表论文的数据;邻接矩阵构建模块,用于根据获取的数据构建邻接矩阵;搜索社区中心学者模块,用于检测学术合作网络中的社区中心学者;分配非中心学者模块,用于将非中心学者分配到相应的的社区结构中;和输出检测结果模块,用于将划分好的社区结构进行输出。
进一步地,所述获取数据模块,具体用于获取学术合作网络中学者发表论文的数据,对数据进行预处理,计算出每两个学者之间的合作次数;
所述邻接矩阵构建模块,具体用于根据学者之间的合作关系构建邻接矩阵和学术合作网络,其中学术合作网络中的每一个网络节点表示一个学者;
所述搜索社区中心学者模块,具体用于抽取出网络中包含的所有模体,在此基础上计算每个模体的属性同质值,用于表示模体中所有节点间的属性相似程度;计算包含在模体中的任意两个学者之间的属性-结构连接强度,用于表示学者之间的属性相似程度和关联性强度;计算学者的密集度;计算两个学者间的相似度和每条边的边适应度,边适应度用来表示学者之间的关联性强度;计算学者的间隔度;选出社区中心集合,由每个社区中心确定一个社区;
所述分配非中心学者模块,具体用于计算非中心学者关于每个社区的隶属度,用来表示非中心学者隶属于该社区的概率大小,在此基础上,通过设定阈值判断非中心学者是否为重叠节点,最后通过隶属度将非中心学者分配到相应的的社区结构中;
所述输出检测结果模块,具体用于将划分好的社区结构进行输出,划分后的每个社区由具有共同研究兴趣的学者构成,对学术合作网络进行社区结构挖掘,获取个人、机构以及地区之间的科研合作与学术交流情况,获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势;学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况,找到合适的合作对象。
与现有技术相比本发明具有以下优点:
1.本发明融合学术合作网络拓扑结构信息和学者属性信息,有效提高了社区检测的精度,可以更加精准的检测出学术合作网络中存在的社区结构。在学术合作网络中,具有共同研究兴趣的学者往往形成同一社区,从中挖掘出这些信息可以对于学者未来的合作提供积极的帮助。
2.本发明基于密度峰值聚类思想设计了学术合作网络社区中心的快速搜索算法,可以在短时间内快速搜索到社区中心,大大提高了社区检测效率。学术合作网络的社区中心是该领域的一些权威专家,掌握权威专家有利于了解相应学科的发展趋势和特定领域的热点问题。
附图说明
图1为本发明的一个方面的学术合作网络社区检测方法的总体流程图;
图2为本发明的一个方面的netscience学术合作网络拓扑结构示意图;
图6为本发明的一个方面的边e1,5的学者邻域的示意图,其中Nb(1)={2,4,5}, Nb(5)={1,6,7};
图7为本发明一个方面的netscience学术合作网络社区结构划分结果示意图;
图8为本发明一种终端设备结构示意图;
图9为本发明一个方面的netscience学术合作网络社区检测装置结构示意图。
具体实施方式
为了使本技术领域的相关人员更好的理解本说明书实施例中的技术方案,下面将结合本说明书一个实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
示例性实施例被描述成作为流程图描绘的处理或方法,虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行的、并发的或者同时实施。
实施例1
本发明一种面向学术合作网络的社区检测方法,见图1,为本发明的一个方面的学术合作网络社区检测方法的总体流程图:
步骤1,获取学者发表论文的数据,数据包括作者、题目、摘要、关键字和项目资助信息,将学者发表论文的数据进行合作关系的匹配,计算出每两个学者之间的合作次数。
通过邻接矩阵构建学术合作网络:G=<V,E,HG>;其中,G表示一个学术合作网络,表示由网络中的n个学者组成的集合,vi表示学术合作网络中第i个学者的节点;表示由学术合作网络中学者间合作关系对应的边组成的集合,节点间的边ei,j代表第i个学者与第j个学者存在合作关系;表示学术合作网络中学者间的合作次数组成的集合,其中 HG(i,j)表示第i个学者与第j个学者的合作次数。如图2为本发明的一个方面的 netscience学术合作网络拓扑结构示意图所示,该网络由88个节点,248条边构成。
学术合作网络中的每一个网络节点表示一个学者,学术合作网络是由学者论文的合作关系数据构建的。
步骤3,搜索社区中心学者,抽取出学术合作网络中包含的所有模体其中表示模体中包含的边的总数,η表示模体中包含的节点总数;模体是由条边和η个节点组成的闭合环状结构;如图3、图4、图5分别为本发明的一个方面的的模体结构图、的模体结构图和的模体结构图。
将HG(i,j)作为两个学者间的属性同质值,计算每个模体的属性同质值,计算公式如下:
其中Ar表示第r个模体的属性同质值,δr表示第r个模体中边的总数,b表示模体中每条边的编号,startb和endb表示模体中由第b条边相连的两个学者;
属性同质值表示学术合作网络中对应的两个学者间的属性相似程度,Ar取值越大,表示学术合作网络中两个学者之间的属性相似程度越高;
计算包含在模体中的任意两个学者之间的属性-结构连接强度,计算公式如下:
其中attrij表示包含在模体中的学者vi和vj之间的属性-结构连接强度,MTr表示学术合作网络G=<V,E,HG>中的第r个模体,{i,j}∈MTr表示学者vi和vj同时被包含在MTr中;
对于学者vi,通过遍历学术合作网络中所有的学者,计算学者vi的密集度,计算公式如下:
其中Densityi表示学者vi的密集度,n为学术合作网络中的学者总数,学者vi的密集度是学者与社区内其它学者间的属性-结构连接强度之和。
计算两个学者间的相似度和每条边的边适应度:
Φi=Nb(i)+{vi}-{vj}和Φj=Nb(j)+{vj}-{vi}表示由边ei,j连接的两个学者邻域,如图6为本发明的一个方面的边e1,5的学者邻域的示意图,其中Nb(1)={2,4,5}, Nb(5)={1,6,7};其中{vi}表示只包含学者vi的集合,{vj}表示只包含学者vj的集合,Nb(i)和Nb(j)分别表示学者vi和学者vj的相邻学者,与学者vi有合作关系的其他学者称为学者vi的相邻学者;
计算两个相邻学者间的直接相似度,计算公式如下:
其中DS(i,j)为学者vi与vj之间的直接相似度,用于表示学术合作网络中相邻学者之间的相似程度;AS(i,j)为学者vi与vj之间的属性相似度,用于表示学术合作网络中两个学者之间的属性相似程度;AS(i)为学者vi与所有相邻学者的属性相似度总和;Degree(r)为与学者vr有直接关联关系的学者总和;
计算两个不相邻学者间的间接相似度,计算公式如下:
其中IS(i,j)为学者vi与学者vj间的间接相似度,用于表示学术合作网络中不相邻学者间的相似程度,num=min(DS(i,i1),DS(i1,i2),...,DS(in,j)),num表示由学者vi到学者vj的路径中所有相邻学者间直接相似度的最小值,dtmax为设定的阈值,dti,j为学者vi与学者vj之间的路径长度;
计算学术合作网络G=<V,E,HG>中两个学者vi和vj之间的相似度S(i,j),计算公式如下:
其中S(i,j)用于表示学术合作网络中学者vi与vj间的相似度,DS(i,j)为学术合作网络中学者vi与vj之间的直接相似度,IS(i,j)为学术合作网络中学者vi与vj间的间接相似度;
计算每条边的边适应度,用于表示学术合作网络中两个学者之间关联性的强度,取值越大,两个学者关联性越强,计算公式如下:
计算边ei,j相对于学者邻域Φi的边适应度,计算公式如下:
计算边ei,j相对于学者邻域Φj的边适应度,计算公式如下:
计算学者的间隔度:
对于学者vi,通过遍历学术合作网络中所有的学者,找出比学者vi密集度大的学者,学者vi的间隔度的计算公式如下:
其中,Intervali为学者vi的间隔度,学者vj是比学者vi的密集度大的学者,EFij为边ei,j的边适应度,Densityi和Densityj分别表示学者vi和vj的密集度;
选出社区中心集合:选择密集度Densityi和间隔度Intervali乘积最大的K个学者作为学术合作网络各个社区的社区中心,其中第k个社区的中心节点记为ck,从而得到社区中心学者集合由每个社区中心作者确定一个社区。
步骤4,根据隶属度分配非中心学者,对学术合作网络进行社区结构划分,以找出至少一个社区;
根据密集度和间隔度,计算非中心学者关于每个社区的隶属度,用来表示非中心学者隶属于该社区的概率大小,
其中,MSuk表示学者hu关于第k个社区的隶属度,EFuk表示边eu,k的边适应度,其取值越大表示两个学者关联性越强,EFux表示边eu,x的边适应度,LCu表示比学者hu的密集度大的社区中心学者的集合;
通过设定阈值判断非中心学者是否为重叠节点,对于学者vi,将学者vi分配到社区k,其中表示学者vi关于社区1的隶属度MSi1、学者vi关于社区2的隶属度MSi2、...、学者vi关于社区g的隶属度MSig中所有隶属度的最大值。学者vi关于社区k的隶属度与关于社区g的隶属度满足MSig/MSik>θ(0<θ<1),θ为阈值,则学者vi是社区k和 g的重叠节点;
再通过隶属度将非中心学者分配到隶属度最大的社区。
步骤5,输出社区检测结果的具体操作是:划分后的每个社区由具有共同研究兴趣的学者构成,对学术合作网络进行社区结构挖掘,获取个人、机构以及地区之间的科研合作与学术交流情况,获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势;学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况,找到合适的合作对象。如图7为本发明一个方面的netscience学术合作网络社区结构划分结果示意图。其中圆形节点表示重叠节点,即同时有多个兴趣的学者;其他形状的节点,每个形状的节点分别代表一个社区,即有共同兴趣和研究领域的学者。
本发明一种面向学术合作网络的社区检测装置,其特征在于:包括以下设备构成:处理器、缓存、通信接口和储存介质通过总线连接;如图8所示出了按照本公开的另一方面的netscience学术合作网络社区检测装置结构示意图。
计算设备可以包括至少一个处理器、缓存、通信接口和存储介质,并且至少一个处理器、缓存、通信接口和存储介质经由总线连接在一起。至少一个处理器执行在存储器中存储或编码的至少一个计算机可读指令。
根据一个实施例,提供了一种比如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令,该指令当被机器执行时,使得机器执行本公开的实施例中图1和图8描述的各种操作和功能。具体的,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
存储介质是指任何的各种类型的存储器设备或存储设备。包括安装介质、计算机系统存储器或随机存取存储器、非易失性存储器和寄存器等。存储介质可以还包括其它类型的存储器或其组合。存储介质可以存储可由一个或多个处理器执行的程序指令。
上述实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。以上实施例中,硬件单元或模块可以通过机械方式或电器方式实现。例如:一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑来完成相应操作。
图9为本发明的又一方面的netscience学术合作网络社区检测装置模块示意图;学术合作网络社区检测装置可以包括获取数据模块、邻接矩阵构建模块、搜索社区中心学者、分配非中心学者模块及输出检测结果模块。用于由学术合作网络中检测学者所在的学术圈,所述学术合作网络是由学者论文的合作关系数据构建的,所述学者是所述学术合作网络的其中一个网络节点。
获取数据模块,具体用于获取学术合作网络中学者发表论文的数据,对数据进行预处理,计算出每两个学者之间的合作次数;
邻接矩阵构建模块,具体用于根据学者之间的合作关系构建邻接矩阵和学术合作网络,其中学术合作网络中的每一个网络节点表示一个学者;
搜索社区中心学者模块,具体用于抽取出网络中包含的所有模体,在此基础上计算每个模体的属性同质值,用于表示模体中所有节点间的属性相似程度;计算包含在模体中的任意两个学者之间的属性-结构连接强度,用于表示学者之间的属性相似程度和关联性强度;计算学者的密集度;计算两个学者间的相似度和每条边的边适应度,边适应度用来表示学者之间的关联性强度;计算学者的间隔度;选出社区中心集合,由每个社区中心确定一个社区;
分配非中心学者模块,具体用于计算非中心学者关于每个社区的隶属度,用来表示非中心学者隶属于该社区的概率大小,在此基础上,通过设定阈值判断非中心学者是否为重叠节点,最后通过隶属度将非中心学者分配到相应的的社区结构中;
输出检测结果模块,具体用于将划分好的社区结构进行输出,划分后的每个社区由具有共同研究兴趣的学者构成,对学术合作网络进行社区结构挖掘,获取个人、机构以及地区之间的科研合作与学术交流情况,获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势;学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况,找到合适的合作对象。
技术效果评价:
通常采用扩展模块度EQ函数来衡量社区结构检测的质量,其值越大表明社区检测效果越好,扩展模块度EQ函数定义如式(13):
表1为本发明与基于链接密度的算法(LINK)、基于标签传递的重叠社区发现算法(COPRA)和一种改进的基于密度峰值的社交网络聚类算法(DPSCD) 在netscience数据集上的扩展模块度EQ值比较结果。
表1
方法 | LINK | COPRA | DPSCD | 本发明 |
EQ值 | 0.263 | 0.426 | 0.514 | 0.602 |
从表1可以看出,本发明方法与LINK算法、COPRA算法和DPSCD算法相比,在netscience数据集上得到的EQ值明显较高,说明本发明方法可以准确检测出学术合作网络中的社区结构。
上述内容对实施例做了详细的说明,但本发明不受上述实施方式和实施例的限制,在不脱离本发明宗旨的前提下,在本领域技术人员所具备的知识范围内还可以对其进行各种变化和改进,这些变化和改进均落入本发明要保护的范围之内。
Claims (8)
1.一种面向学术合作网络的社区检测方法,其特征在于:包括以下步骤:
步骤1,获取数据;
步骤2,构建邻接矩阵与学术合作网络;
步骤3,搜索社区中心学者;
步骤4,分配非中心学者;
步骤5,输出社区检测结果。
2.根据权利要求1所述的一种面向学术合作网络的社区检测方法,其特征在于:所述步骤1中获取数据的具体操作为:
获取学者发表论文的数据,对数据进行预处理,计算出每两个学者之间的合作次数;
所述预处理的具体操作是将学者发表论文的数据进行合作关系的匹配;
所述学者发表论文的数据包括作者、题目、摘要、关键字和项目资助信息。
3.根据权利要求1所述的一种面向学术合作网络的社区检测方法,其特征在于:所述步骤2中构建邻接矩阵与学术合作网络的具体操作为:
通过邻接矩阵构建学术合作网络:G=<V,E,HG>
其中,G表示一个学术合作网络,表示由网络中的n个学者组成的集合,vi表示学术合作网络中第i个学者的节点;表示由学术合作网络中学者间合作关系对应的边组成的集合,节点间的边ei,j代表第i个学者与第j个学者存在合作关系;表示学术合作网络中学者间的合作次数组成的集合,其中HG(i,j)表示第i个学者与第j个学者的合作次数;
所述学术合作网络中的每一个网络节点表示一个学者;
所述学术合作网络是由学者论文的合作关系数据构建的。
4.根据权利要求1所述的一种面向学术合作网络的社区检测方法,其特征在于:所述步骤3中的搜索社区中心学者的具体操作为:
将HG(i,j)作为两个学者间的属性同质值,计算每个模体的属性同质值,计算公式如下:
其中Ar表示第r个模体的属性同质值,δr表示第r个模体中边的总数,b表示模体中每条边的编号,startb和endb表示模体中由第b条边相连的两个学者;
所述属性同质值表示学术合作网络中对应的两个学者间的属性相似程度,Ar取值越大,表示学术合作网络中两个学者之间的属性相似程度越高;
计算包含在模体中的任意两个学者之间的属性-结构连接强度,计算公式如下:
其中attrij表示包含在模体中的学者vi和vj之间的属性-结构连接强度,MTr表示学术合作网络G=<V,E,HG>中的第r个模体,{i,j}∈MTr表示学者vi和vj同时被包含在MTr中;
对于学者vi,通过遍历学术合作网络中所有的学者,计算学者vi的密集度,计算公式如下:
其中Densityi表示学者vi的密集度,n为学术合作网络中的学者总数,学者vi的密集度是学者与社区内其它学者间的属性-结构连接强度之和;
计算两个学者间的相似度和每条边的边适应度:
Φi=Nb(i)+{vi}-{vj}和Φj=Nb(j)+{vj}-{vi}表示由边ei,j连接的两个学者邻域,其中{vi}表示只包含学者vi的集合,{vj}表示只包含学者vj的集合,Nb(i)和Nb(j)分别表示学者vi和学者vj的相邻学者,与学者vi有合作关系的其他学者称为学者vi的相邻学者;
计算两个相邻学者间的直接相似度,计算公式如下:
其中DS(i,j)为学者vi与vj之间的直接相似度,用于表示学术合作网络中相邻学者之间的相似程度;AS(i,j)为学者vi与vj之间的属性相似度,用于表示学术合作网络中两个学者之间的属性相似程度;AS(i)为学者vi与所有相邻学者的属性相似度总和;Degree(r)为与学者vr有直接关联关系的学者总和;
计算两个不相邻学者间的间接相似度,计算公式如下:
其中IS(i,j)为学者vi与学者vj间的间接相似度,用于表示学术合作网络中不相邻学者间的相似程度,num=min(DS(i,i1),DS(i1,i2),...,DS(in,j)),num表示由学者vi到学者vj的路径中所有相邻学者间直接相似度的最小值,dtmax为设定的阈值,dti,j为学者vi与学者vj之间的路径长度;
计算学术合作网络G=<V,E,HG>中两个学者vi和vj之间的相似度S(i,j),计算公式如下:
其中S(i,j)用于表示学术合作网络中学者vi与vj间的相似度,DS(i,j)为学术合作网络中学者vi与vj之间的直接相似度,IS(i,j)为学术合作网络中学者vi与vj间的间接相似度;
计算每条边的边适应度,用于表示学术合作网络中两个学者之间关联性的强度,取值越大,两个学者关联性越强,计算公式如下:
计算边ei,j相对于学者邻域Φi的边适应度,计算公式如下:
表示学者vi与节点邻域Φj内学者间相似度总和,vb是节点邻域Φj内的学者,
计算边ei,j相对于学者邻域Φj的边适应度,计算公式如下:
计算学者的间隔度:
对于学者vi,通过遍历学术合作网络中所有的学者,找出比学者vi密集度大的学者,学者vi的间隔度的计算公式如下:
其中,Intervali为学者vi的间隔度,学者vj是比学者vi的密集度大的学者,EFij为边ei,j的边适应度,Densityi和Densityj分别表示学者vi和vj的密集度;
5.根据权利要求1所述的一种面向学术合作网络的社区检测方法,其特征在于:所述步骤4中分配非中心学者的具体操作为:
根据隶属度分配非中心学者,对学术合作网络进行社区结构划分,以找出至少一个社区;
根据密集度和间隔度,计算非中心学者关于每个社区的隶属度,用来表示非中心学者隶属于该社区的概率大小,
其中,MSuk表示学者hu关于第k个社区的隶属度,EFuk表示边eu,k的边适应度,其取值越大表示两个学者关联性越强,EFux表示边eu,x的边适应度,LCu表示比学者hu的密集度大的社区中心学者的集合;
通过设定阈值判断非中心学者是否为重叠节点,对于学者vi,将学者vi分配到社区k,其中表示学者vi关于社区1的隶属度MSi1、学者vi关于社区2的隶属度MSi2、...、学者vi关于社区g的隶属度MSig中所有隶属度的最大值;学者vi关于社区k的隶属度与关于社区g的隶属度满足MSig/MSik>θ(0<θ<1),θ为阈值,则学者vi是社区k和g的重叠节点;
再通过隶属度将非中心学者分配到隶属度最大的社区。
6.根据权利要求1所述的一种面向学术合作网络的社区检测方法,其特征在于:所述步骤5输出社区检测结果的具体操作是:划分后的每个社区由具有共同研究兴趣的学者构成,对学术合作网络进行社区结构挖掘,获取个人、机构以及地区之间的科研合作与学术交流情况,获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势;学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况,找到合适的合作对象。
7.一种面向学术合作网络的社区检测装置,其特征在于:包括以下设备构成:处理器、缓存、通信接口和储存介质通过总线连接;
所述处理器包括:获取数据模块,用于获取学术合作网络中学者发表论文的数据;邻接矩阵构建模块,用于根据获取的数据构建邻接矩阵;搜索社区中心学者模块,用于检测学术合作网络中的社区中心学者;分配非中心学者模块,用于将非中心学者分配到相应的的社区结构中;和输出检测结果模块,用于将划分好的社区结构进行输出。
8.根据权利要求7所述的一种面向学术合作网络的社区检测装置,其特征在于:所述获取数据模块,具体用于获取学术合作网络中学者发表论文的数据,对数据进行预处理,计算出每两个学者之间的合作次数;
所述邻接矩阵构建模块,具体用于根据学者之间的合作关系构建邻接矩阵和学术合作网络,其中学术合作网络中的每一个网络节点表示一个学者;
所述搜索社区中心学者模块,具体用于抽取出网络中包含的所有模体,在此基础上计算每个模体的属性同质值,用于表示模体中所有节点间的属性相似程度;计算包含在模体中的任意两个学者之间的属性-结构连接强度,用于表示学者之间的属性相似程度和关联性强度;计算学者的密集度;计算两个学者间的相似度和每条边的边适应度,边适应度用来表示学者之间的关联性强度;计算学者的间隔度;选出社区中心集合,由每个社区中心确定一个社区;
所述分配非中心学者模块,具体用于计算非中心学者关于每个社区的隶属度,用来表示非中心学者隶属于该社区的概率大小,在此基础上,通过设定阈值判断非中心学者是否为重叠节点,最后通过隶属度将非中心学者分配到相应的的社区结构中;
所述输出检测结果模块,具体用于将划分好的社区结构进行输出,划分后的每个社区由具有共同研究兴趣的学者构成,对学术合作网络进行社区结构挖掘,获取个人、机构以及地区之间的科研合作与学术交流情况,获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势;学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况,找到合适的合作对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911220175.2A CN110929044A (zh) | 2019-12-03 | 2019-12-03 | 一种面向学术合作网络的社区检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911220175.2A CN110929044A (zh) | 2019-12-03 | 2019-12-03 | 一种面向学术合作网络的社区检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110929044A true CN110929044A (zh) | 2020-03-27 |
Family
ID=69848488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911220175.2A Pending CN110929044A (zh) | 2019-12-03 | 2019-12-03 | 一种面向学术合作网络的社区检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929044A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347753A (zh) * | 2020-11-12 | 2021-02-09 | 山西大学 | 一种应用于阅读机器人的摘要生成方法及系统 |
CN112598549A (zh) * | 2020-12-23 | 2021-04-02 | 广东技术师范大学 | 一种学习者潜在重叠社区检测方法、装置、设备及介质 |
CN112732889A (zh) * | 2020-12-07 | 2021-04-30 | 东南大学 | 一种基于合作网络的学者检索方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959543A (zh) * | 2018-07-02 | 2018-12-07 | 吉林大学 | 一种学术合作作者网络划分方法 |
CN110263260A (zh) * | 2019-05-23 | 2019-09-20 | 山西大学 | 一种面向社交网络的社区检测方法 |
-
2019
- 2019-12-03 CN CN201911220175.2A patent/CN110929044A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959543A (zh) * | 2018-07-02 | 2018-12-07 | 吉林大学 | 一种学术合作作者网络划分方法 |
CN110263260A (zh) * | 2019-05-23 | 2019-09-20 | 山西大学 | 一种面向社交网络的社区检测方法 |
Non-Patent Citations (2)
Title |
---|
杜航原等: "基于网络节点中心性度量的重叠社区发现算法", 《计算机研究与发展》 * |
裴希亚: "面向复杂属性网络的重叠社区发现研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347753A (zh) * | 2020-11-12 | 2021-02-09 | 山西大学 | 一种应用于阅读机器人的摘要生成方法及系统 |
CN112732889A (zh) * | 2020-12-07 | 2021-04-30 | 东南大学 | 一种基于合作网络的学者检索方法和装置 |
CN112598549A (zh) * | 2020-12-23 | 2021-04-02 | 广东技术师范大学 | 一种学习者潜在重叠社区检测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929044A (zh) | 一种面向学术合作网络的社区检测方法和装置 | |
CN110532436B (zh) | 基于社区结构的跨社交网络用户身份识别方法 | |
CN103559262B (zh) | 基于社区的作者及其学术论文推荐系统和推荐方法 | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
Mitra et al. | An automatic approach to identify word sense changes in text media across timescales | |
Dominguez-Sal et al. | A discussion on the design of graph database benchmarks | |
Gui et al. | A community discovery algorithm based on boundary nodes and label propagation | |
CN110737821B (zh) | 相似事件查询的方法、装置、存储介质和终端设备 | |
CN111652329B (zh) | 一种图像分类方法、装置、存储介质和电子设备 | |
Baralis et al. | Analysis of twitter data using a multiple-level clustering strategy | |
Papadopoulos et al. | Image clustering through community detection on hybrid image similarity graphs | |
Hayashi et al. | Understanding the structural characteristics of data platforms using metadata and a network approach | |
CN112115971B (zh) | 一种基于异质学术网络进行学者画像的方法及系统 | |
CN112148994A (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 | |
CN116244497A (zh) | 一种基于异质数据嵌入的跨域论文推荐方法 | |
CN102819611A (zh) | 一种复杂网络局部社区挖掘方法 | |
Wang et al. | Extracting a core structure from heterogeneous information network using h-subnet and meta-path strength | |
Wang et al. | A benchmark and asymmetrical-similarity learning for practical image copy detection | |
Wang et al. | Uncovering fuzzy communities in networks with structural similarity | |
CN110704643B (zh) | 不同类文献相同作者自动辨识方法及装置、存储介质终端 | |
Li et al. | HoSIM: Higher-order Structural Importance based method for multiple local community detection | |
Zeng et al. | Exploring the topic evolution of Dunhuang murals through image classification | |
CN107480130B (zh) | 基于web信息的关系数据的属性值同一性判定方法 | |
CN110209895A (zh) | 向量检索方法、装置和设备 | |
CN105162648A (zh) | 基于骨干网络扩展的社团检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |
|
RJ01 | Rejection of invention patent application after publication |