CN109272228B - 基于科研团队合作网络的科研影响力分析方法 - Google Patents
基于科研团队合作网络的科研影响力分析方法 Download PDFInfo
- Publication number
- CN109272228B CN109272228B CN201811063121.5A CN201811063121A CN109272228B CN 109272228 B CN109272228 B CN 109272228B CN 201811063121 A CN201811063121 A CN 201811063121A CN 109272228 B CN109272228 B CN 109272228B
- Authority
- CN
- China
- Prior art keywords
- node
- scientific research
- network
- influence
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000011160 research Methods 0.000 title claims abstract description 271
- 238000004458 analytical method Methods 0.000 title claims abstract description 28
- 238000009792 diffusion process Methods 0.000 claims abstract description 51
- 230000006399 behavior Effects 0.000 claims abstract description 27
- 230000000694 effects Effects 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 79
- 238000011156 evaluation Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 24
- 208000015181 infectious disease Diseases 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000005259 measurement Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000000691 measurement method Methods 0.000 claims description 9
- 238000013210 evaluation model Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 238000012163 sequencing technique Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000007480 spreading Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/101—Collaborative creation, e.g. joint development of products or services
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于科研团队合作网络的科研影响力分析方法,基于复杂网络理论,以科研团队合作网络为研究对象,将各科研团队抽象成为复杂网络中的节点,科研团队之间的科研活动关系抽象成为复杂网络中的连边,借鉴图论和节点相似性信息,以科研团队合作网络为出发点,以网络中影响力扩散行为为重点研究对象,以网络中节点的异质性、内容信息、网络结构信息为切入点,通过建立有效的、符合现实条件的网络模型,对网络中影响力的扩散行为进行分析,寻求支配网络中节点影响力扩散行为的影响因素。
Description
技术领域
本发明涉及复杂网络、大数据挖掘分析领域,具体涉及一种基于科研团队合作网络的科研影响力分析方法。
背景技术
随着复杂网络理论的不断发展,其研究对象逐步渗透到现实世界的各个领域中,同样也涵盖了隶属社会网络的科研合作网络。随着对事物本质认识的不断提升,科学研究所面临的科学问题变得更具复杂性、系统性。以个人为研究主体的科研方式已经难以完成复杂又高难度的科研项目,又因为学科之间不断产生交叉,跨学科、跨领域的科研合作逐渐成为科研活动的主流方式,而团队合作正是顺应这一潮流的新兴科研合作方式。以科研团队为研究单位,站在复杂网络的理论视角,考虑节点异质性信息、内容信息、网络结构信息,对科研团队合作网络上的影响力扩散行为进行深入分析探讨,对研究以科研团队为主体的科研合作方式,推动科学发展,探索事物本质有至关重要的作用。
发明内容
本发明需要解决的技术问题是提供一种新型的基于科研团队合作网络的科研影响力分析方法,能深刻认识科研团队合作网络内在机制,揭示其影响力扩散机理,度量各科研团队的重要程度。
为了解决上述问题,本发明所采用的技术方案是:
基于科研团队合作网络的科研影响力分析方法,基于复杂网络理论,以科研团队合作网络为研究对象,将各科研团队抽象成为复杂网络中的节点,科研团队之间的科研活动关系抽象成为复杂网络中的连边,借鉴图论和节点相似性信息,分别构建如下内容:
1)构建用于描述科研团队间合作关系的无权和加权的科研团队合作网络,用于对科研团队合作网络中影响力扩散行为进行分析判断;
2)构建描述节点异质性和连边权重与影响力扩散关系的SIR传播模型,用于对科研团队合作网络中影响节点重要程度的内部与外部因素进行探讨分析;
3)根据节点异质性、节点相似性、节点在科研团队合作网络中的位置区别、节点间关系,针对科研团队合作网络的整体利益,建立基于节点异质性的科研团队影响力评价模型,得到网络最具影响力节点;
4)网络最具影响力节点发现后,以节点异质性信息为切入点,融合节点自身的网络拓扑信息,兼顾节点局部与整体特性,构建基于领域异质性的影响力评价方法;
5)提取节点的社区属性特征,结合节点在科研团队合作网络中的位置属性,构建融合节点网络结构和社区属性的科研团队影响力评价方法。
优选的,节点异质性包括主观异质性和领域异质性,主观异质性是指节点对影响力的抵抗性,领域异质性是指节点所属的科研领域信息;节点相似性包括节点的内容信息属性和网络拓扑结构属性,也就是基于内容的节点相似性和基于网络结构的节点相似性;
1)基于内容的节点相似性
利用语义分析技术,抽取各科研团队的关键词,构建科研团队-关键词二分网络,将科研团队-关键词二分网络转换为以关键词为描述对象,用与之相连的科研团队和对应边的权重对该关键词进行描述:ki={(S1,Wi1),(S2,Wi2),…,(Sm,Wm1),进一步能够得到关键词-科研团队矩阵,从而将空间向量模型引入到关键词关联度的计算当中,将每个科研团队当作空间向量的一个维度,每个关键词对某科研团队的重要程度为对应维度上的值,引入TF-IDF的思想对其进行计算:
关键词实体表示为k,科研团队实体表示为S,表示科研团队集合,表示关键词集合,表示关键词ki对科研团队的重要程度,与其值的大小成正比,借用TF-IDF的思想,从两方面进行描述:其一,关键词在科研团队节点中出现的次数,次数越多,说明该词对于该团队越贴切;其二,某关键词在科研团队所有关键词的占比,比例越大则该词对科研团队越重要,融合这两个因素,得到关键词对科研团队的重要程度:
MSiki=WSiki×IDFSiki (1)
式中,WSiki表示关键词ki在科研团队Si中的使用频次;IDFSiki表示关键词ki占Si所使用的关键词总数的比例;借鉴IDF的计算思想,科研团队所包含的关键词种类数越多,则每个关键词对于该团队的贡献程度越弱,反之越强;令|O(Si)|表示Si使用的关键词数量,即Si的度,表示关键词总数量,则:
在计算出关键词对于科研团队节点的重要度后,利用余弦相似度算法,计算关键词ki,kj之间的关联程度,令s(ki,kj)表示两个关键词间的关联度,则:
得到各关键词间的关联程度后,借鉴SimRank思想,计算科研团队之间基于内容的相似度,则:
式中,O(S)表示科研团队节点对应的邻居节点集合,即关键词节点集合;|O(S)|表示科研团队节点所拥有的关键词数量;s(Op(Si),Oq(Sj))表示科研团队Si中的某个关键词与Sj中某个关键词的相似程度,这里取公式(3)所计算的关键词间的关联程度;C为阻尼系数,通常取0.6~0.8,本文取C=0.8。
2)基于网络结构的节点相似性
若网络中的节点拥有较为相似的结构特性,那么其在网络中表现出来的功能就会趋于相似,利用Jaccard相似性度量方法,从节点邻域特性出发,对科研团队相邻节点对(va,vb)间的相似程度进行度量;
Jaccard相似系数用于比较有限样本集之间的相似性,其值越大,样本相似性越高;对于有连接关系的节点对va,vb,设v1的邻居节点集合为Ua={a1,a2,…,am},v2的邻居节点集合为Ub={b1,b2,…,bm},那么v1,v2间的Jaccard系数即为各自邻居节点集合的交集与并集元素数目的比,表示两个节点间拥有的共同邻居越多则两个节点在网络结构功能上越相似,形式化表示为:
上文分别从节点内容属性即根据科研团队研究方向抽象出的关键词,和节点在网络中的结构特性即相邻节点间共同邻居的特性出发对节点间的相似性进行了度量。我们认为,节点间的相似性度量应兼顾节点内容信息与网络结构信息;
对于科研团队合作网络G=(V,E),令sim(va,vb)表示节点va,vb间的相似度,则:
式中,s(va,vb)是按照公式(4)计算的基于内容的节点相似性;Jac(va,vb)是公式(5)从节点结构特性出发计算的节点相似性;ω1,ω2分别为两者的影响因子,且ω1+ω2=1;
影响节点重要程度的内部因素指的是节点的主观异质性和领域异质性,外部因素指的是网络结构、节点在科研团队合作网络中的位置。
优选的,无权和加权的科研团队合作网络的构建方法包括:
利用节点和连边,构建无权的科研团队合作网络,从中提取科研团队内容信息,然后利用关键词相似性度量方法,从节点间的内容相似度、节点网络结构出发,结合SimRank思想进行科研团队内容相似性度量,并引入节点网络拓扑相似性,提出节点相似性度量模型,最终构建基于节点相似性的加权的科研团队合作网络;
接着,从科研团队主观异质性和领域异质性的角度验证节点生态学异质性特性在影响力扩散过程中的影响;
然后从节点度的角度分析节点网络结构异质性对影响力扩散行为的影响。
优选的,描述节点异质性和连边权重与影响力扩散关系的SIR传播模型的方法包括:
在SIR经典传播模型的基础上,引入节点异质性信息,构建改进的SIR影响力传播模型,然后从节点领域异质性、节点主观异质性两方面出发分析节点影响力扩散行为。
优选的,基于节点异质性的科研团队影响力评价模型的构建方法包括:
借助AHP层次分析法,从科研团队出发,综合考虑节点在网络中的位置信息,提出基于层次分析法的节点重要度评价方法;
从科研团队内容信息出发,提取领域信息,构建领域—专业网络,引入度中心性和介数中心性度量方法,从局部和全局出发,对各科研团队的领域影响力进行度量;
从节点的内因、外因出发,综合节点的网络拓扑信息及其自身的内容信息,提出基于节点异质性的科研团队影响力评价模型,该模型的规则定义如下:
1)节点领域异质性属性δ(0<δ<1):表示某领域的节点在网络中的影响能力,领域异质性越大,表明该节点影响力越大;
2)节点主观异质性σ(0<σ<1):表示节点被影响的概率,主观异质性越大,表示该节点受影响的可能越低,其在影响力扩散过程中的作用越不明显;
3)节点状态:网络中节点有三种状态,易感染状态S,感染状态I和免疫状态R,当个体处于I状态时,将以β的感染概率感染其处于S状态的邻居节点,I状态的节点将以γ的概率由I状态转化为R状态;
在SIR模型中,如果一个S状态的节点有一个I状态邻居节点,设节点被感染的概率为β,感染节点转化为R状态的概率为γ;若某时刻S状态的节点有k个感染状态的邻居,那么其被感染的概率:
p=1-(1-β)k (7)
考虑到节点领域属性的异质性,以及节点主观异质性,在公式(3-8)的基础上得到新的S状态节点被感染的概率:
式中,σ表示节点主观异质性;δi表示网络中节点的领域影响力强弱,δi的值越大,表示归属某领域的团队的影响能力越强;k表示被感染节点的邻居数。
优选的,基于领域异质性的影响力评价方法,包括:
综合节点度中心性CD、介数中心性CB、接近中心性CC指标计算节点的影响力,利用层次分析法AHP计算三者的权重,层次分析法分配各指标权重过程如下:
1)第一阶段,采用(0,1,2)三标度法对三种度量指标按照公式(9)进行两两比较,建立比较矩阵;
按照公式(9)得出三标度法比较矩阵,见公式(10):
式中,c1代表度中心性指标;c2代表介数中心性指标;c3代表接近中心性指标;ri为每种指标对应的标度值;
2)第二阶段,使用极差法将比较矩阵C转换为判断矩阵P,并进行一致性验证,最后得到各指标权重的值分别为wCD=0.15,wCB=0.56,wCC=0.29;
3)第三阶段,针对科研团队交互网络G=(V,E)中节点v,将度中心性、介数中心性和接近中心性评价指标线性加权叠加,得出基于层次分析法的节点影响力评价指标CAHP,节点v的CAHP值定义见公式(11):
CAHP(v)=wCD·CD(v)+wCB·CB(v)+wCC·CC(v) (11)
针对科研团队合作网络G=(V,E),VfL表示属于领域fL的科研团队,
假设1:在同一领域内,各个科研团队的影响力强度与团队发表论文的数量成正相关;在实际情况下,科研团队的影响能力涉及到论文发表数量,发表论文的质量,以及所投期刊的影响因子等,但目前仅采用发表论文的数量作为度量指标;
设论文集合为A={a1,a2,......,ah},|A|=H,H为发表论文总数,则科研团队在其研究领域的影响力为:
式中,h表示科研团队VfL发表论文的数量;H表示发表论文的总数量;
在实际科研团队网络中,领域属性相同或相似的两个团队之间更容易形成合作关系,然而领域之间地合作也不能避免,从科研领域出发,结合科研团队新引入的科研人员的专业背景,构建了“领域—专业”网络,表示为GZ=(VZ,EZ),VZ={vZ1,vZ2,......,vZn}代表领域、专业信息,EZ={eZ1,eZ2,......,eZn}表示领域与专业之间的连边,或领域之间的连边,表明二者之间有合作;
假设2:领域涉及到的专业越广,且其在“领域—专业”网络中位置越重要,其相对影响力越大;
设节点所属的领域集合F={f1,f2,......,fL},|F|=L;fL代表具体领域,L为领域的种类数,从领域节点的度中心性和介数中心性出发,并认为这两者对于领域影响力的贡献相同,则:
I(fL)=CD(vZ)+CB(vZ) (13)
式中,CD(v)和CB(v)分别为节点v的度数和介数中心性;
属于具体领域的科研团队在整个科研团队网络中的影响力不仅需要衡量其在本领域的影响力大小,也要考虑其所属领域在网络中的重要程度,科研团队在其领域内影响力越大,并且该领域在网络中也很重要,则认为该团队在网络中的影响能力越大;但团队影响力不是简单地将两种影响因子进行线性叠加,而是两者综合作用的结果,则基于领域异质性信息的科研团队VfL的影响力为:
I(VfL)=eI(fL)×I(VfL) (14)
节点的影响力,不仅与网络拓扑结构相关,也与节点自身的属性信息相关,节点V的影响力为:
I(V)=αCAHP(V)+βI(VfL) (15)
式中,α为网络拓扑结构对影响力评价的影响因子;β是领域异质性对影响力评价的影响因子,且α+β=1。
优选的,融合节点网络结构和社区属性的科研团队影响力评价方法,包括:
在基于节点相似性的科研团队合作网络的基础上,利用经典GN算法,对其社团结构进行分析探讨;
提取节点的社区连接度信息和网络结构属性,分析这两种属性与节点影响力之间的关系;
综合考虑节点社区连接度属性和节点网络属性,提出融合节点网络结构和社区属性的科研团队影响力评价方法;
具体思路为:
节点的传播能力不仅与节点自身的结构属性相关,也与节点的社区连接度相关,基于这种思想,在科研团队交互网络G=(V,E,W)中,节点v0的影响为:
I(v0)=αIin(v0)+βIout(v0) (16)
式中,Iin(v0)为节点的重要程度,形式化为:
式中,d(v0)可取节点的度值、介数值或K-shell值等,取节点度值,max(d(v))为归一化因子,取度值最大的节点;
Iout(v0)代表节点与其他社区的连接能力,定义为与节点v0直接连接的社区的数量,令C表示GN算法划分的社区集合,d(v0,c)为节点v0所连接的社区数量,即节点的社区连接度,则:
本发明技术方案的进一步改进在于:
由于采用了上述技术方案,本发明取得的技术进步是:本发明能够深刻认识科研团队合作网络内在机制,揭示其影响力扩散机理,度量各科研团队的重要程度。本发明以科研团队合作网络为出发点,以网络中影响力扩散行为为重点研究对象,以网络中节点的异质性、内容信息、网络结构信息为切入点,通过建立有效的、符合现实条件的网络模型,对网络中影响力的扩散行为进行分析,寻求支配网络中节点影响力扩散行为的影响因素。
本发明主要解决了两个问题:
⑴从网络中节点异质性着手,从内、外两方面研究节点的影响力扩散行为影响因素,内因指的是科研团队的主观异质性和领域异质性,包括对影响力的抵抗性和节点所属的科研领域信息。外因主要包括网络结构、节点在网络中的位置。根据节点特殊性质研究节点异质性和网络结构对其影响力扩散行为的影响,明确节点异质性和网络结构属性对于节点重要程度评价的影响,建立基于节点异质性的SIR信息传播模型,并进一步提出基于节点异质性的科研团队影响力评价方法。
⑵构建了加权的科研团队合作网络模型,从节点间的内容相似度、节点网络结构出发,基于SimRank思想,对科研团队合作网络中合作关系进行抽象,从而构建加权的科研团队合作网络。并进一步对该网络的社团结构进行挖掘探讨,从网络的社团结构和节点在网络中的位置信息出发,研究这两个因素对于影响力扩散行为的影响。并借鉴内因、外因的思想,将节点的位置信息定义为内因,节点的社区连接度定义为外因,从而提出基于社区属性的科研团队影响力评价模型,从而完成对合作网络中各科研团队重要程度的量化。
本发明中将科研团队影响力的量化过程转化为求解复杂网络中节点重要程度的过程。将科研团队的领域信息、主观异质性信息、节点的网络结构信息、网络的社区结构考虑到影响力扩散行为当中,丰富了复杂网络中节点影响力评价体系。
提取科研团队的内容信息和网络结构信息,从节点相似性角度对科研团队合作网络中的关联关系进行深入探讨,并进一步对仅体现合作关系的科研团队合作网络进行赋权处理,极大地贴近现实中各科研团队之间的真实关系,对于指导研究该合作网络中影响力扩散行为有着积极意义。
附图说明
下面结合附图和实例对本发明作进一步说明:
图1是有无节点主观异质性时节点影响力扩散范围对比图,其中,领域异质性因子δ取值分别为0.1,0.2,0.3;
图2是分析领域异质性因素和节点网络结构因素对于判断节点重要程度时的内在联系;
图3是分别计算度中心性(DC)、介数中心性指标(BC)、紧密度(CC)以及基于层次分析法的度量指标(AHP)与参照标准(即以SIR模型的传播仿真结果为标准)之间的相关性,相关性越高则度量结果越准确;
图4是对各节点重要性评价指标得到的top10节点排序结果中差异较大节点的分析结果;
图5是不同节点影响力度量指标与标准参照排序结果的相关性计算,以及各度量指标之间的性能对比图;
图6是科研团队合作网络连边在是否加权的情况下,网络中节点影响力扩散过程与影响力传播阈值的关系图;
图7是节点社区连接度属性和节点度与影响力扩散关系图;
图8是各影响力度量指标与SIR影响力传播参照标准相关性对比图;
图9是不同节点影响力度量指标top10节点影响力扩散过程对比图。
具体实施方式
一、基本要素定义
⑴科研团队主观异质性
由于合作网络中各科研团队受影响的能力是复杂多样的,对于网络中的科研团队节点的受影响情况有两种:选择被某节点影响,或者是不受其他节点影响。然而,每个节点所表现出的受影响能力具有一定差异性,这主要是由于节点之间本质上的差异所决定,这种导致网络节点影响力行为差异的本质属性,称为节点主观异质性。
⑵科研团队领域异质性
由于各科研团队有自身所属的领域特性,在实际科研团队网络中,领域属性相同或相似的两个团队之间更容易形成合作关系,而且领域之间地合作也不能避免。属于具体领域的科研团队在整个科研团队网络中的影响力不仅需要衡量其在本领域的影响力大小,也要考虑其所属领域在网络中的重要程度,科研团队在其领域内影响力越大,并且该领域在网络中也很重要,则认为该团队在网络中的影响能力越大。
⑶节点相似性
事物之间的相似性对于影响力的扩散行为有着重要作用,在科研活动中,影响力在同一领域或相似领域中的扩散相对更活跃。在科研团队合作网络中的科研团队之间的相似性包含两方面内容:一是科研团队之间的内容相似性,体现了科研团队之间研究领域、研究方向的相似性,二是科研团队在合作网络中的网络结构相似性。节点之间的相似性越高,则两个节点间的联系越紧密,反映在合作网络中对着节点之间的连边权重越高,从而影响力在节点间的扩散越容易。
3)基于内容的节点相似性
本发明利用语义分析的相关技术,抽取各科研团队的关键词,构建科研团队—关键词二分网络。将科研团队-关键词网络转换为以关键词为描述对象,用与之相连的科研团队和对应边的权重对该关键词进行描述:ki={(S1,Wi1),(S2,Wi2),…,(Sm,Wm1)}。进一步能够得到关键词—科研团队矩阵,从而将空间向量模型引入到关键词关联度的计算当中。将每个科研团队当作空间向量的一个维度,每个关键词对某科研团队的重要程度为对应维度上的值,引入TF-IDF思想对其进行计算。
关键词实体表示为k,科研团队实体表示为S,表示科研团队集合,表示关键词集合,MSiki表示关键词ki对科研团队的重要程度,与其值的大小成正比。借用TF-IDF的思想,从两方面进行描述:其一,关键词在科研团队节点中出现的次数,次数越多,说明该词对于该团队越贴切;其二,某关键词在科研团队所有关键词的占比,比例越大则该词对科研团队越重要。融合这两个因素,得到关键词对科研团队的重要程度
MSiki=WSiki×IDFSiki (1)
式中,WSiki表示关键词ki在科研团队Si中的使用频次;IDFSiki表示关键词ki占Si所使用的关键词总数的比例。借鉴IDF的计算思想,科研团队所包含的关键词种类数越多,则每个关键词对于该团队的贡献程度越弱,反之越强。令|O(Si)|表示Si使用的关键词数量,即Si的度,表示关键词总数量,则
在计算出关键词对于科研团队节点的重要度后,利用余弦相似度算法,计算关键词ki,kj之间的关联程度,令s(ki,kj)表示两个关键词间的关联度,则
得到各关键词间的关联程度后,借鉴SimRank思想,计算科研团队之间基于内容的相似度,则
式中,O(S)表示科研团队节点对应的邻居节点集合,即关键词节点集合;|O(S)|表示科研团队节点所拥有的关键词数量;s(Op(Si),Oq(Sj))表示科研团队Si中的某个关键词与Sj中某个关键词的相似程度,这里取公式(3)所计算的关键词间的关联程度。C为阻尼系数,通常取0.6~0.8,本文取C=0.8。
4)基于网络结构的节点相似性
若网络中的节点拥有较为相似的结构特性,那么其在网络中表现出来的功能就会趋于相似。利用Jaccard相似性度量方法,从节点邻域特性出发,对科研团队相邻节点对(va,vb)间的相似程度进行度量。
Jaccard相似系数用于比较有限样本集之间的相似性,其值越大,样本相似性越高。对于有连接关系的节点对va,vb,设v1的邻居节点集合为Ua={a1,a2,…,am},v2的邻居节点集合为Ub={b1,b2,…,bm}。那么v1,v2间的Jaccard系数即为各自邻居节点集合的交集与并集元素数目的比,表示两个节点间拥有的共同邻居越多则两个节点在网络结构功能上越相似,形式化表示为:
上文分别从节点内容属性即根据科研团队研究方向抽象出的关键词,和节点在网络中的结构特性即相邻节点间共同邻居的特性出发对节点间的相似性进行了度量。我们认为,节点间的相似性度量应兼顾节点内容信息与网络结构信息。
对于科研团队合作网络G=(V,E),令sim(va,vb)表示节点va,vb间的相似度,则
式中,s(va,vb)是按照公式(4)计算的基于内容的节点相似性;Jac(va,vb)是公式(5)从节点结构特性出发计算的节点相似性;ω1,ω2分别为两者的影响因子,且ω1+ω2=1。
⑷节点社区连接度
现实世界中的网络普遍存在社区结构,网络中的节点依照某种机制形成了一定的社区特征,社区里面的节点之间有较为紧密的连接,社区之间有较为稀松的连接关系。而且社区内部节点间的相似程度较社区间节点的相似度要高。此外在网络当中节点不仅归属在某一社团当中,也会与其他社团产生连接,这就产生了社团连接度这一概念,在社团规模相当的情况下,节点所连接的社团越多,那么该节点在影响力扩散时的重要性越强,从而反映出该节点在网络中的重要程度。
二、模型的建立
⑴基于节点异质性的影响力传播模型
为了研究节点异质性对影响力扩散行为的影响,本章建立了基于节点异质性的信息流模型。模型规则定义如下:
1)节点领域异质性属性δ(0<δ<1):表示某领域的节点在网络中的影响能力。领域异质性越大,表明该节点影响力越大。
2)节点主观异质性σ(0<σ<1):表示节点被影响的概率,主观异质性越大,表示该节点受影响的可能越低,其在影响力扩散过程中的作用越不明显。
3)节点状态:网络中节点有三种状态,易感染状态S,感染状态I和免疫状态R。当个体处于I状态时,将以β的感染概率感染其处于S状态的邻居节点,I状态的节点将以γ的概率由I状态转化为R状态。
在SIR模型中,如果一个S状态的节点有一个I状态邻居节点,设节点被感染的概率为β,感染节点转化为R状态的概率为γ。若某时刻S状态的节点有k个感染状态的邻居,那么其被感染的概率
p=1-(1-β)k (7)
考虑到节点领域属性的异质性,以及节点主观异质性,在公式(3-8)的基础上得到新的S状态节点被感染的概率
式中,σ表示节点主观异质性;δi表示网络中节点的领域影响力强弱,δi的值越大,表示归属某领域的团队的影响能力越强;k表示被感染节点的邻居数。
⑵基于领域异质性的科研团队影响力评价方法
网络最具影响力节点的发现,对于指导研究信息传播机理具备理论和现实意义。本节以节点异质性信息为切入点,融合节点自身的网络拓扑信息,提出了基于领域异质性的影响力评价方法。
节点的网络拓扑特性对于影响力评价有着重要的作用,兼顾节点局部与整体特性是本节的研究内容,综合节点度中心性(CD)、介数中心性(CB)、接近中心性(CC)指标计算节点的影响力,利用层次分析法(AHP)计算三者的权重,从而更为科学的构造出一个综合评价方法。层次分析法分配个指标权重过程如下。
1)第一阶段,采用(0,1,2)三标度法对三种度量指标按照公式(9)进行两两比较,建立比较矩阵。
按照公式(9)得出三标度法比较矩阵,见公式(10)。
式中,c1代表度中心性指标;c2代表介数中心性指标;c3代表接近中心性指标;ri为每种指标对应的标度值。
2)第二阶段,使用极差法将比较矩阵C转换为判断矩阵P,并进行一致性验证,最后得到各指标权重的值分别为wCD=0.15,wCB=0.56,wCC=0.29。
3)第三阶段,针对科研团队交互网络G=(V,E)中节点v,将度中心性、介数中心性和接近中心性评价指标线性加权叠加,得出基于层次分析法的节点影响力评价指标CAHP,节点v的CAHP值定义见公式(11)。
CAHP(v)=wCD·CD(v)+wCB·CB(v)+wCC·CC(v)(11)
CAHP指标从网络拓扑出发,综合节点局部属性与全局属性,并引入层次分析法界定三种指标的权重,能够将对三种指标重要性判断的主观性依据用数量的形式进行表达,使之进行线性融合时更加科学,从而在进行节点影响力度量时更为有效。
科研团队交互网络中,节点的影响力不仅取决于自身的网络属性,也受周围邻居节点的影响,同时其自身的内容信息也是不可忽略的。本文认为节点属性在评价节点影响力时也起到了不可忽视的作用,鉴于科研团队自身属性复杂,文章仅提取其所属领域信息进行研究。
针对科研团队合作网络G=(V,E),VfL表示属于领域fL的科研团队。
假设1:在同一领域内,各个科研团队的影响力强度与团队发表论文的数量成正相关。在实际情况下,科研团队的影响能力涉及到论文发表数量,发表论文的质量,以及所投期刊的影响因子等,但本文目前仅采用发表论文的数量作为度量指标。
设论文集合为A={a1,a2,......,ah},|A|=H,H为发表论文总数。则科研团队在其研究领域的影响力为
式中,h表示科研团队VfL发表论文的数量;H表示发表论文的总数量。
在实际科研团队网络中,领域属性相同或相似的两个团队之间更容易形成合作关系,然而领域之间地合作也不能避免。从科研领域出发,结合科研团队新引入的科研人员的专业背景,构建了“领域—专业”网络,表示为GZ=(VZ,EZ),VZ={vZ1,vZ2,......,vZn}代表领域、专业信息,EZ={eZ1,eZ2,......,eZn}表示领域与专业之间的连边,或领域之间的连边,表明二者之间有合作。
假设2:领域涉及到的专业越广,且其在“领域—专业”网络中位置越重要,其相对影响力越大。
设节点所属的领域集合F={f1,f2,......,fL},|F|=L;fL代表具体领域,L为领域的种类数。文章从领域节点的度中心性和介数中心性出发,并认为这两者对于领域影响力的贡献相同,则
I(fL)=CD(vZ)+CB(vZ) (13)
式中,CD(v)和CB(v)分别为节点v的度数和介数中心性。
属于具体领域的科研团队在整个科研团队网络中的影响力不仅需要衡量其在本领域的影响力大小,也要考虑其所属领域在网络中的重要程度,科研团队在其领域内影响力越大,并且该领域在网络中也很重要,则认为该团队在网络中的影响能力越大。但团队影响力不是简单地将两种影响因子进行线性叠加,而是两者综合作用的结果,则基于领域异质性信息的科研团队VfL的影响力为
I(VfL)=eI(fL)×I(VfL) (14)
本文认为节点的影响力,不仅与网络拓扑结构相关,也与节点自身的属性信息相关,节点V的影响力为
I(V)=αCAHP(V)+βI(VfL) (15)
式中,α为网络拓扑结构对影响力评价的影响因子;β是领域异质性对影响力评价的影响因子,且α+β=1。
⑶基于社区结构的节点影响力评价方法
现实世界中的网络普遍存在社区结构,网络中的节点依照某种机制形成了一定的社区特征,社区里面的节点之间有较为紧密的连接,社区之间有较为稀松的连接关系。而且社区内部节点间的相似程度较社区间节点的相似度要高。本文引入网络的社区特性,融合节点在社区内部的扩散性质,提出了一种基于社区结构的节点影响力评价方法。
我们认为,节点的传播能力不仅与节点自身的结构属性相关,也与节点的社区连接度相关。基于这种思想,在科研团队交互网络G=(V,E,W)中,节点v0的影响为
I(v0)=αIin(v0)+βIout(v0) (16)
式中,Iin(v0)为节点的重要程度,形式化为
式中,d(v0)可取节点的度值、介数值或K-shell值等,本文取节点度值,max(d(v))为归一化因子,取度值最大的节点。
Iout(v0)代表节点与其他社区的连接能力,定义为与节点v0直接连接的社区的数量,令C表示GN算法划分的社区集合,d(v0,c)为节点v0所连接的社区数量,即节点的社区连接度,则
三、实验验证与分析
⑴节点影响力扩散行为及科研团队影响力评价模型的验证与分析
1.图1显示:领域异质性恒定,有无主观异质性时信息的传播范围以及传播范围与节点感染率之间的关系;同时展示了主观异质性恒定时,不同领域影响因子下影响力传播范围以及传播范围与感染率之间的关系。
2.图2显示:采用不同的权重配比得到的节点重要性评价结果与采用SIR仿真所得结果的关系。
3.图3显示:综合考虑节点在网络中的局部以及全局属性的AHP评价方法能够更全面地衡量节点重要程度。
4.图4显示:不同的节点重要度评价方法得到的排序结果存在普遍的差异性,以及差异性节点的影响力传播过程对比。
5.图5显示:以SIR模型得出的结果为衡量标准,本文所提方法与度中心性(DC)、介数中心性(BC)、紧密中心性(CC)、基于AHP的度量方法(AHP)、PageRank方法排序得到的Top40节点进行排序结果相似性计算的对比图,与参照标准的相关性越高,则说明度量指标的性能越优。
6.表1显示:各节点影响力度量指标得到的top10节点排序结果。
实验分析:
1.随β的增大,无论主观异质性是否存在,节点影响范围都呈现出上升趋势。这是由于随着影响概率β的增加,导致节点被影响的概率增大,从而影响力覆盖范围增加。此外,当节点存在领域异质性δ时,相较于忽略δ时的情况,其影响力覆盖范围会减小。这是由于领域异质性的存在,使得各节点影响能力产生了异质性变化,从而削弱了影响力的扩散进程。通过比较不同δ取值的情况发现,随着δ的增加,影响力覆盖范围呈下降趋势,说明不同的δ会显著影响网络中影响力的扩散行为,证明了影响力评价时要考虑节点领域异质性的必要。
2.采用不同的权重配比得到的最终结果有着显著的不同。当α取0.9时本文方法得到的度量结果最接近SIR仿真得到的结果,可以得出,虽然节点领域异质性对影响力传播过程有一定的影响,但主要传播过程主要依赖于网络的拓扑结构。
3.基于层次分析法(AHP)的综合指标较之于单独的度中心性、介数中心性、紧密中心性指标有显著提升。此外,实验对比了基于AHP的综合指标与人工标注权值的度、介数、紧密度中心性融合指标,发现前者得到的排序结果与SIR仿真结果相关性更高,说明了层次分析法在确定权值中的积极作用。
4. 4(a)是节点246、215、890的影响力扩散过程,可以看出虽然246与890的影响力扩散非常相近,但最终前者的覆盖范围要高于后者。通过计算,节点890的领域影响因子高于246,但其网络拓扑重要程度低于后者。由前文分析,影响力评价时网络拓扑所占的比重更高,所以最终本文方法判定246节点的重要程度更高,这也符合SIR的仿真结果。
对于246与215的比较,BC度量方法得到的215的介数更高,与SIR仿真结果相违背,而经过AHP方法得到排序结果也显示246节点更重要,这说明相较于单纯依靠某一指标得到的度量结果,AHP方法的性能更优。表1显示,AHP、BC、DC、PageRank方法,认为节点552的重要程度低于255,而本文方法与CC方法却不然。SIR仿真得到的552与255节点的影响力扩散过程见图4(b),明显得出前者的影响力要高于后者。经计算,这两个节点的度数相同,255节点的介数略高但紧密中心性略低,经AHP方法计算得到的结果是节点255的重要程度更高,但区分不明显。但节点552的领域影响因子要高于后者,从而经过本文方法计算后,552节点更重要,符合SIR的仿真结果。
表1节点重要性评估排序结果表
图4(c)是针对CC度量方法中890节点与225节点的分析,明显可以看出,在任意时刻,前者的覆盖范围要高于后者,且看曲线的变化趋势,前者的扩散速度也要快于后者,说明紧密度方法在评价本文实验数据集时存在一定缺陷,而其他度量方法则能很好的拟合SIR的仿真结果。图3-7(d)针对DC度量方法进行了简单分析,节点928的度中心性要低于540,所以DC认为前者的重要程度低于后者,这与SIR仿真结果相违背,说明度中心性在衡量节点重要程度时的不足。以上分析证明了单一度量指标在衡量节点重要性时的不足,也说明了仅依靠网络拓扑来衡量节点重要性的缺陷,也再次验证了本文所提方法的有效性。
5.本文方法得出的排序结果与SIR仿真结果的tau值更高,而DC方法结果最差,DC方法选择top10节点优于PageRank,见表1,但从整体上PageRank方法要优于DC方法。此外,相较于BC、CC、DC,基于层次分析法的AHP方法表现更好,而在AHP基础上引入领域异质性的本文方法则显示出了明显的优势,再次说明评价团队影响力时不能只考虑节点的网络拓扑,节点本身的异质性也是不可忽略的评价指标。
从总体上可以看出,本发明发现节点的主观异质性能够抑制合作网络中的影响力扩散行为,且作用明显。同时,节点的领域因子对网络中影响力传播也有很大的影响。另外,本发明提出的基于节点异质性的科研团队影响力评价方法能够很好的融合节点的领域异质性因素和节点的网络拓扑特性,从而更为精确的对各科研团队影响能力进行度量。
⑵影响力扩散行为影响因素及基于社团属性的影响力评价方法实验仿真
1.图6表示:网络连边在加权与否的前提下,网络中节点影响力扩散过程与影响力传播阈值的关系。
2.图7表示:节点社区连接度属性和节点度值与影响力扩散过程的关系。
3.图8表示:各影响力度量指标与SIR影响力传播相关性分析。
4.图9表示:不同节点影响力度量指标所得top10节点影响力扩散过程随时间t的变化关系。
实验分析:
1.现实网络中的连边是承载信息的,从节点相似性角度出发,对影响力扩散进行分析,发现节点相似性程度对于影响力扩散呈现出相关性。从图6可以看出,在相同的影响力传播阈值下β,加权网络的影响力扩散速度和覆盖范围都要小于无权网络,而且随着β增加,影响力在这两种网络中的传播速度和传播范围都会减小,且加权网络的衰减速度要明显高于无权网络。
2.选取加权网络社区划分后规模最大的社团,网络中最大社团包含100个节点,选取其中度最高的top-8节点进行影响力扩散分析,结果如图7所示,D表示节点加权度,Vc是经过归一化处理的值,表示与节点连接社团的数量。从图中可以得出,节点486度值比节点558与555的小,但其Vc值较高,明显可以看出节点486的影响能力要明显高于558与555,且在t1到t3时刻,该节点的曲线斜率要更高,表明节点在该时段的传播速率更大,说明节点的影响力强弱不一定正比于节点的度值,也与节点所连接的社区数量相关。很明显,当节点连接的社区越多时,该节点的影响力能够很快的覆盖网络中的其他社区,从而使得该节点的影响力覆盖范围更广、影响力传播速度更快。
3.从图8中可以看出,本发明所提方法较之其他方法有明显的提升,说明了EINC的有效性。WDC与DC度量方式都是从节点度的角度出发进行节点影响力评价的,但前者考虑了节点的边权,这说明在对网络中的节点进行影响力评价时,仅考虑节点连边的数量是不全面的,连边上的边权所承载的信息对于节点影响力的评价是必不可少的。本发明在构建网络时,从节点间相似性角度出发对边进行加权,节点越相似,那么节点间的影响力越强。
BC指标的肯德尔系数值较之DC更低,是因为,本实验计算BC值时忽略了连边的权值,普遍认为节点的中介中心性在度量节点重要性时要优于仅考虑节点度值的DC指标。
因为BC指标能够从网络全局出发,找到网络中的“桥”节点。但通过BC指标找到的关键节点,其连边上的边权可能会较小,在影响力扩散中,其传播概率会小于传播阈值,使得节点不能有效的传递信息。这从另一个角度解释了边权在进行节点影响力评价时的重要性,也说明了在真实网络中,即使节点所处的位置很重要,但与其他节点的相似性较弱,导致其他节点不会采纳该节点的信息。
4.从影响力扩散范围和扩散速率的角度分析了本发明所提节点影响力度量方法EINC相较于其他度量方法的有效性。
本发明提出方法,从网络中节点异质性、节点在网络中的位置以及网络结构类型三方面对科研团队合作网络中的影响力扩散行为进行分析,具体探究了节点主观异质性、节点领域异质性、节点间相似程度、网络社区结构、节点在网络中的位置对网络中影响力扩散的作用机制。并在此基础上提出了融合节点网络特性和领域异质性的基于领域异质性的科研团队影响力评价方法,以及考虑节点社团连接度的基于社区属性的科研团队影响力评价方法,从而更贴近现实地对科研团队影响能力进行度量。
Claims (6)
1.基于科研团队合作网络的科研影响力分析方法,其特征是:基于复杂网络理论,以科研团队合作网络为研究对象,将各科研团队抽象成为复杂网络中的节点,科研团队之间的科研活动关系抽象成为复杂网络中的连边,借鉴图论和节点相似性信息,分别构建如下内容:
1)构建用于描述科研团队间合作关系的无权和加权的科研团队合作网络,用于对科研团队合作网络中影响力扩散行为进行分析判断;
2)构建描述节点异质性和连边权重与影响力扩散关系的SIR传播模型,用于对科研团队合作网络中影响节点重要程度的内部与外部因素进行探讨分析;
3)根据节点异质性、节点相似性、节点在科研团队合作网络中的位置区别、节点间关系,针对科研团队合作网络的整体利益,建立基于节点异质性的科研团队影响力评价模型,得到网络最具影响力节点;
4)网络最具影响力节点发现后,以节点异质性信息为切入点,融合节点自身的网络拓扑信息,兼顾节点局部与整体特性,构建基于领域异质性的影响力评价方法;
5)提取节点的社区属性特征,结合节点在科研团队合作网络中的位置属性,构建融合节点网络结构和社区属性的科研团队影响力评价方法;
节点异质性包括主观异质性和领域异质性,主观异质性是指节点对影响力的抵抗性,领域异质性是指节点所属的科研领域信息;节点相似性包括节点的内容信息属性和网络拓扑结构属性,也就是基于内容的节点相似性和基于网络结构的节点相似性;
1)基于内容的节点相似性
利用语义分析技术,抽取各科研团队的关键词,构建科研团队-关键词二分网络,将科研团队-关键词二分网络转换为以关键词为描述对象,用与之相连的科研团队和对应边的权重对该关键词进行描述:ki={(S1,Wi1),(S2,Wi2),…,(Sm,Wm1)},科研团队实体表示为S,W表示关键词k在科研团队S中的使用频次,进一步能够得到关键词-科研团队矩阵,从而将空间向量模型引入到关键词关联度的计算当中,将每个科研团队当作空间向量的一个维度,每个关键词对某科研团队的重要程度为对应维度上的值,引入TF-IDF的思想对其进行计算:
关键词实体表示为k,科研团队实体表示为S,表示科研团队集合,表示关键词集合,表示关键词ki对科研团队的重要程度,与其值的大小成正比,借用TF-IDF的思想,从两方面进行描述:其一,关键词在科研团队节点中出现的次数,次数越多,说明该词对于该团队越贴切;其二,某关键词在科研团队所有关键词的占比,比例越大则该词对科研团队越重要,融合这两个因素,得到关键词对科研团队的重要程度:
MSiki=WSiki×IDFSiki (1)
式中,WSiki表示关键词ki在科研团队Si中的使用频次;IDFSiki表示关键词ki占Si所使用的关键词总数的比例;借鉴IDF的计算思想,科研团队所包含的关键词种类数越多,则每个关键词对于该团队的贡献程度越弱,反之越强;令|O(Si)|表示Si使用的关键词数量,即Si的度,表示关键词总数量,则:
在计算出关键词对于科研团队节点的重要度后,利用余弦相似度算法,计算关键词ki,kj之间的关联程度,令s(ki,kj)表示两个关键词间的关联度,则:
得到各关键词间的关联程度后,借鉴SimRank思想,计算科研团队之间基于内容的相似度,则:
式中,O(S)表示科研团队节点对应的邻居节点集合,即关键词节点集合;|O(S)|表示科研团队节点所拥有的关键词数量;s(Op(Si),Oq(Sj))表示科研团队Si中的某个关键词与Sj中某个关键词的相似程度,这里取公式(3)所计算的关键词间的关联程度;C为阻尼系数,通常取0.6~0.8,本文取C=0.8;
2)基于网络结构的节点相似性
若网络中的节点拥有较为相似的结构特性,那么其在网络中表现出来的功能就会趋于相似,利用Jaccard相似性度量方法,从节点邻域特性出发,对科研团队相邻节点对(va,vb)间的相似程度进行度量;
Jaccard相似系数用于比较有限样本集之间的相似性,其值越大,样本相似性越高;对于有连接关系的节点对va,vb,设v1的邻居节点集合为Ua={a1,a2,…,am},v2的邻居节点集合为Ub={b1,b2,…,bm},那么v1,v2间的Jaccard系数即为各自邻居节点集合的交集与并集元素数目的比,表示两个节点间拥有的共同邻居越多则两个节点在网络结构功能上越相似,形式化表示为:
对于科研团队合作网络G=(V,E),令sim(va,vb)表示节点va,vb间的相似度,则:
式中,s(va,vb)是按照公式(4)计算的基于内容的节点相似性;Jac(va,vb)是公式(5)从节点结构特性出发计算的节点相似性;ω1,ω2分别为两者的影响因子,且ω1+ω2=1;
影响节点重要程度的内部因素指的是节点的主观异质性和领域异质性,外部因素指的是网络结构、节点在科研团队合作网络中的位置。
2.根据权利要求1所述的基于科研团队合作网络的科研影响力分析方法,其特征在于,无权和加权的科研团队合作网络的构建方法包括:
利用节点和连边,构建无权的科研团队合作网络,从中提取科研团队内容信息,然后利用关键词相似性度量方法,从节点间的内容相似度、节点网络结构出发,结合SimRank思想进行科研团队内容相似性度量,并引入节点网络拓扑相似性,提出节点相似性度量模型,最终构建基于节点相似性的加权的科研团队合作网络;
接着,从科研团队主观异质性和领域异质性的角度验证节点生态学异质性特性在影响力扩散过程中的影响;
然后从节点度的角度分析节点网络结构异质性对影响力扩散行为的影响。
3.根据权利要求1所述的基于科研团队合作网络的科研影响力分析方法,其特征在于,描述节点异质性和连边权重与影响力扩散关系的SIR传播模型的方法包括:
在SIR经典传播模型的基础上,引入节点异质性信息,构建改进的SIR影响力传播模型,然后从节点领域异质性、节点主观异质性两方面出发分析节点影响力扩散行为。
4.根据权利要求1所述的基于科研团队合作网络的科研影响力分析方法,其特征在于,基于节点异质性的科研团队影响力评价模型的构建方法包括:
借助AHP层次分析法,从科研团队出发,综合考虑节点在网络中的位置信息,提出基于层次分析法的节点重要度评价方法;
从科研团队内容信息出发,提取领域信息,构建领域—专业网络,引入度中心性和介数中心性度量方法,从局部和全局出发,对各科研团队的领域影响力进行度量;
从节点的内因、外因出发,综合节点的网络拓扑信息及其自身的内容信息,提出基于节点异质性的科研团队影响力评价模型,该模型的规则定义如下:
1)节点领域异质性属性δ,0<δ<1:表示某领域的节点在网络中的影响能力,领域异质性越大,表明该节点影响力越大;
2)节点主观异质性σ,0<σ<1:表示节点被影响的概率,主观异质性越大,表示该节点受影响的可能越低,其在影响力扩散过程中的作用越不明显;
3)节点状态:网络中节点有三种状态,易感染状态S,感染状态I和免疫状态R,当个体处于I状态时,将以β的感染概率感染其处于S状态的邻居节点,I状态的节点将以γ的概率由I状态转化为R状态;
在SIR模型中,如果一个S状态的节点有一个I状态邻居节点,设节点被感染的概率为β,感染节点转化为R状态的概率为γ;若某时刻S状态的节点有k个感染状态的邻居,那么其被感染的概率:
p=1-(1-β)k (7)
考虑到节点领域属性的异质性,以及节点主观异质性,在公式(3-8)的基础上得到新的S状态节点被感染的概率:
式中,σ表示节点主观异质性;δi表示网络中节点的领域影响力强弱,δi的值越大,表示归属某领域的团队的影响能力越强;k表示被感染节点的邻居数。
5.根据权利要求1所述的基于科研团队合作网络的科研影响力分析方法,其特征在于,基于领域异质性的影响力评价方法,包括:
综合节点度中心性CD、介数中心性CB、接近中心性CC指标计算节点的影响力,利用层次分析法AHP计算三者的权重,层次分析法分配各指标权重过程如下:
1)第一阶段,采用(0,1,2)三标度法对三种度量指标按照公式(9)进行两两比较,建立比较矩阵;
按照公式(9)得出三标度法比较矩阵,见公式(10):
式中,c1代表度中心性指标;c2代表介数中心性指标;c3代表接近中心性指标;ri为每种指标对应的标度值;
2)第二阶段,使用极差法将比较矩阵C转换为判断矩阵P,并进行一致性验证,最后得到各指标权重的值分别为wCD=0.15,wCB=0.56,wCC=0.29;
3)第三阶段,针对科研团队交互网络G=(V,E)中节点v,将度中心性、介数中心性和接近中心性评价指标线性加权叠加,得出基于层次分析法的节点影响力评价指标CAHP,节点v的CAHP值定义见公式(11):
CAHP(v)=wCD·CD(v)+wCB·CB(v)+wCC·CC(v) (11)
针对科研团队合作网络G=(V,E),VfL表示属于领域fL的科研团队,
设论文集合为A={a1,a2,......,ah},|A|=H,H为发表论文总数,则科研团队在其研究领域的影响力为:
式中,h表示科研团队VfL发表论文的数量;H表示发表论文的总数量;
设节点所属的领域集合F={f1,f2,......,fL},|F|=L;fL代表具体领域,L为领域的种类数,从领域节点的度中心性和介数中心性出发,并认为这两者对于领域影响力的贡献相同,则:
I(fL)=CD(vZ)+CB(vZ) (13)
式中,CD(v)和CB(v)分别为节点v的度数和介数中心性;
基于领域异质性信息的科研团队VfL的影响力为:
I(VfL)=eI(fL)×I(VfL) (14)
节点的影响力,不仅与网络拓扑结构相关,也与节点自身的属性信息相关,节点V的影响力为:
I(V)=αCAHP(V)+βI(VfL) (15)
式中,α为网络拓扑结构对影响力评价的影响因子;β是领域异质性对影响力评价的影响因子,且α+β=1。
6.根据权利要求1所述的基于科研团队合作网络的科研影响力分析方法,其特征在于,融合节点网络结构和社区属性的科研团队影响力评价方法,包括:
在基于节点相似性的科研团队合作网络的基础上,利用经典GN算法,对其社团结构进行分析探讨;
提取节点的社区连接度信息和网络结构属性,分析这两种属性与节点影响力之间的关系;
综合考虑节点社区连接度属性和节点网络属性,提出融合节点网络结构和社区属性的科研团队影响力评价方法;
具体思路为:
节点的传播能力不仅与节点自身的结构属性相关,也与节点的社区连接度相关,基于这种思想,在科研团队交互网络G=(V,E,W)中,节点v0的影响为:
I(v0)=αIin(v0)+βIout(v0) (16)
式中,Iin(v0)为节点的重要程度,形式化为:
式中,d(v0)取节点的度值、介数值或K-shell值,取节点度值,max(d(v))为归一化因子,取度值最大的节点;
Iout(v0)代表节点与其他社区的连接能力,定义为与节点v0直接连接的社区的数量,令C表示GN算法划分的社区集合,d(v0,c)为节点v0所连接的社区数量,即节点的社区连接度,则:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811063121.5A CN109272228B (zh) | 2018-09-12 | 2018-09-12 | 基于科研团队合作网络的科研影响力分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811063121.5A CN109272228B (zh) | 2018-09-12 | 2018-09-12 | 基于科研团队合作网络的科研影响力分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109272228A CN109272228A (zh) | 2019-01-25 |
CN109272228B true CN109272228B (zh) | 2022-03-15 |
Family
ID=65188002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811063121.5A Expired - Fee Related CN109272228B (zh) | 2018-09-12 | 2018-09-12 | 基于科研团队合作网络的科研影响力分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109272228B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111110A (zh) * | 2019-04-01 | 2019-08-09 | 北京三快在线科技有限公司 | 基于知识图谱检测欺诈的方法和装置、存储介质 |
CN110097472B (zh) * | 2019-05-08 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 一种社团属性识别方法及相关设备 |
CN110119909A (zh) * | 2019-05-27 | 2019-08-13 | 北京银企融合技术开发有限公司 | 一种团队评估方法及系统 |
CN110826164B (zh) * | 2019-11-06 | 2023-07-04 | 中国人民解放军国防科技大学 | 一种基于局部和全局连通性的复杂网络节点重要度评估方法 |
CN111126758B (zh) * | 2019-11-15 | 2023-09-29 | 中南大学 | 一种学术团队影响力传播预测方法、设备和存储介质 |
CN111191882B (zh) * | 2019-12-17 | 2022-11-25 | 安徽大学 | 一种识别异质信息网络中有影响力的开发者的方法及装置 |
CN111581463A (zh) * | 2020-03-31 | 2020-08-25 | 广州地理研究所 | 论文合作网络的构建方法、装置及设备 |
CN111598331B (zh) * | 2020-05-13 | 2023-07-07 | 中国科学院计算机网络信息中心 | 一种基于科研多维特征的项目可行性预测分析方法 |
CN114268552B (zh) * | 2021-12-16 | 2023-10-13 | 云南电网有限责任公司电力科学研究院 | 一种复杂网络节点预测方法 |
CN114666229B (zh) * | 2022-03-21 | 2023-10-03 | 天津商业大学 | 基于有限传播域的复杂网络节点影响力度量方法及系统 |
CN116578884B (zh) * | 2023-07-07 | 2023-10-31 | 北京邮电大学 | 基于异质信息网络表示学习的科研团队识别方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887460A (zh) * | 2010-07-14 | 2010-11-17 | 北京大学 | 一种文献质量评估方法及应用 |
CN102298579A (zh) * | 2010-06-22 | 2011-12-28 | 北京大学 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
CN102571954A (zh) * | 2011-12-02 | 2012-07-11 | 北京航空航天大学 | 基于节点核心影响力的复杂网络聚类方法 |
CN102880799A (zh) * | 2012-09-24 | 2013-01-16 | 西北工业大学 | 一种基于多属性决策的复杂网络节点重要度综合评价方法 |
KR20150050674A (ko) * | 2013-10-30 | 2015-05-11 | 임창남 | Sns를 활용한 기술사업화 시스템 및 방법 |
CN104636426A (zh) * | 2014-12-22 | 2015-05-20 | 河海大学 | 科研机构学术影响力的多因素综合定量分析与排序方法 |
CN105719190A (zh) * | 2016-01-18 | 2016-06-29 | 北京工商大学 | 一种基于三角结构的社会网络节点影响力度量方法 |
CN106778894A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种学术异构信息网络中作者合作关系预测的方法 |
CN107153713A (zh) * | 2017-05-27 | 2017-09-12 | 合肥工业大学 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
CN107391659A (zh) * | 2017-07-18 | 2017-11-24 | 北京工业大学 | 一种基于信誉度的引文网络学术影响力评价排序方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9252976B2 (en) * | 2012-05-09 | 2016-02-02 | Salesforce.Com, Inc. | Method and system for social media cooperation protocol |
-
2018
- 2018-09-12 CN CN201811063121.5A patent/CN109272228B/zh not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298579A (zh) * | 2010-06-22 | 2011-12-28 | 北京大学 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
CN101887460A (zh) * | 2010-07-14 | 2010-11-17 | 北京大学 | 一种文献质量评估方法及应用 |
CN102571954A (zh) * | 2011-12-02 | 2012-07-11 | 北京航空航天大学 | 基于节点核心影响力的复杂网络聚类方法 |
CN102880799A (zh) * | 2012-09-24 | 2013-01-16 | 西北工业大学 | 一种基于多属性决策的复杂网络节点重要度综合评价方法 |
KR20150050674A (ko) * | 2013-10-30 | 2015-05-11 | 임창남 | Sns를 활용한 기술사업화 시스템 및 방법 |
CN104636426A (zh) * | 2014-12-22 | 2015-05-20 | 河海大学 | 科研机构学术影响力的多因素综合定量分析与排序方法 |
CN105719190A (zh) * | 2016-01-18 | 2016-06-29 | 北京工商大学 | 一种基于三角结构的社会网络节点影响力度量方法 |
CN106778894A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种学术异构信息网络中作者合作关系预测的方法 |
CN107153713A (zh) * | 2017-05-27 | 2017-09-12 | 合肥工业大学 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
CN107391659A (zh) * | 2017-07-18 | 2017-11-24 | 北京工业大学 | 一种基于信誉度的引文网络学术影响力评价排序方法 |
Non-Patent Citations (2)
Title |
---|
基于关系元Agent的复杂社会网络建模方法与应用研究;唐四慧;《中国博士学位论文全文数据库》;20121130;第2-4章 * |
基于多属性决策的复杂网络节点重要性综合评价方法;于会;《物理学报》;20130228;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109272228A (zh) | 2019-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109272228B (zh) | 基于科研团队合作网络的科研影响力分析方法 | |
Zarrinkalam et al. | Mining user interests over active topics on social networks | |
TWI598755B (zh) | 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體 | |
CN110537176B (zh) | 用于确定新闻真实性的方法 | |
Xia et al. | MVCWalker: Random walk-based most valuable collaborators recommendation exploiting academic factors | |
Feng et al. | Probabilistic linguistic QUALIFLEX approach with possibility degree comparison | |
CN107169873B (zh) | 一种多特征融合的微博用户权威度评价方法 | |
Liao et al. | A Choquet integral-based hesitant fuzzy gained and lost dominance score method for multi-criteria group decision making considering the risk preferences of experts: Case study of higher business education evaluation | |
Xu et al. | A personalized information recommendation system for R&D project opportunity finding in big data contexts | |
Feng et al. | Patterns and pace: Quantifying diverse exploration behavior with visualizations on the web | |
CN109635206B (zh) | 融合隐式反馈和用户社会地位的个性化推荐方法及系统 | |
Liu et al. | Network-based evidential three-way theoretic model for large-scale group decision analysis | |
Zheng et al. | Correlation coefficients of interval-valued pythagorean hesitant fuzzy sets and their applications | |
Chen et al. | How LinkedIn economic graph bonds information and product: applications in LinkedIn salary | |
Bai et al. | Quantifying success in science: An overview | |
Saraswathi et al. | Deep Learning Enabled Social Media Recommendation Based on User Comments. | |
Chen et al. | Link prediction in signed networks based on connection degree | |
Lampridis et al. | MANIFESTO: a huMAN-centric explaInable approach for FakE news spreaders deTectiOn | |
Yan et al. | Non-additive multi-attribute fuzzy target-oriented decision analysis | |
Carpita et al. | Clustering of variables methods and measurement models for soccer players’ performances | |
Liu | Trust management in online social networks | |
Pourahmad et al. | Service quality assessment in the academic library: Use of hybrid fuzzy expert system | |
CN110543601B (zh) | 一种基于中智集的上下文感知兴趣点推荐方法及系统 | |
Huang et al. | A unified framework of targeted marketing using customer preferences | |
Šitum | Analysis of algorithms for determining trust among friends on social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220315 |