CN111126758B - 一种学术团队影响力传播预测方法、设备和存储介质 - Google Patents
一种学术团队影响力传播预测方法、设备和存储介质 Download PDFInfo
- Publication number
- CN111126758B CN111126758B CN201911119152.2A CN201911119152A CN111126758B CN 111126758 B CN111126758 B CN 111126758B CN 201911119152 A CN201911119152 A CN 201911119152A CN 111126758 B CN111126758 B CN 111126758B
- Authority
- CN
- China
- Prior art keywords
- academic
- propagation
- team
- node
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 105
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000008520 organization Effects 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 abstract description 3
- 210000004027 cell Anatomy 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013136 deep learning model Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 101000633607 Bos taurus Thrombospondin-2 Proteins 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明公开了一种学术团队影响力传播预测方法、设备和存储介质,考虑团队内部组织结构特征和外部传播特征,提出将具有作者合著关系的合作关系网络中的社区节点向量与具有作者引用关系的影响力传播有向网络中的传播节点向量相结合,采用深层全连接神经网络链路预测模型实现团队影响力的传播预测,该方法用深度学习模型来求解复杂网络中团队影响力传播链路预测问题,普适性好,克服了传统方法链路预测的局限性以及现有深度学习方法难以对团队影响力传播方向进行预测的缺陷。通过真实数据集的实验表明,该方法具有较高的预测准确性。
Description
技术领域
本发明涉及群体中个体影响力传播预测技术领域,尤其是涉及一种学术团队影响力传播预测方法、设备和存储介质。
背景技术
用复杂网络的理论与方法来研究个体与群体的影响力与传播行为,在信息时代的社会化电子商务、舆情分析、影响力分析的应用领域中具有重要意义。在学术研究领域,学者们将各自的研究成果发表在学术刊物上,是传播学术思想的一种重要方式。一个优秀学术团队的影响力将对科学研究发展产生引领作用,对学术团队的影响力传播进行预测,是复杂网络分析中的一个热点研究问题,可用于科技创新群体的遴选与评估。
团队影响力传播预测是预测团队影响力在网络中可能的传播路径,由于影响力传播具有随机性,其影响因素与应用场景直接相关,研究一种较为通用的团队影响力的传播预测方法是一大难点。现有影响力传播预测方法是将其转化为传播网络中的链路预测问题进行研究,主要方法有基于局部相似性与路径相似性两大类。这两类方法都是通过先验知识人为选定的相似性度量指标,且每个指标侧重于传播网络中的某些局部特征,使得其应用场景受到限制,通用性差,且不能实现团队影响力传播预测。
近年来,在机器学习领域,神经网络深度学习模型受到广泛关注,深度学习模型能直接从浅层原始特征中自动无监督学习隐藏的深层特征,是一种适用面较广的机器学习方法。因此,用深度学习模型来求解复杂网络中的链路预测问题是突破传统方法链路预测局限性的新途径。为了达到从网络的原始全局特征中学习隐藏的深度特征的目的,2014年Perozzi等人提出了DeepWalk[1]算法,该算法通过在网络中随机游走将节点游走序列进行低维向量表示,得到具有网络全局结构特征的节点表征,是当前网络表征学习的基本方法,但是,这种方法只能表征传播网络中两节点间的传播情况,同样无法预测团队影响力传播情况。
参考文献:
[1]Perozzi B,Al-Rfou R,Skiena S.Deepwalk:Online learning of socialrepresentations[C]//Proceedings of the 20th ACM SIGKDD internationalconference on Knowledge discovery and data mining.ACM,2014:701-710.
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,第一方面,提出一种学术团队影响力传播预测方法,将影响力传播网络以及含有团队内部结构信息的合作关系网络分别表征成节点向量,结合两类节点向量构建低维向量和深度学习模型,准确预测学术团队的影响力传播情况。
根据本发明的第一方面实施例的学术团队影响力传播预测方法,包括:
基于文献数据库中文献的引用关系构建相应作者的影响力传播有向网络,基于所有所述作者的合著关系构建合作关系网络,所述合作关系网络根据作者的合著关系划分学术团队;
将所述影响力传播有向网络的每一节点表征成传播节点向量,将所述合作关系网络中的每一节点表征成社区节点向量,利用每一所述学术团队内每一作者的所述传播节点向量和该作者的所述社区节点向量构建每一所述学术团队的低维向量;
将每一所述学术团队的低维向量与所述学术团队以外的部分节点的传播节点向量分别拼接成第一联合向量,结合所述学术团队与所述学术团队以外的所述部分节点的传播关系构建数据集,并划分训练集和测试集;
将所述训练集中的所述第一联合向量分别输入深层全连接神经网络预测模型,结合相应学术团队与所述学术团队以外的所述部分节点的传播关系进行训练,得到预测模型,用所述测试集进行测试。
根据本发明的一些实施例,所述传播节点向量和社区节点向量均采用DeepWalk模型表征得到。
根据本发明的一些实施例,所述低维向量的构建方法如下:
将所述学术团队内每一作者的所述传播节点向量和该作者的所述社区节点向量拼接成第二联合向量,将所述学术团队内所有作者的所述第二联合向量输入序列自编码器得到所述学术团队的低维向量,其中,所述序列自编码器包括一组编码器和解码器,所述编码器和解码器均由长短期记忆网络(Long Short-Term Memory,LSTM)组成。
根据本发明的一些实施例,所述序列自编码器进行正则化处理。
根据本发明的一些实施例,所述学术团队内所有作者的所述第二联合向量在输入所述序列自编码器前按节点度大小进行排序,节点度越大的节点越后输入。
根据本发明的一些实施例,所述深层全连接神经网络进行正则化处理。
根据本发明的一些实施例,所述深层全连接神经网络中全连接层的激活函数为ReLU函数。
根据本发明第一方面实施例提供的学术团队影响力传播预测方法,至少具有如下有益效果:
考虑团队内部组织结构特征和外部传播特征,提出将具有作者合著关系的合作关系网络中的社区节点向量与具有作者引用关系的影响力传播有向网络中的传播节点向量相结合,采用深层全连接神经网络链路预测模型实现团队影响力的传播预测,该方法用深度学习模型来求解复杂网络中团队影响力传播链路预测问题,普适性好,克服了传统方法链路预测的局限性以及现有深度学习方法难以对团队影响力传播方向进行预测的缺陷。通过真实数据集的实验表明,该方法具有较高的预测准确性。
第二方面,提供一种学术团队影响力传播预测设备,包括至少一个处理器以及与所述至少一个控制处理器通信连接的至少一个存储器;
所述至少一个存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如本发明第一方面所述的学术团队影响力传播预测方法。
第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如本发明第一方面所述的学术团队影响力传播预测方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的学术团队影响力传播预测方法的流程图;
图2为本发明实施例的团队影响力传播模型示意图;
图3为本发明实施例序列自编码器的模型示意图;
图4为本发明实施例的学术团队影响力传播预测设备的结构框图;
图5展示了本发明实施例序列自编码器参数选择对AUC的影响;
图6展示了本发明实施例深层全连接神经网络参数选择对AUC的影响。
附图标记:
控制处理器100,存储器200。
具体实施方式
下面结合附图详细描述本发明的实施例,所述实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参照图1,为本发明实施例的学术团队影响力传播预测方法的流程图,包括步骤:
S100、基于文献数据库中文献的引用关系构建相应作者的影响力传播有向网络,基于所有作者的合著关系构建合作关系网络,根据作者的合著关系将合作关系网络划分学术团队。
影响力传播有向网络和合作关系网络中的每一节点代表一个作者。在学者发表的学术论文中引用他人参考文献的行为实际上就是将他人的学术思想进行了传播,一个学者的学术思想被他人传播的越多其影响力就越大。所以,从文献信息资源中直接抽取的文献与文献之间的引用关系网络可以映射成作者之间的影响力传播有向网络,结合根据作者合著关系建立的合作关系网络,可以反映学术团队的影响力传播情况。
文献数据库中存储了文献的标题、作者以及文献引用关系,对于一篇文献的所有作者,两两之间可以构建合作关系网络的连边,从而形成以作者为节点、合作关系为边的合作关系网络。根据文献的引用可以建立以文献为节点、引用关系为边的文献引用关系网络,将文献间的引用关系和作者发表文献关系结合,即将文献间引用映射为作者间引用关系,从而建立以作者为节点、引用关系为边的影响力传播网络。为了实现团队影响力传播预测,可通过派系过滤算法在合作关系网络中进行社区划分,每个社区对应一个学术团队,为每个作者节点分配所属的社区标签。另外,为了将团队内部结构信息融入模型中,计算合作关系网络中的节点在团队内部的度,基于此度信息可以衡量节点在团队内的重要度。
定义和Gco(V,Eco)分别代表影响力传播有向网络和合作关系网络,其中V表示网络中作者节点的集合,/>表示作者间的引用关系有向边的集合,Eco表示作者间合著关系边的集合。团队影响力传播预测就是预测在传播网络中团队的整体影响力对与该团队不存在直接连接的外部节点是否存在传播的可能性。如图2所示为团队影响力传播模型示意图,在合作关系网络Gco(V,Eco)中,节点(即作者)1、2、3、4由于其合作关系构成了一个学术团队,这四个作者在影响力传播网络/>中同样对应节点1、2、3、4,而作者5则为Gsp中不与上述四个作者有直接连边的节点。为了预测作者1-4构成的学术团队的影响力是否能传播至作者5,将/>和Gco(V,Eco)融合,得到的融合网络表示为/>对于融合网络G中的团队Commi,即图2右侧虚线圈内的节点集合,表示为/>那么非团队内的节点集合即为/>而团队影响力传播预测则是预测是否存在从/>集合中节点指向中节点的边,即预测学术团队影响力是否能传播至节点5或者其它节点,该预测问题可以表示为一个链路预测问题。本实施例通过将两种网络的节点向量结合,形成具有团队特征的传播网络节点向量表示,输入到深度全连接神经网络预测模型,对团队影响力传播进行预测,因此首先需要对两种网络的节点向量进行表征。
步骤S200、将影响力传播有向网络的每一节点表征成传播节点向量,将合作关系网络Gco(V,Eco)中的每一节点表征成社区节点向量,利用每一学术团队内每一作者的传播节点向量和该作者的社区节点向量构建该学术团队的低维向量。
为了便于利用深度学习方法解决团队影响力预测问题,将团队组织结构特征用低维向量表征。具体的,可以采用DeepWalk模型实现,除此以外,还可使用诸如node2vec、LINE等模型。DeepWalk是一种常见的网络表征学习模型,将原始网络数据输入后可以得到节点的低维向量表示,向量中包含了节点的结构信息。首先在网络中对每个节点通过随机游走的方法得到节点的序列,此序列即该节点的上下文,序列中相近的节点在原始网络中也相近。之后,DeepWalk将节点序列类别于语句,节点类比于语句中的词,通过Skip-Gram模型(Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words andphrases and their compositionality[C]//Advances in neural informationprocessing systems.2013:3111-3119.)得到节点的低维向量表示。Skip-Gram模型是一种学习词嵌入的网络结构,它认为在上下文中相近的词,具有相近的意思,所以在低维向量空间中更加接近。为了在低维向量中保存节点在网络中的结构信息,Skip-Gram模型使节点序列中相近的节点在低维空间中也相近,从而使得节点的低维向量表示中含有节点在网络中的结构信息。
在获得低维的传播节点向量和社区节点向量后,将二者拼接即为节点的第二联合向量表示。将同一学术团队各个节点的第二联合向量输入序列自编码器可得到该学术团队的低维向量。图3是本发明实施例序列自编码器的模型示意图,序列自编码器包括一组编码器(Encoder)和解码器(Decoder),编码器和解码器均由长短期记忆网络(Long Short-TermMemory,LSTM)组成。自编码器是一种非线性的降维方法,将输入信息通过编码器压缩为低维度向量,再通过解码器恢复为原始信息,模型通过最小化原始信息经过自编码器的输出和原始信息的差得到网络的最优参数,使得编码器压缩后的低维输出向量中包含了原始输入信息。序列自编码器则是对序列数据进行降维,能自然而然地学到序列中的先后顺序关系并将其融入低维向量中。
为了充分体现学术团队的组织结构特征,考虑团队内不同节点的重要程度的差异,在输入序列自编码器前,对团队内所有节点的第二联合向量按节点在团队内的节点度大小进行排序,节点度越大的节点越后输入,模型会将其视为近期的信息,赋予更大的权重;反之,节点度小的节点先输入,会被模型视作远期的信息,随着序列进行模型,会被逐渐遗忘,相对来说权重更低,以此将团队内节点的不同重要度保存在团队的低维向量中。
设一个学术团队内k个节点的第二联合向量序列l={x1,...,xi,...,xk},其中xi代表团队内第i个节点的第二联合向量,对于LSTM编码器,其内部计算是循环更新的过程,定义Ci代表第i个时间步的细胞状态,hi代表第i个时间步的隐藏层状态以及输出,而xi则是第i个时间步的输入。当第i个时间步的数据xi进入LSTM单元时,当前时间步的细胞状态Ci以及隐藏层状态(同样也是输出)hi会按照以下公式(1)至公式(6)计算得到:
ft=σ(Wf·[ht-1,xt]+bf) (1)
It=σ(WI·[ht-1,xt]+bI) (2)
Ot=σ(WO·[ht-1,xt]+bO) (3)
在上述公式中,细胞状态Ci取决于第i-1个时间步的细胞状态Ci-1、遗忘门ft、输入内容以及输入门It;W,b分别表示网络的参数权重和偏置,[ht-1,xt]代表hi-1与xi拼接,·代表矩阵乘法,而/>则表示矩阵的点乘,Ot代表输出门。
Ci=f(Ci-1,hi-1,xi) (7)
那么其第i个时间步的细胞状态Ci可以表示为公式(7),函数f则表示LSTM编码器的内部更新细胞状态的过程,即公式(1)至公式(5)。随着LSTM编码器内部计算迭代更新细胞状态和隐藏层状态,最终可以得到Ck,是一个定长的向量,包含了LSTM编码器对原始输入压缩后的信息,即学术团队的低维向量表示。
由于Ck为定长且不包含其他时间步的向量,该向量无法输入LSTM解码器,所以将其重复k个,作为LSTM解码器的k个时间步的输入,那么LSTM解码器的输出可以表示为公式(8):
h′j=g(C′j-1,h′j-1,Ck) (8)
用LSTM编码器最后一个隐藏层状态作为LSTM解码器隐藏层的初始化状态,使得解码器保存更多编码器中的信息。定义C′j为LSTM解码器中第j个时间步的细胞状态,h′j表示解码器的隐藏层状态和输出,函数g表示LSTM解码器内部计算迭代更新隐藏层状态的过程,如公式(1)至公式(6)所示。由于序列自编码器是一种无监督的学习模型,所以其输入、输出皆为节点向量序列,模型优化的目标函数可以表示为公式(9):
L(l,g(f(l))) (9)
其中L表示一个损失函数,可采用均方误差表示,而模型的优化过程则是最小化损失的过程,通过反向传播算法可以得到序列自编码器的最优参数。为利于序列自编码器学习到有用信息,对模型设置了dropout。dropout是一种正则化神经网络的方法,它以一定的概率激活网络中的神经元,训练的过程中,一部分神经元并不参与训练,以此来达到正则化的效果。
对于训练完成的序列自编码器,将一个学术团队内k个节点的第二联合向量序列l={x1,...,xi,...,xk}输入模型,编码器部分的输出结果Ck即为该学术团队的低维向量表示,其中包含了团队中各节点的结构信息以及通过节点序列先后顺序体现的团队内节点的重要度信息,这些信息对于团队影响力传播预测起了重要的作用。
序列自编码器的算法如表1所示,模型的输入输出分别为节点的第二联合向量序列l和学术团队的低维向量表示Comm,对于模型的参数统一表示为W,b。首先对模型整体参数以及编码器部分的隐层状态、细胞状态随机初始化,初始化完成后编码器会对输入进行编码,然后将编码所得向量重复k次作为解码器的输入,最后计算解码器输出和输入的差作为损失函数,通过反向传播算法得到模型最优参数。当模型参数更新完成后,输入任意学术团队的第二联合向量序列,得到Ck,即为该团队的低维向量表示Comm。
表1
步骤S300、为预测学术团队的影响力是否能传播至其他节点,将学术团队的低维向量表示Comm与待测节点的传播节点向量拼接成第一联合向量,用深层全连接神经网络提取该联合向量的特征,实现该学术团队与待测节点间的链路预测,其预测目标为二者间是否存在连边,这是一个二分类问题。
为此,首先构建训练集和测试集,优化深层全连接神经网络预测模型的参数。将每一学术团队的低维向量与该团队以外的部分节点的传播节点向量分别拼接成第一联合向量,结合各学术团队与选取的部分节点间的传播关系构建数据集,并划分训练集和测试集。由于是深度学习模型解决二分类问题,需要选取与学术团队有传播关系的节点,以及部分与该团队不存在传播关系的节点进行训练,预测目标为该团队与选取的节点之间是否存在由该团队指向该节点的连边。
步骤S400、将训练集中对应于各学术团队的第一联合向量分别输入深层全连接神经网络预测模型,结合相应学术团队与所述学术团队以外的部分节点的传播关系进行训练,得到预测模型,用测试集进行测试。
为了缓解多层全连接神经网络的过拟合问题,对于每一个全连接层,都设置了dropout。进一步,选择ReLU作为全连接层的激活函数,对比于sigmoid和tanh等,ReLU能减轻梯度消失、梯度爆炸问题带来的影响,并且训练过程中收敛速度更快,ReLU函数可以表示为公式(10):
ReLU(x)=max(0,x) (10)
由于ReLU函数的导数为公式(11)所示,所以在反向传播过程中,连乘并不会产生梯度消失或者梯度爆炸问题。
模型的输出为一个概率值,可通过sigmoid激活函数将输出放缩至区间(0,1),表示社区和节点间是否存在连边的概率。对于二分类问题,模型的损失函数设置为交叉炳,那么模型的目标函数是最小化公式(12):
其中,和yi分别表示第i个样本的模型前向传播得到的输出和样本的真实标签(即是否存在连边),与序列自编码器的优化过程类似,基于该损失函数可以通过反向传播算法求得模型的最优参数。
采用上述方法可以达成至少如下的一些效果:通过考虑团队内部组织结构特征和外部传播特征,构建合作关系网络中的各学术团队的低维向量,将其与具有作者引用关系的影响力传播有向网络中的传播节点向量相结合,构建深层全连接神经网络链路预测模型实现团队影响力的传播预测,克服了传统方法链路预测的局限性以及现有深度学习方法难以对团队影响力传播方向进行预测的缺陷,该方法普适性好,预测准确度高。
如图4所示,为本发明实施例的学术团队影响力传播预测设备的结构框图,包括一个或多个控制处理器100和存储器200,控制处理器100和存储器200可以通过总线或者其他方式连接,图4以一个控制处理器100和一个存储器200为例,连接方式为总线连接。存储器200存储有软件程序、指令以及文献数据库等信息,处理器通过运行存储在存储器中的软件程序、指令以及调用数据库中的数据,从而执行上述方面所述的学术团队影响力传播预测方法。
本发明实施例还提供的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被一个或多个处理器执行,例如,被图6中的一个处理器301执行,可使得上述一个或多个处理器执行上述方面所述的学术团队影响力传播预测方法,例如,执行以上描述的图1中的方法步骤100至400。
为了验证上述实施例的有效性,分别以DBLP和ACM中计算机领域的文献数据库为数据来源,样本包含论文的标题、作者及其引用信息。构建影响力传播有向网络和合作关系网络,当出现多重边时只保留一条边,且删除自环。两种网络的规模如表2所示:
表2
由于预测的是团队影响力是否能传播至其他节点,所以只将存在团队内节点指向其他节点的边视为正样本,选取其中80%的边为训练集,另外20%为测试集,随机采样和训练集边数等量的不存在边放入训练集中,测试集同理。该不存在边视为负样本,包括与前述正样本反向的边以及原本不存在的边。
实验在Linux系统下的计算机进行,机器配置为intel六核i5处理器,64G内存,RTX2070显卡。节点向量表征模型Deepwalk的部分参数设置见表3。
表3
其他模型参数如表4所示。
表4
采用AUC指标进行评估,AUC是评估二分类问题的常用指标。通常来说,对于测试集中的边,模型都会为其赋予一个分数,分数大代表这条边更有可能存在,那么AUC可以表示为随机选择一条存在边的分数比随机选择一条不存在边的分数高的概率,计算公式可以表示为公式(13):
其中,m为试验次数,m′表示随机选择一条存在边的分数比随机选择一条不存在边的分数高的次数,而m″则为分数相等的次数,为了得到鲁棒性的实验结果,后文中每次模型的实验都会重复进行十次,求得其平均的AUC分数。
本实施例方法(简称CISP)在DBLP和ACM的预测准确度如表5所示。对比几种经典的链路预测方法,包括CN(common neighbors)、Jaccard、AA(Adamic-Adar)、RA(resourceallocation)以及PA(preferential attachment)指标,考虑到这些指标都是计算两节点间的相似度分数,不能直接应用于团队影响力传播预测,为便于比较,用团队和节点间的相似度分数表示,如公式(14)所示:
其中,k为团队内的节点个数,vi是团队内部的节点,vn表示与团队之间计算相似度分数的节点。
表5
计算结果如表5所示,可见本方法CISP在两种数据集上比前五种经典的相似性指标有更好的预测准确度。由这五种经典方法是基于局部信息的,其相似性指标都是人为定义计算相似度分数,如共同邻居数量等,这样的方法对于结构信息的表达是有缺失和局限性的。而CISP基于网络表征学习的预测,通过模型能自动学习到节点与团队的全局结构特征,是一种非预定义的相似性分类方法,所以表现出更好的预测准确度。
为了说明节点度排序对序列自编码器有效性的影响,对比随机排列节点序列(CISP-unsorted)以及用所有节点第二联合向量的平均表示团队向量(CISP-withoutSAE)两种方法,结果如表6所示。
表6
可见,CISP在DBLP和ACM数据库上都取得了最优的效果,对比未排序的方法CISP-unsorted分别有1%以及0.5%的提升,而对比节点向量平均的方法CISP-withoutSAE则分别有0.8%以及0.6%的提升。这个提升来源于序列自编码器模型学到了节点向量序列的排序信息,而这个序列的排序依据节点在团队内的度大小,能体现节点在社区中的重要度,从而使模型学习到团队内部的结构特征。而去除了度信息的序列自编码器,以及对社区内节点向量平均的方法,都忽略了节点在团队内的不同地位,影响影预测结果的准确性。
为了验证本实施例方法的鲁棒性,测试了不同参数下的AUC得分情况。对于序列自编码器模型的参数部分,对预测结果影响较大的参数有学术团队低维向量(简称团队向量)的维度、dropout、学习率,测试在ACM和DBLP数据集上三种参数对预测准确率的影响,依次如图5(a)-5(c)所示。从图5(a)可以很明显地看到,团队向量的维度对AUC分数的影响较大,当维度小于32时,AUC相比于最优情况会下降3%,如果团队向量维度过低,在编码压缩的过程中会损失大量信息,使得团队特征信息过少,对预测准确率的影响非常大;而维度较大对准确率的影响较小,但是在网络规模较大时,维度的大小对于计算所需时间影响极大,同时维度过大也会引起过拟合。图5(b)和(c)为dropout和学习率对AUC的影响,可以发现模型的鲁棒性较强,对于不同的学习率和dropout率都能获得相对较高的AUC分数,但是若不对模型做正则化(标识为dropout=1.0),模型在DBLP和ACM的测试集上的AUC分数和采用平均节点向量法的最高分数接近,这说明序列自编码器部分的正则化相当重要。
对于深层全连接神经网络预测模型,测试了隐藏层深度、dropout以及学习率对预测结果的影响,依次如图6(a)-6(c)所示。由图6(a)可知在两种数据库上最优AUC分数对应的网络规模有一些差异,DBLP数据集对应的最优网络深度小于ACM,这主要是由于DBLP中数据量较少,小数据量更倾向于层数较少,泛化能力更强的模型上表现较好。Dropout能一定程度上抑制过拟合问题,如图6(b)所示,与序列自编码器相似,在两个数据库中,选择适当的dropout和学习率都能取得最好的AUC分数。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种学术团队影响力传播预测方法,其特征在于,包括:
基于文献数据库中文献的引用关系构建相应作者的影响力传播有向网络,基于所有所述作者的合著关系构建合作关系网络,所述合作关系网络根据作者的合著关系划分学术团队;
将所述影响力传播有向网络的每一节点表征成传播节点向量,将所述合作关系网络中的每一节点表征成社区节点向量,利用每一所述学术团队内每一作者的所述传播节点向量和该作者的所述社区节点向量构建每一所述学术团队的低维向量;所述低维向量的构建方法如下:
将所述学术团队内每一作者的所述传播节点向量和该作者的所述社区节点向量拼接成第二联合向量,将所述学术团队内所有作者的所述第二联合向量输入序列自编码器得到所述学术团队的低维向量,其中,所述序列自编码器包括一组编码器和解码器,所述编码器和解码器均由长短期记忆网络组成;
将每一所述学术团队的低维向量与所述学术团队以外的部分节点的传播节点向量分别拼接成第一联合向量,结合所述学术团队与所述学术团队以外的所述部分节点的传播关系构建数据集,并划分训练集和测试集;
将所述训练集中的所述第一联合向量分别输入深层全连接神经网络预测模型,结合相应学术团队与所述学术团队以外的所述部分节点的传播关系进行训练,得到预测模型,用所述测试集进行测试。
2.根据权利要求1所述的学术团队影响力传播预测方法,其特征在于,所述传播节点向量和社区节点向量均采用DeepWalk模型表征得到。
3.根据权利要求1所述的学术团队影响力传播预测方法,其特征在于,所述序列自编码器进行正则化处理。
4.根据权利要求1所述的学术团队影响力传播预测方法,其特征在于,所述学术团队内所有作者的所述第二联合向量在输入所述序列自编码器前按节点度大小进行排序,节点度越大的节点越后输入。
5.根据权利要求1所述的学术团队影响力传播预测方法,其特征在于,所述深层全连接神经网络进行正则化处理。
6.根据权利要求1或5所述的学术团队影响力传播预测方法,其特征在于,所述深层全连接神经网络中全连接层的激活函数为ReLU函数。
7.一种学术团队影响力传播预测设备,其特征在于,包括至少一个处理器以及与所述至少一个处理器通信连接的至少一个存储器;
所述至少一个存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6任一项所述的学术团队影响力传播预测方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至6任一项所述的学术团队影响力传播预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911119152.2A CN111126758B (zh) | 2019-11-15 | 2019-11-15 | 一种学术团队影响力传播预测方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911119152.2A CN111126758B (zh) | 2019-11-15 | 2019-11-15 | 一种学术团队影响力传播预测方法、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126758A CN111126758A (zh) | 2020-05-08 |
CN111126758B true CN111126758B (zh) | 2023-09-29 |
Family
ID=70495932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911119152.2A Active CN111126758B (zh) | 2019-11-15 | 2019-11-15 | 一种学术团队影响力传播预测方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126758B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508170A (zh) * | 2020-11-19 | 2021-03-16 | 中南大学 | 一种基于生成对抗网络的多相关时间序列预测系统及方法 |
CN113642323B (zh) * | 2021-08-19 | 2023-09-22 | 成都理工大学 | 基于网络结构的研究热点演变趋势检测方法、介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014056136A1 (en) * | 2012-10-08 | 2014-04-17 | Nokia Corporation | Method and apparatus for social networking service strategy based on spread simulation |
CN104657488A (zh) * | 2015-03-05 | 2015-05-27 | 中南大学 | 一种基于引用传播网络的作者影响力计算方法 |
CN106126732A (zh) * | 2016-07-04 | 2016-11-16 | 中南大学 | 基于兴趣相似模型的作者影响力传播能力预测方法 |
CN107895215A (zh) * | 2017-12-21 | 2018-04-10 | 北京理工大学 | 基于神经网络的社会网络影响力预测及最大化系统与方法 |
CN109272228A (zh) * | 2018-09-12 | 2019-01-25 | 石家庄铁道大学 | 基于科研团队合作网络的科研影响力分析方法 |
CN109947946A (zh) * | 2019-03-22 | 2019-06-28 | 上海诺亚投资管理有限公司 | 一种预测文章传播热度的方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150120717A1 (en) * | 2013-10-25 | 2015-04-30 | Marketwire L.P. | Systems and methods for determining influencers in a social data network and ranking data objects based on influencers |
TWI582617B (zh) * | 2015-11-18 | 2017-05-11 | 財團法人資訊工業策進會 | 社群文章影響力預測方法以及使用其的社群文章影響力預測裝置 |
KR101698492B1 (ko) * | 2015-11-19 | 2017-01-20 | 주식회사 사이람 | 소셜미디어 상의 사용자 컨텐츠 확산 영향력 측정 방법 및 장치 |
CN106991160B (zh) * | 2017-03-30 | 2020-07-24 | 武汉大学 | 一种基于用户影响力以及内容的微博传播预测方法 |
CN108228782B (zh) * | 2017-12-29 | 2020-04-21 | 山东科技大学 | 一种基于深度学习的隐含关系发现方法 |
EP3769278A4 (en) * | 2018-03-22 | 2021-11-24 | Michael Bronstein | PROCEDURE FOR MESSAGE EVALUATION IN SOCIAL MEDIA NETWORKS |
CN109471994A (zh) * | 2018-10-22 | 2019-03-15 | 西南石油大学 | 网络关键节点检测方法及系统 |
-
2019
- 2019-11-15 CN CN201911119152.2A patent/CN111126758B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014056136A1 (en) * | 2012-10-08 | 2014-04-17 | Nokia Corporation | Method and apparatus for social networking service strategy based on spread simulation |
CN104657488A (zh) * | 2015-03-05 | 2015-05-27 | 中南大学 | 一种基于引用传播网络的作者影响力计算方法 |
CN106126732A (zh) * | 2016-07-04 | 2016-11-16 | 中南大学 | 基于兴趣相似模型的作者影响力传播能力预测方法 |
CN107895215A (zh) * | 2017-12-21 | 2018-04-10 | 北京理工大学 | 基于神经网络的社会网络影响力预测及最大化系统与方法 |
CN109272228A (zh) * | 2018-09-12 | 2019-01-25 | 石家庄铁道大学 | 基于科研团队合作网络的科研影响力分析方法 |
CN109947946A (zh) * | 2019-03-22 | 2019-06-28 | 上海诺亚投资管理有限公司 | 一种预测文章传播热度的方法及装置 |
Non-Patent Citations (1)
Title |
---|
周朝阳.基于知识传播加权合作网络的作者学术影响力评价研究.情报探索.2019,(第8期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111126758A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104595B (zh) | 一种基于文本信息的深度强化学习交互式推荐方法及系统 | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN110347932B (zh) | 一种基于深度学习的跨网络用户对齐方法 | |
CN110826336A (zh) | 一种情感分类方法、系统、存储介质及设备 | |
CN104102917B (zh) | 域自适应分类器的构造及数据分类的方法和装置 | |
CN113535984A (zh) | 一种基于注意力机制的知识图谱关系预测方法及装置 | |
CN109389151A (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN112905801A (zh) | 基于事件图谱的行程预测方法、系统、设备及存储介质 | |
CN111126758B (zh) | 一种学术团队影响力传播预测方法、设备和存储介质 | |
Tang et al. | Modelling student behavior using granular large scale action data from a MOOC | |
CN112256876A (zh) | 基于多记忆注意力网络的方面级情感分类模型 | |
CN112215412B (zh) | 溶解氧预测方法及装置 | |
CN114118088A (zh) | 基于超图卷积神经网络的文档级实体关系抽取方法及装置 | |
CN112580728A (zh) | 一种基于强化学习的动态链路预测模型鲁棒性增强方法 | |
CN116306793A (zh) | 一种基于对比孪生网络的具有目标任务指向性的自监督学习方法 | |
CN113987203A (zh) | 一种基于仿射变换与偏置建模的知识图谱推理方法与系统 | |
Al-Sabri et al. | Multi-view graph neural architecture search for biomedical entity and relation extraction | |
Li et al. | A two-stage surrogate-assisted evolutionary algorithm (TS-SAEA) for expensive multi/many-objective optimization | |
CN110222839A (zh) | 一种网络表示学习的方法、装置及存储介质 | |
Viadinugroho et al. | A weighted metric scalarization approach for multiobjective BOHB hyperparameter optimization in LSTM model for sentiment analysis | |
CN116720519B (zh) | 一种苗医药命名实体识别方法 | |
Lu et al. | Counting crowd by weighing counts: A sequential decision-making perspective | |
CN115761654B (zh) | 一种车辆重识别方法 | |
Chang | Latent variable modeling for generative concept representations and deep generative models | |
Wu et al. | Improved saddle point prediction in stochastic two-player zero-sum games with a deep learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240314 Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province Patentee after: Dragon totem Technology (Hefei) Co.,Ltd. Country or region after: China Address before: Yuelu District City, Hunan province 410083 Changsha Lushan Road No. 932 Patentee before: CENTRAL SOUTH University Country or region before: China |
|
TR01 | Transfer of patent right |