CN112115971B - 一种基于异质学术网络进行学者画像的方法及系统 - Google Patents
一种基于异质学术网络进行学者画像的方法及系统 Download PDFInfo
- Publication number
- CN112115971B CN112115971B CN202010811268.9A CN202010811268A CN112115971B CN 112115971 B CN112115971 B CN 112115971B CN 202010811268 A CN202010811268 A CN 202010811268A CN 112115971 B CN112115971 B CN 112115971B
- Authority
- CN
- China
- Prior art keywords
- central
- scholars
- academic
- heterogeneous
- learner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000009826 distribution Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 63
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101000828738 Homo sapiens Selenide, water dikinase 2 Proteins 0.000 description 1
- 102100023522 Selenide, water dikinase 2 Human genes 0.000 description 1
- ULFUTCYGWMQVIO-PCVRPHSVSA-N [(6s,8r,9s,10r,13s,14s,17r)-17-acetyl-6,10,13-trimethyl-3-oxo-2,6,7,8,9,11,12,14,15,16-decahydro-1h-cyclopenta[a]phenanthren-17-yl] acetate;[(8r,9s,13s,14s,17s)-3-hydroxy-13-methyl-6,7,8,9,11,12,14,15,16,17-decahydrocyclopenta[a]phenanthren-17-yl] pentano Chemical compound C1CC2=CC(O)=CC=C2[C@@H]2[C@@H]1[C@@H]1CC[C@H](OC(=O)CCCC)[C@@]1(C)CC2.C([C@@]12C)CC(=O)C=C1[C@@H](C)C[C@@H]1[C@@H]2CC[C@]2(C)[C@@](OC(C)=O)(C(C)=O)CC[C@H]21 ULFUTCYGWMQVIO-PCVRPHSVSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于异质学术网络进行学者画像的方法,包括:获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括学者的属性信息和/或为学者具备该属性信息的概率所设定的相应阈值;利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率,其中,所述属性概率分布模型是以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,通过训练获得;以及依据满足所述属性设置的属性信息对所述中心学者进行画像。本发明的学者画像方法充分利用了异质学术网络的多语义信息对学者的属性信息进行刻画,提高了画像的准确性。
Description
技术领域
本发明涉及计算机数据挖掘分析技术领域,尤其涉及基于异质学术网络进行学者画像的方法及系统。
背景技术
本部分的陈述仅仅是为了提供与本申请的技术方案有关的背景信息,以帮助理解,其对于本申请的技术方案而言并不一定构成现有技术。
学术网络由是由学者、期刊、会议和其他学术文献等节点,以及节点之间组成的关系构成的异质网络。随着学术科研活动的蓬勃发展,新的学者不断地加入学术之中,新的学术文献也不断地被发表,使得学术网络在飞速的增长和扩充。学术网络中包含了丰富的、有价值的、可挖掘的数据和信息,成为了很多学术数据挖掘与分析的基础,获得了广泛的应用,例如用于判断学科发展脉络和趋势、识别科研专家和社区、学术同行评审评议等。以学者画像为例,其目的是根据学者发表过的学术成果、参与过的科研项目、合作过的学术同行等构成的异质学术网络,确定学者的研究兴趣等属性信息,用以确保在学术评审中,精确地对评审专家进行刻画,从而保证评审专家的精准推荐。
然而现有的学者画像技术大多是基于同质学术网络进行识别,仅利用了单一的语义信息,难以准确刻画学者属性。另一方面,现有技术中也没有考虑学术网络的动态变化,例如,新学者的产生和新论文的发表,因此无法根据学术网络的动态变化适时更新对学者的属性信息,不能保证信息的时效性。此外,现有的学者画像技术主要对整个学术网络进行分析,导致计算复杂度高且效率低下。
因此,亟需一种新型的基于异质学术网络进行学者画像的方法。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种基于异质学术网络进行学者画像的方法,包括:获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括所需的学者的属性信息和/或为学者具备该属性信息的概率所设定的相应阈值;利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率,其中,所述属性概率分布模型是以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,通过训练获得;以及依据满足所述属性设置的属性信息对所述中心学者进行画像。
可选地,其中,所述属性概率分布模型采用图神经网络模型。
可选地,其中,所述利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率包括:依据所述中心学者查找所述异质学术网络中包含所述中心学者的异质学术子网络;约简所述异质学术子网络,并将其转换为包含异质语义的同质学术子网络;根据所述同质学术子网络中所述中心学者的邻域特征更新所述中心学者的特征;以及基于更新后所述中心学者的特征计算所述中心学者具备所述属性信息的概率。
可选地,其中,所述依据所述中心学者查找异质学术网络中包含所述中心学者的异质学术子网络包括:查找所述异质学术网络中以所述中心学者为起点的对称元路径;将所述以所述中心学者为起点的所有对称元路径作为所述异质学术子网络。
可选地,其中,所述约简所述异质学术子网络包括:仅保留所述异质学术子网络中的所述中心学者以及与所述中心学者类型相同的节点;将所述异质学术子网络中与所述对称元路径对应的链接类型作为连接的所述中心学者以及与所述中心学者类型相同的节点的边;以及为所述中心学者添加与所述对称元路径对应的链接类型的自环。
可选地,其中,所述将其转换为包含异质语义的同质学术子网络包括:获取约简后的所述异质学术子网络中所述链接类型的向量;池化约简后的所述异质学术子网络中相同节点之间所述链接类型的向量,获得包含异质语义的所述同质学术子网络。
可选地,其中,所述根据所述同质学术子网络中所述中心学者的邻域特征更新所述中心学者的特征包括:提取所述同质学术子网络中所述中心学者的邻域特征;基于所述中心学者的特征及其邻域特征更新所述中心学者的特征。
可选地,其中,通过加权邻域聚合的方式提取所述同质学术子网络中所述中心学者的邻域特征,包括:获取所述同质学术子网络中其他节点相对于所述中心学者的权重,公式如下:
αj=σ(Wc·[xi-xj,ei,j]+bc)
其中,αj表示同质学术子网络中其他节点相对于所述中心学者的权重,σ表示sigmoid函数,Wc和bc表示线性的参数,xi表示中心学者的特征向量,xj表示其他节点的特征向量,ei,j表示中心学者与其他节点之间的异质语义向量;以及
依据所述权重计算所述中心学者的邻域特征,公式如下:
其中,hi表示中心学者的邻域特征向量,|N(i)|表示同质学术子网络中节点的数量,Φ表示非线性转换函数,Wm、bm表示线性层参数,xj表示其他节点特征向量,ei,j表示中心学者与其他节点之间的异质语义向量。
可选地,其中,所述基于所述中心学者的特征及其邻域特征更新所述中心学者的特征包括:将所述中心学者的特征向量和其邻域的特征向量进行拼接并非线性转换,获得更新后中心学者的特征,公式如下:
xi′=Φ(Wg·[xi,hi]+bg)
其中,xi′表示更新后中心学者的特征向量,Φ表示非线性转换函数,Wg、bg表示线性层参数,xi表示中心学者的特征向量,hi表示中心学者的邻域特征向量。
本发明另一方面提供了一种基于异质学术网络进行学者画像的系统,包括:接口模块,用于获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括所需的属性信息以及为学者具备该属性的概率设定的相应阈值;预测模块,用于利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率;画像模块,用于依据满足所述属性设置的属性信息对所述中心学者进行画像;以及训练模块,用于根据采集的异质学术网络相关数据训练所述属性概率分布模型,以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,对所述属性概率分布模型进行训练。
与现有技术相比,本发明的优点在于:
本发明的方法通过使用属性概率分布模型对学者进行画像,能够在充分利用异质学术网络中的多语义信息的同时,减少噪声及计算复杂度,并能够灵活地适应学术网络的动态变化,保证信息的时效性,使得学者画像结果更加精准。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1是根据本发明一个实施例的基于异质学术网络进行学者画像的方法的流程图;
图2是根据本发明一个实施例的利用属性概率分布模型预测学者属性的概率的方法的流程图;
图3是根据本发明一个实施例的异质学术网络的示意图;
图4是根据本发明一个实施例的查找异质学术子网络的示意图;
图5是根据本发明一个实施例的约简异质学术子网络的示意图;
图6是根据本发明一个实施例的将约简的异质学术子网络转换为同质学术子网络的示意图;
图7为根据本发明一个实施例的基于异质学术网络进行学者画像系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例,都属于本发明保护的范围。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
学术网络中的数据不具备规则的空间结构,学术网络包括学者、期刊、会议和其他学术文献等各种类型的节点,每个节点都有不同数量的相邻节点,节点之间的连接关系不固定,节点的排序也没有规律可言,因此难以用传统的深度学习范式(例如卷积神经网络或循环神经网络),来进行学者刻画。图神经网络(Graph Neural Networks,GNN)克服了传统深度学习的缺陷,可以从非结构化数据中生成图,并忽略了节点之间输入的顺序,用图中的边来表示两个节点之间的依赖关系,依赖周围的状态来更新节点的状态,以实现对非欧氏空间数据进行建模。因此,基于图神经网络在捕获数据的内部依赖关系方面的显著优势,可以通过图神经网模型提取学术网络中有关学者的属性信息以进行学者画像。
图神经网络包含多种类型,其中基于空间(spatial-based)的图卷积网络(GraphConvolution Network,GCN)模仿了传统的卷积神经网络中的卷积运算,根据节点的空间关系定义图的卷积,使图中每个节点将自身的特征信息传递给邻居节点,并将邻居节点及自身的特征信息进行汇集,对图中局部结构进行融合,以更新该节点的特征,从而获取更加丰富、完整的节点语义特征。
基于上述研究,本发明提供了一种基于异质学术网络进行学者刻画的方法,该方法利用预先训练好的属性概率分布模型计算待画像的中心学者具备特定属性信息的概率,并依据满足属性设置的属性信息对中心学者进行画像。其中,属性概率分布模型是以异质学术网络中的学者信息为输入,以学者具备所述属性信息的概率为输出,通过训练获得。该方法充分利用了异质学术网络的多语义信息,并能够在学术网络的动态变化时对学者的属性信息进行更新,保证信息的时效性。此外,还大幅减小计算复杂度,有效提高画像效率。
图1示出了本发明一个实施例的基于异质学术网络进行学者画像的方法的流程图。如图1所示,该方法包括以下步骤:
S110,获取待画像的中心学者信息以及进行画像的属性设置。
中心学者是指待进行画像的学者。中心学者信息例如可以包括中心学者的姓名、ID、工作单位等各种信息或信息的集合。中心学者信息与中心学者一一对应。通过中心学者信息可以唯一确定学者网络中所对应的中心学者节点。
属性设置包括进行画像所需的学者的属性信息以及为学者具备该属性信息的概率设定的相应阈值。例如,进行画像所需的学者的属性信息为学者的“研究兴趣”,假设学术网络中学者的研究兴趣包括“机器学习”、“深度学习”、“数据挖掘”、“信息检索”等等,可以设定当学者具备某研究兴趣的的概率阈值为“80%”,则若学者A“深度学习”的概率超过“80%”,表示学者A的研究兴趣包含“深度学习”;若学者A“信息检索”的概率为“60%”,表示学者A的研究兴趣不包含“信息检索”。
S120,利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率。
属性概率分布模型用于预测学术网络中某学者具备特定属性信息的概率,其可以学术网络中属性信息已知的学者信息为输入,以该学者具备所述属性信息的概率为输出,通过训练获得。
在一个实施例中,属性概率模型以图神经网络模型为基础,通过将异质学术网络划分为异质子网络并进行约简,又使用链接表示池化将异质学术子网络简化为包含异质语义信息的同质学术子网络,然后利用加权邻域聚合在同质学术子网络上更新中心学者的特征表示,最后基于更新后的中心学者的特征表示计算中心学者的属性的概率分布。
图2示出了本发明一个实施例的利用属性概率分布模型预测学者属性的概率的方法。如图2所示,该方法包括以下步骤:
S210,根据中心学者查找异质学术网络中包含该中心学者的异质学术子网络。
通过上述中心学者信息可以唯一确定包含在整个异质学术网络中中的该中心学者节点。异质学术网络可以表示为Gh,Gh=(Vh,Eh),其中Vh表示异质学术网络中所有节点的集合,Eh表示边的集合。异质学术网络Gh中包含有多个类型的节点和多个类型的边。
图3示出了本发明一个实施例的异质学术网络的示意图。如图3所示,在异质学术网络G1中,包含6个节点(即机构I1,学者S1、S2、S3和论文P1、P2)和7条边(即I1-S1、I1-S2、I1-S3、S1-P1、S2-P1、S2-P2、S3-P2),其中节点有3种类型(即机构(I)、学者(S)和论文(P)),边有2种类型(即学者与机构间的隶属关系、学者与论文之间的写作关系)。
异质网络中的对称元路径是指元路径中的节点的类型呈对称性分布。例如长度为m(m>2)的对称元路径f可以表示为A1→A2→…→Am,其中An表示异质学术网络中第n个的节点的类型,An=Al+m-n。在本发明中,对称元路径中起止节点的类型需和中心学者节点vi的类型一致,即均为学者节点。
在一个实施例中,可以查找异质学术网络中以中心学者节点vi(vi∈Vn)为起点的所有对称元路径,构成异质学术网络的异质子网络Gs(vi),Gs(vi)=(Vs,Es),其中Vs表示以中心学者节点vi为起点的对称元路径上的节点的集合,Es表示Vs节点之间边的集合。
在一个实施例中,还可以选择能合理表达语义信息的一条或多条对称元路径,得到对称元路径集合F,然后从对称元路径集合F中查找符合预先定义且以中心学者节点为起点的所有对称元路径f,构成该中心学者的异质学术子网络Gs(vi)。
图4示出了本发明一个实施例的查找异质学术子网络的示意图。如图4所示,例如需要查找图3所示的异质学术网络G1中以学者S1为中心学者的异质学术子网络G2(S1),可以从对称元路径集合(即S1-I1-S2、S1-I1-S3、S2-I1-S3、S1-P1-S2、S2-P2-S3)中查找符合预先定义的(例如包含论文节点P和机构节点I)且以中心学者节点S1为出发点的对称元路径(即S1-I1-S2、S1-I1-S3和S1-P1-S2、),构成中心学者节点S1的异质学术子网络G2(S1)。
在一个实施例中,还可以从异质学术网络中选取多个需要进行画像的中心学者节点vi,形成中心学者集合VC,并为其中每个中心学者节点vi(vi∈VC)分别查找包含每个中心学者节点vi的异质学术子网络。
通过将异质学术网络分解成异质学术子图,每个异质学术子图包含一个中心学者和多个相连的邻居学者,能够避免利用整个学术网络图进行计算,大幅减小了计算的复杂度,同时也能够更加适应学术网络的动态变化。
S220,约简异质学术子网络。
约简异质学术子网络是指忽略异质学术子网络中不必要的节点或边,同时保留相关的异质语义信息。
在一个实施例中,可以仅保留异质学术子网络中的中心学者节点vi以及其他学者节点vj,而省略非学者节点,并将对称元路径对应的的链接类型作为连接中心学者节点vi与其他学者节点vj的边,同时为中心学者节点vi添加自环(即以中心学者为起点和终点的对称元路径对应的链接类型),得到约简的异质子网络Gr(vi),Gr(vi)=(Vr,Er)。对称元路径对应的链接类型是指对称元路径中包含的节点类型集合,例如对称元路径A1→A2→…→Am对应的链接类型为A1A2…Am。
图5示出了本发明一个实施的约简异质学术子网络的示意图。如图5所示,例如需要约简图4中的异质学术子网络G2(S1),可以仅保留异质学术子网络G2(S1)中的中心学者节点(即S1)和其他学者节点(即S2、S3),而删除其中的所有非学者节点(即机构节点I1和论文节点P1)。同时,在异质学术子网络G2(S1)中,中心学者节点S1与学者节点S2之间的对称元路径为S1-I1-S2和S1-P1-S2,因此对称元路径S1-I1-S2对应的链接类型为SIS,对称元路径S1-P1-S2对应的链接类型为SPS,可以将SIS和SPS作为连接中心学者节点S1与学者节点S2之间的2条边;同理,中心学者节点S1与学者节点S3之间的对称元路径为S1-I1-S3,该对称元路径对应的链接类型为SIS,因此可以将SIS作为连接中心学者节点S1与学者节点S3之间的边。此外,由于在异质学术子网络G2(S1)中,以中心学者节点S1为出发点的对称元路径有S1-I1-S2、S1-I1-S3和S1-P1-S2共3条,对应的链接类型有SIS和SPS2种,因此可以为中心学者节点S1添加SIS和SPS共2个自环。最终得到约简的异质学术子网络G3(S1).
通过约简异质学术子网络,可以忽略其中的无用语义信息,减小异质学术子网络的规模,同时又保留了与中心学者相关的异质语义信息。
S230,将约简的异质学术子网络转换为包含异质语义的同质学术子网络。
在约简的异质学术子网络Gr(vi)中,连接中心学者节点vi与其他学者节点vj的边为其对称元路径对应的链接类型,链接类型中包含有异质子网络中相关对称元路径中不同节点的语义信息,因此可以通过池化节点间的链接类型将约简的异质学术子网络转换为包含异质语义的同质学术子网络。
在一个实施例中,可以将约简的异质学术子网络Gr(vi)中节点之间的链接类型用向量表示,并将连接相同两节点的链接类型向量进行池化,获得融合有多种异质语义信息的同质学术子网络Gm(vi),Gm(vi)=(Vm,Em,Rm),其中Vm=Vr,Em表示学者之间的链接类型,Rm={ei,j|<vi,vj>Em}表示链接类型对应的异质语义向量集合。
在一个实施例中,可以创建链接类型嵌入表T,将与每个对称元路径对应的链接类型用向量表示,例如对称元路径A1→A2→...→Am对应的链接类型向量表示为通过查询链接类型嵌入表T,可以获得约简的子网络Gr(vi)中连接中心学者节点vi与其他学者节点vj每种链接类型的向量。对连接相同两节点的链接类型的向量进行池化,可以得到包含异质语义的所述同质学术子网络,其中计算异质语义向量的公式如下:
ei,j=Θq∈M(i,j)eq (1)
其中,ei,j表示中心学者节点vi与其他学者节点vj之间的异质语义向量,Θ表示平均(mean)或最大化(max)池化算子,q表示中心学者节点vi与其他学者节点vj之间的链接类型,M(i,j)表示中心学者节点vi与其他学者节点vj之间的所有链接类型集合,eq表示中心学者节点vi与其他学者节点vj之间的链接类型q的向量。
图6示出了本发明一个实施例的将约简的异质学术子网络转换为同质学术子网络的示意图。如图6所示,在约简的异质学术子网络G3(S1)中,连接中心学者节点S1与学者节点S2的链接类型分别为SIS和SPS,通过查询链接类型嵌入表T可知,链接类型SIS的向量表示为eSIS,链接类型SIS的向量表示为eSPS,将eSIS和eSPS代入公式(1),得到学者节点S1与学者节点S2之间的异质语义向量e1,2;同理,连接中心学者节点S1与学者节点S3之间的链接类型为SIS,则通过查询链接类型嵌入表T可知,链接类型SIS的向量表示为eSIS,将eSIS代入公式(1),得到学者节点S1与学者节点S3之间的异质语义向量e1,3;连接中心学者节点S1为出发点的自环为SIS和SPS,则通过查询链接类型嵌入表T可知,链接类型SIS和SIS的向量表示为eSIS和eSPS,将eSIS和eSPS代入公式(1),得到学者节点S1的异质语义向量e1,1。最终得到包含异质语义的同质学术子网络G4(S1).
在其他实施例中,还可以在将异质学术子网络转换为同质学术子网络中为链接类型分配权重,以体现不同链接类型的对中心学者节点的重要性。可以通过如下公式将约简学术子图转换为包含异质语义的同质学术子图:
其中,ei,j表示中心学者节点vi与其他学者节点vj之间的异质语义向量,q表示中心学者节点vi与其他学者节点vj之间的链接类型,Q为所有链接类型的集合,M(i,j)表示中心学者节点vi与其他学者节点vj之间的所有链接类型集合,eq表示中心学者节点vi与其他学者节点vj之间的链接类型q的向量,βq表示用户为链接类型q设置的主观权重,且满足∑q∈Qβq=1,I为指示函数,如果q∈M(i,j),取值为1,否则为0。
通过将异质学术子网络进行约简和链接表示池化,将异质学术子网络换为同质学术子网络,能够在保留异质语义信息的同时,减小了计算复杂度。
S240,根据同质学术子网络中中心学者的邻域特征更新中心学者的特征。
如上所述,图卷积网络可以通过使图中每个节点将自身的特征信息传递给邻居节点,并将邻居节点及自身的特征信息进行汇集,来更新该节点的特征。因此可以利用图卷积网络的方法,根据同质学术子网络中中心学者的邻域特征更新中心学者的特征。
在一个实施例中,可以利用加权邻域聚合提取同质子网络中中心学者的邻域特征,并根据中心学者的特征及其邻域特征,更新中心学者的特征。在同质学术子网络中,每个节点周围的邻居节点及节点之间的异质语义即构成该节点的邻域。可以通过同质子网络Gm(vi)中其他学者节点vj对于中心学者节点vi的权重系数αj计算中心学者节点vi的邻域特征hi,其中,权重系数αj的计算公式如下:
αj=σ(Wc·[xi-xj,ei,j]+bc) (3)
其中,αj表示同质学术子网络中其他节点相对于所述中心学者的权重,σ表示sigmoid函数,Wc和bc表示线性的参数,xi表示中心学者的特征向量,xj表示其他节点的特征向量,ei,j表示中心学者与其他节点之间的异质语义向量。
基于其他学者节点vj对于中心学者节点vi的权重系数αj,利用度归一化及加权和综合其他学者节点特征,可以得到中心学者节点vi的邻域特征hi,公式如下:
其中,hi表示中心学者的邻域特征向量,|N(i)|表示同质学术子网络中节点的数量,Φ表示非线性转换函数,Wm、bm表示线性层参数,xj表示其他节点特征向量,ei,j表示中心学者与其他节点之间的异质语义向量。
通过融合中心学者节点vi的特征xi及其邻域特征hi更新中心学者节点vi的特征。在一个实施例中,可以将中心学者节点vi的特征向量与其邻域特征向量hi进行拼接,并进行非线性转换,获得更新后中心学者节点vi的特征向量xi′,公式如下:
xi′=Φ(Wg·[xi,hi]+bg) (5)
其中,xi′表示更新后中心学者的特征向量,Φ表示非线性转换函数,Wg、bg表示线性层参数,xi表示中心学者的特征向量,hi表示中心学者的邻域特征向量。
在另一个实施例中,还可以将中心节点的表示和邻域表示进行线性变换后,按权相加,然后加上偏量,经过非线性转换后得到更新的中心节点特征,公式如下:
其中,和/>是线性层参数,Φ表示非线性转换函数,bg表示偏量,θ是用户设置的记忆因子,表示在更新中心节点表示的过程中保留多少自身特征表示xi的信息,其取值范围为0~1。
在另一个实施例中,还可以将中心节点的邻域表示,进行线性变换,然后经过非线性转换后,作为中心节点更新的节点特征,公式如下:
x′i=Φ(Wg·hi+bg) (7)
通过加权邻域聚合,能够在得到邻域特征表示时对邻居学者进行了判别和区分,不仅综合了邻居学者的特征表示,而且减少不相关的邻居学者所引入的噪声,更能准确地建模网络的语义特征,使得学者画像结果更加精准。
S250,基于更新后中心学者节点的特征计算中心学者节点具备该属性的概率。
根据更新后中心学者节点vi的特征可以计算中心学者节点vi的属性的概率分布,进而基于中心学者节点vi的属性的概率分布确定中心学者节点vi具备该属性的概率。
在一个实施例中,可以对更新后的中心学者节点vi特征向量xi′进行线性变换,将其投影到属性的概率空间,从得到中心学者节点vi属性的概率分布。例如,属性集合C包含c1,c2,...,cK共K个属性,则中心学者节点vi在该属性的概率空间中的概率分布为p1,p2,...,pK。计算中心学者节点vi属性的概率分布的公式如下:
p=Ψ(Wt·xi′+bt) (8)
其中,p表示中心学者的属性的概率分布,Wt、bt表示线性层参数,xi′表示更新后中心学者的特征向量,当属性为单一值时,Ψ表示softmax函数;当属性为多项值时,Ψ表示sigmoid函数。
基于上述实施例可以看出,属性概率模型通过将异质学术网络划分为异质子网络并进行约简,又使用链接表示池化将异质学术子网络简化为包含异质语义信息的同质学术子网络,然后利用加权邻域聚合在同质学术子网络上更新中心学者的特征表示,最后基于中心学者的属性的概率分布来进行学者画像。与现有技术相比,该模型能够有效捕捉异质学术网络的多语义信息,适应大规模动态学术网络,不仅提高了学者画像所需的属性概率的准确度,而且简化并适应了大规模数据的计算。
S130,依据满足所述属性设置的属性信息对所述中心学者进行画像。
如上所述,属性设置包括进行学者画像所需的属性信息和/或学者具备该属性信息的概率所设定的相应阈值。
在一个实施例中,当进行学者画像所需的属性信息为单一值时,可以选取概率值最大的属性c作为中心学者vi的属性识别结果;当进行学者画像所需的属性信息为有多个时,可以设定一个概率值阈值δ,选择概率值大于阈值δ的属性取值作为中心学者vi的属性,以进行学者画像。
图7为根据本发明一个实施例的基于异质学术网络进行学者画像系统的结构示意图。如图7所示,该系统700包括接口模块701、预测模块702、画像模块703和训练模块704。尽管该框图以功能上分开的方式来描述组件,但这样的描述仅为了说明的目的。图中所示的组件可以任意地进行组合或被分为独立的软件、固件和/或硬件组件。而且,无论这样的组件是如何被组合或划分的,它们都可以在同一计算装置或多个计算装置上执行,其中多个计算装置可以是由一个或多个网络连接。
其中接口模块701用于获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括所需的属性信息以及为学者具备该属性的概率设定的相应阈值。预测模块702如上文介绍的那样用于利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率。画像模块703用于依据满足所述属性设置的属性信息对所述中心学者进行画像。训练模块704如上文介绍的那样用于根据采集的异质学术网络相关数据训练所述属性概率分布模型,以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,对所述属性概率分布模型进行训练。
以上实施例是以学术网络作为示例异质网络、以学者作为示例待识别节点、以学者画像为应用场景,但可以理解,本发明的方案同样适用于其他任何异构网络中的其他任何类型的节点以及其他任何场景,例如可以用于快速识别学术网络的论文,也可以应用于社交网络、知识图谱、推荐系统、新药研发、甚至生命科学等其他异质网络进行社团发现、链路预测等。
因此,在本发明的一个实施例中,还提供了一种识别异质网络中节点属性的方法,包括:依据待识别节点查找异质网络中包含所述待识别节点的异质子网络;约简异质子网络,并将其转换为包含异质语义的同质子网络;根据同质子网络中待识别节点的邻域特征更新待识别节点的特征;以及基于更新后待识别节点的特征确定待识别节点的属性。
在本发明的一个实施例中,可以以计算机程序的形式来实现本发明。计算机程序可以存储于各种存储介质(例如,硬盘、光盘、闪存等)中,当该计算机程序被处理器执行时,能够用于实现本发明的方法。
在本发明的另一个实施例中,可以以电子设备的形式来实现本发明。该电子设备包括处理器和存储器,在存储器中存储有计算机程序,当该计算机程序被处理器执行时,能够用于实现本发明的方法。
本文中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此,短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个本文中各处的出现并非必须指代相同的实施例。此外,特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此,结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合,只要该组合不是不符合逻辑的或不能工作。本文中出现的类似于“根据A”、“基于A”、“通过A”或“使用A”的表述意指非排他性的,也即,“根据A”可以涵盖“仅仅根据A”,也可以涵盖“根据A和B”,除非特别声明其含义为“仅仅根据A”。在本申请中为了清楚说明,以一定的顺序描述了一些示意性的操作步骤,但本领域技术人员可以理解,这些操作步骤中的每一个并非是必不可少的,其中的一些步骤可以被省略或者被其他步骤替代。这些操作步骤也并非必须以所示的方式依次执行,相反,这些操作步骤中的一些可以根据实际需要以不同的顺序执行,或者并行执行,只要新的执行方式不是不符合逻辑的或不能工作。例如,在一些实施例中,可以先设置虚拟对象相对于电子设备的距离或深度,再确定虚拟对象相对于电子设备的方向。
由此描述了本发明的至少一个实施例的几个方面,可以理解,对本领域技术人员来说容易地进行各种改变、修改和改进。这种改变、修改和改进意于在本发明的精神和范围内。虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。
Claims (8)
1.一种基于异质学术网络进行学者画像的方法,包括:
获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括学者的属性信息和/或为学者具备该属性信息的概率所设定的相应阈值;
利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率,包括:依据所述中心学者查找所述异质学术网络中包含所述中心学者的异质学术子网络;约简所述异质学术子网络,并将其转换为包含异质语义的同质学术子网络;根据所述同质学术子网络中所述中心学者的邻域特征更新所述中心学者的特征;以及基于更新后所述中心学者的特征计算所述中心学者具备所述属性信息的概率,其中,所述属性概率分布模型是以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,通过训练获得;
其中,根据所述同质学术子网络中所述中心学者的邻域特征更新所述中心学者的特征包括通过加权邻域聚合的方式提取所述同质学术子网络中所述中心学者的邻域特征,包括:
获取所述同质学术子网络中其他节点相对于所述中心学者的权重,公式如下:
αj=σ(Wc@[xi–xj,ei,j]+bc)
其中,αj表示同质学术子网络中其他节点相对于所述中心学者的权重,σ表示sigmoid函数,Wc和bc表示线性的参数,xi表示中心学者的特征向量,xj表示其他节点的特征向量,ei,j表示中心学者与其他节点之间的异质语义向量;以及
依据所述权重计算所述中心学者的邻域特征,公式如下:
其中,hi表示中心学者的邻域特征向量,|N(i)|表示同质学术子网络中节点的数量,Φ表示非线性转换函数,Wm、bm表示线性层参数,xj表示其他节点特征向量,ei,j表示中心学者与其他节点之间的异质语义向量;
以及
依据满足所述属性设置的属性信息对所述中心学者进行画像。
2.根据权利要求1所述的方法,其中,所述属性概率分布模型采用图神经网络模型。
3.根据权利要求1所述的方法,其中,所述依据所述中心学者查找异质学术网络中包含所述中心学者的异质学术子网络包括:
查找所述异质学术网络中以所述中心学者为起点的对称元路径;
将所述以所述中心学者为起点的所有对称元路径作为所述异质学术子网络。
4.根据权利要求3所述的方法,其中,所述约简所述异质学术子网络包括:
仅保留所述异质学术子网络中的所述中心学者节点以及其他学者节点;
将所述异质学术子网络中与所述对称元路径对应的链接类型作为连接的所述中心学者以及与其他学者节点的边;以及
为所述中心学者添加与所述对称元路径对应的链接类型的自环。
5.根据权利要求4所述的方法,其中,所述将其转换为包含异质语义的同质学术子网络包括:
获取约简后的所述异质学术子网络中所述链接类型的向量;
池化约简后的所述异质学术子网络中相同节点之间所述链接类型的向量,获得包含异质语义的所述同质学术子网络。
6.根据权利要求5所述的方法,其中,所述根据所述同质学术子网络中所述中心学者的邻域特征更新所述中心学者的特征包括:
提取所述同质学术子网络中所述中心学者的邻域特征;
基于所述中心学者的特征及其邻域特征更新所述中心学者的特征。
7.根据权利要求5所述的方法,其中,所述基于所述中心学者的特征及其邻域特征更新所述中心学者的特征包括:
将所述中心学者的特征向量和其邻域的特征向量进行拼接并进行非线性转换,获得更新后中心学者的特征,公式如下:
xi′=Φ(Wg·[xi,hi]+bg)
其中,xi′表示更新后中心学者的特征向量,Φ表示非线性转换函数,Wg、bg表示线性层参数,xi表示中心学者的特征向量,hi表示中心学者的邻域特征向量。
8.一种基于异质学术网络进行学者画像的系统,包括:
接口模块,用于获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括学者的属性信息以及为学者具备该属性的概率设定的相应阈值;
预测模块,用于利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率,包括:依据所述中心学者查找所述异质学术网络中包含所述中心学者的异质学术子网络;约简所述异质学术子网络,并将其转换为包含异质语义的同质学术子网络;根据所述同质学术子网络中所述中心学者的邻域特征更新所述中心学者的特征;以及基于更新后所述中心学者的特征计算所述中心学者具备所述属性信息的概率;
其中,根据所述同质学术子网络中所述中心学者的邻域特征更新所述中心学者的特征包括通过加权邻域聚合的方式提取所述同质学术子网络中所述中心学者的邻域特征,包括:
获取所述同质学术子网络中其他节点相对于所述中心学者的权重,公式如下:
αj=σ(Wc·[xi–xj,ei,j]+bc)
其中,αj表示同质学术子网络中其他节点相对于所述中心学者的权重,σ表示sigmoid函数,Wc和bc表示线性的参数,xi表示中心学者的特征向量,xj表示其他节点的特征向量,ei,j表示中心学者与其他节点之间的异质语义向量;以及
依据所述权重计算所述中心学者的邻域特征,公式如下:
其中,hi表示中心学者的邻域特征向量,|N(i)|表示同质学术子网络中节点的数量,Φ表示非线性转换函数,Wm、bm表示线性层参数,xj表示其他节点特征向量,ei,j表示中心学者与其他节点之间的异质语义向量;
画像模块,用于依据满足所述属性设置的属性信息对所述中心学者进行画像;以及
训练模块,用于根据采集的异质学术网络相关数据训练所述属性概率分布模型,以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,对所述属性概率分布模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010811268.9A CN112115971B (zh) | 2020-08-13 | 2020-08-13 | 一种基于异质学术网络进行学者画像的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010811268.9A CN112115971B (zh) | 2020-08-13 | 2020-08-13 | 一种基于异质学术网络进行学者画像的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115971A CN112115971A (zh) | 2020-12-22 |
CN112115971B true CN112115971B (zh) | 2024-01-09 |
Family
ID=73804934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010811268.9A Active CN112115971B (zh) | 2020-08-13 | 2020-08-13 | 一种基于异质学术网络进行学者画像的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115971B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112953825A (zh) * | 2021-01-26 | 2021-06-11 | 中山大学 | 一种属性异构网络嵌入方法、装置、设备和介质 |
CN113051454B (zh) * | 2021-02-25 | 2023-12-08 | 中国科学院计算技术研究所 | 基于学术网络的学者画像方法及系统 |
CN113869461B (zh) * | 2021-07-21 | 2024-03-12 | 中国人民解放军国防科技大学 | 一种用于科学合作异质网络的作者迁移分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609889A (zh) * | 2019-08-30 | 2019-12-24 | 中国科学院计算技术研究所 | 基于学术网络确定对象重要性排名及选择评审专家的方法和系统 |
CN110689385A (zh) * | 2019-10-16 | 2020-01-14 | 国网山东省电力公司信息通信公司 | 一种基于知识图谱的电力客服用户画像构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359249B (zh) * | 2018-09-29 | 2020-07-10 | 清华大学 | 基于学者科研成果挖掘的学者精准定位方法及装置 |
-
2020
- 2020-08-13 CN CN202010811268.9A patent/CN112115971B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609889A (zh) * | 2019-08-30 | 2019-12-24 | 中国科学院计算技术研究所 | 基于学术网络确定对象重要性排名及选择评审专家的方法和系统 |
CN110689385A (zh) * | 2019-10-16 | 2020-01-14 | 国网山东省电力公司信息通信公司 | 一种基于知识图谱的电力客服用户画像构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112115971A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215837B (zh) | 多属性图像语义分析方法和装置 | |
CN112115971B (zh) | 一种基于异质学术网络进行学者画像的方法及系统 | |
CN110263280B (zh) | 一种基于多视图的动态链路预测深度模型及应用 | |
US9754188B2 (en) | Tagging personal photos with deep networks | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN111914156A (zh) | 自适应标签感知的图卷积网络跨模态检索方法、系统 | |
CN113626723B (zh) | 一种基于表示学习的属性图社区搜索方法和系统 | |
CN111652329B (zh) | 一种图像分类方法、装置、存储介质和电子设备 | |
CN113780002A (zh) | 基于图表示学习和深度强化学习的知识推理方法及装置 | |
CN110993037A (zh) | 一种基于多视图分类模型的蛋白质活性预测装置 | |
CN112199532A (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN112966165A (zh) | 基于图神经网络的交互式社区搜索方法及装置 | |
Zhou et al. | Betweenness centrality-based community adaptive network representation for link prediction | |
CN111090765B (zh) | 一种基于缺失多模态哈希的社交图像检索方法及系统 | |
CN114723037A (zh) | 一种聚合高阶邻居节点的异构图神经网络计算方法 | |
Kang et al. | A random forest classifier with cost-sensitive learning to extract urban landmarks from an imbalanced dataset | |
CN113887698B (zh) | 基于图神经网络的整体知识蒸馏方法和系统 | |
CN115828143A (zh) | 基于图卷积和自注意力机制实现异构图元路径聚合的节点分类方法 | |
CN117151052B (zh) | 一种基于大语言模型和图算法的专利查询报告生成方法 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN116756600A (zh) | 一种基于随机游走的属性网络嵌入和社区发现方法 | |
CN116166977A (zh) | 一种基于时序图神经网络的物联网服务聚类方法 | |
CN114429460A (zh) | 一种基于属性感知关系推理的通用图像美学评估方法和装置 | |
CN118381780B (zh) | 地址发现方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |