CN114817571A - 基于动态知识图谱的成果被引用量预测方法、介质及设备 - Google Patents

基于动态知识图谱的成果被引用量预测方法、介质及设备 Download PDF

Info

Publication number
CN114817571A
CN114817571A CN202210530426.2A CN202210530426A CN114817571A CN 114817571 A CN114817571 A CN 114817571A CN 202210530426 A CN202210530426 A CN 202210530426A CN 114817571 A CN114817571 A CN 114817571A
Authority
CN
China
Prior art keywords
achievement
graph
influence
attribute
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210530426.2A
Other languages
English (en)
Other versions
CN114817571B (zh
Inventor
庄越挺
宗畅
邵健
鲁伟明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210530426.2A priority Critical patent/CN114817571B/zh
Publication of CN114817571A publication Critical patent/CN114817571A/zh
Application granted granted Critical
Publication of CN114817571B publication Critical patent/CN114817571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于动态知识图谱的成果被引用量预测方法、介质及设备。本发明通过构建面向科技成果的动态时序知识图谱数据,利用图神经网络、循环神经网络、时序预测函数等算法模块,将成果的特征表示为成果相关多维度属性历史特征的聚合,并以成果历史引用量为标签,对成果未来多年的引用量进行预测。该方法可充分利用成果属性和成果间引用关系所构成的图谱结构信息,可支持对刚发布的成果进行较为准确的预测以解决冷启动问题。此外,该方法将图谱结构与时间序列特征充分融合,在特征表示和特征聚合环节均引入时间维度,训练所得到的模型在误差指标评估方面比同类任务方法有明显的提升。该方法可被用于解决科技创新场景下的多种实际任务。

Description

基于动态知识图谱的成果被引用量预测方法、介质及设备
技术领域
本发明涉及人工智能、知识图谱构建、知识表征推理、时间序列预测等领域,具体涉及一种基于动态知识图谱的成果被引用量预测方法、介质及设备。
背景技术
论文、专利等文献成果的引用率是指其在其他文献中的被引用次数,文献成果的引用率是衡量一个成果拥有者在所在研究领域影响力和被认可度的重要标志之一。对文献成果的引用量进行预测不仅可以帮助快速识别目标领域中有影响力的重要成果,而且有助于了解技术发展趋势、预测技术热点等等。
例如,在现有技术中,申请号为CN202011393595.3的发明专利公开了一种基于注意力机制的论文引用量预测方法与系统,该方案中对于待预测的论文,首先使用深度神经网络来提取特征,然后通过注意模块过滤掉那些不重要的句子,从而将较长的论文简化为较短的文本,再将这个精简的版本输入预测模型,即可在硬件资源有限的情况下充分利用论文信息,来更准确地预测论文引用量。申请号为CN201810474777.X的发明专利公开了一种基于学术大数据的论文影响力预测方法,该方法通过给定一批学术数据,基于点估计的论文影响力预测模型的目的是在已有模型的基础上,通过分析驱动论文引用量演化的因素,扩展已有模型使之能够有效地预测论文未来的引用量。
但是,现有技术中的上述已有方案在预测准确率、冷启动、模型训练等一个或多个方面均存在缺陷,有待于进一步改进。
发明内容
本发明的目的在于解决现有技术中存在的问题,并提供一种基于动态知识图谱的成果被引用量预测方法
本发明具体采用的技术方案如下:
第一方面,本发明提供了一种基于动态知识图谱的成果被引用量预测方法,其包括如下步骤:
S1、针对预先收集的目标类别成果引用数据,通过数据处理和图计算方法,以成果及影响其引用量的属性作为节点,构建出面向目标类别成果的动态知识图谱,并构建用于引用量预测的标签数据集;
S2、构建成果被引用量预测网络模型,模型包括级联的时间增强图神经网络特征表示模块、成果属性时序影响力聚合表示模块和成果未来被引用量曲线计算模块;
所述时间增强图神经网络特征表示模块中,利用融合异构图信息和时间信息的图卷积神经网络算法,对动态知识图谱中的每个节点进行特征向量表示;
所述成果属性时序影响力聚合表示模块中,利用循环神经网络算法对每个成果的所有属性对象的历史特征进行影响力表示,进而聚合到成果对象上用于表示成果的当前影响力特征;
所述成果未来被引用量曲线计算模块中,利用预先选定的被引用量曲线函数,并基于函数中的可学习参数,以成果影响力当前特征为输入,得到成果在未来多个时间点的被引用量;
S3、利用S1中的所述标签数据集对S2中构建的成果被引用量预测网络模型进行迭代训练,每一轮迭代训练过程中需根据选定的误差函数对成果在未来多个时间点的被引用量与实际被引用量进行误差计算,并利用深度学习框架进行误差反向传播,更新整个模型的参数;迭代训练至模型收敛后,利用训练后的成果被引用量预测网络模型进行成果被引用量预测。
作为上述第一方面的优选,所述S1中,动态图谱构建包括历年成果图谱的图邻接矩阵生成、图谱节点特征的高斯分布初始化、图谱节点的ID化三个数据处理步骤,所构建出的动态知识图谱的节点为成果及影响其引用量的属性。
作为上述第一方面的优选,所述S1中,所构建的标签数据集,是针对共N年时长的成果动态图谱,从第N/2+1年的成果节点开始,计算每个成果在未来连续N/2年的被引用量得到的,且成果在待预测年的被引用量预测以待预测年之前连续N/2年的历史被引用量作为输入模型的历史时序。
作为上述第一方面的优选,所述目标类别成果为专利或论文,不同目标类别成果需分别构建不同的动态知识图谱;
若目标类别成果为专利,则对应构建的专利动态知识图谱中的节点为专利以及影响专利引用量的申请人、拥有国、分类号三种属性对象,图中的节点关系类型包含专利与专利间的引用关系、申请人与专利之间的申请关系、拥有国与专利之间的拥有关系以及分类号与专利之间的主题关系;
若目标类别成果为论文,则对应构建的论文动态知识图谱中的节点为论文以及影响论文引用量的学者、期刊、关键词三种属性对象,图中的节点关系类型包括论文与论文间的引用关系、学者与论文间的作者关系、期刊与论文间的刊载关系以及关键词与论文间的主题关系。
作为上述第一方面的优选,所述时间增强图神经网络特征表示模块中,共具有L层图神经网络;第l+1层图神经网络在对每个节点进行邻居特征聚合的同时,将上一个邻近时间图谱中同一个节点及其邻居的特征也聚合进来,以实现时间增强,得到的时间增强图神经网络特征计算公式如下:
Figure BDA0003645993430000031
其中,
Figure BDA0003645993430000032
为节点i在第l+1层图神经网络的特征向量,r为图谱中属性关系类型集合R内的一种节点关系类型,
Figure BDA0003645993430000033
为节点i在时间点t时关系类型为r的邻居节点,Wr (l)为关系类型为r的邻居节点在第l层的聚合权重,Wt (l)为从t-1时刻到t时刻同一邻居节点在第l层图神经网络的聚合权重,l∈[0,…,L-1]。
作为上述第一方面的优选,所述成果属性时序影响力聚合表示模块由成果属性时序影响力表示环节和成果属性影响力聚合表示环节组成;
所述的成果属性时序影响力表示环节中,基于所述时间增强图神经网络特征表示模块中最后一层图神经网络输出的特征向量表示结果,将成果的每个属性对象历史每年的特征向量序列输入针对不同关系类型的双向循环神经网络算法,并通过全连接层,得到当前时间点的成果属性对象的特征向量,用于表示属性对象的当前影响力;属性对象的当前影响力计算公式如下:
Figure BDA0003645993430000034
其中,
Figure BDA0003645993430000035
表示在t0时刻的影响力,Or(p)表示成果p对于关系类型r的属性对象,FCr(·)表示针对关系类型r的全连接层操作,
Figure BDA0003645993430000036
Figure BDA0003645993430000037
表示针对关系类型r的双向长短期记忆神经网络层操作,||表示连接操作;seq表示属性对象的历年特征序列:
Figure BDA0003645993430000041
其中,
Figure BDA0003645993430000042
表示与成果p之间关系类型为r的属性对象在t0-Δt时间点的特征向量,即第L层图神经网络输出的该属性对象对应节点的特征向量
Figure BDA0003645993430000043
Δt表示用于预测成果被引用量的历史时序长度。
所述的成果属性影响力聚合表示环节中,成果在当前时间点的影响力表示为其各个属性对象影响力特征在不同程度上的分解再聚合,即每种属性对象的影响力对于成果的作用程度与其对成果的贡献度和属性类型相关;成果属性影响力当前聚合后的当前影响力计算公式如下:
Figure BDA0003645993430000044
其中,
Figure BDA0003645993430000045
表示t0时刻成果p的当前影响力,
Figure BDA0003645993430000046
表示t0时间点成果p对于关系类型r的属性对象的影响力,R为成果p所拥有的所有属性关系类型集合,Wa和Wb分别为属性对象对于成果的两种贡献度权重,Wr为成果p对于关系类型r的属性影响力聚合时的权重。
作为上述第一方面的优选,所述成果未来被引用量曲线计算模块中,选取通用Logistic函数作为被引用量曲线函数,函数以时间点和另外四个变量为参数,所述四个变量分别表示最大被引用规模、被引用量增长速率、初次被引用滞后度、被引用量曲线平滑度;通用Logistic函数计算公式如下:
Figure BDA0003645993430000047
其中,ft(p)为成果p在时间点t的被引用量,θ1(p)为成果p的最大被引用规模,θ2(p)为成果p的被引用量增长速率,θ3(p)为成果p的初次被引用滞后度,ξ(p)为成果p的被引用量曲线平滑度;
其中对于每个成果p,所述四个变量参数由该成果当前时间点t0的影响力决定,变量参数的具体数值与成果当前影响力之间存在函数关系,该函数关系由多层感知机学习得出,第i个变量参数的计算公式为:
Figure BDA0003645993430000051
其中,θi(p)为成果p未来被引用量函数的第i个参数,MLPi(·)为计算第i个参数的多层感知机操作,
Figure BDA0003645993430000052
为成果p在t0时间点的当前影响力特征向量,i=1,2,3,4。
作为上述第一方面的优选,所述S3中,选定的误差函数采用RMLSE(Root MeanSquare Logarithmic Error)或MALE(Mean Absolute Logarithmic Error)。
第二方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现如第一方面任一方案所述的基于动态知识图谱的成果被引用量预测方法。
第三方面,本发明提供了一种基于动态知识图谱的成果被引用量预测设备,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,能实现如第一方面任一方案所述的基于动态知识图谱的成果被引用量预测方法。
相对于现有技术而言,本发明的有益效果如下:
本发明通过构建面向专利、论文等成果的动态时序知识图谱数据,利用图神经网络、循环神经网络、时序预测函数等算法模块,将成果的特征表示为成果相关多维度属性历史特征的聚合,并以成果历史引用量为标签,对成果未来多年的引用量进行预测。该方法可充分利用成果属性和成果间引用关系所构成的图谱结构信息,可支持对刚发布的成果进行较为准确的预测以解决冷启动问题。此外,该方法将图谱结构与时间序列特征充分融合,在特征表示和特征聚合环节均引入时间维度,训练所得到的模型在误差指标评估方面比同类任务方法有明显的性能提升。该方法可被用于解决科技创新场景下的多种实际任务,如潜在影响力成果发现、高影响力学者预测、技术热点预测、技术发展趋势预测等。
附图说明
图1为基于动态知识图谱的成果被引用量预测方法的流程图。
图2为基于动态知识图谱的成果被引用量预测系统的模块示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
如图1所示,在本发明的一个较佳实施例中,提供了一种基于动态知识图谱的成果被引用量预测方法,其包括如下步骤:
S1、针对预先收集的目标类别成果引用数据,通过数据处理和图计算方法,以成果及影响其引用量的属性作为节点,构建出面向目标类别成果的动态知识图谱,并构建用于引用量预测的标签数据集。
在本实施例中,上述步骤S1可以通过科技成果动态图谱与数据集构建模块来实现。科技成果动态图谱与数据集构建模块由动态图谱构建环节和标签数据集构建环节组成。
在动态图谱构建环节中,动态图谱构建包括历年成果图谱的图邻接矩阵生成、图谱节点特征的高斯分布初始化、图谱节点的ID化三个数据处理步骤,这三个数据处理步骤所用方法均可通过开源工具包实现。此环节中所构建出的动态知识图谱的节点为成果及影响其引用量的属性。
本发明中的科技成果类型不限,后续实例中分别以专利或论文作为目标类别成果。考虑到不同成果类型的被引用量的影响因素不同,因此不同目标类别成果需分别构建不同的动态知识图谱。以专利或论文为例,若目标类别成果为专利,则对应构建的专利动态知识图谱中的节点为专利以及影响专利引用量的申请人、拥有国、分类号三种属性对象,图中的节点关系类型包含专利与专利间的引用关系、申请人与专利之间的申请关系、拥有国与专利之间的拥有关系以及分类号与专利之间的主题关系;若目标类别成果为论文,则对应构建的论文动态知识图谱中的节点为论文以及影响论文引用量的学者、期刊、关键词三种属性对象,图中的节点关系类型包括论文与论文间的引用关系、学者与论文间的作者关系、期刊与论文间的刊载关系以及关键词与论文间的主题关系。
在本实施例中,两类成果类型数据所构建的动态知识图谱中的节点关系类型表示如表1所示:
表1两种目标类别成果的动态知识图谱的节点关系类型
Figure BDA0003645993430000071
另外,在标签数据集构建环节中,所构建的标签数据集,是针对共N年时长的成果动态图谱,从第N/2+1年的成果节点开始,计算每个成果在未来连续N/2年的被引用量得到的。对于从第N/2+1年开始的任意一年,将其称为待预测年,则成果在待预测年的被引用量预测以待预测年之前连续N/2年的历史被引用量作为输入模型的历史时序,也就是说以待预测年之前连续N/2年的历史被引用量作为模型输入,通过模型来预测待预测年的被引用量。按照该做法,对N年时长的成果引用数据进行标签设置从而形成一系列带标签的样本,构成标签数据集。
S2、构建成果被引用量预测网络模型,模型包括级联的时间增强图神经网络特征表示模块、成果属性时序影响力聚合表示模块和成果未来被引用量曲线计算模块。下面分别成果被引用量预测网络模型的整体框架中三个进行详细描述。
1)时间增强图神经网络特征表示模块中,其处理流程是利用融合异构图信息和时间信息的图卷积神经网络算法,对动态知识图谱中的每个节点进行特征向量表示。
在本实施例中,所述时间增强图神经网络特征表示模块中,共具有L层图神经网络。该模块是基于开源的R-GCN算法进行优化得到的,具体而言,第l+1层图神经网络在对每个节点进行邻居特征聚合的同时,将上一个邻近时间图谱中同一个节点及其邻居的特征也聚合进来,以实现时间增强,得到的时间增强图神经网络特征计算公式如下:
Figure BDA0003645993430000072
其中,
Figure BDA0003645993430000073
为节点i在第l+1层图神经网络的特征向量,r为图谱中属性关系类型集合R内的一种节点关系类型。本实施例中,图谱中属性关系类型集合R可参见表1。
Figure BDA0003645993430000081
为节点i在时间点t时关系类型为r的邻居节点,Wr (l)为关系类型为r的邻居节点在第l层的聚合权重,Wt (l)为从t-1时刻到t时刻同一邻居节点在第l层图神经网络的聚合权重,l∈[0,...,L-1]。
最后一层图神经网络输出的各节点的特征向量
Figure BDA0003645993430000082
作为时间增强图神经网络特征表示模块的最终输出,用于在成果属性时序影响力聚合表示模块进行特征聚合。
2)成果属性时序影响力聚合表示模块中,其处理流程是利用循环神经网络算法对每个成果的所有属性对象的历史特征进行影响力表示,进而聚合到成果对象上用于表示成果的当前影响力特征。
在本实施例中,成果属性时序影响力聚合表示模块由成果属性时序影响力表示环节和成果属性影响力聚合表示环节组成。成果属性时序影响力表示环节和成果属性影响力聚合表示环节的具体做法如下:
2.1)成果属性时序影响力表示环节中,基于所述时间增强图神经网络特征表示模块中最后一层图神经网络输出的特征向量表示结果,将成果的每个属性对象历史每年的特征向量序列输入针对不同关系类型的双向循环神经网络算法,并通过全连接层,得到当前时间点的成果属性对象的特征向量,用于表示属性对象的当前影响力;属性对象的当前影响力计算公式如下:
Figure BDA0003645993430000083
其中,
Figure BDA0003645993430000088
表示在t0时刻的影响力;Or(p)表示成果p对于关系类型r的属性对象,即与成果p间的关系类型为r的属性对象。需注意,属性对象需要根据成果类型而定,在本实施例中对于专利而言属性对象包括申请人、拥有国、分类号,而对于论文而言对象包括学者、期刊、关键词;FCr(·)表示针对关系类型r的全连接层操作,
Figure BDA0003645993430000084
Figure BDA0003645993430000085
表示针对关系类型r的双向长短期记忆神经网络层操作,||表示连接操作;seq表示属性对象的历年特征序列:
Figure BDA0003645993430000086
其中,
Figure BDA0003645993430000087
表示与成果p之间关系类型为r的属性对象在t0-Δt时间点的特征向量,即第L层图神经网络输出的该属性对象对应节点的特征向量
Figure BDA0003645993430000091
Δt表示用于预测成果被引用量的历史时序长度。
2.2)成果属性影响力聚合表示环节中,成果在当前时间点的影响力表示为其各个属性对象影响力特征在不同程度上的分解再聚合,即每种属性对象的影响力对于成果的作用程度与其对成果的贡献度和属性类型相关;成果属性影响力当前聚合后的当前影响力计算公式如下:
Figure BDA0003645993430000092
其中,
Figure BDA0003645993430000093
表示t0时刻成果p的当前影响力,
Figure BDA0003645993430000094
表示t0时间点成果p对于关系类型r的属性对象的影响力,R为成果p所拥有的所有属性关系类型集合,Wa和Wb分别为属性对象对于成果的高贡献度权重与低贡献度权重,Wr为成果p对于关系类型r的属性影响力聚合时的权重。
3)成果未来被引用量曲线计算模块中,其处理流程是利用预先选定的被引用量曲线函数,并基于函数中的可学习参数,以成果影响力当前特征为输入,得到成果在未来多个时间点的被引用量。
在本实施例中,成果未来被引用量曲线计算模块中,选取通用Logistic函数作为被引用量曲线函数,函数以时间点和另外四个变量为参数,所述另外四个变量分别表示最大被引用规模、被引用量增长速率、初次被引用滞后度、被引用量曲线平滑度。具体而言,通用Logistic函数计算公式如下:
Figure BDA0003645993430000095
其中,ft(p)为成果p在时间点t的被引用量,θ1(p)为成果p的最大被引用规模,θ2(p)为成果p的被引用量增长速率,θ3(p)为成果p的初次被引用滞后度,ξ(p)为成果p的被引用量曲线平滑度。
其中对于每个成果p,所述四个变量参数由该成果当前时间点t0的影响力决定,其未来被引用量曲线的变量参数的具体数值与成果当前影响力之间存在函数关系,该函数关系由多层感知机学习得出,第i个变量参数的计算公式为:
Figure BDA0003645993430000096
其中,θi(p)为成果p未来被引用量函数的第i个参数,MLPi(·)为计算第i个参数的多层感知机操作,
Figure BDA0003645993430000101
为成果p在t0时间点的当前影响力特征向量,i=1,2,3,4。多层感知机操作中的模型参数属于可学习参数,在训练过程中需进行优化。
S3、利用S1中的所述标签数据集对S2中构建的成果被引用量预测网络模型进行迭代训练,每一轮迭代训练过程中需根据选定的误差函数对成果在未来多个时间点的被引用量与实际被引用量进行误差计算,并利用深度学习框架进行误差反向传播,更新整个模型的参数;迭代训练至模型收敛后,利用训练后的成果被引用量预测网络模型进行成果被引用量预测。
上述步骤S3的训练过程可通过成果被引用量误差计算与模型参数学习模块来实现。在进行具体训练过程中,需根据实际选定误差函数作为优化的损失,本实施例中选定的误差函数采用RMLSE(Root Mean Square Logarithmic Error)或MALE(MeanAbsoluteLogarithmic Error),两者可根据实际需要进行选用。模型的训练属于现有技术,上述标签数据集在训练前可分为训练集和验证集,分别用于模型的参数优化和性能验证。
为了展示上述S1~S3所示的基于动态知识图谱的成果被引用量预测方法在实际数据集上的测试结果。其中,误差函数采用RMLSE(Root Mean Square Logarithmic Error)和MALE(Mean Absolute Logarithmic Error)两种分别进行评估。模型分别针对APS公开数据集(美国物理学会论文数据)和AIPatent自构建数据集(全球人工智能领域专利数据)两个数据集进行训练与评估。其中,APS共有10年的数据,以前5年的图谱来预测后5年的被引用量;AIPatent共有20年的数据,以前10年的图谱来预测后10年的被引用量。模型学习优化器选择Adam,学习率设为0.01,训练迭代轮数为20,训练集与验证集随机取自当前年份的10000条样本。
误差函数如下:
MALE:
Figure BDA0003645993430000102
RMLSE:
Figure BDA0003645993430000111
实验结果如下表:
Figure BDA0003645993430000112
本发明的方法模型所对比的模型中包括同类任务中最先进的模型,HINTS(https://dl.acm.org/doi/10.1145/3442381.3450107),用RGCN-Static-Log表示,还包括针对HINTS每个环节的部分优化后的多种模型。可以看出,本方法(Our)所构建的模型用更少的迭代轮数获得了更低的预测误差,性能提升比较明显。
需说明的是,上述S1~S3均可以通过计算机程序构建的功能模块来实现,其整体构成的基于动态知识图谱的成果被引用量预测系统如图2所示,各功能模块可以计算机程序形式存储在存储介质上,以实现相应功能。
因此,在本发明的另一实施例中,基于相同的发明构思,还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现如前述S1~S3所述的基于动态知识图谱的成果被引用量预测方法。
在本发明的另一实施例中,基于相同的发明构思,还提供了一种基于动态知识图谱的成果被引用量预测设备,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,能实现如前述S1~S3所述的基于动态知识图谱的成果被引用量预测方法。
需要注意的是,上述的存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、神经网络处理器(Neural Processor Unit,NPU)等;还可以是数字信号处理器(DigitalSignal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。当然,还装置中还应当具有实现程序运行的必要组件,例如电源、通信总线等等。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于动态知识图谱的成果被引用量预测方法,其特征在于,包括如下步骤:
S1、针对预先收集的目标类别成果引用数据,通过数据处理和图计算方法,以成果及影响其引用量的属性作为节点,构建出面向目标类别成果的动态知识图谱,并构建用于引用量预测的标签数据集;
S2、构建成果被引用量预测网络模型,模型包括级联的时间增强图神经网络特征表示模块、成果属性时序影响力聚合表示模块和成果未来被引用量曲线计算模块;
所述时间增强图神经网络特征表示模块中,利用融合异构图信息和时间信息的图卷积神经网络算法,对动态知识图谱中的每个节点进行特征向量表示;
所述成果属性时序影响力聚合表示模块中,利用循环神经网络算法对每个成果的所有属性对象的历史特征进行影响力表示,进而聚合到成果对象上用于表示成果的当前影响力特征;
所述成果未来被引用量曲线计算模块中,利用预先选定的被引用量曲线函数,并基于函数中的可学习参数,以成果影响力当前特征为输入,得到成果在未来多个时间点的被引用量;
S3、利用S1中的所述标签数据集对S2中构建的成果被引用量预测网络模型进行迭代训练,每一轮迭代训练过程中需根据选定的误差函数对成果在未来多个时间点的被引用量与实际被引用量进行误差计算,并利用深度学习框架进行误差反向传播,更新整个模型的参数;迭代训练至模型收敛后,利用训练后的成果被引用量预测网络模型进行成果被引用量预测。
2.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法,其特征在于,所述S1中,动态图谱构建包括历年成果图谱的图邻接矩阵生成、图谱节点特征的高斯分布初始化、图谱节点的ID化三个数据处理步骤,所构建出的动态知识图谱的节点为成果及影响其引用量的属性。
3.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法,其特征在于,所述S1中,所构建的标签数据集,是针对共N年时长的成果动态图谱,从第N/2+1年的成果节点开始,计算每个成果在未来连续N/2年的被引用量得到的,且成果在待预测年的被引用量预测以待预测年之前连续N/2年的历史被引用量作为输入模型的历史时序。
4.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法,其特征在于,所述目标类别成果为专利或论文,不同目标类别成果需分别构建不同的动态知识图谱;
若目标类别成果为专利,则对应构建的专利动态知识图谱中的节点为专利以及影响专利引用量的申请人、拥有国、分类号三种属性对象,图中的节点关系类型包含专利与专利间的引用关系、申请人与专利之间的申请关系、拥有国与专利之间的拥有关系以及分类号与专利之间的主题关系;
若目标类别成果为论文,则对应构建的论文动态知识图谱中的节点为论文以及影响论文引用量的学者、期刊、关键词三种属性对象,图中的节点关系类型包括论文与论文间的引用关系、学者与论文间的作者关系、期刊与论文间的刊载关系以及关键词与论文间的主题关系。
5.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法,其特征在于,所述时间增强图神经网络特征表示模块中,共具有L层图神经网络;第l+1层图神经网络在对每个节点进行邻居特征聚合的同时,将上一个邻近时间图谱中同一个节点及其邻居的特征也聚合进来,以实现时间增强,得到的时间增强图神经网络特征计算公式如下:
Figure FDA0003645993420000021
其中,
Figure FDA0003645993420000022
为节点i在第l+1层图神经网络的特征向量,r为图谱中属性关系类型集合R内的一种节点关系类型,
Figure FDA0003645993420000023
为节点i在时间点t时关系类型为r的邻居节点,
Figure FDA0003645993420000024
为关系类型为r的邻居节点在第l层的聚合权重,Wt (l)为从t-1时刻到t时刻同一邻居节点在第l层图神经网络的聚合权重,l∈[0,...,L-1]。
6.如权利要求5所述的基于动态知识图谱的成果被引用量预测方法,其特征在于,所述成果属性时序影响力聚合表示模块由成果属性时序影响力表示环节和成果属性影响力聚合表示环节组成;
所述的成果属性时序影响力表示环节中,基于所述时间增强图神经网络特征表示模块中最后一层图神经网络输出的特征向量表示结果,将成果的每个属性对象历史每年的特征向量序列输入针对不同关系类型的双向循环神经网络算法,并通过全连接层,得到当前时间点的成果属性对象的特征向量,用于表示属性对象的当前影响力;属性对象的当前影响力计算公式如下:
Figure FDA0003645993420000031
其中,
Figure FDA0003645993420000032
表示在t0时刻的影响力,Or(p)表示成果p对于关系类型r的属性对象,FCr(·)表示针对关系类型r的全连接层操作,
Figure FDA0003645993420000033
Figure FDA0003645993420000034
表示针对关系类型r的双向长短期记忆神经网络层操作,||表示连接操作;seq表示属性对象的历年特征序列:
Figure FDA0003645993420000035
其中,
Figure FDA0003645993420000036
表示与成果p之间关系类型为r的属性对象在t0-Δt时间点的特征向量,即第L层图神经网络输出的该属性对象对应节点的特征向量
Figure FDA0003645993420000037
Δt表示用于预测成果被引用量的历史时序长度。
所述的成果属性影响力聚合表示环节中,成果在当前时间点的影响力表示为其各个属性对象影响力特征在不同程度上的分解再聚合,即每种属性对象的影响力对于成果的作用程度与其对成果的贡献度和属性类型相关;成果属性影响力当前聚合后的当前影响力计算公式如下:
Figure FDA0003645993420000038
其中,
Figure FDA0003645993420000039
表示t0时刻成果p的当前影响力,
Figure FDA00036459934200000310
表示t0时间点成果p对于关系类型r的属性对象的影响力,R为成果p所拥有的所有属性关系类型集合,Wa和Wb分别为属性对象对于成果的两种贡献度权重,Wr为成果p对于关系类型r的属性影响力聚合时的权重。
7.如权利要求6所述的基于动态知识图谱的成果被引用量预测方法,其特征在于,所述成果未来被引用量曲线计算模块中,选取通用Logistic函数作为被引用量曲线函数,函数以时间点和另外四个变量为参数,所述四个变量分别表示最大被引用规模、被引用量增长速率、初次被引用滞后度、被引用量曲线平滑度;通用Logistic函数计算公式如下:
Figure FDA0003645993420000041
其中,ft(p)为成果p在时间点t的被引用量,θ1(p)为成果p的最大被引用规模,θ2(p)为成果p的被引用量增长速率,θ3(p)为成果p的初次被引用滞后度,ξ(p)为成果p的被引用量曲线平滑度;
其中对于每个成果p,所述四个变量参数由该成果当前时间点t0的影响力决定,变量参数的具体数值与成果当前影响力之间存在函数关系,该函数关系由多层感知机学习得出,第i个变量参数的计算公式为:
Figure FDA0003645993420000042
其中,θi(p)为成果p未来被引用量函数的第i个参数,MLPi(·)为计算第i个参数的多层感知机操作,
Figure FDA0003645993420000043
为成果p在t0时间点的当前影响力特征向量,i=l,2,3,4。
8.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法,其特征在于,所述S3中,选定的误差函数采用RMLSE(Root Mean Square Logarithmic Error)或MALE(MeanAbsolute Logarithmic Error)。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现如权利要求1~8任一所述的基于动态知识图谱的成果被引用量预测方法。
10.一种基于动态知识图谱的成果被引用量预测设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~8任一所述的基于动态知识图谱的成果被引用量预测方法。
CN202210530426.2A 2022-05-16 2022-05-16 基于动态知识图谱的成果被引用量预测方法、介质及设备 Active CN114817571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210530426.2A CN114817571B (zh) 2022-05-16 2022-05-16 基于动态知识图谱的成果被引用量预测方法、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210530426.2A CN114817571B (zh) 2022-05-16 2022-05-16 基于动态知识图谱的成果被引用量预测方法、介质及设备

Publications (2)

Publication Number Publication Date
CN114817571A true CN114817571A (zh) 2022-07-29
CN114817571B CN114817571B (zh) 2023-03-28

Family

ID=82515202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210530426.2A Active CN114817571B (zh) 2022-05-16 2022-05-16 基于动态知识图谱的成果被引用量预测方法、介质及设备

Country Status (1)

Country Link
CN (1) CN114817571B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561688A (zh) * 2023-05-09 2023-08-08 浙江大学 基于动态图异常检测的新兴技术识别方法
CN116882495A (zh) * 2023-02-27 2023-10-13 中央民族大学 一种基于动态知识图谱的前沿基因技术安全画像方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208038A (zh) * 2013-05-03 2013-07-17 武汉大学 一种专利引进预测值的计算方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法
KR20190099811A (ko) * 2018-02-20 2019-08-28 한국전자통신연구원 순환신경망 기반 시계열 신호 예측 장치 및 방법
CN110598954A (zh) * 2019-09-24 2019-12-20 中国人民大学 基于深度学习的利用评审意见预测论文被引用数的方法
CN112668305A (zh) * 2020-12-03 2021-04-16 华中科技大学 一种基于注意力机制的论文引用量预测方法与系统
CN112905891A (zh) * 2021-03-05 2021-06-04 中国科学院计算机网络信息中心 基于图神经网络的科研知识图谱人才推荐方法及装置
CN114443858A (zh) * 2022-01-20 2022-05-06 电子科技大学(深圳)高等研究院 一种基于图神经网络的多模态知识图谱表示学习方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208038A (zh) * 2013-05-03 2013-07-17 武汉大学 一种专利引进预测值的计算方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法
KR20190099811A (ko) * 2018-02-20 2019-08-28 한국전자통신연구원 순환신경망 기반 시계열 신호 예측 장치 및 방법
CN110598954A (zh) * 2019-09-24 2019-12-20 中国人民大学 基于深度学习的利用评审意见预测论文被引用数的方法
CN112668305A (zh) * 2020-12-03 2021-04-16 华中科技大学 一种基于注意力机制的论文引用量预测方法与系统
CN112905891A (zh) * 2021-03-05 2021-06-04 中国科学院计算机网络信息中心 基于图神经网络的科研知识图谱人才推荐方法及装置
CN114443858A (zh) * 2022-01-20 2022-05-06 电子科技大学(深圳)高等研究院 一种基于图神经网络的多模态知识图谱表示学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李丽霞: "基于知识图谱的科研热点分析与演化研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116882495A (zh) * 2023-02-27 2023-10-13 中央民族大学 一种基于动态知识图谱的前沿基因技术安全画像方法
CN116882495B (zh) * 2023-02-27 2024-02-09 中央民族大学 一种基于动态知识图谱的前沿基因技术安全画像方法
CN116561688A (zh) * 2023-05-09 2023-08-08 浙江大学 基于动态图异常检测的新兴技术识别方法
CN116561688B (zh) * 2023-05-09 2024-03-22 浙江大学 基于动态图异常检测的新兴技术识别方法

Also Published As

Publication number Publication date
CN114817571B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
Wang et al. Optimal forecast combination based on neural networks for time series forecasting
Wang et al. A novel framework of reservoir computing for deterministic and probabilistic wind power forecasting
CN110263227B (zh) 基于图神经网络的团伙发现方法和系统
Weng et al. Gold price forecasting research based on an improved online extreme learning machine algorithm
CN114817571B (zh) 基于动态知识图谱的成果被引用量预测方法、介质及设备
Guan et al. An adaptive neuro-fuzzy inference system based approach to real estate property assessment
US11366806B2 (en) Automated feature generation for machine learning application
Yu et al. Error correction method based on data transformational GM (1, 1) and application on tax forecasting
Sakhuja et al. Genetic algorithm based fuzzy time series tourism demand forecast model
WO2023280316A1 (zh) 一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备
Lv et al. An economic forecasting method based on the LightGBM-optimized LSTM and time-series model
Donate et al. Evolutionary optimization of sparsely connected and time-lagged neural networks for time series forecasting
Sánchez et al. Mutual information-based feature selection and partition design in fuzzy rule-based classifiers from vague data
CN110175689A (zh) 一种概率预测的方法、模型训练的方法及装置
Sadiq et al. Normal parameter reduction algorithm in soft set based on hybrid binary particle swarm and biogeography optimizer
Dehuri et al. A condensed polynomial neural network for classification using swarm intelligence
Gong et al. Optimization of Local Prediction Algorithm of Financial Time Series Based on Fuzzy Neural Network
Jadli et al. A Novel LSTM-GRU-Based Hybrid Approach for Electrical Products Demand Forecasting.
CN111027709B (zh) 信息推荐方法、装置、服务器及存储介质
Rahman et al. Implementation of artificial neural network on regression analysis
Sun et al. Asynchronous parallel surrogate optimization algorithm based on ensemble surrogating model and stochastic response surface method
US20230195842A1 (en) Automated feature engineering for predictive modeling using deep reinforcement learning
CN115099519B (zh) 一种基于多机器学习模型融合的油井产量预测方法
Zhu et al. Application of Improved Deep Belief Network Based on Intelligent Algorithm in Stock Price Prediction
US20230214629A1 (en) Transformer-based autoregressive language model selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant