CN116186297A

CN116186297A - 一种基于图流形学习的文献关系发现方法及系统

Info

Publication number: CN116186297A
Application number: CN202211570190.1A
Authority: CN
Inventors: 臧泽林; 李子青
Original assignee: Westlake University
Current assignee: Westlake University
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-05-30

Abstract

本发明公开了一种基于图流形学习的文献关系发现方法及系统，包括：根据文献检索结果，获取第一目标文献以及第一目标文献的邻居文献；将文献检索结果作为节点集合，通过获取第一目标文献与邻居文献之间的第一引用关系作为边集合，以及根据第一目标文献与邻居文献的相同的第一特征标签，构建属性图；基于图流行学习技术，获取属性图的图测地距离以及图测地相似度，通过将图测地距离映射到图测地相似度，并将布雷格曼散度作为损失函数，构建图卷积网络模型，用于通过识别第一目标文献与邻居文献之间的映射关系，获取与邻居文献具有相同映射关系的第二目标文献，补充到文献检索结果中，为用户提供了更为详细关联性更强的文献检索结果。

Description

一种基于图流形学习的文献关系发现方法及系统

技术领域

本发明涉及文献检索技术领域，具体而言，涉及一种基于图流形学习的文献关系发现方法及系统。

背景技术

引文网络是由文献间和被引用的关系构成的集合，这些文献资料包括、专利文献、会议论文集、科技报告和学位论文等多种形式，其较好地描述了科学领域的发展、学科间的关系。随着的发展，文献著作数量迅速增加，引文网络已经形成了一个超大规模的复杂网络系统，并吸引了越来越多的关注。

随着数据库技术的不断发展，引文网络的研究也不再局限于使用单一的数据源，这很好地使引文网络的研究能够方便地从多个数据源中获取引文的数据信息进行综合分析，使得整个引文网络的研究更为全面，而在计量工作方面，早期的引文网络研究主要通过传统的统计分析方法来完成，这对于海量数据的处理能力有限，数据挖掘技术的引入在一定程度上缓解了这方面的问题，而神经网络分析技术的使用从另外一个层面上解决了难以解决文本结构分析的难题。

当前基于神经网络的方法经常采用基于自动编码器的方案，通过重建的方式学习图神经网络嵌入。不过这样的方式没有对潜空间的潜在流形关系进行保持，故而容易产生嵌入的不精确现象。

目前基于重建的模型存在的问题。现有的基于神经网络的模型包括两个任务(1)重建节点属性和(2)重建图结构。在上述两个任务中，潜伏空间在反向传播过程中通过解码器进行优化；因此，所有两个框架的学习潜伏表征都是与任务相关的，并且是模糊的，这就导致了缺乏可解释性和后续的性能保证(例如，通用性、可转移性和稳健性等)，因此，急需一种基于图流形学习的文献关系发现方法及系统，来解决现有神经网络技术在引文网络应用中存在的技术问题。

发明内容

为了解决上述问题，本发明的目的是提供一种基于图流形学习的文献关系发现方法及系统，用于将引文网络数据描述为一个图G(X,V,E)包括节点集合V(代表引文网络中的文献)，边集合E(代表文献间的引用关系)和属性集合X(代表文献间的特征标签，比如文献所属领域、关键词等)，并以保留非欧氏高维空间和欧氏潜空间之间的节点间相似性为目的，在不过度改变图语义的前提下增强图结构，迫使网络获得稳定的嵌入映射，进而在文献检索时给出更为准确全面的文献检索结果。

为了实现上述技术目的，本申请提供了一种基于图流形学习的文献关系发现方法，包括以下步骤：

根据文献检索结果，获取第一目标文献以及第一目标文献的邻居文献；

将文献检索结果作为节点集合，通过获取第一目标文献与邻居文献之间的第一引用关系作为边集合，以及根据第一目标文献与邻居文献的相同的第一特征标签，构建属性图；

基于图流行学习技术，获取属性图的图测地距离以及图测地相似度，通过将图测地距离映射到图测地相似度，并将布雷格曼散度作为损失函数，构建用于获取文献关系识别的图卷积网络模型，其中，图卷积网络模型用于通过识别第一目标文献与邻居文献之间的映射关系，获取与邻居文献具有相同映射关系的第二目标文献，补充到文献检索结果中。

优选地，在获取第一目标文献的过程中，基于第一时间戳，获取用于生成文献检索结果的第一特征标签；

根据选择文献检索结果的第二时间戳，与第一时间戳的第一关系，获取第一目标文献。

优选地，在获取邻居文献的过程中，基于第一特征标签，根据第一目标文献的第一引用关系，获取邻居文献。

优选地，在获取图测地距离的过程中，基于第一引用关系，将第一特征标签的数量作为图测地距离的表征数据。

优选地，在生成图测地相似度的过程中，根据用于生成图测地距离的特征标签，获取邻居文献之间的第二引用关系；

依据第一引用关系和第二引用关系，获取第二特征标签，并依据第二特征标签的数量作为图测地相似度的表征数据。

优选地，在构建图卷积网络的过程中，基于完全连接层FC和完全连接聚合层FCA，构建神经网络模型，将图测地相似度作为目标函数，将布雷格曼散度作为损失函数，进行迭代训练直至模型收敛，构建用于通过图测地相似度表征文献关系的图卷积网络模型。

本发明还公开了一种基于图流形学习的文献关系发现系统，包括：

数据采集模块，用于获取文献检索结果；

数据处理模块，用于根据文献检索结果，获取第一目标文献以及第一目标文献的邻居文献；

图构建模块，用于将文献检索结果作为节点集合，通过获取第一目标文献与邻居文献之间的第一引用关系作为边集合，以及根据第一目标文献与邻居文献的相同的第一特征标签，构建属性图；

文献关系识别模块，用于基于图流行学习技术，获取属性图的图测地距离以及图测地相似度，通过将图测地距离映射到图测地相似度，并将布雷格曼散度作为损失函数，构建用于获取文献关系识别的图卷积网络模型；

文献发现模块，用于基于图卷积网络模型，通过识别第一目标文献与邻居文献之间的映射关系，生成检索条件进行二次检索，获取与邻居文献具有相同映射关系的第二目标文献，补充到文献检索结果中。

优选地，文献关系发现系统还包括：

验证与评价模块，用于根据图测地距离的映射规则，获取映射结果，将边集合作为评价指标，对属性图的构建过程进行评价。

本发明公开了以下技术效果：

本发明通过图流行技术，获取文献属性以及文献之间的关系，并构建了用于识别文献关系的识别模型，进而通过识别模型获取当前文献的邻居文献对应的第一目标文献，作为当前文献的近似关系文献，与当前文献一起提供给用户，为用户提供了更为详细关联性更强的文献检索结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述的方法流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本发明提供了一种基于图流形学习的文献关系发现方法，包括以下步骤，

创建了一个属性图G＝(V，E，X)，其中，V＝{v₁，…，v_n}是代表引文网络中的文献的节点集、E是代表文献间的引用关系的边集合、X＝[x₁，…，x_n]^T是特征矩阵，用于表示文献间的特征标签，比如文献所属领域、关键词等；

根据创建的属性图G＝(V，E，X)，计算属性图中各节点的文献之间的图测地距离D^G，

其中，

式中，π(v_i，v_j)是基于文献v_i和v_j之间的任何距离度量的最短路径，Λ是一个正常数，最短路径可以通过欧几里得距离、曼哈顿距离、余弦距离其中的一种测算，本发明取Λ＝10；

将计算得到的图测地距离进行转换，即从所有其他节点到文献节点v_i的距离中扣除由异常值引起的可能的偏斜嵌入，另外，距离的变换将使每个节点与其最近节点之间的距离为0，这意味着相似度被标准化为1；将测地距离d映射到相似度，并通过将图测地距离转换为图测地相似度，以联合概率的形公式表示对称化图测地相似度后，以矩阵形公式编写图测地线相似度的计算，进而，得到属性图G＝(V，E，X)的全连接汇聚层；在本实施例中，权重和偏差通过神经网络的反向传播方法进行优化，传统GNN中过多的聚合操作和不希望的过滤带来了过度平滑的问题，本申请使用常规的完全连接层FC和完全连接的聚合层FCA来组装本申请的神经网络，以解决过度平滑的问题，而且，本申请采用的结构允许更深的网络，因此具有更好的映射功能，FCA可以视为没有激活功能的GCN层。

在复杂的网络(例如社交网络)中，节点之间的关系通常被认为是稳定的，由于特定边的变化，图的语义信息不会发生显着变化，有用的图嵌入还应具有抵御结构变化的持久性，因此，本申请在训练过程中引入了图扩充方法，以提高嵌入的稳定性并减少模型对图结构正确性的依赖。

基于图的测地相似度,本发明以布雷格曼散度为损失函数,以最小化两个空间之间的相似度差异。

一、本发明提供的基于图测地相似度的图节点嵌入方法，在节点聚类任务上进行评价，评价方法为：

第一步，加载相应数据集的所有节点和边数据；

第二步，使用本发明的一种基于图测地相似度图节点嵌入方法进行映射，获得隐空间的嵌入结果；

第三步，使用sklearn工具包，测试隐空间嵌入的效果，评价指标包括：分类精度(ACC)、归一化互信息(NMI)和平衡F-score(F1)；

在节点聚类任务中，将计算出的嵌入以无监督的方式用K-means聚成K＝#类聚类，然后，使用外部标签来评估聚类性能，同时，在DMAGE的Bregman分歧中使用了三种特定的F(·)的选择，DMAGE-SED、DMAGE-SED和DMAGE-SED+LOGI，其中DMAGE-SED+LOGI是DMAGE-SED和DMAGE-LOGI的组合，在表中报告了分类精度(ACC)、归一化互信息(NMI)和平衡F-score(F1)，每个指标的最佳结果以粗体显示，对于具有相同测试协议的方法，直接使用他们论文中报道的结果，为了公平比较，报告了随机种子设置为1时得到的结果。

DMAGE在PubMed、CORA和Kiwi的所有12项测试中，有11项测试的性能优于最先进的方法，尤其是在相对较大的PubMed数据集上，性能平均提高了6％以上，在Citeseer上，DMAGE在Acc和F1分数上产生了更好的性能，而NMI结果略低，这表明，通过保留嵌入空间中的相似性信息，DMAGE在聚类节点方面比其他基于重建和对抗的方法更有优势，提出的三种损失函数的性能是相似的。

二、本发明提供的基于图测地相似度的图节点嵌入方法，在链路预测任务上进行评价，评价方法为：

第一步，加载相应数据集的所有节点和85％的边数据，余下5％的边用作验证，10％的边用作测试；

第二步，使用本发明的基于图测地相似度的图节点嵌入方法进行映射，获得隐空间的嵌入结果；

第三步，在用作测试的边数据，使用sklearn工具包，测试链路预测的效果，评价指标包括平均精度(AP)和曲线下面积(AUC)。

在链接预测任务中，一些边在输入图中随机隐藏，目标是基于使用计算的嵌入来预测隐藏边的存在，使用5％的边和负边作为验证集，10％的边和负边作为测试集，结果是20次运行的平均值，报告ROC曲线下面积(AUC)得分，它等于随机选择的边的排名高于随机选择的负边的概率，平均精度(AP)得分，这是精度-回收曲线下的面积，使用同样的超参数选择节点聚类作为对超参数的鲁棒性的证明，的方法在CORA和CiteSeer数据中取得了最高的平均值，稳定性相对较高，VGAE和ARGA在PubMed数据集上的表现略好于本申请的DMAGE，测试发现，VGAE和ARGA都是基于自动编码器的方法，认为通过重建监督获得的嵌入保存了更多的输入空间信息，这有助于预测隐藏的边结构。

三，本发明提供的基于图测地相似度的图节点嵌入方法，在可视化任务上的评价方法为：

第一步，加载相应数据集的所有节点和边数据；

第三步，在用作测试的边数据，使用umap工具包，对嵌入结果进行可视化。

使用UMAP将学习到的潜伏表征与每个节点的输入特征在二维空间中的分布进行可视化，在图中展示了的方法与其他方法在PubMed和CORA上的可视化结果比较，用官方代码生成了基线方法的嵌入结果。

DMAGE方法可以产生更清晰的类别边界，同时保留了聚类之间的相互关系。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于图流形学习的文献关系发现方法，其特征在于，包括以下步骤：

根据文献检索结果，获取第一目标文献以及所述第一目标文献的邻居文献；

将文献检索结果作为节点集合，通过获取所述第一目标文献与所述邻居文献之间的第一引用关系作为边集合，以及根据所述第一目标文献与所述邻居文献的相同的第一特征标签，构建属性图；

基于图流行学习技术，获取所述属性图的图测地距离以及图测地相似度，通过将所述图测地距离映射到所述图测地相似度，并将布雷格曼散度作为损失函数，构建用于获取文献关系识别的图卷积网络模型，其中，所述图卷积网络模型用于通过识别所述第一目标文献与所述邻居文献之间的映射关系，获取与所述邻居文献具有相同映射关系的第二目标文献，补充到所述文献检索结果中。

2.根据权利要求1所述一种基于图流形学习的文献关系发现方法，其特征在于：

在获取第一目标文献的过程中，基于第一时间戳，获取用于生成所述文献检索结果的所述第一特征标签；

根据选择所述文献检索结果的第二时间戳，与所述第一时间戳的第一关系，获取所述第一目标文献。

3.根据权利要求2所述一种基于图流形学习的文献关系发现方法，其特征在于：

在获取邻居文献的过程中，基于所述第一特征标签，根据所述第一目标文献的第一引用关系，获取所述邻居文献。

4.根据权利要求3所述一种基于图流形学习的文献关系发现方法，其特征在于：

在获取图测地距离的过程中，基于所述第一引用关系，将所述第一特征标签的数量作为所述图测地距离的表征数据。

5.根据权利要求4所述一种基于图流形学习的文献关系发现方法，其特征在于：

在生成图测地相似度的过程中，根据用于生成所述图测地距离的所述特征标签，获取所述邻居文献之间的第二引用关系；

依据所述第一引用关系和所述第二引用关系，获取第二特征标签，并依据所述第二特征标签的数量作为所述图测地相似度的表征数据。

6.根据权利要求5所述一种基于图流形学习的文献关系发现方法，其特征在于：

在构建图卷积网络的过程中，基于完全连接层FC和完全连接聚合层FCA，构建神经网络模型，将所述图测地相似度作为目标函数，将布雷格曼散度作为损失函数，进行迭代训练直至模型收敛，构建用于通过所述图测地相似度表征文献关系的所述图卷积网络模型。

7.一种基于图流形学习的文献关系发现系统，其特征在于，包括：

数据采集模块，用于获取文献检索结果；

数据处理模块，用于根据所述文献检索结果，获取第一目标文献以及所述第一目标文献的邻居文献；

图构建模块，用于将文献检索结果作为节点集合，通过获取所述第一目标文献与所述邻居文献之间的第一引用关系作为边集合，以及根据所述第一目标文献与所述邻居文献的相同的第一特征标签，构建属性图；

文献关系识别模块，用于基于图流行学习技术，获取所述属性图的图测地距离以及图测地相似度，通过将所述图测地距离映射到所述图测地相似度，并将布雷格曼散度作为损失函数，构建用于获取文献关系识别的图卷积网络模型；

文献发现模块，用于基于所述图卷积网络模型，通过识别所述第一目标文献与所述邻居文献之间的映射关系，生成检索条件进行二次检索，获取与所述邻居文献具有相同映射关系的第二目标文献，补充到所述文献检索结果中。

8.根据权利要求7所述一种基于图流形学习的文献关系发现系统，其特征在于：

所述文献关系发现系统还包括：

验证与评价模块，用于根据所述图测地距离的映射规则，获取映射结果，将所述边集合作为评价指标，对所述属性图的构建过程进行评价。