CN116610807B

CN116610807B - 一种基于异质图神经网络的知识结构识别方法及装置

Info

Publication number: CN116610807B
Application number: CN202310896254.5A
Authority: CN
Inventors: 黄月; 张昕
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-13
Anticipated expiration: 2043-07-21
Also published as: CN116610807A

Abstract

本发明涉及文本数据分析处理领域，特别是指一种基于异质图神经网络的知识结构识别方法及装置，方法包括：获取目标论文相同领域的文献数据，根据文献数据，构建结合多种节点类型以及多种边关系的异质图；将异质图输入改进的HetGNN模型，得到异质图中文献节点的嵌入表示；对文献节点的嵌入表示进行聚类，根据聚类结果确定目标论文的相关信息；根据目标论文的相关信息，确定目标论文对应的知识结构。这样，基于预设的四种类型节点和五种类型的边构建异质图，能够更有效地捕获文献数据中的复杂关系，通过对异质图进行分析聚类，可以更有效地识别知识结构，这样构建的知识结构更具有表征性。

Description

一种基于异质图神经网络的知识结构识别方法及装置

技术领域

本发明涉及文本数据分析处理领域，特别是指一种基于异质图神经网络的知识结构识别方法及装置。

背景技术

文献这一文本数据是信息资源管理领域中的一种重要研究对象。针对文献数据进行数据挖掘，具有重要的研究意义，对掌握某领域的现有知识结构、研究基础、研究前沿等具有重要的作用。

针对某个领域的文献数据进行知识结构识别，本质是一种无监督任务，它是从文献数据中探测某领域的研究主题及其之间联系的过程。目前已有针对文献数据进行知识结构识别的方法中，可以大致分为两类：基于文献计量关系的知识结构识别和基于主题模型的知识结构识别。

1、基于文献计量关系的知识结构识别方法，大体可以分为3类。

（1）基于耦合分析的方法，文献耦合(Bibliographic Coupling Analysis，BCA)是Kessler于1963年提出的概念，具体指两篇文献共同引用的参考文献的情况，两篇文章引用了同一篇文献，则两篇文献之间就存在耦合关系。两篇文献相同的参考文献的数量越多，表示两篇文献耦合的强度越大，在研究主题上越相似。

（2）基于共被引分析的方法，共被引( Co－citation)这一概念由Small H提出于1973年。所谓同被引,又称为同引、共引,是指两篇或两篇以上的文献同时被别的文献引用的现象。

（3）基于共词分析的方法。共词分析方法(Co－term Analysis)最早是在20世纪70年代中后期由法国文献计量学家提出的。共词分析的基本原理是对一组词两两统计它们在同一组文献中出现的次数，通过这种共现次数来测度它们之间的亲疏关系。

但基于文献计量关系的研究方法只针对某一种特定的文献计量关系构成的同质网络进行研究，分析对象比较单一，且忽略了文献数据丰富的语义内容。

2、基于主题模型的知识结构识别方法，基本思路是使用主题模型对科学文献的多种相关信息进行文本挖掘，提取出有效的主题用于知识结构识别。杨海霞等人基于LDA（Latent Dirichlet Allocation）主题模型挖掘出计算机科学领域的典型话题, 并根据主题强度分析主题的演化趋势；李湘东等人基于LDA模型全面研究科技期刊主题演化过程。但LDA是一种基于词频的概率主题模型，将词作为研究对象，同样无法对文献的文本语义信息进行深入分析。

综上所述，目前已有的两种针对文献数据进行知识结构识别的方法都有各自的劣势，对文献中具有的作者、期刊、篇名、关键词等天然的异质结构没有很好地进行表征，往往忽略了多种对象间的多种交互关系，信息在建模为同质网络的过程中受到损失，目前也没有能将两种方法很好结合起来的知识图谱构建方法，导致构建的知识结构表征性较低。

发明内容

本发明实施例提供了一种基于异质图神经网络的知识结构识别方法及装置。所述技术方案如下：

一方面，提供了一种基于异质图神经网络的知识结构识别方法，该方法由电子设备实现，该方法包括：

S1、获取目标论文相同领域的文献数据，根据所述文献数据，构建结合多种节点类型以及多种边关系的异质图；

S2、将所述异质图输入改进的HetGNN模型，得到所述异质图中文献节点的嵌入表示；

S3、对所述文献节点的嵌入表示进行聚类，根据聚类结果确定目标论文的相关信息；

S4、根据目标论文的相关信息，确定所述目标论文对应的知识结构。

可选地，所述多种节点类型以及多种边关系的异质图，包括四种类型的节点和五种类型的边；

其中，所述四种类型的节点包括作者、论文、期刊和关键词；

所述五种类型的边包括论文-作者-论文、论文-关键词-论文、论文-期刊-论文、论文-引用-论文以及论文-语义-论文；

其中，所述论文-作者-论文用于表明共同作者撰写的论文之间的关系，所述论文-关键词-论文用于表明共同关键词标注的论文之间的关系，所述论文-期刊-论文用于表明共同期刊发表的论文之间的关系，所述论文-引用-论文用于表明论文之间引用的关系，所述论文-语义-论文用于表明论文之间语义的关系。

可选地，所述S1的获取文献数据，根据所述文献数据，构建结合多种节点类型以及多种边关系的异质图，包括：

S11、获取文献数据；

S12、按照预设的四种类型的节点和五种类型的边，应用DGL框架将所述文献数据存储为异质图。

可选地，所述改进的HetGNN模型包括采样层、改进的第一层神经网络NN-1、第二层神经网络NN-2和第三层神经网络NN-3；

所述采样层为基于重启随机游走的异构邻居采样策略；

所述NN-1用于对节点的异构特征进行编码，包括one-hot层、Sentence-BERT层、CNN层、FC全连接层、BiLSTM层以及均值池化层，其中，Sentence-BERT层用于对文本内容进行预训练编码；

所述NN-2用于将节点同一类型的邻居进行聚合；

所述NN-3用于将节点不同类型的邻居进行聚合。

可选地，所述S2的将所述异质图输入改进的HetGNN模型，得到所述异质图中文献节点的嵌入表示，包括：

S21、基于所述采样层，对所述异质图的某个节点的邻居节点进行采样；

S22、将采样的节点信息输入改进的第一层神经网络NN-1，通过one-hot层对所述节点信息中的属性信息进行预训练编码，通过Sentence-BERT层对所述节点信息中的文本信息进行预训练编码，将预训练编码后的内容输入到FC全连接层，将FC全连接层输出的内容输入到BiLSTM层进行聚集，将BiLSTM层输出的聚集结果输入到均值池化层进行平均处理，得到每个邻居节点自身特征聚合的嵌入；

S23、将每个邻居节点自身特征聚合的嵌入输入到第二层神经网络NN-2，得到相同类型邻居节点聚合的嵌入；

S24、将相同类型邻居节点聚合的嵌入输入到第三层神经网络NN-3，得到不同类型节点聚合的嵌入表示。

可选地，所述S3的对所述文献节点的嵌入表示进行聚类，根据聚类结果确定目标论文的相关信息，包括：

S31、根据所述文献节点的嵌入表示，计算出聚类指标CH值和轮廓系数，根据所述聚类指标CH值和轮廓系数确定聚类个数；

S32、根据所述聚类个数进行K值聚类，得到聚类结果；

S33、根据聚类结果确定聚类簇中论文的相关信息。

另一方面，提供了一种基于异质图神经网络的知识结构识别装置，该装置应用于基于异质图神经网络的知识结构识别方法，该装置包括：

构建模块，用于获取目标论文相同领域的文献数据，根据所述文献数据，构建结合多种节点类型以及多种边关系的异质图；

嵌入模块，用于将所述异质图输入改进的HetGNN模型，得到所述异质图中文献节点的嵌入表示；

聚类模块，用于对所述文献节点的嵌入表示进行聚类，根据聚类结果确定目标论文的相关信息；

确定模块，用于根据目标论文的相关信息，确定所述目标论文对应的知识结构。

可选地，所述构建模块，用于：

S11、获取文献数据；

所述采样层为基于重启随机游走的异构邻居采样策略；

所述NN-2用于将节点同一类型的邻居进行聚合；

所述NN-3用于将节点不同类型的邻居进行聚合。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于异质图神经网络的知识结构识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于异质图神经网络的知识结构识别方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，获取目标论文相同领域的文献数据，根据文献数据，构建结合多种节点类型以及多种边关系的异质图；将异质图输入改进的HetGNN模型，得到异质图中文献节点的嵌入表示；对文献节点的嵌入表示进行聚类，根据聚类结果确定目标论文的相关信息；根据目标论文的相关信息，确定目标论文对应的知识结构。这样，基于预设的四种类型节点和五种类型的边构建异质图，能够更有效地捕获文献数据中的复杂关系，通过对异质图进行分析聚类，可以更有效地识别知识结构，这样构建的知识结构更具有表征性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于异质图神经网络的知识结构识别方法流程图；

图2是本发明实施例提供的四种类型节点和五种类型边的结构示意图；

图3是本发明实施例提供的HetGNN的改进的第一层神经网络NN-1的结构示意图；

图4是本发明实施例提供的HetGNN的第二层神经网络NN-2的结构示意图；

图5是本发明实施例提供的HetGNN的第三层神经网络NN-3的结构示意图；

图6是本发明实施例提供的一种基于异质图神经网络的知识结构识别装置框图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于异质图神经网络的知识结构识别方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的基于异质图神经网络的知识结构识别方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获取目标论文相同领域的文献数据，根据文献数据，构建结合多种节点类型以及多种边关系的异质图。

其中，多种节点类型以及多种边关系的异质图可以包括四种类型的节点和五种类型的边；其中，四种类型的节点包括作者、论文、期刊和关键词；五种类型的边包括论文-作者-论文、论文-关键词-论文、论文-期刊-论文、论文-引用-论文以及论文-语义-论文。

其中，论文-作者-论文用于表明共同作者撰写的论文之间的关系，论文-关键词-论文用于表明共同关键词标注的论文之间的关系，论文-期刊-论文用于表明共同期刊发表的论文之间的关系，论文-引用-论文用于表明论文之间引用的关系，论文-语义-论文用于表明论文之间语义的关系。

一种可行的实施方式中，针对文献题录数据而言，本发明建立包含作者、论文、期刊和关键词四种类型节点，以及表明由共同作者撰写论文的关系“论文-作者-论文”、表明由共同关键词标注论文的关系“论文-关键词-论文”、表明由共同期刊发表论文的关系“论文-期刊-论文”、表明论文之间引用的关系“论文-引用-论文”、表明论文之间语义的关系“论文-语义-论文”，共计五种类型边的图，如图2所示。

可选地，S1的具体操作可以包括下述步骤S11-S12：

S11、获取文献数据。

一种可行的实施方式中，获取文献数据的方式有很多，例如从网站上直接下载获取等，本发明实施例在此不做赘述。

S12、按照预设的四种类型的节点和五种类型的边，应用DGL框架将文献数据存储为异质图。

一种可行的实施方式中，获取文献数据后，对文献数据进行分类处理，梳理出作者、论文、期刊和关键词四种类型信息作为节点，并按照预先定义的五种类型的关系，使用DGL框架将文献数据存储异质图。

S2、将异质图输入改进的HetGNN模型，得到异质图中文献节点的嵌入表示。

其中，改进的HetGNN模型可以包括采样层、改进的第一层神经网络NN-1、第二层神经网络NN-2和第三层神经网络NN-3；

采样层为基于重启随机游走的异构邻居采样策略；

NN-1用于对节点的异构特征进行编码，包括one-hot层、Sentence-BERT层、CNN层、FC全连接层、BiLSTM层以及均值池化层，其中，Sentence-BERT层用于对文本内容进行预训练编码；

NN-2用于将节点同一类型的邻居进行聚合；

NN-3用于将节点不同类型的邻居进行聚合。

一种可行的实施方式中，这样的文献节点表示方法将文献计量关系、语义关系等多种关系融合起来，可以体现出节点更丰富的特征。

可选地，S2的具体操作可以包括下述步骤S21-S24：

S22、将采样的节点信息输入改进的第一层神经网络NN-1，通过one-hot层对节点信息中的属性信息进行预训练编码，通过Sentence-BERT层对节点信息中的文本信息进行预训练编码，将预训练编码后的内容输入到FC全连接层，将FC全连接层输出的内容输入到BiLSTM层进行聚集，将BiLSTM层输出的聚集结果输入到均值池化层进行平均处理，得到总体异构内容嵌入。

一种可行的实施方式中，改进的第一层神经网络NN-1的结构如图3所示，为了使异质图神经网络更加关注数据最突出的部分，本发明实施例对异质图神经网络HetGNN模型进行了改进。具体地，原始的HetGNN模型在NN-1步骤对文本进行预训练使用的是Par2Vec，考虑到科学文献的题录信息是短文本而Par2Vec在处理长文本上更具优势，为了能够得到更好的文本预训练表示结果，本发明将其更换为在短文本的嵌入式表示和文本相似度任务上表现更具优势的Sentence-BERT。

一种可行的实施方式中，第二层神经网络NN-2的结构如图4所示，NN-1层输出的每个邻居节点自身特征聚合的嵌入输入到第二层神经网络NN-2，使用BiLSTM来聚集每个邻居的内容嵌入，然后将BiLSTM的输出输入到Mean Pooling平均池化层进行均值处理，得到相同类型邻居节点聚合的嵌入。

一种可行的实施方式中，第三层神经网络NN-3的结构如图5所示，NN-2输出的相同类型邻居节点聚合的嵌入输入到第三层神经网络NN-3，使用注意力机制来组合基于类型的邻居嵌入，不同类型节点聚合的嵌入表示。

S3、对文献节点的嵌入表示进行聚类，根据聚类结果确定目标论文的相关信息。

可选地，S3的对文献节点的嵌入表示进行聚类，使用K-means算法得到文献的聚类簇，根据聚类结果确定目标论文的相关信息，包括：

S31、给定聚类个数K，从文献中选择K个对象作为初始的聚类中心；

S32、计算每个文献对象到聚类中心的距离，将每个文献分配给距离其最近的聚类中心；

S33、计算每个聚类中所有文献的嵌入表示平均值，并将这个平均值作为新的聚类中心；

S34、反复执行S32和S33，直到聚类中心均值向量不再改变；

S35、根据文献节点的嵌入表示，计算K个聚类个数时的聚类指标CH值和轮廓系数；

S36、反复执行S31到S35，根据聚类指标CH值和轮廓系数确定最优聚类个数；

S37、根据确定的最优聚类个数，得到聚类结果；

S38、根据聚类结果确定聚类簇中论文的相关信息。

S4、根据目标论文的相关信息，确定目标论文对应的知识结构。

一种可行的实施方式中，根据目标论文的相关信息，通过人工与ChatGPT辅助总结，通过参考领域专家的意见，确定目标论文对应的知识结构，并与相同实证领域的其他相关研究进行交叉对比，增强分析结果的可靠性。

图6是根据一示例性实施例示出的一种基于异质图神经网络的知识结构识别装置框图，该装置用于基于异质图神经网络的知识结构识别方法。参照图6，该装置包括构建模块610、嵌入模块620以及聚类模块630、确定模块640，其中：

构建模块610，用于获取目标论文相同领域的文献数据，根据所述文献数据，构建结合多种节点类型以及多种边关系的异质图；

嵌入模块620，用于将所述异质图输入改进的HetGNN模型，得到所述异质图中文献节点的嵌入表示；

聚类模块630，用于对所述文献节点的嵌入表示进行聚类，根据聚类结果确定目标论文的相关信息；

确定模块640，用于根据目标论文的相关信息，确定所述目标论文对应的知识结构。

可选地，所述构建模块610，用于：

S11、获取文献数据；

所述采样层为基于重启随机游走的异构邻居采样策略；

所述NN-2用于将节点同一类型的邻居进行聚合；

所述NN-3用于将节点不同类型的邻居进行聚合。

图7是本发明实施例提供的一种电子设备700的结构示意图，该电子设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述中文文本拼写检查方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述中文文本拼写检查方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于异质图神经网络的知识结构识别方法，其特征在于，所述方法包括：

S4、根据目标论文的相关信息，确定所述目标论文对应的知识结构;

其中，所述多种节点类型以及多种边关系的异质图，包括四种类型的节点和五种类型的边；

其中，所述论文-作者-论文用于表明共同作者撰写的论文之间的关系，所述论文-关键词-论文用于表明共同关键词标注的论文之间的关系，所述论文-期刊-论文用于表明共同期刊发表的论文之间的关系，所述论文-引用-论文用于表明论文之间引用的关系，所述论文-语义-论文用于表明论文之间语义的关系；

其中，所述改进的HetGNN模型包括采样层、改进的第一层神经网络NN-1、第二层神经网络NN-2和第三层神经网络NN-3；

所述采样层为基于重启随机游走的异构邻居采样策略；

所述第一层神经网络NN-1用于对节点的异构特征进行编码，包括one-hot层、Sentence-BERT层、CNN层、FC全连接层、BiLSTM层以及均值池化层，其中，Sentence-BERT层用于对文本内容进行预训练编码；

所述第二层神经网络NN-2用于将节点同一类型的邻居进行聚合；

所述第三层神经网络NN-3用于将节点不同类型的邻居进行聚合；

其中，所述S2的将所述异质图输入改进的HetGNN模型，得到所述异质图中文献节点的嵌入表示，包括：

2.根据权利要求1所述的方法，其特征在于，所述S1的获取文献数据，根据所述文献数据，构建结合多种节点类型以及多种边关系的异质图，包括：

S11、获取文献数据；

3.根据权利要求1所述的方法，其特征在于，所述S3的对所述文献节点的嵌入表示进行聚类，根据聚类结果确定目标论文的相关信息，包括：

S32、根据所述聚类个数进行K值聚类，得到聚类结果；

S33、根据聚类结果确定聚类簇中论文的相关信息。

4.一种基于异质图神经网络的知识结构识别装置，其特征在于，所述装置包括：

确定模块，用于根据目标论文的相关信息，确定所述目标论文对应的知识结构；

所述采样层为基于重启随机游走的异构邻居采样策略；

所述NN-2用于将节点同一类型的邻居进行聚合；

所述NN-3用于将节点不同类型的邻居进行聚合；

其中，所述将所述异质图输入改进的HetGNN模型，得到所述异质图中文献节点的嵌入表示，包括：

基于所述采样层，对所述异质图的某个节点的邻居节点进行采样；

将采样的节点信息输入改进的第一层神经网络NN-1，通过one-hot层对所述节点信息中的属性信息进行预训练编码，通过Sentence-BERT层对所述节点信息中的文本信息进行预训练编码，将预训练编码后的内容输入到FC全连接层，将FC全连接层输出的内容输入到BiLSTM层进行聚集，将BiLSTM层输出的聚集结果输入到均值池化层进行平均处理，得到每个邻居节点自身特征聚合的嵌入；

将每个邻居节点自身特征聚合的嵌入输入到第二层神经网络NN-2，得到相同类型邻居节点聚合的嵌入；

将相同类型邻居节点聚合的嵌入输入到第三层神经网络NN-3，得到不同类型节点聚合的嵌入表示。

5.根据权利要求4所述的装置，其特征在于，所述构建模块，用于：

S11、获取文献数据；