CN116842073B

CN116842073B - 图数据的挖掘方法、装置和电子设备

Info

Publication number: CN116842073B
Application number: CN202310839092.1A
Authority: CN
Inventors: 章超; 武凯; 郝飞
Original assignee: Sichuan Police College
Current assignee: Sichuan Police College
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2024-04-09
Anticipated expiration: 2043-07-10
Also published as: CN116842073A

Abstract

本发明提供了一种图数据的挖掘方法、装置和电子设备，属于数据挖掘的技术领域，通过形式概念分析方法将图数据转化为概念格，粗粒度聚合节点信息，将重要信息聚合在较少的节点(即概念)上，使其具有清晰的图结构，从而得到图数据的新特征矩阵，上述形式概念增强的图卷积网络模型也是基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的，从而能够对图数据结构进行更深层次的挖掘，得到更多的挖掘信息，另外，上述具有较少节点的概念格的清晰图结构也减少了形式概念增强的图卷积神经网络模型的计算量，进而大大提高了图数据挖掘的效率。

Description

图数据的挖掘方法、装置和电子设备

技术领域

本发明涉及数据挖掘的技术领域，尤其是涉及一种图数据的挖掘方法、装置和电子设备。

背景技术

近十年来，随着技术的飞速发展，因特网在全球各地得到了飞速的普及，而各类智能终端也在不断地更新，使得智能终端的使用者也加入到了这一巨大的变化之中。用户是互联网最直接的使用者，他们在互联网中的所有行为都对网络的发展趋势和走向产生了不同程度的影响，所以，在这一过程中形成的海量的社会行为数据就有了很大的研究价值，与此同时，社会行为数据也为此类研究创造了良好条件。

现实世界中的数据网络有很多，离用户最近的当属社交网络。在社交网络中，每个用户作为个体，组成了网络中的节点，个体之间存在的关系组成了网络中的边。一般的，我们将一个社交网络建模为一个图G＝{V，E}，其中，顶点集V为网络中的所有用户，边缘集E为用户之间的关系。在原始的社交网络中，个体与个体之间存在的关系较为复杂，且容易存在一些间接的关系，因此对原始社交网络进行处理是很有必要的。

近年来，随着各种社交软件的广泛应用，网络上的一般用户越来越多地参与到网络中，并且参与的数量越来越多。在学术上，人们做了许多研究，以便让这些巨大的信息对人们来说更有意义，比如对图数据信息进行聚类的图卷积神经网络，但是，图卷积神经网络的计算量随着图大小的增加而呈指数级增长，对各种图结构的适应性很差。在采用图卷积神经网络进行图数据的挖掘时，数据挖掘的深度不足、效率不高。

综上，现有的图数据的挖掘方法存在数据挖掘深度不足、效率不高的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种图数据的挖掘方法、装置和电子设备，以缓解现有的图数据的挖掘方法存在数据挖掘深度不足、效率不高的技术问题。

第一方面，本发明实施例提供了一种图数据的挖掘方法，包括：

获取待挖掘的图数据，并确定所述图数据的原始特征矩阵；

采用形式概念分析方法对所述图数据进行处理，得到概念格，其中，概念格包括：概念和所述概念之间的链接关系；

根据所述概念格中的概念在所述概念中确定等势概念，并计算各所述概念的稳定度；

基于所述等势概念和/或各所述概念的稳定度确定所述图数据的新特征矩阵；

将所述图数据的原始特征矩阵和所述图数据的新特征矩阵进行横向拼接，并将拼接得到的目标特征矩阵输入至形式概念增强的图卷积神经网络模型，输出得到所述待挖掘的图数据的挖掘信息，其中，所述形式概念增强的图卷积神经网络模型为基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的。

进一步的，采用形式概念分析方法对所述图数据进行处理，包括：

根据所述图数据中节点的邻接关系构建邻接矩阵；

对所述邻接矩阵进行修正，得到修正后的邻接矩阵；

将所述修正后的邻接矩阵作为形式背景，采用所述形式概念分析方法得到所述修正后的邻接矩阵对应的概念；

确定所述概念之间的偏序关系；

以各所述概念为节点，所述概念之间的偏序关系为边构建得到所述概念格。

进一步的，根据所述图数据中节点的邻接关系构建邻接矩阵，包括：

若所述图数据中第一节点和第二节点之间存在连边，则所述邻接矩阵中与所述第一节点的序号和与所述第二节点的序号的位置对应的元素设置为第一预设值，其中，所述第一节点为所述图数据中的任一节点，所述第二节点为所述图数据中的除所述第一节点之外的任一节点；

若所述图数据中第一节点和第二节点之间不存在连边，则所述邻接矩阵中与所述第一节点的序号和与所述第二节点的序号的位置对应的元素设置为第二预设值。

进一步的，对所述邻接矩阵进行修正，包括：

将所述邻接矩阵中的对角线上的元素设置为所述第一预设值。

进一步的，将所述修正后的邻接矩阵作为形式背景，采用所述形式概念分析方法得到所述修正后的邻接矩阵对应的概念，包括：

若所述修正后的邻接矩阵中，存在{X，B}满足X↑＝B且B↓＝X，则{X，B}为所述概念，其中， X表示U的子集，B表示A的子集，U表示所述修正后的邻接矩阵中第一节点集，A表示所述修正后的邻接矩阵中第二节点集，I表示所述第一节点集中的节点和所述第二节点集中的节点的关系集。

进一步的，确定所述概念之间的偏序关系，包括：

若对于概念集C(K)中的第一概念{X1，B1}和第二概念{X2，B2}，存在且则所述第一概念{X1，B1}和所述第二概念{X2，B2}之间存在偏序关系，其中，所述第一概念{X1，B1}为所述概念集C(K)中的任一概念，所述第二概念{X2，B2}为所述概念集C(K)中除所述第一概念{X1，B1}之外的任一概念。

进一步的，所述概念包括：外延和内涵，根据所述概念格中的概念在所述概念中确定等势概念，并计算各所述概念的稳定度，包括：

若在所述概念中存在目标概念的外延等于内涵，则确定所述目标概念为所述等势概念；

根据稳定度计算算式计算各所述概念的稳定度，其中，σ{,B}表示概念{,B}的稳定度，X表示概念的外延，B表示概念的内涵，P表示X的子集，f表示概念中外延与内涵的对应关系。

进一步的，基于所述等势概念和/或各所述概念的稳定度确定所述图数据的新特征矩阵，包括：

初始化维度为M*N的矩阵，若第一节点存在于目标等势概念中，则将所述矩阵中与所述第一节点的序号和与所述目标等势概念的序号的位置对应的元素设置为第一预设值，其中，M表示所述图数据中节点的个数，N表示所述等势概念的个数；

若所述第一节点不存在于目标等势概念中，则将所述矩阵中与所述第一节点的序号和与所述目标等势概念的序号的位置对应的元素设置为第二预设值，进而得到所述图数据的新特征矩阵；

或者，

初始化维度为M*N的矩阵，若当前概念的稳定度大于预设阈值，则将所述矩阵中节点的序号和当前概念的序号的位置对应的元素设置为第一预设值，其中，M表示所述图数据中节点的个数，N表示概念的稳定度大于所述预设阈值的概念的个数；

若当前概念的稳定度不大于预设阈值，则将所述矩阵中节点的序号和当前概念的序号的位置对应的元素设置为第二预设值，进而得到所述图数据的新特征矩阵。

第二方面，本发明实施例还提供了一种图数据的挖掘装置，包括：

获取和确定单元，用于获取待挖掘的图数据，并确定所述图数据的原始特征矩阵；

处理单元，用于采用形式概念分析方法对所述图数据进行处理，得到概念格，其中，概念格包括：概念和所述概念之间的链接关系；

确定和计算单元，用于根据所述概念格中的概念在所述概念中确定等势概念，并计算各所述概念的稳定度；

特征确定单元，用于基于所述等势概念和/或各所述概念的稳定度确定所述图数据的新特征矩阵；

图卷积神经网络模型处理单元，用于将所述图数据的原始特征矩阵和所述图数据的新特征矩阵进行横向拼接，并将拼接得到的目标特征矩阵输入至形式概念增强的图卷积神经网络模型，输出得到所述待挖掘的图数据的挖掘信息，其中，所述形式概念增强的图卷积神经网络模型为基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。

在本发明实施例中，提供了一种图数据的挖掘方法，包括：获取待挖掘的图数据，并确定图数据的原始特征矩阵；采用形式概念分析方法对图数据进行处理，得到概念格，其中，概念格包括：概念和概念之间的链接关系；根据概念格中的概念在概念中确定等势概念，并计算各概念的稳定度；基于等势概念和/或各概念的稳定度确定图数据的新特征矩阵；将图数据的原始特征矩阵和图数据的新特征矩阵进行横向拼接，并将拼接得到的目标特征矩阵输入至形式概念增强的图卷积神经网络模型，输出得到待挖掘的图数据的挖掘信息，其中，形式概念增强的图卷积神经网络模型为基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的。通过上述描述可知，本发明的图数据的挖掘方法中，通过形式概念分析方法将图数据转化为概念格，粗粒度聚合节点信息，将重要信息聚合在较少的节点(即概念)上，使其具有清晰的图结构，从而得到图数据的新特征矩阵，上述形式概念增强的图卷积网络模型也是基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的，从而能够对图数据结构进行更深层次的挖掘，得到更多的挖掘信息，另外，上述具有较少节点的概念格的清晰图结构也减少了形式概念增强的图卷积神经网络模型的计算量，进而大大提高了图数据挖掘的效率，缓解了现有的图数据的挖掘方法存在数据挖掘深度不足、效率不高的技术问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图数据的挖掘方法的流程图；

图2为本发明实施例提供的图数据的示意图；

图3为本发明实施例提供的修正后的邻接矩阵的示意图；

图4为本发明实施例提供的概念格的示意图；

图5为本发明实施例提供的图数据的挖掘方法的处理过程示意图；

图6为本发明实施例提供的一种图数据的挖掘装置的示意图；

图7为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，对图数据信息进行聚类的图卷积神经网络在对图数据进行挖掘时，其计算量随着图大小的增加而呈指数级增长，并且对各种图结构的适应性很差，数据挖掘的深度不足、效率不高。

基于此，本发明的图数据的挖掘方法中，通过形式概念分析方法将图数据转化为概念格，粗粒度聚合节点信息，将重要信息聚合在较少的节点(即概念)上，使其具有清晰的图结构，从而得到图数据的新特征矩阵，上述形式概念增强的图卷积网络模型也是基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的，从而能够对图数据结构进行更深层次的挖掘，得到更多的挖掘信息，另外，上述具有较少节点的概念格的清晰图结构也减少了形式概念增强的图卷积神经网络模型的计算量，进而大大提高了图数据挖掘的效率。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种图数据的挖掘方法进行详细介绍。

实施例一：

根据本发明实施例，提供了一种图数据的挖掘方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的图数据的挖掘方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待挖掘的图数据，并确定图数据的原始特征矩阵；

上述待挖掘的图数据可以是待挖掘的社交网络数据，还可以为待挖掘的论文数据(如Cora数据集训练得到的形式概念增强的图卷积神经网络模型)，本发明实施例对上述图数据不进行具体限制。

图数据包含节点个数、边个数、节点之间的连接关系、节点特征等。如图2所示，其中示出的即为图数据。

上述原始特征矩阵具体可以为在采用传统技术中的图卷积神经网络模型进行图数据挖局时，输入至图卷积神经网络模型中的特征矩阵，其具体可以包括：图数据中节点的邻接关系构建的邻接矩阵和基于图数据中节点的一些特征信息得到的矩阵(对于论文来说，论文表示一个个体，即图数据中的一个节点，如果其包含某个关键词，那么对应的关键词的位置的元素为1，否则为0)进行拼接后得到的，如图5所示的原始特征矩阵。

步骤S104，采用形式概念分析方法对图数据进行处理，得到概念格，其中，概念格包括：概念和概念之间的链接关系；

具体的，形式概念分析的主要输出为概念格(如图4所示，其中示出的即为图2所示的图数据的概念格)，是一个由概念及概念之间的链接关系(即概念之间的偏序关系)组成的格结构。概念由外延和内涵两部分组成，为两者之间的一种二元关系。

下文中再对得到概念格的具体过程进行详细描述，在此不再赘述。

步骤S106，根据概念格中的概念在概念中确定等势概念，并计算各概念的稳定度；

具体的，生成的概念(外延和内涵)由节点组成(即表示为概念格中的节点)，且其中有一类特殊的概念，外延等于内涵，该种概念被定义为等势概念。等势概念对应了原始的图数据中的一种特殊结构，极大团。

极大团是图中的一种特殊结构，它可以帮助我们理解复杂的拓扑结构，而图中极大团对应的等势概念也可以将大量的信息导入简单易懂的概念中。

下文中再对计算各概念的稳定度的过程进行详细介绍。

步骤S108，基于等势概念和/或各概念的稳定度确定图数据的新特征矩阵；

下文中再对新特征矩阵的确定过程进行详细介绍，在此不再赘述。

步骤S110，将图数据的原始特征矩阵和图数据的新特征矩阵进行横向拼接，并将拼接得到的目标特征矩阵输入至形式概念增强的图卷积神经网络模型，输出得到待挖掘的图数据的挖掘信息，其中，形式概念增强的图卷积神经网络模型为基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的。

具体的，上述形式概念增强的图卷积神经网络模型，可以用来作节点分类、社区检测、链路预测等下游任务。

例如，节点为各个论文，节点分类可以为各论文所属的类别(科技类、教育类、医药类等，即训练时的节点的标签)。

上述目标特征矩阵能够提高结构识别的准确率，进而保证图数据挖掘的准确率和效率。

上述内容对本发明的图数据的挖掘方法进行了简要介绍，下面对其中涉及到的具体内容进行详细描述。

在本发明的一个可选实施例中，上述步骤S104，采用形式概念分析方法对图数据进行处理，具体包括如下步骤：

(1)根据图数据中节点的邻接关系构建邻接矩阵；

具体的，若图数据中第一节点和第二节点之间存在连边，则邻接矩阵中与第一节点的序号和与第二节点的序号的位置对应的元素设置为第一预设值，其中，第一节点为图数据中的任一节点，第二节点为图数据中的除第一节点之外的任一节点；若图数据中第一节点和第二节点之间不存在连边，则邻接矩阵中与第一节点的序号和与第二节点的序号的位置对应的元素设置为第二预设值。

对于网络图G＝(V，E)，其中V为节点集合，E为边集合，且V＝{v₁，v₂，...，v_m}，E＝{e₁，e₂，...，e_n}，若节点对(v_i，v_j)存在边e_k，则意味着(v_i，v_j)存在连边，将邻接矩阵中第i行第j列设为“1”或“X”，其余不存在连边的设为“0”或“空”，另外，邻接矩阵中还包括有图数据中的节点。

(2)对邻接矩阵进行修正，得到修正后的邻接矩阵；

具体的，将邻接矩阵中的对角线上的元素设置为第一预设值。

实际实现时，在每个节点上添加了自循环，因此在修正后的邻接矩阵中对应的对角线元素设置为"1"或“X”，如图3所示，即为图2所示的图数据对应的修正后的邻接矩阵。

(3)将修正后的邻接矩阵作为形式背景，采用形式概念分析方法得到修正后的邻接矩阵对应的概念；

具体的，若修正后的邻接矩阵中，存在{X，B}满足X↑＝B且B↓＝X，则{X，B}为概念，其中， X表示U的子集，B表示A的子集，U表示修正后的邻接矩阵中第一节点集，A表示修正后的邻接矩阵中第二节点集，I表示第一节点集中的节点和第二节点集中的节点的关系集，X为这个概念的外延，B为这个概念的内涵，修正后的邻接矩阵表示为K＝<U，A，I>，K表示修正后的邻接矩阵。

下面以图3所示的修正后的邻接矩阵为例进行说明：

对于第一节点集(第一行的1-7的节点)中的2，3，4节点，其共有的第二节点为第二节点集(第一列的1-7的节点)中的2，3，4节点；对于第二节点集中的2，3，4节点，其共有的第一节点为第一节点集中的2，3，4节点，可见，{2,3,4}↑＝{2,3,4}，{2,3,4}↓＝{2,3,4}，即{{2,3,4}，{2,3,4}}为概念，{2,3,4}为概念的外延，{2,3,4}为概念的内涵；

再例如第一节点集(第一行的1-7的节点)中的2，3节点，其共有的第二节点为第二节点集中的2，3，4，5节点；对于第二节点集中的2，3，4，5节点，其共有的第一节点为第一节点集中的2，3节点，可见，{2,3}↑＝{2,3,4,5}，{2,3,4,5}↓＝{2,3}，即{{2,3},{2,3,4,5}}为概念，{2,3}为概念的外延，{2,3,4,5}为概念的内涵。

可以得到图2中的图数据的概念如下表所示，表中花括号中的数字表示图数据中的节点：

概念编号	概念的外延	概念的内涵	稳定度	是否为等势概念
					1	{1}	{1}	0.5	是
2	{2,3}	{2,3,4,5}	0.75	否
					3	{2,3,5}	{2,3,5}	0.5	是
4	{6,7}	{6,7}	0.75	是
					5	{2,3,4}	{2,3,4}	0.5	是
6	{2,3,4,5}	{2,3}	0.25	否
					7	{1,2,3,4,5,6,7}	{}
8	{}	{1,2,3,4,5,6,7}

(4)确定概念之间的偏序关系；

具体的，若对于概念集C(K)中的第一概念{X1，B1}和第二概念{X2，B2}，存在且/>则第一概念{X1，B1}和第二概念{X2，B2}之间存在偏序关系，其中，第一概念{X1，B1}为概念集C(K)中的任一概念，第二概念{X2，B2}为概念集C(K)中除第一概念{X1，B1}之外的任一概念。

上述概念之间存在唯一的一个偏序集与之对应，并且这个偏序集产生一种格结构，格L中的每个节点是一个概念。

(5)以各概念为节点，概念之间的偏序关系为边构建得到概念格。

即上述生成的概念具有一定的偏序关系，据此偏序关系可以得到一张以生成的概念构成节点，概念之间的偏序关系构成边的图，即概念格，记为G_concept，如图4所示。

按照偏序关系构造格结构，称为概念格L，如图4所示。每个圆圈代表一个概念，概念上居于左侧的标签代表该概念的内涵，居于上居于右侧的标签代表该概念的外延。如概念{{6,7},{6,7}}，{6,7}为该概念的外延，{6,7}为该概念的内涵，图中显示的为根据偏序关系简化后的内涵和外延。

对于所有的概念集C(K)，如果有概念{X1，B1}和概念{X2，B2}均属于C(K)，则令：

“≤”就是C(K)的一个偏序关系。根据偏序关系可以得到概念格，即为图4，上述算式的含义表示：若则概念{X1，B1}和概念{X2，B2}之间存在偏序关系。

在本发明的一个可选实施例中，概念包括：外延和内涵，上述步骤S106，根据概念格中的概念在概念中确定等势概念，并计算各概念的稳定度，具体包括如下步骤：

(1)若在概念中存在目标概念的外延等于内涵，则确定目标概念为等势概念；

(2)根据稳定度计算算式计算各概念的稳定度，其中，σ{,B}表示概念{,B}的稳定度，X表示概念的外延，B表示概念的内涵，P表示X的子集，f表示概念中外延与内涵的对应关系。

为了便于对上述算式的理解，下面进行举例说明：

对于概念{{2,3,4},{2,3,4}}来说，外延X＝{2,3,4}的子集P包括：{}、{2}、{3}、{4}、{2,3}、{2,4}、{3,4}、{2,3,4}，f({})＝无，f({2})＝{2,3,4,5}，f({3})＝{2,3,4,5}，f({4})＝{2,3,4}，f({2,3})＝{2,3,4,5}，f({2,4})＝{2,3,4}，f({3,4})＝{2,3,4}，f({2,3,4})＝{2,3,4}，B＝{2,3,4}，上述f(P)＝的次数为4次，分别为：f({4})＝{2,3,4}、f({2,4})＝{2,3,4}、f({3,4})＝{2,3,4}和f({2,3,4})＝{2,3,4}，2^||＝2³＝8，

由于稳定度衡量的是概念的外延和内涵各自包含的节点之间联系的紧密程度，当概念的外延和内涵之一为空集，即其不包含任何节点时，稳定度失去意义，因此，在这里不考虑上述两种情况概念的稳定度，如上表中的7号概念和8号概念。

在本发明的一个可选实施例中，上述步骤S108，基于等势概念和/或各概念的稳定度确定图数据的新特征矩阵，具体包括如下步骤：

(1)初始化维度为M*N的矩阵，若第一节点存在于目标等势概念中，则将矩阵中与第一节点的序号和与目标等势概念的序号的位置对应的元素设置为第一预设值，其中，M表示图数据中节点的个数，N表示等势概念的个数；

(2)若第一节点不存在于目标等势概念中，则将矩阵中与第一节点的序号和与目标等势概念的序号的位置对应的元素设置为第二预设值，进而得到图数据的新特征矩阵；

具体的，如图5所示，初始化维度为7*4的矩阵，上面分支中的图数据有4个大的圈，如上述表格可知，4个大的圈即为4个等势概念，图2中的1号节点属于1号等势概念中，那么新特征矩阵中的第1行第1列的元素设置为1，1号节点不属于2、3、4号等势概念中，那么新特征矩阵中的第1行第2列的元素设置为0，第1行第3列的元素设置为0，第1行第4列的元素设置为0，如此依次进行下去，可以得到图5所示的新特征矩阵。

或者；

(1)初始化维度为M*N的矩阵，若当前概念的稳定度大于预设阈值，则将矩阵中节点的序号和当前概念的序号的位置对应的元素设置为第一预设值，其中，M表示图数据中节点的个数，N表示概念的稳定度大于预设阈值的概念的个数；

(2)若当前概念的稳定度不大于预设阈值，则将矩阵中节点的序号和当前概念的序号的位置对应的元素设置为第二预设值，进而得到图数据的新特征矩阵。

上述形式概念增强的图卷积神经网络模型为基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的。

上述图卷积神经网络模型为两层，且每层为16维，每层的的活函数为ReLU函数。

就该实施例而言，训练时，图卷积神经网络模型的输入数据为原始特征矩阵、新特征矩阵和标签列表。输入的数据在图卷积网络中经过前向传播、损失计算、参数更新等过程，得到此网络模型的最终参数。

在模型训练过程中，图数据训练集会被人为的分为训练集、预测集和测试集三个数据集。训练集概念格用于训练图卷积模型得到模型参数；预测集概念格用于在模型训练过程中，使用预测集数据对模型进行验证来评估模型的性能，对模型进行调整和优化，从而防止过拟合或欠拟合问题，预测集也可以叫做验证集；测试集概念格用于测试通过训练集和验证集得出的最优模型，对其进行性能评价。

数据处理结束后，就可以进行一些下游任务如节点分类、链路预测等来验证本方法的可行性。

如图5所示，将目标特征矩阵和标签输入到图卷积神经网络模型中的图卷积层中进行图卷积操作，以通过特征值对图卷积神经网络模型进行训练，并利用概念格中每个概念的原始标签与图卷积操作后输出的预测标签进行对比，以检验图卷积神经网络模型。即在图卷积神经网络中，节点特征值用于每一层神经网络的计算，得到下一层结点的特征值。标签的作用体现在图卷积神经网络模型训练完成之后，原始标签与模型预测得到的标签会产生一组对比，以此来检验模型的效果。

若在训练过程中模型未收敛或者是训练结束后模型在测试集上的效果不理想，可以重新设置初始的batch_size(批次大小)、learning rate(学习率)、weighting deacy(权重衰减)、epoch(训练轮次)等训练参数，也可以更换激活函数、修改卷积网络层数等，从而得到一个收敛且测试效果较为理想的图卷积模型。例如，使用早停法(Early Stopping)判断得到训练终止的标准。其原理为每个epoch结束后(或每N个epoch后)(一个epoch是所有的数据在神经网络中做了一次运算)，在验证集上获取测试结果，随着epoch的增加，如果在验证集上发现验证集上的模型精度在多个(人为设置)epoch内不再上升，则停止训练，并将停止之后的权重作为网络的最终参数。

本发明的图数据的挖掘方法同时采用形式概念分析和图卷积神经网络来挖掘数据中的信息，构建了一个形式概念增强的图卷积神经网络模型。通过计算概念节点的稳定度和分析得到等势概念对原始数据的特征矩阵进行更新(即目标特征矩阵)，可以更好地将形式概念分析和卷积神经网络两部分结合起来，可以更深层次的挖掘图数据信息，提高图数据处理过程中的准确性和效率。例如，可以有效挖掘社交网络等数据网络中的信息，对网络中信息的挖掘和预测起到关键作用，该方法对大规模复杂信息处理有很大帮助和指导作用，可以很好地解决图卷积神经网络中存在的问题。

实施例二：

本发明实施例还提供了一种图数据的挖掘装置，该图数据的挖掘装置主要用于执行本发明实施例一中所提供的图数据的挖掘方法，以下对本发明实施例提供的图数据的挖掘装置做具体介绍。

图6是根据本发明实施例的一种图数据的挖掘装置的示意图，如图6所示，该装置主要包括：获取和确定单元10、处理单元20、确定和计算单元30、特征确定单元40和图卷积神经网络模型处理单元50，其中：

获取和确定单元，用于获取待挖掘的图数据，并确定图数据的原始特征矩阵；

处理单元，用于采用形式概念分析方法对图数据进行处理，得到概念格，其中，概念格包括：概念和概念之间的链接关系；

确定和计算单元，用于根据概念格中的概念在概念中确定等势概念，并计算各概念的稳定度；

特征确定单元，用于基于等势概念和/或各概念的稳定度确定图数据的新特征矩阵；

图卷积神经网络模型处理单元，用于将图数据的原始特征矩阵和图数据的新特征矩阵进行横向拼接，并将拼接得到的目标特征矩阵输入至形式概念增强的图卷积神经网络模型，输出得到待挖掘的图数据的挖掘信息，其中，形式概念增强的图卷积神经网络模型为基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的。

在本发明实施例中，提供了一种图数据的挖掘装置，包括：获取待挖掘的图数据，并确定图数据的原始特征矩阵；采用形式概念分析方法对图数据进行处理，得到概念格，其中，概念格包括：概念和概念之间的链接关系；根据概念格中的概念在概念中确定等势概念，并计算各概念的稳定度；基于等势概念和/或各概念的稳定度确定图数据的新特征矩阵；将图数据的原始特征矩阵和图数据的新特征矩阵进行横向拼接，并将拼接得到的目标特征矩阵输入至形式概念增强的图卷积神经网络模型，输出得到待挖掘的图数据的挖掘信息，其中，形式概念增强的图卷积神经网络模型为基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的。通过上述描述可知，本发明的图数据的挖掘装置中，通过形式概念分析方法将图数据转化为概念格，粗粒度聚合节点信息，将重要信息聚合在较少的节点(即概念)上，使其具有清晰的图结构，从而得到图数据的新特征矩阵，上述形式概念增强的图卷积网络模型也是基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的，从而能够对图数据结构进行更深层次的挖掘，得到更多的挖掘信息，另外，上述具有较少节点的概念格的清晰图结构也减少了形式概念增强的图卷积神经网络模型的计算量，进而大大提高了图数据挖掘的效率，缓解了现有的图数据的挖掘方法存在数据挖掘深度不足、效率不高的技术问题。

可选地，处理单元还用于：根据图数据中节点的邻接关系构建邻接矩阵；对邻接矩阵进行修正，得到修正后的邻接矩阵；将修正后的邻接矩阵作为形式背景，采用形式概念分析方法得到修正后的邻接矩阵对应的概念；确定概念之间的偏序关系；以各概念为节点，概念之间的偏序关系为边构建得到概念格。

可选地，处理单元还用于：若图数据中第一节点和第二节点之间存在连边，则邻接矩阵中与第一节点的序号和与第二节点的序号的位置对应的元素设置为第一预设值，其中，第一节点为图数据中的任一节点，第二节点为图数据中的除第一节点之外的任一节点；若图数据中第一节点和第二节点之间不存在连边，则邻接矩阵中与第一节点的序号和与第二节点的序号的位置对应的元素设置为第二预设值。

可选地，处理单元还用于：将邻接矩阵中的对角线上的元素设置为第一预设值。

可选地，处理单元还用于：若修正后的邻接矩阵中，存在{X，B}满足X↑＝B且B↓＝X，则{X，B}为概念，其中， X表示U的子集，B表示A的子集，U表示修正后的邻接矩阵中第一节点集，A表示修正后的邻接矩阵中第二节点集，I表示第一节点集中的节点和第二节点集中的节点的关系集。

可选地，处理单元还用于：若对于概念集C(K)中的第一概念{X1，B1}和第二概念{X2，B2}，存在且/>则第一概念{X1，B1}和第二概念{X2，B2}之间存在偏序关系，其中，第一概念{X1，B1}为概念集C(K)中的任一概念，第二概念{X2，B2}为概念集C(K)中除第一概念{X1，B1}之外的任一概念。

可选地，概念包括：外延和内涵，确定和计算单元还用于：若在概念中存在目标概念的外延等于内涵，则确定目标概念为等势概念；根据稳定度计算算式计算各概念的稳定度，其中，σ{,B}表示概念{,B}的稳定度，X表示概念的外延，B表示概念的内涵，P表示X的子集，f表示概念中外延与内涵的对应关系。

可选地，特征确定单元还用于：初始化维度为M*N的矩阵，若第一节点存在于目标等势概念中，则将矩阵中与第一节点的序号和与目标等势概念的序号的位置对应的元素设置为第一预设值，其中，M表示图数据中节点的个数，N表示等势概念的个数；若第一节点不存在于目标等势概念中，则将矩阵中与第一节点的序号和与目标等势概念的序号的位置对应的元素设置为第二预设值，进而得到图数据的新特征矩阵；或者，初始化维度为M*N的矩阵，若当前概念的稳定度大于预设阈值，则将矩阵中节点的序号和当前概念的序号的位置对应的元素设置为第一预设值，其中，M表示图数据中节点的个数，N表示概念的稳定度大于预设阈值的概念的个数；若当前概念的稳定度不大于预设阈值，则将矩阵中节点的序号和当前概念的序号的位置对应的元素设置为第二预设值，进而得到图数据的新特征矩阵。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

如图7所示，本申请实施例提供的一种电子设备600，包括：处理器601、存储器602和总线，所述存储器602存储有所述处理器601可执行的机器可读指令，当电子设备运行时，所述处理器601与所述存储器602之间通过总线通信，所述处理器601执行所述机器可读指令，以执行如上述图数据的挖掘方法的步骤。

具体地，上述存储器602和处理器601能够为通用的存储器和处理器，这里不做具体限定，当处理器601运行存储器602存储的计算机程序时，能够执行上述图数据的挖掘方法。

处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成上述方法的步骤。

对应于上述图数据的挖掘方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述图数据的挖掘方法的步骤。

本申请实施例所提供的图数据的挖掘装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

再例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述车辆标记方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图数据的挖掘方法，其特征在于，包括：

获取待挖掘的图数据，并确定所述图数据的原始特征矩阵，所述待挖掘的图数据包括：待挖掘的论文数据，每个待挖掘的论文为所述图数据中的一个节点，所述图数据的原始特征矩阵中的元素表示各待挖掘的论文数据是否包含与所述元素的位置对应的关键词；

将所述图数据的原始特征矩阵和所述图数据的新特征矩阵进行横向拼接，并将拼接得到的目标特征矩阵输入至形式概念增强的图卷积神经网络模型，输出得到所述待挖掘的图数据的挖掘信息，其中，所述形式概念增强的图卷积神经网络模型为基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的，所述待挖掘的图数据的挖掘信息包括：所述图数据中各个节点所表示的各个待挖掘的论文所属的类别；

其中，基于所述等势概念和/或各所述概念的稳定度确定所述图数据的新特征矩阵，包括：

或者，

2.根据权利要求1所述的方法，其特征在于，采用形式概念分析方法对所述图数据进行处理，包括：

根据所述图数据中节点的邻接关系构建邻接矩阵；

对所述邻接矩阵进行修正，得到修正后的邻接矩阵；

确定所述概念之间的偏序关系；

3.根据权利要求2所述的方法，其特征在于，根据所述图数据中节点的邻接关系构建邻接矩阵，包括：

4.根据权利要求3所述的方法，其特征在于，对所述邻接矩阵进行修正，包括：

5.根据权利要求2所述的方法，其特征在于，将所述修正后的邻接矩阵作为形式背景，采用所述形式概念分析方法得到所述修正后的邻接矩阵对应的概念，包括：

6.根据权利要求2所述的方法，其特征在于，确定所述概念之间的偏序关系，包括：

7.根据权利要求1所述的方法，其特征在于，所述概念包括：外延和内涵，根据所述概念格中的概念在所述概念中确定等势概念，并计算各所述概念的稳定度，包括：

根据稳定度计算算式计算各所述概念的稳定度，其中，σ{X,B}表示概念{X,B}的稳定度，X表示概念的外延，B表示概念的内涵，P表示X的子集，f表示概念中外延与内涵的对应关系。

8.一种图数据的挖掘装置，其特征在于，包括：

获取和确定单元，用于获取待挖掘的图数据，并确定所述图数据的原始特征矩阵，所述待挖掘的图数据包括：待挖掘的论文数据，每个待挖掘的论文为所述图数据中的一个节点，所述图数据的原始特征矩阵中的元素表示各待挖掘的论文数据是否包含与所述元素的位置对应的关键词；

图卷积神经网络模型处理单元，用于将所述图数据的原始特征矩阵和所述图数据的新特征矩阵进行横向拼接，并将拼接得到的目标特征矩阵输入至形式概念增强的图卷积神经网络模型，输出得到所述待挖掘的图数据的挖掘信息，其中，所述形式概念增强的图卷积神经网络模型为基于图数据训练集中各图数据样本的原始特征矩阵、新特征矩阵和标签对图卷积神经网络模型进行训练得到的，所述待挖掘的图数据的挖掘信息包括：所述图数据中各个节点所表示的各个待挖掘的论文所属的类别；

所述特征确定单元还用于：

或者，

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法的步骤。