CN108520275A

CN108520275A - 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法

Info

Publication number: CN108520275A
Application number: CN201810286686.3A
Authority: CN
Inventors: 罗智凌; 尹建伟; 吴朝晖; 邓水光; 李莹; 吴健
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-06-28
Filing date: 2018-03-31
Publication date: 2018-09-11
Also published as: US20200134362A1; US11461581B2; WO2019001070A1

Abstract

本发明提供了一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法，通过将图对应的邻接矩阵中的连接信息元素集中到邻接矩阵的特定的对角线区域中，将非连接信息元素提前进行削减，这样在使用大小固定的窗口沿对角线区域遍历就可以捕获图中所有对应大小的子图结构时，时间复杂度大大降低了；进一步使用过滤矩阵沿对角线方向提取图的子图结构，然后采用层叠的卷积神经网络提取更大的子图结构，一方面大大减少了计算复杂度和计算量，解决了计算复杂度的限制和窗口大小的限制，并且能够通过较小的窗口捕获大型多顶点的子图结构，以及来自顶点和边的隐式相关结构的深层特征，提高了图分类的准确性和速度。

Description

一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法

技术领域

本发明属于人工智能领域，具体涉及一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法。

背景技术

图论中的图(graph)是由若干给定的点及连接两点的线所构成的图形，这种图形通常用来描述某些事物之间的某种特定关系，用点代表事物，用连接两点的线表示相应两个事物间具有某种关系。图论中的图(Graph)G是一个有序二元组(V，E)，其中V称为顶点集(vertex set)，即图中所有顶点组成的集合，E称为边集(edge set)，即所有顶点之间的边组成的集合。简单的说，顶点表示事物，边表示事物之间的关系。图(graph)是一种非网格数据(non-grid data)，这类数据的特点是，在具体的场景中维度(dimension)是不确定的，并且维度高且无上限，所述的图的维度(dimension)是指图的顶点的数量。例如化学结构式可以对应一个图(graph)，其中原子即为图(graph)中的顶点，原子间的化学键即为图(graph)中的边。一个分子的维度为该分子中包含的原子数量，例如一个分子包含100个原子组成，则该分子的维度为100。在一个分子的集合中，每个分子由数量不定的原子构成，故其维度是不确定的。现实中蛋白质等复杂结构往往由几十甚至上百个原子构成，其维度就高达几十甚至上百。又例如社交网络也可以对应一个图(graph)，其中，人即图(graph)中的顶点，人与人之间的关系即图(graph)中的边，社交网络的维度会更高且更加复杂，一般较大的社交网络能有几千个顶点，几万条边，维度就高达几千，可见图论中的图对应的维度是非常高的，且无上限。

另一方面，图片、文本、音视频等数据均属于网格数据(grid data)，该类数据特点是，维度低(不超过3维)，并且维度是确定的。例如图片(image)，对于一个图片的集合，图片的维度不受图片的数量的影响，对于一张图片，它的维度可以表示为2维或3维，更多张的图片(例如数百张)，其维度是不变的，仍然为2维或3维。可见，网格数据和非网格数据是两种完全不同的数据，非网格数据相比于网格数据有着更高且不确定的维度和更复杂的结构，对两种数据的分类方法和特征提取方法也是完全不同的。

商业、科学和工程学中的许多复杂问题可以被抽象为图(graph)的问题，然后可以通过使用图分析算法来解决。图分类(graph classification)问题将图(graph)视为复杂对象，根据图中隐藏的常见子图结构模式构建深度学习模型来学习图的分类(graphclassification)。例如，MUTAG数据集由许多硝基化合物组成，其中类别标签可以指示化合物对细菌是否具有诱变作用。另一个例子是将不可见化合物映射到其对癌细胞的活性水平上。

图分类问题(graph classification)将图视为复杂对象，根据图中隐藏的常见子图(subgraph)结构模式构建深度学习模型来学习图的分类。所述子图(subgraph)是指图中部分顶点以及将这些顶点连接起来的边表现出的图论中的图。复杂对象分类的方法通常通过设计适合的相似度函数来测量两个复杂对象之间的相似距离，然后再使用一些分类算法来对复杂对象进行分类。现有的基于图相似度计算模型的图分类大致分为两类：

(1)基于局部子图的方法；这类方法根据较小子图结构在图中是否存在或出现次数来计算图之间的相似度，这类方法核心思想在于将重要的子图结构识别为用于图分类的关键特征，然后，通过将待分类的各图表示为包含这些子图结构关键特征信息的向量，向量中每个元素表示相应子图结构的权重，最后应用现有的机器学习算法来进行训练和预测。使用这样的子图结构作为关键特征会受限于子图大小(通常称为窗口大小，window-size)，因为子图大小增大会导致子图枚举的计算复杂度和计算量大大增加，通常是增加一个窗口大小，计算量会以指数级别增加，到一定极限会超出计算机的执行时间(running time)和内存(memory usage)的承受能力。因此，该方法会受限于窗口大小(选择的子图大小不能超过10个顶点)，而这将导致图的特征中缺少对分类至关重要、但通过小的窗口(不超过10)无法捕获的子图结构，进而可能导致较高的分类错误率。

(2)基于全局相似度(global similarity-based)的方法；这类方法的核心思想是计算图的成对相似度(pairwise similarity，距离)，这类方法通常先编码(encode)子图特征，然后创建距离/相似度矩阵，在距离矩阵上使用现有的监督学习算法去进行分类，比如kNN和SVM。

图核(graph kernel)和图嵌入(graph embedding)是图相似度计算模型的图分类方法中最新的两种代表性方法。

然而，以上两种图分类的现有方法都存在着严重的缺点。首先，与文本、图像、视频和场景数据集等网格数据的分类相比，作为非网格数据，图(Graph)的特征提取构成了一些独特的挑战。图(Graph)由两种类型的元素组成——顶点和边，将图作为整个对象来分析，不仅需要捕获来自图(Graph)的显式拓扑结构的浅层特征，而且需要捕获来自顶点和边的隐式(隐藏)相关结构的深层特征。因此，很难在确定性特征空间中表示图(Graph)。其次，捕获隐式结构相关模式对于图(Graph)的高质量分类至关重要。无论是较小且固定大小的子图模式匹配(局部相似性)还是图的成对相似性(全局相似性)都不足以捕获复杂隐藏相关模式，用于对具有不同大小和不同结构复杂度的图进行分类。

卷积神经网络(CNN)在深度学习中处理网格数据方面取得了显著的成功，例如文本、图像、音视频和流数据以及大规模场景分析。这些数据都属于网格数据，它们有确定的维度且维度低，且网格数据中的数据具有平移、缩放和旋转不变等特点。图(graph)是非网格数据(non-grid data)，卷积神经网络(CNN)不能直接地应用到图上，因为CNN中的卷积和池化操作是仅定义在常规网格数据(grid data)上的操作，而不能直接在非网格数据(non-grid data)上做卷积操作。(Convolutional Neural Networks on Graphs with FastLocalized Spectral Filtering,30th Conference on Neural Information ProcessingSystems(NIPS 2016),Barcelona,Spain,1-8)。

Mathias Niepert等首次将卷积神经网络应用于图的分类问题中(Learningconvolutional neural networks for graphs，Proceedings of the 33rdInternational Conference on Machine Learning,New York,NY,USA,2016,2014-2023)，文中提出的PSCN方法，对于输入的图(graph)，首先对图的顶点进行标注(GraphLabeling)，根据标注结果将图的顶点进行排序，选择前w个顶点作为中心顶点；对选取的w个顶点，每个顶点采取广度优先的方式选取它的k个相邻顶点(根据Graph Labeling排序选取)，这样每个顶点和它的周围大小为k的邻域构成一个子图(subgraph)，w个顶点就能得到w个子图(subgraph)；通过以上步骤得到w个维度为(k+1)的向量，每个向量对应一个以中心顶点为中心的子图中顶点的信息，此外还得到w个维度为(k+1)²的向量，每个向量对应一个以中心顶点为中心的子图中边的信息，然后在这些向量上应用标准的卷积神经网络。简单地说，PSCN抽取了以若干个(参数w决定)顶点为中心的指定大小(由窗口大小参数k决定)的子图作为特征进行编码，然后应用标准的1维卷积神经网络。文中提出的PSCN方法在现有的开放数据集上获得了比Deep Graph Kernel更好的结果。然而，它仍然有一些缺点。首先，w个中心顶点的选择会限定子图的数量，因而无法保证所有的子图结构都能被抽取出来；其次，PSCN方法仍然受到窗口大小的限制，邻域的选择由小于10的窗口大小k决定，因为较大的窗口大小k将导致不可接受的耗时和内存使用；再次，PSCN使用较小的窗口大小k时并不能有效地进行深度学习，因为当输入的图具有超出默认窗口大小的密集连接特征时，它会丢失复杂的子图特征；此外，PSCN的分类结果对标签(Labeling)过程敏感，标签过程是将领域中的顶点进行排序；因此它们的标签方法适用于一个数据集，但可能在另一个数据集上失败。

综上所述，现有技术的方法对图的分类存在两个主要问题：一是将图(graph)作为整个对象分析时，无法选择出既能包含显示拓扑信息和深层隐含信息的特征来对图(graph)进行表示；二是将子图作为图(graph)的特征时，子图大小受制于窗口大小(windowsize)k的选择，导致难以捕获较大的复杂子图，使得图的分类准确性不高。

而现实生活中很多场景在抽象成图(graph)时，其包含的代表其特征的子图(subgraph)结构通常比较复杂。如将有机化学中的化合物抽象为图(graph)，以其中的原子作为图(graph)的顶点，原子之间的化学键作为图(graph)的边，通常需要使用某些特殊分子结构(即子图)作为整个化合物的特征，而这些特征分子结构(即子图)中可能包含上百个原子(即顶点)；再比如社交网络抽象成图，以网络中的人作为图中的顶点，人与人之间的关系作为图中的边，通常需要使用网络中某些特殊团体结构(即子图)作为网络的特征，而这种团体结构中可能有数百个人(即顶点)。而现有技术的方法都无法有效地提取图中较大子图结构，进而无法对图进行很好的特征表示。

发明内容

针对现有技术的不足，本发明所要解决的技术问题是提供一种在计算机环境下基于邻接矩阵的连接信息规整系统和方法，可以有效使邻接矩阵中对应于图中边的元素集中到对角线区域，这样使用大小固定的窗口沿对角线区域遍历就可以捕获图中所有对应大小的子图结构，降低了时间复杂度；然后再通过融合这些子图结构的信息，可以捕获大型多顶点子图结构信息，从而解决了现有技术无法解决的技术问题。

本发明针对现有的图分类方法的缺点包括：第一，由于图(graph)作为整个对象来分析不仅需要捕获来自图的显式拓扑结构的浅层特征，而且需要捕获来自顶点和边的隐式相关结构的深层特征，否则，会影响图分类的准确性。现有技术的方法难以在确定性特征空间中表示图(graph)，所述特征空间指的是，从原始数据中进行特征提取，将原始数据映射到一个更高维的空间，特征空间中的特征是对原始数据更高维的抽象。第二，由于窗口大小(window size)导致的计算复杂度的限制，现有技术的方法无法捕获大型多顶点子图结构。相对于现有的图分类方法，本发明通过将图对应的邻接矩阵中的连接信息元素集中到邻接矩阵的特定的对角线区域中，将非连接信息元素提前进行削减，进一步使用过滤矩阵沿对角线方向提取图的子图结构，然后采用层叠的卷积神经网络提取更大的子图结构，一方面大大减少了计算复杂度和计算量，解决了计算复杂度的限制和窗口大小的限制，并且能够通过较小的窗口捕获大型多顶点的子图结构，以及来自顶点和边的隐式相关结构的深层特征，提高了图分类的准确性和速度。

本发明采用的技术方案如下：

一种计算机环境中的连接信息规整系统，所述的连接信息规整系统对图的第一邻接矩阵中的全部顶点进行重新排序，得到第二邻接矩阵，所述第二邻接矩阵中的连接信息元素集中分布在所述第二邻接矩阵的宽度为n的对角线区域，其中n为正整数，n≥2且n<|V|，所述的|V|为第二邻接矩阵的行数或列数；优选的，所述对角线区域指矩阵中从左上角至右下角的对角线区域，例如，附图1的阴影区域即为一个6×6的邻接矩阵中宽度为3的对角线区域。

所述的图、子图均为图论中的图；

所述的连接信息元素是图中的边在邻接矩阵中对应的元素。

所述连接信息规整系统将图对应的邻接矩阵中的连接信息元素集中到第二邻接矩阵宽度为n的特定的对角线区域(n为正整数，n≥2且n<|V|，所述的|V|为第二邻接矩阵的行数或列数)中，处理之后使用大小为n×n的矩阵(即窗口大小为n)沿对角线区域遍历就可以完成图中顶点数为n的子图结构的提取了，所需的计算复杂度和计算量大大减小，解决了计算复杂度限制。

本发明所述向量指具有大小(magnitude)和方向的量，在数学中表现为一个1×m的矩阵，m为大于1的正整数。本发明所述的特征均表示图(graph)的特征。

本发明所述的邻接矩阵(Adjacency Matrix)是指表示图(graph)的顶点之间相邻关系的矩阵，所述邻接矩阵的基本属性是通过切换邻接矩阵的两列和相应行，可以得到表示相同图的另一个邻接矩阵。设G＝(V,E)是一个图，V为顶点集(vertex set)，v_i表示V中第i个顶点，|V|表示V中顶点的个数，i为小于或等于|V|的正整数，E为边集(edge set)。G的邻接矩阵是一个具有下列性质的n阶方阵：

1)对无向图而言，邻接矩阵一定是对称的，而且主对角线一定为零(在此仅讨论无向简单图)，副对角线不一定为0，有向图则不一定如此；所述主对角线为矩阵左上角至右下角的对角线；所述副对角线为矩阵右上角至左下角的对角线；

2)在有向图中，任一顶点v_i的度为第i列(或第i行)所有非零元素的个数；所述顶点i是指在矩阵中第i列(或第i行)表示的顶点；在有向图中，顶点i的出度为第i行所有非零元素的个数，而入度为第i列所有非零元素的个数；所述顶点的度为与该顶点关联的边的数目；所述顶点的出度为该顶点指向其他定点的边的个数；所述定点的入度为其他定点指向该顶点的边的个数；

3)用邻接矩阵法表示图共需要|V|²个元素，由于无向图的邻接矩阵一定具有对称关系，所以扣除对角线为零外，仅需要存储上三角形或下三角形的数据即可，因此仅需要|V|×(|V|-1)/2个元素；当无向图的边是带权值的边时，邻接矩阵中的连接元素值用权值代替，没有连接的元素用0代替。

本发明所述的连接信息元素是图中的边在邻接矩阵中对应的元素；在无向图中，第i行第j列的元素值，代表的是顶点v_i与顶点v_j的连接是否存在以及是否有连接权值；在有向图中第i行第j列的元素值，代表顶点v_i指向顶点v_j的连接是否存在以及是否有连接权值。例如，对无向图中顶点v_i和顶点v_j，二者之间如果存在一条边，那么在邻接矩阵中对应的第i行第j列和第j行第i列的元素值均为1，如果不存在边，则对应的第i行第j列和第j行第i列的元素值均为0，如果存在边且边上存在权值为w，则对应的第i行第j列和第j行第i列的元素值均为w；再例如，对于有向图中的顶点v_i和顶点v_j，二者之间如果存在一条由顶点v_i指向顶点v_j的边，那么在邻接矩阵中对应的第i行第j列的元素值为1，如果不存在由顶点v_i指向顶点v_j的边，则对应的第i行第j列的元素值为0，如果存在一条由顶点v_i指向顶点v_j的边且边上存在权值为w，则对应的第i行第j列的元素值为w；其中，i、j为小于或等于|V|的正整数，|V|为图中顶点的数量，w为任意实数。

优选的，如果所述的图中边上没有权重，所述的连接信息元素的值为1，非连接信息元素的值为0；更优选的，如果所述的图中边上带有权重，则所述的连接信息元素的值为边的权重值，非连接信息元素的值为0。

本发明所述第一邻接矩阵是指一开始将图转化为邻接矩阵得到的第一个邻接矩阵，即交换对应行列之前的初始邻接矩阵，所述第二邻接矩阵指的是通过对第一邻接矩阵进行行列交换，将矩阵信息最大限度集中化之后的邻接矩阵，第二邻接矩阵中的连接信息元素集中分布在所述第二邻接矩阵的宽度为n的对角线区域，其中n为正整数，n≥2且n<|V|，所述的|V|为第二邻接矩阵的行数或列数。第一邻接矩阵转换成第二邻接矩阵的示意图如图3所示，左图为第一邻接矩阵，右图为第二邻接矩阵。

进一步地，所述第二邻接矩阵的对角线区域由以下元素组成：正整数i从1遍历至|V|，当i>max(n,|V|-n)时，选取第i行中第(i-n+1)到|V|列的元素；当i≤n，选取第i行中第0至i+n-1列的元素；当max(n,|V|-n)≥i≥min(|V|-n,n)，则第i列中，选取第(i-n+1)列到第(i+n-1)列的元素；

优选的，所述第二邻接矩阵的对角线区域是指使用一个尺寸为n×n的扫描矩形框沿所述第二邻接矩阵的对角线扫描一遍所经过的区域；更优选的，所述的扫描过程如下：首先，将所述扫描矩形框的左上角与第二邻接矩阵的左上角重合；然后每次将所述扫描矩形框往右方和下方各移动一个元素格，直至所述扫描矩形框的右下角与所述第二邻接矩阵的右下角重合。

进一步地，所述连接信息规整系统用于对所述第一邻接矩阵的全部顶点进行重新排序，使得排序之后第二邻接矩阵的对角线区域中连接信息元素的集中程度最高；所述连接信息元素的集中程度是指在对角线区域中非零元素的占比；

优选的，所述重新排序的方法为整数优化算法，其作用为将矩阵中的连接信息元素集中到对角线区域中，并使连接信息元素的集中程度尽可能的高；所述整数优化算法指的是通过同时交换矩阵中的对应两行或两列，使得矩阵的连接信息元素的集中程度更高的算法；

进一步地，所述重新排序的方法为贪心算法，包括以下步骤：

(1)初始输入：输入图的第一邻接矩阵作为待处理邻接矩阵；

(2)交换对统计：计算待处理邻接矩阵中所有可能的顶点交换对；

(3)行列交换：判断是否所有可能的顶点交换对均为已处理状态，若是，则输出待处理邻接矩阵得到所述的第二邻接矩阵，所述的贪心算法结束；否则，从尚未处理过的顶点交换对中任意选择一个顶点交换对作为当前顶点交换对，同时交换其对应的两个顶点在待处理邻接矩阵中对应的两行及对应的两列，生成新邻接矩阵，并跳转至步骤(4)；

(4)交换效果评定：计算新邻接矩阵中连接信息元素的集中程度，若所述新邻接矩阵中连接信息元素的集中程度高于所述待处理邻接矩阵中连接信息元素的集中程度，则用所述新邻接矩阵替代所述的待处理邻接矩阵，并跳转至步骤(2)；若所述新邻接矩阵中连接信息元素的集中程度低于或等于所述待处理邻接矩阵中连接信息元素的集中程度，则放弃这种交换，并标记所述的当前顶点交换对为已处理状态，跳转至步骤(3)。

所述贪心算法的流程图参见附图4。

进一步地，所述重新排序的方法为分支定界算法，包括以下步骤：

(1)初始输入：输入图的第一邻接矩阵作为待处理邻接矩阵；

(3)行列交换：判断是否所有可能的顶点交换对均为已处理状态，若是，则输出所述的待处理邻接矩阵得到所述第二邻接矩阵，所述的分支定界算法结束；否则，对所有可能的顶点交换对中的每一个未处理过的顶点交换对分别执行交换操作，并跳转至步骤(4)，所述的交换操作是指同时交换所述顶点交换对对应的两个顶点在所述待处理邻接矩阵中对应的两行及对应的两列，对每一个所述的顶点交换对执行所述交换操作都会生成一个新邻接矩阵；

(4)交换效果评定：计算每一个所述的新邻接矩阵中连接信息元素的集中程度，若存在连接信息元素的集中程度高于所述待处理邻接矩阵中连接信息元素的集中程度的新邻接矩阵，则选择集中程度最高的新邻接矩阵代替所述的待处理矩阵，并标记生成该集中程度最高的新邻接矩阵的顶点交换对为已处理状态，然后跳转至步骤(3)；若不存在连接信息元素的集中程度高于所述待处理邻接矩阵中连接信息元素的集中程度的新邻接矩阵，则输出当前待处理邻接矩阵得到所述的第二邻接矩阵，所述的分支定界算法结束。

所述分支定界算法流程图参见附图5。

进一步地，所述第二邻接矩阵的对角线区域中连接信息元素的集中程度依赖于所述的对角线区域内的连接信息元素的数量和/或非连接信息元素的数量。

进一步地，所述第二邻接矩阵的对角线区域中连接信息元素的集中程度依赖于所述的对角线区域外的连接信息元素的数量和/或非连接信息元素的数量。

进一步地，所述的集中程度可以利用Loss值来衡量，Loss值越小，集中程度越高，所述的Loss值的计算方法如下：

式中，LS(A,n)代表损失Loss值，A代表所述的第二邻接矩阵，n代表所述第二邻接矩阵中对角线区域的宽度，A_i,j表示所述第二邻接矩阵中第i行第j列的元素。优选的，所述LS(A,n)表示第二邻接矩阵A在过滤矩阵大小为n×n时的Loss值，Loss值越小，第二邻接矩阵的集中程度越高。

进一步地，所述的集中程度还可以利用ZR值来衡量，ZR值越小，集中程度越高，所述ZR值的计算方法如下：

式中，A代表第二邻接矩阵，C表示所有元素均为连接信息元素且尺寸大小与A相同的矩阵，Ai,j表示A中第i行第j列的元素，Ci,j表示C中第i行第j列的元素，TC(A,n)、TC表示宽度为n的对角线区域中元素的总个数，T1(A,n)、T1表示宽度为n的对角线区域中连接信息元素的个数，ZR(A,n)代表ZR值，该值表示宽度为n的对角线区域中非连接信息元素的占比。

本发明的第二个目的是提供一种在计算机环境中基于邻接矩阵的图特征提取系统，所述的图特征提取系统基于图的邻接矩阵抽取出图的特征，所述的特征直接对应支持分类的子图结构，所述的特征以至少一个向量的形式呈现，每一个向量对应一种混合态在图中的分布情况；所述的图特征提取系统包含特征生成模块和如前所述的任何一种形式的在计算机环境中的连接信息规整系统。所述图特征提取系统包括连接信息规整系统和特征生成模块，所述的连接信息规整系统和特征生成模块作为一个整体协同作用，其作用是可以在不同大小、不同结构复杂度的图集上有效地提取隐含在矩阵宽度为n的特定的对角线区域中的局部模式和连接特征。所述连接信息规整系统使得特征生成模块所需要的计算复杂度和计算量大大减小，解决了计算复杂度的限制；所述的图为图论中的图；

优选的，所述的特征生成模块利用过滤矩阵生成图的特征，所述的过滤矩阵为正方形矩阵；更优选的，所述的特征生成模块利用至少一个过滤矩阵，沿所述第二邻接矩阵的对角线区域进行过滤操作，得到至少一个向量，所述的至少一个向量对应于所述的图的特征，所述的特征直接对应支持分类的子图结构，每一个向量对应一种混合态在图中的分布情况。

优选的，所述的分布情况是指图中出现该混合态中的子图结构的可能性；优选的，每一个所述的混合态代表任意多个子图结构对应的邻接矩阵的线性加权；更优选的，所述的线性加权是指每一个子图的邻接矩阵乘以该邻接矩阵对应的权值，然后对位相加到一起，得到一个与子图的邻接矩阵相同大小的矩阵；所述邻接矩阵对应的权值的加和为1；计算过程如图2所示。

优选的，所述的过滤操作是利用所述的过滤矩阵对所述第二邻接矩阵对位的矩阵内积的加和，通过激活函数得到一个值，让过滤矩阵沿所述第二邻接矩阵的对角线方向移动，从而得到一组值，形成一个向量，该向量对应一种子图结构在图中的分布情况；更优选的，所述的激活函数为sigmoid函数、ReLU激活函数、pReLU函数。

优选的，所述的特征生成模块利用不同的过滤矩阵，进行所述的过滤操作；

优选的，所述过滤矩阵中每一个元素的初始值分别从高斯分布中取出的随机变量的值。所述高斯分布是一种概率分布，高斯分布是具有两个参数μ和σ的连续型随机变量的分布，第一参数μ是服从正态分布的随机变量的均值，第二个参数σ是此随机变量的方差；通过高斯分布取随机变量值时，所取随机变量值与μ越邻近，概率越大，而离μ越远则概率越小。

优选的，所述的过滤矩阵中的元素为大于等于-1、小于等于1的实数；更优选的，所述的过滤矩阵中的元素为大于等于0、小于等于1的实数。

优选的，所述的特征生成模块参与机器学习过程，所述机器学习过程用于调整所述过滤矩阵的元素的值。

优选的，所述的机器学习过程是利用反向传播，利用分类的损失值，计算梯度值，进一步调节过滤矩阵中的各个元素的值。

所述损失值，指的是机器学习过程中的输出与实际应该得到的输出之间的误差；所述梯度可以看作是一个曲面沿着给定方向的倾斜程度，标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向，梯度值是这个方向上最大的变化率。

所述的机器学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层。如果在输出层得不到期望的输出值，则取输出与期望的误差的平方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯度，作为修改权值的依据，机器学习过程在权值修改过程中完成。误差收敛到期望值或达到最大学习次数时，机器学习过程结束。所述过滤矩阵中元素的初始值为从高斯分布中取出的随机变量的值，然后在机器学习过程中通过反向传播进行更新，并在机器学习过程结束时达到最优。

优选的，所述隐含层是指除输入层和输出层以外的其他各层，隐含层不直接接受外界的信号，也不直接向外界发送信号。

进一步地，所述过滤矩阵的尺寸为n×n，即所述过滤矩阵的尺寸与所述第二邻接矩阵中的对角线区域宽度相同；通过所述的连接信息规整系统将第一邻接矩阵中的连接信息元素集中到对角线区域之后，使用过滤矩阵进行对角卷积就可以在O(n)的时间复杂度的前提下，尽可能多的把图中大小为n的子图结构的分布情况提取出来。

本发明的第三个目的是提供一种在计算机环境中基于邻接矩阵的图分类系统，所述的图分类系统包含类别标注模块和如前所述任何一种形式的在计算机环境中基于邻接矩阵的图特征提取系统，所述的类别标注模块基于所述图特征提取系统生成的特征对图进行类别标注，输出图的类别；所述的图为图论中的图；

优选的，所述的类别标注模块计算出图属于各个分类标签的可能性，并将可能性最高的分类标签标注为图的类别，完成图的分类；

优选的，所述的类别标注模块利用分类算法计算出图属于各个分类标签的可能性，并将可能性最高的分类标签标注为图的类别，完成图的分类；更优选的，所述的分类算法选自kNN、线性分类算法中的任意一种或任意多种。

所述kNN算法是指如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。所述线性分类算法是指，根据标签确定的数据在其空间中的分布，使用一条直线(或者平面，超平面)进行分割来对数据进行分类。所述标签指的是对类别进行描述的标识。

进一步地，所述的图分类系统还包含层叠CNN模块，所述的层叠CNN模块基于所述的图特征提取系统生成的特征进行处理，融合所述的特征对应的支持分类的子图结构，生成包含图中更大子图结构的特征，所述的更大子图结构是指顶点个数多于n的子图结构；

优选的，所述的层叠CNN模块包含卷积子模块和池化子模块；

所述的卷积子模块使用至少一个卷积层基于所述的图特征提取系统生成的特征进行卷积操作，融合所述的特征对应的支持分类的子图结构，得到至少一个向量作为卷积结果；第一个卷积层的输入为如前所述任何一种形式的图特征提取系统生成的特征，如果有多个卷积层，每一个卷积层的输入为前一个卷积层的输出结果，每一个卷积层的输出结果均为至少一个向量，每一个卷积层使用至少一个过滤矩阵进行卷积操作，最后一个卷积层的卷积结果输出至所述的池化子模块；

进一步地，所述卷积操作是指使用一个过滤矩阵在邻接矩阵上以某种规律进行平移，对位相乘再相加，将得到的值构成向量或矩阵的计算方法。

所述的过滤矩阵为正方形矩阵；每一个所述卷积层中所述过滤矩阵的行数与输入该卷积层的向量的数量相同；优选的，所述的过滤矩阵中的元素为大于等于-1、小于等于1的实数；更优选的，所述的过滤矩阵中的元素为大于等于0、小于等于1的实数；

所述的池化子模块用于对所述卷积子模块得到的矩阵进行池化操作，得到至少一个向量作为池化结果输出至所述的类别标注模块，对图进行类别标注，输出图的类别，所述池化结果包含图中更大子图结构的特征；所述的更大子图结构是指顶点个数多于n的子图结构；优选的，所述的池化操作选自最大池化操作、平均池化操作。所述最大池化操作是指对邻域内特征点取最大值；所述平均池化操作是指对邻域内特征点的值求平均。

进一步地，所述的池化操作是在卷积操作的基础上，对每个卷积结果进行数学操作，进而缩小卷积结果的维数。所述的数学操作包括但不限于取平均值、取最大值。

优选的，所述层叠CNN模块的数据流图参见附图6。

所述的层叠CNN模块融合所述图的特征对应的支持分类的子图结构，通过一系列的卷积层、从所述特征生成模块得到的特征中提取更大、更深层、更复杂的特征，对应于图中跟大、更深层、更复杂的子图结构。所述连接信息规整系统、特征生成模块和层叠CNN模块协同作用，其作用是实现了利用大小为n的小窗口捕获小的子图结构(顶点数为n)，同时利用这些小的子图结构(顶点数为n)的组合来获取顶点数大于n的更大、更深层、更复杂的子图结构，即用小窗口(窗口大小为n)来提取图的更大(顶点数大于n)、更深层、更复杂的特征。即实现了利用较小的窗口捕获大型多顶点的子图结构，以及来自顶点和边的隐式相关结构的深层特征，提高了图分类的准确性和速度。

进一步地，所述的图分类系统还包含独立池化模块和卷积池化模块；所述的独立池化模块用于对所述的图特征提取系统生成的特征进行池化操作，得到至少一个向量作为第一池化结果输出至所述的类别标注模块；所述的卷积池化模块对输入的如前所述任何一种形式的图特征提取系统生成的特征进行卷积和池化处理，融合所述的特征对应的支持分类的子图结构，生成包含图中更大子图结构特征的第二池化结果，将其输出至所述的类别标注模块；所述的类别标注模块根据所述第一池化结果和第二池化结果对图进行类别标注，输出图的类别；所述的更大子图结构是指顶点个数多于n的子图结构；

优选的，所述的卷积池化模块包含卷积子模块和池化子模块；所述的卷积子模块使用至少一个过滤矩阵对输入进行卷积操作，融合所述的特征对应的支持分类的子图结构，得到至少一个向量作为卷积结果传递给池化子模块；所述的池化子模块对所述的卷积结果进行池化操作，得到至少一个向量作为第二池化结果，所述第二池化结果包含图中更大子图结构的特征，将所述的池化结果输出至所述的类别标注模块；

所述的过滤矩阵为正方形矩阵；每一个所述卷积层中所述过滤矩阵的行数与输入该卷积层的向量的数量相同；优选的，所述的过滤矩阵中的元素为大于等于-1、小于等于1的实数；更优选的，所述的过滤矩阵中的元素为大于等于0、小于等于1的实数；优选的，所述的池化操作选自最大池化操作、平均池化操作。

优选的，所述包含独立池化模块和卷积池化模块的层叠CNN模块的数据流图参见附图7。

进一步地，所述的图分类系统还包含独立池化模块和多个卷积池化模块；所述的独立池化模块用于对所述的图特征提取系统生成的特征进行池化操作，得到至少一个向量作为第一池化结果输出至所述的类别标注模块；所述的卷积池化模块对输入的特征依次进行卷积操作和池化操作，所述的卷积操作融合所述的特征对应的支持分类的子图结构得到至少一个向量作为卷积结果，然后对所述的卷积结果进行池化操作，得到至少一个向量作为池化结果，所述池化结果中包含图中更大子图结构的特征；上一个卷积池化模块的卷积结果输出至下一个卷积池化模块，每一个卷积池化模块的池化结果均输出至所述的类别标注模块；所述的类别标注模块根据所述第一池化结果和全部卷积池化模块的池化结果对图进行类别标注，输出图的类别；

其中，第一个所述卷积池化模块的输入为如前所述任何一种形式的图特征提取系统生成的特征，其他卷积池化模块的输入为上一个卷积池化模块的卷积结果；最后一个卷积池化模块仅将池化结果输出至类别标注模块；所述的更大子图结构是指顶点个数多于n的子图结构；

优选的，所述的卷积池化模块包含卷积子模块和池化子模块；所述的卷积子模块使用至少一个过滤矩阵对输入进行卷积操作，融合所述的特征对应的支持分类的子图结构得到至少一个向量作为卷积结果，并将所述的卷积结果输出至下一个所述的卷积池化模块；所述的池化子模块对所述卷积子模块输出的卷积结果进行池化，得到至少一个向量作为池化结果输出至所述的类别标注模块，所述池化结果包含图中更大子图结构的特征；优选的，所述卷积子模块、池化子模块的数量可相同或不同；优选的，所述卷积子模块、池化子模块的数量为1个或多个；

优选的，所述卷积池化模块的数量小于或等于10个，更优选的，所述的图分类系统中所述卷积池化模块的数量小于或等于5个；更优选的，所述的图分类系统中所述卷积池化模块的数量小于或等于3个；

优选的，所述的池化操作选自最大池化操作、平均池化操作。

优选的，所述包含独立池化模块和多个卷积池化模块的层叠CNN模块的数据流图参见附图8。

进一步地，所述的卷积结果对应的向量的元素值代表子图结构在图上各个位置出现的可能性，所述池化结果、第一池化结果、第二池化结果对应的向量的元素值代表子图结构在图中出现的最大可能性或平均可能性。

进一步地，所述的类别标注模块包括隐含层单元、激活单元、标注单元；

所述的隐含层单元对接收到的向量进行处理，得到至少一个混合向量传递至所述的激活单元，所述的混合向量包含所述隐含层单元接收到的所有向量的信息；优选的，所述的处理对输入的向量进行合并拼接成一个组合向量，并使用至少一个权重向量对所述的组合向量进行线性加权操作得到至少一个混合向量；优选的，所述隐含层是指除输入层和输出层以外的其他各层，隐含层不直接接受外界的信号，也不直接向外界发送信号。

所述的激活单元对所述隐含层单元输出的每一个混合向量使用激活函数计算得到一个值，并将所有得到的值组成一个向量输出到所述的标注单元；优选的，所述的激活函数为sigmoid函数、ReLU激活函数、pReLU函数；

所述的标注单元用于根据激活单元的结果计算出图属于各个分类标签的可能性，并将可能性最高的分类标签标注为图的类别，完成图的分类；优选的，所述标注单元基于分类算法计算出图属于各个分类标签的可能性，并将可能性最高的分类标签标注为图的类别，完成图的分类；更优选的，所述的分类算法选自kNN、线性分类算法中的任意一种或任意多种。

本发明的第四个目的是提供一种在计算机环境中的连接信息规整方法，所述的方法包括如下步骤：

(1)初始输入：将图转化为第一邻接矩阵；

(2)连接信息规整：对第一邻接矩阵中的全部顶点进行重新排序，得到第二邻接矩阵，所述第二邻接矩阵中的连接信息元素集中分布在所述第二邻接矩阵的宽度为n的对角线区域，其中n为正整数，n≥2且n<|V|，所述的|V|为第二邻接矩阵的行数或列数；

所述第二邻接矩阵的对角线区域由以下元素组成：正整数i从1遍历至|V|，当i>max(n,|V|-n)时，选取第i行中第(i-n+1)到|V|列的元素；当i≤n，选取第i行中第0至i+n-1列的元素；当max(n,|V|-n)≥i≥min(|V|-n,n)，则第i列中，选取第(i-n+1)列到第(i+n-1)列的元素。

所述的连接信息元素是图中的边在邻接矩阵中对应的元素；

所述的图为图论中的图；

优选的，如果所述的图中边上没有权重，所述的连接信息元素的值为1，非连接信息元素的值为0；更优选的，如果所述的图中边上带有权重，则所述的连接信息元素的值为边的权重值，非连接信息元素的值为0；

优选的，所述对角线区域指矩阵中从左上角至右下角的对角线区域；

优选的，所述第二邻接矩阵的对角线区域是指使用一个尺寸为n×n的扫描矩形框沿所述第二邻接矩阵的对角线扫描一遍所经过的区域；

更优选的，所述的扫描过程如下：首先，将所述扫描矩形框的左上角与第二邻接矩阵的左上角重合；然后每次将所述扫描矩形框往右方和下方各移动一个元素格，直至所述扫描矩形框的右下角与所述第二邻接矩阵的右下角重合。

优选的，所述重新排序的方法为整数优化算法。

(1)初始输入：输入图的第一邻接矩阵作为待处理邻接矩阵；

(3)行列交换：判断是否所有可能的顶点交换对均为已处理状态，若是，则输出所述的待处理邻接矩阵得到所述第二邻接矩阵，所述的分支定界算法结束；否则，对所有可能的顶点交换对中的每一个未处理过的顶点交换对分别执行交换操作，并跳转至步骤(4)，所述的交换操作是指同时交换所述顶点交换对对应的两个顶点在所述待处理邻接矩阵中对应的两行及对应两列，对每一个所述的顶点交换对执行所述交换操作都会生成一个新邻接矩阵；

式中，LS(A,n)代表损失Loss值，A代表所述的第二邻接矩阵，n代表所述第二邻接矩阵中对角线区域的宽度，A_i,j表示所述第二邻接矩阵中第i行第j列的元素。

本发明的第五个目的是提供一种在计算机环境中基于邻接矩阵的图特征提取方法，所述的方法基于图的邻接矩阵抽取出图的特征，所述的特征直接对应支持分类的子图结构，所述的特征以至少一个向量的形式呈现，每一个向量对应一种混合态在图中的分布情况，所述的方法包括以下步骤：

(1)连接信息规整：基于图的第一邻接矩阵，采用如前所述的任何一种连接信息规整方法得到第二邻接矩阵；

(2)对角过滤：基于步骤(1)得到的第二邻接矩阵，生成图的特征，所述的特征直接对应支持分类的子图结构，每一个向量对应一种混合态在图中的分布情况；

所述的图、子图均为图论中的图；

优选的，所述的步骤(2)利用过滤矩阵生成图的特征，所述的过滤矩阵为正方形矩阵；更优选的，所述的步骤(2)利用至少一个过滤矩阵，沿所述第二邻接矩阵的对角线区域进行过滤操作，得到至少一个向量，所述的至少一个向量对应于所述的图的特征，所述的特征直接对应支持分类的子图结构，每一个向量对应一种混合态在图中的分布情况；

优选的所述的步骤(2)利用不同的过滤矩阵，进行所述的过滤操作；

优选的，所述的分布情况是指图中出现该混合态中的子图结构的可能性；优选的，每一个所述的混合态代表任意多个子图结构对应的邻接矩阵的线性加权；更优选的，所述的线性加权是指每一个子图的邻接矩阵乘以该邻接矩阵对应的权值，然后对位相加到一起，得到一个与子图的邻接矩阵相同大小的矩阵；

优选的，所述的过滤操作是利用所述的过滤矩阵对所述第二邻接矩阵对位的矩阵内积的加和，通过激活函数得到一个值，让过滤矩阵沿所述第二邻接矩阵的对角线方向移动，从而得到一组值，形成一个向量，该向量对应一种子图结构在图中的分布情况；更优选的，所述的激活函数为sigmoid函数、ReLU激活函数、pReLU函数；

优选的，所述的过滤矩阵中每一个元素的初始值分别从高斯分布中取出的随机变量的值；

优选的，所述的过滤矩阵中的元素为大于等于-1、小于等于1的实数；更优选的，所述的过滤矩阵中的元素为大于等于0、小于等于1的实数；

优选的，所述的步骤(2)参与机器学习过程，所述机器学习过程用于调整所述过滤矩阵的元素的值；

优选的，所述的机器学习过程是利用反向传播，利用分类的损失值，计算梯度值，进一步调节过滤矩阵中的各个元素的值；更优选的，所述的特征生成模块可以利用不同的过滤矩阵，进行上述的过滤操作；

优选的，所述的连接信息的值为1，非连接信息的值为0；更优选的，如果所述的图中边上带有权重，则所述的连接信息的值为边的权重值，非连接信息的值为0。

进一步地，所述过滤矩阵的尺寸为n×n。

本发明的第六个目的是提供一种在计算机环境中基于邻接矩阵的图分类方法，所述的图分类方法包括如下步骤：

(1)特征提取：利用如前所述任何一种形式的基于邻接矩阵的图特征提取方法提取图的特征；

(2)类别标注：基于步骤(1)提取的特征对图进行类别标注，输出图的类别；所述的图为图论中的图；

优选的，所述的步骤(2)计算出图属于各个分类标签的可能性，并将可能性最高的分类标签标注为图的类别，完成图的分类；

优选的，所述的步骤(2)利用分类算法计算出图属于各个分类标签的可能性，并将可能性最高的分类标签标注为图的类别，完成图的分类；更优选的，所述的分类算法选自kNN、线性分类算法中的任意一种或任意多种。

本发明的第七个目的是提供一种在计算机环境中基于层叠CNN的图分类方法，所述的图分类方法包括如下步骤：

(1)图特征提取：利用如前所述任何一种形式的基于邻接矩阵的图特征提取方法提取图的特征；

(2)卷积操作：利用至少一个卷积层对步骤(1)提取的图的特征进行卷积操作，融合所述的特征对应的支持分类的子图结构，得到至少一个向量作为卷积结果；第一个卷积层的输入为步骤(1)提取的图的特征，如果有多个卷积层，每一个卷积层的输入为前一个卷积层的输出结果，每一个卷积层的输出结果均为至少一个向量，每一个卷积层使用至少一个过滤矩阵进行卷积操作，最后一个卷积层的卷积结果输出至步骤(3)；所述的过滤矩阵为正方形矩阵；每一个所述卷积层中所述过滤矩阵的行数与输入该卷积层的卷积结果中向量的数量相同；优选的，所述的过滤矩阵中的元素为大于等于-1、小于等于1的实数；更优选的，所述的过滤矩阵中的元素为大于等于0、小于等于1的实数；

(3)池化操作：对步骤(2)中卷积操作的结果进行池化操作，得到至少一个向量作为池化结果传递至步骤(4)，所述池化结果中包含图中更大子图结构的特征，所述的更大子图结构是指顶点个数多于n的子图结构；优选的，所述的池化操作选自最大池化操作、平均池化操作；

(4)类别标注：根据步骤(3)得到池化结果，对图进行类别标注，输出图的类别。

本发明的第八个目的是提供一种在计算机环境中基于层叠CNN的图分类方法，所述的图分类方法包括以下步骤：

(1)图特征提取：利用如前所述任何一种形式的基于邻接矩阵的图特征提取方法提取图的特征，并传递至步骤(2)和步骤(3)；

(2)独立池化操作：对步骤(1)提取的图的特征进行池化操作，得到至少一个向量作为第一池化结果输出至步骤(4)；

(3)卷积池化操作：使用至少一个过滤矩阵对步骤(1)提取的图的特征进行卷积操作，融合所述的特征对应的支持分类的子图结构，得到至少一个向量作为卷积结果，然后，对所述的卷积结果进行池化操作，得到至少一个向量作为第二池化结果传递至步骤(4)，所述第二池化结果中包含图中更大子图结构的特征；所述的更大子图结构是指顶点个数多于n的子图结构；所述的过滤矩阵为正方形矩阵；每一个所述卷积层中所述过滤矩阵的行数与输入该卷积层的向量的数量相同；优选的，所述的过滤矩阵中的元素为大于等于-1、小于等于1的实数；更优选的，所述的过滤矩阵中的元素为大于等于0、小于等于1的实数；优选的，所述的池化操作选自最大池化操作、平均池化操作；

(4)类别标注：根据所述的第一池化结果和第二池化结果，对图进行类别标注，输出图的类别。

本发明的第九个目的是提供一种在计算机环境中基于层叠CNN的图分类方法，所述的图分类方法包括以下步骤：

(1)图特征提取：利用如前所述任何一种形式的基于邻接矩阵的图特征提取方法提取图的特征，并传递至步骤(2)；

(2)独立池化操作：对步骤(1)提取的图的特征进行池化操作，得到至少一个向量作为第一池化结果输出至步骤(3)；

(3)卷积池化操作：使用至少一个过滤矩阵对输入进行卷积操作，融合所述的特征对应的支持分类的子图结构得到至少一个向量作为卷积结果，然后，对所述的卷积结果进行池化操作，得到至少一个向量作为池化结果，所述池化结果包含图中更大子图结构的特征，上一级的卷积结果传递至下一级的卷积池化操作，每一级卷积池化操作的池化结果均输出至步骤(4)；其中，第一级卷积池化操作的输入为步骤(1)提取的图的特征，如果有多级卷积池化操作，每一级卷积池化操作的输入为前一级的卷积池化操作的输出结果，最后一级卷积池化操作仅将池化结果至步骤(4)；所述的更大子图结构是指顶点个数多于n的子图结构；所述的过滤矩阵为正方形矩阵；每一个所述卷积层中所述过滤矩阵的行数与输入该卷积层的向量的数量相同；优选的，所述的过滤矩阵中的元素为大于等于-1、小于等于1的实数；更优选的，所述的过滤矩阵中的元素为大于等于0、小于等于1的实数；优选的，所述的池化操作选自最大池化操作、平均池化操作；

(4)类别标注：根据所述的第一池化结果和步骤(3)的全部池化结果，对图进行类别标注，输出图的类别。

进一步地，所述的类别标注包括以下步骤：

(1)特征合并：使用隐含层对接收到的向量进行处理，得到至少一个混合向量传递至步骤(2)；所述的混合向量包含所述隐含层接收到的所有向量的信息；优选的，所述的处理对输入的向量进行合并拼接成一个组合向量，并使用至少一个权重向量对所述的组合向量进行线性加权操作得到至少一个混合向量；

(2)特征激活：对接收到的每一个混合向量使用激活函数计算得到一个值，并将所有得到的值组成一个向量传递至步骤(3)，优选的，所述的激活函数为sigmoid函数、ReLU激活函数、pReLU函数；

(3)类型标注：利用接收到的向量计算出图属于各个分类标签的可能性，并将可能性最高的分类标签标注为图的类别，完成图的分类；优选的，所述标注单元基于分类算法计算出图属于各个分类标签的可能性，并将可能性最高的分类标签标注为图的类别，完成图的分类；更优选的，所述的分类算法选自kNN、线性分类算法中的任意一种或任意多种。

本发明的第十个目的是提供一种图分类系统，所述图的顶点为任意实体，所述图的边为任意实体之间的关系；

优选的，所述的任意实体是任意的独立个体或个体集合，所述的个体是实际存在或虚拟的；优选的，所述的实体可以是任意人、事、事件、物、概念中的一种或多种的组合；更优选的，所述的任意实体选自化合物或单质中的原子，网络中的人、商品、事件的任意一种或任意多种；

优选的，所述的关系为任意实体之间的任意关联性；更优选的，所述关联性是连接原子的化学键、商品之间的联系、人与人之间的关系；更优选的，所述商品之间的联系包括购买商品的因果关系、关联关系；更优选的，所述人与人之间的关系包括实际的血缘关系、虚拟社交网络中的好友关系或关注关系、交易关系、发送消息关系。

本发明的第十一个目的是提供一种网络结构类型判别系统，所述的分类系统基于如前所述任何一种形式的图分类系统实现网络结构分类，所述图的顶点为网络中的节点，所述图的边为网络中节点的关系；优选的，所述网络选自电子网络、社交网络、物流网络；更优选的，所述电子网络选自局域网、城域网、广域网、互联网、4G、CDMA、Wi-Fi、GSM、WiMax、802.11、红外、EV-DO、蓝牙、GPS卫星、和/或任意其他适当有线/无线技术或协议的网络的至少一部分中无线发送至少一些信息的任意通信方案；优选的，所述节点选自地理位置、移动站、移动设备、用户装备、移动用户、网络用户；更优选的，所述节点的关系选自电子网络节点之间的信息传输关系、地理位置之间运输关系、人与人之间实际的血缘关系、虚拟社交网络中的好友关系或关注关系、交易关系、发送消息关系；优选的，所述分类选自网络的结构类型；所述结构类型选自星型、树形、全连接型、环形。

本发明的第十二个目的是提供一种化合物分类系统，所述的分类系统基于如前所述任何一种形式的图分类系统实现化合物分类，所述图的顶点为化合物的原子，所述图的边为原子之间的化学键；优选的，所述的分类选自化合物的活性、诱变性、致癌性、催化性等。

本发明的第十三个目的是提供一种社交网络分类系统，所述的分类系统基于如前所述任何一种形式的图分类系统实现社交网络分类，所述图的顶点为社交网络中的实体，所述图中的边为实体之间的关系，所述的实体包括但不限于社交网络中的人、机构、事件、地理位置，所述的关系包括但不限于好友关系、关注关系、私信、点名、关联。所述的点名是指提及某个人，可以用@的方式。

本发明的第十四个目的是提供一种计算机系统，所述的计算机系统包括如前所述的任何一种形式的图分类系统、所述的网络结构类型判别系统、所述的化合物分类系统、所述的社交网络分类系统中的任意一种或任意多种

本发明的有益效果是：

1.本发明通过将邻接矩阵中的连接信息元素集中到邻接矩阵的对角线区域中，对非连接信息元素进行区域削减，对连接信息元素进行区域集中，然后沿对角线方向提取图的子图结构，大大减少了提取图中子图结构的计算复杂度；

2.本发明通过使用过滤矩阵沿通过连接信息规整系统得到的第二邻接矩阵的对角线方向进行过滤操作，得到图的特征，同时在基于得到的特征采用层叠的卷及神经网络，实现通过较小的窗口捕获大型多顶点的子图结构，捕获拓扑结构的深层特征。

3.本发明通过将图对应的邻接矩阵中的连接信息元素集中到邻接矩阵的特定的对角线区域中，将非连接信息元素提前进行削减，进一步使用过滤矩阵沿对角线方向提取图的子图结构，然后采用层叠的卷积神经网络提取更大的子图结构，一方面大大减少了计算复杂度和计算量，解决了计算复杂度的限制和窗口大小的限制，并且能够通过较小的窗口捕获大型多顶点的子图结构，以及来自顶点和边的隐式相关结构的深层特征，提高了图分类的准确性和速度。

4.本发明提供的图分类系统中的连接信息规整系统、特征生成模块和层叠CNN模块协同作用，其作用是实现了利用大小为n的小窗口捕获小的子图结构，同时利用这些小的子图结构的组合来获取顶点数大于n的更大、更深层、更复杂的子图结构，即用小窗口(窗口大小为n)来提取图的更大(顶点数大于n)、更深层、更复杂的特征。即实现了利用较小的窗口捕获大型多顶点的子图结构，以及来自顶点和边的隐式相关结构的深层特征，提高了图分类的准确性和速度。

附图说明

图1是6×6的邻接矩阵中宽度为3的对角线区域示意图；

图2是线性加权计算过程示意图；

图3是第一邻接矩阵转换成第二邻接矩阵的示意图，左图为第一邻接矩阵，右图为第二邻接矩阵；

图4是贪心算法流程图；

图5是分支定界算法流程图；

图6是层叠CNN模块的数据流图；

图7是层叠CNN模块(包含独立池化模块和卷积池化模块)的数据流图；

图8是层叠CNN模块(包含独立池化模块和多个卷积池化模块)的数据流图；

图9是图(graph)以及该图(graph)对应的第一邻接矩阵；

图10是贪心算法流程图；

图11是邻接矩阵行列交换实例示意图；

图12是第一邻接矩阵以及重新排序得到的第二邻接矩阵；

图13是图(graph)以及该图(graph)对应的第二邻接矩阵；

图14是特征生成模块过滤矩阵移动图；

图15是特征生成模块过滤矩阵计算示意图；

图16是图(graph)对应的邻接矩阵补零操作示意图；

图17是基于层叠CNN的图分类系统示意图；

图18是MUTAG上的准确性及耗时结果图；

图19是PTC上的准确性及耗时结果图；

图20是PTC上的准确性及耗时结果图；

图21是准确性与耗时随dropout ratio的变化图；

图22是各数据集上使用连接信息规整系统和不使用信息规整模块下的分类准确性及耗时对比图；

图23是MUTAG上的收敛曲线；

图24是PTC上的收敛曲线；

图25是PROTEINS上的收敛曲线；

图26过滤矩阵及其对应的子图结构，其中(a)是正子图结构，(b)是负子图结构，(c)是过滤矩阵。

图27是各卷积层捕获的特征与其对应的子图结构示意图，其中(a)是12顶点图，(b)是提取的4顶点特征，(c)是提取的6顶点特征，(d)是提取的8顶点特征，(e)是提取的10顶点特征，(f)是提取的12顶点特征；

图28是特征生成模块物理意义示意图；

图29是特征生成模块及层叠CNN模块捕获的子图结构示意图；

图30是基于层叠CNN的图分类系统的实现流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面以本发明所述的在计算机环境中基于邻接矩阵的图特征提取系统和方法，在计算机环境中基于层叠CNN的图分类系统和方法为例，对本发明的技术方案进行进一步的描述。以下实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本发明所附权利要求书所限定的范围。

实施例1

以一个6顶点图为例，对本发明的在计算机环境中基于邻接矩阵的连接信息规整系统及基于邻接矩阵的图特征提取系统进行详细描述。对于这个6顶点图，将其各个顶点用a，b，c，d，e，f表示，按照字母顺序，六条边分别是(a,b)，(a,c)，(b,e)，(b,f)，(e,f)和(e,d)，其图结构以及其根据此顶点排序的第一邻接矩阵如图9所示。

所述的连接信息规整系统对第一邻接矩阵中的全部顶点进行重新排序，得到第二邻接矩阵，所述第二邻接矩阵中的连接信息元素集中分布在所述第二邻接矩阵的宽度为n的对角线区域，其中n为正整数，n>＝2且n远小于|V|，所述的|V|为第二邻接矩阵的行数(或列数)。所述第二邻接矩阵的所述的宽度为n的对角线区域由以下元素组成：正整数i从1遍历至|V|，当n<i<|V|-n时，选取第i行中第(i-n+1)到(i+n-1)列的元素；当i<＝n，选取第i行中第0至i+n-1列的元素；当i>＝|V|-n，则第i列中，选取第(i-n+1)列到第|V|列的元素。

所述的顶点重新排序方法可以为贪心算法，包括以下步骤：

(1)初始输入：输入图的第一邻接矩阵作为待处理邻接矩阵A；

(2)交换对统计：计算A中所有可能的顶点交换对；对A中列号进行1～6标号，所有可能的顶点交换对(即列号对)为pairs＝{(m,h)|1<＝m<＝5,m+1<＝h<＝6}，特殊的，每次待处理矩阵更新之后，会对待处理矩阵中列号重新标号，然后所有可能的列号重新初始化为15对；初始化i＝1，j＝2；

(3)行列交换：判断i是否等于5，若是，则输出A得到所述的第二邻接矩阵，所述的贪心算法结束；否则，从pairs中选择(i,j)作为当前顶点交换对，执行swap(i,j)操作，生成新邻接矩阵，并跳转至步骤(4)；

(4)交换效果评定：计算新邻接矩阵中连接信息的集中程度，若所述新邻接矩阵中连接信息的集中程度高于A中连接信息的集中程度，则执行refresh(A)操作(用所述新邻接矩阵替代A)，并跳转至步骤(2)；若所述新邻接矩阵中连接信息的集中程度低于或等于所述待处理邻接矩阵中连接信息的集中程度，则放弃这种交换，执行j＝j+1，若j大于5，则执行i＝i+1和j＝i+1操作，跳转至步骤(3)；若j小于或等于5，直接跳转至步骤(3)。

具体流程图如图10所示，其中swap(A，i，j)表示同时交换邻接矩阵A中的i，j对应的行和列，得到新邻接矩阵；refresh(A)表示邻接矩阵应用这种行列交换。

所述的连接信息集中程度利用Loss值以及ZR值来衡量，其计算方法如下方公式所示。例如图13(a)中，损失Loss(A,3)＝0，ZR(A,3)＝12/24＝0.5；图13(b)中，Loss(A,3)＝2，ZR(A,3)＝10/24＝5/12。Loss值或者ZR值越小，表示连接信息集中程度越高。

以图9中提到的图为例，选择n＝3，交换第一邻接矩阵中的对应的两行和两列，如图11所示。图11中(a)为输入的第一邻接矩阵，其损失Loss(A,3)＝4，ZR(A,3)＝16/24＝2/3。图11(b)为交换a、d对应的行列之后所得到新邻接矩阵A’，其损失Loss(A’,3)＝6，ZR(A’,3)＝18/24＝9/12，损失Loss(A’,3)>Loss(A,3)，ZR(A’,3)>ZR(A,3)，即连接信息元素集中程度降低，故放弃这种交换；图11(c)为交换b，c对应的行列之后得到的新邻接矩阵A”，其损失Loss(A”,3)＝2，ZR(A”,3)＝22/24＝7/12，Loss(A”,3)<Loss(A,3)，ZR(A”,3)<ZR(A,3)，经这样的交换后集中程度变高了，故采用这种交换，用A”替代A。经过不断尝试之后，可以得到最优结果，如图12右边的邻接矩阵，最优结果即为第二邻接矩阵。此时第二邻接矩阵的顶点顺序变为c，a，b，f，e，d，所有的连接信息元素(值为“1”的元素)均落在了第二邻接矩阵中宽度为n(n＝3)的对角线区域中。

连接信息规整系统的一个重要作用是，给定一个第一邻接矩阵，可能存在不止一种方式对图顶点重新排序，且连接信息集中程度均为最低。因此存在多于一个的第二邻接矩阵，这些第二邻接矩阵之间是同构的。如图13(a)中所示，两个邻接矩阵均是通过连接信息规整系统得到的第二邻接矩阵，连接信息均在邻接矩阵中宽度为n(n＝3)的对角线区域中，但是两个的顶点排序顺序并不相同，故可能存在多个第二邻接矩阵。在本发明中，利用这个同构的特性来生成图的不同矩阵表示，这些同构的第二邻接矩阵被用来增加图分类系统深度学习过程中预处理阶段的训练集。

将第二邻接矩阵输入到特征生成模块计算得到至少一个向量，这些向量直接对应支持分类的子图结构。特征生成模块中使用n₀>＝1个大小为n×n的过滤矩阵，沿第二邻接矩阵的对角线局域移动，进行卷积运算，如图14所示。这些过滤矩阵使用F^0,i表示，i∈{1,…,n₀}。那么过滤矩阵F^0,i在第j步提取的对角线特征可以表示为：

其中α(·)是激活函数，例如sigmoid。因此，从对角卷积获得的特征大小是n₀×(|V|-n+1)。在之后的说明中，使用P⁰表示特征生成模块得到的特征并使用F₀表示滤波参数{F^0,i}。

同样以图9中提到的图为例，使用n₀＝2个大小为3×3的过滤矩阵沿其第二邻接矩阵对角线方向移动计算，如图15所示。图15(a)中为图以及其第二邻接矩阵，图15(b)为使用的两个过滤矩阵，为了方便起见，这里将过滤矩阵中的值均取为0或1，两个过滤矩阵对应的子图结构如图15(c)所示。使用(b)上方的过滤矩阵沿第二邻接矩阵对角线方向移动计算，所述的计算即对位相乘再相加，故能得到一个向量(4,4,6,4)；同样地，使用(b)中下方的过滤矩阵沿第二邻接矩阵对角线方向移动计算，可以得到另一个向量(4,4,4,4)。即经过两个过滤矩阵过滤操作之后，可以得到两个向量，如图15(d)所示，经过激活函数(Sigmoid)可以得到向量如图15(e)所示。其中图15(d)、图15(e)向量中的值越高，表示所使用的过滤矩阵所代表的子图结构在向量中该值对应的区域出现的可能性越大。比如在图15(e)中0.99所对应的区域为图15(a)中虚线所框出的区域，即b，e，f三个顶点所表示的子图结构，其子图结构与使用的过滤矩阵所表示的结构(图15(c)上方结构)完全相同。

连接信息规整系统的主要优点是将连接信息集中到第二邻接矩阵的对角线区域上，因为不包含连接信息的元素对于图的分类没有显著贡献，这使得系统的计算量大大减少。具体来说，没有经过连接信息规整系统，特征生成模块中使用大小为n×n的过滤矩阵提取特征时，每个过滤矩阵需要进行(|V|-n+1)²次运算；而经过连接信息规整系统之后，在使用大小为n×n的过滤矩阵提取特征时，每个过滤矩阵仅需要进行|V|-n+1次运算。以图14为例，取n＝3，经过连接信息规整系统后每个过滤矩阵需要进行的运算次数从(6-3+1)²＝16次减少到6-3+1＝4次，计算量仅为原来的25％。可见，带有连接信息规整系统的图特征提取系统的比不带有连接信息规整系统的图特征提取系统计算量大大减小，前者计算量仅为后者的25％。

实施例2

本实施例详细说明本发明所述的在计算机环境中基于邻接矩阵的图分类系统的具体实现，并使用以公开数据集来验证了这种实现的效果。

对于具有不规则大小的图的数据集，需要为其找到一个合适的窗口大小n。当n设置地太小时，可能导致大部分图经过连接信息规整系统后会丢失连接信息元素。此外，n太小可能导致着特征生成模块可能过拟合，因为捕获到较少可能的子图结构特征。首先，我们对所有图的邻接矩阵的尺寸进行统一，选取图数据集中顶底最多的图顶点数|V|_max作为统一的邻接矩阵的大小(行数或列数)。对于顶点数小于|V|_max的图，例如3个顶点的图，我们采用补零操作(追加0)，使其邻接矩阵的行数和列数等于|V|_max，在统一邻接矩阵尺寸的同时也保证了原始输入图中现有的连接信息得到维护，即追加的0不会破坏或更改图中原有的点和边。所述的补零操作，如图16所示，图16(a)为3个顶点的图的图结构以及其邻接矩阵，对其进行补零使其邻接矩阵的大小变为5，如图16(b)所示。

在选择n时，首先从图数据集中随机选取少量图，然后使用不同窗口大小n的连接信息规整系统对选取的图进行处理，比较最终的第二邻接矩阵的Loss指标。对随机选取的这一组图，选择使得这组图的第二邻接矩阵的平均Loss值最小的窗口大小n作为这个图数据集的窗口大小。

对于每张图，将其邻接矩阵进行补零操作得到第一邻接矩阵之后采用如图30所示的处理流程对第一邻接矩阵进行处理，首先采用实施例1中的贪心算法对图的邻接矩阵进行连接信息规整和特征生成操作，在特征生成操作中，选取n_f0个过滤矩阵进行过滤操作，以前述实施例1中的方式进行图的特征提取，输入到层叠CNN模块。在层叠CNN模块中经过第一个卷积子模块得到第一个卷积结果P¹，所述的卷积结果对应的向量的元素值代表子图结构在图上各个位置出现的可能性，然后通过反复添加更多的卷积子模块，可以得到更多的卷积结果P²,P³,…,P^m，越深层的卷积子模块得到的卷积结果代表的子图越大、越复杂。表1中介绍了每个卷积子模块中过滤矩阵的大小和数量以及生成的特征的大小，其中对角卷积代表特征生成模块，卷积层m为第m个卷积子模块。需要注意的是，层叠CNN中的每个卷积子模块，需要将过滤矩阵的高度(即过滤矩阵的行数)设置为上一个卷积子模块中的过滤矩阵数量(即上一个卷积子模块输出的卷积结果中向量的数量)。例如，对于卷积子模块2，过滤矩阵大小为n₁×s₂，这意味着过滤矩阵高度与卷积子模块1中的过滤矩阵的数量(n₁)相同。

正式地，对于第i个卷积子模块，将第(i-1)个卷积子模块的卷积结果P^i-1作为输入，其大小为n_i-1×(|V|-n+1)。在其左右均使用(s_i-1)/2个零填充获得大小为n_i-1×(|V|-n+s_i)的特征之后使用n_i个大小为(n_i-1×s_i)的过滤矩阵Fⁱ进行卷积运算，获得卷积结果Pⁱ。定义Pⁱ中的元素如下：

式中，α(·)表示激活函数，如sigmoid；j，k表示在Pⁱ中元素的位置，第j行，第k列。s_i表示第i个卷积层中过滤矩阵的宽度，n_i表示第i个卷积层中过滤矩阵的个数。

表1图分类系统各层设置及特征大小

在经过m个卷积子模块之后，可以得到深层的卷积结果P⁰,…,P^m。使用池化子模块对各卷积结果进行池化操作，这里选取最大值池化操作，在每组卷积结果Pⁱ后添加最大值池化层。对于大小为n_i-1×(|V|-n+1)的矩阵Pⁱ，对其每一行进行最大值池化操作，得到一个大小为n_i-1×1的向量。

附图17表示层叠CNN中卷积子模块和池化子模块之间的关系，其中箭头表示模块之间数据的传递方向。隐含层单元为一个全连接层，全连接层中的神经元与上一层的所有激活值有完全的连接。该层中设置了权重参数W_h，偏差参数b_h来对输入的向量进行计算得到激活值，另外设置了dropout，来防止神经网络过拟合。所述的dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃，dropout能够有效防止过拟合。

在标注单元，将激活单元计算得到的激活值作为输入，通过包含权重参数W_s，偏差参数b_s的另一个全连接层进行多项Logistic回归(即softmax函数)计算在类标签向量x上的概率分布，将输出结果中最高概率值对应的类标签标注为该图的类别。

系统中神经网络的训练是通过最小化交叉熵(cross-entropy)损失实现的，其公式为：

式中其中|R|是训练图集R中图的总数，A_i表示R中第i个图的邻接矩阵，y_i表示第i个类标签。神经网络中参数用随机梯度下降(SGD)优化，采用反向传播算法计算梯度。

为了评估本发明的效果，使用五个公开图数据集进行测试。其中包括三个生物信息学数据集：MUTAG、PTC和PROTEINS。MUTAG是一个具有188种硝基化合物的数据集，其中类别表明化合物对细菌是否具有诱变作用。PTC是包含344种化合物的数据集，类别为化合物对雄性和雌性老鼠的致癌性。PROTEINS是图的集合，其中图顶点是二级结构元素，图的边表示氨基酸序列中或3D空间中的邻域。另外两个为社交网络数据集IMDB-BINAR和IMDB-MULTI。IMDB-BINARY是一个电影合作数据集，其中IMDB上收集了不同电影的演员/演员和流派信息。对于每个图，顶点表示演员/女演员，并且如果它们出现在相同的电影中，它们之间就存在一条边连接它们。每个演员/演员生成一个协作网络和一个自我网络。自我网络标有它所属的类型。IMDB-MULTI是多分类版本，因为电影可以同时属于多种类型；IMDB-BINARY是二分类版本(只有两种类别)。

基于上述数据集，使用了本发明的基于层叠CNN的图分类系统的两种不同实现进行验证，第一种实现采用1个独立池化模块和1个卷积池化模块；第二种图分类系统采用1个独立池化模块和4个卷积子模块。将发明中参数n设置为从3到17。另外，每个卷积层使用的过滤矩阵大小s_i从{3，5，7，9，11}中调整。每个卷积层中过滤矩阵的数量从{20，30，40，50，60，70，80}中调整。收敛条件设定为在训练阶段的准确性与前一次迭代的准确性差异小于0.3％或超过30次迭代次数。每个实施例中根据3：7的比例，随机抽取测试集和训练集。

给定有N个图的测试集合，每个图G_i及其分类标签y_i和分类器的预测类别准确性(Accuracy)计算公式如下：

其中指标函数δ(·)如果条件为真，则获得值“1”，否则得到值“0”。

将本发明与三种代表性的方法进行比较：DGK(Deep graph kernels，Proceedingsof the21th ACM SIGKDD International Conference on Knowledge Discovery andData Mining.ACM,2015:1365-1374)、PSCN(Learning convolutional neural networksfor graphs，Proceedings of the 33rd International Conference on MachineLearning,New York,NY,USA,2016,2014-2023)和MTL(Joint structure featureexploration and regularization for multi-task graph classification，IEEETransactions on Knowledge and Data Engineering,2016,28(3):715-728)。表2显示了使用的五个数据集的特征，并总结了比较结果的平均准确性和标准偏差。所有实施例在相同的设置中运行了十次。

表2实施例结果比较

对于数据集MUTAG，与PSCN 92.63％的最佳结果相比，第二种图分类系统的准确性为94.99％，高于PSCN。第一种图分类系统达到92.32％的准确性，与PSCN非常相似。对于PTC数据集，DGK和PSCN获得了约60％的准确性。第一种图分类系统达到62.50％，第二种图分类系统达到64.99％，这是本数据集上迄今为止最好的准确性。对于数据库PROTEINS，第二种图分类系统达到最高准确性为75.96％，略高于PSCN 75.89％的最佳结果。对于两个社交网络数据集，第二种图分类系统对IMDB-BINARY具有71.66％的准确性结果，高于71％的最佳PSCN，并且对于IMDB-MULTI而言，其最高准确性为50.66％，与PSCN最佳为45％，DGK最好为44％。在所有的实施例中，本发明都取得了最高的准确性，出现误判的概率更低。

考察系统中参数变化对分类结果的准确性和时间复杂度的影响。

窗口大小n：

这是决定本发明中的系统能否覆盖给定图数据集中最重要的子图模式的关键参数。因为小的n可能导致大多数图无法将全部连接信息元素集中到宽度为n的对角线区域。因此，可能会丢失更多的连接信息元素，这对于图数据集的分类可能至关重要。另一方面，由于窗口效应，较大的n将导致高时间复杂度和计算成本。图18(a)显示了本发明在数据集MUTAG上的准确性和耗时随n变化的结果。在本实施例中，对于所有实施例，过滤矩阵的数量设置为50，层叠CNN中卷积子模块的过滤矩阵宽度设置为7。准确性和耗时均为相同实施例设置下运行十次的平均值。从图18(a)，图19(a)和图20(a)中可以看到，对于MUTAG、PTC和PROTEINS数据集，随着参数n从3增加到11，准确性对n的增加不敏感，而耗时更敏感。因此，设定较小的n更为理想。从表2中可以看到PTC中最大顶点数为109，平均顶点数为25.5，PROTEINS中最大顶点数为620，平均顶点数为39.1，而窗口大小n在3到11，故n的选择会远小于图的顶点数|V|。

层叠CNN过滤矩阵宽度s_i：

简单的，这里将层叠CNN中所有的卷积子模块设置相同的过滤矩阵宽度来比较。设置较大的宽度s_i意味着每个过滤矩阵可以捕获更复杂的子图结构特征。复合子图结构特征也具有较高的组合可能性。然而，也很难确定过滤矩阵宽度以覆盖所有可能的组合。在本实施例中设置n为7，过滤矩阵数为50，层叠CNN过滤矩阵宽度为3到15。由于零填充(Zero-padding)，只能使用奇数值的宽度，即3，5，7，9，11，13，15。同样在相同设置下运行十次计算平均值。图18(b)，图19(b)和图20(b)分别为在MUTAG，PTC和PROTEINS上的结果。这表明在MUTAG上，当过滤矩阵宽度从3增加到9时，准确性随着过滤矩阵宽度的增加而增加，并且随着过滤矩阵宽度从9增加到15，变得更加稳定。这表明9是过滤矩阵宽度的近似最优设置，因为耗时上宽度9比11和15小。与MUTAG相似，PTC数据集显示过滤矩阵宽度的最佳设置为5，因为设置过滤矩阵宽度为9,11和13具有接近的准确性，但耗时较长时间相对于小过滤矩阵宽度为7时。在PROTEINS数据集中，即图20(b)，可以看到最佳过滤矩阵宽度为11。

过滤矩阵数

与过滤矩阵宽度类似，将所有卷积层设置成相同的过滤矩阵数量。本实施例中，将n设置为7，过滤矩阵宽度设置为7，过滤矩阵数量为20～80。图18(c)，图19(c)和图20(c)分别为在MUTAG，PTC和PROTEINS上的结果。可以看到，使用较大的过滤矩阵数量，例如图9中的60，在同个数据集上可能会导致更差的准确性。这是因为使用了更多的过滤矩阵，需要训练的权重更多。因此，在更大的过滤矩阵数量的训练中更容易过拟合。

卷积层数量

为了更好地观察本发明在不同卷积层数上的有效性和效率，在本实施例中将MUTAG，PTC和PROTEINS上的卷积层数量设置为1至5。图18(d)，图19(d)和图20(d)分别是在MUTAG，PTC和PROTEINS数据集上的准确性和耗时。在本实施例中，n和过滤矩阵宽度设置为7，过滤矩阵数量设置为50。一个有趣的事实是，在不调整其他参数的情况下，增加卷积层数量将不会显著提高准确性。在图18(d)中，5卷积层的准确性与2卷积层版本相似。这是因为在不增加过滤矩阵数量和过滤矩阵宽度的情况下，较深的卷积网络不能利用其容量来表示更复杂的特征。在图20(d)中，5卷积层的准确性甚至比2卷积层版本差。这意味着当前参数n的情况下，过滤矩阵宽度和数量在2卷积层上运行良好，限制了5卷积的性能。因此，在这种情况下，需要在PROTEINS数据集上放大5卷积层版本的其他参数。

Droupout比例

前面的实施例已经表明，增加过滤矩阵宽度，过滤矩阵大小以及数量和卷积层数量可能不会提高性能。下一组实施例是通过使用batch normalization中dropout比例来研究过拟合的影响。所述的batch normalization是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的方法，它能帮助神经网络收敛。图21显示了MUTAG和PTC的结果。x轴改变dropout比例，左y轴为准确性，右y轴为耗时。图21(a)示出了当dropout比例为时，准确性提高，当MUTAG的dropout比例为时，准确性降低。图21(b)显示了PTC的测量结果：当dropout比例为0至0.4时，准确性稳定，当dropout比例为0.4至0.5时增加，当dropout比例为0.5至0.9时略有下降。该组实施例表明，当dropout比例设定为0.2时，本发明的图分类系统得到MUTAG的最佳拟合，PTC的最佳比例为0.5。

本发明提出了基于邻接矩阵的图特征提取系统，将邻接矩阵中的连接信息元素集中并提取特征。这里将本发明与普通CNN进行比较。在普通CNN方法中，直接在邻接矩阵上应用二维卷积层，且池化层变为2维池化。对于这两种方法，实施例的配置都为n＝7，过滤矩阵宽度为7，过滤矩阵数量为50。结果如图22所示。图22(a)是这两种方法的准确性，可以看到本发明的方法准确性更高。在图22(b)中，普通CNN的耗时大于本发明的方法。即本发明方法有着更高的准确性和更低的耗时。

收敛

图23，24，25为MUTAG，PTC和PROTEINS的训练集和验证集上损失的收敛过程。灰线是训练集上的损失，蓝线是验证集上损失。可以看到，在三个数据集中，损失首先减少，在30次迭代后稳定。就像大多数机器学习方法，特别是神经网络一样，训练集上的损失可以比验证集具有更低的值。这是因为训练程序随机梯度下降使用的是训练集的损失而不是验证集。

特征的训练

本实施例在MUTAG数据集上进行，n设置为7，过滤矩阵宽度设置为7，过滤矩阵数量设置为20。图26中为训练过程中，特征生成模块中的过滤矩阵的参数变化以及其代表的图结构。其中，图中x轴表示迭代次数，从0到30。迭代次数为0时表示值为从高斯分布中随机采样得到的初始值。图26(c)为过滤矩阵的值，它是一个7×7矩阵。矩阵中的单元格越暗，值越大，更接近1，而白色单元格的值更接近-1，灰度单元格值约为0。在初始阶段，更多的单元格是灰色的，值为0左右。随着训练过程的进一步发展，一些黑的单元格变得更亮，一些白的单元格变得更暗，特别是在左上角。而最右边的最黑的单元格在训练期间保持黑色。这意味着这些位置在给定的图数据集的分类中起重要作用。这是因为反向传播仅修改对输入的图的分类无贡献的单元格的值。为了更好地理解子图结构，图16中绘制了图的正子图和负子图。分别为图26(a)和(b)。正子图是如果单元格值大于0，则将设置为1，如果其值小于或等于0，则为设置为0。由于这表示应显示的边，所以称为正子图。相反，如果其值小于或等于0则将单元格设置为1,如果其值大于0则设置为0，来绘制负子图。负子图表示不应出现的边。可以看到，正子图和负子图都在训练过程中从初始状态逐渐变化，并在训练结束时达到稳定的结构。这意味着训练过程最终达到了收敛状态。

特征可视化

图27示出了在不同卷积层中捕获的子图特征。图27(a)显示了12个顶点的输入图。本实施例中使用第二种图分类系统(5卷积层)，设置特征生成模块的过滤矩阵大小为4×4，其余卷积层过滤矩阵宽度为3。因此，每层的特征大小为4，6，8，10，12。图27(b)，(c)，(d)，(e)，(f)分别示出了在五个卷积层中的每一处学习得到的子图模式。其邻接矩阵表示每个边的存在概率，单元格越暗，该滤波器捕获相应边的概率越高。在图27(b)所示的第一层中，只能处理基本的四个顶点模式。向前移动到图27(c)所示的第二层，过滤矩阵可以捕获并表示由第一层特征组成的六顶点模式。通过进一步添加更多的卷积层，可以捕获和表示更复杂的子图模式。最后，在图27(f)中，捕获了12顶点特征，这与图27(a)中的始输入图非常相似。

实施例3：

本实施例主要说明了本发明提出的基于邻接矩阵的图分类系统的重要特性：能够利用较小的窗口捕获大型多顶点的子图结构。

以一个由十个顶点(|V|＝10)组成的图为例，图28示出了在这个图上使用特征生成模块的物理意义。可以看到，该图具有两个大小为六个顶点的环，并且两个顶点由这两个环结构共享。为了捕获这种基于环的图模式，现有的方法通常需要使窗口大小大于10。然而，即使仅使用大小为6的窗口，本发明的方法也是有效的。考虑图28左上方的图，我们用连接信息规整系统将连接信息元素集中到n＝6的对角线区域，对顶点进行重新排序，右上方为得到的标注图，使用abcdefghi表示排序顶点的顺序。然后用大小为6×6的过滤矩阵(即n＝6)进行过滤操作。过滤矩阵可以通过|V|-n+1＝10-6+1＝5步移动。图28中心的五个图显示了过滤矩阵如何在每个步骤中覆盖(捕获)图的不同子图。例如，在第一步中，过滤矩阵覆盖由a,b,c,d,e,f标记的任何一对顶点之间的所有连接。如图28的第1步所示，由虚线强调的滤波器覆盖由顶点a,b,c,d,e,f组成的环。更有趣的是，使用特征生成模块，可以通过相同的过滤矩阵捕获不同的子图结构(特征)。例如，第1步和第5步捕获相同的图结构：六顶点环。同时，第2步，第3步和第4步捕获另一种类型的图结构：六顶点线。将得到的特征进行组合，可以得到更复杂的结构，如图28最下方所示，可以得出3种不同的复杂结构，而其中中间的结构即想要捕获的10顶点环。

更具体地，图29给出了数值化的例子来描述特征生成模块捕获的特征以及层叠CNN中捕获的特征。图29(a)为一个12顶点的图以及该图的第二邻接矩阵，图中包含了两个大小六个顶点的环，并且两个顶点由这两个环结构共享，两个环上都另外连了一个顶点。图29中的邻接矩阵及过滤矩阵空白的元素表示值为0，为了简化计算过滤矩阵中元素的值均选为0或1。图29(b)为特征生成模块中的两个过滤矩阵，对应表示的子图结构如图29(c)所示。使用图29(b)的两个过滤矩阵沿该图的第二邻接矩阵的对角线方向进行过滤操作，可以计算得到向量如图29(d)所示，由虚线所包围的元素是零填充(zero-padding)。层叠CNN中的过滤矩阵如图29(e)所示，为了简化计算，同样使其元素为0或1。使用层叠CNN中的过滤矩阵对捕获的特征(图29(d))进行过滤操作，得到向量如图29(h)所示。考虑层叠CNN中过滤矩阵所代表的物理意义，它所表示的是特征生成模块捕获的子图结构的组合，故可以将特征生成模块的过滤矩阵根据层叠CNN中的过滤矩阵的值进行堆叠，如图29(i)所示。得到层叠CNN中过滤矩阵所表示的邻接矩阵，如图29(f)所示，图29(g)即为层叠CNN中过滤矩阵所表示的子图结构。可以看到图29(g)一个为十顶点的双环，一个为六顶点环外接4个顶点。

本发明提出的基于邻接矩阵的图分类系统能够通过较小的窗口捕获大型多顶点的子图结构，以及来自顶点和边的隐式相关结构的深层特征，进而提高分类的准确性。

Claims

1.一种在计算机环境中基于邻接矩阵的连接信息规整系统，其特征在于：所述的连接信息规整系统用于将图对应的第一邻接矩阵中的全部顶点进行重新排序，得到第二邻接矩阵，所述第二邻接矩阵中的连接信息元素集中分布在所述第二邻接矩阵的宽度为n的对角线区域，其中n为正整数，n≥2且n < |V|，所述的|V|为第二邻接矩阵的行数或列数；

所述第二邻接矩阵的对角线区域由以下元素组成：正整数i从1遍历至|V|，当i>max(n,|V|-n)时，选取第i行中第(i-n+1)到|V|列的元素；当 i≤n，选取第i行中第 0至i+n-1列的元素；当max(n,|V|-n)≥i≥min(|V|-n,n)，则第i列中，选取第 (i-n+1)列到第（i+n-1)列的元素；

所述的连接信息元素是图中的边在邻接矩阵中对应的元素；

所述的图为图论中的图；

优选的，所述第二邻接矩阵的对角线区域是使用一个尺寸为n×n的扫描矩形框沿所述第二邻接矩阵的对角线扫描一遍所经过的区域；

2.一种在计算机环境中基于邻接矩阵的图特征提取系统，其特征在于：

所述的图特征提取系统基于图的邻接矩阵抽取出图的特征，所述的特征直接对应支持分类的子图结构，所述的特征以至少一个向量的形式呈现，每一个向量对应一种混合态在图中的分布情况；所述的图特征提取系统包括特征生成模块和权利要求1所述的连接信息规整系统；其中：

所述的连接信息规整模块用于将图对应的第一邻接矩阵中的全部顶点进行重新排序，得到第二邻接矩阵；

所述的特征生成模块基于所述的第二邻接矩阵，生成图的特征，所述的特征直接对应支持分类的子图结构，每一个向量对应一种混合态在图中的分布情况；

所述的图、子图均为图论中的图；

优选的，所述的特征生成模块利用过滤矩阵生成图的特征，所述的过滤矩阵为正方形矩阵；更优选的，所述的特征生成模块利用至少一个过滤矩阵，沿所述第二邻接矩阵的对角线区域进行过滤操作，得到至少一个向量，所述的至少一个向量对应于所述的图的特征，所述的特征直接对应支持分类的子图结构，每一个向量对应一种混合态在图中的分布情况；

优选的，所述过滤矩阵的尺寸为n×n；

优选的，所述过滤矩阵中每一个元素的初始值分别从高斯分布中取出的随机变量的值；

优选的，所述的特征生成模块参与机器学习过程，所述机器学习过程用于调整所述过滤矩阵的元素的值；

3.一种在计算机环境中基于邻接矩阵的图分类系统，其特征在于：

所述的图分类系统包括类别标注模块和权利要求2所述的图特征提取系统，所述的类别标注模块基于所述图特征提取系统生成的特征对图进行类别标注，输出图的类别；所述的图为图论中的图；

4.根据权利要求3所述的图分类系统，其特征在于：

所述的图分类系统还进一步包含层叠CNN模块，所述的层叠CNN模块基于所述的图特征提取系统生成的特征进行处理，融合所述的特征对应的支持分类的子图结构，生成包含图中更大子图结构的特征，所述的更大子图结构是指顶点个数多于n的子图结构；

优选的，所述的层叠CNN模块包括卷积子模块和池化子模块；

所述的卷积子模块使用至少一个卷积层基于所述的图特征提取系统生成的特征进行卷积操作，融合所述的特征对应的支持分类的子图结构，得到至少一个向量作为卷积结果；第一个卷积层的输入为权利要求2所述的图特征提取系统生成的特征，如果有多个卷积层，每一个卷积层的输入为前一个卷积层的输出结果，每一个卷积层的输出结果均为至少一个向量，每一个卷积层使用至少一个过滤矩阵进行卷积操作，最后一个卷积层的卷积结果输出至所述的池化子模块；

所述的池化子模块用于对所述卷积子模块得到的矩阵进行池化操作，得到至少一个向量作为池化结果输出至所述的类别标注模块，对图进行类别标注，输出图的类别，所述池化结果包含图中更大子图结构的特征；所述的更大子图结构是指顶点个数多于n的子图结构；优选的，所述的池化操作选自最大池化操作、平均池化操作。

5.根据权利要求3所述的图分类系统，其特征在于：

所述的图分类系统还进一步包含独立池化模块和卷积池化模块；所述的独立池化模块用于对所述的图特征提取系统生成的特征进行池化操作，得到至少一个向量作为第一池化结果输出至所述的类别标注模块；所述的卷积池化模块对输入的权利要求2所述的图特征提取系统生成的特征进行卷积和池化处理，融合所述的特征对应的支持分类的子图结构，生成包含图中更大子图结构特征的第二池化结果，将其输出至所述的类别标注模块；所述的类别标注模块根据所述第一池化结果和第二池化结果对图进行类别标注，输出图的类别；所述的更大子图结构是指顶点个数多于n的子图结构；

6.根据权利要求3所述的图分类系统，其特征在于：

所述的图分类系统还进一步包含独立池化模块和多个卷积池化模块；所述的独立池化模块用于对所述的图特征提取系统生成的特征进行池化操作，得到至少一个向量作为第一池化结果输出至所述的类别标注模块；所述的卷积池化模块对输入的特征依次进行卷积操作和池化操作，所述的卷积操作融合所述的特征对应的支持分类的子图结构得到至少一个向量作为卷积结果，然后对所述的卷积结果进行池化操作，得到至少一个向量作为池化结果，所述池化结果中包含图中更大子图结构的特征；上一个卷积池化模块的卷积结果输出至下一个卷积池化模块，每一个卷积池化模块的池化结果均输出至所述的类别标注模块；所述的类别标注模块根据所述第一池化结果和全部卷积池化模块的池化结果对图进行类别标注，输出图的类别；

其中，第一个所述卷积池化模块的输入为权利要求2所述的图特征提取系统生成的特征，其他卷积池化模块的输入为上一个卷积池化模块的卷积结果；最后一个卷积池化模块仅将池化结果输出至类别标注模块；所述的更大子图结构是指顶点个数多于n的子图结构；

7.根据权利要求3-6任一项所述的图分类系统，其特征在于：

所述图的顶点为任意实体，所述图的边为任意实体之间的关系；

8.一种在计算机环境中基于邻接矩阵的连接信息规整方法，其特征在于，所述的方法包括如下步骤：

初始输入：将图转化为第一邻接矩阵；

连接信息规整：对所述第一邻接矩阵中的全部顶点进行重新排序，得到第二邻接矩阵，所述第二邻接矩阵中的连接信息元素集中分布在所述第二邻接矩阵的宽度为n的对角线区域，其中n为正整数，n≥2且n < |V|，所述的|V|为第二邻接矩阵的行数或列数；

所述的连接信息元素是图中的边在邻接矩阵中对应的元素；

所述的图为图论中的图；

9.一种在计算机环境中基于邻接矩阵的图特征提取方法，其特征在于，所述的图特征提取方法基于图的邻接矩阵抽取出图的特征，所述的特征直接对应支持分类的子图结构，所述的特征以至少一个向量的形式呈现，每一个向量对应一种混合态在图中的分布情况，所述的方法包括如下步骤：

连接信息规整：利用权利要求8所述的连接信息规整方法对图的第一邻接矩阵进行处理，得到第二邻接矩阵；

对角过滤：基于步骤（1）得到的第二邻接矩阵，生成图的特征，所述的特征直接对应支持分类的子图结构，每一个向量对应一种混合态在图中的分布情况；

所述的图、子图均为图论中的图；

优选的，所述的步骤（2）利用过滤矩阵生成图的特征，所述的过滤矩阵为正方形矩阵；更优选的，所述的步骤（2）利用至少一个过滤矩阵，沿所述第二邻接矩阵的对角线区域进行过滤操作，得到至少一个向量，所述的至少一个向量对应于所述的图的特征，所述的特征直接对应支持分类的子图结构，每一个向量对应一种混合态在图中的分布情况；

优选的，所述的步骤（2）利用不同的过滤矩阵，进行所述的过滤操作；

优选的，所述的步骤（2）参与机器学习过程，所述机器学习过程用于调整所述过滤矩阵的元素的值；

优选的，所述的连接信息的值为1，非连接信息的值为0；更优选的，如果所述的图中边上带有权重，则所述的连接信息的值为边的权重值，非连接信息的值为0；

优选的，所述的过滤矩阵的尺寸为n×n。

10.一种在计算机环境中基于邻接矩阵的图分类方法，其特征在于：所述的图分类方法包括如下步骤：

图特征提取：利用权利要求9所述的基于邻接矩阵的图特征提取方法提取图的特征；

类别标注：基于步骤（1）提取的特征对图进行类别标注，输出图的类别；所述的图为图论中的图；

优选的，所述的步骤（2）计算出图属于各个分类标签的可能性，并将可能性最高的分类标签标注为图的类别，完成图的分类；

优选的，所述的步骤（2）利用分类算法计算出图属于各个分类标签的可能性，并将可能性最高的分类标签标注为图的类别，完成图的分类；更优选的，所述的分类算法选自kNN、线性分类算法中的任意一种或任意多种。