CN106203469A

CN106203469A - 一种基于有序模式的图分类方法

Info

Publication number: CN106203469A
Application number: CN201610478602.7A
Authority: CN
Inventors: 张道强; 屠黎阳; 杜俊强
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2016-06-22
Filing date: 2016-06-22
Publication date: 2016-12-07

Abstract

本发明公开了一种对图进行分类的方法。图作为一种通用的数据集结构，在许多科学应用中，可以用来表示数据对象之间的各种复杂关系。在本发明的方法中，首先提出一种新的图特征，也就是有序模式(ordinal pattern)。有序模式可以保留图内的权重信息以及局部拓扑结构，是一种理想的图特征。然后，通过一系列算法，从图中提取具有判别性的有序模式，并将判别性有序模式作为特征。最后基于支持向量机(support vector machine，SVM)，构建出对图分类的分类器。本发明公开的方法可以高效且准确地实现图的分类。

Description

一种基于有序模式的图分类方法

技术领域

本发明公开了一种基于有序模式的图分类分类方法，涉及到神经影像处理、社交网络、频繁项挖掘、分类器构建等方面，旨在实现对图数据进行准确、高效的分类。

背景技术

图作为一种通用的数据集结构，在许多科学应用中，可以用来表示数据对象之间的各种复杂关系。比如基于神经影像构建出图，再通过复杂网络等技术对图进行分析研究，或者使用图结构表示化合物的结构。目前，图分类问题主要研究二分类问题，即正类和负类，主要目标在于构筑一个分类模型，将两者分开。近年来，已经有许多种图特征被用于图分类。例如，节点的度(degree)、聚类系数(clustering coefficient)、判别性子图(discriminative subnetwork)等，基于这些图特征，许多图分类的方法被提出。然而，这些图特征具有两个很大的缺点。首先，这些图特征都是基于无权图，而大部分图数据是有权数据。所以在提取这些特征时，需要将图进行阈值化，从而将有权图转化为无权图。然而，阈值化会损失极大的损失图中的权值信息，这会影响最终的分类结果。第二，大部分图特征(节点的度，聚类系数等)都只考虑单个节点的信息，而忽视了多个节点之间的信息。而许多研究表明，在大部分中，多个节点之间的连接对大脑的功能有重要的作用。很显然，这两个缺点都会极大的影响最终的分类性能。

本发明基于以上两个问题，提出一种新的图特征，也就是有序模式。有序模式可以同时解决以上两个问题，是一种理想的图特征。然后，构造了一种基于有序模式的图分类方法。该方法可以高效且准确的对图进行分类。

发明内容

本发明针对现有方法的缺陷，提出了一种基于有序模式的图分类方法。

本发明为解决上述问题，采用如下技术方案：

步骤一、从图数据集中挖掘频繁有序模式；

步骤二、从众多的频繁有序模式中选择出拥有较高判别性的有序模式，作为判别性有序模式；

步骤三、基于判别性有序模式构建特征矩阵，然后使用支持向量机构建分类器。构建的分类器可用于对图进行分类。

步骤四、对未知类型的图，使用步骤三训练出的分类器对其进行分类。

所述步骤一中，神经影像可以是功能性磁共振成像(functional magneticresonance imaging，fMRI)、结构性磁共振成像(structural magnetic resonanceimaging，sMRI)等。不同类型的脑影像数据的构造过程有所不同。例如，在fMRI中，先将大脑分割为90个脑区，然后，计算各个脑区之间的时间序列的相关度。把脑区作为节点，成对脑区的连接作为边，相关度作为成对脑区之间的边的权值。此外通过测试化合物的化学结构，我们可以得到化合物对应的图。通过上述步骤可以获得神经影像以及化合物对应的图，分为正类和负类，分别表示为D⁺和D^-。

所述步骤一中，我们将图集分为正类和负类，分别表示为D⁺和D^-，然后从图集合中挖掘出频繁有序模式。首先，我们给出有序模式与频繁有序模式的定义。

定义1：有序模式

对于一个有权图G＝{V，E，W}，其中V是节点集合，E是边的集合。W是边的权值集合，其中w(e)表示边e的权值。表示V中的第i_j条边。如果对于所有0＜j＜k≤m成立，那么就是G的第i个有序模式，其中m是op_i包含的边的个数。

定义2：频繁有序模式

对于一个有权图集合D＝{G₁，G₂，...，G_n}，其中n是D中包含的图的数量。对于一个有序模式op，op的频繁度定义为：

F r e q (o p | D) = \frac{| {G_{i} | o p i s a n o r d i n a l p a t t e r n o f G_{i} a n d G_{i} &Element; D} |}{| D |} - - - (3)

如果Freq(op|D)＞θ成立，其中θ是一个预定义的阈值，op就被称为D的一个频繁有序模式。

在频繁有序模式的挖掘过程中，构建出一棵深度优先搜索树对所有的有序模式进行搜索，判断其是否满足频繁度条件。在搜索过程中，使用有序模式的Apriori性质，也就是一个有序模式的频繁度不低于基于它衍生出的任意有序模式的频繁度。这样，如果已经判断一个有序模式不是频繁有序模式，则可以判断它的衍生的任意有序模式都不是频繁有序模式，也就可以直接将这些有序模式进行剪枝，不需要再对它们进行搜索。这可以大大加快频繁有序模式的搜索过程。

所述步骤二中，从数量众多的频繁有序模式中挑选出判别性较高的有序模式时，使用Ratio Score函数来衡量有序模式的判别性。一个从正类D⁺中挖掘出的频繁有序模式op的Ratio Score值可由公式(4)计算：

其中，D^-表示负类的图集。ε是一个很小的值，用来防止公式(4)中的分母为0。如果op是从负类图集，也就是D^-中挖掘出的频繁有序模式，那么op可通过公式(5)计算：

一个有序模式的Ratio Score得分越高，证明它的判别性越强，反之亦然。在计算出每个频繁有序模式的Ratio Score之后，挑选出Ratio Score得分最高的前n个频繁有序模式做为判别性有序模式。值得注意的是，在本方法中，我们从正类图集合与负类图集合中分别挖掘出判别性有序模式，然后再将两部分判别性有序模式合并在一起。

所述步骤三中，利用步骤四挑选出的判别性有序模式，为每一个图构建出一个特征向量，最后将所有图数据的特征向量结合在一起，构建出特征矩阵。具体来说，在图数据集中，如果图G_i包含有判别性模式op_j，则相应的特征矩阵中的F_i，j＝1，否则，F_i，j＝0。如此构建出特征矩阵之后，使用支持向量机(SVM)训练出分类器。训练好的分类器可以实现对图的分类。

所述步骤四中，对于一个未知类别的图数据，使用步骤三训练好的分类器，对其进行分类，预测出图所属的类别。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)省去了在现存方法中普遍采用的阈值化这一步骤；

(2)分类效果与现有方法相比，有明显的提升；

(3)可以对图数据进行局部异常结构分析。

附图说明

图1为有序模式的示例图。其中，有权图包含五个节点与七条有权重边。从有权图中先提取出所有的包含两条边的有序模式。然后，基于两条边的有序模式，再提取出包含三条边的有序模式。以此类推，可以获取有权图的所有有序模式。

图2为本发明的方法流程图。其中，共包含四个步骤，也就是挖掘频繁有序模式、选择判别性有序模式、构建分类器以及对未知类别的图进行分类。

图3为频繁有序模式挖掘示例图。其中，每个点代表一条边，从根节点出发到当前点的所有边构成当前的有序模式。然后，计算当前有序模式的频繁度。如果频繁度高于预定义的阈值，则当前有序模式是频繁有序模式(例如op_i)，继续搜索由它衍生出的有序模式是否为频繁有序模式(op_j等)。如果当前有序模式不是频繁有序模式(例如op_k)，则直接删除它以及所有由他衍生出的有序模式。

具体实施方式

以下结合附图和实施例对本发明的技术方案做进一步详细说明：

实施例

如图2所示，具体的实施过程包含四个步骤：

步骤一是挖掘频繁有序模式。在频繁有序模式的挖掘过程中，构建出一棵深度优先搜索树对所有的有序模式进行搜索，判断其是否满足频繁度条件。在搜索过程中，使用有序模式的Apriori性质，也就是一个有序模式的频繁度不低于基于它衍生出的任意有序模式的频繁度。在图3中给出了搜索过程的示例图。图中，每个点代表一条边，从根节点出发到当前点的所有边构成当前的有序模式。然后，计算当前有序模式的频繁度。如果频繁度高于预定义的阈值，则当前有序模式是频繁有序模式(例如op_i)，继续搜索由它衍生出的有序模式是否为频繁有序模式(op_j等)。如果当前有序模式不是频繁有序模式(例如op_k)，则直接删除它以及所有由他衍生出的有序模式。值得注意的是，在本方法中，分别从正类的图集合与负类的图集合中挖掘频繁有序模式。

步骤二是选择判别性有序模式。在步骤二挖掘出频繁有序模式之后，使用公式(4)与公式(5)计算出每个频繁有序模式的Ratio Score得分。然后，分别从正常的图集合中挖掘出的频繁有序模式与从负类的图集合中挖掘出的频繁有序模式中，分别选择出具有最高Ratio Score得分的前n个频繁有序模式，作为判别性有序模式。

步骤三是构建分类器。利用步骤二挑选出的判别性有序模式，为每一个图构建出一个特征向量，最后将所有图数据的特征向量结合在一起，构建出特征矩阵。具体来说，在图数据集中，如果图G_i包含有判别性子图op_j，则相应的特征矩阵中的F_i，j＝1，否则，F_i，j＝0。构建出特征矩阵之后，使用支持向量机训练出分类器。训练好的分类器可以实现对图的分类。

步骤四是对未知类别的图进行分类。对于一个未知类别的人的脑影像数据，根据步骤一中的叙述构建好图之后，使用步骤二选择的判别性有序模式，构建出该图的特征向量。具体来说，如果该图包含有判别性子图op_i，则相应的特征矩阵中的f_i＝1，否则，f_i＝0。然后，使用步骤四训练好的分类器，对其进行分类，预测出该人的图的具体类别。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于有序模式对图数据进行分类的方法，其特征在于，包括如下步骤：

步骤一、从图数据集中挖掘频繁有序模式；

步骤三、基于判别性有序模式构建特征矩阵，然后使用支持向量机训练分类器。训练出的分类器可用于对图进行分类；

步骤四、对未知类型的图，使用步骤四训练出的分类器对其进行分类。

2.如权利要求1所述的一种基于有序模式对图数据进行分类的方法，其特征在于：所述步骤一中，在频繁有序模式的挖掘过程中，构建出一棵深度优先搜索树对所有的有序模式进行搜索，判断其是否满足频繁度条件。在搜索过程中，使用有序模式的Apriori性质，也就是一个有序模式的频繁度不低于基于它衍生出的任意有序模式的频繁度。这样，如果已经判断一个有序模式不是频繁有序模式，则可以判断它的衍生的任意有序模式都不是频繁有序模式，也就可以直接将这些有序模式进行剪枝，不需要再对它们进行搜索。这可以大大加快频繁有序模式的搜索过程。

3.如权利要求1所述的一种基于有序模式对图数据进行分类的方法，其特征在于：所述步骤二中，从数量众多的频繁有序模式中挑选出判别性较高的有序模式时，使用RatioScore函数来衡量有序模式的判别性。一个有序模式的Ratio Score得分越高，证明它的判别性越强，反之亦然。然后，挑选出Ratio Score得分最高的前n个频繁有序模式做为判别性有序模式。

4.如权利要求1所述的一种基于有序模式对图数据进行分类的方法，其特征在于：所述步骤三中，利用步骤四挑选出的判别性有序模式，为每一个图数据构建出一个特征向量，最后将所有图数据的特征向量结合在一起，构建出特征矩阵。然后，使用支持向量机(SVM)训练出分类器。训练好的分类器可以实现对图数据的分类。

5.如权利要求1所述的一种基于有序模式对图数据进行分类的方法，其特征在于：所述步骤四中，对于一个未知类别的脑影像数据，在构建好图数据之后，使用步骤三选择出的判别性图数据构建特征向量。然后使用步骤四训练好的分类器，对其进行分类，预测出该图数据的类别。