CN106203469A - 一种基于有序模式的图分类方法 - Google Patents

一种基于有序模式的图分类方法 Download PDF

Info

Publication number
CN106203469A
CN106203469A CN201610478602.7A CN201610478602A CN106203469A CN 106203469 A CN106203469 A CN 106203469A CN 201610478602 A CN201610478602 A CN 201610478602A CN 106203469 A CN106203469 A CN 106203469A
Authority
CN
China
Prior art keywords
pattern
orderly
identification
orderly pattern
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610478602.7A
Other languages
English (en)
Inventor
张道强
屠黎阳
杜俊强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201610478602.7A priority Critical patent/CN106203469A/zh
Publication of CN106203469A publication Critical patent/CN106203469A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对图进行分类的方法。图作为一种通用的数据集结构,在许多科学应用中,可以用来表示数据对象之间的各种复杂关系。在本发明的方法中,首先提出一种新的图特征,也就是有序模式(ordinal pattern)。有序模式可以保留图内的权重信息以及局部拓扑结构,是一种理想的图特征。然后,通过一系列算法,从图中提取具有判别性的有序模式,并将判别性有序模式作为特征。最后基于支持向量机(support vector machine,SVM),构建出对图分类的分类器。本发明公开的方法可以高效且准确地实现图的分类。

Description

一种基于有序模式的图分类方法
技术领域
本发明公开了一种基于有序模式的图分类分类方法,涉及到神经影像处理、社交网络、频繁项挖掘、分类器构建等方面,旨在实现对图数据进行准确、高效的分类。
背景技术
图作为一种通用的数据集结构,在许多科学应用中,可以用来表示数据对象之间的各种复杂关系。比如基于神经影像构建出图,再通过复杂网络等技术对图进行分析研究,或者使用图结构表示化合物的结构。目前,图分类问题主要研究二分类问题,即正类和负类,主要目标在于构筑一个分类模型,将两者分开。近年来,已经有许多种图特征被用于图分类。例如,节点的度(degree)、聚类系数(clustering coefficient)、判别性子图(discriminative subnetwork)等,基于这些图特征,许多图分类的方法被提出。然而,这些图特征具有两个很大的缺点。首先,这些图特征都是基于无权图,而大部分图数据是有权数据。所以在提取这些特征时,需要将图进行阈值化,从而将有权图转化为无权图。然而,阈值化会损失极大的损失图中的权值信息,这会影响最终的分类结果。第二,大部分图特征(节点的度,聚类系数等)都只考虑单个节点的信息,而忽视了多个节点之间的信息。而许多研究表明,在大部分中,多个节点之间的连接对大脑的功能有重要的作用。很显然,这两个缺点都会极大的影响最终的分类性能。
本发明基于以上两个问题,提出一种新的图特征,也就是有序模式。有序模式可以同时解决以上两个问题,是一种理想的图特征。然后,构造了一种基于有序模式的图分类方法。该方法可以高效且准确的对图进行分类。
发明内容
本发明针对现有方法的缺陷,提出了一种基于有序模式的图分类方法。
本发明为解决上述问题,采用如下技术方案:
步骤一、从图数据集中挖掘频繁有序模式;
步骤二、从众多的频繁有序模式中选择出拥有较高判别性的有序模式,作为判别性有序模式;
步骤三、基于判别性有序模式构建特征矩阵,然后使用支持向量机构建分类器。构建的分类器可用于对图进行分类。
步骤四、对未知类型的图,使用步骤三训练出的分类器对其进行分类。
所述步骤一中,神经影像可以是功能性磁共振成像(functional magneticresonance imaging,fMRI)、结构性磁共振成像(structural magnetic resonanceimaging,sMRI)等。不同类型的脑影像数据的构造过程有所不同。例如,在fMRI中,先将大脑分割为90个脑区,然后,计算各个脑区之间的时间序列的相关度。把脑区作为节点,成对脑区的连接作为边,相关度作为成对脑区之间的边的权值。此外通过测试化合物的化学结构,我们可以得到化合物对应的图。通过上述步骤可以获得神经影像以及化合物对应的图,分为正类和负类,分别表示为D+和D-
所述步骤一中,我们将图集分为正类和负类,分别表示为D+和D-,然后从图集合中挖掘出频繁有序模式。首先,我们给出有序模式与频繁有序模式的定义。
定义1:有序模式
对于一个有权图G={V,E,W},其中V是节点集合,E是边的集合。W是边的权值集合,其中w(e)表示边e的权值。表示V中的第ij条边。如果对于所有0<j<k≤m成立,那么就是G的第i个有序模式,其中m是opi包含的边的个数。
定义2:频繁有序模式
对于一个有权图集合D={G1,G2,...,Gn},其中n是D中包含的图的数量。对于一个有序模式op,op的频繁度定义为:
F r e q ( o p | D ) = | { G i | o p i s a n o r d i n a l p a t t e r n o f G i a n d G i ∈ D } | | D | - - - ( 3 )
如果Freq(op|D)>θ成立,其中θ是一个预定义的阈值,op就被称为D的一个频繁有序模式。
在频繁有序模式的挖掘过程中,构建出一棵深度优先搜索树对所有的有序模式进行搜索,判断其是否满足频繁度条件。在搜索过程中,使用有序模式的Apriori性质,也就是一个有序模式的频繁度不低于基于它衍生出的任意有序模式的频繁度。这样,如果已经判断一个有序模式不是频繁有序模式,则可以判断它的衍生的任意有序模式都不是频繁有序模式,也就可以直接将这些有序模式进行剪枝,不需要再对它们进行搜索。这可以大大加快频繁有序模式的搜索过程。
所述步骤二中,从数量众多的频繁有序模式中挑选出判别性较高的有序模式时,使用Ratio Score函数来衡量有序模式的判别性。一个从正类D+中挖掘出的频繁有序模式op的Ratio Score值可由公式(4)计算:
其中,D-表示负类的图集。ε是一个很小的值,用来防止公式(4)中的分母为0。如果op是从负类图集,也就是D-中挖掘出的频繁有序模式,那么op可通过公式(5)计算:
一个有序模式的Ratio Score得分越高,证明它的判别性越强,反之亦然。在计算出每个频繁有序模式的Ratio Score之后,挑选出Ratio Score得分最高的前n个频繁有序模式做为判别性有序模式。值得注意的是,在本方法中,我们从正类图集合与负类图集合中分别挖掘出判别性有序模式,然后再将两部分判别性有序模式合并在一起。
所述步骤三中,利用步骤四挑选出的判别性有序模式,为每一个图构建出一个特征向量,最后将所有图数据的特征向量结合在一起,构建出特征矩阵。具体来说,在图数据集中,如果图Gi包含有判别性模式opj,则相应的特征矩阵中的Fi,j=1,否则,Fi,j=0。如此构建出特征矩阵之后,使用支持向量机(SVM)训练出分类器。训练好的分类器可以实现对图的分类。
所述步骤四中,对于一个未知类别的图数据,使用步骤三训练好的分类器,对其进行分类,预测出图所属的类别。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)省去了在现存方法中普遍采用的阈值化这一步骤;
(2)分类效果与现有方法相比,有明显的提升;
(3)可以对图数据进行局部异常结构分析。
附图说明
图1为有序模式的示例图。其中,有权图包含五个节点与七条有权重边。从有权图中先提取出所有的包含两条边的有序模式。然后,基于两条边的有序模式,再提取出包含三条边的有序模式。以此类推,可以获取有权图的所有有序模式。
图2为本发明的方法流程图。其中,共包含四个步骤,也就是挖掘频繁有序模式、选择判别性有序模式、构建分类器以及对未知类别的图进行分类。
图3为频繁有序模式挖掘示例图。其中,每个点代表一条边,从根节点出发到当前点的所有边构成当前的有序模式。然后,计算当前有序模式的频繁度。如果频繁度高于预定义的阈值,则当前有序模式是频繁有序模式(例如opi),继续搜索由它衍生出的有序模式是否为频繁有序模式(opj等)。如果当前有序模式不是频繁有序模式(例如opk),则直接删除它以及所有由他衍生出的有序模式。
具体实施方式
以下结合附图和实施例对本发明的技术方案做进一步详细说明:
实施例
如图2所示,具体的实施过程包含四个步骤:
步骤一是挖掘频繁有序模式。在频繁有序模式的挖掘过程中,构建出一棵深度优先搜索树对所有的有序模式进行搜索,判断其是否满足频繁度条件。在搜索过程中,使用有序模式的Apriori性质,也就是一个有序模式的频繁度不低于基于它衍生出的任意有序模式的频繁度。在图3中给出了搜索过程的示例图。图中,每个点代表一条边,从根节点出发到当前点的所有边构成当前的有序模式。然后,计算当前有序模式的频繁度。如果频繁度高于预定义的阈值,则当前有序模式是频繁有序模式(例如opi),继续搜索由它衍生出的有序模式是否为频繁有序模式(opj等)。如果当前有序模式不是频繁有序模式(例如opk),则直接删除它以及所有由他衍生出的有序模式。值得注意的是,在本方法中,分别从正类的图集合与负类的图集合中挖掘频繁有序模式。
步骤二是选择判别性有序模式。在步骤二挖掘出频繁有序模式之后,使用公式(4)与公式(5)计算出每个频繁有序模式的Ratio Score得分。然后,分别从正常的图集合中挖掘出的频繁有序模式与从负类的图集合中挖掘出的频繁有序模式中,分别选择出具有最高Ratio Score得分的前n个频繁有序模式,作为判别性有序模式。
步骤三是构建分类器。利用步骤二挑选出的判别性有序模式,为每一个图构建出一个特征向量,最后将所有图数据的特征向量结合在一起,构建出特征矩阵。具体来说,在图数据集中,如果图Gi包含有判别性子图opj,则相应的特征矩阵中的Fi,j=1,否则,Fi,j=0。构建出特征矩阵之后,使用支持向量机训练出分类器。训练好的分类器可以实现对图的分类。
步骤四是对未知类别的图进行分类。对于一个未知类别的人的脑影像数据,根据步骤一中的叙述构建好图之后,使用步骤二选择的判别性有序模式,构建出该图的特征向量。具体来说,如果该图包含有判别性子图opi,则相应的特征矩阵中的fi=1,否则,fi=0。然后,使用步骤四训练好的分类器,对其进行分类,预测出该人的图的具体类别。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种基于有序模式对图数据进行分类的方法,其特征在于,包括如下步骤:
步骤一、从图数据集中挖掘频繁有序模式;
步骤二、从众多的频繁有序模式中选择出拥有较高判别性的有序模式,作为判别性有序模式;
步骤三、基于判别性有序模式构建特征矩阵,然后使用支持向量机训练分类器。训练出的分类器可用于对图进行分类;
步骤四、对未知类型的图,使用步骤四训练出的分类器对其进行分类。
2.如权利要求1所述的一种基于有序模式对图数据进行分类的方法,其特征在于:所述步骤一中,在频繁有序模式的挖掘过程中,构建出一棵深度优先搜索树对所有的有序模式进行搜索,判断其是否满足频繁度条件。在搜索过程中,使用有序模式的Apriori性质,也就是一个有序模式的频繁度不低于基于它衍生出的任意有序模式的频繁度。这样,如果已经判断一个有序模式不是频繁有序模式,则可以判断它的衍生的任意有序模式都不是频繁有序模式,也就可以直接将这些有序模式进行剪枝,不需要再对它们进行搜索。这可以大大加快频繁有序模式的搜索过程。
3.如权利要求1所述的一种基于有序模式对图数据进行分类的方法,其特征在于:所述步骤二中,从数量众多的频繁有序模式中挑选出判别性较高的有序模式时,使用RatioScore函数来衡量有序模式的判别性。一个有序模式的Ratio Score得分越高,证明它的判别性越强,反之亦然。然后,挑选出Ratio Score得分最高的前n个频繁有序模式做为判别性有序模式。
4.如权利要求1所述的一种基于有序模式对图数据进行分类的方法,其特征在于:所述步骤三中,利用步骤四挑选出的判别性有序模式,为每一个图数据构建出一个特征向量,最后将所有图数据的特征向量结合在一起,构建出特征矩阵。然后,使用支持向量机(SVM)训练出分类器。训练好的分类器可以实现对图数据的分类。
5.如权利要求1所述的一种基于有序模式对图数据进行分类的方法,其特征在于:所述步骤四中,对于一个未知类别的脑影像数据,在构建好图数据之后,使用步骤三选择出的判别性图数据构建特征向量。然后使用步骤四训练好的分类器,对其进行分类,预测出该图数据的类别。
CN201610478602.7A 2016-06-22 2016-06-22 一种基于有序模式的图分类方法 Pending CN106203469A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610478602.7A CN106203469A (zh) 2016-06-22 2016-06-22 一种基于有序模式的图分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610478602.7A CN106203469A (zh) 2016-06-22 2016-06-22 一种基于有序模式的图分类方法

Publications (1)

Publication Number Publication Date
CN106203469A true CN106203469A (zh) 2016-12-07

Family

ID=57462026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610478602.7A Pending CN106203469A (zh) 2016-06-22 2016-06-22 一种基于有序模式的图分类方法

Country Status (1)

Country Link
CN (1) CN106203469A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019001071A1 (zh) * 2017-06-28 2019-01-03 浙江大学 一种基于邻接矩阵的图特征提取系统、图分类系统和方法
WO2019001070A1 (zh) * 2017-06-28 2019-01-03 浙江大学 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法
CN109325517A (zh) * 2018-08-14 2019-02-12 浙江大学 一种基于Attention的循环神经网络模型的图分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019001071A1 (zh) * 2017-06-28 2019-01-03 浙江大学 一种基于邻接矩阵的图特征提取系统、图分类系统和方法
WO2019001070A1 (zh) * 2017-06-28 2019-01-03 浙江大学 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法
US11461581B2 (en) 2017-06-28 2022-10-04 Zhejiang University System and method of connection information regularization, graph feature extraction and graph classification based on adjacency matrix
CN109325517A (zh) * 2018-08-14 2019-02-12 浙江大学 一种基于Attention的循环神经网络模型的图分类方法

Similar Documents

Publication Publication Date Title
CN104330721B (zh) 集成电路硬件木马检测方法和系统
CN111814871A (zh) 一种基于可靠权重最优传输的图像分类方法
CN106779087A (zh) 一种通用机器学习数据分析平台
CN110188206A (zh) 基于翻译模型的协同迭代联合实体对齐方法及装置
CN106022380A (zh) 基于深度学习的个体身份识别方法
CN106021990B (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
CN110135459A (zh) 一种基于双三元组深度度量学习网络的零样本分类方法
CN103888541B (zh) 一种融合拓扑势和谱聚类的社区发现方法及系统
CN104217015B (zh) 基于互为共享最近邻的层次聚类方法
CN109740483A (zh) 一种基于深层神经网络的水稻生长期检测方法
CN107133651A (zh) 基于超网络判别子图的功能磁共振影像数据分类方法
CN104268629B (zh) 一种基于先验信息和网络固有信息的复杂网络社区检测方法
CN112800770B (zh) 一种基于异构图注意力网络的实体对齐方法
CN111127423B (zh) 一种基于cnn-bp神经网络算法水稻病虫害识别方法
CN108734223A (zh) 基于社区划分的社交网络好友推荐方法
CN105930688A (zh) 基于改进pso算法的蛋白质功能模块检测方法
CN106127229A (zh) 一种基于时间序列类别的计算机数据分类方法
CN113505239B (zh) 一种结合图注意力和属性聚类的实体对齐方法
CN106203469A (zh) 一种基于有序模式的图分类方法
CN107818328A (zh) 结合局部信息的不完整数据相似性刻画方法
El Massi et al. Combination of multiple classifiers for automatic recognition of diseases and damages on plant leaves
CN104573701B (zh) 一种玉米雄穗性状的自动检测方法
CN107451617A (zh) 一种图转导半监督分类方法
Poojitha et al. A collocation of IRIS flower using neural network clustering tool in MATLAB
CN103164487B (zh) 一种基于密度与几何信息的数据聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161207

WD01 Invention patent application deemed withdrawn after publication