CN110378390B - 一种多任务的图分类方法 - Google Patents

一种多任务的图分类方法 Download PDF

Info

Publication number
CN110378390B
CN110378390B CN201910548944.5A CN201910548944A CN110378390B CN 110378390 B CN110378390 B CN 110378390B CN 201910548944 A CN201910548944 A CN 201910548944A CN 110378390 B CN110378390 B CN 110378390B
Authority
CN
China
Prior art keywords
task
graph
learning
tasks
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910548944.5A
Other languages
English (en)
Other versions
CN110378390A (zh
Inventor
林志全
刘波
肖燕珊
钟昊文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910548944.5A priority Critical patent/CN110378390B/zh
Publication of CN110378390A publication Critical patent/CN110378390A/zh
Application granted granted Critical
Publication of CN110378390B publication Critical patent/CN110378390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多任务的图分类方法,首先利用挖掘子图确定一个最佳子图集,最佳子图分为共同特征和特定特征,以此代表一个向量;接着对多任务的图分类进行重构,以此学习多任务的学习方程,并用拉格朗日定律进行优化,得到目标方程;最后通过学习的最佳子图集,学习该目标方程,得到一个最后的分类精度;本发明通过重构方程式,能够有效利用子图之间关系,利用多个任务之间的相关度,进行任务的分类;同时,挖掘子图的结果更好利用,这样能够在面对任务的数量增多时,更好利用任务之间的相关性,也不失分类的精准度。

Description

一种多任务的图分类方法
技术领域
本发明涉及机器学习技术领域,具体涉及一种多任务的图分类方法。
背景技术
图数据是一种数据类型,它的特点是只有结构信息而没有特征信息,但是对于一些信息有很强的表达能力,例如地图、化学结构式、脑网络等等;又如分析化学式,因为图数据,只有结点信息和连接两点的边的信息,所以我们可以利用结点代表化学式中的化学原子数,利用结点的边来具体代表化学式中的化学键。在实际应用中,往往需要在成千上万个数据中,来寻找我们希望获得的数据。图数据由于它的特殊性,导致现存的很多机器学习方法都无法直接应用,然而图分类是一个很常见的应用场景。
在大数据时代,图分类应用在多个领域,经典的图分类应用场景,化合物的准确分类,而且这个往往是多个任务同时进行的,此时就需要多任务分类的方法进行比较。而现有的多任务的图分类方法,只是在对挖掘子图中,做一部分修改,并没有重构方程,这会导致最后的分类精度下降。
图分类学习主要分为两种方法,一个是基于图的核方法学习,另一个是挖掘子图的方法。挖掘子图的目的是寻找代表图的最佳子图,通常利用gSpan的方法,gSpan是一种频繁子图的挖掘方法,可以找到代表图的最佳子图,该方法的第一步,挖掘子图的过程中,准确寻找到一个最佳的子图集合来准确代表能分类图的全部特征,然后用这些子图集作为特征,例如一个最佳子图集有8个子图,要分类图a,如果有里面的第一个子图,那么第一个向量为1,否则为0;如果图a有里面有其中的第1,3,8子图,那么向量代表就是(1,0,1,0,0,0,0,1);然后再利用支持向量机等方法,进行学习,得出结果。
图分类的方法,一般都是指单任务的图分类方法,而现实生活中,分类往往是多个任务同时存在的,例如,分类动物的图片,往往需要同时分类出各种动物的图片,而不是一种动物的图片,所以多任务的研究是很有必要的。而多任务的学习方法,就是利用任务的相关性,从而提高参数的使用,以此提高任务的准确性和任务的学习效率。现有技术中的多任务的图分类方法,并没有重新学习多任务的图分类,而仅仅是在多任务中,对挖掘子图分为三个部分:共同特征、辅助特征、还有特定特征;仅仅在挖掘子图中作为修改,这是不够的,对于精度的提升有限。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种多任务的图分类方法,该方法从多任务角度出发,重构多任务的学习方程,更好利用任务之间的相关性,保证分类速度的同时提高分类的精确度。
本发明的目的通过下述技术方案实现:
一种多任务的图分类方法,包括下述步骤:
(1)用gSpan对测试组进行一个挖掘子图,并将子图分为三项,分别为共同特征δ1、辅助特征δ2和专用特征δ3;其中,共同特征是服务于所有任务,辅助特征是服务于多个任务,专用特征只服务于特有任务t;使用以下公式表示,若G中有子图gk那么该坐标为1,否则为0:
Figure BDA0002104830380000031
(2)获得子图,并得到向量形式表达图:
xi,t=[hg1(Gt,i),hg2(Gt,i),hg3(Gt,i),…,hgk(Gt,i)]T
(3)利用学习得到的三个辅助特征,但是这三个辅助特征并不是每个任务都可以使用,因此需要将一些没有分类意义的子图去除,得到一个
Figure BDA0002104830380000032
然后放入分类器中进行学习;
(4)通过构建目标模型来确定多任务的图分类之间的联系,即学习任务之间的相关性问题,如下述公式所示:
Figure BDA0002104830380000033
其中T代表有T个任务,t=1,2,3,…代表任务1,任务2,任务3…,m代表最佳子图集里的m个子图;利用ranksvm来进行学习,ranksvm是一种排序svm,同时可以利用排序的方法进行检索和分类;受限的
Figure BDA0002104830380000034
Figure BDA0002104830380000035
表示任意两个向量中的相减,得到一个最优的向量;
(5)利用拉格朗日对式子进行优化,引入拉格朗日算子α,β,然后用梯度下降得到以下表示式:
Figure BDA0002104830380000041
则该方程为目标方程;
(6)通过学习最佳子图集,并学习目标方程,得到最后的分类精度。
本发明与现有技术相比具有以下的有益效果:
本发明通过重构方程式,能够有效利用子图之间关系,利用多个任务之间的相关度,进行任务的分类;同时,挖掘子图的结果更好利用,这样能够在面对任务的数量增多时,更好利用任务之间的相关性,也不失分类的精准度。
附图说明
图1为本发明最佳子图集中共同特征和辅助特征选择流程示意图;
图2为本发明的任务流程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明提出了一种多任务的图分类方法,首先利用挖掘子图确定一个最佳子图集,最佳子图分为共同特征和特定特征,以此代表一个向量;接着对多任务的图分类进行重构,以此学习多任务的学习方程,并用拉格朗日定律进行优化,得到目标方程;最后通过学习的最佳子图集,学习该目标方程,得到一个最后的分类精度。
具体来说,如图1~2所示,一种多任务的图分类方法,包括下述步骤:
(1)用gSpan对测试组进行一个挖掘子图,并将子图分为三项,分别为共同特征δ1、辅助特征δ2和专用特征δ3;其中,共同特征是服务于所有任务,辅助特征是服务于多个任务,专用特征只服务于特有任务t;使用以下公式表示,若G中有子图gk那么该坐标为1,否则为0:
Figure BDA0002104830380000051
(2)获得子图,并得到向量形式表达图:
xi,t=[hg1(Gt,i),hg2(Gt,i),hg3(Gt,i),…,hgk(Gt,i)]T
(3)利用学习得到的三个辅助特征,但是这三个辅助特征并不是每个任务都可以使用,因此需要将一些没有分类意义的子图去除,得到一个
Figure BDA0002104830380000052
然后放入分类器中进行学习;
(4)通过构建目标模型来确定多任务的图分类之间的联系,即学习任务之间的相关性问题,如下述公式所示:
Figure BDA0002104830380000053
其中T代表有T个任务,t=1,2,3,…代表任务1,任务2,任务3…,m代表最佳子图集里的m个子图;利用ranksvm来进行学习,ranksvm是一种排序svm,同时可以利用排序的方法进行检索和分类;受限的
Figure BDA0002104830380000054
Figure BDA0002104830380000055
表示任意两个向量中的相减,得到一个最优的向量;
(5)利用拉格朗日对式子进行优化,引入拉格朗日算子α,β,然后用梯度下降得到以下表示式:
Figure BDA0002104830380000061
则该方程为目标方程;
(6)通过学习最佳子图集,并学习目标方程,得到最后的分类精度。
本发明利用基于Ranksvm首次一个多任务的图分类学习并重构了目标方程。重构目标方程,能够解决多任务问题,即使任务达到一定数量,分类的准确性不会降低,也不会增加学习的复杂度问题。
本发明通过重构方程式,能够有效利用子图之间关系,利用多个任务之间的相关度,进行任务的分类;同时,挖掘子图的结果更好利用,这样能够在面对任务的数量增多时,更好利用任务之间的相关性,也不失分类的精准度。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (1)

1.一种多任务的图分类方法,其特征在于,包括下述步骤:
(1)用gSpan对测试组进行一个挖掘子图,并将子图分为三项,分别为共同特征δ1、辅助特征δ2和专用特征δ3;其中,共同特征是服务于所有任务,辅助特征是服务于多个任务,专用特征只服务于特有任务t;使用以下公式表示,若G中有子图gk那么坐标为1,否则为0:
Figure FDA0003435397210000011
(2)获得子图,并得到向量形式表达图:
xi,t=[hg1(Gt,i),hg2(Gt,i),hg3(Gt,i),…,hgk(Gt,i)]T
(3)利用学习得到的三个辅助特征,但是这三个辅助特征并不是每个任务都可以使用,因此需要将一些没有分类意义的子图去除,得到一个
Figure FDA0003435397210000012
然后放入分类器中进行学习;
(4)通过构建目标模型来确定多任务的图分类之间的联系,即学习任务之间的相关性问题,如下述公式所示:
Figure FDA0003435397210000013
s.t.
Figure FDA0003435397210000014
其中M代表有M个任务,t=1,2,3,…代表任务1,任务2,任务3…,m代表最佳子图集里的m个子图;利用ranksvm来进行学习,ranksvm是一种排序svm,同时可以利用排序的方法进行检索和分类;受限的
Figure FDA0003435397210000015
Figure FDA0003435397210000016
表示任意两个向量中的相减,得到一个最优的向量;
(5)利用拉格朗日对式子进行优化,引入拉格朗日算子α,β,然后用梯度下降得到以下表示式:
Figure FDA0003435397210000021
则方程为目标方程;
(6)通过学习最佳子图集,并学习目标方程,得到最后的分类精度。
CN201910548944.5A 2019-06-24 2019-06-24 一种多任务的图分类方法 Active CN110378390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910548944.5A CN110378390B (zh) 2019-06-24 2019-06-24 一种多任务的图分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910548944.5A CN110378390B (zh) 2019-06-24 2019-06-24 一种多任务的图分类方法

Publications (2)

Publication Number Publication Date
CN110378390A CN110378390A (zh) 2019-10-25
CN110378390B true CN110378390B (zh) 2022-05-10

Family

ID=68249180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910548944.5A Active CN110378390B (zh) 2019-06-24 2019-06-24 一种多任务的图分类方法

Country Status (1)

Country Link
CN (1) CN110378390B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114947807A (zh) * 2022-05-06 2022-08-30 天津大学 一种脑侵袭分类和脑膜瘤分级的多任务预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6882990B1 (en) * 1999-05-01 2005-04-19 Biowulf Technologies, Llc Methods of identifying biological patterns using multiple data sets
US20110320387A1 (en) * 2010-06-28 2011-12-29 International Business Machines Corporation Graph-based transfer learning
CN105184326A (zh) * 2015-09-30 2015-12-23 广东工业大学 基于图数据的主动学习多标签社交网络数据分析方法
CN108229066A (zh) * 2018-02-07 2018-06-29 北京航空航天大学 一种基于多模态超连接脑网络建模的帕金森自动识别方法

Also Published As

Publication number Publication date
CN110378390A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN109558942B (zh) 一种基于浅度学习的神经网络迁移方法
Garcia-Garcia et al. Pointnet: A 3d convolutional neural network for real-time object class recognition
US20190279088A1 (en) Training method, apparatus, chip, and system for neural network model
CN105809672B (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN112819110B (zh) 基于权重生成的增量式小样本目标检测方法及系统
CN109816027A (zh) 无人驾驶决策模型的训练方法、装置及无人驾驶设备
CN114399644A (zh) 一种基于小样本目标检测方法及装置
CN112950642A (zh) 点云实例分割模型的训练方法、装置、电子设备和介质
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
Rios et al. Feature visualization for 3D point cloud autoencoders
CN110705632B (zh) 一种抗核抗体荧光核型自动标注方法
CN110378390B (zh) 一种多任务的图分类方法
CN113158904B (zh) 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置
Yuan et al. Optical flow training under limited label budget via active learning
Weber et al. Automated labeling of electron microscopy images using deep learning
KR20230073751A (ko) 레이아웃 기반의 동일 화풍 영상 생성 시스템 및 방법
Kwasigroch et al. Deep neural network architecture search using network morphism
CN110443282B (zh) 一种胚胎时序图像中的胚胎发育阶段分类方法
Volokitin et al. Efficiently detecting plausible locations for object placement using masked convolutions
Wang et al. Benchmarking and analyzing 3d-aware image synthesis with a modularized codebase
CN113344189B (zh) 一种神经网络的训练方法、装置、计算机设备及存储介质
CN115249313A (zh) 一种基于元模块融合增量学习的图像分类方法
CN115496137A (zh) 基于标签传播和分布转换的小样本分类方法及相关装置
KR20230065443A (ko) 포인트 클라우드 데이터 증강 방법 및 이를 이용하는 학습 방법
JPWO2018168695A1 (ja) 分散機械学習装置、分散機械学習方法および分散機械学習プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant