CN110378390A - 一种多任务的图分类方法 - Google Patents

一种多任务的图分类方法 Download PDF

Info

Publication number
CN110378390A
CN110378390A CN201910548944.5A CN201910548944A CN110378390A CN 110378390 A CN110378390 A CN 110378390A CN 201910548944 A CN201910548944 A CN 201910548944A CN 110378390 A CN110378390 A CN 110378390A
Authority
CN
China
Prior art keywords
subgraph
task
classification
multitask
equation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910548944.5A
Other languages
English (en)
Other versions
CN110378390B (zh
Inventor
林志全
刘波
肖燕珊
钟昊文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910548944.5A priority Critical patent/CN110378390B/zh
Publication of CN110378390A publication Critical patent/CN110378390A/zh
Application granted granted Critical
Publication of CN110378390B publication Critical patent/CN110378390B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多任务的图分类方法,首先利用挖掘子图确定一个最佳子图集,最佳子图分为共同特征和特定特征,以此代表一个向量;接着对多任务的图分类进行重构,以此学习多任务的学习方程,并用拉格朗日定律进行优化,得到目标方程;最后通过学习的最佳子图集,学习该目标方程,得到一个最后的分类精度;本发明通过重构方程式,能够有效利用子图之间关系,利用多个任务之间的相关度,进行任务的分类;同时,挖掘子图的结果更好利用,这样能够在面对任务的数量增多时,更好利用任务之间的相关性,也不失分类的精准度。

Description

一种多任务的图分类方法
技术领域
本发明涉及机器学习技术领域,具体涉及一种多任务的图分类方法。
背景技术
图数据是一种数据类型,它的特点是只有结构信息而没有特征信息,但是对于一些信息有很强的表达能力,例如地图、化学结构式、脑网络等等;又如分析化学式,因为图数据,只有结点信息和连接两点的边的信息,所以我们可以利用结点代表化学式中的化学原子数,利用结点的边来具体代表化学式中的化学键。在实际应用中,往往需要在成千上万个数据中,来寻找我们希望获得的数据。图数据由于它的特殊性,导致现存的很多机器学习方法都无法直接应用,然而图分类是一个很常见的应用场景。
在大数据时代,图分类应用在多个领域,经典的图分类应用场景,化合物的准确分类,而且这个往往是多个任务同时进行的,此时就需要多任务分类的方法进行比较。而现有的多任务的图分类方法,只是在对挖掘子图中,做一部分修改,并没有重构方程,这会导致最后的分类精度下降。
图分类学习主要分为两种方法,一个是基于图的核方法学习,另一个是挖掘子图的方法。挖掘子图的目的是寻找代表图的最佳子图,通常利用gSpan的方法,gSpan是一种频繁子图的挖掘方法,可以找到代表图的最佳子图,该方法的第一步,挖掘子图的过程中,准确寻找到一个最佳的子图集合来准确代表能分类图的全部特征,然后用这些子图集作为特征,例如一个最佳子图集有8个子图,要分类图a,如果有里面的第一个子图,那么第一个向量为1,否则为0;如果图a有里面有其中的第1,3,8子图,那么向量代表就是(1,0,1,0,0,0,0,1);然后再利用支持向量机等方法,进行学习,得出结果。
图分类的方法,一般都是指单任务的图分类方法,而现实生活中,分类往往是多个任务同时存在的,例如,分类动物的图片,往往需要同时分类出各种动物的图片,而不是一种动物的图片,所以多任务的研究是很有必要的。而多任务的学习方法,就是利用任务的相关性,从而提高参数的使用,以此提高任务的准确性和任务的学习效率。现有技术中的多任务的图分类方法,并没有重新学习多任务的图分类,而仅仅是在多任务中,对挖掘子图分为三个部分:共同特征、辅助特征、还有特定特征;仅仅在挖掘子图中作为修改,这是不够的,对于精度的提升有限。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种多任务的图分类方法,该方法从多任务角度出发,重构多任务的学习方程,更好利用任务之间的相关性,保证分类速度的同时提高分类的精确度。
本发明的目的通过下述技术方案实现:
一种多任务的图分类方法,包括下述步骤:
(1)用gSpan对测试组进行一个挖掘子图,并将子图分为三项,分别为共同特征δ1、辅助特征δ2和专用特征δ3;其中,共同特征是服务于所有任务,辅助特征是服务于多个任务,专用特征只服务于特有任务t;使用以下公式表示,若G中有子图gk那么该坐标为1,否则为0:
(2)获得子图,并得到向量形式表达图:
xi,t=[hg1(Gt,i),hg2(Gt,i),hg3(Gt,i),…,hgk(Gt,i)]T
(3)利用学习得到的三个辅助特征,但是这三个辅助特征并不是每个任务都可以使用,因此需要将一些没有分类意义的子图去除,得到一个然后放入分类器中进行学习;
(4)通过构建目标模型来确定多任务的图分类之间的联系,即学习任务之间的相关性问题,如下述公式所示:
其中T代表有T个任务,t=1,2,3,…代表任务1,任务2,任务3…,m代表最佳子图集里的m个子图;利用ranksvm来进行学习,ranksvm是一种排序svm,同时可以利用排序的方法进行检索和分类;受限的表示任意两个向量中的相减,得到一个最优的向量;
(5)利用拉格朗日对式子进行优化,引入拉格朗日算子α,β,然后用梯度下降得到以下表示式:
则该方程为目标方程;
(6)通过学习最佳子图集,并学习目标方程,得到最后的分类精度。
本发明与现有技术相比具有以下的有益效果:
本发明通过重构方程式,能够有效利用子图之间关系,利用多个任务之间的相关度,进行任务的分类;同时,挖掘子图的结果更好利用,这样能够在面对任务的数量增多时,更好利用任务之间的相关性,也不失分类的精准度。
附图说明
图1为本发明最佳子图集中共同特征和辅助特征选择流程示意图;
图2为本发明的任务流程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明提出了一种多任务的图分类方法,首先利用挖掘子图确定一个最佳子图集,最佳子图分为共同特征和特定特征,以此代表一个向量;接着对多任务的图分类进行重构,以此学习多任务的学习方程,并用拉格朗日定律进行优化,得到目标方程;最后通过学习的最佳子图集,学习该目标方程,得到一个最后的分类精度。
具体来说,如图1~2所示,一种多任务的图分类方法,包括下述步骤:
(1)用gSpan对测试组进行一个挖掘子图,并将子图分为三项,分别为共同特征δ1、辅助特征δ2和专用特征δ3;其中,共同特征是服务于所有任务,辅助特征是服务于多个任务,专用特征只服务于特有任务t;使用以下公式表示,若G中有子图gk那么该坐标为1,否则为0:
(2)获得子图,并得到向量形式表达图:
xi,t=[hg1(Gt,i),hg2(Gt,i),hg3(Gt,i),…,hgk(Gt,i)]T
(3)利用学习得到的三个辅助特征,但是这三个辅助特征并不是每个任务都可以使用,因此需要将一些没有分类意义的子图去除,得到一个然后放入分类器中进行学习;
(4)通过构建目标模型来确定多任务的图分类之间的联系,即学习任务之间的相关性问题,如下述公式所示:
其中T代表有T个任务,t=1,2,3,…代表任务1,任务2,任务3…,m代表最佳子图集里的m个子图;利用ranksvm来进行学习,ranksvm是一种排序svm,同时可以利用排序的方法进行检索和分类;受限的表示任意两个向量中的相减,得到一个最优的向量;
(5)利用拉格朗日对式子进行优化,引入拉格朗日算子α,β,然后用梯度下降得到以下表示式:
则该方程为目标方程;
(6)通过学习最佳子图集,并学习目标方程,得到最后的分类精度。
本发明利用基于Ranksvm首次一个多任务的图分类学习并重构了目标方程。重构目标方程,能够解决多任务问题,即使任务达到一定数量,分类的准确性不会降低,也不会增加学习的复杂度问题。
本发明通过重构方程式,能够有效利用子图之间关系,利用多个任务之间的相关度,进行任务的分类;同时,挖掘子图的结果更好利用,这样能够在面对任务的数量增多时,更好利用任务之间的相关性,也不失分类的精准度。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (1)

1.一种多任务的图分类方法,其特征在于,包括下述步骤:
(1)用gSpan对测试组进行一个挖掘子图,并将子图分为三项,分别为共同特征δ1、辅助特征δ2和专用特征δ3;其中,共同特征是服务于所有任务,辅助特征是服务于多个任务,专用特征只服务于特有任务t;使用以下公式表示,若G中有子图gk那么该坐标为1,否则为0:
(2)获得子图,并得到向量形式表达图:
xi,t=[hg1(Gt,i),hg2(Gt,i),hg3(Gt,i),…,hgk(Gt,i)]T
(3)利用学习得到的三个辅助特征,但是这三个辅助特征并不是每个任务都可以使用,因此需要将一些没有分类意义的子图去除,得到一个然后放入分类器中进行学习;
(4)通过构建目标模型来确定多任务的图分类之间的联系,即学习任务之间的相关性问题,如下述公式所示:
s.t.
其中T代表有T个任务,t=1,2,3,…代表任务1,任务2,任务3…,m代表最佳子图集里的m个子图;利用ranksvm来进行学习,ranksvm是一种排序svm,同时可以利用排序的方法进行检索和分类;受限的表示任意两个向量中的相减,得到一个最优的向量;
(5)利用拉格朗日对式子进行优化,引入拉格朗日算子α,β,然后用梯度下降得到以下表示式:
则该方程为目标方程;
(6)通过学习最佳子图集,并学习目标方程,得到最后的分类精度。
CN201910548944.5A 2019-06-24 2019-06-24 一种多任务的图分类方法 Expired - Fee Related CN110378390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910548944.5A CN110378390B (zh) 2019-06-24 2019-06-24 一种多任务的图分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910548944.5A CN110378390B (zh) 2019-06-24 2019-06-24 一种多任务的图分类方法

Publications (2)

Publication Number Publication Date
CN110378390A true CN110378390A (zh) 2019-10-25
CN110378390B CN110378390B (zh) 2022-05-10

Family

ID=68249180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910548944.5A Expired - Fee Related CN110378390B (zh) 2019-06-24 2019-06-24 一种多任务的图分类方法

Country Status (1)

Country Link
CN (1) CN110378390B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114947807A (zh) * 2022-05-06 2022-08-30 天津大学 一种脑侵袭分类和脑膜瘤分级的多任务预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7542959B2 (en) * 1998-05-01 2009-06-02 Health Discovery Corporation Feature selection method using support vector machine classifier
CN105184326A (zh) * 2015-09-30 2015-12-23 广东工业大学 基于图数据的主动学习多标签社交网络数据分析方法
US9477929B2 (en) * 2010-06-28 2016-10-25 International Business Machines Corporation Graph-based transfer learning
CN108229066A (zh) * 2018-02-07 2018-06-29 北京航空航天大学 一种基于多模态超连接脑网络建模的帕金森自动识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7542959B2 (en) * 1998-05-01 2009-06-02 Health Discovery Corporation Feature selection method using support vector machine classifier
US9477929B2 (en) * 2010-06-28 2016-10-25 International Business Machines Corporation Graph-based transfer learning
CN105184326A (zh) * 2015-09-30 2015-12-23 广东工业大学 基于图数据的主动学习多标签社交网络数据分析方法
CN108229066A (zh) * 2018-02-07 2018-06-29 北京航空航天大学 一种基于多模态超连接脑网络建模的帕金森自动识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANSHAN XIAO等: "A Similarity-Based Classification Framework for Multiple-Instance Learning", 《IEEE TRANSACTIONS ON CYBERNETICS 》 *
王立鹏等: "基于子图选择和图核降维的脑网络分类方法", 《计算机科学与探索》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114947807A (zh) * 2022-05-06 2022-08-30 天津大学 一种脑侵袭分类和脑膜瘤分级的多任务预测方法

Also Published As

Publication number Publication date
CN110378390B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN110490100A (zh) 基于深度学习的岩土自动识别定名方法及系统
CN110348579A (zh) 一种领域自适应迁移特征方法及系统
CN114067107A (zh) 基于多粒度注意力的多尺度细粒度图像识别方法及系统
CN111460201A (zh) 一种基于生成性对抗网络的模态一致性跨模态检索方法
Manubens-Gil et al. BigNeuron: a resource to benchmark and predict performance of algorithms for automated tracing of neurons in light microscopy datasets
CN111126464A (zh) 一种基于无监督域对抗领域适应的图像分类方法
CN113742488A (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
CN116644755A (zh) 基于多任务学习的少样本命名实体识别方法、装置及介质
CN110705632A (zh) 一种抗核抗体荧光核型自动标注方法
Krasnyanskiy et al. Formalization of document management using multilevel graph model of information processing
Tang et al. Qbox: Partial transfer learning with active querying for object detection
CN111144466B (zh) 一种图像样本自适应的深度度量学习方法
CN114281950B (zh) 基于多图加权融合的数据检索方法与系统
CN117370578A (zh) 一种基于多模态信息进行食品安全知识图谱补全的方法
Sood et al. Neunets: An automated synthesis engine for neural network design
Bi et al. Critical direction projection networks for few-shot learning
CN110378390A (zh) 一种多任务的图分类方法
CN110413793A (zh) 一种基于翻译模型的知识图谱实体特征挖掘方法
US11875250B1 (en) Deep neural networks with semantically weighted loss functions
Zeng et al. Transformer Fusion and Residual Learning Group Classifier Loss for Long-Tailed Traffic Sign Detection
WO2021258482A1 (zh) 基于迁移与弱监督的美丽预测方法、装置及存储介质
CN101187913A (zh) 一种多核支持向量机分类方法
Yu et al. Bag of Tricks and a Strong Baseline for FGVC.
Weng et al. An Incremental Learning Algorithm with Automatically Derived Discriminating Features Ѓ
Wang et al. Bird-Count: a multi-modality benchmark and system for bird population counting in the wild

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220510