CN110378390A - 一种多任务的图分类方法 - Google Patents
一种多任务的图分类方法 Download PDFInfo
- Publication number
- CN110378390A CN110378390A CN201910548944.5A CN201910548944A CN110378390A CN 110378390 A CN110378390 A CN 110378390A CN 201910548944 A CN201910548944 A CN 201910548944A CN 110378390 A CN110378390 A CN 110378390A
- Authority
- CN
- China
- Prior art keywords
- subgraph
- task
- classification
- multitask
- equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000000153 supplemental effect Effects 0.000 claims description 13
- 238000009412 basement excavation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多任务的图分类方法,首先利用挖掘子图确定一个最佳子图集,最佳子图分为共同特征和特定特征,以此代表一个向量;接着对多任务的图分类进行重构,以此学习多任务的学习方程,并用拉格朗日定律进行优化,得到目标方程;最后通过学习的最佳子图集,学习该目标方程,得到一个最后的分类精度;本发明通过重构方程式,能够有效利用子图之间关系,利用多个任务之间的相关度,进行任务的分类;同时,挖掘子图的结果更好利用,这样能够在面对任务的数量增多时,更好利用任务之间的相关性,也不失分类的精准度。
Description
技术领域
本发明涉及机器学习技术领域,具体涉及一种多任务的图分类方法。
背景技术
图数据是一种数据类型,它的特点是只有结构信息而没有特征信息,但是对于一些信息有很强的表达能力,例如地图、化学结构式、脑网络等等;又如分析化学式,因为图数据,只有结点信息和连接两点的边的信息,所以我们可以利用结点代表化学式中的化学原子数,利用结点的边来具体代表化学式中的化学键。在实际应用中,往往需要在成千上万个数据中,来寻找我们希望获得的数据。图数据由于它的特殊性,导致现存的很多机器学习方法都无法直接应用,然而图分类是一个很常见的应用场景。
在大数据时代,图分类应用在多个领域,经典的图分类应用场景,化合物的准确分类,而且这个往往是多个任务同时进行的,此时就需要多任务分类的方法进行比较。而现有的多任务的图分类方法,只是在对挖掘子图中,做一部分修改,并没有重构方程,这会导致最后的分类精度下降。
图分类学习主要分为两种方法,一个是基于图的核方法学习,另一个是挖掘子图的方法。挖掘子图的目的是寻找代表图的最佳子图,通常利用gSpan的方法,gSpan是一种频繁子图的挖掘方法,可以找到代表图的最佳子图,该方法的第一步,挖掘子图的过程中,准确寻找到一个最佳的子图集合来准确代表能分类图的全部特征,然后用这些子图集作为特征,例如一个最佳子图集有8个子图,要分类图a,如果有里面的第一个子图,那么第一个向量为1,否则为0;如果图a有里面有其中的第1,3,8子图,那么向量代表就是(1,0,1,0,0,0,0,1);然后再利用支持向量机等方法,进行学习,得出结果。
图分类的方法,一般都是指单任务的图分类方法,而现实生活中,分类往往是多个任务同时存在的,例如,分类动物的图片,往往需要同时分类出各种动物的图片,而不是一种动物的图片,所以多任务的研究是很有必要的。而多任务的学习方法,就是利用任务的相关性,从而提高参数的使用,以此提高任务的准确性和任务的学习效率。现有技术中的多任务的图分类方法,并没有重新学习多任务的图分类,而仅仅是在多任务中,对挖掘子图分为三个部分:共同特征、辅助特征、还有特定特征;仅仅在挖掘子图中作为修改,这是不够的,对于精度的提升有限。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种多任务的图分类方法,该方法从多任务角度出发,重构多任务的学习方程,更好利用任务之间的相关性,保证分类速度的同时提高分类的精确度。
本发明的目的通过下述技术方案实现:
一种多任务的图分类方法,包括下述步骤:
(1)用gSpan对测试组进行一个挖掘子图,并将子图分为三项,分别为共同特征δ1、辅助特征δ2和专用特征δ3;其中,共同特征是服务于所有任务,辅助特征是服务于多个任务,专用特征只服务于特有任务t;使用以下公式表示,若G中有子图gk那么该坐标为1,否则为0:
(2)获得子图,并得到向量形式表达图:
xi,t=[hg1(Gt,i),hg2(Gt,i),hg3(Gt,i),…,hgk(Gt,i)]T;
(3)利用学习得到的三个辅助特征,但是这三个辅助特征并不是每个任务都可以使用,因此需要将一些没有分类意义的子图去除,得到一个然后放入分类器中进行学习;
(4)通过构建目标模型来确定多任务的图分类之间的联系,即学习任务之间的相关性问题,如下述公式所示:
其中T代表有T个任务,t=1,2,3,…代表任务1,任务2,任务3…,m代表最佳子图集里的m个子图;利用ranksvm来进行学习,ranksvm是一种排序svm,同时可以利用排序的方法进行检索和分类;受限的和表示任意两个向量中的相减,得到一个最优的向量;
(5)利用拉格朗日对式子进行优化,引入拉格朗日算子α,β,然后用梯度下降得到以下表示式:
则该方程为目标方程;
(6)通过学习最佳子图集,并学习目标方程,得到最后的分类精度。
本发明与现有技术相比具有以下的有益效果:
本发明通过重构方程式,能够有效利用子图之间关系,利用多个任务之间的相关度,进行任务的分类;同时,挖掘子图的结果更好利用,这样能够在面对任务的数量增多时,更好利用任务之间的相关性,也不失分类的精准度。
附图说明
图1为本发明最佳子图集中共同特征和辅助特征选择流程示意图;
图2为本发明的任务流程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明提出了一种多任务的图分类方法,首先利用挖掘子图确定一个最佳子图集,最佳子图分为共同特征和特定特征,以此代表一个向量;接着对多任务的图分类进行重构,以此学习多任务的学习方程,并用拉格朗日定律进行优化,得到目标方程;最后通过学习的最佳子图集,学习该目标方程,得到一个最后的分类精度。
具体来说,如图1~2所示,一种多任务的图分类方法,包括下述步骤:
(1)用gSpan对测试组进行一个挖掘子图,并将子图分为三项,分别为共同特征δ1、辅助特征δ2和专用特征δ3;其中,共同特征是服务于所有任务,辅助特征是服务于多个任务,专用特征只服务于特有任务t;使用以下公式表示,若G中有子图gk那么该坐标为1,否则为0:
(2)获得子图,并得到向量形式表达图:
xi,t=[hg1(Gt,i),hg2(Gt,i),hg3(Gt,i),…,hgk(Gt,i)]T;
(3)利用学习得到的三个辅助特征,但是这三个辅助特征并不是每个任务都可以使用,因此需要将一些没有分类意义的子图去除,得到一个然后放入分类器中进行学习;
(4)通过构建目标模型来确定多任务的图分类之间的联系,即学习任务之间的相关性问题,如下述公式所示:
其中T代表有T个任务,t=1,2,3,…代表任务1,任务2,任务3…,m代表最佳子图集里的m个子图;利用ranksvm来进行学习,ranksvm是一种排序svm,同时可以利用排序的方法进行检索和分类;受限的和表示任意两个向量中的相减,得到一个最优的向量;
(5)利用拉格朗日对式子进行优化,引入拉格朗日算子α,β,然后用梯度下降得到以下表示式:
则该方程为目标方程;
(6)通过学习最佳子图集,并学习目标方程,得到最后的分类精度。
本发明利用基于Ranksvm首次一个多任务的图分类学习并重构了目标方程。重构目标方程,能够解决多任务问题,即使任务达到一定数量,分类的准确性不会降低,也不会增加学习的复杂度问题。
本发明通过重构方程式,能够有效利用子图之间关系,利用多个任务之间的相关度,进行任务的分类;同时,挖掘子图的结果更好利用,这样能够在面对任务的数量增多时,更好利用任务之间的相关性,也不失分类的精准度。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (1)
1.一种多任务的图分类方法,其特征在于,包括下述步骤:
(1)用gSpan对测试组进行一个挖掘子图,并将子图分为三项,分别为共同特征δ1、辅助特征δ2和专用特征δ3;其中,共同特征是服务于所有任务,辅助特征是服务于多个任务,专用特征只服务于特有任务t;使用以下公式表示,若G中有子图gk那么该坐标为1,否则为0:
(2)获得子图,并得到向量形式表达图:
xi,t=[hg1(Gt,i),hg2(Gt,i),hg3(Gt,i),…,hgk(Gt,i)]T;
(3)利用学习得到的三个辅助特征,但是这三个辅助特征并不是每个任务都可以使用,因此需要将一些没有分类意义的子图去除,得到一个然后放入分类器中进行学习;
(4)通过构建目标模型来确定多任务的图分类之间的联系,即学习任务之间的相关性问题,如下述公式所示:
s.t.
其中T代表有T个任务,t=1,2,3,…代表任务1,任务2,任务3…,m代表最佳子图集里的m个子图;利用ranksvm来进行学习,ranksvm是一种排序svm,同时可以利用排序的方法进行检索和分类;受限的和表示任意两个向量中的相减,得到一个最优的向量;
(5)利用拉格朗日对式子进行优化,引入拉格朗日算子α,β,然后用梯度下降得到以下表示式:
则该方程为目标方程;
(6)通过学习最佳子图集,并学习目标方程,得到最后的分类精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910548944.5A CN110378390B (zh) | 2019-06-24 | 2019-06-24 | 一种多任务的图分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910548944.5A CN110378390B (zh) | 2019-06-24 | 2019-06-24 | 一种多任务的图分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110378390A true CN110378390A (zh) | 2019-10-25 |
CN110378390B CN110378390B (zh) | 2022-05-10 |
Family
ID=68249180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910548944.5A Expired - Fee Related CN110378390B (zh) | 2019-06-24 | 2019-06-24 | 一种多任务的图分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378390B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114947807A (zh) * | 2022-05-06 | 2022-08-30 | 天津大学 | 一种脑侵袭分类和脑膜瘤分级的多任务预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7542959B2 (en) * | 1998-05-01 | 2009-06-02 | Health Discovery Corporation | Feature selection method using support vector machine classifier |
CN105184326A (zh) * | 2015-09-30 | 2015-12-23 | 广东工业大学 | 基于图数据的主动学习多标签社交网络数据分析方法 |
US9477929B2 (en) * | 2010-06-28 | 2016-10-25 | International Business Machines Corporation | Graph-based transfer learning |
CN108229066A (zh) * | 2018-02-07 | 2018-06-29 | 北京航空航天大学 | 一种基于多模态超连接脑网络建模的帕金森自动识别方法 |
-
2019
- 2019-06-24 CN CN201910548944.5A patent/CN110378390B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7542959B2 (en) * | 1998-05-01 | 2009-06-02 | Health Discovery Corporation | Feature selection method using support vector machine classifier |
US9477929B2 (en) * | 2010-06-28 | 2016-10-25 | International Business Machines Corporation | Graph-based transfer learning |
CN105184326A (zh) * | 2015-09-30 | 2015-12-23 | 广东工业大学 | 基于图数据的主动学习多标签社交网络数据分析方法 |
CN108229066A (zh) * | 2018-02-07 | 2018-06-29 | 北京航空航天大学 | 一种基于多模态超连接脑网络建模的帕金森自动识别方法 |
Non-Patent Citations (2)
Title |
---|
YANSHAN XIAO等: "A Similarity-Based Classification Framework for Multiple-Instance Learning", 《IEEE TRANSACTIONS ON CYBERNETICS 》 * |
王立鹏等: "基于子图选择和图核降维的脑网络分类方法", 《计算机科学与探索》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114947807A (zh) * | 2022-05-06 | 2022-08-30 | 天津大学 | 一种脑侵袭分类和脑膜瘤分级的多任务预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110378390B (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490100A (zh) | 基于深度学习的岩土自动识别定名方法及系统 | |
CN110348579A (zh) | 一种领域自适应迁移特征方法及系统 | |
CN114067107A (zh) | 基于多粒度注意力的多尺度细粒度图像识别方法及系统 | |
CN111460201A (zh) | 一种基于生成性对抗网络的模态一致性跨模态检索方法 | |
Manubens-Gil et al. | BigNeuron: a resource to benchmark and predict performance of algorithms for automated tracing of neurons in light microscopy datasets | |
CN111126464A (zh) | 一种基于无监督域对抗领域适应的图像分类方法 | |
CN113742488A (zh) | 基于多任务学习的嵌入式知识图谱补全方法和装置 | |
CN116644755A (zh) | 基于多任务学习的少样本命名实体识别方法、装置及介质 | |
CN110705632A (zh) | 一种抗核抗体荧光核型自动标注方法 | |
Krasnyanskiy et al. | Formalization of document management using multilevel graph model of information processing | |
Tang et al. | Qbox: Partial transfer learning with active querying for object detection | |
CN111144466B (zh) | 一种图像样本自适应的深度度量学习方法 | |
CN114281950B (zh) | 基于多图加权融合的数据检索方法与系统 | |
CN117370578A (zh) | 一种基于多模态信息进行食品安全知识图谱补全的方法 | |
Sood et al. | Neunets: An automated synthesis engine for neural network design | |
Bi et al. | Critical direction projection networks for few-shot learning | |
CN110378390A (zh) | 一种多任务的图分类方法 | |
CN110413793A (zh) | 一种基于翻译模型的知识图谱实体特征挖掘方法 | |
US11875250B1 (en) | Deep neural networks with semantically weighted loss functions | |
Zeng et al. | Transformer Fusion and Residual Learning Group Classifier Loss for Long-Tailed Traffic Sign Detection | |
WO2021258482A1 (zh) | 基于迁移与弱监督的美丽预测方法、装置及存储介质 | |
CN101187913A (zh) | 一种多核支持向量机分类方法 | |
Yu et al. | Bag of Tricks and a Strong Baseline for FGVC. | |
Weng et al. | An Incremental Learning Algorithm with Automatically Derived Discriminating Features Ѓ | |
Wang et al. | Bird-Count: a multi-modality benchmark and system for bird population counting in the wild |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220510 |