CN110378390B

CN110378390B - 一种多任务的图分类方法

Info

Publication number: CN110378390B
Application number: CN201910548944.5A
Authority: CN
Inventors: 林志全; 刘波; 肖燕珊; 钟昊文
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2022-05-10
Anticipated expiration: 2039-06-24
Also published as: CN110378390A

Abstract

本发明公开了一种多任务的图分类方法，首先利用挖掘子图确定一个最佳子图集，最佳子图分为共同特征和特定特征，以此代表一个向量；接着对多任务的图分类进行重构，以此学习多任务的学习方程，并用拉格朗日定律进行优化，得到目标方程；最后通过学习的最佳子图集，学习该目标方程，得到一个最后的分类精度；本发明通过重构方程式，能够有效利用子图之间关系，利用多个任务之间的相关度，进行任务的分类；同时，挖掘子图的结果更好利用，这样能够在面对任务的数量增多时，更好利用任务之间的相关性，也不失分类的精准度。

Description

一种多任务的图分类方法

技术领域

本发明涉及机器学习技术领域，具体涉及一种多任务的图分类方法。

背景技术

图数据是一种数据类型，它的特点是只有结构信息而没有特征信息，但是对于一些信息有很强的表达能力，例如地图、化学结构式、脑网络等等；又如分析化学式，因为图数据，只有结点信息和连接两点的边的信息，所以我们可以利用结点代表化学式中的化学原子数，利用结点的边来具体代表化学式中的化学键。在实际应用中，往往需要在成千上万个数据中，来寻找我们希望获得的数据。图数据由于它的特殊性，导致现存的很多机器学习方法都无法直接应用，然而图分类是一个很常见的应用场景。

在大数据时代，图分类应用在多个领域，经典的图分类应用场景，化合物的准确分类，而且这个往往是多个任务同时进行的，此时就需要多任务分类的方法进行比较。而现有的多任务的图分类方法，只是在对挖掘子图中，做一部分修改，并没有重构方程，这会导致最后的分类精度下降。

图分类学习主要分为两种方法，一个是基于图的核方法学习，另一个是挖掘子图的方法。挖掘子图的目的是寻找代表图的最佳子图，通常利用gSpan的方法，gSpan是一种频繁子图的挖掘方法，可以找到代表图的最佳子图，该方法的第一步，挖掘子图的过程中，准确寻找到一个最佳的子图集合来准确代表能分类图的全部特征，然后用这些子图集作为特征，例如一个最佳子图集有8个子图，要分类图a，如果有里面的第一个子图，那么第一个向量为1，否则为0；如果图a有里面有其中的第1,3,8子图，那么向量代表就是(1,0,1,0,0,0,0,1)；然后再利用支持向量机等方法，进行学习，得出结果。

图分类的方法，一般都是指单任务的图分类方法，而现实生活中，分类往往是多个任务同时存在的，例如，分类动物的图片，往往需要同时分类出各种动物的图片，而不是一种动物的图片，所以多任务的研究是很有必要的。而多任务的学习方法，就是利用任务的相关性，从而提高参数的使用，以此提高任务的准确性和任务的学习效率。现有技术中的多任务的图分类方法，并没有重新学习多任务的图分类，而仅仅是在多任务中，对挖掘子图分为三个部分：共同特征、辅助特征、还有特定特征；仅仅在挖掘子图中作为修改，这是不够的，对于精度的提升有限。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种多任务的图分类方法，该方法从多任务角度出发，重构多任务的学习方程，更好利用任务之间的相关性，保证分类速度的同时提高分类的精确度。

本发明的目的通过下述技术方案实现：

一种多任务的图分类方法，包括下述步骤：

(1)用gSpan对测试组进行一个挖掘子图，并将子图分为三项，分别为共同特征δ₁、辅助特征δ₂和专用特征δ₃；其中，共同特征是服务于所有任务，辅助特征是服务于多个任务，专用特征只服务于特有任务t；使用以下公式表示，若G中有子图g_k那么该坐标为1，否则为0：

(2)获得子图，并得到向量形式表达图：

x_i,t＝[h_g1(G_t,i),h_g2(G_t,i),h_g3(G_t,i),…,h_gk(G_t,i)]^T；

(3)利用学习得到的三个辅助特征，但是这三个辅助特征并不是每个任务都可以使用，因此需要将一些没有分类意义的子图去除，得到一个

然后放入分类器中进行学习；

(4)通过构建目标模型来确定多任务的图分类之间的联系，即学习任务之间的相关性问题，如下述公式所示：

其中T代表有T个任务，t＝1,2,3,…代表任务1，任务2，任务3…，m代表最佳子图集里的m个子图；利用ranksvm来进行学习，ranksvm是一种排序svm，同时可以利用排序的方法进行检索和分类；受限的

和

表示任意两个向量中的相减，得到一个最优的向量；

(5)利用拉格朗日对式子进行优化，引入拉格朗日算子α，β，然后用梯度下降得到以下表示式：

则该方程为目标方程；

(6)通过学习最佳子图集，并学习目标方程，得到最后的分类精度。

本发明与现有技术相比具有以下的有益效果：

本发明通过重构方程式，能够有效利用子图之间关系，利用多个任务之间的相关度，进行任务的分类；同时，挖掘子图的结果更好利用，这样能够在面对任务的数量增多时，更好利用任务之间的相关性，也不失分类的精准度。

附图说明

图1为本发明最佳子图集中共同特征和辅助特征选择流程示意图；

图2为本发明的任务流程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明提出了一种多任务的图分类方法，首先利用挖掘子图确定一个最佳子图集，最佳子图分为共同特征和特定特征，以此代表一个向量；接着对多任务的图分类进行重构，以此学习多任务的学习方程，并用拉格朗日定律进行优化，得到目标方程；最后通过学习的最佳子图集，学习该目标方程，得到一个最后的分类精度。

具体来说，如图1～2所示，一种多任务的图分类方法，包括下述步骤：

(2)获得子图，并得到向量形式表达图：

xi_,t＝[h_g1(G_t,i),h_g2(G_t,i),h_g3(G_t,i),…,h_gk(G_t,i)]^T；

然后放入分类器中进行学习；

和

表示任意两个向量中的相减，得到一个最优的向量；

则该方程为目标方程；

本发明利用基于Ranksvm首次一个多任务的图分类学习并重构了目标方程。重构目标方程，能够解决多任务问题，即使任务达到一定数量，分类的准确性不会降低，也不会增加学习的复杂度问题。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。