CN106055705B

CN106055705B - 基于最大间距多任务多示例学习的网页分类方法

Info

Publication number: CN106055705B
Application number: CN201610466377.5A
Authority: CN
Inventors: 阮奕邦; 肖燕珊; 刘波; 郝志峰; 黎启祥
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2019-07-05
Anticipated expiration: 2036-06-21
Also published as: CN106055705A

Abstract

本发明公开了一种基于最大间距多任务多示例学习的网页分类方法。该方法包括：对网页进行多示例化；对若干个网站构建分类器多任务化；为每个类别的网页数据构建一个类包；构建一个类别到多示例包之间的类特定距离公式；为所有多示例学习任务建立一个总的损失函数；总损失函数转换为多任务学习的特定形式；转换多任务损失函数为一个正半定二次优化问题；求解优化问题得到最大间距多任务多示例分类器。本发明涉及了一种不同类别网页距离最大化的多任务多示例网页分类方法，并且把网页转换为合理的多示例表示形式，利用多任务学习方法减低了人工标注的成本，并且利用任务间的相关性提高分类器的性能。

Description

基于最大间距多任务多示例学习的网页分类方法

技术领域

本发明涉及网页分类技术领域，特别是涉及一种基于最大间距多任务多示例学习的网页分类方法。

背景技术

随着科技进步以及互联网技术的发展，互联网上的信息越来越丰富，新闻、娱乐和电商等各类网站都得到了长久的发展，互联网上面的网站每天都会产生大量的网页内容，为了提升网站用户的体验，很重要的一点就是网页内容的准确分类，一个能够把网页准确分类的网站，能够让用户逗留时间更长，浏览次数更多。

传统的网页分类方法中，先是把整个网页看成一个单独的示例，然后使用一些传统的单示例分类器来进行网页的分类，但是网页往往是由多段内容组合而成，而在这么多段内容中，可能有且仅有一段内容是主题相关的，所以进行网页分类的时候，实际上可以利用的信息是来自于这段主题相关的内容，因此在进行网页分类的时候，可以采用多示例分类器进行分类。

另一方面，为了建立一个高准确度的多示例网页分类器，需要大量已经被分类好的网页来进行分类器的训练，但是通过人工标记方式来进行分类的网页往往数量很少，如果用来训练的已分类好的网页数量过少，则训练得出来的网页分类器的精度将会不高。由于建站的成本越来越低，互联网上面每天都会出现大量相似类型的网站，但是对于这些网站来说，使用人工标注的形式对大量网页进行分类的成本将会很高，因此，如何为这些网站建立一个高准确度的多示例网页分类器是一个急需解决的问题。

发明内容

因为每个网站都或多或少含有已经人工标注好的网页，因此为了解决训练多示例网页分类器时存在的人工样本过少的问题，本发明同时把相似类型网站的多示例分类器混合起来训练，把该混合训练问题看成一个多任务学习问题，从而提出了一种基于最大间距多任务多示例学习的网页分类方法。

本发明的基于最大间距多任务多示例学习的网页分类方法包括如下步骤：

(1)获取每个网站的网页，随机抽取每个网站的少量网页，通过人工标记的方式，为这些网页进行分类，赋予分类标签，并且把训练单个网站的网页分类器看成一个学习任务，所以同时为多个网站训练网页分类器可以看成一个多任务学习过程；

(2)把所有学习任务的所有网页，转换为多示例数据；

(3)在每个多示例学习任务中，为每个类别的所有网页多示例数据构建一个特殊的多示例包，简称为类包；

(4)为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公式；

(5)为所有多示例学习任务建立一个总的损失函数，损失函数的最小化问题则是本发明的所需要解决的最优化问题；

(6)将步骤(5)中的损失函数转换为多任务学习的特定形式，从而将每个学习任务之间的网页关联性利用起来；

(7)转换步骤(6)的多任务损失函数为一个正半定二次优化问题，从而使得求解该优化问题，能够使得不同类别网页之间的间距最大化；

(8)求解步骤(7)的凸优化问题，可以获得最大化间距多任务多示例网页分类器，从而对每个网站上面的网页进行分类。

附图说明

图1为本发明的基于最大间距多任务多示例学习的网页分类方法的流程图。

具体实施方式

第一步，获取每个网站的网页，随机抽取每个网站的少量网页，通过人工标记的方式，为这些网页进行分类，赋予分类标签，并且把训练单个网站的网页分类器看成一个学习任务，所以同时为多个网站训练网页分类器可以看成一个多任务学习过程。例如，存在T个网站需要构建网页分类器，认为此时存在T个学习任务，需要利用这T个学习任务的有标记的数据进行分类器的训练，从而训练出T个分类器。

第二步，把所有学习任务的所有网页，转换为多示例数据。由于网页往往是由多段内容组合而成，而在这么多段内容中，可能有且仅有一段内容是主题相关的。所以在训练过程中，可以把网页转换为多示例数据。具体来说，以150个单词或者其他特定字数为一段内容，把网页的内容分割为多段内容，此时一段内容被看成一个示例数据。将网页内容分割成多段内容后，每段内容都要经过一些特殊处理，如停顿字符和转义字符的去除，特征的提取。此时的多示例数据也称为多示例包。

第三步，在每个多示例学习任务中，为每个类别的所有网页多示例数据构建一个特殊的多示例包，简称为类包。将属于同一个类别的所有网页归纳在一起，把该类别的所有网页都转换为多示例数据，则该类别的所有多示例数据可以组成一个比较大的多示例包，又因为该多示例包的网页都来自于同一个类别，则可以简称为类包。列如，在第t个学习任务中，如果可以用来标记的网页类别有K个，则可以构建出K个类包。

第四步，为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公式。在进行网页分类的时候，本发明采取的距离公式是类别到多示例包之间的距离公式，而并非是多示例包到多示例包之间的距离。如果在第t个学习任务中，第k个类包到一个多示例包之间的距离要小于其他类别到该多示例包之间的距离，则该多示例包属于第k个类别。因为每个类包的网页都含有各自的数据统计规律，所以在本发明中单独为每个类包到多示例包之间的距离设定一个类特定距离公式，并且为了把数据统计规律等信息用上，该类特定距离公式是基于马氏距离公式，如下：

上式为第t个任务的第k个类别到多示例包的距离公式，C_kt为第t个任务的第k个类别的类包，C_kt为第t个任务的第k个类别的类包，B_it为第t个任务的第i个多示例包，为类包C_kt的第j个示例，M_kt为马氏距离矩阵，为类包C_kt中的示例到多示例包B_it的欧式距离矩阵，其中是多示例包B_it的中心。在该类特定距离公式Dist_t(C_kt,B_it)中，只有马氏距离矩阵M_kt是变量，其他都是已知常量或者可以由已知常量所求，所以类包C_kt到多示例包B_it的距离，由马氏距离矩阵M_kt影响，所以最优化该马氏距离矩阵M_kt，能够得到我们的最大间距多任务多示例网页分类器。

第五步，为所有多示例学习任务建立一个总的损失函数，损失函数的最小化问题则是本发明的所需要解决的最优化问题。本发明的目标是建立一个基于最大间距多任务多示例学习的网页分类器，为了达到该目标，需要在多任务多示例学习的环境下，构建一个损失函数，该损失函数需要把与第k个类包相关的多示例包聚在一起，并且需要保证第k个类包与其他多示例的距离最大化，基于以上要求，本发明建立了一个损失函数，如下：

上式中，(·)₊＝max(0,1-·)是数学公式中常用的Hinge Loss，保证了(·)₊取值范围在0到1之间，该损失函数的最小化可以保证，在T个任务中，所有的多示例包B_it到它们所属的类包C_pt的距离要远远小于到它们不属于的类包C_nt的距离，并且保证了所有的多示例包B_it到它们所属的类包C_pt的距离是最小化的。C_M是训练分类模型时预先输入的一个正则化参数，用来控制平衡损失函数的各项式的大小。

第六步，将第五步中的损失函数转换为多任务学习的特定形式，从而将每个学习任务之间的网页关联性利用起来。在第五步中所建立的损失函数，只是单单把每个多示例学习任务的损失函数相加起来，所求出来的最小化损失函数并没有把各个多示例学习任务的相关性利用起来，因此，本发明把第五步中所得的损失函数，通过M_kt＝M_k0+V_kt的方式，转化为一个多任务学习的特定形式。M_k0代表着T个任务中，第k个类别所共享的马氏距离矩阵，因此该多任务形式的损失函数的最小化，能够把各个任务的相关性利用起来，从而提高了每个任务的多示例网页分类器的性能，该多任务形式的损失函数如下：

在上式的最小化过程中，I是一个单位矩阵，权值参数γ_k0和γ_k1用来控制马氏距离矩阵M_k0和V_kt的大小，如果γ_k0趋向于无穷大，那么由T个任务所共享的马氏距离矩阵M_k0将会降为一个单位矩阵。如果γ_k0趋向于无穷大，并且γ_k1的大小是固定的，则第k个类别的所有学习任务将会是独立的，没有任何的关联，训练出来的分类器也是任务无关的。从另一方面来看，如果γ_k1趋向于无穷大，并且γ_k0的大小是固定的，则第k个类别的所有学习任务所训练出来的分类器将会相同或者类似。

第七步，转换第六步中的多任务损失函数为一个正半定二次优化问题，从而使得求解该优化问题，能够使得不同类别网页之间的间距最大化。虽然第六步中的损失函数已经是多任务形式的了，但是由于该问题不是一个凸优化问题，所以求出来的不是唯一解，因此，本发明把该最小化问题，转换为一个凸优化问题，即一个正半定二次优化问题，该优化问题的形式如下：其中，是一个非负误差项。约束M_k0,V_kt≥0保证了本发明所求的马氏距离矩阵是M_k0和V_kt正半定的，从而也保证了该优化问题是一个正半定二次优化问题，可以求出唯一解。

第八步，求解第七步中的凸优化问题，可以获得最大化间距多任务多示例网页分类器，从而对每个网站上面的网页进行分类。

Claims

1.一种基于最大间距多任务多示例学习的网页分类方法，其特征在于，包括如下步骤，

第一步、获取每个网站的网页，随机抽取每个网站的少量网页，通过人工标记的方式，为这些网页进行分类，赋予分类标签，并且把训练单个网站的网页分类器看成一个学习任务，所以同时为多个网站训练网页分类器可以看成一个多任务学习过程；

第二步、把所有学习任务的所有网页，转换为多示例数据；

第三步、在每个多示例学习任务中，为每个类别的所有网页多示例数据构建一个特殊的多示例包，简称为类包；

第四步、为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公式；

第五步、为所有多示例学习任务建立一个总的损失函数，损失函数的最小化问题则是本方法所需要解决的最优化问题；

第六步、将第五步中的损失函数转换为多任务学习的特定形式，从而将每个学习任务之间的网页关联性利用起来；

第七步、转换第六步的多任务损失函数为一个正半定二次优化问题，从而使得求解该优化问题，能够使得不同类别网页之间的间距最大化；

第八步、求解第七步中的凸优化问题，可以获得最大化间距多任务多示例网页分类器，从而对每个网站上面的网页进行分类；

所述第三步中，利用第二步中生成的T个学习任务的所有多示例数据，将属于同一个类别的所有网页多示例数据归纳在一起，则该类别的所有多示例数据可以组成一个比较大的多示例包，又因为生成该多示例包的网页都来自于同一个类别，则可以简称为类包，在第t个学习任务中，如果可以用来标记的网页类别有K个，则可以构建出K个类包；

第四步中，为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公式，在进行网页分类的时候，采取的距离公式是类别到多示例包之间的距离公式，而并非是多示例包到多示例包之间的距离；如果在第t个学习任务中，第k个类包到一个多示例包之间的距离要小于其他类别到该多示例包之间的距离，则该多示例包属于第k个类别；单独为每个类包到多示例包之间的距离设定一个类特定距离公式，该类特定距离公式是基于马氏距离公式，如下：

上式为第t个任务的第k个类别到多示例包的距离公式，C_kt为第t个任务的第k个类别的类包，B_it为第t个任务的第i个多示例包，为类包C_kt的第j个示例，M_kt为马氏距离矩阵，为类包C_kt中的示例到多示例包B_it的欧式距离矩阵，其中是多示例包B_it的中心，在该类特定距离公式Dist_t(C_kt,B_it)中，只有马氏距离矩阵M_kt是变量，其他都是已知常量或者可以由已知常量所求，所以类包C_kt到多示例包B_it的距离，由马氏距离矩阵M_kt影响，所以最优化该马氏距离矩阵M_kt，能够得到最大间距多任务多示例网页分类器；

所述第五步中，为所有多示例学习任务建立一个总的损失函数，损失函数的最小化问题则是本方法所需要解决的最优化问题，在多任务多示例学习的环境下，构建一个损失函数，该损失函数需要把与第k个类包相关的多示例包聚在一起，并且需要保证第k个类包与其他多示例的距离最大化，建立一个损失函数，如下：

上式中，(·)₊＝max(0,1-·)是数学公式中常用的Hinge Loss，保证了(·)₊取值范围在0到1之间，该损失函数的最小化可以保证，在T个任务中，所有的多示例包B_it到它们所属的类包C_pt的距离要远远小于到它们不属于的类包C_nt的距离，并且保证了所有的多示例包B_it到它们所属的类包C_pt的距离是最小化的，C_M是训练分类模型时预先输入的一个正则化参数，用来控制平衡损失函数的各项式的大小。

2.根据权利要求1所述的基于最大间距多任务多示例学习的网页分类方法，其特征在于，第一步中，如果存在T个网站需要构建网页分类器，则认为此时存在T个学习任务，需要利用这T个学习任务的有标记的数据进行分类器的训练，从而训练出T个分类器。

3.根据权利要求2所述的基于最大间距多任务多示例学习的网页分类方法，其特征在于，第二步中，利用在第一步所定义的T个学习任务，把T个学习任务的所有网页转换为多示例数据，其具体做法为：以150个单词或者其他特定字数为一段内容，把网页的内容分割为多段内容，此时一段内容被看成一个示例数据，将网页内容分割成多段内容后，每段内容都要经过一些特殊处理：停顿字符和转义字符的去除，特征的提取，此时的多示例数据也称为多示例包。

4.根据权利要求1所述的基于最大间距多任务多示例学习的网页分类方法，其特征在于，第六步中，将第五步中的损失函数转换为多任务学习的特定形式，从而将每个学习任务之间的网页关联性利用起来，在第五步中所建立的损失函数，只是单单把每个多示例学习任务的损失函数相加起来，所求出来的最小化损失函数并没有把各个多示例学习任务的相关性利用起来，因此，把第五步中所得的损失函数，通过M_kt＝M_k0+V_kt的方式，转化为一个多任务学习的特定形式，M_k0代表着T个任务中，第k个类别所共享的马氏距离矩阵，V_kt代表着第t个任务中，第k个类别所独享的马氏距离矩阵，因此该多任务形式的损失函数的最小化，能够把各个任务的相关性利用起来，从而提高了每个任务的多示例网页分类器的性能，该多任务形式的损失函数如下：

在上式的最小化过程中，I是一个单位矩阵，权值参数γ_k0和γ_k1用来控制马氏距离矩阵M_k0和V_kt的大小，如果γ_k0趋向于无穷大，那么由T个任务所共享的马氏距离矩阵M_k0将会降为一个单位矩阵，如果γ_k0趋向于无穷大，并且γ_k1的大小是固定的，则第k个类别的所有学习任务将会是独立的，没有任何的关联，训练出来的分类器也是任务无关的，从另一方面来看，如果γ_k1趋向于无穷大，并且γ_k0的大小是固定的，则第k个类别的所有学习任务所训练出来的分类器将会相同或者类似。

5.根据权利要求4所述的基于最大间距多任务多示例学习的网页分类方法，其特征在于，第七步中，转换第六步中的多任务损失函数为一个正半定二次优化问题，从而使得求解该优化问题，能够使得不同类别网页之间的间距最大化，虽然第六步中的损失函数已经是多任务形式的了，但是由于该问题不是一个凸优化问题，所以求出来的不是唯一解，因此，本方法把该最小化问题，转换为一个凸优化问题，即一个正半定二次优化问题，在下式中，是一个非负误差项，约束M_k0,V_kt≥0保证了本方法所求的马氏距离矩阵是M_k0和V_kt正半定的，从而也保证了该优化问题是一个正半定二次优化问题，可以求出唯一解，该优化问题的形式如下：