CN106055705B - 基于最大间距多任务多示例学习的网页分类方法 - Google Patents
基于最大间距多任务多示例学习的网页分类方法 Download PDFInfo
- Publication number
- CN106055705B CN106055705B CN201610466377.5A CN201610466377A CN106055705B CN 106055705 B CN106055705 B CN 106055705B CN 201610466377 A CN201610466377 A CN 201610466377A CN 106055705 B CN106055705 B CN 106055705B
- Authority
- CN
- China
- Prior art keywords
- task
- learning
- class
- multitask
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于最大间距多任务多示例学习的网页分类方法。该方法包括:对网页进行多示例化;对若干个网站构建分类器多任务化;为每个类别的网页数据构建一个类包;构建一个类别到多示例包之间的类特定距离公式;为所有多示例学习任务建立一个总的损失函数;总损失函数转换为多任务学习的特定形式;转换多任务损失函数为一个正半定二次优化问题;求解优化问题得到最大间距多任务多示例分类器。本发明涉及了一种不同类别网页距离最大化的多任务多示例网页分类方法,并且把网页转换为合理的多示例表示形式,利用多任务学习方法减低了人工标注的成本,并且利用任务间的相关性提高分类器的性能。
Description
技术领域
本发明涉及网页分类技术领域,特别是涉及一种基于最大间距多任务多示例学习的网页分类方法。
背景技术
随着科技进步以及互联网技术的发展,互联网上的信息越来越丰富,新闻、娱乐和电商等各类网站都得到了长久的发展,互联网上面的网站每天都会产生大量的网页内容,为了提升网站用户的体验,很重要的一点就是网页内容的准确分类,一个能够把网页准确分类的网站,能够让用户逗留时间更长,浏览次数更多。
传统的网页分类方法中,先是把整个网页看成一个单独的示例,然后使用一些传统的单示例分类器来进行网页的分类,但是网页往往是由多段内容组合而成,而在这么多段内容中,可能有且仅有一段内容是主题相关的,所以进行网页分类的时候,实际上可以利用的信息是来自于这段主题相关的内容,因此在进行网页分类的时候,可以采用多示例分类器进行分类。
另一方面,为了建立一个高准确度的多示例网页分类器,需要大量已经被分类好的网页来进行分类器的训练,但是通过人工标记方式来进行分类的网页往往数量很少,如果用来训练的已分类好的网页数量过少,则训练得出来的网页分类器的精度将会不高。由于建站的成本越来越低,互联网上面每天都会出现大量相似类型的网站,但是对于这些网站来说,使用人工标注的形式对大量网页进行分类的成本将会很高,因此,如何为这些网站建立一个高准确度的多示例网页分类器是一个急需解决的问题。
发明内容
因为每个网站都或多或少含有已经人工标注好的网页,因此为了解决训练多示例网页分类器时存在的人工样本过少的问题,本发明同时把相似类型网站的多示例分类器混合起来训练,把该混合训练问题看成一个多任务学习问题,从而提出了一种基于最大间距多任务多示例学习的网页分类方法。
本发明的基于最大间距多任务多示例学习的网页分类方法包括如下步骤:
(1)获取每个网站的网页,随机抽取每个网站的少量网页,通过人工标记的方式,为这些网页进行分类,赋予分类标签,并且把训练单个网站的网页分类器看成一个学习任务,所以同时为多个网站训练网页分类器可以看成一个多任务学习过程;
(2)把所有学习任务的所有网页,转换为多示例数据;
(3)在每个多示例学习任务中,为每个类别的所有网页多示例数据构建一个特殊的多示例包,简称为类包;
(4)为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公式;
(5)为所有多示例学习任务建立一个总的损失函数,损失函数的最小化问题则是本发明的所需要解决的最优化问题;
(6)将步骤(5)中的损失函数转换为多任务学习的特定形式,从而将每个学习任务之间的网页关联性利用起来;
(7)转换步骤(6)的多任务损失函数为一个正半定二次优化问题,从而使得求解该优化问题,能够使得不同类别网页之间的间距最大化;
(8)求解步骤(7)的凸优化问题,可以获得最大化间距多任务多示例网页分类器,从而对每个网站上面的网页进行分类。
附图说明
图1为本发明的基于最大间距多任务多示例学习的网页分类方法的流程图。
具体实施方式
本发明的基于最大间距多任务多示例学习的网页分类方法包括如下步骤:
第一步,获取每个网站的网页,随机抽取每个网站的少量网页,通过人工标记的方式,为这些网页进行分类,赋予分类标签,并且把训练单个网站的网页分类器看成一个学习任务,所以同时为多个网站训练网页分类器可以看成一个多任务学习过程。例如,存在T个网站需要构建网页分类器,认为此时存在T个学习任务,需要利用这T个学习任务的有标记的数据进行分类器的训练,从而训练出T个分类器。
第二步,把所有学习任务的所有网页,转换为多示例数据。由于网页往往是由多段内容组合而成,而在这么多段内容中,可能有且仅有一段内容是主题相关的。所以在训练过程中,可以把网页转换为多示例数据。具体来说,以150个单词或者其他特定字数为一段内容,把网页的内容分割为多段内容,此时一段内容被看成一个示例数据。将网页内容分割成多段内容后,每段内容都要经过一些特殊处理,如停顿字符和转义字符的去除,特征的提取。此时的多示例数据也称为多示例包。
第三步,在每个多示例学习任务中,为每个类别的所有网页多示例数据构建一个特殊的多示例包,简称为类包。将属于同一个类别的所有网页归纳在一起,把该类别的所有网页都转换为多示例数据,则该类别的所有多示例数据可以组成一个比较大的多示例包,又因为该多示例包的网页都来自于同一个类别,则可以简称为类包。列如,在第t个学习任务中,如果可以用来标记的网页类别有K个,则可以构建出K个类包。
第四步,为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公式。在进行网页分类的时候,本发明采取的距离公式是类别到多示例包之间的距离公式,而并非是多示例包到多示例包之间的距离。如果在第t个学习任务中,第k个类包到一个多示例包之间的距离要小于其他类别到该多示例包之间的距离,则该多示例包属于第k个类别。因为每个类包的网页都含有各自的数据统计规律,所以在本发明中单独为每个类包到多示例包之间的距离设定一个类特定距离公式,并且为了把数据统计规律等信息用上,该类特定距离公式是基于马氏距离公式,如下:
上式为第t个任务的第k个类别到多示例包的距离公式,Ckt为第t个任务的第k个类别的类包,Ckt为第t个任务的第k个类别的类包,Bit为第t个任务的第i个多示例包,为类包Ckt的第j个示例,Mkt为马氏距离矩阵,为类包Ckt中的示例到多示例包Bit的欧式距离矩阵,其中 是多示例包Bit的中心。在该类特定距离公式Distt(Ckt,Bit)中,只有马氏距离矩阵Mkt是变量,其他都是已知常量或者可以由已知常量所求,所以类包Ckt到多示例包Bit的距离,由马氏距离矩阵Mkt影响,所以最优化该马氏距离矩阵Mkt,能够得到我们的最大间距多任务多示例网页分类器。
第五步,为所有多示例学习任务建立一个总的损失函数,损失函数的最小化问题则是本发明的所需要解决的最优化问题。本发明的目标是建立一个基于最大间距多任务多示例学习的网页分类器,为了达到该目标,需要在多任务多示例学习的环境下,构建一个损失函数,该损失函数需要把与第k个类包相关的多示例包聚在一起,并且需要保证第k个类包与其他多示例的距离最大化,基于以上要求,本发明建立了一个损失函数,如下:
上式中,(·)+=max(0,1-·)是数学公式中常用的Hinge Loss,保证了(·)+取值范围在0到1之间,该损失函数的最小化可以保证,在T个任务中,所有的多示例包Bit到它们所属的类包Cpt的距离要远远小于到它们不属于的类包Cnt的距离,并且保证了所有的多示例包Bit到它们所属的类包Cpt的距离是最小化的。CM是训练分类模型时预先输入的一个正则化参数,用来控制平衡损失函数的各项式的大小。
第六步,将第五步中的损失函数转换为多任务学习的特定形式,从而将每个学习任务之间的网页关联性利用起来。在第五步中所建立的损失函数,只是单单把每个多示例学习任务的损失函数相加起来,所求出来的最小化损失函数并没有把各个多示例学习任务的相关性利用起来,因此,本发明把第五步中所得的损失函数,通过Mkt=Mk0+Vkt的方式,转化为一个多任务学习的特定形式。Mk0代表着T个任务中,第k个类别所共享的马氏距离矩阵,因此该多任务形式的损失函数的最小化,能够把各个任务的相关性利用起来,从而提高了每个任务的多示例网页分类器的性能,该多任务形式的损失函数如下:
在上式的最小化过程中,I是一个单位矩阵,权值参数γk0和γk1用来控制马氏距离矩阵Mk0和Vkt的大小,如果γk0趋向于无穷大,那么由T个任务所共享的马氏距离矩阵Mk0将会降为一个单位矩阵。如果γk0趋向于无穷大,并且γk1的大小是固定的,则第k个类别的所有学习任务将会是独立的,没有任何的关联,训练出来的分类器也是任务无关的。从另一方面来看,如果γk1趋向于无穷大,并且γk0的大小是固定的,则第k个类别的所有学习任务所训练出来的分类器将会相同或者类似。
第七步,转换第六步中的多任务损失函数为一个正半定二次优化问题,从而使得求解该优化问题,能够使得不同类别网页之间的间距最大化。虽然第六步中的损失函数已经是多任务形式的了,但是由于该问题不是一个凸优化问题,所以求出来的不是唯一解,因此,本发明把该最小化问题,转换为一个凸优化问题,即一个正半定二次优化问题,该优化问题的形式如下:其中,是一个非负误差项。约束Mk0,Vkt≥0保证了本发明所求的马氏距离矩阵是Mk0和Vkt正半定的,从而也保证了该优化问题是一个正半定二次优化问题,可以求出唯一解。
第八步,求解第七步中的凸优化问题,可以获得最大化间距多任务多示例网页分类器,从而对每个网站上面的网页进行分类。
Claims (5)
1.一种基于最大间距多任务多示例学习的网页分类方法,其特征在于,包括如下步骤,
第一步、获取每个网站的网页,随机抽取每个网站的少量网页,通过人工标记的方式,为这些网页进行分类,赋予分类标签,并且把训练单个网站的网页分类器看成一个学习任务,所以同时为多个网站训练网页分类器可以看成一个多任务学习过程;
第二步、把所有学习任务的所有网页,转换为多示例数据;
第三步、在每个多示例学习任务中,为每个类别的所有网页多示例数据构建一个特殊的多示例包,简称为类包;
第四步、为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公式;
第五步、为所有多示例学习任务建立一个总的损失函数,损失函数的最小化问题则是本方法所需要解决的最优化问题;
第六步、将第五步中的损失函数转换为多任务学习的特定形式,从而将每个学习任务之间的网页关联性利用起来;
第七步、转换第六步的多任务损失函数为一个正半定二次优化问题,从而使得求解该优化问题,能够使得不同类别网页之间的间距最大化;
第八步、求解第七步中的凸优化问题,可以获得最大化间距多任务多示例网页分类器,从而对每个网站上面的网页进行分类;
所述第三步中,利用第二步中生成的T个学习任务的所有多示例数据,将属于同一个类别的所有网页多示例数据归纳在一起,则该类别的所有多示例数据可以组成一个比较大的多示例包,又因为生成该多示例包的网页都来自于同一个类别,则可以简称为类包,在第t个学习任务中,如果可以用来标记的网页类别有K个,则可以构建出K个类包;
第四步中,为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公式,在进行网页分类的时候,采取的距离公式是类别到多示例包之间的距离公式,而并非是多示例包到多示例包之间的距离;如果在第t个学习任务中,第k个类包到一个多示例包之间的距离要小于其他类别到该多示例包之间的距离,则该多示例包属于第k个类别;单独为每个类包到多示例包之间的距离设定一个类特定距离公式,该类特定距离公式是基于马氏距离公式,如下:
上式为第t个任务的第k个类别到多示例包的距离公式,Ckt为第t个任务的第k个类别的类包,Bit为第t个任务的第i个多示例包,为类包Ckt的第j个示例,Mkt为马氏距离矩阵,为类包Ckt中的示例到多示例包Bit的欧式距离矩阵,其中 是多示例包Bit的中心,在该类特定距离公式Distt(Ckt,Bit)中,只有马氏距离矩阵Mkt是变量,其他都是已知常量或者可以由已知常量所求,所以类包Ckt到多示例包Bit的距离,由马氏距离矩阵Mkt影响,所以最优化该马氏距离矩阵Mkt,能够得到最大间距多任务多示例网页分类器;
所述第五步中,为所有多示例学习任务建立一个总的损失函数,损失函数的最小化问题则是本方法所需要解决的最优化问题,在多任务多示例学习的环境下,构建一个损失函数,该损失函数需要把与第k个类包相关的多示例包聚在一起,并且需要保证第k个类包与其他多示例的距离最大化,建立一个损失函数,如下:
上式中,(·)+=max(0,1-·)是数学公式中常用的Hinge Loss,保证了(·)+取值范围在0到1之间,该损失函数的最小化可以保证,在T个任务中,所有的多示例包Bit到它们所属的类包Cpt的距离要远远小于到它们不属于的类包Cnt的距离,并且保证了所有的多示例包Bit到它们所属的类包Cpt的距离是最小化的,CM是训练分类模型时预先输入的一个正则化参数,用来控制平衡损失函数的各项式的大小。
2.根据权利要求1所述的基于最大间距多任务多示例学习的网页分类方法,其特征在于,第一步中,如果存在T个网站需要构建网页分类器,则认为此时存在T个学习任务,需要利用这T个学习任务的有标记的数据进行分类器的训练,从而训练出T个分类器。
3.根据权利要求2所述的基于最大间距多任务多示例学习的网页分类方法,其特征在于,第二步中,利用在第一步所定义的T个学习任务,把T个学习任务的所有网页转换为多示例数据,其具体做法为:以150个单词或者其他特定字数为一段内容,把网页的内容分割为多段内容,此时一段内容被看成一个示例数据,将网页内容分割成多段内容后,每段内容都要经过一些特殊处理:停顿字符和转义字符的去除,特征的提取,此时的多示例数据也称为多示例包。
4.根据权利要求1所述的基于最大间距多任务多示例学习的网页分类方法,其特征在于,第六步中,将第五步中的损失函数转换为多任务学习的特定形式,从而将每个学习任务之间的网页关联性利用起来,在第五步中所建立的损失函数,只是单单把每个多示例学习任务的损失函数相加起来,所求出来的最小化损失函数并没有把各个多示例学习任务的相关性利用起来,因此,把第五步中所得的损失函数,通过Mkt=Mk0+Vkt的方式,转化为一个多任务学习的特定形式,Mk0代表着T个任务中,第k个类别所共享的马氏距离矩阵,Vkt代表着第t个任务中,第k个类别所独享的马氏距离矩阵,因此该多任务形式的损失函数的最小化,能够把各个任务的相关性利用起来,从而提高了每个任务的多示例网页分类器的性能,该多任务形式的损失函数如下:
在上式的最小化过程中,I是一个单位矩阵,权值参数γk0和γk1用来控制马氏距离矩阵Mk0和Vkt的大小,如果γk0趋向于无穷大,那么由T个任务所共享的马氏距离矩阵Mk0将会降为一个单位矩阵,如果γk0趋向于无穷大,并且γk1的大小是固定的,则第k个类别的所有学习任务将会是独立的,没有任何的关联,训练出来的分类器也是任务无关的,从另一方面来看,如果γk1趋向于无穷大,并且γk0的大小是固定的,则第k个类别的所有学习任务所训练出来的分类器将会相同或者类似。
5.根据权利要求4所述的基于最大间距多任务多示例学习的网页分类方法,其特征在于,第七步中,转换第六步中的多任务损失函数为一个正半定二次优化问题,从而使得求解该优化问题,能够使得不同类别网页之间的间距最大化,虽然第六步中的损失函数已经是多任务形式的了,但是由于该问题不是一个凸优化问题,所以求出来的不是唯一解,因此,本方法把该最小化问题,转换为一个凸优化问题,即一个正半定二次优化问题,在下式中,是一个非负误差项,约束Mk0,Vkt≥0保证了本方法所求的马氏距离矩阵是Mk0和Vkt正半定的,从而也保证了该优化问题是一个正半定二次优化问题,可以求出唯一解,该优化问题的形式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610466377.5A CN106055705B (zh) | 2016-06-21 | 2016-06-21 | 基于最大间距多任务多示例学习的网页分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610466377.5A CN106055705B (zh) | 2016-06-21 | 2016-06-21 | 基于最大间距多任务多示例学习的网页分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106055705A CN106055705A (zh) | 2016-10-26 |
CN106055705B true CN106055705B (zh) | 2019-07-05 |
Family
ID=57166234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610466377.5A Active CN106055705B (zh) | 2016-06-21 | 2016-06-21 | 基于最大间距多任务多示例学习的网页分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106055705B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392256A (zh) * | 2017-07-31 | 2017-11-24 | 广东工业大学 | 一种图像识别方法及系统 |
CN109214414B (zh) * | 2018-07-18 | 2022-02-22 | 广东工业大学 | 面向人脸识别的多任务正半定约束度量学习方法 |
CN110175657B (zh) * | 2019-06-05 | 2021-10-01 | 广东工业大学 | 一种图像多标签标记方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010003106A (ja) * | 2008-06-20 | 2010-01-07 | Nippon Telegr & Teleph Corp <Ntt> | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN102646095A (zh) * | 2011-02-18 | 2012-08-22 | 株式会社理光 | 一种基于网页分类信息的对象分类方法和系统 |
CN104361059A (zh) * | 2014-11-03 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多示例学习的有害信息识别和网页分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200729003A (en) * | 2006-01-25 | 2007-08-01 | Bridgewell Inc | Conceptual keyword function generation method, adjustment method, system, search engine, and calculation method for keyword related value |
US9348901B2 (en) * | 2014-01-27 | 2016-05-24 | Metricstream, Inc. | System and method for rule based classification of a text fragment |
-
2016
- 2016-06-21 CN CN201610466377.5A patent/CN106055705B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010003106A (ja) * | 2008-06-20 | 2010-01-07 | Nippon Telegr & Teleph Corp <Ntt> | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 |
CN102646095A (zh) * | 2011-02-18 | 2012-08-22 | 株式会社理光 | 一种基于网页分类信息的对象分类方法和系统 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN104361059A (zh) * | 2014-11-03 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多示例学习的有害信息识别和网页分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106055705A (zh) | 2016-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113159095B (zh) | 一种训练模型的方法、图像检索的方法以及装置 | |
US10489438B2 (en) | Method and system for data processing for text classification of a target domain | |
CN105893609B (zh) | 一种基于加权混合的移动app推荐方法 | |
CN110532451A (zh) | 针对政策文本的检索方法和装置、存储介质、电子装置 | |
CN109344884A (zh) | 媒体信息分类方法、训练图片分类模型的方法及装置 | |
CN108475252A (zh) | 用于分布式机器学习的技术 | |
CN106055705B (zh) | 基于最大间距多任务多示例学习的网页分类方法 | |
CN105446973A (zh) | 社交网络中用户推荐模型的建立及应用方法和装置 | |
CN110263338A (zh) | 替换实体名称方法、装置、存储介质及电子装置 | |
CN110032647A (zh) | 基于工业领域构建知识图谱的方法、装置及存储介质 | |
CN109241518A (zh) | 一种基于情感分析的检测网络水军方法 | |
CN109086814A (zh) | 一种数据处理方法、装置及网络设备 | |
CN110377727A (zh) | 一种基于多任务学习的多标签文本分类方法和装置 | |
CN111523324A (zh) | 命名实体识别模型的训练方法及装置 | |
CN110245228A (zh) | 确定文本类别的方法和装置 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN111914159A (zh) | 一种信息推荐方法及终端 | |
CN112749280A (zh) | 网络舆情的分类方法、装置、电子装置和存储介质 | |
CN110232128A (zh) | 题目文本分类方法及装置 | |
CN114398485B (zh) | 基于多视角融合的专家画像构建方法及装置 | |
CN108268450A (zh) | 用于生成信息的方法和装置 | |
Abir et al. | Bangla handwritten character recognition with multilayer convolutional neural network | |
CN110019827A (zh) | 一种语料库生成方法、装置、设备和计算机存储介质 | |
CN113312924A (zh) | 一种基于nlp高精解析标签的风险规则分类方法及装置 | |
CN110413856B (zh) | 分类标注方法、装置、可读存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |