CN106934055A - 一种基于不充分模态信息的半监督网页自动分类方法 - Google Patents

一种基于不充分模态信息的半监督网页自动分类方法 Download PDF

Info

Publication number
CN106934055A
CN106934055A CN201710163950.XA CN201710163950A CN106934055A CN 106934055 A CN106934055 A CN 106934055A CN 201710163950 A CN201710163950 A CN 201710163950A CN 106934055 A CN106934055 A CN 106934055A
Authority
CN
China
Prior art keywords
training
webpage
data
web page
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710163950.XA
Other languages
English (en)
Other versions
CN106934055B (zh
Inventor
王魏
詹德川
郭翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201710163950.XA priority Critical patent/CN106934055B/zh
Publication of CN106934055A publication Critical patent/CN106934055A/zh
Application granted granted Critical
Publication of CN106934055B publication Critical patent/CN106934055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于不充分模态信息的半监督网页自动分类方法,基于加权协同训练算法,在训练分类器的过程中给数据分配不同的权值。本发明方法能够减少由于不充分模态特征引起的数据不一致性对分类过程所带来的影响,从而具有更好的分类精度与更强的鲁棒性。此外,本发明方法仅需要少量的有标记训练数据,能够利用未标记数据的信息,因而可用于标记训练数据匮乏的场景。

Description

一种基于不充分模态信息的半监督网页自动分类方法
技术领域
本发明涉及一种新型的多模态半监督网页自动分类方法,属于计算机人工智能数据识别技术领域。
背景技术
互联网中存在着大量数据,从这些数据中往往能够挖掘出许多有价值的信息,比如说,通过分析用户在新闻网站上的浏览记录,可以发现其感兴趣的新闻类型,从而更准确地为其推送新闻。为了对这些数据进行分析,经常需要对数量庞大的网页进行分类(例如将收集到的新闻根据其内容分成不同的类别),而手工分类的效率很低,会产生大量的人力成本,因此产生了使用计算机自动化分类的需求。机器学习技术是一类从数据中自动分析获得规律并对未知数据进行预测的技术。该技术通常需要在包含大量数据对象的训练集上构建预测模型。训练集中的每个数据对象都有一个代表其类别归属的类别标记,而通常获取这些标记需要人工参与,导致大量的人力消耗在标注训练集上。为此,机器学习领域中发展出了一类称为半监督学习的方法,该类方法利用大量未标注数据辅助少量有标注数据进行学习。网页数据的特点在于,每个网页的数据特征自然具有两种模态——网页本身的内容以及指向该网页的链接。但实际应用中训练数据的模态特征信息经常是不充分的,这使得一些训练数据与最优分类器不一致,从而导致学习算法的分类性能下降。本发明提出了一种基于新型的加权协同训练的半监督网页分类方法,该方法能够辨别出训练集中的那些可能导致算法性能下降的网页数据对象,并给它们赋予较低的权值,从而在实际应用中具有较高的分类准确率,且有更好的鲁棒性。此外,该方法可以利用未标记数据的信息,因而仅需要少量的有标记训练数据,可以进一步减少人力消耗,故具有更大的实用价值。
发明内容
发明目的:实际应用中网页对象的模态信息往往是不充分的,这意味着有些训练样本的标记与该模态上的最优分类器可能会不一致,从而影响最终的性能,针对上述问题,本发明提出一种基于不充分模态信息的半监督网页自动分类方法,辨别出训练集中的那些可能导致算法性能下降的网页数据对象,并给它们赋予较低的权值,从而在实际应用中具有较高的分类准确率,且有更好的鲁棒性。
技术方案:本发明提出一种基于不充分模态信息的半监督网页自动分类方法,基于加权协同训练算法,通过给不同的数据分配不同的权值,包括如下步骤:
步骤1:构建训练数据集:选取网页对象库,其中的每个网页对象包含两个模态:即网页内容模态以及指向该网页的链接模态(部分研究者也将多模态数据称为多源数据),然后通过人工标注的方法为库中的少量网页对象提供一个类别标记,这些有类别标记的网页对象库称为初始的有标记训练数据,其和剩余的大量未标记网页对象一同构成训练数据集。
步骤2:提取网页对象特征:提取训练数据集中网页对象的特征,将所有网页对象转化成相应的特征向量,由于网页对象包含两个模态,最终得到的每个网页对象的特征向量也分为两部分,即双模态特征向量对。
步骤3:训练分类器:选择基分类器,将训练数据的双模态特征向量对和基分类器类型输入到加权协同训练算法中,训练后得到两个分类器。
步骤4:待测网页分类:提取待测网页在两个模态上的特征向量分别输入到训练得到的两个分类器中,得到待测网页的两个预测结果,再在两个预测结果中选择置信度较高的作为最终分类标记。
所述特征提取方法为选择网页文本中的每个词出现的次数作为该网页的特征,或者选择文本的长度作为该网页的特征,假设两个模态上特征的个数分别为d1和d2,那么每个网页对象就可以对应到d1和d2维欧式空间的两个特征向量。
所述基分类器包括支持向量机,决策树,神经网络。
所述加权协同训练算法包括如下步骤:
步骤3.1:选定每轮需要新标记的样本数目N,衰减系数α,最大迭代轮数T,松弛参数ξ;将迭代计数器初始化为t=0,将所有初始有标记训练数据的权值初始化为1/l,即两个模态上的权值向量为:在初始有标记数据上根据权值训练出两个模态上的初始分类器
步骤3.2:判断是否达到最大迭代次数(即迭代次数是否满足t>T),若没有,则使用当前的分类器分别从未标记的训练数据中选择N个置信度最高的训练样本赋予标记,并添加到对方的有标记训练集中,使得两个模态上的有标记训练样本数目均增加到l+N(t+1),否则转至步骤3.5,结束分类器训练;
步骤3.3:置步骤3.2中新标记样本的权值为v=1,2表示模态,代表的第i个分量,令l+N(t+1)维向量为当前有标记训练数据的权值向量,并由此训练得到模态v上的新分类器
步骤3.4:分别在模态v=1,2求解下述优化问题,得到t+1轮迭代时需要的权值向量,再令迭代计数器t加1,转至步骤3.2进行下一轮训练,所述优化问题具体为:
其中,代表模态v第t+1轮迭代时需要的权值向量,代表的第i个分量,xv,i代表第i个样本特征向量在模态v的部分,yi代表对应的样本标记;
步骤3.5:输出分类器
有益效果:与现有的技术相比,本发明通过考虑数据模态特征信息的不充分性,在训练分类器的过程中给数据分配不同的权值,避免了训练数据中不一致样本可能带来的负面影响,最终取得了良好的分类效果。此外,本发明可以利用未标记数据的信息,因此只需少量初始有标记训练数据,可以用于标记数据匮乏的场景,具有更大的实用价值。
附图说明
图1是本发明的原理图;
图2是本发明的流程图;
图3是本发明中加权协同训练算法的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于不充分模态信息的半监督网页自动分类方法:首先用户准备好一个包含网页信息的网页对象库,并且通过人工标注的方法为少量网页对象提供一个类别标记,将这个网页对象库称为训练数据集。然后,通过特征提取算法,将训练网页对象库中的对象转化成相应的特征表示,即提取网页对象库中对象的特征,将所有网页对象转化成相应的特征向量。接着选择要使用的基分类器类型,然后将训练数据的特征表示和类别标记一起输入到加权协同训练算法中,经过训练后就可以得到最终的分类器。最后在预测阶段,将待测的网页对象的特征向量输入给分类器,分类器就会给用户返回该对象的预测标记。
如图2-3所示,本发明的基于不充分模态信息的半监督网页自动分类方法,基于加权协同训练算法,通过给不同的数据分配不同的权值,提高分类精度和鲁棒性,具体包括如下步骤:
步骤1,建立一个包含n个网页信息的网页对象库作为训练数据集,通过人工标注的方式为对象库中的少量网页对象赋予一个类别标记,使用yi代表第i个对象的类别标记。对于二分类问题,比如说军事新闻网页是第一类,娱乐新闻网页是第二类。如果第i个网页对象中包含的内容是军事新闻,则yi=1,即该网页对象属于第一类,如果网页对象中用户包含的内容是娱乐新闻,则yi=0,该网页对象属于第二类。假设初始共有l个网页对象被赋予了标记,剩下的u=n-l个网页对象没有赋予标记。为了方便表示,用L表示已有标记的网页对象的集合,U表示目前仍未标记的网页对象的集合。
步骤2,通过特征提取算法,提取网页对象库中对象的特征,将所有网页对象转化成相应的双模态特征向量对,维度分别为d1,d2;使用xi=(x1,i,x2,i)表示其中经过特征提取后的第i个网页对象的双模态特征向量对,也可以称其为样本xi
步骤3,选择需要使用的基分类器类型,可以是各种常见的经典分类器,包括支持向量机,决策树,神经网络等,并将训练数据的两个特征向量和基分类器类型输入到加权协同训练算法中,训练后得到两个分类器,具体方法包括如下步骤:
步骤3.1,选定每轮需要新标记的样本数目N,衰减系数α,最大迭代轮数T,松弛参数ξ;将迭代计数器初始化为t=0,并将所有初始有标记训练数据的权值初始化为1/l,即两个模态上的权值向量为:再在初始有标记数据上根据权值训练出两个模态上的初始分类器
步骤3.2,若t>T,转到步骤3.5;否则让当前的分类器分别从未标记的训练数据中选择N个置信度最高的训练样本赋予标记,并添加到对方的有标记训练集中,使得两个模态上的有标记训练样本数目均增加到l+N(t+1);
步骤3.3,分别为模态v=1,2,置步骤3.2中新标记的样本的权值为代表的第i个分量;令l+N(t+1)维向量 为当前有标记训练数据的权值向量,并由此训练得到模态v上的新分类器
步骤3.4,分别为模态v=1,2求解下述优化问题,得到t+1轮迭代时需要的权值向量,之后令迭代计数器t加1,转到步骤3.2,优化问题具体为:.
其中,代表模态v第t+1轮迭代时需要的权值向量,代表的第i个分量,xv,i代表第i个样本特征向量在模态v的部分,yi代表对应的样本标记;
步骤3.5,输出
步骤4,获取待测网页对象,并用步骤2中相同的方法将其转换为包含两个模态特征的特征向量对,将得到的特征向量分别输入步骤,3得到的对应分类器中,获得两个预测标记,最后输出其中置信度较高的那个作为最终标记。

Claims (4)

1.一种基于不充分模态信息的半监督网页自动分类方法,其特征在于,基于加权协同训练算法,通过给不同的数据分配不同的权值,提高分类精度和鲁棒性,包括如下步骤:
步骤1:构建训练数据集:选取网页对象库,其中的每个网页对象包含两个模态:即网页内容模态以及指向该网页的链接模态,然后通过人工标注的方法为库中的少量网页对象提供一个类别标记,这些有类别标记的网页对象库称为初始的有标记训练数据,其和剩余的大量未标记网页对象一同构成训练数据集;
步骤2:提取网页对象特征:提取训练数据集中网页对象的特征,将所有网页对象转化成相应的特征向量,得到网页的双模态特征向量对;
步骤3:训练分类器:选择基分类器,将训练数据的双模态特征向量对和基分类器类型输入到加权协同训练算法中,训练后得到两个分类器;
步骤4:待测网页分类:提取待测网页在两个模态上的特征向量分别输入到训练得到的两个分类器中,得到待测网页的两个预测结果,再在两个预测结果中选择置信度较高的作为最终分类标记。
2.根据权利要求1所述的基于不充分模态信息的半监督网页自动分类方法,其特征在于,所述特征提取方法包括网页文本每个词出现的次数和网页文本的长度。
3.根据权利要求1所述的基于不充分模态信息的半监督网页自动分类方法,其特征在于,所述基分类器包括支持向量机,决策树,神经网络。
4.根据权利要求1所述的基于不充分模态信息的半监督网页自动分类方法,其特征在于,所述加权协同训练算法包括如下步骤:
步骤3.1:选定每轮需要新标记的样本数目N,衰减系数α,最大迭代轮数T,松弛参数ξ;将迭代计数器初始化为t=0,将所有初始有标记训练数据的权值初始化为1/l,即两个模态上的权值向量为:在初始有标记数据上根据权值训练出两个模态上的初始分类器
步骤3.2:判断是否达到最大迭代次数(即迭代次数是否满足t>T),若没有,则使用当前的分类器分别从未标记的训练数据中选择N个置信度最高的训练样本赋予标记,并添加到对方的有标记训练集中,使得两个模态上的有标记训练样本数目均增加到l+N(t+1),否则转至步骤3.5,结束分类器训练;
步骤3.3:置步骤3.2中新标记样本的权值为v=1,2表示模态,代表的第i个分量,令l+N(t+1)维向量为当前有标记训练数据的权值向量,并由此训练得到模态v上的新分类器
步骤3.4:分别在模态v=1,2求解下述优化问题,得到t+1轮迭代时需要的权值向量,再令迭代计数器t加1,转至步骤3.2进行下一轮训练,所述优化问题具体为:
min w t + 1 Σ i = 1 l + N ( t + 1 ) w v , i t + 1 m a x ( 0 , - f v t + 1 ( x v , i ) y i ) ,
s . t . Σ i = 1 l + N ( t + 1 ) w v , i t + 1 max ( 0 , - f v t + 1 ( x v , i ) y i ) ≤ Σ i = 1 l + N t w v , i t max ( 0 , - f v t ( x v , i ) y i ) ,
- Σ i = 1 l + N ( t + 1 ) w v , i t + 1 log w v , i t + 1 ≥ ξ ,
Σ i = 1 l + N ( t + 1 ) w v , i t + 1 = 1 , w v t + 1 ≥ 0
其中,代表模态v第t+1轮迭代时需要的权值向量,代表的第i个分量,xv,i代表第i个样本特征向量在模态v的部分,yi代表对应的样本标记;
步骤3.5:输出分类器
CN201710163950.XA 2017-03-20 2017-03-20 一种基于不充分模态信息的半监督网页自动分类方法 Active CN106934055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710163950.XA CN106934055B (zh) 2017-03-20 2017-03-20 一种基于不充分模态信息的半监督网页自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710163950.XA CN106934055B (zh) 2017-03-20 2017-03-20 一种基于不充分模态信息的半监督网页自动分类方法

Publications (2)

Publication Number Publication Date
CN106934055A true CN106934055A (zh) 2017-07-07
CN106934055B CN106934055B (zh) 2020-05-19

Family

ID=59433322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710163950.XA Active CN106934055B (zh) 2017-03-20 2017-03-20 一种基于不充分模态信息的半监督网页自动分类方法

Country Status (1)

Country Link
CN (1) CN106934055B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784405A (zh) * 2019-01-16 2019-05-21 山东建筑大学 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN111178302A (zh) * 2019-12-31 2020-05-19 北大方正集团有限公司 特定着装人物的检测方法和装置
CN111985520A (zh) * 2020-05-15 2020-11-24 南京智谷人工智能研究院有限公司 一种基于图卷积神经网络的多模态分类方法
CN112182225A (zh) * 2020-10-14 2021-01-05 上海宝钿科技产业发展有限公司 一种多模态场景目标基于半监督深度学习的知识管理方法
CN113269226A (zh) * 2021-04-14 2021-08-17 南京大学 一种基于局部与全局信息的图片选择标注方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814093A (zh) * 2010-04-02 2010-08-25 南京邮电大学 一种基于相似性的半监督学习垃圾网页检测方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN105447161A (zh) * 2015-11-26 2016-03-30 广东工业大学 一种基于数据特征的智能信息分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814093A (zh) * 2010-04-02 2010-08-25 南京邮电大学 一种基于相似性的半监督学习垃圾网页检测方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN105447161A (zh) * 2015-11-26 2016-03-30 广东工业大学 一种基于数据特征的智能信息分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭翔宇 等: ""一种改进的协同训练算法:Compatible Co-training"", 《南京大学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784405A (zh) * 2019-01-16 2019-05-21 山东建筑大学 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN109784405B (zh) * 2019-01-16 2020-09-08 山东建筑大学 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN111178302A (zh) * 2019-12-31 2020-05-19 北大方正集团有限公司 特定着装人物的检测方法和装置
CN111985520A (zh) * 2020-05-15 2020-11-24 南京智谷人工智能研究院有限公司 一种基于图卷积神经网络的多模态分类方法
CN111985520B (zh) * 2020-05-15 2022-08-16 南京智谷人工智能研究院有限公司 一种基于图卷积神经网络的多模态分类方法
CN112182225A (zh) * 2020-10-14 2021-01-05 上海宝钿科技产业发展有限公司 一种多模态场景目标基于半监督深度学习的知识管理方法
CN113269226A (zh) * 2021-04-14 2021-08-17 南京大学 一种基于局部与全局信息的图片选择标注方法

Also Published As

Publication number Publication date
CN106934055B (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN106934055B (zh) 一种基于不充分模态信息的半监督网页自动分类方法
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN110674305B (zh) 一种基于深层特征融合模型的商品信息分类方法
CN105868184B (zh) 一种基于循环神经网络的中文人名识别方法
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN103699523A (zh) 产品分类方法和装置
CN111078546B (zh) 一种表达页面特征的方法和电子设备
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN112905739A (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN103218405A (zh) 基于维数约简的集成迁移文本分类方法
CN112487237B (zh) 基于自适应cnn和半监督自训练模型的音乐分类方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN112417862A (zh) 知识点预测方法、系统和可读存储介质
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
Abir et al. Bangla handwritten character recognition with multilayer convolutional neural network
CN104077408B (zh) 大规模跨媒体数据分布式半监督内容识别分类方法及装置
KR102457455B1 (ko) 인공지능 기반의 미술품 가격 예측 장치 및 방법
CN104834718A (zh) 基于最大熵模型的事件论元识别方法及系统
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN105894032A (zh) 一种针对样本性质提取有效特征的方法
CN111797236A (zh) 一种基于长文本分割的文本质量自动评估方法
CN116434273A (zh) 一种基于单正标签的多标记预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant