CN110413924B - 一种半监督多视图学习的网页分类方法 - Google Patents

一种半监督多视图学习的网页分类方法 Download PDF

Info

Publication number
CN110413924B
CN110413924B CN201910652836.2A CN201910652836A CN110413924B CN 110413924 B CN110413924 B CN 110413924B CN 201910652836 A CN201910652836 A CN 201910652836A CN 110413924 B CN110413924 B CN 110413924B
Authority
CN
China
Prior art keywords
sample
view
information
training set
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910652836.2A
Other languages
English (en)
Other versions
CN110413924A (zh
Inventor
荆晓远
贾晓栋
訾璐
黄鹤
姚永芳
彭志平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Petrochemical Technology
Original Assignee
Guangdong University of Petrochemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Petrochemical Technology filed Critical Guangdong University of Petrochemical Technology
Priority to CN201910652836.2A priority Critical patent/CN110413924B/zh
Publication of CN110413924A publication Critical patent/CN110413924A/zh
Application granted granted Critical
Publication of CN110413924B publication Critical patent/CN110413924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网技术领域,更具体地,涉及一种半监督多视图学习的网页分类方法,包括:从网页中获取数据,建立训练集;通过已标记训练集训练分类器;通过训练好的分类器对已标记训练集和未标记训练集进行编码,获取样本特征;对样本特征进行密度聚类,获取聚类结果;根据聚类结果对未标记训练集的样本进行分类。本方案使用已标记训练集对分类器进行训练,在现有的多视图分类方法的基础上加入正交约束和对抗相似约束,再通过训练好的分类器对训练集里所有的数据进行密度聚类标记,最后对分类器进行准确率验证,多次迭代上述过程能使分类器的分类性能得到提升。

Description

一种半监督多视图学习的网页分类方法
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种半监督多视图学习的网页分类方法。
背景技术
计算机技术日新月异,互联网已成为了人类社会不可或缺的一部分。随着移动互联网和web2.0的迅速发展,过去的几十年互联网的网页数目呈现爆炸式的增长。网上信息的日益增多,给网页信息检索和分析(TSIRA)的研究带来了更多难题,对网页信息检索和分析有了更高的要求。网页分类在网页信息检索和分析中具有重要的作用,如何给数目庞大的网页进行更快速更准确的分类,使用户可以更方便地找到需要的信息已成为了这一领域的难题。
网页信息作为一种多视图数据,通常以网页视图和链接视图表示,其不仅包含视图之间的共享信息,还包含视图内的专有信息。比如,网页视图和链接视图会共享一些词句,同时网页视图可能包含更多其他信息。
网页分类最主要的研究就是如何对网页这种多视图数据进行最有效的利用,对于此目前已有不少优秀的方案,但这些方案一般都存在着缺陷,难以适用于大多数的场景。其中,具有代表性的为:典型相关性分析(CCA,Canonical correlation analysis)的子空间学习,此方法将不同视图视为一个潜在共享子空间的不同描述,目标是将不同视图映射至共同的空间内,通过最大化不同视图的相似性利用视图间的共享信息。这种方法虽然利用视图间的共享信息,但却无法对每个视图内的专有信息进行有效的利用,进一步地提高分类准确率。于是研究者们又提出了一种能够同时利用共享专有两种信息的方法,即在CCA的子空间学习的基础上,使用深度学习对特征表现能力进行增强,提升网页分类的表现。此方法在人脸识别,亲缘关系鉴定和行人重识别上有不错的效果。但由于缺乏约束,基于共享专有的子空间学习的方法会引入数据冗余性,导致模型的特征学习能力退化。针对学习能力退化的问题,学者Avrim Blum和Tom Mitchell提出可以用半监督训练中的协同训练解决,即让两个视图上的分类器能够为对方标记数据。而kim等人则提出了一个基于标签传播的半监督训练方法,利用点击记录将类标记传播至未标记的相似网页进行训练数据的扩增。还有的提出双视图直推支持向量机的方法利用多种网页表示和未标记数据提升分类性能。
上述这些方法虽然都实现了网页分类,但随着时间的推移,仅仅利用了多视图数据的部分信息,没有充分考虑到视图间、视图内以及类间、类内的全部信息的话,会导致网页分类发生错误。因此目前亟需一种能全面考虑信息,准确给网页分类的方法。
发明内容
为了解决上述问题,本发明提供一种半监督多视图学习的网页分类方法,该方法能使网页分类更准确。
本发明采取的技术方案是:
一种半监督多视图学习的网页分类方法,包括:
步骤S1:从网页中获取数据,建立训练集;
其中,训练集包括已标记训练集和未标记训练集;
已标记训练集为进行过信息识别的数据集;
未标记训练集为未进行信息识别的数据集;
步骤S2:通过已标记训练集训练分类器,使用验证集计算分类器的准确率;
步骤S3:通过训练好的分类器对已标记训练集和未标记训练集进行编码,获取样本特征;
步骤S4:对样本特征进行密度聚类,获取聚类结果;
步骤S5:根据聚类结果对未标记训练集的样本进行分类;
步骤S6:若步骤S2中分类器对样本的分类与步骤S5中根据聚类结果对样本的分类一致,则被分类的样本与其分类标记加入到已标记训练集;
步骤S7:若未标记训练集存在样本,执行步骤S8,否则结束分类;
步骤S8:若本轮为第一轮或本轮与上一轮对比,步骤S2中的准确率有所提升,执行步骤S2-S7,否则结束分类。
从网上获取网页作为训练分类器的数据,对其中的一部分进行信息识别,判断网页自身是否包含某种数据特征,数据特征即图片、音乐、视频、字符等。根据数据特征的有无给网页分类,打上对应的分类标记,这一部分进行过信息识别的网页形成已标记训练集,而未进行信息识别的则为未标记训练集。本方案使用已标记训练集对分类器进行训练,在现有的多视图分类方法的基础上加入正交约束和对抗相似约束,再通过训练好的分类器对训练集里所有的数据进行密度聚类标记,最后对分类器进行准确率验证,多次迭代上述过程能使分类器的分类性能得到提升。
进一步地,所述分类器包括:多视图网络(multi view)、孪生网络(siamese)、分类网络(classifier);
所述分类器的目标函数为:
L=λ1(Ldiff+Ladv)+λ2LCon+Lc
其中λ1与λ2为权重系数,Ldiff为多视图网络的正交损失函数,Ladv为多视图网络的对抗相似损失函数,LCon为孪生网络的对比损失函数,Lc为分类网络的交叉熵损失函数。
分类器目标函数作为分类器性能好坏的度量,要提高分类性能,最直接的便是对分类器目标函数修改或者优化。在本方案中,分类器的目标函数分别由正交损失函数、对抗相似损失函数、对比损失函数、交叉熵损失函数与λ1、λ2权重系数构成,对应地优化了分类器的多视图网络、孪生网络与分类网络。
进一步地,所述训练分类器包括训练多视图网络:
步骤S2.1:根据对样本不同的角度的描述,至少构成两个视图;
所述样本为
Figure GDA0002391917410000031
其中x表示已标记训练集,i表示训练集的第i个样本,k表示样本的第k个视图;
步骤S2.2:每个视图包含视图间的共享信息和视图内的专有信息,使用不同的矩阵对视图的信息进行转换;
专有信息:
Figure GDA0002391917410000032
其中Ws为提取专有信息特征的矩阵,
Figure GDA0002391917410000033
R为实数空间,其维度分别为r与dk
共享信息:
Figure GDA0002391917410000034
其中Wc为提取共享信息特征的矩阵,
Figure GDA0002391917410000035
R为实数空间,其维度分别为r与dk
视图信息:
Figure GDA0002391917410000036
因为多个视图间的共享信息几乎相同,因此共享信息取均值表示:
Figure GDA0002391917410000037
其中M为样本的视图总数;
步骤S2.3:把多个视图的专有信息与共享信息连接,样本所有视图的信息表示为:
Figure GDA0002391917410000041
使用已标记训练集训练分类器,首先是将已标记的数据送入多视图网络,根据不同角度构成网页的多个视图,然后使用矩形对多视图的信息进行转换。
进一步地,其特征在于,所述正交损失函数为:
Figure GDA0002391917410000042
其中,S表示k视图的共享信息输出矩阵,H表示k视图的专有信息输出矩阵,
Figure GDA0002391917410000043
是平方Frobenius项。
未添加约束的多视图分类方法会有数据冗余的问题,即无法有效的将交缠的共享信息和专有信息完整的区分开来。当多视图网络加入正交损失函数,在上述矩阵转换视图信息的过程中,正交约束能够将共享信息和专有信息进行再次划分,避免他们相互污染。
进一步地,所述对抗相似损失函数为:
Figure GDA0002391917410000044
其中,G代表生成器,用于根据视图的原始信息生成共享信息,其生成过程为:
Figure GDA0002391917410000045
D代表判定器,用于鉴别共享信息所属的视图,鉴别的概率为:
Figure GDA0002391917410000046
θG与θD为生成器G与判定器D的参数,N为样本总个数。
对抗相似约束的对抗训练思想源于生成式对抗网络(GAN,GenerativeAdversarial Networks),目的是使得不同视图中提取的共享信息相似性最大。与生成式对抗网络一样,对抗相似约束包括生成器与判定器,生成器不断生成共享信息,判定器对共享信息所属的视图进行鉴别,同时对判别器和生成器进行训练,直到判别器无法鉴别由生成器产生的共享信息属于哪一个视图。对抗相似约束将不同视图之上的共享信息之间差异最小化,相似性最大化,此时可以认为提取出的共享信息是近似一致的。
进一步地,所述训练分类器包括训练孪生网络:
步骤S2.4:将多视图网络转换的视图信息编码,得到样本特征;
所述视图信息的数量为至少一对样本所转换,若xi和xj为样本,hi和hj为转换后的视图信息,codei和codej则为视图信息编码后得到的样本特征;
步骤S2.5:计算样本之间的距离:d(xi,xj)=||codei-codej||2
步骤52.6:通过对比损失函数训练孪生网络,对比损失函数为:
Figure GDA0002391917410000051
其中,N为共有的样本对数,n为第n对输入的样本,yn表示两个样本是否同类,若yn=1表示两个样本有相同类标签,否则yn=0,Margin为用户设置的参数。
在多视图的网页数据中,除了各视图间的共享信息和视图内的专有信息,还存在与类别相关的信息,即类内相关性和类间判别性。度量学习方法通过学习一个距离度量,能够对类别信息加以利用,从而增加数据的鉴别力。这里使用孪生网络对度量学习进行具体实现。孪生网络每次将一对样本作为输入,如果成对的样本具有相同的类标签,孪生网络会使其距离更近;否则将会使其距离大于某一间隔。通过迭代,属于不同类的样本将互相远离,而属于同一类的样本则会聚集。
进一步地,所述对比损失函数使用了样本的均值进行计算,新的对比损失函数为:
Figure GDA0002391917410000052
其中,mini-batch为训练神经网络参数的一个小的批块,m为mini-batch的大小,xi为mini-batch的第i个样本,μsame是mini-batch中与xi有相同类标签的样本的均值,μdiff是与xi有不同类标签的样本的均值。
传统的孪生网络中,输入的成对样本为随机选择,使得对比损失会大幅度摆动。不仅很难得到稳定的结果,并且降低孪生网络的性能。为了得到更好的结果,本方案对对比损失加以改进,不同于原来的对比损失使用随机选择的输入,现利用mini-batch的均值能够使得孪生网络更快得到稳定结果。
进一步地,所述交叉熵损失函数为:
Figure GDA0002391917410000053
其中p(xi)代表样本xi类型的真实分布,q(xi)代表样本xi类型的预测分布。
交叉熵能够度量两个概率分布间的差异性信息,用于分类任务中,它的值越小,说明标签的预测值越接近于真实值,模型的分类性能也越好。
进一步地,所述步骤S4包括:
步骤S4.1:计算局部密度ρi
所述ρi为:
Figure GDA0002391917410000054
其中N为样本数,dij=distance(xi,xj)为样本xi与xj之间的距离,
Figure GDA0002391917410000055
为步骤S2中已标记训练集的最好聚类结果的参数dc
Figure GDA0002391917410000056
为已标记样本聚类的数量,
Figure GDA0002391917410000057
为已标记的样本总数;
步骤S4.2:计算第i个样本和局部密度大于ρi的样本之间的最小距离δi,所述δi为:
Figure GDA0002391917410000061
步骤S4.3:通过局部密度ρi与距离δi找出聚类中心,得到聚类结果。
经过深度度量学习后的数据优化了类别边界,有利于聚类函数对不同的聚类进行识别。网页分类任务中,未标记的网页数据通常也包含许多有用的类别信息,因此高效地利用这些未标记的网页样本能够带来性能的提升。密度聚类方法能够识别任意大小的聚类,可以对未标记的数据样本进行识别和标记。这里使用的密度聚类函数与文献“Clusteringby fast search and find of density peaks”相同。其中,参数dc不提前设置,在步骤S2中获取到已标记训练集的参数dc,使用
Figure GDA0002391917410000062
找出里面最好的参数dc,再将code使用这个参数dc重新聚类一遍,得到聚类结果,所述code与步骤S2中视图信息编码后得到的样本特征code相同。
进一步地,所述对比损失函数以平方欧式距离作为距离度量。
与现有技术相比,本发明的有益效果为:
(1)多视图网络添加了正交约束,解决了数据冗余问题,对交缠的共享信息和专有信息进行高效的划分。
(2)多视图网络添加了相似对抗约束,使共享信息之间保持充分相关,有利于特征的表示。
(3)孪生网络添加了对比损失函数,采用深度度量学习对类间的相关性和类内的判定性进行充分利用,增加生成特征的鉴别力,提高了孪生网络的性能。
(4)对分类器使用了半监督训练策略,将网页通过密度聚类进行标记,经过分类网络验证之后,对少量带标记的训练数据集加以补充,多次迭代后使分类器的分类性能得到提升。
附图说明
图1为本发明的流程示意图;
图2为本发明的多视图网络示意图;
图3为本发明的分类器训练流程示意图;
图4为本发明为数据集WebKB的测试图;
图5为本发明为数据集AD的测试图;
图6为本发明为数据集WebKB上的F1-score测试图;
图7为本发明为数据集AD上的F1-score测试图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例
本实施例提供一种半监督多视图学习的网页分类方法,包括:
步骤S1:从网页中获取数据,建立训练集;
其中,训练集包括已标记训练集和未标记训练集;
已标记训练集为进行过信息识别的数据集;
未标记训练集为未进行信息识别的数据集;
步骤S2:通过已标记训练集训练分类器,使用验证集计算分类器的准确率;
步骤S3:通过训练好的分类器对已标记训练集和未标记训练集进行编码,获取样本特征;
步骤S4:对样本特征进行密度聚类,获取聚类结果;
步骤S5:根据聚类结果对未标记训练集的样本进行分类;
步骤S6:若步骤S2中分类器对样本的分类与步骤S5中根据聚类结果对样本的分类一致,则被分类的样本与其分类标记加入到已标记训练集;
步骤S7:若未标记训练集存在样本,执行步骤S8,否则结束分类;
步骤S8:若本轮为第一轮或本轮与上一轮对比,步骤S2中的准确率有所提升,执行步骤S2-S7,否则结束分类。
首先在网上获取网页作为数据,形成训练集,然后对网页进行信息识别,根据其自身是否包含某一部分的数据特征,对网页分类及打上标记。进行过信息识别的网页为已标记训练集,未进行识别的数据形成未标记训练集。图1为本发明的流程示意图,如图1所示,左上角为第一步,使用已标记训练集对多视图、孪生网络及分类网络进行训练。左下角为第二步,使用已经训练好的多视图、孪生网络及分类网络给已标记训练集和未标记训练集编码,获得code。右下角为第三步,对code进行聚类,得到聚类结果。右上角为第四步,根据聚类结果给已标记训练集和未标记训练集分类及标记。
上述分类器包括:多视图网络(multi view)、孪生网络(siamese)、分类网络(classifier);
所述分类器的目标函数为:
L=λ1(Ldiff+Ladv)+λ2LCon+Lc
其中λ1与λ2为权重系数,Ldiff为多视图网络的正交损失函数,Ladv为多视图网络的对抗相似损失函数,LCon为孪生网络的对比损失函数,Lc为分类网络的交叉熵损失函数。
图2为本发明的多视图网络示意图,如图2所示,训练多视图网络包括:
步骤S2.1:根据对样本不同的角度的描述,至少构成两个视图;
所述样本为
Figure GDA0002391917410000081
其中x表示已标记训练集,i表示训练集的第i个样本,k表示样本的第k个视图;
步骤S2.2:每个视图包含视图间的共享信息和视图内的专有信息,使用不同的矩阵对视图的信息进行转换;
专有信息:
Figure GDA0002391917410000082
其中Ws为提取专有信息特征的矩阵,
Figure GDA0002391917410000083
R为实数空间,其维度分别为r与dk
共享信息:
Figure GDA0002391917410000084
其中Wc为提取共享信息特征的矩阵,
Figure GDA0002391917410000085
R为实数空间,其维度分别为r与dk
视图信息:
Figure GDA0002391917410000086
因为多个视图间的共享信息几乎相同,因此共享信息取均值表示:
Figure GDA0002391917410000087
其中M为样本的视图总数;
步骤S2.3:把多个视图的专有信息与共享信息连接,样本所有视图的信息表示为:
Figure GDA0002391917410000088
多视图添加的正交损失函数为:
Figure GDA0002391917410000089
其中,S表示k视图的共享信息输出矩阵,H表示k视图的专有信息输出矩阵,
Figure GDA00023919174100000810
是平方Frobenius项。
多视图添加的对抗相似损失函数为:
Figure GDA0002391917410000091
其中,G代表生成器,用于根据视图的原始信息生成共享信息,其生成过程为:
Figure GDA0002391917410000092
D代表判定器,用于鉴别共享信息所属的视图,鉴别的概率为:
Figure GDA0002391917410000093
θG与θD为生成器G与判定器D的参数,N为样本总个数。
图3为本发明的分类器训练流程示意图,如图3所示,完成多视图训练后,进入训练孪生网络阶段,其包括:
步骤S2.4:将多视图网络转换的视图信息编码,得到样本特征;
所述视图信息的数量为至少一对样本所转换,若xi和xj为样本,hi和hj为转换后的视图信息,codei和codej则为视图信息编码后得到的样本特征;
步骤S2.5:计算样本之间的距离:d(xi,xj)=||codei-codej||2
步骤S2.6:通过对比损失函数训练孪生网络,对比损失函数为:
Figure GDA0002391917410000094
其中,N为共有的样本对数,n为第n对输入的样本,yn表示两个样本是否同类,若yn=1表示两个样本有相同类标签,否则yn=0,Margin为用户设置的参数。
与传统的不同,本实施例的对比损失函数使用了样本的均值进行计算,新的对比损失函数为:
Figure GDA0002391917410000095
其中,mini-batch为训练神经网络参数的一个小的批块,m为mini-batch的大小,xi为mini-batch的第i个样本,μsame是mini-batch中与xi有相同类标签的样本的均值,μdiff是与xi有不同类标签的样本的均值。
孪生训练完成后,进入训练分类网络阶段,分类网络的交叉熵损失函数为:
Figure GDA0002391917410000096
其中p(xi)代表样本xi类型的真实分布,q(xi)代表样本xi类型的预测分布。
上述步骤S4包括:
步骤S4.1:计算局部密度ρi
所述ρi为:
Figure GDA0002391917410000097
其中N为样本数,dij=distance(xi,xj)为样本xi与xj之间的距离,
Figure GDA0002391917410000101
为步骤S2中已标记训练集的最好聚类结果的参数dc
Figure GDA0002391917410000102
为已标记样本聚类的数量,
Figure GDA0002391917410000103
为已标记的样本总数;
步骤S4.2:计算第i个样本和局部密度大于ρi的样本之间的最小距离δi,所述δi为:
Figure GDA0002391917410000104
步骤S4.3:通过局部密度ρi与距离δi找出聚类中心,得到聚类结果。
上述对比损失函数以平方欧式距离作为距离度量。
为了证明本发明在网页分类上的有良好的效果,本实施例在测试集上对分类器进行了测试与对比,让效果能更直观地体现。
测试集使用两个通用的数据集WebKB数据集和InternetAdvertisement(AD)数据集。对比方法包括各种领先的多视图学习方法和网页分类方法:VE_Cotraining、MVML_GL、VRKHS、MR-skCCA、SMCFL、MLAN、AMGL、SSGCA、USI2MD、TTSVM、DCCAE、SIMML。
图4为本发明为数据集WebKB的测试图、图5为本发明为数据集AD的测试图、图6为本发明为数据集WebKB上的F1-score测试图、图7为本发明为数据集AD上的F1-score测试图,如图所示,本发明在所有的情况下,分类准确率和F1-score的值都要比对比方法高,并随着训练数据及中标记样本比例的增加而有所提升,具有更强的网页分类性能。其原因是:本发明的方法能够充分且高效地利用多视图网页数据的信息,不仅使用深度学习方法,具有更强的特征表示能力和学习能力,还采用了半监督训练的策略,使得未标记网页样本中的信息也能得到利用。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种半监督多视图学习的网页分类方法,其特征在于,所述方法包括:
步骤S1:从网页中获取数据,建立训练集;
所述训练集包括已标记训练集和未标记训练集;
所述已标记训练集为进行过信息识别的数据集;
所述未标记训练集为未进行信息识别的数据集;
步骤S2:通过已标记训练集训练分类器,使用验证集计算分类器的准确率;
步骤S3:通过训练好的分类器对已标记训练集和未标记训练集进行编码,获取样本特征;
步骤S4:对样本特征进行密度聚类,获取聚类结果;
步骤S5:根据聚类结果对未标记训练集的样本进行分类;
步骤S6:若步骤S2中分类器对样本的分类与步骤S5中根据聚类结果对样本的分类一致,则被分类的样本与其分类标记加入到已标记训练集;
步骤S7:若未标记训练集存在样本,执行步骤S8,否则结束分类;
步骤S8:若本轮为第一轮或本轮与上一轮对比,步骤S2中的准确率有所提升,执行步骤S2-S7,否则结束分类;
所述分类器包括:多视图网络(multiview)、孪生网络(siamese)、分类网络(classifier);
所述分类器的目标函数为:
L=λ1(Ldiff+Ladv)+λ2Lcon+Lc
其中λ1与λ2为权重系数,Ldiff为多视图网络的正交损失函数,Ladv为多视图网络的对抗相似损失函数,LCon为孪生网络的对比损失函数,Lc为分类网络的交叉熵损失函数。
2.根据权利要求1所述的一种半监督多视图学习的网页分类方法,其特征在于,所述训练分类器包括训练多视图网络:
步骤S2.1:根据对样本不同的角度的描述,至少构成两个视图;
所述样本为
Figure FDA0002391917400000011
其中x表示已标记训练集,i表示训练集的第i个样本,k表示样本的第k个视图;
步骤S2.2:每个视图包含视图间的共享信息和视图内的专有信息,使用不同的矩阵对视图的信息进行转换;
专有信息:
Figure FDA0002391917400000012
其中Ws为提取专有信息特征的矩阵,
Figure FDA0002391917400000013
R为实数空间,其维度分别为r与dk
共享信息:
Figure FDA0002391917400000014
其中Wc为提取共享信息特征的矩阵,
Figure FDA0002391917400000015
R为实数空间,其维度分别为r与dk
视图信息:
Figure FDA0002391917400000016
共享信息取均值表示:
Figure FDA0002391917400000017
其中M为样本的视图总数;
步骤S2.3:把多个视图的专有信息与共享信息连接,样本所有视图的信息表示为:
Figure FDA0002391917400000018
3.根据权利要求2所述的一种半监督多视图学习的网页分类方法,其特征在于,所述正交损失函数为:
Figure FDA0002391917400000021
其中,S表示k视图的共享信息输出矩阵,H表示k视图的专有信息输出矩阵,
Figure FDA0002391917400000022
是平方Frobenius项。
4.根据权利要求2所述的一种半监督多视图学习的网页分类方法,其特征在于,所述对抗相似损失函数为:
Figure FDA0002391917400000023
其中,G代表生成器,用于根据视图的原始信息生成共享信息,其生成过程为:
Figure FDA0002391917400000024
D代表判定器,用于鉴别共享信息所属的视图,鉴别的概率为:
Figure FDA0002391917400000025
θG与θD为生成器G与判定器D的参数,N为样本总个数。
5.根据权利要求2所述的一种半监督多视图学习的网页分类方法,其特征在于,所述训练分类器包括训练孪生网络:
步骤S2.4:将多视图网络转换的视图信息编码,得到样本特征;
所述视图信息的数量为至少一对样本所转换,若xi和xj为样本,hi和hj为转换后的视图信息,codei和codei则为视图信息编码后得到的样本特征;
步骤S2.5:计算样本之间的距离:d(xi,xj)=||codei-codej||2
步骤S2.6:通过对比损失函数训练孪生网络,对比损失函数为:
Figure FDA0002391917400000026
其中,N为共有的样本对数,n为第n对输入的样本,yn表示两个样本是否同类,若yn=1表示两个样本有相同类标签,否则yn=0,Margin为用户设置的参数。
6.根据权利要求5所述的一种半监督多视图学习的网页分类方法,其特征在于,所述对比损失函数使用了样本的均值进行计算,新的对比损失函数为:
Figure FDA0002391917400000027
其中,mini-batch为训练神经网络参数的一个小的批块,m为mini-batch的大小,xi为mini-batch的第i个样本,μsame是mini-batch中与xi有相同类标签的样本的均值,μdiff是与xi有不同类标签的样本的均值。
7.根据权利要求2所述的一种半监督多视图学习的网页分类方法,其特征在于,所述交叉熵损失函数为:
Figure FDA0002391917400000028
其中p(xi)代表样本xi类型的真实分布,q(xi)代表样本xi类型的预测分布。
8.根据权利要求1所述的一种半监督多视图学习的网页分类方法,其特征在于,所述步骤S4包括:
步骤S4.1:计算局部密度ρi
所述ρi为:
Figure FDA0002391917400000029
其中N为样本数,dij=distance(xi,xj)为样本xi与xj之间的距离,
Figure FDA00023919174000000210
为步骤S2中已标记训练集的最好聚类结果的参数dc,
Figure FDA00023919174000000211
为已标记样本聚类的数量,
Figure FDA00023919174000000212
为已标记的样本总数;
步骤S4.2:计算第i个样本和局部密度大于ρi的样本之间的最小距离δi,所述δi为:
Figure FDA0002391917400000031
步骤S4.3:通过局部密度ρi与距离δi找出聚类中心,得到聚类结果。
9.根据权利要求5所述的一种半监督多视图学习的网页分类方法,其特征在于,所述对比损失函数以平方欧式距离作为距离度量。
CN201910652836.2A 2019-07-18 2019-07-18 一种半监督多视图学习的网页分类方法 Active CN110413924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910652836.2A CN110413924B (zh) 2019-07-18 2019-07-18 一种半监督多视图学习的网页分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910652836.2A CN110413924B (zh) 2019-07-18 2019-07-18 一种半监督多视图学习的网页分类方法

Publications (2)

Publication Number Publication Date
CN110413924A CN110413924A (zh) 2019-11-05
CN110413924B true CN110413924B (zh) 2020-04-17

Family

ID=68362007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910652836.2A Active CN110413924B (zh) 2019-07-18 2019-07-18 一种半监督多视图学习的网页分类方法

Country Status (1)

Country Link
CN (1) CN110413924B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861896A (zh) * 2019-11-27 2021-05-28 北京沃东天骏信息技术有限公司 一种图像识别方法和装置
CN110912917A (zh) * 2019-11-29 2020-03-24 深圳市任子行科技开发有限公司 恶意url检测方法及系统
CN111126470B (zh) * 2019-12-18 2023-05-02 创新奇智(青岛)科技有限公司 基于深度度量学习的图片数据迭代聚类分析方法
CN111488951B (zh) * 2020-05-22 2023-11-28 南京大学 一种用于rgb-d图像分类的对抗度量学习模型生成方法
CN111914897A (zh) * 2020-06-30 2020-11-10 电子科技大学 一种基于孪生长短时间记忆网络的故障诊断方法
CN111814016B (zh) * 2020-07-13 2022-07-12 重庆邮电大学 一种混合粒度多视图新闻数据聚类方法
CN111914912B (zh) * 2020-07-16 2023-06-13 天津大学 一种基于孪生条件对抗网络的跨域多视目标识别方法
CN112434576A (zh) * 2020-11-12 2021-03-02 合肥的卢深视科技有限公司 一种基于深度相机的人脸识别方法及系统
CN112784130B (zh) * 2021-01-27 2022-05-27 杭州网易云音乐科技有限公司 孪生网络模型训练、度量方法、装置、介质和设备
CN113191442B (zh) * 2021-05-14 2023-11-17 中国石油大学(华东) 一种互导学习高光谱图像分类方法
CN113435900A (zh) * 2021-07-12 2021-09-24 中国工商银行股份有限公司 交易风险确定方法、装置和服务器
CN113822342B (zh) * 2021-09-02 2023-05-30 湖北工业大学 一种安全图卷积网络的文献分类方法及系统
CN113869333B (zh) * 2021-11-29 2022-03-25 山东力聚机器人科技股份有限公司 基于半监督关系度量网络的图像识别方法及装置
CN114219049B (zh) * 2022-02-22 2022-05-10 天津大学 一种基于层级约束的细粒度笔石图像分类方法和装置
CN115860091B (zh) * 2023-02-15 2023-04-28 武汉图科智能科技有限公司 一种基于正交约束的深度特征描述符学习方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN109948561A (zh) * 2019-03-25 2019-06-28 广东石油化工学院 基于迁移网络的无监督图像视频行人重识别的方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9824408B2 (en) * 2014-03-31 2017-11-21 Monticello Enterprises LLC Browser payment request API
CN107992887B (zh) * 2017-11-28 2021-02-19 东软集团股份有限公司 分类器生成方法、分类方法、装置、电子设备及存储介质
CN109993229A (zh) * 2019-04-02 2019-07-09 广东石油化工学院 一种严重不平衡数据分类方法
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN109948561A (zh) * 2019-03-25 2019-06-28 广东石油化工学院 基于迁移网络的无监督图像视频行人重识别的方法及系统

Also Published As

Publication number Publication date
CN110413924A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110413924B (zh) 一种半监督多视图学习的网页分类方法
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
CN109063565B (zh) 一种低分辨率人脸识别方法及装置
Lee et al. Object-graphs for context-aware visual category discovery
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN105808752B (zh) 一种基于cca和2pknn的自动图像标注方法
CN105389326B (zh) 基于弱匹配概率典型相关性模型的图像标注方法
CN108959522B (zh) 基于半监督对抗生成网络的迁移检索方法
Huang et al. Exploiting local coherent patterns for unsupervised feature ranking
CN110097095B (zh) 一种基于多视图生成对抗网络的零样本分类方法
CN110942091A (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN112926045B (zh) 一种基于逻辑回归模型的群控设备识别方法
CN113177132A (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN107220663B (zh) 一种基于语义场景分类的图像自动标注方法
Zhang et al. Automatic discrimination of text and non-text natural images
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
CN110647907A (zh) 利用多层分类和字典学习的多标签图像分类算法
CN112085072A (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN102521599A (zh) 一种基于集成学习的模式训练和识别方法
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN109783805A (zh) 一种网络社区用户识别方法及装置
CN113222002B (zh) 一种基于生成式鉴别性对比优化的零样本分类方法
CN108960186B (zh) 一种基于人脸的广告机用户识别方法
CN106778859A (zh) 一种基于数据密度峰值的自标记半监督分类方法及装置
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant