CN110413924B

CN110413924B - 一种半监督多视图学习的网页分类方法

Info

Publication number: CN110413924B
Application number: CN201910652836.2A
Authority: CN
Inventors: 荆晓远; 贾晓栋; 訾璐; 黄鹤; 姚永芳; 彭志平
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2020-04-17
Anticipated expiration: 2039-07-18
Also published as: CN110413924A

Abstract

本发明涉及互联网技术领域，更具体地，涉及一种半监督多视图学习的网页分类方法，包括：从网页中获取数据，建立训练集；通过已标记训练集训练分类器；通过训练好的分类器对已标记训练集和未标记训练集进行编码，获取样本特征；对样本特征进行密度聚类，获取聚类结果；根据聚类结果对未标记训练集的样本进行分类。本方案使用已标记训练集对分类器进行训练，在现有的多视图分类方法的基础上加入正交约束和对抗相似约束，再通过训练好的分类器对训练集里所有的数据进行密度聚类标记，最后对分类器进行准确率验证，多次迭代上述过程能使分类器的分类性能得到提升。

Description

一种半监督多视图学习的网页分类方法

技术领域

本发明涉及互联网技术领域，更具体地，涉及一种半监督多视图学习的网页分类方法。

背景技术

计算机技术日新月异，互联网已成为了人类社会不可或缺的一部分。随着移动互联网和web2.0的迅速发展，过去的几十年互联网的网页数目呈现爆炸式的增长。网上信息的日益增多，给网页信息检索和分析(TSIRA)的研究带来了更多难题，对网页信息检索和分析有了更高的要求。网页分类在网页信息检索和分析中具有重要的作用，如何给数目庞大的网页进行更快速更准确的分类，使用户可以更方便地找到需要的信息已成为了这一领域的难题。

网页信息作为一种多视图数据，通常以网页视图和链接视图表示，其不仅包含视图之间的共享信息，还包含视图内的专有信息。比如，网页视图和链接视图会共享一些词句，同时网页视图可能包含更多其他信息。

网页分类最主要的研究就是如何对网页这种多视图数据进行最有效的利用，对于此目前已有不少优秀的方案，但这些方案一般都存在着缺陷，难以适用于大多数的场景。其中，具有代表性的为：典型相关性分析(CCA，Canonical correlation analysis)的子空间学习，此方法将不同视图视为一个潜在共享子空间的不同描述，目标是将不同视图映射至共同的空间内，通过最大化不同视图的相似性利用视图间的共享信息。这种方法虽然利用视图间的共享信息，但却无法对每个视图内的专有信息进行有效的利用，进一步地提高分类准确率。于是研究者们又提出了一种能够同时利用共享专有两种信息的方法，即在CCA的子空间学习的基础上，使用深度学习对特征表现能力进行增强，提升网页分类的表现。此方法在人脸识别，亲缘关系鉴定和行人重识别上有不错的效果。但由于缺乏约束，基于共享专有的子空间学习的方法会引入数据冗余性，导致模型的特征学习能力退化。针对学习能力退化的问题，学者Avrim Blum和Tom Mitchell提出可以用半监督训练中的协同训练解决，即让两个视图上的分类器能够为对方标记数据。而kim等人则提出了一个基于标签传播的半监督训练方法，利用点击记录将类标记传播至未标记的相似网页进行训练数据的扩增。还有的提出双视图直推支持向量机的方法利用多种网页表示和未标记数据提升分类性能。

上述这些方法虽然都实现了网页分类，但随着时间的推移，仅仅利用了多视图数据的部分信息，没有充分考虑到视图间、视图内以及类间、类内的全部信息的话，会导致网页分类发生错误。因此目前亟需一种能全面考虑信息，准确给网页分类的方法。

发明内容

为了解决上述问题，本发明提供一种半监督多视图学习的网页分类方法，该方法能使网页分类更准确。

本发明采取的技术方案是：

一种半监督多视图学习的网页分类方法，包括：

步骤S1：从网页中获取数据，建立训练集；

其中，训练集包括已标记训练集和未标记训练集；

已标记训练集为进行过信息识别的数据集；

未标记训练集为未进行信息识别的数据集；

步骤S2：通过已标记训练集训练分类器，使用验证集计算分类器的准确率；

步骤S3：通过训练好的分类器对已标记训练集和未标记训练集进行编码，获取样本特征；

步骤S4：对样本特征进行密度聚类，获取聚类结果；

步骤S5：根据聚类结果对未标记训练集的样本进行分类；

步骤S6：若步骤S2中分类器对样本的分类与步骤S5中根据聚类结果对样本的分类一致，则被分类的样本与其分类标记加入到已标记训练集；

步骤S7：若未标记训练集存在样本，执行步骤S8，否则结束分类；

步骤S8：若本轮为第一轮或本轮与上一轮对比，步骤S2中的准确率有所提升，执行步骤S2-S7，否则结束分类。

从网上获取网页作为训练分类器的数据，对其中的一部分进行信息识别，判断网页自身是否包含某种数据特征，数据特征即图片、音乐、视频、字符等。根据数据特征的有无给网页分类，打上对应的分类标记，这一部分进行过信息识别的网页形成已标记训练集，而未进行信息识别的则为未标记训练集。本方案使用已标记训练集对分类器进行训练，在现有的多视图分类方法的基础上加入正交约束和对抗相似约束，再通过训练好的分类器对训练集里所有的数据进行密度聚类标记，最后对分类器进行准确率验证，多次迭代上述过程能使分类器的分类性能得到提升。

进一步地，所述分类器包括：多视图网络(multi view)、孪生网络(siamese)、分类网络(classifier)；

所述分类器的目标函数为：

L＝λ₁(L_diff+L_adv)+λ₂L_Con+L_c；

其中λ₁与λ₂为权重系数，L_diff为多视图网络的正交损失函数，L_adv为多视图网络的对抗相似损失函数，L_Con为孪生网络的对比损失函数，L_c为分类网络的交叉熵损失函数。

分类器目标函数作为分类器性能好坏的度量，要提高分类性能，最直接的便是对分类器目标函数修改或者优化。在本方案中，分类器的目标函数分别由正交损失函数、对抗相似损失函数、对比损失函数、交叉熵损失函数与λ₁、λ₂权重系数构成，对应地优化了分类器的多视图网络、孪生网络与分类网络。

进一步地，所述训练分类器包括训练多视图网络：

步骤S2.1：根据对样本不同的角度的描述，至少构成两个视图；

所述样本为

其中x表示已标记训练集，i表示训练集的第i个样本，k表示样本的第k个视图；

步骤S2.2：每个视图包含视图间的共享信息和视图内的专有信息，使用不同的矩阵对视图的信息进行转换；

专有信息：

其中W_s为提取专有信息特征的矩阵，

R为实数空间，其维度分别为r与d_k；

共享信息：

其中W_c为提取共享信息特征的矩阵，

R为实数空间，其维度分别为r与d_k；

视图信息：

因为多个视图间的共享信息几乎相同，因此共享信息取均值表示：

其中M为样本的视图总数；

步骤S2.3：把多个视图的专有信息与共享信息连接，样本所有视图的信息表示为：

使用已标记训练集训练分类器，首先是将已标记的数据送入多视图网络，根据不同角度构成网页的多个视图，然后使用矩形对多视图的信息进行转换。

进一步地，其特征在于，所述正交损失函数为：

其中，S表示k视图的共享信息输出矩阵，H表示k视图的专有信息输出矩阵，

是平方Frobenius项。

未添加约束的多视图分类方法会有数据冗余的问题，即无法有效的将交缠的共享信息和专有信息完整的区分开来。当多视图网络加入正交损失函数，在上述矩阵转换视图信息的过程中，正交约束能够将共享信息和专有信息进行再次划分，避免他们相互污染。

进一步地，所述对抗相似损失函数为：

其中，G代表生成器，用于根据视图的原始信息生成共享信息，其生成过程为：

D代表判定器，用于鉴别共享信息所属的视图，鉴别的概率为：

θ_G与θ_D为生成器G与判定器D的参数，N为样本总个数。

对抗相似约束的对抗训练思想源于生成式对抗网络(GAN，GenerativeAdversarial Networks)，目的是使得不同视图中提取的共享信息相似性最大。与生成式对抗网络一样，对抗相似约束包括生成器与判定器，生成器不断生成共享信息，判定器对共享信息所属的视图进行鉴别，同时对判别器和生成器进行训练，直到判别器无法鉴别由生成器产生的共享信息属于哪一个视图。对抗相似约束将不同视图之上的共享信息之间差异最小化，相似性最大化，此时可以认为提取出的共享信息是近似一致的。

进一步地，所述训练分类器包括训练孪生网络：

步骤S2.4：将多视图网络转换的视图信息编码，得到样本特征；

所述视图信息的数量为至少一对样本所转换，若x_i和x_j为样本，h_i和h_j为转换后的视图信息，code_i和code_j则为视图信息编码后得到的样本特征；

步骤S2.5：计算样本之间的距离：d(x_i，x_j)＝||code_i-code_j||²；

步骤52.6：通过对比损失函数训练孪生网络，对比损失函数为：

其中，N为共有的样本对数，n为第n对输入的样本，y_n表示两个样本是否同类，若y_n＝1表示两个样本有相同类标签，否则y_n＝0，Margin为用户设置的参数。

在多视图的网页数据中，除了各视图间的共享信息和视图内的专有信息，还存在与类别相关的信息，即类内相关性和类间判别性。度量学习方法通过学习一个距离度量，能够对类别信息加以利用，从而增加数据的鉴别力。这里使用孪生网络对度量学习进行具体实现。孪生网络每次将一对样本作为输入，如果成对的样本具有相同的类标签，孪生网络会使其距离更近；否则将会使其距离大于某一间隔。通过迭代，属于不同类的样本将互相远离，而属于同一类的样本则会聚集。

进一步地，所述对比损失函数使用了样本的均值进行计算，新的对比损失函数为：

其中，mini-batch为训练神经网络参数的一个小的批块，m为mini-batch的大小，x_i为mini-batch的第i个样本，μ_same是mini-batch中与x_i有相同类标签的样本的均值，μ_diff是与x_i有不同类标签的样本的均值。

传统的孪生网络中，输入的成对样本为随机选择，使得对比损失会大幅度摆动。不仅很难得到稳定的结果，并且降低孪生网络的性能。为了得到更好的结果，本方案对对比损失加以改进，不同于原来的对比损失使用随机选择的输入，现利用mini-batch的均值能够使得孪生网络更快得到稳定结果。

进一步地，所述交叉熵损失函数为：

其中p(x_i)代表样本x_i类型的真实分布，q(x_i)代表样本x_i类型的预测分布。

交叉熵能够度量两个概率分布间的差异性信息，用于分类任务中，它的值越小，说明标签的预测值越接近于真实值，模型的分类性能也越好。

进一步地，所述步骤S4包括：

步骤S4.1：计算局部密度ρ_i；

所述ρ_i为：

其中N为样本数，d_ij＝distance(x_i，x_j)为样本x_i与x_j之间的距离，

为步骤S2中已标记训练集的最好聚类结果的参数d_c，

为已标记样本聚类的数量，

为已标记的样本总数；

步骤S4.2：计算第i个样本和局部密度大于ρ_i的样本之间的最小距离δ_i，所述δ_i为：

步骤S4.3：通过局部密度ρ_i与距离δ_i找出聚类中心，得到聚类结果。

经过深度度量学习后的数据优化了类别边界，有利于聚类函数对不同的聚类进行识别。网页分类任务中，未标记的网页数据通常也包含许多有用的类别信息，因此高效地利用这些未标记的网页样本能够带来性能的提升。密度聚类方法能够识别任意大小的聚类，可以对未标记的数据样本进行识别和标记。这里使用的密度聚类函数与文献“Clusteringby fast search and find of density peaks”相同。其中，参数d_c不提前设置，在步骤S2中获取到已标记训练集的参数d_c，使用

找出里面最好的参数d_c，再将code使用这个参数d_c重新聚类一遍，得到聚类结果，所述code与步骤S2中视图信息编码后得到的样本特征code相同。

进一步地，所述对比损失函数以平方欧式距离作为距离度量。

与现有技术相比，本发明的有益效果为：

(1)多视图网络添加了正交约束，解决了数据冗余问题，对交缠的共享信息和专有信息进行高效的划分。

(2)多视图网络添加了相似对抗约束，使共享信息之间保持充分相关，有利于特征的表示。

(3)孪生网络添加了对比损失函数，采用深度度量学习对类间的相关性和类内的判定性进行充分利用，增加生成特征的鉴别力，提高了孪生网络的性能。

(4)对分类器使用了半监督训练策略，将网页通过密度聚类进行标记，经过分类网络验证之后，对少量带标记的训练数据集加以补充，多次迭代后使分类器的分类性能得到提升。

附图说明

图1为本发明的流程示意图；

图2为本发明的多视图网络示意图；

图3为本发明的分类器训练流程示意图；

图4为本发明为数据集WebKB的测试图；

图5为本发明为数据集AD的测试图；

图6为本发明为数据集WebKB上的F1-score测试图；

图7为本发明为数据集AD上的F1-score测试图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例

本实施例提供一种半监督多视图学习的网页分类方法，包括：

步骤S1：从网页中获取数据，建立训练集；

其中，训练集包括已标记训练集和未标记训练集；

已标记训练集为进行过信息识别的数据集；

未标记训练集为未进行信息识别的数据集；

步骤S4：对样本特征进行密度聚类，获取聚类结果；

步骤S5：根据聚类结果对未标记训练集的样本进行分类；

首先在网上获取网页作为数据，形成训练集，然后对网页进行信息识别，根据其自身是否包含某一部分的数据特征，对网页分类及打上标记。进行过信息识别的网页为已标记训练集，未进行识别的数据形成未标记训练集。图1为本发明的流程示意图，如图1所示，左上角为第一步，使用已标记训练集对多视图、孪生网络及分类网络进行训练。左下角为第二步，使用已经训练好的多视图、孪生网络及分类网络给已标记训练集和未标记训练集编码，获得code。右下角为第三步，对code进行聚类，得到聚类结果。右上角为第四步，根据聚类结果给已标记训练集和未标记训练集分类及标记。

上述分类器包括：多视图网络(multi view)、孪生网络(siamese)、分类网络(classifier)；

所述分类器的目标函数为：

L＝λ₁(L_diff+L_adv)+λ₂L_Con+L_c；

图2为本发明的多视图网络示意图，如图2所示，训练多视图网络包括：

所述样本为

专有信息：

其中W_s为提取专有信息特征的矩阵，

R为实数空间，其维度分别为r与d_k；

共享信息：

其中W_c为提取共享信息特征的矩阵，

R为实数空间，其维度分别为r与d_k；

视图信息：

其中M为样本的视图总数；

多视图添加的正交损失函数为：

是平方Frobenius项。

多视图添加的对抗相似损失函数为：

θ_G与θ_D为生成器G与判定器D的参数，N为样本总个数。

图3为本发明的分类器训练流程示意图，如图3所示，完成多视图训练后，进入训练孪生网络阶段，其包括：

步骤S2.6：通过对比损失函数训练孪生网络，对比损失函数为：

与传统的不同，本实施例的对比损失函数使用了样本的均值进行计算，新的对比损失函数为：

孪生训练完成后，进入训练分类网络阶段，分类网络的交叉熵损失函数为：

上述步骤S4包括：

步骤S4.1：计算局部密度ρ_i；

所述ρ_i为：

为步骤S2中已标记训练集的最好聚类结果的参数d_c，

为已标记样本聚类的数量，

为已标记的样本总数；

上述对比损失函数以平方欧式距离作为距离度量。

为了证明本发明在网页分类上的有良好的效果，本实施例在测试集上对分类器进行了测试与对比，让效果能更直观地体现。

测试集使用两个通用的数据集WebKB数据集和InternetAdvertisement(AD)数据集。对比方法包括各种领先的多视图学习方法和网页分类方法：VE_Cotraining、MVML_GL、VRKHS、MR-skCCA、SMCFL、MLAN、AMGL、SSGCA、USI2MD、TTSVM、DCCAE、SIMML。

图4为本发明为数据集WebKB的测试图、图5为本发明为数据集AD的测试图、图6为本发明为数据集WebKB上的F1-score测试图、图7为本发明为数据集AD上的F1-score测试图，如图所示，本发明在所有的情况下，分类准确率和F1-score的值都要比对比方法高，并随着训练数据及中标记样本比例的增加而有所提升，具有更强的网页分类性能。其原因是：本发明的方法能够充分且高效地利用多视图网页数据的信息，不仅使用深度学习方法，具有更强的特征表示能力和学习能力，还采用了半监督训练的策略，使得未标记网页样本中的信息也能得到利用。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。