CN112766393B

CN112766393B - 一种基于主动学习多视图多标签分类器的构建方法

Info

Publication number: CN112766393B
Application number: CN202110103982.7A
Authority: CN
Inventors: 赵静; 邱增玉; 孙仕亮
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-10-15
Anticipated expiration: 2041-01-26
Also published as: CN112766393A

Abstract

本发明公开了一种基于主动学习多视图多标签分类器的构建方法，在基于多视图工作基础上，首先采用条件伯努利混合模型构建了一种多视图的分类器和一个综合分类器。并构建了一种选择样本的查询函数，用于在未标注样本集上挑选信息最为丰富的样本标注，添加到标注样本集上能够以标注最少的样本，最大化地提升分类器的效果，并减少标注的成本。本发明的创新点是将多视图的方法引入到多标签分类中构建分类器，并考虑标签之间的依赖关系、视图的一致性来制定样本的查询函数。最后在场景数据集上进行了实验，验证了本发明的有效性。

Description

一种基于主动学习多视图多标签分类器的构建方法

技术领域

本发明涉及计算机技术领域，涉及主动学习、多视图学习，构建多标签分类器和制定多标签主动学习的样本选择策略，具体地说是一种基于主动学习的多视图多标签分类器的构建方法。

背景技术

涉及的背景技术：主动学习，多标签分类，伯努利混合模型和条件伯努利混合模型，评价指标。

1)主动学习

对于包括多媒体数据分类在内的分类问题，获得良好效果的关键是要有足够或必要的有标签的训练数据和有效的学习模型。在实践中，标注数据是不可避免的和乏味。特别是对于多标签标注问题，标注过程比标注单标签要花费更多的时间和成本。具体来说，在单标签分类的情况下，标注者只需要识别单个类别。而在多标签的情况下，标注者必须考虑每个标签的所属的可能样本，即使生成的标签是稀疏的。此外，多媒体数据的标注需要更多的时间来观看或感受数据。因此，如果没有很多的带标签的数据，则尽可能选择必要的样本进行标注。主动学习正是为了做出合适的样本构建样本查询函数，从未标注的数据集中选择最有价值的样本，提交给专家标注后加入到标记集中，通过使用尽可能少的标注样本来帮助分类器达到尽可能高的分类效果。例如，最近的研究将主动学习算法应用于图像分类，以减少标注的工作量。

基于多视图的主动学习的代表性算法是协同训练，它包含一个2步迭代策略。首先，使用标注的样本在每个视图中学习一个分类器，然后用所学到的分类器运用到未标注的样本中，查找争用点。在实际应用中，协同训练算法的效果优于现有的主动学习方法，在各种领域如文本分类，图像分类等均表现不错。通过更好地使用多视图信息，可以选择出具有代表性又具有信息量的样本。

2)多标签分类

多标签分类是一项重要的机器学习任务，已在许多应用程序中使用。对于许多现实世界数据，一个对象可以分配为多个类别，并且该对象的类别编号不是固定的。这种问题通常称为多标签分类。例如，在教育文本分类中，教育新闻可以涵盖多个主题，例如学龄前、小学、高中和大学。在音乐信息检索中，一部交响曲可以传达各种信息，例如蓝色、爵士和古典音乐。形式上用X表示样本空间，并且Y＝{y¹，y²，...，y^M}表示标签空间，多标签学习的任务是从训练集D＝{(x_i，y_i)}中学习一个函数h：X→P(Y)，其中幂集P(Y)是Y的所有子集的集合，包括空集合φ和Y本身。早期的多标签学习主要集中于多标签文本分类问题。在过去的十年中，多标签学习逐渐吸引了机器学习和相关社区的广泛关注，并已广泛应用于各种问题，例如图像自动注释、网络挖掘、标签推荐等。

早期的多标签分类研究人员试图将其作为一些公认的学习方案来解决。二元关联方法将多标签学习问题分解为几个独立的二分类问题，其中每个二分类问题对应于标签空间中的一个可能的标签。二元关联方法的优点之一是该算法易于实现，缺点是它忽略了标签之间的依赖性，因此各个标签的分类经常会发生冲突。为了解决冲突问题，考虑条件标签依赖与二元关联方法相结合来探讨标签相关性。另一种方法是幂集方法，它将每个标签子集作为一个类，并将其训练为一个多类分类问题。因此它只能分类训练数据集中看到的标签子集，而不能分类看不见的标签。此外，幂集方法对于指数标号集往往是不可行的。最近提出了条件伯努利混合模型是一种先进的多标注学习方法，适当地构建标签之间的依赖关系获得更准确的分类标签。条件伯努利混合模型是一种概率模型，提供了分类的不确定性，这也有助于构建样本查询函数。

3)伯努利混合模型和条件伯努利混合模型

伯努利混合模型是用于多维二元变量密度估计的经典模型，其中通过假设每个混合模型中变量的独立性来实现可学习性。因此，每个模型的概率密度仅仅是伯努利概率密度的乘积，整个模型具有以下形式：

其中π_k是第k个子分布的混合系数，称为门控函数。μ_mk表示第k个子分部中的第m个伯努利分布的参数。M为样本标签总个数，K为子分布的总个数。伯努利混合模型提供了一种有效的方法来建模不同的两元变量之间的依赖关系，且公式易于计算。

对于多标签学习，有文献中的分析表明，给定输入特征，标签可以是条件独立的。在此假设下，条件伯努利混合模型扩展了以x为条件的混合系数和伯努利分布。以输入x为条件的标签的分布表示为：

其中，π_k(·)是第k个子分布的混合系数，称为门控函数；α_k为π_k(·)的隐变量，β_km表示第k个子分布中第m个伯努利分布的参数，以上所述参数通过EM算法估计得到；M为样本标签总个数，K为子分布的总个数，Bern(y_m|x；β_km)为伯努利分布函数，可预测标签为y_m的概率，x为输入的标注样本集特征，pc(y|x)为分类器输小的标签分类概率。

条件伯努利混合模型的结构类似于专家混合模型，其中门函数将输入空间概率性地划分为不相交的区域，并且专家模型为其区域生成输出。可以将条件伯努利混合模型视为专家混合的多标签扩展，其中每个专家内部都有特定的标签分解。因此，条件伯努利混合模型将多标签问题解决为一个多类问题和几个二元分类问题。类别分布π_k(x；α_k)也称为门函数，以概率π_k(x；α_k)将每个样本x分配给第k子分布，该概率将输入空间划分为几个区域，使得每个区域仅包含条件独立标签。门控函数π_k(x；α_k)可以由提供概率估计的任何多分类器样本化，例如多项逻辑回归，而标签分类函数Bern(y_m|x)可以由任何具有概率输出的二分类器样本化。

因为需要根据所有的标签候选集进行最佳分类才能找到最可能的标签，共有2^M个标签候选集，很难评估每个候选集的概率。为了精确推断，许多多标签方法都具有这种难处理性。条件伯努利混合模型使用祖先采样策略进行分类，首先根据混合系数π_k(x；α_k)，然后以概率Bern(y_m|x；β_km)独立采样每个标签y_m。该过程可以重复多次以生成一组y个候选对象，然后从中选择最频繁的一组。条件伯努利混合模型通过引入了混合系数来捕捉标签之间的关系结构，很好地解决多标签分类问题。

4)评价指标

主动学习通常使用两个指标来衡量分类器的效果，汉明损失(Hamming loss)和F1得分。定义如下：

Hamming loss：

其中XOR是互斥运算，仅当输入不同时才输出true。汉明损失评估了错误分类的样本标签对的分数，即丢失了相关标签或分类了不相关标签。

F1 Score：

其中precision是精确度，recall表示召回率，F1 Score表示为精确度和召回率的加权平均值，其中F1 Score等于1时达到最佳值，等于0时达到最差值。该度量方法需要知道测试样本标签的总真阳性、总假阴性和总假阳性。

发明内容

本发明目的是提供一种基于主动学习的多视图多标签分类器的构建方法，该方法是构建出条件伯努利混合模型的多标签分类器。具体包括构建多视图条件伯努利混合模型的多标签分类器，和基于主动学习的方法构建出的样本选择查询函数，以提高分类器的效果和减少标注数据的成本。

实现本发明目的具体技术方案是：

一种基于主动学习的多视图多标签分类器的构建方法，包括如下步骤：

步骤一：建立多标签分类数据集，按照不同的特征类型划分V个多视图标注样本集L和未标注样本集U；

步骤二：为每个视图构建条件伯努利混合模型分类器，在标注样本集L上同时训练，输出预测标签分类的概率；

步骤三：构建综合条件伯努利混合模型分类器，并以步骤二输出的预测标签分类的概率作为输入进行训练，输出最终的标签分类概率；并用汉明损失或F1得分评价综合条件伯努利混合模型分类器分类的效果，汉明损失、F1得分的范围均在0到1之间的常数，其中汉明损失越接近0越好，F1得分越接近1越好；

步骤四：构建样本选择查询函数φ(x)，通过查询函数从未标注样本集U中挑选2-4个样本标注后，添加到标注集L中构成新的标注集，并将其从未标注样本集U中删除；

步骤五：在新的标注样本集上重新同步训练步骤二构建的条件伯努利混合模型分类器和步骤三构建的综合条件伯努利混合模型分类器，获得更新后的分类器；

步骤六：在测试样本集上测试更新后的分类器的效果；若汉明损失≤0.2或F1得分≥0.7或者所选的未标注样本达到设定的数量，则停止训练，并将当前的分类器作为所述的多视图多标签分类器；否则重复步骤四、步骤五及步骤六。

所述为每个视图构建条件伯努利混合模型分类器，具体通过以下公式构建：

其中，π_k(·)是第k个子分布的混合系数，称为门控函数；α_k为π_k(·)的隐变量，β_km表示第k个子分布中第m个伯努利分布的参数，以上所述参数通过EM算法估计得到；M为样本标签总个数，K为子分布的总个数，Bern(y_m|x；β_km)为伯努利分布函数，可预测标签为y_m的概率，x为输入的标注样本集特征，pc(y|x)为分类器输出的标签分类概率。

所述构建综合分类器，具体通过以下公式构建：

其中，p＝[pc₁(y|x¹)，pc₂(y|x²)，...，pc_v(y|x^V)]，pc_i(y|xⁱ)是步骤二中第i个多视图分类器输出的预测标签分类的概率，pCBM^*表示综合分类器输出的标签分类的概率，N(y)表示标签集合，R_output(ym)表示通过综合分类器的概率得到的标签集ym。

所述构建样本选择查询函数φ(x)，包括如下步骤：

步骤4.1：构建最大化多视图聚类熵(Maximize Multi-view Cluster-BasedEntropy)策略查询函数，简称MvCBE；

最大化多视图聚类熵中包括两阶段选择，是基于随机聚类的；对于每个聚类，首先最大化以下函数以获得几个候选样本x^*；

其中Q_j表示第j个聚类，V表示多视图数量，K表示子分布总个数，π_vk(·)表示第v视图属于第k个子分布的权重；

步骤4.2：然后从每个聚类的候选样本x^*中以最小的置信度重新选择样本，通过最大化以下函数再在候选样本x^*选出要标注的样本：

其中pc_v(y|x^v)为每个聚类中候选样本x^v的预测概率，

表示从步骤4.1中挑选出的标签集合。

本发明的有益效果包括：

1)早期的主动学习分类器，如二元关联技术、幂集方法等，均未考虑标签之间的依赖关系。本发明采用条件伯努利混合模型，从不同的视图角度中构建分类器，综合利用了多个视图的信息和标签之间的依赖关系，从而获得更准确的标签分类，这也有助于构建样本查询函数。

2)与传统的主动学习方法相比，本发明的样本查询函数会从不同视图的分类器中评估每个样本，从而获取更准确的信息来确定是否需要查询该样本，因此可以选择出具有代表性又具有信息量的样本，从而减少标注数据的工作量，提升分类器的效果。

附图说明

图1为本发明的流程图；

图2为本发明主动学习示意图；

图3为场景数据集示例图；

图4为本发明实验效果对比图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

首先构建好V个多视图分类器和综合分类器，然后在标注样本集L上分别单独训练V个多视图分类器，将其输出作为综合分类器的输入训练综合分类器。训练完成后构建选择样本的策略查询函数φ(x)。通过查询函数φ(x)从未标注样本集U中选择信息最丰富的样本x^*标注后，从未标注样本集U中删除此样本，并将其加入到标注样本集L中继续同步训练多视图分类器和综合分类器。通过(Hamming loss)和F1得分对构建的分类器效果评估，不断迭代重复此步骤分类器效果满足设定条件或者未标注样本达到设定的数量。

本发明包括如下步骤：

采用场景数据集，按照图片的亮度、色度等特征，分别划分成三个多视图标注样本集L和未标注样本集U；

步骤二：构建V个多视图分类器C，所述分类器采用本构建提出的。具体构建是基于条件伯努利混合模型的分类器，简称条件伯努利混合模型，包括如下步骤：

令

表示d维的样本空间，Y＝{y¹，...，y^M}表示M个标签空间。对于多视图数据，用X表示V视图中的数据，即X＝{x¹，x²，...，x^V}。从不同视图的标注样本集合表示为{X¹，Y}，...{X²，Y}，...，{X^v，Y}，条件伯努利混合模型分类器表示为C₁，C₂，...，C_V，它们是分别单独训练的。对于每一个输入x，这些基于条件伯努利混合模型的分类器输出V个不同的分类结果。为了利用这些从不同的视图中得到的输出，并做出最终分类，需要构建了一个综合的分类器，这个分类器使用经过训练的条件伯努利混合模型的分类概率作为输入，输出最终的预测标签分类概率。因此多视图条件伯努利混合模型模型包括两部分：V个独立的条件伯努利混合模型分类器和一个额外的多视图分类器。下面给出对所提出的多视图分类器的具体描述。

步骤a1：为每个视图构建条件伯努利混合模型分类器

对于多标签学习，有文献中的分析表明，给定输入特征，标签可以是条件独立的。在此假设下，条件伯努利混合模型扩展了以x为条件的混合系数和伯努利分布。构建条件伯努利混合模型(Stacked条件伯努利混合模型)分类器的构建可通过以下公式得到：

其中，α_k表示函数π_k(·)的隐变量，β_km表示第k个分量中第m个伯努利分布的参数，以上所述参数可通过EM算法得到，pc(y|x)为每个视图输出的概率。

步骤a2：构建综合条件伯努利混合模型分类器

综合条件伯努利混合模型分类器以步骤a1分类器的输出概率为输入，并以目标标签分类概率为输出。综合分类器是根据下面公式得到：

其中，p＝[pc₁(y|x¹)，pc₂(y|x²)，...，pc_v(y|x^V)]，pc_i(y|xⁱ)是步骤二中第i个多视图分类器输出的预测标签分类的概率，pCBM^*表示为综合分类器输出的标签分类的概率，N(y)表示标签集合，R_output(ym)表示通过综合分类器的概率得到的标签集ym。

步骤三：构建样本查询函数，即构建查询函数φ(x)挑选样本x^*，将选择的样本x^*标注后加入到标注样本集L中，并将其从未标注样本集U中删除，所述策略采用本构建新提出的。具体构建多视图选择样本的策略包含如下步骤：

为了充分利用每个视图的信息，根据所有条件伯努利混合模型分类器的分类结果制定了多视图选择样本。通过考虑两个方面来构建样本查询函数，即标签依赖性和视图一致性。

步骤b1：构建最大化多视图聚类熵(Maximize Multi-view Cluster-BasedEntropy)策略查询函数。

最大化多视图聚类熵中包括两阶段选择，这也是基于随机聚类的。对于每个聚类Q_j，首先最大化以下函数以获得几个候选样本x^*。

其中Q_j表示第j个聚类，V表示视图数量，K表示概率分布个数，π_vk(·)表示第v视图属于第k个分布的权重；

步骤b2：然后从每个聚类Q_j的候选样本x^*中以最小的置信度重新选择样本，并将其添加到标注的集合中。这是通过最大化以下函数来实现的：

其中pc_v(y|x^v)为每个聚类中候选样本x^v的预测概率，

表示从步骤b1中挑选出的标签集合。

步骤四：在新的标注样本集上重新同步训练步骤二构建的条件伯努利混合模型分类器和构建的综合条件伯努利混合模型分类器，获得更新后的分类器；

步骤五：在测试样本集上测试更新后的分类器的效果。其中综合分类器的概率≥0.2作为预测结果是该标签，若汉明损失≤0.2或F1得分≥0.7或者所选的未标注样本达到设定的数量，则则停止训练，并当前的分类器作为多视图多标签分类器。否则重复步骤四和步骤五。

上述技术方案中，步骤一中多视图的个数V依据不同任务和数据特征而设定，步骤三中选择未标注样本的个数、步骤五中综合分类器预测的分类概率、汉明损失、F1得分等阈值，根据常规的分类知识和经验以及不同的分类任务进行设定，阈值设定的不同仅影响分类器的最高精度，不影响分类器的实现。

实施例

在以下场景数据集上进行实验，以评估所提出的多视图主动学习分类器的效果。首先，在场景数据集上比较了所提出的多视图多标签分类器的效果，其次比较了样本查询函数的有效性。实验采用汉明损失(Hamming loss)和F1得分对分类器效果评价。

场景数据集：场景数据集是一个多标签图像数据集，具有六个标签(海滩，日落，红叶，田野，山脉，城市)。如图3所示，左边(a)图的图片标签为沙滩、山脉，右边(b)图的图片标签为沙滩、城市。在将原始图像转换为具有三个坐标轴的LUV空间后，提取了特征，其中一个坐标轴对应于亮度，而另外两个坐标轴对应于色度。使用7×7网格将每个图像划分为49个块。每个波段的第一和第二矩(均值和方差)都作为特征进行计算。结果是每个图像49×2×3＝294维特征向量。所有特征都可以作为单视图特征向量一起使用。根据特征的类型，添加了两个附加视图(亮度的98维特征和色度的196维特征)，它们从294维的特征划分为原始特征以形成三视图数据集。

在本实验中，从训练集中随机选择一些样本作为初始标注样本集，然后让其余部分成为未标注集。重复实验十次，并记录平均结果。其中门控函数π_k(x；α_k)通过多项式逻辑回归样本化，而Bern(ym|x；β_km)通过逻辑回归样本化。对于多视图方法，首先为每个视图构建伯努利混合模型分类器，再构建综合分类器。然后，制定多视图主动选择样本的查询函数，用于在未标注样本集中选择关键样本标注，加入到标记样本集中继续训练分类器。实验中记录了基于单视图和多视图分类器的F1评价结果以及采用本发明查询函数F1评价结果。在场景数据集上，组号间隔设置为20。如图4所示，左图(a)展示了基于单视图和多视图混合伯努利模型分类器的F1得分比较，右图(b)展示了本发明查询函数在单视图和多视图混合伯努利模型分类器以及不采用查询函数之间的F1得分比较。

表一场景数据集上的多视图分类器和单视图分类器之间的比较F1结果

其中Stacked CBM表示本发明的多视图伯努利混合模型分类器，Single-View CBM表示单视图伯努利混合模型分类器。表示从上表中看出，在开始的几个迭代中，多视图分类器的效果稍微差一点，这是因为受到了弱分类器的影响。但是，随着标注样本的增加，多视图分类器的效果逐渐增强，远远超过了单视图分类器的效果。整体上表现基于多视图条件伯努利混合模型的分类器效果优于单视图条件伯努利混合模型的分类器。

表二场景数据集上的多视图查询函数和单视图查询函数之间的比较F1结果

其中CBE是基于单视图上采用本发明的查询函数，MvCBE是基于多视图的本发明的查询函数，Random表示不采用查询函数，样本是随机选择的。从上表可以表明，基于多视图查询函数效果逐渐超过了基于单视图查询函数。这是因为多视图选择样本会从不同视图的分类器中评估每个样本，从而获取更准确的信息来确定是否需要查询该样本。最终结果显示基于本发明构建的选择样本查询函数均强于基于单视图中的查询函数，表明了本发明的策略函数的有效性。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于主动学习的多视图多标签分类器的构建方法，其特征在于，包括如下步骤：

步骤六：在测试样本集上测试更新后的分类器的效果；若汉明损失≤0.2或F1得分≥0.7或者所选的未标注样本达到设定的数量，则停止训练，并将当前的分类器作为所述的多视图多标签分类器；否则重复步骤四、步骤五及步骤六；其中：

其中，π_k(·)是第k个子分布的混合系数，称为门控函数；α_k为π_k(·)的隐变量，β_km表示第k个子分布中第m个伯努利分布的参数，以上所述参数通过EM算法估计得到；M为样本标签总个数，K为子分布的总个数，Bern(y_m|x；β_km)为伯努利分布函数，可预测标签为y_m的概率，x为输入的标注样本集特征，pc(y|x)为分类器输出的标签分类概率；

所述构建综合条件伯努利混合模型分类器，具体通过以下公式构建：

其中，p＝[pc₁(y|x¹)，pc₂(y|x²)，…，pc_v(y|x^V)]，pc_i(y|xⁱ)是步骤二中第i个多视图分类器输出的预测标签分类的概率，pCBM^*表示综合分类器输出的标签分类的概率，N(y)表示标签集合，R_output(ym)表示通过综合分类器的概率得到的标签集ym。

2.如权利要求1所述的基于主动学习的多视图多标签分类器的构建方法，其特征在于，所述构建样本选择查询函数φ(x)，包括如下步骤：

步骤4.1：构建最大化多视图聚类熵策略查询函数，简称MvCBE；

其中pc_v(y|x^v)为每个聚类中候选样本x^v的预测概率，

表示从步骤4.1中挑选出的标签集合。