CN111783788B

CN111783788B - 一种面向标记噪声的多标记分类方法

Info

Publication number: CN111783788B
Application number: CN202010583875.4A
Authority: CN
Inventors: 张敏灵; 方军鹏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-11-08
Anticipated expiration: 2040-06-24
Also published as: CN111783788A

Abstract

本发明公开了一种面向标记噪声的多标记分类方法，该方法适用于标记空间含有噪声的多标记数据分类场景，具体包括以下步骤：(1)用户在保证完全获得真实标记的前提下收集多标记数据；(2)利用ECOC编码对原始标记进行embedding，按照ECOC编码重新为每个码字选择正负训练样本；(3)基于每个码字重构的二类分类集训练二类分类模型；(4)根据训练所得分类模型对未见示例进行预测，得到每个码字上的分类结果；(5)根据欧式距离计算原始空间每个标记的ECOC编码和未见示例的预测编码之间的距离，将满足筛选条件的标记视为未见示例的真实标记；(6)如果用户对预测结果满意，则结束，否则转到步骤(2)，对原始标记重新进行ECOC编码。

Description

一种面向标记噪声的多标记分类方法

技术领域

本发明涉及一种面向标记噪声的多标记分类方法，属于弱监督分类技术领域。

背景技术

在传统的监督学习中，每一个示例都有单一和明确的标记，基于此前提的诸多监督学习方法都已经取得了巨大的成功。但是在实际应用中，我们获得的标记信息往往是多个而且可能是不准确的。所以研究者们提出了半监督学习、多标记学习、偏标记学习和多示例学习等框架用于解决此类困难。

含噪多标记学习是一种新型的学习框架，它可以看作是多标记学习和偏标记学习的结合。在多标记学习中，一个示例对应多个真实标记；在偏标记学习中，一个示例对应一个候选标记的集合，但是集合中只包含一个真实标记。而在含噪多标记学习中，一个示例对应一个候选标记的集合，集合中有一个或多个真实标记。含噪多标记学习的目标就是利用含有噪声的数据集训练一个多标记预测器，它能够预测出未见示例的所有真实标记。目前主流的方法是利用标记置信度等手段对数据集进行降噪，然后加以训练，但是这样的方法不能保证降噪的效果，因此在训练的过程中仍然会受到噪声标记的影响。

发明内容

本发明针对含噪多标记数据的数据特性以及降噪的预处理步骤的不确定性加以改进，通过ECOC编码直接利用含噪数据，免去降噪步骤，充分利用原始数据来提升分类的性能。

技术方案：一种面向标记噪声的多标记分类方法，包括以下步骤：

步骤1：获取具有真实标记的多标记样本数据D＝{(x_i，Y_i)|1≤i≤m}，其中x_i表示第i个样本数据，Y_i表示x_i对应的候选标记集合，m表示收集的多标记样本数量；

步骤2：构建编码矩阵，其中，编码矩阵的每一行表示类别标记的编码，其每一列表示对标记的一个划分；通过构建的编码矩阵的第一列对步骤1获取到的多标记样本数据的标记进行划分得到第一列对应的子训练集，以此类推直至得到编码矩阵最后一列对应的子训练集；

步骤3：采用编码矩阵的第一列对应的子训练集对二类分类器进行训练，得到其对应可用的二类分类器；以此类推直至完成编码矩阵最后一列对应的二类分类器的训练；

步骤4：将待分类数据输入至步骤3训练好的所有二类分类器中进行分类，得到与编码矩阵每一列对应的预测标记；

步骤5：根据欧式距离，计算待分类数据的预测标记的编码码字与编码矩阵的每行码字之间的距离，将满足距离阈值的预测标记视为待分类数据的真实标记；

步骤6：判断步骤5得到的待分类数据的真实标记是否满足用户要求，若满足，则结束，否则转到步骤2，对编码矩阵进行调整。

进一步的，所述步骤2具体为：

步骤2.1：定义一个q×L的ECOC编码矩阵M∈{+1，-1}^q×L，用于对多标记样本数据的标记空间进行表示，其中，M的每一行M(j，：)的长度为L，其表示类别标记y_j的编码，M的每一列M(：，l)表示对标记的一个划分，初始阶段，该编码矩阵为空矩阵；

步骤2.2：引入q维向量v＝{v₁，v₂，...，v_q}^T∈{+1，-1}^q，其各个元素的取值随机决定，向量v将样本数据的标记空间划分为两类

和

其中：

若样本数据对应的候选标记集合能完全落入

则将该样本数据划分为正例；若样本数据对应的候选标记集合能完全落入

则将该样本数据划分为反例；

将基于当前向量v进行划分得到的正例与反例组成子训练集

步骤2.3：判断步骤2.2得到的子训练集

的元素个数

是否大于等于最小值τ_all，正例个数

是否同时满足大于等于设定阈值τ_pos，反例个数

是否同时满足大于等于设定阈值τ_neg，若三者同时满足，则将当前向量v作为编码矩阵M的一列，并执行步骤2.4；否则：重新随机产生向量v，执行步骤2.2；

步骤2.4：判断当前编码矩阵M的列数是否达到预设的码长L，若超过，则得到可用的编码矩阵，否则重新随机产生向量v，执行步骤2.2。

进一步的，所述步骤3具体包括以下步骤：

采用线性支持向量机生成二类分类器h_l(1≤l≤L)；

采用编码矩阵的第一列对应的子训练集对二类分类器进行训练，得到其对应可用的二类分类器；

以此类推直至完成编码矩阵最后一列对应的二类分类器的训练。

进一步的，所述步骤4包括：

待分类数据表示为

将待分类数据输入至步骤4训练好的所有二类分类器中进行分类，得到长度为L的预测标记：

h(x^*)＝[sign(h₁(x^*))，sign(h₂(x^*))，...，sign(h_L(x^*))]

其中，h_l(x^*)(1≤l≤L)表示待分类数据x^*在二类分类器上的预测置信度，sign(x)为符号函数，当x＞0时，sign(x)返回+1，当x＜0时，sign(x)返回-1，当x＝0时，sign(x)返回0。

有益效果：现有的含噪多标记分类方法都在利用标记对置信度来进行一定程度的降噪，然而这种降噪过程具有不确定性，很可能会损失大量真实标记信息，造成模型效果下降，本方法通过ECOC编码矩阵来处理原始数据，对噪声数据有一定鲁棒性，可以在一定程度上避免降噪造成的真实标记信息损失。

附图说明

图1是面向噪声标记的多标记分类的工作流程图；

图2是本发明方法的流程图；

图3是ECOC编码矩阵以及重新划分训练集的示意图。

具体实施方式

现结合附图和实施例进一步阐述本发明的技术方案。

本实施例的一种面向标记噪声的多标记分类方法，在模型的训练阶段利用ECOC编码对原始标记空间进行embedding，并给编码的每个码字筛选正负训练样本。并由此为每个码字训练二类分类器，根据训练好的二类分类器对未见示例进行预测，得到预测编码和原始空间每个标记对应编码之间的距离度量并根据此给出真实标记。如果用户对所得结果不满意，可以对ECOC编码进行新的设置以期得到更好的效果。具体包括以下步骤：

步骤1：用户需在保证完全获得真实标记的前提下收集多标记数据，该多标记数据包括样本特征以及带噪声的候选标记集合对于多标记数据而言，用户想要完整准确的获得全部的标记数据是很困难的，而且极其耗费人力物力，因此在满足前提：样本的真实标记应该完全的被用户收集的情况下，允许用户收集带噪声的多标记数据。

记用户采集的多标记数据对应集合为D＝{(x_i，Y_i)|1≤i≤m}，其中x_i∈X表示d维特征向量，即为样本，

是与样本x_i对应的候选标记集合，m表示收集的样本数量，X＝R^d代表d维特征空间，γ＝{y₁，y₂，…，y_q}表示q个可能的标记，本实施例的面向标记噪声的多标记分类的关键在于样本x_i的真实标记

是隐藏于候选标记集合中的。

步骤2：利用ECOC编码对原始标记进行embedding，按照ECOC编码重新为每个码字选择正负训练样本；具体为：

步骤2.1：引入q×L的ECOC编码矩阵M∈{+1，-1}^q×L对步骤1中的标记空间进行表示，其中，M的每一行M(j，：)表示属于类别y_j(1≤j≤q)的长度为L的编码，M的每一列M(：，l)表示对标记空间的一个划分。初始阶段，该编码矩阵M为空矩阵；

步骤2.2：引入q维向量v＝{v₁，v₂，...，v_q}^T∈{+1，-1}^q，其各个元素的取值随机决定，向量v将标记空间划分为两类

和

其中：

步骤2.3：根据向量v从步骤1的多标记数据中筛选出子训练集

即多标记数据中，对应候选标记集合Y_i完全落入

的样本x_i划分为正例，对应候选标记集合Y_i完全落入

的样本x_i划分为反例，候选标记集合Y_i不能完全落入

或

的样本x_i则不包含在子训练集

中。

由正例与反例组成子训练集

当

的元素个数

大于等于某个最小值τ_all，同时其正例个数

大于等于设定阈值τ_pos，反例个数

大于等于设定阈值τ_neg时，向量v被接受，作为编码矩阵M新的一列，即M＝(M，v)，并使用子训练集

训练对应的二类分类器h_v。

步骤2.4：判断编码矩阵M的列数是否达到预设的码长L，若超过，则得到可使用的编码矩阵M和编码矩阵每列所对应的训练集，否则随机产生向量v，执行步骤2.2；

图3-1为编码矩阵M，图3-2为步骤1得到的多标记数据对应集合

图3-3为二类训练子集

以M(：3)为例，Y₇＝{y₁，y₂}完全落入

中，所以x₇划分为反例；Y₈＝{y₃，y₅}完全落入

中，所以x₈划分为正例；Y₁₀＝{y₄，y₅}完全落入

中，所以x₁₀划分为正例。

步骤3：因多标记数据的标记空间是含有噪声的，使用线性支持向量机(linearsupport vector machine)生成二类分类器h_l(1≤l≤L)，采用编码矩阵每列所对应的训练集分别对二类分类器进行训练，得到各自对应的可用的二类分类器；

步骤4：将待分类数据输入至所有训练好的二类分类器中进行预测，得到与编码矩阵列对应的预测标记；具体过程如下：

设待分类数据

生成其对应的长度为L的预测码字：

h(x^*)＝[sign(h₁(x^*))，sign(h₂(x^*))，...，sign(h_L(x^*))]

步骤5：含噪多标记学习的最终目标是生成一个多标记预测器

所以，引入下列公式：

f(x^*)＝{y_j|dist(h(x^*)，M(j，：))＜thr，1≤j≤q}

其中，dist(a，b)表示向量a和向量b的距离度量，thr是人为设置的阈值，即f(x^*)是由编码矩阵的类别码字与预测码字的距离小于固定阈值的类别组成，即对于未见示例的最终预测结果。

所以，根据欧式距离计算所有其类别码字与预测码字的距离，将满足筛选条件的标记视为未见示例的真实标记。

步骤6：若用户对预测结果满意，则结束，否则转到步骤2，对原始标记重新进行ECOC编码以期得到更好的效果。

本实施例在训练过程中可以允许用户收集含噪声的标记数据进行训练，不需要用户标记数据具有完整准确无误的标记空间，因此可以减少大量的人力成本。

Claims

1.一种面向标记噪声的多标记分类方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种面向标记噪声的多标记分类方法，其特征在于：所述步骤2具体为：

和

其中：

若样本数据对应的候选标记集合能完全落入

则将该样本数据划分为反例；

将基于当前向量v进行划分得到的正例与反例组成子训练集

步骤2.3：判断步骤2.2得到的子训练集

的元素个数

是否大于等于最小值τ_all，正例个数

是否同时满足大于等于设定阈值τ_pos，反例个数

3.根据权利要求2所述的一种面向标记噪声的多标记分类方法，其特征在于：所述步骤3具体包括以下步骤：

采用线性支持向量机生成二类分类器h_l(1≤l≤L)；

4.根据权利要求3所述的一种面向标记噪声的多标记分类方法，其特征在于：所述步骤4包括：

待分类数据表示为

h(x^*)＝[sign(h₁(x^*))，sign(h₂(x^*))，...，sign(h_L(x^*))]