CN114818979A

CN114818979A - 一种基于最大化间隔机制的含噪多标记分类方法

Info

Publication number: CN114818979A
Application number: CN202210576145.0A
Authority: CN
Inventors: 张敏灵; 朱雅婷; 杨浩
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-07-29

Abstract

本发明提出了一种基于最大化间隔机制的含噪多标记分类方法，该方法适用于标记空间含有噪声的多标记数据分类场景。该方法包括以下步骤：(1)用户在保证完全获得真实标记的前提下收集多标记数据；(2)使用标记置信度来表示标记信息，为每个标记初始化置信度值；(3)将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题，求得凸优化问题的最优解生成多标记分类模型；(4)根据训练得到的分类模型对未见示例进行预测，得到每个类别的分类结果；(5)如果用户对预测结果满意，则结束，否则转到步骤(2)，为每个标记重新初始化置信度值。

Description

一种基于最大化间隔机制的含噪多标记分类方法

技术领域

本发明涉及一种多标记数据分类方法，具体是一种基于最大化间隔机制的含噪多标记分类方法，属于弱监督分类技术领域。

背景技术

在多标记学习中，一个示例会关联多个正确的语义标记，学习系统的目标是利用多标记数据集构造输入空间(特征空间)到输出空间(标记空间)的映射关系，用于预测未见示例的一组正确标记集合。在传统的多标记学习任务中最关键的假设在于多标记数据集中每个示例均被赋予其正确的语义标记集合，然而现实生活中，精确地给每个示例赋予标记是很困难的。在很多任务中，可能会出现标记错误、标记缺失或标记冗余等情况，导致多标记数据集中标记信息包含噪声，而研究此类多标记数据集的框架统称为含噪多标记学习框架。

本发明研究的是其中标记冗余的含噪多标记学习任务，每个示例会关联一组候选标记集合，示例的真实标记未知但隐藏于候选标记集合中。学习系统的目标是在已知的弱监督信息下学习输入空间到输出空间的映射关系，用于预测未见示例的一组正确标记集合。为了解决数据集中含有噪声的问题，目前已有的方法主要分为两大类：消歧方法与非消歧方法。消歧方法分为两个阶段，第一阶段对数据集中候选标记集合消歧得到不含噪声标记的数据集，第二阶段利用消歧的数据集使用多标记学习方法进行模型训练，此类方法的重点在于如何对数据集进行消歧，这将直接影响学习模型的分类性能。而非消歧方法则直接利用原始含有噪声的数据集信息进行模型学习。

发明内容

在含噪多标记分类任务中，由于候选标记集合中含有噪声，传统的多标记分类模型无法表现优异的性能。已有的方法中常利用元学习、生成对抗网络等方法来处理含噪多标记分类问题，而很少利用传统的机器学习模型，因此本发明基于传统机器学习模型提出一种含噪多标记分类方法，将传统的SVM模型进行改进使其适用于含噪多标记分类任务。直接在含噪多标记数据集上进行学习，构建预测模型，提高多标记分类模型的性能。

技术方案：本发明提出一种基于最大化间隔机制的含噪多标记分类方法，将含噪标记信息整合到传统SVM框架上，并为候选标记集合中每个标记学得置信度，将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题。该方法包括以下步骤：(1)用户在保证完全获得真实标记的前提下收集多标记数据(不可避免会含有噪声)；(2)使用标记置信度来表示标记信息，为每个标记初始化置信度值；(3)将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题，求得凸优化问题的最优解得到分类模型；(4)根据训练得到的分类模型对未见示例进行预测，得到每个类别的分类结果；(5)如果用户对预测结果满意，则结束，否则转到步骤(2)，为每个标记重新初始化置信度值。

本发明进一步优选，所述步骤(2)具体包括：

假设

表示d维的示例空间，Y＝{y₁,y₂,…,y_q}表示含有q个类别的标记空间。给定含噪多标记数据集D＝{(x₁,S₁),(x₂,S₂),…,(x_m,S_m)}，包含m个示例的，其中

为d维的属性向量，而

为与示例x_i对应的一组候选标记集合。此外，

表示与示例x_i对应的一组非候选标记集合；Y_i为示例x_i的真实标记集合；

为了更好的区别候选标记集合中的真实标记与噪声标记，定义置信度θ_ij表示标记y_j能成为示例x_i的真实标记的可能性，θ_ij越大表示标记y_j为示例x_i的真实标记的可能性越大；当θ_ij＝1时表示标记y_j是示例x_i的真实标记，当θ_ij＝0时表示标记y_j是示例x_i的不相关标记；显然，当

时，θ_ij＝0，即与示例x_i对应的非候选标记集合中的所有标记均为该示例的不相关标记；

因此，初始化标记置信度时，当y_j∈S_i时，

当

时，θ_ij＝0。

本发明进一步优选，步骤(3)具体包括：

基于上述符号定义，为标记空间Y中每个标记y_p分别学习一个线性分类器f_p(x_i)＝<ω_p,x_i>+b_p，其中ω_p∈R^d为线性分类器的权重向量，b_p∈R为线性分类器的偏置；对此，将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题，目标函数如下所示：

上式中第一项为模型的结构损失函数，通过此项约束模型自身的复杂度，从一定程度上防止模型过拟合；第二项为模型的经验损失函数，优化此损失函数让模型拟合训练样本，防止模型发生欠拟合的问题；其中ξ_ik为松弛变量，用于度量样本违背约束的程度，当样本违背约束的程度越大，松弛变量的值也会越大；ξ_ik是通过示例x_i非候选标记集合中的标记y_k学习得到的松弛变量，如式(2)所示；考虑到样本具有多义性，为了保证模型对标记置信度学习的公平性，第三项中对置信度加以约束；

公式(1)的目标是最小化模型的损失误差，包括模型的结构损失、经验损失以及对置信度值的约束；由于公式中需要学习的变量较多，因此可以采取交替迭代优化策略，将优化分为两个阶段，第一阶段中固定置信度θ求解模型权重ω和偏置b，第二阶段中固定模型权重ω和偏置b求解置信度θ，每个阶段中各利用二次规划工具包求解；

本发明进一步优选，(3.1)第一阶段：当置信度θ固定时，公式(1)的优化目标如下：

构造公式(3)的拉格朗日函数如下：

上式中α_ik≥0,β_ik≥0；

对公式(4)分别关于ω_p，b_p,ξ_ik求导并令导数为0可得如下公式：

C＝α_ik+β_ik (7)上式中II(·)为指示函数，当·为真时指示函数取值为1，否则取值为0。将公式(5)-(7)带入公式(4)可得原问题的对偶问题

的优化目标如下所示：

(3.2)第二阶段：当模型权重ω和偏置b固定时，公式(1)的优化目标如下：

本发明的有益效果：

1、本发明将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题，通过交替迭代优化策略为每个标记学得一个分类模型，使得候选标记集合中模型的加权输出与非候选标记集合中模型的最大输出之间间隔最大化。

2、在含有噪声标记的数据集上同时学得标记置信度与多标记分类模型。验证了传统机器学习模型的有效性，并在一定程度上降低了噪声标记的影响。

附图说明

图1是文档分类装置的工作流程图；

图2是本发明方法的流程图；

图3是分类模型构建阶段的流程图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

如图1所示，以文档分类的过程为例。文档存储设备中包含了大量有歧义的主题文档，每个文档被标记为了多个主题，其中只有少部分主题属于此文档的真实主题，且真实主题个数未知。在对文档真实主题进行判断时，用户首先从全部有歧义的文档中选择N篇样例文档提交给文档分类器(计算机模型)处理。此时需要对待分类的文档提取特征，这一步一般使用一些针对中文文本的特征降维技术，例如词频(Term Frequency，记为TF)、词频-逆文档词频(Term Frequency-Inverse Document Frequency，记为TF-IDF)等。提取完文档的特征后，本发明提出的文档分类器先为每个主题初始化置信度值，并为每个主题生成一个线性分类器，再通过求解经验损失、铰链损失与置信度约束最小化的凸优化问题得到最终的分类模型。当有未知主题的文档需要预测时，以同样的方式抽取特征，再用此分类模型预测并返回分类结果。如图1所示。如果用户对所得结果不满意，可以从文档库中选取更多的样例文档反馈给文档分类装置。

本发明涉及的方法如图2所示。步骤10是起始动作。假设用户提交的样例文档集合D＝{(x₁,S₁),(x₂,S₂),…,(x_m,S_m)}，其中样本

为d维的特征向量，而

为与样本x_i对应的一组候选标记集合。Y_i为样本x_i的真实标记集合，Y_i未知且

在步骤11中，为每个标记初始化置信度值。在步骤12中，先为每个标记生成一个线性分类器，再通过求解经验损失、铰链损失与置信度约束最小化的凸优化问题得到最终的分类模型，具体转化在图3介绍。步骤13中，利用步骤12得到的预测模型对文档存储设备中未分类的文档进行分类并返回分类结果。最后进入步骤14的结束状态。

图3给出了步骤12的详细描述。步骤1200是起始动作。步骤1201至步骤1205构成循环体，循环的每一轮中对目标函数进行一次迭代优化求解。具体来说，为标记空间Y中每个标记y_p分别学习一个线性分类器f_p(x_i)＝<ω_p,x_i>+b_p，其中ω_p∈R^d为线性分类器的权重向量，b_p∈R为线性分类器的偏置。对此，将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题，目标函数如下所示：

上式中第一项为模型的结构损失函数，通过此项约束模型自身的复杂度，从一定程度上防止模型过拟合。第二项为模型的经验损失函数，优化此损失函数让模型拟合训练样本，防止模型发生欠拟合的问题。其中ξ_ik为松弛变量，用于度量样本违背约束的程度，当样本违背约束的程度越大，松弛变量的值也会越大。ξ_ik是通过示例x_i非候选标记集合中的标记y_k学习得到的松弛变量，如式(2)所示。考虑到样本具有多义性，为了保证模型对标记置信度学习的公平性，第三项中对置信度加以约束。

公式(1)的目标是最小化模型的损失误差，包括模型的结构损失、经验损失以及对置信度值的约束。由于公式中需要学习的变量较多，因此可以采取交替迭代优化策略，将优化分为两个阶段，第一阶段中固定置信度θ求解模型权重ω和偏置b，第二阶段中固定模型权重ω和偏置b求解置信度θ，每个阶段中各利用二次规划工具包求解。步骤1203中当置信度θ固定时，公式(1)的优化目标如下：

构造公式(3)的拉格朗日函数如下：

上式中α_ik≥0,β_ik≥0。对公式(4)分别关于ω_p，b_p,ξ_ik求导并令导数为0可得如下公式：

C＝α_ik+β_ik (7)

上式中II(·)为指示函数，当·为真时指示函数取值为1，否则取值为0。将公式(5)-(7)带入公式(4)可得原问题的对偶问题

的优化目标如下所示：

步骤1204中当模型权重ω和偏置b固定时，公式(1)的优化目标如下：

经过T轮交替迭代得到最终分类模型的权重ω和偏置b，随即进入步骤1206的结束状态。

本发明给出了一种基于最大化间隔机制的含噪多标记分类方法，将含噪标记信息整合到传统SVM框架上，并为候选标记集合中每个标记学得置信度，将含噪多标记分类问题转换成经验损失、铰链损失与置信度约束最小化的凸优化问题。通过交替迭代优化策略为每个标记学得一个分类模型，使得候选标记集合中模型的加权输出与非候选标记集合中模型的最大输出之间间隔最大化。简单来说，该算法在含有噪声标记的数据集上同时学得标记置信度与多标记分类模型。基于这种方法进行学习和训练，可以提高多标记分类模型的有效性、稳定性和鲁棒性。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。