CN111581468B

CN111581468B - 基于噪声容忍的偏多标记学习方法

Info

Publication number: CN111581468B
Application number: CN202010412161.7A
Authority: CN
Inventors: 冯松鹤; 吕庚育; 李浥东; 赵建国; 金�一
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2024-03-01
Anticipated expiration: 2040-05-15
Also published as: CN111581468A

Abstract

本发明提供了一种基于噪声容忍的偏多标记学习方法。该方法包括构建训练数据的特征矩阵X、可观测标签矩阵Y和特征填充矩阵E；根据特征矩阵X、可观测标签矩阵Y和特征填充矩阵E挖掘特征空间和标记空间一致性信息，构建基于噪声的偏多标记学习模型，通过选择迭代优化方法对偏多标记学习模型进行训练，得到多标签分类器V；将未知样本输入到多标签分类器V，多标签分类器V输出所述未知样本的标签信息。本发明提出的基于噪声容忍的偏标记学习方法，该方法不进行标记消歧，而是补充样本缺失的特征信息，达到噪声标记能够参与模型训练过程的目的。该算法充分利用缺失特征信息的低秩性，辅助算法学习更鲁棒的分类模型，实现对未知样本的准确分类。

Description

基于噪声容忍的偏多标记学习方法

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种基于噪声容忍的偏多标记学习方法。

背景技术

偏多标记学习算法是一种新型的弱监督多标记学习算法，旨在从有噪声标签的偏多标记数据中学习鲁棒的分类模型，实现对未知样本准确分类的目的。偏多标记学习框架在现实社会中有着广泛的应用，例如众包自动标注平台。给定一组图片及每张图片的候选标记集，每个候选标记集中存在与图片无关的标签，偏多标记学习的目的就是从这种数据中学习鲁棒的分类模型，并对未知标签样本赋予适当的标签。

偏多标记学习框架可以视为一种整合了多标记学习和偏标记学习两大学习框架于一体的新型弱监督学习框架，现有的偏多标记学习算法大致分为以下两类：一类是统一框架学习算法，例如PML-fp和PML-lc[1]，fPML[2]，PML-LRS[4]。这类方法主要通过为每个候选标记指派一个标记置信度向量，在迭代优化这些置信度向量的同时进行模型训练；另一类是两阶段学习算法，例如PARTICLE[3]，DRAMA[5]。这类方法通常将学习过程分为两个阶段，第一阶段，去除掉候选标签的噪声标记；第二阶段，利用现有的多标记学习算法进行模型训练。但是，上述两种算法都采用了消歧策略，模型的训练会显著受制于标签消歧的性能，特别是针对于两阶段学习算法，第一阶段中被错误辨识的标记会显著降低第二阶段的模型训练效果。

现有技术中的偏多标记学习算法的缺点包括，模型训练过程很大程度上受制于标签消歧的结果，具体体现在如下两个方面：

1)对于两阶段学习算法。第一阶段的噪声消歧(或者弱化)很可能导致真实的标记被消去，同时也可能导致错误的标记仍然保留，亦或者两种情况兼而有之。此时，第二阶段模型过程中，错误辨识的标记会极大降低模型学习的准确性。

2)对于统一框架学习算法。这种方法将模型训练和标签消歧统一在一个过程中，一个不可避免的缺点就是模型训练和噪声消歧两个操作相互促进，有可能导致模型训练过拟合或者训练得到的模型鲁棒性不足。

发明内容

本发明的实施例提供了一种基于噪声容忍的偏多标记学习方法，以克服现有技术的缺点。

为了实现上述目的，本发明采取了如下技术方案。

一种基于噪声容忍的偏多标记学习方法，包括：

构建训练数据的特征矩阵X、可观测标签矩阵Y和特征填充矩阵E；

根据所述特征矩阵X、可观测标签矩阵Y和特征填充矩阵E挖掘特征空间和标记空间一致性信息，构建基于噪声的偏多标记学习模型，通过选择迭代优化方法对所述偏多标记学习模型进行训练，得到多标签分类器V；

将未知样本输入到所述多标签分类器V，所述多标签分类器V输出所述未知样本的标签信息。

优选地，所述的构建训练数据的特征矩阵X、可观测标签矩阵Y和特征填充矩阵E，包括：

构建训练数据集，利用训练数据集中的训练数据构建构建训练数据的特征矩阵和可观测标签矩阵/>其中m，d和q分别表示训练样本数量、特征维度数量和标签数量，标记矩阵中Y_ij＝1表示标记i是样本j的候选标记，Y_ij＝0，表示标记i不是样本j的候选标记，构建特征填充矩阵/>用于构建完备的特征矩阵/>

优选地，所述的根据所述特征矩阵X、可观测标签矩阵Y和特征填充矩阵E挖掘特征空间和标记空间一致性信息，构建基于噪声的偏多标记学习模型，包括：

基于所述完备特征矩阵和可观测标签矩阵Y引入特征映射矩阵W构建特征空间到标签空间的线形映射关系，设特征映射矩阵W线形独立地获取标签相关性，限制W，获得初始的基于噪声的偏多标记学习模型：

||W||_*和||E||_*分别表示矩阵W和E的奇异值之和，α和λ是权衡参数，填充矩阵E为低秩矩阵；利用公式比较样本特征相似度和标记相似度一致性，获得基于噪声容忍的偏多标记学习模型如下：

优选地，所述的通过选择迭代优化方法对所述偏多标记学习模型进行训练，得到多标签分类器V，包括：

S2-2-1：偏多标记学习模型的初始化，使用随机梯度下降SGD算法交替优化偏多标记学习模型的各个参数，得到连续空间下的最优解(W，E)：

S2-2-2：固定E，更新W，目标函数等价于如下子优化问题：

在上述子优化问题中，W有闭式解

表示矩阵/>的谱半径，Γ_ε[G]＝US_ε[∑]V^T，US_ε[∑]V^T是对矩阵G的奇异值分解SVD分解。

S2-2-3：固定W，更新E；目标函数等价于如下子优化问题：

在上述子优化问题中，E有闭式解

表示矩阵/>的谱半径，Γ_ε[G]＝US_ε[∑]V^T，US_ε[∑]V^T是对矩阵G的SVD分解；

S2-2-4：重复S2-2-2到S2-2-3，不断交替更新参数W，E，直到满足迭代停止条件，所述偏多标记学习模型收敛，输出所述偏多标记学习模型的最优解(W^*，E^*)，得到多标签分类器V。

优选地，所述迭代停止条件包括目标函数值小于某个预设定阈值，或者W，E的每一位都不再发生变化；或者达到迭代的最大次数。

优选地，所述的将未知样本输入到所述多标签分类器V，所述多标签分类器V输出所述未知样本的标签信息，包括：

将未知样本x^*输入到多标签分类器V，多标签分类器V＝W，是一个d*q的矩阵，计算得到的y*是一个q*1的向量，设置某个阈值，y向量中元素的值高于此阈值设置为1，则此元素的标签为未知样本对应的标签；y向量中元素的值低于此阈值设置为0，表示该标签不是此未知样本对应的标签，当y向量中有多个元素的值高于上述阈值，则未知样本对应多个标签。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提出的基于噪声容忍的偏标记学习方法，该方法不进行标记消歧，而是补充样本缺失的特征信息，达到噪声标记能够参与模型训练过程的目的。该算法充分利用缺失特征信息的低秩性，辅助算法学习更鲁棒的分类模型，继而实现对未知样本的准确分类。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于噪声容忍的偏多标记学习方法的处理流程图；

图2为本发明实施例提供的一种基于噪声容忍的偏多标记学习模型的训练工作流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

偏多标记数据是指一个样本同时被标注有多个标签，而这些标签中至少有一个是真实标签。偏多标记方法是一种弱监督多标记学习算法，旨在从有噪声标记的偏多标记数据中，学习鲁棒的多标签分类器。噪声容忍是指模型学习过程中，算法容许噪声标签参与模型训练，而无需预先进行标签清洗。

本发明实施例提出一种基于噪声容忍的偏标记学习方法，以改进上述缺陷。与现有学习方法不同，本发明的模型假定冗余的标签信息来源于特征信息的缺失。换句话说，假定偏多标记数据中，标记信息是完备的，而特征信息是缺失的。由此，将偏多标记学习任务转化成了一个特征填充问题，并在填充特征信息后的完备训练数据中学习分类模型。在此过程中，通过两个方面提升模型学习的鲁棒性。一是，避免消歧操作，减少了消歧错误对模型训练的负面影响。二是，利用了填充信息的低秩性，避免了学习模型过拟合，增加了学习模型的鲁棒性。

本发明实施例提出了一种基于噪声容忍的偏多标记学习方法，该方法的处理流程如图1所述，包括以下处理步骤：

步骤S1、构建训练数据的特征矩阵X、可观测标签矩阵Y和特征填充矩阵E。

构建训练数据集，该训练数据集可以采用合成数据集。具体地，可以以4个公开的多标记数据集为基础，其中emotion数据集是音乐情感分析数据集，Image是图片分类数据集，Bibtex和Eurlex-sm是文本分类数据集。在这四个多标记数据集的每个样本现有的标签基础上，我们再随机添加r个多余标签，这里r∈{1，2，3})，这样我们在每个多标记数据集上就获得了3个新的偏多标记数据集。最后，对上述四个公开的多标记数据集和3个新的偏多标记数据集进行合成，构造出本申请实施例中的训练数据集。

利用训练数据集中的训练数据构建特征矩阵和可观测标签矩阵其中m，d和q分别表示训练样本数量、特征维度数量和标签数量，标记矩阵中Y_ij＝1表示标记i是样本j的候选标记，Y_ij＝0，表示标记i不是样本j的候选标记。此外，构建特征填充矩阵/>用于构建完备的特征矩阵/>

步骤S2、根据完备的特征矩阵和可观测标签矩阵Y，构建特征映射矩阵通过挖掘多标签数据中广泛存在的标签相关性，以及样本特征信息与标签信息的一致性，构建基于噪声容忍的偏多标记学习模型。通过选择迭代优化方法对偏多标记学习模型进行训练，最终得到多标签分类器V。

步骤S3、根据多标签分类器V对未知样本x^*进行分类，将未知样本x^*输入到多标签分类器V，计算出y^*＝VT·x^*，获取未知样本x^*的标签信息。

多标签分类器V＝W，是一个d*q的矩阵，计算得到的y*是一个q*1的向量。为得到准确的标签信息，设置某个阈值，y向量中元素的值高于此阈值设置为1，则此元素的标签为未知样本对应的标签。低于此阈值设置为0，表示该标签不是此未知样本对应的标签。阈值的设置一般可以取0.5，但是不同数据集该阈值往往取值不同。当y向量中有多个元素的值高于上述阈值，则未知样本对应多个标签。

步骤S2中的偏多标记学习模型的构建和优化具体包括如下步骤：

S2-1：构建偏多标记学习模型：

在步骤S1中构建的完备特征矩阵和可观测标签矩阵Y的基础上，为简化模型学习，引入特征映射矩阵W构建特征空间到标签空间的线形映射关系。考虑到多标记数据中广泛存在的标签相关性，假定特征映射矩阵W可以线形独立地获取标签相关性，限制W，进而获得初始的基于噪声的偏多标记学习模型：

这里||W||_*和||E||_*分别表示矩阵W和E的奇异值之和，α和λ是权衡参数。这里，由于统计上噪声标记总是共生的，因此特征填充矩阵E为低秩矩阵。

更进一步，为了强调完备特征矩阵和候选标记矩阵的一致性，采用了一种新的“特征-标记”一致性机制，即该机制通过比较样本特征相似度和标记相似度一致性，来维持样本特征信息与标记信息的一致性。

在给定的完整的标签矩阵Y，通过标签的重叠程度，我们能够计算两个样本的标签的相似程度这里y_i和y_j分别表示矩阵Y的第i列和第j列。另外，我们认为补充完的完备的特征矩阵/>可以完整准确反应样本的特征信息，为了保持样本特征相似度和标记特征相似度的一致性，我们期望/>尽可能小。从整个数据集来看，也就是我们期望获得更小的/>)来维持特征和标记相似度的一致性。

据此，可以获得基于噪声容忍的偏多标记学习模型如下：

S2-2：图2为本发明实施例提供的一种基于噪声容忍的偏多标记学习模型的训练工作流程图，包括如下的处理过程：

S2-2-1：偏多标记学习模型的初始化，使用SGD(stochastic gradient descent,随机梯度下降)算法交替优化偏多标记学习模型的各个参数，得到连续空间下的最优解(W，E)：

S2-2-2：固定E，更新W，目标函数等价于如下子优化问题：

在上述子优化问题中，W有闭式解

这里，表示矩阵/>的谱半径。Γ_ε[G]＝US_ε[∑]V^T，US_ε[Σ]V^T是对矩阵G的SVD(singular value decomposition，奇异值分解)分解。

S2-2-3：固定W，更新E；目标函数等价于如下子优化问题：

与S2-2-2一样，上述优化问题中，E有闭式解，

这里，表示矩阵/>的谱半径。Γ_ε[G]＝US_ε[∑]V^T，US_ε[∑]V^T是对矩阵G的SVD分解。

S2-2-4：重复S2-2-2到S2-2-3，不断交替更新参数W，E，直到满足迭代停止条件，偏多标记学习模型收敛，上述迭代停止条件可以为目标函数值小于某个预设定阈值，或者W，E的每一位都不再发生变化；或者达到迭代的最大次数，最后输出偏多标记学习模型的最优解(W^*，E^*)，得到多标签分类器V。

本发明在Emotions、Image、Bibtex和Eurlex-sm人工合成数据集上进行了实验。这里的合成数据集是指在原有多标记数据集上，随机为所有样本平均增加至1个或2个噪声标记。此外，本发明所述方法(Noisy Label Tolerated Partial Multi-Label Leaning，简称NATAL)与目前四种主流偏标记学习方法进行了对比实验分析；对比方法包括统一模型框架中性能最好的偏标记学习方法(PML-fp和fPML)，发表于人工智能领域顶级会议AAAI2018和ICDM2018；两阶段偏多标记模型框架中性能最好的偏标记学习算法(DRAMA和PARTICLE)，发表于信息检索领域顶级会议IJCAI2019和AAAI2019。此外，本方法使用五个多标记学习中广泛使用的评价指标对实验结果进行评价，分别是HammingLoss，RankingLoss，OneError，Coverage和AveragePrecision。

Emotions数据集是音乐情感分类的数据集，该数据集包括593段音乐样本，特征维度是72，情感标签总数是6，样本平均标签数量1.87。Image数据集是图片分类数据集，该数据集包括2000张图片样本，特征维度294，标签总数5，样本平均标签1.23。Bibtex数据集是文本分类数据集，该数据集包括7395个文本样本，特征维度1836，标签总数159，样本平均标签2.4。Eurlex-sm数据集也是文本分类数据集，该数据集包括19348个文本样本，特征维度5000，标签总数201，样本平均标签2.21。

表1-2展示了NATAL与各个对比方法的实验结果，加粗体表示最好的实验结果；上述实验结果表明：本发明方法较之当下主流偏标记学习方法性能具有较大程度提升。

表1实验结果对比(噪声标签数量r＝1)

表2实验结果对比(噪声标签数量r＝2)

/>

本发明公开了一种基于噪声容忍的偏多标记学习算法，重在保护通过特征补充方式来实现偏多标记学习模型训练的算法框架；在实施例中，特征矩阵填充方法采用了最基础的矩阵加法方式，同时“特征-标记”的一致性关系也采用了常用的样本相似度和标记相似度的一致性来描述的，熟悉本领域技术的人员显然可以容易地针对上述实施例做出各种修改，例如将特征填充方法和“特征-标记”一致性关系挖掘方法直接替换为其他变体模型，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。故凡依本发明申请专利范围所做出的改进和修改，均应包括于本发明专利的申请范围内。

综上所述，本发明实施例提出的基于噪声容忍的偏标记学习方法，该方法不进行标记消歧，而是补充样本缺失的特征信息，达到噪声标记能够参与模型训练过程的目的。该算法充分利用缺失特征信息的低秩性，辅助算法学习更鲁棒的分类模型，继而实现对未知样本的准确分类。

本发明实施例的基于噪声容忍的偏标记学习方法假定冗余的标签信息来源于特征信息的缺失，将偏多标记学习任务转化成了一个特征填充问题，并在填充特征信息后的完备数据中学习分类模型，减少了噪声消歧错误对模型训练的负面影响。利用了填充信息的低秩性，避免了学习模型过拟合，增加了学习模型的鲁棒性。

本发明实施例的基于噪声容忍的偏标记学习方法为偏多标记学习提供了一个全新的解决思路，该发明主要聚焦解决现有两类偏标记学习算法的以下弊端：1)对于两阶段学习算法，主要克服噪声消歧阶段，被错误辨识的标签影响后续模型训练。2)对于统一框架学习算法，避免模型训练和噪声消歧相互引导，导致模型过拟合。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于噪声容忍的偏多标记学习方法，其特征在于，包括：

构建训练数据的特征矩阵X、可观测标记矩阵Y和特征填充矩阵E；

根据所述特征矩阵X、可观测标记矩阵Y和特征填充矩阵E挖掘特征空间和标记空间一致性信息，构建基于噪声的偏多标记学习模型，通过选择迭代优化方法对所述偏多标记学习模型进行训练，得到多标记分类器V；

将未知样本输入到所述多标记分类器V，所述多标记分类器V输出所述未知样本的标记信息，

所述的构建训练数据的特征矩阵X、可观测标记矩阵Y和特征填充矩阵E，包括：

构建训练数据集，利用训练数据集中的训练数据构建训练数据的特征矩阵和可观测标记矩阵/>

其中m，d和q分别表示训练样本数量、特征维度数量和标记数量，标记矩阵中Y_ij＝1表示标记i是样本j的候选标记，Y_ij＝0，表示标记i不是样本j的候选标记，构建特征填充矩阵用于构建完备的特征矩阵/>所述的根据所述特征矩阵X、可观测标记矩阵Y和特征填充矩阵E挖掘特征空间和标记空间一致性信息，构建基于噪声的偏多标记学习模型，包括：基于所述完备特征矩阵/>和可观测标记矩阵Y引入特征映射矩阵W构建特征空间到标记空间的线形映射关系，设特征映射矩阵W线形独立地获取标记相关性，限制W，获得初始的基于噪声的偏多标记学习模型：

||W||_*和||E||_*分别表示矩阵W和E的奇异值之和，α和λ是权衡参数，填充矩阵E为低秩矩阵；利用公式||Y^TY-(X+E)^T(X+E)||比较样本特征相似度和标记相似度一致性，获得基于噪声容忍的偏多标记学习模型如下：

所述的通过选择迭代优化方法对所述偏多标记学习模型进行训练，得到多标记分类器V，包括：

S2-2-2：固定E，更新W，目标函数等价于如下子优化问题：

在上述子优化问题中，W有闭式解

表示矩阵/>的谱半径，Γ_ε[G]＝US_ε[∑]V^T，US_ε[∑]V^T是G的奇异值分解SVD分解，

S2-2-3：固定W，更新E；目标函数等价于如下子优化问题：

在上述子优化问题中，E有闭式解

S2-2-4：重复S2-2-2到S2-2-3，不断交替更新参数W，E，直到满足迭代停止条件，所述偏多标记学习模型收敛，输出所述偏多标记学习模型的最优解(W^*，E^*)，得到多标记分类器V。

2.根据权利要求1所述的方法，其特征在于，所述迭代停止条件包括目标函数值小于某个预设定阈值，或者W，E的每一位都不再发生变化；或者达到迭代的最大次数。

3.根据任一权利要求1或者2所述的方法，其特征在于，所述的将未知样本输入到所述多标记分类器V，所述多标记分类器V输出所述未知样本的标记信息，包括：

将未知样本x*输入到多标记分类器V，多标记分类器V＝W，是一个d*q的矩阵，计算得到的y*是一个q*1的向量，设置某个阈值，y向量中元素的值高于此阈值设置为1，则此元素的标记为未知样本对应的标记；y向量中元素的值低于此阈值设置为0，表示该标记不是此未知样本对应的标记，当y向量中有多个元素的值高于上述阈值，则未知样本对应多个标记。