CN117992835A

CN117992835A - 多策略标签消歧的偏多标签分类方法、设备及存储介质

Info

Publication number: CN117992835A
Application number: CN202410399836.7A
Authority: CN
Inventors: 赵鹏; 陶天哲; 韩莉; 杨为民
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2024-04-03
Filing date: 2024-04-03
Publication date: 2024-05-07
Anticipated expiration: 2044-04-03
Also published as: CN117992835B

Abstract

本发明是一种多策略标签消歧的偏多标签分类方法、设备及存储介质，所述方法步骤为：构建偏多标签数据集，包含样本特征数据集和候选标签数据集；使用嵌入网络生成的样本嵌入特征，用于计算标签原型；通过多策略标签消歧操作，排除候选标签集中的噪声标签并计算每个样本中的高置信度标签；使用消歧后的标签置信度重新计算并更新标签原型，并将更新后的标签原型与样本嵌入特征共同用于训练嵌入网络；通过度量嵌入网络生成的测试样本特征与各个标签原型之间的相似度来进行分类。本发明可减少噪声信息的影响，增强模型在未知数据上的泛化能力，从而提升偏多标签分类性能。

Description

多策略标签消歧的偏多标签分类方法、设备及存储介质

技术领域

本发明涉及偏多标签学习技术领域，具体涉及一种多策略标签消歧的偏多标签分类方法、设备及存储介质。

背景技术

随着移动互联网的普及和5G技术的推广，越来越多的人们开始依赖于智能手机、平板电脑、摄像机等数字设备，并倾向于将这些设备生成的图像、文本、语音和视频等多样化的数据分享到在线多媒体平台上，这种趋势源于人们对社交互动、内容创作和信息共享的日益需求。近年来，海量数据的产生促进了人工智能领域的蓬勃发展，尤其是在多标签学习方向上取得了显著进展。但在传统的多标签学习研究中，往往假设一个样本被精确地标注为一个或多个标签。然而现实生活中，对于样本标注通常会花费大量的人力财力，一个公司可能对样本标注采取众包的形式，即从网上收集标注者标注的样本。这样由于标注者的专业不一致性，通常就会使得标注的标签集存在噪声。因而，偏多标签学习方法成为一个热点研究问题。

偏多标签分类任务中存在的主要问题在于候选标签数据集中存在部分噪声标签，严重影响模型训练。同时，单一的标签消歧策略对于处理噪声数据具有一定的局限性，无法通过考虑实例特征和标签相关性等消歧策略来纠正噪声，无法全面来捕捉到噪声数据的特点，也无法充分考虑真实标签之间的关系，影响输出结果的可靠性。因此，解决该问题的关键在于如何选择有效的标签消歧策略来进行标签去噪。例如Xie等(Xie Ming Kun, HuangSheng Jun. Partial multi-label learning[C]. Proceedings of the AAAIConference on Artificial Intelligence. 2018, 32(1).)作者提出了一种偏多标签分类方法，通过从特征消歧策略层面上出发，通过特征原型的方法为每个标签分配一个置信度，然后结合标签排序和置信度矩阵共同构造了偏多标签分类模型，在优化阶段交替优化标签置信度矩阵与分类器;Zhang等(Zhang Ming Ling, Fang Jun Peng. Partial multi-label learning via credible label elicitation[J]. IEEE Transactions onPattern Analysis and Machine Intelligence, 2020, 43(10): 3587-3599.)作者从特征消歧策略的角度出发，通过特征最近邻关系进行标签传播来获取标签置信度，利用具有高标签置信度的可信标签，通过虚拟标签增强技术对标签进行两两排序，最终得到标签预测器；Sun等(Sun Li Juan , Feng Song He , Wang Tao , et al. Partial Multi-LabelLearning by Low-Rank and Sparse Decomposition[J]. Proceedings of the AAAIConference on Artificial Intelligence, 2019, 33:5016-5023.)是将标签矩阵分解为真实标签矩阵和噪声标签矩阵，将真实标签矩阵约束为低秩，噪声标签矩阵假设为稀疏，从而实现样本的真实标签和噪声标签分离；Li等(Li Zi Wei, Lyu Geng Yu, Feng, SongHe, Partial Multi-Label Learning via Multi-Subspace Representation 2020,10.24963.)作者将原始的标签空间分解为标签子空间矩阵和标签相关矩阵来减少噪声标签的负面影响，利用特征间的相关性将原始的带噪声的特征空间映射到一个特征子空间来减小噪声特征的影响，并通过图拉普拉斯正则项约束标签子空间；Zhao等(Zhao Peng,Zhao Shi Yi, Zhao Xu Yang, et al. Partial multi-label learning based onsparse asymmetric label correlations[J].Knowledge-Based Systems, 2022, 245:108601.)作者利用标签关系矩阵并限制其稀疏性，同时考虑了非对称的标签关系，直接提取标签的置信度，建立特征与置信度之间的联系，在特征中抽取有用的信息与真实标签置信度建模。

然而，上述方法往往采用了从单一策略去考虑候选标签集该如何进行去除噪声标签。但是在偏多标签分类问题中，这种单一消歧策略在处理噪声数据时存在局限性，如果仅仅使用特征消歧策略或者标签消歧策略，它都无法准确捕捉噪声数据的特点，也无法充分考虑真实标签之间的关系，从而影响纠正的效果。为了解决上述问题，本发明提供了一种多策略标签消歧的偏多标签分类方法。

发明内容

本发明提出的一种多策略标签消歧的偏多标签分类方法，可至少解决上述提到的技术问题中的其中一项问题。

为实现上述目的，本发明采用了以下技术方案：

一种多策略标签消歧的偏多标签分类方法，所述方法步骤如下，

S1、构建偏多标签数据集，包含样本特征数据集和候选标签数据集，候选标签数据集中除了包含部分相关标签外，还包含一部分不相关的噪声标签。其中样本特征数据集和候选标签数据集都用于训练嵌入网络和计算标签原型；

S2、使用嵌入网络生成的样本嵌入特征，用于计算标签原型；

S3、通过多策略标签消歧操作，排除候选标签集中的噪声标签并计算每个样本中的高置信度标签；

S4、使用消歧后的标签置信度重新计算并更新标签原型，并将更新后的标签原型与样本嵌入特征共同用于训练嵌入网络；

S5、通过度量嵌入网络生成的测试样本特征与各个标签原型之间的相似度来进行分类。

进一步的，所述步骤S1具体包括：

构建偏多标签数据集，包括样本数据集和候选标签数据集，其中样本特征表示/>，其中n表示样本的个数，d是特征的维度，/>表示第i个样本特征的列向量,候选标签矩阵表示为/>，其中c是类别数，/>表示第i个标签列向量，表示为 (/>，其中/>=1表示第i个样本的第j个标签在此样本的候选标签集里，反之/>=0；

偏多标签分类任务的目标是从特征矩阵和候选标签矩阵中学习多标签预测模型，为新样本预测标签。

进一步的，所述步骤S2使用嵌入网络生成的样本嵌入特征，用于计算标签原型；具体包括，

S21、将样本特征送入到嵌入网络生成其嵌入特征，对应特征的维度进行变换，即。相关标签原型/>计算公式为：

其中标签原型矩阵P∈,/>表示第j个标签原型向量；

S22、不相关标签原型计算公式为：

其中表示第j个标签不相关原型向量。

进一步的：所述步骤S3通过多策略标签消歧操作，排除候选标签集中的噪声标签并计算每个样本中的高置信度标签；

多策略标签消歧是由标签原型消歧策略、特征-标签一致性消歧策略、标签相关性消歧策略组成。候选标签集在经过不同策略下的标签消歧操作后，可获得较为可信的标签置信度，其中置信度标签矩阵，其中/>表示第i个样本的标签置信度向量，/>，表示为[/>，/>表示为表示第i个样本下的第j个标签的标签置信度；

S31、通过计算样本到相关原型和不相关原型的欧式距离来计算标签原型策略下的标签置信度，计算公式为：

其中表示在标签原型策略第i个样本下的第j个标签的标签置信度，/>表示当前迭代次数，/>表示计算两者之间的欧式距离。

S32、通过计算特征相似度和标签语义相似度来更新特征-标签一致性策略下的标签置信度，计算公式为：

其中表示第i个样本特征与第j个样本特征之间余弦相似度，/>表示第i个样本的标签置信度向量与第j个样本的标签置信度向量之间余弦相似度。

S33、通过计算标签相关性消歧策略下的标签置信度,计算公式为：

其中表示为在第j个标签存在的情况下第k个标签存在的概率, 其中表示标签k和标签j同时出现的次数，/>表示标签j出现的次数,表示候选标签集中同时包含标签 k 和j 的样本数量。

S34、计算消歧后的置信度并对其进行归一化，计算公式为：

进一步的：所述步骤S4包括使用消歧后的标签置信度重新计算并更新标签原型，并将更新后的标签原型与样本嵌入特征共同用于训练嵌入网络；

S41、重新计算相关标签原型，其计算公式为：

S42、重新计算不相关标签原型，其计算公式为：

S43、通过欧式距离计算嵌入特征与标签原型之间的距离，其中第个样本/>属于类j的概率计算公式为

其中表示第i个样本属于标签j的概率值；

S44、设置一个阈值，过滤掉概率值较小的标签置信度，获得真实标签，计算公式为：

S45、计算交叉熵损失函数，计算公式为：

。

进一步的：所述步骤S5通过度量嵌入网络生成的测试样本特征与各个标签原型之间的相似度，进行分类；

S51、在标签原型校正之后，给定测试样本，通过计算样本特征与标签j的相关标签原型和不相关标签原型的距离，用softmax函数来预测其是否具有标签j，因此，测试样本的预测标签集/>可以计算如下:

其中

又一方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述方法的步骤。

再一方面，本发明还公开一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上方法的步骤。

由上述技术方案可知，本发明的多策略标签消歧的偏多标签分类方法，在含有多标签噪声数据情况下，通过单一的消歧策略计算标签置信度，并将消歧后的标签置信度和样本特征一起构成训练集。使用消歧后的标签置信度重新计算并更新标签原型，并将更新后的标签原型与样本嵌入特征共同用于训练嵌入网络。通过计算嵌入网络生成的测试样本嵌入特征与其各个标签原型之间的相似度，进行分类。但由于噪声标签与真实标签之间存在分布差异，导致单一的消歧策略无法正确地捕捉到真实数据的分布和标签之间的关系。为了解决这个问题，本发明通过标签原型、特征-标签一致性、标签相关性等多个消歧策略用于计算标签置信度，并选择可信度高的标签置信度数据用于模型训练，以便更好地捕捉和建模特征与标签之间的关联性，可以有效提高模型对真实标签的学习能力，减少噪声数据对模型性能的负面影响，从而提高偏多标签分类性能。

与现有技术相比，本发明的有益效果在于：

1、由于在偏多标签学习任务中，核心问题便是利用噪声标签数据进行模型训练，这会导致模型过度拟合这些错误的标签，并且无法正确地捕捉到真实的数据分布和标签之间的关系。本发明通过多策略标签消歧操作，能够排除候选标签集中的噪声标签，计算得到每个样本中较为准确的标签置信度，这样可以提高模型对噪声数据的处理能力，从而增强模型的准确性和可靠性。

2、本发明通过计算嵌入网络生成的样本嵌入特征与其各个标签原型之间的相似度，用来纠正噪声标签原型从而完成分类任务，而不是利用传统的二元分类器或者简单的线性变换矩阵进行分类。标签原型可以更好地捕捉样本特征与标签之间的关联性。而本发明中利用标签原型对测试样本进行预测，提供更直观和可解释的结果，这使得模型的预测结果更易于理解和解释。

附图说明

图1是本发明实施例的流程图；

图2是本发明实施例的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1和图2所示，本实施例所述的多策略标签消歧的偏多标签分类方法，包括以下步骤，

S1：构建偏多标签数据集，包含样本特征数据集和候选标签数据集，候选标签数据集中除了包含全部的真实相关标签外，还包含一部分不相关的噪声标签。其中样本特征数据集和候选标签集都用于训练嵌入网络和计算标签原型；

构建偏多标签数据集，包括样本数据集和候选标签数据集，其中样本特征表示/>，其中n表示样本的个数，d是特征的维度，/>表示第i个样本特征的列向量,候选标签矩阵表示为/>，其中c是类别数，/>表示第i个标签列向量，表示为 (/>，其中/>=1表示第i个样本的第j个标签在此样本的候选标签集里，反之/>=0；偏多标签分类任务的目标是从特征矩阵和候选标签矩阵中学习多标签预测模型，为新样本预测标签。

S2：使用嵌入网络生成的样本嵌入特征，计算得到标签原型；

（1）、将样本特征送入到嵌入网络生成其嵌入特征，对应特征的维度进行变换，即。相关标签原型/>，其计算公式为：

其中标签原型矩阵P∈,/>表示第j个标签原型向量；

（2）、不相关标签原型，其计算公式为：

其中表示第j个标签不相关原型向量。

（1）、通过计算样本到相关原型和不相关原型的欧式距离来计算标签原型策略下的标签置信度，计算公式为：

（2）、通过计算特征相似度和标签语义相似度来更新特征-标签一致性策略下的标签置信度，计算公式为：

（3）、通过计算标签相关性消歧策略下的标签置信度,计算公式为：

（4）、计算消歧后的置信度并对其进行归一化，计算公式为：

S4、通过将训练好的嵌入网络生成的样本嵌入特征与其对应的标签置信度进行结合，重新计算并更新标签原型；

（1）、重新计算相关标签原型计算公式为：

（2）、重新计算不相关标签原型计算公式为：

（3）、通过欧式距离计算嵌入特征与标签原型之间的距离，其中第个样本/>属于类j的概率计算公式为

其中表示第i个样本属于标签j的概率值。

（4）、设置一个阈值，过滤掉概率值较小的标签置信度，获得真实标签，计算公式为：

（5）、计算交叉熵损失函数，计算公式为

S5、通过度量标签原型和嵌入网络生成的测试样本嵌入特征之间的相似度，对测试样本进行分类。

（1）、在标签原型校正之后，给定测试样本，通过计算样本特征与标签j的相关标签原型和不相关标签原型的距离，用softmax函数来预测其是否具有标签j，因此，测试样本的预测标签集/>可以计算如下:

其中

以下举例来说明本发明实施例的技术效果：

表1:在六个合成PML数据集上与其他方法的对比实验结果(噪声标签数量设置为1)

表1是本发明（PML-LPMS）的实验结果和其他主流的方法对比的结果。从表中可以看出，在六个合成的偏多标签数据集给每个实例添加1个噪声标签时的实验设置下，本发明实施例都取得了最好的成绩。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一基于时序特征迁移的移动源排放预测方法。

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本申请实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述基于时序特征迁移的移动源排放预测方法。

上述电子设备提到的通信总线可以是外设部件互连标准（英文：PeripheralComponent Interconnect，简称：PCI）总线或扩展工业标准结构（英文：Extended IndustryStandard Architecture，简称：EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（英文：Random Access Memory，简称：RAM），也可以包括非易失性存储器（英文：Non-Volatile Memory，简称：NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（英文：Central ProcessingUnit，简称：CPU）、网络处理器（英文：Network Processor，简称：NP）等；还可以是数字信号处理器（英文：Digital Signal Processing，简称：DSP）、专用集成电路（英文：ApplicationSpecific Integrated Circuit，简称：ASIC）、现场可编程门阵列（英文：Field-Programmable Gate Array，简称：FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多策略标签消歧的偏多标签分类方法，其特征在于，所述方法包括以下步骤，

S1、构建偏多标签数据集，包含样本特征数据集和候选标签数据集，候选标签数据集中包含相关标签和不相关的噪声标签；其中样本特征数据集和候选标签数据集都用于训练嵌入网络和计算标签原型；

2.根据权利要求1所述的多策略标签消歧的偏多标签分类方法，其特征在于：所述步骤S1具体包括：

构建偏多标签数据集，包括样本数据集和候选标签集，其中样本特征表示/>，其中n表示样本的个数，d是特征的维度，/>表示第i个样本特征的列向量；候选标签矩阵表示为/>，其中c是类别数，/>表示第i个标签列向量；表示为 (/>，其中/>=1表示第i个样本的第j个标签在此样本的候选标签集里，反之/>=0；

3.根据权利要求2所述的多策略标签消歧的偏多标签分类方法，其特征在于：所述步骤S2、使用嵌入网络生成的样本嵌入特征，用于计算标签原型；具体包括，

S21、将样本特征送入到嵌入网络生成其嵌入特征，对应特征的维度进行变换，即；相关标签原型/>计算公式为：

其中标签原型矩阵P∈,/>表示第j个标签原型向量；

S22、不相关标签原型计算公式为：

其中表示第j个不相关标签原型向量。

4.根据权利要求3所述的多策略标签消歧的偏多标签分类方法，其特征在于：所述步骤S3通过多策略标签消歧操作，排除候选标签集中的噪声标签并计算每个样本中的高置信度标签；具体包括：

多策略标签消歧是由标签原型消歧策略、特征-标签一致性消歧策略、标签相关性消歧策略组成；候选标签集在经过不同策略下的标签消歧操作后，获得较为可信的标签置信度，其中置信度标签矩阵，其中/>表示第i个样本的标签置信度向量，，表示为[/>，/>表示为第i个样本下的第j个标签的标签置信度；

则具体步骤如下：

S31、通过计算样本到相关标签原型和不相关标签原型的欧式距离来计算标签原型策略下的标签置信度，其计算公式为：

其中表示在标签原型策略下第i个样本下的第j个标签的标签置信度，/>表示当前迭代次数，/>表示计算两者之间的欧式距离；

S32、通过计算特征相似度和标签语义相似度来更新特征-标签一致性策略下的标签置信度，其计算公式为：

其中表示第i个样本特征与第j个样本特征之间余弦相似度，/>表示第i个样本的标签置信度向量与第j个样本的标签置信度向量之间余弦相似度；

S33、通过计算标签相关性消歧策略下的标签置信度,其计算公式为：

其中表示为在第j个标签存在的情况下第k个标签存在的概率，其中表示标签k和标签j同时出现的次数，/>表示标签j出现的次数,表示候选标签集中同时包含标签 k 和j 的样本数量；

S34、计算消歧后的置信度并对其进行归一化，其计算公式为：

。

5.根据权利要求4所述的多策略标签消歧的偏多标签分类方法，其特征在于：所述步骤S4包括使用消歧后的标签置信度重新计算并更新标签原型，并将更新后的标签原型与样本嵌入特征共同用于训练嵌入网络；具体包括：

S41、重新计算相关标签原型，其计算公式为：

S42、重新计算不相关标签原型，其计算公式为：

其中表示第i个样本属于标签j的概率值；

S44、设置一个阈值，过滤掉概率值较小的标签置信度，获得真实标签，其计算公式为：

S45、计算交叉熵分类损失函数，其计算公式为：

。

6.根据权利要求5所述的多策略标签消歧的偏多标签分类方法，其特征在于：所述步骤S5通过度量嵌入网络生成的测试样本特征与各个标签原型之间的相似度来进行分类；具体包括：

S51、在标签原型校正之后，给定测试样本，通过计算样本特征与标签j的相关标签原型和不相关标签原型的距离，用softmax函数来预测其是否具有标签j，因此，测试样本/>的预测标签集/>可以计算如下:

其中

7.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。