CN114722917A

CN114722917A - 弱标签数据集的标签传播方法

Info

Publication number: CN114722917A
Application number: CN202210270006.5A
Authority: CN
Inventors: 程光权; 冯旸赫; 周玉珍; 黄金才; 刘忠; 陈丽; 梁星星; 姚晨蝶
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-07-08

Abstract

本发明涉及标签传播领域，公开了一种弱标签数据集的标签传播方法，本发明根据构造标签传播图，所述标签传播图中包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连；在所述标签传播图中获取类别标签和已标记样本以构建概率转移矩阵和标注矩阵；在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息；将补全好的标签信息对无标记数据进行传播；判断标签矩阵是否收敛，若是则完成标签传播，采用反馈的思想改进了原有的标签传播算法，填充弱标签数据缺失的标签信息，提高对标签的分配正确率。

Description

弱标签数据集的标签传播方法

技术领域

本申请涉及标签传播领域，特别是涉及一种弱标签数据集的标签传播方法。

背景技术

研究表明，在多标签数据中，标签不完整，标签噪声的情况非常普遍。例如，场景分类任务中的图像样本，其标签容易出现噪声和缺失的情况，比如少量标签描述的是无用信息、有些标签没有标注等。通常情况下，“弱标签数据集”是指具有标签不够完整，有一定的噪声标签等特征的多标签数据集。现实世界中大规模数据的收集和人工标记时，弱标签的情况是很难避免的。数据集的弱标签性，在一定程度上降低了多标签学习的算法性能，也影响了其在现实生活中的应用。

因此，如何在弱标签数据缺失的情况下，提高标签分配的正确率成为了亟待解决的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种弱标签数据集的标签传播方法，旨在解决在弱标签数据缺失的情况下，提高标签分配的正确率的技术问题。

为实现上述目的，本发明提供了一种弱标签数据集的标签传播方法，所述方法包括：

构造标签传播图，所述标签传播图中包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连；

在所述标签传播图中获取类别标签和已标记样本以构建概率转移矩阵和标注矩阵；

在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息；

将补全好的标签信息对无标记数据进行传播；

判断标签矩阵是否收敛，若是则完成标签传播。

可选地，所述在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息的步骤之前，还包括：

确定在所述标签传播图中有n个弱标签数据X＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中样本x_i对应的弱标签为α_i＝(α_i1,α_i2,...,α_ic)，c为标签空间大小；

当用户为样本x_i标出第j类标签时α_ij＝1，对于其他未标出的标签α_ij＝0；

假设T表示数据集X上的相似性度量矩阵，所有样本对应的弱标签矩阵为Y＝(Y₁,Y₂,...,Y_n)，则可对每个已标记样本x_i赋初始值α_i，而未标记样本x_u的标签由标签传播的结果确定。

可选地，所述在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息的步骤，包括：

在已标记样本接收到来自邻近样本传播的标签信息时，根据所述标签信息判断有用信息和无用信息；

将所述有用信息保留并删除无用信息；

将保留之后的有用信息补全进所述已标记样本自身标签。

可选地，所述在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息的步骤之后，还包括：

在第t+1次标签传播中，已标记样本x_i的标签可表示如下所示：

其中，Y_i ⁰是标签矩阵初始时的标签状态，对于每个已标记样本x_i，执行如下：

其中，0＜θ＜1用来确定样本x_i从近邻样本传来的信息中吸收的标签部分。

可选地，所述在第t+1次标签传播中的步骤，还包括：

无标签样本x_u在标签传播时，执行如下：

可选地，所述构造标签传播图，所述标签传播图中包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连的步骤，包括：

获取目标样本，并根据所述目标样本建立标签传播图；

所述标签传播图包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连；

对所述无向边对应的权值进行初始化。

可选地，所述对所述无向边对应的权值进行初始化的步骤，包括：

初始化(l+u)×(l+u)维的概率转移矩阵T_ij，其中：

此外，为实现上述目的，本发明还提出一种弱标签数据集的标签传播装置，所述装置包括：

初始化模块，用于构造标签传播图，所述标签传播图中包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连；

矩阵构造模块，用于在所述标签传播图中获取类别标签和已标记样本以构建概率转移矩阵和标注矩阵；

标签补全模块，用于在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息；

标签传播模块，用于将补全好的标签信息对无标记数据进行传播；

收敛判断模块，用于判断标签矩阵是否收敛，若是则完成标签传播。

此外，为实现上述目的，本发明还提出一种计算机设备，所述计算机设备包括：存储器，处理器以及存储在所述存储器上并可在所述处理器上运行的弱标签数据集的标签传播程序，所述弱标签数据集的标签传播程序配置为实现如上文所述的弱标签数据集的标签传播方法。

此外，为实现上述目的，本发明还提出一种介质，所述介质上存储有弱标签数据集的标签传播程序，所述弱标签数据集的标签传播程序被处理器执行时实现如上文所述的弱标签数据集的标签传播方法的步骤。

本发明根据构造标签传播图，所述标签传播图中包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连；在所述标签传播图中获取类别标签和已标记样本以构建概率转移矩阵和标注矩阵；在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息；将补全好的标签信息对无标记数据进行传播；判断标签矩阵是否收敛，若是则完成标签传播，采用反馈的思想改进了原有的标签传播算法，填充弱标签数据缺失的标签信息，提高对标签的分配正确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的弱标签数据集的标签传播设备的结构示意图；

图2为本发明弱标签数据集的标签传播方法第一实施例的流程示意图；

图3为本发明弱标签数据集的标签传播方法第一实施例经典标签传播算法流程图；

图4为本发明弱标签数据集的标签传播方法第一实施例针对弱标签的标签传播算法架构图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的弱标签数据集的标签传播设备结构示意图。

如图1所示，该弱标签数据集的标签传播设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对弱标签数据集的标签传播设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及弱标签数据集的标签传播程序。

在图1所示的弱标签数据集的标签传播设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明弱标签数据集的标签传播设备中的处理器1001、存储器1005可以设置在弱标签数据集的标签传播设备中，所述弱标签数据集的标签传播设备通过处理器1001调用存储器1005中存储的弱标签数据集的标签传播程序，并执行本发明实施例提供的弱标签数据集的标签传播方法。

本发明实施例提供了一种弱标签数据集的标签传播方法，参照图2，图2为本发明弱标签数据集的标签传播方法第一实施例的流程示意图。

本实施例中，所述弱标签数据集的标签传播方法包括以下步骤：

步骤S10：构造标签传播图，所述标签传播图中包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连。

需要说明的是，研究表明，在多标签数据中，标签不完整、标签噪声的情况非常普遍。例如，场景分类任务中的图像样本，其标签容易出现噪声和缺失的情况，比如少量标签描述的是无用信息、有些标签没有标注等。通常情况下，“弱标签数据集”是指具有标签不够完整、有一定的噪声标签等特征的多标签数据集。现实世界中大规模数据的收集和人工标记时，弱标签的情况是很难避免的。数据集的弱标签性，在一定程度上降低了多标签学习的算法性能，也影响了其在现实生活中的应用。

可以理解的是，标签传播算法是一种基于图的半监督学习方法。其主要思想是利用已标记样本的标签信息来预测未标记样本标签。标签传播算法基于的假设是平滑假设，即对于相似度大的数据样本，他们的标签也是相似的。这一假设将在已标记数据和未标记数据之间的标签传播变成了可能，标签传播的可能性取决于样本之间的相似度。两个样本之间相似度越大，表示这两个样本之间标签相似的可能性越大，从而样本之间标签传播过去的可能性就越大。

标签传播是在加权的无向关系图上进行的，通过图中边的权重可直观地得到样本之间的相似度，进而分析出标签在这条边上的传播程度。为此，标签传播之前需要构造一个图，图中有标签样本和无标签样本通过一条无向边相连，边的权重表示样本间的相似度。

在具体实施中，一次标签传播过程可以用矩阵相乘来表示。在传播过程中，每个样本把自己的标签以概率转移矩阵T中相应的概率可能传播给另一个样本。两个样本越相似，就越容易将自己的标签赋到对方的标签分布上，即更容易传播过去。而每次标签传播结束后，将已标记样本的标签置到最初状态，则是因为已标记样本的标签都是已知的，且默认是完整的、正确的标签，是不能被改变的。随着已标记数据标签的不断传播，将分类决策边界不断地从高密度数据区域，推到低密度数据区域内，也就是为样本空间划分到了不同类别。标签传播算法过程主要由概率转移矩阵和标签矩阵来表示，标签在传播过程中的变化都可以在标签矩阵中显现出来。因此，在算法开始之前应先构造概率转移矩阵和标签矩阵，以保证标签传播过程。标签传播算法的整体架构大致如图3所示。

进一步地，所述构造标签传播图，所述标签传播图中包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连的步骤，包括：获取目标样本，并根据所述目标样本建立标签传播图；所述标签传播图包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连；对所述无向边对应的权值进行初始化。

进一步地，所述对所述无向边对应的权值进行初始化的步骤，包括：

初始化(l+u)×(l+u)维的概率转移矩阵T_ij，其中：

在具体实施中，针对标签传播的第二步进行改进，已标记样本接收来自近邻样本传播的标签信息，并过滤这些标签信息给自身标签，再将补全好的标签对无标记数据传播出去。每次处理接收的标签时，都对这些信息进行“吸收”，有用的标签信息留下，无用的标签信息丢弃。假设所有的类别标签都有被标记过，这样在传播中既能保证原始的已标记样本标签，又能对缺失的标签尽可能多地填充。针对弱标签的标签传播算法整体架构大致如图4所示。

在具体实施中，算法利用上文中构造的无向图和标签迭代传播过程，来分析解决弱标签数据集中样本x_i的标签向近邻样本x_u传播的问题。假设某样本集中有n个弱标签数据X＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}。其中样本x_i对应的弱标签为α_i＝(α_i1,α_i2,...,α_ic)，c为标签空间大小。当用户为样本x_i标出第j类标签时α_ij＝1，对于其他未标出的标签α_ij＝0。假设T表示数据集X上的相似性度量矩阵，所有样本对应的弱标签矩阵为Y＝(Y₁,Y₂,...,Y_n)，则可对每个已标记样本x_i赋初始值α_i，而未标记样本x_u的标签由标签传播的结果确定。每次迭代，已标记样本都从近邻样本传播来的标签信息中“吸收”部分信息，并且保留初始状态时的标签信息。这样一来，在第t+1次标签传播中，已标记样本x_i的标签可表示如下所示：

其中，Y_i ⁰是标签矩阵初始时的标签状态。这时，对于每个已标记样本x_i，执行如下公式：

其中，0＜θ＜1用来确定样本x_i从近邻样本传来的信息中“吸收”的标签部分。θ越大，已标记样本越不容易添加新标签，算法也越贴近传统的标签传播算法；反之，已标记样本越容易添加新标签。

而无标签样本x_u则需要在每次标签传播时，执行如下公式：

步骤S20：在所述标签传播图中获取类别标签和已标记样本以构建概率转移矩阵和标注矩阵。

步骤S30：在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息。

进一步地，所述在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息的步骤，包括：在已标记样本接收到来自邻近样本传播的标签信息时，根据所述标签信息判断有用信息和无用信息；将所述有用信息保留并删除无用信息；将保留之后的有用信息补全进所述已标记样本自身标签。

进一步地，所述在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息的步骤之后，还包括：

其中，Y_i ⁰是标签矩阵初始时的标签状态。这时，对于每个已标记样本x_i，执行如下：

进一步地，所述在第t+1次标签传播中的步骤，还包括：

无标签样本x_u在标签传播时，执行如下：

步骤S40：将补全好的标签信息对无标记数据进行传播。

步骤S50：判断标签矩阵是否收敛，若是则完成标签传播。

在具体实施中，标签传播的前期，除了对未标记样本进行标记外，还要对已标记样本补全标签；而后期已标记标签矩阵不再变化时，主要完成未标记样本的标记。由此，在标签传播过程中，不断更新各样本标签直至算法收敛，即标签矩阵Y不再发生变化。具体算法流程如下表所示：

在步骤4中，样本中的标签会传播给其他样本，为使标签的概率分布一致，在之前需要先对概率转移矩阵进行归一化。而步骤5中，由于已标记样本的标签已经存在，现有算法为不破坏已标记样本的标签组成，都会在每次标签传播结束后将已标记样本的标签还原成初始状态；针对已标记样本中的弱标签问题，改进后的算法为填充已标记样本的缺失标签，将“吸收”来自近邻样本传播的标签信息。“吸收”标签的具体做法是，将每次标签传播后已标记样本中的标签根据紧邻样本的信息增加，填充样本标签组成。

改进之后的标签传播算法，其时间复杂度问题需要进一步讨论，也就是算法的速度问题。之前的算法在得到最优的结果前可能仅仅经过几次标签传播就可以完成；而改进后的算法，可能会迭代许多次才能最终收敛，每次迭代都需要进行一次标签传播，进而会影响算法的速度。算法的速度虽然会大幅下降，却不会随着迭代次数的增加呈线性增长。一般来说，标签传播的速度与已知标签的初始状态相关，已标记样本越多，收敛速度越快。而改进后的算法在标签传播时，还需要补全缺失的标签。标签完整程度越大，算法的收敛时间就越短。改进后的算法标签的完整度是越来越大的，因此在算法迭代时，标签传播的收敛速度会加快。在本文的算法中，还有标签传播停止参数t的存在及算法迭代次数的上限控制，t的值越大迭代次数越多，反之迭代次数越少。迭代次数越多，标签的完整程度越大，随后的标签传播更倾向于改进前的标签传播，算法收敛速度也越来越快，而不是随迭代次数线性增加。

本实施例根据构造标签传播图，所述标签传播图中包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连；在所述标签传播图中获取类别标签和已标记样本以构建概率转移矩阵和标注矩阵；在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息；将补全好的标签信息对无标记数据进行传播；判断标签矩阵是否收敛，若是则完成标签传播，采用反馈的思想改进了原有的标签传播算法，填充弱标签数据缺失的标签信息，提高对标签的分配正确率。

此外，本发明实施例还提出一种介质，所述介质上存储有弱标签数据集的标签传播程序，所述弱标签数据集的标签传播程序被处理器执行时实现如上文所述的弱标签数据集的标签传播方法的步骤。

本发明弱标签数据集的标签传播装置的实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种弱标签数据集的标签传播方法，其特征在于，所述方法包括：

将补全好的标签信息对无标记数据进行传播；

判断标签矩阵是否收敛，若是则完成标签传播。

2.如权利要求1所述的方法，其特征在于，所述在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息的步骤之前，还包括：

3.如权利要求1所述的方法，其特征在于，所述在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息的步骤，包括：

将所述有用信息保留并删除无用信息；

将保留之后的有用信息补全进所述已标记样本自身标签。

4.如权利要求1所述的方法，其特征在于，所述在所述已标记样本接收来自邻近样本传播的标签信息时，对所述标签信息进行过滤以补全所述已标记样本的标签信息的步骤之后，还包括：

5.如权利要求4所述的方法，其特征在于，所述在第t+1次标签传播中的步骤，还包括：

无标签样本x_u在标签传播时，执行如下：

6.如权利要求1至5任一项所述的方法，其特征在于，所述构造标签传播图，所述标签传播图中包括有标签样本和无标签样本，所述有标签样本和无标签样本通过一条无向边相连的步骤，包括：

获取目标样本，并根据所述目标样本建立标签传播图；

对所述无向边对应的权值进行初始化。

7.如权利要求6所述的方法，其特征在于，所述对所述无向边对应的权值进行初始化的步骤，包括：

初始化(l+u)×(l+u)维的概率转移矩阵T_ij，其中：

8.一种弱标签数据集的标签传播装置，其特征在于，所述装置包括：

9.一种弱标签数据集的标签传播设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的弱标签数据集的标签传播程序，所述弱标签数据集的标签传播程序配置为实现如权利要求1至7中任一项所述的弱标签数据集的标签传播方法的步骤。

10.一种介质，其特征在于，所述介质上存储有弱标签数据集的标签传播程序，所述弱标签数据集的标签传播程序被处理器执行时实现如权利要求1至7任一项所述的弱标签数据集的标签传播方法的步骤。