CN117274726A

CN117274726A - 一种基于多视角补标签的图片分类方法与系统

Info

Publication number: CN117274726A
Application number: CN202311570268.4A
Authority: CN
Inventors: 汤龙; 刘业磊
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2023-12-22
Anticipated expiration: 2043-11-23
Also published as: CN117274726B

Abstract

本发明公开了一种基于多视角补标签的图片分类方法与系统。所述方法包括：提取训练图片的多视角视觉特征；将提取的特征送入多视角补标签学习模型中，利用交替方向乘子法求解每个视角所对应的转换矩阵；利用得到的转换矩阵对待识别的图像进行分类。本发明通过约束训练样本与补标签向量集相似度及其与非补标签向量集相似度的数量关系构建损失函数；利用不同视角视觉特征之间的信息共享实现它们的一致性和互补性；利用样本的非补标签集构建一种样本标签的半监督学习策略，实现对模型信息的充分挖掘，提高图像分类准确度。

Description

一种基于多视角补标签的图片分类方法与系统

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于补标签学习的图片分类方法与系统。

背景技术

传统图像识别的训练过程需要足够多的良好标注的样本来确保模型的泛化性能。然而，在现实应用中，获取每一个训练样本的所属类别往往需要花费大量的时间和人力成本。为此，基于弱监督学习的识别模型逐渐成为研究热点。使用补标签进行学习(Complementary Label Learning, CLL)是弱监督学习的一种。在补标签学习中，每个训练样本都对应一个补标签集，指定该样本不属于某些类。大多情况下，获取样本的补标签集要比获取它的正确标签容易得多，例如，通常人们难以给珍稀动物打上正确的标签，但却能够很容易地判断出它“是不是狗”、“是不是大象”、“是不是猴子”。然而，相比于明确标签，补标签所能提供的监督信息减少，因此，所训练的分类器的精度可能会降低。因此，需要一种新的补标签分类器，提高图片分类精度。

发明内容

发明目的：本发明的目的是提供一种基于多视角补标签的图片分类方法与系统，采用图片样本的多视角视觉特征对补标签分类器进行训练，提升补标签分类器的泛化性能，从而实现对图像的更精准的识别。

技术方案：第一方面，一种基于多视角补标签的图片分类方法，包括以下步骤：

提取训练图片的多视角视觉特征；

将提取的多视角视觉特征送入多视角补标签学习模型中，利用交替方向乘子法求解每个视角所对应的转换矩阵；

利用得到的转换矩阵对待识别的图片进行分类；

其中，多视角补标签学习模型表示为如下优化问题：

问题P1：

；

约束条件：

；

其中，K代表类别数，N代表训练样本个数，表示补标签集，Y代表可能标签集；分别为视角A、B对应的视觉特征核矩阵，为核函数，/>和/>分别为训练样本在A、B视角下的视觉特征矩阵；通过采用一个K维向量来表达任意标签，其中相应的标签分量为1，而其他分量均为0，则/>的每一列分别代表相应样本的非补标签向量集的平均向量和补标签向量集的平均向量，分别代表训练样本在视角A、B上的视觉特征的拉普拉斯算子矩阵，代表权系数，/>代表求矩阵的迹，/>代表转换矩阵，/>代表距离间隔，代表松弛变量，将原先的不等式约束转换为等式约束，/>表示Frobenius范数，/>，其中/>代表维度为K的单位矩阵，/>代表维度为的全一矩阵，/>代表维度为/>的全零矩阵。

进一步地，提取训练图片的多视角视觉特征包括：将同一图片数据集分别放入预训练好的第一识别网络以及第二识别网络进行特征提取，得到A、B视角下的特征数据，并在此基础上利用高斯核函数计算核矩阵/>。

进一步地，利用交替方向乘子法求解每个视角所对应的转换矩阵包括：

首先得到问题P1的增广拉格朗日函数：

；

其中是一个正则化参数，/>为拉格朗日乘子；

然后，通过求解以下关于的Sylvester方程更新/>：

；

其中代表维度为N的单位矩阵；

通过求解以下关于的Sylvester方程更新/>：

；

通过下式更新：

；

通过下式更新：

；

通过下式更新：

；

通过下式更新：

；

通过以下关于Y的Sylvester方程更新Y：

；

其中代表有m个1的列向量，更新Y后将其小于零的分量置零，并且对每一个样本的补标签集所对应的分量进行置零操作：

；

其中，/>代表样本i对应的补标签集；

通过下式更新：

；

更新拉格朗日乘子：

；

重复以上更新操作直到收敛为止，最终求解出转换矩阵和/>。

进一步地，收敛条件为：优化变量相邻迭代变化之差的范数小于设定阈值以及优化问题P1中等式约束的范数小于设定阈值。

进一步地，利用得到的转换矩阵对待识别的图片进行分类包括：首先计算A、B两个视角待识别图片与训练样本之间的核化矩阵，接着计算A、B两个视角待识别图片与所有类别之间的余弦相似度，然后将所两个视角求得的余弦相似度取平均，取计算后的最大分量下标对应的类别作为待识别图片的预测类别。

第二方面，一种基于多视角补标签的图片分类系统，包括：

训练数据提取模块，提取训练图片的多视角视觉特征；

模型学习模块，将提取的多视角视觉特征送入多视角补标签学习模型中，利用交替方向乘子法求解每个视角所对应的转换矩阵；

图片识别模块，利用得到的转换矩阵对待识别的图片进行分类；

其中，多视角补标签学习模型表示为如下优化问题：

问题P1：

；

约束条件：

；

第三方面，本发明还提供一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如本发明第一方面所述的一种基于多视角补标签的图片分类方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述的一种基于多视角补标签的图片分类方法的步骤。

有益效果：本发明提出一种新的补标签图像分类方法和系统，通过约束训练样本与补标签向量集相似度及其与非补标签向量集相似度的数量关系构建了稀疏的补标签分类损失函数，并引入多视角视觉特征融合机制和基于非补标签集的半监督学习策略，可以充分利用多视角视觉特征之间的一致性和互补性，并充分挖掘样本补标签空间中的可用信息。与传统补标签学习方法相比，本发明提出的方法一定程度上提高了对待识别图像的分类准确率。并且本发明提出的模型不仅可以用于补标签学习，还可以用于明确标签学习以及混合标签学习，具有良好的实用性。

附图说明

图1是本发明提供的多视角补标签图片分类方法的流程图；

图2是本发明方法与通过两种不同网络提取特征后的基于传统补标签学习的图像分类方法之间的对比。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行清楚、完整的描述。

本发明提出一种针对弱监督学习问题中利用补标签信息完成明确标签分类问题的框架，其主要思想是通过利用训练样本提供的补标签信息构建相应约束条件，同时加入多视角学习以及半监督学习两种方法来提高模型对监督信息的利用率，接着使用交替方向乘子法完成模型的求解过程，最后利用求解后的转换矩阵和/>完成待识别图像的分类。如图1所示，本发明的一种基于多视角补标签的图片分类方法，包括如下步骤：

步骤S1，提取训练图片的多视角视觉特征。

先利用两个已经训练好的识别网络来提取训练图片不同视角下的视觉特征。本发明实施例中将同一图片数据集分别放入预训练好的GoogleNet以及ResNet101进行特征提取，得到A、B视角下的特征数据，并在此基础上利用高斯核函数计算核矩阵/>。

步骤S2，根据训练图片数据对多视角补标签学习模型进行训练。

本发明中多视角补标签学习模型表示为如下优化问题：

问题P1：

；

约束条件：

（1.1）

（1.2）

（1.3）

（1.4）

（1.5）

其中，K代表类别数，N代表样本个数；分别为视角A、B对应的视觉特征核矩阵，为核函数，/>和/>分别为训练样本在A、B视角下的视觉特征矩阵；通过采用一个K维向量来表达任意标签（相应的标签分量为1，而其他分量均为0），则/>的每一列代表相应样本补标签向量集的平均向量，/>的每一列代表相应样本的待确定标签向量，分别代表训练样本在视角A、B上的视觉特征的拉普拉斯算子矩阵，代表权系数，/>代表求矩阵的迹，/>代表转换矩阵，/>代表距离间隔，给定大小为0.01，/>代表松弛变量，将原先的不等式约束转换为等式约束，/>表示Frobenius范数，/>，其中/>代表维度为K的单位矩阵，/>代表维度为/>的全一矩阵，/>代表维度为/>的全零矩阵。

优化问题P1通过使训练样本在尽可能靠近其待确定的标签向量的同时远离其补标签向量集的平均向量来构建模型，并使用交替方向乘子法对优化问题P1进行求解，约束中前两个约束1.1-1.2代表多视角模型中的互补性原则；约束中第三第四个约束1.3-1.4分别规定Y每列和为1，每个元素均位于0-1区间内；第五个约束1.5规定变量的非负性。本发明充分利用多视角视觉特征之间的一致性和互补性，并充分挖掘样本补标签空间中的可用信息，从而提高图片分类的精度。

用交替方向乘子法求解A、B视角对应的转换矩阵和/>。首先得到问题P1的增广拉格朗日函数：

；

其中是一个正则化参数，/>为拉格朗日乘子，下面使用交替方向乘子法求解：

步骤(1)，通过求解以下关于的Sylvester方程更新/>：

（2）

其中代表维度为N的单位矩阵。

步骤(2)，通过求解以下关于的Sylvester方程更新/>：

（3）

步骤(3)，通过下式更新：

（4）

步骤(4)，通过下式更新：

（5）

步骤(5)，通过下式更新：

（6）

步骤(6)，通过下式更新：

（7）

步骤(7)，通过以下关于Y的Sylvester方程更新Y：

（8）

其中代表有m个1的列向量，用公式（8）更新Y后将其小于零的分量置零，并且对每一个样本的补标签集所对应的分量进行置零操作：

（9）

（10）

其中，/>代表样本i对应的补标签集。

步骤(8)，通过下式更新：

（11）

步骤(9)，更新拉格朗日乘子：

（12）

（13）

（14）

（15）

利用交替方向乘子法，通过上述的步骤(1)-(8)替更新优化变量，步骤(9)更新拉格朗日乘子。重复步骤(1)-步骤(9)直到收敛为止，最终求解出转换矩阵和/>。

其中收敛条件为：优化变量相邻迭代变化之差的范数小于设定阈值以及优化问题P1中等式约束的范数小于设定阈值，实施例中阈值设置为1e-5。这里等式约束的范数是指等号左右两边的差的范数，例如a=b，该等式约束的范数就是a-b的范数。

步骤S2求解得到变量中仅有/>和/>参与最终的图像分类。

步骤S3，利用求解得到的转换矩阵和/>完成图像分类。

首先计算A、B视角待识别图像与训练样本之间的核化矩阵，接着计算A、B两个视角待识别图像与所有类别之间的余弦相似度，然后将所两个视角求得的余弦相似度取平均，最后取计算后的最大分量下标对应的类别即为待识别图像的预测类别。所述的补标签分类是采用如下公式进行：

（16）

（17）

（18）

（19）

其中分别为待识别图片在视角A、B上的视觉特征；/>即步骤S2中求得的A、B视角下的转换矩阵；/>分别为待识别图片在视角A、B上的与各个类别的相似度向量，s代表它们的平均值；s最大分量的下标所对应的类别即为待识别图像的预测类别/>。

图2描述了本发明提出的方法与通过两种不同网络提取的特征训练的基于传统补标签学习的图像识别方法之间的对比。对比选用数据集CUB-200，取前20类的所有图片分别使用预训练好的ResNet101以及GoogleNet进行特征提取。对比选用的补标签范围为1-19。从图2可以看出，在少量补标签的情况下，本发明提出的多视角半监督模型与传统补标签模型在准确率上有显著的提高，进而证明了本发明提出的模型能够更好的挖掘模型监督信息。

基于和方法实施例同样的技术构思，本发明还提供一种基于多视角补标签的图片分类系统，包括：

训练数据提取模块，提取训练图片的多视角视觉特征；

其中，多视角补标签学习模型表示为如下优化问题：

问题P1：

；

约束条件：

；

应理解，本发明实施例中的基于多视角补标签的图片分类系统可以实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

本发明还提供一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如上所述的一种基于多视角补标签的图片分类方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的一种基于多视角补标签的图片分类方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、计算机设备或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程以及流程图中的流程的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。

Claims

1.一种基于多视角补标签的图片分类方法，其特征在于，包括以下步骤：

提取训练图片的多视角视觉特征；

利用得到的转换矩阵对待识别的图片进行分类；

其中，多视角补标签学习模型表示为如下优化问题：

问题P1：

；

约束条件：

；

2.根据权利要求1所述的方法，其特征在于，提取训练图片的多视角视觉特征包括：将同一图片数据集分别放入预训练好的第一识别网络以及第二识别网络进行特征提取，得到A、B视角下的特征数据，并在此基础上利用高斯核函数计算核矩阵/>。

3.根据权利要求1所述的方法，其特征在于，利用交替方向乘子法求解每个视角所对应的转换矩阵包括：

首先得到问题P1的增广拉格朗日函数：

；

其中是一个正则化参数，/>为拉格朗日乘子；

然后，通过求解以下关于的Sylvester方程更新/>：

；

其中代表维度为N的单位矩阵；

通过求解以下关于的Sylvester方程更新/>：

；

通过下式更新：

；

通过下式更新：

；

通过下式更新：

；

通过下式更新：

；

通过以下关于Y的Sylvester方程更新Y：

；

其中，/>代表样本i对应的补标签集；

通过下式更新：

；

更新拉格朗日乘子：

；

4.根据权利要求3所述的方法，其特征在于，收敛条件为：优化变量相邻迭代变化之差的范数小于设定阈值以及优化问题P1中等式约束的范数小于设定阈值。

5.根据权利要求4所述的方法，其特征在于，所述设定阈值为1e-5。

6.根据权利要求1所述的方法，其特征在于，利用得到的转换矩阵对待识别的图片进行分类包括：首先计算A、B两个视角待识别图片与训练样本之间的核化矩阵，接着计算A、B两个视角待识别图片与所有类别之间的余弦相似度，然后将所两个视角求得的余弦相似度取平均，取计算后的最大分量下标对应的类别作为待识别图片的预测类别。

7.根据权利要求6所述的方法，其特征在于，利用得到的转换矩阵对待识别的图片进行分类的计算公式包括：

；

其中分别为待识别图片在视角A、B上的视觉特征；/>为A、B两个视角下的转换矩阵；/>分别为待识别图片在视角A、B上的与各个类别的相似度向量，s代表它们的平均值；s最大分量的下标所对应的类别即为待识别图像的预测类别/>。

8.一种基于多视角补标签的图片分类系统，其特征在于，包括：

训练数据提取模块，提取训练图片的多视角视觉特征；

其中，多视角补标签学习模型表示为如下优化问题：

问题P1：

；

约束条件：

；

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1-7中任一项所述的基于多视角补标签的图片分类方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于多视角补标签的图片分类方法的步骤。