CN113435480B

CN113435480B - 通道顺序切换自监督提升长尾分布视觉识别能力的方法

Info

Publication number: CN113435480B
Application number: CN202110634205.5A
Authority: CN
Inventors: 范峻植; 徐行; 沈复民; 邵杰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-06-21
Anticipated expiration: 2041-06-07
Also published as: CN113435480A

Abstract

本发明涉及计算机视觉领域，具体是通道顺序切换自监督提升长尾分布视觉识别能力的方法，包括两个阶段，自监督训练和有监督训练。准备数据集；将数据集中的图片进行预处理，包括对图片进行重采样处理和对图片进行随机通道顺序的变换；将预处理后的图片用于通道切换自监督训练，将通道顺序名称作为真实的标签计算损失函数，不断迭代网络直至收敛，保存模型；将数据集中的图片进行预处理，包括对图片进行重采样处理和对图片进行数据增强；初始化有监督训练网络，将保存的模型作为有监督训练过程的预训练模型，将预处理后的图片输入模型中进行训练；不断迭代训练网络，计算损失函数，直至模型达到预期的识别分类效果；解决了长尾分布带来的问题。

Description

通道顺序切换自监督提升长尾分布视觉识别能力的方法

技术领域

本发明涉及计算机视觉领域，具体是指通道顺序切换自监督提升长尾分布视觉识别能力的方法。

背景技术

随着科技不断地飞速发展，图像分类的效果已经取得了足够好的成果，这一成果和越来越丰富的数据集密不可分，在大部分理想情况下，所用的数据集的类别标签数量分布几乎都是均匀的，但是，真实世界中的数据大部分却是不均匀的，甚至呈现出长尾分布的情况，即少部分类占据了大部分样本数量，这部分类别称为头部类，而剩下的类别只占有很少的样本数量，这部分类别称为尾部类。

现有的比较常用的处理长尾分布视觉识别的方法包含重采样和重权重，重采样本质是对不同类别的图片采样频率根据样本数量进行反向加权，如果属于当前类的图片数量越多，则赋予当前类的图片的采样概率就越低，相反的情况下，对应的采样概率就越高；重权重则主要体现在分类的损失上，即给头部类的损失更低的权重，给尾部类的损失更高的权重。

上述两种方法，尽管都能得到更好的预测结果，但这些方法仍会产生不良影响，即会在一定程度上损害深度特征的表征能力，现有的一些方法都存在一些缺陷，具体缺陷如下：

1.当不对长尾分布视觉识别问题采取任何措施的时候，长尾分布视觉识别就会表现出对头部类的分类效果较好，而对尾部类的效果较差，并且头部类和尾部类的图片数量的最大比例相差越大，模型对尾部类的分类识别效果就会越差。

2.当对长尾分布视觉识别数据集使用重采样策略时，即降低头部类别的采样概率，增加尾部类别的采样概率，这样虽然能缓解长尾分布视觉识别带来的问题，但是也会产生另外一个问题，尾部样本图片的采样概率变高，就会改变特征空间数据的分布，影响模型的识别分类效果。

发明内容

基于以上问题，本发明提供了通道顺序切换自监督提升长尾分布视觉识别能力的方法，解决了长尾分布带来的问题。

为解决以上技术问题，本发明采用的技术方案如下：

通道顺序切换自监督提升长尾分布视觉识别能力的方法，包括第一阶段的通道切换自监督训练过程和第二阶段的有监督训练过程，其中：

通道切换自监督训练过程包括：

步骤11、准备数据集；

步骤12、将数据集中的图片进行预处理，预处理包括对图片进行重采样处理和对图片进行随机通道顺序的变换；

步骤13、将步骤12预处理后的图片输入通道切换自监督网络，将通道顺序名称作为真实的标签计算损失函数，不断迭代通道切换自监督网络直至收敛，保存模型；

有监督训练过程包括：

步骤21、将步骤11中数据集中的图片进行预处理，预处理包括对图片进行重采样处理和对图片进行数据增强；

步骤22、初始化有监督训练网络，将步骤13保存的模型作为有监督训练过程的预训练模型；

步骤22、将步骤21中预处理后的图片输入有监督训练网络；

步骤23、不断迭代有监督训练网络，计算损失函数，直至有监督训练网络达到预期的识别分类效果。

进一步，所述步骤12和步骤22采用的重采样处理过程相同，其重采样处理的过程为，对数据集进行统计，计算出每个类别所对应的图片数量，若某个类别拥有的图片数量最多，记录该类别的图片数量为N_max，则每个类别的采样率概率公式为：

其中，N表示数据集的图片总数，N_i表示第i个类别拥有的图片数量。

进一步，所述步骤12中，通道顺序为RGB或RBG或BGR或BRG或GBR或GRB。

进一步，所述通道切换自监督训练过程使用Cross Entropy作为损失函数，公式为：

其中，m表示总的类别总数，y_i表示当前图片属于第i类的概率，

表示通道切换自监督网络自监督模型预测出当前图片属于第i个类别的概率。

进一步，所述步骤13中，迭代次数为200。

进一步，所述步骤21中，数据增强包括对图片进行左右翻转或上下翻转或随机裁剪或随机缩放。

进一步，所述步骤23中，有监督训练过程使用Cross Entropy作为损失函数，公式为：

其中，m表示总的类别总数，y_j表示当前图片属于第j个类别的概率，

表示有监督训练网络预测出当前图片属于第i个类别的概率。

进一步，所述步骤23中，迭代次数为200。

与现有技术相比，本发明的有益效果是：

通过两阶段的设计，第一阶段自监督模型的训练，在自监督训练好的模型上淡化了长尾分布带来的影响，自监督的类别变为了RGB、RBG、BGR、BRG、GBR、GRB这六个类别，这六个类别在数量上是相等的，在这六个类别的分布上就不存在长尾分布的问题，自监督的时候再进行重采样，就能减弱长尾分布对自监督带来的问题，通过重采样自监督学习就能保证得到足够好的预训练模型；第二阶段，再将自监督模型作为有监督训练的预训练模型，再在有监督训练的时候进行重采样就能进一步减弱长尾分布带来的问题。

附图说明

图1为本实施例的流程图；

图2为本实施例的结构示意图；

图3为未采用本实施例对特征空间分布的优化的示意图；

图4为采用本实施例对特征空间分布的优化的示意图。

具体实施方式

下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。

通道切换自监督训练过程包括：

步骤11、准备数据集；

有监督训练过程包括：

步骤22、将步骤21中预处理后的图片输入有监督训练网络；

进一步的是，步骤12和步骤22采用的重采样处理过程相同，其重采样处理的过程为，对数据集进行统计，计算出每个类别所对应的图片数量，若某个类别拥有的图片数量最多，记录该类别的图片数量为N_max，则每个类别的采样率概率公式为：

其中，N表示数据集的图片总数，N_i表示第i个类别拥有的图片数量，这样，使用每个类别的采样概率相同。

进一步的是，步骤12中，对输入的图片进行通道顺序变换，将通道顺序名称作为图片的标签，通道顺序为RGB或RBG或BGR或BRG或GBR或GRB，不同的通道顺序对应不同的类别，以上六个通道顺序分别对应类别一至类别六，图片经过通道顺序变换，即将原来的数据转换为六个类别的数据集。

进一步的是，步骤13中，将通道顺序名称作为真实的便签计算损失函数，通道切换自监督训练过程采用的损失函数为Cross Entropy，公式为：

表示通道切换自监督网络预测出当前图片属于第i个类别的概率。

进一步的是，步骤13中，迭代次数为200，将通道切换自监督训练200次迭代中最好的模型保存下来，将保存下来的模型作为有监督训练过程的预训练模型。

进一步的是，步骤21中，数据增强包括对图片进行左右翻转或上下翻转或随机裁剪或随机缩放。

进一步的是，步骤23中，有监督训练过程使用Cross Entropy作为损失函数，公式为：

表示有监督训练网络预测出当前图片属于第i个类别的概率。

进一步的是，步骤23中，迭代次数为200，损失函数依然使用Cross Entropy，不断地计算当前迭代的损失函数并且优化网络，保存识别分类效果最好的模型。

实施例

为了更好的验证本实施例模型的分类效果，现利用CIFAR-10数据集进行验证，具体见表1以及图3和图4：

表1

方法\|数据集	CIFAR-10	CIFAR-10	CIFAR-10
				长尾率	100	50	10
不做任何处理	60.560	74.45	86.29
				本发明	62.000	75.350	86.73

表格中长尾率表示头部类别的图片数量与尾部类别的图片数量的比值的最大值，从上表可以看出，本实施例展示了通道切换重采样自监督架构在长尾数据任务上的稳定提升，表明了本发明能提升模型的识别分类效果，并且具有更好的泛化能力，从图3中也可看出，在未使用任何方法的的时候，从特征分布空间可以看出存在误分类的情况，即网络对分类的效果不是很好，特别是尾部类别，从图4可看出，当使用本发明的方案过后，从特征分布空间可以看出分界面能正确的进行分类，无论是对头部类还是尾部类，都能正确的分类。

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.通道顺序切换自监督提升长尾分布视觉识别能力的方法，其特征在于：包括第一阶段的通道切换自监督训练过程和第二阶段的有监督训练过程，其中：

通道切换自监督训练过程包括：

步骤11、准备数据集；

有监督训练过程包括：

步骤22、将步骤21中预处理后的图片输入有监督训练网络；

2.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法，其特征在于：所述步骤12和步骤22采用的重采样处理过程相同，其重采样处理的过程为，对数据集进行统计，计算出每个类别所对应的图片数量，若某个类别拥有的图片数量最多，记录该类别的图片数量为N_max，则每个类别的采样率概率公式为：

3.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法，其特征在于：所述步骤12中，通道顺序为RGB或RBG或BGR或BRG或GBR或GRB。

4.根据权利要求2所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法，其特征在于：所述步骤13中，通道切换自监督训练过程使用Cross Entropy作为损失函数，公式为：

其中，m表示总的类别总数，y_i表示当前图片属于第i个类别的概率，

5.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法，其特征在于：所述步骤13中，迭代次数为200。

6.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法，其特征在于：所述步骤21中，数据增强包括对图片进行左右翻转或上下翻转或随机裁剪或随机缩放。

7.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法，其特征在于：所述步骤23中，有监督训练过程使用Cross Entropy作为损失函数，公式为：

表示有监督训练网络预测出当前图片属于第i个类别的概率。

8.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法，其特征在于：所述步骤23中，迭代次数为200。