CN115082657A

CN115082657A - 基于软擦除的弱监督目标定位算法

Info

Publication number: CN115082657A
Application number: CN202210390945.3A
Authority: CN
Inventors: 高英; 谢欣言; 黎羿江
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-09-20

Abstract

本发明公开了一种基于软擦除的弱监督目标定位算法，包括如下步骤：步骤S1、对图像进行归一化处理至像素范围为0至1；步骤S2、修改预训练的卷积神经网络的网络结构；步骤S3、计算获得软擦除图M_e；步骤S4、得到预测分类；步骤S5、计算交叉熵损失L；步骤S6、基于误差反向传播算法对卷积神经网络进行训练；步骤S7、在测试阶段，使用步骤S6中训练完成的卷积神经网络；步骤S8、通过F中每个通道对正确类别的贡献程度计算出类别激活图；步骤S9：对步骤S8中的类别激活图进行阈值分割，获得目标的定位框。该基于软擦除的弱监督目标定位算法解决现有技术中类别激活图式目标检测方法仅能得到物体的一个部分不能将整个物体定位出来的问题。

Description

基于软擦除的弱监督目标定位算法

技术领域

本发明涉及图像处理中目标检测领域，具体涉及一种基于软擦除的弱监督目标定位算法。

背景技术

目标检测和目标定位广泛地应用在各种领域之中，如对于人物，车辆，物品和工业产品、缺陷等的检测与定位。深度学习与大量数据和计算量使得目标检测和定位发展迅速，并在各个领域展现出色的效果。但是作为一个密集型的预测问题，目标检测和定位在训练过程中所需大量数据以及标注难以获取，获取成本过大，需要大量人力、专家经验以及较长的时间。

在样本获取高难度的情况下，现有算法往往只能基于少量数据进行训练，无法达到理想效果。

现有技术方案提出在类别激活图上进行阈值分割的方法从而达到仅需要分类标签即可完成目标检测与定位。类别激活图(Class Activation Map)，又称类别激活映射图，类别热力图、显著性图等，代表输入原图上对应位置对深度神经网络预测的贡献。因此在类别激活图上，值越高对应图中位置对分类预测贡献越大，因此越有可能是目标前景，通过设置一个阈值，将高于阈值的部分当作目标，用一个框框住，即可得到目标的检测框。为了得到类别激活图，只需要通过类别标签训练一个神经网络，并对通过梯度大小或者参数值大小计算得到类别激活图。尽管类别激活图可以获得物体的定位框，但是基于类别训练出来的卷积神经网络得到的类别激活图仅关注在物体的显著部分(例如鸟的翅膀，狗的脑袋) 而不能关注整个物体，因此由类别激活图进行阈值分割得到的定位框往往只包含了物体的一部分，因此定位效果欠佳。

现有技术存在以下缺点：1)缺乏目标位置标签情况下的目标检测与定位：现有目标检测与目标定位方法均需要大量目标位置标签进行训练，但是目标定位与目标检测作为密集预测任务，需要大量人力与时间进行标注，而标注一个分类标签的时间与难度则大大小于标注物体位置，因此如何利用大量分类标签训练一个目标检测器是专利解决的一个问题。2)无法定位完整物体：现有方法采用对分类卷积神经网络的类别激活图进行阈值分割，由于基于类别训练出来的卷积神经网络的到的类别激活图仅关注在物体的显著部分 (例如鸟的翅膀，狗的脑袋)而不能关注整个物体，因此由类别激活图进行阈值分割得到的定位框往往只包含了物体的一部分，而不能将整个物体定位出来，因此定位效果欠佳。

发明内容

本发明要提供一种基于软擦除的弱监督目标定位算法，解决现有技术中类别激活图式目标检测方法仅能得到物体的一个部分不能将整个物体定位出来的问题。

为实现上述目的，本发明采用了如下的技术方案：

本发明公开了一种基于软擦除的弱监督目标定位算法，包括如下步骤：

步骤S1、对图像进行归一化处理至像素范围为0至1，得到初始图像数据；

步骤S2、修改预训练的卷积神经网络的网络结构：将预训练的卷积神经网络的末端更换为全局平均池化层与全连接层；

步骤S3、计算获得软擦除图M_e：S31、使用步骤S2中的卷积神经网络提取初始图像数据的特征，取出卷积神经网络中第l层的中间特征图F^l；S32、计算中间特征图F^l在通道维度上的均值，经过Sigmoid函数运算，得到重要性图I_m；S33、接着设定擦除阈值γ，继而由公式一计算获得软擦除图M_e；

步骤S4：将步骤S3得到的软擦除图M_e与中间特征图F^l做点对点相乘运算，并将结果传入卷积神经网络的第l+1层继续进行前向传播，得到预测分类；

步骤S5、计算交叉熵损失L：分别对步骤S4的预测分类与初始图像数据的真实分类计算交叉熵损失L，如公式二所示；

其中，后y、

分别代表真实分类与预测分类；

步骤S6、基于误差反向传播算法对卷积神经网络进行训练：基于步骤S5中的交叉熵损失L，使用梯度下降法对卷积神经网络中的参数求偏导数值，以偏导数值与学习率的乘积更新卷积神经网络参数，反复迭代至卷积神经网络的交叉熵损失不再显著降低；

步骤S7、在测试阶段，使用步骤S6中训练完成的卷积神经网络，对测试图像做分类：归一化处理测试图像，将图像输入卷积神经网络，进行完整的一次前向传播，过程中跳过软擦除图的计算与使用；

步骤S8、在步骤S7中，设输入全局平均池化层的特征图为F，包含n个通道(f₁～f_n)，经由全局平均池化层得到V＝(v₁～v_n)，其中F的通道与V中的特征值一一对应；特征V 对真实分类y的贡献由全连接层中的相关权重w_y体现，如公式三所示，其中W为全连接层的权重参数；接着如公式四所示，通过F中每个通道对正确类别的贡献程度计算出类别激活图；

w_y＝W (公式三)

步骤S9：对步骤S8中的类别激活图进行阈值分割，阈值在0至1的范围内选取，将大于等于阈值的像素置为1，反之置为0，并用一个最小矩形框框住所有值为1的像素点，该矩形框即目标的定位框。

相比于现有技术，本发明具有如下有益效果：

1)能够在只有分类标签的情况下，完成目标检测与定位。

2)能够协助模型发现易被忽略的目标局部，有效增大目标在类别激活图中的激活范围，进而在定位时覆盖更完整的目标，实现更加准确的目标定位。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与作用更加清楚及易于了解，下面结合具体实施方式对本发明作进一步阐述：

步骤S2、修改预训练的卷积神经网络的网络结构：将预训练的卷积神经网络的末端更换为全局平均池化层与全连接层；该步骤方便后续定位目标；

其中，后y、

分别代表真实分类与预测分类；

步骤S6、基于误差反向传播算法对卷积神经网络进行训练：基于步骤S5中的交叉熵损失L，使用梯度下降法对卷积神经网络中的参数求偏导数值，以偏导数值与学习率(学习率一般取值为0.001)的乘积更新卷积神经网络参数，反复迭代至卷积神经网络的交叉熵损失不再显著降低；

w_y＝W (公式三)

步骤S9：对步骤S8中的类别激活图进行阈值分割，阈值在0至1的范围内选取，将大于等于阈值的像素置为1，反之置为0，并用一个最小矩形框框住所有值为1的像素点，该矩形框即目标的定位框。从而使得预测定位框与目标真实定位框的重叠度值尽可能大，使得目标定位更加精确。

γ设为0.5。可根据实际数据集进行微调γ的值。

最小二乘法的代数方法是对目标参数求偏导，令偏导数＝0，进而求出目标参数的解。在梯度下降法中则是通过迭代学习使目标参数的偏导逐渐趋于0达到求解的目的。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于软擦除的弱监督目标定位算法，其特征在于，包括如下步骤：

其中，后y、

分别代表真实分类与预测分类；

步骤S8、在步骤S7中，设输入全局平均池化层的特征图为F，包含n个通道(f₁～f_n)，经由全局平均池化层得到V＝(v₁～v_n)，其中F的通道与V中的特征值一一对应；特征V对真实分类y的贡献由全连接层中的相关权重w_y体现，如公式三所示，其中W为全连接层的权重参数；接着如公式四所示，通过F中每个通道对正确类别的贡献程度计算出类别激活图；

w_y＝W(公式三)

2.根据权利要求1所述的基于软擦除的弱监督目标定位算法，其特征在于，γ设为0.5。