CN114359631A

CN114359631A - 基于编码-译码弱监督网络模型的目标分类与定位方法

Info

Publication number: CN114359631A
Application number: CN202111602395.9A
Authority: CN
Inventors: 张博伦; 吴嘉滨
Original assignee: Heilongjiang Weizhen Photoelectric Technology Co ltd
Current assignee: Heilongjiang Weizhen Photoelectric Technology Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-15

Abstract

本发明公开了一种基于编码‑译码弱监督网络模型的图像目标分类与定位的方法，所述方法如下：一、构建带有编码器和译码器的端到端网络模型以及分类层或迁移学习现有的经典网络模型作为编码器和译码器；二、增加前场与背景分离的弱监督模型结构；三、输入目标数据进行训练，最优收敛后保存模型参数；四、调用已优化的网络模型；五、输入待测数据并得到结果。该方法在端到端的卷积神经网络模型基础上，增加了目标区域与背景分离的网络结构以及分类层，利用图像级的标签进行网络的监督，并且以弱监督的方式引导网络生成像素级的图像结果，在无需像素级标签的基础上实现目标区域的分类和定位，避免了像素级标签标定的耗时耗力，大大降低了研究成本。

Description

基于编码-译码弱监督网络模型的目标分类与定位方法

技术领域

本发明属于图像识别领域，涉及一种基于编码-译码弱监督网络模型的图像目标分类与定位的方法。

背景技术

深度学习技术功能的实现，是将神经网络模型通过训练集进行训练以学习数据集中不同数据特征更新网络参数后达成的。而对于网络模型的训练学习方式，就监督型网络模型而言，主要有三种：全监督、弱监督以及半监督。全监督网络模型的输出与数据对象所包含标签是对应的，对于图像级别的类别标签，输出的是目标的类别，对于像素级别的定位或分割标签，则输出的是目标的定位或分割结果；弱监督的方法是指采用图像级别类别标注(弱标签)来获取分割/定位级别的检测效果；半监督学习通常会使用大量的未标记数据和少部分有标签的数据用于表面缺陷检测模型的训练。在这三种方式中，全监督与弱监督的应用更加的广泛，而基于半监督的方法由于条件限制大部分用于解决缺陷分类或识别任务，很少用于目标的定位任务中。

由于在目标的定位任务中，全监督的模型方案需要训练集具有像素级的标签，这无疑增加了专业人员在图像标定时的工作量，从而增加研究的难度。为了解决这个问题，弱监督的模型方案应运而生，虽然研究人员已经提出了很多不同的弱监督方案，如CAM模型、Grad-CAM模型以及WILDCAT模型，但是它们的表现仍有待完善。

发明内容

针对以上问题，本发明提出了一种基于编码-译码弱监督网络模型的图像目标分类与定位的方法，该方法在端到端的卷积神经网络模型基础上，增加了目标区域与背景分离的网络结构以及分类层，利用图像级的标签进行网络的监督，并且以弱监督的方式引导网络生成像素级的图像结果，在无需像素级标签的基础上实现目标区域的分类和定位，避免了像素级标签标定的耗时耗力，大大降低了研究成本。

本发明的目的是通过以下技术方案实现的：

一种基于编码-译码弱监督网络模型的图像目标分类与定位的方法，包括如下步骤：

步骤一、构建带有编码器和译码器的端到端网络模型以及分类层或迁移学习现有的经典网络模型作为编码器和译码器；

步骤二、增加前场与背景分离的弱监督模型结构；

步骤三、输入目标数据进行训练，最优收敛后保存模型参数；

步骤四、调用通过步骤三得到的已优化的网络模型；

步骤五、输入待测数据并得到结果。

相比于现有技术，本发明具有如下优点：

本发明可以利用现有的模型结构以及优化的参数，通过迁移学习的方式实现跨域的应用，这在一定程度上缓解了目标数据集缺乏导致的过拟合问题；并且，在原有模型的基础上，设计了目标区域与背景分离的网络结构，再通过图像级标签的弱监督引导下，可以在无需像素级标签的情况下实现目标的定位与分类，大大降低了专业人员在需要获取数据像素级标签时的时间与精力成本。

附图说明

图1是编码-译码弱监督网络模型的图像目标分类与定位的方法的流程图；

图2是编码-译码弱监督网络模型。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种基于编码-译码弱监督网络模型的图像目标分类与定位的方法，如图1所示，所示方法包括如下步骤：

步骤一、构建带有编码器和译码器的端到端网络模型(或选择包括但不限于U-Net、SegNet等经典模型)以及用于目标分类的分类器，包括以下分步骤：

根据目标图像的大小和纹理情况设计带有编码器和译码器的端到端的网络模型。如最简单的卷积核-批归一化-激活函数(如ReLU)作为一个卷积单元，然后若干个卷积单元串联构成一个卷积块，卷积块之间用最大池化等方法进行连接，以降低特征图分辨率，增大网络感受野，这是编码器；对于译码器，与编码器相对应的，由若干卷积块和上采样(如逆最大池化)组成，输出的空间尺寸与编码器输入相同。或迁移学习现有的经典网络模型作为编码器和译码器(迁移学习可以防止目标数据集小而导致的过拟合，并且可以缩短收敛时间)，包括但不限于FCN、U-Net、SegNet等，其中编码器中的下采样过程用保留索引的最大池化，译码器中的上采样过程根据其在编码器中对应的最大池化索引以逆最大池化的方式进行；设计用于目标分类的分类器，可以是若干个全连接层以及激活函数的连接构成，并根据输入神经元的数量决定是否进行神经元的丢失操作。

本步骤根据目标图像的大小和纹理情况设计端到端的网络模型，具有一定的针对性，使得模型更加适用于目标任务；利用保留的最大池化索引可以在译码器中有效的恢复目标区域位置；迁移学习已学习知识的现有经典模型，可以加速网络模型的收敛，并且缓解目标数据训练时的过拟合。

步骤二、增加前场与背景分离的弱监督模型结构，如图2所示，包括以下具体内容：

(a)获取编码器最后一层输出的前场特征图，若模型的初始输入为x₁，则编码器最后一层输出的前场特征图g_f表示为：g_f＝G_e(x₁)，其中G_e(·)是编码器的前向传播操作；

(b)将前场特征图输入到分类器当中，输出得到类别概率，可以表示为：p_f＝Classifier(g_f)，其中p_f是分类器输出的类别概率，Classifier(·)是分类器操作；

(c)获取目标区域的单通道二值掩码图m，将前场特征图输入到译码器当中，该过程可以表示为：m＝G_d(g_f)，其中G_d(·)是译码器的前向传播操作；

(d)将目标区域的二值掩码图m转换为RGB三通道m_RGB，并将输入图片x₁中m_RGB＞0的对应位置像素置零，获得去除目标区域后的图像x₂；

(e)将x₂输入到编码器当中，得到去前场后的特征图g_b，该过程表示为：g_b＝G_e(x₂)；

(f)将g_b输入到分类器Classifier(·)当中，得到类别概率p_b，表示为：p_b＝Classifier(g_b)。

本步骤中，第一次利用编码器获得与目标区域类别相关的抽象的特征，再通过译码器获得与目标区域位置有关的更加直观的二值掩码，之后通过在源图片上去除目标区域获得无目标背景图，这导致第二次通过译码器获得的特征包含很少的目标特征。

步骤三、输入目标数据进行训练，最优收敛后保存模型参数，包括以下具体内容：

设置训练超参数，选择优化器(如Adam,SGD等)和损失函数(根据分类情况而定，如交叉熵损失函数)，将训练数据导入设计好的模型当中并进行模型的训练，可以通过K折交叉验证的方式进行，训练过程中，通过选择的损失函数计算p_f与真值类别之间的损失，以及p_b与零类别之间的损失，前者是为了促使网络寻找感兴趣区域，并根据该区域的特征正确分类，后者是对网络进一步的监督，促使网络尽可能地提取与感兴趣区域想关的信息，并通过选择的优化器进行优化(优化过程可以是以梯度下降的方式进行网络参数的更新)，待模型收敛后保存。

本步骤中，利用p_f与真值类别之间损失的优化引导编码器更新参数，使得得到的g_f中只含有目标区域特征，利用p_b与零类别之间损失的优化引导译码器更新参数，使得得到的去除m_RGB＞0对应位置像数值的图片x₂在经过译码器后得到的g_b不含有目标区域特征，这在一定程度上形成了互相博弈的过程，最终使得译码器得到的二值掩码图能够充分反映目标区域的位置。

步骤四、调用通过步骤三得到的已优化的网络模型。

步骤五、输入待测数据并得到结果，包括以下具体内容：

将待测数据输入到已训练好的网络模型当中，得到输入图片的分类，再将输出的二值掩码图通过热力图的方式合成到原图片发当中，从而得到标定目标位置的结果，利用可视化算法可以将该结果显示出来。

本步骤中，利用热力图标定目标位置，可以直观的显示目标区域所在的位置；并且，还可以有效揭示模型最关注的目标区域，即热力值最高的区域，这在一定程度上反映了模型的运行机制。

Claims

1.一种基于编码-译码弱监督网络模型的图像目标分类与定位的方法，其特征在于所述方法包括如下步骤：

步骤二、增加前场与背景分离的弱监督模型结构；

步骤四、调用通过步骤三得到的已优化的网络模型；

步骤五、输入待测数据并得到结果。

2.根据权利要求1所述的基于编码-译码弱监督网络模型的图像目标分类与定位的方法，其特征在于所述步骤一包括以下具体内容：

(1)根据目标图像的大小和纹理情况设计带有编码器和译码器的端到端的网络模型，或迁移学习现有的经典网络模型作为编码器和译码器；

(2)设计用于目标分类的分类器，该分类器由若干个全连接层以及激活函数的连接构成，并根据输入神经元的数量决定是否进行神经元的丢失操作。

3.根据权利要求1或2所述的基于编码-译码弱监督网络模型的图像目标分类与定位的方法，其特征在于所述经典网络模型为U-Net或SegNet。

4.根据权利要求1所述的基于编码-译码弱监督网络模型的图像目标分类与定位的方法，其特征在于所述步骤二包括以下具体内容：

(c)获取目标区域的单通道二值掩码图m，将前场特征图输入到译码器当中，该过程表示为：m＝G_d(g_f)，其中G_d(·)是译码器的前向传播操作；

5.根据权利要求1所述的基于编码-译码弱监督网络模型的图像目标分类与定位的方法，其特征在于所述步骤三包括以下具体内容：

设置训练超参数，选择优化器和损失函数将训练数据导入设计好的模型当中并进行模型的训练，训练过程中，通过选择的损失函数计算分类器输出的类别概率p_f与真值类别之间的损失，以及类别概率p_b与零类别之间的损失，并通过选择的优化器进行优化，待模型收敛后保存。

6.根据权利要求1所述的基于编码-译码弱监督网络模型的图像目标分类与定位的方法，其特征在于所述步骤五包括以下具体内容：

将待测数据输入到已训练好的网络模型当中，得到输入图片的分类，再将输出的二值掩码图通过热力图的方式合成到原图片发当中，从而得到标定目标位置的结果。