CN111967464A

CN111967464A - 一种基于深度学习的弱监督目标定位方法

Info

Publication number: CN111967464A
Application number: CN202010614514.1A
Authority: CN
Inventors: 赖睿; 吴俣; 徐昆然; 李奕诗; 官俊涛; 杨银堂
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-11-20
Anticipated expiration: 2040-06-30
Also published as: CN111967464B

Abstract

本发明公开了一种基于深度学习的弱监督目标定位方法，包括：将待测图像输入至弱监督定位网络，得到目标定位图以及所述目标的分类结果；基于目标定位图和分类结果确定目标定位结果；弱监督定位网络包括：初始特征提取模块，用于从待测图像中提取初始特征图；注意力加权模块，用于对初始特征图进行加权；掩模模块，用于屏蔽注意力加权特征图中与目标相关的显著性区域得到注意力掩模图；特征融合模块，用于对初始特征图和注意力掩模图进行特征融合；去冗余连通域模块，用于去除融合特征图中的冗余连通域，输出目标定位图；分类结果输出模块用于输出目标的分类结果。本发明可以在确保定位任务的准确性的前提下保持目标细节。

Description

一种基于深度学习的弱监督目标定位方法

技术领域

本发明属于计算机图像视觉处理技术领域，具体涉及一种基于深度学习的弱监督目标定位方法。

背景技术

在计算机图像视觉处理技术领域中，采用卷积神经网络提取高质量的定位图，可以帮助实现目标精细分类、目标检测、图像分割等多种任务。采用卷积神经网络提取定位图的方法大致可以包括强监督的目标定位方法和弱监督的目标定位方法两种。其中，采用强监督的目标定位方法需要在准备阶段标注所有训练图片中的目标的位置信息，会消耗大量的人工标注成本；由此，采用弱监督的目标定位方法逐渐受到关注。弱监督的目标定位技术旨在降低标注维度的前提下预测不同场景下的目标位置，即在网络训练过程中使用图像级类别标签替代强监督下的位置标注方式，降低数据标注难度。

现有的弱监督定位方法大多利用卷积神经网络从图像中提取热力图响应作为定位依据。然而，当目标尺度较大时，现有的弱监督定位方法存在局部响应的问题，即卷积神经网络趋向于关注目标具有鉴别性的区域，无法充分提取目标的细节、形态特征等有效的特征信息，从而无法在确保定位任务的准确性的前提下保持目标细节。

发明内容

为了在确保定位任务的准确性的前提下保持目标细节，本发明提供了一种基于深度学习的弱监督目标定位方法。

本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供了一种基于深度学习的弱监督目标定位方法，包括：

获取待测图像；所述待测图像中包含有待定位的目标；

将所述待测图像输入至预先训练完成的弱监督定位网络，得到所述待测图像对应的目标定位图以及所述目标的分类结果；

基于所述目标定位图和所述分类结果，确定目标定位结果；

其中，所述弱监督定位网络是基于多个训练图像以及每个训练图像的分类标签所训练获得的；所述弱监督定位网络包括：

初始特征提取模块，包括多个级联的第一卷积单元和第二卷积单元，用于通过所述多个级联的第一卷积单元和第二卷积单元从所述待测图像中提取初始特征图；其中，每个所述第一卷积单元均包括级联的多个卷积层和一个最大池化层，每个所述第二卷积单元均包括级联的多个卷积层，且不包括最大池化层，任一所述第二卷积单元包括的多个卷积层为具有不同膨胀率的空洞卷积层；

注意力加权模块，用于基于所述初始特征图计算一注意力权重矩阵，并利用所述注意力权重矩阵对所述初始特征图进行加权，得到注意力加权特征图；其中，所述注意力权重矩阵用于表征所述初始特征图的通道间的空间相似度；

掩模模块，用于屏蔽所述注意力加权特征图中与所述目标相关的显著性区域，得到注意力掩模图；

特征融合模块，用于对所述初始特征图和所述注意力掩模图进行特征融合，得到融合特征图；

去冗余连通域模块，用于去除所述融合特征图中的冗余连通域，输出所述待测图像对应的目标定位图；其中，所述冗余连通域为与所述目标非相关的像素连通区域；

分类结果输出模块，用于基于所述目标定位图，确定并输出所述目标的分类结果。

优选地，所述基于所述目标定位图和所述分类结果，确定目标定位结果的步骤，包括：

确定所述目标定位图中的最大像素值；

基于所述最大像素值确定一像素筛选阈值；

确定所述目标定位图中，像素值大于所述筛选阈值的像素所在的目标区域，得到图像分割结果；

基于所述图像分割结果中最大的像素连通区域，生成一图像分割框；

以热力图的形式展示所述目标定位图，并在所展示的目标定位图中显示所述图像分割框；

将显示有所述图像分割框的所述目标定位图和所述分类结果作为目标定位结果。

优选地，所述注意力加权模块，基于所述初始特征图计算一注意力权重矩阵，包括：

将所述初始特征图重构为一个维度为C×N的矩阵M；其中，C代表所述初始特征图的通道，N＝H×W，H代表所述初始特征图的高度，W代表所述初始特征图的宽度；

将所述矩阵M与所述矩阵M的转置相乘，得到一注意力权重矩阵。

优选地，所述掩模模块，屏蔽所述注意力加权特征图中与所述目标相关的显著性区域，得到注意力掩模图，包括：

将所述注意力加权特征图在通道的维度求平均，得到平均注意力特征图；

基于所述平均注意力特征图，利用预设的阈值计算公式，计算一采样阈值；

根据所述采样阈值对所述平均注意力特征图进行采样，得到初始注意力掩模图；

对所述初始注意力掩模图进行扩维和卷积，得到注意力掩模图。

优选地，所述掩模模块，根据所述采样阈值对所述平均注意力特征图进行采样，得到初始注意力掩模图，包括：

将所述平均注意力特征图中不小于所述采样阈值的像素值设置为0，并将所述平均注意力特征图中小于所述采样阈值的像素值设置为1，得到掩模模板；

将所述掩模模板与所述平均注意力特征图进行相乘，得到初始注意力掩模图。

优选地，所述阈值计算公式为：

val＝λ*p_max(i,j)+(1-λ)*p_min(i,j)；

其中，p_max(i,j)为所述平均注意力特征图中的最大像素值，p_min(i,j)为所述平均注意力特征图中的最小像素值；λ∈[0.4，0.6]，val为所述采样阈值。

优选地，所述特征融合模块，对所述初始特征图和所述注意力掩模图进行特征融合，得到融合特征图，包括：

将所述初始特征图与所述注意力掩模图沿通道维度方向进行特征堆叠，得到融合特征图。

优选地，所述分类结果输出模块，包括全局池化层和Softmax层；

所述全局池化层用于对所述目标定位图进行平均池化处理，得到平均池化处理结果；

所述Softmax层用于基于所述平均池化处理结果，确定并输出所述目标的分类结果。

优选地，所述去冗余连通域模块包括两个级联的最大池化层。

优选地，所述初始特征提取模块，还包括：

级联于最后一个第二卷积单元之后的两个卷积层；所述最后一个第二卷积单元为：所述多个级联的第一卷积单元和第二卷积单元中的最后一个第二卷积单元。

第二方面，本发明提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一种基于深度学习的弱监督目标定位方法所述的方法步骤，或实现上述任一种弱监督定位网络的功能。

第三方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种基于深度学习的弱监督目标定位方法所述的方法步骤，或实现上述任一种弱监督定位网络的功能。

在本发明的又一方面中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一种基于深度学习的弱监督目标定位方法所述的方法步骤，或实现上述任一种弱监督定位网络的功能。

本发明提供的基于深度学习的弱监督目标定位方法中，将待测图像输入至预先训练完成的弱监督定位网络，可以得到该待测图像对应的目标定位图以及目标的分类结果。该弱监督定位网络中，初始特征提取模块的各个第二卷积单元中未设置最大池化层，故而可以保留目标的细节；注意力加权模块利用注意力权重矩阵对初始特征图进行加权，可以对关注于目标的通道赋予更大的权值，加强空间相似度高的特征通道，使注意力加权特征图的特征表达向目标聚集。然后，利用掩模模块屏蔽注意力加权特征图中与目标相关的显著性区域可以得到一个注意力掩模图，将初始特征图和该注意力掩模图进行特征融合后，可以促使网络提取更多的与目标细节相关的显著性特征。并且，去冗余连通域模块进一步去除了融合特征图中与目标非相关的冗余连通域，使输出的目标定位图既包含有较多的目标细节，又包含了对目标进行准确定位所需的特征，从而可以在确保定位任务的准确性的前提下保持目标细节。相应的，本发明的目标定位结果也比较精确。

以下将结合附图及对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于深度学习的弱监督目标定位方法的流程示意图；

图2是本发明实施例提供的弱监督定位网络的结构示意图；

图3是图2所示弱监督定位网络中的注意力加权模块的结构示意图；

图4是示例性示出的弱监督定位网络中的初始特征提取模块的结构示意图；

图5(a)-图5(c)是在三种不同定位场景中，本发明实施例的目标定位结果与现有的目标定位结果的对比示意图；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

为了在确保定位任务的准确性的前提下保持目标细节，本发明实施例提供了一种基于深度学习的弱监督目标定位方法，参见图1，该方法可以包括以下步骤：

S10：获取待测图像，该待测图像中包含有待定位的目标。

这里，待测图像可以是单一类别的图像或复杂场景下的自然图像等等，并不局限于此。

S20：将待测图像输入至预先训练完成的弱监督定位网络，得到待测图像对应的目标定位图以及目标的分类结果。

其中，弱监督定位网络是基于多个训练图像以及每个训练图像的分类标签所训练获得的。这里，训练图像是与待测图像的图像种类相同的图像。

如图2所示，该弱监督定位网络包括：

初始特征提取模块201，包括多个级联的第一卷积单元和第二卷积单元，该初始特征提取模块201用于通过多个级联的第一卷积单元和第二卷积单元从待测图像中提取初始特征图；其中，每个第一卷积单元均包括级联的多个卷积层和一个最大池化层，每个第二卷积单元均包括级联的多个卷积层，且不包括最大池化层，任一第二卷积单元包括的多个卷积层为具有不同膨胀率的空洞卷积层。

由于初始特征提取过程中，浅层特征往往保有更丰富的目标边缘形态信息，而随着网络深度的增加，特征提取更趋向于响应具有判别性的目标区域。因此，仅使用深层特征会使网络丧失一定的细节敏感度，产生局部响应问题。为此，本发明实施例将第二卷积单元设置为不包括最大池化层的卷积单元来尽可能多的保留目标的细节。由于最大池化层具有下采样的效果，因此，本发明实施例在每个第二卷积单元中，使用空洞卷积层弥补由于减少下采样次数带来的视野缺失。其中，空洞卷积与普通卷积操作过程相同，区别在于，空洞卷积通过在卷积核的各个采样点之间加入空洞，即改变膨胀率，从而扩大采样区域，增大感受野。并且，本发明实施例中，第二卷积单元包括的多个卷积层为具有不同膨胀率的空洞卷积层，即本发明将不同膨胀率的空洞卷积核组合使用，可以避免相同膨胀率的空洞卷积多次叠加使用后产生的网格效应。

注意力加权模块202，用于基于初始特征图计算一注意力权重矩阵，并利用注意力权重矩阵对初始特征图进行加权，得到注意力加权特征图；其中，注意力权重矩阵用于表征初始特征图的通道间的空间相似度。

需要说明的是，在利用注意力机制的网络对于目标进行特征的表达时，现有技术中的弱监督定位方法主要利用卷积神经网络预测的类别权重对特征图的通道维度进行加权。尽管现有的方法能够一定程度上加强目标特征响应较强的通道权重，但现有的方法需要获取额外的类别信息，且忽略了初始特征图中像素间的空间关系，导致定位结果存在一定的背景冗余。为了解决这一问题，本发明实施例在弱监督定位网络中设置了注意力加权模块202，通过该注意力加权模块202整合符合空间关系的特征通道，将初始特征图转换为注意力加权特征图。

掩模模块203，用于屏蔽注意力加权特征图中与目标相关的显著性区域，得到注意力掩模图。

需要说明的是，现有技术应用卷积神经网络进行初始特征提取时，趋向于关注目标具有鉴别性的显著性特征，导致定位响应结果往往集中于局部区域。与现有技术不同的是，本发明实施例通过掩模模块来避免局部响应问题，从而可以提高目标定位的准确性。

特征融合模块204，用于对初始特征图和注意力掩模图进行特征融合，得到融合特征图。

去冗余连通域模块205，用于去除融合特征图中的冗余连通域，输出待测图像对应的目标定位图；其中，冗余连通域为与目标非相关的像素连通区域。去冗余连通域模块205具体可以由多层级联的最大池化层构成。例如，该去冗余连通域模块205可以由两层级联的最大池化层构成。

分类结果输出模块206，用于基于目标定位图，确定并输出目标的分类结果。

可以理解的是，初始特征提取模块201的各个第二卷积单元中未设置最大池化层，可以保留目标的细节；注意力加权模块202利用注意力权重矩阵对初始特征图进行加权，可以对关注于目标的通道赋予更大的权值，加强空间相似度高的特征通道，使注意力加权特征图的特征表达向目标聚集。然后，掩模模块203屏蔽注意力加权特征图中与目标相关的显著性区域可以得到一个注意力掩模图，特征融合模块204将初始特征图和该注意力掩模图进行特征融合后，可以促使后续的去冗余连通域模块205提取更多的与目标细节相关的显著性特征。并且，去冗余连通域模块205进一步去除了融合特征图中与目标非相关的冗余连通域，使输出的目标定位图既包含有较多的目标细节，又包含了对目标进行准确定位所需的特征，从而可以在确保定位任务的准确性的前提下保持目标细节。相应的，本发明实施例的目标定位结果也比较精确。

S30：基于目标定位图和分类结果，确定目标定位结果。

该步骤中，基于目标定位图和分类结果，确定目标定位结果的具体实现方式存在多种。示例性的，在一种实现方式中，基于目标定位图和分类结果，确定目标定位结果，可以包括：

以热力图的形式展示所述目标定位图，将显示的目标定位图和目标的分类结果作为目标定位结果。

在另一种实现方式中，基于目标定位图和分类结果，确定目标定位结果，可以包括：

(1)确定目标定位图中的最大像素值；

(2)基于最大像素值确定一像素筛选阈值；

(3)确定目标定位图中，像素值大于筛选阈值的像素所在的目标区域，得到图像分割结果；

(4)基于图像分割结果中最大的像素连通区域，生成一图像分割框；

(5)以热力图的形式展示目标定位图，并在所展示的目标定位图中显示图像分割框；将显示有图像分割框的目标定位图和分类结果作为目标定位结果。

其中，基于最大像素值确定一像素筛选阈值可以是将最大像素值乘以预设的百分比后得到像素筛选阈值。优选地，该预设的百分比可以为20％，当然，并不局限于此。

下面对弱监督定位网络中的各个模块进行进一步的说明。

初始特征提取模块201，在多个级联的第一卷积单元和第二卷积单元之后，初始特征提取模块201还可以增设一个输出单元。该输出单元的具体结构存在多种。示例性的，该输出单元可以是一个全连接层。或者，为了减少训练过程中的参数运算与资源消耗，保持弱监督定位网络在特征提取时对目标位置的敏感性，可以采用两层卷积层等效替代全连接层进行特征提取与归类，同时收集全局上下文信息，保持弱监督定位网络的定位能力。此时，输出单元包括的两层卷积层可以级联于最后一个第二卷积单元之后；可以理解的是，所谓最后一个第二卷积单元，即是初始特征提取模块201中，多个级联的第一卷积单元和第二卷积单元中的最后一个第二卷积单元。

需要说明的是，本发明实施例中，各卷积单元的卷积核的大小、输出维度、步长和卷积层数可以按照实际需求进行设置，本发明实施例对此不做限定。

注意力加权模块202，基于初始特征图计算一注意力权重矩阵，可以包括：

将初始特征图重构为一个维度为C×N的矩阵M；其中，C代表初始特征图的通道，N＝H×W，H代表初始特征图的高度，W代表初始特征图的宽度；将矩阵M与矩阵M的转置相乘，得到一注意力权重矩阵。

具体的，矩阵M中通道C维度的子图中，每个像素点分别与矩阵M^T中的各维度像素点对应相乘，得到注意力权重矩阵。

另外，注意力加权模块202利用注意力权重矩阵对初始特征图进行加权，得到注意力加权特征图，具体可以是将注意力权重矩阵与初始特征图进行矩阵相乘。

图3示例性的示出了注意力加权模块202的结构示意图。图3中，模块R代表矩阵重构，模块T代表矩阵转置，模块X代表矩阵相乘，U为注意力权重矩阵。

举例而言，假设初始特征图的尺度H×W×C＝28×28×1024，那么将初始特征图重构后得到M∈R^784×1024，M^T∈R^1024×784。M与M^T相乘，得到U∈R^1024×1024；将该矩阵M∈R^784×1024与U∈R^1024×1024作矩阵乘法，便可以得到注意力加权特征图M’∈R^784×1024。

可以理解的是，注意力加权模块202通过加权操作实现了对初始特征图变换的矩阵M的空间、通道维度整合。

掩模模块203，屏蔽注意力加权特征图中与目标相关的显著性区域，得到注意力掩模图，可以包括：

(1)将注意力加权特征图在通道的维度求平均，得到平均注意力特征图；

(2)基于平均注意力特征图，利用预设的阈值计算公式，计算一采样阈值；

(3)根据采样阈值对平均注意力特征图进行采样，得到初始注意力掩模图；

(4)对初始注意力掩模图进行扩维和卷积，得到注意力掩模图。

其中，掩模模块203执行的步骤(3)可以具体包括：将平均注意力特征图中不小于采样阈值的像素值设置为0，并将平均注意力特征图中小于采样阈值的像素值设置为1，得到掩模模板；将掩模模板与平均注意力特征图进行相乘，得到初始注意力掩模图。可以理解的是，掩模模板屏蔽了与目标相关的强响应区域。在此基础上，将掩模模板与平均注意力特征图逐元素相乘，便可以实现注意力图中的显著性区域的去除。

可以理解的是，对初始注意力掩模图进行扩维，是为了将初始注意力掩模图的通道C维度恢复为与初始特征图相同的维度。例如，初始注意力掩模图与上述的注意力加权特征图M’∈R^784×1024维度相同，同为784×1024，对初始注意力掩模图扩维后的维度即是1024×1024。在实际应用中，扩维可以采用卷积的方式来实现。另外，在对初始注意力掩模图进行扩维后，进一步增设一个卷积层对扩维后的初始注意力掩模图进行卷积，通过该卷积层进行二次的特征提取，迫使弱监督定位网络寻找其他具有分类能力的特征，提升网络定位性能。

另外，上述的阈值计算公式为：

val＝λ*p_max(i,j)+(1-λ)*p_min(i,j)；

其中，p_max(i,j)为平均注意力特征图中的最大像素值，p_min(i,j)为平均注意力特征图中的最小像素值；λ∈[0.4，0.6]，val为采样阈值。这里示出的λ的取值为通过反复试验所确定的优选值，在实际应用中，可在所示区间的基础上上下浮动。

特征融合模块204，对初始特征图和注意力掩模图进行特征融合，得到融合特征图，可以包括：

将初始特征图与注意力掩模图沿通道维度方向进行特征堆叠，得到融合特征图。

可以理解的是，融合特征图增强了弱监督定位网络对图像的特征表达，具备更为丰富的特征响应。

去冗余连通域模块205，其两层池化层均可以采用最大池化方式进行特征采集；同时，使用Padding操作保证池化前后特征图的尺度不变。这里所说的Padding操作是指通过补0操作保证池化操作前后的特征图尺度不变的一种操作。

在实际应用中，融合特征图中仍可能存在较为稀疏、强度较弱的非目标冗余响应。因此，本发明实施例中，通过两层池化层进一步去除背景干扰。

分类结果输出模块206，可以具体包括全局池化层和Softmax层；该全局池化层用于对目标定位图进行平均池化处理，得到平均池化处理结果；Softmax层则用于基于平均池化处理结果，确定并输出目标的分类结果。

为了方案更为清楚，下面对弱监督定位网络的训练过程进行示例性的说明：采用在ImageNet数据集上预训练的模型参数对弱监督定位网络进行初始化；在数据标注阶段，不额外提供训练图像中目标的位置信息，仅利用所有训练图像的独热码作为标注的类别标签进行监督。分批次将训练图像输入到训练中的弱监督定位网络中，可以得到预测的分类结果；这些训练图像可以通过对任意的图像进行随机翻转、裁剪、抖动等操作进行数据扩充而得，这样可以增加弱监督定位网络的鲁棒性；分类结果具体是一个各种独热码对应的概率值，基于标注的训练图像的独热码和预测的该独热码对应的概率值之间的差异，利用交叉熵损失函数，可以计算训练中的弱监督定位网络的损失值。使用随机梯度下降(SGD)优化器实现模型参数的优化；当某一批次的训练图像输入到弱监督定位网络后所计算的损失值小于预设的阈值时，认为弱监督定位网络收敛，完成训练。

下面以一个具体的弱监督定位网络为例，对本发明实施例提供的弱监督定位网络的定位效果进行验证说明。

首先，对该具体的弱监督定位网络的网络结构进行说明。

如图3所示，该弱监督定位网络的初始特征提取模块201共包含卷积单元1-5共五个卷积单元及一个输出单元6；其中，卷积单元1-3为第一卷积单元，卷积单元4-5为第二卷积单元；输出单元包括两层卷积层。如图3所示，卷积单元1包含卷积核尺度为3×3，步长为1的两层卷积层及一层最大池化层，该卷积单元1输出维度为64；卷积单元2包含卷积核尺度为3×3，步长为1的两层卷积层及一层最大池化层，输出维度为128；卷积单元3包含卷积核尺度为3×3，步长为1的三层卷积层及一层最大池化层，该卷积单元3输出维度为256；卷积单元4、卷积单元5均包含卷积核尺度为3×3，步长为1的三层卷积层，这两个卷积单元输出维度均为512；另外，将卷积单元4、卷积单元5单元中后两层卷积层膨胀率均设置为2，构成类似[1,2,2]的锯齿状结构。卷积单元1-5中各卷积层均采用ReLU(Rectified LinearUnit，修正线性单元)作为激活函数。输出单元6的两层卷积层的卷积核大小均设置为3×3，步长为1，激活函数为ReLU，输出维度为1024。

初始特征提取模块201提取的初始特征图的尺度为28×28×1024。

注意力加权模块202对初始特征图进行转换得到的矩阵M∈R^784×1024；M与M^T相乘后得到注意力权重矩阵U∈R^1024×1024；用U对M加权后得到注意力加权特征图M’∈R^1024×784。

掩模模块203将注意力加权特征图在通道的维度求平均，得到平均注意力特征图；对平均注意力特征图进行采样得到的初始注意力掩模图尺度仍为1024×784；继续对初始注意力掩模图进行扩维和卷积，得到尺度为1024×1024的注意力掩模图。其中，对初始注意力掩模图进行扩维后的卷积所采用的卷积层的卷积核尺度为3×3，步长为1，激活函数为ReLU，输出维度为1024。

特征融合模块204对注意力掩模图和初始特征图进行特征堆叠；由于注意力掩模图和初始特征图的维度均为28×28×1024，故而特征融合模块204输出的融合特征图的尺度为28×28×2048。

融合特征图通过去冗余连通域模块205的两层最大池化层，实现冗余连通域的去除。其中，第一层最大池化层的层卷积核尺度为5×5，Padding大小为(2,2)；第二层池化层的层卷积核尺度为11×11，Padding大小为(5,5)。融合特征图通过去冗余连通域模块205后，即得到目标定位图。

目标定位图进入分类结果输出模块206，分类结果输出模块206的全局池化层对目标定位图进行平均池化处理，分类结果输出模块206的Softmax层基于平均池化处理结果，确定并输出目标的分类结果。

然后，对利用该具体的弱监督定位网络所获取的目标定位结果与现有技术所获取的定位结果进行对比说明，该现有技术具体是采用类激活映射方法生成热力图响应的技术。参见图5a至图5c。其中，图5(a)至图5(c)分别对应大尺度目标、复杂背景下的目标及多目标三种定位场景。图5(a)至图5(c)中，从左往右数第一个方块里的图像显示的是现有技术生成的热力图响应，第二个方块里的图像显示的是基于现有技术生成的热力图响应所定位的定位框，其中，颜色较深的定位框是自动定位的定位框，颜色较浅的定位框是人工标定的定位框，方便与自动定位的定位框进行比对；第三个方块里的图像显示的是本发明实施例提供的弱监督定位网络输出的目标定位图的热力图响应，第四个方块里的图像显示的是基于本发明的热力图响应所定位的定位框，其中，颜色较深的定位框是自动定位的定位框，颜色较浅的定位框是人工标定的定位框，方便与自动定位的定位框进行比对。

通过图5(a)可以看到：图像中目标较大时，现有技术的热力图中强响应像素大多集中于目标的局部区域，难以覆盖目标整体，且缺乏对目标形态的认知能力，定位效果较差；本发明实施例能够有效提取目标的形态信息，且对于目标多个部位均有所响应，大大提高了对目标的整体定位性能。

通过图5(b)可以看到：当目标的颜色、纹理与背景较为相似，或目标处于遮挡等复杂场景中时，本发明实施例通过注意力加权、去冗余连通域等策略能够有效屏蔽背景信息干扰，使网络强响应区域精确聚焦于目标主体，提高了复杂场景下小目标的检测能力。

此外，从图5(c)中的热力图响应可以看到，本发明实施例对于多目标的定位场景也具备一定检测能力。

然后，使用CUB200-2011数据集对本发明实施例提出的弱监督定位网络进行评估。该CUB200-2011数据集包括200种鸟类，5994张训练图像和5794张测试图像。

其中，分别采用定位准确率(Top-1 Loc)和分类准确率(Top-1 Clas)来量化评估本发明实施例提出的弱监督定位网络的性能。对于所有参与评估的测试图片，当网络预测概率最高的类别等于该图片真实类别时，Top-1 Clas为1；当网络预测概率前5中存在该图片真实类别时，Top-5 Clas为1；当预测框与真实框之间的交并比(Intersection overUnion，IoU)大于等于50％时，GT-known为1；当GT-known为1且Top-1 Clas为1时，Top-1 Loc为1。同理，当GT-known为1且Top-5 Clas为1时，Top-5 Loc为1。

基于以上标准，本发明实施例与现有的CAM(Class Activation Mapping)算法、ACoL算法的定位、分类性能对比结果参见表1。其中，ACoL算法是一种基于两个分类器进行特征对抗提取的弱监督目标定位算法。

表1

方法	Top-1 Loc(％)	Top-1 Clas(％)
			CAM方法	34.41	67.55
ACoL方法	45.92	71.90
			本发明实施例	52.02	72.10

由表1可见：(1)本发明实施例相比于CAM方法具有更高的Top-1 Loc准确率与Top-1 Clas准确率，这是因为本发明实施例提取到了更为完整、准确的目标特征信息，有效提升了多种尺度目标的定位精度；(2)相较于ACoL模型，本发明实施例不需要训练额外的分类器，结构更为简洁。由于测试数据集中所有目标均为鸟类，目标之间差异度较小，对此类场景的分类、定位存在一定的挑战性，而本发明实施例能够有效提取目标的形态、边缘信息，具备一定的细节敏感度，提高了形态相似度较高的目标及小尺度目标的分类、定位准确度。

基于同一发明构思，本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现上述任一种基于深度学习的弱监督目标定位方法所述的方法步骤，或者，实现上述任一种弱监督定位网络所实现的功能。

在实际应用中，上述的电子设备可以为：监控设备、图像处理设备、台式计算机、便携式计算机、智能移动终端等等。在此不作限定，任何可以实现本发明的电子设备，均属于本发明的保护范围。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表征，图中仅用一条粗线表征，但并不表征仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供了一种计算机可读存储介质。在该计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时，实现上述任一种基于深度学习的弱监督目标定位方法所述的方法步骤，或者，实现上述任一种弱监督定位网络所实现的功能。

可选地，该计算机可读存储介质可以为非易失性存储器(Non-Volatile Memory，NVM)，例如为至少一个磁盘存储器。

可选的，所述计算机可读存储器还可以是至少一个位于远离前述处理器的存储装置。

在本发明的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一种基于深度学习的弱监督目标定位方法所述的方法步骤，或者，实现上述任一种弱监督定位网络的功能。

对于电子设备/存储介质/计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的弱监督目标定位方法，其特征在于，包括：

获取待测图像；所述待测图像中包含有待定位的目标；

基于所述目标定位图和所述分类结果，确定目标定位结果；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标定位图和所述分类结果，确定目标定位结果的步骤，包括：

确定所述目标定位图中的最大像素值；

基于所述最大像素值确定一像素筛选阈值；

3.根据权利要求1所述的方法，其特征在于，所述注意力加权模块，基于所述初始特征图计算一注意力权重矩阵，包括：

4.根据权利要求3所述的方法，其特征在于，所述掩模模块，屏蔽所述注意力加权特征图中与所述目标相关的显著性区域，得到注意力掩模图，包括：

5.根据权利要求4所述的方法，其特征在于，所述掩模模块，根据所述采样阈值对所述平均注意力特征图进行采样，得到初始注意力掩模图，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述阈值计算公式为：

val＝λ*p_max(i,j)+(1-λ)*p_min(i,j)；

7.根据权利要求3或4所述的方法，其特征在于，所述特征融合模块，对所述初始特征图和所述注意力掩模图进行特征融合，得到融合特征图，包括：

8.根据权利要求1所述的方法，其特征在于，所述分类结果输出模块，包括全局池化层和Softmax层；

9.根据权利要求1所述的方法，其特征在于，所述去冗余连通域模块包括两个级联的最大池化层。

10.根据权利要求1所述的方法，其特征在于，所述初始特征提取模块，还包括：