CN113158740A

CN113158740A - 基于记忆机制前景感知建模的弱监督物体定位装置及方法

Info

Publication number: CN113158740A
Application number: CN202110124202.7A
Authority: CN
Inventors: 张天柱; 张勇东; 孟梦; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-07-23
Anticipated expiration: 2041-01-28
Also published as: CN113158740B

Abstract

本公开提供一种基于记忆机制前景感知建模的弱监督物体定位装置，包括：特征提取模块，用于对输入图像进行特征提取形成特征图；前景感知模块，用于对所述特征图内各特征进行分类，得到前景激活图；以及目标定位模块，用于对所述前景激活图进行双线性插值得到类别激活图，然后对该类别激活图设置合理的阈值，找到能够覆盖响应区域的最大邻接矩形，完成最终定位。本公开还提供了一种基于记忆机制前景感知建模的弱监督物体定位方法。

Description

基于记忆机制前景感知建模的弱监督物体定位装置及方法

技术领域

本公开涉及人工智能领域技术领域，尤其涉及一种基于记忆机制前景感知建模的弱监督物体定位装置及方法。

背景技术

目标定位技术能够在给定的图片中准确地寻找出目标的位置，在人脸识别，自动驾驶以及目标跟踪等领域有着广泛的应用。

传统方法通常是基于全监督的，需要使用大量的人工标注的边界框作为监督信息。这一过程严重依赖大量有时域边界标注的数据，非常耗费时间和人力，这限制了目标定位技术的拓展性和实用性。

针对一幅图像中仅有单个目标的情况，目标定位不仅要识别出图像中目标的类别，还要给出目标在图像中的位置信息。传统的目标定位需要大量的人工标注的边界框作为监督信息，然而这种监督信息的获取十分耗时耗力，限制了目标定位的应用范围。为了减轻对数据的依赖、提升拓展性和实用性，基于弱监督的定位算法应运而生，在目标定位中取得了较好的结果。然而，当前技术利用图片级别的标签进行训练，导致模型只依赖于特定类别的区域进行定位，从而使得网络仅仅定位出目标最具有判别力的区域。本专利提出的方法利用前景激活图实现目标的完整性定位，同时利用目标最具有判别力的区域实现精确的目标分类，在弱监督的框架下有效地提升了定位以及分类任务的性能。

公开内容

(一)要解决的技术问题

基于上述问题，本公开提供了一种基于记忆机制前景感知建模的弱监督物体定位装置及方法，以缓解现有技术中训练仅使用图像级标签的情况下，应用时计算机可根据输入图像自动进行分类及定位等技术问题。

(二)技术方案

本公开提供了一种基于记忆机制前景感知建模的弱监督物体定位装置，包括：

特征提取模块，用于对输入图像进行特征提取形成特征图；

前景感知模块，用于对所述特征图内各特征进行分类，得到前景激活图；以及

目标定位模块，用于对所述前景激活图进行双线性插值得到类别激活图，然后对该类别激活图设置合理的阈值，找到能够覆盖响应区域的最大邻接矩形，完成最终定位。

在本公开实施例中，所述的弱监督物体定位装置，还包括目标部件感知模块，用于根据所述特征图与所述前景激活图得到前景特征图，对其处理得到目标物体的特征，使所述最终定位更佳准确。

在本公开实施例中，所述目标部件感知模块包括：

部件发现模块，用于捕捉所述前景特征图中各部件的特征，得到多个部件的注意力图；

部件的特征模块，用于根据所述多个部件的注意力图与所述前景特征图，得到目标的多个部件的特征性；

重要性预测模块，用于为多个部件的特征性中每一部件的特征性预测出一个重要性权重，得到目标物体的特征。

在本公开实施例中，所述目标部件感知模块还用于将所述目标物体的特征进行分类。

在本公开实施例中，所述特征提取模块使用了四种不同的骨干网络进行特征提取，分别是MobileNetV1，VGG16，InceptionV3以及ResNet50。

在本公开实施例中，所述前景感知模块还包括：

模板单元，包括多个模板，用于所述特征图中各特征通过询问向量与所述模板进行对比得到前景特征；

分类器单元，包括多个分类器，用于对前景特征进行分类，得到所述前景激活图。

在本公开实施例中，所述多个模板与多个分类器一一对应。

在本公开实施例中，所述类别激活图与所述输入图像大小一致。

本公开还提供了一种根据上述任一技术方案所述的弱监督物体定位装置的基于记忆机制前景感知建模的弱监督物体定位方法，包括：

操作S1：对输入图像进行特征提取形成特征图；

操作S2：对所述特征图内各特征进行分类，得到前景激活图；以及

操作S3：对所述前景激活图进行双线性插值得到类别激活图，然后对该类别激活图设置合理的阈值，找到能够覆盖响应区域的最大邻接矩形，完成最终定位。

(三)有益效果

从上述技术方案可以看出，本公开一种基于记忆机制前景感知建模的弱监督物体定位装置及方法至少具有以下有益效果其中之一或其中一部分：

(1)实现了训练过程不需要人工参与，从而模型可被端到端训练；

(2)实现了不需要精细的目标框的标注，只需要图片级别的类别标签进行训练；

(3)能够联合优化目标定位和目标分类任务；以及

(4)实现了目标的完整性定位以及精确分类。

附图说明

图1为本公开实施例基于记忆机制前景感知建模的弱监督物体定位装置的原理示意图图。

图2为本公开实施例基于记忆机制前景感知建模的弱监督物体定位方法的方法流程图。

具体实施方式

本公开提供了一种基于记忆机制前景感知建模的弱监督物体定位装置，所述弱监督物体定位装置训练过程不需要人工参与，因此模型可被端到端训练；该装置不需要精细的目标框的标注，只需要图片级别的类别标签进行训练；该装置能联合优化目标定位和目标分类任务，实现了目标的完整性定位以及精确分类。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在本公开实施例中，提供一种基于记忆机制前景感知建模的弱监督物体定位装置，如图1所示，所述弱监督物体定位装置，包括：特征提取模块，用于对输入图像进行特征提取形成特征图；前景感知模块，用于对所述特征图内各特征进行分类，得到前景激活图；目标定位模块，用于对所述前景激活图进行双线性插值得到类别激活图，然后对该类别激活图设置合理的阈值，找到可以覆盖响应区域的最大邻接矩形完成最终定位。

在本公开实施例中，所述的弱监督物体定位装置，还包括目标部件感知模块，用于根据所述特征图与所述前景激活图得到前景特征图，对其处理得到目标物体的特征，使所述最终定位及分类更佳准确。

在本公开实施例中，所述目标部件感知模块包括：部件发现模块，用于捕捉所述前景特征图中各部件的特征，得到多个部件的注意力图；部件的特征模块，用于根据所述多个部件的注意力图与所述前景特征图，得到目标的多个部件的特征性；重要性预测模块，用于为多个部件的特征性中每一部件的特征性预测出一个重要性权重，得到目标物体的特征。

在本公开实施例中，所述前景感知模块还包括：模板单元，包括多个模板，用于所述特征图中各特征通过询问向量与所述模板进行对比得到前景特征；分类器单元，包括多个分类器，用于对前景特征进行分类，得到所述前景激活图。

在本公开实施例中，所述多个模板与多个分类器一一对应。

本公开还提供了一种基于记忆机制前景感知建模的弱监督物体定位方法，所述弱监督物体定位装置训练过程不需要人工参与，因此模型可被端到端训练；该方法不需要精细的目标框的标注，只需要图片级别的类别标签进行训练；该方法能联合优化目标定位和目标分类任务，实现了目标的完整性定位以及精确分类。

在本公开实施例中，还提供了一种根据上述任一技术方案所述的弱监督物体定位装置的基于记忆机制前景感知建模的弱监督物体定位方法，如图2所示，所述弱监督物体定位方法，包括：

操作S1：对输入图像进行特征提取形成特征图；

具体地，在本公开实施例中，如图1所示，前景感知模块对于一张输入的原始图像，使用了四种不同的骨干网络进行特征提取(特征图)，分别是MobileNetV1，VGG16，InceptionV3以及ResNet50。在实际应用中，可以根据实时性以及精确度的要求选择合适的特征提取网络。前景记忆机制中存储了N个键值对，表示为

和

用来索引

代表了N个前景模板，

代表了对应模板的分类器参数。每个像素特征x_i，j经过编码后生成维度为d的询问向量，表示为q_i，j，i＝1，2，...，H；j＝ 1，2，...，W。其中，H和W分别表示图像的高度和宽度。利用询问向量可以为每个像素点通过从记忆库中组合多个

找出合适的分类器参数w_i，j。分类器参数可以通过线性加权

得到，同时，询问向量和

具有相同的维度，故而可以进行相似度度量用于加权

公式中的 n＝1，2，...，N以及T表示矩阵转置。

利用该分类器对每个像素特征x_i，j进行分类，可以得到前景激活图M 中第i行第j列的值。完整的前景激活图可以通过对每个像素进行相同的操作得到。

考虑到前景往往只占据图像中较少的部分，引入了稀疏性损失函数 l_spa对背景响应施加惩罚。

目标部件感知模块将原始的特征图X与前景激活图相乘，得到前景特征图

来高亮前景的特征，公式中的i，j以及c分别索引前景特征图的高度，宽度以及通道维度。

根据前景特征图

利用部件发现模块捕捉目标的K个部件的注意力图A＝[A¹；A²；…；A^K]。将部件注意力图与前景特征图F相乘，获得目标的 K个部件的特征性P＝[p¹；p²；…；p^K]。为了保证学到的目标的K个部件的多样性，我们提出了多样性损失函数l_div，其计算方式如下：

然后通过一个重要性预测模块，为每一个分支预测出一个重要性权重 T＝[t¹；t²；…；t^K]，最终的目标物体的特征通过加权组合多个部件的特征得到：

将物体特征输入分类器可以得到最终的分类结果

y表示真实的类别标签。交叉熵分类损失表示如下：

在仅仅给定图片标签的情况下，最终的损失函数如下给出：

l_final＝l_cla+λ_spal_spa+λ_divl_div；

其中，λ_spa，λ_div为平衡系数。

目标定位模块对前景激活图M进行双线性插值，可以得到和原图大小一致的类别激活图。然后对该类别激活图设置合理的阈值，找到可以覆盖响应区域的最大邻接矩形即为最终定位结果。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

依据以上描述，本领域技术人员应当对本公开一种基于记忆机制前景感知建模的弱监督物体定位装置及方法有了清楚的认识。

综上所述，本公开提供了一种基于记忆机制前景感知建模的弱监督物体定位装置及方法，该弱监督物体定位装置及方法实现了训练过程不需要人工参与，从而模型可被端到端训练；实现了不需要精细的目标框的标注，只需要图片级别的类别标签进行训练；能够联合优化目标定位和目标分类任务；以及实现了目标的完整性定位以及精确分类。可应用于目标定位相关的应用系统中，如在人脸识别，游戏中的人机交互以及自动驾驶等应用中对输入图像进行自动识别及定位。在实施上，可以以软件形式嵌入到移动设备中，提供实时分析结果；也可以安装在后台服务器中，提供大批量视频处理结果。

还需要说明的是，实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本公开的保护范围。贯穿附图，相同的元素由相同或相近的附图标记来表示。在可能导致对本公开的理解造成混淆时，将省略常规结构或构造。

并且图中各部件的形状和尺寸不反映真实大小和比例，而仅示意本公开实施例的内容。另外，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。

除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本公开的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字，应理解为在所有情况中是受到「约」的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

再者，单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。

说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词，以修饰相应的元件，其本身并不意味着该元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/ 或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于记忆机制前景感知建模的弱监督物体定位装置，包括：

特征提取模块，用于对输入图像进行特征提取形成特征图；

2.根据权利要求1所述的弱监督物体定位装置，还包括目标部件感知模块，用于根据所述特征图与所述前景激活图得到前景特征图，对其处理得到目标物体的特征，使所述最终定位更佳准确。

3.根据权利要求2所述的弱监督物体定位装置，其中，所述目标部件感知模块包括：

4.根据权利要求2所述的弱监督物体定位装置，其中，所述目标部件感知模块还用于将所述目标物体的特征进行分类。

5.根据权利要求1所述的弱监督物体定位装置，其中，所述特征提取模块使用了四种不同的骨干网络进行特征提取，分别是MobileNetV1，VGG16，InceptionV3以及ResNet50。

6.根据权利要求1所述的弱监督物体定位装置，其中，所述前景感知模块还包括：

7.根据权利要求6所述的弱监督物体定位装置，其中，所述多个模板与多个分类器一一对应。

8.根据权利要求1所述的弱监督物体定位装置，其中，所述类别激活图与所述输入图像大小一致。

9.一种根据权利要求1至8所述的任一弱监督物体定位装置的基于记忆机制前景感知建模的弱监督物体定位方法，包括：

操作S1：对输入图像进行特征提取形成特征图；