CN116206201A

CN116206201A - 一种监督目标检测识别方法、装置、设备及存储介质

Info

Publication number: CN116206201A
Application number: CN202310147909.9A
Authority: CN
Inventors: 戴健; 杨健; 吴锐; 朱松柏; 祝本明; 任珍文
Original assignee: Beijing Institute of Technology BIT; China South Industries Group Automation Research Institute
Current assignee: Beijing Institute of Technology BIT; China South Industries Group Automation Research Institute
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-06-02

Abstract

本发明公开了一种监督目标检测识别方法、装置、设备及存储介质，该方法包括构建第一监督目标检测识别模型；通过图像数据集预训练形成的泛化特征提取网络提取待目标识别图像的泛化纹理特征；所述待目标识别图像仅有图像级类别标注；通过选择搜索方法生成所述待目标识别图像中候选区域的候选框；通过空间金字塔池化网络自适应抽取所述候选区域的纹理特征向量，对所述候选区域纹理特征向量进行分类和检测处理获得分类结果以及检测结果。可以实现基于选择搜索和空间金字塔池化的弱监督目标检测识别，通过候选区域生成算法和多实例类别交叉优化方法解决弱监督标注问题，最终实现在仅有图像级类别标注条件下的弱监督目标检测识别能力达到预期要求。

Description

一种监督目标检测识别方法、装置、设备及存储介质

技术领域

本发明涉及目标识别技术领域，特别是涉及一种可对仅有图像级类别标注的图片进行准确目标识别的监督目标检测识别方法、装置、设备及存储介质。

背景技术

地面目标识别是基于遥感技术、人工智能技术等现代化手段对地面目标进行采集、分类及识别。地面目标识别过程主要包括：可见光图像样本采集、样本预处理、训练分类器、目标识别几个步骤。人们对智能检测和目标识别的技术需求越来越大，汽车辅助驾驶、智能交通监控、军事等领域的核心是自动检测和识别某些应用场景内的存在的地面目标。

随着机器视觉技术的快速发展，传统很多需要人工来手动操作的工作，渐渐地被机器所替代。传统方法做目标识别大多都是靠人工实现，从形状、颜色、长度、宽度、长宽比来确定被识别的目标是否符合标准，最终定义出一系列的规则来进行目标识别。这样的方法当然在一些简单的案例中已经应用的很好，唯一的缺点是随着被识别物体的变动，所有的规则和算法都要重新设计和开发，即使是同样的产品，不同批次的变化都会造成不能重用的现实。

而随着机器学习、深度学习的发展，很多肉眼很难去直接量化的特征，深度学习可以自动学习这些特征，这就是深度学习带给我们的优点和前所未有的吸引力。很多特征我们通过传统算法无法量化，或者说很难去做到的，深度学习可以。特别是在图像分类、目标识别这些问题上有显著的提升。2014年R-CNN的提出，使得基于CNN的目标检测算法逐渐成为主流。深度学习的应用，使检测精度和检测速度都获得了改善。

目标检测主要是针对图像视觉的一种方法，根据学习到的目标，将目标区域进行位置定位和类别识别，同时需要给出目标的置信度。针对复杂战场场景难以详尽标注的情况，在仅有图像级类别标注的条件下，缺乏实例目标定位信息和类别对应关系，难以通过有监督训练方法构建强监督目标识别模型。使得获得的目标识别模型的识别性能达不到理想的要求。

因此，如何提供一种监督识别方法，可以在仅有像级类别标注的条件下保证监督目标检测识别方法性能，是迫切需要本领域技术人员解决的技术问题。

发明内容

鉴于上述问题，本发明提供用于克服上述问题或者至少部分地解决上述问题的一种监督目标检测识别方法、装置、设备及存储介质。

本发明提供了如下方案：

一种监督目标检测识别方法，包括：

构建第一监督目标检测识别模型；

通过图像数据集预训练形成的泛化特征提取网络提取待目标识别图像的泛化纹理特征；所述待目标识别图像仅有图像级类别标注；

通过选择搜索方法生成所述待目标识别图像中候选区域的候选框；

通过空间金字塔池化网络自适应抽取所述候选区域的纹理特征向量，对所述候选区域纹理特征向量进行分类和检测处理获得分类结果以及检测结果；

利用所述分类结果以及所述检测结果联合优化所述第一监督目标检测识别模型的图像级类别预测与类别标注之间的交叉熵损失函数。

优选地：所述通过选择搜索方法生成所述待目标识别图像中候选区域的候选框，包括：

通过小尺度窗口搜索所有小候选区域；

所有所述小候选区域通过比较颜色空间距离和纹理距离筛选出相似的相似小候选区域；

根据空间位置关系将所述相似小候选区域逐层次地合成大候选区域。

优选地：所述通过空间金字塔池化网络自适应抽取所述候选区域纹理特征向量，包括：

通过空间金字塔池化方法获得候选区域特征子图，按不同比例大小划分子区域，对各个子区域做池化操作后得到不同尺度下的若干子纹理特征向量；

将若干所述子纹理特征向量进行拼接融合获得所述候选区域的纹理特征向量。

优选地：所述图像级类别标注包括采用二进制类别向量表示的图像级类别信息。

优选地：所述第一监督目标检测识别模型为基于多实例挖掘和协同学习的弱监督目标检测识别模型。

优选地：构建第二监督目标检测识别模型以及所述第一监督目标检测识别模型之间的协同学习网络模型；

利用同一类别实例对象之间具有高度的空间耦合性和纹理相似性的特点，从图像级类别标注中精确挖掘待目标识别图像中所有实例目标，并集成到基于第一监督目标检测识别模型和第二监督目标检测识别模型之间目标定位差异的协同学习过程中。

一种监督目标检测识别装置，包括：

构建单元，用于构建第一监督目标检测识别模型；

泛化纹理特征提取单元，用于通过图像数据集预训练形成的特征提取网络提取待目标识别图像的泛化纹理特征；所述待目标识别图像仅有图像级类别标注；

候选框生成单元，用于通过选择搜索方法生成所述待目标识别图像中候选区域的候选框；

纹理特征向量抽取单元，用于通过空间金字塔池化网络自适应抽取所述候选区域的纹理特征向量，对所述候选区域纹理特征向量进行分类和检测处理获得分类结果以及检测结果；

优化单元，用于利用所述分类结果以及所述检测结果联合优化弱监督目标检测识别模型的图像级类别预测与类别标注之间的交叉熵损失函数。

一种监督目标检测识别设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行的监督目标检测识别方法。

一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述的监督目标检测识别方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本申请实施例提供的一种监督目标检测识别方法、装置、设备及存储介质，可以实现基于选择搜索和空间金字塔池化的弱监督目标检测识别，通过候选区域生成算法和多实例类别交叉优化方法解决弱监督标注问题，最终实现在仅有图像级类别标注条件下的弱监督目标检测识别能力达到预期要求。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种监督目标检测识别方法的流程图；

图2是本发明实施例提供的基于多实例挖掘和协同学习的目标检测识别模型的示意图；

图3是本发明实施例提供的基于选择搜索和空间金字塔池化的第一监督目标检测识别模型的示意图；

图4是本发明实施例提供的一种监督目标检测识别装置的示意图；

图5是本发明实施例提供的一种监督目标检测识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，为本发明实施例提供的一种监督目标检测识别方法，如图1所示，该方法可以包括：

S101：构建第一监督目标检测识别模型；

S102：通过图像数据集预训练形成的泛化特征提取网络提取待目标识别图像的泛化纹理特征；所述待目标识别图像仅有图像级类别标注；具体的，所述图像级类别标注包括采用二进制类别向量表示的图像级类别信息。

S103：通过选择搜索方法生成所述待目标识别图像中候选区域的候选框；

S104：通过空间金字塔池化网络自适应抽取所述候选区域的纹理特征向量，对所述候选区域纹理特征向量进行分类和检测处理获得分类结果以及检测结果；

S105：利用所述分类结果以及所述检测结果联合优化弱监督目标检测识别模型的图像级类别预测与类别标注之间的交叉熵损失函数。具体的，所述第一监督目标检测识别模型为基于多实例挖掘和协同学习的弱监督目标检测识别模型。

在仅有图像级类别标注的条件下，缺乏实例目标定位信息和类别对应关系，难以通过有监督训练方法构建强监督模型。为了解决此问题，本申请实施例提供的监督目标检测识别方法，基于选择搜索和空间金字塔池化的弱监督目标检测识别，通过候选区域生成算法和多实例类别交叉优化方法解决弱监督标注问题。本申请实施例提供的第一监督目标检测识别模型可以作为一种弱监督模型，输入该模型中的待识别图像中仅有图像级类别标注，为了保证模型可以准确对目标进行识别，本申请实施例提供的方案中采用自动添加候选框的方式进行二次标注，保证第一监督目标检测识别模型可以准确的识别待目标识别图像中的所有目标。

进一步的，所述通过选择搜索方法生成所述待目标识别图像中候选区域的候选框，包括：

通过小尺度窗口搜索所有小候选区域；

所述通过空间金字塔池化网络自适应抽取所述候选区域纹理特征向量，包括：

为了进一步提高本申请实施例提供的方法目标识别的能力，本申请实施例还可以提供构建第二监督目标检测识别模型以及所述第一监督目标检测识别模型之间的协同学习网络模型；

利用同一类别实例对象之间具有高度的空间耦合性和纹理相似性的特点，从图像级类别标注中精确挖掘待目标识别图像中所有实例目标，并集成到基于第一监督目标检测识别模型和第二监督目标检测识别模型之间目标定位差异的协同学习过程中。可以理解的是，本申请实施例提供的第二监督目标检测识别模型可以是现有技术中任意一种具有强监督特性的目标检测识别模型。

针对复杂场景难以详尽标注的情况，本申请实施例提供的方法基于高维流形纹理特征与空间位置的关联关系的多实例挖掘方法，并构建强监督和弱监督目标检测器之间协同学习的网络模型，设计一种基于多实例挖掘和协同学习的监督目标检测识别方法。如图2所示，利用同一类别实例对象之间具有高度的空间耦合性和纹理相似性这一特点，从图像级类别标注中精确挖掘图像中所有实例目标，并集成到基于强监督和弱监督之间目标定位差异的协同学习过程。在仅有图像级类别标注的条件下，保证弱监督目标检测识别性能。

在仅有图像级类别标注的条件下，缺乏实例目标定位信息和类别对应关系，难以通过有监督训练方法构建强监督模型。为了解决此问题，本申请实施例选择搜索和空间金字塔池化的弱监督目标检测识别，通过候选区域生成算法和多实例类别交叉优化方法解决弱监督标注问题，如图3所示。

基于选择搜索和空间金字塔池化的弱监督目标检测识别，首先通过大量图像数据集预训练特征提取网络提取图像泛化纹理特征。

当前目标检测算法虽然各不相同，但是第一步通常是利用卷积神经网络处理输入图像，生成深层次、高语义的特征图，然后进行区域生成和损失计算，这部分卷积神经网络就是特征提取网络。

为了追求更加优越的性能，卷积神经网络的体积逐渐增大，网络结构也越来越复杂，神经网络训练和预测所需要的硬件资源也在逐渐增多。这就导致深度学习模型很难在计算能力有限的移动和嵌入式设备上部署运行。因此轻量级神经网络也逐渐成为研究的热点，先后有SqueezeNet、Shuff l eNet、NasNet、Mobi l eNet以及GhostNet轻量级网络被提出。Shuff l eNet的核心思想是采用了逐点分组卷积和通道混洗(Chann l e Shuff l e)，这使得网络在保持精度的同时计算量大大降低。NasNet是谷歌大脑利用强化学习得到的网络结构，其在网络中使用了新的正则化方法来提高网络的泛化能力。Mobi l eNet v1使用深度可分离卷积取代了传统的卷积层，这使得计算量和模型参数量都大大减少。Mob i leNet v2在Mobi l eNet v1基础上引入了倒残差结构和线性瓶颈结构，使得网络的检测速度和精度都有了显著提升。Mobi l eNet v3在Mobi l eNet v2引入的Bott l eneck结构中加入了通道注意力机制，对尾部结构进行了修改，在保证精度的同时减少了计算量。GhostNet网络构建了一种新的网络结构Ghost模块，Ghost模块作为一种即插即用组件可以很方便的应用在各种网络模型中，同时其使用线性变换的组合来构建Ghost特征映射，用以提取更深层次的特征信息。轻量型目标检测网络在检测精度上稍逊于ResNet、EfficientNet这样的主干网络，但是其在检测速度、模型大小上有很大优势，非常适合应用在计算性能有限的移动和嵌入式设备上。

而后通过选择搜索方法生成候选区域候选框，通过空间金字塔池化方法自适应抽取候选区域特征向量，对候选区域特征向量进行分类和检测双重流处理，最终联合优化图像级类别预测与类别标注之间的交叉熵损失函数。交叉熵损失函数经常用于分类问题中，特别是在神经网络做分类问题时，也经常使用交叉熵作为损失函数，此外，由于交叉熵涉及到计算每个类别的概率，所以交叉熵几乎每次都和s igmoid(或softmax)函数一起出现。

选择搜索方法是由下而上的搜索方法，生成候选区域的难点在于不知道实例目标的尺度大小。为了尽可能地多搜索出候选区域，可先通过小尺度窗口搜索所有小候选区域，而后小候选区域可以通过比较颜色空间距离和纹理距离筛选出较为相似的小候选区域。根据空间位置关系，将较为接近的相似候选区域逐层次地合成大候选区域。候选区域生成后，为了提取出各个候选区域的纹理特征向量，通过空间金字塔池化方法对候选区域特征子图，按不同比例大小划分子区域，对各个子区域做池化操作后得到不同尺度下的特征向量。将这些特征向量进行拼接融合成候选区域的特征向量，并且计算得到分类分数和定位分数，综合这两个分数输出得到各个候选区域的类别预测结果。

记类别总数以及长度为二进制类别向量来表示图像级类别信息。若图像中存在该类别则其对应二进制位为1，否则该类别对应的二进制位为0。通过预测类别向量和标注类别向量之间的交叉熵损失可以使得这些类别预测结果逼近于图像级类别标注结果，最终实现在仅有图像级类别标注条件下的监督目标检测识别方法。

总之，本申请提供的监督目标检测识别方法，可以实现基于选择搜索和空间金字塔池化的弱监督目标检测识别，通过候选区域生成算法和多实例类别交叉优化方法解决弱监督标注问题，最终实现在仅有图像级类别标注条件下的弱监督目标检测识别能力达到预期要求。

参见图4，本申请实施例还可以提供一种监督目标检测识别装置，如图4所示，该装置可以包括：

构建单元401，用于构建第一监督目标检测识别模型；

泛化纹理特征提取单元402，用于通过图像数据集预训练形成的特征提取网络提取待目标识别图像的泛化纹理特征；所述待目标识别图像仅有图像级类别标注；

候选框生成单元403，用于通过选择搜索方法生成所述待目标识别图像中候选区域的候选框；

纹理特征向量抽取单元404，用于通过空间金字塔池化网络自适应抽取所述候选区域的纹理特征向量，对所述候选区域纹理特征向量进行分类和检测处理获得分类结果以及检测结果；

优化单元405，用于利用所述分类结果以及所述检测结果联合优化弱监督目标检测识别模型的图像级类别预测与类别标注之间的交叉熵损失函数。

本申请实施例还可以提供一种监督目标检测识别设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行上述的监督目标检测识别方法的步骤。

如图5所示，本申请实施例提供的一种监督目标检测识别设备，该设备可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本申请实施例中，处理器10可以为中央处理器(Centra l Process i ng Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行监督目标检测识别方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器11中至少存储有用于实现以下功能的程序：

构建第一监督目标检测识别模型；

在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能(比如文件创建功能、数据读写功能)所需的应用程序等；存储数据区可存储使用过程中所创建的数据，如初始化数据等。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图5所示的结构并不构成对本申请实施例中监督目标检测识别设备的限定，在实际应用中监督目标检测识别设备可以包括比图5所示的更多或更少的部件，或者组合某些部件。

本申请实施例还可以提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述的监督目标检测识别方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种监督目标检测识别方法，其特征在于，包括：

构建第一监督目标检测识别模型；

2.根据权利要求1所述的监督目标检测识别方法，其特征在于，所述通过选择搜索方法生成所述待目标识别图像中候选区域的候选框，包括：

通过小尺度窗口搜索所有小候选区域；

3.根据权利要求1所述的监督目标检测识别方法，其特征在于，所述通过空间金字塔池化网络自适应抽取所述候选区域的纹理特征向量，包括：

4.根据权利要求1所述的监督目标检测识别方法，其特征在于，所述图像级类别标注包括采用二进制类别向量表示的图像级类别信息。

5.根据权利要求1所述的监督目标检测识别方法，其特征在于，所述第一监督目标检测识别模型为基于多实例挖掘和协同学习的弱监督目标检测识别模型。

6.根据权利要求1所述的监督目标检测识别方法，其特征在于，构建第二监督目标检测识别模型以及所述第一监督目标检测识别模型之间的协同学习网络模型；

7.一种监督目标检测识别装置，其特征在于，包括：

构建单元，用于构建第一监督目标检测识别模型；

8.一种监督目标检测识别设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的监督目标检测识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6任一项所述的监督目标检测识别方法。