CN112801146B

CN112801146B - 一种目标检测方法及系统

Info

Publication number: CN112801146B
Application number: CN202110039522.2A
Authority: CN
Inventors: 邹腊梅; 乔森; 车鑫; 聂士伟; 李广磊; 连志祥; 严青; 钟胜; 杨卫东
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2024-03-19
Anticipated expiration: 2041-01-13
Also published as: CN112801146A

Abstract

本发明公开了一种目标检测方法和系统，针对目标检测任务需要自注意力关注特定类别目标对应原始图像所在区域的特点，将注意力机制运用于目标检测中，所设计的网络结构不同于通用的元学习网络框架，采用分类分支层所得的类别概率监督与特征提取层连接的类别注意力层，从而引导回归分支层进行目标位置的计算，实现基于类别区分的自监督注意力机制，提升目标检测模型的检测精度。进一步地，结合小样本目标检测任务由于小样本数量较少，网络难以学习到小样本特征的特点，将大样本图像和小样本图像进行拼接，作为样本图像对目标检测模型进行训练，使得网络兼顾学习大样本图像和小样本图像，从提升目标检测模型的对小样本的检测能力。

Description

一种目标检测方法及系统

技术领域

本发明属于计算机视觉和深度学习领域，更具体地，涉及一种目标检测方法及系统。

背景技术

目标检测任务是计算机视觉的基础任务之一，主要任务是对图像中的目标进行分类和定位。现有的目标检测任务基于大量的标注的图像进行训练，限制了某些场景下的应用和推广。因此利用极少的标注数据学习具有一定泛化能力的模型显得尤为重要。基于此，应用较少标注数据的半监督方法和如何利用极少的标注数据学习具有一定泛化能力的模型是更加迫切需要研究的问题。

将注意力机制应用在计算机视觉任务上，可以有效捕捉图像中有用的区域，从而提升整体网络性能。因而，利用注意力机制也可以使网络有选择的进行特征抽取和识别，并有效缓解网络对小样本进行特征抽取的表征困难问题。然而，现有技术通常采用隐式自注意力机制，即注意力所关注信息不具有明确实际意义，导致注意力机制的可解释性较差。同时由于注意力信息没有明确的指向性，导致其存在注意力不集中，注意力混乱和错误等问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种目标检测方法及系统，采用基于类别自监督的显式注意力机制，使网络有选择的进行待识别图像的特征抽取和识别，进而有效缓解网络利用小样本学习的表征困难的问题。

为实现上述目的，按照本发明的一个方面，提供了一种目标检测方法，包括：

将待识别图像输入目标检测模型；

其中，所述目标检测模型是基于样本图像以及对应的类别标签和位置标签进行监督训练后得到；

所述目标检测模型对所述待识别图像进行特征提取，获得特征图；

基于所述特征图生成所述待识别图像的类别概率，并基于所述类别概率输出所述待识别图像的类别；

对所述特征图进行复制，得到与所述类别标签的数量相同的多张特征图；提取所述各特征图通道的注意力权重；将所述类别概率分别与所述各特征图通道的注意力权重进行点乘，得到各特征图通道的类别自监督注意力权重；基于非线性缩放层的非线性加权参数，调整所述各特征图通道的类别自监督注意力权重；将所述各特征图通道的类别自监督注意力权重的最大值，作为所述特征图通道的融合类别自注意力权重；将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘，得到融合类别自监督注意力特征图；

基于所述融合类别自监督注意力特征图，输出所述待识别图像的位置。

优选地，所述样本图像由小样本图像和大样本图像拼接而成。

优选地，所述提取所述各特征图通道的注意力权重，具体为：

对所述多张特征图依次进行线性变换和非线性变换，得到所述各特征图通道的注意力权重。

优选地，所述对所述多张特征图依次进行线性变换和非线性变换，得到各特征图通道的注意力权重，具体为：

将所述多张特征图进行全局池化，压缩所述多张特征图的尺寸，得到多张压缩后的特征图；将所述多张压缩后的特征图输入以级联形式组合的分组全连接层与非线性激活层，以对所述多张特征图依次进行线性变换和非线性变换，得到各特征图通道的注意力权重。

优选地，所述将所述类别概率分别与所述各特征图通道的注意力权重进行点乘，得到各特征图通道的类别自监督注意力权重，具体为：

将所述类别概率进行归一化，得到归一化类别概率；

将所述归一化类别概率分别与所述各特征图通道的注意力权重进行点乘，得到各特征图通道的类别自监督注意力权重。

优选地，所述基于所述特征图生成所述待识别图像的类别概率，具体为：

将所述特征图输入以级联方式连接的卷积层与全连接层，生成所述待识别图像的类别概率；其中，所述卷积层与全连接层之间采用带阻滞的短路连接。

优选地，所述基于所述融合类别自监督注意力特征图，输出所述待识别图像的位置，具体为：

将所述融合类别自监督注意力特征图输入瓶颈层和多分辨率融合层，输出所述待识别图像的位置。

优选地，所述方法还包括：基于损失函数计算所述分类分支层和回归分支层的联合损失，所述损失函数为：

Loss＝ω₁·Loss_cls+ω₂·Loss_reg

其中，Loss_cls为分类损失，Loss_reg为回归损失，ω₁，ω₂为可学习权重参数。

按照本发明的另一方面，提供了一种目标检测系统，包括：

输入模块，用于将待识别图像输入目标检测模型；

输出模块，用于输出所述待识别图像的类别和位置；

其中，所述目标检测模型是基于样本图像以及对应的类别标签和位置标签进行监督训练后得到；所述目标检测模型包括特征提取层及分别与所述特征提取层连接的类别注意力层、分类分支层和回归分支层；

所述特征提取层对所述待识别图像进行特征提取，获得特征图；

所述分类分支层基于所述特征图生成所述待识别图像的类别概率，并基于所述类别概率输出所述待识别图像的类别；

所述类别注意力层对所述特征图进行复制，得到与所述类别标签的数量相同的多张特征图；提取各特征图通道的注意力权重；将所述类别概率分别与所述各特征图通道的注意力权重进行点乘，得到各特征图通道的类别自监督注意力权重；基于非线性缩放层的非线性加权参数，调整所述各特征图通道的类别自监督注意力权重；将所述各特征图通道的类别自监督注意力权重的最大值，作为所述特征图通道的融合类别自注意力权重；将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘，得到融合类别自监督注意力特征图；

所述回归分支层基于所述融合类别自监督注意力特征图，输出所述待识别图像的位置。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，针对目标检测任务需要自注意力关注特定类别目标对应原始图像所在区域的特点，将注意力机制运用于目标检测中，所设计的网络结构不同于通用的元学习网络框架，采用分类分支层所得的类别概率监督与特征提取层连接的类别注意力层，从而引导回归分支层进行目标位置的计算，实现基于类别区分的自监督注意力机制，提升目标检测模型的检测精度。

进一步地，结合小样本目标检测任务由于小样本数量较少，网络难以学习到小样本特征的特点，将大样本图像和小样本图像进行拼接，作为样本图像对目标检测模型进行训练，使得网络兼顾学习大样本图像和小样本图像，从而提升神经网络的训练的稳定性，同时更有效的增强神经网络的泛化性能，有效缓解网络在训练小样本时收敛困难的问题；有效解决大样本与小样本对网络造成的拮抗干扰，提升目标检测模型的对小样本的检测能力。

进一步地，分类分支层采用以级联方式连接的卷积层与全连接层，能够提升网络高级抽象表征能力，从而提升分类准确率。回归分支层由瓶颈层和多分辨率层组成，能够融合不同分辨率的语义信息，有效提升网络对不同尺度图像的分类回归的准确率。

附图说明

图1是本发明提供的目标检测模型的网络结构示意图；

图2是本发明提供的瓶颈层的网络结构示意图；

图3是本发明提供的多分辨率融合层的网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例提供一种目标检测方法，包括：

将待识别图像输入目标检测模型；

具体地，如图1所示，所述目标检测模型包括特征提取层、类别注意力层、分类分支层和回归分支层。

所述特征提取层对所述待识别图像进行特征提取，获得特征图。

可选地，所述特征提取层包括卷积层和短路连接层，用于提取待识别图像的特征图。

具体地，所述卷积层为1×1卷积，采用1×1卷积将特征的通道数降低，有效减少网络参数量。在不同的网络层之间设置短路连接层，并且在短路分支设置3×3卷积以实现带阻滞的短路连接。

所述分类分支层基于所述特征图生成所述待识别图像的类别概率，并基于所述类别概率输出所述待识别图像的类别。

进一步地，所述类别注意力层包括通道复制单元、注意力生成单元、类别自监督单元和注意力加权单元。

通道复制单元对所述特征图进行复制，得到与所述类别标签的数量相同的多张特征图，输出至注意力生成单元。

注意力生成单元对所述多张特征图依次进行线性变换和非线性变换，得到各特征图通道的注意力权重，输出至类别自监督单元。

可以理解的是，所述特征图通道即特征通道，表示图像不同层次的语义特征。

类别自监督单元将所述类别概率分别与所述各特征图通道的注意力权重进行点乘，得到各特征图通道的类别自监督注意力权重，输出值注意力加权单元。

注意力加权单元将所述各特征图通道的类别自监督注意力权重输入非线性缩放层，基于所述非线性缩放层的非线性加权参数，调整所述各特征图通道的类别自监督注意力权重，以提升其对分类分支层所生成的预测类别概率噪声的自适应能力；然后，将所述各特征图通道的类别自监督注意力权重的最大值，作为所述特征图通道的融合类别自注意力权重，以大幅提升召回率；将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘，得到融合类别自监督注意力特征图。

例如：在15个类别的特征图中，若通道1的类别自监督注意力权重分别为0.1、0.8(最大值)、……、0.3，则取通道1分别在15个类别的特征图中的权重的最大值0.8，作为待识别图像的特征图中，通道1的融合类别自注意力权重。

所述融合类别自监督注意力特征图为多层金字塔特征图，每层特征图均由该层融合类别自监督注意力权重与该层特征提取层提取的特征图的通道点乘得到。

本发明实施例提供的方法，针对目标检测任务需要自注意力关注特定类别目标对应原始图像所在区域的特点，将注意力机制运用于目标检测中，所设计的网络结构不同于通用的元学习网络框架，采用分类分支层所得的类别概率监督与特征提取层连接的类别注意力层，从而引导回归分支层进行目标位置的计算，实现基于类别区分的自监督注意力机制，提升目标检测模型的检测精度。

基于上述实施例，可选地，所述样本图像由小样本图像和大样本图像拼接而成。

具体地，本发明实施例中，小样本图像指数量(例如：个位数)较少的样本图像，大样本图像指数量(例如：十位数、百位数或千位数等)较多的样本图像。

将PASCAL VOC数据按照一定比例划分，将样本图像数据集划分为N类小样本新颖类别和M类大样本类别，并将所述样本图像数据集对应的标注数据进行划分作为标签数据。对所述样本图像数据集进行小样本新颖类别的数据抽取，选取小样本新颖类别中的少部分样本作为训练集，其余部分标记为测试集。大样本类别按照一定比例划分训练集与测试集。

可选地，将VOC数据集按照1:3的比例划分，将样本图像数据集划分为5类小样本新颖类别和15类大样本类别，并将所述样本图像数据对应的标注数据进行划分作为标签数据。对所述数据进行小样本新颖类的数据抽取，选取小样本新颖类中的少部分样本，分别为1、5、10个，其余部分标记为测试集；大样本类别按照2:1划分训练集与测试集。

可选地，采用验证集对所述目标检测模型进行准确率和召回率验证。

所述样本图像由小样本图像和大样本图像拼接而成；其中，小样本图像的数量N和大样本图像的数量M可根据需要进行设置，本发明实施例对此不作具体限定；将小样本图像和大样本图像进行拼接所采用的方法可根据需要进行选择，例如：马赛克方式，本发明实施例对此不作具体限定。

可选地，从小样本图像中选取1张图像，再从大样本图像中选取3张图像，进行图像缩放变换使得其尺寸保持一致。图像拼接具体包括：设置图像蒙版，大小为初始尺寸长和宽的两倍，进行图像拼接，将拼接之后的图像缩放为图像蒙版尺寸的1/2。随机在图像蒙版上选取一中心点，依次以所述中心点为贴图中心进行图像拼接。贴图对象分别为1张小样本图像和3张大样本图像，贴图中心分别与左上方图像的右下角坐标，右上方图像的左下角坐标，左下方图像的右下角坐标，右下方图像的左上角坐标重合。

可选地，在采用样本图像数据训练目标检测模型之前，还包括：

对所述样本图像数据进行预处理，获得预处理后的样本图像数据；其中，所述预处理包括：旋转、翻转、缩放、随机裁剪和HSV(Hue Saturation Value)变换。

在采用样本图像数据训练目标检测模型之前，通过对所述样本图像数据进行预处理，实现数据增强，从而提高目标检测模型的精度。

基于大量公开样本图像数据集对所述目标检测模型的特征提取层进行分类任务的预训练，以提高模型的收敛速度，进一步地，在预训练完成之后将特征提取层分别与类别注意力层、分类分支层和回归分支层相连接。

本发明实施例提供的方法，结合小样本目标检测任务由于小样本数量较少，网络难以学习到小样本特征的特点，将大样本图像和小样本图像进行拼接，作为样本图像对目标检测模型进行训练，使得网络兼顾学习大样本图像和小样本图像，从而提升神经网络的训练的稳定性，同时更有效的增强神经网络的泛化性能，有效缓解网络在训练小样本时收敛困难的问题；有效解决大样本与小样本对网络造成的拮抗干扰，提升目标检测模型的对小样本的检测能力。

基于上述任一实施例，可选地，所述提取所述各特征图通道的注意力权重，具体为：

基于上述任一实施例，可选地，所述对所述多张特征图依次进行线性变换和非线性变换，得到各特征图通道的注意力权重，具体为：

具体地，注意力生成单元将所述多张特征图进行全局池化，压缩所述多张特征图的尺寸，得到多张压缩后的特征图；将所述多张压缩后的特征图输入以级联形式组合的分组全连接层与非线性激活层，以对通道复制单元生成的所述多张特征图依次进行线性变换和非线性变换，得到各特征图通道的注意力权重，输出至类别自监督单元。

例如：假设类别标签的数量为15，则将特征提取层提取的待识别图像的特征图进行复制，得到15张尺寸为W×H的特征图；将15张特征图进行全局池化，压缩所述多张特征图的尺寸，将所述多张特征图的尺寸从W×H变为1×1，得到15张压缩后的特征图，通道数不变；将所述15张压缩后的特征图输入以级联形式组合的分组全连接层与非线性激活层，依次行线性变换和非线性变换，得到15张特征图中各个通道的注意力权重。

可选地，将所述多张压缩后的特征图输入以级联形式组合的2个分组全连接层与1个非线性激活层，以对所述多张特征图依次进行2次线性变换和1次非线性变换，得到各特征图通道的注意力权重。

可选地，所述将所述多张特征图进行全局池化，具体为：

将所述多张特征图进行全局平均池化；

或，将所述多张特征图进行全局最大池化。

可选地，所述将所述多张特征图进行全局池化，压缩所述多张特征图的尺寸，得到多张压缩后的特征图之前，还包括：

对所述多张特征图进行卷积操作。

基于上述任一实施例，可选地，所述将所述类别概率分别与所述各特征图通道的注意力权重进行点乘，得到各特征图通道的类别自监督注意力权重，具体为：

将所述类别概率进行归一化，得到归一化类别概率；

具体地，类别自监督单元将分类分支层输出的类别概率通过归一化指数函数进行归一化以增强类别之间的差异，得到归一化类别概率；将所述归一化类别概率分别与所述各特征图通道的注意力权重进行点乘，得到各特征图通道的类别自监督注意力权重，输出至注意力加权单元。

基于上述任一实施例，可选地，所述基于所述特征图生成所述待识别图像的类别概率，具体为：

具体地，分类分支层包括以级联方式连接的卷积层与全连接层，用于生成所述待识别图像的类别概率；其中，全连接层用以提升网络高级抽象表征能力；所述卷积层与全连接层之间采用带阻滞的短路连接，以进一步提高类别概率的预测精度。

基于上述任一实施例，可选地，所述基于所述融合类别自监督注意力特征图，输出所述待识别图像的位置，具体为：

具体地，回归分支层包括瓶颈层和多分辨率融合层，如图2所示，所述瓶颈层由1×1卷积、3×3卷积和1×1卷积组合而成，1×1卷积用于进行特征抽取，3×3卷积实现通道压缩，压缩通道为原本通道数的1/K，K为通道缩放倍数，用以减少参数量并缓解过拟合。

如图3所示，所述多分辨率融合层采用7×7、5×5、3×3卷积并联，可融合多尺度语义信息，进而融合不同分辨率的语义信息，有效提升网络对不同尺度图像的分类回归准确率。

本发明实施例提供的方法，目标检测模型的架构采用瓶颈层、带阻滞的短路连接和随机屏蔽的全连接层。上述结构具有良好的表征能力与防止过拟合的能力，有效缓解了小样本目标检测中训练易过拟合的问题。

基于上述任一实施例，可选地，所述方法还包括：基于损失函数计算所述分类分支层和回归分支层的联合损失，所述损失函数为：

Loss＝ω₁·Loss_cls+ω₂·Loss_reg

具体地，为了缓解分类和回归由于注意力机制所带来的损失不平衡问题，采用权重自学习的分类回归联合损失。

下面对本发明提供的目标检测系统进行描述，下文描述的目标检测系统与上文描述的目标检测系统方法可相互对应参照。

基于上述任一实施例，本发明实施例提供一种目标检测系统，包括：

输入模块，用于将待识别图像输入目标检测模型；

输出模块，用于输出所述待识别图像的类别和位置；

所述类别注意力层对所述特征图进行复制，得到与所述类别标签的数量相同的多张特征图；提取各特征图通道的注意力权重；将所述类别概率分别与所述各特征图通道的注意力权重进行点乘，得到各特征图通道的类别自监督注意力权重；将所述各特征图中通道的类别自监督注意力权重的最大值，作为所述特征图通道的融合类别自注意力权重；将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘，得到融合类别自监督注意力特征图；

基于上述任一实施例，可选地，所述样本图像由小样本图像和大样本图像拼接而成。

本发明提供的目标检测系统，可用于执行上述各目标检测方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

将待识别图像输入目标检测模型；

基于所述融合类别自监督注意力特征图，输出所述待识别图像的位置；

所述提取所述各特征图通道的注意力权重，具体为：

对所述多张特征图依次进行线性变换和非线性变换，得到所述各特征图通道的注意力权重；

所述对所述多张特征图依次进行线性变换和非线性变换，得到各特征图通道的注意力权重，具体为：

2.如权利要求1所述的目标检测方法，其特征在于，所述样本图像由小样本图像和大样本图像拼接而成。

3.如权利要求1所述的目标检测方法，其特征在于，所述将所述类别概率分别与所述各特征图通道的注意力权重进行点乘，得到各特征图通道的类别自监督注意力权重，具体为：

将所述类别概率进行归一化，得到归一化类别概率；

4.如权利要求1所述的目标检测方法，其特征在于，所述基于所述特征图生成所述待识别图像的类别概率，具体为：

5.如权利要求1所述的目标检测方法，其特征在于，所述基于所述融合类别自监督注意力特征图，输出所述待识别图像的位置，具体为：

6.如权利要求1所述的目标检测方法，其特征在于，所述方法还包括：基于损失函数计算所述分类分支层和回归分支层的联合损失，所述损失函数为：

Loss＝ω₁·Loss_cls+ω₂·Loss_reg

7.一种目标检测系统，其特征在于，包括：

输入模块，用于将待识别图像输入目标检测模型；

输出模块，用于输出所述待识别图像的类别和位置；

所述回归分支层基于所述融合类别自监督注意力特征图，输出所述待识别图像的位置；

所述提取所述各特征图通道的注意力权重，具体为：

8.如权利要求7所述的目标检测系统，其特征在于，所述样本图像由小样本图像和大样本图像拼接而成。