CN115908809A

CN115908809A - 一种基于尺度分治的目标检测方法及系统

Info

Publication number: CN115908809A
Application number: CN202211495300.2A
Authority: CN
Inventors: 史殿习; 刘洋洋; 周晨磊; 史燕燕; 乔子腾; 胡浩萌
Original assignee: Tianjin Binhai Artificial Intelligence Innovation Center
Current assignee: Tianjin Binhai Artificial Intelligence Innovation Center
Priority date: 2022-11-26
Filing date: 2022-11-26
Publication date: 2023-04-04

Abstract

本发明提供了一种基于尺度分治的目标检测方法及系统，包括：特征提取模块，提取输入图像数据的特征，并将选择性裁剪模块裁剪后的图片进行特征提取；尺度特征选择模块，处理特征得到大中小物体各自的尺度特征图；选择性裁剪模块，基于大中小物体各自的尺度特征图获取目标中心位置按设定尺寸裁剪，将裁剪后的图片输入到特征提取模块；预测模块，将特征图经过角点池化层或中心点池化得到关键点的热图、嵌入向量和偏移向量；关键点配对模块，将关键点的热图、嵌入向量和偏移向量配对得到检测候选框。本发明采用构建尺度分治目标检测系统的方法，解决现有技术检测精度差的问题，降低了漏检的概率，同时提升了检测的精准度，有效减少错误检测的预测框。

Description

一种基于尺度分治的目标检测方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于尺度分治的目标检测方法及系统。

背景技术

目标检测作为计算机视觉领域的重要研究方向，是视觉感知的第一步，通常是在图像中搜寻出感兴趣的目标的位置，分别出其种类，并以回归边框的形式包围目标区域。由于卷积神经网络的提出和应用，深度学习算法在计算机目标检测得到了广泛的应用和发展，目标检测越来越受到人们关注。然而，目标检测在处理目标尺度形变和遮挡问题时仍存在较多问题，因此多尺度问题成为一个关键的有待解决的问题。

多尺度检测算法大致可以分为图像金字塔和特征金字塔两种方式。作为改进检测效果常用的方法，图像金字塔主要以输入图像的多尺度为出发点，旨在更有效地执行多尺度训练。尺度图像的输入不可避免的带来更多的算力消耗和时间成本，在实际应用中内存与时间开销问题越发突出。然而，图像金字塔方法不是获得多个特征的唯一方法；在CNN模型中利用特征金字塔的力量更有效、更自然。国际计算机视觉和模式识别会议上发表的文章《Feature pyramid networks for object detection》通过结合浅层特征和深层特征，构建了语义丰富的特征金字塔。国际计算机视觉和模式识别会议发表的文章《You OnlyLook One-level Feature》通过实验证实，多尺度特征融合在FPN中不是关键的功能，FPN能够有效提升模型精度源自于将检测优化问题分而治之，而不是单纯的多尺度特征融合。

多尺度检测算法一个主要缺点在于需要更多的计算资源。由于尺度的多样性，不论是输入特征的多尺度还是不同特征的深度融合，都会需要更多的计算资源。此外，现阶段的目标检测算法为了追求更高的精准度，大多数都采用了层数很深的神经网络，或者分辨率更高的图像输入，这不可避免的带来高昂的计算代价。现有的一些使用低计算资源的目标检测算法普遍采用轻量级的网络结构，与深层网络结构构建的目标检测算法相比，在检测精度上有较大的差距。

因此，如何充分利用尺度信息，在不降低检测精准度的同时，提供一种计算代价更小的目标检测方法，是本领域技术人员正在探讨的热点问题。

发明内容

为了解决现有技术普遍采用轻量级的网络结构，在检测精度上有较大的差距，多尺度目标检测算法的计算代价高的问题，本发明提供了一种基于尺度分治的目标检测方法，包括：特征提取模块、尺度特征选择模块、选择性裁剪模块、预测模块和关键点配对模块；

所述特征提取模块，用于提取输入图像数据的特征，并将所述特征传输至所述尺度特征选择模块，并将所述选择性裁剪模块裁剪后的图片进行特征提取得到特征图，同时，将所述特征图传输至所述预测模块；

所述尺度特征选择模块，用于处理所述特征得到大中小物体各自的尺度特征图，并将所述大中小物体各自的尺度特征图传输至所述选择性裁剪模块；

所述选择性裁剪模块，用于基于所述大中小物体各自的尺度特征图获取目标中心位置并按设定尺寸进行裁剪，将所述裁剪后的图片输入到所述特征提取模块；

所述预测模块，用于将所述特征图经过角点池化层或中心点池化得到关键点的热图、嵌入向量和偏移向量，并将所述关键点的热图、嵌入向量和偏移向量传输至所述关键点配对模块；

所述关键点配对模块，用于将所述关键点的热图、嵌入向量和偏移向量进行配对得到检测候选框。

优选的，所述特征提取模块包括：第一部分和第二部分；

所述第一部分包括一个54层的沙漏型网络，用于提取输入图像数据的特征，并将所述特征传输至所述尺度特征选择模块；

所述第二部分包括2个54层的沙漏型网络，用于将所述选择性裁剪模块裁剪后的图片进行特征提取，同时，将提取出的特征图传输至所述预测模块。

优选的，所述沙漏型网络包括：卷积和最大池化层、跳过层；

所述卷积层和最大池化层，用于输入特征的下采样任务，然后通过上采样和卷积再将特征上采样至原分辨率；

所述跳过层，用于对所述上采样至原分辨率的特征进行补充。

优选的，所述跳过层包括：两个残差模块；

所述残差模块，用于对输入特征和上采样后的特征进行提取。

优选的，所述残差模块包括：3×3卷积、批标准化模块、激活函数和1×1的卷积；

所述3×3卷积，用于特征提取；

所述批标准化模块，用于将数据统一分布；

所述激活函数，用于对数据去线性化；

所述1×1的卷积，用于改变上下采样中的特征通道数。

优选的，所述选择性裁剪模块具体用于：

基于所述大中小物体各自的尺度特征图得到目标中心位置；

基于所述目标中心位置以设定的目标尺寸对图片进行放大并裁剪至统一尺寸，将所述裁剪后的图片传输至特征提取模块得到特征图。

优选的，所述预测模块包括：修改后的残差模块、1个256通道的3×3的卷积、批标准化、激活函数的模块和3个256通道的卷积、激活函数、卷积模块。

优选的，所述修改后的残差模块包括：主干网络、角点池化层或中心点池化层；

所述主干网络，用于处理所述特征；

所述角点池化层，用于确定所述特征图的左上角点和右下角点；

所述中心点池化层，用于确定所述特征图的中心点，增强中心点信息。

优选的，所述关键点配对模块具体用于：

基于所述关键点的热图以左上角点、右下角点和中心点作为三种关键点对；

基于所述关键点的嵌入向量小于设定阈值得到候选框，并基于候选框的大小为大小不同的目标设定对应的中心匹配区域；

基于所述中心匹配区域结合关键点的偏移向量将所述关键点对从热图映射回输入图像，得到检测候选框对目标位置进行检测。

基于同一发明构思本发明还提供了一种基于尺度分治的目标检测模型的建模方法，包括：

通过特征提取模块提取输入图像数据的特征，并将选择性裁剪模块裁剪后的图片进行特征提取得到特征图；

通过尺度特征选择模块处理所述特征得到大中小物体各自的尺度特征图；

通过选择性裁剪模块基于所述大中小物体各自的尺度特征图获取目标中心位置并按设定尺寸进行裁剪得到裁剪后的图片；

通过预测模块将所述特征图经过角点池化层或中心点池化得到关键点的热图、嵌入向量和偏移向量；

通过关键点配对模块将所述关键点的热图、嵌入向量和偏移向量进行配对得到检测候选框。

优选的，所述通过特征提取模块提取输入图像数据的特征，并将选择性裁剪模块裁剪后的图片进行特征提取得到特征图，包括：

通过特征提取模块的第一部分提取输入图像数据的特征；

通过特征提取模块的第二部分将所述选择性裁剪模块裁剪后的图片进行特征提取得到特征图。

优选的，所述通过预测模块将所述特征图经过角点池化层或中心点池化得到关键点的热图、嵌入向量和偏移向量，包括：

通过预测模块的修改后的残差网络中的主干网络进行特征处理；

通过预测模块修改后的残差网络中的角点池化层或中心点池化层对所述特征图进行角点池化或中心点池化得到关键点的热图、嵌入向量和偏移向量。

基于同一发明构思本发明还提供了一种基于尺度分治的目标检测方法，包括：

获取待测的图像数据；

将所述待测的图像数据输入到预先训练的尺度分治的目标检测模型中得到目标位置及分类；

其中，所述多尺度分治的目标检测模型是利用上述的一种基于尺度分治的目标检测模型的建模方法构建的。

优选的，所述尺度分治的目标检测模型的训练包括：

对获取的图像数据进行处理，并将处理后的图像数据构建训练集和验证集；

将所述训练集中的图像数据输入到特征提取模块中的第一部分得到的输出量输入到尺度特征选择模块，得到大中小物体各自的尺度特征图；

将所述大中小物体各自的尺度特征图输入到选择性裁剪模块按设定尺寸裁剪得到目标候选区域，并将所述目标候选区域输入到特征选择模块的第二部分得到特征图；

将所述特征图输入到预测模块中结合角点池化层和中心点池化得到关键点的热图、嵌入向量和偏移向量；

将所述关键点的热图、嵌入向量和偏移向量输入到关键点配对模块中进行配对得到检测候选框；

基于所述检测候选框对输入的任一图像数据进行检测得到目标位置及类别。

与现有技术相比，本发明的有益效果为：

本发明提供了一种基于尺度分治的目标检测方法及系统，包括：特征提取模块，用于提取输入图像数据的特征，并将特征传输至所述尺度特征选择模块，并将选择性裁剪模块裁剪后的图片进行特征提取得到特征图；尺度特征选择模块，用于处理特征得到大中小物体各自的尺度特征图；选择性裁剪模块，用于基于大中小物体各自的尺度特征图获取目标中心位置并按设定尺寸进行裁剪，将裁剪后的图片输入到特征提取模块；预测模块，用于将特征图经过角点池化层或中心点池化得到关键点的热图、嵌入向量和偏移向量；关键点配对模块，用于将关键点的热图、嵌入向量和偏移向量进行配对得到检测候选框。本发明采用构建多尺度的目标检测系统对检测图像进行预测，解决了现有技术普遍采用轻量级的网络结构，在检测精度上有较大的差距，多尺度目标检测算法的计算代价高的问题，能够检测到各种尺度的物体，降低了漏检的概率，提升了检测的精准度，有效减少了错误检测的预测框。

附图说明

图1是本发明提供的一种基于尺度分治的目标检测模型图；

图2是本发明构建的基于尺度分治的目标检测系统的逻辑结构图；

图3是本发明的一种基于尺度分治的目标检测模型的建模方法流程图；

图4是本发明的一种基于尺度分治的目标检测方法流程图；

图5是本发明的总体流程图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

实施例1：

本发明提供一种基于尺度分治的目标检测模型,如图1所示，包括：

所述特征提取模块具体用于：

特征提取模块为一个深度卷积神经网络，特征提取模块分为两部分。

第一部分为一个54层的沙漏型网络，该网络主要是由残差模块堆叠组成。

沙漏型网络包括：卷积和最大池化层、跳过层；

沙漏型网络由一系列卷积和最大池化层完成输入特征的下采样任务，然后通过上采样和卷积再将特征上采样至原分辨率。由于在最大池化层中容易出现细节的丢失，采用添加跳过层的方式将细节补充到上采样的特征。

每一个基础沙漏模块都包含特征下采样和特征上采样两个阶段。在下采样阶段模型使用步长2的池化而不是最大池来降低特征分辨率，减少了3倍特征分辨率，增加了特征通道数384，384，512。在特征上采样阶段由2个残差模块构成，然后是一个最近上采样模块。

此外，每个跳跃连接还包含2个残差模块。

所述跳过层包括：两个残差模块；

残差模块使用的是一个3×3卷积、批标准化模块、激活函数，之后连接一个3×3卷积和批标准化模块，并将其输出与通过1×1的卷积处理后的输入相加。特征提取模块第一部分的输出为3个不同深度的特征Fs，Fm和Fl。第二部分由两个54层沙漏型网络堆叠组成，具体结构与第一部分一致。

残差模块包括：3×3卷积、批标准化模块、激活函数和1×1的卷积；

所述3×3卷积，用于特征提取；

所述批标准化模块，用于将数据统一分布；

所述激活函数，用于对数据去线性化；

所述1×1的卷积，用于改变上下采样中的特征通道数。

所述第二部分包括2个54层的沙漏型网络，用于将所述选择性裁剪模块裁剪后的图片进行特征提取，同时，将提取出的特征图传输至所述预测模块；

第二部分与选择性裁剪模块和预测模块相连，裁剪模块裁剪后的图像输入第二部分特征提取，并将特征提取得到的结果输入预测模块进行图像目标预测。

尺度特征选择模块具体用于：

尺度特征选择模块与特征提取模块的第一部分和选择性裁剪模块相连。对特征提取模块得到的不同深度特征Fs，Fm和Fl，分别通过一个3×3的卷积层和一个1×1的卷积层，生成大中小目标的各自的注意力特征图。

选择性裁剪模块具体用于：

选择性裁剪模块与特征选择模块和特征提取模块的第二部分相连。

基于所述大中小物体各自的尺度特征图得到目标中心位置；

通过尺度特征选择模块得到的注意力特征图可以分析出目标中心点的大致位置(x,y)，可以针对不同尺寸的目标设置不同的放大尺寸。

如果一个目标物的较长边的像素小于32，则被视为小目标，32到96的视为中等目标，大于96的是大目标。Ss代表小目标的缩放尺寸，Sm代表中等目标的缩放尺寸，Sl代表大目标的缩放尺寸。

为了更好的预测不同尺寸的物体，对于可能存在的位置(x,y)，根据大致的目标尺寸，按照Si的比例对图片进行放大，i∈{s,m,l}。以(x,y)为中心对放大后的图片进行裁剪，统一裁剪至255×255。然后将裁剪后的图片输入特征提取模块的第二部分。

预测模块具体用于：

预测模块与特征提取模块的第二部分和关键点配对模块相连。预测模块首先由一个修改后的残差模块构成；

修改后的残差模块包括：主干网络、角点池化层或中心点池化层；

所述主干网络，用于处理所述特征；

在这个残差模块中，第一个卷积模块被替换成角点池化层或者中心点池化层。具体来说，首先通过2个具有128通道的3×3卷积模块的主干网络进行特征处理，然后再应用一个角点池化层或中心点池化层。残差模块之后，经过池化后的特征输入具有256个通道的3×3的卷积和批标准化模块，输出结果与池化前的特征相加。修改后的残差模块之后跟一个具有256通道的3×3的卷积、批标准化、激活函数的模块，和3个256通道的卷积、激活函数、卷积模块。裁剪后的图片经过特征提取的第二部分后得到特征输出F，F经过角点池化模块和中心点池化模块分别得到角点(左上角和右下角)的热图

偏移向量

和嵌入向量

以及中心点的热图

和偏移向量

关键点配对模块具体用于：

关键点配对模块与预测模块相连。从预测模块得到的热图

中抽取的三种关键点的集合，分别是左上角点tl，右下角点br，中心点c。

首先根据简单的几何关系和类别信息去除不合理的关键点对，即同一关键点对的类别应该一致，并且左上角点(tl_x,tl_y)和右下角点(br_x,br_y)满足tl_x<br_x，tl_y<br_y。然后根据嵌入向量

去除不合理的关键点对，只有当嵌入向量的距离

小于一个阈值τ时才会产生一个候选框。之后，通过左上角点(tl_x,tl_y)和右下角点(br_x,br_y)可计算出几何中心

我们发现边界框中中心区域的大小会影响检测结果。

为此，我们为小物体设计了较为宽松的匹配策略，即中心区域的相对范围更广，相应的，大物体的中心区域要小些。根据边框大小，为大中小不同的目标采取不同的中心匹配区域，中心区域表示为R_c＝{(x,y)|ctl_x≤x≤cbr_x,ctl_y≤y≤cbr_y}。具体来说，边界框j的坐标(tl_x,tl_y)和(br_x,br_y)与其中心区域的坐标应该满足：

图像中的(i,j)位置被映射到热图中的位置为

其中n是下采样因子。

下采样层用来收集全局信息和减少内存使用，输出图像尺寸往往小于原图像，当将热力图中的位置重新映射回输入图像时，容易照成精度的丢失，这会很大程度上影响小边界框与真值(ground-truth)之间的交并比IoU。为了解决这一问题，该模型运用位置偏移，调整角的位置，然后再映射回输入分辨率的图像。

其中，o_k是位置偏移量，x_k和y_k是关键点k的x和y的坐标。对于匹配得到的关键点对，根据偏移向量

和

将关键点从热图映射回输入图像，对目标准确位置进行精修，确保最终的边界框的位置更加接近真实值，具体如图2所示。

实施例2：

基于同一种发明构思本发明还提供了一种基于尺度分治的目标检测模型的建模方法，如图3所示，包括：

步骤1中对通过特征提取模块提取输入图像数据的特征，并将选择性裁剪模块裁剪后的图片进行特征提取得到特征图，包括：

通过特征提取模块的第一部分提取输入图像数据的特征；

图像输入首先通过特征提取模块来获取特征图，特征提取模块为一个深度卷积神经网络，特征提取模块分为两部分。第一部分为一个54层的沙漏型网络，该网络主要是由残差模块堆叠组成。

步骤2中对通过尺度特征选择模块处理所述特征得到大中小物体各自的尺度特征图，包括：

特征提取模块的第一部分的后三层输出特征Fs，Fm和Fl分别通过尺度特征选择模块获得大中小物体各自的尺度特征图。

步骤3中对通过选择性裁剪模块基于所述大中小物体各自的尺度特征图获取目标中心位置并按设定尺寸进行裁剪得到裁剪后的图片，包括：

选择性裁剪模块根据上述信息对输入图像进行裁剪，目标物的位置为中心将图像裁剪至255×255。裁剪得到的目标候选区域被输入至特征提取模块的第二部分进行更为精确的特征提取。特征提取得到的特征图被输入预测模块。

步骤4中对通过预测模块将所述特征图经过角点池化层或中心点池化得到关键点的热图、嵌入向量和偏移向量，包括：

预测模块首先由一个修改后的残差模块构成，裁剪后的图片经过特征提取的第二部分后得到特征输出F，F经过角点池化模块和中心点池化模块分别得到角点(左上角和右下角)的热图

偏移向量

和嵌入向量

以及中心点的热图

和偏移向量

角点池化模块用于处理左上角点和右下角点。为了要判断(i,j)位置是否为左上角。设f_t、f_l为左上角池化层的输入特征映射，

分别为(i,j)位置处f_t、f_l的向量。在H×W的特征映射中，角点池化层首先最大池化f_t中(i,j)与(i,H)之间的所有特征向量，得到特征向量t_ij，t表示向上，t_ij表示(i,j)和(i,H)之间的所有特征向量最大池化的特征向量，l_ij表示(i,j)和(W,j)之间的所有特征向量最大池化后的特征向量。同样地，最大池化f_l中(i,j)与(W,j)之间的所有特征向量，得到特征向量l_ij。最后将t_ij与l_ij通过下面公式加在一起。

中心点池化模块用于处理中心点，以增强中心点信息。通过结合不同方向的角点池化，可以很容易地实现中心池化，先沿着边界寻找最大值，同时从最大值位置向中心方向寻找最大值，将二者相加。要确定特征图中的一个像素是否为中心关键点，需要在其水平和垂直方向上都找到最大值并相加。

步骤5中对通过关键点配对模块将所述关键点的热图、嵌入向量和偏移向量进行配对得到检测候选框，包括：

关键点配对模块完成关键点的分组，生成检测候选框。对于匹配得到的关键点对，根据偏移向量

和

将关键点从热图映射回输入图像，对目标准确位置进行精修，确保最终的边界框的位置更加接近真实值。

实施例3：

基于同一种发明构思本发明还提供了一种基于尺度分治的目标检测方法，如图4所示，包括：

步骤A1获取待测的图像数据；

步骤A2将所述待测的图像数据输入到预先训练的尺度分治的目标检测模型中得到目标位置及分类别；

步骤A1中对获取待测的图像数据，包括：

数据处理。对数据集进行划分，通过图像增强、图像数据扩充等方法对训练数据进行处理，处理后的数据用于训练目标检测系统的网络参数。在数据集划分时，将MS-COCO2017的训练集和35K验证集的图像作为训练数据，剩下的5K验证集用于参数调整和消融实验。MS-COCO 2017数据集中没有直接的中心点标注，为了使得不同的特征处理特定大小的目标物体，在训练时使用的数据标签页应该与注意力图类似，即将边界框的中心置1，其它地方置0。

步骤A2中对将所述待测的图像数据输入到预先训练的尺度分治的目标检测模型中得到目标位置及分类别，包括：

获得需要检测的图像I；

将训练得到的目标检测系统的网络参数载入到目标检测系统中；

在测试的时候，在预处理阶段是将图像的长边缩放至三种尺度，分别是192，255和332。将多尺度的图片信息输入至特征提取模块的第一部分，通过尺度特征选择模块得到大中小目标各自的特征图。

从特征图预测的边界框中得到的位置包含更多目标物的尺寸信息。可以利用得到的边界框的尺寸来确定缩放大小。特征图中得到的位置来确定哪里需要进行处理。首先在可能存在目标物的小范围内检测，它采用下采样后的小图像来预测注意力图和大致边界框，从而大致提出目标物可能存在位置。在测试过程中，只处理特征图分数大于0.23的位置。

根据目标可能存在的位置，我们通过选择性裁剪，以目标中心位置为裁剪中心将输入图像裁剪至255×255。对于每一个裁剪后的输入图像，我们将其输入至特征提取模块的第二部分，输出得到三组H×W×C的热图，分别表示左上角、右下角和中心点，其中H×W表示大小，C为通道数，也可以理解为分类的数量，每个通道都是一个二进制的掩码，用来表示该类关键点的位置。

在得到目标物关键点的位置后，根据其分数及由边界框得到的先验位置来对位置进行排序，给定处理图像的最大数量kmax，在前kmax的目标物的位置上进行物体检测。从热图中挑选出得分最高的前32个左上、右下和中心点，并通过关键点配对模块生成相应的候选框。

最后，合并边界框并运用了soft-nms去抑制冗余检测。

在步骤A2之前还包括尺度分治的目标检测模型的训练：

采用训练数据集中的图片对目标检测系统进行训练，具体步骤为：

将输入分辨率设置为255×255，使用的批处理大小batchsize＝38，迭代总次数iteration设置为500K，初始化学习率lr设置为2.5×10^-4。

采用随机初始化方法对第一步构建的目标检测网络模型进行参数初始化。

将训练数据集中的第k张至第(k+batchsize)张图片输入到目标检测系统中，使用Adam优化器使损失函数最小化，基于训练数据迭代地更新神经网络权重。所述损失函数采用CornerNet(见文献“Cornernet:Detecting objects as paired keypoints.”Proceedings of the European conference on computer vision 2018.Hei Law等人的论文：角点网络：将对象检测为成对的关键点)中损失函数的基本设计思路，在此基础上增加了注意力损失用于将特征层进行多尺度的单独处理。

L＝L_det+αL_pull+βL_push+γL_off+θL_att

总的损失函数由回归损失L_det，分组损失L_pull、L_push，偏移损失L_of，尺度注意力损失L_att组成。其中回归损失用于训练网络来检测角点和中心关键点。L_pull是角点的“拉”损失，用于最小化属于相同对象的嵌入向量的距离。L_push是角点的“推进”损失，用于最大化属于不同对象的嵌入向量的距离。L_off用于训练网络预测角点和中心关键点的偏移。α,β,γ分别表示损失函数L_pull,L_push,L_off的权值系数，实验中设置α,β为0.1，γ为1。与CornerNet有所不同，由于我们的输出为3个关键点，所以在计算回归和偏移损失的时候，会计算中心点的相关损失。

多尺度注意力损失函数采用交叉熵损失函数进行设计，其中v_cij表示预测的注意力图在c通道的(i,j)位置的值，y_cij表示对应位置的真值。权重θ的设计是为了避免多尺度注意力损失对整体损失产生较大的影响，N表示一张图像中目标的数量。

若iteration<450K，令iteration＝iteration+1；若450K≤iteration≤480K，令lr＝2.5×10^-5，iteration＝iteration+1；若iteration>480K，令lr＝1×10^-5，iteration＝iteration+1。

将各个模块更新所得的参数作为最终的目标检测系统的网络参数。

实施例3：

下面是对一种基于尺度分治的目标检测方法更详细的介绍：

步骤S1：构建多尺度目标检测系统。该系统由特征提取模块、尺度特征选择模块、选择性裁剪模块、预测模块、关键点配对模块组成。

图像输入首先通过特征提取模块来获取特征图。特征提取模块的主干网络的采用沙漏网络，其中第一部分是由一个54层的沙漏网络构成，第二部分是由两个54层的沙漏网络级联组成，在连接时采用一个1×1卷积、3×3卷积、1×1卷积及跳跃连接构成的残差模块。

特征提取模块的第一部分的后三层输出特征Fs，Fm和Fl分别通过尺度特征选择模块获得大中小物体各自的尺度特征图。特征选择模块由一个3×3的卷积层和一个1×1的卷积层构成。根据特征选择模块的输出，可以得到目标可能存在的中心点位置及目标的尺寸。为了更好的预测不同尺寸的物体，针对不同尺寸的目标设置不同的放大尺寸，对于可能存在的位置(x,y)，根据大致的目标尺寸，按照Si的比例对图片进行放大，i∈{s,m,l}。

预测模块首先由一个修改后的残差模块构成，在这个残差模块中，第一个卷积模块被替换成角点池化层或者中心点池化层。具体来说，首先通过2个具有128通道的3×3卷积模块的主干网络进行特征处理，然后再应用一个角点池化层或中心点池化层。残差模块之后，经过池化后的特征输入具有256个通道的3×3的卷积和批标准化模块，输出结果与池化前的特征相加。修改后的残差模块之后跟一个具有256通道的3×3的卷积、批标准化、激活函数的模块，和3个256通道的3×3卷积、激活函数、1×1卷积模块。裁剪后的图片经过特征提取的第二部分后得到特征输出F，F经过角点池化模块和中心点池化模块分别得到角点(左上角和右下角)的热图

偏移向量

和嵌入向量

以及中心点的热图

和偏移向量

关键点配对模块完成关键点的分组，生成检测候选框。从预测模块得到的热图

中抽取的三种关键点的集合，分别是左上角点tl，右下角点br，中心点c。首先根据简单的几何关系和类别信息去除不合理的关键点对，即同一关键点对的类别应该一致，并且左上角点(tl_x,tl_y)和右下角点(br_x,br_y)满足tl_x<br_x，tl_y<br_y。然后根据嵌入向量

去除不合理的关键点对，只有当嵌入向量的距离

根据边框大小，为大中小不同的目标采取不同的中心匹配区域，中心区域表示为R_c＝{(x,y)|ctl_x≤x≤cbr_x,ctl_y≤y≤cbr_y}。具体来说，边界框j的坐标(tl_x,tl_y)和(br_x,br_y)与其中心区域的坐标应该满足：

对于匹配得到的关键点对，根据偏移向量

和

将关键点从热图映射回输入图像，对目标准确位置进行精修，确保最终的边界框的位置更加接近真实值。为了解决这一问题，该模型运用位置偏移，调整角的位置，然后再映射回输入分辨率的图像。

其中，o_k是位置偏移量，x_k和y_k是角点k的x和y的坐标。在得到目标的候选框之后，基于soft-NMS处理检测结果，抑制冗余检测。

步骤S2：通过数据增强、数据扩充等方式对训练数据进行处理。COCO 2017数据集中没有直接的中心点标注，但是有完整的左上角和右下角坐标注释，通过左上角点(tl_x,tl_y)和右下角点(br_x,br_y)可计算出几何中心

为了使得不同的特征处理特定大小的目标物体，在训练时使用的数据标签页应该与注意力图类似，即将边界框的中心置1，其它地方置0。为了减少过拟合，数据增广方式采用一些通用的方法，包括翻转，随机缩放，缩放比例在0.6和1.3之间，随机裁剪和随机色彩抖动，还包括图像的饱和及亮度的调整，所有这些数据增广处理作用在图像和标注信息之上。

步骤S3：采用处理后的训练数据集图像对目标检测系统进行训练。将输入分辨率设置为255×255，将输出分辨率设置为64×64。使用Adam优化器来优化完整的训练损失：L＝L_det+αL_pull+βL_push+γL_off+θL_att，其中α,β,γ,θ分别表示损失函数L_pull,L_push,L_off,L_att的权值系数，实验中设置α,β,θ为0.1，γ为1，初始化学习率lr设置为2.5×10^-4。由于我们的输出为3个关键点，所以在计算回归和偏移损失的时候，会计算中心点的相关损失。实验设备为4张显存为12GB的Titan V显卡，设置batchsize为38(8张图在主GPU上，剩下的GPU每个10张图)，迭代总次数iteration设置为500K。

步骤S4：利用训练后的目标检测系统对图像进行预测。

在测试的时候，在预处理阶段是将图像的长边缩放至三种尺度，分别是192，255和332，用以预测多尺度的特征图。

将步骤S3中训练得到的网络参数载入目标检测系统。

将多尺度的图片信息输入至特征提取模块的第一部分，通过尺度特征选择模块得到大中小目标各自的特征图。利用下采样后的图片得到的大中小目标各自的特征图可以大致提出目标物可能存在位置。

根据目标可能存在的位置，我们通过选择性裁剪，以目标中心位置为裁剪中心将输入图像裁剪至255×255。

对于每一个裁剪后的输入图像，将其输入至特征提取模块的第二部分，输出得到三组H×W×C的热图，分别表示左上角、右下角和中心点，其中H×W表示大小，C为通道数，也可以理解为分类的数量，每个通道都是一个二进制的掩码，用来表示该类关键点的位置。

首先用softmax和3×3最大池化处理预测的热图。从热图中挑选出得分最高的前32个左上、右下和中心点，并通过关键点配对模块生成相应的候选框。最后，合并边界框并运用了soft-nms去抑制冗余检测，如图5所示。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种基于尺度分治的目标检测模型，其特征在于,包括：特征提取模块、尺度特征选择模块、选择性裁剪模块、预测模块和关键点配对模块；

2.如权利要求1所述的目标检测模型，其特征在于，所述特征提取模块包括：第一部分和第二部分；

3.如权利要求2所述的目标检测模型，其特征在于，所述沙漏型网络包括：卷积和最大池化层、跳过层；

4.如权利要求3所述的目标检测模型，其特征在于，所述跳过层包括：两个残差模块；

5.如权利要求4所述的目标检测模型，其特征在于，所述残差模块包括：3×3卷积、批标准化模块、激活函数和1×1的卷积；

所述3×3卷积，用于特征提取；

所述批标准化模块，用于将数据统一分布；

所述激活函数，用于对数据去线性化；

所述1×1的卷积，用于改变上下采样中的特征通道数。

6.如权利要求1所述的目标检测模型，其特征在于，所述选择性裁剪模块具体用于：

基于所述大中小物体各自的尺度特征图得到目标中心位置；

7.如权利要求1所述的目标检测模型，其特征在于，所述预测模块包括：修改后的残差模块、1个256通道的3×3的卷积、批标准化、激活函数的模块和3个256通道的卷积、激活函数、卷积模块。

8.如权利要求7所述的目标检测模型，其特征在于，所述修改后的残差模块包括：主干网络、角点池化层或中心点池化层；

所述主干网络，用于处理所述特征；

9.如权利要求1所述的目标检测模型，其特征在于，所述关键点配对模块具体用于：

10.一种基于尺度分治的目标检测模型的建模方法，其特征在于,包括：

11.如权利要求10所述的方法，其特征在于，所述通过特征提取模块提取输入图像数据的特征，并将选择性裁剪模块裁剪后的图片进行特征提取得到特征图，包括：

通过特征提取模块的第一部分提取输入图像数据的特征；

12.如权利要求10所述的方法，其特征在于，所述通过预测模块将所述特征图经过角点池化层或中心点池化得到关键点的热图、嵌入向量和偏移向量，包括：

13.一种基于尺度分治的目标检测方法，其特征在于,包括：

获取待测的图像数据；

其中，所述尺度分治的目标检测模型是利用如权利要求10-12任一所述的一种基于尺度分治的目标检测模型的建模方法构建的。

14.如权利要求13所述的方法，其特征在于，所述尺度分治的目标检测模型的训练包括：