CN111950610B

CN111950610B - 基于精确尺度匹配的弱小人体目标检测方法

Info

Publication number: CN111950610B
Application number: CN202010746942.XA
Authority: CN
Inventors: 韩振军; 蒋楠; 余学辉; 陈鹏飞; 宫宇琦; 韩许盟; 彭潇珂; 王岿然; 吴狄; 黄智勋; 焦建彬; 叶齐祥; 万方
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2021-05-11
Anticipated expiration: 2040-07-29
Also published as: CN111950610A

Abstract

本发明公开了一种基于精确尺度匹配的弱小人体目标检测方法，所述方法在实例级对预训练数据集和目标数据集的尺度分布进行对齐，从而产生更有效和更合适的匹配数据集；为了减轻实例级对齐分布所造成的图像结构上的损失，采用基于概率结构的背景处理方法，通过抑制图像模糊和保持孔洞周围的上下文一致性来动态地对图像进行修复。本发明所公开的方法，有效地促进了预训练数据集与目标数据集之间的相似性，能够有效平衡图像结构与语义之间的信息损失，明显地提高了在TinyPerson上的性能，在平均精度(AP)和遗失率(MR)方面有了显著的性能提高。

Description

基于精确尺度匹配的弱小人体目标检测方法

技术领域

本发明涉及计算机视觉和机器学习技术领域，具体涉及大尺度图像中微小物体的检测方法，尤其涉及基于精确尺度匹配的弱小人体目标检测方法。

背景技术

人体检测是计算机视觉领域的一个重要课题，它具有监视、驾驶辅助和海上快速救援等广泛应用。随着数据驱动的深度卷积神经网络(CNNs)的快速发展，检测器的研究取得了重大进展。然而，当检测像素较少的微小物体(例如尺寸小于20x20 像素)时，检测器的性能很差，如交通标志、航拍人体目标等等。

为了更好地利用基于CNN的检测器，一些人工标注的用于检测人体的数据集被提出并公开。然而，用于特定对象检测的数据集，如微小人体检测的数据集，由于收集和注释数据的成本，导致数据集与其他对应的数据集相比较小。由于特定应用的数据量不足，一般采用的方法是在超大数据集(如ImageNet、 COCO数据集)上对模型进行预训练，然后在特定任务的数据集上微调模型。

但是，利用现有的大型数据集来实现特定任务时，特别是预训练数据集和特定任务数据集之间的对象大小显著不同时，对微小物体的检测性能较差，SM算法是常用的解决方法，其包括Random Scale Match(RSM)和Monotone Scale Match(MSM)。 SM算法使用采样尺度因子，直接对图像进行调整，并将预训练数据集的尺度分布与目标数据集的尺度分布对齐。该算法采用的是图像级缩放，其只是尺度匹配的一个简单的近似，将图像中所有对象的平均大小作为图像的大小。由于图像中有可能具有许多具有多尺度的标记对象，SM算法的近似处理具有不确定性和不精确性，导致尺度失配的出现。如图1所示，SM算法可以将COCO的尺度分布与TinyPerson的尺度分布大致匹配，但存在错位问题(如虚线矩形所示)。

因此，有必要提供一种改进的弱小人体目标检测方法，其能够有效促进预训练数据集与目标数据集之间的相似性，显著提高检测器在平均精度和遗失率方面的性能。

发明内容

为了克服上述问题，本发明人进行了锐意研究，结果发现：通过实例级缩放来转换预训练数据集的尺度分布，能够有效促进预训练数据集与目标数据集之间的相似性，能够有效降低图像级尺度匹配方法中由于近似而引起的不确定性和不精确性；同时，设计出一种新的基于概率结构的背景处理方法，通过抑制图像模糊和保持孔洞周围的上下文一致性来动态地对图像进行修复，能够有效平衡图像结构与语义之间的信息损失，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供一种基于精确尺度匹配的弱小人体目标检测方法，所述方法包括将预训练数据集的弱小人体目标的尺度分布转换为目标检测任务数据集中弱小人体目标的尺度分布的步骤，所述转换通过实例级缩放来实现。

第二方面，提供一种计算机可读存储介质，所述存储介质存储有基于精确尺度匹配的弱小人体目标检测程序，所述程序被处理器执行时，使得处理器执行所述基于精确尺度匹配的弱小人体目标检测方法的步骤。

第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有基于精确尺度匹配的弱小人体目标检测程序，所述程序被处理器执行时，使得处理器执行所述基于精确尺度匹配的弱小人体目标检测方法的步骤。

本发明所具有的有益效果包括：

(1)本发明提供的基于精确尺度匹配的弱小人体目标检测方法，综合分析了小人物的尺度信息，在实例级对预训练数据集和目标数据集的尺度分布进行对齐，有效地促进了预训练数据集与目标数据集之间的相似性；

(2)本发明提供的基于精确尺度匹配的弱小人体目标检测方法，采用基于概率结构的背景处理方法，通过抑制图像模糊和保持孔洞周围的上下文一致性来动态地对图像进行修复，能够有效平衡图像结构与语义之间的信息损失，使得尺度调整后的实例能够有效嵌入背景；

(3)本发明提供的基于精确尺度匹配的弱小人体目标检测方法，明显地提高了在TinyPerson上的性能，在平均精度(AP) 和遗失率(MR)方面有了显著的性能提高，优于最先进的检测器。

附图说明

图1示出采用现有技术中SM方法的分布对齐效果；

图2示出图像级SM方法与本发明中实例级SM+方法的尺度匹配过程图；

图3示出基于修补的背景(inpainting)和基于额外的背景修复结果比对图；

图4示出本发明实验例1中本发明所述的SM+方法与现有技术中所述的SM方法的分布对准效果。

具体实施方式

下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

在检测大尺度图像中的弱小人体目标(如尺寸小于20x20 像素)的视觉检测任务中，针对检测器受到网络预训练数据集与检测器训练目标数据集之间尺度不匹配的问题，本发明人综合分析了弱小人体目标的尺度信息，通过实例级缩放来转换预训练数据集的尺度分布，而不是对整个图像进行调整，从而通过更精细尺度的缩放来实现更换的尺度分布对齐。

本发明的第一方面，提供了一种基于精确尺度匹配的弱小人体目标检测方法，所述方法包括将预训练数据集的弱小人体目标的尺度分布转换为目标检测任务数据集中弱小人体目标的尺度分布的步骤，所述转换通过实例级缩放来实现，

优选地，如图2所示，所述方法包括以下步骤：

步骤1，将预训练数据集中的图片进行实例和背景的提取；

步骤2，对提取的每个实例进行尺度调整；

步骤3，对提取的背景进行修复；

步骤4，将调整后的实例与修复后的背景合并。

以下进一步描述本发明所述的基于精确尺度匹配的弱小人体目标检测方法。

步骤1，将预训练数据集中的图片进行实例和背景的提取。

其中，所述预训练数据集可以选择COCO或TinyPerson， COCO涉及80类对象，TinyPerson是一个从高质量视频和网络图片中收集的微小的对象检测数据集，大多数对象的大小小于 20x20像素。

在本发明中，预训练数据集需要正确标定的标注来进行实例分割，所述标注为实例分割的掩码标注(mask)。

根据本发明一种优选的实施方式，根据对于分割目标的标注，将参与训练的每一张图片，分割为背景B_i和前景F_i。

在进一步优选的实施方式中，采用matting方法分割前景。

在本发明中，为了获得更好的前景，本发明优选采用 matting方法进行分割，使得实例的轮廓更加平滑。因为分割目标标注(mask掩码标注)的存储形式是边界点和边缘，使用这样的注释使前景轮廓呈锯齿状。

步骤2，对每个实例进行尺度调整。

其中，步骤2包括以下子步骤：

步骤2-1，构建目标训练集中弱小人体目标的尺度直方图。

在本发明中，为目标训练集中每个图片中的弱小人体目标进行标注，添加包围框，以包围框的绝对大小为横坐标，以概率密度为纵坐标，构建目标训练集中弱小人体目标的尺度直方图。

其中，将目标大小定义为其面积(包围框的面积)的平方根，采用G_ij＝(x_ij，y_ij，w_ij，h_ij)来描述数据集中第i个图像I_i的第j 个包围框，其中，(x_ij，y_ij)表示包围框左上角点的坐标，w_ij、h_ij分别是包围框的宽度和高度，则目标的绝对大小为

定义预训练数据集为E，其中对象尺寸s的概率密度函数为 P_size(s；E)；定义目标数据集为D，它的概率密度函数为P_size(s；D)。将目标数据集D分为两份，一份作为目标训练集D_train，另一份作为测试集D_test。在尺度匹配中，遵循机器学习的基本假设：随机抽样得到的目标训练集D_train的分布接近实际分布，即P_size(s；D_train)近似P_size(s；D)。

根据本发明一种优选的实施方式，在目标训练集标注的基础上，构建尺度直方图H。

其中，尺度直方图H通过以下步骤构建：统计目标训练集中每个图片中弱小人体目标包围框的绝对大小；确定划分绝对大小区间的个数K(等于后续生成的直柱体的个数)；计算每个区间的概率密度；以包围框的绝对大小为横坐标，以概率密度为纵坐标得到尺度直方图。此时得到的直方图的各个区间的横坐标跨度相同。

在本发明中，由于目标训练集中目标的尺度主要分布在较窄的区间范围内，具有峰值，较少的分布在峰值的两端，这样，目标数据集的分布存在长尾效应(在头部称为长头，在尾部称为长尾，该现象统称为长尾效应)。

数据集分布的长尾效应使得直方图拟合效率低下，意味着直方图中许多直柱体的概率接近于0。长尾区间占用较多的直柱体，目标尺度集中的区域反而占用较少的直柱体，虽然目标尺度集中区域抽取到的概率高，但会导致预训练数据集中目标的尺度调整不够精细。

为此，在进一步优选的实施方式中，按照包括下述步骤的方法对尺度直方图进行修正：

(1)统计目标训练集D_train中所有的包围框的大小得到S_all； S_all←(...，As(G_ij(D_train))，...)，As为计数函数；

(2)将S_all按照升序排序；

S_sort←sorted(S_all)

(3)对得到的统计意义上的直方图的长尾情况进行修正：

(3.1)首先对直柱体数量K取倒数得到p，并确定排序后 S_sort中所有目标的数量N，其中，K为输入值；

N←S_sort

(3.2)直方图第一个直柱体中目标的概率密度较低，尺寸分布呈尾状(长头)，将第一个区间合并为第一个直柱体，具体如下：

取得长尾效应的具体数量；

tail←ceil(N*p)

取得整个直方图的横轴起始值；

R[1]^-←min(S_sort)

取得第一个区间横轴的终止值；

R[1]⁺←S_sort[tail+1]

取得直方图H的第一个区间的纵轴值；

(3.3)直方图最后一个直柱体中目标的概率密度同样较低，尺寸分布呈尾状(长尾)，将最后一个区间合并为一个直柱体，具体如下：

取得最后一个区间横轴起始值；

R[K]^-←S_sort[N-tail]

取得最后一个区间横轴终止值；

R[K]⁺←max(S_sort)

取得直方图H最后一个区间的纵轴值；

(3.4)计算除去长尾部分的剩余序列S_middle和每个区间的长度d；

S_middle←S_sort[tail+1：N-tail]

(3.5)计算第k个的区间上下限和对应的纵坐标值(k∈ 2，3，4......K-1)；

R[k]^-←min(S_middle)+(k-2)*d

R[k]⁺←min(S_middle)+(k-1)*d

这样就得到了修正后的尺度概率分布直方图。

步骤2-2，获得预训练数据集中提取的每个实例的尺度。

其中，预训练数据集的每个图片的每个实例，根据包围框面积的平方根得到每个实例的尺度，记为s_ij。

步骤2-3，对于每个实例，在目标训练集的弱小人体目标的尺度直方图中进行采样，获得实例具体采样得到的尺度。

其中，步骤2-3包括以下子步骤：

步骤2-3-1，在尺度直方图中采样，获得实例的大致范围；

步骤2-3-2，获得实例具体采样得到的尺度因子。

具体地，从目标训练集对应的尺度直方图H中选择一个直柱体k，获得实例的大致范围，即：k～H。

其中，k即表示尺度直方图中的区间数，该区间对应的尺度范围为(R[k]^-，R[k]⁺)，并认为其中为均匀分布。

在上述尺度范围内采样，得到实例采样后的尺度

，即：

根据本发明一种优选的实施方式，所述在尺度直方图中采样(即直柱体k的选择)通过随机抽取的方式进行。

其中，直方图K个直柱体中(1，2，3...k...K)的纵坐标即概率密度不同，随机抽取到直柱体的概率与概率密度相对应，概率密度越大的直柱体越容易被抽取到，进而作为

的取值来源。

步骤2-4，获得实例需要缩放的比例，然后对实例进行尺度调整。

根据本发明一种优选的实施方式，将预训练数据集的每个图片的每个实例的采样后尺度与采样前尺度作比，获得实例需要缩放的比例，即：

在进一步优选的实施方式中，根据缩放的比例，对实例进行缩放，采用下式进行：

其中，

表示实例级别尺度匹配后的前景，

表示实例级别尺度匹配后的包围框，

表示尺度匹配后的实例，F_ij表示实例级别尺度匹配前的前景，G_ij表示数据集中第i个图像I_i的第j 个包围框，M_ij表示实例的掩码标注，c_ij表示实例需要缩放的比例，ScaleIns是一个调整实例和相应的正确标注的框的尺寸大小到一个给定尺寸的函数。

在更进一步优选的实施方式中，将实例进行尺度缩放后，获得其尺度调整后的位置，优选采用下述仿射变换矩阵进行

其中，r表示尺度方差(比值，即为91行的c_ij)，

t_x和t_y分别表示x轴和y轴的坐标位移。

其中，通过仿射变换(即ScaleIns函数)将坐标进行缩放和平移，获得新的坐标。

本发明人研究发现，采用上述的尺度直方图匹配(即RSM+ 方法，Random ScaleMatch+)可以将预训练数据集中的尺度分布转换为与任务指定的数据集相同的尺度分布。然而，RSM+ 方法在尺度匹配过程中可能会出现一些极端情况：一个非常小的对象可以从目标数据集的尺度概率密度函数P_size(s；D_train)中抽取大尺度，反之亦然。

为此，本发明中优选采用单调尺度匹配的方法(即MSM+， MonotoneScale Match+)，以保持预训练数据集中原始尺度的单调变化。其过程与SM+方法的过程仅在直柱体k的选择步骤不同， MSM+方法中直柱体k的选择通过以下方式进行：它使用具有单调采样函数f将数据集E中的对象s的尺度映射到

使得

的分布与P_size(

D_train)相同。

如图3所示，转化飞盘大于转化人。由于尺度因子的限制不足，使得训练图像无法控制，这样的训练数据可能会破坏物体之间的空间关系。同时，RSM+可能会为一个小物体采样一个相对较大的尺度因子。常规实例的细节被调整小之后，仍然比原来的小实例更清晰。相比之下，放大的小实例在视觉效果上看起来非常模糊。由于RSM+引起的不确定性，使得用这些图像训练不像预期的那么理想。然而，MSM+可以有效地解决上述问题，单调匹配处理保证了对象的相对大小，使得MSM+的性能优于RSM+。

步骤3，对提取的背景进行修复。

本发明人研究发现，对图片进行前景和背景提取分离后，由与图像结构被破坏，在实例级别上简单地调整预训练数据集和目标数据集的尺度分布并不能提高性能。由于本发明中所述的尺度匹配涉及到显著缩放实例，传统的背景修补方法(如“Marcelo Bertalm

Andrea L.Bertozzi,and Guillermo Sapiro. Navier-stokes,fluid dynamics,andimage and video inpainting.In CVPR,2001.2,4”所述的inpainting方法)不能有效修复图像，导致一些伪影出现，破坏图像结构，如图3的上部所示。

为此，本发明中提出引入预训练数据集中额外的背景来弥补图像的损失，即将尺度调整后的实例粘贴至另一个背景图像上，以保证生成的图像不具有伪影。

但是，在引入额外的背景后，对象的上下文信息将与之前完全不同，在一定程度上会混淆网络学习。

为解决上述问题，本发明提供了一种概率结构修复方法 (ProbabilisticStructure Inpainting，PSI)来寻找原图片背景和额外的背景之间的平衡。

根据本发明一种优选的实施方式，所述概率结构修复方法包括以下步骤：

步骤i，获得步骤1中预训练数据集中每个图片的背景的随机数；

步骤ii，设定概率阈值p，通过将随机数与概率阈值比较，确定是否引入额外背景。

其中，步骤ii中，若原图片背景的随机数大于概率阈值p，则由预训练数据集中采样一个新图像作为背景；若原图片背景的随机数小于等于概率阈值p，则采用inpainting方法修复原图片背景。

优选地，所述概率阈值p的取值范围为0～1，优选为0.4。

在本发明中，新采样到的背景的标签不参加网络训练。

本发明中采用的概率结构修复的方法，如图3的下部所示，通过抑制图像模糊和保持孔洞周围的上下文一致性来动态地对图像进行修复，有效地平衡了图像结构和语义之间的信息损失。

步骤4，将调整后的实例与修复后的背景合并。

其中，在通过步骤2获得预训练数据集的图片实例尺度转换后的位置信息、通过步骤3获得修复后的图片背景后，将调整后的实例与修复后的背景融合，获得尺度调整后的预训练数据集，进而进行后续的目标检测模型的训练。

在本发明中，上述步骤(1)～(4)所述的方法，对应的算法如下

1、将预训练数据集中的图片进行实例和背景的提取；

B_i，F_i←Separate(I_i，M_i)

其中，B_i表示背景，F_i表示前景，I_i表示数据集中第i个图像， M_i表示实例。

2、获得预训练数据集中提取的每个实例的尺度s_ij；

3、构建目标训练集的尺度分布直方图H，对其修正后，从中选择一个直柱体k；

k～H

4、由直柱体k得到直方图H中的对应的尺度范围(R[k]^-， R[k]⁺)，并认为其中为均匀分布，采样得到

5、获得实例需要缩放的比例；

6、根据缩放的比例，对实例进行缩放；

7、对实例进行变换，获得尺度调整后的位置；

8、对背景进行概率结构修补；

其中，ProbabilisticStructueInpainting是一个基于概率p，决定是更换背景还是保持背景的函数。

9、将调整后的实例与修复后的背景合并；

其中，Merge是一个根据包围框

的位置，将变换后实例

嵌入到新的背景

的函数。

本发明还提供了一种计算机可读存储介质，存储有基于精确尺度匹配的弱小人体目标检测程序，所述程序被处理器执行时，使得处理器执行所述基于精确尺度匹配的弱小人体目标检测方法的步骤。

本发明中所述的基于精确尺度匹配的弱小人体目标检测方法可借助软件加必需的通用硬件平台的方式来实现，所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘) 中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有基于精确尺度匹配的弱小人体目标检测程序，所述程序被处理器执行时，使得处理器执行所述基于精确尺度匹配的弱小人体目标检测方法的步骤。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1

1、数据集

本发明所述方法在COCO和TinyPerson数据集进行：

COCO涉及80类对象。本发明在原始训练集(包含80k图像)、原始验证集(Trainval35k)的子集(35k图像)和验证图像的5k子集 (Minival)的组合上进行网络预训练。

TinyPerson是一个从高质量视频和网络图片中收集的微小的对象检测数据集。在总共1,610幅图像中，TinyPerson包含 72,651个低分辨率标注的人类物体。将数据集的60％和40％的图像被随机选择为训练和测试集。在TinyPerson中，大多数注释对象的大小小于20x20像素。在训练和推理预测过程中，使用从原点图像中切割的子图作为输入。最后，使用NMS策略对同一图像的结果进行合并。

2、实施过程

选择Faster RCNN-FPN为基础检测器，在预训练过程中，骨干网络由在ImageNet上预训练的ResNet-50初始化，使用0.9 动量的SGD(随机梯度下降法)，0.0001的权重丢失(decay) 在COCO上预训练模型。

在第一个训练阶段，学习率被设置为0.04，在30K，40K迭代时，将其分别衰减到0.004和0.0004。批量大小设置为：每个 GPU每批4张图片。

在微调过程中，检测器由第一阶段的模型参数初始化，总共训练12个轮次，初始学习率设置为0.01，然后在第6个epoch 和第8个epoch分别设置为0.001和0.0001。批量大小设置为每个 GPU每批1张图片。由于TinyPerson的样本中每个样本最多会存在200个目标，所以在输出的时候每张图最多200个bbox。

在上述两个阶段，通过聚类将anchor的大小设置为(8.31、 12.5、18.55、30.23、60.41)，长宽比设置为(0.5、1.3、2)。此外，使用原始图像或子图像作为输入，而不进行任何缩放。

实验例

实验例1

对于预训练数据集和目标数据集之间的尺度对齐情况，分别采用本发明所述的SM+方法(实例级尺度匹配)和现有技术中所述的SM方法(图像级尺度匹配)进行检测，结果如图4所示。

由图4可知，采用本发明所述SM+方法调整COCO后，其对齐的分布更接近TinyPerson的分布，与SM相比，本发明所述方法的对齐分布与目标分布有较大的重叠，说明本发明所述的 SM+方法达到了更精确的尺度匹配，可以获得更高的检测性能。

进一步地，利用Jensen-Shannon散度分别定量地测量了本发明所述RSM+方法、MSM+方法及现有技术中的RSM、MAM 方法对齐的尺度分布与目标分布之间的相似性。

其中，Jensen-Shannon散度是Kullback-Leibler散度的变形，它将源分布的平均相对熵取为平均分布

的熵。 Kullback-Leibler散度D_KL(p(x)，q(x))如下式所示：

其中，p(x)和q(x)表示离散随机变量x的概率分布。对于X中的任何x，p(x)求和为1，q(x)同理，p(x)与q(x)都大于0。

从上式得到Jensen-Shannon散度的公式D_JS(p(x)，q(x))：

Jensen-Shannon散度检测结果如表1所示：

表1

由表1可知，RSM和MSM转换的尺度分布更接近目标数据集的尺度分布；用RSM+方法和MSM+方法变换的尺度分布的JS 散度小于用RSM方法和MSM方法变换的尺度分布的JS散度。因此，RSM+方法和MSM+方法转换的尺度分布更像原始数据集，本发明所提出的SM+方法(包括RSM+方法和MSM+方法)更有效地弥合预训练数据集与目标数据集的尺度分布之间的差距。

实验例2

将本发明所述方法的检测性能与现有技术中多种方法的检测性能进行比对，选取在图像分类中被广泛使用的评测方法：基于Recall(查全率)和Precision(准确率)计算出的AP(Average Precision，平均准确率)。

首先介绍Recall和Precision的计算过程。在训练集上学习到分类模型之后，测试集上的每一个样本都会由分类器计算出一个得分，根据样本的得分可以判断样本是正例还是反例，对所有样本的正反例评判有如下四种情况：

a)True Positive(TP)：正确的正例，也就是正例样本被分类器正确的判定为正例样本。

b)False Positive(FP)：错误的正例，也就是反例样本被分类器错误的判定为正例样本。

c)True Negative(TN)：正确的反例，也就是反例样本被分类器正确的判定为反例样本。

d)False Negative(FN)：错误的反例，也就是正例样本被分类器错误的判定为反例样本。

有了上述四个定义之后，Recall和Precision可以用如下公式计算：

Recall＝TP/(TP+FN)

Precision＝TP/(TP+FP)

实验中对所有测试样本的得分排序，并且通过不断的调整正反例样本的得分阈值形成不同的Recall和Precision。本发明中预训练阶段的实验数据具有80类，在微调阶段只具有一个类别：人。实验中没有给出目标类别对应的Recall-Precision曲线，而是采用了图片分类使用最为广泛的AP值，通过多组Recall和 Precision计算出平均性能AP。实验中定位性能的评测通过框定位确定，为了能够实现目标定位的评测，在测试集上的图片除了标定目标类别外，也对目标进行了框的标注，即标注了能够覆盖目标的最小直立框。

框定位性能的评测：在类别特征图上将大于给定阈值的区域用框标定，然后将框映射到原图，以评测标准AP₅₀为例，如果该框与原图中属于同一类别的目标的框IOU>0.5，则认为框定位正确，否则定位错误。对于每个类别，分别计算图片定位正确的与所有图片的百分比作为框定位的性能评测结果。

对于Citypersons来说，可以采用IOU标准进行绩效评估，因为Citypersons大多数忽略区域的大小与行人的大小相同。然而，在TinyPerson数据集中大多数忽略区域比人的大得多。因此，对于忽略区域，我们将IOU标准更改为IOD(IOD标准仅适用于忽略区域，非忽略区域仍然使用IOU标准)。在训练与测试阶段，把不确定类别和忽略区域同等对待。

作为另一种性能指标，我们还可以采用与Recall相对应的MR(miss rate，丢失率)进行评测，MR指的是图中没有检测出正例目标的标注框占总体正例目标标注框的比例。

MR＝FN/(TP+FN)。

本实验例中，方法FCOS、Adaptive Reppoints、RetinaNet、 AdaptiveFreeAnchor、GCNet、Libra RCNN、Adaptive RetinaNet、 Double Head、Cascade RCNN、Faster RCNN-FPN的检测器使用 ImageNet作为预训练数据集；RetinaNet和FasterRCNN-FPN分别作为单阶段检测器和双阶段检测器的基准网络；为了提取更适合于微小物体的特征，我们将RetinaNet中的特征金字塔从 P3-P7改为P2-P6；Adaptive RetinaNet的anchor设置与 FasterRCNN-FPN相同。

SCRDet是一种用于小型、杂乱和旋转对象的多类别旋转检测器。

其中，FCOS方法如文献“Zhi Tian,Chunhua Shen,Hao Chen, and Tong He.Fcos:Fully convolutional one-stage object detection.In ICCV,2019.1,6”中所述；

Adaptive Reppoints方法如文献“Ze Yang,Shaohui Liu,Han Hu,Liwei Wang,and Stephen Lin.Reppoints:Pointset representation for object detection.InICCV,2019.6”中所述；

RetinaNet方法如文献“Tsung-YiLin,PriyaGoyal, RossGirshick,KaimingHe,and PiotrDoll′ar.Focal loss for dense object detection.InCVPR,2017.1,6”中所述；

Adaptive FreeAnchor方法如文献“Xiaosong Zhang,Fang Wan,Chang Liu,Rongrong Ji,and Qixiang Ye.FreeAnchor: Learning to match anchors for visualobject detection.In NeurIPS, 2019.6”中所述；

GCNet方法如文献“Yue Cao,Jiarui Xu,Stephen Lin, Fangyun Wei,and HanHu.Gcnet:Non-local networks meet squeeze-excitation networks and beyond.InICCVW,2019.6”中所述；

Libra RCNN方法如文献“Jiangmiao Pang,Kai Chen, Jianping Shi,HuajunFeng,Wanli Ouyang,and Dahua Lin.Libra r-cnn:Towards balanced learning forobject detection.In CVPR, 2019.1,6”中所述；

Double Head方法如文献“Yue Wu,Yinpeng Chen,Lu Yuan, Zicheng Liu,LijuanWang,Hongzhi Li,and Yun Fu.Double-head rcnn:Rethinking classification andlocalization for object detection.In CVPR,2020.6”中所述；

Cascade RCNN方法如文献“Zhaowei Cai and NunoVasconcelos.Cascader-cnn:Delving into high quality object detection.In CVPR,2018.1,6”中所述；

Faster RCNN-FPN方法如文献“Tsung-Yi Lin,Piotr Doll′ar, Ross Girshick,Kaiming He,Bharath Hariharan,and Serge Belongie.Feature pyramid networks forobject detection.In CVPR,2017.1,2,6”中所述；

SCRDet方法如文献“Xue Yang,Jirui Yang,Junchi Yan,Yue Zhang,TengfeiZhang,ZhiGuo,Xian Sun,and Kun Fu.Scrdet: Towards more robust detection forsmall,cluttered and rotated objects.In ICCV,2019.6”中所述；

DSFD方法如文献“Jian Li,Yabiao Wang,Changan Wang, Ying Tai,JianjunQian,JianYang,ChengjieWang,JilinLi,and FeiyueHuang.Dsfd:Dual shot facedetector.In CVPR,2019.6”中所述。

在Tinyperson上的MRs(％)检测结果如表2所示。

表2

其中，

和

分别代表着在[2,20]、[2,8]、[8,12]、[12,20]、[20,32]范围内物体大小的表现性能，MR越小代表着性能越好。超过50％阈值的交并比(IOU) 表示成功匹配。本实验例还对不同IOU阈值(25％和75％)的 MR进行了评价，所有条目都没有进行多尺度测试。

在Tinyperson上的APs(％)检测结果如表3所示。

表3

其中，AP越大表示性能越好，与MR评估相似，还引入了一些指标来全面评估检测器的性能，所有条目都没有进行多尺度测试。

由表2和3可知，本发明所述的SM+方法的性能在MR的评估中优于大多数现有方法，在AP的评估中性能优于所有方法，说明本发明所述方法对微小物体的检测是有效的。

由表3还可以看出，针对TinyPerson参数经过精调的Faster RCNN-FPN在

的性能仍不如许多两阶段通用检测器。结果表明，在高IOU(交并比)阈值的情况下，现有的通用检测器的定位性能更好。对于AP₇₅，针对通用检测的检测器性能更好，但是对于弱小目标检测，由于TinyPerson数据集上目标很小，对于高质量评价指标AP₇₅很难达到较高性能(目前仅个位数)，并且对于小目标的应用场景，很难取得高精准的定位框，很难在如此高质量的评价指标上取得性能，因此我们也多关注于AP₅₀和MR₅₀。事实上，这些检测器在COCO检测任务上具有良好的性能，特别是在需要高精度定位时。但是，由于微小物体的小尺寸，很难得到高度精确的bounding box，导致TinyPerson上两阶段检测器的性能很差。

实验例3

比较本发明所述方法(RSM+、MSM+)与ImageNet、 COCO800、RSM和MSM等预训练策略的性能。其中，COCO800 控制图像的大小在(800，1333)作为输入，并对两个训练阶段中的每个阶段使用不同的anchor设置；COCO采用原始图像作为输入，RSM+、MSM+、RSM和MSM方法采用COCO数据集训练检测器，均以Faster RCNN-FPN作为检测器。检测结果如表4所示。

表4

由表4可知，在

中，RSM+(COCO)比RSM(COCO)大 0.13％，MSM+(COCO)比MSM(COCO)大1.72％，说明本发明所述的方法可以有效地使COCO数据集的尺度与TinyPerson数据集的尺度相匹配，提高检测精度。

为了进一步验证本发明所述方法的效率，以单阶段检测器 AdaptiveRetinaNet作为基础网络进行训练，性能比较如表5所示。

表5

由表5可知，RSM+在

提高2.11％，在

提高了 1.23％；MSM+在

提高1.66％，在

提高了1.30％。说明本发明所述的方法一阶段检测器的性能改进明显大于两阶段检测器。

综合表4和表5可知，本发明所述方法的性能提升与检测器无关，其可以有效地用于不同类型的检测器。

实验例4

由于转换的预训练数据集与目标数据集之间的差异，对象的特性会不同，本实验例在本发明所述的MSM+方法上加载不同的模型权重，比较

结果如表6所示。

表6

其中，RPN-none表示不加载RPN分类和回归的权重， RPN-cls表示加载RPN中分类部分权重，RPN-reg表示加载RPN 中回归部分权重，RPN-cls&RPN-reg表示RPN中分类和回归部分权重均加载。

由表6可知，当只加载RPN的分类权重时，检测器达到了最佳的性能；在同时加载分类和回归模块权重时，实验性能严重下降。表明本发明所述方法可以使预训练数据的特征与目标数据更相似，所以分类权重对于性能提升更有帮助。对于回归部分，目标数据的背景并不会出现预训练数据中的两种情况：1) 背景大面积失真，2)背景替换，存在语义损失。回归部分的权重对于性能提升没用，反而会降性能，所以应着重分类部分的性能。

实验例5

概率结构修复(PSI)的效果验证：

对本发明所述的RSM+和MSM+方法，以及没有经过概率结构修复的对比方法(w/oPSI)的性能进行检测，结果如表7所示。

表7

由表7可知，不现实的图像结构和伪影模式使网络过度拟合，导致不理想的结果，在不考虑背景的情况下对实例级的分布进行对齐是不够的，本发明所采用的PSI方法在降低图像失真效果方面起着重要作用，能够使检测性能达到预期效果。

由于替换PSI中的背景可能被视为数据增强，为进一步验证检测性能的增益是否来自数据增强，本实验例在新的背景图像上直接复制和粘贴实例，而不缩放其大小，性能检测结果如表8 所示。

表8

其中，CP(COCO)是指裁剪所有实例并将它们粘贴到新图像上，但是新图像的注释不会参与预训练；CP+(COCO)是指在相同的条件下，在使用新和原始的注释都用于预训练。

由表8可知，CP(COCO)和CP+(COCO)两种方法的性能相似，略高于COCO的方法，但均低于本发明所述的MSM+(COCO) 方法。表明概率结构修复并不是直接影响本发明所述方法的性能的关键因素，本发明所述的SM+方法的有效性主要来自于实例级的分布对齐，概率结构修复起到辅助作用。

进一步地，本实验例还验证了在本发明的PSI方法中，根据不同的概率p对

的比较，结果如表9所示。

表9

由表9可知，性能随着p越来越接近中间而提高，背景的多样性也使回归部分不太容易过度拟合，在中等概率(p＝0.4)可以实现图像结构损失和语义损失之间的权衡。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。

Claims

1.一种基于精确尺度匹配的弱小人体目标检测方法，其特征在于，所述方法包括将预训练数据集的弱小人体目标的尺度分布转换为目标检测任务数据集中弱小人体目标的尺度分布的步骤，所述转换通过实例级缩放来实现，

所述方法包括以下步骤：

步骤1，将预训练数据集中的图片进行实例和背景的提取；

步骤2，对提取的每个实例进行尺度调整；

步骤3，对提取的背景进行修复；

步骤4，将调整后的实例与修复后的背景合并。

2.根据权利要求1所述的方法，其特征在于，步骤2包括以下子步骤：

步骤2-1，构建目标训练集中弱小人体目标的尺度直方图；

步骤2-2，获得预训练数据集中提取的每个实例的尺度；

步骤2-3，对于每个实例，在目标训练集的弱小人体目标的尺度直方图中进行采样，获得实例具体采样得到的尺度；

3.根据权利要求2所述的方法，其特征在于，步骤2-1中，为目标训练集中每个图片中的弱小人体目标进行标注，添加包围框，以包围框的绝对大小为横坐标，以概率密度为纵坐标，构建目标训练集中弱小人体目标的尺度直方图；

采用G_ij＝(x_ij，y_ij，w_ij，h_ij)来描述数据集中第i个图像I_i的第j个包围框，其中，(x_ij，y_ij)表示包围框左上角点的坐标，w_ij、h_ij分别是包围框的宽度和高度。

4.根据权利要求3所述的方法，其特征在于，

步骤2-2中，预训练数据集的每个图片的每个实例，根据包围框面积的平方根得到每个实例的尺度，记为s_ij。

5.根据权利要求2所述的方法，其特征在于，步骤2-3包括以下子步骤：

步骤2-3-1，在尺度直方图中采样，获得实例的大致范围；

步骤2-3-2，获得实例具体采样得到的尺度因子。

6.根据权利要求1所述的方法，其特征在于，步骤3中，采用概率结构修复方法对背景进行修复，

所述概率结构修复方法包括以下步骤：

7.根据权利要求6所述的方法，其特征在于，步骤ii中，若原图片背景的随机数大于概率阈值p，则由预训练数据集中采样一个新图像作为背景；若原图片背景的随机数小于概率阈值p，则采用基于修补的方法修复原图片背景。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有基于精确尺度匹配的弱小人体目标检测程序，所述程序被处理器执行时，使得处理器执行权利要求1至7之一所述基于精确尺度匹配的弱小人体目标检测方法的步骤。

9.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器存储有基于精确尺度匹配的弱小人体目标检测程序，所述程序被处理器执行时，使得处理器执行权利要求1至7之一所述基于精确尺度匹配的弱小人体目标检测方法的步骤。