CN113869144A

CN113869144A - 目标检测方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113869144A
Application number: CN202111059847.3A
Authority: CN
Inventors: 陈海波
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-31

Abstract

本申请提供目标检测方法、装置、电子设备及计算机可读存储介质，方法包括：使用预设的滑动窗口从待检测图像中获取多个区域图像；针对每个区域图像，将区域图像输入目标检测模型的特征提取网络，得到区域图像的特征提取结果，特征提取网络采用ResNeXT‑101；将区域图像的特征提取结果分别输入目标检测模型的多个检测器，得到区域图像对应的各检测器的检测结果；将区域图像对应的各检测器的检测结果融合，得到区域图像的融合检测结果；基于各区域图像的融合检测结果，获取待检测图像的检测结果。本申请提供的目标检测方法利用滑动窗口有效的保留待检测图像的高分辨率信息，融合了多个检测器的检测结果，使得最终得到的检测图像的检测结果更加稳定和准确。

Description

目标检测方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及深度学习技术领域，尤其涉及目标检测方法、装置、电子设备及计算机可读存储介质。

背景技术

目标检测是目前计算机视觉领域非常热门的研究方向，是无人驾驶技术重要环节。

公开号为CN110942000A的中国发明专利《一种基于深度学习的无人驾驶车辆目标检测方法》公开了一种基于深度学习的无人驾驶车辆目标检测方法，通过生成目标物体的三维模板对目标物体进行采样，结合生成的三维模板和物体采样策略对输入的图像生成候选框；对生成的候选框进行特征提取，构建目标函数；基于得到的目标函数，使用结构化支持向量机分类器完成对目标函数权值的训练和目标物体的初步检测；改进区域候选网络，构建效率更高的HRPN网络；基于构建的HRPN网络，训练Faster RCNN监测模型，再将结构化支持向量机分类器得到的初步检测结果输入网络进行训练，训练结束后将模型参数信息和结构信息保存，用于进行目标检测。该方法采用了将结构化支持向量机的分类结果输入到Faster R-CNN神经网络检测模型的方法，提高了三维物体的检测精度。

《软件导刊》2019年第9期42-46页的《融合深度学习的无人驾驶多目标检测算法》一文中，使用了SSD模型来完成目标检测，通过引入Focalloss函数设计新的损失函数，解决样本失衡问题；同时在不降低检测速率的情况下，提高检测精度。基于自行采集的车载视频数据集进行验证，结果表明改进后的SSD模型mAP相较于原始SSD模型提高了3％。

然而，在现有技术中，对于大范围高像素的待检测图像中的行人和车辆的检测存在稳定度、准确率不足的问题，例如，针对由十亿像素相机收集的大范围自然场景视觉数据集进行行人和车辆的检测，一方面由于计算资源的限制，超高分辨率使得网络无法接受大图作为输入，而单纯将原图缩放会使得目标丢失大量信息，另一方面图像中的近景和远景的目标尺度差异大，给检测带来了巨大的挑战。此外，由于视觉数据集是从商场、学校、广场等场景采集得到的，人流和车辆密度极大，行人和车辆的拥挤等情况频发，容易造成目标的漏检和误检，进而影响行人和车辆的检测的稳定度、准确率。

发明内容

本申请的目的在于提供目标检测方法、装置、电子设备及计算机可读存储介质，解决现有技术中对于大范围高像素的待检测图像中的行人和车辆的检测存在稳定度、准确率不足的问题。

本申请的目的采用以下技术方案实现：

第一方面，本申请提供了一种目标检测方法，所述方法包括：使用预设的滑动窗口从待检测图像中获取多个区域图像，所述待检测图像是拍摄行人和/或车辆得到的；针对每个区域图像，将所述区域图像输入目标检测模型的特征提取网络，得到所述区域图像的特征提取结果，所述特征提取网络采用ResNeXT-101；将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述区域图像对应的各检测器的检测结果；将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果；基于各所述区域图像的融合检测结果，获取所述待检测图像的检测结果，所述待检测图像的检测结果用于指示所述待检测图像中的行人和/或车辆的检测框。

该技术方案的有益效果在于：利用预设的滑动窗口从待检测图像中获取多个区域图像，将每个区域图像输入ResNeXT-101特征提取网络得到特征提取结果，将特征提取结果输入多个检测器得到多个检测结果，将多个检测结果融合得到融合检测结果并基于融合检测结果获取待检测图像的检测结果；由于多个区域图像是利用滑动窗口获得的，有效地保留待检测图像的高分辨率信息，使得输入特征提取网络的信息更加丰富，增强了对于大范围高像素的待检测图像中行人和机动车检测的准确度；融合多个检测器的检测结果，避免了漏检，并使得最终得到的检测图像的检测结果更加稳定和准确。

在一些可选实施例中，所述将所述区域图像输入目标检测模型的特征提取网络，得到所述区域图像的特征提取结果，包括：将所述区域图像输入所述特征提取网络的Stage₁，得到所述区域图像对应的特征图F₁；将所述区域图像对应的特征图F₁输入所述特征提取网络的Stage_{1_1}，得到所述区域图像对应的特征图F₂；将所述区域图像对应的特征图F₁输入所述特征提取网络的Stage₂，得到所述区域图像对应的特征图F₃；将所述区域图像对应的特征图F₃和特征图F₂相加后输入所述特征提取网络的Stage_{2_2}，得到所述区域图像对应的特征图F₄；将所述区域图像对应的特征图F₃输入所述特征提取网络的Stage₃，得到所述区域图像对应的特征图F₅；将所述区域图像对应的特征图F₅和特征图F₄相加后输入所述特征提取网络的Stage_{3_3}，得到所述区域图像对应的特征图F₆；将所述区域图像对应的特征图F₅输入所述特征提取网络的Stage₄，得到所述区域图像对应的特征图F₇；将所述区域图像对应的特征图F₇和特征图F₆相加后输入所述特征提取网络的Stage_{4_4}，得到所述区域图像对应的特征图F₈，并将所述区域图像对应的特征图F₈作为所述区域图像对应的融合特征图M₃；将所述区域图像对应的特征图F₈输入所述特征提取网络的第三插值单元，得到所述区域图像对应的特征图F₈的插值结果，并将所述区域图像对应的特征图F₈的插值结果和所述区域图像对应的特征图F₆相加，得到所述区域图像对应的融合特征图M₂；将所述区域图像对应的融合特征图M₂输入所述特征提取网络的第二插值单元，得到所述区域图像对应的融合特征图M₂的插值结果，并将所述区域图像对应的融合特征图M₂的插值结果和所述区域图像对应的特征图F₄相加，得到所述区域图像对应的融合特征图M₁；将所述区域图像对应的融合特征图M₁输入所述特征提取网络的第一插值单元，得到所述区域图像对应的融合特征图M₁的插值结果，并将所述区域图像对应的融合特征图M₁的插值结果和所述区域图像对应的特征图F₂相加，得到所述区域图像对应的融合特征图M₀；将所述区域图像对应的融合特征图M₃至融合特征图M₀作为所述区域图像对应的特征提取结果。

该技术方案的有益效果在于：利用多个stage分别获得F₁-F₈，其中，F₄是利用F₂与F₃相加后通过一个stage后得到的，F₆是利用F₄与F₅相加后通过另一个stage后得到的，F₈是利用F₆与F₇相加后通过又一个stage后得到的，然后将F₈作为M₃，F₈的插值结果与F₆相加得到M₂，M₂的插值结果与F₄相加得到M₁，M₁的插值结果与F₂相加得到M₀，并将M₃至M₀作为区域图像对应的特征提取结果；特征图的获得是通过多个不同的stage并通过相加运算得到的，提高了特征图的准确性，通过相加运算获得融合特征图，并将多个融合特征图作为区域图像对应的特征提取结果，保证了区域图像对应的特征提取结果的准确性。

在一些可选实施例中，所述多个检测器包括至少两个Cascade RCNN检测器和一个Generalize Focal Loss检测器，所述将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述区域图像对应的各检测器的检测结果，包括：将所述区域图像的特征提取结果分别输入所述目标检测模型的至少两个Cascade RCNN检测器和一个Generalize Focal Loss检测器，得到所述区域图像对应的各检测器的检测结果，每个Cascade RCNN检测器用于检测一个类别的检测框，其中，行人的检测框包括可见身体检测框、全身检测框和头部检测框三个类别中的至少两种，车辆的检测框包括可见范围框一个类别。该技术方案的有益效果在于：通过至少两个Cascade RCNN检测器和一个GeneralizeFoc al Loss检测器，得到区域图像对应的各检测器的检测结果，至少两个Cascade RCNN检测器可以得到至少两个类别的检测框，降低待检测图像的检测结果的漏检率；GeneralizeFocal Loss检测器与Cascade RCNN检测器的结果进行互补，Generalize Focal Loss检测器包括一种泛化的Focal Loss损失，解决了分类得分和质量预测得分在训练和测试时不一致的问题。

在一些可选实施例中，每个所述Cascade RCNN检测器均包括卷积层、第一阶段网络和第二阶段网络，所述第二阶段网络包括一级网络至三级网络，所述Cascade RCNN检测器的检测过程如下：将所述区域图像的特征提取结果经过所述卷积层，得到卷积结果；设定多个锚框作为所述卷积结果的第一阶段基准框组；利用所述第一阶段网络的分类网络和回归网络，从所述第一阶段基准框组中确定第二阶段基准框组；利用所述一级网络的分类网络和回归网络，从所述第二阶段基准框组中确定一级检测框组；利用二级网络的分类网络和回归网络，从所述一级检测框组中确定二级检测框组；利用所述三级网络的分类网络和回归网络，从所述二级检测框组中确定三级检测框组作为所述区域图像对应的所述Cascade RCNN检测器的检测结果。该技术方案的有益效果在于：将特征提取结果经过卷积得到卷积结果，设定作为第一阶段基准框组的多个锚框，然后从中确定出第二阶段基准框组，然后利用一级至三级网络，依次得到第一至第三检测框组，并将第三检测框组作为区域图像对应的Cascade RCNN检测器的检测结果；设定多个锚框作为卷积结果的第一阶段基准框组，可以提高第一阶段网络的运作效率，利用多级网络最终得到第三检测框组并将其作为区域图像对应的Cascade RCN N检测器的检测结果，能够提高检测结果的准确度，并且，由于分类任务往往需要更多图像语义信息，而回归任务需要更多空间信息，因此，该技术方案所采用的双阶段网络结构考虑了不同需求的特性，使得检测效率更高，检测结果的准确度更高。

在一些可选实施例中，每个所述Cascade RCNN检测器还包括Global Cont extblock，所述将所述区域图像的特征提取结果经过所述卷积层，得到卷积结果，包括：将所述区域图像的特征提取结果输入所述Global Context block，得到全局上下文结果；将所述全局上下文结果输入所述卷积层，得到所述卷积结果。该技术方案的有益效果在于：GlobalContext block进一步提高了Cascade RCNN检测器的特征提取能力，Global Contextblock结合了Non-local的上下文建模能力，并继承了SE-Net的节省计算量的优点，可以有效的对特征提取结果的上下文进行建模。

在一些可选实施例中，所述将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果，包括：使用Weighted Box Fusion算法将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果。该技术方案的有益效果在于：将各检测器的检测结果使用Weighted Box Fusion进行融合，Weighted BoxFusion使用全部的检测器的检测结果，通过进行组合来获得更加准确的融合检测结果，从而提升待检测图像的检测结果的精度。

在一些可选实施例中，所述目标检测模型的训练过程如下：获取训练图像及其标注数据，所述训练图像的标注数据用于指示所述训练图像中的行人和/或车辆的标注检测框；将训练图像输入所述目标检测模型的特征提取网络，得到所述训练图像的特征提取结果；将所述训练图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述训练图像对应的各检测器的检测结果；将所述训练图像对应的各检测器的检测结果融合，得到所述训练图像的检测结果，所述训练图像的检测结果用于指示所述训练图像中的行人和/或车辆的预测检测框；基于所述训练图像的检测结果和标注数据，对所述目标检测模型的特征提取网络和多个检测器的参数进行更新。

该技术方案的有益效果在于：利用训练图像中的行人和/或车辆的标注检测框对目标检测模型的特征提取网络和多个检测器的参数进行更新，使得训练得到的目标检测模型在应用于待检测图像中的目标检测时，检测准确度高。

第二方面，本申请提供一种目标检测装置，所述装置包括：区域图像模块，用于使用预设的滑动窗口从待检测图像中获取多个区域图像，所述待检测图像是拍摄行人和/或车辆得到的；提取特征模块，用于针对每个区域图像，将所述区域图像输入目标检测模型的特征提取网络，得到所述区域图像的特征提取结果，所述特征提取网络采用ResNeXT-101；分别检测模块，用于将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述区域图像对应的各检测器的检测结果；结果融合模块，用于将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果；检测结果模块，用于基于各所述区域图像的融合检测结果，获取所述待检测图像的检测结果，所述待检测图像的检测结果用于指示所述待检测图像中的行人和/或车辆的检测框。

在一些可选实施例中，所述提取特征模块包括：第一提取子模块，用于将所述区域图像输入所述特征提取网络的Stage₁，得到所述区域图像对应的特征图F₁；第二提取子模块，用于将所述区域图像对应的特征图F₁输入所述特征提取网络的Stage_{1_1}，得到所述区域图像对应的特征图F₂；第三提取子模块，用于将所述区域图像对应的特征图F₁输入所述特征提取网络的Stage₂，得到所述区域图像对应的特征图F₃；第四提取子模块，用于将所述区域图像对应的特征图F₃和特征图F₂相加后输入所述特征提取网络的Stage_{2_2}，得到所述区域图像对应的特征图F₄；第五提取子模块，用于将所述区域图像对应的特征图F₃输入所述特征提取网络的Stage₃，得到所述区域图像对应的特征图F₅；第六提取子模块，用于将所述区域图像对应的特征图F₅和特征图F₄相加后输入所述特征提取网络的Stage_{3_3}，得到所述区域图像对应的特征图F₆；第七提取子模块，用于将所述区域图像对应的特征图F₅输入所述特征提取网络的Stage₄，得到所述区域图像对应的特征图F₇；第八提取子模块，用于将所述区域图像对应的特征图F₇和特征图F₆相加后输入所述特征提取网络的Stage_{4_4}，得到所述区域图像对应的特征图F₈，并将所述区域图像对应的特征图F₈作为所述区域图像对应的融合特征图M₃；第一融合子模块，用于将所述区域图像对应的特征图F₈输入所述特征提取网络的第三插值单元，得到所述区域图像对应的特征图F₈的插值结果，并将所述区域图像对应的特征图F₈的插值结果和所述区域图像对应的特征图F₆相加，得到所述区域图像对应的融合特征图M₂；第二融合子模块，用于将所述区域图像对应的融合特征图M₂输入所述特征提取网络的第二插值单元，得到所述区域图像对应的融合特征图M₂的插值结果，并将所述区域图像对应的融合特征图M₂的插值结果和所述区域图像对应的特征图F₄相加，得到所述区域图像对应的融合特征图M₁；第三融合子模块，用于将所述区域图像对应的融合特征图M₁输入所述特征提取网络的第一插值单元，得到所述区域图像对应的融合特征图M₁的插值结果，并将所述区域图像对应的融合特征图M₁的插值结果和所述区域图像对应的特征图F₂相加，得到所述区域图像对应的融合特征图M₀；提取结果子模块，用于将所述区域图像对应的融合特征图M₃至融合特征图M₀作为所述区域图像对应的特征提取结果。

在一些可选实施例中，所述多个检测器包括至少两个Cascade RCNN检测器和一个Generalize Focal Loss检测器，所述分别检测模块包括：检测结果子模块，用于将所述区域图像的特征提取结果分别输入所述目标检测模型的至少两个Cascade RCNN检测器和一个Generalize Focal Loss检测器，得到所述区域图像对应的各检测器的检测结果，每个Cascade RCNN检测器用于检测一个类别的检测框，其中，行人的检测框包括可见身体检测框、全身检测框和头部检测框三个类别中的至少两种，车辆的检测框包括可见范围框一个类别。

在一些可选实施例中，每个所述Cascade RCNN检测器均包括卷积层、第一阶段网络和第二阶段网络，所述第二阶段网络包括一级网络至三级网络，检测结果子模块包括：卷积结果单元，用于将所述区域图像的特征提取结果经过所述卷积层，得到卷积结果；第一基准框单元，用于设定多个锚框作为所述卷积结果的第一阶段基准框组；第二基准框单元，用于利用所述第一阶段网络的分类网络和回归网络，从所述第一阶段基准框组中确定第二阶段基准框组；第一检测框单元，用于利用所述一级网络的分类网络和回归网络，从所述第二阶段基准框组中确定一级检测框组；第二检测框单元，用于利用二级网络的分类网络和回归网络，从所述一级检测框组中确定二级检测框组；结果确定单元，用于利用所述三级网络的分类网络和回归网络，从所述二级检测框组中确定三级检测框组作为所述区域图像对应的所述Cascade RCNN检测器的检测结果。

在一些可选实施例中，每个所述Cascade RCNN检测器还包括Global Cont extblock，所述卷积结果单元包括：上下文子单元，用于将所述区域图像的特征提取结果输入所述Global Context block，得到全局上下文结果；结果得到子单元，用于将所述全局上下文结果输入所述卷积层，得到所述卷积结果。

在一些可选实施例中，所述结果融合模块包括：融合结果子模块，用于使用Weighted Box Fusion算法将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果。

在一些可选实施例中，所述目标检测装置还包括：模型训练模块，用于训练所述目标检测模型，所述模型训练模块包括：训练获取子模块，用于获取训练图像及其标注数据，所述训练图像的标注数据用于指示所述训练图像中的行人和/或车辆的标注检测框；特征提取子模块，用于将训练图像输入所述目标检测模型的特征提取网络，得到所述训练图像的特征提取结果；结果检测子模块，用于将所述训练图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述训练图像对应的各检测器的检测结果；融合检测子模块，用于将所述训练图像对应的各检测器的检测结果融合，得到所述训练图像的检测结果，所述训练图像的检测结果用于指示所述训练图像中的行人和/或车辆的预测检测框；参数更新子模块，用于基于所述训练图像的检测结果和标注数据，对所述目标检测模型的特征提取网络和多个检测器的参数进行更新。

第三方面，本申请提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项目标检测方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项目标检测方法的步骤。

本申请采用了基于深度学习的方法，设计出了一种更加稳定，准确率更高的行人和车辆检测方法，在高分辨率的目标密集的图像上也可以有很好的检测效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合详细附图说明如后。

附图说明

下面结合附图和实施例对本申请进一步说明。

图1是本申请实施例提供的一种目标检测方法的流程示意图；

图2是本申请实施例提供的一种目标检测方法的原理示意图；

图3是本申请实施例提供的一种获取区域图像的特征提取结果的流程示意图；

图4是本申请实施例提供的一种获取区域图像对应的各检测器的检测结果的原理示意图；

图5是本申请实施例提供的一种Generalize Focal Loss检测器的结构示意图；

图6是本申请实施例提供的另一种获取区域图像对应的各检测器的检测结果的流程示意图；

图7是本申请实施例提供的一种获取卷积结果的流程示意图；

图8是本申请实施例提供的一种Global Context block的结构示意图；

图9是本申请实施例提供的另一种目标检测方法的部分流程示意图；

图10是本申请实施例提供的一种训练目标检测模型的流程示意图；

图11是本申请实施例提供的一种目标检测装置的结构示意图；

图12是本申请实施例提供的一种提取特征模块的结构示意图；

图13是本申请实施例提供的一种检测结果子模块的结构示意图；

图14是本申请实施例提供的一种卷积结果单元的结构示意图；

图15是本申请实施例提供的另一种目标检测装置的部分结构示意图；

图16是本申请实施例提供的一种模型训练模块的结构示意图；

图17是本申请实施例提供的一种电子设备的结构框图；

图18是本申请实施例提供的一种用于实现目标检测方法的程序产品的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

参见图1及图2，本申请实施例提供了一种目标检测方法，所述方法包括步骤S101～S105。

步骤S101：使用预设的滑动窗口从待检测图像中获取多个区域图像，所述待检测图像是拍摄行人和/或车辆得到的。

其中，预设的滑动窗口例如是指尺寸小于待检测图像的窗口，待检测图像是拍摄行人和/或车辆得到的是指拍摄待检测图像的目的在于识别待检测图像中的行人和/或车辆，并非限定为待检测图像的显示内容中必然包含行人和/或车辆，待检测图像的显示内容中可以只包含行人，或者只包含车辆，或者同时包含行人和车辆，或者既不包含行人又不包含车辆。例如，待检测图像是设置于路口的高清摄像头所拍摄的图像，但在某一时刻，高清摄像头所拍摄的图像所显示的内容中，并不包含任何行人或者车辆；又或是，在自动驾驶汽车上设置高清摄像头进行图像拍摄，以识别自动驾驶汽车周围的行人和/或车辆，但自动驾驶汽车行驶到某些地点后，其周围并无任何行人或车辆，此时，自动驾驶汽车的高清摄像头所拍摄的图像所显示的内容中，并不包含任何行人或者车辆，对该图像的识别结果可以是：不包含任何行人或车辆，行人检测框数量为0以及车辆检测框数量为0。

步骤S102：针对每个区域图像，将所述区域图像输入目标检测模型的特征提取网络，得到所述区域图像的特征提取结果，所述特征提取网络采用ResNeX T-101。

步骤S103：将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述区域图像对应的各检测器的检测结果。

其中，各检测器的检测结果是指指示区域图像中的行人和/或车辆位置的检测框。

步骤S104：将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果。

步骤S105：基于各所述区域图像的融合检测结果，获取所述待检测图像的检测结果，所述待检测图像的检测结果用于指示所述待检测图像中的行人和/或车辆的检测框。

由此，利用预设的滑动窗口从待检测图像中获取多个区域图像，将每个区域图像输入ResNeXT-101特征提取网络得到特征提取结果，将特征提取结果输入多个检测器得到多个检测结果，将多个检测结果融合得到融合检测结果并基于融合检测结果获取待检测图像的检测结果；由于多个区域图像是利用滑动窗口获得的，有效的保留待检测图像的高分辨率信息，使得输入特征提取网络的信息更加丰富，增强了对于大范围高像素的待检测图像中行人和机动车检测的准确度；融合多个检测器的检测结果，避免了漏检，并使得最终得到的检测图像的检测结果更加稳定和准确。

参见图3，在一些实施方式中，所述步骤S102可以包括步骤S201～S212。

步骤S201：将所述区域图像输入所述特征提取网络的Stage₁，得到所述区域图像对应的特征图F₁。

步骤S202：将所述区域图像对应的特征图F₁输入所述特征提取网络的Stage_{1_1}，得到所述区域图像对应的特征图F₂。

步骤S203：将所述区域图像对应的特征图F₁输入所述特征提取网络的Stage₂，得到所述区域图像对应的特征图F₃。

步骤S204：将所述区域图像对应的特征图F₃和特征图F₂相加后输入所述特征提取网络的Stage_{2_2}，得到所述区域图像对应的特征图F₄。

步骤S205：将所述区域图像对应的特征图F₃输入所述特征提取网络的Stage₃，得到所述区域图像对应的特征图F₅。

步骤S206：将所述区域图像对应的特征图F₅和特征图F₄相加后输入所述特征提取网络的Stage_{3_3}，得到所述区域图像对应的特征图F₆。

步骤S207：将所述区域图像对应的特征图F₅输入所述特征提取网络的Stage₄，得到所述区域图像对应的特征图F₇。

步骤S208：将所述区域图像对应的特征图F₇和特征图F₆相加后输入所述特征提取网络的Stage_{4_4}，得到所述区域图像对应的特征图F₈，并将所述区域图像对应的特征图F₈作为所述区域图像对应的融合特征图M₃。

步骤S209：将所述区域图像对应的特征图F₈输入所述特征提取网络的第三插值单元，得到所述区域图像对应的特征图F₈的插值结果，并将所述区域图像对应的特征图F₈的插值结果和所述区域图像对应的特征图F₆相加，得到所述区域图像对应的融合特征图M₂。

步骤S210：将所述区域图像对应的融合特征图M₂输入所述特征提取网络的第二插值单元，得到所述区域图像对应的融合特征图M₂的插值结果，并将所述区域图像对应的融合特征图M₂的插值结果和所述区域图像对应的特征图F₄相加，得到所述区域图像对应的融合特征图M₁。

步骤S211：将所述区域图像对应的融合特征图M₁输入所述特征提取网络的第一插值单元，得到所述区域图像对应的融合特征图M₁的插值结果，并将所述区域图像对应的融合特征图M₁的插值结果和所述区域图像对应的特征图F₂相加，得到所述区域图像对应的融合特征图M₀。

步骤S212：将所述区域图像对应的融合特征图M₃至融合特征图M₀作为所述区域图像对应的特征提取结果。

由此，利用多个stage分别获得F₁-F₈，其中，F₄是利用F₂与F₃相加后通过一个stage后得到的，F₆是利用F₄与F₅相加后通过另一个stage后得到的，F₈是利用F₆与F₇相加后通过又一个stage后得到的，然后将F₈作为M₃，F₈的插值结果与F₆相加得到M₂，M₂的插值结果与F₄相加得到M₁，M₁的插值结果与F₂相加得到M₀，并将M₃至M₀作为区域图像对应的特征提取结果；特征图的获得是通过多个不同的stage并通过相加运算得到的，提高了特征图的准确性，通过相加运算获得融合特征图，并将多个融合特征图作为区域图像对应的特征提取结果，保证了区域图像对应的特征提取结果的准确性。

参见图4，在一些实施方式中，所述多个检测器可以包括至少两个Cascade RCNN检测器和一个Generalize Focal Loss检测器，所述步骤S103包括步骤S301。

步骤S301：将所述区域图像的特征提取结果分别输入所述目标检测模型的至少两个Cascade RCNN检测器和一个Generalize Focal Loss检测器，得到所述区域图像对应的各检测器的检测结果，每个Cascade RCNN检测器用于检测一个类别的检测框，其中，行人的检测框包括可见身体检测框、全身检测框和头部检测框三个类别中的至少两种，车辆的检测框包括可见范围框一个类别。

在一些应用场景中，当待检测图像为人流量较大的路口所拍摄的图像时，行人之间的相互遮挡较为严重，行人检测框可以包括可见身体检测框和头部检测框；当待检测图像为人流量较小的路口所拍摄的图像时，行人之间的相互遮挡较为轻微，行人检测框可以包括可见身体检测框、全身检测框和头部检测框。

由此，通过至少两个Cascade RCNN检测器和一个Generalize Focal Loss检测器，得到区域图像对应的各检测器的检测结果，至少两个Cascade RCNN检测器可以得到至少两个类别的检测框，降低待检测图像的检测结果的漏检率；Generalize Focal Loss检测器与Cascade RCNN检测器的结果进行互补，Genera lize Focal Loss检测器包括一种泛化的Focal Loss损失，解决了分类得分和质量预测得分在训练和测试时不一致的问题。

在一些应用场景中，所述Generalize Focal Loss检测器的结构如图5所示，所述Generalize Focal Loss检测器提出了一种新的泛化的Focal Loss损失，解决了分类得分和质量预测得分在训练和检测时的不一致问题。

原来的Focal Loss公式为：

其中，p代表预测检测结果属于1的概率；y代表0～1的质量标签；p_t代表预测检测结果属于true class的概率；FL(p)代表Focal Loss损失；γ代表聚焦参数；

新的Quality Focal Loss公式为：

QFL(σ)＝1|y-σ|^β((1-y)log(1-σ)+ylog(σ))

σ为预测得到的标签；QFL(σ)代表Quality Focal Loss损失；β代表预设的参数，在一些实施方式中，β的取值可以是2；其他字符所代表的含义与上一公式中相同，在此不再赘述；QFL(σ)的全局最小解即是σ＝y，这样交叉熵部分变为完整的交叉熵，同时调节因子变为距离绝对值的幂次函数。

考虑到真实的分布通常不会距离标注的位置太远，因此额外添加一个损失函数，该损失函数能够使得检测网络能够快速地聚焦到标注位置附近的数值，使得他们概率尽可能大。基于此，该损失函数称之为Distribution Focal Loss(DFL)：

DFL(S_i,S_i+1)＝-((y_i+1-y)log(S_i)+(y-y_i)log(S_i+1))

其中，y_i代表y的前一个标签，y_i+1代表y的后一个标签；DFL(S_i，S_i+1)代表Distribution Focal Loss损失；其他字符所代表的含义与上一公式中相同，在此不再赘述；其形式上与QFL的右半部分很类似，含义是以类似交叉熵的形式去优化与标签y最接近的一左一右两个位置的概率，从而让网络快速地聚焦到目标位置的邻近区域的分布中去。

最后，QFL和DFL其实可以统一地表示为GFL，并将其称之为Generalized FocalLoss，同时也是为了方便指代，其具体形式如下：

GFL(p_yt,p_yr)＝-|y-(y_tp_yt+y_rp_yr)|^β((y_r-y)log(p_yt)+(y-y_t)log(p_yr))

其中，y_t代表真实的标签；y_r代表预测的标签。

参见图6，在一些实施方式中，每个所述Cascade RCNN检测器均可以包括卷积层、第一阶段网络和第二阶段网络，所述第二阶段网络包括一级网络至三级网络，所述步骤S301可以包括步骤S401～S406。

步骤S401：将所述区域图像的特征提取结果经过所述卷积层，得到卷积结果。

步骤S402：设定多个锚框作为所述卷积结果的第一阶段基准框组。

步骤S403：利用所述第一阶段网络的分类网络和回归网络，从所述第一阶段基准框组中确定第二阶段基准框组。

步骤S404：利用所述一级网络的分类网络和回归网络，从所述第二阶段基准框组中确定一级检测框组。

步骤S405：利用二级网络的分类网络和回归网络，从所述一级检测框组中确定二级检测框组。

步骤S406：利用所述三级网络的分类网络和回归网络，从所述二级检测框组中确定三级检测框组作为所述区域图像对应的所述Cascade RCNN检测器的检测结果。

由此，将特征提取结果经过卷积得到卷积结果，设定作为第一阶段基准框组的多个锚框，然后从中确定出第二阶段基准框组，然后利用一级至三级网络，依次得到第一至第三检测框组，并将第三检测框组作为区域图像对应的Cascade RCNN检测器的检测结果；设定多个锚框作为卷积结果的第一阶段基准框组，可以提高第一阶段网络的运作效率，利用多级网络最终得到第三检测框组并将其作为区域图像对应的Cascade RCNN检测器的检测结果，能够提高检测结果的准确度，并且，由于分类任务往往需要更多图像语义信息，而回归任务需要更多空间信息，因此，该技术方案所采用的双阶段网络结构考虑了不同需求的特性，使得检测效率更高，检测结果的准确度更高。。

参见图7，在一些实施方式中，每个所述Cascade RCNN检测器还可以包括GlobalContext block，所述步骤S401可以包括步骤S501～S502。

步骤S501：将所述区域图像的特征提取结果输入所述Global Context block，得到全局上下文结果。

步骤S502：将所述全局上下文结果输入所述卷积层，得到所述卷积结果。

由此，Global Context block进一步提高了Cascade RCNN检测器的特征提取能力，Global Context block结合了Non-local的上下文建模能力，并继承了SE-Net的节省计算量的优点，可以有效的对特征提取结果的上下文进行建模。

在一些应用场景中，Global Context block(GC block)的结构如图8所示，为了进一步提高特征提取能力，在检测器中添加Global Context block来进一步提高特征提取能力。GC block是一种新的全局上下文建模框架，既能够像SNL block一样建立有效的长距离依赖，又能像SE block一样省计算量。transform模块有大量的参数。为了获得SE block轻量的优点，1x1卷积用bottleneck transf orm模块来取代，能够显著的降低参数量(其中r是降低率)。因为两层bottleneck transform增加了优化难度，所以在ReLU前面增加一个layer normalization层以降低优化难度且作为正则提高了泛化性。

GC block的公式为：

是global attention pooling的权值，δ(·)＝W_v2ReLU(LN(W_v1(·)))表示为bottleneck transform。GC block共有三个步骤：global attentionpooling用于上下文建模；bottleneck transform来捕获通道间依赖；broadcast element-wise addition用于特征融合。

其中，W_k代表一个简单的非线性变换矩阵；x_j代表为枚举的位置的输入数据；X_j代表输入数据x的第j列；N_p代表输入数据的H*W，即长乘宽(即区域图像的面积)。

在一些实施方式中，所述步骤S104可以包括步骤S601。

步骤S601：使用Weighted Box Fusion算法将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果。

由此，将各检测器的检测结果使用Weighted Box Fusion进行融合，Weigh tedBox Fusion使用全部的检测器的检测结果，通过进行组合来获得更加准确的融合检测结果，从而提升待检测图像的检测结果的精度。

参见图9，在一些实施方式中，所述方法还可以包括步骤S106：训练得到所述目标检测模型，参见图10，所述步骤S106可以包括步骤S701～S705。

步骤S701：获取训练图像及其标注数据，所述训练图像的标注数据用于指示所述训练图像中的行人和/或车辆的标注检测框。

其中，所述训练图像及其标注数据可以从预先存储于存储介质中的训练数据库中获取，也可以在云服务器中检索获取。训练图像例如是由高清摄像头所拍摄的道路图像，或者是利用车载高清摄像头所拍摄得到的车辆周围环境图像。

步骤S702：将训练图像输入所述目标检测模型的特征提取网络，得到所述训练图像的特征提取结果。

步骤S703：将所述训练图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述训练图像对应的各检测器的检测结果。

步骤S704：将所述训练图像对应的各检测器的检测结果融合，得到所述训练图像的检测结果，所述训练图像的检测结果用于指示所述训练图像中的行人和/或车辆的预测检测框。

步骤S705：基于所述训练图像的检测结果和标注数据，对所述目标检测模型的特征提取网络和多个检测器的参数进行更新。

由此，利用训练图像中的行人和/或车辆的标注检测框对目标检测模型的特征提取网络和多个检测器的参数进行更新，使得训练得到的目标检测模型在应用于待检测图像中的目标检测时，检测准确度更高。

参见图11，本申请实施例还提供一种目标检测装置，其具体实现方式与上述目标检测方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

所述装置包括：区域图像模块101，用于使用预设的滑动窗口从待检测图像中获取多个区域图像，所述待检测图像是拍摄行人和/或车辆得到的；提取特征模块102，用于针对每个区域图像，将所述区域图像输入目标检测模型的特征提取网络，得到所述区域图像的特征提取结果，所述特征提取网络采用ResNeXT-101；分别检测模块103，用于将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述区域图像对应的各检测器的检测结果；结果融合模块104，用于将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果；检测结果模块105，用于基于各所述区域图像的融合检测结果，获取所述待检测图像的检测结果，所述待检测图像的检测结果用于指示所述待检测图像中的行人和/或车辆的检测框。

参见图12，在一些实施方式中，所述提取特征模块102可以包括：第一提取子模块201，用于将所述区域图像输入所述特征提取网络的Stage₁，得到所述区域图像对应的特征图F₁；第二提取子模块202，用于将所述区域图像对应的特征图F₁输入所述特征提取网络的Stage_{1_1}，得到所述区域图像对应的特征图F₂；第三提取子模块203，用于将所述区域图像对应的特征图F₁输入所述特征提取网络的Stage₂，得到所述区域图像对应的特征图F₃；第四提取子模块204，用于将所述区域图像对应的特征图F₃和特征图F₂相加后输入所述特征提取网络的Stage_{2_2}，得到所述区域图像对应的特征图F₄；第五提取子模块205，用于将所述区域图像对应的特征图F₃输入所述特征提取网络的Stage₃，得到所述区域图像对应的特征图F₅；第六提取子模块206，用于将所述区域图像对应的特征图F₅和特征图F₄相加后输入所述特征提取网络的Stage_{3_3}，得到所述区域图像对应的特征图F₆；第七提取子模块207，用于将所述区域图像对应的特征图F₅输入所述特征提取网络的Stage₄，得到所述区域图像对应的特征图F₇；第八提取子模块208，用于将所述区域图像对应的特征图F₇和特征图F₆相加后输入所述特征提取网络的Stage_{4_4}，得到所述区域图像对应的特征图F₈，并将所述区域图像对应的特征图F₈作为所述区域图像对应的融合特征图M₃；第一融合子模块209，用于将所述区域图像对应的特征图F₈输入所述特征提取网络的第三插值单元，得到所述区域图像对应的特征图F₈的插值结果，并将所述区域图像对应的特征图F₈的插值结果和所述区域图像对应的特征图F₆相加，得到所述区域图像对应的融合特征图M₂；第二融合子模块210，用于将所述区域图像对应的融合特征图M₂输入所述特征提取网络的第二插值单元，得到所述区域图像对应的融合特征图M₂的插值结果，并将所述区域图像对应的融合特征图M₂的插值结果和所述区域图像对应的特征图F₄相加，得到所述区域图像对应的融合特征图M₁；第三融合子模块211，用于将所述区域图像对应的融合特征图M₁输入所述特征提取网络的第一插值单元，得到所述区域图像对应的融合特征图M₁的插值结果，并将所述区域图像对应的融合特征图M₁的插值结果和所述区域图像对应的特征图F₂相加，得到所述区域图像对应的融合特征图M₀；提取结果子模块212，用于将所述区域图像对应的融合特征图M₃至融合特征图M₀作为所述区域图像对应的特征提取结果。

在一些实施方式中，所述多个检测器可以包括至少两个Cascade RCNN检测器和一个Generalize Focal Loss检测器，所述分别检测模块103可以包括：检测结果子模块301，用于将所述区域图像的特征提取结果分别输入所述目标检测模型的至少两个CascadeRCNN检测器和一个Generalize Focal Loss检测器，得到所述区域图像对应的各检测器的检测结果，每个Cascade RCNN检测器用于检测一个类别的检测框，其中，行人的检测框包括可见身体检测框、全身检测框和头部检测框三个类别中的至少两种，车辆的检测框包括可见范围框一个类别。

参见图13，在一些实施方式中，每个所述Cascade RCNN检测器均可以包括卷积层、第一阶段网络和第二阶段网络，所述第二阶段网络包括一级网络至三级网络，检测结果子模块301可以包括：卷积结果单元401，用于将所述区域图像的特征提取结果经过所述卷积层，得到卷积结果；第一基准框单元402，用于设定多个锚框作为所述卷积结果的第一阶段基准框组；第二基准框单元403，用于利用所述第一阶段网络的分类网络和回归网络，从所述第一阶段基准框组中确定第二阶段基准框组；第一检测框单元404，用于利用所述一级网络的分类网络和回归网络，从所述第二阶段基准框组中确定一级检测框组；第二检测框单元405，用于利用二级网络的分类网络和回归网络，从所述一级检测框组中确定二级检测框组；结果确定单元406，用于利用所述三级网络的分类网络和回归网络，从所述二级检测框组中确定三级检测框组作为所述区域图像对应的所述Cascade RCNN检测器的检测结果。

参见图14，在一些实施方式中，每个所述Cascade RCNN检测器还可以包括GlobalContext block，所述卷积结果单元401可以包括：上下文子单元501，用于将所述区域图像的特征提取结果输入所述Global Context block，得到全局上下文结果；结果得到子单元502，用于将所述全局上下文结果输入所述卷积层，得到所述卷积结果。

在一些实施方式中，所述结果融合模块104可以包括：融合结果子模块601，用于使用Weighted Box Fusion算法将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果。

参见图15，在一些实施方式中，所述目标检测装置还可以包括：模型训练模块106，用于训练所述目标检测模型，参见图16，所述模型训练模块106包括：训练获取子模块701，用于获取训练图像及其标注数据，所述训练图像的标注数据用于指示所述训练图像中的行人和/或车辆的标注检测框；特征提取子模块702，用于将训练图像输入所述目标检测模型的特征提取网络，得到所述训练图像的特征提取结果；结果检测子模块703，用于将所述训练图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述训练图像对应的各检测器的检测结果；融合检测子模块704，用于将所述训练图像对应的各检测器的检测结果融合，得到所述训练图像的检测结果，所述训练图像的检测结果用于指示所述训练图像中的行人和/或车辆的预测检测框；参数更新子模块705，用于基于所述训练图像的检测结果和标注数据，对所述目标检测模型的特征提取网络和多个检测器的参数进行更新。

参见图17，本申请实施例还提供了一种电子设备200，电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中目标检测方法的步骤，其具体实现方式与上述目标检测方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有至少一个程序模块215的实用工具214，这样的程序模块215包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序被执行时实现本申请实施例中目标检测方法的步骤，其具体实现方式与上述目标检测方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

图18示出了本实施例提供的用于实现上述目标检测方法的程序产品300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品300不限于此，在本申请中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，已符合专利法所强调的功能增进及使用要件，本申请以上的说明书及说明书附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

使用预设的滑动窗口从待检测图像中获取多个区域图像，所述待检测图像是拍摄行人和/或车辆得到的；

针对每个区域图像，将所述区域图像输入目标检测模型的特征提取网络，得到所述区域图像的特征提取结果，所述特征提取网络采用ResNeXT-101；

将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述区域图像对应的各检测器的检测结果；

将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果；

基于各所述区域图像的融合检测结果，获取所述待检测图像的检测结果，所述待检测图像的检测结果用于指示所述待检测图像中的行人和/或车辆的检测框。

2.根据权利要求1所述的目标检测方法，其特征在于，所述将所述区域图像输入目标检测模型的特征提取网络，得到所述区域图像的特征提取结果，包括：

将所述区域图像输入所述特征提取网络的Stage₁，得到所述区域图像对应的特征图F₁；

将所述区域图像对应的特征图F₁输入所述特征提取网络的Stage_{1_1}，得到所述区域图像对应的特征图F₂；

将所述区域图像对应的特征图F₁输入所述特征提取网络的Stage₂，得到所述区域图像对应的特征图F₃；

将所述区域图像对应的特征图F₃和特征图F₂相加后输入所述特征提取网络的Stage_{2_2}，得到所述区域图像对应的特征图F₄；

将所述区域图像对应的特征图F₃输入所述特征提取网络的Stage₃，得到所述区域图像对应的特征图F₅；

将所述区域图像对应的特征图F₅和特征图F₄相加后输入所述特征提取网络的Stage_{3_3}，得到所述区域图像对应的特征图F₆；

将所述区域图像对应的特征图F₅输入所述特征提取网络的Stage₄，得到所述区域图像对应的特征图F₇；

将所述区域图像对应的特征图F₇和特征图F₆相加后输入所述特征提取网络的Stage_{4_4}，得到所述区域图像对应的特征图F₈，并将所述区域图像对应的特征图F₈作为所述区域图像对应的融合特征图M₃；

将所述区域图像对应的特征图F₈输入所述特征提取网络的第三插值单元，得到所述区域图像对应的特征图F₈的插值结果，并将所述区域图像对应的特征图F₈的插值结果和所述区域图像对应的特征图F₆相加，得到所述区域图像对应的融合特征图M₂；

将所述区域图像对应的融合特征图M₂输入所述特征提取网络的第二插值单元，得到所述区域图像对应的融合特征图M₂的插值结果，并将所述区域图像对应的融合特征图M₂的插值结果和所述区域图像对应的特征图F₄相加，得到所述区域图像对应的融合特征图M₁；

将所述区域图像对应的融合特征图M₁输入所述特征提取网络的第一插值单元，得到所述区域图像对应的融合特征图M₁的插值结果，并将所述区域图像对应的融合特征图M₁的插值结果和所述区域图像对应的特征图F₂相加，得到所述区域图像对应的融合特征图M₀；

将所述区域图像对应的融合特征图M₃至融合特征图M₀作为所述区域图像对应的特征提取结果。

3.根据权利要求1所述的目标检测方法，其特征在于，所述多个检测器包括至少两个Cascade RCNN检测器和一个Generalize Focal Loss检测器，所述将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述区域图像对应的各检测器的检测结果，包括：

将所述区域图像的特征提取结果分别输入所述目标检测模型的至少两个Ca scadeRCNN检测器和一个Generalize Focal Loss检测器，得到所述区域图像对应的各检测器的检测结果，每个Cascade RCNN检测器用于检测一个类别的检测框，其中，行人的检测框包括可见身体检测框、全身检测框和头部检测框三个类别中的至少两种，车辆的检测框包括可见范围框一个类别。

4.根据权利要求3所述的目标检测方法，其特征在于，每个所述Cascade RCNN检测器均包括卷积层、第一阶段网络和第二阶段网络，所述第二阶段网络包括一级网络至三级网络，所述Cascade RCNN检测器的检测过程如下：

将所述区域图像的特征提取结果经过所述卷积层，得到卷积结果；

设定多个锚框作为所述卷积结果的第一阶段基准框组；

利用所述第一阶段网络的分类网络和回归网络，从所述第一阶段基准框组中确定第二阶段基准框组；

利用所述一级网络的分类网络和回归网络，从所述第二阶段基准框组中确定一级检测框组；

利用二级网络的分类网络和回归网络，从所述一级检测框组中确定二级检测框组；

利用所述三级网络的分类网络和回归网络，从所述二级检测框组中确定三级检测框组作为所述区域图像对应的所述Cascade RCNN检测器的检测结果。

5.根据权利要求4所述的目标检测方法，其特征在于，每个所述Cascade RCNN检测器还包括Global Context block，所述将所述区域图像的特征提取结果经过所述卷积层，得到卷积结果，包括：

将所述区域图像的特征提取结果输入所述Global Context block，得到全局上下文结果；

将所述全局上下文结果输入所述卷积层，得到所述卷积结果。

6.根据权利要求1所述的目标检测方法，其特征在于，所述将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果，包括：

使用Weighted Box Fusion算法将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果。

7.根据权利要求1所述的目标检测方法，其特征在于，所述目标检测模型的训练过程如下：

获取训练图像及其标注数据，所述训练图像的标注数据用于指示所述训练图像中的行人和/或车辆的标注检测框；

将训练图像输入所述目标检测模型的特征提取网络，得到所述训练图像的特征提取结果；

将所述训练图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述训练图像对应的各检测器的检测结果；

将所述训练图像对应的各检测器的检测结果融合，得到所述训练图像的检测结果，所述训练图像的检测结果用于指示所述训练图像中的行人和/或车辆的预测检测框；

基于所述训练图像的检测结果和标注数据，对所述目标检测模型的特征提取网络和多个检测器的参数进行更新。

8.一种目标检测装置，其特征在于，所述装置包括：

区域图像模块，用于使用预设的滑动窗口从待检测图像中获取多个区域图像，所述待检测图像是拍摄行人和/或车辆得到的；

提取特征模块，用于针对每个区域图像，将所述区域图像输入目标检测模型的特征提取网络，得到所述区域图像的特征提取结果，所述特征提取网络采用ResNeXT-101；

分别检测模块，用于将所述区域图像的特征提取结果分别输入所述目标检测模型的多个检测器，得到所述区域图像对应的各检测器的检测结果；

结果融合模块，用于将所述区域图像对应的各检测器的检测结果融合，得到所述区域图像的融合检测结果；

检测结果模块，用于基于各所述区域图像的融合检测结果，获取所述待检测图像的检测结果，所述待检测图像的检测结果用于指示所述待检测图像中的行人和/或车辆的检测框。

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述目标检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述目标检测方法的步骤。