CN112686314B

CN112686314B - 基于远距离拍摄场景的目标检测方法、装置及存储介质

Info

Publication number: CN112686314B
Application number: CN202011623280.3A
Authority: CN
Inventors: 牛群遥; 刘文杰; 葛鹤银
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-03-24
Anticipated expiration: 2040-12-30
Also published as: CN112686314A

Abstract

本申请涉及一种基于远距离拍摄场景的目标检测方法、装置及存储介质，属于深度学习技术领域，该方法包括：获取待检测图像；将待检测图像输入预先训练的目标检测网络，得到待检测目标的目标检测结果；该目标检测网络基于改进后的YOLOV3系列模型建立；改进后的YOLOV3系列模型是对原始的YOLOV3系列模型进行缩减和修改得到的；可以解决现有的小目标检测速度降低、模型计算资源消耗较大的问题；通过模型修改可以减小模型的下采样倍数，从而提升模型对小目标的检测效果；通过模型缩减，可以保证既未破坏网络的整体结构，又极大地减少了模型参数量，提高目标检测效率。

Description

基于远距离拍摄场景的目标检测方法、装置及存储介质

【技术领域】

本申请涉及一种基于远距离拍摄场景的目标检测方法、装置及存储介质，属于深度学习技术领域。

【背景技术】

随着人工智能的发展，基于深度学习的目标检测方法被广泛使用。目标检测是指：对于给定的一张图像，能够识别出该图像中的目标并给出该目标的位置。比如：在智能交通领域，目标检测方法可以实现卡口、电警等场景中的车辆检测。在远距离拍摄场景中，目标在图像中的尺寸通常较小，由于小尺寸目标的特征提取难度较大，这就会造成基于深度学习的目标检测方法应用在远距离拍摄场景中时，得到的目标检测结果不够准确的问题。

为了实现对远距离拍摄场景得到的小尺寸目标的检测，一种典型的目标检测方法包括：基于YOLOV3网络进行目标检测，将YOLOV3网络中yolo层个数由三个增加到四个，同时锚框(anchor)个数由9个增加为12个，增加的yolo层及anchor用于融合提取浅层的特征信息，从而实现小尺寸目标的检测。

然而，增加yolo层及anchor虽然可以实现对小尺寸目标的检测，但是模型计算量增大，这就会导致降低检测效率和实时性的问题，同时，会提高对硬件设备的算力及存储空间的要求。

【发明内容】

本申请提供了一种基于远距离拍摄场景的目标检测方法、装置及存储介质，可以解决通过增加YOLOV3网络中yolo层个数和anchor个数，来提高模型对小目标进行检测的精度时，导致的目标检测速度降低、模型计算资源消耗较大的问题。本申请提供如下技术方案：

第一方面，提供一种基于远距离拍摄场景的目标检测方法，所述方法包括：

获取待检测图像，所述待检测图像是对待检测目标进行远距离图像采集得到的；

将所述待检测图像输入预先训练的目标检测网络，得到所述待检测目标的目标检测结果；

其中，所述目标检测网络基于改进后的YOLOV3系列模型建立；所述改进后的YOLOV3系列模型是对原始的YOLOV3系列模型进行缩减和修改得到的。

可选地，所述原始的YOLOV3系列模型支持对输入图像分别进行多次不同倍数的下采样，每种倍数的下采样对应一个预设步长的卷积层，且所述原始的YOLOV3系列模型分别在第一倍数的下采样、第二倍数的下采样和第三倍数的下采样时进行目标检测；

其中，对所述原始的YOLOV3系列模型进行修改包括：删除所述原始的YOLOV3系列模型中与所述第一倍数的下采样对应的第一卷积层，并删除位于所述第一卷积层之后的网络层；增加与第四倍数的下采样对应的第二卷积层，并增加位于所述第二卷积层之后的网络层，以分别在所述第二倍数的下采样、所述第三倍数的下采样和所述第四倍数的下采样时进行目标检测，所述第四倍数小于所述第一倍数。

可选地，对所述原始的YOLOV3系列模型进行缩减包括：缩减所述原始的YOLOV3系列模型中残差模块的数量；和/或，缩减所述原始的YOLOV3系列模型中滤波器的数量。

可选地，所述预设步长的卷积层为步长为2的卷积层。

可选地，所述改进后的YOLOV3系列模型包括空间金字塔池化结构SPP，所述SPP用于提取输入图像的局部特征和全局特征。

可选地，所述目标检测网络使用训练数据对所述改进后的YOLOV3系列模型进行训练得到，所述训练数据包括样本图像、以及所述样本图像中的目标标签；

其中，所述目标标签包括第一标签和/或第二标签，所述第一标签用于指示所述样本图像中符合预设识别标准的目标，所述第二标签用于指示所述样本图像中不符合预设识别标准的目标。

可选地，对于包括所述第二标签的样本图像，所述样本图像中与所述第二标签相对应的图像区域覆盖有预设贴图。

可选地，所述预设贴图包括以下几种中的至少一种：预设颜色的图像、具有随机噪声的图像。

第二方面，提供一种基于远距离拍摄场景的目标检测装置，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面提供的基于远距离拍摄场景的目标检测方法。

第三方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序被处理器执行时用于实现第一方面提供的基于远距离拍摄场景的目标检测方法。

本申请的有益效果至少包括：通过获取待检测图像；将待检测图像输入预先训练的目标检测网络，得到待检测目标的目标检测结果；其中，目标检测网络基于改进后的YOLOV3系列模型建立；改进后的YOLOV3系列模型是对原始的YOLOV3系列模型进行缩减和修改得到的；可以解决通过增加YOLOV3网络中yolo层个数和anchor个数，来提高模型对小目标进行检测的精度时，导致的目标检测速度降低、模型计算资源消耗较大的问题；由于下采样倍数减小，能够使得网络提取更浅层的特征，感受野范围与小目标更为接近，因此，通过对原始的YOLOV3系列模型进行修改，可以减小模型的下采样倍数，从而减小模型的感受野，提升模型对小目标的检测效果。同时，模型层数减少，可以减小模型大小，减少模型计算量，提高模型检测速度。同时，通过对原始的YOLOV3系列模型进行缩减，减少每层滤波器个数，和/或以残差模型为单位减少层数，既未破坏网络的整体结构，又极大地减少了模型参数量，可以使得模型大小由两百多兆压缩为10兆左右，提高了目标检测效率，从而满足实时性检测的需求。

另外，通过在模型训练前，先在具有第二标签的样本图像上的对应标签位置覆盖预设贴图，避免遮挡或模糊的目标对训练结果的不利影响，使网络在训练的过程中更容易收敛，同时使训练的样本标注信息更准确、无歧义性，大大减少了在实际应用中的误检数量。之后，将训练样本先统一缩放至训练输入大小，再进行训练迭代，通过缩放预处理，不仅可以减少样本库储存空间，同时提高训练时的读图效率，从而大大缩减训练时间，加快开发流程。

另外，通过设置YOLOV3系列模型为YOLOV3-SPP，由于增加了SPP的YOLOV3可以有效提取局部特征和全局特征，提高了输出特征图的表达能力，因此，更适用于检测目标尺度相差较大的场景。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

【附图说明】

图1是本申请一个实施例提供的YOLOV3的网络结构示意图；

图2是本申请一个实施例提供的基于远距离拍摄场景的目标检测方法的流程图；

图3是本申请一个实施例提供的目标检测网络的网络结构示意图；

图4是本申请又一个实施例提供的基于远距离拍摄场景的目标检测装置的框图；

图5是本申请再一个实施例提供的基于远距离拍摄场景的目标检测装置的框图。

【具体实施方式】

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍。

卷积神经网络(Convolutional Neural Network，CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)。

卷积层是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector)，类似于一个前馈神经网络的神经元(neuron)。卷积层参数包括卷积核大小、步长和填充，三者共同决定了卷积层输出特征图的尺寸，是卷积神经网络的超参数。

其中，卷积核大小可以指定为小于输入图像尺寸的任意值，卷积核越大，可提取的输入特征越复杂；卷积步长定义了卷积核相邻两次扫过特征图时位置的距离，卷积步长为1时，卷积核会逐个扫过特征图的元素，步长为n时会在下一次扫描跳过n-1个像素；填充是在特征图通过卷积核之前人为增大其尺寸以抵消计算中尺寸收缩影响的方法。

在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。

池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。

你只需要看一遍(You only look once，YOLO)算法：是一种基于深度神经网络的目标识别和定位算法，YOLO算法的运行速度很快，可以用于实时系统。目前，YOLO算法包括YOLOv1版本、YOLOv2版本和YOLOV3版本，每个新版本是在原有版本基础上不断改进演化得到的。

本申请中，以YOLOV3版本为例进行说明，参考图1所示的YOLOV3版本的模型结构示意图，大量使用残差的跳层连接，并且为了降低池化带来的梯度负面效果，YOLOV3中没有池化层，使用卷积层的步长来实现下采样，比如：使用步长为2的卷积层来进行下采样。同时，为了加强算法对小目标检测的精确度，YOLO V3中采用类似FPN的上采样(upsample)和融合做法(最后融合了3个尺度(scale)，其他两个scale的大小分别是26×26和52×52)，在多个scale的特征图(feature map)上做检测。根据图1可知，YOLOV3进行了3次检测，分别是在32倍下采样，16倍下采样，8倍下采样时进行检测，得到y1，y2和y3。

YOLOV3-SPP：是yoloV3网络的改进版，在yoloV3网络的基础上增加了空间金字塔池化(Spatial Pyramid Pooling，SPP)模块，SPP位于yoloV3网络的第五层卷积和第六层卷积之间，SPP模块由不同的池化操作组成。在YOLOV3-SPP中，SPP模块由四个并行的分支构成，分别是最大池化核尺寸为5×5、9×9、13×13的最大池化和跨接在9×9最大池化层之前和之后的一个跳跃连接。

SPP模块中，最大的池化核大小尽可能地接近或者等于需要池化的特征图的大小，从而实现提取局部特征和全局特征，特征图经过局部特征与全局特征相融合后，丰富了特征图的表达能力，有利于待检测图像中目标大小差异较大的情况，提高了模型的检测精度。

传统的目标检测方式包括：通过增加YOLOV3网络中yolo层个数和anchor个数，从而提高模型对小目标进行检测的精度。然而，网络层数和锚框数量的增加需要消耗更多的计算资源，这就会导致检测速度降低、计算资源消耗较大的问题。

基于上述技术问题，本申请提供一种基于远距离拍摄场景的目标检测的技术方案，该技术方案对用于进行小尺寸目标检测的原始的YOLOV3系列模型进行了改进，对原始的YOLOV3系列模型进行缩减和修改，不仅可以提高原始的YOLOV3系列模型对小尺寸目标进行检测的精度，还可以减小网络层数，提高实时性、节省计算资源。

本申请中，目标包括但不限于：车辆、人脸、飞行物等，本申请不对目标的类型作限定。

另外，小尺寸目标是指：在图像中占用的图像区域与该图像的总区域之比小于或等于尺寸阈值的目标。其中，尺寸阈值通常较小。

可选地，本申请以各个实施例的执行主体为电子设备为例进行说明，该电子设备可以为终端或服务器等具有计算能力的设备，其中，终端可以为手机、计算机、平板设备、可穿戴式设备等，本申请不对电子设备和终端的类型作限定。

下面对本申请提供的基于远距离拍摄场景的目标检测方法进行介绍。本申请中，目标检测方法用于对远距离拍摄场景中拍摄到的图像进行目标检测。换句话说，目标在待检测图像中的尺寸通常较小，比如：小于尺寸阈值。

其中，远距离拍摄场景包括但不限于以下几种中的至少一种：

场景1：高空相机拍摄的各种场景，如：高速公路，停车场，红路灯口等场景中对车辆的检测。

场景2：大场地人员监控场景，如：卡口、会场人员监控等场景中对人脸的检测。

当然，远距离拍摄场景也可以为其它场景，本申请在此不再一一列举。

图2是本申请一个实施例提供的基于远距离拍摄场景的目标检测方法的流程图。该方法至少包括以下几个步骤：

步骤201，获取待检测图像，该待检测图像是对待检测目标进行远距离图像采集得到的。

本实施例中，待检测图像是在远距离拍摄场景中，使用采集设备进行图像采集得到的。

可选地，待检测图像可以为电子设备采集到的；或者，为接收到其它设备发送的；或者，从存储介质中读取到的。另外，待检测图像可以为视频流中的一帧图像，或者为单独的一张图像，本实施例不对待检测图像的来源作限定。

步骤202，将待检测图像输入预先训练的目标检测网络，得到待检测目标的目标检测结果；其中，目标检测网络基于改进后的YOLOV3系列模型建立；改进后的YOLOV3系列模型是对原始的YOLOV3系列模型进行缩减和修改得到的。

由于下采样倍数减小，能够使得网络提取更浅层的特征，感受野范围与小目标更为接近，从而更能够提取更细节的小尺度信息，提升对小目标检测的效果。基于此，本实施例中，通过对原始的YOLOV3系列模型进行修改，实现在更小的下采样倍数时进行目标检测，从而减小模型的感受野，提升模型对小目标的检测效果。同时，模型层数减少，可以减小模型大小，减少模型计算量，提高模型检测速度。

本实施例中，对模型进行修改包括对模型检测时对应的下采样倍数进行修改。

在一个示例中，原始的YOLOV3系列模型支持对输入图像分别进行多次不同倍数的下采样，每种倍数的下采样对应一个预设步长的卷积层，且原始的YOLOV3系列模型分别在第一倍数的下采样、第二倍数的下采样和第三倍数的下采样时进行目标检测；

其中，对原始的YOLOV3系列模型进行修改包括：删除原始的YOLOV3系列模型中与第一倍数的下采样对应的第一卷积层，并删除位于第一卷积层之后的网络层；增加与第四倍数的下采样对应的第二卷积层，并增加位于第二卷积层之后的网络层，以分别在第二倍数的下采样、第三倍数的下采样和第四倍数的下采样时进行目标检测，第四倍数小于第一倍数。

示意性地，第一倍数大于第二倍数大于第三倍数，且第四倍数小于第一倍数、第二倍数和第三倍数。

比如：原始的YOLOV3系列模型参考图1所示，原始的YOLOV3系列模型分别在倍数为[32，16，8]的下采样时进行检测，相应地，YOLO的三个输出层y1，y2和y3的stride为[32，16，8]。本实施例中，参考图3，删除倍数为32的下采样对应的第一卷积层及第一卷积层之后的网络层，增加倍数为4的下采样对应的第二卷积层及第二卷积层之后的网络层，使得YOLO的三个输出层y1，y2和y3的stride为[16，8，4]。这样，YOLO输出层的stride变小后，能够提取更浅层的特征，感受野范围与小目标更为接近，更能够提取更细节的小尺度信息，从而明显提升了对小目标检测的效果。

在YOLOV3系列模型中，预设步长的卷积层为步长为2的卷积层。

其中，对原始的YOLOV3系列模型进行缩减包括：缩减原始的YOLOV3系列模型中残差模块的数量；和/或，缩减原始的YOLOV3系列模型中滤波器的数量。

比如：将图3与图1所示的网络模型进行对比可知，缩减后的网络模型删除了15个残差模块，且每层滤波器(Filters)的个数缩减一半。这样，既不破坏网络的整体结构，又极大地减少了模型参数量，模型大小可以由两百多兆压缩为10兆左右，提高了模型检测效率，从而满足实时性检测的需求。

可选地，改进后的YOLOV3系列模型包括SPP，该SPP用于提取输入图像的局部特征和全局特征。由于增加了SPP的YOLOV3可以有效提取局部特征和全局特征，提高了输出特征图的表达能力，因此，更适用于检测目标尺度相差较大的场景。

本实施例中，目标检测网络使用训练数据对改进后的YOLOV3系列模型进行训练得到，该训练数据包括样本图像、以及样本图像中的目标标签。其中，目标标签包括第一标签和/或第二标签，第一标签用于指示样本图像中符合预设识别标准的目标，第二标签用于指示样本图像中不符合预设识别标准的目标。

可选地，预设识别标准包括但不限于以下几种中的至少一种：目标被遮挡面积小于预设面积、目标的清晰度大于清晰度阈值，当然，预设识别标准还可以基于其它影响识别结果的因素设置，本实施例不对预设识别标准的设置方式作限定。

本实施例中，目标检测网络的训练过程至少包括以下几个步骤：

步骤1，获取训练数据。

电子设备获取在远距离拍摄场景中拍摄得到的样本图像；对该样本图像进行标注，得到该样本图像中的目标标签。

可选地，样本图像是在不同的远距离拍摄场景进行图像采集或者视频采集得到的。在视频采集方式中，对于目标移动速度缓慢的场景，采用较大帧率间隔截取图像数据，得到样本图像；对于目标移动速度较快的场景，采用较小的帧率间隔截取图像数据，得到样本图像。这样，可以极大地减少冗余数据，避免重复的标注工作。

另外，为了保证样本图像的多样性，样本图像的采集环境包括在不同时间段、不同天气的采集，从而保证样本图像具有多种光照情况和多种清晰度情况。

可选地，目标标签的标注可以由用户手动标注，或者由电子设备调用标注工具标注，本实施例不对目标标签的标注方式作限定。

目标标签的标注包括使用矩形框标注样本图像中目标，对于小目标，标注框应贴准目标标注，不能包括太多背景信息，以保证模型训练的准确性。在一个示例中，标注格式为“class x_center y_center width height”，其中class为目标的分类号，第一标签的分类号为0，第二标签的分类号为-1，x_center、y_center、width、height分别表示标注框的中心坐标及宽高。可选地，标注框的中心坐标和宽高归一化到[0.0-1.0]区间。转换后，将每个标注框的信息按照上述格式保存至名称与图片名称对应一致的txt文件中，每个目标标注信息在txt文件中占一行，得到标注文件。

为了避免样本图像中不符合预设识别标准的目标对训练结果的影响，对于包括第二标签的样本图像，样本图像中与第二标签相对应的图像区域覆盖有预设贴图。此时，在对样本图像进行标注之后，还包括：对于包括第二标签的样本图像，使用预设贴图覆盖样本图像中与第二标签相对应的图像区域。

其中，预设贴图用于在网络训练过程中，消除不符合预设识别标准的目标对训练结果的影响。可选地，预设贴图包括以下几种中的至少一种：预设颜色的图像、具有随机噪声的图像。其中，预设颜色可以为单一颜色，比如：黑色或者白色，本实施例不对预设颜色的实现方式作限定。

在对样本图像处理完成后，可以将样本图像统一缩放至预设尺寸，该预设尺寸与目标检测网络的输入尺寸相同。通过缩放预处理，可以减少样本库储存空间，提高训练时的读图效率，缩减训练时间，加快开发流程。

步骤2，使用训练数据对初始网络模型进行迭代训练，得到目标检测网络。

初始网络模型的网络结构与目标检测网络的网络结构相同。

本实施例中，基于Darknet框架，将样本图像输入初始网络模型，基于模型输出与该样本图像对应的目标标签之间的差异对该初始网络模型进行迭代训练。

可选地，训练的过程中，可以采用各种随机增强方式以增加样本图像的多样性。其中，随机增强方式包括但不限于：镜像、旋转、亮度、色度、和/或饱和度等变换方式，本实施例不对随机增强方式作限定。

可选地，可以采用多尺度训练方式对初始网络模型进行迭代训练，以使模型适用于对多种输入尺寸的图像进行目标检测。具体地，电子是而被中预设网络输入大小的尺度范围，每迭代一定的批次(batch)后，在该设定的尺度范围随机选取某一尺寸作为网络输入的大小，进行迭代训练，得到目标检测网络。

比如：设置输入图片初始尺寸为416×416×3、基础学习率为0.001、训练批次量为64、迭代次数为300000、损失函数为ciou(Complete-IoU Loss)；随机尺度scale的范围设置为[1/1.5,1.8]，并保证随机设置的网络输入尺寸为16的倍数，如缩放(scale)取1.6时，图片输入尺寸相应设置为656×656×3；然后基于随机梯度下降法(stochastic gradientdescent，SGD)进行迭代训练。

步骤3，对目标检测网络进行验证。

在一个示例中，以平均精度均值(mean Average Precision，mAP)为指标，选取在验证集上mAP最高的网络作为最终使用网络。验证集中的数据类型与训练数据的数据类型相同，但是数据内容与训练数据的数据内容不同。

比如：对于样本库，将标注样本库按8:2的比例划分为训练集和验证集，其中，训练集中的数据为训练数据。选取不同场景257张样本(包含12052个检测目标)作为测试集，通过网络预测后，经统计在该测试集上：设置输入尺寸为416×416×3时，准确率(precision)：92.81％，召回率(recall)：92.49％。

在训练得到目标检测网络后，将待检测图像经过缩放等预处理操作后，输入到该目标检测网络中，进行前向预测计算，得到目标检测结果。其中，目标检测结果包括目标在待检测图像中的置信度、类别、位置等信息。

综上所述，本实施例提供的基于远距离拍摄场景的目标检测方法，通过获取待检测图像；将待检测图像输入预先训练的目标检测网络，得到待检测目标的目标检测结果；其中，目标检测网络基于改进后的YOLOV3系列模型建立；改进后的YOLOV3系列模型是对原始的YOLOV3系列模型进行缩减和修改得到的；可以解决通过增加YOLOV3网络中yolo层个数和anchor个数，来提高模型对小目标进行检测的精度时，导致的目标检测速度降低、模型计算资源消耗较大的问题；由于下采样倍数减小，能够使得网络提取更浅层的特征，感受野范围与小目标更为接近，因此，通过对原始的YOLOV3系列模型进行修改，可以减小模型的下采样倍数，从而减小模型的感受野，提升模型对小目标的检测效果。同时，模型层数减少，可以减小模型大小，减少模型计算量，提高模型检测速度。同时，通过对原始的YOLOV3系列模型进行缩减，减少每层滤波器个数，和/或以残差模型为单位减少层数，既未破坏网络的整体结构，又极大地减少了模型参数量，可以使得模型大小由两百多兆压缩为10兆左右，提高了目标检测效率，从而满足实时性检测的需求。

另外，通过在多种远距离拍摄场景中获取样本图像，并且在训练时通过采用各种随机数据增强方式，进一步扩充了样本图像的数量，增加了样本数据的多样性，使得训练得到的目标检测模型对不同的应用场景都能有比较好的检测效果，鲁棒性强。

另外，通过在训练时，使用多尺度方式训练模型，使目标检测网络应用到多种尺度的各个应用场景中，如对于远处的小目标车辆或者相机架设过高的场景，可以通过设置更大的网络输入尺寸，就可对小目标进行很好地检测，而不必重新迭代训练网络，提高模型的应用范围。

图4是本申请一个实施例提供的基于远距离拍摄场景的目标检测装置的框图。该装置至少包括以下几个模块：图像获取模块410和目标检测模块420。

图像获取模块410，用于获取待检测图像，所述待检测图像是对待检测目标进行远距离图像采集得到的；

目标检测模块420，用于将所述待检测图像输入预先训练的目标检测网络，得到所述待检测目标的目标检测结果；

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的基于远距离拍摄场景的目标检测装置在进行基于远距离拍摄场景的目标检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将基于远距离拍摄场景的目标检测装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于远距离拍摄场景的目标检测装置与基于远距离拍摄场景的目标检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本申请一个实施例提供的基于远距离拍摄场景的目标检测装置的框图。该装置至少包括处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的基于远距离拍摄场景的目标检测方法。

在一些实施例中，基于远距离拍摄场景的目标检测装置还可选包括有：外围设备接口和至少一个外围设备。处理器501、存储器502和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，基于远距离拍摄场景的目标检测装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的基于远距离拍摄场景的目标检测方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的基于远距离拍摄场景的目标检测方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于远距离拍摄场景的目标检测方法，其特征在于，所述方法包括：

其中，所述目标检测网络基于改进后的YOLOV3系列模型建立；所述改进后的YOLOV3系列模型是对原始的YOLOV3系列模型进行缩减和修改得到的；

对模型进行修改包括对模型检测时对应的下采样倍数进行修改；

对原始的YOLOV3系列模型进行缩减包括：缩减原始的YOLOV3系列模型中残差模块的数量；和/或，缩减原始的YOLOV3系列模型中滤波器的数量；

所述原始的YOLOV3系列模型支持对输入图像分别进行多次不同倍数的下采样，每种倍数的下采样对应一个预设步长的卷积层，且所述原始的YOLOV3系列模型分别在第一倍数的下采样、第二倍数的下采样和第三倍数的下采样时进行目标检测；

2.根据权利要求1所述的方法，其特征在于，所述预设步长的卷积层为步长为2的卷积层。

3.根据权利要求1所述的方法，其特征在于，所述改进后的YOLOV3系列模型包括空间金字塔池化结构SPP，所述SPP用于提取输入图像的局部特征和全局特征。

4.根据权利要求1所述的方法，其特征在于，所述目标检测网络使用训练数据对所述改进后的YOLOV3系列模型进行训练得到，所述训练数据包括样本图像、以及所述样本图像中的目标标签；

5.根据权利要求4所述的方法，其特征在于，对于包括所述第二标签的样本图像，所述样本图像中与所述第二标签相对应的图像区域覆盖有预设贴图。

6.根据权利要求5所述的方法，其特征在于，所述预设贴图包括以下几种中的至少一种：预设颜色的图像、具有随机噪声的图像。

7.一种基于远距离拍摄场景的目标检测装置，其特征在于，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至6任一项所述的基于远距离拍摄场景的目标检测方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至6任一项所述的基于远距离拍摄场景的目标检测方法。