CN112686274B

CN112686274B - 目标对象的检测方法及设备

Info

Publication number: CN112686274B
Application number: CN202011638532.XA
Authority: CN
Inventors: 崔淼
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-04-18
Anticipated expiration: 2040-12-31
Also published as: CN112686274A

Abstract

本发明提供了一种目标对象的检测方法及设备，能够有效检测出图像中的小目标对象。该方法包括：获取图像；提取所述图像的多个尺度的特征图；对所述多个尺度的特征图分别采用与所述多个尺度的特征图对应的卷积核进行卷积，得到所述图像的目标特征图，其中，所述多个尺度的特征图对应的卷积核至少部分不相同，得到所述图像的目标特征图；基于所述目标特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置。

Description

目标对象的检测方法及设备

技术领域

本发明涉及目标检测领域，具体涉及一种目标对象的检测方法及设备。

背景技术

在我们日常生活中，汽车成了必不可少的交通工具。无人驾驶或辅助驾驶汽车随着科技成熟也开始应该实际生活中，它的实现减少了道路事故和交通拥堵，并改善了我们在拥挤城市中的流动性。其中，车辆检测、交通信号灯的检测是无人驾驶与辅助驾驶必不可少的一部分，如何在复杂交通道路上提高车辆和交通灯的检测效率，已经成为人们迫切所需。

但是，目前的一些检测方法对于外界环境遮挡车辆、小目标车辆和交通灯等小目标对象容易漏检，不能满足无人驾驶或辅助驾驶等领域中的高精度要求。

发明内容

有鉴于此，本申请实施例致力于提供一种目标对象的检测方法及设备，能够有效检测出图像中的小目标对象。

本申请第一方面提供了一种目标对象的检测方法，包括：获取图像；提取所述图像的多个尺度的特征图；对所述多个尺度的特征图分别采用与所述多个尺度的特征图对应的卷积核进行卷积，得到所述图像的目标特征图，其中，所述多个尺度的特征图对应的卷积核至少部分不相同；基于所述目标特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置。

基于上述技术方案，本申请在提取到图像的多个尺度的特征图之后，并不是采用固定的卷积核进行卷积，而是对不同尺度的特征图采用至少部分不相同的卷积核进行卷积，即对该多个尺度的特征图进行动态卷积，这样能够在卷积过程中保留更多的小目标对象的特征信息，从而能够有效检测出小目标对象。

在一种可能的实现方式中，所述方法还包括：将所述多个尺度的特征图进行融合，得到第一融合特征图；所述对所述多个尺度的特征图分别采用与所述多个尺度的特征图对应的卷积核进行卷积，得到所述图像的目标特征图，包括：对所述第一融合特征图中的不同特征图分别采用与其对应的卷积核进行卷积，得到所述图像的目标特征图，其中，所述第一融合特征图中的不同特征图对应的卷积核至少部分不相同。

在一种可能的实现方式中，所述基于所述目标特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置，包括：将所述目标特征图与所述第一融合特征图进行融合，得到第二融合特征图；基于所述第二融合特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置。

在一种可能的实现方式中，所述基于所述第二融合特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置，包括：将所述第二融合特征图输入到分割模型中，以分割出所述图像中的所述至少一个目标对象；将所述至少一个目标对象输入到所述分类模型中，以检测所述至少一个目标对象的类别；基于所述至少一个目标对象，通过提取所述至少一个目标对象的边界框，确定所述至少一个目标对象在所述图像中的位置。

在一种可能的实现方式中，所述提取所述图像的多个尺度的特征图，包括：基于第一卷积神经网络，在所述第一卷积神经网络的第n层卷积层，提取所述图像的第一特征图，其中，n为正整数，且n小于所述第一卷积神经网络的总卷积层数；对所述第一特征图分别进行多个不同的卷积处理，得到所述图像的多个第二特征图，其中，所述多个第二特征图的通道数不同；对所述多个第二特征图分别进行不同倍数的上采样处理，得到所述多个尺度的特征图。

本申请以第一卷积神经网络的第n层卷积层(中间卷积层)既保留有图像的高维和低维空间特征信息，又不至于包含太多的冗余信息，在该中间卷积层的基础上直接进行不同通道数的卷积操作，不仅能够得到图像的不同维度的特征信息，而且还能够降低计算量，提高处理速度。

在一种可能的实现方式中，所述第一卷积神经网络为MobileNet V2网络，所述基于第一卷积神经网络，在所述第一卷积神经网络的第n层卷积层，提取所述图像的第一特征图，包括：在所述MobileNet V2网络的第二瓶颈层提取所述图像的第一特征图。

在一种可能的实现方式中，在所述提取所述图像的多个尺度的特征图之前，所述方法还包括：利用角度分类模型对所述图像的偏转角度进行矫正。

本申请第二方面提供了一种检测系统，该检测系统包括：图像获取单元，用于获取图像；特征提取单元，用于提取所述图像的多个尺度的特征图；动态卷积单元，用于对所述多个尺度的特征图分别采用与所述多个尺度的特征图对应的卷积核进行卷积，得到所述图像的目标特征图，其中，所述多个尺度的特征图对应的卷积核至少部分不相同；目标检测单元，用于基于所述目标特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置。

本申请第三方面提供了一种设备，包括本申请第二方面提供的检测系统。

本申请第三方面提供了一种计算机可读存储介质，其上存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行本申请第一方面或第一方面中任一种可能的实现方式中的方法。

附图说明

图1是本申请实施例提供的一种目标对象的检测方法的示意性流程图。

图2是本申请实施例提供的对图像进行角度矫正的示意图。

图3是本申请实施例提供的另一种目标对象的检测方法的示意性流程图。

图4采用YOLACT算法的检测结果的示意图。

图5是采用本申请实施例的方法的检测结果的示意图。

图6是本申请实施例提供的一种检测系统的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

在我们日常生活中，汽车成了必不可少的交通工具。车是现代人生活必不可少的交通工具，它的发展和运用大大加速了人类的生活节奏。随着大数据和深度学习技术的不断完善和成熟，自动驾驶或辅助驾驶汽车技术取得了越来越快的进步，也渐渐被人们所关注，无人驾驶汽车随着科技成熟也开始应用于实际生活中。它的实现减少了道路事故和交通拥堵，并改善了我们在拥挤城市中的流动性，其中，车辆检测、交通信号灯的检测是无人驾驶与辅助驾驶必不可少的一部分。如何在复杂交通路上提高车辆和交通灯的检测效率，已经成为人们迫切所需。

随着技术的发展，基于深度学习检测算法的不断创新，车辆检测和交通灯检测的平均精度(average precision，AP)越来越高，但是目前车辆检测以及交通灯检测仍然受到外界环境干扰的影响，如天气、光照、遮挡、小目标车辆等，这会影响图像中目标对象的检测和识别效果。

目前的检测方法大致可以分为两种，一种是传统的检测方法，另一种是基于深度学习的检测方法。

传统的检测方法可以包括基于尺度不变特征变换(scale invariant featuretransformation，SIFT)、矩形(Haar)特征、可变形部件模型(deformable parts model，DPM)等的检测方法，这些检测方法存在车辆和交通灯漏检现象，尤其对于交通灯等小目标，漏检现象更为严重。另外，这些检测方法对检测环境有严格要求，例如只能检测白天车辆和交通灯，在下雨等环境中不适合。

基于深度学习的检测方法可以包括基于单发多框检测(single shot multiboxdetector，SSD)、快速(faster)区域卷积神经网络(region convolutional neuralnetworks，R-CNN)、mask R-CNN、你只需看一次(you only look once，YOLO)、你只需看系数(you only look at coefficients，YOLACT)等算法的检测方法，这些检测方法同样也不能很好地检测到被环境遮挡的车辆、小目标车辆和交通灯等小目标对象。

基于此，本申请实施例提供一种目标对象的检测方法，能够有效检测出小目标对象。

如图1所示，该方法包括步骤S110～S140。

S110、获取图像。

本申请实施例中图像可以是交通道路中的摄像头(或称为监控设备)拍摄的图像。

S120、提取所述图像的多个尺度的特征图。

低尺度特征图具有更丰富的细节信息，对小目标对象的分类及定位具有重要意义；而高尺度的特征图具有更丰富的语义信息，能够为大目标对象的识别提供更有力的支撑。其中，低尺度特征图也可以称为图像的浅层特征图，高尺度特征图也可以称为图像的深层特征图。

通过多个尺度的特征图能够更准确地对图像中的物体进行识别。

本申请实施例对提取多个尺度的特征图的方式不做具体限定。

例如，可以使用已知的图像金字塔提取图像的多个尺度的特征图。其中，特征金字塔的层级越高，提取的特征图越小，从而可以在金字塔的不同层得到图像的不同尺度的特征图。

又例如，可以基于轻量级网络提取图像的多个尺度的特征图，由于轻量级网络结构简单，计算量小，因此，使用轻量级网络可以降低计算复杂度，提高处理速度，从而满足自动驾驶领域中的实时性要求。

轻量级网络例如可以包括MobileNet、ShuffleNet、SqueezeNet等，本申请对此不做具体限定。

本申请实施例可以在轻量级网络的基础上，对图像采用不同倍数的上采样或下采样处理，以得到不同尺度的特征图。

作为一种示例，本申请实施例可以基于第一卷积神经网络，在第一卷积神经网络的第n层卷积层，提取图像的第一特征图，其中，n为正整数，且n小于第一卷积神经网络的总卷积层数；然后可以对第一特征图进行多个不同的卷积处理，得到图像的多个第二特征图，其中，该多个第二特征图的通道数不同；接着对该多个第二特征图分别进行不同倍数的上采样处理，得到多个尺度的特征图。其在，第一卷积神经网络为轻量级网络。

该多个不同的卷积处理可以指该多个卷积处理中，卷积核的数量不同，这样可以得到不同通道数的第二特征图。其中，该多个不同的卷积处理中的卷积核的数量可以大于第一特征图的通道数，这样可以在该卷积过程中提取图像的更高维度的特征信息。

优选地，该多个不同的卷积处理中，卷积核的数量均为第一特征图的通道数的整数倍，这样可以简化后续的融合操作。

这种方式没有直接使用已有的神经网络提取多个尺度的特征图，而是对已有的神经网络结构进行优化，将第一卷积神经网络的中间卷积层作为基础层，对该基础层分别进行不同通道数的卷积操作，从而得到图像的高维空间特征信息和低维空间特征信息。

如果直接使用第一卷积神经网络提取多个尺度的特征图，在第一卷积神经网络的多个卷积层结构中，越靠后的卷积层能够提取更高维度的空间特征信息，但同时也会丢失更多的细节信息，不利于后续的目标检测；并且随着卷积层的层级越来越高，计算复杂度也越来越高。

第一卷积神经网络的中间卷积层既保留有图像的高维空间特征信息和低维空间特征信息，又不至于包含太多的冗余信息，则在该中间卷积层的基础上直接进行不同通道数的卷积操作，不仅能够得到图像的不同维度的特征信息，而且能够降低计算量，提高处理速度。

可选地，多个第二特征图中每个特征图的通道数均大于第一特征图的通道数，因此，通过不同的卷积操作，能够得到图像的更高维度的特征信息。

以第一卷积神经网络为MobileNet V2网络为例，MobileNet V2网络包括卷积层和多个瓶颈层，本申请实施例可以将该多个瓶颈层中的任意一层作为基础层。可选地，可以将该多个瓶颈层中的中间偏上的瓶颈层作为基础层。

作为一种优选的实现方式，可以将第二瓶颈层作为基础层。由于第二瓶颈层提取的特征图既包含一定的高维空间特征信息和低维空间特征信息，又没有太多的冗余信息，因此，在第二瓶颈层的基础上进行卷积操作，能够简化计算过程，降低处理复杂度，满足无人驾驶领域中的实时性要求。

S130、对所述多个尺度的特征图分别采用与所述多个尺度的特征图对应的卷积核进行卷积，得到所述图像的目标特征图。其中，所述多个尺度的特征图对应的卷积核至少部分不相同。

可选地，该多个尺度的特征图对应的卷积核可以完全不相同，或者，该多个尺度的特征图中的部分特征图对应的卷积核相同，部分特征图对应的卷积核不同。具体使用的卷积核可以根据神经网络的训练模型来确定。

在卷积过程中，多个尺度的特征图并不是共享一个卷积核，而是会根据不同情况对卷积核做出调整，用更适合的卷积核进行卷积。例如，每个尺度的特征图都有对应的一个卷积核，在卷积过程中，对于每个尺度的特征图，都采用与其对应的卷积核进行卷积。

此外，还可以为不同尺度的特征图对应的卷积核分配不同的权重，具体的权重信息可以根据预训练的网络模型得到。在加权过程中，可以将每个尺度的特征图对应的卷积核与对应的权重进行相乘，以进行动态卷积。

具体地，当特征图对应的目标为小目标对象时，可以为其分配相对多的权重，而当特征图对应的目标为大目标对象时，可以为其分配相对少的权重，这样经过卷积之后可以保留更多的小目标对象的特征。

可以理解的是，为不同目标分配的权重是根据神经网络的训练模型得到的，小目标对象的权重小于大目标对象的权重仅表示一种整体趋势，并不代表一种绝对情况，例如，对于目标对象的尺寸相差不大的情况，其权重可以相同。

可以理解的是，特征图的尺度越大，就能提取更大尺寸的目标对象；反之，特征图的尺度越小，就能提取更小尺寸的目标对象。

本申请实施例中的小目标对象例如可以是交通灯、或者被遮挡的车辆等，大目标对象对例如可以是没有被遮挡的车辆。

在相关技术中，对所有的目标对象采用相同的卷积核进行卷积，即卷积参数对所有的目标对象共享。而本申请实施例中的可以为每个目标对象学习一个特定的卷积核参数，对于一个目标对象，在卷积过程中，可以采用与其对应的卷积核进行卷积，这种卷积方式在提升网络精度的同时，还能降低处理时长。

本申请实施例在对多个尺度的特征图进行动态卷积时，可以先将该多个尺度的特征图进行融合，然后再对融合之后的特征图进行动态卷积。

例如，可以先将该多个尺度的特征图进行融合，得到第一融合特征图；然后再对该第一融合特征图进行动态卷积，得到图像的目标特征图。第一融合特征图既包括低维空间特征，又包括高维空间特征，通过对第一融合特征图进行动态卷积，能够在保证一定处理速度的基础上提高检测精度。

对该第一融合特征图进行动态卷积，可以指对所述第一融合特征图中的不同特征图分别采用与其对应的卷积核进行卷积，其中，所述第一融合特征图中的不同特征图对应的卷积核至少部分不相同。

图像的高维特征图包含图像的更多的语义信息，而低维特征图包含图像的更多的细节信息，融合后的第一融合特征图能够兼有这两种特征信息。

本申请实施例对特征图融合所采用的融合函数不做具体限定，例如可以为concat函数。

可选地，在使用concat函数进行特征融合之后，还可以连接1*1卷积层，该卷积层可以降低通道数，对于复杂的应用场景，可以避免多检的现象。

S140、基于所述目标特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置。

本申请实施例中的目标对象可以包括车辆和/或交通灯等。

由于步骤S130获得的目标特征图中保留有更多小目标对象的特征，因此，对该目标特征图进行检测，可以检测到更多小目标对象的特征，得到更多小目标对象的类别和/或在图像中的位置。

本申请实施例在提取到图像的多个尺度的特征图之后，并不是采用固定的卷积核进行卷积，而是对不同尺度的特征图分别采用至少部分不相同的卷积核进行卷积，即对该多个尺度的特征图进行动态卷积，这样能够在卷积过程中保留更多的小目标对象的特征信息，从而能够有效检测出小目标对象。

对于存在部分区域被遮挡的车辆、交通灯等小目标，采用本申请实施例的方法也能够有效检测出这些小目标。

本申请实施例在检测至少一个目标对象的类别和/或至少一个目标对象在图像中的位置时，可以将目标特征图与第一融合特征图进行融合，得到第二融合特征图；然后基于第二融合特征图，检测图像中至少一个目标对象的类别和/或至少一个目标对象在图像中的位置。

本申请实施例可以将动态卷积之前的特征图与动态卷积之后的特征图进行融合，然后再基于融合之后的特征图确定目标对象的类别和位置信息。融合之后的特征图包含图像的更多的特征信息，因此基于该更多的特征信息对目标对象进行检测，能够使得检测结果更准确。

本申请实施例对确定目标对象的类别和位置的方式不做具体限定。

例如，可以将第二融合特征图输入到分类模型和分割模型这两个分支中，以检测目标对象的类别和位置信息。

可选地，可以将第二融合特征图输入到分割模型中，以分割出图像中的至少一个目标对象。该分割模型例如可以是语义分割模型，根据目标对象的语义信息，对图像进行分割。

可以将分割出的至少一个目标对象输入到分类模型中，由分类模型确定至少一个目标对象的类别。

在确定目标对象的位置时，可以通过边界框(bounding box)确定目标对象的位置。例如，可以基于至少一个目标对象，通过提取至少一个目标对象的边界框，确定至少一个目标对象在图像中的位置。

本申请实施例对采用的分类模型和分割模型不做具体限定。例如，该分类模型可以为基于VGG网络、GooleLeNet网络、AlexNet、Residual网络等的分类模型。分割模型可以采用传统的分割算法，也可以采用基于边缘检测的分割方法、或者基于深度学习的分割算法；基于深度学习的分割方法可以为基于VGG、ResNet等网络的分割。

分割模型可以将图像中属于同一类别的目标划分在一起，并将不同类别的区域区分开来。分类模型可以确定分割模型分割出来的目标对象的类别。

本申请使用的分割模型可以为实例分割模型，这样可以区分不同的目标对象。

本申请实施例中的分类模型可以包括2层3*3卷积层和softmax；分割模型可以包括3层3*3卷积层和2层1*1卷积层。

此外，本申请实施例还可以在提取图像的多个尺度的特征图之前，利用角度分类模型对图像的偏转角度进行矫正，使得矫正之后的图像为正的水平方向，即矫正后图像中的人、物处于正常、正向、正立角度。将图像矫正为正的水平方向之后，有利于简化后续的分类分割操作过程，提高检测结果的准确性。

摄像头在拍摄图像的过程中，经常会由于摄像头存在偏转角度，而使得图像中的人、物也存在偏转角度，进而会降低图像识别的准确率。

图像的偏转角度可以为0～360度之间的任意角度，本申请实施例以0度、90度、180度和270度为例进行描述。需要说明的是，本申请实施例中的偏转角度是以顺时针方向的偏转角度为例进行描述的。

为了解决上述问题，本申请实施例可以先训练角度分类模型，然后将图像输入到训练好的角度分类模型中，判断图像是否有偏转及其偏转角度。如果图像的偏转角度是90度，则可以将图像逆时针旋转90度；如果图像的偏转角度是180度，则可以将图像逆时针旋转180度；如果图像的偏转角度为270度，则可以将图像逆时针旋转270度，从而将图像旋转为正的水平方向。

如图2所示，左图示出的是输入到角度分类模型中的图像，其偏转角度为90度，角度分类模型可以对图像的偏转角度进行检测，例如，可以根据图像中的物体朝向，如汽车的前进方向、树木的生长方向等，确定图像的偏转角度。当检测到其偏转角度是顺时针偏转90度时，角度分类模型可以对其进行逆时针90度的旋转操作，得到正的图像。右图示出的是经过角度分类模型矫正后，图像变为正的水平方向。

下面结合图3，描述本申请实施例中的一种具体的网络架构。

图3示出的是在MobileNet V2网络的基础上进行特征提取的流程图。

本申请可以将经过角度分类模型校正后的图像输入到MobileNet V2网络中。该图像经过MobileNet V2网络的卷积层卷积后，输入到第一瓶颈(bottleneck1)层，然后经过第二瓶颈(bottleneck2)层的卷积后，得到图像的第一特征图。

本申请实施例可以设置MobileNet V2网络的卷积层的第一层卷积核的数量为32，bottleneck1层的卷积核的数量为64，bottleneck2层的卷积核的数量为128。

然后可以将MobileNet V2网络的第二瓶颈(bottleneck2)层作为基础层，对该基础层分别进行不同数量的卷积核的卷积操作，得到图像的多个第二特征图。该卷积核的数量可以为第一特征图的通道数的整数倍，例如，卷积核的数量可以分别为256、512、1024、2048等。

图3示出的是对第一特征图分别进行卷积核数量分别为256、512、1024、2048，卷积核为3*3的卷积操作，得到4个第二特征图，分别记为特征图a、特征图b、特征图c和特征图d。

然后对该4个第二特征图分别进行不同倍数的上采样操作，得到多个尺度的特征图。例如，特征图a的尺度可以保持不变，可以对特征图b进行2倍的上采样，对特征图c进行3倍的上采样，对特征图d进行4倍的上采样，从而得到不同尺度的特征图。

将该多个尺度的特征图通过concat函数进行特征融合，得到第一融合特征图。

对该第一融合特征图再进行卷积核为1*1，特征通道个数为256的卷积操作，得到第三特征图。该步骤可以将不同通道个数的特征图均统一为通道数为256的特征图，从而降低特征图的维度，在动态卷积过程中可以减少冗余信息，尤其是对于复杂的应用场景，可以避免多检的现象。

对第三特征图进行动态卷积操作，得到图像的目标特征图。该动态卷积可以根据目标对象的尺寸，灵活调整为目标对象分配的权重，而不是采用固定的权重进行卷积。对于小目标对象，可以为其分配较高的权重，以在动态卷积之后减少小目标特征的丢失，保留更多的小目标对象的特征信息。

将该目标特征图与第三特征图进行融合，得到第二融合特征图。

将该第二融合特征图输入到分类分支和分割分支中，以预测目标对象的类别信息和位置信息。

可选地，该分类分支可以包括2层3*3的卷积核和softmax。

该分割分支可以包括3层3*3卷积核和2层1*1卷积核。

图4示出的是采用YOLACT算法的检测结果的示意图。

在图4中，第一排输入的图像中有些被树木遮挡部分区域的车辆，使用该方法进行检测，就漏检了该车辆，并且还漏检了交通灯小目标。

第二排输入的图像中同样存在交通灯小目标漏检的现象，并且同一个车辆输出多个类型，出现信息冗余。

此外，YOLACT算法只能依赖具体的任务，适应性差。

图5示出的是采用图3所示的检测方法得到的检测结果，其中，图5和图4采用的是相同的输入图像。

由图5可知，与图4相比，本申请可以将遮挡车辆和交通灯小目标都能检测出来，并且同一目标对象只有实例分割对应类别。在COCO训练集测试的AP可达36.1，速度高达33.2fps，能够满足自动驾驶领域的检测精度要求和实时性要求。

上文详细描述了本申请的方法实施例，下面描述本申请的装置实施例，装置实施例与方法实施例对应，未描述的特征可以参见方法实施例中的描述。

图6是本申请实施例提供的检测系统，该检测系统600包括图像获取单元610、特征提取单元620、卷积单元630和目标检测单元640，其中：

图像获取单元610，用于获取图像。

特征提取单元620，用于提取所述图像的多个尺度的特征图。

本申请实施例对提取多个尺度的特征图的方式不做具体限定。具体的提取过程可以参照方法实施例中的步骤S120的相关描述。

可选地，所述特征提取单元620具体用于：基于第一卷积神经网络，在所述第一卷积神经网络的第n层卷积层，提取所述图像的第一特征图，其中，n为正整数，且n小于所述第一卷积神经网络的总卷积层数；对所述第一特征图分别进行多个不同的卷积处理，得到所述图像的多个第二特征图，其中，所述多个第二特征图的通道数不同；以及对所述多个第二特征图分别进行不同倍数的上采样处理，得到所述多个尺度的特征图。

可选地，所述特征提取单元620具体用于：在所述MobileNet V2网络的第二瓶颈层提取所述图像的第一特征图。

卷积单元630，用于对所述多个尺度的特征图分别采用与所述多个尺度的特征图对应的卷积核进行卷积，得到所述图像的目标特征图，其中，所述多个尺度的特征图对应的卷积核至少部分不相同。

可选地，所述检测系统600还包括融合单元，所述融合单元用于将所述多个尺度的特征图进行融合，得到第一融合特征图；所述卷积单元630，用于对所述第一融合特征图采用不同的卷积核进行卷积，得到所述图像的目标特征图。

目标检测单元640，用于基于所述目标特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置。

本申请实施例中的目标对象可以包括车辆和/或交通灯等。

由于经过卷积单元630获得的目标特征图中保留有更多小目标对象的特征，因此，对该目标特征图进行检测，可以检测到更多小目标对象的特征，得到更多小目标特征对象的类别和/或在图像中的位置。

本申请实施例在提取到图像的多个尺度的特征图之后，并不是采用固定的卷积核进行卷积，而是对不同尺度的特征图采用不同的卷积核进行卷积，即对该多个尺度的特征图进行动态卷积，这样能够在卷积过程中保留更多的小目标对象的特征信息，从而能够有效检测出小目标对象。

本申请实施例目标检测单元640可以将目标特征图与第一融合特征图进行融合，得到第二融合特征图；然后基于第二融合特征图，检测图像中至少一个目标对象的类别和/或至少一个目标对象在图像中的位置。

可选地，所述融合单元还用于：将所述目标特征图与所述第一融合特征图进行融合，得到第二融合特征图；所述检测单元640具体用于：基于所述第二融合特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置。

可选地，所述检测单元640具体用于：将所述第二融合特征图输入到分割模型中，以分割出所述图像中的所述至少一个目标对象；将所述至少一个目标对象输入到所述分类模型中，以检测所述至少一个目标对象的类别；基于所述至少一个目标对象，通过提取所述至少一个目标对象的边界框，确定所述至少一个目标对象在所述图像中的位置。

本申请实施例对目标检测单元640检测目标对象的类别和位置的方式不做具体限定。

可选地，所述检测系统600还包括矫正单元，所述矫正单元用于利用角度分类模型对所述图像的偏转角度进行矫正。

摄像头在拍摄图像的过程中，经常会由于摄像头存在偏转角度，而使得图像中的人、物也存在偏转角度，进而会降低图像识别的准确率。通过角度分类模型对图像的偏转角度进行校正，有利于简化后续的分类分割操作过程，提高检测结果的准确性。

可选地，所述目标对象包括车辆和/或交通灯。

本申请实施例还提供一种设备，包括图6所示的检测系统，能够对不同尺度的特征图进行动态卷积，使得卷积之后能够保留更多小目标对象的特征，从而有效检测出图像中的小目标对象。

该设备例如可以为计算机设备、或者芯片等。

此外，本申请实施例还提供一种计算机存储介质，其上存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行上述本申请实施例提供的任一种检测方法。

该存储介质可以包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种目标对象的检测方法，其特征在于，包括：

获取图像；

提取所述图像的多个尺度的特征图；将所述多个尺度的特征图进行融合，得到第一融合特征图；

对所述第一融合特征图中的不同特征图分别采用与其对应的卷积核进行卷积，得到所述图像的目标特征图，其中，所述第一融合特征图中的不同特征图对应的卷积核至少部分不相同；

将所述目标特征图与所述第一融合特征图进行融合，得到第二融合特征图；基于所述第二融合特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置。

2.根据权利要求1所述的检测方法，其特征在于，所述基于所述第二融合特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置，包括：

将所述第二融合特征图输入到分割模型中，以分割出所述图像中的所述至少一个目标对象；

将所述至少一个目标对象输入到分类模型中，以检测所述至少一个目标对象的类别；

基于所述至少一个目标对象，通过提取所述至少一个目标对象的边界框，确定所述至少一个目标对象在所述图像中的位置。

3.根据权利要求1所述的检测方法，其特征在于，所述提取所述图像的多个尺度的特征图，包括：

基于第一卷积神经网络，在所述第一卷积神经网络的第n层卷积层，提取所述图像的第一特征图，其中，n为正整数，且n小于所述第一卷积神经网络的总卷积层数；

对所述第一特征图分别进行多个不同的卷积处理，得到所述图像的多个第二特征图，其中，所述多个第二特征图的通道数不同；

对所述多个第二特征图分别进行不同倍数的上采样处理，得到所述多个尺度的特征图。

4.根据权利要求3所述的检测方法，其特征在于，所述第一卷积神经网络为MobileNetV2网络，所述基于第一卷积神经网络，在所述第一卷积神经网络的第n层卷积层，提取所述图像的第一特征图，包括：

在所述MobileNet V2网络的第二瓶颈层提取所述图像的第一特征图。

5.根据权利要求1所述的检测方法，其特征在于，在所述提取所述图像的多个尺度的特征图之前，所述方法还包括：

利用角度分类模型对所述图像的偏转角度进行矫正。

6.一种检测系统，其特征在于，包括：

图像获取单元，用于获取图像；

特征提取单元，用于提取所述图像的多个尺度的特征图；将所述多个尺度的特征图进行融合，得到第一融合特征图；

卷积单元，用于对所述第一融合特征图中的不同特征图分别采用与其对应的卷积核进行卷积，得到所述图像的目标特征图，其中，所述第一融合特征图中的不同特征图对应的卷积核至少部分不相同；

目标检测单元，用于将所述目标特征图与所述第一融合特征图进行融合，得到第二融合特征图；基于所述第二融合特征图，检测所述图像中至少一个目标对象的类别和/或所述至少一个目标对象在所述图像中的位置。

7.一种设备，其特征在于，包括如权利要求6所述的检测系统。

8.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如权利要求1-5中任一项所述的检测方法。