CN111967401A

CN111967401A - 目标检测方法、设备及存储介质

Info

Publication number: CN111967401A
Application number: CN202010838656.6A
Authority: CN
Inventors: 陈�光
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-20

Abstract

本发明实施例提供一种目标检测方法、设备及存储介质，该方法包括：获取目标图像，目标图像中包括多个不同尺寸和/或不同形状的目标对象；采用主干网络层提取目标图像的特征，以获得多个不同尺寸的主干特征图；按照筛选策略从主干特征图中获取多个第一主干特征图；采用多尺寸可变形的感受野模块提取各第一主干特征图中不同尺寸和/或不同形状的目标特征信息，以获得对应的感受野特征图；采用目标检测层根据各感受野特征图检测目标图像中的目标对象。可提取不同尺寸和不同形状的目标对象的特征信息，所以可准确检测出多种目标对象，大大提高多目标检测场景下的目标检测准确率。

Description

目标检测方法、设备及存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种目标检测方法、设备及存储介质。

背景技术

随着人工智能技术的发展，深度学习技术也得到了飞速发展。并在语音识别、计算机视觉等领域得到了广泛应用。其中，目标检测作为计算机视觉的一个重要研究方向，也已经取得了突破进展。

现有技术中，目标检测主要针对的是单一目标的场景，如车辆的检测，车牌的检测，人物的检测等。主要应用到Faster-RCNN、SSD等深度学习模型进行目标检测。采用这些深度学习模型进行单一目标的检测时，具有较高的准确率。

但目前目标检测的场景不再只有单一目标检测的场景，对于不同尺寸或形状差异较大的多种目标检测场景，在采用现有的深度学习模型进行目标检测时，并不能准确检测出多种目标，导致多目标检测场景下的目标检测准确率较低。

发明内容

本发明实施例提供一种目标检测方法、设备及存储介质，解决了现有技术中对于不同尺寸或形状差异较大的多种目标检测场景，在采用现有的深度学习模型进行目标检测时，并不能准确检测出多种目标，导致多目标检测场景下的目标检测准确率较低的技术问题。

第一方面，本发明实施例提供一种目标检测方法，采用训练至收敛的目标检测模型对目标进行检测，所述训练至收敛的目标检测模型包括：主干网络层、多尺寸可变形的感受野模块及目标检测层，所述方法包括：

获取目标图像，所述目标图像中包括多个不同尺寸和/或不同形状的目标对象；

采用所述主干网络层提取所述目标图像的特征，以获得多个不同尺寸的主干特征图；

按照筛选策略从所述主干特征图中获取多个第一主干特征图；

采用所述多尺寸可变形的感受野模块提取各所述第一主干特征图中不同尺寸和/或不同形状的目标特征信息，以获得对应的感受野特征图；

采用所述目标检测层根据各所述感受野特征图检测所述目标图像中的目标对象。

第二方面，本发明实施例提供一种电子设备，包括：

存储器，处理器以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面中任一项所述的方法。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面中任一项所述的方法。

本发明实施例提供一种目标检测方法、设备及存储介质，通过获取目标图像，目标图像中包括多个不同尺寸和/或不同形状的目标对象；采用主干网络层提取目标图像的特征，以获得多个不同尺寸的主干特征图；按照筛选策略从主干特征图中获取多个第一主干特征图；采用多尺寸可变形的感受野模块提取各第一主干特征图中不同尺寸和/或不同形状的目标特征信息，以获得对应的感受野特征图；采用目标检测层根据各感受野特征图检测目标图像中的目标对象。由于多尺寸可变形的感受野模块中通过设置可提取不同尺寸和不同形状的目标对象特征信息的网络层，可提取不同尺寸和不同形状的目标对象的特征信息，所以可准确检测出多种目标对象，大大提高多目标检测场景下的目标检测准确率。

应当理解，上述发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是可以实现本发明实施例的目标检测方法的应用场景图；

图2为本发明实施例一提供的目标检测方法的流程图；

图3为本发明实施例提供的目标检测方法中不同扩展率的空洞卷积核的示意图；

图4为本发明实施例提供的目标检测方法中可变形卷积核的示意图；

图5为本发明实施例二提供的目标检测方法的流程图；

图6为本发明实施例提供的目标检测方法中目标检测模型的网络架构图；

图7为本发明实施例提供的目标检测方法中多尺寸可变形的感受野模块的网络架构图；

图8为本发明实施例三提供的目标检测方法中对目标检测模型进行训练的流程图；

图9为本发明实施例六提供的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

本发明实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了清楚理解本发明实施例的技术方案，首先对现有技术的方案进行详细介绍。

现有技术中，在计算机视觉领域中包括目标检测的场景，但在目标检测的场景中一般均为单一目标的场景，如可以为车牌检测场景，车辆检测场景，指示牌检测场景等。在进行单一目标的检测场景中，通常采用Faster-RCNN、SSD等深度学习模型进行目标检测，在这些深度学习模型中，由于检测的目标的形状和尺寸均是类似的，所以在进行网络层的配置时，并没有考虑特征提取时的目标物体的形状和尺寸多样性的问题，所以这些深度学习模型只适用于对单一目标进行检测的场景，并不是适用于不同尺寸或形状差异较大的多种目标检测场景，导致不能准确检测出多种目标，导致多目标检测场景下的目标检测准确率较低。

所以针对现有技术中目标检测方法存在的技术问题，发明人在研究中发现，为了使深度学习模型适用于不同尺寸及形状差异较大的多种目标检测场景，需要在深度学习模型中设置能够提取不同尺寸和形状的目标对象特征信息的网络层。而为了提取不同尺寸的目标对象的特征信息，需要该网络层中具有不同尺寸的感受野，为了提取不同形状的目标对象的特征信息，需要该网络层能够改变感受野的形状。所以在深度学习模型中设置的该网络层是一个多尺寸可变形的感受野模块，在该多尺寸可变形的感受野模块中通过设置可提取不同尺寸和不同形状的目标对象特征信息的网络层实现对多种不同尺寸和不同形状的目标对象特征信息的提取。进而准确检测出多种目标对象，大大提高多目标检测场景下的目标检测准确率。

下面对本发明实施例提供的目标检测方法的应用场景进行介绍。如图1所示，本发明实施例提供的目标检测方法对应的应用场景中包括：第一电子设备及第二电子设备。其中，第一电子设备可以为图像存储设备或图像采集设备。如图1所示，该第一电子设备1为图像采集设备。第二电子设备2从第一电子设备中获取目标图像，在目标图像中包括多个不同尺寸和/或不同形状的目标对象，如在目标图像中包括的目标对象有车辆及行人，还包括非目标对象，如高楼。在第二电子设备2中存储有训练至收敛的目标检测模型，在该训练至收敛的目标检测模型包括：主干网络层、多尺寸可变形的感受野模块及目标检测层。则第二电子设备首先采用主干网络层提取目标图像的特征，以获得多个不同尺寸的主干特征图，然后按照筛选策略从主干特征图中获取多个第一主干特征图，采用多尺寸可变形的感受野模块提取各第一主干特征图中不同尺寸和/或不同形状的目标特征信息，以获得对应的感受野特征图，最后采用目标检测层根据各感受野特征图检测目标图像中的目标对象，输出目标检测后的图像，在目标检测后的图像中目标对象进行了标记，如在图1中，对检测出的目标对象包括车辆和行人。根据检测出的目标对象还可进行后续的处理过程。

可以理解的是，图1所示的应用场景具体可应用在自动驾驶车辆行驶路径规划的场景中，由雷达采集目标图像，并发送给车端控制设备，车端控制设备对目标图像进行不同尺寸和不同形状的目标检测，并在检测出目标对象后，发送给路径规划系统，以根据目标对象的位置规划路径，实现安全自动驾驶。

需要说明的是，图1所示的应用场景也可以应用在其他具体场景中，如车辆年检场景，监测违规车辆场景中等，本实施例中对此不作限定。

以下将参照附图来具体描述本发明的实施例。

实施例一

图2为本发明实施例一提供的目标检测方法的流程图，如图2所示，本发明实施例的执行主体为目标检测装置，该目标检测装置可以集成在电子设备中，该电子设备可以为图1中的第二电子设备，则本实施例提供的目标检测方法包括以下几个步骤。

步骤101，获取目标图像，目标图像中包括多个不同尺寸和/或不同形状的目标对象。

本实施例中，目标图像为进行目标检测的图像，在目标图像中包括多个不同尺寸的目标对象，或者包括多个不同形状的目标对象，或者包括多个尺寸不同并且形状也不同的目标对象。

其中，目标对象为需要从目标图像中检测出来的对象。根据应用场景的不同，目标对象也不同。如在自动驾驶车辆行驶路径规划的场景中，目标对象包括：车辆，行人及其他障碍物。

本实施例中，在获取目标图像时，可在图像采集设备采集完目标图像后，通过与图像采集设备进行通信来获取目标对象。或者可从图像存储设备中获取目标图像，或者在从本地的预设存储区域获取目标图像，本实施例中对此不作限定。

步骤102，采用主干网络层提取目标图像的特征，以获得多个不同尺寸的主干特征图。

本实施例中，采用训练至收敛的目标检测模型对目标进行检测，在训练至收敛的目标检测模型包括：主干网络层、多尺寸可变形的感受野模块及目标检测层。

本实施例中，主干网络层包括从浅至深的多个子网络层。则首先将目标图像输入到主干网络层中的最浅子网络层中，提取目标图像的特征图，称为该子网络层的主干特征图，然后后一子网络层提取前一子网络层输出的主干特征图的特征，形成后一子网络层的主干特征图，以此类推，直到获得最深子网络对应的主干特征图。随着子网络层深度的增加，主干特征图中的特征更加抽象，特征图的尺寸也越来越小。

本实施例中，主干子网络层可以为VGG16主干网络层，也可以为ResNet主干子网络层，DenseNet主干网络层、MobileNet主干网络层等，本实施例中不作限定。

步骤103，按照筛选策略从主干特征图中获取多个第一主干特征图。

本实施例中，由于主干子网络层中输出了多个不同尺寸的主干特征图，所以按照筛选策略对多个不同尺寸的主干特征图进行筛选，获得需要输入到多尺寸可变形的感受野模块中的多个主干特征图，该需要输入到多尺寸可变形的感受野模块中多个主干特征图均为第一主干特征图。

可选地，本实施中，筛选策略可以为：首先将主干特征图按照尺寸大小由大到小排列，然后每间隔预设个数的主干特征图选取一个第一主干特征图，使第一主干特征图的个数达到预设个数。

其中，预设个数可以与多尺寸可变形的感受野模块中的卷积支路的个数相同。

可以理解的是，筛选策略也可以为其他策略，本实施例中对此不作限定。

步骤104，采用多尺寸可变形的感受野模块提取各第一主干特征图中不同尺寸和/或不同形状的目标特征信息，以获得对应的感受野特征图。

可选地，本实施例中，在多尺寸可变形的感受野模块中可包括多个卷积支路，在每个卷积支路中可以包括对应的空洞卷积层及可变形卷积层。在空洞卷积层包括空洞卷积核，在可变形卷积层包括可变形卷积核。

其中，每个卷积支路中的空洞卷积层中的空洞卷积核的扩张率不同，可变形卷积层的可变卷积核的尺寸和形状不同。

需要说明的是，空洞卷积核及可变形卷积核均可采用矩阵的形式表示。

其中，空洞卷积核是采样点之间有一定的间隔的卷积核。采用空洞卷积核在提取特征时，能够得到的局部感受野更大。则不同扩张率的空洞卷积核分别如图3所示。在图3中黑色填充的方块为空洞卷积核的采样点。在图3中最左侧的子图为扩张率rate＝1，尺寸为3*3的空洞卷积核，在图3中的中间子图为为扩张率rate＝2，尺寸为3*3的空洞卷积核，在图3中的最右子图为扩张率rate＝3，尺寸为3*3的空洞卷积核。不同扩张率的空洞卷积的感受野不同，扩张率越大空洞卷积核的感受野越大。

其中，可变形卷积核为在标准的卷积核每个采样点处增加了一个偏移值，通过偏移值，使目标检测模型在训练时标准卷积核的采样点向四周伸缩，使得卷积核的尺寸可以由正方形变为了多边形，改变了卷积核感受野的形状。如图4所示，其为可变形卷积核的示意图，点的位置为3*3标准卷积核的采样点的位置，箭头所在的位置为可变卷积核中采样点的位置。由于可变卷积核的形状为多边形，所以改变了卷积核感受野的形状，在采用可变卷积核提取特征时，提取的是不规则形变目标的特征，能够适用于目标对象的不同形状的特征提取需求。

其中，标准卷积核为每个采样点相邻的卷积核。如图4中的点的位置为3*3标准卷积核。

本实施例中，采用多尺寸可变形的感受野模块提取各第一主干特征图中不同尺寸和/或不同形状的目标特征信息时，首先可由各卷积支路的空洞卷积层提取对应尺寸的目标特征信息，然后由可变形卷积层提取对应形状的目标特征信息，以获得第一主干特征图中不同尺寸和/或不同形状的目标特征信息，最后将每个卷积支路输出的特征图进行拼接，以形成多尺寸可变形的感受野模块输出的特征图，该特征图可称为感受野特征图。

可选地，还可在每个卷积支路中包括降维网络层，在降维网络层中包括降维卷积核，以对每个第一主干特征图进行降维处理。

其中，降维卷积核为形状为正方形，维度固定的标准卷积核，如可以为1*1的标准卷积核。

步骤105，采用目标检测层根据各感受野特征图检测目标图像中的目标对象。

具体地，本实施例中，将各感受野特征图输入到目标检测层中，目标检测层可通过在各感受野特征图中按照坐标点设置检测框，并确定各检测框的类别分类结果及在目标图像中的位置信息的方式对目标对象进行检测，并可输出进行目标检测后的图像，在目标检测后的图像中标记出了目标对象。

本实施例提供的目标检测方法，通过获取目标图像，目标图像中包括多个不同尺寸和/或不同形状的目标对象；采用主干网络层提取目标图像的特征，以获得多个不同尺寸的主干特征图；按照筛选策略从主干特征图中获取多个第一主干特征图；采用多尺寸可变形的感受野模块提取各第一主干特征图中不同尺寸和/或不同形状的目标特征信息，以获得对应的感受野特征图；采用目标检测层根据各感受野特征图检测目标图像中的目标对象。由于多尺寸可变形的感受野模块中通过设置可提取不同尺寸和不同形状的目标对象特征信息的网络层，可提取不同尺寸和不同形状的目标对象的特征信息，所以可准确检测出多种目标对象，大大提高多目标检测场景下的目标检测准确率。

实施例二

图5为本发明实施例二提供的目标检测方法的流程图，如图5所示，本实施例提供的目标检测方法，是在本发明实施例一提供的目标检测方法的基础上，对步骤102-步骤105的进一步细化，则本实施例提供的目标检测方法包括以下步骤。

步骤201，获取目标图像，目标图像中包括多个不同尺寸和/或不同形状的目标对象。

本实施中，步骤201的实现方式与本发明实施例一中的步骤101的实现方式类似，在此不在一一赘述。

步骤202，采用主干网络层提取目标图像的特征，以获得多个不同尺寸的主干特征图。

本实施例中，主干网络层采用VGG16主干网络层。

本实施例中，采用训练至收敛的目标检测模型对目标进行检测，该训练至收敛的目标检测模型包括：主干网络层、多尺寸可变形的感受野模块、卷积网络层及目标检测层。

步骤203，按照筛选策略从主干特征图中获取多个第一主干特征图。

步骤204，按照筛选策略从主干特征图中获取第二主干特征图。

需要说明的是，步骤203和步骤204的执行顺序并不限制，如可在执行步骤203后执行步骤204，或在执行步骤204后，执行步骤203，或者同时执行步骤203和步骤204。

其中，第一主干特征图为需要输入到多尺寸可变形的感受野模块中多个主干特征图，第二主干特征图为需要输入到卷积网络层中的主干特征图。

本实施例中，筛选策略中不仅包括了对第一主干特征图的筛选策略，还包括对第二主干特征图的筛选策略。

其中，对第一主干特征图的筛选策略可以为：筛选与多尺寸可变形的感受野模块中的卷积支路的个数相同的尺寸较大的主干特征图作为第一主干特征图。对第二主干特征图的筛选策略为：筛选比任意一个第一主干特征图的尺寸均小的主干特征图为第二主干特征图。

如在图6中，目标图像的尺寸为300*300，表示为A，筛选出的第一主干特征图为三个，分别表示为B1，B2及B3，尺寸依次变小，第二主干特征图B4的尺寸小于任意一个第一主干特征图的尺寸。

步骤205，采用多尺寸可变形的感受野模块提取各第一主干特征图中不同尺寸和/或不同形状的目标特征信息，以获得对应的感受野特征图。

具体地，本实施例中，多尺寸可变形的感受野模块中包括：多个卷积支路，每个卷积支路包括对应的降维卷积层，空洞卷积层及可变形卷积层，各卷积支路中的空洞卷积层中的空洞卷积核的扩张率不同，可变形卷积层的可变卷积核的尺寸和形状不同。

例如，如图7所示，多尺寸可变形的感受野模块中包括是三个卷积支路，第一个卷积支路中降维卷积层中的降维卷积核的尺寸为1*1，空洞卷积层中的空洞卷积核的扩张率为1，尺寸为3*3，可变形卷积层的可变卷积核的尺寸为1*1，形状为第一多边形。第二个卷积支路中降维卷积层中的降维卷积核的尺寸为1*1，空洞卷积层中的空洞卷积核的扩张率为2，尺寸为3*3，可变形卷积层的可变卷积核的尺寸为3*3，形状为第二多边形。第三个卷积支路中降维卷积层中的降维卷积核的尺寸为1*1，空洞卷积层中的空洞卷积核的扩张率为3，尺寸为3*3，可变形卷积层的可变卷积核的尺寸为5*5，形状为第三多边形。

可以理解的是，每个卷积支路中的可变卷积核的形状为不同的多边形，具体多边形的形状受对目标检测模型的可变卷积层进行训练时可变卷积核对应的标准卷积核中每个采样点的偏移量的影响。

作为一种可选实施方式，如图7所示，执行步骤205时，针对每个第一主干特征图，执行以下操作：

将第一主干特征图输入到多尺寸可变形的感受野模块的每个卷积支路中，以提取第一主干特征图中对应的目标特征信息，输出对应的支路特征图；将各支路特征图进行拼接，以获得对应的感受野特征图。

其中，在步骤205中，将第一主干特征图输入到多尺寸可变形的感受野模块的每个卷积支路中，以提取第一主干特征图中对应的目标特征信息，输出对应的支路特征图，具体包括以下步骤：

步骤2051，将第一主干特征图输入到每个卷积支路的降维卷积层中，以将第一主干特征图与降维卷积层中的降维卷积核进行卷积运算，以获得降维特征图。

本实施例中，为了将各第一主干特征图的维度降低到最低，每个卷积支路中的降维卷积核的尺寸均为1*1。

示例性地，如图7中，将第一主干特征图输入到第一卷积支路的降维卷积层中，将第一主干特征图与尺寸为1*1的降维卷积核进行卷积运算，以得到第一卷积支路的降维特征图。将第一主干特征图输入到第二卷积支路的降维卷积层中，将第一主干特征图与尺寸为1*1的降维卷积核进行卷积运算，以得到第二卷积支路的降维特征图，第一主干特征图输入到第三卷积支路的降维卷积层中，将第一主干特征图与尺寸为1*1的降维卷积核进行卷积运算，以得到第三卷积支路的降维特征图。

步骤2052，将各卷积支路的降维特征图输入到对应的空洞卷积层中，以将降维特征图与空洞卷积核进行卷积运算，以获得尺寸特性特征图。

示例性地，如图7所示，将第一卷积支路的降维特征图输入到第一卷积支路的空洞卷积层中，将第一卷积支路的降维特征图与尺寸为3*3，扩张率为1的空洞卷积核进行卷积运算，以得到第一卷积支路的尺寸特性特征图。将第二卷积支路的降维特征图输入到第二卷积支路的空洞卷积层中，将第二卷积支路的降维特征图与尺寸为3*3，扩张率为2的空洞卷积核进行卷积运算，以得到第二卷积支路的尺寸特性特征图。将第三卷积支路的降维特征图输入到第三卷积支路的空洞卷积层中，将第三卷积支路的降维特征图与尺寸为3*3，扩张率为3的空洞卷积核进行卷积运算，以得到第三卷积支路的尺寸特性特征图。

本实施例中，降维特征图分别与不同扩张率的空洞卷积核进行卷积运算，能够提取到不同感受野下的特征信息。

可以理解的是，各个卷积支路中的空洞卷积核的扩张率还可以其他数值的各不相同的扩张率，本实施例中对此不作限定。

步骤2053，将各卷积支路的尺寸特性特征图输入到对应的可变形卷积层中，以将尺寸特性特征图与可变形卷积核进行卷积运算，以获得支路特征图。

示例性地，如图7所示，将第一卷积支路的尺寸特性特征图输入到第一卷积支路的可变形卷积层中，将第一卷积支路的尺寸特性特征图与尺寸为1*1，形状为第一多边形的可变形卷积核进行卷积运算，以得到第一卷积支路的支路特征图。将第二卷积支路的尺寸特性特征图输入到第二卷积支路的可变形卷积层中，将第二卷积支路的尺寸特性特征图与尺寸为3*3，形状为第二多边形的可变形卷积核进行卷积运算，以得到第二卷积支路的支路特征图。将第三卷积支路的尺寸特性特征图输入到第三卷积支路的可变形卷积层中，将第三卷积支路的尺寸特性特征图与尺寸为5*5，形状为第三多边形的可变形卷积核进行卷积运算，以得到第三卷积支路的支路特征图。

需要说明的是，由于尺寸特性特征图分别与每个卷积支路中的可变形卷积核进行了卷积运算，所以在调整感受野尺寸的情况下，进一步调整了感受野的形状，使得感受野不局限于宽高相等的正方形尺寸，能够更好的提取到宽高差别较大目标对象的特征信息。

本实施例中，在获得每个卷积支路的支路特征图后，将每个支路的特征图进行拼接，得到感受野特征图，则在该感受野特征图中，包括了多个不同尺寸，不同形状的目标对象的特征信息。

如图6所示，多尺寸可变形的感受野模块简称为：M-DCB，在采用多尺寸可变形的感受野模块提取各第一主干特征图中不同尺寸和/或不同形状的目标特征信息，以获得对应的感受野特征图中，由于第一主干特征图的尺寸不断变小，所以第一个感受野特征图的尺寸大于第二个感受野特征图的尺寸，第二个感受野特征图的尺寸大于第三个感受野特征图的尺寸。示例性地，第一个感受野特征图D1的尺寸为38*38，第二个感受野特征图D2的尺寸为19*19，第三个感受野特征图D3的尺寸为10*10。

步骤206，采用卷积网络层提取第二主干特征图中的目标特征信息，以获得卷积网络特征图。

本实施例提供的目标检测方法，在采用多尺寸可变形的感受野模块提取各第一主干特征图中不同尺寸和/或不同形状的目标特征信息，以获得对应的感受野特征图时，针对每个第一主干特征图，执行将第一主干特征图输入到多尺寸可变形的感受野模块的每个卷积支路中，以提取第一主干特征图中对应的目标特征信息，输出对应的支路特征图；将各支路特征图进行拼接，以获得对应的感受野特征图。所以每个第一主干特征图均包括了不同尺寸和不同形状的目标对象的特征信息，并且将每个第一主干特征图进行拼接后，获得的感受野特征图所包括的目标对象的尺寸和形状的特征信息更加丰富，所以进一步提高了多目标检测场景下的目标检测准确率。

本实施例中，在卷积网络层中包括标准的卷积核，标准卷积核的尺寸不限定。则将第二主干特征图输入到卷积网络层中，将第二主干特征图与标准的卷积核进行卷积运算，以提取第二主干特征图中在固定尺寸和形状下的目标特征信息，进行卷积后的特征图为卷积网络特征图。

如图6所示，由于第二主干特征图的尺寸小于任意一个第一主干特征图的尺寸，所以卷积网络特征图小于每个感受野特征图的尺寸，示例性地，卷积网络特征图D4的尺寸为5*5。

步骤207，采用目标检测层根据各感受野特征图和卷积网络特征图检测目标图像中的目标对象。

作为一种可选实施方式，本实施例中，步骤207包括以下步骤：

步骤2071，将各感受野特征图和卷积网络特征图输入到目标检测层中。

步骤2072，采用目标检测层在各感受野特征图和卷积网络特征图中分别按照坐标点设置检测框，并确定各检测框的类别分类结果及在目标图像中的位置信息。

具体地，本实施例中，在目标检测层中对每个感受野特征图和一个卷积网络特征图中每个坐标点设置最少一个检测框。可选地，对每个感受野特征图和一个卷积网络特征图中每个坐标点取宽高比分别为1:1，1:2，2:1三个检测框，确定每个检测框的类别分类结果，及在目标图像中的位置信息。

示例性地，如图6所示，由于每个感受野特征图和一个卷积网络特征图的坐标点的个数为1930个，所以检测框的个数为5790个。

其中，在确定每个检测框的类别分类结果时是确定每个检测框是否包括目标对象，在确定检测框在目标图像中的位置时，可根据检测框在对应的特征图中的位置信息计算出在目标图像中的位置信息。

步骤2073，采用目标检测层根据类别分类结果及在目标图像中的位置信息确定目标图像中的目标对象。

本实施例中，可根据每个检测框的的类别分类结果确定出有目标对象的检测框，然后确定出有目标对象的检测框在目标图像中的位置，进而在目标图像中对有目标对象的检测框进行标注，对没有目标对象的检测框进行另一种形式的标注，进而确定出目标图像中的目标对象。

本实施例提供的目标检测方法，训练至收敛的目标检测模型还包括：卷积网络层，则在采用训练至收敛的目标检测模型对目标进行检测时，不仅利用多尺寸可变形的感受野模块提取出不同尺寸和不同形状的目标对象特征信息，而且能够利用卷积网络层能够提取出固定尺寸和形状下的目标特征信息，将不同尺寸和不同形状的目标对象特征信息结合固定尺寸和形状下的目标特征信息，能够进一步提高多目标检测场景下的目标检测准确率。

实施例三

图8为本发明实施例三提供的目标检测方法中对目标检测模型进行训练的流程图，如图8所示，本实施例提供的目标检测方法，在本发明实施例一或实施例二提供的目标检测方法的基础上，在获取目标图像之前，还包括了对目标检测模型进行训练的步骤，则本实施例提供的目标检测方法包括以下步骤：

步骤301，获取训练样本，训练样本包括训练图像，训练图像中标记有不同尺寸和/或不同形状的目标对象的类别信息及位置信息。

具体地，本实施例中，训练样本对对目标检测模型进行训练的样本。训练样本的个数为多个。每个训练样本包括：训练图像，在训练图像中包括多个不同尺寸的目标对象，或者包括多个不同形状的目标对象，或者包括多个尺寸不同并且形状也不同的目标对象。并且对于训练图像中的每个目标对象，均标记有该目标对象的类别信息及位置信息。

可以理解的是，训练图像和目标图像为同一种应用场景，例如在自动驾驶车辆行驶路径规划的场景中，每个训练图像中标记的目标对象的类别信息可以包括车辆，行人，指示牌等。

步骤302，对目标检测模型进行初始化配置，以获得初始目标检测模型。

可选地，本实施例中，步骤302具体包括：

对目标检测模型中的主干网络层、多尺寸可变形的感受野模块及目标检测层进行初始化配置。

本实施例中，对主干网络层进行初始化配置时，可对主干网络层中子网络层的层数，每个子网络层中的参数，每层子网络层中提取出的第一主干特征图的尺寸等进行配置。

本实施例中，在对目标检测模型中的多尺寸可变形的感受野模块进行初始化配置，包括：

首先，对各卷积支路中的降维卷积核的尺寸进行配置，并对空洞卷积核的扩张率进行配置。

示例性地，可将各卷积支路中的降维卷积核的尺寸均配置为1*1。对空洞卷积核的扩张率分别配置为rate＝1，rate＝2及rate＝3。

其次，对各卷积支路中的可变卷积核的尺寸及可变卷积核对应的标准卷积核中每个采样点的偏移策略进行配置；每个采样点的偏移策略配置为偏移量和方向均自由的偏移策略。

示例性地，本实施例中，对各卷积支路中的可变卷积核的尺寸可分别配置为1*1，3*3及5*5。

本实施例中，为了使可变卷积核为不规则的多边形，以提取不同形状的目标对象的特征信息，则需要对可变卷积核对应的标准卷积核中每个采样点的偏移策略进行配置，具体地，将每个采样点的偏移策略配置为偏移量和方向均自由的偏移策略。使可变卷积核在训练时，每个采样点可向四周任意一个方向以任意的偏移量进行伸缩，形成不规则的多边形。

可以理解的是，在对可变卷积核进行训练时，可变卷积核的形状改变的而同时可变形卷积核的尺寸不变。

本实施例中，对目标检测层进行初始化配置时，可对每个坐标点设置检测框的策略进行配置，如配置的对每个坐标点设置检测框的策略可以为每个坐标点取宽高比分别为1:1，1:2，2:1三个检测框。

可以理解的是，若目标检测模型中还包括卷积网络层，还可对卷积网络层进行初始化配置。在对卷积网络层进行初始化配置时，可配置卷积网络层中标准卷积核的尺寸。

步骤303，采用训练样本对初始目标检测模型进行训练，并判断训练后的目标检测模型是否满足预设的收敛条件。

本实施例中，将多个训练样本输入到初始目标检测模型中，对初始目标检测模型进行训练，通过改变初始目标检测模型中的参数使目标检测模型不断趋于收敛，并判断训练后的目标检测模型是否满足预设的收敛条件。

其中，预设的收敛条件可以为类别分类损失函数和位置回归损失函数的总和达到最小。可选地，类别分类损失函数可以采用softmax损失函数，位置回归损失函数可以采用smooth L1损失函数。

步骤304，若确定训练后的目标检测模型满足预设的收敛条件，则将满足预设收敛条件的目标检测模型确定为训练至收敛的目标检测模型。

本实施例中，若训练后的目标检测模型中别分类损失函数和位置回归损失函数的总和达到最小，则确定该训练后的目标检测模型为训练至收敛的目标检测模型。则该训练至收敛的目标检测模型中的主干网络层、多尺寸可变形的感受野模块及目标检测层也已训练至收敛。

本实施例提供的目标检测方法，在对目标检测模型进行训练时，对各卷积支路中的降维卷积核的尺寸进行配置，并对空洞卷积核的扩张率进行配置；对各卷积支路中的可变卷积核的尺寸及可变卷积核对应的标准卷积核中每个采样点的偏移策略进行配置；每个采样点的偏移策略配置为偏移量和方向均自由的偏移策略，能够使训练至收敛的目标检测模型中，多尺寸可变形的感受野模块，空洞卷积核能够提取不同感受野的目标对象的特征，可变卷积核能够更好地提取到宽高差别较大的目标对象的特征，进而可准确检测出多种目标对象，大大提高多目标检测场景下的目标检测准确率。

实施例四

图9为本发明实施例六提供的电子设备的结构示意图，如图9所示，该电子设备60包括：存储器61，处理器62以及计算机程序。

其中，计算机程序存储在存储器61中，并被配置为由处理器62执行以实现本发明实施例一至实施例三提供的目标检测方法。相关说明可以对应参见图1至图8所对应的相关描述和效果进行理解，此处不做过多赘述。

其中，本实施例中，存储器61和处理器62通过总线63连接。

实施例七

本发明实施例七提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现本发明实施例一至实施例三提供的目标检测方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种目标检测方法，其特征在于，采用训练至收敛的目标检测模型对目标进行检测，所述训练至收敛的目标检测模型包括：主干网络层、多尺寸可变形的感受野模块及目标检测层，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述训练至收敛的目标检测模型还包括：卷积网络层；

所述采用所述主干网络层提取所述目标图像的特征，以获得多个不同尺寸的主干特征图之后，还包括：

按照所述筛选策略从所述主干特征图中获取第二主干特征图；

采用所述卷积网络层提取所述第二主干特征图中的目标特征信息，以获得卷积网络特征图。

3.根据权利要求2所述的方法，其特征在于，所述采用所述目标检测层根据各所述感受野特征图检测所述目标图像中的目标对象，包括：

采用所述目标检测层根据各所述感受野特征图和所述卷积网络特征图检测所述目标图像中的目标对象。

4.根据权利要求3所述的方法，其特征在于，所述采用所述目标检测层根据各所述感受野特征图和所述卷积网络特征图检测所述目标图像中的目标对象，包括：

将各所述感受野特征图和所述卷积网络特征图输入到目标检测层中；

采用所述目标检测层在各所述感受野特征图和所述卷积网络特征图中分别按照坐标点设置检测框，并确定各所述检测框的类别分类结果及在目标图像中的位置信息；

采用所述目标检测层根据所述类别分类结果及在目标图像中的位置信息确定所述目标图像中的目标对象。

5.根据权利要求1所述的方法，其特征在于，所述多尺寸可变形的感受野模块中包括：多个卷积支路，每个卷积支路包括对应的降维卷积层，空洞卷积层及可变形卷积层，各卷积支路中的空洞卷积层中的空洞卷积核的扩张率不同，可变形卷积层的可变卷积核的尺寸和形状不同；

所述采用所述多尺寸可变形的感受野模块提取各所述第一主干特征图中不同尺寸和/或不同形状的目标特征信息，以获得对应的感受野特征图，包括：

针对每个第一主干特征图，执行以下操作：

将所述第一主干特征图输入到所述多尺寸可变形的感受野模块的每个卷积支路中，以提取所述第一主干特征图中对应的目标特征信息，输出对应的支路特征图；将各支路特征图进行拼接，以获得对应的感受野特征图。

6.根据权利要求5所述的方法，其特征在于，所述将所述第一主干特征图输入到所述多尺寸可变形的感受野模块的每个卷积支路中，以提取所述第一主干特征图中对应的目标特征信息，输出对应的支路特征图，包括：

将所述第一主干特征图输入到所述每个卷积支路的降维卷积层中，以将所述第一主干特征图与所述降维卷积层中的降维卷积核进行卷积运算，以获得降维特征图；

将各卷积支路的降维特征图输入到对应的空洞卷积层中，以将所述降维特征图与所述空洞卷积核进行卷积运算，以获得尺寸特性特征图；

将各卷积支路的尺寸特性特征图输入到对应的可变形卷积层中，以将所述尺寸特性特征图与所述可变形卷积核进行卷积运算，以获得支路特征图。

7.根据权利要求5所述的方法，其特征在于，所述获取目标图像之前，还包括：

获取训练样本，所述训练样本包括训练图像，所述训练图像中标记有不同尺寸和/或不同形状的目标对象的类别信息及位置信息；

对目标检测模型进行初始化配置，以获得初始目标检测模型；

采用所述训练样本对所述初始目标检测模型进行训练，并判断所述训练后的目标检测模型是否满足预设的收敛条件；

若确定所述训练后的目标检测模型满足预设的收敛条件，则将满足预设收敛条件的目标检测模型确定为训练至收敛的目标检测模型。

8.根据权利要求7所述的方法，其特征在于，所述对目标检测模型进行初始化配置，以获得初始目标检测模型，包括：

对所述目标检测模型中的主干网络层、多尺寸可变形的感受野模块及目标检测层进行初始化配置；

所述对目标检测模型中的多尺寸可变形的感受野模块进行初始化配置，包括：

对各卷积支路中的所述降维卷积核的尺寸进行配置，并对所述空洞卷积核的扩张率进行配置；

对各卷积支路中的可变卷积核的尺寸及可变卷积核对应的标准卷积核中每个采样点的偏移策略进行配置；所述每个采样点的偏移策略配置为偏移量和方向均自由的偏移策略。

9.一种电子设备，其特征在于，包括：

存储器，处理器以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-8中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-8中任一项所述的方法。