CN111626419A

CN111626419A - 卷积神经网络结构、目标检测方法及装置

Info

Publication number: CN111626419A
Application number: CN202010695540.1A
Authority: CN
Inventors: 蒋海滨
Original assignee: Chengdu Anzhijie Technology Co ltd
Current assignee: Chengdu Anzhijie Technology Co ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-09-04

Abstract

本申请提供了一种卷积神经网络结构、目标检测方法及装置。其中，该卷积神经网络结构包括输入层，用于接收原始图片，并对所述原始图片进行预处理得到特征图像；特征提取结构，其包括多个依次级联的卷积结构层，用于对所述特征图像进行逐层卷积计算；多个目标解析层，每一所述目标解析层被训练为检测预设尺寸范围的检测目标，不同的目标解析层对应不同的预设尺寸范围；每一目标解析层分别从对应层级的卷积结构层获取与所述预设尺寸范围适配的特征图像，并对获取的特征图像的特征进行分类和回归，以得到所述检测目标在原始图片中的位置信息以及对应的检测框的尺寸信息。本申请可以提高对检测目标的检测精度。

Description

卷积神经网络结构、目标检测方法及装置

技术领域

本申请涉及计算机视觉技术领域，具体而言，涉及一种卷积神经网络结构、目标检测方法及装置。

背景技术

随着经济的快速发展，人们生活水平的提高，道路交通也暴露出越来越多的问题。因此，需要对道路上的行人、车辆等目标进行实时检测。近年来高级辅助驾驶、自动驾驶开始进入人们的视野，而对道路上的行人、车辆等目标进行实时检测是其中的关键技术。

目标检测是计算机视觉中的一个重要分支，旨在检测并标记出图像或视频中的目标。目前，主要的目标检测方法有基于传统机器学习的方法以及基于深度学习的方法。传统的机器学习方法需要人工设计并提取特征，工作量较大，且提取的特征适应性较差，检测精度不高。而深度学习能够自动学习，且具有很高的精度。而基于深度学习的方法又分为两类，分别是两步检测和一步检测。其中，两步检测需要首先预测出可能包含目标的区域，再对该区域进行分类，其检测框相比一步检测具有较高精度。但是，由于需要对每一个可能包含目标的区域进行特征提取、分类，所以计算量很大。不同于两步检测，一步检测只需要一次特征提取，即可进行目标解析，所以检测速度相比两步检测有了很大提高，且精度和两步检测相当。虽然，一步检测在速度方面有了很大提升，但是其检测精度较差。

因此，现有技术存在缺陷，急需改进。

发明内容

本申请实施例的目的在于提供一种卷积神经网络结构、目标检测方法及装置，可以提高对检测目标的检测精度。

第一方面，本申请实施例提供了一种目标检测方法，采用卷积神经网络结构来进行目标检测，该卷积神经网络结包括：输入层、特征提取结构以及多个目标解析层，所述特征提取结构包括多个依次级联的卷积结构层；而所述目标检测方法包括：

通过所述输入层接收待检测的原始图片，并对该原始图片进行预处理，以得到特征图像；

通过所述特征提取结构的多个卷积结构层对所述特征图像进行逐层卷积计算；

通过所述多个目标解析层分别从所述特征提取结构的不同层级获取特征图像，并对获取的特征图像的特征进行分类和回归，以得到所述检测目标在原始图片中的位置信息以及对应的检测框的尺寸信息；每一所述目标解析层被训练为检测预设尺寸范围的检测目标，不同的目标解析层对应不同的预设尺寸范围。

本申请实施例通过采用多个目标解析层分别对不同层级输出的不同尺寸的特征图像进行分类和回归，每一目标解析层被训练为对预设尺寸范围的检测目标进行检测，该预设尺寸范围与该特征图像的尺寸相互适配，从而提高对检测目标的检测准确性以及检测效率。

可选地，在本申请实施例所述的目标检测方法中，所述特征提取结构还包括至少两个特征融合层；

所述通过所述特征提取结构的多个卷积结构层对所述特征图像进行逐层卷积计算的步骤之后还包括：

通过所述至少两个特征融合层将至少两个不同层级的卷积结构层输出的特征图像进行特征融合以得到融合特征图像，其中，所述至少两个特征融合层输出的融合特征图像的尺寸依次减小；

所述目标解析层从所述特征提取结构获取的特征图像为所述特征融合层输出的融合特征图或所述卷积结构层输出的特征图像。

本申请实施例采用特征融合层将不同层级的特征图像进行融合，从而将深层的语义信息和浅层的纹理特征进行特征融合，能有效减少检测目标的错检率和漏检率。

可选地，在本申请实施例所述的目标检测方法中，所述特征融合层包括一上采样子层、一拼接子层以及至少两个卷积子层；

所述通过所述至少两个特征融合层将至少两个不同层级的卷积结构层输出的特征图像进行特征融合以得到融合特征图像的步骤包括：

通过所述上采样子层对待融合的两个特征图像中尺寸较小的特征图像执行上采样操作，使得待融合的两个特征图像尺寸相同；

通过所述拼接子层将调整为相同尺寸后的两个特征图像进行拼接，以得到拼接特征图像；

通过所述至少两个卷积子层对所述拼接特征图像进行逐层卷积计算，以得到对应的融合特征图像。

可选地，在本申请实施例所述的目标检测方法中，每一所述特征融合层用于将其他所述特征融合层输出的融合特征图像或一所述卷积结构层输出的特征图像与其他所述卷积结构层输出的特征图像进行特征融合，以输出另一融合特征图像。

可选地，在本申请实施例所述的目标检测方法中，所述至少两个特征融合层包括第一特征融合层以及第二特征融合层；

通过所述第一特征融合层将第N层以及第L层的两个卷积结构层输出的特征图像进行融合，以得到第一融合特征图像，其中，N小于L，L小于或等于卷积结构层的总个数；

通过所述第二特征融合层将第M层的卷积结构层输出的特征图像以及所述第一特征融合层输出的特征图像进行融合，以得到第二融合特征图像，其中N大于M。

可选地，在本申请实施例所述的目标检测方法中，每一所述卷积结构层包括两个第一卷积层以及一残差层，所述卷积结构层的残差层将对应两个第一卷积层的输出的特征图像输出给与该卷积结构层连接的下一层结构。

可选地，在本申请实施例所述的目标检测方法中，所述输入层包括至少两个依次级联的卷积池化层；每一所述卷积池化层包括一第二卷积层以及一最大池化层。

第二方面，本申请实施例提供了一种目标检测装置，采用卷积神经网络结构来进行目标检测，该卷积神经网络结包括：输入层、特征提取结构以及多个目标解析层，所述特征提取结构包括多个依次级联的卷积结构层；而所述装置包括：

接收模块，用于通过所述输入层接收待检测的原始图片，并对该原始图片进行预处理，以得到特征图像；

计算模块，用于通过所述特征提取结构的多个卷积结构层对所述特征图像进行逐层卷积计算；

检测模块，用于通过所述多个目标解析层分别从所述特征提取结构的不同层级获取特征图像，并对获取的特征图像的特征进行分类和回归，以得到所述检测目标在原始图片中的位置信息以及对应的检测框的尺寸信息；每一所述目标解析层被训练为检测预设尺寸范围的检测目标，不同的目标解析层对应不同的预设尺寸范围。

第三方面，本申请实施例提供了一种卷积神经网络结构，包括：

输入层，用于接收原始图片，并对所述原始图片进行预处理得到特征图像；

特征提取结构，其包括多个依次级联的卷积结构层，用于对所述特征图像进行逐层卷积计算；

多个目标解析层，每一所述目标解析层被训练为检测预设尺寸范围的检测目标，不同的目标解析层对应不同的预设尺寸范围；每一目标解析层分别从所述特征提取结构的不同层级获取与所述预设尺寸范围适配的特征图像，并对获取的特征图像的特征进行分类和回归，以得到所述检测目标在原始图片中的位置信息以及对应的检测框的尺寸信息。

本申请实施例提供的神经网络模型通过采用多个目标解析层分别对不同层级输出的不同尺寸的特征图像进行分类和回归，每一目标解析层被训练为对预设尺寸范围的检测目标进行检测，该预设尺寸范围与该特征图像的尺寸相互适配，从而提高对检测目标的检测的准确性以及效率。

可选地，在本申请实施例所述的卷积神经网络结构中，所述特征提取结构还包括至少两个特征融合层；

每一所述特征融合层用于将至少两个不同层级的卷积结构层输出的特征图像进行特征融合以得到融合特征图像，其中，所述至少两个特征融合层输出的融合特征图像的尺寸依次减小；

所述多个目标解析层分别从所述特征提取结构的不同层级获取特征图像为从所述特征融合层获取的融合特征图或所述卷积结构层获取的特征图像。

可选地，在本申请实施例所述的卷积神经网络结构中，每一所述特征融合层包括一上采样子层、一拼接子层以及至少两个卷积子层；

所述上采样子层用于对待融合的两个特征图像中尺寸较小的特征图像执行上采样操作，使得待融合的两个特征图像尺寸相同；

所述拼接子层用于将调整为相同尺寸后的两个特征图像进行拼接，以得到拼接特征图像；

所述至少两个卷积子层用于对所述拼接特征图像进行逐层卷积计算，以得到对应的融合特征图像。

可选地，在本申请实施例所述的卷积神经网络结构中，每一所述特征融合层用于将另一所述特征融合层输出的融合特征图像或一所述卷积结构层输出的特征图像与另一所述卷积结构层输出的特征图像进行特征融合，以输出另一融合特征图像。

第四方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第五方面，本申请实施例提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的卷积神经网络结构的一种结构示意图。

图2为本申请实施例提供的卷积神经网络结构的输入层的结构示意图。

图3为本申请实施例提供的卷积神经网络结构的卷积结构层的结构示意图。

图4为本申请实施例提供的卷积神经网络结构的另一种结构示意图。

图5为本申请实施例提供的目标检测方法的流程图。

图6为本申请实施例提供的目标检测装置的结构示意图。

图7为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请提供了一种卷积神经网络结构，包括：输入层，用于接收原始图片，并对所述原始图片进行预处理得到特征图像；特征提取结构，其包括多个依次级联的卷积结构层，用于对所述特征图像进行逐层卷积计算；多个目标解析层，每一所述目标解析层被训练为检测预设尺寸范围的检测目标，不同的目标解析层对应不同的预设尺寸范围；每一目标解析层分别从对应层级的卷积结构层获取与所述预设尺寸范围适配的特征图像，并对获取的特征图像的特征进行分类和回归，以得到所述检测目标在原始图片中的位置信息以及对应的检测框的尺寸信息。该卷积神经网络结构可以用于对道路目标的检测，例如，对道路上的大尺寸目标、中尺寸目标以及小尺寸目标进行检测。本申请例提供的卷积神经网络结构通过采用多个目标解析层分别对不同层级输出的不同尺寸的特征图像进行分类和回归，每一目标解析层被训练为对预设尺寸范围的检测目标进行检测，该预设尺寸范围与对应的特征图像的尺寸相互适配，从而提高对检测目标的检测准确性以及检测效率。

下面结合附图对该卷积神经网络结构进行详细说明。

请参照图1，图1是本申请一些实施例中的卷积神经网络结构的结构示意图。该卷积神经网络结构包括输入层10、特征提取结构20以及多个目标解析层30。

该输入层10用于对原始图片进行预处理得到特征图像。该原始图片可以为通过摄像机拍摄得到的实时图片，也可以是通过网络获取的原始图片。该输入层10用于快速缩小特征图像的尺寸，减小模型的计算量和数据传输量。

该特征提取结构20包括多个依次级联的卷积结构层21，用于对输入层10输出的特征图像进行逐层卷积计算；并且，该多个依次级联的卷积结构层21中的每一层输出给下一层的特征图像具有不同的尺寸。该目标解析层30的数量小于卷积结构层21的数量；多个目标解析层30与多个卷积结构层内的部分卷积结构层21一一对应，每一目标解析层30对对应所述卷积结构层21输出的特征图像的特征进行分类和回归，以得到对应尺寸范围的检测目标的位置信息以及对应的检测框的尺寸信息。

具体地，如图2所示，该输入层10包括至少两个依次级联的卷积池化层11。每一卷积池化层11包括一第二卷积层111以及一最大池化层112。第二卷积层111为卷积核为3*3且步长为1的卷积层，最大池化层122的步长为2；当然，其并不限于此，该第二卷积层111还可以采用其他卷积核，步长也可以进行调整。

具体地，如图3所示，每一卷积结构层21包括两个第一卷积层211以及一个残差层212。其中，该多个卷积结构层21中的第一级的卷积结构层21的两个第一卷积层211的卷积核均为3*3，步长均为1。该多个卷积结构层21中的后续的卷积结构层21的两个第一卷积层211的卷积核分别为3*3，步长分别为2和1，其中，前面的第一卷积层211的步长为2，后面的第一卷积层211的步长为1。

其中，多个目标解析层30的数量为三个，该三个目标解析层30分别被训练为检测第一尺寸范围的检测目标、第二尺寸范围的检测目标以及第三尺寸范围的检测目标。在本实施例中，该三个目标解析层30分别与该特征提取结构20的第五级的卷积结构层21、第四级的卷积结构层21以及第三级的卷积结构层21分别一一对应。其中，该与第五级的卷积结构层21对应的目标解析层被训练为检测第一尺寸范围的检测目标。该与第四级的卷积结构层21对应的目标解析层被训练为检测第二尺寸范围的检测目标。该与第三级的卷积结构层21对应的目标解析层被训练为检测第三尺寸范围的检测目标。第一尺寸范围、第二尺寸范围、第三尺寸范围依次增大，也即是每一目标解析层的检测框的尺寸依次增大。

优选地，每一目标解析层30分别分配多套检测通道，每套检测通道对应一个目标类别，负责检测该类目标。例如，对于被训练为检测第一尺寸范围的检测目标的目标解析层，其设置有10套检测通道，每一套检测通道分别对应A1类目标、A2目标、A3类目标、A4目标、A5类目标、A6目标、A1类目标、A8目标、A9类目标、A10目标，其中，目标A1-A10的尺寸均在该第一尺寸范围内。

由上可知，本申请实施例提供的神经网络模型通过采用多个目标解析层分别对不同层级输出的不同尺寸的特征图像进行分类和回归，每一目标解析层被训练为对预设尺寸范围的检测目标进行检测，该预设尺寸范围与该特征图像的尺寸相互适配，从而提高对检测目标的检测的准确性以及效率。

请参照图4，图4是本申请另一些实施例中的卷积神经网络结构的结构示意图。该卷积神经网络结构包括输入层10、特征提取结构20以及多个目标解析层30。

该输入层10用于对原始图片进行预处理得到特征图像。该原始图片可以为通过摄像机拍摄得到的实时图片，也可以是通过网络获取的原始图片。如图2所示，该输入层10包括至少两个依次级联的卷积池化层11。每一卷积池化层11包括一第二卷积层111以及一最大池化层112。第二卷积层111为卷积核为3*3且步长为1的卷积层，最大池化层122的步长为2；当然，其并不限于此，该第二卷积层111还可以采用其他卷积核，步长也可以进行调整。该输入层10用于快速缩小特征图像的大小，减小模型的计算量和特征图像的数据传输量。

该特征提取结构20包括多个依次级联的卷积结构层21以及至少两个特征融合层22。该多个卷积结构层21用于对输入层10输出的特征图像进行逐层卷积计算；以及至少两个特征融合层22。每一特征融合层22用于将至少两个不同层级的卷积结构层21输出的特征图像进行特征融合以得到融合特征图像，其中，至少两个特征融合层输出的融合特征图像的尺寸依次减小。

该多个目标解析层30包括至少两个第一目标解析层30a以及一个第二目标解析层30b，至少两个第一目标解析层30a与所述至少两个特征融合层一一对应，每一第一目标解析层30a用于对对应特征融合层22输出的融合特征图像的特征进行分类和回归，以得到对应尺寸范围的检测目标的位置信息以及对应的检测框的尺寸信息。第二目标解析层30b用于对特征提取结构中最末端的卷积结构层21输出的特征图像的特征进行分类和回归，以得到对应尺寸范围的检测目标的位置信息以及对应的检测框的尺寸信息。

具体地，如图3所示，每一卷积结构层21包括两个第一卷积层211以及一个残差层212。其中，该多个卷积结构层21中的第一级的卷积结构层21的两个第一卷积层211的卷积核均为3*3，步长均为1。该多个卷积结构层21中的后续级的卷积结构层21的两个第一卷积层211的卷积核分别为3*3，步长分别为2和1，其中，前面的第一卷积层211的步长为2，后面的第一卷积层211的步长为1。

在一些实施例中，该每一特征融合层22用于将其他的特征融合层22输出的融合特征图像或一卷积结构层21输出的特征图像与其他的所述卷积结构层21输出的特征图像进行特征融合，以输出另一融合特征图像。

在一些实施例中，两个特征融合层22分别为第一特征融合层22a以及第二特征融合层22b，其中，该第一特征融合层22a用于将两个卷积结构层21输出的特征图像进融合，以得到第一融合特征图像。该第二特征融合层22b用于将第一融合特征图像与另一卷积结构层21输出的特征图像进行融合，以得到第二融合特征图像。

其中，该第一特征融合层22a用于将该特征提取结构20的第N层以及第L层的两个卷积结构层21输出的特征图像进行融合，以得到第一融合特征图像，其中，N小于L，L小于或等于卷积结构层的总个数。第二特征融合层22b用于将第M层的卷积结构层输出的特征图像以及所述第一特征融合层输出的特征图像进行融合，以得到第二融合特征图像，其中N大于M，具体地，在本实施例中，该N=M-1，L=N+1，该N=4。可以理解地，在一些实施例中，M与N的差或者L与N的差可以为2或者3，差值越大，对应层的特征图像之间的语义特征以及纹理特征的所占比例差距越大。

具体地，每一特征融合层22包括一上采样子层、一拼接子层以及至少两个卷积子层；上采样子层用于对待融合的两个特征图像中尺寸较小的特征图像执行上采样操作，使得待融合的两个特征图像尺寸相同，上采样的倍数根据两个待融合的特征图像的尺寸比例而定。拼接子层用于将调整为相同尺寸后的两个特征图像进行拼接，以得到拼接特征图像；该至少两个卷积子层用于对所述拼接特征图像进行逐层卷积计算，以得到对应的融合特征图像。

其中，每一目标解析层30分别分配多套检测通道，每套检测通道对应一个目标类别，负责检测该类目标。例如，对于被训练为检测第一尺寸范围的检测目标的目标解析层，其设置有10套检测通道，每一套检测通道分别对应A1类目标、A2目标、A3类目标、A4目标、A5类目标、A6目标、A1类目标、A8目标、A9类目标、A10目标，其中，目标A1-A10的尺寸在该第一尺寸范围内。

由上可知，本申请实施例提供的神经网络模型通过采用多个目标解析层分别对不同层级输出的不同尺寸的特征图像进行分类和回归，每一目标解析层被训练为对预设尺寸范围的检测目标进行检测，该预设尺寸范围与该特征图像的尺寸相互适配，从而提高对检测目标的检测的准确性以及效率；进一步地，由于深层级的特征图像包含的主要是检测目标的高级语义信息，而浅层级的特征图像包含丰富的纹理特征信息。只用深层级的特征图像或只用浅层特征图像都容易导致错检或漏检，而本实施例中通过采用特征融合层将不同层级的特征图像进行融合，从而将深层的语义信息和浅层的纹理特征进行特征融合，能有效减少错检或者漏检的概率。

请同时参照图5，本申请还提供了一种目标检测方法，该方法上述任一实施例中所述的卷积神经网络结构对待检测图片中的不同尺寸范围的待检测目标进行检测；从而检测出待检测图片中的检测目标的位置信息以及检测框的尺寸信息。例如，该图片可以为道路摄像头采集的道路图像，该检测目标可以为该道路图像中的机动车辆、自行车或者行人等。

具体地，该目标检测方法包括以下步骤：

S301、通过输入层接收待检测的原始图片，并对该原始图片进行预处理，以得到特征图像。

S302、通过特征提取结构的多个卷积结构层对所述特征图像进行逐层卷积计算。

S303、通过多个目标解析层分别从所述特征提取结构的不同层级获取特征图像，并对获取的特征图像的特征进行分类和回归，以得到所述检测目标在原始图片中的位置信息以及对应的检测框的尺寸信息；每一所述目标解析层被训练为检测预设尺寸范围的检测目标，不同的目标解析层对应不同的预设尺寸范围。

在该步骤S301中，该原始图片可以为通过摄像机拍摄得到的实时图片，也可以是通过网络获取的原始图片。如图2所示，该输入层10包括至少两个依次级联的卷积池化层11。每一卷积池化层11包括一第二卷积层111以及一最大池化层112。第二卷积层111为卷积核为3*3且步长为1的卷积层，最大池化层122的步长为2；当然，其并不限于此，该第二卷积层111还可以采用其他卷积核，步长也可以进行调整。该输入层10用于快速缩小特征图的大小，减小模型的计算量和特征图的数据传输量。

在该步骤S302中，该卷积结构层包括两个第一卷积层以及一残差层，所述卷积结构层的残差层将对应两个第一卷积层的输出的特征图像输出给与该卷积结构层连接的下一层结构。

可以理解地，在一些实施例中，该特征提取结构仅仅包括多个级联的卷积结构层。因此，该特征提取结构仅仅通过所述特征提取结构的多个卷积结构层对所述特征图像进行逐层卷积计算。

在另一些实施例中，该特征提取结构不仅包括多个级联的卷积结构层，还包括至少两个特征融合层。

因此，该步骤S302之后还包括：S3021、通过所述至少两个特征融合层将至少两个不同层级的卷积结构层输出的特征图像进行特征融合以得到融合特征图像，其中，所述至少两个特征融合层输出的融合特征图像的尺寸依次减小。该步骤S3021在该步骤S303之前执行。

其中，该特征融合层包括一上采样子层、一拼接子层以及至少两个卷积子层；该步骤S3021包括：通过所述上采样子层对待融合的两个特征图像中尺寸较小的特征图像执行上采样操作，使得待融合的两个特征图像尺寸相同；通过所述拼接子层将调整为相同尺寸后的两个特征图像进行拼接，以得到拼接特征图像；通过所述至少两个卷积子层对所述拼接特征图像进行逐层卷积计算，以得到对应的融合特征图像。

具体地，每一特征融合层用于将另一所述特征融合层输出的融合特征图像或一所述卷积结构层输出的特征图像与其他的所述卷积结构层输出的特征图像进行特征融合，以输出另一融合特征图像。例如，至少两个特征融合层包括第一特征融合层以及第二特征融合层；而该步骤S3021包括：通过所述至少两个特征融合层将至少两个不同层级的卷积结构层输出的特征图像进行特征融合以得到融合特征图像的步骤包括：通过所述第一特征融合层将第N层以及第L层的两个卷积结构层输出的特征图像进行融合，以得到第一融合特征图像，其中，N小于L，L小于或等于卷积结构层的总个数；通过所述第二特征融合层将第M层卷积结构层输出的特征图像以及所述第一特征融合层输出的特征图像进行融合，以得到第二融合特征图像，其中N大于M。

在该步骤S303中，对应该特征提取结构仅包括多个卷积结构层的场景。该多个目标解析层30的数量为三个，该三个目标解析层30分别被训练为检测第一尺寸范围的检测目标、第二尺寸范围的检测目标以及第三尺寸范围的检测目标。在本实施例中，该三个目标解析层30分别与该特征提取结构20的第五级的卷积结构层21、第四级的卷积结构层21以及第三级的卷积结构层2分别一一对应。其中，该与第五级的卷积结构层21对应的目标解析层被训练为检测第一尺寸范围的检测目标。该与第四级的卷积结构层21对应的目标解析层被训练为检测第二尺寸范围的检测目标。该与第三级的卷积结构层21对应的目标解析层被训练为检测第三尺寸范围的检测目标。第一尺寸范围、第二尺寸范围、第三尺寸范围依次增大，也即是每一目标解析层的检测框的尺寸依次增大。每一目标解析层30分别分配多套检测通道，每套检测通道对应一个目标类别，负责检测该类目标。例如，对于被训练为检测第一尺寸范围的检测目标的目标解析层，其设置有10套检测通道，每一套检测通道分别对应A1类目标、A2目标、A3类目标、A4目标、A5类目标、A6目标、A1类目标、A8目标、A9类目标、A10目标，其中，目标A1-A10的尺寸在该第一尺寸范围内。

对应该特征提取结构包括多个卷积结构层以及至少两个特征融合层的场景。该至少两个目标解析层30包括至少两个第一目标解析层30a以及一个第二目标解析层30b，至少两个第一目标解析层30a与所述至少两个特征融合层一一对应，每一第一目标解析层30a用于对对应特征融合层22输出的融合特征图像的特征进行分类和回归，以得到对应尺寸范围的检测目标的位置信息以及对应的检测框的尺寸信息。第二目标解析层30b用于对特征提取结构中最末端的卷积结构层21输出的特征图像的特征进行分类和回归，以得到对应尺寸范围的检测目标的位置信息以及对应的检测框的尺寸信息。

请参照图6，图6是本申请一些实施例中的一种目标检测装置的结构图，目标检测装置包括：接收模块401、计算模块402以及检测模块403。

其中，该接收模块401用于通过所述输入层接收待检测的原始图片，并对该原始图片进行预处理，以得到特征图像。其中，该原始图片可以为通过摄像机拍摄得到的实时图片，也可以是通过网络获取的原始图片。如图2所示，该输入层10包括至少两个依次级联的卷积池化层11。每一卷积池化层11包括一第二卷积层111以及一最大池化层112。第二卷积层111为卷积核为3*3且步长为1的卷积层，最大池化层122的步长为2；当然，其并不限于此，该第二卷积层111还可以采用其他卷积核，步长也可以进行调整。该输入层10用于快速缩小特征图的大小，减小模型的计算量和特征图的数据传输量。

其中，该计算模块402用于通过所述特征提取结构的多个卷积结构层对所述特征图像进行逐层卷积计算。在一些实施例中，该特征提取结构仅仅包括多个级联的卷积结构层。因此，该特征提取结构仅仅通过所述特征提取结构的多个卷积结构层对所述特征图像进行逐层卷积计算。

在另一些实施例中，该特征提取结构不仅包括多个级联的卷积结构层，还包括至少两个特征融合层。因此，该计算模块402还用于通过所述至少两个特征融合层将至少两个不同层级的卷积结构层输出的特征图像进行特征融合以得到融合特征图像，其中，所述至少两个特征融合层输出的融合特征图像的尺寸依次减小。

其中，该检测模块403用于通过所述多个目标解析层分别从所述特征提取结构的不同层级获取特征图像，并对获取的特征图像的特征进行分类和回归，以得到所述检测目标在原始图片中的位置信息以及对应的检测框的尺寸信息；每一所述目标解析层被训练为检测预设尺寸范围的检测目标，不同的目标解析层对应不同的预设尺寸范围。

请参照图7，图7为本申请实施例提供的一种电子设备的结构示意图，本申请提供一种电子设备5，包括：处理器501和存储器502，处理器501和存储器502通过通信总线503和/或其他形式的连接机构（未标出）互连并相互通讯，存储器502存储有处理器501可执行的计算机程序，当计算设备运行时，处理器501执行该计算机程序，以执行时执行上述实施例的目标检测方法。

本申请实施例提供一种存储介质，所述计算机程序被处理器执行时，执行上述实施例中的目标检测方法。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory,简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，采用卷积神经网络结构来进行目标检测，该卷积神经网络结构包括：输入层、特征提取结构以及多个目标解析层，所述特征提取结构包括多个依次级联的卷积结构层；而所述目标检测方法包括：

通过所述多个目标解析层分别从所述特征提取结构的不同层级获取特征图像，并对获取的特征图像的特征进行分类和回归，以得到检测目标在原始图片中的位置信息以及对应的检测框的尺寸信息；其中，每一所述目标解析层被训练为检测预设尺寸范围的检测目标，不同的目标解析层对应不同的预设尺寸范围；

所述特征提取结构还包括至少两个特征融合层；所述通过所述特征提取结构的多个卷积结构层对所述特征图像进行逐层卷积计算的步骤之后还包括：

所述目标解析层从所述特征提取结构获取的特征图像是所述特征融合层输出的融合特征图像或所述卷积结构层输出的特征图像。

2.根据权利要求1所述的目标检测方法，其特征在于，所述特征融合层包括一上采样子层、一拼接子层以及至少两个卷积子层；

3.根据权利要求1所述的目标检测方法，其特征在于，每一所述特征融合层用于将其他所述特征融合层输出的融合特征图像或一所述卷积结构层输出的特征图像与其他所述卷积结构层输出的特征图像进行特征融合，以输出另一融合特征图像。

4.根据权利要求3所述的目标检测方法，其特征在于，所述至少两个特征融合层包括第一特征融合层以及第二特征融合层；

通过所述第一特征融合层将特征提取结构的第N层以及第L层的两个卷积结构层输出的特征图像进行融合，以得到第一融合特征图像，其中，N小于L，L小于或等于卷积结构层的总个数；

通过所述第二特征融合层将特征提取结构的第M层的卷积结构层输出的特征图像以及所述第一特征融合层输出的特征图像进行融合，以得到第二融合特征图像，其中N大于M。

5.根据权利要求1所述的目标检测方法，其特征在于，每一所述卷积结构层包括两个第一卷积层以及一残差层，所述卷积结构层的残差层将对应两个第一卷积层的输出的特征图像输出给与该卷积结构层连接的下一层结构。

6.根据权利要求1所述的目标检测方法，其特征在于，所述输入层包括至少两个依次级联的卷积池化层；每一所述卷积池化层包括一第二卷积层以及一最大池化层。

7.一种目标检测装置，其特征在于，采用卷积神经网络结构来进行目标检测，该卷积神经网络结包括：输入层、特征提取结构以及多个目标解析层，所述特征提取结构包括多个依次级联的卷积结构层；而所述装置包括：

检测模块，用于通过所述多个目标解析层分别从所述特征提取结构的不同层级获取特征图像，并对获取的特征图像的特征进行分类和回归，以得到检测目标在原始图片中的位置信息以及对应的检测框的尺寸信息；每一所述目标解析层被训练为检测预设尺寸范围的检测目标，不同的目标解析层对应不同的预设尺寸范围；

所述特征提取结构还包括至少两个特征融合层；所述检测模块还用于：

通过所述至少两个特征融合层将至少两个不同层级的卷积结构层输出的特征图像进行特征融合以得到融合特征图像，其中，所述至少两个特征融合层输出的融合特征图像的尺寸依次减小；所述目标解析层从所述特征提取结构获取的特征图像是所述特征融合层输出的融合特征图像或所述卷积结构层输出的特征图像。

8.一种卷积神经网络结构，其特征在于，包括：

多个目标解析层，每一所述目标解析层被训练为检测预设尺寸范围的检测目标，不同的目标解析层对应不同的预设尺寸范围；每一目标解析层分别从所述特征提取结构的不同层级获取与所述预设尺寸范围适配的特征图像，并对获取的特征图像的特征进行分类和回归，以得到所述检测目标在原始图片中的位置信息以及对应的检测框的尺寸信息；

所述特征提取结构还包括至少两个特征融合层；

所述目标解析层从所述特征提取结构的不同层级获取的特征图像为从所述特征融合层获取的融合特征图或从所述卷积结构层获取的特征图像。