CN110659724B

CN110659724B - 基于目标尺度的目标检测深度卷积神经网络构建方法

Info

Publication number: CN110659724B
Application number: CN201910866933.1A
Authority: CN
Inventors: 刘天弼; 杜姗姗; 冯瑞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2023-04-28
Anticipated expiration: 2039-09-12
Also published as: CN110659724A

Abstract

本发明提供一种基于目标尺度的目标检测深度卷积神经网络构建方法，用于在检测某一尺度范围的目标的应用场景下，能够灵活多变、针对不同尺度的目标实现良好适应性的深度卷积神经网，其特征在于，包括：步骤S1，分析图像样本数据集中的所有图像的目标对象，确定目标尺度下限；步骤S2，根据用于目标检测的深度卷积神经网络的主干网结构，得到单个目标对象最终所需的特征数据量，并分析主干网结构的下采样倍数以及最佳下采样倍数；步骤S3，通过深度模型重构方法重构深度卷积神经网络，保证单个目标对象在执行分类运算之前保留充分的特征数据量；步骤S4，使用图像样本数据集对深度卷积神经网络进行训练直至准确率达到要求。

Description

基于目标尺度的目标检测深度卷积神经网络构建方法

技术领域

本发明属于数字图像处理及深度学习领域，具体涉及一种基于目标尺度的目标检测深度卷积神经网络构建方法。

背景技术

机器视觉已广泛渗透到社会生活的各个领域，其中图像目标检测技术是一个重要的组成部分。目前目标检测技术普遍使用深度学习取代传统的数字图像处理技术，其中以卷积神经网络(Convolutional Neural Network,CNN)为深度学习在机器视觉领域的代表。然而，对于学术界现有的CNN模型，往往针对普遍的目标对象，在不同分辨率的图像中，不同大小尺度的目标，均执行统一的检测算法。这导致过小和过大的目标与一般尺度的目标相比，检出效果较差。然而，对于日常生活中常见的一些场景，需要进行目标检测的图像分辨率不变，且图像中的目标尺度在一定范围内变动，例如区域监控视频，行车记录仪等，其检测目标的尺度集中在某一相对较窄范围，这就需要有一种手段，将目标检测算法集中在这些尺度的目标上，提高检测效率。

深度学习革命爆发在2011～2012年，深度学习革命使得计算机视觉在很多应用领域达到了实用水平，催生了工业界的大量应用。其最重要的原因是深度学习可以做到传统方法无法企及的精度，尤其是基于卷积神经网络CNN的深度学习模型，现在已经成为计算机视觉的主流方法。

卷积神经网络是一种常见的深度学习网络架构，受生物自然视觉认知机制启发而来。CNN能够得出原始图像的有效表征，这使得CNN能够直接从原始像素中，经过极少的预处理，捕获到视觉上面的规律。

目标检测是当前最热的话题之一，它需要对很多对象进行分类和定位。目前几乎所有的深度卷积神经网络，都使用从图像分类继承而来的骨干网。用于图像分类的CNN网络是不断对图像进行特征提取，同时一次次执行下采样，最终得到精简到一定程度的特征数据。

然而，使用了这种主干网的目标检测深度卷积神经网络，会在一定程度上受到特征提取方式的限制：对于大小适中的目标，检测算法能够很好地完成检测任务；对于其它尺度的目标尤其是小目标，往往会由于在检测算法的迭代过程中导致目标的特征数据损失过多，导致该检测算法的准确率往往不高并伴有较为严重的丢失率。

发明内容

为解决上述问题，提供一种在检测某一尺度范围的目标的应用场景下，能够灵活多变、针对不同尺度的目标实现良好适应性的深度卷积神经网络的构建方法，本发明采用了如下技术方案：

本发明提供了一种基于目标尺度的目标检测深度卷积神经网络构建方法，用于根据具体目标检测需求的目标尺度从而适当地调整网络结构，实现对特定目标的准确检测，其特征在于，包括：步骤S1，分析图像样本数据集中的所有图像的目标对象，确定目标尺度下限；步骤S2，根据用于目标检测的深度卷积神经网络的主干网结构，得到单个目标对象最终所需的特征数据量，并分析主干网结构的下采样倍数以及最佳下采样倍数；步骤S3，通过深度模型重构方法重构深度卷积神经网络，保证单个目标对象在执行分类运算之前保留充分的特征数据量；步骤S4，使用图像样本数据集对深度卷积神经网络进行训练直至准确率达到要求，其中，深度模型重构方法分为两种方案，在步骤S3中重构深度卷积神经网络时，根据计算资源是否充足选择深度模型重构方法的方案：方案一，当图像分辨率较小且计算资源充足时，通过下采样倍数以及最佳下采样倍数之间的落差将图像进行拉伸；方案二，当计算资源有限时，根据分类预测对特征数据量的需求，改变主干网结构的下采样次数，自后向前重构网络层结构。

本发明提供的基于目标尺度的目标检测深度卷积神经网络构建方法，还可以具有这样的技术特征，其中，目标尺度以标注目标对象的矩形框的面积来描述：A_scale＝h×w,式中，A_scale表示矩形框的面积，h表示矩形框的高，w表示矩形框的宽，令目标尺度用D表示，则有：A_scale＝D²,即：

则步骤S1中目标尺度下限的确定方法为：统计图像样本数据集中所有目标对象的面积，然后对面积计算分位数Q：Q(D_min)≤1-η,式中，D_min为目标尺度下限，η为图像样本数据集的所有目标对象中面积在D_min之上的目标对象数量占总数的比例，目标尺度下限D_min取近似的2的整数次幂。

本发明提供的基于目标尺度的目标检测深度卷积神经网络构建方法，还可以具有这样的技术特征，其中，步骤S2中下采样倍数的分析方法为：下采样次数为主干网结构中下采样操作的次数，每当特征图的分辨率在高和宽的方向上同时降低1/2时，记1次下采样操作，设下采样次数为N，深度卷积神经网络的输入图像分辨率为h₀×w₀，则图像经过主干网结构计算之后，特征图的高h_map和宽w_map为：

若图像中有n个目标，第i个目标在图像中的尺寸为h_i×w_i，则此时映射在特征图上的分辨率为h_i'×w_i'，同理：

为了保证预测的准确性，要求：h_i'×w_i'＞h_pre×w_pre(7)式中，h_pre为每个目标对象所需的高，w_pre为每个目标对象所需的宽，同时，因目标尺度下限为D_min，所以需满足：

本发明提供的基于目标尺度的目标检测深度卷积神经网络构建方法，还可以具有这样的技术特征，其中，当计算资源相对充足，步骤S3采用方案一进行深度卷积神经网络的重构时，对深度神经网络的重构不改动主干网结构的核心部分，仅在网络前端加入图像拉伸算法，令：

式中，K为目标最小尺度变换到分类输入数据尺度而缩小的倍数，D_min为目标尺度下限，h_pre为每个目标对象所需的高，w_pre为每个目标对象所需的宽，主干网结构的下采样次数为N，则在主干网结构完成特征提取之后，分辨率缩小的倍数为2^N，那么，下采样倍数落差为：

即：

在深度卷积神经网络前端加入图像拉伸算法，使图像的分辨率在横纵方向各扩大Δk倍，即完成整个网络模型的设计。

本发明提供的基于目标尺度的目标检测深度卷积神经网络构建方法，还可以具有这样的技术特征，其中，当计算资源相对有限，步骤S3采用方案二进行深度卷积神经网络的重构时，令：

式中，K为目标最小尺度变换到分类输入数据尺度而缩小的倍数，D_min为目标尺度下限，h_pre为每个目标对象所需的高，w_pre为每个目标对象所需的宽，为接近最佳缩小效果，应执行的下采样次数n为：n＝floor(log₂K),即：

在执行了n次下采样操作之后，特征图缩小之后的分辨率接近分类输入数据，且大于分类输入数据，对于主干网结构而言，其下采样次数为N，N>n。则下采样次数落差为：m＝N-n，即：

进一步，将主干网结构中与后m次下采样有关的层结构进行重构。

本发明提供的基于目标尺度的目标检测深度卷积神经网络构建方法，还可以具有这样的技术特征，其中，在对深度卷积神经网络中下采样有关的层结构进行重构时，使用同性质的不降低分辨率的操作替换原操作，同时，为保持接受野不变，替换的层结构之后衔接的卷积层，将卷积核半径扩大一倍，若原卷积核为r×r大小，那么扩大的卷积核r’为：r'＝(r-1)×2+1。

发明作用与效果

根据本发明的基于目标尺度的目标检测深度卷积神经网络构建方法，由于通过对图像数据集中目标尺度下限进行确定，并根据用于目标检测的深度卷积神经网络模型进行分析，因此能够进一步根据深度模型重构方法重构深度卷积神经网络，从而根据具体目标检测需求适当地调整网络的结构。进一步，深度模型重构方法具有两个分支，因此在计算资源充足时能够对图像进行拉伸，从而更好地抵消过多下采样操作带来的损失；而在计算资源有限时，也能够通过对主干网中的下采样结构进行改进，从而减少有效信息的损失。相比较传统的目标检测深度卷积神经网络，本发明提高了目标检测的针对性，同时改进了传统网络对小目标检测效果不佳的缺陷。本发明适用于图像分辨率高度统一，且图像内目标尺寸大小相对集中的情况，因此对于广泛应用的区域监测摄像头、行车记录仪等场景有很好的目标检测效果。

附图说明

图1是本发明实施例中目标检测的卷积神经网络的两种典型架构图；以及

图2是本发明实施例中深度卷积神经网络构建方法的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于目标尺度的目标检测深度卷积神经网络构建方法作具体阐述。

<实施例>

本实施例中，基于目标尺度的目标检测深度卷积神经网络构建方法的实现平台为一台计算机，其操作系统为ubuntu16.04，深度学习框架使用pytorch 1.01，图形处理库使用opencv 3.2.0，CUDA版本为9.0，图像加速计算单元使用NVIDIA 1080Ti GPU。

本实施例，目标检测的深度卷积神经网络原型参考faster rcnn网络模型，其主干网采用VGG16结构。图1是目标检测的卷积神经网络的两种典型架构图，本实施例的网络结构属于第一种two-stage模型。

本实施例中，目标检测算法的应用场景要求图像分辨率一致，图像中被目标检测算法关注的目标对象在尺寸上有相对较窄的波动范围。本发明所描述的网络结构，可据实际应用场景的需求，如对准确度、执行速度等指标有要求，选用合适的网络模型。其中，网络结构是以主流模型为基础，但通过专门的算法设计和结构重构，从而利用原型网络的特性，实现对特定范围目标的准确检测。

图2是本发明实施例中深度卷积神经网络构建方法的流程图。

如图2所示，深度卷积神经网络构建方法包括如下步骤：

步骤S1，分析图像样本数据集中的所有目标对象，确定目标尺度下限。

通过深度卷积神经网络进行识别时，要求图像中绝大多数目标处于可检测范围，因此该深度卷积神经网络的具体结构的实现依赖于目标尺度下限。因此本实施例中，在实现具体网络结构之前需要先决定具体应用场景下的目标尺度下限。

目标尺度以被标注的目标对象的矩形框面积来描述：

A_scale＝h×w (1)

式中，A_scale表示矩形框面积，h表示矩形框的高，w表示矩形框的宽。

令目标尺度用D表示，则有：

A_scale＝D² (2)

即

在执行步骤S1并确认目标尺度下限时，首先统计图像样本数据集中所有目标的尺寸，然后对目标面积计算分位数(Quantile),记为Q。设目标尺度下限为D_min，要求图像样本数据集的所有目标对象中，尺度在D_min之上的目标对象的数量占总数的比例为η，那么尺度下限应当满足：

Q(D_min)≤1-η (4)

其中，为便于图像的计算，D_min应当取近似的2的整数次幂。例如，当η＝0.9时，则满足式(4)的目标尺度下限D_min ²的值为64。

步骤S2，根据目标检测的深度卷积神经网络的主干网结构，得到单个目标最终所需的特征数据量，分析主干网对特征图的下采样倍数、最佳下采样倍数。

下采样操作依赖于深度卷积神经网络的主干网结构。已发表的文献中，用于目标检测的网络所用的主干网均为主流的几类，如VGG系列和ResNet等，其下采样操作的次数可通过主干网提取特征图(feature maps)的操作流程中统计出来。当特征图的分辨率在高和宽的方向上同时降低1/2时，记下采样1次。下文记主干网的下采样次数为N。

主干网对图像进行特征提取操作之后，产生特征图数据供后面的网络模块进行目标的分类、定位预测，每一个目标用来进行预测的输入数据都是特征图的一部分。为了保证预测的准确性，每个目标的预测输入数据必须保证一定的数据量，此数据量可以根据卷积神经网络的结构数据中查询。预测输入的数据形式具有3个维度：通道数c、高h、宽w，即特征数据量的形式为[c,h,w]。其中，每个目标所需的h和w是确定值，记作h_pre、w_pre。

经过主干网计算之后，特征图的通道数一般由网络的卷积核数量决定，而特征图的h_map和w_map则与主干网的下采样次数有关。设卷积神经网络的输入图像分辨率为h₀×w₀，则有：

若图像中有n个目标，第i个目标在原图的尺寸为h_i×w_i，则此时映射在特征图上的分辨率为h_i'×w_i'，同理：

为了保证预测的准确性，要求：

h_i'×w_i'＞h_pre×w_pre (7)

式(7)是本发明的最根本依据。因目标尺度下限为D_min，所以需满足：

显然，满足(8)式唯一的决定参数是N，也就是整个网络的下采样次数。

本实施例的步骤S2中，例如，在实际应用时，根据经典分类网络VGG16的结构参数可知，对于每个目标，分类预测输入数据的大小为[512,7,7]，即：

最佳下采样次数n要满足(8)式，因此最佳下采样次数应为n＝3。

同时，根据主干网结构，统计到下采样次数N＝5。

步骤S3，根据最小尺度的目标对象的分辨率与分类预测所需的分辨率之间的比例匹配深度卷积神经网络的下采样倍数，并通过深度模型重构方法重构深度模型，从而保证单个目标在执行分类运算之前保留充分的特征数据量。

本实施例中，步骤S3包括两种不同的分支子步骤，分别对应深度模型重构方法的两个方案，具体如下：

步骤S3-1，当图像分辨率较小，计算资源充足时，通过计算主干网下采样倍数与最佳下采样之间的差距，将图像进行缩放，保证图像在经过主干网计算之后，对分类预测部分的网络保留足够的特征数据。

本实施例的步骤S3-1中，该方案不改动主干网核心部分，只需在网络前端加入图像放缩算法，增大图像分辨率即可。令：

式中，K为目标最小尺度变换到分类输入数据尺度而缩小的倍数。

主干网的下采样次数为N，那么在主干网完成特征提取之后，分辨率缩小的倍数为2^N。那么，下采样倍数落差为：

即：

在深度卷积神经网络前端加入图像拉伸算法，将图像横纵方向各扩大Δk倍，即完成整个网络模型的设计。

在多数情况下，用于深度学习的计算资源是宝贵的，不宜先放大图像再进行计算，此时应执行的是步骤S3-2。

步骤S3-2，当计算资源有限时，根据分类预测对特征数据的需求，改变主干网的下采样次数，自后向前重构网络层结构。

本实施例的步骤S3-2中，根据式(9)，为接近最佳缩小效果，应执行下采样次数为：

n＝floor(log₂K) (12)

即

在执行了n次下采样之后，特征图缩小之后的分辨率接近分类输入数据，且大于分类输入数据，这就可以保障后续运算的数据量有足够保证。

对于主干网而言，其下采样次数为N，N>n。则下采样次数落差为：

m＝N-n (14)

即

因此，需要将主干网中与后m次下采样有关的层结构进行重构。

本实施例中，在对深度卷积神经网络进行减少下采样的重构时，使用同性质的不降低分辨率的操作替换原操作，并保持卷积网络的接受野不变。

对于卷积神经网络来说，下采样一般采取stride＝2的池化(pooling)操作或stride＝2的卷积操作。那么，替换同性质且不降低分辨率的操作即：

stride＝2的池化操作替换为stride＝1的池化操作；

stride＝2的卷积操作替换为stride＝1的卷积操作。

为保持接受野不变，替换的层结构之后衔接的卷积层，需要将卷积核半径扩大一倍。若原卷积核为r×r大小，那么扩大的卷积核大小为：

r'＝(r-1)×2+1 (16)

本实施例中，以计算资源不充裕时进行计算为例，此时需执行步骤S3-2，则下采样次数落差m＝N-n＝2，因此需要从后向前重构网络层结构。

本模型原型的下采样全使用stride＝2的max pooling操作，因此重构步骤：

第4、5个max pooling层重构为stride＝1的max pooling层；

Pooling层之后的卷积层，原卷积核大小为3×3，保持接受野不变，根据式(16)，重构的卷积核大小为5×5。

本实施例中，重构后的主干网结构如表1所示：

表1主干网结构

步骤S4，使用数据集对深度模型进行训练，直至准确率达到要求。

本实施例的步骤S4中，使用训练数据集，将预测数据与数据集提供的标签数据进行LOSS运算，通过不断地学习更新模型参数，最终完成模型的训练，形成可执行的深度模型。对训练得到的深度模型的实际应用，只需将待分析的图像输入模型，执行深度模型算法，对预测结果进行处理，即可得到目标检测结果。

实施例作用与效果

根据本实施例提供的基于目标尺度的目标检测深度卷积神经网络构建方法，由于通过对图像数据集中目标尺度下限进行确定，并根据用于目标检测的深度卷积神经网络模型进行分析，因此能够进一步根据深度模型重构方法重构深度卷积神经网络，从而根据具体目标检测需求适当地调整网络的结构。进一步，深度模型重构方法具有两个分支，因此在计算资源充足时能够对图像进行拉伸，从而更好地抵消过多下采样操作带来的损失；而在计算资源有限时，也能够通过对主干网中的下采样结构进行改进，从而减少有效信息的损失。相比较传统的目标检测深度卷积神经网络，本发明提高了目标检测的针对性，同时改进了传统网络对小目标检测效果不佳的缺陷。本发明适用于图像分辨率高度统一，且图像内目标尺寸大小相对集中的情况，因此对于广泛应用的区域监测摄像头、行车记录仪等场景有很好的目标检测效果。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于目标尺度范围的目标检测卷积神经网络构建方法，用于根据具体目标检测需求的目标尺度从而适当地调整网络结构，实现对特定目标的准确检测，其特征在于，包括：

步骤S1，分析图像样本数据集中的所有图像的目标对象，确定目标尺度下限；

步骤S2，根据用于目标检测的深度卷积神经网络的主干网结构，得到单个所述目标对象最终所需的特征数据量，并分析所述主干网结构的下采样倍数以及最佳下采样倍数；

步骤S3，通过深度模型重构方法重构所述深度卷积神经网络，保证单个所述目标对象在执行分类运算之前保留充分的特征数据量；

步骤S4，使用所述图像样本数据集对所述深度卷积神经网络进行训练直至准确率达到要求，

其中，所述深度模型重构方法分为两种方案，在所述步骤S3中重构所述深度卷积神经网络时，根据计算资源是否充足选择所述深度模型重构方法的方案：

方案一，当图像分辨率较小且所述计算资源充足时，通过所述下采样倍数以及所述最佳下采样倍数之间的落差将图像进行拉伸；

方案二，当所述计算资源有限时，根据分类预测对所述特征数据量的需求，改变所述主干网结构的下采样次数，自后向前重构网络层结构，

所述步骤S2中下采样倍数的分析方法为：

所述下采样次数为所述主干网结构中下采样操作的次数，每当特征图的分辨率在高和宽的方向上同时降低1/2时，即所述下采样倍数为2，记1次下采样操作，

设所述下采样次数为N，所述深度卷积神经网络的输入图像分辨率为h₀×w₀，

则所述图像经过所述主干网结构计算之后，下采样倍数为2^N，特征图的高h_map和宽w_map为：

若所述图像中有l个目标，第i个目标在所述图像中的尺寸为h_i×w_i，则此时映射在特征图上的分辨率为h_i'×w_i'，同理：

为了保证预测的准确性，要求：

h_i'×w_i'＞h_pre×w_pre(3)

式中，h_pre为每个所述目标对象所需的高，w_pre为每个所述目标对象所需的宽，

同时，因目标尺度下限为D_min，所以需满足：

通过满足式(4)唯一的决定参数是下采样次数N。

2.根据权利要求1所述的基于目标尺度范围的目标检测卷积神经网络构建方法，其特征在于：

其中，所述目标尺度以标注所述目标对象的矩形框的面积来描述：

A_scale＝h×w (5)

式中，A_scale表示所述矩形框的面积，h表示所述矩形框的高，w表示所述矩形框的宽，

令所述目标尺度用D表示，则有：

A_scale＝D² (6)

即：

则所述步骤S1中所述目标尺度下限的确定方法为：

统计所述图像样本数据集中所有目标对象的所述面积，然后对所述面积计算分位数Q：

Q(D_min)≤1-η (8)

式中，D_min为目标尺度下限，为所述图像样本数据集的所有目标对象中所述面积在D_min ²之上的目标对象数量占总数的比例，

在式(8)的基础上，所述目标尺度下限D_min取近似的2的整数次幂。

3.根据权利要求1所述的基于目标尺度范围的目标检测卷积神经网络构建方法，其特征在于：

其中，当所述计算资源相对充足，所述步骤S3采用方案一进行深度卷积神经网络的重构时，对所述深度卷积神经网络的重构不改动所述主干网结构的核心部分，仅在网络前端加入图像拉伸算法，令：

式中，K为目标最小尺度变换到分类输入数据尺度而缩小的倍数，D_min为所述目标尺度下限，h_pre为每个所述目标对象所需的高，w_pre为每个所述目标对象所需的宽，

所述主干网结构的下采样次数为N，则在所述主干网结构完成特征提取之后，分辨率缩小的倍数为2^N，那么，所述下采样倍数落差为：

即：

在深度卷积神经网络前端加入图像拉伸算法，使所述图像的分辨率在横纵方向各扩大Δk倍，即完成整个网络模型的设计。

4.根据权利要求1所述的基于目标尺度范围的目标检测卷积神经网络构建方法，其特征在于：

其中，当所述计算资源相对有限，所述步骤S3采用方案二进行深度卷积神经网络的重构时，令：

为接近最佳缩小效果，应执行的下采样次数n为：

n＝floor(log₂K)(12)

即：

在执行了n次下采样操作之后，特征图缩小之后的分辨率接近分类输入数据，且大于分类输入数据，

对于所述主干网结构而言，其下采样次数为N，N>n，则下采样次数落差为：

m＝N-n(14)

即：

进一步，将所述主干网结构中与后m次下采样有关的层结构进行重构。

5.根据权利要求4所述的基于目标尺度范围的目标检测卷积神经网络构建方法，其特征在于：

其中，在对所述深度卷积神经网络中下采样有关的层结构进行重构时，使用同性质的不降低分辨率的操作替换原操作，

同时，为保持接受野不变，替换的层结构之后衔接的卷积层，将卷积核半径扩大一倍，若原卷积核为r×r大小，那么扩大的卷积核r’为：

r'＝(r-1)×2+1(16)。