CN112464960A

CN112464960A - 一种基于快速神经架构搜索的目标检测方法

Info

Publication number: CN112464960A
Application number: CN202011469675.2A
Authority: CN
Inventors: 张艳宁; 张世周; 高扬; 王宁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-09

Abstract

本发明公开了一种基于快速神经架构搜索的目标检测方法，首先定义搜索空间，搜索空间由多层特征融合模块和检测头模块组成；再构建搜索算法；将搜索算法应用在搜索空间，对原始图像进行搜索，检测得到原始图像中目标的类别及位置信息。使用本发明搜索方法，可以在有限的时间和计算资源下，针对目标检测任务定制不同计算场景下的客制化网络模型，兼顾效率与检测精度的平衡。

Description

一种基于快速神经架构搜索的目标检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种目标检测方法。

背景技术

目标检测任务一直是计算机视觉领域的前沿研究热点。其主要目的是识别并用方框标注图像或视频内容中的目标物体。近年来，随着目标检测技术的不断发展，其已被广泛应用于自动驾驶、道路监控、刑事侦查等各个领域。目前大多数的目标检测方法都使用了特征金字塔结构，该结构为分层结构，可以使神经网络模型在训练时更容易对模型提取得到的特征进行解码，同时针对不同类型的图像进行分级处理，从而有助于提升网络的分类和检测能力。但是，类似特征金字塔结构的手工设计，在面对不同数据集与应用场景时，性能尚无法达到最优，且调整过程会消耗研究人员大量的精力，极大影响了目标检测任务的发展。

与此同时，神经架构搜索技术也在近年来得到迅速发展，其旨在通过自动化搜索的方式，搜索针对各类视觉、语音或自然语言处理任务所需的网络结构，达到解放人力，节省时间与计算资源的目的。

相比于传统的人工结构设计，基于神经架构搜索技术的目标检测网络设计更具挑战。它不仅需要研究人员设计一个良好的网络搜索空间和一组基本的候选操作，如何对网络结构进行编码并作为强化学习的输入，设计强化学习的奖励函数，使得强化学习朝着检测性能提升的方向迭代网络，也是需要解决的难题。

发明内容

为了克服现有技术的不足，本发明提供了一种基于快速神经架构搜索的目标检测方法，首先定义搜索空间，搜索空间由多层特征融合模块和检测头模块组成；再构建搜索算法；将搜索算法应用在搜索空间，对原始图像进行搜索，检测得到原始图像中目标的类别及位置信息。使用本发明搜索方法，可以在有限的时间和计算资源下，针对目标检测任务定制不同计算场景下的客制化网络模型，兼顾效率与检测精度的平衡。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：定义目标检测搜索空间；

步骤1-1：将原始图像输入骨干特征提取网络，输出c₁、c₂、c₃、c₄、c₅ 5个不同尺度的图像，其中c₁为原图像；

步骤1-2：将c₁、c₂、c₃、c₄、c₅输入多层特征融合模块，多层特征融合模块将c₁、c₂、c₃、c₄、c₅进行融合，多层特征融合模块的输出表示为P₃、P₄、P₅、P₆、P₇，并且P₃、P₄、P₅、P₆、P₇的尺度与c₁、c₂、c₃、c₄、c₅的5个尺度相同；

步骤1-3：将P₃、P₄、P₅、P₆、P₇分别输入5个检测头模块，经过检测头模块的分类与回归，输出对原始图像中目标检测结果，包括类别及位置信息；

步骤2：构建目标检测搜索算法；

基于假设：搜索得到的结构在不同数据集上应具备迁移能力，使用VOC数据集进行代理搜索；

使用验证集的平均损失之和作为驱动强化学习迭代训练的奖励指标；

使用渐进式搜索解耦大搜索空间：首先固定检测头模块，对多层特征融合模块进行搜索，得到第一个最佳模块；然后固定多层特征融合模块，对检测头模块进行搜索，得到第二个最佳模块；在最终模型中将两次搜索得到的最佳模块进行组合；

步骤3：将步骤2的搜索算法应用在步骤1的搜索空间，对原始图像进行搜索，检测得到原始图像中目标的类别及位置信息。

优选地，所述多层特征融合模块中设计了基本单元块，基本单元块被表征为五元组：x1,x2,x3,x4,x5，支持两个输入与一个输出；其中x1和x2分别代表候选输入，实现跨层级的输入选择；x3和x4为候选变换操作，分别对x1和x2进行变换，增强特征的非线性表征能力；x5对变换后的两路特征进行加权或通道级别的融合。

优选地，所述检测头模块使用线性串联模式，添加权重共享起始点index，在index前的操作拥有独立权重，而index后的操作在不同特征级别间共享权重；借助index起始点，将检测头部分解耦成独立与共享两部分：独立的检测头是多层特征融合模块的延伸，共享的检测头则继续实现分类与回归的功能。

优选地，所述搜索算法使用Adam优化器进行训练。

本发明的有益效果如下：

1、搜索效率相比现有方法有了显著提升。对比同期基于强化学习算法驱动的搜索工作，本框架需要的计算资源更少，搜索时间更短。针对目标检测任务的搜索，仅需很短的时间即可完成，这将为网络模型的快速迭代设计提供较好的支持。

2、搜索模型在多个数据集与特征提取器之间展现出良好的可迁移性。搜索过程中针对目标检测任务使用VOC数据集进行搜索，但完整训练仍需要在COCO数据集上进行，搜索出的结构能够保证在多个数据集之间迁移的性能；对同一个搜索结构而言，选用不同级别的特征提取器，经过完整训练后得到的训练指标均超过了对应级别的基准指标，说明结构在对特征的融合上具备一定的通用迁移能力。

附图说明

图1为本发明方法搜索空间示意图。

图2为本发明中不同模型评价指标的搜索趋势图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明创新地使用循环神经网络对检测网络的主体部分进行编码设计，用检测网络的损失函数作为强化学习的奖励，同时设计了一个良好的搜索空间，且采取了诸多措施加速搜索效率，最终通过神经架构搜索技术，可以在短时间内得到在目标检测领域主流数据集上性能达到最优的主干网络。

本发明方法主要包括两部分：搜索空间和搜索算法。搜索空间定义了被表征的结构信息。一个合理的搜索空间对于整个搜索过程和模型的表现起着重要的作用。搜索策略定义了如何使用算法快速、准确找到最优的网络结构参数配置。这本身是一个探索-开发权衡问题。因为一方面需要快速找到表现良好的结构，而另一方面，则希望避免过早收敛到次优结构的区域。本发明从上述两部分入手，在目标检测任务上扩展了常见的搜索空间，同时从多角度出发优化搜索算法，大幅提高搜索效率与模型检测精度。

一种基于快速神经架构搜索的目标检测方法，包括如下步骤：

步骤1：定义目标检测搜索空间；

步骤2：构建目标检测搜索算法；

优选地，所述搜索算法使用Adam优化器进行训练。

具体实施例：

1、定义搜索空间

利用神经网络提取的图片特征随着提取层数的增加往往呈现出细粒度纹理信息减少、高维度语义信息增加的特性。如图1所示，多层特征融合模块(图1中的FPN)旨在将浅层特征与深层特征进行融合，使得纹理和语义信息能够同时被保留。而检测头分支模块(图1中的Head)则借助融合后的特征进行检测框的分类与回归任务。二者相互协作，构成了通用目标检测框架的完整后端。现有人工设计的融合模块倾向于采用规整的平行逐层连接方式，不具备特征的跨层级结合及残差连接能力。为支持任意级别特征的自由组合，充分释放融合能力，在FPN模块设计了基本单元块。该单元块被表征为五元组(x1,x2,x3,x4,x5)，支持两个输入与一个输出。其中x1和x2分别代表候选的输入下标，二者均由控制器独立采样，从而实现跨层级的输入选择。x3和x4为候选变换操作，由控制器在操作列表中进行采样，分别对x1和x2进行变换，增强特征的非线性表征能力。x5则对变换后的两路特征进行加权或通道级别的融合。基本单元块实现了一定的特征融合，将FPN的搜索空间松弛为若干基本单元块的堆叠，并允许B单元块的输入来自于A单元块的输出，从而实现最大的设计自由度。通过细致分析，本发明提出的搜索空间能够涵盖现有人工设计的特征融合模块，使得搜索结果更具有可比较性。

在检测头模块中，沿袭人工设计的连接方法，使用线性串联模式。搜索的重点被放在操作的选择上。拓展了候选操作的范围，加入更为节省参数的1x1卷积。经由搜索发现可变形卷积加1x1卷积的组合能比叠加两个3x3卷积在精度和效率上取得更好的平衡。为支持更为灵活的搜索空间表示，并借助自动搜索分析权重共享在模型设计中的作用，在检测头部分添加权重共享起始点index。在index前的操作拥有独立权重，而index后的操作在不同特征级别间共享权重。借助该index起始点，将检测头部分解耦成独立与共享两部分。独立的检测头可以看作多层特征融合模块的延伸，而共享的检测头则继续实现分类与回归的功能。由此可以进一步探索在多特征融合与检测头之间算力分配的比例，有助于设计更高效的模型结构。

2、构建搜索算法

基于计算资源与耗费时间的考虑，搜索阶段的每个结构无法对数据集进行完整训练，在目标检测的标准COCO数据集上进行单次训练往往需要十几个小时，若对上千结构逐一进行完整训练，将耗费大量时间与计算资源。在框架中着重提出了三项优化措施，能够在有限计算资源下充分提高搜索效率。

(1)使用代理任务：为加速搜索过程，选用远小于COCO数据集规模的VOC数据集(11,000vs 5000)进行代理搜索。代理搜索基于“搜索出来的结构在不同数据集上应具备一定迁移能力”的假设，并能有效规避COCO数据集数据量大，目标框小，难以在少量迭代中得到有效指标的缺点；

(2)使用新的模型评价指标：模型评价指标定义了模型的可靠性，并提供搜索空间的方向。完整训练单个网络获得指标的时间较长。对于诸多搜索策略，特别是基于强化学习的搜索策略，并不关心评价指标在数值上的大小，而更侧重于不同结构在评价指标上的排列次序。因此更实际的做法是，通过对结构进行有限轮的训练，获得近似的评价指标。已有的研究工作中，往往选择平均精准度作为驱动强化学习的奖励指标，在实验中发现，在搜索的早期使用验证集上的平均损失驱动搜索策略能够取得更快的搜索效率，具体表现在更好的奖励上升趋势，如图2所示，mAP表示平均精准度指标，validation loss表示验证集的平均损失。

(3)使用渐进式搜索解耦大搜索空间：在框架中拓展了搜索空间，同时容纳多层特征融合与检测头空间，使得整个空间达到了10²³级别。在基于强化学习的搜索过程中，即便使用若干加速技巧，也仅能采样几千个结构。为同时兼顾搜索空间与搜索效率，在框架中引入渐进式搜索策略，首先固定检测头模块，对多特征融合模块进行搜索，随后交换搜索的模块，在最终模型中组合两次搜索中得到的最佳模块。

3、将整个方法流程分为三部分，网络搜索阶段、重训练阶段、测试阶段。框架整体基于一阶段目标检测框架FCOS改进而来。

4、网络搜索阶段：

本发明在搜索阶段设计了一个代理任务，用于简单测试搜索得到模型的性能。使用PASCAL VOC数据集，该数据集包含了5715张训练图片，有20个类别。网络的搜索阶段使用不同于重新训练阶段(即以下的第二阶段)的数据集，有利于训练模型的迁移能力。进一步，我们将VOC数据集分为包含4000张图片在内的搜索训练集和1715张图片在内的搜索验证集，在搜索训练集上训练搜索得到的网络，在搜索验证集上计算强化学习需要的奖励。输入图片的尺寸被裁剪到384x 384，网络通道数也被压缩，同时使用了学习率为8e-4以及batchsize为200的Adam优化器。为了进一步加速搜索速度，使用了Polyak训练技巧，同时固定了目标检测网络的骨干网络，将该部分提取到的特征进行缓存处理，方便搜索阶段只进行后面主干网络的搜索与训练。

一阶段的主干网络一般包括了Neck与Head两部分，本实施例中可以同时对两者进行搜索。采取了渐进式搜索的方法，首先固定Head网络，搜索得到更好的Neck网络，之后在此搜索基础上，加入Neck部分的搜索，这样可以极大压缩搜索空间，加快搜索速度，同时可以取得不亚于两部分联合搜索的网络结构。在渐进式搜索过程中，在两部分网络之间使用了1x1卷积以便解决两部分通道数可能不匹配的问题。

控制器模型在搜索了接近3000个Neck网络结构时几乎收敛，而Head部分只需要约600轮迭代即可收敛。之后挑选搜索阶段性能最好的前20个网络进行第二阶段的重训练过程，只使用了4天就完成了整个搜索过程。

5、重训练阶段：

在重新训练阶段，使用了比VOC更大的标准数据集，MS COCO数据集。调整输入图片为短边800。为了与传统方法进行公平比较，重训练的参数设置与FCOS等框架基本保持一致。

6、测试阶段：

测试阶段用于最终验证搜索得到结构的有效性，这部分的参数设置与FCOS等框架仍旧保持一致。

Claims

1.一种基于快速神经架构搜索的目标检测方法，其特征在于，包括以下步骤：

步骤1：定义目标检测搜索空间；

步骤2：构建目标检测搜索算法；

2.根据权利要求1所述的一种基于快速神经架构搜索的目标检测方法，其特征在于，所述多层特征融合模块中设计了基本单元块，基本单元块被表征为五元组：x1,x2,x3,x4,x5，支持两个输入与一个输出；其中x1和x2分别代表候选输入，实现跨层级的输入选择；x3和x4为候选变换操作，分别对x1和x2进行变换，增强特征的非线性表征能力；x5对变换后的两路特征进行加权或通道级别的融合。

3.根据权利要求1所述的一种基于快速神经架构搜索的目标检测方法，其特征在于，所述检测头模块使用线性串联模式，添加权重共享起始点index，在index前的操作拥有独立权重，而index后的操作在不同特征级别间共享权重；借助index起始点，将检测头部分解耦成独立与共享两部分：独立的检测头是多层特征融合模块的延伸，共享的检测头则继续实现分类与回归的功能。

4.根据权利要求1所述的一种基于快速神经架构搜索的目标检测方法，其特征在于，所述搜索算法使用Adam优化器进行训练。