CN117010447B

CN117010447B - 基于端到端的可微架构搜索方法

Info

Publication number: CN117010447B
Application number: CN202311284266.9A
Authority: CN
Inventors: 程先琼; 严张豹
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2024-01-23
Anticipated expiration: 2043-10-07
Also published as: CN117010447A

Abstract

本发明公开了一种基于端到端的可微架构搜索方法，包括搭建端到端的可微架构搜索网络，该网络包括由线性网络子结构构成的主干网络、颈部网络、检测头，三者搜索空间分别为A1、A2、A3；对搜索空间松弛化处理；选取目标检测任务的数据集训练网络并采用梯度下降搜索策略更新网络得到最佳结构参数，将用最佳结构参数搭建的网络作为目标检测网络，用数据集再次训练至收敛,得到最终目标检测网络。本发明能根据目标检测任务自动搜索设计出符合需求的网络架构，且搜索结果更偏向于轻量化神经网络，满足边缘设备对轻量化模型的需求。本发明学习效率高、计算消耗少，主干网络、颈部网络、检测头的搜索空间进行搜索，从而真正实现端到端的搜索。

Description

基于端到端的可微架构搜索方法

技术领域

本发明涉及一种深度学习中神经网络架构搜索领域，尤其涉及一种基于端到端的可微架构搜索方法。

背景技术

一般而言，目标检测网络被人为划为成三部分：主干网络 Backbone，脖颈 Neck，检测头Head。Backbone代表检测网络初始部分，这部分主要负责进行特征提取，常用的Backbone有ResNet，VGG等。Head位于网络的末尾，主要用于利用之前提取处理好的特征进行分类预测以及坐标回归。Neck 则是位于Backbone和Head之间的网络，通常而言是为了进一步更好的提取信息特征，如多尺度特征融合。

近年来，NAS 在图像目标检测领域取得的成果逐年增加，但是大多数都是针对目标检测骨干网络或者特征融合层 (Feature Pyramid Networks，FPN)等单个目标检测网络组件进行搜索。

Chen等人受one-shot NAS方法的启发，提出的DetNAS就是针对单一的backbone进行搜索。DetNAS的框架包括三个步骤：

（1）在ImageNet上预训练one-shot supernet；

（2）在测试数据集上微调one-shot supernet；

（3）使用进化算法EA在经过训练的supernet上进行体系架构搜索

Wang等人提出NAS-FCOS则是针对neck部分和head部分进行同时搜索，所采用的搜索策略为强化学习。

但现有的技术所存在的问题主要有两点：

（1）只针对单一的目标检测网络组件进行搜索。目标检测网络有3部分，但是DetNAS和NAS-FCOS都只搜索了其中1个或2个组件，而最近的研究：Mnasfpn: Learninglatency-aware pyramid architecture for object detection on mobile devices表明，直接针对整个检测网络进行端到端的搜索会具有更好的效果。

（2）搜索策略太耗时。DetNAS和NAS-FCOS都采用的计算量巨大的遗传算法或强化学习策略进行搜索，这类策略需要极大的计算量，带来了极大的时间成本和人力成本。

发明内容

本发明的目的就在于提供一种解决上述问题，克服只能针对单一的目标检测网络组件进行搜索，且搜索策略太耗时的缺陷的，基于端到端的可微架构搜索方法。

为了实现上述目的，本发明采用的技术方案是这样的：一种基于端到端的可微架构搜索方法，包括以下步骤；

（1）搭建一用于执行目标检测任务的端到端的可微架构搜索网络，包括主干网络、颈部网络、检测头，所述检测头输出端分为两路，分别连接坐标回归网络和分类网络；

（2）构建主干网络、颈部网络、检测头的搜索空间A1、A2、A3；

（21）构建线性网络子结构T-cell；

所述T-cell包括依次设置的输入节点、第一节点、第二节点、输出节点；

输入节点、第一节点间设有数个特征提取操作，第一节点、第二节点设有数个逐点卷积操作，第二节点、输出节点设有数个激活操作；

（22）用T-cell搭建主干网络、颈部网络、检测头；

所述主干网络由3个T-cell串联而成，依次为T-cell1、T-cell2、T-cel3；

所述颈部网络包括9个T-cell，其中每3个串联构成一组，分别第一组、第二组和第三组，T-cell1、T-cell2、T-cel3的输出分别接第一组、第二组和第三组的输入；

所述检测头包括2个串联的T-cell；

（23）根据主干网络、颈部网络、检测头的结构，得到对应的搜索空间A1、A2、A3；

（3）对搜索空间松弛化处理；

（4）选取目标检测任务的数据集，包括训练集、测试集和验证集；

（5）用数据集训练端到端的可微架构搜索网络，根据下式得到A1、A2、A3的最佳结构参数α ^*、β ^*、γ ^*；

式中，α、β、γ为A1、A2、A3的结构参数，α∈A1、β∈A2、γ∈A3；

ω为以α、β、γ搭建的端到端的可微架构搜索网络的网络权值，ω^*(α,β,γ)为该网络训练至收敛后的网络权值；

、/>分别为目标检测任务在验证集和训练集上的损失；

（6）将以α ^*、β ^*、γ ^*搭建的端到端的可微架构搜索网络作为目标检测网络Net ₁，用数据集再次训练至Net ₁收敛,得到最终目标检测网络Net _best。

作为优选：步骤（3）对搜索空间松弛化处理，具体为，

对每个T-cell，将相邻节点间的每项操作分别作为一条边，用混合操作计算得到一混合输出，再送入下一节点；

混合操作时，将相邻两节点按信号流向分别标记为N1和N2，输入特征从N1输入，经混合操作后从N2输出，混合操作采用下式计算；

式中，x为输入特征，O为N1和N2间所有操作的集合，o∈O，是O中一项操作，o(x)表示N1和N2间对x用o操作，α _o为o(x)的权重，out(x)为混合操作后的输出，m为归一化常数，且/>。

作为优选：步骤（5）具体为；

（a1）输入n个训练集中的训练数据x ₁，x ₂，…，x _n；

（a2）对每个训练数据，经主干网络的t-cell1、T-cell2、T-cell3分别得到第一主干网络输出、第二主干网络输出/>、第三主干网络输出/>；

（a3）将、/>、/>分别送入颈部网络的第一组、第二组和第三组中，得到第一组到第三组的输出/>；

（a4）调整尺寸至相同，再进行特征融合得到颈部网络输出特征F ₄；

（a5）将F ₄送入检测头，经检测头的2个T-cell得到检测头输出；

（a6）将送入坐标回归网络和分类网络，计算回归损失l _position和分类损失l _class；

（a7）通过l _position和l _class进行反向传播，采用梯度下降更新网络权值ω；

（a8）固定网络权值ω；

（a9）输入n个测试集中的测试数据t ₁，t ₂，…，t _n，对每个测试数据，按步骤（a1）-（a6）处理得到l _position和l _class；

（a10）通过（a9）得到的l _position和l _class进行反向传播，采用梯度下降更新结构参数α、β、γ；

（a11）重复步骤（a1）-（a10）直至收敛，将此时的α、β、γ，作为A1、A2、A3的最佳结构参数α ^*、β ^*、γ ^*。

作为优选：对一个T-cell，其输入F _in和输出F _out通过下式得到；

F _out=TCELL（F _in）式中，TCELL（）示该T-cell内依次进行的三次混合操作。

作为优选：步骤（a4）中，调整尺寸至相同，具体为，通过上采样和下采样的方式，对的尺寸进行调整；所述特征融合为，通过特征相加的方式。

作为优选：步骤（a6）中，回归损失l _position和分类损失l _class通过下式计算；

式中，Conv _box（）为坐标回归网络的卷积运算，Conv _class（）为分类网络的卷积运算；

所述坐标回归网络由3层网络结构构成，第一层为3x3的卷积层，第二层为3x3的深度可分离卷积层，第三层为1x1的深度可分离卷积层；

所述分类网络也由3层网络结构构成，第一层为3x3的卷积层，第二层为3x3的深度可分离卷积层，第三层为全连接层。

与现有技术相比，本发明的优点在于：

本发明提出了一种基于端到端的可微架构搜索方法，首先构建一种端到端的可微架构搜索网络，该网络用到了线性网络子结构T-cell。本发明的T-cell引入了多种轻量化操作，从而使得搜索结果更偏向于轻量化神经网络，进而满足边缘设备对轻量化模型的需求。

本发明松驰化了搜索空间，将离散的空间变得可微，从而采用梯度下降策略进行搜索，所述梯度下降策略搜索比基于遗传算法和强化学习的策略更快，计算消耗更小，从而使本发明具有学习效率高、计算消耗少的优点。

综上，基于本发明架构和方法，不仅能根据目标检测任务自动搜索设计出符合需求的网络架构，且设计过程中同时对主干网络、颈部网络、检测头的搜索空间进行搜索，不仅效率高、计算消耗少、且能真正实现端到端的搜索。

附图说明

图1为端到端的可微架构搜索网络整体架构图；

图2为线性网络子结构T-cell的结构图。

具体实施方式

下面将结合附图对本发明作进一步说明。

实施例1：参见图1到图2，一种基于端到端的可微架构搜索方法，包括以下步骤；

（21）构建线性网络子结构T-cell；

（22）用T-cell搭建主干网络、颈部网络、检测头；

所述检测头包括2个串联的T-cell；

（3）对搜索空间松弛化处理；

、/>分别为目标检测任务在验证集和训练集上的损失；

本发明中，步骤（3）对搜索空间松弛化处理，具体为，

实施例2：参见图1到图2，为了更好的说明本发明的实施方式，在在实施例1的基础上，我们给出实施例1中，步骤（5）的具体训练方式如下。

（5）用数据集训练端到端的可微架构搜索网络，根据下式得到A1、A2、A3的最佳结构参数α ^*、β ^*、γ ^*，包括步骤（a1）-（a11）；

（a1）输入n个训练集中的训练数据x ₁，x ₂，…，x _n；

（a8）固定网络权值ω；

本实施例中，对一个T-cell，其输入F _in和输出F _out通过下式得到；

步骤（a4）中，调整尺寸至相同，具体为，通过上采样和下采样的方式，对/>的尺寸进行调整；所述特征融合为，通过特征相加的方式。

步骤（a6）中，回归损失l _position和分类损失l _class通过下式计算；

在本实施的步骤（a3）中：

对于，送入第一组，分别经三个T-cell处理得到对应输出/>；

对于，送入第二组，分别经三个T-cell处理得到对应输出/>；

对于，送入第三组，分别经三个T-cell处理得到对应输出/>。

对于步骤（a5），将F ₄送入检测头，经检测头的2个T-cell得到2个对应输出，分别是、/>；后续步骤我们仅使用/>。

实施例3：参见图1到图2，我们给出一种具体的T-cell设计方法。其中，输入节点和第一节点间设有8个特征提取操作，分别标记为op1到op8，每个符号的对应操作、该操作的含义，见表1。同理，第一节点、第二节点设有5个逐点卷积操作W-op1到W-op5，第二节点、输出节点设有5个激活操作，A-op1到A-op5。符号的对应操作、操作的含义见表1。

表1.T-cell中各操作所对应的符号映射关系表

。

在对搜索空间松弛化处理的时候，我们以一个T-cell为例，op1到op8看成8条边，分别对应一权重；W-op1到W-op5看成5条边，也分别对应一权重；A-op1到A-op5也是5条分配了权重的边。

将一个数据送入T-cell，会先后在四个节点间out(x)公式进行三次混合操作。这三次操作，我们用TCELL（）来表示，对每个T-cell，输入节点输入F _in、经三次混合操作后，在输出节点得到输出F _out，F _out=TCELL（F _in）。

实施例4：本发明方法在目标检测领域具有通用性，可应用于各类需要神经网络模型的人工智能相关的场景，以下列举2个场景。

场景1：无人机火灾预警和人员搜救。无人机火灾预警和人员搜救往往涉及目标检测和目标识别两类任务，这两类任务需要神经网络的支持。通过该发明，输入无人机拍摄下的各类人员图像和火灾图像数据，然后经过搜索训练，最终可以搜索得到一个高效的神经网络模型，满足两类任务的应用需求。

场景2：机器人寻物。机器人寻物其中重要的一个环节是检测到物体所在，即目标检测任务，而作为一种边缘设备，复杂的网络模型难以部署，故而需要较为轻量的目标检测神经网络模型。通过输入寻找物体的图像信息，该发明经过搜索会得到一个高精度的目标检测模型，且由于其搜索空间多为轻量化操作，故而搜索出的最终网络模型更偏向于轻量化模型，进而满足边缘设备的部署要求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于端到端的可微架构搜索方法，其特征在于：包括以下步骤；

（1）搭建一用于执行图像目标检测任务的端到端的可微架构搜索网络，包括主干网络、颈部网络、检测头，所述检测头输出端分为两路，分别连接坐标回归网络和分类网络；

（21）构建线性网络子结构T-cell；

输入节点、第一节点间设有数个特征提取操作，第一节点、第二节点设有数个逐点卷积操作，第二节点、输出节点设有数个不同的激活操作；

（22）用T-cell搭建主干网络、颈部网络、检测头；

所述检测头包括2个串联的T-cell；

（3）对搜索空间松弛化处理；

（4）选取图像目标检测任务的数据集，包括训练集、测试集和验证集；

、/>分别为图像目标检测任务在验证集和训练集上的损失；

（6）将以α ^*、β ^*、γ ^*搭建的端到端的可微架构搜索网络作为图像目标检测网络Net ₁，用数据集再次训练至Net ₁收敛,得到最终图像目标检测网络Net _best；

步骤（5）具体为；

（a1）输入n个训练集中的训练数据x ₁，x ₂，…，x _n；

（a8）固定网络权值ω；

2.根据权利要求1所述的基于端到端的可微架构搜索方法，其特征在于：步骤（3）对搜索空间松弛化处理，具体为，

3.根据权利要求1所述的基于端到端的可微架构搜索方法，其特征在于：对一个T-cell，其输入F _in和输出F _out通过下式得到；

F _out= TCELL（F _in）式中，TCELL（）示该T-cell内依次进行的三次混合操作。

4.根据权利要求1所述的基于端到端的可微架构搜索方法，其特征在于：步骤（a4）中，调整尺寸至相同，具体为，通过上采样和下采样的方式，对/>的尺寸进行调整；所述特征融合为，通过特征相加的方式。

5.根据权利要求1所述的基于端到端的可微架构搜索方法，其特征在于：步骤（a6）中，回归损失l _position和分类损失l _class通过下式计算；