CN111860495A

CN111860495A - 一种层级化网络结构搜索方法、设备及可读存储介质

Info

Publication number: CN111860495A
Application number: CN202010568944.4A
Authority: CN
Inventors: 戴文睿; 王曜明; 李成林; 邹君妮; 熊红凯
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-10-30
Anticipated expiration: 2040-06-19
Also published as: CN111860495B

Abstract

本发明提供一种层级化网络结构搜索方法、设备及可读存储介质，包括：S1，构建超网络；S2，获取图像数据并分别作为超网络的网络参数、结构参数的训练数据；S3，生成特征图，计算网络参数的交叉熵损失函数，更新超网络的网络参数；S4，生成特征图和KL散度损失函数，计算结构参数的交叉熵损失函数，得到半隐含变分丢弃损失函数，训练更新超网络的结构参数并得到丢弃概率；S5，利用丢弃概率更新基本单元，更新退火参数；重复S3～S5，更新网络参数和结构参数；S6，得到最终网络。本发明在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度，保证了搜索的稳定性和实用性，可用于图像目标检测、分类等领域，提高图像处理速度。

Description

一种层级化网络结构搜索方法、设备及可读存储介质

技术领域

本发明涉及人工智能和图像处理技术领域，具体涉及一种层级化网络结构搜索方法，及其计算机设备及可读存储介质，以及该方法在图像目标检测、语义分割和分类中的应用。

背景技术

随着计算能力和深度学习的发展，人工智能的发展越来越迅速。最初的图像处理由于采集的图像质量不高，对特征提取的要求因而比较低，所以主要的技术是手工特征的提取。后来图像质量不断提升，对图像处理的精度要求不断提高下，一些统计模式识别的方法例如SVM和信号处理的方法例如小波变换，使得图像处理的发展得到了一定的进步。但手工设计的特征学习始终保留着人为先验带来的偏见，对于图像的预处理要求较高，并且在图像处理的性能上始终无法超越人类。而由特征和分类器联合训练，以数据驱动的方式自动产生最适应于相关任务目标的滤波器组的端到端神经网络则摒弃了手工设计的特征也无需繁杂的预处理工作并提供了强大的图像处理能力。神经网络的出现使得人们无需手工设计特征，但神经网络依然需要手工地搭建。

手动设计的网络在过去的十多年里收获了不错的成绩，但日渐复杂的神经网络使得设计网络成为了一种繁杂且没有效率的工作。网络结构搜索为工业应用中神经网络的搭建提供了一种更加高效和便捷的方法，例如高效配置于不同计算能力的设备(如服务器、移动设备等)，不同时间消耗和准确率需求的应用(例如目标实时监测、大规模图像集分析等)，并能够据此自动设计人工智能芯片。网络结构搜索也在最近几年中因此得到了一定的发展，从基于进化算法的搜索方法发展到现在利用梯度下降高效地搜索网络结构。基于进化算法，强化学习的网络结构搜索方法虽然在搜索得到的结构性能上超越了手动设计的神经网络结构，但花费大量的时间以及计算资源去得到最终的结构，使得网络结构搜索不具有实用性。因此，需要新的方法在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度。

现有的网络结构搜索方法在图像分类任务上存在着不足，这些不足体现在首先对于目前的公共数据集上的图像分类任务，大部分的网络结构搜索方法是需要根据后续图像分类应用所特定的训练数据来搜索得到特定网络结构的。这代表即使同样是图像分类的任务，在更换需要分类的图像的类别之后，仍需要从头进行网络结构的搜索。其次，现有的基于DARTS搜索空间的搜索方法，在网络搜索时会因为搜索epoch数目过多而产生崩溃现象，这一崩溃现象体现在最终的结构变成无参数的全连接神经网络，当用在图像分类任务上时完全无法胜任。而这一崩溃现象也使得当网络结构搜索直接用于图像分类或是其他下流任务时，因为无法确定何时网络结构收敛，而造成下流任务性能的不足。

发明内容

本发明针对现有技术的不足，提供了一种层级化网络结构搜索方法，在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度，保证了搜索的稳定性和实用性，可以用于图像目标检测、分类等领域，提高图像处理速度。

根据本发明的第一方面，提供一种层级化网络结构搜索方法，用于图像处理，包括：

S1，利用基本单元构建网络结构搜索模型的超网络，所述超网络是包含所有候选操作和侯选边的基本单元堆叠成的作为搜索框架的原始神经网络；

S2，获取图像数据并平均分成两部分，第一部分图像数据作为所述超网络的网络参数的训练数据，将这部分图像训练数据输入到网络更新模块，第二部分图像数据作为所述超网络的结构参数的训练数据，将这部分图像训练数据输入到结构更新模块；

S3，所述网络更新模块利用第一部分图像数据经过所述超网络生成特征图，使用所述特征图计算网络参数的交叉熵损失函数，再利用梯度下降方法根据所述网络参数的交叉熵损失函数不断更新所述超网络的网络参数；

S4，所述结构更新模块将第二部分图像数据通过所述超网络生成特征图和KL散度损失函数，使用所述特征图计算结构参数的交叉熵损失函数，将所述KL散度损失函数和所述结构参数的交叉熵损失函数相加计算得到半隐含变分丢弃损失函数，然后利用梯度下降方法根据所述半隐含变分丢弃损失函数对所述超网络的结构参数进行训练更新所述超网络的结构参数并得到丢弃概率；

S5，将更新的所述超网络的结构参数和所述丢弃概率输入到结构保留模块，所述结构保留模块利用所述丢弃概率对所述基本单元中的候选操作和候选边进行采样并以此更新基本单元，更新退火参数，通过不断降低退火参数来降低KL散度损失函数的权重；

重复S3～S5不断迭代更新所述超网络的网络参数和结构参数，直到网络结构搜索模型收敛；

S6，将更新得到的新基本单元构建网络结构搜索模型的最终网络，所述最终网络是包含选定的候选操作和选定的侯选边的新基本单元堆叠成的作为搜索结果的目标神经网络。

可选地，所述利用基本单元构建网络结构搜索模型的超网络，其中，

所述基本单元分为普通单元(normal cell)和归约单元(reduction cell)两类，所述普通单元中的所有候选操作的步长都为1，使得通过所述普通单元的输出的维度不发生变化，而所述归约单元中的靠近输入节点的操作的步长均设为2，使得输出的维度经过此单元后降低。

可选地，所述超网络的网络参数，是指所有基本单元的候选操作内部的参数；

所述使用特征图计算网络参数的交叉熵损失函数，是指根据特征图和第一部分图像数据携带的标签信息，计算得到交叉熵损失函数，所述标签信息为人工标注的类别信息。

可选地，所述超网络的结构参数，是指所有基本单元的候选边和候选操作的权重参数以及方差参数；

所述结构更新模块包括半隐含分布近似子模块和参数更新子模块，所述半隐含分布近似子模块根据层级化完成对候选操作和候选分布的各自的半隐含分布近似，所述候选操作和候选分布的各自的半隐含分布近似包括半隐含后验分布近似以及半隐含退火自动相关性检测先验分布近似；所述参数更新子模块，利用梯度下降以所述KL散度损失函数与所述结构参数的交叉熵损失函数相加计算得到的半隐含变分丢弃损失函数作为目标损失函数对候选操作和候选边的结构参数分别迭代地更新。

可选地，所述KL散度损失函数，是候选操作和侯选边各自的半隐含近似后验分布和半隐含近似退火自动相关性检测先验分布的相对熵之和。

可选地，所述丢弃概率p与伯努利分布q(ψ)的参数δ相关，δ越高对应的丢弃概率越大，以1/(1+δ)为期望的伯努利分布q(ψ)的采样值Ψ则越高的概率为0。

可选地，将更新得到的所述超网络的结构参数输入到所述结构保留模块，所述结构保留模块将伯努利分布q(ψ)的采样值Ψ代入到所述超网络中，所有基本单元里保留采样值为1的候选边和候选操作，丢弃采样值为0的候选边和候选操作，得到新的超网络，以此超网络作为下次迭代更新所用的超网络。

可选地，所述将更新得到的新基本单元构建网络结构搜索模型的最终网络，包括：

将最终收敛得到的结构参数输入到所述结构保留模块，计算得到丢弃或保留概率作为伯努利分布q(ψ)的期望；

将伯努利分布q(ψ)的采样值Ψ代入到所述超网络中所有基本单元里，保留采样值为1的候选边和候选操作，丢弃采样值为0的候选边和候选操作，得到新的超网络；

将更新得到的新的超网络作为网络结构搜索模型的最终网络。

可选地，所述层级化，是指对于基本单元中的侯选边以及每一个候选边上的候选操作都赋予独立的半隐含丢弃噪声分布，并通过对各自的伯努利分布的采样完成对基本单元中的候选边以及侯选边上的候选操作的丢弃和保留；

所述候选操作和候选边的丢弃概率相关参数δ与丢弃概率p之间满足δ＝p/(1-p)，δ越大丢弃概率p越接近1。

根据本发明的第二方面，提供一种图像目标检测方法，包括：

获取用于目标检测的图像训练数据；

采用上述层级化网络结构搜索方法对超网络进行训练，得到目标检测用的搜索结果神经网络；

采用所述搜索结果神经网络对待检测的图像数据进行检测，得到图像目标检测结果。

根据本发明的第三方面，提供一种图像语义分割方法，包括：

获取用于语义分割的图像训练数据；

采用上述层级化网络结构搜索方法对超网络进行训练，得到用于语义分割的搜索结果神经网络；

采用所述搜索结果神经网络对待处理的图像数据进行语义分割，得到图像语义分割结果。

根据本发明的第四方面，提供一种图像分类方法，包括：

获取用于图像分类的图像训练数据；

采用上述层级化网络结构搜索方法对超网络进行训练，得到用于图像分类的搜索结果神经网络；

采用所述搜索结果神经网络对待处理的图像数据进行分类，得到图像分类结果。

根据本发明的第五方面，提供一种计算机设备，包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下任一种方法：

-上述的层级化网络结构搜索方法，或，

-上述的图像目标检测方法，或，

-上述的图像语义分割方法，或，

-上述的图像分类方法。

根据本发明的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下任一种方法：

-上述的层级化网络结构搜索方法，或，

-上述的图像目标检测方法，或，

-上述的图像语义分割方法，或，

-上述的图像分类方法。

根据本发明的第七方面，提供一种芯片系统，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现以下任一种方法：

-上述的层级化网络结构搜索方法，或，

-上述的图像目标检测方法，或，

-上述的图像语义分割方法，或，

-上述的图像分类方法。

与现有技术相比，本发明具有如下的有益效果：

本发明上述的网络结构搜索方法，结构更新模块采用基于半隐含分布近似和神经网络丢弃的层级化网络搜索，在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度，提供了网络结构搜索的新思路也保障了搜索结果的可解释性和稳定性。

本发明上述的网络结构搜索方法，采用半隐含分布近似子模块和参数更新子模块，利用先验分布与逼近后验分布间的相对熵作为结构参数更新的部分损失函数，提高了网络结构搜索的稳定性和可解释性，同时层级化的结构搜索设计提升了结构的多样性和性能，半隐含分布的采样近似解决了原本可微分网络结构搜索的崩溃问题。

本发明上述的网络结构搜索方法，可以应用在原本需要手动设计神经网络的场合，可以用来处理几乎所有的下流任务，包括图像相关的目标检测，图像分类和语义分割任务，也可以用来处理序列信号，在语音处理上对循环神经网络进行自动化地搜索设计。更进一步，可以应用到芯片中，利用芯片系统进行并行加速实现自动化设计网络结构从而适应各种工业场景。

本发明上述图像目标检测、图像分类和语义分割等方法，利用特定的网络结构搜索的方法可以方便自动搜索得到在移动设备上可以进行训练的神经网络。这种快速且计算消耗较低的网络的自动搜索使得在各种设备上进行图像处理任务都有了神经网络的支持而且无需手动设计网络结构。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中搜索方法的模块原理图；

图2为本发明一实施例的基本单元(cell)堆叠示意图；

图3为本发明一实施例的经过不断训练迭代更新网络参数和结构参数最终得到的两个目标结构单元示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

图1为本发明一实施例中搜索方法的模块原理图，图中显示了网络更新模块、结构更新模块、结构保留模块和下流任务处理模块之间的关系。

参照图1所示，在本发明一实施例中，用于图像处理的层级化网络结构搜索方法，包括以下步骤：

S1，利用基本单元构建网络结构搜索模型的超网络，其中，超网络是包含所有候选操作和侯选边的基本单元堆叠成的作为搜索框架的原始神经网络；网络结构搜索模型是指为了得到目标神经网络的整体模型，而目标神经网络是所述超网络的一个子网络，是由搜索方法得到的。

超网络由一系列基本单元堆叠构成，每个基本单元包括多层，并通过有向边(候选边)连接，并在边上定义操作，这里操作从候选操作中选出，例如卷积(convolution)、池化(pooling)、跳过(skip-connect)等。对任意的相连两层，表示将某一层输出，通过边上定义操作，传递至所连接的层。超网络中，每个基本单元中所有层均两两相连，并且包含所有候选操作。网络搜索方法根据图像训练数据，自超网络中确定基本单元的结构(边的连接情况和操作的选择)，由训练获得的结构参数决定。

如图2所示，在一实施例中，将基本单元按照图2所示堆叠成超网络，其中基本单元分为normal单元和reduction单元两类。Normal单元中的所有候选操作的步长都为1，使得通过normal单元的输出的维度不发生变化，而reduction单元中的靠近输入节点的操作的步长均设为2，使得输出的维度经过此单元后降低。

S2，获取图像数据并平均分成两部分，第一部分图像数据作为超网络的网络参数的训练数据，将这部分图像训练数据输入到网络更新模块，第二部分图像数据作为超网络的结构参数的训练数据，将这部分图像训练数据输入到结构更新模块；

本步骤中，图像数据可以随机分成均匀的两部分，这两部分分别作为超网络的网络参数的训练数据、超网络的结构参数的训练数据。在具体应用中，图像数据可以是常见机器学习公共数据集CIFAR，ImageNet，VOC，COCO等，也包括私有采集的图像。

S3，网络更新模块利用第一部分图像数据经过超网络生成特征图，使用特征图计算网络参数的交叉熵损失函数，再利用梯度下降方法根据网络参数的交叉熵损失函数不断更新超网络的网络参数；

本步骤中，特征图一般是指将输入的图像训练数据输入到神经网络的卷积层，利用卷积核去乘以原始图像数据，得到的新的图像特征数据，可以理解为从多个角度(多个卷积核)去提取到图片的特征。

根据特征图和训练图像数据本身携带的标签信息，比如人工标注的类别，计算得到交叉熵损失函数，再通过梯度下降的方法更新网络参数，将更新过网络参数的超网络输入到后续结构更新模块。

网络参数是指所有基本单元的候选操作内部的参数，比如卷积操作中卷积核大小等。

S4，结构更新模块将第二部分图像数据通过超网络生成特征图和KL散度损失函数，使用特征图计算结构参数的交叉熵损失函数，将KL散度损失函数和结构参数的交叉熵损失函数相加计算得到半隐含变分丢弃损失函数，然后利用梯度下降方法根据半隐含变分丢弃损失函数对超网络的结构参数进行训练更新超网络的结构参数并得到丢弃概率；

本步骤中，结构参数是指所有基本单元的候选边和候选操作的权重参数以及方差参数。比如，以候选操作为例，权重参数γ是经过softmax归一化的候选操作在当前侯选边中的权重系数。方差参数则是半隐含丢弃噪声分布的方差ψδ。半隐含丢弃噪声分布为ξ～q(ξ)＝∫q(ξ|ψ)q(ψ)dψ，其中q(ξ|ψ)～N(ξ|ψ，ψδ)是一个均值为ψ、方差为ψδ的高斯分布。q(ψ)则是以1/(1+δ)为期望的伯努利分布，其中δ是与丢弃概率相关的参数。

作为一优选方式，结构更新模块包括半隐含分布近似子模块和参数更新子模块，半隐含分布近似子模块根据层级化完成对候选操作和候选分布的各自的半隐含分布近似。参数更新子模块，利用梯度下降以KL散度损失函数与结构参数的交叉熵损失函数相加计算得到的半隐含变分丢弃损失函数作为目标损失函数对候选操作和候选边的结构参数分别迭代地更新。

候选操作和候选分布的各自的半隐含分布近似包括半隐含后验分布近似以及半隐含退火自动相关性检测先验分布近似。以候选操作为例(侯选边的半隐含分布近似过程相类似)，将半隐含丢弃噪声分布赋予权重系数γ，得到半隐含后验分布τ＝γ·ξ～q(τ)＝∫q(τ|ψ)q(ψ)dψ，其中q(τ|ψ)～N(τ|ψγ，ψγ²δ)是一个均值为ψγ、方差为ψγ²δ的高斯分布。通过采样伯努利分布q(ψ)得到采样值Ψ。将采样值代入到半隐含后验分布q(τ)，得到半隐含后验分布q(τ)的近似：q(τ)＝q(τ|Ψ)。

半隐含退火自动相关性检测先验分布p(τ)＝∫p(τ|ψ)p(ψ)dψ，其中q(τ|ψ)～N(τ|λψγ，η^-1ψ)，λ为退火参数。通过采样伯努利分布p(ψ)得到采样值Ψ。将采样值带入到半隐含后验分布p(τ)，得到半隐含后验分布p(τ)的近似：p(τ)＝p(τ|Ψ)。

上述实施例中，KL散度损失函数即是候选操作和侯选边各自的半隐含近似后验分布和半隐含近似退火自动相关性检测先验分布的相对熵之和。

丢弃概率p与伯努利分布q(ψ)的参数δ相关，δ越高对应的丢弃概率越大，以1/(1+δ)为期望的伯努利分布q(ψ)的采样值Ψ则越高的概率为0。

S5，将更新的超网络的结构参数和丢弃概率输入到结构保留模块，结构保留模块利用丢弃概率对基本单元中的候选操作和候选边进行采样并以此更新基本单元，更新退火参数，通过不断降低退火参数能降低KL散度损失函数的权重；这里的退火参数是先验分布的均值参数的一部分，通过不断降低退火参数从而降低KL散度损失函数的权重；

在一实施例中，将更新得到结构参数γ和Ψδ输入到结构保留模块，将伯努利分布q(ψ)的采样值Ψ代入到超网络中，所有基本单元里保留采样值为1的候选边和候选操作，丢弃采样值为0的候选边和候选操作，得到新的超网络，以此超网络作为下次迭代更新步骤所用的超网络。

在一实施例中，更新退火参数，以候选操作为例具体为：(1-λ^new)²＝0.95·(1-λ^old)²，根据当前退火参数λ^old计算得到新的退火参数λ^new，作为下次迭代更新步骤所用的退火参数。

重复上述S3～S5，不断迭代更新超网络的网络参数和结构参数，直到网络结构搜索模型收敛。

S6，将更新得到的新基本单元构建网络结构搜索模型的最终网络，最终网络是包含选定的候选操作和选定的侯选边的新基本单元堆叠成的作为搜索结果的目标神经网络。

在具体实施例中，将最终收敛得到的参数δ输入到结构保留模块，计算得到丢弃(保留)概率p＝1/(1+δ)，作为伯努利分布q(ψ)的期望，将伯努利分布q(ψ)的采样值Ψ代入到超网络中所有基本单元里，保留采样值为1的候选边和候选操作，丢弃采样值为0的候选边和候选操作，得到新的超网络。将更新得到的新的超网络作为网络结构搜索模型的最终网络。

在构建出最终网络后，可以将各类图像数据输入到最终结构以完成下流具体任务。下流具体任务可以包括图像相关的目标检测，图像分类和语义分割任务，也可以用来处理序列信号，在语音处理上对循环神经网络进行自动化地搜索设计。更进一步，可以应用到芯片中，利用芯片系统进行并行加速实现自动化设计网络结构从而适应各种工业场景。

如图3所示，经过不断训练迭代更新网络参数和结构参数最终得到的两个目标结构单元：左边为基本单元(base normal cell)，右边为收敛单元(convergent normalcell)。两个目标结构分别作为结构保留模块的输出，输出到结构评测模块。为了说明上述方法的技术效果，在本发明一实施例中，图3中所示基本单元是遵循DARTS等之前的方法精准训练了50个epoch后得到的结构，而收敛单元则是训练了150个epoch后得到的收敛结构(训练300个epoch的结构和收敛单元基本没有区别)。基本单元在CIFAR-10上以3.6M的参数量达到了2.50±0.06的测试误差(％)，在迁移到CIFAR-100和ImageNet数据集上时，可以分别达到15.98％和25.3％的测试错误率。而这个搜索过程可以在在单个Nvidia 1080ti GPU上运行8个小时左右得到。收敛单元在CIFAR-10上以2.7M的参数量达到了2.60±0.05的测试误差(％)，在迁移到CIFAR-100和ImageNet数据集上时，可以分别达到16.20％和25.6％的测试错误率。并且在ImageNet上，只需要4.1M参数量和462M的计算量。这一结果比Darts和SNAS不仅在搜索速度和准确率上，而且在模型结构大小和计算代价上都有显著地提升。

具体对比结果可见如下表1、表2所示，表1为本发明实施例的搜索得到结果评测对比(在CIFAR-10数据集上)，表2为本发明实施例的搜索得到结果评测对比(在ImageNet数据集上)，表中越低的错误率代表越好的性能，越小的参数量和计算量代表效率越高的结构。同时，本发明实施例的方法得到的收敛结构不受原本DARTS的崩溃影响。

表1

表2

上述实验表明，本发明的实施例提出的层级化网络结构搜索方法，搜索快速且性能较好，并且可以在较多epoch训练时保持稳定性能不至于结构崩溃从而不需要精确地设计搜索数目从而有更广泛的应用场景。

在本发明另一实施例中，提供一种图像目标检测方法，该方法在获得用于目标检测的图像训练数据后，采用上述层级化网络结构搜索方法对超网络进行训练，得到目标检测用的搜索结果神经网络；然后将待检测的图像数据输入到最终网络(目标检测用的搜索结果神经网络)得到其输出作为目标检测结果。

本实施例中，目标检测是找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，同时确定物体的类别和位置。目标检测模型的主要性能指标是检测准确度和速度，其中准确度主要考虑物体的定位以及分类准确度。以人脸检测为例，摄像头拍摄的图像中，需要对人脸进行识别和分割。该用于目标检测的样本数据可以是待进行目标检测的大量图像数据。层级化网络结构搜索方法是基于单次网络结构搜索框架，搜索目标是重复堆叠成最终结构的基本单元，分别对候选边和边上的候选操作进行层级化搜索。

具体的，以教室摄像头采集得到的图像中检测人头目标为例，目标检测方法具体过程为：

M1，获取教室摄像头采集得到的图像数据，教室摄像头采集得到的图像数据为教室内部包含人的头部的图像，该图像作为图像训练数据；

M2，基于M1得到的图像训练数据，采用层级化网络结构搜索方法对超网络进行训练，得到目标检测用的搜索结果神经网络；

M3，采用M2得到的搜索结果神经网络对待检测的图像数据进行检测，得到图像目标检测结果。

上述的M2，可以采用上述的S1-S6来实现，在本实施例中具体如下：

S1，利用基本单元构建网络结构搜索模型的超网络。超网络是包含所有候选操作和侯选边的基本单元堆叠成的作为搜索框架的原始神经网络。

将基本单元按照图2所示堆叠成超网络，其中基本单元分为normal单元和reduction单元两类，reduction单元。Normal单元中的所有候选操作的步长都为1，使得通过normal单元的输出的维度不发生变化，而reduction单元中的靠近输入节点的操作的步长均设为2，使得输出的维度经过此单元后降低。

S2，将教室摄像头采集得到的图像数据平均分成两部分，如图1所示，其中一部分图像数据作为超网络的网络参数的训练数据，将这部分图像训练数据输入到网络更新模块，另一部分图像数据作为超网络的结构参数的训练数据，将这部分图像训练数据输入到结构更新模块。

S3，网络更新模块利用部分图像训练数据经过超网络生成特征图，使用特征图以及ground truth(对每一个检测框都有一个真实值作为标签，而分类任务中则是一整个图像只有一个标签)来计算分类回归损失函数(本实例中采用smooth L1损失函数)；利用梯度下降方法根据网络参数的分类回归损失函数不断更新网络参数。

网络参数是指所有基本单元的候选操作内部的参数比如卷积操作内部的参数。将输入到网络更新模块的部分训练数据通过超网络计算得到特征图，使用特征图以及groundtruth来计算稀疏化的一范数(smooth L1)损失函数，具体计算步骤是根据再利用梯度下降方法根据网络参数的smooth L1损失函数不断更新网络参数；再通过梯度下降的方法更新网络参数。将更新过网络参数的超网络输入到后续结构更新模块。

S4，结构更新模块将部分图像训练数据通过超网络生成特征图和KL散度损失函数，使用特征图计算结构参数的交叉熵损失函数。将KL散度损失函数和结构参数的交叉熵损失函数相加计算得到半隐含变分丢弃损失函数。然后利用梯度下降方法根据半隐含变分丢弃损失函数对超网络的结构参数进行训练更新结构参数并得到丢弃概率。

结构参数是指所有基本单元的候选边和候选操作的权重参数以及方差参数。以候选操作为例，权重参数γ是经过softmax归一化的候选操作在当前侯选边中的权重系数。方差参数则是半隐含丢弃噪声分布的方差ψδ。半隐含丢弃噪声分布为ξ～q(ξ)＝∫q(ξ|ψ)q(ψ)dψ，其中q(ξ|ψ)～N(ξ|ψ，ψδ)。q(ψ)则是以

为期望的伯努利分布。结构更新模块包括半隐含分布近似子模块和参数更新子模块。半隐含分布近似子模块根据层级化完成对候选操作和候选分布的各自的半隐含分布近似。各自的半隐含分布近似包括半隐含后验分布近似以及半隐含退火自动相关性检测先验分布近似。以候选操作为例(侯选边的半隐含分布近似过程相类似)，将半隐含丢弃噪声分布赋予权重系数γ，得到半隐含后验分布τ＝γ·ξ～q(τ)＝∫q(τ|ψ)q(ψ)dψ，其中q(τ|ψ)～N(τ|ψγ，ψγ²δ)。通过采样伯努利分布q(ψ)得到采样值Ψ。将采样值带入到半隐含后验分布q(τ)得到半隐含后验分布的近似：q(τ)＝q(τ|Ψ)。

半隐含退火自动相关性检测先验分布p(τ)＝∫p(τ|ψ)p(ψ)dψ，其中q(τ|ψ)～N(τ|λψγ，η^-1ψ)，λ为退火参数。通过采样伯努利分布p(ψ)得到采样值Ψ。将采样值带入到半隐含后验分布p(τ)得到半隐含后验分布的近似：p(τ)＝p(τ|Ψ)。

KL散度损失函数即是候选操作和侯选边各自的半隐含近似后验分布和半隐含近似退火自动相关性检测先验分布的相对熵之和。

参数更新子模块，利用梯度下降以KL散度损失函数与结构参数的交叉熵损失函数相加计算得到的半隐含变分丢弃损失函数作为目标损失函数对候选操作和候选边的结构参数分别迭代地更新。

丢弃概率p与伯努利分布q(ψ)的参数δ相关，δ越高对应的丢弃概率越大，以

为期望的伯努利分布q(ψ)的采样值Ψ则越高的概率为0。

S5，根据丢弃概率输入到结构保留模块，利用丢弃概率对基本单元中的候选操作和候选边进行采样并以此更新基本单元，更新退火参数。

然后重复S3-S5不断迭代更新网络参数和结构参数直到网络结构搜索模型收敛。

将更新得到结构参数γ和Ψδ输入到结构保留模块，将伯努利分布q(ψ)的采样值Ψ带入到超网络中所有基本单元里保留采样值为1的候选边和候选操作，丢弃采样值为0的候选边和候选操作得到新的超网络，以此超网络作为下次迭代更新步骤所用的超网络。更新退火参数以候选操作为例具体为：(1-λ^new)²＝0.95·(1-λ^old)²，计算得到新的退火参数λ^new作为下次迭代更新步骤所用的退火参数。重复步骤S3-S5直至网络结构搜索模型收敛。

将最终收敛得到的δ输入到结构保留模块，将伯努利分布q(ψ)的采样值Ψ带入到超网络中所有基本单元里，保留采样值为1的候选边和候选操作，丢弃采样值为0的候选边和候选操作得到新的超网络，将更新得到的新的超网络作为网络结构搜索模型的最终网络。

本实施例中，结构参数包括候选操作o和侯选边(i，j)各自的权重参数和方差参数，以候选操作o为例，候选操作的均值和方差都来自于半隐含后验分布的近似：

其中将初始化的候选操作原始权重α输入到softmax函数中得到候选操作权重参数w，

是对伯努利分布

的采样，其中δ^o则是半隐含dropout噪声

方差参数的一部分同时也满足与丢弃概率的关系

取先验分布为半隐含的退火自动相关性检测先验(ARD)分布

为了简单的表示省略了上下标，当采样值Φ为1时得到的相对熵(KL散度)为：

通过最小化这个相对熵，可以得到η的最优解：

从而使得相对熵损失函数变成：

D_KL(q(μ)||p(μ))＝0.5log(1+(1-λ)²δ^-1)

当采样值Φ为0时有：

D_KL(q(μ)||p(μ))＝0

考虑到侯选边(i，j)时，同样地有

其中将初始化的候选边原始权重β输入到softmax函数中得到候选边权重参数

为简化忽略所有上下标同样地可以得到相对熵损失函数：当Φ采样值为1时

D_KL(q(v|μ)||p(v|μ))＝0.5log(1+(1-λ)²σ^-1)

当Φ采样值为0时：

D_KL(q(v|μ)||p(v|μ))＝0

通过将相对熵和交叉熵合在一起作为损失函数，实际上就在最大化证据下届(ELBO)：

而对于前向传播得到的输出有：

对于侯选边(i，j)以及节点j，定义f_i，j(x)侯选边(i，j)上所有候选操作的混合输出，而h_j(x)则是节点j上所有侯选边的混合输出。其中：

通过计算前向传播得到所有的混合输出h_j(x)然后与标签数据计算交叉熵损失函数。

通过计算相对熵损失函数和前向传播得到的目标检测损失函数(分类回归损失函数一般有Smooth L1 Loss，IoU Loss和它的许多变种，本实施例中采用Smooth L1 Loss)并利用梯度下降更新网络参数和结构参数，然后将采样值

和Φ_e带入到超网络中所有基本单元里保留采样值为1的候选边和候选操作，丢弃采样值为0的候选边和候选操作得到新的超网络，以此超网络作为下次迭代更新步骤所用的超网络。对边和操作的退火参数分别进行更行：

不断重复更新网络参数和结构参数以及超网络和退火参数直至收敛。将最终收敛时得到的超网络的基本单元作为最终网络的基本单元构建最终网络。

本实施例采用上述构建的最终网络，将教室摄像头采集得到的图像数据输入到最终网络，得到最终目标检测结果即教室内人头检测。

当然，以上是以教室内人头检测为例说明目标检测方法，在其他实施例中，也可以是其他包含其他检测目标的图像，按照上述的步骤均可以实现较好的目标检测效果，最为显著的效果是在保证较高的性能的同时，大幅度减少搜索时间和降低计算复杂度，保证了搜索的稳定性和实用性。

在本发明另一实施例中，还提供一种语义分割方法，该方法首先获得用于语义分割的图像训练数据，然后采用上述实施例中的层级化网络结构搜索方法对超网络进行训练，得到用于语义分割的搜索结果神经网络，采用该搜索结果神经网络对待处理的图像数据进行语义分割，得到图像语义分割结果。

此处的语义分割是指将图像中属于不同物体的所有像素进行区分，语义分割是计算机视觉中的基本任务，在语义分割中需要将视觉输入分为不同的语义可解释类别。例如，在自动驾驶领域中，目标检测是需要大量路道和目标物体特征图像数据的。而对图像数据进行语义分割可以区分图像中属于汽车、道路、标志、物体的所有像素，并把这些像素以RGB值标成定义的颜色。语义分割使对图像有更加细致的了解，并能很好的完成机器训练。语义分割一般可以完成道路标注、行人标注、人脸标注、车辆标注、物体标注等，但不仅局限于此。该用于语义分割的样本数据即可以为待进行语义分割的大量图像数据。

具体的，以COCO等公开数据集的训练图像作为模型输入实现语义分割为例，图像语义分割方法的具体过程为：

(1)获得用于语义分割的图像训练数据

本实施例中，图像训练数据是常见语义分割公共数据集COCO的训练图像数据。

(2)采用层级化网络结构搜索方法对超网络进行训练，得到用于语义分割的搜索结果神经网络；其中，层级化网络结构搜索方法与前面的实施例相同，是基于单次网络结构搜索框架，搜索目标是重复堆叠成最终结构的基本单元，分别对候选边和边上的候选操作进行层级化搜索。

网络更新模块利用梯度下降方法根据语义分割损失函数(一般是交叉熵或者是混淆矩阵系数)不断更新网络内部参数，将更新得到的参数作为超网络的部分参数便于结构参数更新；

结构更新模块对超网络的结构参数进行更新；

结构保留模块基于结构更新模块输出的丢弃概率进行丢弃和保留候选操作及候选边，并将最终得到的结构保留结果即最终的搜索结果神经网络。

进一步的，可以将搜索结果神经网络进行评测，即采用结果评测模块接收结构保留模块输出的最终的子网路结构(最终得到的搜索结果神经网络)，并对最终得到的搜索结果神经网络在不同数据集上进行测试得到验证结果。

作为一优选方式，上述的结构更新模块通过半隐含分布近似子模块和权重矩阵更新子模块进行结构更新。其中，半隐含分布近似子模块包括两个独立的伯努利分布，两个独立的变分丢弃噪声分布和两个独立的退火先验分布。通过蒙特卡洛采样从伯努利分布将采样值作为变分丢弃噪声分布的参数来近似得到两个半隐含后验分布和对应的两个半隐含退火先验分布。得到的后验分布和先验分布输入到权重矩阵更新子模块来迭代地更新计算得到丢弃概率矩阵，从而实现网络结构的丢弃和保留。

上述实施例中的权重矩阵更新子模块包括对于两个候选操作或者候选边的权重均值矩阵和两个候选操作或者候选边的权重方差矩阵进行迭代地更新，用于网络结构保留。更新过程具体包括如下步骤：

步骤一，将半隐含分布近似模块中得到的半隐含后验分布中的均值作为候选操作权重均值矩阵，将方差作为候选操作权重方差矩阵；

步骤二，将步骤一中得到的候选操作或者候选边的权重均值矩阵中的元素作为均值，候选操作或者候选边的权重方差矩阵中的元素作为方差，得到候选操作或者候选边权重的高斯分布，将采样得到的结果作为候选操作或者候选边的权重采样值矩阵的元素；

步骤三，将步骤一中得到的候选操作或者候选边的权重均值矩阵和候选操作或者候选边的权重方差矩阵进行联合运算得到候选操作或者候选边的丢弃概率矩阵；

步骤四，将步骤二得到的候选操作或者候选边的采样值矩阵作为超网络的候选操作或者候选边的权重参数，用于基于图像训练数据计算特征图，并同已知图像标签比较得到交叉熵损失函数(这里选择交叉熵作为本实施例中的语义分割损失函数)，同时利用步骤三得到的候选操作后者候选边的丢弃概率矩阵进行网络结构的丢弃并计算变分丢弃损失函数；

步骤五，将步骤四中得到的两个损失函数作为结构参数训练的损失函数，利用梯度下降方法得到更新后的候选操作或者候选边的权重均值矩阵和候选操作或者候选边的权重方差矩阵，重复步骤一到五，直到模型收敛。

(3)采用上述步骤得到的搜索结果神经网络对选择的图像数据进行语义分割，得到图像语义分割结果。

本实施例中没有详细说明的内容可以参照上述目标检测方法的实现技术。本实施例中的语义分割方法，采用上述的层级化网络结构搜索方法，能在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度，保证了搜索的稳定性和实用性，提高图像处理速度。

在本发明另一实施例中，还提供一种图像分类方法，此处的图像分类是指输入待处理图像然后输出预先设计的某个类别作为标签，是一种根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。该用于图像分类的样本数据即可以为待进行图像分类的大量图像数据。

具体的，本实施例以公共数据集CIFAR和ImageNet中的训练图像作为输入数据进行图像分类为例，包括：

M1获得用于图像分类的图像训练数据，图像训练数据为公共数据集CIFAR和ImageNet中的训练图像。

M2采用层级化网络结构搜索方法对超网络进行训练，得到目图像分类用的搜索结果神经网络；

M3将待分类的图像数据输入得到的搜索结果神经网络，得到图像分类结果。

层级化网络结构搜索方法是基于单次网络结构搜索框架，搜索目标是重复堆叠成最终结构的基本单元，分别对候选边和边上的候选操作进行层级化搜索。层级化网络结构搜索方法中，网络更新模块利用梯度下降方法根据交叉熵不断更新网络内部参数，将更新得到的参数作为超网络的部分参数便于结构参数更新；结构更新模块对超网络的结构参数进行更新；结构保留模块基于所述结构更新模块输出的丢弃概率进行丢弃和保留候选操作及候选边，并将最终得到的结构保留结果输出到所述结果评测模块；结果评测模块接收结构保留模块输出的最终的子网路结构，并对最终结构在不同数据集上进行测试得到验证结果。

本实施例中M2步骤的具体实现，具体实现的过程可以参照上述实施例的层级化网络结构搜索方法描述，在此不再赘述。

本实施例中的图像分类方法，采用上述的层级化网络结构搜索方法，能在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度，提高图像处理速度。

在本发明另一实施例中，还提供一种计算机设备，包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下任一种方法：上述实施例的层级化网络结构搜索方法，或，上述实施例的图像目标检测方法，或，上述实施例的图像语义分割方法，或，上述实施例的图像分类方法。

在本发明另一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下任一种方法：上述实施例的层级化网络结构搜索方法，或，上述实施例的图像目标检测方法，或，上述实施例的图像语义分割方法，或，上述实施例的图像分类方法。

在本发明另一实施例中，还提供一种芯片系统，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现以下任一种方法：上述实施例的层级化网络结构搜索方法，或，上述实施例的图像目标检测方法，或，上述实施例的图像语义分割方法，或，上述实施例的图像分类方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：staticrandom-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

综上，本发明实施例中的方法和设备采用层级化网络结构搜索方法，稳定的网络结构搜索方法可以方便工业上对复杂特定的图像处理任务无需人为确定搜索数目，也不需要引入其他超参数而能实现搜索，提高处理速度，保证了搜索的稳定性和实用性。进一步的，网络结构搜索方法在人工智能领域将网络的稀疏化方法引入到网络结构的搜索中，将网络结构搜索和网络压缩的融合提供了可能，并且多样性的结构使得在工业上也可以通过所述网络结构搜索方法实现搜索得到超过resnet，densenet的结构成为可能。这种快速且计算消耗较低的网络的自动搜索使得在各种设备上进行图像处理任务都有了神经网络的支持而且无需手动设计网络结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种层级化网络结构搜索方法，用于图像处理，其特征在于，包括：

2.根据权利要求1所述的层级化网络结构搜索方法，其特征在于，所述利用基本单元构建网络结构搜索模型的超网络，其中，

3.根据权利要求1所述的层级化网络结构搜索方法，其特征在于，所述超网络的网络参数，是指所有基本单元的候选操作内部的参数；

4.根据权利要求1所述的层级化网络结构搜索方法，其特征在于，所述超网络的结构参数，是指所有基本单元的候选边和候选操作的权重参数以及方差参数；

所述结构更新模块包括半隐含分布近似子模块和参数更新子模块，所述半隐含分布近似子模块根据层级化完成对候选操作和候选分布的各自的半隐含分布近似，所述候选操作和候选分布的各自的半隐含分布近似包括半隐含后验分布近似以及半隐含退火自动相关性检测先验分布近似；所述参数更新子模块，利用梯度下降以所述KL散度损失函数与所述结构参数的交叉熵损失函数相加计算得到的半隐含变分丢弃损失函数作为目标损失函数对候选操作和候选边的结构参数分别迭代地更新；

所述KL散度损失函数，是候选操作和侯选边各自的半隐含近似后验分布和半隐含近似退火自动相关性检测先验分布的相对熵之和；

所述丢弃概率p与伯努利分布q(ψ)的参数δ相关，δ越高对应的丢弃概率越大，以1/(1+δ)为期望的伯努利分布q(ψ)的采样值Ψ则越高的概率为0。

5.根据权利要求4所述的层级化网络结构搜索方法，其特征在于，将更新得到的所述超网络的结构参数输入到所述结构保留模块，所述结构保留模块将伯努利分布q(ψ)的采样值Ψ代入到所述超网络中，所有基本单元里保留采样值为1的候选边和候选操作，丢弃采样值为0的候选边和候选操作，得到新的超网络，以此超网络作为下次迭代更新所用的超网络。

6.根据权利要求4所述的层级化网络结构搜索方法，其特征在于，所述将更新得到的新基本单元构建网络结构搜索模型的最终网络，包括：

7.根据权利要求4所述的层级化网络结构搜索方法，其特征在于，所述层级化，是指对于基本单元中的侯选边以及每一个候选边上的候选操作都赋予独立的半隐含丢弃噪声分布，并通过对各自的伯努利分布的采样完成对基本单元中的候选边以及侯选边上的候选操作的丢弃和保留；

8.一种图像目标检测方法，其特征在于，包括：

获取用于目标检测的图像训练数据；

采用权利要求1-7任一项所述层级化网络结构搜索方法对超网络进行训练，得到目标检测用的搜索结果神经网络；

9.一种图像语义分割方法，其特征在于，包括：

获取用于语义分割的图像训练数据；

采用权利要求1-7任一项所述层级化网络结构搜索方法对超网络进行训练，得到用于语义分割的搜索结果神经网络；

10.一种图像分类方法，其特征在于，包括：

获取用于图像分类的图像训练数据；

采用权利要求1-7任一项所述层级化网络结构搜索方法对超网络进行训练，得到用于图像分类的搜索结果神经网络；

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下任一种方法：

-权利要求1至7任一项所述的层级化网络结构搜索方法，或，

-权利要求8所述的图像目标检测方法，或，

-权利要求9所述的图像语义分割方法，或，

-权利要求10所述的图像分类方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下任一种方法：

-权利要求1至7任一项所述的层级化网络结构搜索方法，或，

-权利要求8所述的图像目标检测方法，或，

-权利要求9所述的图像语义分割方法，或，

-权利要求10所述的图像分类方法。

13.一种芯片系统，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，其特征在于，当所述存储器存储的程序指令被所述处理器执行时实现以下任一种方法：

-权利要求1至7任一项所述的层级化网络结构搜索方法，或，

-权利要求8所述的图像目标检测方法，或，

-权利要求9所述的图像语义分割方法，或，

-权利要求10所述的图像分类方法。