CN113255892B

CN113255892B - 一种解耦合的网络结构搜索方法、设备及可读存储介质

Info

Publication number: CN113255892B
Application number: CN202110609293.3A
Authority: CN
Inventors: 戴文睿; 廖列文; 李成林; 邹君妮; 熊红凯
Original assignee: Yantai Information Technology Research Institute Shanghai Jiaotong University
Current assignee: Yantai Information Technology Research Institute Shanghai Jiaotong University
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2023-09-05
Anticipated expiration: 2041-06-01
Also published as: CN113255892A

Abstract

本发明提供一种解耦合的网络结构搜索方法、设备及可读存储介质，包括：确定搜索空间，构建超网络；将超网络解耦成为各自独立的单一操作子网络；获取图像数据并分别作为超网络的网络参数、结构参数的训练数据；生成特征图，计算网络参数的交叉熵损失函数和变分丢弃损失函数，得到各通道丢弃概率，训练单一操作子网络至收敛并根据通道丢弃概率得到剪枝网络；将剪枝后的单一操作子网络组合成为超网络，生成特征图，计算交叉熵损失函数，更新超网络的结构参数；得到最终网络。本发明在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度，保证了搜索的稳定性和实用性，可用于图像目标检测、分类等领域，提高图像处理速度。

Description

一种解耦合的网络结构搜索方法、设备及可读存储介质

技术领域

本发明涉及人工智能和图像处理技术领域，具体涉及一种网络结构搜索方法，及其计算机设备及可读存储介质，以及该方法在图像目标检测、语义分割和分类中的应用。

背景技术

随着计算能力和深度学习的发展，人工智能的发展越来越迅速。最初的图像处理由于采集的图像质量不高，对特征提取的要求因而比较低，所以主要的技术是手工特征的提取。后来图像质量不断提升，对图像处理的精度要求不断提高下，一些统计模式识别的方法例如SVM和信号处理的方法例如小波变换，使得图像处理的发展得到了一定的进步。但手工设计的特征学习始终保留着人为先验带来的偏见，对于图像的预处理要求较高，并且在图像处理的性能上始终无法超越人类。而由特征和分类器联合训练，以数据驱动的方式自动产生最适应于相关任务目标的滤波器组的端到端神经网络则摒弃了手工设计的特征也无需繁杂的预处理工作并提供了强大的图像处理能力。神经网络的出现使得人们无需手工设计特征，但神经网络依然需要手工地搭建。

手动设计的网络在过去的十多年里收获了不错的成绩，但日渐复杂的神经网络使得设计网络成为了一种繁杂且没有效率的工作。网络结构搜索为工业应用中神经网络的搭建提供了一种更加高效和便捷的方法，例如高效配置于不同计算能力的设备(如服务器、移动设备等)，不同时间消耗和准确率需求的应用(例如目标实时监测、大规模图像集分析等)，并能够据此自动设计人工智能芯片。网络结构搜索也在最近几年中因此得到了一定的发展，从基于进化算法的搜索方法发展到现在利用梯度下降高效地搜索网络结构。基于进化算法，强化学习的网络结构搜索方法虽然在搜索得到的结构性能上超越了手动设计的神经网络结构，但花费大量的时间以及计算资源去得到最终的结构，使得网络结构搜索不具有实用性。因此，需要新的方法在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度。

现有的网络结构搜索方法在图像分类任务上存在着不足，这些不足体现在首先对于目前的公共数据集上的图像分类任务，大部分的网络结构搜索方法是需要根据后续图像分类应用所特定的训练数据来搜索得到特定网络结构的。这代表即使同样是图像分类的任务，在更换需要分类的图像的类别之后，仍需要从头进行网络结构的搜索。其次，现有的基于DARTS搜索空间的搜索方法，可以视为将过参数化的超网络简化成为搜索得到的子网络的过程。然而，这样的方法由于不同候选操作之间的耦合以及结构参数与网络参数之间的耦合，导致最终搜索得到的网络结构表现不理想。

发明内容

本发明针对现有技术的不足，提供了一种网络结构搜索方法，在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度，保证了搜索的稳定性和实用性，可以用于图像目标检测、分类等领域，提高图像处理速度。

根据本发明的第一方面，提供一种解耦合的网络结构搜索方法，用于图像处理，包括：

S1，利用基本单元构建网络结构搜索模型的超网络，所述超网络是包含所有候选操作和侯选边的基本单元堆叠成的用于搜索网络结构的原始神经网络，所述基本单元包括普通单元和归约单元，普通单元的输出维度与输入维度一致，归约单元的输出维度为输入维度的一半；

S2，将所述超网络解耦成为若干只包含一种候选操作的单一操作子网络，单一操作子网络的数量等于候选操作种类数，这些单一操作子网络与所述超网络共享拓扑结构；

S3，获取图像数据，将所述图像数据分成两部分，其中，第一部分图像数据所占比例不低于50％，作为所述超网络及单一操作子网络的网络参数的训练数据，将这部分图像训练数据输入到网络参数更新模块；第二部分图像数据作为所述超网络的结构参数更新的训练数据，将这部分图像训练数据输入到结构参数更新模块；

S4，网络参数更新模块将S3的第一部分图像数据通过所述单一操作子网络生成特征图，根据特征图和第一部分图像数据携带的已标注的类别信息，计算网络参数的交叉熵损失函数；计算模型通道丢弃率分布与模型稀疏先验分布之间的KL散度作为第一损失函数，利用梯度下降方法更新所述单一操作子网络的各通道丢弃概率进行通道剪枝；将所述第一损失函数和所述网络参数的交叉熵损失函数相加计算得到第二损失函数，然后利用梯度下降方法根据所述的第二损失函数对所述单一操作子网络进行训练，更新网络参数，得到剪枝更新的单一操作子网络；

S5，结构参数更新模块将S4得到的剪枝更新后的单一操作子网络重新组建为超网络，以单一操作子网络的网络参数作为所述超网络中对应候选操作的网络参数，利用S3的第二部分图像数据计算超网络特征图，将结构参数的交叉熵损失函数作为第三损失函数，更新超网络结构参数；

S6，将S5最终收敛得到的超网络结构参数输入到结构保留模块，计算得到最终保留的候选操作及候选边；将超网络结构参数代入到所述超网络的中所有基本单元里，保留参数值最大的候选操作以及保留操作为非零操作的边，得到新的超网络，并将更新得到的新的超网络作为网络结构搜索模型的最终网络，所述最终网络是包含选定的候选操作和选定的侯选边的新基本单元堆叠成的作为搜索结果的目标神经网络。

可选地，利用基本单元构建网络结构搜索模型的超网络，其中，所述基本单元分为普通单元(Normal cell)和归约单元(Reduction cell)两类，所述普通单元中的所有候选操作的步长都为1，使得通过所述普通单元的输出的维度不发生变化，而所述归约单元中的靠近输入节点的操作的步长均设为2，使得输出的维度经过此单元后降低。

可选地，所述超网络的网络参数，是指所有基本单元的候选操作内部的参数；

所述使用特征图计算的网络参数的交叉熵损失函数，是指根据特征图和第一部分图像数据携带的已标注的类别信息，计算得到交叉熵损失函数。

可选地，所述超网络的结构参数，是指所有基本单元的候选边和候选操作的权重参数以及方差参数；

所述网络参数更新模块包括通道丢弃率更新子模块和参数更新子模块，所述通道丢弃率更新子模块通过计算通道丢弃率联合分布与自动相关性检测先验之间的KL散度作为第一损失函数，利用梯度下降更新各个通道的通道丢弃率，并根据通道丢弃率进行通道剪枝；所述参数更新子模块，以第一损失函数与所述网络参数的交叉熵损失函数相加计算得到第二损失函数，利用梯度下降对剪枝后的单一操作子网络的参数进行训练。

可选地，所述第一损失函数是候选通道丢弃率的联合后验分布和自动相关性检测先验分布的KL散度；

可选地，通道剪枝是对于所述单一操作子网络的每个通道采用均值为1和方差为δ的高斯分布作为通道丢弃率分布，按通道丢弃率联合分布与自动相关性检测先验之间的KL散度作为第一损失函数更新参数δ；根据δ计算通道丢弃率p＝δ/(1+δ)，以1-p＝1/(1+δ)作为期望建立伯努利分布q(ψ)，从伯努利分布q(ψ)采样参数值ψ＝0或ψ＝1代入到所述单一操作子网络中，在所有基本单元里保留采样值为1的候选通道，丢弃采样值为0的候选通道，得到剪枝后的单一操作子网络。

可选地，所述超网络中网络参数更新与结构参数更新以交替方式进行，所述超网络的网络参数通过将超网络解耦成若干单一操作子网络，并分别对每个单一操作子网络进行剪枝和训练得到；所述超网络的结构参数通过将单一操作子网络重新组合成超网络后，以单一操作子网络的网络参数作为对应所述超网络中候选操作的网络参数，以超网络中候选操作和候选边的结构参数的交叉熵损失函数作为第三损失函数，利用梯度下降对候选操作和候选边的结构参数分别进行迭代更新。

可选地，所述将更新得到的新基本单元构建网络结构搜索模型的最终网络，包括：

将最终收敛得到的结构参数输入到所述结构保留模块，得到丢弃概率，计算伯努利分布q(ψ)的期望；

将伯努利分布q(ψ)的采样值Ψ代入到所述超网络中所有基本单元里，保留采样值为1的候选边和候选操作，丢弃采样值为0的候选边和候选操作，得到新的超网络；

将更新得到的新的超网络作为网络结构搜索模型的最终网络。

根据本发明的第二方面，提供一种图像目标检测方法，包括：

获取用于目标检测的图像训练数据；

采用上述网络结构搜索方法对超网络进行训练，得到目标检测用的搜索结果神经网络；

采用所述搜索结果神经网络对待检测的图像数据进行检测，得到图像目标检测结果。

根据本发明的第三方面，提供一种图像语义分割方法，包括：

获取用于语义分割的图像训练数据；

采用上述网络结构搜索方法对超网络进行训练，得到用于语义分割的搜索结果神经网络；

采用所述搜索结果神经网络对待处理的图像数据进行语义分割，得到图像语义分割结果。

根据本发明的第四方面，提供一种图像分类方法，包括：

获取用于图像分类的图像训练数据；

采用上述网络结构搜索方法对超网络进行训练，得到用于图像分类的搜索结果神经网络；

采用所述搜索结果神经网络对待处理的图像数据进行分类，得到图像分类结果。

根据本发明的第五方面，提供一种计算机设备，包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下任一种方法：

-上述的网络结构搜索方法，或，

-上述的图像目标检测方法，或，

-上述的图像语义分割方法，或，

-上述的图像分类方法。

根据本发明的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下任一种方法：

-上述的网络结构搜索方法，或，

-上述的图像目标检测方法，或，

-上述的图像语义分割方法，或，

-上述的图像分类方法。

根据本发明的第七方面，提供一种芯片系统，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现以下任一种方法：

-上述的网络结构搜索方法，或，

-上述的图像目标检测方法，或，

-上述的图像语义分割方法，或，

-上述的图像分类方法。

与现有技术相比，本发明具有如下的有益效果：

本发明上述的网络结构搜索方法，解耦了网络参数与结构参数的更新过程，消除了不同操作之间的耦合以及网络参数与结构参数之间的耦合，从而一定程度上缓解了搜索阶段与验证阶段之间性能的差异，进而提高搜索结构的性能。

本发明上述的网络结构搜索方法，采用半隐含分布近似子模块和参数更新子模块，利用先验分布与逼近后验分布间的相对熵作为结构参数更新的部分损失函数，提高了网络结构搜索的稳定性和可解释性，同时层级化的结构搜索设计提升了结构的多样性和性能，半隐含分布的采样近似解决了原本可微分网络结构搜索的崩溃问题。

本发明上述的网络结构搜索方法，可以应用在原本需要手动设计神经网络的场合，可以用来处理几乎所有的下游任务，包括图像相关的目标检测，图像分类和语义分割任务，也可以用来处理序列信号，在语音处理上对循环神经网络进行自动化地搜索设计。更进一步，可以应用到芯片中，利用芯片系统进行并行加速实现自动化设计网络结构从而适应各种工业场景。

本发明上述图像目标检测、图像分类和语义分割等方法，利用特定的网络结构搜索的方法可以方便自动搜索得到在移动设备上可以进行训练的神经网络。这种快速且计算消耗较低的网络的自动搜索使得在各种设备上进行图像处理任务都有了神经网络的支持而且无需手动设计网络结构。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中搜索方法的模块原理图；

图2为本发明一实施例的基本单元(cell)堆叠示意图；

图3为本发明一实施例的经过不断训练迭代更新网络参数和结构参数最终得到的两个目标结构单元示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

图1为本发明一实施例中搜索方法的模块原理图，图中显示了网络更新模块、结构更新模块、结构保留模块和下游任务处理模块之间的关系。

参照图1所示，在本发明一实施例中，用于图像处理的层级化网络结构搜索方法，包括以下步骤：

S1，利用基本单元构建网络结构搜索模型的超网络，其中，超网络是包含所有候选操作和侯选边的基本单元堆叠成的作为搜索框架的原始神经网络；网络结构搜索模型是指为了得到目标神经网络的整体模型，而目标神经网络是超网络的一个子网络，是由搜索方法得到的。

超网络由一系列基本单元堆叠构成，每个基本单元包括多层，并通过有向边(候选边)连接，并在边上定义操作，这里操作从候选操作中选出，例如卷积(convolution)、池化(pooling)、跳过(skip-connect)等。对任意的相连两层，表示将某一层输出，通过边上定义操作，传递至所连接的层。超网络中，每个基本单元中所有层均两两相连，并且包含所有候选操作。网络搜索方法根据图像训练数据，自超网络中确定基本单元的结构(边的连接情况和操作的选择)，由训练获得的结构参数决定。

如图2所示，在一实施例中，将基本单元按照图2所示堆叠成超网络，基本单元包括两个输入节点，一个输出节点和四个中间节点，共十四条待选边和八个待选操作。基本单元根据输入和输出维度关系分为普通单元(Normal cell)和归约单元(Reduction cell)两类。普通单元中的所有候选操作的步长都为1，使得通过普通单元的输出的维度不发生变化，而归约单元中的靠近输入节点的操作的步长均设为2，使得输出的维度经过此单元后降低。

S2，将超网络解耦成为若干只包含一种候选操作的单一操作子网络，这些子网络与超网络共享拓扑结构；

本步骤中，超网络按照候选操作的种类，以相同的拓扑结构，构造出若干只保留同一个候选操作的单一操作子网络，单一操作子网络的数量等于候选操作的数量。具体应用中，候选操作包括但不限于常用的3×3深度可分离卷积、3×3空洞卷积等。

S3，获取图像数据分成两部分，第一部分图像数据占据比例95％，作为超网络及下述单一操作子网络的网络参数的训练数据，将这部分图像训练数据输入到网络更新模块，第二部分图像数据占据比例5％，作为超网络的结构参数的训练数据，将这部分图像训练数据输入到结构更新模块；

本步骤中，图像数据依照上述比例随机分成两部分，分别作为超网络的网络参数的训练数据和超网络的结构参数的训练数据。在具体应用中，图像数据可以是常见机器学习公共数据集CIFAR、ImageNet、VOC、COCO等，也可以是私有采集的图像集。

当然，上述的S2、S3操作可以部分先后，如图1所示，也可以先进行获取带有标注的训练数据，然后将超网络解耦成为若干只包含一种候选操作的单一操作子网络，或者，这两部分同时进行。

S4，网络参数更新模块将第一部分图像数据通过单一操作子网络生成特征图，根据特征图和第一部分图像数据携带的已标注的类别信息，计算网络参数(单一操作子网络。超网络是复用单一操作子网络的系数的)的交叉熵损失函数；根据模型通道丢弃率分布计算与模型稀疏先验之间的KL散度作为第一损失函数，利用梯度下降方法更新单一操作子网络的各通道丢弃概率进行通道剪枝；将第一损失函数和网络参数的交叉熵损失函数相加计算得到第二损失函数，然后利用梯度下降方法根据总损失函数对单一操作子网络进行训练，更新网络参数，得到剪枝更新的单一操作子网络；

本步骤中，需要更新的参数分为两部分，即网络参数和结构参数，网络参数对应为每个操作的参数(如卷积核的系数等)通过单一操作子网络更新，结构参数用于选择候选的操作，通过超网络更新。

具体的，网络参数更新模块利用第一部分图像数据经过各个单一操作子网络生成特征图，使用特征图计算网络参数的交叉熵损失函数，再利用梯度下降方法根据网络参数的交叉熵损失函数不断更新超网络的网络参数；

本步骤中，特征图一般是指将输入的图像训练数据输入到神经网络的卷积层，利用卷积核去乘以原始图像数据，得到的新的图像特征数据，可以理解为从多个角度(多个卷积核)去提取到图片的特征。

根据特征图和训练图像数据本身携带的已标注的类别信息，计算得到交叉熵损失函数，再通过梯度下降的方法更新网络参数，将更新过网络参数的超网络输入到后续结构更新模块。

网络参数是指所有基本单元的候选操作内部的参数，比如卷积操作中卷积核大小等。

上述实施例中，KL散度损失函数即是候选通道丢弃率后验分布和半隐含近似退火自动相关性检测先验分布的相对熵之和。

丢弃概率p与伯努利分布q(ψ)的参数δ相关，δ越高对应的丢弃概率越大，以1/(1+δ)为期望的伯努利分布q(ψ)的采样值Ψ则越高的概率为0。所有边里保留采样值为1的候选通道，丢弃采样值为0的候选通道，作为剪枝后的操作。

S5，结构参数更新模块将得到的剪枝更新后的单一操作子网络重新组建为超网络，并利用第二部分样本计算超网络特征图，将结构参数的交叉熵损失函数作为第三损失函数，更新超网络结构参数；

结构参数是指所有基本单元的候选边和候选操作的权重参数。比如，以候选操作为例，权重参数γ是经过softmax归一化的候选操作在当前侯选边中的权重系数。

重复上述步骤S3-S5，不断迭代解耦合超网络更新网络参数和组合超网络更新结构参数，直到网络结构搜索模型收敛。

S6，将更新得到的新基本单元构建网络结构搜索模型的最终网络，最终网络是包含选定的候选操作和选定的侯选边的新基本单元堆叠成的作为搜索结果的目标神经网络。

在构建出最终网络后，可以将各类图像数据输入到最终结构以完成具体的下游任务。具体的下游任务可以包括图像处理相关的目标检测，图像分类和语义分割任务，也可以用来处理序列信号，在语音处理上对循环神经网络进行自动化地搜索设计。更进一步，可以应用到芯片中，利用芯片系统进行并行加速实现自动化设计网络结构从而适应各种工业场景。

经过不断训练迭代更新网络参数和结构参数最终得到的两个目标结构单元：普通单元(normal cell)，归约单元(reduction cell)。两个目标结构分别作为结构保留模块的输出，输出到结构评测模块。为了说明上述方法的技术效果，在本发明一实施例中，参照图3所示的基本单元中的普通单元(normal cell)结构，根据上述解耦搜索方法，预训练候选操作50个epoch，组合成为超网络后搜索50个epoch得到的结构。基本单元在CIFAR-10上以3.6M的参数量达到了2.71±0.06的测试误差(％)，在迁移到CIFAR-100和ImageNet数据集上时，可以分别达到16.34％和25.0％的测试错误率。而这个搜索过程可以在在单个Nvidia1080ti GPU上运行10分钟即可得到。这一结果比Darts在搜索速度、准确率和计算代价上都有显著地提升。

具体对比结果可见如下表1、表2所示，表1为本发明实施例的搜索得到结果在CIFAR-10数据集上评测对比，表2为本发明实施例的搜索得到结果在ImageNet数据集上评测对比，表中越低的错误率代表越好的性能，越小的参数量和计算量代表效率越高的结构。同时，本发明实施例的方法得到的收敛结构不受原本DARTS的崩溃影响。

表1

表2

上述实验表明，本发明的实施例提出的网络结构搜索方法，搜索快速，同时性能显著提升。

在本发明另一实施例中，提供一种图像目标检测方法，该方法在获得用于目标检测的图像训练数据后，采用上述解耦合的网络结构搜索方法对超网络进行训练，得到目标检测用的搜索结果神经网络；然后将待检测的图像数据输入到最终网络(目标检测用的搜索结果神经网络)得到其输出作为目标检测结果。

本实施例中，目标检测是找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，同时确定物体的类别和位置。目标检测模型的主要性能指标是检测准确度和速度，其中准确度主要考虑物体的定位以及分类准确度。以人脸检测为例，摄像头拍摄的图像中，需要对人脸进行识别和分割。该用于目标检测的样本数据可以是待进行目标检测的大量图像数据。解耦合的网络结构搜索方法是基于单次网络结构搜索框架，搜索目标是重复堆叠成最终结构的基本单元，分别对候选边和边上的候选操作进行层级化搜索。

具体的，以教室摄像头采集得到的图像中检测人的头部目标为例，目标检测方法具体过程为：

M1，获取教室摄像头采集得到的图像数据，教室摄像头采集得到的图像数据为教室内部包含人的头部的图像，该图像作为图像训练数据；

M2，基于M1得到的图像训练数据，采用提出的网络结构搜索方法对超网络进行训练，得到目标检测用的搜索结果神经网络；

M3，采用M2得到的搜索结果神经网络对待检测的图像数据进行检测，得到图像目标检测结果。

上述的M2，可以采用上述的S1-S6来实现，在本实施例中具体如下：

S1,利用基本单元构建网络结构搜索模型的超网络。超网络是包含所有候选操作和侯选边的基本单元堆叠成的作为搜索框架的原始神经网络。

将基本单元按照图2所示堆叠成超网络，其中基本单元分为normal单元和reduction单元两类，reduction单元。Normal单元中的所有候选操作的步长都为1，使得通过normal单元的输出的维度不发生变化，而reduction单元中的靠近输入节点的操作的步长均设为2，使得输出的维度经过此单元后降低。

S2,将教室摄像头采集得到的图像数据分成95％及5％两部分，如图1所示，其中一部分图像数据作为超网络及下述单一操作子网络的网络参数的训练数据，将这部分图像训练数据输入到网络更新模块，另一部分图像数据作为超网络的结构参数的训练数据，将这部分图像训练数据输入到结构更新模块。

S3,将超网络解耦成为若干只包含一种候选操作的单一操作子网络，这些子网络与超网络共享拓扑结构；

S4,结构更新模块将第一部分图像数据通过单一操作子网络生成特征图和KL散度损失函数，使用特征图计算网络参数的交叉熵损失函数，根据模型通道丢弃率分布计算与模型稀疏先验之间的KL散度，将KL散度损失函数和网络参数的交叉熵损失函数相加计算得到总损失函数，然后利用梯度下降方法根据总损失函数对单一操作子网络的网络参数进行训练，更新单一操作子网络的网络参数和各通道丢弃概率，并进一步得到剪枝后的单一操作子网络；

特征图一般是指将输入的图像训练数据输入到神经网络的卷积层，利用卷积核去乘以原始图像数据，得到的新的图像特征数据，可以理解为从多个角度(多个卷积核)去提取到图片的特征。

根据特征图和训练图像数据本身携带的标签信息，比如人工标注的类别，计算得到交叉熵损失函数，再通过梯度下降的方法更新网络参数，将更新过网络参数的超网络输入到后续结构更新模块。

上述实施例中，KL散度损失函数即是候选通道丢弃率后验分布和半隐含近似退火自动相关性检测先验分布的相对熵之和。取先验分布为半隐含的退火自动相关性检测先验(ARD)分布为了简单的表示省略了上下标，当采样值Φ为1时得到的相对熵(KL散度)为：

通过最小化这个相对熵，可以得到η的最优解：

从而使得相对熵损失函数变成：

D_KL(q(μ)||p(μ))＝0.5log(1+(1-λ)²δ^-1)

当采样值Φ为0时有：

K_DL(q(μ)||p(μ))＝0

丢弃概率p与伯努利分布q(ψ)的参数δ相关，δ越高对应的丢弃概率越大，以1/(1+δ)为期望的伯努利分布q(ψ)的采样值Ψ则越高的概率为0。所有操作里保留采样值为1的候选通道，丢弃采样值为0的候选通道，作为剪枝后的操作。

S5,将得到的剪枝后的单一操作子网络重新组建为超网络，并利用第二部分样本计算超网络特征图，并根据交叉熵损失函数更新超网络结构参数；

然后重复S4、S5不断迭代更新网络参数和结构参数直到网络结构搜索模型收敛。

S6,将更新得到的新基本单元构建网络结构搜索模型的最终网络，最终网络是包含选定的候选操作和选定的侯选边的新基本单元堆叠成的作为搜索结果的目标神经网络。

将结构参数代入到超网络的中所有基本单元里，保留参数值最大的候选操作以及保留操作为非零操作的边，得到新的超网络，并将更新得到的新的超网络作为网络结构搜索模型的最终网络。

本实施例中，结构参数指候选操作o的权重参数，以候选操作o为例，候选操作的原始权重α输入到softmax函数中得到候选操作权重参数w。

通过将相对熵和交叉熵合在一起作为损失函数，实际上就在最大化证据下届(ELBO):

而对于前向传播得到的输出有：

对于侯选边(i,j)以及节点j，定义f_i,j(x)侯选边(i,j)上所有候选操作的混合输出，而h_j(x)则是节点j上所有侯选边的混合输出。其中：

通过计算前向传播得到所有的混合输出h_j(x)然后与标签数据计算交叉熵损失函数。

通过计算相对熵损失函数和前向传播得到的目标检测损失函数(分类回归损失函数一般有Smooth L1 Loss，IoU Loss和它的许多变种，本实施例中采用Smooth L1 Loss)并利用梯度下降更新网络参数和结构参数，然后将结构参数代入到超网络的中所有基本单元里，保留参数值最大的候选操作以及保留操作为非零操作的边，得到新的超网络，以此超网络作为下次迭代更新步骤所用的超网络。不断重复更新网络参数和结构参数以及超网络直至收敛。将最终收敛时得到的超网络的基本单元作为最终网络的基本单元构建最终网络。

本实施例采用上述构建的最终网络，将教室摄像头采集得到的图像数据输入到最终网络，得到最终目标检测结果即教室内人头检测。

当然，以上是以教室内人头检测为例说明目标检测方法，在其他实施例中，也可以是其他包含其他检测目标的图像，按照上述的步骤均可以实现较好的目标检测效果，最为显著的效果是在保证较高的性能的同时，大幅度减少搜索时间和降低计算复杂度，保证了搜索的稳定性和实用性。

在本发明另一实施例中，还提供一种语义分割方法，该方法首先获得用于语义分割的图像训练数据，然后采用上述实施例中的解耦合的网络结构搜索方法对超网络进行训练，得到用于语义分割的搜索结果神经网络，采用该搜索结果神经网络对待处理的图像数据进行语义分割，得到图像语义分割结果。

此处的语义分割是指将图像中属于不同物体的所有像素进行区分，语义分割是计算机视觉中的基本任务，在语义分割中需要将视觉输入分为不同的语义可解释类别。例如，在自动驾驶领域中，目标检测是需要大量路道和目标物体特征图像数据的。而对图像数据进行语义分割可以区分图像中属于汽车、道路、标志、物体的所有像素，并把这些像素以RGB值标成定义的颜色。语义分割使对图像有更加细致的了解，并能很好的完成机器训练。语义分割一般可以完成道路标注、行人标注、人脸标注、车辆标注、物体标注等，但不仅局限于此。该用于语义分割的样本数据即可以为待进行语义分割的大量图像数据。

具体的，以COCO等公开数据集的训练图像作为模型输入实现语义分割为例，图像语义分割方法的具体过程为：

(1)获得用于语义分割的图像训练数据

本实施例中，图像训练数据是常见语义分割公共数据集COCO的训练图像数据。

(2)采用所提出的网络结构搜索方法对超网络解耦得到的单一操作子网络进行训练，收敛后组合得到用于语义分割的搜索结果神经网络；其中，所提出的网络结构搜索方法与前面的实施例相同，是基于单次网络结构搜索框架，搜索目标是重复堆叠成最终结构的基本单元，分别对候选边和边上的候选操作进行解耦合的搜索。

网络更新模块利用梯度下降方法根据语义分割损失函数(一般是交叉熵或者是混淆矩阵系数)不断更新网络内部参数，将更新得到的参数作为超网络的部分参数便于结构参数更新；

结构更新模块对超网络的结构参数进行更新；

结构保留模块基于结构更新模块输出的丢弃概率进行丢弃和保留候选操作及候选边，并将最终得到的结构保留结果即最终的搜索结果神经网络。

进一步的，可以将搜索结果神经网络进行评测，即采用结果评测模块接收结构保留模块输出的最终的子网络结构(最终得到的搜索结果神经网络)，并对最终得到的搜索结果神经网络在不同数据集上进行测试得到验证结果。

(3)采用上述步骤得到的搜索结果神经网络对选择的图像数据进行语义分割，得到图像语义分割结果。

本实施例中没有详细说明的内容可以参照上述目标检测方法的实现技术。本实施例中的语义分割方法，采用上述的解耦合的网络结构搜索方法，能在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度，保证了搜索的稳定性和实用性，提高图像处理速度。

在本发明另一实施例中，还提供一种图像分类方法，此处的图像分类是指输入待处理图像然后输出预先设计的某个类别作为标签，是一种根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。该用于图像分类的样本数据即可以为待进行图像分类的大量图像数据。

具体的，本实施例以公共数据集CIFAR和ImageNet中的训练图像作为输入数据进行图像分类为例，包括：

M1获得用于图像分类的图像训练数据，图像训练数据为公共数据集CIFAR和ImageNet中的训练图像。

M2采用解耦合的网络结构搜索方法对超网络进行训练，得到目图像分类用的搜索结果神经网络；

M3将待分类的图像数据输入得到的搜索结果神经网络，得到图像分类结果。

解耦合的网络结构搜索方法是基于单次网络结构搜索框架，搜索目标是重复堆叠成最终结构的基本单元，分别对候选边和边上的候选操作进行搜索。解耦合的网络结构搜索方法中，网络更新模块利用梯度下降方法根据交叉熵及KL散度不断更新网络内部参数及通道丢弃率，将更新得到的参数作为超网络的部分参数便于结构参数更新；结构更新模块对超网络的结构参数进行更新；结构保留模块基于所述结构更新模块输出的丢弃概率进行丢弃和保留候选操作及候选边，并将最终得到的结构保留结果输出到所述结果评测模块；结果评测模块接收结构保留模块输出的最终的子网路结构，并对最终结构在不同数据集上进行测试得到验证结果。

本实施例中M2步骤的具体实现，具体实现的过程可以参照上述实施例的层级化网络结构搜索方法描述，在此不再赘述。

本实施例中的图像分类方法，采用上述的解耦合的网络结构搜索方法，能在保证较高的性能同时大幅度减少搜索时间和降低计算复杂度，提高图像处理速度。

在本发明另一实施例中，还提供一种计算机设备，包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下任一种方法：上述实施例的层级化网络结构搜索方法，或，上述实施例的图像目标检测方法，或，上述实施例的图像语义分割方法，或，上述实施例的图像分类方法。

在本发明另一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下任一种方法：上述实施例的层级化网络结构搜索方法，或，上述实施例的图像目标检测方法，或，上述实施例的图像语义分割方法，或，上述实施例的图像分类方法。

在本发明另一实施例中，还提供一种芯片系统，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现以下任一种方法：上述实施例的层级化网络结构搜索方法，或，上述实施例的图像目标检测方法，或，上述实施例的图像语义分割方法，或，上述实施例的图像分类方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

综上，本发明实施例中的方法和设备采用解耦合的网络结构搜索方法，稳定的网络结构搜索方法可以方便工业上对复杂特定的图像处理任务无需人为确定搜索数目，也不需要引入其他超参数而能实现搜索，提高处理速度，保证了搜索的稳定性和实用性。进一步的，网络结构搜索方法在人工智能领域将网络的稀疏化方法引入到网络结构的搜索中，将网络结构搜索和网络压缩的融合提供了可能，并且多样性的结构使得在工业上也可以通过所述网络结构搜索方法实现搜索得到超过resnet，densenet的结构成为可能。这种快速且计算消耗较低的网络的自动搜索使得在各种设备上进行图像处理任务都有了神经网络的支持而且无需手动设计网络结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种图像目标检测方法，其特征在于，包括：

获取用于目标检测的图像训练数据；

采用网络结构搜索方法对超网络进行训练，得到目标检测用的搜索结果神经网络；

采用所述搜索结果神经网络对待检测的图像数据进行检测，得到图像目标检测结果；

其中：所述采用网络结构搜索方法对超网络进行训练，得到目标检测用的搜索结果神经网络，包括：

S4，网络参数更新模块将S3的第一部分图像数据通过所述单一操作子网络生成特征图，根据特征图和第一部分图像数据携带的已标注的类别信息，计算网络参数的交叉熵损失函数；对每一个通道计算模型通道丢弃率分布与模型稀疏先验分布之间的KL散度，所有通道的KL散度之和作为第一损失函数，利用梯度下降方法更新所述单一操作子网络的各通道丢弃概率进行通道剪枝；将所述第一损失函数和所述网络参数的交叉熵损失函数相加计算得到第二损失函数，然后利用梯度下降方法根据所述的第二损失函数对所述单一操作子网络进行训练，更新网络参数，得到剪枝更新的单一操作子网络；所述网络参数是指所有基本单元的候选操作内部的参数；

S5，结构参数更新模块将S4得到的剪枝更新后的单一操作子网络重新组建为超网络，以单一操作子网络的网络参数作为所述超网络中对应候选操作的网络参数，利用S3的第二部分图像数据计算超网络特征图，将结构参数的交叉熵损失函数作为第三损失函数，更新超网络结构参数；所述结构参数是指所有基本单元的候选边和候选操作的权重参数以及方差参数；

2.根据权利要求1所述的图像目标检测方法，其特征在于：所述结构参数更新模块是通过将剪枝更新的单一操作子网络重新组合成超网络，以单一操作子网络的网络参数作为所述超网络中对应候选操作的网络参数，以超网络中候选操作和候选边的结构参数的交叉熵作为第三损失函数，利用梯度下降对候选操作和候选边的结构参数分别进行迭代更新，直至收敛。

3.根据权利要求2所述的图像目标检测方法，其特征在于：网络参数和结构参数的更新是交替进行的，即在每次迭代中先更新网络参数，然后根据已更新网络参数的单一操作子网络来组成更新的超网络，用于更新结构参数，这样迭代直至收敛。

4.根据权利要求1所述的图像目标检测方法，其特征在于：所述通道剪枝包括：

对于所述单一操作子网络的每个通道采用均值为1和方差为δ的高斯分布作为参数化的通道丢弃率分布，按第一损失函数更新参数δ；

根据δ计算通道丢弃率p＝δ/(1+δ)，以1-p＝1/(1+δ)作为期望建立伯努利分布q(ψ)，从伯努利分布q(ψ)采样参数值ψ＝0或ψ＝1代入到所述单一操作子网络中，在所有基本单元里保留采样值为1的候选通道，丢弃采样值为0的候选通道，得到剪枝后的单一操作子网络。

5.一种图像语义分割方法，其特征在于，包括：

获取用于语义分割的图像训练数据；

采用网络结构搜索方法对超网络进行训练，得到用于语义分割的搜索结果神经网络；

采用所述搜索结果神经网络对待处理的图像数据进行语义分割，得到图像语义分割结果；

其中：所述采用网络结构搜索方法对超网络进行训练，得到用于语义分割的搜索结果神经网络，包括：

6.一种图像分类方法，其特征在于，包括：

获取用于图像分类的图像训练数据；

采用网络结构搜索方法对超网络进行训练，得到用于图像分类的搜索结果神经网络；

采用所述搜索结果神经网络对待处理的图像数据进行分类，得到图像分类结果；

其中：所述采用网络结构搜索方法对超网络进行训练，得到用于图像分类的搜索结果神经网络，包括：

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下任一种方法：

-权利要求1至4任一项所述的图像目标检测方法，或，

-权利要求5所述的图像语义分割方法，或，

-权利要求6所述的图像分类方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下任一种方法：

-权利要求1至4任一项所述的的图像目标检测方法，或，

-权利要求5所述的图像语义分割方法，或，

-权利要求6所述的图像分类方法。

9.一种芯片系统，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，其特征在于，当所述存储器存储的程序指令被所述处理器执行时实现以下任一种方法：

-权利要求1至4任一项所述的图像目标检测方法，或，

-权利要求5所述的图像语义分割方法，或，

-权利要求6所述的图像分类方法。