CN111325318B

CN111325318B - 神经网络的训练方法、神经网络的训练装置和电子设备

Info

Publication number: CN111325318B
Application number: CN202010070788.9A
Authority: CN
Inventors: 汪加思; 唐芃; 罗恒; 耿益锋; 张鑫语; 黄畅; 黄子龙; 刘文予; 王兴刚
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-02-01
Filing date: 2020-01-21
Publication date: 2023-11-24
Anticipated expiration: 2040-01-21
Also published as: CN111325318A

Abstract

公开了一种神经网络的训练方法、神经网络的训练装置和电子设备。该神经网络的训练方法包括：使用第一神经网络从输入图像获得第一特征图；使用第二神经网络从所述输入图像获得第二特征图；基于所述第一特征图和所述第二特征图进行注意力特征模仿以获得第一损失函数值；基于所述第一特征图和所述第二特征图进行对抗特征模仿以获得第二损失函数值；以及，基于所述第一损失函数值和所述第二损失函数值更新所述第二神经网络。这样，可以使得第二神经网络所获得的特征类似于第一神经网络的特征。

Description

神经网络的训练方法、神经网络的训练装置和电子设备

技术领域

本公开涉及深度学习技术领域，且更具体地，涉及一种神经网络的训练方法、神经网络的训练装置和电子设备。

背景技术

随着卷积神经网络CNN的巨大成功，对象检测实现了飞跃发展。目前的对象检测的最重要的性能改进来自于更深和更大的CNN。但是，网络大小的增加导致了推断阶段更多的计算成本，且这是不太有效率的。在实际应用中，需要检测器尽可能精确且同时足够快。

进行了很多努力来加速对象检测的过程，比如使用单次对象监测器，轻权重架构和网络修剪。但是，这些方法不能够实现令人满意的用于实际应用的速度-准确性均衡。

近年来，很多工作聚焦于对象检测网络蒸馏(ODND)，即，通过模仿更深和更大的网络(即，老师网络)的行为来训练更有效的对象检测网络(即，学生网络)，并且显示出老师网络的精确性可以由学生网络恢复到某种程序而不需要推断期间额外的参数和计算成本。另外，网络蒸馏看起来比其它技术(例如，轻权重架构)更有希望。

因此，期望提供改进的用于网络蒸馏的神经网络的训练方案。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种神经网络的训练方法、神经网络的训练装置和电子设备，其通过第一神经网络和第二神经网络的特征之间的注意力特征模仿和对抗特征模仿获得损失函数值，并以此来更新第二神经网络，从而使得第二神经网络所获得的特征类似于第一神经网络的特征。

根据本公开的一个方面，提供了一种神经网络的训练方法，包括：使用第一神经网络从输入图像获得第一特征图；使用第二神经网络从所述输入图像获得第二特征图；基于所述第一特征图和所述第二特征图进行注意力特征模仿以获得第一损失函数值；基于所述第一特征图和所述第二特征图进行对抗特征模仿以获得第二损失函数值；以及，基于所述第一损失函数值和所述第二损失函数值更新所述第二神经网络。

根据本公开的另一方面，提供了一种神经网络的训练装置，包括：第一特征图获得单元，用于使用第一神经网络从输入图像获得第一特征图；第二特征图获得单元，用于使用第二神经网络从所述输入图像获得第二特征图；注意力特征模仿单元，用于基于所述第一特征图获得单元所获得的所述第一特征图和所述第二特征图获得单元所获得的所述第二特征图进行注意力特征模仿以获得第一损失函数值；对抗特征模仿单元，用于基于所述第一特征图获得单元所获得的所述第一特征图和所述第二特征图获得单元所获得的所述第二特征图进行对抗特征模仿以获得第二损失函数值；以及，神经网络更新单元，用于基于所述注意力特征模仿单元所获得的所述第一损失函数值和所述对抗特征模仿单元所获得的所述第二损失函数值更新所述第二神经网络。

根据本公开的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的神经网络的训练方法。

根据本公开的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的神经网络的训练方法。

本公开的实施例提供了的神经网络的训练方法、神经网络的训练装置和电子设备能够通过第一神经网络和第二神经网络的特征之间的注意力特征模仿和对抗特征模仿来获得损失函数值，并以该损失函数值更新第二神经网络。

这样，由于注意力特征模仿可以选择性地注意特征图的不同区域，而对抗性特征模仿可以在全局分布上传递特征，可以使得第二神经网络所获得的特征类似于第一神经网络的特征。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本公开实施例的神经网络的训练方法的流程图。

图2图示了根据本公开实施例的神经网络的训练方法所应用的系统架构的示意图。

图3图示了根据本公开实施例的神经网络的训练方法所应用的对象检测器的示意图。

图4图示了根据本公开实施例的神经网络的训练装置的框图。

图5图示了根据本公开实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

申请概述

如上所述，近年来使用特征模仿的对象检测网络蒸馏(ODND)技术得到了很大发展，也就是，模仿特征使得从学生网络提取的特征尽可能近似从老师网络提取的特征。

例如，可以使用L2损失来最小化由老师网络和学生网络生成的特征图之间的按位置差异，从而实现学生网络与老师网络之间的特征模仿。

但是，按位置的L2损失存在两个潜在问题。首先，在图像仅包含很少对象或者小对象的情况下，老师网络的特征图上的大部分区域将很弱地响应，可能导致学生网络的有关对象的语义信息的恶化。第二，该按位置的L2损失独立地处理特征图的每个位置和每个图像，因此不能全局地描述由老师网络和学生网络生成的特征之间的内在结构关联性。虽然可以使得两个特征具有类似的值，由于其不同的网络结构，这两个特征可能内在地具有非常不同的分布。

基于上述技术问题，本公开的基本构思是对从老师网络获得的第一特征图和从学生网络获得的第二特征图分别进行注意力特征模仿和对抗特征模仿，以更新学生网络。这里，注意力特征模仿可以选择性地注意不同区域，且对抗特征模仿可以在全局分布上传递特征。

具体地，本公开提供的神经网络的训练方法、神经网络的训练装置和电子设备首先使用第一神经网络从输入图像获得第一特征图，再使用第二神经网络从所述输入图像获得第二特征图，然后基于所述第一特征图和所述第二特征图进行注意力特征模仿以获得第一损失函数值，再基于所述第一特征图和所述第二特征图进行对抗特征模仿以获得第二损失函数值，最后基于所述第一损失函数值和所述第二损失函数值更新所述第二神经网络。

这样，由于注意力特征模仿可以选择性地注意不同区域，使得在更新所述第二神经网络时更加聚焦于需要关注的区域，例如需要识别的对象区域，从而能够从第一神经网络所获得的第一特征图中捕获用于第二神经网络的相对更加与对象相关的信息。

另外，由于对抗特征模仿可以以更全局的程度推动由第一神经网络和第二神经网络生成的特征类似，从而可以尝试使得由第一神经网络和第二神经网络生成的特征具有类似的分布，即，在某种程度上描述两个特征之间的内在结构关联性。

并且，由于注意力特征模仿和对抗特征模仿分别聚焦于特征模仿的不同方面，其在某种程度上是互补的，可以将注意力特征模仿和对抗特征模仿结合，从而使得第二神经网络所获得的特征类似于第一神经网络的特征。

在介绍了本公开的基本原理之后，下面将参考附图来具体介绍本公开的各种非限制性实施例。

示例性方法

如图1所示，根据本公开实施例的神经网络的训练方法包括如下步骤。

步骤S110，使用第一神经网络从输入图像获得第一特征图。这里，所述第一神经网络可以是用于从输入图像获得特征图的卷积神经网络，其是本公开实施例中的老师网络，例如可以为Resnet-50。例如，所述输入图像可以是自动驾驶场景下的街景图像，其包括行人、车辆等各种对象。相应地，所述第一特征图包括输入图像中的各种对象的特征，例如行人特征、车辆特征等，以进一步基于所述第一特征图执行对象检测、对象识别、对象分类等计算机视觉任务。

步骤S120，使用第二神经网络获得第二特征图。这里，所述第二神经网络也可以是用于从输入图像获得特征图的卷积神经网络，但是其相对于所述第一神经网络是更浅和更小的神经网络，也就是本公开实施例中的学生网络，例如可以为Resnet-18。这里，所述第二神经网络相对于第一神经网络更浅指的是所述第二神经网络的层数小于所述第一神经网络的层数，例如第一神经网络为50层的卷积神经网络，而第二神经网络为18层的卷积神经网络。另外，所述第二神经网络相对于第一神经网络更小指的是所述第二神经网络的每一层的大小小于所述第一神经网络的每一层的大小。所述第二特征图与所述第一特征图类似，包括输入图像中的各种对象的特征，例如行人特征、车辆特征等，以进一步基于所述第一特征图执行对象检测、对象识别、对象分类等计算机视觉任务。

步骤S130，基于所述第一特征图和所述第二特征图进行注意力特征模仿以获得第一损失函数值。如上所述，在现有的网络蒸馏方法中，是使用第一特征图和第二特征图之间的按位置L2损失来最小化由老师网络和学生网络生成的特征图之间的按位置差异，其独立地处理每个位置，从而局部地模仿特征。相对地，在本公开实施例中，使用注意力特征模仿来更加聚焦于特征图中的包含有效信息的区域，例如在对象检测情况下中特征图的对象区域，从而通过最小化所述第一特征图和所述第二特征图中的包含有效信息的区域之间的每个位置的差异，来使得第二特征图尽可能接近第一特征图。因此，由于第一损失函数强调所述第一特征图和所述第二特征图中的包含有效信息的区域之间的差异，通过基于所述第一损失函数值更新学生网络，可以解决按位置L2损失导致的学生网络的有关对象的语义信息恶化的问题。

步骤S140，基于所述第一特征图和所述第二特征图进行对抗特征模仿以获得第二损失函数值。如上所述，由于按位置L2损失独立地处理特征图的每个位置和每个图像，因此不能全局地描述由老师网络和学生网络生成的特征之间的内在结构关联性。也就是，虽然老师网络和学生网络生成的特征可能具有类似的值，但是由于其不同的网络结构，这两个特征可能内在地具有非常不同的分布。因此，通过使用对抗特征模仿，使得所述第一特征图和所述第二特征图不但在每个位置上具有类似的值，且所述第一特征图和所述第二特征图在整体上具有相似的分布。

因此，对抗特征模仿类似于生成对抗网络，通过使用对抗性损失来通过欺骗训练好以区分由不同网络生成的特征的鉴别器网络，而以更全局的程度推动由老师网络和学生网络生成的特征类似。因此，通过第二损失函数值可以使得由老师网络和学生网络生成的特征具有类似的分布，且因此可以某种程度上描述两个特征之间的内在结构关联性。

步骤S150，基于所述第一损失函数值和所述第二损失函数值更新所述第二神经网络。也就是，由于注意力特征模仿和对抗特征模仿分别聚焦于特征模仿的不同方面，其在某种程度上是互补的，通过基于注意力特征模仿的第一损失函数值和基于对抗特征模仿的第二损失函数值更新第二神经网络，可以使得第二神经网络所获得的特征类似于第一神经网络的特征。

也就是，如上所述，由于第一损失函数强调所述第一特征图和所述第二特征图中的包含有效信息的区域之间的差异，通过基于所述第一损失函数值更新所述第二神经网络，可以使得所述第二特征图中包含有效信息的区域中每个位置的值类似于所述第一特征图。并且，由于所述第二损失函数强调所述第一特征图和所述第二特征图整体上的特征分布，通过基于所述第二损失函数值更新所述第二神经网络，可以使得所述第二特征图在特征的全局分布上类似于所述第一特征图。

如上所述，根据本公开实施例的神经网络的训练方法可以用于训练在计算能力有限的终端上使用的神经网络。例如，在自动驾驶场景下，可以在服务器上通过街景图像集训练第一神经网络，从而实现精确的对象检测、对象分类等。针对部署在车辆上的自动驾驶模块的第二神经网络，可以使用根据本公开实施例的神经网络的训练方法来基于第一神经网络进行训练，使得部署在车辆上的第二神经网络也能够生成与服务器上的第一神经网络类似的特征图，从而使得部署在车辆上的自动驾驶模块也具有与服务器上实现的相同的对象检测、对象分类等的精度。

下面，将参考如图2所示的系统架构进一步说明根据本公开实施例的神经网络的训练方法。

图2图示了根据本公开实施例的神经网络的训练方法所应用的系统架构的示意图。如图2所示，给定输入图像I和训练好的第一神经网络D₁，首先将图像I输入到第一神经网络D₁和第二神经网络D₂，产生两个特征图F^t和F^s。

在本公开实施例中，为使得由两个网络产生的特征图具有相同形状，采用具有参数Θada的自适应调整层，即图2中的ada(例如，简单的1×1卷积层)来将第二特征图(即图2的F^s)调整为第三特征图(即如图2的F^ada)。因此，第三特征图可以表示为F^ada(F^s；Θada)。例如，在自适应层是卷积层的情况下，参数Θada包括卷积核的输出通道数、卷积核的大小、卷积核的步长等。在图3中，将F^ada(F^s；Θada)简单地示称为F^ada。然后，将第一特征图，即图2中的F^t和第三特征图，即图2中的F^ada进行注意力特征模仿。

因此，在根据本公开实施例的神经网络的训练方法中，基于所述第一特征图和所述第二特征图进行注意力特征模仿以获得第一损失函数值包括：使用自适应调整层将所述第二特征图调整为具有与所述第一特征图相同形状的第三特征图；以及，对所述第一特征图和所述第三特征图进行注意力特征模仿以获得第一损失函数值。

这样，通过将所述第二特征图调整为与所述第一特征图相同的形状，可以简化所述注意力特征模仿的计算，从而节省计算资源。

继续参考图2，在进行注意力特征模仿时，将第一特征图(即图2中的F^t)和第三特征图(即图2中的F^ada)堆叠，以获得堆叠后的第四特征图，即图2中的F^o。然后，将堆叠后的第四特征图，即图2中的F^o通过注意力特征模块，即图2中的att。例如，所述注意力特征模块att可以包括第一预设数量的具有第一预设尺寸的第一卷积层，例如，三个3×3卷积层。并且，所述第一预设数量的所述第一卷积层中的每个卷积层具有第一预设常量的步长，例如步长为一。并且，在三个3×3卷积层的情况下，三个卷积层的输出通道的数目可以分别为1024，1024和1，且每个卷积层之后是ReLU层。

也就是，在根据本公开实施例的神经网络的训练方法中，对所述第一特征图和所述第三特征图进行注意力特征模仿以获得第一损失函数值包括：将所述第一特征图与所述第三特征图堆叠以获得第四特征图；以及，将所述第四特征图通过第一预设数量的具有第一预设尺寸的第一卷积层以获得第一损失函数值，所述第一卷积层的步长为第一预设常量。

这样，通过如上所述的注意力特征模仿机制，可以获得空间注意力图，从而强调特征图上预定的空间位置，增强了该预定的空间位置处的语义特征的模仿能力。

继续参考图2，根据本公开实施例的注意力特征模仿获得的第一损失函数值为相对于按位置L2损失函数值改进的L2损失函数值。具体地，注意力特征模仿可以局部地模仿由第一神经网络产生的特征。更精确地，注意力特征模仿想要第一特征图，即图2中的F^t和第三特征图，即图2中的F^ada的每个位置的特征相同。最直接的方式是使用如以下等式(1)中的现有的按位置L2损失函数值：

其中是特征图F^t的空间位置h，w的特征向量，且/>是第三特征图，即图2中的F^ada的空间位置h，w的特征向量，H和W分别是第一特征图，即图2中的F^t和第三特征图，即图2中的F^ada的高度和宽度。

但是，对于所述第二神经网络用于的任务，例如对象检测，对象区域的特征比背景区域的特征对于分类和回归更加重要。当所述第二神经网络非常小，容量有限时，聚焦于过多地模仿背景特征将导致差的性能。特别是，在图像仅包含很少对象或者小对象的情况下，图像的大部分区域是背景，且第二特征图，即图2中的F^t将关于这些区域具有弱的响应。也就是，上述等式中的按位置L2损失函数值将学到弱的背景响应，导致所述第二神经网络的有关对象的语义信息的恶化。

因此，在本公开实施例中，采用如下等式(2)的注意力L2损失函数值作为所述第一损失函数值：

其中，M^att(F^t，F^ada；Θ^att)是本公开实施例中的第五特征图，即如上所述将第一特征图，即图2中的F^t和第三特征图，即图2中的F^ada堆叠并通过所述第一预设数量的所述第一卷积层所获得的特征图，是M^att(F^t，F^ada；Θ^att)的空间位置h，w的元素，且λ^norm是平衡以下等式中的两项的超参数。

所述第一损失函数值的解释如下：不同区域应该具有不同重要性，例如，对于对象检测，对象区域和它们周围的上下文区域应该比其它区域更重要。因此，使用学习注意不同区域的注意力层，更具体地，注意力层生成空间注意力图，且因此将不同权重分配给按位置L2损失函数值的不同空间位置，参见上述等式(2)的第一项。但是，没有限制地直接优化上述等式的第一项将导致所有第五特征图的空间位置h，w的元素，即快速变为零。为解决该问题，添加了额外的惩罚项来保证不是所有第五特征图的空间位置h，w的元素，即为零，参见上述等式(2)的第二项。

因此，在根据本公开实施例的神经网络的训练方法中，将所述第四特征图通过第一预设数量的具有第一预设尺寸的第一卷积层以获得第一损失函数值包括步骤：将所述第四特征图，例如如图2所示的F^o通过所述第一预设数量的所述第一卷积层，例如如图2所示的att以获得第五特征图，例如如图2所示的F^att，也就是如上所述的M^att(F^t，F^ada；Θ^att)。

然后，按照上述等式，计算以所述第五特征图的每个位置的值加权的所述第一特征图与所述第三特征图的L2损失函数值；在所述第五特征图的所有位置处对所述第五特征图的每个位置的值的平方求和以获得第一数值；以第一系数除以所述第一数值以获得第一惩罚数值；以及，将所述以M矩阵加权的L2损失函数值与所述第一惩罚数值相加以获得所述第一损失函数值，例如如图2所示的L^att。

因此，所述第一损失函数值具有分配给按位置L2损失函数值的不同空间位置的不同权重，这样，训练的所述第二神经网络仍然独立地处理特征图的每个位置和每个图像，并且可以学习用于所述第二神经网络的某些有关对象的语义信息，从而在局部上提高所述第二神经网络获得的特征与所述第一神经网络获得的特征的相似性。

在本公开实施例中，与注意力特征模仿类似，在进行对抗特征模仿之前，首先使用自适应调整层，比如如上所述的参数Θada的自适应调整层，即如图2所示的ada(例如，简单的1×1卷积层)来将所述第二特征图，例如如图2所示的F^s调整为具有与所述第一特征图相同形状的第三特征图，例如如图2所示的F^ada。然后，基于所述第一特征图和所述第三特征图，例如如图2所示的F^t和F^ada进行对抗特征模仿以获得第二损失函数值。

这样，通过将所述第二特征图调整为与所述第一特征图相同的形状，可以简化所述对抗特征模仿的计算，从而节省计算资源。

继续参考图2，在进行对抗特征模仿时，使用鉴别器dis来进行对抗特征模仿。该鉴别器dis以第三特征图，例如如图2所示的F^ada作为输入，并输出第六特征图，例如表示为P(F^ada；Θ^dis)，在图2中为了简单示为F^dis。这里，使用第二预设数量的具有第二预设尺寸的第二卷积层作为鉴别器，例如三个3×3卷积层。其中，所述第二卷积层的步长为2，且三层的输出通道的数目分别是1024，512和1。并且，前两层之后是由0.2参数化的leakyReLU层，且最后层之后是sigmoid层以保证输出在范围0-1之内。

也就是，在根据本公开实施例的神经网络的训练方法中，基于所述第一特征图和所述第三特征图进行对抗特征模仿以获得第二损失函数值包括：将所述第三特征图通过训练好的第二预设数量的具有第二预设尺寸的第二卷积层以获得所述第二损失函数值，所述第二卷积层的步长为第二预设常量。

这样，通过如上所述的对抗特征模仿机制，可以使得两个特征具有类似的分布，从而描述两个特征之间的内在结构关联性。

另外，如果想要如上所述的概率图的每个位置对应于特征图的大区域，从而可以捕获特征图的足够的结构信息，将层的核大小和步长设置为大于1。也就是，所述第二预设数量的所述第二卷积层中的每一卷积层的核大小大于一。

如上所述，将第三特征图，比如如图2所示的F^ada通过所述第二预设数量的所述第二卷积层，以得到第六特征图，比如如图2所示的F^dis。所述第二损失函数值可以如以下公式(3)表示：

其中，是第六特征图，即图2中的F^dis的空间位置h，w的元素，且H’和W’是特征图F^dis的高和宽。

也就是，在根据本公开实施例的神经网络的训练方法中，将所述第三特征图通过训练好的第二预设数量的具有第二预设尺寸的第二卷积层以获得所述第二损失函数值包括：将所述第三特征图通过训练好的所述第二预设数量的第二卷积层以获得第六特征图，例如如图2所示的F^dis；对所述第六特征图的所有位置处的所述第六特征图的每个位置的值的对数求和以获得第一数值；以及，将所述第一数值除以所述第六特征图的宽与高之积并取负数以获得所述第二损失函数值，例如如图2所示的L^adv。

这样，通过基于所述第二损失函数值L^adv(F^t，F^ada；Θ^dis)更新所述第二神经网络，可以欺骗鉴别器以使得第三特征图，即图2所示的F^ada类似于第一特征图，即图2所示的F^t。也就是，所述第二损失函数值使得两个特征具有类似的分布，这描述了两个特征之间的内在结构关联性。

值得注意的是，对抗特征模仿所使用的鉴别器需要进行训练。为了训练鉴别器，将所述第一特征图，例如如图2所示的F^t和所述第三特征图，例如如图2所示的F^ada分别输入未训练的所述第二预设数量的所述第二卷积层以获得第七特征图和第八特征图。

在训练鉴别器的过程中，所述第一特征图和所述第三特征图是交替输入所述鉴别器的。同时，基于输入所述第一特征图和所述第三特征图时的不同的损失函数值来训练鉴别器，如以下公式(4)所示：

其中，P(F；Θ^dis)是如上所述的第七特征图或者第八特征图，且P_hw是如上所述的第七特征图或者第八特征图，即P(F；Θ^dis)的空间位置h，w的元素，H’和W’分别是所述第七特征图或者所述第八特征图的高度和宽度。

也就是，在根据本公开实施例的神经网络的训练方法中，将所述第三特征图通过训练好的第二预设数量的具有第二预设尺寸的第二卷积层以获得所述第二损失函数值包括：将所述第一特征图和所述第三特征图分别通过未训练的所述第二预设数量的所述第二卷积层以获得第七特征图和第八特征图；响应于输入所述第一特征图，计算在所述第七特征图的每一位置的值的对数与所述第七特征图的宽与高之积的第一商值；对所述第七特征图的所有位置处的所述第一商值求和以获得第一和值；计算所述第一和值的负数以获得所述鉴别器损失函数值；以及，基于所述鉴别器损失函数值训练所述第二预设数量的所述第二卷积层。

以及，在上述神经网络的训练方法中，将所述第三特征图通过训练好的第二预设数量的具有第二预设尺寸的第二卷积层以获得所述第二损失函数值进一步包括：响应于输入所述第三特征图，计算在所述第八特征图的每一位置的值的对数与所述第八特征图的宽与高之积的第二商值；对所述第八特征图的所有位置处的所述第二商值求和以获得所述鉴别器损失函数值；以及，基于所述鉴别器损失函数值训练所述第二预设数量的所述第二卷积层。

在获得如上所述的用于局部地测量第一特征图，即图2中的F^t和第三特征图，即图2中的F^ada之间的距离的第一损失函数值L^att(F^t，F^ada，M^att(F^t，F^ada，Θ^att))和用于全局地测量第一特征图，即图2中的F^t和第三特征图，即图2中的F^ada之间的距离的第二损失函数值L^adv(F^t，F^ada；Θ^dis)之后，基于所述第一损失函数值和所述第二损失函数值构造最终的特征模仿损失函数值，例如记为L^mimic(F^t，F^s；Θ^ada，Θ^att，Θ^dis)，如以下公式(5)所示：

L^mimic(F^t，F^s；Θ^ada，Θ^att，Θ^dis)

＝λ^attL^att(F^t，F^ada，M^att(F^t，F^ada；Θ^att))

+λ^advL^adv(F^t，F^ada；Θ^dis). (5)

其中λ^att，λ^adv是平衡两个损失的超参数。

在更新所述第二神经网络时，可以使用交替训练策略，即，交替以下两个训练步骤：(1)关于第二特征图F^s，自适应调整层的参数Θ^ada，和注意力特征模块的参数Θ^att优化损失最终的特征模仿损失函数值L^mimic(F^t，F^s；Θ^ada，Θ^att，Θ^dis)并固定第一特征图F^t，和鉴别器的参数Θ^dis；(2)关于鉴别器的参数Θ^dis优化损失鉴别器损失函数值L^dis(F^t，F^ada；Θ^dis)并固定第一特征图F^t，第二特征图F^s，自适应调整层的参数Θ^ada，和注意力特征模块的参数Θ^att。当然，本领域技术人员可以理解，也可以首先训练好鉴别器，然后再使用所述第一损失函数值和所述第二损失函数值更新所述第二神经网络。

示例性对象检测器

根据本公开实施例的神经网络的训练方法可以应用于典型的两阶段检测器快速R-CNN。如图3所示，快速R-CNN监测器包括三个部分：产生卷积特征图的主干网络，生成区域候选的区域候选网络(RPN)；执行候选框分类和回归的基于区域的CNN(R-CNN)，其中RPN和R-CNN建立于主干网络上。

给定输入图像I，检测器首先将其输入到主干网络，即老师主干网络，即图3所示的D₁和学生主干网络，即图3所示的D₂以产生主干特征图，即图3所示的F^b_t和F^b_s。RPN将主干特征图，即图3所示的F^b_t和F^b_s作为输入以生成区域候选R(F^b；Θ^rpn)，其中Θ^rpn表示区域候选网络RPN₁和RPN₂的参数，比如卷积层的卷积核的输出通道数、卷积核的大小、卷积核的步长等，下面为了简化使用R。学生网络的基于区域的CNNR-CNN₂将主干特征图，即图3所示的F^b_s和区域候选，即图3所示的RPN₂的输出作为输入以生成最终检测结果D(F^b，R；Θ^r-cnn)，其中Θ^r-cnn表示R-CNN的参数，比如卷积层的卷积核的输出通道数、卷积核的大小、卷积核的步长等。然后，训练快速R-CNN的损失写为以下等式(6)：

其中，G表示正确标注数据(grond truth)。关于主干特征图，即图3所示的F^b_t和F^b ^_s，区域候选网络的参数Θ^rpn，和基于区域的CNN的参数Θ^r-cnn优化损失以训练检测器。

首先训练大的老师检测网络，即图3所示的D₁。对于学生检测网络，即图3所示的D₂，如果想要获得更好的检测性能，重要的是使得所有三个部分(即，学生主干网络，即图3所示的D₂、学生区域候选网络，即图3所示的RPN₂和学生R-CNN，即图3所示的R-CNN₂)更强。因为几乎所有基于快速R-CNN的检测器共享RPN头部的相同和简单架构，仅模仿主干网络和R-CNN的特征。

在该对象监测器中，对于主干网络和R-CNN两者模仿特征。“AAFM”表示应用注意力特征模仿和对抗特征模仿于主干网络，这与如上所述的根据本公开实施例的神经网络的训练方法相同。“AFM”表示应用对抗特征模仿于R-CNN。选择由正确标注数据训练的标准快速R-CNN损失函数值并在图中省略。

如图3所示，假定由老师网络主干和学生网络主干生成的特征图分别为主干特征图，即图3所示的F^b_t和F^b_s。直接使用上述根据本公开实施例的神经网络的训练方法，因为主干生成整个输入图像的特征图。则对于主干网络特征模仿的损失函数值为：

L^b_mimic(F^b_t，F^b_s：Θ^b_ada，Θ^b_att，Θ^b_dis)

其中，Θ^b_ada，Θ^b_att和Θ^b_dis是主干特征自适应层，主干注意力模块(对于注意力特征模仿)和主干鉴别器(对于对抗特征模仿)的参数。本领域技术人员可以理解，这里的L^b ^_mimic相当于如上所述的基于所述第一损失函数值和所述第二损失函数值获得的损失函数值L^mimic。对于对抗特征模仿模块，也存在如下的损失函数值来训练鉴别器：

L^b_dis(F^b_t，F^b_ada；Θ^b_dis)

其中，F^b_ada是由主干特征自适应层产生的特征。

假定由老师R-CNN，即如图3所示的R-CNN₁和学生R-CNN，即如图3所示的R-CNN₂生成的候选特征分别是F^r_t(F^b_t，R^s；Θ^r-cnn_t)和F^r_s(F^b_s，R^s；Θ^r-cnn_s)，其中R^s，Θ^r-cnn_t和Θ^r-cnn_s是由学生RPN生成的候选，老师和学生R-CNN的参数，之后为了简化使用如图3所示的F^r_t，F^r_s。这里，使用以下等式的对抗损失函数值，因为R-CNN已经生成捕获某些关于对象的信息的候选特征。则用于R-CNN特征模仿的损失函数值由以下等式(7)表示：

L^r_mimic(F^r_t，F^r_s；Θ^r_ada，Θ^r_dis)

＝L^r_adv(F^r_t，F^r_ada；Θ^r_dis)， (7)

其中，Θ^r_ada和Θ^r_dis是R-CNN特征自适应层和R-CNN鉴别器(用于对抗特征模仿)的参数，且F^r_ada是由R-CNN特征自适应层产生的特征。类似地，也存在如下的损失函数值训练鉴别器：

L^r_dis(F^r_t，F^r_ada；Θ^r_dis)

然后，组合损失函数值以训练具有AAFM的快速R-CNN，写为以下等式(8)：

其中λ^det，λ^b_mimic，λ^r_mimic是平衡三个损失的超参数，且Θ^rpn_s表示学生RPN的参数。

鉴别器损失函数值如下：。

λ^b_disL^b_dis(F^b_t，F^b_ada；Θ^b_dis)

+λ^r_disL^r_dis(F^r-t，F^r_ada；Θ^r_dis).

其中，λ^b_dis和λ^r_dis是平衡两个损失的超参数。

在训练期间，类似于生成对抗网络，交替训练具有AAFM的快速R-CNN(关于主干学生网络的特征图F^b_s，学生RPN的参数Θ^rpn_s，学生R-CNN的参数Θ^r-cnn_s，主干特征自适应层的参数Θ^b_ada，主干注意力模块的参数Θ^b_att和R-CNN特征自适应层的参数Θ^r_ada)和鉴别器(关于主干鉴别器的参数Θ^b_dis和R-CNN鉴别器的参数Θ^r_dis)。并且，在推断期间，可以简单地去除关于AAFM的所有部分并保持快速R-CNN的部分。因此，AAFM并不会带来任意额外的推断计算。

也就是，在根据本公开实施例的神经网络的训练方法中，基于所述第一损失函数值和所述第二损失函数值更新所述第二神经网络包括如下步骤。

将所述第一特征图，即如图3所示的F^b_t通过第一区域提取网络，即如图3所示的RPN₁和第一循环卷积神经网络，即如图3所示的R-CNN₁以获得第九特征图，即如图3所示的F^r_t。

将所述第二特征图，即如图3所示的F^b_s通过第二区域提取网络，即如图3所示的RPN₂和第二循环卷积神经网络，即如图3所示的R-CNN₂以获得第十特征图，即如图3所示的F^r_s。

基于所述第九特征图和所述第十特征图进行对抗特征模仿以获得第三损失函数值，即如图3所示的L^r_mimic。

获得用于训练所述第二区域提取网络和所述第二循环卷积神经网络的第四损失函数值，即如图3所示的L^det。

基于所述第一损失函数值，所述第二损失函数值、所述第三损失函数值和第四损失函数值更新所述第二神经网络、所述第二区域提取网络和所述第二循环卷积神经网络。

示例性装置

图4图示了根据本公开实施例的神经网络的训练装置的框图。

如图4所示，根据本公开实施例的神经网络的训练装置200包括：第一特征图获得单元210，用于使用第一神经网络从输入图像获得第一特征图；第二特征图获得单元220，用于使用第二神经网络从输入图像获得第二特征图；注意力特征模仿单元230，用于基于所述第一特征图获得单元210所获得的所述第一特征图和所述第二特征图获得单元220所获得的所述第二特征图进行注意力特征模仿以获得第一损失函数值；对抗特征模仿单元240，用于基于所述第一特征图获得单元210所获得的所述第一特征图和所述第二特征图获得单元220所获得的所述第二特征图进行对抗特征模仿以获得第二损失函数值；以及，神经网络更新单元250，用于基于所述注意力特征模仿单元230所获得的所述第一损失函数值和所述对抗特征模仿单元240所获得的所述第二损失函数值更新所述第二神经网络。

在一个示例中，在根据本公开实施例的神经网络的训练装置200中，所述注意力特征模仿单元230包括：第一自适应子单元，用于使用自适应调整层将所述第二特征图获得单元220所获得的所述第二特征图调整为具有与所述第一特征图相同形状的第三特征图；以及，注意力特征模仿子单元，用于对所述第一特征图获得单元210所获得的所述第一特征图和所述第一自适应子单元所获得的所述第三特征图进行注意力特征模仿以获得第一损失函数值。

在一个示例中，在根据本公开实施例的神经网络的训练装置200中，所述注意力特征模仿子单元包括：堆叠模块，用于将所述第一特征图获得单元210所获得的所述第一特征图与所述第一自适应子单元所获得的所述第三特征图堆叠以获得第四特征图；以及，卷积模块，用于将所述堆叠模块所获得的所述第四特征图通过第一预设数量的具有第一预设尺寸的第一卷积层以获得第一损失函数值，所述第一卷积层的步长为第一预设常量。

在一个示例中，在根据本公开实施例的神经网络的训练装置200中，所述卷积模块用于：将所述第四特征图通过所述第一预设数量的所述第一卷积层以获得第五特征图；计算以所述第五特征图的每个位置的值加权的所述第一特征图与所述第三特征图的L2损失函数值；在所述第五特征图的所有位置处对所述第五特征图的每个位置的值的平方求和以获得第一数值；以第一系数除以所述第一数值以获得第一惩罚数值；以及，将所述以M矩阵加权的L2损失函数值与所述第一惩罚数值相加以获得所述第一损失函数值。

在一个示例中，在根据本公开实施例的神经网络的训练装置200中，所述对抗特征模仿单元240包括：第二自适应子单元，用于使用自适应调整层将所述第二特征图获得单元220所获得的所述第二特征图调整为具有与所述第一特征图相同形状的第三特征图；以及，对抗特征模仿子单元，用于基于所述第一特征图获得单元210所获得的所述第一特征图和所述第二自适应子单元所获得的所述第三特征图进行对抗特征模仿以获得第二损失函数值。

在一个示例中，在根据本公开实施例的神经网络的训练装置200中，所述对抗特征模仿子单元用于：将所述第三特征图通过训练好的第二预设数量的具有第二预设尺寸的第二卷积层以获得所述第二损失函数值，所述第二卷积层的步长为第二预设常量。

在一个示例中，在根据本公开实施例的神经网络的训练装置200中，所述第二预设数量的所述第二卷积层中的每一卷积层的核大小大于一。

在一个示例中，在根据本公开实施例的神经网络的训练装置200中，所述对抗特征模仿子单元用于：将所述第三特征图通过训练好的所述第二预设数量的第二卷积层以获得第六特征图；对所述第六特征图的所有位置处的所述第六特征图的每个位置的值的对数求和以获得第一数值；以及，将所述第一数值除以所述第六特征图的宽与高之积并取负数以获得所述第二损失函数值。

在一个示例中，在根据本公开实施例的神经网络的训练装置200中，所述对抗特征模仿子单元用于：将所述第一特征图和所述第三特征图分别通过未训练的所述第二预设数量的所述第二卷积层以获得第七特征图和第八特征图；响应于输入所述第一特征图，计算在所述第七特征图的每一位置的值的对数与所述第七特征图的宽与高之积的第一商值；对所述第七特征图的所有位置处的所述第一商值求和以获得第一和值；计算所述第一和值的负数以获得所述鉴别器损失函数值；以及，基于所述鉴别器损失函数值训练所述第二预设数目的第二卷积层。

在一个示例中，在根据本公开实施例的神经网络的训练装置200中，所述对抗特征模仿子单元进一步用于：响应于输入所述第三特征图，计算在所述第八特征图的每一位置的值的对数与所述第八特征图的宽与高之积的第二商值；对所述第八特征图的所有位置处的所述第二商值求和以获得所述鉴别器损失函数值；以及，基于所述鉴别器损失函数值训练所述第二预设数量的所述第二卷积层。

在一个示例中，在根据本公开实施例的神经网络的训练装置200中，所述神经网络更新单元250包括：第一检测子单元，用于将所述第一特征图获得单元210所获得的所述第一特征图通过第一区域提取网络和第一循环卷积神经网络以获得第九特征图；第二检测子单元，用于将所述第二特征图获得单元220所获得的所述第二特征图通过第二区域提取网络和第二循环卷积神经网络以获得第十特征图；检测特征对抗子单元，用于基于所述第一检测子单元所获得的所述第九特征图和所述第二检测子单元所获得的所述第十特征图进行对抗特征模仿以获得第三损失函数值；检测损失函数值获得子单元，用于获得用于训练所述第二区域提取网络和所述第二循环卷积神经网络的第四损失函数值；以及，网络更新子单元，用于基于所述注意力特征模仿单元230所获得的所述第一损失函数值，所述对抗特征模仿单元240所获得的所述第二损失函数值、所述检测特征对抗子单元所获得的所述第三损失函数值和所述检测损失函数值获得子单元所获得的所述第四损失函数值更新所述第二神经网络、所述第二区域提取网络和所述第二循环卷积神经网络。

这里，本领域技术人员可以理解，上述神经网络的训练装置200中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的神经网络的训练方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本公开实施例的神经网络的训练装置200可以实现在各种终端设备中，例如用于网络蒸馏的服务器等。在一个示例中，根据本公开实施例的神经网络的训练装置200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该神经网络的训练装置200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该神经网络的训练装置200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该神经网络的训练装置200与该终端设备也可以是分立的设备，并且该神经网络的训练装置200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图5来描述根据本公开实施例的电子设备。

图5图示了根据本公开实施例的电子设备的框图。

如图5所示，电子设备10包括一个或多个处理器11和存储器12。

处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的神经网络的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如第一特征图、第二特征图、第一损失函数值、第二损失函数值等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括向训练好的第二神经网络等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的神经网络的训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的神经网络的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于驾驶场景中神经网络的训练方法，包括：

使用第一神经网络从输入图像获得第一特征图，所述第一特征图包括输入图像中的各种对象的特征；

使用第二神经网络从所述输入图像获得第二特征图，所述第二特征图包括输入图像中的各种对象的特征；

基于所述第一特征图和所述第二特征图进行注意力特征模仿以获得第一损失函数值，所述注意力特征模仿聚焦于特征图中包含有效信息的区域；所述第一损失函数值具有分配给按位置L2损失函数值的不同空间位置的不同权重；

基于所述第一特征图和所述第二特征图进行对抗特征模仿以获得第二损失函数值；以及

基于所述第一损失函数值和所述第二损失函数值更新所述第二神经网络，所述第二神经网络层数小于所述第一神经网络层数；所述第二神经网络应用于驾驶终端上；

其中所述输入图像为驾驶场景下的街景图像；所述对象特征包括行人特征和车辆特征。

2.如权利要求1所述的神经网络的训练方法，其中，基于所述第一特征图和所述第二特征图进行注意力特征模仿以获得第一损失函数值包括：

使用自适应调整层将所述第二特征图调整为具有与所述第一特征图相同形状的第三特征图；以及

对所述第一特征图和所述第三特征图进行注意力特征模仿以获得第一损失函数值。

3.如权利要求2所述的神经网络的训练方法，其中，对所述第一特征图和所述第三特征图进行注意力特征模仿以获得第一损失函数值包括：

将所述第一特征图与所述第三特征图堆叠以获得第四特征图；以及

将所述第四特征图通过第一预设数量的具有第一预设尺寸的第一卷积层以获得第一损失函数值，所述第一卷积层的步长为第一预设常量。

4.如权利要求3所述的神经网络的训练方法，其中，将所述第四特征图通过第一预设数量的具有第一预设尺寸的第一卷积层以获得第一损失函数值包括：

将所述第四特征图通过所述第一预设数量的所述第一卷积层以获得第五特征图；

计算以所述第五特征图的每个位置的值加权的所述第一特征图与所述第三特征图的L2损失函数值；

在所述第五特征图的所有位置处对所述第五特征图的每个位置的值的平方求和以获得第一数值；

以第一系数除以所述第一数值以获得第一惩罚数值；以及

将以M矩阵加权的L2损失函数值与所述第一惩罚数值相加以获得所述第一损失函数值。

5.如权利要求1所述的神经网络的训练方法，其中，基于所述第一特征图和所述第二特征图进行对抗特征模仿以获得第二损失函数值，包括：

基于所述第一特征图和所述第三特征图进行对抗特征模仿以获得第二损失函数值。

6.如权利要求5所述的神经网络的训练方法，其中，基于所述第一特征图和所述第三特征图进行对抗特征模仿以获得第二损失函数值包括：

将所述第三特征图通过训练好的第二预设数量的具有第二预设尺寸的第二卷积层以获得所述第二损失函数值，所述第二卷积层的步长为第二预设常量。

7.如权利要求6所述的神经网络的训练方法，其中，所述第二预设数量的所述第二卷积层中的每一卷积层的核大小大于一。

8.如权利要求6所述的神经网络的训练方法，其中，将所述第三特征图通过训练好的第二预设数量的具有第二预设尺寸的第二卷积层以获得所述第二损失函数值包括：

将所述第三特征图通过训练好的所述第二预设数量的第二卷积层以获得第六特征图；

对所述第六特征图的所有位置处的所述第六特征图的每个位置的值的对数求和以获得第一数值；以及

将所述第一数值除以所述第六特征图的宽与高之积并取负数以获得所述第二损失函数值。

9.如权利要求6所述的神经网络的训练方法，其中，将所述第三特征图通过训练好的第二预设数量的具有第二预设尺寸的第二卷积层以获得所述第二损失函数值包括：

将所述第一特征图和所述第三特征图分别通过未训练的所述第二预设数量的所述第二卷积层以获得第七特征图和第八特征图；

响应于输入所述第一特征图，计算在所述第七特征图的每一位置的值的对数与所述第七特征图的宽与高之积的第一商值；

对所述第七特征图的所有位置处的所述第一商值求和以获得第一和值；

计算所述第一和值的负数以获得鉴别器损失函数值；以及

基于所述鉴别器损失函数值训练所述第二预设数目的所述第二卷积层。

10.如权利要求9所述的神经网络的训练方法，其中，将所述第三特征图通过训练好的第二预设数量的具有第二预设尺寸的第二卷积层以获得所述第二损失函数值进一步包括：

响应于输入所述第三特征图，计算在所述第八特征图的每一位置的值的对数与所述第八特征图的宽与高之积的第二商值；

对所述第八特征图的所有位置处的所述第二商值求和以获得所述鉴别器损失函数值；以及

基于所述鉴别器损失函数值训练所述第二预设数量的所述第二卷积层。

11.如权利要求1所述的神经网络的训练方法，其中，基于所述第一损失函数值和所述第二损失函数值更新所述第二神经网络包括：

将所述第一特征图通过第一区域提取网络和第一循环卷积神经网络以获得第九特征图；

将所述第二特征图通过第二区域提取网络和第二循环卷积神经网络以获得第十特征图；

基于所述第九特征图和所述第十特征图进行对抗特征模仿以获得第三损失函数值；

获得用于训练所述第二区域提取网络和所述第二循环卷积神经网络的第四损失函数值；以及

12.一种用于驾驶场景中神经网络的训练装置，包括：

第一特征图获得单元，用于使用第一神经网络从输入图像获得第一特征图，所述第一特征图包括输入图像中的各种对象的特征；

第二特征图获得单元，用于使用第二神经网络从所述输入图像获得第二特征图，所述第二特征图包括输入图像中的各种对象的特征；

注意力特征模仿单元，用于基于所述第一特征图获得单元所获得的所述第一特征图和所述第二特征图获得单元所获得的所述第二特征图进行注意力特征模仿以获得第一损失函数值，所述注意力特征模仿聚焦于特征图中包含有效信息的区域；所述第一损失函数值具有分配给按位置L2损失函数值的不同空间位置的不同权重；

对抗特征模仿单元，用于基于所述第一特征图获得单元所获得的所述第一特征图和所述第二特征图获得单元所获得的所述第二特征图进行对抗特征模仿以获得第二损失函数值；以及

神经网络更新单元，用于基于所述注意力特征模仿单元所获得的所述第一损失函数值和所述对抗特征模仿单元所获得的所述第二损失函数值更新所述第二神经网络，所述第二神经网络层数小于所述第一神经网络层数；所述第二神经网络应用于驾驶终端上；

13.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-11中任一项所述的神经网络的训练方法。