CN113554042A

CN113554042A - 神经网络及其训练方法

Info

Publication number: CN113554042A
Application number: CN202010271823.3A
Authority: CN
Inventors: 张慧港; 汪留安; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2021-10-26
Also published as: JP2021168114A

Abstract

公开了神经网络及其训练方法。该神经网络用于图像中的对象检测，并且包括骨干网络、特征网络和预测模块，特征网络包括第一模块和第二模块。骨干网络对图像进行处理以输出不同尺寸的N个第一特征。特征网络的第一模块基于尺寸最小的第一特征执行N‑1次反卷积，以输出不同尺寸的N个第二特征。特征网络的第二模块对N个第一特征执行合并以输出不同尺寸的N个第三特征。通过将N个第二特征与N个第三特征进行组合来生成不同尺寸的N个第四特征，对N个第四特征分别执行不同次数的卷积。预测模块基于N个第四特征进行预测并且计算第一损失，以及基于卷积后得到的特征进行预测并且计算第二损失。基于第一损失与第二损失的组合来训练该神经网络。

Description

神经网络及其训练方法

技术领域

本发明涉及神经网络及其训练方法，更具体地，涉及用于对象检测的神经网络模型以及相应的训练方法。

背景技术

目前，随着智能手机的普及，人们越来越享受到科技带来的便利，这也在一定程度上刺激了人工智能技术的不断发展。人工智能往往需要大量的计算能力才能达到一定效果，然而，移动平台硬件处理能力通常有限，因此很多成熟的算法无法在手机上部署和应用。

为此，研究者开始探索小模型的实现。近年来，人们提出了许多高效的体系结构，例如技术文献[1]中描述的Pelee、技术文献[2]中描述的ShuffleNetV2、以及技术文献[3]中描述的MobileNetV3。这些模型能够满足移动平台的实时性要求，但在精度上仍存在很大提升空间。特别是在检测任务的情况下，小模型的精度损失要远远大于在分类任务的情况下的精度损失。

众所周知，检测任务是计算机视觉的基础研究，它得到了广泛的研究以及实际应用。现有的大多数目标检测模型使用为图像分类而设计的网络作为骨干，开发者针对检测器开发不同的特征表示。

总体来说，现有的检测模型通常具有以下缺点：

1)检测模型依赖于大量的人工工作和先验知识，虽然可以获得很好的检测精度，但不适于实时任务；

2)人工设计的小模型或剪枝模型能够处理实时性问题，但它们的骨干来自于为分类任务而设计的网络，因此精度往往不高。

技术文献：

[1]Wang,R.J.,Li,X.,Ao,S.,Ling,C.X.:Pelee:A real-time object detectionsystem on mobile devices.arXiv preprint arXiv:1804.06882(2018).

[2]Ningning Ma,Xiangyu Zhang,Hai-Tao Zheng,and Jian Sun.Shufflenetv2:Practical guidelines for efficient cnn architecture design.In ECCV,2018.

[3]Howard,A.,Sandler,M.,Chu,G.,Chen,L.-C.,Chen,B.,Tan,M.,Wang,W.,Zhu,Y.,Pang,R.,Vasudevan,V.,et al.Searching for mobilenetv3.arXiv preprint arXiv:1905.02244,2019

发明内容

本公开内容的发明人已经认识到，对于检测任务而言，端到端的检测模型是必要和有效的。基于此，本发明提供了适用于资源受限平台的端到端检测模型以及相应的训练方法。

根据本发明的一个方面，提供了一种训练神经网络的方法，其中，所述神经网络用于图像中的对象检测并且包括骨干网络、特征网络和预测模块，所述特征网络包括第一模块和第二模块，所述方法包括：所述骨干网络对样本图像进行处理，并且输出不同尺寸的N个第一特征；所述特征网络的第一模块基于所述骨干网络输出的尺寸最小的第一特征执行N-1次反卷积，并且输出不同尺寸的N个第二特征；所述特征网络的第二模块对从所述骨干网络输出的N个第一特征执行合并，并且输出不同尺寸的N个第三特征；通过将所述N个第二特征中的每一个与所述N个第三特征中具有相同尺寸的相应一个进行组合来生成不同尺寸的N个第四特征，并且对所述N个第四特征分别执行不同次数的卷积；所述预测模块基于所述N个第四特征进行预测，并且计算第一损失；所述预测模块基于卷积后得到的特征进行预测，并且计算第二损失；基于所述第一损失与所述第二损失的组合，以优化所述骨干网络、所述特征网络和所述预测模块的配置的方式来训练所述神经网络。

根据本发明的另一个方面，提供了一种用于图像中的对象检测的神经网络，所述神经网络包括骨干网络、特征网络和预测模块，所述特征网络包括第一模块和第二模块。所述骨干网络对样本图像进行处理，并且输出不同尺寸的N个第一特征。所述特征网络的第一模块基于所述骨干网络输出的尺寸最小的第一特征执行N-1次反卷积，并且输出不同尺寸的N个第二特征。所述特征网络的第二模块对从所述骨干网络输出的N个第一特征执行合并，并且输出不同尺寸的N个第三特征。所述N个第二特征中的每一个被与所述N个第三特征中具有相同尺寸的相应一个组合，以生成不同尺寸的N个第四特征，所述N个第四特征分别被执行不同次数的卷积。所述预测模块基于所述N个第四特征进行预测并且计算第一损失，以及基于卷积后得到的特征进行预测并且计算第二损失。所述神经网络被基于所述第一损失与所述第二损失的组合来训练。

根据本发明的另一个方面，提供了一种训练神经网络的装置，其中，所述神经网络用于图像中的对象检测并且包括骨干网络、特征网络和预测模块，所述特征网络包括第一模块和第二模块。所述骨干网络对样本图像进行处理，并且输出不同尺寸的N个第一特征。所述特征网络的第一模块基于所述骨干网络输出的尺寸最小的第一特征执行N-1次反卷积，并且输出不同尺寸的N个第二特征。所述特征网络的第二模块对从所述骨干网络输出的N个第一特征执行合并，并且输出不同尺寸的N个第三特征。所述N个第二特征中的每一个被与所述N个第三特征中具有相同尺寸的相应一个组合，以生成不同尺寸的N个第四特征，所述N个第四特征分别被执行不同次数的卷积。所述预测模块基于所述N个第四特征进行预测并且计算第一损失，以及基于卷积后得到的特征进行预测并且计算第二损失。所述装置包括一个或多个处理器，所述处理器被配置为基于所述第一损失与所述第二损失的组合，以优化所述骨干网络、所述特征网络和所述预测模块的配置的方式来训练所述神经网络。

根据本发明的另一个方面，提供了一种存储有程序的存储介质，所述程序在被执行时使得计算机执行用于训练神经网络的方法。其中，所述神经网络用于图像中的对象检测并且包括骨干网络、特征网络和预测模块，所述特征网络包括第一模块和第二模块。所述骨干网络对样本图像进行处理，并且输出不同尺寸的N个第一特征。所述特征网络的第一模块基于所述骨干网络输出的尺寸最小的第一特征执行N-1次反卷积，并且输出不同尺寸的N个第二特征。所述特征网络的第二模块对从所述骨干网络输出的N个第一特征执行合并，并且输出不同尺寸的N个第三特征。所述N个第二特征中的每一个被与所述N个第三特征中具有相同尺寸的相应一个组合，以生成不同尺寸的N个第四特征，所述N个第四特征分别被执行不同次数的卷积。所述预测模块基于所述N个第四特征进行预测并且计算第一损失，以及基于卷积后得到的特征进行预测并且计算第二损失。所述方法包括：基于所述第一损失与所述第二损失的组合，以优化所述骨干网络、所述特征网络和所述预测模块的配置的方式来训练所述神经网络。

附图说明

图1示出了根据本发明的对象检测模型的框架。

图2示意性地示出了骨干网络的框架。

图3示意性地示出了卷积单元。

图4示意性地示出了特征网络和目标预测模块的框架。

图5示意性地示出了由特征网络的第二模块执行的合并。

图6示出了根据本发明的训练对象检测模型的方法的流程图。

图7示出了实现本发明的计算机硬件的示例性配置框图。

具体实施方式

图1示意性地示出了根据本发明的对象检测模型的框架，该对象检测模型由神经网络来实现。如图1所示，对象检测模型包括骨干网络110、特征网络120、以及预测模块130。骨干网络110构成检测模型的基础网络，特征网络120用于提取特征表示，目标预测模块130利用所提取的特征表示进行对象检测。

此外，输入检测模型的图像可以被调整为具有统一的尺寸，例如320×320。预测模块130例如可以由3×3卷积组成，并且其最终输出带有边界框和类别标签的输出图像，边界框指示检测到的对象的位置，类别标签指示该对象所属的类别。

图2示意性地示出了骨干网络的框架。如图2所示，根据本发明的骨干网络例如包括17个层，但本发明不限于此。第一层是主干层，其执行预定步长的卷积，例如，步长为2的3×3卷积。第2-17层中的每一层均是由图3所示的卷积单元组成，但在卷积单元的配置方面第2-17层可以彼此不同。

如图3所示，当前层接收前一层的输出，并且对其执行通道随机混合，然后将通道平均划分为数量相等的两个部分，形成两个分支。在两个分支中执行相同的处理，并且可以并行地执行计算，因此相比于单个分支的卷积层而言能够节省处理时间。在每个分支中，依次执行以下操作：(1)1×1卷积，并且随后对通道数目进行一定倍数的放大，即通道扩张；(2)K×K深度卷积；(3)1×1卷积，并且随后对通道数目进行相同倍数的减小，即通道缩减，从而使通道数目变成操作(1)中的最初数目。最后，将两个分支各自的输出进行联接，以输出至下一层。

图3所示的卷积单元在不同的层中可以具有不同的配置。具体来说，以下中的至少一个是可配置的：通道扩张倍率、深度卷积的核的尺寸、是否执行经处理的通道与未经处理的通道的相加、以及是否添加挤压-激励块(Squeeze-and-Excitation block)。在下文中将挤压-激励块称为SE块。作为一个示例，可以根据先验知识而获得最优的组合。

例如，通道扩张倍率可以是1，3或6，深度卷积的核尺寸可以是3×3或5×5。此外，虽然图3中没有示出，但为了获得更高的精度，可以在某个层或某些层的卷积单元中加入SE块。在此情况下，可以在深度卷积与1×1卷积(通道缩减)之间添加SE块。

此外，如图3所示，在每个分支中，对经历了卷积的通道与未经处理的通道进行相加以产生该分支的输出，如图中标有“直连”的箭头以及表示“相加”的符号所示。然而，这一配置可以改变。例如，在当前层与上一层之间出现通道变化或特征尺寸变化时，不执行这样的相加处理。也就是说，在这种情况下，去除图3中所示的“直连”箭头和“相加”符号，而仅使用经历了卷积的通道作为相应分支的输出。

以下表1示意性地示出了骨干网络的具体参数，其中，“unit”表示图3所示的卷积单元，“Y”表示添加SE块。

[表1]

如图1所示，骨干网络110的输出是特征网络120的输入。由于特征金字塔网络(FPN)能够很好地处理图像中不同大小的对象，因此在本发明中使用FPN作为基本特征结构。为此，本发明基于骨干网络110的各个层(第1-17层)的输出来生成第一特征，该第一特征将作为骨干网络110的输出而被输入至特征网络120。

以下将结合一个示例来描述第一特征的生成。在该示例中，选择骨干网络110的第5、12、17层输出的特征，将这些特征定义为{f1，f2，f3}。特征f1，f2，f3具有不同的尺寸，例如分别为40×40、20×20、10×10，其中特征f3的尺寸最小。然后，对特征f3分别应用步长为2和4的最大池化操作，从而获得尺寸更小的另外两个特征f4和f5。所得到的五个不同尺寸的特征{f1，f2，f3，f4，f5}构成第一特征，并被输入至特征网络120。需要说明的是，本发明并不限于这个示例，采用其它方式生成第一特征也是可能的，例如，可以选择除了第5、12、17层之外的其它层输出的特征，或者可以改变第一特征中所包括的特征的数量等等。

图4示意性地示出了特征网络和目标预测模块的框架。如图4所示，特征网络包括第一模块410和第二模块420，并且接收来自骨干网络的第一特征F1。第一特征F1中包括不同尺寸的N个(图中示意性地示为5个)特征。

第一模块410基于第一特征F1中的尺寸最小的特征f5来执行N-1次(4次)反卷积，以生成一组新的特征(表示为第二特征F2)。具体来说，首先对于特征f5执行第一次反卷积，然后对于第一次反卷积操作后得到的特征执行第二次反卷积，以此方式，共执行N-1次反卷积。例如，所生成的第二特征F2中包括特征f5以及通过四次反卷积生成的四个特征。

第二模块420对第一特征F1中包含的多个特征执行合并，以生成一组新的特征(表示为第三特征F3)。图5示意性地示出了执行合并的方法。如图5所示，执行对第i+1个特征和第i个特征的合并，其中i＝1,2,…,N-1，并且第i+1个特征的尺寸小于第i个特征的尺寸。首先，对第i+1个特征执行包括双线性插值和卷积的处理。双线性插值用于对第i+1个特征进行上采样，以将其尺寸改变为与第i个特征相同。卷积用于实现这两个特征的通道的归一化。然后，将第i个特征与经处理的第i+1个特征进行合并，以获得新的第i个特征。然后，对于所获得的新的第i个特征与原始的第i-1个特征执行图5所示的合并，从而获得新的第i-1个特征。

通过上述方式可以生成N-1个新的特征。然后，第二模块420对这些新特征当中尺寸最小的第N-1个新特征执行最大池化，以得到第N个新特征。该第N个新特征的尺寸小于第N-1个新特征的尺寸。至此，已经生成了N个新特征，它们构成第二模块420的输出，即，第三特征F3。

第一模块410和第二模块420可以并行地执行处理，以提高效率。随后，将第一模块410输出的第二特征F2和第二模块420输出的第三特征F3进行联接，从而获得增强的多尺度特征，即第四特征F4。更具体地，将第二特征F2中包括的每一个特征与第三特征F3中具有相同尺寸的特征进行联接，从而生成包括N个特征的第四特征F4。

图4中示意性地示出了包括五个特征{p1、p2、p3、p4、p5}的第四特征F4。预测模块130基于第四特征F4进行预测，并且计算第一损失，由于这对于本领域技术人员而言是已知的，因此本文不再详细描述这一处理。

另一方面，对第四特征F4中包含的特征p1、p2、p3、p4、p5分别进行不同次数的卷积计算(例如，3×3卷积)，预测模块130基于卷积后得到的特征进行预测，并且计算第二损失。更具体地，随着特征的尺寸的增大，对其执行的卷积次数减少。在这方面，图4示意性地示出了对尺寸最大的特征p1不进行卷积，对于尺寸逐渐减小的特征p2－p5分别进行一次至四次卷积。需要说明的是，本发明不限于图4所示的示例。

由于对于尺度较大的特征执行卷积将产生较大的计算量，从而导致效率降低，因此在本发明中对于较大尺寸的特征执行较少次数的卷积计算，而对于较小尺寸的特征执行较多次数的卷积计算，从而能够实现准确率和效率之间的良好平衡。

所获得的第一损失和第二损失将用于图1所示的对象检测模型的训练。具体来说，预测模块130例如使用3×3卷积分别计算回归表示和分类表示。在模型评价方面，例如可以采用回归损失法和焦点损失法。回归损失(RLOSS)表示关于检测边界框的损失，焦点损失(FLOSS)表示关于类别标签的损失。需要说明的是，焦点损失是分类损失中的一种类型，本文中虽然着重描述了焦点损失，但在本发明中也可以应用其它分类损失。

第一损失包括回归损失RLOSS₁和焦点损失FLOSS₁，第二损失包括回归损失RLOSS₂和焦点损失FLOSS₂。因此，在对检测模型m的训练中，可以使用以下数学式(1)所表示的损失函数：

LOSS(m)＝FLOSS₁(m)+RLOSS₁(m)+FLOSS₂(m)+RLOSS₂(m)--(1)

通过使损失函数LOSS(m)最小化，可以优化包括骨干网络110、特征网络120和预测模块130的检测模型的配置参数，从而获得良好的检测精度。

图6示出了根据本发明的训练对象检测模型的方法的流程图。如图6所示，在步骤S610由骨干网络110对输入的图像进行处理，以生成并且输出第一特征F1。第一特征F1包括不同尺寸的N个特征，如上文所述的{f1，f2，f3，f4，f5}。

在步骤S620，由特征网络120的第一模块410基于骨干网络110输出的第一特征F1中尺寸最小的特征(如特征f5)执行N-1次反卷积，以生成第二特征F2。第二特征F2包括该尺寸最小的特征以及每次执行反卷积后得到的特征。

在步骤S630，由特征网络120的第二模块420对骨干网络110输出的第一特征F1中的N个特征执行合并，以生成第三特征F3。合并的方式如上文参照图5所描述的。

在步骤S640，按照尺寸级别将第二特征F2与第三特征F3进行组合，以生成第四特征F4。第四特征F4包括不同尺寸的N个特征，如上文所述的{p1，p2，p3，p4，p5}。

在步骤S650，对第四特征F4中的各个特征分别执行不同次数的卷积。特别地，随着特征的尺寸的增大，对其执行的卷积次数减少。

在步骤S660，预测模块130基于未经卷积的第四特征F4进行预测，并且计算第一损失。此外，预测模块130还基于经过卷积后得到的特征进行预测，并且计算第二损失。

在步骤S670，基于上述数学式(1)所示的损失函数来训练对象检测模型，以优化骨干网络110、特征网络120和预测模块130的配置。

以上已经结合具体实施例描述了本发明提出的端到端的对象检测模型及其训练方法。与现有模型相比，根据本发明的检测模型具有以下优点：

-其是专门针对小型平台上的检测任务而设计的模型；

-在模型的体系结构的设计中充分考虑了设备的并行处理能力，使数据流能够同时被处理；

-在骨干网络的每个层(除主干层之外)中，灵活地配置卷积核大小和通道数目。相比于每层都使用固定卷积核大小和固定通道数目的模型而言，能够获得更高的精度；

-能够实现精度和效率之间的良好平衡。

在上述实施例中描述的方法可以由软件、硬件或者软件和硬件的组合来实现。包括在软件中的程序可以事先存储在设备的内部或外部所设置的存储介质中。作为一个示例，在执行期间，这些程序被写入随机存取存储器(RAM)并且由处理器(例如CPU)来执行，从而实现在本文中描述的各种方法和处理。

图7示出了根据程序执行本发明的方法的计算机硬件的示例配置框图，该计算机硬件是根据本发明的用于训练检测模型的装置的一个示例。此外，根据本发明的检测模型中的骨干网络、特征网络和预测模块也可以利用该计算机硬件来实现。

如图7所示，在计算机700中，中央处理单元(CPU)701、只读存储器(ROM)702以及随机存取存储器(RAM)703通过总线704彼此连接。

输入/输出接口705进一步与总线704连接。输入/输出接口705连接有以下组件：以键盘、鼠标、麦克风等形成的输入单元706；以显示器、扬声器等形成的输出单元707；以硬盘、非易失性存储器等形成的存储单元708；以网络接口卡(诸如局域网(LAN)卡、调制解调器等)形成的通信单元709；以及驱动移动介质711的驱动器710，该移动介质711例如是磁盘、光盘、磁光盘或半导体存储器。

在具有上述结构的计算机中，CPU 701将存储在存储单元708中的程序经由输入/输出接口705和总线704加载到RAM 703中，并且执行该程序，以便执行上文中描述的方法。

要由计算机(CPU 701)执行的程序可以被记录在作为封装介质的移动介质711上，该封装介质以例如磁盘(包括软盘)、光盘(包括压缩光盘-只读存储器(CD-ROM))、数字多功能光盘(DVD)等)、磁光盘、或半导体存储器来形成。此外，要由计算机(CPU 701)执行的程序也可以经由诸如局域网、因特网、或数字卫星广播的有线或无线传输介质来提供。

当移动介质711安装在驱动器710中时，可以将程序经由输入/输出接口705安装在存储单元708中。另外，可以经由有线或无线传输介质由通信单元709来接收程序，并且将程序安装在存储单元708中。可替选地，可以将程序预先安装在ROM 702或存储单元708中。

由计算机执行的程序可以是根据本说明书中描述的顺序来执行处理的程序，或者可以是并行地执行处理或当需要时(诸如，当调用时)执行处理的程序。

本文中所描述的单元或装置仅是逻辑意义上的，并不严格对应于物理设备或实体。例如，本文所描述的每个单元的功能可能由多个物理实体来实现，或者，本文所描述的多个单元的功能可能由单个物理实体来实现。此外，在一个实施例中描述的特征、部件、元素、步骤等并不局限于该实施例，而是也可以应用于其它实施例，例如替代其它实施例中的特定特征、部件、元素、步骤等，或者与其相结合。

本发明的范围不限于在本文中描述的具体实施例。本领域普通技术人员应该理解的是，取决于设计要求和其他因素，在不偏离本发明的原理和精神的情况下，可以对本文中的实施例进行各种修改或变化。本发明的范围由所附权利要求及其等同方案来限定。

附记：

1.一种训练神经网络的方法，其中，所述神经网络用于图像中的对象检测并且包括骨干网络、特征网络和预测模块，所述特征网络包括第一模块和第二模块，所述方法包括：

所述骨干网络对样本图像进行处理，并且输出不同尺寸的N个第一特征；

所述特征网络的第一模块基于所述骨干网络输出的尺寸最小的第一特征执行N-1次反卷积，并且输出不同尺寸的N个第二特征；

所述特征网络的第二模块对从所述骨干网络输出的N个第一特征执行合并，并且输出不同尺寸的N个第三特征；

通过将所述N个第二特征中的每一个与所述N个第三特征中具有相同尺寸的相应一个进行组合来生成不同尺寸的N个第四特征，并且对所述N个第四特征分别执行不同次数的卷积；

所述预测模块基于所述N个第四特征进行预测，并且计算第一损失；

所述预测模块基于卷积后得到的特征进行预测，并且计算第二损失；

基于所述第一损失与所述第二损失的组合，以优化所述骨干网络、所述特征网络和所述预测模块的配置的方式来训练所述神经网络。

2.根据1所述的方法，其中，由所述特征网络的第一模块输出的N个第二特征包括所述尺寸最小的第一特征，以及每次执行反卷积后得到的特征。

3.根据1所述的方法，还包括：所述特征网络的第二模块对第i+1个第一特征执行包括双线性插值和卷积的处理，并且将第i个第一特征与经处理的第i+1个第一特征进行合并，其中i＝1,2,…,N-1。

4.根据1所述的方法，还包括：

所述特征网络的第二模块对第i+1个第一特征执行包括双线性插值和卷积的处理，并且将第i个第一特征与经处理的第i+1个第一特征进行合并，以得到第i个第三特征，其中i＝1,2,…,N-1；以及

所述第二模块对第N-1个第三特征执行最大池化，以得到第N个第三特征。

5.根据1所述的方法，其中，随着所述第四特征的尺寸增大，对其执行的卷积次数减少。

6.根据1所述的方法，其中，所述第一损失和所述第二损失中每一个均包括回归损失和分类损失。

7.根据1所述的方法，其中，所述骨干网络包括多个层，并且每个层的通道被划分为数量相等的两个部分，

所述方法还包括：对所述两个部分中的每一部分的通道执行包括卷积、通道扩张和通道缩减的处理，并且将所述两个部分的经处理的通道进行组合，以输入至下一层。

8.根据7所述的方法，还包括：

针对每个层的每一部分的通道，将经处理的通道与未经处理的通道进行相加，以获得所述部分的输出，以及

将所述两个部分的输出进行组合，以输入至所述下一层。

9.根据8所述的方法，其中，对所述两个部分中的每一部分的通道执行的处理还包括添加压缩-激励(SE)块。

10.根据9所述的方法，其中，针对所述骨干网络的每一层，以下中的至少一个是可配置的：通道扩张倍率、卷积核尺寸、是否执行经处理的通道与未经处理的通道的相加、以及是否添加SE块。

11.根据7所述的方法，所述方法还包括：

由所述骨干网络的多个层生成不同尺寸的多个特征；

选择所述多个特征中的子集，并且确定所述子集中尺寸最小的特定特征；

通过对所述特定特征进行处理，生成尺寸小于所述特定特征的一个或多个特征；

由所述子集中的特征以及尺寸小于所述特定特征的所述一个或多个特征构成所述骨干网络输出的N个第一特征。

12.一种用于图像中的对象检测的神经网络，所述神经网络包括：

骨干网络，所述骨干网络对样本图像进行处理，并且输出不同尺寸的N个第一特征；

特征网络，所述特征网络包括第一模块和第二模块，所述第一模块基于所述骨干网络输出的尺寸最小的第一特征执行N-1次反卷积，并且输出不同尺寸的N个第二特征，所述第二模块对从所述骨干网络输出的N个第一特征执行合并，并且输出不同尺寸的N个第三特征，其中，所述N个第二特征中的每一个被与所述N个第三特征中具有相同尺寸的相应一个组合，以生成不同尺寸的N个第四特征，所述N个第四特征分别被执行不同次数的卷积；以及

预测模块，所述预测模块基于所述N个第四特征进行预测并且计算第一损失，以及基于卷积后得到的特征进行预测并且计算第二损失，

其中，所述神经网络被基于所述第一损失与所述第二损失的组合来训练。

13.一种训练神经网络的装置，其中，所述神经网络用于图像中的对象检测，并且包括骨干网络、特征网络和预测模块，所述特征网络包括第一模块和第二模块；所述骨干网络对样本图像进行处理，并且输出不同尺寸的N个第一特征；所述特征网络的第一模块基于所述骨干网络输出的尺寸最小的第一特征执行N-1次反卷积，并且输出不同尺寸的N个第二特征；所述特征网络的第二模块对从所述骨干网络输出的N个第一特征执行合并，并且输出不同尺寸的N个第三特征；所述N个第二特征中的每一个被与所述N个第三特征中具有相同尺寸的相应一个组合，以生成不同尺寸的N个第四特征，所述N个第四特征分别被执行不同次数的卷积；所述预测模块基于所述N个第四特征进行预测并且计算第一损失，以及基于卷积后得到的特征进行预测并且计算第二损失，

所述装置包括一个或多个处理器，所述处理器被配置为基于所述第一损失与所述第二损失的组合，以优化所述骨干网络、所述特征网络和所述预测模块的配置的方式来训练所述神经网络。

14.一种存储有程序的存储介质，所述程序在被执行时使得计算机执行用于训练神经网络的方法，

其中，所述神经网络用于图像中的对象检测，并且包括骨干网络、特征网络和预测模块，所述特征网络包括第一模块和第二模块；所述骨干网络对样本图像进行处理，并且输出不同尺寸的N个第一特征；所述特征网络的第一模块基于所述骨干网络输出的尺寸最小的第一特征执行N-1次反卷积，并且输出不同尺寸的N个第二特征；所述特征网络的第二模块对从所述骨干网络输出的N个第一特征执行合并，并且输出不同尺寸的N个第三特征；所述N个第二特征中的每一个被与所述N个第三特征中具有相同尺寸的相应一个组合，以生成不同尺寸的N个第四特征，所述N个第四特征分别被执行不同次数的卷积；所述预测模块基于所述N个第四特征进行预测并且计算第一损失，以及基于卷积后得到的特征进行预测并且计算第二损失，

其中，所述方法包括：基于所述第一损失与所述第二损失的组合，以优化所述骨干网络、所述特征网络和所述预测模块的配置的方式来训练所述神经网络。

Claims

2.根据权利要求1所述的方法，其中，由所述特征网络的第一模块输出的N个第二特征包括所述尺寸最小的第一特征，以及每次执行反卷积后得到的特征。

3.根据权利要求1所述的方法，还包括：所述特征网络的第二模块对第i+1个第一特征执行包括双线性插值和卷积的处理，并且将第i个第一特征与经处理的第i+1个第一特征进行合并，其中i＝1,2,…,N-1。

4.根据权利要求1所述的方法，其中，随着所述第四特征的尺寸增大，对其执行的卷积次数减少。

5.根据权利要求1所述的方法，其中，所述第一损失和所述第二损失中每一个均包括回归损失和分类损失。

6.根据权利要求1所述的方法，其中，所述骨干网络包括多个层，并且每个层的通道被划分为数量相等的两个部分，

7.根据权利要求6所述的方法，还包括：

将所述两个部分的输出进行组合，以输入至所述下一层。

8.根据权利要求7所述的方法，其中，对所述两个部分中的每一部分的通道执行的处理还包括添加挤压-激励块。

9.根据权利要求8所述的方法，其中，针对所述骨干网络的每一层，以下中的至少一个是可配置的：通道扩张倍率、卷积核尺寸、是否执行经处理的通道与未经处理的通道的相加、以及是否添加挤压-激励块。

10.根据权利要求6所述的方法，所述方法还包括：

由所述骨干网络的多个层生成不同尺寸的多个特征；