CN111950633A

CN111950633A - 神经网络的训练、目标检测方法及装置和存储介质

Info

Publication number: CN111950633A
Application number: CN202010808762.XA
Authority: CN
Inventors: 卢欣; 李全全
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-17

Abstract

本公开提供了一种神经网络的训练、目标检测方法及装置和存储介质，其中，所述方法包括：确定样本图像的多张特征图；其中，所述多张特征图对应不同的分辨率；通过所述神经网络的第一分支，对所述多张特征图中对应第一分辨率的第一特征图组进行两阶段目标检测，获得第一检测结果；通过所述神经网络的第二分支，对所述多张特征图中对应第二分辨率的第二特征图组进行单阶段目标检测，获得第二检测结果；其中，所述第二分辨率小于或等于所述第一分辨率；基于所述第一检测结果对所述第二检测结果进行监督，至少对所述第二分支进行训练。

Description

神经网络的训练、目标检测方法及装置和存储介质

技术领域

本公开涉及深度学习领域，尤其涉及一种神经网络的训练、目标检测方法及装置和存储介质。

背景技术

近年来，随着深度学习和人工智能技术的发展，计算机视觉在越来越多的领域有着广泛的应用。其中，目标检测是计算机视觉中最重要的任务之一，也是物体检测、人脸识别等应用中的关键技术。

当前的目标检测方式主要分为单阶段目标检测方式和两阶段目标检测方式，其中，单阶段目标检测方式的速度更快，两阶段目标检测方式的精度更高。

发明内容

本公开提供了一种神经网络的训练、目标检测方法及装置和存储介质。

根据本公开实施例的第一方面，提供一种神经网络的训练方法，所述方法包括：确定样本图像的多张特征图；其中，所述多张特征图对应不同的分辨率；通过所述神经网络的第一分支，对所述多张特征图中对应第一分辨率的第一特征图组进行两阶段目标检测，获得第一检测结果；通过所述神经网络的第二分支，对所述多张特征图中对应第二分辨率的第二特征图组进行单阶段目标检测，获得第二检测结果；其中，所述第二分辨率小于或等于所述第一分辨率；基于所述第一检测结果对所述第二检测结果进行监督，至少对所述第二分支进行训练。

在一些可选实施例中，所述方法还包括：在所述第二特征图组中，确定与至少一个目标的所在区域相对应的偏移向量；所述通过所述神经网络的第一分支，对所述多张特征图中对应第一分辨率的第一特征图组进行两阶段目标检测，获得第一检测结果，包括：通过所述第一分支，根据所述偏移向量，对所述第一特征图组进行两阶段目标检测，获得第一检测结果；所述通过所述神经网络的第二分支，对所述多张特征图中对应第二分辨率的第二特征图组进行单阶段目标检测，获得第二检测结果，包括：通过所述第二分支，根据所述偏移向量，对所述第二特征图组进行单阶段目标检测，获得所述第二检测结果。

在一些可选实施例中，所述通过所述第一分支，根据所述偏移向量，对所述第一特征图组进行两阶段目标检测，获得第一检测结果，包括：通过所述第一分支，根据所述偏移向量，在所述第一特征图组中，确定所述至少一个目标的所在区域；在所述第一特征图组中，获取所述至少一个目标的所在区域的特征信息；对所述至少一个目标的所在区域的特征信息分别进行分类处理和回归处理，将得到的第一分类特征信息和第一回归特征信息作为所述第一检测结果。

在一些可选实施例中，所述通过所述第二分支，根据所述偏移向量，对所述第二特征图组进行单阶段目标检测，获得所述第二检测结果，包括：通过所述第二分支中的目标卷积层，根据所述偏移向量，确定所述第二特征图组上多个区域对应的卷积偏移量；在所述第二特征图组上，根据所述多个区域对应的卷积偏移量，提取所述多个区域的特征信息；对所述第二特征图组上的所述多个区域的特征信息分别进行分类处理和回归处理，将得到的第二分类特征信息和第二回归特征信息作为所述第二检测结果。

在一些可选实施例中，所述目标卷积层为可变形卷积层。

在一些可选实施例中，所述基于所述第一检测结果对所述第二检测结果进行监督，至少对所述第二分支进行训练，包括：基于所述第一检测结果，采用知识蒸馏的方式对所述第二检测结果进行监督，确定第一损失函数；根据所述第一损失函数，至少对所述第二分支进行训练。

在一些可选实施例中，所述基于所述第一检测结果，采用知识蒸馏的方式对所述第二检测结果进行监督，确定第一损失函数，包括：确定所述第二检测结果与所述第一检测结果的相似度；根据所述样本图像的图像数目和所述相似度，确定所述第一损失函数。

在一些可选实施例中，所述方法还包括：根据所述偏移向量、所述第一检测结果和所述第二检测结果中的至少一项，确定至少一个第二损失函数；根据所述第一损失函数和所述至少一个所述第二损失函数，确定目标损失函数，对所述神经网络进行训练。

根据本公开实施例的第二方面，提供一种目标检测方法，包括：将待检测图像输入用于目标检测的神经网络，获得所述神经网络的第二分支输出的检测结果，其中，所述第二分支通过对所述待检测图像进行单阶段目标检测得到所述检测结果；其中，所述神经网络是采用第一方面任一项所述的方法训练得到的。

根据本公开实施例的第三方面，提供一种神经网络的训练装置，包括：特征图确定模块，用于确定样本图像的多张特征图；其中，所述多张特征图对应不同的分辨率；第一检测模块，用于通过所述神经网络的第一分支，对所述多张特征图中对应第一分辨率的第一特征图组进行两阶段目标检测，获得第一检测结果；第二检测模块，用于通过所述神经网络的第二分支，对所述多张特征图中对应第二分辨率的第二特征图组进行单阶段目标检测，获得第二检测结果；其中，所述第二分辨率小于或等于所述第一分辨率；第一训练模块，用于基于所述第一检测结果对所述第二检测结果进行监督，至少对所述第二分支进行训练。

在一些可选实施例中，所述装置还包括：偏移向量确定模块，用于在所述第二特征图组中，确定与至少一个目标的所在区域相对应的偏移向量；所述第一检测模块包括：第一检测子模块，用于通过所述第一分支，根据所述偏移向量，对所述第一特征图组进行两阶段目标检测，获得第一检测结果；所述第二检测模块包括：第二检测子模块，用于通过所述第二分支，根据所述偏移向量，对所述第二特征图组进行单阶段目标检测，获得所述第二检测结果。

在一些可选实施例中，所述第一检测子模块用于通过所述第一分支，根据所述偏移向量，在所述第一特征图组中，确定所述至少一个目标的所在区域；在所述第一特征图组中，获取所述至少一个目标的所在区域的特征信息；对所述至少一个目标的所在区域的特征信息分别进行分类处理和回归处理，将得到的第一分类特征信息和第一回归特征信息作为所述第一检测结果。

在一些可选实施例中，所述第二检测子模块用于通过所述第二分支中的目标卷积层，根据所述偏移向量，确定所述第二特征图组上多个区域对应的卷积偏移量；在所述第二特征图组上，根据所述多个区域对应的卷积偏移量，提取所述多个区域的特征信息；对所述第二特征图组上的所述多个区域的特征信息分别进行分类处理和回归处理，将得到的第二分类特征信息和第二回归特征信息作为所述第二检测结果。

在一些可选实施例中，所述目标卷积层为可变形卷积层。

在一些可选实施例中，所述第一训练模块包括：损失函数确定子模块，用于基于所述第一检测结果，采用知识蒸馏的方式对所述第二检测结果进行监督，确定第一损失函数；训练子模块，用于根据所述第一损失函数，至少对所述第二分支进行训练。

在一些可选实施例中，所述损失函数确定子模块用于确定所述第二检测结果与所述第一检测结果的相似度；根据所述样本图像的图像数目和所述相似度，确定所述第一损失函数。

在一些可选实施例中，所述装置还包括：损失函数确定模块，用于根据所述偏移向量、所述第一检测结果和所述第二检测结果中的至少一项，确定至少一个第二损失函数；第二训练模块，用于根据所述第一损失函数和所述至少一个所述第二损失函数，确定目标损失函数，对所述神经网络进行训练。

根据本公开实施例的第四方面，提供一种目标检测装置，所述装置包括：目标检测模块，用于将待检测图像输入用于目标检测的神经网络，获得所述神经网络的第二分支输出的检测结果，其中，所述第二分支通过对所述待检测图像进行单阶段目标检测得到所述检测结果；其中，所述神经网络是采用第一方面任一项所述的方法训练得到的。

根据本公开实施例的第五方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面任一所述的神经网络的训练方法或用于执行第二方面所述的目标检测方法。

根据本公开实施例的第六方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现第一方面中任一项所述的神经网络的训练方法或实现第二方面所述的目标检测方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，可以先确定样本图像对应的不同分辨率的多张特征图，进而通过神经网络的第一分支，针对分辨率较高的第一特征图组进行两阶段目标检测，通过神经网络的第二分支，针对分辨率较低的第二特征图组进行单阶段目标检测。从而根据两阶段目标检测的第一检测结果对单阶段目标检测的第二检测结果进行监督，至少对神经网络的第二分支进行训练，使得训练好的神经网络在采用第二分支的单阶段目标检测方式进行目标检测时，推理效率更快，精度更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开根据一示例性实施例示出的一种用于神经网络的训练方法流程图；

图2是本公开根据一示例性实施例示出的另一种用于神经网络的训练方法流程图；

图3是本公开根据一示例性实施例示出的另一种用于神经网络的训练方法流程图；

图4是本公开根据一示例性实施例示出的另一种用于神经网络的训练方法流程图；

图5是本公开根据一示例性实施例示出的另一种用于神经网络的训练方法流程图；

图6是本公开根据一示例性实施例示出的另一种用于神经网络的训练方法流程图；

图7是本公开根据一示例性实施例示出的另一种用于神经网络的训练方法流程图；

图8是本公开根据一示例性实施例示出的一种神经网络的网络结构示意图；

图9A是本公开根据一示例性实施例示出的T-head模块的结构示意图；

图9B是本公开根据一示例性实施例示出的S-head模块的结构示意图；

图10是本公开根据一示例性实施例示出的一种用于目标检测的神经网络的网络结构示意图；

图11是本公开根据一示例性实施例示出的一种用于神经网络的训练装置框图；

图12是本公开根据一示例性实施例示出的一种目标检测装置框图；

图13是本公开根据一示例性实施例示出的一种电子设备的一结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开运行的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在介绍本公开实施例提供的方案之前，先介绍一下单阶段目标检测方式和两阶段目标检测方式。其中，单阶段目标检测方式是指将原始图像作为输入，通过一个完整的神经网络可以直接得到对原始图像进行目标检测的结果。两阶段目标检测方式是指将原始图像作为输入，需要先在原始图像上确定至少一个目标可能的所在区域，然后根据这些目标可能的所在区域的空间位置获取其特征信息，并输入到区域神经网络(Region NeuralNetwork，RNN)以计算这些区域的目标检测结果。

可以看出，采用单阶段目标检测方式，相应的神经网络的结构较为简单，检测速度也较快，采用两阶段目标检测方式，对应的神经网络的网络结构较为复杂，检测速度虽然没有单阶段目标检测方式快，但是检测精度有明显提高。

目前在许多实际应用场景中，由于对设备算力和推理速度有较高的要求，使得单阶段检测方式的应用更加广泛。但是单阶段目标检测方式相比于两阶段目标检测方式而言，存在检测类别不平衡、回归次数少、没有明确的特征位置对齐操作等问题。

目前，针对上述问题进行改进时，都是针对单阶段目标检测的神经网络的结构和推理过程上进行的改进，检测精度仍然与两阶段目标检测有较大的差距。

为了解决这一问题，本公开实施例提供了一种神经网络的训练、目标检测方法及装置、存储介质，在训练过程中基于两阶段目标检测的第一检测结果对单阶段目标检测的第二检测结果进行监督，对与单阶段目标检测的第二分支进行训练。在推断过程可以采用第二分支的单阶段目标检测，从而在确保目标检测的推理效率的同时，提高目标检测的精度。

例如图1所示，图1是根据一示例性实施例示出的一种神经网络的训练方法，包括以下步骤：

在步骤101中，确定样本图像的多张特征图。

在本公开实施例中，可以采用标注了目标的所在区域和目标的分类类型信息的图像集合作为样本图像集合，样本图像集合中的至少一张图像作为样本图像。其中，样本图上目标的所在区域可以采用边界框的方式进行标识，目标的分类类型包括但不限于人物、动物、车辆、建筑物等。

在本公开实施例中，针对每张样本图像，可以采用但不限于特征金字塔网络(Feature Pyramid Network，FPN)的方式，得到该样本图像对应的多张特征图，其中，多张特征图对应不同的分辨率。

在步骤102中，通过所述神经网络的第一分支，对所述多张特征图中对应第一分辨率的第一特征图组进行两阶段目标检测，获得第一检测结果。

在本公开实施例中，可以针对多张特征图中分辨率较高的第一特征图组，通过第一分支进行两阶段目标检测，先确定第一特征图组中至少一个目标可能的所在区域，进一步地，根据针对至少一个目标可能的所在区域的特征信息，分别进行分类处理和回归处理，得到第一检测结果。

在步骤103中，通过所述神经网络的第二分支，对所述多张特征图中对应第二分辨率的第二特征图组进行单阶段目标检测，获得第二检测结果。

在本公开实施例中，第二分辨率小于或等于第一分辨率，即可以采用分辨率较低的第二特征图组，通过第二分支进行单阶段目标检测，在第二特征图组上，对多个区域的特征信息进行分类处理和回归处理，得到第二检测结果。在一个示例中，所述多个区域包括所述第二特征图组上每张特征图的部分或全部区域。

在步骤104中，基于所述第一检测结果对所述第二检测结果进行监督，至少对所述第二分支进行训练。

上述实施例中，可以先确定样本图像对应的不同分辨率的多张特征图，进而通过神经网络的第一分支，针对分辨率较高的第一特征图组进行两阶段目标检测，通过神经网络的第二分支，针对分辨率较低的第二特征图组进行单阶段目标检测。从而根据两阶段目标检测的第一检测结果对单阶段目标检测的第二检测结果进行监督，通过神经网络的第二分支，训练，使得训练好的神经网络在采用第二分支的单阶段目标检测方式进行目标检测时，推理效率更快，精度更高。

在一可选实施例中，例如图2所示，上述方法还可以包括：

在步骤105中，在所述第二特征图组中，确定与至少一个目标的所在区域相对应的偏移向量。

在本公开实施例中，根据第二特征图组的特征信息，已经确定了至少一个目标可能的所在区域。通过至少一个卷积层，可以确定第二特征图组上至少一个目标可能的所在区域，相对于样本图像上标注的至少一个目标的所在区域的偏移向量。其中，至少一个卷积层可以采用但不限于1×1卷积层。

相应地，步骤102可以包括：

通过所述第一分支，根据所述偏移向量，对所述第一特征图组进行两阶段目标检测，获得第一检测结果。

在上述实施例中，在进行两阶段目标检测时，可以结合偏移向量，确定至少一个目标的所在区域，这样确定出的至少一个目标的所在区域更加准确，后续再结合至少一个目标的所在区域的特征信息，进行目标检测，提高了第一检测结果的准确性。

同样地，步骤103可以包括：

通过所述第一分支，根据所述偏移向量，对所述第二特征图组进行单阶段目标检测，获得所述第二检测结果。

上述实施例中，可以根据偏移向量，在第二特征图组中，确定多个区域对应的卷积偏移量，进而根据所述多个区域对应的卷积偏移量，提取多个区域对应的特征信息，提高了第二检测结果的准确性，可用性高。

在一可选实施例中，例如图3所示，步骤102可以包括：

在步骤102-1中，通过所述第一分支，根据所述偏移向量，在所述第一特征图组中确定所述至少一个目标的所在区域。

在本公开实施例中，第一分支可以在第一特征图组中，采用区域预测网络(RegionProposal Network，RPN)方式，确定至少一个目标可能的所在区域，进一步地，结合偏移向量，对可能的所在区域进行校正，从而在第一特征图组中，确定位置校正后的至少一个目标的所在区域。

在步骤102-2中，在所述第一特征图组中，获取所述至少一个目标的所在区域的特征信息。

在本公开实施例中，在第一特征图组中，确定了至少一个目标的所在区域后，可以获取这些目标的所在区域的特征信息。

在步骤102-3中，对所述至少一个目标的所在区域的特征信息分别进行分类处理和回归处理，将得到的第一分类特征信息和第一回归特征信息作为所述第一检测结果。

在本公开实施例中，可以采用两个单独的分支，分别对至少一个目标的所在区域的特征信息进行分类处理和回归处理。

其中，分类处理分支可以包括但不限于依次连接的两个1024维的全连接(Fullyconnected，FC)层、一个用于输出对应每个类别分类特征的FC层(在本公开实施例中，可以采用81维的FC层)和一个归一化(softmax)层，该分类处理分组的输出结果就是第一分类特征信息。第一分类特征信息可以表示对样本图像中至少一个目标与预设分类类型相对应的概率值，例如预设分类类型包括N类，第一分类特征信息中包括了样本图像上的至少一个目标分别属于这N个分类的概率值。

回归处理分支可以采用但不限于四个连续的3×3的卷积层，一个1024维的FC层和一个4维的FC层，从而得到第一回归特征信息。第一回归特征信息表示样本图像上至少一个目标在不同维度上的位置回归特征。其中，不同维度包括但不限于横向、纵行、伸展、偏移等位置维度。

上述实施例中，可以结合偏移向量，通过第一分支对第一特征图组进行两阶段目标检测，得到第一分类特征信息和第一回归特征信息，以便后续根据第一分类特征信息和第一回归特征信息对第二检测结果进行监督，可用性高。

在一可选实施例中，例如图4所示，步骤103可以包括：

在步骤103-1中，通过所述第二分支中的目标卷积层，根据所述偏移向量，确定所述第二特征图组上所述多个区域对应的卷积偏移量。

在本公开实施例中，由于区域预测网络确定了多个区域的偏移向量，因此，可以根据此通过该目标卷积层构成的一个小型神经网络计算第二特征图组上多个区域对应的卷积偏移量。

在步骤103-2中，在所述第二特征图组上，根据所述多个区域对应的卷积偏移量，提取所述多个区域的特征信息。

其中，为了确保神经网络的速度和精度，第二分支中所包括的目标卷积层可以采用可变形卷积层，包括但不限于3×3或5×5的卷积层。例如，在算力允许的情况下，可以采用5×5的卷积层，如果为了减少计算量，可以将5×5的卷积层替换为3×3的卷积层。

在本公开实施例中，根据该卷积偏移量，可以对第二特征图组上多个区域进行位置偏移，从而提取更准确的特征信息。

在步骤103-3中，对所述第二特征图组上的所述多个区域的特征信息分别进行分类处理和回归处理，将得到的第二分类特征信息和第二回归特征信息作为所述第二检测结果。

在本公开实施例中，同样可以采用分类处理分支和回归处理分支，对第二特征图组上的多个区域的特征信息分别进行分类处理和回归处理。

其中，此时的分类处理分支可以包括但不限于两个顺序连接的1×1的卷积层。此时的回归处理分支同样可以包括但不限于两个顺序连接的1×1的卷积层。通过上述两个分支，分别得到第二分类特征信息和第二回归特征信息，将其作为第二检测结果。

上述实施例中，可以结合偏移向量，通过第二分支对第二特征图组进行单阶段目标检测，得到第二分类特征信息和第二回归特征信息，提高了第二检测结果的准确性，进而可以提高了训练完成的神经网络进行目标检测的准确性。

在一可选实施例中，例如图5所示，针对上述步骤104，可以包括：

在步骤104-1中，基于所述第一检测结果，采用知识蒸馏的方式对所述第二检测结果进行监督，确定第一损失函数。

在本公开实施例中，知识蒸馏是指通过迁移知识，根据训练好的大模型得到更加适合推理的小模型。其中，知识蒸馏一般用于结构相同的大模型和小模型上。

在本公开实施例中，两阶段目标检测得到的第一检测结果包括至少一个目标的所在区域的第一回归特征信息和第一分类特征信息，而第二检测结果则是在第二特征图组上对多个区域的第二回归特征信息和第二分类特征信息进行标识。由于知识蒸馏一般用于结构相同的两个模型，而单阶段检测和两阶段检测的结构是不同的，因此为了可以基于第一检测结果对第二检测结果进行监督训练，可以在得到第二检测结果后，从第二特征图组上，根据位置对应关系，针对每个第一回归特征信息和分类特征信息，提取出相对应的第二回归特征信息和第二分类特征信息。从而根据第二检测结果与第一检测结果，确定第一损失函数，后续根据第一损失函数，进行监督训练。

在步骤104-2中，根据所述第一损失函数，至少对所述第二分支进行训练。

在本公开实施例中，可以调整第二分支所包括的网络参数，使得第一损失函数最小，实现对第二分支进行训练的目的。

在上述实施例中，针对两阶段目标检测和单阶段目标检测对应的网络结构不同的情况，实现知识蒸馏的目的，提高了单阶段目标检测的精度。

在一可选实施例中，例如图6所示，步骤104-1可以包括：

在步骤201中，确定所述第二检测结果与所述第一检测结果的相似度。

在本公开实施例中，可以采用但不限于确定第二检测结果与第一检测结果的余弦相似度，包括第一分类特征信息与第二分类特征信息的余弦相似度，以及第一回归特征信息与第二回归特征信息的余弦相似度。

在步骤202中，根据所述样本图像的图像数目和所述相似度，确定所述第一损失函数。

在本公开实施例中，可以采用以下公式1，确定第一损失函数L_mimic：

其中，

是样本图像的图像数目，F_i ^tr是第i个样本图像的两阶段目标检测得到的第一回归特征信息，F_i ^tc是第i个样本图像的两阶段目标检测得到的第一分类特征信息，F_i ^sr是第i个样本图像的单阶段目标检测得到的第二回归特征信息，F_i ^sc是第i个样本图像的单阶段目标检测得到的第二分类特征信息。

上述实施例中，可以根据第二检测结果与第一检测结果的相似度以及样本图像的图像数目，确定第一损失函数，从而实现采用知识蒸馏的方式基于第一检测结果对第二检测结果进行监督训练的目的。

在一可选实施例中，例如图7所示，上述方法还可以包括：

在步骤106中，根据所述偏移向量、所述第一检测结果和所述第二检测结果中的至少一项，确定至少一个第二损失函数。

在本公开实施例中，可以将偏移向量作为第二损失函数L_R，L_R越小，说明特征图中的至少一个目标的所在位置，越接近样本图像中标注的至少一个目标所在位置的真值。

另外，还可以根据第一检测结果与样本图像中标注的至少一个目标的所在区域以及分类类型信息，确定第二损失函数L_T。同样地，可以根据第一检测结果与样本图像中标注的至少一个目标的所在区域以及分类类型信息，确定第二损失函数L_S。

在步骤107中，根据所述第一损失函数和所述至少一个第二损失函数，确定目标损失函数，对所述神经网络进行训练。

在本公开实施例中，可以采用以下公式2确定目标损失函数L：

L＝L_mimic+L_R+L_T+L_S 公式2

通过调整神经网络的网络参数，让目标函数最小，从而完成对神经网络的训练。

上述实施例中，可以根据第一损失函数和至少一个第二损失函数，对神经网络进行训练，从而进一步提高神经网络进行单阶段目标检测的精度，可用性高。

在一可选实施例中，例如图8所示，提供了一种神经网络的网络结构。该神经网络包括骨干网、优化模块、对应第二分支用于进行单阶段目标检测的S-head模块、对应第一分支的区域特征聚集模块和进行两阶段目标检测的T-head模块。其中，骨干网和优化模块是S-head模块和T-head模块共用的。

在本公开实施例中，骨干网可以采用但不限于残差网络(Resnet)，谷歌网(GoogLeNet)，计算机视觉组(Visual Geometry Group)网络等。样本图像输入该骨干网后，骨干网采用FPN方式，得到对应不同分辨率的多张特征图。

进一步地，将多张特征图中分辨率较低的第二特征图组作为优化模块的输入值，其中，优化模块可以采用但不限于1×1卷积层，优化模块可以输出与第二特征图组上的多个区域相对应的偏移向量和该区域被检测为前景(非背景)概率。

在进一步地，将多张特征图中分辨率较高的第一特征图组和偏移向量作为区域特征聚集模块的输入值，由区域特征聚集模块采用区域特征聚集(ROIAlign)方式，从第一特征图组中，依据上述检测的前景概率从高到低提取至少一个目标的所在区域的特征信息，并将提取出的至少一个目标的所在区域的特征信息作为T-head模块的输入值，得到T-head模块输出的第一检测结果。其中，第一检测结果包括至少一个目标的所在区域对应的第一分类特征信息和第一回归特征信息。

另外，可以将第二特征图组和偏移向量作为S-head模块的输入值，得到S-head模块输出的第二检测结果。其中，第二检测结果包括在第二特征图组上标注的多个区域对应的第二分类特征信息和第二回归特征信息。

在本公开实施例中，可以从第二检测结果中，根据位置对应关系，针对每个第一回归特征信息和分类特征信息，提取相对应的第二分类特征信息和第二回归特征信息。进一步地，采用知识蒸馏的方式，根据第一分类特征信息和第一回归特征信息，对提取出的第二分类特征信息和第二回归特征信息进行监督训练。可以分别确定第一分类特征信息与第二分类特征信息的余弦相似度，以及第一回归特征信息与第二回归特征信息的余弦相似度，根据上述公式1，得到第一损失函数，基于第一损失函数，至少对神经网络的S-head模块进行训练。

在本公开实施例中，还可以分别确定第二损失函数L_R、L_T和L_S，结合公式2，对整个神经网络进行训练，得到训练完成的神经网络。

上述实施例中，根据两阶段目标检测的第一检测结果对单阶段目标检测的第二检测结果进行监督，至少对神经网络的第二分支的训练，使得训练好的神经网络在采用单阶段目标检测方式进行目标检测时，推理效率更快，精度更高。

在一可选实施例中，T-head模块的结构例如图9A所示，每个目标的所在区域的特征信息的大小可以为7×7×256，分别通过分类处理分支1和回归处理分支1，得到第一分类特征信息和第一回归特征信息。

其中，分类处理分支1可以包括但不限于依次连接的两个1024维的全连接(Fullyconnected，FC)层、一个输出对应每个类别特征的FC层和一个归一化(softmax)层。回归处理分支可以包括但不限于四个连续的3×3的卷积层，一个1024维的FC层和一个4维的FC层。

S-head模块的结构例如图9B所示，偏移向量和第二特征图组作为输入值，先通过目标卷积层确定所述第二特征图组上多个区域对应的卷积偏移量。进一步地，再通过分类处理分支2和回归处理分支2，得到第二分类特征信息和第二回归特征信息。其中，目标卷积层为可变形卷积层，可以采用但不限于3×3或5×5的卷积层。

其中，分类处理分支2包括但不限于两个顺序连接的1×1的卷积层，回归处理分支2，同样包括但不限于两个顺序连接的1×1的卷积层。

上述实施例中，可以分别通过T-head模块和S-head模块得到第一检测结果和第二检测结果，以便后续基于第一检测结果，对第二检测结果进行监督，完成对神经网络的训练，使得最终训练得到的神经网络进行单阶段目标检测时检测精度明显提升。

在一可选实施例中，神经网络训练完成后，在执行推断的过程中，其网络结构例如图10所示，包括骨干网、优化模块、对应第二分支的S-head模块。即在进行推断时，不再需要保留第一分支中的区域特征聚集模块、以及对应两阶段目标检测的T-head模块，只需要通过第二分支的单阶段目标检测S-head模块，即可获得目标检测的结果。

在本公开实施例中，待检测图像输入该神经网络后，可以得到该神经网络通过第二分支的单阶段目标检测得到的检测结果，使得神经网络的网络结构较为简单，确保推断效率的同时，又使得神经网络进行单阶段目标检测的精度有显著提升。

与前述方法实施例相对应，本公开还提供了装置的实施例。

如图11所示，图11是本公开根据一示例性实施例示出的一种神经网络的训练装置框图，装置包括：特征图确定模块310，用于确定样本图像的多张特征图；其中，所述多张特征图对应不同的分辨率；第一检测模块320，用于通过所述神经网络的第一分支，对所述多张特征图中对应第一分辨率的第一特征图组进行两阶段目标检测，获得第一检测结果；第二检测模块330，用于通过所述神经网络的第二分支，对所述多张特征图中对应第二分辨率的第二特征图组进行单阶段目标检测，获得第二检测结果；其中，所述第二分辨率小于或等于所述第一分辨率；第一训练模块340，用于基于所述第一检测结果对所述第二检测结果进行监督，至少对所述第二分支进行训练。

在一些可选实施例中，所述目标卷积层为可变形卷积层。

如图12所示，图12是本公开根据一示例性实施例示出的一种目标检测装置框图，装置包括：目标检测模块410，用于将待检测图像输入用于目标检测的神经网络，获得所述神经网络的第二分支输出的检测结果，其中，所述第二分支通过对所述待检测图像进行单阶段目标检测得到所述检测结果；其中，所述神经网络是采用任一项所述的神经网络的训练方法训练得到的。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开实施例还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述任一所述的神经网络的训练方法或用于执行目标检测方法。

在一些可选实施例中，本公开实施例提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现如上任一实施例提供的神经网络的训练方法或目标检测方法的指令。

在一些可选实施例中，本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的神经网络的训练方法或目标检测方法的操作。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本公开实施例还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为调用所述存储器中存储的可执行指令，实现上述任一项所述的神经网络的训练方法或实现所述的目标检测方法。

图13为本公开实施例提供的一种电子设备的硬件结构示意图。该电子设备510包括处理器511，还可以包括输入装置512、输出装置513和存储器514。该输入装置512、输出装置513、存储器514和处理器511之间通过总线相互连接。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图13仅仅示出了一种电子设备的简化设计。在实际应用中，电子设备装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本公开实施例的神经网络的训练方法或目标检测方法的电子设备都在本公开的保护范围之内。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种神经网络的训练方法，其特征在于，包括：

确定样本图像的多张特征图；其中，所述多张特征图对应不同的分辨率；

通过所述神经网络的第一分支，对所述多张特征图中对应第一分辨率的第一特征图组进行两阶段目标检测，获得第一检测结果；

通过所述神经网络的第二分支，对所述多张特征图中对应第二分辨率的第二特征图组进行单阶段目标检测，获得第二检测结果；其中，所述第二分辨率小于或等于所述第一分辨率；

基于所述第一检测结果对所述第二检测结果进行监督，至少对所述第二分支进行训练。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第二特征图组中，确定与至少一个目标的所在区域相对应的偏移向量；

所述通过所述神经网络的第一分支，对所述多张特征图中对应第一分辨率的第一特征图组进行两阶段目标检测，获得第一检测结果，包括：

通过所述第一分支，根据所述偏移向量，对所述第一特征图组进行两阶段目标检测，获得第一检测结果；

所述通过所述神经网络的第二分支，对所述多张特征图中对应第二分辨率的第二特征图组进行单阶段目标检测，获得第二检测结果，包括：

通过所述第二分支，根据所述偏移向量，对所述第二特征图组进行单阶段目标检测，获得所述第二检测结果。

3.根据权利要求2所述的方法，其特征在于，所述通过所述第一分支，根据所述偏移向量，对所述第一特征图组进行两阶段目标检测，获得第一检测结果，包括：

通过所述第一分支，根据所述偏移向量，在所述第一特征图组中确定所述至少一个目标的所在区域；

在所述第一特征图组中，获取所述至少一个目标的所在区域的特征信息；

对所述至少一个目标的所在区域的特征信息分别进行分类处理和回归处理，将得到的第一分类特征信息和第一回归特征信息作为所述第一检测结果。

4.根据权利要求2或3所述的方法，其特征在于，所述通过所述第二分支，根据所述偏移向量，对所述第二特征图组进行单阶段目标检测，获得所述第二检测结果，包括：

通过所述第二分支中的目标卷积层，根据所述偏移向量，确定所述第二特征图组上多个区域对应的卷积偏移量；

在所述第二特征图组上，根据所述多个区域对应的卷积偏移量，提取所述多个区域的特征信息；

对所述第二特征图组上的所述多个区域的特征信息分别进行分类处理和回归处理，将得到的第二分类特征信息和第二回归特征信息作为所述第二检测结果。

5.根据权利要求4所述的方法，其特征在于，所述目标卷积层为可变形卷积层。

6.根据权利要求2-5任一项所述的方法，其特征在于，所述基于所述第一检测结果对所述第二检测结果进行监督，至少对所述第二分支进行训练，包括：

基于所述第一检测结果，采用知识蒸馏的方式对所述第二检测结果进行监督，确定第一损失函数；

根据所述第一损失函数，至少对所述第二分支进行训练。

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一检测结果，采用知识蒸馏的方式对所述第二检测结果进行监督，确定第一损失函数，包括：

确定所述第二检测结果与所述第一检测结果的相似度；

根据所述样本图像的图像数目和所述相似度，确定所述第一损失函数。

8.根据权利要求6或7所述的方法，其特征在于，所述方法还包括：

根据所述偏移向量、所述第一检测结果和所述第二检测结果中的至少一项，确定至少一个第二损失函数；

根据所述第一损失函数和所述至少一个所述第二损失函数，确定目标损失函数，对所述神经网络进行训练。

9.一种目标检测方法，其特征在于，包括：

将待检测图像输入用于目标检测的神经网络，获得所述神经网络的第二分支输出的检测结果，其中，所述第二分支通过对所述待检测图像进行单阶段目标检测得到所述检测结果；

其中，所述神经网络是采用权利要求1-8任一项所述的方法训练得到的。

10.一种神经网络的训练装置，其特征在于，包括：

特征图确定模块，用于确定样本图像的多张特征图；其中，所述多张特征图对应不同的分辨率；

第一检测模块，用于通过所述神经网络的第一分支，对所述多张特征图中对应第一分辨率的第一特征图组进行两阶段目标检测，获得第一检测结果；

第二检测模块，用于通过所述神经网络的第二分支，对所述多张特征图中对应第二分辨率的第二特征图组进行单阶段目标检测，获得第二检测结果；其中，所述第二分辨率小于或等于所述第一分辨率；

第一训练模块，用于基于所述第一检测结果对所述第二检测结果进行监督，至少对所述第二分支进行训练。

11.一种目标检测装置，其特征在于，所述装置包括：

目标检测模块，用于将待检测图像输入用于目标检测的神经网络，获得所述神经网络的第二分支输出的检测结果，其中，所述第二分支通过对所述待检测图像进行单阶段目标检测得到所述检测结果；

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9任一所述的神经网络的训练方法或用于执行权利要求10所述的目标检测方法。

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现权利要求1-9中任一项所述的神经网络的训练方法或实现权利要求10所述的目标检测方法。