CN110378278B

CN110378278B - 神经网络的训练方法、对象搜索方法、装置以及电子设备

Info

Publication number: CN110378278B
Application number: CN201910641985.9A
Authority: CN
Inventors: 田鲲; 李石羽; 叶云; 黄冠; 林锦彬; 黄厚景
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2021-11-02
Anticipated expiration: 2039-07-16
Also published as: CN110378278A

Abstract

公开了一种神经网络的训练方法、对象搜索方法、装置和电子设备。该神经网络的训练方法包括：通过第一神经网络从输入图像获得初始特征图；将初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图和第一损失函数值；将共享特征图输入用于对象检测的第三神经网络、用于对象重识别的第四神经网络和用于实例分割的第五神经网络以获得第二到第四损失函数值，以及基于所述第一到第四损失函数值更新所述第一到第五神经网络。这样，有助于提取对属性敏感的特征，从而感知对象的更全面的属性，提高对象搜索的精度。

Description

神经网络的训练方法、对象搜索方法、装置以及电子设备

技术领域

本申请涉及深度学习领域，且更为具体地，涉及一种神经网络的训练方法、对象搜索方法、装置以及电子设备。

背景技术

在深度学习领域中，行人搜索问题是指在无重叠视域下，从不同摄像机拍摄的画面中搜索与待查询行人身份相同的目标行人。整个搜寻过程可以视为行人检测与行人重识别的统一实现。其中，行人检测是指利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位。而行人重识别则是处理已经被裁剪成固定尺寸的待查询行人集合，也就是，用固定尺寸的行人图片请求待查询行人集合，从该集合中找出最相似的一张或若干张行人图片的过程。

行人搜索用于在给定的现实场景中检索特定身份的行人，例如在监控视频中对嫌疑人进行检索、跨摄像头多目标跟踪等。与行人重识别问题不同，行人搜索处理的数据是包含复杂原始场景的图像，即，目标行人的尺寸和位置是不确定的。因此行人的检测结果是否准确、距离摄像机的远近都会影响搜索的准确率。

因此，期望提供改进的用于行人搜索的训练和测试方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种神经网络的训练方法、对象搜索方法、装置和电子设备，其通过多任务模型框架来使用共享特征图实现用于对象检测、用于对象重识别和用于实例分割的神经网络的联合训练，从而有助于提取对属性敏感的特征，从而感知对象的更全面的属性，提高对象搜索的精度。

根据本申请的一方面，提供了一种神经网络的训练方法，包括：通过第一神经网络从输入图像获得初始特征图；将所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图和第一损失函数值；将所述共享特征图输入用于对象检测的第三神经网络以获得第二损失函数值；将所述共享特征图输入用于对象重识别的第四神经网络以获得第三损失函数值；将所述共享特征图输入用于实例分割的第五神经网络以获得第四损失函数值；以及，基于所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络和所述第五神经网络。

根据本申请的另一方面，提供了一种对象搜索方法，包括：通过第一神经网络从输入图像获得初始特征图；将所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图；将所述共享特征图输入用于对象检测的第三神经网络以获得所述输入图像中的对象的检测结果；将所述共享特征图输入用于对象重识别的第四神经网络以获得所述对象的属性信息；将所述共享特征图输入用于实例分割的第五神经网络以获得所述对象的掩码属性；以及，基于所述检测结果、所述属性信息和所述掩码属性获得所述输入图像中的所述对象的搜索结果。

根据本申请的再一方面，提供了一种神经网络的训练装置，包括：初始特征图获得单元，用于通过第一神经网络从输入图像获得初始特征图；共享特征图获得单元，用于将所述初始特征图获得单元所获得的所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图和第一损失函数值；对象检测单元，用于将所述共享特征图获得单元所获得的所述共享特征图输入用于对象检测的第三神经网络以获得第二损失函数值；对象重识别单元，用于将所述共享特征图获得单元所获得的所述共享特征图输入用于对象重识别的第四神经网络以获得第三损失函数值；实例分割单元，用于将所述共享特征图获得单元所获得的所述共享特征图输入用于实例分割的第五神经网络以获得第四损失函数值；以及，网络更新单元，用于基于所述共享特征图获得单元所获得的所述第一损失函数值、所述对象检测单元所获得的所述第二损失函数值、所述对象重识别单元所获得的所述第三损失函数值和所述实例分割单元所获得的所述第四损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络和所述第五神经网络。

根据本申请的又一方面，提供了一种对象搜索装置，包括：初始特征获得单元，用于通过第一神经网络从输入图像获得初始特征图；共享特征获得单元，用于将所述初始特征获得单元所获得的所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图；检测结果获得单元，用于将所述共享特征获得单元所获得的所述共享特征图输入用于对象检测的第三神经网络以获得所述输入图像中的对象的检测结果；属性信息获得单元，用于将所述共享特征获得单元所获得的所述共享特征图输入用于对象重识别的第四神经网络以获得所述对象的属性信息；掩码属性获得单元，用于将所述共享特征获得单元所获得的所述共享特征图输入用于实例分割的第五神经网络以获得所述对象的掩码属性；以及，搜索结果获得单元，用于基于所述检测结果获得单元所获得的所述检测结果、所述属性信息获得单元所获得的所述属性信息和所述掩码属性获得单元所获得的所述掩码属性获得所述输入图像中的所述对象的搜索结果。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的神经网络的训练方法。

根据本申请的又一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的对象检测方法。

根据本申请的再一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的神经网络的训练方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的对象检测方法。

本申请提供的神经网络的训练方法、对象搜索方法、装置和电子设备，能够在神经网络的训练阶段通过多任务模型框架，来使用共享特征图实现用于对象检测、用于对象重识别和用于实例分割的神经网络分支的联合训练，从而能够通过联合训练来以各个神经网络分支提取对属性敏感的特征，感知对象的更全面的属性，提高了训练后的神经网络的对象搜索任务的精度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的神经网络的训练方法的流程图。

图2图示了根据本申请实施例的多任务模型框架的训练的示意图。

图3图示了根据本申请实施例的神经网络的训练方法中的获得共享特征图的示例的流程图。

图4图示了根据本申请实施例的神经网络的训练方法中的掩码特征融合过程的示例的流程图。

图5图示了根据本申请实施例的对象搜索方法的流程图。

图6图示了根据本申请实施例的多任务模型框架的对象搜索任务的示意图。

图7图示了根据本申请实施例的对象搜索方法中的获得共享特征图的示例的流程图。

图8图示了根据本申请实施例的对象搜索方法中的掩码特征融合过程的示例的流程图。

图9图示了根据本申请实施例的神经网络的训练装置的框图。

图10图示了根据本申请实施例的神经网络的训练装置的主干网络部分的示例的框图。

图11图示了根据本申请实施例的神经网络的训练装置的对象重识别单元的示例的框图。

图12图示了根据本申请实施例的神经网络的训练装置的网络更新单元的示例的框图。

图13图示了根据本申请实施例的对象搜索装置的框图。

图14图示了根据本申请实施例的对象搜索装置的主干网络部分的示例的框图。

图15图示了根据本申请实施例的对象搜索装置的属性信息获得单元的示例的框图。

图16图示了根据本申请实施例的对象搜索装置的搜索结果获得单元的示例的框图。

图17图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，为了解决诸如行人的对象搜索的问题，现有的技术方案主要有两种。

方案一是将对象，例如行人的搜索任务分解为检测和重识别两个独立的子任务。该方案包含两个子模型：首先用检测模型提取原始场景中可能存在的对象；然后将不同尺寸的检测结果缩放至统一的尺度并输入重识别模型。

该方案的优点是只要保证每个模型在对应任务上的准确率，那么在总的推断过程就能达到较高的对象搜索准确率。但是缺点在于模型的利用率偏低，存在网络重复建立、调用的现象。并且，在实际应用中，需要考虑模型参数多少，对象搜索速率等有效性的问题。

方案二是在一个端到端的网络中将检测和重识别作为两个并行的分支联合训练。共享的主干网络和候选框生成网络(RPN)初步生成行人边界框并提取目标特征，两个分支利用边界框中的特征做进一步的分类、坐标回归和身份属性识别。该方案的优点是不同的子任务共用一个主干网络用于提取目标的高维特征，并且，一个模型可以同时输出人体相关任务的多个预测，对人体的感知效率更高。但是，方案二对于对象搜索的准确率仍有提高的空间。

基于上述技术问题，本申请的基本构思是通过多任务模型框架来使用共享的主干网络获得共享特征图，再使用共享特征图来对用于对象检测、用于对象重识别和用于实例分割的分支网络进行联合训练。

具体地，本申请提供的神经网络的训练方法、装置和电子设备首先通过第一神经网络从输入图像获得初始特征图，然后将所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图和第一损失函数值，再将所述共享特征图输入用于对象检测的第三神经网络以获得第二损失函数值，将所述共享特征图输入用于对象重识别的第四神经网络以获得第三损失函数值，和将所述共享特征图输入用于实例分割的第五神经网络以获得第四损失函数值，最后基于所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络和所述第五神经网络。

此外，本申请提供的对象搜索方法、装置和电子设备首先通过第一神经网络从输入图像获得初始特征图，然后将所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图，再将所述共享特征图输入用于对象检测的第三神经网络以获得所述输入图像中的对象的检测结果，将所述共享特征图输入用于对象重识别的第四神经网络以获得所述对象的属性信息，和将所述共享特征图输入用于实例分割的第五神经网络以获得所述对象的掩码属性，最后基于所述检测结果、所述属性信息和所述掩码属性获得所述输入图像中的所述对象的搜索结果。

这样，本申请提供的神经网络的训练方法、神经网络的训练装置和电子设备能够在神经网络的训练阶段通过多任务模型框架，来使用共享特征图实现用于对象检测、用于对象重识别和用于实例分割的神经网络分支的联合训练，从而能够通过联合训练各个神经网络分支提取对属性敏感的特征，感知对象的更全面的属性，提高了训练后的神经网络的对象搜索任务的精度。

相应地，本申请提供的对象搜索方法、对象搜索装置和电子设备能够通过联合训练的神经网络分支来从共享特征图获得对象的检测结果、属性信息和掩码属性，从而基于对象的检测结果、属性信息和掩码属性来获得对象的搜索结果，提高了搜索结果的精度。

并且，本申请提供的对象搜索方法、对象搜索装置和电子设备能够通过联合训练的神经网络分支实现端到端的对象搜索模型，其不仅能够在准确性上超过多个子模型组合的性能，并且从实用性的角度考虑，有效的统一的端到端模型更能满足工业界的实际需求。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

如图1所示，根据本申请实施例的神经网络的训练方法包括以下步骤。

步骤S110，通过第一神经网络从输入图像获得初始特征图。图2图示了根据本申请实施例的多任务模型框架的训练的示意图。如图2所示，首先，将输入图像IN输入第一神经网络D₁，例如ResNet 50深度神经网络以获得初始特征图F_I。这里，所述输入图像IN来自于预先准备好的训练图像集，其包含原始场景图像和对象的对应标注。

步骤S120，将所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图和第一损失函数值。也就是，对于对象搜索任务来说，需要基于所述初始特征图确定对象在图像中的可能范围，即生成对象候选框来在初始特征图中将感兴趣区域标识出来。例如，如图2所示，将初始特征图F_I输入第二神经网络D₂以获得共享特征图F_S和第一损失函数值L₁，并且，在共享特征图F_S上，由作为候选框提取网络的第二神经网络D₂标识出感兴趣区域R₁、R₂。

在本申请实施例中，由于通过所述第一神经网络和所述第二神经网络获得的共享特征图接下来将应用于对象检测、对象重识别和实例分割等各任务分支，因此，所述第一神经网络和所述第二神经网络也可以被称为主干网络。

步骤S130，将所述共享特征图输入用于对象检测的第三神经网络以获得第二损失函数值。例如，如图2所示，将共享特征图F_S输入用于对象检测的第三神经网络D₃以获得第二损失函数值L₂。

步骤S140，将所述共享特征图输入用于对象重识别的第四神经网络以获得第三损失函数值。例如，如图2所示，将共享特征图F_S输入用于对象重识别的第四神经网络D₄以获得第三损失函数值L₃。

步骤S150，将所述共享特征图输入用于实例分割的第五神经网络以获得第四损失函数值。例如，如图2所示，将共享特征图F_S输入用于实例分割的第五神经网络D₅以获得第四损失函数值L₄。

步骤S160，基于所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络和所述第五神经网络。具体地，可以计算所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值的加权和以获得总损失函数值，再基于总损失函数值以反向传播的方式更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络和所述第五神经网络。

例如，在本申请实施例中，所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值在计算加权和时的权重可以分别为1、1、0.2和1。

这样，根据本申请实施例的神经网络的训练方法通过如图2所示的多任务模型框架，可以使用共享特征图实现用于对象检测、用于对象重识别和用于实例分割的神经网络分支的联合训练。因此，能够通过上述神经网络分支的联合训练，可以使得各个神经网络分支在联合训练时相互促进，例如用于实例分割的神经网络分支可以辅助用于对象重识别的神经网络分支的训练，从而提高各个神经网络分支的性能。

另外，通过上述神经网络分支的联合训练，可以使得神经网络能够提取对属性敏感的特征，感知对象的更全面的属性，提高了训练后的神经网络的对象搜索任务的精度。

并且，在根据本申请实施例的神经网络的训练方法中，对所述第一神经网络和所述第二神经网络的改进可以同步到多任务对象搜索模型框架中，且包括对象检测、对象重识别和实例分割的每个子任务的性能也是可以不断提升的，并且也可以较方便地实现特征增强等操作。因此，根据本申请实施例的多任务对象搜索模型框架具有很强的拓展性和持续的进步(优化)空间。

在本申请实施例中，在获得共享特征图的过程中，由于在将共享特征图输入用于对象重识别的第四神经网络之前，没有对共享特征图中由候选框提取的目标对象进行裁剪和缩放，使得对象重识别可能受到原始图像中的目标对象的尺度变化的显著影响。因此，在以下获得共享特征图的示例中，使用特征金字塔网络来减小尺度变化的负面影响。

如图3所示，在如图1所示的实施例的基础上，所述步骤S110包括：步骤S1101，通过基于特征金字塔网络的所述第一神经网络从输入图像获得初始特征图。也就是，通过基于特征金字塔网络的第一神经网络，可以从输入图像获得不同尺度的特征图，以应对原始图像中的目标对象的尺度变化的负面影响。

并且，所述步骤S120包括：在步骤S1201，将所述初始特征图输入所述第二神经网络以获得目标候选框，也就是，基于所述初始特征图中的不同尺度的特征图，通过用于生成对象候选框的第二神经网络生成与每个特征图对应的目标候选框。然后，在步骤S1202，将所述目标候选框与所述初始特征图匹配以获得所述共享特征图，也就是，所述共享特征图包括与所述初始特征图对应的多个不同尺度的特征图，且在每个尺度的特征图上，包括由所述第二神经网络生成的目标候选框。具体地，可以通过感兴趣区域对准的方式将所述目标候选框与所述初始特征图匹配以获得所述共享特征图。

这样，通过如图3所示的获得共享特征图的示例，可以减小输入图像中的对象的尺度变化的负面影响，避免这种尺度变化使得训练过程中的优化复杂化和使得训练后的神经网络在实际搜索过程中的匹配复杂化，从而提高了训练后的神经网络的对象搜索任务的准确性。

如图4所示，在如图1所示的实施例的基础上，所述步骤S140包括以下步骤。

步骤S1401，确定所述输入图像中的对象的伪掩码标签。具体地，可以使用预先准备的实例分割模型生成输入图像中的每个样本实例的伪掩码标签。并且，所述伪掩码标签可以沿着通道维度进行扩展，以保证与对象特征具有相同的尺寸。

步骤S1402，将所述伪掩码标签与所述共享特征图点乘以获得点乘特征图。该步骤的目的是保留所述共享特征图中的目标对象候选框中的前景特征。

步骤S1403，将所述点乘特征图与所述共享特征图相加以获得融合特征图。该步骤能够实现前景信息的增强。

步骤S1404，使用所述第四神经网络从所述融合特征图获得所述第三损失函数值。这样，所述第四神经网络通过以融合后的特征图进行训练，可以提高识别的准确率。

也就是，通过如图4所示的掩码特征融合过程的示例，对掩码属性，例如人体掩码属性的预测可以方便地与重识别分支的特征进行融合，有效地增强目标对象的前景信息，从而有利于所述第四神经网络提取对身份属性敏感的信息，进一步提高对象搜索的准确率。

另外，进一步如图2的虚线部分所示，所述共享特征图F_S可以输入用于关键点检测的第六神经网络D₆以获得第五损失函数值L₅。并且，基于所述第一损失函数值、所述第二损失函数值、所述第三损失函数值、所述第四损失函数值和所述第五损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络、所述第五神经网络和所述第六神经网络。例如，计算所述第一损失函数值、所述第二损失函数值、所述第三损失函数值、所述第四损失函数值和所述第五损失函数值的加权和以获得总损失函数值，再基于总损失函数值以反向传播的方式更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络、所述第五神经网络和所述第六神经网络。

例如，在本申请实施例中，所述第一损失函数值、所述第二损失函数值、所述第三损失函数值、所述第四损失函数值和所述第五损失函数值在计算加权和时的权重可以分别为1、1、0.2、1和1。

因此，在根据本申请实施例的神经网络的训练方法中，基于所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络和所述第五神经网络包括：将所述共享特征图输入用于关键点检测的第六神经网络以获得第五损失函数值；以及，基于所述第一损失函数值、所述第二损失函数值、所述第三损失函数值、所述第四损失函数值和所述第五损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络、所述第五神经网络和所述第六神经网络。

这样，在本申请实施例中，在检测+身份重识别+实例分割的神经网络分支的基础上进一步增加了关键点检测分支，并且，实验证实，新增的关键点检测分支也能够对身份重识别的准确率有一定促进作用，从而进一步全面感知对象的属性，提高对象搜索的精度。

图5图示了根据本申请实施例的对象搜索方法的流程图。

如图5所示，根据本申请实施例的对象搜索方法包括以下步骤。

步骤S210，通过第一神经网络从输入图像获得初始特征图。图6图示了根据本申请实施例的多任务模型框架的对象搜索任务的示意图。如图6所示，将输入图像IM输入第一神经网络D₁以获得初始特征图F_I。这里，所述输入图像IM和所述训练图像IN都是用于对象搜索的图像，例如包含行人的街景图。但是，所述输入图像IM属于测试集，所述输入图像IN属于训练集，二者不相交。

步骤S220，将所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图。即，如图6所示，将初始特征图F_I输入用于生成对象候选框的第二神经网络D₂以获得共享特征图F_S。

步骤S230，将所述共享特征图输入用于对象检测的第三神经网络以获得所述输入图像中的对象的检测结果。即，如图6所示，将共享特征图F_S输入用于对象检测的第三神经网络D₃以获得所述输入图像中的对象的检测结果。

步骤S240，将所述共享特征图输入用于对象重识别的第四神经网络以获得所述对象的属性信息。即，如图6所示，将共享特征图F_S输入用于对象重识别的第四神经网络D₄以获得所述对象的属性信息，对象的属性信息例如为对象的身份信息。

步骤S250，将所述共享特征图输入用于实例分割的第五神经网络以获得所述对象的掩码属性。即，如图6所示，将共享特征图F_S输入用于实例分割的第五神经网络D₅以获得所述对象的掩码属性。

步骤S260，基于所述检测结果、所述属性信息和所述掩码属性获得所述输入图像中的所述对象的搜索结果。

这样，通过如图5所示的对象搜索方法，能够通过联合训练的神经网络分支来从共享特征图获得对象的检测结果、属性信息和掩码属性，从而基于对象的检测结果、属性信息和掩码属性来获得对象的搜索结果，提高了搜索结果的精度。

并且，上述对象搜索方法能够通过联合训练的神经网络分支实现端到端的对象搜索模型，其不仅能够在准确性上超过多个子模型组合的性能，并且从实用性的角度考虑，有效的统一的端到端模型可以一次性地输出对象的多个预测值，例如检测结果信息、属性信息和掩码属性信息，从而更能满足工业界的实际需求。

此外，在上述对象搜索方法中，对所述第一神经网络和所述第二神经网络的改进可以同步到多任务对象搜索模型框架中，且包括对象检测、对象重识别和实例分割的每个子任务的性能也是可以不断提升的，并且也可以较方便地实现特征增强等操作。因此，根据本申请实施例的多任务对象搜索模型框架具有很强的拓展性和持续的进步(优化)空间。

与上述如图2所示的获得共享特征图的示例类似，在根据本申请实施例的对象搜索方法中，使用特征金字塔网络来减小尺度变化的负面影响。

如图7所示，在如图5所示的实施例的基础上，所述步骤S210包括：步骤S2101，通过基于特征金字塔网络的所述第一神经网络从输入图像获得初始特征图；并且，所述步骤S220包括：步骤S2201，将所述初始特征图输入所述第二神经网络以获得目标候选框；以及步骤S2202，将所述目标候选框与所述初始特征图匹配以获得所述共享特征图。

这样，可以减小输入图像中的对象的尺度变化的负面影响，避免这种尺度变化使得实际搜索过程中的匹配复杂化，从而提高了对象搜索任务的准确性。

如图8所示，在如图7所示的实施例的基础上，所述步骤S240包括以下步骤。

步骤S2401，使用所述第五神经网络生成所述输入图像中的对象的掩码概率图。这里，与训练阶段的掩码特征融合过程不同的是，在对象搜索过程中，使用所述第五神经网络生成对所述输入图像中的对象进行预测的掩码概率图，代替伪掩码标签。这样，可以提高掩码特征融合过程在对象搜索时的实用性，即不需要新的实例分割模型来生成测试集的伪掩码标签。

步骤S2402，对所述掩码概率图进行二值化以获得二值化概率图。例如，对所述掩码概率图进行阈值为0.5的二值化以获得二值化概率图。

步骤S2403，将二值化概率图与所述共享特征图进行点乘以获得点乘特征图。该步骤的目的是保留所述共享特征图中的目标对象候选框中的前景特征。

步骤S2404，将所述点乘特征图与所述共享特征图相加以获得融合特征图。该步骤能够实现前景信息的增强。

步骤S2405，使用所述第四神经网络从所述融合特征图获得所述对象的属性信息。这样，所述第四神经网络通过从融合后的特征图获得所述对象的属性信息，可以增强感兴趣区域中前景目标的特征，有利于提取到对目标身份属性敏感的特征并进一步提高对象搜索的准确率。

另外，进一步如图6的虚线部分所示，所述共享特征图F_S可以输入用于关键点检测的第六神经网络D₆以获得所述对象的关键点属性。并且，进一步基于所述检测结果、所述属性信息、所述掩码属性和所述关键点属性获得所述输入图像中的所述对象的搜索结果。

因此，在根据本申请实施例的对象搜索方法中，基于所述检测结果、所述属性信息和所述掩码属性获得所述输入图像中的所述对象的搜索结果包括：将所述共享特征图输入用于关键点检测的第六神经网络以获得所述对象的关键点属性；以及，基于所述检测结果、所述属性信息、所述掩码属性和所述关键点属性获得所述输入图像中的所述对象的搜索结果。

这里，根据本申请实施例的对象搜索方法所采用的多任务模型框架与根据本申请实施例的神经网络的训练方法所采用的多任务模型框架除掩码特征融合模块之外完全相同，因此，以上关于根据本申请实施例的神经网络的训练方法所采用的多任务模型框架描述的细节也完全适用于根据本申请实施例的对象搜索方法所采用的多任务模型框架。

示例性装置

图9图示了根据本申请实施例的神经网络的训练装置的框图。

如图9所示，根据本申请实施例的神经网络的训练装置300包括：初始特征图获得单元310，用于通过第一神经网络从输入图像获得初始特征图；共享特征图获得单元320，用于将所述初始特征图获得单元310所获得的所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图和第一损失函数值；对象检测单元330，用于将所述共享特征图获得单元320所获得的所述共享特征图输入用于对象检测的第三神经网络以获得第二损失函数值；对象重识别单元340，用于将所述共享特征图获得单元320所获得的所述共享特征图输入用于对象重识别的第四神经网络以获得第三损失函数值；实例分割单元350，用于将所述共享特征图获得单元320所获得的所述共享特征图输入用于实例分割的第五神经网络以获得第四损失函数值；以及，网络更新单元360，用于基于所述共享特征图获得单元320所获得的所述第一损失函数值、所述对象检测单元330所获得的所述第二损失函数值、所述对象重识别单元340所获得的所述第三损失函数值和所述实例分割单元350所获得的所述第四损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络和所述第五神经网络。

如图10所示，在如图9所示的实施例的基础上，所述初始特征图获得单元310包括：特征金字塔网络子单元311，用于通过基于特征金字塔网络的所述第一神经网络从输入图像获得初始特征图；且所述共享特征图获得单元320包括：目标候选框生成子单元321，用于将所述特征金字塔网络子单元311所获得的所述初始特征图输入所述第二神经网络以获得目标候选框；以及，匹配子单元322，用于将所述目标候选框生成子单元321所获得的所述目标候选框与所述特征金字塔网络子单元311所获得的所述初始特征图匹配以获得所述共享特征图。

如图11所示，在如图9所示的实施例的基础上，所述对象重识别单元340包括：标签确定子单元3401，用于确定所述输入图像中的对象的伪掩码标签；点乘子单元3402，用于将所述标签确定子单元3401所确定的所述伪掩码标签与所述共享特征图获得单元320所获得的所述共享特征图点乘以获得点乘特征图；特征融合子单元3403，将所述点乘子单元3402所获得的所述点乘特征图与所述共享特征图获得单元320所获得的所述共享特征图相加以获得融合特征图；以及，重识别子单元3404，用于使用所述第四神经网络从所述特征融合子单元3403所获得的所述融合特征图获得所述第三损失函数值。

如图12所示，在如图9所示的实施例的基础上，所述网络更新单元360包括：关键点检测子单元3601，用于将所述共享特征图获得单元320所获得的所述共享特征图输入用于关键点检测的第六神经网络以获得第五损失函数值；以及网络更新子单元3602，用于基于所述共享特征图获得单元320所获得的所述第一损失函数值、所述对象检测单元330所获得的所述第二损失函数值、所述对象重识别单元340所获得的所述第三损失函数值、所述实例分割单元350所获得的所述第四损失函数值和所述关键点检测子单元3601所获得的第五损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络、所述第五神经网络和所述第六神经网络。

这里，本领域技术人员可以理解，上述神经网络的训练装置300中的各个单元和模块的具体功能和操作已经在上面参考图1到图4的神经网络的训练方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的神经网络的训练装置300可以实现在各种终端设备中，例如用于训练神经网络的服务器等。在一个示例中，根据本申请实施例的神经网络的训练装置300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该神经网络的训练装置300可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该神经网络的训练装置300同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该神经网络的训练装置300与该终端设备也可以是分立的设备，并且该神经网络的训练装置300可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

图13图示了根据本申请实施例的对象搜索装置的框图。

如图13所示，根据本申请实施例的对象搜索装置400包括：初始特征获得单元410，用于通过第一神经网络从输入图像获得初始特征图；共享特征获得单元420，用于将所述初始特征获得单元410所获得的所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图；检测结果获得单元430，用于将所述共享特征获得单元420所获得的所述共享特征图输入用于对象检测的第三神经网络以获得所述输入图像中的对象的检测结果；属性信息获得单元440，用于将所述共享特征获得单元420所获得的所述共享特征图输入用于对象重识别的第四神经网络以获得所述对象的属性信息；掩码属性获得单元450，用于将所述共享特征获得单元420所获得的所述共享特征图输入用于实例分割的第五神经网络以获得所述对象的掩码属性；以及，搜索结果获得单元460，用于基于所述检测结果获得单元430所获得的所述检测结果、所述属性信息获得单元440所获得的所述属性信息和所述掩码属性获得单元450所获得的所述掩码属性获得所述输入图像中的所述对象的搜索结果。

如图14所示，在图13所示的实施例的基础上，所述初始特征获得单元410包括：特征金字塔网络子单元4101，用于通过基于特征金字塔网络的所述第一神经网络从输入图像获得初始特征图；且所述共享特征获得单元420包括：目标候选框获得子单元4201，用于将所述特征金字塔网络子单元4101所获得的所述初始特征图输入所述第二神经网络以获得目标候选框；以及匹配子单元4202，用于将所述目标候选框获得子单元4201所获得的所述目标候选框与所述特征金字塔网络子单元4101所获得的所述初始特征图匹配以获得所述共享特征图。

如图15所示，在图13所示的实施例的基础上，所述属性信息获得单元440包括：概率图获得子单元4401，用于使用所述第五神经网络生成所述输入图像中的对象的掩码概率图；二值化子单元4402，用于对所述概率图获得子单元4401所获得的所述掩码概率图进行二值化以获得二值化概率图；点乘子单元4403，用于将所述二值化子单元4402所获得的所述二值化概率图与所述共享特征获得单元420所获得的所述共享特征图进行点乘以获得点乘特征图；融合子单元4404，用于将所述点乘子单元4403所获得的所述点乘特征图与所述共享特征获得单元420所获得的所述共享特征图相加以获得融合特征图；以及，信息获得子单元4405，用于使用所述第四神经网络从所述融合子单元4404所获得的所述融合特征图获得所述对象的属性信息。

如图16所示，在图13所示的实施例的基础上，所述搜索结果获得单元460包括：关键点属性获得子单元4601，用于将所述共享特征获得单元420所获得的所述共享特征图输入用于关键点检测的第六神经网络以获得所述对象的关键点属性；以及，搜索结果获得子单元4602，用于基于所述检测结果获得单元430所获得的所述检测结果、所述属性信息获得单元440所获得的所述属性信息、所述掩码属性获得单元450所获得的所述掩码属性和所述关键点属性获得子单元4601所获得的所述关键点属性获得所述输入图像中的所述对象的搜索结果。

这里，本领域技术人员可以理解，上述对象搜索装置400中的各个单元和模块的具体功能和操作已经在上面参考图5到图8的对象搜索方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的对象搜索装置400可以实现在各种终端设备中，例如用于从图像中搜索特定对象，例如行人的装置，例如安防摄像头或者自动驾驶模块等。在一个示例中，根据本申请实施例的对象搜索装置400可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该对象搜索装置400可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该对象搜索装置400同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该对象搜索装置400与该终端设备也可以是分立的设备，并且该对象搜索装置400可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图17来描述根据本申请实施例的电子设备。

图17图示了根据本申请实施例的电子设备的框图。

如图17所示，电子设备10包括一个或多个处理器11和存储器12。

处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的神经网络的训练方法和对象搜索方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如对象的搜索结果、身份属性信息、掩码属性信息、关键点属性信息等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括训练好的神经网络和图像中对象的搜索结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图17中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的神经网络的训练方法和对象搜索方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的神经网络的训练方法和对象搜索方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种神经网络的训练方法，包括：

通过第一神经网络从输入图像获得初始特征图；

将所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图和第一损失函数值；

将所述共享特征图输入用于对象检测的第三神经网络以获得第二损失函数值；

将所述共享特征图输入用于对象重识别的第四神经网络以获得第三损失函数值；

将所述共享特征图输入用于实例分割的第五神经网络以获得第四损失函数值；以及

基于所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络和所述第五神经网络；

其中，所述将所述共享特征图输入用于对象重识别的第四神经网络以获得第三损失函数值包括：

确定所述输入图像中的对象的伪掩码标签；

将所述伪掩码标签与所述共享特征图点乘以获得点乘特征图；

将所述点乘特征图与所述共享特征图相加以获得融合特征图；以及

使用所述第四神经网络从所述融合特征图获得所述第三损失函数值。

2.如权利要求1所述的神经网络的训练方法，其中，所述通过第一神经网络从输入图像获得初始特征图包括：

通过基于特征金字塔网络的所述第一神经网络从输入图像获得初始特征图；

所述将所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图和第一损失函数值包括：

将所述初始特征图输入所述第二神经网络以获得目标候选框；以及

将所述目标候选框与所述初始特征图匹配以获得所述共享特征图。

3.如权利要求1所述的神经网络的训练方法，其中，所述基于所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络和所述第五神经网络包括：

将所述共享特征图输入用于关键点检测的第六神经网络以获得第五损失函数值；以及

基于所述第一损失函数值、所述第二损失函数值、所述第三损失函数值、所述第四损失函数值和所述第五损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络、所述第五神经网络和所述第六神经网络。

4.一种对象搜索方法，包括：

通过第一神经网络从输入图像获得初始特征图；

将所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图；

将所述共享特征图输入用于对象检测的第三神经网络以获得所述输入图像中的对象的检测结果；

将所述共享特征图输入用于对象重识别的第四神经网络以获得所述对象的属性信息；

将所述共享特征图输入用于实例分割的第五神经网络以获得所述对象的掩码属性；以及

基于所述检测结果、所述属性信息和所述掩码属性获得所述输入图像中的所述对象的搜索结果；

使用所述第五神经网络生成所述输入图像中的对象的掩码概率图；

对所述掩码概率图进行二值化以获得二值化概率图；

将二值化概率图与所述共享特征图进行点乘以获得点乘特征图；

使用所述第四神经网络从所述融合特征图获得所述对象的属性信息。

5.如权利要求4所述的对象搜索方法，其中，所述通过第一神经网络从输入图像获得初始特征图包括：

将所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图包括：

6.如权利要求4所述的对象搜索方法，其中，所述基于所述检测结果、所述属性信息和所述掩码属性获得所述输入图像中的所述对象的搜索结果包括：

将所述共享特征图输入用于关键点检测的第六神经网络以获得所述对象的关键点属性；以及

基于所述检测结果、所述属性信息、所述掩码属性和所述关键点属性获得所述输入图像中的所述对象的搜索结果。

7.一种神经网络的训练装置，包括：

初始特征图获得单元，用于通过第一神经网络从输入图像获得初始特征图；

共享特征图获得单元，用于将所述初始特征图获得单元所获得的所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图和第一损失函数值；

对象检测单元，用于将所述共享特征图获得单元所获得的所述共享特征图输入用于对象检测的第三神经网络以获得第二损失函数值；

对象重识别单元，用于将所述共享特征图获得单元所获得的所述共享特征图输入用于对象重识别的第四神经网络以获得第三损失函数值；

实例分割单元，用于将所述共享特征图获得单元所获得的所述共享特征图输入用于实例分割的第五神经网络以获得第四损失函数值；以及

网络更新单元，用于基于所述共享特征图获得单元所获得的所述第一损失函数值、所述对象检测单元所获得的所述第二损失函数值、所述对象重识别单元所获得的所述第三损失函数值和所述实例分割单元所获得的所述第四损失函数值更新所述第一神经网络、所述第二神经网络、所述第三神经网络、所述第四神经网络和所述第五神经网络；

所述对象重识别单元包括：

标签确定子单元，用于确定所述输入图像中的对象的伪掩码标签；

点乘子单元，用于将所述标签确定子单元所确定的所述伪掩码标签与所述共享特征图获得单元所获得的所述共享特征图点乘以获得点乘特征图；

特征融合子单元，将所述点乘子单元所获得的所述点乘特征图与所述共享特征图获得单元所获得的所述共享特征图相加以获得融合特征图；以及，

重识别子单元，用于使用所述第四神经网络从所述特征融合子单元所获得的所述融合特征图获得所述第三损失函数值。

8.一种对象搜索装置，包括：

初始特征获得单元，用于通过第一神经网络从输入图像获得初始特征图；

共享特征获得单元，用于将所述初始特征获得单元所获得的所述初始特征图输入用于生成对象候选框的第二神经网络以获得共享特征图；

检测结果获得单元，用于将所述共享特征获得单元所获得的所述共享特征图输入用于对象检测的第三神经网络以获得所述输入图像中的对象的检测结果；

属性信息获得单元，用于将所述共享特征获得单元所获得的所述共享特征图输入用于对象重识别的第四神经网络以获得所述对象的属性信息；

掩码属性获得单元，用于将所述共享特征获得单元所获得的所述共享特征图输入用于实例分割的第五神经网络以获得所述对象的掩码属性；以及

搜索结果获得单元，用于基于所述检测结果获得单元所获得的所述检测结果、所述属性信息获得单元所获得的所述属性信息和所述掩码属性获得单元所获得的所述掩码属性获得所述输入图像中的所述对象的搜索结果；

所述属性信息获得单元包括：

概率图获得子单元，用于使用所述第五神经网络生成所述输入图像中的对象的掩码概率图；

二值化子单元，用于对所述概率图获得子单元所获得的所述掩码概率图进行二值化以获得二值化概率图；

点乘子单元，用于将所述二值化子单元所获得的所述二值化概率图与所述共享特征获得单元所获得的所述共享特征图进行点乘以获得点乘特征图；

融合子单元，用于将所述点乘子单元所获得的所述点乘特征图与所述共享特征获得单元所获得的所述共享特征图相加以获得融合特征图；以及，

信息获得子单元，用于使用所述第四神经网络从所述融合子单元所获得的所述融合特征图获得所述对象的属性信息。

9.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-3中任一项所述的神经网络的训练方法。

10.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求4-6中任一项所述的对象搜索方法。