CN113408472A

CN113408472A - 目标重识别模型的训练方法、目标重识别方法及装置

Info

Publication number: CN113408472A
Application number: CN202110763047.3A
Authority: CN
Inventors: 刘武; 梅涛
Original assignee: Jingdong Shuke Haiyi Information Technology Co Ltd
Current assignee: Jingdong Shuke Haiyi Information Technology Co Ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-09-17
Anticipated expiration: 2041-07-06
Also published as: WO2023279935A1; CN113408472B

Abstract

本公开提出一种目标重识别模型的训练方法、目标重识别方法及装置，该方法包括：获取多个图像，多个图像分别具有对应的多种模态和对应的多个标注目标类别，并获取与多种模态分别对应的多个卷积特征图，并获取与多种模态分别对应的多个边缘特征图，并获取与多种模态分别对应的多种特征距离信息，以及根据多个图像、多个卷积特征图、多个边缘特征图、多种特征距离信息，以及多个标注目标类别训练初始的重识别模型，以得到目标重识别模型，因此训练的重识别模型能够充分挖掘多种模态图像中的特征，能够增强不同模态下图像匹配的准确度，从而提升跨模态的目标重识别的效果。

Description

目标重识别模型的训练方法、目标重识别方法及装置

技术领域

本公开涉及图像识别技术领域，尤其涉及一种目标重识别模型的训练方法、目标重识别方法及装置。

背景技术

随着人们对安全的重视，视频监控摄像头被安置于生活工作的多种环境场景中。常见的摄像头采用白天拍摄彩色视频、晚上拍摄红外视频的方式，进行全天候的信息录制工作。

而跨模态的目标重识别旨在将可见光摄像头采集的三原色图像(Red GreenBlue，RGB)和红外摄像头采集的红外线图像(Infrared Radiation，IR)中的目标进行匹配。由于不同模态(RGB和IR)的图像是异质的，因此模态差异会降低匹配的性能。

相关技术中的网络模型在进行跨模态的目标重识别时，对RGB图像和IR图像中的特征挖掘不够充分，且模型训练过程中稳定性不强，因此影响跨模态的目标重识别的效果。

发明内容

本公开提出了一种目标重识别模型的训练方法、目标重识别方法、装置、电子设备及存储介质，旨在至少在一定程度上解决相关技术中的技术问题之一。

本公开第一方面实施例提出了一种目标重识别模型的训练方法，包括：获取多个图像，多个图像分别具有对应的多种模态和对应的多个标注目标类别；获取与多种模态分别对应的多个卷积特征图，并获取与多种模态分别对应的多个边缘特征图；获取与多种模态分别对应的多种特征距离信息；以及根据多个图像、多个卷积特征图、多个边缘特征图、多种特征距离信息，以及多个标注目标类别训练初始的重识别模型，以得到目标重识别模型。

本公开第二方面实施例提出了一种目标重识别方法，包括：获取参考图像和待识别图像，参考图像和待识别图像的模态不相同，参考图像包括：参考类别；将参考图像和待识别图像分别输入至上述的目标重识别模型的训练方法训练得到的目标重识别模型之中，以得到目标重识别模型输出的与待识别图像对应的目标，目标具有对应的目标类别，目标类别与参考类别相匹配。

本公开第三方面实施例提出了一种目标重识别模型的训练装置，包括：第一获取模块，用于获取多个图像，多个图像分别具有对应的多种模态和对应的多个标注目标类别；第二获取模块，用于获取与多种模态分别对应的多个卷积特征图，并获取与多种模态分别对应的多个边缘特征图；第三获取模块，用于获取与多种模态分别对应的多种特征距离信息；以及训练模块，用于根据多个图像、多个卷积特征图、多个边缘特征图、多种特征距离信息，以及多个标注目标类别训练初始的重识别模型，以得到目标重识别模型。

本公开第四方面实施例提出了一种目标重识别装置，包括：第四获取模块，用于获取参考图像和待识别图像，参考图像和待识别图像的模态不相同，参考图像包括：参考类别；识别模块，用于将参考图像和待识别图像分别输入至上述的目标重识别模型的训练方法训练得到的目标重识别模型之中，以得到目标重识别模型输出的与待识别图像对应的目标，目标具有对应的目标类别，目标类别与参考类别相匹配。

本公开第五方面实施例提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例的目标重识别模型的训练方法，或者执行目标重识别方法。

本公开第六方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开实施例公开的目标重识别模型的训练方法，或者执行目标重识别方法。

本实施例中，通过获取多个图像，多个图像分别具有对应的多种模态和对应的多个标注目标类别，并获取与多种模态分别对应的多个卷积特征图，并获取与多种模态分别对应的多个边缘特征图，并获取与多种模态分别对应的多种特征距离信息，以及根据多个图像、多个卷积特征图、多个边缘特征图、多种特征距离信息，以及多个标注目标类别训练初始的重识别模型，以得到目标重识别模型，因此训练的重识别模型能够充分挖掘多种模态图像中的特征，能够增强不同模态下图像匹配的准确度，从而提升跨模态的目标重识别的效果。进而解决了相关技术中存在的网络模型对多模态图像中的特征挖掘不够充分，影响跨模态的目标重识别的效果的技术问题。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本公开一实施例提供的目标重识别模型的训练方法的流程示意图；

图2是根据本公开实施例提供重识别模型的网络结构示意图；

图3是根据本公开另一实施例提供的目标重识别模型的训练方法的流程示意图；

图4是根据本公开实施例提供的第一网络结构的结构示意图；

图5是根据本公开实施例提供的目标的特征空间结构示意图；

图6是根据本公开另一实施例提供的目标重识别模型的训练方法的流程示意图；

图7是根据本公开实施例提供的目标重识别模型的训练流程图；

图8是根据本公开另一实施例提供的目标重识别方法的流程示意图；

图9是根据本公开另一实施例提供的目标重识别模型的训练装置的示意图；

图10是根据本公开另一实施例提供的目标重识别模型的训练装置的示意图；

图11是根据本公开另一实施例提供的目标重识别装置的示意图；以及

图12示出了适于用来实现本公开实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本公开，而不能理解为对本公开的限制。相反，本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

针对背景技术中提到的相关技术中的网络模型对多模态图像中的特征挖掘不够充分，影响跨模态的目标重识别的效果的技术问题，本实施例技术方案提供了一种目标重识别模型的训练方法，下面结合具体的实施例对该方法进行说明。

其中，需要说明的是，本实施例的目标重识别模型的训练方法的执行主体可以为目标重识别模型的训练装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

图1是根据本公开一实施例提供的目标重识别模型的训练方法的流程示意图。参考图1所示，该方法包括：

S101：获取多个图像，多个图像分别具有对应的多种模态和对应的多个标注目标类别。

其中，多个图像可以是采用图像采集设备在任意可能场景下采集的图像，或者还可以是从互联网中获取的图像，对此不作限制。

多个图像分别具有多种模态，多种模态例如：彩色图像模态、红外图像模态以及其它任意可能的图像模态，其中，彩色图像模态可以是RGB模态，红外图像模态可以是IR模态，关于多种模态，对此不做限制。

也即是说，本实施例中的多个图像可以具有RGB模态和IR模态。在实际应用中，可以采用图像采集装置(例如：摄像头)在白天采集彩色图像或者视频帧(RGB模态)，夜晚采集红外图像或者视频帧(IR模态)，从而可以得到具有多种模态的多个图像。

多个图像中可以存在多个目标对象，例如：行人、车辆以及其它任意可能的目标对象，更具体地，多个目标对象还可以是行人1、行人2、车辆1、车辆2等，不同的行人或者车辆可以对应不同的类别，也即是说，本公开实施例可以针对不同目标对象采集多种模态的多个图像。

而用于对目标对象的类别进行标注的信息，可以被称为标注目标类别，其中，标注目标类别例如可以是分值的形式，不同的分值表示不同类别的目标对象，通过标注目标类别可以对多个图像中的目标对象进行区分。

此外，还可以将多个图像分为训练集(train set)和测试集(test set)，其中包括图像和图像对应的标注目标类别。

S102：获取与多种模态分别对应的多个卷积特征图，并获取与多种模态分别对应的多个边缘特征图。

上述获取多个图像后，进一步地获取与多种模态分别对应的多个卷积特征图和多个边缘特征图。

其中，对多种模态的图像进行卷积操作得到的特征图，可以被称为卷积特征图。本公开实施例可以采用神经网络中的任意一个或者多个卷积层对多种模态的图像进行卷积操作，例如：采用残差神经网络ResNet Layer0层提取该多个卷积特征图，或者还可以通过其它任意可能的方式获取多个卷积特征图，对此不作限制。

而边缘特征图，可以表示多种模态的图像中目标对象的边缘轮廓信息，本实施例中例如可以采用索贝尔算子(Sobel算子)对多个图像进行卷积操作，提取目标对象的边缘信息，得到多个边缘特征图，或者还可以采用其它任意可能的方式获取多个边缘特征图，对此不作限制。

也即是说，为了解决RGB模态和IR模态之间的特征差异，本公开实施例在模型训练过程中可以采用目标对象的边缘轮廓信息作为指导，针对特性特征空间进行优化，从而实现了对模态间共性特征的挖掘。

S103：获取与多种模态分别对应的多种特征距离信息。

上述获取多个卷积特征图和多个边缘特征图后，进一步地，获取与多种模态分别对应的多种特征距离信息。

其中，多种特征距离信息可以是不同标注目标类别的目标的特征中心点之间的距离，和/或相同目标对应于不同模态的特征中心点之间的距离，或者还可以是其它任意可能的特征距离信息，对此不作限制。

举例而言，在确定多种特征距离信息的过程中，首先可以确定多个图像对应的多个特征向量，进一步地根据多个特征向量确定该特征中心点，从而可以根据特征中心点确定该多种特征距离信息，计算多种特征距离信息的具体方式可以参见下述实施例。

S104：根据多个图像、多个卷积特征图、多个边缘特征图、多种特征距离信息，以及多个标注目标类别训练初始的重识别模型，以得到目标重识别模型。

其中，本公开实施例的重识别模型可以是基于卷积神经网络结构的，具体地，可以采用残差神经网络ResNet50作为重识别模型的主干网络。图2是根据本公开实施例提供重识别模型的网络结构示意图，如图2所示，本公开实施例可以将ResNet50分为了两部分，其中，开始阶段的卷积层(ResNet Layer0)可以采用双流的设计，而后的四个阶段的卷积层(ResNet Layer1-4)可以使用双流共享的权重的策略，统一的提取两种模态的信息。

训练过程中，可以根据多个图像、多个卷积特征图、多个边缘特征图、多种特征距离信息、多个标注目标类别之间的关系对初始的重识别模型(ResNet50)的参数进行优化调整，直至模型收敛，得到目标重识别模型。

图3是根据本公开另一实施例提供的目标重识别模型的训练方法的流程示意图。参考图3所示，该方法包括：

S301：获取多个图像，多个图像分别具有对应的多种模态和对应的多个标注目标类别。

S302：获取与多种模态分别对应的多个卷积特征图，并获取与多种模态分别对应的多个边缘特征图。

S303：获取与多种模态分别对应的多种特征距离信息。

S301～S303的具体说明可以参见上述实施例，此处不在赘述。

S304：采用初始的重识别模型处理多个图像，以得到初始损失值。

在训练初始的重识别模型的操作中，首先采用初始的重识别模型处理多个图像，以得到初始损失值，例如：可以采用身份损失函数(Id Loss)计算该初始的重识别模型的初始损失值，或者还可以采用其它损失函数确定初始损失值，对此不作限制。

一些实施例，如图2所示，初始的重识别模型可以包括顺序连接的全连接层(fullyconnected layers，FC)和输出层(例如：Softmax分类器)，在采用初始的重识别模型处理多个图像，以得到初始损失值的过程中，首先可以将多个图像顺序输入至全连接层和输出层之中，以得到输出层输出的与多个图像分别对应的多个类别特征向量。

举例而言，可以采用rgb和ir分别代表多种模态的多个图像，令X^m＝{x^m|x^m∈R^H ^×W×3}表示输入的多个图像集(训练集或测试集)，其中m∈{rgb,ir}，H和W分别表示图像的高和宽，3表示图像的通道数(RGB图像包含R\G\B三个通道，IR图像通过重复其单通道3次转化为3通道)。例如：在训练过程中一个批次(Batch)中包含B张图片，令

表示其中的一张RGB或IR图像，则i∈{1,2,...,B}。

如图2所示，输入图像

通过网络模型到最终全连接(FC)层及输出层(Softmax)操作之后，得到的向量可以被称为类别特征向量，类别特征向量例如可以用p_i表示，则多个图像对应的多个类别特征向量表示为

其中j∈{1,2,...,N}，N为多个图像中目标类别的数量。

进一步地，确定与多个标注目标类别分别对应的多个编码向量，例如可以采用独热编码(one-hot)对多个标注目标类别进行编码得到编码向量，编码向量可以用y_i表示，则多个编码向量可以表示为

进一步地，根据多个类别特征向量和对应的多个编码向量，生成身份损失值，也即是说，本实施例可以采用身份损失函数(Id Loss)对多个类别特征向量和对应的多个编码向量进行计算，得到身份损失值，并将身份损失值作为初始损失值。

其中，身份损失函数Id Loss可以表示为：

可以理解的是，上述实例只是以身份损失值作为初始损失值进行示例性说明，在实际应用中还可以采用其它损失函数确定初始损失值，对此不作限制。

本实施例采用身份损失值作为初始损失值，可以使模型具有良好的行人重识别的效果。

S305：采用初始的重识别模型处理多个卷积特征图和多个边缘特征图，以得到感知边缘损失值。

一些实施例中，初始的重识别模型可以包括第一网络结构，图4是根据本公开实施例提供的第一网络结构的结构示意图，如图4所示，该第一网络结构例如可以是深度卷积神经网络VGGNet-16，可以识别边卷积特征图和边缘特征图之间的感知损失值。采用VGGNet-16作为第一网络结构，可以深度的识别卷积特征图和边缘特征图之间的损失，从而提高感知损失值的准确性。

具体地，如图4所示，可以将ResNet Layer0提取的多个卷积特征图和Sobel算子提取的多个边缘特征图输入至VGGNet-16之中，其中，VGGNet-16网络使用φ＝{φ₁,φ₂,φ₃,φ₄}表示四个阶段，多个卷积特征图经过该四个阶段可以得到对应的多个卷积损失特征图，多个边缘特征图经过该四个阶段可以得到多个边缘损失特征图。

进一步地，确定与多个卷积损失特征图分别对应的多个卷积特征图参数，并确定与多个边缘损失特征图分别对应的多个边缘特征图参数。

其中，令φ_t(z)表示由第0-t个阶段的第一网络结构所提取的多个卷积损失特征图和多个边缘损失特征图，假设卷积损失特征图和边缘损失特征图形状为C_t×H_t×W_t，则C_t×H_t×W_t可以作为卷积损失特征图和边缘损失特征图的特征图参数。

其中，感知边缘损失值计算公式如下：

其中，z和

分别表示输入的卷积特征图和边缘损失特征图。

进一步地，根据多个卷积特征图参数处理对应的多个卷积损失特征图，以得到多个第一感知边缘损失值，并根据多个边缘特征图参数处理对应的多个边缘损失特征图，以得到多个第二感知边缘损失值。

其中，第一感知边缘损失值可以表示为：

第二感知边缘损失值可以表示为：

其中，的

和

分别表示两种模态各自的ResNet Layer0所提取的卷积特征图，

和

分别代表了对应模态的边缘特征图。

进一步地，根据多个第一感知边缘损失值和多个第二感知边缘损失值，生成感知边缘损失值，例如：将第一感知边缘损失值和第二感知边缘损失值之和，作为该感知边缘损失值。

感知边缘损失值表示为

本实施例中，结合了感知边缘损失(PEF Loss)，能够采用图像的边缘信息作为指导，挖掘模态特性空间中的共性信息，减小了不同模态之间的差异，从而提升跨模态目标重识别的效果。

S306：采用初始的重识别模型处理多种特征距离信息，以得到跨模态中心对比损失值。

本公开实施例还可以采用初始的重识别模型处理多种特征距离信息，以得到跨模态中心对比损失值。

图5是根据本公开实施例提供的目标的特征空间结构示意图，如图5所示，跨模态中心对比损失可以作用于模态的共性特征空间，本实施例中可以采用初始的重识别模型处理多种特征距离信息，例如：处理不同类别的目标的特征中心点之间的距离，或者处理相同类别目标对应于不同模态的特征中心点之间的距离，得到跨模态中心对比损失值。

S307：根据初始损失值、感知边缘损失值、以及跨模态中心对比损失值训练初始的重识别模型，以得到目标重识别模型。

一些实施例，可以首先根据初始损失值、感知边缘损失值、以及跨模态中心对比损失值生成目标损失值，该目标损失值例如可以是初始损失值、感知边缘损失值、以及跨模态中心对比损失值之和，则目标损失值可以表示为：

其中，

表示感知边缘损失值，

表示初始损失值，

可以表示跨模态中心对比损失值。

进一步地，根据目标损失值训练初始的重识别模型，即：根据目标损失值调整重识别模型的参数，直至目标损失值满足设定条件，例如：满足模型收敛的条件，则将训练得到的重识别模型作为目标重识别模型。从而，在模型训练过程中，结合了多任务损失(即多种损失值)对模态特性特征空间和共性特征空间进行了针对性的优化调整，增强了模型的跨模态特征提取能力，并且可以使模型提取更加具有辨别性的特征，能够满足跨模态目标重识别对特征的要求，从而提高目标重识别的效果。

本实施例中，通过获取多个图像，多个图像分别具有对应的多种模态和对应的多个标注目标类别，并获取与多种模态分别对应的多个卷积特征图，并获取与多种模态分别对应的多个边缘特征图，并获取与多种模态分别对应的多种特征距离信息，以及根据多个图像、多个卷积特征图、多个边缘特征图、多种特征距离信息，以及多个标注目标类别训练初始的重识别模型，以得到目标重识别模型，因此训练的重识别模型能够充分挖掘多种模态图像中的特征，能够增强不同模态下图像匹配的准确度，从而提升跨模态的目标重识别的效果。进而解决了相关技术中存在的网络模型对多模态图像中的特征挖掘不够充分，影响跨模态的目标重识别的效果的技术问题。此外，采用身份损失值作为初始损失值，可以使模型具有更好的行人重识别的效果。采用VGGNet-16作为第一网络结构，可以深度的识别卷积特征图和边缘特征图之间的损失，从而提高感知损失值的准确性。并且在模型训练过程中，结合了多任务损失(即多种损失值)对模态特性特征空间和共性特征空间进行了针对性的优化调整，增强了模型的跨模态特征提取能力，并且可以使模型提取更加具有辨别性的特征，能够满足跨模态目标重识别对特征的要求，从而提高目标重识别的效果。

图6是根据本公开另一实施例提供的目标重识别模型的训练方法的流程示意图。参考图6所示，该方法包括：

S601：获取多个图像，多个图像分别具有对应的多种模态和对应的多个标注目标类别。

S602：获取与多种模态分别对应的多个卷积特征图，并获取与多种模态分别对应的多个边缘特征图。

S601-S602的具体说明可以参见上述实施例，此处不在赘述。

S603：将多个图像分别输入至批标准化层之中，以得到批标准化层输出的与多个图像分别对应的多个特征向量。

一些实施例，如图2所示，初始的重识别模型还包括批标准化层(BatchNormalization，BN)，在获取与多种模态分别对应的多种特征距离信息的操作中，首先将多个图像分别输入至批标准化层之中，以得到BN层输出的与多个图像分别对应的多个特征向量(例如用f_i ^m表示)。

S604：根据多个特征向量，确定与多个图像分别对应的多个目标的特征中心点。

举例而言，在一个批次(Batch)中有P个类别的目标，每类包含K张RGB图像和K张IR图像，即B＝2×P×K，假设用

表示第k类目标不同模态的特征中心点，则特征中心点可以表示为：

其中，m∈{rgb,ir}，通过该公式可以计算得到

和

则第k类目标的特征中心点

S605：确定不同目标的特征中心点之间的第一距离，并确定相同目标对应于不同模态的特征中心点之间的第二距离，第一距离和第二距离共同构成多种特征距离信息。

进一步地，确定不同目标的特征中心点之间的第一距离，即：确定不同类别的目标特征的中心之间的距离，可以用d_inter表示第一距离。并且，还可以确定相同目标对应于不同模态的特征中心点之间的第二距离，即：确定同一类别的目标两个模态的特征的中心之间的距离，可以用d_intra表示第二距离，并将第一距离和第二距离共同构成多种特征距离信息。因此，通过目标的特征中心点之间的关系确定多种特征距离信息，可以约束模态中心和类别中心的关系，能够很好的调整模型的特征提取能力。

可以理解的是，上述实例只是对获取多种特征距离信息进行示例性说明，在实际应用中，还可以采用其它任意可能的方式进行获取，此处不作限制。

S606：采用初始的重识别模型处理多个图像，以得到初始损失值。

一些实施例中，在确定初始损失值的操作中，还可以参考多个标注目标类别对多个图像进行图像划分，以得到三元样本集合，三元样本集合可以包括：多个图像(用

表示)、多个第一图像(用

)，以及多个第二图像(用

表示)，

集合中的多个第一图像对应相同标注目标类别，

集合中的多个第二图像对应不同标注目标类别，

和

可以构成正样本对，

和

可以构成负样本对。

进一步地，确定图像的特征向量和第一图像的特征向量之间的第一欧式距离，特征向量由批标准化层输出，也即是说，可以采用批标准化层(BN)对图像的特征向量和第一图像的特征向量之间的距离进行计算，得到第一欧式距离。

并且，还可以确定图像的特征向量和第二图像的特征向量之间的第二欧式距离，第一欧式距离和第二欧式距离例如可以用d表示。

进一步地，根据多个第一欧式距离和多个第二欧式距离，确定三元损失值，并将三元损失值作为初始损失值，初始损失值计算公式如下：

其中，

d_ii+表示第一欧式距离，d_ii-表示第二欧式距离，

和分别

表示的是正样本对和负样本对的集合。从而，在模型训练过程中还可以结合带权重的三元损失函数(WRT Loss)，引入了正负样本概念，使得分类预测结果更加聚集，且使分类间能够更加远离。

S607：采用初始的重识别模型处理多个卷积特征图和多个边缘特征图，以得到感知边缘损失值。

S607的具体说明可以参见上述实施例，此处不在赘述。

S608：采用初始的重识别模型从多个第一距离确定出第一目标距离，第一目标距离是多个第一距离中值最小的第一距离。

其中，多个第一距离中值最小的第一距离可以被称为第一目标距离，例如：

表示的是所有d_inter中的最小值，则

可以作为该第一目标距离。

S609：根据第一目标距离和多个第二距离，以及目标的数量计算得到跨模态中心对比损失值。

进一步地，根据第一目标距离和多个第二距离，以及目标的数量计算得到跨模态中心对比损失值，跨模态中心对比损失值(可以称为CMCC损失)计算公式如下：

本实施例中，通过CMCC损失可以拉近同类别的不同模态之间的距离，同时拉远不同类别的特征之间的距离，从而优化了模型提取的特征f_i ^m的分布状态，便于后期使用该层特征进行目标重识别的匹配工作。

S610：根据初始损失值、感知边缘损失值、以及跨模态中心对比损失值训练初始的重识别模型，以得到目标重识别模型。

例如：根据初始损失值、感知边缘损失值、以及跨模态中心对比损失值生成目标损失值，该目标损失值例如可以是初始损失值、感知边缘损失值、以及跨模态中心对比损失值之和，则目标损失值可以表示为：

其中，

表示感知边缘损失值，

和

表示初始损失值，

可以表示跨模态中心对比损失值。进一步地，根据目标损失值训练初始的重识别模型。

本实施例中，通过获取多个图像，多个图像分别具有对应的多种模态和对应的多个标注目标类别，并获取与多种模态分别对应的多个卷积特征图，并获取与多种模态分别对应的多个边缘特征图，并获取与多种模态分别对应的多种特征距离信息，以及根据多个图像、多个卷积特征图、多个边缘特征图、多种特征距离信息，以及多个标注目标类别训练初始的重识别模型，以得到目标重识别模型，因此训练的重识别模型能够充分挖掘多种模态图像中的特征，能够增强不同模态下图像匹配的准确度，从而提升跨模态的目标重识别的效果。进而解决了相关技术中存在的网络模型对多模态图像中的特征挖掘不够充分，影响跨模态的目标重识别的效果的技术问题。此外，通过目标的特征中心点之间的关系确定多种特征距离信息，可以约束模态中心和类别中心的关系，能够很好的调整模型的特征提取能力。并且，通过CMCC损失可以拉近同类别的不同模态之间的距离，同时拉远不同类别的特征之间的距离，从而优化了模型提取的特征f_i ^m的分布状态，便于后期使用该层特征进行目标重识别的匹配工作。

在实际应用中，如图2所示，目标重识别模型的主干网络为卷积神经网络(这里使用的是ResNet50)，具体来说，针对彩色图像和红外图像两种模态的输入，本公开将ResNet50分为了两部分，其中开始阶段的卷积层(ResNet Layer0)采用了双流的设计，之后的四个阶段的卷积层(ResNet Layer1-4)使用了双流共享的权重的策略，统一的提取两种模态的信息，之后对卷积层得到的特征图进行池化操作(本实施例中使用的是Generalized-mean(GeM)Pooling)，再通过批量正则化的处理(Batch Normalization\BN)，得到对应于每张图像提取的特征向量(用于测试应用过程中的图像重识别匹配)，特征向量在训练过程中会继续通过全连接(FC)层及Softmax运算，得到对目标物体的分类分数。

模型训练过程中，使用了多任务损失函数，如式1所示，其中融合了四种损失函数，分别是身份损失(Id Loss)、带权重的三元损失(WRT Loss)、感知边缘损失(PEF Loss)与跨模态中心对比损失(CMCC Loss)。其中前两种损失为目前已有方法中常用的损失函数，后两种损失(PEF Loss和CMCC Loss)为本公开中新提出的损失函数，下面对前两种损失进行简单介绍，之后重点讲解后两种损失函数。

假设rgb、ir分别代表RGB图像模态和IR图像模态，令

表示输入的RGB图像和IR图像数据集，其中m∈{rgb,ir}，H和W分别表示图像的高和宽，3表示图像的通道数(RGB图像包含R\G\B三个通道，IR图像通过重复其单通道3次转化为3通道)。假设在训练过程中一个批次(Batch)中包含B张图片，令

表示其中的一张RGB或IR图像，则i∈{1,2,...,B}。

(1)身份损失(Id Loss)和带权重的三元损失(WRT Loss)

(1.1)身份损失(Id Loss)：

如图1(a)，输入图像

通过网络模型得到最终全连接(FC)层及Softmax操作之后的向量，这里用p_i表示，其对应标签的独热(one-hot)编码用y_i表示：

其中j∈{1,2,...,N}，N为数据训练集中目标物体的类别数量，则Id Loss可表示为：

(1.2)带权重的三元损失(WRT Loss)：

如图1(a)所示，WRT损失

是由模型批量正则化(BN)层以及L2-Norm运算之后得到的特征向量进行计算的，该损失函数的运算公式如下所示：

其中

表示的是一个三元样本集，其中包括样本

同类别的样本

和不同类别的样本

和

构成正样本对，

和

构成负样本对，d表示的是特征向量之间的欧氏距离，

和分别

表示的是正样本对和负样本对的集合。

(2)感知边缘损失(PEF Loss)

如图1(a)和(b)所示，感知边缘损失作用于模态的特性特征空间，该部分特征由不共享的ResNet Layer0所生成，为了解决RGB模态和IR模态之间的特征差异，PEF损失使用目标的边缘轮廓信息作为指导，针对特性特征空间进行了直接优化，从而实现了对模态间共性特征的挖掘。

具体来说，如图1(b)所示，这里以其中一个模态的损失计算为例，PEF损失的计算包含两个输入：一个是ResNet Layer0所提取的卷积特征图；另一个分支则是对原始模态输入的图像使用Sobel算子进行卷积操作，提取其边缘信息，得到边缘特征图。之后，PEF中计算了边缘特征图和卷积特征图之间的感知损失，使用在ImageNet上训练好的VGGNet-16模型作为感知网络，这里使用φ＝{φ₁,φ₂,φ₃,φ₄}表示其中的四个阶段，令φ_t(z)表示由第0-t个阶段的感知网络所提取的特征图，假设其形状为C_t×H_t×W_t，PEF损失的计算公式如下所示：

其中z和

分别表示输入的卷积特征图和边缘特征图，RGB和IR两个模态的PEF损失的计算如下：

其中的

和

分别表示的是两个模态各自的ResNet Layer0所提取的卷积特征图，

和

分别代表了对应模态的边缘特征图，最终的损失是两个模态的损失之和。

在感知边缘损失(PEF Loss)中，使用了先验知识边缘轮廓信息作为模态共性特征的指导，使得不共享的Layer-0所提取的模态特性特征更具一致性，有利于降低模态间的差异，从而更好的实现跨模态的目标重识别任务。

(3)跨模态中心对比损失(CMCC Loss)

本公开提出了一种新的跨模态中心对比损失，该损失作用于模态的共性特征空间，即图1(a)BN层之后的特征向量(假设用f_i ^m表示)所处的空间。假设在一个Batch中有P个类别的目标物体，每类包含K张RGB图像和K张IR图像，即B＝2×P×K，用d_inter表示不同类别的物体特征的中心之间的距离，d_intra表示同一类别的物体两个模态的特征的中心之间的距离，假设用

表示第k类物体不同模态的特征中心，则其计算公式为：

其中m∈{rgb,ir}，通过公式8可以计算得到

和

则第k类目标物体特征的中心

之后可以得到CMCC损失

的计算公式如下所示：

其中

表示的是所有d_inter中的最小值，通过优化该损失函数可以拉近同类别的不同模态之间的距离，同时拉远不同类别的特征之间的距离，从而优化了模型提取的特征f_i ^m的分布状态，便于后期使用该层特征进行目标重识别的匹配工作。

图7是根据本公开实施例提供的目标重识别模型的训练流程图，如图7所示，包括以下步骤：

(1)输入图像预处理阶段

步骤1-1：读取跨模态的目标重识别图像数据集，获取原始图像及对应的目标物体的类别信息；

其中，数据集包括：训练集(train set)和测试集(test set)，包括原始图像和图像对应的物体类别标签，在训练过程中，使用图像输入模型，之后结合类别标签计算损失函数，在测试过程中，将测试集划分为待查询集合(query)和待匹配集合(gallery)，用于测试模型的重识别性能；

算法模型超参数：包括模型训练过程中输入图像的尺寸、批量(Batch)大小、批量中不同模态的目标物体和数量、图像数据增强的方式、训练迭代轮数(Epoch)、学习率(learning rate)调整策略，使用的优化器(optimizer)类型，具体如下。

模型训练过程中输入图像尺寸：288*144；

批量大小为：64(包括8个目标物体，每个模态的一个目标物体有4张图像)；

图像数据增强的方式：随机裁剪、水平翻转；

训练迭代轮数为：200；

优化器：采用Adam优化器，权重衰减(weight decay)为0.0005；

学习率调整策略：

学习率在前10个epoch期间从0.0005线性增大至0.005，10-20个epoch维持0.005，之后每隔5个epoch衰减为原来的十分之一，直至第35个epoch到训练结束都维持0.000005。

步骤1-2：根据设定的Batch大小、Batch中的类别数量和每个类别下的图像数量，将RGB、IR两种模态的数据整理成一个批次(Batch)；

步骤1-3：对图像做标准化操作，之后将图像调整到设置的宽高尺寸，并对其进行指定的数据增强变换，之后将成批的数据加载到GPU显存中，用于之后输入到训练的模型中，并使用对应的标签参与后期损失的计算。

(2)特征提取阶段

步骤2-1：将两种模态的图像数据分别沿双流特征提取网络(如图2所示结构)输入，将每个模态的数据送入到各自的入口分支；

步骤2-2：输入的数据进行逐层的传递，进行对应层级的计算，依次通过模态特性部分和模态共性部分；

步骤2-3：通过步骤2-2的前向传播，可以获取到中间特征及最后的分类预测分数，将用于下一阶段的多任务损失计算。

(3)多任务损失计算阶段

步骤3-1：针对一个Batch的输入数据，根据上述式1-9计算方式，可以得到

和

步骤3-2：将四种损失相加得到最终的多任务损失

值。

(4)模型迭代优化阶段

步骤4-1：本公开的实施代码使用了自动微分的PyTorch深度学习框架，该框架支持直接从计算的多任务损失值出发，进行整个算法模型的反向传播，计算其中可学习参数的梯度值；

步骤4-2：采用设定的优化器利用步骤4-1中计算的梯度，对模型算法的可学习参数进行更新优化操作；

步骤4-3：重复上述所有步骤，并在此过程中不断更新模型参数，直至达到设定的训练轮数，之后停止对算法模型的训练过程。

(5)模型测试评估阶段

步骤5-1：对测试集进行划分，将IR图像作为待查询集合(query)，将RGB图像作为待匹配集合(gallery)，测试的方式是使用物体的IR图像作为query，在RGB图像集合中匹配该物体的图像，从而检测模型的跨模态目标重识别性能；

步骤5-2：在测试过程中，读取测试集的图像(包括query和gallery的图像)，将两种模态的数据都输入到测试模型中，通过模型的前向传播与逐层运算得到每张图像的特征向量(图2中BN层之后的特征向量)；

步骤5-3：使用余弦距离进行query图像和所有gallery图像之间的相似性度量，之后根据距离大小进行排序，得到每个query图像(IR图像)所匹配的gallery图像(RGB图像)列表；

步骤5-4：计算目标重识别任务中常用的评价指标Rank-n以及mAP，通过观察指标数值对模型性能进行评估；

步骤5-4：如果评估结果没有达到设定的要求，可以调整模型的超参数，从流程步骤的第一步重新开始，继续对算法模型进行训练，若评估的各项指标达到要求，之后则进行模型权重的保存，权重和模型代码即为最终的跨模态目标重识别解决方案。

本实施例技术方案中：

1、使用了多任务损失对模态特性特征空间和共性特征空间进行了针对性的优化调整，端到端的完成跨模态目标重识别任务。

2、提出了感知边缘损失，能够采用图像的边缘信息作为指导，挖掘模态特性空间中的共性信息，减小了不同模态之间的差异。

3、提出了跨模态中心对比损失，其作用于共性特征空间，通过约束模态中心和类别中心的关系，能够很好的调整模型的特征提取能力，使模型达到优秀的性能。

通过本方案可以对特征空间优化，提出了特性特征空间和共性特征空间的划分，并进行了针对性的调整优化，从而实现了一种高效的端到端的跨模态目标重识别方法。在实施例中，提出的感知边缘损失可以直接约束不同模态的特征，为模型特征提取过程引入先验知识，增强了模型的跨模态特征提取能力；提出的跨模态中心对比损失可以使模型提取更加具有辨别性的特征，其有效的减小了同类物体模态间差异，增大了不同类物体特征差异，有利于模型对跨模态数据进行正确的重识别。

图8是根据本公开另一实施例提供的目标重识别方法的流程示意图。参考图8所示，该方法包括：

S801：获取参考图像和待识别图像，参考图像和待识别图像的模态不相同，参考图像包括：参考类别。

其中，参考图像和待识别图像可以是任意场景下采集的图像，并且参考图像和待识别图像的模态不相同。

一些实施例，参考图像可以是RGB模态的图像，待识别图像可以是IR模态的图像；或者参考图像可以是IR模态的图像，待识别图像可以是RGB模态的图像，对此不作限制。

并且，参考图像还对应有参考类别，其中，参考类别用于描述参考图像中目标对象的类别，例如：目标对象的类别为车辆、行人以及其它任意可能的类别，对此不作限制。

S802：将参考图像和待识别图像分别输入至上述的目标重识别模型的训练方法训练得到的目标重识别模型之中，以得到目标重识别模型输出的与待识别图像对应的目标，目标具有对应的目标类别，目标类别与参考类别相匹配。

上述获取参考图像和待识别图像后，进一步地，将参考图像和待识别图像输入至上述实施例训练得到的目标重识别模型中，通过目标重识别模型可以输出待识别图像对应的目标和对应的目标类别，其中，目标类别与参考类别相匹配，例如：目标类别和参考类别为同一车辆。

也即是说，通过目标重识别模型，从待识别图像中识别出与参考图像中目标对象相同的对象，以实现跨模态目标重识别的目的。

本公开实施例，通过获取参考图像和待识别图像，参考图像和待识别图像的模态不相同，参考图像包括：参考类别，并将参考图像和待识别图像分别输入至目标重识别模型的训练方法训练得到的目标重识别模型之中，以得到目标重识别模型输出的与待识别图像对应的目标，目标具有对应的目标类别，目标类别与参考类别相匹配。由于采用上述目标重识别模型的训练方法训练的目标重识别模型对待识别图像进行识别，从而，能够充分挖掘待识别图像的特征，能够增强不同模态下图像匹配的准确度，从而提升跨模态的目标重识别的效果。

图9是根据本公开另一实施例提供的目标重识别模型的训练装置的示意图。参考图9所示，该目标重识别模型的训练装置90包括：

第一获取模块901，用于获取多个图像，多个图像分别具有对应的多种模态和对应的多个标注目标类别；

第二获取模块902，用于获取与多种模态分别对应的多个卷积特征图，并获取与多种模态分别对应的多个边缘特征图；

第三获取模块903，用于获取与多种模态分别对应的多种特征距离信息；以及

训练模块904，用于根据多个图像、多个卷积特征图、多个边缘特征图、多种特征距离信息，以及多个标注目标类别训练初始的重识别模型，以得到目标重识别模型。

可选地，一些实施例中，图10是根据本公开另一实施例提供的目标重识别模型的训练装置的示意图，如图10所示，训练模块904，包括：

第一处理子模块9041，用于采用初始的重识别模型处理多个图像，以得到初始损失值；

第二处理子模块9042，用于采用初始的重识别模型处理多个卷积特征图和多个边缘特征图，以得到感知边缘损失值；

第三处理子模块9043，用于采用初始的重识别模型处理多种特征距离信息，以得到跨模态中心对比损失值；

训练子模块9044，用于根据初始损失值、感知边缘损失值、以及跨模态中心对比损失值训练初始的重识别模型，以得到目标重识别模型。

可选地，一些实施例中，初始的重识别模型包括：第一网络结构，第一网络结构用于识别卷积特征图和边缘特征图之间的感知损失值。

可选地，一些实施例中，第二处理子模块9042，具体用于：

将多个卷积特征图和多个边缘特征图输入至第一网络结构之中，以得到与多个卷积特征图分别对应的多个卷积损失特征图，并得到与多个边缘特征图分别对应的多个边缘损失特征图；

确定与多个卷积损失特征图分别对应的多个卷积特征图参数，并确定与多个边缘损失特征图分别对应的多个边缘特征图参数；

根据多个卷积特征图参数处理对应的多个卷积损失特征图，以得到多个第一感知边缘损失值；

根据多个边缘特征图参数处理对应的多个边缘损失特征图，以得到多个第二感知边缘损失值；以及

根据多个第一感知边缘损失值和多个第二感知边缘损失值，生成感知边缘损失值。

可选地，一些实施例中，如图10所示，初始的重识别模型包括：批标准化层，第三获取模块903，包括：

标准化处理子模块9031，用于将多个图像分别输入至批标准化层之中，以得到批标准化层输出的与多个图像分别对应的多个特征向量；

中心点确定子模块9032，用于根据多个特征向量，确定与多个图像分别对应的多个目标的特征中心点；

距离确定子模块9033，用于确定不同目标的特征中心点之间的第一距离，并确定相同目标对应于不同模态的特征中心点之间的第二距离，第一距离和第二距离共同构成多种特征距离信息。

可选地，一些实施例中，第三处理子模块9043，具体用于：

采用初始的重识别模型从多个第一距离确定出第一目标距离，第一目标距离是多个第一距离中值最小的第一距离；

根据第一目标距离和多个第二距离，以及目标的数量计算得到跨模态中心对比损失值。

可选地，一些实施例中，初始的重识别模型包括：顺序连接的全连接层和输出层，第一处理子模块9041，具体用于：

将多个图像顺序输入至全连接层和输出层之中，以得到输出层输出的与多个图像分别对应的多个类别特征向量；

确定与多个标注目标类别分别对应的多个编码向量；

根据多个类别特征向量和对应的多个编码向量，生成身份损失值，并将身份损失值作为初始损失值。

可选地，一些实施例中，第一处理子模块9041，具体用于：

参考多个标注目标类别对多个图像进行图像划分，以得到三元样本集合，三元样本集合包括：多个图像、多个第一图像，以及多个第二图像，多个第一图像对应相同标注目标类别，多个第二图像对应不同标注目标类别；

确定图像的特征向量和第一图像的特征向量之间的第一欧式距离，特征向量由批标准化层输出；

确定图像的特征向量和第二图像的特征向量之间的第二欧式距离；以及

根据多个第一欧式距离和多个第二欧式距离，确定三元损失值，并将三元损失值作为初始损失值。

可选地，一些实施例中，训练子模块9044，具体用于：

根据初始损失值、感知边缘损失值、以及跨模态中心对比损失值生成目标损失值；

如果目标损失值满足设定条件，则将训练得到的重识别模型作为目标重识别模型。

可选地，一些实施例中，多种模态包括：彩色图像模态和红外图像模态。

需要说明的是，前述对目标重识别模型的训练方法的解释说明也适用于本实施例的装置，此处不再赘述。

图11是根据本公开另一实施例提供的目标重识别装置的示意图。参考图11所示，该目标重识别装置100包括：

第四获取模块1001，用于获取参考图像和待识别图像，参考图像和待识别图像的模态不相同，参考图像包括：参考类别；

识别模块1002，用于将参考图像和待识别图像分别输入至上述目标重识别模型的训练方法训练得到的目标重识别模型之中，以得到目标重识别模型输出的与待识别图像对应的目标，目标具有对应的目标类别，目标类别与参考类别相匹配。

本公开实施例，可以采用上述目标重识别模型的训练方法训练的目标重识别模型对待识别图像进行识别，确定待识别图像对应的目标。从而，能够充分挖掘待识别图像的特征，能够增强不同模态下图像匹配的准确度，从而提升跨模态的目标重识别的效果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

为了实现上述实施例，本公开还提出一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行如本公开前述实施例提出的目标重识别模型的训练方法。

图12示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图12显示的计算机设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图12未显示，通常称为“硬盘驱动器”)。

尽管图12中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及目标重识别模型的训练，例如实现前述实施例中提及的目标重识别模型的训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

需要说明的是，在本公开的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种目标重识别模型的训练方法，其特征在于，所述方法包括：

获取多个图像，所述多个图像分别具有对应的多种模态和对应的多个标注目标类别；

获取与所述多种模态分别对应的多个卷积特征图，并获取与所述多种模态分别对应的多个边缘特征图；

获取与所述多种模态分别对应的多种特征距离信息；以及

根据所述多个图像、所述多个卷积特征图、所述多个边缘特征图、所述多种特征距离信息，以及所述多个标注目标类别训练初始的重识别模型，以得到目标重识别模型。

2.如权利要求1所述的方法，其特征在于，所述根据所述多个图像、所述多个卷积特征图、所述多个边缘特征图、所述多种特征距离信息，以及所述多个标注目标类别训练初始的重识别模型，以得到目标重识别模型，包括：

采用所述初始的重识别模型处理所述多个图像，以得到初始损失值；

采用所述初始的重识别模型处理所述多个卷积特征图和所述多个边缘特征图，以得到感知边缘损失值；

采用所述初始的重识别模型处理所述多种特征距离信息，以得到跨模态中心对比损失值；

根据所述初始损失值、所述感知边缘损失值、以及所述跨模态中心对比损失值训练所述初始的重识别模型，以得到所述目标重识别模型。

3.如权利要求2所述的方法，其特征在于，所述初始的重识别模型包括：第一网络结构，所述第一网络结构用于识别所述卷积特征图和所述边缘特征图之间的感知损失值。

4.如权利要求3所述的方法，其特征在于，所述采用所述初始的重识别模型处理所述多个卷积特征图和所述多个边缘特征图，以得到感知边缘损失值，包括：

将所述多个卷积特征图和所述多个边缘特征图输入至所述第一网络结构之中，以得到与所述多个卷积特征图分别对应的多个卷积损失特征图，并得到与所述多个边缘特征图分别对应的多个边缘损失特征图；

确定与所述多个卷积损失特征图分别对应的多个卷积特征图参数，并确定与所述多个边缘损失特征图分别对应的多个边缘特征图参数；

根据所述多个卷积特征图参数处理对应的所述多个卷积损失特征图，以得到多个第一感知边缘损失值；

根据所述多个边缘特征图参数处理对应的所述多个边缘损失特征图，以得到多个第二感知边缘损失值；以及

根据所述多个第一感知边缘损失值和所述多个第二感知边缘损失值，生成所述感知边缘损失值。

5.如权利要求2所述的方法，其特征在于，所述初始的重识别模型包括：批标准化层，所述获取与所述多种模态分别对应的多种特征距离信息，包括：

将所述多个图像分别输入至所述批标准化层之中，以得到所述批标准化层输出的与所述多个图像分别对应的多个特征向量；

根据所述多个特征向量，确定与所述多个图像分别对应的多个目标的特征中心点；

确定不同所述目标的特征中心点之间的第一距离，并确定相同所述目标对应于不同所述模态的特征中心点之间的第二距离，所述第一距离和所述第二距离共同构成所述多种特征距离信息。

6.如权利要求5所述的方法，其特征在于，所述采用所述初始的重识别模型处理所述多种特征距离信息，以得到跨模态中心对比损失值，包括：

采用所述初始的重识别模型从多个第一距离确定出第一目标距离，所述第一目标距离是所述多个第一距离中值最小的所述第一距离；

根据所述第一目标距离和多个所述第二距离，以及所述目标的数量计算得到所述跨模态中心对比损失值。

7.如权利要求2所述的方法，其特征在于，所述初始的重识别模型包括：顺序连接的全连接层和输出层，所述采用所述初始的重识别模型处理所述多个图像，以得到初始损失值，包括：

将所述多个图像顺序输入至所述全连接层和输出层之中，以得到所述输出层输出的与所述多个图像分别对应的多个类别特征向量；

确定与所述多个标注目标类别分别对应的多个编码向量；

根据所述多个类别特征向量和对应的所述多个编码向量，生成身份损失值，并将所述身份损失值作为所述初始损失值。

8.如权利要求5所述的方法，其特征在于，所述采用所述初始的重识别模型处理所述多个图像，以得到初始损失值，包括：

参考所述多个标注目标类别对所述多个图像进行图像划分，以得到三元样本集合，所述三元样本集合包括：所述多个图像、多个第一图像，以及多个第二图像，所述多个第一图像对应相同所述标注目标类别，所述多个第二图像对应不同所述标注目标类别；

确定所述图像的特征向量和所述第一图像的特征向量之间的第一欧式距离，所述特征向量由所述批标准化层输出；

确定所述图像的特征向量和所述第二图像的特征向量之间的第二欧式距离；以及

根据多个所述第一欧式距离和多个所述第二欧式距离，确定三元损失值，并将所述三元损失值作为所述初始损失值。

9.如权利要求2所述的方法，其特征在于，所述根据所述初始损失值、所述感知边缘损失值、以及所述跨模态中心对比损失值训练所述初始的重识别模型，以得到所述目标重识别模型，包括：

根据所述初始损失值、所述感知边缘损失值、以及所述跨模态中心对比损失值生成目标损失值；

如果所述目标损失值满足设定条件，则将训练得到的所述重识别模型作为所述目标重识别模型。

10.如权利要求1-9任一项所述的方法，其特征在于，所述多种模态包括：彩色图像模态和红外图像模态。

11.一种目标重识别方法，其特征在于，包括：

获取参考图像和待识别图像，所述参考图像和所述待识别图像的模态不相同，所述参考图像包括：参考类别；

将所述参考图像和所述待识别图像分别输入至上述权利要求1-10任一项所述的目标重识别模型的训练方法训练得到的目标重识别模型之中，以得到所述目标重识别模型输出的与所述待识别图像对应的目标，所述目标具有对应的目标类别，所述目标类别与所述参考类别相匹配。

12.一种目标重识别模型的训练装置，其特征在于，包括：

第一获取模块，用于获取多个图像，所述多个图像分别具有对应的多种模态和对应的多个标注目标类别；

第二获取模块，用于获取与所述多种模态分别对应的多个卷积特征图，并获取与所述多种模态分别对应的多个边缘特征图；

第三获取模块，用于获取与所述多种模态分别对应的多种特征距离信息；以及

训练模块，用于根据所述多个图像、所述多个卷积特征图、所述多个边缘特征图、所述多种特征距离信息，以及所述多个标注目标类别训练初始的重识别模型，以得到目标重识别模型。

13.如权利要求12所述的装置，其特征在于，所述训练模块，包括：

第一处理子模块，用于采用所述初始的重识别模型处理所述多个图像，以得到初始损失值；

第二处理子模块，用于采用所述初始的重识别模型处理所述多个卷积特征图和所述多个边缘特征图，以得到感知边缘损失值；

第三处理子模块，用于采用所述初始的重识别模型处理所述多种特征距离信息，以得到跨模态中心对比损失值；

训练子模块，用于根据所述初始损失值、所述感知边缘损失值、以及所述跨模态中心对比损失值训练所述初始的重识别模型，以得到所述目标重识别模型。

14.如权利要求13所述的装置，其特征在于，所述初始的重识别模型包括：第一网络结构，所述第一网络结构用于识别所述卷积特征图和所述边缘特征图之间的感知损失值。

15.如权利要求14所述的装置，其特征在于，所述第二处理子模块，具体用于：

16.如权利要求13所述的装置，其特征在于，所述初始的重识别模型包括：批标准化层，所述第三获取模块，包括：

标准化处理子模块，用于将所述多个图像分别输入至所述批标准化层之中，以得到所述批标准化层输出的与所述多个图像分别对应的多个特征向量；

中心点确定子模块，用于根据所述多个特征向量，确定与所述多个图像分别对应的多个目标的特征中心点；

距离确定子模块，用于确定不同所述目标的特征中心点之间的第一距离，并确定相同所述目标对应于不同所述模态的特征中心点之间的第二距离，所述第一距离和所述第二距离共同构成所述多种特征距离信息。

17.如权利要求16所述的装置，其特征在于，第三处理子模块，具体用于：

18.如权利要求13所述的装置，其特征在于，所述初始的重识别模型包括：顺序连接的全连接层和输出层，所述第一处理子模块，具体用于：

确定与所述多个标注目标类别分别对应的多个编码向量；

19.如权利要求16所述的装置，其特征在于，所述第一处理子模块，具体用于：

20.如权利要求13所述的装置，其特征在于，所述训练子模块，具体用于：

21.如权利要求12-20任一项所述的装置，其特征在于，所述多种模态包括：彩色图像模态和红外图像模态。

22.一种目标重识别装置，其特征在于，包括：

第四获取模块，用于获取参考图像和待识别图像，所述参考图像和所述待识别图像的模态不相同，所述参考图像包括：参考类别；

识别模块，用于将所述参考图像和所述待识别图像分别输入至上述权利要求12-21任一项所述的目标重识别模型的训练装置训练得到的目标重识别模型之中，以得到所述目标重识别模型输出的与所述待识别图像对应的目标，所述目标具有对应的目标类别，所述目标类别与所述参考类别相匹配。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法，或者执行权利要求11所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法，或者执行权利要求11所述的方法。