CN112257619A

CN112257619A - 一种目标重识别方法、装置、设备及存储介质

Info

Publication number: CN112257619A
Application number: CN202011168154.3A
Authority: CN
Inventors: 张玉康; 谭磊; 谢佩博; 申省梅; 马原
Original assignee: Beijing Pengsi Technology Co ltd
Current assignee: Xi'an Hanwenxuan Network Technology Co.,Ltd.
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-22

Abstract

本申请实施例提供一种目标重识别方法、装置、设备及存储介质，其中，所述方法包括：确定获取的待识别图像的色彩通道数；将包括目标对象的目标图像，分解为色彩通道数与所述待识别图像的色彩通道数相同的多个通道图像，得到通道图像集合；对所述通道图像集合中的通道图像和所述待识别图像进行特征提取，分别得到通道图像特征集合和待识别图像特征；基于所述通道图像特征集合和待识别图像特征，确定所述待识别图像中的待识别对象与所述目标对象的相似度，以得到识别结果。

Description

一种目标重识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，涉及但不限于一种目标重识别方法、装置、设备及存储介质。

背景技术

在跨模态(比如，可见光到红外光)行人重识别方法中，通过直接匹配可见光(Visual Identification System，VIS)图像与IR图像的方式实现。在实现过程中，由于VIS图像与红外(Infrared，IR)图像在特征空间中存在比较大的模态差异，使得两类图像不容易聚类，从而影响了对IR图像的进行行人重识别的准确度。

发明内容

本申请实施例提供一种目标重识别技术方案。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种目标重识别方法，所述方法包括：

确定获取的待识别图像的色彩通道数；

将包括目标对象的目标图像，分解为色彩通道数与所述待识别图像的色彩通道数相同的多个通道图像，得到通道图像集合；

对所述通道图像集合中的通道图像和所述待识别图像进行特征提取，分别得到通道图像特征集合和待识别图像特征；

基于所述通道图像特征集合和待识别图像特征，确定所述待识别图像中的待识别对象与所述目标对象的相似度，以得到识别结果。

本申请实施例提供一种目标重识别装置，所述装置包括：

第一确定模块，用于确定获取的待识别图像的色彩通道数；

第一分解模块，用于将包括目标对象的目标图像，分解为色彩通道数与所述待识别图像的色彩通道数相同的多个通道图像，得到通道图像集合；

第一提取模块，用于对所述通道图像集合中的通道图像和所述待识别图像进行特征提取，分别得到通道图像特征集合和待识别图像特征；

第二确定模块，用于基于所述通道图像特征集合和待识别图像特征，确定所述待识别图像中的待识别对象与所述目标对象的相似度，以得到识别结果。

对应地，本申请实施例提供一种目标重识别设备，所述目标重识别设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时，能够实现上述所述的方法的步骤。

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述所述的方法的步骤。

本申请实施例提供一种目标重识别方法、装置、设备及存储介质，首先，通过确定待识别图像的色彩通道数，将目标图像分解为与待识别图像通道数相同的多个通道图像，如此，能够显著降低图像之间由于通道不一致导致的模态间的差异；然后，采用多个通道图像的图像特征与待识别图像特征进行匹配，以确定待识别图像中的待识别对象与目标对象的相似度，从而识别出待识别对象是否为目标对象；如此，能够提升跨模态目标重识别的准确度。

附图说明

图1为本申请实施例目标重识别方法的实现流程示意图；

图2为本申请实施例提供的目标重识别方法的另一实现流程示意图；

图3为本申请其他实施例提供的目标重识别方法的另一实现流程示意图；

图4为本申请实施例提供的目标重识别方法的再一实现流程示意图；

图5为本申请实施例提供的目标重识别方法的实现框架示意图；

图6为本申请实施例目标重识别装置的结构组成示意图；

图7为本申请实施例目标重识别设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)行人重识别：是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。给定一个监控目标图像，检索跨设备下的该目标图像。旨在弥补固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

2)跨模态：在其他实施例中，模态内容(文本、图像、视频、音频、传感器数据等)。跨模态学习进行联合特征学习和跨模态关系建模，旨在有效地利用不同模态内容的相关性进行系统性能优化。在本申请实施例中，跨模态可以理解为是从可见光图像到近红外图像。

下面说明本申请实施例提供的目标重识别的设备的示例性应用，本申请实施例提供的设备可以实施为具有图像采集功能的笔记本电脑，平板电脑，台式计算机，相机，移动设备(例如，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。

该方法可以应用于目标重识别设备，该方法所实现的功能可以通过目标重识别设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机可读存储介质中，可见，该目标重识别设备至少包括处理器和存储介质。

图1为本申请实施例目标重识别方法的实现流程示意图，如图1所示，结合图1所示的步骤进行说明：

步骤S101，确定获取的待识别图像的色彩通道数。

在一些实施例中，待识别图像可以是存储于本地终端(如：手机、平板电脑、笔记本电脑等等)的图像集；也可以将视频中的任意帧图像作为待识别图像，还可以从视频中任意帧图像中检测出脸部区域图像，并将该脸部区域图像作为待识别图像。待识别图像可以是色彩单通道图像，比如，近红外图像或灰度图像等，还可以是色彩多通道图像，比如，可见光图像等。如果待识别图像为色彩单通道图像，那么待识别图像的色彩通道数为1，如果待识别图像为红黄蓝(Red Green Blue，RGB)图像，那么色彩通道分别为R通道、G通道和B通道，即色彩通道数为3。在本申请实施例中，以待识别图像为近红外图像为例进行说明，那么该待识别图像的色彩通道为近红外通道，色彩通道数为1。

步骤S102，将包括目标对象的目标图像，分解为色彩通道数与所述待识别图像的色彩通道数相同的多个通道图像，得到通道图像集合。

在一些实施例中，目标图像为包括目标对象的图像，可以是在可见光环境下采集的包括目标对象的图像。目标对象可以是行人、车辆或者动物等可移动的对象。如果待识别图像的色彩通道数为1，则将目标图像分解为多个单通道图像，如果待识别图像的色彩通道数为M，则将目标图像分解为多个M通道图像，M为大于1的整数。比如，目标图像为在可见光环境下采集的包括目标行人的图像，以待识别图像为近红外图像为例，由于近红外图像为单通道图像，即色彩通道数为1，那么将目标图像解耦为色彩通道为1的单通道图像。在一些可能的实现方式中，可以将目标图像解耦为R、G、B三个单通道的图像，得到的R通道图像、G通道图像和B通道图像形成通道图像集合，还可以是将目标图像解耦至其它色彩空间，比如，解耦为色调，饱和度，明度(Hue，Saturation，Value，HSV)三个单通道的图像，得到的H通道图像、S通道图像和V通道图像形成通道图像集合，或解耦为Y、Cb、Cr(其中，Y为颜色的亮度成分、而Cb和Cr分别为蓝色和红色的浓度偏移量成份)三个单通道的图像，得到的Y通道图像、Cb通道图像和Cr通道图像形成通道图像集合。即，通道图像集合中的通道图像的通道数与待识别图像的通道数相同，比如，待识别图像为近红外图像，那么通道集合中的通道图像均为单通道图像。如此，对可见光下的目标图像进行解耦，得到多个与待识别图像色彩通道数相同的通道图像，从而能够克服由于近红外图像和可见光图像的在训练时的通道不一致所造成的巨大差异，进而能够获得更加准确的识别结果。

步骤S103，对所述通道图像集合中的通道图像和所述待识别图像进行特征提取，分别得到通道图像特征集合和待识别图像特征。

在一些实施例中，对通道集合中的每一通道图像进行特征提取，并同时对待识别图像进行特征提取，得到每一通道图像的通道图像特征和待识别图像的待识别图像特征。在一些可能的实现方式中，待识别图像特征可以是对一幅待识别图像进行特征提取得到的特征，还可以是对多张待识别图像进行特征提取得到的特征，包括以下两种情况：

情况一：对待识别图像进行一次特征提取，得到单一的待识别图像的待识别图像特征。

比如，首先，将每一通道图像输入不同分支的神经网络中进行特征提取，得到每一通道图像的通道图像特征，以得到通道图像特征集合。然后，采用任一分支神经网络对待识别图像进行特征提取，得到单一的待识别图像的待识别图像特征。

情况二：将一幅通道图像与一幅待识别图像一起输入同一分支的神经网络中进行特征提取(其中，不同的通道图像输入的神经网络的分支不同)，得到每一通道图像的通道图像特征和每一分支神经网络输出的待识别图像特征，从而得到通道图像特征集合和多个待识别图像特征。

步骤S104，基于所述通道图像特征集合和待识别图像特征，确定所述待识别图像中的待识别对象与所述目标对象的相似度，以得到识别结果。

在一些实施例中，基于通道图像特征集合和待识别图像特征，确定待识别图像和目标图像的相似度，从而确定待识别图像中的待识别对象与目标对象的相似度。在一个具体例子中，如果对目标图像中的行人进行重识别，即目标对象为目标行人，通过确定目标图像与待识别图像的相似度，确定待识别图像中的行人与目标行人的相似度，如果相似度大于等于相似度阈值，识别结果为待识别图像中的行人为目标行人，如果相似度小于相似度阈值，识别结果为待识别图像中的行人不是目标行人。

在本申请实施例中，首先，通过确定待识别图像的色彩通道数，将目标图像分解为与待识别图像通道数相同的多个通道图像，如此，能够显著降低图像之间由于通道不一致导致的模态间的差异；然后，采用多个通道图像的图像特征与待识别图像特征进行匹配，以确定待识别图像中的待识别对象与目标对象的相似度，从而识别出待识别对象是否为目标对象；如此，能够提升跨模态目标重识别的准确度。

在一些实施例中，通过对多个通道图像的图像特征进行融合，计算融合特征之间的相似度，以确定待识别图像与目标图像的相似度，即步骤104可以通过以下步骤实现：

步骤S141，对通道图像特征集合中的通道图像特征进行融合，得到第一融合特征。

在一些实施例中，将多个通道图像特征，在长度上进行拼接，从而得到一个一维向量，将该一维向量作为第一融合特征。比如，将目标图像解耦为R、G、B三个单通道图像，通过对R、G、B三个单通道图像进行特征提取，得到R通道图像特征、G通道图像特征和B通道图像特征，将这样三个特征按照R通道图像特征与G通道图像特征在长度上拼接，然后再拼接B通道图像特征的顺序，得到一维向量，即得到第一融合特征。在其他实施例中，还可以是将这样三个特征按照R通道图像特征与B通道图像特征在长度上拼接，然后再拼接G通道图像特征的顺序，得到一维向量，即得到第一融合特征；还可以是将这样三个特征按照B通道图像特征与G通道图像特征在长度上拼接，然后再拼接R通道图像特征的顺序，得到一维向量，即得到第一融合特征。

步骤S142，基于第一融合特征和待识别图像特征，确定待识别对象与目标对象的相似度，以得到识别结果。

在一些实施例中，如果待识别图像特征为单张待识别图像的特征，那么通过计算第一融合特征和待识别图像特征之间的相似度，确定待识别对象与目标对象的相似度。如果待识别图像特征为多张待识别图像的特征，那么首先对多张待识别图像的特征进行融合，得到第二融合特征；然后，通过计算第一融合特征与第二融合特征的相似度，确定待识别对象与目标对象的相似度；从而确定出待识别对象是否与目标对象为同一对象。

在本申请实施例中，通过对多个通道图像的图像特征进行融合，计算融合特征之间的相似度，以确定待识别图像与目标图像的相似度，进一步的提升了跨模态目标重识别的准确率。

在一些实施例中，在待识别图像为色彩单通道图像的情况下，将目标图像解耦为色彩单通道图像，即步骤S102可以通过以下步骤实现：

步骤S121，确定目标图像的色彩通道数。

这里，如果待识别图像为色彩单通道图像，比如，近红外图像，那么首先确定出目标图像的色彩通道数；比如，目标图像为自然环境下采集的RGB图像，色彩通道分别为R通道、G通道和B通道，所以色彩通道数为3。

步骤S122，基于目标图像的色彩通道数，将所述目标图像分解为具有单色彩通道的通道图像，得到所述通道图像集合。

这里，确定目标图像的色彩通道数之后，基于该色彩通道数，解耦目标图像，将目标图像解耦为色彩通道数个单通道图像，从而得到通道图像集合。

在本申请实施例中，在待识别图像为单通道图像的情况下，通过对目标图像进行R、G、B三通道解耦，得到单通道图像，并使用三分支卷积神经网络分别于单通道的待识别图像进行匹配，显著降低了模态间的差异，提升了跨模态目标重识别的准确率。

在一些实施例中，通过针对通道图像集合中的每一通道图像，将一幅通道图像结合一幅待识别图像输入神经网络的一个分支中进行特征提取，从而得到通道图像特征集合和多张待识别图像的待识别图像特征，即步骤S103可以通过以下步骤实现，参见图2，图2为本申请实施例提供的目标重识别方法的另一实现流程示意图，结合图1和2进行以下说明：

步骤S201，确定所述通道图像集合中的通道图像的数量N。

这里，N为大于0的整数。如果待识别图像为单通道图像，那么通道集合中通道图像的数量与目标图像的色彩通道数相同，如果待识别图像为非单通道图像，那么通道集合中通道图像的数量小于目标图像的色彩通道数。

步骤S202，获取具有N个分支的神经网络。

这里，获取训练好的具有N个分支的神经网络。以待识别图像为近红外图像，目标图像为RGB图像为例进行说明，将RGB图像分解为R、G、B三个单通道图像，并获取具有三个分支的已训练的卷积神经网络。

步骤S203，将第i个通道图像和所述待识别图像，输入神经网络的第i分支进行特征提取，得到第i个通道图像特征和第i待识别图像特征。

这里，i为大于0且小于等于N的整数。将一幅通道图像结合一幅待识别图像输入神经网络的一个分支中进行特征提取，得到该幅通道图像特征和该分支输出的待识别图像的特征。比如，将第1个通道图像和一幅待识别图像输入神经网络的第1分支中进行特征提取，得到第1个通道图像特征和一幅待识别图像的待识别图像特征，将第2个通道图像和该待识别图像输入神经网络的第2分支中，得到第2个通道图像特征和一幅待识别图像的待识别图像特征。

在一些可能的实现方式中，神经网络的训练过程如下：

首先，获取所述目标图像中的目标对象的样本标签和待识别图像中待识别对象的对象标签。

这里，目标对象的样本标签为能够唯一标识目标对象的标签，比如，目标对象的身份标识(Identity Document，ID)。待识别对象的对象标签为能够唯一标识待识别对象的标签，比如，待识别对象的身份标识。

其次，将所述通道图像集合中的通道图像输入待训练神经网络进行特征提取，得到候选通道图像特征集合。

这里，待训练神经网络为具有多分支的待训练的卷积神经网络，其中，分支数与通道图像的数量相同；将每一通道图像输入待训练神经网络的每一分支中进行特征提取，得到每一分支输出的通道图像特征，得到候选通道图像特征集合。

再次，基于所述样本标签，确定所述候选通道图像特征的分类损失。

这里，针对候选通道图像特征集合中的每一候选通道图像特征，通过确定样本标签与每一候选通道图像特征之间的差值，得到候选通道图像特征的分类损失，比如，采用额外的一个全连接层来实现对特征的分类。

再次，基于第一融合特征和所述第二融合特征，确定目标图像和待识别图像的候选相似度。

这里，确定第一融合特征和第二融合特征的余弦距离或欧式距离，以确定目标图像和待识别图像的候选相似度。

再次，基于样本标签和待识别对象的对象标签，确定候选相似度的三元组损失。

这里，通过确定样本标签和对象标签之间的差值，确定候选相似度的三元组损失。在本申请实施例中，三元组损失用于对待识别对象和目标对象进行区分，对于设定的三元组(基准样本，正样本，负样本，Anchor，Positive，Negative)(其中，基准样本和正样本为同类的不同样本，正样本和负样本为异类样本)，三元组损失试图学习到一个特征空间，使得在该空间中相同类别的基准样本与正样本距离更近，不同类别的基准样本与负样本距离更远。如此，对于给定的目标图像和待识别图像，可以判断两张图像中的对象是否属于同一类标签。

最后，采用分类损失与三元组损失，对待训练神经网络的网络参数进行调整，以使调整后的待训练神经网络输出的所述候选通道图像特征的分类损失和所述候选相似度的三元组损失满足收敛条件，得到所述神经网络。

这里，通过确定三元组损失的梯度和分类损失的梯度，将该梯度回传至待训练神经网络的输入端，来调整待训练神经网络的网络参数，比如，调整待训练神经网络的的权重值和偏移量等参数，从而得到训练好的神经网络。

在本申请实施例中，待训练神经网络包括两个部分：第一部分用于对通道图像进行分类，第二部分用于计算目标图像和待识别图像的相似度。在第一部分中，将通道图像输入该神经网络之后，对于输出的候选通道图像特征，采用分类损失对用于进行分类的网络参数进行调整；在第二部分中，将第一融合特征和所述第二融合特征输入该神经网络，输出目标图像和待识别图像的候选相似度，采用三元组损失对进行相似度计算的网络参数进行调整；这样，基于不同的损失函数对实现相应功能的网络参数进行有针对性的调整，能够使得训练好的神经网络的识别结果准确更高且鲁棒性更好。

步骤S204，将N个通道图像和N个所述待识别图像，一一对应地输入所述神经网络的N个分支中进行特征提取，得到N个通道图像特征和N个待识别图像特征。

这里，如果通道图像集合中有N个通道图像，将这N个通道图像中的每一通道图像搭配一个待识别图像输入到神经网络的一个分支中进行特征提取，即一个分支中的输入为一个通道图像和一幅待识别图像，从而得到神经网络的N个分支输出的N个通道图像特征和N个待识别图像特征。在一个具体例子中，以待识别图像为近红外图像，目标图像为RGB图像为例进行说明，将RGB图像解耦为R、G、B三个单通道图像，神经网络为包括3个分支的卷积神经网络，将R通道图像和待识别图像输入神经网络的第1分支中进行特征提取，得到R通道图像特征和第1待识别图像特征；将G通道图像和和待识别图像输入神经网络的第2分支中进行特征提取，得到G通道图像特征和第2待识别图像特征；将B通道图像和待识别图像输入神经网络的第3分支中进行特征提取，得到B通道图像特征和第3待识别图像特征。

通过上述步骤S201至步骤S204，得到N个通道图像特征和N个待识别图像特征之后，可以通过以下步骤确定待识别图像中的待识别对象与所述目标对象的相似度：

第一步，将通道图像特征集合中的N个通道图像特征，在长度上进行拼接，得到第一融合特征。

在一些可能的实现方式中，将这N个通道图像特征按照从1至N的顺序，在长度上进行拼接，得到一个一维向量，即得到第一融合特征。也可以是按照1至N中任意的顺序，在长度上进行拼接，得到第一融合特征。在一个具体例子中，以待识别图像为近红外图像，目标图像为可见光图像为例，将目标图像解耦为H、S、V三个单通道图像，通过神经网络的三个分支一一对应的对H、S、V三个单通道图像进行特征提取，得到H通道图像特征、S通道图像特征和V通道图像特征。将这样三个特征按照H通道图像特征与S通道图像特征在长度上拼接，然后再拼接V通道图像特征的顺序，得到一维向量，即得到第一融合特征。在其他实施例中，还可以是将这样三个特征按照H通道图像特征与V通道图像特征在长度上拼接，然后再拼接S通道图像特征的顺序，得到一维向量，即得到第一融合特征；还可以是将这样三个特征按照V通道图像特征与S通道图像特征在长度上拼接，然后再拼接H通道图像特征的顺序，得到一维向量，即得到第一融合特征。

第二步，将N个待识别图像特征，在长度上进行拼接，得到第二融合特征。

这里，对于神经网络的N个分支输出的N个待识别图像特征，可以是按照1至N的任意顺序，在长度上进行拼接，得到一个一维向量，即得到第二融合特征。比如，将目标图像解耦为H、S、V三个单通道图像，通过将H、S、V三个单通道图像分别结合一幅待识别图像输入神经网络的三个分支中，得到三个待识别图像特征。将这三个待识别图像特征在长度上进行拼接，得到第二融合特征。

第三步，基于所述第一融合特征和所述第二融合特征，确定所述待识别对象与所述目标对象的相似度，以得到识别结果。

这里，通过计算第一融合特征和第二融合特征的相似度，确定待识别对象是否与目标对象为同一对象。

上述第一步至第三步，提供了一种确定对待识别对象与所述目标对象的相似度的方式，在该方式中，通过分别对多分支神经网络提取的通道图像特征和待识别图像特征进行融合，采用融合后的第一融合特征和第二融合特征进行匹配，从而能够提升匹配的准确度。

在一些实施例中，分别对N个通道图像特征和N个待识别图像特征进行融合得到第一融合特征和第二融合特征之后，可以通过以下过程计算待识别图像中的对象与目标对象的相似度：

首先，基于第一融合特征和第二融合特征，确定特征距离，以得到第一融合特征和第二融合特征的相似度。

这里，特征距离可以是余弦距离或欧式距离，通过确定第一融合特征和第二融合特征的余弦距离或欧式距离，以确定第一融合特征和第二融合特征的相似度。

然后，基于第一融合特征和第二融合特征的相似度，确定待识别图像在测试图像库中的排序位置。

这里，首先，获取测试图像库中每一不同的待识别图像的第二融合特征与第一融合特征的相似度；然后，从得到的多个相似度中选择出大于等于相似度阈值的多个候选相似度；最后，对多个候选相似度按照从大到小的顺序进行排序，将该排序结果确定为待识别图像在测试图像库中的排序位置。其中，测试图像库包括大量不同的待识别图像，比如，目标对象为行人，测试图像库可以是从道路监控视频中截取的多帧图像等。

然后，确定所述排序位置与预设条件之间的匹配关系。

这里，预设条件为在相似度大于等于预设阈值的情况下，且排列位置对应的序号为总数的前预设百分比(比如，10％)。其中，排序位置与预设条件之间的匹配关系包括：排序位置满足预设条件，和，排序位置不满足预设条件。

最后，基于排序位置与预设条件之间的匹配关系，确定所述识别结果。

这里，基于所述排序位置和预设条件之间的匹配关系，确定所述识别结果，包括以下两种情况：

一是，如果所述排序位置满足预设条件，确定所述识别结果为所述待识别对象与所述目标对象为同一对象。

二是，如果所述排序位置不满足预设条件，确定所述识别结果为所述待识别对象与所述目标对象不是同一对象。如果所述排序位置不满足预设条件，说明第一融合特征和所述第二融合特征的相似度较小，从而说明待识别对象与目标对象为同一对象的可能性较低。如此，通过将多个通道图像通过卷积神经网络提取的特征进行融合，再与待识别图像特征进行匹配，进一步的提升了跨模态目标重识别的准确率。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，以对可见光目标图像中的目标行人和红外图像中的待识别行人进行重识别，基于通道解耦网络，进行跨模态目标重识别为例，进行说明。

图3为本申请其他实施例提供的目标重识别方法的另一实现流程示意图，结合图3所示的步骤进行以下说明：

步骤S301a，将VIS图像输入卷积神经网络302。

这里，VIS图像对应于上述实施例中的目标图像。

步骤S301b，将IR图像输入卷积神经网络302。

在一些可能的实现方式中，IR图像对应于上述实施例中的待识别图像。步骤S301a和步骤S301b可以是同时执行的，即同时将VIS图像和IR图像输入到训练好的卷积神经网络302中，以进行特征提取。

步骤S303a，对VIS图像进行特征提取，得到VIS图像特征。

步骤S303b，对IR图像进行特征提取，得到IR图像特征。

在一些可能的实现方式中，步骤S303a和步骤S303b可以是同时执行的，即在训练好的卷积神经网络302中，同时对VIS图像和IR图像进行特征提取，从而得到VIS图像特征和IR图像特征。

步骤S304，对VIS图像特征和IR图像特征进行相似度度量，得到识别结果。

在一些可能的实现方式中，对VIS图像特征和IR图像特征进行相似度度量，如果相似度大于等于预设相似度阈值，说明IR图像和VIS图像特征的相似度较高，即说明IR图像中的行人与VIS图像中的行人为同一人的概率较大，将该IR图像作为识别到行人的图像，这样识别结果即为IR图像和VIS图像为相似图像。如果相似度小于预设相似度阈值，说明IR图像和VIS图像特征的相似度较低，即说明IR图像中的行人与VIS图像中的行人为同一人的概率较小，将该IR图像作为识别到行人的图像，这样识别结果即为IR图像和VIS图像为不相似图像。

本申请实施例提供一种目标重识别方法，首先，将自然光下的行人图形图像解耦至R、G、B(或其它色彩空间，比如，HSV和YCbCr等)三个单通道图像；然后，使用分解后的三个单通道图像分别与近红外图像送入一个三分支的神经网络中进行端到端的训练；最后，将训练后的神经网络用于跨模态的目标重识别。本申请实施例中，以将可见光图像解耦至R、G、B三个单通道来进行说明。

通过将可见光下的RGB图像进行解耦，得到三个单通道的图像，分别与IR图像进行匹配，实现了RGB图像与IR图像的通道对齐；这样，解决了由于近红外图像和可见光图像的在训练时的通道不一致，造成图像存在巨大差异的问题，从而能够获得更好的训练结果。在此基础上，通过将三个单分支网络的特征进行融合，能够显著提高跨模态目标重识别的准确性。

图4为本申请实施例提供的目标重识别方法的再一实现流程示意图，结合图4所示的步骤进行以下说明：

步骤S401，获取输入的VIS图像和IR图像。

步骤S402，对VIS图像进行通道解耦。

这里，将输入的VIS图像解耦为R、G、B三个单通道图像。

步骤S403，分别对解耦后的单通道VIS图像和IR图像进行特征提取，并分别对提取的多个单通道的VIS图像特征和IR图像的特征进行融合。

步骤S404，基于融合后的VIS图像特征和IR图像的特征，进行相似度度量，以得到识别结果。

这里，将得到的R通道图像与IR图像送入到神经网络中进行特征提取；同时，对G通道图像与IR图像以及B通道图像与IR图像分别送入到另外两个卷积神经网络中进行特征提取，得到三个一维向量。在训练神经网络的过程中，根据行人标签(对应于上述实施例中的样本标签)，针对这三个特征向量分别进行分类损失的计算，并将分类损失的梯度回传至待训练神经网络的输入端，以优化神经网络的网络参数，从而得到训练好的神经网络。

在本申请实施例中，针对跨模态的目标重识别算法进行了改进，主要通过对VIS图像进行通道层面的解耦，分别与IR组合进行网络的训练，以降低多通道的VIS图像与单通道IR图像之间的模态差异。由于单通道图像之间的匹配训练更加有助于网络进行聚类，使用三分支融合特征的本网络具有很高的准确度。

图5为本申请实施例提供的目标重识别方法的实现框架示意图，结合图5进行以下说明：

输入VIS图像模块501，用于获取输入的VIS图像。

通道解耦模块502，将VIS图像解耦为R、G、B三个单通道图像，得到R通道图像521、G通道图像522和B通道图像523。

这里，对VIS图像解耦之后，将R通道图像与IR图像524送入神经网络的第一分支503，将G通道图像与IR图像送入神经网络的第二分支504以及将B通道图像与IR图像送入神经网络的第三分支505。

第一分支503，用于对R通道图像与IR图像进行特征提取，得到R通道图像特征531与IR图像特征532。

第二分支504，用于G通道图像与IR图像进行特征提取，得到G通道图像特征541与IR图像特征542。

第三分支505，用于B通道图像与IR图像进行特征提取，得到B通道图像特征551与IR图像特征552。

特征融合第一模块506，用于对R通道图像特征531、G通道图像特征541和B通道图像特征551进行特征融合，得到第一融合特征。

这里，将R通道图像特征531、G通道图像特征541和B通道图像特征551在长度上进行连接，得到一个一维向量，即第一融合特征。

特征融合第二模块507，用于对IR图像特征532、IR图像特征542和IR图像特征552进行特征融合，得到第二融合特征。

这里，将IR图像特征532、IR图像特征542和IR图像特征552在长度上进行连接，得到另一个一维向量，即第二融合特征。

相似度度量模块508，用于采用神经网络确定第一融合特征和第二融合特征之间的相似度，并基于该相似度对需要检索的IR图像进行排序，即可获得重识别的结果。在训练神经网络的过程中，根据行人标签和作为训练集的IR图像中待识别行人的标签，对得到的融合特征求取三元组损失函数，并向待训练神经网络的输入端回传三元组损失函数梯度，以优化待训练神经网络的网络参数，从而得到训练好的神经网络。

本申请实施例通过通过对VIS图像进行R、G、B三通道解耦并使用三分支卷积神经网络分别于IR图像进行匹配，显著降低了模态间的差异，提升了跨模态目标重识别的准确率；再此基础上，通过将R、G、B三通道通过卷积神经网络提取的特征进行融合，再与IR图像特征进行匹配，进一步的提升了跨模态目标重识别的准确率。

本申请实施例提供一种目标重识别装置，图6为本申请实施例目标重识别装置的结构组成示意图，如图6所示，所述装置600包括：

第一确定模块601，用于确定获取的待识别图像的色彩通道数；

第一分解模块602，用于将包括目标对象的目标图像，分解为色彩通道数与所述待识别图像的色彩通道数相同的多个通道图像，得到通道图像集合；

第一提取模块603，用于对所述通道图像集合中的通道图像和所述待识别图像进行特征提取，分别得到通道图像特征集合和待识别图像特征；

第二确定模块604，用于基于所述通道图像特征集合和待识别图像特征，确定所述待识别图像中的待识别对象与所述目标对象的相似度，以得到识别结果。

在上述装置中，所述第二确定模块604，包括：

第一融合子模块，用于对所述通道图像特征集合中的通道图像特征进行融合，得到第一融合特征；

第一确定子模块，用于基于所述第一融合特征和所述待识别图像特征，确定所述待识别对象与所述目标对象的相似度，以得到识别结果。

在上述装置中，如果所述待识别图像为色彩单通道图像，所述第一分解模块602，包括：

第二确定子模块，用于确定所述目标图像的色彩通道数；

第一分解子模块，用于基于所述目标图像的色彩通道数，将所述目标图像分解为具有单色彩通道的通道图像，得到所述通道图像集合。

在上述装置中，所述第一提取模块603，包括：

第三确定子模块，用于确定所述通道图像集合中的通道图像的数量N；其中，N为大于0的整数；

第一获取子模块，用于获取具有N个分支的神经网络；

第一输入子模块，用于将第i个通道图像和所述待识别图像，输入所述神经网络的第i分支进行特征提取，得到第i个通道图像特征和第i待识别图像特征；其中，i为大于0且小于等于N的整数；

第二输入子模块，用于将N个通道图像和N个所述待识别图像，一一对应地输入所述神经网络的N个分支中进行特征提取，得到N个通道图像特征和N个待识别图像特征。

在上述装置中，所述第一融合子模块，还用于：将所述通道图像特征集合中的N个通道图像特征，在长度上进行拼接，得到所述第一融合特征；

对应地，所述第一确定子模块，包括：

第一拼接单元，用于将N个所述待识别图像特征，在长度上进行拼接，得到所述第二融合特征；

第一确定单元，用于基于所述第一融合特征和所述第二融合特征，确定所述待识别对象与所述目标对象的相似度，以得到识别结果。

在上述装置中，所述第一确定单元，包括：

第一输入子单元，用于基于所述第一融合特征和所述第二融合特征，确定特征距离，以得到所述第一融合特征和所述第二融合特征的相似度；

第一确定子单元，用于基于所述第一融合特征和所述第二融合特征的相似度，确定所述待识别图像在待识别图像库中的排序位置；

第二确定子单元，用于确定所述排序位置与预设条件之间的匹配关系；

第三确定子单元，用于基于所述匹配关系，确定所述识别结果。

在上述装置中，所述装置还包括第一训练模块，用于对待训练神经网络进行训练；所述第一训练模块，包括：

第二获取子模块，用于获取所述目标图像中的目标对象的样本标签和所述待识别图像中待识别对象的对象标签；

第一提取子模块，用于将所述通道图像集合中的通道图像输入待训练神经网络进行特征提取，得到候选通道图像特征集合；

第一损失子模块，用于基于所述样本标签，确定所述候选通道图像特征的分类损失；

第三输入子模块，用于基于所述第一融合特征和所述第二融合特征，确定所述目标图像和所述待识别图像的候选相似度；

第二损失子模块，用于基于所述样本标签和所述对象标签，确定所述候选相似度的三元组损失；

第一调整子模块，用于采用所述分类损失与所述三元组损失，对所述待训练神经网络的网络参数进行调整，以使调整后的待训练神经网络输出的所述候选通道图像特征的分类损失和所述候选相似度的三元组损失满足收敛条件，得到所述神经网络。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的目标重识别方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台目标重识别设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、运动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的目标重识别方法中的步骤。

本申请实施例再提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的目标重识别方法的步骤。

本申请实施例提供一种目标重识别设备，图7为本申请实施例目标重识别设备的组成结构示意图，如图7所示，所述目标重识别设备700包括：一个处理器701、至少一个通信总线、通信接口702、至少一个外部通信接口和存储器703。其中，通信接口702配置为实现这些组件之间的连接通信。其中，通信接口702可以包括显示屏，外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器701，配置为执行存储器中图像处理程序，以实现上述实施例提供的目标重识别方法的步骤。

以上目标重识别装置、目标重识别设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同相应方法实施例相似的技术描述和有益效果，限于篇幅，可案件上述方法实施例的记载，故在此不再赘述。对于本申请目标重识别装置、目标重识别设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ReadOnly Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标重识别方法，其特征在于，所述方法包括：

确定获取的待识别图像的色彩通道数；

2.根据权利要求1所述的方法，其特征在于，所述基于所述通道图像特征集合和待识别图像特征，确定所述待识别图像中的待识别对象与所述目标对象的相似度，以得到识别结果，包括：

对所述通道图像特征集合中的通道图像特征进行融合，得到第一融合特征；

基于所述第一融合特征和所述待识别图像特征，确定所述待识别对象与所述目标对象的相似度，以得到识别结果。

3.根据权利要求1或2所述的方法，其特征在于，如果所述待识别图像为色彩单通道图像，所述将包括目标对象的目标图像，分解为色彩通道数与所述待识别图像的色彩通道数相同的通道图像，得到通道图像集合，包括：

确定所述目标图像的色彩通道数；

基于所述目标图像的色彩通道数，将所述目标图像分解为具有单色彩通道的通道图像，得到所述通道图像集合。

4.根据权利要求2所述的方法，其特征在于，所述对所述通道图像集合中的通道图像和所述待识别图像进行特征提取，分别得到通道图像特征集合和待识别图像特征，包括：

确定所述通道图像集合中的通道图像的数量N；其中，N为大于0的整数；

获取具有N个分支的神经网络；

将第i个通道图像和所述待识别图像，输入所述神经网络的第i分支进行特征提取，得到第i个通道图像特征和第i待识别图像特征；其中，i为大于0且小于等于N的整数；

将N个通道图像和N个所述待识别图像，一一对应地输入所述神经网络的N个分支中进行特征提取，得到N个通道图像特征和N个待识别图像特征。

5.根据权利要求4所述的方法，其特征在于，所述对所述通道图像特征集合中的通道图像特征进行融合，得到第一融合特征，包括：

将所述通道图像特征集合中的N个通道图像特征，在长度上进行拼接，得到所述第一融合特征；

对应地，所述基于所述第一融合特征和所述待识别图像特征，确定所述待识别对象与所述目标对象的相似度，以得到识别结果，包括：

将N个所述待识别图像特征，在长度上进行拼接，得到所述第二融合特征；

基于所述第一融合特征和所述第二融合特征，确定所述待识别对象与所述目标对象的相似度，以得到识别结果。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一融合特征和所述第二融合特征，确定所述待识别对象与所述目标对象的相似度，以得到识别结果，包括：

基于所述第一融合特征和所述第二融合特征，确定特征距离，以得到所述第一融合特征和所述第二融合特征的相似度；

基于所述第一融合特征和所述第二融合特征的相似度，确定所述待识别图像在待识别图像库中的排序位置；

确定所述排序位置与预设条件之间的匹配关系；

基于所述匹配关系，确定所述识别结果。

7.根据权利要求5或6所述的方法，其特征在于，所述神经网络的训练过程，包括：

获取所述目标图像中的目标对象的样本标签和所述待识别图像中待识别对象的对象标签；

将所述通道图像集合中的通道图像输入待训练神经网络进行特征提取，得到候选通道图像特征集合；

基于所述样本标签，确定所述候选通道图像特征的分类损失；

基于所述第一融合特征和所述第二融合特征，确定所述目标图像和所述待识别图像的候选相似度；

基于所述样本标签和所述对象标签，确定所述候选相似度的三元组损失；

采用所述分类损失与所述三元组损失，对所述待训练神经网络的网络参数进行调整，以使调整后的待训练神经网络输出的所述候选通道图像特征的分类损失和所述候选相似度的三元组损失满足收敛条件，得到所述神经网络。

8.一种目标重识别装置，其特征在于，所述装置包括：

第一确定模块，用于确定获取的待识别图像的色彩通道数；

9.一种目标重识别设备，其特征在于，所述设备包括：

存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时，能够实现权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至7任一项所述的方法的步骤。