CN114694185B

CN114694185B - 一种跨模态目标重识别方法、装置、设备及介质

Info

Publication number: CN114694185B
Application number: CN202210603348.4A
Authority: CN
Inventors: 李晓川; 郭振华; 李仁刚; 赵雅倩; 范宝余
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-11-04
Anticipated expiration: 2042-05-31
Also published as: WO2023231233A1; CN114694185A

Abstract

本申请公开了一种跨模态目标重识别方法、装置、设备及介质，涉及人工智能技术领域，所述方法包括：对不同模态下采集得到的参考图像和待识别图像进行图像块截取处理，得到参考图像的图像块和待识别图像的图像块；对参考图像的图像块和待识别图像的图像块进行特征提取，得到参考图像块特征和待识别图像块特征；计算参考图像块特征与待识别图像块特征之间的距离，以确定出参考图像和待识别图像之间的相似度，基于相似度确定参考图像上的目标与待识别图像上的目标是否相匹配，可见，本申请对不同模态下采集得到的图像进行截取，通过计算不同模态下图像块之间的距离确定所述不同模态下的图像是否相匹配，提高了不同模态图像之间互相识别的准确性。

Description

一种跨模态目标重识别方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，特别涉及一种跨模态目标重识别方法、装置、设备及介质。

背景技术

行人重识别是计算机视觉热门领域之一，具有较强的工业性和落地性。近年来，机器学习的普及使得这个领域有了长足的发展。例如，卷积神经网络在计算机视觉方面的广泛应用使得行人重识别在各个指标上均有了突破性进展；三元组损失的提出和不断发展使得该领域在优化方案上更上一层楼。近几年，作为一项热门课题，行人重识别的开源数据集也层出不穷，大多旨在解决重识别精度问题和模型的简化、优化问题。然而，在实际应用中举足轻重的跨模态问题却鲜有人问津。行人重识别中的跨模态问题一般是指可见光图片和红外图片之间的相互检索问题。

通常情况下，行人的红外照片指具有热感应功能的摄像头拍摄的热力图片。行人红外照片不同于常规可见光成像，不具备红、绿、蓝三通道信息，仅包含热力（亮度）单通道。因此，在传统行人重识别问题中相对重要的颜色特征在跨模态重识别中会近乎失效。取而代之的，图片的纹理特征起到了关键性作用。然而，单纯地将彩色图像的颜色信息删除反而会造成系统性能的下降。近来，研究者们着重研究了如何强调纹理特征进而提升模型性能；还有些通过生成对抗网络、风格迁移网络来模拟红外图片的生成来简化模型的训练过程。但实验和工程效果都不够理想。

为此，如何提高跨模态重识别系统性能，以便提高跨模态检测识别的准确性是本领域亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种跨模态目标重识别方法、装置、设备及介质，提高了跨模态检测识别的准确性，其具体方案如下：

第一方面，本申请公开了一种跨模态目标重识别方法，包括：

基于预设图像块截取规则分别对参考图像以及待识别图像进行处理，得到所述参考图像的图像块以及所述待识别图像的图像块；其中，所述参考图像与所述待识别图像为在不同模态下采集得到的图像；

分别对所述参考图像的图像块和所述待识别图像的图像块进行特征提取，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征；

通过计算所述参考图像块特征与所述待识别图像块特征之间的距离，以确定出所述参考图像和所述待识别图像之间的相似度，并基于所述相似度确定所述参考图像上的目标与所述待识别图像上的目标是否相匹配。

可选的，所述分别对所述参考图像的图像块和所述待识别图像的图像块进行特征提取，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征，包括：

分别对所述参考图像的图像块以及所述待识别图像的图像块进行图像编码，得到各自对应的图像块编码特征；

利用基于预设自注意力机制构建的预设特征选取器，分别对所述参考图像的图像块编码特征和所述待识别图像的图像块编码特征进行特征选取处理，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征。

可选的，所述利用基于预设自注意力机制构建的预设特征选取器，分别对所述参考图像的图像块编码特征和所述待识别图像的图像块编码特征进行特征选取处理之前，还包括：

基于自注意力运算单元、层归一化单元、特征随机删除单元以及特征相加单元构建特征选取单元；

通过将预设的特征融合单元以及预设数量的所述特征选取单元进行依次串接，以构建得到所述预设特征选取器；

相应的，所述利用基于预设自注意力机制构建的预设特征选取器，分别对所述参考图像的图像块编码特征和所述待识别图像的图像块编码特征进行特征选取处理，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征，包括：

利用所述特征融合单元，获取所述参考图像的图像块和所述待识别图像的图像块各自对应的目标属性编码特征，并通过将所述图像块编码特征以及相应的所述目标属性编码特征进行融合处理，以得到所述参考图像和所述待识别图像各自对应的候选特征；

将所述预设特征选取器中的第一个特征选取单元作为当前特征选取单元，并将所述参考图像和所述待识别图像各自对应的候选特征均作为待处理特征；

将所述待处理特征输入至当前特征选取单元中；

利用当前特征选取单元对所述待处理特征依次进行自注意力运算、层归一化运算、特征随机删除运算以及特征相加运算，以得到所述参考图像和所述待识别图像各自对应的当前选取后特征；

判断当前特征选取单元是否为最后一个；

若否，则将当前特征选取单元更新为下一个特征选取单元，将所述待处理特征更新为当前选取后特征，并返回执行所述将所述待处理特征输入至当前特征选取单元中的步骤；

若是，则将所述参考图像和所述待识别图像各自对应的当前选取后特征分别作为所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征。

可选的，所述获取所述参考图像的图像块和所述待识别图像的图像块各自对应的目标属性编码特征，包括：

获取所述参考图像的图像块和所述待识别图像的图像块各自对应的图像块位置编码特征和图像块截取模式编码特征。

可选的，所述利用当前特征选取单元对所述待处理特征依次进行自注意力运算、层归一化运算、特征随机删除运算以及特征相加运算，以得到所述参考图像和所述待识别图像各自对应的当前选取后特征，包括：

利用当前特征选取单元中的所述自注意力运算单元对所述待处理特征进行自注意力运算，得到相应的自注意力运算结果；

利用当前特征选取单元中的所述层归一化单元对所述自注意力运算结果进行层归一化运算，得到相应的层归一化特征；

利用当前特征选取单元中的所述特征随机删除单元并按照预设删除比例对所述层归一化特征进行特征随机删除运算，得到相应的删除后剩余特征；

利用当前特征选取单元中的所述特征相加单元对所述删除后剩余特征与所述待处理特征进行特征相加运算，以得到所述参考图像和所述待识别图像各自对应的当前选取后特征。

可选的，所述基于预设图像块截取规则分别对参考图像以及待识别图像进行处理，得到所述参考图像的图像块以及所述待识别图像的图像块，包括：

按照预设的多种图像块截取模式分别对参考图像以及待识别图像进行处理，得到所述参考图像和所述待识别图像各自对应的多种尺寸类型的图像块；其中，不同的所述图像块截取模式对应不同的图像块裁剪尺寸；

相应的，所述通过计算所述参考图像块特征与所述待识别图像块特征之间的距离，以确定出所述参考图像和所述待识别图像之间的相似度，包括：

分别计算每一所述尺寸类型对应的所述参考图像块特征与所述待识别图像块特征之间的余弦距离，并对不同所述尺寸类型对应的各所述余弦距离进行加权计算，以得到所述参考图像和所述待识别图像之间的相似度。

可见，所述基于所述相似度确定所述参考图像上的目标与所述待识别图像上的目标是否相匹配，包括：

基于所述参考图像与预设待识别图像库中的不同所述待识别图像之间的所述相似度，对所述预设待识别图像库进行检索，得到相应的检索后图像；其中，所述检索后图像上的目标与所述参考图像上的目标相匹配。

第二方面，本申请公开了一种跨模态目标重识别装置，包括：

图像块获取模块，用于基于预设图像块截取规则分别对参考图像以及待识别图像进行处理，得到所述参考图像的图像块以及所述待识别图像的图像块；其中，所述参考图像与所述待识别图像为在不同模态下采集得到的图像；

图像块特征确定模块，用于分别对所述参考图像的图像块和所述待识别图像的图像块进行特征提取，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征；

识别模块，用于通过计算所述参考图像块特征与所述待识别图像块特征之间的距离，以确定出所述参考图像和所述待识别图像之间的相似度，并基于所述相似度确定所述参考图像上的目标与所述待识别图像中的目标是否相匹配。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的跨模态目标重识别方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的跨模态目标重识别方法。

可见，本申请提出一种跨模态目标重识别方法，包括：基于预设图像块截取规则分别对参考图像以及待识别图像进行处理，得到所述参考图像的图像块以及所述待识别图像的图像块；其中，所述参考图像与所述待识别图像为在不同模态下采集得到的图像；分别对所述参考图像的图像块和所述待识别图像的图像块进行特征提取，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征；通过计算所述参考图像块特征与所述待识别图像块特征之间的距离，以确定出所述参考图像和所述待识别图像之间的相似度，并基于所述相似度确定所述参考图像上的目标与所述待识别图像上的目标是否相匹配。可见，本申请首先对不同模态下采集得到的图像进行了图像块截取处理，然后基于不同模态下图像块特征之间的距离得到参考图像和待识别图像之间的相似度，相较于经典的直接对不同模态的图片进行距离运算的方法，本申请通过对图像进行图像块截取处理实现了局部约束的跨模态重识别，解决了由于不同模态下图像存在差异较大，直接对不同模态的图片进行距离运算会造成信息丢失进而使得检测准确率变低的问题，因此提高了不同模态图像之间互相检测识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种跨模态目标重识别方法流程图；

图2为本申请公开的一种具体的跨模态目标重识别方法流程图；

图3为一种经典的跨模态行人重识别结构示意图；

图4为一种经典的双流行人重识别结构示意图；

图5为本申请公开的一种跨模态目标重识别方法结构示意图；

图6为本申请公开的一种图像截取器结构示意图；

图7为本申请公开的一种特征选取器结构示意图；

图8为本申请公开的一种距离判定机制结构示意图；

图9为本申请公开的一种跨模态目标重识别装置结构示意图；

图10为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于不同模态下图像颜色存在差异较大，因此直接对不同模态的图片进行距离运算会造成信息丢失进而使得检测准确率变低。

为此，本申请实施例提出一种跨模态目标重识别方案，能够提高跨模态重识别系统性能，以提高跨模态检测准确性。

本申请实施例公开了一种跨模态目标重识别方法，参见图1所示，该方法包括：

步骤S11：基于预设图像块截取规则分别对参考图像以及待识别图像进行处理，得到所述参考图像的图像块以及所述待识别图像的图像块；其中，所述参考图像与所述待识别图像为在不同模态下采集得到的图像。

需要指出的是，在一种实施方式中，所述参考图像可以是可见光模态下采集得到的图像，相应的，所述待识别图像是红外模态下采集得到的图像；在另一种实施方式中，所述参考图像可以是红外模态下采集得到的图像，相应的，所述待识别图像是可见光模态下采集得到的图像。

步骤S12：分别对所述参考图像的图像块和所述待识别图像的图像块进行特征提取，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征。

本实施例中，经过对参考图像以及待识别图像进行图像块截取处理，得到了所述参考图像的图像块以及所述待识别图像的图像块，然后对所述参考图像的图像块和所述待识别图像的图像块进行特征提取，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征。

步骤S13：通过计算所述参考图像块特征与所述待识别图像块特征之间的距离，以确定出所述参考图像和所述待识别图像之间的相似度，并基于所述相似度确定所述参考图像上的目标与所述待识别图像上的目标是否相匹配。

相较于经典的直接对不同模态的图片进行距离运算的方法，本实施例计算的是参考图像块特征与待识别图像块特征之间的距离，并根据参考图像块特征与待识别图像块特征之间的距离确定出所述参考图像和所述待识别图像之间的相似度，进一步判断所述参考图像上的目标与所述待识别图像上的目标是否相匹配，如此一来，本申请通过对图像进行图像块截取处理实现了局部约束的跨模态重识别，解决了由于不同模态下图像存在差异较大，直接对不同模态的图片进行距离运算会造成信息丢失进而使得检测准确率变低的问题。

本申请实施例公开了一种具体的跨模态目标重识别方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。参见图2所示，具体包括：

步骤S21：按照预设的多种图像块截取模式分别对参考图像以及待识别图像进行处理，得到所述参考图像和所述待识别图像各自对应的多种尺寸类型的图像块；其中，不同的所述图像块截取模式对应不同的图像块裁剪尺寸；所述参考图像与所述待识别图像为在不同模态下采集得到的图像。

本实施例中，所述预设的多种图像块截取模式可以包括对图像进行全局截取、横截取以及块截取，得到与全局截取模式、横截取模式以及块截取模式分别对应的尺寸类型下的图像块。

步骤S22：分别对所述参考图像的图像块以及所述待识别图像的图像块进行图像编码，得到各自对应的图像块编码特征。

本实施例中，利用基于预设的卷积神经网络模型构建的图像编码器分别对所述参考图像的图像块以及所述待识别图像的图像块进行图像编码，得到各自对应的图像块编码特征，所述预设的卷积神经网络模型可以是ResNeSt、ResNeXt以及EfficientNet。

步骤S23：利用基于预设自注意力机制构建的预设特征选取器，分别对所述参考图像的图像块编码特征和所述待识别图像的图像块编码特征进行特征选取处理，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征。

本实施例中，在利用基于预设自注意力机制构建的预设特征选取器，分别对所述参考图像的图像块编码特征和所述待识别图像的图像块编码特征进行特征选取处理之前，需要基于自注意力运算单元、层归一化单元、特征随机删除单元以及特征相加单元构建特征选取单元，然后通过将预设的特征融合单元以及预设数量的所述特征选取单元进行依次串接，以构建得到所述预设特征选取器。

如此一来，所述利用基于预设自注意力机制构建的预设特征选取器，分别对所述参考图像的图像块编码特征和所述待识别图像的图像块编码特征进行特征选取处理，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征包括：利用所述特征融合单元，获取所述参考图像的图像块和所述待识别图像的图像块各自对应的目标属性编码特征，并通过将所述图像块编码特征以及相应的所述目标属性编码特征进行融合处理，以得到所述参考图像和所述待识别图像各自对应的候选特征；将所述预设特征选取器中的第一个特征选取单元作为当前特征选取单元，并将所述参考图像和所述待识别图像各自对应的候选特征均作为待处理特征；将所述待处理特征输入至当前特征选取单元中；利用当前特征选取单元对所述待处理特征依次进行自注意力运算、层归一化运算、特征随机删除运算以及特征相加运算，以得到所述参考图像和所述待识别图像各自对应的当前选取后特征；判断当前特征选取单元是否为最后一个；若否，则将当前特征选取单元更新为下一个特征选取单元，将所述待处理特征更新为当前选取后特征，并返回执行所述将所述待处理特征输入至当前特征选取单元中的步骤；若是，则将所述参考图像和所述待识别图像各自对应的当前选取后特征分别作为所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征。

本实施例中所述利用当前特征选取单元对所述待处理特征依次进行自注意力运算、层归一化运算、特征随机删除运算以及特征相加运算，以得到所述参考图像和所述待识别图像各自对应的当前选取后特征具体包括：利用当前特征选取单元中的所述自注意力运算单元对所述待处理特征进行自注意力运算，得到相应的自注意力运算结果；利用当前特征选取单元中的所述层归一化单元对所述自注意力运算结果进行层归一化运算，得到相应的层归一化特征；利用当前特征选取单元中的所述特征随机删除单元并按照预设删除比例对所述层归一化特征进行特征随机删除运算，得到相应的删除后剩余特征；利用当前特征选取单元中的所述特征相加单元对所述删除后剩余特征与所述待处理特征进行特征相加运算，以得到所述参考图像和所述待识别图像各自对应的当前选取后特征。

需要指出的是，本实施例中，所述参考图像的图像块和所述待识别图像的图像块各自对应的目标属性编码特征可以为：所述参考图像的图像块和所述待识别图像的图像块各自对应的图像块位置编码特征和图像块截取模式编码特征。

步骤S24：分别计算每一所述尺寸类型对应的所述参考图像块特征与所述待识别图像块特征之间的余弦距离，并对不同所述尺寸类型对应的各所述余弦距离进行加权计算，以得到所述参考图像和所述待识别图像之间的相似度。

可以理解的是，在对所述参考图像和所述待识别图像各自对应的多种尺寸类型的图像块进行特征选取后，得到了所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征，本实施例中，通过分别计算每一所述尺寸类型对应的所述参考图像块特征与所述待识别图像块特征之间的余弦距离，并对不同所述尺寸类型对应的各所述余弦距离进行加权计算，以得到所述参考图像和所述待识别图像之间的相似度。

步骤S25：基于所述参考图像与预设待识别图像库中的不同所述待识别图像之间的所述相似度，对所述预设待识别图像库进行检索，得到相应的检索后图像；其中，所述检索后图像上的目标与所述参考图像上的目标相匹配。

本实施例中，通过计算所述参考图像与预设待识别图像库中的不同所述待识别图像之间的所述相似度，实现所述预设待识别图像库的检索，从而在所述预设图像库中确定出与所述参考图像相匹配的所有图像。

可见，本申请可以按照预设的多种图像块截取模式分别对参考图像以及待识别图像进行处理，得到所述参考图像和所述待识别图像各自对应的多种尺寸类型的图像块，所述预设的多种图像块截取模式可以包括对图像进行全局截取、横截取以及块截取，如此一来，在对所述参考图像和所述待识别图像各自对应的多种尺寸类型的图像块进行特征选取后，得到了所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征，通过分别计算每一所述尺寸类型对应的所述参考图像块特征与所述待识别图像块特征之间的余弦距离，并对不同所述尺寸类型对应的各所述余弦距离进行加权计算，以得到所述参考图像和所述待识别图像之间的相似度，最后通过计算所述参考图像与预设待识别图像库中的不同所述待识别图像之间的所述相似度，实现所述预设待识别图像库的检索，从而在所述预设图像库中确定出与所述参考图像相匹配的所有图像。可见，相较于经典的直接对不同模态的图片进行距离运算的方法，本申请通过对图像进行图像块截取处理实现了局部约束的跨模态重识别，解决了由于不同模态下图像存在差异较大，直接对不同模态的图片进行距离运算会造成信息丢失进而使得检测准确率变低的问题，因此提高了不同模态图像之间互相检索的准确性。

图3为一种经典的跨模态行人重识别结构示意图。

参见图3所示，横虚线以上表示不同行人在可见光模式下的摄像机成像，横虚线以下表示不同行人在红外模式下的摄像机成像，具体的，图3虚线以上的部分为在可见光模式下采集到的，行人在多个拍摄角度下的图片，图3虚线以下的部分为在红外模式下采集到的，行人在多个拍摄角度下的图片。跨模态行人重识别的任务就是通过给定一种模态的一张行人照片，将该行人在相反模态下的所有照片检索出来。

图4为一种经典的双流行人重识别结构示意图，图4中左侧人物图片为可见光模式下的摄像机成像，右侧人物图片为红外模式下的摄像机成像，通过采用可见图像编码器对可见光图片进行编码得到可见图像特征f，采用红外图像编码器对红外图片进行编码得到红外图像特征g。然后采用度量学习来约束样本之间的距离，也即计算得到两种图片之间的距离d。经典的跨模态行人重识别方法中考虑到了红外图与彩色图的差异，因此采用不同的编码器来对其进行编码，然而它并没有考虑到二者模态本身的信息差异（红外图与彩色图都包含纹理信息，但其对色彩的描述存在很大的差异）。在特征提取之后，经典方法通常对不同模态的图片特征进行余弦相似度运算，这会使模型逐渐忽略图像本身的色彩信息，造成信息丢失，从而影响算法性能。基于此，本申请提出了一种局部约束的跨模态目标重识别方法，参见图5所示，为使本申请的技术方案更加清楚，下面将对图5做进一步地详细描述。本申请所设计的局部约束的跨模态目标重识别方法结构示意图具体包括图像截取器、图像编码器、特征选择器和距离判定机制。

（1）图像截取器

图5中左侧人物图片为可见光模式下的摄像机成像，右侧人物图片为红外模式下的摄像机成像，通过图像截取器分别对可见光图片和红外图片进行图像的截取，图像截取器是本申请所设计的数据预处理模块。现有模型通常仅使用整体图像作为编码器输入从而获得目标的全局特征，然而事实上，图像各部分的局部特征同样重要：现有某些方法将图像切割为若干个横块代替全图进行特征提取。本申请进一步改进，将图像分割成m行n列个图像块，并通过合并列得到m个横块。综上，本发明图像截取器包括全图截取、横截取与块截取三种模式，最终得到m×n个块截取图像块，m个横截取图像块以及1个全图截取图像块，一共得到(m×n+m+1)个图像块，参见图6所示。为方便后续步骤使用，这些图像块被缩放至同样的大小。

（2）图像编码器

图5中的图像编码器采用现有的卷积神经网络模型，在此不再赘述，图像编码器将截取出的若干图像块编码为大小为[(m×n+m+1)，d]的矩阵，其中d为编码器对单张图像的输出特征维度。

（3）特征选择器

图5中的特征选择器由一个特征预编码层和若干个特征注意力层级联搭建。具体参见图7所示，对特征预编码层来说，公式如下：

；

式中，

表示第k个图像块的对应候选特征，

是图像编码器输出特征，

是位置编码特征，

是图像裁剪模式编码特征。

对于位置编码特征，公式如下：

；

和

分别对应图像块在空间中纵横两个方向的编码，其公式如下：

；

上述公式为图像块在偶数索引时的编码公式，d表示编码器的输出特征维度。

。

上述公式为图像块在奇数索引时的编码公式。

对于图像裁剪模式编码，公式如下：

；

式中，

、

、

分别表示三种裁剪方式的图像块索引。

将特征预编码之后的特征称为候选特征，并将其输入到若干特征注意力层中进行特征选择。每个特征注意力层，由一个自注意力机制、归一化层、随机删除层和相加层级联组成。对于自注意力机制，公式如下：

；

其中，

为每个所述自注意力运算单元的输入，

、

以及

表示映射矩阵，

，

表示维度。

此外，随机删除层通过对特征中固定比重的数据进行随机抹除来防止模型在训练的工程中出现过拟合。

最后，特征选择器将编码后的特征进行输出，即选定特征。选定特征的维度与输入一致，大小也为[(m×n+m+1)，d]。

（4）距离判定机制

参见图5所示，在经过特征选择器之后，得到了可见光图像和红外图像分别对应的块特征、横特征以及全局特征，基于距离判定机制对可见光图像和红外图像分别对应的块特征、横特征以及全局特征进行距离判定，对于距离判定机制，本申请提出了融合判定方法，具体参见图8所示，采用余弦距离计算方法分别计算可见光图像和红外图像对应的块特征、横特征和全局特征之间的距离，公式如下：

；

式中，

和

分别表示参与计算的特征。

对块特征距离和横特征距离，由于输入特征数量大于1，因此两个样本的块/横距离不是一个数值而是矩阵，本申请采用块/横余弦距离矩阵中的最小值作为二者的块/横距离值。最终的距离计算公式如下，样本i和j之间的距离为三种距离的加权和：

；

式中，

、

以及

分别表示与全局特征、横特征以及块特征对应的权重，

、

以及

分别表示参考图像与待识别图像全局特征、横特征以及块特征之间的距离。

最终，本申请对预设待识别图像库中所有的图像按照上述流程进行特征提取、距离运算，实现所述预设待识别图像库的检索，从而在所述预设图像库中确定出与所述参考图像相匹配的所有图像。可见，相较于经典的直接对不同模态的图片进行距离运算的方法，本申请通过对图像进行图像块截取处理实现了局部约束的跨模态重识别，解决了由于不同模态下图像存在差异较大，直接对不同模态的图片进行距离运算会造成信息丢失进而使得检测准确率变低的问题，因此提高了不同模态图像之间互相检索的准确性。

相应的，本申请实施例还公开了一种跨模态目标重识别装置，参见图9所示，该装置包括：

图像块获取模块11，用于基于预设图像块截取规则分别对参考图像以及待识别图像进行处理，得到所述参考图像的图像块以及所述待识别图像的图像块；其中，所述参考图像与所述待识别图像为在不同模态下采集得到的图像；

图像块特征确定模块12，用于分别对所述参考图像的图像块和所述待识别图像的图像块进行特征提取，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征；

识别模块13，用于通过计算所述参考图像块特征与所述待识别图像块特征之间的距离，以确定出所述参考图像和所述待识别图像之间的相似度，并基于所述相似度确定所述参考图像上的目标与所述待识别图像中的目标是否相匹配。

其中，关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本申请提出一种跨模态目标重识别方法，包括：基于预设图像块截取规则分别对参考图像以及待识别图像进行处理，得到所述参考图像的图像块以及所述待识别图像的图像块；其中，所述参考图像与所述待识别图像为在不同模态下采集得到的图像；分别对所述参考图像的图像块和所述待识别图像的图像块进行特征提取，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征；通过计算所述参考图像块特征与所述待识别图像块特征之间的距离，以确定出所述参考图像和所述待识别图像之间的相似度，并基于所述相似度确定所述参考图像上的目标与所述待识别图像上的目标是否相匹配。可见，本申请首先对不同模态下采集得到的图像进行了图像块截取处理，然后基于不同模态下图像块之间的距离得到参考图像和待识别图像之间的相似度，相较于经典的直接对不同模态的图片进行距离运算的方法，本申请通过对图像进行图像块截取处理实现了局部约束的跨模态重识别，解决了由于不同模态下图像存在差异较大，直接对不同模态的图片进行距离运算会造成信息丢失进而使得检测准确率变低的问题，因此提高了不同模态图像之间互相检测识别的准确性。

进一步的，本申请实施例还提供了一种电子设备。图10是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图10为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、显示屏23、输入输出接口24、通信接口25、电源26、和通信总线27。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的跨模态目标重识别方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源26用于为电子设备20上的各硬件设备提供工作电压；通信接口25能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口24，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括计算机程序221，存储方式可以是短暂存储或者永久存储。其中，计算机程序221除了包括能够用于完成前述任一实施例公开的由电子设备20执行的跨模态目标重识别方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的跨模态目标重识别方法。

关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本申请书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种跨模态目标重识别方法、装置、设备、存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种跨模态目标重识别方法，其特征在于，包括：

通过计算所述参考图像块特征与所述待识别图像块特征之间的距离，以确定出所述参考图像和所述待识别图像之间的相似度，并基于所述相似度确定所述参考图像上的目标与所述待识别图像上的目标是否相匹配；

其中，所述分别对所述参考图像的图像块和所述待识别图像的图像块进行特征提取，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征，包括：

利用基于预设自注意力机制构建的预设特征选取器，分别对所述参考图像的图像块编码特征和所述待识别图像的图像块编码特征进行特征选取处理，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征；

所述利用基于预设自注意力机制构建的预设特征选取器，分别对所述参考图像的图像块编码特征和所述待识别图像的图像块编码特征进行特征选取处理之前，还包括：

将所述待处理特征输入至当前特征选取单元中；

判断当前特征选取单元是否为最后一个；

若是，则将所述参考图像和所述待识别图像各自对应的当前选取后特征分别作为所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征；

其中，所述参考图像的图像块和所述待识别图像的图像块各自对应的目标属性编码特征包括：所述参考图像的图像块和所述待识别图像的图像块各自对应的图像块位置编码特征和图像块截取模式编码特征。

2.根据权利要求1所述的跨模态目标重识别方法，其特征在于，所述获取所述参考图像的图像块和所述待识别图像的图像块各自对应的目标属性编码特征，包括：

3.根据权利要求1所述的跨模态目标重识别方法，其特征在于，所述利用当前特征选取单元对所述待处理特征依次进行自注意力运算、层归一化运算、特征随机删除运算以及特征相加运算，以得到所述参考图像和所述待识别图像各自对应的当前选取后特征，包括：

4.根据权利要求1所述的跨模态目标重识别方法，其特征在于，所述基于预设图像块截取规则分别对参考图像以及待识别图像进行处理，得到所述参考图像的图像块以及所述待识别图像的图像块，包括：

5.根据权利要求1至4任一项所述的跨模态目标重识别方法，其特征在于，所述基于所述相似度确定所述参考图像上的目标与所述待识别图像上的目标是否相匹配，包括：

6.一种跨模态目标重识别装置，其特征在于，包括：

识别模块，用于通过计算所述参考图像块特征与所述待识别图像块特征之间的距离，以确定出所述参考图像和所述待识别图像之间的相似度，并基于所述相似度确定所述参考图像上的目标与所述待识别图像中的目标是否相匹配；

其中，所述图像块特征确定模块具体用于：分别对所述参考图像的图像块以及所述待识别图像的图像块进行图像编码，得到各自对应的图像块编码特征；利用基于预设自注意力机制构建的预设特征选取器，分别对所述参考图像的图像块编码特征和所述待识别图像的图像块编码特征进行特征选取处理，得到所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征；

所述跨模态目标重识别装置还用于：在利用基于预设自注意力机制构建的预设特征选取器，分别对所述参考图像的图像块编码特征和所述待识别图像的图像块编码特征进行特征选取处理之前，基于自注意力运算单元、层归一化单元、特征随机删除单元以及特征相加单元构建特征选取单元；通过将预设的特征融合单元以及预设数量的所述特征选取单元进行依次串接，以构建得到所述预设特征选取器；

相应的，所述图像块特征确定模块具体用于：利用所述特征融合单元，获取所述参考图像的图像块和所述待识别图像的图像块各自对应的目标属性编码特征，并通过将所述图像块编码特征以及相应的所述目标属性编码特征进行融合处理，以得到所述参考图像和所述待识别图像各自对应的候选特征；将所述预设特征选取器中的第一个特征选取单元作为当前特征选取单元，并将所述参考图像和所述待识别图像各自对应的候选特征均作为待处理特征；将所述待处理特征输入至当前特征选取单元中；利用当前特征选取单元对所述待处理特征依次进行自注意力运算、层归一化运算、特征随机删除运算以及特征相加运算，以得到所述参考图像和所述待识别图像各自对应的当前选取后特征；判断当前特征选取单元是否为最后一个；若否，则将当前特征选取单元更新为下一个特征选取单元，将所述待处理特征更新为当前选取后特征，并返回执行所述将所述待处理特征输入至当前特征选取单元中的步骤；若是，则将所述参考图像和所述待识别图像各自对应的当前选取后特征分别作为所述参考图像对应的参考图像块特征和所述待识别图像对应的待识别图像块特征；其中，所述参考图像的图像块和所述待识别图像的图像块各自对应的目标属性编码特征包括：所述参考图像的图像块和所述待识别图像的图像块各自对应的图像块位置编码特征和图像块截取模式编码特征。

7.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至5任一项所述的跨模态目标重识别方法。

8.一种计算机可读存储介质，其特征在于，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的跨模态目标重识别方法。