CN115292533B

CN115292533B - 视觉定位驱动的跨模态行人检索方法

Info

Publication number: CN115292533B
Application number: CN202210989022.XA
Authority: CN
Inventors: 王海光; 曹敏; 张民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2023-06-27
Anticipated expiration: 2042-08-17
Also published as: CN115292533A

Abstract

本发明涉及一种视觉定位驱动的跨模态行人检索方法，包括获取候选文本和候选图像、输入文本和待检索图像，提取文本的短语；使用训练完成的跨模态预训练模型提取候选文本的短语的特征和候选图像的特征并输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图，使用热点图训练跨模态交互模块；使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征并输入训练完成的跨模态交互模块计算待检索图像与候选图像的相似度，选择相似度最大的候选图像作为检索结果。本发明可以提高文本和图像语义信息的对应能力、提升局部对应能力，从而提高检索的准确率。

Description

视觉定位驱动的跨模态行人检索方法

技术领域

本发明涉及图像识别技术领域，尤其是指一种视觉定位驱动的跨模态行人检索方法。

背景技术

基于文本的行人检索逐渐成为多媒体计算和信息检索领域的主流研究课题之一。该课题的目标是开发算法让计算机能够智能地根据一段文本在海量的监控摄像头拍摄的行人图像数据库中检索出符合文本描述的行人图像。在基于文本的行人检索课题被提出前，人工智能领域有两个热门课题——行人重识别(person re-identification，Re-ID)和文本和图像跨模态匹配(text-image cross-modality retrieval)。行人重识别课题旨在给出一张监控拍摄的某行人的图像，在海量的行人图像数据库中检索出和查询图像记录的是同一人的其他图像；而文本和图像跨模态匹配旨在给出查询文本(图像)，然后在海量的图像(文本)数据库中查找出内容和查询文本(图像)相符的图像(文本)。基于文本的行人检索任务正是这两个任务的交叉，因而同时兼具两者精细化匹配和跨模态匹配的难点。

从广义上讲，现有的基于文本的行人检索模型结构都由三部分组成：

1.文本编码器：用于将输入的用于检索图像的文本编码为特征向量，用于后续的跨模态交互；

2.图像编码器：用于将输入的候选图像编码为特征向量，用于后续的跨模态交互。

3.跨模态交互模块：是当前不同基于文本的行人检索模型结构的主要不同之处。不同的模型中，该模块的结构也复杂多变，从简单的文本特征向量与图像特征向量的矩阵乘积，到复杂的注意力机制网络，再到更加复杂的生成模块。尽管结构不同，大部分工作在交互模块的设计上都着眼于模型对于局部信息的跨模态对应能力，即模型能够根据一个模态中的部分信息在另一个模态中寻找到对应的这部分信息的能力。

尽管基于文本的行人检索的现有模型性能已具有一定效果，但在以上三个模块的设计中，现有模型仍存在两个缺陷：

1.现有模型的文本编码器和图像编码器仍普遍采取LSTM这种非预训练模型或是Bert这种单模态预训练模型，不具有文本和图像语义信息对应能力。

2.现有模型的跨模态交互模块虽然普遍着眼于模型对于局部信息的跨模态对应能力，但是其局部对应的实现算法普遍存在以下两个缺陷中的一个或多个：(1)为了降低复杂度而预先设置有限的局部候选集。现有算法为了在局部对应的过程中降低复杂度，往往会在两个模态中选择一些候选局部。尽管这种方式对于降低复杂度有一定的帮助，但是它也将可以被对应的局部限定在了候选局部中，对于不在候选局部中的其他信息，就无法进行对应。(2)在局部对应的过程中，对不同的局部赋予不同的权重，区分其重要性，重要性高的局部对应要求偏高，而重要性低的局部要求也偏低。这往往会因为重要性高的局部之间的高度趋同性而使得模型对于部分类别的信息赋予远高于其他类别信息的权重(例如文本和图像的颜色信息)，陷入局部最优。

总结来说，现有模型主要面临两个缺陷：编码器的选择上仍未实现到跨模态预训练模型的突破、交互模块的设计上跨模态信息的局部对应法则仍存在缺陷。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种视觉定位驱动的跨模态行人检索方法，可以提高文本和图像语义信息的对应能力、提升局部对应能力，从而提高检索的准确率。

为解决上述技术问题，本发明提供了一种视觉定位驱动的跨模态行人检索方法，包括以下步骤：

步骤1：获取训练集、候选文本和候选图像、输入文本和待检索图像，提取所述候选文本和输入文本的短语；

步骤2：使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型，使用训练完成的跨模态预训练模型提取所述候选文本的短语的特征和候选图像的特征；

步骤3：将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图，使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块；

步骤4：使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征，将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度，选择相似度最大的候选图像作为检索结果。

作为优选的，所述跨模态预训练模型为ALBEF模型。

作为优选的，训练所述ALBEF模型时，建立对比学习的损失函数

的过程为：

获取ALBEF模型提取的文本Text_i的短语的特征t_i∈R^L×d和图像Image_i的特征v_i∈R^p×d，其中L表示文本的长度，p表示提取图像特征时划分的特征图中的特征总数，d表示特征维度，R表示欧几里得空间；

计算损失函数

为：

其中，

表示ALBEF模型获取的图像v_i的全局特征，/>

其中/>

表示取v_i的第一维；/>

表示ALBEF模型获取的文本t_i的全局特征，/>

其中/>

表示取t_i的第一维；/>

表示数据域，是输入的批数据中/>

和/>

的集合；/>

表示期望计算，

表示数据域中的数据个数，

H(·，·)表示交叉熵计算，/>

表示所述/>

与ALBEF模型中的文本特征库T_m中的所有特征进行匹配得到的相似度，/>

表示所述/>

与ALBEF模型中的图像特征库V_m中的所有特征进行匹配得到的相似度；/>

表示v_i和T_m中所有文本特征是否匹配，如果匹配则/>

如果不匹配则/>

表示t_i和V_m中所有图像特征是否匹配，如果匹配则/>

如果不匹配则/>

作为优选的，所述

与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度/>

中的第j个相似度/>

为：

其中，τ是可学习参数，s()是计算余弦相似度的函数，|T_m|表示T_m的队列长度，

表示队列T_m的第j个特征，exp()表示自然指数函数；

所述

与ALBEF模型中的图像特征库V_m中的所有特征进行匹配得到的相似度

中的第j个相似度/>

为：

其中，|V_m|表示V_m的队列长度，

表示队列V_m的第j个特征。

作为优选的，训练所述ALBEF模型时，建立文本和图像精细匹配的损失函数

的过程为：

获取ALBEF模型提取的文本的短语的特征t_j和图像的特征v_i，

计算损失函数

为：

其中，

norm(·)表示归一化操作；/>

表示文本和图像对的语义相同或不同的概率；数据域

其中b表示数据批的大小，

其中cos(·，·)表示余弦相似度计算，id(·)表示特征v_i和t_i所属行人的编号，argmax(·)表示最大值所对应的特征，s.t.表示需要满足的条件；/>

y_i，j表示v_i，t_j是否属于同一个行人，若属于则为1，反之则为0；

的计算方法为：

所述ALBEF模型将t_j和v_i输入ALBEF模型中的跨模态编码器，得到的跨模态编码的全局特征g_m(t_j，v_i)∈R^L×d，取g_m(t_j，v_i)的第一行g_m(t_j，v_i)₀∈R^d作为跨模态编码的全局特征

使用ALBEF模型中的矩阵/>

对所述/>

进行二分类得到/>

作为优选的，将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图，具体为：

所述跨模态交互模块由多层transformer构成，将所述候选文本的短语的特征和候选图像的特征输入transformer，将输入所述transformer的短语的特征表示为f_p∈R^l×d、图像的特征表示为f_v∈R^p×d，其中l表示短语的长度，p表示图像的划分块数；

所述transformer中的每一层进行如下操作：

Q＝W_q×f_v，

K＝W_k×f_p，

V＝W_v×f_p，

f_o＝FFN(weight×f_p)；

其中，W_q，W_k，W_v分别是三个不同的R^d×d矩阵，W_q将f_v映射为查询向量Q，W_k将f_p映射为键向量K，W_v将f_p映射为值向量V，查询向量与键向量相乘，得到每个值向量应当被赋予的权重weight，d′表示经过映射后的特征维度，softmax()是softmax函数，f_o表示输出特征，FFN(·)表示多层感知机计算；

根据所述f_o计算transformer的损失函数

计算权重weight的梯度/>

为：

使用Grad-CAM算法计算图像对于短语的gradcam值为：

其中，*表示矩阵的逐元素乘积操作；

取gradcam当中的第1行作为热点值hotmap∈R^p，其中p表示提取图像特征时划分的特征图中的特征总数，将热点值按照特征图进行二维排列得到所述热点图Map，W是热点图Map的行数，H是热点图Map的列数，w×H＝p。

作为优选的，所述使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块，具体为：

根据所述热点图对图像进行加权，得到图像对于每个短语的融合特征，计算融合特征与短语特征向量的余弦相似度；

根据所述融合特征与短语特征向量的余弦相似度计算所述跨模态交互模块的定位损失函数

为：

其中，cos()表示计算余弦相似度操作；

使用热点图训练跨模态交互模块直到所述定位损失函数

收敛，得到训练完成的跨模态交互模块。

作为优选的，将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度时，使用的方法为交叉运行策略和from-coarse-to-fine策略。

作为优选的，所述交叉运行策略，具体为：

ALBEF模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征后，跨模态交互模块进行输入文本的特征与待检索图像的特征的跨模态交互、输入文本的短语的特征和待检索图像的特征的跨模态交互两个步骤，两个步骤占用的内存数分别为M₁和M₂；

输入文本的特征与待检索图像的特征先不进行交互，待所述输入文本的短语的特征和待检索图像的特征完成交互并计算得到余弦相似度和所述定位损失函数后，将此时的梯度与中间变量从显存中删除，随后将输入文本的特征与待检索图像的特征进行交互，总的内存占用数为max(M₁，M₂)。

作为优选的，所述from-coarse-to-fine策略，具体为：

使用ALBEF模型的图像编码器提取候选图像的特征，计算输入文本的短语的特征与所有候选图像的特征的余弦相似度得到图像文本匹配的粗相似度；

将粗相似度从大到小排序，依次选取相似度排名前k的候选图像，将挑选出的多张候选图像的特征和所述输入文本的特征依次送入跨模态交互模块中，计算得到每张候选图像的特征和输入文本的特征的图像文本匹配的细相似度；

将所述细相似度作为最终的相似度，选择最终的相似度最大的候选图像作为检索结果。

本发明的上述技术方案相比现有技术具有以下优点：

本发明使用跨模态预训练模型作为特征编码器，提高了文本和图像语义信息的对应能力；同时，本发明通过使用热点图训练跨模态交互模块，热点图实现了图像中各个小块与文本信息的对应，提升了局部对应能力，从而提高检索的准确率。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明的流程图；

图2是本发明的结构图；

图3是本发明实施例中使用Grad-CAM算法提取图像对于输入短语的热点图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1所示，本发明公开了一种视觉定位驱动的跨模态行人检索方法，包括以下步骤：

步骤1：获取训练集、候选文本和候选图像、输入文本和待检索图像，提取所述候选文本和输入文本的短语；提取短语使用的是句法树解析器。具体为：对一个文本中的各个单词进行词性标注后，按照一定的结构范式(例如形容词+名词、名词+介词+名词等)对文本中的单词进行匹配，例如blue shirt就是一个形容词+名词的结构，符合结构范式，因此作为一个短语。重复这个过程直至文本中没有符合范式的结构，完成对输入文本的短语提取。

步骤2：使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型，使用训练完成的跨模态预训练模型提取所述候选文本的短语的特征和候选图像的特征。

本实施例中使用的跨模态预训练模型为ALBEF模型(详见文献“Li J，SelvarajuR，Gotmare A，et al.Align before fuse：Vision and language representationlearning with momentum distillation[J].Advances in neural informationprocessing systems，2021，34：9694-9705.”)。ALBEF模型是一种文本和图像跨模态预训练模型，基于Bert和VisionTransformer的结构搭建，采用MSCOCO、SBU、Visual Genome、Conceptual Captions四个大规模文本和图像跨模态数据集进行训练。在使用该模型时，保留对比学习损失、文本和图像精细匹配的损失。

训练所述ALBEF模型时，建立的对比学习的损失函数

用于更新步骤2中使用的ALBEF模型的参数，提高跨模态预训练模型编码得到的文本和图像特征在测试阶段的检索成功率。

对比学习的损失函数

的输入为ALBEF提取的文本Text_i的短语的特征t_i∈R^L×d和提取的图像Image_i的特征v_i∈R^p×d，其中L表示文本的长度，具体为对输入文本Text_i进行分词处理后得到的单词、标点、特殊符号总数；p表示提取图像特征时划分的特征图中的特征总数，d表示特征维度，R表示欧几里得空间，R的右上标表示欧几里得空间的维度。对比学习的损失函数/>

的计算方式如下：

其中，

表示ALBEF模型获取的输入图像v_i的全局特征，/>

其中/>

表示取v_i的第一维，类似地，/>

表示ALBEF模型获取的输入文本t_i的全局特征，计算方式与/>

对应，/>

表示数据域，具体来说，是输入的批数据中/>

的集合，/>

表示期望计算，具体来说，/>

其中

的简写，/>

表示数据域中的数据个数，H(·，·)表示交叉熵计算，/>

表示所述/>

表示所述/>

与ALBEF模型中的图像特征库V_m中的所有特征进行匹配得到的相似度，V_m是记录目前已处理过的/>

的队列，计算得到/>

后，若V_m中有图像Image_i的特征/>

记录，则更新V_m，令/>

队列长度不变，若V_m中没有图像Image_i的特征/>

记录，则将/>

插入队列，T_m更新方法类似；/>

表示v_i和T_m中所有文本特征是否匹配，即是否属于同一个行人，|T_m|表示T_m的队列长度，即记录的特征个数，对于T_m中的第j个文本特征，如果匹配则/>

如果不匹配则/>

所述

与ALBEF模型中的文本特征库T_m中的所有特征进行匹配得到的相似度

中的第j个相似度/>

为：

表示队列T_m的第j个特征，exp()表示自然指数函数，exp(x)＝e^x；

所述

中的第j个相似度/>

为：

其中，|V_m|表示V_m的队列长度，

表示队列V_m的第j个特征。

训练所述ALBEF模型时，建立的文本和图像匹配精细匹配损失函数

用于更新ALBEF模型的参数，提高文本和图像相似度在3的基础上进行重排名/相似度精细化的准确率，其输入为ALBEF编码得到的输入文本和输入图像的特征t_j和v_i，计算方式如下：

其中，norm(·)表示归一化操作；

表示文本和图像对的语义相同或不同的概率，/>

的计算方法为：

所述ALBEF模型将先前得到的输入文本和输入图像的特征t_j和v_i输入跨模态编码器g_m，得到的跨模态编码的全局特征g_m(t_j，v_i)∈R^L×d，其中L是文本的长度，d表示特征向量维度；取g_m(t_j，v_i)的第一行g_m(t_j，v_i)₀∈R^d作为跨模态编码的全局特征

使用矩阵

对所述/>

进行二分类得到/>

表示期望计算，具体来说，/>

表示数据域中的数据个数，H(·，·)表示交叉熵计算。数据域/>

构成为/>

其中b表示数据批的大小，/>

的获取方式为/>

其中cos(·，·)表示余弦相似度计算，id(·)表示特征v_i和t_i所属行人的编号，argmax(·)表示最大值所对应的特征；形象化来说，/>

即为数据批中和特征v_i属于不同行人的文本特征中，和v_i的余弦相似度最大的那个。/>

的采样方式同理。y_i，j表示v_i，t_j是否属于同一个行人，若属于则为1，反之则为0。

使用训练集训练跨模态预训练模型，直到所述对比学习的损失函数

和文本和图像匹配精细匹配损失函数/>

收敛停止训练，得到训练完成的跨模态预训练模型。

步骤3：将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图，使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块。

步骤3-1：将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图。

步骤3-1-1：所述跨模态交互模块包括transformer(详见文献“Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need[J].Advances in neuralinformation processing systems，2017，30.”)，将所述候选文本的短语的特征和候选图像的特征输入transformer，将输入所述transformer的短语的特征表示为f_p∈R^l×d、图像的特征表示为f_v∈R^p×d，其中l表示短语的长度，p表示图像的划分块数，d表示特征向量维度，R表示欧几里得空间，R的右上标表示欧几里得空间的维度；

所述transformer中的每一层进行如下操作：

Q＝W_q×f_v，

K＝W_k×f_p，

V＝W_v×f_p，

f_o＝FFN(weight×f_p)；

步骤3-1-2：根据所述f_o计算transformer的损失函数

计算权重weight的梯度

为：

步骤3-1-3：使用Grad-CAM算法(详见文献“Selvaraju R R，Das A，Vedantam R，etal.Grad-CAM：Why did you say that？[J].arXiv preprint arXiv：1611.07450，2016.”)计算图像对于短语的gradcam值为：

其中，*表示矩阵的逐元素乘积操作，norm(·)表示归一化操作，gradcam∈R^l×p；

步骤3-1-4：取gradcam当中的第1行作为热点值hotmap∈R^p，其中p表示提取图像特征时划分的特征图中的特征总数，将热点值按照特征图进行二维排列，即可得到所述热点图Map∈R^W×H，W是热点图Map的行数，H是热点图Map的列数，w×H＝p。

步骤3-2：使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块。

步骤3-2-1：根据所述热点图对图像进行加权，得到图像对于每个短语的融合特征，计算融合特征与短语特征向量的余弦相似度；

步骤3-2-2：根据所述融合特征hotmap×f_v与短语特征向量f_p的余弦相似度计算所述跨模态交互模块的定位损失函数

为：

其中，cos()表示计算余弦相似度操作；

步骤3-2-3：使用热点图训练跨模态交互模块直到所述定位损失函数

收敛，得到训练完成的跨模态交互模块。

定位损失函数

可以有效衡量模型将文本中的短语信息在和文本相对应的图像信息中寻找出来的能力。模型在使用该损失函数进行训练的时候，其跨模态局部对齐能力会得到显著提高。最终侧面优化模型的文本编码器提取局部特征的能力，在测试阶段即便不进行短语级别的定位，仅靠文本编码器提取的文本特征也可以更加精准地在图像数据库中进行检索。

步骤4：使用训练完成的跨模态预训练模型提取输入文本的短语的特征和待检索图像的特征，将所述输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度，选择相似度最大的候选图像作为检索结果。

步骤4-1：使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征。具体为：输入文本和输入文本的短语经过ALBEF模型的文本编码器得到文本特征，待检索图像经过ALBEF模型的图像编码器得到图像特征。

步骤4-2：将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块，使用交叉运行策略和from-coarse-to-fine策略计算所述待检索图像与候选图像的相似度。

在ALBEF模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征后，按照流程下一步应当进行输入文本特征与输入图像特征的跨模态交互、输入短语和输入图像特征的跨模态交互两个步骤，且两个步骤均由跨模态交互模块完成，设两个步骤占用内存数分别为M₁和M₂，则总内存占用数为两个步骤相加，即M₁+M₂。为了节省内存，此时文本特征和图像特征先不进行交互，待所述输入文本的短语的特征和待检索图像的特征完成交互并计算得到余弦相似度与定位损失函数后，将此时的梯度与中间变量从显存中删除，随后再将输入文本特征和输入图像特征送入跨模态交互模块进行交互。此时总的内存占用数为max(M₁，M₂)。

假设图像数据库中共有N张候选图像，那么单次输入文本查询与所有N张候选图像输入跨模态交互模块的复杂度就是O(N)，如果数据库中候选图像数量较多，即N是一个比较大的值的话，一次检索需要消耗大量的时间，导致算法在实际应用中难以发挥其性能。

而from-coarse-to-fine策略正是为了解决这个问题而提出的。提取数据库中的候选图像的特征、或者在数据库中增加新候选图像提取特征时，离线地使用图像编码器提取候选图像的特征，如步骤2所述，计算输入文本的短语的特征与所有候选图像的特征的余弦相似度得到图像文本匹配的粗相似度(即将步骤2中的

和/>

的余弦相似度作为图像文本匹配的粗相似度coarse相似度)；由于余弦相似度计算简单，该步操作可以在很短的时间内完成。

在得到粗相似度后，选取粗相似度最大的多张候选图像，将挑选出的多张候选图像的特征和所述输入文本的短语的特征依次送入跨模态交互模块中，如步骤2所述，计算得到每张候选图像的特征和输入文本的短语的特征的图像文本匹配的细相似度(即将步骤2中的

的第一维作为图像文本匹配的细相似度fine相似度)；

细相似度的单次计算比起粗相似度的单词计算更加耗时，但是计算的结果也更加精准。from-coarse-to-fine策略将单次文本查询时消耗时间巨大的文本和图像跨模态模块的计算复杂度从O(N)降低至O(1)，对于提升模型的运行速度帮助很大。同时，from-coarse-to-fine策略也可以计算更加精细的相似度，提高检索结果的准确性。

步骤4-3：选择相似度最大的候选图像作为检索结果。相似度最大的图像可以为一张也可以为多张。

本发明使用跨模态预训练模型作为特征编码器，提高了文本和图像语义信息的对应能力，相较于非预训练模型或是单模态预训练模型更加适合基于文本的行人检索；同时，本发明通过使用热点图训练跨模态交互模块，热点图实现了图像中各个小块与文本信息的对应，提升了局部对应能力，从而提高检索的准确率。

为了进一步说明本发明的有益效果，本实施例在基于文本的行人检索的通用数据集CUHKPEDES上进行了实验，具体如下所示：

所述CUHKPEDES数据集共包含了13,003个不同行人的40,206张图像，每张图像都有2句描述。训练集包含34,054张标记有11,003个行人身份的图像，以及68,108句文本描述。验证集包含3,078张标记为1000个身份的图像，测试集包含3,074张标记为1,000个身份的图像。

本实施例中以输入一段文本″The man is wearing a backpack around oneshoulder and he is wearing a light blue casual shirt and dark jeans.″和一张如图3中左侧所示的图像，首先利用句法分析树提取输入文本中的短语，包括“blue casualshirt”和“dark jeans”等。使用本发明方法得到“blue casual shirt(蓝色休闲衬衫)”的热点图如图3右侧所示，可以看出使用本发明方法得到的热点图可以清晰对应出蓝色休闲衬衫的轮廓，局部对应能力强。

接着，采用广泛使用的Rank-k(R@k)进行评估，(R@k表示搜索结果中最靠前(置信度最高)的k张图有正确结果的概率)同时用模态参数的数量来验证该框架的有效性。

通过实验，分别得到了ALBEF模型、本发明方法和现有性能最优方法CM-MoCo(详见文献“Han X，He S，Zhang L，et al.Text-based person search with limited data[J].arXiv preprint arXiv：2110.10807，2021.”)在k＝1时的R@1准确率的结果。最终，现有方法最高能达到64.13％的R@1准确率，基线模型在不进行跨模态交互模块重排名的情况下达到了39.78％的R@1准确率，在进行跨模态交互模块重排名的情况下达到了62.31％的R@1准确率；而本发明方法在不进行跨模态交互的情况下达到了61.06％的R@1准确率，在在进行跨模态交互模块重排名的情况下达到了71.03％的R@1准确率。相较于现有方法，本发明方法实现了6.9％的R@1准确率提升。

由此可见，本发明的准确率显著提高，证明了本发明的性能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种视觉定位驱动的跨模态行人检索方法，其特征在于，包括以下步骤：

步骤2：使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型，使用训练完成的跨模态预训练模型提取所述候选文本的短语的特征和候选图像的特征，所述跨模态预训练模型为ALBEF模型；

训练所述ALBEF模型时，建立对比学习的损失函数

的过程为：

计算损失函数

为：

其中，

表示ALBEF模型获取的图像v_i的全局特征，/>

其中/>

表示取v_i的第一维；/>

表示ALBEF模型获取的文本t_i的全局特征，/>

其中/>

表示取t_i的第一维；/>

表示数据域，是输入的批数据中/>

和/>

的集合；/>

表示期望计算，

表示数据域中的数据个数，

H(·,·)表示交叉熵计算，/>

表示所述/>

表示所述/>

表示v_i和T_m中所有文本特征是否匹配，如果匹配则/>

如果不匹配则/>

表示t_i和V_m中所有图像特征是否匹配，如果匹配则/>

如果不匹配则/>

2.根据权利要求1所述的视觉定位驱动的跨模态行人检索方法，其特征在于：所述

与ALBEF模型中的文本特征库T_m中的所有特征进行匹配得到的相似度/>

中的第j个相似度/>

为：

其中，τ是可学习参数，s()是计算余弦相似度的函数，|T_m|表示T_m的队列长度,

表示队列T_m的第j个特征，exp()表示自然指数函数；

所述

与ALBEF模型中的图像特征库V_m中的所有特征进行匹配得到的相似度/>

中的第j个相似度/>

为：

其中，|V_m|表示V_m的队列长度，

表示队列V_m的第j个特征。

3.根据权利要求1或2所述的视觉定位驱动的跨模态行人检索方法，其特征在于：训练所述ALBEF模型时，建立文本和图像精细匹配的损失函数

的过程为：

获取ALBEF模型提取的文本的短语的特征t_j和图像的特征v_i，

计算损失函数

为：

其中，

norm(·)表示归一化操作；/>

表示文本和图像对的语义相同或不同的概率；数据域

其中b表示数据批的大小，

其中cos(·,·)表示余弦相似度计算，id(·)表示特征v_i和t_i所属行人的编号，argmax(·)表示最大值所对应的特征，s.t.表示需要满足的条件；/>

y_i,j表示v_i,t_j是否属于同一个行人，若属于则为1，反之则为0；

的计算方法为：

所述ALBEF模型将t_j和v_i输入ALBEF模型中的跨模态编码器，得到的跨模态编码的全局特征g_m(t_j,v_i)∈R^L×d，取g_m(t_j,v_i)的第一行g_m(t_j,v_i)₀∈R^d作为跨模态编码的全局特征

使用ALBEF模型中的矩阵/>

对所述/>

进行二分类得到/>

4.根据权利要求3所述的视觉定位驱动的跨模态行人检索方法，其特征在于：将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图，具体为：

所述跨模态交互模块由多层transformer构成，将所述候选文本的短语的特征和候选图像的特征输入transformer，将输入所述transformer的短语的特征表示为f_p∈R^l×d、图像的特征表示为f_v∈Rp^×d，其中l表示短语的长度，p表示图像的划分块数；

所述transformer中的每一层进行如下操作：

Q＝W_q×f_v，

K＝W_k×f_p，

y＝W_v×f_p，

f_o＝FFN(weight×f_p)；

其中，W_q,W_k,W_v分别是三个不同的R^d×d′矩阵，W_q将f_v映射为查询向量Q，W_k将f_p映射为键向量K，W_v将f_p映射为值向量V，查询向量与键向量相乘，得到每个值向量应当被赋予的权重weight，d′表示经过映射后的特征维度，softmax()是softmax函数，f_o表示输出特征，FFN(·)表示多层感知机计算；

根据所述f_o计算transformer的损失函数