CN118072252B - 适用于任意多模态数据组合的行人重识别模型训练方法 - Google Patents

适用于任意多模态数据组合的行人重识别模型训练方法 Download PDF

Info

Publication number
CN118072252B
CN118072252B CN202410463169.4A CN202410463169A CN118072252B CN 118072252 B CN118072252 B CN 118072252B CN 202410463169 A CN202410463169 A CN 202410463169A CN 118072252 B CN118072252 B CN 118072252B
Authority
CN
China
Prior art keywords
pedestrian
mode
feature
matrix
loss value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410463169.4A
Other languages
English (en)
Other versions
CN118072252A (zh
Inventor
叶茫
李贺
杜博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202410463169.4A priority Critical patent/CN118072252B/zh
Publication of CN118072252A publication Critical patent/CN118072252A/zh
Application granted granted Critical
Publication of CN118072252B publication Critical patent/CN118072252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请提供一种适用于任意多模态数据组合的行人重识别模型训练方法,多模态分词器针对任意预设模态或预设模态组合的行人数据都可以分别得到单模态嵌入矩阵,并且串联形成对应的混合嵌入矩阵,多模态特征提取器采用的基础模型基于Transformer架构,具备处理变长输入的能力,且在大规模数据集上经过预训练,故可以针对任意混合嵌入矩阵得到对应的混合特征矩阵。由于基础模型的参数冻结,在行人重识别模型的训练过程中主要针对多模态分词器中的多个分词器准备训练样本集和设置损失函数,从而有效控制训练成本。如此,本申请能够处理任意多模态数据组合,且具备强泛化能力和零样本任务性能,从而更好地适配行人重识别在现实应用中的多样化场景。

Description

适用于任意多模态数据组合的行人重识别模型训练方法
技术领域
本申请涉及计算机视觉图像检索技术领域,具体涉及一种适用于任意多模态数据组合的行人重识别模型训练方法。
背景技术
行人重识别(ReID)是一项旨在利用计算机视觉技术在多个非重叠摄像头捕获到的图像或者视频序列中检索是否存在特定行人的人工智能技术,在智慧城市、智慧安防等监控场景中具有很大的应用价值和研究意义。
在实际应用场景中,行人重识别的数据集是由目标行人的RGB图像、红外图像(IR)、素描图像(Sketch)或者文本描述(Text)等多模态数据混合组成的。目前,针对单模态或特定跨模态数据的行人重识别已取得了长足的进展,但仍缺乏对于随机组合的多模态行人重识别的研究。同时,在实际场景中,待检索的个体通常会出现在多种未知的环境中,这些环境以及待检索样本在训练过程中未被学习,这种情况被称作零样本检索。具体到多模态行人重识别任务中,模型应具有强大的跨域多模态零样本检索能力。目前还没有能够处理任意多模态数据组合,且具备强泛化能力和零样本任务性能的行人重识别方法,无法适配行人重识别在现实应用中的多样化场景。
发明内容
本申请提供一种适用于任意多模态数据组合的行人重识别模型训练方法,可以解决现有技术中存在的行人重识别方法无法处理任意多模态数据组合,且具备强泛化能力和零样本任务性能的技术问题。
本申请实施例提供一种适用于任意多模态数据组合的行人重识别模型训练方法,行人重识别模型包括多模态分词器和多模态特征提取器;
多模态分词器包括多个分词器和一个串联模块,每个分词器用于将一种预设模态的数据投影到特征空间得到对应的单模态嵌入矩阵,预设模态包括RGB模态、红外模态、素描模态和文本模态,串联模块用于将同一行人的所有单模态嵌入矩阵串联得到混合嵌入矩阵;
多模态特征提取器用于对单模态嵌入矩阵或混合嵌入矩阵进行特征提取,得到单模态特征矩阵或混合特征矩阵,多模态特征提取器采用Transformer架构的基础模型,该基础模型在大规模数据集上经过预训练,在行人重识别模型的训练过程中参数冻结;
在行人重识别任务中,行人重识别模型用于根据输入的行人数据输出对应的混合特征矩阵以供相似度计算和排序,行人数据包含至少一种预设模态的数据;
所述行人重识别模型训练方法包括:
将本次迭代采用的训练样本集输入多模态分词器,得到单模态嵌入矩阵和混合嵌入矩阵,其中,训练样本集包括多个行人的训练数据,同一训练样本集中不同行人的训练数据的模态数量相等;
将单模态嵌入矩阵和混合嵌入矩阵输入多模态特征提取器,得到单模态特征矩阵和混合特征矩阵;
根据所有单模态特征矩阵和混合特征矩阵计算得到整体损失值;
基于反向传播算法,根据整体损失值更新行人重识别模型中的相关参数。
进一步地,一实施例中,所述根据所有单模态特征矩阵和混合特征矩阵计算得到整体损失值的步骤包括:
将所有单模态特征矩阵和混合特征矩阵输入第一引导模块,得到第一损失值,其中,第一引导模块用于对每个特征矩阵在训练样本集的所有行人中进行类别预测,通过交叉熵损失函数计算得到第一损失值;
根据整体损失函数计算得到整体损失值,其中,整体损失函数的自变量包括第一损失值。
进一步地,一实施例中,第一损失值的计算公式为:
其中,表示第一损失值,为符号函数,若第i个行人的真实类别为c则取1,否则取0,表示根据第i个行人的第k个特征矩阵进行类别预测,预测到行人类别为c的概率,N表示训练样本集中的行人总数,行人的类别数量也为N,K表示每个行人的特征矩阵总数。
进一步地,一实施例中,整体损失函数的自变量还包括第二损失值,每个行人的训练数据包括RGB图像和至少一种其他预设模态的数据;
在所述根据整体损失函数计算得到整体损失值的步骤之前还包括:
将所有单模态特征矩阵输入第二引导模块,得到第二损失值,其中,第二引导模块根据以下公式计算得到第二损失值:
其中,表示第二损失值,表示余弦相似度,表示第i个行人的RGB特征矩阵,N表示训练样本集中的行人总数,表示第i个行人的其他单模态特征矩阵,D表示每个行人的其他单模态特征矩阵的总数,表示第j个行人的RGB特征矩阵,是控制softmax分布平滑度的超参数。
进一步地,一实施例中,整体损失函数的自变量还包括第三损失值,训练样本集中至少一个目标行人的训练数据,目标行人的训练数据包括RGB图像和文本描述;
在所述根据整体损失函数计算得到整体损失值的步骤之前还包括:
将目标行人的文本描述中的特定属性关键词进行标记,将已标记文本描述输入多模态分词器,得到标记嵌入矩阵,其中,文本模态对应的分词器用于将未标记文本描述投影到特征空间得到文本嵌入矩阵,还用于将已标记文本描述投影到特征空间得到标记嵌入矩阵,单模态嵌入矩阵不包括标记嵌入矩阵;
将标记嵌入矩阵输入多模态特征提取器,得到多个遮罩特征矩阵,其中,多模态特征提取器还用于对标记嵌入矩阵进行特征提取得到多个遮罩特征矩阵,每个遮罩特征矩阵中缺失一个特定属性关键词的信息;
将目标行人的RGB特征矩阵和多个遮罩特征矩阵输入第三引导模块,得到第三损失值,其中,第三引导模块针对每个目标行人,将RGB特征矩阵分别与每个遮罩特征矩阵串联得到多个串联特征矩阵,对每个串联特征矩阵在对应的特定属性关键词的可选类别中进行类别预测,通过交叉熵损失函数计算得到第三损失值。
进一步地,一实施例中,第三损失值的计算公式为:
其中,表示第三损失值,yic m为符号函数,若第i个目标行人的第m个遮罩特征矩阵中缺失的特定属性关键词的真实类别为c则取1,否则取0,pic m表示根据第i个目标行人的第m个串联特征矩阵进行类别预测,预测到第m个遮罩特征矩阵中缺失的特定属性关键词的类别为c的概率,Qi m表示第i个目标行人的第m个遮罩特征矩阵中缺失的特定属性关键词的类别数量,Mi表示第i个目标行人的文本描述中特定属性关键词的数量,R表示训练样本集中的目标行人总数。
进一步地,一实施例中,整体损失函数为:
其中,表示整体损失值,表示第一损失值,表示第二损失值,表示第三损失值,是控制第三引导模块的重要性的超参数。
进一步地,一实施例中,第1-X次迭代采用的训练样本集中,每个行人的训练数据包括真实的RGB图像和文本描述,以及通过RGB图像合成的红外图像和素描图像;
第X次迭代之后采用的训练样本集中,每个行人的训练数据包括真实的RGB图像,以及真实的文本描述、红外图像和素描图像中的一种。
进一步地,一实施例中,RGB模态、红外模态和素描模态对应的分词器采用ViT-ICS中的IBN风格分词器;
文本模态对应的分词器采用Open AI的CLIP分词器。
进一步地,一实施例中,基础模型采用LAION2B预训练的ViT模型。
本申请中,多模态分词器针对任意预设模态或预设模态组合的行人数据都可以分别得到单模态嵌入矩阵,并且串联形成对应的混合嵌入矩阵,由于模态数量、种类不定,混合嵌入矩阵可能为多种长度,而多模态特征提取器采用的基础模型基于Transformer架构,具备处理变长输入的能力,且在大规模数据集上经过预训练,故可以针对任意混合嵌入矩阵得到对应的混合特征矩阵,提取跨所有模态的广义语义表示,可以在不进行微调的情况实现有效的多模态数据处理。由于基础模型的参数冻结,在行人重识别模型的训练过程中主要针对多模态分词器中的多个分词器准备训练样本集和设置损失函数,从而有效控制训练成本。将训练好的行人重识别模型应用到行人重识别任务中,能够处理任意多模态数据组合,且具备强泛化能力和零样本任务性能,从而更好地适配行人重识别在现实应用中的多样化场景。
附图说明
图1为本申请一实施例中行人重识别模型训练方法的流程示意图;
图2为本申请一实施例中多模分词器的工作示意图;
图3为本申请一实施例中行人重识别模型在训练过程中的工作示意图;
图4为本申请一实施例中行人重识别模型在实际应用中的工作示意图。
具体实施方式
在许多现实场景下,待检索个体的RGB图像并不可用。为应对这一实际问题,诸多学者展开了对跨模态ReID的研究。跨模态ReID旨在利用非RGB模态数据,如红外、素描和文本等其他模态的信息在全部RGB图像库中进行检索,并找到与之匹配的待检索个体。现有的跨模态ReID模型大多受限于特定的成对模态或仅支持部分模态的组合查找,无法处理多样的、不确定的输入模态。其中一些工作关注于红外图像和RGB图像之间的跨模态匹配,例如,某团队提出一个特征级别的模态补偿网络,旨在弥补各个模态中缺失的特征级别的信息,帮助模型学习出具有辨别性的特征,又例如,某团队利用无标签的数据,提出一种渐进图匹配的方法,学习红外图像和RGB图像之间的关系,以缓解注释成本较高的问题。另一些工作关注于对待检索行人的自然语言描述和基于文本描述的待检索行人素描图像与RGB图像之间的关系,例如,某团队提出一种对抗学习的方法,用于学习素描图像和RGB图像之间的跨模态领域不变性特征,又例如,某团队提出一种多模态方法,可以将素描图与自然语言描述结合,用以查找目标行人。上述工作最多仅支持两个模态的检索,考虑到了现实世界中输入数据的模态具有较大的不确定性,某团队提出一种多模态ReID的网络框架,可以处理RGB图像、素描图像和文本描述,并根据不同的单/多模态任务融合学习到的模态特定的特征。上述方法可以处理任意三个模态输入数据的组合,在很大程度上拓展了ReID网络的使用场景。但是,该方法并未考虑红外模态下的行人图像,且设计过于复杂,可扩展性较低。
此外,人工智能其他领域也正在开展对多模态学习和模型泛化性的研究,并取得了十分出色的成果。在多模态学习中,研究人员希望利用各种模态之间互补的特性让模型在特定任务中取得更出色的性能,一种自然而然的想法是将多个模态的数据进行连接后输入到网络中,但这种方法是基于数据中的模态完整性而设计的,但这一假设在现实世界中并不总是成立。为了解决这一问题,某团队提出ImageBind,可以将不同模态的所有特征投影到相同的特征空间,并利用对比学习将所有模态与基础模态对齐。具体到多模态ReID任务中,受到现实世界中的种种限制,红外和素描模态的行人图像相对而言较难获得,相关技术中分别设计了通过RGB图像合成红外图像和素描图像的方法。
基础模型是指通过在广泛大规模的数据上进行预训练以适应各种下游任务的大型模型。许多研究已经证明了大型基础模型在零样本任务中能够取得出色的表现,有很强的鲁棒性。在ReID任务中,受限于数据采集的困难,数据量不足以训练基础模型。
因此,如何设计一个能够处理任意多模态组合数据,且具备强泛化能力和零样本任务性能的行人重识别模型,是ReID技术能够在现实世界中得以应用的一个至关重要的问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供一种行人重识别模型训练方法。行人重识别模型包括多模态分词器和多模态特征提取器。
多模态分词器包括多个分词器和一个串联模块,每个分词器用于将一种预设模态的数据投影到特征空间得到对应的单模态嵌入矩阵,预设模态包括RGB模态、红外模态、素描模态和文本模态,串联模块用于将同一行人的所有单模态嵌入矩阵串联得到混合嵌入矩阵。
多模态特征提取器用于对单模态嵌入矩阵或混合嵌入矩阵进行特征提取,得到单模态特征矩阵或混合特征矩阵,多模态特征提取器采用Transformer架构的基础模型,该基础模型在大规模数据集上经过预训练,在行人重识别模型的训练过程中参数冻结。
在行人重识别任务中,行人重识别模型用于根据输入的行人数据输出对应的混合特征矩阵以供相似度计算和排序,行人数据包含至少一种预设模态的数据。
图1示出了本申请一实施例中行人重识别模型训练方法的流程示意图;图2示出了本申请一实施例中多模态分词器的工作原理示意图。
参照图1,一实施例中,行人重识别模型训练方法包括如下步骤:
S11、将本次迭代采用的训练样本集输入多模态分词器,得到单模态嵌入矩阵和混合嵌入矩阵,其中,训练样本集包括多个行人的训练数据,同一训练样本集中不同行人的训练数据的模态数量相等。
具体地,参照图2,多模态分词器包括第一图像分词器、第二图像分词器、第三图像分词器和文本分词器。第一图像分词器用于将RGB图像XR投影到特征空间得到RGB嵌入矩阵ER,第二图像分词器用于将红外图像XI投影到特征空间得到红外嵌入矩阵EI,第三图像分词器用于将素描图像XS投影到特征空间得到素描嵌入矩阵ES,文本分词器用于将文本描述XT投影到特征空间得到文本嵌入矩阵ET。ER、EI、ES、ET定义为单模态嵌入矩阵。多模态分词器的运作建立在一个假设的基础上,即存在一个编码空间,其是各个预设模态编码空间的交集且不为空,可被用作编码各个预设模态并将各个预设模态的数据投影到一个统一的特征空间中。
多模态分词器还包括串联模块,串联模块用于将同一行人的所有单模态嵌入矩阵串联得到混合嵌入矩阵EA。可以理解,单个行人的数据可能为某一种预设模态或多种预设模态组合,并不是每个分词器都有对应的输入数据可以处理,对于不同的行人数据,单模态嵌入矩阵的类型和数量都是不确定的,但最终都可以整合形成一个混合嵌入矩阵,混合嵌入矩阵可能为多种长度。此外,混合嵌入矩阵中通常还需要引入位置嵌入矩阵,该矩阵使用加法的方式,与其他单模态嵌入矩阵集成在一起,用以增强各单模态嵌入矩阵中含有的位置信息。
同一训练样本集中不同行人的训练数据的模态数量相等。例如,某个训练样本集中,所有行人的训练数据均包括RGB图像、红外图像、素描图像和文本描述,每个行人的训练数据的模态数量为4。又例如,某个训练样本集中,所有行人的训练数据包括RGB图像,以及文本描述、红外图像和素描图像中的一种,每个行人的训练数据的模态数量为2。
S12、将单模态嵌入矩阵和混合嵌入矩阵输入多模态特征提取器,得到单模态特征矩阵和混合特征矩阵。
本实施例中,使用一个冻结的在大规模数据集上预训练的基础模型充当多模态共享的特征提取器,对来自不同模态的输入进行编码,提取跨所有模态的广义语义表示,可以在不进行微调的情况实现有效的多模态数据处理,并提高整个网络框架的零样本性能。基础模型基于Transformer架构,具备处理变长输入的能力,可以针对任意长度的嵌入矩阵得到对应的特征矩阵。
图3示出了本申请一实施例中行人重识别模型在训练过程中的工作示意图;图4示出了本申请一实施例中行人重识别模型在实际应用中的工作示意图。
在训练过程中,多模态分词器需要输出训练数据对应的所有单模态嵌入矩阵和混合嵌入矩阵,多模态特征提取器需要输出这些嵌入矩阵对应的特征矩阵。参照图3,某行人的训练数据包括XR、XI、XS和XT时,多模态分词器输出ER、EI、ES、ET和EA,多模态特征提取器输出RGB特征矩阵zR、红外特征矩阵zI、素描特征矩阵zS、文本特征矩阵zT和混合特征矩阵zA
而在行人重识别模型实际应用的过程中,参照图4,单模态嵌入矩阵只是得到混合嵌入矩阵所需的中间结果,不需要对外输出,无论输入什么样的行人数据,多模态分词器只需要输出行人数据对应的EA,多模态特征提取器只需要输出EA对应的zA。即,将待检索行人的数据和行人数据库中每个行人的RGB图像输入训练好的行人重识别模型,得到待检索行人和行人数据库中每个行人的混合特征矩阵。将待检索行人的混合特征矩阵分别和行人数据库中每个行人的混合特征矩阵进行相似度计算并排序,得到基于相似度排序的检索结果序列。
S13、根据所有单模态特征矩阵和混合特征矩阵计算得到整体损失值。
本实施例中,损失函数可根据需要进行设置,例如,利用训练数据的标签所包含的真实结果与根据特征矩阵预测的预测结果进行比对,通过交叉熵损失函数来约束训练。
S14、基于反向传播算法,根据整体损失值更新行人重识别模型中的相关参数。
本实施例中,反向传播基于链式法则计算每个参数相对于整体损失值的梯度,该梯度信息可以用于更新行人重识别模型中的参数,使得模型在训练过程中逐渐优化和调整,最小化损失函数。可以理解,由于基础模型的参数冻结,其不参与训练,主要参与训练的是多模态分词器中的多个分词器。
由此,本实施例中,多模态分词器针对任意预设模态或预设模态组合的行人数据都可以分别得到单模态嵌入矩阵,并且串联形成对应的混合嵌入矩阵,由于模态数量、种类不定,混合嵌入矩阵可能为多种长度,而多模态特征提取器采用的基础模型基于Transformer架构,具备处理变长输入的能力,且在大规模数据集上经过预训练,故可以针对任意混合嵌入矩阵得到对应的混合特征矩阵,提取跨所有模态的广义语义表示,可以在不进行微调的情况实现有效的多模态数据处理。由于基础模型的参数冻结,在行人重识别模型的训练过程中主要针对多模态分词器中的多个分词器准备训练样本集和设置损失函数,从而有效控制训练成本。将训练好的行人重识别模型应用到行人重识别任务中,能够处理任意多模态数据组合,且具备强泛化能力和零样本任务性能,从而更好地适配行人重识别在现实应用中的多样化场景。
需要说明的是,图像分词器的结构设计是基于三通道的,但是红外图像和素描图像都是单通道图像,因此在投影前需要采用通道复制的方法,将红外图像和素描图像与RGB的三个通道对齐。
进一步地,一实施例中,RGB模态、红外模态和素描模态对应的分词器,即,图2中的第一图像分词器、第二图像分词器和第三图像分词器,采用ViT-ICS中的IBN风格分词器,其中的卷积、批量归一化和修正线性单元层可以显著增强训练的稳定性,并减轻数据偏差。具体可参考以下文献:
Hao Luo, Pichao Wang, Yi Xu, Feng Ding, Yanxin Zhou, Fan Wang,Hao Li,and Rong Jin. Self-supervised pre-training for transformer-based personre-identification. 2021;
Xingang Pan, Ping Luo, Jianping Shi, and Xiaoou Tang. Two at once:Enhancing learning and generalization capacities via ibn-net. In ECCV, 2018。
文本模态对应的分词器,即图2中的文本分词器,采用Open AI的CLIP分词器,CLIP分词器直接对文本进行映射,每个单词都与一个分词唯一关联,并利用词嵌入层,将其投影到高维特征空间,最终生成一系列单词嵌入。CLIP专注于在嘈杂的网络图像文本对上进行多模态的对比学习,以学习对齐的图像文本表示,可以在ImageNet的零样本测试上取得与原始ResNet-50相媲美的准确性。由于CLIP分词器已经受过训练,因此在行人重识别模型的训练过程中,CLIP分词的训练速率相较其他模块更小。具体可参考以下文献:
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, GabrielGoh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, JackClark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visualmodels from natural language supervision. In ICML, 2021。
进一步地,一实施例中,基础模型采用LAION2B预训练的ViT模型,具体可参考以下文献:
Yiyuan Zhang, Kaixiong Gong, Kaipeng Zhang, Hongsheng Li, Yu Qiao,Wanli Ouyang, and Xiangyu Yue. Meta-transformer: A unified framework formultimodal learning, 2023。
进一步地,一实施例中,步骤S13具体包括:
将所有单模态特征矩阵和混合特征矩阵输入第一引导模块,得到第一损失值,其中,第一引导模块用于对每个特征矩阵在训练样本集的所有行人中进行类别预测,通过交叉熵损失函数计算得到第一损失值;
根据整体损失函数计算得到整体损失值,其中,整体损失函数的自变量包括第一损失值。
本实施例中,第一引导模块用于指导模型学习具有身份不变性的数据特征。训练数据包含行人ID标签,每个行人代表一类。第一引导模块包括bottleneck结构和分类器,第一损失值作为整体损失函数的自变量,在反向传播过程中会涉及到每个分词器以及该分类器的参数更新。具体可参考以下文献:
Hao Luo, Youzhi Gu, Xingyu Liao, Shenqi Lai, and Wei Jiang. Bag oftricks and a strong baseline for deep personre-identification. In CVPRW,2019。
进一步地,一实施例中,第一损失值的计算公式为:
其中,表示第一损失值,为符号函数,若第i个行人的真实类别为c则取1,否则取0,表示根据第i个行人的第k个特征矩阵进行类别预测,预测到行人类别为c的概率,N表示训练样本集中的行人总数,行人的类别数量也为N,K表示每个行人的特征矩阵总数。
示例地,参照图3,每个行人的训练数据包括XR、XI、XS和XT时,多模态特征提取器输出zR、zI、zS、zT和zA,每个行人的特征矩阵总数K为5,zR、zI、zS、zT和zA全部输入第一引导模块,第一引导模块输出
进一步地,一实施例中,整体损失函数的自变量还包括第二损失值,每个行人的训练数据包括RGB图像和至少一种其他预设模态的数据;
在所述根据整体损失函数计算得到整体损失值的步骤之前还包括:
将所有单模态特征矩阵输入第二引导模块,得到第二损失值,其中,第二引导模块根据以下公式计算得到第二损失值:
其中,表示第二损失值,表示余弦相似度,表示第i个行人的RGB特征矩阵,N表示训练样本集中的行人总数,表示第i个行人的其他单模态特征矩阵,D表示每个行人的其他单模态特征矩阵的总数,表示第j个行人的RGB特征矩阵,是控制softmax分布平滑度的超参数。
本实施例中,第二引导模块用于指导模型使不同模态的特征相互对齐并聚合,与传统的方法不同,这种设计可以拉近同一行人的所有模态特征,且分离不同行人之间的RGB模态特征。这种设计的原因在于,RGB图像在现实场景中更加普适,且RGB图像的数据规模最大,在所有公开数据集中均可获取。通过将同一行人的不同模态特征向RGB模态拉近并推远不同行人的RGB特征,可以以RGB特征作为桥梁实现不同行人的多种模态特征划分能力。第二损失值作为整体损失函数的自变量,在反向传播过程中会涉及到每个分词器的参数更新。
示例地,参照图3,每个行人的训练数据包括XR、XI、XS和XT时,多模态特征提取器输出zR、zI、zS、zT和zA,其中的zR、zI、zS和zT输入第二引导模块,每个行人的其他单模态特征矩阵的总数D为3,第二引导模块输出
进一步地,一实施例中,整体损失函数的自变量还包括第三损失值,训练样本集中至少一个目标行人的训练数据,目标行人的训练数据包括RGB图像和文本描述;
在所述根据整体损失函数计算得到整体损失值的步骤之前还包括:
将目标行人的文本描述中的特定属性关键词进行标记,将已标记文本描述输入多模态分词器,得到标记嵌入矩阵,其中,文本模态对应的分词器用于将未标记文本描述投影到特征空间得到文本嵌入矩阵,还用于将已标记文本描述投影到特征空间得到标记嵌入矩阵,单模态嵌入矩阵不包括标记嵌入矩阵;
将标记嵌入矩阵输入多模态特征提取器,得到多个遮罩特征矩阵,其中,多模态特征提取器还用于对标记嵌入矩阵进行特征提取得到多个遮罩特征矩阵,每个遮罩特征矩阵中缺失一个特定属性关键词的信息;
将目标行人的RGB特征矩阵和多个遮罩特征矩阵输入第三引导模块,得到第三损失值,其中,第三引导模块针对每个目标行人,将RGB特征矩阵分别与每个遮罩特征矩阵串联得到多个串联特征矩阵,对每个串联特征矩阵在对应的特定属性关键词的可选类别中进行类别预测,通过交叉熵损失函数计算得到第三损失值。
在ReID任务中,属性在凸显个体特征方面发挥着关键的作用,例如性别、发色等,这些属性对于跨模态数据间的对齐和区分至关重要。本实施例中,以文本模态下的属性信息作为监督信号,对学习具有辨识力个体特征的作用,利用图像特征重建行人属性,提升模型对图像特征的语义理解能力,构建图像和文本间特征关联性。具体可参考以下文献:
Shuyu Yang, Yinan Zhou, Yaxiong Wang, Yujiao Wu, Li Zhu, and ZhedongZheng. Towards unified text-based person retrieval: A large-scale multi-attribute and language search benchmark. In ACMMM, 2023。
第三引导模块包括MLP(Multi-Layer Perception,多层感知器)和分类器,第三损失值作为整体损失函数的自变量,在反向传播过程中会涉及到第一图像分词器、文本分词器和该分类器的参数更新。
具体地,参照图2和图3,文本分词器用于将未标记文本描述XT投影到特征空间得到文本嵌入矩阵ET,还用于将已标记文本描述XM投影到特征空间得到标记嵌入矩阵EM。多模态特征提取器还用于对EM进行特征提取得到多个遮罩特征矩阵zm1、zm2等,每个遮罩特征矩阵中缺失一个特定属性关键词的信息。
示例地,未标记文本描述为A walking man wears white T-shirt and blackshorts,已标记文本描述为A walking [MASK] wears [MASK][MASK] and [MASK]。被标记的关键词有四个,多模态特征提取器输出四个遮罩特征矩阵,分别缺失一个[MASK]对应位置的信息。
进一步地,一实施例中,第三损失值的计算公式为:
其中,表示第三损失值,yic m为符号函数,若第i个目标行人的第m个遮罩特征矩阵中缺失的特定属性关键词的真实类别为c则取1,否则取0,pic m表示根据第i个目标行人的第m个串联特征矩阵进行类别预测,预测到第m个遮罩特征矩阵中缺失的特定属性关键词的类别为c的概率,Qi m表示第i个目标行人的第m个遮罩特征矩阵中缺失的特定属性关键词的类别数量,Mi表示第i个目标行人的文本描述中特定属性关键词的数量,R表示训练样本集中的目标行人总数。
示例地,参照图3,每个行人的训练数据包括XR、XI、XS、XT和XM时,每个行人均为目标行人,基于XT得到XM,多模态特征提取器输出zR、zI、zS、zT、zA、zm1、zm2等,其中的zR、zm1、zm2等输入第三引导模块,第三引导模块输出。每个目标行人的文本描述中特定属性关键词的数量不一定相等,不同特定属性关键词的类别数量也不一定相等。
进一步地,一实施例中,整体损失函数为:
其中,表示整体损失值,表示第一损失值,表示第二损失值,表示第三损失值,是控制第三引导模块的重要性的超参数。
本实施例中,因为第三引导模块的任务相较于其他两个引导模块的任务来说更难学习,因此第三损失值需要单独设立权重,以避免学习方向漂移。
进一步地,一实施例中,第1-X次迭代采用的训练样本集中,每个行人的训练数据包括真实的RGB图像和文本描述,以及通过RGB图像合成的红外图像和素描图像;
第X次迭代之后采用的训练样本集中,每个行人的训练数据包括真实的RGB图像,以及真实的文本描述、红外图像和素描图像中的一种。
本实施例中,考虑到真实世界场景下的ReID任务中,存在着红外相机数量短缺和素描绘制的人工成本过高的问题,导致红外模态和素描模态的真实图像较为稀缺。通过引入合成图像,一方面可以扩大多模态样本的数据规模,另一方面由于合成图像与真实RGB图像之间的跨域差距相对较小,合成图像可以作为连接RGB与红外模态和素描模态之间的通道,在采用第二引导模块的方案中,这种渐进学习的策略易于模型更好地学习到多模态数据的特征,减小模态间特征差距对模型效果的影响。其中,通过RGB图像合成红外图像和素描图像的方法具体可参考以下文献:
Mang Ye, Weijian Ruan, Bo Du, and Mike Zheng Shou. Channel augmentedjoint learning for visible-infrared recognition. In ICCV, 2021;
Patrick von Platen, Suraj Patil, Anton Lozhkov, Pedro Cuenca,NathanLambert, Kashif Rasul, Mishig Davaadorj, and Thomas Wolf. Diffusers:State-of-the-art diffusion models. 2022。
本申请的实验过程如下:
第一步:搭建网络
实验中采用Vision Transformer(ViT)网络作为骨干,采用冻结的LAION基础模型作为多模态特征提取器,通过三个跨模态头部来引导多模态分词器的学习,三个跨模态头部的损失函数经过整合,作为整个模型的损失函数。
第二步:网络训练
分别将不同模态下的行人图像或行人描述划分为训练集和测试集,将各个模态的训练集数据随机组合,送入本申请设计的网络中进行训练。利用前向传播和反向传播对网络参数进行优化和更新。
第三步:网络测试
测试集中目标对象的RGB图像作为待查询集,剩下的行人RGB图像作为图库集。采用训练过程中效果最好模型进行推理,得到测试集上最终检索结果。评价指标采用Rank-1、mAP和mINP。
实验在三个常用的公开数据集进行训练,SYNTH-PEDES数据集提供RGB-Text数据对,LLCM提供RGB-IR数据对,MaSk1K提供RGB-Sketch数据对,在五个常用的公开数据集上测试了零样本性能,Market1501用于测试RGB图像到RGB图像的推理性能,SYSU-MM01用于测试IR图像到RGB图像的推理性能,PKU-Sketch用于测试Sketch图像到RGB图像的推理性能,CUHK-PEDES用于测试Text文本到RGB图像的推理性能,Tri-CUHK-PEDES用于测试Text+Sketch图像到RGB图像的推理性能。
实验使用在LAION-2B数据集上预训练的ViT作为骨干,并将其权重冻结,不参与训练。文本分词器参考预训练的CLIP进行设计。实验采用渐进学习的训练方式,在前40轮迭代过程中,只从SYNTH-PEDES中采样32个成对的RGB-Text样本数据,并与合成IR和Sketch图像结合,作为输入数据。此外,还需随机选择来自不同模态的两到四个嵌入,构成多模态嵌入。在接下来的80轮迭代中,依然为每个批次选择32个样本对,但会从所有训练数据集中公平选择。对于来自SYNTH-PEDES的数据,采样、合成和构建多模态嵌入的方式不变,对于来自LLCM和MaSk1K的数据,只是用成对的RGB-IR和RGB-Sketch图像作为输入,这两个数据集中样本的多模态嵌入仅包含可用的模态。此外,实验中还对视觉模态中的数据进行了随机垂直翻转和随机裁剪,以增加数据的多样性,提升网络的泛化能力。
在实验中,所有图像的大小都统一调整为394*192。整个网络由AdamW优化器进行优化,基础学习率为,余弦权重衰减为,学习率在前5轮迭代中进行预热。基于CLIP的文本分词器的学习率要缩小为原始学习率的0.1倍,设置为设置为
实验沿用现有的跨模态ReID常规设定,采用Rank-k评估模型准确性,采用mAP和mINP来评估模型性能。在多模态ReID中,遵循现有工作对RGB+Text+Sketch的ReID任务的设定。
为了验证本方法的有效性,实验将本方法训练好的行人特征模型的性能与现有的大规模预训练ReID模型、单模态模型的泛化应用、跨模态和多模态ReID方法在测试集上进行了零样本实验对比,结果见表1和表2。
表1
表2
其中,Rank-1表示图库集里余弦相似度最接近待查询目标的图像的标签与待查询目标标签相同的个数站总个数的百分比,mAP表示多类别平均精确率,mINP代表平均逆置负样本惩罚率,AIO表示本方法。
表1的结果表明:现有的大规模预训练ReID模型(PLIP除外)在零样本设置下表现不佳。此外,与单模态方法相比,本方法在RGB图像到RGB图像的检索任务上取得了竞争性的性能,并在所有零样本设置下优于跨模态方法。另外,现有方法在未见模态上的泛化性存在不足,而本方法能够在跨模态任务中出色地处理所有四个模态。
表2中的结果表明:本方法所提出的框架在引入多模态输入时具有极高的任务性能,这与在跨模态任务中仅能依赖单模态输入的方法形成鲜明对比。
两张表中的实验结果,证明了本方法的有效性和优越性。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。术语“第一”、“第二”和“第三”等描述,是用于区分不同的对象等,其不代表先后顺序,也不限定“第一”、“第二”和“第三”是不同的类型。
在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
在本申请实施例描述的一些流程中,包含了按照特定顺序出现的多个操作或步骤,但是应该理解,这些操作或步骤可以不按照其在本申请实施例中出现的顺序来执行或并行执行,操作的序号仅用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作或步骤可以按顺序执行或并行执行,并且这些操作或步骤可以进行组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种适用于任意多模态数据组合的行人重识别模型训练方法,其特征在于,行人重识别模型包括多模态分词器和多模态特征提取器;
多模态分词器包括多个分词器和一个串联模块,每个分词器用于将一种预设模态的数据投影到特征空间得到对应的单模态嵌入矩阵,预设模态包括RGB模态、红外模态、素描模态和文本模态,串联模块用于将同一行人的所有单模态嵌入矩阵串联得到混合嵌入矩阵;
多模态特征提取器用于对单模态嵌入矩阵或混合嵌入矩阵进行特征提取,得到单模态特征矩阵或混合特征矩阵,多模态特征提取器采用Transformer架构的基础模型,该基础模型在大规模数据集上经过预训练,在行人重识别模型的训练过程中参数冻结;
在行人重识别任务中,行人重识别模型用于根据输入的行人数据输出对应的混合特征矩阵以供相似度计算和排序,行人数据包含至少一种预设模态的数据;
所述行人重识别模型训练方法包括:
将本次迭代采用的训练样本集输入多模态分词器,得到单模态嵌入矩阵和混合嵌入矩阵,其中,训练样本集包括多个行人的训练数据,同一训练样本集中不同行人的训练数据的模态数量相等;
将单模态嵌入矩阵和混合嵌入矩阵输入多模态特征提取器,得到单模态特征矩阵和混合特征矩阵;
将所有单模态特征矩阵和混合特征矩阵输入第一引导模块,得到第一损失值,其中,第一引导模块用于对每个特征矩阵在训练样本集的所有行人中进行类别预测,通过交叉熵损失函数计算得到第一损失值;
根据整体损失函数计算得到整体损失值,其中,整体损失函数的自变量包括第一损失值;
基于反向传播算法,根据整体损失值更新行人重识别模型中的相关参数。
2.如权利要求1所述的行人重识别模型训练方法,其特征在于,第一损失值的计算公式为:
其中,表示第一损失值,为符号函数,若第i个行人的真实类别为c则取1,否则取0,表示根据第i个行人的第k个特征矩阵进行类别预测,预测到行人类别为c的概率,N表示训练样本集中的行人总数,行人的类别数量也为N,K表示每个行人的特征矩阵总数。
3.如权利要求1所述的行人重识别模型训练方法,其特征在于,整体损失函数的自变量还包括第二损失值,每个行人的训练数据包括RGB图像和至少一种其他预设模态的数据;
在所述根据整体损失函数计算得到整体损失值的步骤之前还包括:
将所有单模态特征矩阵输入第二引导模块,得到第二损失值,其中,第二引导模块根据以下公式计算得到第二损失值:
其中,表示第二损失值,表示余弦相似度,表示第i个行人的RGB特征矩阵,N表示训练样本集中的行人总数,表示第i个行人的其他单模态特征矩阵,D表示每个行人的其他单模态特征矩阵的总数,表示第j个行人的RGB特征矩阵,是控制softmax分布平滑度的超参数。
4.如权利要求3所述的行人重识别模型训练方法,其特征在于,整体损失函数的自变量还包括第三损失值,训练样本集中至少一个目标行人的训练数据,目标行人的训练数据包括RGB图像和文本描述;
在所述根据整体损失函数计算得到整体损失值的步骤之前还包括:
将目标行人的文本描述中的特定属性关键词进行标记,将已标记文本描述输入多模态分词器,得到标记嵌入矩阵,其中,文本模态对应的分词器用于将未标记文本描述投影到特征空间得到文本嵌入矩阵,还用于将已标记文本描述投影到特征空间得到标记嵌入矩阵,单模态嵌入矩阵不包括标记嵌入矩阵;
将标记嵌入矩阵输入多模态特征提取器,得到多个遮罩特征矩阵,其中,多模态特征提取器还用于对标记嵌入矩阵进行特征提取得到多个遮罩特征矩阵,每个遮罩特征矩阵中缺失一个特定属性关键词的信息;
将目标行人的RGB特征矩阵和多个遮罩特征矩阵输入第三引导模块,得到第三损失值,其中,第三引导模块针对每个目标行人,将RGB特征矩阵分别与每个遮罩特征矩阵串联得到多个串联特征矩阵,对每个串联特征矩阵在对应的特定属性关键词的可选类别中进行类别预测,通过交叉熵损失函数计算得到第三损失值。
5.如权利要求4所述的行人重识别模型训练方法,其特征在于,第三损失值的计算公式为:
其中,表示第三损失值,yic m为符号函数,若第i个目标行人的第m个遮罩特征矩阵中缺失的特定属性关键词的真实类别为c则取1,否则取0,pic m表示根据第i个目标行人的第m个串联特征矩阵进行类别预测,预测到第m个遮罩特征矩阵中缺失的特定属性关键词的类别为c的概率,Qi m表示第i个目标行人的第m个遮罩特征矩阵中缺失的特定属性关键词的类别数量,Mi表示第i个目标行人的文本描述中特定属性关键词的数量,R表示训练样本集中的目标行人总数。
6.如权利要求4所述的行人重识别模型训练方法,其特征在于,整体损失函数为:
其中,表示整体损失值,表示第一损失值,表示第二损失值,表示第三损失值,是控制第三引导模块的重要性的超参数。
7.如权利要求3所述的行人重识别模型训练方法,其特征在于,第1-X次迭代采用的训练样本集中,每个行人的训练数据包括真实的RGB图像和文本描述,以及通过RGB图像合成的红外图像和素描图像;
第X次迭代之后采用的训练样本集中,每个行人的训练数据包括真实的RGB图像,以及真实的文本描述、红外图像和素描图像中的一种。
8.如权利要求1所述的行人重识别模型训练方法,其特征在于,RGB模态、红外模态和素描模态对应的分词器采用ViT-ICS中的IBN风格分词器;
文本模态对应的分词器采用Open AI的CLIP分词器。
9.如权利要求1所述的行人重识别模型训练方法,其特征在于,基础模型采用LAION2B预训练的ViT模型。
CN202410463169.4A 2024-04-17 适用于任意多模态数据组合的行人重识别模型训练方法 Active CN118072252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410463169.4A CN118072252B (zh) 2024-04-17 适用于任意多模态数据组合的行人重识别模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410463169.4A CN118072252B (zh) 2024-04-17 适用于任意多模态数据组合的行人重识别模型训练方法

Publications (2)

Publication Number Publication Date
CN118072252A CN118072252A (zh) 2024-05-24
CN118072252B true CN118072252B (zh) 2024-07-02

Family

ID=

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
All in One Framework for Multimodal Re-identification in the Wild;He Li 等;《arXiv:2405.04741v1 [cs.CV]》;20240508;1-12 *

Similar Documents

Publication Publication Date Title
Lin et al. RSCM: Region selection and concurrency model for multi-class weather recognition
CN108804530B (zh) 对图像的区域加字幕
WO2020147857A1 (zh) 海量视频特征提取以及存储和检索方法及系统
CN110598543B (zh) 基于属性挖掘和推理的模型训练方法及行人再识别方法
KR20110027666A (ko) 이미지들의 유사성 검색을 위한 시스템 및 방법
CN113297369B (zh) 基于知识图谱子图检索的智能问答系统
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
Liu et al. Boosting semi-supervised face recognition with noise robustness
CN111881826A (zh) 跨模态行人重识别方法、装置、电子设备及存储介质
US20090279792A1 (en) Image search method and device
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN117351518B (zh) 一种基于层级差异的无监督跨模态行人重识别方法及系统
CN112101154B (zh) 视频分类方法、装置、计算机设备和存储介质
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN118072252B (zh) 适用于任意多模态数据组合的行人重识别模型训练方法
CN116052108A (zh) 基于Transformer的交通场景小样本目标检测方法及装置
CN116311504A (zh) 一种小样本行为识别方法、系统及设备
CN118072252A (zh) 适用于任意多模态数据组合的行人重识别模型训练方法
CN110399528B (zh) 一种自动跨特征推理式目标检索方法
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN114581956A (zh) 一种多分支细粒度特征融合的行人重识别方法
CN114429648B (zh) 一种基于对比特征的行人重识别方法及系统
CN116152885B (zh) 一种基于特征解耦的跨模态异质人脸识别和原型修复方法
Mane et al. Video classification using SVM

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant