CN116682144B - 一种基于多层次跨模态差异调和的多模态行人重识别方法 - Google Patents
一种基于多层次跨模态差异调和的多模态行人重识别方法 Download PDFInfo
- Publication number
- CN116682144B CN116682144B CN202310732993.0A CN202310732993A CN116682144B CN 116682144 B CN116682144 B CN 116682144B CN 202310732993 A CN202310732993 A CN 202310732993A CN 116682144 B CN116682144 B CN 116682144B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- text
- image
- modal
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000000007 visual effect Effects 0.000 claims abstract description 35
- 238000004088 simulation Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 8
- 239000012633 leachable Substances 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 4
- 230000000452 restraining effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 208000032538 Depersonalisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多层次跨模态差异调和的多模态行人重识别方法,属于计算机视觉领域。本发明包括训练样本的获取,以及行人图片和相应文本描述的预处理;然后使用模态编码器‑模态共享解码器架构,在一组可学习的语义查询嵌入的引导下,提取出模态对齐的视觉和文本特征;再使用全局文本特征和未掩码图像块作为输入,对掩码图像块重建,调和图像块级别和实例级别的跨模态差异;通过交叉身份双模拟学习,利用一个差异预测器,帮助不同身份行人特征间的相关性在不同模态间转换,缓解身份级别的跨模态差异;最后使用模型输出的模态对齐的视觉特征和文本特征,计算查询文本特征和图像库中图像特征之间的相似度矩阵,实现准确高效的行人重识别。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及可用于智能视频监控、智能安防等的多模态行人重识别方法,该方法属于图像检索、多模态信息融合和深度学习的交叉应用。
背景技术
行人重识别(Person Re-identification),简称ReID,是指利用计算机手段,从大量的跨摄像头视频中快速、准确地检索目标查询人员图像的技术。随着城市的快速发展和交通摄像网络的完善,行人重识别技术在城市管理与公共安防方面有着巨大的应用前景。比如,对于频繁发生的幼童和老人走失事件,利用实时监控视频数据,迅速找到目标当前所在的位置,避免事态进一步恶化;在公共卫生领域,行人重识别技术可以实现人流信息的统计。行人重识别技术根据查询数据的类型可以分为两种:分别是基于图像的查询、基于文本的查询,基于图像查询的行人重识别近些年发展迅速,但在实际应用中无法保证拥有目标清晰有效的查询图像,使得这类方法在实践中存在较大的局限性。基于文本的行人重识别也称多模态行人重识别,是指用文本描述来检索图像或者视频序列中是否存在特定行人,因其支持开放形式的自然语言查询,可以克服基于图像行人重识别系统的局限性,而具有更广泛的应用价值。
多模态行人重新识别的主要挑战是在文本描述和图像外观之间存在着显著模态差异和高度非线性关系的情况下,提取出能够在不同模态之间进行有效匹配的特征。现有的方法通过构建跨模态特征匹配策略来解决这一挑战,相关方法大致可以分成两类。第一类是基于全局特征匹配的方法。该方法使用模态特定的预训练模型或设计先进的模型结构提取样本的全局特征,并设计跨模态损失函数来学习两种模态的共同特征空间。然而,这些方法无法有效地探索行人的细节特征,从而无法构建细粒度的跨模态交互,导致性能不佳。第二类方法基于细粒度局部特征来进行特征匹配和模态对齐。一些方法利用注意机制,构建局部文本描述(短语或单词)和图像块之间的对应关系来实现隐式跨模态对齐,提高行人重识别的精度。另外一些方法利用额外的语义先验信息(例如姿态信息、人体语义分割信息或者行人属性信息)来指导网络提取图像和文本中对应的语义部件的特征,实现显式跨模态对齐。然而,这些方法通常需要针对特定的查询-待查询文本图像对执行成对的跨模态交互操作,具有较高的时间复杂度。现有的方法未充分考虑到文本和图像在行人重识别任务中的多层次和多粒度对齐关系。例如,一个文本短语如"蓝色外套"可能对应同一图像中具有不同外观的图像块,也可能对应同一行人的不同图像,甚至对应不同行人却穿着相似的蓝色外套。因此,在图像和特定文本描述之间形成一对一的强关联时,不可避免地会导致两种模态之间的过度对齐,进而影响行人重识别任务的准确性。
发明内容
本发明克服了之前方法复杂度高,且未充分考虑到文本和图像在行人重识别任务中的多层次和多粒度对齐关系的不足,通过调和从细到粗三个层级,即图像块级别、实例级别和身份级别的跨模态差异,实现准确高效的行人重识别。其中包含了跨模态掩码重建方法,用来调和图像块级别和实例级别的跨模态差异。还包含了交叉身份双模拟方法,通过一个差异预测器,帮助不同身份行人特征间的相关性在不同模态间转换,来缓解身份级别的跨模态差异。
本发明提供的技术方案如下:
一种多模态行人重识别方法,其步骤包括:
1)获取训练样本集,所述训练样本集包括多个训练样本,其中每一个训练样本均包括:行人图像、与行人图像对应的文字描述;每个行人图像被分割成图像块的个数为N,设定一个丢弃率pm,在N个图像块中随机掩码pm*N个图像块;
2)使用模态编码器-模态共享解码器,在一组可学习的语义查询嵌入的引导下,提取一组模态对齐的视觉特征和文本特征;
3)采用重建编码器,使用全局文本特征和未掩码图像块作为输入,实现跨模态掩码重建,重建损失包括自实例重建的损失和跨实例重建的损失;
4)针对不同ID的训练样本,利用一个差异预测器,将一个模态的特征差异作为输入去预测另一个模态的特征偏差,计算双模拟损失;且采用交叉熵损失作为行人身份的分类损失,同时,采用排序损失增大相同ID的特征相似度,减小不同ID的特征相似度;
5)模型总体损失函数包含重建损失、双模拟损失、行人身份的分类损失和排序损失,使用输出的模态对齐的视觉特征和文本特征,计算查询文本特征和图像库中图像特征之间的相似度矩阵,实现多模态行人重识别。
进一步,在步骤2)中,使用模态编码器提取图像全局特征、图像局部特征、文本全局特征和文本局部特征,具体步骤为:对于一个包含N个图像块的行人图像,使用一个线性映射层将其转化为一组图像块嵌入,再将一个额外的可学习的嵌入加入到该组图像块嵌的第一个位置来表示全局信息;同时,在这组图像块嵌入中加入可学习的位置编码对空间信息进行编码,将图像块嵌入输入到视觉编码器中,得到图像全局特征和图像局部特征;对于包含M个单词的文本描述,先将其输入到预训练的BERT模型得到离散的词嵌入,再将其输入到双向的LSTM模型,将前向LSTM和后向LSTM相应的隐层特征输出连接得到文本全局特征和文本局部特征。模态共享解码器包含一个自注意力层和交叉注意力层,以及一组可学习的语义查询嵌入,首先,可学习的语义查询嵌入通过自注意力层进行自身交互,然后通过交叉注意力层分别与图像局部特征和文本局部特征交互,生成一组模态对齐的图像局部特征和文本局部特征,最后,将模态对齐的局部特征和对应模态的全局特征连接起来形成最终的视觉特征和文本特征。
进一步,在步骤3)中,在重建之前,在所有被掩码的位置添加一个全局共享的可学习掩码嵌,对于填充后的的视觉特征序列加上位置编码学习空间相关性,利用训练样本的文本全局特征作为重建条件,与填充后的的视觉特征序列一起输入到重建编码器中,实现自实例重建。对于当前训练批次的训练样本A,从数据集中选取同一行人ID的一个训练样本B,基于训练样本A的文本全局特征对训练样本B的被掩码的图像块嵌入进行重建,实现跨实例重建。
进一步,在步骤4)中,针对不同ID的训练样本A和C,分别是样本A和C的视觉特征,/>别是样本A和C的文本特征,/> 表示视觉模态中样本A和C的特征偏差,/>表示文本模态中样本本A和C的特征偏差;
采用公式(1)计算双模拟损失,其中<·>表示余弦相似度,||·||表示取模;
本发明的有益效果是:
1、本发明基于模态特定编码器-模态共享解码器架构提出了新的多模态行人重识别方法,实现从细到粗三个层级调和,即图像块级别、实例级别和身份级别的跨模态差异,实现准确高效的行人重识别。
2、本发明既调和图像块级别和实例级别的跨模态差异,还包含了交叉身份双模拟方法,通过学习一个差异预测器,帮助不同身份行人特征间的相关性在不同模态间转换,来缓解身份级别的跨模态差异。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的基于多层次跨模态差异调和的多模态行人重识别方法的实施流程图。
图2是本发明基于多层次跨模态差异调和的多模态行人重识别方法的模型框架图。
具体实施方法
为使本发明的目的、技术方法及优点更加清晰,下面结合附图及具体实例,对本发明做进一步的详细说明。这些实例仅仅是说明性的,而并非对本发明的限制。
本发明实施提供一种基于多层次跨模态差异调和的多模态行人重识别方法。视觉编码器为Transformer网络架构,采用与ViT[1]相同的标准结构。编码层、特征维度、多头注意力的数量分别设置为12、768、8,并采用可学习的位置编码。所述文本编码器采用预训练的BERT[2]模型与一个双向LSTM[3]模型级联构成。所述的模态共享解码器采用标准的Transformer网络架构。编码层、特征维度、多头注意力的数量分别设置为2、768、6,并采用可学习的位置编码。如图1所示,具体步骤包括:
(1)获取训练样本集,所述训练样本集包括多个训练样本,其中每一个训练样本均包括:行人图像、与行人图像对应的文字描述;对于当前训练批次的每一个训练样本A(包含行人图片和对应的文本描述/>),再额外从数据集中选取同一行人ID的一个训练样本B(包含行人图片/>和对应的文本描述/>),以及从数据集中选取不是同一行人ID的一个训练样本C(包含行人图片和对应的文本描述)对训练样本中的行人图像进行预处理,包括尺度归一化以及随机水平翻转等数据增强方法,然后将预处理之后的图像切分成图像块。每个图片被分割成图像块的个数为N。设定一个丢弃率pm,在每个图片的N个图像块中随机掩码pm*N个图像块,并将未掩码掉的图像块作为当前批次的网络输入。同时对训练样本中的文字描述进行预处理,采用BERT模型的分词器得到每个单词对应的编码。
(2)模态对齐的视觉和文本特征提取。以训练样本A为例,具体步骤包括:
(2.1)将一个行人图像切分出的N个图像块,使用一个线性映射层将其转化为一组图像块嵌入再用一个额外的可学习的嵌入Tcls加入到该组图像块嵌的第一个位置来表示全局信息。同时,在这组图像块嵌入中加入可学习的位置编码对空间信息进行编码。
(2.2)将图像块嵌入输入到视觉编码器中,得到图像特征序列,表示为其中/>表示图像全局特征,/>表示图像局部特征。
(2.3)将包含M个单词的文本描述输入到预训练的BERT模型中,得到一组离散的词嵌入,再将其输入到双向的LSTM模型。将前向LSTM和后向LSTM相应的隐层特征输出连接起来得到文本全局特征和文本局部特征/>
(2.4)定义一组数量为Nq的可学习的语义查询嵌入,与模态编码器提取出的图像特征和文本特征一起输入到模态共享解码器中。
(2.5)可学习的语义查询嵌入通过模态共享解码器的自注意力层Ds进行自身交互,然后通过交叉注意力层Dc分别与图像局部特征Zv和文本局部特征Zt交互,得到一组模态对齐的视觉局部特征和文本局部特征/>
(2.6)将模态对齐的局部特征和对应模态的全局特征连接起来形成最终的视觉特征和文本特征/>
(3)跨模态掩码重建,如图2所示。
(3.1)根据步骤(1),得到没有被掩码的图像块嵌入和图像局部特征序列/>其中{k1,k2,…}是这些未被掩码的图像块嵌入的索引。对图像特征序列中所有被掩码的位置上添加一个全局共享的可学习掩码嵌入zm∈RD,得到填充后的的视图像特征序列/>同时,对于填充后的的图像特征序列加上位置编码来学习空间相关性。
(3.2)利用训练样本A的文本全局特征作为重建条件,与填充后的的图像特征序列/>一起输入到重建编码器Erec中,实现自实例重建。使用被掩码的图像块嵌入/>作为自实例重建目标。获取与样本A相同ID的样本B(包括行人图像/>和文本描述/>),基于A的文本全局特征对B的被掩码的图像块嵌入/>进行跨实例重建。其中/>分别为自实例重建和跨实例重建的结果,/>和/>分别是自实例重建和跨实例重建的重建目标。自实例重建的损失函数和跨实例重建的损失函数中||·||2表示求均方误差。
自实例重建公式为:
自实例重建的损失函数为:
跨实例重建公式为:
跨实例重建的损失函数为:
(4)交叉身份双模拟学习。
(4.1)对(2.6)中的获取的视觉特征和文本特征计算特征差异。对于两个不同ID的样本A和样本C,分别是样本A和C的视觉特征,/>别是样本A和C的文本特征。其中视觉相关性的计算方法为/>文本相关性的计算方法为/> 表示视觉模态中样本A和C的特征偏差,/>表示文本模态中样本本A和C的特征偏差。
(4.2)为了消除身份级别的模态差异,利用一个差异预测器(利用多层感知器实现),将一个模态的特征偏差作为输入去预测另一个模态的特征偏差。预测公式如下:
Pv-t,Pt-v分别是视觉到文本的差异预测器和文本到视觉的差异预测器。分别为预测的文本模态中样本本A和C的特征偏差和预测的视觉模态中样本A和C的特征偏差。最大化预测特征偏差与其实际值的余弦相似度作为目标,双模拟损失计算公式为如下,其中<·>表示余弦相似度,||·||表示取模。
(4.3)采用交叉熵损失作为行人身份的分类损失,计算公式如下,fv,ft分别为视觉特征和文本特征,分别表示fv,ft属于标签y的概率。
同时,采用排序损失增大相同ID的特征相似度,减小不同ID的特征相似度;
其中S指余弦相似度,α指margin值,分别指相同ID和不同ID的视觉/文本特征;
(5)模型总体的损失函数包含身份的分类损失、排序损失、重建损失、双模拟损失,计算公式为:
其中λrec,λbisim是重建损失和双模拟损失的权重;
使用模型输出的模态对齐的视觉特征和文本特征,计算查询文本特征和图像库中图像特征之间的相似度矩阵,实现多模态行人重识别。
在模型的训练过程中,使用常用的身份损失和排序损失对模型提取出的模态对齐的视觉特征和文本特征进行约束,使用均方误差损失对重建编码器输出的未掩码图像块的预测值和真实值进行约束,同时使用所提出的互模拟损失来对当前批次的样本对之间的视觉特征偏差和文本特征偏差进行约束。
参考文献:
[1]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An Image is Worth 16x16Words:Transformers for Image Recognition at Scale[C]//InternationalConference on Learning Representations.
[2]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deepbidirectional transformers for language understanding[J].arXiv preprintarXiv:1810.04805,2018.
[3]Sarafianos N,Xu X,Kakadiaris I A.Adversarial representationlearning for text-to-image matching[C]//Proceedings of the IEEE/CVFinternational conference on computer vision.2019:5814-5824.
Claims (6)
1.一种多模态行人重识别方法,包括以下步骤:
1)获取训练样本集,所述训练样本集包括多个训练样本,其中每一个训练样本均包括:行人图像、与行人图像对应的文字描述;每个行人图像被分割成图像块的个数为N,设定一个丢弃率pm,在N个图像块中随机掩码pm*N个图像块;
2)使用模态编码器-模态共享解码器,在一组可学习的语义查询嵌入的引导下,提取一组模态对齐的视觉特征和文本特征;
3)采用重建编码器,使用全局文本特征和未掩码图像块作为输入,实现跨模态掩码重建,重建损失包括自实例重建的损失和跨实例重建的损失;
4)针对不同ID的训练样本,利用一个差异预测器,将一个模态的特征差异作为输入去预测另一个模态的特征偏差,计算双模拟损失;即针对不同ID的训练样本A和C,分别是样本A和C的视觉特征,/>分别是样本A和C的文本特征,/> 表示视觉模态中样本A和C的特征偏差,/>表示文本模态中样本A和C的特征偏差;/>
采用公式(1)计算双模拟损失,其中<·>表示余弦相似度,||·||表示取模;
且采用交叉熵损失作为行人身份的分类损失,同时,采用排序损失增大相同ID的特征相似度,减小不同ID的特征相似度;
5)模型总体损失函数包含重建损失、双模拟损失、行人身份的分类损失和排序损失,使用输出的模态对齐的视觉特征和文本特征,计算查询文本特征和图像库中图像特征之间的相似度矩阵,实现多模态行人重识别。
2.如权利要求1所述的多模态行人重识别方法,其特征在于,在步骤1)中,对训练样本中的行人图像进行预处理,包括尺度归一化以及随机水平翻转;同时对训练样本中的文字描述进行预处理,使用词汇表对每个单词编码。
3.如权利要求1所述的多模态行人重识别方法,其特征在于,在步骤2)中,使用模态编码器提取图像全局特征、图像局部特征、文本全局特征和文本局部特征,具体步骤为:对于一个包含N个图像块的行人图像,使用一个线性映射层将其转化为一组图像块嵌入,再将一个额外的可学习的嵌入加入到该组图像块嵌入的第一个位置来表示全局信息;同时,在这组图像块嵌入中加入可学习的位置编码对空间信息进行编码,将图像块嵌入输入到视觉编码器中,得到图像全局特征和图像局部特征;对于包含M个单词的文本描述,先将其输入到预训练的BERT模型得到离散的词嵌入,再将其输入到双向的LSTM模型,将前向LSTM和后向LSTM相应的隐层特征输出连接得到文本全局特征和文本局部特征。
4.如权利要求3所述的多模态行人重识别方法,其特征在于,在步骤2)中,模态共享解码器包含一个自注意力层和交叉注意力层,以及一组可学习的语义查询嵌入,首先,可学习的语义查询嵌入通过自注意力层进行自身交互,然后通过交叉注意力层分别与图像局部特征和文本局部特征交互,生成一组模态对齐的图像局部特征和文本局部特征,最后,将模态对齐的局部特征和对应模态的全局特征连接起来形成最终的视觉特征和文本特征。
5.如权利要求1所述的多模态行人重识别方法,其特征在于,在步骤3)中,在重建之前,在所有被掩码的位置添加一个全局共享的可学习掩码嵌入,对于填充后的视觉特征序列加上位置编码学习空间相关性,利用训练样本的文本全局特征作为重建条件,与填充后的视觉特征序列一起输入到重建编码器中,实现自实例重建。
6.如权利要求1所述的多模态行人重识别方法,其特征在于,在步骤3)中,对于当前训练批次的训练样本A,从数据集中选取同一行人ID的一个训练样本B,基于训练样本A的文本全局特征对训练样本B的被掩码的图像块嵌入进行重建,实现跨实例重建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310732993.0A CN116682144B (zh) | 2023-06-20 | 2023-06-20 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310732993.0A CN116682144B (zh) | 2023-06-20 | 2023-06-20 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116682144A CN116682144A (zh) | 2023-09-01 |
CN116682144B true CN116682144B (zh) | 2023-12-22 |
Family
ID=87783566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310732993.0A Active CN116682144B (zh) | 2023-06-20 | 2023-06-20 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116682144B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349662B (zh) * | 2023-12-05 | 2024-02-06 | 华南师范大学 | 多模态嘲讽检测方法、装置、计算机设备以及存储介质 |
CN117391092B (zh) * | 2023-12-12 | 2024-03-08 | 中南大学 | 一种基于对比学习的电子病历多模态医疗语义对齐方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906493A (zh) * | 2021-01-27 | 2021-06-04 | 中国石油大学(华东) | 一种基于互相关注意力机制的跨模态行人重识别方法 |
CN113221680A (zh) * | 2021-04-26 | 2021-08-06 | 西北工业大学 | 基于文本动态引导视觉特征提炼的文本行人检索方法 |
CN113553947A (zh) * | 2021-07-23 | 2021-10-26 | 湖南大学 | 生成描述嵌入多模态行人重识别方法、装置及电子设备 |
WO2022027986A1 (zh) * | 2020-08-04 | 2022-02-10 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN114241517A (zh) * | 2021-12-02 | 2022-03-25 | 河南大学 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
CN114821770A (zh) * | 2022-04-11 | 2022-07-29 | 华南理工大学 | 文本到图像的跨模态行人再识别方法、系统、介质和设备 |
CN115033670A (zh) * | 2022-06-02 | 2022-09-09 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
CN115116096A (zh) * | 2022-07-14 | 2022-09-27 | 南京工业大学 | 基于跨模态相关性图推断方法的文本行人重识别算法 |
CN115311687A (zh) * | 2022-08-09 | 2022-11-08 | 安徽大学 | 联合令牌和特征对齐的自然语言行人检索方法及系统 |
CN115546831A (zh) * | 2022-10-11 | 2022-12-30 | 同济人工智能研究院(苏州)有限公司 | 一种多粒度注意力机制跨模态行人搜索方法和系统 |
CN115862055A (zh) * | 2022-11-15 | 2023-03-28 | 北京大学深圳研究生院 | 基于对比学习和对抗训练的行人重识别方法及装置 |
CN116186317A (zh) * | 2023-04-23 | 2023-05-30 | 中国海洋大学 | 一种基于跨模态交叉指导的图文检索方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2586265B (en) * | 2019-08-15 | 2023-02-15 | Vision Semantics Ltd | Text based image search |
CN112434796B (zh) * | 2020-12-09 | 2022-10-25 | 同济大学 | 一种基于局部信息学习的跨模态行人再识别方法 |
-
2023
- 2023-06-20 CN CN202310732993.0A patent/CN116682144B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022027986A1 (zh) * | 2020-08-04 | 2022-02-10 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN112906493A (zh) * | 2021-01-27 | 2021-06-04 | 中国石油大学(华东) | 一种基于互相关注意力机制的跨模态行人重识别方法 |
CN113221680A (zh) * | 2021-04-26 | 2021-08-06 | 西北工业大学 | 基于文本动态引导视觉特征提炼的文本行人检索方法 |
CN113553947A (zh) * | 2021-07-23 | 2021-10-26 | 湖南大学 | 生成描述嵌入多模态行人重识别方法、装置及电子设备 |
CN114241517A (zh) * | 2021-12-02 | 2022-03-25 | 河南大学 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
CN114821770A (zh) * | 2022-04-11 | 2022-07-29 | 华南理工大学 | 文本到图像的跨模态行人再识别方法、系统、介质和设备 |
CN115033670A (zh) * | 2022-06-02 | 2022-09-09 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
CN115116096A (zh) * | 2022-07-14 | 2022-09-27 | 南京工业大学 | 基于跨模态相关性图推断方法的文本行人重识别算法 |
CN115311687A (zh) * | 2022-08-09 | 2022-11-08 | 安徽大学 | 联合令牌和特征对齐的自然语言行人检索方法及系统 |
CN115546831A (zh) * | 2022-10-11 | 2022-12-30 | 同济人工智能研究院(苏州)有限公司 | 一种多粒度注意力机制跨模态行人搜索方法和系统 |
CN115862055A (zh) * | 2022-11-15 | 2023-03-28 | 北京大学深圳研究生院 | 基于对比学习和对抗训练的行人重识别方法及装置 |
CN116186317A (zh) * | 2023-04-23 | 2023-05-30 | 中国海洋大学 | 一种基于跨模态交叉指导的图文检索方法及系统 |
Non-Patent Citations (3)
Title |
---|
BDNet:A BERT-based dual-path network for text-to-image cross-modal person re-identification;Qiang Liu et al.;pattern recognition;全文 * |
基于生成对抗网络的跨模态行人重识别研究;冯敏;张智成;吕进;余磊;韩斌;;现代信息科技(第04期);全文 * |
面向跨模态文本到图像行人重识别的Transformer网络;姜定 等;中国图象图形学报;第25卷(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116682144A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116682144B (zh) | 一种基于多层次跨模态差异调和的多模态行人重识别方法 | |
CN109524006B (zh) | 一种基于深度学习的汉语普通话唇语识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN110135295A (zh) | 一种基于迁移学习的无监督行人重识别方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN110909673A (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN111444367B (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN110633683A (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
CN110046579B (zh) | 一种深度哈希的行人再识别方法 | |
CN112861976B (zh) | 一种基于孪生图卷积哈希网络的敏感图像识别方法 | |
CN113010700B (zh) | 一种基于类别信息对齐的图像文本跨模态检索方法 | |
CN113780003B (zh) | 时空数据变分编解码跨模态增强方法 | |
Zhang et al. | Migratable urban street scene sensing method based on vision language pre-trained model | |
CN113592037A (zh) | 一种基于自然语言推断的地址匹配方法 | |
CN115035508A (zh) | 基于主题引导的Transformer的遥感图像字幕生成方法 | |
Xing et al. | Ventral & dorsal stream theory based zero-shot action recognition | |
CN114154016A (zh) | 基于目标空间语义对齐的视频描述方法 | |
CN117421591A (zh) | 一种基于文本引导图像块筛选的多模态表征学习方法 | |
CN114973136A (zh) | 一种极端条件下场景图像识别方法 | |
CN116935292B (zh) | 一种基于自注意力模型的短视频场景分类方法及系统 | |
CN117217368A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN116385946A (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
CN116186350A (zh) | 基于知识图谱和主题文本的输电线路工程搜索方法和装置 | |
CN114896969A (zh) | 一种基于深度学习的方面词提取方法 | |
CN115457345A (zh) | 一种利用基于Graphormer的上下文推理网络进行图片预测分类的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |