CN115292533B - 视觉定位驱动的跨模态行人检索方法 - Google Patents
视觉定位驱动的跨模态行人检索方法 Download PDFInfo
- Publication number
- CN115292533B CN115292533B CN202210989022.XA CN202210989022A CN115292533B CN 115292533 B CN115292533 B CN 115292533B CN 202210989022 A CN202210989022 A CN 202210989022A CN 115292533 B CN115292533 B CN 115292533B
- Authority
- CN
- China
- Prior art keywords
- cross
- features
- text
- image
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000000007 visual effect Effects 0.000 title claims abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000010586 diagram Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013486 operation strategy Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 239000012633 leachable Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 229910015234 MoCo Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种视觉定位驱动的跨模态行人检索方法,包括获取候选文本和候选图像、输入文本和待检索图像,提取文本的短语;使用训练完成的跨模态预训练模型提取候选文本的短语的特征和候选图像的特征并输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块;使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征并输入训练完成的跨模态交互模块计算待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。本发明可以提高文本和图像语义信息的对应能力、提升局部对应能力,从而提高检索的准确率。
Description
技术领域
本发明涉及图像识别技术领域,尤其是指一种视觉定位驱动的跨模态行人检索方法。
背景技术
基于文本的行人检索逐渐成为多媒体计算和信息检索领域的主流研究课题之一。该课题的目标是开发算法让计算机能够智能地根据一段文本在海量的监控摄像头拍摄的行人图像数据库中检索出符合文本描述的行人图像。在基于文本的行人检索课题被提出前,人工智能领域有两个热门课题——行人重识别(person re-identification,Re-ID)和文本和图像跨模态匹配(text-image cross-modality retrieval)。行人重识别课题旨在给出一张监控拍摄的某行人的图像,在海量的行人图像数据库中检索出和查询图像记录的是同一人的其他图像;而文本和图像跨模态匹配旨在给出查询文本(图像),然后在海量的图像(文本)数据库中查找出内容和查询文本(图像)相符的图像(文本)。基于文本的行人检索任务正是这两个任务的交叉,因而同时兼具两者精细化匹配和跨模态匹配的难点。
从广义上讲,现有的基于文本的行人检索模型结构都由三部分组成:
1.文本编码器:用于将输入的用于检索图像的文本编码为特征向量,用于后续的跨模态交互;
2.图像编码器:用于将输入的候选图像编码为特征向量,用于后续的跨模态交互。
3.跨模态交互模块:是当前不同基于文本的行人检索模型结构的主要不同之处。不同的模型中,该模块的结构也复杂多变,从简单的文本特征向量与图像特征向量的矩阵乘积,到复杂的注意力机制网络,再到更加复杂的生成模块。尽管结构不同,大部分工作在交互模块的设计上都着眼于模型对于局部信息的跨模态对应能力,即模型能够根据一个模态中的部分信息在另一个模态中寻找到对应的这部分信息的能力。
尽管基于文本的行人检索的现有模型性能已具有一定效果,但在以上三个模块的设计中,现有模型仍存在两个缺陷:
1.现有模型的文本编码器和图像编码器仍普遍采取LSTM这种非预训练模型或是Bert这种单模态预训练模型,不具有文本和图像语义信息对应能力。
2.现有模型的跨模态交互模块虽然普遍着眼于模型对于局部信息的跨模态对应能力,但是其局部对应的实现算法普遍存在以下两个缺陷中的一个或多个:(1)为了降低复杂度而预先设置有限的局部候选集。现有算法为了在局部对应的过程中降低复杂度,往往会在两个模态中选择一些候选局部。尽管这种方式对于降低复杂度有一定的帮助,但是它也将可以被对应的局部限定在了候选局部中,对于不在候选局部中的其他信息,就无法进行对应。(2)在局部对应的过程中,对不同的局部赋予不同的权重,区分其重要性,重要性高的局部对应要求偏高,而重要性低的局部要求也偏低。这往往会因为重要性高的局部之间的高度趋同性而使得模型对于部分类别的信息赋予远高于其他类别信息的权重(例如文本和图像的颜色信息),陷入局部最优。
总结来说,现有模型主要面临两个缺陷:编码器的选择上仍未实现到跨模态预训练模型的突破、交互模块的设计上跨模态信息的局部对应法则仍存在缺陷。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种视觉定位驱动的跨模态行人检索方法,可以提高文本和图像语义信息的对应能力、提升局部对应能力,从而提高检索的准确率。
为解决上述技术问题,本发明提供了一种视觉定位驱动的跨模态行人检索方法,包括以下步骤:
步骤1:获取训练集、候选文本和候选图像、输入文本和待检索图像,提取所述候选文本和输入文本的短语;
步骤2:使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型,使用训练完成的跨模态预训练模型提取所述候选文本的短语的特征和候选图像的特征;
步骤3:将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块;
步骤4:使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征,将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。
作为优选的,所述跨模态预训练模型为ALBEF模型。
获取ALBEF模型提取的文本Texti的短语的特征ti∈RL×d和图像Imagei的特征vi∈Rp×d,其中L表示文本的长度,p表示提取图像特征时划分的特征图中的特征总数,d表示特征维度,R表示欧几里得空间;
其中,表示ALBEF模型获取的图像vi的全局特征,/>其中/>表示取vi的第一维;/>表示ALBEF模型获取的文本ti的全局特征,/>其中/>表示取ti的第一维;/>表示数据域,是输入的批数据中/>和/>的集合;/>表示期望计算,表示数据域中的数据个数,H(·,·)表示交叉熵计算,/>表示所述/>与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度,/>表示所述/>与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度;/>表示vi和Tm中所有文本特征是否匹配,如果匹配则/>如果不匹配则/>表示ti和Vm中所有图像特征是否匹配,如果匹配则/>如果不匹配则/>
获取ALBEF模型提取的文本的短语的特征tj和图像的特征vi,
其中,norm(·)表示归一化操作;/>表示文本和图像对的语义相同或不同的概率;数据域其中b表示数据批的大小,其中cos(·,·)表示余弦相似度计算,id(·)表示特征vi和ti所属行人的编号,argmax(·)表示最大值所对应的特征,s.t.表示需要满足的条件;/> yi,j表示vi,tj是否属于同一个行人,若属于则为1,反之则为0;
所述ALBEF模型将tj和vi输入ALBEF模型中的跨模态编码器,得到的跨模态编码的全局特征gm(tj,vi)∈RL×d,取gm(tj,vi)的第一行gm(tj,vi)0∈Rd作为跨模态编码的全局特征使用ALBEF模型中的矩阵/>对所述/>进行二分类得到/>
作为优选的,将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,具体为:
所述跨模态交互模块由多层transformer构成,将所述候选文本的短语的特征和候选图像的特征输入transformer,将输入所述transformer的短语的特征表示为fp∈Rl×d、图像的特征表示为fv∈Rp×d,其中l表示短语的长度,p表示图像的划分块数;
所述transformer中的每一层进行如下操作:
Q=Wq×fv,
K=Wk×fp,
V=Wv×fp,
fo=FFN(weight×fp);
其中,Wq,Wk,Wv分别是三个不同的Rd×d矩阵,Wq将fv映射为查询向量Q,Wk将fp映射为键向量K,Wv将fp映射为值向量V,查询向量与键向量相乘,得到每个值向量应当被赋予的权重weight,d′表示经过映射后的特征维度,softmax()是softmax函数,fo表示输出特征,FFN(·)表示多层感知机计算;
使用Grad-CAM算法计算图像对于短语的gradcam值为:
其中,*表示矩阵的逐元素乘积操作;
取gradcam当中的第1行作为热点值hotmap∈Rp,其中p表示提取图像特征时划分的特征图中的特征总数,将热点值按照特征图进行二维排列得到所述热点图Map,W是热点图Map的行数,H是热点图Map的列数,w×H=p。
作为优选的,所述使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块,具体为:
根据所述热点图对图像进行加权,得到图像对于每个短语的融合特征,计算融合特征与短语特征向量的余弦相似度;
其中,cos()表示计算余弦相似度操作;
作为优选的,将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度时,使用的方法为交叉运行策略和from-coarse-to-fine策略。
作为优选的,所述交叉运行策略,具体为:
ALBEF模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征后,跨模态交互模块进行输入文本的特征与待检索图像的特征的跨模态交互、输入文本的短语的特征和待检索图像的特征的跨模态交互两个步骤,两个步骤占用的内存数分别为M1和M2;
输入文本的特征与待检索图像的特征先不进行交互,待所述输入文本的短语的特征和待检索图像的特征完成交互并计算得到余弦相似度和所述定位损失函数后,将此时的梯度与中间变量从显存中删除,随后将输入文本的特征与待检索图像的特征进行交互,总的内存占用数为max(M1,M2)。
作为优选的,所述from-coarse-to-fine策略,具体为:
使用ALBEF模型的图像编码器提取候选图像的特征,计算输入文本的短语的特征与所有候选图像的特征的余弦相似度得到图像文本匹配的粗相似度;
将粗相似度从大到小排序,依次选取相似度排名前k的候选图像,将挑选出的多张候选图像的特征和所述输入文本的特征依次送入跨模态交互模块中,计算得到每张候选图像的特征和输入文本的特征的图像文本匹配的细相似度;
将所述细相似度作为最终的相似度,选择最终的相似度最大的候选图像作为检索结果。
本发明的上述技术方案相比现有技术具有以下优点:
本发明使用跨模态预训练模型作为特征编码器,提高了文本和图像语义信息的对应能力;同时,本发明通过使用热点图训练跨模态交互模块,热点图实现了图像中各个小块与文本信息的对应,提升了局部对应能力,从而提高检索的准确率。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明的流程图;
图2是本发明的结构图;
图3是本发明实施例中使用Grad-CAM算法提取图像对于输入短语的热点图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明公开了一种视觉定位驱动的跨模态行人检索方法,包括以下步骤:
步骤1:获取训练集、候选文本和候选图像、输入文本和待检索图像,提取所述候选文本和输入文本的短语;提取短语使用的是句法树解析器。具体为:对一个文本中的各个单词进行词性标注后,按照一定的结构范式(例如形容词+名词、名词+介词+名词等)对文本中的单词进行匹配,例如blue shirt就是一个形容词+名词的结构,符合结构范式,因此作为一个短语。重复这个过程直至文本中没有符合范式的结构,完成对输入文本的短语提取。
步骤2:使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型,使用训练完成的跨模态预训练模型提取所述候选文本的短语的特征和候选图像的特征。
本实施例中使用的跨模态预训练模型为ALBEF模型(详见文献“Li J,SelvarajuR,Gotmare A,et al.Align before fuse:Vision and language representationlearning with momentum distillation[J].Advances in neural informationprocessing systems,2021,34:9694-9705.”)。ALBEF模型是一种文本和图像跨模态预训练模型,基于Bert和VisionTransformer的结构搭建,采用MSCOCO、SBU、Visual Genome、Conceptual Captions四个大规模文本和图像跨模态数据集进行训练。在使用该模型时,保留对比学习损失、文本和图像精细匹配的损失。
对比学习的损失函数的输入为ALBEF提取的文本Texti的短语的特征ti∈RL×d和提取的图像Imagei的特征vi∈Rp×d,其中L表示文本的长度,具体为对输入文本Texti进行分词处理后得到的单词、标点、特殊符号总数;p表示提取图像特征时划分的特征图中的特征总数,d表示特征维度,R表示欧几里得空间,R的右上标表示欧几里得空间的维度。对比学习的损失函数/>的计算方式如下:
其中,表示ALBEF模型获取的输入图像vi的全局特征,/>其中/>表示取vi的第一维,类似地,/>表示ALBEF模型获取的输入文本ti的全局特征,计算方式与/>对应,/>表示数据域,具体来说,是输入的批数据中/>的集合,/>表示期望计算,具体来说,/>其中的简写,/>表示数据域中的数据个数,H(·,·)表示交叉熵计算,/>表示所述/>与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度,/>表示所述/>与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度,Vm是记录目前已处理过的/>的队列,计算得到/>后,若Vm中有图像Imagei的特征/>记录,则更新Vm,令/>队列长度不变,若Vm中没有图像Imagei的特征/>记录,则将/>插入队列,Tm更新方法类似;/>表示vi和Tm中所有文本特征是否匹配,即是否属于同一个行人,|Tm|表示Tm的队列长度,即记录的特征个数,对于Tm中的第j个文本特征,如果匹配则/>如果不匹配则/>
训练所述ALBEF模型时,建立的文本和图像匹配精细匹配损失函数用于更新ALBEF模型的参数,提高文本和图像相似度在3的基础上进行重排名/相似度精细化的准确率,其输入为ALBEF编码得到的输入文本和输入图像的特征tj和vi,计算方式如下:
所述ALBEF模型将先前得到的输入文本和输入图像的特征tj和vi输入跨模态编码器gm,得到的跨模态编码的全局特征gm(tj,vi)∈RL×d,其中L是文本的长度,d表示特征向量维度;取gm(tj,vi)的第一行gm(tj,vi)0∈Rd作为跨模态编码的全局特征使用矩阵对所述/>进行二分类得到/>
表示期望计算,具体来说,/> 表示数据域中的数据个数,H(·,·)表示交叉熵计算。数据域/>构成为/>其中b表示数据批的大小,/>的获取方式为/> 其中cos(·,·)表示余弦相似度计算,id(·)表示特征vi和ti所属行人的编号,argmax(·)表示最大值所对应的特征;形象化来说,/>即为数据批中和特征vi属于不同行人的文本特征中,和vi的余弦相似度最大的那个。/>的采样方式同理。yi,j表示vi,tj是否属于同一个行人,若属于则为1,反之则为0。
步骤3:将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块。
步骤3-1:将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图。
步骤3-1-1:所述跨模态交互模块包括transformer(详见文献“Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in neuralinformation processing systems,2017,30.”),将所述候选文本的短语的特征和候选图像的特征输入transformer,将输入所述transformer的短语的特征表示为fp∈Rl×d、图像的特征表示为fv∈Rp×d,其中l表示短语的长度,p表示图像的划分块数,d表示特征向量维度,R表示欧几里得空间,R的右上标表示欧几里得空间的维度;
所述transformer中的每一层进行如下操作:
Q=Wq×fv,
K=Wk×fp,
V=Wv×fp,
fo=FFN(weight×fp);
其中,Wq,Wk,Wv分别是三个不同的Rd×d矩阵,Wq将fv映射为查询向量Q,Wk将fp映射为键向量K,Wv将fp映射为值向量V,查询向量与键向量相乘,得到每个值向量应当被赋予的权重weight,d′表示经过映射后的特征维度,softmax()是softmax函数,fo表示输出特征,FFN(·)表示多层感知机计算;
步骤3-1-3:使用Grad-CAM算法(详见文献“Selvaraju R R,Das A,Vedantam R,etal.Grad-CAM:Why did you say that?[J].arXiv preprint arXiv:1611.07450,2016.”)计算图像对于短语的gradcam值为:
其中,*表示矩阵的逐元素乘积操作,norm(·)表示归一化操作,gradcam∈Rl×p;
步骤3-1-4:取gradcam当中的第1行作为热点值hotmap∈Rp,其中p表示提取图像特征时划分的特征图中的特征总数,将热点值按照特征图进行二维排列,即可得到所述热点图Map∈RW×H,W是热点图Map的行数,H是热点图Map的列数,w×H=p。
步骤3-2:使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块。
步骤3-2-1:根据所述热点图对图像进行加权,得到图像对于每个短语的融合特征,计算融合特征与短语特征向量的余弦相似度;
其中,cos()表示计算余弦相似度操作;
定位损失函数可以有效衡量模型将文本中的短语信息在和文本相对应的图像信息中寻找出来的能力。模型在使用该损失函数进行训练的时候,其跨模态局部对齐能力会得到显著提高。最终侧面优化模型的文本编码器提取局部特征的能力,在测试阶段即便不进行短语级别的定位,仅靠文本编码器提取的文本特征也可以更加精准地在图像数据库中进行检索。
步骤4:使用训练完成的跨模态预训练模型提取输入文本的短语的特征和待检索图像的特征,将所述输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。
步骤4-1:使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征。具体为:输入文本和输入文本的短语经过ALBEF模型的文本编码器得到文本特征,待检索图像经过ALBEF模型的图像编码器得到图像特征。
步骤4-2:将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块,使用交叉运行策略和from-coarse-to-fine策略计算所述待检索图像与候选图像的相似度。
在ALBEF模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征后,按照流程下一步应当进行输入文本特征与输入图像特征的跨模态交互、输入短语和输入图像特征的跨模态交互两个步骤,且两个步骤均由跨模态交互模块完成,设两个步骤占用内存数分别为M1和M2,则总内存占用数为两个步骤相加,即M1+M2。为了节省内存,此时文本特征和图像特征先不进行交互,待所述输入文本的短语的特征和待检索图像的特征完成交互并计算得到余弦相似度与定位损失函数后,将此时的梯度与中间变量从显存中删除,随后再将输入文本特征和输入图像特征送入跨模态交互模块进行交互。此时总的内存占用数为max(M1,M2)。
假设图像数据库中共有N张候选图像,那么单次输入文本查询与所有N张候选图像输入跨模态交互模块的复杂度就是O(N),如果数据库中候选图像数量较多,即N是一个比较大的值的话,一次检索需要消耗大量的时间,导致算法在实际应用中难以发挥其性能。
而from-coarse-to-fine策略正是为了解决这个问题而提出的。提取数据库中的候选图像的特征、或者在数据库中增加新候选图像提取特征时,离线地使用图像编码器提取候选图像的特征,如步骤2所述,计算输入文本的短语的特征与所有候选图像的特征的余弦相似度得到图像文本匹配的粗相似度(即将步骤2中的和/>的余弦相似度作为图像文本匹配的粗相似度coarse相似度);由于余弦相似度计算简单,该步操作可以在很短的时间内完成。
在得到粗相似度后,选取粗相似度最大的多张候选图像,将挑选出的多张候选图像的特征和所述输入文本的短语的特征依次送入跨模态交互模块中,如步骤2所述,计算得到每张候选图像的特征和输入文本的短语的特征的图像文本匹配的细相似度(即将步骤2中的的第一维作为图像文本匹配的细相似度fine相似度);
将所述细相似度作为最终的相似度,选择最终的相似度最大的候选图像作为检索结果。
细相似度的单次计算比起粗相似度的单词计算更加耗时,但是计算的结果也更加精准。from-coarse-to-fine策略将单次文本查询时消耗时间巨大的文本和图像跨模态模块的计算复杂度从O(N)降低至O(1),对于提升模型的运行速度帮助很大。同时,from-coarse-to-fine策略也可以计算更加精细的相似度,提高检索结果的准确性。
步骤4-3:选择相似度最大的候选图像作为检索结果。相似度最大的图像可以为一张也可以为多张。
本发明使用跨模态预训练模型作为特征编码器,提高了文本和图像语义信息的对应能力,相较于非预训练模型或是单模态预训练模型更加适合基于文本的行人检索;同时,本发明通过使用热点图训练跨模态交互模块,热点图实现了图像中各个小块与文本信息的对应,提升了局部对应能力,从而提高检索的准确率。
为了进一步说明本发明的有益效果,本实施例在基于文本的行人检索的通用数据集CUHKPEDES上进行了实验,具体如下所示:
所述CUHKPEDES数据集共包含了13,003个不同行人的40,206张图像,每张图像都有2句描述。训练集包含34,054张标记有11,003个行人身份的图像,以及68,108句文本描述。验证集包含3,078张标记为1000个身份的图像,测试集包含3,074张标记为1,000个身份的图像。
本实施例中以输入一段文本″The man is wearing a backpack around oneshoulder and he is wearing a light blue casual shirt and dark jeans.″和一张如图3中左侧所示的图像,首先利用句法分析树提取输入文本中的短语,包括“blue casualshirt”和“dark jeans”等。使用本发明方法得到“blue casual shirt(蓝色休闲衬衫)”的热点图如图3右侧所示,可以看出使用本发明方法得到的热点图可以清晰对应出蓝色休闲衬衫的轮廓,局部对应能力强。
接着,采用广泛使用的Rank-k(R@k)进行评估,(R@k表示搜索结果中最靠前(置信度最高)的k张图有正确结果的概率)同时用模态参数的数量来验证该框架的有效性。
通过实验,分别得到了ALBEF模型、本发明方法和现有性能最优方法CM-MoCo(详见文献“Han X,He S,Zhang L,et al.Text-based person search with limited data[J].arXiv preprint arXiv:2110.10807,2021.”)在k=1时的R@1准确率的结果。最终,现有方法最高能达到64.13%的R@1准确率,基线模型在不进行跨模态交互模块重排名的情况下达到了39.78%的R@1准确率,在进行跨模态交互模块重排名的情况下达到了62.31%的R@1准确率;而本发明方法在不进行跨模态交互的情况下达到了61.06%的R@1准确率,在在进行跨模态交互模块重排名的情况下达到了71.03%的R@1准确率。相较于现有方法,本发明方法实现了6.9%的R@1准确率提升。
由此可见,本发明的准确率显著提高,证明了本发明的性能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (8)
1.一种视觉定位驱动的跨模态行人检索方法,其特征在于,包括以下步骤:
步骤1:获取训练集、候选文本和候选图像、输入文本和待检索图像,提取所述候选文本和输入文本的短语;
步骤2:使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型,使用训练完成的跨模态预训练模型提取所述候选文本的短语的特征和候选图像的特征,所述跨模态预训练模型为ALBEF模型;
步骤3:将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块;
获取ALBEF模型提取的文本Texti的短语的特征ti∈RL×d和图像Imagei的特征vi∈Rp×d,其中L表示文本的长度,p表示提取图像特征时划分的特征图中的特征总数,d表示特征维度,R表示欧几里得空间;
其中,表示ALBEF模型获取的图像vi的全局特征,/>其中/>表示取vi的第一维;/>表示ALBEF模型获取的文本ti的全局特征,/>其中/>表示取ti的第一维;/>表示数据域,是输入的批数据中/>和/>的集合;/>表示期望计算, 表示数据域中的数据个数,H(·,·)表示交叉熵计算,/>表示所述/>与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度,/>表示所述/>与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度;/>表示vi和Tm中所有文本特征是否匹配,如果匹配则/>如果不匹配则/> 表示ti和Vm中所有图像特征是否匹配,如果匹配则/>如果不匹配则/>
步骤4:使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征,将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。
获取ALBEF模型提取的文本的短语的特征tj和图像的特征vi,
其中,norm(·)表示归一化操作;/>表示文本和图像对的语义相同或不同的概率;数据域其中b表示数据批的大小,其中cos(·,·)表示余弦相似度计算,id(·)表示特征vi和ti所属行人的编号,argmax(·)表示最大值所对应的特征,s.t.表示需要满足的条件;/> yi,j表示vi,tj是否属于同一个行人,若属于则为1,反之则为0;
4.根据权利要求3所述的视觉定位驱动的跨模态行人检索方法,其特征在于:将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,具体为:
所述跨模态交互模块由多层transformer构成,将所述候选文本的短语的特征和候选图像的特征输入transformer,将输入所述transformer的短语的特征表示为fp∈Rl×d、图像的特征表示为fv∈Rp×d,其中l表示短语的长度,p表示图像的划分块数;
所述transformer中的每一层进行如下操作:
Q=Wq×fv,
K=Wk×fp,
y=Wv×fp,
fo=FFN(weight×fp);
其中,Wq,Wk,Wv分别是三个不同的Rd×d′矩阵,Wq将fv映射为查询向量Q,Wk将fp映射为键向量K,Wv将fp映射为值向量V,查询向量与键向量相乘,得到每个值向量应当被赋予的权重weight,d′表示经过映射后的特征维度,softmax()是softmax函数,fo表示输出特征,FFN(·)表示多层感知机计算;
使用Grad-CAM算法计算图像对于短语的gradcam值为:
其中,*表示矩阵的逐元素乘积操作;
取gradcam当中的第1行作为热点值hotmap∈Rp,其中p表示提取图像特征时划分的特征图中的特征总数,将热点值按照特征图进行二维排列得到所述热点图Map,W是热点图Map的行数,H是热点图Map的列数,w×H=p。
6.根据权利要求5所述的视觉定位驱动的跨模态行人检索方法,其特征在于:将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度时,使用的方法为交叉运行策略和from-coarse-to-fine策略。
7.根据权利要求6所述的视觉定位驱动的跨模态行人检索方法,其特征在于:所述交叉运行策略,具体为:
ALBEF模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征后,跨模态交互模块进行输入文本的特征与待检索图像的特征的跨模态交互、输入文本的短语的特征和待检索图像的特征的跨模态交互两个步骤,两个步骤占用的内存数分别为M1和M2;
输入文本的特征与待检索图像的特征先不进行交互,待所述输入文本的短语的特征和待检索图像的特征完成交互并计算得到余弦相似度和所述定位损失函数后,将此时的梯度与中间变量从显存中删除,随后将输入文本的特征与待检索图像的特征进行交互,总的内存占用数为max(M1,M2)。
8.根据权利要求6所述的视觉定位驱动的跨模态行人检索方法,其特征在于:所述from-coarse-to-fine策略,具体为:
使用ALBEF模型的图像编码器提取候选图像的特征,计算输入文本的短语的特征与所有候选图像的特征的余弦相似度得到图像文本匹配的粗相似度;
将粗相似度从大到小排序,依次选取相似度排名前k的候选图像,将挑选出的多张候选图像的特征和所述输入文本的特征依次送入跨模态交互模块中,计算得到每张候选图像的特征和输入文本的特征的图像文本匹配的细相似度;
将所述细相似度作为最终的相似度,选择最终的相似度最大的候选图像作为检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210989022.XA CN115292533B (zh) | 2022-08-17 | 2022-08-17 | 视觉定位驱动的跨模态行人检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210989022.XA CN115292533B (zh) | 2022-08-17 | 2022-08-17 | 视觉定位驱动的跨模态行人检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115292533A CN115292533A (zh) | 2022-11-04 |
CN115292533B true CN115292533B (zh) | 2023-06-27 |
Family
ID=83831026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210989022.XA Active CN115292533B (zh) | 2022-08-17 | 2022-08-17 | 视觉定位驱动的跨模态行人检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292533B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383671B (zh) * | 2023-03-27 | 2024-05-28 | 武汉大学 | 隐式关系推理对齐的文本图像跨模态行人检索方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364197A (zh) * | 2020-11-12 | 2021-02-12 | 四川省人工智能研究院(宜宾) | 一种基于文本描述的行人图像检索方法 |
CN114022735A (zh) * | 2021-11-09 | 2022-02-08 | 北京有竹居网络技术有限公司 | 视觉语言预训练模型的训练方法、装置、设备及介质 |
CN114036336A (zh) * | 2021-11-15 | 2022-02-11 | 上海交通大学 | 基于语义划分的视觉文本属性对齐的行人图像搜索方法 |
CN114495010A (zh) * | 2022-02-14 | 2022-05-13 | 广东工业大学 | 一种基于多特征学习的跨模态行人重识别方法及系统 |
CN114817673A (zh) * | 2022-04-14 | 2022-07-29 | 华侨大学 | 一种基于模态关系学习的跨模态检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101901962B1 (ko) * | 2013-11-08 | 2018-11-07 | 한국전자통신연구원 | 내비게이션을 이용한 자율 주행 제어 장치 및 그 방법 |
-
2022
- 2022-08-17 CN CN202210989022.XA patent/CN115292533B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364197A (zh) * | 2020-11-12 | 2021-02-12 | 四川省人工智能研究院(宜宾) | 一种基于文本描述的行人图像检索方法 |
CN114022735A (zh) * | 2021-11-09 | 2022-02-08 | 北京有竹居网络技术有限公司 | 视觉语言预训练模型的训练方法、装置、设备及介质 |
CN114036336A (zh) * | 2021-11-15 | 2022-02-11 | 上海交通大学 | 基于语义划分的视觉文本属性对齐的行人图像搜索方法 |
CN114495010A (zh) * | 2022-02-14 | 2022-05-13 | 广东工业大学 | 一种基于多特征学习的跨模态行人重识别方法及系统 |
CN114817673A (zh) * | 2022-04-14 | 2022-07-29 | 华侨大学 | 一种基于模态关系学习的跨模态检索方法 |
Non-Patent Citations (2)
Title |
---|
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation;Junnan Li 等;《arXiv:2107.07651v2》;全文 * |
ChiQA: A Large Scale Image-base d Real-World Qustion Answering Dataset for Multi-Mo dal Understanding;Bingning Wang 等;《arXiv:2208.03030v1》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115292533A (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
Karpathy et al. | Deep visual-semantic alignments for generating image descriptions | |
CN106845411B (zh) | 一种基于深度学习和概率图模型的视频描述生成方法 | |
CN109992686A (zh) | 基于多角度自注意力机制的图像-文本检索系统及方法 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN110083729B (zh) | 一种图像搜索的方法及系统 | |
CN110348024A (zh) | 基于法律知识图谱的智能识别系统 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN115017266A (zh) | 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备 | |
CN108509521A (zh) | 一种自动生成文本索引的图像检索方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN115982403A (zh) | 一种多模态哈希检索方法及装置 | |
CN117010500A (zh) | 一种多源异构知识联合增强的视觉知识推理问答方法 | |
CN114153971A (zh) | 一种含错中文文本纠错识别分类设备 | |
CN111460200A (zh) | 基于多任务深度学习的图像检索方法、模型及其构建方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN115292533B (zh) | 视觉定位驱动的跨模态行人检索方法 | |
CN115062174A (zh) | 基于语义原型树的端到端图像字幕生成方法 | |
CN117807232A (zh) | 商品分类方法、商品分类模型构建方法及装置 | |
CN114969269A (zh) | 基于实体识别和关系抽取的虚假新闻检测方法及系统 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |