CN115292533B - 视觉定位驱动的跨模态行人检索方法 - Google Patents

视觉定位驱动的跨模态行人检索方法 Download PDF

Info

Publication number
CN115292533B
CN115292533B CN202210989022.XA CN202210989022A CN115292533B CN 115292533 B CN115292533 B CN 115292533B CN 202210989022 A CN202210989022 A CN 202210989022A CN 115292533 B CN115292533 B CN 115292533B
Authority
CN
China
Prior art keywords
cross
features
text
image
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210989022.XA
Other languages
English (en)
Other versions
CN115292533A (zh
Inventor
王海光
曹敏
张民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210989022.XA priority Critical patent/CN115292533B/zh
Publication of CN115292533A publication Critical patent/CN115292533A/zh
Application granted granted Critical
Publication of CN115292533B publication Critical patent/CN115292533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种视觉定位驱动的跨模态行人检索方法,包括获取候选文本和候选图像、输入文本和待检索图像,提取文本的短语;使用训练完成的跨模态预训练模型提取候选文本的短语的特征和候选图像的特征并输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块;使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征并输入训练完成的跨模态交互模块计算待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。本发明可以提高文本和图像语义信息的对应能力、提升局部对应能力,从而提高检索的准确率。

Description

视觉定位驱动的跨模态行人检索方法
技术领域
本发明涉及图像识别技术领域,尤其是指一种视觉定位驱动的跨模态行人检索方法。
背景技术
基于文本的行人检索逐渐成为多媒体计算和信息检索领域的主流研究课题之一。该课题的目标是开发算法让计算机能够智能地根据一段文本在海量的监控摄像头拍摄的行人图像数据库中检索出符合文本描述的行人图像。在基于文本的行人检索课题被提出前,人工智能领域有两个热门课题——行人重识别(person re-identification,Re-ID)和文本和图像跨模态匹配(text-image cross-modality retrieval)。行人重识别课题旨在给出一张监控拍摄的某行人的图像,在海量的行人图像数据库中检索出和查询图像记录的是同一人的其他图像;而文本和图像跨模态匹配旨在给出查询文本(图像),然后在海量的图像(文本)数据库中查找出内容和查询文本(图像)相符的图像(文本)。基于文本的行人检索任务正是这两个任务的交叉,因而同时兼具两者精细化匹配和跨模态匹配的难点。
从广义上讲,现有的基于文本的行人检索模型结构都由三部分组成:
1.文本编码器:用于将输入的用于检索图像的文本编码为特征向量,用于后续的跨模态交互;
2.图像编码器:用于将输入的候选图像编码为特征向量,用于后续的跨模态交互。
3.跨模态交互模块:是当前不同基于文本的行人检索模型结构的主要不同之处。不同的模型中,该模块的结构也复杂多变,从简单的文本特征向量与图像特征向量的矩阵乘积,到复杂的注意力机制网络,再到更加复杂的生成模块。尽管结构不同,大部分工作在交互模块的设计上都着眼于模型对于局部信息的跨模态对应能力,即模型能够根据一个模态中的部分信息在另一个模态中寻找到对应的这部分信息的能力。
尽管基于文本的行人检索的现有模型性能已具有一定效果,但在以上三个模块的设计中,现有模型仍存在两个缺陷:
1.现有模型的文本编码器和图像编码器仍普遍采取LSTM这种非预训练模型或是Bert这种单模态预训练模型,不具有文本和图像语义信息对应能力。
2.现有模型的跨模态交互模块虽然普遍着眼于模型对于局部信息的跨模态对应能力,但是其局部对应的实现算法普遍存在以下两个缺陷中的一个或多个:(1)为了降低复杂度而预先设置有限的局部候选集。现有算法为了在局部对应的过程中降低复杂度,往往会在两个模态中选择一些候选局部。尽管这种方式对于降低复杂度有一定的帮助,但是它也将可以被对应的局部限定在了候选局部中,对于不在候选局部中的其他信息,就无法进行对应。(2)在局部对应的过程中,对不同的局部赋予不同的权重,区分其重要性,重要性高的局部对应要求偏高,而重要性低的局部要求也偏低。这往往会因为重要性高的局部之间的高度趋同性而使得模型对于部分类别的信息赋予远高于其他类别信息的权重(例如文本和图像的颜色信息),陷入局部最优。
总结来说,现有模型主要面临两个缺陷:编码器的选择上仍未实现到跨模态预训练模型的突破、交互模块的设计上跨模态信息的局部对应法则仍存在缺陷。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种视觉定位驱动的跨模态行人检索方法,可以提高文本和图像语义信息的对应能力、提升局部对应能力,从而提高检索的准确率。
为解决上述技术问题,本发明提供了一种视觉定位驱动的跨模态行人检索方法,包括以下步骤:
步骤1:获取训练集、候选文本和候选图像、输入文本和待检索图像,提取所述候选文本和输入文本的短语;
步骤2:使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型,使用训练完成的跨模态预训练模型提取所述候选文本的短语的特征和候选图像的特征;
步骤3:将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块;
步骤4:使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征,将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。
作为优选的,所述跨模态预训练模型为ALBEF模型。
作为优选的,训练所述ALBEF模型时,建立对比学习的损失函数
Figure BDA0003803168870000031
的过程为:
获取ALBEF模型提取的文本Texti的短语的特征ti∈RL×d和图像Imagei的特征vi∈Rp×d,其中L表示文本的长度,p表示提取图像特征时划分的特征图中的特征总数,d表示特征维度,R表示欧几里得空间;
计算损失函数
Figure BDA0003803168870000041
为:
Figure BDA0003803168870000042
其中,
Figure BDA0003803168870000043
表示ALBEF模型获取的图像vi的全局特征,/>
Figure BDA0003803168870000044
其中/>
Figure BDA0003803168870000045
表示取vi的第一维;/>
Figure BDA0003803168870000046
表示ALBEF模型获取的文本ti的全局特征,/>
Figure BDA0003803168870000047
其中/>
Figure BDA0003803168870000048
表示取ti的第一维;/>
Figure BDA0003803168870000049
表示数据域,是输入的批数据中/>
Figure BDA00038031688700000410
和/>
Figure BDA00038031688700000411
的集合;/>
Figure BDA00038031688700000412
表示期望计算,
Figure BDA00038031688700000413
表示数据域中的数据个数,
Figure BDA00038031688700000414
H(·,·)表示交叉熵计算,/>
Figure BDA00038031688700000415
表示所述/>
Figure BDA00038031688700000416
与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度,/>
Figure BDA00038031688700000417
表示所述/>
Figure BDA00038031688700000418
与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度;/>
Figure BDA00038031688700000419
表示vi和Tm中所有文本特征是否匹配,如果匹配则/>
Figure BDA00038031688700000420
如果不匹配则/>
Figure BDA00038031688700000421
表示ti和Vm中所有图像特征是否匹配,如果匹配则/>
Figure BDA00038031688700000422
如果不匹配则/>
Figure BDA00038031688700000423
作为优选的,所述
Figure BDA00038031688700000424
与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度/>
Figure BDA00038031688700000425
中的第j个相似度/>
Figure BDA00038031688700000426
为:
Figure BDA00038031688700000427
其中,τ是可学习参数,s()是计算余弦相似度的函数,|Tm|表示Tm的队列长度,
Figure BDA00038031688700000428
表示队列Tm的第j个特征,exp()表示自然指数函数;
所述
Figure BDA00038031688700000429
与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度
Figure BDA00038031688700000430
中的第j个相似度/>
Figure BDA00038031688700000431
为:
Figure BDA00038031688700000432
其中,|Vm|表示Vm的队列长度,
Figure BDA0003803168870000051
表示队列Vm的第j个特征。
作为优选的,训练所述ALBEF模型时,建立文本和图像精细匹配的损失函数
Figure BDA0003803168870000052
的过程为:
获取ALBEF模型提取的文本的短语的特征tj和图像的特征vi
计算损失函数
Figure BDA0003803168870000053
为:
Figure BDA0003803168870000054
其中,
Figure BDA0003803168870000055
norm(·)表示归一化操作;/>
Figure BDA0003803168870000056
表示文本和图像对的语义相同或不同的概率;数据域
Figure BDA0003803168870000057
其中b表示数据批的大小,
Figure BDA0003803168870000058
其中cos(·,·)表示余弦相似度计算,id(·)表示特征vi和ti所属行人的编号,argmax(·)表示最大值所对应的特征,s.t.表示需要满足的条件;/>
Figure BDA0003803168870000059
Figure BDA00038031688700000510
yi,j表示vi,tj是否属于同一个行人,若属于则为1,反之则为0;
Figure BDA00038031688700000511
的计算方法为:
所述ALBEF模型将tj和vi输入ALBEF模型中的跨模态编码器,得到的跨模态编码的全局特征gm(tj,vi)∈RL×d,取gm(tj,vi)的第一行gm(tj,vi)0∈Rd作为跨模态编码的全局特征
Figure BDA00038031688700000512
使用ALBEF模型中的矩阵/>
Figure BDA00038031688700000513
对所述/>
Figure BDA00038031688700000514
进行二分类得到/>
Figure BDA00038031688700000515
作为优选的,将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,具体为:
所述跨模态交互模块由多层transformer构成,将所述候选文本的短语的特征和候选图像的特征输入transformer,将输入所述transformer的短语的特征表示为fp∈Rl×d、图像的特征表示为fv∈Rp×d,其中l表示短语的长度,p表示图像的划分块数;
所述transformer中的每一层进行如下操作:
Q=Wq×fv
K=Wk×fp
V=Wv×fp
Figure BDA0003803168870000061
fo=FFN(weight×fp);
其中,Wq,Wk,Wv分别是三个不同的Rd×d矩阵,Wq将fv映射为查询向量Q,Wk将fp映射为键向量K,Wv将fp映射为值向量V,查询向量与键向量相乘,得到每个值向量应当被赋予的权重weight,d′表示经过映射后的特征维度,softmax()是softmax函数,fo表示输出特征,FFN(·)表示多层感知机计算;
根据所述fo计算transformer的损失函数
Figure BDA0003803168870000062
计算权重weight的梯度/>
Figure BDA0003803168870000063
为:
Figure BDA0003803168870000064
使用Grad-CAM算法计算图像对于短语的gradcam值为:
Figure BDA0003803168870000065
其中,*表示矩阵的逐元素乘积操作;
取gradcam当中的第1行作为热点值hotmap∈Rp,其中p表示提取图像特征时划分的特征图中的特征总数,将热点值按照特征图进行二维排列得到所述热点图Map,W是热点图Map的行数,H是热点图Map的列数,w×H=p。
作为优选的,所述使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块,具体为:
根据所述热点图对图像进行加权,得到图像对于每个短语的融合特征,计算融合特征与短语特征向量的余弦相似度;
根据所述融合特征与短语特征向量的余弦相似度计算所述跨模态交互模块的定位损失函数
Figure BDA0003803168870000071
为:
Figure BDA0003803168870000072
其中,cos()表示计算余弦相似度操作;
使用热点图训练跨模态交互模块直到所述定位损失函数
Figure BDA0003803168870000073
收敛,得到训练完成的跨模态交互模块。
作为优选的,将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度时,使用的方法为交叉运行策略和from-coarse-to-fine策略。
作为优选的,所述交叉运行策略,具体为:
ALBEF模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征后,跨模态交互模块进行输入文本的特征与待检索图像的特征的跨模态交互、输入文本的短语的特征和待检索图像的特征的跨模态交互两个步骤,两个步骤占用的内存数分别为M1和M2
输入文本的特征与待检索图像的特征先不进行交互,待所述输入文本的短语的特征和待检索图像的特征完成交互并计算得到余弦相似度和所述定位损失函数后,将此时的梯度与中间变量从显存中删除,随后将输入文本的特征与待检索图像的特征进行交互,总的内存占用数为max(M1,M2)。
作为优选的,所述from-coarse-to-fine策略,具体为:
使用ALBEF模型的图像编码器提取候选图像的特征,计算输入文本的短语的特征与所有候选图像的特征的余弦相似度得到图像文本匹配的粗相似度;
将粗相似度从大到小排序,依次选取相似度排名前k的候选图像,将挑选出的多张候选图像的特征和所述输入文本的特征依次送入跨模态交互模块中,计算得到每张候选图像的特征和输入文本的特征的图像文本匹配的细相似度;
将所述细相似度作为最终的相似度,选择最终的相似度最大的候选图像作为检索结果。
本发明的上述技术方案相比现有技术具有以下优点:
本发明使用跨模态预训练模型作为特征编码器,提高了文本和图像语义信息的对应能力;同时,本发明通过使用热点图训练跨模态交互模块,热点图实现了图像中各个小块与文本信息的对应,提升了局部对应能力,从而提高检索的准确率。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明的流程图;
图2是本发明的结构图;
图3是本发明实施例中使用Grad-CAM算法提取图像对于输入短语的热点图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明公开了一种视觉定位驱动的跨模态行人检索方法,包括以下步骤:
步骤1:获取训练集、候选文本和候选图像、输入文本和待检索图像,提取所述候选文本和输入文本的短语;提取短语使用的是句法树解析器。具体为:对一个文本中的各个单词进行词性标注后,按照一定的结构范式(例如形容词+名词、名词+介词+名词等)对文本中的单词进行匹配,例如blue shirt就是一个形容词+名词的结构,符合结构范式,因此作为一个短语。重复这个过程直至文本中没有符合范式的结构,完成对输入文本的短语提取。
步骤2:使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型,使用训练完成的跨模态预训练模型提取所述候选文本的短语的特征和候选图像的特征。
本实施例中使用的跨模态预训练模型为ALBEF模型(详见文献“Li J,SelvarajuR,Gotmare A,et al.Align before fuse:Vision and language representationlearning with momentum distillation[J].Advances in neural informationprocessing systems,2021,34:9694-9705.”)。ALBEF模型是一种文本和图像跨模态预训练模型,基于Bert和VisionTransformer的结构搭建,采用MSCOCO、SBU、Visual Genome、Conceptual Captions四个大规模文本和图像跨模态数据集进行训练。在使用该模型时,保留对比学习损失、文本和图像精细匹配的损失。
训练所述ALBEF模型时,建立的对比学习的损失函数
Figure BDA0003803168870000101
用于更新步骤2中使用的ALBEF模型的参数,提高跨模态预训练模型编码得到的文本和图像特征在测试阶段的检索成功率。
对比学习的损失函数
Figure BDA0003803168870000102
的输入为ALBEF提取的文本Texti的短语的特征ti∈RL×d和提取的图像Imagei的特征vi∈Rp×d,其中L表示文本的长度,具体为对输入文本Texti进行分词处理后得到的单词、标点、特殊符号总数;p表示提取图像特征时划分的特征图中的特征总数,d表示特征维度,R表示欧几里得空间,R的右上标表示欧几里得空间的维度。对比学习的损失函数/>
Figure BDA0003803168870000103
的计算方式如下:
Figure BDA0003803168870000104
其中,
Figure BDA0003803168870000105
表示ALBEF模型获取的输入图像vi的全局特征,/>
Figure BDA0003803168870000106
其中/>
Figure BDA0003803168870000107
表示取vi的第一维,类似地,/>
Figure BDA0003803168870000108
表示ALBEF模型获取的输入文本ti的全局特征,计算方式与/>
Figure BDA0003803168870000109
对应,/>
Figure BDA00038031688700001010
表示数据域,具体来说,是输入的批数据中/>
Figure BDA00038031688700001011
的集合,/>
Figure BDA00038031688700001012
表示期望计算,具体来说,/>
Figure BDA00038031688700001013
其中
Figure BDA00038031688700001014
的简写,/>
Figure BDA00038031688700001015
表示数据域中的数据个数,H(·,·)表示交叉熵计算,/>
Figure BDA00038031688700001016
表示所述/>
Figure BDA00038031688700001017
与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度,/>
Figure BDA00038031688700001018
表示所述/>
Figure BDA00038031688700001019
与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度,Vm是记录目前已处理过的/>
Figure BDA00038031688700001020
的队列,计算得到/>
Figure BDA00038031688700001021
后,若Vm中有图像Imagei的特征/>
Figure BDA00038031688700001022
记录,则更新Vm,令/>
Figure BDA00038031688700001023
队列长度不变,若Vm中没有图像Imagei的特征/>
Figure BDA00038031688700001024
记录,则将/>
Figure BDA00038031688700001025
插入队列,Tm更新方法类似;/>
Figure BDA00038031688700001026
表示vi和Tm中所有文本特征是否匹配,即是否属于同一个行人,|Tm|表示Tm的队列长度,即记录的特征个数,对于Tm中的第j个文本特征,如果匹配则/>
Figure BDA00038031688700001027
如果不匹配则/>
Figure BDA0003803168870000111
所述
Figure BDA0003803168870000112
与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度
Figure BDA0003803168870000113
中的第j个相似度/>
Figure BDA0003803168870000114
为:
Figure BDA0003803168870000115
其中,τ是可学习参数,s()是计算余弦相似度的函数,|Tm|表示Tm的队列长度,
Figure BDA0003803168870000116
表示队列Tm的第j个特征,exp()表示自然指数函数,exp(x)=ex
所述
Figure BDA0003803168870000117
与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度
Figure BDA0003803168870000118
中的第j个相似度/>
Figure BDA00038031688700001116
为:
Figure BDA00038031688700001110
其中,|Vm|表示Vm的队列长度,
Figure BDA00038031688700001111
表示队列Vm的第j个特征。
训练所述ALBEF模型时,建立的文本和图像匹配精细匹配损失函数
Figure BDA00038031688700001112
用于更新ALBEF模型的参数,提高文本和图像相似度在3的基础上进行重排名/相似度精细化的准确率,其输入为ALBEF编码得到的输入文本和输入图像的特征tj和vi,计算方式如下:
Figure BDA00038031688700001113
其中,norm(·)表示归一化操作;
Figure BDA00038031688700001114
表示文本和图像对的语义相同或不同的概率,/>
Figure BDA00038031688700001115
的计算方法为:
所述ALBEF模型将先前得到的输入文本和输入图像的特征tj和vi输入跨模态编码器gm,得到的跨模态编码的全局特征gm(tj,vi)∈RL×d,其中L是文本的长度,d表示特征向量维度;取gm(tj,vi)的第一行gm(tj,vi)0∈Rd作为跨模态编码的全局特征
Figure BDA0003803168870000121
使用矩阵
Figure BDA0003803168870000122
对所述/>
Figure BDA0003803168870000123
进行二分类得到/>
Figure BDA0003803168870000124
Figure BDA0003803168870000125
表示期望计算,具体来说,/>
Figure BDA0003803168870000126
Figure BDA00038031688700001217
Figure BDA0003803168870000127
表示数据域中的数据个数,H(·,·)表示交叉熵计算。数据域/>
Figure BDA0003803168870000128
构成为/>
Figure BDA0003803168870000129
其中b表示数据批的大小,/>
Figure BDA00038031688700001210
的获取方式为/>
Figure BDA00038031688700001211
Figure BDA00038031688700001212
其中cos(·,·)表示余弦相似度计算,id(·)表示特征vi和ti所属行人的编号,argmax(·)表示最大值所对应的特征;形象化来说,/>
Figure BDA00038031688700001213
即为数据批中和特征vi属于不同行人的文本特征中,和vi的余弦相似度最大的那个。/>
Figure BDA00038031688700001214
的采样方式同理。yi,j表示vi,tj是否属于同一个行人,若属于则为1,反之则为0。
使用训练集训练跨模态预训练模型,直到所述对比学习的损失函数
Figure BDA00038031688700001215
和文本和图像匹配精细匹配损失函数/>
Figure BDA00038031688700001216
收敛停止训练,得到训练完成的跨模态预训练模型。
步骤3:将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块。
步骤3-1:将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图。
步骤3-1-1:所述跨模态交互模块包括transformer(详见文献“Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in neuralinformation processing systems,2017,30.”),将所述候选文本的短语的特征和候选图像的特征输入transformer,将输入所述transformer的短语的特征表示为fp∈Rl×d、图像的特征表示为fv∈Rp×d,其中l表示短语的长度,p表示图像的划分块数,d表示特征向量维度,R表示欧几里得空间,R的右上标表示欧几里得空间的维度;
所述transformer中的每一层进行如下操作:
Q=Wq×fv
K=Wk×fp
V=Wv×fp
Figure BDA0003803168870000131
fo=FFN(weight×fp);
其中,Wq,Wk,Wv分别是三个不同的Rd×d矩阵,Wq将fv映射为查询向量Q,Wk将fp映射为键向量K,Wv将fp映射为值向量V,查询向量与键向量相乘,得到每个值向量应当被赋予的权重weight,d′表示经过映射后的特征维度,softmax()是softmax函数,fo表示输出特征,FFN(·)表示多层感知机计算;
步骤3-1-2:根据所述fo计算transformer的损失函数
Figure BDA0003803168870000134
计算权重weight的梯度
Figure BDA0003803168870000132
为:
Figure BDA0003803168870000133
步骤3-1-3:使用Grad-CAM算法(详见文献“Selvaraju R R,Das A,Vedantam R,etal.Grad-CAM:Why did you say that?[J].arXiv preprint arXiv:1611.07450,2016.”)计算图像对于短语的gradcam值为:
Figure BDA0003803168870000141
其中,*表示矩阵的逐元素乘积操作,norm(·)表示归一化操作,gradcam∈Rl×p
步骤3-1-4:取gradcam当中的第1行作为热点值hotmap∈Rp,其中p表示提取图像特征时划分的特征图中的特征总数,将热点值按照特征图进行二维排列,即可得到所述热点图Map∈RW×H,W是热点图Map的行数,H是热点图Map的列数,w×H=p。
步骤3-2:使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块。
步骤3-2-1:根据所述热点图对图像进行加权,得到图像对于每个短语的融合特征,计算融合特征与短语特征向量的余弦相似度;
步骤3-2-2:根据所述融合特征hotmap×fv与短语特征向量fp的余弦相似度计算所述跨模态交互模块的定位损失函数
Figure BDA0003803168870000142
为:
Figure BDA0003803168870000143
其中,cos()表示计算余弦相似度操作;
步骤3-2-3:使用热点图训练跨模态交互模块直到所述定位损失函数
Figure BDA0003803168870000144
收敛,得到训练完成的跨模态交互模块。
定位损失函数
Figure BDA0003803168870000145
可以有效衡量模型将文本中的短语信息在和文本相对应的图像信息中寻找出来的能力。模型在使用该损失函数进行训练的时候,其跨模态局部对齐能力会得到显著提高。最终侧面优化模型的文本编码器提取局部特征的能力,在测试阶段即便不进行短语级别的定位,仅靠文本编码器提取的文本特征也可以更加精准地在图像数据库中进行检索。
步骤4:使用训练完成的跨模态预训练模型提取输入文本的短语的特征和待检索图像的特征,将所述输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。
步骤4-1:使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征。具体为:输入文本和输入文本的短语经过ALBEF模型的文本编码器得到文本特征,待检索图像经过ALBEF模型的图像编码器得到图像特征。
步骤4-2:将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块,使用交叉运行策略和from-coarse-to-fine策略计算所述待检索图像与候选图像的相似度。
在ALBEF模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征后,按照流程下一步应当进行输入文本特征与输入图像特征的跨模态交互、输入短语和输入图像特征的跨模态交互两个步骤,且两个步骤均由跨模态交互模块完成,设两个步骤占用内存数分别为M1和M2,则总内存占用数为两个步骤相加,即M1+M2。为了节省内存,此时文本特征和图像特征先不进行交互,待所述输入文本的短语的特征和待检索图像的特征完成交互并计算得到余弦相似度与定位损失函数后,将此时的梯度与中间变量从显存中删除,随后再将输入文本特征和输入图像特征送入跨模态交互模块进行交互。此时总的内存占用数为max(M1,M2)。
假设图像数据库中共有N张候选图像,那么单次输入文本查询与所有N张候选图像输入跨模态交互模块的复杂度就是O(N),如果数据库中候选图像数量较多,即N是一个比较大的值的话,一次检索需要消耗大量的时间,导致算法在实际应用中难以发挥其性能。
而from-coarse-to-fine策略正是为了解决这个问题而提出的。提取数据库中的候选图像的特征、或者在数据库中增加新候选图像提取特征时,离线地使用图像编码器提取候选图像的特征,如步骤2所述,计算输入文本的短语的特征与所有候选图像的特征的余弦相似度得到图像文本匹配的粗相似度(即将步骤2中的
Figure BDA0003803168870000161
和/>
Figure BDA0003803168870000162
的余弦相似度作为图像文本匹配的粗相似度coarse相似度);由于余弦相似度计算简单,该步操作可以在很短的时间内完成。
在得到粗相似度后,选取粗相似度最大的多张候选图像,将挑选出的多张候选图像的特征和所述输入文本的短语的特征依次送入跨模态交互模块中,如步骤2所述,计算得到每张候选图像的特征和输入文本的短语的特征的图像文本匹配的细相似度(即将步骤2中的
Figure BDA0003803168870000163
的第一维作为图像文本匹配的细相似度fine相似度);
将所述细相似度作为最终的相似度,选择最终的相似度最大的候选图像作为检索结果。
细相似度的单次计算比起粗相似度的单词计算更加耗时,但是计算的结果也更加精准。from-coarse-to-fine策略将单次文本查询时消耗时间巨大的文本和图像跨模态模块的计算复杂度从O(N)降低至O(1),对于提升模型的运行速度帮助很大。同时,from-coarse-to-fine策略也可以计算更加精细的相似度,提高检索结果的准确性。
步骤4-3:选择相似度最大的候选图像作为检索结果。相似度最大的图像可以为一张也可以为多张。
本发明使用跨模态预训练模型作为特征编码器,提高了文本和图像语义信息的对应能力,相较于非预训练模型或是单模态预训练模型更加适合基于文本的行人检索;同时,本发明通过使用热点图训练跨模态交互模块,热点图实现了图像中各个小块与文本信息的对应,提升了局部对应能力,从而提高检索的准确率。
为了进一步说明本发明的有益效果,本实施例在基于文本的行人检索的通用数据集CUHKPEDES上进行了实验,具体如下所示:
所述CUHKPEDES数据集共包含了13,003个不同行人的40,206张图像,每张图像都有2句描述。训练集包含34,054张标记有11,003个行人身份的图像,以及68,108句文本描述。验证集包含3,078张标记为1000个身份的图像,测试集包含3,074张标记为1,000个身份的图像。
本实施例中以输入一段文本″The man is wearing a backpack around oneshoulder and he is wearing a light blue casual shirt and dark jeans.″和一张如图3中左侧所示的图像,首先利用句法分析树提取输入文本中的短语,包括“blue casualshirt”和“dark jeans”等。使用本发明方法得到“blue casual shirt(蓝色休闲衬衫)”的热点图如图3右侧所示,可以看出使用本发明方法得到的热点图可以清晰对应出蓝色休闲衬衫的轮廓,局部对应能力强。
接着,采用广泛使用的Rank-k(R@k)进行评估,(R@k表示搜索结果中最靠前(置信度最高)的k张图有正确结果的概率)同时用模态参数的数量来验证该框架的有效性。
通过实验,分别得到了ALBEF模型、本发明方法和现有性能最优方法CM-MoCo(详见文献“Han X,He S,Zhang L,et al.Text-based person search with limited data[J].arXiv preprint arXiv:2110.10807,2021.”)在k=1时的R@1准确率的结果。最终,现有方法最高能达到64.13%的R@1准确率,基线模型在不进行跨模态交互模块重排名的情况下达到了39.78%的R@1准确率,在进行跨模态交互模块重排名的情况下达到了62.31%的R@1准确率;而本发明方法在不进行跨模态交互的情况下达到了61.06%的R@1准确率,在在进行跨模态交互模块重排名的情况下达到了71.03%的R@1准确率。相较于现有方法,本发明方法实现了6.9%的R@1准确率提升。
由此可见,本发明的准确率显著提高,证明了本发明的性能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种视觉定位驱动的跨模态行人检索方法,其特征在于,包括以下步骤:
步骤1:获取训练集、候选文本和候选图像、输入文本和待检索图像,提取所述候选文本和输入文本的短语;
步骤2:使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型,使用训练完成的跨模态预训练模型提取所述候选文本的短语的特征和候选图像的特征,所述跨模态预训练模型为ALBEF模型;
步骤3:将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块;
训练所述ALBEF模型时,建立对比学习的损失函数
Figure FDA0004172327270000011
的过程为:
获取ALBEF模型提取的文本Texti的短语的特征ti∈RL×d和图像Imagei的特征vi∈Rp×d,其中L表示文本的长度,p表示提取图像特征时划分的特征图中的特征总数,d表示特征维度,R表示欧几里得空间;
计算损失函数
Figure FDA0004172327270000012
为:
Figure FDA0004172327270000013
其中,
Figure FDA0004172327270000014
表示ALBEF模型获取的图像vi的全局特征,/>
Figure FDA0004172327270000015
其中/>
Figure FDA0004172327270000016
表示取vi的第一维;/>
Figure FDA0004172327270000017
表示ALBEF模型获取的文本ti的全局特征,/>
Figure FDA0004172327270000018
其中/>
Figure FDA0004172327270000019
表示取ti的第一维;/>
Figure FDA00041723272700000110
表示数据域,是输入的批数据中/>
Figure FDA00041723272700000111
和/>
Figure FDA00041723272700000112
的集合;/>
Figure FDA00041723272700000113
表示期望计算,
Figure FDA00041723272700000114
Figure FDA00041723272700000115
表示数据域中的数据个数,
Figure FDA00041723272700000116
H(·,·)表示交叉熵计算,/>
Figure FDA0004172327270000021
表示所述/>
Figure FDA0004172327270000022
与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度,/>
Figure FDA0004172327270000023
表示所述/>
Figure FDA0004172327270000024
与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度;/>
Figure FDA0004172327270000025
表示vi和Tm中所有文本特征是否匹配,如果匹配则/>
Figure FDA0004172327270000026
如果不匹配则/>
Figure FDA0004172327270000027
Figure FDA0004172327270000028
表示ti和Vm中所有图像特征是否匹配,如果匹配则/>
Figure FDA0004172327270000029
如果不匹配则/>
Figure FDA00041723272700000210
步骤4:使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征,将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。
2.根据权利要求1所述的视觉定位驱动的跨模态行人检索方法,其特征在于:所述
Figure FDA00041723272700000211
与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度/>
Figure FDA00041723272700000212
中的第j个相似度/>
Figure FDA00041723272700000213
为:
Figure FDA00041723272700000214
其中,τ是可学习参数,s()是计算余弦相似度的函数,|Tm|表示Tm的队列长度,
Figure FDA00041723272700000215
表示队列Tm的第j个特征,exp()表示自然指数函数;
所述
Figure FDA00041723272700000216
与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度/>
Figure FDA00041723272700000217
中的第j个相似度/>
Figure FDA00041723272700000218
为:
Figure FDA00041723272700000219
其中,|Vm|表示Vm的队列长度,
Figure FDA00041723272700000220
表示队列Vm的第j个特征。
3.根据权利要求1或2所述的视觉定位驱动的跨模态行人检索方法,其特征在于:训练所述ALBEF模型时,建立文本和图像精细匹配的损失函数
Figure FDA00041723272700000221
的过程为:
获取ALBEF模型提取的文本的短语的特征tj和图像的特征vi
计算损失函数
Figure FDA0004172327270000031
为:
Figure FDA0004172327270000032
其中,
Figure FDA0004172327270000033
norm(·)表示归一化操作;/>
Figure FDA0004172327270000034
表示文本和图像对的语义相同或不同的概率;数据域
Figure FDA0004172327270000035
其中b表示数据批的大小,
Figure FDA0004172327270000036
其中cos(·,·)表示余弦相似度计算,id(·)表示特征vi和ti所属行人的编号,argmax(·)表示最大值所对应的特征,s.t.表示需要满足的条件;/>
Figure FDA0004172327270000037
Figure FDA0004172327270000038
yi,j表示vi,tj是否属于同一个行人,若属于则为1,反之则为0;
Figure FDA0004172327270000039
的计算方法为:
所述ALBEF模型将tj和v i输入ALBEF模型中的跨模态编码器,得到的跨模态编码的全局特征gm(tj,vi)∈RL×d,取gm(tj,vi)的第一行gm(tj,vi)0∈Rd作为跨模态编码的全局特征
Figure FDA00041723272700000310
使用ALBEF模型中的矩阵/>
Figure FDA00041723272700000311
对所述/>
Figure FDA00041723272700000312
进行二分类得到/>
Figure FDA00041723272700000313
4.根据权利要求3所述的视觉定位驱动的跨模态行人检索方法,其特征在于:将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,具体为:
所述跨模态交互模块由多层transformer构成,将所述候选文本的短语的特征和候选图像的特征输入transformer,将输入所述transformer的短语的特征表示为fp∈Rl×d、图像的特征表示为fv∈Rp×d,其中l表示短语的长度,p表示图像的划分块数;
所述transformer中的每一层进行如下操作:
Q=Wq×fv
K=Wk×fp
y=Wv×fp
Figure FDA0004172327270000041
fo=FFN(weight×fp);
其中,Wq,Wk,Wv分别是三个不同的Rd×d′矩阵,Wq将fv映射为查询向量Q,Wk将fp映射为键向量K,Wv将fp映射为值向量V,查询向量与键向量相乘,得到每个值向量应当被赋予的权重weight,d′表示经过映射后的特征维度,softmax()是softmax函数,fo表示输出特征,FFN(·)表示多层感知机计算;
根据所述fo计算transformer的损失函数
Figure FDA0004172327270000045
计算权重weight的梯度/>
Figure FDA0004172327270000042
为:
Figure FDA0004172327270000043
使用Grad-CAM算法计算图像对于短语的gradcam值为:
Figure FDA0004172327270000044
其中,*表示矩阵的逐元素乘积操作;
取gradcam当中的第1行作为热点值hotmap∈Rp,其中p表示提取图像特征时划分的特征图中的特征总数,将热点值按照特征图进行二维排列得到所述热点图Map,W是热点图Map的行数,H是热点图Map的列数,w×H=p。
5.根据权利要求4所述的视觉定位驱动的跨模态行人检索方法,其特征在于:所述使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块,具体为:
根据所述热点图对图像进行加权,得到图像对于每个短语的融合特征,计算融合特征与短语特征向量的余弦相似度;
根据所述融合特征与短语特征向量的余弦相似度计算所述跨模态交互模块的定位损失函数
Figure FDA0004172327270000051
为:
Figure FDA0004172327270000052
其中,cos()表示计算余弦相似度操作;
使用热点图训练跨模态交互模块直到所述定位损失函数
Figure FDA0004172327270000053
收敛,得到训练完成的跨模态交互模块。
6.根据权利要求5所述的视觉定位驱动的跨模态行人检索方法,其特征在于:将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度时,使用的方法为交叉运行策略和from-coarse-to-fine策略。
7.根据权利要求6所述的视觉定位驱动的跨模态行人检索方法,其特征在于:所述交叉运行策略,具体为:
ALBEF模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征后,跨模态交互模块进行输入文本的特征与待检索图像的特征的跨模态交互、输入文本的短语的特征和待检索图像的特征的跨模态交互两个步骤,两个步骤占用的内存数分别为M1和M2
输入文本的特征与待检索图像的特征先不进行交互,待所述输入文本的短语的特征和待检索图像的特征完成交互并计算得到余弦相似度和所述定位损失函数后,将此时的梯度与中间变量从显存中删除,随后将输入文本的特征与待检索图像的特征进行交互,总的内存占用数为max(M1,M2)。
8.根据权利要求6所述的视觉定位驱动的跨模态行人检索方法,其特征在于:所述from-coarse-to-fine策略,具体为:
使用ALBEF模型的图像编码器提取候选图像的特征,计算输入文本的短语的特征与所有候选图像的特征的余弦相似度得到图像文本匹配的粗相似度;
将粗相似度从大到小排序,依次选取相似度排名前k的候选图像,将挑选出的多张候选图像的特征和所述输入文本的特征依次送入跨模态交互模块中,计算得到每张候选图像的特征和输入文本的特征的图像文本匹配的细相似度;
将所述细相似度作为最终的相似度,选择最终的相似度最大的候选图像作为检索结果。
CN202210989022.XA 2022-08-17 2022-08-17 视觉定位驱动的跨模态行人检索方法 Active CN115292533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210989022.XA CN115292533B (zh) 2022-08-17 2022-08-17 视觉定位驱动的跨模态行人检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210989022.XA CN115292533B (zh) 2022-08-17 2022-08-17 视觉定位驱动的跨模态行人检索方法

Publications (2)

Publication Number Publication Date
CN115292533A CN115292533A (zh) 2022-11-04
CN115292533B true CN115292533B (zh) 2023-06-27

Family

ID=83831026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210989022.XA Active CN115292533B (zh) 2022-08-17 2022-08-17 视觉定位驱动的跨模态行人检索方法

Country Status (1)

Country Link
CN (1) CN115292533B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383671B (zh) * 2023-03-27 2024-05-28 武汉大学 隐式关系推理对齐的文本图像跨模态行人检索方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364197A (zh) * 2020-11-12 2021-02-12 四川省人工智能研究院(宜宾) 一种基于文本描述的行人图像检索方法
CN114022735A (zh) * 2021-11-09 2022-02-08 北京有竹居网络技术有限公司 视觉语言预训练模型的训练方法、装置、设备及介质
CN114036336A (zh) * 2021-11-15 2022-02-11 上海交通大学 基于语义划分的视觉文本属性对齐的行人图像搜索方法
CN114495010A (zh) * 2022-02-14 2022-05-13 广东工业大学 一种基于多特征学习的跨模态行人重识别方法及系统
CN114817673A (zh) * 2022-04-14 2022-07-29 华侨大学 一种基于模态关系学习的跨模态检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101901962B1 (ko) * 2013-11-08 2018-11-07 한국전자통신연구원 내비게이션을 이용한 자율 주행 제어 장치 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364197A (zh) * 2020-11-12 2021-02-12 四川省人工智能研究院(宜宾) 一种基于文本描述的行人图像检索方法
CN114022735A (zh) * 2021-11-09 2022-02-08 北京有竹居网络技术有限公司 视觉语言预训练模型的训练方法、装置、设备及介质
CN114036336A (zh) * 2021-11-15 2022-02-11 上海交通大学 基于语义划分的视觉文本属性对齐的行人图像搜索方法
CN114495010A (zh) * 2022-02-14 2022-05-13 广东工业大学 一种基于多特征学习的跨模态行人重识别方法及系统
CN114817673A (zh) * 2022-04-14 2022-07-29 华侨大学 一种基于模态关系学习的跨模态检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation;Junnan Li 等;《arXiv:2107.07651v2》;全文 *
ChiQA: A Large Scale Image-base d Real-World Qustion Answering Dataset for Multi-Mo dal Understanding;Bingning Wang 等;《arXiv:2208.03030v1》;全文 *

Also Published As

Publication number Publication date
CN115292533A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN111291188B (zh) 一种智能信息抽取方法及系统
CN110598005A (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN115017266A (zh) 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN108509521A (zh) 一种自动生成文本索引的图像检索方法
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN115048539B (zh) 基于动态记忆力的社交媒体数据在线检索方法及系统
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN115292533B (zh) 视觉定位驱动的跨模态行人检索方法
CN115982403A (zh) 一种多模态哈希检索方法及装置
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
CN114969269A (zh) 基于实体识别和关系抽取的虚假新闻检测方法及系统
CN115062174A (zh) 基于语义原型树的端到端图像字幕生成方法
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统
CN110851633B (zh) 一种实现同时定位和哈希的细粒度图像检索方法
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant