CN117312592A - 基于模态不变特征学习的文本-行人图像检索方法 - Google Patents

基于模态不变特征学习的文本-行人图像检索方法 Download PDF

Info

Publication number
CN117312592A
CN117312592A CN202311596803.3A CN202311596803A CN117312592A CN 117312592 A CN117312592 A CN 117312592A CN 202311596803 A CN202311596803 A CN 202311596803A CN 117312592 A CN117312592 A CN 117312592A
Authority
CN
China
Prior art keywords
text
image
feature
features
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311596803.3A
Other languages
English (en)
Other versions
CN117312592B (zh
Inventor
杨社丹
吴婉银
詹均
林旭
杨延华
杨二昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan United Visual Technology Co ltd
Original Assignee
Yunnan United Visual Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan United Visual Technology Co ltd filed Critical Yunnan United Visual Technology Co ltd
Priority to CN202311596803.3A priority Critical patent/CN117312592B/zh
Publication of CN117312592A publication Critical patent/CN117312592A/zh
Application granted granted Critical
Publication of CN117312592B publication Critical patent/CN117312592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及基于模态不变特征学习的文本‑行人图像检索方法,属于行人重识别技术领域。本发明包括步骤:获取文本描述和行人图像数据,并对图像进行预处理;构建特征提取网络,将预处理好的文本和行人图像分别送入各自模态的特征提取网络;构建图文互翻译模块,图像和文本分别经过多层编码器向对立模态特征靠近,获得模态差距小的特征;构建特征增强模块,对单模态内的多层编码器输出特征进行特征增强;特征编码器分别提取的图像和文本特征输入图文互翻译和特征增强模块,得到图像和文本的最终特征,使用图像和文本的最终特征进行跨模态检索。本发明通过图文互翻译的方式获得模态不变特征,提升了文本‑行人图像的检索性能。

Description

基于模态不变特征学习的文本-行人图像检索方法
技术领域
本发明涉及基于模态不变特征学习的文本-行人图像检索方法,属于行人重识别技术领域。
背景技术
文本-行人图像检索是指利用文本描述来检索具有特定外观的行人图像。在某些场景下,无法获取可靠的待搜索对象视觉信息,这就需要算法和模型在训练中能对文本和视觉这两种信息进行恰当地处理,以求在只有文本作为检索信息的情况下,模型能够搜索到对应的行人图像。然而,现有方法仍存在一些问题,比如不能有效地缩小文本和图像两种模态间的巨大差异。针对以上问题,提出了基于模态不变特征学习的文本-行人图像检索方法。
发明内容
为了解决现有方法的不足,本发明针对现有方法难以有效缩小模态间的差异,提出了基于模态不变特征学习的文本-行人图像检索方法,缓解了模态特有的身份相关信息丢失的问题,提升了文本-行人图像的检索性能。
本发明的技术方案是:基于模态不变特征学习的文本-行人图像检索方法,所述方法的具体步骤如下:
Step1:获取行人文本描述和行人图像数据,并对图像进行预处理;
Step2:构建文本和图像的特征提取网络,分别提取图像和文本的原始特征;
Step3:构建图文互翻译模块,学习图像和文本模态不变特征,用于提升检索性能;
Step4:构建特征增强模块,利用单模态内的特征对多层编码器输出的特征进行增强,用于以防模态特有的身份相关信息丢失;
Step5:训练特征提取网络、图文互翻译模块和特征增强模块;
Step6:训练好的特征提取网络中的特征编码器分别提取图像和文本特征,将得到的图像和文本特征输入训练好的图文互翻译和特征增强模块,得到图像和文本的最终特征,使用图像和文本的最终特征进行跨模态检索。
所述Step5具体包括为:
Step51、利用Adam优化器对特征提取网络、图文互翻译模块以及特征增强模块中的参数进行优化;
Step52、采用CMPM和CMPC损失函数优化图像和文本的特征提取网络,所述损失函数如下:
其中,分别表示CMPM和CMPC损失函数,分别表示图像和文本 特征提取网络输出特征的分类 token特征。
Step53、使用L2损失函数优化图文互翻译模块的参数,所述损失函数为:
其中,表示平均池化,表示正向路径中第i个编码层输出的图像特 征,表示逆向路径中第n-i个编码层输出的文本特征,式中的分别表示图像 原始特征和文本原始特征,通过这种优化方法能实现图像特征逐渐靠近文本特征,文 本特征逐渐靠近图像特征。
Step54、训练特征提取网络、图文互翻译模块以及特征增强模块时定义一个损失函数,该函数对整个网络的最终输出特征进行匹配约束,拉近图像和文本匹配对,以及推远图像和文本不匹配对;
采用CMPM和CMPC损失函数优化整个网络:
其中,分别是图像最终输出特征和文本最终输出特征的分类 token 特征,分别表示CMPM和CMPC损失。
总损失为:
进一步地,所述Step1中,将所有输入图像调整为224x224的大小,并采用随机水平翻转进行数据增强。
进一步地,所述Step2中的特征提取网络包括文本编码器和图像编码器,分别提取文本和图像原始特征。
进一步地,所述Step2中特征提取网络具体操作过程如下:
预处理好的行人图像首先被划分为尺寸大小相等且互不重叠的N个图像块;对 每个图像块进行向量化,再经过线性映射,然后与一个分类 token拼接得到,并将其作为图像编码器的输入,经过图像编码器后得 到图像的原始特征记为; d表示token的维度;
给定一个文本描述,先将每个单词编码为one-hot向量,即独热编码向量,再经 过单词嵌入变换,然后与分类 token拼接得到; 将输入文本编码器得到的文本原始特征表示为,m是文 本中包含的单词个数。
进一步地,所述Step3中,图文互翻译是双向翻译路径,包括图像到文本的正向翻译路径和文本到图像的逆向翻译路径,正向翻译路径中含有n个transformer编码层,逆向翻译路径同样包含n个transformer编码层,且逆向路径和正向路径的编码层是参数共享的,只是特征经过编码层的顺序刚好相反。
进一步地,所述Step3中,图文互翻译模块具体操作步骤如下:
图文互翻译模块以图像原始特征和文本原始特征为输入,构建n个 transformer编码层,图像特征按照正向顺序依次经过n个transformer层:
文本特征按照逆向顺序依次经过n个transformer层:
然后将正向路径中所有编码层输出的图像特征进行拼接,逆向路径中所有编码层输出的文本特征进行拼接,得到的特征分别为图像和文本的模态不变特征。在拼接前先经过一个特征增强模块,利用单模态内的特征进行特征增强。
为了实现文本到图像、图像到文本的翻译过程,本发明使用L2损失拉近最后一个编码层输出的图像(文本)特征和文本(图像)原始特征,同时拉近正向路径第i个编码层输出的图像特征和逆向路径中第n-i个编码层输出的文本特征,例如拉近正向路径中第1个编码层输出的图像特征和逆向路径中第n-1个编码层输出的文本特征。
进一步地,所述Step4中,特征增强模块包括图像模态的特征增强和文本模态的特征增强,在处理两个模态的特征时网络的参数共享。
进一步地,所述Step4中,特征增强模块具体操作步骤如下:
特征增强模块以Step3中每一个编码层的输出的图像特征和文本 特征为输入,使用最后一层输出特征引导前面所有n-1个编码层输 出特征以及原始特征增强相关特征,从而在模态内进行特征增强,图像模态的特征增强具 体过程公式化为:
其中,其中 均表示线性映射矩阵;
同样,文本模态的特征增强具体过程公式化为:
其中
最后,将特征增强后的原始特征与所有层的输出特征进行拼接,然后经过一个全连接层,得到的结果作为图像和文本最终输出特征:
其中分别表示拼接操作和全连接层。使用匹配损失CMPM和 CMPC损失约束图像和文本最终输出特征
本发明的有益效果是:
1、在文本-行人图像检索中,获取文本和图像的判别性特征是关键的,本发明采用预训练CLIP中的图像和文本编码器分别提取图像和文本特征,CLIP采用视觉信息和文本信息进行预训练,二者对于视觉特征和文本特征具有强大的提取能力,这利于后续特征的操作。
2、对于文本和图像输入,通过各自的特征提取网络得到的特征之间会存在较大模态差异,本发明加入的图文互翻译模块,通过图像到文本、文本到图像的翻译路径,将路径中每个编码层输出的特征进行拼接,分别得到图像和文本的模态不变特征,可缩小图像和文本间的模态差异。
3、只考虑学习模态不变特征,可能会导致两个模态各自独有的身份相关信息丢失,本发明提出特征增强模块,在单模态内利用相同模态的特征进行特征增强和优化,可缓解模态特有的身份相关信息丢失的问题。
附图说明
图1为本发明方法的流程结构示意图;
图2为本发明方法的特征增强模块结构图。图2中和/>分别表示拼接操作和全连接层。
具体实施方式
实施例1:如图1-图2所示,基于模态不变特征学习的文本-行人图像检索方法,所述方法的具体步骤如下:
Step1:获取行人文本描述和行人图像数据,并对图像进行预处理:将所有输入图像调整为224x224的大小,并采用随机水平翻转进行数据增强。
Step2:构建文本和图像的特征提取网络,分别提取图像和文本的原始特征。
所述Step2中的特征提取网络包括文本编码器和图像编码器,分别提取文本和图像原始特征。
所述Step2中特征提取网络具体操作过程如下:
预处理好的行人图像首先被划分为尺寸大小相等且互不重叠的N个图像块;对 每个图像块进行向量化,再经过线性映射,然后与一个分类 token拼接得到,并将其作为图像编码器的输入,经过图像编码器后得 到图像的原始特征记为; d表示token的维度;
给定一个文本描述,先将每个单词编码为one-hot向量,即独热编码向量,再经 过单词嵌入变换,然后与分类 token拼接得到; 将输入文本编码器得到的文本原始特征表示为,m是文 本中包含的单词个数。
Step3:构建图文互翻译模块,学习图像和文本模态不变特征,提升检索性能。
所述Step3中,图文互翻译是双向翻译路径,包括图像到文本的正向翻译路径和文本到图像的逆向翻译路径,正向翻译路径中含有n个transformer编码层,逆向翻译路径同样包含n个transformer编码层,且逆向路径和正向路径的编码层是参数共享的,只是特征经过编码层的顺序刚好相反。
所述Step3中,图文互翻译模块具体操作步骤如下:
图文互翻译模块以图像原始特征和文本原始特征为输入,构建n个 transformer编码层,图像特征按照正向顺序依次经过n个transformer层:
文本特征按照逆向顺序依次经过n个transformer层:
然后将正向路径中所有编码层输出的图像特征进行拼接,逆向路径中所有编码层输出的文本特征进行拼接,得到的特征分别为图像和文本的模态不变特征。在拼接前先经过一个特征增强模块,利用单模态内的特征进行特征增强。
为了实现文本到图像、图像到文本的翻译过程,本发明使用L2损失拉近最后一个编码层输出的图像(文本)特征和文本(图像)原始特征,同时拉近正向路径第i个编码层输出的图像特征和逆向路径中第n-i个编码层输出的文本特征,例如拉近正向路径中第1个编码层输出的图像特征和逆向路径中第n-1个编码层输出的文本特征。
Step4:构建特征增强模块,利用单模态内的特征对多层编码器输出的特征进行增强,以防模态特有的身份相关信息丢失。
所述Step4中, 特征增强模块包括图像模态的特征增强和文本模态的特征增强,在处理两个模态的特征时网络参数共享。
所述Step4中,特征增强模块具体操作步骤如下:
特征增强模块以Step3中每一个编码层的输出的图像特征和文本 特征为输入,使用最后一层输出特征引导前面所有n-1个编码层输 出特征以及原始特征增强相关特征,从而在模态内进行特征增强,图像模态的特征增强具 体过程公式化为:
其中,其中 均表示线性映射矩阵;
同样,文本模态的特征增强具体过程公式化为:
其中
最后,将特征增强后的原始特征与所有层的输出特征进行拼接,然后经过一个全连接层,得到的结果作为图像和文本最终输出特征:
其中分别表示拼接操作和全连接层。使用匹配损失CMPM和 CMPC损失约束图像和文本最终输出特征
Step5:训练特征提取网络、图文互翻译模块和特征增强模块。所述Step5具体包括为:
Step51、利用Adam优化器对特征提取网络、图文互翻译模块以及特征增强模块中的参数进行优化;
Step52、采用CMPM和CMPC损失函数优化图像和文本的特征提取网络,所述损失函数如下:
其中,分别表示CMPM和CMPC损失函数,分别表示图像和文本 特征提取网络输出特征的分类 token特征。
Step53、使用L2损失函数优化图文互翻译模块的参数,所述损失函数为:
其中,表示平均池化,表示正向路径中第i个编码层输出的图像特 征,表示逆向路径中第n-i个编码层输出的文本特征,式中的分别表示图像 原始特征和文本原始特征,通过这种优化方法能实现图像特征逐渐靠近文本特征,文 本特征逐渐靠近图像特征。
Step54、训练特征提取网络、图文互翻译模块以及特征增强模块时定义一个损失函数,该函数对整个网络的最终输出特征进行匹配约束,拉近图像和文本匹配对,以及推远图像和文本不匹配对;
采用CMPM和CMPC损失函数优化整个网络:
其中,分别是图像最终输出特征和文本最终输出特征的分类 token 特征,分别表示CMPM和CMPC损失。
总损失为:
Step6:训练好的特征提取网络中的特征编码器分别提取图像和文本特征,将得到的图像和文本特征输入训练好的图文互翻译和特征增强模块,得到图像和文本的最终特征,使用图像和文本的最终特征进行跨模态检索。
进一步地,为验证本发明方法的有效性,在CUHK-PEDES数据集上评估了提出方法的性能,该数据集包含了13003个行人的40206张图片和80412条文字描述。每张图片都有人工标注的两条文本描述,而每条文本描述的平均长度都不少于23个词。按照数据集划分规则,该数据集可划分为训练集、验证集和测试集。本发明算法是在Pytorch框架下开发的,并在一张NVIDIA GTX3090显卡上进行了训练。在训练中,使用Adam优化器来对模型进行参数优化。在此过程中,batch size设置为64,学习率设置为0.00001。学习率采用余弦退火算法进行调整,warmup设置为10,学习率分别在20、30和40轮按0.1的衰减率衰减,总共训练了60轮。
进一步地,本发明采用Rank-K(Rank-K,数值越高越好)的召回率以及mAP(meanAverage Precision)作为衡量不同方法检索性能的指标。Rank-K指标表示在给定查询条件下,模型能够在前K个检索结果中正确地匹配到查询样本的能力。在评估过程中,报告了Rank-1、Rank-5和Rank-10的准确性。mAP(mean Average Precision)值越大,表示检索性能越好。
进一步地,在CUHK-PEDES数据集上,本发明方法和TextReID,SAF,TIPCB,CAIBC,AXM-Net,LGUR和IVT等文本-行人图像检索方法进行了性能比较,实验结果如表1所示。从此可以看出,本发明方法在准确率Rank-1、Rank-5和Rank-10上分别达到了68.13%,86.40%和91.59%,mAP值达到了61.20%。这证明了本发明方法在文本-行人图像检索任务上的有效性。
表1为不同方法在CUHK-PEDES数据集上的客观评价比较
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (9)

1.基于模态不变特征学习的文本-行人图像检索方法,其特征在于:所述方法的具体步骤如下:
Step1:获取行人文本描述和行人图像数据,并对图像进行预处理;
Step2:构建文本和图像的特征提取网络,分别提取图像和文本的原始特征;
Step3:构建图文互翻译模块,学习图像和文本模态不变特征,用于提升检索性能;
Step4:构建特征增强模块,利用单模态内的特征对多层编码器输出的特征进行增强,用于以防模态特有的身份相关信息丢失;
Step5:训练特征提取网络、图文互翻译模块和特征增强模块;
Step6:训练好的特征提取网络中的特征编码器分别提取图像和文本特征,将得到的图像和文本特征输入训练好的图文互翻译和特征增强模块,得到图像和文本的最终特征,使用图像和文本的最终特征进行跨模态检索。
2.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法,其特征在于:所述Step1中,将所有输入图像调整为224x224的大小,并采用随机水平翻转进行数据增强。
3.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法,其特征在于,所述Step2中的特征提取网络包括文本编码器和图像编码器,分别提取文本和图像原始特征。
4.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法,其特征在于,所述Step2中特征提取网络具体操作过程如下:
预处理好的行人图像首先被划分为尺寸大小相等且互不重叠的N个图像块;对每个图像块进行向量化,再经过线性映射,然后与一个分类 token/>拼接得到,并将其作为图像编码器的输入,经过图像编码器后得到图像的原始特征记为/>; d表示token的维度;
给定一个文本描述,先将每个单词编码为one-hot向量,即独热编码向量,再经过单词嵌入变换,然后与分类 token/>拼接得到/>;将/>输入文本编码器得到的文本原始特征表示为/>,m是文本中包含的单词个数。
5.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法,其特征在于,所述Step3中,图文互翻译是双向翻译路径,包括图像到文本的正向翻译路径和文本到图像的逆向翻译路径,正向翻译路径中含有n个transformer编码层,逆向翻译路径同样包含n个transformer编码层,且逆向路径和正向路径的编码层是参数共享的,只是特征经过编码层的顺序刚好相反。
6.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法,其特征在于,所述Step3中,图文互翻译模块具体操作步骤如下:
图文互翻译模块以图像原始特征和文本原始特征/>为输入,构建n个transformer编码层/>,图像特征按照正向顺序依次经过n个transformer层:
文本特征按照逆向顺序依次经过n个transformer层:
然后将正向路径中所有编码层输出的图像特征进行拼接,逆向路径中所有编码层输出的文本特征进行拼接,得到的特征分别为图像和文本的模态不变特征;在拼接前先经过一个特征增强模块,利用单模态内的特征进行特征增强;
使用L2损失拉近最后一个编码层输出的图像或文本特征和文本或图像原始特征,同时拉近正向路径第i个编码层输出的图像特征和逆向路径中第n-i个编码层输出的文本特征。
7.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法,其特征在于,所述Step4中,特征增强模块包括图像模态的特征增强和文本模态的特征增强,在处理两个模态的特征时网络的参数共享。
8.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法,其特征在于,所述Step4中,特征增强模块具体操作步骤如下:
特征增强模块以Step3中每一个编码层的输出的图像特征和文本特征为输入,使用最后一层输出特征/>,/>引导前面所有n-1个编码层输出特征以及原始特征增强相关特征,从而在模态内进行特征增强,图像模态的特征增强具体过程公式化为:
其中 ,/>,/>,/> ,/>,其中 均表示线性映射矩阵;
同样,文本模态的特征增强具体过程公式化为:
其中 ,/>,/>,/> ,/>
最后,将特征增强后的原始特征与所有层的输出特征进行拼接,然后经过一个全连接层,得到的结果作为图像和文本最终输出特征:
其中 、/>分别表示拼接操作和全连接层;使用匹配损失CMPM和CMPC损失约束图像和文本最终输出特征/>和/>
9.根据权利要求1所述的基于模态不变特征学习的文本-行人图像检索方法,其特征在于,所述Step5具体包括为:
Step51、利用Adam优化器对特征提取网络、图文互翻译模块以及特征增强模块中的参数进行优化;
Step52、采用CMPM和CMPC损失函数优化图像和文本的特征提取网络,所述损失函数如下:
其中,和/>分别表示CMPM和CMPC损失函数,/>和/>分别表示图像和文本特征提取网络输出特征/>和/>的分类 token特征;
Step53、使用L2损失函数优化图文互翻译模块的参数,所述损失函数为:
其中,表示平均池化,/>表示正向路径中第i个编码层输出的图像特征,/>表示逆向路径中第n-i个编码层输出的文本特征,式中的/>和/>分别表示图像原始特征和文本原始特征/>,通过这种优化方法能实现图像特征逐渐靠近文本特征,文本特征逐渐靠近图像特征;
Step54、训练特征提取网络、图文互翻译模块以及特征增强模块时定义一个损失函数,该函数对整个网络的最终输出特征进行匹配约束,拉近图像和文本匹配对,以及推远图像和文本不匹配对;
采用CMPM和CMPC损失函数优化整个网络:
其中,和/>分别是图像最终输出特征/>和文本最终输出特征/>的分类 token特征,/>和/>分别表示CMPM和CMPC损失;
总损失为:
CN202311596803.3A 2023-11-28 2023-11-28 基于模态不变特征学习的文本-行人图像检索方法 Active CN117312592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311596803.3A CN117312592B (zh) 2023-11-28 2023-11-28 基于模态不变特征学习的文本-行人图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311596803.3A CN117312592B (zh) 2023-11-28 2023-11-28 基于模态不变特征学习的文本-行人图像检索方法

Publications (2)

Publication Number Publication Date
CN117312592A true CN117312592A (zh) 2023-12-29
CN117312592B CN117312592B (zh) 2024-02-09

Family

ID=89286879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311596803.3A Active CN117312592B (zh) 2023-11-28 2023-11-28 基于模态不变特征学习的文本-行人图像检索方法

Country Status (1)

Country Link
CN (1) CN117312592B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN111914156A (zh) * 2020-08-14 2020-11-10 中国科学院自动化研究所 自适应标签感知的图卷积网络跨模态检索方法、系统
CN114791958A (zh) * 2022-04-28 2022-07-26 电子科技大学 一种基于变分自编码器的零样本跨模态检索方法
CN116383671A (zh) * 2023-03-27 2023-07-04 武汉大学 隐式关系推理对齐的文本图像跨模态行人检索方法及系统
US20230281456A1 (en) * 2022-03-06 2023-09-07 Royal Bank Of Canada Multi-modal artifical neural network and a self-supervised learning method for training same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN111914156A (zh) * 2020-08-14 2020-11-10 中国科学院自动化研究所 自适应标签感知的图卷积网络跨模态检索方法、系统
US20230281456A1 (en) * 2022-03-06 2023-09-07 Royal Bank Of Canada Multi-modal artifical neural network and a self-supervised learning method for training same
CN114791958A (zh) * 2022-04-28 2022-07-26 电子科技大学 一种基于变分自编码器的零样本跨模态检索方法
CN116383671A (zh) * 2023-03-27 2023-07-04 武汉大学 隐式关系推理对齐的文本图像跨模态行人检索方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUAFENG LI 等: "progresssive feature mining and external knowledge-assisted text-pedestrian image retrieval", 《ARXIV》, pages 1 - 13 *
ZIQIANG WU 等: "refined konwledge transfer for language-based person search", 《IEEE TRANSACTION ON MULTIMEDIA》, vol. 25, pages 9315 - 9329 *
姜定 等: "面向跨模态文本到图像行人重识别的Transformer网络", 《中国图象图形学报》, vol. 28, no. 5, pages 1384 - 1395 *

Also Published As

Publication number Publication date
CN117312592B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN108804530B (zh) 对图像的区域加字幕
CN111309971B (zh) 一种基于多级编码的文本到视频的跨模态检索方法
CN108228915B (zh) 一种基于深度学习的视频检索方法
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN105678292A (zh) 基于卷积及递归神经网络的复杂光学文字序列识别系统
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN117079139B (zh) 一种基于多尺度语义特征的遥感图像目标检测方法及系统
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN114170411A (zh) 一种融合多尺度信息的图片情感识别方法
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN114693952A (zh) 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN111833282A (zh) 一种基于改进的DDcGAN模型的图像融合方法
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN112396091B (zh) 社交媒体图像流行度预测方法、系统、存储介质及应用
CN117036833B (zh) 一种视频分类方法、装置、设备和计算机可读存储介质
US20240119716A1 (en) Method for multimodal emotion classification based on modal space assimilation and contrastive learning
CN117312592B (zh) 基于模态不变特征学习的文本-行人图像检索方法
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN116383517A (zh) 动态传播特征增强的多模态谣言检测方法及系统
CN116311026A (zh) 基于多层级信息融合Transformer的教室场景身份识别方法
CN115344735A (zh) 一种层次化对齐的图像文本检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant