CN118038497A - 一种基于sam的文本信息驱动的行人检索方法及系统 - Google Patents

一种基于sam的文本信息驱动的行人检索方法及系统 Download PDF

Info

Publication number
CN118038497A
CN118038497A CN202410424542.5A CN202410424542A CN118038497A CN 118038497 A CN118038497 A CN 118038497A CN 202410424542 A CN202410424542 A CN 202410424542A CN 118038497 A CN118038497 A CN 118038497A
Authority
CN
China
Prior art keywords
image
loss function
text
loss
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410424542.5A
Other languages
English (en)
Other versions
CN118038497B (zh
Inventor
邓钰川
赵启军
傅可人
叶礼斌
邓宗永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202410424542.5A priority Critical patent/CN118038497B/zh
Publication of CN118038497A publication Critical patent/CN118038497A/zh
Application granted granted Critical
Publication of CN118038497B publication Critical patent/CN118038497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/86Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V30/1902Shifting or otherwise transforming the patterns to accommodate for positional errors
    • G06V30/19067Matching configurations of points or features, e.g. constellation matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于SAM的文本信息驱动的行人检索方法及系统,应用于图像识别技术,方法包括:形成图像编码和文本编码;进行细粒度跨模态对齐,并生成跨模态对比损失函数;构建遮蔽语言建模损失函数和遮蔽图像建模损失函数;构建二元分类任务损失函数;进行行人图像分割并生成图像分割损失函数;进行加权计算生成综合损失函数;根据综合损失函数构建检索模型,并通过检索模型对行人进行检索。本发明通过上述技术方案,不需要额外的训练样本即可实现高效率高精度的多模态识别,不仅考虑了全局的图像与文本匹配,还引入了基于局部嵌入的细粒度对齐机制。这种细粒度对齐能够捕捉到跨模态内容之间的微妙差异,实现更精确的模态对齐。

Description

一种基于SAM的文本信息驱动的行人检索方法及系统
技术领域
本发明涉及图像识别技术,具体涉及一种基于SAM的文本信息驱动的行人检索方法及系统。
背景技术
元信息(Metadata)是关于数据的数据,关键于描述、管理和优化数据使用。在生物特征识别技术中,元信息不仅丰富了数据的背景信息,如时间戳、地理定位信息及设备类型,而且还扩展到了对生物特征的具体描述,包括但不限于身形、服饰、五官等。元信息主要描述软生物特征,利用这些特征在特定条件下辨识个体身份,从而极大提高了识别的准确性与效率。尽管基于多模态信息辅助的细粒度图像分类方法可以很好的缓解单一模态下分类性能不佳的问题,但如何更好的利用和组合多模态信息仍是一个值得研究的问题。
现有技术中,申请号为CN202110834682.6的中国专利公开了一种生成描述多模态行人重识别方法、装置及电子设备。所述方法提供了一种基于三种模态以上的多模态行人重识别方法,能够将文本描述和素描图像的优势结合进行行人重识别,并基于生成对抗的方法减小描述特征与图像特征之间模态差距,使行人重识别的结果更加准确,提升行人重识别的准确率。从现有技术中可以看出,其为了减小描述特征和图像特征之间的模态差距以提高识别精度,采用了对抗网络的方式进行,其需要较多的样本进行对抗网络的训练。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的在于提供一种基于SAM的文本信息驱动的行人检索方法及系统。
第一方面,本申请实施例提供了一种基于SAM的文本信息驱动的行人检索方法,包括:
对行人图像进行预处理和编码形成图像编码,并对文本进行预处理和编码形成文本编码;
对所述图像编码和所述文本编码进行细粒度跨模态对齐,并最大化正样本对的相似度和最小化最相似的负样本对的相似度生成跨模态对比损失函数;
对所述文本编码随机遮蔽单词并预测正确单词构建遮蔽语言建模损失函数,对所述图像编码随机遮蔽区域并预测正确像素值构建遮蔽图像建模损失函数;
通过二元分类任务预测所述图像编码和所述文本编码的粒度匹配情况构建二元分类任务损失函数;
通过SAM对所述图像编码进行行人图像分割,并根据二元交叉熵损失评估模型预测掩膜与真实掩膜之间的差异生成图像分割损失函数;
对所述跨模态对比损失函数、所述遮蔽语言建模损失函数、所述遮蔽图像建模损失函数、所述二元分类任务损失函数和所述图像分割损失函数进行加权计算生成综合损失函数;
根据所述综合损失函数构建检索模型,并通过所述检索模型对行人进行检索。
本申请实施例实施时,首先需要对文本和行人图像形成编码才可以进行多模态融合,其可以采用现有技术中的预处理和编码方式,本申请实施例不多做限定。本申请实施例采用了一种综合多个过程损失进行损失函数构建的方案来提高最终的识别精度。
其中,跨模态对比损失函数是用于促进图像与文本之间更精细的对齐的,该损失函数不仅计算全局相似度,还通过细粒度的相似度计算,捕捉模态间的微妙差异,我们结合了Triplet Loss的思想和对比损失函数,希望最大化正样本对的相似度:通过提高图像与其对应文本之间的相似度,增强模型的跨模态匹配能力。最小化最相似的负样本对相似度:通过降低图像与最相似但未配对文本之间的相似度,进一步促进模型学习区分不同模态间的细微差异。促进细粒度对齐:通过考虑图像和文本中每个局部特征的相互作用,实现更精细的模态间对齐。
其中,对于文本来说,通过对每个被随机遮蔽的单词预测正确单词来构建遮蔽语言建模损失函数,而对于图像来说,通过对每个被随机遮蔽的区域预测正确像素值来构建遮蔽图像建模损失函数,可以优化图像和文本的局部细节重建。
其中,为了进一步促进跨模态对齐,我们采用一个二元分类任务,预测模态间的粒度表示是否匹配。这可以视为一个优化问题,其中配对的图像文本视为正样本,未配对的视为负样本,并以此构建二元分类任务损失函数。
其中,在进行细粒度跨模态对齐之后,我们进一步关注于行人图像分割的性能。图像分割任务的目标是精确地从背景中分割出行人,这一步骤对于行人检索系统的性能至关重要。通过SAM对所述图像编码进行行人图像分割随着描述的详细程度不同,输出的分割图像也不同,根据其描述和输出的分割图像可以控制对应掩膜的细粒度程度,同时利用SAM给出行人图像分割的适当提示,并通过文本编码器进行编码,可以使得模型对于文本需求更加敏感,同时以往的方法对于正面描述,如人物具有什么特征,更加关注,我们的方法同时对于否定性描述,如人物不具有什么特征,有着良好的适配。为了进一步优化图像分割效果,我们引入了二元交叉熵损失,通过最小化此损失,我们能够提高预测掩膜与真实掩膜之间的相似度,从而生成更准确的行人掩膜。SAM的图像分割损失直接针对行人图像的精确分割进行优化。通过最小化预测掩膜与真实掩膜之间的差异,该损失函数确保了行人的前景(即行人本身)能够尽可能准确地从背景中分割出来。这对于后续的行人检索来说至关重要,因为只有准确分割出行人图像,才能有效地进行特征提取和匹配。通过对图像分割损失的优化,模型能够学习到从各种复杂背景中分割目标的通用规律,这增强了模型对不同场景、光照条件下行人图像的处理能力。相较于仅依赖于全局特征匹配的方法,SAM的图像分割损失使得模型在面对多样化的图像内容时具备更好的鲁棒性和泛化能力。
在本申请实施例中,为了实现高效准确的行人检索,我们采用了一个综合优化策略,该策略通过一个复合损失函数同时优化跨模态对齐、图像分割效果以及语言和视觉模型的内在理解能力,即对上述的损失函数进行加权计算后,形成综合损失函数。通过将以上损失集合作为训练过程中的优化目标,我们能够有效地提升模型在跨模态内容理解、对齐以及行人图像分割方面的性能,为后续的行人检索任务打下坚实的基础。
在识别阶段,在模型训练和优化完成后,行人检索阶段的关键在于比较元信息(即文本描述)与生物特征图像库中每张图像的相似度。我们采用余弦相似度作为相似度衡量标准,选取相似度最高的生物特征图像作为最终的匹配结果。通过这种方法,我们能够利用模型对跨模态内容的理解,实现基于文本描述的精确行人检索,大大提升检索系统的效率和准确性。本申请实施例通过上述技术方案,采用一种融合了多种损失的损失函数构建识别模型,不需要额外的训练样本即可实现高效率高精度的多模态识别,不仅考虑了全局的图像与文本匹配,还引入了基于局部嵌入的细粒度对齐机制。这种细粒度对齐能够捕捉到跨模态内容之间的微妙差异,实现更精确的模态对齐。相比之下,传统方法往往只依赖全局特征的匹配,可能忽略了重要的局部信息。
在一种可能的实现方式中,对行人图像进行预处理包括:
对所述行人图像进行几何变换、颜色变换、添加噪声、随机擦除和调整大小中的至少一项处理;
对文本进行预处理包括:
对所述文本依次进行分词、近义词替换、语法语义矫正和数据增强;所述数据增强包括句子重排和同义句生成。
在一种可能的实现方式中,编码形成图像编码包括:
通过MAE预训练的视觉转换器模型将预处理后的所述行人图像进行编码形成所述图像编码;
编码形成文本编码包括:
通过CLIP预训练的文本编码器将预处理后的所述文本进行编码形成所述文本编码。
在一种可能的实现方式中,最大化正样本对的相似度和最小化最相似的负样本对的相似度生成跨模态对比损失函数包括:
根据下式生成跨模态对比损失函数:
式中,为跨模态对比损失,/>为第i个图像的token数量,/>为第j个文本的token数量,sim为相似度比较函数,m为表示样本之间的距离的超参数,/>为第i个图像的第k位token编码,/>为第j个图像的第l位token编码。
在一种可能的实现方式中,根据下式构建遮蔽语言建模损失函数:
式中,为遮蔽语言建模损失,M为被遮蔽单词的集合,/>为模型预测正确单词的概率;
根据下式构建遮蔽图像建模损失函数:
式中,为遮蔽图像建模损失,N为被遮蔽区域的集合,/>为原始像素值,/>为模型预测的像素值。
在一种可能的实现方式中,根据下式构建二元分类任务损失函数:
式中,为二元分类损失,/>为二进制似然分布函数,y为匹配结果,B为样本对集合,I为图像,T为文本。
在一种可能的实现方式中,根据下式生成图像分割损失函数:
式中,为图像分割损失,N为掩膜中像素的总数,/>为第n个像素的真实标签,/>为模型预测第n个像素属于行人的概率。
在一种可能的实现方式中,对所述跨模态对比损失函数、所述遮蔽语言建模损失函数、所述遮蔽图像建模损失函数、所述二元分类任务损失函数和所述图像分割损失函数进行加权计算生成综合损失函数包括:
根据下式生成综合损失函数:
式中,为综合损失,/>为跨模态对比损失,/>为遮蔽语言建模损失,为遮蔽图像建模损失,/>为二元分类损失,/>为图像分割损失,α为跨模态对比损失的权重,β为图像分割损失的权重,γ为遮蔽语言建模损失和遮蔽图像建模损失的权重,θ为二元分类损失的权重。
在一种可能的实现方式中,通过所述检索模型对行人进行检索包括:
提取目标文本的特征向量;
计算所述特征向量与图像库中每张图像的图像特征向量的余弦相似度;
选取所述余弦相似度最高的图像作为检索结果。
第二方面,本申请实施例还提供了一种基于SAM的文本信息驱动的行人检索系统,包括:
编码单元,被配置为对行人图像进行预处理和编码形成图像编码,并对文本进行预处理和编码形成文本编码;
对齐单元,被配置为对所述图像编码和所述文本编码进行细粒度跨模态对齐,并最大化正样本对的相似度和最小化最相似的负样本对的相似度生成跨模态对比损失函数;
遮蔽单元,被配置为对所述文本编码随机遮蔽单词并预测正确单词构建遮蔽语言建模损失函数,对所述图像编码随机遮蔽区域并预测正确像素值构建遮蔽图像建模损失函数;
二元分类单元,被配置为通过二元分类任务预测所述图像编码和所述文本编码的粒度匹配情况构建二元分类任务损失函数;
分割单元,被配置为通过SAM对所述图像编码进行行人图像分割,并根据二元交叉熵损失评估模型预测掩膜与真实掩膜之间的差异生成图像分割损失函数;
综合单元,被配置为对所述跨模态对比损失函数、所述遮蔽语言建模损失函数、所述遮蔽图像建模损失函数、所述二元分类任务损失函数和所述图像分割损失函数进行加权计算生成综合损失函数;
检索单元,被配置为根据所述综合损失函数构建检索模型,并通过所述检索模型对行人进行检索。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种基于SAM的文本信息驱动的行人检索方法及系统,通过上述技术方案,采用一种融合了多种损失的损失函数构建识别模型,不需要额外的训练样本即可实现高效率高精度的多模态识别,不仅考虑了全局的图像与文本匹配,还引入了基于局部嵌入的细粒度对齐机制。这种细粒度对齐能够捕捉到跨模态内容之间的微妙差异,实现更精确的模态对齐。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本申请实施例方法步骤示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
请结合参阅图1,为本发明实施例所提供的一种基于SAM的文本信息驱动的行人检索方法的流程示意图,进一步地,所述一种基于SAM的文本信息驱动的行人检索方法具体可以包括以下步骤S1-步骤S7所描述的内容。
S1:对行人图像进行预处理和编码形成图像编码,并对文本进行预处理和编码形成文本编码;
S2:对所述图像编码和所述文本编码进行细粒度跨模态对齐,并最大化正样本对的相似度和最小化最相似的负样本对的相似度生成跨模态对比损失函数;
S3:对所述文本编码随机遮蔽单词并预测正确单词构建遮蔽语言建模损失函数,对所述图像编码随机遮蔽区域并预测正确像素值构建遮蔽图像建模损失函数;
S4:通过二元分类任务预测所述图像编码和所述文本编码的粒度匹配情况构建二元分类任务损失函数;
S5:通过SAM对所述图像编码进行行人图像分割,并根据二元交叉熵损失评估模型预测掩膜与真实掩膜之间的差异生成图像分割损失函数;
S6:对所述跨模态对比损失函数、所述遮蔽语言建模损失函数、所述遮蔽图像建模损失函数、所述二元分类任务损失函数和所述图像分割损失函数进行加权计算生成综合损失函数;
S7:根据所述综合损失函数构建检索模型,并通过所述检索模型对行人进行检索。
本申请实施例实施时,首先需要对文本和行人图像形成编码才可以进行多模态融合,其可以采用现有技术中的预处理和编码方式,本申请实施例不多做限定。本申请实施例采用了一种综合多个过程损失进行损失函数构建的方案来提高最终的识别精度。
其中,跨模态对比损失函数是用于促进图像与文本之间更精细的对齐的,该损失函数不仅计算全局相似度,还通过细粒度的相似度计算,捕捉模态间的微妙差异,我们结合了Triplet Loss的思想和对比损失函数,希望最大化正样本对的相似度:通过提高图像与其对应文本之间的相似度,增强模型的跨模态匹配能力。最小化最相似的负样本对相似度:通过降低图像与最相似但未配对文本之间的相似度,进一步促进模型学习区分不同模态间的细微差异。促进细粒度对齐:通过考虑图像和文本中每个局部特征的相互作用,实现更精细的模态间对齐。
其中,对于文本来说,通过对每个被随机遮蔽的单词预测正确单词来构建遮蔽语言建模损失函数,而对于图像来说,通过对每个被随机遮蔽的区域预测正确像素值来构建遮蔽图像建模损失函数,可以优化图像和文本的局部细节重建。
其中,为了进一步促进跨模态对齐,我们采用一个二元分类任务,预测模态间的粒度表示是否匹配。这可以视为一个优化问题,其中配对的图像文本视为正样本,未配对的视为负样本,并以此构建二元分类任务损失函数。
其中,在进行细粒度跨模态对齐之后,我们进一步关注于行人图像分割的性能。图像分割任务的目标是精确地从背景中分割出行人,这一步骤对于行人检索系统的性能至关重要。通过SAM对所述图像编码进行行人图像分割随着描述的详细程度不同,输出的分割图像也不同,根据其描述和输出的分割图像可以控制对应掩膜的细粒度程度,同时利用SAM给出行人图像分割的适当提示,并通过文本编码器进行编码,可以使得模型对于文本需求更加敏感,同时以往的方法对于正面描述,如人物具有什么特征,更加关注,我们的方法同时对于否定性描述,如人物不具有什么特征,有着良好的适配。为了进一步优化图像分割效果,我们引入了二元交叉熵损失,通过最小化此损失,我们能够提高预测掩膜与真实掩膜之间的相似度,从而生成更准确的行人掩膜。SAM的图像分割损失直接针对行人图像的精确分割进行优化。通过最小化预测掩膜与真实掩膜之间的差异,该损失函数确保了行人的前景(即行人本身)能够尽可能准确地从背景中分割出来。这对于后续的行人检索来说至关重要,因为只有准确分割出行人图像,才能有效地进行特征提取和匹配。通过对图像分割损失的优化,模型能够学习到从各种复杂背景中分割目标的通用规律,这增强了模型对不同场景、光照条件下行人图像的处理能力。相较于仅依赖于全局特征匹配的方法,SAM的图像分割损失使得模型在面对多样化的图像内容时具备更好的鲁棒性和泛化能力。
在本申请实施例中,为了实现高效准确的行人检索,我们采用了一个综合优化策略,该策略通过一个复合损失函数同时优化跨模态对齐、图像分割效果以及语言和视觉模型的内在理解能力,即对上述的损失函数进行加权计算后,形成综合损失函数。通过将以上损失集合作为训练过程中的优化目标,我们能够有效地提升模型在跨模态内容理解、对齐以及行人图像分割方面的性能,为后续的行人检索任务打下坚实的基础。
在识别阶段,在模型训练和优化完成后,行人检索阶段的关键在于比较元信息(即文本描述)与生物特征图像库中每张图像的相似度。我们采用余弦相似度作为相似度衡量标准,选取相似度最高的生物特征图像作为最终的匹配结果。通过这种方法,我们能够利用模型对跨模态内容的理解,实现基于文本描述的精确行人检索,大大提升检索系统的效率和准确性。本申请实施例通过上述技术方案,采用一种融合了多种损失的损失函数构建识别模型,不需要额外的训练样本即可实现高效率高精度的多模态识别,不仅考虑了全局的图像与文本匹配,还引入了基于局部嵌入的细粒度对齐机制。这种细粒度对齐能够捕捉到跨模态内容之间的微妙差异,实现更精确的模态对齐。相比之下,传统方法往往只依赖全局特征的匹配,可能忽略了重要的局部信息。
在一种可能的实现方式中,对行人图像进行预处理包括:
对所述行人图像进行几何变换、颜色变换、添加噪声、随机擦除和调整大小中的至少一项处理;
对文本进行预处理包括:
对所述文本依次进行分词、近义词替换、语法语义矫正和数据增强;所述数据增强包括句子重排和同义句生成。
本申请实施例实施时,几何变换包括旋转、缩放、翻转和裁剪等操作,其用以模拟图像可能遇到的各种视角和大小;颜色变换通过颜色调整函数,以及亮度、对比度、饱和度的调整参数,其可以增强模型对光照变化的鲁棒性,比如对比度我们可以使用直方图均衡化的方法;添加噪声可以添加高斯噪声、椒盐噪声等,用以模拟实际图像中的噪声;随机擦除可以模拟遮挡情况。
在本申请实施例中,分词时,对文本进行分词处理可以得到单词序列,然后通过外界的词典库,对每个单词进行近义词替换,对替换后的文本进行语法和语义的矫正,确保文本的连贯性和正确性,应用数据增强技术,如句子重排、同义句生成等,进一步增加文本数据的多样性。其中,句子重排通过对文本中的句子进行重新排列,改变句子顺序以增加多样性;同义句生成通过使用词库或模型生成与原句意思相近的同义句,以丰富文本表达方式。
在一种可能的实现方式中,编码形成图像编码包括:
通过MAE预训练的视觉转换器模型将预处理后的所述行人图像进行编码形成所述图像编码;
编码形成文本编码包括:
通过CLIP预训练的文本编码器将预处理后的所述文本进行编码形成所述文本编码。
本申请实施例实施时,通过先进的编码技术将图像和文本转换为高维嵌入向量,这对于后续的细粒度跨模态对齐和行人检索至关重要。对于图像编码,我们采用了基于MAE(MaskedAutoencoder)预训练的视觉转换器模型(ViT)作为编码器。ViT以其强大的特征提取能力而闻名,特别适用于处理图像数据,并能捕捉到图像的丰富细节和上下文信息。示例的,编码预处理时,所有输入的行人图像被调整大小至统一的分辨率384×128,以符合ViT模型的输入要求。每张图像接着被分割成16×16的小块,加上一个[CLS]token,共计193个小块;调整大小并分割后的图像被输入到ViT模型中完成编码。
对于文本编码,我们使用CLIP预训练的文本编码器进行处理。CLIP的文本编码器基于Transformer架构,能够理解丰富的语言信息,并将其转换为与图像嵌入在同一空间内的向量,从而实现跨模态的匹配和检索。示例的,编码预处理时文本数据首先经过标准化处理,包括去除停用词、标点符号等,以减少噪声并专注于关键信息,经过预处理的文本接着被输入到CLIP的文本编码器中完成编码。通过上述的图像与文本编码过程,我们得到了能够反映原始数据丰富语义和视觉信息的高维嵌入向量。这些嵌入向量不仅包含了每个模态内部的详细信息,而且为后续的细粒度跨模态对齐和行人检索奠定基础。
在一种可能的实现方式中,最大化正样本对的相似度和最小化最相似的负样本对的相似度生成跨模态对比损失函数包括:
根据下式生成跨模态对比损失函数:
式中,为跨模态对比损失,/>为第i个图像的token数量,/>为第j个文本的token数量,sim为相似度比较函数,m为表示样本之间的距离的超参数,/>为第i个图像的第k位token编码,/>为第j个图像的第l位token编码。
本申请实施例实施时,考虑到跨模态匹配的复杂性,我们设计了一个损失函数,以促进图像与文本之间更精细的对齐。具体而言,该损失函数不仅计算全局相似度,还通过细粒度的相似度计算,捕捉模态间的微妙差异,我们结合了Triplet Loss的思想和对比损失函数,希望最大化正样本对的相似度:通过提高图像与其对应文本之间的相似度,增强模型的跨模态匹配能力。最小化最相似的负样本对相似度:通过降低图像与最相似但未配对文本之间的相似度,进一步促进模型学习区分不同模态间的细微差异。促进细粒度对齐:通过考虑图像和文本中每个局部特征的相互作用,实现更精细的模态间对齐。其中,对于批处理中的每对图像和文本,计算它们之间的相似度,采用基于局部嵌入的细粒度对齐方法。
在一种可能的实现方式中,根据下式构建遮蔽语言建模损失函数:
式中,为遮蔽语言建模损失,M为被遮蔽单词的集合,/>为模型预测正确单词的概率;
根据下式构建遮蔽图像建模损失函数:
式中,为遮蔽图像建模损失,N为被遮蔽区域的集合,/>为原始像素值,/>为模型预测的像素值。
本申请实施例实施时,通过均方误差衡量预测像素与实际像素之间的差异,优化图像的局部细节重建。
在一种可能的实现方式中,根据下式构建二元分类任务损失函数:
式中,为二元分类损失,/>为二进制似然分布函数,y为匹配结果,I为图像,T为文本。
本申请实施例实施时,为了进一步促进跨模态对齐,我们采用一个二元分类任务,预测模态间的粒度表示是否匹配。这可以视为一个优化问题,其中配对的图像文本视为正样本,未配对的视为负样本。
在一种可能的实现方式中,根据下式生成图像分割损失函数:
式中,为图像分割损失,N为掩膜中像素的总数,/>为第n个像素的真实标签,/>为模型预测第n个像素属于行人的概率。
本申请实施例实施时,为了进一步优化图像分割效果,我们引入了二元交叉熵损失(Binary Cross-Entropy, BCE),这是一种广泛用于图像分割任务的损失函数。通过最小化此损失,我们能够提高预测掩膜与真实掩膜之间的相似度,从而生成更准确的行人掩膜。
在一种可能的实现方式中,对所述跨模态对比损失函数、所述遮蔽语言建模损失函数、所述遮蔽图像建模损失函数、所述二元分类任务损失函数和所述图像分割损失函数进行加权计算生成综合损失函数包括:
根据下式生成综合损失函数:
式中,为综合损失,/>为跨模态对比损失,/>为遮蔽语言建模损失,为遮蔽图像建模损失,/>为二元分类损失,/>为图像分割损失,α为跨模态对比损失的权重,β为图像分割损失的权重,γ为遮蔽语言建模损失和遮蔽图像建模损失的权重,θ为二元分类损失的权重。
本申请实施例实施时,为了实现高效准确的行人检索,我们采用了一个综合优化策略,该策略通过一个复合损失函数同时优化跨模态对齐、图像分割效果以及语言和视觉模型的内在理解能力,通过将以上损失集合作为训练过程中的优化目标,我们能够有效地提升模型在跨模态内容理解、对齐以及行人图像分割方面的性能,为后续的行人检索任务打下坚实的基础。
在一种可能的实现方式中,通过所述检索模型对行人进行检索包括:
提取目标文本的特征向量;
计算所述特征向量与图像库中每张图像的图像特征向量的余弦相似度;
选取所述余弦相似度最高的图像作为检索结果。
基于相同的发明构思,本申请实施例还提供了一种基于SAM的文本信息驱动的行人检索系统,包括:
编码单元,被配置为对行人图像进行预处理和编码形成图像编码,并对文本进行预处理和编码形成文本编码;
对齐单元,被配置为对所述图像编码和所述文本编码进行细粒度跨模态对齐,并最大化正样本对的相似度和最小化最相似的负样本对的相似度生成跨模态对比损失函数;
遮蔽单元,被配置为对所述文本编码随机遮蔽单词并预测正确单词构建遮蔽语言建模损失函数,对所述图像编码随机遮蔽区域并预测正确像素值构建遮蔽图像建模损失函数;
二元分类单元,被配置为通过二元分类任务预测所述图像编码和所述文本编码的粒度匹配情况构建二元分类任务损失函数;
分割单元,被配置为通过SAM对所述图像编码进行行人图像分割,并根据二元交叉熵损失评估模型预测掩膜与真实掩膜之间的差异生成图像分割损失函数;
综合单元,被配置为对所述跨模态对比损失函数、所述遮蔽语言建模损失函数、所述遮蔽图像建模损失函数、所述二元分类任务损失函数和所述图像分割损失函数进行加权计算生成综合损失函数;
检索单元,被配置为根据所述综合损失函数构建检索模型,并通过所述检索模型对行人进行检索。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显然本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于SAM的文本信息驱动的行人检索方法,其特征在于,包括:
对行人图像进行预处理和编码形成图像编码,并对文本进行预处理和编码形成文本编码;
对所述图像编码和所述文本编码进行细粒度跨模态对齐,并最大化正样本对的相似度和最小化最相似的负样本对的相似度生成跨模态对比损失函数;
对所述文本编码随机遮蔽单词并预测正确单词构建遮蔽语言建模损失函数,对所述图像编码随机遮蔽区域并预测正确像素值构建遮蔽图像建模损失函数;
通过二元分类任务预测所述图像编码和所述文本编码的粒度匹配情况构建二元分类任务损失函数;
通过SAM对所述图像编码进行行人图像分割,并根据二元交叉熵损失评估模型预测掩膜与真实掩膜之间的差异生成图像分割损失函数;
对所述跨模态对比损失函数、所述遮蔽语言建模损失函数、所述遮蔽图像建模损失函数、所述二元分类任务损失函数和所述图像分割损失函数进行加权计算生成综合损失函数;
根据所述综合损失函数构建检索模型,并通过所述检索模型对行人进行检索。
2.根据权利要求1所述的一种基于SAM的文本信息驱动的行人检索方法,其特征在于,对行人图像进行预处理包括:
对所述行人图像进行几何变换、颜色变换、添加噪声、随机擦除和调整大小中的至少一项处理;
对文本进行预处理包括:
对所述文本依次进行分词、近义词替换、语法语义矫正和数据增强;所述数据增强包括句子重排和同义句生成。
3.根据权利要求1所述的一种基于SAM的文本信息驱动的行人检索方法,其特征在于,编码形成图像编码包括:
通过MAE预训练的视觉转换器模型将预处理后的所述行人图像进行编码形成所述图像编码;
编码形成文本编码包括:
通过CLIP预训练的文本编码器将预处理后的所述文本进行编码形成所述文本编码。
4.根据权利要求1所述的一种基于SAM的文本信息驱动的行人检索方法,其特征在于,最大化正样本对的相似度和最小化最相似的负样本对的相似度生成跨模态对比损失函数包括:
根据下式生成跨模态对比损失函数:
式中,为跨模态对比损失,/>为第i个图像的token数量,/>为第j个文本的token数量,sim为相似度比较函数,m为表示样本之间的距离的超参数,/>为第i个图像的第k位token编码,/>为第j个图像的第l位token编码。
5.根据权利要求1所述的一种基于SAM的文本信息驱动的行人检索方法,其特征在于,根据下式构建遮蔽语言建模损失函数:
式中,为遮蔽语言建模损失,M为被遮蔽单词的集合,/>为模型预测正确单词的概率;
根据下式构建遮蔽图像建模损失函数:
式中,为遮蔽图像建模损失,N为被遮蔽区域的集合,/>为原始像素值,/>为模型预测的像素值。
6.根据权利要求1所述的一种基于SAM的文本信息驱动的行人检索方法,其特征在于,根据下式构建二元分类任务损失函数:
式中,为二元分类损失,/>为二进制似然分布函数,y为匹配结果,B为样本对集合,I为图像,T为文本。
7.根据权利要求1所述的一种基于SAM的文本信息驱动的行人检索方法,其特征在于,根据下式生成图像分割损失函数:
式中,为图像分割损失,N为掩膜中像素的总数,/>为第n个像素的真实标签,/>为模型预测第n个像素属于行人的概率。
8.根据权利要求1所述的一种基于SAM的文本信息驱动的行人检索方法,其特征在于,对所述跨模态对比损失函数、所述遮蔽语言建模损失函数、所述遮蔽图像建模损失函数、所述二元分类任务损失函数和所述图像分割损失函数进行加权计算生成综合损失函数包括:
根据下式生成综合损失函数:
式中,为综合损失,/>为跨模态对比损失,/>为遮蔽语言建模损失,/>为遮蔽图像建模损失,/>为二元分类损失,/>为图像分割损失,α为跨模态对比损失的权重,β为图像分割损失的权重,γ为遮蔽语言建模损失和遮蔽图像建模损失的权重,θ为二元分类损失的权重。
9.根据权利要求1所述的一种基于SAM的文本信息驱动的行人检索方法,其特征在于,通过所述检索模型对行人进行检索包括:
提取目标文本的特征向量;
计算所述特征向量与图像库中每张图像的图像特征向量的余弦相似度;
选取所述余弦相似度最高的图像作为检索结果。
10.一种基于SAM的文本信息驱动的行人检索系统,其特征在于,包括:
编码单元,被配置为对行人图像进行预处理和编码形成图像编码,并对文本进行预处理和编码形成文本编码;
对齐单元,被配置为对所述图像编码和所述文本编码进行细粒度跨模态对齐,并最大化正样本对的相似度和最小化最相似的负样本对的相似度生成跨模态对比损失函数;
遮蔽单元,被配置为对所述文本编码随机遮蔽单词并预测正确单词构建遮蔽语言建模损失函数,对所述图像编码随机遮蔽区域并预测正确像素值构建遮蔽图像建模损失函数;
二元分类单元,被配置为通过二元分类任务预测所述图像编码和所述文本编码的粒度匹配情况构建二元分类任务损失函数;
分割单元,被配置为通过SAM对所述图像编码进行行人图像分割,并根据二元交叉熵损失评估模型预测掩膜与真实掩膜之间的差异生成图像分割损失函数;
综合单元,被配置为对所述跨模态对比损失函数、所述遮蔽语言建模损失函数、所述遮蔽图像建模损失函数、所述二元分类任务损失函数和所述图像分割损失函数进行加权计算生成综合损失函数;
检索单元,被配置为根据所述综合损失函数构建检索模型,并通过所述检索模型对行人进行检索。
CN202410424542.5A 2024-04-10 2024-04-10 一种基于sam的文本信息驱动的行人检索方法及系统 Active CN118038497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410424542.5A CN118038497B (zh) 2024-04-10 2024-04-10 一种基于sam的文本信息驱动的行人检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410424542.5A CN118038497B (zh) 2024-04-10 2024-04-10 一种基于sam的文本信息驱动的行人检索方法及系统

Publications (2)

Publication Number Publication Date
CN118038497A true CN118038497A (zh) 2024-05-14
CN118038497B CN118038497B (zh) 2024-06-21

Family

ID=90989472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410424542.5A Active CN118038497B (zh) 2024-04-10 2024-04-10 一种基于sam的文本信息驱动的行人检索方法及系统

Country Status (1)

Country Link
CN (1) CN118038497B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488133A (zh) * 2020-12-18 2021-03-12 贵州大学 一种视频/图片-文本跨模态检索方法
CN114782997A (zh) * 2022-05-12 2022-07-22 东南大学 基于多损失注意力自适应网络的行人重识别方法及系统
US20220277218A1 (en) * 2021-02-26 2022-09-01 Inception Institute of Artificial Intelligence Ltd Domain specific pre-training of cross modality transformer model
US20230154159A1 (en) * 2021-11-08 2023-05-18 Samsung Electronics Co., Ltd. Method and apparatus for real-world cross-modal retrieval problems
WO2023093574A1 (zh) * 2021-11-25 2023-06-01 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN116383671A (zh) * 2023-03-27 2023-07-04 武汉大学 隐式关系推理对齐的文本图像跨模态行人检索方法及系统
US20230260164A1 (en) * 2022-02-15 2023-08-17 Adobe Inc. Retrieval-based text-to-image generation with visual-semantic contrastive representation
CN117808819A (zh) * 2023-12-28 2024-04-02 电子科技大学 一种基于预训练模型迁移和提示学习的图像指示分割方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488133A (zh) * 2020-12-18 2021-03-12 贵州大学 一种视频/图片-文本跨模态检索方法
US20220277218A1 (en) * 2021-02-26 2022-09-01 Inception Institute of Artificial Intelligence Ltd Domain specific pre-training of cross modality transformer model
US20230154159A1 (en) * 2021-11-08 2023-05-18 Samsung Electronics Co., Ltd. Method and apparatus for real-world cross-modal retrieval problems
WO2023093574A1 (zh) * 2021-11-25 2023-06-01 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
US20230260164A1 (en) * 2022-02-15 2023-08-17 Adobe Inc. Retrieval-based text-to-image generation with visual-semantic contrastive representation
CN114782997A (zh) * 2022-05-12 2022-07-22 东南大学 基于多损失注意力自适应网络的行人重识别方法及系统
CN116383671A (zh) * 2023-03-27 2023-07-04 武汉大学 隐式关系推理对齐的文本图像跨模态行人检索方法及系统
CN117808819A (zh) * 2023-12-28 2024-04-02 电子科技大学 一种基于预训练模型迁移和提示学习的图像指示分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王成济等: "基于虚拟属性学习的文本-图像行人检索方法", 软件学报, vol. 34, no. 05, 20 September 2022 (2022-09-20), pages 2035 - 2050 *

Also Published As

Publication number Publication date
CN118038497B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
Xiang et al. A convolutional neural network-based linguistic steganalysis for synonym substitution steganography
CN110598713A (zh) 基于深度神经网络的智能图像自动描述方法
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN115116066A (zh) 一种基于字符距离感知的场景文本识别方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN112804558B (zh) 视频拆分方法、装置及设备
Wu et al. Tdv2: A novel tree-structured decoder for offline mathematical expression recognition
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN117875395A (zh) 多模态预训练模型的训练方法、装置及存储介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Zia et al. Recognition of printed Urdu script in Nastaleeq font by using CNN-BiGRU-GRU based encoder-decoder framework
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN117173767A (zh) 一种基于识别人脸表情精准预测人类情绪的方法、系统和装置
CN118038497B (zh) 一种基于sam的文本信息驱动的行人检索方法及系统
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
Ranjbar et al. Continuous Sign Language Recognition Using Intra-inter Gloss Attention
Huang et al. A Seq2seq-based Model with Global Semantic Context for Scene Text Recognition
CN118627020B (zh) 基于对比学习和结构化信息增强多模态特征融合的方法
CN116882398B (zh) 基于短语交互的隐式篇章关系识别方法和系统
CN112989821B (zh) 多音字的注音方法及计算机存储介质
CN115049880B (zh) 生成图像分类网络与图像分类方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant