CN115546831A - 一种多粒度注意力机制跨模态行人搜索方法和系统 - Google Patents

一种多粒度注意力机制跨模态行人搜索方法和系统 Download PDF

Info

Publication number
CN115546831A
CN115546831A CN202211240967.8A CN202211240967A CN115546831A CN 115546831 A CN115546831 A CN 115546831A CN 202211240967 A CN202211240967 A CN 202211240967A CN 115546831 A CN115546831 A CN 115546831A
Authority
CN
China
Prior art keywords
text
pedestrian
pedestrian image
local
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211240967.8A
Other languages
English (en)
Inventor
邓若愚
胡尚薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji Institute Of Artificial Intelligence Suzhou Co ltd
Original Assignee
Tongji Institute Of Artificial Intelligence Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji Institute Of Artificial Intelligence Suzhou Co ltd filed Critical Tongji Institute Of Artificial Intelligence Suzhou Co ltd
Priority to CN202211240967.8A priority Critical patent/CN115546831A/zh
Publication of CN115546831A publication Critical patent/CN115546831A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种多粒度注意力机制跨模态行人搜索方法和系统,包括以下步骤:1)获取使用摄像拍摄的行人图像,对其进行标注,形成有标注行人图像‑文本对;2)获取无标注行人图像,并通过行人再识别模型计算无标注行人图像与有标注行人图像间的相似度,生成伪标签;3)通过基于改进分块的ResNet‑50网络作为视觉特征提取网络提取行人的全局视觉表征与局部视觉表征;4)通过基于Bert的文本特征提取网络提取行人的文本全局特征、短语级特征与词组级特征;5)将视觉特征与文本特征输入多粒度注意力对齐网络,分别计算全局特征相似性和局部相似性,并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。本申请具有快速准确、鲁棒性好等优点。

Description

一种多粒度注意力机制跨模态行人搜索方法和系统
技术领域
本申请涉及监控视频智能分析、多媒体技术领域,尤其涉及一种基于半监督学习的多粒度注意力机制跨模态行人搜索方法和系统。
背景技术
如图1所示,基于文本的跨模态行人搜索通常给定一个目标行人的自然语言描述,要求从候选图库中检索该行人。传统的图像行人搜索方法在一些特定问题中可能难以建树。例如在刑侦场景中,犯罪嫌疑人的图像可能难以获取,但是目击者的自然语言描述相对更容易获得。基于文本的跨模态行人搜索方法由于其查询限制少,在智能视频监控系统中有着广阔的应用前景。
与一张图像可能包含多个对象的传统图像文本匹配任务相比,基于文本的跨模态行人搜索是一项具有挑战性的任务。虽然借助深度卷积神经网络与判别学习算法的强大特征提取能力,行人搜索模型的性能已经提高到了一个前所未有的水平,但基于文本的跨模态行人搜索技术却仍处在发展初期,原因在于它同时具备着行人再识别和跨模态检索的困难。一方面,由于受到遮挡、背景杂乱等因素的干扰,模型很难提取稳健的特征;另一方面,所有的图像都属于行人这一类别,不同图像之间的高级语义非常相似,而视觉模态和文本模态间却有很大的差异,从而使模态间特征差异远远大于模态内特征差异。细粒度的性质决定了模型必须学习更具判别性的特征来区分不同的视觉图像与文本描述。一个良好的基于文本的跨模态行人搜索方法通常关注两个方面,一个是如何使图像和文本在所有尺度上以粗到细的方式学习表征,另一个则是如何让模型去探索自适应的多尺度匹配方式,从而将不同尺度的特征一一对齐。目前许多方法都无法很好地将这二者相结合,部分工作只从局部或整体中的某一种尺度学习图像与文本的表征,而没有同时结合这两种尺度生成多尺度融合的特征。
发明内容
有鉴于此,本申请的目的在于提出一种多粒度注意力机制跨模态行人搜索方法和系统,本申请能够针对性的解决现有的问题。
基于上述目的,本申请提出了一种多粒度注意力机制跨模态行人搜索方法,包括:
1)获取使用摄像拍摄的行人图像,对其进行标注,形成有标注行人图像-文本对;
2)获取无标注行人图像,并通过行人再识别模型计算所述无标注行人图像与有标注行人图像特征间的相似度,以此生成伪标签,进而得到无标注行人图像-弱相关文本描述对,并与所述有标注行人图像-文本对混合,得到混合行人图像-文本对;
3)通过具有分块结构的ResNet-50网络作为视觉特征提取网络提取行人的全局视觉表征与局部视觉表征;
4)通过基于Bert文本特征提取网络提取行人的文本全局特征、短语级与词组级局部特征;
5)将所述全局视觉表征与局部视觉表征、文本全局特征、短语级特征与词组级局部特征输入多粒度注意力对齐网络,分别计算全局特征相似性和局部相似性,并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。
进一步地,所述混合行人图像-文本对中的文本描述构成查询集,行人图像构成图库集。
进一步地,所述的步骤3)中,使用预训练好的ResNet-50网络作为视觉特征提取网络,将预处理后的所述行人图像输入ResNet-50网络,得到行人的全局视觉表征;通过分块结构,将所述行人图像按水平划分为两分块或三分块,随后采取随机打乱分块策略,分别得到不同尺度级别的行人局部视觉表征。
进一步地,所述的步骤4)中,使用预训练好的Bert网络作为文本特征提取网络,使用[CLS]作为分隔标识符,将文本描述划分为句子级、短语级、词组级,并分别提取文本全局特征、短语级与词组级局部特征。
进一步地,所述的步骤5)中,按照全局-全局,局部-局部的方式,分别计算全局视觉表征-全局文本特征,两分块局部视觉表征-短语级局部文本特征,三分块局部视觉表征-词组级局部文本特征相似度。
基于上述目的,本申请还提出了一种多粒度注意力机制跨模态行人搜索系统,包括:
标注模块,用于获取使用摄像拍摄的行人图像,对其进行标注,形成有标注行人图像-文本对;
混合模块,用于获取无标注行人图像,并通过行人再识别模型计算所述无标注行人图像与有标注行人图像特征间的相似度,以此生成伪标签,进而得到无标注行人图像-弱相关文本描述对,并与所述有标注行人图像-文本对混合;
视觉提取模块,用于通过具有分块结构的ResNet-50网络作为视觉特征提取网络提取行人的全局视觉表征与局部视觉表征;
文本提取模块,用于通过基于Bert文本特征提取网络提取行人的文本全局特征、短语级与词组级局部特征;
对齐模块,用于将所述全局视觉表征与局部视觉表征、文本全局特征、短语级特征与词组级局部特征输入多粒度注意力对齐网络,分别计算全局特征相似性和局部相似性,并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。
总的来说,本申请的优势及给用户带来的体验在于:
一、利用跨模态投影匹配函数从不同尺度逐步缩小模态间的差异并优化文本与图像特征,通过学习一种对于不同尺度的语义信息的自适应提取方法,从识别与检测的角度对这些语义主体进行统一操作,而无需预先定义图像中需要划分的区域。
二、多粒度注意力学习架构能够从多个不同粒度最大程度上提升视觉与文本特征的判别性,从而丰富表征在不同层次的表达能力,使模型能够在对齐模态间语义信息的基础上对模态内的特征加以融合以提升匹配准确率。
三、现实应用中,由于图像-文本对的收集与标注困难,以往方法都受限于此。本申请通过半监督生成伪标签的方式,将大量无标注行人图像分配伪标签,并获得了大量的弱相关图像-文本对,极大拓展了数据集和降低了标注成本。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1示出传统的图像行人搜索方法示意图。
图2示出根据本申请实施例的多粒度注意力机制跨模态行人搜索方法的流程图。
图3为本申请方法的双流网络框架示意图。
图4示出通过分块结构分别得到不同尺度级别的行人局部视觉表征示意图。
图5示出分别提取文本全局特征和局部特征示意图。
图6示出实现各个粒度级别对齐示意图。
图7示出根据本申请实施例的多粒度注意力机制跨模态行人搜索系统的构成图。
图8示出了本申请一实施例所提供的一种电子设备的结构示意图。
图9示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图2示出根据本申请实施例的多粒度注意力机制跨模态行人搜索方法的流程图。如图2所示,该多粒度注意力机制跨模态行人搜索方法包括以下步骤:
1)获取使用摄像拍摄的行人图像,对其进行标注,形成有标注行人图像-文本对。
2)外部获取大量无标注行人图像Vnl,并通过训练好的行人再识别模型计算无标注行人图像与有标注行人图像特征间的相似度Si,以此生成伪标签,进而得到大量无标注行人图像-弱相关文本描述对,并与有标注行人图像-文本对混合。
步骤2中,充分利用监控视角下大量无标注行人图像,通过生成伪标签的手段,得到无标注行人图像-弱相关文本对,极大丰富了数据的多样性,降低了现实应用中的成本。
另外,如图3所示,采用双流跨模态检索范式,使用混合后的行人图像与其相关文本描述分别作为网络的两个输入,旨在给出行人的文本描述,找出与之相关的目标行人图像,其中文本描述构成查询集Ti,行人图像构成图库集Vi
3)使用预训练好的ResNet-50网络作为视觉分支特征提取骨干网络(backbone),将预处理后的行人图像输入骨干网络,得到行人的视觉全局特征表示。通过提出的分块结构,将行人图像按水平划分为两分块或三分块,随后采取随机打乱分块策略,分别得到不同尺度级别的行人局部视觉表征。如图4所示。
4)使用预训练好的Bert网络作为文本分支的特征提取骨干网络,使用[CLS]作为分隔标识符,将文本描述划分为句子级,短语级,词组级,并分别提取文本全局特征(句子级)和局部特征(短语级,词组级)。如图5所示。
5)将视觉特征与文本特征输入多粒度注意力对齐网,按照全局-全局,局部-局部的方式,分别计算全局视觉表征-全局文本特征,两分块局部视觉表征-短语级局部文本特征,三分块视觉表征-词组级文本特征相似度,并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。如图6所示。
跨模态投影损失定义为,在给定的大小为N的小批次内,视觉表征集合可以被定义为
Figure BDA0003884230730000041
Figure BDA0003884230730000042
表示第i张图像的表征,
Figure BDA0003884230730000043
表示第i张图像对应的身份标签;文本表征集合可以被定义为
Figure BDA0003884230730000044
Figure BDA0003884230730000045
表示第i条文本的表征,
Figure BDA0003884230730000046
表示第i条文本对应的身份标签。对于视觉表征
Figure BDA0003884230730000047
将该批次内的文本表征集合与其视觉表征构成图像-文本表征对集合
Figure BDA0003884230730000051
其中当
Figure BDA0003884230730000052
即文本与图像对应身份标签相同时yi,j=1,否则yi,j=0。对于每个图像-文本表征对,可以通过以下公式得到它们之间的匹配概率:
Figure BDA0003884230730000053
其中
Figure BDA0003884230730000054
表示正则化后的文本表征。该表达式所求得的pi,j可看作
Figure BDA0003884230730000055
Figure BDA0003884230730000056
之间的相似度占
Figure BDA0003884230730000057
与整个批次中所有文本表征
Figure BDA0003884230730000058
的相似度之和的比例。对于
Figure BDA0003884230730000059
Figure BDA00038842307300000510
之间的真实匹配概率,考虑到同一批次中有可能出现多个样本同时匹配的情况,模型采用归一化后的标签分布qi,j作为真实分布,计算表达式如下:
Figure BDA00038842307300000511
Figure BDA00038842307300000512
与文本表征计算的匹配损失可表达为:
Figure BDA00038842307300000513
ε为损失常数。
表1为本申请算法和其他算法在CUHK-PEDES数据集上性能比较。从表1可以看出,本申请的匹配准确率明显高于其他算法。
表1
Figure BDA0003884230730000061
申请实施例提供了一种多粒度注意力机制跨模态行人搜索系统,该系统用于执行上述实施例所述的多粒度注意力机制跨模态行人搜索方法,如图7所示,该系统包括:
标注模块501,用于获取使用摄像拍摄的行人图像,对其进行标注,形成有标注行人图像-文本对;
混合模块502,用于获取无标注行人图像,并通过行人再识别模型计算所述无标注行人图像与有标注行人图像特征间的相似度,以此生成伪标签,进而得到无标注行人图像-弱相关文本描述对,并与所述有标注行人图像-文本对混合;
视觉提取模块503,用于通过具有分块结构的ResNet-50网络作为视觉特征提取网络提取行人的全局视觉表征与局部视觉表征;
文本提取模块504,用于通过基于Bert文本特征提取网络提取行人的文本全局特征、短语级与词组级局部特征;
对齐模块505,用于将所述全局视觉表征与局部视觉表征、文本全局特征、短语级特征与词组级局部特征输入多粒度注意力对齐网络,分别计算全局特征相似性和局部相似性,并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。
本申请的上述实施例提供的多粒度注意力机制跨模态行人搜索系统与本申请实施例提供的多粒度注意力机制跨模态行人搜索方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的多粒度注意力机制跨模态行人搜索方法对应的电子设备,以执行上多粒度注意力机制跨模态行人搜索方法。本申请实施例不做限定。
请参考图8,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图8所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的多粒度注意力机制跨模态行人搜索方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述多粒度注意力机制跨模态行人搜索方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的多粒度注意力机制跨模态行人搜索方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的多粒度注意力机制跨模态行人搜索方法对应的计算机可读存储介质,请参考图9,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的多粒度注意力机制跨模态行人搜索方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的多粒度注意力机制跨模态行人搜索方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备有固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建系统中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种多粒度注意力机制跨模态行人搜索方法,其特征在于,包括以下步骤:
1)获取使用摄像拍摄的行人图像,对其进行标注,形成有标注行人图像-文本对;
2)获取无标注行人图像,并通过行人再识别模型计算所述无标注行人图像与有标注行人图像特征间的相似度,以此生成伪标签,进而得到无标注行人图像-弱相关文本描述对,并与所述有标注行人图像-文本对混合,得到混合行人图像-文本对;
3)通过具有分块结构的ResNet-50网络作为视觉特征提取网络提取行人的全局视觉表征与局部视觉表征;
4)通过基于Bert文本特征提取网络提取行人的文本全局特征、短语级与词组级局部特征;
5)将所述全局视觉表征与局部视觉表征、文本全局特征、短语级特征与词组级局部特征输入多粒度注意力对齐网络,分别计算全局特征相似性和局部相似性,并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。
2.根据权利要求1所述的一种多粒度注意力机制跨模态行人搜索方法,其特征在于,所述混合行人图像-文本对中的文本描述构成查询集,行人图像构成图库集。
3.根据权利要求2所述的一种多粒度注意力机制跨模态行人搜索方法,其特征在于,所述的步骤3)中,使用预训练好的ResNet-50网络作为视觉特征提取网络,将预处理后的所述行人图像输入ResNet-50网络,得到行人的全局视觉表征;通过分块结构,将所述行人图像按水平划分为两分块或三分块,随后采取随机打乱分块策略,分别得到不同尺度级别的行人局部视觉表征。
4.根据权利要求1所述的一种多粒度注意力机制跨模态行人搜索方法,其特征在于,所述的步骤4)中,使用预训练好的Bert网络作为文本特征提取网络,使用[CLS]作为分隔标识符,将文本描述划分为句子级、短语级、词组级,并分别提取文本全局特征、短语级与词组级局部特征。
5.根据权利要求1所述的一种多粒度注意力机制跨模态行人搜索方法,其特征在于,所述的步骤5)中,按照全局-全局,局部-局部的方式,分别计算全局视觉表征-全局文本特征,两分块局部视觉表征-短语级局部文本特征,三分块局部视觉表征-词组级局部文本特征相似度。
6.一种多粒度注意力机制跨模态行人搜索系统,其特征在于,包括:
标注模块,用于获取使用摄像拍摄的行人图像,对其进行标注,形成有标注行人图像-文本对;
混合模块,用于获取无标注行人图像,并通过行人再识别模型计算所述无标注行人图像与有标注行人图像特征间的相似度,以此生成伪标签,进而得到无标注行人图像-弱相关文本描述对,并与所述有标注行人图像-文本对混合,得到混合行人图像-文本对;
视觉提取模块,用于通过具有分块结构的ResNet-50网络作为视觉特征提取网络提取行人的全局视觉表征与局部视觉表征;
文本提取模块,用于通过基于Bert文本特征提取网络提取行人的文本全局特征、短语级与词组级局部特征;
对齐模块,用于将所述全局视觉表征与局部视觉表征、文本全局特征、短语级特征与词组级局部特征输入多粒度注意力对齐网络,分别计算全局特征相似性和局部相似性,并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。
7.根据权利要求6所述的一种多粒度注意力机制跨模态行人搜索系统,其特征在于,所述混合行人图像-文本对中的文本描述构成查询集,行人图像构成图库集。
8.根据权利要求7所述的一种多粒度注意力机制跨模态行人搜索系统,其特征在于,使用预训练好的ResNet-50网络作为视觉特征提取网络,将预处理后的所述行人图像输入ResNet-50网络,得到行人的全局视觉表征;通过分块结构,将所述行人图像按水平划分为两分块或三分块,随后采取随机打乱分块策略,分别得到不同尺度级别的行人局部视觉表征。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
CN202211240967.8A 2022-10-11 2022-10-11 一种多粒度注意力机制跨模态行人搜索方法和系统 Pending CN115546831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211240967.8A CN115546831A (zh) 2022-10-11 2022-10-11 一种多粒度注意力机制跨模态行人搜索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211240967.8A CN115546831A (zh) 2022-10-11 2022-10-11 一种多粒度注意力机制跨模态行人搜索方法和系统

Publications (1)

Publication Number Publication Date
CN115546831A true CN115546831A (zh) 2022-12-30

Family

ID=84733915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211240967.8A Pending CN115546831A (zh) 2022-10-11 2022-10-11 一种多粒度注意力机制跨模态行人搜索方法和系统

Country Status (1)

Country Link
CN (1) CN115546831A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682144A (zh) * 2023-06-20 2023-09-01 北京大学 一种基于多层次跨模态差异调和的多模态行人重识别方法
CN116935329A (zh) * 2023-09-19 2023-10-24 山东大学 一种类级别对比学习的弱监督文本行人检索方法及系统
CN118172837A (zh) * 2024-05-13 2024-06-11 杭州海康威视数字技术股份有限公司 一种异常行为识别方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682144A (zh) * 2023-06-20 2023-09-01 北京大学 一种基于多层次跨模态差异调和的多模态行人重识别方法
CN116682144B (zh) * 2023-06-20 2023-12-22 北京大学 一种基于多层次跨模态差异调和的多模态行人重识别方法
CN116935329A (zh) * 2023-09-19 2023-10-24 山东大学 一种类级别对比学习的弱监督文本行人检索方法及系统
CN116935329B (zh) * 2023-09-19 2023-12-01 山东大学 一种类级别对比学习的弱监督文本行人检索方法及系统
CN118172837A (zh) * 2024-05-13 2024-06-11 杭州海康威视数字技术股份有限公司 一种异常行为识别方法及装置

Similar Documents

Publication Publication Date Title
Chen et al. Backbone is all your need: A simplified architecture for visual object tracking
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
Liu et al. Open-world semantic segmentation via contrasting and clustering vision-language embedding
CN115546831A (zh) 一种多粒度注意力机制跨模态行人搜索方法和系统
CN112598067A (zh) 事件的情感分类方法、装置、电子设备及存储介质
Sridhar et al. Fake news detection and analysis using multitask learning with BiLSTM CapsNet model
US11250299B2 (en) Learning representations of generalized cross-modal entailment tasks
CN115100664B (zh) 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN116975340A (zh) 信息检索方法、装置、设备、程序产品及存储介质
CN114238744A (zh) 数据处理方法、装置及设备
Sabir et al. Visual re-ranking with natural language understanding for text spotting
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
Juyal et al. Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset
Yan et al. Multilevel feature aggregation and enhancement network for remote sensing change detection
CN113743618A (zh) 时间序列数据处理方法、装置、可读介质及电子设备
CN116341536A (zh) 一种事件抽取方法、系统及介质
Hu et al. Real-time detection of tiny objects based on a weighted bi-directional FPN
CN115017356A (zh) 图像文本对的判断方法和装置
Naosekpam et al. EMBiL: An English-Manipuri Bi-lingual Benchmark for Scene Text Detection and Language Identification
CN113836297A (zh) 文本情感分析模型的训练方法及装置
Dugar et al. From pixels to words: A scalable journey of text information from product images to retail catalog
Zhang et al. Semantics reused context feature pyramid network for object detection in remote sensing images
Wu et al. Improving machine understanding of human intent in charts
Nourali et al. Scene text visual question answering by using YOLO and STN
Lei et al. A novel approach for enhanced abnormal action recognition via coarse and precise detection stage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination