CN115546831A

CN115546831A - 一种多粒度注意力机制跨模态行人搜索方法和系统

Info

Publication number: CN115546831A
Application number: CN202211240967.8A
Authority: CN
Inventors: 邓若愚; 胡尚薇
Original assignee: Tongji Institute Of Artificial Intelligence Suzhou Co ltd
Current assignee: Tongji Institute Of Artificial Intelligence Suzhou Co ltd
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2022-12-30

Abstract

本申请提供一种多粒度注意力机制跨模态行人搜索方法和系统，包括以下步骤：1)获取使用摄像拍摄的行人图像，对其进行标注，形成有标注行人图像‑文本对；2)获取无标注行人图像，并通过行人再识别模型计算无标注行人图像与有标注行人图像间的相似度，生成伪标签；3)通过基于改进分块的ResNet‑50网络作为视觉特征提取网络提取行人的全局视觉表征与局部视觉表征；4)通过基于Bert的文本特征提取网络提取行人的文本全局特征、短语级特征与词组级特征；5)将视觉特征与文本特征输入多粒度注意力对齐网络，分别计算全局特征相似性和局部相似性，并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。本申请具有快速准确、鲁棒性好等优点。

Description

一种多粒度注意力机制跨模态行人搜索方法和系统

技术领域

本申请涉及监控视频智能分析、多媒体技术领域，尤其涉及一种基于半监督学习的多粒度注意力机制跨模态行人搜索方法和系统。

背景技术

如图1所示，基于文本的跨模态行人搜索通常给定一个目标行人的自然语言描述，要求从候选图库中检索该行人。传统的图像行人搜索方法在一些特定问题中可能难以建树。例如在刑侦场景中，犯罪嫌疑人的图像可能难以获取，但是目击者的自然语言描述相对更容易获得。基于文本的跨模态行人搜索方法由于其查询限制少，在智能视频监控系统中有着广阔的应用前景。

与一张图像可能包含多个对象的传统图像文本匹配任务相比，基于文本的跨模态行人搜索是一项具有挑战性的任务。虽然借助深度卷积神经网络与判别学习算法的强大特征提取能力，行人搜索模型的性能已经提高到了一个前所未有的水平，但基于文本的跨模态行人搜索技术却仍处在发展初期，原因在于它同时具备着行人再识别和跨模态检索的困难。一方面，由于受到遮挡、背景杂乱等因素的干扰，模型很难提取稳健的特征；另一方面，所有的图像都属于行人这一类别，不同图像之间的高级语义非常相似，而视觉模态和文本模态间却有很大的差异，从而使模态间特征差异远远大于模态内特征差异。细粒度的性质决定了模型必须学习更具判别性的特征来区分不同的视觉图像与文本描述。一个良好的基于文本的跨模态行人搜索方法通常关注两个方面，一个是如何使图像和文本在所有尺度上以粗到细的方式学习表征，另一个则是如何让模型去探索自适应的多尺度匹配方式，从而将不同尺度的特征一一对齐。目前许多方法都无法很好地将这二者相结合，部分工作只从局部或整体中的某一种尺度学习图像与文本的表征，而没有同时结合这两种尺度生成多尺度融合的特征。

发明内容

有鉴于此，本申请的目的在于提出一种多粒度注意力机制跨模态行人搜索方法和系统，本申请能够针对性的解决现有的问题。

基于上述目的，本申请提出了一种多粒度注意力机制跨模态行人搜索方法，包括：

1)获取使用摄像拍摄的行人图像，对其进行标注，形成有标注行人图像-文本对；

2)获取无标注行人图像，并通过行人再识别模型计算所述无标注行人图像与有标注行人图像特征间的相似度，以此生成伪标签，进而得到无标注行人图像-弱相关文本描述对，并与所述有标注行人图像-文本对混合，得到混合行人图像-文本对；

3)通过具有分块结构的ResNet-50网络作为视觉特征提取网络提取行人的全局视觉表征与局部视觉表征；

4)通过基于Bert文本特征提取网络提取行人的文本全局特征、短语级与词组级局部特征；

5)将所述全局视觉表征与局部视觉表征、文本全局特征、短语级特征与词组级局部特征输入多粒度注意力对齐网络，分别计算全局特征相似性和局部相似性，并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。

进一步地，所述混合行人图像-文本对中的文本描述构成查询集，行人图像构成图库集。

进一步地，所述的步骤3)中，使用预训练好的ResNet-50网络作为视觉特征提取网络，将预处理后的所述行人图像输入ResNet-50网络，得到行人的全局视觉表征；通过分块结构，将所述行人图像按水平划分为两分块或三分块，随后采取随机打乱分块策略，分别得到不同尺度级别的行人局部视觉表征。

进一步地，所述的步骤4)中，使用预训练好的Bert网络作为文本特征提取网络，使用[CLS]作为分隔标识符，将文本描述划分为句子级、短语级、词组级，并分别提取文本全局特征、短语级与词组级局部特征。

进一步地，所述的步骤5)中，按照全局-全局，局部-局部的方式，分别计算全局视觉表征-全局文本特征，两分块局部视觉表征-短语级局部文本特征，三分块局部视觉表征-词组级局部文本特征相似度。

基于上述目的，本申请还提出了一种多粒度注意力机制跨模态行人搜索系统，包括：

标注模块，用于获取使用摄像拍摄的行人图像，对其进行标注，形成有标注行人图像-文本对；

混合模块，用于获取无标注行人图像，并通过行人再识别模型计算所述无标注行人图像与有标注行人图像特征间的相似度，以此生成伪标签，进而得到无标注行人图像-弱相关文本描述对，并与所述有标注行人图像-文本对混合；

视觉提取模块，用于通过具有分块结构的ResNet-50网络作为视觉特征提取网络提取行人的全局视觉表征与局部视觉表征；

文本提取模块，用于通过基于Bert文本特征提取网络提取行人的文本全局特征、短语级与词组级局部特征；

对齐模块，用于将所述全局视觉表征与局部视觉表征、文本全局特征、短语级特征与词组级局部特征输入多粒度注意力对齐网络，分别计算全局特征相似性和局部相似性，并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。

总的来说，本申请的优势及给用户带来的体验在于：

一、利用跨模态投影匹配函数从不同尺度逐步缩小模态间的差异并优化文本与图像特征，通过学习一种对于不同尺度的语义信息的自适应提取方法，从识别与检测的角度对这些语义主体进行统一操作，而无需预先定义图像中需要划分的区域。

二、多粒度注意力学习架构能够从多个不同粒度最大程度上提升视觉与文本特征的判别性，从而丰富表征在不同层次的表达能力，使模型能够在对齐模态间语义信息的基础上对模态内的特征加以融合以提升匹配准确率。

三、现实应用中，由于图像-文本对的收集与标注困难，以往方法都受限于此。本申请通过半监督生成伪标签的方式，将大量无标注行人图像分配伪标签，并获得了大量的弱相关图像-文本对，极大拓展了数据集和降低了标注成本。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1示出传统的图像行人搜索方法示意图。

图2示出根据本申请实施例的多粒度注意力机制跨模态行人搜索方法的流程图。

图3为本申请方法的双流网络框架示意图。

图4示出通过分块结构分别得到不同尺度级别的行人局部视觉表征示意图。

图5示出分别提取文本全局特征和局部特征示意图。

图6示出实现各个粒度级别对齐示意图。

图7示出根据本申请实施例的多粒度注意力机制跨模态行人搜索系统的构成图。

图8示出了本申请一实施例所提供的一种电子设备的结构示意图。

图9示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图2示出根据本申请实施例的多粒度注意力机制跨模态行人搜索方法的流程图。如图2所示，该多粒度注意力机制跨模态行人搜索方法包括以下步骤：

1)获取使用摄像拍摄的行人图像，对其进行标注，形成有标注行人图像-文本对。

2)外部获取大量无标注行人图像V_nl，并通过训练好的行人再识别模型计算无标注行人图像与有标注行人图像特征间的相似度S_i，以此生成伪标签，进而得到大量无标注行人图像-弱相关文本描述对，并与有标注行人图像-文本对混合。

步骤2中，充分利用监控视角下大量无标注行人图像，通过生成伪标签的手段，得到无标注行人图像-弱相关文本对，极大丰富了数据的多样性，降低了现实应用中的成本。

另外，如图3所示，采用双流跨模态检索范式，使用混合后的行人图像与其相关文本描述分别作为网络的两个输入，旨在给出行人的文本描述，找出与之相关的目标行人图像，其中文本描述构成查询集T_i，行人图像构成图库集V_i。

3)使用预训练好的ResNet-50网络作为视觉分支特征提取骨干网络(backbone)，将预处理后的行人图像输入骨干网络，得到行人的视觉全局特征表示。通过提出的分块结构，将行人图像按水平划分为两分块或三分块，随后采取随机打乱分块策略，分别得到不同尺度级别的行人局部视觉表征。如图4所示。

4)使用预训练好的Bert网络作为文本分支的特征提取骨干网络，使用[CLS]作为分隔标识符，将文本描述划分为句子级，短语级，词组级，并分别提取文本全局特征(句子级)和局部特征(短语级，词组级)。如图5所示。

5)将视觉特征与文本特征输入多粒度注意力对齐网，按照全局-全局，局部-局部的方式，分别计算全局视觉表征-全局文本特征，两分块局部视觉表征-短语级局部文本特征，三分块视觉表征-词组级文本特征相似度，并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。如图6所示。

跨模态投影损失定义为，在给定的大小为N的小批次内，视觉表征集合可以被定义为

表示第i张图像的表征，

表示第i张图像对应的身份标签；文本表征集合可以被定义为

表示第i条文本的表征，

表示第i条文本对应的身份标签。对于视觉表征

将该批次内的文本表征集合与其视觉表征构成图像-文本表征对集合

其中当

即文本与图像对应身份标签相同时y_i，j＝1，否则y_i，j＝0。对于每个图像-文本表征对，可以通过以下公式得到它们之间的匹配概率:

其中

表示正则化后的文本表征。该表达式所求得的p_i，j可看作

与

之间的相似度占

与整个批次中所有文本表征

的相似度之和的比例。对于

与

之间的真实匹配概率，考虑到同一批次中有可能出现多个样本同时匹配的情况，模型采用归一化后的标签分布q_i，j作为真实分布，计算表达式如下:

将

与文本表征计算的匹配损失可表达为:

ε为损失常数。

表1为本申请算法和其他算法在CUHK-PEDES数据集上性能比较。从表1可以看出，本申请的匹配准确率明显高于其他算法。

表1

申请实施例提供了一种多粒度注意力机制跨模态行人搜索系统，该系统用于执行上述实施例所述的多粒度注意力机制跨模态行人搜索方法，如图7所示，该系统包括：

标注模块501，用于获取使用摄像拍摄的行人图像，对其进行标注，形成有标注行人图像-文本对；

混合模块502，用于获取无标注行人图像，并通过行人再识别模型计算所述无标注行人图像与有标注行人图像特征间的相似度，以此生成伪标签，进而得到无标注行人图像-弱相关文本描述对，并与所述有标注行人图像-文本对混合；

视觉提取模块503，用于通过具有分块结构的ResNet-50网络作为视觉特征提取网络提取行人的全局视觉表征与局部视觉表征；

文本提取模块504，用于通过基于Bert文本特征提取网络提取行人的文本全局特征、短语级与词组级局部特征；

对齐模块505，用于将所述全局视觉表征与局部视觉表征、文本全局特征、短语级特征与词组级局部特征输入多粒度注意力对齐网络，分别计算全局特征相似性和局部相似性，并通过跨模态投影损失监督含有相同语义的图像区块与文本区域实现各个粒度级别对齐。

本申请的上述实施例提供的多粒度注意力机制跨模态行人搜索系统与本申请实施例提供的多粒度注意力机制跨模态行人搜索方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的多粒度注意力机制跨模态行人搜索方法对应的电子设备，以执行上多粒度注意力机制跨模态行人搜索方法。本申请实施例不做限定。

请参考图8，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图8所示，所述电子设备20包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的多粒度注意力机制跨模态行人搜索方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述多粒度注意力机制跨模态行人搜索方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的多粒度注意力机制跨模态行人搜索方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的多粒度注意力机制跨模态行人搜索方法对应的计算机可读存储介质，请参考图9，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的多粒度注意力机制跨模态行人搜索方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的多粒度注意力机制跨模态行人搜索方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备有固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建系统中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中，这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多粒度注意力机制跨模态行人搜索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多粒度注意力机制跨模态行人搜索方法，其特征在于，所述混合行人图像-文本对中的文本描述构成查询集，行人图像构成图库集。

3.根据权利要求2所述的一种多粒度注意力机制跨模态行人搜索方法，其特征在于，所述的步骤3)中，使用预训练好的ResNet-50网络作为视觉特征提取网络，将预处理后的所述行人图像输入ResNet-50网络，得到行人的全局视觉表征；通过分块结构，将所述行人图像按水平划分为两分块或三分块，随后采取随机打乱分块策略，分别得到不同尺度级别的行人局部视觉表征。

4.根据权利要求1所述的一种多粒度注意力机制跨模态行人搜索方法，其特征在于，所述的步骤4)中，使用预训练好的Bert网络作为文本特征提取网络，使用[CLS]作为分隔标识符，将文本描述划分为句子级、短语级、词组级，并分别提取文本全局特征、短语级与词组级局部特征。

5.根据权利要求1所述的一种多粒度注意力机制跨模态行人搜索方法，其特征在于，所述的步骤5)中，按照全局-全局，局部-局部的方式，分别计算全局视觉表征-全局文本特征，两分块局部视觉表征-短语级局部文本特征，三分块局部视觉表征-词组级局部文本特征相似度。

6.一种多粒度注意力机制跨模态行人搜索系统，其特征在于，包括：

混合模块，用于获取无标注行人图像，并通过行人再识别模型计算所述无标注行人图像与有标注行人图像特征间的相似度，以此生成伪标签，进而得到无标注行人图像-弱相关文本描述对，并与所述有标注行人图像-文本对混合，得到混合行人图像-文本对；

7.根据权利要求6所述的一种多粒度注意力机制跨模态行人搜索系统，其特征在于，所述混合行人图像-文本对中的文本描述构成查询集，行人图像构成图库集。

8.根据权利要求7所述的一种多粒度注意力机制跨模态行人搜索系统，其特征在于，使用预训练好的ResNet-50网络作为视觉特征提取网络，将预处理后的所述行人图像输入ResNet-50网络，得到行人的全局视觉表征；通过分块结构，将所述行人图像按水平划分为两分块或三分块，随后采取随机打乱分块策略，分别得到不同尺度级别的行人局部视觉表征。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。