CN116645694A

CN116645694A - 基于动态自进化信息抽取和对齐的文本-目标检索方法

Info

Publication number: CN116645694A
Application number: CN202310483808.9A
Authority: CN
Inventors: 张艳宁; 王鹏; 牛凯; 陈鸿宇; 矫炳亮; 高丽颖
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-08-25

Abstract

本发明公开了一种基于动态自进化信息抽取和对齐的文本‑目标检索方法，构建了文本引导的动态视觉信息过滤和部件级对齐网络，包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块；在基本图文特征提取模块中，使用一个视觉卷积神经网络和一个语言处理模型提取图像和描述的基本特征；在行人无关视觉内容过滤模块中，采用了Transformer编码器层负责细粒度的像素级视觉特征增强，采用基于原型引导的注意力层分别和从增强后的视觉特征中过滤与行人无关的噪声；最后，在行人模态动态自进化模块中，利用文字描述引导图像级部件掩码自主进化，利用掩码描述对各个行人部件的强调程度，以进行详细的部件级对齐和匹配。

Description

基于动态自进化信息抽取和对齐的文本-目标检索方法

技术领域

本发明属于图文检索和行人重识别技术领域，具体涉及一种基于描述的行人图像检索方法。

背景技术

近年来，行人检索受到了广泛的关注，在多个领域都有着广泛应用，比如失踪人口寻找，嫌疑人追踪等领域。该任务要求对于行人照片或者句子描述等查询，从图库中检索出相应的行人图像。根据查询的类型，行人检索主要可以分为基于图像的行人检索和基于语言描述的行人检索。其中，基于图像的行人检索需要至少一张待检索的行人照片作为索引，而这种照片在某些实际场景中难以获得。比如在刑侦领域，有时监控摄像头没有捕捉到嫌疑犯的照片。但是，我们却能得到目击者对嫌疑犯的描述。同时，描述包含的信息比属性特征更加全面且准确，因此研究基于描述的行人图像检索具有重大的场景需求和应用价值。

在基于描述的行人图像检索任务中，限制图文对齐和检索性能的一个重要原因是图像和描述之间的信息不对等，如图1所示，其主要表现在两个方面：(1)图像中含有描述未提及的行人无关的内容，比如背景和遮挡；(2)对不同的行人部件描述不对等，比如部分行人部件没有提及。

发明内容

为了克服现有技术的不足，本发明提供了一种基于动态自进化信息抽取和对齐的文本-目标检索方法，构建了文本引导的动态视觉信息过滤和部件级对齐网络，包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块；在基本图文特征提取模块中，使用一个视觉卷积神经网络和一个语言处理模型来提取图像和描述的基本特征；在行人无关视觉内容过滤模块中，采用了一个Transformer编码器层负责细粒度的像素级视觉特征增强，采用基于原型引导的注意力层分别和从增强后的视觉特征中过滤与行人无关的噪声；最后，在行人模态动态自进化模块中，利用文字描述引导图像级部件掩码自主进化，利用掩码描述对各个行人部件的强调程度，以进行详细的部件级对齐和匹配。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：构建文本引导的动态视觉信息过滤和部件级对齐网络，包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块；

步骤1-1：所述基本图文特征提取模块包括语义特征提取支路和图像特征提取支路；

所述语义特征提取支路使用经过文本数据预训练的BERT网络，对于每个文本输入，在每个描述的开头添加一个特殊分类标记，将特殊分类标记经过BERT模型处理后，将BERT模型最终输出中的隐藏状态用作该描述的整体特征表示；

所述图像特征提取支路，使用ResNet50在ImageNet上预训练后作为基准网络Backbone，用于提取行人图像特征移除图像特征提取支路中的最后一个下采样操作，用于增加特征图的空间尺度，模型输出的特征图的大小设定为(C,H,W)，其中C和(H,W)分别表示通道维度和特征映射大小；

步骤1-2：所述行人无关视觉内容过滤模块包括Transformer编码器层和原型引导的注意力模块；

步骤1-2-1：所述Transformer编码器层利用特征向量之间的相关性增强视觉特征，它包括一个多头自注意力机制和一个前馈网络；首先将上述Transformer编码器层提取的特征展平为H*W个视觉特征向量，作为Transformer编码器层的输入，然后H*W个视觉特征向量分别通过一个全连接层计算每个视觉特征向量的query向量、key向量和value向量：

q_i＝W_qv_i,k_j＝W_kv_j,value_j＝W_vv_j

其中，q_i为query向量中的分量，v_i为value向量中的分量，k_j为key向量向量中的分量，W_q、W_k、W_v分别为权重矩阵；

利用每两个视觉特征向量的query向量和key向量之间的相似性s_i,j作为注意力的权重a_i,j：

其中d_k为query向量和key向量的通道维度；

计算加权的视觉特征向量，如下：

将加权得到的视觉特征向量经过层正则项后，输入到两层全连接层的前馈网络中，得到增强的视觉特征；

步骤1-2-2：所述原型引导的注意力模块包括原型向量的构造和更新及基于原型的跨模态注意力机制；首先构造一个可学习的原型向量，它的维度与视觉特征向量的维度一致；为了使得这个原型向量包含所有文本描述的行人语义知识，在原型向量和步骤1-2-1提取的文本特征向量之间设计相似性损失函数L_SM，通过一个全连接层计算Transformer编码器层产生的视觉特征向量的key向量和value向量，原型向量和视觉特征向量之间的相似性作为跨模态注意力机制的权重，并计算最终的视觉特征向量作为语义显著的视觉信息，实现将行人内容从视觉噪音中分离出来，最终所述原型引导的注意力模块将生成强化后的视觉特征V_original；

步骤1-3：所述行人模态动态自进化模块中，利用文字描述引导图像级部件掩码自主进化，包括视觉掩码过滤器和文本掩码过滤器；

行人模态动态自进化模块的输入为步骤1-2-2中基于原型引导的注意力模块生成的强化后的视觉特征V_original，将V_original在H维度上平均分为k个局部视觉特征，大小表示为(C，H/k，W)，将每个局部特征分别先平均池化，然后再分别通过多个不共享参数的全连接层，生成局部视觉特征V_part；同时，V_original通过一个全连接层得到全局特征V_global；其中，在每个局部视觉特征和全局特征后插入身份分类损失函数以提取与行人身份相关的显著性特征；此后，将步骤1-2-1提取的文本特征引导局部视觉特征V_part和全局视觉特征进行动态自主进化，得到最终视觉特征V_final，计算过程见下式：

其中，V_global表示全局视觉特征，表示第i个水平条带区域的部分级别视觉特征，αⁱ是文本引导的第i个视觉水平条带区域对应的权重得分，i＝1，2，...，k；

步骤2：使用基于文本的行人检索任务的数据集训练文本引导的动态视觉信息过滤和部件级对齐网络，设置训练超参数，使用Adam优化器完成训练；

测试网络时，使用余弦相似度作为相似度的评估指标对文本特征向量和最终视觉特征进行距离计算；

步骤3：组合上述步骤建立的各模块，输入描述和待检索的行人图像，根据相似性对图像进行排序，若给出的查询结果与实际行人ID相同，则判定查询成功。

优选地，所述C，H，W和k分别设定为2048、24、8和6。

优选地，训练时学习率设定为1.1×10^-4，迭代轮次为60，λ＝0.1。

优选地，所述相似性损失函数L_SM表示为：

其中P表示原型向量，表示第i个描述的文本特征向量，N表示批处理量，w和b表示处理文本特征向量的全连接层的参数。

本发明的有益效果如下：

本发明利用文本引导的动态视觉信息过滤和部件级对齐网络，可以有效地依据文本信息对行人图像的视觉特征进行动态的关注，既能排除与描述无关的视觉内容，又能关注语义对齐却不一致的视觉特征，从而动态自适应地捕捉与描述对齐的视觉表示，有助于计算正确的文本-图像相似度，从而进一步提高基于描述的行人图像检索任务的准确率。特别地，在国际基准数据集CUHK-pedestrians上达到了64.64％的rank-1精度，是截至目前国际上最高的精度。

附图说明

图1为跨模态信息不对等的对比图示。

图2为本发明实施方法的文本引导的动态视觉信息过滤和部件级对齐网络结构示意图。

图3为本发明跨模态部件级信息匹配图解。

图4为本发明进行基于文本的行人检索的结果。

图5为本发明具体实施例图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

为了解决上述图像和描述之间信息不对等的问题，本发明提供了一种文本引导的动态视觉信息过滤和部件级对齐的目标检索方法，其结构如图2所示；

本发明的主要结构可以分为三个功能模块：基本图文特征提取模块，行人无关视觉内容过滤模块和行人模态动态自进化模块。具体来说，在基本图文特征提取模块中，使用一个视觉卷积神经网络和一个语言处理模型来提取图像和描述的基本特征。此后，在行人无关视觉内容过滤模块中，采用了一个Transformer编码器层负责细粒度的像素级视觉特征增强，采用基于原型引导的注意力层分别和从增强后的视觉特征中过滤与行人无关的噪声。在基于原型引导的注意力层中，使用一个可训练的原型向量学习行人知识，指导模块抑制行人无关噪声，利用文字描述引导模块提取行人图像的关键特征。最后，在行人模态动态自进化模块中，利用文字级查询描述引导图像级部件掩码，利用掩码描述对各个行人部件的强调程度，利用文字描述引导图像级部件掩码自主进化，可以集中于描述偏向的图像模态特征，以进行详细的部件级对齐和匹配。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：构建文本引导的动态视觉信息过滤和部件级对齐网络，网络框架图如图2所示；主要包括基本图文特征提取模块，行人无关视觉内容过滤模块和行人模态动态自进化模块；

所述语义特征提取支路使用在大量文本数据上预训练的BERT网络，对于每个文本输入，在每个描述的开头添加一个特殊的分类标记([CLS])，将其经过BERT模型处理后，其最终的模型输出中的隐藏状态(Hidden State)被用作该描述的整体特征表示；

所述图像特征提取支路，使用ResNet50在ImageNet上预训练后作为基准网络(Backbone)，用于提取行人图像特征；特别地，我们移除图像特征提取网络中的最后一个下采样操作，以增加特征图的空间尺度，模型输出的特征图的大小设定为(C,H,W)，其中C和(H,W)分别表示通道维度和特征映射大小。

步骤1-2-1：所述Transformer编码器层利用特征向量之间的相关性增强视觉特征，它包括一个多头自注意力机制(multi-head self-attention)和一个前馈网络(feed-forward network)。首先将上述视觉特征网络提取的特征展平为H*W个特征向量，作为编码器的输入，然后分别通过一个全连接层计算每个特征向量的query，key和value向量，之后利用每两个向量的query和key向量之间的相似性s_i,j作为注意力的权重a_i,j，根据权重计算加权的视觉特征向量。最后，将加权得到的视觉特征向量经过层正则项后，输入到两层全连接层的前馈网络中，得到增强的视觉特征。

步骤1-2-2：所述原型引导的注意力模块致力于利用一个可学习的原型向量学习所有语言描述中的行人语义信息并以此为引导关注图像中行人相关的视觉信息，它包括原型向量的构造和更新及基于原型的跨模态注意力机制。首先构造一个可学习的原型向量，它的维度与视觉特征向量的维度一致。为了使得这个原型向量包含所有文本描述的行人语义知识，在原型向量和所有的文本特征向量之间设计一个相似性损失函数L_SM。之后，分别通过一个全连接层去计算编码器产生的视觉特征向量的key和value向量，原型向量和视觉特征向量之间的相似性作为跨模态注意力机制的权重，并计算最终的视觉特征向量作为语义显著的视觉信息，实现将行人内容从视觉噪音中分离出来。

步骤1-3：所述行人模态动态自进化模块利用文字描述引导图像级部件掩码自主进化，可以集中于描述偏向的图像模态特征。

本模块的输入为1-2-2中基于原型引导的注意力模块生成的强化的全局视觉特征V_original，将V_original在H维度上平均分为k个局部特征，大小表示为(C,H/k,W)，将每个局部特征分别先平均池化，然后再分别通过多个不共享参数的全连接层，生成局部视觉特征V_part。同时，V_original通过一个全连接层得到全局特征V_global；其中，在每个局部视觉特征V_part和全局特征V_global后插入身份分类损失函数以提取与行人身份相关的显著性特征。此后，将局部级别视觉特征与基于文本的过滤器生成器输出的结果进行融合，融合的结果与全局视觉特征再进行计算，得到文本描述引导的增强视觉特征V_final，以进行详细的部件级对齐和匹配。如图2所示为跨模态部件级信息匹配图解。

步骤2：使用基于文本的行人检索任务的数据集训练网络，设置训练超参数，使用Adam优化器完成训练；

步骤3：组合上述步骤建立的各模块，输入描述和待检索的行人图像，根据相似性对图像进行排序，若给出的查询结果与实际行人ID相同，则认为查询成功。如图4所示。

具体实施例：

本发明提供了一种文本引导的动态视觉信息过滤和部件级的描述-行人图像检索方法，该方法能够利用文本引导模型提取行人相关信息，过滤掉行人无关噪声，动态地提取对齐的视觉特征，引导模型集中于偏向描述的跨模态局部细粒度特征对齐，进一步优化基于描述的行人图像检索的性能。

图5展示了使用本发明方法进行基于描述的行人图像检索的两个例子。基于原型引导的注意力层可以全面地捕捉正、负图像样例中语义显著的视觉区域，这些视觉内容是在行人描述数据集中经常被提及的；由文本引导生成的过滤器可以根据每个描述动态地关注被提及到的视觉区域，而忽略没有被提到的区域，该图像受关注的视觉内容。该发明方法利用文本引导模型提取行人相关信息，过滤掉行人无关噪声，动态自适应地引导模型集中于偏向描述的跨模态局部细粒度特征对齐，为跨模态匹配和检索提供了重要基础和有利条件。

Claims

1.一种基于动态自进化信息抽取和对齐的文本-目标检索方法，其特征在于，包括如下步骤：

所述图像特征提取支路，使用ResNet50在ImageNet上预训练后作为基准网络Backbone，用于提取行人图像特征移除图像特征提取支路中的最后一个下采样操作，用于增加特征图的空间尺度，模型输出的特征图的大小设定为(C，H，W)，其中C和(H，W)分别表示通道维度和特征映射大小；

q_i＝W_qv_i，k_j＝W_kv_j，value_j＝W_vv_j

利用每两个视觉特征向量的query向量和key向量之间的相似性s_i，j作为注意力的权重a_i，j：

其中d_k为query向量和key向量的通道维度；

计算加权的视觉特征向量，如下：

2.根据权利要求1所述的一种基于动态自进化信息抽取和对齐的文本-目标检索方法，其特征在于，所述C，H，W和k分别设定为2048、24、8和6。

3.根据权利要求1所述的一种基于动态自进化信息抽取和对齐的文本-目标检索方法，其特征在于，训练时学习率设定为1.1×10^-4，迭代轮次为60，λ＝0.1。

4.根据权利要求1所述的一种基于动态自进化信息抽取和对齐的文本-目标检索方法，其特征在于，所述相似性损失函数L_SM表示为：