CN117727069A

CN117727069A - 基于多尺度信息交互网络的文本-图像行人重识别方法

Info

Publication number: CN117727069A
Application number: CN202311751530.5A
Authority: CN
Inventors: 孙锐; 杜云; 陈龙; 黄国熙; 王学斌; 张旭东
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-03-19

Abstract

本发明公开一种基于多尺度信息交互网络的文本‑图像行人重识别方法，其步骤包括：1、收集成对的文本描述和行人图像并进行统一的预处理，获取跨模态行人重识别数据集；2、构建多尺度信息交互网络包括：双路径图像‑文本特征提取网络，基于注意力的隐式多尺度特征更新网络，基于多元注意力交互机制的跨模态特征联合网络；3、采用联合跨模态投影匹配损失、身份损失和多样性损失来训练优化网络模型，得到最优多尺度信息交互模型，用于对输入的待检测的文本进行图像匹配，并输出对应的目标行人图像。本发明充分利用两种模态的细粒度信息，缩小模态之间的差距，提高文本‑图像行人重识别的准确率。

Description

基于多尺度信息交互网络的文本-图像行人重识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于多尺度信息交互网络的文本-图像行人重识别方法。

背景技术

文本-图像行人重识别是智能视频监控中的一项任务，用于在多个相机中查询目标行人。传统方法忽略了无法获取行人图像的复杂或特殊场景，如偏远道路或遮挡情况。为解决此问题，可利用目击者提供的语言描述进行搜索，即文本-图像行人重识别。该方法通过比较查询文本与图像的相似度，对大型图像库中的人物图像进行排序，并选择排名靠前的图像作为匹配项。由于使用文本描述作为查询更简单自然，文本-图像行人重识别具有广阔的应用前景。文本-图像行人重识别是一项具有挑战性的任务。在处理过程中，图像可能存在遮挡、背景杂波和姿态干扰等问题，而文本描述的任意顺序和歧义性会增加特征对齐的不确定性。近些年，人们主要使用两种方法来缩小图文之间的模态差距：全局匹配方法和局部匹配方法。全局匹配方法既无法充分挖掘图像中的局部细节，又缺乏中间层的充分跨模态交互。局部匹配方法复杂度高，极有可能会破坏图像和文本的上下文信息或者引入噪声，进而影响图像和文本特征的对齐结果，同时又因为需要较大的计算量，局部匹配方法中的信息交互不可避免地会降低推理效率，难以在实际应用中实现。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于多尺度信息交互网络的文本-图像行人重识别方法，以期能挖掘细粒度的有效匹配信息，以缩小模态之间的差距，从而提高文本-图像行人重识别的准确率。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于多尺度信息交互网络的文本-图像行人重识别方法的特点在于，包括以下步骤：

步骤1、收集成对的文本描述和行人图像并进行统一的预处理，获取跨模态行人重识别数据集；

步骤1.1、用不同规格的相机分别采集处于不同的场景、视点下的若干个行人图像，得到行人图像数据集I＝{I₁,I₂,...,I_n,...,I_N}，其中，I_n表示第n张行人图像，N为行人图像数据集I中行人图像的总数；

步骤1.2、生成行人图像数据集I中行人图像对应的文本描述，从而得到文本数据集T＝{T₁,T₂,...,T_n,...,T_N}；其中，T_n表示第n张行人图像I_n对应的文本描述；

步骤2、构建多尺度信息交互网络包括：双路径图像-文本特征提取网络，基于注意力的隐式多尺度特征更新网络，基于多元注意力交互机制的跨模态特征联合网络；

步骤2.1、所述双路径图像-文本特征提取网络使用ViT图像编码器从I_n中提取初级特征，得到视觉特征V_n＝{v_n,g,v_n,1,v_n,2,...,v_n,k,...,v_n,K}，并使用Transformer文本编码器从T_n中提取初级特征，得到文本特征T_n＝{t_n,g,t_n,1,t_n,2,...,t_n,l,...,t_n,L}，其中，v_n,g是I_n的全局视觉特征，v_n,k是I_n中第k个补丁的局部特征，t_n,g是T_n的全局文本特征，t_n,l是T_n的第l个文本局部特征；K表示网格状补丁的数量，L表示文本特征的固定长度，当文本特征的长度大于L时，选择前L个单词；当文本特征的长度小于L时，在文本特征的末尾进行零填充；

步骤2.2、所述基于注意力的隐式多尺度特征更新网络由前景增强判别器模块、随机语言掩码模块和语义一致特征金字塔网络构成；

步骤2.2.1、所述前景增强判别器模块对V_n进行处理，得到增强后的映射特征

步骤2.2.2、随机语言掩码模块以Δ％的概率用掩码符号“[MASK]”对T_n进行随机屏蔽，得到文本映射特征其中，Δ表示阈值；

步骤2.2.3、所述语义一致特征金字塔网络使用卷积对进行降采样后，得到2R层不同尺度的特征图；接着将相邻两个尺度的特征图中的高分辨率特征图进行降采样处理，得到的降采样后的高分辨率特征图再与另一个尺度的低分辨率特征图进行交叉融合，得到R个经过交叉融合的特征图；随后对R个特征图进行相同处理，将高分辨率特征图进行降采样处理后，与对应的低分辨率特征图进行两两交叉融合，最终得到一个包含丰富的局部和全局信息的图像特征/>

步骤2.3、基于多元交互注意力机制的跨模态特征联合网络使用受多样性损失约束的多头注意模块、交叉注意力模块对和/>进行处理，得到图像表示/>和文本表示/>以实现图像-文本对齐；

步骤3、采用联合跨模态投影匹配损失L_CMPM、身份损失L_nd(f_n ^v)和多样性损失L_div来构建总的损失函数L_total，并基于I和T，使用Adam优化策略对多尺度信息交互网络进行训练，直至总的损失函数L_total收敛为止，得到最优多尺度信息交互模型，用于对输入的待检测的文本进行图像匹配，并输出对应的目标行人图像。

本发明所述的基于多尺度信息交互网络的文本-图像行人重识别方法的特点也在于，所述前景增强判别器模块由空间引导定位模块和通道去噪模块组成；

所述空间引导定位模块对V_n分别进行最大池化和平均池化操作，并将两个操作的结果串联后，再通过一个卷积层和Sigmoid激活函数的处理，从而得到空间权重系数A_n,SGL；再将V_n与A_n,SGL进行逐元素相乘，得到增强后的映射特征

所述通道去噪模块对依次进行全局最大池化和全局平均池化操作后，再将得到的特征向量分别送入共享的两层神经网络中进行处理，将得到的两个结果相加后，再经过一个Sigm oid激活函数的处理，得到通道权重系数A_n,CDM；最后将/>与A_n,CDM进行逐元素相乘后，得到增强后的映射特征/>

所述步骤2.3包括：

步骤2.3.1、所述多头注意模块利用Patch Embedding操作将转换成一维序列矩阵/>并利用式(1)所示的线性投影计算，得到M个注意力头中第m个注意力头的图像查询向量/>图像键向量/>和图像值向量/>

式(1)中，表示第m个注意力头的待训练的3个参数矩阵，d表示掩码令牌的嵌入维度；

步骤2.3.2、所述多头注意模块利用Linear操作将转换成一维序列矩阵/>并利用式(1)得到M个注意力头中第m个注意力头的文本查询向量/>文本键向量/>和文本值向量/>

步骤2.3.3、所述交叉注意力模块利用式(2)获取M个注意力头中第m个注意力头的图像注意力图和文本注意力图/>

式(2)中，d_K表示向量的维度；T表示转置；

所述交叉注意力模块利用式(3)分别得到M个注意力头的图像注意力图和文本注意力图/>

式(3)中，cat表示拼接；

步骤2.3.4、所述交叉注意力模块利用Transformer的前馈网络对和/>进行处理，得到最终的图像表示/>和文本表示/>

所述步骤3中的总的损失函数L_total是按如下步骤得到：

步骤3.1、利用式(4)构建从图像到文本的跨模态投影匹配损失

式(4)中，f_i ^t表示第i张行人图像I_i对应的文本描述T_i经过多尺度信息交互网络后得到的最终的文本表示；p_n,i表示和f_i ^t为匹配对的预测概率，ε是一个参数，q_n,i表示/>和f_i ^t为匹配对的真实概率；y_n,i是/>和f_i ^t为匹配对的真实匹配标签；/>表示f_i ^t经过标准化后的文本特征；/>表示将/>投影到/>上；

步骤3.2、利用式(4)构建从文本到图像的跨模态投影匹配损失从而将与/>相加得到跨模态投影匹配损失L_CMPM；

步骤3.3、利用式(5)构建身份损失L_nd(f_n ^v)；

L_nd(f_n ^v)＝-log(softmax(W_nd×GN(f_n ^v))) (5)

式(5)中，GN(f_n ^v)表示对f_n ^v进行全局归一化后的结果，W_nd表示第n个行人的权重向量；

步骤3.4、利用式(6)构建多样性损失L_div；

步骤3.4、利用式(7)构建总的损失函数L_total；

L_total＝L_CMPM+L_div+L_id (7)。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述文本-图像行人重识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述文本-图像行人重识别方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明在使用基于注意力的隐式多尺度特征更新网络对初级图像和文本特征进行处理，去除图像中多余的背景和环境信息，增加了文本特征的多样性，并且自适应地调整不同尺度特征图之间的权重，将图像中的细节与整体特征有效融合，显著提升了图像和文本表示的表达能力。

2、本发明设计了一种多元交互注意力机制，能够有效地捕捉到不同视觉特征和文本信息之间的交互关系，使用文本特征辅助优化视觉特征，促进视觉特征学习到更多与文本特征互补的细节信息，缩小了模态间差距，从而实现了隐式多尺度对齐。

3、本发明联合跨模态投影匹配损失、身份损失和多样性损失，优化训练文本-图像行人重识别模型，拉近匹配的图像和文本表示之间距离，并使不同尺度的特征聚焦于不一样的信息，实现了基于语义中心的隐式多尺度对齐。

附图说明

图1为本发明的文本-图像行人重识别方法的流程图；

图2为本发明的基于多尺度信息交互网络流程图。

具体实施方式

本实施例中，一种基于多尺度信息交互网络的文本-图像行人重识别方法，是先收集成对的文本描述和行人图像并进行统一的预处理，获取跨模态行人重识别数据集；然后构建多尺度信息交互网络包括：双路径图像-文本特征提取网络，基于注意力的隐式多尺度特征更新网络，基于多元注意力交互机制的跨模态特征联合网络；最后采用联合跨模态投影匹配损失、身份损失和多样性损失来训练优化网络模型，得到最优多尺度信息交互模型，用于对输入的待检测的文本进行图像匹配，并输出对应的目标行人图像。具体地说，如图1所示，是按如下步骤进行：

本实施例中，文本-图像行人数据集为CUHK-PEDES，该数据集包含了40206幅图像和80412个文本描述，用于13003个身份。按照官方数据分割方法，训练集由11003个身份、34054个图像和68108个文本描述组成。验证集包含3078张图像和6156个文本描述，测试集包含3074张图像和6148个文本描述；

步骤2、如图2所示，构建多尺度信息交互网络包括：双路径图像-文本特征提取网络，基于注意力的隐式多尺度特征更新网络，基于多元注意力交互机制的跨模态特征联合网络；

步骤2.1、双路径图像-文本特征提取网络使用ViT图像编码器从I_n中提取初级特征，得到视觉特征V_n＝{v_n,g,v_n,1,v_n,2,...,v_n,k,...,v_n,K}，并使用Transformer文本编码器从T_n中提取初级特征，得到文本特征T_n＝{t_n,g,t_n,1,t_n,2,...,t_n,l,...,t_n,L}，其中，v_n,g是I_n的全局视觉特征，v_n,k是I_n中第k个补丁的局部特征，t_n,g是T_n的全局文本特征，t_n,l是T_n的第l个文本局部特征；K表示网格状补丁的数量，L表示文本特征的固定长度，当文本特征的长度大于L时，选择前L个单词；当文本特征的长度小于L时，在文本特征的末尾进行零填充。

本实施例中，使用图像编码器ViT提取视觉特征，所有输入图像的大小均调整为384×128，将I拆分成K＝H×W/P²个固定大小的网格状补丁序列，其中P表示块的大小。然后通过可训练的线性投影将补丁序列映射到d维嵌入，并将可学习的[CLS]令牌附加到序列的开始以学习全局表示。在训练过程中采用随机水平翻转、随机填充裁剪和随机擦除等方法增强图像数据。使用文本编码器Transformer提取文本特征，文本特征的固定长度设置为L＝100，接着将文本序列线性投影到d维嵌入，在开始处用[CLS]令牌填充文本序列。嵌入维度设置为d＝768。

步骤2.2、基于注意力的隐式多尺度特征更新网络由前景增强判别器模块、随机语言掩码模块和语义一致特征金字塔网络构成；

步骤2.2.1、前景增强判别器模块由空间引导定位模块和通道去噪模块组成；

空间引导定位模块对V_n分别进行最大池化和平均池化操作，并将两个操作的结果串联后，再通过一个卷积层和Sigmoid激活函数的处理，从而得到空间权重系数A_n,SGL；再将V_n与A_n,SGL进行逐元素相乘，得到增强后的映射特征

通道去噪模块对依次进行全局最大池化和全局平均池化操作后，再将得到的特征向量分别送入共享的两层神经网络中进行处理，将得到的两个结果相加后，再经过一个Sigmoid激活函数的处理，得到通道权重系数A_n,CDM；最后将/>与A_n,CDM进行逐元素相乘后，得到增强后的映射特征/>

步骤2.2.3、语义一致特征金字塔网络使用卷积对进行降采样后，得到2R层不同尺度的特征图；接着将相邻两个尺度的特征图中的高分辨率特征图进行降采样处理，得到的降采样后的高分辨率特征图再与另一个尺度的低分辨率特征图进行交叉融合，得到R个经过交叉融合的特征图；随后对R个特征图进行相同处理，将高分辨率特征图进行降采样处理后，与对应的低分辨率特征图进行两两交叉融合，最终得到一个包含丰富的局部和全局信息的图像特征/>

步骤2.3、基于多元交互注意力机制的跨模态特征联合网络使用受多样性损失约束的多头注意模块、交叉注意力模块实现图像-文本对齐；

步骤2.3.1、多头注意模块利用Patch Embedding操作将转换成一维序列矩阵并利用式(1)所示的线性投影计算，得到M个注意力头中第m个注意力头的图像查询向量图像键向量/>和图像值向量/>

式(1)中，表示第m个注意力头的待训练的3个参数矩阵，d表示掩码令牌的嵌入维度。

步骤2.3.2、多头注意模块利用Linear操作将转换成一维序列矩阵/>并利用式(1)得到M个注意力头中第m个注意力头的文本查询向量/>文本键向量/>和文本值向量/>

步骤2.3.3、交叉注意力模块利用式(2)获取M个注意力头中第m个注意力头的图像注意力图和文本注意力图/>

式(2)中，d_K表示向量的维度；T表示转置。

交叉注意力模块利用式(3)分别得到M个注意力头的图像注意力图和文本注意力图/>

式(3)中，cat表示拼接。

步骤2.3.4、交叉注意力模块利用Transformer的前馈网络对和/>进行处理，得到最终的图像表示/>和文本表示/>

步骤3、采用联合跨模态投影匹配损失、身份损失和多样性损失来训练优化网络模型，得到最优多尺度信息交互模型，用于对输入的待检测的文本进行图像匹配，并输出对应的目标行人图像；

步骤3.1、利用式(4)构建从图像到文本的跨模态投影匹配损失

步骤3.3、利用式(5)构建身份损失；

L_nd(f_n ^v)＝-log(softmax(W_nd×GN(f_n ^v))) (5)

步骤3.4、利用式(6)构建多样性损失L_div；

步骤3.4、利用式(7)构建总的损失函数L_total；

L_total＝L_CMPM+L_div+L_id (7)

步骤3.5、基于I和T，使用Adam优化策略对多尺度信息交互网络进行训练，直至总的损失函数L_total收敛为止，得到最优多尺度信息交互模型，用于对输入的待检测的文本进行图像匹配，并输出对应的目标行人图像。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

Claims

1.一种基于多尺度信息交互网络的文本-图像行人重识别方法，其特征在于，包括以下步骤：

步骤2.1、所述双路径图像-文本特征提取网络使用ViT图像编码器从I_n中提取初级特征，得到视觉特征V_n＝{v_n,g,v_n,1,v_n,2,...,v_n,k,...,v_n,K}，并使用Transformer文本编码器从Tn中提取初级特征，得到文本特征T_n＝{t_n,g,t_n,1,t_n,2,...,t_n,l,...,t_n,L}，其中，v_n,g是I_n的全局视觉特征，v_n,k是I_n中第k个补丁的局部特征，t_n,g是T_n的全局文本特征，t_n,l是T_n的第l个文本局部特征；K表示网格状补丁的数量，L表示文本特征的固定长度，当文本特征的长度大于L时，选择前L个单词；当文本特征的长度小于L时，在文本特征的末尾进行零填充；

步骤2.2.3、所述语义一致特征金字塔网络使用卷积对进行降采样后，得到2R层不同尺度的特征图；接着将相邻两个尺度的特征图中的高分辨率特征图进行降采样处理，得到的降采样后的高分辨率特征图再与另一个尺度的低分辨率特征图进行交叉融合，得到R个经过交叉融合的特征图；随后对R个特征图进行相同处理，将高分辨率特征图进行降采样处理后，

与对应的低分辨率特征图进行两两交叉融合，最终得到一个包含丰富的局部和全局信息的图像特征

步骤3、采用联合跨模态投影匹配损失L_CMPM、身份损失和多样性损失L_div来构建总的损失函数L_total，并基于I和T，使用Adam优化策略对多尺度信息交互网络进行训练，直至总的损失函数L_total收敛为止，得到最优多尺度信息交互模型，用于对输入的待检测的文本进行图像匹配，并输出对应的目标行人图像。

2.根据权利要求1所述的基于多尺度信息交互网络的文本-图像行人重识别方法，其特征在于，所述前景增强判别器模块由空间引导定位模块和通道去噪模块组成；

所述通道去噪模块对依次进行全局最大池化和全局平均池化操作后，再将得到的特征向量分别送入共享的两层神经网络中进行处理，将得到的两个结果相加后，再经过一个Sigmoid激活函数的处理，得到通道权重系数A_n,CDM；最后将/>与A_n,CDM进行逐元素相乘后，得到增强后的映射特征/>

3.根据权利要求2所述的基于多尺度信息交互网络的文本-图像行人重识别方法，其特征在于，所述步骤2.3包括：

步骤2.3.1、所述多头注意模块利用Patch Embedding操作将转换成一维序列矩阵并利用式(1)所示的线性投影计算，得到M个注意力头中第m个注意力头的图像查询向量图像键向量/>和图像值向量/>

步骤2.3.2、所述多头注意模块利用Linear操作将转换成一维序列矩阵/>并利用式(1)得到M个注意力头中第m个注意力头的文本查询向量/>文本键向量/>和文本值向量

式(2)中，d_K表示向量的维度；T表示转置；

式(3)中，cat表示拼接；

4.根据权利要求3所述的基于多尺度信息交互网络的文本-图像行人重识别方法，其特征在于，所述步骤3中的总的损失函数L_total是按如下步骤得到：

步骤3.1、利用式(4)构建从图像到文本的跨模态投影匹配损失

步骤3.2、利用式(4)构建从文本到图像的跨模态投影匹配损失从而将/>与相加得到跨模态投影匹配损失L_CMPM；

步骤3.3、利用式(5)构建身份损失L_nd(f_n ^v)；

步骤3.4、利用式(6)构建多样性损失L_div；

步骤3.4、利用式(7)构建总的损失函数L_total；

L_total＝L_CMPM+L_div+L_id (7)。

5.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-4中任一所述文本-图像行人重识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-4中任一所述文本-图像行人重识别方法的步骤。