CN117727069A - 基于多尺度信息交互网络的文本-图像行人重识别方法 - Google Patents
基于多尺度信息交互网络的文本-图像行人重识别方法 Download PDFInfo
- Publication number
- CN117727069A CN117727069A CN202311751530.5A CN202311751530A CN117727069A CN 117727069 A CN117727069 A CN 117727069A CN 202311751530 A CN202311751530 A CN 202311751530A CN 117727069 A CN117727069 A CN 117727069A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- pedestrian
- feature
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000009977 dual effect Effects 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000010276 construction Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 241000282326 Felis catus Species 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 2
- 208000032538 Depersonalisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种基于多尺度信息交互网络的文本‑图像行人重识别方法,其步骤包括:1、收集成对的文本描述和行人图像并进行统一的预处理,获取跨模态行人重识别数据集;2、构建多尺度信息交互网络包括:双路径图像‑文本特征提取网络,基于注意力的隐式多尺度特征更新网络,基于多元注意力交互机制的跨模态特征联合网络;3、采用联合跨模态投影匹配损失、身份损失和多样性损失来训练优化网络模型,得到最优多尺度信息交互模型,用于对输入的待检测的文本进行图像匹配,并输出对应的目标行人图像。本发明充分利用两种模态的细粒度信息,缩小模态之间的差距,提高文本‑图像行人重识别的准确率。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于多尺度信息交互网络的文本-图像行人重识别方法。
背景技术
文本-图像行人重识别是智能视频监控中的一项任务,用于在多个相机中查询目标行人。传统方法忽略了无法获取行人图像的复杂或特殊场景,如偏远道路或遮挡情况。为解决此问题,可利用目击者提供的语言描述进行搜索,即文本-图像行人重识别。该方法通过比较查询文本与图像的相似度,对大型图像库中的人物图像进行排序,并选择排名靠前的图像作为匹配项。由于使用文本描述作为查询更简单自然,文本-图像行人重识别具有广阔的应用前景。文本-图像行人重识别是一项具有挑战性的任务。在处理过程中,图像可能存在遮挡、背景杂波和姿态干扰等问题,而文本描述的任意顺序和歧义性会增加特征对齐的不确定性。近些年,人们主要使用两种方法来缩小图文之间的模态差距:全局匹配方法和局部匹配方法。全局匹配方法既无法充分挖掘图像中的局部细节,又缺乏中间层的充分跨模态交互。局部匹配方法复杂度高,极有可能会破坏图像和文本的上下文信息或者引入噪声,进而影响图像和文本特征的对齐结果,同时又因为需要较大的计算量,局部匹配方法中的信息交互不可避免地会降低推理效率,难以在实际应用中实现。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于多尺度信息交互网络的文本-图像行人重识别方法,以期能挖掘细粒度的有效匹配信息,以缩小模态之间的差距,从而提高文本-图像行人重识别的准确率。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于多尺度信息交互网络的文本-图像行人重识别方法的特点在于,包括以下步骤:
步骤1、收集成对的文本描述和行人图像并进行统一的预处理,获取跨模态行人重识别数据集;
步骤1.1、用不同规格的相机分别采集处于不同的场景、视点下的若干个行人图像,得到行人图像数据集I={I1,I2,...,In,...,IN},其中,In表示第n张行人图像,N为行人图像数据集I中行人图像的总数;
步骤1.2、生成行人图像数据集I中行人图像对应的文本描述,从而得到文本数据集T={T1,T2,...,Tn,...,TN};其中,Tn表示第n张行人图像In对应的文本描述;
步骤2、构建多尺度信息交互网络包括:双路径图像-文本特征提取网络,基于注意力的隐式多尺度特征更新网络,基于多元注意力交互机制的跨模态特征联合网络;
步骤2.1、所述双路径图像-文本特征提取网络使用ViT图像编码器从In中提取初级特征,得到视觉特征Vn={vn,g,vn,1,vn,2,...,vn,k,...,vn,K},并使用Transformer文本编码器从Tn中提取初级特征,得到文本特征Tn={tn,g,tn,1,tn,2,...,tn,l,...,tn,L},其中,vn,g是In的全局视觉特征,vn,k是In中第k个补丁的局部特征,tn,g是Tn的全局文本特征,tn,l是Tn的第l个文本局部特征;K表示网格状补丁的数量,L表示文本特征的固定长度,当文本特征的长度大于L时,选择前L个单词;当文本特征的长度小于L时,在文本特征的末尾进行零填充;
步骤2.2、所述基于注意力的隐式多尺度特征更新网络由前景增强判别器模块、随机语言掩码模块和语义一致特征金字塔网络构成;
步骤2.2.1、所述前景增强判别器模块对Vn进行处理,得到增强后的映射特征
步骤2.2.2、随机语言掩码模块以Δ%的概率用掩码符号“[MASK]”对Tn进行随机屏蔽,得到文本映射特征其中,Δ表示阈值;
步骤2.2.3、所述语义一致特征金字塔网络使用卷积对进行降采样后,得到2R层不同尺度的特征图;接着将相邻两个尺度的特征图中的高分辨率特征图进行降采样处理,得到的降采样后的高分辨率特征图再与另一个尺度的低分辨率特征图进行交叉融合,得到R个经过交叉融合的特征图;随后对R个特征图进行相同处理,将高分辨率特征图进行降采样处理后,与对应的低分辨率特征图进行两两交叉融合,最终得到一个包含丰富的局部和全局信息的图像特征/>
步骤2.3、基于多元交互注意力机制的跨模态特征联合网络使用受多样性损失约束的多头注意模块、交叉注意力模块对和/>进行处理,得到图像表示/>和文本表示/>以实现图像-文本对齐;
步骤3、采用联合跨模态投影匹配损失LCMPM、身份损失Lnd(fn v)和多样性损失Ldiv来构建总的损失函数Ltotal,并基于I和T,使用Adam优化策略对多尺度信息交互网络进行训练,直至总的损失函数Ltotal收敛为止,得到最优多尺度信息交互模型,用于对输入的待检测的文本进行图像匹配,并输出对应的目标行人图像。
本发明所述的基于多尺度信息交互网络的文本-图像行人重识别方法的特点也在于,所述前景增强判别器模块由空间引导定位模块和通道去噪模块组成;
所述空间引导定位模块对Vn分别进行最大池化和平均池化操作,并将两个操作的结果串联后,再通过一个卷积层和Sigmoid激活函数的处理,从而得到空间权重系数An,SGL;再将Vn与An,SGL进行逐元素相乘,得到增强后的映射特征
所述通道去噪模块对依次进行全局最大池化和全局平均池化操作后,再将得到的特征向量分别送入共享的两层神经网络中进行处理,将得到的两个结果相加后,再经过一个Sigm oid激活函数的处理,得到通道权重系数An,CDM;最后将/>与An,CDM进行逐元素相乘后,得到增强后的映射特征/>
所述步骤2.3包括:
步骤2.3.1、所述多头注意模块利用Patch Embedding操作将转换成一维序列矩阵/>并利用式(1)所示的线性投影计算,得到M个注意力头中第m个注意力头的图像查询向量/>图像键向量/>和图像值向量/>
式(1)中,表示第m个注意力头的待训练的3个参数矩阵,d表示掩码令牌的嵌入维度;
步骤2.3.2、所述多头注意模块利用Linear操作将转换成一维序列矩阵/>并利用式(1)得到M个注意力头中第m个注意力头的文本查询向量/>文本键向量/>和文本值向量/>
步骤2.3.3、所述交叉注意力模块利用式(2)获取M个注意力头中第m个注意力头的图像注意力图和文本注意力图/>
式(2)中,dK表示向量的维度;T表示转置;
所述交叉注意力模块利用式(3)分别得到M个注意力头的图像注意力图和文本注意力图/>
式(3)中,cat表示拼接;
步骤2.3.4、所述交叉注意力模块利用Transformer的前馈网络对和/>进行处理,得到最终的图像表示/>和文本表示/>
所述步骤3中的总的损失函数Ltotal是按如下步骤得到:
步骤3.1、利用式(4)构建从图像到文本的跨模态投影匹配损失
式(4)中,fi t表示第i张行人图像Ii对应的文本描述Ti经过多尺度信息交互网络后得到的最终的文本表示;pn,i表示和fi t为匹配对的预测概率,ε是一个参数,qn,i表示/>和fi t为匹配对的真实概率;yn,i是/>和fi t为匹配对的真实匹配标签;/>表示fi t经过标准化后的文本特征;/>表示将/>投影到/>上;
步骤3.2、利用式(4)构建从文本到图像的跨模态投影匹配损失从而将与/>相加得到跨模态投影匹配损失LCMPM;
步骤3.3、利用式(5)构建身份损失Lnd(fn v);
Lnd(fn v)=-log(softmax(Wnd×GN(fn v))) (5)
式(5)中,GN(fn v)表示对fn v进行全局归一化后的结果,Wnd表示第n个行人的权重向量;
步骤3.4、利用式(6)构建多样性损失Ldiv;
步骤3.4、利用式(7)构建总的损失函数Ltotal;
Ltotal=LCMPM+Ldiv+Lid (7)。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述文本-图像行人重识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述文本-图像行人重识别方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明在使用基于注意力的隐式多尺度特征更新网络对初级图像和文本特征进行处理,去除图像中多余的背景和环境信息,增加了文本特征的多样性,并且自适应地调整不同尺度特征图之间的权重,将图像中的细节与整体特征有效融合,显著提升了图像和文本表示的表达能力。
2、本发明设计了一种多元交互注意力机制,能够有效地捕捉到不同视觉特征和文本信息之间的交互关系,使用文本特征辅助优化视觉特征,促进视觉特征学习到更多与文本特征互补的细节信息,缩小了模态间差距,从而实现了隐式多尺度对齐。
3、本发明联合跨模态投影匹配损失、身份损失和多样性损失,优化训练文本-图像行人重识别模型,拉近匹配的图像和文本表示之间距离,并使不同尺度的特征聚焦于不一样的信息,实现了基于语义中心的隐式多尺度对齐。
附图说明
图1为本发明的文本-图像行人重识别方法的流程图;
图2为本发明的基于多尺度信息交互网络流程图。
具体实施方式
本实施例中,一种基于多尺度信息交互网络的文本-图像行人重识别方法,是先收集成对的文本描述和行人图像并进行统一的预处理,获取跨模态行人重识别数据集;然后构建多尺度信息交互网络包括:双路径图像-文本特征提取网络,基于注意力的隐式多尺度特征更新网络,基于多元注意力交互机制的跨模态特征联合网络;最后采用联合跨模态投影匹配损失、身份损失和多样性损失来训练优化网络模型,得到最优多尺度信息交互模型,用于对输入的待检测的文本进行图像匹配,并输出对应的目标行人图像。具体地说,如图1所示,是按如下步骤进行:
步骤1、收集成对的文本描述和行人图像并进行统一的预处理,获取跨模态行人重识别数据集;
步骤1.1、用不同规格的相机分别采集处于不同的场景、视点下的若干个行人图像,得到行人图像数据集I={I1,I2,...,In,...,IN},其中,In表示第n张行人图像,N为行人图像数据集I中行人图像的总数;
步骤1.2、生成行人图像数据集I中行人图像对应的文本描述,从而得到文本数据集T={T1,T2,...,Tn,...,TN};其中,Tn表示第n张行人图像In对应的文本描述;
本实施例中,文本-图像行人数据集为CUHK-PEDES,该数据集包含了40206幅图像和80412个文本描述,用于13003个身份。按照官方数据分割方法,训练集由11003个身份、34054个图像和68108个文本描述组成。验证集包含3078张图像和6156个文本描述,测试集包含3074张图像和6148个文本描述;
步骤2、如图2所示,构建多尺度信息交互网络包括:双路径图像-文本特征提取网络,基于注意力的隐式多尺度特征更新网络,基于多元注意力交互机制的跨模态特征联合网络;
步骤2.1、双路径图像-文本特征提取网络使用ViT图像编码器从In中提取初级特征,得到视觉特征Vn={vn,g,vn,1,vn,2,...,vn,k,...,vn,K},并使用Transformer文本编码器从Tn中提取初级特征,得到文本特征Tn={tn,g,tn,1,tn,2,...,tn,l,...,tn,L},其中,vn,g是In的全局视觉特征,vn,k是In中第k个补丁的局部特征,tn,g是Tn的全局文本特征,tn,l是Tn的第l个文本局部特征;K表示网格状补丁的数量,L表示文本特征的固定长度,当文本特征的长度大于L时,选择前L个单词;当文本特征的长度小于L时,在文本特征的末尾进行零填充。
本实施例中,使用图像编码器ViT提取视觉特征,所有输入图像的大小均调整为384×128,将I拆分成K=H×W/P2个固定大小的网格状补丁序列,其中P表示块的大小。然后通过可训练的线性投影将补丁序列映射到d维嵌入,并将可学习的[CLS]令牌附加到序列的开始以学习全局表示。在训练过程中采用随机水平翻转、随机填充裁剪和随机擦除等方法增强图像数据。使用文本编码器Transformer提取文本特征,文本特征的固定长度设置为L=100,接着将文本序列线性投影到d维嵌入,在开始处用[CLS]令牌填充文本序列。嵌入维度设置为d=768。
步骤2.2、基于注意力的隐式多尺度特征更新网络由前景增强判别器模块、随机语言掩码模块和语义一致特征金字塔网络构成;
步骤2.2.1、前景增强判别器模块由空间引导定位模块和通道去噪模块组成;
空间引导定位模块对Vn分别进行最大池化和平均池化操作,并将两个操作的结果串联后,再通过一个卷积层和Sigmoid激活函数的处理,从而得到空间权重系数An,SGL;再将Vn与An,SGL进行逐元素相乘,得到增强后的映射特征
通道去噪模块对依次进行全局最大池化和全局平均池化操作后,再将得到的特征向量分别送入共享的两层神经网络中进行处理,将得到的两个结果相加后,再经过一个Sigmoid激活函数的处理,得到通道权重系数An,CDM;最后将/>与An,CDM进行逐元素相乘后,得到增强后的映射特征/>
步骤2.2.2、随机语言掩码模块以Δ%的概率用掩码符号“[MASK]”对Tn进行随机屏蔽,得到文本映射特征其中,Δ表示阈值;
步骤2.2.3、语义一致特征金字塔网络使用卷积对进行降采样后,得到2R层不同尺度的特征图;接着将相邻两个尺度的特征图中的高分辨率特征图进行降采样处理,得到的降采样后的高分辨率特征图再与另一个尺度的低分辨率特征图进行交叉融合,得到R个经过交叉融合的特征图;随后对R个特征图进行相同处理,将高分辨率特征图进行降采样处理后,与对应的低分辨率特征图进行两两交叉融合,最终得到一个包含丰富的局部和全局信息的图像特征/>
步骤2.3、基于多元交互注意力机制的跨模态特征联合网络使用受多样性损失约束的多头注意模块、交叉注意力模块实现图像-文本对齐;
步骤2.3.1、多头注意模块利用Patch Embedding操作将转换成一维序列矩阵并利用式(1)所示的线性投影计算,得到M个注意力头中第m个注意力头的图像查询向量图像键向量/>和图像值向量/>
式(1)中,表示第m个注意力头的待训练的3个参数矩阵,d表示掩码令牌的嵌入维度。
步骤2.3.2、多头注意模块利用Linear操作将转换成一维序列矩阵/>并利用式(1)得到M个注意力头中第m个注意力头的文本查询向量/>文本键向量/>和文本值向量/>
步骤2.3.3、交叉注意力模块利用式(2)获取M个注意力头中第m个注意力头的图像注意力图和文本注意力图/>
式(2)中,dK表示向量的维度;T表示转置。
交叉注意力模块利用式(3)分别得到M个注意力头的图像注意力图和文本注意力图/>
式(3)中,cat表示拼接。
步骤2.3.4、交叉注意力模块利用Transformer的前馈网络对和/>进行处理,得到最终的图像表示/>和文本表示/>
步骤3、采用联合跨模态投影匹配损失、身份损失和多样性损失来训练优化网络模型,得到最优多尺度信息交互模型,用于对输入的待检测的文本进行图像匹配,并输出对应的目标行人图像;
步骤3.1、利用式(4)构建从图像到文本的跨模态投影匹配损失
式(4)中,fi t表示第i张行人图像Ii对应的文本描述Ti经过多尺度信息交互网络后得到的最终的文本表示;pn,i表示和fi t为匹配对的预测概率,ε是一个参数,qn,i表示/>和fi t为匹配对的真实概率;yn,i是/>和fi t为匹配对的真实匹配标签;/>表示fi t经过标准化后的文本特征;/>表示将/>投影到/>上;
步骤3.2、利用式(4)构建从文本到图像的跨模态投影匹配损失从而将与/>相加得到跨模态投影匹配损失LCMPM;
步骤3.3、利用式(5)构建身份损失;
Lnd(fn v)=-log(softmax(Wnd×GN(fn v))) (5)
式(5)中,GN(fn v)表示对fn v进行全局归一化后的结果,Wnd表示第n个行人的权重向量;
步骤3.4、利用式(6)构建多样性损失Ldiv;
步骤3.4、利用式(7)构建总的损失函数Ltotal;
Ltotal=LCMPM+Ldiv+Lid (7)
步骤3.5、基于I和T,使用Adam优化策略对多尺度信息交互网络进行训练,直至总的损失函数Ltotal收敛为止,得到最优多尺度信息交互模型,用于对输入的待检测的文本进行图像匹配,并输出对应的目标行人图像。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
Claims (6)
1.一种基于多尺度信息交互网络的文本-图像行人重识别方法,其特征在于,包括以下步骤:
步骤1、收集成对的文本描述和行人图像并进行统一的预处理,获取跨模态行人重识别数据集;
步骤1.1、用不同规格的相机分别采集处于不同的场景、视点下的若干个行人图像,得到行人图像数据集I={I1,I2,...,In,...,IN},其中,In表示第n张行人图像,N为行人图像数据集I中行人图像的总数;
步骤1.2、生成行人图像数据集I中行人图像对应的文本描述,从而得到文本数据集T={T1,T2,...,Tn,...,TN};其中,Tn表示第n张行人图像In对应的文本描述;
步骤2、构建多尺度信息交互网络包括:双路径图像-文本特征提取网络,基于注意力的隐式多尺度特征更新网络,基于多元注意力交互机制的跨模态特征联合网络;
步骤2.1、所述双路径图像-文本特征提取网络使用ViT图像编码器从In中提取初级特征,得到视觉特征Vn={vn,g,vn,1,vn,2,...,vn,k,...,vn,K},并使用Transformer文本编码器从Tn中提取初级特征,得到文本特征Tn={tn,g,tn,1,tn,2,...,tn,l,...,tn,L},其中,vn,g是In的全局视觉特征,vn,k是In中第k个补丁的局部特征,tn,g是Tn的全局文本特征,tn,l是Tn的第l个文本局部特征;K表示网格状补丁的数量,L表示文本特征的固定长度,当文本特征的长度大于L时,选择前L个单词;当文本特征的长度小于L时,在文本特征的末尾进行零填充;
步骤2.2、所述基于注意力的隐式多尺度特征更新网络由前景增强判别器模块、随机语言掩码模块和语义一致特征金字塔网络构成;
步骤2.2.1、所述前景增强判别器模块对Vn进行处理,得到增强后的映射特征
步骤2.2.2、随机语言掩码模块以Δ%的概率用掩码符号“[MASK]”对Tn进行随机屏蔽,得到文本映射特征其中,Δ表示阈值;
步骤2.2.3、所述语义一致特征金字塔网络使用卷积对进行降采样后,得到2R层不同尺度的特征图;接着将相邻两个尺度的特征图中的高分辨率特征图进行降采样处理,得到的降采样后的高分辨率特征图再与另一个尺度的低分辨率特征图进行交叉融合,得到R个经过交叉融合的特征图;随后对R个特征图进行相同处理,将高分辨率特征图进行降采样处理后,
与对应的低分辨率特征图进行两两交叉融合,最终得到一个包含丰富的局部和全局信息的图像特征
步骤2.3、基于多元交互注意力机制的跨模态特征联合网络使用受多样性损失约束的多头注意模块、交叉注意力模块对和/>进行处理,得到图像表示/>和文本表示/>以实现图像-文本对齐;
步骤3、采用联合跨模态投影匹配损失LCMPM、身份损失和多样性损失Ldiv来构建总的损失函数Ltotal,并基于I和T,使用Adam优化策略对多尺度信息交互网络进行训练,直至总的损失函数Ltotal收敛为止,得到最优多尺度信息交互模型,用于对输入的待检测的文本进行图像匹配,并输出对应的目标行人图像。
2.根据权利要求1所述的基于多尺度信息交互网络的文本-图像行人重识别方法,其特征在于,所述前景增强判别器模块由空间引导定位模块和通道去噪模块组成;
所述空间引导定位模块对Vn分别进行最大池化和平均池化操作,并将两个操作的结果串联后,再通过一个卷积层和Sigmoid激活函数的处理,从而得到空间权重系数An,SGL;再将Vn与An,SGL进行逐元素相乘,得到增强后的映射特征
所述通道去噪模块对依次进行全局最大池化和全局平均池化操作后,再将得到的特征向量分别送入共享的两层神经网络中进行处理,将得到的两个结果相加后,再经过一个Sigmoid激活函数的处理,得到通道权重系数An,CDM;最后将/>与An,CDM进行逐元素相乘后,得到增强后的映射特征/>
3.根据权利要求2所述的基于多尺度信息交互网络的文本-图像行人重识别方法,其特征在于,所述步骤2.3包括:
步骤2.3.1、所述多头注意模块利用Patch Embedding操作将转换成一维序列矩阵并利用式(1)所示的线性投影计算,得到M个注意力头中第m个注意力头的图像查询向量图像键向量/>和图像值向量/>
式(1)中,表示第m个注意力头的待训练的3个参数矩阵,d表示掩码令牌的嵌入维度;
步骤2.3.2、所述多头注意模块利用Linear操作将转换成一维序列矩阵/>并利用式(1)得到M个注意力头中第m个注意力头的文本查询向量/>文本键向量/>和文本值向量
步骤2.3.3、所述交叉注意力模块利用式(2)获取M个注意力头中第m个注意力头的图像注意力图和文本注意力图/>
式(2)中,dK表示向量的维度;T表示转置;
所述交叉注意力模块利用式(3)分别得到M个注意力头的图像注意力图和文本注意力图/>
式(3)中,cat表示拼接;
步骤2.3.4、所述交叉注意力模块利用Transformer的前馈网络对和/>进行处理,得到最终的图像表示/>和文本表示/>
4.根据权利要求3所述的基于多尺度信息交互网络的文本-图像行人重识别方法,其特征在于,所述步骤3中的总的损失函数Ltotal是按如下步骤得到:
步骤3.1、利用式(4)构建从图像到文本的跨模态投影匹配损失
式(4)中,fi t表示第i张行人图像Ii对应的文本描述Ti经过多尺度信息交互网络后得到的最终的文本表示;pn,i表示和fi t为匹配对的预测概率,ε是一个参数,qn,i表示/>和fi t为匹配对的真实概率;yn,i是/>和fi t为匹配对的真实匹配标签;/>表示fi t经过标准化后的文本特征;/>表示将/>投影到/>上;
步骤3.2、利用式(4)构建从文本到图像的跨模态投影匹配损失从而将/>与相加得到跨模态投影匹配损失LCMPM;
步骤3.3、利用式(5)构建身份损失Lnd(fn v);
式(5)中,GN(fn v)表示对fn v进行全局归一化后的结果,Wnd表示第n个行人的权重向量;
步骤3.4、利用式(6)构建多样性损失Ldiv;
步骤3.4、利用式(7)构建总的损失函数Ltotal;
Ltotal=LCMPM+Ldiv+Lid (7)。
5.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1-4中任一所述文本-图像行人重识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
6.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-4中任一所述文本-图像行人重识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311751530.5A CN117727069A (zh) | 2023-12-19 | 2023-12-19 | 基于多尺度信息交互网络的文本-图像行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311751530.5A CN117727069A (zh) | 2023-12-19 | 2023-12-19 | 基于多尺度信息交互网络的文本-图像行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117727069A true CN117727069A (zh) | 2024-03-19 |
Family
ID=90208509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311751530.5A Pending CN117727069A (zh) | 2023-12-19 | 2023-12-19 | 基于多尺度信息交互网络的文本-图像行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117727069A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118170936A (zh) * | 2024-05-08 | 2024-06-11 | 齐鲁工业大学(山东省科学院) | 一种基于多模态的数据与关系增强的遮挡行人检索方法 |
-
2023
- 2023-12-19 CN CN202311751530.5A patent/CN117727069A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118170936A (zh) * | 2024-05-08 | 2024-06-11 | 齐鲁工业大学(山东省科学院) | 一种基于多模态的数据与关系增强的遮挡行人检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
WO2021022521A1 (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
CN109726657B (zh) | 一种深度学习场景文本序列识别方法 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN110414344B (zh) | 一种基于视频的人物分类方法、智能终端及存储介质 | |
CN104866810A (zh) | 一种深度卷积神经网络的人脸识别方法 | |
CN113780149A (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
CN113487576B (zh) | 一种基于通道注意力机制的虫害图像检测方法 | |
CN117727069A (zh) | 基于多尺度信息交互网络的文本-图像行人重识别方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN110263855B (zh) | 一种利用共基胶囊投影进行图像分类的方法 | |
Das et al. | Deep learning for military image captioning | |
CN114119975A (zh) | 一种语言引导的跨模态实例分割方法 | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
CN112580480A (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 | |
CN116206306A (zh) | 一种类间表征对比驱动的图卷积点云语义标注方法 | |
CN112329771A (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN115909036A (zh) | 局部-全局自适应引导增强的车辆重识别方法及系统 | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
CN108764233B (zh) | 一种基于连续卷积激活的场景字符识别方法 | |
Quiroga et al. | A study of convolutional architectures for handshape recognition applied to sign language | |
CN116884067B (zh) | 一种基于改进的隐式语义数据增强的微表情识别方法 | |
Cai et al. | Vehicle detection based on visual saliency and deep sparse convolution hierarchical model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |