CN115690669A - 一种基于特征分离与因果比较损失的跨模态重识别方法 - Google Patents

一种基于特征分离与因果比较损失的跨模态重识别方法 Download PDF

Info

Publication number
CN115690669A
CN115690669A CN202110865607.6A CN202110865607A CN115690669A CN 115690669 A CN115690669 A CN 115690669A CN 202110865607 A CN202110865607 A CN 202110865607A CN 115690669 A CN115690669 A CN 115690669A
Authority
CN
China
Prior art keywords
identity
loss
features
pedestrian
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110865607.6A
Other languages
English (en)
Inventor
何小海
刘强
滕奇志
陈洪刚
卿粼波
李波
吴晓红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110865607.6A priority Critical patent/CN115690669A/zh
Publication of CN115690669A publication Critical patent/CN115690669A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提出了一种基于特征分离与因果比较损失的跨模态重识别方法。首先,使用嵌入了CNS非局部神经网络的Resnet50的特征提取网络来提取行人全局特征,该网络不仅可以增强CNN对全局语义信息的提取能力,而且还可以建立图像上两个有一定距离的像素之间的联系。其次,使用特征分离模块将提取到的特征进行分离,得到身份强相关和弱相关两类特征,然后使用双因果比较损失作为约束来指导从身份强相关特征中去除身份无关信息,使得增强身份强相关特征的表达能力,同时,还结合身份损失和加权正则化三元组损失联合训练,最终提高跨模态行人重识别精度。本发明主要应用于视频监控智能分析应用系统中,在图像检索,行人重识别智能安防等领域具有开阔的应用前景。

Description

一种基于特征分离与因果比较损失的跨模态重识别方法
技术领域
本发明涉及一种基于特征分离与因果比较损失的跨模态重识别方法,以及设计了一种新的特征分离与双因果约束损失网络的可见和红外跨模态人再识别框架,涉及视频智能监控领域中的跨模态行人重识别问题,属于计算机视觉与智能信息处理领域。
背景技术
行人重识别(Person Re-Identification,ReID)是图像检索的子任务,目的是在非重叠摄像机中匹配同一人。随着监控系统在现实生活中的普及,行人识别任务越来越受到重视。大多数现有的方法都集中在可见光RGB图像上。然而在照明条件较差或夜间,可见光摄像头无法捕捉到有效的外观信息,这限制了ReID在实际监控应用中的适用性。近年来,随着实际应用需求的不断增加,可见和红外跨模态行人再识别(visible and infraredcross-modality person re-identification,VI-ReID)的研究越来越多。由于可见光图像和红外图像属于不同的数据模态,因此,用红外行人图像检索可见图行人图像这一过程通常就称之为跨模态重识别方法。VI-ReID除了面临光照变化、遮挡,视角变化等模态内的变化,还面临模态差异带来的新挑战。VI-ReID是一个非常有挑战性的任务,首先可将光和红外图像在构成上差异巨大,可将光图像具有三个通道,包含颜色信息,而红外只有一个通道,其中包含红外信息,因此可以将它们视作异构数据。其次,从成像原理上看,可将光普和红外图像的波长范围是不同的,所以仅仅通过颜色信息无法很好地进行分类和匹配。此外,在单模态下的行人图像还具有姿态、光照、摄像机视角不同带来的类内差异。
对于跨模态ReID任务,特定于域的网络模型构建和如何提取两模态的共性特征匹配十分重要。现有的VI-ReID算法大部分只关注学习不同模态的共同特征学习,忽略了不同模态图像本省的一些细节表示。近年来,尽管已经出现了许多提取局部细节的方法。如一些方法利用行人图像切块切片提取局部信息;一些方法利用关键点骨架方法提取人体局部信息,还有一些方法是利用语义分割的方法提取局部信息。在行人图像不对齐的情况下,采用图像分块方式性能将会急剧下降。然而,采用关节点骨架提取和语义分割方法,不利用端端训练,需要提前训练好用于关键点骨架提取和语义分割的模型,即需要分两个阶段进行,步骤繁琐,效率低。不同于上述方法,本发明直接从不同模态中提取与身份强相关的特征和过滤掉与身份无关的干扰,最终让网络学习到领域不变的更加有效的特征表示。相比以往的方法,本发明的性能和效率都优于先前的方法。
众所周知,基于深度学习图像检索方法一般是用CNN模型提取特征,然后再利用距离度量函数来比较特征向量之间的相似度,将特征最相似的图像作为检索结果。也有一些工作使用多尺度或不同的卷积通道来捕获像素级/小区域级的注意力。然而,在跨模态识别中,由于存在较大的跨模态差异和噪声,导致优化效果过程不稳定。为了增加CNN对全局语义信息的提取能力,以及更好地建立了图像上两个有一定距离的像素之间的联系,本发明在非局部神经网络(non-local)基础上提出了CNS非局部神经网络(CNS non-local)。CNS非局部神经网络可以很方便的嵌入到resnet50的任意层中。
传统的VI-ReID算法通常是分别提取可见光和红外行人的全局特征表示,然后利用相似性度量目标函数将它们的特征投影到一个共同空间,最终使得相似的成对的红外和可见光行人在空间中的距离接近,即相似性高。但这种匹配方式只是粗略度量可见光和红外行人的全局相似度,并没有具体的考虑红外和可见光行人是哪些局部内容是相似的,同时大多数方法也未考虑背景噪声干扰,因此识别精度往往较低。考虑到不同模态域的差异,我们利用FSM进行风格归一化,消除风格差异。本发明运用FSM模块从不同模态中分离出身份强相关和弱相关两类特征,这样可以有效的减轻模态差异带来的影响,从而可以学习到更加有效的特征表示。许多VI-ReID方法都是先用双路的卷积网络分别提取RGB图像和红外图像的特征;随后将两个模态的特征输入共享参数的网络;最后通过交叉熵损失和三元组损失引导训练。如果仅用身份损失来进行约束模型,只能提高类间差异,不能解决不同模态类间差异。目前较多的方法是采用身份损失和三元组损失来联合训练约束不同模态分布之间的距离。尽管这类方法在一定程度上缓解了模态差异,但是面临背景变化较大的情景时效果也不太理想。因此本发明使用了双因果比较损失作为约束来指导从身份强相关特征中去除身份无关信息,使得提高身份强相关特征的表达能力,同时,还结合身份损失和加权正则化三元组损失进行联合训练,最终提高跨模态行人重识别精度。
发明内容
本发明提出了一种基于特征分离与因果比较损失的跨模态重识别方法,设计了一种新的特征分离与双因果约束损失的可见与红外跨模态行人再识别网络结构FSDCC(feature separation and double causal constraint loss),每个训练批次采样策略是:从训练数据集中随机选取P个行人,然后每个行人再随机选取K张可见光行人图像和K张红外行人图像,构成一个包含有2n(这里n=P×K)张行人图像的批次训练数据,最后将2n张行人图像送入网络进行训练。图1所示,首先使用CNS非局部神经网络提取红外和可见光行人图像的特征f,网络参数共享,其次通过特征分离模块对前面得到的全局特征进行分离,得到身份强相关的特征f+和身份弱相关的特征f-(如杂波干扰成分)两类特征。最后利用双因果比较损失来约束来指导从身份强相关特征中去除身份无关信息,从而提高身份强相关特征的表达能力,同时,还结合身份损失函数和自适应权重最难批次采样三元组损失函数进行联合训练,最终达到提高跨模态行人重识别精度的目的。
一种基于特征分离与因果比较损失的跨模态重识别方法,包括以下步骤:
(1)首先将图像大小都是288×144可见光和红外行人分别送进两个结构相同的网络,分别得到可见光特征frgb和红外特征fIR,然后将frgb和fIR进行concatenate操作得到的特征frgb_ir,最后将frgb_ir送入CNS非局部神经网络中,最终输出行人特征f。
(2)使用特征分离模块对步骤(1)的特征f进行特征分离,分别得到身份强相关的特征(f+)和身份弱相关的特征(f-)两类特征。
(3)使用双因果比较损失作为约束来指导从身份强相关特征(f+)中去除身份无关信息,使得提高身份强相关特征的表达能力,同时,还结合身份损失和加权正则化三元组损失进行联合训练,最终提高跨模态行人重识别精度。
附图说明
图1为本发明一种基于特征分离与因果比较损失的跨模态重识别方法框图;
图2为本发明CNS非局部神经网络结构图;
图3为本发明特征分离模块结构图;
图4为本发明的Lid,Lwrt及Ldcc特征空间约束示意图;
图5为本发明的f+、f和f-特征的可视化效果图。
具体实施方式
下面结合附图1、附图2,附图3,附图4和附图5对本发明作进一步说明:
图1所示是FSDCC网络结构和原理:
FSDCC网络模型框架以端到端方式进行训练和测试。FSDCC网络主要由双流输入,特征提取,特征分离与特征嵌入,损失约束包含四部分组成。在双流输入部分中,输入的可见光和红外行人图像都为三通道图像,其高宽为288×144。将可见光和红外行人图像分别送进两个结构相同的网络,分别得到可见光特征frgb和红外特征fIR,frgb和fIR的维度是n×64×72×36。这两个网络参数是不共享的,网络结构由一个卷积层,一个批归一化层,一个非线性激活层和最大池化层组成。然后将frgb和fIR进行concatenate操作得到特征frgb_ir,frgb_ir维度是2n×64×72×36,然后将frgb_ir送入CNS非局部神经网络中,最后获得行人特征f。在特征分离与特征嵌入部分,首先将CNS非局部神经网络输出的特征f送入特征分离模块进行特征分离,得到身份强相关的特征(f+)和身份弱相关的特征(f-)两类特征。在特征嵌入部分,将数据转换为固定大小的特征表示,以便于处理和计算。在损失约束部分,使用双因果比较损失作为约束来指导从身份强相关特征(f+)中去除身份无关信息,使得增强身份强相关特征的表达能力,同时,还结合身份损失函数和自适应权重最难批次采样三元组损失函数进行联合训练,最终提高跨模态行人重识别精度。
(1)CNS非局部神经网络模块
图2本发明提出的CNS非局部神经网络模块的完整框架。CNS非局部神经网络模块里包含了4个CNS组件,该组件由1个1×1的卷积层,归一化层和sigmoid非线性激活层三部分组成。CNS非局部神经网络模块的输入和输出的图像形状是相同的。图1所示是一种基于特征分离与因果比较损失的跨模态重识别方法的网络框架,本发明使用ResNet50提取行人特征,并在ResNet50的四个阶段都嵌入了CNS非局部神经网络模块;采用CNS非局部神经网络模块的ResNet50特征提取络可以通过计算任意两个位置之间的交互直接捕捉远程依赖,而不用局限于相邻点,其相当于构造了一个和特征图谱尺寸一样大的卷积核,从而可以维持更多信息。
(2)所示是特征分离模块
特征分离模块(feature separation module,FSM)内部结构如图3所示,FSM包括一个全局平均池层以及两个分别由
Figure BDA0003187184980000051
参数化的全连接层,随后是ReLU激活函数δ(·)以及sigmoid激活函数σ(·)。为了减少参数数量,使用缩小率τ并将其设置为16。因此,输入图像特征
Figure BDA0003187184980000052
FSM输出分离掩模向量α={α123,...,αk},计算过程定义为:
Figure BDA0003187184980000053
输入模块的特征
Figure BDA0003187184980000054
为所有可见光图像特征与红外图像特征。给定由基础网络输出的图像特征
Figure BDA0003187184980000055
后,在度量空间内统一模态,并将其分解为两个与模态无关而与身份强相关的分量
Figure BDA0003187184980000056
和背景等影响身份辨别的干扰成分
Figure BDA0003187184980000057
其中,
Figure BDA0003187184980000058
代表
Figure BDA0003187184980000059
对应通道,并以更稳定的“残差”方式与原特征
Figure BDA00031871849800000510
结合:
Figure BDA00031871849800000511
Figure BDA00031871849800000512
由于
Figure BDA00031871849800000513
包含了与身份强相关的分量,通过更加稳定的“残差”的方式结合原始特征
Figure BDA00031871849800000514
得到
Figure BDA00031871849800000515
并作为最终测试时用于行人身份表示的向量。相比于原始特征
Figure BDA00031871849800000516
Figure BDA00031871849800000517
由于包含了较多与身份无关的干扰分量,即
Figure BDA00031871849800000518
理论上其分辨能力应当变弱。
由于可见光和红外跨模态行人重识别是一种细粒度的实例检索,目前广泛使用的最大池化或平均池化不能很好地捕获特定领域的区分特征,因此采用通用平均池化方式(Generalized mean Pooling,GMP)对
Figure BDA00031871849800000519
Figure BDA00031871849800000520
Figure BDA00031871849800000521
进行池化得到f+、f和f-。通用平均池化带有超参数,不同于一般的平均池化或最小(大)值池化方式,f+、f和f-的计算过程如下式所示:
Figure BDA0003187184980000061
Figure BDA0003187184980000062
Figure BDA0003187184980000063
其中p为可以通过网络学习的超参数,也可以人为设定。可以看出,常用的最大池化和平均池化都是通用平均池化的特例,p→∞时相当于最大池化,而p=1时相当于平均池化。
由于f+源自于f,f-又源自于f+,因此f+、f和f-均具有一定的辨别性,可以直接作为行人特征用于行人检索。而理论上f+包含更多身份强相关分量,而f-包含较多的身份弱相关干扰分量,则意味着f+应当具有最强的特征表示能力,f其次,f-稍差。图5展示了f+、f和f-特征的可视化效果,可以观察到f+特征效果明显优于f-和f。
(3)损失函数
首先,使用交叉熵身份损失Lid(Identical Loss)对f+进行约束,由于只采用f+作为最终的行人特征,因此只对f+施加身份损失约束,以对其达到更好的约束效果。身份损失Lid将明显提高特征嵌入空间的整体紧凑性,定义如下:
Figure BDA0003187184980000064
其次,为了进一步提高f+、f、f-特征空间的整体紧凑性,使用加权正则化元组损失Lwrt(Weighted Regularization Triplet loss,WRT Loss)对f+、f和f-三种特征同时进行约束。Lwrt与常规的难样本三元组损失类似,用于拉近特征嵌入空间的同身份特征,并分散特征空间的不同身份特征。不过,Lwrt直接使用特征距离对正负样本的“难度”加权,对于正样本对而言,其特征距离越大损失所占权重越大,对于负样本对而言,则是其特征距离越小则其损失所占比重越大,不需要设置额外的边界margin超参数,因此更加灵活,适用性更强。Lwrt定义如下:
Figure BDA0003187184980000071
其中:
Figure BDA0003187184980000072
式8和9中,a表示每个训练批次中的所有锚点集,p则表示对应身份的正样本集,n则是负样本集,
Figure BDA0003187184980000073
Figure BDA0003187184980000074
分别表示锚点与正(负)样本之间的欧式距离。
最后,为了进一步促进身份强相关特征和身份弱相关的特征分离,通过比较恢复特征的辨别力而设计了一种双重因果比较损失约束Ldcc(Dual Causality Compare Loss,DCC Loss)。如前所述,相比于原始特征f,f+包含了与身份强相关的分量
Figure BDA0003187184980000075
应该具有更强分辨能力,而f-包含了较多身份弱相关的干扰分量
Figure BDA0003187184980000076
理论上其分辨能力应当变弱,Ldcc将进一步促进特征中干扰成分的分离,增强身份强相关部分特征的辨别性,因此称为“因果比较损失”。当需要增强f1而限制f2时,双重因果损失Ldcc(f1,f2)则需要拉近f1的正样本对之间的距离,而扩大f2正样本对之间的距离,相应地,需要扩大f1的负样本对之间的距离,而拉近f2负样本对之间的距离,从而在损失函数中体现特征f1比f2具有更强的分辨能力。使用a1(a2)表示每个训练批次中f1(f2)的所有锚点集,p1(p2)则表示f1(f2)对应身份的正样本集,n1(n2)则是f1(f2)的负样本集,
Figure BDA0003187184980000077
分别表示f1(f2)锚点与正(负)样本之间的欧式距离,则Ldcc(x1,x2)定义为:
Figure BDA0003187184980000078
其中,
Figure BDA0003187184980000079
Figure BDA00031871849800000710
用于衡量对特征f1的增强程度,表示对辨别力越弱的特征施加越大的惩罚,而
Figure BDA00031871849800000711
Figure BDA00031871849800000712
则用于表示抑制f2的程度,表示对辨别力越强的特征施加越大的惩罚,具体如下定义:
Figure BDA0003187184980000081
Figure BDA0003187184980000082
由于行人身份数量通常较多,仅仅依靠身份损失难以获得具有足够辨别力的特征,而且模型测试时,通常需要解决的是“这两个人是否是同一个人”而不是“这个人是谁”的问题,因此衡量特征之间的相对距离显得更加重要。作为困难样本采样三元组损失函数的变种,加权正则化三元组损失Lwrt针对特征之间的相对距离进行了额外约束,用来进一步收缩f+、f、f-各自的特征空间,挖掘困难样本并对困难样本施加不同程度的损失和惩罚,进一步针对性的训练。Ldcc主要用于f+、f、f-三种特征的比较训练,利用特征中的杂乱背景以及模态差异的干扰部分对于行人重识别不利,据此施加Ldcc约束将其分离出来,由于包含Ldcc(f+,f)和Ldcc(f,f-),因此称为“双重因果比较损失”。表1所示是f+、f、f-组合训练和测试性能的性能对比,最终本发明选用f+、f、f-用于训练,f+用于测试。图4所示,代表Lid,Lwrt及Ldcc特征空间约束示意图。本发明结合身份损失、加权正则化元组损失以及提出的双重因果比较损失,用于约束整个模型的总体限制损失Ltotal定义为:
Figure BDA0003187184980000083
其中,λ1和λ2为调节贡献度的超参数。
本发明在RegDB和SYSU-MM01数据集进行了网络结构消融研究,其中Baseline表示基准网络,RE是随机擦除,CNS表示CNS非局部神经网络,FSM表示特征分离模块,Lid表示身份损失,Lwrt表示带权重的最难三元组采样损失函数,Ldcc表示因果比较损失。另外还和一些主流算法进行了比较,使用单一查询设置进行评估,并使用Rank-1,Rank-5,Rank-10和mAP(平均匹配精度)作为评价指标。实验结果如表1,表2,表3,表4和表5所示,实验精度相比于基准网络和其他对比算法均有较大提高。
表1 f+、f和f-特征组合方式测试实验
Figure BDA0003187184980000091
表2在SYSU-MM01数据上的消融研究
Figure BDA0003187184980000092
表3在regDB数据上的消融研究
Figure BDA0003187184980000093
表4在SYSU-MM01数据集上与主流算法结果对比
Figure BDA0003187184980000101
表5在RegDB数据集上与主流算法结果对比
Figure BDA0003187184980000102
Figure BDA0003187184980000111

Claims (4)

1.一种基于特征分离与因果比较损失的跨模态重识别方法,其特征在于以下步骤:
(1)首先将图像大小都是288×144可见光和红外行人分别送进两个结构相同的网络,分别得到可见光特征frgb和红外特征fIR,然后将frgb和fIR进行concatenate操作得到的特征frgb_ir,最后将frgb_ir送入CNS非局部神经网络中,最终输出行人特征f;
(2)使用特征分离模块对步骤(1)的特征f进行特征分离,分别得到身份强相关的特征(f+)和身份弱相关的特征(f-)两类特征;
(3)使用双因果比较损失作为约束来指导从身份强相关特征(f+)中去除身份无关信息,使得提高身份强相关特征的表达能力,同时,还结合身份损失和加权正则化三元组损失进行联合训练,最终提高跨模态行人重识别精度。
2.根据权利要求1所述的方法,步骤(1)中每个训练批次采样策略是:从训练数据集中随机选取P个行人,然后每个行人再随机选取K张可见光行人图像和K张红外行人图像,构成一个包含有2n(这里n=P×K)张行人图像的批次训练数据,然后将2n张行人图像送入网络进行训练,然后输出可见光特征frgb和红外特征fIR,frgb和fIR的维度都是n×64×72×36;然后将frgb和fIR进行concatenate操作得到frgb_ir,其维度是2n×64×72×36;将frgb_ir送入CNS非局部神经网络中,最后获得行人特征f,其维度是2n×2048×18×9;
步骤(1)中使用了CNS非局部神经网络,附图2所示是CNS非局部神经网络结构框图,CNS非局部神经网络包含了4个CNS组件,该组件由1个1×1的卷积层,归一化层和sigmoid非线性激活层三部分组成;CNS非局部神经网络模块的输入和输出的图像形状是相同的;附图1所示是一种基于特征分离与因果比较损失网络的跨模态行人重识别方法的网络框架,本发明使用ResNet50提取行人特征,并在ResNet50的四个阶段都嵌入了CNS非局部神经网络模块;采用CNS非局部神经网络模块的ResNet50特征提取络可以通过计算任意两个位置之间的交互直接捕捉远程依赖,而不用局限于相邻点,其相当于构造了一个和特征图谱尺寸一样大的卷积核,从而可以维持更多信息。
3.根据权利要求1所述的方法,其变换对齐在于步骤(2)中本发明使用了特征分离模块(feature separation module,FSM),FSM包括一个全局平均池层以及两个分别由
Figure FDA0003187184970000021
参数化的全连接层,随后是ReLU激活函数δ(·)以及sigmoid激活函数σ(·);为了减少参数数量,使用缩小率τ并将其设置为16;因此,输入图像特征
Figure FDA0003187184970000022
Separate Block输出分离掩模向量α={α123,...,αk},计算过程定义为:
Figure FDA0003187184970000023
输入模块的特征
Figure FDA0003187184970000024
为所有可见光图像特征与红外图像特征;给定由基础网络输出的图像特征
Figure FDA0003187184970000025
后,在度量空间内统一模态,并将其分解为两个与模态无关而与身份强相关的分量
Figure FDA0003187184970000026
和背景等影响身份辨别的干扰成分
Figure FDA0003187184970000027
其中,
Figure FDA0003187184970000028
代表
Figure FDA0003187184970000029
对应通道,并以更稳定的“残差”方式与原特征
Figure FDA00031871849700000210
结合:
Figure FDA00031871849700000211
Figure FDA00031871849700000212
由于
Figure FDA00031871849700000213
包含了与身份强相关的分量,通过更加稳定的“残差”的方式结合原始特征
Figure FDA00031871849700000214
得到
Figure FDA00031871849700000215
并作为最终测试时用于行人身份表示的向量;相比于原始特征
Figure FDA00031871849700000216
Figure FDA00031871849700000217
由于包含了较多与身份无关的干扰分量,即
Figure FDA00031871849700000218
理论上其分辨能力应当变弱;由于可见光和红外跨模态行人重识别是一种细粒度的实例检索,目前广泛使用的最大池化或平均池化不能很好地捕获特定领域的区分特征,因此采用通用平均池化方式(Generalized meanPooling,GMP)对
Figure FDA00031871849700000219
Figure FDA00031871849700000220
Figure FDA00031871849700000221
进行池化得到f+、f和f-;通用平均池化带有超参数,不同于一般的平均池化或最小(大)值池化方式,f+、f和f-的计算过程如下式所示:
Figure FDA00031871849700000222
Figure FDA00031871849700000223
Figure FDA0003187184970000031
其中p为可以通过网络学习的超参数,也可以人为设定;可以看出,常用的最大池化和平均池化都是通用平均池化的特例,p→∞时相当于最大池化,而p=1时相当于平均池化;
由于f+源自于f,f-又源自于f+,因此f+、f和f-均具有一定的辨别性,可以直接作为行人特征用于行人检索;而理论上f+包含更多身份强相关分量,而f-包含较多的身份弱相关干扰分量,则意味着f+应当具有最强的特征表示能力,f其次,f-稍差;附图5展示了f+、f和f-特征的可视化效果,可以观察到f+特征效果明显优于f-和f。
4.根据权利要求1所述的方法,其特征在于步骤(3)中,首先,使用交叉熵身份损失Lid(IdenticalLoss)对f+进行约束,由于只采用f+作为最终的行人特征,因此只对f+施加身份损失约束,以对其达到更好的约束效果;身份损失Lid将明显提高特征嵌入空间的整体紧凑性,定义如下:
Figure FDA0003187184970000032
其次,为了进一步提高f+、f、f-特征空间的整体紧凑性,使用加权正则化元组损失Lwrt(Weighted Regularization Tripletloss,WRT Loss)对f+、f和f-三种特征同时进行约束;Lwrt与常规的难样本三元组损失类似,用于拉近特征嵌入空间的同身份特征,并分散特征空间的不同身份特征;不过,Lwrt直接使用特征距离对正负样本的“难度”加权,对于正样本对而言,其特征距离越大损失所占权重越大,对于负样本对而言,则是其特征距离越小则其损失所占比重越大,不需要设置额外的边界margin超参数,因此更加灵活,适用性更强;Lwrt定义如下:
Figure FDA0003187184970000033
其中:
Figure FDA0003187184970000041
式8和9中,a表示每个训练批次中的所有锚点集,p则表示对应身份的正样本集,n则是负样本集,
Figure FDA0003187184970000042
Figure FDA0003187184970000043
分别表示锚点与正(负)样本之间的欧式距离;
最后,为了进一步促进身份强相关特征和身份弱相关的特征分离,通过比较恢复特征的辨别力而设计了一种双重因果比较损失约束Ldcc(Dual Causality Compare Loss,DCCLoss);如前所述,相比于原始特征f,f+包含了与身份强相关的分量
Figure FDA0003187184970000044
应该具有更强分辨能力,而f-包含了较多身份弱相关的干扰分量
Figure FDA0003187184970000045
理论上其分辨能力应当变弱,Ldcc将进一步促进特征中干扰成分的分离,增强身份强相关部分特征的辨别性,因此称为“因果比较损失”;当需要增强f1而限制f2时,双重因果损失Ldcc(f1,f2)则需要拉近f1的正样本对之间的距离,而扩大f2正样本对之间的距离,相应地,需要扩大f1的负样本对之间的距离,而拉近f2负样本对之间的距离,从而在损失函数中体现特征f1比f2具有更强的分辨能力;使用a1(a2)表示每个训练批次中f1(f2)的所有锚点集,p1(p2)则表示f1(f2)对应身份的正样本集,n1(n2)则是f1(f2)的负样本集,
Figure FDA0003187184970000046
分别表示f1(f2)锚点与正(负)样本之间的欧式距离,则Ldcc(x1,x2)定义为:
Figure FDA0003187184970000047
其中,
Figure FDA0003187184970000048
Figure FDA0003187184970000049
用于衡量对特征f1的增强程度,表示对辨别力越弱的特征施加越大的惩罚,而
Figure FDA00031871849700000410
Figure FDA00031871849700000411
则用于表示抑制f2的程度,表示对辨别力越强的特征施加越大的惩罚,具体如下定义:
Figure FDA0003187184970000051
Figure FDA0003187184970000052
由于不同的行人身份较多,仅仅依靠身份损失难以获得具有足够辨别力的特征,而且在模型测试时,重识别需要解决的是“这两个人是否是同一个人”而不是“这个人是谁”的问题,因此衡量特征之间的相对距离显得更加重要;作为困难样本采样三元组损失函数的变种,加权正则化三元组损失Lwrt针对特征之间的相对距离进行了额外约束,用来进一步收缩f+、f、f-各自的特征空间,挖掘困难样本并对困难样本施加不同程度的损失和惩罚,进一步针对性的训练;Ldcc主要用于f+、f、f-三种特征的比较训练,利用特征中的杂乱背景以及模态差异的干扰部分对于行人重识别不利,据此施加Ldcc约束将其分离出来,由于包含Ldcc(f+,f)和Ldcc(f,f-),因此称为“双重因果比较损失”;附图4所示是Lid,Lwrt及Ldcc特征空间约束示意图;结合身份损失、加权正则化元组损失以及提出的双重因果比较损失,用于约束整个模型的总体限制损失Ltotal定义为:
Figure FDA0003187184970000053
其中,λ1和λ2为调节贡献度的超参数。
CN202110865607.6A 2021-07-29 2021-07-29 一种基于特征分离与因果比较损失的跨模态重识别方法 Pending CN115690669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110865607.6A CN115690669A (zh) 2021-07-29 2021-07-29 一种基于特征分离与因果比较损失的跨模态重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110865607.6A CN115690669A (zh) 2021-07-29 2021-07-29 一种基于特征分离与因果比较损失的跨模态重识别方法

Publications (1)

Publication Number Publication Date
CN115690669A true CN115690669A (zh) 2023-02-03

Family

ID=85059532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110865607.6A Pending CN115690669A (zh) 2021-07-29 2021-07-29 一种基于特征分离与因果比较损失的跨模态重识别方法

Country Status (1)

Country Link
CN (1) CN115690669A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351522A (zh) * 2023-12-06 2024-01-05 云南联合视觉科技有限公司 基于风格注入与跨视角难样本挖掘的行人重识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351522A (zh) * 2023-12-06 2024-01-05 云南联合视觉科技有限公司 基于风格注入与跨视角难样本挖掘的行人重识别方法

Similar Documents

Publication Publication Date Title
CN111709902B (zh) 基于自注意力机制的红外和可见光图像融合方法
Yang et al. Cross-attention spectral–spatial network for hyperspectral image classification
CN109543602B (zh) 一种基于多视角图像特征分解的行人再识别方法
WO2019169816A1 (zh) 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN110580460A (zh) 基于行人身份和属性特征联合识别验证的行人再识别方法
CN111126240B (zh) 一种三通道特征融合人脸识别方法
Liu et al. Style transformation-based spatial–spectral feature learning for unsupervised change detection
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
Sun et al. [Retracted] Research on Face Recognition Algorithm Based on Image Processing
CN116469020A (zh) 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法
Çevik et al. A novel high-performance holistic descriptor for face retrieval
CN114937298A (zh) 一种基于特征解耦的微表情识别方法
CN103942545A (zh) 一种基于双向压缩数据空间维度缩减的人脸识别方法和装置
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN115690669A (zh) 一种基于特征分离与因果比较损失的跨模态重识别方法
Pathak et al. Multimodal eye biometric system based on contour based E-CNN and multi algorithmic feature extraction using SVBF matching
CN117333908A (zh) 基于姿态特征对齐的跨模态行人重识别方法
CN115661754B (zh) 一种基于维度融合注意力的行人重识别方法
Chen et al. Combining the Convolution and Transformer for Classification of Smoke-Like Scenes in Remote Sensing Images
Li Saliency prediction based on multi-channel models of visual processing
CN113449550A (zh) 人体重识别数据处理的方法、人体重识别的方法和装置
CN117115850A (zh) 一种基于离线蒸馏的轻量级行人重识别方法
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法
Wang et al. Image splicing tamper detection based on deep learning and attention mechanism
HOUSSOU et al. Robust facial recognition system using one shot multispectral filter array acquisition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination