CN114241517A - 基于图像生成和共享学习网络的跨模态行人重识别方法 - Google Patents
基于图像生成和共享学习网络的跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN114241517A CN114241517A CN202111459943.7A CN202111459943A CN114241517A CN 114241517 A CN114241517 A CN 114241517A CN 202111459943 A CN202111459943 A CN 202111459943A CN 114241517 A CN114241517 A CN 114241517A
- Authority
- CN
- China
- Prior art keywords
- modal
- cross
- image
- images
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 10
- 230000008485 antagonism Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于图像生成和共享学习网络的跨模态行人重识别方法,步骤1:跨模态图像生成网络的构建,通过交换外观特征生成跨模态行人图像以实现模态级别对齐;步骤2:跨模态图像生成网络损失函数的设计;步骤3:双路径共享学习网络的构建,将跨模态图像生成网络生成的红外伪图像与真实红外图像组合成一对输入图像,在线输入到双路径共享学习网络进行训练,提取具有区分性的中层特征信息,实现特征级别对齐;步骤4:共享学习损失函数的设计。步骤5:损失函数的联合优化,将跨模态图像生成网络和双路径共享学习网络进行联合训练,以端到端的方式优化总目标。本发明使网络提取到更加具有区分性的行人特征,提升了跨模态行人重识别的性能。
Description
技术领域
本发明属于计算机视觉技术领域,尤其涉及基于图像生成和共 享学习网络的跨模态行人重识别方法。
背景技术
行人重识别,是视频监控、智能城市建设和多媒体应用中的一项 重要任务,其目的是在多个不重叠的摄像头获得的图像或视频序列中 匹配特定的人。给定来自一个相机视图的行人的查询图像,它尝试从 不相交的相机视图捕获的一组候选行人图库中识别相同的人的ID图 像。大部分的研究主要集中在单模态相机捕获的可见人物图像上,并 将行人重识别任务定义为单模态(可见-可见)匹配问题。单模态行 人重识别的主要挑战是不同视点、遮挡、姿态和复杂背景等引起的模 态内问题。大多数方法主要集中在深度特征表示学习或深度度量学习。 前者的目标是学习一个鲁棒和区别性的特征表示,后者的目标是学习 一个距离度量来处理上述匹配问题,这两种方法都取得了令人鼓舞的 成功。
然而,单模态行人重识别在光照条件较差时,即光线较弱或不可 用时,受到很大的限制。例如,在有监视和刑事侦查的情况下,大多 数犯罪嫌疑人选择在白天收集信息,晚上进行犯罪行为。由于公众安 全需求的迫切和红外监控摄像机数量的不断增加,跨模态(红外-可 见光)行人重识别是智能监控系统中必不可少的一项技术,具有重要 的研究影响和现实意义。
与只有模态内差异问题的单模态行人重识别任务不同,IV-ReID 还遇到了由于不同光谱相机成像过程不同而导致的模态间差异问题。 如图1所示,红外图像和可见光图像具有本质上的差异性和异质性, 并且具有不同的波长范围。因此,跨模态图像既面临着模态内差异的 挑战,也面临着模态间差异的挑战,这意味着跨模态行人重识别还有 很长的路要走。为了解决上述问题,现有研究大多集中于通过单一的 特征级别约束来弥合红外图像与可见光图像之间的差距。基本的思想 都是通过将不同的模态嵌入到相同的特征空间来学习模态共享表示。 然而,单一的特征级别约束是有上限的,无法有效解决跨模态行人重 识别遇到的问题。并且,在这些方法中都采用具有共享全连接层的双 流网络来学习跨模态特征,而忽略了特征提取层中的共享信息。
近些年,随着生成式对抗网络的快速发展,大多数研究尝试着利 用图像翻译模型将图像从一种形态转换为另一种形态,生成模型所生 成的图像必须具有良好的质量和足够的多样性,以弥补红外图像和可 见光图像之间的模态差异。因此,如何达到模态级别和特征级别的对 齐是当下需要解决的技术问题。
发明内容
针对现有技术不足,本发明的目的在于提供基于图像生成 和共享学习网络的跨模态行人重识别方法,首先,提出了一个跨 模态生成和共享学习联合框架,该框架主要由一个跨模态图像生成网 络和一个双路径共享学习网络组成,跨模态图像生成网络可以通过分 解行人的模态特征和外观特征,生成多样的跨模态图像,在保持特定 身份一致性的同时实现模态级别对齐,在双路径共享学习网络中,采 用参数共享模块去获取更具区分性的行人特征信息,实现特征级别对 齐。将两个子网络级联并以端到端方式进行优化,从而使网络提取到 更加具有区分性的行人特征,有效的提升了跨模态行人重识别的性能。
本发明提供如下技术方案:
基于图像生成和共享学习网络的跨模态行人重识别方法,包 括以下步骤:
步骤1:跨模态图像生成网络的构建,采用两种不同深度的编码 器解缠红外图像和可见光图像,并获得它们的模态特征和外观特征, 然后将它们映射为统一的特定模态空间和共享外观空间,最后,交换 共享外观空间的特征并生成成对的跨模态图像以实现模态级别的对 齐;
步骤2:跨模态图像生成网络损失函数的设计,为了保证生成的 跨模态图像具有真实性和多样性,设计多种损失函数进行模型的优化;
步骤3:双路径共享学习网络的构建,将跨模态图像生成网络生 成的红外伪图像与真实红外图像组合成一对输入图像,在线输入到双 路径共享学习网络进行训练,提取具有区分性的中层特征信息,实现 特征级别对齐;
步骤4:共享学习损失函数的设计,给定一组训练图像,利用KL 发散损失最小化各特征分布之间的距离,以改善具有相同身份的跨模 态图像的相似度分布;
步骤5:损失函数的联合优化,将跨模态图像生成网络和双路径 共享学习网络进行联合训练,以端到端的方式优化总目标。
优选的,在步骤1中,首先将真实的红外图像和可见光图像分 别定义为和其中H和W分别是图 像的高和宽,每一个红外与可见光真实图像分别对应一个真实标签 y∈{1,2,...,N},N是数据集中行人ID的个数。对于每一个由外观编码器 和模态编码器解缠模态图像得到的外观特征和模态特征分别表示为 Fa j和Fm j:
其中上标j=i,v,分别表示真实图像的模态属性,Ea和Em分别代表外 观编码器和模态编码器,随后,交换两种不同模态图像的外观特征, 生成伪红外与可见光图像:
其中Gi和Gv分别表示红外生成器与可见光生成器。
优选的,在步骤2中,首先,跨模态生成侧重于不同模态的图 像生成,在这个过程中,获得两张不同模式的图像后,首先通过跨模 态图像生成网络交换它们的模态特征或外观特征,合成一对新图像, 在此过程中,对图像之间引入跨模态解缠损失,此损失使用L1范数 在图像边缘获得更好的生成性能,跨模态解缠损失公式如下:
其中分别是可见光和红外图像的模态特征和外观 特征,由于生成的伪跨模态图像不存在真实值监督,具有与原始图像 相同的身份,此时,引入循环一致性损失,通过交换从生成的伪红外 和可见光图像中再次分离出来的模态特征和外观特征,重构出两幅原 始图像。
优选的,循环一致性损失公式可以表示为:
优选的,重构损失可以表示为:
图像生成任务最重要的目标是在跨模态行人重识别领域生成真实 的图像,真实的图像能够实现数据的增强,减少不同模态之间的差异, 因此,引入对抗性损失来监督图像生成过程,在对抗性训练中分别使 用红外和可见光两种辨别器,生成器试图使用生成的假图像来欺骗辨 别器,而辨别器则试图区分正确和错误的结果,生成器和辨别器在互 相博弈中不断优化网络,对抗性损失如下:
Ladv=E[logDi(xi)+log(1-Di(xi′))]+E[logDv(xv)+log(1-Dv(xv′))] (6)
其中Di和Dv分别对应于红外模态和可见光模态的辨别器。
优选的,在步骤3中,在ImageNet上预训练的ResNet-50作 为主干网络,所述ResNet-50包括5个卷积块:conv1、conv2_x、conv3_x、 conv4_x和conv5_x,通过共享较低层次的卷积块以获得更多的判别 信息,在参数共享模块的阶段1,使用conv1、conv2_x和conv3_x 作为两个参数独立的分支,提取红外和可见光图像对应的特定模态信 息,在阶段2,利用conv4_x和conv5_x作为参数共享网络,获取具 有区分性的中层通道共享信息,去掉主干网络原有的全连接层,增加 一个全局平均池化层和512-dim全连接层来提取特征。
优选的,KL散度损失为:
Lkl=E[DKL(fi||fi′)]+E[DKL(fv||fv′)] (7)
其中,并且特征向量f∈F来自双路径共 享模块512-dim全连接层的输出,f的上标代表网络的两个分支,下 标代表跨模态图像生成网络生成的伪图像,为了减小模态间的差异, 将交叉熵损失和相似度学习的三重熵损失作为共享学习网络的目标 函数,三元组损失可以表述为:
其中fa表示为表示锚点,fp和fn分别表示与fa相同的正样本和与fa不同的负样本,D(·,·)计算欧氏距离,m为边界参数,[x]+=max(x,0)将负 数截断为零,同时保持正数不变。
优选的,使用交叉熵损失进行身份学习,通过双路径共享网络的 最后一个全连接层,可以得到训练图像yi对应的预测值yj′,交叉熵损 失如下所示:
Lce=E[-log(p(yj′|yj))] (9)
其中p(yj′|yj)是输入样本属于真实类的预测概率。
优选的,在步骤5中,总体损失函数可以表示为:
其中超参数λdis和λcyc是控制生成图像的图像跨模态解缠损失和循 环一致性损失重要性的权重,通过优化上述损失,跨模态图像生成网 络可以将红外图像转换为可见光图像,并减少各模态之间的差异,双 路径共享学习网络则能够提取到不同模态图像的具有区分性的中层 特征信息,提高模型的性能。
与现有技术相比,本发明具有以下有益效果:
(1)本发明基于图像生成和共享学习网络的跨模态行人 重识别方法,设计多种损失函数进行模型的优化,保证生成的跨模 态图像具有真实性和多样性。
(2)本发明基于图像生成和共享学习网络的跨模态行人 重识别方法,引入对抗性损失来监督图像生成过程,实现了数据 的增强,减少了不同模态之间的差异。
(3)本发明基于图像生成和共享学习网络的跨模态行人 重识别方法,利用KL发散损失最小化各特征分布之间的距离, 改善了具有相同身份的跨模态图像的相似度分布。
(4)本发明基于图像生成和共享学习网络的跨模态行人 重识别方法,通过采用两种不同深度的编码器来解缠红外图像和可 见光图像,并获得它们的模态特征和外观特征。然后将它们映射为统 一的特定模态空间和共享外观空间,最后,交换共享外观空间的特征并生成成对的跨模态图像以实现模态级别的对齐。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对 实施方式中所需要使用的附图作简单地介绍,应当理解,以下 附图仅示出了本发明的某些实施例,因此不应被看作是对范围 的限定,对于本领域普通技术人员来讲,在不付出创造性劳动 的前提下,还可以根据这些附图获得其他相关的附图。
图1跨模态行人的两种模态示意图。
图2为本发明的总体网络框图。
图3为本发明的双路径共享学习网络框图。
图4为本发明的流程图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚, 下面将结合本发明实施方式中的附图,对本发明实施方式中的 技术方案进行清楚、完整地描述。显然,所描述的实施方式是 本发明一部分实施方式,而不是全部的实施方式。基于本发明 中的实施方式,本领域普通技术人员在没有作出创造性劳动前 提下所获得的所有其他实施方式,都属于本发明保护的范围。
因此,以下对在附图中提供的本发明的实施方式的详细描 述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发 明的选定实施方式。基于本发明中的实施方式,本领域普通技 术人员在没有作出创造性劳动前提下所获得的所有其他实施方 式,都属于本发明保护的范围。
实施例一:
结合图4所示,基于图像生成和共享学习网络的跨模态行人 重识别方法,
步骤1:跨模态图像生成网络的构建,结合图2所示,采用两种 不同深度的编码器来解缠红外图像和可见光图像,并获得它们的模态 特征和外观特征,模态特征包括姿势,视角等,外观特征包括光照、 衣服和包的颜色、风格等,然后将它们映射为统一的特定模态空间和 共享外观空间。最后,交换共享外观空间的特征并生成成对的跨模态 图像以实现模态级别的对齐。
首先将真实的红外图像和可见光图像分别定义为 和其中H和W分别是图像的高和 宽。每一个红外与可见光真实图像分别对应一个真实标签y∈{1,2,...,N}, N是数据集中行人ID的个数。对于每一个由外观编码器和模态编码 器解缠模态图像得到的外观特征和模态特征分别表示为Fa j和Fm j。
其中上标j=i,v,分别表示真实图像的模态属性。Ea和Em分别代表 外观编码器和模态编码器。随后,交换两种不同模态图像的外观特征, 生成伪红外与可见光图像,
其中Gi和Gv分别表示红外生成器与可见光生成器。
步骤2:跨模态图像生成网络损失函数的设计,为保证生成的跨 模态图像具有真实性和多样性,设计多种损失函数进行模型的优化。 首先,跨模态生成侧重于不同模态的图像生成。在这个过程中,获得 两张不同模式的图像后,首先通过跨模态图像生成网络交换它们的模 态特征或外观特征,合成一对新图像。在此过程中,本发明对图像之 间引入了一种跨模态解缠损失。此损失使用L1范数在图像边缘获得 更好的生成性能。因此,跨模态解缠损失公式如下:
其中分别是可见光和红外图像的模态特征和外观特征。 并且,由于生成的伪跨模态图像不存在真实值监督,但具有与原始图 像相同的身份,引入循环一致性损失,通过交换从生成的伪红外和可 见光图像中再次分离出来的模态特征和外观特征,重构出两幅原始图 像,循环一致性损失公式可以表示为:
其中分别为生成的伪红外图像和可见光图像的模态 特征和外观特征。跨模态图像生成网络的目标是生成成对的跨模态行 人图像,但为了进一步正则化生成器,提高生成样本的质量,在同一 模态下引入了一个重构损失。重构损失可以表示为:
图像生成任务最重要的目标是在跨模态行人重识别领域生成真实 的图像,只有真实的图像才能实现数据的增强,减少不同模态之间的 差异。因此,引入对抗性损失来监督图像生成过程。具体来说,在对 抗性训练中分别使用了红外和可见光两种辨别器。生成器试图使用生 成的假图像来欺骗辨别器,而辨别器则试图区分正确和错误的结果。 生成器和辨别器在互相博弈中不断优化网络,对抗性损失如下:
Ladv=E[logDi(xi)+log(1-Di(xi′))]+E[logDv(xv)+log(1-Dv(xv′))] (6)
其中Di和Dv分别对应于红外模态和可见光模态的辨别器。
步骤3:双路径共享学习网络的构建。如图3所示,将跨模态图 像生成网络生成的红外(可见)伪图像与真实红外(可见)图像组合成一 对输入图像,在线输入到双路径共享学习网络进行训练。由于 ResNet-50在防止梯度消失和获得区分性特征方面的有效性,其在计 算机视觉领域得到了广泛的应用,因此采用在ImageNet上预训练的 ResNet-50作为主干网络。ResNet-50包括5个卷积块:conv1、conv2_x、 conv3_x、conv4_x和conv5_x。通过共享较低层次的卷积块以获得更 多的判别信息。在参数共享模块的阶段1,使用conv1、conv2_x和 conv3_x作为两个参数独立的分支,提取红外和可见光图像对应的特 定模态信息。在阶段2,利用conv4_x和conv5_x作为参数共享网络, 获取具有区分性的中层通道共享信息,并且去掉了主干网络原有的全 连接层,增加了一个全局平均池化层和512-dim全连接层来提取特征。
步骤4:共享学习损失函数的设计。给定一组训练图像,利用KL 发散损失最小化各特征分布之间的距离,以改善具有相同身份的跨模 态图像的相似度分布。KL散度损失为:
Lkl=E[DKL(fi||fi′)]+E[DKL(fv||fv′)] (7)
其中,并且特征向量f∈F来自双路径共享 模块512-dim全连接层的输出。f的上标代表网络的两个分支,下标 代表跨模态图像生成网络生成的伪图像。为了减小模态间的差异,将 交叉熵损失和相似度学习的三重熵损失作为共享学习网络的目标函 数。三元组损失可以表述为:
其中fa表示为表示锚点,fp和fn分别表示与fa相同的正样本和与fa不同的负样本。D(·,·)计算欧氏距离,m为边界参数。[x]+=max(x,0)将负 数截断为零,同时保持正数不变。
使用交叉熵损失进行身份学习,通过双路径共享网络的最后一个 全连接层,可以得到训练图像yi对应的预测值yj′。交叉熵损失如下所 示:
Lce=E[-log(p(yj′|yj))] (9)
其中p(yj′|yj)是输入样本属于真实类的预测概率。
步骤5:损失函数的联合优化。本发明将跨模态图像生成网络和 双路径共享学习网络进行联合训练,以端到端的方式优化总目标。总 体损失函数可以表示为:
其中超参数λdis和λcyc是控制生成图像的图像跨模态解缠损失和循 环一致性损失重要性的权重。通过优化上述损失,本发明的跨模态图 像生成网络可以将红外(或可见光)图像转换为可见光(或红外)图像, 并减少各模态之间的差异。双路径共享学习网络则能够提取到不同模 态图像的具有区分性的中层特征信息,提高模型的性能。
步骤6:实验环境及评估标准。实验环境为Ubuntu16.04版本的 操作系统,编程环境为Pycharm,配备了2.50GHz E5-2678 v3 CPU和 显卡为16G的Tesla T4 GPU的设备进行网络的训练。同时,使用 Pytorch的深度学习框架进行网络的搭建,采用的数据集为跨模态行 人重识别领域常用的SYSU-MM01和RegDB数据集。遵循现有跨模 态行人重识别方法的标准评价协议,采用CMC曲线和mAP指标来 评价所提方法的性能。
步骤7:模型实验评估。首先选用训练集对构建的网络模型进行 训练,对训练完成的模型提取查询集和图库集中行人图片的特征,通 过计算查询集中的行人的特征与图库集中的行人特征的余弦距离,判 断模型性能。在SYSU-MM01数据集中,模型的Rank-1达到45.47%, mAP值达到46.29%。在RegDB数据集,模型的Rank-1达到74.98%, mAP值达到68.85%。本方法在两种数据集上都有着优秀的表现,提 高了跨模态行人重识别的准确率以及鲁棒性。
实施例二
基于图像生成和共享学习网络的跨模态行人重识别方法,
步骤1:跨模态图像生成网络的构建,结合图2所示,采用两种 不同深度的编码器来解缠红外图像和可见光图像,并获得它们的模态
首先将真实的红外图像和可见光图像分别定义为 和其中H和W分别是图像的高和 宽。每一个红外与可见光真实图像分别对应一个真实标签y∈{1,2,...,N}, N是数据集中行人ID的个数。对于每一个由外观编码器和模态编码 器解缠模态图像得到的外观特征和模态特征分别表示为Fa j和Fm j。
其中上标j=i,v,分别表示真实图像的模态属性。Ea和Em分别代表 外观编码器和模态编码器。随后,交换两种不同模态图像的外观特征, 生成伪红外与可见光图像,
其中Gi和Gv分别表示红外生成器与可见光生成器。
在跨模态图像生成网络中,外观编码器采用以ResNet-50为主干 的深度网络结构,为了保留更多的纹理信息,使用自适应最大池化层 代替原始的全局平均池化层和全连接层,之后将得到2048×4×1中 的行人外观特征,模态编码器是由四个卷积块、四个残差块和一个空 间金字塔池化层组成的浅层网络,并将输出128×64×32的模态特征, 生成器和由四个卷积块和四个残差块处理外观特征和模态特征,辨别 器则遵循流行的多尺度PatchGAN有三个不同的输入尺度:64×32、 128×64和256×128。对于跨模态图像生成网络,采用随机梯度下降 法(SGD)对网络进行训练。
步骤2:跨模态图像生成网络损失函数的设计,为保证生成的跨 模态图像具有真实性和多样性,设计多种损失函数进行模型的优化。 首先,跨模态生成侧重于不同模态的图像生成。在这个过程中,获得 两张不同模式的图像后,首先通过跨模态图像生成网络交换它们的模 态特征或外观特征,合成一对新图像。在此过程中,本发明对图像之 间引入了一种跨模态解缠损失。此损失使用L1范数在图像边缘获得 更好的生成性能。因此,跨模态解缠损失公式如下:
其中分别是可见光和红外图像的模态特征和外观特征。 并且,由于生成的伪跨模态图像不存在真实值监督,但具有与原始图 像相同的身份,引入循环一致性损失,通过交换从生成的伪红外和可 见光图像中再次分离出来的模态特征和外观特征,重构出两幅原始图 像,循环一致性损失公式可以表示为:
其中分别为生成的伪红外图像和可见光图像的模态特 征和外观特征。跨模态图像生成网络的目标是生成成对的跨模态行人 图像,但为了进一步正则化生成器,提高生成样本的质量,在同一模 态下引入了一个重构损失。重构损失可以表示为:
图像生成任务最重要的目标是在跨模态行人重识别领域生成真实 的图像,只有真实的图像才能实现数据的增强,减少不同模态之间的 差异。因此,引入对抗性损失来监督图像生成过程。具体来说,在对 抗性训练中分别使用了红外和可见光两种辨别器。生成器试图使用生 成的假图像来欺骗辨别器,而辨别器则试图区分正确和错误的结果。 生成器和辨别器在互相博弈中不断优化网络,对抗性损失如下:
Ladv=E[logDi(xi)+log(1-Di(xi′))]+E[logDv(xv)+log(1-Dv(xv′))] (6)
其中Di和Dv分别对应于红外模态和可见光模态的辨别器。
步骤3:双路径共享学习网络的构建。如图3所示,将跨模态图 像生成网络生成的红外(可见)伪图像与真实红外(可见)图像组合成一 对输入图像,在线输入到双路径共享学习网络进行训练。由于 ResNet-50在防止梯度消失和获得区分性特征方面的有效性,其在计 算机视觉领域得到了广泛的应用,因此采用在ImageNet上预训练的 ResNet-50作为主干网络。ResNet-50包括5个卷积块:conv1、conv2_x、 conv3_x、conv4_x和conv5_x。通过共享较低层次的卷积块以获得更 多的判别信息。在参数共享模块的阶段1,使用conv1、conv2_x和 conv3_x作为两个参数独立的分支,提取红外和可见光图像对应的特 定模态信息。在阶段2,利用conv4_x和conv5_x作为参数共享网络, 获取具有区分性的中层通道共享信息,并且去掉了主干网络原有的全 连接层,增加了一个全局平均池化层和512-dim全连接层来提取特征。
采用在ImageNet上预先训练过的ResNet-50作为主干网络,并 将最后卷积块的步长从2改变为1。在训练阶段,红外图像与可见图 像均统一调整为256×128×3。超参数λdis和λcyc分别设为0.5和10。 对于双路径共享学习网络,采用Adam优化器进行训练。
步骤4:共享学习损失函数的设计。给定一组训练图像,利用KL 发散损失最小化各特征分布之间的距离,以改善具有相同身份的跨模 态图像的相似度分布。KL散度损失为:
Lkl=E[DKL(fi||fi′)]+E[DKL(fv||fv′)] (7)
其中,并且特征向量f∈F来自双路径共享模 块512-dim全连接层的输出。f的上标代表网络的两个分支,下标代 表跨模态图像生成网络生成的伪图像。为了减小模态间的差异,将交 叉熵损失和相似度学习的三重熵损失作为共享学习网络的目标函数。 三元组损失可以表述为:
其中fa表示为表示锚点,fp和fn分别表示与fa相同的正样本和与fa不同的负样本。D(·,·)计算欧氏距离,m为边界参数。[x]+=max(x,0)将负 数截断为零,同时保持正数不变。
使用交叉熵损失进行身份学习,通过双路径共享网络的最后一个 全连接层,可以得到训练图像yi对应的预测值yj′。交叉熵损失如下所 示:
Lce=E[-log(p(yj′|yj))] (9)
其中p(yj′|yj)是输入样本属于真实类的预测概率。
步骤5:损失函数的联合优化。本发明将跨模态图像生成网络和 双路径共享学习网络进行联合训练,以端到端的方式优化总目标。总 体损失函数可以表示为:
其中超参数λdis和λcyc是控制生成图像的图像跨模态解缠损失和循 环一致性损失重要性的权重。通过优化上述损失,本发明的跨模态图 像生成网络可以将红外(或可见光)图像转换为可见光(或红外)图像, 并减少各模态之间的差异。双路径共享学习网络则能够提取到不同模 态图像的具有区分性的中层特征信息,提高模型的性能。
步骤6:实验环境及评估标准。实验环境为Ubuntu16.04版本的 操作系统,编程环境为Pycharm,配备了2.50GHz E5-2678 v3 CPU和 显卡为16G的Tesla T4 GPU的设备进行网络的训练。同时,使用 Pytorch的深度学习框架进行网络的搭建,采用的数据集为跨模态行 人重识别领域常用的SYSU-MM01和RegDB数据集。遵循现有跨模 态行人重识别方法的标准评价协议,采用CMC曲线和mAP指标来 评价所提方法的性能。
步骤7:模型实验评估。首先选用训练集对构建的网络模型进行 训练,对训练完成的模型提取查询集和图库集中行人图片的特征,通 过计算查询集中的行人的特征与图库集中的行人特征的余弦距离,判 断模型性能。在SYSU-MM01数据集中,模型的Rank-1达到45.47%, mAP值达到46.29%。在RegDB数据集,模型的Rank-1达到74.98%,mAP值达到68.85%。本方法在两种数据集上都有着优秀的表现,提 高了跨模态行人重识别的准确率以及鲁棒性。
通过上述技术方案得到的装置是基于图像生成和共享学习 网络的跨模态行人重识别方法,首先,提出了一个跨模态生成和 共享学习联合框架,该框架主要由一个跨模态图像生成网络和一个双 路径共享学习网络组成,跨模态图像生成网络可以通过分解行人的模 态特征和外观特征,生成多样的跨模态图像,在保持特定身份一致性 的同时实现模态级别对齐,在双路径共享学习网络中,采用参数共享 模块去获取更具区分性的行人特征信息,实现特征级别对齐。将两个 子网络级联并以端到端方式进行优化,从而使网络提取到更加具有区 分性的行人特征,有效的提升了跨模态行人重识别的性能。
以上所述仅为本发明的优选实施方式而已,并不用于限制 本发明,对于本领域的技术人员来说,本发明可以有各种更改 和变化;凡在本发明的精神和原则之内,所作的任何修改、等 同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于图像生成和共享学习网络的跨模态行人重识别方法,其特征在于,包括以下步骤:
步骤1:跨模态图像生成网络的构建,采用两种不同深度的编码器解缠红外图像和可见光图像,并获得它们的模态特征和外观特征,然后将它们映射为统一的特定模态空间和共享外观空间,最后,交换共享外观空间的特征并生成成对的跨模态图像以实现模态级别的对齐;
步骤2:跨模态图像生成网络损失函数的设计,为了保证生成的跨模态图像具有真实性和多样性,设计多种损失函数进行模型的优化;
步骤3:双路径共享学习网络的构建,将跨模态图像生成网络生成的红外伪图像与真实红外图像组合成一对输入图像,在线输入到双路径共享学习网络进行训练,提取具有区分性的中层特征信息,实现特征级别对齐;
步骤4:共享学习损失函数的设计,给定一组训练图像,利用KL发散损失最小化各特征分布之间的距离,以改善具有相同身份的跨模态图像的相似度分布;
步骤5:损失函数的联合优化,将跨模态图像生成网络和双路径共享学习网络进行联合训练,以端到端的方式优化总目标。
3.根据权利要求1所述基于图像生成和共享学习网络的跨模态行人重识别方法,其特征在于,在步骤2中,首先,跨模态生成侧重于不同模态的图像生成,在这个过程中,获得两张不同模式的图像后,首先通过跨模态图像生成网络交换它们的模态特征或外观特征,合成一对新图像,在此过程中,对图像之间引入跨模态解缠损失,此损失使用L1范数在图像边缘获得更好的生成性能,跨模态解缠损失公式如下:
5.根据权利要求4所述基于图像生成和共享学习网络的跨模态行人重识别方法,其特征在于,重构损失可以表示为:
图像生成任务最重要的目标是在跨模态行人重识别领域生成真实的图像,真实的图像能够实现数据的增强,减少不同模态之间的差异,因此,引入对抗性损失来监督图像生成过程,在对抗性训练中分别使用红外和可见光两种辨别器,生成器试图使用生成的假图像来欺骗辨别器,而辨别器则试图区分正确和错误的结果,生成器和辨别器在互相博弈中不断优化网络,对抗性损失如下:
Ladv=E[logDi(xi)+log(1-Di(xi′))]+E[logDv(xv)+log(1-Dv(xv′))] (6)
其中Di和Dv分别对应于红外模态和可见光模态的辨别器。
6.根据权利要求1所述基于图像生成和共享学习网络的跨模态行人重识别方法,其特征在于,在步骤3中,在ImageNet上预训练的ResNet-50作为主干网络,所述ResNet-50包括5个卷积块:conv1、conv2_x、conv3_x、conv4_x和conv5_x,通过共享较低层次的卷积块以获得更多的判别信息,在参数共享模块的阶段1,使用conv1、conv2_x和conv3_x作为两个参数独立的分支,提取红外和可见光图像对应的特定模态信息,在阶段2,利用conv4_x和conv5_x作为参数共享网络,获取具有区分性的中层通道共享信息,去掉主干网络原有的全连接层,增加一个全局平均池化层和512-dim全连接层来提取特征。
7.根据权利要求1所述基于图像生成和共享学习网络的跨模态行人重识别方法,其特征在于,KL散度损失为:
Lkl=E[DKL(fi||fi′)]+E[DKL(fv||fv′)] (7)
其中,并且特征向量f∈F来自双路径共享模块512-dim全连接层的输出,f的上标代表网络的两个分支,下标代表跨模态图像生成网络生成的伪图像,为了减小模态间的差异,将交叉熵损失和相似度学习的三重熵损失作为共享学习网络的目标函数,三元组损失可以表述为:
其中fa表示为表示锚点,fp和fn分别表示与fa相同的正样本和与fa不同的负样本,D(·,·)计算欧氏距离,m为边界参数,[x]+=max(x,0)将负数截断为零,同时保持正数不变。
8.根据权利要求7所述基于图像生成和共享学习网络的跨模态行人重识别方法,其特征在于,使用交叉熵损失进行身份学习,通过双路径共享网络的最后一个全连接层,可以得到训练图像yi对应的预测值yj′,交叉熵损失如下所示:
Lce=E[-log(p(yj′|yj))] (9)
其中p(yj′|yj)是输入样本属于真实类的预测概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111459943.7A CN114241517B (zh) | 2021-12-02 | 2021-12-02 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111459943.7A CN114241517B (zh) | 2021-12-02 | 2021-12-02 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114241517A true CN114241517A (zh) | 2022-03-25 |
CN114241517B CN114241517B (zh) | 2024-02-27 |
Family
ID=80752978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111459943.7A Active CN114241517B (zh) | 2021-12-02 | 2021-12-02 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241517B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743162A (zh) * | 2022-04-07 | 2022-07-12 | 浙江工业大学 | 一种基于生成对抗网络的跨模态行人重识别方法 |
CN114882525A (zh) * | 2022-04-21 | 2022-08-09 | 中国科学技术大学 | 基于模态特定记忆网络的跨模态行人重识别方法 |
CN116540204A (zh) * | 2023-07-05 | 2023-08-04 | 中南大学 | 一种行为识别方法、装置、终端设备及介质 |
CN116682144A (zh) * | 2023-06-20 | 2023-09-01 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
CN116993663A (zh) * | 2023-06-12 | 2023-11-03 | 阿里巴巴(中国)有限公司 | 图像处理方法、图像处理模型的训练方法 |
CN117078983A (zh) * | 2023-10-16 | 2023-11-17 | 安徽启新明智科技有限公司 | 图像匹配方法、装置、设备 |
CN117935172A (zh) * | 2024-03-21 | 2024-04-26 | 南京信息工程大学 | 一种基于光谱信息过滤的可见光红外行人重识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN111325115A (zh) * | 2020-02-05 | 2020-06-23 | 山东师范大学 | 带有三重约束损失的对抗跨模态行人重识别方法和系统 |
US20200285896A1 (en) * | 2019-03-09 | 2020-09-10 | Tongji University | Method for person re-identification based on deep model with multi-loss fusion training strategy |
CN112651262A (zh) * | 2019-10-09 | 2021-04-13 | 四川大学 | 一种基于自适应行人对齐的跨模态行人重识别方法 |
CN112766217A (zh) * | 2021-01-30 | 2021-05-07 | 上海工程技术大学 | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 |
CN113283362A (zh) * | 2021-06-04 | 2021-08-20 | 中国矿业大学 | 一种跨模态的行人重识别方法 |
-
2021
- 2021-12-02 CN CN202111459943.7A patent/CN114241517B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
US20200285896A1 (en) * | 2019-03-09 | 2020-09-10 | Tongji University | Method for person re-identification based on deep model with multi-loss fusion training strategy |
CN112651262A (zh) * | 2019-10-09 | 2021-04-13 | 四川大学 | 一种基于自适应行人对齐的跨模态行人重识别方法 |
CN111325115A (zh) * | 2020-02-05 | 2020-06-23 | 山东师范大学 | 带有三重约束损失的对抗跨模态行人重识别方法和系统 |
CN112766217A (zh) * | 2021-01-30 | 2021-05-07 | 上海工程技术大学 | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 |
CN113283362A (zh) * | 2021-06-04 | 2021-08-20 | 中国矿业大学 | 一种跨模态的行人重识别方法 |
Non-Patent Citations (1)
Title |
---|
冯敏;张智成;吕进;余磊;韩斌;: "基于生成对抗网络的跨模态行人重识别研究", 现代信息科技, no. 04, 25 February 2020 (2020-02-25) * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743162A (zh) * | 2022-04-07 | 2022-07-12 | 浙江工业大学 | 一种基于生成对抗网络的跨模态行人重识别方法 |
CN114882525A (zh) * | 2022-04-21 | 2022-08-09 | 中国科学技术大学 | 基于模态特定记忆网络的跨模态行人重识别方法 |
CN114882525B (zh) * | 2022-04-21 | 2024-04-02 | 中国科学技术大学 | 基于模态特定记忆网络的跨模态行人重识别方法 |
CN116993663A (zh) * | 2023-06-12 | 2023-11-03 | 阿里巴巴(中国)有限公司 | 图像处理方法、图像处理模型的训练方法 |
CN116993663B (zh) * | 2023-06-12 | 2024-04-30 | 阿里巴巴(中国)有限公司 | 图像处理方法、图像处理模型的训练方法 |
CN116682144A (zh) * | 2023-06-20 | 2023-09-01 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
CN116682144B (zh) * | 2023-06-20 | 2023-12-22 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
CN116540204A (zh) * | 2023-07-05 | 2023-08-04 | 中南大学 | 一种行为识别方法、装置、终端设备及介质 |
CN116540204B (zh) * | 2023-07-05 | 2023-09-05 | 中南大学 | 一种行为识别方法、装置、终端设备及介质 |
CN117078983A (zh) * | 2023-10-16 | 2023-11-17 | 安徽启新明智科技有限公司 | 图像匹配方法、装置、设备 |
CN117078983B (zh) * | 2023-10-16 | 2023-12-29 | 安徽启新明智科技有限公司 | 图像匹配方法、装置、设备 |
CN117935172A (zh) * | 2024-03-21 | 2024-04-26 | 南京信息工程大学 | 一种基于光谱信息过滤的可见光红外行人重识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114241517B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114241517A (zh) | 基于图像生成和共享学习网络的跨模态行人重识别方法 | |
CN109815893B (zh) | 基于循环生成对抗网络的彩色人脸图像光照域归一化的方法 | |
CN108520216B (zh) | 一种基于步态图像的身份识别方法 | |
CN110188611A (zh) | 一种引入视觉注意力机制的行人重识别方法及系统 | |
CN110263697A (zh) | 基于无监督学习的行人重识别方法、装置及介质 | |
Campo et al. | Multimodal stereo vision system: 3D data extraction and algorithm evaluation | |
CN110309798A (zh) | 一种基于域自适应学习和域泛化的人脸欺骗检测方法 | |
CN106096568A (zh) | 一种基于cnn和卷积lstm网络的行人再识别方法 | |
CN105574510A (zh) | 一种步态识别方法及装置 | |
CN101807245A (zh) | 基于人工神经网络的多源步态特征提取与身份识别方法 | |
CN113516005B (zh) | 一种基于深度学习和姿态估计的舞蹈动作评价系统 | |
CN103971329A (zh) | 一种基于遗传优化细胞神经网络的多源图像融合方法 | |
CN109614853A (zh) | 一种基于身体结构划分的双线性行人再识别网络构建方法 | |
CN112818790A (zh) | 一种基于注意力机制与空间几何约束的行人重识别方法 | |
CN112199983A (zh) | 一种多层次筛选的长时间大范围行人再识别方法 | |
CN111914758A (zh) | 一种基于卷积神经网络的人脸活体检测方法及装置 | |
CN112069891A (zh) | 一种基于光照特征的深度伪造人脸鉴别方法 | |
CN114550208A (zh) | 基于全局级别和局部级别联合约束的跨模态行人再识别方法 | |
CN115294655A (zh) | 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 | |
CN112580445A (zh) | 基于生成对抗网络的人体步态图像视角转化方法 | |
CN114495170A (zh) | 一种基于局部抑制自注意力的行人重识别方法及系统 | |
CN102592150A (zh) | 基于模糊理论决策的双向二维主成分分析的步态识别方法 | |
CN114429646A (zh) | 基于深度自注意力变换网络的步态识别方法 | |
CN113569639B (zh) | 一种基于样本中心损失函数的跨模态行人重识别方法 | |
Zhou et al. | A relation network design for visible thermal person re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |