CN112766217A - 基于解纠缠和特征级差异学习的跨模态行人重识别方法 - Google Patents

基于解纠缠和特征级差异学习的跨模态行人重识别方法 Download PDF

Info

Publication number
CN112766217A
CN112766217A CN202110131884.4A CN202110131884A CN112766217A CN 112766217 A CN112766217 A CN 112766217A CN 202110131884 A CN202110131884 A CN 202110131884A CN 112766217 A CN112766217 A CN 112766217A
Authority
CN
China
Prior art keywords
image
content
pedestrian
style
visible light
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110131884.4A
Other languages
English (en)
Other versions
CN112766217B (zh
Inventor
梁轶磊
韩华
孔勇
黄丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Engineering Science
Original Assignee
Shanghai University of Engineering Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Engineering Science filed Critical Shanghai University of Engineering Science
Priority to CN202110131884.4A priority Critical patent/CN112766217B/zh
Publication of CN112766217A publication Critical patent/CN112766217A/zh
Application granted granted Critical
Publication of CN112766217B publication Critical patent/CN112766217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本发明涉及一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,包括:采用可见光摄像机和红外摄像机采集多张行人图片形成数据集;选取可见光模态的两张图像记为x1和x2、选取红外模态的两张图像记为y1和y3,图像x1和y1共享身份信息,图像x2和y3不共享身份信息;获取自编码模型,分别对图像x1、x2、y1和y3解纠缠出风格特征和内容特征;获取生成与判别网络,对风格特征和内容特征进行重构得到多个新图像;获取特征级差异学习网络,对多个新图像和原图像进行特征学习,获取行人识别结果。与现有技术相比,本发明解决了可能存在的跨模态图像间内容信息(如姿态、体态)相近的问题、提升了模型判别的泛化能力、减少了模态间和模态内的差异。

Description

基于解纠缠和特征级差异学习的跨模态行人重识别方法
技术领域
本发明涉及行人重识别方法领域,尤其是涉及一种基于解纠缠和特征级差异学习的跨模态行人重识别方法。
背景技术
近年来,随着计算机与人工智能技术的大力发展,视频监控系统大量普及。视频监控系统的广泛应用,有效地降低了公安机关的办案周期,在打击犯罪、维护社会治安中发挥着重要的作用。在实际应用中,在海量的视频数据中,针对特定目标的识别与检索是日常安保与破案地重要需求。随着摄像机监控网络的普遍布局,仅仅依靠人工的方法进行重识别也变得越来越不现实。因此,迫切需要一种技术来减轻有限人力资源的负担、增强识别的能力。
行人重识别旨在摄像机视图之间匹配行人图像,能够根据行人的穿着、体态、发型等信息认知行人,其在视频监控和跟踪等计算机视觉任务中具有潜在的广泛应用价值。然而,传统的行人重识别只能处理彩色图像间的单模态问题,对于黑暗的环境,例如在夜间,传统的行人重识别会受到光线昏暗因素的影响导致识别效果不佳,好在现在的摄像头大多具有可见光和红外两种识别模式,因此,红外成像变得很有必要,需要将彩色可见光图像与红外图像进行匹配。跨模态行人重识别是研究从红外模态的图像中检索给定的可见光模态行人图像的问题,该任务可以解决在黑暗环境中传统行人重识别的局限性。
虽然现有的跨模态行人重识别方法已经在许多实验中显示出不错的效果,但是加强对跨模态行人重识别的方法探索仍然是一项非常重要的任务。其中一个主要的问题就是可见光图像和红外图像之间存在巨大差异,两个模态间图像通道数不同、红外图像中没有颜色信息等,因此现如今的跨模态行人重识别系统性能普遍低于传统行人重识别;而另一个问题是除了由不同的相机光谱引起的跨模态差异外,跨模态行人重识别还会因不同的相机视角和人体姿态而产生较大的跨模态和模态内的变化,现有的方法主要通过缩小两个模态间的距离或进行特征级约束同时减少外观和模态差异,但这些方法可能很难消除混合差异和某些实例级的对齐错误。
综上所述,跨模态行人重识别方法是行人重识别领域当下具有挑战且关键的研究方向,尽管目前国内外的研究已经取得了很多优秀的研究成果,但是随着摄像头监控网络的快速发展,拍摄条件的复杂化,以及安防条件与需求的提高,目前已有跨模态行人重识别方法在重识别匹配精度上的表现并不能满足实际应用的需求,因此,本发明对跨模态行人重识别领域的研究将具有非常重要的理论意义和应用价值。
发明内容
本发明的目的就是为了克服上述现有技术存在可能很难消除混合差异和某些实例级的对齐错误的缺陷而提供一种同时减少模态内和模态间差异,并注重图像级和特征级相结合的基于解纠缠和特征级差异学习的跨模态行人重识别方法。
本发明的目的可以通过以下技术方案来实现:
一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,包括以下步骤:
采用可见光摄像机和红外摄像机在不同的位置采集多张行人图片形成数据集,并对数据集中的图片进行预处理;
从所述数据集中选取可见光模态的两张输入图像记为x1和x2、选取红外模态的两张输入图像记为y1和y3,所述图像x1和y1共享身份信息,所述图像x2和y3不共享身份信息;
获取预先建立的解纠缠图像特征的自编码模型,采用该自编码模型分别对所述图像x1、x2、y1和y3进行解编码操作,解纠缠出每幅图像的风格特征和内容特征;
获取预先建立并训练好的生成与判别网络,将解纠缠获取每幅图像的风格特征和内容特征以及对应的原图像载入该生成与判别网络中;所述生成与判别网络包括解码器和判别器,所述解码器对所述风格特征和内容特征进行重构得到多个新图像,所述判别器对所述多个新图像和原图像进行判别,从而得到总体对抗损失;
获取预先建立并训练好的特征级差异学习网络,对所述多个新图像和原图像进行特征学习,获取行人识别结果;
所述生成与判别网络和特征级差异学习网络通过级联连接,所述生成与判别网络和特征级差异学习网络共同进行训练,所述生成与判别网络和特征级差异学习网络的总体损失函数包括解码器的损失函数、所述总体对抗损失和特征级差异学习网络的损失函数。
进一步地,所述自编码模型包括提取不同模态行人图像风格的风格编码器和保持行人图像本身语义的内容编码器。
进一步地,所述可见光模态的两张输入图像x1和x2在输入所述内容编码器前还包括将图像转化为灰度图。
进一步地,所述跨模态行人重识别方法还包括采用KL散度损失函数计算所述图像x1和y1的内容编码器的损失,得到总体KL散度损失,所述总体损失函数还包括总体KL散度损失,所述总体KL散度损失的计算表达式为:
Figure BDA0002925654750000031
Figure BDA0002925654750000032
Figure BDA0002925654750000033
式中,Lkl为总体KL散度损失,E为数学期望,
Figure BDA0002925654750000034
Figure BDA0002925654750000035
为图像x1解纠缠后的内容特征,
Figure BDA0002925654750000036
为图像y1解纠缠后的内容特征,
Figure BDA0002925654750000037
为图像σ的内容编码器,θ∈{x1,y1}。
进一步地,所述风格编码器的编码过程为
Figure BDA0002925654750000038
Figure BDA0002925654750000039
Figure BDA00029256547500000310
内容编码器的编码过程为
Figure BDA00029256547500000311
Figure BDA00029256547500000312
Figure BDA00029256547500000313
其中,
Figure BDA00029256547500000314
表示图像θ的风格编码器,θ∈{x1,x2,y1,y3},
Figure BDA00029256547500000315
表示图像θ的内容编码器,θ∈{x1,x2,y1,y3},
Figure BDA00029256547500000316
为风格编码器
Figure BDA00029256547500000317
对可见光模态的图像x1进行编码后的风格特征,
Figure BDA00029256547500000318
为内容编码器
Figure BDA00029256547500000319
对可见光模态的图像x1进行编码后的内容特征,
Figure BDA00029256547500000320
为风格编码器
Figure BDA00029256547500000321
对可见光模态的图像x2进行编码后的风格特征,
Figure BDA00029256547500000322
为内容编码器
Figure BDA00029256547500000323
对可见光模态的图像x2进行编码后的内容特征,
Figure BDA00029256547500000324
为风格编码器
Figure BDA00029256547500000325
对红外模态的图像y1进行编码后的风格特征,
Figure BDA00029256547500000326
为内容编码器
Figure BDA00029256547500000327
对红外模态的图像y1进行编码后的内容特征,
Figure BDA00029256547500000328
风格编码器
Figure BDA00029256547500000329
对红外模态的图像y3进行编码后的风格特征,
Figure BDA00029256547500000330
为内容编码器
Figure BDA00029256547500000331
对红外模态的图像y3进行编码后的内容特征;
所述解码器对所述风格特征和内容特征进行重构得到多个新图像具体为:
一方面,可见光模态风格特征
Figure BDA00029256547500000332
和红外模态内容特征
Figure BDA00029256547500000333
作为解码器G的输入,重构生成新的可见光模态行人图像x′1,可见光模态风格特征
Figure BDA00029256547500000334
和红外模态内容特征
Figure BDA00029256547500000335
作为解码器G的输入,重构生成新的可见光模态行人图像x″1,可见光模态风格特征
Figure BDA00029256547500000336
和红外模态内容特征
Figure BDA00029256547500000337
作为解码器G的输入,重构生成新的可见光模态行人图像x′2
另一方面,红外模态风格特征
Figure BDA0002925654750000041
和可见光模态内容特征
Figure BDA0002925654750000042
作为解码器G的输入,重构生成新的红外模态行人图像y′1,红外模态风格特征
Figure BDA0002925654750000043
和可见光模态内容特征
Figure BDA0002925654750000044
作为解码器G的输入,重构生成新的红外模态行人图像y″1,红外模态风格特征
Figure BDA0002925654750000045
和可见光模态内容特征
Figure BDA0002925654750000046
作为解码器G的输入,重构生成新的红外模态行人图像y′3
所述判别器对所述多个新图像和原图像进行判别具体为:
将重构生成的可见光模态行人图像x′1、x″1、x′2和真实的可见光模态行人图像x1输入到判别器中,判别输入的图像是真实的可见光模态行人图像还是解码器重构生成的,将重构生成的红外模态行人图像y′1、y″1、y′3和真实的红外模态行人图像y1输入到判别器中,判别输入的图像是真实的红外模态行人图像还是解码器重构生成的。
进一步地,所述解码器和判别器满足:
Figure BDA0002925654750000047
Figure BDA0002925654750000048
式中,E表示数学期望,D1(·)和D2(·)为判别器,
Figure BDA0002925654750000049
表示
Figure BDA00029256547500000410
服从可见光模态风格特征分布
Figure BDA00029256547500000411
表示
Figure BDA00029256547500000412
服从可见光模态内容特征分布
Figure BDA00029256547500000413
表示
Figure BDA00029256547500000414
服从可见光模态风格特征分布
Figure BDA00029256547500000415
表示
Figure BDA00029256547500000416
服从可见光模态内容特征分布
Figure BDA00029256547500000417
表示
Figure BDA00029256547500000418
服从红外模态风格特征分布
Figure BDA00029256547500000419
表示
Figure BDA00029256547500000420
服从红外模态内容特征分布
Figure BDA00029256547500000421
Figure BDA0002925654750000051
表示
Figure BDA0002925654750000052
服从红外模态风格特征分布
Figure BDA0002925654750000053
表示
Figure BDA0002925654750000054
服从红外模态内容特征分布
Figure BDA0002925654750000055
x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),
Figure BDA0002925654750000056
为图像x1解纠缠后的风格特征,
Figure BDA0002925654750000057
为图像x2解纠缠后的风格特征,
Figure BDA0002925654750000058
为图像y1解纠缠后的风格特征,
Figure BDA0002925654750000059
为图像y3解纠缠后的风格特征,
Figure BDA00029256547500000510
为图像x1解纠缠后的内容特征,
Figure BDA00029256547500000511
为图像x2解纠缠后的内容特征,
Figure BDA00029256547500000512
为图像y1解纠缠后的内容特征,
Figure BDA00029256547500000513
为图像y3解纠缠后的内容特征,
Figure BDA00029256547500000514
表示解码器G将风格特征
Figure BDA00029256547500000515
和内容特征
Figure BDA00029256547500000516
重构得到新的可见光模态行人图像x′1
Figure BDA00029256547500000517
表示解码器G将风格特征
Figure BDA00029256547500000518
和内容特征
Figure BDA00029256547500000519
重构得到新的红外模态行人图像y′1
Figure BDA00029256547500000520
Figure BDA00029256547500000521
表示解码器G将风格特征
Figure BDA00029256547500000522
和内容特征
Figure BDA00029256547500000523
重构得到新的可见光模态行人图像x″1
Figure BDA00029256547500000524
表示解码器G将风格特征
Figure BDA00029256547500000525
和内容特征
Figure BDA00029256547500000526
重构得到新的红外模态行人图像y′3
Figure BDA00029256547500000527
表示解码器G将风格特征
Figure BDA00029256547500000528
和内容特征
Figure BDA00029256547500000529
重构得到新的可见光模态行人图像x′2
Figure BDA00029256547500000530
Figure BDA00029256547500000531
表示解码器G将风格特征
Figure BDA00029256547500000532
和内容特征
Figure BDA00029256547500000533
重构得到新的红外模态行人图像y″1
Figure BDA00029256547500000534
所述总体对抗损失的计算表达式为:
Figure BDA00029256547500000535
式中,Ladv为总体对抗损失。
进一步地,通过构造多光谱图像vi={[x1,y′1],[x′1,y1],[x2,y″1],[x″1,y3]}作为统一表示来形成集合S,构建基于ResNet-50骨干网络的特征级差异学习网络,并进行特征学习,给定一个混合多光谱图像通过深度特征提取网络提取出行人描述符f,行人描述符f使用全连接层的输出特征向量,将其馈送到另两个独立的全连接层,以生成两个特征向量fq和fc,最后利用跨模态四元组损失和交叉熵损失来监督特征级差异学习网络的训练。
进一步地,所述跨模态四元组损失为:
Figure BDA00029256547500000536
其中,R为可见光模态,I为红外模态,Rp和Ip表示锚点样本,同时Ip为Rp的正样本,Rp也为Ip的正样本,Rn和In为负样本,f(x)为映射函数,d(·,·)是欧几里得距离,α1和α2是阈值,且α1>α2,[z]+=max(z,0)。
进一步地,采用交叉风格损失、同模态重构损失、跨模态重构损失、循环一致性损失和编码损失来训练所述解码器,所述交叉风格损失的计算表达式为:
Figure BDA0002925654750000061
Figure BDA0002925654750000062
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),‖·‖1表示1范数,
Figure BDA0002925654750000063
为图像x1解纠缠后的风格特征,
Figure BDA0002925654750000064
为图像x2解纠缠后的风格特征,
Figure BDA0002925654750000065
为图像y1解纠缠后的风格特征,
Figure BDA0002925654750000066
为图像y3解纠缠后的风格特征;
所述解码器的损失函数包括总体交叉风格损失,该总体交叉风格损失的计算表达式为:
Figure BDA0002925654750000067
式中,
Figure BDA0002925654750000068
为总体交叉风格损失。
进一步地,所述总体损失函数表示如下:
Figure BDA0002925654750000069
其中,λj,j∈{1,2,……,9}为控制损失项的超参数,Lkl为总体KL散度损失,
Figure BDA00029256547500000610
为总体交叉风格损失,
Figure BDA00029256547500000611
为总体同模态重构损失,
Figure BDA00029256547500000614
为总体跨模态重构损失,
Figure BDA00029256547500000612
为总体循环一致性损失,
Figure BDA00029256547500000613
为总体编码损失,Ladv为总体对抗损失,LQ为跨模态四元组损失,LC为交叉熵损失。
与现有技术相比,本发明具有以下优点:
本发明跨模态行人重识别方法,提出了一种新颖的解纠缠图像特征的自编码模型,该模型在输入图像中不仅包含两个模态间一对共享身份信息的图像,还有两张彼此不共享身份信息,且也不与模态内图像共享身份的图像,以此解决可能存在的跨模态图像间内容信息(如姿态、体态)相近的问题,提升模型判别的泛化能力;
同时共享身份信息的一对图像除了彼此需要进行跨模态的转换之外,还需要分别与另一张跨模态但不共享身份信息的图像进行转换,并且在过程中引入了交叉风格损失,使得解码器能生成更多姿态变化、更逼真的图像来训练判别器;
针对解码器更关注风格特征包含的更多空间几何位置信息,采用在可见光图像输入内容编码器前,先将其转化为灰度图,再送入内容编码器中生成内容特征,此步骤还能减少内容特征所附带的颜色信息;
为更好的减少模态间和模态内得差异,特征级差异学习网络中应用了新颖的跨模态四元组损失替代传统的三元组损失。
附图说明
图1为本发明实施例中基于解纠缠和特征级差异学习的跨模态行人重识别方法的实施流程图;
图2为本发明实施例中自编码模型及生成和判别网络的结构示意图;
图3为本发明实施例中交叉风格损失的说明图;
图4为本发明实施例中同模态重构损失的说明图;
图5为本发明实施例中跨模态重构损失、循环一致性损失及编码损失的说明图;
图6为本发明实施例中特征级差异学习网络的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本实施例提供一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,如图1所示,包括:
步骤S1:采用不同的可见光摄像机和红外摄像机在不同的位置采集多张行人图片形成数据集,对数据集内的图片进行预处理,并将该数据集划分为训练集和测试集;
具体为:使用不同的可见光摄像机分别在不同位置收集若干张行人图像作为可见光模态的训练图像和测试图像,使用不同的红外摄像机在不同位置收集若干张行人图像作为红外模态的训练图像和测试图像,将所有图片的大小调整为256×128,且随意左右翻转图片;
步骤S2:建立解纠缠图像特征的自编码模型,该模型分别对输入的两个模态各两张图像进行解编码操作,解纠缠出两个模态图像的风格特征和内容特征,其中,两个模态间有一对共享身份信息的图像,另外两张图像彼此不共享身份信息,且也不与模态内的图像共享;
即:对预处理后输入的两个模态的行人图像进行编码处理,可见光模态的两张输入图像记为x1和x2,红外模态的两张输入图像记为y1和y3,其中,可见光模态中的图像x1与红外模态中的图像y1共享身份信息,分别解纠缠出两个模态总共四张行人图像的风格特征和内容特征;
所述步骤S2的自编码模型结构示意图如图2所示,该模型具体由风格编码器和内容编码器组成,风格编码器将目标域内的行人图像编码为风格特征,内容编码器将目标域内的行人图像编码为内容特征,以可见光模态的图像x1为例,其风格编码器
Figure BDA0002925654750000081
将图像x1编码为风格特征
Figure BDA0002925654750000082
编码过程记为
Figure BDA0002925654750000083
其内容编码器
Figure BDA0002925654750000084
将图像x1编码为内容特征
Figure BDA0002925654750000085
编码过程记为
Figure BDA0002925654750000086
同理,可见光模态的图像x2的风格编码器
Figure BDA0002925654750000087
将图像x2编码为风格特征
Figure BDA0002925654750000088
编码过程记为
Figure BDA0002925654750000089
其内容编码器
Figure BDA00029256547500000810
将图像x2编码为内容特征
Figure BDA00029256547500000811
编码过程记为
Figure BDA00029256547500000812
以红外模态的图像y1为例,其风格编码器
Figure BDA00029256547500000813
将图像y1编码为风格特征
Figure BDA00029256547500000814
编码过程记为
Figure BDA00029256547500000815
其内容编码器
Figure BDA00029256547500000816
将图像y1编码为内容特征
Figure BDA00029256547500000817
编码过程记为
Figure BDA00029256547500000818
同理,红外模态的图像y3的风格编码器
Figure BDA00029256547500000819
将图像y3编码为风格特征
Figure BDA00029256547500000820
编码过程记为
Figure BDA00029256547500000821
其内容编码器
Figure BDA00029256547500000822
将图像y3编码为内容特征
Figure BDA00029256547500000823
编码过程记为
Figure BDA00029256547500000824
其中,风格编码器均由三层下采样的卷积神经网络、一个全局平均池化层和一个全连接层组成,第一层的卷积核大小为7×7,滤波器个数为64,步长为1,第二与第三层的卷积核大小都为4×4,滤波器个数分别为128和256,步长为2,内容编码器均由三层下采样的卷积神经网络和四个残差块构成,第一层的卷积核大小为7×7,滤波器个数为64,步长为1,第二与第三层的卷积核大小都为4×4,滤波器个数分别为128和256,步长为2;
本实施例通过KL散度损失函数帮助共享身份信息的一对跨模态图像x1与y1的内容编码器
Figure BDA00029256547500000825
Figure BDA00029256547500000826
学习更多的信息表示,使其更接近高斯分布:
Figure BDA00029256547500000827
Figure BDA0002925654750000091
其中,E表示数学期望,
Figure BDA0002925654750000092
为图像x1解纠缠后的内容特征,
Figure BDA0002925654750000093
为图像y1解纠缠后的内容特征,
Figure BDA0002925654750000094
Figure BDA0002925654750000095
为图像σ的内容编码器,σ∈{x1,y1},总体KL散度损失为:
Figure BDA0002925654750000096
本实施例在得到可见光模态的内容特征时,先将输入图像转化为灰度图像,再送入到内容编码器生成内容特征;
步骤S3:建立生成与判别网络,通过解纠缠后得到的风格和内容特征重构得到新的行人图像,实现跨模态的转换,得到的新图像与原图像共同输入判别网络进行判别,其中,共享身份信息的一对图像除了彼此需要进行跨模态的转换之外,还需要分别与另一张跨模态但不共享身份信息的图像进行转换;
具体为:该网络具体包括解码器和判别器,图像解码器将解纠缠得到的其中一个模态的风格特征和另一个模态的内容特征重构出新的行人图像,生成和判别网络的结构示意图如图2所示:
一方面,可见光模态风格特征
Figure BDA0002925654750000097
和红外模态内容特征
Figure BDA0002925654750000098
作为解码器G的输入,重构生成新的可见光模态行人图像x′1,该图像保留了真实的可见光模态的风格信息,并加入了真实的红外模态的内容信息,同理,可见光模态风格特征
Figure BDA0002925654750000099
和红外模态内容特征
Figure BDA00029256547500000910
作为解码器G的输入,重构生成新的可见光模态行人图像x″1,可见光模态风格特征
Figure BDA00029256547500000911
和红外模态内容特征
Figure BDA00029256547500000912
作为解码器G的输入,重构生成新的可见光模态行人图像x′2
另一方面,红外模态风格特征
Figure BDA00029256547500000913
和可见光模态内容特征
Figure BDA00029256547500000914
作为解码器G的输入,重构生成新的红外模态行人图像y′1,该图像保留了真实的红外模态的风格信息,并加入了真实的可见光模态的内容信息,同理,红外模态风格特征
Figure BDA00029256547500000915
和可见光模态内容特征
Figure BDA00029256547500000916
作为解码器G的输入,重构生成新的红外模态行人图像y″1,红外模态风格特征
Figure BDA00029256547500000917
和可见光模态内容特征
Figure BDA00029256547500000918
作为解码器G的输入,重构生成新的红外模态行人图像y′3
其中,解码器由三层上采样的卷积神经网络和四个残差块组成,第一与第二层的卷积核大小为5×5,滤波器个数为128和64,步长为1,第三层的卷积核大小都为7×7,滤波器个数分别为3,步长为1;
将重构生成的可见光模态行人图像x′1、x″1、x′2和真实的可见光模态行人图像x1输入到判别器中,判别输入的图像是真实的可见光模态行人图像还是解码器重构生成的,同理,将重构生成的红外模态行人图像y′1、y″1、y′3和真实的红外模态行人图像y1输入到判别器中,判别输入的图像是真实的红外模态行人图像还是解码器重构生成的;
本实例通过交叉风格损失、同模态重构损失、跨模态重构损失、循环一致性损失及编码损失来训练解码器:
交叉风格损失(图3所示):
Figure BDA0002925654750000101
Figure BDA0002925654750000102
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),‖·‖1表示1范数,
Figure BDA0002925654750000103
为图像x1解纠缠后的风格特征,
Figure BDA0002925654750000104
为图像x2解纠缠后的风格特征,
Figure BDA0002925654750000105
为图像y1解纠缠后的风格特征,
Figure BDA0002925654750000106
为图像y3解纠缠后的风格特征,总体交叉风格损失为:
Figure BDA0002925654750000107
同模态重构损失(图4所示):
Figure BDA0002925654750000108
Figure BDA0002925654750000109
Figure BDA00029256547500001010
Figure BDA00029256547500001011
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),‖·‖1表示1范数,
Figure BDA00029256547500001012
为图像x1解纠缠后的风格特征,
Figure BDA00029256547500001013
为图像x1解纠缠后的内容特征,
Figure BDA00029256547500001014
为图像x2解纠缠后的风格特征,
Figure BDA00029256547500001015
为图像x2解纠缠后的内容特征,
Figure BDA00029256547500001016
为图像y1解纠缠后的风格特征,
Figure BDA00029256547500001017
为图像y1解纠缠后的内容特征,
Figure BDA00029256547500001018
为图像y3解纠缠后的风格特征,
Figure BDA00029256547500001019
为图像y3解纠缠后的内容特征,
Figure BDA00029256547500001020
表示解码器G将风格特征
Figure BDA00029256547500001021
和内容特征
Figure BDA00029256547500001022
重构得到新的可见光模态行人图像
Figure BDA0002925654750000111
表示解码器G将风格特征
Figure BDA0002925654750000112
和内容特征
Figure BDA0002925654750000113
重构得到新的可见光模态行人图像
Figure BDA0002925654750000114
Figure BDA0002925654750000115
表示解码器G将风格特征
Figure BDA0002925654750000116
和内容特征
Figure BDA0002925654750000117
重构得到新的红外模态行人图像
Figure BDA0002925654750000118
表示解码器G将风格特征
Figure BDA0002925654750000119
和内容特征
Figure BDA00029256547500001110
重构得到新的红外模态行人图像
Figure BDA00029256547500001111
总体同模态重构损失为:
Figure BDA00029256547500001112
跨模态重构损失(图5所示):
Figure BDA00029256547500001113
Figure BDA00029256547500001114
Figure BDA00029256547500001115
Figure BDA00029256547500001116
Figure BDA00029256547500001117
Figure BDA00029256547500001118
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),‖·‖1表示1范数,
Figure BDA00029256547500001119
为图像x1解纠缠后的风格特征,
Figure BDA00029256547500001120
为图像y1解纠缠后的内容特征,
Figure BDA00029256547500001121
为图像x2解纠缠后的风格特征,
Figure BDA00029256547500001122
为图像x2解纠缠后的内容特征,
Figure BDA00029256547500001123
为图像y1解纠缠后的风格特征,
Figure BDA00029256547500001124
为图像y1解纠缠后的内容特征,
Figure BDA00029256547500001125
为图像y3解纠缠后的风格特征,
Figure BDA00029256547500001126
为图像y3解纠缠后的内容特征,
Figure BDA00029256547500001127
表示解码器G将风格特征
Figure BDA00029256547500001128
和内容特征
Figure BDA00029256547500001129
重构得到新的可见光模态行人图像x′1
Figure BDA00029256547500001130
表示解码器G将风格特征
Figure BDA00029256547500001131
和内容特征
Figure BDA00029256547500001132
重构得到新的红外模态行人图像y1
Figure BDA00029256547500001133
表示解码器G将风格特征
Figure BDA00029256547500001134
和内容特征
Figure BDA00029256547500001135
重构得到新的可见光模态行人图像x″1
Figure BDA00029256547500001136
表示解码器G将风格特征
Figure BDA00029256547500001137
和内容特征
Figure BDA00029256547500001138
重构得到新的红外模态行人图像y′3
Figure BDA00029256547500001139
表示解码器G将风格特征
Figure BDA00029256547500001140
和内容特征
Figure BDA00029256547500001141
重构得到新的可见光模态行人图像x′2
Figure BDA00029256547500001142
表示解码器G将风格特征
Figure BDA00029256547500001143
和内容特征
Figure BDA00029256547500001144
重构得到新的红外模态行人图像y″1
Figure BDA0002925654750000121
总体跨模态重构损失为:
Figure BDA0002925654750000122
循环一致性损失(图5所示):
Figure BDA0002925654750000123
Figure BDA0002925654750000124
Figure BDA0002925654750000125
Figure BDA0002925654750000126
Figure BDA0002925654750000127
Figure BDA0002925654750000128
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),‖·‖1表示1范数,
Figure BDA0002925654750000129
为解码器将风格特征
Figure BDA00029256547500001210
和内容特征
Figure BDA00029256547500001211
重构得到的新的可见光模态行人图像x′1解纠缠后的风格特征,
Figure BDA00029256547500001212
为解码器将风格特征
Figure BDA00029256547500001213
和内容特征
Figure BDA00029256547500001214
重构得到的新的红外模态行人图像y′1解纠缠后的内容特征,
Figure BDA00029256547500001215
为解码器将风格特征
Figure BDA00029256547500001216
和内容特征
Figure BDA00029256547500001217
重构得到的新的红外模态行人图像y′1解纠缠后的风格特征,
Figure BDA00029256547500001218
为解码器将风格特征
Figure BDA00029256547500001219
和内容特征
Figure BDA00029256547500001220
重构得到的新的可见光模态行人图像x′1解纠缠后的内容特征,
Figure BDA00029256547500001221
为解码器将风格特征
Figure BDA00029256547500001222
和内容特征
Figure BDA00029256547500001223
重构得到的新的可见光模态行人图像x〞1解纠缠后的风格特征,
Figure BDA00029256547500001224
为解码器将风格特征
Figure BDA00029256547500001225
和内容特征
Figure BDA00029256547500001226
重构得到的新的红外模态行人图像y′3解纠缠后的内容特征,
Figure BDA00029256547500001227
为解码器将风格特征
Figure BDA00029256547500001228
和内容特征
Figure BDA00029256547500001229
重构得到的新的红外模态行人图像y′3解纠缠后的风格特征,
Figure BDA00029256547500001230
为解码器将风格特征
Figure BDA00029256547500001231
和内容特征
Figure BDA00029256547500001232
重构得到的新的可见光模态行人图像x″1解纠缠后的内容特征,
Figure BDA00029256547500001233
为解码器将风格特征
Figure BDA00029256547500001234
和内容特征
Figure BDA00029256547500001235
重构得到的新的可见光模态行人图像x′2解纠缠后的风格特征,
Figure BDA00029256547500001236
为解码器将风格特征
Figure BDA00029256547500001237
和内容特征
Figure BDA00029256547500001238
重构得到的新的红外模态行人图像y″1解纠缠后的内容特征,
Figure BDA00029256547500001239
为解码器将风格特征
Figure BDA00029256547500001240
和内容特征
Figure BDA00029256547500001241
重构得到的新的红外模态行人图像y″1解纠缠后的风格特征,
Figure BDA00029256547500001242
为解码器将风格特征
Figure BDA00029256547500001243
和内容特征
Figure BDA00029256547500001244
重构得到的新的可见光模态行人图像x′2解纠缠后的内容特征,
Figure BDA0002925654750000131
表示解码器G将风格特征
Figure BDA0002925654750000132
和内容特征
Figure BDA0002925654750000133
重构得到新的可见光模态行人图像
Figure BDA0002925654750000134
Figure BDA0002925654750000135
表示解码器G将风格特征
Figure BDA00029256547500001331
和内容特征
Figure BDA0002925654750000136
重构得到新的红外模态行人图像
Figure BDA0002925654750000137
表示解码器G将风格特征
Figure BDA0002925654750000138
和内容特征
Figure BDA0002925654750000139
重构得到新的可见光模态行人图像
Figure BDA00029256547500001310
表示解码器G将风格特征
Figure BDA00029256547500001311
和内容特征
Figure BDA00029256547500001312
重构得到新的红外模态行人图像
Figure BDA00029256547500001313
Figure BDA00029256547500001314
表示解码器G将风格特征
Figure BDA00029256547500001315
和内容特征
Figure BDA00029256547500001316
重构得到新的可见光模态行人图像
Figure BDA00029256547500001317
表示解码器G将风格特征
Figure BDA00029256547500001318
和内容特征
Figure BDA00029256547500001319
重构得到新的红外模态行人图像
Figure BDA00029256547500001320
总体循环一致性损失为:
Figure BDA00029256547500001321
编码损失(图5所示):
Figure BDA00029256547500001322
Figure BDA00029256547500001323
Figure BDA00029256547500001324
Figure BDA00029256547500001325
Figure BDA00029256547500001326
Figure BDA00029256547500001327
Figure BDA00029256547500001328
Figure BDA00029256547500001329
Figure BDA00029256547500001330
Figure BDA0002925654750000141
Figure BDA0002925654750000142
Figure BDA0002925654750000143
其中,E表示数学期望,
Figure BDA0002925654750000144
表示
Figure BDA0002925654750000145
服从可见光模态风格特征分布
Figure BDA0002925654750000146
表示
Figure BDA0002925654750000147
服从可见光模态内容特征分布
Figure BDA0002925654750000148
表示
Figure BDA0002925654750000149
服从可见光模态风格特征分布
Figure BDA00029256547500001410
表示
Figure BDA00029256547500001411
服从可见光模态内容特征分布
Figure BDA00029256547500001412
表示
Figure BDA00029256547500001413
服从红外模态风格特征分布
Figure BDA00029256547500001414
Figure BDA00029256547500001415
表示
Figure BDA00029256547500001416
服从红外模态风格特征分布
Figure BDA00029256547500001417
表示
Figure BDA00029256547500001418
服从红外模态内容特征分布
Figure BDA00029256547500001470
表示
Figure BDA00029256547500001419
服从红外模态内容特征分布
Figure BDA00029256547500001420
Figure BDA00029256547500001421
表示
Figure BDA00029256547500001422
服从可见光模态风格特征分布
Figure BDA00029256547500001423
表示
Figure BDA00029256547500001424
服从可见光模态内容特征分布
Figure BDA00029256547500001425
表示
Figure BDA00029256547500001426
服从红外模态风格特征分布
Figure BDA00029256547500001427
表示
Figure BDA00029256547500001428
服从红外模态风格特征分布
Figure BDA00029256547500001429
表示
Figure BDA00029256547500001430
服从红外模态内容特征分布
Figure BDA00029256547500001431
表示
Figure BDA00029256547500001432
服从红外模态内容特征分布
Figure BDA00029256547500001433
表示
Figure BDA00029256547500001434
服从可见光模态风格特征分布
Figure BDA00029256547500001435
Figure BDA00029256547500001436
表示
Figure BDA00029256547500001437
服从可见光模态风格特征分布
Figure BDA00029256547500001438
表示
Figure BDA00029256547500001439
服从可见光模态内容特征分布
Figure BDA00029256547500001440
表示
Figure BDA00029256547500001441
服从可见光模态内容特征分布
Figure BDA00029256547500001442
表示
Figure BDA00029256547500001443
服从红外模态风格特征分布
Figure BDA00029256547500001444
表示
Figure BDA00029256547500001445
服从红外模态内容特征分布
Figure BDA00029256547500001446
‖·‖1表示1范数,
Figure BDA00029256547500001447
为图像x1解纠缠后的风格特征,
Figure BDA00029256547500001448
为解码器将风格特征
Figure BDA00029256547500001449
和内容特征
Figure BDA00029256547500001450
重构得到新的可见光模态行人图像x′1解纠缠后的风格特征,
Figure BDA00029256547500001451
为图像x1解纠缠后的内容特征,
Figure BDA00029256547500001452
为解码器将风格特征
Figure BDA00029256547500001453
和内容特征
Figure BDA00029256547500001454
重构得到新的可见光模态行人图像x′1解纠缠后的内容特征,
Figure BDA00029256547500001455
为图像y1解纠缠后的风格特征,
Figure BDA00029256547500001456
为解码器将风格特征
Figure BDA00029256547500001457
和内容特征
Figure BDA00029256547500001458
重构得到新的红外模态行人图像y′1解纠缠后的风格特征,
Figure BDA00029256547500001459
为图像y1解纠缠后的内容特征,
Figure BDA00029256547500001460
为解码器将风格特征
Figure BDA00029256547500001461
和内容特征
Figure BDA00029256547500001462
重构得到新的红外模态行人图像y′1解纠缠后的内容特征,
Figure BDA00029256547500001463
为解码器将风格特征
Figure BDA00029256547500001464
和内容特征
Figure BDA00029256547500001465
重构得到新的可见光模态行人图像x″1解纠缠后的风格特征,
Figure BDA00029256547500001466
为解码器将风格特征
Figure BDA00029256547500001467
和内容特征
Figure BDA00029256547500001468
重构得到新的可见光模态行人图像x″1解纠缠后的内容特征,
Figure BDA00029256547500001469
为图像y3解纠缠后的风格特征,
Figure BDA0002925654750000151
为解码器将风格特征
Figure BDA0002925654750000152
和内容特征
Figure BDA0002925654750000153
重构得到新的红外模态行人图像y′3解纠缠后的风格特征,
Figure BDA0002925654750000154
为图像y3解纠缠后的内容特征,
Figure BDA0002925654750000155
为解码器将风格特征
Figure BDA0002925654750000156
和内容特征
Figure BDA0002925654750000157
重构得到新的红外模态行人图像y′3解纠缠后的内容特征,
Figure BDA0002925654750000158
为图像x2解纠缠后的风格特征,
Figure BDA0002925654750000159
为解码器将风格特征
Figure BDA00029256547500001510
和内容特征
Figure BDA00029256547500001511
重构得到新的可见光模态行人图像x′2解纠缠后的风格特征,
Figure BDA00029256547500001512
为图像x2解纠缠后的内容特征,
Figure BDA00029256547500001513
为解码器将风格特征
Figure BDA00029256547500001514
和内容特征
Figure BDA00029256547500001515
重构得到新的可见光模态行人图像x′2解纠缠后的内容特征,
Figure BDA00029256547500001516
为解码器将风格特征
Figure BDA00029256547500001517
和内容特征
Figure BDA00029256547500001518
重构得到新的红外模态行人图像y″1解纠缠后的风格特征,
Figure BDA00029256547500001519
为解码器将风格特征
Figure BDA00029256547500001520
和内容特征
Figure BDA00029256547500001521
重构得到新的红外模态行人图像y″1解纠缠后的内容特征,总体编码损失为:
Figure BDA00029256547500001522
本实例的对抗性训练采用对应于可见光模态和红外模态的两个判别器D1和D2,对应的损失函数为:
Figure BDA00029256547500001523
Figure BDA00029256547500001524
其中,D1(·)和D2(·)为判别器,
Figure BDA00029256547500001525
表示
Figure BDA00029256547500001526
服从可见光模态风格特征分布
Figure BDA00029256547500001527
表示
Figure BDA00029256547500001528
服从可见光模态内容特征分布
Figure BDA00029256547500001529
表示
Figure BDA00029256547500001530
服从可见光模态风格特征分布
Figure BDA00029256547500001531
表示
Figure BDA00029256547500001532
服从可见光模态内容特征分布
Figure BDA0002925654750000161
表示
Figure BDA0002925654750000162
服从红外模态风格特征分布
Figure BDA0002925654750000163
Figure BDA0002925654750000164
表示
Figure BDA0002925654750000165
服从红外模态内容特征分布
Figure BDA0002925654750000166
表示
Figure BDA0002925654750000167
服从红外模态风格特征分布
Figure BDA0002925654750000168
表示
Figure BDA0002925654750000169
服从红外模态内容特征分布
Figure BDA00029256547500001610
x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布
Figure BDA00029256547500001611
为图像x1解纠缠后的风格特征,
Figure BDA00029256547500001612
为图像x2解纠缠后的风格特征,
Figure BDA00029256547500001613
为图像y1解纠缠后的风格特征,
Figure BDA00029256547500001614
为图像y3解纠缠后的风格特征,
Figure BDA00029256547500001615
为图像x1解纠缠后的内容特征,
Figure BDA00029256547500001616
为图像x2解纠缠后的内容特征,
Figure BDA00029256547500001617
为图像y1解纠缠后的内容特征,
Figure BDA00029256547500001618
为图像y3解纠缠后的内容特征,
Figure BDA00029256547500001619
表示解码器G将风格特征
Figure BDA00029256547500001620
和内容特征
Figure BDA00029256547500001621
重构得到新的可见光模态行人图像x′1
Figure BDA00029256547500001622
表示解码器G将风格特征
Figure BDA00029256547500001623
和内容特征
Figure BDA00029256547500001624
重构得到新的红外模态行人图像y′1
Figure BDA00029256547500001625
表示解码器G将风格特征
Figure BDA00029256547500001626
和内容特征
Figure BDA00029256547500001627
重构得到新的可见光模态行人图像x″1
Figure BDA00029256547500001628
Figure BDA00029256547500001629
表示解码器G将风格特征
Figure BDA00029256547500001630
和内容特征
Figure BDA00029256547500001631
重构得到新的红外模态行人图像y′3
Figure BDA00029256547500001632
表示解码器G将风格特征
Figure BDA00029256547500001633
和内容特征
Figure BDA00029256547500001634
重构得到新的可见光模态行人图像x′2
Figure BDA00029256547500001635
表示解码器G将风格特征
Figure BDA00029256547500001636
和内容特征
Figure BDA00029256547500001637
重构得到新的红外模态行人图像y″1
Figure BDA00029256547500001638
总体对抗损失为:
Figure BDA00029256547500001639
步骤S4:统一具有不同模态图像的表示形式,建立多光谱模态和特征级差异学习网络,并进行特征学习,利用跨模态四元组损失和交叉熵损失来监督网络的训练;
具体为:如图6所示,首先进行模态统一,即:将图像统一为多光谱模态,通过构造多光谱图像vi={[x1,y′1],[x′1,y1],[x2,y″1],[x″1,y3]}作为统一表示来形成集合S;其次,特征级差异学习网络在生成的多光谱统一图像上进行特征学习,给定一个混合多光谱图像通过深度特征提取网络提取出行人描述符f,使用ResNet-50作为深度特征提取网络的骨干网络,第一层卷积的输入通道数为4,最后的全连接层为1024,行人描述符f使用全连接层的输出特征向量,其后接批标准化、ReLU和Dropout;然后,将全连接层的输出f馈送到另两个独立的全连接层,以生成两个特征向量fq和fc;最后利用两种损失函数来监督特征级差异学习网络的训练,一个是用于相似性学习的跨模态四元组损失,另一个是用于身份信息学习的交叉熵损失,
跨模态四元组损失:
Figure BDA0002925654750000171
其中,R为可见光模态,I为红外模态,Rp和Ip表示锚点样本,同时Ip为Rp的正样本,Rp也为Ip的正样本,Rn和In为负样本,f(x)是映射函数,d(·,·)是欧几里得距离,α1和α2是阈值,且α1>α2,[z]+=max(z,0)。
交叉熵损失:
Figure BDA0002925654750000172
其中,N=|S|是训练的图像数量,
通过级联解纠缠模型(图2)和特征级差异学习网络(图6),并最大限度地减少综合损失,以端到端的方式优化网络,总体损失表示如下:
Figure BDA0002925654750000173
其中,λj,j∈{1,2,……,9}为控制损失项的超参数,Lkl为总体KL散度损失,
Figure BDA0002925654750000174
为总体交叉风格损失,
Figure BDA0002925654750000175
为总体同模态重构损失,
Figure BDA0002925654750000176
为总体跨模态重构损失,
Figure BDA0002925654750000177
为总体循环一致性损失,
Figure BDA0002925654750000178
为总体编码损失,Ladv为总体对抗损失,LQ为跨模态四元组损失,LC为交叉熵损失;
步骤S5:利用测试集进行跨模态行人重识别,得出识别结果。
本实施例基于解纠缠和特征级差异学习的跨模态行人重识别方法提出了一种新颖的跨模态行人重识别解纠缠图像特征的自编码模型,该模型在输入图像中不仅包含共享身份信息的一对跨模态图像,同时在各自模态中各有一张不共享身份信息的图像,以此解决可能存在的跨模态图像间内容信息(如姿态、体态)相近的问题,提升模型判别的泛化能力;引入交叉风格损失,缩小同模态间的风格信息,使得解码器能够在相同内容信息,不同风格信息重构时生成更逼真的同模态图像来训练判别器;在特征级差异学习网络中应用跨模态四元组损失,更好的减少模态间和模态内的差异。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,包括以下步骤:
采用可见光摄像机和红外摄像机在不同的位置采集多张行人图片形成数据集,并对数据集中的图片进行预处理;
从所述数据集中选取可见光模态的两张输入图像记为x1和x2、选取红外模态的两张输入图像记为y1和y3,所述图像x1和y1共享身份信息,所述图像x2和y3不共享身份信息;
获取预先建立的解纠缠图像特征的自编码模型,采用该自编码模型分别对所述图像x1、x2、y1和y3进行解编码操作,解纠缠出每幅图像的风格特征和内容特征;
获取预先建立并训练好的生成与判别网络,将解纠缠获取每幅图像的风格特征和内容特征以及对应的原图像载入该生成与判别网络中;所述生成与判别网络包括解码器和判别器,所述解码器对所述风格特征和内容特征进行重构得到多个新图像,所述判别器对所述多个新图像和原图像进行判别,从而得到总体对抗损失;
获取预先建立并训练好的特征级差异学习网络,对所述多个新图像和原图像进行特征学习,获取行人识别结果;
所述生成与判别网络和特征级差异学习网络通过级联连接,所述生成与判别网络和特征级差异学习网络共同进行训练,所述生成与判别网络和特征级差异学习网络的总体损失函数包括解码器的损失函数、所述总体对抗损失和特征级差异学习网络的损失函数。
2.根据权利要求1所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述自编码模型包括提取不同模态行人图像风格的风格编码器和保持行人图像本身语义的内容编码器。
3.根据权利要求2所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述可见光模态的两张输入图像x1和x2在输入所述内容编码器前还包括将图像转化为灰度图。
4.根据权利要求2所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述跨模态行人重识别方法还包括采用KL散度损失函数计算所述图像x1和y1的内容编码器的损失,得到总体KL散度损失,所述总体损失函数还包括总体KL散度损失,所述总体KL散度损失的计算表达式为:
Figure FDA0002925654740000021
Figure FDA0002925654740000022
Figure FDA0002925654740000023
式中,Lkl为总体KL散度损失,E为数学期望,
Figure FDA0002925654740000024
Figure FDA0002925654740000025
为图像x1解纠缠后的内容特征,
Figure FDA0002925654740000026
Figure FDA0002925654740000027
为图像y1解纠缠后的内容特征,
Figure FDA0002925654740000028
Figure FDA0002925654740000029
为图像σ的内容编码器,σ∈{x1,y1}。
5.根据权利要求2所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述风格编码器的编码过程为
Figure FDA00029256547400000210
Figure FDA00029256547400000211
Figure FDA00029256547400000212
内容编码器的编码过程为
Figure FDA00029256547400000213
Figure FDA00029256547400000214
其中,
Figure FDA00029256547400000215
表示图像θ的风格编码器,θ∈{x1,x2,y1,y3},
Figure FDA00029256547400000216
表示图像θ的内容编码器,θ∈{x1,x2,y1,y3},
Figure FDA00029256547400000217
为风格编码器
Figure FDA00029256547400000218
对可见光模态的图像x1进行编码后的风格特征,
Figure FDA00029256547400000219
为内容编码器
Figure FDA00029256547400000220
对可见光模态的图像x1进行编码后的内容特征,
Figure FDA00029256547400000221
为风格编码器
Figure FDA00029256547400000222
对可见光模态的图像x2进行编码后的风格特征,
Figure FDA00029256547400000223
为内容编码器
Figure FDA00029256547400000224
对可见光模态的图像x2进行编码后的内容特征,
Figure FDA00029256547400000225
为风格编码器
Figure FDA00029256547400000226
对红外模态的图像y1进行编码后的风格特征,
Figure FDA00029256547400000227
为内容编码器
Figure FDA00029256547400000228
对红外模态的图像y1进行编码后的内容特征,
Figure FDA00029256547400000229
风格编码器
Figure FDA00029256547400000230
对红外模态的图像y3进行编码后的风格特征,
Figure FDA00029256547400000231
为内容编码器
Figure FDA00029256547400000232
对红外模态的图像y3进行编码后的内容特征;
所述解码器对所述风格特征和内容特征进行重构得到多个新图像具体为:
一方面,可见光模态风格特征
Figure FDA00029256547400000233
和红外模态内容特征
Figure FDA00029256547400000234
作为解码器G的输入,重构生成新的可见光模态行人图像x′1,可见光模态风格特征
Figure FDA00029256547400000235
和红外模态内容特征
Figure FDA00029256547400000236
作为解码器G的输入,重构生成新的可见光模态行人图像x″1,可见光模态风格特征
Figure FDA00029256547400000237
和红外模态内容特征
Figure FDA00029256547400000238
作为解码器G的输入,重构生成新的可见光模态行人图像x′2
另一方面,红外模态风格特征
Figure FDA00029256547400000239
和可见光模态内容特征
Figure FDA00029256547400000240
作为解码器G的输入,重构生成新的红外模态行人图像y′1,红外模态风格特征
Figure FDA00029256547400000241
和可见光模态内容特征
Figure FDA00029256547400000242
作为解码器G的输入,重构生成新的红外模态行人图像y″1,红外模态风格特征
Figure FDA00029256547400000243
和可见光模态内容特征
Figure FDA00029256547400000244
作为解码器G的输入,重构生成新的红外模态行人图像y′3
所述判别器对所述多个新图像和原图像进行判别具体为:
将重构生成的可见光模态行人图像x′1、x〞1、x′2和真实的可见光模态行人图像x1输入到判别器中,判别输入的图像是真实的可见光模态行人图像还是解码器重构生成的,将重构生成的红外模态行人图像y′1、y″1、y′3和真实的红外模态行人图像y1输入到判别器中,判别输入的图像是真实的红外模态行人图像还是解码器重构生成的。
6.根据权利要求5所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述解码器和判别器满足:
Figure FDA0002925654740000031
Figure FDA0002925654740000032
式中,E表示数学期望,D1(·)和D2(·)为判别器,
Figure FDA0002925654740000033
表示
Figure FDA0002925654740000034
服从可见光模态风格特征分布
Figure FDA0002925654740000035
表示
Figure FDA0002925654740000036
服从可见光模态内容特征分布
Figure FDA0002925654740000037
表示
Figure FDA0002925654740000038
服从可见光模态风格特征分布
Figure FDA0002925654740000039
表示
Figure FDA00029256547400000310
服从可见光模态内容特征分布
Figure FDA00029256547400000311
表示
Figure FDA00029256547400000312
服从红外模态风格特征分布
Figure FDA00029256547400000313
表示
Figure FDA00029256547400000314
服从红外模态内容特征分布
Figure FDA00029256547400000315
Figure FDA00029256547400000316
表示
Figure FDA00029256547400000317
服从红外模态风格特征分布
Figure FDA00029256547400000318
表示
Figure FDA00029256547400000319
服从红外模态内容特征分布
Figure FDA00029256547400000320
表示x1服从真实的可见光模态行人图像数据分布p(x1),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),
Figure FDA00029256547400000321
为图像x1解纠缠后的风格特征,
Figure FDA00029256547400000322
为图像x2解纠缠后的风格特征,
Figure FDA00029256547400000323
为图像y1解纠缠后的风格特征,
Figure FDA0002925654740000041
为图像y3解纠缠后的风格特征,
Figure FDA0002925654740000042
为图像x1解纠缠后的内容特征,
Figure FDA0002925654740000043
为图像x2解纠缠后的内容特征,
Figure FDA0002925654740000044
为图像y1解纠缠后的内容特征,
Figure FDA0002925654740000045
为图像y3解纠缠后的内容特征,
Figure FDA0002925654740000046
表示解码器G将风格特征
Figure FDA0002925654740000047
和内容特征
Figure FDA0002925654740000048
重构得到新的可见光模态行人图像x′1
Figure FDA0002925654740000049
表示解码器G将风格特征
Figure FDA00029256547400000410
和内容特征
Figure FDA00029256547400000411
重构得到新的红外模态行人图像y′1
Figure FDA00029256547400000412
Figure FDA00029256547400000413
表示解码器G将风格特征
Figure FDA00029256547400000414
和内容特征
Figure FDA00029256547400000415
重构得到新的可见光模态行人图像x″1
Figure FDA00029256547400000416
表示解码器G将风格特征
Figure FDA00029256547400000417
和内容特征
Figure FDA00029256547400000418
重构得到新的红外模态行人图像y′3
Figure FDA00029256547400000419
表示解码器G将风格特征
Figure FDA00029256547400000420
和内容特征
Figure FDA00029256547400000421
重构得到新的可见光模态行人图像x′2
Figure FDA00029256547400000422
Figure FDA00029256547400000423
表示解码器G将风格特征
Figure FDA00029256547400000424
和内容特征
Figure FDA00029256547400000425
重构得到新的红外模态行人图像y″1
Figure FDA00029256547400000426
所述总体对抗损失的计算表达式为:
Figure FDA00029256547400000427
式中,Ladv为总体对抗损失。
7.根据权利要求5所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,通过构造多光谱图像vi={[x1,y′1],[x′1,y1],[x2,y″1],[x″1,y3]}作为统一表示来形成集合S,构建基于ResNet-50骨干网络的特征级差异学习网络,并进行特征学习,给定一个混合多光谱图像通过深度特征提取网络提取出行人描述符f,行人描述符f使用全连接层的输出特征向量,将其馈送到另两个独立的全连接层,以生成两个特征向量fq和fc,最后利用跨模态四元组损失和交叉熵损失来监督特征级差异学习网络的训练。
8.根据权利要求7所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述跨模态四元组损失为:
Figure FDA00029256547400000428
其中,R为可见光模态,I为红外模态,Rp和Ip表示锚点样本,同时Ip为Rp的正样本,Rp也为Ip的正样本,Rn和In为负样本,f(x)为映射函数,d(·,·)是欧几里得距离,α1和α2是阈值,且α1>α2,[z]+=max(z,0)。
9.根据权利要求8所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,采用交叉风格损失、同模态重构损失、跨模态重构损失、循环一致性损失和编码损失来训练所述解码器,所述交叉风格损失的计算表达式为:
Figure FDA0002925654740000051
Figure FDA0002925654740000052
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),||·||1表示1范数,
Figure FDA0002925654740000053
为图像x1解纠缠后的风格特征,
Figure FDA0002925654740000054
为图像x2解纠缠后的风格特征,
Figure FDA0002925654740000055
为图像y1解纠缠后的风格特征
Figure FDA0002925654740000056
为图像y3解纠缠后的风格特征;
所述解码器的损失函数包括总体交叉风格损失,该总体交叉风格损失的计算表达式为:
Figure FDA0002925654740000057
式中,
Figure FDA0002925654740000058
为总体交叉风格损失。
10.根据权利要求9所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述总体损失函数表示如下:
Figure FDA0002925654740000059
其中,λj,j∈{1,2,……,9}为控制损失项的超参数,Lkl为总体KL散度损失,
Figure FDA00029256547400000510
为总体交叉风格损失,
Figure FDA00029256547400000511
为总体同模态重构损失,
Figure FDA00029256547400000512
为总体跨模态重构损失,
Figure FDA00029256547400000513
为总体循环一致性损失,
Figure FDA00029256547400000514
为总体编码损失,Ladv为总体对抗损失,LQ为跨模态四元组损失,LC为交叉熵损失。
CN202110131884.4A 2021-01-30 2021-01-30 基于解纠缠和特征级差异学习的跨模态行人重识别方法 Active CN112766217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110131884.4A CN112766217B (zh) 2021-01-30 2021-01-30 基于解纠缠和特征级差异学习的跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110131884.4A CN112766217B (zh) 2021-01-30 2021-01-30 基于解纠缠和特征级差异学习的跨模态行人重识别方法

Publications (2)

Publication Number Publication Date
CN112766217A true CN112766217A (zh) 2021-05-07
CN112766217B CN112766217B (zh) 2022-08-26

Family

ID=75704228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110131884.4A Active CN112766217B (zh) 2021-01-30 2021-01-30 基于解纠缠和特征级差异学习的跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN112766217B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449676A (zh) * 2021-07-13 2021-09-28 凌坤(南通)智能科技有限公司 一种基于双路互促进解纠缠学习的行人重识别方法
CN113903053A (zh) * 2021-09-26 2022-01-07 厦门大学 基于统一中间模态的跨模态行人重识别方法
CN114241517A (zh) * 2021-12-02 2022-03-25 河南大学 基于图像生成和共享学习网络的跨模态行人重识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108318513A (zh) * 2017-01-16 2018-07-24 Fei 公司 X射线成像中的统计分析
CN109190470A (zh) * 2018-07-27 2019-01-11 北京市商汤科技开发有限公司 行人重识别方法及装置
CN110210549A (zh) * 2019-05-28 2019-09-06 北方民族大学 一种跨域变分对抗自编码方法
CN110263865A (zh) * 2019-06-24 2019-09-20 北方民族大学 一种半监督多模态多类别的图像翻译方法
CN110598654A (zh) * 2019-09-18 2019-12-20 合肥工业大学 多粒度交叉模态特征融合行人再识别方法和再识别系统
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111539255A (zh) * 2020-03-27 2020-08-14 中国矿业大学 基于多模态图像风格转换的跨模态行人重识别方法
CN111597876A (zh) * 2020-04-01 2020-08-28 浙江工业大学 一种基于困难五元组的跨模态行人重识别方法
CN111797891A (zh) * 2020-05-21 2020-10-20 南京大学 基于生成对抗网络的非成对异质人脸图像生成方法、装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108318513A (zh) * 2017-01-16 2018-07-24 Fei 公司 X射线成像中的统计分析
CN109190470A (zh) * 2018-07-27 2019-01-11 北京市商汤科技开发有限公司 行人重识别方法及装置
CN110210549A (zh) * 2019-05-28 2019-09-06 北方民族大学 一种跨域变分对抗自编码方法
CN110263865A (zh) * 2019-06-24 2019-09-20 北方民族大学 一种半监督多模态多类别的图像翻译方法
CN110598654A (zh) * 2019-09-18 2019-12-20 合肥工业大学 多粒度交叉模态特征融合行人再识别方法和再识别系统
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111539255A (zh) * 2020-03-27 2020-08-14 中国矿业大学 基于多模态图像风格转换的跨模态行人重识别方法
CN111597876A (zh) * 2020-04-01 2020-08-28 浙江工业大学 一种基于困难五元组的跨模态行人重识别方法
CN111797891A (zh) * 2020-05-21 2020-10-20 南京大学 基于生成对抗网络的非成对异质人脸图像生成方法、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEOKEON CHOI 等: "Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification", 《ARXIV:1912.01230V1 [CS.CV]》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449676A (zh) * 2021-07-13 2021-09-28 凌坤(南通)智能科技有限公司 一种基于双路互促进解纠缠学习的行人重识别方法
CN113449676B (zh) * 2021-07-13 2024-05-10 凌坤(南通)智能科技有限公司 一种基于双路互促进解纠缠学习的行人重识别方法
CN113903053A (zh) * 2021-09-26 2022-01-07 厦门大学 基于统一中间模态的跨模态行人重识别方法
CN114241517A (zh) * 2021-12-02 2022-03-25 河南大学 基于图像生成和共享学习网络的跨模态行人重识别方法
CN114241517B (zh) * 2021-12-02 2024-02-27 河南大学 基于图像生成和共享学习网络的跨模态行人重识别方法

Also Published As

Publication number Publication date
CN112766217B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
Zhang et al. Tv-gan: Generative adversarial network based thermal to visible face recognition
Ning et al. Multi‐view frontal face image generation: a survey
Luo et al. Unsupervised learning of long-term motion dynamics for videos
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN112766217B (zh) 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN113139591B (zh) 一种基于增强多模态对齐的广义零样本图像分类方法
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
Sheng et al. Siamese denoising autoencoders for joints trajectories reconstruction and robust gait recognition
CN111539255A (zh) 基于多模态图像风格转换的跨模态行人重识别方法
CN111639580B (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
Zhang et al. IL-GAN: Illumination-invariant representation learning for single sample face recognition
CN113361489B (zh) 基于解耦表示的人脸正面化模型构建方法和训练方法
Baek et al. Generative adversarial ensemble learning for face forensics
CN110335299A (zh) 一种基于对抗网络的单目深度估计系统实现方法
CN112131975A (zh) 基于Retinex分解和生成对抗网络的人脸光照处理方法
Chen et al. Semi-supervised dictionary learning with label propagation for image classification
CN115731574A (zh) 基于中间模态的参数共享和特征学习的跨模态行人重识别方法
CN115100684A (zh) 基于姿态与样式归一化的换衣行人重识别方法
Ma et al. Cascade transformer decoder based occluded pedestrian detection with dynamic deformable convolution and Gaussian projection channel attention mechanism
Shabaninia et al. Transformers in action recognition: A review on temporal modeling
Liang et al. Specificity and latent correlation learning for action recognition using synthetic multi-view data from depth maps
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
Teng et al. Unimodal face classification with multimodal training
CN115862097A (zh) 基于多注意力多尺度特征学习的遮挡人脸识别方法和装置
Saif et al. Aggressive action estimation: a comprehensive review on neural network based human segmentation and action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant