CN112766217A - 基于解纠缠和特征级差异学习的跨模态行人重识别方法 - Google Patents
基于解纠缠和特征级差异学习的跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN112766217A CN112766217A CN202110131884.4A CN202110131884A CN112766217A CN 112766217 A CN112766217 A CN 112766217A CN 202110131884 A CN202110131884 A CN 202110131884A CN 112766217 A CN112766217 A CN 112766217A
- Authority
- CN
- China
- Prior art keywords
- image
- content
- pedestrian
- style
- visible light
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Traffic Control Systems (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本发明涉及一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,包括:采用可见光摄像机和红外摄像机采集多张行人图片形成数据集;选取可见光模态的两张图像记为x1和x2、选取红外模态的两张图像记为y1和y3,图像x1和y1共享身份信息,图像x2和y3不共享身份信息;获取自编码模型,分别对图像x1、x2、y1和y3解纠缠出风格特征和内容特征;获取生成与判别网络,对风格特征和内容特征进行重构得到多个新图像;获取特征级差异学习网络,对多个新图像和原图像进行特征学习,获取行人识别结果。与现有技术相比,本发明解决了可能存在的跨模态图像间内容信息(如姿态、体态)相近的问题、提升了模型判别的泛化能力、减少了模态间和模态内的差异。
Description
技术领域
本发明涉及行人重识别方法领域,尤其是涉及一种基于解纠缠和特征级差异学习的跨模态行人重识别方法。
背景技术
近年来,随着计算机与人工智能技术的大力发展,视频监控系统大量普及。视频监控系统的广泛应用,有效地降低了公安机关的办案周期,在打击犯罪、维护社会治安中发挥着重要的作用。在实际应用中,在海量的视频数据中,针对特定目标的识别与检索是日常安保与破案地重要需求。随着摄像机监控网络的普遍布局,仅仅依靠人工的方法进行重识别也变得越来越不现实。因此,迫切需要一种技术来减轻有限人力资源的负担、增强识别的能力。
行人重识别旨在摄像机视图之间匹配行人图像,能够根据行人的穿着、体态、发型等信息认知行人,其在视频监控和跟踪等计算机视觉任务中具有潜在的广泛应用价值。然而,传统的行人重识别只能处理彩色图像间的单模态问题,对于黑暗的环境,例如在夜间,传统的行人重识别会受到光线昏暗因素的影响导致识别效果不佳,好在现在的摄像头大多具有可见光和红外两种识别模式,因此,红外成像变得很有必要,需要将彩色可见光图像与红外图像进行匹配。跨模态行人重识别是研究从红外模态的图像中检索给定的可见光模态行人图像的问题,该任务可以解决在黑暗环境中传统行人重识别的局限性。
虽然现有的跨模态行人重识别方法已经在许多实验中显示出不错的效果,但是加强对跨模态行人重识别的方法探索仍然是一项非常重要的任务。其中一个主要的问题就是可见光图像和红外图像之间存在巨大差异,两个模态间图像通道数不同、红外图像中没有颜色信息等,因此现如今的跨模态行人重识别系统性能普遍低于传统行人重识别;而另一个问题是除了由不同的相机光谱引起的跨模态差异外,跨模态行人重识别还会因不同的相机视角和人体姿态而产生较大的跨模态和模态内的变化,现有的方法主要通过缩小两个模态间的距离或进行特征级约束同时减少外观和模态差异,但这些方法可能很难消除混合差异和某些实例级的对齐错误。
综上所述,跨模态行人重识别方法是行人重识别领域当下具有挑战且关键的研究方向,尽管目前国内外的研究已经取得了很多优秀的研究成果,但是随着摄像头监控网络的快速发展,拍摄条件的复杂化,以及安防条件与需求的提高,目前已有跨模态行人重识别方法在重识别匹配精度上的表现并不能满足实际应用的需求,因此,本发明对跨模态行人重识别领域的研究将具有非常重要的理论意义和应用价值。
发明内容
本发明的目的就是为了克服上述现有技术存在可能很难消除混合差异和某些实例级的对齐错误的缺陷而提供一种同时减少模态内和模态间差异,并注重图像级和特征级相结合的基于解纠缠和特征级差异学习的跨模态行人重识别方法。
本发明的目的可以通过以下技术方案来实现:
一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,包括以下步骤:
采用可见光摄像机和红外摄像机在不同的位置采集多张行人图片形成数据集,并对数据集中的图片进行预处理;
从所述数据集中选取可见光模态的两张输入图像记为x1和x2、选取红外模态的两张输入图像记为y1和y3,所述图像x1和y1共享身份信息,所述图像x2和y3不共享身份信息;
获取预先建立的解纠缠图像特征的自编码模型,采用该自编码模型分别对所述图像x1、x2、y1和y3进行解编码操作,解纠缠出每幅图像的风格特征和内容特征;
获取预先建立并训练好的生成与判别网络,将解纠缠获取每幅图像的风格特征和内容特征以及对应的原图像载入该生成与判别网络中;所述生成与判别网络包括解码器和判别器,所述解码器对所述风格特征和内容特征进行重构得到多个新图像,所述判别器对所述多个新图像和原图像进行判别,从而得到总体对抗损失;
获取预先建立并训练好的特征级差异学习网络,对所述多个新图像和原图像进行特征学习,获取行人识别结果;
所述生成与判别网络和特征级差异学习网络通过级联连接,所述生成与判别网络和特征级差异学习网络共同进行训练,所述生成与判别网络和特征级差异学习网络的总体损失函数包括解码器的损失函数、所述总体对抗损失和特征级差异学习网络的损失函数。
进一步地,所述自编码模型包括提取不同模态行人图像风格的风格编码器和保持行人图像本身语义的内容编码器。
进一步地,所述可见光模态的两张输入图像x1和x2在输入所述内容编码器前还包括将图像转化为灰度图。
进一步地,所述跨模态行人重识别方法还包括采用KL散度损失函数计算所述图像x1和y1的内容编码器的损失,得到总体KL散度损失,所述总体损失函数还包括总体KL散度损失,所述总体KL散度损失的计算表达式为:
进一步地,所述风格编码器的编码过程为 和内容编码器的编码过程为 和其中,表示图像θ的风格编码器,θ∈{x1,x2,y1,y3},表示图像θ的内容编码器,θ∈{x1,x2,y1,y3},为风格编码器对可见光模态的图像x1进行编码后的风格特征,为内容编码器对可见光模态的图像x1进行编码后的内容特征,为风格编码器对可见光模态的图像x2进行编码后的风格特征,为内容编码器对可见光模态的图像x2进行编码后的内容特征,为风格编码器对红外模态的图像y1进行编码后的风格特征,为内容编码器对红外模态的图像y1进行编码后的内容特征,风格编码器对红外模态的图像y3进行编码后的风格特征,为内容编码器对红外模态的图像y3进行编码后的内容特征;
所述解码器对所述风格特征和内容特征进行重构得到多个新图像具体为:
一方面,可见光模态风格特征和红外模态内容特征作为解码器G的输入,重构生成新的可见光模态行人图像x′1,可见光模态风格特征和红外模态内容特征作为解码器G的输入,重构生成新的可见光模态行人图像x″1,可见光模态风格特征和红外模态内容特征作为解码器G的输入,重构生成新的可见光模态行人图像x′2,
另一方面,红外模态风格特征和可见光模态内容特征作为解码器G的输入,重构生成新的红外模态行人图像y′1,红外模态风格特征和可见光模态内容特征作为解码器G的输入,重构生成新的红外模态行人图像y″1,红外模态风格特征和可见光模态内容特征作为解码器G的输入,重构生成新的红外模态行人图像y′3;
所述判别器对所述多个新图像和原图像进行判别具体为:
将重构生成的可见光模态行人图像x′1、x″1、x′2和真实的可见光模态行人图像x1输入到判别器中,判别输入的图像是真实的可见光模态行人图像还是解码器重构生成的,将重构生成的红外模态行人图像y′1、y″1、y′3和真实的红外模态行人图像y1输入到判别器中,判别输入的图像是真实的红外模态行人图像还是解码器重构生成的。
进一步地,所述解码器和判别器满足:
式中,E表示数学期望,D1(·)和D2(·)为判别器,表示服从可见光模态风格特征分布表示服从可见光模态内容特征分布表示服从可见光模态风格特征分布表示服从可见光模态内容特征分布表示服从红外模态风格特征分布表示服从红外模态内容特征分布 表示服从红外模态风格特征分布表示服从红外模态内容特征分布x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),为图像x1解纠缠后的风格特征,为图像x2解纠缠后的风格特征,为图像y1解纠缠后的风格特征,为图像y3解纠缠后的风格特征,为图像x1解纠缠后的内容特征,为图像x2解纠缠后的内容特征,为图像y1解纠缠后的内容特征,为图像y3解纠缠后的内容特征,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x′1,表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y′1, 表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x″1,表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y′3,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x′2, 表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y″1,
所述总体对抗损失的计算表达式为:
式中,Ladv为总体对抗损失。
进一步地,通过构造多光谱图像vi={[x1,y′1],[x′1,y1],[x2,y″1],[x″1,y3]}作为统一表示来形成集合S,构建基于ResNet-50骨干网络的特征级差异学习网络,并进行特征学习,给定一个混合多光谱图像通过深度特征提取网络提取出行人描述符f,行人描述符f使用全连接层的输出特征向量,将其馈送到另两个独立的全连接层,以生成两个特征向量fq和fc,最后利用跨模态四元组损失和交叉熵损失来监督特征级差异学习网络的训练。
进一步地,所述跨模态四元组损失为:
其中,R为可见光模态,I为红外模态,Rp和Ip表示锚点样本,同时Ip为Rp的正样本,Rp也为Ip的正样本,Rn和In为负样本,f(x)为映射函数,d(·,·)是欧几里得距离,α1和α2是阈值,且α1>α2,[z]+=max(z,0)。
进一步地,采用交叉风格损失、同模态重构损失、跨模态重构损失、循环一致性损失和编码损失来训练所述解码器,所述交叉风格损失的计算表达式为:
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),‖·‖1表示1范数,为图像x1解纠缠后的风格特征,为图像x2解纠缠后的风格特征,为图像y1解纠缠后的风格特征,为图像y3解纠缠后的风格特征;
所述解码器的损失函数包括总体交叉风格损失,该总体交叉风格损失的计算表达式为:
进一步地,所述总体损失函数表示如下:
其中,λj,j∈{1,2,……,9}为控制损失项的超参数,Lkl为总体KL散度损失,为总体交叉风格损失,为总体同模态重构损失,为总体跨模态重构损失,为总体循环一致性损失,为总体编码损失,Ladv为总体对抗损失,LQ为跨模态四元组损失,LC为交叉熵损失。
与现有技术相比,本发明具有以下优点:
本发明跨模态行人重识别方法,提出了一种新颖的解纠缠图像特征的自编码模型,该模型在输入图像中不仅包含两个模态间一对共享身份信息的图像,还有两张彼此不共享身份信息,且也不与模态内图像共享身份的图像,以此解决可能存在的跨模态图像间内容信息(如姿态、体态)相近的问题,提升模型判别的泛化能力;
同时共享身份信息的一对图像除了彼此需要进行跨模态的转换之外,还需要分别与另一张跨模态但不共享身份信息的图像进行转换,并且在过程中引入了交叉风格损失,使得解码器能生成更多姿态变化、更逼真的图像来训练判别器;
针对解码器更关注风格特征包含的更多空间几何位置信息,采用在可见光图像输入内容编码器前,先将其转化为灰度图,再送入内容编码器中生成内容特征,此步骤还能减少内容特征所附带的颜色信息;
为更好的减少模态间和模态内得差异,特征级差异学习网络中应用了新颖的跨模态四元组损失替代传统的三元组损失。
附图说明
图1为本发明实施例中基于解纠缠和特征级差异学习的跨模态行人重识别方法的实施流程图;
图2为本发明实施例中自编码模型及生成和判别网络的结构示意图;
图3为本发明实施例中交叉风格损失的说明图;
图4为本发明实施例中同模态重构损失的说明图;
图5为本发明实施例中跨模态重构损失、循环一致性损失及编码损失的说明图;
图6为本发明实施例中特征级差异学习网络的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本实施例提供一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,如图1所示,包括:
步骤S1:采用不同的可见光摄像机和红外摄像机在不同的位置采集多张行人图片形成数据集,对数据集内的图片进行预处理,并将该数据集划分为训练集和测试集;
具体为:使用不同的可见光摄像机分别在不同位置收集若干张行人图像作为可见光模态的训练图像和测试图像,使用不同的红外摄像机在不同位置收集若干张行人图像作为红外模态的训练图像和测试图像,将所有图片的大小调整为256×128,且随意左右翻转图片;
步骤S2:建立解纠缠图像特征的自编码模型,该模型分别对输入的两个模态各两张图像进行解编码操作,解纠缠出两个模态图像的风格特征和内容特征,其中,两个模态间有一对共享身份信息的图像,另外两张图像彼此不共享身份信息,且也不与模态内的图像共享;
即:对预处理后输入的两个模态的行人图像进行编码处理,可见光模态的两张输入图像记为x1和x2,红外模态的两张输入图像记为y1和y3,其中,可见光模态中的图像x1与红外模态中的图像y1共享身份信息,分别解纠缠出两个模态总共四张行人图像的风格特征和内容特征;
所述步骤S2的自编码模型结构示意图如图2所示,该模型具体由风格编码器和内容编码器组成,风格编码器将目标域内的行人图像编码为风格特征,内容编码器将目标域内的行人图像编码为内容特征,以可见光模态的图像x1为例,其风格编码器将图像x1编码为风格特征编码过程记为其内容编码器将图像x1编码为内容特征编码过程记为同理,可见光模态的图像x2的风格编码器将图像x2编码为风格特征编码过程记为其内容编码器将图像x2编码为内容特征编码过程记为以红外模态的图像y1为例,其风格编码器将图像y1编码为风格特征编码过程记为其内容编码器将图像y1编码为内容特征编码过程记为同理,红外模态的图像y3的风格编码器将图像y3编码为风格特征编码过程记为其内容编码器将图像y3编码为内容特征编码过程记为
其中,风格编码器均由三层下采样的卷积神经网络、一个全局平均池化层和一个全连接层组成,第一层的卷积核大小为7×7,滤波器个数为64,步长为1,第二与第三层的卷积核大小都为4×4,滤波器个数分别为128和256,步长为2,内容编码器均由三层下采样的卷积神经网络和四个残差块构成,第一层的卷积核大小为7×7,滤波器个数为64,步长为1,第二与第三层的卷积核大小都为4×4,滤波器个数分别为128和256,步长为2;
本实施例在得到可见光模态的内容特征时,先将输入图像转化为灰度图像,再送入到内容编码器生成内容特征;
步骤S3:建立生成与判别网络,通过解纠缠后得到的风格和内容特征重构得到新的行人图像,实现跨模态的转换,得到的新图像与原图像共同输入判别网络进行判别,其中,共享身份信息的一对图像除了彼此需要进行跨模态的转换之外,还需要分别与另一张跨模态但不共享身份信息的图像进行转换;
具体为:该网络具体包括解码器和判别器,图像解码器将解纠缠得到的其中一个模态的风格特征和另一个模态的内容特征重构出新的行人图像,生成和判别网络的结构示意图如图2所示:
一方面,可见光模态风格特征和红外模态内容特征作为解码器G的输入,重构生成新的可见光模态行人图像x′1,该图像保留了真实的可见光模态的风格信息,并加入了真实的红外模态的内容信息,同理,可见光模态风格特征和红外模态内容特征作为解码器G的输入,重构生成新的可见光模态行人图像x″1,可见光模态风格特征和红外模态内容特征作为解码器G的输入,重构生成新的可见光模态行人图像x′2;
另一方面,红外模态风格特征和可见光模态内容特征作为解码器G的输入,重构生成新的红外模态行人图像y′1,该图像保留了真实的红外模态的风格信息,并加入了真实的可见光模态的内容信息,同理,红外模态风格特征和可见光模态内容特征作为解码器G的输入,重构生成新的红外模态行人图像y″1,红外模态风格特征和可见光模态内容特征作为解码器G的输入,重构生成新的红外模态行人图像y′3;
其中,解码器由三层上采样的卷积神经网络和四个残差块组成,第一与第二层的卷积核大小为5×5,滤波器个数为128和64,步长为1,第三层的卷积核大小都为7×7,滤波器个数分别为3,步长为1;
将重构生成的可见光模态行人图像x′1、x″1、x′2和真实的可见光模态行人图像x1输入到判别器中,判别输入的图像是真实的可见光模态行人图像还是解码器重构生成的,同理,将重构生成的红外模态行人图像y′1、y″1、y′3和真实的红外模态行人图像y1输入到判别器中,判别输入的图像是真实的红外模态行人图像还是解码器重构生成的;
本实例通过交叉风格损失、同模态重构损失、跨模态重构损失、循环一致性损失及编码损失来训练解码器:
交叉风格损失(图3所示):
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),‖·‖1表示1范数,为图像x1解纠缠后的风格特征,为图像x2解纠缠后的风格特征,为图像y1解纠缠后的风格特征,为图像y3解纠缠后的风格特征,总体交叉风格损失为:
同模态重构损失(图4所示):
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),‖·‖1表示1范数,为图像x1解纠缠后的风格特征,为图像x1解纠缠后的内容特征,为图像x2解纠缠后的风格特征,为图像x2解纠缠后的内容特征,为图像y1解纠缠后的风格特征,为图像y1解纠缠后的内容特征,为图像y3解纠缠后的风格特征,为图像y3解纠缠后的内容特征,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像 表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像总体同模态重构损失为:
跨模态重构损失(图5所示):
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),‖·‖1表示1范数,为图像x1解纠缠后的风格特征,为图像y1解纠缠后的内容特征,为图像x2解纠缠后的风格特征,为图像x2解纠缠后的内容特征,为图像y1解纠缠后的风格特征,为图像y1解纠缠后的内容特征,为图像y3解纠缠后的风格特征,为图像y3解纠缠后的内容特征,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x′1,表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y1 ′,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x″1,表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y′3,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x′2,表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y″1,总体跨模态重构损失为:
循环一致性损失(图5所示):
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),‖·‖1表示1范数,为解码器将风格特征和内容特征重构得到的新的可见光模态行人图像x′1解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到的新的红外模态行人图像y′1解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到的新的红外模态行人图像y′1解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到的新的可见光模态行人图像x′1解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到的新的可见光模态行人图像x〞1解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到的新的红外模态行人图像y′3解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到的新的红外模态行人图像y′3解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到的新的可见光模态行人图像x″1解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到的新的可见光模态行人图像x′2解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到的新的红外模态行人图像y″1解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到的新的红外模态行人图像y″1解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到的新的可见光模态行人图像x′2解纠缠后的内容特征,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像 表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像 表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像总体循环一致性损失为:
编码损失(图5所示):
其中,E表示数学期望,表示服从可见光模态风格特征分布表示服从可见光模态内容特征分布表示服从可见光模态风格特征分布表示服从可见光模态内容特征分布表示服从红外模态风格特征分布 表示服从红外模态风格特征分布表示服从红外模态内容特征分布表示服从红外模态内容特征分布 表示服从可见光模态风格特征分布表示服从可见光模态内容特征分布表示服从红外模态风格特征分布表示服从红外模态风格特征分布表示服从红外模态内容特征分布表示服从红外模态内容特征分布表示服从可见光模态风格特征分布 表示服从可见光模态风格特征分布表示服从可见光模态内容特征分布表示服从可见光模态内容特征分布表示服从红外模态风格特征分布表示服从红外模态内容特征分布‖·‖1表示1范数,为图像x1解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到新的可见光模态行人图像x′1解纠缠后的风格特征,为图像x1解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到新的可见光模态行人图像x′1解纠缠后的内容特征,为图像y1解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到新的红外模态行人图像y′1解纠缠后的风格特征,为图像y1解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到新的红外模态行人图像y′1解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到新的可见光模态行人图像x″1解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到新的可见光模态行人图像x″1解纠缠后的内容特征,为图像y3解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到新的红外模态行人图像y′3解纠缠后的风格特征,为图像y3解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到新的红外模态行人图像y′3解纠缠后的内容特征,为图像x2解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到新的可见光模态行人图像x′2解纠缠后的风格特征,为图像x2解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到新的可见光模态行人图像x′2解纠缠后的内容特征,为解码器将风格特征和内容特征重构得到新的红外模态行人图像y″1解纠缠后的风格特征,为解码器将风格特征和内容特征重构得到新的红外模态行人图像y″1解纠缠后的内容特征,总体编码损失为:
本实例的对抗性训练采用对应于可见光模态和红外模态的两个判别器D1和D2,对应的损失函数为:
其中,D1(·)和D2(·)为判别器,表示服从可见光模态风格特征分布表示服从可见光模态内容特征分布表示服从可见光模态风格特征分布表示服从可见光模态内容特征分布表示服从红外模态风格特征分布 表示服从红外模态内容特征分布表示服从红外模态风格特征分布表示服从红外模态内容特征分布x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布为图像x1解纠缠后的风格特征,为图像x2解纠缠后的风格特征,为图像y1解纠缠后的风格特征,为图像y3解纠缠后的风格特征,为图像x1解纠缠后的内容特征,为图像x2解纠缠后的内容特征,为图像y1解纠缠后的内容特征,为图像y3解纠缠后的内容特征,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x′1,表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y′1,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x″1, 表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y′3,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x′2,表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y″1,总体对抗损失为:
步骤S4:统一具有不同模态图像的表示形式,建立多光谱模态和特征级差异学习网络,并进行特征学习,利用跨模态四元组损失和交叉熵损失来监督网络的训练;
具体为:如图6所示,首先进行模态统一,即:将图像统一为多光谱模态,通过构造多光谱图像vi={[x1,y′1],[x′1,y1],[x2,y″1],[x″1,y3]}作为统一表示来形成集合S;其次,特征级差异学习网络在生成的多光谱统一图像上进行特征学习,给定一个混合多光谱图像通过深度特征提取网络提取出行人描述符f,使用ResNet-50作为深度特征提取网络的骨干网络,第一层卷积的输入通道数为4,最后的全连接层为1024,行人描述符f使用全连接层的输出特征向量,其后接批标准化、ReLU和Dropout;然后,将全连接层的输出f馈送到另两个独立的全连接层,以生成两个特征向量fq和fc;最后利用两种损失函数来监督特征级差异学习网络的训练,一个是用于相似性学习的跨模态四元组损失,另一个是用于身份信息学习的交叉熵损失,
跨模态四元组损失:
其中,R为可见光模态,I为红外模态,Rp和Ip表示锚点样本,同时Ip为Rp的正样本,Rp也为Ip的正样本,Rn和In为负样本,f(x)是映射函数,d(·,·)是欧几里得距离,α1和α2是阈值,且α1>α2,[z]+=max(z,0)。
交叉熵损失:
其中,N=|S|是训练的图像数量,
通过级联解纠缠模型(图2)和特征级差异学习网络(图6),并最大限度地减少综合损失,以端到端的方式优化网络,总体损失表示如下:
其中,λj,j∈{1,2,……,9}为控制损失项的超参数,Lkl为总体KL散度损失,为总体交叉风格损失,为总体同模态重构损失,为总体跨模态重构损失,为总体循环一致性损失,为总体编码损失,Ladv为总体对抗损失,LQ为跨模态四元组损失,LC为交叉熵损失;
步骤S5:利用测试集进行跨模态行人重识别,得出识别结果。
本实施例基于解纠缠和特征级差异学习的跨模态行人重识别方法提出了一种新颖的跨模态行人重识别解纠缠图像特征的自编码模型,该模型在输入图像中不仅包含共享身份信息的一对跨模态图像,同时在各自模态中各有一张不共享身份信息的图像,以此解决可能存在的跨模态图像间内容信息(如姿态、体态)相近的问题,提升模型判别的泛化能力;引入交叉风格损失,缩小同模态间的风格信息,使得解码器能够在相同内容信息,不同风格信息重构时生成更逼真的同模态图像来训练判别器;在特征级差异学习网络中应用跨模态四元组损失,更好的减少模态间和模态内的差异。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,包括以下步骤:
采用可见光摄像机和红外摄像机在不同的位置采集多张行人图片形成数据集,并对数据集中的图片进行预处理;
从所述数据集中选取可见光模态的两张输入图像记为x1和x2、选取红外模态的两张输入图像记为y1和y3,所述图像x1和y1共享身份信息,所述图像x2和y3不共享身份信息;
获取预先建立的解纠缠图像特征的自编码模型,采用该自编码模型分别对所述图像x1、x2、y1和y3进行解编码操作,解纠缠出每幅图像的风格特征和内容特征;
获取预先建立并训练好的生成与判别网络,将解纠缠获取每幅图像的风格特征和内容特征以及对应的原图像载入该生成与判别网络中;所述生成与判别网络包括解码器和判别器,所述解码器对所述风格特征和内容特征进行重构得到多个新图像,所述判别器对所述多个新图像和原图像进行判别,从而得到总体对抗损失;
获取预先建立并训练好的特征级差异学习网络,对所述多个新图像和原图像进行特征学习,获取行人识别结果;
所述生成与判别网络和特征级差异学习网络通过级联连接,所述生成与判别网络和特征级差异学习网络共同进行训练,所述生成与判别网络和特征级差异学习网络的总体损失函数包括解码器的损失函数、所述总体对抗损失和特征级差异学习网络的损失函数。
2.根据权利要求1所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述自编码模型包括提取不同模态行人图像风格的风格编码器和保持行人图像本身语义的内容编码器。
3.根据权利要求2所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述可见光模态的两张输入图像x1和x2在输入所述内容编码器前还包括将图像转化为灰度图。
5.根据权利要求2所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述风格编码器的编码过程为 和内容编码器的编码过程为和其中,表示图像θ的风格编码器,θ∈{x1,x2,y1,y3},表示图像θ的内容编码器,θ∈{x1,x2,y1,y3},为风格编码器对可见光模态的图像x1进行编码后的风格特征,为内容编码器对可见光模态的图像x1进行编码后的内容特征,为风格编码器对可见光模态的图像x2进行编码后的风格特征,为内容编码器对可见光模态的图像x2进行编码后的内容特征,为风格编码器对红外模态的图像y1进行编码后的风格特征,为内容编码器对红外模态的图像y1进行编码后的内容特征,风格编码器对红外模态的图像y3进行编码后的风格特征,为内容编码器对红外模态的图像y3进行编码后的内容特征;
所述解码器对所述风格特征和内容特征进行重构得到多个新图像具体为:
一方面,可见光模态风格特征和红外模态内容特征作为解码器G的输入,重构生成新的可见光模态行人图像x′1,可见光模态风格特征和红外模态内容特征作为解码器G的输入,重构生成新的可见光模态行人图像x″1,可见光模态风格特征和红外模态内容特征作为解码器G的输入,重构生成新的可见光模态行人图像x′2,
另一方面,红外模态风格特征和可见光模态内容特征作为解码器G的输入,重构生成新的红外模态行人图像y′1,红外模态风格特征和可见光模态内容特征作为解码器G的输入,重构生成新的红外模态行人图像y″1,红外模态风格特征和可见光模态内容特征作为解码器G的输入,重构生成新的红外模态行人图像y′3;
所述判别器对所述多个新图像和原图像进行判别具体为:
将重构生成的可见光模态行人图像x′1、x〞1、x′2和真实的可见光模态行人图像x1输入到判别器中,判别输入的图像是真实的可见光模态行人图像还是解码器重构生成的,将重构生成的红外模态行人图像y′1、y″1、y′3和真实的红外模态行人图像y1输入到判别器中,判别输入的图像是真实的红外模态行人图像还是解码器重构生成的。
6.根据权利要求5所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,所述解码器和判别器满足:
式中,E表示数学期望,D1(·)和D2(·)为判别器,表示服从可见光模态风格特征分布表示服从可见光模态内容特征分布表示服从可见光模态风格特征分布表示服从可见光模态内容特征分布表示服从红外模态风格特征分布表示服从红外模态内容特征分布 表示服从红外模态风格特征分布表示服从红外模态内容特征分布表示x1服从真实的可见光模态行人图像数据分布p(x1),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),为图像x1解纠缠后的风格特征,为图像x2解纠缠后的风格特征,为图像y1解纠缠后的风格特征,为图像y3解纠缠后的风格特征,为图像x1解纠缠后的内容特征,为图像x2解纠缠后的内容特征,为图像y1解纠缠后的内容特征,为图像y3解纠缠后的内容特征,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x′1,表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y′1, 表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x″1,表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y′3,表示解码器G将风格特征和内容特征重构得到新的可见光模态行人图像x′2, 表示解码器G将风格特征和内容特征重构得到新的红外模态行人图像y″1,
所述总体对抗损失的计算表达式为:
式中,Ladv为总体对抗损失。
7.根据权利要求5所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,通过构造多光谱图像vi={[x1,y′1],[x′1,y1],[x2,y″1],[x″1,y3]}作为统一表示来形成集合S,构建基于ResNet-50骨干网络的特征级差异学习网络,并进行特征学习,给定一个混合多光谱图像通过深度特征提取网络提取出行人描述符f,行人描述符f使用全连接层的输出特征向量,将其馈送到另两个独立的全连接层,以生成两个特征向量fq和fc,最后利用跨模态四元组损失和交叉熵损失来监督特征级差异学习网络的训练。
9.根据权利要求8所述的一种基于解纠缠和特征级差异学习的跨模态行人重识别方法,其特征在于,采用交叉风格损失、同模态重构损失、跨模态重构损失、循环一致性损失和编码损失来训练所述解码器,所述交叉风格损失的计算表达式为:
其中,E表示数学期望,x1~p(x1)表示x1服从真实的可见光模态行人图像数据分布p(x1),x2~p(x2)表示x2服从真实的可见光模态行人图像数据分布p(x2),y1~p(y1)表示y1服从真实的红外模态行人图像数据分布p(y1),y3~p(y3)表示y3服从真实的红外模态行人图像数据分布p(y3),||·||1表示1范数,为图像x1解纠缠后的风格特征,为图像x2解纠缠后的风格特征,为图像y1解纠缠后的风格特征为图像y3解纠缠后的风格特征;
所述解码器的损失函数包括总体交叉风格损失,该总体交叉风格损失的计算表达式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110131884.4A CN112766217B (zh) | 2021-01-30 | 2021-01-30 | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110131884.4A CN112766217B (zh) | 2021-01-30 | 2021-01-30 | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112766217A true CN112766217A (zh) | 2021-05-07 |
CN112766217B CN112766217B (zh) | 2022-08-26 |
Family
ID=75704228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110131884.4A Active CN112766217B (zh) | 2021-01-30 | 2021-01-30 | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766217B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449676A (zh) * | 2021-07-13 | 2021-09-28 | 凌坤(南通)智能科技有限公司 | 一种基于双路互促进解纠缠学习的行人重识别方法 |
CN113903053A (zh) * | 2021-09-26 | 2022-01-07 | 厦门大学 | 基于统一中间模态的跨模态行人重识别方法 |
CN114241517A (zh) * | 2021-12-02 | 2022-03-25 | 河南大学 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108318513A (zh) * | 2017-01-16 | 2018-07-24 | Fei 公司 | X射线成像中的统计分析 |
CN109190470A (zh) * | 2018-07-27 | 2019-01-11 | 北京市商汤科技开发有限公司 | 行人重识别方法及装置 |
CN110210549A (zh) * | 2019-05-28 | 2019-09-06 | 北方民族大学 | 一种跨域变分对抗自编码方法 |
CN110263865A (zh) * | 2019-06-24 | 2019-09-20 | 北方民族大学 | 一种半监督多模态多类别的图像翻译方法 |
CN110598654A (zh) * | 2019-09-18 | 2019-12-20 | 合肥工业大学 | 多粒度交叉模态特征融合行人再识别方法和再识别系统 |
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN111539255A (zh) * | 2020-03-27 | 2020-08-14 | 中国矿业大学 | 基于多模态图像风格转换的跨模态行人重识别方法 |
CN111597876A (zh) * | 2020-04-01 | 2020-08-28 | 浙江工业大学 | 一种基于困难五元组的跨模态行人重识别方法 |
CN111797891A (zh) * | 2020-05-21 | 2020-10-20 | 南京大学 | 基于生成对抗网络的非成对异质人脸图像生成方法、装置 |
-
2021
- 2021-01-30 CN CN202110131884.4A patent/CN112766217B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108318513A (zh) * | 2017-01-16 | 2018-07-24 | Fei 公司 | X射线成像中的统计分析 |
CN109190470A (zh) * | 2018-07-27 | 2019-01-11 | 北京市商汤科技开发有限公司 | 行人重识别方法及装置 |
CN110210549A (zh) * | 2019-05-28 | 2019-09-06 | 北方民族大学 | 一种跨域变分对抗自编码方法 |
CN110263865A (zh) * | 2019-06-24 | 2019-09-20 | 北方民族大学 | 一种半监督多模态多类别的图像翻译方法 |
CN110598654A (zh) * | 2019-09-18 | 2019-12-20 | 合肥工业大学 | 多粒度交叉模态特征融合行人再识别方法和再识别系统 |
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN111539255A (zh) * | 2020-03-27 | 2020-08-14 | 中国矿业大学 | 基于多模态图像风格转换的跨模态行人重识别方法 |
CN111597876A (zh) * | 2020-04-01 | 2020-08-28 | 浙江工业大学 | 一种基于困难五元组的跨模态行人重识别方法 |
CN111797891A (zh) * | 2020-05-21 | 2020-10-20 | 南京大学 | 基于生成对抗网络的非成对异质人脸图像生成方法、装置 |
Non-Patent Citations (1)
Title |
---|
SEOKEON CHOI 等: "Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification", 《ARXIV:1912.01230V1 [CS.CV]》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449676A (zh) * | 2021-07-13 | 2021-09-28 | 凌坤(南通)智能科技有限公司 | 一种基于双路互促进解纠缠学习的行人重识别方法 |
CN113449676B (zh) * | 2021-07-13 | 2024-05-10 | 凌坤(南通)智能科技有限公司 | 一种基于双路互促进解纠缠学习的行人重识别方法 |
CN113903053A (zh) * | 2021-09-26 | 2022-01-07 | 厦门大学 | 基于统一中间模态的跨模态行人重识别方法 |
CN114241517A (zh) * | 2021-12-02 | 2022-03-25 | 河南大学 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
CN114241517B (zh) * | 2021-12-02 | 2024-02-27 | 河南大学 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112766217B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Tv-gan: Generative adversarial network based thermal to visible face recognition | |
Ning et al. | Multi‐view frontal face image generation: a survey | |
Luo et al. | Unsupervised learning of long-term motion dynamics for videos | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN112766217B (zh) | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 | |
CN113139591B (zh) | 一种基于增强多模态对齐的广义零样本图像分类方法 | |
CN112530019B (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
Sheng et al. | Siamese denoising autoencoders for joints trajectories reconstruction and robust gait recognition | |
CN111539255A (zh) | 基于多模态图像风格转换的跨模态行人重识别方法 | |
CN111639580B (zh) | 一种结合特征分离模型和视角转换模型的步态识别方法 | |
Zhang et al. | IL-GAN: Illumination-invariant representation learning for single sample face recognition | |
CN113361489B (zh) | 基于解耦表示的人脸正面化模型构建方法和训练方法 | |
Baek et al. | Generative adversarial ensemble learning for face forensics | |
CN110335299A (zh) | 一种基于对抗网络的单目深度估计系统实现方法 | |
CN112131975A (zh) | 基于Retinex分解和生成对抗网络的人脸光照处理方法 | |
Chen et al. | Semi-supervised dictionary learning with label propagation for image classification | |
CN115731574A (zh) | 基于中间模态的参数共享和特征学习的跨模态行人重识别方法 | |
CN115100684A (zh) | 基于姿态与样式归一化的换衣行人重识别方法 | |
Ma et al. | Cascade transformer decoder based occluded pedestrian detection with dynamic deformable convolution and Gaussian projection channel attention mechanism | |
Shabaninia et al. | Transformers in action recognition: A review on temporal modeling | |
Liang et al. | Specificity and latent correlation learning for action recognition using synthetic multi-view data from depth maps | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
Teng et al. | Unimodal face classification with multimodal training | |
CN115862097A (zh) | 基于多注意力多尺度特征学习的遮挡人脸识别方法和装置 | |
Saif et al. | Aggressive action estimation: a comprehensive review on neural network based human segmentation and action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |