CN111539255A - 基于多模态图像风格转换的跨模态行人重识别方法 - Google Patents

基于多模态图像风格转换的跨模态行人重识别方法 Download PDF

Info

Publication number
CN111539255A
CN111539255A CN202010227374.2A CN202010227374A CN111539255A CN 111539255 A CN111539255 A CN 111539255A CN 202010227374 A CN202010227374 A CN 202010227374A CN 111539255 A CN111539255 A CN 111539255A
Authority
CN
China
Prior art keywords
pedestrian
rgb
image
pedestrian image
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010227374.2A
Other languages
English (en)
Other versions
CN111539255B (zh
Inventor
赵佳琦
陈莹
夏士雄
周勇
牛强
姚睿
陈朋朋
杜文亮
朱东郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202010227374.2A priority Critical patent/CN111539255B/zh
Publication of CN111539255A publication Critical patent/CN111539255A/zh
Application granted granted Critical
Publication of CN111539255B publication Critical patent/CN111539255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多模态图像风格转换的跨模态行人重识别方法,根据行人图像数据集,对训练图像进行收集和预处理获取训练样本;构建解耦图像特征的自动编码网络模型,该模型对处理后输入的行人图像进行特征解耦,分为域无关的内容特征和域相关的风格特征;构建基于模态转换的生成网络和判别网络模型,该模型实现不同域行人图像的风格属性信息互换,实现变换风格的样本生成;本发明方法针对行人重识别算法易受不同光照影响的问题,通过神经网络提取行人图像的特征来学习不同图像的相似性矩阵,该方法学习到的度量矩阵比人为选定的矩阵具有灵活性,更能获得图像特征之间的相似性。

Description

基于多模态图像风格转换的跨模态行人重识别方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于多模态图像风格转换的跨模态行 人重识别方法。
背景技术
随着人工智能技术的快速发展以及人们对社会安全要求的提高,摄像头越来 越多地被投入使用,出现在生活的各个角落,有关摄像头视频的分析研究也越来 越受到人们的重视。多摄像头监控具有广阔的视野,克服了单摄像头监控范围有 限的问题,但也带来大量的视频、图像信息。合理利用摄像头监控信息并结合性 能良好的视频跟踪技术,能够从海量的数据中筛选出对人们有用的信息。视频跟 踪技术涉及到很多研究方向,包括图像处理、计算机视觉、模式识别和人工智能 等,应用前景十分广阔。
行人重识别技术利用计算机视觉技术判断图像或者视频序列中是否存在需要搜索 的行人,可以实现跨摄像头寻找同一个行人的目的。实际场景中,由于两个摄像头角度不一致以及位置的原因,会导致不同摄像头拍摄到的行人图像在光照、颜色、明暗以及 外观上有很大区别,这些区别将会拉大相同行人之间的差异性。因为一个行人被拍摄到 图像因为视角不同、姿态不同和明暗不同导致图像特征相差太大而无法精准的检测。因 而行人重识别技术旨在学习与行人身份特征相关和与其他特征无关的行人信息,来提高 行人再识别的精度。
在之前的研究工作中,行人重识别的研究重点是用描述子和距离学习来获取行人特 征表示和行人相似性度量。基于视觉描述子的行人重识别方法通过学习具有判别性和鲁 棒性的描述子来表示行人图像,度量学习的行人重识别方法通过学习一个适合的距离度 量或者特征变换函数来最大化正确匹配率。随着深度学习算法的普及,研究者更多关注的是采用深度学习算法进行处理,通过训练神经网络提取图像特征。由于深度学习模型 需要大量样本进行参数训练,因此基于数据生成的行人识别方法开始获得大量关注。行 人重识别方法大致可以分为三类:基于人工特征的行人重识别,基于距离度量的行人重 识别,基于深度学习的行人重识别。
基于人工特征的行人重识别方法研究主要集中在行人表观信息的特征提取和表示 上,提取更加鲁棒和稳定的行人特征,其目的是缩小同一行人两张图像的特征距离,拉大异类行人图像特征间的空间距离。因此特征表示的优劣是行人能否被准确重识别的关键因素之一。基于人工特征的行人重识别方法在某些应用场景下可以达到比较鲁棒的识别精度,但是由于夜晚和白天摄像头拍摄到的行人图像差距较大,导致该类行人重识别 方法的识别效果不理想。
基于距离度量的行人重识别方法能够通过行人样本学习到最佳相似度测量计算方 法以匹配同一行人并区分不同行人。基于距离度量的行人重识别方法提取行人图像成为 特征向量后,再使用标准距离对两个特征向量进行相似性度量。比较常用的标准距离有曼哈顿距离,欧氏距离和马氏距离。然而,同一行人跨越多个不重叠的摄像头时,其姿 态、外观会发生很大变换,此时使用基于距离度量的行人重识别方法效果不理想,因为 该类方法会平等地处理每一种特征。对于跨模态问题,距离度量方法一般先分别提取行 人图像不同模态的特征,再通过一个特征空间度量矩阵让不同域特征能够在该空间上得 到近似同域特征。通过该距离度量方法能够大大改善跨模态行人重识别中类间差异性和 类内不变性的不可控制,进而提高识别精度。
基于深度学习的行人重识别方法大多数研究工作集中在可见光图像的行人重识别 方法上,但在一些应用中,可见光图像不适合在黑暗环境或夜间使用。红外成像在许多视觉系统中是必要的。研究基于多模态图像风格转换的跨模态行人重识别方法,可以解 决行人重识别问题主要的难点问题,即数据库中红外图像数量太少的问题,该问题不利 于模型学习高效、鲁棒的特征表示和度量准则。
发明内容
发明目的:本发明目的在于克服上述现有技术的不足,提出了一种基于多模态图像 风格转换的跨模态行人重识别方法。
本发明研究基于深度学习的方法,利用生成式对抗网络实现红外域-可见光域行人 图像的风格属性信息互换,解决了实际中行人重识别方法受不同光照影响导致识别行人 困难的难题,并且设计基于神经网络的相似度量学习方法提升基于多模态图像风格转换 的跨模态行人重识别方法的鲁棒性。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于多模态图像风格转换的跨模态行人重识别方法,利用生成式对抗网络将两 种域下的行人图像进行风格互换,生成新域的行人图像,并且利用行人重识别方法对这些转换风格的行人图像进行验证;
提出多模态图像风格转换的生成式对抗网络模型实现红外域行人图像和可见光域 行人图像的风格互换,采用基于神经网络的相似度量学习方法提升跨模态行人重识别性 能;
具体包括如下步骤:
(1)对训练行人图像进行收集和预处理,得到训练样本,具体是:
在可见光行人图像数据集中收集若干张行人图像作为可见光域训练图像;
在红外行人图像数据集中收集若干张行人图像作为红外域训练图像;
(2)构建解耦图像特征的自动编码网络模型,该模型对输入的两个域的行人图像进行编码处理,解耦两种域中的行人图像特征为风格特征和内容特征;
(3)构建基于模态转换的生成网络和判别网络模型,该模型利用解耦后的内容特征和另一个域的风格特征进行融合得到新的特征,生成新的行人图像,实现图像跨模态 的风格转换;
(4)构建基于神经网络的相似度量学习方法,通过使用神经网络来学习行人重识别的度量方式提升多模态图像风格转换的生成式对抗网络的行人重识别性能;
(5)验证提出的跨模态行人重识别方法的有效性,对生成行人图像构成的数据集进行行人重识别方法验证。
所述步骤(1)中,对两个域中的行人图像进行归一化,获取训练样本像素为 128×128。
所述步骤(2)中,构建解耦图像特征的自动编码网络由保持行人图像本身语义的内容编码器和提取行人图像风格的风格编码器组成;
内容编码器分别通过以下公式将可见光域行人图像xrgb和红外域行人图像xir编码为内容特征crgb=Ec(xrgb)、cir=Ec(xir);其中,
crgb为可见光域行人图像xrgb的内容特征;
cir为红外域行人图像xir的内容特征;
风格编码器通过以下公式将目标域行人图像编码为风格特征srgb=Ec(xrgb)、 sir=Es(xir),其中,
srgb为可见光域行人图像xrgb的风格特征;
sir为红外域行人图像xir的风格特征。
所述步骤(3)中,构建基于模态转换的生成网络和判别网络包括一个生成器和一个判别器,满足:
Figure BDA0002428164070000041
Figure BDA0002428164070000042
LGAN=Lrgb2ir+Lir2rgb
其中:xir为红外域行人图像,xrgb为可见光域行人图像,cir为红外域行人图像xir的内容特征,crgb为可见光域行人图像xrgb的内容特征,sir为红外域行人图像xir的风格特 征,srgb为可见光域行人图像xrgb的风格特征;
Lrgb2ir表示红外域行人图像xir与根据可见光域行人图像xrgb的内容特征crgb、红外域 行人图像xir的风格特征sir生成器G生成新的具有红外域行人图像风格的行人图像xrgb→ir之间的对抗损失函数;
Lir2rgb表示可见光域行人图像xrgb与根据红外域行人图像xir的内容特征cir、可见光 域行人图像xrgb的风格特征srgb生成器G生成新的具有可见光域行人图像风格的行人图像xir→rgb之间的对抗损失函数;
D(·)表示判别器D对真实行人图像x的判别结果;
G(crgb,sir)表示生成器G将可见光域行人图像xrgb的内容特征与红外域行人图像xir的风格特征sir作为输入进而获得新的行人图像xrgb→ir,其具有可见光域行人图像的内容信息以及红外域行人图像的风格特征;
G(cir,srgb)表示生成器G将红外域行人图像xir的内容特征与可见光域行人图像xrgb的风格特征作为输入进而获得新的行人图像xir→rgb,其具有红外域行人图像的内容信息以及可见光域行人图像的风格特征;
D(G(crgb,sir))表示判别器D对生成行人图像xrgb→ir的判别结果;
D(G(cir,srgb))表示判别器D对生成行人图像xir→rgb的判别结果;
Figure BDA0002428164070000051
表示数学期望;
xir~p(xir)表示变量xir服从真实的红外域行人图像数据分布p(xir);
xrgb~p(xrgb)表示变量xrgb服从真实的可见光域行人图像数据分布p(xrgb);
cir~p(cir)表示变量cir服从红外域的内容特征分布p(cir);
crgb~p(crgb)表示变量crgb服从可见光域的内容特征分布p(crgb);
sir~q(sir)表示变量sir服从红外域的风格特征分布q(sir);
srgb~q(srgb)表示变量srgb服从可见光域的风格特征分布q(srgb)。
所述步骤(3)中,构建基于模态转换的生成网络和判别网络模型包括如下步骤:
(51)图像生成器G将可见光域行人图像xrgb的内容特征crgb和红外域行人图像xir的风格特征sir作为输入,生成新的行人图像xrgb→ir,行人图像xrgb→ir具有真实的可见光 域行人图像xrgb的内容特征和真实的红外域行人图像xir的风格特征;
(52)图像生成器G将红外域行人图像xir的内容特征cir和可见光域行人图像xrgb的风格特征srgb作为输入,生成新的行人图像xir→rgb,行人图像xir→rgb具有真实的红外域行 人图像xir的内容特征和真实的可见光域行人图像xrgb的风格特征;
(53)将步骤(51)中生成的红外域行人图像xrgb→ir和真实的红外域行人图像xir输入到判别器D中,判别器D将判别输入行人图像是真实行人图像还是生成器生成的行人 图像;
(54)将步骤(52)中生成的可见光域行人图像xir→rgb和真实的可见光域行人图像xrgb输入到判别器D中,判别器D将判别输入行人图像是真实行人图像还是生成器生成的行人图像。
步骤(51)~步骤(52)中,按照下面的损失函数训练生成器:
Figure BDA0002428164070000061
Figure BDA0002428164070000062
Figure BDA0002428164070000063
Figure BDA0002428164070000064
Figure BDA0002428164070000065
Figure BDA0002428164070000066
其中,
Figure BDA0002428164070000067
是定义红外行人图像xir与生成的红外行人图像G(Ec(xir),Es(xir))之间的像素级重构损失函数;
Figure BDA0002428164070000068
是定义可见光行人图像xrgb与生成的可见光行人图像G(Ec(xrgb),Es(xrgb))之间 的像素级重构损失函数;
Figure BDA0002428164070000069
表示的是红外域行人图像的内容特征cir和内容编码器Ec编码生成的行人图像 G(cir,srgb)后的内容特征之间的重构损失;
Figure BDA00024281640700000610
表示的是可见光域行人图像的内容特征crgb和内容编码器Ec编码生成的行人图像G(crgb,sir)后的内容特征之间的重构损失;
Figure BDA00024281640700000611
表示的是红外域行人图像的风格特征sir和风格编码器Es编码生成的行人图像 G(crgb,sir)后的风格特征之间的重构损失;
Figure BDA00024281640700000612
表示的是可见光域行人图像的风格特征srgb和风格编码器Es编码生成的行人图像G(cir,srgb)后的风格特征之间的重构损失;
||·||1表示一范数;
多模态图像风格转换的跨模态生成式对抗网络的目标函数为:
Figure BDA0002428164070000071
其中,Lloss表示基于多模态图像风格转换的跨模态行人重识别方法的目标函数;
LGAN表示生成器与判别器之间的对抗损失;
α、
Figure BDA0002428164070000072
Figure BDA0002428164070000073
为加权系数。
所述步骤(4)中,构建基于神经网络的相似度量学习方法是设计一个度量网络,该网络包括图像特征提取模块Eφ用来提取图像的特征,相似性度量模块Rθ用来计算两 个图像的相似度,满足:
r(xi,xj)=Rθ(C(Eφ(xi),Eφ(xj))) (i,j=1,2,...,N)
其中,xi和xj表示两张行人图像;
r(xi,xj)表示两张行人图像的相似度;
C(Eφ(xi),Eφ(xj))表示将图像特征提取模块Eφ提取的图像特征连接一起;
N代表行人的类别,身份验证分类器用二进制交叉熵损失进行训练,所述二进制交叉熵损失如下:
Lv=-y[logr(xi,xj)]-(1-y)log(1-r(xi,xj))
其中,y是真实标签,如果xi,xj是同一个人,则y=1;如果xi,xj是不同一个人,则 y=0。
所述步骤(5)中,采用传统和公开数据集对生成行人图像构成的数据集进行行人重识别验证。
有益效果:
本发明提供的一种基于多模态图像风格转换的跨模态行人重识别方法,采用多模态 图像风格转换的生成式对抗网络模型实现红外域行人图像和可见光域行人图像的风格互换,解决了实际中行人重识别方法受不同光照影响导致识别行人困难的难题;已有的 基于传统相似性度量的行人重识别方法把行人特征学习和行人相似性度量分开,不利于 获取行人图像特征之间的相似性,本发明针对上述问题,设计基于神经网络的相似度量 学习方法来提升相似度量方法的鲁棒性。
附图说明
图1为本发明方法的实施流程图;
图2为构建基于模态转换的生成网络和判别网络的实施流程图;
图3为构建基于模态转换的生成网络的框架示意图;
其中,xrgb是可见光域行人图像,xir是红外域行人图像,crgb是可见光域行人图像的内容特征,cir是红外域行人图像的内容特征,srgb是可见光域行人图像的风格特征,sir是红外域行人图像的风格特征,xrgb→ir是由可见光域行人图像转换为具有红外域行人图 像风格的行人图像,xir→rgb是由红外域行人图像转换具有可见光域行人图像风格的行人 图像。
图4为基于多模态图像风格转换的跨模态行人重识别方法整体框架示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步详细的说明。
图1所示为一种基于多模态图像风格转换的跨模态行人重识别方法,包括如下流程 步骤:
步骤S01:对训练行人图像进行收集和预处理,在可见光行人图像数据集中收集若干张行人图像作为可见光域训练图像;在红外行人图像数据集中收集若干张行人图像作为红外域训练图像,对两种域的训练图像进行大小归一化处理,得到训练样本;
步骤S02:构建解耦图像特征的自动编码网络模型,该模型对归一化处理后输入的两个域的行人图像进行编码处理,解耦两种域中的行人图像特征为风格特征和内容特 征。自动编码网络模型由内容编码器和风格编码器组成,内容编码器分别通过以下公式 将可见光域行人图像xrgb和红外域行人图像xir编码为内容特征crgb=Ec(xrgb)、 cir=Ec(xir),其中,crgb为可见光域行人图像xrgb的内容特征,cir为红外域行人图像xir的 内容特征;风格编码器将目标域行人图像编码为风格特征srgb=Ec(xrgb)、sir=Es(xir), 其中,srgb为可见光域行人图像xrgb的风格特征,sir为红外域行人图像xir的风格特征。
步骤S03:构建基于模态转换的生成网络和判别网络模型,该模型利用解耦后的内容特征和另一个域的风格特征进行融合得到新的特征,生成新的行人图像,实现图像跨 模态的风格转换;该模型包括一个生成器G和一个判别器D,满足:
Figure BDA0002428164070000091
Figure BDA0002428164070000092
LGAN=Lrgb2ir+Lir2rgb
其中:xir为红外域行人图像,xrgb为可见光域行人图像,cir为红外域行人图像xir的内容特征,crgb为可见光域行人图像xrgb的内容特征,sir为红外域行人图像xir的风格特 征,srgb为可见光域行人图像xrgb的风格特征;
Lrgb2ir表示红外域行人图像xir与根据可见光域行人图像xrgb的内容特征crgb、红外域 行人图像xir的风格特征sir生成器G生成新的具有红外域行人图像风格的行人图像xrgb→ir之间的对抗损失函数,Lir2rgb表示可见光域行人图像xrgb与根据红外域行人图像xir的内容特征cir、可见光域行人图像xrgb的风格特征srgb生成器G生成新的具有可见光域 行人图像风格的行人图像xir→rgb之间的对抗损失函数;
D(·)判别器D对真实行人图像x的判别结果;
G(crgb,sir)表示生成器G将内容特征crgb与风格特征sir作为输入进而获得新的行人 图像xrgb→ir,其具有可见光域行人图像的内容信息以及红外域行人图像的风格特征, G(cir,srgb)表示生成器G将内容特征cir与风格特征srgb作为输入进而获得新的行人图像xir→rgb,其具有红外域行人图像的内容信息以及可见光域行人图像的风格特征;
D(G(crgb,sir))表示判别器D对生成行人图像xrgb→ir的判别结果,D(G(cir,srgb))表示 判别器D对生成行人图像xir→rgb的判别结果;
Figure BDA0002428164070000093
表示数学期望;
xir~p(xir)表示变量xir服从真实的红外域行人图像数据分布p(xir),xrgb~p(xrgb)表示变量xrgb服从真实的可见光域行人图像数据分布p(xrgb),cir~p(cir)表示变量cir服 从红外域的内容特征分布p(cir),crgb~p(crgb)表示变量crgb服从可见光域的内容特征分 布p(crgb),sir~q(sir)表示变量sir服从红外域的风格特征分布q(sir),srgb~q(srgb)表 示变量srgb服从可见光域的风格特征分布q(srgb)。
对于本实施例而言,上述步骤S03还可以进一步细化,其细化后的具体流程图如图2所示。图2中,该步骤S03进一步包括:
步骤S31:图像生成器G将可见光内容特征crgb和红外风格特征sir作为输入,生成新的行人图像xrgb→ir,行人图像xrgb→ir具有真实的可见光域行人图像xrgb的内容特征和真实的红外域行人图像xir的风格特征。
内容编码器Ec由一个包含三层下采样的卷积神经网络和多个残差块组成,三层卷积 中从第一层卷积到第三层卷积所对应的滤波器个数分别为64、128和256,卷积核的大小除了第一层卷积为7×7、步长为1,其他两个卷积核大小都是4×4、步长为2。
风格编码器Es为一个包含五层下采样的卷积神经网络组成,接着是一个全局平均池 化层和全连接层。
从第一层卷积到第五层卷积所对应的滤波器个数分别为64、128、256、256和256,卷积核的大小除了第一层卷积为7×7、步长为1,其他四个卷积核大小都是4×4、步长 为2。
解码器De根据输入行人图像的内容特征和风格特征生成新的行人图像,它由四个残差块和上采样卷积神经网络组成,上采样卷积神经网络包括三层卷积,从第一层卷积 到第三层卷积所对应的滤波器个数分别为128、64和3,第一层和第二次卷积为5×5、 步长为1,第三层卷积核大小是7×7、步长为1。
步骤S32:图像生成器G将红外内容特征cir和可见光风格特征srgb作为输入,生成新的行人图像xir→rgb,行人图像xir→rgb具有真实的红外域行人图像xir的内容特征和真实 的可见光域行人图像xrgb的风格特征。
所述步骤S31到步骤S32,内容编码器Ec、风格编码器Es和解码器De构成图像生 成器G,其结构示意图如图3所示。
本实施例按照以下损失函数训练生成器G:
Figure BDA0002428164070000111
Figure BDA0002428164070000112
Figure BDA0002428164070000113
Figure BDA0002428164070000114
Figure BDA0002428164070000115
Figure BDA0002428164070000116
其中,
Figure BDA0002428164070000117
是定义红外行人图像xir与生成的红外行人图像G(Ec(xir),Es(xir))之间的像素级重构损失函数;
Figure BDA0002428164070000118
是定义可见光行人图像xrgb与生成的可见光行人图像G(Ec(xrgb),Es(xrgb))之间 的像素级重构损失函数;
Figure BDA0002428164070000119
表示的是红外域行人图像的内容特征cir和内容编码器Ec编码生成的行人图像 G(cir,srgb)后的内容特征之间的重构损失;
Figure BDA00024281640700001110
表示的是可见光域行人图像的内容特征crgb和内容编码器Ec编码生成的行人图像G(crgb,sir)后的内容特征之间的重构损失;
Figure BDA00024281640700001111
表示的是红外域行人图像的风格特征sir和风格编码器Es编码生成的行人图像 G(crgb,sir)后的风格特征之间的重构损失;
Figure BDA00024281640700001112
表示的是可见光域行人图像的风格特征srgb和风格编码器Es编码生成的行人图像G(cir,srgb)后的风格特征之间的重构损失;
||·||1表示一范数。
多模态图像风格转换的跨模态生成式对抗网络的目标函数为:
Figure BDA0002428164070000121
其中,Lloss表示基于多模态图像风格转换的跨模态行人重识别方法的目标函数;
LGAN表示生成器与判别器之间的对抗损失;
α、
Figure BDA0002428164070000122
Figure BDA0002428164070000123
为加权系数。
步骤S33:将步骤S31中生成的红外域行人图像xrgb→ir和真实的红外域行人图像xir输入到判别器D中,判别器D将判别输入行人图像是真实行人图像还是生成器生成的行 人图像。
步骤S34:将步骤S32中生成的可见光域行人图像xir→rgb和真实的可见光域行人图像xrgb输入到判别器D中,判别器D将判别输入行人图像是真实行人图像还是生成器生 成的行人图像。
步骤S04:构建基于神经网络的相似度量学习方法主要是设计一个度量网络,该网络包括图像特征提取模块Eφ用来提取图像的特征,相似性度量模块Rθ用来计算两个图 像的相似度,满足:
r(xi,xj)=Rθ(C(Eφ(xi),Eφ(xj))) (i,j=1,2,...,N)
其中,xi和xj表示两张行人图像;
r(xi,xj)表示两张行人图像的相似度;
C(Eφ(xi),Eφ(xj))表示将图像特征提取模块Eφ提取的图像特征连接一起;
N代表行人的类别。
身份验证分类器用二进制交叉熵损失进行训练,所述二进制交叉熵损失如下:
Lv=-y[logr(xi,xj)]-(1-y)log(1-r(xi,xj))
其中,y是真实标签,如果xi,xj是同一个人,则y=1;如果xi,xj是不同一个人,则y=0。
步骤S05:为了验证提出的行人重识别方法的有效性,可以采用传统和公开数据集对生成行人图像构成的数据集进行行人重识别验证。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员 来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于多模态图像风格转换的跨模态行人重识别方法,其特征在于:利用生成式对抗网络将两种域下的行人图像进行风格互换,生成新域的行人图像,并且利用行人重识别方法对这些转换风格的行人图像进行验证;
提出多模态图像风格转换的生成式对抗网络模型实现红外域行人图像和可见光域行人图像的风格互换,采用基于神经网络的相似度量学习方法提升跨模态行人重识别性能;
具体包括如下步骤:
(1)对训练行人图像进行收集和预处理,得到训练样本,具体是:
在可见光行人图像数据集中收集若干张行人图像作为可见光域训练图像;
在红外行人图像数据集中收集若干张行人图像作为红外域训练图像;
(2)构建解耦图像特征的自动编码网络模型,该模型对输入的两个域的行人图像进行编码处理,解耦两种域中的行人图像特征为风格特征和内容特征;
(3)构建基于模态转换的生成网络和判别网络模型,该模型利用解耦后的内容特征和另一个域的风格特征进行融合得到新的特征,生成新的行人图像,实现图像跨模态的风格转换;
(4)构建基于神经网络的相似度量学习方法,通过使用神经网络来学习行人重识别的度量方式提升多模态图像风格转换的生成式对抗网络的行人重识别性能;
(5)验证提出的跨模态行人重识别方法的有效性,对生成行人图像构成的数据集进行行人重识别方法验证。
2.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法,其特征在于:所述步骤(1)中,对两个域中的行人图像进行归一化,获取训练样本像素为128×128。
3.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法,其特征在于:所述步骤(2)中,构建解耦图像特征的自动编码网络由保持行人图像本身语义的内容编码器和提取行人图像风格的风格编码器组成;
内容编码器分别通过以下公式将可见光域行人图像xrgb和红外域行人图像xir编码为内容特征crgb=Ec(xrgb)、cir=Ec(xir);其中,
crgb为可见光域行人图像xrgb的内容特征;
cir为红外域行人图像xir的内容特征;
风格编码器通过以下公式将目标域行人图像编码为风格特征srgb=Ec(xrgb)、sir=Es(xir),其中,
srgb为可见光域行人图像xrgb的风格特征;
sir为红外域行人图像xir的风格特征。
4.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法,其特征在于:所述步骤(3)中,构建基于模态转换的生成网络和判别网络包括一个生成器和一个判别器,满足:
Figure FDA0002428164060000021
Figure FDA0002428164060000022
LGAN=Lrgb2ir+Lir2rgb
其中:xir为红外域行人图像,xrgb为可见光域行人图像,cir为红外域行人图像xir的内容特征,crgb为可见光域行人图像xrgb的内容特征,sir为红外域行人图像xir的风格特征,srgb为可见光域行人图像xrgb的风格特征;
Lrgb2ir表示红外域行人图像xir与根据可见光域行人图像xrgb的内容特征crgb、红外域行人图像xir的风格特征sir生成器G生成新的具有红外域行人图像风格的行人图像xrgb→ir之间的对抗损失函数;
Lir2rgb表示可见光域行人图像xrgb与根据红外域行人图像xir的内容特征cir、可见光域行人图像xrgb的风格特征srgb生成器G生成新的具有可见光域行人图像风格的行人图像xir→rgb之间的对抗损失函数;
D(·)表示判别器D对真实行人图像x的判别结果;
G(crgb,sir)表示生成器G将可见光域行人图像xrgb的内容特征与红外域行人图像xir的风格特征sir作为输入进而获得新的行人图像xrgb→ir,其具有可见光域行人图像的内容信息以及红外域行人图像的风格特征;
G(cir,srgb)表示生成器G将红外域行人图像xir的内容特征与可见光域行人图像xrgb的风格特征作为输入进而获得新的行人图像xir→rgb,其具有红外域行人图像的内容信息以及可见光域行人图像的风格特征;
D(G(crgb,sir))表示判别器D对生成行人图像xrgb→ir的判别结果;
D(G(cir,srgb))表示判别器D对生成行人图像xir→rgb的判别结果;
Figure FDA0002428164060000031
表示数学期望;
xir~p(xir)表示变量xir服从真实的红外域行人图像数据分布p(xir);
xrgb~p(xrgb)表示变量xrgb服从真实的可见光域行人图像数据分布p(xrgb);
cir~p(cir)表示变量cir服从红外域的内容特征分布p(cir);
crgb~p(crgb)表示变量crgb服从可见光域的内容特征分布p(crgb);
sir~q(sir)表示变量sir服从红外域的风格特征分布q(sir);
srgb~q(srgb)表示变量srgb服从可见光域的风格特征分布q(srgb)。
5.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法,其特征在于:所述步骤(3)中,构建基于模态转换的生成网络和判别网络模型包括如下步骤:
(51)图像生成器G将可见光域行人图像xrgb的内容特征crgb和红外域行人图像xir的风格特征sir作为输入,生成新的行人图像xrgb→ir,行人图像xrgb→ir具有真实的可见光域行人图像xrgb的内容特征和真实的红外域行人图像xir的风格特征;
(52)图像生成器G将红外域行人图像xir的内容特征cir和可见光域行人图像xrgb的风格特征srgb作为输入,生成新的行人图像xir→rgb,行人图像xir→rgb具有真实的红外域行人图像xir的内容特征和真实的可见光域行人图像xrgb的风格特征;
(53)将步骤(51)中生成的红外域行人图像xrgb→ir和真实的红外域行人图像xir输入到判别器D中,判别器D将判别输入行人图像是真实行人图像还是生成器生成的行人图像;
(54)将步骤(52)中生成的可见光域行人图像xir→rgb和真实的可见光域行人图像xrgb输入到判别器D中,判别器D将判别输入行人图像是真实行人图像还是生成器生成的行人图像。
6.根据权利要求5所述的基于多模态图像风格转换的跨模态行人重识别方法,其特征在于:步骤(51)~步骤(52)中,按照下面的损失函数训练生成器:
Figure FDA0002428164060000041
Figure FDA0002428164060000042
Figure FDA0002428164060000043
Figure FDA0002428164060000044
Figure FDA0002428164060000045
Figure FDA0002428164060000046
其中,
Figure FDA0002428164060000047
是定义红外行人图像xir与生成的红外行人图像G(Ec(xir),Es(xir))之间的像素级重构损失函数;
Figure FDA0002428164060000048
是定义可见光行人图像xrgb与生成的可见光行人图像G(Ec(xrgb),Es(xrgb))之间的像素级重构损失函数;
Figure FDA0002428164060000049
表示的是红外域行人图像的内容特征cir和内容编码器Ec编码生成的行人图像G(cir,srgb)后的内容特征之间的重构损失;
Figure FDA00024281640600000410
表示的是可见光域行人图像的内容特征crgb和内容编码器Ec编码生成的行人图像G(crgb,sir)后的内容特征之间的重构损失;
Figure FDA00024281640600000411
表示的是红外域行人图像的风格特征sir和风格编码器Es编码生成的行人图像G(crgb,sir)后的风格特征之间的重构损失;
Figure FDA0002428164060000051
表示的是可见光域行人图像的风格特征srgb和风格编码器Es编码生成的行人图像G(cir,srgb)后的风格特征之间的重构损失;
||·||1表示一范数;
多模态图像风格转换的跨模态生成式对抗网络的目标函数为:
Figure FDA0002428164060000052
其中,Lloss表示基于多模态图像风格转换的跨模态行人重识别方法的目标函数;
LGAN表示生成器与判别器之间的对抗损失;
α、
Figure FDA0002428164060000053
Figure FDA0002428164060000054
为加权系数。
7.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法,其特征在于:所述步骤(4)中,构建基于神经网络的相似度量学习方法是设计一个度量网络,该网络包括图像特征提取模块Eφ用来提取图像的特征,相似性度量模块Rθ用来计算两个图像的相似度,满足:
r(xi,xj)=Rθ(C(Eφ(xi),Eφ(xj))) (i,j=1,2,...,N)
其中,xi和xj表示两张行人图像;
r(xi,xj)表示两张行人图像的相似度;
C(Eφ(xi),Eφ(xj))表示将图像特征提取模块Eφ提取的图像特征连接一起;
N代表行人的类别,身份验证分类器用二进制交叉熵损失进行训练,所述二进制交叉熵损失如下:
Lv=-y[logr(xi,xj)]-(1-y)log(1-r(xi,xj))
其中,y是真实标签,如果xi,xj是同一个人,则y=1;如果xi,xj是不同一个人,则v=0。
8.根据权利要求1所述的基于多模态图像风格转换的跨模态行人重识别方法,其特征在于:所述步骤(5)中,采用传统和公开数据集对生成行人图像构成的数据集进行行人重识别验证。
CN202010227374.2A 2020-03-27 2020-03-27 基于多模态图像风格转换的跨模态行人重识别方法 Active CN111539255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010227374.2A CN111539255B (zh) 2020-03-27 2020-03-27 基于多模态图像风格转换的跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010227374.2A CN111539255B (zh) 2020-03-27 2020-03-27 基于多模态图像风格转换的跨模态行人重识别方法

Publications (2)

Publication Number Publication Date
CN111539255A true CN111539255A (zh) 2020-08-14
CN111539255B CN111539255B (zh) 2023-04-18

Family

ID=71974839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010227374.2A Active CN111539255B (zh) 2020-03-27 2020-03-27 基于多模态图像风格转换的跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN111539255B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183637A (zh) * 2020-09-29 2021-01-05 中科方寸知微(南京)科技有限公司 一种基于神经网络的单光源场景光照重渲染方法及系统
CN112434654A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于对称卷积神经网络的跨模态行人重识别方法
CN112633071A (zh) * 2020-11-30 2021-04-09 之江实验室 基于数据风格解耦内容迁移的行人重识别数据域适应方法
CN112766217A (zh) * 2021-01-30 2021-05-07 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN112926451A (zh) * 2021-02-25 2021-06-08 厦门大学 基于自模仿互蒸馏的跨模态行人重识别方法
CN113408428A (zh) * 2021-06-22 2021-09-17 之江实验室 行人图像不变性特征提取和无监督行人重识别方法与装置
CN113822236A (zh) * 2021-11-22 2021-12-21 杭州云栖智慧视通科技有限公司 一种基于人体语义部件的上衣颜色替换方法
WO2022116135A1 (zh) * 2020-12-04 2022-06-09 康佳集团股份有限公司 一种行人重识别方法、装置及系统
CN116152885A (zh) * 2022-12-02 2023-05-23 南昌大学 一种基于特征解耦的跨模态异质人脸识别和原型修复方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614996A (zh) * 2018-11-28 2019-04-12 桂林电子科技大学 基于生成对抗网络的弱可见光与红外图像融合的识别方法
CN110210335A (zh) * 2019-05-16 2019-09-06 上海工程技术大学 一种行人重识别学习模型的训练方法、系统和装置
CN110310221A (zh) * 2019-06-14 2019-10-08 大连理工大学 一种基于生成对抗网络的多域图像风格迁移方法
CN110633698A (zh) * 2019-09-30 2019-12-31 上海依图网络科技有限公司 基于循环生成对抗网络的红外图片识别方法、设备及介质
CN110738153A (zh) * 2019-09-30 2020-01-31 汉王科技股份有限公司 异质人脸图像转换方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614996A (zh) * 2018-11-28 2019-04-12 桂林电子科技大学 基于生成对抗网络的弱可见光与红外图像融合的识别方法
CN110210335A (zh) * 2019-05-16 2019-09-06 上海工程技术大学 一种行人重识别学习模型的训练方法、系统和装置
CN110310221A (zh) * 2019-06-14 2019-10-08 大连理工大学 一种基于生成对抗网络的多域图像风格迁移方法
CN110633698A (zh) * 2019-09-30 2019-12-31 上海依图网络科技有限公司 基于循环生成对抗网络的红外图片识别方法、设备及介质
CN110738153A (zh) * 2019-09-30 2020-01-31 汉王科技股份有限公司 异质人脸图像转换方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯敏: "基于生成对抗网络的跨模态行人重识别研究", 《现代信息科技》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183637B (zh) * 2020-09-29 2024-04-09 中科方寸知微(南京)科技有限公司 一种基于神经网络的单光源场景光照重渲染方法及系统
CN112183637A (zh) * 2020-09-29 2021-01-05 中科方寸知微(南京)科技有限公司 一种基于神经网络的单光源场景光照重渲染方法及系统
CN112633071A (zh) * 2020-11-30 2021-04-09 之江实验室 基于数据风格解耦内容迁移的行人重识别数据域适应方法
WO2022116135A1 (zh) * 2020-12-04 2022-06-09 康佳集团股份有限公司 一种行人重识别方法、装置及系统
CN112434654A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于对称卷积神经网络的跨模态行人重识别方法
CN112434654B (zh) * 2020-12-07 2022-09-13 安徽大学 一种基于对称卷积神经网络的跨模态行人重识别方法
CN112766217B (zh) * 2021-01-30 2022-08-26 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN112766217A (zh) * 2021-01-30 2021-05-07 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN112926451B (zh) * 2021-02-25 2022-05-03 厦门大学 基于自模仿互蒸馏的跨模态行人重识别方法
CN112926451A (zh) * 2021-02-25 2021-06-08 厦门大学 基于自模仿互蒸馏的跨模态行人重识别方法
CN113408428A (zh) * 2021-06-22 2021-09-17 之江实验室 行人图像不变性特征提取和无监督行人重识别方法与装置
CN113408428B (zh) * 2021-06-22 2023-03-14 之江实验室 行人图像不变性特征提取和无监督行人重识别方法与装置
CN113822236A (zh) * 2021-11-22 2021-12-21 杭州云栖智慧视通科技有限公司 一种基于人体语义部件的上衣颜色替换方法
CN116152885A (zh) * 2022-12-02 2023-05-23 南昌大学 一种基于特征解耦的跨模态异质人脸识别和原型修复方法
CN116152885B (zh) * 2022-12-02 2023-08-01 南昌大学 一种基于特征解耦的跨模态异质人脸识别和原型修复方法

Also Published As

Publication number Publication date
CN111539255B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111539255B (zh) 基于多模态图像风格转换的跨模态行人重识别方法
Jiang et al. CmSalGAN: RGB-D salient object detection with cross-view generative adversarial networks
WO2019169816A1 (zh) 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN111898736B (zh) 基于属性感知的高效行人重识别方法
Tang et al. Multi-modal metric learning for vehicle re-identification in traffic surveillance environment
Manna et al. Face recognition from video using deep learning
CN110807434A (zh) 一种基于人体解析粗细粒度结合的行人重识别系统及方法
de Souza et al. On the learning of deep local features for robust face spoofing detection
Mostofa et al. Deep gan-based cross-spectral cross-resolution iris recognition
CN111738048B (zh) 一种行人再识别的方法
CN112801015A (zh) 一种基于注意力机制的多模态人脸识别方法
Deng et al. Attention-aware dual-stream network for multimodal face anti-spoofing
CN117333908A (zh) 基于姿态特征对齐的跨模态行人重识别方法
CN112766217A (zh) 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN116994164A (zh) 一种多模态航拍图像融合与目标检测联合学习方法
Gong et al. Person re-identification based on two-stream network with attention and pose features
Shu et al. Face anti-spoofing based on weighted neighborhood pixel difference pattern
CN113722528A (zh) 一种面向素描图进行照片快速检索的方法及系统
Khan et al. Face recognition via multi-level 3D-GAN colorization
CN113869151A (zh) 一种基于特征融合的跨视角步态识别方法及系统
CN112270228A (zh) 一种基于dcca融合特征的行人重识别方法
Yogameena et al. SpyGAN sketch: heterogeneous face matching in video for crime investigation
Li et al. Intelligent terminal face spoofing detection algorithm based on deep belief network
CN114882525B (zh) 基于模态特定记忆网络的跨模态行人重识别方法
CN112836605B (zh) 一种基于模态增广的近红外与可见光跨模态人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant