CN114627500A - 一种基于卷积神经网络的跨模态行人重识别方法 - Google Patents

一种基于卷积神经网络的跨模态行人重识别方法 Download PDF

Info

Publication number
CN114627500A
CN114627500A CN202210230686.8A CN202210230686A CN114627500A CN 114627500 A CN114627500 A CN 114627500A CN 202210230686 A CN202210230686 A CN 202210230686A CN 114627500 A CN114627500 A CN 114627500A
Authority
CN
China
Prior art keywords
modal
feature
representing
infrared
diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210230686.8A
Other languages
English (en)
Inventor
产思贤
崔嘉敖
李伟帅
杜锋
陶健
赖周年
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210230686.8A priority Critical patent/CN114627500A/zh
Publication of CN114627500A publication Critical patent/CN114627500A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经网络的跨模态行人重识别方法,获取带有身份标注的跨模态训练数据集,所述训练数据集中每个训练样本包括一个身份对应的红外线模态图像和日光模态图像,将训练样本输入到基于Resnet‑50构建的网络模型中,通过分支网络获得多尺度的图像特征,并在其上计算模态间的特征对应关系,充分挖掘不同尺度的模态共有特征。构建联合损失函数筛选模态共有特征中具有身份区别性的特征。本发明将全局和局部特征联合作为行人的表征,在跨模态行人重识别任务取得了良好的效果。

Description

一种基于卷积神经网络的跨模态行人重识别方法
技术领域
本申请属于图像处理技术领域,尤其涉及一种基于卷积神经网络的跨 模态行人重识别方法。
背景技术
ReID是图像检索的一类基本问题,它的目的是将查询集(query)中的 目标图像匹配到由不同相机捕获的gallery集中的图像。这是一个挑战,由 于变化的拍摄视角,目标形态,光照和背景。目前大多数存在的方法都聚 焦在可见光相机捕获的目标ReID问题,即单一模态ReID问题。然而,在 某些照明不足的场景下(如黑夜,暗光室内),我们需要借助红外线摄像头 拍摄行人图像。因此,在这种跨模态设置下,ReID问题变得极具挑战性, 这本质上是一个跨模态检索问题。
跨模态行人重识别,主流的技术方案有通过特征对齐来弥合RGB和 IR图像之间的差距的特征学习方法和通过生成对抗网络来消除模态差异 或特征解缠的方法。特征学习的主流算法如Two-stream系列,通过网络在 双流网络上附加一些操作直接学习特征,算法精度较高,速度快,但当行 人外观改变较大时,对细节捕获能力不强。生成对抗网络的方法旨在利用 网络直接生成另一模态图像或接缠模态无关特征,但由于大量模态相关特 征的存在,导致图像生成的质量并不高,且花费时间巨大。
发明内容
本申请的目的是提供一种基于卷积神经网络的跨模态行人重识别方 法,在现有技术方案中引入多尺度特征对应模块,克服了当行人姿态变化 大时发现模态间对应细节的问题。
为了实现上述目的,本申请技术方案如下:
一种基于卷积神经网络的跨模态行人重识别方法,包括:
获取带有身份标注的跨模态训练数据集,所述训练数据集中每个训练 样本包括一个身份对应的红外线模态图像和日光模态图像;
将训练样本输入到基于Resnet-50构建的网络模型中,将所述Resnet- 50第三个残差层中第一个残差快输出的特征图记为F3,所述特征图F3送 入3个分支分别进行处理,得到特征图fg、fl1、fl2、fl3、fl4、fl5,包括:
第一分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 提取出全局特征图fg
第二分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 通过垂直均匀切片得到局部特征图fl1、fl2
第三分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 通过垂直均匀切片得到局部特征图fl3、fl4、fl5
分别计算红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5之 间的特征对应关系;
对红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5进行特征 重建,得到重建特征图
Figure BDA0003540402490000021
构建联合损失函数,根据红外线模态和日光模态特征图fg、F3、fl1、 fl2、fl3、fl4、fl5以及重建特征图
Figure BDA0003540402490000022
计算联合损 失,进行反向传播,更新网络模型的网络参数;
采用训练好的网络模型提取查询图像的特征,与数据库中图像的特征 进行比对,识别出查询图像中行人的身份。
进一步的,所述第一分支的第四个残差层带有下采样。
进一步的,所述计算红外线模态和日光模态特征图F3、fl1、fl2、fl3、 fl4、fl5之间的特征对应关系,计算公式如下:
C(i,j)=fRGB(i)T·fIR(j)
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图 位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j 位置,C(i,j)表示位置特征对应关系。
进一步的,所述对红外线模态和日光模态特征图F3、fl1、fl2、fl3、 fl4、fl5进行特征重建,得到重建特征图,重建公式如下:
Figure BDA0003540402490000031
Figure BDA0003540402490000032
MRGB(i)=|fRGB(i)|
MIR(j)=|fIR(j)|
Figure BDA0003540402490000033
Figure BDA0003540402490000034
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图 位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j 位置,MRGB表示日光模态特征图上所有位置的响应强度,MIN表示取最小 值,MAX表示取最大值,MIR表示红外线模态特征图上所有位置的响应强 度,MRGB(i)表示日光模态特征图上i位置的响应强度,MIR(j)表示红外线模态特征图上j位置的响应强度,
Figure BDA0003540402490000035
表示重建后的日光模态特征图 i位置特征向量,
Figure BDA0003540402490000036
表示重建后的红外线模态特征图j位置特征向量。
进一步的,所述联合损失函数公式如下:
Figure BDA0003540402490000037
其中,
Figure BDA0003540402490000038
表示身份损失函数,
Figure BDA0003540402490000039
表示三元组损失函数,所述身份损 失函数
Figure BDA00035404024900000310
和三元组损失函数
Figure BDA00035404024900000311
分别对全局特征计算损失,所述全局特征 通过对全局特征图fg进行GeM池化和全连接降维操作得到;
所述
Figure BDA00035404024900000312
表示SmoothAP损失函数,所述SmoothAP损失函数
Figure BDA00035404024900000313
分 别对局部特征和局部重建特征计算损失,所述局部特征通过对局部特征图 fl1、fl2、fl3、fl4、fl5进行GeM池化和全连接降维操作得到,所述局部重 建特征通过对局部重建特征
Figure BDA00035404024900000314
进行GeM池化和全连 接降维操作得到;
所述
Figure BDA00035404024900000315
表示密集三元组损失函数,所述密集三元组损失函数
Figure BDA00035404024900000316
分别 对重建特征图
Figure BDA00035404024900000317
计算损失。
本申请提出的一种基于卷积神经网络的跨模态行人重识别方法,首先 多尺度特征提取可使网络关注到行人的细节信息,克服卷积下采样带来的 信息丢失。其次,特征对应操作可以缓解模态差异,以及行人姿势变化带 来的特征不对齐问题。最后,提出的联合损失函数对不同层次的特征施加 合适的约束,使得网络发现有区别性的模态共有特征。本申请技术方案提 高了行人识别效果。
附图说明
图1为本申请基于卷积神经网络的跨模态行人重识别方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实 施例仅用以解释本申请,并不用于限定本申请。
本申请提出的一种基于卷积神经网络的跨模态行人重识别方法,具体 而言,首先提取全局和局部特征图,然后分别在全局和局部水平上计算特 征对应关系。最后,引入一个联合损失函数,对不同层次的特征用不同的 损失函数进行训练,指导网络在所提取的模态共有特征中保留具有身份信 息的特征。
在一个实施例中,如图1所示,一种基于卷积神经网络的跨模态行人 重识别方法,包括:
步骤S1、获取带有身份标注的跨模态训练数据集,所述训练数据集中 每个训练样本包括一个身份对应红外线模态图像和日光模态图像。
训练神经网络,首先需要获取训练数据集。本实施例读取带有身份标 注的训练数据集,并按照图像中行人的身份随机取样划分批次,例如每个 批次包含8个身份。本实施例每个训练样本包括一个身份的4张日光模态 图像(RGB图像)和4张红外线图像(IR图像)。
步骤S2、将训练样本输入到基于Resnet-50构建的网络模型中,将所 述Resnet-50第三个残差层中第一个残差快输出的特征图记为F3,所述特 征图F3送入3个分支分别进行处理,得到特征图fg、fl1、fl2、fl3、fl4、 fl5
本步骤用于获取多尺度特征图,主干网络采用双流Resnet50, ResNet50模型主要由一个浅层卷积块layer0和四个残差卷积层layer1、layer2、layer3和layer4组成。在layer0中,网络的参数针对每个模态是特 定的,其后的所有模块共享参数。
layer1、layer2和layer 3的第一个残差块作为主干提取出特征F3,从 它向后延伸出三个分支。
第一分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 提取出全局特征图fg
第二分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 通过垂直均匀切片得到局部特征图fl1、fl2
第三分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 通过垂直均匀切片得到局部特征图fl3、fl4、fl5
具体的,第一个分支用来提取全局特征图,它由layer3的后三块和带 有下采样的layer4组成。第二和第三分支的网络结构与第一个相同,唯一 的不同是采用不带下采样的layer4,以此来保留细节,方便局部特征图的 提取。第二和第三分支的输出的特征图分别沿竖直方向做二等分和三等分 得到局部特征图fl1,fl2,fl3,fl4,fl5。本申请采用分支提取不同水平的特征, 利于发现不同尺寸特征的对应关系。
需要说明的是,上述操作对于红外线模态图像和日光模态图像分别进 行操作,得到不同模态下的全局特征图和局部特征图。
为了便于后续步骤计算损失函数,本申请对于全局特征图和局部特征 图,还分别做GeM池化操作(generalized-mean pooling)和降维操作,将 特征图转化为特征向量。
对于全局特征图,在layer4后,本申请没有采用常用的最大池化,而 是利用GeM池化(generalized-mean pooling)将输出转化为一维的特征向 量,并在其后面采用全连接层降维到256以便于局部特征连接。最后对局 部特征图做同样的池化和降维操作得到局部特征向量。
步骤S3、分别计算红外线模态和日光模态特征图F3、fl1、fl2、fl3、 fl4、fl5之间的特征对应关系。
本步骤对多尺度特征图F3、fl1、fl2、fl3、fl4、fl5计算特征对应关系, 本质上特征对应也是一个寻找目标对象在不同图像中共有特征的问题,这 也正是跨模态行人重识别的主要问题。
可以建立在两模态之间行人的特征对应来解决行人外表变化和模态 间差异的问题。在训练阶段,通过寻找模态间的特征对应关系让网络学习 会发现共有特征。
本实施例中,用特征余弦相似度来代表特征相似性,令fIR∈Rc×h×w和fRGB∈Rc×h×w分别代表IR和RGB图像的特征图。每个位置特征向量 由fRGB/IR(i)∈Rc表示,计算模态间的特征对应关系C∈Rhw×hw,公式如 下:
C(i,j)=fRGB(i)T·fIR(j)
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图 位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j 位置,C(i,j)表示位置特征对应关系。所有C(i,j)共同组成模态间的特征 对应关系C。
采用上述公式分别计算出红外线模态和日光模态特征图F3之间的特 征关系,红外线模态和日光模态特征图fl1之间的特征关系,红外线模态和 日光模态特征图fl2之间的特征关系,红外线模态和日光模态特征图fl3之间 的特征关系,红外线模态和日光模态特征图fl4之间的特征关系,以及红外 线模态和日光模态特征图fl5之间的特征关系。
根据上述公式,对同一身份的一对跨模态图像特征F3计算全局特征相 似度,发现显著特征的对应。对同一身份的fl1~fl5计算局部特征相似度, 发现细节的特征的对应。对多尺度特征图F3,fl1,fl2,fl3,fl4,fl5分别计算特 征的对应关系,以此来捕捉不同尺寸的模态共有特征。
步骤S4、对红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5进行特征重建,得到重建特征图
Figure BDA0003540402490000061
参考生成对抗网络中根据重建图的质量来指导网络学习的方式,本实 施例也根据特征对应关系重建特征图,根据重建质量指导网络发现特征对 应。由于背景等模态有关信息的存在,直接还原特征必定会收到影响。所 以采用mask来过滤掉模态有关信息。以RGB图像为例,假定重识别任务 中,有用的模态无关信息的相应要大于模态有关信息。所以用每个位置特 征向量fRGB(i)∈Rc的模作为响应强度,公式如下:
MRGB(i)=|fRGB(i)|
Figure BDA0003540402490000071
上述公式用Mask过滤模态相关信息,RGB图像特征图的特征重建公 式为:
Figure BDA0003540402490000072
同理,还可以得到红外线模态图像的重建公式:
Figure BDA0003540402490000073
MIR(j)=|fIR(j)|
Figure BDA0003540402490000074
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图 位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j 位置,MRGB表示日光模态特征图上所有位置的响应强度,MIN表示取最小 值,MAX表示取最大值,MIR表示红外线模态特征图上所有位置的响应强 度,MRGB(i)表示日光模态特征图上i位置的响应强度,MIR(j)表示红外线模态特征图上j位置的响应强度,
Figure BDA0003540402490000075
表示重建后的日光模态特征图 i位置特征向量,
Figure BDA0003540402490000076
表示重建后的红外线模态特征图j位置特征向量。
需要说明的是,本实施例采用上述公式对特征图F3、fl1、f2、fl3、 fl4、fl5进行特征重建,得到重建特征图
Figure BDA0003540402490000077
多尺 度的特征对应使得网络关注到模态共有细节特征,在行人姿态发生变化时, 依然能保持好的重识别效果。
步骤S5、构建联合损失函数,根据红外线模态和日光模态特征图fg、 F3、fl1、fl2、fl3、fl4、fl5以及重建特征图
Figure BDA0003540402490000078
计 算联合损失,进行反向传播,更新网络模型的网络参数。
本实施例构建了一个联合损失函数,包括提升网络重建特征图的质量 和在模态无关特征中寻找身份区别特征。它由身份损失函数(ID loss)、三 元组损失函数(Tripletloss)、SmoothAP损失函数(SmoothAP loss)和密 集三元组损失函数(Dense tripletloss)
Figure BDA0003540402490000079
四种损失函数组成。将他们按 不同的权重相加得到最终的目标函数,公式如下:
Figure BDA0003540402490000081
下面,详细描述每一项损失,这些损失函数都是本领域比较成熟的技 术,本申请采用了这些损失函数,关于损失函数如何应用到本申请中进行 特定的计算,这里不再赘述。
Figure BDA0003540402490000082
表示身份损失函数,
Figure BDA0003540402490000083
表示三元组损失函数,所述身份损失函数
Figure BDA0003540402490000084
和三元组损失函数
Figure BDA0003540402490000085
分别对全局特征计算损失,所述全局特征通过对 全局特征图fg进行GeM池化和全连接降维操作得到。
身份损失函数ID loss在行人重识别任务中,可以学习有区别性的特 征,同时缩小类内距离,往往考虑采用多分类任务中ID Loss进行训练。 ID loss公式为:
Figure BDA0003540402490000086
上述身份损失函数对全局特征fi进行计算,全局特征fi通过对全局特 征图fg进行GeM池化和全连接降维操作得到,其对应的标签为yi。将全 局特征fi输入到分类器中进行分类识别,C为行人身份个数,也即分类器 分类的类别总数。wk表示分类器第k类的权重,N为批量大小,
Figure BDA0003540402490000087
表示 第yi类的权重,公式中T表示转置。ID loss可以在训练中使同一类的特征 快速相似,完成一个基本的聚类工作,但对于模态差异而言,过分追求特 征对ID的表征能力,可能会引导网络关注到特定于目标但缺乏模态普适 性的信息,如行人衣服颜色,姿势等。因此,本申请不采用重识别常用的 对全局和局部变量都施加ID loss的设置,仅在第一个分支降维得到的一 个全局特征中施加ID loss。这样可以引导网络进行一个较粗的ID聚类, 但不必过分追究能表征ID的细节信息。
三元组损失函数Triplet loss通过阈值限制样本于正负样本间的相对距 离来达到拉近类内距离,拉远类间距离的目的。它与ID loss的组合在行 人ReID任务取得了不错的效果。三元组损失函数公式如下:
Figure BDA0003540402490000088
具体的,一个输入的三元组(Triplet)包括一对正样本对和一对负样 本对,三张图片分别命名为固定图片(Anchor)a,正样本图片(Positive)p和 负样本图片(Negative)n。图片a和图片p为一对正样本对,图片a和 图片n为一对负样本对。
Figure BDA0003540402490000091
分别代表anthor、positive和 negative样本的特征,难样本挖掘的三元组即限制距离最远的正类样本与 距离最近的正负样本间的相对距离。P代表批量中类的个数,k代表批量 中每一个类图像的个数。难样本挖掘三重损失增强了度量学习的鲁棒性, 同时进一步提高了性能。需要说明的是,公式中所计算的特征也是通过对 全局特征图fg进行GeM池化和全连接降维操作得到。
本实施例中所述
Figure BDA0003540402490000092
表示SmoothAP损失函数,所述SmoothAP损失 函数
Figure BDA0003540402490000093
分别对局部特征和局部重建特征计算损失,所述局部特征通过对 局部特征图fl1、fl2、fl3、fl4、fl5进行GeM池化和全连接降维操作得到, 所述局部重建特征通过对局部重建特征
Figure BDA0003540402490000094
进行GeM 池化和全连接降维操作得到。
mAP是ReID任务中常用的评价指标,但由于其计算过程中涉及到离 散的排序函数,这导致其不能作为一个目标函数指导网络学习。SmoothAP 通过sigmoid函数来光滑查询图像查找的排序过程,来近似AP的计算。 具体而言,AP的计算公式如下:
Figure BDA0003540402490000095
SP表示实例i同类的样本(正类,与查询图像属于同一类的图像),SΩ 表示所有样本,R(i,SP)表示实例i在SP中的排名,R(i,SΩ)代表实例i在所 有图像中的排名。|Sp|代表正类图像数量。将排名函数展开:
Figure BDA0003540402490000096
I{·}表示指示函数,Dij表示查询图像分别于实例j、i的相似度之差。 用余弦距离表示相似度,若Dij>0则,表示实例j更接近查询图像。显而易 见,分子、分母分别代表了实例i在正类和所有图像中的相似度排序。由 于指示函数I{·}不可导,所以用sigmoid函数来近似指示函数。公式如下:
Figure BDA0003540402490000101
τ控制sigmoid近似指示函数的精度,τ越低还原程度越好。AP的近似 公式为:
Figure BDA0003540402490000102
为了与其他的损失函数保持一致,将1-AP作为最终的目标函数:
Figure BDA0003540402490000103
N为批量。与对比损失、三元组损失等基于度量的损失函数不同, SmoothAP能直接衡量排序的质量。本申请用SmoothAP函数来训练二三 分支得到的局部特征和跨模态还原后得到的局部特征,使网络在关注两模 态间共有的区别性特征。
ID Loss和Triplet Loss用来在前期缩小类内距离,扩大类间距离, SmoothAPLoss通过约束局部特征筛选保留那些有区别性的细节特征。
本实施例所述
Figure BDA0003540402490000104
表示密集三元组损失函数,所述密集三元组损失函 数
Figure BDA0003540402490000105
分别对重建特征图
Figure BDA0003540402490000106
计算损失。
为了解决因环境或姿势导致的特征遮挡的问题,采用密集三元组损失 函数。它首先计算模态共有mask来过滤被遮挡的特征。然后以特征图的 L2距离作为度量,计算三元组损失函数。这有助于网络学习有区别能力的 共有特征。以IR-to-RGB为例,共有mask计算公式为:
Figure BDA0003540402490000107
令原图的特征图
Figure BDA0003540402490000108
为anchor,同类的红外线特征图还原的RGB特 征图
Figure BDA0003540402490000109
为positive,不同类的红外线特征图还原的RGB特征图
Figure BDA00035404024900001010
为 negative。密集三元组损失函数公式为:
Figure BDA00035404024900001011
d+(i),d-(i)分别代表anchor与positive和negative特征图的L2距 离,α为margin值。
本实施例用联合损失函数训练网络,将训练样本按照批次进行训练, 每个批次计算联合损失,进行反向传播,更新网络模型的网络参数。循环 训练样本80次,得到最终网络模型。
步骤S6、采用训练好的网络模型提取查询图像的特征,与数据库中图 像的特征进行比对,识别出查询图像中行人的身份。
训练好的网络模型对查询图像(query)和数据库中图像(gallery)中 每幅图像进行特征提取,将提取到的多尺度特征图fg、fl1、fl2、fl3、fl4、 fl5经GeM池化与降维后,沿通道维连接,作为行人最后特征。以特征间 的欧氏距离作为特征相似度度量,计算query中图像的特征与gallery中图 像的特征的相似度,并按相似度排序得到重识别结果。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领 域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干 变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范 围应以所附权利要求为准。

Claims (5)

1.一种基于卷积神经网络的跨模态行人重识别方法,其特征在于,所述基于卷积神经网络的跨模态行人重识别方法,包括:
获取带有身份标注的跨模态训练数据集,所述训练数据集中每个训练样本包括一个身份对应的红外线模态图像和日光模态图像;
将训练样本输入到基于Resnet-50构建的网络模型中,将所述Resnet-50第三个残差层中第一个残差快输出的特征图记为F3,所述特征图F3送入3个分支分别进行处理,得到特征图fg、fl1、fl2、fl3、fl4、fl5,包括:
第一分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层,提取出全局特征图fg
第二分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层,通过垂直均匀切片得到局部特征图fl1、fl2
第三分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层,通过垂直均匀切片得到局部特征图fl3、fl4、fl5
分别计算红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5之间的特征对应关系;
对红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5进行特征重建,得到重建特征图
Figure FDA0003540402480000011
构建联合损失函数,根据红外线模态和日光模态特征图fg、F3、fl1、fl2、fl3、fl4、fl5以及重建特征图
Figure FDA0003540402480000012
计算联合损失,进行反向传播,更新网络模型的网络参数;
采用训练好的网络模型提取查询图像的特征,与数据库中图像的特征进行比对,识别出查询图像中行人的身份。
2.根据权利要求1所述的基于卷积神经网络的跨模态行人重识别方法,其特征在于,所述第一分支的第四个残差层带有下采样。
3.根据权利要求1所述的基于卷积神经网络的跨模态行人重识别方法,其特征在于,所述计算红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5之间的特征对应关系,计算公式如下:
C(i,j)=fRGB(i)T·fIR(j)
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j位置,C(i,j)表示位置特征对应关系。
4.根据权利要求1所述的基于卷积神经网络的跨模态行人重识别方法,其特征在于,所述对红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5进行特征重建,得到重建特征图,重建公式如下:
Figure FDA0003540402480000021
Figure FDA0003540402480000022
MRGB(i)=|fRGB(i)|
MIR(j)=|fIR(j)|
Figure FDA0003540402480000023
Figure FDA0003540402480000024
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j位置,MRGB表示日光模态特征图上所有位置的响应强度,MIN表示取最小值,MAX表示取最大值,MIR表示红外线模态特征图上所有位置的响应强度,MRGB(i)表示日光模态特征图上i位置的响应强度,MIR(j)表示红外线模态特征图上j位置的响应强度,
Figure FDA0003540402480000025
表示重建后的日光模态特征图i位置特征向量,
Figure FDA0003540402480000026
表示重建后的红外线模态特征图j位置特征向量。
5.如权利要求1所述的基于卷积神经网络的跨模态行人重识别方法,其特征在于,所述联合损失函数公式如下:
Figure FDA0003540402480000027
其中,
Figure FDA0003540402480000028
表示身份损失函数,
Figure FDA0003540402480000029
表示三元组损失函数,所述身份损失函数
Figure FDA00035404024800000210
和三元组损失函数
Figure FDA00035404024800000211
分别对全局特征计算损失,所述全局特征通过对全局特征图fg进行GeM池化和全连接降维操作得到;
所述
Figure FDA00035404024800000212
表示SmoothAP损失函数,所述SmoothAP损失函数
Figure FDA00035404024800000213
分别对局部特征和局部重建特征计算损失,所述局部特征通过对局部特征图fl1、fl2、fl3、fl4、fl5进行GeM池化和全连接降维操作得到,所述局部重建特征通过对局部重建特征
Figure FDA0003540402480000031
进行GeM池化和全连接降维操作得到;
所述
Figure FDA0003540402480000032
表示密集三元组损失函数,所述密集三元组损失函数
Figure FDA0003540402480000033
分别对重建特征图
Figure FDA0003540402480000034
计算损失。
CN202210230686.8A 2022-03-10 2022-03-10 一种基于卷积神经网络的跨模态行人重识别方法 Pending CN114627500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210230686.8A CN114627500A (zh) 2022-03-10 2022-03-10 一种基于卷积神经网络的跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210230686.8A CN114627500A (zh) 2022-03-10 2022-03-10 一种基于卷积神经网络的跨模态行人重识别方法

Publications (1)

Publication Number Publication Date
CN114627500A true CN114627500A (zh) 2022-06-14

Family

ID=81899611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210230686.8A Pending CN114627500A (zh) 2022-03-10 2022-03-10 一种基于卷积神经网络的跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN114627500A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422963A (zh) * 2023-09-11 2024-01-19 南通大学 基于高维度特征映射和特征聚合的跨模态地点识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422963A (zh) * 2023-09-11 2024-01-19 南通大学 基于高维度特征映射和特征聚合的跨模态地点识别方法

Similar Documents

Publication Publication Date Title
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
CN111539255B (zh) 基于多模态图像风格转换的跨模态行人重识别方法
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN105303150B (zh) 实现图像处理的方法和系统
CN111401145B (zh) 一种基于深度学习与ds证据理论的可见光虹膜识别方法
CN111104867A (zh) 基于部件分割的识别模型训练、车辆重识别方法及装置
CN106557728B (zh) 查询图像处理和图像检索方法和装置以及监视系统
CN110807434A (zh) 一种基于人体解析粗细粒度结合的行人重识别系统及方法
CN108764096B (zh) 一种行人重识别系统和方法
CN110263768A (zh) 一种基于深度残差网络的人脸识别方法
CN112115805B (zh) 带双模态难挖掘三元-中心损失的行人重识别方法及系统
CN109492528A (zh) 一种基于高斯和深度特征的行人再识别方法
CN111539247A (zh) 一种超光谱人脸识别方法、装置、电子设备及其存储介质
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN110046669B (zh) 基于素描图像的半耦合度量鉴别字典学习的行人检索方法
CN112541421A (zh) 一种开放空间的行人换装重识别方法
CN115862055A (zh) 基于对比学习和对抗训练的行人重识别方法及装置
JP2015204030A (ja) 認識装置及び認識方法
CN114913337A (zh) 一种基于三元级联感知的伪装目标框检测方法
CN118038494A (zh) 一种损坏场景鲁棒的跨模态行人重识别方法
CN114627500A (zh) 一种基于卷积神经网络的跨模态行人重识别方法
CN111738039A (zh) 一种行人重识别方法、终端及存储介质
CN117315716A (zh) 一种基于双相似度分割的遮挡行人重识别方法及装置
CN111738062A (zh) 一种基于嵌入式平台的自动再识别方法及系统
CN109740405B (zh) 一种非对齐相似车辆前窗差异信息检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination