CN114627500A - 一种基于卷积神经网络的跨模态行人重识别方法 - Google Patents
一种基于卷积神经网络的跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN114627500A CN114627500A CN202210230686.8A CN202210230686A CN114627500A CN 114627500 A CN114627500 A CN 114627500A CN 202210230686 A CN202210230686 A CN 202210230686A CN 114627500 A CN114627500 A CN 114627500A
- Authority
- CN
- China
- Prior art keywords
- modal
- feature
- representing
- infrared
- diagram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 title claims description 13
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 claims description 70
- 230000009467 reduction Effects 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 208000032538 Depersonalisation Diseases 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 44
- 230000036544 posture Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于神经网络的跨模态行人重识别方法,获取带有身份标注的跨模态训练数据集,所述训练数据集中每个训练样本包括一个身份对应的红外线模态图像和日光模态图像,将训练样本输入到基于Resnet‑50构建的网络模型中,通过分支网络获得多尺度的图像特征,并在其上计算模态间的特征对应关系,充分挖掘不同尺度的模态共有特征。构建联合损失函数筛选模态共有特征中具有身份区别性的特征。本发明将全局和局部特征联合作为行人的表征,在跨模态行人重识别任务取得了良好的效果。
Description
技术领域
本申请属于图像处理技术领域,尤其涉及一种基于卷积神经网络的跨 模态行人重识别方法。
背景技术
ReID是图像检索的一类基本问题,它的目的是将查询集(query)中的 目标图像匹配到由不同相机捕获的gallery集中的图像。这是一个挑战,由 于变化的拍摄视角,目标形态,光照和背景。目前大多数存在的方法都聚 焦在可见光相机捕获的目标ReID问题,即单一模态ReID问题。然而,在 某些照明不足的场景下(如黑夜,暗光室内),我们需要借助红外线摄像头 拍摄行人图像。因此,在这种跨模态设置下,ReID问题变得极具挑战性, 这本质上是一个跨模态检索问题。
跨模态行人重识别,主流的技术方案有通过特征对齐来弥合RGB和 IR图像之间的差距的特征学习方法和通过生成对抗网络来消除模态差异 或特征解缠的方法。特征学习的主流算法如Two-stream系列,通过网络在 双流网络上附加一些操作直接学习特征,算法精度较高,速度快,但当行 人外观改变较大时,对细节捕获能力不强。生成对抗网络的方法旨在利用 网络直接生成另一模态图像或接缠模态无关特征,但由于大量模态相关特 征的存在,导致图像生成的质量并不高,且花费时间巨大。
发明内容
本申请的目的是提供一种基于卷积神经网络的跨模态行人重识别方 法,在现有技术方案中引入多尺度特征对应模块,克服了当行人姿态变化 大时发现模态间对应细节的问题。
为了实现上述目的,本申请技术方案如下:
一种基于卷积神经网络的跨模态行人重识别方法,包括:
获取带有身份标注的跨模态训练数据集,所述训练数据集中每个训练 样本包括一个身份对应的红外线模态图像和日光模态图像;
将训练样本输入到基于Resnet-50构建的网络模型中,将所述Resnet- 50第三个残差层中第一个残差快输出的特征图记为F3,所述特征图F3送 入3个分支分别进行处理,得到特征图fg、fl1、fl2、fl3、fl4、fl5,包括:
第一分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 提取出全局特征图fg;
第二分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 通过垂直均匀切片得到局部特征图fl1、fl2;
第三分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 通过垂直均匀切片得到局部特征图fl3、fl4、fl5;
分别计算红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5之 间的特征对应关系;
采用训练好的网络模型提取查询图像的特征,与数据库中图像的特征 进行比对,识别出查询图像中行人的身份。
进一步的,所述第一分支的第四个残差层带有下采样。
进一步的,所述计算红外线模态和日光模态特征图F3、fl1、fl2、fl3、 fl4、fl5之间的特征对应关系,计算公式如下:
C(i,j)=fRGB(i)T·fIR(j)
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图 位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j 位置,C(i,j)表示位置特征对应关系。
进一步的,所述对红外线模态和日光模态特征图F3、fl1、fl2、fl3、 fl4、fl5进行特征重建,得到重建特征图,重建公式如下:
MRGB(i)=|fRGB(i)|
MIR(j)=|fIR(j)|
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图 位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j 位置,MRGB表示日光模态特征图上所有位置的响应强度,MIN表示取最小 值,MAX表示取最大值,MIR表示红外线模态特征图上所有位置的响应强 度,MRGB(i)表示日光模态特征图上i位置的响应强度,MIR(j)表示红外线模态特征图上j位置的响应强度,表示重建后的日光模态特征图 i位置特征向量,表示重建后的红外线模态特征图j位置特征向量。
进一步的,所述联合损失函数公式如下:
所述表示SmoothAP损失函数,所述SmoothAP损失函数分 别对局部特征和局部重建特征计算损失,所述局部特征通过对局部特征图 fl1、fl2、fl3、fl4、fl5进行GeM池化和全连接降维操作得到,所述局部重 建特征通过对局部重建特征进行GeM池化和全连 接降维操作得到;
本申请提出的一种基于卷积神经网络的跨模态行人重识别方法,首先 多尺度特征提取可使网络关注到行人的细节信息,克服卷积下采样带来的 信息丢失。其次,特征对应操作可以缓解模态差异,以及行人姿势变化带 来的特征不对齐问题。最后,提出的联合损失函数对不同层次的特征施加 合适的约束,使得网络发现有区别性的模态共有特征。本申请技术方案提 高了行人识别效果。
附图说明
图1为本申请基于卷积神经网络的跨模态行人重识别方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实 施例仅用以解释本申请,并不用于限定本申请。
本申请提出的一种基于卷积神经网络的跨模态行人重识别方法,具体 而言,首先提取全局和局部特征图,然后分别在全局和局部水平上计算特 征对应关系。最后,引入一个联合损失函数,对不同层次的特征用不同的 损失函数进行训练,指导网络在所提取的模态共有特征中保留具有身份信 息的特征。
在一个实施例中,如图1所示,一种基于卷积神经网络的跨模态行人 重识别方法,包括:
步骤S1、获取带有身份标注的跨模态训练数据集,所述训练数据集中 每个训练样本包括一个身份对应红外线模态图像和日光模态图像。
训练神经网络,首先需要获取训练数据集。本实施例读取带有身份标 注的训练数据集,并按照图像中行人的身份随机取样划分批次,例如每个 批次包含8个身份。本实施例每个训练样本包括一个身份的4张日光模态 图像(RGB图像)和4张红外线图像(IR图像)。
步骤S2、将训练样本输入到基于Resnet-50构建的网络模型中,将所 述Resnet-50第三个残差层中第一个残差快输出的特征图记为F3,所述特 征图F3送入3个分支分别进行处理,得到特征图fg、fl1、fl2、fl3、fl4、 fl5。
本步骤用于获取多尺度特征图,主干网络采用双流Resnet50, ResNet50模型主要由一个浅层卷积块layer0和四个残差卷积层layer1、layer2、layer3和layer4组成。在layer0中,网络的参数针对每个模态是特 定的,其后的所有模块共享参数。
layer1、layer2和layer 3的第一个残差块作为主干提取出特征F3,从 它向后延伸出三个分支。
第一分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 提取出全局特征图fg;
第二分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 通过垂直均匀切片得到局部特征图fl1、fl2;
第三分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层, 通过垂直均匀切片得到局部特征图fl3、fl4、fl5。
具体的,第一个分支用来提取全局特征图,它由layer3的后三块和带 有下采样的layer4组成。第二和第三分支的网络结构与第一个相同,唯一 的不同是采用不带下采样的layer4,以此来保留细节,方便局部特征图的 提取。第二和第三分支的输出的特征图分别沿竖直方向做二等分和三等分 得到局部特征图fl1,fl2,fl3,fl4,fl5。本申请采用分支提取不同水平的特征, 利于发现不同尺寸特征的对应关系。
需要说明的是,上述操作对于红外线模态图像和日光模态图像分别进 行操作,得到不同模态下的全局特征图和局部特征图。
为了便于后续步骤计算损失函数,本申请对于全局特征图和局部特征 图,还分别做GeM池化操作(generalized-mean pooling)和降维操作,将 特征图转化为特征向量。
对于全局特征图,在layer4后,本申请没有采用常用的最大池化,而 是利用GeM池化(generalized-mean pooling)将输出转化为一维的特征向 量,并在其后面采用全连接层降维到256以便于局部特征连接。最后对局 部特征图做同样的池化和降维操作得到局部特征向量。
步骤S3、分别计算红外线模态和日光模态特征图F3、fl1、fl2、fl3、 fl4、fl5之间的特征对应关系。
本步骤对多尺度特征图F3、fl1、fl2、fl3、fl4、fl5计算特征对应关系, 本质上特征对应也是一个寻找目标对象在不同图像中共有特征的问题,这 也正是跨模态行人重识别的主要问题。
可以建立在两模态之间行人的特征对应来解决行人外表变化和模态 间差异的问题。在训练阶段,通过寻找模态间的特征对应关系让网络学习 会发现共有特征。
本实施例中,用特征余弦相似度来代表特征相似性,令fIR∈Rc×h×w和fRGB∈Rc×h×w分别代表IR和RGB图像的特征图。每个位置特征向量 由fRGB/IR(i)∈Rc表示,计算模态间的特征对应关系C∈Rhw×hw,公式如 下:
C(i,j)=fRGB(i)T·fIR(j)
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图 位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j 位置,C(i,j)表示位置特征对应关系。所有C(i,j)共同组成模态间的特征 对应关系C。
采用上述公式分别计算出红外线模态和日光模态特征图F3之间的特 征关系,红外线模态和日光模态特征图fl1之间的特征关系,红外线模态和 日光模态特征图fl2之间的特征关系,红外线模态和日光模态特征图fl3之间 的特征关系,红外线模态和日光模态特征图fl4之间的特征关系,以及红外 线模态和日光模态特征图fl5之间的特征关系。
根据上述公式,对同一身份的一对跨模态图像特征F3计算全局特征相 似度,发现显著特征的对应。对同一身份的fl1~fl5计算局部特征相似度, 发现细节的特征的对应。对多尺度特征图F3,fl1,fl2,fl3,fl4,fl5分别计算特 征的对应关系,以此来捕捉不同尺寸的模态共有特征。
参考生成对抗网络中根据重建图的质量来指导网络学习的方式,本实 施例也根据特征对应关系重建特征图,根据重建质量指导网络发现特征对 应。由于背景等模态有关信息的存在,直接还原特征必定会收到影响。所 以采用mask来过滤掉模态有关信息。以RGB图像为例,假定重识别任务 中,有用的模态无关信息的相应要大于模态有关信息。所以用每个位置特 征向量fRGB(i)∈Rc的模作为响应强度,公式如下:
MRGB(i)=|fRGB(i)|
上述公式用Mask过滤模态相关信息,RGB图像特征图的特征重建公 式为:
同理,还可以得到红外线模态图像的重建公式:
MIR(j)=|fIR(j)|
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图 位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j 位置,MRGB表示日光模态特征图上所有位置的响应强度,MIN表示取最小 值,MAX表示取最大值,MIR表示红外线模态特征图上所有位置的响应强 度,MRGB(i)表示日光模态特征图上i位置的响应强度,MIR(j)表示红外线模态特征图上j位置的响应强度,表示重建后的日光模态特征图 i位置特征向量,表示重建后的红外线模态特征图j位置特征向量。
需要说明的是,本实施例采用上述公式对特征图F3、fl1、f2、fl3、 fl4、fl5进行特征重建,得到重建特征图多尺 度的特征对应使得网络关注到模态共有细节特征,在行人姿态发生变化时, 依然能保持好的重识别效果。
本实施例构建了一个联合损失函数,包括提升网络重建特征图的质量 和在模态无关特征中寻找身份区别特征。它由身份损失函数(ID loss)、三 元组损失函数(Tripletloss)、SmoothAP损失函数(SmoothAP loss)和密 集三元组损失函数(Dense tripletloss)四种损失函数组成。将他们按 不同的权重相加得到最终的目标函数,公式如下:
下面,详细描述每一项损失,这些损失函数都是本领域比较成熟的技 术,本申请采用了这些损失函数,关于损失函数如何应用到本申请中进行 特定的计算,这里不再赘述。
身份损失函数ID loss在行人重识别任务中,可以学习有区别性的特 征,同时缩小类内距离,往往考虑采用多分类任务中ID Loss进行训练。 ID loss公式为:
上述身份损失函数对全局特征fi进行计算,全局特征fi通过对全局特 征图fg进行GeM池化和全连接降维操作得到,其对应的标签为yi。将全 局特征fi输入到分类器中进行分类识别,C为行人身份个数,也即分类器 分类的类别总数。wk表示分类器第k类的权重,N为批量大小,表示 第yi类的权重,公式中T表示转置。ID loss可以在训练中使同一类的特征 快速相似,完成一个基本的聚类工作,但对于模态差异而言,过分追求特 征对ID的表征能力,可能会引导网络关注到特定于目标但缺乏模态普适 性的信息,如行人衣服颜色,姿势等。因此,本申请不采用重识别常用的 对全局和局部变量都施加ID loss的设置,仅在第一个分支降维得到的一 个全局特征中施加ID loss。这样可以引导网络进行一个较粗的ID聚类, 但不必过分追究能表征ID的细节信息。
三元组损失函数Triplet loss通过阈值限制样本于正负样本间的相对距 离来达到拉近类内距离,拉远类间距离的目的。它与ID loss的组合在行 人ReID任务取得了不错的效果。三元组损失函数公式如下:
具体的,一个输入的三元组(Triplet)包括一对正样本对和一对负样 本对,三张图片分别命名为固定图片(Anchor)a,正样本图片(Positive)p和 负样本图片(Negative)n。图片a和图片p为一对正样本对,图片a和 图片n为一对负样本对。分别代表anthor、positive和 negative样本的特征,难样本挖掘的三元组即限制距离最远的正类样本与 距离最近的正负样本间的相对距离。P代表批量中类的个数,k代表批量 中每一个类图像的个数。难样本挖掘三重损失增强了度量学习的鲁棒性, 同时进一步提高了性能。需要说明的是,公式中所计算的特征也是通过对 全局特征图fg进行GeM池化和全连接降维操作得到。
本实施例中所述表示SmoothAP损失函数,所述SmoothAP损失 函数分别对局部特征和局部重建特征计算损失,所述局部特征通过对 局部特征图fl1、fl2、fl3、fl4、fl5进行GeM池化和全连接降维操作得到, 所述局部重建特征通过对局部重建特征进行GeM 池化和全连接降维操作得到。
mAP是ReID任务中常用的评价指标,但由于其计算过程中涉及到离 散的排序函数,这导致其不能作为一个目标函数指导网络学习。SmoothAP 通过sigmoid函数来光滑查询图像查找的排序过程,来近似AP的计算。 具体而言,AP的计算公式如下:
SP表示实例i同类的样本(正类,与查询图像属于同一类的图像),SΩ 表示所有样本,R(i,SP)表示实例i在SP中的排名,R(i,SΩ)代表实例i在所 有图像中的排名。|Sp|代表正类图像数量。将排名函数展开:
I{·}表示指示函数,Dij表示查询图像分别于实例j、i的相似度之差。 用余弦距离表示相似度,若Dij>0则,表示实例j更接近查询图像。显而易 见,分子、分母分别代表了实例i在正类和所有图像中的相似度排序。由 于指示函数I{·}不可导,所以用sigmoid函数来近似指示函数。公式如下:
τ控制sigmoid近似指示函数的精度,τ越低还原程度越好。AP的近似 公式为:
为了与其他的损失函数保持一致,将1-AP作为最终的目标函数:
N为批量。与对比损失、三元组损失等基于度量的损失函数不同, SmoothAP能直接衡量排序的质量。本申请用SmoothAP函数来训练二三 分支得到的局部特征和跨模态还原后得到的局部特征,使网络在关注两模 态间共有的区别性特征。
ID Loss和Triplet Loss用来在前期缩小类内距离,扩大类间距离, SmoothAPLoss通过约束局部特征筛选保留那些有区别性的细节特征。
为了解决因环境或姿势导致的特征遮挡的问题,采用密集三元组损失 函数。它首先计算模态共有mask来过滤被遮挡的特征。然后以特征图的 L2距离作为度量,计算三元组损失函数。这有助于网络学习有区别能力的 共有特征。以IR-to-RGB为例,共有mask计算公式为:
d+(i),d-(i)分别代表anchor与positive和negative特征图的L2距 离,α为margin值。
本实施例用联合损失函数训练网络,将训练样本按照批次进行训练, 每个批次计算联合损失,进行反向传播,更新网络模型的网络参数。循环 训练样本80次,得到最终网络模型。
步骤S6、采用训练好的网络模型提取查询图像的特征,与数据库中图 像的特征进行比对,识别出查询图像中行人的身份。
训练好的网络模型对查询图像(query)和数据库中图像(gallery)中 每幅图像进行特征提取,将提取到的多尺度特征图fg、fl1、fl2、fl3、fl4、 fl5经GeM池化与降维后,沿通道维连接,作为行人最后特征。以特征间 的欧氏距离作为特征相似度度量,计算query中图像的特征与gallery中图 像的特征的相似度,并按相似度排序得到重识别结果。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领 域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干 变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范 围应以所附权利要求为准。
Claims (5)
1.一种基于卷积神经网络的跨模态行人重识别方法,其特征在于,所述基于卷积神经网络的跨模态行人重识别方法,包括:
获取带有身份标注的跨模态训练数据集,所述训练数据集中每个训练样本包括一个身份对应的红外线模态图像和日光模态图像;
将训练样本输入到基于Resnet-50构建的网络模型中,将所述Resnet-50第三个残差层中第一个残差快输出的特征图记为F3,所述特征图F3送入3个分支分别进行处理,得到特征图fg、fl1、fl2、fl3、fl4、fl5,包括:
第一分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层,提取出全局特征图fg;
第二分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层,通过垂直均匀切片得到局部特征图fl1、fl2;
第三分支包括Resnet-50第三个残差层剩余的残差块和第四个残差层,通过垂直均匀切片得到局部特征图fl3、fl4、fl5;
分别计算红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5之间的特征对应关系;
采用训练好的网络模型提取查询图像的特征,与数据库中图像的特征进行比对,识别出查询图像中行人的身份。
2.根据权利要求1所述的基于卷积神经网络的跨模态行人重识别方法,其特征在于,所述第一分支的第四个残差层带有下采样。
3.根据权利要求1所述的基于卷积神经网络的跨模态行人重识别方法,其特征在于,所述计算红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5之间的特征对应关系,计算公式如下:
C(i,j)=fRGB(i)T·fIR(j)
其中,fRGB(i)和fIR(j)分别表示日光模态特征图和红外线模态特征图位置特征向量,i表示日光模态特征图i位置,j表示红外线模态特征图j位置,C(i,j)表示位置特征对应关系。
4.根据权利要求1所述的基于卷积神经网络的跨模态行人重识别方法,其特征在于,所述对红外线模态和日光模态特征图F3、fl1、fl2、fl3、fl4、fl5进行特征重建,得到重建特征图,重建公式如下:
MRGB(i)=|fRGB(i)|
MIR(j)=|fIR(j)|
5.如权利要求1所述的基于卷积神经网络的跨模态行人重识别方法,其特征在于,所述联合损失函数公式如下:
所述表示SmoothAP损失函数,所述SmoothAP损失函数分别对局部特征和局部重建特征计算损失,所述局部特征通过对局部特征图fl1、fl2、fl3、fl4、fl5进行GeM池化和全连接降维操作得到,所述局部重建特征通过对局部重建特征进行GeM池化和全连接降维操作得到;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210230686.8A CN114627500A (zh) | 2022-03-10 | 2022-03-10 | 一种基于卷积神经网络的跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210230686.8A CN114627500A (zh) | 2022-03-10 | 2022-03-10 | 一种基于卷积神经网络的跨模态行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114627500A true CN114627500A (zh) | 2022-06-14 |
Family
ID=81899611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210230686.8A Pending CN114627500A (zh) | 2022-03-10 | 2022-03-10 | 一种基于卷积神经网络的跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114627500A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422963A (zh) * | 2023-09-11 | 2024-01-19 | 南通大学 | 基于高维度特征映射和特征聚合的跨模态地点识别方法 |
-
2022
- 2022-03-10 CN CN202210230686.8A patent/CN114627500A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422963A (zh) * | 2023-09-11 | 2024-01-19 | 南通大学 | 基于高维度特征映射和特征聚合的跨模态地点识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106096561B (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
CN111539255B (zh) | 基于多模态图像风格转换的跨模态行人重识别方法 | |
CN110503076B (zh) | 基于人工智能的视频分类方法、装置、设备和介质 | |
CN105303150B (zh) | 实现图像处理的方法和系统 | |
CN111401145B (zh) | 一种基于深度学习与ds证据理论的可见光虹膜识别方法 | |
CN111104867A (zh) | 基于部件分割的识别模型训练、车辆重识别方法及装置 | |
CN106557728B (zh) | 查询图像处理和图像检索方法和装置以及监视系统 | |
CN110807434A (zh) | 一种基于人体解析粗细粒度结合的行人重识别系统及方法 | |
CN108764096B (zh) | 一种行人重识别系统和方法 | |
CN110263768A (zh) | 一种基于深度残差网络的人脸识别方法 | |
CN112115805B (zh) | 带双模态难挖掘三元-中心损失的行人重识别方法及系统 | |
CN109492528A (zh) | 一种基于高斯和深度特征的行人再识别方法 | |
CN111539247A (zh) | 一种超光谱人脸识别方法、装置、电子设备及其存储介质 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN110046669B (zh) | 基于素描图像的半耦合度量鉴别字典学习的行人检索方法 | |
CN112541421A (zh) | 一种开放空间的行人换装重识别方法 | |
CN115862055A (zh) | 基于对比学习和对抗训练的行人重识别方法及装置 | |
JP2015204030A (ja) | 認識装置及び認識方法 | |
CN114913337A (zh) | 一种基于三元级联感知的伪装目标框检测方法 | |
CN118038494A (zh) | 一种损坏场景鲁棒的跨模态行人重识别方法 | |
CN114627500A (zh) | 一种基于卷积神经网络的跨模态行人重识别方法 | |
CN111738039A (zh) | 一种行人重识别方法、终端及存储介质 | |
CN117315716A (zh) | 一种基于双相似度分割的遮挡行人重识别方法及装置 | |
CN111738062A (zh) | 一种基于嵌入式平台的自动再识别方法及系统 | |
CN109740405B (zh) | 一种非对齐相似车辆前窗差异信息检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |