CN111931802A - 基于Siamese网络结构融合中层特征的行人重识别方法 - Google Patents

基于Siamese网络结构融合中层特征的行人重识别方法 Download PDF

Info

Publication number
CN111931802A
CN111931802A CN202010546270.8A CN202010546270A CN111931802A CN 111931802 A CN111931802 A CN 111931802A CN 202010546270 A CN202010546270 A CN 202010546270A CN 111931802 A CN111931802 A CN 111931802A
Authority
CN
China
Prior art keywords
network
pedestrian
image
feature
siamese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010546270.8A
Other languages
English (en)
Inventor
张小瑞
陈旋
孙伟
宋爱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010546270.8A priority Critical patent/CN111931802A/zh
Publication of CN111931802A publication Critical patent/CN111931802A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Siamese网络融合中层特征的行人重识别方法,包括以下步骤:(1)预训练DenseNet121网络;(2)调整DenseNet121网络结构,搭建Siamese网络;(3)预处理训练集,利用随机擦除增强数据;(4)用预处理的训练集训练Siamese网络;(5)使用训练好的Siamese网络模型,得到待查询与图像库图像特征;(6)用余弦距离计算待查询与图像库行人图像的相似度,将图像库行人图像按照相似度大小排列。本发明利用调整后的DenseNet121搭建Siamese网络,提高了行人图像特征的区分程度和辨识度,同时利用随机擦除增加行人被遮挡的情形,提高行人重识别模型的泛化能力,适合复杂场景下跨摄像头的行人重识别。

Description

基于Siamese网络结构融合中层特征的行人重识别方法
技术领域
本发明涉及行人重识别方法,尤其涉及一种基于Siamese网络结构融合中层特征的行人重识别方法。
背景技术
行人重识别是指在跨摄像头的环境中,判断是否存在给定行人图像。该技术在智能视频监控、维护社会治安等方面发挥着重要的作用。然而行人重识别存在着较大的挑战:当姿势以及光照、背景等环境因素变化时,同一行人的外观在不同的监控视频下存在明显的差异,而不同行人的外观在某种情况下会比较相似。
近年来,深度学习的方法被广泛应用,相比于传统手工设计方法,深度学习能够取得更好的性能。在跨摄像头下检索给定的行人图像,深度行人重识别模型通常选用ResNet50作为基础网络在有限的数据集上进行优化,产生巨大的参数量,增加了过拟合的风险,降低泛化能力。同时针对跨摄像头行人出现的模态差异,一些基于GAN网络和利用注意力机制的方法被用来关注模态之间突出的特征,但这些方法模型复杂,训练不稳定。
发明内容
发明目的:本发明的目的是提供一种抗过拟合性能好、鲁棒性高的基于Siamese网络结构融合中层特征的行人重识别方法。
技术方案:本发明所述的行人重识别方法,包括以下步骤:
(1)预训练DenseNet121网络;
(2)调整DenseNet121网络结构,搭建Siamese网络;
(3)预处理训练集,利用随机擦除增强数据;
(4)用预处理的训练集训练Siamese网络;
(5)使用训练好的Siamese网络模型,得到待查询与图像库图像特征;
(6)用余弦距离计算查询与图像库图像的相似度,将图像库图像按相似度大小排列。
步骤(1)中,将ImageNet数据集作为训练数据集,训练一个DenseNet121网络,使DenseNet121网络具有初始值。
步骤(2)中,在DenseNet121中间层与最后一层后添加SElayer,得到的中级特征和高级特征,将它们相融合,在调整后的DenseNet121后添加两个全连接层,构建ID分类网络,将两个ID分类网络做并行连接,并行网络间加入一个对比层和一个全连接层构建验证网络,搭建一个完善的Siamese网络。
步骤(3)中,采用随机擦除的数据增广方法对图像进行随机的遮拦,以增强模型学习能力。
步骤(4)中,采用ID损失和验证损失联合的损失L优化Siamese网络。
步骤(5)中,得到待查询图像特征feature1与图像库图像特征feature2
步骤(6)中,余弦距离d计算公式为:
Figure BDA0002540902030000021
式中,feature1为待查询图像特征,feature2为图像库图像特征。
图像库图像根据余弦距离按相似度大小排列,返回最相似行人图像。
有益效果:本发明与现有技术相比,其显著效果如下:1、使用DenseNet121为基础网络,减少参数和计算量,具有非常好的抗过拟合性能;2、使用Siamese网络模型,可以预测两个输入图像的身份,以及判断它们是否属于同一身份,充分利用了行人的标注;3、采用随机擦除,扩充样本、防止过拟合、提高模型鲁棒性,适合复杂场景下跨摄像头的行人重识别;4、采用中级语义特征与高级语义特征融合,同时在中间层与最后层之后添加一个SElayer,让模型可以更加关注信息量最大的通道特征,进一步提高了行人图像的特征区分度。
附图说明
图1为本发明的流程图;
图2为本发明的SElayer网络结构;
图3是本发明的DenseNet121网络结构;
图4是本发明的Siamese网络模型。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步详细描述。
本发明采用DenseNet121网络,大大减少了参数的数量,并鼓励特征重用。同时调整DenseNet121网络结构,中间层含有更多的局部突出信息,不需要额外的注意力机制,将中间层与最后层特征相融合,便可获得更具区分性的行人特征,同时在中间层与最后层之后添加一个SElayer,让Siamese网络模型可以更加关注信息量最大的通道特征,而抑制那些不重要的通道特征。
如图1所示为本发明的流程图,详细步骤如下:
(1)预训练DenseNet121网络
将ImageNet数据集作为训练数据集,训练一个DenseNet121网络,使DenseNet121网络具有初始值。
(2)调整DenseNet121网络结构,搭建Siamese网络
调整DenseNet121网络结构,一次输入n张行人图像input,在DenseNet121中间层denseblock3后面加入SElayer,将denseblock3的输出作为SElayer的输入。SElayer结构图如图2所示,使用全局平均池化(avgpool)作为Squeeze操作,紧接着两个全连接层(fc)去建模通道间的相关性。首先通过一个全连接层进行特征降维,然后经过relu激活后再通过一个全连接层升回到原来的维度,然后通过一个sigmoid函数获得归一化的权重,最后通过一个scale的操作来将归一化后的权重加权到每个通道的特征上。通过添加SElayer可以获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。
如图3所示,在SElayer后使用全局平局池化得到中级特征维度为[n,1024,1,1],在最后层denseblock4后添加同样的SElayer,全局平均池化后得到高级特征维度为[n,1024,1,1],中级特征与高级特征按行拼接融合得到特征f维度大小为[n,2048,1,1],中间层信息更能突出局部特征,直接利用中间层特征与最后层层特征融合能够得到更具有区分性的行人特征,从而避免了额外设计局部注意机制模型。
将两个调整后的DenseNet121网络做并行连接,搭建Siamese网络。如图4所示,利用两个调整后的DenseNet121,搭建Siamese网络,这两个DenseNet121享有相同的权值,上层DenseNet121输出特征记作f0,下层DenseNet121输出特征记作f1,f0、f1分别作为全连接层FC1-0、FC1-1的输入,FC1-0、FC1-1输出特征分别为fc1-0、fc1-1,维度大小为[n,512],最后全连接层FC2-0、FC2-1输出特征维度大小为[n,K],K为训练集行人的个数,构建了ID分类网络。在上下全连接层FC1-0、FC1-1后加入对比层,输出张量fm的计算公式为:
fm=fc1-0-fc1-1 (1)
式(1)中,fc1-0为全连接层FC1-0的输出特征,fc1-1为全连接层FC1-1输出特征。
在对比层后添加一个全连接层FC3输出特征维度为[n,2],构成验证网络,构成了一个完善的Siamese网络。
(3)预处理训练集,利用随机擦除增强数据
采用REA(Random Erasing Data Augmentation随机擦除的数据增广方法)对图像进行随机的遮拦,以增强模型学习能力,其中设置随机遮拦的概率a=0.5,遮拦矩形框面积为0.02<S<0.4。
(4)用预处理的训练集训练Siamese网络
采用ID损失LID和验证损失Lver组合的损失L优化Siamese网络。其中ID损失LID计算公式为:
Figure BDA0002540902030000031
式(2)中,K为训练集行人的个数,pi是输入行人图片的标签;
Figure BDA0002540902030000032
为输入图片属于第i个(i∈{1,2,3,...K})行人的概率,计算公式为:
Figure BDA0002540902030000033
式(3)中zi∈{z1,z2,z3,..zK},[z1,z2,z3,...zK]是ID分类网络最后一层输出向量。
验证损失Lver计算公式为:
Figure BDA0002540902030000041
式(4)中,qi表示Siamese网络输入的成对图像是否为同一行人,若为同一行人则q1=1,q2=0;否则,q1=0,q2=1;
Figure BDA0002540902030000042
表示是否为同一行人的概率,计算公式为:
Figure BDA0002540902030000043
式(5)中,wi∈{w1,w2},[w1,w2]是验证网络的输出向量。
组合的损失L计算公式为:
L=LID+Lver (6)
(5)使用训练好的Siamese网络模型,得到待查询与图像库图像特征
使用训练好的Siamese网络模型,得到待查询图像特征feature1与图像库图像特征feature2,得到待查询与图像库图像特征。
(6)用余弦距离计算查询与图像库图像的相似度,按相似度大小排列
余弦距离d计算公式为:
Figure BDA0002540902030000044
feature1为待查询图像特征,feature2为图像库图像特征。
图像库图像按相似度大小排列,返回最相似行人图像。
综上所述,本发明所述的行人重识别方法充分利用了DenseNet121为基础网络,减少参数和计算量;使用Siamese网络模型,充分利用了行人的标注;采用随机擦除的数据增广方法扩充样本,具有非常好的抗过拟合性能;采用中级语义特征与高级语义特征融合,同时在中间层与最后层之后添加一个SElayer,增加了行人图像的特征区分度,提高了模型鲁棒性。

Claims (7)

1.一种基于Siamese网络融合中层特征的行人重识别方法,其特征在于,包括以下步骤:
(1)预训练DenseNet121网络;
(2)调整DenseNet121网络结构,搭建Siamese网络;
(3)预处理训练集,利用随机擦除增强数据;
(4)用预处理的训练集训练Siamese网络;
(5)使用训练好的Siamese网络模型,得到待查询与图像库图像特征;
(6)用余弦距离计算查询与图像库图像的相似度,将图像库图像按相似度大小排列。
2.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法,其特征在于:步骤(1)中,将ImageNet数据集作为训练数据集,训练一个DenseNet121网络,使DenseNet121网络具有初始值。
3.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法,其特征在于:步骤(2)中,在DenseNet121中间层后加入SElayer得到中级特征,最后层加入SElayer得到高级特征,将中级特征与高级特征相融合,在调整后的DenseNet121后添加两个全连接层,构建ID分类网络,将两个ID分类网络做并行连接,并行网络间加入一个对比层和一个全连接层构建验证网络,搭建一个完善的Siamese网络。
4.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法,其特征在于:步骤(3)中,采用随机擦除的数据增广方法对图像进行随机的遮拦,以增强模型学习能力。
5.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法,其特征在于:步骤(4)中,采用ID损失和验证损失联合的损失L优化Siamese网络。
6.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法,其特征在于:步骤(5)中,得到待查询图像特征feature1与图像库图像特征feature2
7.根据权利要求1所述的基于Siamese网络融合中层特征的行人重识别方法,其特征在于:步骤(6)中,余弦距离d计算公式为:
Figure FDA0002540902020000011
式中,feature1为待查询图像特征,feature2为图像库图像特征。
图像库图像根据余弦距离按相似度大小排列,返回最相似行人图像。
CN202010546270.8A 2020-06-16 2020-06-16 基于Siamese网络结构融合中层特征的行人重识别方法 Pending CN111931802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010546270.8A CN111931802A (zh) 2020-06-16 2020-06-16 基于Siamese网络结构融合中层特征的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010546270.8A CN111931802A (zh) 2020-06-16 2020-06-16 基于Siamese网络结构融合中层特征的行人重识别方法

Publications (1)

Publication Number Publication Date
CN111931802A true CN111931802A (zh) 2020-11-13

Family

ID=73316241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010546270.8A Pending CN111931802A (zh) 2020-06-16 2020-06-16 基于Siamese网络结构融合中层特征的行人重识别方法

Country Status (1)

Country Link
CN (1) CN111931802A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434796A (zh) * 2020-12-09 2021-03-02 同济大学 一种基于局部信息学习的跨模态行人再识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171184A (zh) * 2018-01-03 2018-06-15 南京理工大学 基于Siamese网络的用于行人重识别的方法
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN109886922A (zh) * 2019-01-17 2019-06-14 丽水市中心医院 基于SE-DenseNet深度学习框架和多模态增强MR图像的肝细胞癌自动分级方法
CN109948490A (zh) * 2019-03-11 2019-06-28 浙江工业大学 一种基于行人重识别的员工特定行为记录方法
CN109977917A (zh) * 2019-04-09 2019-07-05 中通服公众信息产业股份有限公司 一种无监督转移学习的行人重识别方法及系统
US10503966B1 (en) * 2018-10-11 2019-12-10 Tindei Network Technology (Shanghai) Co., Ltd. Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same
WO2020093042A1 (en) * 2018-11-02 2020-05-07 Deep Lens, Inc. Neural networks for biomedical image analysis
CN111274942A (zh) * 2020-01-19 2020-06-12 国汽(北京)智能网联汽车研究院有限公司 一种基于级联网络的交通锥识别方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171184A (zh) * 2018-01-03 2018-06-15 南京理工大学 基于Siamese网络的用于行人重识别的方法
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
US10503966B1 (en) * 2018-10-11 2019-12-10 Tindei Network Technology (Shanghai) Co., Ltd. Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same
WO2020093042A1 (en) * 2018-11-02 2020-05-07 Deep Lens, Inc. Neural networks for biomedical image analysis
CN109886922A (zh) * 2019-01-17 2019-06-14 丽水市中心医院 基于SE-DenseNet深度学习框架和多模态增强MR图像的肝细胞癌自动分级方法
CN109948490A (zh) * 2019-03-11 2019-06-28 浙江工业大学 一种基于行人重识别的员工特定行为记录方法
CN109977917A (zh) * 2019-04-09 2019-07-05 中通服公众信息产业股份有限公司 一种无监督转移学习的行人重识别方法及系统
CN111274942A (zh) * 2020-01-19 2020-06-12 国汽(北京)智能网联汽车研究院有限公司 一种基于级联网络的交通锥识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN DENG等: "Classification of breast density categories based on SE-Attention neural networks", 《COMPUTER METHODS AND PROGRAMS IN BIOMEDICINE》, no. 193, pages 4 - 6 *
冯川: "基于深度学习的行人重识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 9, pages 138 - 699 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434796A (zh) * 2020-12-09 2021-03-02 同济大学 一种基于局部信息学习的跨模态行人再识别方法

Similar Documents

Publication Publication Date Title
Su et al. Multi-type attributes driven multi-camera person re-identification
CN109711463B (zh) 基于注意力的重要对象检测方法
Yin et al. Recurrent convolutional network for video-based smoke detection
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN112395951B (zh) 一种面向复杂场景的域适应交通目标检测与识别方法
Khan et al. An automated and efficient convolutional architecture for disguise-invariant face recognition using noise-based data augmentation and deep transfer learning
CN111539255A (zh) 基于多模态图像风格转换的跨模态行人重识别方法
CN113343937B (zh) 一种基于深度卷积和注意力机制的唇语识别方法
Wu et al. Feedback weight convolutional neural network for gait recognition
CN114782977B (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法
CN113627266A (zh) 基于Transformer时空建模的视频行人重识别方法
CN114694089B (zh) 一种新型的多模态融合的行人重识别方法
CN109446897B (zh) 基于图像上下文信息的场景识别方法及装置
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
CN111597929A (zh) 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
CN111539445B (zh) 一种半监督特征融合的对象分类方法及系统
Dang et al. Facial expression recognition: A survey and its applications
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
Zhong et al. Progressive feature enhancement for person re-identification
Huang et al. Pedestrian detection using RetinaNet with multi-branch structure and double pooling attention mechanism
Liu et al. Posture calibration based cross-view & hard-sensitive metric learning for UAV-based vehicle re-identification
CN111931802A (zh) 基于Siamese网络结构融合中层特征的行人重识别方法
Li A discriminative learning convolutional neural network for facial expression recognition
Peng et al. Recognizing micro-expression in video clip with adaptive key-frame mining
Zheng et al. Semantic segmentation in thermal videos: a new benchmark and multi-granularity contrastive learning-based framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201113

RJ01 Rejection of invention patent application after publication