CN111079585A - 基于深度学习的图像增强与伪孪生卷积神经网络结合的行人再识别方法 - Google Patents

基于深度学习的图像增强与伪孪生卷积神经网络结合的行人再识别方法 Download PDF

Info

Publication number
CN111079585A
CN111079585A CN201911221033.8A CN201911221033A CN111079585A CN 111079585 A CN111079585 A CN 111079585A CN 201911221033 A CN201911221033 A CN 201911221033A CN 111079585 A CN111079585 A CN 111079585A
Authority
CN
China
Prior art keywords
sample
image
neural network
layer
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911221033.8A
Other languages
English (en)
Other versions
CN111079585B (zh
Inventor
陈卫刚
曹碧莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201911221033.8A priority Critical patent/CN111079585B/zh
Publication of CN111079585A publication Critical patent/CN111079585A/zh
Application granted granted Critical
Publication of CN111079585B publication Critical patent/CN111079585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法,该方法包括以下步骤:首先采集行人图像构建候选行人库,并构建行人再识别模型,该模型包括图像缩放和增强模块,两个特征提取模块和相似度计算模块;通过图像缩放和增强模块将候选样本缩放到与待查询样本相同的尺寸,然后将缩放后的图像作增强处理;将待查询样本和作增强处理后的候选样本输入到两个特征提取模块中,得到两个样本的特征图;最后将两个样本的特征图输入到相似度计算模块中,输出待查样本与候选样本是否具有相同身份标签的判断。本发明对行人图像进行缩放和增强处理,改善输入到伪孪生卷积神经网络的样本的视觉表现,从而提升再识别模型的性能。

Description

基于深度学习的图像增强与伪孪生卷积神经网络结合的行人 再识别方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法。
背景技术
行人再识别是指以多个摄像机采集的视频为输入,利用计算机视觉技术自动确认不同位置的摄像机在不同时刻拍摄到的多个行人目标是否属于同一个人的技术。行人再识别在公共安全和刑侦工作及图像检索等领域具有很高的应用价值,因此,一直受到学术界和产业界的广泛关注。
近年来,基于深度学习的方法逐渐取代以手工方式设计特征和分类器的传统方法,成为行人再识别的主流方法。中国专利201710780179.0采用两个神经网络,分别以原始的全身图像和从全身图像提取的人体部位图像作为输入,组合两个网络的输出作为总的特征加以识别;中国专利201811168809.X训练了行人姿态模型过滤行人姿态,背景分割模型去除图像中的背景部分,特征提取模型提取行人特征,最后通过特征匹配完成行人再识别。
需要指出的是,现有的技术大多假设所有行人图像具有一致的大小,并且其分辨率足够满足再识别模型对图像分辨率的要求。很少考虑在不同摄像机采集的视频中,行人所占的图像区域大小不一,而且许多时候表现为较小的尺寸,对于深度神经网络而言,无法有效地提取行人区域所蕴含的可分性特征。进一步地,若以简单的插值算法缩放图像到合适的尺寸,则难免引入图像模糊,影响再识别模型的性能。
本发明提供一种基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法,在将经过缩放的行人图像输入到孪生卷积神经网络之前引入了一个基于深度学习的增强模块,以改善图像插值后的视觉表现,从而有助于提升再识别模型的性能。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法。
本发明的目的是通过以下技术方案来实现的:一种基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法,该方法包括以下步骤:
(1)采集Np个行人的Nx幅图像构建候选行人库,记作
Figure BDA0002300854750000021
其中xi代表第i个候选样本图像,
Figure BDA0002300854750000022
为对应xi的行人身份标签;设待查询样本的图像为xq
(2)构建行人再识别模型,该模型可表示为一个四元组B=(M,f1,f2,S),其中B为行人再识别模型,M为图像缩放和增强模块,f1和f2为特征提取模块,S为相似度计算模块;所述图像缩放和增强模块M包括一个深度卷积神经网络,所述特征提取模块f1和f2为一个伪孪生卷积神经网络,所述相似度计算模块S包括一个卷积层和一个Softmax层;
(3)通过图像缩放和增强模块M将候选样本xi缩放到与待查询样本xq相同的尺寸,然后将缩放后的图像输入到深度卷积神经网络中作增强处理;
(4)将待查询样本xq输入到f1中,提取待查询样本xq的特征,得到待查询样本xq的特征图;并将作增强处理后的候选样本xi输入到f2中,提取候选样本xi的特征,得到候选样本xi的特征图;
(5)将步骤(4)中得到的待查询样本xq的特征图和候选样本xi的特征图,同时输入到相似度计算模块S中,输出待查样本xq与候选样本xi是否具有相同身份标签的判断。具体计算步骤包括:设F1为特征提取模块f1输出的特征图,F2为特征提取模块f2输出的特征图,相似度计算模块首先按下式计算特征图每个元素的差值的平方形成一个新的特征图Fs
Fs=(F1-F2)2
其次,相似度计算模块中的卷积层包含2个大小为1×1×2048的卷积核,该卷积层以Fs为输入,输出一个二维向量(q1,q2),其中以q1作为xq与xi具有相同身份标签的概率,q2作为xq与xi具有不同身份标签的概率,根据二维向量(q1,q2)的值判断待查询样本xq与xi是否具有相同的身份标签。
进一步地,所述步骤(3)中的深度卷积神经网络对缩放后的图像作增强处理,具体为:设待查询样本xq的大小为Hq×Wq,当前参与识别的候选样本xi的大小为Hi×Wi,则首先以双三次插值算法将候选样本缩放为Hq×Wq大小的图像,记作
Figure BDA0002300854750000023
所述深度卷积神经网络包含d个层次,其中d可为14到18之间的整数,将
Figure BDA0002300854750000024
输入到所述深度卷积网络,若最后一层的输出为
Figure BDA0002300854750000025
按下式与输入样本融合后作为与
Figure BDA0002300854750000026
对应的增强后的样本:
Figure BDA0002300854750000031
所述深度卷积神经网络的d个层次,除第一和最后一层外的其它层次具有相同的结构,该结构包括一个卷积层和一个ReLU层,每个卷积层均包含64个3×3×64大小的卷积核;第一层包含64个3×3×C大小的卷积核,与输入样本作卷积运算后产生64个特征图,其中C等于输入样本的通道数;最后一层包含C个3×3×64大小的卷积核,该层卷积运算的输出结果的大小和通道数目都与输入样本相同。
进一步地,所述步骤(4)中特征提取模块f1和f2具有相同的网络结构,该网络结构为在残差网络ResNet-50的最后一个残差单元之后添加一个额外的卷积层,记添加在f1中的额外卷积层为Conv_E01,添加在在f2中的额外卷积层为Conv_E02,Conv_E01和Conv_E02具有相同的结构,其卷积核数目等于候选库中行人身份类别数,卷积核大小等于1×1×2048;在所述额外的卷积层Conv_E01和Conv_E02之后分别接一个Softmax层;f1和f2中的两个ResNet-50的各个层次共享权值;卷积层Conv_E01和Conv_E02及其后的Softmax层不共享权值,且仅用于模型参数的训练。
进一步地,所述步骤(5)中所述特征提取模块f1输出的特征图为f1的残差网络ResNet-50中最后一个残差块输出的特征图,特征提取模块f2输出的特征图为f2的残差网络ResNet-50中最后一个残差块输出的特征图。
进一步地,所述图像缩放和增强模块以一个深度卷积神经网络对缩放后的图像作增强处理,所述深度卷积神经网络各个层次的参数以学习的方式确定,包括如下步骤:
步骤a:准备训练样本,设xk为一个参与训练的图像,其大小为Hk×Wk,取缩放系数r为符合r∈[1.5,4]的实数,将xk缩小为Hk/r×Wk/r大小后,以双三次插值算法放大为具有Hk×Wk大小的图像,且记作
Figure BDA0002300854750000032
Figure BDA0002300854750000033
构成一对训练样本,记训练样本集为
Figure BDA0002300854750000034
其中N为集合中样本的数目;
步骤b:批量加载训练样本,对每一对训练样本按下式计算深度卷积神经网络的损失函数EV
Figure BDA0002300854750000035
其中
Figure BDA0002300854750000036
代表以
Figure BDA0002300854750000037
为输入时,图像缩放增强模块中的深度卷积神经网络产生的输出图像;
步骤c:以最小化所有训练样本的损失函数累加和为目标,以Adam优化算法更新深度卷积神经网络各层的权值。
进一步地,所述特征提取模块f1、f2和相似度计算模块中的各个层次的参数以两阶段学习的方式确定,设训练样本集中包含了来自NT个行人的NS个样本,表示为
Figure BDA0002300854750000041
其中xi代表第i个样本,
Figure BDA0002300854750000042
为对应xi的行人身份标签,第一阶段训练仅针对f1和f2模块中各个层次的参数,包括如下步骤:
步骤A:从训练样本集中随机选取两个样本(xm,ym)和(xn,yn),若xm的尺寸大于xn,则以(xm,ym)作为f1的输入,xn以双三次插值算法缩放到与xm一致的尺寸后由图像缩放和增强模块中的深度卷积神经网络作增强处理,形成增强后图像x'n,以(x'n,yn)作为f2的输入;若xn的尺寸大于xm,以(xn,yn)作为f1的输入,xm以双三次插值算法缩放到与xn一致的尺寸后由图像缩放和增强模块中的深度卷积神经网络作增强处理,形成增强后图像x'm,以(x'm,ym)作为f2的输入;
步骤B:加载步骤A处理后的训练样本到所述特征提取模块f1和f2,对应每一个加载的训练样本,f1或f2中最后的Softmax层将输出NT维的向量
Figure BDA0002300854750000043
向量的每个元素为一个正实数,且满足:
Figure BDA0002300854750000044
若输入样本的真实身份标签为Lk,则与Lk相对应的期望向量元素
Figure BDA0002300854750000045
具有大于其它元素的输出值,所以对每一个训练样本按下式计算特征提取模块的损失函数ED
Figure BDA0002300854750000046
其中pi的取值取决于训练样本的身份标签,若训练样本的身份标签为Li,则pi=1,否则pi=0;
步骤C:以最小化所有训练样本的ED损失函数累加和为目标,以Adam优化算法更新特征提取模块中各层的权值;
当第一阶段训练完成后,再进行第二阶段训练,第二阶段训练固定f1和f2中各个层次的参数为第一阶段训练所得的参数,仅调整相似度计算模块S中各个层次的参数,包括如下步骤:
步骤D:从训练样本集中随机选取两个样本,形成正样本对或负样本对,(xm,ym;xn,yn),若ym=yn,则为正样本对,否则为负样本对;
步骤E:加载正样本对或负样本对到所述的特征提取模块f1、f2和相似度计算模块S,对应每一个加载的正样本对或负样本对,相似度计算模块中的Softmax层将输出一个二维向量
Figure BDA0002300854750000051
向量的每个元素为一个正实数,且满足:
Figure BDA0002300854750000052
若加载的为正样本对,则期望
Figure BDA0002300854750000053
否则期望
Figure BDA0002300854750000054
按下式计算相似度计算模块的损失函数EM
Figure BDA0002300854750000055
其中,对于正样本对,q1=1,q2=0,对于负样本对,q1=0,q2=1;
步骤F:以最小化所有训练样本的EM损失函数累加和为目标,以Adam优化算法更新相似度计算模块中各层的权值。
本发明的有益效果:本发明提供的行人再识别方法以图像缩放和增强模块对行人图像进行缩放和增强处理,以改善输入到伪孪生卷积神经网络的样本的视觉表现,从而有助于提升再识别模型的性能;并根据待查询样本和增强处理后的候选样本的特征图进行相似度计算,从而判断待查样本与候选样本是否具有相同身份。
附图说明
图1为本发明的行人再识别方法流程示意图;
图2为本发明图像缩放和增强模块中的深度卷积神经网络的结构示意图;
图3为本发明的特征提取模块和相似度计算模块的网络结构示意图;
图4为没有图像缩放和增强模块的行人再识别的一个结果示意图;
图5为增加了图像缩放和增强模块的行人再识别的一个结果示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述,以便本领域技术人员更好地理解本发明的实质。
如图1所示,一种基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法,该方法包括以下步骤:
(1)采集Np个行人的Nx幅图像构建候选行人库,记作
Figure BDA0002300854750000056
其中xi代表第i个候选样本图像,
Figure BDA0002300854750000057
为对应xi的行人身份标签,每个身份标签标识了不同的行人,可为不重复的序号,
Figure BDA0002300854750000058
为第Np个行人的身份标签;设待查询样本的图像为xq
(2)构建行人再识别模型,该模型可表示为一个四元组B=(M,f1,f2,S),其中B为行人再识别模型,M为图像缩放和增强模块,f1和f2为特征提取模块,S为相似度计算模块;所述图像缩放和增强模块M包括一个深度卷积神经网络,所述特征提取模块f1和f2为一个伪孪生卷积神经网络,所述相似度计算模块S包括一个卷积层和一个Softmax层;
所述深度卷积神经网络各个层次的参数以学习的方式确定,包括如下步骤:
步骤a:准备训练样本,设xk为一个参与训练的图像,其大小为Hk×Wk,取缩放系数r为符合r∈[1.5,4]的实数,将xk缩小为Hk/r×Wk/r大小后,以双三次插值算法放大为具有Hk×Wk大小的图像,且记作
Figure BDA0002300854750000061
Figure BDA0002300854750000062
构成一对训练样本,记训练样本集为
Figure BDA0002300854750000063
其中N为集合中样本的数目;
步骤b:批量加载训练样本,对每一对训练样本按下式计算深度卷积神经网络的损失函数EV
Figure BDA0002300854750000064
其中
Figure BDA0002300854750000065
代表以
Figure BDA0002300854750000066
为输入时,图像缩放增强模块中的深度卷积神经网络产生的输出图像;
步骤c:以最小化所有训练样本的损失函数累加和为目标,以Adam优化算法更新深度卷积神经网络各层的权值。
所述特征提取模块f1、f2和相似度计算模块中的各个层次的参数以两阶段学习的方式确定,设训练样本集中包含了来自NT个行人的NS个样本,表示为
Figure BDA0002300854750000067
其中xi代表第i个样本,
Figure BDA0002300854750000068
为对应xi的行人身份标签,第一阶段训练仅针对f1和f2模块中各个层次的参数,包括如下步骤:
步骤A:从训练样本集中随机选取两个样本(xm,ym)和(xn,yn),若xm的尺寸大于xn,则以(xm,ym)作为f1的输入,xn以双三次插值算法缩放到与xm一致的尺寸后由图像缩放和增强模块中的深度卷积神经网络作增强处理,形成增强后图像x'n,以(x'n,yn)作为f2的输入;若xn的尺寸大于xm,以(xn,yn)作为f1的输入,xm以双三次插值算法缩放到与xn一致的尺寸后由图像缩放和增强模块中的深度卷积神经网络作增强处理,形成增强后图像x'm,以(x'm,ym)作为f2的输入;
步骤B:加载步骤A处理后的训练样本到所述特征提取模块f1和f2,对应每一个加载的训练样本,f1或f2中最后的Softmax层将输出NT维的向量
Figure BDA0002300854750000069
向量的每个元素为一个正实数,且满足:
Figure BDA00023008547500000610
若输入样本的真实身份标签为Lk,则与Lk相对应的期望向量元素
Figure BDA0002300854750000071
具有大于其它元素的输出值,所以对每一个训练样本按下式计算特征提取模块的损失函数ED
Figure BDA0002300854750000072
其中pi的取值取决于训练样本的身份标签,若训练样本的身份标签为Li,则pi=1,否则pi=0;
步骤C:以最小化所有训练样本的ED损失函数累加和为目标,以Adam优化算法更新特征提取模块中各层的权值;
当第一阶段训练完成后,再进行第二阶段训练,第二阶段训练固定f1和f2中各个层次的参数为第一阶段训练所得的参数,仅调整相似度计算模块S中各个层次的参数,包括如下步骤:
步骤D:从训练样本集中随机选取两个样本,形成正样本对或负样本对,(xm,ym;xn,yn),若ym=yn,则为正样本对,否则为负样本对;
步骤E:加载正样本对或负样本对到所述的特征提取模块f1、f2和相似度计算模块S,对应每一个加载的正样本对或负样本对,相似度计算模块中的Softmax层将输出一个二维向量
Figure BDA0002300854750000073
向量的每个元素为一个正实数,且满足:
Figure BDA0002300854750000074
若加载的为正样本对,则期望
Figure BDA0002300854750000075
否则期望
Figure BDA0002300854750000076
按下式计算相似度计算模块的损失函数EM
Figure BDA0002300854750000077
其中,对于正样本对,q1=1,q2=0,对于负样本对,q1=0,q2=1;
步骤F:以最小化所有训练样本的EM损失函数累加和为目标,以Adam优化算法更新相似度计算模块中各层的权值。
(3)如图2所示,通过图像缩放和增强模块M将候选样本xi缩放到与待查询样本xq相同的尺寸,然后将缩放后的图像输入到深度卷积神经网络中作增强处理;候选样本库中的样本来自于多个不同的摄像机,它们的大小、视角等往往存在较大的差异。设待查询样本xq的大小为Hq×Wq,当前参与识别的候选样本xi的大小为Hi×Wi,则首先以双三次插值算法将候选样本缩放为Hq×Wq大小的图像,记作
Figure BDA00023008547500000711
所述深度卷积神经网络包含d个层次,其中d可为14到18之间的整数,将
Figure BDA0002300854750000078
输入到所述深度卷积网络,若最后一层的输出为
Figure BDA0002300854750000079
按下式与输入样本融合后作为与
Figure BDA00023008547500000710
对应的增强后的样本:
Figure BDA0002300854750000081
所述深度卷积神经网络的d个层次,除第一和最后一层外的其它层次具有相同的结构,该结构包括一个卷积层和一个ReLU层,每个卷积层均包含64个3×3×64大小的卷积核;第一层包含64个3×3×C大小的卷积核,与输入样本作卷积运算后产生64个特征图,其中C等于输入样本的通道数;最后一层包含C个3×3×64大小的卷积核,该层卷积运算的输出结果的大小和通道数目都与输入样本相同。
(4)将待查询样本xq输入到f1中,提取待查询样本xq的特征,得到待查询样本xq的特征图;并将作增强处理后的候选样本xi输入到f2中,提取候选样本xi的特征,得到候选样本xi的特征图;特征提取模块f1和f2具有相同的网络结构,该网络结构为在残差网络ResNet-50的最后一个残差单元之后添加一个额外的卷积层,记添加在f1中的额外卷积层为Conv_E01,添加在在f2中的额外卷积层为Conv_E02,Conv_E01和Conv_E02具有相同的结构,其卷积核数目等于候选库中行人身份类别数,卷积核大小等于1×1×2048;在所述额外的卷积层Conv_E01和Conv_E02之后分别接一个Softmax层;f1和f2中的两个ResNet-50的各个层次共享权值;卷积层Conv_E01和Conv_E02及其后的Softmax层不共享权值,且仅用于模型参数的训练。
(5)如图3所示,将步骤(4)中得到的待查询样本xq的特征图和候选样本xi的特征图,同时输入到相似度计算模块S中,输出待查样本xq与候选样本xi是否具有相同身份标签的判断。具体计算步骤包括:设F1为特征提取模块f1输出的特征图,F2为特征提取模块f2输出的特征图,特征提取模块f1输出的特征图为f1的残差网络ResNet-50中最后一个残差块输出的特征图,特征提取模块f2输出的特征图为f2的残差网络ResNet-50中最后一个残差块输出的特征图,相似度计算模块首先按下式计算特征图每个元素的差值的平方形成一个新的特征图Fs
Fs=(F1-F2)2
其次,相似度计算模块中的卷积层包含2个大小为1×1×2048的卷积核,该卷积层以Fs为输入,输出一个二维向量(q1,q2),其中以q1作为xq与xi具有相同身份标签的概率,q2作为xq与xi具有不同身份标签的概率,根据二维向量(q1,q2)的值判断待查询样本xq与xi是否具有相同的身份标签。
本发明实施例在实际应用场景下进行了大量的测试,图4和图5比较了有无本发明实施例的图像缩放和增强模块对再识别结果的影响,图4和图5的最左边图像为输入的查询图像,右边则为候选库中与查询图像具有较大相似度的10幅图像,并且在图像的上方标注了相似度的排序。从图中可以看出,若候选库中的图像缩放后不作基于深度卷积神经网络的图像增强,在Rank-10结果中有三个错误的识别,分别位于第2、7和8顺位;引入了本发明实施例的图像增强模块后,Rank-10结果中的错误识别减少到2个,其顺位也降低为第3和第9。所以,本发明实施例以图像缩放和增强模块对行人图像进行缩放和增强处理,改善了输入到伪孪生卷积神经网络的样本的视觉表现,从而有助于提升再识别模型的性能。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (6)

1.一种基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法,其特征在于,该方法包括以下步骤:
(1)采集Np个行人的Nx幅图像构建候选行人库,记作
Figure FDA0002300854740000011
其中xi代表第i个候选样本图像,
Figure FDA0002300854740000012
为对应xi的行人身份标签;设待查询样本的图像为xq
(2)构建行人再识别模型,该模型可表示为一个四元组B=(M,f1,f2,S),其中B为行人再识别模型,M为图像缩放和增强模块,f1和f2为特征提取模块,S为相似度计算模块;所述图像缩放和增强模块M包括一个深度卷积神经网络,所述特征提取模块f1和f2为一个伪孪生卷积神经网络,所述相似度计算模块S包括一个卷积层和一个Softmax层。
(3)通过图像缩放和增强模块M将候选样本xi缩放到与待查询样本xq相同的尺寸,然后将缩放后的图像输入到深度卷积神经网络中作增强处理。
(4)将待查询样本xq输入到f1中,提取待查询样本xq的特征,得到待查询样本xq的特征图;并将作增强处理后的候选样本xi输入到f2中,提取候选样本xi的特征,得到候选样本xi的特征图。
(5)将步骤(4)中得到的待查询样本xq的特征图和候选样本xi的特征图,同时输入到相似度计算模块S中,输出待查样本xq与候选样本xi是否具有相同身份标签的判断。具体计算步骤包括:设F1为特征提取模块f1输出的特征图,F2为特征提取模块f2输出的特征图,相似度计算模块首先按下式计算特征图每个元素的差值的平方形成一个新的特征图Fs
Fs=(F1-F2)2
其次,相似度计算模块中的卷积层包含2个大小为1×1×2048的卷积核,该卷积层以Fs为输入,输出一个二维向量(q1,q2),其中以q1作为xq与xi具有相同身份标签的概率,q2作为xq与xi具有不同身份标签的概率,根据二维向量(q1,q2)的值判断待查询样本xq与xi是否具有相同的身份标签。
2.根据权利要求1所述的基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法,其特征在于,所述步骤(3)中的深度卷积神经网络对缩放后的图像作增强处理,具体为:设待查询样本xq的大小为Hq×Wq,当前参与识别的候选样本xi的大小为Hi×Wi,则首先以双三次插值算法将候选样本缩放为Hq×Wq大小的图像,记作
Figure FDA0002300854740000013
所述深度卷积神经网络包含d个层次,其中d可为14到18之间的整数,将
Figure FDA0002300854740000021
输入到所述深度卷积网络,若最后一层的输出为
Figure FDA0002300854740000022
按下式与输入样本融合后作为与
Figure FDA0002300854740000023
对应的增强后的样本:
Figure FDA0002300854740000024
所述深度卷积神经网络的d个层次,除第一和最后一层外的其它层次具有相同的结构,该结构包括一个卷积层和一个ReLU层,每个卷积层均包含64个3×3×64大小的卷积核;第一层包含64个3×3×C大小的卷积核,与输入样本作卷积运算后产生64个特征图,其中C等于输入样本的通道数;最后一层包含C个3×3×64大小的卷积核,该层卷积运算的输出结果的大小和通道数目都与输入样本相同。
3.根据权利要求1所述的基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法,其特征在于,所述步骤(4)中特征提取模块f1和f2具有相同的网络结构,该网络结构为在残差网络ResNet-50的最后一个残差单元之后添加一个额外的卷积层,记添加在f1中的额外卷积层为Conv_E01,添加在在f2中的额外卷积层为Conv_E02,Conv_E01和Conv_E02具有相同的结构,其卷积核数目等于候选库中行人身份类别数,卷积核大小等于1×1×2048;在所述额外的卷积层Conv_E01和Conv_E02之后分别接一个Softmax层;f1和f2中的两个ResNet-50的各个层次共享权值;卷积层Conv_E01和Conv_E02及其后的Softmax层不共享权值,且仅用于模型参数的训练。
4.根据权利要求1所述的基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法,其特征在于,所述步骤(5)中所述特征提取模块f1输出的特征图为f1的残差网络ResNet-50中最后一个残差块输出的特征图,特征提取模块f2输出的特征图为f2的残差网络ResNet-50中最后一个残差块输出的特征图。
5.根据权利要求1或2所述的基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法,其特征在于,所述图像缩放和增强模块以一个深度卷积神经网络对缩放后的图像作增强处理,所述深度卷积神经网络各个层次的参数以学习的方式确定,包括如下步骤:
步骤a:准备训练样本,设xk为一个参与训练的图像,其大小为Hk×Wk,取缩放系数r为符合r∈[1.5,4]的实数,将xk缩小为Hk/r×Wk/r大小后,以双三次插值算法放大为具有Hk×Wk大小的图像,且记作
Figure FDA0002300854740000025
Figure FDA0002300854740000026
构成一对训练样本,记训练样本集为
Figure FDA0002300854740000027
其中N为集合中样本的数目;
步骤b:批量加载训练样本,对每一对训练样本按下式计算深度卷积神经网络的损失函数EV
Figure FDA0002300854740000031
其中
Figure FDA0002300854740000032
代表以
Figure FDA0002300854740000033
为输入时,图像缩放增强模块中的深度卷积神经网络产生的输出图像;
步骤c:以最小化所有训练样本的损失函数累加和为目标,以Adam优化算法更新深度卷积神经网络各层的权值。
6.根据权利要求1所述的基于深度学习的图像增强和伪孪生卷积神经网络结合的行人再识别方法,其特征在于,所述特征提取模块f1、f2和相似度计算模块中的各个层次的参数以两阶段学习的方式确定,设训练样本集中包含了来自NT个行人的NS个样本,表示为
Figure FDA0002300854740000034
其中xi代表第i个样本,
Figure FDA0002300854740000035
为对应xi的行人身份标签,第一阶段训练仅针对f1和f2模块中各个层次的参数,包括如下步骤:
步骤A:从训练样本集中随机选取两个样本(xm,ym)和(xn,yn),若xm的尺寸大于xn,则以(xm,ym)作为f1的输入,xn以双三次插值算法缩放到与xm一致的尺寸后由图像缩放和增强模块中的深度卷积神经网络作增强处理,形成增强后图像x'n,以(x'n,yn)作为f2的输入;若xn的尺寸大于xm,以(xn,yn)作为f1的输入,xm以双三次插值算法缩放到与xn一致的尺寸后由图像缩放和增强模块中的深度卷积神经网络作增强处理,形成增强后图像x'm,以(x'm,ym)作为f2的输入;
步骤B:加载步骤A处理后的训练样本到所述特征提取模块f1和f2,对应每一个加载的训练样本,f1或f2中最后的Softmax层将输出NT维的向量
Figure FDA0002300854740000036
向量的每个元素为一个正实数,且满足:
Figure FDA0002300854740000037
若输入样本的真实身份标签为Lk,则期望与Lk相对应的向量元素
Figure FDA0002300854740000038
具有大于其它元素的输出值,所以对每一个训练样本按下式计算特征提取模块的损失函数ED
Figure FDA0002300854740000039
其中pi的取值取决于训练样本的身份标签,若训练样本的身份标签为Li,则pi=1,否则pi=0;
步骤C:以最小化所有训练样本的ED损失函数累加和为目标,以Adam优化算法更新特征提取模块中各层的权值;
当第一阶段训练完成后,再进行第二阶段训练,第二阶段训练固定f1和f2中各个层次的参数为第一阶段训练所得的参数,仅调整相似度计算模块S中各个层次的参数,包括如下步骤:
步骤D:从训练样本集中随机选取两个样本,形成正样本对或负样本对,(xm,ym;xn,yn),若ym=yn,则为正样本对,否则为负样本对;
步骤E:加载正样本对或负样本对到所述的特征提取模块f1、f2和相似度计算模块S,对应每一个加载的正样本对或负样本对,相似度计算模块中的Softmax层将输出一个二维向量
Figure FDA0002300854740000041
向量的每个元素为一个正实数,且满足:
Figure FDA0002300854740000042
若加载的为正样本对,则期望
Figure FDA0002300854740000043
否则期望
Figure FDA0002300854740000044
按下式计算相似度计算模块的损失函数EM
Figure FDA0002300854740000045
其中,对于正样本对,q1=1,q2=0,对于负样本对,q1=0,q2=1;
步骤F:以最小化所有训练样本的EM损失函数累加和为目标,以Adam优化算法更新相似度计算模块中各层的权值。
CN201911221033.8A 2019-12-03 2019-12-03 图像增强结合伪孪生卷积神经网络的行人再识别方法 Active CN111079585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911221033.8A CN111079585B (zh) 2019-12-03 2019-12-03 图像增强结合伪孪生卷积神经网络的行人再识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911221033.8A CN111079585B (zh) 2019-12-03 2019-12-03 图像增强结合伪孪生卷积神经网络的行人再识别方法

Publications (2)

Publication Number Publication Date
CN111079585A true CN111079585A (zh) 2020-04-28
CN111079585B CN111079585B (zh) 2023-08-15

Family

ID=70312590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911221033.8A Active CN111079585B (zh) 2019-12-03 2019-12-03 图像增强结合伪孪生卷积神经网络的行人再识别方法

Country Status (1)

Country Link
CN (1) CN111079585B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448664A (zh) * 2021-12-22 2022-05-06 深信服科技股份有限公司 钓鱼网页的识别方法、装置、计算机设备及存储介质
CN114445811A (zh) * 2022-01-30 2022-05-06 北京百度网讯科技有限公司 一种图像处理方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897673A (zh) * 2017-01-20 2017-06-27 南京邮电大学 一种基于retinex算法和卷积神经网络的行人再识别方法
AU2018100321A4 (en) * 2018-03-15 2018-04-26 Chen, Jinghan Mr Person ReID method based on metric learning with hard mining
WO2018196396A1 (zh) * 2017-04-24 2018-11-01 清华大学 基于一致性约束特征学习的行人再识别方法
CN108921107A (zh) * 2018-07-06 2018-11-30 北京市新技术应用研究所 基于排序损失和Siamese网络的行人再识别方法
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897673A (zh) * 2017-01-20 2017-06-27 南京邮电大学 一种基于retinex算法和卷积神经网络的行人再识别方法
WO2018196396A1 (zh) * 2017-04-24 2018-11-01 清华大学 基于一致性约束特征学习的行人再识别方法
AU2018100321A4 (en) * 2018-03-15 2018-04-26 Chen, Jinghan Mr Person ReID method based on metric learning with hard mining
CN108921107A (zh) * 2018-07-06 2018-11-30 北京市新技术应用研究所 基于排序损失和Siamese网络的行人再识别方法
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DI WU等: "Deep learning-based methods for person re-identification: A comprehensive review" *
RUI LI等: "Deep attention network for person re-identification with multi-loss" *
李幼蛟等: "行人再识别技术综述" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448664A (zh) * 2021-12-22 2022-05-06 深信服科技股份有限公司 钓鱼网页的识别方法、装置、计算机设备及存储介质
CN114448664B (zh) * 2021-12-22 2024-01-02 深信服科技股份有限公司 钓鱼网页的识别方法、装置、计算机设备及存储介质
CN114445811A (zh) * 2022-01-30 2022-05-06 北京百度网讯科技有限公司 一种图像处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN111079585B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
US9633282B2 (en) Cross-trained convolutional neural networks using multimodal images
CN111401384B (zh) 一种变电设备缺陷图像匹配方法
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN111539370A (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111325111A (zh) 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN110046550B (zh) 基于多层特征学习的行人属性识别系统及方法
CN111310633B (zh) 基于视频的并行时空注意力行人重识别方法
CN109766873B (zh) 一种混合可变形卷积的行人再识别方法
CN110222718B (zh) 图像处理的方法及装置
CN107767416B (zh) 一种低分辨率图像中行人朝向的识别方法
CN111898621A (zh) 一种轮廓形状识别方法
CN110533119B (zh) 标识识别方法及其模型的训练方法、装置及电子系统
CN110598692A (zh) 一种基于深度学习的椭圆识别方法
CN111046789A (zh) 一种行人重识别方法
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN113888461A (zh) 基于深度学习的小五金件缺陷检测方法、系统及设备
CN115578378A (zh) 红外与可见光图像融合的光伏缺陷检测方法
CN109145704B (zh) 一种基于人脸属性的人脸画像识别方法
CN112749675A (zh) 一种基于卷积神经网络的马铃薯病害识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant