CN110688966B - 语义指导的行人重识别方法 - Google Patents
语义指导的行人重识别方法 Download PDFInfo
- Publication number
- CN110688966B CN110688966B CN201910942207.3A CN201910942207A CN110688966B CN 110688966 B CN110688966 B CN 110688966B CN 201910942207 A CN201910942207 A CN 201910942207A CN 110688966 B CN110688966 B CN 110688966B
- Authority
- CN
- China
- Prior art keywords
- net
- network
- pedestrian
- output
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims description 46
- 238000010606 normalization Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 16
- 210000002569 neuron Anatomy 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 5
- 229910052717 sulfur Inorganic materials 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 4
- 101100356682 Caenorhabditis elegans rho-1 gene Proteins 0.000 claims description 3
- 229910052760 oxygen Inorganic materials 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 abstract description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种语义指导的行人重识别方法,该方法采用条件生成式对抗网络,并结合行人部件语义分割技术,实现行人重识别功能,方法中的深度学习架构包括:编码子网络、分类子网络、解码子网络及判别子网络,利用编码子网络提取语义与类别特征,并构建了分类子网络,实现类别特征的准确判别,进一步地,在解码子网络中,结合编码特征生成语义和类别一致性的行人图像,引入判别子网络,给出了类别与语义损失函数,以确保模型训练过程中的质量和性能,在行人姿势和视角多变的情况下,该方法能够准确进行识别,提高行人重识别的准确性。
Description
技术领域
本发明涉及行人重识别技术领域,具体涉及一种语义指导的行人重识别方法,该方法采用条件生成式对抗网络,并结合行人部件语义分割技术,实现行人重识别功能,在行人姿势和视角多变的情况下,该方法能够准确进行识别,提高行人重识别的准确性。
背景技术
在智能安防领域中,视频监控系统的大量普及给社会公共安全工作提供了保障,行人重识别技术致力于解决非重叠摄像机下行人是否匹配的问题,由于非重叠摄像机下拍摄的同一行人视域不同,进而导致行人图像在外观上出现姿势以及视角多变等情形,这给研究行人重识别技术带来了困难,传统方法通过手工提取行人特征,但是手工特征难以减轻视角差异大的影响,此外,传统的行人重识别技术仅仅考虑行人的颜色、纹理等底层特征,没有考虑更加抽象的人体语义特征,无法保证提取的行人特征具有高辨别性,现有的行人重识别方法很少利用人体部件语义分割技术来提升重识别的性能,如何建立有效的深度学习模型实现行人重识别是一个亟待解决的实际问题。
发明内容
本发明的目的是针对现有技术的不足,并针对行人重识别中出现的行人姿态多变、角度不一致等实际问题,利用深度学习策略,构建生成式对抗网络,提供一种高效的行人重识别方法;
实现本发明目的的具体技术方案是:
步骤1:行人数据集构建
下载行人数据集Market1501,Market1501包含单行人图像,从Market1501中选取M幅图像,构建数据集R={hη|0≤η≤M-1},20000≤M≤40000,将R中每幅行人图像赋予一个类别标签sl,一共创建K个类别,1≤l≤K,500≤K≤2000;
按照如下方法构建行人重识别数据集F:从网站https://github.com/minar09/LIP-JPPNet-TensorFlow下载训练的网络模型ε,将R中每幅图像输入到ε中,输出与hk对应的人体语义分割图像πk,将hk和πk的分辨率缩放为H×W,并将hk和πk中每个像素三个通道RGB的颜色采用归一化方法表示,归一化后的像素值为ρ,-1<ρ<1,归一化后的结果分别记为Ik和Jk,由Ik和Jk组合构建行人重识别数据集F;
步骤2:构建神经网络
神经网络为六个子网络:类别编码子网络EP-Net,语义编码子网络ES-Net、分类子网络C-Net、解码子网络DE-Net、类别判别子网络DI-Net和语义判别子网络DP-Net;
对于EP-Net,输入为Ik,输入张量形状为H×W×3,输出为表示行人的类别特征Ak,尺度为2048×1;
对于ES-Net,输入为Jj,j≠k,输入张量形状为H×W×3,输出为表示人体语义的特征Bj,尺度为a×1,a为128、256或者512;
对于C-Net,Ak作为输入,输出Ik的类别D,0<D<K-1;
对于DE-Net,Ak、Bj和C作为输入,C表示高斯噪声,其张量形状为b×1,b为64,128或者256,输出为合成的行人图像S和人体部件语义分割图像Q,尺度均为H×W×3;
对于DI-Net,输入为S或者Ij,输出为1个神经元;
对于DP-Net,输入为Q或者Jj,输出为1个神经元;
对于EP-Net,采用ResNet50结构,并在基本的ResNet50结构的基础上,将最后的全连接层去除;
对于ES-Net,网络结构设置为以下6层:第一层为卷积操作,卷积核设置为64,核形状为4×4,输出结果为特征图,即为Z1,后5层均为卷积层,其中每个卷积层由卷积运算、批归一化、LeakyReLU激活操作组成,卷积核分别设置为128,256,512,512,a,前4层卷积运算核形状均为4×4,最后1层卷积运算核形状设置为8×4,输出结果为不同尺度的特征图,分别表示为Z2、Z3、Z4、Z5、Z6;
对于C-Net,网络结构设置为以下2层:批归一化层和全连接层,全连接层的神经元个数为P,0<P<K-1;
对于DE-Net,网络结构设置为以下6层:6个上采样层,第一个上采样层由上采样、批归一化以及LeakyReLU激活操作组成,其采样核大小为8×4,采样输出通道为512,中间4个采样层由上采样、批归一化以及LeakyReLU激活操作组成,采样输出通道分别为512、256、128、64,其采样核大小均为4×4,每层的输入由上个采样层输出的结果分别和Z5、Z4、Z3、Z2串接而成,最后一个采样层包含2个输出,1个输出包含上采样、批归一化、ReLU激活、卷积运算以及Tanh激活组成,上采样的核为3×3,步长为2,输出通道为64,卷积运算的核为3×3,步长为1,输出通道为3,另一个输出由上采样及Tanh激活操作组成,其采样核大小为4×4,步长为2,采样输出通道为3,并接收Z1和第五个上采样层的输出作为输入;
对于DI-Net,采用与EP-Net类似的网络,将ResNet50结构的最后一层全连接去除,加入1个全连接层,全连接层的神经元个数为1;
对于DP-Net,网络结构设置为以下7层:5层卷积层、1个全局平均池化层和1个全连接层,卷积层由卷积运算、批归一化和LeakyReLU激活操作组成,卷积核分别设置为64,128,256,512,1024,全连接层的神经元个数为1;
步骤3:神经网络的训练
将数据集F中样本图像按照4:1:4的比例划分为训练数据集α,样例数据集β和测试数据集γ,利用α训练网络模型,利用β数据集用于取出要识别的行人对象样本,β和γ用于评估及测试行人重识别的性能;
对EP-Net和C-Net同时进行训练,训练轮次为50次,固定EP-Net和C-Net,对ES-Net、DE-Net、DI-Net和DP-Net同时进行训练,训练轮次为100次,对EP-Net、C-Net、ES-Net、DE-Net、DI-Net和DP-Net同时训练,训练轮次为100次;
对C-Net的损失定义为:
其中pd表示Ik属于d类别的概率,qd表示Ik属于d类别的标签,其中xi表示类别为i的行人样例图像在训练时,经过EP-Net得到的特征,ci表示同一个批次中,类别为i的所有行人样例图像训练时,经过EP-Net得到的特征的平均值,m表示批次的大小;
对DI-Net的损失定义为:
其中U和V分别代表真实图像和生成图像的数据分布,T表示类别判别子网络DI-Net的输出映射,E代表数学期望;
对DP-Net的损失定义为:
其中u和v分别代表真实语义图像和生成语义图像的数据分布G表示语义判别子网络DP-Net的输出映射,E代表数学期望;
对DE-Net的损失定义为:
其中θ表示Ik的像素点个数,Ye为Ik中每个像素点值,ye为S中每个像素点值,Oe为Jj中每个像素点值,oe为Q中每个像素点值;
所以,训练模型的总损失定义如下:
L=λ1Lg+λ2Ld+λ3Lz+λ4Lw (5)
其中λ1、λ2、λ3、λ4为超参数常量;
步骤4:行人重识别和行人图像生成操作
从样例数据集β中选取一个样例Ik,将其输入到EP-Net与C-Net网络中,利用训练好的模型参数构建网络,再利用这个网络进行预测,得到预测的特征σ,再按照这样相同的方法,预测γ中每个样本的特征,将这些特征中的每个特征分别与σ利用欧式距离进行比对,当欧式距离取得最极小时,γ中对应的样本即为重识别的结果,从样例数据集γ中选取一对样例Ik和Jj,分别输入到EP-Net和ES-Net,DE-Net的输出记为行人图像生成的结果;
本发明具有高效、实用的特点,本发明包含编码子网络、分类子网络、解码子网络及判别子网络,利用编码子网络提取语义与类别特征,并构建分类子网络,实现类别特征的准确判别,进一步地,在解码子网络中,结合编码特征生成语义和类别一致性的行人图像,引入判别子网络,给出了类别与语义损失函数,以确保模型训练过程中的质量和性能,在行人姿势和视角多变的情况下,该方法能够准确进行识别,提高行人重识别的准确性。
本发明应用于智能安防、视频监控和行人检索等领域,可以作为人脸识别技术的支持,在公共安防的侦察工作中以及图像检索等场景中有很高的应用价值。
附图说明
图1为本发明不同摄像头下行人检索的结果图;
图2为本发明利用模型进行行人图像生成的结果图。
具体实施方式
实施例
下面结合附图对本发明进一步说明;
本实施例在PC机上Windows10 64位操作系统下进行实施,其硬件配置为CPUCoreTM i5-7500 3.4GHz,显卡NVIDIAGeForce GTX 1060 6G,深度学习框架Pytorch,编程语言采用Python 3.6,主要利用的Python库为OpenCV 3.3.1,NumPy 1.14.3;
实现本发明的具体实施方案是一种语义指导的行人重识别方法,其特征在于,该方法输入包含行人图像和行人部件语义分割图像,输入图像的分辨率均为H×W,H取256,W取128,具体包括以下步骤:
步骤1:行人数据集构建
下载行人数据集Market1501,Market1501包含单行人图像,从Market1501中选取M幅图像,构建数据集R={hn|0≤η≤M-1},M取29419,将R中每幅行人图像赋予一个类别标签sl,一共创建K个类别,1≤l≤K,K取1501;
按照如下方法构建行人重识别数据集F:从网站https://github.com/minar09/LIP-JPPNet-TensorFlow下载训练的网络模型ε,将R中每幅图像输入到ε中,输出与hk对应的人体语义分割图像πk,将hk和πk的分辨率缩放为H×W,并将hk和πk中每个像素三个通道RGB的颜色采用归一化方法表示,归一化后的像素值为ρ,-1<ρ<1,归一化后的结果分别记为Ik和Jk,由Ik和Jk组合构建行人重识别数据集F;
步骤2:构建神经网络
神经网络为六个子网络:类别编码子网络EP-Net,语义编码子网络ES-Net、分类子网络C-Net、解码子网络DE-Net、类别判别子网络DI-Net和语义判别子网络DP-Net;
对于EP-Net,输入为Ik,输入张量形状为H×W×3,输出为表示行人的类别特征Ak,尺度为2048×1;
对于ES-Net,输入为Jj,j≠k,输入张量形状为H×W×3,输出为表示人体语义的特征Bj,尺度为a×1,a取256;
对于C-Net,Ak作为输入,输出Ik的类别D,0<D<K-1;
对于DE-Net,Ak、Bj和C作为输入,C表示高斯噪声,其张量形状为b×1,b取128,输出为合成的行人图像S和人体部件语义分割图像Q,尺度均为H×W×3;
对于DI-Net,输入为S或者Ij,输出为1个神经元;
对于DP-Net,输入为Q或者Jj,输出为1个神经元;
对于EP-Net,采用ResNet50结构,并在基本的ResNet50结构的基础上,将最后的全连接层去除;
对于ES-Net,网络结构设置为以下6层:第一层为卷积操作,卷积核设置为64,核形状为4×4,输出结果为特征图,即为Z1,后5层均为卷积层,其中每个卷积层由卷积运算、批归一化、LeakyReLU激活操作组成,卷积核分别设置为128,256,512,512,a,前4层卷积运算核形状均为4×4,最后1层卷积运算核形状设置为8×4,输出结果为不同尺度的特征图,分别表示为Z2、Z3、Z4、Z5、Z6;
对于C-Net,网络结构设置为以下2层:批归一化层和全连接层,全连接层的神经元个数为P,P取751;
对于DE-Net,网络结构设置为以下6层:6个上采样层,第一个上采样层由上采样、批归一化以及LeakyReLU激活操作组成,其采样核大小为8×4,采样输出通道为512,中间4个采样层由上采样、批归一化以及LeakyReLU激活操作组成,采样输出通道分别为512、256、128、64,其采样核大小均为4×4,每层的输入由上个采样层输出的结果分别和Z5、Z4、Z3、Z2串接而成,最后一个采样层包含2个输出,1个输出包含上采样、批归一化、ReLU激活、卷积运算以及Tanh激活组成,上采样的核为3×3,步长为2,输出通道为64,卷积运算的核为3×3,步长为1,输出通道为3,另一个输出由上采样及Tanh激活操作组成,其采样核大小为4×4,步长为2,采样输出通道为3,并接收Z1和第五个上采样层的输出作为输入;
对于DI-Net,采用与EP-Net类似的网络,将ResNet50结构的最后一层全连接去除,加入1个全连接层,全连接层的神经元个数为1;
对于DP-Net,网络结构设置为以下7层:5层卷积层、1个全局平均池化层和1个全连接层,卷积层由卷积运算、批归一化和LeakyReLU激活操作组成,卷积核分别设置为64,128,256,512,1024,全连接层的神经元个数为1;
步骤3:神经网络的训练
将数据集F中样本图像按照4:1:4的比例划分为训练数据集α,样例数据集β和测试数据集γ,利用α训练网络模型,利用β数据集用于取出要识别的行人对象样本,β和γ用于评估及测试行人重识别的性能;
对EP-Net和C-Net同时进行训练,训练轮次为50次,固定EP-Net和C-Net,对ES-Net、DE-Net、DI-Net和DP-Net同时进行训练,训练轮次为100次,对EP-Net、C-Net、ES-Net、DE-Net、DI-Net和DP-Net同时训练,训练轮次为100次;
对C-Net的损失定义为:
其中pd表示Ik属于d类别的概率,qd表示Ik属于d类别的标签,其中xi表示类别为i的行人样例图像在训练时,经过EP-Net得到的特征,ci表示同一个批次中,类别为i的所有行人样例图像训练时,经过EP-Net得到的特征的平均值,m表示批次的大小;
对DI-Net的损失定义为:
其中U和V分别代表真实图像和生成图像的数据分布,T表示类别判别子网络DI-Net的输出映射,E代表数学期望;
对DP-Net的损失定义为:
其中u和v分别代表真实语义图像和生成语义图像的数据分布G表示语义判别子网络DP-Net的输出映射,E代表数学期望;
对DE-Net的损失定义为:
其中θ表示Ik的像素点个数,Ye为Ik中每个像素点值,ye为s中每个像素点值,Oe为Jj中每个像素点值,oe为Q中每个像素点值;
所以,训练模型的总损失定义如下:
L=λ1Lg+λ2Ld+λ3Lz+λ4Lw (5)
其中λ1、λ2、λ3、λ4为超参数常量;
步骤4:行人重识别和行人图像生成操作
从样例数据集β中选取一个样例Ik,将其输入到EP-Net与C-Net网络中,利用训练好的模型参数构建网络,再利用这个网络进行预测,得到预测的特征σ,再按照这样相同的方法,预测γ中每个样本的特征,将这些特征中的每个特征分别与σ利用欧式距离进行比对,当欧式距离取得最极小时,γ中对应的样本即为重识别的结果,从样例数据集γ中选取一对样例Ik和Jj,分别输入到EP-Net和ES-Net,DE-Net的输出记为行人图像生成的结果;
训练过程中的超参数设置为:Dropout率取0.5,对EP-Net和C-Net同时进行训练,优化器选择随机梯度下降(SGD)优化器,批处理样本数为16,学习率固定,且设为0.01,训练周期为50,固定EP-Net和C-Net,对ES-Net、DE-Net、DI-Net和DP-Net同时进行训练,ES-Net、DE-Net采用Adam优化器,学习率设定为0.001,DI-Net和DP-Net采用SGD优化器,学习率设定为0.01,批处理样本数为16,训练周期为100,EP-Net、C-Net、ES-Net、DE-Net、DI-Net和DP-Net同时训练,ES-Net、DE-Net采用Adam优化器,学习率设定为0.0001,EP-Net、C-Net、DI-Net和DP-Net采用SGD优化器,学习率设定为0.001,训练周期为100。
图1为不同摄像头下行人检索的结果,选取了4个不同摄像头下拍摄的行人图像,可以看出,对于摄像机拍摄角度导致行人姿态呈现多变的情况,模型能够消除这些姿态多变的影响,从而提高跨摄像机下行人检索的准确率;
图2为利用模型进行行人图像生成的结果,当模型输入一张行人图像和一个人体语义分割图像,可以看出生成的行人图像满足行人类别和语义的一致性。
Claims (1)
1.一种语义指导的行人重识别方法,其特征在于,该方法输入包含行人图像和行人语义分割图像,输入图像的分辨率均为H×W,H为128、256或者384,W为H/2,具体包括以下步骤:
步骤1:行人数据集构建
下载行人数据集Market1501,Market1501包含单行人图像,从Market1501中选取M幅图像,构建数据集R={hη|0≤η≤M-1},20000≤M≤40000,将R中每幅行人图像赋予一个类别标签sl,一共创建K个类别,1≤l≤K,500≤K≤2000;
按照如下方法构建行人重识别数据集F:获取训练的网络模型ε,将R中每幅图像输入到ε中,输出与hk对应的人体语义分割图像πk,将hk和πk的分辨率缩放为H×W,并将hk和πk中每个像素三个通道RGB的颜色采用归一化方法表示,归一化后的像素值为ρ,-1<ρ<1,归一化后的结果分别记为Ik和Jk,由Ik和Jk组合构建行人重识别数据集F;
步骤2:构建神经网络
神经网络包括六个子网络:类别编码子网络EP-Net、语义编码子网络ES-Net、分类子网络C-Net、解码子网络DE-Net、类别判别子网络DI-Net和语义判别子网络DP-Net;
对于EP-Net,输入为Ik,输入张量形状为H×W×3,输出为表示行人的类别特征Ak,尺度为2048×1;
对于ES-Net,输入为Jj,j≠k,输入张量形状为H×W×3,输出为表示人体语义的特征Bj,尺度为a×1,a为128、256或者512;
对于C-Net,Ak作为输入,输出Ik的类别D,1≤D≤K;
对于DE-Net,Ak、Bj和C作为输入,C表示高斯噪声,其张量形状为b×1,b为64、128或者256,输出为合成的行人图像S和人体部件语义分割图像Q,尺度均为H×W×3;
对于DI-Net,输入为S或者Ik,输出为1个神经元;
对于DP-Net,输入为Q或者Jj,输出为1个神经元;
对于EP-Net,采用ResNet50结构,并在基本的ResNet50结构的基础上,将最后的全连接层去除;
对于ES-Net,网络结构设置为以下6层:第一层为卷积操作,卷积核设置为64,核形状为4×4,输出结果为特征图,即为Z1;后5层均为卷积层,其中每个卷积层由卷积运算、批归一化、LeakyReLU激活操作组成,卷积核分别设置为128、256、512、512、a;前4层卷积运算核形状均为4×4,最后1层卷积运算核形状设置为8×4,输出结果为不同尺度的特征图,分别表示为Z2、Z3、Z4、Z5、Z6;
对于C-Net,网络结构设置为以下2层:批归一化层和全连接层,全连接层的神经元个数为P,≤P≤K;
对于DE-Net,网络结构设置为以下6层:6个上采样层;第一个上采样层由上采样、批归一化以及LeakyReLU激活操作组成,其采样核大小为8×4,采样输出通道为512;中间4个采样层由上采样、批归一化以及LeakyReLU激活操作组成,采样输出通道分别为512、256、128、64,其采样核大小均为4×4,每层的输入由上个采样层输出的结果分别和Z5、Z4、Z3、Z2串接而成;最后一个采样层包含2个输出,1个输出包含上采样、批归一化、ReLU激活、卷积运算以及Tanh激活组成,上采样的核为3×3,步长为2,输出通道为64,卷积运算的核为3×3,步长为1,输出通道为3;另一个输出由上采样及Tanh激活操作组成,其采样核大小为4×4,步长为2,采样输出通道为3;最后一个采样层接收Z1和第五个上采样层的输出作为输入;
对于DI-Net,采用与EP-Net类似的网络,将ResNet50结构的最后一层全连接去除,加入1个全连接层,全连接层的神经元个数为1;
对于DP-Net,网络结构设置为以下7层:5层卷积层、1个全局平均池化层和1个全连接层,卷积层由卷积运算、批归一化和LeakyReLU激活操作组成,卷积核分别设置为64、128、256、512、1024,全连接层的神经元个数为1;
步骤3:神经网络的训练
将数据集F中样本图像按照4:1:4的比例划分为训练数据集α,样例数据集β和测试数据集γ,利用数据集α训练网络模型,利用数据集β取出要识别的行人对象样本,数据集β和γ用于评估及测试行人重识别的性能;
对EP-Net和C-Net同时进行训练,训练轮次为50次;固定EP-Net和C-Net,对ES-Net、DE-Net、DI-Net和DP-Net同时进行训练,训练轮次为100次;对EP-Net、C-Net、ES-Net、DE-Net、DI-Net和DP-Net同时训练,训练轮次为100次;
对C-Net的损失定义为:
其中pd表示Ik属于d类别的概率,qd表示Ik属于d类别的标签,其中xi表示图像为i的行人样例在训练时,经过EP-Net得到的特征,ci表示同一个批次中,图像为i的所有行人样例训练时,经过EP-Net得到的特征的平均值,m表示批次的大小;
对DI-Net的损失定义为:
其中U和V分别代表真实图像和生成图像的数据分布,T表示类别判别子网络DI-Net的输出映射,E代表数学期望;
对DP-Net的损失定义为:
其中u和v分别代表真实语义图像和生成语义图像的数据分布,G表示语义判别子网络DP-Net的输出映射,E代表数学期望;
对DE-Net的损失定义为:
其中θ表示Ik的像素点个数,Ye为Ik中每个像素点值,ye为S中每个像素点值,Oe为Jj中每个像素点值,oe为Q中每个像素点值;
所以,训练模型的总损失定义如下:
L=λ1Lg+λ2Ld+λ3Lz+λ4Lw (5)
其中λ1、λ2、λ3、λ4为超参数常量;
步骤4:行人重识别和行人图像生成操作
从样例数据集β中选取一个样例Ik,将其输入到EP-Net,EP-Net输出进入C-Net网络中,利用训练好的模型参数构建网络,利用所构建网络进行预测,得到预测的特征σ;再按照相同的方法,预测γ中每个样本的特征,将这些特征中的每个特征分别与σ利用欧式距离进行比对,当欧式距离取得最极小时,γ中对应的样本即为重识别的结果,从样例数据集γ中选取一对样例Ik和Jj,分别输入到EP-Net和ES-Net;DE-Net的输出记为行人图像生成的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910942207.3A CN110688966B (zh) | 2019-09-30 | 2019-09-30 | 语义指导的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910942207.3A CN110688966B (zh) | 2019-09-30 | 2019-09-30 | 语义指导的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110688966A CN110688966A (zh) | 2020-01-14 |
CN110688966B true CN110688966B (zh) | 2024-01-09 |
Family
ID=69111335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910942207.3A Active CN110688966B (zh) | 2019-09-30 | 2019-09-30 | 语义指导的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688966B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095335B (zh) * | 2021-04-16 | 2023-06-30 | 温州大学 | 一种基于类别一致性深度学习的图像识别方法 |
CN113283312B (zh) * | 2021-05-08 | 2023-10-17 | 江苏商贸职业学院 | 一种改进的LeNet-5嵌入式人脸识别方法及系统 |
CN115205903B (zh) * | 2022-07-27 | 2023-05-23 | 华中农业大学 | 一种基于身份迁移生成对抗网络的行人重识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
CN109934117A (zh) * | 2019-02-18 | 2019-06-25 | 北京联合大学 | 基于生成对抗网络的行人重识别检测方法 |
CN109961051A (zh) * | 2019-03-28 | 2019-07-02 | 湖北工业大学 | 一种基于聚类和分块特征提取的行人重识别方法 |
CN110046599A (zh) * | 2019-04-23 | 2019-07-23 | 东北大学 | 基于深度融合神经网络行人重识别技术的智能监控方法 |
CN110084108A (zh) * | 2019-03-19 | 2019-08-02 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于gan神经网络的行人重识别系统及方法 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
GB201910720D0 (en) * | 2019-07-26 | 2019-09-11 | Tomtom Global Content Bv | Generative adversarial Networks for image segmentation |
-
2019
- 2019-09-30 CN CN201910942207.3A patent/CN110688966B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
CN109934117A (zh) * | 2019-02-18 | 2019-06-25 | 北京联合大学 | 基于生成对抗网络的行人重识别检测方法 |
CN110084108A (zh) * | 2019-03-19 | 2019-08-02 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于gan神经网络的行人重识别系统及方法 |
CN109961051A (zh) * | 2019-03-28 | 2019-07-02 | 湖北工业大学 | 一种基于聚类和分块特征提取的行人重识别方法 |
CN110046599A (zh) * | 2019-04-23 | 2019-07-23 | 东北大学 | 基于深度融合神经网络行人重识别技术的智能监控方法 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
GB201910720D0 (en) * | 2019-07-26 | 2019-09-11 | Tomtom Global Content Bv | Generative adversarial Networks for image segmentation |
Non-Patent Citations (1)
Title |
---|
何晴 ; 郭捷 ; .非重叠域行人再识别算法研究.信息技术.2018,(第07期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110688966A (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN109615582B (zh) | 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法 | |
CN109543502B (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
CN107506712B (zh) | 一种基于3d深度卷积网络的人类行为识别的方法 | |
CN106529447B (zh) | 一种小样本人脸识别方法 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
US20190087726A1 (en) | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications | |
CN108717524B (zh) | 一种基于双摄手机和人工智能系统的手势识别系统 | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
CN110688966B (zh) | 语义指导的行人重识别方法 | |
CN113011357B (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN113221641B (zh) | 基于生成对抗网络和注意力机制的视频行人重识别方法 | |
CN109902662B (zh) | 一种行人重识别方法、系统、装置和存储介质 | |
Ma et al. | DBDnet: A deep boosting strategy for image denoising | |
CN111461129B (zh) | 一种基于上下文先验的场景分割方法和系统 | |
CN110852369B (zh) | 联合3d/2d卷积网络和自适应光谱解混的高光谱图像分类方法 | |
CN113807356B (zh) | 一种端到端的低能见度图像语义分割方法 | |
Kwasniewska et al. | Super-resolved thermal imagery for high-accuracy facial areas detection and analysis | |
Tang et al. | Improving cloud type classification of ground-based images using region covariance descriptors | |
CN115358952B (zh) | 一种基于元学习的图像增强方法、系统、设备和存储介质 | |
CN111209886A (zh) | 一种基于深度神经网络的快速行人再识别方法 | |
CN110866552A (zh) | 基于全卷积空间传播网络的高光谱图像分类方法 | |
CN111754459B (zh) | 基于统计深度特征的染色伪造图像检测方法及电子装置 | |
Ray et al. | Deep learning based underwater image enhancement using deep convolution neural network | |
CN114419529A (zh) | 一种基于分布空间对齐的跨模态行人再识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |