CN110968734B - 一种基于深度度量学习的行人重识别方法及装置 - Google Patents

一种基于深度度量学习的行人重识别方法及装置 Download PDF

Info

Publication number
CN110968734B
CN110968734B CN201911151659.6A CN201911151659A CN110968734B CN 110968734 B CN110968734 B CN 110968734B CN 201911151659 A CN201911151659 A CN 201911151659A CN 110968734 B CN110968734 B CN 110968734B
Authority
CN
China
Prior art keywords
pedestrian
picture
network
pictures
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911151659.6A
Other languages
English (en)
Other versions
CN110968734A (zh
Inventor
刘垚
刘力
段燕红
孙军
胡锰涛
陈美君
王仕嘉
焦鹏龙
赵景元
廖启丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201911151659.6A priority Critical patent/CN110968734B/zh
Publication of CN110968734A publication Critical patent/CN110968734A/zh
Application granted granted Critical
Publication of CN110968734B publication Critical patent/CN110968734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度度量学习的行人重识别方法,在深度度量学习中,学习合适的特征空间映射,将行人重识别问题转化为检索问题,进行行人重识别。本发明设计了一种生成对抗网络,用于生成特定姿态的行人图片,解决现有行人重识别数据集中单个行人图片数量不足的问题;并设计了一种基于四元组的损失函数,用于训练检索网络,四元组损失能拉近正样本对在特征空间内的距离,降低了同类行人在特征空间内的分布方差,提高了行人重识别准确率。

Description

一种基于深度度量学习的行人重识别方法及装置
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于深度度量学习的行人重识别方法及装置。
背景技术
随着智能公共安全的发展,越来越多的摄像头被部署到城市的各个角落。如此多摄像头产生了海量的非结构化视频数据。通过将原始的非结构化视频数据转化成为计算机与人类便于处理的结构化数据,视频结构化描述技术实现了视频向信息、情报的转化。
视频结构化描述技术使得监控视频中所包含的海量数据可以被检索;但是,结构化描述后的视频仍然信息量巨大。作为监控视频中最重要的对象——人,难以被精确地结构化描述。行人视频所携带的信息量巨大,如何自动地标识行人身份,判定其出现轨迹成为亟待解决的问题,对智能安防、刑事侦查等领域有着重大的现实意义。
一个端到端的行人重识别系统包括行人检测、特征提取、行人重识别几个部分。其中,行人重识别可以认为是一个图像检索任务。行人重识别一次接收一张行人图片作为查询图片,从图片库中检索出与查询图片包含同一行人的图片。检索出的图片是否与查询图片包含同一行人就自然地作为衡量行人重识别系统性能的标准。
行人重识别问题作为一个具有重要应用价值的问题,近些年来吸引了广泛的研究。现有方法可分类为基于手工特征的方法和基于深度学习的方法。其中,基于深度学习的行人重识别方法使用了深度神经网络优秀的特征提取能力,识别准确度远超过基于手工特征的方法,已成为行人重识别研究的主流方法。基于深度学习的方法中,行人重识别问题可以采用度量学习。此外,行人重识别问题中存在行人姿态不一、光照条件各异、角度多样等挑战,生成对抗网络可用于行人重识别数据集的增强。
生成对抗网络采用了博弈论的思想,博弈的双方包括一个生成网络和一个判别网络。生成网络的输入为随机噪声,学习出原始数据的分布,生成尽可能真实的数据。判别网络以生成网络的输出和真实数据为输入,对生成网络的输出进行二分类判定,即判定生成网络的输出是否为真实数据。博弈的双方交替进行优化,提高自身的生成与判定能力,最终达到博弈双方的纳什均衡。对于行人重识别问题来说,在行人重识别数据集增强过程中,一些与姿态无关的特征,如背景、光照、皮肤等特征会较大程度影响生成目标图片的清晰度,一般的生成对抗网络不能产生带标签的行人图片,难以生成清晰的行人图片。
度量学习是深度学习的重要研究方向之一,其旨在学习出数据间相似性度量。通常使用一个卷积神经网络,采用卷积神经网络的输出特征构成特征空间,在特征空间内可使用欧氏距离或余弦距离作为距离度量函数。训练过程中通过损失函数最小化,学习出原始数据在特征空间内、以距离度量函数为基础的相似度。在特征空间中,相似的数据的距离度量差较小,不相似的数据距离度量差较大。在行人重识别问题中,相同行人图片在特征空间中较为接近。度量学习中常用的损失函数为三元组损失。三元组损失中,网络的输入是一个三元组,其中一张图片为固定图片,该固定图片与一张包含同一行人图片,构成一个正样本对;该固定图片与另一张包含不同行人图片,构成一个负样本对。然而,三元组损失只设定了间距参数,会造成特征空间中类内方差较大,同一行人的图片在特征空间中的分布不够紧密,降低行人重识别检索准确度。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是行人重识别数据集中单个行人图片数量不足,行人重识别检索准确度低。
为实现上述目的,本发明提供了一种基于深度度量学习的行人重识别方法,包括以下步骤:
利用基于U-Net的长跳跃连接的生成对抗网络,从而补充检索网络的训练集;
根据检索网络,利用基于四元组的损失函数,训练所述检索网络,实现行人重识别。
进一步地,利用基于U-Net的长跳跃连接的生成对抗网络,从而补充检索网络的训练集;具体包括以下步骤:
步骤1,对已有的训练集行人图片进行姿态估计,生成行人骨架图;
步骤2,将已有的训练集行人图片与其对应的行人骨架图配对,作为生成对抗网络的训练集,使用生成对抗网络生成特定姿态的行人图片;
步骤3,将所述特定姿态的行人图片和已有的训练集行人图片共同作为检索网络训练集;
进一步地,根据检索网络,利用基于四元组的损失函数,训练所述检索网络,实现行人重识别,具体包括以下步骤:
步骤4,在所述检索网络训练集,以检索网络的输出向量作为特征向量,计算所有行人图片两两之间的距离;
步骤5,在所述检索网络训练集,任意选取一张行人图片作为固定图片,随机选取两张与所述固定图片包含相同行人的图片作为正样本,再随机选取一张不包含所述行人的图片作为负样本,上述四张图片共同构成一个四元组;
步骤6,重复上一步骤,直到形成一个训练批大小的四元组集合;
步骤7,根据计算所有行人图片两两之间的距离,自定义一个距离约束,对于超过距离约束参数的四元组,使用基于四元组的损失函数,以损失函数最小化为目标训练检索网络;
步骤8,重复步骤4-7,直到所有行人图片均已作为一次固定图片;
步骤9,重复步骤4-8,直到达到指定的训练代数;
步骤10,根据用户输入的每张查询图片,以检索网络的输出向量作为特征向量,计算该图片与已有的测试集行人图片的距离,按距离从小到大排序,返回用户指定数量的前若干张图片。
进一步地,所述的生成对抗网络中生成网络是一个基于U-Net的编码器-解码器结构,所述基于U-Net的编码器-解码器结构在编码器第8层与解码器第1层、编码器第7层与解码器第2层、编码器第2层与解码器第7层之间采用了长跳跃连接方式。
进一步地,所述距离约束是自定义的图片间隔距离,距离约束即为μ1、μ2,μ1为自定义的正样本对与负样本之间允许的最大间隔,μ2为自定义的正样本对之间允许的最大间隔,通过控制μ2,能够显式控制同类图片在特征空间中的分布。
进一步地,所述四元组的损失函数公式Lq
其中Lq为检索网络的损失,N为一个训练批内四元组的数量;f(xi)为检索网络的输出,其中xi为第i个四元组的输入图片。/>为固定图片a的特征向量与正样本图片p1的特征向量的欧氏距离,/>为固定图片a的特征向量与正样本图片p2的特征向量的欧氏距离,/>为固定图片a的特征向量与负样本图片n的特征向量的欧氏距离,/> 为正样本图片p1的特征向量与正样本图片p2的特征向量的欧氏距离;μ1为自定义的正样本对与负样本之间允许的最大间隔,μ2为自定义的正样本对之间允许的最大间隔。
本发明又一较佳实施例提供了一种基于深度度量学习的行人重识别装置,包括以下步骤:
生成模块,用于利用基于U-Net的长跳跃连接的生成对抗网络,从而补充检索网络的训练集;
行人重识别模块,用于根据检索网络,利用基于四元组的损失函数,训练所述检索网络,实现行人重识别。
进一步地,生成模块具体包括以下单元:
估计单元,用于对已有的训练集行人图片进行姿态估计,生成行人骨架图;
配对单元,用于将已有的训练集行人图片与其对应的行人骨架图配对,作为生成对抗网络的训练集,使用生成对抗网络生成特定姿态的行人图片;
训练集单元,用于将所述特定姿态的行人图片和已有的训练集行人图片共同作为检索网络训练集;
进一步地,行人重识别模块,具体包括以下单元:
距离计算单元,用于在所述检索网络训练集,以检索网络的输出向量作为特征向量,计算所有行人图片两两之间的距离;
四元组单元,用于在所述检索网络训练集,任意选取一张行人图片作为固定图片,随机选取两张与所述固定图片包含相同行人的图片作为正样本,再随机选取一张不包含所述行人的图片作为负样本,上述四张图片共同构成一个四元组;
第一重复单元,用于重复上一步骤,直到形成一个训练批大小的四元组集合;
训练检索网络单元,用于根据计算所有行人图片两两之间的距离,自定义一个距离约束,对于超过距离约束参数的四元组,使用基于四元组的损失函数,以损失函数最小化为目标训练检索网络;
第二重复单元,用于重复步骤4-7,直到所有行人图片均已作为一次固定图片;
第三重复单元,用于重复步骤4-8,直到达到指定的训练代数;
排列单元,用于根据用户输入的每张查询图片,以检索网络的输出向量作为特征向量,计算该图片与已有的测试集行人图片的距离,按距离从小到大排序,返回用户指定数量的前若干张图片。
进一步地,四元组单元中的所述基于四元组的损失函数公式Lq为:
其中Lq为检索网络的损失,N为一个训练批内四元组的数量;f(xi)为检索网络的输出,其中xi为第i个四元组的输入图片;/>为固定图片a的特征向量与正样本图片p1的特征向量的欧氏距离,/>为固定图片a的特征向量与正样本图片p2的特征向量的欧氏距离,/> 为固定图片a的特征向量与负样本图片n的特征向量的欧氏距离,/>为正样本图片p1的特征向量与正样本图片p2的特征向量的欧氏距离;μ1为自定义的正样本对与负样本之间允许的最大间隔,μ2为自定义的正样本对之间允许的最大间隔。
本发明的另一较佳实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现上述中任一项所述的方法。
本发明的另一较佳实施例提供了一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现上述中任一项所述的一种基于深度度量学习的行人重识别方法。
技术效果
本发明的一种基于深度度量学习的行人重识别方法在深度度量学习中,设计一种生成对抗网络,用于生成特定姿态的行人图片;并设计一种基于四元组的损失函数,用于训练检索网络,实现行人重识别。上述生成对抗网络中生成网络是一个基于U-Net的编码器-解码器结构,该结构在编码器第8层与解码器第1层、编码器第7层与解码器第2层、编码器第2层与解码器第7层之间采用了长跳跃连接方式,该设计方式能够有效提取出行人特征,将与姿态无关的特征传递到瓶颈层,这些特征对生成特定姿态行人图片的清晰度影响极大,将其保留到瓶颈层能够提升生成特定姿态行人图片的清晰度,解决现有行人重识别数据集中单个行人图片数量不足的问题。采用了上述四元组的损失函数作为检索网络的损失函数,能拉近正样本对在特征空间内的距离,降低了同类行人在特征空间内的分布方差,改善行人重识别效果,提升行人重识别准确度。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1为本发明中一种基于深度度量学习的行人重识别方法的流程图;
图2为本发明中一种生成对抗网络结构配置;
图3为本发明中一种基于四元组损失函数的度量学习原理示意图;
图4为本发明中一种基于四元组损失函数的检索网络结构示意图;
图5为本发明中一种生成对抗网络生成特定姿态行人图片的结果。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下描述中,为了说明而不是为了限定,提出了诸如特定内部程序、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
本发明是一种基于深度度量学习的行人重识别方法,该方法用于提升行人重识别的准确度。该方法利用基于U-Net的长跳跃连接的生成对抗网络,从而补充检索网络的训练集;
根据检索网络,利用基于四元组的损失函数,训练所述检索网络,实现行人重识别。
一种基于深度度量学习的行人重识别方法,流程如图1所示,该方法具体步骤为:
步骤1,对已有的训练集行人图片进行姿态估计,生成行人骨架图。
行人姿态估计网络接受一张行人图片xk作为输入,使用一个多阶段的卷积神经网络提取出人体关节点特征,将提取出的关节点用线连接,并且用线标识人体肢体,从而得到行人骨架图pk
步骤2,将已有的训练集行人图片与其对应的行人骨架图配对,作为生成对抗网络的训练集,使用生成对抗网络生成特定姿态的行人图片,该生成对抗网络结构配置如图2所示。
生成对抗网络本质上是一个CGAN网络,其包括了一般GAN网络所拥有的两部分,即生成网络Gp和判别网络Dp。生成网络Gp生成尽可能真实的、符合输入图片xk外观并处于特定姿态的行人图片。判别网络Dp判定生成网络Gp生成的结果是否为真。通过对抗训练交替优化这两个网络,提升生成网络的生成能力。
在生成对抗网络训练过程中,某些与行人姿态无关的特征,如背景、光照、皮肤等,会较大程度影响生成目标图片的清晰度。
本发明设计的生成网络Gp的网络结构是一个基于U-Net的编码器-解码器结构。
基于U-Net的编码器-解码器结构在编码器第8层与解码器第1层、编码器第7层与解码器第2层、编码器第2层与解码器第7层之间采用了长跳跃连接方式。长跳跃连接是指跨层(层数大于等于2)连接。如编码器第8层的输出当作解码器第1层的输入。
该设计方式能够良好地提取出行人特征,将与行人姿态无关的特征,如背景、光照、皮肤等,传递到瓶颈层,使得生成网络Gp能够根据指定的行人骨架图生成清晰、逼真的特定姿态行人图片。
在生成对抗网络训练阶段,其输入为行人图片xk以及行人骨架图pk,目的是生成一张人物k处于位于p姿态的图片。
判别网络Dp目标是判定生成网络Gp所生成的行人图片是否为真,即一个二分类问题。判别网络Dp以生成网络Gp的输出与真实行人图片xk作为输入。判别网络Dp为一个全卷积网络,本发明以VGG16为基础,利用了VGG网络较强的特征提取能力,并修改了判别网络Dp最后全连接层输出类别的数量为2类。
步骤3,将步骤2所述的特定姿态的行人图片和已有的训练集行人图片共同作为检索网络训练集。
步骤4,对于步骤3所述的检索网络训练集,在一个训练批大小内,以检索网络的输出向量作为特征向量,计算所有行人图片两两之间的距离。一般来说,批大小的取值为32、64、128、256等,可根据训练的实际情况决定批大小的值。
步骤5,对于步骤3所述的检索网络训练集,任意选取一张行人图片作为固定图片,随机选取两张与上述图片包含相同行人的图片作为正样本,再随机选取一张不包含上述行人的图片作为负样本,上述四张图片共同构成一个四元组,即该四元组的具体组成为:固定图片a、两张正样本图片p1、p2以及一张负样本图片n。
步骤6,重复步骤5直到形成一个训练批大小的四元组集合,此步骤中的批大小为步骤4中训练检索网络所使用的批大小的四分之一,一般来说,此步骤中的批大小取值为16、32、64等。
步骤7,根据计算所有行人图片两两之间的距离,自定义一个距离约束,对于超过距离约束参数的四元组,使用基于四元组的损失函数,以损失函数最小化为目标训练检索网络。距离约束是指自定义的图片间隔距离,本发明中,距离约束即为μ1、μ2,μ1为自定义的正样本对与负样本之间允许的最大间隔,μ2为自定义的正样本对之间允许的最大间隔,通过控制μ2,能够显式控制同类图片在特征空间中的分布。
本发明设计了一种基于四元组的损失函数。四元组损失的一个基本批单位包括四张图片,分别记为固定图片a、两张与固定图片a包含相同行人的正样本图片p1、p2以及一张不包含固定图片a中行人的负样本图片n。
本发明中基于四元组的损失函数公式为
其中Lq为检索网络的损失,N为一个训练批内四元组的数量;f(xi)为检索网络的输出,其中xi为第i个四元组的输入图片。/>为固定图片a的特征向量与正样本图片p1的特征向量的欧氏距离,/>为固定图片a的特征向量与正样本图片p2的特征向量的欧氏距离,/>为固定图片a的特征向量与负样本图片n的特征向量的欧氏距离,/>为正样本图片p1的特征向量与正样本图片p2的特征向量的欧氏距离。μ1为自定义的正样本对与负样本之间允许的最大间隔,μ2为自定义的正样本对之间允许的最大间隔。通过最小化Lq,在特征空间中可以将所述正样本图片紧密地聚在一起,提升行人重识别准确度。基于四元组损失的度量学习原理如图3所示。
本发明中检索网络以VGG16为基础,检索网络的最后一层采用SOFTMAX层,输出特征向量为512维,确保正样本与负样本之间的距离可以归一化到[0,1]之间,使得距离度量能够较好收敛,改善影响行人重识别效果。检索网络架构如图4所。
步骤8,重复步骤4-7,直到所有行人图片均已作为固定图片一次,至此网络完整训练一代。
步骤9,重复步骤4-8,直到达到指定的训练代数。
步骤10,对于用户输入的每张查询图片,以检索网络的输出向量作为特征向量,计算该图片与已有的测试集行人图片的距离,按距离从小到大排序,返回用户指定数量的前若干张图片。
实施例:
本发明实施例采用的行人图片数据集为Market-1501和DukeMTMC-reID。这两个数据集已经被广泛用于行人重识别方法性能测试,已经成为事实上的行人重识别测试基准数据集。
Market-1501数据集,在清华大学校园内采集,共包含了32668张行人图片,共有1501名行人。其中训练集包含12936张图片,来自751名行人,平均每人有17.2张图片;测试集包含19732张图片,来自750名行人,平均每人有26.3张图片。
DukeMTMC-reID数据集,由杜克大学采集,共包含了36411张行人图片,共有1404名行人。其中训练集包含16522张图片,来自702名行人,平均每人有23.5张图片;测试集包含19889张图片,来自702名行人,平均每人有28.3张图片。
本发明实施例采用Rank-n准确率和mAP作为发明方法的性能评价指标。
Rank-n准确率是成功匹配图片占所有查询图片的比例,是行人重识别系统直接的性能指标。通常n取1、5、10,数值越高代表行人识别越准确。
mAP是Mean Average Precision的缩写,其根据行人重识别的召回率,即recall和精确率,即precision计算得到。mAP即所有查询图片AP的平均值,数值越高代表行人重识别系统性能越好。
在生成对抗网络和检索网络的训练过程中,均采用Adam优化算法。
具体步骤:
步骤1)配置实施例环境。软硬件环境为:CPU的配置为Intel Xeon E52560v4,内存的配置为128GB DDR4,GPU的配置为2×NVIDIA Tesla P100,操作系统的配置为Red HatLinux Server Enterprise 7.2,CUDA的配置为CUDA9.0。
步骤2)在深度学习框架Pytorch-1.0的基础上搭建神经网络架构。
步骤3)行人姿态估计使用OpenPose框架实现。
步骤4)在生成对抗网络训练阶段,其输入包括一张图片xk以及一个不同于xk的姿态的行人骨架图pk,目的是生成一张人物k处于位于p姿态的图片。生成对抗网络训练阶段的具体参数为:学习率设为0.0002,β1设为0.5,β2设为0.999,批大小为32。由生成对抗网络生成特定姿态行人图片的结果如图5所示。
步骤5)设置生成对抗网络训练代数为50。等待训练结束后,保存由生成对抗网络生成特定姿态的行人图片,将生成的行人图片和已有的训练集行人图片共同作为检索网络的训练集。
步骤6)在检索网络的训练阶段,其输入为由生成对抗网络生成的行人图片和已有的训练集行人图片,以基于四元组的损失函数最小化为目标训练检索网络。检索网络训练阶段的具体参数为:学习率设为0.00005,β1值设为0.9,β2值设为0.999,批大小为128。因为四元组损失要求批大小较大,故学习率需设置较小以保证模型收敛。基于四元组的损失函数公式中的μ1设为0.5,μ2设为0.15。
步骤7)设置检索网络训练代数为35。等待训练结束后,得到最终的检索网络模型,以测试集的行人图片作为输入,输出行人重识别准确率。
由一种基于四元组损失的检索网络得到的行人重识别结果。在Market-1501数据集上,Rank-1准确率为90.35,Rank-5准确率为96.5,Rank-10准确率为98.1,mAP为78.3,取得良好的识别效果。
在DukeMTMC-reID数据集上Rank-1准确率为78.5,Rank-5准确率为91.3,Rank-10准确率为93.4,mAP为63.9,取得良好的识别效果。
本发明中的生成对抗网络中生成网络是一个基于U-Net的编码器-解码器结构,该结构在编码器第8层与解码器第1层、编码器第7层与解码器第2层、编码器第2层与解码器第7层之间采用了长跳跃连接方式。跳跃连接可以解决网络层数较深的情况下梯度消失的问题,同时有助于梯度的反向传播,加快训练过程。U-Net将特征在通道维度拼接在一起,形成更丰富的特征。U-Net的相关研究指出,编码器连接解码器的结构能够良好地提取出行人特征,可以将与姿态无关的特征传递到瓶颈层,将其保留到瓶颈层,这些特征对生成目标图片的清晰度影响极大,该连接方式能有效提升生成目标图片的清晰度。本发明设计了一种基于四元组的损失函数。四元组损失中,网络的输入是一个四元组,包括固定图片a、两张正样本图片p1、p2以及一张负样本图片n。采用了基于上述四元组损失函数,能够拉近正样本对在特征空间内的距离,降低了同类行人在特征空间内的分布方差,提升行人重识别准确度。
实施例二
本实施例提供了一种基于深度度量学习的行人重识别装置,包括以下步骤:
生成模块,用于利用基于U-Net的长跳跃连接的生成对抗网络,从而补充检索网络的训练集;
行人重识别模块,用于根据检索网络,利用基于四元组的损失函数,训练所述检索网络,实现行人重识别。
进一步地,生成模块具体包括以下单元:
估计单元,用于对已有的训练集行人图片进行姿态估计,生成行人骨架图;
配对单元,用于将已有的训练集行人图片与其对应的行人骨架图配对,作为生成对抗网络的训练集,使用生成对抗网络生成特定姿态的行人图片;
训练集单元,用于将所述特定姿态的行人图片和已有的训练集行人图片共同作为检索网络训练集;
进一步地,行人重识别模块,具体包括以下单元:
距离计算单元,用于在所述检索网络训练集,以检索网络的输出向量作为特征向量,计算所有行人图片两两之间的距离;
四元组单元,用于在所述检索网络训练集,任意选取一张行人图片作为固定图片,随机选取两张与所述固定图片包含相同行人的图片作为正样本,再随机选取一张不包含所述行人的图片作为负样本,上述四张图片共同构成一个四元组;
第一重复单元,用于重复上一步骤,直到形成一个训练批大小的四元组集合;
训练检索网络单元,用于根据计算所有行人图片两两之间的距离,自定义一个距离约束,对于超过距离约束参数的四元组,使用基于四元组的损失函数,以损失函数最小化为目标训练检索网络;
第二重复单元,用于重复步骤4-7,直到所有行人图片均已作为一次固定图片;
第三重复单元,用于重复步骤4-8,直到达到指定的训练代数;
排列单元,用于根据用户输入的每张查询图片,以检索网络的输出向量作为特征向量,计算该图片与已有的测试集行人图片的距离,按距离从小到大排序,返回用户指定数量的前若干张图片。
进一步地,所述的生成对抗网络中生成网络是一个基于U-Net的编码器-解码器结构,所述基于U-Net的编码器-解码器结构在编码器第8层与解码器第1层、编码器第7层与解码器第2层、编码器第2层与解码器第7层之间采用了长跳跃连接方式。
本实施例是用于实现实施例一的装置,其实现过程和原理同实施例一,此处将再赘述。
实施例三
本发明实施例三提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现上述任一项的方法。
该实施例的计算机设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如基于深度度量学习的行人重识别方法。所述处理器执行所述计算机程序时实现上述各个一种基于深度度量学习的行人重识别方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可包括,但不仅限于,处理器、存储器。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可以是所述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。所述存储器也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述计算机设备的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机程序以及所述计算机设备所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例还提供了一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现上述任一项所述的一种基于深度度量学习的行人重识别方法。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (4)

1.一种基于深度度量学习的行人重识别方法,其特征在于,包括以下步骤:
利用基于U-Net的长跳跃连接的生成对抗网络,补充检索网络的训练集;具体包括以下步骤:
步骤1,对已有的训练集行人图片进行姿态估计,生成行人骨架图;
步骤2,将已有的训练集行人图片与其对应的行人骨架图配对,作为生成对抗网络的训练集,使用生成对抗网络生成特定姿态的行人图片;
步骤3,将所述特定姿态的行人图片和已有的训练集行人图片共同作为检索网络训练集;
根据检索网络,利用基于四元组的损失函数,训练所述检索网络,实现行人重识别,具体包括以下步骤:
步骤4,在所述检索网络训练集,以检索网络的输出向量作为特征向量,计算所有行人图片两两之间的距离;
步骤5,在所述检索网络训练集,任意选取一张行人图片作为固定图片,随机选取两张与所述固定图片包含相同行人的图片作为正样本,再随机选取一张不包含所述行人的图片作为负样本,上述四张图片共同构成一个四元组;
步骤6,重复上一步骤,直到形成一个训练批大小的四元组集合;
步骤7,根据计算所有行人图片两两之间的距离,自定义一个距离约束,对于超过距离约束参数的四元组,使用基于四元组的损失函数,以损失函数最小化为目标训练检索网络;
步骤8,重复步骤4-7,直到所有行人图片均已作为一次固定图片;
步骤9,重复步骤4-8,直到达到指定的训练代数;
步骤10,根据用户输入的每张查询图片,以检索网络的输出向量作为特征向量,计算该图片与已有的测试集行人图片的距离,按距离从小到大排序,返回用户指定数量的前若干张图片;
其中,所述基于四元组的损失函数公式Lq
其中为检索网络的损失,N为一个训练批内四元组的数量;f(xi)为检索网络的输出,其中xi为第i个四元组的输入图片;/>为固定图片a的特征向量与正样本图片p1的特征向量的欧氏距离,/>为固定图片a的特征向量与正样本图片p2的特征向量的欧氏距离,/>为固定图片a的特征向量与负样本图片n的特征向量的欧氏距离,/> 为正样本图片p1的特征向量与正样本图片p2的特征向量的欧氏距离;μ1为自定义的正样本对与负样本之间允许的最大间隔,μ2为自定义的正样本对之间允许的最大间隔。
2.一种基于深度度量学习的行人重识别装置,其特征在于,包括以下步骤:
生成模块,用于利用基于U-Net的长跳跃连接的生成对抗网络,补充检索网络的训练集;生成模块具体包括以下单元:
估计单元,用于对已有的训练集行人图片进行姿态估计,生成行人骨架图;
配对单元,用于将已有的训练集行人图片与其对应的行人骨架图配对,作为生成对抗网络的训练集,使用生成对抗网络生成特定姿态的行人图片;
训练集单元,用于将所述特定姿态的行人图片和已有的训练集行人图片共同作为检索网络训练集;
行人重识别模块,用于根据检索网络,利用基于四元组的损失函数,训练所述检索网络,实现行人重识别;行人重识别模块,具体包括以下单元:
距离计算单元,用于在所述检索网络训练集,以检索网络的输出向量作为特征向量,计算所有行人图片两两之间的距离;
四元组单元,用于在所述检索网络训练集,任意选取一张行人图片作为固定图片,随机选取两张与所述固定图片包含相同行人的图片作为正样本,再随机选取一张不包含所述行人的图片作为负样本,上述四张图片共同构成一个四元组;
第一重复单元,用于重复上一步骤,直到形成一个训练批大小的四元组集合;
训练检索网络单元,用于根据计算所有行人图片两两之间的距离,自定义一个距离约束,对于超过距离约束参数的四元组,使用基于四元组的损失函数,以损失函数最小化为目标训练检索网络;
第二重复单元,用于重复步骤4-7,直到所有行人图片均已作为一次固定图片;
第三重复单元,用于重复步骤4-8,直到达到指定的训练代数;
排列单元,用于根据用户输入的每张查询图片,以检索网络的输出向量作为特征向量,计算该图片与已有的测试集行人图片的距离,按距离从小到大排序,返回用户指定数量的前若干张图片;
其中,所述四元组单元中的所述基于四元组的损失函数公式Lq为:
其中Lq为检索网络的损失,N为一个训练批内四元组的数量;f(xi)为检索网络的输出,其中xi为第i个四元组的输入图片;/>为固定图片a的特征向量与正样本图片p1的特征向量的欧氏距离,/>为固定图片a的特征向量与正样本图片p2的特征向量的欧氏距离,/>为固定图片a的特征向量与负样本图片n的特征向量的欧氏距离,/> 为正样本图片p1的特征向量与正样本图片p2的特征向量的欧氏距离;μ1为自定义的正样本对与负样本之间允许的最大间隔,μ2为自定义的正样本对之间允许的最大间隔。
3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1所述的方法。
4.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现如权利要求1所述的一种基于深度度量学习的行人重识别方法。
CN201911151659.6A 2019-11-21 2019-11-21 一种基于深度度量学习的行人重识别方法及装置 Active CN110968734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911151659.6A CN110968734B (zh) 2019-11-21 2019-11-21 一种基于深度度量学习的行人重识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911151659.6A CN110968734B (zh) 2019-11-21 2019-11-21 一种基于深度度量学习的行人重识别方法及装置

Publications (2)

Publication Number Publication Date
CN110968734A CN110968734A (zh) 2020-04-07
CN110968734B true CN110968734B (zh) 2023-08-04

Family

ID=70031167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911151659.6A Active CN110968734B (zh) 2019-11-21 2019-11-21 一种基于深度度量学习的行人重识别方法及装置

Country Status (1)

Country Link
CN (1) CN110968734B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131919B (zh) * 2020-04-24 2022-08-05 民航成都电子技术有限责任公司 安检方法、装置、设备及介质
CN112084895B (zh) * 2020-08-25 2022-07-29 南京邮电大学 一种基于深度学习的行人重识别方法
CN112418082A (zh) * 2020-11-22 2021-02-26 同济大学 基于度量学习和深度特征学习的植物叶片识别系统及方法
CN112541421A (zh) * 2020-12-08 2021-03-23 浙江科技学院 一种开放空间的行人换装重识别方法
CN114612927B (zh) * 2020-12-09 2023-05-09 四川大学 一种基于图像文本双通道联合的行人重识别方法
CN114372538B (zh) * 2022-03-22 2023-04-18 中国海洋大学 拖曳式传感器阵列中尺度涡时间序列卷积分类方法
CN115177755A (zh) * 2022-07-07 2022-10-14 中国人民解放军军事科学院军事医学研究院 在线智能紫外辐射消毒系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832672A (zh) * 2017-10-12 2018-03-23 北京航空航天大学 一种利用姿态信息设计多损失函数的行人重识别方法
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
CN109491791A (zh) * 2018-11-09 2019-03-19 华东师范大学 基于申威众核处理器的nsga-ii的主从增强式运行方法及装置
CN109800710A (zh) * 2019-01-18 2019-05-24 北京交通大学 行人重识别系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11188783B2 (en) * 2017-10-19 2021-11-30 Nokia Technologies Oy Reverse neural network for object re-identification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832672A (zh) * 2017-10-12 2018-03-23 北京航空航天大学 一种利用姿态信息设计多损失函数的行人重识别方法
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
CN109491791A (zh) * 2018-11-09 2019-03-19 华东师范大学 基于申威众核处理器的nsga-ii的主从增强式运行方法及装置
CN109800710A (zh) * 2019-01-18 2019-05-24 北京交通大学 行人重识别系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于三元组和多尺度模型的行人重识别研究;陈子亮;《中国优秀硕士学位论文全文数据库信息科技辑》;20190715;正文第2章 *
多平台下计算机通识课程的教学研究;刘垚,陈美君,王行恒;《教育教学论坛》;20150228(第8期);全文 *

Also Published As

Publication number Publication date
CN110968734A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110968734B (zh) 一种基于深度度量学习的行人重识别方法及装置
Mou et al. Vehicle instance segmentation from aerial image and video using a multitask learning residual fully convolutional network
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
Wang et al. Actionness estimation using hybrid fully convolutional networks
WO2019100724A1 (zh) 训练多标签分类模型的方法和装置
Mei et al. Closing loops without places
CN111291809B (zh) 一种处理装置、方法及存储介质
Qu et al. A fast face recognition system based on deep learning
Xia et al. Loop closure detection for visual SLAM using PCANet features
WO2019227479A1 (zh) 人脸旋转图像的生成方法及装置
US20140241617A1 (en) Camera/object pose from predicted coordinates
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN112446398A (zh) 图像分类方法以及装置
CN108805149A (zh) 一种视觉同步定位与地图构建的回环检测方法及装置
CN113449573A (zh) 一种动态手势识别方法及设备
US20220292715A1 (en) Method and apparatus for estimating pose of device
CN113011568B (zh) 一种模型的训练方法、数据处理方法及设备
WO2021098802A1 (en) Object detection device, method, and systerm
CN111105439A (zh) 一种使用残差注意力机制网络的同步定位与建图方法
Khellal et al. Pedestrian classification and detection in far infrared images
WO2021109118A1 (en) Object re-identification using pose part based models
CN113449548A (zh) 更新物体识别模型的方法和装置
CN110598595A (zh) 一种基于人脸关键点和姿态的多属性人脸生成算法
CN114358205A (zh) 模型训练方法、模型训练装置、终端设备及存储介质
CN114140841A (zh) 点云数据的处理方法、神经网络的训练方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant