CN113807189A - 一种基于人体部件学习和姿态重构的视频行人重识别方法 - Google Patents
一种基于人体部件学习和姿态重构的视频行人重识别方法 Download PDFInfo
- Publication number
- CN113807189A CN113807189A CN202110959958.3A CN202110959958A CN113807189A CN 113807189 A CN113807189 A CN 113807189A CN 202110959958 A CN202110959958 A CN 202110959958A CN 113807189 A CN113807189 A CN 113807189A
- Authority
- CN
- China
- Prior art keywords
- human body
- sequence
- pedestrian
- body posture
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 11
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 claims description 7
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 2
- 230000005021 gait Effects 0.000 abstract description 7
- 238000010276 construction Methods 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract 1
- 230000008859 change Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及智能识别技术领域,旨在提供一种基于人体部件学习和姿态重构的视频行人重识别方法。包括:构建用于训练的特征提取网络;生成人体姿态图序列,参照第一帧人体姿态图对人体姿态图序列和行人图像序列中每一帧图像进行对齐;对人体姿态图序列进行编码和重构;将对齐后的视频序列提取行人序列外观特征;将输出的运动特征和行人序列外观特征进行拼接,得到行人图像序列的身份特征表达。本发明充分利用了人体的特殊构造方式,即包含多个固定的人体关键点用于行人身份特征学习。通过挖掘人体局部外观特征和步态运动特征,能有效提升行人目标重识别模型的鲁棒性和性能。
Description
技术领域
本发明属于智能识别技术领域,特别地涉及一种基于人体部件学习和姿态重构的视频行人重识别方法,在算法设计和模型训练部分涉及了深度学习技术。
背景技术
作为当前重要的研究方向和研究热点,行人重识别在智能监控、智慧城市、治安防治和刑侦等领域都有着广泛的应用,例如跨摄像机的行人跟踪与行为分析,嫌疑或感兴趣人员的图片检索与查询等。行人重识别的任务是,在与摄像机A不存在重叠区域的摄像机B中对行人目标进行检索,重新找到在摄像机A中出现的行人目标。
随着深度学习的迅速发展,越来越多的研究者采用深度神经网络来解决行人重识别的问题,目前技术成果主要是集中在基于静态图片的行人重识别领域。然而,基于静态图片进行行人目标的重识别存在较多的局限性。首先,单张图片信息非常容易受到各种因素的干扰,例如行人姿态的变化、外界光照、背景变化等等;其次,在实际监控场景中,通常获取的都是视频格式的数据,其中包含了丰富的时序和运动信息,而静态行人图像则无法充分挖掘这些信息用于目标的重识别;最后,行人步态信息作为重要的生物身份信息,能够很好的辅助行人身份的判定,而这同样需要一段连续的视频才能充分学习挖掘。因此,越来越多的研究者开始将关注点转向在基于视频的行人目标重识别任务。
当前现有的基于视频的行人重识别算法主要分为两大类,其中一类是将一段视频看做多张静态图片,通过注意力模型挖掘多张图片中用于识别行人身份的信息相互进行补充,融合成为视频层级的特征。这类方法易于实现、时间以及计算资源利用率高,然而忽略了视频数据中重要的运动信息,导致无法很好地利用具有行人身份判别力的步态运动信息,降低了行人特征的判别力。另一类则是基于视频的算法,采用光流学习、3D卷积神经网络、RNN等结构提取运动信息。然而这类算法针对仅包含单一运动类别的行人重识别数据效果并不理想,难以提取潜在的行人步态运动特征,需要更为细致和针对性的设计。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种基于人体部件学习和姿态重构的视频行人重识别方法。
为解决技术问题,本发明的解决方案是:
提供一种基于人体部件学习和姿态重构的视频行人重识别方法,包括:从长度为T的连续视频中,用大小为H×W的矩形框将行人框选并裁切出来,得到行人图像序列S={I1,I2,...,IT};然后进行以下步骤处理:
(1)构建用于训练的特征提取网络
所述用于训练的特征提取网络包括:由卷积神经网络构成的图像特征提取器CE、图卷积神经网络构成的序列特征提取器GE、人体姿态关键点检测网络PN、人体姿态纹理编码器PTEN、人体姿态编码器网络PEN,以及人体姿态解码网络PDN;
(2)视频帧行人姿态关键点检测
生成人体姿态图序列P={PM1,PM2,...,PMT},参照第一帧人体姿态图PM1对人体姿态图序列P和行人图像序列S中每一帧图像进行对齐;
(3)人体姿态图序列重构
利用人体姿态编码器PEN对Nf帧的人体姿态图序列进行编码,再利用人体姿态解码网络PDN对该Nf帧人体姿态图序列进行重构;
(5)将人体姿态编码器PEN输出的运动特征fM和行人序列外观特征fA进行拼接,得到行人图像序列S的身份特征表达fid。
与现有技术相比,本发明的有益效果是:
1、本发明充分利用了人体的特殊构造方式,即包含多个固定的人体关键点用于行人身份特征学习。一方面,通过人体姿态关键点获取人体局部部件,利用图卷积神经网络充分挖掘人体局部部件之间的结构关系以及相同人体部件随时间变化的结构关系。另一方面,利用人体姿态关键点在连续帧之间的变化分析行人的步态运动信息,消除环境和背景等因素的干扰,挖掘潜在的具有身份判别力的步态生物特征。
2、本发明通过挖掘人体局部外观特征和步态运动特征,能有效提升行人目标重识别模型的鲁棒性和性能。
附图说明
图1是基于人体部件特征学习和姿态预测的行人目标重识别方法的步骤流程图。
图2是用于人体姿态关键点检测的OpenPose模型检测到的人体姿态关键点连接关系。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
本发明提出一种基于人体部件学习和姿态重构的视频行人重识别方法,包括:从长度为T的连续视频中,用大小为H×W的矩形框将行人框选并裁切出来,得到行人图像序列S={I1,I2,...,IT};然后进行以下步骤处理:
1、构建用于训练的特征提取网络,具体包括:由卷积神经网络构成的图像特征提取器CE,图卷积神经网络构成的序列特征提取器GE,人体姿态关键点检测网络PN,人体姿态编码器网络PEN,人体姿态纹理编码器PTEN,人体姿态解码网络PDN。
具体地,图像特征提取器CE和人体姿态纹理编码器PTEN采用ResNet-50的网络结构;序列特征提取器GE采用经典的图卷积网络GCN结构;人体姿态关键点检测网络PN采用现有网络OpenPose模型;人体姿态编码器网络PEN采用I3D卷积神经网络;人体姿态解码网络PDN包含四层转置卷积网络。
2、视频帧行人姿态关键点检测:生成人体姿态图序列P={PM1,PM2,...,PMT};参照第一帧人体姿态图PM1对人体姿态图序列P和行人图像序列S中每一帧图像进行对齐。具体地:
(2.1)利用现有的网络OpenPose模型作为人体姿态关键点检测网络PN,对行人图像序列S中的每一帧图像It的18个人体姿态关键点进行检测,生成对应的人体姿态图PMt,构成人体姿态图序列P={PM1,PM2,...,PMT};PMt表示PM1至PMT中任意一个时刻下的人体姿态图;
(2.2.1)计算每一帧人体姿态图PMt中所有人体姿态点坐标(xt,yt)之间的最大垂直距离作为该帧的尺度系数lt。具体地,其中,是PMt中所有人体姿态点中y坐标的最大值,是PMt中所有人体姿态点中y坐标的最小值。
(2.2.2)以第一帧人体姿态图PM1的尺度系数l1作为参照,计算每一帧尺度系数lt与l1之间的变换参数α={α1,α2,...,αt};
(2.2.3)利用每一帧图像的变换系数αt对行人图像It和人体姿态图PMt进行缩放,将缩放后图片中的行人与行人图像I1中行人位置和大小对齐,即将和对齐。然后用大小为H×W的矩形框进行截取,得到对齐后的行人图像序列和人体姿态图序列
3、人体姿态图序列重构:利用人体姿态编码器PEN对Nf帧的人体姿态图序列进行编码,再利用人体姿态解码网络PDN对该Nf帧人体姿态图序列进行重构。具体包括:
(4.3)获取行人图像外观特征图ft a中对应区域Rt的K个人体部件特征Mt={m1,m2,…,mK};
(4.4.2)对于每帧行人图片It提取的人体部件特征Mt,依据人体姿态关键点检测网络PN(OpenPose算法)中的人体姿态关键点连接关系构建人体部件关联图G的边,每条边的权重为1,具体连接关系如附图2所示;
(4.5)将人体部件关联图G送入图卷积神经网络构成的序列特征提取器GE,利用图卷积神经网络提取行人序列外观特征fA。
具体地,每一层图卷积网络包含下式操作:
其中,表示人体部件关联图G的邻接矩阵,W(i)代表图卷积神经网络每一层的可学习参数;BN和ReLU分别代表批次归一化层和神经元激活层函数;X(i+1)、X(i)分别为第i+1层和第i层的人体部件关联图特征。
5、将人体姿态编码器PEN输出的运动特征fM和行人序列外观特征fA进行拼接,得到行人图像序列S的身份特征表达fid。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于人体部件学习和姿态重构的视频行人重识别方法,其特征在于,包括:从长度为T的连续视频中,用大小为H×W的矩形框将行人框选并裁切出来,得到行人图像序列S={I1,I2,...,IT};然后进行以下步骤处理:
(1)构建用于训练的特征提取网络
所述用于训练的特征提取网络包括:由卷积神经网络构成的图像特征提取器CE、图卷积神经网络构成的序列特征提取器GE、人体姿态关键点检测网络PN、人体姿态纹理编码器PTEN、人体姿态编码器网络PEN,以及人体姿态解码网络PDN;
(2)视频帧行人姿态关键点检测
生成人体姿态图序列P={PM1,PM2,...,PMT},参照第一帧人体姿态图PM1对人体姿态图序列P和行人图像序列S中每一帧图像进行对齐;
(3)人体姿态图序列重构
利用人体姿态编码器PEN对Nf帧的人体姿态图序列进行编码,再利用人体姿态解码网络PDN对该Nf帧人体姿态图序列进行重构;
(5)将人体姿态编码器PEN输出的运动特征fM和行人序列外观特征fA进行拼接,得到行人图像序列S的身份特征表达fid。
2.根据权利要求5所述的方法,其特征在于,所述步骤(1)中,由卷积神经网络构成的图像特征提取器CE和人体姿态纹理编码器PTEN采用ResNet-50的网络结构;图卷积神经网络构成的序列特征提取器GE采用经典的图卷积网络GCN结构;人体姿态关键点检测网络PN采用现有网络OpenPose模型;人体姿态编码器网络PEN采用I3D卷积神经网络;人体姿态解码网络PDN包含四层转置卷积网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110959958.3A CN113807189B (zh) | 2021-08-20 | 2021-08-20 | 一种基于人体部件学习和姿态重构的视频行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110959958.3A CN113807189B (zh) | 2021-08-20 | 2021-08-20 | 一种基于人体部件学习和姿态重构的视频行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807189A true CN113807189A (zh) | 2021-12-17 |
CN113807189B CN113807189B (zh) | 2023-10-27 |
Family
ID=78941666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110959958.3A Active CN113807189B (zh) | 2021-08-20 | 2021-08-20 | 一种基于人体部件学习和姿态重构的视频行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807189B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354548A (zh) * | 2015-10-30 | 2016-02-24 | 武汉大学 | 一种基于ImageNet检索的监控视频行人重识别方法 |
CN108537136A (zh) * | 2018-03-19 | 2018-09-14 | 复旦大学 | 基于姿态归一化图像生成的行人重识别方法 |
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
CN110147743A (zh) * | 2019-05-08 | 2019-08-20 | 中国石油大学(华东) | 一种复杂场景下的实时在线行人分析与计数系统及方法 |
CN110555428A (zh) * | 2019-09-12 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 行人重识别方法、装置、服务器以及存储介质 |
CN111046789A (zh) * | 2019-12-10 | 2020-04-21 | 哈尔滨工程大学 | 一种行人重识别方法 |
CN111259786A (zh) * | 2020-01-14 | 2020-06-09 | 浙江大学 | 一种基于视频的外观和运动信息同步增强的行人重识别方法 |
CN111291633A (zh) * | 2020-01-17 | 2020-06-16 | 复旦大学 | 一种实时行人重识别方法及装置 |
CN112235514A (zh) * | 2020-10-13 | 2021-01-15 | 余波 | 一种基于人工智能的相机快门速度调节方法及装置 |
SG10201906090PA (en) * | 2019-06-29 | 2021-01-28 | Pensees Pte Ltd | Methods and Apparatus for Person Identification and Person Re-Identification with full or partially available parts in a structured feature set |
-
2021
- 2021-08-20 CN CN202110959958.3A patent/CN113807189B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354548A (zh) * | 2015-10-30 | 2016-02-24 | 武汉大学 | 一种基于ImageNet检索的监控视频行人重识别方法 |
CN108537136A (zh) * | 2018-03-19 | 2018-09-14 | 复旦大学 | 基于姿态归一化图像生成的行人重识别方法 |
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
CN110147743A (zh) * | 2019-05-08 | 2019-08-20 | 中国石油大学(华东) | 一种复杂场景下的实时在线行人分析与计数系统及方法 |
SG10201906090PA (en) * | 2019-06-29 | 2021-01-28 | Pensees Pte Ltd | Methods and Apparatus for Person Identification and Person Re-Identification with full or partially available parts in a structured feature set |
CN110555428A (zh) * | 2019-09-12 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 行人重识别方法、装置、服务器以及存储介质 |
CN111046789A (zh) * | 2019-12-10 | 2020-04-21 | 哈尔滨工程大学 | 一种行人重识别方法 |
CN111259786A (zh) * | 2020-01-14 | 2020-06-09 | 浙江大学 | 一种基于视频的外观和运动信息同步增强的行人重识别方法 |
CN111291633A (zh) * | 2020-01-17 | 2020-06-16 | 复旦大学 | 一种实时行人重识别方法及装置 |
CN112235514A (zh) * | 2020-10-13 | 2021-01-15 | 余波 | 一种基于人工智能的相机快门速度调节方法及装置 |
Non-Patent Citations (5)
Title |
---|
PENG ZHANG等: "Long-Term Person Re-identification Using True Motion from Videos" * |
SHUZHAO LI等: "Appearance and Motion Enhancement for Video-Based Person Re-Identification" * |
WEI ZHANG等: "Learning Compact Appearance Representation for Video-Based Person Re-Identification" * |
孙鑫等: "基于深度学习的行人重识别研究综述" * |
张思朋: "基于对抗生成网络的行人重识别方法研究" * |
Also Published As
Publication number | Publication date |
---|---|
CN113807189B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Ji et al. | Salient object detection via multi-scale attention CNN | |
Li et al. | TGNet: Geometric graph CNN on 3-D point cloud segmentation | |
Ma et al. | Multi-scale point-wise convolutional neural networks for 3D object segmentation from LiDAR point clouds in large-scale environments | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
WO2022111236A1 (zh) | 一种结合注意力机制的面部表情识别方法及系统 | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
CN114119638A (zh) | 一种融合多尺度特征和注意力机制的医学图像分割方法 | |
Gao et al. | Multi-perspective and multi-modality joint representation and recognition model for 3D action recognition | |
CN111985343A (zh) | 一种行为识别深度网络模型的构建方法及行为识别方法 | |
Yang et al. | Counting challenging crowds robustly using a multi-column multi-task convolutional neural network | |
CN113298815A (zh) | 一种半监督遥感图像语义分割方法、装置和计算机设备 | |
CN111241963B (zh) | 基于交互建模的第一人称视角视频交互行为识别方法 | |
CN110599411A (zh) | 一种基于条件生成对抗网络的图像修复方法及系统 | |
WO2021249114A1 (zh) | 目标跟踪方法和目标跟踪装置 | |
Cao et al. | Skeleton-based action recognition with temporal action graph and temporal adaptive graph convolution structure | |
CN112036379A (zh) | 基于注意力时间池化图卷积的骨架动作识别方法 | |
Zhai et al. | Group-split attention network for crowd counting | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN116309705A (zh) | 一种基于特征交互的卫星视频单目标跟踪方法及系统 | |
Ke et al. | Lightweight convolutional neural network-based pedestrian detection and re-identification in multiple scenarios | |
Li et al. | Real-time tracking algorithm for aerial vehicles using improved convolutional neural network and transfer learning | |
CN114049541A (zh) | 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 | |
Wang et al. | Sequential point clouds: A survey | |
Parashar et al. | A robust covariate‐invariant gait recognition based on pose features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |