CN111259859A - 一种基于联合变量图片生成的行人重识别方法 - Google Patents
一种基于联合变量图片生成的行人重识别方法 Download PDFInfo
- Publication number
- CN111259859A CN111259859A CN202010095068.8A CN202010095068A CN111259859A CN 111259859 A CN111259859 A CN 111259859A CN 202010095068 A CN202010095068 A CN 202010095068A CN 111259859 A CN111259859 A CN 111259859A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- image
- discriminator
- posture
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于联合变量图片生成的行人重识别方法,包括:S1:选择需要进行数据扩增的行人图像P1;S2:利用OpenPose对行人图像进行姿态估计得到原始姿态信息B1;S3:规定场景类别C和目标行人姿态B2;S4:建立基于联合变量的图片生成模型,将行人图像P1、原始姿态信息B1、场景类别C和目标行人姿态B2输入到预先训练好的图片生成模型中,得到目标场景及姿态下的行人图像P2;S5:将生成的图像添加到原始数据集中,进行行人重识别流程。
Description
技术领域
本发明涉及图像处理技术,尤其涉及一种基于联合变量图片生成的行人重识别方法。
背景技术
行人重识别(Person re-identification)又称行人再识别,目标是在不重叠视野的摄像机系统中识别出特定的人,即跨摄像头的行人检索问题。具体地说,当确定某一个摄像头中的行人为目标行人时,行人重识别算法能够判断目标行人是否在别的摄像头内出现。行人重识别对智慧城市的建设起着重要作用。例如我国用于治安防控的“天网工程”,其通过在公共场所大范围地布置监控摄像头来识别行人信息,当识别出地行人信息在检索库中时,就会对其进行标定并报警。几年来,由于深度学习技术在计算机视觉各领域取得了很大进步,涌现了大量基于深度学习的行人重识别方法。深度学习是一种数据驱动的方法,但是现有的行人重识别数据集内的图像数量相对于真实监控场景来说十分有限,神经网络很容易过拟合在较小的数据集。
传统的行人重识别数据集扩增方法本质上还是在原视频上裁剪行人图片,并没有实质性地生成数据。一些单变量的行人重识别数据集扩增方法虽然生成了原本不存在的数据,但是其生成的数据只改变一个变量,如姿态或色域,但实际情况下的行人图像受多变量影响,仅考虑单变量生成的图片与真实场景下的行人图片仍有一定差距。
发明内容
根据现有技术存在的问题,本发明公开了一种基于联合变量图片生成的行人重识别方法,具体包括如下步骤:
S1:选择需要进行数据扩增的行人图像P1;
S2:利用OpenPose对行人图像进行姿态估计得到原始姿态信息B1;
S3:规定场景类别C和目标行人姿态B2;
S4:建立基于联合变量的图片生成模型,将行人图像P1、原始姿态信息B1、场景类别C和目标行人姿态B2输入到预先训练好的图片生成模型中,得到目标场景及姿态下的行人图像P2;
S5:将生成的图像添加到原始数据集中,进行行人重识别流程。
进一步的,S4具体采用如下方式:
将场景类别C的维度扩充为大小为[k,64,128]的矩阵,并将其与行人图像P1在深度轴上串联得到大小为[3+k,64,128]的矩阵,对原始姿态B1与目标姿态B2进行同样串联操作,得到大小为[36,64,128]的矩阵,将上述得到的两个矩阵传送至图片生成模型进行运算,最后图片生成模型输出目标场景及姿态下的包含同一行人的图像。
所述图片生成模型包括生成器G、判别器DA、判别器DS以及判别器DC,
其中生成器G采用如下训练过程:根据输入数据输出生成的行人图像P2,
将生成的行人图像P2与原始图像P1传送至判别器DA,标签为True,计算损失,保证生成的行人图像P2中行人外貌与原始图像P1中行人外貌相同;
将生成的行人图像P2与目标行人姿态B2传送至姿态一致性判别器DS,标签为True,计算损失,保证行人图像P2中的行人姿态为目标行人姿态B2;
将生成的行人图像P2传送至判别器DC,标签为场景类别C,计算损失,保证行人图像P2的场景类别与目标场景类别C一致;
将以上的损失加权相加后反向传播,更新生成器G中的参数;
判别器DA的训练步骤为:
将行人图像P1和生成的行人图像P2的真值传送至判别器DA,标签为True,计算损失;
将行人图像P1和生成的行人图像P2传送至判别器DA,标签为False,计算损失,将两部分损失相加,反向传播,更新判别器DA中的参数;
判别器DS的训练步骤为:
将目标行人姿态B2和生成的行人图像P2的真值传送至判别器DS标签为True,计算损失;
将目标行人姿态B2和生成的行人图像P2传送至判别器DS,标签为False,计算损失;将两部分损失相加再反向传播并更新判别器DS;
判别器DC的训练步骤:
将生成的行人图像P2的真实值传送至判别器DC,标签为目标场景C,计算损失,反向传播并更新判别器DC。
由于采用了上述技术方案,本发明提供的一种基于联合变量图片生成的行人重识别方法,利用生成对抗网络将原始的行人重识别数据集进行扩充,基于扩充后的数据集来训练行人重识别模型。其中生成模型区别于其他的行人图像生成模型,是一种基于多变量的图像生成模型。本生成模型联合考虑了图像中行人的姿态变化以及行人图像的场景变化,在原始行人图像的基础上,将姿态信息与场景信息作为约束条件加入到生成对抗网络的训练和图像生成过程中,因此生成的图像更接近于真实情况下的行人图像。同时,通过修改输入网络的姿态变量和场景变量,极大的丰富了生成图像的多样性。利用此模型生成的图像是输入图像中的行人在不同姿态、场景下的新图像,故生成的图像可继承原始行人图像的标签,进而用于基于深度学习的行人重识别方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于联合变量图片生成的行人重识别方法的流程图
图2为本发明中行人姿态信息的提取过程示意图
图3为本发明中利用生成器生成图像的流程图
图4为本发明中生成模型的训练过程示意图
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种基于联合变量图片生成的行人重识别方法,其特征在于包括如下步骤:
S1:选择需要进行数据扩增的行人图像P1。
S2:利用OpenPose对行人图像进行姿态估计,得到原始姿态信息B1。
S3:规定场景类别C和目标行人姿态B2。
S4:将行人图像P1、原始姿态信息B1、目标场景类别C和目标行人姿态B2输入到预先训练好的生成网络,得到目标场景及姿态下的行人图像P2。
S5:将生成的图像添加到原始数据集中,进行行人重识别流程。
进一步的,S1中选择一张行人图像,并将其大小修改为64*128;
进一步的,S2中利用OpenPose对行人图像进行姿态估计(OpenPose是一个开源并以训练好的网络,可用作姿态估计的工具)。其过程如图2所示:其中行人图像为3通道的RGB矩阵(大小为[3,64,128])。骨架为18通道的概率热图(大小为[18,64,128]),表示估计出的18个人体关节点所在位置概率。如[i,x,y]表示第i个关节点在位置(x,y)的概率。
进一步的,在同一数据集中由于各个摄像头之间的参数差异,会使得不同摄像头拍摄的图像之间存在色彩差异,S3中以独热编码的形式对摄像头进行编码。例如,若想要生成摄像头6拍摄的图像,则规定场景类别C为[0,0,0,0,0,1],同样,若想生成摄像头1拍摄的图像,则规定场景类别C为[1,0,0,0,0,0]。同时人为选定姿态热图B2作为生成图像中人的姿态。
进一步的,S4中将S1-S3中的准备好的数据送入训练好的图片生成模型,如图3所示,首先,将目标场景独热向量C的维度扩充为[k,64,128](其中k为数据集中包含摄像头的数量),并将其与行人图像P1在深度轴上串联。得到大小为[3+k,64,128]的矩阵。然后对原始姿态B1与目标姿态B2进行同样串联操作,得到大小为[36,64,128]的矩阵。将上述得到的两个矩阵送入生成网络G进行运算。最后生成网络G输出目标场景及姿态下的同一行人图像。其中生成网络包括生成器G、判别器DA、判别器DS以及判别器DC。
进一步的,生成器G采用如下训练过程:根据输入数据P1、C、B1以及B2生成行人图像P2。
将生成的行人图像P2与原始图像P1传送至外貌一致性判别网络DA,标签为True,计算损失,此步保证生成的图像P2中行人外貌与P1中行人外貌相同;
将生成的图片P2与目标姿态B2传送至姿态一致性判别器DS,标签为True,计算损失,此步保证P2中的行人姿态为目标姿态B2。
将生成的图片P2传送至色域一致性判别器DC,标签为目标场景C,保证生成的图片场景风格与目标场景C一致。
将生成的图片P2与P2的真值进行比较并计算损失;
将以上的损失加权相加后反向传播,更新生成器G中的参数。
进一步的,判别器DA的训练步骤为:
(1)将真实数据P1和P2的真值送入网络,标签为True,计算损失。
(2)将真实数据P1和生成的P2送入网络,标签为False,计算损失。
(3)两部分损失相加,然后反向传播,更新判别器DA中的参数。
判别器DS的训练步骤:
(1)将目标姿态B2和P2的真值送入网络,标签为True,计算损失。
(2)将目标姿态B2和生成的P2送入网络,标签为False,计算损失。
(3)将两部分损失相加,然后反向传播,更新判别器DS中的参数。
判别器DC的训练步骤:
(1)将P2的真实值送入网络,标签为目标场景C,计算损失。
(2)反向传播,更新判别器DC中的参数。
实施例:将扩充后的数据集用于行人重识别网络的训练。此处以简单的ResNet50网络为例,描述行人重识别方法流程。
训练过程:在训练阶段目的是训练网络使其能提取到能代表行人的特征,故网络以分类的形式进行训练,具体步骤为:
(1)网络读取训练集中的行人图像以及该行人的标签。
(2)将行人图像输入网络,网络输出行人的分类结果。
(3)将网络的分类结果与该行人的标签进行比较,计算损失。
(4)损失反向传播。
测试过程:在测试阶段,目的是提取图片的特征向量,故将网络的分类层去掉并用预训练好的网络提取图像特征:①网络读取行人图像,②网络输出该行人的特征。对待检索图像以及检索库中的图像都进行上面①②的操作,则可以用特征向量来代表待检索图像以及检索库中的图像。
验证部分:计算待检测行人图像与检索库中行人图像的特征间的余弦距离。
余弦距离公式如下:
具体来说,针对一张待检测的行人图像,计算其特征与检索库中的每张图像的特征的余弦距离,然后按照距离由小到大将检索库中的图片排序。即越靠前的行人图像越有可能为包含待检测行人的图像。
本发明公开的一种基于联合变量图片生成的行人重识别方法,利用生成对抗网络强大的数据生成能力来对行人重识别任务的数据集进行扩充。具有如下优点:生成的数据与原数据集相比相似度较小。从多变量的角度,同时改变行人姿态以及图像色域,使生成的图像更接近于真实情况下的行人图像。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (3)
1.一种基于联合变量图片生成的行人重识别方法,其特征在于包括:
S1:选择需要进行数据扩增的行人图像P1;
S2:利用OpenPose对行人图像进行姿态估计得到原始姿态信息B1;
S3:规定场景类别C和目标行人姿态B2;
S4:建立基于联合变量的图片生成模型,将行人图像P1、原始姿态信息B1、场景类别C和目标行人姿态B2输入到预先训练好的图片生成模型中,得到目标场景及姿态下的行人图像P2;
S5:将生成的图像添加到原始数据集中,进行行人重识别流程。
2.根据权利要求1所述的一种基于联合变量图片生成的行人重识别方法,其特征还在于:S4具体采用如下方式:
将场景类别C的维度扩充为大小为[k,64,128]的矩阵,并将其与行人图像P1在深度轴上串联得到大小为[3+k,64,128]的矩阵,对原始姿态B1与目标姿态B2进行同样串联操作,得到大小为[36,64,128]的矩阵,将上述得到的两个矩阵传送至图片生成模型进行运算,最后图片生成模型输出目标场景及姿态下的包含同一行人的图像。
3.根据权利要求1所述的一种基于联合变量图片生成的行人重识别方法,其特征还在于:所述图片生成模型包括生成器G、判别器DA、判别器DS以及判别器DC,
其中生成器G采用如下训练过程:根据输入数据输出生成的行人图像P2,
将生成的行人图像P2与原始图像P1传送至判别器DA,标签为True,计算损失,保证生成的行人图像P2中行人外貌与原始图像P1中行人外貌相同;
将生成的行人图像P2与目标行人姿态B2传送至姿态一致性判别器DS,标签为True,计算损失,保证行人图像P2中的行人姿态为目标行人姿态B2;
将生成的行人图像P2传送至判别器DC,标签为场景类别C,计算损失,保证行人图像P2的场景类别与目标场景类别C一致;
将以上的损失加权相加后反向传播,更新生成器G中的参数;
判别器DA的训练步骤为:
将行人图像P1和生成的行人图像P2的真值传送至判别器DA,标签为True,计算损失;
将行人图像P1和生成的行人图像P2传送至判别器DA,标签为False,计算损失,将两部分损失相加,反向传播,更新判别器DA中的参数;
判别器DS的训练步骤为:
将目标行人姿态B2和生成的行人图像P2的真值传送至判别器DS标签为True,计算损失;
将目标行人姿态B2和生成的行人图像P2传送至判别器DS,标签为False,计算损失;将两部分损失相加再反向传播并更新判别器DS;
判别器DC的训练步骤:
将生成的行人图像P2的真实值传送至判别器DC,标签为目标场景C,计算损失,反向传播并更新判别器DC。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095068.8A CN111259859B (zh) | 2020-02-14 | 2020-02-14 | 一种基于联合变量图片生成的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095068.8A CN111259859B (zh) | 2020-02-14 | 2020-02-14 | 一种基于联合变量图片生成的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259859A true CN111259859A (zh) | 2020-06-09 |
CN111259859B CN111259859B (zh) | 2023-07-04 |
Family
ID=70952804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010095068.8A Active CN111259859B (zh) | 2020-02-14 | 2020-02-14 | 一种基于联合变量图片生成的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259859B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914658A (zh) * | 2020-07-06 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种行人识别方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191366A (zh) * | 2018-07-12 | 2019-01-11 | 中国科学院自动化研究所 | 基于人体姿态的多视角人体图像合成方法及装置 |
US20190294871A1 (en) * | 2018-03-23 | 2019-09-26 | Microsoft Technology Licensing, Llc | Human action data set generation in a machine learning system |
CN110457984A (zh) * | 2019-05-21 | 2019-11-15 | 电子科技大学 | 监控场景下基于ResNet-50的行人属性识别方法 |
-
2020
- 2020-02-14 CN CN202010095068.8A patent/CN111259859B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190294871A1 (en) * | 2018-03-23 | 2019-09-26 | Microsoft Technology Licensing, Llc | Human action data set generation in a machine learning system |
CN109191366A (zh) * | 2018-07-12 | 2019-01-11 | 中国科学院自动化研究所 | 基于人体姿态的多视角人体图像合成方法及装置 |
CN110457984A (zh) * | 2019-05-21 | 2019-11-15 | 电子科技大学 | 监控场景下基于ResNet-50的行人属性识别方法 |
Non-Patent Citations (5)
Title |
---|
ZHENSHEN QU 等: ""Design of Real-Time Measurement System with Vision/IMU for Close-Range Semi-Physical Rendezvous and Docking Simulation"", 《PROCEEDINGS OF 2016 IEEE CHINESE GUIDANCE, NAVIGATION AND CONTROL CONFERENCE (IEEE CGNCC2016)》 * |
冯川: ""基于深度学习的行人重识别技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
刘晓凯: ""智能监控系统中行人重识别方法研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
梁国远 等: ""基于三维模型和仿射对应原理的人脸姿态估计方法"", 《计算机学报》 * |
马淼 等: ""基于多级动态模型的2维人体姿态估计"", 《机器人》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914658A (zh) * | 2020-07-06 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种行人识别方法、装置、设备及介质 |
CN111914658B (zh) * | 2020-07-06 | 2024-02-02 | 浙江大华技术股份有限公司 | 一种行人识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111259859B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728209A (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
CN112037320B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN107239730B (zh) | 智能汽车交通标志识别的四元数深度神经网络模型方法 | |
CN109102024B (zh) | 一种用于物体精细识别的层次语义嵌入模型及其实现方法 | |
CN107424161B (zh) | 一种由粗至精的室内场景图像布局估计方法 | |
CN111709410B (zh) | 一种强动态视频的行为识别方法 | |
CN107636691A (zh) | 用于识别图像中的文本的方法和设备 | |
CN109299643A (zh) | 一种基于大姿态对准的人脸识别方法及系统 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN110660020A (zh) | 一种基于融合互信息的对抗生成网络的图像超分辨率方法 | |
CN112906493A (zh) | 一种基于互相关注意力机制的跨模态行人重识别方法 | |
CN112164130A (zh) | 基于深度对抗网络的视频-动画风格迁移方法 | |
CN116188825A (zh) | 一种基于并行注意力机制的高效特征匹配方法 | |
CN111062899B (zh) | 基于引导的生成对抗网络的眨眼视频生成方法 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
WO2022201803A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN116385660A (zh) | 室内单视图场景语义重建方法及系统 | |
CN116189292A (zh) | 一种基于双流网络的视频动作识别方法 | |
EP3759649B1 (en) | Object recognition from images using cad models as prior | |
CN113139432B (zh) | 基于人体骨架和局部图像的工业包装行为识别方法 | |
CN111259859B (zh) | 一种基于联合变量图片生成的行人重识别方法 | |
WO2023185074A1 (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
CN110942463A (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN111126310B (zh) | 一种基于场景迁移的行人性别识别方法 | |
Zhao et al. | Cross-modal knowledge distillation for fine-grained one-shot classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |