CN110390283B - 一种商业场景下跨摄像头行人重检索方法 - Google Patents
一种商业场景下跨摄像头行人重检索方法 Download PDFInfo
- Publication number
- CN110390283B CN110390283B CN201910627904.XA CN201910627904A CN110390283B CN 110390283 B CN110390283 B CN 110390283B CN 201910627904 A CN201910627904 A CN 201910627904A CN 110390283 B CN110390283 B CN 110390283B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- image
- cross
- retrieval
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种商业场景下跨摄像头行人重检索方法,包括以下步骤:(1)、输入图像;(2)、单目标行人分割;(3)、通道组合;(4)、行人特征提取;(5)、特征比对。本发明的商业场景下跨摄像头行人重检索方法,将单目标行人分割和行人特征提取方法相结合,基于单目标行人分割能有效的去除背景,当多人重叠时候能有效分割出主要目标;通过引入RGBM图像既可以有效利用Mask信息,又能避免去除过多背景信息导致准确率降低;通过在Triplet loss中引入聚类中心,可以有效的提高神经网络收敛速度;该方法有效提取特征实现跨摄像头行人重检索。
Description
技术领域
本发明涉及图像处理技术领域。
背景技术
本领域现阶段行人重识别采用的调整方法包括:
1)基于分块特征的行人重识别技术:由于行人目标框基本处于细长矩形框。因此按垂直方向对图像分块,分别提取特征并融合能够有效的提取行人特征。该方案的代表方法有PCB-net,MGN-net;
2)基于姿态对齐行人重识别技术:姿态对齐行人重识别技术是一种有效的应对形体变化的方法,通过行人关键点和仿射变换可以有效的降低姿态变化带来的特征波动。该方法的关键技术在于人体关键点的检测。
3)基于序列识别的行人重识别技术,由于行人运动有较大的不确定性,不同帧之间差别较大。因此有学者通过连续的多帧提取特征的方法,进行行人重识别。通过连续多帧包含的上下文信息可以有效提取行人的步态,姿态等信息,进一步提高准确率。
以上所有方式各有优劣,整体上各自的问题是:
1)分块特征是一个简单有效的方法,其主要依靠衣服的色彩特征,当行人出现换衣服或者背景颜色过于复杂情况下容易失效;
2)基于姿态对齐技术行人重识别,能够提取行人走路姿态信息。但是该方法复杂在监控系统中难以做到实时,需要行人关键点定位技术,当图像尺寸过小时候容易失效;
3)基于序列识别的行人重识别,有点是有较高的识别准确率,缺点是对数据标准要求非常高,序列数据标注非常困难。而且训练过程计算量大,需要很大的计算资源,网络结构也比较复杂,目前技术条件下很难做到实时。
在商业场景下跨摄像头行人检索需要克服以下几个问题,首先在商业场景下背景复杂,不同行人之间会出现交严重的遮挡现象,目标检测出来的行人包围框可能有多个行人出现,行人分割难以将主要人物分离出来,提取行人特征困难。
发明内容
为了解决商业场景下跨摄像头行人检索存在的上述问题,本发明提供了一种商业场景下跨摄像头行人重检索方法。
本发明为实现上述目的所采用的技术方案是:一种商业场景下跨摄像头行人重检索方法,包括以下步骤:
(1)、输入图像;
(2)、单目标行人分割,包括以下步骤:
b)数据准备:在coco数据集中,通过每个目标的包围框[x,y,w,h]分别在原图和mask图上裁剪图像,保证每个图像中只包含一个人物,分别得到图像imagei和图像maski,其中x为矩形框左上角横坐标,y为矩形框左上角纵坐标,w为矩形框宽,h为矩形框高度;
b)网络选型;
c)建立损失函数,对网络进行训练,损失函数如下:
其中:loss为最终损失函数;λ为尺度参数;
(3)、通道组合,将mask作为一个通道添加到原图上,每个人的图像由RGB图像到RGBM图像,然后送入神经网络中并提取特征;
(4)、行人特征提取,采用以度量学习为主结合样本分类的训练方式,选取基础网络,进行特征提取,步骤如下:
a)数据准备,将同一个人的照片归为一类;
c)建立损失函数,对网络进行训练,
其中:Dintra为类内平均距离;Dcross为类间平均距离;m为一个batch中包含的人数;n为一个人包含的样本数;
(5)、特征比对。
所述步骤(1)的a)步骤中,图像统一到128*64的尺寸分别得到图像imagei和maski。
所述步骤(2)的b)步骤中,选择Unet网络架构。
所述步骤(2)中,训练参数为:batch_size=256;优化器:Adam;学习率:0.001。
所述步骤(4)中,选取基础网络采用MobileNetV2,针对行人分别提取上半身特征,下半身特征,以及全图特征最后融合方式进行特征提取。
所述步骤(4)的a)步骤中,采用Market1501,Duke,CUHK03,MSMT17数据集进行训练。
所述步骤(4)中,训练参数:batch_person:一个batch中包含多少人,取16;Person_size:一个人的数据在batch中有多少张,取8;Margin:难例挖掘边界值,取2;优化器:Adadelta,学习率=0.001。
本发明的商业场景下跨摄像头行人重检索方法,将单目标行人分割和行人特征提取方法相结合,基于单目标行人分割能有效的去除背景,当多人重叠时候能有效分割出主要目标;通过引入RGBM图像既可以有效利用Mask信息,又能避免去除过多背景信息导致准确率降低;通过在Triplet loss中引入聚类中心,可以有效的提高神经网络收敛速度;该方法有效提取特征实现跨摄像头行人重检索。
附图说明
图1是本发明商业场景下跨摄像头行人重检索方法的整体流程图。
图2是本发明单目标行人分割网络结构图。
具体实施方式
本发明包括单目标行人分割和行人特征提取,通过以上方法的组合,可以有效提取特征实现跨摄像头行人重检索。以分块特征提取为基础,结合单目标行人分割实现跨摄像头行人特征提取。通过单目标行人分割技术可以将重叠行人中主要人物分离出来,可以高效提取行人特征。
本发明商业场景下跨摄像头行人重检索方法,包括以下步骤:
(1)、输入图像。
(2)、单目标行人分割:由于在商业场景中人物较为密集,在一个目标检测框内可能出现多个人的情况。但只有一个主要的人物是我们要进行特征提取的对象,因此本方案训练一个单目标行人分割网络来提取主要人物特征,包括以下步骤
a)数据准备:在coco数据集中,通过每个目标的包围框[x,y,w,h]分别在原图和mask图上裁剪图像保证每个图像中只包含一个人物,并统一到128*64的尺寸分别得到图像imagei和maski,其中x为矩形框左上角横坐标,y为矩形框左上角纵坐标,w为矩形框宽,h为矩形框高度。
b)网络选型:在本方案中考虑到计算效率的影响,选择Unet网络架构,如图2所示;
c)建立损失函数,对网络进行训练,语义分割本质上是对每一个像素进行分类,由于目标所占像素较少背景占比较多,因此存在样本不均衡的风险,因此需要有难例挖掘的损失函数,本方案定义损失函数如下。
其中:loss为最终损失函数;λ为尺度参数。
训练参数优选:batch_size=256;优化器:Adam;学习率:0.001;
(3)、通道组合:经过试验发现,用mask方式直接去除背景并不能有效的提取人物特征。本方案中采用一种相对较“软”的方式。将mask作为一个通道添加到原图上。这样每个人的图像由RGB图像到RGBM图像。然后在送入神经网络中并提取特征。
(4)、行人特征提取:
在行人特征提取阶段本方案采用以度量学习为主结合样本分类的训练方式。考虑到推理速度基础网络采用MobileNetV2。由于行人基本处于矩形形状,因此本方案针对行人分别提取上半身特征,下半身特征,以及全图特征最后融合方式进行特征提取。
a)数据准备:本方案采用Market1501,Duke,CUHK03,MSMT17数据集进行训练,同一个人的照片归为一类;
b)损失函数:
在本方案中提出一种基于triplet loss且带有聚类中心的损失函数。该损失函数可以有效避免经典triplet loss中训练不稳定,难以收敛的问题。公式如下,公式中表示第j类的第i类样本的特征向量;表示第j类特征向量的均值;||·||表示求特征向量二范数。
其中:Dintra为类内平均距离;Dcross为类间平均距离;m为一个batch中包含的人数;n为一个人包含的样本数。
训练参数优选:batch_person:一个batch中包含多少人,本方案取16;Person_size:一个人的数据在batch中有多少张,本方案取8;Margin:难例挖掘边界值,本方案取2;优化器:Adadelta,学习率=0.001。
(5)、特征比对,采用本领域的通用和公知比对方法即可。
本发明是通过实施例进行描述的,本领域技术人员知悉,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。
Claims (7)
1.一种商业场景下跨摄像头行人重检索方法,其特征在于:包括以下步骤:
(1)、输入图像;
(2)、单目标行人分割,包括以下步骤:
a)数据准备:在coco数据集中,通过每个目标的包围框[x,y,w,h]分别在原图和mask图上裁剪图像,保证每个图像中只包含一个人物,分别得到图像imagei和图像maski,其中x为矩形框左上角横坐标,y为矩形框左上角纵坐标,w为矩形框宽,h为矩形框高度;
b)网络选型;
c)建立损失函数,对网络进行训练,损失函数如下:
其中:loss为最终损失函数;λ为尺度参数;
(3)、通道组合,将mask作为一个通道添加到原图上,每个人的图像由RGB图像到RGBM图像,然后送入神经网络中并提取特征;
(4)、行人特征提取,采用以度量学习为主结合样本分类的训练方式,选取基础网络,进行特征提取,步骤如下:
a)数据准备,将同一个人的照片归为一类;
b)建立损失函数,对网络进行训练,
其中:Dintra为类内平均距离;Dcross为类间平均距离;m为一个batch中包含的人数;n为一个人包含的样本数;
(5)、特征比对。
2.根据权利要求1所述的一种商业场景下跨摄像头行人重检索方法,其特征在于:所述步骤(1)的a)步骤中,图像统一到128*64的尺寸分别得到图像imagei和maski。
3.根据权利要求1所述的一种商业场景下跨摄像头行人重检索方法,其特征在于:所述步骤(2)的b)步骤中,选择Unet网络架构。
4.根据权利要求3所述的一种商业场景下跨摄像头行人重检索方法,其特征在于:所述步骤(2)中,训练参数为:batch_size=256;优化器:Adam;学习率:0.001。
5.根据权利要求1所述的一种商业场景下跨摄像头行人重检索方法,其特征在于:所述步骤(4)中,选取基础网络采用MobileNetV2,针对行人分别提取上半身特征,下半身特征,以及全图特征最后融合方式进行特征提取。
6.根据权利要求1所述的一种商业场景下跨摄像头行人重检索方法,其特征在于:所述步骤(4)的a)步骤中,采用Market1501,Duke,CUHK03,MSMT17数据集进行训练。
7.根据权利要求1所述的一种商业场景下跨摄像头行人重检索方法,其特征在于:所述步骤(4)中,训练参数:batch_person:一个batch中包含多少人,取16;Person_size:一个人的数据在batch中有多少张,取8;Margin:难例挖掘边界值,取2;优化器:Adadelta,学习率=0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627904.XA CN110390283B (zh) | 2019-07-12 | 2019-07-12 | 一种商业场景下跨摄像头行人重检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627904.XA CN110390283B (zh) | 2019-07-12 | 2019-07-12 | 一种商业场景下跨摄像头行人重检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110390283A CN110390283A (zh) | 2019-10-29 |
CN110390283B true CN110390283B (zh) | 2023-01-03 |
Family
ID=68286514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910627904.XA Active CN110390283B (zh) | 2019-07-12 | 2019-07-12 | 一种商业场景下跨摄像头行人重检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390283B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144233B (zh) * | 2019-12-10 | 2022-06-14 | 电子科技大学 | 基于toim损失函数的行人重识别方法 |
CN110929695B (zh) * | 2019-12-12 | 2024-02-27 | 易诚高科(大连)科技有限公司 | 一种人脸识别和行人重识别关联方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017190574A1 (zh) * | 2016-05-04 | 2017-11-09 | 北京大学深圳研究生院 | 一种基于聚合通道特征的快速行人检测方法 |
CN108875588A (zh) * | 2018-05-25 | 2018-11-23 | 武汉大学 | 基于深度学习的跨摄像头行人检测跟踪方法 |
CN109886085A (zh) * | 2019-01-03 | 2019-06-14 | 四川弘和通讯有限公司 | 基于深度学习目标检测的人群计数方法 |
-
2019
- 2019-07-12 CN CN201910627904.XA patent/CN110390283B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017190574A1 (zh) * | 2016-05-04 | 2017-11-09 | 北京大学深圳研究生院 | 一种基于聚合通道特征的快速行人检测方法 |
CN108875588A (zh) * | 2018-05-25 | 2018-11-23 | 武汉大学 | 基于深度学习的跨摄像头行人检测跟踪方法 |
CN109886085A (zh) * | 2019-01-03 | 2019-06-14 | 四川弘和通讯有限公司 | 基于深度学习目标检测的人群计数方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110390283A (zh) | 2019-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829443B (zh) | 基于图像增强与3d卷积神经网络的视频行为识别方法 | |
CN110728200B (zh) | 一种基于深度学习的实时行人检测方法及系统 | |
CN107274419B (zh) | 一种基于全局先验和局部上下文的深度学习显著性检测方法 | |
CN105046196B (zh) | 基于级联卷积神经网络的前车车辆信息结构化输出方法 | |
CN107665351B (zh) | 基于难样本挖掘的机场检测方法 | |
CN104050471B (zh) | 一种自然场景文字检测方法及系统 | |
WO2017190656A1 (zh) | 行人再识别方法和装置 | |
CN104346801B (zh) | 图像构图评估装置、信息处理装置及其方法 | |
CN110222644A (zh) | 基于图像分割的森林火灾烟雾检测方法 | |
CN113095263B (zh) | 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 | |
CN111428604A (zh) | 面部佩戴口罩识别方法、装置、设备及存储介质 | |
CN110956681B (zh) | 一种结合卷积网络和邻域相似性的人像背景自动替换方法 | |
WO2019071976A1 (zh) | 基于区域增长和眼动模型的全景图像显著性检测方法 | |
CN102254326A (zh) | 利用核传递进行图像分割的方法 | |
CN105893963B (zh) | 一种筛选视频中单个行人目标的最佳易识别帧的方法 | |
CN108537816A (zh) | 一种基于超像素和背景连接先验的显著物体分割方法 | |
CN110390283B (zh) | 一种商业场景下跨摄像头行人重检索方法 | |
CN105069816B (zh) | 一种进出口人流量统计的方法及系统 | |
CN104598907B (zh) | 一种基于笔画宽度图的图像中文字数据提取方法 | |
CN102867177A (zh) | 一种基于图像灰度匹配的人数统计方法 | |
CN106056631A (zh) | 基于运动区域的行人检测方法 | |
CN101510304B (zh) | 一种分割获取前景图像的方法、装置和摄像头 | |
CN103295013A (zh) | 一种基于成对区域的单幅图像阴影检测方法 | |
CN106778634B (zh) | 一种基于区域融合的显著性人体区域检测方法 | |
CN105809716A (zh) | 融合超像素与三维自组织背景减除法的前景提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A cross camera pedestrian re retrieval method in commercial scenarios Effective date of registration: 20230726 Granted publication date: 20230103 Pledgee: Dalian Branch of Shanghai Pudong Development Bank Co.,Ltd. Pledgor: YICHENG GAOKE (DALIAN) TECHNOLOGY Co.,Ltd. Registration number: Y2023980049989 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |