CN110390283B

CN110390283B - 一种商业场景下跨摄像头行人重检索方法

Info

Publication number: CN110390283B
Application number: CN201910627904.XA
Authority: CN
Inventors: 张吉昌; 郭宝珠; 董波
Original assignee: Yicheng Gaoke Dalian Technology Co ltd
Current assignee: Yicheng Gaoke Dalian Technology Co ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2023-01-03
Anticipated expiration: 2039-07-12
Also published as: CN110390283A

Abstract

一种商业场景下跨摄像头行人重检索方法，包括以下步骤：(1)、输入图像；(2)、单目标行人分割；(3)、通道组合；(4)、行人特征提取；(5)、特征比对。本发明的商业场景下跨摄像头行人重检索方法，将单目标行人分割和行人特征提取方法相结合，基于单目标行人分割能有效的去除背景，当多人重叠时候能有效分割出主要目标；通过引入RGBM图像既可以有效利用Mask信息，又能避免去除过多背景信息导致准确率降低；通过在Triplet loss中引入聚类中心，可以有效的提高神经网络收敛速度；该方法有效提取特征实现跨摄像头行人重检索。

Description

一种商业场景下跨摄像头行人重检索方法

技术领域

本发明涉及图像处理技术领域。

背景技术

本领域现阶段行人重识别采用的调整方法包括：

1)基于分块特征的行人重识别技术：由于行人目标框基本处于细长矩形框。因此按垂直方向对图像分块，分别提取特征并融合能够有效的提取行人特征。该方案的代表方法有PCB-net，MGN-net；

2)基于姿态对齐行人重识别技术：姿态对齐行人重识别技术是一种有效的应对形体变化的方法，通过行人关键点和仿射变换可以有效的降低姿态变化带来的特征波动。该方法的关键技术在于人体关键点的检测。

3)基于序列识别的行人重识别技术，由于行人运动有较大的不确定性，不同帧之间差别较大。因此有学者通过连续的多帧提取特征的方法，进行行人重识别。通过连续多帧包含的上下文信息可以有效提取行人的步态，姿态等信息，进一步提高准确率。

以上所有方式各有优劣，整体上各自的问题是：

1)分块特征是一个简单有效的方法，其主要依靠衣服的色彩特征，当行人出现换衣服或者背景颜色过于复杂情况下容易失效；

2)基于姿态对齐技术行人重识别，能够提取行人走路姿态信息。但是该方法复杂在监控系统中难以做到实时，需要行人关键点定位技术，当图像尺寸过小时候容易失效；

3)基于序列识别的行人重识别，有点是有较高的识别准确率，缺点是对数据标准要求非常高，序列数据标注非常困难。而且训练过程计算量大，需要很大的计算资源，网络结构也比较复杂，目前技术条件下很难做到实时。

在商业场景下跨摄像头行人检索需要克服以下几个问题，首先在商业场景下背景复杂，不同行人之间会出现交严重的遮挡现象，目标检测出来的行人包围框可能有多个行人出现，行人分割难以将主要人物分离出来，提取行人特征困难。

发明内容

为了解决商业场景下跨摄像头行人检索存在的上述问题，本发明提供了一种商业场景下跨摄像头行人重检索方法。

本发明为实现上述目的所采用的技术方案是：一种商业场景下跨摄像头行人重检索方法，包括以下步骤：

(1)、输入图像；

(2)、单目标行人分割，包括以下步骤：

b)数据准备：在coco数据集中，通过每个目标的包围框[x,y,w,h]分别在原图和mask图上裁剪图像，保证每个图像中只包含一个人物，分别得到图像image_i和图像mask_i，其中x为矩形框左上角横坐标，y为矩形框左上角纵坐标，w为矩形框宽，h为矩形框高度；

b)网络选型；

c)建立损失函数，对网络进行训练，损失函数如下：

其中：loss为最终损失函数；λ为尺度参数；

(3)、通道组合，将mask作为一个通道添加到原图上，每个人的图像由RGB图像到RGBM图像，然后送入神经网络中并提取特征；

(4)、行人特征提取，采用以度量学习为主结合样本分类的训练方式，选取基础网络，进行特征提取，步骤如下：

a)数据准备，将同一个人的照片归为一类；

c)建立损失函数，对网络进行训练，

采用基于triplet loss且带有聚类中心的损失函数，公式如下，公式中

表示第j类的第i类样本的特征向量；

表示第j类特征向量的均值；||·||表示求特征向量二范数，

其中：Dintra为类内平均距离；Dcross为类间平均距离；m为一个batch中包含的人数；n为一个人包含的样本数；

(5)、特征比对。

所述步骤(1)的a)步骤中，图像统一到128*64的尺寸分别得到图像image_i和mask_i。

所述步骤(2)的b)步骤中，选择Unet网络架构。

所述步骤(2)中，训练参数为：batch_size＝256；优化器：Adam；学习率：0.001。

所述步骤(4)中，选取基础网络采用MobileNetV2，针对行人分别提取上半身特征，下半身特征，以及全图特征最后融合方式进行特征提取。

所述步骤(4)的a)步骤中，采用Market1501，Duke，CUHK03，MSMT17数据集进行训练。

所述步骤(4)中，训练参数：batch_person:一个batch中包含多少人，取16；Person_size:一个人的数据在batch中有多少张，取8；Margin：难例挖掘边界值，取2；优化器：Adadelta，学习率＝0.001。

本发明的商业场景下跨摄像头行人重检索方法，将单目标行人分割和行人特征提取方法相结合，基于单目标行人分割能有效的去除背景，当多人重叠时候能有效分割出主要目标；通过引入RGBM图像既可以有效利用Mask信息，又能避免去除过多背景信息导致准确率降低；通过在Triplet loss中引入聚类中心，可以有效的提高神经网络收敛速度；该方法有效提取特征实现跨摄像头行人重检索。

附图说明

图1是本发明商业场景下跨摄像头行人重检索方法的整体流程图。

图2是本发明单目标行人分割网络结构图。

具体实施方式

本发明包括单目标行人分割和行人特征提取，通过以上方法的组合，可以有效提取特征实现跨摄像头行人重检索。以分块特征提取为基础，结合单目标行人分割实现跨摄像头行人特征提取。通过单目标行人分割技术可以将重叠行人中主要人物分离出来，可以高效提取行人特征。

本发明商业场景下跨摄像头行人重检索方法，包括以下步骤：

(1)、输入图像。

(2)、单目标行人分割：由于在商业场景中人物较为密集，在一个目标检测框内可能出现多个人的情况。但只有一个主要的人物是我们要进行特征提取的对象，因此本方案训练一个单目标行人分割网络来提取主要人物特征，包括以下步骤

a)数据准备：在coco数据集中，通过每个目标的包围框[x,y,w,h]分别在原图和mask图上裁剪图像保证每个图像中只包含一个人物，并统一到128*64的尺寸分别得到图像image_i和mask_i，其中x为矩形框左上角横坐标，y为矩形框左上角纵坐标，w为矩形框宽，h为矩形框高度。

b)网络选型：在本方案中考虑到计算效率的影响，选择Unet网络架构，如图2所示；

c)建立损失函数，对网络进行训练，语义分割本质上是对每一个像素进行分类，由于目标所占像素较少背景占比较多，因此存在样本不均衡的风险，因此需要有难例挖掘的损失函数，本方案定义损失函数如下。

其中：loss为最终损失函数；λ为尺度参数。

训练参数优选:batch_size＝256；优化器：Adam；学习率：0.001；

(3)、通道组合：经过试验发现，用mask方式直接去除背景并不能有效的提取人物特征。本方案中采用一种相对较“软”的方式。将mask作为一个通道添加到原图上。这样每个人的图像由RGB图像到RGBM图像。然后在送入神经网络中并提取特征。

(4)、行人特征提取：

在行人特征提取阶段本方案采用以度量学习为主结合样本分类的训练方式。考虑到推理速度基础网络采用MobileNetV2。由于行人基本处于矩形形状，因此本方案针对行人分别提取上半身特征，下半身特征，以及全图特征最后融合方式进行特征提取。

a)数据准备：本方案采用Market1501，Duke，CUHK03，MSMT17数据集进行训练，同一个人的照片归为一类；

b)损失函数：

在本方案中提出一种基于triplet loss且带有聚类中心的损失函数。该损失函数可以有效避免经典triplet loss中训练不稳定，难以收敛的问题。公式如下，公式中

表示第j类的第i类样本的特征向量；

表示第j类特征向量的均值；||·||表示求特征向量二范数。

其中：Dintra为类内平均距离；Dcross为类间平均距离；m为一个batch中包含的人数；n为一个人包含的样本数。

训练参数优选：batch_person:一个batch中包含多少人，本方案取16；Person_size:一个人的数据在batch中有多少张，本方案取8；Margin：难例挖掘边界值，本方案取2；优化器：Adadelta，学习率＝0.001。

(5)、特征比对，采用本领域的通用和公知比对方法即可。

本发明是通过实施例进行描述的，本领域技术人员知悉，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims

1.一种商业场景下跨摄像头行人重检索方法，其特征在于：包括以下步骤：

(1)、输入图像；

(2)、单目标行人分割，包括以下步骤：

a)数据准备：在coco数据集中，通过每个目标的包围框[x,y,w,h]分别在原图和mask图上裁剪图像，保证每个图像中只包含一个人物，分别得到图像image_i和图像mask_i，其中x为矩形框左上角横坐标，y为矩形框左上角纵坐标，w为矩形框宽，h为矩形框高度；

b)网络选型；

c)建立损失函数，对网络进行训练，损失函数如下：

其中：loss为最终损失函数；λ为尺度参数；

a)数据准备，将同一个人的照片归为一类；

b)建立损失函数，对网络进行训练，

表示第j类的第i类样本的特征向量；

表示第j类特征向量的均值；||·||表示求特征向量二范数，

(5)、特征比对。

2.根据权利要求1所述的一种商业场景下跨摄像头行人重检索方法，其特征在于：所述步骤(1)的a)步骤中，图像统一到128*64的尺寸分别得到图像image_i和mask_i。

3.根据权利要求1所述的一种商业场景下跨摄像头行人重检索方法，其特征在于：所述步骤(2)的b)步骤中，选择Unet网络架构。

4.根据权利要求3所述的一种商业场景下跨摄像头行人重检索方法，其特征在于：所述步骤(2)中，训练参数为：batch_size＝256；优化器：Adam；学习率：0.001。

5.根据权利要求1所述的一种商业场景下跨摄像头行人重检索方法，其特征在于：所述步骤(4)中，选取基础网络采用MobileNetV2，针对行人分别提取上半身特征，下半身特征，以及全图特征最后融合方式进行特征提取。

6.根据权利要求1所述的一种商业场景下跨摄像头行人重检索方法，其特征在于：所述步骤(4)的a)步骤中，采用Market1501，Duke，CUHK03，MSMT17数据集进行训练。

7.根据权利要求1所述的一种商业场景下跨摄像头行人重检索方法，其特征在于：所述步骤(4)中，训练参数：batch_person:一个batch中包含多少人，取16；Person_size:一个人的数据在batch中有多少张，取8；Margin：难例挖掘边界值，取2；优化器：Adadelta，学习率＝0.001。