CN107153817A

CN107153817A - 行人重识别数据标注方法和装置

Info

Publication number: CN107153817A
Application number: CN201710297721.7A
Authority: CN
Inventors: 王华明; 赵瑞
Original assignee: Shenzhen Shenzhen Horizon Technology Co Ltd
Current assignee: Shenzhen Shenzhen Horizon Technology Co Ltd
Priority date: 2017-04-29
Filing date: 2017-04-29
Publication date: 2017-09-12
Anticipated expiration: 2037-04-29
Also published as: CN107153817B

Abstract

本发明公开了行人重识别数据标注方法和装置，其中该方法以下步骤：获取待标注的图片序列，所述图片序列包括待标图片；从所述待标图片获取行人图片；抽取所述行人图片的特征；根据所述特征对所述行人图片进行聚类，得到结果类；计算所述结果类与目标类的距离；将与所述目标类的距离符合匹配条件的结果类作为匹配类。通过首先从待标图片获取行人图片，然后抽取行人图片的特征，再根据特征对行人图片进行聚类，得到结果类；然后根据结果类与目标类的距离筛选出匹配类。匹配类中的行人图片与目标类中的行人图片有较大可能是同一个人，至此完成行人重识别数据的标注。行人重识别准确率较高，可以用于多摄像头的多视角影像的行人重识别。

Description

行人重识别数据标注方法和装置

技术领域

本发明涉及视频分析技术，特别涉及行人重识别数据标注方法和装置。

背景技术

行人重识别技术旨在识别不同视角的非重叠监控场景下的行人身份，特别在监控视频的应用中，有较大的应用前景。由于不同监控场景下行人图像受背景，光照，朝向等影响较大，因此行人重识别一直是图像识别中难度较大的一方面。

目前，行人标识一般通过人手工标注。人手工标注的流程是：从不同视角的非重叠场景中找出同一个人，并把包含该行人的坐标限定框对应的像素截取出来，并且为每个人分配不同的ID。从不同视角的非重叠场景中找出同一个人，找的过程会耗费很多精力，并且出错概率大。

也有一些基于人脸检测、多目标分类技术来标注的。但是此类标注方法只能应用于单目摄像头场景。而行人重识别需要匹配多摄像头下的人，目前没有这种类型的自动标注方法。

发明内容

为了克服现有技术的不足，本发明的目的在于提供行人重识别数据标注方法和装置，其能解决现有的人手工标注过程会耗费很多精力，并且出错概率大，基于人脸检测、多目标分类技术来标注只能应用于单目摄像头场景的问题。

本发明的目的采用以下技术方案实现：

行人重识别数据标注方法，包括以下步骤：

获取待标注的图片序列，所述图片序列包括待标图片；

从所述待标图片获取行人图片；

抽取所述行人图片的特征；

根据所述特征对所述行人图片进行聚类，得到结果类；

计算所述结果类与目标类的距离；

将与所述目标类的距离符合匹配条件的结果类作为匹配类。

进一步地，在所述获取待标注的图片序列时，还包括以下子步骤：

获取所述待标图片的标识号，所述标识号包括视角码和顺序码；

在所述从所述待标图片获取行人图片时，还包括以下子步骤：

分别将所述行人图片与一编码号相关联，所述编码号包括相应的所述待标图片的标识号和所述行人图片的序号。

进一步地，在所述计算所述结果类与目标类的距离之前，还包括以下步骤：

根据相应的所述编码号中的标识号对所述结果类进行筛选；

或者，在所述将与所述目标类的距离符合匹配条件的结果类作为匹配类之后，还包括以下步骤：

根据相应的所述编码号中的标识号对所述匹配类进行筛选。

进一步地，所述抽取所述行人图片的特征，具体为通过行人重识别深度神经网络抽取所述行人图片的特征。

进一步地，所述行人重识别数据标注方法还包括以下步骤：

根据所述匹配类对所述行人重识别深度神经网络进行再训练。

进一步地，所述行人重识别深度神经网络包括：输入层、卷积层、规范化层、非线性映射层、池化层、全连接层和分类层；其中，所述输入层用于对所述行人图片预处理，增加样本数量。

进一步地，在所述抽取所述行人图片的特征之前，还包括以下步骤：

计算所述行人图片的前景比例或高宽比；

删去所述前景比例或高宽比不满足阈值条件的行人图片。

进一步地，所述获取待标注的图片序列，具体为获取根据视频位置、视频时间、人流量或行人相似度中的至少一种筛选后的视频数据。

行人重识别数据标注装置，包括：

第一获取模块，用于获取待标注的图片序列，所述图片序列包括待标图片；

第二获取模块，用于从所述待标图片获取行人图片；

特征模块，用于抽取所述行人图片的特征；

聚类模块，用于根据所述特征对所述行人图片进行聚类，得到结果类；

计算模块，用于计算所述结果类与目标类的距离；

匹配模块，用于将与所述目标类的距离符合匹配条件的结果类作为匹配类。

进一步地，所述特征模块包括：

行人重识别深度神经网络单元，用于抽取所述行人图片的特征；

再训练网络单元，用于根据所述匹配类对所述行人重识别深度神经网络进行再训练。

行人重识别数据标注装置，包括：

处理器以及用于存储处理器可执行的指令的存储器；

所述处理器被配置为：

获取待标注的图片序列，所述图片序列包括待标图片；

从所述待标图片获取行人图片；

抽取所述行人图片的特征；

根据所述特征对所述行人图片进行聚类，得到结果类；

计算所述结果类与目标类的距离；

将与所述目标类的距离符合匹配条件的结果类作为匹配类。

相比现有技术，本发明的有益效果在于：通过首先从待标图片获取行人图片，然后抽取行人图片的特征，再根据特征对行人图片进行聚类，得到结果类；然后根据结果类与目标类的距离筛选出匹配类。匹配类中的行人图片与目标类中的行人图片有较大可能是同一个人，至此完成行人重识别数据的标注。行人重识别准确率较高，可以用于多摄像头的多视角影像的行人重识别。

附图说明

图1是本发明实施例一提供的行人重识别数据标注方法的流程示意图。

图2是本发明实施例二提供的行人重识别数据标注方法的流程示意图。

图3是本发明实施例三提供的行人重识别数据标注装置的结构示意图。

图4是本发明实施例四提供的行人重识别数据标注装置的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例：

实施例一：

如图1所示的行人重识别数据标注方法，包括以下步骤：

步骤S110，获取待标注的图片序列，所述图片序列包括待标图片；在另一实施例中，图片序列包含不同摄像机在不同视角下拍摄的影像。

步骤S120，从所述待标图片获取行人图片；

进一步地，所述从所述待标图片获取行人图片，具体为通过行人检测深度神经网络，根据行人检测深度神经网络输出的包含行人的坐标信息分别抠出对应的所有行人图片。行人检测深度神经网络是专门用于找出检测图片中的行人坐标位置的一种深度神经网络模型，其搭建、训练和使用均属于现有技术，不再赘述。

步骤S130，抽取所述行人图片的特征；

具体的，行人图片特征的抽取可以通过现有的图像识别算法实现，属于现有技术。

作为本发明的进一步改进，所述抽取所述行人图片的特征，具体为通过行人重识别深度神经网络抽取所述行人图片的特征。

优选的，所述行人重识别深度神经网络包括：输入层、卷积层、规范化层、非线性映射层、池化层、全连接层和分类层。

行人重识别深度神经网络模型训练过程如下：

1、准备训练数据；行人重识别的训练数据是同一个人的不同形态的行人图片。

2、构建行人重识别的深度神经网络；该深度神经网络包括输入层，卷积层，规范化层，非线性映射层，池化层，全连接层以及分类层。

其中，输入层输入为行人图片，输入层可以用于对行人图片进行预处理，如镜像，随机剪裁等操作，旨在增加训练样本数量。该深度神经网络包括多个卷积层，第一个卷积层的输入是经过输入层处理过的行人图片，输出为图像特征；后面的卷积层输入与输出都是图像特征。每个卷积层输出都带了一个规范化层，规范化层优化了训练，在非线性映射层之前对数据做了规范化，易化网络训练，加快收敛速度。最后一个规范化层的输出作为非线性映射层的输入，非线性映射层通过非线性函数，对卷积层输出的特征进行非线性变换，使得其输出的特征有较强的表达能力。池化层可以进行多对一的映射操作，该层可进一步强化所学习特征的非线性，同时还可以减小输出特征的大小，降低网络参数。全连接层是对输入的特征做线性变换，将学习的特征投影到更利于预测的子空间。最后为分类层，可以采用softmax损耗层，用于计算预测类别和标签类别的误差。

3、利用梯度下降法，迭代更新上一步中所述各层的参数，使得模型的预测类别和标签类别的误差小于设定好的阈值。

步骤S140，根据所述特征对所述行人图片进行聚类，得到结果类；

进一步地，所述根据所述特征对所述行人图片进行聚类，具体为采用dbscan(Density-Based Spatial Clustering of Applications with Noise)等聚类算法，把所述行人图片的特征作为输入，为行人图片聚类，某一结果类里可以包含一个或多个相似的行人图片。

dbscan聚类算法是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

步骤S150，计算所述结果类与目标类的距离；

目标类可以为某一个结果类，也可以是一张或多张指定的行人图片构成的类。具体的，所述结果类与目标类的距离为来自于结果类与目标类中的图片相互之间行人重识别特征距离的最小值。如果某结果类中有10张行人图片，目标类中有6张行人图片，则该结果类与目标类中的图片相互之间行人重识别特征距离有10*6＝60个，这60个距离里的最小值为结果类与目标类的距离。

距离可以是欧氏距离、余弦距离等，通过现有技术可以计算。

步骤S160，将与所述目标类的距离符合匹配条件的结果类作为匹配类。

如果某结果类与目标类之间的距离小于预设值，即认为该结果类符合匹配条件，可以作为匹配类。预设值可以根据经验和有限次的实验确定。匹配类中的行人图片与目标类中的行人图片有较大可能是同一个人，至此完成行人重识别数据的标注。

本发明通过首先从待标图片获取行人图片，然后抽取行人图片的特征，再根据特征对行人图片进行聚类，得到结果类；然后根据结果类与目标类的距离筛选出匹配类。匹配类中的行人图片与目标类中的行人图片有较大可能是同一个人，至此完成行人重识别数据的标注。行人重识别准确率较高，可以用于多摄像头的多视角影像的行人重识别，在用于多视角行人重识别数据标注时，只需要分别对不同视角下的图片序列执行上述步骤即可。

在另一实施例中，作为本发明的进一步改进，所述行人重识别数据标注方法中，在步骤S130抽取所述行人图片的特征之前，还包括以下步骤：

步骤S121，计算所述行人图片的前景比例或高宽比；

行人图片的前景可以表示人体；人体占行人图片的比例或行人图片的高宽比也需要落在阈值区间才能更好地抽取特征，提高准确率。

步骤S122，删去所述前景比例或高宽比不满足阈值条件的行人图片。

阈值条件具体为前景比例或高宽比位于一定的阈值区间，该阈值区间可以通过经验或者有限次的试验得到。

在摄像机采集待标图片时，难免有一些图片中背景占比过大，或有物体遮挡行人，此时行人图片可能没有利用价值。通过删去这部分不符合要求的行人图片以减小计算量，防止误标注。

具体的，行人图片的前景可以通过现有的算法分割出来。在本实施例中，使用背景分割深度神经网络模型来实现，背景分割深度神经网络模型是专门用于去除输入图片中的背景的一种深度神经网络模型。计算每张行人图片的前景面积占整张行人图片面积的比例，如果该比例小于预设阈值，就删去该行人图片或者不对该行人图片进行下一步处理。预设阈值可以通过经验或者有限次的实验得到。

在本实施例中，背景分割深度神经网络模型构建和训练过程如下：

1、准备训练数据；该模型的训练数据是行人图片以及对应的去除过背景后的行人图片。

2、构建深度神经网络模型；在现有技术公开的深度神经网络的基础上做了如下改进：在池化层后没有接全连接层，而是接了反卷积层，在反卷积层后接的是交叉熵损失函数层(Sigmoid Cross Entropy Loss Layer)。反卷积层的操作和卷积层的操作刚好相反，目的在于得到更大的特征图；交叉熵损失函数层用于计算模型输出的特征图与标签图的误差。

3、利用梯度下降法，迭代更新深度神经网络模型各层参数，使得深度神经网络模型输出的特征图与标签图的误差小于设定好的阈值。

在另一实施例中，还过滤掉了高宽比大于某个阈值的行人图片，这个阈值可以通过行人身高与体宽的比值计算得到，可以进一步缩小标注数据的规模，节省标注时间。

实施例二：

如图2所示的行人重识别数据标注方法，包括以下步骤：

步骤S210，获取待标注的图片序列，所述图片序列包括待标图片；

步骤S210还包括子步骤S211，获取所述待标图片的标识号，所述标识号包括视角码和顺序码；

步骤S210获取的图片序列V中，包括若干待标图片V_i,j；其中，下标i为视角码，表示待标图片V_i,j来自第i个视角；j为顺序码，表示待标图片V_i,j为这个视角下的j号图片；视角码和顺序码组成了待标图片的标识号。标识号与待标图片一一对应，通过待标图片的标识号可以得知该待标图片采集的地点、时间等信息。

步骤S220，从所述待标图片获取行人图片；

步骤S220还包括子步骤S221，分别将所述行人图片与一编码号相关联，所述编码号包括相应的所述待标图片的标识号和所述行人图片的序号。

步骤S220中从所述待标图片V_i,j获取的行人图片可能有多个，相应的给行人图片也标上号。如行人图片P_i,j,k，表示该行人图片来自待标图片V_i,j，为待标图片V_i,j中的第k个行人。即行人图片与一编码号相关联。

步骤S230，抽取所述行人图片的特征；

步骤S240，根据所述特征对所述行人图片进行聚类，得到结果类；

步骤S250，计算所述结果类与目标类的距离；

步骤S260，将与所述目标类的距离符合匹配条件的结果类作为匹配类。

步骤S210-S260，分别对应实施例一中的S110-S160，不再赘述。

在本实施例中，经过步骤S240对i视角下的行人图片进行聚类，聚类出的结果包括结果类C_i,s，其中i代表第几个视角，s代表第几个结果类。

如果选中m视角下的第n个结果类C_m,n为目标类，依次计算i视角下的各结果类与结果类C_m,n之间的距离，并判断距离是否符合匹配条件。在本实施例中，匹配条件可以是i视角下该结果类与结果类C_m,n之间的距离最近；在另一实施例中，可以是i视角下所有结果类与结果类C_m,n之间的距离由近至远排列的前几个结果类，然后进一步筛选出这几个结果类中哪个结果类与目标类最匹配，最匹配的结果类作为匹配类。例如，可以目视判断结果类中的行人图片与目标类中行人图片的相似程度，然后确定匹配类。

匹配类中包含有行人图片，由于行人图片与编码号相关联，通过该编码号即可得到与目标类匹配的行人于何时何地出现在哪一个视角中，达到视频点位配对的目的。

依次对不同视角下的图片序列执行步骤S210-步骤S221，即可得到所有视角下的匹配类，实现多视角情景下的行人重识别数据标注。

依次设置i视角下各结果类为目标类，即可实现针对于i视角下行人的多视角行人重识别数据标注。

进一步地，在步骤S260将与所述目标类的距离符合匹配条件的结果类作为匹配类之后，还包括以下步骤：

步骤S261，根据相应的所述编码号中的标识号对所述匹配类进行筛选。

在另一实施例中，行人重识别数据标注方法在步骤S250计算所述结果类与目标类的距离之前，还包括以下步骤：

步骤S241，根据相应的所述编码号中的标识号对所述结果类进行筛选。

由于一个人不可能在同一张图片里出现在不同的位置，可以根据行人图片的编码号把没有正确聚类的结果类或匹配类去掉。如果某个结果类中两个行人图片的编码号的标识号部分相同，即表示该结果类没有正确聚类。

作为本发明的进一步改进，行人重识别数据标注方法还包括：

步骤S270，根据所述匹配类对所述行人重识别深度神经网络进行再训练。

本发明得到的行人重识别标注数据可以用来再训练行人重识别深度神经网络。训练数据包括匹配类和/或目标类中的行人图片，深度神经网络训练的方法属于现有技术，不再赘述。由于训练数据增多，样本准确度提高，新的行人重识别深度神经网络模型在抽取行人图片的特征和行人重识别上的能力增强。再训练后的的模型替换步骤S230中的行人重识别深度神经网络模型，可以进一步得到更好的标注效果。

作为本发明的进一步改进，步骤S210所述获取待标注的图片序列，具体为获取根据视频位置或视频时间或人流量筛选后的视频数据。

一般情况下，用于行人重识别的视频数据是海量的视频，如果能对海量视频进行筛选，根据视频位置或视频时间或人流量选出有针对性的视频数据作为待标注的图片序列，可以大大减少工作量，提高标注准确率。具体的，筛选可以包括以下四种手段中的至少一种：

1.基于位置的筛选。在大部分公安视频监控系统以及大规模，宽领域的监控系统中，都提供了视频点位的经纬度或者经过转换的坐标信息。由于距离远的视频不满足筛选条件，故可剔除距离在设定阈值之外的视频数据。

2.根据时间的筛选。只有在时间段符合要求的情况下进行标注才有意义。一般所采集的视频都有时间信息，可以根据时间信息去除不满足时间段条件的视频数据。

3.基于人流量的筛选。在海量的视频中，位于工业区，荒郊等地方的点位人流量稀少，这类视频对行人数据的贡献率低，性价比低，故可以剔除这类视频。具体的，通过预先训练好的行人检测模型对视频进行人流量检测，当一定时间段内检测到的行人数量小于设定阈值时，剔除该视频数据，留下满足人流量条件的视频数据。

4.基于行人相似度的筛选。根据预先训练好的行人重识别深度神经网络对海量视频进行筛选，将从不同视角的视频中检测到的行人进行比对，当比对的行人的相似度达到设定阈值并且相似度达到设定阈值的行人的数量超过一定数量的时候，认为该视频数据可以作为待标注的图片序列。

实施例三：

如图3所示的行人重识别数据标注装置，包括：

第一获取模块110，用于获取待标注的图片序列，所述图片序列包括待标图片；

第二获取模块120，用于从所述待标图片获取行人图片；

特征模块130，用于抽取所述行人图片的特征；

聚类模块140，用于根据所述特征对所述行人图片进行聚类，得到结果类；

计算模块150，用于计算所述结果类与目标类的距离；

匹配模块160，用于将与所述目标类的距离符合匹配条件的结果类作为匹配类。

进一步地，所述特征模块130包括：

再训练单元，用于根据所述匹配类对所述行人重识别深度神经网络进行再训练。

本实施例中的装置与前述实施例中的方法是基于同一发明构思下的两个方面，在前面已经对方法实施过程作了详细的描述，所以本领域技术人员可根据前述描述清楚地了解本实施中的系统的结构及实施过程，为了说明书的简洁，在此就不再赘述。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的，作为模块或单元示意的部件可以是或者也可以不是物理模块，既可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等，如实施例四。

实施例四：

如图4所示的行人重识别数据标注装置，包括：处理器200以及用于存储处理器200可执行的指令的存储器300；

所述处理器200被配置为：

获取待标注的图片序列，所述图片序列包括待标图片；

从所述待标图片获取行人图片；

抽取所述行人图片的特征；

根据所述特征对所述行人图片进行聚类，得到结果类；

计算所述结果类与目标类的距离；

将与所述目标类的距离符合匹配条件的结果类作为匹配类。

本发明实施例提供的行人重识别数据标注装置，通过首先从待标图片获取行人图片，然后抽取行人图片的特征，再根据特征对行人图片进行聚类，得到结果类；然后根据结果类与目标类的距离筛选出匹配类。匹配类中的行人图片与目标类中的行人图片有较大可能是同一个人，至此完成行人重识别数据的标注。行人重识别准确率较高，可以用于多摄像头的多视角影像的行人重识别。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.行人重识别数据标注方法，其特征在于，包括以下步骤：

获取待标注的图片序列，所述图片序列包括待标图片；

从所述待标图片获取行人图片；

抽取所述行人图片的特征；

根据所述特征对所述行人图片进行聚类，得到结果类；

计算所述结果类与目标类的距离；

将与所述目标类的距离符合匹配条件的结果类作为匹配类。

2.如权利要求1所述的行人重识别数据标注方法，其特征在于：

在所述获取待标注的图片序列时，还包括以下子步骤：

3.如权利要求2所述的行人重识别数据标注方法，其特征在于：

在所述计算所述结果类与目标类的距离之前，还包括以下步骤：

根据相应的所述编码号中的标识号对所述结果类进行筛选；

根据相应的所述编码号中的标识号对所述匹配类进行筛选。

4.如权利要求1所述的行人重识别数据标注方法，其特征在于：所述抽取所述行人图片的特征，具体为通过行人重识别深度神经网络抽取所述行人图片的特征。

5.如权利要求4所述的行人重识别数据标注方法，其特征在于，还包括以下步骤：

6.如权利要求4所述的行人重识别数据标注方法，其特征在于：所述行人重识别深度神经网络包括：输入层、卷积层、规范化层、非线性映射层、池化层、全连接层和分类层；其中，所述输入层用于对所述行人图片预处理，增加样本数量。

7.如权利要求1-5中任一项所述的行人重识别数据标注方法，其特征在于：在所述抽取所述行人图片的特征之前，还包括以下步骤：

计算所述行人图片的前景比例或高宽比；

删去所述前景比例或高宽比不满足阈值条件的行人图片。

8.如权利要求1-5中任一项所述的行人重识别数据标注方法，其特征在于：所述获取待标注的图片序列，具体为获取根据视频位置、视频时间、人流量或行人相似度中的至少一种筛选后的视频数据。

9.行人重识别数据标注装置，其特征在于，包括：

第二获取模块，用于从所述待标图片获取行人图片；

特征模块，用于抽取所述行人图片的特征；

计算模块，用于计算所述结果类与目标类的距离；

10.如权利要求9所述的行人重识别数据标注装置，其特征在于，所述特征模块包括：

11.行人重识别数据标注装置，其特征在于，包括：

处理器以及用于存储处理器可执行的指令的存储器；

所述处理器被配置为：

获取待标注的图片序列，所述图片序列包括待标图片；

从所述待标图片获取行人图片；

抽取所述行人图片的特征；

根据所述特征对所述行人图片进行聚类，得到结果类；

计算所述结果类与目标类的距离；

将与所述目标类的距离符合匹配条件的结果类作为匹配类。