CN105354548B

CN105354548B - 一种基于ImageNet检索的监控视频行人重识别方法

Info

Publication number: CN105354548B
Application number: CN201510729442.4A
Authority: CN
Inventors: 王中元; 邵振峰; 胡瑞敏; 梁超
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2018-10-26
Anticipated expiration: 2035-10-30
Also published as: CN105354548A

Abstract

本发明公开了一种基于ImageNet检索的监控视频行人重识别方法，将行人重识别问题转化为活动目标图像库的检索问题，从而能够利用ImageNet隐含层特征强大的分类能力。步骤包含：预处理监控视频，去掉视频中大量无关的静态背景视频；采用运动补偿帧差法分离出动态视频帧中的活动目标，构造行人图像库和组织索引表；将行人图像库中的图像与目标行人图像进行尺寸和亮度的对齐；利用ImageNet深度学习网络训练目标行人图像和图像库中图像的隐含特征，进行基于余弦距离相似度的图像检索；按时间顺序将包含识别结果的关联视频聚合成再现行人活动轨迹的视频片段。本发明方法能更好地适应光照、视角、姿态和尺度的变化，有效提升了跨摄像头环境下行人重识别结果的精度和鲁棒性。

Description

一种基于ImageNet检索的监控视频行人重识别方法

技术领域

本发明属于视频分析技术领域，涉及一种监控视频行人重识别分析方法，具体涉及一种基于ImageNet检索的监控视频行人重识别方法。

技术背景

公安破案中往往需要从大量地理位置分散、覆盖范围大、时间跨度长的监控视频中追踪嫌疑目标，现有的人工排查录像方式因效率低下极易错过最佳破案时机，刑侦业务迫切需要自动化分析与检索技术的支持。在这样的背景下，行人重识别技术应运而生。行人重识别是指在照射区域无重叠的多摄像头画面下自动匹配同一行人对象的技术，用以快速、准确地发现嫌疑人在多摄像头下的活动画面和轨迹。

以人脸识别为代表的生物特征识别推广到监控环境下的行人重识别存在巨大的障碍，原因在于监控视频画面的分辨率较差、行人对象尺度较小以及行人对象姿态的随意性等因素，导致人脸、步态等生物特征难以提取。因此，行人重识别主要依靠行人的外貌特征(如衣着服饰颜色、佩戴物等)来进行。在现有基于外貌的行人重识别研究中，研究者围绕特征提取和特征相似性度量发展了许多方法，然而这些方并没有充分考虑现实应用的挑战。首先，行人重识别问题中的图片来源于不同的摄像头，由于不同摄像头所处的角度、光照等环境的影响，同一个行人的不同图片中，外貌特征会有一定程度的变化；相反，由于行人姿势及摄像头角度的变化，在不同摄像头中，不同行人的外貌特征可能比同一个人的外貌特征更相似。其次，基于监督学习的行人重识别的性能严重依赖训练样本的数量，公安破案一般具有极强的时效性要求，往往很难在短时间内标注大量的样本。再有，现有研究大多基于行人已经得到分离的标准测试数据集，然而在实际的监控视频应用中，行人图像和背景及其它目标混合在一起，无法直接使用行人重识别技术识别行人。

颜色、纹理、梯度等底层视觉特征易受光照、拍摄角度、行人走路姿态、尺度等各种因素的影响，寻找对监控环境变化稳健的中高层特征是一件困难的事情。深度学习网络通过模拟人脑的人知机理，能够自动学习出图像中大量高维、具有泛化能力的隐含特征，克服了传统的机器学习任务中针对不同问题手工设计不同特征的缺陷。因此，通过深度学习产生行人跨摄像机不变的本质的内在属性特征，代替手工设计的SIFT、LBP、HOG等特征进行行人重识别，有望提高行人重识别技术的环境适应能力。但是一个现实的问题是，大规模深度学习网络的训练需要庞大标注的训练集，且训练过程极其漫长，这些不能被破案时间受限的刑侦业务所忍受。最近几年，深度学习界流行采用ImageNet模型解决机器学习问题，ImageNet是一个通过百万级标注的图像训练得到的多层的卷积神经网络模型，其强大的能力已经在图像分类、人脸识别、物体检测等方面得到证实。而且，ImageNet尽管是通过自然图像训练得到，但由于其具备深度学习模型普遍具有的泛化能力，在遥感图像、医学图像等领域也得到成功应用。因此，可以直接采用ImageNet上训练得到的模型，或者以ImageNet上训练的模型为起点继续训练出改进的模型，将行人图像映射为隐含层的特征表达，从而将行人重识别问题转化为ImageNet模型擅长的图像检索问题。

发明内容

为了解决上述技术问题，本发明提供了一种基于ImageNet检索的监控视频行人重识别方法。

本发明所采用的技术方案是：一种基于ImageNet检索的监控视频行人重识别方法，其特征在于，包括以下步骤：

步骤1：对原始监控视频进行预处理；

解析压缩的监控视频中每帧图像运动矢量，计算运动矢量的强度，排除视频中的大量低活动复杂度的无关背景帧，只保留活动视频帧用于后续分析；

步骤2：行人提取；

根据步骤1产生的精简监控视频，采用帧差法分离出动态视频帧中的活动目标，构造行人图像库，图像库中的每幅图像包含指向原始监控录像文件及其所在帧的索引；

步骤3：行人图像库对齐；

将行人图像库中的图像与目标行人图像进行尺寸和亮度的对齐；

步骤4：ImageNet图像检索；

将目标行人图像和行人图像库中的图像映射成ImageNet深度学习网络的隐含层特征，通过余弦距离度量特征间的相似度，按相似度排序，挑选排序最靠前的一组图像作为检索结果输出；

步骤5：关联视频聚合；

将步骤4识别出的行人图像对应到各自原始监视视频帧，按时间顺序将相关视频帧聚合成再现目标行人活动轨迹的视频片段。

作为优选，步骤1的具体实现包括以下子步骤：

步骤1.1：根据监控视频录像的编码格式，用相应标准的解码器解析出N个运动矢量数据MV_i；

步骤1.2：用计算所有运动矢量数据的总能量，得到运动矢量强度S；

步骤1.3：将运动矢量强度S与门限T比较，大于门限的视频帧标记为1，否则标记为0；标记为1的视频帧保留，标记为0的视频帧去掉。

作为优选，步骤2的具体实现包括以下子步骤：

步骤2.1：根据步骤1产生的精简监控视频，利用步骤1中解析的运动矢量数据，参考前一帧作运动补偿，求取帧差图像，进而令帧差图像中绝对值大于预设门限Td的像素为1，否则为0；

步骤2.2：使用Canny算子对视频帧进行边缘检测，得到二值化的前景图像，将前景图像与帧差法的检测结果进行“或”运算融合，产生融合后的前背景分割图像；

步骤2.3：采用区域连通法检测前景中的连通区，进而估计出两个连通区的距离，如果距离小于设定的阈值则将连通区整合成一个目标，实现破碎目标的合并；

步骤2.4：框定每个独立活动目标的最大外接矩形，然后将对应的原始视频帧中同一位置处的活动对象图像扣取出来，记录到行人图像库，同时索引其所在的监控录像文件名和视频帧编号。

作为优选，步骤3的具体实现包括以下子步骤：

步骤3.1：为便于利用ImageNet深度学习网络模型，行人图像库中的图像和待识别的目标行人图像统一缩放到ImageNet规定的尺寸224x224像素；

步骤3.2：为消除光照变化的影响，将行人图像库中图像的亮度校正到与目标图像一致，校正方法为将图像库里图像乘以一个增益因子这里X为目标图像，Y_i为图像库中的第i图像，“T”代表矩阵转置运算。

作为优选，步骤4的具体实现包括以下子步骤：

步骤4.1：将目标图像和行人图像库中的图像逐一输入到已训练好的ImageNet深度学习网络模型，进行反向传播更新训练产生隐含层特征；

步骤4.2：抽取ImageNet最高隐含层的第20个4096维的特征，再对特征矢量进行softmax处理；

步骤4.3：为方便用余弦距离度量相似性，对特征进行L2归一化即这里||||₂表示L2-范数；

步骤4.4：采用余弦距离度量方式对特征进行匹配，逐一计算目标图像和行人图像库中图像特征间的余弦距离，将距离由小到大排序，选择排序靠前的一组图像作为识别结果。

作为优选，步骤5的具体实现包括以下子步骤：

步骤5.1：根据行人图像索引的文件名和帧编号，定位原始监控视频录像中关联视频的位置，并提取出视频片段；

步骤5.2：将视频片段按监控点分类，每个监控点中的视频片段按时间顺序组合起来，进而将不同监控点的组合视频片段按空间位置聚合，得到行人活动轨迹视频。

相比于现有的手工设计特征的行人重识别方案，本发明方法具有如下优点和积极效果：

(1)本发明方法利用通过海量标注数据训练出来的ImageNet深度学习网络模型强大的特征表达和泛化能力，学习监控环境下行人跨摄像头不变的内在属性特征，克服了传统手工设计特征无法很好适应光照、视角、姿态和尺度变化的缺陷，有效提升了实际监控环境下行人重识别的精度和环境适应能力；

(2)本发明方法综合了行人提取和关联视频聚合过程，能够直接分析实际的监控视频而不限于独立的行人图像，且通过将海量监控录像中检索到的行人活动画面汇聚成一个视频片段，形象再现了行人的时空活动轨迹，具有更好的实际使用价值；

(3)本发明方法的核心部分由训练好且被公开的ImageNet模型提供，省去了人工标注数据和训练网络模型的繁重工作，因而具有简单易实现的优点。

附图说明

图1：本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

现有的大量行人重识别研究建立在单一由行人构成的标准数据集上，但现实应用中行人并没有从监控视频中分离出来，而是与背景及其它前景目标混合在一起，通过手工标注的方式分离行人对于海量监控视频来说不切实际，因此，有实际使用价值的行人重识别方法应该能够直接处理监控视频而非单张行人图像。视频中的目标检测本身就是一件非常困难的任务，但监控视频的两个固有特性可被利用简化这一问题的难度：首先，摄像头位置固定的监控视频的背景基本不变，视频内容的变化主要来自前景监控目标的移动，简单的帧差法就可以提取出运动目标轮廓，即使被分离出来的目标中包含行人之外的其它目标(如车辆)，也不影响ImageNet对真正行人的识别；其次，监控视频采用压缩格式保存，压缩域中的运动矢量信息天然地反映了画面的运动程度，可用于清洗掉大量无关的静态背景视频，精简数据分析规模，也可通过运动补偿帮助提升帧差法的效果。

深度学习网络具有多个隐含层，每个隐含层都会给出一组高维特征，究竟选择哪些特征用于行人识别，需要结合实际识别效果精心选取。

行人重识别的作用是利用视频数据，追踪和还原犯罪嫌疑人的活动轨迹，因此，实用性的行人重识别方法应能将不同摄像头下出现的同一行人画面聚合成一个按时间顺序发展的完整视频片段，便于直观地再现犯罪活动的时空发展过程。

基于上述思想，本发明提供了一种基于ImageNet检索的监控视频行人重识别方法，请见图1，本发明的具体实现包括以下步骤：

步骤1：预处理。解析压缩的监控视频中每帧图像运动矢量，计算运动矢量的强度，排除视频中的大量低活动复杂度的无关背景帧，只保留活动视频帧用于后续分析；

作为一种具体实现，包含如下子步骤：

步骤1.1：根据监控视频录像的编码格式(如H.264，MPEG-4)，用相应标准的解码器解析出N个运动矢量数据MV_i；

步骤1.2：用式计算所有运动矢量数据的总能量，得到运动矢量强度S；

步骤1.3：将运动矢量强度S与门限T比较，大于门限的视频帧标记为1(保留)，否则标记为0(去掉)。

步骤2：行人提取。根据步骤1产生的精简监控视频，采用帧差法分离出动态视频帧中的活动目标，构造行人图像库，图像库中的每幅图像包含指向原始监控录像文件及其所在帧的索引；

作为一种具体实现，包含如下子步骤：

步骤2.1：对标记为1的活动视频帧，利用步骤1中解析的运动矢量数据，参考前一帧作运动补偿，求取帧差图像，进而令帧差图像中绝对值大于预设门限Td的像素为1，否则为0；

运动补偿以16x16像素的图像块为单位相对参考帧执行，执行过程与视频编码技术中的步骤完全一致，将当前帧减去运动补偿帧，就得到帧差图像。由于巧妙利用了压缩域携带的运动矢量信息，从而省去了求取运动矢量需要的繁重的运动估计运算。

具体算法如下：

(1)获得二值化的前背景分割图像I中所有的连通区，把每个连通区记录在链表L中，设L(i)表示第i个连通区，链表长度为N；

(2)定义一个长度为N的标记数组A，A[i]的值k表示第i个连通区属于第k个目标，初始认为每个连通区都是一个独立的目标，即A[i]＝i；

(3)取链表L中一个未读元素L(i)，将其标记为已读，如果元素全部为已读则转向(6)；

(4)取链表L中一个不同于L(i)的元素L(j)，满足A(i)≠A(j)且L(j)未与L(i)进行处理，标记L(j)已经与L(i)进行过处理，按照下式估计两个连通区的距离D：

(5)比较D与阈值Tc，若D＜Tc，认为连通区L(i)和L(j)属于同一目标，将标记数组A的第i和第j个元素设为相同值i，表示连通区L(i)和L(j)属于目标i；若L(i)于其他的节点都进行了(4)(5)两步处理则返回步骤(3)，否则返回(4)；

(6)将标记数组A中具有相同值的元素的下标代表的连通区整合在一起，形成一个目标，完成破碎目标的合并。

行人图像库索引表的一种组织格式为，包含三个字段：行人图像命名，原始监控录像文件名，帧编号。

步骤3：行人图像库对齐。将行人图像库中的图像与目标行人图像进行尺寸和亮度的对齐；

作为一种具体实现，包含如下子步骤：

步骤3.1：为便于利用ImageNet深度学习网络模型，图像库中的图像和待识别的目标行人图像统一缩放到ImageNet规定的尺寸224x224像素；

步骤3.2：为消除光照变化的影响，将图像库中图像的亮度校正到与目标图像一致，校正方法为将图像库里图像乘以一个增益因子这里X为目标图像，Y_i为图像库中的第i图像，“T”代表矩阵转置运算。

步骤4：ImageNet图像检索。将目标行人图像和图像库中的图像映射成ImageNet深度学习网络的隐含层特征，通过余弦距离度量特征间的相似度，按相似度排序，挑选排序最靠前的一组图像作为检索结果输出；

作为一种具体实现，包含如下子步骤：

步骤4.1：将目标图像和图像库中的图像逐一输入到已训练好的ImageNet深度学习网络模型，进行反向传播更新训练产生隐含层特征；

具体实现上，选择公开的ImageNet模型imagenet-vgg-f.mat，利用开源的卷积神经网络工具包MatConvNet进行学习，通过函数vl_simplenn进行反向传播更新训练产生隐含层特征。

步骤4.2：抽取ImageNet最高隐含层的第20个4096维的特征(其它特征检索效果要差)，再对特征矢量进行softmax处理；

softmax回归的基本思想是计算样本属于某一个类的概率，从而选择概率最大的那一个作为最终的结果。softmax是机器学习中的成熟技术，在此不再赘述。

步骤4.4：采用余弦距离度量方式对特征进行匹配，逐一计算目标图像和图像库中图像特征间的余弦距离，将距离由小到大排序，选择排序靠前的一组图像作为识别结果。

步骤5：关联视频聚合。将步骤4识别出的行人图像对应到各自原来的视频帧，按时间顺序将相关视频帧聚合成再现目标行人活动轨迹的视频片段。

作为一种具体实现，包含如下子步骤：

具体定位方法为：根据行人图像名称，搜索索引表，找到其所在的记录，然后根据索引表的原始录像文件名称找到对应的录像文件，根据索引表的帧编号找到对应的视频帧。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于ImageNet检索的监控视频行人重识别方法，其特征在于，包括以下步骤：

步骤1：对原始监控视频进行预处理；

步骤2：行人提取；

步骤3：行人图像库对齐；

步骤4：ImageNet图像检索；

步骤5：关联视频聚合；

2.根据权利要求1所述的基于ImageNet检索的监控视频行人重识别方法，其特征在于，步骤1的具体实现包括以下子步骤：

3.根据权利要求1所述的基于ImageNet检索的监控视频行人重识别方法，其特征在于，步骤2的具体实现包括以下子步骤：

4.根据权利要求1所述的基于ImageNet检索的监控视频行人重识别方法，其特征在于，步骤3的具体实现包括以下子步骤：

5.根据权利要求1所述的基于ImageNet检索的监控视频行人重识别方法，其特征在于，步骤4的具体实现包括以下子步骤：

步骤4.3：为方便用余弦距离度量相似性，对特征进行L2归一化即这里||||₂表示L2-范数，F为上一个步骤抽取的特征；

6.根据权利要求1所述的基于ImageNet检索的监控视频行人重识别方法，其特征在于，步骤5的具体实现包括以下子步骤：