CN110609920B

CN110609920B - 一种视频监控场景下的行人混合搜索方法及系统

Info

Publication number: CN110609920B
Application number: CN201910716258.4A
Authority: CN
Inventors: 凌贺飞; 陈墨; 李平
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2022-03-18
Anticipated expiration: 2039-08-05
Also published as: CN110609920A

Abstract

本发明公开了一种视频监控场景下的行人混合搜索方法及系统，属于视频内容搜索领域，包括：视频解码得到帧图像；对帧图像分别进行人脸目标检测和行人目标检测，以分别得到行人目标的人脸快照和行人快照；识别同一帧中属于同一行人目标的人脸快照和行人快照，关联到一起；根据人脸快照提取人脸特征，并根据行人快照提取行人重识别特征，以通过特征匹配将当前帧中的行人目标与已处理完成的帧图像中的行人目标进行匹配，以获取到同一行人目标的轨迹；将行人目标ID连同该行人目标的人脸快照、行人快照、人脸特征、行人重识别特征以及轨迹信息均存储至数据库中，从而得到搜索数据库。本发明能够提供行人目标的多角度特征描述，为应用提供可靠的支持。

Description

一种视频监控场景下的行人混合搜索方法及系统

技术领域

本发明属于视频内容搜索领域，更具体地，涉及一种视频监控场景下的行人混合搜索方法及系统。

背景技术

在建设“平安城市”和“智慧城市”大背景下，城市中摄像头的安装数量呈现出爆炸式增长，随之而来的就是产生的海量视频数据。如何科学高效的使用这些视频数据来分析产生有价值的信息便成为一个重要的研究课题。对视频中的行人目标进行搜索，进而实现对对视频中的行人目标的识别和跟踪，具有重要的研究意义和实用价值。

行人检测和人脸检测是对视频中的行人目标进行搜索的常用方法。行人检测(Person Detection)的目的是确定图像是否有行人，如果有行人，则返回包含行人的图像区域的位置。人脸检测(Face Detection)的目的是确定图像中是否有人脸，如果有人脸，则返回包含人脸的图像区域的位置和人脸关键点坐标。

现有的针对视频监控场景进行行人目标搜索的方法中，只是单一的应用了人脸检测或者行人检测，搜索效果并不理想。在实际的应用场景下，摄像头固定的同时，行人处于运动中，而且由于环境条件变化、遮挡等原因，可能检测不到高质量人脸，也无法进一步利用搜索结果进行目标跟踪、身份验证的应用。行人检测获取到的只是目标的外观信息，没有足够的判别能力，不足以完成进一步的应用，例如，在进行身份验证时，身份信息往往是跟人脸特征相对应的，通过行人检测得到搜索结果后，也不能用于身份验证。总的来说，在视频监控场景下，现有的行人搜索方法，其搜索结果单一、鲁棒性差，不能很好地为后续应用提供可靠的支持。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种视频监控场景下的行人混合搜索方法及系统，其目的在于，提供行人目标的多角度特征描述，为视频监控场景下的应用提供可靠的支持。

为实现上述目的，按照本发明的第一方面，提供了一种视频监控场景下的行人混合搜索方法，包括：

将监控视频文件或者实时监控视频流解码为帧图像；

对帧图像分别进行人脸目标检测和行人目标检测，以分别得到行人目标的人脸快照和行人快照；

识别同一帧中属于同一行人目标的人脸快照和行人快照，并关联到一起，从而得到用于描述同一行人的人脸和外形的快照对；

根据人脸快照提取人脸特征，并根据行人快照提取行人重识别特征，以通过特征匹配将当前帧中的行人目标与已处理完成的帧图像中的行人目标进行匹配，以获取到同一行人目标的轨迹，从而实现对当前帧中行人目标的跟踪；

将行人目标ID连同该行人目标的人脸快照、行人快照、人脸特征、行人重识别特征以及轨迹信息均存储至数据库中，从而得到搜索数据库。

本发明所提供的视频监控场景下的行人混合搜索方法，对解码得到的帧图像同时进行人脸目标检测和行人目标检测，得到行人目标的人脸快照和行人快照后，会将同一帧中属于同一行人目标的人脸快照和行人快照关联到一起，由此能够提供行人目标的多角度特征描述，使得在无法检测到人脸快照时，可根据与之关联的行人快照完整搜索，在仅仅搜索到行人快照时，也可以根据与之关联的人脸快照获得更丰富的特征信息。因此，本发明所提供的视频监控场景下的行人混合搜索方法，能够提供行人目标的多角度特征描述，为视频监控场景下的应用提供可靠的支持。

进一步地，本发明第一方面所提供的视频监控场景下的行人混合搜索方法，还包括：对帧图像进行人脸目标检测以得到行人目标的人脸快照的同时，进行人脸对齐并过滤掉其中低质量的人脸图像；

其中，低质量的人脸图像包括侧脸图像和被遮挡的人脸图像。

本发明通过在检测人脸快照的同时，进行人脸对齐并过滤掉其中低质量的人脸图像(测量图像、被遮挡图像等)，能够保证后续提取到正常的人脸特征，进而保证人脸识别的精度。

进一步地，进行人脸对齐以及过滤侧脸图像的方式为：

利用预先给定的一张正脸的五个关键点(左眼、右眼、鼻子、左嘴角、右嘴角)坐标构成点集M；

通过MTCNN算法检测得到五个人脸关键点坐标，以构成点集N；

判断是否存在仿射变换矩阵A和偏移向量b，能够实现点集M和点集N之间的仿射变换，若存在，则判定该人脸图像不是侧脸图像，并根据仿射变换矩阵A和偏移向量b对点集N进行仿射变换，以实现人脸对齐；若不存在，则判定该人脸图像为侧脸图像并过滤掉该人脸图像。

进一步地，过滤被遮挡的人脸图像的方式为：

使用已训练好的MobileFaceNet网络识别人脸图像是否是被遮挡的人脸图像，若是，则过滤掉该人脸图像；否则，保留该人脸图像。

进一步地，识别同一帧中属于同一行人目标的人脸快照和行人快照，其方法包括：

对于同一帧中每一对相互交叠的人脸快照和行人快照，获得交叠区域的面积S_人脸∩S_外形以及人脸快照的面积S_人脸，以计算人脸快照和行人快照的交叠率R_Overlap为：

若R_Overlap＞R_th，则将该人脸快照及行人快照识别为同一帧中属于同一行人目标的人脸快照和行人快照；否则，判定该人脸快照及行人快照不属于同一行人目标；

其中，R_th为预设的阈值，R_th＞0。

在传统的计算方法中，以两个区域的交集与并集的比例为交叠率，而在帧图像中，行人目标的外形区域远大于人脸区域，在传统的计算方法中，所计算的交叠率很小且变化不大；本发明以人脸快照和行人快照的交叠区域的面积与人脸快照的面积之比为交叠率，并根据该交叠率来判定相互交叠的人脸快照和行人快照是否属于同一帧中的同一个行人目标，能够准确地实现人脸快照和行人快照的关联匹配。

进一步地，本发明第一方面所提供的视频监控场景下的行人混合搜索方法，还包括：

对于用户上传的待识别的第一目标快照，若为人脸快照，则提取人脸特征后，通过特征比对找到搜索数据库中与之相似的人脸快照；若为行人快照，则提取行人重识别特征后，通过特征比对找到搜索数据库中与之最相似的行人快照，并获得搜索得到的行人快照相关联的人脸快照；

根据搜索得到的人脸快照检索基础信息库，从而识别出第一目标快照所属行人的身份信息；

其中，基础信息库中存储有人脸信息及对应的身份信息。

在上述搜索模式中，本发明能够利用人脸快照或行人快照指定待识别的行人目标，通过对已经处理完成的视频进行离线分析，对其中指定的行人目标进行身份识别。

对预先上传的待预警的第二目标快照，提取其特征信息；

每次完成对当前帧中一个行人目标的跟踪后，根据第二目标快照的类型，将行人目标的人脸特征或者行人重识别特征与第二目标快照的特征信息进行相似性判定，若相似，则根据该行人目标的位置实时生成一条预警信息；若不相似，则不进行预警。

在上述搜索模式中，本发明能够利用人脸快照或行人快照指定待预警的行人目标，在对实时监控视频流进行分析的同时，找出帧图像中与指定行人目标相似的目标，从而实时给出预警信息。

按照本发明的第二方面，提供了一种视频监控场景下的行人混合搜索系统，包括：视频解码模块、检测模块、特征提取模块以及数据存储模块；

视频解码模块，用于将监控视频文件或者实时监控视频流解码为帧图像；

检测模块，用于对帧图像分别进行人脸目标检测和行人目标检测，以分别得到行人目标的人脸快照和行人快照；

检测模块，还用于识别同一帧中属于同一行人目标的人脸快照和行人快照，并关联到一起，从而得到用于描述同一行人的人脸和外形的快照对；

特征提取模块，用于根据人脸快照提取人脸特征，并根据行人快照提取行人重识别特征，以通过特征匹配将当前帧中的行人目标与已处理完成的帧图像中的行人目标进行匹配，以获取到同一行人目标的轨迹，从而实现对当前帧中行人目标的跟踪；

数据存储模块，用于将行人目标ID连同该行人目标的人脸快照、行人快照、人脸特征、行人重识别特征以及轨迹信息均存储至数据库中，从而得到搜索数据库。

按照本发明的第三方面，提供了一种视频监控场景下的行人混合搜索系统，包括处理器和计算机可读存储介质，计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行本发明第一方面提供的视频监控场景下的行人混合搜索方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明所提供的视频监控场景下的行人混合搜索方法及系统，对解码得到的帧图像同时进行人脸目标检测和行人目标检测，得到行人目标的人脸快照和行人快照后，会将同一帧中属于同一行人目标的人脸快照和行人快照关联到一起，由此能够提供行人目标的多角度特征描述，使得在无法检测到人脸快照时，可根据与之关联的行人快照完整搜索，在仅仅搜索到行人快照时，也可以根据与之关联的人脸快照获得更丰富的特征信息。因此，本发明能够提供行人目标的多角度特征描述，为视频监控场景下的应用提供可靠的支持。

(2)本发明所提供的视频监控场景下的行人混合搜索方法及系统，能兼容视频文件和实时监控视频流的处理，并支持两种搜索模式，不仅能搜索出相似的行人目标进行实时预警，还能通过人脸识别给出行人的身份信息，因此，本发明能够为视频监控场景下的多用应用都提供可靠的支持，应用范围广泛。

(3)本发明所提供的视频监控场景下的行人混合搜索方法及系统，通过在检测人脸快照的同时，进行人脸对齐并过滤掉其中低质量的人脸图像，能够保证后续提取到正常的人脸特征，进而保证人脸识别的精度。

(4)本发明所提供的视频监控场景下的行人混合搜索方法及系统，以人脸快照和行人快照的交叠区域的面积与人脸快照的面积之比为交叠率，并根据该交叠率来判定相互交叠的人脸快照和行人快照是否属于同一帧中的同一个行人目标，能够准确地实现人脸快照和行人快照的关联匹配。

附图说明

图1为本发明实施例提供的视频解码流程图；

图2为本发明实施例提供的目标检测和关联匹配的方法示意图；

图3为本发明实施例提供的行人重识别网络模型示意图；

图4为本发明实施例提供的人脸识别模型示意图；

图5为本发明实施例提供的搜索数据库表结构图；

图6为本发明实施例提供的进行行人身份识别的示意图；

图7为本发明实施例提供的实时预警的示意图；

图8为本发明实施例提供的视频监控场景下的行人混合搜索系统示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了在视频监控场景下，为应用提供可靠的支持，本发明提供了一种视频监控场景下的行人混合搜索方法，包括：

将监控视频文件或者实时监控视频流解码为帧图像；

上述视频监控场景下的行人混合搜索方法，对解码得到的帧图像同时进行人脸目标检测和行人目标检测，得到行人目标的人脸快照和行人快照后，会将同一帧中属于同一行人目标的人脸快照和行人快照关联到一起，由此能够提供行人目标的多角度特征描述，使得在无法检测到人脸快照时，可根据与之关联的行人快照完整搜索，在仅仅搜索到行人快照时，也可以根据与之关联的人脸快照获得更丰富的特征信息。因此，上述视频监控场景下的行人混合搜索方法，能够提供行人目标的多角度特征描述，为后续应用提供可靠的支持。

在本实施例中，主要是针对RTSP(Real Time Streaming Protocol，实时流传输协议)视频流和各种格式的视频文件文件进行解码，可基于第三方库FFmpeg实现，具体使用其中的libavutil、libavformat、libavcodec和libavswscale这四个库文件中提供的接口实现；如图1所示，解码的主要流程包括：输入解码文件，打开输入文件，查找视频流信息，查找编解码器，分配帧内存，读取视频帧，解码视频，关闭解码器，关闭视频文件以及释放内存；应当理解的是，此处所描述的对监控视频文件或实时监控视频流进行解码的具体方式及解码流程，仅为一种示例性的说明，不应理解为对本发明的唯一限定。

在本实施例中，进行目标检测和关联匹配的方法如图2所示，进行行人目标检测时，可采用Faster R-CNN网络模型；进行人脸目标检测时，可采用MTCNN人脸检测算法；

为了保证人脸识别的精度，如图2所示，上述视频监控场景下的行人混合搜索方法，还可包括：

对帧图像进行人脸目标检测以得到行人目标的人脸快照的同时，进行人脸对齐并过滤掉其中低质量的人脸图像；

其中，低质量的人脸图像包括侧脸图像和被遮挡的人脸图像；

在一个可选的实施方式中，进行人脸对齐以及过滤侧脸图像的方式为：

通过MTCNN算法检测得到五个人脸关键点坐标，以构成点集N；

判断是否存在仿射变换矩阵A和偏移向量b，能够实现点集M和点集N之间的仿射变换，若存在，则判定该人脸图像不是侧脸图像，并根据仿射变换矩阵A和偏移向量b对点集N进行仿射变换，以实现人脸对齐；若不存在，则判定该人脸图像为侧脸图像并过滤掉该人脸图像；

在一个可选的实施方式中，过滤被遮挡的人脸图像的方式为：

使用已训练好的MobileFaceNet网络识别人脸图像是否是被遮挡的人脸图像，若是，则过滤掉该人脸图像；否则，保留该人脸图像；

在本实施例中，为了对MobileFaceNet网络进行训练，在制作数据集阶段，首先收集大量的人脸图片，统一归一化为112×112的大小，然后根据人脸遮挡情况对人脸图片进行划分和归类，得到正负样本，形成最终的训练集(18800张人脸)和测试集(4480张人脸)；在Caffe框架下进行训练，最终得到的模型在训练集上的精度为94％；所有得到的人脸快照通过该人脸遮挡判定网络后即可确定是否遮挡；具体地，训练完成后，MobileFaceNet网络的结构描述如表1所示，在表1中，t表示通道放大倍数，C表示特征通道数，n表示对应网络的重复次数，s表示卷积步长。

通过在检测人脸快照的同时，进行人脸对齐并过滤掉其中低质量的人脸图像(测量图像、被遮挡图像等)，能够保证后续提取到正常的人脸特征，进而保证人脸识别的精度。

表1

作为一种优选的实施方式，在本实施例中，识别同一帧中属于同一行人目标的人脸快照和行人快照，其方法包括：

其中，R_th为预设的阈值，R_th＞0；阈值R_th的具体取值可根据实际的应用场景和搜索精度要求确定，例如，在本实施例中，R_th＝0.8；

在本实施例中，根据行人快照提取行人重识别特征时，采用了基于标签和属性的多任务行人重识别算法，其网络结构如图3所示，该网络是由基本模型构成，输入的图片首先经过ResNet-50网路，然后将前一个网络的pool5层的结果输入到M+1个全连接层，其中第一个为身份分类损失，后M个为属性分类损失，M为行人属性的数量，总的损失函数由身份损失和属性损失两部分构成；根据人脸快照提取人脸特征时，采用了基于SphereFaceNet-64网络和AM-Softmax损失函数，网络结构如图4所示，该网络是经由ResNet修改后得到的一个实例；应当理解的是，此处所描述的行人重识别算法及人脸识别算法，仅为一种示例性的说明，不应理解为对本发明的唯一限定。

行人混合搜索的最终结果会存储到数据库中，以得到搜索数据库，具体的数据库表可根据所使用的数据库种类以及后续的应用需求设计；在本实施例中，搜索数据库中主要包含了行人目标表、人脸快照表、行人外形快照表、预警设置表、预警结果表等，具体的数据库表的结构和属性如图5所示。

为了通过人脸识别给出行人的身份信息，如图6所示，在一种搜索模式下，上述视频监控场景下的行人混合搜索方法，还包括：

其中，基础信息库中存储有人脸信息及对应的身份信息；

除了利用算法直接搜索之外，还可进行循环搜索，以搜出更多的目标。

为了搜索出相似的行人目标进行实时预警，如图7所示，在另外一种搜索模式下，上述视频监控场景下的行人混合搜索方法，还包括：

对预先上传的待预警的第二目标快照，提取其特征信息；

在上述视频监控场景下的行人混合搜索方法中，进行特征匹配时，人脸特征之间、行人重识别特征之间都可使用特征向量之间的余弦相似度来衡量行人目标之间的相似性，具体计算公式为：

其中，Similarity表示两个特征向量之间的余弦相似度，n表示特征的维度，x_i为特征向量x的第i个分量，y_i为特征向量y的第i个分量；

在实际应用中，也可以使用欧式距离等其他方式来衡量特征向量之间的相似度，在此不一一列举。

本发明还提供了一种视频监控场景下的行人混合搜索系统，如图8所示，包括：视频解码模块、检测模块、特征提取模块以及数据存储模块；

数据存储模块，用于将行人目标ID连同该行人目标的人脸快照、行人快照、人脸特征、行人重识别特征以及轨迹信息均存储至数据库中，从而得到搜索数据库；

在本实施例中，各模块的具体实施方式可参考上述方法实施例中的描述，在此将不作复述。

在上述视频监控场景下的行人混合搜索系统中，每个模块都涉及到任务量大且耗时的部分，因此可使用Redis消息队列，以异步多进程的形式来实现多个任务的并行处理，以达到实时处理的要求。

本发明还提供了一种视频监控场景下的行人混合搜索系统，包括处理器和计算机可读存储介质，计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行上述视频监控场景下的行人混合搜索方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频监控场景下的行人混合搜索方法，其特征在于，包括：

将监控视频文件或者实时监控视频流解码为帧图像；

将行人目标ID连同该行人目标的人脸快照、行人快照、人脸特征、行人重识别特征以及轨迹信息均存储至数据库中，从而得到搜索数据库；

识别同一帧中属于同一行人目标的人脸快照和行人快照，其方法包括：

若R_Overlap＞R_th，则将该人脸快照及行人快照识别为同一帧中属于同一行人目标的人脸快照和行人快照；否则，判定该人脸快照及行人快照不属于同一行人目标；R_th为预设的阈值，R_th＞0；

所述视频监控场景下的行人混合搜索方法，还包括：

对于用户上传的待识别的第一目标快照，若为人脸快照，则提取人脸特征后，通过特征比对找到所述搜索数据库中与之相似的人脸快照；若为行人快照，则提取行人重识别特征后，通过特征比对找到所述搜索数据库中与之最相似的行人快照，并获得搜索得到的行人快照相关联的人脸快照；

根据搜索得到的人脸快照检索基础信息库，从而识别出所述第一目标快照所属行人的身份信息；所述基础信息库中存储有人脸信息及对应的身份信息。

2.如权利要求1所述的视频监控场景下的行人混合搜索方法，其特征在于，还包括：对帧图像进行人脸目标检测以得到行人目标的人脸快照的同时，进行人脸对齐并过滤掉其中低质量的人脸图像；

3.如权利要求2所述的视频监控场景下的行人混合搜索方法，其特征在于，进行人脸对齐以及过滤侧脸图像的方式为：

利用预先给定的一张正脸的五个关键点坐标构成点集M；

通过MTCNN算法检测得到五个人脸关键点坐标，以构成点集N；

判断是否存在仿射变换矩阵A和偏移向量b，能够实现点集M和点集N之间的仿射变换，若存在，则判定该人脸图像不是侧脸图像，并根据所述仿射变换矩阵A和偏移向量b对所述点集N进行仿射变换，以实现人脸对齐；若不存在，则判定该人脸图像为侧脸图像并过滤掉该人脸图像。

4.如权利要求2所述的视频监控场景下的行人混合搜索方法，其特征在于，过滤被遮挡的人脸图像的方式为：

5.如权利要求1所述的视频监控场景下的行人混合搜索方法，其特征在于，还包括：

对预先上传的待预警的第二目标快照，提取其特征信息；

每次完成对当前帧中一个行人目标的跟踪后，根据所述第二目标快照的类型，将行人目标的人脸特征或者行人重识别特征与所述第二目标快照的特征信息进行相似性判定，若相似，则根据该行人目标的位置实时生成一条预警信息；若不相似，则不进行预警。

6.一种视频监控场景下的行人混合搜索系统，其特征在于，包括：视频解码模块、检测模块、特征提取模块以及数据存储模块；

所述视频解码模块，用于将监控视频文件或者实时监控视频流解码为帧图像；

所述检测模块，用于对帧图像分别进行人脸目标检测和行人目标检测，以分别得到行人目标的人脸快照和行人快照；

所述检测模块，还用于识别同一帧中属于同一行人目标的人脸快照和行人快照，并关联到一起，从而得到用于描述同一行人的人脸和外形的快照对；

所述特征提取模块，用于根据人脸快照提取人脸特征，并根据行人快照提取行人重识别特征，以通过特征匹配将当前帧中的行人目标与已处理完成的帧图像中的行人目标进行匹配，以获取到同一行人目标的轨迹，从而实现对当前帧中行人目标的跟踪；

所述数据存储模块，用于将行人目标ID连同该行人目标的人脸快照、行人快照、人脸特征、行人重识别特征以及轨迹信息均存储至数据库中，从而得到搜索数据库；

所述特征提取模块，还用于：对于用户上传的待识别的第一目标快照，若为人脸快照，则提取人脸特征后，通过特征比对找到所述搜索数据库中与之相似的人脸快照；若为行人快照，则提取行人重识别特征后，通过特征比对找到所述搜索数据库中与之最相似的行人快照，并获得搜索得到的行人快照相关联的人脸快照；根据搜索得到的人脸快照检索基础信息库，从而识别出所述第一目标快照所属行人的身份信息；所述基础信息库中存储有人脸信息及对应的身份信息。

7.一种视频监控场景下的行人混合搜索系统，包括处理器和计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储可执行程序；

所述处理器用于读取所述计算机可读存储介质中存储的可执行程序，执行权利要求1-5任一项所述的视频监控场景下的行人混合搜索方法。