CN109241349B

CN109241349B - 一种基于深度学习的监控视频多目标分类检索方法及系统

Info

Publication number: CN109241349B
Application number: CN201810923212.5A
Authority: CN
Inventors: 杨利红; 张俊; 姜少波; 甘彤; 商国军; 程剑; 刘海涛; 李阳; 胡博; 张琦珺; 连捷; 陈曦
Original assignee: CETC 38 Research Institute
Current assignee: CETC 38 Research Institute
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2022-03-25
Anticipated expiration: 2038-08-14
Also published as: CN109241349A

Abstract

本发明公开了一种基于深度学习的监控视频多目标分类检索方法及系统；提取待检索目标：输入待检索图像，通过自动检测或人工抠取的方式选择待检索目标，并明确其类别；提取深度特征：利用深度学习特征提取模型提取待检索目标的深度特征；目标检索：根据待检索目标的类别，将待检索目标的深度特征与检索数据库中同类目标的深度特征进行比对，得到与之最为相似的目标；检索结果展示：检索结果按照相似度从高到低展示。待检索目标与检索数据库中同类目标匹配采用深度学习特征提取模块获取的深度特征作为基准，由于深度特征兼具强表达力和低维度双重优势，大幅提升了检索结果的精确程度。

Description

一种基于深度学习的监控视频多目标分类检索方法及系统

技术领域

本发明涉及一种视频目标检索技术，尤其涉及的是一种基于深度学习的监控视频多目标分类检索方法及系统。

背景技术

为了营造更为安全的生活环境，满足民众日益增强的安全防范需求，国家大力推广平安城市建设，其核心基础即为布设在城市各个角落中数量巨大的视频监控设备。除了城镇治安监控这一重要应用场景外，作为安防领域最为有效的方式，视频监控设备在机场、车站、银行、商店和小区等与日常生活息息相关的区域均得到了广泛应用。因此近年来，视频监控设备的数量急剧增加，数量庞大的视频监控设备每天都在产生海量的监控视频数据。在针对监控视频的检索应用中，最受关注的感兴趣目标是行人与车辆。当相关单位需要在监控视频中检索这些目标时，由于视频数据量巨大，采用人工查看的传统方法不仅需要耗费大量的人力资源，而且受限于人眼观察的局限性，存在效率低、准确度差的缺点，极易产生错看漏看现象。由于存在巨大的市场需求，目前监控视频中目标检索方法的研究已经取得了极大进步，解决了人工查看方法耗时费力的问题，但在检索准确性方面仍然效果不佳，特别是在多目标检索的应用场景中，漏检误检现象突出，而大部分目标检索应用对检索结果的精度要求极为严格，这也制约了监控视频目标检索方法的实践推广。目前如何对检索目标进行精确定位和精确分类，从而进一步提高目标检索的效率和精度仍是急需攻克的难题。

安防监控视频存在场景环境复杂，目标密集以及分辨率多样等问题，特别是多目标分类检索时，监控视频中目标的分类提取比一般的目标提取更易受到背景噪声和目标遮挡等因素的影响，而浅层特征也难以实现对外观差异较大的多类目标采用统一的特征进行精确表达，近年来，深度学习的发展正好可以解决上述问题。

发明内容

本发明所要解决的技术问题在于：如何更为准确的提高视频监控的多目标检索的效率和精度，提供了一种基于深度学习的监控视频多目标分类检索方法及系统。

本发明是通过以下技术方案解决上述技术问题的，本发明的一种基于深度学习的监控视频多目标分类检索方法，包括以下步骤：

(1)提取待检索目标：输入待检索图像，通过自动检测或人工抠取的方式选择待检索目标，并明确其类别；

(2)提取深度特征：利用深度学习特征提取模型提取待检索目标的深度特征；

(3)目标检索：根据待检索目标的类别，将待检索目标的深度特征与检索数据库中同类目标的深度特征进行比对，得到与之最为相似的目标；

(4)检索结果展示：检索结果按照相似度从高到低展示，选取某个检索结果，可静态展示其在关键帧中的具体位置，并可动态展示其在监控视频中的运行轨迹。

在提取目标之前，首先训练深度学习模型，然后构建检索视频库，所述训练深度学习模型为：搜集大量多样性的包括人、车目标的监控视频图片，标记出其中人和车的位置和类别，输入到深度卷积神经网络中训练得到深度学习模型，包括目标检测模型和特征提取模型。

所述构建检索视频库为：通过运动分析提取监控视频中所有运动目标的运行轨迹和包含运动目标的关键帧；利用深度学习模型提取关键帧中人或车类目标的精确位置、具体类别和深度特征，保存到检索数据库中；将人或车类目标与运动目标匹配得到对应的运行轨迹，保存到检索数据库中。

所述目标检测模型的卷积神经网络包括输入层、22个卷积层、5个池化层和输出层，检测类别包括人、小汽车、面包车、大巴车、卡车、摩托车六类，训练使用的损失函数如下：

训练样本被划分为13×13个单元格，每个单元格预测9个目标，其中与该单元格处标记目标重叠面积最大的预测目标的

为1，其它8个预测目标的

为0；如果预测目标位置不包含标记目标，则其

为1，反之其

为0。x_i,y_i,w_i,h_i,C_i分别代表

为1预测目标的中心点x坐标、中心点y坐标、宽度、高度、置信度；

分别代表标记目标的中心点x坐标、中心点y坐标、宽度、高度、置信度。class代表检测的目标类别，p_i(c)为每个类别的预测概率，

为每个类别的标记概率。

所述特征提取模型的卷积神经网络包括输入层、19个卷积层、5个池化层和输出层，可提取人、小汽车、面包车、大巴车、卡车、摩托车六个类别的深度特征，维度均为1024。

所述构建检索视频库包括以下步骤：

(101)导入待检索监控视频，通过逐帧运动分析得到每个监控视频中的所有运动目标并跟踪其运行轨迹，同时提取包含运动目标的关键帧；

(102)利用深度学习目标检测模型提取关键帧中的人或车类目标，得到其精确位置和具体类别，将每个目标对应的关键帧、位置、类别保存到检索数据库中；

(103)利用深度学习特征提取模型提取每个人或车类目标的深度特征，保存到检索数据库中；

(104)将提取出的人或车与运动分析得到的运动目标进行匹配，得到其对应的运行轨迹，保存到检索数据库中。

所述检索数据库保存监控视频中所有人或车类目标所在的关键帧、目标位置、目标类别和目标深度特征。

所述步骤(3)中，选择待检索目标时，自动检测方式采用深度学习目标检测模型获取待检索图像中所有人或车类目标的精确位置及具体类别，用户根据需要选择其中的某个目标进行检索；人工抠取方式由用户从待检索图像中框选待检索的目标及其所在位置，并选择其对应的类别。

所述步骤(3)中，深度特征比对采用余弦距离cosθ计算待检索目标深度特征与检索数据库中同类目标深度特征之间的相似度，计算公式如下：

其中，x_i代表待检索目标的深度特征，y_i代表检索数据库中同类目标的深度特征。

一种分类检索的系统，包括：深度学习模型训练模块，用于接收海量包含人或车目标的监控视频图片作为输入，图片涵盖不同场景、不同环境、不同光照条件，并标记出其中人和车的位置和类别，输入到深度卷积神经网络中训练得到深度学习模型，包括目标检测模型和特征提取模型；

检索数据库模块，用于接收待检索监控视频作为输入，依次对每个监控视频文件逐帧进行运动分析，快速获取监控视频中的所有运动目标并进行跟踪得到每个运动目标的运行轨迹，输出包含运动目标的关键帧；利用深度学习目标检测模型获取关键帧中人或车的精确位置和具体类别，保存到检索数据库中；根据人或车的精确位置，利用深度学习特征提取模型提取其深度特征，保存到检索数据库中；将提取出的人或车类目标与运动分析得到的运动目标进行匹配，得到对应的运行轨迹，保存到检索数据库中；

检索目标提取模块，用于接收包含待检索目标的图像作为输入，通过自动检测或者人工抠取选择待检索的人或车类目标；自动检测时，采用深度学习目标检测模型获取输入图像中所有人或车的精确位置及具体类别，用户根据需要选择其中的某个目标进行检索；人工抠取时，由用户从输入图像中框选待检索的目标及其所在位置，并选择其对应的类别；

深度特征提取模块，用于接收待检索目标抠图作为输入，利用深度学习特征提取模型计算得到该目标对应的深度特征；

目标检索模块，用于接收待检索目标的深度特征及其类别作为输入，根据待检索目标的类别，从检索数据库中筛选出同类别的目标子集，将待检索目标的深度特征与上述目标子集中所有的深度特征进行比对，得到与之最为接近的同类目标；

检索结果展示模块，用于输出检索结果，按照相似度从高到低展示与待检索目标匹配的检索目标，选取某个检索目标，可静态展示其在关键帧中的具体位置信息，并可动态展示其在监控视频中的运行轨迹。

深度学习可以通过模拟人类大脑构建深度神经网络，并输入海量数据进行自我学习得到深度学习目标检测模型，不仅可以提取感兴趣目标的精确位置和具体类别，解决目标提取和目标分类问题，而且采用深度学习特征提取模型得到的深度特征泛化能力强，受噪声和分辨率影响小，能够精确表达多类别目标的外观特征，同时深度特征维度小，因此基于深度学习的监控视频多目标检索不仅具有高效率，而且实现了高精度。

本发明相比现有技术具有以下优点：本发明检索数据库构建分为“粗定位”和“精提取”两个阶段，“粗定位”通过逐帧分析监控视频快速获取其中每个运动目标的运行轨迹，并提取包含运动目标的关键帧，大幅缩减后续处理涉及的视频帧数量；“精提取”针对关键帧采用深度学习目标检测模型获取其中人或车目标的精确位置和类别信息，在确保检索数据库构建效率的同时大幅提升了感兴趣目标的定位精度和分类精度。本发明检索过程根据待检索目标的类别分类进行，缩小了搜索空间，缩短了检索时间，待检索目标与检索数据库中同类目标匹配采用深度学习特征提取模块获取的深度特征作为基准，由于深度特征兼具强表达力和低维度双重优势，因此在进一步提高检索过程效率的同时，大幅提升了检索结果的精确程度。

附图说明

图1是本发明的检索流程图；

图2是目标检索库模块构建流程图；

图3是系统模块图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例包括以下步骤：

首先训练深度学习模型，所述训练深度学习模型为：搜集大量多样性的包括人、车目标的监控视频图片，标记出其中人和车的位置和类别，输入到深度卷积神经网络中训练得到深度学习模型，包括目标检测模型和特征提取模型；

然后构建检索视频库为：通过运动分析提取监控视频中所有运动目标的运行轨迹和包含运动目标的关键帧；利用深度学习模型提取关键帧中人或车类目标的精确位置、具体类别和深度特征，保存到检索数据库中；将人或车类目标与运动目标匹配得到对应的运行轨迹，保存到检索数据库中；

提取待检索目标：输入待检索图像，通过自动检测或人工抠取的方式选择待检索目标，并明确其类别；

提取深度特征：利用深度学习特征提取模型提取待检索目标的深度特征；

目标检索：根据待检索目标的类别，将待检索目标的深度特征与检索数据库中同类目标的深度特征进行比对，得到与之最为相似的目标；

选择待检索目标时，自动检测方式采用深度学习目标检测模型获取待检索图像中所有人或车类目标的精确位置及具体类别，用户根据需要选择其中的某个目标进行检索；人工抠取方式由用户从待检索图像中框选待检索的目标及其所在位置，并选择其对应的类别；深度特征比对采用余弦距离cosθ计算待检索目标深度特征与检索数据库中同类目标深度特征之间的相似度，计算公式如下：

检索结果展示：检索结果按照相似度从高到低展示，选取某个检索结果，可静态展示其在关键帧中的具体位置，并可动态展示其在监控视频中的运行轨迹。

如图2所示，所述构建检索视频库包括以下步骤：

所述运行轨迹无需全部保存到索引数据库，通过步骤(104)的匹配过程，筛选得到所有与感兴趣人或车类目标属于同一目标的运动目标，并保存其运行轨迹到检索数据库中。

深度学习目标检测模型和深度学习特征提取模型通过离线训练获得，具体如下：

搜集大量包括人或车类目标的监控视频图片，图片涵盖白天和夜晚等多时段不同光照条件、晴天和雨天等不同环境、治安监控和交通监控等不同场景，确保了训练样本的多样性，从而提高训练模型的泛化能力及准确性。车分为小汽车、面包车、大巴车、卡车、摩托车五个类别，每个图片均标记出其中的人或各类车的位置及具体类别，形成对应每个图片的标记文件，并截取各个目标的抠图保存；

将所有图片中目标的抠图及其类别输入到深度卷积神经网络中训练得到深度学习特征提取模型，该卷积神经网络包括输入层、18个卷积层、5个池化层和输出层。利用ImageNet数据库训练该卷积神经网络得到分类模型，使用其卷积层权值初始化该卷积神经网络，然后通过前向运算和反向传播不断调整网络参数，不断缩小预测类别与标记类别之间的差异，最终得到针对人、小汽车、面包车、大巴车、卡车、摩托车六个类别的分类模型，利用该模型最后一个卷积层输出作为目标的深度特征，维度为1024。

将图片及记录其中人或各类车精确位置和具体类别的标记文件输入到深度卷积神经网络中训练得到深度学习目标检测模型，该卷积神经网络包括输入层、22个卷积层，5个池化层和输出层。利用步骤2中使用ImageNet数据库训练得到的分类模型的卷积层权值初始化该卷积神经网络的前18个卷积层，最后四个卷积层参数使用随机初始化，然后通过前向运算和反向传播不断调整网络参数，不断缩小输出目标位置和类别及标记目标位置和类别之间的总体差异，最终得到提取人、小汽车、面包车、大巴车、卡车、摩托车六个类别目标的检测模型，训练使用的损失函数如下：

为1，其它8个预测目标的

为0；如果预测目标位置不包含标记目标，则其

为1，反之其

为0。x_i,y_i,w_i,h_i,C_i分别代表

为每个类别的标记概率。

如图3所示，本实施例的一种分类检索的系统，包括：深度学习模型训练模块，用于接收海量包含人或车目标的监控视频图片作为输入，图片涵盖不同场景、不同环境、不同光照条件，并标记出其中人和车的位置和类别，输入到深度卷积神经网络中训练得到深度学习模型，包括目标检测模型和特征提取模型；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的监控视频多目标分类检索方法，其特征在于，包括以下步骤：

自动检测时，采用深度学习目标检测模型获取输入图像中所有人或车的精确位置及具体类别，用户根据需要选择其中的某个目标进行检索；人工抠取时，由用户从输入图像中框选待检索的目标及其所在位置，并选择其对应的类别；

(2)提取深度特征：利用深度学习特征提取模型提取待检索目标的深度特征；所述特征提取模型的卷积神经网络包括输入层、19个卷积层、5个池化层和输出层，可提取人、小汽车、面包车、大巴车、卡车、摩托车六个类别的深度特征，维度均为1024；

(4)检索结果展示：检索结果按照相似度从高到低展示，选取某个检索结果，可静态展示其在关键帧中的具体位置，并可动态展示其在监控视频中的运行轨迹；

为1，其它8个预测目标的

为0；如果预测目标位置不包含标记目标，则其

为1，反之，其

为0，x_i,y_i,w_i,h_i,C_i分别代表

分别代表标记目标的中心点x坐标、中心点y坐标、宽度、高度、置信度，class代表检测的目标类别，p_i(c)为每个类别的预测概率，

为每个类别的标记概率；

在提取目标之前，首先训练深度学习模型，然后构建检索视频库，所述训练深度学习模型包括目标检测模型和特征提取模型；训练深度学习模型为：搜集大量包括人或车类目标的监控视频图片，图片涵盖白天和夜晚等多时段不同光照条件、晴天和雨天等不同环境、治安监控和交通监控等不同场景，车分为小汽车、面包车、大巴车、卡车、摩托车五个类别，每个图片均标记出其中的人或各类车的位置及具体类别，形成对应每个图片的标记文件，并截取各个目标的抠图保存；

将所有图片中目标的抠图及其类别输入到深度卷积神经网络中训练得到深度学习的特征提取模型；将图片及记录其中人或各类车精确位置和具体类别的标记文件输入到深度卷积神经网络中训练得到深度学习的目标检测模型；

所述构建检索视频库为：通过运动分析提取监控视频中所有运动目标的运行轨迹和包含运动目标的关键帧；利用深度学习模型提取关键帧中人或车类目标的精确位置、具体类别和深度特征，保存到检索数据库中；将人或车类目标与运动目标匹配得到对应的运行轨迹，保存到检索数据库中；具体过程如下：

2.根据权利要求1所述的一种基于深度学习的监控视频多目标分类检索方法，其特征在于，检索数据库保存监控视频中所有人或车类目标所在的关键帧、目标位置、目标类别和目标深度特征。

3.根据权利要求1所述的一种基于深度学习的监控视频多目标分类检索方法，其特征在于，步骤(3)中，选择待检索目标时，自动检测方式采用深度学习目标检测模型获取待检索图像中所有人或车类目标的精确位置及具体类别，用户根据需要选择其中的某个目标进行检索；人工抠取方式由用户从待检索图像中框选待检索的目标及其所在位置，并选择其对应的类别。

4.根据权利要求1所述的一种基于深度学习的监控视频多目标分类检索方法，其特征在于，步骤(3)中，深度特征比对采用余弦距离cosθ计算待检索目标深度特征与检索数据库中同类目标深度特征之间的相似度，计算公式如下：

5.一种使用如权利要求1～4任一项所述的基于深度学习的监控视频多目标分类检索方法进行分类检索的系统，其特征在于，包括：

深度学习模型训练模块，用于接收海量包含人或车目标的监控视频图片作为输入，图片涵盖不同场景、不同环境、不同光照条件，并标记出其中人和车的位置和类别，输入到深度卷积神经网络中训练得到深度学习模型，包括目标检测模型和特征提取模型；