CN109241349B - 一种基于深度学习的监控视频多目标分类检索方法及系统 - Google Patents

一种基于深度学习的监控视频多目标分类检索方法及系统 Download PDF

Info

Publication number
CN109241349B
CN109241349B CN201810923212.5A CN201810923212A CN109241349B CN 109241349 B CN109241349 B CN 109241349B CN 201810923212 A CN201810923212 A CN 201810923212A CN 109241349 B CN109241349 B CN 109241349B
Authority
CN
China
Prior art keywords
target
retrieval
retrieved
deep learning
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810923212.5A
Other languages
English (en)
Other versions
CN109241349A (zh
Inventor
杨利红
张俊
姜少波
甘彤
商国军
程剑
刘海涛
李阳
胡博
张琦珺
连捷
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 38 Research Institute
Original Assignee
CETC 38 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 38 Research Institute filed Critical CETC 38 Research Institute
Priority to CN201810923212.5A priority Critical patent/CN109241349B/zh
Publication of CN109241349A publication Critical patent/CN109241349A/zh
Application granted granted Critical
Publication of CN109241349B publication Critical patent/CN109241349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的监控视频多目标分类检索方法及系统;提取待检索目标:输入待检索图像,通过自动检测或人工抠取的方式选择待检索目标,并明确其类别;提取深度特征:利用深度学习特征提取模型提取待检索目标的深度特征;目标检索:根据待检索目标的类别,将待检索目标的深度特征与检索数据库中同类目标的深度特征进行比对,得到与之最为相似的目标;检索结果展示:检索结果按照相似度从高到低展示。待检索目标与检索数据库中同类目标匹配采用深度学习特征提取模块获取的深度特征作为基准,由于深度特征兼具强表达力和低维度双重优势,大幅提升了检索结果的精确程度。

Description

一种基于深度学习的监控视频多目标分类检索方法及系统
技术领域
本发明涉及一种视频目标检索技术,尤其涉及的是一种基于深度学习的监控视频多目标分类检索方法及系统。
背景技术
为了营造更为安全的生活环境,满足民众日益增强的安全防范需求,国家大力推广平安城市建设,其核心基础即为布设在城市各个角落中数量巨大的视频监控设备。除了城镇治安监控这一重要应用场景外,作为安防领域最为有效的方式,视频监控设备在机场、车站、银行、商店和小区等与日常生活息息相关的区域均得到了广泛应用。因此近年来,视频监控设备的数量急剧增加,数量庞大的视频监控设备每天都在产生海量的监控视频数据。在针对监控视频的检索应用中,最受关注的感兴趣目标是行人与车辆。当相关单位需要在监控视频中检索这些目标时,由于视频数据量巨大,采用人工查看的传统方法不仅需要耗费大量的人力资源,而且受限于人眼观察的局限性,存在效率低、准确度差的缺点,极易产生错看漏看现象。由于存在巨大的市场需求,目前监控视频中目标检索方法的研究已经取得了极大进步,解决了人工查看方法耗时费力的问题,但在检索准确性方面仍然效果不佳,特别是在多目标检索的应用场景中,漏检误检现象突出,而大部分目标检索应用对检索结果的精度要求极为严格,这也制约了监控视频目标检索方法的实践推广。目前如何对检索目标进行精确定位和精确分类,从而进一步提高目标检索的效率和精度仍是急需攻克的难题。
安防监控视频存在场景环境复杂,目标密集以及分辨率多样等问题,特别是多目标分类检索时,监控视频中目标的分类提取比一般的目标提取更易受到背景噪声和目标遮挡等因素的影响,而浅层特征也难以实现对外观差异较大的多类目标采用统一的特征进行精确表达,近年来,深度学习的发展正好可以解决上述问题。
发明内容
本发明所要解决的技术问题在于:如何更为准确的提高视频监控的多目标检索的效率和精度,提供了一种基于深度学习的监控视频多目标分类检索方法及系统。
本发明是通过以下技术方案解决上述技术问题的,本发明的一种基于深度学习的监控视频多目标分类检索方法,包括以下步骤:
(1)提取待检索目标:输入待检索图像,通过自动检测或人工抠取的方式选择待检索目标,并明确其类别;
(2)提取深度特征:利用深度学习特征提取模型提取待检索目标的深度特征;
(3)目标检索:根据待检索目标的类别,将待检索目标的深度特征与检索数据库中同类目标的深度特征进行比对,得到与之最为相似的目标;
(4)检索结果展示:检索结果按照相似度从高到低展示,选取某个检索结果,可静态展示其在关键帧中的具体位置,并可动态展示其在监控视频中的运行轨迹。
在提取目标之前,首先训练深度学习模型,然后构建检索视频库,所述训练深度学习模型为:搜集大量多样性的包括人、车目标的监控视频图片,标记出其中人和车的位置和类别,输入到深度卷积神经网络中训练得到深度学习模型,包括目标检测模型和特征提取模型。
所述构建检索视频库为:通过运动分析提取监控视频中所有运动目标的运行轨迹和包含运动目标的关键帧;利用深度学习模型提取关键帧中人或车类目标的精确位置、具体类别和深度特征,保存到检索数据库中;将人或车类目标与运动目标匹配得到对应的运行轨迹,保存到检索数据库中。
所述目标检测模型的卷积神经网络包括输入层、22个卷积层、5个池化层和输出层,检测类别包括人、小汽车、面包车、大巴车、卡车、摩托车六类,训练使用的损失函数如下:
Figure BDA0001764756700000021
训练样本被划分为13×13个单元格,每个单元格预测9个目标,其中与该单元格处标记目标重叠面积最大的预测目标的
Figure BDA0001764756700000022
为1,其它8个预测目标的
Figure BDA0001764756700000023
为0;如果预测目标位置不包含标记目标,则其
Figure BDA0001764756700000024
为1,反之其
Figure BDA0001764756700000025
为0。xi,yi,wi,hi,Ci分别代表
Figure BDA0001764756700000026
为1预测目标的中心点x坐标、中心点y坐标、宽度、高度、置信度;
Figure BDA0001764756700000027
分别代表标记目标的中心点x坐标、中心点y坐标、宽度、高度、置信度。class代表检测的目标类别,pi(c)为每个类别的预测概率,
Figure BDA0001764756700000028
为每个类别的标记概率。
所述特征提取模型的卷积神经网络包括输入层、19个卷积层、5个池化层和输出层,可提取人、小汽车、面包车、大巴车、卡车、摩托车六个类别的深度特征,维度均为1024。
所述构建检索视频库包括以下步骤:
(101)导入待检索监控视频,通过逐帧运动分析得到每个监控视频中的所有运动目标并跟踪其运行轨迹,同时提取包含运动目标的关键帧;
(102)利用深度学习目标检测模型提取关键帧中的人或车类目标,得到其精确位置和具体类别,将每个目标对应的关键帧、位置、类别保存到检索数据库中;
(103)利用深度学习特征提取模型提取每个人或车类目标的深度特征,保存到检索数据库中;
(104)将提取出的人或车与运动分析得到的运动目标进行匹配,得到其对应的运行轨迹,保存到检索数据库中。
所述检索数据库保存监控视频中所有人或车类目标所在的关键帧、目标位置、目标类别和目标深度特征。
所述步骤(3)中,选择待检索目标时,自动检测方式采用深度学习目标检测模型获取待检索图像中所有人或车类目标的精确位置及具体类别,用户根据需要选择其中的某个目标进行检索;人工抠取方式由用户从待检索图像中框选待检索的目标及其所在位置,并选择其对应的类别。
所述步骤(3)中,深度特征比对采用余弦距离cosθ计算待检索目标深度特征与检索数据库中同类目标深度特征之间的相似度,计算公式如下:
Figure BDA0001764756700000031
其中,xi代表待检索目标的深度特征,yi代表检索数据库中同类目标的深度特征。
一种分类检索的系统,包括:深度学习模型训练模块,用于接收海量包含人或车目标的监控视频图片作为输入,图片涵盖不同场景、不同环境、不同光照条件,并标记出其中人和车的位置和类别,输入到深度卷积神经网络中训练得到深度学习模型,包括目标检测模型和特征提取模型;
检索数据库模块,用于接收待检索监控视频作为输入,依次对每个监控视频文件逐帧进行运动分析,快速获取监控视频中的所有运动目标并进行跟踪得到每个运动目标的运行轨迹,输出包含运动目标的关键帧;利用深度学习目标检测模型获取关键帧中人或车的精确位置和具体类别,保存到检索数据库中;根据人或车的精确位置,利用深度学习特征提取模型提取其深度特征,保存到检索数据库中;将提取出的人或车类目标与运动分析得到的运动目标进行匹配,得到对应的运行轨迹,保存到检索数据库中;
检索目标提取模块,用于接收包含待检索目标的图像作为输入,通过自动检测或者人工抠取选择待检索的人或车类目标;自动检测时,采用深度学习目标检测模型获取输入图像中所有人或车的精确位置及具体类别,用户根据需要选择其中的某个目标进行检索;人工抠取时,由用户从输入图像中框选待检索的目标及其所在位置,并选择其对应的类别;
深度特征提取模块,用于接收待检索目标抠图作为输入,利用深度学习特征提取模型计算得到该目标对应的深度特征;
目标检索模块,用于接收待检索目标的深度特征及其类别作为输入,根据待检索目标的类别,从检索数据库中筛选出同类别的目标子集,将待检索目标的深度特征与上述目标子集中所有的深度特征进行比对,得到与之最为接近的同类目标;
检索结果展示模块,用于输出检索结果,按照相似度从高到低展示与待检索目标匹配的检索目标,选取某个检索目标,可静态展示其在关键帧中的具体位置信息,并可动态展示其在监控视频中的运行轨迹。
深度学习可以通过模拟人类大脑构建深度神经网络,并输入海量数据进行自我学习得到深度学习目标检测模型,不仅可以提取感兴趣目标的精确位置和具体类别,解决目标提取和目标分类问题,而且采用深度学习特征提取模型得到的深度特征泛化能力强,受噪声和分辨率影响小,能够精确表达多类别目标的外观特征,同时深度特征维度小,因此基于深度学习的监控视频多目标检索不仅具有高效率,而且实现了高精度。
本发明相比现有技术具有以下优点:本发明检索数据库构建分为“粗定位”和“精提取”两个阶段,“粗定位”通过逐帧分析监控视频快速获取其中每个运动目标的运行轨迹,并提取包含运动目标的关键帧,大幅缩减后续处理涉及的视频帧数量;“精提取”针对关键帧采用深度学习目标检测模型获取其中人或车目标的精确位置和类别信息,在确保检索数据库构建效率的同时大幅提升了感兴趣目标的定位精度和分类精度。本发明检索过程根据待检索目标的类别分类进行,缩小了搜索空间,缩短了检索时间,待检索目标与检索数据库中同类目标匹配采用深度学习特征提取模块获取的深度特征作为基准,由于深度特征兼具强表达力和低维度双重优势,因此在进一步提高检索过程效率的同时,大幅提升了检索结果的精确程度。
附图说明
图1是本发明的检索流程图;
图2是目标检索库模块构建流程图;
图3是系统模块图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例包括以下步骤:
首先训练深度学习模型,所述训练深度学习模型为:搜集大量多样性的包括人、车目标的监控视频图片,标记出其中人和车的位置和类别,输入到深度卷积神经网络中训练得到深度学习模型,包括目标检测模型和特征提取模型;
然后构建检索视频库为:通过运动分析提取监控视频中所有运动目标的运行轨迹和包含运动目标的关键帧;利用深度学习模型提取关键帧中人或车类目标的精确位置、具体类别和深度特征,保存到检索数据库中;将人或车类目标与运动目标匹配得到对应的运行轨迹,保存到检索数据库中;
提取待检索目标:输入待检索图像,通过自动检测或人工抠取的方式选择待检索目标,并明确其类别;
提取深度特征:利用深度学习特征提取模型提取待检索目标的深度特征;
目标检索:根据待检索目标的类别,将待检索目标的深度特征与检索数据库中同类目标的深度特征进行比对,得到与之最为相似的目标;
选择待检索目标时,自动检测方式采用深度学习目标检测模型获取待检索图像中所有人或车类目标的精确位置及具体类别,用户根据需要选择其中的某个目标进行检索;人工抠取方式由用户从待检索图像中框选待检索的目标及其所在位置,并选择其对应的类别;深度特征比对采用余弦距离cosθ计算待检索目标深度特征与检索数据库中同类目标深度特征之间的相似度,计算公式如下:
Figure BDA0001764756700000051
其中,xi代表待检索目标的深度特征,yi代表检索数据库中同类目标的深度特征。
检索结果展示:检索结果按照相似度从高到低展示,选取某个检索结果,可静态展示其在关键帧中的具体位置,并可动态展示其在监控视频中的运行轨迹。
如图2所示,所述构建检索视频库包括以下步骤:
(101)导入待检索监控视频,通过逐帧运动分析得到每个监控视频中的所有运动目标并跟踪其运行轨迹,同时提取包含运动目标的关键帧;
(102)利用深度学习目标检测模型提取关键帧中的人或车类目标,得到其精确位置和具体类别,将每个目标对应的关键帧、位置、类别保存到检索数据库中;
(103)利用深度学习特征提取模型提取每个人或车类目标的深度特征,保存到检索数据库中;
(104)将提取出的人或车与运动分析得到的运动目标进行匹配,得到其对应的运行轨迹,保存到检索数据库中。
所述运行轨迹无需全部保存到索引数据库,通过步骤(104)的匹配过程,筛选得到所有与感兴趣人或车类目标属于同一目标的运动目标,并保存其运行轨迹到检索数据库中。
所述检索数据库保存监控视频中所有人或车类目标所在的关键帧、目标位置、目标类别和目标深度特征。
深度学习目标检测模型和深度学习特征提取模型通过离线训练获得,具体如下:
搜集大量包括人或车类目标的监控视频图片,图片涵盖白天和夜晚等多时段不同光照条件、晴天和雨天等不同环境、治安监控和交通监控等不同场景,确保了训练样本的多样性,从而提高训练模型的泛化能力及准确性。车分为小汽车、面包车、大巴车、卡车、摩托车五个类别,每个图片均标记出其中的人或各类车的位置及具体类别,形成对应每个图片的标记文件,并截取各个目标的抠图保存;
将所有图片中目标的抠图及其类别输入到深度卷积神经网络中训练得到深度学习特征提取模型,该卷积神经网络包括输入层、18个卷积层、5个池化层和输出层。利用ImageNet数据库训练该卷积神经网络得到分类模型,使用其卷积层权值初始化该卷积神经网络,然后通过前向运算和反向传播不断调整网络参数,不断缩小预测类别与标记类别之间的差异,最终得到针对人、小汽车、面包车、大巴车、卡车、摩托车六个类别的分类模型,利用该模型最后一个卷积层输出作为目标的深度特征,维度为1024。
将图片及记录其中人或各类车精确位置和具体类别的标记文件输入到深度卷积神经网络中训练得到深度学习目标检测模型,该卷积神经网络包括输入层、22个卷积层,5个池化层和输出层。利用步骤2中使用ImageNet数据库训练得到的分类模型的卷积层权值初始化该卷积神经网络的前18个卷积层,最后四个卷积层参数使用随机初始化,然后通过前向运算和反向传播不断调整网络参数,不断缩小输出目标位置和类别及标记目标位置和类别之间的总体差异,最终得到提取人、小汽车、面包车、大巴车、卡车、摩托车六个类别目标的检测模型,训练使用的损失函数如下:
Figure BDA0001764756700000061
训练样本被划分为13×13个单元格,每个单元格预测9个目标,其中与该单元格处标记目标重叠面积最大的预测目标的
Figure BDA0001764756700000062
为1,其它8个预测目标的
Figure BDA0001764756700000063
为0;如果预测目标位置不包含标记目标,则其
Figure BDA0001764756700000064
为1,反之其
Figure BDA0001764756700000065
为0。xi,yi,wi,hi,Ci分别代表
Figure BDA0001764756700000066
为1预测目标的中心点x坐标、中心点y坐标、宽度、高度、置信度;
Figure BDA0001764756700000071
分别代表标记目标的中心点x坐标、中心点y坐标、宽度、高度、置信度。class代表检测的目标类别,pi(c)为每个类别的预测概率,
Figure BDA0001764756700000072
为每个类别的标记概率。
如图3所示,本实施例的一种分类检索的系统,包括:深度学习模型训练模块,用于接收海量包含人或车目标的监控视频图片作为输入,图片涵盖不同场景、不同环境、不同光照条件,并标记出其中人和车的位置和类别,输入到深度卷积神经网络中训练得到深度学习模型,包括目标检测模型和特征提取模型;
检索数据库模块,用于接收待检索监控视频作为输入,依次对每个监控视频文件逐帧进行运动分析,快速获取监控视频中的所有运动目标并进行跟踪得到每个运动目标的运行轨迹,输出包含运动目标的关键帧;利用深度学习目标检测模型获取关键帧中人或车的精确位置和具体类别,保存到检索数据库中;根据人或车的精确位置,利用深度学习特征提取模型提取其深度特征,保存到检索数据库中;将提取出的人或车类目标与运动分析得到的运动目标进行匹配,得到对应的运行轨迹,保存到检索数据库中;
检索目标提取模块,用于接收包含待检索目标的图像作为输入,通过自动检测或者人工抠取选择待检索的人或车类目标;自动检测时,采用深度学习目标检测模型获取输入图像中所有人或车的精确位置及具体类别,用户根据需要选择其中的某个目标进行检索;人工抠取时,由用户从输入图像中框选待检索的目标及其所在位置,并选择其对应的类别;
深度特征提取模块,用于接收待检索目标抠图作为输入,利用深度学习特征提取模型计算得到该目标对应的深度特征;
目标检索模块,用于接收待检索目标的深度特征及其类别作为输入,根据待检索目标的类别,从检索数据库中筛选出同类别的目标子集,将待检索目标的深度特征与上述目标子集中所有的深度特征进行比对,得到与之最为接近的同类目标;
检索结果展示模块,用于输出检索结果,按照相似度从高到低展示与待检索目标匹配的检索目标,选取某个检索目标,可静态展示其在关键帧中的具体位置信息,并可动态展示其在监控视频中的运行轨迹。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度学习的监控视频多目标分类检索方法,其特征在于,包括以下步骤:
(1)提取待检索目标:输入待检索图像,通过自动检测或人工抠取的方式选择待检索目标,并明确其类别;
自动检测时,采用深度学习目标检测模型获取输入图像中所有人或车的精确位置及具体类别,用户根据需要选择其中的某个目标进行检索;人工抠取时,由用户从输入图像中框选待检索的目标及其所在位置,并选择其对应的类别;
(2)提取深度特征:利用深度学习特征提取模型提取待检索目标的深度特征;所述特征提取模型的卷积神经网络包括输入层、19个卷积层、5个池化层和输出层,可提取人、小汽车、面包车、大巴车、卡车、摩托车六个类别的深度特征,维度均为1024;
(3)目标检索:根据待检索目标的类别,将待检索目标的深度特征与检索数据库中同类目标的深度特征进行比对,得到与之最为相似的目标;
(4)检索结果展示:检索结果按照相似度从高到低展示,选取某个检索结果,可静态展示其在关键帧中的具体位置,并可动态展示其在监控视频中的运行轨迹;
所述目标检测模型的卷积神经网络包括输入层、22个卷积层、5个池化层和输出层,检测类别包括人、小汽车、面包车、大巴车、卡车、摩托车六类,训练使用的损失函数如下:
Figure FDA0003498878730000011
训练样本被划分为13×13个单元格,每个单元格预测9个目标,其中与该单元格处标记目标重叠面积最大的预测目标的
Figure FDA0003498878730000012
为1,其它8个预测目标的
Figure FDA0003498878730000013
为0;如果预测目标位置不包含标记目标,则其
Figure FDA0003498878730000014
为1,反之,其
Figure FDA0003498878730000015
为0,xi,yi,wi,hi,Ci分别代表
Figure FDA0003498878730000016
为1预测目标的中心点x坐标、中心点y坐标、宽度、高度、置信度;
Figure FDA0003498878730000017
分别代表标记目标的中心点x坐标、中心点y坐标、宽度、高度、置信度,class代表检测的目标类别,pi(c)为每个类别的预测概率,
Figure FDA0003498878730000018
为每个类别的标记概率;
在提取目标之前,首先训练深度学习模型,然后构建检索视频库,所述训练深度学习模型包括目标检测模型和特征提取模型;训练深度学习模型为:搜集大量包括人或车类目标的监控视频图片,图片涵盖白天和夜晚等多时段不同光照条件、晴天和雨天等不同环境、治安监控和交通监控等不同场景,车分为小汽车、面包车、大巴车、卡车、摩托车五个类别,每个图片均标记出其中的人或各类车的位置及具体类别,形成对应每个图片的标记文件,并截取各个目标的抠图保存;
将所有图片中目标的抠图及其类别输入到深度卷积神经网络中训练得到深度学习的特征提取模型;将图片及记录其中人或各类车精确位置和具体类别的标记文件输入到深度卷积神经网络中训练得到深度学习的目标检测模型;
所述构建检索视频库为:通过运动分析提取监控视频中所有运动目标的运行轨迹和包含运动目标的关键帧;利用深度学习模型提取关键帧中人或车类目标的精确位置、具体类别和深度特征,保存到检索数据库中;将人或车类目标与运动目标匹配得到对应的运行轨迹,保存到检索数据库中;具体过程如下:
(101)导入待检索监控视频,通过逐帧运动分析得到每个监控视频中的所有运动目标并跟踪其运行轨迹,同时提取包含运动目标的关键帧;
(102)利用深度学习目标检测模型提取关键帧中的人或车类目标,得到其精确位置和具体类别,将每个目标对应的关键帧、位置、类别保存到检索数据库中;
(103)利用深度学习特征提取模型提取每个人或车类目标的深度特征,保存到检索数据库中;
(104)将提取出的人或车与运动分析得到的运动目标进行匹配,得到其对应的运行轨迹,保存到检索数据库中。
2.根据权利要求1所述的一种基于深度学习的监控视频多目标分类检索方法,其特征在于,检索数据库保存监控视频中所有人或车类目标所在的关键帧、目标位置、目标类别和目标深度特征。
3.根据权利要求1所述的一种基于深度学习的监控视频多目标分类检索方法,其特征在于,步骤(3)中,选择待检索目标时,自动检测方式采用深度学习目标检测模型获取待检索图像中所有人或车类目标的精确位置及具体类别,用户根据需要选择其中的某个目标进行检索;人工抠取方式由用户从待检索图像中框选待检索的目标及其所在位置,并选择其对应的类别。
4.根据权利要求1所述的一种基于深度学习的监控视频多目标分类检索方法,其特征在于,步骤(3)中,深度特征比对采用余弦距离cosθ计算待检索目标深度特征与检索数据库中同类目标深度特征之间的相似度,计算公式如下:
Figure FDA0003498878730000021
其中,xi代表待检索目标的深度特征,yi代表检索数据库中同类目标的深度特征。
5.一种使用如权利要求1~4任一项所述的基于深度学习的监控视频多目标分类检索方法进行分类检索的系统,其特征在于,包括:
深度学习模型训练模块,用于接收海量包含人或车目标的监控视频图片作为输入,图片涵盖不同场景、不同环境、不同光照条件,并标记出其中人和车的位置和类别,输入到深度卷积神经网络中训练得到深度学习模型,包括目标检测模型和特征提取模型;
检索数据库模块,用于接收待检索监控视频作为输入,依次对每个监控视频文件逐帧进行运动分析,快速获取监控视频中的所有运动目标并进行跟踪得到每个运动目标的运行轨迹,输出包含运动目标的关键帧;利用深度学习目标检测模型获取关键帧中人或车的精确位置和具体类别,保存到检索数据库中;根据人或车的精确位置,利用深度学习特征提取模型提取其深度特征,保存到检索数据库中;将提取出的人或车类目标与运动分析得到的运动目标进行匹配,得到对应的运行轨迹,保存到检索数据库中;
检索目标提取模块,用于接收包含待检索目标的图像作为输入,通过自动检测或者人工抠取选择待检索的人或车类目标;自动检测时,采用深度学习目标检测模型获取输入图像中所有人或车的精确位置及具体类别,用户根据需要选择其中的某个目标进行检索;人工抠取时,由用户从输入图像中框选待检索的目标及其所在位置,并选择其对应的类别;
深度特征提取模块,用于接收待检索目标抠图作为输入,利用深度学习特征提取模型计算得到该目标对应的深度特征;
目标检索模块,用于接收待检索目标的深度特征及其类别作为输入,根据待检索目标的类别,从检索数据库中筛选出同类别的目标子集,将待检索目标的深度特征与上述目标子集中所有的深度特征进行比对,得到与之最为接近的同类目标;
检索结果展示模块,用于输出检索结果,按照相似度从高到低展示与待检索目标匹配的检索目标,选取某个检索目标,可静态展示其在关键帧中的具体位置信息,并可动态展示其在监控视频中的运行轨迹。
CN201810923212.5A 2018-08-14 2018-08-14 一种基于深度学习的监控视频多目标分类检索方法及系统 Active CN109241349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810923212.5A CN109241349B (zh) 2018-08-14 2018-08-14 一种基于深度学习的监控视频多目标分类检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810923212.5A CN109241349B (zh) 2018-08-14 2018-08-14 一种基于深度学习的监控视频多目标分类检索方法及系统

Publications (2)

Publication Number Publication Date
CN109241349A CN109241349A (zh) 2019-01-18
CN109241349B true CN109241349B (zh) 2022-03-25

Family

ID=65070301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810923212.5A Active CN109241349B (zh) 2018-08-14 2018-08-14 一种基于深度学习的监控视频多目标分类检索方法及系统

Country Status (1)

Country Link
CN (1) CN109241349B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783671B (zh) * 2019-01-30 2021-10-08 京东方科技集团股份有限公司 一种以图搜图的方法、计算机可读介质及服务器
CN111582006A (zh) * 2019-02-19 2020-08-25 杭州海康威视数字技术股份有限公司 一种视频分析方法及装置
CN110276783B (zh) * 2019-04-23 2021-01-08 上海高重信息科技有限公司 一种多目标跟踪方法、装置及计算机系统
CN110232133B (zh) * 2019-05-16 2022-09-20 华中科技大学 一种基于特征融合和款式分类的服装图像检索方法和系统
CN110188231A (zh) * 2019-06-11 2019-08-30 上海德拓信息技术股份有限公司 图片中相似物体检索方法及装置
CN110933520B (zh) * 2019-12-10 2020-10-16 中国科学院软件研究所 一种基于螺旋摘要的监控视频展示方法及存储介质
CN111522969A (zh) * 2020-03-31 2020-08-11 北京旷视科技有限公司 图像检索方法、装置、计算机设备和存储介质
CN112818172B (zh) * 2021-01-18 2023-04-18 浙江大华技术股份有限公司 视频检索方法、电子装置和存储介质
CN113110133B (zh) * 2021-03-23 2022-09-06 上海宏英智能科技股份有限公司 一种工业无线遥控系统
CN113178248A (zh) * 2021-04-28 2021-07-27 联仁健康医疗大数据科技股份有限公司 医学图像数据库建立方法、装置、设备及存储介质
CN113254742B (zh) * 2021-07-14 2021-11-30 深圳市赛野展览展示有限公司 一种基于5g深度学习人工智能的展示装置
CN115034805A (zh) * 2022-04-26 2022-09-09 哈尔滨工程大学 一种基于深度学习目标检测技术的智能广告展示系统
CN117132863B (zh) * 2023-10-25 2023-12-22 罗普特科技集团股份有限公司 一种能够进行数据反馈的车辆系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253989A (zh) * 2011-07-04 2011-11-23 厦门市美亚柏科信息股份有限公司 图像处理方法、装置及图像检索方法、系统
CN106845341A (zh) * 2016-12-15 2017-06-13 南京积图网络科技有限公司 一种基于虚拟号牌的无牌车辆识别方法
CN107145487A (zh) * 2016-03-01 2017-09-08 深圳中兴力维技术有限公司 图像搜索方法和装置
CN107291910A (zh) * 2017-06-26 2017-10-24 图麟信息科技(深圳)有限公司 一种视频片段结构化查询方法、装置及电子设备
CN108073690A (zh) * 2017-11-30 2018-05-25 江西洪都航空工业集团有限责任公司 一种视频目标检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253989A (zh) * 2011-07-04 2011-11-23 厦门市美亚柏科信息股份有限公司 图像处理方法、装置及图像检索方法、系统
CN107145487A (zh) * 2016-03-01 2017-09-08 深圳中兴力维技术有限公司 图像搜索方法和装置
CN106845341A (zh) * 2016-12-15 2017-06-13 南京积图网络科技有限公司 一种基于虚拟号牌的无牌车辆识别方法
CN107291910A (zh) * 2017-06-26 2017-10-24 图麟信息科技(深圳)有限公司 一种视频片段结构化查询方法、装置及电子设备
CN108073690A (zh) * 2017-11-30 2018-05-25 江西洪都航空工业集团有限责任公司 一种视频目标检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于迁移学习的交通场景车辆实时检测算法";商国军;《数字技术与应用》;20180430;第36卷(第4期);全文 *
"改进的多目标回归实时人脸检测算法";吴志洋;《计算机工程与应用》;20180630(第11期);正文第2-3页,第2.1节 *

Also Published As

Publication number Publication date
CN109241349A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109241349B (zh) 一种基于深度学习的监控视频多目标分类检索方法及系统
AU2019101142A4 (en) A pedestrian detection method with lightweight backbone based on yolov3 network
Liu et al. Large-scale vehicle re-identification in urban surveillance videos
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
CN106354816B (zh) 一种视频图像处理方法及装置
Gawande et al. Pedestrian detection and tracking in video surveillance system: issues, comprehensive review, and challenges
Azim et al. Layer-based supervised classification of moving objects in outdoor dynamic environment using 3D laser scanner
CN111709381A (zh) 基于YOLOv3-SPP的道路环境目标检测方法
Cui et al. Convolutional neural network for recognizing highway traffic congestion
CN108830254B (zh) 一种基于数据均衡策略和密集注意网络的细粒度车型检测与识别方法
CN111652035B (zh) 一种基于ST-SSCA-Net的行人重识别方法及系统
CN113592905B (zh) 基于单目摄像头的车辆行驶轨迹预测方法
Zheng et al. Multi-scale attention vehicle re-identification
CN108171976A (zh) 基于在途数据的车辆用途识别方法
CN112465854A (zh) 基于无锚点检测算法的无人机跟踪方法
CN112634329A (zh) 一种基于时空与或图的场景目标活动预测方法及装置
CN113239753A (zh) 基于YOLOv4改进的交通标志检测与识别方法
Chen et al. A novel vehicle tracking and speed estimation with varying UAV altitude and video resolution
Sonnleitner et al. Traffic measurement and congestion detection based on real-time highway video data
CN110399828B (zh) 一种基于多角度的深度卷积神经网络的车辆再识别方法
Balali et al. Video-based highway asset recognition and 3D localization
Peng et al. Real-time illegal parking detection algorithm in urban environments
Jiao et al. Traffic behavior recognition from traffic videos under occlusion condition: a Kalman filter approach
Kumar Crowd behavior monitoring and analysis in surveillance applications: a survey
CN111178370B (zh) 车辆检索方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant