CN111914117A

CN111914117A - 一种面向检索的监控视频大数据记录方法及系统

Info

Publication number: CN111914117A
Application number: CN202010636568.8A
Authority: CN
Inventors: 王中元; 何政; 叶刚; 石超英
Original assignee: Wuhan Bangtuo Information Technology Co ltd
Current assignee: Wuhan Bangtuo Information Technology Co ltd; Wuhan University WHU
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-11-10

Abstract

本发明公开了一种面向检索的监控视频大数据记录方法及系统，首先检测图像中的兴趣点，提取和压缩SIFT紧凑视觉特征描述子；在存储录像文件的同时保存一份与录像伴随的视觉描述子副本库；通过特征匹配和几何一致性校验，确定匹配图像对；将输入的查询图像转化为视觉描述子，然后逐一与视觉描述子库中每帧图像的视觉描述子进行比对，确定最匹配的视频帧。本发明在基本不增加存储空间的前提下，有效提升了海量监控视频中嫌疑目标的查找效率，而且也便于不同厂家开发的系统、设备在MPEG CDVS国际标准基础上的兼容。

Description

一种面向检索的监控视频大数据记录方法及系统

技术领域

本发明属于视频监控技术领域，涉及一种监控视频记录方法及系统，具体涉及一种面向检索的监控视频大数据记录方法及系统。

技术背景

近年来，随着视频监控系统大量普及，视频监控系统在打击犯罪、维护稳定实践中正发挥着越来越重要的作用，从监控视频中检索嫌疑目标已成为公安机关侦查破案的重要手段。然而，众多的摄像头，庞大的监控网络，瞬间就会产生海量视频数据，如何从这些海量数据中高效地检索出有用的信息，一直是困扰视频监控行业的难题。

传统视频检索方法主要就是“人海战术”，效率十分低下。为了查找监控视频中某个可疑人物或者车辆，警方和保安人员不得不花费大量的时间和精力去浏览大量的监控录像，这种靠人工查看的方法不但时间代价大，而且经常由于疲劳等人为因素出现差错，处理效率极其低下。

互联网图片搜索引擎利用元数据将文字标签与图像进行关联，用户输入查询关键字搜索得到相关图像。但是，在监控视频大数据环境下，基于关键字的搜索技术往往缺乏精确的图像标注信息，而人工标注需要耗费大量的时间和成本，实际应用不具备可行性。

部分监控系统提供了以图搜图的检索方式，但是图像检索过程依赖有价值的视觉特征的提取和及其相似性度量，特征抽取和匹配是高运算复杂度的操作，何况每次检索都要对庞大的监控视频录像重新抽取一遍特征，运算量十分巨大，严重影响了检索效率。而且，面对不可控的实际监控环境，环境噪声、摄录距离、压缩失真等各种因素往往造成图像匹配失灵。

如果在视频录像的同时能将用于图像检索的特征也进行保存，将极大地方便了后续的检索过程。然而，存储特征需要消耗信息量，而且寻找有区分性的稳健的视觉特征也不是一件容易的事情，这在对存储成本和漏检率非常敏感的监控行业实现起来并非易事。

发明内容

国际标准化组织MPEG近来正式发布了名为面向视觉搜索的紧凑描述子(CompactDescriptors for Visual Search，CDVS)国际标准。MPEG CDVS简化视觉搜索应用中描述子提取和图像匹配的设计，实现单张视觉查询512字节的高度紧凑性表示以及面向可变带宽的0.5－16K字节之间的视觉特征可伸缩性编码。MPEG CDVS超低计算复杂度的尺度空间分析、局部特征选择性聚合、融合全局与局部特征的图像匹配等标准核心技术，有效提升了图像视频检索的性能。

本发明在记录监控录像的同时，基于MPEG CDVS标准，保存一份与监控录像伴随的SIFT紧凑视觉描述子副本库，专门用于事后的录像视频检索。由于每帧图像的紧凑视觉描述子只占512字节，与视频数据相比，增加的存储开销微乎其微。同时，SIFT局部特征描述子具有尺度、旋转不变性，对图片拍摄视角、曝光时间、遮挡等成像条件不敏感，适合实际监控环境下的图像检索。

基于上述思路，为了解决背景技术中指出的技术问题，本发明提供了一种面向检索的监控视频大数据记录方法及系统。

本发明的方法所采用的技术方案是：一种面向检索的监控视频大数据记录方法，其特征在于，包括以下步骤：

步骤1：提取紧凑视觉描述子；

针对输入图像，检测图像中的兴趣点，提取兴趣点的SIFT特征描述子，并进行量化压缩，同时对兴趣点的位置坐标进行压缩；

步骤2：构建视觉描述子副本库；

监控后台控制系统接收前端监控摄像头的码流存储成监控录像文件，与此同时，将接收的码流进行解码，挑选出活动视频帧，按照步骤1的方法提取活动帧的紧凑视觉描述子，存储成与监控录像文件伴随的视觉描述子副本库；

步骤3：视觉描述子匹配；

对兴趣点的SIFT特征描述子和兴趣点的位置坐标信息进行解压缩，度量输入的查询图像与视频录像数据库中录像图像特征相似度，通过几何一致性校验，确定匹配对，针对检测出的匹配对，通过单应性估计，计算匹配物体的位置；

步骤4：监控视频搜索；

按照步骤1的方法，将输入的查询图像转化为视觉描述子；然后根据步骤3的方法，逐一与视觉描述子副本库中每帧图像的视觉描述子进行比对，确定最匹配的视频帧。

本发明的系统所采用的技术方案是：一种面向检索的监控视频大数据记录系统，其特征在于：包括紧凑视觉描述子提取模块、视觉描述子副本库构建模块、视觉描述子匹配模块和监控视频搜索模块；

所述紧凑视觉描述子提取模块，用于提取紧凑视觉描述子；针对输入图像，检测图像中的兴趣点，提取兴趣点的SIFT特征描述子，并进行量化压缩，同时对兴趣点的位置坐标进行压缩；

所述视觉描述子副本库构建模块，用于构建视觉描述子副本库；监控后台控制系统接收前端监控摄像头的码流存储成监控录像文件，与此同时，将接收的码流进行解码，挑选出活动视频帧，按照步骤1的方法提取活动帧的紧凑视觉描述子，存储成与监控录像文件伴随的视觉描述子副本库；

所述视觉描述子匹配模块，用于视觉描述子匹配；对兴趣点的SIFT特征描述子和兴趣点的位置坐标信息进行解压缩，度量输入的查询图像与视频录像数据库中录像图像的特征相似度，通过几何一致性校验，确定匹配对，针对检测出的匹配对，通过单应性估计，计算匹配物体的位置；

所述监控视频搜索模块，用于监控视频搜索；按照步骤1的方法，将输入的查询图像转化为视觉描述子，然后逐一与视觉描述子副本库中每帧图像的视觉描述子进行比对，确定最匹配的视频帧。

相比于传统的仅仅记录压缩视频的监控录像存储方法，本发明方法具有如下优点和积极效果：

1)本发明通过保存一份与监控录像伴随的紧凑视觉描述子副本库，在基本不增加存储空间的前提下，方便了后续的基于视觉描述子的图像检索，有效提升了海量监控视频中嫌疑目标的查找效率；

2)本发明基于MPEG CDVS国际标准实现，有利于不同厂家开发的系统、设备在标准基础上的兼容。

附图说明

图1本发明实施例的方法流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

监控视频搜索的目标是从大规模监控图像数据库中快速准确地搜索包含与查询图像相同的对象或场景的所有相关图像。基于局部特征的匹配技术其距离度量计算复杂度会随着图像数据库的规模线性增长，很难应用于大规模图像检索。为此，从局部特征描述子聚合得到图像全局描述子，将多个局部描述子经过特定的变换转化成单个向量表示一副图像，图像匹配的过程变成两个向量之间的运算，从而减少图像搜索匹配的运算复杂度量级。

按照这一思路，基于紧凑视觉描述子检索流程主要分为两个阶段：第一阶段基于紧凑全局描述子的检索；第二阶段基于紧凑局部描述子的图像重排序。通过第一阶段的“粗筛选”与第二阶段的“细排序”，实现图像检索系统在检索效率与检索性能之间的平衡。

在“粗筛选”阶段，查询图像的紧凑全局描述子与图像数据集中参考图像紧凑聚合描述子进行比对，通过相似性匹配排序，返回一组候选图像。在“细排序"阶段，查询图像与第一阶段检索返回的候选图像集合分别进行几何一致性校验。根据几何校验数值，候选图像序列重新排序，满足几何一致性约束的图像将被调整至前列。因为基于紧凑全局描述子的检索大大缩小了候选匹配图像集合，查询图像与参考图像的几何一致性校验只在少量图像对之间进行，图像重排序阶段的时间复杂度大大降低。

视觉对象或者场景的匹配与检索，一方面依赖于视觉描述子，另一方面需要结合兴趣点空间位置信息。视觉描述子用于视觉相似度计算，得出一系列候选参考图像集合，而兴趣点位置信息用于提供几何一致性校验，对候选参考图像集合进行重排序，进一步提升匹配与检索性能。兴趣点位置信息也可以用于目标定位。

基于上述思想，本发明提供了一种面向检索的监控视频大数据记录方法，请见图1，本发明的具体实现包括以下步骤：

步骤1：提取紧凑视觉描述子；

针对给定图像(待查询图像或来自视频录像库的图像)，检测图像中的兴趣点，提取兴趣点的SIFT特征描述子，并进行量化压缩，同时对兴趣点的位置坐标进行压缩；

作为一种具体实现，包含如下步骤：

1.1兴趣点检测；

构建尺度空间，通过生成尺度空间来创建原始图像的多层积分表达(图像金字塔)以保证尺度不变性；

特征点检测，使用LoG(Laplacian of Gaussian)算子能够很好地找到图像中的稳定兴趣点，但具有较大的计算量。为此，本实施例使用DoG(Difference of Gaussian)算子近似LoG，求出的极值点就是得到的兴趣点。

1.2局部特征描述子提取；

生成SIFT描述子，对检测到的特征点赋予梯度方向，使得描述子具有旋转不变性。作为一种具体实现，利用位置上的尺度和旋转不变性为特征点生成一个特征向量，将兴趣点周围区域分解为16个4×4的子窗口，在每个子窗口中计算出梯度的大小和方向，并量化成8个bin的直方图来统计子窗口的平均方向，最后得到16×8＝128维的特征描述子。

1.3局部特征描述子压缩；

作为一种具体实现，采用多级树型矢量量化器进行分级压缩，具体步骤：

(1)第一级用小码数树型量化器对输入矢量进行比较粗的量化；

(2)在第一级码本中找到最近码字后，用原始矢量减去该码字得到残差矢量；

(3)第二级对第一级的量化残差矢量进行量化，以减少量化误差；

(4)第三级再对第二级的量化残差矢量进行量化，进一步减小量化误差；

(5)对每级的量化矢量索引进行熵编码。

1.4位置坐标压缩；

对于一幅图像检测到的局部特征兴趣点集合，将图像划分成若干个均匀的正方形小区域，统计每个小区域中包含兴趣点的个数，得到兴趣点统计直方图，统计直方图是一个二维矩阵，矩阵的每个元素代表的是相关区域内兴趣点的个数；

基于兴趣点统计直方图，选取与图像中心对称的子矩形区域作为核心区域来进行位置编码，直方图编码分为标识序列编码和标识图编码两部分。其中标识序列代表从上到下、从左到右存在兴趣点的块中包含的点数，标识图代表每个划分块是否存在兴趣点的0/1矩阵。标识序列使用算术编码，即标识矩阵先经过坐标变换得到变换矩阵，再对变换后的矩阵进行基于上下文的算术编码。

步骤2：构建视觉描述子副本库；

监控后台控制系统接收前端监控摄像头的码流存储成监控录像文件，与此同时，对视频流用视频解码器进行解码，挑选出活动视频帧，按照步骤1的方法提取活动帧的视觉描述子，存储成与监控录像文件伴随的视觉描述子副本库；

作为一种具体实现，包含如下步骤：

2.1视频帧选择；

对视频流用视频解码器进行解码，得到宏块的运动矢量数据，统计每帧运动矢量数据之和，当运动矢量之和超过预设门限，则判断为活动视频帧，否则判断为静态背景帧，针对活动视频帧提取视觉描述子；

2.2视觉描述子提取；

按照步骤1的方法，提取和压缩选中的活动视频帧的描述子；

2.3存储组织；

将压缩的紧凑视觉描述子单独存成一个文件，每帧的描述子的首部存放指向所在原始视频帧的索引。

步骤3：视觉描述子匹配；

对兴趣点的SIFT特征描述子和兴趣点的位置坐标信息进行解压缩，度量输入的查询图像与视频录像数据库中录像图像的特征相似度，通过几何一致性校验，确定匹配对，针对检测出的匹配对，通过单应性估计，计算匹配物体的位置；

作为一种具体实现，包含如下步骤：

3.1位置坐标解压缩；

执行与压缩相反的操作，解压缩得到兴趣点的位置坐标信息；

3.2局部特征描述子解压缩；

执行与压缩相反的操作，解压缩得到局部特征描述子；

3.3特征匹配；

在两幅图像中分别提取SIFT描述子，确定查询图像与参考图像中的兴趣点匹配对；

对所有检测到的SIFT特征描述子使用欧氏距离进行匹配，欧氏距离最小的SIFT特征描述子对判定为匹配对。

3.4几何校验；

利用解码的位置坐标信息，使用RANSAC几何一致性校验算法减少错误匹配的数量，只保留满足仿射变换的SIFT匹配对；

如果SIFT特征描述子匹配对的数量大于预设阈值，，则两幅图像判定为匹配图像，否则为不匹配图像。

步骤4：监控视频搜索；

按照步骤1的方法，将输入的查询图像转化为视觉描述子，然后逐一与视觉描述子副本库中每帧图像的视觉描述子进行比对，确定最匹配的视频帧。

步骤4中，基于局部描述子的图像匹配运算复杂度高，限制了大规模监控视频检索的效率。为此，将局部特征描述子聚合得到图像全局描述子，通过全局描述子搜索得到一个包含更多候选图像的一个较粗的搜索结果，再在此基础上采用局部描述子细化。具体步骤如下：

4.1局部特征描述子聚合

局部特征描述子聚合过程大致包含三个步骤：

(1)离线操作，从视觉描述子副本库中随机采样一定规模的局部特征集合，利用K-means算法聚类得到一个离线的视觉词典BoW；

(2)在线操作，给定一幅图像的局部特征子集，将每个局部特征分配到欧式距离最近的视觉单词；

(3)通过计数方式将局部特征聚合得到一个直方图向量，每一个维度表示对应的视觉单词在图像中的出现次数；

4.2基于全局描述子的粗选

查询图像的全局描述子与视频录像数据库中录像图像的全局描述子进行比对，通过相似性匹配值排序，返回一组候选图像；

4.3基于局部描述子的精选

查询图像与步骤4.2中返回的候选图像集合分别进行几何一致性校验，根据几何校验数值，候选图像序列重新排序，满足几何一致性约束的图像将被调整至前列。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向检索的监控视频大数据记录方法，其特征在于，包括以下步骤：

步骤1：提取紧凑视觉描述子；

检测输入图像中的兴趣点，提取兴趣点的SIFT特征描述子，并进行量化压缩，同时对兴趣点的位置坐标进行压缩；

步骤2：构建视觉描述子副本库；

步骤3：视觉描述子匹配；

步骤4：监控视频搜索；

2.根据权利要求1所述的面向检索的监控视频大数据记录方法，其特征在于：步骤1中，使用DoG算子近似LoG，求出的极值点即为得到的兴趣点。

3.根据权利要求1所述的面向检索的监控视频大数据记录方法，其特征在于：步骤1中，提取兴趣点的SIFT特征描述子，是对检测到的特征点赋予梯度方向，利用位置上的尺度和旋转不变性为特征点生成一个特征向量，将兴趣点周围区域分解为16个4×4的子窗口，在每个子窗口中计算出梯度的大小和方向，并量化成8个bin的直方图来统计子窗口的平均方向，最后得到16×8＝128维的特征描述子，使得描述子具有旋转不变性。

4.根据权利要求1所述的面向检索的监控视频大数据记录方法，其特征在于：步骤1中，所述局部特征描述子压缩，是采用多级树型矢量量化器进行分级压缩，具体包括以下子步骤：

步骤1.1：第一级用小码数树型量化器对输入矢量进行比较粗的量化；

步骤1.2：在第一级码本中找到最近码字后，用原始矢量减去该码字得到残差矢量；

步骤1.3：第二级对第一级的量化残差矢量进行量化，以减少量化误差；

步骤1.4：第三级再对第二级的量化残差矢量进行量化，进一步减小量化误差；

步骤1.5：对每级的量化矢量索引进行熵编码。

5.根据权利要求1所述的面向检索的监控视频大数据记录方法，其特征在于：步骤1中，所述对兴趣点的位置坐标进行压缩，是对于一幅输入图像检测到的局部特征兴趣点集合，将图像划分成若干个均匀的正方形小区域，统计每个小区域中包含兴趣点的个数，得到兴趣点统计直方图，统计直方图是一个二维矩阵，矩阵的每个元素代表的是相关区域内兴趣点的个数；基于兴趣点统计直方图，选取与图像中心对称的子矩形区域作为核心区域来进行位置编码，直方图编码分为标识序列编码和标识图编码两部分；其中标识序列代表从上到下、从左到右存在兴趣点的块中包含的点数，标识图代表每个划分块是否存在兴趣点的0/1矩阵；标识序列使用算术编码，即标识矩阵先经过坐标变换得到变换矩阵，再对变换后的矩阵进行基于上下文的算术编码。

6.根据权利要求1所述的面向检索的监控视频大数据记录方法，其特征在于：步骤2中，对视频流用视频解码器进行解码，得到宏块的运动矢量数据，统计每帧运动矢量数据之和，当运动矢量之和超过预设门限，则判断为活动视频帧，否则判断为静态背景帧，针对活动视频帧提取视觉描述子。

7.根据权利要求1所述的面向检索的监控视频大数据记录方法，其特征在于：步骤3中，度量输入的查询图像与视频录像数据库中录像图像特征相似度，是分别提取查询图像与视频录像数据库中录像图像SIFT特征描述子，对所有检测到的SIFT特征描述子使用欧氏距离进行匹配，欧氏距离最小的SIFT特征描述子对判定为匹配对。

8.根据权利要求7所述的面向检索的监控视频大数据记录方法，其特征在于：步骤3中，利用解码的位置坐标信息，使用RANSAC几何一致性校验算法减少错误匹配的数量，只保留满足仿射变换的SIFT匹配对；如果SIFT特征描述子匹配对的数量大于预设阈值，则两幅图像判定为匹配图像，否则为不匹配图像。

9.根据权利要求1-8所述的面向检索的监控视频大数据记录方法，其特征在于：步骤4中，将局部特征描述子聚合得到图像全局描述子，通过全局描述子搜索得到一个包含更多候选图像的一个较粗的搜索结果，再在此基础上采用局部描述子细化；

其具体实现包括以下子步骤：

步骤4.1：局部特征描述子聚合；

步骤4.2：基于全局描述子的粗选；

步骤4.3：基于局部描述子的精选；

查询图像与步骤4.2中返回的候选图像集合分别进行几何一致性校验，根据几何校验数值，候选图像序列重新排序，满足几何一致性约束的图像将被调整至前列，排序第一的作为最佳匹配结果。

10.一种面向检索的监控视频大数据记录系统，其特征在于：包括紧凑视觉描述子提取模块、视觉描述子副本库构建模块、视觉描述子匹配模块和监控视频搜索模块；

所述紧凑视觉描述子提取模块，用于提取紧凑视觉描述子；

所述视觉描述子副本库构建模块，用于构建视觉描述子副本库；

监控后台控制系统接收前端监控摄像头的码流存储成监控录像文件，与此同时，将接收的码流进行解码，挑选出活动视频帧，提取活动帧的紧凑视觉描述子，存储成与监控录像文件伴随的视觉描述子副本库；

所述视觉描述子匹配模块，用于视觉描述子匹配；

所述监控视频搜索模块，用于监控视频搜索；

将输入的查询图像转化为视觉描述子，然后逐一与视觉描述子副本库中每帧图像的视觉描述子进行比对，确定最匹配的视频帧。