CN114511525A

CN114511525A - 一种用于加快视频分析的方法、系统及介质

Info

Publication number: CN114511525A
Application number: CN202210077582.8A
Authority: CN
Inventors: 谭光; 查聪; 黄舒怡
Original assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Current assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-17

Abstract

本发明公开了一种用于加快视频分析的方法、系统及介质，系统包括：分区选择器、多个检测帧率选择器、多个配置搜索模块和目标检测模型，其中：分区选择器，按照视频图像区域的易检测性自适应地将视频图像结构分为易检测区域和难检测区域；检测帧率选择器，用于对易检测区域和难检测区域使用帧率选择器进行帧率选择；配置搜索模块，用于搜索帧率选择后的图像的配置信息，直至达到目标精度，得到完整的参数配置信息组合；目标检测模型，用于将搜索到的参数配置信息组合应用视频图像的其他时间的查询中。本发明能够在保证视频分析精度，不限制视频分析系统应用场景的前提下提升视频分析效率，减小计算开销，减少推理时间开销。

Description

一种用于加快视频分析的方法、系统及介质

技术领域

本发明涉及视频检测技术领域，尤其涉及一种用于加快视频分析的方法、系统及介质。

背景技术

随着时代的发展，摄像头走进了千家万户，无论是在家庭生活中，还是在城市和企业中，部署着大量的摄像头，仅天网工程，预计2021年年底，监控摄像头数量将在5.6亿个左右。大量摄像头全天候24小时实时监控，产生大规模历史视频数据。通过视频分析，这些历史视频数据可以满足交通控制、安全监控、工厂车间监控，城市治安防控等多种需要。

而随着计算机视觉技术的飞速发展，深度神经网络已经被广泛应用于视频分析。图像分类、目标检测、异常行为检测等视频分析技术被应用在各种视频监控场景中。例如：通过异常行为检测，交通管理部门可以自动识别出道路中的违章车辆；通过目标检测技术对安防监控视频进行分析，可以帮助公安部门快速抓获犯罪分子。可见，历史视频数据具有重大价值，而对历史视频数据进行分析具有重要意义。

随着计算机视觉技术的飞速发展，深度神经网络已经被广泛应用于视频分析的多种视频监控场景中。而目标检测是是计算机视觉中的基础任务。可靠的目标检测算法是实现对复杂场景理解和分析的基础，目标检测算法的性能优劣将会直接影响到后续的计算机视觉中高层任务的性能。但是，使用深度神经网络进行推理需要高昂的计算成本，且随着对模型检测能力与推理精度要求的提高，也愈发需要表征能力更强，计算量更大的模型。甚至满足精度阈值的配置在其资源需求方面会有许多数量级的变化。当进行大规模的视频数据分析时，高昂的计算成本与处理时间开销成为了亟需解决的问题。

视频数据具有大数据的三大特点，数据体量巨大、价值密度低、增长速度快。一方面，数据处理效率决定了能否充分利用快速增长的视频数据，挖掘数据价值；另一方面，监控视频数据主要被应用于事后查询，而我们往往需要快速获得查询结果，所以实现视频分析的低延迟也是至关重要的。与此同时，目标检测作为计算机视觉基础任务，其性能优劣将会直接影响到后续的如动作识别、目标跟踪以及行为理解等计算机视觉中高层任务的性能，进而决定了人工智能应用的可用性。因此，如何平衡视频分析检测效率与推理精度，在保证推理精度的同时，加快视频分析效率，对于监控视频内容理解具有重要意义。

现有技术中，有以下相关技术方案：

(1)通过过滤掉不包含当前查询相关信息的帧来减少待检测视频集，提高视频分析效率。过滤掉一帧图片需要了解该帧将如何影响查询结果，现有系统主要采用帧差分的方式。低级特征(例如，像素值)没有显著改变(基于静态阈值)的视频帧预期会产生相同的检测结果，因此，通过帧差分来判断视频内容是否发生显著改变决定是否进行过滤。

(2)在摄取图像的同时进行检测，即对正在捕获的实时视频进行处理，并为检测结果建立索引。在针对特定类别(例如救护车)的查询时直接进行索引查找，以直接定位到包含所查询的对象类别的视频帧。

(3)通过调节视频分析系统的配置参数来为当前视频片段选择最优配置组合，其选用的视频配置参数组合包括目标检测模型，图像分辨率，检测步长，并定时对视频分析系统配置组合进行更新。

但是，现有技术存在以下缺点：

1、视频分析效率低。视频分析系统参数配置组合搜索基于整段视频的配置组合选择，往往会因为小部分片段或区域的存在，拉高整段视频配置搜索结果，选用高计算量配置组合，降低视频分析效率。

2、浪费计算资源。在摄取视频时同时进行检测时，由于通常只有一小部分记录的帧被查询，大多数摄取时间的检测可能是浪费的。

3、无法应用于动态视频场景。基于帧过滤的方法由于受其原理限制不能使用于动态视频场景。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种用于加快视频分析的方法、系统及介质，提高对大规模视频数据分析的效率。相比于其他方案，本发明能够在保证视频分析精度，不限制视频分析系统应用场景的前提下提升视频分析效率，减小计算开销，减少推理时间开销。

为实现上述目的，本发明提供了一种用于加快视频分析的系统，包括：分区选择器、多个检测帧率选择器、多个配置搜索模块和目标检测模型，所述分区选择器输出端连接多个检测帧率选择器，所述多个检测帧率选择器分别与多个配置搜索模块连接，所述多个配置搜索模块输出端连接目标检测模型，其中：

分区选择器，按照视频图像区域的易检测性自适应地将视频图像结构分为易检测区域和难检测区域；

检测帧率选择器，用于对所述易检测区域和难检测区域使用帧率选择器进行帧率选择；

配置搜索模块，用于搜索帧率选择后的图像的配置信息，直至达到目标精度，得到完整的参数配置信息组合；所述配置信息包括但不限于图像尺寸、目标检测器；

目标检测模型，用于将搜索到的所述参数配置信息组合应用所述视频图像的其他时间的查询中。

一种用于加快视频分析的方法，包括以下步骤：

将每个视频按照特定时长分段，将所述特定分段视频按照视频图像区域的易检测性自适应地将图像结构分为易检测区域和难检测区域；

对所述易检测区域和难检测区域使用帧率选择器进行帧率选择；

搜索帧率选择后的图像的配置信息，直至达到目标精度，得到完整的参数配置信息组合；所述配置信息包括但不限于图像尺寸、目标检测器；

将搜索到的所述参数配置信息组合应用所述视频图像的其他时间的查询中。

进一步的，将所述特定分段视频按照视频图像区域的易检测性自适应地将图像结构分为易检测区域和难检测区域，具体为：设定阈值为T，假设第i行第j列个图像块中配置组合1检测结果为Det1_ij，配置组合2检测结果为Det2_ij，如果：

Det1_ij-Det2_ij＞T，(i，j)∈难检测区域；

Det1_ij-Det2_ij＜T，(i，j)∈易检测区域。

进一步的，所述易检测区域和难检测区域使用穷举法在使用最小模型(yolo v5s)的情况下进行帧率选择，以检测帧率为1，当F1＞(1+a)*f时，进行模型搜索，其中F1表示检测综合值，使用F1值衡量视频分析系统检测效果，F1值定义如下：

其中，TP指被模型预测为正的正样本，FP指被模型预测为正的负样本，FN指被模型预测为负的正样本，precision为准确率，recall为召回率。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述用于加快视频分析的方法的步骤。

本发明的有益效果是：

1.视频分析效率高。本发明依据视频图像区域是否易于检测对图像进行分区，按照空间维度划分。此外，在不同分区之间选择适应于不同分区的配置组合、检测帧率，不同分区差速检测的方法将图像按时间、空间维度划分，充分展现了将视频分析任务分而治之的思想，避免将大计算量模型笼统地应用于全图像、全帧率检测，从而实现在保证一定推理精度的情况下，减少视频分析查询时计算开销和时间开销。

2、节省计算资源。本方案对视频数据集事后查询，只需针对待查询视频数据执行检测，大幅度减小了检索范围，无需在摄取视频时对所有摄取到视频进行检测。

3、可适用视频场景广。本方案在动态视频场景下也能有较好的适用性。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的系统模型图。

图2是本发明的视频按照特定时长分段图。

图3是本发明的视频图像分区图。

图4是本发明的视频分析系统流程图。

图5是本发明的图像区域划分图。

图6是本发明的帧率选择与配置搜索流程图。

具体实施方式

如图1所示，本发明提供一种用于加快视频分析的系统，包括：分区选择器、多个检测帧率选择器、多个配置搜索模块和目标检测模型，分区选择器输出端连接多个检测帧率选择器，多个检测帧率选择器分别与多个配置搜索模块连接，多个配置搜索模块输出端连接目标检测模型，其中：

检测帧率选择器，用于对易检测区域和难检测区域使用帧率选择器进行帧率选择；

配置搜索模块，用于搜索帧率选择后的图像的配置信息，直至达到目标精度，得到完整的参数配置信息组合；配置信息包括但不限于图像尺寸、目标检测器；

目标检测模型，用于将搜索到的参数配置信息组合应用视频图像的其他时间的查询中。图1中目标检测模型无固定模型，可以是本实施例的yolo v5s，或Faster RCNN等计算机视觉中其他目标检测模型。

针对查询相关的视频数据集，如图2所示，将每个视频按照特定时长分段(图2中视频片段中1部分)用于该段视频配置参数组合搜索。将该特定分段视频输入到分区检测器中，分区检测器按照视频图像区域的易检测性自适应地将图像结构分为易检测区域和难检测区域，如图3所示。分别对两个区域使用帧率选择器进行帧率选择，之后继续进行其他配置搜索，包括图像尺寸、目标检测模型，获得完整的视频分析系统参数配置组合。最后，将搜索到的参数配置组合应用到该段视频其他时间(图2中视频片段2部分)的查询中。对整个视频进行目标检测，视频分为若干个片段，每个视频片段分为两部分，第1部分用于视频配置参数搜索，第1部分搜索的配置参数结果用于第2部分进行视频分析。

如图4所示，一种用于加快视频分析的方法，包括以下步骤：

将每个视频按照特定时长分段，将特定分段视频按照视频图像区域的易检测性自适应地将图像结构分为易检测区域和难检测区域；

对易检测区域和难检测区域使用帧率选择器进行帧率选择；

搜索帧率选择后的图像的配置信息，直至达到目标精度，得到完整的参数配置信息组合；配置信息包括但不限于图像尺寸、目标检测器；

将搜索到的参数配置信息组合应用视频图像的其他时间的查询中。

对于分区选择器，检测帧率候选参数集为[1、2、3、4、5]，目标检测器候选模型为[yolo v5s、yolo v5 m、yolo v5 l、yolo v5 x]，检测帧率越低，候选目标检测器模型越大时，检测精度越高，同时时间开销越大。以检测帧率为1，目标检测器选用计算量最大、检测精度最高模型(此处为yolo v5 x)作为最优配置组合1，该配置组合检测结果作为基本事实(Ground Truth)。另外，以检测帧率为1，目标检测器选用计算量最小、检测精度最低模型(此处为yolo v5 s)作为对照配置组合2。将视频中图像等分为m*n个图像块(图5中，m＝4,n＝5)，本分区方式仅为示例，其他分区方式也可以。

对于一帧图像，分别使用强目标检测能力模型与弱目标检测能力模型进行检测，统计在每一个区域块中，以强目标检测能力模型检出结果为基本事实，弱目标检测能力模型漏检物体个数，超出规定阈值时，该目标区域为难检测区域，否则，为易检测区域。设定阈值为T，假设第i行第j列个图像块中配置组合1检测结果为Det1_ij，配置组合2检测结果为Det2_ij，如果：

Det1_ij-Det2_ij＞T，(i，j)∈难检测区域；

Det1_ij-Det2_ij＜T，(i，j)∈易检测区域。

帧率选择与配置搜索流程图如图6所示。本实施例中，易检测区域和难检测区域使用穷举法在使用最小模型(yolo v5 s)的情况下进行帧率选择，其中，当以目标检测器候选模型集为[yolo v5s、yolo v5 m、yolo v5 l、yolo v5 x]时，最轻量目标检测模型为yolov5 s。以检测帧率为1，当F1＞(1+a)*f时，进行模型搜索，其中F1表示检测综合值，使用F1值衡量视频分析系统检测效果，F1值定义如下：

此处阈值设置仅为示例，其他设置也可以。模型搜索策略为优先提升难检测区域配置，在难检测区域配置组合达到最高时提升易检测区域配置。该策略能在最大幅度提升检测综合F1值的同时保证最终综合配置开销最低。

本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如上述用于加快视频分析的方法的步骤。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种用于加快视频分析的系统，其特征在于，包括：分区选择器、多个检测帧率选择器、多个配置搜索模块和目标检测模型，所述分区选择器输出端连接多个检测帧率选择器，所述多个检测帧率选择器分别与多个配置搜索模块连接，所述多个配置搜索模块输出端连接目标检测模型，其中：

2.一种用于加快视频分析的方法，其特征在于，包括以下步骤：

3.如权利要求2所述的一种用于加快视频分析的方法，其特征在于：将所述特定分段视频按照视频图像区域的易检测性自适应地将图像结构分为易检测区域和难检测区域，具体为：设定阈值为T，假设第i行第j列个图像块中配置组合1检测结果为Det1_ij，配置组合2检测结果为Det2_ij，如果：

Det1_ij-Det2_ij＞T，(i，j)∈难检测区域；

Det1_ij-Det2_ij＜T，(i，j)∈易检测区域。

4.如权利要求2所述的一种用于加快视频分析的方法，其特征在于：所述易检测区域和难检测区域使用穷举法进行帧率选择，以检测帧率为1，当F1＞(1+a)*f时，进行模型搜索；

其中，f表示目标衡量指标阈值，a表示允许超过目标衡量指标阈值的程度，F1＞(1+a)*f表示当前配置组合检测效果以a来衡量超过目标检测效果f一定程度时，进行参数配置搜索，选择更轻量级的配置组合，在能达到目标检测效果f的前提下，选择小的配置组合；

其中F1表示准确率和召回率的调和平均数，是对检测结果的衡量指标，使用F1值衡量视频分析系统检测效果，F1值定义如下：

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求2至4任一项所述用于加快视频分析的方法的步骤。