CN111163315A

CN111163315A - 一种基于深度学习的监控视频压缩方法及系统

Info

Publication number: CN111163315A
Application number: CN201911326273.4A
Authority: CN
Inventors: 闫敬文; 龙丽红; 潘倩; 周怡情; 朱宇霆
Original assignee: Shantou University
Current assignee: Shantou University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-15
Anticipated expiration: 2039-12-20
Also published as: CN111163315B

Abstract

本发明公开了一种基于深度学习的监控视频压缩方法及系统，为了降低由视频冗余而带来的存储困难，本发明提出一种基于深度学习的监控视频压缩方法，能有有效解决上述问题；以视频输入为基础，从视频中动态地检测出目标，并将目标物标注出来，可将时间长、冗余信息多的大容量视频压缩成具有关键信息的短信息，且其具有良好的实时性与可变性；首次采取OpenCV、yolov3、贪心重排、视频合成的技术路线，可将一天24小时的监控视频进行压缩，压缩成只含有目标物的一小时左右的短视频。由此可见，视频的存储容量可减少24倍。

Description

一种基于深度学习的监控视频压缩方法及系统

技术领域

本公开涉及图像处理、视频处理和深度学习领域，具体涉及一种基于深度学习的监控视频压缩方法及系统。

背景技术

随着“智慧城市”概念的提出,越来越多的场合和物体被赋予了“智能化”，而“智能安防”作为“智慧城市”建设的一小部分，却扮演着十分重要的角色，关乎人们的安全，关乎社会的治安。在公共监控领域，摄像头记录着24小时的实时信息，按照规定监控视频时间保存在一个月到三个月之间，而超过三个月需要消耗更多的财力物力，因此，大多监控录像保存时间都在一个月左右。由此带来的不便与缺点显而易见，因此，提出了一种基于深度学习的监控视频压缩方法，对此缺点进行优化和改进。

近年来，深度学习在图像处理、自然语言理解和语音识别等领域取得了突破性进展，已经成为了人工智能的一个热潮。深度学习旨在建立一个模型来模拟人类大脑的神经连接结构，在处理图像、声音、文本等信号的时候，通过多个变换阶段分层对数据特征进行描述，从而给出数据的解释。在深度学习中，底层特征的不同组合能够形成更加抽象的高层特征、属性或者是其他分类，再进一步给出不同层的数据特征表示。将深度学习应用到视频的目标检测与压缩中，能够更好地处理大规模与大容量的监控视频，并对视频的丰富信息特征进行学习与检测，从而挑选出有价值的视频信息，可进行快速查看或低内存的存储。将深度学习、目标检测技术和视频压缩技术相结合，具有非常现实的意义，能够为安防系统带来更好的应用价值。

发明内容

本公开提供一种基于深度学习的监控视频压缩方法及系统，对于大规模大容量的监控视频，一般保存时间为一个月，若想要长期保存，则需要大量的存储空间，且硬件要求高，所消耗的财力物力较大。为了降低由视频冗余而带来的存储困难，本发明提出一种基于深度学习的监控视频压缩方法，能有有效解决上述问题。

本公开的目的是针对上述问题，提供一种基于深度学习的监控视频压缩方法及系统，具体包括以下步骤：

S100：输入视频数据；

S200：构建基于Yolov3的深度学习网络；

S300：通过视频数据训练基于Yolov3的深度学习网络得到训练好的网络模型；

S400：将视频数据经过训练好的网络模型进行测试，当检测到目标时，首先标记目标首次出现的时间，输出目标边框的信息并在视频中画边框；

S500：对目标进行实时的跟踪，实时更新目标的位置，并将目标出现的时间和目标的类别保存在标签信息中；

S600：通过贪心算法根据标签信息中对视频帧迭代从而进行排序并调整视频数据的最大相交面积百分比值；

S700：选取排序后的视频帧中帧数的优先级大于最大相交面积百分比的视频帧合并生成压缩后的短视频。

进一步地，在S200中，所述基于Yolov3的深度学习网络的损失函数是基于darknet框架下的Yolov3的误差平方和(sum-squared error)，包含了边框(bounding box)的位置误差(location error)和分类误差(classification error)，其中分类误差包括两部分，第一部分是含有object的box的置信损失(confidence loss)权值，第二部分是没有对象/目标(object)的box的置信损失权值。具体损失函数计算公式为：

其中，x_i、y_i、w_i、h_i分别为第i个预测框的中心坐标点和宽高；

分别为第i个实际框的中心坐标点和宽高；K表示将图片分成K*K的格子的子图片，M为框(预测框或实际框)的个数，i为第i个格子，j为第j个框；coord为coordinate坐标，λ_coord为位置误差的权重、λ_noobj为分类误差的权重；obj为目标，noobj为非目标；p_i(c)为第i个格子为c类的预测概率，

为第i个格子为c类的真实概率，classes为类别；C_i为第i个格子的预测条件概率。

为第i个格子的实际条件类概率；

前两项为计算交并比IOU(intersection-over-union)误差项，在IOU误差项中，有目标的边框(box)的权重设为1，而没有目标的边框(box)的权重设为0.5；最后的分类误差项的系数固定为1，若没有含有目标，则为0，即相当于不参与计算分类损失值；

在深度学习网络中使用上采样(up-sample)，比如进行16倍降采样检测，如果直接使用第四次下采样的特征来检测，这样就使用了浅层特征，效果不太理想。yolo_v3使用了步长为2的上采样，把32倍降采样得到的特征图(feature map)的大小提升一倍，即16倍降采样后的维度。同理8倍采样是对16倍降采样的特征进行步长为2的上采样，便可以使用深层特征进行检测(detection)。

进一步地，在S300中，通过视频数据训练基于Yolov3的深度学习网络得到训练好的网络模型的方法为，输入数据为视频数据，边框(bounding box)的信息(x,y,w,k),标签信息(包括目标出现的时间，目标的类别)，视频通过opencv中的类完成帧读取，输出多个时间长度为t的帧块(本demo使用t为15s)，然后经过多个卷积层+池化层，多个softmax，两个全卷积层+分类层和目标帧合成层，通过反向传播更新并修正网络权重，迭代训练，直到训练结束,softmax为分类任务的输出层。

进一步地，在S400中，当检测目标方法为：使用opencv抠图的具体操作：通过cv2.VideoCapture()类截取视频帧图片，只能截取视频的每帧图片，且其操作是不能跳帧截取图片。截取视频帧图片后，判断有没有截取到目标的视频帧的图片；使用succ,frame＝self._video.read()语句，通过判断succ是否为真(True)，succ为判断有没有读取到图片的布尔值,succ代表有没有读取到图片第二个参数，frame表示截取到一帧的图片。当读取到含有目标的视频帧时，对该视频帧进行接下来的操作，否则不进行操作，一直遍历，直到视频遍历结束。

进一步地，在S500中，所述标签信息包括边框的信息(x,y,w,k),标签信息(包括目标出现的时间，目标的类别)。

本发明还提供了一种基于深度学习的监控视频压缩系统，所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

视频输入单元，用于输入视频数据；

网络构建单元，用于构建基于Yolov3的深度学习网络；

网络训练单元，用于通过视频数据训练基于Yolov3的深度学习网络得到训练好的网络模型；

目标检测单元，用于将视频数据经过训练好的网络模型进行测试，当检测到目标时，首先标记目标首次出现的时间，输出目标边框的信息并在视频中画边框；

目标跟踪单元，用于对目标进行实时的跟踪，实时更新目标的位置，并将目标出现的时间和目标的类别保存在标签信息中；

贪心排序单元，用于通过贪心算法根据标签信息中对视频帧迭代从而进行排序并调整视频数据的最大相交面积百分比值；

压缩合并单元，用于选取排序后的视频帧中帧数的优先级大于最大相交面积百分比的视频帧合并生成压缩后的短视频。

本公开的有益效果为：本发明公开了一种基于深度学习的监控视频压缩方法，有益效果包括：

(1)在传统的目标检测中，如RCNN、Fast RCNN、Faster RCNN等，都是对图片进行目标检测，输入为一系列由像素值构成的图片。而本发明是以视频输入为基础，从视频中动态地检测出目标，并将目标物标注出来，可将时间长、冗余信息多的大容量视频压缩成具有关键信息的短信息，且其具有良好的实时性与可变性。

(2)从视频中检测出的目标物体信息，如何将其进行有效的分割、排序、合成、存储等一系列棘手问题，以及如何让压缩后的视频具有很高的复原度，这是本方法待解决的重要问题。针对以上问题，本方法提出了一种基于深度学习的视频压缩方法，首次采取OpenCV+yolov3+贪心重排+视频合成的技术路线，可将一天24小时的监控视频进行压缩，压缩成只含有目标物的一小时左右的短视频。由此可见，视频的存储容量可减少24倍，甚至更多。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为本公开的一种基于深度学习的监控视频压缩方法的流程图；

图2所示为本公开实施方式的一种基于深度学习的监控视频压缩系统。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本公开的一种基于深度学习的监控视频压缩方法的流程图，下面结合图1来阐述根据本公开的实施方式的方法。

本公开提出一种基于深度学习的监控视频压缩方法，具体包括以下步骤：

S100：输入视频数据；

S200：构建基于Yolov3的深度学习网络；

为第i个格子的实际条件类概率；

进一步地，在S400中，当检测目标方法为：使用opencv抠图的具体操作：通过cv2.VideoCapture()类截取视频帧图片，只能截取视频的每帧图片，且其操作是不能跳帧截取图片。截取视频帧图片后，使用succ,frame＝self._video.read()语句，通过判断succ是否为真(True)，succ为布尔值,succ代表有没有读取到图片第二个参数，frame表示截取到一帧的图片。当读取到含有目标的视频帧时，对该视频帧进行接下来的操作，否则不进行操作，一直遍历，直到视频遍历结束。

1)训练阶段，输入数据为视频，边框(bounding box)的信息(x,y,w,k),标签信息(包括目标出现的时间，目标的类别)，视频通过opencv中的类完成帧读取，输出多个时间长度为t的帧块(本demo使用t为15s)，然后经过多个卷积层+池化层，多个softmax，两个全卷积层+分类层和目标帧合成层，通过反向传播更新并修正网络权重，迭代训练，直到训练结束,softmax为分类任务的输出层。

2)测试阶段，输入数据为视频，视频经过已训练好的模型进行测试，输出边框的信息并在视频中画出框框，并写出标签，最后合成得到一个简短的视频。

2、根据权利要求1所述的一种基于深度学习的监控视频压缩方法，其特征在于：

首次采取OpenCV+Yolov3+贪心重排+视频合成的技术路线，其使用了opencv完成抠图的操作，通过cv2.VideoCapture()类截取视频帧图片，提取视频帧图片，卷积层均采用长度为3的卷积核，相比于核更大的卷积核其参数量减少很多，同时也增加了非线性操作，使决策更具有判别性。本方法引入了贪心重排算法，将多个含有检测目标的视频帧合成一个短视频，大大减少了视频的存储容量，同时降低了视频的冗余度。

(1)使用opencv抠图的具体操作：通过cv2.VideoCapture()类截取视频帧图片，只能截取视频的每帧图片，且其操作是不能跳帧截取图片。截取视频帧图片后，使用succ,frame＝self._video.read()语句，通过判断succ是否为True，succ为布尔值,succ代表有没有读取到图片第二个参数，frame表示截取到一帧的图片。当读取到含有目标的视频帧时，对该视频帧进行接下来的操作，否则不进行操作，一直遍历，直到视频遍历结束。

(2)本方法深度学习网络的损失函数是基于darknet框架下的Yolov3的误差平方和(sum-squared error)，包含了边框(bounding box)的位置误差(location error)和分类误差(classification error)，其中分类误差包括两部分，第一部分是含有object的box的置信损失(confidence loss)权值，第二部分是没有object的box的置信损失权值。具体损失函数计算公式如下所示。

为第i个格子的实际条件类概率；

前两项为计算交并比IOU(intersection-over-union)误差项，在IOU误差项中，有目标的边框(box)的权重设为1，而没有目标的边框(box)的权重设为0.5。最后的分类误差项的系数固定为1，若没有含有目标，则为0，即相当于不参与计算分类损失值。

(3)为了将特征表达效果更好，在网络中使用上采样(up-sample)，比如进行16倍降采样检测，如果直接使用第四次下采样的特征来检测，这样就使用了浅层特征，效果不太理想。yolo_v3使用了步长为2的上采样，把32倍降采样得到的特征图(feature map)的大小提升一倍，即16倍降采样后的维度。同理8倍采样是对16倍降采样的特征进行步长为2的上采样，便可以使用深层特征进行检测(detection)。

(4)贪心重排算法流程为：当检测到目标时，首先标记物体首次出现的时间，开始画边框(anchor)，并进行实时的跟踪，不断更新物体的location(位置)。将检测到的信息保存在字典中，将视频遍历完后，将所存储的视频使用贪心算法，通过设置最大生成的帧数max_frames_count(int,optional):即限制最大生成的帧数。当该参数生效时，算法会不断动态调整最大相交面积百分比(max_intersect_area_percentage)的值，使排序后的帧数满足设定值，该参数的优先级大于最大相交面积百分比，生成压缩后的短视频。

(5)使用基于darknet框架的yolov3进行目标检测，这是目前目标检测领域中实时性较好，计算时间较短，且效果能很好的满足一般工业要求的方法。Yolov3网络结构如表1所示，Yolov3包括卷积模块，且参考了Resnet的残差结构。

表1：Yolov3网络结构

(6)测试实例场景为某实验室门口，选取一段视频监控进行测试。实例在torch1.3.0环境下所测所得，原始视频的随机截图在原始视频中的时间为00:01:07，即图中人物出现并且停留的时间在一分钟七秒。使用基于深度学习的视频压缩方法后的压缩视频为原始视频中同一个目标出现的时间截图，此时，人物被框出来，并且在框框的右下角显示标签信息，即在原始视频出现的时间，为00:01:07。由图中可见，原本在原始视频中一分七秒出现的人物，在将中间的没有人出现的冗余视频删除后，在压缩后视频的00:00:20。本发明提出的基于深度学习的监控视频压缩方法能够很好的压缩出原始视频中的含有目标的视频。

本公开的实施例提供的一种基于深度学习的监控视频压缩系统，如图2所示为本公开的一种基于深度学习的监控视频压缩系统结构图，该实施例的一种基于深度学习的监控视频压缩系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于深度学习的监控视频压缩系统实施例中的步骤。

所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

视频输入单元，用于输入视频数据；

网络构建单元，用于构建基于Yolov3的深度学习网络；

所述一种基于深度学习的监控视频压缩系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种基于深度学习的监控视频压缩系统可运行的系统可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于深度学习的监控视频压缩系统的示例，并不构成对一种基于深度学习的监控视频压缩系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于深度学习的监控视频压缩系统还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于深度学习的监控视频压缩系统运行系统的控制中心，利用各种接口和线路连接整个一种基于深度学习的监控视频压缩系统可运行系统的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于深度学习的监控视频压缩系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种基于深度学习的监控视频压缩方法，其特征在于，所述方法包括以下步骤：

S100：输入视频数据；

S200：构建基于Yolov3的深度学习网络；

2.根据权利要求1所述的一种基于深度学习的监控视频压缩方法，其特征在于，在S200中，所述基于Yolov3的深度学习网络的损失函数是基于darknet框架下的Yolov3的误差平方和，包含了边框的位置误差和分类误差，其中分类误差包括两部分，第一部分是含有object的box的置信损失权值，第二部分是没有object的box的置信损失权值，具体损失函数计算公式为：

分别为第i个实际框的中心坐标点和宽高；K表示将图片分成K*K的格子的子图片，M为框的个数，i为第i个格子，j为第j个框；coord为coordinate坐标，λ_coord为位置误差的权重、λ_noobj为分类误差的权重；obj为目标，noobj为非目标；p_i(c)为第i个格子为c类的预测概率，

为第i个格子为c类的真实概率，classes为类别；C_i为第i个格子的预测条件概率，

为第i个格子的实际条件类概率；

前两项为计算交并比IOU误差项，在IOU误差项中，有目标的边框的权重设为1，而没有目标的边框的权重设为0.5；最后的分类误差项的系数固定为1，若没有含有目标，则为0，即相当于不参与计算分类损失值。

3.根据权利要求1所述的一种基于深度学习的监控视频压缩方法，其特征在于，在S300中，通过视频数据训练基于Yolov3的深度学习网络得到训练好的网络模型的方法为，输入数据为视频数据，视频通过opencv中的类完成帧读取，输出多个时间长度为t的帧块，然后经过多个卷积层+池化层，多个softmax，两个全卷积层、分类层和目标帧合成层，通过反向传播更新并修正网络权重，迭代训练，直到训练结束,softmax为分类任务的输出层。

4.根据权利要求1所述的一种基于深度学习的监控视频压缩方法，其特征在于，在S400中，当检测目标方法为：使用opencv抠图的具体操作：通过cv2.VideoCapture()类截取视频帧图片，只能截取视频的每帧图片，且其操作是不能跳帧截取图片；截取视频帧图片后，判断有没有截取到目标的视频帧的图片；当读取到含有目标的视频帧时，对该视频帧进行接下来的操作，否则不进行操作，一直遍历，直到视频遍历结束。

5.根据权利要求1所述的一种基于深度学习的监控视频压缩方法，其特征在于，在S500中，所述标签信息包括边框的信息、标签信息，标签信息包括目标出现的时间，目标的类别。

6.一种基于深度学习的监控视频压缩系统，其特征在于，所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

视频输入单元，用于输入视频数据；

网络构建单元，用于构建基于Yolov3的深度学习网络；