CN116828208A

CN116828208A - 一种视频的压缩与增强方法、装置、电子设备及存储介质

Info

Publication number: CN116828208A
Application number: CN202310878507.6A
Authority: CN
Inventors: 李子钦
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-09-29

Abstract

本发明公开了一种视频的压缩与增强方法、装置、电子设备及存储介质，方法包括：获取目标摄像头采集的视频数据，并将视频数据存到存储池；基于预设视频编码协议，从存储池解码多个低分辨率的第一视频文件，对多个第一视频文件进行堆叠拼接，编码得到高分辨率的第二视频文件；响应于目标对象的回看请求，对第二视频文件进行解码，进而裁切获得若干第三视频文件；对第三视频文件进行视频增强，得到目标视频文件并反馈到目标对象；其中，视频增强包括图像修复处理、时空域超分辨率处理和人脸增强处理；本发明实施例能够高效实现视频的压缩与增强，有效降低视频文件的存储及存储设备运维成本，可广泛应用于数据处理技术领域。

Description

一种视频的压缩与增强方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种视频的压缩与增强方法、装置、电子设备及存储介质。

背景技术

基于大数据、AI、5G、云计算、IoT等新基建、新技术的持续赋能、驱动下，业务快速增长需要海量视频数据存储，继而带来机房使用成本增长、能源消耗增大、维护成本升高，问题的核心都在于原始视频数据未得到有效优化和管理。

按照标准视频监控720P进行举例，每天产生的文件大小测算3Mb/s×3600秒×24小时＝259200Mb＝/8/1024＝31.64GB。

表1

720P(H.264)	1路	10000路
			每天磁盘占用	34.64GB	338.28TB
每月磁盘占用	1.01TB	9.91PB
			每半年磁盘占用	6.08TB	59.46PB
每年磁盘占用	12.34TB	120.57PB

从表1可以看出当1万路720P摄像头集中存储6个月时，需要约60PB存储空间。按照2023年采购分布式存储标准价格计算1PB存储空间3副本的分布式存储建设成本约为500元/TB×1024×3＝153.6万元，存储半年1万路视频需建设存储成本为153.6万元×59.46PB＝9133万元，每PB占用机柜资源2个，实际占用机柜资源约30个机柜，前期建设成本高、后期运营维护成本大。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明提出一种视频的压缩与增强方法、装置、电子设备及存储介质，能够高效进行视频的压缩与增强。

一方面，本发明实施例提供了一种视频的压缩与增强方法，包括：

获取目标摄像头采集的视频数据，并将视频数据存到存储池；

基于预设视频编码协议，从存储池解码多个低分辨率的第一视频文件，对多个第一视频文件进行堆叠拼接，编码得到高分辨率的第二视频文件；

响应于目标对象的回看请求，对第二视频文件进行解码，进而裁切获得若干第三视频文件；

对第三视频文件进行视频增强，得到目标视频文件并反馈到目标对象；其中，视频增强包括图像修复处理、时空域超分辨率处理和人脸增强处理。

可选地，对多个第一视频文件进行堆叠拼接，包括：

使用合并函数在GPU中对多个第一视频文件进行堆叠拼接；

其中，合并函数包括水平合并函数和垂直合并函数。

可选地，方法还包括：

将第二视频文件存到存储池，并删除存储池中用于编码得到第二视频文件的多个第一视频文件。

可选地，对第二视频文件进行解码，进而裁切获得若干第三视频文件，包括：

基于预设视频编码格式，使用视频解码器引擎对第二视频文件进行并行解码，进而裁切获得若干第三视频文件。

可选地，当视频增强包括图像修复处理，对第三视频文件进行视频增强这一步骤，包括：

利用深度学习图像修复模型，对第三视频文件进行图像修复处理；

其中，图像修复处理包括噪点与折痕去除和色彩校正；深度学习图像修复模型基于变分自编码器构建得到。

可选地，当视频增强包括时空域超分辨率处理，对第三视频文件进行视频增强这一步骤，包括：

对第三视频文件进行空域超分；

对第三视频文件进行时域超分；

其中，空域超分表征对第三视频文件的空间分辨率的提升处理，时域超分表征对第三视频文件的视频帧率的增加处理。

可选地，当视频增强包括人脸增强处理，对第三视频文件进行视频增强这一步骤，包括：

利用预训练的先验嵌入网络，对第三视频文件进行人脸增强处理；

其中，先验嵌入网络通过以下步骤预训练得到：

将生成对抗网络嵌入U型动态神经网络，得到先验嵌入网络；其中，生成对抗网络基于第一人脸图像训练生成；

利用第二人脸图像对先验嵌入网络进行训练调整，得到预训练完成的先验嵌入网络；第一人脸图像的清晰度大于第二人脸图像的清晰度。

另一方面，本发明实施例提供了一种视频的压缩与增强装置，包括：

第一模块，用于获取目标摄像头采集的视频数据，并将视频数据存到存储池；

第二模块，用于基于预设视频编码协议，从存储池解码多个低分辨率的第一视频文件，对多个第一视频文件进行堆叠拼接，编码得到高分辨率的第二视频文件；

第三模块，用于响应于目标对象的回看请求，对第二视频文件进行解码，进而裁切获得若干第三视频文件；

第四模块，用于对第三视频文件进行视频增强，得到目标视频文件并反馈到目标对象；其中，视频增强包括图像修复处理、时空域超分辨率处理和人脸增强处理。

可选地，第一模块具体用于：

使用合并函数在GPU中对多个第一视频文件进行堆叠拼接；

其中，合并函数包括水平合并函数和垂直合并函数。

可选地，装置还包括：

第五模块，用于将第二视频文件存到存储池，并删除存储池中用于编码得到第二视频文件的多个第一视频文件。

可选地，第三模块具体用于：

可选地，视频增强为图像修复处理，第四模块具体用于：

可选地，视频增强为时空域超分辨率处理，第四模块具体用于：

对第三视频文件进行空域超分；

对第三视频文件进行时域超分；

可选地，视频增强为人脸增强处理，第四模块具体用于：

其中，先验嵌入网络通过以下步骤预训练得到：

另一方面，本发明实施例提供了一种电子设备，包括：处理器以及存储器；存储器用于存储程序；处理器执行程序实现上述视频的压缩与增强方法。

另一方面，本发明实施例提供了一种计算机存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于实现上述视频的压缩与增强方法。

本发明实施例首先获取目标摄像头采集的视频数据，并将视频数据存到存储池；基于预设视频编码协议，从存储池解码多个低分辨率的第一视频文件，对多个第一视频文件进行堆叠拼接，编码得到高分辨率的第二视频文件；本发明实施例通过对低分辨率的视频文件的堆叠拼接，进而保存为高分辨率的视频文件，有效实现视频文件的压缩，节省磁盘空间；响应于目标对象的回看请求，对第二视频文件进行解码，进而裁切获得若干第三视频文件；对第三视频文件进行视频增强，得到目标视频文件并反馈到目标对象；其中，视频增强包括图像修复处理、时空域超分辨率处理和人脸增强处理；并且本发明实施例利用图像修复处理、时空域超分辨率处理和人脸增强处理等图像处理技术进行视频增强，便于视频文件回看的同时，降低视频存储设备的建设运维成本。本发明实施例能够高效实现视频的压缩与增强，有效降低视频文件的存储及存储设备运维成本。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例提供的进行视频的压缩与增强的一种实施环境示意图；

图2是本发明实施例提供的一种视频的压缩与增强方法的流程示意图；

图3为本发明实施例提供的视频堆叠拼接的流程架构示意图；

图4为本发明实施例提供的视频堆叠拼接的流程原理示意图；

图5为本发明实施例提供的nvnec模块的示意图；

图6为本发明实施例提供的视频编码压缩的流程原理示意图；

图7为本发明实施例提供的视频并行解码的流程原理示意图；

图8为本发明实施例提供的基于TMNe的视频时空域超分的流程架构示意图；

图9为本发明实施例提供的GPEN模型的流程架构示意图；

图10为本发明实施例提供的视频编码的流程原理示意图；

图11为本发明实施例提供的视频的压缩与增强方法的整体流程示意图；

图12为本发明实施例提供的视频的压缩与增强的系统总体技术架构的示意图；

图13为本发明实施例提供的一种视频的压缩与增强装置的结构示意图；

图14为本发明实施例提供的一种电子设备的结构示意图；

图15为本发明实施例提供的适于用来实现本发明实施例的电子设备的计算机系统结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一/S100”、“第二/S200”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为便于技术方案的理解，对本发明实施例可能出现的专业术语进行解释说明：

H.264是高度压缩数字视频编解码器标准，同时也是MPEG-4第十部分，是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组提出的高度压缩数字视频编解码器标准。

H.265是ITU-T VCEG继H.264之后所制定的新的视频编码标准。H.265标准围绕着现有的视频编码标准H.264，保留原来的某些技术，同时对一些相关的技术加以改进。新技术以改善码流、编码质量、延时和算法复杂度之间的关系，达到最优化设置。

AV1是一种新兴的开源免版税视频压缩格式，由开放多媒体联盟(AOMedia)行业联盟于2018年初联合开发并最终确定。AV1开发的主要目标是在保持实际解码复杂性和硬件可行性的同时，在最先进的编解码器上实现显著的压缩增益。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

可以理解的是，本发明实施例提供的视频的压缩与增强方法，是能够应用于任意一种具备数据处理计算能力计算机设备，而这一计算机设备可以是各类终端或是服务器。当实施例中的计算机设备是服务器时，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式系统，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑以及台式计算机等，但也并不局限于此。

如图1所示，是发明实施例提供的一种实施环境示意图。参照图1，该实施环境包括至少一个终端102和服务器101。终端102和服务器101之间可以通过无线或者有线的方式进行网络连接，完成数据传输交换。

服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

另外，服务器101还可以是区块链网络中的一个节点服务器。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。

终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端102以及服务器101可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例在此不做限制。

示例性地基于图1所示的实施环境，本发明实施例提供了一种视频的压缩与增强方法，下面以该视频的压缩与增强方法应用于服务器101中为例子进行说明，可以理解的是，该视频的压缩与增强方法也可以应用于终端102中。

参照图2，图2为本发明实施例提供的应用于服务器的视频的压缩与增强方法的流程图，该视频的压缩与增强方法的执行主体可以是前述的任意一种计算机设备。参照图2，该方法包括以下步骤：

S100、获取目标摄像头采集的视频数据，并将视频数据存到存储池；

一些具体实施例中，摄像头将采集到的视频文件存到存储池内，进而便于对视频文件后续相关处理步骤，例如视频存储池调AI算力池中的GPU算力对视频文件进行压缩处理。需要说明的是，摄像头采集的视频数据可以基于各摄像头标识、不同时间段等分组存储到存储池。

S200、基于预设视频编码协议，从存储池解码多个低分辨率的第一视频文件，对多个第一视频文件进行堆叠拼接，编码得到高分辨率的第二视频文件；

需要说明的是，一些实施例中，对多个第一视频文件进行堆叠拼接，可以包括：使用合并函数在GPU中对多个第一视频文件进行堆叠拼接；其中，合并函数包括水平合并函数和垂直合并函数。

其中，一些实施例中，方法还可以包括：将第二视频文件存到存储池，并删除存储池中用于编码得到第二视频文件的多个第一视频文件。

一些具体实施例中，在视频压缩过程中，可以采用8K混合压缩技术。8K分辨率是指水平方向具有大约8000个像素宽度的图像或显示分辨率，即8K视频图像每帧具备7680×4320的分辨率，每帧约3300万个像素(16:9)。标准的720P高清分辨率为1280×720，而8K视频在水平方向和垂直方向分辨是720P的6倍，简而言之，1帧8K图片正好包含36个720P尺寸的图片。以摄像头保存的文件为720P为例，当对视频进行压缩时，使用H.264视频编解码协议，同时解码多个720P视频文件，并利用AI-CUDA进行8K画面的M×N格式拼接，我们在具体的实施时，同时解码36个720P视频监控文件，并利用AI-CUDA进行8K画面的6×6格式拼接，最终生成1个36画面的视频文件。其中，CUDA(Compute Unified Device Architecture，统一计算设备架构)一种并行计算平台和编程模型。它通过利用图形处理器(GPU)的处理能力，可大幅提升计算性能。目前为止基于CUDA的GPU销量已达数以百万计，软件开发商、科学家以及研究人员正在各个领域中运用CUDA，其中包括图像与视频处理、计算生物学和化学、流体力学模拟、CT图像再现、地震分析以及光线追踪等等。

需要说明的是，AI-CUDA是将一个视频覆盖在另一个视频之上，至少需要两个输入，并且有一个输出。第一个输入是第二个输入被叠加的“主”视频。x y设置主视频上叠加视频的x和y坐标的表达式。main_w,W main_h，分别表示主视频的宽度和高度。overlay_w,woverlay_h分别表示叠加视频的宽度和高度。

例如将两个输入视频并排放置进行输出：

nullsrc＝size＝200x100[background]；

[0:v]setpts＝PTS-STARTPTS,scale＝100x100[left]；

[1:v]setpts＝PTS-STARTPTS,scale＝100x100[right]；

[background][left]

overlay＝shortest＝1[background+left]；

[background+left][right]overlay＝shortest＝1:x＝100[left+right]

寄存器——这些对每个线程都是私有的，这意味着分配给一个线程的寄存器对其他线程不可见。编译器决定寄存器的使用。

L1/共享内存(SMEM)——每个SM都有一个快速的片上暂存器内存，可用作L1缓存和共享内存。一个CUDA块中的所有线程可以共享内存，运行在给定SM上的所有CUDA块可以共享SM提供的物理内存资源。

只读内存——每个SM都有指令缓存、常量内存、纹理内存和RO缓存，对内核代码是只读的。

L2缓存——L2缓存在所有SM之间共享，因此每个CUDA块中的每个线程都可以访问此内存。与V100 GPU中的6MB相比，NVIDIA A100 GPU将L2缓存大小增加到40MB。

全局内存——GPU中DRAM的帧缓冲区大小。

其中，以摄像头保存的文件为720P，并结合8K混合压缩为例，如图3和图4所示，视频压缩的具体流程为：

36个视频文件的拼接工作使用合并函数(VStack或者HStack)进行，使用Overlay_CUDA在GPU上进行6*6画面堆叠拼接，使用CPU进行计算无法高效的进行画面拼接，通过在硬件平台CPU 6338和GPU 4090上做对比实验，GPU的效率是CPU的8倍。

通过8K-HEVC实时编码和可控的压缩比率，使用CPU的软编码无法满足现有8K30帧的实时编码压缩，如图5所示，本发明实施例中使用GPU加速单元的nvnec模块使得单节点GPU卡可达到8K60帧实时处理效率。使用视频解码(Nvdec)和视频编码(称为Nvenc)的GPU硬件加速器引擎支持比实时视频处理更快，这使得它们适合用于除视频回放之外的转码应用。支持在多个编码器上均匀分配负载，支持对AV1和HEVC格式的实时8k60编码。

一些可以实现的实施例中，如图6所示，视频编码压缩的整体流程可以为：

1、从存储池获取36路720P视频文件；

2、对获取的36路720P视频文件，利用CUVID进行实时解码；

3、对解码后的36路视频，利用AI-CUDA进行处理拼接；

4、生成1个8K视频文件；

5、进而对生成的8K视频文件进行NVNEC(视频编码，同Nvenc)实时8K编码为HEVC(高效视频编码，也称为H.265和MPEG-H part 2)格式；

6、最终得到6*6画面，规格为7680*4320。

S300、响应于目标对象的回看请求，对第二视频文件进行解码，进而裁切获得若干第三视频文件；

需要说明的是，一些实施例中，对第二视频文件进行解码，进而裁切获得若干第三视频文件，包括：基于预设视频编码格式，使用视频解码器引擎对第二视频文件进行并行解码，进而裁切获得若干第三视频文件。其中，视频裁切是针对各个第一视频的拼接处进行的。

一些具体实施例中，当对视频进行还原时，使用H.265视频编解码协议，解码8K视频监控文件，并利用AI模型进行裁切。其中，使用CPU很难做到实时同时解码36N文件，N取决于计算节点GPU数量(传统模式下使用CPU，N小于等于2)，使用CPU会导致CPU资源被大量使用解码程序所占用，也无法满足后续的视频拼接的要求。如图7所示，本发明实施例利用AI-CUDA技术将文件上传至GPU，并使用视频解码器引擎NVdec来同时解码36N的文件。

S400、对第三视频文件进行视频增强，得到目标视频文件并反馈到目标对象；

其中，视频增强包括图像修复处理、时空域超分辨率处理和人脸增强处理；

需要说明的是，一些实施例中，当视频增强包括图像修复处理，对第三视频文件进行视频增强这一步骤，可以包括：利用深度学习图像修复模型，对第三视频文件进行图像修复处理；其中，图像修复处理包括噪点与折痕去除和色彩校正；深度学习图像修复模型基于变分自编码器构建得到。

一些具体实施例中，基于VAEs(变分自编码器)的AI深度学习图像修复模型实现对老旧视频的自动修复，不仅可以去除噪点、折痕等，同时还能优化细节、矫正色彩。极大程度地解放了对人力资源的占用。

一些实施例中，当视频增强包括时空域超分辨率处理，对第三视频文件进行视频增强这一步骤，可以包括：对第三视频文件进行空域超分；对第三视频文件进行时域超分；可以实现低分辨率低帧率到高分辨率高帧率的转换；其中，空域超分表征对第三视频文件的空间分辨率的提升处理，时域超分表征对第三视频文件的视频帧率的增加处理。

一些具体实施例中，基于TMNet的AI视频时空域超分辨率模型，实现低分辨率低帧率到高分辨率高帧率的转换，高效提升视频清晰度与流畅度。采用神经网络模型进行视频的时空域超分辨率操作。在视频时空域超分辨率中，空域超分是指将视频的空间分辨率提升，旨在提升视频画面的清晰度，如本实施例中的4K视频升级为8K视频；时域超分是指增加视频的帧率，旨在带来更流畅的观感体验，胶片视频的帧率通常为每秒12帧，远达不到流畅观看的帧率要求，需要进行时域超分。

如图8所示，采用基于TMNe的视频时空域超分方法，与分步超分不同，TMNet可以实现以单一模型同时完成视频的空域超分和时域超分，不仅简化了操作步骤和运算规模，这种时空域信息结合分析的方法有着更好的性能表现。基于TMNe的视频时空域超分方法是一种用于视频增强的图像处理技术。TMNe是Temporal Motion Network Enhancement的缩写，它结合了时空域超分辨率重建和运动补偿的概念。视频时空域超分方法的目标是将低分辨率的视频序列增强为高分辨率，以提高视频质量和细节清晰度。传统的超分辨率方法主要关注单帧图像的重建，而视频时空域超分方法则考虑了视频序列中帧间的时域关系。TMNe方法通过运动补偿来估计视频序列中帧间的运动信息，并根据这些信息进行时空域超分辨率重建。它使用时空域滤波器来提取运动信息，并将其应用于低分辨率图像的重建过程中。这种方法可以更好地保留视频序列的运动连续性和空间细节，从而产生更清晰、更自然的高分辨率视频。基于TMNe的视频时空域超分方法在视频增强领域具有广泛的应用。它可以用于提高低质量视频的视觉效果，如增强监控视频的细节、提升视频会议的清晰度等。通过结合时空域超分辨率重建和运动补偿，该方法能够显著改善视频质量，并在许多应用中提供更好的用户体验。

一些实施例中，当视频增强包括人脸增强处理，对第三视频文件进行视频增强这一步骤，包括：利用预训练的先验嵌入网络，对第三视频文件进行人脸增强处理；其中，先验嵌入网络通过以下步骤预训练得到：将生成对抗网络嵌入U型动态神经网络，得到先验嵌入网络；其中，生成对抗网络基于第一人脸图像训练生成；利用第二人脸图像对先验嵌入网络进行训练调整，得到预训练完成的先验嵌入网络；第一人脸图像的清晰度大于第二人脸图像的清晰度。

一些具体实施例中，如图9所示，采用的GPEN(先验嵌入网络)模型可以有效进行人脸面部的修复增强，照片瞬间就清晰了许多，尤其是面部细节增强相当丰富。人们在观看视频时，会更多地关注人物面部，但是普通的视频超分辨率算法并没有针对面部细节进行增强处理，为了得到具有更优观看体验的胶片修复视频，有必要进行针对性地面部增强处理。GPEN模型的核心思路在于，首先学一个用于第一人脸图像生成的GAN(生成对抗网络)，并将其嵌入到U-shaped DNN(U型动态神经网络)中作为先验解码器，然后用一组合成的第二人脸图像对先验嵌入的GAN DNN进行微调，最终实现人脸增强。

GPEN(先验嵌入网络)模型是一种用于人脸图像生成和编辑的深度学习模型。它是基于生成对抗网络(GANs)的框架，旨在学习并捕捉人脸图像中的潜在特征和先验信息。GPEN模型的设计目的是生成高质量、逼真的人脸图像，并提供对人脸图像的编辑能力。它通过在训练阶段学习大量真实人脸图像的特征和模式，然后使用这些学习到的特征来生成新的人脸图像。与传统的GAN模型不同，GPEN引入了一个先验嵌入网络。这个网络在生成器和判别器之间起到了关键的作用，它负责学习人脸图像的先验信息，并将这些信息嵌入到生成过程中。先验嵌入网络可以被看作是对人脸图像特征的编码器，它通过学习将人脸图像映射到一个潜在空间中的向量表示。在生成过程中，GPEN模型接受一个潜在向量作为输入，并使用生成器网络将其转换为对应的人脸图像。生成器网络由多个层组成，通过反复迭代和优化来生成逼真的人脸图像。判别器网络则用于评估生成的图像的真实性，并提供反馈信号用于生成器网络的训练。GPEN模型的优势在于它能够生成高质量、多样化的人脸图像，并且提供了对人脸图像进行编辑的能力。通过在潜在空间中调整先验嵌入向量，可以实现对生成人脸的属性、表情、姿态等进行精细控制。这使得GPEN在人脸生成、虚拟角色创建、人脸编辑等领域有着广泛的应用潜力。

本发明可在任何PC和APP端播放器进行播放，支持国际标准编解码协议：H264、H265、VP8/VP9、AV1和H266，支持视频编解码协议AVS2/3。本发明实施例中，经过AI增强的画面可通过分别是色域、分辨率、量化精度、动态范围和帧率5个维度带来全新的感受。经过AI增强处理后可使得原有视频色彩更丰富，BT2020标准几乎涵盖所有自然界物体表面的颜色，色彩更加丰富，画面更加细腻，通过增强后的视频大画面，精致细节震撼人心的视觉体验。4倍4K分辨率的细腻画面，呈现画面细节，还原现场效果，色彩更精准，深度数值越高，可以获得更多的色彩。10bit颜色采样更加密集，意味着渐变色更细腻，高色深将打破色彩过度分层，让画面色彩有更精准的视觉表现。色深为8bit RGB中每一个颜色有2的8次方，也就是256个等级，RGB三原色共有(1670万)(256*256*256)种色彩搭配。色深为10bit RGB中每一个颜色有2的10次方，也就是1024个等级，RGB三原色共有(10.7亿)(1024*1024*1024)种色彩搭配，提升64倍。

一些可以实现的实施例中，如图10所示，视频增强的整体流程可以为：

1、首先获取经视频压缩得到的8K视频文件；

2、利用NVDEC(视频解码，同NVdec)将8K视频文件解码为HEVC格式；

3、利用CUDC对解码后的视频进行裁切；

4、针对裁切得到的各个视频进行AI增强；

5、最终将增强后的视频返回给用户播放。

其中，一些可以实现的实施例中，如图11所示，本发明方法的整体流程为：

摄像头将采集到的视频文件存到存储池内，视频存储池调AI算力池中的GPU算力对视频文件进行压缩处理，并将压缩后的视频存放回存储池。

当用户请求回放视频时，向AI算力池申请算力对视频进行还原和增强，增强后的视频文件放回存储池给用户回看、或直接推送到展示平台回看。

一些具体实施例中，本发明实现视频压缩和AI修复的流程如下：

S1:当对视频进行压缩时，使用H.264视频编解码协议，同时解码多个720P视频监控文件，并利用AI-CUDA进行8K画面的M×N格式拼接，再进行8K实时编码一个文件从而达到文件压缩目的。

S2:当对视频进行还原时，使用H.265视频编解码协议解码8K视频文件，并利用基于VAEs的AI深度学习图像修复模型实现对视频的自动修复、裁切和增强，实现去除噪点、折痕等，同时还能优化细节、矫正色彩，增强后的视频文件提供给用户调用。

还需要说明的是，一些可以实现的实施例中，本发明还提供了一种系统架构，用于实现前面的方法，如图12所示，为本发明的系统总体技术架构。前端展示层在PC端采用vue.js构建单页面应用，实现资源管理以及其他查询类功能的WEB页面逻辑，负载层Nginx服务器负责处理客户端的访问请求，服务层基于主流开源系统之上的cloud框架进行开发，使用NodeJs构建业务功能的微服务集群。数据交互层实现微服务和底层数据存储层的数据转换和传输、微服务中结构化数据基于Mybatis框架和Druid连接池进行数据库读写操作，缓存部分使用Redis作为热数据的临时存储，避免服务频繁访问数据库造成额外的数据库压力。

综上，针对现有技术存在的相关问题，本发明实施例利用视频编解码压缩技术将多个视频文件合成为1个视频文件，实现对视频文件的压缩，节省磁盘空间，同时利用AI图像处理技术对视频分辨率、色域、视频宽高比、画面损伤、自动上色等多维度进行修复还原，实现视频的增强，从而降低视频存储设备的建设运维成本，并且利用AI技术实现视频画面增强。与现有技术相比，本发明有益效果包括：

本发明的技术方案压缩效率高，并且可指定压缩比，根据实际情况能够调整压缩效率50％-80％之间。

本发明的技术方案压缩速度快，1小时的视频，能够在33分钟左右完成压缩。

本发明的技术方案利用AI解码技术，可以在毫秒级完成对8K视频的解码与渲染。

本发明的技术方案由于压缩后文件体积变小，在用户会看时能够降低50％传输带宽利用率。

另一方面，如图13所示，本发明实施例提供了一种视频的压缩与增强装置800，包括：第一模块810，用于获取目标摄像头采集的视频数据，并将视频数据存到存储池；第二模块820，用于基于预设视频编码协议，从存储池解码多个低分辨率的第一视频文件，对多个第一视频文件进行堆叠拼接，编码得到高分辨率的第二视频文件；第三模块830，用于响应于目标对象的回看请求，对第二视频文件进行解码，进而裁切获得若干第三视频文件；第四模块840，用于对第三视频文件进行视频增强，得到目标视频文件并反馈到目标对象；其中，视频增强包括图像修复处理、时空域超分辨率处理和人脸增强处理。

一些具体实施例中，本发明的装置首先通过第一模块获取目标摄像头采集的视频数据，并将视频数据存到存储池；然后通过第二模块基于预设视频编码协议，从存储池解码多个低分辨率的第一视频文件，对多个第一视频文件进行堆叠拼接，编码得到高分辨率的第二视频文件；接着利用第三模块响应于目标对象的回看请求，对第二视频文件进行解码，进而裁切获得若干第三视频文件；最终通过第四模块对第三视频文件进行视频增强，得到目标视频文件并反馈到目标对象；其中，视频增强包括图像修复处理、时空域超分辨率处理和人脸增强处理。

需要说明的是，一些实施例中，装置还包括如下模块：

本发明方法实施例的内容均适用于本装置实施例，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

另一方面，如图14所示，本发明实施例还提供了一种电子设备900，该电子设备包括至少一个处理器910，还包括至少一个存储器920，用于存储至少一个程序；以一个处理器910及一个存储器920为例。

处理器910和存储器920可以通过总线或者其他方式连接。

存储器920作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器920可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器920可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

以上所描述的电子设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

具体地，图15示意性地示出了用于实现本发明实施例的电子设备的计算机系统结构框图。

需要说明的是，图15示出的电子设备的计算机系统1000仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图15所示，计算机系统1000包括中央处理器1001(Central Processing Unit，CPU)，其可以根据存储在只读存储器1002(Read-Only Memory，ROM)中的程序或者从存储部分1008加载到随机访问存储器1003(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中，还存储有系统操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。输入/输出接口1005(Input/Output接口，即I/O接口)也连接至总线1004。

以下部件连接至输入/输出接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至输入/输出接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本发明的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时，执行本发明的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例的另一方面还提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现前面的方法。

本发明方法实施例的内容均适用于本计算机可读存储介质实施例，本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用，或结合这些指令执行装置、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种视频的压缩与增强方法，其特征在于，包括：

获取目标摄像头采集的视频数据，并将所述视频数据存到存储池；

基于预设视频编码协议，从所述存储池解码多个低分辨率的第一视频文件，对多个所述第一视频文件进行堆叠拼接，编码得到高分辨率的第二视频文件；

响应于目标对象的回看请求，对所述第二视频文件进行解码，获得若干第三视频文件；

对所述第三视频文件进行视频增强，得到目标视频文件并反馈到所述目标对象；其中，所述视频增强包括图像修复处理、时空域超分辨率处理和人脸增强处理。

2.根据权利要求1所述的视频的压缩与增强方法，其特征在于，所述对多个所述第一视频文件进行堆叠拼接，包括：

使用合并函数在GPU中对多个所述第一视频文件进行堆叠拼接；

其中，所述合并函数包括水平合并函数和垂直合并函数。

3.根据权利要求1所述的视频的压缩与增强方法，其特征在于，所述方法还包括：

将所述第二视频文件存到所述存储池，并删除所述存储池中用于编码得到所述第二视频文件的多个所述第一视频文件。

4.根据权利要求1所述的视频的压缩与增强方法，其特征在于，所述对所述第二视频文件进行解码，获得若干第三视频文件，包括：

基于预设视频编码格式，使用视频解码器引擎对所述第二视频文件进行并行解码，进而裁切获得若干第三视频文件。

5.根据权利要求1所述的视频的压缩与增强方法，其特征在于，当所述视频增强包括图像修复处理，所述对所述第三视频文件进行视频增强这一步骤，包括：

利用深度学习图像修复模型，对所述第三视频文件进行图像修复处理；

其中，所述图像修复处理包括噪点与折痕去除和色彩校正；所述深度学习图像修复模型基于变分自编码器构建得到。

6.根据权利要求1所述的视频的压缩与增强方法，其特征在于，当所述视频增强包括时空域超分辨率处理，所述对所述第三视频文件进行视频增强这一步骤，包括：

对所述第三视频文件进行空域超分；

对所述第三视频文件进行时域超分；

其中，所述空域超分表征对所述第三视频文件的空间分辨率的提升处理，所述时域超分表征对所述第三视频文件的视频帧率的增加处理。

7.根据权利要求1所述的视频的压缩与增强方法，其特征在于，当所述视频增强包括人脸增强处理，所述对所述第三视频文件进行视频增强这一步骤，包括：

利用预训练的先验嵌入网络，对所述第三视频文件进行人脸增强处理；

其中，所述先验嵌入网络通过以下步骤预训练得到：

将生成对抗网络嵌入U型动态神经网络，得到先验嵌入网络；其中，所述生成对抗网络基于第一人脸图像训练生成；

利用第二人脸图像对所述先验嵌入网络进行训练调整，得到预训练完成的先验嵌入网络；所述第一人脸图像的清晰度大于所述第二人脸图像的清晰度。

8.一种视频的压缩与增强装置，其特征在于，包括：

第一模块，用于获取目标摄像头采集的视频数据，并将所述视频数据存到存储池；

第二模块，用于基于预设视频编码协议，从所述存储池解码多个低分辨率的第一视频文件，对多个所述第一视频文件进行堆叠拼接，编码得到高分辨率的第二视频文件；

第三模块，用于响应于目标对象的回看请求，对所述第二视频文件进行解码，进而裁切获得若干第三视频文件；

第四模块，用于对所述第三视频文件进行视频增强，得到目标视频文件并反馈到所述目标对象；其中，所述视频增强包括图像修复处理、时空域超分辨率处理和人脸增强处理。

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。

10.一种计算机存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1至7任一项所述的方法。