CN113824967A

CN113824967A - 一种基于深度学习的视频压缩方法

Info

Publication number: CN113824967A
Application number: CN202111390375.XA
Authority: CN
Inventors: 张卫平; 丁烨; 岑全; 李显阔
Original assignee: Global Digital Group Co Ltd
Current assignee: Global Digital Group Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2021-12-21
Anticipated expiration: 2041-11-23
Also published as: CN113824967B

Abstract

本发明提供了一种基于深度学习的视频压缩方法，本视频压缩方法通过采集用户的面部信息以及多个用户之间的关联信息，通过深度学习方式在源视频中识别并分离出基于多个用户的目标画面区域，并将分离出的目标画面进行缓存待用；其后，对源视频进行下采样以及压缩，并将基于用户的目标画面区域重建并合成到压缩后的视频中，使源视频压缩后，同时获得保留有目标用户清晰画面的多个视频；该压缩方法兼顾了视频容量以及画面质量，有利于视频在多个目标用户中传播。

Description

一种基于深度学习的视频压缩方法

技术领域

本发明涉及视频处理领域。具体而言，涉及一种基于深度学习的视频压缩方法。

背景技术

随着互联网技术的发展以及视频拍摄技术的发展，人们越加喜欢利用视频作为记录形式，并通过将视频经由互联网进行分享，用于为大众分享自身的日常活动情况。以视频为主体的移动多媒体数据因此急剧增长，并且即使随着如高速光纤宽带、移动设备5G技术的增速，视频数据的增加速度仍然超过技术的发展速度，为相关的视频业务领域提出新的挑战。根据Cisco Visual Network Index的统计数据指出，从2017年到2022年期间，全球互联网流量将增长3倍或以上，其中流量繁忙期间的峰值将增长4.8倍以；并随着短视频、在线游戏、远程办公等应用的高速发展，人们对互联网带宽以及减小网络延迟的要求只会越来越高。

当前不少国家需要重振旅游业，并且需要以更丰富的体验方法和更高质量的服务以重新吸引旅客的消费，当中包括相关旅游园区设计了在游玩区域实时记录游客们的游玩情景，并在游客完成游玩过程后将记录视频发送到游客的移动设备上；更优方案是，将已剪辑完成的视频发送给游客，使游客在完成游玩后，更能对旅游园区留下印象。

查阅相关地已公开技术方案，公开号为US2021142096 (A1)的技术方案提出利用压缩无人驾驶汽车前摄像头的监控视频内容，用于提高视频流的传输速度，保证后台的操作员可以更快地接管车辆的操作，避免视频延迟带来的交通事故；公开号为US2021090301（A1）提出将视频图像画面分为纹理数据集以及形状数据集，并采用不同的压缩方式对以下两种数据集进行区别压缩以提高压缩率和视频清晰度；公开号为CN111669596 (A)的技术方案根据视频的最大播放帧率和最小播放帧率确定层次预测结构的阶层数，并以多核的运算系统对视频进行分片、分支压缩，提高压缩的速率。目前对于视频压缩的方法多为对视频画面的整体压缩，而随着深度学习神经网络的广泛应用，可以对视频压缩方式提出更个性化的技术实施方式。

发明内容

本发明的目的在于，通过对保存的源视步中的用户以及用户群组进行目标区域的识别和分离，从而提取出多个基于用户以及用户群组的清晰画面；在对其余非目标区域的视频进行压缩后，重新多段合成基于用户以及用户群组的清晰画面，从而实现源视频的有效压缩并且保留用户人像部分的清晰度，有效利用了视频的编码容量，提高了视频的可传播性。

本发明采用如下技术方案：

一种基于深度学习的视频压缩方法，所述压缩方法包括以下步骤：

S1：采集至少一个目标用户的面部图像，生成基于目标用户的面部特征；

S2：获得至少两个所述目标用户的关联度，组合获得至少一个目标用户群组G；

S3：对源视频进行池化，获得第一视频V1；

S4：基于所述目标用户的面部特征以及所述目标用户群组G，利用深度学习神经网络对所述第一视频V1进行目标区域和非目标区域划分，对所述目标区域的视频进行分离并缓存，获得目标视频E；

S5：对所述第一视频V1的进行指定码率压缩，获得第二视频V2；

S6：将所述目标视频E按时序以及坐标的序列合成到所述第二视频V2，获得至少一个第三视频V3；

其中，完成步骤S3获得所述第一视频V1后，将所述第一视频V1缓存到多个分布式节点上，由多个分布式节点同时执行步骤S4至S6的处理步骤，分离基于多个所述目标用户的多个所述目标视频，并获得基于多个所述目标用户的所述第三视频V3；分布式节点通过所负责的多个目标用户的联系方式，将对应所述目标用户的所述第三视频V3发送到所述目标用户的设备上；

步骤S1对目标用户进行面部图像采集的方法，包括使用固定拍摄设备以及使用移动设备对用户面部进行拍摄；

步骤S2计算至少两个目标用户的关联度，包括由用户提供与其他用户的关系信息；包括在步骤S1中至少两个有关联的用户进行同时拍摄并采集面部图像；

步骤S3中，使用深度学习神经网络对源视频进行池化下采样；

步骤S4对所述目标区域进行分离，包括对基于图像轮廓进行像素标记；包括基于图像颜色通道进行像素标记；包括基于多个所述用户以及其关联用户的像素区域进行标记；其中，将基于对人物进行分离的所述目标区域，设置为第一目标区域；

步骤S4对所述目标区域进行分离，包括对视频画面中非人像部分的物件、景物进行标记，并设置为第二目标区域；

用于池化源视频的深度学习神经网络，包括多个对所述第二目标区域完成预训练的池化模型；

所述视频压缩方法包括一种基于深度学习的视频压缩系统，包括：采集模块，用于采集所述目标用户的面部图像信息，以及采集至少两个所述目标用户的关联度信息；分离模块，用于池化源视频，并从源视频中分离所述目标区域与非目标区域的视频画面；压缩模块，用于对所述非目标区域视频画面进行压缩；重建模块，用于将至少两个视频画面进行合成，并重建为完整视频；

其中，所述分离模块采用基于机器学习的深度神经网络的运算装置组成；所述分离模块至少包括一个卷积层、一个池化层以及一个激活层，用于对源视频进分卷积以及池化运算。

本发明所取得的有益效果是：

1. 本发明的视频压缩方法通过采集和分析用户的面部特征，以及收集至少两个用户之间的关联程度，有针对性地保留目标用户以及目标用户群组的清晰视频画面，从而有针对性地对非关注画面进行压缩；

2. 本发明的视频压缩方法通过对源视频的下采样以及池化操作，避免在深度神经网络在识别和分离目标用户的视频过程中，对目标用户的特征进行过度拟合，有效利用算力，并能够并发处理多个用户的画面分离运算；

3. 本发明的视频压缩方法在完成压缩后获得多个基于特定用户以及用户群组的压缩视频，有利于同时分布与传播，以及在传播后进行个性化的管理。

4. 本发明的视频压缩方法对软、硬件配置可进行模块化以及多节点灵活配置，方便今后的升级或者更换相关的软、硬件环境，降低了使用的成本。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在不同的视图中，相同的附图标记指定对应的部分。

图1为本发明实施例一的原理示意图；

图2为对用户面部信息采集生成面部特征的示意图；

图3为本发明实施例二的原理示意图；

图4为本发明实施例三的效果示意图；

图5为本发明所述各模块的组成示意图。

附图编号说明：10-采集模块；20-分离模块；30-压缩模块；40-重建模块；100-源视频；101-用户；102-面部特征信息；103-目标视频E；104-第一视频V1；105-第二视频V2；106-第三视频V3；202a-第一用户面部特征信息；202b-第二用户面部特征信息。

具体实施方式

为了使得本发明的目的技术方案及优点更加清楚明白，以下结合其实施例，对本发明进行进一步详细说明；应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。对于本领域技术人员而言，在查阅以下详细描述之后，本实施例的其它系统、方法和/或特征将变得显而易见。发明人旨在所有此类附加的系统、方法、特征和优点都包括在本说明书或包括在本发明的范围内，并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征，并且这些特征根据以下将详细描述将是显而易见的。

实施例一：

目前对于热门旅游园区中，一般都具有多个游乐设施和游乐项目；每个游乐项目由同时可以容纳多位游客同时进行游玩娱乐；对此，园区会为游客提供照片留影，或者视频录影服务，目的在于记录下游客在游玩过程中的精彩画面，提高游客对园区的服务印象评价，由此也有望提高园区的收益；在目前的留影服务中，一般都由自动拍摄设备按照固定机位或者规则路线对游客进行跟踪拍摄，并且在游客完成游玩后的一段很短时间内提供拍摄的视频，以保持游客的游玩热情，因此对运行该服务的一系列设备和系统也提出高速响应服务的要求；

进一步的，由于游客众多，当前为节省系统的处理时间和成本，以及控制视频的容量，一般在对源视频进行一次压缩后，即发送到游客的接收端上，视频普遍只能按较差的压缩效果进行大比例压缩，画面清晰度损失大，因此该类型服务的效果还有较大的提升空间；例如针对不同的游客，保留该游客或者相关联游客的清晰视频影像区域，只压缩与游客非关联的视频影像区域，从而提高视频的接受程度；

因此本发明的其中一个实施例，提出对该类型服务的一个优化实施方式，如附图1：

S3：对源视频进行池化，获得第一视频V1；

如附图5，所述视频压缩方法包括一种基于深度学习的视频压缩系统，包括：采集模块，用于采集所述目标用户的面部图像信息，以及采集至少两个所述目标用户的关联度信息；分离模块，用于池化源视频，并从源视频中分离所述目标区域与非目标区域的视频画面；压缩模块，用于对所述非目标区域视频画面进行压缩；重建模块，用于将至少两个视频画面进行合成，并重建为完整视频；

其中，所述分离模块采用基于机器学习的深度神经网络的运算装置组成；所述分离模块至少包括一个卷积层、一个池化层以及一个激活层，用于对源视频进分卷积以及池化运算；

其中，所述采集模块可选地可为设置于固定位置的摄像头，例如设置于园区入口用于验证用户信息的摄像头，设置于游玩项目区域入口处的监控摄像头；或者，可以为用户通过手机应用程序，自行采集面部脸息后，上传到所述采集模块；

进一步的，采集面部信息的方法，包括基于二维信息的人脸模板的匹配算法，利用人的脸部特征规律建立一个立体可调的模型框架，在定位出人的脸部位置后用模型框架定位和调整人的脸部特征部位，解决人脸识别过程中的观察角度、遮挡和表情变化等因素影响；包括局部保持投影法(LPP)，通过学习三维空间中面部样本的局部邻域结构，并寻找一种子空间能够保留这种邻域结构，使得样本在投影到二维空间后，得到比较好的局部近邻关系；二维算法适合于采用常规摄像头的采集法；

采集面部信息的方法，包括基于三维空间信息的算法，例如飞行时间算法（Tof），通过发射器发射出红外激光，红外激光在从人脸表面反射回传感器，传感器通过发射和反射光之间的相位查换算出深度信息从而形成脸部的三维特征信息；包括双目测距技术，利用两个摄像头进行拍摄，得到两个角度的平面图像，再将两张图像中相同的特征标注后，进行特征提取；三维空间信息方法，适用于新型的面部识别设备，例如用户的移动电话设备；

相关人脸采集的方法可以根据采集设备而定，本文中不作赘述；

进一步的，使用所述基于深度学习神经网络的分离模块对源视频进行下采样；其中的深度学习神经网络优选地为卷积神经网络（CNN）,而在更多的实施例中，可以使用包括循环神经网络（RNN），受限玻尔兹曼机（RBM）等类型的神经网络，在此不作赘述；

进一步的，所述分离模块的深度学习神经网络至少包括一个卷积层，一个池化层以及一个激活层；由于源视频包含的像素较多，信息量巨多，如果直接使用神经网络对源视频进行特征分析和提取，运算量消耗巨大，神经网络从输入层到隐含层的数量需要几何级的增长；因此，先对源视频进行卷积以及池化运算得到所述第一视频V1，可以有效降低源视频数据中的嘈音，突出数据特征量，并且利用池化降低采样密度，提高运算速度；并且，所述卷积层中，包括有多组过滤器；每组所述过滤器用于筛选和区别基于用户面部特征的数据部分；

进一步的，优选地采用分布式系统处理所述视频压缩方法的步骤S4至S6；分布式系统中的分布式节点从所述采集模块中获取至少一个用户的面部特征信息，作为该用户的处理节点；处理节点通过请求读取所述第一视频V1，从所述第一视频V1中分离出所负责用户的所述目标视频E，并对所述目标视频E缓存到本节点的缓存器中待用；

其中，所述目标视频E中的所述目标区域的形状和大小设定可以根据实际场景的要求选取适合的区域大小；例如对于坐姿游玩的项目，可以设定使用矩形或圆形边界，划分用户的肩以上部分作为所述目标区域；对于动物留影区部分，可以划分竖置的矩形边界并且划分用户的整体上半身作为所述目标区域；进一步的，识别出所述目标区域后，记录所述目标区域在所述第一视频V1的中时间序列参数以及坐标参数，并与所述目标视频E同时缓存于分布式节点中；

步骤S5中，可以由分布式系统的上级节点进行统一压缩后，分发所述第二视频V2到各分布式节点；或者由分布式系统中闲置的运算节点进行压缩，从而获得所述第二视频V2并分布到其余节点；其中压缩的标准可以采用包括H.264、MPEG-4等，压缩比率可以根据视频长度以及网络带宽状况，适当调整采取率从而获得合适容量的所述第二视频V2；

分布式节点在获得所述第二视频V2后，如所述第二视频V2相对所述第一视频V1进行了分辨率压缩，则首先对所述目标视频E再进行一次下采样，从而使所述目标视频E的区域可以通过比例缩小，正确映射到所述第二视频V2；

进一步的，分布式节点使用所述重建模块，根据所述目标区域的空间、时间参数将所述目标视频E合成到所述第二视频V2中，获得所述第三视频V3；最后，所述分布式节点根据负责用户的信息，发送所述第三视频V3到用户指定的位置，完成本次视频压缩任务；

通过以上操作，所述第三视频V3继相比源视频有了一定程度的压缩，但每一个所述第三视频V3都分别保留了基于多个用户的清晰的视频画面。

实施例二：

本实施例应当理解为至少包含前述任意一个实施例的全部特征，并在其基础上进一步改进；

在游玩过程中，用户通常会与熟悉的人，例如亲戚、朋友一起游玩，而对于记录所视频影像，也希望能同时保留与相关联的人的清晰画面；因此本实施例继续提出一种基于保留两个或以上用户清晰视频影像的实施方式；

其中，在所述采集模块进行对用户的面部信息进行采集时，优选地，一位第一用户通过与相关联的第二用户同时进行采集，从而令所述采集模块在获取用户特征时，能够获取多于一位用户的面部特征信息；或者，通过应用程式中，所述第一用户通过用户名勾选、连线勾选等方式，选择与自身相关联的所述第二用户，并提供该关联信息到所述分离模块中；通过以上操作，多个用户组成了多个所述目标用户群组G；

进一步的，所述分离模块的所述卷积层中，将代表所述目标用户群组G内多个用户的所述滤波器进行并联组合；在对源视频进行所述目标区域划分时，获取基于所述目标用户群组G的较大的所述目标区域，实现对多于一个所述目标用户的清晰影像的保留；如附图3，所述分离模块同时基于所述第一用户的面部特征以及与所述第一用户相关联的所述第二用户的面部物征，从源视频中同时分离出两个用户的画面；

进一步的，所述分布式节点可以基于一个所述目标用户群组G进行将所述目标视频重建到所述第三视频V3的过程；并且基于所述目标用户群组G的多个用户的联系方式，只需要准备一份所述第三视频V3即可以满足多个在所述目标用户群组G内用户的需求；例如本实施例中，针对所述第一用户以及所述第二用户，可以发送同一个所述第三视频V3给予两位用户，节省了一半的运算资源。

实施例三：

本实施例应当理解为至少包含前述任意一个实施例的全部特征，并在其基础上进一步改进：

园区中的游乐项目相对固定，而且特征较明显；同时对于同一游玩项目，其留影项目上的设置，一般具有固定规律；例如对于纪念性质的广场、标志物、特色人物合影等，其背景内容相对固定，视频拍摄的路线以及运镜亦可以具有相对固定的规迹；

另一方面，对于游客而言，亦希望视频除了可以留下人物相关的影像信息，同时也能够保留当时的重点相关的事件、场景特点的信息；

因此，本实施例对本视频压缩方法进一步优化，如附图4，包括设置所述第二目标区域，从而保留非人物部分视频影像的清晰度；园区可以针对具体游乐项目，提出对多个项目内的景观、造型物、人物、服装、道具等，通过所述采集模块进行采样拍摄，从而获得以上物品的特征数据；

进一步的，对所述分离模块中的所述卷积层以及所述池化层进行预训练，从而生成针对特定物品或景观的预训练模型；预训练内容包括形成对物品、景观的机器学习模型，优化神经网络的多个特征维度系数，从而提高对以上物品、景观的识别、分离速度和准确度；

进一步的，在完成所述第二目标区域的分离后，包括完整保留所述第二目标区域的视频影像，从而与所述第一目标区域的视频影像共同形成所述目标视频E；或者，将所述第二目标区域的视频影像，进行一次低池化比例以及低损压缩率的压缩，从而生成第二目标视频E₂；例如：

参数设置1：设定所述目标视频E的压缩比例为1；所述第二目标视频E₂的压缩比例为1/2，所述第二视频V2的压缩比例为1/4；

参数设置2：设定所述目标视频E的压缩比例为1/2；所述第二目标视频E₂的压缩比例为1/2，所述第二视频V2的压缩比例为1/8；

上述压缩比例根据实际传输要求，以及兼顾视频保证具有足够清晰度要求设置，在此不作限制；

进一步的，所述重建模块重建所述目标视频E、所述第二目标视频E₂以及所述第二视频V2，生成所述第三视频V3；所述第三视频V3得以保留人物的最大清晰度，对于主题景观、物品保留第二清晰度，其余所述非目标区域保留最低的清晰度，因此对源视频进行了不同程度的针对性的压缩。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。也就是说上面讨论的方法，系统和设备是示例。各种配置可以适当地省略，替换或添加各种过程或组件。例如，在替代配置中，可以以与所描述的顺序不同的顺序执行方法，和/或可以添加，省略和/或组合各种部件。而且，关于某些配置描述的特征可以以各种其他配置组合，如可以以类似的方式组合配置的不同方面和元素。此外，随着技术发展其中的元素可以更新，即许多元素是示例，并不限制本公开或权利要求的范围。

在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而，可以在没有这些具体细节的情况下实践配置例如，已经示出了众所周知的电路，过程，算法，结构和技术而没有不必要的细节，以避免模糊配置。该描述仅提供示例配置，并且不限制权利要求的范围，适用性或配置。相反，前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下，可以对元件的功能和布置进行各种改变。

综上，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于深度学习的视频压缩方法，其特征在于，所述压缩方法包括以下步骤：

S3：对源视频进行池化，获得第一视频V1；

其中，完成步骤S3获得所述第一视频V1后，将所述第一视频V1缓存到多个分布式节点上，由多个分布式节点同时执行步骤S4至S6的处理步骤，分离基于多个所述目标用户的多个所述目标视频，并获得基于多个所述目标用户的所述第三视频V3；分布式节点通过所负责的多个目标用户的联系方式，将对应所述目标用户的所述第三视频V3发送到所述目标用户的设备上。

2.根据权利要求1所述一种基于深度学习的视频压缩方法，其特征在于，步骤S1对目标用户进行面部图像采集的方法，包括使用固定拍摄设备以及使用移动设备对用户面部进行拍摄。

3.根据权利要求2所述一种基于深度学习的视频压缩方法，其特征在于，步骤S2计算至少两个目标用户的关联度，包括由用户提供与其他用户的关系信息；包括在步骤S1中至少两个有关联的用户进行同时拍摄并采集面部图像。

4.根据权利要求3所述一种基于深度学习的视频压缩方法，其特征在于，步骤S3中，使用深度学习神经网络对源视频进行池化下采样。

5.根据权利要求4所述一种基于深度学习的视频压缩方法，其特征在于，步骤S4对所述目标区域进行分离，包括对基于图像轮廓进行像素标记；包括基于图像颜色通道进行像素标记；包括基于多个所述用户以及其关联用户的像素区域进行标记；其中，将基于对人物进行分离的所述目标区域，设置为第一目标区域。

6.根据权利要求5所述一种基于深度学习的视频压缩方法，其特征在于，步骤S4对所述目标区域进行分离，包括对视频画面中非人像部分的物件、景物进行标记，并设置为第二目标区域。

7.根据权利要求6所述一种基于深度学习的视频压缩方法，其特征在于，用于池化源视频的深度学习神经网络，包括多个对所述第二目标区域完成预训练的池化模型。

8.一种基于深度学习的视频压缩系统，其特征在于，包括：采集模块，用于采集所述目标用户的面部图像信息，以及采集至少两个所述目标用户的关联度信息；分离模块，用于池化源视频，并从源视频中分离所述目标区域与非目标区域的视频画面；压缩模块，用于对所述非目标区域视频画面进行压缩；重建模块，用于将至少两个视频画面进行合成，并重建为完整视频；

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述方法的步骤。

10.一种可读存储介质，其特征在于，该可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。