CN115619882A

CN115619882A - 一种视频的压缩方法

Info

Publication number: CN115619882A
Application number: CN202211201356.2A
Authority: CN
Inventors: 温力嘉; 段一平
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-01-17
Anticipated expiration: 2042-09-29
Also published as: CN115619882B

Abstract

本申请提供了一种视频的压缩方法，涉及视频处理技术领域。所述方法包括：将视频输入视频压缩模型，得到所述视频的每个视频帧的OAR基元；对所述每个视频帧的OAR基元进行压缩重建，得到压缩后视频；获取所述视频压缩模型输出的所述压缩后视频。

Description

一种视频的压缩方法

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频的压缩方法。

背景技术

和深度学习融合的生成式重建对于视频的压缩具有重要意义，主要因为：一方面，随着视频媒体网络业务量剧增，出现了许多不同以往的应用场景，例如从标清到高清再到4k和8k，对视频压缩编解码传输能力提出了新的挑战；另一方面，虚拟现实(VR)、增强现实(AR)等新兴多媒体技术的应用，也吸引研究者发展新兴视频编解码方法。生成式重建的编解码码率远小于传统的压缩编解码码率，在视频压缩比上具有较大优势。同时，深度学习在图像处理领域发展迅速，特别在图像检测、分类、表征、生成等方面获得不错成果，为视频的生成式压缩重建提供了技术支持。

相关技术中，直接对视频的每一视频帧进行生成式压缩重建，然后将每一视频帧按照顺序进行拼接得到进行了压缩的视频。然而，这种方法得到的视频质量较低。

发明内容

鉴于上述问题，本申请实施例提供了一种视频的压缩方法，以便克服上述问题或者至少部分地解决上述问题。

本申请实施例的第一方面，提供了一种视频的压缩方法，所述方法包括：

将视频输入视频压缩模型，得到所述视频的每个视频帧的OAR基元；

对所述每个视频帧的OAR基元进行压缩重建，得到压缩后视频；

获取所述视频压缩模型输出的所述压缩后视频。

可选地，所述将视频输入视频压缩模型，得到所述视频的每个视频帧的OAR基元，包括：

将所述视频输入所述视频压缩模型，提取所述每个视频帧的目标属性基元、目标关系基元和背景向量；

将所述每个视频帧的目标属性基元、目标关系基元和背景向量进行拼接，得到所述每个视频帧的OAR基元。

可选地，所述提取所述视频的每个视频帧的目标属性基元、目标关系基元和背景向量，包括：

对所述每个视频帧进行目标检测，得到目标属性帧、目标关系帧和背景图像帧，所述目标属性帧包括至少一个目标，所述目标关系帧包括至少两个目标，所述背景图像帧不包括目标；

提取所述目标属性帧的目标属性基元，提取所述目标关系帧的目标关系基元，以及提取所述目标属性帧、所述目标关系帧和所述背景图像帧中的背景向量；

将不为所述目标属性帧的视频帧的目标属性基元设置为0，以及将不为所述目标关系帧的视频帧的目标关系基元设置为0；

将所述每个视频帧的目标属性基元、目标关系基元和背景向量进行拼接，得到所述每个视频帧的OAR基元，其中，所述OAR基元中的目标属性基元和/或目标关系基元为0或非0。

可选地，所述提取所述目标属性帧的目标属性基元，包括：

将所述目标属性帧输入目标属性基元提取模块，所述目标属性基元提取模块对所述目标属性帧进行压缩解码，得到初步属性特征向量；

对所述初步属性特征向量进行编码，得到所述目标属性帧的均值向量和方差向量；

根据所述目标属性帧的均值向量和方差向量，构建所述目标属性帧的隐向量分布；

对所述目标属性帧的隐向量分布进行解码，得到所述目标属性帧的目标属性基元。

可选地，所述提取所述目标关系帧的目标关系基元，包括：

将所述目标关系帧输入目标关系基元提取模块，所述目标关系基元提取模块对所述目标关系帧进行压缩解码，得到初步关系特征向量；

对所述初步关系特征向量进行编码，得到所述目标关系帧的均值向量和方差向量；

根据所所述目标关系帧的均值向量和方差向量，构建所述目标关系帧的隐向量分布；

对所述目标关系帧的隐向量分布进行解码，得到所述目标关系基元。

可选地，所述提取所述目标属性帧、所述目标关系帧和所述背景图像帧中的背景向量，包括：

检测所述目标属性帧和所述目标关系帧中的目标所在位置；

基于所述目标所在位置，生成所述目标属性帧和所述目标关系帧各自的目标位置掩膜；

将所述目标属性帧和所述目标属性帧的目标位置掩膜输入背景提取模块，得到所述目标属性帧的背景向量；

将所述目标关系帧和所述目标关系帧的目标位置掩膜输入所述背景提取模块，得到所述目标关系帧的背景向量；

将所述背景图像帧输入所述背景提取模块，得到所述背景图像帧的背景向量。

可选地，所述对所述每个视频帧的OAR基元进行压缩重建，得到压缩后视频，包括：

将所述每个视频帧的OAR基元输入压缩重建模块，对所述每个视频帧的OAR基元进行多层下采样，得到所述每个视频帧在每层对应的下采样OAR特征；

对所述每个视频帧在每层对应的OAR特征进行多层上采样，得到所述每个视频帧在每层对应的上采样OAR特征；

将所述每个视频帧的处于同一层的下采样OAR特征和上采样OAR特征进行拼接，得到所述每个视频帧的拼接后OAR特征；

对所述每个视频帧的拼接后OAR特征进行解码，得到所述每个视频帧对应的压缩后视频帧；

根据所述每个视频对应的压缩后视频帧，生成所述压缩后视频。

可选地，所述视频压缩模型的训练步骤包括：

将视频样本输入待训练的视频压缩模型，得到压缩后视频样本；

基于所述视频样本和所述压缩后视频样本的均方误差，建立损失函数；

基于所述损失函数对所述待训练的视频压缩模型的模型参数进行更新，得到所述视频压缩模型。

可选地，所述视频压缩模型的训练步骤还包括：

基于所述视频样本的特征和所述压缩后视频样本的特征之间的差异，对所述待训练的视频压缩模型的模型参数进行更新，得到所述视频压缩模型。

可选地，所述视频样本包括多个视频帧样本，所述待训练的视频压缩模型包括待训练的目标属性基元提取模块和待训练的目标关系基元提取模块；

所述将视频样本输入待训练的视频压缩模型，得到压缩后视频样本，包括：

将所述视频样本输入待训练的视频压缩模型，得到所述视频样本的每个视频帧样本的OAR基元样本，基于所述OAR基元样本得到所述压缩后视频样本，其中，所述OAR基元样本中的目标属性基元样本是所述待训练的目标属性基元提取模块进行提取得到的，所述OAR基元样本中的目标关系基元样本是所述待训练的目标关系基元提取模块进行提取得到的；

所述视频压缩模型的训练步骤还包括：

计算所述待训练的目标属性基元提取模块的KL损失函数，以及计算所述待训练的目标关系基元提取模块的KL损失函数；

基于所述待训练的目标属性基元提取模块的KL损失函数、所述待训练的目标关系基元提取模块的KL损失函数，对所述待训练的视频压缩模型的模型参数进行更新，得到所述视频压缩模型。

本申请实施例包括以下优点：

本申请实施例中，视频帧的OAR基元可以表征目标的属性、关系和位置，基于视频帧的OAR基元进行视频的压缩重建，考虑了目标在每一视频帧中的信息。因此，对视频的每个视频帧的OAR基元进行压缩重建，得到的压缩后视频更加准确、效果更好。此外，基于视频压缩模型进行视频压缩，具有比较快速的优点。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中一种视频的压缩方法的步骤流程图；

图2是本申请实施例中目标属性基元提取模块的结构示意图；

图3是本申请实施例中视频压缩模型的结构示意图；

图4是本申请实施例中一种视频的压缩装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1所示，示出了本申请实施例中一种视频的压缩的步骤流程图，如图1所示，该视频的压缩方法具体可以包括以下步骤：

步骤S11：将视频输入视频压缩模型，得到所述视频的每个视频帧的OAR基元；

步骤S12：对所述每个视频帧的OAR基元进行压缩重建，得到压缩后视频；

步骤S13：获取所述视频压缩模型输出的所述压缩后视频。

视频帧的OAR(object-attribute-relation，目标、属性、关系)基元包含了该视频帧的特征，同时包含了目标的属性、目标的关系和目标的位置等信息。其中，目标是指关注的对象；目标的属性是指目标的外观等信息；目标的关系是指多个目标之间的关系；目标的位置是指目标在视频帧中所处的位置。

例如，一段“踢足球”的视频中，目标可以为球员、足球，目标的属性可以为球员的身高、球员所穿的球衣颜色等信息，目标的关系可以为球员A和足球的关系，也可以为球员A和球员B的关系，其中，球员A和足球的关系可以为球员A正在踢足球，球员A和球员B的关系可以为二者正在握手。

基于目标的属性，可以确定每个视频帧是否存在该目标。基于一个目标在多个视频帧中的关系和位置，可以得到该目标与其它目标之间的关系变化情况，以及该目标在多个视频帧中所处的位置变化情况。因此，基于每个视频帧的OAR基元，可以得到各个目标在每个视频帧中的信息。并且，目标的关系变化和位置变化通常不会发生突变，因此，基于目标的关系变化和位置变化，可以得到视频帧之间的关联。

视频压缩模型对每个视频帧的OAR基元进行压缩重建，不仅考虑了各个视频帧的信息，还考虑了视频帧中包括的目标的信息，以及视频帧之间的关联，因此，得到的压缩后视频更加准确。视频压缩模型的输入为视频，输出为压缩后视频，实现了对视频的压缩。

采用本申请实施例的技术方案，视频帧的OAR基元可以表征目标的属性、关系和位置，基于视频帧的OAR基元进行视频的压缩重建，考虑了目标在每一视频帧中的信息。因此，对视频的每个视频帧的OAR基元进行压缩重建，得到的压缩后视频更加准确、效果更好。此外，基于视频压缩模型进行视频压缩，具有比较快速的优点。

可选地，在上述技术方案的基础上，视频压缩模型得到视频帧的OAR基元可以包括：视频压缩模型提取每个视频帧的目标属性基元、目标关系基元和背景向量，并将视频帧的目标属性基元、目标关系基元和背景向量进行拼接，得到该视频帧的OAR基元。

目标属性基元是指表征目标属性的向量。目标关系基元是指表征目标之间的关系的向量。背景包括是指视频帧中除目标以外的图像区域，背景向量是指对表征背景的向量。

目标属性基元和目标关系基元都与目标相关，而部分视频帧中不包括目标，因此，不包括目标的视频帧的目标属性基元和目标关系基元可以直接确定为0。

可选地，在上述技术方案的基础上，为了节省计算资源，避免视频压缩模型对不包括目标的视频帧进行目标属性基元和目标关系基元的提取，可以先对视频帧进行分类。

对每个视频帧进行目标检测，检测结果可以表征视频帧中包括的目标的数量。根据视频帧中包括的目标的数量，可以将视频帧分为目标属性帧、目标关系帧和背景图像帧。其中，背景图像帧不包括目标；目标属性帧包括至少一个目标；因为至少存在两个目标，才会存在目标之间的关系，因此，目标关系帧包括至少两个目标。

同一视频中，目标关系帧是目标属性帧的子集，一个视频帧可能既为目标属性帧又为目标关系帧。视频帧中包括的目标数量越多，视频帧包含的信息越丰富，例如，目标关系帧包含的信息相比包含一个目标的目标属性帧包含的信息更加丰富。

视频压缩模型提取目标属性帧的目标属性基元，提取目标关系帧的目标关系基元，以及提取目标属性帧、目标关系帧和背景图像帧中的背景向量。并直接将不为目标属性帧的视频帧的目标属性基元设置为0，以及将不为目标关系帧的视频帧的目标关系基元设置为0。其中，不为目标属性帧的视频帧则为背景图像帧，不为目标关系帧的视频帧可能为背景图像帧，也可能为目标属性帧。因为每个视频帧都包括背景图像，因此，针对每个视频帧都可以提取到背景向量。

将每个视频帧的目标属性基元、目标关系基元和背景向量进行拼接，得到每个视频帧的OAR基元，其中，因为部分视频帧的目标属性基元和/或目标关系基元为0，因此，视频帧的OAR基元中的目标属性基元和/或目标关系基元可以为0或非0。

如此，仅仅提取目标属性帧的目标属性基元，以及仅仅提取目标关系帧的目标关系基元，一方面可以避免对背景图像帧进行目标属性基元的提取等情况所做的无用功造成计算资源的浪费，从而节省计算资源；另一方面也可以避免从背景图像帧中提取到目标属性基元的错误的发生。因此，得到的每个视频帧的OAR基元更加准确。

可选地，在上述技术方案的基础上，视频压缩模型提取目标属性帧的目标属性基元，可以是通过视频压缩模型包括的目标属性基元提取模块实现的。

图2是本申请实施例中目标属性基元提取模块的结构示意图。其中，矩形表征的是目标属性基元提取模块的结构，椭圆形表征数据。目标属性基元提取模块包括编码器和解码器，其中，编码器包括三层卷积神经网络，将一个目标属性帧输入目标属性基元提取模块，三层卷积神经网络对该目标属性帧进行压缩编码，得到该目标属性帧的初步属性特征向量。一个全连接层对目标属性帧的初步属性特征向量进行编码，可以得到该目标属性帧的均值向量，另一全连接层对目标属性帧的初步属性特征向量进行编码，可以得到该目标属性帧的方差向量。在获得目标属性帧的均值向量和方差向量后，可以按照如下公式计算得到目标属性帧的隐向量分布：

z＝e^var(x)*randomnoise+mean(x)

其中，z为隐向量分布，mean(x)为均值向量，var(x)为方差向量，randomnoise为随机噪声。

解码器包括三层神经网络，在获得目标属性帧的隐向量分布之后，三层神经网络对目标属性帧的隐向量分布进行解码，可以得到目标属性帧的目标属性基元。

目标属性基元提取模块可以采用VAE(Variational AutoEncoder，变分自编码器)结构。

可选地，在上述技术方案的基础上，视频压缩模型提取目标关系帧的目标关系基元，可以是通过视频压缩模型包括的目标关系基元提取模块实现的。

目标关系基元提取模块的结构和目标属性基元提取模块的结构类似，目标关系基元提取模块也可以采用VAE结构。目标关系基元提取模块包括编码器和解码器，其中，编码器包括三层卷积神经网络，以及两个全连接层。将一个目标关系帧输入目标关系基元提取模块，三层卷积神经网络对该目标关系帧进行压缩解码，得到该目标关系帧的初步关系特征向量。一个全连接层对目标关系帧的初步关系特征向量进行编码，可以得到该目标关系帧的均值向量，另一全连接层对目标关系帧的初步关系特征向量进行编码，可以得到该目标关系帧的方差向量。在获得目标关系帧的均值向量和方差向量后，可以基于目标关系帧的均值向量和方差向量计算得到目标关系帧的隐向量分布。

解码器包括三层神经网络，在获得目标关系帧的隐向量分布之后，三层神经网络对目标关系帧的隐向量分布进行解码，可以得到目标关系帧的目标关系基元。

可选地，在上述技术方案的基础上，提取背景图像帧中的背景向量，可以是直接将背景图像帧输入视频压缩模型的背景提取模块，背景提取模块可以自动提取背景图像帧中的背景向量。

提取目标属性帧、目标关系帧中的背景向量，可以是先通过目标检测技术，确定目标属性帧中目标所在位置以及目标关系帧中目标所在位置，基于目标属性帧中目标所在位置，生成目标属性帧的目标位置掩膜，基于目标关系帧中目标所在位置，生成目标关系帧的目标位置掩膜。将目标属性帧和目标属性帧的目标位置掩膜输入背景提取模块，背景提取模块可以基于目标属性帧的目标位置掩膜进行取反，从而确定目标属性帧中背景图像所在图像区域，并进而对目标属性帧中背景图像所在图像区域进行背景向量提取，从而得到目标属性帧的背景向量。将目标关系帧和目标关系帧的目标位置掩膜输入背景提取模块，背景提取模块可以基于目标关系帧的目标位置掩膜进行取反，从而确定目标关系帧中背景图像所在图像区域，并进而对目标关系帧中背景图像所在图像区域进行背景向量提取，从而得到目标关系帧的背景向量。可选地，对目标位置掩膜进行取反的操作也可以在背景提取模块之外实现。

可选地，提取的背景向量可以是对单通道的背景图像进行提取。具体地，在提取背景图像帧中的背景向量时，先将背景图像帧转换为单通道的背景图像帧，然后利用背景提取模块对单通道的背景图像帧进行背景向量的提取。在提取目标属性帧、目标关系帧中的背景向量时，利用背景提取模块对单通道的目标属性帧、单通道的目标关系帧进行背景向量的提取。如此，可以节约计算资源。

采用本申请实施例的技术方案，提取目标属性帧、目标关系帧和背景图像帧中的背景向量，可以让视频压缩模型更专注于视频帧中感兴趣的部分，提升视频帧重建的效果。

可选地，在上述技术方案的基础上，对每个视频帧的OAR基元进行压缩重建，可以得到压缩后的每个视频帧，将压缩后的每个视频帧按照顺序进行拼接，则可以得到压缩后视频。

将视频帧输入视频压缩模型的压缩重建模块，可以得到压缩后的视频帧。压缩重建模块可以采用类似Unet(一种网络结构呈U型的网络)的网络结构，由下行综合编码和上行解码以及同层向量拼接三部分组成。

下行综合编码部分对视频帧的OAR基元进行多层下采样，得到每个视频帧在每层对应的下采样OAR特征。可选地，下行综合编码部分包括最底层在内总共可以有4层，每一层由一个双层卷积网络链接2倍下采样池化层构成，输入的OAR基元，每经过一层，便进行一次下采样综合，总共获得4个下采样OAR特征，记为{OAR_layer_i}，其中i＝1,…,4。

上行解码部分对视频帧的下采样OAR特征进行多层上采样，得到视频帧在每层对应的上采样OAR特征。上行解码部分的层数与下行综合编码部分的层数相同，每一层可以由一个双层卷积网络链接2倍上采样层构成。将下行综合编码部分最后一层得到的下采样OAR特征输入上行解码部分，得到上行解码部分的每一层对下采样OAR特征进行上采样得到的上采样OAR特征。

同层向量拼接部分可以将每个视频帧的处于同一层的下采样OAR特征和上采样OAR特征进行拼接，得到每个视频帧的拼接后OAR特征。例如，假设下行综合编码部分和上行解码部分都具有4层，因为压缩重建模块的网络结构是U型，因此，是将进行了第一次下采样的得到的下采样OAR特征，与进行了第四次上采样得到的上采样OAR特征进行拼接；将进行了第二次下采样的得到的下采样OAR特征，与进行了第三次上采样得到的上采样OAR特征进行拼接，以此类推。

在得到视频帧的拼接后OAR特征后，对视频帧的拼接后OAR特征进行解码，则可以得到该视频帧对应的压缩后视频帧。将每个压缩后视频帧按照原本在视频中的顺序进行拼接，得到压缩后视频。

如此，压缩重建模块通过对视频帧的OAR基元进行下采样和上采样，即可实现对视频帧的压缩，且综合了同层的上采样OAR特征和下采样OAR特征，形成了更厚的特征，因此重建得到的压缩后视频帧，具有更加准确、效果更好的优点。

图3是本申请实施例中视频压缩模型的结构示意图。视频压缩模型可以包括数据处理模块、目标属性基元提取模块、目标关系基元提取模块、背景向量提取模块、OAR基元生成模块、压缩重建模块。其中，数据处理模块用于对视频帧进行分类，确定目标属性帧、目标关系帧和背景图像帧；目标属性基元提取模块用于提取目标属性帧的目标属性基元；目标关系基元提取模块用于提取目标关系帧的目标关系基元；背景向量提取模块用于提取视频帧的背景向量；OAR基元生成模块用于拼接视频帧的目标属性基元、目标关系基元和背景向量，从而得到视频帧的OAR基元；压缩重建模块用于根据视频帧的OAR基元生成压缩后的视频帧，进而得到压缩后视频。目标属性基元提取模块和目标关系基元提取模块可以采用VAE结构，压缩重建模块可以采用Unet结构。

可选地，在上述技术方案的基础上，可以通过如下步骤训练视频压缩模型：将视频样本输入待训练的视频压缩模型，得到压缩后视频样本；基于视频样本和压缩后视频样本的均方误差，建立损失函数；基于损失函数对所述待训练的视频压缩模型的模型参数进行更新，得到视频压缩模型。

待训练的视频压缩模型的模型结构和视频压缩模型的模型结构类似，待训练的视频压缩模型根据视频样本得到压缩后视频样本的方法可以参照视频压缩模型根据视频得到压缩后视频的方法。

因为待训练的视频压缩模型的模型参数还未训练好，因此得到的压缩后视频样本的质量可能不好。因此，可以根据视频样本和压缩后视频样本之间的差异，建立均方误差损失函数。以最小化视频样本和压缩后视频样本之间的差异为目标，基于均方误差损失函数对待训练的视频压缩模型的模型参数进行更新，得到视频压缩模型。

可选地，在上述技术方案的基础上，还可以提取视频样本的特征，以及提压缩后视频样本的特征，基于视频样本的特征和压缩后视频样本的特征之间的差异，建立特征损失函数；以最小化视频样本的特征和压缩后视频样本的特征之间的差异为目标，基于特征损失函数对待训练的视频压缩模型的模型参数进行更新，得到视频压缩模型。

可以基于特征损失函数和均方误差损失函数共同对待训练的视频压缩模型的模型参数进行更新，得到视频压缩模型。

可选地，在上述技术方案的基础上，视频样本包括多个视频帧样本，待训练的视频压缩模型包括待训练的目标属性基元提取模块和待训练的目标关系基元提取模块。

将视频样本输入待训练的视频压缩模型，得到视频样本的每个视频帧样本的OAR基元样本，基于OAR基元样本得到压缩后视频样本。其中，OAR基元样本中包括目标属性基元样本和目标关系基元样本，目标属性基元样本是待训练的目标属性基元提取模块进行提取得到的，目标关系基元样本是待训练的目标关系基元提取模块进行提取得到的。

计算待训练的目标属性基元提取模块的KL损失函数，以及计算待训练的目标关系基元提取模块的KL损失函数。在对视频压缩模型的模型参数进行更新时，还可以基于待训练的目标属性基元提取模块的KL损失函数、待训练的目标关系基元提取模块的KL损失函数，对待训练的视频压缩模型的模型参数进行更新，得到视频压缩模型。

可以基于特征损失函数、待训练的目标属性基元提取模块的KL损失函数、待训练的目标关系基元提取模块的KL损失函数中的至少一种，以及均方误差损失函数，共同对待训练的视频压缩模型的模型参数进行更新，得到视频压缩模型。

如此，考虑了多种损失函数训练得到的视频压缩模型，可以输出更加准确、质量更高的压缩后视频。

采用本申请实施例的技术方案训练得到的视频压缩模型，在对视频进行压缩时，得到的压缩后视频在峰值信噪比(PSNR，Peak signal noise ratio)、结构相似度(SSIM，Structure similarity Index)、VGG特征差异度(VS，Vgg-Score)等方面都具有优异的表现。其中，峰值信噪比可以直截了当的反映原视频和压缩后视频之间在像素信号上的差异；结构相似度可以反映视频图像在空间频率、亮度、对比度三方面的差异，更贴近人眼所能感受到的差别；特征差异度可以反映原视频和压缩后视频之间在语义信息上的差异。

利用视频压缩模型可以端到端地完成对视频的压缩重建，并具有以下优点：

1、目标属性基元提取模块和目标关系基元提取模块的结构与VAE结构类似，其中得到的隐向量分布中引入了正态分布，使得视频压缩模型更加稳定，生成的视频帧更加平滑。若不是引入了正态分布的隐向量分布，而是仅仅采用一个隐向量，因为不同样本之间生成的隐向量没有可以寻得规律的变化关系，会导致无法通过构造符合一定规则的隐向量来生成对应的图片；并且，输入数据分布稍有偏移，模型的效果便会剧烈变化，很不稳定。同时，视频帧之间的目标有时空上的连续性，因而蕴含目标深层特征的隐向量非常适宜引入正态分布。

2、因为OAR基元对于目标、目标关系信息的保留和重建有着至关重要的作用，OAR基元既有大范围的信息如背景向量，也有局部信息如目标属性基元，也有深层信息如目标关系基元，因此可以很好地对视频进行表征。因此，生成OAR基元，并对其进行压缩重建得到的压缩后视频，具有较高的质量。

3、压缩重建模块采用Unet网络结构，在使用卷积网络编码时，每一层抓取的信息是从局部到整体，从浅层到深层变化，对每一层拼接能最大程度地囊括和利用OAR基元内的信息。生成重建模块由下行压缩和上行解码两块组成，在下行压缩部分为对目标属性基元、目标关系基元、背景向量进行了多次更深度的融合。

通过消融实验，也证明了本申请实施例提出的视频压缩模型中各个模块的优势。

其中，通过消融实验可以证明目标属性基于提取模块和目标关系基于提取模块采用VAE结构，相比于采用AE结构，对视频重建过程中产生的噪声更有抵抗力，在亮度或者色彩对比度或者结构相似度更大，语义失真风险更小。结合实际图像可以得知，采用VAE结构，相比于采用AE结构，得到的压缩后视频中的目标更加清晰、背景更加平滑，且目标的位置关系也和原视频中目标的位置关系更加接近。

通过消融实验可以证明OAR基元对减小重建过程种误差有正向作用，OAR基元在语义表征方面有显著作用。结合实际图像可以得知，不生成OAR基元的模型不能明确显示目标，只有背景。这同时说明了OAR基元对于目标、目标关系信息的保留和重建有着至关重要的作用。

通过消融实验可以证明采用Unet网络结构的压缩重建模块在语义信息表征方面有明显正向作用，相比于采用SRCNN网络结构的压缩重建模块，在特征对比方面具有更加优良的表现。结合实际图像可以得知，采用Unet网络结构的压缩重建模块目标之间的差别更明显。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

图4是本申请实施例的一种视频的压缩装置的结构示意图，如图4所示，一种视频的压缩装置包括输入模块、压缩模块和输出模块，其中：

输入模块，用于将视频输入视频压缩模型，得到所述视频的每个视频帧的OAR基元；

压缩模块，用于对所述每个视频帧的OAR基元进行压缩重建，得到压缩后视频；

输出模块，用于获取所述视频压缩模型输出的所述压缩后视频。

可选地，所述输入模块包括：

提取子模块，用于将所述视频输入所述视频压缩模型，提取所述每个视频帧的目标属性基元、目标关系基元和背景向量；

拼接子模块，用于将所述每个视频帧的目标属性基元、目标关系基元和背景向量进行拼接，得到所述每个视频帧的OAR基元。

可选地，所述提取子模块包括：

检测单元，用于对所述每个视频帧进行目标检测，得到目标属性帧、目标关系帧和背景图像帧，所述目标属性帧包括至少一个目标，所述目标关系帧包括至少两个目标，所述背景图像帧不包括目标；

提取单元，用于提取所述目标属性帧的目标属性基元，提取所述目标关系帧的目标关系基元，以及提取所述目标属性帧、所述目标关系帧和所述背景图像帧中的背景向量；

设置单元，用于将不为所述目标属性帧的视频帧的目标属性基元设置为0，以及将不为所述目标关系帧的视频帧的目标关系基元设置为0；

拼接单元，用于将所述每个视频帧的目标属性基元、目标关系基元和背景向量进行拼接，得到所述每个视频帧的OAR基元，其中，所述OAR基元中的目标属性基元和/或目标关系基元为0或非0。

可选地，所述提取单元，包括：

第一提取子单元，用于将所述目标属性帧输入目标属性基元提取模块，所述目标属性基元提取模块对所述目标属性帧进行压缩解码，得到初步属性特征向量；

第一编码子单元，用于对所述初步属性特征向量进行编码，得到所述目标属性帧的均值向量和方差向量；

第一构建子单元，用于根据所述目标属性帧的均值向量和方差向量，构建所述目标属性帧的隐向量分布；

第一解码子单元，用于对所述目标属性帧的隐向量分布进行解码，得到所述目标属性帧的目标属性基元。

可选地，所述提取单元，包括：

第二提取子单元，用于将所述目标关系帧输入目标关系基元提取模块，所述目标关系基元提取模块对所述目标关系帧进行压缩解码，得到初步关系特征向量；

第二编码子单元，用于对所述初步关系特征向量进行编码，得到所述目标关系帧的均值向量和方差向量；

第二构建子单元，用于根据所所述目标关系帧的均值向量和方差向量，构建所述目标关系帧的隐向量分布；

第二解码子单元，用于对所述目标关系帧的隐向量分布进行解码，得到所述目标关系基元。

可选地，所述提取单元，包括：

检测子单元，用于检测所述目标属性帧和所述目标关系帧中的目标所在位置；

掩膜生成子单元，用于基于所述目标所在位置，生成所述目标属性帧和所述目标关系帧各自的目标位置掩膜；

第一向量获取子单元，用于将所述目标属性帧和所述目标属性帧的目标位置掩膜输入背景提取模块，得到所述目标属性帧的背景向量；

第二向量获取子单元，用于将所述目标关系帧和所述目标关系帧的目标位置掩膜输入所述背景提取模块，得到所述目标关系帧的背景向量；

第三向量获取子单元，用于将所述背景图像帧输入所述背景提取模块，得到所述背景图像帧的背景向量。

可选地，所述压缩模块包括：

下采样子模块，用于将所述每个视频帧的OAR基元输入压缩重建模块，对所述每个视频帧的OAR基元进行多层下采样，得到所述每个视频帧在每层对应的下采样OAR特征；

上采样子模块，用于对所述每个视频帧在每层对应的OAR特征进行多层上采样，得到所述每个视频帧在每层对应的上采样OAR特征；

特征拼接子模块，用于将所述每个视频帧的处于同一层的下采样OAR特征和上采样OAR特征进行拼接，得到所述每个视频帧的拼接后OAR特征；

特征解码子模块，用于对所述每个视频帧的拼接后OAR特征进行解码，得到所述每个视频帧对应的压缩后视频帧；

压缩视频生成子模块，用于根据所述每个视频对应的压缩后视频帧，生成所述压缩后视频。

可选地，所述视频压缩模型的训练步骤包括：

可选地，所述视频压缩模型的训练步骤还包括：

所述视频压缩模型的训练步骤还包括：

需要说明的是，装置实施例与方法实施例相近，故描述的较为简单，相关之处参见方法实施例即可。

本申请实施例还提供了一种电子设备，包括处理器、存储器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请实施例公开的视频的压缩方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被执行时实现本申请实施例公开的视频的压缩方法。

本申请实施例还提供了一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现如本申请实施例公开的视频的压缩方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种视频的压缩方法，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频的压缩方法，其特征在于，所述方法包括：

获取所述视频压缩模型输出的所述压缩后视频。

2.根据权利要求1所述的方法，其特征在于，所述将视频输入视频压缩模型，得到所述视频的每个视频帧的OAR基元，包括：

3.根据权利要求2所述的方法，其特征在于，所述提取所述视频的每个视频帧的目标属性基元、目标关系基元和背景向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述提取所述目标属性帧的目标属性基元，包括：

5.根据权利要求3所述的方法，其特征在于，所述提取所述目标关系帧的目标关系基元，包括：

6.根据权利要求3所述的方法，其特征在于，所述提取所述目标属性帧、所述目标关系帧和所述背景图像帧中的背景向量，包括：

检测所述目标属性帧和所述目标关系帧中的目标所在位置；

7.根据权利要求1所述的方法，其特征在于，所述对所述每个视频帧的OAR基元进行压缩重建，得到压缩后视频，包括：

8.根据权利要求1-7任一所述的方法，其特征在于，所述视频压缩模型的训练步骤包括：

9.根据权利要求8所述的方法，其特征在于，所述视频压缩模型的训练步骤还包括：

10.根据权利要求8所述的方法，其特征在于，所述视频样本包括多个视频帧样本，所述待训练的视频压缩模型包括待训练的目标属性基元提取模块和待训练的目标关系基元提取模块；

所述视频压缩模型的训练步骤还包括：