CN117651147A

CN117651147A - 一种视频压缩方法、装置、电子设备及存储介质

Info

Publication number: CN117651147A
Application number: CN202311606862.4A
Authority: CN
Inventors: 邱鸿鑫; 梁凡; 陆凯
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-03-05

Abstract

本发明公开了一种视频压缩方法、装置、电子设备及存储介质，包括：将获取到的当前特征和第一重建特征以及第二重建特征进行拼接，得到拼接特征；将拼接特征输入残差网络进行全局残差学习，得到全局特征；将全局特征输入偏移量卷积层进行特征提取，得到融合特征；对融合特征进行运动压缩得到运动压缩特征；将运动压缩特征划分后的第一运动压缩特征和第二运动压缩特征分别与第一重建特征和第二重建特征进行可变形卷积处理，生成第一预测特征和第二预测特征；将第一预测特征和第二预测特征输入至注意力特征融合网络进行处理，得到目标预测特征；根据目标预测特征和当前特征，得到当前帧对应的目标重建帧以得到目标压缩视频。

Description

一种视频压缩方法、装置、电子设备及存储介质

技术领域

本发明涉及视频压缩技术领域，尤其是一种视频压缩方法、装置、电子设备及存储介质。

背景技术

基于深度学习的视频端到端压缩是一种新兴的技术，旨在通过深度神经网络模型实现视频数据的高效压缩和解压缩，传统的视频压缩方法通常涉及多个阶段，包括预处理、变换编码、熵编码等，而基于深度学习的视频压缩方法通过端到端的学习框架，直接从原始视频数据中学习压缩和解压缩的过程。

然而，基于深度学习的视频端到端压缩方法也面临一些挑战，例如需要大量的训练数据和计算资源，网络模型的复杂性和运行时间的延迟等。

发明内容

有鉴于此，本发明实施例提供一种视频压缩方法、装置、电子设备及存储介质，能够提高在视频压缩过程中生成预测特征的准确度，并且在生成预测特征后无需进行后续的多帧特征融合模块处理，进而提高视频编码压缩效率。

本发明实施例的一方面提供了一种视频压缩方法，包括：

获取待压缩视频的当前帧，并提取所述当前帧对应的当前特征；

获取在所述当前帧之前连续的两个重建帧分别对应的第一重建特征和第二重建特征；

将所述当前特征和所述第一重建特征以及所述第二重建特征进行拼接，得到拼接特征；

将所述拼接特征输入至残差网络进行全局残差学习，得到全局特征；

将所述全局特征输入至偏移量卷积层进行特征提取，得到融合特征；

对所述融合特征进行运动压缩得到运动压缩特征；其中，所述运动压缩特征被划分为第一运动压缩特征和第二运动压缩特征；

将所述第一运动压缩特征和所述第二运动压缩特征分别与所述第一重建特征和所述第二重建特征进行可变形卷积处理，生成第一预测特征和第二预测特征；

将所述第一预测特征和所述第二预测特征输入至注意力特征融合网络进行处理，得到目标预测特征；

根据所述目标预测特征和所述当前特征，得到所述当前帧对应的目标重建帧以得到目标压缩视频。

可选地，所述获取待压缩视频的当前帧，包括：

获取待压缩视频；

对所述待压缩视频进行拆分处理，得到包含若干个连续的视频帧对应的视频帧集合；

从所述视频帧集合中获取当前帧。

可选地，所述残差网络的组成部分包括残差模块，所述残差网络设置有全局特征融合模块和全局残差学习模块，所述将所述拼接特征输入至残差网络进行全局残差学习，得到全局特征，包括：

将所述拼接特征输入至残差网络中；

通过所述残差网络中的残差模块对所述拼接特征进行层次特征提取，得到所述拼接特征对应的层次信息；

通过残差网络中的全局特征融合模块对所述层次信息进行特征融合，得到全局融合特征；

通过所述残差网络中的全局残差学习模块对所述全局融合特征进行全局残差学习，得到全局特征。

可选地，在所述通过所述残差网络中的残差模块对所述拼接特征进行层次特征提取，得到所述拼接特征对应的层次信息之前，所述方法还包括：

通过所述残差网络对所述拼接特征进行第一层卷积处理，得到第一层卷积特征。

可选地，所述通过所述残差网络中的全局残差学习模块对所述全局融合特征进行全局残差学习，得到全局特征，包括：

将所述全局融合特征和所述第一层卷积特征相加，得到全局特征。

可选地，所述注意力特征融合网络设置有多尺度通道注意力模块，所述将所述第一预测特征和所述第二预测特征输入至注意力特征融合网络进行处理，得到目标预测特征，包括：

将所述第一预测特征和所述第二预测特征输入至注意力特征融合网络中；

通过所述注意力特征融合网络中的多尺度通道注意力模块对所述第一预测特征和所述第二预测特征进行注意力融合处理，得到目标预测特征。

可选地，所述根据所述目标预测特征和所述当前特征，得到所述当前帧对应的目标重建帧以得到目标压缩视频，包括：

对所述当前特征和所述目标预测特征进行残差计算，得到残差结果；

对所述残差结果进行编解码重建，得到残差重建特征；

将所述残差重建特征和所述目标预测特征相加，得到目标重建特征；

将所述目标重建特征输入至帧重建网络进行处理，得到所述当前帧对应的目标重建帧；

根据所述目标重建帧得到目标压缩视频。

本发明实施例的另一方面提供了一种视频压缩装置，包括：

当前特征获取模块，用于获取待压缩视频的当前帧，并提取所述当前帧对应的当前特征；

重建特征获取模块，用于获取在所述当前帧之前连续的两个重建帧分别对应的第一重建特征和第二重建特征；

拼接特征获取模块，用于将所述当前特征和所述第一重建特征以及所述第二重建特征进行拼接，得到拼接特征；

全局特征获取模块，用于将所述拼接特征输入至残差网络进行全局残差学习，得到全局特征；

融合特征获取模块，用于将所述全局特征输入至偏移量卷积层进行特征提取，得到融合特征；

运动压缩特征获取模块，用于对所述融合特征进行运动压缩得到运动压缩特征；其中，所述运动压缩特征被划分为第一运动压缩特征和第二运动压缩特征；

预测特征获取模块，用于将所述第一运动压缩特征和所述第二运动压缩特征分别与所述第一重建特征和所述第二重建特征进行可变形卷积处理，生成第一预测特征和第二预测特征；

目标预测特征获取模块，用于将所述第一预测特征和所述第二预测特征输入至注意力特征融合网络进行处理，得到目标预测特征；

目标压缩视频获取模块，用于根据所述目标预测特征和所述当前特征，得到所述当前帧对应的目标重建帧以得到目标压缩视频。

本发明实施例还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如本发明实施例所述的方法。

本发明实施例还提供了一种计算机存储介质所述存储介质存储有程序，所述程序被处理器执行实现如本发明实施例所述的方法。

在本发明实施例中，首先获取待压缩视频的当前帧，并提取当前帧对应的当前特征；获取在当前帧之前连续的两个重建帧分别对应的第一重建特征和第二重建特征；然后将当前特征和第一重建特征以及第二重建特征进行拼接，得到拼接特征；将拼接特征输入至残差网络进行全局残差学习，得到全局特征；将全局特征输入至偏移量卷积层进行特征提取，得到融合特征；接着对融合特征进行运动压缩得到运动压缩特征；其中，运动压缩特征被划分为第一运动压缩特征和第二运动压缩特征；进而将第一运动压缩特征和第二运动压缩特征分别与第一重建特征和第二重建特征进行可变形卷积处理，生成第一预测特征和第二预测特征；将第一预测特征和第二预测特征输入至注意力特征融合网络进行处理，得到目标预测特征；从而根据目标预测特征和当前特征，得到当前帧对应的目标重建帧以得到目标压缩视频。在本发明实施例中，通过提取待压缩视频中当前帧对应的当前特征和获取当前帧之前连续的两个重建帧分别对应的第一重建特征和第二重建特征，能够有效地保留图像中的重要信息；通过将当前特征和两个重建特征进行拼接，并通过残差网络进行全局残差学习，能够使残差网络学习到拼接特征整体的特征表示以提高视频特征的表达能力，并且能够提高特征预测的准确性；通过将全局特征输入至偏移量卷积层进行特征提取，可以进一步增强特征表达能力，同时，对特征进行运动压缩并将得到第一运动压缩特征和第二运动压缩特征，可以更好地捕捉视频中的运动信息；通过将运动压缩特征与重建特征进行可变形卷积处理，生成第一预测特征和第二预测特征，能够精准地预测图像内容和运动轨迹；通过将第一预测特征和第二预测特征输入至注意力特征融合网络进行处理以获得目标预测特征，能够提高对视频内容的理解和预测准确度，从而提高视频压缩的性能和效率；在得到目标预测特征后无需进行后续的多帧特征融合模块处理，可以直接根据目标预测特征和当前特征生成当前帧对应的目标重建帧，从而减少训练次数，降低了计算复杂度和节省了计算时间。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频压缩方法的步骤流程图；

图2是本发明实施例提供的一种残差网络的结构示意图；

图3是本发明实施例提供的一种残差模块的结构示意图；

图4是本发明实施例提供的一种注意力特征融合网络的结构示意图；

图5是本发明实施例提供的一种特征预测的流程示意图；

图6是本发明实施例提供的一种视频压缩装置的结构框图；

图7是本发明实施例提供的一种电子设备的结构示意图；

图8是本发明实施例提供的适于用来实现本发明实施例的电子设备的计算机系统结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

作为一种示例，基于深度学习的视频端到端压缩是一种新兴的技术，旨在通过深度神经网络模型实现视频数据的高效压缩和解压缩。传统的视频压缩方法通常涉及多个阶段，包括预处理、变换编码、熵编码等，而基于深度学习的视频压缩方法通过端到端的学习框架，直接从原始视频数据中学习压缩和解压缩的过程。具体地，对于传统的视频编码方法，通常使用一些手工设计的特征和编码算法来提取和表示视频中的信息，并利用统计建模和压缩算法将其编码成比特流，然而，这种方法存在一些局限性，例如需要人工设计特征，难以适应不同场景和内容类型的视频数据，以及对复杂的编码算法和工具的依赖；对于基于深度学习的视频端到端压缩方法，其通过使用深度神经网络模型，可以自动地从原始视频数据中学习到更有效的表示和压缩方法，这种方法具有强大的拟合能力和学习能力，利用大量的视频数据训练网络，使其能够自动地提取和表示视频中的重要信息，并将其编码为紧凑的比特流，并且，端到端的视频压缩方法可以带来许多潜在的优势，首先，它可以减少传统视频编码中手工设计的特征和算法的依赖，提高视频编码的自适应性和适应性，其次，通过学习到更有效的表示和压缩方法，可以实现更高的压缩率和视觉质量，此外，基于深度学习的视频端到端压缩方法还具有一定的灵活性，可以适应不同的应用场景和内容类型，并为视频数据的传输和存储提供更高效的解决方案；然而，基于深度学习的视频端到端压缩方法也面临一些挑战，例如需要大量的训练数据和计算资源，网络模型的复杂性和运行时间的延迟等。

对此，在本发明实施例中，首先获取待压缩视频的当前帧，并提取当前帧对应的当前特征；获取在当前帧之前连续的两个重建帧分别对应的第一重建特征和第二重建特征；然后将当前特征和第一重建特征以及第二重建特征进行拼接，得到拼接特征；将拼接特征输入至残差网络进行全局残差学习，得到全局特征；将全局特征输入至偏移量卷积层进行特征提取，得到融合特征；接着对融合特征进行运动压缩得到运动压缩特征；其中，运动压缩特征被划分为第一运动压缩特征和第二运动压缩特征；进而将第一运动压缩特征和第二运动压缩特征分别与第一重建特征和第二重建特征进行可变形卷积处理，生成第一预测特征和第二预测特征；将第一预测特征和第二预测特征输入至注意力特征融合网络进行处理，得到目标预测特征；从而根据目标预测特征和当前特征，得到当前帧对应的目标重建帧以得到目标压缩视频。在本发明实施例中，通过提取待压缩视频中当前帧对应的当前特征和获取当前帧之前连续的两个重建帧分别对应的第一重建特征和第二重建特征，能够有效地保留图像中的重要信息；通过将当前特征和两个重建特征进行拼接，并通过残差网络进行全局残差学习，能够使残差网络学习到拼接特征整体的特征表示以提高视频特征的表达能力，并且能够提高特征预测的准确性；通过将全局特征输入至偏移量卷积层进行特征提取，可以进一步增强特征表达能力，同时，对特征进行运动压缩并将得到第一运动压缩特征和第二运动压缩特征，可以更好地捕捉视频中的运动信息；通过将运动压缩特征与重建特征进行可变形卷积处理，生成第一预测特征和第二预测特征，能够精准地预测图像内容和运动轨迹；通过将第一预测特征和第二预测特征输入至注意力特征融合网络进行处理以获得目标预测特征，能够提高对视频内容的理解和预测准确度，从而提高视频压缩的性能和效率；在得到目标预测特征后无需进行后续的多帧特征融合模块处理，可以直接根据目标预测特征和当前特征生成当前帧对应的目标重建帧，从而减少训练次数，降低了计算复杂度和节省了计算时间。

参照图1，示出了本发明实施例提供的一种视频压缩方法的步骤流程图；如图1所示，该方法包括以下步骤：

S101、获取待压缩视频的当前帧，并提取所述当前帧对应的当前特征；

其中，待压缩视频为用于进行压缩的视频，视频由一系列连续的视频帧(或称为图像帧)组成，当播放速度足够快时，这些帧会呈现出连续的运动，通常视频以视频流的形式进行传输，其中，压缩的过程主要通过处理待压缩视频中的视频帧实现；对于当前帧，其可以为视频流中的单个静止图像，即视频流在某一时间点上的一个静止画面，因此，提取当前帧为从视频流中获取并处理某一时刻的静态图像数据。

在一种可选实施例中，步骤S101可以包括：获取待压缩视频；对待压缩视频进行拆分处理，得到包含若干个连续的视频帧对应的视频帧集合；从视频帧集合中获取当前帧。

需要说明的是，对于获取待压缩视频的当前帧的方法，本领域技术人员可以根据实际的运用情况进行调整或选取，本发明实施例对此不作限制。

对于当前特征，当前帧对应的当前特征为从当前帧中提取出的独特又能代表该当前帧的特征，即从图像中提取出的用于描述该帧内容的关键信息，用于后续的压缩编码和重建过程。

示例性地，假设t时刻的当前帧X_t经过特征提取网络进行特征提取后可以得到通道数为64的当前特征F_t。需要说明的是，对于获取视频帧的特征所使用的特征提取网络，本领域技术人员可以根据实际的运用情况和适用场景进行调整或选取，本发明实施例对此不作限制。

在具体实现中，首先获取待压缩视频，由于视频由一系列连续的视频帧组成，因此可以将原始视频拆分成一系列的帧，并对其中一帧(当前帧)进行处理或分析，以便用于后续的压缩或编码操作。

S102、获取在所述当前帧之前连续的两个重建帧分别对应的第一重建特征和第二重建特征；

对于重建帧，在视频编解码中，当接收端接收到压缩后的数据时，需要对其进行解码和重建，还原出原始的视频帧，被还原出来的帧被称为重建帧。对于重建特征，用于表示重建帧的关键内容信息。

在本发明实施例中，获取的是上述当前帧的前两帧视频帧所对应的两个重建帧，然后再根据特征提取网络分别提取两个重建帧所对应的重建特征，分别对应为第一重建特征和第二重建特征，可以用于后续的压缩或编码操作。

S103、将所述当前特征和所述第一重建特征以及所述第二重建特征进行拼接，得到拼接特征。

其中，拼接特征为当前特征和第一重建特征以及进行拼接所得到的新的特征。

示例性地，假设当前帧为X_t，当前帧X_t对应的当前特征为F_t，当前帧的前两个视频帧所对应的两个重建帧分别为和/>其中，重建帧/>对应的第一重建特征为重建帧/>对应的第二重建特征为/>具体地，将t时刻的当前帧X_t对应的当前特征F_t和前两帧重建帧/>和/>对应的特征/>和特征/>进行拼接，得到新的特征。

在具体实现中，将获取到的当前特征和第一重建特征以及第二重建特征进行拼接，得到拼接特征，可以更全面地捕捉到视频数据中的特征信息，从而能够提高视频特征的表达能力。

S104、将所述拼接特征输入至残差网络进行全局残差学习，得到全局特征；

参照图2，示出了本发明实施例提供的一种残差网络的结构示意图；其中，残差网络可以表示为RN，如图2中所示，Conv表示为卷积神经网络，可以用于进行卷积(convolution)操作，卷积操作可以用于提取输入数据的特征，是构建卷积神经网络的重要组成部分；RBs为多个残差模块，残差模块为残差网络的组成部分，可以用于提取输入的拼接特征的层次信息，参照图3，示出了本发明实施例提供的一种残差模块的结构示意图，如图3所示，Resblock表示为残差模块(也可以称为残差块)，在本发明实施例中，通过三个Resblock组成一个RBs，需要说明的是，对于一个RBs中的Resblock个数，本领域技术人员可以根据实际情况进行设置，本发明实施例在此不作限制；为了更好地融合拼接特征，在残差网络的后端加上了全局特征融合(Global Feature Fusion简称GFF)模块和全局残差学习(Global Residual Learning简称GRL)模块，全局特征融合模块可以自适应地融合不同层次的特征从而形成全局融合特征，全局残差学习模块可以用于进行全局残差学习从而输出全局特征，其中，除了全局特征融合模块使用1x1卷积+3x3卷积外，其他模块均使用3x3卷积；Concat为特征拼接模块，可以用于拼接不同的层次特征。

在一种可选实施例中，步骤S104可以包括：将拼接特征输入至残差网络中；通过残差网络中的残差模块对拼接特征进行层次特征提取，得到拼接特征对应的层次信息；通过残差网络中的全局特征融合模块对层次信息进行特征融合，得到全局融合特征；通过残差网络中的全局残差学习模块对全局融合特征进行全局残差学习，得到全局特征。

其中，在一些具体的实施例中，在通过残差网络中的残差模块对拼接特征进行层次特征提取，得到拼接特征对应的层次信息之前，还可以包括：通过残差网络对拼接特征进行第一层卷积处理，得到第一层卷积特征。

其中，在一些具体的实施例中，通过残差网络中的全局残差学习模块对全局融合特征进行全局残差学习，得到全局特征，可以包括：将全局融合特征和第一层卷积特征相加，得到全局特征。

对于层次信息，其为从不同层次(比如低层次到高层次)提取的特征信息，该特征信息包含了从简单到复杂的视觉或语义特征，可以帮助残差网络理解和表达特征数据的多层次结构和内容提取；层次信息的获取过程也可以理解为从浅层特征到深层特征的获取过程。

对于全局融合特征，其为指通过整合不同层次信息得到的特征表示；对于全局特征，其为对全局融合特征进行全局残差学习所得到的特征，综合了局部和全局的信息，可以更全面、更准确地描述整个数据的特性。

在具体实现中，在得到拼接特征之后，可以将拼接特征输入至残差网络中；通过残差网络中的残差模块对拼接特征进行层次特征提取，得到拼接特征对应的层次信息，然后通过残差网络中的全局特征融合模块对层次信息进行特征融合，得到全局融合特征，最后通过残差网络中的全局残差学习模块对全局融合特征进行全局残差学习，得到全局特征。其中，在通过残差网络中的残差模块对拼接特征进行层次特征提取得到拼接特征对应的层次信息之前，还通过残差网络对拼接特征进行第一层卷积处理，得到第一层卷积特征，进而可以执行通过残差网络中的全局残差学习模块对全局融合特征进行全局残差学习，得到全局特征这一步骤，即，将全局融合特征和第一层卷积特征相加，得到全局特征。

示例性地，如图2所示，假设前述将当前帧的当前特征与前两帧重建帧的重建特征进行拼接得到的新特征为F_c，则将拼接特征F_c输入至残差网络中，首先，F_c经过第一层卷积神经网络(Conv)进行卷积操作，得到第一层卷积特征F_-1，然后继续对第一层卷积特征F_-1进行第二层卷积操作得到第二层卷积特征F₀，接着，将第二层卷积特征F₀输入至残差网络中的3个RBs(多个残差模块)中进行层次特征的提取，具体地，F₀经过RBs1的处理后得到层次信息F₁，层次信息F₁经过RBs2的处理后得到层次信息F₂，层次信息F₂经过RBs3的处理后得到层次信息F₃，其中，层次信息F₁至层次信息F₃的顺序可以理解为浅层特征至深层特征顺序，在残差网络使用3个RBs获得层次信息(层次特征)后，通过全局特征融合(Global FeatureFusion)模块自适应地融合不同层次的特征，形成全局融合特征F_GF，全局融合特征F_GF再经过全局残差学习(Global Residual Learning)模块进行全局残差学习，输出全局特征F_G。

其中，全局特征融合模块使用1x1卷积融合通道信息和3x3卷积进一步提取特征，在1x1卷积之前拼接了网络中所有RBs的输出，结合了浅层特征和深层特征，全局融合特征F_GF的表达公式如下：

F_GF＝H_GFF([F₁，F₂，F₃])

另外，全局残差学习模块将全局特征融合模块输出的全局融合特征F_GF与第一层卷积神经网络输出的第一层卷积特征F_-1相加，全局特征F_G的表达公式如下：

F_G＝F_-1+F_GF

在本发明实施例中，在得到拼接特征之后，可以将拼接特征输入至残差网络中，通过残差网络中的残差模块对拼接特征进行层次特征提取，得到拼接特征对应的层次信息，然后通过残差网络中的全局特征融合模块对层次信息进行特征融合，得到全局融合特征，最后通过残差网络中的全局残差学习模块对全局融合特征进行全局残差学习，得到全局特征，能够更好地融合拼接特征并提高特征的表征能力，从而提高编码压缩效率。

S105、将所述全局特征输入至偏移量卷积层进行特征提取，得到融合特征；

其中，偏移量卷积层为用于提取全局特征中的信息以得到融合特征的模块。

在具体实现中，可以通过将全局特征输入至偏移量卷积层进行特征提取，得到融合特征，能够进一步地增强特征的表达能力，有利于提高后续特征预测的准确性。

S106、对所述融合特征进行运动压缩得到运动压缩特征；其中，所述运动压缩特征被划分为第一运动压缩特征和第二运动压缩特征；

其中，运动压缩特征为融合特征的运动信息，其可以反映视频中物体运动的轨迹、速度、方向等信息，有助于减少视频数据的大小，同时保持视频的流畅性和连贯性。

需要说明的是，对于融合特征被划分为第一运动压缩特征和第二运动压缩特征的处理过程，本领域技术人员可以根据实际需求选定合适的划分规则以进行特征划分，即根据什么划分规则去划分运动压缩特征，本发明实施例对此不作限制。

在具体实现中，对融合特征进行运动压缩得到运动压缩特征，并将得到的运动压缩特征划分为第一运动压缩特征和第二运动压缩特征，可以更好地处理和利用视频中的运动信息，从而进一步提高视频压缩的效率和性能。

S107、将所述第一运动压缩特征和所述第二运动压缩特征分别与所述第一重建特征和所述第二重建特征进行可变形卷积处理，生成第一预测特征和第二预测特征；

在具体实现中，通过将第一运动压缩特征和第二运动压缩特征分别与第一重建特征和第二重建特征进行可变形卷积处理，生成第一预测特征和第二预测特征，通过将运动压缩特征与重建特征进行可变形卷积处理，可以利用运动信息以指导特征的提取和预测，从而得到更准确的特征表示，从而提高特征预测的准确性。

S108、将所述第一预测特征和所述第二预测特征输入至注意力特征融合网络进行处理，得到目标预测特征；

为了有效地融合前述得到的两个预测特征(第一预测特征和第二预测特征)的关键信息，使用注意力特征融合(Attentional Feature Fusion简称AFF)网络对其进行处理，得到目标预测特征。注意力特征融合网络允许模型在训练和推断过程中自适应地确定并更关注第一预测特征和第二预测特征的关键特征，并且灵活地忽略次要的特征。此外，注意力特征融合网络可以通过自动调整特征的权重，从而有效地过滤噪声并适应不断变化的输入数据，提高模型的可靠性和鲁棒性。

可选地，注意力特征融合网络设置有多尺度通道注意力模块，多尺度通道注意力模块(Multi-Scale Channel Attention Module简称MS-CAM)为注意力特征融合网络的核心，多尺度通道注意力模块利用1x1卷积以关注通道的尺度问题，并且保持模块尽可能的轻量化。

在一种可选实施例中，步骤S108可以包括：将第一预测特征和第二预测特征输入至注意力特征融合网络中；通过注意力特征融合网络中的多尺度通道注意力模块对第一预测特征和第二预测特征进行注意力融合处理，得到目标预测特征。

参照图4，示出了本发明实施例提供的一种注意力特征融合网络的结构示意图；如图4所示，注意力特征融合网络的核心是多尺度通道注意力模块(MS-CAM)，利用1x1卷积来关注通道的尺度问题，并且保持模块尽可能的轻量化。如图4所示，多尺度通道注意力模块中存在两条分支路径，分别关注局部和全局的上下文特征。

其中，局部特征的计算公式如下：

L(X)＝B(Conv₂(δ(B(Conv₁(X)))))

其中，B为BatchNorm(批量归一化)层，δ表示ReLU(Rectified Linear Unit线性整流函数)激活函数，卷积层(图4中Point-wise Conv)均为1x1卷积。

另外，全局特征的计算则在局部特征计算的基础上通过对输入的数据进行一次全局平均池化操作(Global Average Pooling简称GAP)来实现，为图4中的Global AvgPooling操作。

其中，假设给定在进行可变形卷积处理后生成第一预测特征为X，第二预测特征为Y，注意力特征融合网络对输入特征进行特征融合得到目标预测特征的过程可以通过以下公式表示：

其中，Z为目标预测特征(注意力特征融合网络对输入特征进行特征融合得到的融合特征)，其中，表示目标预测特征的维度，/>表示初始特征结合，M表示多尺度通道注意力模块。

具体地，多尺度通道注意力模块对输入的第一预测特征X和第二预测特征Y进行注意力融合，经过sigmoid激活函数，输出权重值在0～1之间，接着对第一预测特征X和第二预测特征Y做加权平均，即可以通过训练，让网络确定各自的权重。

示例性地，假设第一预测特征为第二预测特征为/>将第一预测特征和第二预测特征/>输入至注意力特征融合网络中，通过注意力特征融合网络中的多尺度通道注意力模块(MS-CAM)对第一预测特征/>和第二预测特征/>进行注意力融合处理，得到目标预测特征/>能提高预测特征的准确度，从而提高编码压缩效率。

S109、根据所述目标预测特征和所述当前特征，得到所述当前帧对应的目标重建帧以得到目标压缩视频。

其中，由前述内容可知，对于重建帧，在视频编解码中，当接收端接收到压缩后的数据时，需要对其进行解码和重建，还原出原始的视频帧，被还原出来的帧被称为重建帧。对于此处的目标重建帧，其为当前帧对应的重建帧。

其中，视频通常由多个连续的视频帧组成，则目标压缩视频可以根据目标重建帧得到目标压缩视频。

在一种可选实施例中，步骤S109可以包括：对当前特征和目标预测特征进行残差计算，得到残差结果；对残差结果进行编解码重建，得到残差重建特征；将残差重建特征和目标预测特征相加，得到目标重建特征；将目标重建特征输入至帧重建网络进行处理，得到当前帧对应的目标重建帧；根据目标重建帧得到目标压缩视频。

在本发明实施例中，在获取到目标预测特征之后，可以对当前特征和目标预测特征进行残差计算，得到残差结果，然后对残差结果进行编解码重建，得到残差重建特征，接着将残差重建特征和目标预测特征相加，得到目标重建特征，最后将目标重建特征输入至帧重建网络进行处理，得到当前帧对应的目标重建帧，以根据目标重建帧得到目标压缩视频。本发明实施例在获得目标预测特征后即可进行残差压缩和帧重建，无需进行后续的多帧特征融合模块处理，并且，本发明实施例中的参考帧(重建帧可以作为下一视频帧的参考帧)数为2，获取一帧重建帧的过程只需要2次可变形卷积操作，且无需分阶段训练，降低了计算复杂度和节省了计算时间。

为详细解释本发明技术方案的原理，下面结合一些具体实施例对本发明的整体流程进行说明，容易理解的是，下述为对本发明技术原理的解释，不能看作对本发明的限制。

参照图5，示出了本发明实施例提供的一种特征预测的流程示意图；如图5所示，特征预测的过程可以为：首先获取t时刻的当前帧X_t，接着将t时刻的当前帧X_t经过特征提取网络得到通道数为64的当前特征F_t，将当前特征F_t和前两帧重建帧和/>分别对应的第一重建特征/>和第二重建特征/>输入至特征拼接模块(Concatenation)进行拼接得到新的拼接特征，随后经过一个残差网络(RN)充分利用拼接特征的分层信息并进行全局残差学习，得到通道数为64的全局特征F_G，将全局特征F_G经过一层Offset卷积层(Conv)提取出融合特征θ(Offsetsθ)，其通道数为2×(3×3×2)，其中，融合特征θ作为运动信息经过编解码重建(Motion Compression运动压缩)得到运动压缩特征/>(Rec Offsets/>)，随后将运动压缩特征/>裁剪成第一运动压缩特征/>和第二运动压缩特征/>通道数均为3×3×2，接着，将第一运动压缩特征/>和第二运动压缩特征/>分别与第一重建特征和第二重建特征/>进行可变形卷积(Deform Conv)，生成两个预测特征/>和再将两个预测特征/>和/>经过注意力特征融合网络(Attentional FeatureFusion)进行特征融合处理，得到最终的预测特征/>即目标预测特征。

在得到目标预测特征之后，可以立即进行残差压缩和帧重建的处理过程，即可获得重建帧/>具体地，首先计算原始特征F_t(前述当前特征F_t)与目标预测特征/>的残差得到残差R_t，然后将该残差R_t进行编解码重建得到重建后的残差/>接着将重建后的残差和目标预测特征/>相加即得到目标重建特征/>最后经过帧重建网络得到目标重建帧可以根据目标重建帧/>得到目标压缩视频。其中，将目标重建帧/>存入解码帧缓存区DPB(Decoded Picture Buffer)作为后续X_t+1编码时的参考帧。

需要指出的是，本实施例仅以视频压缩方法的大体流程进行简要的示意性说明，各步骤的详细描述可参照前述实施例中相关内容，此处不作赘述，可以理解的是，本发明对此不作限制。

同时，在获取到目标预测特征之后，可以对当前特征和目标预测特征进行残差计算，得到残差结果，然后对残差结果进行编解码重建，得到残差重建特征，接着将残差重建特征和目标预测特征相加，得到目标重建特征，最后将目标重建特征输入至帧重建网络进行处理，得到当前帧对应的目标重建帧，以根据目标重建帧得到目标压缩视频。本发明实施例在获得目标预测特征后即可进行残差压缩和帧重建，无需进行后续的多帧特征融合模块处理，并且，本发明实施例中的参考帧(重建帧可以作为下一视频帧的参考帧)数为2，获取一帧重建帧的过程只需要2次可变形卷积操作，且无需分阶段训练。

本发明实施例还提供了一种视频压缩装置，参照图6，示出了本发明实施例提供的一种视频压缩装置的结构框图，该装置包括以下模块：

当前特征获取模块601，用于获取待压缩视频的当前帧，并提取所述当前帧对应的当前特征；

重建特征获取模块602，用于获取在所述当前帧之前连续的两个重建帧分别对应的第一重建特征和第二重建特征；

拼接特征获取模块603，用于将所述当前特征和所述第一重建特征以及所述第二重建特征进行拼接，得到拼接特征；

全局特征获取模块604，用于将所述拼接特征输入至残差网络进行全局残差学习，得到全局特征；

融合特征获取模块605，用于将所述全局特征输入至偏移量卷积层进行特征提取，得到融合特征；

运动压缩特征获取模块606，用于对所述融合特征进行运动压缩得到运动压缩特征；其中，所述运动压缩特征被划分为第一运动压缩特征和第二运动压缩特征；

预测特征获取模块607，用于将所述第一运动压缩特征和所述第二运动压缩特征分别与所述第一重建特征和所述第二重建特征进行可变形卷积处理，生成第一预测特征和第二预测特征；

目标预测特征获取模块608，用于将所述第一预测特征和所述第二预测特征输入至注意力特征融合网络进行处理，得到目标预测特征；

目标压缩视频获取模块609，用于根据所述目标预测特征和所述当前特征，得到所述当前帧对应的目标重建帧以得到目标压缩视频。

本发明方法实施例的内容均适用于本装置实施例，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

另一方面，如图7所示，本发明实施例还提供了一种电子设备700，该电子设备包括至少一个处理器710，还包括至少一个存储器720，用于存储至少一个程序；以一个处理器710及一个存储器720为例。

处理器710和存储器720可以通过总线或者其他方式连接。

存储器720作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器720可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器720可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

以上所描述的电子设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

具体地，图8示意性地示出了用于实现本发明实施例的电子设备的计算机系统结构框图。

需要说明的是，图8示出的电子设备的计算机系统800仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理器801(Central Processing Unit，CPU)，其可以根据存储在只读存储器802(Read-Only Memory，ROM)中的程序或者从存储部分808加载到随机访问存储器803(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器803中，还存储有系统操作所需的各种程序和数据。中央处理器801、在只读存储器802以及随机访问存储器803通过总线804彼此相连。输入/输出接口805(Input/Output接口，即I/O接口)也连接至总线804。

以下部件连接至输入/输出接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理器801执行时，执行本发明的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例的另一方面还提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现前面的方法。

本发明方法实施例的内容均适用于本计算机可读存储介质实施例，本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种视频压缩方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待压缩视频的当前帧，包括：

获取待压缩视频；

从所述视频帧集合中获取当前帧。

3.根据权利要求1所述的方法，其特征在于，所述残差网络的组成部分包括残差模块，所述残差网络设置有全局特征融合模块和全局残差学习模块，所述将所述拼接特征输入至残差网络进行全局残差学习，得到全局特征，包括：

将所述拼接特征输入至残差网络中；

4.根据权利要求3所述的方法，其特征在于，在所述通过所述残差网络中的残差模块对所述拼接特征进行层次特征提取，得到所述拼接特征对应的层次信息之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述残差网络中的全局残差学习模块对所述全局融合特征进行全局残差学习，得到全局特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述注意力特征融合网络设置有多尺度通道注意力模块，所述将所述第一预测特征和所述第二预测特征输入至注意力特征融合网络进行处理，得到目标预测特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标预测特征和所述当前特征，得到所述当前帧对应的目标重建帧以得到目标压缩视频，包括：

对所述残差结果进行编解码重建，得到残差重建特征；

根据所述目标重建帧得到目标压缩视频。

8.一种视频压缩装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。