CN114982248A

CN114982248A - 使用基于卷积神经网络(cnn)的滤波器来增强360度视频

Info

Publication number: CN114982248A
Application number: CN202080093560.XA
Authority: CN
Inventors: 窦环; 徐理东; 蔡晓霞; 王晨; 邱怡仁
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2022-08-30
Also published as: WO2021163845A1; EP4107966A4; US20230054523A1; KR20220140706A; EP4107966A1

Abstract

用于对视频进行增强的示例装置包括解码器，用于对接收到的360度投影格式视频比特流进行解码，以生成解码后的360度投影格式视频。该装置还包括视口生成器，用于从解码后的360度投影格式视频生成视口。该装置还包括基于卷积神经网络(CNN)的滤波器，用于从视口中去除伪影以生成增强的图像。该装置还包括显示器，用于将增强的图像发送到显示设备。

Description

使用基于卷积神经网络(CNN)的滤波器来增强360度视频

背景技术

可以使用各种格式来压缩360度视频，以便在传输期间减小尺寸。例如，这种压缩可以包括各种几何变换(例如，直线投影(rectilinear projection))。

附图说明

图1是图示了用于使用基于CNN的滤波器对视频进行解码的示例系统的框图；

图2是图示了示例基于CNN的滤波器的框图；

图3是图示了用于使用基于CNN的滤波器对视频进行解码的方法的流程图；

图4是图示了能够使用基于CNN的滤波器对视频进行解码的示例计算设备的框图；并且

图5是示出了存储有用于使用基于CNN的滤波器对视频进行解码的代码的计算机可读介质的框图。

相同的数字在本公开和附图各处始终被用于提及相似的组件和特征。100系列的数字指代最初出现于图1中的特征；200系列的数字指代最初出现于图2中的特征；等等。

具体实施方式

对于网络带宽和存储容量有限的应用，可以将视频编码为低比特率压缩视频。然而，这种编码可能会引入可见的伪影，其可以包括压缩伪影(例如，块状伪影(blockyartifact)和振铃伪影(ringing artifact)等)。这些压缩伪影可能会严重降低用户的观看体验。例如，压缩伪影可以是可见的并且会分散观看视频的用户的注意力。

360度视频中可能会出现压缩伪影。如本文所使用的，360度视频是能够在视频内进行全360度范围运动的全向视频。360度视频正在成为一种新的全向视频形式，使最终用户能够自由选择他们喜欢的观看方向来观看场景。例如，可以使用几何变换将360度视频映射到每个用户的视口(viewport)。如本文所使用的，视口是指用于将三维(3D)场景投影到虚拟相机的位置的二维(2D)矩形。例如，可以使用头戴式显示器(HMD)或任何其他合适的虚拟现实观看设备，来控制虚拟相机的位置。在一个示例中，几何变换可以是直线投影。与可直接应用于捕获帧的传统视频压缩不同，360度视频的编码和后续压缩被应用于投影格式。因此，投影格式的编码可能会对视频编码器在360度视频上引入的压缩伪影产生相当大的影响。具体地，投影格式的压缩伪影在映射到用户的视口时可能会严重失真。具体地，几何变换扭曲了以投影格式出现的传统压缩伪影，并将这些失真的压缩伪影引入最终用户的视口。可能无法通过常规技术(例如，环路内去块和去振铃滤波器)来减少或去除这种失真的伪影。例如，360度视频的编码和解码可以被应用到投影格式中，因此环路内去块或去振铃滤波器可以减少投影格式中出现的压缩伪影。然而，用户不直接观看投影格式，而是观看视口。环路内去块滤波器因此可以减少但不能完全去除块状伪影。具体地，在低比特率条件下，在编码之后块状伪影可能很严重，投影格式中剩余的块状伪影可能出现在视口处，并在视口映射和生成过程之后失真。另一方面，在投影格式上可能不会被注意到的接缝伪影也可能在视口上变得可见。由于视口映射和生成阶段位于解码器循环之后的显示侧，因此没有环路内滤波器，并且可能无法处理出现在视口处的伪影。

压缩伪影可能会在压缩期间的各个点被注入到视频中。因此，存在不同类型的伪影。在某些情况下，当使用基于块的压缩方案来压缩输入视频时，可能会出现块状伪影。例如，即使启用了默认去块滤波器，块状伪影也可能很严重。默认去块滤波器被用于减轻块状伪影，但可能无法去除所有块状伪影。例如，在非常低的比特率条件下，块状伪影甚至更加严重，并且默认环路内去块滤波器的强度可能不足以减轻这些块状伪影。振铃伪影主要出现在强边缘。振铃伪影可能是由视频编码方案中常用的基于块的变换压缩算法引起的。例如，压缩的视频帧可能包含严重的振铃伪影，特别是沿着字符和图形边缘。屏幕内容视频也可能具有严重的振铃伪影，因为屏幕内容视频通常包含比自然视频更锐利的边缘。

这些伪影的另一个示例是径向伪影(radial artifact)。等矩形投影(Equirectangular Projection，ERP)格式是一种常用的描述360度视频的投影格式。ERP格式将经线映射到等间距的垂直直线，将纬度圆映射到等间距的水平直线。然而，极地区域附近的区域可能会被严重拉伸，以保持与赤道区域相同的投影宽度。在对ERP格式视频执行有损编码后，过采样的极地区域附近可能会出现块状伪影，这可能会在生成的视口的相应区域中变成径向伪影。

伪影的另一个示例是接缝伪影(seam artifact)。例如，ERP格式的左右边界在球形域中本来是连续的。这在编码期间可能不会考虑，因为编码器应用于投影格式而不是球域。因此，可能会在编码后沿ERP格式的左右边界生成的视口中观察到接缝伪影。立方体映射投影(Cube Map Projection，CMP)格式是另一种常用的描述360度视频的格式。具体地，CMP格式将场景投影到立方体的每一面。然后，立方体的所有面都被打包成一个3×2的布局。例如，一个立方体总共有六个正方形面，因此这6个面可以被打包成3×2的布局，包括第一行三个面和第二行三个面。但是，使用多个面可能会导致在多个面边界处生成的视口中出现严重的接缝伪影。

在一些示例中，对于360度视频，一些方法尝试通过在压缩之前以等矩形投影(ERP)格式填充左右帧边界上的像素，来减少接缝伪影。在解码器方面，可以通过裁剪或混合重复的样本，将填充的ERP(PERP)格式转换回ERP格式。然而，这些解决方案大多像环路内滤波器一样减少压缩伪影，因此对于360度视频，无法处理出现在视口中的失真压缩伪影。此外，一些基于CNN的解决方案的复杂性可能对于实时性能来说太高了。虽然360度视频投影格式的填充操作可以被用于去除接缝伪影，但是此类填充操作可能会降低编码效率，因为填充的格式比原始格式具有更高的分辨率。此外，可能没有任何有效的方法能够去除从ERP格式的极地区域提取的视口中出现的径向伪影。

传统上，采用样本自适应偏移(sample adaptive offset，SAO)和去块滤波器来去除高效视频编码(HEVC/H.265)视频压缩标准(最新版本的该标准于2019年11月发布)中的各种压缩伪影。为了进一步提高重建的帧的质量，目前定于2020年7月发布的通用视频编码(Versatile Video Coding，VVC)视频压缩标准中采用了自适应环路滤波器(adaptiveloop filter，ALF)。然而，这些SAO、去块滤波器和自适应环路滤波器可能无法去除上面讨论的所有压缩伪影。具体地，这些滤波器都是环路内滤波器，因此它们可能只能去除以投影格式(而不是视口)出现的伪影。

本公开大体上涉及用于解码360视频的技术。具体地，本文描述的技术包括用于使用基于CNN的滤波器来增强360度视频的装置、方法和系统。具体地，基于CNN的滤波器作为环路外滤波器用于增强解码视频质量。如本文所使用的，环路外滤波器是在解码处理环路之外应用的滤波器。例如，360度投影格式的视频比特流可以通过基于CNN的滤波器进行解码和滤波，以在没有各种伪影的情况下显示。示例装置包括解码器，用于对接收到的360度投影格式视频比特流进行解码，以生成解码后的360度投影格式视频。该装置还包括视口生成器，用于从解码后的360度投影格式视频生成视口。该装置还包括基于卷积神经网络(CNN)的滤波器，用于从视口中去除伪影以生成增强的图像。该装置还包括显示器，用于将增强的图像发送到显示设备。

因此，本文描述的技术能够以最少的伪影对360度视频进行解码。此外，本文描述的技术也可以用于使传统视频能够以最少的伪像被解码。具体地，基于CNN的伪影去除方案可以提高所有视频类型的峰值信噪比(PSNR)。如本文所述的具有高复杂度(HC)网络拓扑的基于CNN的方案可以实现比具有低复杂度(LC)网络拓扑的方案更高的PSNR改进。此外，本文描述的技术减少了块状伪影和振铃伪影，图像的边缘或边界变得清晰和锐利。此外，使用本技术还可以有效地去除接缝伪影和径向伪影。通过使用环路外滤波器，可以在不修改编码器和解码器的情况下提高视频质量。具体地，环路内滤波器可能仅处理或执行投影格式，本文描述的技术的环路外滤波器可以对在解码过程之后生成的视口进行处理或执行。

图1是图示了用于使用基于CNN的滤波器对视频进行解码的示例系统的框图。可以使用图3的方法300在图4中的计算设备400中实现示例系统100。

示例系统100包括编码器102。系统100还包括通信耦合到编码器102的解码器104。例如，解码器104可以经由网络耦合到编码器102。系统100还包括基于卷积神经网络(CNN)的滤波器106。系统100还包括通信地耦合到解码器104和基于CNN的滤波器106的视口生成器108。系统100还包括显示设备110。例如，显示设备可以是监视器或头戴式显示设备(HMD)。

系统100可以从编码器102接收压缩视频。例如，压缩视频可以包括但不限于传统视频112和360度视频114两者。在各种示例中，对于传统视频112，在解码器104处对压缩视频进行解码之后，基于CNN的滤波器106被用作后处理滤波器。然后在显示设备110处为用户显示增强的视频。例如，显示设备可以是监视器或任何其他合适的显示器设备。

在各种示例中，对于360度视频114，基于CNN的滤波器106可以被设计为处理用户视口中的视频帧，而不是直接处理360度投影格式视频114。360度投影格式视频114可以使用2D表示来描述整个三维场景的信息。因此，360度投影格式视频114帧的内容与传统视频有很大不同，用户可能无法直接观看。相比之下，视口视频帧是用户可以直接观看的传统视频帧。在各种示例中，根据用户的视角信息(来自HMD)，使用来自投影格式帧的直线投影来生成视口帧。视口帧仅包含用户查看区域内的内容。因此，视口视频的帧不仅仅是来自360度视频的帧的子集。因此，基于CNN的滤波器106可以被设计为处理视口，以减少用户视口中不能被环路内滤波器去除的可见压缩伪影。然后，可以在显示设备110处为用户显示增强的视口。在各种示例中，显示设备110可以是HMD显示设备。

在各种示例中，所提出的基于CNN的滤波器106中的网络拓扑也可以被设计为具有低复杂度(LC)，以用于严格的实时性能用途。例如，可以使用图2的基于CNN的滤波器200(在每个卷积层处具有数量减少的特征图)来实现基于CNN的滤波器106。基于LC CNN的滤波器106还可以具有数量减少的卷积层。在一些示例中，基于CNN的滤波器106可以被设计为具有高复杂度(HC)，以提供高质量的视觉体验。例如，可以使用图2的基于CNN的滤波器200(在每个卷积层中具有数量增加的特征图)来实现基于CNN的滤波器106。在一些示例中，基于HCCNN的滤波器106还可以具有更多的卷积层。

图1的图不旨在指示示例系统100包括图1中所示的所有组件。相反，可以使用图1中未示出的更少或额外的组件(例如，额外的输入视频、编码器、解码器、滤波器、显示设备等)来实现示例系统100。

图2是图示了示例基于CNN的滤波器的框图。可以使用图3的方法300在图4中的计算设备400中实现基于CNN的示例滤波器200。

基于CNN的示例滤波器200包括一系列卷积层202A、202B、202C、202D和反卷积层202E。例如，卷积层202A可以使用9×9卷积核。卷积层202A可以执行一次跨越两个像素的步长二卷积(stride two convolution)。步长是指卷积操作的一步的距离。卷积层202B可以使用1×1卷积核。卷积层202C可以使用7×7卷积核。卷积层202D可以使用1×1卷积核。在各种示例中，卷积层202B-202D的步长可以为1。反卷积层202E可以使用9×9反卷积核。反卷积层202E可以执行步长二反卷积。基于CNN的滤波器200还包括特征图集204A、204B、204C、204D、204E。例如，特征图集204A-204E可以具有基于所使用的特定拓扑的不同数量的特征图。例如，拓扑可以是低复杂度(LC)拓扑或高复杂度(HC)拓扑。基于CNN的滤波器200包括求和层206，求和层206以通信方式耦合以接收特征图204E。如箭头208所示，组合器206也被耦合以接收输入图像210。组合器206被显示为输出增强的图像212。例如，增强的图像可以排除输入图像210中存在的任何数量的伪影。

在一些示例中，可以使用低复杂度(LC)CNN网络拓扑来实现基于CNN的滤波器200，以实现严格的实时性能。例如，严格的实时性能可能由CPU或GPU等硬件的计算资源决定。具体地，CNN网络越简单，计算复杂度可能越低，处理时间可能越短。

因此，这里的实时性能意味着LC CNN网络拓扑足够简单，可以在重放视口视频期间快速减少每一帧的伪影。在各种示例中，LC CNN网络拓扑可以是具有若干卷积层204A-204D、反卷积层204E和求和层206的端到端残差网络。在一些示例中，激活功能层(未显示)被插入到每个卷积层的后面。在LC CNN网络拓扑中，特征图集可以具有预定义数量的特征图。例如，特征图集204A可以包括32个特征图。特征图集204B可以包括16个特征图。特征图集204C还可以包括16个特征图。特征图集204D可以包括32个特征图。特征图集204E可以包括一个特征图。例如，特征图204E可以具有与输入图像210相同的分辨率。

LC CNN网络拓扑可以既轻量级又与并行计算兼容，以实现严格的实时性能。对于720p输入视频，LC CNN网络的整体计算复杂度可以是每帧每秒4.32Giga浮点运算(FLOPS)，这可以很容易地在现代计算资源上运行以获得实时性能。

在一些示例中，可以使用高复杂度(HC)拓扑来实现基于CNN的滤波器200。例如，具有HC拓扑的基于CNN的滤波器200可以包括具有64个特征图的特征图集204A。HC拓扑中的特征图集204B和204C可以包括32个特征图。特征图集204D还可以包括64个特征图。特征图集204E可以包括一个特征图。例如，特征图204E可以具有与输入图像210相同的分辨率。在各种示例中，HC拓扑可以用在可能具有足够计算资源以满足实时要求的高性能CPU和GPU上。在一些示例中，HC拓扑也可用于对处理时间要求不太严格的一些情况，例如图像伪影去除。

图2的图不旨在指示基于CNN的示例滤波器200包括图2所示的所有组件。相反，可以使用图2中未示出的更少或额外的组件(例如，额外的输入图像、特征图、层、增强的图像等)来实现基于CNN的示例滤波器200。

图3是图示了用于使用基于CNN的滤波器解码视频的方法的流程图。可以在图1的系统100、图4的计算设备400、或图5的计算机可读介质500中实现示例方法300。

在块302处，接收360度投影格式视频比特流。例如，可以使用各种组合相邻视图的技术来压缩360度投影格式的视频。在一些示例中，还可以接收传统视频比特流。

在块304处，对360度投影格式视频比特流进行解码，以生成解码后的360度投影格式视频。在一些示例中，也可以使用任何合适的编码解码器来对传统视频比特流进行解码。在各种示例中，解码操作可以基于视频编码标准进行，并且可以涉及逆量化、逆变换、残差重构等操作。

在块306处，从解码后的360度投影格式视频生成视口。例如，处理器可以从显示器设备接收视图信息并基于视图信息从解码后的360度投影格式视频生成视口。例如，观看信息可以是作为坐标提供的观看者的观看角度信息。在各种示例中，可以使用直线投影来生成视口，并且可以由所使用的特定编码标准来定义视口。例如，可以基于从HMD接收到的坐标来生成特定视口。视口生成可以从投影视口上的样本位置(例如，从HMD接收的坐标)开始，首先找到对应的3D(X、Y、Z)坐标，并且然后在源投影格式平面中找到对应的2D坐标。然后，视口生成过程在源2D投影格式平面上的相应位置处获取相应的样本值。

在块308处，经由基于CNN的滤波器从生成的视口中去除伪影以生成增强的视口。例如，增强的视口可以排除生成的视口中存在的一个或多个伪影。在各种示例中，基于CNN的滤波器可以是环路外滤波器。环路外滤波器可以是在解码过程之外应用的滤波器。在一些示例中，基于CNN的滤波器包括具有低复杂度拓扑或高复杂度拓扑的卷积神经网络。例如，具有严格实时使用的应用程序(例如，游戏应用程序)可以使用低复杂度拓扑。在其他示例中，如果严格的实时使用不是一个因素，则可以使用高复杂度的拓扑以获得更高的质量。在各种示例中，基于CNN的滤波器包括具有步长二卷积层和步长二反卷积层的卷积神经网络。

在块310处，渲染增强的视口。例如，可以经由HMD设备显示视口。

该过程流程图不旨在指示示例方法300的块要以任何特定次序执行，或者在每种情况下都包括所有块。此外，取决于具体实现方式的细节，可以在示例方法300内包括未示出的任何数量的另外的块。

现在参考图4，该图示出了图示能够使用基于CNN的滤波器对视频进行解码的示例计算设备的框图。该计算设备400可以是，例如，膝上型计算机、台式计算机、平板计算机、移动设备、或可穿戴设备等。在一些示例中，计算设备400可以是显示设备，例如虚拟现实头戴式耳机。计算设备400可以包括被配置为执行存储的指令的中央处理单元(CPU)402、以及存储可以由CPU 402执行的指令的存储器设备404。CPU 402可以通过总线406耦合到存储器设备404。此外，CPU 402可以是单核心处理器、多核心处理器、计算集群、或任意数量的其他配置。此外，计算设备400可以包括多于一个CPU 402。在一些示例中，CPU 402可以是具有多核处理器架构的片上系统(SoC)。在一些示例中，CPU 402可以是用于图像处理的专用数字信号处理器(DSP)。存储器设备404可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、或任何其他合适的存储器系统。例如，存储器设备404可以包括动态随机存取存储器(DRAM)。

存储器设备404可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、或任何其他合适的存储器系统。例如，存储器设备404可以包括动态随机存取存储器(DRAM)。

计算设备400还可以包括图形处理单元(GPU)408。如所示出的，CPU 402可以通过总线406耦合到GPU 408。GPU 408可以被配置为在计算设备400内执行任何数量的图形操作。例如，GPU 408可以被配置为渲染或操纵要被显示给计算设备400的用户的图形图像、图形帧、视频等。

存储器设备404可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、或任何其他合适的存储器系统。例如，存储器设备404可以包括动态随机存取存储器(DRAM)。存储器设备404可以包括设备驱动器410，这些设备驱动器410被配置为执行用于训练多个卷积神经网络以执行与序列无关的处理的指令。设备驱动器410可以是软件、应用程序、应用代码等。

CPU 402还可以通过总线406连接到输入/输出(I/O)设备接口412，该接口412被配置为将计算设备400连接到一个或多个I/O设备414。I/O设备414可以包括例如键盘和指向设备，其中，指向设备可以包括触摸板或触摸屏等。I/O设备414可以是计算设备400的内置组件，或可以是从外部连接到计算设备400的设备。在一些示例中，存储器404可以通过直接存储器访问(DMA)通信地耦合到I/O设备414。

CPU 402还可以通过总线406链接到显示设备接口416，该显示设备接口416被配置为将计算设备400连接到显示设备418。显示设备418可以包括显示屏，该显示屏是计算设备400的内置组件。显示设备418还可以包括在计算设备400内部的或外部地连接到计算设备400的计算机监视器、电视、或投影仪等。

计算设备400还包括存储设备420。存储设备420是物理存储器，例如，硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列、固态驱动器、或其任何组合。存储设备420还可以包括远程存储驱动器。

计算设备400还可以包括网络接口控制器(NIC)422。NIC 422可以被配置为通过总线406将计算设备400连接到网络424。网络424可以是广域网(WAN)、局域网(LAN)、或互联网等。在一些示例中，设备可以通过无线技术与其他设备进行通信。例如，设备可以经由无线局域网连接与其他设备进行通信。在一些示例中，设备可以经由

或类似技术与其他设备连接和进行通信。

计算设备400还包括相机426。例如，相机426可以包括一个或多个图像传感器。在一些示例中，相机426可以包括用于生成视频帧的处理器。

计算设备400还包括基于卷积神经网络(CNN)的伪影去除器428。例如，基于CNN的伪影去除器428可以被用于以减少的伪影对360度视频进行解码。在一些示例中，基于CNN的伪影去除器428也可以被用于以减少的伪影对传统视频进行解码。基于CNN的伪影去除器428可以包括解码器430、视口生成器432、基于CNN的滤波器434和显示器436。在一些示例中，基于CNN的伪影去除器428的组件430-436中的每一者可以是微控制器、嵌入式处理器或软件模块。解码器430可以对接收到的360度投影格式视频比特流进行解码。例如，360度投影格式视频比特流生成解码后的360度投影格式视频。在一些示例中，解码器430可以接收压缩的传统视频比特流并且解压传统视频比特流以生成传统视频帧。视口生成器432可以从解码后的360度投影格式视频生成视口。基于CNN的滤波器434可以从生成的视口中去除任意数量的伪影。例如，伪影可以包括块状伪影、振铃伪影、径向伪影、接缝伪影或其任何组合。在一些示例中，基于CNN的滤波器434可以从解压的传统视频中去除伪影。例如，伪影可以是块状伪影、振铃伪影、径向伪影或接缝伪影。在各种示例中，基于CNN的滤波器434包括低复杂度(LC)拓扑。在一些示例中，基于CNN的滤波器434包括高复杂度(HC)拓扑。在各种示例中，基于CNN的滤波器434包括步长二卷积层和步长二反卷积层。在一些示例中，基于CNN的滤波器包括环路外滤波器。显示器436可以显示增强的图像。

图4的框图并不旨在指示计算设备400包括图4中所示的全部组件。反而，计算设备400可以包括更少的或图4中未示出的附加的组件，例如，附加的缓冲器、附加的处理器等。取决于特定实现的细节，计算设备400可包括图4中未示出的任意数量的附加组件。此外，解码器430、视口生成器432、基于CNN的滤波器434和显示器436的任何功能可以部分地或完全地在硬件和/或处理器402中实现。例如，功能可以用专用集成电路实现、在处理器402中实现的逻辑中实现、或者在任何其他设备中实现。此外，CPU 402的任何功能可以部分地或完全地在硬件中和/或在处理器中实现。例如，可以通过(在处理器实现的逻辑中、在专门的图形处理单元(如GPU 408)实现的逻辑中、或在任何其他设备中)的专用集成电路实现基于CNN的伪影去除器428的功能。

图5是示出了存储有用于使用基于CNN的滤波器对视频进行解码的代码的计算机可读介质500的框图。可以由处理器502通过计算机总线504来访问计算机可读介质500。此外，计算机可读介质500可以包括被配置为引导处理器502执行本文中所描述的方法的代码。在一些实施例中，计算机可读介质500可以是非暂时性计算机可读介质。在一些示例中，计算机可读介质500可以是存储介质。

如图5所示，本文中讨论的各种软件组件可以被存储在一个或多个计算机可读介质500上。例如，解码器模块506可以被配置为对接收到的360度投影格式视频比特流进行解码。例如，解码器模块506可以被配置为基于360度投影格式视频比特流生成解码后的360度投影格式视频。在一些示例中，解码器模块506还可以被配置为解压接收到的传统视频比特流以生成传统视频帧。视口生成器模块508可以被配置为从解码后的360度投影格式视频生成视口。例如，视口生成器模块508可以被配置为从显示设备接收视图信息并且基于视图信息从解码后的360度投影格式视频生成视口。基于CNN的滤波器模块510可以被配置为从生成的视口中去除多个伪影以生成增强的图像。例如，基于CNN的滤波器模块510可以被配置为具有低复杂度拓扑。在一些示例中，基于CNN的滤波器模块510可以被配置为具有高复杂度拓扑。在各种示例中，基于CNN的滤波器被配置为具有步长二卷积层和步长二反卷积层。在一些示例中，基于CNN的滤波器模块510还可以被配置为从传统视频帧中去除伪影。显示器模块512可以被配置为显示增强的图像。例如，显示器模块512可以被配置为将增强的图像发送到HMD设备以进行显示。在一些示例中，显示器模块512可以被配置为将增强的图像发送到监视器或其他显示设备。

图5的框图并不旨在指示计算机可读介质500包括图5中所示的全部组件。此外，取决于具体实现方式的细节，计算机可读介质500可以包括任意数量的图5中未示出的附加组件。例如，计算机可读介质500还可以包括训练模块，使用基础实况图像和添加了块状伪影的对应图像的训练对，来训练基于CNN的滤波器以去除块状伪影。在一些示例中，训练模块可以被配置为使用基础实况图像和添加了振铃伪影的对应图像的训练对，来训练基于CNN的滤波器以去除振铃伪影。在各种示例中，训练模块可以被配置为使用基础实况图像和添加了径向伪影的对应图像的训练对，来训练所述基于CNN的滤波器以去除块状径向。在一些示例中，训练模块可以被配置为使用基础实况图像和添加了接缝伪影的对应图像的训练对，来训练所述基于CNN的滤波器以去除块状伪影。

示例

示例1是一种用于对视频进行增强的装置，该装置包括解码器，用于接收到的360度投影格式视频比特流进行解码，以生成解码后的360度投影格式视频；该装置还包括视口生成器，用于从解码后的360度投影格式视频生成视口；该装置进一步包括基于卷积神经网络(CNN)的滤波器，用于从视口中去除伪影以生成增强的图像；该装置也包括显示器，用于将增强的图像发送到显示设备。

示例2包括如示例1的装置，包括或排除可选特征。在此示例中，解码器用于接收压缩的传统视频并解压传统视频，基于CNN的滤波器用于从解压的传统视频中去除伪影。

示例3包括如示例1至2中任一项的装置，包括或排除可选特征。在此示例中，基于CNN的滤波器包括具有低复杂度(LC)拓扑的CNN。

示例4包括如示例1至3中任一项的装置，包括或排除可选特征。在此示例中，基于CNN的滤波器包括具有高复杂度(HC)拓扑的CNN。

示例5包括如示例1至4中任一项的装置，包括或排除可选特征。在此示例中，基于CNN的滤波器包括具有步长二卷积层和步长二反卷积层的CNN。

示例6包括如示例1至5中任一项的装置，包括或排除可选特征。在此示例中，基于CNN的滤波器包括环路外滤波器。

示例7包括如示例1至6中任一项的装置，包括或排除可选特征。在此示例中，伪影包括块状伪影。

示例8包括如示例1至7中任一项的装置，包括或排除可选特征。在此示例中，伪影包括振铃伪影。

示例9包括如示例1至8中任一项的装置，包括或排除可选特征。在此示例中，伪影包括径向伪影。

示例10包括如示例1至9中任一项的装置，包括或排除可选特征。在此示例中，伪影包括接缝伪影。

示例11是一种用于对视频进行增强的方法。该方法包括经由处理器接收360度投影格式视频比特流；该方法还包括经由处理器对360度投影格式视频比特流进行解码，生成解码后的360度投影格式视频；该方法进一步包括经由处理器从解码后的360度投影格式视频生成视口；该方法也包括经由处理器，经由基于卷积神经网络(CNN)的滤波器从生成的视口中去除伪影，以生成增强的视口。

示例12包括如示例11的方法，包括或排除可选特征。在此示例中，生成视口包括从显示设备接收视图信息并基于视图信息从解码后的360度投影格式视频生成视口。

示例13包括如示例11至12中任一项的方法，包括或排除可选特征。在此示例中，去除伪影包括使用具有低复杂度拓扑的CNN。

示例14包括如示例11至13中任一项的方法，包括或排除可选特征。在此示例中，去除伪影包括使用具有高复杂度拓扑的CNN。

示例15包括如示例11至14中任一项的方法，包括或排除可选特征。在此示例中，去除伪影包括使用具有步长二卷积层和步长二反卷积层的基于CNN的滤波器。

示例16包括如示例11至15中任一项的方法，包括或排除可选特征。在此示例中，该方法包括：接收压缩的传统视频比特流；解压传统视频比特流，以生成传统视频帧；以及经由基于CNN的滤波器从传统视频帧中去除伪影。

示例17包括如示例11至16中任一项的方法，包括或排除可选特征。在此示例中，该方法包括使用基础实况图像和添加了块状伪影的对应图像的训练对，来训练基于CNN的滤波器以去除块状伪影。

示例18包括如示例11至17中任一项的方法，包括或排除可选特征。在此示例中，该方法包括使用基础实况图像和添加了振铃伪影的对应图像的训练对，来训练基于CNN的滤波器以去除振铃伪影。

示例19包括如示例11至18中任一项的方法，包括或排除可选特征。在此示例中，该方法包括使用基础实况图像和添加了径向伪影的对应图像的训练对，来训练基于CNN的滤波器以去除块状径向。

示例20包括如示例11至19中任一项的方法，包括或排除可选特征。在此示例中，该方法包括使用基础实况图像和添加了接缝伪影的对应图像的训练对，来训练基于CNN的滤波器以去除块状伪影。

示例21是至少一种计算机可读介质，用于对视频进行增强，该至少一种计算机可读介质存储有指令，这些指令指示处理器接收360度投影格式视频比特流。计算机可读介质还包括指令，这些指令指示处理器对360度投影格式视频比特流进行解码以生成解码后的360度投影格式视频。计算机可读介质进一步包括指令，这些指令指示处理器从解码后的360度投影格式视频生成视口。计算机可读介质也进一步包括指令，这些指令指示处理器从生成的视口中去除伪影以生成增强的视的指令。

示例22包括如示例21的计算机可读介质，包括或排除可选特征。在此示例中，计算机可读介质包括指令，这些指令使处理器从显示设备接收视图信息并基于视图信息从解码后的360度投影格式视频生成视口。

示例23包括如示例21至22中任一项的计算机可读介质，包括或排除可选特征。在此示例中，计算机可读介质包括指令，这些指令使处理器使用具有低复杂度拓扑的CNN来去除伪影。

示例24包括如示例21至23中任一项的计算机可读介质，包括或排除可选特征。在此示例中，计算机可读介质包括指令，这些指令使处理器使用具有高复杂度拓扑的CNN来去除伪影。

示例25包括如示例21至24中任一项的计算机可读介质，包括或排除可选特征。在此示例中，计算机可读介质包括指令，这些指令使处理器使用具有步长二卷积层和步长二反卷积层的基于CNN的滤波器来去除伪影。

示例26包括如示例21至25中任一项的计算机可读介质，包括或排除可选特征。在此示例中，计算机可读介质包括使处理器进行以下操作的指令：接收压缩的传统视频比特流；解压传统视频比特流，以生成传统视频帧；以及从传统视频帧中去除伪影。

示例27包括如示例21至26中任一项的计算机可读介质，包括或排除可选特征。在此示例中，计算机可读介质包括指令，这些指令使处理器使用基础实况图像和添加了块状伪影的对应图像的训练对，来训练基于CNN的滤波器以去除块状伪影。

示例28包括如示例21至27中任一项的计算机可读介质，包括或排除可选特征。在此示例中，计算机可读介质包括指令，这些指令使处理器使用基础实况图像和添加了振铃伪影的对应图像的训练对，来训练基于CNN的滤波器以去除振铃伪影。

示例29包括如示例21至28中任一项的计算机可读介质，包括或排除可选特征。在此示例中，计算机可读介质包括指令，这些指令使处理器使用基础实况图像和添加了径向伪影的对应图像的训练对，来训练基于CNN的滤波器以去除块状径向。

示例30包括如示例21至29中任一项的计算机可读介质，包括或排除可选特征。在此示例中，计算机可读介质包括指令，这些指令使处理器使用基础实况图像和添加了接缝伪影的对应图像的训练对，来训练基于CNN的滤波器以去除块状伪影。

示例31是一种用于对视频进行增强的系统。该系统包括解码器，用于对接收到的360度投影格式视频比特流进行解码，以生成解码后的360度投影格式视频；该系统还包括视口生成器，用于从解码后的360度投影格式视频生成视口；该系统进一步包括基于卷积神经网络(CNN)的滤波器，用于从视口中去除伪影以生成增强的图像；该系统还进一步包括显示器，用于将增强的图像发送到显示设备。

示例32包括示例31的系统，包括或不包括可选特征。在此示例中，解码器用于接收压缩的传统视频并解压传统视频，基于CNN的滤波器用于从解压的传统视频中去除伪影。

示例33包括如示例31至32中任一项的系统，包括或排除可选特征。在此示例中，基于CNN的滤波器包括具有低复杂度(LC)拓扑的CNN。

示例34包括如示例31至33中任一项的系统，包括或排除可选特征。在此示例中，基于CNN的滤波器包括具有高复杂度(HC)拓扑的CNN。

示例35包括如示例31至34中任一项的系统，包括或排除可选特征。在此示例中，基于CNN的滤波器包括具有步长二卷积层和步长二反卷积层的CNN。

示例36包括如示例31至35中任一项的系统，包括或排除可选特征。在此示例中，基于CNN的滤波器包括环路外滤波器。

示例37包括如示例31至36中任一项的系统，包括或排除可选特征。在此示例中，伪影包括块状伪影。

示例38包括如示例31至37中任一项的系统，包括或排除可选特征。在此示例中，伪影包括振铃伪影。

示例39包括如示例31至38中任一项的系统，包括或排除可选特征。在此示例中，伪影包括径向伪影。

示例40包括如示例31至39中任一项的系统，包括或排除可选特征。在此示例中，伪影包括接缝伪影。

示例41是一种用于对视频进行增强的系统。该系统包括用于对接收到的360度投影格式视频比特流进行解码以生成解码后的360度投影格式视频的装置；该系统还包括用于从解码后的360度投影格式视频生成视口的装置；该系统进一步包括用于从视口中去除伪影以生成增强的图像的装置；该系统还进一步包括用于将增强的图像发送到显示设备的装置。

示例42包括示例41的系统，包括或不包括可选特征。在此示例中，用于对接收到的360度投影格式视频进行解码的装置还用于接收压缩的传统视频并解压传统视频，基于CNN的滤波器用于从解压的传统视频中去除伪影。

示例43包括如示例41至42中任一项的系统，包括或排除可选特征。在此示例中，用于去除伪影的装置包括具有低复杂度(LC)拓扑的CNN。

示例44包括如示例41至43中任一项的系统，包括或排除可选特征。在此示例中，用于去除伪影的装置包括具有高复杂度(HC)拓扑的CNN。

示例45包括如示例41至44中任一项的系统，包括或排除可选特征。在此示例中，用于去除伪影的装置包括具有步长二卷积层和步长二反卷积层的CNN。

示例46包括如示例41至45中任一项的系统，包括或排除可选特征。在此示例中，用于去除伪影的装置包括环路外滤波器。

示例47包括如示例41至46中任一项的系统，包括或排除可选特征。在此示例中，伪影包括块状伪影。

示例48包括如示例41至47中任一项的系统，包括或排除可选特征。在此示例中，伪影包括振铃伪影。

示例49包括如示例41至48中任一项的系统，包括或排除可选特征。在此示例中，伪影包括径向伪影。

示例50包括如示例41至49中任一项的系统，包括或排除可选特征。在此示例中，伪影包括接缝伪影。

在一个或多个特定方面中并不需要包括本文描述和图示的所有组件、特征、结构、特性等。如果说明书陈述例如“可”、“可能”、“可以”或者“能够”包括某一组件、特征、结构或特性，那么并不要求包括该特定组件、特征、结构或特性。如果说明书或权利要求提及“一”元素，那么并不意味着只有一个该元素。如果说明书或权利要求提及“一额外”元素，那么并不排除有多于一个该额外元素。

要注意，虽然已参考特定实现方式描述了一些方面，但根据一些方面，其他实现方式是可能的。此外，不需要按图示和描述的特定方式来布置附图中图示和/或本文描述的电路元件或其他特征的布置和/或顺序。根据一些方面，许多其他布置是可能的。

在附图中示出的每个系统中，元素在一些情况下可各自具有相同的标号或不同的标号以暗示出所表示的元素可以是不同的和/或相似的。然而，元素可以灵活到足以具有不同的实现方式并且与本文示出或描述的一些或所有系统一起工作。附图中示出的各种元素可以是相同或者不同的。哪一个被称为第一元素以及哪一个被称为第二元素，是任意的。

要理解，上述示例的细节可在一个或多个方面中的任何地方被使用。例如，也可对本文描述的方法或计算机可读介质的任一者实现上文描述的计算设备的所有可选特征。此外，虽然流程图和/或状态图在本文中可能已被用于描述一些方面，但本技术并不限于这些图或者本文的相应描述。例如，流程不需要按与本文图示和描述的顺序完全相同的顺序移动经过每个图示的方框或状态。

本技术不限于本文列出的具体细节。事实上，受益于本公开的本领域技术人员将会明白，在本技术的范围内，可做出不同于前述描述和附图的许多其他变化。因此，限定本技术的范围的是所附权利要求，包括对其的任何修改。

Claims

1.一种用于对视频进行增强的装置，包括：

解码器，用于对接收到的360度投影格式视频比特流进行解码，以生成解码后的360度投影格式视频；

视口生成器，用于从所述解码后的360度投影格式视频生成视口；

基于卷积神经网络(CNN)的滤波器，用于从所述视口中去除伪影以生成增强的图像；以及

显示器，用于将所述增强的图像发送到显示设备。

2.根据权利要求1所述的装置，其中，所述解码器用于接收压缩的传统视频并解压所述传统视频，所述基于CNN的滤波器用于从解压的传统视频中去除伪影。

3.根据权利要求1所述的装置，其中，所述基于CNN的滤波器包括具有低复杂度(LC)拓扑的CNN。

4.根据权利要求1所述的装置，其中，所述基于CNN的滤波器包括具有高复杂度(HC)拓扑的CNN。

5.根据权利要求1所述的装置，其中，所述基于CNN的滤波器包括具有步长二卷积层和步长二反卷积层的CNN。

6.根据权利要求1-5的任意组合所述的装置，其中，所述基于CNN的滤波器包括环路外滤波器。

7.根据权利要求1-5的任意组合所述的装置，其中，所述伪影包括块状伪影。

8.根据权利要求1-5的任意组合所述的装置，其中，所述伪影包括振铃伪影。

9.根据权利要求1-5的任意组合所述的装置，其中，所述伪影包括径向伪影。

10.根据权利要求1-5的任意组合所述的装置，其中，所述伪影包括接缝伪影。

11.一种用于对视频进行增强的方法，包括：

经由处理器接收360度投影格式视频比特流；

经由处理器对所述360度投影格式视频比特流进行解码，以生成解码后的360度投影格式视频；

经由处理器从所述解码后的360度投影格式视频生成视口；以及

经由处理器，经由基于卷积神经网络(CNN)的滤波器从生成的视口中去除伪影，以生成增强的视口。

12.根据权利要求11所述的方法，其中，生成所述视口包括：从显示设备接收视图信息，并基于所述视图信息从所述解码后的360度投影格式视频生成所述视口。

13.根据权利要求11所述的方法，其中，去除所述伪影包括：使用具有低复杂度拓扑的CNN。

14.根据权利要求11所述的方法，其中，去除所述伪影包括：使用具有高复杂度拓扑的CNN。

15.根据权利要求11所述的方法，其中，去除所述伪影包括：使用具有步长二卷积层和步长二反卷积层的基于CNN的滤波器。

16.根据权利要求11-15的任意组合所述的方法，还包括：

接收压缩的传统视频比特流；

解压所述传统视频比特流，以生成传统视频帧；以及

经由所述基于CNN的滤波器从所述传统视频帧中去除伪影。

17.根据权利要求11-15的任意组合所述的方法，包括：使用基础实况图像和添加了块状伪影的对应图像的训练对，来训练所述基于CNN的滤波器以去除块状伪影。

18.根据权利要求11-15的任意组合所述的方法，包括：使用基础实况图像和添加了振铃伪影的对应图像的训练对，来训练所述基于CNN的滤波器以去除振铃伪影。

19.根据权利要求11-15的任意组合所述的方法，包括：使用基础实况图像和添加了径向伪影的对应图像的训练对，来训练所述基于CNN的滤波器以去除块状径向。

20.根据权利要求11-15的任意组合所述的方法，包括：使用基础实况图像和添加了接缝伪影的对应图像的训练对，来训练所述基于CNN的滤波器以去除块状伪影。

21.一种用于对视频进行增强的系统，包括：

用于对接收到的360度投影格式视频比特流进行解码以生成解码后的360度投影格式视频的装置；

用于从所述解码后的360度投影格式视频生成视口的装置；

用于从所述视口中去除伪影以生成增强的图像的装置；以及

用于将所述增强的图像发送到显示设备的装置。

22.根据权利要求21所述的系统，其中，用于对接收到的360度投影格式视频比特流进行解码的装置还用于接收压缩的传统视频比特流，并解压所述传统视频比特流以生成传统视频帧，用于去除伪影的装置用于从所述传统视频帧中去除伪影。

23.根据权利要求21所述的系统，其中，用于去除伪影的装置包括具有低复杂度(LC)拓扑的卷积神经网络。

24.根据权利要求21-23的任意组合所述的系统，其中，用于去除伪影的装置包括具有高复杂度(HC)拓扑的卷积神经网络。

25.根据权利要求21-23的任意组合所述的系统，其中，用于去除伪影的装置包括具有步长二卷积层和步长二反卷积层的卷积神经网络。