CN112543347B

CN112543347B - 基于机器视觉编解码的视频超分辨率方法、装置、系统和介质

Info

Publication number: CN112543347B
Application number: CN202011000581.0A
Authority: CN
Inventors: 蒋薇; 王炜; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2019-09-23
Filing date: 2020-09-22
Publication date: 2022-06-03
Anticipated expiration: 2040-09-22
Also published as: US20210090217A1; CN112543347A; US11410275B2

Abstract

一种基于机器视觉编解码(VCM)的视频超分辨率(SR)方法。该方法包括：获取低分辨率LR视频；基于深度神经网络DNN生成所述LR视频的特征表示；基于VCM标准对所述LR视频的特征表示和所述LR视频进行编码，以生成所述LR视频的已编码特征表示和已编码LR视频，其中所述LR视频的特征表示包含所述LR视频的空间和时间信息，用于创建与所述LR视频对应的高分辨率HR视频；以及对所述LR视频的已编码特征表示和所述已编码LR视频进行解码。

Description

基于机器视觉编解码的视频超分辨率方法、装置、系统和介质

优先权信息

本申请要求于2019年9月23日递交的、申请号为62/904,647的美国临时申请、以及于2020年9月16日递交的、申请号为17/023,055的美国申请的优先权，其全部内容通过引用并入本申请中。

技术领域

本申请涉及视频技术领域，更具体地，涉及基于机器视觉编解码(VCM)的视频超分辨率(SR)方法、装置和系统、以及存储介质。

背景技术

国际标准化组织(ISO)/国际电工委员会(IEC)动态图像专家组(MPEG)(JTC 1/SC29/WG 11)一直在积极寻求对视频编解码技术标准化的潜在需要，以进行视觉分析和理解。ISO于2015年将紧凑视觉搜索描述符(CDVS)标准作为静止图像标准，该标准提取特征表示以进行图像相似性匹配。紧凑视觉分析描述符(CDVA)标准被列为MPEG 7和ISO/IEC 15938-15的第15部分，并于2018年完成，该标准提取视频片段的全局和局部的、手动设计的和基于深度神经网络(DNN)的特征描述符。DNN成功地应用于各种视频应用中，例如语义分类、目标检测/识别、目标跟踪、视频质量增强等。MPEG还在研究神经网络标准(NNR)的编码表示，该标准对DNN模型进行编码以节省存储空间和计算量。

最近，针对机器视觉编解码(VCM)标准成立了一个小组，以探讨“机器视觉的压缩编解码以及人机混合系统的压缩”主题，旨在开发一种标准，该标准可以在芯片中实现，以广泛应用于任何与视频相关的物联网(IoT)设备。与以前的CDVA和CDVS相比，VCM是一种新兴的机器标准的视频，可以视为CDVA的超集。通过组合神经网络骨干的多个特征图，VCM可以处理更高级的视觉分析任务，例如对象检测和分段。然而，普遍缺少VCM的具体实施方式。

所公开的方法、装置和系统旨在解决上述一个或多个问题以及其它问题。

发明内容

本公开的实施例涉及基于机器视觉编解码(VCM)的视频超分辨率(SR)方法、装置和系统、以及存储介质，旨在提出一种VCM的具体实施方式，以节省存储空间和计算量。

根据本公开的实施例，提供了一种基于机器视觉编解码(VCM)的视频超分辨率(SR)方法。该方法包括：电子设备获取低分辨率LR视频；所述电子设备基于深度神经网络DNN生成所述LR视频的特征表示；所述电子设备基于VCM标准对所述LR视频的特征表示和所述LR视频进行编码，以生成所述LR视频的已编码特征表示和已编码LR视频，其中所述LR视频的特征表示包含所述LR视频的空间和时间信息，用于创建与所述LR视频对应的高分辨率HR视频；服务器接收所述LR视频的已编码特征表示和所述已编码LR视频；所述服务器基于所述VCM标准对所述LR视频的已编码特征表示和所述已编码LR视频进行解码，以生成所述LR视频的已解码特征表示和已解码LR视频；所述服务器基于所述LR视频的已解码特征表示和所述已解码LR视频执行重建过程，以创建与所述LR视频的对应的所述HR视频；以及所述服务器将所述HR视频呈现给用户应用；所述电子设备基于深度神经网络DNN生成所述LR视频的特征表示包括：所述电子设备从所述LR视频的帧中提取运动特征，并基于所述提取的运动特征对所述LR视频的帧进行对准；或者，直接学习对准滤波器，以对所述LR视频的帧进行对准而不提取运动特征；以及所述电子设备生成已对准帧的特征表示作为所述LR视频的特征表示；其中，所述已对准帧的特征表示由大小为(w，h，t，n，c)的5维张量定义，其中w和h是所述LR视频的帧的宽度和高度，t是所述LR视频的时间长度，c是所生成的特征的数量，n是所述LR视频的帧的时间邻域的大小，在所述时间邻域内所述LR视频的帧对应于要生成的所述HR视频的帧；其中，将大小为n的所述时间邻域放置在要生成的所述HR视频的帧周围，并将所述时间邻域内的LR视频帧与对应于要生成的所述HR视频的帧的LR视频帧对准。

根据本公开的实施例，还提供了一种基于机器视觉编解码(VCM)的视频超分辨率(SR)装置。该装置包括：获取模块，用于获取低分辨率LR视频；生成模块，用于基于深度神经网络DNN生成所述LR视频的特征表示；编码模块，用于基于VCM标准对所述LR视频的特征表示和所述LR视频进行编码，以生成所述LR视频的已编码特征表示和已编码LR视频，其中所述LR视频的特征表示包含所述LR视频的空间和时间信息，用于创建与所述LR视频对应的高分辨率HR视频；接收模块，用于接收所述LR视频的已编码特征表示和所述已编码LR视频；解码模块，用于基于所述VCM标准对所述LR视频的已编码特征表示和所述已编码LR视频进行解码，以生成所述LR视频的已解码特征表示和已解码LR视频；创建模块，用于基于所述LR视频的已解码特征表示和所述已解码LR视频执行重建过程，以创建与所述LR视频的对应的所述HR视频；以及呈现模块，用于将所述HR视频呈现给用户应用；所述生成模块用于从所述LR视频的帧中提取运动特征，并基于所述提取的运动特征对所述LR视频的帧进行对准；或者，直接学习对准滤波器，以对所述LR视频的帧进行对准而不提取运动特征；以及生成已对准帧的特征表示作为所述LR视频的特征表示；其中，所述已对准帧的特征表示由大小为(w，h，t，n，c)的5维张量定义，其中w和h是所述LR视频的帧的宽度和高度，t是所述LR视频的时间长度，c是所生成的特征的数量，n是所述LR视频的帧的时间邻域的大小，在所述时间邻域内所述LR视频的帧对应于要生成的所述HR视频的帧；其中，将大小为n的所述时间邻域放置在要生成的所述HR视频的帧周围，并将所述时间邻域内的LR视频帧与对应于要生成的所述HR视频的帧的LR视频帧对准。

根据本公开的实施例，还提供了一种基于机器视觉编解码(VCM)的视频超分辨率(SR)系统。该系统包括电子设备，被配置为执行本公开实施例所述的视频SR方法。

根据本公开的实施例，提供了一种非易失性计算机可读存储介质，用于存储计算机程序指令，当所述计算机程序指令被用于视频编码/解码的计算机执行时，使得所述计算机执行本公开实施例所述的视频SR方法。

通过本公开的实施例，视频SR不再仅仅是图像SR的简单扩展，而是逐帧进行图像SR。而且，基于DNN的视频SR方法可以节省存储空间和计算量。

根据本公开的说明书，权利要求书和附图，本领域技术人员可以理解本公开的其他方面。

附图说明

图1示出了本公开一些实施例的运行环境的示意图；

图2示出了根据本公开实施例的电子设备的结构示意图；

图3示出了根据本公开实施例的计算机系统的结构示意图；

图4示出了根据本公开实施例的视频SR系统的示意图；

图5示出了根据本公开实施例的另一个视频SR系统的示意图；

图6示出了根据本公开实施例的另一个视频SR系统的示意图；

图7示出了根据本公开实施例的另一个视频SR系统的示意图；

图8示出了根据本公开实施例的视频SR过程的流程图；

图9示出了根据本公开实施例的DNN的示意图。

具体实施方式

下面结合附图描述本公开实施例的技术方案。在所有附图中，将尽可能使用相同的附图标号表示相同或相似的组件。很显然，所描述的实施例仅仅是本公开的一些实施例，而非全部实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都属于本公开的保护范围。下面首先解释本公开中使用的一些术语。

机器视觉编解码(VCM)：VCM是指考虑机器视觉的视频编解码，例如自主驾驶。VCM标准指的是针对不同类型的设备或来自不同提供商的设备的一组规则、算法和协议，以实现VCM视频应用。

物联网(IoT)：IoT是由相互关联的计算设备、机械和数字机器组成的系统，该系统具有唯一标识符(UID)，并且能够通过网络传输数据而无需人与人或人与计算机的交互。

高分辨率(HR)：HR描述以高DPI(每英寸点数)显示的图像或视频，其包含大量的视觉信息。

低分辨率(LR)：相对于HR，LR描述以低DPI显示的图像或视频，其包含少量的视觉信息。

超分辨率(SR)：SR是提高或增加图像系统或图像/视频的分辨率的一类技术。

深度神经网络(DNN)：DNN是一种在输入层与输出层之间具有多层的人工神经网络(ANN)。DNN发现正确的数学操作以将输入转换为输出，该输入与该输出可以是线性关系或非线性关系。

紧凑视觉搜索描述符(CDVS)：CDVS涉及与图像、视频、算法或应用中的内容特征的描述相关的技术，其产生用于视觉搜索应用的此类描述。

紧凑视觉分析描述符(CDVA)：CDVA涉及与图像、视频、算法或应用中的内容特征的描述相关的技术，其产生用于视觉分析应用的此类描述。

神经网络的编码表示(NNR)：NNR涉及用于多媒体内容描述和分析的神经网络压缩技术。

图1示出了本公开的一些实施例的运行环境100。如图1所示，运行环境100可以包括具有视频功能的各种设备。例如，运行环境100可以包括终端设备102、相机设备104和物联网(IoT)设备106。运行环境100还可以包括其他类型的设备。

运行环境100还可以包括服务器122、人类视觉应用124、机器视觉应用126、以及将各种设备连接到服务器122的通信链路140。用户130可以使用、访问或控制各种设备中的一个或多个。

终端设备102可以包括任何用户终端，例如个人数字助理(PDA)、移动电话、智能电话、集成消息收发设备(IMD)、平板计算机、笔记本计算机、台式计算机、以及其他计算设备。相机设备104可以包括任何图像或视频捕获设备，例如数码相机、摄像机、安全摄像机、车载摄像机、立体摄像机等。IoT设备106可以包括具有摄像功能的任何类型的IoT设备，例如数字门铃、自动驾驶传感器、数字语音助手、智能扬声器、智能家电以及任何工业或商业物联网系统。各种设备102、104和106中的任何一个在被移动的个人携带时可以是静止的或移动的，并且还可以作为运输的一部分或以运输模式来放置，该运输模式包括汽车、卡车、出租车、公共汽车、火车、轮船、飞机、自行车、摩托车或任何类似的合适运输模式。

图2示出了用于实现各种设备102、104和/或106中的任何一个的电子设备。如图2所示，电子设备200可以包括硬件处理器202、存储器204、读卡器206、显示器208、键盘210、射频(RF)接口212、基带214、天线216、编码器222、解码器224、照相机226、扬声器232和麦克风234等。图2所示的组件是说明性的，可以省略某些组件，并且可以添加其他组件。

可以提供处理器202以控制电子设备200。处理器202可以通过至少一个总线或其他电连接连接到其他组件，以向其他组件发送数据和从其他组件接收数据。处理器202可以包括至少一个处理核，例如四核处理器或八核处理器。处理器202可以使用数字信号处理(DSP)、现场可编程门阵列(FPGA)和可编程逻辑阵列(PLA)的至少一种硬件形式来实现。处理器202还可以包括主处理器和协处理器。主处理器可以是中央处理单元(CPU)，协处理器可以是图形处理单元(GPU)，该图形处理单元被配置为负责渲染和绘制显示屏幕需要显示的内容。在一些实施例中，处理器202可以进一步包括人工智能(AI)处理器。AI处理器被配置为处理与机器学习有关的计算操作。

存储器204可以包括诸如高速随机存取存储器和非易失性存储器的一个或多个计算机可读存储介质，例如，一个或多个磁盘存储设备或闪存设备。存储器204既可以存储图像和音频数据形式的数据，还可以存储用于处理器202的指令。读卡器206可以包括任何类型的便携式卡接口，例如智能卡接口、通信卡接口(例如，近场通信(NFC)卡)、用户识别模块(SIM)卡、或其他用于提供用户信息并适于为用户130的认证和授权提供认证信息的卡接口。

此外，显示器208可以是适于显示图像或视频的任何合适的显示技术。例如，显示器208可以包括液晶显示器(LCD)屏幕、有机发光二极管(OLED)屏幕等，并且可以是触摸屏。键盘210可以包括物理或虚拟键盘，以便用户130输入信息，并且还可以包括其他类型的输入/输出设备。扬声器232和麦克风234可以用于为电子设备200输入和输出音频。

RF接口212(连同天线216)可以包括用于接收和发送RF信号的RF电路。RF接口212可以将电信号转换成用于发送的电磁信号，或者将接收到的电磁信号转换成用于接收的电信号。RF接口212可以通过至少一种无线通信协议与其他电子设备通信。无线通信协议可以包括城域网、各代移动通信网络(2G、3G、4G和5G)、无线局域网(LAN)和/或无线保真(WiFi)网络。在一些实施例中，RF接口212还可以包括与近场通信(NFC)相关的电路。基带214可以包括电路，用于处理去往和来自RF接口212的信号。

此外，照相机226可以包括用于收集图像或视频的任何类型的成像或视频捕获设备。当电子设备200是由用户130携带的便携式设备时，照相机226可以包括前置摄像头和后置摄像头。前置摄像头可以设置在电子设备的前面板上，后置摄像头可以设置在电子设备的后表面上。在一些实施例中，至少有两个后置摄像头，每个摄像头都是主摄像头、景深摄像头、广角摄像头和长焦摄像头中的任何一个，以便通过融合主摄像头与景深摄像头来实现背景模糊功能，并且通过融合主摄像头与广角摄像头来实现全景拍摄和虚拟现实(VR)拍摄功能或其他融合拍摄功能。在一些实施例中，照相机226可以进一步包括闪光灯。

编码器222和解码器224可以被称为电子设备的编解码器电路，该编解码器电路适于执行音频和/或视频数据的编码和解码，或者辅助处理器202执行编码和解码。

如图2所示，电子设备200可以包括类似于无线通信系统的移动终端或用户设备的结构。然而，还可以包括可能需要编码和解码、或者需要编码、或者需要解码视频或图像的任何电子设备或装置。

返回图1，电子设备200(即，各种设备102、104和/或106中的任何一个或多个)可以捕获或收集各种数据(例如，音频数据、环境/操作数据、图像数据和/或视频数据)，并通过通信链路140将数据发送到服务器122。电子设备200可以在将数据发送到服务器122之前处理或预处理数据，或者可以将未处理的数据发送到服务器122。

通信链路140可以包括任何适当类型的通信网络，并且可以包括有线或无线网络的任意组合，该有线或无线网络包括但不限于无线蜂窝电话网络、无线局域网(WLAN)、蓝牙个人域网、以太网局域网、令牌环局域网、广域网和因特网。通信链路140还可以包括用于语音/数据通信的私有或公共云计算平台。当包括因特网或其他类型的网络时，与因特网的连接可以包括长距离无线连接、短距离无线连接、以及包括电话线、电缆线、电源线和类似通信路径的各种有线连接。

服务器122可以包括配置在服务器集群中或分布在不同位置的任何类型的服务器计算机系统或多个计算机系统。服务器122还可以包括云计算平台上的云服务器。服务器122也可以称为服务器，其可以与任何适当的设备(包括电子设备)集成，以执行本公开实施例的视频解码和应用处理的服务器侧功能。图3示出了实现服务器122的某些方面的示例性计算机系统。

如图3所示，计算机系统300可以包括处理器302、存储介质304、监视器306、通信模块308、数据库310和外围设备312。可以省略某些设备并且可以包括其他设备。

处理器302可以包括任何适当的一个或多个处理器。此外，处理器302可以包括用于多线程或并行处理的多个核。存储介质304可以包括诸如只读存储器(ROM)、随机存取存储器(RAM)、闪存模块、以及可擦除和可擦写存储器之类的存储器模块，以及诸如CD-ROM、U盘和硬盘等的大容量存储设备。存储介质304可以存储计算机程序指令，该计算机程序指令在由处理器302执行时，用于实现各种过程。例如，当所述计算机程序指令被用于编码/解码的计算机执行时，使得所述计算机执行本公开实施例提供的通用视频编码方法。

此外，外围设备312可以包括I/O设备，例如键盘和鼠标。通信模块308可以包括网络设备，用于通过通信网络建立连接。数据库310可以包括至少一个数据库，用于存储某些数据，并用于对所存储的数据执行某些操作，例如数据库搜索。

返回图1，服务器122可以包括人类视觉应用124和机器视觉应用126，或者可以与人类视觉应用124和机器视觉应用126连接。人类视觉应用124可以包括用户终端设备和/或用户终端设备或服务器122上运行的应用，以提供与人类视觉相关的功能，例如图像显示、视频回放或视频监控等。机器视觉应用126可以包括控制设备和/或控制设备或服务器122上运行的应用，以提供与机器视觉相关的功能，例如自主驾驶、图像/视频搜索和/或分析等。

在操作中，电子设备200、服务器122、人类视觉应用124和/或机器视觉应用126可以基于机器视觉编解码(VCM)技术来实现视频超分辨率(SR)过程。

随着诸如4K(3840×2160)和8K(7680×4320)分辨率的高分辨率(HR)视频显示器的日益普及，视频SR过程可用于生成匹配的HR视频内容。也就是说，视频SR要从对应的低分辨率(LR)视频生成高分辨率(HR)视频。对于终端用户来说，使用基于DNN的方法创建HR视频的成本相对较高。例如，大多数终端用户使用智能手机拍摄视频。由于存储空间有限，在智能手机上保存HR视频通常是不切实际的。通过蜂窝网络发送大量视频数据通常也是不切实际的。此外，智能手机的小屏幕也使得无需在智能手机上生成HR视频。因此，本公开提供了一种技术方案，用于对视频捕获、视频存储、视频传输和视频生成的过程进行分离。

具体地，在操作过程中，电子设备200可以生成或收集LR视频，并且电子设备200和服务器122可以相互协调以使用视频SR过程来生成与LR视频对应的HR视频内容。也就是说，在电子设备上捕获常规LR视频(例如，常规1080×1920分辨率视频)，并且从该LR视频中提取适当的表示。这些表示可以被存储并通过网络传输，并且稍后或在需要时由服务器生成HR视频。

图4示出了根据本公开实施例的用于执行视频SR过程的示例性视频SR系统。如图4所示，视频SR系统400可以包括编码器442、解码器444和存储和/或传输组件440。在某些实施例中，编码器442可以由电子设备200实现，解码器可以由服务器122实现，并且存储和/或传输组件440可以由电子设备200和服务器122中的一个或两个来实现。在某些其他实施例中，电子设备200或服务器122可以将编码器442和解码器444都实现为用于视频处理的编解码器。

编码器442可以包括对准模块410和VCM编码模块412(或VCM编码器)。对准模块410被配置为对LR视频402的多个帧进行对准。可选地，编码器442可以包括特征提取模块(未示出)，用于从多个视频帧中提取运动特征，并且对准模块410通过匹配所提取的特征来对准这些帧。在某些实施例中，对准模块410可以直接学习对准滤波器来对准多个帧，而无需显式地提取运动特征，从而无需使用特征提取模块。

更具体地，基于LR视频，对准模块410可以生成已对准帧的特征表示404，并且LR视频也可以由单独的编码器(未示出)进行编码以生成已编码LR视频406。此外，VCM编码模块412可以使用例如基于DNN的方法对已对准帧的特征表示404进行编码，以生成已对准帧的已编码特征表示408。已编码LR视频406和已对准帧的已编码特征表示408都可以经由存储和/或传输组件440由解码器444接收。

解码器444可以包括VCM解码模块414(VCM解码器)、融合模块416和重建模块418。在接收到已编码LR视频406和已对准帧的已编码特征表示408之后，VCM解码模块414可以对已对准帧的已编码特征表示408进行解码，以生成已对准帧的已解码特征表示424。已编码LR视频406还可以由解码器(未示出)进行解码以生成已解码LR视频426。

融合模块416可以被配置为执行融合过程，以对已对准帧的特征表示进行组合或融合。也就是说，融合模块416可以对已对准帧的已解码特征表示424进行组合，以生成融合的特征表示428。

重建模块418可以被配置为使用融合的特征表示和已解码的下采样LR视频来生成HR视频。也就是说，重建模块418可以基于融合的特征表示428和已解码LR视频426执行重建过程，以生成相应的HR视频432。

图5示出了根据本公开实施例的另一个示例性视频SR系统。如图5所示，视频SR系统500可以包括编码器542、解码器544和存储和/或传输组件440。编码器542可以包括对准模块410和VCM编码模块412。对准模块410被配置为对LR视频402的多个帧进行对准，并且基于LR视频生成已对准帧的特征表示404。

VCM编码模块412可以使用例如基于DNN的方法对已对准帧的特征表示404进行编码，以生成已对准帧的已编码特征表示408。VCM编码模块412还可以对LR视频402进行编码，以生成已编码LR视频406。已编码LR视频406和已对准帧的已编码特征表示408都可以经由存储和/或传输组件440由解码器444接收。

解码器544可以包括VCM解码模块414、融合模块416和重建模块418。在接收到已编码LR视频406和已对准帧的已编码特征表示408之后，VCM解码模块414可以对已对准帧的已编码特征表示408进行解码，以生成已对准帧的已解码特征表示424。此外，VCM解码模块414还可以对已编码LR视频406进行解码，以生成已解码LR视频426。

融合模块416可以对已对准帧的已解码特征表示424进行组合，以生成融合的特征表示428。重建模块418可以基于融合的特征表示428和已解码LR视频426生成相应的HR视频432。

图6示出了根据本公开实施例的另一个示例性视频SR系统。如图6所示，视频SR系统600可以包括编码器642、解码器644和存储和/或传输组件440。编码器642可以包括对准模块410、融合模块616和VCM编码模块412。对准模块410被配置为对来自LR视频402的多个帧进行对准，并且基于LR视频402生成已对准帧的特征表示404。LR视频402还可以由单独的编码器(未示出)进行编码，以生成已编码LR视频406。

此外，融合模块616可以对已对准帧的特征表示404进行融合，以基于已对准帧的特征表示404生成融合的特征表示628。VCM编码模块412可以对融合的特征表示628进行编码，以生成已编码融合特征表示608。已编码LR视频406和已编码融合特征表示608都可以经由存储和/或传输组件440由解码器644接收。

解码器644可以包括VCM解码模块414和重建模块418。在接收到已编码LR视频406和已编码融合特征表示608之后，VCM解码模块414可以对已编码融合特征表示608进行解码，以生成已解码融合特征表示624。已编码LR视频406也可以由解码器(未示出)进行解码，以生成已解码LR视频426。此外，重建模块418可以基于已解码融合特征表示624和已解码LR视频426生成相应的HR视频432。

图7示出了根据本公开实施例的另一个示例性视频SR系统。如图7所示，视频SR系统700可以包括编码器742、解码器744和存储和/或传输组件440。编码器742可以包括对准模块410、融合模块616和VCM编码模块412。对准模块410被配置为对LR视频402的多个帧进行对准，并且基于LR视频402生成已对准帧的特征表示404。

此外，融合模块616可以对已对准帧的特征表示404进行融合，以基于已对准帧的特征表示404生成融合的特征表示628。VCM编码模块412可以对融合的特征表示628进行编码，以生成已编码融合特征表示608。VCM编码模块412还可以对LR视频402进行编码，以生成已编码LR视频406。已编码LR视频406和已编码融合特征表示608都可以经由存储和/或传输组件440由解码器744接收。

解码器744可以包括VCM解码模块414和重建模块418。在接收到已编码LR视频406和已编码融合特征表示608之后，VCM解码模块414可以对已编码融合特征表示608进行解码，以生成已解码融合特征表示624。VCM解码模块414还可以对已编码LR视频406进行解码，以生成已解码LR视频426。此外，重建模块418可以基于已解码融合特征表示624和已解码LR视频426生成相应的HR视频432。

应注意，以上出于说明的目的描述了各种视频SR系统，在其它实施例中也可以使用其他配置。根据本公开的实施例，视频SR系统可以实施某些视频SR过程。

图8示出了根据本公开实施例的示例性视频SR过程。视频SR过程可以由上述任何一个或多个视频SR系统执行，并且可以合并到例如电子设备200中。SR过程也称为视频SR方法。

如图8所示，在该过程开始，电子设备200可以获取LR视频(步骤S802)。例如，用户可以使用智能手机或数码相机来捕获LR视频，或者具有摄像功能的数字设备(例如，门铃或安全监视器)可以捕获LR视频。在某些实施例中，LR视频也可以由电子设备经由网络从另一源接收或下载，或者可以本地存储在电子设备上。

在获取LR视频之后，电子设备200可以基于DNN生成LR视频的特征表示(步骤S804)。也就是说，电子设备200可以使用VCM标准来生成LR视频的特征表示。

特征可以指与解决计算任务相关的一条信息，该计算任务与特定应用(例如成像分析或对象检测等)有关。特征可以是图像中的具体结构，例如点、边缘或对象。特征还可以与图像序列中的运动有关，或者与根据不同图像区域之间的曲线或边界定义的形状有关，或者与这种区域的属性相关，或者与图像或图像序列的任何其他适当的特性有关。此外，特征表示可以包括表示任何一个或多个特定特征(例如，就图像数据中的特定结构而言)的信息。特征表示的实例可以被称为特征描述符或描述符。

电子设备200可以使用特征提取模块来提取LR视频(即，LR视频的帧)的特征，然后对准模块可以使用所提取的特征来对帧进行对准，并生成已对准帧的特征表示。对准模块还可以直接学习对准滤波器来对多个帧进行对准，而无需显式地提取运动特征，并生成已对准帧的特征表示。

电子设备200可以基于LR视频以及其他相关信息(例如LR视频的类型、分辨率、格式等)来提取特征，以生成已对准帧的特征表示，或者基于某个VCM标准来创建LR视频的特征描述符。LR视频的这些参数也可以被存储/传输到服务器，以用于解码处理和其他处理。

为了生成HR视频，已提取的LR视频的特征表示需要保持LR视频的分辨率。也就是说，对于LR视频中空间位置(x，y)和时间t处的每个像素，提取一组特征f(x，y，t)作为其表示。该组特征f(x，y，t)通常由DNN作为其输出特征图的响应来计算，并且VCM标准(通过神经网络骨干生成多个特征图)可用于提取这些特征表示。

具体地，例如，如图4所示，给定LR视频，对准模块410可以首先对相邻的视频帧进行对准，并计算已对准帧的特征表示。为了这个目的，对准模块410可以使用DNN，例如增强的可变形卷积网络，其应用可变形卷积来对准相邻帧的特征，或者DNN可以直接学习动态上采样滤波器而无需显式地提取局部特征。图9示出了根据本公开实施例的示例性DNN。

如图9所示，深度神经网络(DNN)900可以包括输入层904、中间层906和908(隐藏层)以及输出层910等。当DNN 900为卷积DNN时，隐藏层还可以包括卷积层。卷积层可以包括预定数量的特征图和滤波器。卷积层可以是DNN的核心构建块。该层的参数由一组可学习的滤波器(或内核)组成，滤波器(或内核)具有较小的感受野(receptive field)，但会扩展到输入体积的整个深度。在前向计算(forward pass)中，每个滤波器在输入体积的宽度和高度上卷积，计算滤波器的条目(entry)与输入之间的点积(dot product)，并生成该滤波器的2维激活图。因此，当网络在输入中的某个空间位置处检测到某种特定类型的特征时，该网络学习激活的滤波器。此外，沿着深度维度堆叠所有滤波器的激活图来形成卷积层的整个输出体积。输出体积中的每个条目也因此可以解释为神经元的输出，该神经元查看输入中的小区域，并与同一激活图中的神经元共享参数。本公开实施例也可使用其他方案。

如上所述，LR视频的特征表示可以被称为特征f(x，y，t)，其将空间和时间视为输入的等效维度，并且可以在时间和空间上执行卷积。可替代地和/或附加地，可以将两个卷积神经网络的特征融合在一起，其中一个用于空间，一个用于时间流，以生成特征表示。

输入902被提供给输入层904，并且输出912由输出层910提供。每个层可以包括一个或多个神经网络节点。神经网络层的数量仅用于说明的目的，可以使用任何数量的神经网络层。DNN的参数也可以由电子设备200获取，并且也可以被存储/传输到服务器，以用于解码处理和其他处理。

在某些实施例中，已对准帧的特征表示可以是大小为(w，h，t，n，c)的5维张量(tensor)，其中w和h是LR视频帧的宽度和高度，t是LR视频的长度，c是所生成的特征的数量。为了生成HR视频帧，将大小为n的时间邻域放置在HR视频帧周围，并且将该邻域内的LR视频帧与对应于HR视频帧的LR视频帧对准。

应注意，LR视频可以采用多种形式或格式。例如，它可以是常规视频，其每个视频帧都是颜色空间中的一个彩色图像(即，分配给每个像素的3个值)。LR视频也可以是深度视频，其视频帧是深度图像(即，分配给每个像素的1个值)。LR视频也可以是颜色-深度组合视频，其视频帧中的每个像素都提供颜色和深度(即，分配给每个像素的4个值)。

在获取已对准帧的特征表示之后，可替代地，在某些实施例中，电子设备200可以使用融合模块616(例如，图6所示的)对特征表示执行融合操作，以生成融合的特征表示。也就是说，电子设备200可以将多个视频帧的特征表示组合成新的特征表示，以包括更多的特征信息，用于稍后生成相应的HR视频。

返回图8，在生成LR视频的特征表示之后或生成融合的特征表示之后，电子设备200可以基于VCM标准对LR视频的特征表示和LR视频进行编码，以生成LR视频的已编码特征表示和已编码LR视频(步骤S806)。具体地，对LR视频的特征表示和LR视频进行编码后，生成了LR视频的已编码特征表示和已编码LR视频的比特流。

具体地，电子设备200可以使用VCM编码器对特征表示(或融合的特征表示)进行编码，以生成已编码特征表示(或已编码融合特征表示)，并且可以使用单独的视频编码器来对LR视频进行编码，以生成已编码LR视频。也就是说，VCM编码器(例如，VCM编码模块)可以使用某个VCM标准(例如高效率编解码等)仅对特征表示进行编码，以实现高压缩效率；而视频编码器可以使用例如任何适当的视频编解码标准(例如高级视频编解码(AVC))对LR视频进行编码。AVC是一种基于面向块的运动补偿整数-DCT(离散余弦变换)编解码的视频压缩标准。

在某些实施例中，电子设备200可以首先确定用于HR视频的目标应用的类型，例如机器视觉或人类视觉应用，或者其他类型的应用，例如显示、监控、分析、检测等。基于应用的类型，VCM编码器可以根据应用的类型对特征表示或融合的特征表示进行编码，例如使用不同的压缩算法或不同的压缩率等。

可替代地，电子设备200可以使用单个VCM编码器对特征表示(或融合的特征表示)进行编码，以生成已编码特征表示(或已编码融合特征表示)和已编码LR视频，而无需单独的视频编码器。由于LR视频和特征表示都被提供给VCM编码器，在一个实施例中，VCM编码器可以确定已对准帧的特征表示和相应的LR视频帧中的某些冗余信息，并且使用这些冗余信息来进一步提高编码过程中的压缩效率。

此外，LR视频的已编码特征表示(或已编码融合特征表示)和已编码LR视频可以被存储和传输以用于服务器侧处理(步骤S808)，即服务器侧对LR视频的已编码特征表示和已编码LR视频进行解码。例如，已编码特征表示和已编码LR视频可以本地存储在电子设备200上，或者存储在单独的存储器上，并且稍后传输到服务器或具有解码功能的其他设备。在某些实施例中，比特流可以直接实时地传输到服务器。

电子设备200还可以存储和/或发送关于电子设备200的具体信息，例如电子设备200的标识符、用户账户和密码信息等，和/或关于视频的具体信息，例如视频的类型、视频的描述和视频应用的详细信息，例如适合视频的应用的类型，例如，目标应用是用于机器视觉还是用于人类视觉，和/或比特流的编解码标准/过程的描述。电子设备200还可以在VCM标准下选择不同的编码方案，以针对不同目标应用编码不同LR视频和/或特征表示。

本公开实施例还提供了一种由服务器执行的基于VCM的视频SR方法，具体包括如下步骤。服务器(或具有解码功能的任何适当的设备)接收LR视频的已编码特征表示和已编码LR视频的比特流(步骤S810)，服务器可以基于VCM标准对比特流进行解码，以生成已解码LR视频和LR视频的已解码特征表示(步骤S812)。也就是说，服务器可以对LR视频的已编码特征表示和已编码LR视频进行解码，以生成已解码LR视频和LR视频的已解码特征表示。

具体地，服务器可以使用VCM解码器基于VCM标准对已对准帧的已编码特征表示进行解码，以生成已解码特征表示。服务器可以使用单独的视频解码器对已编码LR视频进行解码，以基于视频编解码标准(例如，ADC)生成已解码LR视频。在某些实施例中，当VCM编码器对特征表示和LR视频进行编码时，服务器可以使用VCM解码器对已对准帧的已编码特征表示和已编码LR视频进行解码，以生成已解码特征表示和已解码LR视频。

在生成已对准帧的已解码特征表示之后，电子设备200可以使用融合模块来处理已对准帧的已解码特征表示，以生成融合的特征表示。在某些实施例中，已对准帧的已解码特征表示是大小为(w，h，t，n，c)的5维张量，其与VCM编码器之前的已对准帧的特征表示相同。融合模块可以聚合来自不同信道、空间和时间位置的特征，从而产生新的大小为(w，h，t，n′，c′)的5维张量。例如，卷积神经网络层可以被配置为用于此计算。

在某些实施例中，当电子设备200在对特征表示进行编码之前使用融合模块对特征表示进行融合时，所接收的已编码特征表示可以是已编码融合特征表示。服务器可以使用VCM解码器对已编码融合特征表示进行解码，以生成已解码融合特征表示。

此外，服务器基于LR视频的已解码特征表示和已解码LR视频执行重建过程，以创建与LR视频的对应的HR视频(步骤S814)。在具体实施例中，服务器可以执行重建过程，以基于LR视频和融合的特征表示创建HR视频。具体地，基于融合的特征表示和已解码LR视频，重建模块为每个LR视频帧生成HR视频帧。在某些实施例中，重建模块使用一组上采样神经网络层，其中对于时间位置k处的HR视频的空间位置(x，y)中的每个像素，在空间邻域S(x，y)和时间邻域T(k)内的大小为(w，h，t，n′，c′)的5维张量中的融合的特征表示的相应特征以及LR视频帧中的相应像素被聚合(例如，通过卷积计算)，以生成分配给此像素的值。

当融合模块放置在VCM编码器之前时，融合模块对已对准帧的特征表示进行处理，以生成融合的特征表示。如前所述，已对准帧的特征表示是大小为(w，h，t，n，c)的5维张量，并且融合模块聚合来自不同信道、空间和时间位置的特征，从而产生新的大小为(w，h，t，n′，c′)的5维张量。此后，在一个实施例中，VCM编码器对融合的特征表示进行编码，以生成已编码融合特征表示。同时，LR视频也被编码。为服务器存储和/或传输已编码LR视频以及已编码融合特征表示。在解码器侧，相应的VCM解码器对已编码融合特征表示进行解码，以生成已解码融合特征表示，该已解码融合特征表示的维数与VCM编码之前的融合的特征表示的维数相同。而且，相应的LR视频也被解码，以生成已解码LR视频。

在另一实施例中，VCM编码器对融合的特征表示和LR视频进行编码，以生成已编码融合特征表示和已编码LR视频。在解码器侧，VCM解码器对已编码融合特征表示和已编码LR视频进行解码，以生成已解码融合特征表示和已解码LR视频。类似于编码过程，VCM解码器可以使用融合的特征表示和相应的LR视频帧中的冗余信息来提高压缩效率。

基于已解码融合特征表示和已解码LR视频，重建模块为每个LR视频帧生成HR视频帧。在某些实施例中，可以使用一组上采样神经网络层，其中对于时间位置k处的HR视频的空间位置(x，y)中的每个像素，空间邻域S(x，y)和时间邻域T(k)内的大小为(w，h，t，n′，c′)的5维张量中的已解码融合特征表示的相应特征以及LR视频帧中的相应像素被重建模块聚合(例如，通过卷积计算)，以生成分配给此像素的值。

在生成HR视频之后，服务器可以将HR视频呈现给相应的用户或用户应用，用于进一步处理和应用(步骤S816)。例如，服务器还可以检索或接收电子设备200上的其他具体信息，以及关于LR视频的目标应用和编解码方案的信息。基于这些具体信息，服务器可以将HR视频发送到不同的目标应用。

例如，如果目标应用是机器视觉应用，则服务器可以将HR视频发送到相应的机器视觉应用，用于图像分析和/或对象检测。图像分析和/或对象检测的结果可以进一步由相应的应用进行处理和呈现。如果目标应用是人类视觉应用，则服务器可以将HR视频发送到相应的人类视觉应用，以便可以为用户播放HR视频。本公开实施例可以使用任何适当类型的应用。

本公开的实施例还提供了一种非易失性计算机可读存储介质，用于存储计算机程序指令，当所述计算机程序指令被用于视频编码/解码的计算机执行时，使得所述计算机执行本公开实施例所述的视频SR方法。

本公开的实施例还提供了一种计算机设备，包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序指令，所述至少一条程序指令由所述一个或多个处理器加载并执行，以实现本公开实施例所述的视频SR方法。

通过使用本公开实施例的方法、装置和系统，视频SR不再仅仅是图像SR的简单扩展，而是逐帧进行图像SR。而且，视频中的时间信息也可以用于采用更复杂的方法。此外，基于DNN的视频SR方法可能大大优于传统的视频SR插值算法。

尽管通过说明书中的具体实施例描述了本公开的原理和实施方式，但是前面所述的实施例仅用于帮助理解本公开的方法及其核心思想。同时，本领域普通技术人员可以根据本公开的思想对具体的实施方式和应用范围进行修改。总之，说明书的内容不应解释为对本公开的限制。

Claims

1.一种基于机器视觉编解码VCM的视频超分辨率SR方法，其特征在于，包括：

电子设备获取低分辨率LR视频；

所述电子设备基于深度神经网络DNN生成所述LR视频的特征表示；

所述电子设备基于VCM标准对所述LR视频的特征表示和所述LR视频进行编码，以生成所述LR视频的已编码特征表示和已编码LR视频，其中所述LR视频的特征表示包含所述LR视频的空间和时间信息，用于创建与所述LR视频对应的高分辨率HR视频；

服务器接收所述LR视频的已编码特征表示和所述已编码LR视频；

所述服务器基于所述VCM标准对所述LR视频的已编码特征表示和所述已编码LR视频进行解码，以生成所述LR视频的已解码特征表示和已解码LR视频；

所述服务器基于所述LR视频的已解码特征表示和所述已解码LR视频执行重建过程，以创建与所述LR视频的对应的所述HR视频；以及

所述服务器将所述HR视频呈现给用户应用；

所述电子设备基于深度神经网络DNN生成所述LR视频的特征表示包括：

所述电子设备从所述LR视频的帧中提取运动特征，并基于所述提取的运动特征对所述LR视频的帧进行对准；或者，直接学习对准滤波器，以对所述LR视频的帧进行对准而不提取运动特征；以及

所述电子设备生成已对准帧的特征表示作为所述LR视频的特征表示；

其中，所述已对准帧的特征表示由大小为(w，h，t，n，c)的5维张量定义，其中w和h是所述LR视频的帧的宽度和高度，t是所述LR视频的时间长度，c是所生成的特征的数量，n是所述LR视频的帧的时间邻域的大小，在所述时间邻域内所述LR视频的帧对应于要生成的所述HR视频的帧；其中，将大小为n的所述时间邻域放置在要生成的所述HR视频的帧周围，并将所述时间邻域内的LR视频帧与对应于要生成的所述HR视频的帧的LR视频帧对准。

2.根据权利要求1所述的视频SR方法，其特征在于，所述服务器执行重建过程包括：

所述服务器对所述LR视频的已解码特征表示执行融合过程，以生成所述LR视频的融合特征表示；以及

所述服务器对所述LR视频的融合特征表示和所述已解码LR视频执行所述重建过程，以生成所述HR视频。

3.根据权利要求1所述的视频SR方法，其特征在于，所述电子设备基于VCM标准对所述LR视频的特征表示和所述LR视频进行编码包括：

所述电子设备对所述LR视频的特征表示执行融合过程，以生成所述LR视频的融合特征表示；以及

所述电子设备对所述LR视频的融合特征表示进行编码，以基于所述VCM标准生成所述LR视频的已编码融合特征表示。

4.根据权利要求3所述的视频SR方法，其特征在于，

所述服务器基于所述VCM标准对所述LR视频的已编码特征表示和所述已编码LR视频进行解码包括：

所述服务器对所述LR视频的已编码融合特征表示进行解码，以生成所述LR视频的已解码融合特征表示，以及

所述服务器执行重建过程包括：

所述服务器对所述LR视频的已解码融合特征表示和所述已解码LR视频执行所述重建过程，以生成所述HR视频。

5.根据权利要求1所述的视频SR方法，其特征在于，

所述电子设备基于VCM标准对所述LR视频的特征表示和所述LR视频进行编码包括：

所述电子设备使用VCM编码器基于所述VCM标准对所述LR视频的特征表示进行编码，以生成所述LR视频的已编码特征表示；以及

所述电子设备使用单独且独立的视频编码器基于视频编解码标准对所述LR视频进行编码，以生成所述已编码LR视频；

所述服务器使用VCM解码器基于所述VCM标准对所述LR视频的已编码特征表示进行解码，以生成所述LR视频的已解码特征表示；以及

所述服务器使用单独且独立的视频解码器对所述已编码LR视频进行解码，以生成所述已解码LR视频。

6.根据权利要求1所述的视频SR方法，其特征在于，

所述电子设备使用单个VCM编码器基于所述VCM标准对所述LR视频的特征表示进行编码，以生成所述LR视频的已编码特征表示，并且基于视频编解码标准对所述LR视频进行编码，以生成所述已编码LR视频；

所述服务器使用单个VCM解码器基于所述VCM标准对所述LR视频的已编码特征表示进行解码，以生成所述LR视频的已解码特征表示，并且对所述已编码LR视频进行解码，以生成所述已解码LR视频。

7.根据权利要求6所述的视频SR方法，其特征在于，进一步包括：

所述VCM编码器和所述VCM解码器确定所述LR视频的特征表示与所述LR视频之间的冗余信息，并且使用所述冗余信息执行所述编码和所述解码。

8.一种基于机器视觉编解码VCM的视频超分辨率SR装置，其特征在于，包括：

获取模块，用于获取低分辨率LR视频；

生成模块，用于基于深度神经网络DNN生成所述LR视频的特征表示；

编码模块，用于基于VCM标准对所述LR视频的特征表示和所述LR视频进行编码，以生成所述LR视频的已编码特征表示和已编码LR视频，其中所述LR视频的特征表示包含所述LR视频的空间和时间信息，用于创建与所述LR视频对应的高分辨率HR视频；

接收模块，用于接收所述LR视频的已编码特征表示和所述已编码LR视频；

解码模块，用于基于所述VCM标准对所述LR视频的已编码特征表示和所述已编码LR视频进行解码，以生成所述LR视频的已解码特征表示和已解码LR视频；

创建模块，用于基于所述LR视频的已解码特征表示和所述已解码LR视频执行重建过程，以创建与所述LR视频的对应的所述HR视频；以及

呈现模块，用于将所述HR视频呈现给用户应用；

所述生成模块用于从所述LR视频的帧中提取运动特征，并基于所述提取的运动特征对所述LR视频的帧进行对准；或者，直接学习对准滤波器，以对所述LR视频的帧进行对准而不提取运动特征；以及生成已对准帧的特征表示作为所述LR视频的特征表示；

9.一种基于机器视觉编解码VCM的视频超分辨率SR系统，其特征在于，包括电子设备，被配置为执行如权利要求1～7任一项所述的方法。

10.一种非易失性计算机可读存储介质，其特征在于，用于存储计算机程序指令，当所述计算机程序指令被用于视频编码/解码的计算机执行时，使得所述计算机执行权利要求1-7任一项所述的视频超分辨率SR方法。