CN114466192A - 图像/视频超分辨率 - Google Patents

图像/视频超分辨率 Download PDF

Info

Publication number
CN114466192A
CN114466192A CN202111315961.8A CN202111315961A CN114466192A CN 114466192 A CN114466192 A CN 114466192A CN 202111315961 A CN202111315961 A CN 202111315961A CN 114466192 A CN114466192 A CN 114466192A
Authority
CN
China
Prior art keywords
image
video
feature map
clause
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111315961.8A
Other languages
English (en)
Inventor
王萌
许继征
张莉
王诗淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Original Assignee
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd, ByteDance Inc filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of CN114466192A publication Critical patent/CN114466192A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • G06T3/4076Super resolution, i.e. output image resolution higher than sensor resolution by iteratively correcting the provisional high resolution image using the original low-resolution image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开的各实施例提供了一种用于图像/视频超分辨率的方案。提出了一种用于图像处理的方法。该方法包括:接收具有第一分辨率的第一图像和与第一图像相关联的至少一个参考图像,第一图像和至少一个参考图像与同一视频相关联;确定第一图像与至少一个参考图像之间的差异;以及基于差异、第一图像和至少一个参考图像,生成具有第二分辨率的第二图像,第二分辨率高于第一分辨率。

Description

图像/视频超分辨率
技术领域
本公开的实施例总体上涉及图像编码和解码技术,并且更具体地,涉及图像/视频超分辨率。
背景技术
超分辨率(SR)是从对应的低分辨率(LR)图像/视频中恢复高分辨率(HR)图像/视频的过程。SR已经被广泛地应用于各种计算机视觉任务,诸如安全监控、医学成像等。随着机器学习的快速发展,基于机器学习的SR算法得到了广泛的研究。关于构建HR图像/视频的典型方法是通过利用深度卷积神经网络(CNN)学习从LR到HR的非线性映射。
发明内容
本公开的实施例提出了一种用于图像/视频超分辨率的方案。
在第一方面,提出了一种用于图像处理的方法。该方法包括:接收具有第一分辨率的第一图像和与第一图像相关联的至少一个参考图像,第一图像和至少一个参考图像与同一视频相关联;确定第一图像与至少一个参考图像之间的差异;以及基于差异、第一图像和至少一个参考图像,生成具有第二分辨率的第二图像,第二分辨率高于第一分辨率。根据本公开的方法在图像处理期间考虑场景切换、局部突变或压缩失真。与常规方法相比,所提出的方法有利地实现针对自然场景视频和屏幕内容视频二者的改进的超分辨率。
在第二方面,提出了一种电子设备。该电子设备包括:处理单元;以及存储器,该存储器与处理单元耦合,并且具有存储在存储器上的指令,该指令在被处理单元执行时,使电子设备执行根据本公开的第一方面的方法。
在第三方面,提出了一种非暂态计算机可读存储介质。该非暂态计算机可读存储介质存储使处理器执行根据本公开的第一方面的方法的指令。
在第四方面,提出了一种非暂态计算机可读记录介质。该非暂态计算机可读记录介质存储通过根据本公开的第一方面的方法生成的、视频的位流,其中该方法由视频处理装置执行。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征,也无意限制本公开的范围。
附图说明
通过以下参考附图的详细描述,本公开的示例实施例的上述和其他的目的、特征和优点将变得更加明显。在本公开的示例实施例中,相同的附图标记通常指代相同的组件。
图1示出了根据本公开的一些实施例的示例视频编码系统的框图;
图2示出了图示根据本公开的一些实施例的第一示例视频编码器的框图;
图3示出了图示根据本公开的一些实施例的示例视频解码器的框图;
图4示出了增强型深度超分辨率网络(EDSR)基准网络;
图5示出了根据本公开的一些实施例的网络框架;
图6示出了根据本公开的一些实施例的网络框架;
图7示出了根据本公开的一些实施例的网络框架;
图8示出了根据本公开的一些实施例的网络框架;
图9示出了根据本公开的一些实施例的用于图像处理的方法的流程图;以及
图10示出了可以在其中实现本公开的各种实施例的电子设备的框图。
在所有附图中,相同或相似的附图标记通常指代相同或相似的元件。
具体实施方式
现在将参考一些实施例来描述本公开的原理。应当理解,描述这些实施例仅出于说明并且帮助本领域技术人员理解和实施本公开的目的,而不暗示对本公开的范围的任何限制。除了下文所述的方式之外,本文所描述的公开内容可以以各种方式实施。
在以下描述和权利要求中,除非另有定义,否则在本文中使用的所有科技术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。
本公开中提及的“一个实施例”、“实施例”、“示例实施例”等表示所描述的实施例可以包括特定的特征、结构或特性,但是并非每个实施例都必须包括特定的特征、结构或特性。此外,这些短语不一定指同一实施例。此外,当结合示例实施例描述特定的特征、结构或特性时,无论是否明确描述,认为影响与其他实施例相关的这种特征、结构或特性在本领域技术人员的知识范围内。
应当理解,尽管术语“第一”和“第二”等可以用于描述各种元素,但这些元素不应受限于这些术语。这些术语仅用于区分一个元素与另一个元素。例如,第一元素可以被称为第二元素,类似地,第二元素可以被称为第一元素,而不脱离示例实施例的范围。如本文中所使用的,术语“和/或”包括一个或多个所列术语的任何和所有组合。
本文中所使用的术语仅用于描述特定实施例的目的,并不旨在限制示例实施例。如本文中所用的,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确指示。还应理解,术语“包括”、“包含”和/或“具有”在本文中使用时,表示存在所述特征、元素和/或组件等,但不排除一个或多个其他特征、元素、组件和/或其组合的存在或添加。
示例环境
图1是图示可以利用本公开的技术的示例视频编码系统100的框图。如图所示,视频编码系统100可以包括源设备110和目的设备120。源设备110也可以称为视频编码设备,并且目的设备120也可以称为视频解码设备。在操作中,源设备110可以被配置为生成经编码的视频数据,并且目的设备120可以被配置为对由源设备110生成的经编码的视频数据进行解码。源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。
视频源112可以包括诸如视频捕获设备之类的源。视频捕获设备的示例包括但不限于从视频内容提供商接收视频数据的接口、用于生成视频数据的计算机图形系统和/或其组合。
视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码,以生成位流。位流可以包括形成视频数据的编码表示的位序列。位流可以包括编码图片和相关联的数据。编码图片是图片的编码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器和/或发送器。经编码的视频数据可以通过网络130A经由I/O接口116直接传输至目的设备120。经编码的视频数据也可以存储在存储介质/服务器130B上,以供目的设备120访问。
目的设备120可以包括I/O接口126、视频解码器124和显示设备122。I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130B获取经编码的视频数据。视频解码器124可以对经编码的视频数据进行解码。显示设备122可以向用户显示经解码的视频数据。显示设备122可以与目的设备120集成,或者可以在目的设备120的外部,该目的设备120被配置为与外部显示设备接口。
视频编码器114和视频解码器124可以根据视频压缩标准操作,诸如高效视频编码(HEVC)标准、多功能视频编码(VVC)标准和其他现有和/或将来的标准。
图2是示出根据本公开的一些实施例的视频编码器200的示例的方框图,视频编码器200可以是图1所示的系统100中的视频编码器114的示例。
视频编码器200可以被配置为实现本公开的任何或所有技术。在图2的示例中,视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各个组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在一些实施例中,视频编码器200可以包括分割单元201、预测单元202、残差生成单元207、变换单元208、量化单元209、反量化单元210、反变换单元211、重构单元212、缓冲器213和熵编码单元214,该预测单元202可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206。
在其他示例中,视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中,预测单元202可以包括块内复制(IBC)单元。IBC单元可以在IBC模式下执行预测,其中至少一个参考图片是当前视频块所位于的图片。
此外,尽管一些组件(诸如运动估计单元204和运动补偿单元205)可以被集成,但是为了解释的目的,这些组件在图2的示例中被分离地示出。
分割单元201可以将图片分割成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块大小。
模式选择单元203可以例如基于错误结果选择编码模式(帧内编码或帧间编码)中的一种编码模式,并且将所产生的帧内编码块或帧间编码块提供给残差生成单元207以生成残差块数据,并且提供给重构单元212以重构编码块以用作参考图片。在一些示例中,模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合,其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下,模式选择单元203还可以为块选择运动向量的分辨率(例如,亚像素或整数像素精度)。
为了对当前视频块执行帧间预测,运动估计单元204可以通过将来自缓冲器213的一个或多个参考帧与当前视频块进行比较来生成针对当前视频块的运动信息。运动补偿单元205可以基于运动信息和来自缓冲器213的、除了与当前视频块相关联的图片之外的图片的解码样本,来确定针对当前视频块的预测视频块。
运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作,例如,取决于当前视频块是在I条带、P条带还是B条带中。如本文中使用的,“I条带”可以指由宏块组成的图片的一部分,所有宏块均基于同一图像内的宏块。此外,如本文中使用的,在一些方面中,“P条带”和“B条带”可以指由独立于同一图像中的宏块的宏块组成的图片的部分。
在一些示例中,运动估计单元204可以对当前视频块执行单向预测,并且运动估计单元204可以搜索列表0或列表1的参考图片以寻找针对当前视频块的参考视频块。运动估计单元204然后可以生成指示包含参考视频块的列表0或列表1中的参考图片的参考索引、以及指示在当前视频块与参考视频块之间的空间位移的运动向量。运动估计单元204可以输出参考索引、预测方向指示符和运动向量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块生成当前视频块的预测视频块。
备选地,在其他示例中,运动估计单元204可以对当前视频块执行双向预测。运动估计单元204可以搜索列表0中的参考图片以寻找针对当前视频块的参考视频块,并且还可以搜索列表1中的参考图片以寻找针对当前视频块的另一参考视频块。运动估计单元204然后可以生成指示列表0和列表1中的参考图片的参考索引,列表0和列表1包含参考视频块和指示在参考视频块与当前视频块之间的空间位移的运动向量。运动估计单元204可以输出当前视频块的参考索引和运动向量以作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成针对当前视频块的预测视频块。
在一些示例中,运动估计单元204可以输出完整的运动信息集,以用于解码器的解码处理。备选地,在一些实施例中,运动估计单元204可以参考另一视频块的运动信息来发信号通知当前视频块的运动信息。例如,运动估计单元204可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。
在一个示例中,运动估计单元204可以在与当前视频块相关联的语法结构中向视频解码器300指示当前视频块具有与另一视频块相同的运动信息的值。
在另一示例中,运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动向量差(MVD)。运动向量差指示在当前视频块的运动向量与所指示的视频块的运动向量之间的差。视频解码器300可以使用所指示的视频块的运动向量以及运动向量差来确定当前视频块的运动向量。
如上所述,视频编码器200可以预测性地发出运动向量的信号。可以由视频编码器200实现的预测信令技术的两个示例包括高级运动向量预测(AMVP)和合并模式信令。
帧内预测单元206可以对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时,帧内预测单元206可以基于同一图片中其他视频块的解码样本生成针对当前视频块的预测数据。针对当前视频块的预测数据可以包括预测视频块和各种语法元素。
残差生成单元207可以通过从当前视频块中减去(例如,由减号指示)当前视频块的预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样本的不同样本部分的残差视频块。
在其他示例中,例如在跳过模式下,当前视频块可以不存在当前视频块的残差数据,并且残差生成单元207可以不执行减去操作。
变换处理单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块,来为当前视频块生成一个或多个变换系数视频块。
在变换处理单元208生成与当前视频块相关联的变换系数视频块之后,量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
反量化单元210和反变换单元211可以分别对变换系数视频块应用反量化和反变换,以从变换系数视频块重构残差视频块。重构单元212可以将经重构的残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应样本,以产生与当前视频块相关联的重构视频块,以用于存储在缓冲器213中。
在重构单元212重构视频块之后,可以执行环路滤波操作以减少视频块中的视频块伪像。
熵编码单元214可以从视频编码器200的其他功能组件接收数据。当熵编码单元214接收数据时,熵编码单元214可以执行一个或多个熵编码操作以生成熵编码数据并且输出包括该熵编码数据的位流。
图3是示出根据本公开的一些实施例的视频解码器300的示例的方框图,视频解码器300可以是图1所示系统100中的视频解码器124的示例。
视频解码器300可以被配置为执行本公开的任何或所有技术。在图3的示例中,视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各个组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在图3的示例中,视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、反量化单元304、反变换单元305以及重构单元306和缓冲器307。在一些示例中,视频解码器300可以执行通常与所描述的关于视频编码器200(图2)的编码过程相对的解码过程。
熵解码单元301可以检索经编码的位流。经编码的位流可以包括熵编码的视频数据(例如,经编码的视频数据块)。熵解码单元301可以对经熵编码的视频数据进行解码,并且运动补偿单元302可以从经熵解码的视频数据确定运动信息,运动信息包括运动向量、运动向量精度、参考图片列表索引和其他运动信息。运动补偿单元302可以例如通过执行AMVP和合并模式来确定该信息。AMVP被使用,包括基于相邻PB的数据和参考图片得出数个最可能的候选。运动信息通常包括水平和竖直运动向量位移值、一个或两个参考图片索引,并且在B条带中的预测区域的情况下,还包括哪个参考图片列表与每个索引相关联的标识。如本文所使用的,在一些方面中,“合并模式”可以指从空间或时间上相邻的块中导出运动信息。
运动补偿单元302可以产生运动补偿块,可能地基于内插滤波器来执行内插。用于以亚像素精度使用的内插滤波器的标识符可以被包括在语法元素中。
运动补偿单元302可以使用由视频编码器20在视频块编码期间使用的内插滤波器来计算用于参考块的亚整数像素的内插值。运动补偿单元302可以根据接收到的语法信息确定由视频编码器200使用的内插滤波器,并且运动补偿单元302可以使用内插滤波器来产生预测块。
运动补偿单元302可以使用至少部分语法信息来确定用于编码经编码视频序列的帧和/或条带的块的大小、描述经编码视频序列的图片的每个宏块如何被分割的分割信息、指示每个分割如何被编码的模式、针对每个帧间编码块的一个或多个参考帧(和参考帧列表)以及对编码视频序列进行解码的其他信息。如本文所使用的,在一些方面,“条带”可以指在熵编码、信号预测和残差信号重构方面可以独立于同一图片的其他条带进行解码的数据结构。条带可以是整幅图片,也可以是图片的一个区域。
帧内预测单元303可以使用例如在位流中接收的帧内预测模式,以从空间相邻的块形成预测块。反量化单元303反量化(即去量化)在位流中提供的、并且由熵解码单元301解码的量化视频块系数。反变换单元303应用反变换。
重构单元306可以例如通过将残差块与运动补偿单元202或帧内预测单元303生成的相应预测块相加来获得解码块。如果需要的话,还可以应用去块滤波器以对经解码的块进行滤波,以便去除块效应伪像。经解码的视频块随后被存储在缓冲器307中,缓冲器307为后续运动补偿/帧内预测提供参考块,并且缓冲器307还产生经解码的视频以在显示设备上呈现。
下文将详细描述本公开的一些示例性实施例。应当注意,在本文件中使用章节标题是为了便于理解,而不是将章节中公开的实施例仅限于该章节。此外,尽管参考多功能视频编码或其他特定视频编解码器描述了某些实施例,但是所公开的技术也适用于其他视频编码技术。此外,尽管一些实施例详细描述了视频编码步骤,但是应当理解,解除编码的相应步骤解码将由解码器实现。此外,术语“视频处理”包括视频编码或压缩、视频解码或解压缩以及视频代码转换,在视频处理中视频像素被从一种压缩格式表示为另一种压缩格式或以不同的压缩比特率表示。
1.摘要
本发明涉及图像/视频处理技术。具体地,涉及视频超分辨率的算法设计。这些想法可以单独地或以各种组合应用于任何图像/视频超分辨率系统或视频编码和解码过程的一部分。
2.背景
超分辨率(SR)旨在从相关的低分辨率(LR)图像/视频中恢复高分辨率(HR)图像/视频,这被认为是不适定问题。SR已经广泛应用于各种计算机视觉任务中,诸如安全监控、医学摄影等。目前,关于构建HR图像/视频的典型方法是通过利用深度卷积神经网络(CNN)学习LR到HR的非线性映射。基于CNN的SR方法明显优于常规的SR方法。特别地,神经网络可以从输入的LR图像/视频中形成一系列低级特征图,通过累积和重组特征来接近真实HR。在文献中,Dong等人(Dong,C.,Loy,C.C.,He,K.,Tang,X.:Learning a deep convolutionalnetwork for image super-resolution.In:ECCV.(2014))提出了包含三个卷积层的超分辨率卷积神经网络(SRCNN),这是首个用于图像SR的基于CNN的SR方案。此外,Kim等人(Kim,J.,Kwon Lee,J.,Mu Lee,K.:Deeply-recursive convolutional network for imagesuper-resolution.In:CVPR.(2016))探索了网络深度与SR性能之间的关系,其中网络深度增加至20,与SRCNN相比,这带来了显著的改进。Lim等人(Lim,B.,Son,S.,Kim,H.,Nah,S.,Lee,K.M.:Enhanced deep residual networks for single image super-resolution.In:CVPRW.(2017))提出了增强型深度超分辨率网络(EDSR)和多尺度深度超分辨率系统(MDSR),其中使用了修改后的残差网络(ResNet)(He,K.,Zhang,X.,Ren,S.,Sun,J.:Deep residual learning for image recognition.In:CVPR.(2016)),如图4所示,这使得对非常深和非常宽的网络进行训练成为可能。Zhang等人(Zhang Y,Li K,Li K,etal.Image super-resolution using very deep residual channel attention networks[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:286-301)建议将注意机制引入SR网络,通过该注意机制可以自适应地重新缩放特征通道,提高网络的表现能力。关于视频SR,相邻LR帧之间的时间相关性可以作为用于当前LR的SR的有用信息。更具体地,连续帧之间的反映运动和变化的光流(Jose Caballero,ChristianLedig,Andrew Aitken,Alejandro Acosta,Johannes Totz,Zehan Wang,and WenzheShi.2017.Real-time video super-resolution with spatio-temporal networks andmotion compensation.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition.4778–4787)(Longguang Wang,Yulan Guo,Zaiping Lin,XinpuDeng,and Wei An.2018.Learning for video super-resolution through HR opticalflow estimation.In Asian Conference on Computer Vision.Springer,514–529)被重复用于帧对准。这需要帧预处理,并且计算量很大。SR质量高度依赖于光流估计的准确性。在Yan Huang,Wei Wang,and Liang Wang.2015.Bidirectional recurrent con-volutional networks for multi-frame super-resolution.In Advances in NeuralInformation Processing Systems.235–243和Mehdi SM Sajjadi,RavitejaVemulapalli,and Matthew Brown.2018.Frame-recurrent video super-resolution.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition.6626–6634中使用递归神经网络提取不同帧之间的上下文信息的情况下,时间相关性也可以以固有的方式被表征。Tian等人(Yapeng Tian,Yulun Zhang,Yun Fu,andChenliang Xu TDAN.2018.Temporally deformable alignment network for videosuper-resolution.arXiv preprint arXiv:1812.02898 1,2(2018),3)提出了一种可变形的卷积模块,以实现特征级对准。Yi等人(Peng Yi,Zhongyuan Wang,Kui Jiang,JunjunJiang,and Jiayi Ma.2019.Progressive Fusion Video Super-Resolution Network viaExploiting Non-Local Spatio-Temporal Correlations.In Proceedings of the IEEEInternational Conference on Computer Vision.3106–3115)使用了一种具有非局部注意的渐进融合网络来提取连续帧的相关性。
3.问题
用于视频SR的现有方法存在以下问题:
(1)现有方法是针对自然场景视频的SR设计的,其可能无法学习屏幕内容视频的逆表示。具体而言,原始屏幕内容视频可能具有锐边、高对比度纹理和无噪声内容。相比之下,自然场景内容相对平滑,并带有附加的传感器噪声。此外,屏幕内容中对象的时间运动也可能不同于自然场景视频。自然场景视频中的运动主要由平移和仿射运动构成。屏幕内容由计算机渲染,其中绝对静态场景、缩放、旋转和场景切换可能频繁出现在帧间,这妨碍了现有SR模型的应用。
(2)现有方法采用连续的相邻帧作为输入,而不考虑场景切换或局部突变。高度多样化的内容可能会偏离模型学习过程中当前帧的表示。
(3)现有方法主要关注原始视频数据。然而,在诸如空间可缩放编码、带宽受限的传输和参考图片重采样编码之类的实际应用场景中,只有经压缩后LR视频可用。压缩失真可能会干扰SR模型的学习。
4.发明
为了解决上述问题和一些其他未提及的问题,公开了被总结如下的方法。以下详细发明应被视为用于解释一般概念的示例。这些发明不应被狭义地解读。此外,这些发明可以以任何方式被组合。
在以下描述中,术语“超分辨率(SR)”可以代表得出当前信号的经重新缩放的信号或经重构的信号的信号处理方法的任何变型。输入图像/视频包括但不限于屏幕内容和自然内容。
为了解决问题(1)、问题(2)和问题(3),公开了以下一种或多种方法:
1.直接将当前的低分辨率帧LRi的样本和相关联的参考帧LRj的样本引入SR模型中。
a)在一个示例中,参考帧可以是按显示顺序的相邻前M帧和/或相邻后N帧(即,j∈[i+M,i-N])。
b)在一个示例中,参考帧可以是从相邻前M帧和/或相邻后N帧(即,j∈[i+M,i-N])重构的、的包含压缩失真的重构帧。
c)在一个示例中,至少两个参考帧是不相邻的。
d)在一个示例中,M和N分别被设置为0和1。
e)在一个示例中,参考帧可以是在视频编码的上下文中从参考列表中收集的、当前帧的真正的参考帧。
f)在一个示例中,参考帧可以是在当前帧的压缩期间的中间结果,诸如空间域残差帧、频率域残差帧、预测帧、运动图、分割信息图、块向量信息图、调色板预测表。
2.在SR模型中使用临时推导样本值,其中推导的样本值基于当前的低分辨率帧LRi的样本和相关联的参考帧LRj
a)在一个示例中,位置(x,y)处的临时推导样本值可以被定义为f(LRi(x,y),LRj(x,y)),其中f(*)是线性函数或非线性函数。
i.在一个示例中,临时推导样本值可以被定义为:
temp(x,y)=|a·LRi(x,y)-b·LRj(x,y)+c|
ii.备选地,临时推导样本值可以被定义为:
temp(x,y)=(a·LRi(x,y)-b·LRj(x,y)+c)2
iii.在上述示例中,可以由LRj(x′,y′)替换LRj(x,y),其中(x′,y′)是(x,y)在具有等于j的索引的参考图片处的对应采样位置。
1)在一个示例中,x′!=x,y′!=y二者中的至少一者为真。
2)在一个示例中,(x′,y′)可以取决于参考图片索引或参考图片位置。
3)在一个示例中,(x′,y′)可以取决于运动估计结果,例如,通过使用光流法。
4)备选地,此外,可以由LRi(x′,y′)替换LRj(x,y),其中(x′,y′)是(x,y)在当前图片处的对应采样位置。(x′,y′)可以取决于块向量搜索结果,例如,经解码的块向量。
iv.在上述示例中,a和b是两个可以表示应用于当前低分辨率帧和参考帧的加权因子的变量。c是偏移。
b)在一个示例中,在SR模型中引入当前低分辨率帧LRi的距离di,该距离di基于临时推导样本值和/或参考帧的数目。
i.在一个示例中,di可以取决于视频单元(例如,图片)内的所有坐标的临时推导样本值。
ii.备选地,di可以取决于视频单元(例如,图片)内的代表性的坐标的临时推导样本值,而非所有坐标的临时推导样本值。
c)在一个示例中,根据临时推导样本值的线性函数来推导距离di
i.在一个示例中,通过所有临时推导样本值的平均值来计算距离di
ii.在一个示例中,通过T个最小的临时推导样本值的平均值来计算距离di
d)在一个示例中,根据临时推导样本值的非线性函数(例如,指数函数)来推导距离di
i.在一个示例中,可以使用以下公式定义距离di
Figure BDA0003343677380000151
其中M和N分别是所输入的当前帧的相邻前向帧和相邻后向帧的数目。j是不应当等于i的参考索引。p、s和f是正数。(x,y)是样本坐标。w和h分别表示水平方向和竖直方向中的样本数目。
ii.在一个示例中,可以使用以下公式定义距离di
Figure BDA0003343677380000152
其中M和N分别是所输入的当前帧的相邻前向帧和相邻后向帧的数目。j是不应当等于i的参考索引。p和f是正数。(x,y)是样本坐标。
iii.在一个示例中,可以使用以下公式定义距离di
Figure BDA0003343677380000153
iv.在一个示例中,可以使用以下公式定义距离di
Figure BDA0003343677380000154
v.在一个示例中,可以使用以下公式推导距离di
Figure BDA0003343677380000161
vi.在一个示例中,可以使用以下公式推导距离di
Figure BDA0003343677380000162
e)在一个示例中,当前低分辨率帧LRi和参考帧LRj可以是没有压缩污染的原始数据。
i.在一个示例中,三色通道(例如YUV、RGB)可以用于推导temp(x,y)和/或di
ii.备选地,当前低分辨率帧LRi和相邻参考帧LRj可以采用单个颜色通道以用于推导temp(x,y)和/或di
iii.备选地,可以通过与三个通道相关联的temp(x,y)的平均值推导temp(x,y)。
iv.备选地,可以通过与三个通道相关联的temp(x,y)的加权平均值推导temp(x,y)。
v.在一个示例中,LRi和/或LRj的样本值可以在用于推导temp(x,y)之前首先根据位深度被归一化。
f)在上述示例中,变量M和N分别是所输入的当前帧的相邻前向帧和相邻后向帧的数目。j是不应当等于i的参考索引。p、s和f是正数。a和b是两个可以表示应用于当前低分辨率帧和参考帧的加权因子的变量。c是偏移。w和h分别表示水平方向和竖直方向中的样本数目
i.在一个示例中,N等于1。
ii.在一个示例中,M等于0。
iii.在一个示例中,f等于1。
iv.在一个示例中,a和/或b等于1。
v.在一个示例中,c等于0。
vi.在一个例子中,p等于2。
vii.在一个示例中,M或N在[1,F]的范围内,其中F是整数值。f等于
Figure BDA0003343677380000171
viii.在一个示例中,s等于
Figure BDA0003343677380000172
3.距离di可以直接与LRi和/或LRj的特征图连接。
a)备选地,距离di可以由一个或多个卷积层处理,生成距离特征图。距离特征图可以直接与LRi和/或LRj的特征图连接。
i.在一个示例中,距离di的特征图由一个或多个卷积层生成。
ii.在一个示例中,距离di的特征图由残差卷积网络(residual convolutionalnetwork,ResNet)生成。
iii.在一个示例中,距离di的特征图由残差通道注意网络(residual channelattention network,RCAN)生成。
iv.在一个示例中,距离di的特征图由残差致密网络(residual dense network,RDN)生成。
v.在一个示例中,距离di的特征图由递归神经网络(recurrent neural network,RNN)生成。
vi.在一个示例中,距离di的特征图由深度反投影网络(deep back-projectionnetwork,DBPN)生成。
b)在上述示例中,LRi和/或LRj的特征图由一个或多个卷积层生成。
i.备选地,LRi和/或LRj的特征图由不同的卷积层单独生成。
ii.在一个示例中,LRi和/或LRj的特征图由残差卷积网络(ResNet)生成。
iii.在一个示例中,LRi和/或LRj的特征图由残差通道注意网络(RCAN)生成。
iv.在一个示例中,LRi和/或LRj的特征图由残差致密网络(RDN)生成。
v.在一个示例中,LRi和/或LRj的特征图由递归神经网络(RNN)生成。
vi.在一个示例中,LRi和/或LRj的特征图由深度反投影网络(DBPN)生成。
4.提出了一种多阶段SR方案,其中一个阶段中的一个SR图像的输出可以由另一阶段进一步细化。
a)在一个示例中,第一训练阶段和第二训练阶段可以利用不同的输入。
i.在一个示例中,第二阶段的输入可以是第一阶段中使用的输入的一部分。
ii.在一个示例中,第二阶段的输入可以利用第一阶段的输出。
1)在一个示例中,当前图像的高分辨率可以用作第二阶段的输入。
b)在一个示例中,提出了一种自适应两阶段训练方案,以增强对高分辨率图像/视频的恢复。
1)在一个示例中,以默认方式处理第一训练阶段,生成临时的
Figure BDA0003343677380000181
Figure BDA0003343677380000182
其中S(*)是重新采样函数,并且θ1表示模型参数集。
2)在一个示例中,第二训练阶段仅吸收来自LRj的、与LRi中的对应图像/块相似的图像/块(记作LRk)作为输入,得到
Figure BDA0003343677380000183
Figure BDA0003343677380000184
其中LRk是从第一遍中使用的训练数据中选择的训练数据。HR′i表示相关联的高分辨率基准。
1.在一个示例中,两个图像/块的相似性被定义为绝对差异之和。
2.在一个示例中,两个图像/块的相似性被定义为绝对差异的平均值。
3.在一个示例中,两个图像/块的相似性被定义为平方差之和。
4.在一个示例中,利用结构相似性指数度量(SSIM),例如Sssim(LRk,LRi),来评估两个图像/块的相似性。
5.在一个示例中,利用多尺度结构相似性指数度量(MS-SSIM),例如Sms-ssim(LRk,LRi),来评估两个图像/块的相似性。
6.在一个示例中,利用锐度相似性来评估两个图像/块的相似性,
Figure BDA0003343677380000191
其中c2是小数,以避免分母为零。在一个示例中,E(X)可以如下计算:
E(X)=|X·h1|+|X·h0|,
其中h0和h1是给定滤波器组的锐度/边缘滤波器的两个最主要方向。
i.在一个示例中,滤波器组可以是索贝尔(sobel)滤波器。
ii.在一个示例中,滤波器组可以是坎尼(canny)滤波器。
7.在一个示例中,利用锐度相似性和结构相似性的加权和来评估两个图像/块的相似性。
8.在上述示例中,可以利用三个颜色通道或单个颜色通道来执行相似性判断。
3)在一个示例中,第二训练阶段仅吸收来自LRj的、与LRi中的对应图像/块相似的图像/块作为输入,得到
Figure BDA0003343677380000192
Figure BDA0003343677380000193
其中LR′i、LR′j是从LRi和LRj选择的训练数据(例如,在被选择的坐标处的样本)。HR′i表示相关联的高分辨率基准。
1.在一个示例中,两个图像/块的相似性被定义为绝对差异之和。
2.在一个示例中,两个图像/块的相似性被定义为绝对差异的平均值。
3.在一个示例中,两个图像/块的相似性被定义为平方差之和。
4.在一个示例中,利用结构相似性指数度量(SSIM),例如Sssim(LRk,LRi),来评估两个图像/块的相似性。
5.在一个示例中,利用多尺度结构相似性指数度量(MS-SSIM),例如Sms-ssim(LRk,LRi),来评估两个图像/块的相似性。
6.在一个示例中,利用锐度相似性来评估两个图像/块的相似性,
Figure BDA0003343677380000201
其中c2是小数,以避免分母为零。在一个示例中,E(X)可以如下计算:
E(X)=|X·h1|+|X·h0|,
其中h0和h1是给定滤波器组的锐度/边缘滤波器的两个最主要方向。
i.在一个示例中,滤波器组可以是sobel滤波器。
ii.在一个示例中,滤波器组可以是canny滤波器。
7.在一个示例中,利用锐度相似性和结构相似性的加权和来评估两个图像/块的相似性。
8.在上述示例中,可以利用三个颜色通道或单个颜色通道来执行相似性判断。
4)备选地,此外,第二阶段的帧i的损失函数可以描述为:
Figure BDA0003343677380000211
5.所提出的方法可以作为后处理被应用,其中在应用SR之后的第一细化图像不用于预测/编码/解码LR中的第二图像。
6.所提出的方法可以作为环路处理(in-loop-processing)被应用,其中对于LR中的第一图像中的视频单元,可以使用SR方法进行细化,其中经细化的视频单元被用于对第一图像和/或其他图像中的后续视频单元进行编码。
i.在一个示例中,视频单元可以是CB/PB/TB/CU/PU/TU/CTB/CTU/覆盖多个CTU的区域/条带(slice)/子图片/片(tile)/图片。
7.可以在位流中通过信号指示是否应用所提出的方法和/或如何应用所提出的方法。
8.是否应用所提出的方法和/或如何应用所提出的方法可以取决于颜色分量和/或解码信息。
a)在一个示例中,所提出的方法可以应用于某个颜色分量(例如,仅亮度),或所有颜色分量。
b)在一个示例中,对于每个颜色分量,上述方法可以被应用于推导针对给定颜色分量的对应SR结果。
c)在一个示例中,不同颜色分量可以使用不同的用于SR的方法。
5.实施例
超分辨率处理的示例如下所示。当前低分辨率帧和相邻低分辨率帧之间的距离被引入,以用于指导对高分辨率帧的恢复。输入可以是具有三个通道(例如,RGB、YUV)的彩色的图片/帧/视频,或者是单通道图片/帧/视频。
5.1实施例#1
在本实施例中,仅引入一个相邻的低分辨率帧LRi-1作为参考。输入是具有三个颜色通道(RGB)的彩色视频。LRi-1和LRi之间的关于每个单独通道的距离可以以如下方式得出:
Figure BDA0003343677380000221
Figure BDA0003343677380000222
Figure BDA0003343677380000223
Figure BDA0003343677380000224
其中(x,y)表示当前图片/帧内的样本坐标。
图5中示出了网络的框架。特别地,第一卷积层被设计用于特征提取,其中核尺寸为3×3,产生LRi的64个特征图、LRi-1的64个特征图以及di的64个特征图。随后,特征图被连接,并被馈入残差神经网络,以用于高分辨率表示的学习。L1损失被用作损失函数。
5.2实施例#2
在本实施例中,仅引入一个相邻的低分辨率帧LRi-1作为参考。输入是具有三个颜色通道(RGB)的彩色视频。LRi-1和LRi之间的关于每个单独通道的距离可以以如下方式得出:
Figure BDA0003343677380000225
Figure BDA0003343677380000226
Figure BDA0003343677380000227
Figure BDA0003343677380000228
其中(x,y)表示当前图片/帧内的样本坐标。
图6示出了网络的框架。特别地,第一卷积层被设计用于特征提取,其中核尺寸为3×3,产生LRi的64个特征图、LRi-1的64个特征图以及di的64个特征图。随后,LRi的特征图和LRi-1的特征图被连接,并被馈入残差神经网络,以用于高分辨率表示的学习。距离的特征图在上采样(Upsample)之前与残差网络的输出连接。均方差(MSE)被用作损失函数。
5.3实施例#3
在本实施例中,仅引入一个相邻的低分辨率帧LRi-1作为参考。
输入是具有三个颜色通道(RGB)的彩色视频。LRi-1和LRi之间的关于每个单独通道的距离可以以如下方式得出:
Figure BDA0003343677380000231
Figure BDA0003343677380000232
Figure BDA0003343677380000233
Figure BDA0003343677380000234
其中(x,y)表示当前图片/帧内的样本坐标。
网络的架构如图7所示。特别地,第一卷积层被设计用于特征提取,其中核尺寸为3×3,产生LRi的64个特征图、LRi-1的64个特征图以及di的64个特征图。随后,LRi的特征图和LRi-1的特征图、以及di(3通道)被连接,被馈入残差神经网络,以用于高分辨率表示的学习。L1损失被用作损失函数。
5.4实施例#4
在本实施例中,仅引入一个相邻的低分辨率帧LRi-1作为参考。
输入是具有三个颜色通道(RGB)的彩色视频。LRi-1和LRi之间的关于每个单独通道的距离可以以如下方式得出:
Figure BDA0003343677380000235
Figure BDA0003343677380000236
Figure BDA0003343677380000237
Figure BDA0003343677380000238
其中(x,y)表示当前图片/帧内的样本坐标。
网络的架构如图8所示。特别地,第一卷积层被设计用于特征提取,其中核尺寸为3×3,产生LRi的64个特征图、LRi-1的64个特征图。随后,LRi的特征图和LRi-1的特征图被连接,被馈入残差神经网络。距离图di由残差注意块(residual attention block,ResBlock)处理。L2损失被用作损失函数。
如上文所讨论的,图5示出了实施例#1的框架;图6示出了实施例#2的框架;图7示出了实施例#3的框架;并且图8示出了实施例4的框架。
图9示出了根据本公开的一些实施例的用于图像处理的方法900的流程图。方法900包括:接收902具有第一分辨率的第一图像和与第一图像相关联的至少一个参考图像,第一图像和至少一个参考图像与同一视频相关联;确定904第一图像与至少一个参考图像之间的差异;以及基于差异、第一图像和至少一个参考图像,生成906具有第二分辨率的第二图像,第二分辨率高于第一分辨率。根据本公开的方法900可以在图像处理期间考虑场景切换、局部突变或压缩失真。与常规方法相比,所提出的方法900有利地实现针对自然场景视频和屏幕内容视频二者的改进的超分辨率。
在一些实施例中,第一图像可以是编码块(CB)。在一些实施例中,第一图像可以是预测块(PB)。在一些实施例中,第一图像可以是转换块(TB)。在一些实施例中,第一图像可以是编码单元(CU)。在一些实施例中,第一图像可以是预测单元(PU)。在一些实施例中,第一图像可以是转换单元(TU)。在一些实施例中,第一图像可以是编码树块(CTB)。在一些实施例中,第一图像可以是编码树单元(CTU)。在一些实施例中,第一图像可以是覆盖多个CTU的区域。在一些实施例中,第一图像可以是条带。在一些实施例中,第一图像可以是子图片。在一些实施例中,第一图像可以是片。在一些实施例中,第一图像可以是图片。应当注意,在此描述的第一图像的可能实现仅是示例性的,因此不应被解释为以任何方式限制本公开。
在一些实施例中,至少一个参考图像可以包括以下至少一项:按显示顺序紧接在第一图像之前的第一组前向图像,或按显示顺序紧接在第一图像之后的第二组后向图像。
在一些实施例中,至少一个参考图像可以包括从以下至少一项重构的、具有压缩失真的重构图像:按显示顺序紧接在第一图像之前的第一组前向图像,或按显示顺序紧接在第一图像之后的第二组后向图像。
在一些实施例中,至少一个参考图像可以包括从以下至少一项重构的、具有压缩失真的重构图像:按解码顺序紧接在第一图像之前的第一组前向图像,或按解码顺序紧接在第一图像之后的第二组后向图像。
在一些实施例中,至少一个参考图像可以包括多个参考图像,并且多个参考图像中的至少两个参考图像彼此不相邻。
在一些实施例中,第一组前向图像中的前向图像的数目可以等于0,并且第二组后向图像中的后向图像的数目可以等于1。
在一些实施例中,第一图像可以包括视频中的第一帧,并且至少一个参考图像可以包括用作用于编码第一帧的参考的参考帧。
在一些实施例中,至少一个参考图像可以包括在第一图像的压缩期间生成的中间结果。
在一些实施例中,中间结果可以是空间域残差帧。在一些实施例中,中间结果可以是频域残差帧。在一些实施例中,中间结果可以是预测帧。在一些实施例中,中间结果可以是运动图。在一些实施例中,中间结果可以是分割信息图。在一些实施例中,中间结果可以是块向量信息图。在一些实施例中,中间结果可以是调色板预测表。
在一些实施例中,可以基于至少一个临时推导样本值来确定差异,并且其中可以基于第一图像的在第一位置处的第一样本值和参考图像的在第二位置处的第二样本值来推导出临时推导样本值。借助这种差异,所提出的方法能够检测场景切换和局部突变,从而改进针对高度多样化内容的超分辨率。
在一些实施例中,第二位置可以与第一位置相同,并且临时推导样本值可以通过下式计算:
temp(x,y)=|a·LRi(x,y)-b·LRj(x,y)+c|,
其中,temp(x,y)表示在第一位置(x,y)处的临时推导样本值,|·|表示绝对值函数,LRi(x,y)表示第一图像的在第一位置(x,y)处的第一样本值,LRj(x,y)表示参考图像的在第一位置(x,y)处的第二样本值,a和b分别表示应用于第一图像和参考图像的加权因子,并且c表示偏移。借助于这样的临时推导样本值,所提出的方法可以有利地检测两个图像之间在同一位置处的差异,这使得能够检测场景切换和局部突变,从而改进针对高度多样化内容的超分辨率。
在一些实施例中,第二位置可以与第一位置相同,并且临时推导样本值可以通过下式计算:
temp(x,y)=(a·LRi(x,y)-b·LRj(x,y)+c)2
其中,temp(x,y)表示在第一位置(x,y)处的临时推导样本值,LRi(x,y)表示第一图像的在第一位置(x,y)处的第一样本值,LRj(x,y)表示参考图像的在第一位置(x,y)处的第二样本值,a和b分别表示应用于第一图像和参考图像的加权因子,并且c表示偏移。借助于这样的临时推导样本值,所提出的方法可以有利地检测两个图像之间在同一位置处的差异,这使得能够检测场景切换和局部突变,从而改进针对高度多样化内容的超分辨率。
在一些实施例中,所提出的方法可以应用于帧间预测。在一些实施例中,第一图像可以包括视频中的第一帧,至少一个参考图像可以包括视频中的参考帧,并且第二位置可以是第一位置的用于编码第一图像的参考帧处的对应采样位置。在一些实施例中,第二位置可以不同于第一位置。在一些实施例中,第二位置可以取决于参考帧的索引或参考帧的位置。在一些实施例中,第二位置可以取决于运动估计的结果。在一些实施例中,运动估计可以基于光流法。
在一些实施例中,所提出的方法可以应用于帧内预测。在一些实施例中,第一图像可以包括视频中的帧中的第一视频单元,至少一个参考图像可以包括该帧中的参考视频单元,并且第二位置是第一位置的用于编码第一视频单元的该帧处的对应采样位置。在一些实施例中,第二位置可以取决于块向量搜索的结果。在一些实施例中,块向量搜索的结果可以包括经解码的块向量。
在一些实施例中,可以基于至少一个参考图像的数目来确定差异。在一些实施例中,可以基于至少一个参考图像的数目和至少一个临时推导样本值来确定差异。在一些实施例中,差异可以取决于第一图像内的所有坐标的临时推导样本值。在一些实施例中,差异可以取决于第一图像内的代表性坐标的临时推导样本值。
在一些实施例中,可以基于临时推导样本值的线性函数来确定差异。在一些实施例中,可以通过对至少部分的临时推导样本值求平均来确定差异。在一些实施例中,可以通过对所有临时推导样本值求平均来确定差异。在一些实施例中,可以通过对T个最小临时推导样本值求平均来确定差异,其中T表示正整数。
在一些实施例中,可以基于临时推导样本值的非线性函数来确定差异。在一些实施例中,可以基于临时推导样本值的指数函数来确定差异。
在一些实施例中,差异可以通过下式计算:
Figure BDA0003343677380000271
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p、s和f分别表示正数;w和h分别表示水平方向和竖直方向中的样本数目;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
在一些实施例中,差异可以通过下式计算:
Figure BDA0003343677380000272
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p和f分别表示正数;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
在一些实施例中,差异可以通过下式计算:
Figure BDA0003343677380000281
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p、s和f分别表示正数;w和h分别表示水平方向和竖直方向中的样本数目;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
在一些实施例中,差异可以通过下式计算:
Figure BDA0003343677380000282
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p和f分别表示正数;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
在一些实施例中,差异可以通过下式计算:
Figure BDA0003343677380000283
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p和f分别表示正数;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
在一些实施例中,差异可以通过下式计算:
Figure BDA0003343677380000291
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p、s和f分别表示正数;w和h分别表示水平方向和竖直方向中的样本数目;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
在一些实施例中,N等于1。在一些实施例中,M等于0。在一些实施例中,f等于1。在一些实施例中,a或b中的至少一项等于1。在一些实施例中,c等于0。在一些实施例中,p等于2。在一些实施例中,f等于
Figure BDA0003343677380000292
并且M或N在1至F的范围内,其中F表示整数。在一些实施例中,s等于
Figure BDA0003343677380000293
在一些实施例中,第一图像和至少一个参考图像可以是没有压缩失真的原始数据。在一些实施例中,可以通过使用三个颜色通道来确定差异。在一些实施例中,三个颜色通道可以是YUV或RGB。在一些实施例中,可以通过使用单个颜色通道来确定差异。在一些实施例中,可以基于与三个颜色通道相关联的临时推导样本值的平均值来推导出临时推导样本值。在一些实施例中,可以基于与三个颜色通道相关联的临时推导样本值的加权平均来推导出临时推导样本值。在一些实施例中,第一图像的样本值和至少一个参考图像的样本值在被用于推导临时推导样本值之前根据位深度被归一化。
在一些实施例中,生成906第二图像可以包括:将差异直接与第一特征图和至少一个参考特征图连接,以获得连接后的特征图,第一特征图与第一图像相关联,并且至少一个参考特征图与至少一个参考图像相关联;以及使用机器学习模型基于连接后的特征图来生成第二图像。
在一些实施例中,生成906第二图像可以包括:将差异特征图与第一特征图和至少一个参考特征图连接,以获得连接后的特征图,差异特征图与差异相关联,第一特征图与第一图像相关联,并且至少一个参考特征图与至少一个参考图像相关联;以及使用机器学习模型基于连接后的特征图来生成第二图像。
在一些实施例中,由一个卷积层(Conv)基于差异生成差异特征图。在一些实施例中,由多个卷积层基于差异生成差异特征图。在一些实施例中,由残差卷积网络(ResNet)基于差异生成差异特征图。在一些实施例中,由残差通道注意网络(RCAN)基于差异生成差异特征图。在一些实施例中,由残差致密网络(RDN)基于差异生成差异特征图。在一些实施例中,由递归神经网络(RNN)基于差异生成差异特征图。在一些实施例中,由深度反投影网络(DBPN)基于差异生成差异特征图。
在一些实施例中,由一个卷积层基于第一图像和至少一个参考图像生成第一特征图和至少一个参考特征图。在一些实施例中,由多个卷积层基于第一图像和至少一个参考图像生成第一特征图和至少一个参考特征图。在一些实施例中,由残差卷积网络(ResNet)基于第一图像和至少一个参考图像生成第一特征图和至少一个参考特征图。在一些实施例中,由残差通道注意网络(RCAN)基于第一图像和至少一个参考图像生成第一特征图和至少一个参考特征图。在一些实施例中,由残差致密网络(RDN)基于第一图像和至少一个参考图像生成第一特征图和至少一个参考特征图。在一些实施例中,由递归神经网络(RNN)基于第一图像和至少一个参考图像生成第一特征图和至少一个参考特征图。在一些实施例中,由深度反投影网络(DBPN)基于第一图像和至少一个参考图像生成第一特征图和至少一个参考特征图。在一些实施例中,由不同的卷积层分别基于第一图像和至少一个参考图像生成第一特征图和至少一个参考特征图。
在一些实施例中,用于机器学习的网络可以包括卷积层(Conv)。在一些实施例中,用于机器学习的网络可以包括残差注意块(ResBlock)。在一些实施例中,用于机器学习的网络可以包括上采样(Upsample)。在一些实施例中,用于机器学习的网络可以包括池化层(Pooling)。在一些实施例中,用于机器学习的网络可以包括修正线性单元(ReLU)。在一些实施例中,用于机器学习的网络可以包括S型函数,又称为Sigmoid函数。
在一些实施例中,生成906第二图像可以包括:使用机器学习模型生成第二图像,该机器学习模型被利用多阶段方法训练,其中第一训练阶段的输出由第二训练阶段细化。借助于该配置,根据本公开的方法能够生成具有改进的质量的SR图像。
在一些实施例中,第一训练阶段的输入不同于第二训练阶段的输入。在一些实施例中,第二训练阶段的输入可以包括第一训练阶段的输出。在一些实施例中,第二训练阶段的输入可以包括第一图像的高分辨率版本。
在一些实施例中,生成906第二图像可以包括:使用机器学习模型生成第二图像,该机器学习模型被利用多阶段方法训练,其中在第二训练阶段中所使用的损失函数基于第一训练阶段的输出而被确定。借助于该配置,根据本公开的方法能够生成具有改进的质量的SR图像。
在一些实施例中,损失函数可以通过下式计算:
Figure BDA0003343677380000311
其中Li表示与具有索引i的第一图像相关联的损失函数;|·|表示绝对值函数;
Figure BDA0003343677380000312
表示第一训练阶段的输出;HRi表示在第一训练阶段中使用的高分辨率基准;
Figure BDA0003343677380000313
表示第二训练阶段的输出;HR′i表示在第二训练阶段中使用的高分辨率基准;A和B表示正数;p和q大于或等于1;并且C表示偏移。
在一些实施例中,基于第一组参考图像生成第一训练阶段的输出,并且基于第二组参考图像生成第二训练阶段的输出,其中基于参考图像和第一图像之间的相似性从第一组参考图像中选择第二组参考图像。
在一些实施例中,参考图像和第一图像之间的相似性可以基于参考图像和第一图像之间的绝对差异之和而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于绝对差异的平均值而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于参考图像和第一图像之间的平方差之和而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于结构相似性指数度量(SSIM)而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于多尺度结构相似性指数度量(MS-SSIM)而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于锐度相似性而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于锐度相似性和结构相似性的加权和而被确定。应当注意,在此描述的、用于定义相似性的度量仅仅是说明性的,因此不应被解释为以任何方式限制本公开。
在一些实施例中,锐度相似性可以通过下式计算:
Figure BDA0003343677380000321
其中Ssharp(LRk,LRi)表示参考图像LRk和第一图像LRi之间的锐度相似性;c2表示正的小数;并且E(X)可以通过下式计算:
E(X)=|X·h1|+|X·h0|,
其中h0和h1表示给定滤波器组的锐度滤波器或边缘滤波器的两个最主要方向。在一些实施例中,滤波器组可以包括sobel滤波器。在一些实施例中,滤波器组可以包括canny滤波器。应当注意,E(X)表示主锐度强度,并且可以以任何其他合适的方式计算。
在一些实施例中,参考图像和第一图像之间的相似性可以通过使用三个颜色通道或单个颜色通道来确定。
在一些实施例中,基于第一组参考图像生成第一训练阶段的输出,并且基于第二组参考图像生成第二训练阶段的输出,其中基于参考图像和第一图像之间的相似性从第三组参考图像中选择第二组参考图像,第三组参考图像不同于第一组参考图像
在一些实施例中,参考图像和第一图像之间的相似性可以基于参考图像和第一图像之间的绝对差异之和而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于绝对差异的平均值而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于参考图像和第一图像之间的平方差之和而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于结构相似性指数度量(SSIM)而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于多尺度结构相似性指数度量(MS-SSIM)而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于锐度相似性而被确定。在一些实施例中,参考图像和第一图像之间的相似性可以基于锐度相似性和结构相似性的加权和而被确定。应当注意,在此描述的、用于定义相似性的度量仅仅是说明性的,因此不应被解释为以任何方式限制本公开。
在一些实施例中,锐度相似性可以通过下式计算:
Figure BDA0003343677380000331
其中Ssharp(LRk,LRi)表示参考图像LRk和第一图像LRi之间的锐度相似性;c2表示正的小数;并且E(X)可以通过下式计算:
E(X)=|X·h1|+|X·h0|,
其中h0和h1表示给定滤波器组的锐度滤波器或边缘滤波器的两个最主要方向。在一些实施例中,滤波器组可以包括sobel滤波器。在一些实施例中,滤波器组可以包括canny滤波器。应当注意,E(X)表示主锐度强度,并且可以以任何其他合适的方式计算。
在一些实施例中,参考图像和第一图像之间的相似性可以通过使用三个颜色通道或单个颜色通道来确定。
在一些实施例中,具有第一分辨率的第三图像的预测、编码和解码可以独立于第二图像。
在一些实施例中,所提出的方法900可以还包括:通过使用第二图像,编码具有第一分辨率的第三图像。举例来说,第二图像可以用作对第三图像进行编码的参考图像。
在一些实施例中,接收902第一图像和至少一个参考图像可以包括:从位流中解码标志;以及响应于该标志指示第一值,接收第一图像和至少一个参考图像。
在一些实施例中,第一图像可以包括一种颜色分量。在一些实施例中,颜色分量是亮度分量。在一些实施例中,颜色分量是色度分量。
在一些实施例中,第一图像可以包括第一颜色分量和不同于第一颜色分量的第二颜色分量,第二图像可以包括三个颜色分量,并且生成906第二图像可以包括:基于第一图像的第一颜色分量生成第一中间结果;基于第一图像的第二颜色分量生成第二中间结果;基于第一中间结果和第二中间结果生成第二图像。在一些实施例中,第一中间结果和第二中间结果通过使用不同的超分辨率方法生成。
本公开的实施方式可以根据以下条款进行描述,这些条款的特征可以通过任何合理的方式被组合。
条款1.一种用于图像处理的方法,包括:
接收具有第一分辨率的第一图像和与第一图像相关联的至少一个参考图像,第一图像和至少一个参考图像与同一视频相关联;
确定第一图像和至少一个参考图像之间的差异;以及
基于差异、第一图像和至少一个参考图像,生成具有第二分辨率的第二图像,第二分辨率高于第一分辨率。
条款2.根据条款1的方法,其中至少一个参考图像包括以下至少一项:
按显示顺序紧接在第一图像之前的第一组前向图像,或
按显示顺序紧接在第一图像之后的第二组后向图像。
条款3.根据条款1的方法,其中至少一个参考图像包括从以下至少一项重构的、具有压缩失真的重构图像:
按显示顺序紧接在第一图像之前的第一组前向图像,或
按显示顺序紧接在第一图像之后的第二组后向图像。
条款4.根据条款1的方法,其中至少一个参考图像包括从以下至少一项重构的、具有压缩失真的重构图像:
按解码顺序紧接在第一图像之前的第一组前向图像,或
按解码顺序紧接在第一图像之后的第二组后向图像。
条款5.根据条款1的方法,其中至少一个参考图像包括多个参考图像,并且多个参考图像中的至少两个参考图像彼此不相邻。
条款6.根据条款2至4中任一项的方法,其中第一组前向图像中的前向图像的数目等于0,并且第二组后向图像中的后向图像的数目等于1。
条款7.根据条款1的方法,其中第一图像包括视频中的第一帧,并且至少一个参考图像包括用作用于编码第一帧的参考的参考帧。
条款8.根据条款1的方法,其中至少一个参考图像包括在第一图像的压缩期间生成的中间结果。
条款9.根据条款8的方法,其中中间结果是空间域残差帧、频率域残差帧、预测帧、运动图、分割信息图、块向量信息图或调色板预测表中的一项。
条款10.根据条款1的方法,其中差异基于至少一个临时推导样本值而被确定,并且其中临时推导样本值基于第一图像的在第一位置处的第一样本值和参考图像的在第二位置处的第二样本值而被推导。
条款11.根据条款10的方法,其中第二位置与第一位置相同,并且临时推导样本值通过下式计算:
temp(x,y)=|a·LRi(x,y)-b·LRj(x,y)+c|,
其中,temp(x,y)表示在第一位置(x,y)处的临时推导样本值,|·|表示绝对值函数,LRi(x,y)表示第一图像的在第一位置(x,y)处的第一样本值,LRj(x,y)表示参考图像的在第一位置(x,y)处的第二样本值,a和b分别表示应用于第一图像和参考图像的加权因子,并且c表示偏移。
条款12.根据条款10的方法,其中第二位置与第一位置相同,并且临时推导样本值通过下式计算:
temp(x,y)=(a·LRi(x,y)-b·LRj(x,y)+c)2
其中,temp(x,y)表示在第一位置(x,y)处的临时推导样本值,LRi(x,y)表示第一图像的在第一位置(x,y)处的第一样本值,LRj(x,y)表示参考图像的在第一位置(x,y)处的第二样本值,a和b分别表示应用于第一图像和参考图像的加权因子,并且c表示偏移。
条款13.根据条款10的方法,其中第一图像包括视频中的第一帧,至少一个参考图像包括视频中的参考帧,并且第二位置是第一位置的用于编码第一图像的参考帧处的对应采样位置。
条款14.根据条款13的方法,其中第二位置不同于第一位置。
条款15.根据条款13的方法,其中第二位置取决于参考帧的索引或参考帧的位置。
条款16.根据条款13的方法,其中第二位置取决于运动估计的结果。
条款17.根据条款16的方法,其中运动估计基于光流法。
条款18.根据条款10的方法,其中第一图像包括视频中的帧中的第一视频单元,至少一个参考图像包括帧中的参考视频单元,并且第二位置是第一位置的用于编码第一视频单元的该帧处的对应采样位置。
条款19.根据条款18的方法,其中第二位置取决于块向量搜索的结果。
条款20.根据条款19的方法,其中块向量搜索的结果包括经解码的块向量。
条款21.根据条款1的方法,其中基于至少一个参考图像的数目确定差异。
条款22.根据条款10的方法,其中基于至少一个参考图像的数目和至少一个临时推导样本值来确定差异。
条款23.根据条款10的方法,其中差异取决于第一图像内的所有坐标的临时推导样本值。
条款24.根据条款10的方法,其中差异取决于第一图像内的代表性坐标的临时推导样本值。
条款25.根据条款10的方法,其中基于临时推导样本值的线性函数来确定差异。
条款26.根据条款25的方法,其中通过对至少部分的临时推导样本值求平均来确定差异。
条款27.根据条款25的方法,其中通过对T个最小临时推导样本值求平均来确定差异,其中T表示正整数。
条款28.根据条款10的方法,其中基于临时推导样本值的非线性函数来确定差异。
条款29.根据条款10的方法,其中基于临时推导样本值的指数函数来确定差异。
条款30.根据条款28的方法,其中差异通过下式计算:
Figure BDA0003343677380000371
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p、s和f分别表示正数;w和h分别表示水平方向和竖直方向中的样本数目;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
条款31.根据条款28的方法,其中差异通过下式计算:
Figure BDA0003343677380000372
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p和f分别表示正数;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
条款32.根据条款28的方法,其中差异通过下式计算:
Figure BDA0003343677380000381
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p、s和f分别表示正数;w和h分别表示水平方向和竖直方向中的样本数目;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
条款33.根据条款28的方法,其中差异通过下式计算:
Figure BDA0003343677380000382
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p和f分别表示正数;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
条款34.根据条款28的方法,其中差异通过下式计算:
Figure BDA0003343677380000383
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p和f分别表示正数;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
条款35.根据条款28的方法,其中差异通过下式计算:
Figure BDA0003343677380000391
其中i表示第一图像的索引;di表示与具有索引i的第一图像相关联的差异;M表示按显示顺序或按解码顺序紧接在第一图像之前的参考图像的数目;N表示按显示顺序或按解码顺序紧接在第一图像之后的参考图像的数目;j表示参考索引,并且不等于i;p、s和f分别表示正数;w和h分别表示水平方向和竖直方向中的样本数目;并且temp(x,y)表示第一位置(x,y)处的临时推导样本值。
条款36.根据条款10的方法,其中第一图像和至少一个参考图像是没有压缩失真的原始数据。
条款37.根据条款36的方法,其中通过使用三个颜色通道确定差异。
条款38.根据条款36的方法,其中通过使用单个颜色通道确定差异。
条款39.根据条款36的方法,其中基于与三个颜色通道相关联的临时推导样本值的平均值来推导出临时推导样本值。
条款40.根据条款36的方法,其中基于与三个颜色通道相关联的临时推导样本值的加权平均来推导出临时推导样本值。
条款41.根据条款36的方法,其中第一图像的样本值和至少一个参考图像的样本值在被用于推导临时推导样本值之前根据位深度被归一化。
条款42.根据条款30至35中任一项的方法,其中,
N等于1;
M等于0;
f等于1;
a或b中的至少一项等于1;
c等于0;
p等于2;
f等于
Figure BDA0003343677380000401
并且M或N在1至F的范围内,其中F表示整数;或者
s等于
Figure BDA0003343677380000402
条款43.根据条款1的方法,其中生成第二图像包括:
将差异直接与第一特征图和至少一个参考特征图连接,以获得连接后的特征图,第一特征图与第一图像相关联,并且至少一个参考特征图与至少一个参考图像相关联;以及
使用机器学习模型基于连接后的特征图来生成第二图像。
条款44.根据条款1的方法,其中生成第二图像包括:
将差异特征图与第一特征图和至少一个参考特征图连接,以获得连接后的特征图,差异特征图与差异相关联,第一特征图与第一图像相关联,并且至少一个参考特征图与至少一个参考图像相关联;以及
使用机器学习模型基于连接后的特征图来生成第二图像。
条款45.根据条款44的方法,其中差异特征图由以下一项基于差异生成:
一个卷积层;
多个卷积层;
残差卷积网络(ResNet);
残差通道注意网络(RCAN);
残差致密网络(RDN);
递归神经网络(RNN);或者
深度反投影网络(DBPN)。
条款46.根据条款43或44的方法,其中第一特征图和至少一个参考特征图由以下一项基于第一图像和至少一个参考图像生成:
一个卷积层;
多个卷积层;
残差卷积网络(ResNet);
残差通道注意网络(RCAN);
残差致密网络(RDN);
递归神经网络(RNN);或者
深度反投影网络(DBPN)。
条款47.根据条款43或44的方法,其中第一特征图和至少一个参考特征图由不同的卷积层分别基于第一图像和至少一个参考图像生成。
条款48.根据条款1的方法,其中生成第二图像包括:
使用机器学习模型生成第二图像,机器学习模型被利用多阶段方法训练,其中第一训练阶段的输出由第二训练阶段细化。
条款49.根据条款48的方法,其中第一训练阶段的输入不同于第二训练阶段的输入。
条款50.根据条款49的方法,其中第二训练阶段的输入包括第一训练阶段的输出。
条款51.根据条款50的方法,其中第二训练阶段的输入包括第一图像的高分辨率版本。
条款52.根据条款1的方法,其中生成第二图像包括:
使用机器学习模型生成第二图像,机器学习模型被利用多阶段方法训练,其中在第二训练阶段中所使用的损失函数基于第一训练阶段的输出而被确定。
条款53.根据条款52的方法,其中损失函数通过下式计算:
Figure BDA0003343677380000411
其中Li表示与具有索引i的第一图像相关联的损失函数;|·|表示绝对值函数;
Figure BDA0003343677380000412
表示第一训练阶段的输出;HRi表示在第一训练阶段中使用的高分辨率基准;
Figure BDA0003343677380000413
表示第二训练阶段的输出;HR′i表示在第二训练阶段中使用的高分辨率基准;A和B表示正数;p和q大于或等于1;并且C表示偏移。
条款54.根据条款53的方法,其中基于第一组参考图像生成第一训练阶段的输出,并且基于第二组参考图像生成第二训练阶段的输出,其中基于参考图像和第一图像之间的相似性从第一组参考图像中选择第二组参考图像。
条款55.根据条款54的方法,其中参考图像和第一图像之间的相似性基于以下一项而被确定:
参考图像和第一图像之间的绝对差异之和;
绝对差异的平均值;
参考图像和第一图像之间的平方差之和;
结构相似性指数度量(SSIM);
多尺度结构相似性指数度量(MS-SSIM);
锐度相似性;或者
锐度相似性和结构相似性的加权和。
条款56.根据条款55的方法,其中锐度相似性通过下式计算:
Figure BDA0003343677380000421
其中Ssharp(LRk,LRi)表示参考图像LRk和第一图像LRi之间的锐度相似性;c2表示正的小数;并且E(X)通过下式计算:
E(X)=|X·h1|+|X·h0|,
其中h0和h1表示给定滤波器组的锐度滤波器或边缘滤波器的两个最主要方向。
条款57.根据条款56的方法,其中滤波器组包括sobel滤波器,或者其中滤波器组包括canny滤波器。
条款58.根据条款54的方法,其中参考图像和第一图像之间的相似性通过使用三个颜色通道或单个颜色通道而被确定。
条款59.根据条款53的方法,其中基于第一组参考图像生成第一训练阶段的输出,并且基于第二组参考图像生成第二训练阶段的输出,其中基于参考图像和第一图像之间的相似性从第三组参考图像中选择第二组参考图像,第三组参考图像不同于第一组参考图像。
条款60.根据条款59的方法,其中参考图像和第一图像之间的相似性基于以下一项而被确定:
参考图像和第一图像之间的绝对差异之和;
绝对差异的平均值;
参考图像和第一图像之间的平方差之和;
结构相似性指数度量(SSIM);
多尺度结构相似性指数度量(MS-SSIM);
锐度相似性;或者
锐度相似性和结构相似性的加权和。
条款61.根据条款60的方法,其中锐度相似性通过下式计算:
Figure BDA0003343677380000431
其中Ssharp(LRk,LRi)表示参考图像LRk和第一图像LRi之间的锐度相似性;c2表示正的小数;并且E(X)通过下式计算:
E(X)=|X·h1|+|X·h0|,
其中h0和h1表示给定滤波器组的锐度滤波器或边缘滤波器的两个最主要方向。
条款62.根据条款61的方法,其中滤波器组包括sobel滤波器,或者其中滤波器组包括canny滤波器。
条款63.根据条款59的方法,其中参考图像和第一图像之间的相似性通过使用三个颜色通道或单个颜色通道而被确定。
条款64.根据条款1的方法,其中具有第一分辨率的第三图像的预测、编码和解码独立于第二图像。
条款65.根据条款1的方法,还包括:
通过使用第二图像,编码具有第一分辨率的第三图像。
条款66.根据条款1的方法,其中第一图像是以下一项:
编码块(CB),
预测块(PB),
转换块(TB),
编码单元(CU),
预测单元(PU),
转换单元(TU),
编码树块(CTB),
编码树单元(CTU),
覆盖多个CTU的区域,
条带,
子图片,
片,或
图片。
条款67.根据条款1的方法,其中接收第一图像和至少一个参考图像包括:
从位流中解码标志;以及
响应于标志指示第一值,接收第一图像和至少一个参考图像。
条款68.根据条款1的方法,其中第一图像包括一个颜色分量。
条款69.根据条款68的方法,其中颜色分量是亮度分量或色度分量。
条款70.根据条款1的方法,其中第一图像包括第一颜色分量和不同于第一颜色分量的第二颜色分量,第二图像包括三个颜色分量,并且生成第二图像包括:
基于第一图像的第一颜色分量生成第一中间结果;
基于第一图像的第二颜色分量生成第二中间结果;
基于第一中间结果和第二中间结果生成第二图像。
条款71.根据条款70的方法,其中通过使用不同的超分辨率方法来生成第一中间结果和第二中间结果。
条款72.一种电子设备,包括:
处理单元;和
存储器,与处理单元耦合,并且具有存储在存储器上的指令,指令在被处理单元执行时,使电子设备执行根据条款1至71中任一项的方法。
条款73.一种存储指令的非暂态计算机可读存储介质,指令使处理器执行根据条款1至71中任一项的方法。
条款74.一种存储视频的位流的非暂态计算机可读记录介质,视频的位流通过根据条款1至71中任一项的方法而被生成,其中该方法由视频处理设备执行。
示例设备
图10示出了可以在其中实现本公开的各种实施例的计算设备1000的框图。计算设备1000可以被实现为源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300),或可以被包括在源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300)中。
应当理解的是,图10中示出的计算设备1000仅为了说明的目的,而不是以任何方式暗示对本公开实施例的功能和范围的任何限制。
如图10所示,计算设备1000包括通用计算设备1000。计算设备1000可以至少包括一个或多个处理器或处理单元1010、存储器1020、存储单元1030、一个或多个通信单元1040、一个或多个输入设备1050以及一个或多个输出设备1060。
在一些实施例中,计算设备1000可以被实现为具有计算能力的任何用户终端或服务器终端。服务器终端可以是由服务提供商提供的服务器、大型计算设备等。用户终端例如可以是任何类型的移动终端、固定终端或便携式终端,包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任何组合,并且包括这些设备的附件和外围设备或其任何组合。可以设想的是,计算设备1000可以支持到用户的任何类型的接口(诸如“可穿戴”电路装置等)。
处理单元1010可以是物理处理器或虚拟处理器,并且可以基于存储在存储器1020中的程序实现各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以便改善计算设备1000的并行处理能力。处理单元1010也可以被称为中央处理单元(CPU)、微处理器、控制器或微控制器。
计算设备1000通常包括各种计算机存储介质。这样的介质可以是由计算设备1000可访问的任何介质,包括但不限于易失性介质和非易失性介质、或可拆卸介质和不可拆卸介质。存储器1020可以是易失性存储器(例如,寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(诸如只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存)或其任何组合。存储单元1030可以是任何可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如存储器、闪存驱动器、磁盘或其他可以被用于存储信息和/或数据并且可以在计算设备1000中被访问的介质。
计算设备1000还可以包括附加的可拆卸/不可拆卸存储介质、易失性/非易失性存储介质。尽管在图10中未示出,但是可以提供用于从可拆卸的非易失性磁盘读取和/或写入可拆卸的非易失性磁盘的磁盘驱动器,以及用于从可拆卸的非易失性光盘读取和/或写入可拆卸的非易失性光盘的光盘驱动器。在这种情况下,每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。
通信单元1040经由通信介质与另一计算设备通信。另外,计算设备1000中的组件的功能可以由可以经由通信连接进行通信的单个计算集群或多个计算机器来实现。因此,计算设备1000可以使用与一个或多个其他服务器、联网个人计算机(PC)或其他通用网络节点的逻辑连接来在联网环境中运行。
输入设备1050可以是各种输入设备中的一种或多种输入设备,诸如鼠标、键盘、轨迹球、语音输入设备等。输出设备1060可以是各种输出设备中的一种或多种输出设备,诸如显示器、扬声器、打印机等。借助于通信单元1040,计算设备1000还可以与一个或多个外部设备(未示出)通信,外部设备诸如是存储设备和显示设备,计算设备1000还可以与一个或多个使用户能够与计算设备1000交互的设备通信,或任何使计算设备1000能够与一个或多个其他计算设备通信的设备(例如网卡、调制解调器等)通信,如果需要的话。这种通信可以经由输入/输出(I/O)接口(未示出)进行。
在一些实施例中,计算设备1000的一些或所有组件也可以被布置在云计算架构中,而不是被集成在单个设备中。在云计算架构中,组件可以被远程提供并且共同工作,以实现本公开中描述的功能。在一些实施例中,云计算提供计算、软件、数据访问和存储服务,这将不要求最终用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实施例中,云计算使用合适的协议经由广域网(例如互联网)提供服务。例如,云计算提供商通过广域网提供应用程序,可以通过网络浏览器或任何其他计算组件访问这些应用程序。云计算架构的软件或组件以及对应的数据可以存储在远程服务器上。云计算环境中的计算资源可以被合并或分布在远程数据中心的位置。云计算基础设施可以通过共享数据中心提供服务,尽管它们表现为作为用户的单一接入点。因此,云计算架构可与被用于从远程位置的服务提供商处提供本文所述的组件和功能。备选地,它们可以由常规服务器提供,或者直接或以其他方式安装在客户端设备上。
在本公开的实施例中,计算设备1000可以被用于实现视频编码/解码。存储器1020可以包括具有一个或多个程序指令的一个或多个视频编码模块1025。这些模块能够由处理单元1010访问和执行,以执行本文描述的各种实施例的功能。
在执行视频编码的示例实施例中,输入设备1050可以接收视频数据作为待编码的输入1070。视频数据可以由例如视频编码模块1025处理,以生成经编码的位流。经编码的位流可以经由输出设备1060作为输出1080提供。
在执行视频解码的示例实施例中,输入设备1050可以接收经编码的位流作为输入1070。经编码的位流可以由例如视频编码模块1025处理,以生成经解码的视频数据。经解码的视频数据可以经由输出设备1060作为输出1080提供。
虽然已经参考本公开的优选实施例具体示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求限定的本申请的精神和范围的情况下,可以在形式和细节上进行各种改变。这些变化旨在由本申请的范围所涵盖。因此,本申请的实施例的前述描述不旨在是限制性的。

Claims (20)

1.一种用于图像处理的方法,包括:
接收具有第一分辨率的第一图像和与所述第一图像相关联的至少一个参考图像,所述第一图像和所述至少一个参考图像与同一视频相关联;
确定所述第一图像和所述至少一个参考图像之间的差异;以及
基于所述差异、所述第一图像和所述至少一个参考图像,生成具有第二分辨率的第二图像,所述第二分辨率高于所述第一分辨率。
2.根据权利要求1所述的方法,其中所述至少一个参考图像包括在所述第一图像的压缩期间生成的中间结果。
3.根据权利要求1所述的方法,其中所述差异基于至少一个临时推导样本值而被确定,并且其中所述临时推导样本值基于所述第一图像的在第一位置处的第一样本值和所述参考图像的在第二位置处的第二样本值而被推导。
4.根据权利要求3所述的方法,其中所述第一图像包括所述视频中的第一帧,所述至少一个参考图像包括所述视频中的参考帧,并且所述第二位置是所述第一位置在所述参考帧处的对应采样位置,所述参考帧用于编码所述第一图像。
5.根据权利要求3所述的方法,其中所述差异通过对至少部分的所述临时推导样本值求平均而被确定。
6.根据权利要求3所述的方法,其中所述差异基于所述临时推导样本值的非线性函数而被确定。
7.根据权利要求1至6中任一项所述的方法,其中生成所述第二图像包括:
将所述差异直接与第一特征图和至少一个参考特征图连接,以获得连接后的特征图,所述第一特征图与所述第一图像相关联,并且所述至少一个参考特征图与所述至少一个参考图像相关联;以及
使用机器学习模型基于所述连接后的特征图来生成所述第二图像。
8.根据权利要求1至6中任一项所述的方法,其中生成所述第二图像包括:
将差异特征图与第一特征图和至少一个参考特征图连接,以获得连接后的特征图,所述差异特征图与所述差异相关联,所述第一特征图与所述第一图像相关联,并且所述至少一个参考特征图与所述至少一个参考图像相关联;以及
使用机器学习模型基于所述连接后的特征图来生成第二图像。
9.根据权利要求1至6中任一项所述的方法,其中生成所述第二图像包括:
使用机器学习模型生成所述第二图像,所述机器学习模型被利用多阶段方法训练,其中第一训练阶段的输出由第二训练阶段细化。
10.根据权利要求1至6中任一项所述的方法,其中生成所述第二图像包括:
使用机器学习模型生成所述第二图像,所述机器学习模型被利用多阶段方法训练,其中在第二训练阶段中所使用的损失函数基于第一训练阶段的输出而被确定。
11.根据权利要求10所述的方法,其中所述损失函数通过下式计算:
Figure FDA0003343677370000021
其中Li表示与具有索引i的所述第一图像相关联的所述损失函数;|·|表示绝对值函数;
Figure FDA0003343677370000022
表示所述第一训练阶段的输出;HRi表示在所述第一训练阶段中使用的高分辨率基准;
Figure FDA0003343677370000023
表示所述第二训练阶段的输出;HR′i表示在所述第二训练阶段中使用的高分辨率基准;A和B表示正数;p和q大于或等于1;并且C表示偏移。
12.根据权利要求11所述的方法,其中基于第一组参考图像生成所述第一训练阶段的输出,并且基于第二组参考图像生成所述第二训练阶段的输出,其中基于所述参考图像和所述第一图像之间的相似性从所述第一组参考图像中选择所述第二组参考图像。
13.根据权利要求11所述的方法,其中基于第一组参考图像生成所述第一训练阶段的输出,并且基于第二组参考图像生成所述第二训练阶段的输出,其中基于所述参考图像和所述第一图像之间的相似性从第三组参考图像中选择所述第二组参考图像,所述第三组参考图像不同于所述第一组参考图像。
14.根据权利要求1至6中任一项所述的方法,其中具有所述第一分辨率的第三图像的预测、编码和解码独立于所述第二图像。
15.根据权利要求1至6中任一项所述的方法,还包括:
通过使用所述第二图像,编码具有所述第一分辨率的第三图像。
16.根据权利要求1至6中任一项所述的方法,其中接收所述第一图像和所述至少一个参考图像包括:
从位流中解码标志;以及
响应于所述标志指示第一值,接收所述第一图像和所述至少一个参考图像。
17.根据权利要求1至6中任一项所述的方法,其中所述第一图像包括一个颜色分量。
18.根据权利要求1至6中任一项所述的方法,其中所述第一图像包括第一颜色分量和不同于所述第一颜色分量的第二颜色分量,所述第二图像包括三个颜色分量,并且生成所述第二图像包括:
基于所述第一图像的第一颜色分量生成第一中间结果;
基于所述第一图像的第二颜色分量生成第二中间结果;
基于所述第一中间结果和所述第二中间结果生成所述第二图像。
19.一种电子设备,包括:
处理单元;以及
存储器,与所述处理单元耦合,并且具有存储在所述存储器上的指令,所述指令在被所述处理单元执行时,使所述电子设备执行根据权利要求1至18中任一项所述的方法。
20.一种存储指令的非暂态计算机可读存储介质,所述指令使处理器执行根据权利要求1至18中任一项所述的方法。
CN202111315961.8A 2020-11-09 2021-11-08 图像/视频超分辨率 Pending CN114466192A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020127585 2020-11-09
CNPCT/CN2020/127585 2020-11-09

Publications (1)

Publication Number Publication Date
CN114466192A true CN114466192A (zh) 2022-05-10

Family

ID=81406617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111315961.8A Pending CN114466192A (zh) 2020-11-09 2021-11-08 图像/视频超分辨率

Country Status (2)

Country Link
US (1) US20220148131A1 (zh)
CN (1) CN114466192A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11647153B1 (en) * 2021-12-31 2023-05-09 Dell Products L.P. Computer-implemented method, device, and computer program product

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023132765A1 (en) * 2022-01-04 2023-07-13 Telefonaktiebolaget Lm Ericsson (Publ) Filtering for image encoding and decoding
WO2024077570A1 (en) * 2022-10-13 2024-04-18 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Reference picture resampling (rpr) based super-resolution with wavelet decomposition

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100205009B1 (ko) * 1996-04-17 1999-06-15 윤종용 비디오신호 변환장치 및 그 장치를 구비한 표시장치
KR101756841B1 (ko) * 2011-06-07 2017-07-11 삼성전자주식회사 블록 기반 영상의 해상도 변환 방법 및 장치
US8811774B1 (en) * 2012-01-19 2014-08-19 Pixelworks, Inc. Super resolution using an interpretive scaler
US10204428B2 (en) * 2017-02-02 2019-02-12 Muhannad Salem S. ALMUTIRY Systems and method for reconstructing 3D radio frequency tomographic images
US20200162789A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Method And Apparatus Of Collaborative Video Processing Through Learned Resolution Scaling
US11263726B2 (en) * 2019-05-16 2022-03-01 Here Global B.V. Method, apparatus, and system for task driven approaches to super resolution
US20230052774A1 (en) * 2019-12-05 2023-02-16 Electronics And Telecommunications Research Institute Method, apparatus, and recording medium for region-based differential image encoding/decoding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11647153B1 (en) * 2021-12-31 2023-05-09 Dell Products L.P. Computer-implemented method, device, and computer program product

Also Published As

Publication number Publication date
US20220148131A1 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
CN114009040B (zh) 编码器、解码器及对应方法
US20240098298A1 (en) Segmentation-based parameterized motion models
CN114466192A (zh) 图像/视频超分辨率
CN113615173A (zh) 对仿射译码块进行光流预测修正的方法及装置
CN113473134B (zh) 子块融合候选的单独融合列表和帧内和帧间预测技术协调方法、装置和存储介质
CN113383550A (zh) 光流修正的提前终止
CN117426094A (zh) 用于视频处理的方法、设备和介质
CN117356097A (zh) 用于视频处理的方法、设备和介质
CN116962681A (zh) 用于指示条带的图像分割信息的解码器及对应方法
CN113796071A (zh) 编码器、解码器及用于ibc融合列表的相应方法
WO2023198120A1 (en) Method, apparatus, and medium for video processing
WO2022206973A1 (en) Method, device, and medium for video processing
WO2023160717A1 (en) Method, apparatus, and medium for video processing
WO2023226951A1 (en) Method, apparatus, and medium for video processing
WO2022257954A1 (en) Method, device, and medium for video processing
WO2023179676A1 (en) Method, apparatus, and medium for video processing
WO2024083250A1 (en) Method, apparatus, and medium for video processing
WO2024061136A1 (en) Method, apparatus, and medium for video processing
WO2022257953A1 (en) Method, device, and medium for video processing
CN117678223A (zh) 视频处理的方法、装置和介质
WO2024086568A1 (en) Method, apparatus, and medium for video processing
CN117941344A (zh) 用于视频处理的方法、装置和介质
WO2023056449A1 (en) Method, device, and medium for video processing
CN117581538A (zh) 视频处理的方法、设备和介质
CN117337566A (zh) 用于视频处理的方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination