CN115375539A - 图像分辨率增强、多帧图像超分辨率系统和方法 - Google Patents
图像分辨率增强、多帧图像超分辨率系统和方法 Download PDFInfo
- Publication number
- CN115375539A CN115375539A CN202210856797.XA CN202210856797A CN115375539A CN 115375539 A CN115375539 A CN 115375539A CN 202210856797 A CN202210856797 A CN 202210856797A CN 115375539 A CN115375539 A CN 115375539A
- Authority
- CN
- China
- Prior art keywords
- image
- generate
- frame
- aligned
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000013136 deep learning model Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims description 18
- 230000003287 optical effect Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000008901 benefit Effects 0.000 abstract description 10
- 230000026676 system process Effects 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 12
- 230000000007 visual effect Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000002146 bilateral effect Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G06T5/70—
-
- G06T5/73—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/32—Determination of transform parameters for the alignment of images, i.e. image registration using correlation-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
- G06T7/337—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Abstract
本发明公开了一种图像分辨率增强系统和方法、多帧图像超分辨率系统和方法。图像分辨率增强系统利用深度学习模型和用于图像分辨率增强的传统模型,减少了计算资源的使用。具体地,本发明的帧对齐模块对齐多帧图像,并识别对齐帧中与参考帧的像素相似的相似像素以生成对齐图像,然后,系统内配置的处理模块(包括第一处理器和第二处理器)通过使用多个深度学习模型和用于分辨率增强的传统模型处理对齐图像的Y通道和UV通道。合并模块合并第一处理器的第一输出和第二处理器的第二输出,生成结合了两种模型的优点的增强图像。
Description
技术领域
本发明涉及图像分辨率增强系统。具体地,本发明涉及整合了深度学习模型和用于图像分辨率增强的传统模型的图像分辨率增强系统和方法、多帧图像超分辨率系统和方法,以及计算机可读存储介质。
背景技术
深度学习的最新进展使得深度学习模型在图像超分辨率方面取得了很好的表现。然而,由于其计算成本高、需要的内存存储量大,无法轻易部署在诸如智能手机等资源受限的设备上。此外,在实际应用中,去噪和去模糊需要与超分辨率同时进行。随着模型尺寸的减小,性能会下降,因此关于轻量化超分辨率模型的公开研究成果有限。
归属于三星电子有限公司的美国专利申请US20150363922A1涉及一种用于提供超分辨率图像的设备和方法。该方法包括:捕获多帧图像,从多个帧中确定参考帧,迭代地确定多个帧中的每个帧相对于参考帧的偏移量,直到实现统一缩放,并确定用于在参考帧的像素之间插入的像素值。然而,该应用仅使用传统的分辨率增强模型,并没有使用深度学习方法来增强图像分辨率。
归属于魔法小马技术(Magic Pony Technology,MPT)有限公司的另一项专利EP3493149A1涉及基于从低质量视觉数据中提取的特征子集来增强视觉数据。尽管该发明在该发明的一些实施例中使用了深度学习方法,但它未能结合传统的图像增强模型和深度学习方法的优点。仅使用深度学习方法来增强图像的分辨率可能会导致计算成本增加,并且可能会增加总体的处理时间。
Zhang的一篇题为《深度学习方法在实时图像超分辨率中的应用》的研究论文进一步提到了使用深度学习模型来提高图像分辨率。该研究论文提出了通过使用卷积神经网络(Convolutional Neural Network,CNN)和生成式对抗网络(Generative AdversarialNetwork,GAN)预测低分辨率图像中丢失的高频细节,从而提高深度学习方法在实时图像超分辨率中的利用率的方法。然而,所描述的技术未能结合传统图像增强方法的优点。
因此,需要一种可以克服上述发明的缺点的方法和系统。
显然,目前现有技术中已开发了许多方法和系统,这些方法和系统适用于各种目的。另外,即使这些发明可能适用于其所述的特定目的,但是,可能不适用于本发明的如前所述的目的。
发明内容
随着时间的推移,通过互联网等数据网络传输的视觉数据量急剧增长,消费者对高分辨率、高质量、高保真视觉数据内容,例如高清和超高清分辨率的图像和视频等的需求不断增加。因此,在满足这种不断增长的消费者需求方面存在着巨大的挑战,而且高性能图像压缩是高效利用现有的网络基础设施和容量所必需的。
本发明的主要目的是提出一种多帧图像超分辨率系统,该系统整合了深度学习模型和提高图像分辨率的传统模型。深度学习的最新进展使得深度学习模型在图像超分辨率方面取得了很好的表现。然而,由于其计算成本高、需要的内存存储量大,无法轻易部署在智能手机或平板电脑等资源受限的设备上。因此,本发明提出了一种将传统的超分辨率方法与轻量化模型相结合的系统,可以在使用较少的计算资源的同时仍然获得很好的效果。
本发明涉及多个步骤以提高图像的分辨率。由于若干原因,本发明提出使用多帧图像代替单个帧(即单帧图像)来实现超分辨率。考虑多个帧(即多帧图像)的原因之一是,当在不同的时间甚至稍微不同的位置采集帧时,所有帧包含的组合信息会比任何单个帧的信息都多。
因此,通过将多个帧包含的信息融合到高分辨率图像中,可以显示更多的原始细节,而仅使用一帧无法实现。另一个需要考虑的因素是计算复杂度。在单图像超分辨率中,由于信息量有限,深度学习模型需要生成额外的虚假细节。为了使细节更真实,模型需要有较大的感受野,这会导致模型更复杂。
本发明的另一个目的是在使用深度学习模型和用于图像增强的传统模型处理图像之前引入由帧对齐模块执行的帧对齐技术。帧对齐模块采用传统模型来对齐图像的不同帧。使用传统的对齐方法是由于其计算复杂度较低。
对齐的主要步骤是在每一帧中找到相似的像素。使用这些像素,计算所有帧与参考帧之间的关系。表示相似性的结构包括但不限于诸如单应矩阵、光流场和块匹配等。由于计算复杂度和精度之间存在权衡,每种方法都有各自的优缺点。
传统和深度学习方法各有利弊。因此,图像的不同部分的处理方法不同,以便得到两者最佳的组合。分辨率增强系统中集成的第一处理器和第二处理器负责处理图像的Y通道和UV通道。Y通道包含大量高频信息,因此需要更好的增强方法来确保最终图像的视觉质量。Y通道的处理分为两个分支。第一分支包括轻量化深度学习模型,该模型经过训练可以对给定帧进行超分辨率、去噪和去模糊处理。
另一方面,传统模型在处理低频分量的区域时,计算成本相对较低,有更稳定的性能。因此,在第二分支中,通过计算掩模或权重来确定主要具有低频信息和局部运动的区域,以便利用传统的超分辨率方法进行增强。由于UV通道主要由低频信息组成,因此可以使用计算复杂度较低的传统模型(例如以高分辨率的Y通道为导向的双边或导向上采样或者简单的双三次插值)来提高图像分辨率。
利用在对齐阶段计算的关于像素相似度的信息,对UV通道进行合并和去噪。根据所需的结果,可能的方法包括仅使用Y通道的信息、仅使用UV通道的信息或两者的插值。简而言之,每个像素的最终UV值是在输入帧中找到的相似像素的平均值。
最后,将高分辨率的Y图像和UV图像连接起来以形成最终输出。该系统利用Y通道和UV通道之间的频率水平差异,在增强后者时使用更简单的处理方法。对于Y通道的增强,有两个独立的处理分支,如前所述,一个使用传统模型,另一个使用深度学习模型。本发明的另一个目的是提供允许并行计算的系统框架,可以利用不同的硬件,例如中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和数字信号处理器(Digital Signal Processor,DSP)来加速处理。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,使得本发明的其他目的和方面变得更加清楚。
为了实现上述和相关目的,本发明可以以附图所示的形式实施,但请注意,附图仅是说明性的,可以在所附权利要求的范围内对图示和描述的具体结构进行改变。
尽管以上通过各种示例性实施例和实施方式描述了本发明,但应当理解,在一个或多个单独实施例中描述的各种特征、方面和功能的适用范围不限于以上的具体实施例,而是可以单独或以各种组合方式应用于本发明的一个或多个其他实施例,无论这些实施例是否被描述或这些特征是否被呈现为所描述的实施方式的一部分。因此,本发明的广度和范围不应受到任何上述示例性实施例的限制。
在某些情况下,存在诸如“一个或多个”、“至少”、“但不限于”或其他类似短语的扩展词,不应被理解为,在不存在此类扩展词的情况下,就意指更窄范围的情况。
附图说明
下面将结合附图对权利要求进行描述,使得本发明的目的和特征更加清楚。应该理解,这些附图仅描绘了本发明的典型实施例,不应视对本发明其范围的限制。以下将使用附图结合附加的特性和细节来描述和解释本发明。
图1A示出了本发明提供的一种组合了多个传统模型与深度学习模型的图像分辨率增强系统。
图1B示出了本发明提供的一种轻量化多帧分辨率增强系统。
图2示出了本发明提供的一种系统的帧对齐模块。
图3A示出了本发明提供的一种系统的处理模块。
图3B示出了本发明提供的一种Y通道中传统模型和深度学习模型的输出的合并操作。
图4A示出了本发明提供的一种图像分辨率增强方法。
图4B示出了本发明提供的一种轻量化多帧超分辨率图像的生成方法。
具体实施方式
显示技术的发展使得能够在显示硬件上显示的分辨率有了显著的提高,例如在电视、计算机显示器和视频投影仪上。例如,能够显示“高清”内容的电视屏幕已被消费者广泛使用。最近,能够显示超高清或“超高清”分辨率内容(通常分辨率超过3840×2160像素)的电视屏幕开始变得越来越普遍。
随着时间的推移,手机和平板电脑等屏幕越来越大、分辨率越来越高的移动设备正在被生产和使用。此外,以高清分辨率输出的现有视频内容的分辨率已经大大低于最新的面向消费者的显示器所能显示的分辨率,例如超高清分辨率。为了提供足够沉浸式的虚拟现实(Virtual Reality,VR)体验,即使对于较小的屏幕尺寸,显示技术也需要足够高的分辨率。
图1A示出了一种结合多个传统模型与深度学习模型的图像分辨率增强系统。图像分辨率增强系统100整合了传统的超分辨率方法和轻量化深度学习模型,从而减少了计算时间。在实际处理图像之前,对齐多帧图像。图像分辨率增强系统100包括的帧对齐模块102负责对齐多帧图像。由于各种原因,帧对齐模块102将多个帧(即,多帧图像)进行对齐,而不是仅考虑单个帧。
在帧对齐过程中,主要步骤是在每一帧中找到相似像素。使用相似像素,计算所有帧与一个或多个参考帧之间的关系。表示相似性的结构包括但不限于诸如单应矩阵、光流场和块匹配等。由于计算复杂度和精度之间存在权衡,每种方法都有各自的优缺点。
单应矩阵是一个8自由度的3×3矩阵,将空间中同一平面的两个图像之间的变换联系起来,测量3D空间中两幅图像之间的平移、旋转和缩放。光流场是两幅图像之间的向量场,示出了如何移动第一图像中的每个像素以形成第二图像。换句话说,它可以找到两幅图像的像素之间的对应关系。块匹配表示一组向量,表示两幅图像之间的块的匹配。首先将图像分块,计算两幅图像的块之间的相似度。每个块的相似度的结果向量示出了从第一图像到第二图像的移动。
在帧对齐模块102生成对齐帧之后,开始进行使用深度学习模型和传统模型来提高图像分辨率的过程。在图像分辨率增强系统100内配置的处理模块104,包括第一处理器和第二处理器,负责处理图像的不同通道。图像的不同部分由图像处理模型对其进行不同的处理。例如处理模块104采用深度学习模型和传统模型,以实现结合两者各自优点的效果。图像中具有低频分量的区域主要位于UV通道区域,而Y通道区域包括具有高频分量的区域和具有低频分量的区域。合并过程分为两部分,首先合并对Y通道的低频分量和高频分量的处理结果,然后合并Y通道对应的第一输出和UV通道对应的第二输出。
查找此类区域的示例性方法是计算给定图像的梯度。梯度低于某个阈值的区域表示相对平坦因而满足低频条件,传统模型的超分辨率结果将更加合适。另一方面,梯度高于某个阈值的区域,表示高频信息和强边缘,由深度学习模型处理更加合适。对于中间区域,可以使用两种模型的组合。
如前所述,图像的Y通道包含大量高频信息,因此需要更好的增强方法来确保最终图像的视觉质量。对Y通道区域的处理分为两个分支。第一个分支包括轻量化深度学习模型,该模型经过训练可以对给定帧进行超分辨率、去噪和去模糊处理。
另一方面,传统模型在处理Y通道的相对平坦的区域(也是低频)时,具有更稳定的性能,计算成本相对较低。因此,在第二个分支中,通过计算掩模来确定主要具有低频信息和局部运动的区域,以便利用传统的超分辨率方法进行增强。通常,基于局部梯度计算每个输入帧中每个像素的贡献。也就是说,结果图像的最终像素值是来自输入图像的各种相邻像素的加权和。
由于UV通道主要由低频信息组成,因此,使用计算复杂度较低的传统模型(如以高分辨率Y通道为导向的双边或导向上采样或者简单的双三次插值)来处理。以上方法的选择取决于实际应用。所需的主要增强步骤是去噪。利用对齐阶段计算的像素相似度信息,对UV通道进行合并和去噪。每个像素的最终UV值是在输入帧中找到的相似像素的平均值。
合并模块106融合高分辨率Y图像和UV图像以形成最终输出,该最终输出是利用结合了深度学习模型和传统图像分辨率增强模型的优点的方法得到的超分辨率图像。可以实现的另一个优化是利用不同的硬件,如CPU、GPU和DSP,并使用并行计算,以进一步提高速度。这是为了利用并行计算的思想,因为几个处理步骤是独立的,即它们不依赖于彼此的结果。例如,在对Y通道的增强过程中,也可以同时利用深度学习和传统模型进行处理。
图1B示出了本发明提供的一种轻量化多帧分辨率增强系统。该系统捕获多帧图像,并从多个帧中确定参考帧。
本发明的帧对齐模块用于对齐多帧图像。由于上述原因,帧对齐模块将多个帧进行对齐,而不是仅获取单个帧。通过将来自多个帧的信息融合到高分辨率图像中,可以展示图像的更多原始细节,这在单独使用一帧时无法实现。帧对齐模块可以利用传统的对齐方法(单应矩阵、光流场和块匹配),来对齐多帧图像。
在帧对齐模块对多帧低分辨率图像进行对齐后,开始使用深度学习模型和传统模型来提高图像分辨率的过程。配置在系统内的第一处理器和第二处理器负责处理图像的不同通道。图像的不同部分由多个图像处理模型进行不同的处理,例如,第一处理器和第二处理器采用的传统模型和深度学习模型。
具有低频分量的图像区域位于UV通道区域,而具有大部分高频分量和少数低频分量的区域位于Y通道区域。查找此类区域的示例性方法是计算给定图像的梯度。梯度低于某个阈值的区域表示相对平坦(低频区域),因此,满足低频条件,传统模型的超分辨率结果将更加合适。通常,基于局部梯度计算每个输入帧中每个像素的贡献。另一方面,梯度高于某个阈值的区域,表示高频信息和强边缘,由深度学习模型处理更加合适。
Y通道是一个高分辨率的Y通道图像,包含了大量的高频信息,因此,需要更好的增强方法来确保最终图像的视觉质量。对Y通道区域的处理分为两个分支。第一分支包括轻量化深度学习模型,该模型经过训练可以对给定帧进行超分辨率、去噪和去模糊处理。使用了级联残差网络(Cascading Residual Network,CARN)和快速超分辨率重建卷积神经网络(Fast Super Resolution Convolutional Neural Network,FSRCNN)等模型,并对训练方法进行了一些修改。
另一方面,包括去模糊和去噪技术的传统模型在处理具有低频分量的区域时,具有更稳定的性能,计算成本相对较低。因此,在第二分支中,通过计算掩模来确定主要具有低频信息和局部运动的区域,以便利用传统的超分辨率方法进行增强。使用深度学习和传统的分辨率增强方法,生成高分辨率的Y通道输出。
由于UV通道主要由低频信息组成,因此使用计算复杂度较低的传统模型(如以高分辨率Y通道为导向的双边或导向上采样或简单的双三次插值)来处理。以上方法的选择取决于实际应用。所需的主要增强步骤是去噪。利用对齐阶段计算的像素相似度信息,对UV通道进行合并和去噪。每个像素的最终UV值是在输入帧中找到的相似像素的平均值。传统模型对UV通道进行处理后,输出高分辨率的UV通道。
最后,通过合并模块将高分辨率Y输出和UV输出两者融合,以形成最终的高分辨率图像。可以实现的另一个优化是利用不同的硬件,如CPU、GPU和DSP,并使用并行计算,以进一步提高速度。这是为了利用并行计算的思想,因为几个处理步骤是独立的,即它们不依赖于彼此的结果。例如,在对Y通道的增强过程中,也可以同时利用深度学习和传统模型进行处理。
图2示出了本发明提供的一种帧对齐模块。帧对齐模块可以利用多种传统对齐方法(例如,单应矩阵、光流场和块匹配),来对齐多帧图像,即帧对齐模块102中可以存储有多种传统对齐方法124。在本发明中,由于若干原因,考虑了查询多帧图像。首先,当在不同的时间甚至稍微不同的位置拍摄时,所有帧包含的组合信息可以比任何单个帧的信息都多。因此,通过将多个帧的信息融合到高分辨率图像中,可以展示图像的更多的原始细节,这在单独使用一帧时无法实现。
另一个需要考虑的因素是计算复杂度。在单图像超分辨率中,由于信息量有限,深度学习模型需要生成额外的虚假细节。为了使细节更真实,模型需要有较大的感受野,这会导致模型更复杂。
帧对齐模块在利用模型进行处理之前执行帧对齐,以简化问题,特别是对于多帧超分辨率深度学习模型,因为不再需要在模型内部计算帧之间的流场。由于计算复杂度较低,首选传统对齐方法。对齐的主要步骤是在每个帧中找到相似像素。使用这些相似像素,计算所有帧与参考帧之间的关系。
在图像帧对齐过程中,需要选择至少一个图像帧作为对齐过程的参考帧,再将其他图像帧和参考帧本身与参考帧对齐。表示相似性的结构包括但不限于诸如单应矩阵、光流场和块匹配等。由于计算复杂度和精度之间存在权衡,每种方法都有各自的优缺点。
单应矩阵是一个8自由度的3×3矩阵,将空间中同一平面的两个图像之间的变换联系起来。它测量3D空间中两幅图像之间的平移、旋转和缩放。光流场是两幅图像之间的向量场,示出了如何移动第一图像中的每个像素以形成第二图像。换句话说,它可以找到两幅图像的像素之间的对应关系。块匹配表示一组向量,表示两幅图像之间的块的匹配。首先将图像分块,计算两幅图像的块之间的相似度。每个块的相似度的结果向量示出了从第一图像到第二图像的移动。
图3A示出了本发明提供的一种处理模块。处理模块104包括用于处理图像不同部分的第一处理器和第二处理器。图像的Y通道由第一处理器126处理,而图像的UV通道由第二处理器128处理。由图像处理模型(即传统模型和深度学习模型)对图像的不同部分进行不同的处理,以达到结合两者各自有点的效果。
在通过帧对齐模块对齐多个帧之后,开始使用深度学习模型和传统模型来提高图像分辨率的过程。图像具有低频分量区域和高频分量区域。具有低频分量的区域位于UV通道区域,而具有高频分量的区域位于Y通道区域。与图像的U通道和V通道相比,图像的Y通道通常包括更多的边缘信息和纹理信息。在这些低频区域,深度学习模型的效率不是很高,后文会解释原因。
找出这些区域的示例性方法是使用传统模型(例如Sobel或Laplacian导数)计算给定图像的梯度。梯度低于某个阈值的区域表示相对平坦因而满足低频条件,传统模型的超分辨率结果将更加合适。
另一方面,梯度高于某个阈值的区域,表示高频信息和强边缘,由深度学习模型处理更加合适,而对于中间区域,则可以使用这两种模型的组合。最终的增强图像是两种模型输出的超分辨率的加权平均值。掩模是两种模型各自的权重。
根据帧对齐步骤中使用的对齐方法的类型,可能需要找到具有局部运动的区域。Y通道包含大量高频信息,因此需要更好的增强方法来确保最终图像的视觉质量。对Y通道区域的处理分为两个分支。第一个分支包括轻量化深度学习模型,该模型经过训练可以对给定帧进行超分辨率、去噪和去模糊处理。第一处理器126可以采用诸如CARN和FSRCNN之类的模型。
另一方面,传统模型在处理低频区域时,性能更稳定,计算成本相对较低。因此,在第二分支中,如前文描述通过计算掩模来确定主要具有低频信息和局部运动的区域,以便利用传统的超分辨率方法进行增强。通常,基于局部梯度计算每个输入帧中每个像素的贡献。
然后分别处理图像的UV通道。在处理过程中出现这种差异的主要原因是,与Y通道相比,UV包含较低频率的信息。由于UV通道主要由低频信息组成,可以使用计算复杂度低的传统方法(例如以高分辨率Y通道为导向的双边或导向上采样或者简单的双三次插值)进行超分辨率,而不会造成明显的性能上的损失。以上方法的选择取决于实际应用。所需的主要增强步骤是去噪。
图3B示出了Y通道中传统模型和深度学习模型的结果的合并过程。如前所述,Y通道主要由大量高频信息组成,因此需要更好的增强方法来确保最终图像的视觉质量。在这一部分中,我们进一步将处理步骤分为两个分支。第一个分支包括轻量化深度学习模型,该模型经过训练可以对给定帧进行超分辨率、去噪和去模糊处理。深度学习模型可以使用诸如CARN和FSRCNN等模型。
为了符合实际用例,调整了数据准备(即样本数据),以使其包括真实的噪声样本。此外,在模型训练期间引入了额外的损失函数,以增强细节。然而,考虑到计算复杂度的限制,模型的性能是有限的。更具体地说,当损耗设计为强调细节时,其降噪能力将受到影响。
这是不想要的,尤其是对于平坦区域。如图3B中左上角的图像130所示,该模型在具有高频和强边缘的区域中表现良好。然而,可以观察到在图像下部相对平坦的区域中,可以在片区中看到不需要的伪影,因为当模型试图增强较弱的边缘时,也会放大噪声。
另一方面,传统模型在这些低频区域的性能更稳定,计算成本相对较低。因此,在第二个分支中,通过计算掩模来确定主要具有低频信息和局部运动的区域,以便利用传统的超分辨率方法进行增强。图3B右上角的图像132展示了使用传统模型的结果。每个输入帧中每个像素的贡献基于局部梯度计算得到。也就是说,结果图像的最终像素值是输入图像的各种相邻像素的加权和。
在图3B的左下角图像134中,较亮的区域表示边缘较强或频率信息较高的区域。图3B的右下角图像136展示了通过合并深度学习模型和传统模型来提高图像Y通道部分的分辨率而获得的结果。
图4A示出了一种通过组合传统模型和深度学习模型来增强图像分辨率的方法的流程图。该流程图示出了一种方法,包括:在步骤138中,对齐多帧图像以生成对齐帧,帧对齐模块进一步识别对齐帧中与参考帧的像素相似的相似像素以生成对齐图像。在步骤140中,在帧对齐模块对齐多个帧之后,处理模块的第一处理器使用传统分辨率增强模型处理对齐图像的Y通道的低频分量,并使用深度学习模型处理Y通道的高频分量,以生成第一输出。
在步骤142中,第二处理器使用传统的分辨率增强模型来处理对齐图像的UV通道的低频分量,以生成第二输出。最后,在步骤144中,合并模块合并第一输出和第二输出,以生成增强图像。
图4B示出了一种轻量化多帧超分辨率图像的生成方法的流程图。该流程图示出了一种方法,包括:在步骤146中,对齐多帧图像以生成对齐帧,帧对齐模块进一步识别对齐帧中与参考帧的像素相似的相似像素以生成对齐图像。在步骤148中,一旦多帧图像被对齐,第一处理器就使用掩模和传统分辨率增强模型的去噪和去模糊技术处理对齐图像的Y通道的低频分量,使用深度学习模型处理高频分量,并合并Y通道的由传统模型和深度学习模型得到的结果,形成第一输出。
在处理完Y通道之后,在步骤150中,处理模块的第二处理器使用传统图像增强模型的去噪技术处理对齐图像的UV通道的低频分量,以生成第二输出。最后,在步骤152中,合并模块合并第一输出和第二输出,以生成超分辨率图像。
虽然上面已经描述了本发明的各种实施例,但是应该理解,它们只是示例性的,而不是限制性的。同样,附图可以描述本发明的示例架构或其他配置,这样做是为了帮助理解本发明中包括的特征和功能。本发明不限于图示的示例架构或配置,而是可以使用各种替代架构和配置来实现期望的特征。
尽管以上通过各种示例性实施例和实施方式描述了本发明,但应当理解,在一个或多个单独实施例中描述的各种特征、方面和功能的适用范围不限于以上的具体实施例,而是可以单独或以各种组合方式应用于本发明的一个或多个其他实施例,无论这些实施例是否被描述或这些特征是否被呈现为所描述的实施方式的一部分。因此,本发明的广度和范围不应受到任何上述示例性实施例的限制。
在某些情况下,存在诸如“一个或多个”、“至少”、“但不限于”或其他类似短语的扩展词,不应被理解为,在不存在此类扩展词的情况下,就意指更窄范围的情况。
Claims (13)
1.一种图像分辨率增强系统,其特征在于,组合了传统模型和深度学习模型,所述系统包括:
帧对齐模块,用于对齐多帧图像以生成对齐帧,并识别所述对齐帧中与参考帧的像素相似的相似像素以生成对齐图像;
处理模块,所述处理模块包括:第一处理器和第二处理器;所述第一处理器使用所述传统模型处理所述对齐图像的Y通道的低频分量,并使用所述深度学习模型处理所述Y通道的高频分量,以生成第一输出;所述第二处理器使用所述传统模型处理所述对齐图像的UV通道的低频分量,以生成第二输出;以及
合并模块,用于合并所述第一输出和所述第二输出,以生成增强图像。
2.根据权利要求1所述的图像分辨率增强系统,其特征在于,所述相似像素的识别基于单应矩阵、光流场或块匹配中的任一种。
3.根据权利要求1所述的图像分辨率增强系统,其特征在于,所述图像的低频分量和高频分量以所述图像内一个或多个区域的梯度值为基础。
4.根据权利要求3所述的图像分辨率增强系统,其特征在于,所述梯度值由索贝尔导数或拉普拉斯导数计算得到。
5.根据权利要求1至4任一项所述的图像分辨率增强系统,其特征在于,每个所述低频分量的梯度值小于梯度阈值。
6.根据权利要求1至4任一项所述的图像分辨率增强系统,其特征在于,每个所述高频分量的梯度值大于梯度阈值。
7.根据权利要求1所述的图像分辨率增强系统,其特征在于,对所述Y通道的每个所述低频分量和每个所述高频分量的处理是同时进行的。
8.根据权利要求1所述的图像分辨率增强系统,其特征在于,基于导向上采样或双三次插值,确定所述传统模型。
9.一种多帧图像超分辨率系统,其特征在于,用于生成轻量化超分辨率图像,所述系统包括:
帧对齐模块,用于对齐多帧图像以生成对齐帧,并识别所述对齐帧中与参考帧的像素相似的相似像素以生成对齐图像;
处理模块,所述处理模块包括:第一处理器和第二处理器;所述第一处理器使用掩模和应用于传统模型的去噪和去模糊技术,处理所述对齐图像的Y通道的低频分量,并使用应用于深度学习模型的去噪和去模糊技术,处理所述Y通道的高频分量,以生成第一输出;所述第二处理器使用应用于所述传统模型的去噪技术,处理所述对齐图像的UV通道的低频分量,以生成第二输出;
合并模块,用于合并所述第一输出和所述第二输出,以生成所述超分辨率图像。
10.一种图像分辨率增强方法,其特征在于,组合了传统模型和深度学习模型,所述方法包括:
对齐多帧图像以生成对齐帧,并识别所述对齐帧中与参考帧的像素相似的相似像素以生成对齐图像;
使用所述传统模型处理所述对齐图像的Y通道的低频分量,并使用所述深度学习模型处理所述Y通道的高频分量,以生成第一输出;
使用所述传统模型处理所述对齐图像的UV通道的低频分量,以生成第二输出;以及
合并所述第一输出和所述第二输出,以生成增强图像。
11.一种多帧图像超分辨率方法,其特征在于,用于生成轻量化超分辨率图像,所述方法包括:
对齐多帧图像以生成对齐帧,并识别所述对齐帧中与参考帧的像素相似的相似像素以生成对齐图像;
使用掩模和应用于传统模型的去噪和去模糊技术,处理所述对齐图像的Y通道的低频分量,并使用应用于深度学习模型的去噪和去模糊技术,处理所述Y通道的高频分量,以生成第一输出;
使用应用于所述传统模型的去噪技术,处理所述对齐图像的UV通道的低频分量,以生成第二输出;
合并所述第一输出和所述第二输出,以生成所述超分辨率图像。
12.一种计算机可读存储介质,所述计算机存储介质存储有指令,所述指令用于使计算机系统中的至少一个处理器能够通过组合传统模型和深度学习模型来增强图像的分辨率,所述指令进一步用于使所述计算机系统中的所述至少一个处理器能够执行以下步骤:
对齐多帧图像以生成对齐帧,并识别所述对齐帧中与参考帧的像素相似的相似像素以生成对齐图像;
使用所述传统模型处理所述对齐图像的Y通道的低频分量,并使用所述深度学习模型处理所述Y通道的高频分量,以生成第一输出;
使用所述传统模型处理所述对齐图像的UV通道的低频分量,以生成第二输出;以及
合并所述第一输出和所述第二输出,以生成增强图像。
13.一种计算机可读存储介质,所述计算机存储介质存储有指令,所述指令用于使计算机系统中的至少一个处理器能够生成轻量化超分辨率图像,所述指令进一步用于使所述计算机系统中的所述至少一个处理器能够执行以下步骤:
对齐多帧图像以生成对齐帧,并识别所述对齐帧中与参考帧的像素相似的相似像素以生成对齐图像;
使用掩模和应用于传统模型的去噪和去模糊技术,处理所述对齐图像的Y通道的低频分量,并使用应用于深度学习模型的去噪和去模糊技术,处理所述Y通道的高频分量,以生成第一输出;
使用应用于所述传统模型的去噪技术,处理所述对齐图像的UV通道的低频分量,以生成第二输出;
合并所述第一输出和所述第二输出,以生成所述超分辨率图像。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/382,047 | 2021-07-21 | ||
US17/382,047 US20230021463A1 (en) | 2021-07-21 | 2021-07-21 | Multi-frame image super resolution system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115375539A true CN115375539A (zh) | 2022-11-22 |
Family
ID=84061258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210856797.XA Pending CN115375539A (zh) | 2021-07-21 | 2022-07-20 | 图像分辨率增强、多帧图像超分辨率系统和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230021463A1 (zh) |
CN (1) | CN115375539A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079194A (zh) * | 2023-10-12 | 2023-11-17 | 深圳云天畅想信息科技有限公司 | 云视频ai理解生成方法、装置及计算机设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514580B (zh) * | 2013-09-26 | 2016-06-08 | 香港应用科技研究院有限公司 | 用于获得视觉体验优化的超分辨率图像的方法和系统 |
US10701394B1 (en) * | 2016-11-10 | 2020-06-30 | Twitter, Inc. | Real-time video super-resolution with spatio-temporal networks and motion compensation |
WO2020256704A1 (en) * | 2019-06-18 | 2020-12-24 | Huawei Technologies Co., Ltd. | Real-time video ultra resolution |
CN112529775A (zh) * | 2019-09-18 | 2021-03-19 | 华为技术有限公司 | 一种图像处理的方法和装置 |
KR102624027B1 (ko) * | 2019-10-17 | 2024-01-11 | 삼성전자주식회사 | 영상 처리 장치 및 방법 |
EP4107692A4 (en) * | 2020-02-17 | 2023-11-29 | INTEL Corporation | SUPER-RESOLUTION USING A CONVOLUTIONAL NEURAL NETWORK |
US11889096B2 (en) * | 2020-06-26 | 2024-01-30 | Intel Corporation | Video codec assisted real-time video enhancement using deep learning |
US20210233210A1 (en) * | 2021-03-26 | 2021-07-29 | Intel Corporation | Method and system of real-time super-resolution image processing |
WO2022261849A1 (en) * | 2021-06-16 | 2022-12-22 | Intel Corporation | Method and system of automatic content-dependent image processing algorithm selection |
-
2021
- 2021-07-21 US US17/382,047 patent/US20230021463A1/en active Pending
-
2022
- 2022-07-20 CN CN202210856797.XA patent/CN115375539A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079194A (zh) * | 2023-10-12 | 2023-11-17 | 深圳云天畅想信息科技有限公司 | 云视频ai理解生成方法、装置及计算机设备 |
CN117079194B (zh) * | 2023-10-12 | 2024-01-05 | 深圳云天畅想信息科技有限公司 | 云视频ai理解生成方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
US20230021463A1 (en) | 2023-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Simultaneous color-depth super-resolution with conditional generative adversarial networks | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN110163237B (zh) | 模型训练及图像处理方法、装置、介质、电子设备 | |
US8639056B2 (en) | Contrast enhancement | |
US10991150B2 (en) | View generation from a single image using fully convolutional neural networks | |
KR101137753B1 (ko) | 고속의 메모리 효율적인 변환 구현 방법 | |
CN110222758B (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN107274347A (zh) | 一种基于深度残差网络的视频超分辨率重建方法 | |
US20050094899A1 (en) | Adaptive image upscaling method and apparatus | |
WO2021163844A1 (en) | Super resolution using convolutional neural network | |
CN112887728A (zh) | 电子装置、电子装置的控制方法以及系统 | |
WO2017092662A1 (zh) | 视频分辨率提升方法及装置 | |
Liu et al. | Learning noise-decoupled affine models for extreme low-light image enhancement | |
CN113724136A (zh) | 一种视频修复方法、设备及介质 | |
Arulkumar et al. | Super resolution and demosaicing based self learning adaptive dictionary image denoising framework | |
Greisen et al. | Algorithm and VLSI architecture for real-time 1080p60 video retargeting | |
Wang et al. | Underwater image super-resolution and enhancement via progressive frequency-interleaved network | |
CN111754399A (zh) | 基于梯度的保持几何结构的图像超分辨率方法 | |
CN115375539A (zh) | 图像分辨率增强、多帧图像超分辨率系统和方法 | |
Zhang et al. | Multi-scale-based joint super-resolution and inverse tone-mapping with data synthesis for UHD HDR video | |
WO2024032331A9 (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN115409716B (zh) | 视频处理方法、装置、存储介质及设备 | |
US8982950B1 (en) | System and method for restoration of dynamic range of images and video | |
He et al. | Global priors guided modulation network for joint super-resolution and SDRTV-to-HDRTV | |
CN111861877A (zh) | 视频超分变率的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |