CN117974441A - 用于图像处理的方法、设备和计算机程序产品 - Google Patents
用于图像处理的方法、设备和计算机程序产品 Download PDFInfo
- Publication number
- CN117974441A CN117974441A CN202211298887.8A CN202211298887A CN117974441A CN 117974441 A CN117974441 A CN 117974441A CN 202211298887 A CN202211298887 A CN 202211298887A CN 117974441 A CN117974441 A CN 117974441A
- Authority
- CN
- China
- Prior art keywords
- feature map
- resolution
- generating
- network
- rdbp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 title claims abstract description 23
- 238000004590 computer program Methods 0.000 title claims abstract description 8
- 238000005070 sampling Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 11
- 238000007634 remodeling Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本申请公开了图像处理的方法、设备和计算机程序产品,涉及图像超分辨率领域。方法包括生成第一分辨率的输入图像的第二分辨率的特征图,第一分辨率小于第二分辨率。方法还包括通过第一基于残差的密集反向投影(RDBP)网络生成第二分辨率的特征图和第一分辨率的特征图。此外,方法还包括通过第二RDBP网络生成第二分辨率的特征图和第一分辨率的特征图,其中第一RDBP网络和第二RDBP网络分别包括下采样反向投影层、上采样反向投影层以及注意力层。方法还包括基于通过第一RDBP网络和第二RDBP网络生成的第二分辨率的特征图和第一分辨率的特征图,生成第二分辨率的输出图像。根据本公开的实施例,能够在提高深度神经网络性能的同时,改进所生成图像的质量。
Description
技术领域
本公开的实施例主要涉及图像处理领域,并且更具体地,涉及图像超分辨率领域。
背景技术
图像超分辨率是图像处理中的基础研究主题。图像超分辨率是在给定一个低分辨率的图像的情况下,通过预测缺失的高频率信息来生成一个高分辨率的图像。图像超分辨率在科研领域已经被研究了很多年,其可以被用于数据压缩、数据传输以及数据转换。
随着人工智能技术的发展,深度神经网络技术逐渐成为实现图像超分辨率的常用手段。深度神经网络对大数据的挖掘能力使其效果要优于那些未使用深度神经网络的图像超分辨率方法。然而在使用深度神经网络技术来进行图像超分辨率时,会遇到与网络性能和所生成图像的质量相关的问题。
发明内容
根据本公开的实施例,提供了一种用于图像处理的方案。
在本公开的第一方面中,提供了一种用于图像处理的方法。该方法包括:生成第一分辨率的输入图像的第二分辨率的特征图,第一分辨率小于第二分辨率;通过第一基于残差的密集反向投影(RDBP)网络生成第二分辨率的特征图和第一分辨率的特征图;通过第二RDBP网络生成第二分辨率的特征图和第一分辨率的特征图,第一RDBP网络和第二RDBP网络分别包括下采样反向投影层、上采样反向投影层以及注意力层;以及基于通过第一RDBP网络和第二RDBP网络生成的第二分辨率的特征图和第一分辨率的特征图,生成第二分辨率的输出图像。
在本公开的第二方面中,提供了一种电子设备。该电子设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其他特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的用于图像处理的方法的流程图;
图3A至图3D示出了根据本公开的一些实施例的用于图像处理的方法的示意图,以及详细描绘部分结构的示意图;
图4A和图4B示出了根据本公开的一些实施例的增强上采样反向投影块和增强下采样反向投影块的示意性算法结构图;
图5A至图5C示出了根据本公开的一些实施例的空间注意力块、自下而上注意力块以及自上而下注意力块的示意性算法结构图;以及
图6示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
要想通过深度神经网络生成质量很高的高分辨率的图像,就需要深度很深的神经网络,这会导致算法具有很高的运行时间复杂度,使得其无法得到广泛的应用。另外非常深的网络深度容易出现梯度消失问题,导致无法生成质量更好的图像。相反,如果使用现有较低时间复杂度的算法进行图像建模,则所恢复的高分辨率图像的效果是无法令人满意的。
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如以上提及的,通过深度神经网络生成质量很高的高分辨率的图像,需要深度很深的神经网络,这会导致算法具有很高的运行时间复杂度,使得其无法得到广泛的应用。相反,如果使用现有较低时间复杂度的算法进行图像建模,则所恢复的高分辨率图像的效果是无法令人满意的。
根据本公开的各种实施例,提供了一种图像处理的方案。在本公开的实施例中,生成第一分辨率的输入图像的第二分辨率的特征图,第一分辨率小于第二分辨率;通过第一RDBP网络生成第二分辨率的特征图和第一分辨率的特征图;通过第二RDBP网络生成第二分辨率的特征图和第一分辨率的特征图,第一RDBP网络和第二RDBP网络分别包括下采样反向投影层、上采样反向投影层以及注意力层;以及基于通过第一RDBP网络和第二RDBP网络生成的第二分辨率的特征图和第一分辨率的特征图,生成第二分辨率的输出图像。根据本公开实施例的方案,可以充分利用注意力机制来挖掘图像中多个像素块之间的联系以及一个像素块内部像素之间的联系。此外,根据本公开实施例的方案,可以充分利用反向投影机制来建立特征图之间更深、更广的连接,以共享它们之间的特征信息。这样在既降低了算法的时间复杂度,又提高了所生成的高分辨率图像的质量,从而可以在各个领域被更广泛地应用。
以下将参照附图来具体描述本公开的实施例。
图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。在环境100中,用户使用相机104捕获了低分辨率图像102,与经处理后的图像110相比,图像102的分辨率相对较低。该图像分辨率低可能是由于相机本身的性能较差、拍照的对象在移动或拿相机的手有抖动导致的,等等。低分辨率图像102可以被提供给计算设备106,用于执行图像处理。计算设备106基于低分辨率图像102生成高分辨率图像110。然后,计算设备106将高分辨率图像传输给电子设备108-1和/或108-2(统称为或单独称为电子设备108),以向用户显示高分辨率图像。
计算设备106可以是任意具有计算能力的设备。计算设备106的一些示例包括但不限于:个人计算机、台式计算机、便携式计算机、服务器、基于云的服务器、服务节点、边缘计算节点等。虽然被示出为分离的设备,在一些实施例中,计算设备106可以被集成在电子设备108中。在另一些实施例中,计算设备106可以是电子设备108的远程计算设备(例如,远程计算节点)。
在一些实施例中,低分辨率图像102不是使用相机104实时捕获的,而是已经存储在存储介质上。计算设备106可以从存储有低分辨率图像102的存储介质上将其读出,然后执行图像处理。
以下将结合图2至图5C来描述根据本公开的实施例的图像处理的过程。图2示出了根据本公开的一些实施例的用于图像处理的方法的流程图。方法200可以由图1中所示的计算设备106来执行。
如图2所示,在框202处,生成第一分辨率的输入图像的第二分辨率的特征图,第一分辨率小于第二分辨率。例如,给定低分辨率输入图像,生成该低分辨率输入图像的高分辨率特征图。以下将参考图3A和图3B来描述框202的具体过程。图3A示出了根据本公开的一些实施例的用于图像处理的方法的示意性结构框图。在图3A中,特征提取块312可以用来实现图2中的框202。在一些实施例中,计算设备106接收由相机104捕获的低分辨率图像,例如低分辨率小狗图像310。特征提取块312接收小狗图像310,然后通过特征提取获得高分辨率特征图。
图3B至图3D详细描绘了图3A的部分结构的示意图。在图3B至3D中,有的块较低,有的块较高。为了方便理解,在根据本公开的实施例的方法中,通过某块后可以得到低分辨率特征图,则该块较低,通过某块后可以得到高分辨率特征图,则该块较高。
图3B示出了特征提取块的内部算法结构示意图。如图3B所示,低分辨率小狗图像310依次通过卷积块330、卷积块332、空间注意力块334以及增强上采样反向投影块336。在此过程中,通过对低分辨率小狗图像310进行卷积和加权处理(weighting,即通过空间注意力块334),来提取低分辨率特征图,以及对该低分辨率特征图进行上采样来获得低分辨率小狗图像310的高分辨率特征图。
返回参照图2,在框204处,通过第一RDBP网络生成第二分辨率的特征图和第一分辨率的特征图。例如,计算设备106通过RDBP网络生成高分辨率的特征图和低分辨率的特征图。例如,在图3A中,RDBP网络314-1基于从特征提取块312接收到的高分辨率特征图,生成新的高分辨率特征图和低分辨率特征图。具体地,RDBP网络包括上采样块、下采样块、注意力块以及卷积块。上采样块基于低分辨率特征图来生成高分辨率特征图。下采样块基于高分辨率特征图来生成低分辨率特征图。注意力块对特征图进行加权处理,来生成经调整的特征图。在一些实施例中,可以在上采样块中利用反向投影机制,这种上采样块在本文中被称为增强上采样反向投影块。相似地,在下采样块中利用反向投影机制,这种下采样块在本文中被称为增强下采样反向投影块。注意力块可以是空间注意力块、通道注意力块以及空间通道注意力块。
图3C示出了RDBP网络中的内部算法结构示意图,图中包括增强上采样反向投影块、增强下采样反向投影块、空间注意力块以及卷积块。通过对输入到RDBP网络的高分辨率特征图进行下采样(即增强下采样反向投影块342),来获得初始经下采样的特征图。通过对初始经下采样的特征图进行上采样(即增强上采样反向投影块344)和下采样(即增强下采样反向投影块346),来生成第一经上采样的特征图和第一经下采样的特征图。通过对初始经下采样的特征图和第一经下采样的特征图进行加权处理(即空间注意力块348),来生成第一经调整的特征图。通过对第一经调整的特征图进行上采样(即增强上采样反向投影块350)和下采样(即增强下采样反向投影块352),来生成第二经上采样的特征图和第二经下采样的特征图。通过对初始经下采样的特征图、第一经下采样的特征图和第二经下采样的特征图进行加权处理(即空间注意力块354),来生成第二经调整的特征图。通过对第二经调整的特征图进行上采样(即增强上采样反向投影块362),来生成第三经上采样的特征图。在一些实施例中,此时可以通过对第一经上采样的特征图、第二经上采样的特征图以及第三经上采样的特征图进行卷积(相似于卷积块364的卷积块),来生成注意力调整的特征图,然后将该注意力调整的特征图确定为第二分辨率的特征图,以及将第二经调整的特征图确定为第一分辨率的特征图。
此外,在另一些实施例中,在上述生成第三经上采样的特征图之前,可以迭代地执行生成第二经调整的特征图的过程。例如,图3C中在增强上采样反向投影块362之前又重复进行了上采样、下采样和加权处理的过程(即增强上采样反向投影块356、增强下采样反向投影块358以及空间注意力块360)。针对这种情况,最后一个空间注意力块(即空间注意力块360)基于前面全部增强下采样反向投影块生成的经下采样的特征图来生成经调整的特征图,以及该经调整的特征图将被确定为第一分辨率的特征图。卷积块364则基于前面全部增强上采样反向投影块生成的经上采样的特征图来生成注意力调整的特征图,以及该注意力调整的特征图将被确定为第二分辨率的特征图。
上述过程是一种反向投影的过程,在将低分辨率特征图通过上采样放大到高分辨率特征图之后,再将高分辨率特征图通过下采样进行反向投影以生成新的低分辨率特征图。通常新的低分辨率特征图与初始低分辨率特征图之间是存在误差的,该误差也被称为保真度。为了保真度,通过以下等式(1)来从另一方面说明反向投影的过程:
其中L表示低分辨率特征图,表示放大的高分辨率特征图。D表示下采样操作过程,以及D-1表示上采样运算符。λ是用来控制残差比例的学习参数,并且残差会被用于生成高分辨率特征图。t是迭代次数。
为了可以自动学习学习参数和上采样运算符,本文中使用了增强反向投影模型。整个过程包括增强下采样反向投影块和增强上采样反向投影块。增强下采样反向投影块被认为是调整初始低分辨率特征图与经下采样特征图之间的残差的反向投影。为了信息共享,在上采样块与下采样块之间添加密集连接,因此可以改进网络的识别能力。
例如,在一些实施例中,需要把64乘64像素的低分辨率图像放大到128乘128像素的高分辨率图像,将初始的64乘64像素图像通过上采样放大到128乘128像素图像后,该图像与真实的128乘128像素的图像一定是存在误差的。为了计算该误差,将放大得到的128乘128像素再进行下采样,获得经下采样的64乘64像素图像。将初始64乘64像素图像与经下采样的64乘64像素图像相减获得误差。对该误差再做上采样,将其放大到128乘128的尺度,再与初始经上采样的128乘128像素图像相加,即可弥补该误差。
图4A示出了根据本公开的一些实施例的增强上采样反向投影块的示意性算法结构图。如图5A所示,增强上采样反向投影块接收到低分辨率特征图401(例如分辨率为64乘64像素)。经过反卷积网络402和激活函数403(例如,LReLU函数),低分辨率特征图401被放大,变为第一高分辨率特征图(例如分辨率为128乘128像素)。这种过程是简单的上采样过程。然后经过卷积网络404和激活函数405(例如,LReLU函数),第一高分辨率特征图变为64乘64像素的第一低分辨率特征图。将第一低分辨率特征图与低分辨率特征图401进行减法操作406,获得64乘64像素的第二低分辨率特征图。然后经过反卷积网络407和激活函数408(例如LReLU函数),第二低分辨率特征图变为128乘128像素的第二高分辨率特征图。然后经过1乘1卷积网络409,获得128乘128像素的第三高分辨率特征图。然后将第三高分辨率特征图与第一高分辨率特征图进行加法操作410,获得128乘128像素的高分辨率特征图411。
与增强上采样反向投影块的算法结构相似,图4B示出了根据本公开的一些实施例的增强下采样反向投影块的示意性算法结构图。如图4B所示,增强下采样反向投影块接收到高分辨率特征图421(例如分辨率为128乘128像素)。经过卷积网络422和激活函数423(例如,LReLU函数),高分辨率特征图421被缩小,变为第一低分辨率特征图(例如分辨率为64乘64像素)。这种过程是简单的下采样过程。然后经过反卷积网络424和激活函数425(例如,LReLU函数),第一低分辨率特征图变为128乘128像素的第一高分辨率特征图。将第一高分辨率特征图与高分辨率特征图421进行减法操作426,获得128乘128像素的第二高分辨率特征图。然后经过卷积网络427和激活函数428(例如LReLU函数),第二高分辨率特征图变为64乘64像素的第二低分辨率特征图。然后经过1乘1卷积网络429,获得64乘64像素的第三低分辨率特征图。然后将第三低分辨率特征图与第一低分辨率特征图进行加法操作430,获得64乘64像素的低分辨率特征图431。
不同于未使用反向投影机制的上采样和下采样,这种使用了反向投影机制的上采样和下采样实现了特征的复用,减弱了梯度消失问题,从而可以有效的提升图像重建的效果。
图5A示出了根据本公开的一些实施例的空间注意力块的示意性算法结构图。空间注意力块是针对图像超分辨率的单头注意力网络,其目的是找到两个具有相同分辨率的特征图之间的短期相互关系。如图5A所示,空间注意力块接收X作为输入,X代表32N×H×W的第一特征图集合,32N代表特征图的数目,H代表特征图的高,W代表特征图的宽。X分别经过三个卷积网络502、503和504。在这三个卷积网络中,1×1代表1×1的卷积网络,n代表自定义的特征图的数目,并且n<32N(意味着对32N个特征图进行了压缩)。然后再对三个卷积网络的输出进行重塑操作(重塑操作505、重塑操作506和重塑操作507),以将输出调整为一个维度是H×W,另一维度是n的二维矩阵。注意,重塑操作505和重塑操作507的输出是(H×W)×n的二维矩阵,而重塑506的输出是他们的转置矩阵n×(H×W)。将重塑505和重塑506得到的二维矩阵进行叉乘操作508,之后进行softmax函数509的计算,计算结果的值再与重塑操作507输出的二维矩阵进行叉乘操作510。叉乘操作510的结果再经过32×1×1的卷积网络511,即可获得尺度被重新缩放到32N×H×W的第二特征图集合。将第二特征图集合与X进行加法操作512,得到经注意力调整的结果Z。
这种基于残差的密集反向投影网络具备各种优点。反向投影机制使得每个迭代的执行结果都会受到来自之前每个块中产生的残差的影响,实现了信息共享,充分利用了网络中每个块生成的结果,充分挖掘了每个像素背后隐藏的信息,减弱了梯度消失问题,使得利用更深的网络来进行图像处理变得有意义。同时注意力机制又很好地解决了随着迭代次数的增多,网络深度变得更深,执行深度学习网络的时间复杂度也会增加的问题。注意力机制将注意力分配到最重要的那些像素和特征上,大幅降低了每一次迭代的计算量,使得增加迭代次数以追求高质量的同时还能避免网络加深所导致的性能问题。
返回参照图2,在框206处,计算机设备106可以通过第二RDBP网络生成第二分辨率的特征图和第一分辨率的特征图,第一RDBP网络和第二RDBP网络分别包括下采样反向投影层、上采样反向投影层以及注意力层。例如,如图3A所示,第二RDBP网络接收第一RDBP网络生成的高分辨率特征图,并重复第一RDBP网络的过程,从而进一步提高所生成的高分辨率特征图的质量,继续减小与真实高分辨率特征图之间的误差。
在一些实施例中,可以迭代地执行多次通过RDBP网络生成高分辨率特征图和低分辨率特征图的过程。由于在RDBP网络中使用了反向投影机制和注意力机制,因此可以叠加多个RDBP网络以提升最终生成的高分辨率特征图的质量,而不必过于担心网络的计算速度以及网络很深导致最终效果不好。如图3A所示,RDBP网络314-1代表第一RDBP网络,RDBP网络314-2代表第二RDBP网络,RDBP网络314-N代表可以迭代地执行N个RDBP网络。叠加的RDBP网络越多,所生成的高分辨率特征图的质量越好。
继续参照图2,在框208处,基于通过第一RDBP网络和第二RDBP网络生成的第二分辨率的特征图和第一分辨率的特征图,生成第二分辨率的输出图像。在图3A中,对应于跨尺度注意力块318接收RDBP网络组316中的每个RDBP所生成的低分辨率特征图和高分辨率特征图。该低分辨率特征图是RDBP网络中通过最后一个空间注意力块获得的低分辨率特征图,例如在图3C所示的实施例中通过空间注意力块360获得的低分辨率特征图,以及该高分辨率特征图是RDBP网络中通过最后一个卷积块获得的高分辨率特征图,例如在图3C所示的实施例中通过卷积块364获得的高分辨率特征图。反向投影块320接收跨尺度注意力块318生成的高分辨率特征图和低分辨率特征,通过学习它们之间的关系,并将其应用于原始低分辨率的输入图像,即可生成高分辨率的输出图像322。
图3D示出了跨尺度注意力块的内部算法结构示意图。跨尺度注意力块是多头注意力网络,其目的是探索跨越不同尺度的特征图之间的长期相互关系。跨尺度注意力块包括自下而上注意力块378和自上而下注意力块380。自下而上注意力块378通过对由增强上采样反向投影块372输出的高分辨率特征图和由增强下采样反向投影块374输出的低分辨率特征图集合进行加权处理,生成经跨尺度调整注意力的高分辨率特征图。自上而下注意力块380通过对由增强上采样反向投影块370输出的高分辨率特征图集合和由增强下采样反向投影块376输出的低分辨率特征图进行加权处理,生成经跨尺度调整注意力的低分辨率特征图。以下将结合图5B和图5C详细说明上述过程。
图5B示出了自下而上注意力块的示意性算法结构图。自下而上注意力块520接收Xi和Y作为输入,Xi是32×H×W的第一特征图集合,Y是32N×αH×αW的第二特征图集合。α代表放大尺度,即Xi代表低分辨率的特征图,Y代表高分辨率的特征图。Y依次经过卷积网络521、池化操作522,将Y从αH×αW尺度降维到H×W尺度的第三特征图集合。然后把第三特征图集合的32N的尺度进行拆分,拆分成模块523-1、523-2、...、523-N。在每个模块中,Xi分别经过卷积网络524和卷积网络525。然后再对卷积网络524的输出进行重塑操作527得到第一二维矩阵,以及对卷积网络525的输出进行重塑操作528得到第二二维矩阵。另一边,第三特征图集合被拆分后的每个特征图经过卷积网络526和重塑操作529,得到第三二维矩阵。将第一二维矩阵和第二二维矩阵进行叉乘操作530,之后进行softmax函数531的计算,计算结果的值再与第三二维矩阵进行叉乘操作532。叉乘操作532的结果再经过卷积网络533,即可获得尺度被重新缩放到32N×H×W的特征图集合Z1。对N个模块进行相同的操作,即可得到Z1、Z2、...、ZN,将它们进行加权的累加,再经过卷积网络534、上采样535,得到放大回αH×αW尺度的特征图。该特征图再和Y相加,得到自下而上注意力块的输出特征图。
图5C示出了自上而下注意力块的示意性算法结构图。自上而下注意力块540接收Xi和Y作为输入,Xi是32×αH×αW的第一特征图集合,Y是32×H×W的第二特征图集合。α代表放大尺度,即Xi代表高分辨率的特征图,Y代表低分辨率的特征图。Xi经过池化操作541,将Xi从αH×αW尺度降维到H×W尺度的第三特征图集合。然后把第三特征图集合的32N的尺度进行拆分,拆分成模块543-1、543-2、...、543-N。在每个模块中,被拆分后的每个特征图分别经过卷积网络544和卷积网络545。然后再对卷积网络544的输出进行重塑操作547得到第一二维矩阵,以及对卷积网络545的输出进行重塑操作548得到第二二维矩阵。另一边,Y依次经过卷积网络542、卷积网络546和重塑操作549,得到第三二维矩阵。将第一二维矩阵和第二二维矩阵进行叉乘操作550,之后进行softmax函数551的计算,计算结果的值再与第三二维矩阵进行叉乘操作552。叉乘操作552的结果再经过卷积网络553,即可获得尺度被重新缩放到32N×H×W的特征图集合Z1。对N个模块进行相同的操作,即可得到Z1、Z2、...、ZN,将它们进行加权的累加,再经过卷积网络554,得到H×W尺度的特征图。该特征图再和Y相加,得到自上而下注意力块的输出特征图。
跨尺度注意力块将不同网络层的特征连接在一起,并且赋予它们不同的头以计算注意力权重。全局投影矩阵被用于将这些头投影到最终的输出上。下方等式(2)是跨尺度注意力块的数学表达形式:
H(i)=Attention(φ(Xi)WQ,φ(Xi)wK,θ(Y)WV) (2)
其中θ(Y)是Y的下采样。Xi,i=1、2、...、N,是来自第i层的特征图。在空间域中执行池化操作θ可以减少逐对计算的计算量。φ是针对每个头Xi的加权参数。Ws是针对附加残差的加权参数。
在一些实施例中,为了高效的对图像进行超分辨率,本文中所述的深度注意力网络可以使用32核的卷积层和反卷积层。针对短连接和注意力模型,可以使用步幅和填充均为1的1×1核的卷积层。针对增强下采样反向投影块和增强上采样反向投影块,可以使用步幅为4、填充为1的6×6核的卷积层和反卷积层用于4倍超分辨率,使用步幅为8、填充为1的10×10核的卷积层和反卷积层用于8倍超分辨率。大部分超分辨率方法均使用64核的卷积层和反卷积层,而在该实施例中,可以仅使用其半数的卷积核来构建网络。得益于注意力块的使用,该实施例中的网络的性能和生成图片的质量均得到了提升。
图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。设备600可以用于实现图1的计算设备106或电子设备108。如图所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如方法200。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时,可以执行上文描述的方法200的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (20)
1.一种用于图像处理的方法,包括:
生成第一分辨率的输入图像的第二分辨率的特征图,所述第一分辨率小于所述第二分辨率;
通过第一基于残差的密集反向投影(RDBP)网络生成所述第二分辨率的特征图和所述第一分辨率的特征图;
通过第二RDBP网络生成所述第二分辨率的特征图和所述第一分辨率的特征图,所述第一RDBP网络和所述第二RDBP网络分别包括下采样反向投影层、上采样反向投影层以及注意力层;以及
基于通过所述第一RDBP网络和所述第二RDBP网络生成的所述第二分辨率的特征图和所述第一分辨率的特征图,生成所述第二分辨率的输出图像。
2.根据权利要求1所述的方法,其中生成第一分辨率的输入图像的第二分辨率的特征图包括:
通过对所述输入图像进行卷积和加权处理,来提取第一分辨率的特征图;以及
通过对所述第一分辨率的特征图进行上采样,来获得所述第二分辨率的特征图。
3.根据权利要求1所述的方法,其中通过第一RDBP网络生成所述第二分辨率的特征图和所述第一分辨率的特征图包括:
通过对输入的所述第二分辨率的特征图进行下采样,来获得初始经下采样的特征图;
通过对所述初始经下采样的特征图进行上采样和下采样,来生成第一经上采样的特征图和第一经下采样的特征图;以及
通过对所述初始经下采样的特征图和所述第一经下采样的特征图进行加权处理,来生成第一经调整的特征图。
4.根据权利要求3所述的方法,其中通过第一RDBP网络生成所述第二分辨率的特征图和所述第一分辨率的特征还包括:
通过对所述第一经调整的特征图进行上采样和下采样,来生成第二经上采样的特征图和第二经下采样的特征图;以及
通过对所述初始经下采样的特征图、所述第一经下采样的特征图和所述第二经下采样的特征图进行加权处理,来生成第二经调整的特征图。
5.根据权利要求4所述的方法,其中通过第一RDBP网络生成所述第二分辨率的特征图和所述第一分辨率的特征还包括:
通过对所述第二经调整的特征图进行上采样,来生成第三经上采样的特征图;
通过对所述第一经上采样的特征图、所述第二经上采样的特征图以及所述第三经上采样的特征图进行卷积,来生成注意力调整的特征图;以及
将所述注意力调整的特征图确定为所述第二分辨率的特征图,以及将所述第二经调整的特征图确定为所述第一分辨率的特征图。
6.根据权利要求2所述的方法,其中所述上采样包括:
通过对所述第一分辨率的特征图进行反卷积和卷积,获得经卷积的特征图;以及
基于所述第一分辨率的特征图和所述经卷积的特征图,生成所述第二分辨率的特征图。
7.根据权利要求3所述的方法,其中所述下采样包括:
通过对所述第二分辨率的特征图进行卷积和反卷积,获得经反卷积的特征图;以及
基于所述第二分辨率的特征图和所述经反卷积的特征图,生成所述第一分辨率的特征图。
8.根据权利要求5所述的方法,还包括:
在生成所述第三经上采样的特征图之前,迭代地执行生成所述第二经调整的特征图的过程。
9.根据权利要求1所述的方法,还包括:
迭代地执行多次通过RDBP网络生成所述第二分辨率的特征图和所述第一分辨率的特征图的过程。
10.根据权利要求1所述的方法,其中生成所述第二分辨率的输出图像包括:
通过将所述第一RDBP网络和所述第二RDBP网络生成的多个所述第二分辨率的特征图连接到一起,生成所述第二分辨率的特征图集合;以及
通过将所述第一RDBP网络和所述第二RDBP网络生成的多个所述第一分辨率的特征图连接到一起,生成所述第一分辨率的特征图集合。
11.根据权利要求10所述的方法,其中生成所述第二分辨率的输出图像还包括:
通过对所述第二分辨率的特征图集合与所述第一分辨率的特征图集合进行第一加权处理,来生成经跨尺度调整注意力的所述第二分辨率的特征图;以及
通过对所述第二分辨率的特征图集合与所述第一分辨率的特征图集合进行第二加权处理,来生成经跨尺度调整注意力的所述第一分辨率的特征图。
12.根据权利要求11所述的方法,其中生成所述第二分辨率的输出图像还包括:
基于所述经跨尺度调整注意力的所述第二分辨率的特征图、所述经跨尺度调整注意力的所述第一分辨率的特征图以及所述第一分辨率的输入图像,生成所述第二分辨率的输出图像。
13.一种电子设备,包括:
至少一个处理器;以及
耦合至所述至少一个处理器并且具有存储于其上的指令,所述指令在由所述至少一个处理器执行时使所述电子设备执行动作,所述动作包括:
生成第一分辨率的输入图像的第二分辨率的特征图,所述第一分辨率小于所述第二分辨率;
通过第一基于残差的密集反向投影(RDBP)网络生成所述第二分辨率的特征图和所述第一分辨率的特征图;
通过第二RDBP网络生成所述第二分辨率的特征图和所述第一分辨率的特征图,所述第一RDBP网络和所述第二RDBP网络分别包括下采样反向投影层、上采样反向投影层以及注意力层;以及
基于通过所述第一RDBP网络和所述第二RDBP网络生成的所述第二分辨率的特征图和所述第一分辨率的特征图,生成所述第二分辨率的输出图像。
14.根据权利要求13所述的设备,其中生成第一分辨率的输入图像的第二分辨率的特征图包括:
通过对所述输入图像进行卷积和加权处理,来提取第一分辨率的特征图;以及
通过对所述第一分辨率的特征图进行上采样,来获得所述第二分辨率的特征图。
15.根据权利要求13所述的设备,其中通过第一RDBP网络生成所述第二分辨率的特征图和所述第一分辨率的特征图包括:
通过对输入的所述第二分辨率的特征图进行下采样,来获得初始经下采样的特征图;
通过对所述初始经下采样的特征图进行上采样和下采样,来生成第一经上采样的特征图和第一经下采样的特征图;以及
通过对所述初始经下采样的特征图和所述第一经下采样的特征图进行加权处理,来生成第一经调整的特征图。
16.根据权利要求15所述的设备,其中通过第一RDBP网络生成所述第二分辨率的特征图和所述第一分辨率的特征还包括:
通过对所述第一经调整的特征图进行上采样和下采样,来生成第二经上采样的特征图和第二经下采样的特征图;以及
通过对所述初始经下采样的特征图、所述第一经下采样的特征图和所述第二经下采样的特征图进行加权处理,来生成第二经调整的特征图。
17.根据权利要求16所述的设备,其中通过第一RDBP网络生成所述第二分辨率的特征图和所述第一分辨率的特征还包括:
通过对所述第二经调整的特征图进行上采样,来生成第三经上采样的特征图;
通过对所述第一经上采样的特征图、所述第二经上采样的特征图以及所述第三经上采样的特征图进行卷积,来生成注意力调整的特征图;以及
将所述注意力调整的特征图确定为所述第二分辨率的特征图,以及将所述第二经调整的特征图确定为所述第一分辨率的特征图。
18.根据权利要求14所述的设备,其中所述上采样包括:
通过对所述第一分辨率的特征图进行反卷积和卷积,获得经卷积的特征图;以及
基于所述第一分辨率的特征图和所述经卷积的特征图,生成所述第二分辨率的特征图。
19.根据权利要求15所述的设备,其中所述下采样包括:
通过对所述第二分辨率的特征图进行卷积和反卷积,获得经反卷积的特征图;以及
基于所述第二分辨率的特征图和所述经反卷积的特征图,生成所述第一分辨率的特征图。
20.一种计算机程序产品,所述计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行动作,所述动作包括:
生成第一分辨率的输入图像的第二分辨率的特征图,所述第一分辨率小于所述第二分辨率;
通过第一基于残差的密集反向投影(RDBP)网络生成所述第二分辨率的特征图和所述第一分辨率的特征图;
通过第二RDBP网络生成所述第二分辨率的特征图和所述第一分辨率的特征图,所述第一RDBP网络和所述第二RDBP网络分别包括下采样反向投影层、上采样反向投影层以及注意力层;以及
基于通过所述第一RDBP网络和所述第二RDBP网络生成的所述第二分辨率的特征图和所述第一分辨率的特征图,生成所述第二分辨率的输出图像。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298887.8A CN117974441A (zh) | 2022-10-21 | 2022-10-21 | 用于图像处理的方法、设备和计算机程序产品 |
US17/987,491 US20240233073A9 (en) | 2022-10-21 | 2022-11-15 | Method, device, and computer program product for image processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298887.8A CN117974441A (zh) | 2022-10-21 | 2022-10-21 | 用于图像处理的方法、设备和计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117974441A true CN117974441A (zh) | 2024-05-03 |
Family
ID=90863800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211298887.8A Pending CN117974441A (zh) | 2022-10-21 | 2022-10-21 | 用于图像处理的方法、设备和计算机程序产品 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240233073A9 (zh) |
CN (1) | CN117974441A (zh) |
-
2022
- 2022-10-21 CN CN202211298887.8A patent/CN117974441A/zh active Pending
- 2022-11-15 US US17/987,491 patent/US20240233073A9/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240233073A9 (en) | 2024-07-11 |
US20240135489A1 (en) | 2024-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475542B2 (en) | Neural network system with temporal feedback for adaptive sampling and denoising of rendered sequences | |
Heide et al. | Proximal: Efficient image optimization using proximal algorithms | |
US20190035113A1 (en) | Temporally stable data reconstruction with an external recurrent neural network | |
RU2424561C2 (ru) | Обучение сверточных нейронных сетей на графических процессорах | |
Ng et al. | Solving constrained total-variation image restoration and reconstruction problems via alternating direction methods | |
US20200126192A1 (en) | Neural network system with temporal feedback for denoising of rendered sequences | |
JP5734475B2 (ja) | 変換の高速でメモリ効率の良い実施のための方法 | |
US20150093045A1 (en) | Method and apparatus for performing hierarchical super-resolution of an input image | |
US11494879B2 (en) | Convolutional blind-spot architectures and bayesian image restoration | |
CN102770887A (zh) | 用于从输入图像产生像素分辨率提高的输出图像的方法和系统 | |
US11741579B2 (en) | Methods and systems for deblurring blurry images | |
WO2023279936A1 (en) | Methods and systems for high definition image manipulation with neural networks | |
Xu et al. | Nonlocal similarity based DEM super resolution | |
Young et al. | Gaussian lifting for fast bilateral and nonlocal means filtering | |
Xu et al. | Efficient image super-resolution integration | |
US11861811B2 (en) | Neural network system with temporal feedback for denoising of rendered sequences | |
CN117974441A (zh) | 用于图像处理的方法、设备和计算机程序产品 | |
Su et al. | Single image super-resolution based on space structure learning | |
Milanfar et al. | Denoising: A powerful building-block for imaging, inverse problems, and machine learning | |
EP3540695A1 (en) | Method for transfer of a style of a reference visual object to another visual object, and corresponding electronic device, computer readable program products and computer readable storage medium | |
van der Walt et al. | A polygon-based interpolation operator for super-resolution imaging | |
US12079957B2 (en) | Modeling continuous kernels to generate an enhanced digital image from a burst of digital images | |
US20240046407A1 (en) | Method and apparatus with image reconstruction | |
KR102648938B1 (ko) | 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치 | |
EP4446972A1 (en) | Method and apparatus with super-sampling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |