CN114596201A - 用于处理图像的方法和设备 - Google Patents

用于处理图像的方法和设备 Download PDF

Info

Publication number
CN114596201A
CN114596201A CN202110538128.3A CN202110538128A CN114596201A CN 114596201 A CN114596201 A CN 114596201A CN 202110538128 A CN202110538128 A CN 202110538128A CN 114596201 A CN114596201 A CN 114596201A
Authority
CN
China
Prior art keywords
image
image processing
scale
result
residual blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110538128.3A
Other languages
English (en)
Inventor
姜德宁
赵良镐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN114596201A publication Critical patent/CN114596201A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

提供了用于处理图像的方法和设备。所述方法包括:获得目标图像;和通过使用所述神经网络来获得与目标图像对应的恢复的图像,所述神经网络包括顺序连接的多个残差块。获得恢复的图像的步骤包括:在所述多个残差块中的每个残差块中,通过以不同的尺度对从前一残差块输入的输入图像执行图像处理来获得恢复的图像,并且将以不同的尺度执行的图像处理的结果提供给后续残差块。

Description

用于处理图像的方法和设备
本申请要求于2020年12月7日在韩国知识产权局提交的第10-2020-0169146号韩国专利申请的优先权,所述韩国专利申请的公开通过引用全部包含于此。
技术领域
与示例实施例一致的方法和设备涉及图像处理。
背景技术
光学技术和图像处理技术的发展已经带来了拍摄装置在各种领域(诸如,多媒体内容、安全、识别等)中的广泛使用。拍摄装置可设置在例如移动装置、相机、车辆和计算机中,以拍摄图像或者获得用于识别对象或控制这样的装置的数据。拍摄装置的体积可由镜头的大小、镜头的焦距和传感器的大小确定。为了减小体积,可使用包括小透镜的多镜头。
发明内容
一个或多个示例实施例至少解决以上问题和/或缺点以及以上未描述的其它缺点。此外,示例实施例不需要克服以上描述的缺点。
根据公开的示例实施例的一方面,提供了一种通过使用神经网络的用于处理图像的方法,所述方法通过使用至少一个处理器来执行,并且所述方法包括:获得目标图像;和通过使用所述神经网络来获得与目标图像对应的恢复的图像,所述神经网络包括顺序连接的多个残差块,其中,获得恢复的图像的步骤包括:在所述多个残差块中的每个残差块中,通过以不同的尺度对从前一残差块输入的输入图像执行图像处理来获得恢复的图像,并且将以不同的尺度执行的图像处理的结果提供给后续残差块。
提供图像处理的结果的步骤可包括:通过以对应的尺度连接到后续残差块的跳过连接来提供在所述多个残差块中的每个残差块中以对应的尺度执行的图像处理的结果,并且以每个尺度执行的图像处理的结果可用于将在后续残差块中以对应的尺度执行的图像处理。
执行图像处理的步骤可包括:在所述多个残差块中的每个残差块中,使用输入图像和以不同的尺度执行的图像处理的结果来逐渐地恢复输入图像。
可使用以第二尺度执行的图像处理的结果以进行将以第一尺度执行的图像处理,第一尺度表示输入图像的第一范围的区域,第二尺度表示比第一范围大的第二范围的区域。
可对以第二尺度执行的图像处理的结果执行像素混洗或上采样,并且将像素混洗或上采样的结果可用于将以第一尺度执行的图像处理。
可基于通过对将应用第一尺度的图像处理的图像执行逆像素混洗或下采样获得的结果以第二尺度执行图像处理。
获得恢复的图像的步骤还可包括:在所述多个残差块中的每个残差块中,对以每个尺度执行的图像处理中的卷积操作的结果执行归一化操作。
以每个尺度执行的图像处理的结果可与未应用以每个尺度的图像处理的输入图像一起被提供给后续残差块,以用于在后续残差块中将以对应的尺度执行的图像处理。
应用于所述多个残差块中的每个残差块的不同的尺度的数量可基于在目标图像中的潜在劣化的大小、用于图像处理的卷积核的大小或不同的尺度之间的差异的程度中的至少一个而被确定。
目标图像可对应于发生劣化的至少一个低分辨率图像,并且恢复的图像可以是劣化被减小的高分辨率图像。
获得目标图像的步骤可包括:基于通过多镜头阵列拍摄的多个图像或者通过单个镜头多次拍摄的多个图像确定目标图像。
根据公开的示例实施例的一方面,提供了一种存储指令的非暂时性计算机可读存储介质,所述指令能够由处理器执行,以执行前述的一种或多种方法。
根据公开的示例实施例的一方面,提供了一种用于处理图像的设备,所述设备包括:至少一个处理器,被配置为:获得目标图像,并且通过使用神经网络获得与目标图像对应的恢复的图像,神经网络包括顺序连接的多个残差块,其中,所述多个残差块中的每个残差块被配置为:以不同的尺度对从前一残差块输入的输入图像执行图像处理,并且将以不同的尺度执行的图像处理的结果提供给后续残差块。
所述多个残差块中的每个残差块可被配置为:通过以对应的尺度连接到后续残差块的跳过连接来提供以对应的尺度执行的图像处理的结果,并且以每个尺度执行的图像处理的结果可用于将在后续残差块中以对应的尺度执行的图像处理。
所述多个残差块中的每个残差块可被配置为:使用输入图像和以不同的尺度执行的图像处理的结果来逐渐地恢复输入图像。
所述多个残差块中的每个残差块可被配置为:使用以第二尺度执行的图像处理的结果以进行将以第一尺度执行的图像处理,第一尺度表示输入图像的第一范围的区域,第二尺度表示比第一范围大的第二范围的区域。
所述多个残差块中的每个残差块可被配置为:对以每个尺度执行的图像处理中的卷积操作的结果执行归一化操作。
所述多个残差块中的每个残差块可被配置为:将以每个尺度执行的图像处理的结果和未应用以每个尺度的图像处理的输入图像提供给后续残差块,用于将在后续残差块中以对应的尺度执行的图像处理。
应用于所述多个残差块中的每个残差块的不同的尺度的数量可基于在目标图像中的潜在劣化的大小、用于图像处理的卷积核的大小或不同的尺度之间的差异的程度而被确定。
目标图像可以是通过多镜头阵列拍摄的多个图像或者通过布置的单个镜头多次拍摄的多个图像中的图像。
附图说明
通过结合附图描述特定示例实施例,以上和/或其它方面将更加清楚,其中:
图1、图2和图3示出根据示例实施例的确定目标图像的示例;
图4示出根据示例实施例的图像处理方法的示例的流程图;
图5、图6、图7、图8、图9和图10示出根据示例实施例的图像处理模型的示例;
图11示出根据示例实施例的图像处理设备的示例;以及
图12和图13示出根据示例实施例的图像处理设备的实施方式的示例。
具体实施方式
以下参照附图详细地描述示例实施例。
在下面的描述中,即使在不同的附图中,相同的附图参考标号也用于相同的元件。提供在描述中定义的事物(诸如,详细的构造和元件),以帮助全面理解示例实施例。然而,清楚的是,可在没有那些具体定义的事物的情况下实践示例实施例。此外,由于公知的功能或构造会以不必要的细节模糊描述,因此不详细描述它们。
尽管使用“第一”或“第二”的术语来解释各种组件,但是组件不被术语所限制。这些术语应仅被用于将一个组件与另一组件进行区分。例如,在根据公开的构思的权利的范围内,“第一”组件可被称为“第二”组件,或者类似地,“第二”组件可被称为“第一”组件。
将理解,当组件被称为“连接到”另一组件时,该组件可直接连接或结合到该另一组件,或者可存在中间组件。
如在此所使用的,除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。还应理解,术语“包含”和/或“包括”在本说明书中被使用时,说明存在阐述的特征、整体、步骤、操作、元件、组件或它们的组合,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或它们的组。诸如“……中的至少一个”的表述在一列元素之后时,修饰整列元素而不是修饰列中的单个元素。例如,表述“a、b和c中的至少一个”应被理解为:仅包括a、仅包括b、仅包括c、包括a和b二者、包括a和c二者、包括b和c二者或者包括全部的a、b和c。
除非在此另有定义,否则在此使用的所有术语(包括技术术语或科学术语)具有与本领域的普通技术人员通常理解的含义相同的含义。除非在此另有定义,否则通用词典中定义的术语应被解释为具有与相关领域中的上下文含义匹配的含义,并且将不被解释为理想化或过于形式化的含义。
在下文中,将参照附图详细描述示例,并且在附图中相同的参考标号始终表示相同的元件。此外,在示例实施例的描述中,当认为在理解本申请的公开之后由此得知的结构或功能的详细描述将导致对示例实施例的模糊解释时,将省略这样的描述。
图1、图2和图3示出根据示例实施例的确定目标图像的示例。
参照图1,相机100包括镜头阵列110和感测阵列120。相机100可基于镜头阵列110拍摄复眼视觉(CEV)图像130。由相机100拍摄的CEV图像130的质量可基于包括在感测阵列120中的感测元件的数量和入射在感测阵列120的每个感测元件(例如,感测元件121)上的光的量而被确定。例如,CEV图像130的分辨率可通过包括在感测阵列120中的感测元件的数量而被确定,CEV图像130的灵敏度可通过入射在感测元件121上的光的量而被确定。入射在感测元件121上的光的量可基于感测元件121的大小而被确定。随着感测元件121的大小增大,入射在感测元件121上的光的量可增加,并且感测阵列120的动态范围也可增大。因此,随着感测元件121的大小增大,感测阵列120可甚至在处于低照明条件下拍摄高灵敏度图像时有效地进行操作。此外,随着包括在感测阵列120中的感测元件的数量增加,感测阵列120可拍摄更高分辨率的图像。
相机100的体积可基于镜头阵列110的每个镜头元件(例如,镜头元件111)的焦距f1而被确定。例如,相机100的体积可通过镜头元件111与感测阵列120之间的间隔而被确定。这是因为,为了收集由镜头元件111折射的光190,感测阵列120需要设置在镜头元件111的焦距f1处,因此镜头元件111和感测阵列120需要间隔镜头元件111的焦距f1而彼此分开地设置。
镜头元件111的焦距f1可基于相机100的视角和镜头元件111的大小而被确定。镜头元件111的大小可对应于例如镜头元件111的孔径的半径。例如,当视角被固定时,焦距f1可与镜头元件111的大小成比例地增大。另外,镜头元件111的大小可基于感测阵列120的大小而被确定。例如,为了拍摄特定视角范围内的图像,镜头元件111的大小可需要随着感测阵列120的大小增大而增大。
如上所述,为了在保持图像的视角和分辨率的同时增大图像的灵敏度,可增大相机100的体积。例如,为了在保持图像的分辨率的同时增大图像的灵敏度,可需要在保持包括在感测阵列120中的感测元件的数量的同时增大每个感测元件(例如,感测元件121)的大小,由此感测阵列120的大小可增大。在这个示例中,为了保持视角,镜头元件111的大小可随着感测阵列120的大小增大而增大,镜头元件111的焦距f1也可增大。因此,相机100的体积可增大。
如图所示,相机100包括镜头阵列110和感测阵列120。镜头阵列110包括多个镜头元件,感测阵列120包括多个感测元件。镜头元件可沿镜头阵列110的平面布置,感测元件可沿感测阵列120的平面布置。感测阵列120的感测元件可被划分为感测区域,每个感测区域与每个镜头元件对应。镜头阵列110的平面可平行于感测阵列120的平面,并且与感测阵列120的平面间隔包括在镜头阵列110中的每个镜头元件(例如,镜头元件111)的焦距f1。镜头阵列110也可被称为微多镜头阵列(MMLA)或多镜头阵列。
根据示例实施例,通过减小包括在镜头阵列110中的每个镜头元件的大小(即,通过增加包括在同一区域中的镜头元件的数量),每个镜头元件(例如,镜头元件111)的焦距f1可减小,相机100的厚度也可减小。在这样的情况下,相机100可重新排列和组合与由镜头元件拍摄的低分辨率图像对应的CEV图像130,以恢复原始高分辨率图像。因此,通过划分包括在镜头阵列110中的镜头元件,可设置薄相机。
镜头阵列110的单个镜头元件(例如,镜头元件111)可覆盖感测阵列120中的与镜头元件111的大小对应的区域。穿过镜头元件111的光190可被入射在包括在该区域中的感测阵列120的感测元件上。光190可包括多条光线。光线191可对应于光子101的流动。感测阵列120的每个感测元件可基于穿过镜头阵列110的镜头元件的光线191来生成感测信息。例如,感测元件121可基于穿过镜头元件111的光线191来生成感测信息。基于从感测阵列120输出的感测信息,相机100可确定与包括在相机100的视场中的点的原始颜色信号对应的颜色信息(例如,颜色值),并且基于确定的颜色信息来恢复拍摄的图像。
感测元件121可包括用于感测颜色的滤色器。感测元件121可生成与颜色对应的颜色值作为感测信息。包括在感测阵列120中的每个感测元件可布置为感测与在空间上邻近每个感测元件的相邻感测元件不同的颜色。
由此,可获得感测信息的足够水平的多样性。因此,当在感测信息和与包括在相机100的视场中的点对应的原始信号信息之间建立满秩关系时,可获得与感测阵列120的最高分辨率对应的拍摄图像。可基于相机100的参数(诸如,以包括在镜头阵列110中的镜头元件的数量和包括在感测阵列120中的感测元件的数量为例)来获得感测信息的多样性。
参照图2,当通过以上描述的结构的相机拍摄对象210的图像时,可生成CEV图像220。CEV图像220可表示像通过昆虫的复眼观察到的从同一对象210重叠拍摄的图像。例如,相机可基于由多个感测元件通过以阵列形式布置的多个镜头元件接收的光的强度来生成CEV图像220。在图2的示例中,CEV图像220可包括九个低分辨率图像,对象210可在每个低分辨率图像中被示出。
基于以上描述的相机结构,在CEV图像220的低分辨率图像中可能发生视差(disparity)。例如,在CEV图像220的中心处的低分辨率图像可在其中心处或其中心周围具有对象210,而在CEV图像220的边缘处的低分辨率图像可在其边缘处或其边缘周围具有对象210。
为了去除由于相机结构而即使关于同一对象210也发生的这样的视差,CEV图像220可基于对准网络对而被对准。因此,在对准后的图像230中,与CEV图像220相比,在每个低分辨率图像中,对象210的位置可相对(或基本上)相同。
通过将像素混洗应用于对准后的图像230中的每个低分辨率图像然后重叠低分辨率图像来增大图像大小,可确定放大图像240。然而,因为放大图像240从低分辨率图像被放大,所以放大图像240可仍然具有低分辨率,因此放大图像240中的对象210不会被清晰地示出,并且放大图像240可能具有各种劣化元素。例如,多个图像可能在放大图像240中重叠,或者在放大图像240中可能发生模糊。
通过基于图像恢复网络去除或减小放大图像240中的劣化,可确定恢复的图像250。例如,在放大图像240中发生的劣化可能由于应用于相机的镜头像差(lensaberration)。由于镜头像差,劣化可从放大图像240的中心朝向放大图像240的边缘更加加强,并且基于镜头对称。例如,劣化可具有基于镜头的轴对称性。劣化可在放大图像240的宽范围内呈现,因此可需要具有宽范围的感受野(receptive field)的图像恢复网络。除了这样的劣化之外,放大图像240还可具有根据例如相机结构或图像拍摄环境的各种劣化元素。恢复的图像250可以是劣化被减小或去除的高分辨率图像。放大图像240可以是用于图像恢复的目标,因此在此可被称为目标图像。
参照图3,相机300可通过单个镜头310拍摄多个图像320。单个镜头310可在尺寸上大于图1中示出的单独的镜头元件(例如,镜头元件111),并且具有更大的焦距f2,因此相机300的体积可大于图1中的相机100的体积。可使用单个镜头310通过一次拍摄来生成单个图像。可通过使用单个镜头310连续地拍摄同一场景来生成来自不同的视点的多个图像(例如,图像320)。然而,即使通过连续地快速拍摄同一场景,包括在图像320中的信息也可能由于相机300的细微移动或场景中的对象的移动而略微改变,因此在通过重叠图像320确定的图像中可能发生劣化(诸如,模糊)。例如,由于相机300的细微移动而发生的劣化可能在宽范围的图像内呈现,因为由于相机300的移动由相机300拍摄的整个场景被摇动,因此可能需要具有宽范围的感受野的图像恢复网络。通过重叠图像320确定的图像可以是用于图像恢复的目标,因此在此可被称为目标图像。
在下文中描述的下面的示例涉及通过图像恢复网络获得与目标图像对应的恢复的图像。
图4示出根据示例实施例的图像处理方法的示例的流程图。
在下文中参照图4描述的图像处理方法可由使用神经网络的图像处理设备的处理器执行。
参照图4,在操作410,图像处理设备获得目标图像。例如,图像处理设备可基于由嵌入式相机模块或外部相机装置拍摄的图像来获得目标图像。目标图像可以是其中发生劣化的至少一个低分辨率图像,并且可包括例如图2的放大图像240和/或通过重叠图3的图像320确定的图像。然而,目标图像不限于放大图像240和/或确定的图像320,并且可包含包括劣化的任何图像。
在操作420,图像处理设备使用神经网络来获得与目标图像对应的恢复的图像,神经网络可包括顺序连接的多个残差块。将参照图5至图9详细描述包括残差块的神经网络。
图5至图10示出根据示例实施例的图像处理模型的示例。
参照图5,神经网络包括卷积层(Conv)510和卷积层530以及多个残差块520。在图5的示例中,残差块520串联连接在卷积层510与卷积层530之间。
卷积层510可从目标图像收集和/或处理图像信息,并且将收集和/或处理的结果传送到残差块520中的第一残差块。卷积层530可基于从残差块520的最后残差块接收的图像处理结果来确定恢复的图像。
每个残差块可通过逐渐去除或减小从前一残差块传送的图像中的劣化来逐渐地恢复图像。每个残差块可以以不同的尺度(scale)对从前一残差块输入的图像执行图像处理或图像恢复,并且将图像处理的结果传送到后续残差块。尽管为了便于描述,在图5中将尺度示出为被分为三个层级(level)521、522和523,但是不同的尺度的数量不限于示出的示例。
在层级521、522和523中的每个层级,两个卷积层和设置在卷积层间的激活函数层可用于图像处理。两个卷积层中的第一卷积层可从接收的图像收集和/或处理图像信息,并且将收集和/或处理的结果传送到激活函数层。激活函数层可从接收的信息过滤掉不必要的或不重要的信息。尽管修正线性单元(ReLU)层被示出为图5中的激活函数层的示例,但是可采用其它各种激活函数层(诸如,以泄露ReLU层、参数化ReLU(PReLU)层、S型(sigmoid)层、柔性最大(softmax)层和双曲正切层为例)。两个卷积层中的最后卷积层可将通过过滤的接收到的信息表示为图像并输出该图像。例如,输出图像可对应于输入到第一层级521的图像的高频信息。在第一层级521,通过内部跳过连接(internal skip-connection),输入到第一层级521的图像(例如,模糊图像)可与从最后卷积层输出的图像组合,或者输入到第一层级521的图像(例如,模糊图像)可被添加到从最后卷积层输出的图像,因此包括在图像中的劣化(例如,模糊)可被减小。
将参照图6详细描述设置在层级521、522和523中的每个的两个卷积层的操作。基于模型的去模糊问题可被表示如下。
[等式1]
Figure BDA0003070633920000091
在等式1中,k表示模糊滤波器,
Figure BDA0003070633920000092
表示水平和垂直方向梯度滤波器,梯度滤波器被表示为例如[1,-1]、[1;-1]或另外类型的高频滤波器。x表示地面真值图像,k*x表示模糊图像。y表示输入图像,F表示弗罗贝尼乌斯(Frobenius)范数。该问题可基于梯度下降而被解决,梯度下降可被表示如下。
[等式2]
Figure BDA0003070633920000093
在等式2中,xn表示当前步骤中的推断图像,xn+1表示随后的步骤中的推断图像。λ和α表示权重。可通过计算从顺序地用k和kT对当前步骤中的图像xn进行卷积获得的结果与从顺序地用
Figure BDA0003070633920000094
Figure BDA0003070633920000095
对当前步骤中的图像xn进行卷积获得的结果的加权和并添加偏置来代替去模糊问题。
等式2可被示出为图6的左图,图6的左图被概括为如图6的右图中所示的简化形式。例如,简化的两个卷积层中的每个可包括用于从图像提取特征数据的64个内核。由等式2表示的梯度下降的一个步骤可由两个卷积层表示。
返回参照图5,残差块中的层级521、522和523可具有不同的尺度,每个尺度指示在执行图像处理时将被参照的范围的大小。例如,在第一层级521,可以以第一尺度执行图像处理,第一尺度表示输入图像的第一范围的区域。在第二层级522,可以以第二尺度执行图像处理,第二尺度表示比输入图像的第一范围大的第二范围的区域。在第三层级523,可以以第三尺度执行图像处理,第三尺度表示比输入图像的第二范围大的第三范围的区域。设置在层级521、522和523中的每个的卷积层的内核大小是相同的,但是在执行图像处理时将被参照的区域的大小是不同的。这是因为,当图像从第一层级521传送到第二层级522时,执行逆像素混洗。
将参照图7详细描述逆像素混洗。参照图7,例如,可通过逆像素混洗将1个通道的4×4图像变换为4个通道的2×2图像。在这个示例中,在1个通道的4×4图像中彼此不相邻的像素可被布置为在同一通道中的图像中彼此相邻。通过2×2卷积,在1个通道的4×4图像中未被参照的图像信息的集合可在4个通道的2×2图像中被参照。也就是说,通过在不增大卷积大小的情况下执行逆像素混洗,可通过参照经由现有卷积大小未被参照的图像信息来执行图像处理。因此,可防止在增大卷积大小以参照图像中的远程信息时操作量或计算量显著增大。通过逆像素混洗增加的通道的数量可通过随后将被执行的卷积来减少。
返回参照图5,通过逆像素混洗获得的图像可与从前一残差块传送的第二尺度的图像组合,或者通过逆像素混洗获得的图像可被添加到从前一残差块传送的第二尺度的图像。从前一残差块传送的图像可以是在前一残差块中以第二尺度执行的图像处理的结果,因此具有与在从第一层级521传送之后通过逆像素混洗获得的图像相同的大小。这里,可彼此添加两个图像的对应的像素值。以这种方式,可防止冗余操作,重新利用前一块信息,并且防止当图像信息从各种层级传送时可在网络的一部分中发生的瓶颈现象。在从第一层级521传送之后通过逆像素混洗获得的图像和从前一残差块传送的第二尺度的图像可用于图像处理或图像恢复,图像处理或图像恢复参照根据第二尺度的第二范围的区域。与第一尺度相比,在第二层级522以第二尺度执行的图像处理可具有将被参照的更宽范围,因此可有效地去除或减小更宽范围的图像内的劣化。以第二尺度执行的图像处理的结果可被传送到后续残差块,并且用于在后续残差块中将以第二尺度执行的图像处理。
另外,以第二尺度执行的图像处理的结果可在经历像素混洗之后被传送到第一层级521,然后用于将以第一尺度执行的图像处理。
以第二尺度执行的图像处理的结果可在经历逆像素混洗之后被传送到第三层级523,然后用于将以第三尺度执行的图像处理。可与如上所述相同的方式执行将在第三层级523以第三尺度执行的图像处理,因此为了简洁,将省略其详细描述。
由于残差块中的层级521、522和523中的每个都是U形并行连接形式,因此残差块可被称为并行残差U块。这样的结构的残差块520被顺序地连接,因此可通过在用于从目标图像获得恢复的图像的整个图像处理的各个步骤中参照各种尺度的图像信息来提高图像恢复性能。
在图5的示例中,描述了可在逆像素混洗之后执行图像的添加,或者在将图像传送到另一层级时执行像素混洗。然而,公开不限于这个示例,并且操作的次序可根据示例实施例而改变。对于另一示例,可将从第一层级521传送到第二层级522的图像添加到从前一残差块传送的图像,然后可对其执行逆像素混洗。类似地,可首先将像素混洗应用于从第二层级522的最后卷积层输出的图像,然后可将从其获得的合成图像传送到第一层级521和后续残差块。
在图5的示例中被分类为三个层级521、522和523的尺度可根据情况而变化。可确定将被应用于每个残差块的不同的尺度的数量或层级的数量,使得包括在目标图像中的各种大小的劣化元素基于层级通过不同的尺度被去除或减小。例如,可基于目标图像中发生的潜在劣化的大小、用于图像处理的卷积核的大小以及尺度的差异的程度(即,随着层级改变而改变的尺度的程度)来确定不同的尺度的数量。例如,在目标图像中可能发生的潜在劣化的大小是121×121、卷积核的大小是5×5、并且尺度的差异的程度是五倍的情况下,可将不同的尺度的数量确定为3,使得第一层级具有5×5的大小的尺度,第二层级具有25×25的大小的尺度,第三层级具有125×125的大小的尺度,从而以各种尺度去除或减小潜在劣化。对于另一示例,在目标图像中发生的潜在劣化是由于镜头的物理元素(例如,透镜像差)引起的情况下,可基于镜头信息确定可在目标图像中发生的潜在劣化的大小。
图8示出多个残差块的另一示例。如上参照图5所述的在图像被传送到残差块中的另一层级时执行的逆像素混洗或像素混洗可分别用下采样或上采样替换。下采样可表示通过对图像的一些值进行采样来减小图像的操作,并且包括例如平均池化和最大池化。上采样可表示通过增加包括在图像中的值来放大图像的操作,并且包括例如双线性插值和最近插值。
另外,以上参照图5描述的将通过逆像素混洗或像素混洗获得的图像与从前一残差块传送的图像或在对应层级处理的图像组合、或者将通过逆像素混洗或像素混洗获得的图像添加到从前一残差块传送的图像或在对应层级处理的图像的操作可用连接运算符(concatenation operator)代替。连接运算符可表示用于连接作为操作的目标的两个图像使得通道的数量增加的运算符。连接运算符在图8中由
Figure BDA0003070633920000121
指示。例如,在两个图像中的每个具有32个通道的情况下,通过连接两个图像获得的图像可具有总共64个通道。另一方面,在以上参照图5描述的图像加法(或求和)运算符中,在保持通道数量的同时将对应的像素值相加。具有通过连接运算符增加了通道的图像可在对应层级的第一卷积层中具有减少到原始通道数量的通道数量,因此图像后处理可被应用。
在图8的示例中,描述了当图像被传送到另一层级时,可在下采样或上采样之后执行图像连接。然而,公开不限于这个示例,并且操作的次序可根据示例而改变。例如,从第一层级810传送到第二层级820的图像可与从前一残差块传送的图像连接,然后被下采样。类似地,可首先将上采样应用于从第二层级820的最后卷积层输出的图像,然后可将从其获得的合成图像传送到第一层级810和后续残差块。
图9示出多个残差块的另一示例。以上参照图5描述的包括在每个层级中的逆像素混洗和卷积层可在图9的示例中用步长卷积层(strided convolution layer)替换。另外,以上参照图5描述的像素混洗和卷积层可用图9的示例中的解卷积层(Deconv)替换。在层级910、920和930中的每个,归一化层可布置在卷积层、步长卷积层和/或解卷积层之后。归一化层可基于通道注意力、自注意力、批归一化、弃权(drop-out)、线性缩放和空间特征变换(SFT)层等。
图10示出多个残差块的另一示例。虽然在图5的示例中内部跳过连接仅布置在第一层级521,但是在图10的示例中,内部跳过连接可布置在所有层级1010、1020和1030。内部跳过连接可用于各种尺度的图像处理。
图11示出根据示例实施例的图像处理设备的示例。
参照图11,图像处理设备1100包括存储器1110、处理器1120以及输入和输出接口1130。存储器1110、处理器1120以及输入和输出接口1130可通过总线1140彼此通信。
处理器1120可包括计算机可读指令。当存储在存储器1110中的指令由处理器1120执行时,处理器1120可执行以上描述的操作。存储器1110可包括易失性存储器和/或非易失性存储器。
处理器1120可以是被配置为执行指令或程序或者控制图像处理设备1100的装置,并且包括例如中央处理器(CPU)、图形处理器(GPU)、神经处理器(NPU)和数字信号处理器(DSP)。然而,包括在图像处理设备1100中的处理器1120的示例不限于前述示例。图像处理设备1100可通过输入和输出接口1130连接到外部装置(例如,相机装置或存储图像的数据库),并与外部装置交换数据(例如,目标图像)。可选地,图像处理设备1100可基于由内部相机模块(未示出)拍摄的图像来接收目标图像。在这样的情况下,处理器1120可获得目标图像,并且使用包括顺序连接的多个残差块的神经网络来获得与目标图像对应的恢复的图像。
图像处理设备1100可设置为例如但不限于计算装置(例如,智能电话、个人计算机(PC)、平板PC、膝上型计算机等)、可穿戴装置(例如,智能手表、智能眼镜、智能服装等)、家用电器(例如,智能扬声器、智能电视(TV)、智能冰箱等)或另外类型的计算装置(例如,智能车辆、智能自助服务终端、物联网(IoT)装置、助行装置(WAD)、无人机、机器人等)。
在劣化(例如,模糊)的水平高(或严重)或者超分辨率比例高的情况下,图像处理设备1100可通过参照图像中在空间上遥远的信息来恢复图像。图像处理设备1100还可处理以上描述的操作。
图12和图13示出根据示例实施例的图像处理设备的实施方式的示例。
根据示例实施例的图像处理设备可适用于各种技术领域。例如,根据示例实施例的图像处理设备可被设计为使得包括多个镜头元件的镜头阵列和包括多个感测元件的传感器以相对短的焦距彼此分开。因此,图像处理设备可被设置为具有用于拍摄高分辨率图像的相对大的传感器的超薄相机。图像处理设备可基于多镜头阵列的结构而具有减小的厚度。图像处理设备还可通过被设置为应用处理器(AP)、现场可编程门阵列(FPGA)、芯片等而被设置为相机的图像信号处理器。图像处理设备可应用于智能手机的前置相机或后置相机。在这样的情况下,图像处理设备可以以大的全帧传感器和微镜头阵列进行组合的结构应用于移动电话相机。图像处理设备还可设置为用于车辆的薄膜结构或弯曲结构。
例如,如图12中所示,图像处理设备1210可被设置为智能电话1200的后置相机。在这个示例中,图像处理设备1210的传感器可被设置为全帧,图像处理设备1210的镜头阵列可被设置为微镜头。
根据示例实施例的图像处理设备可用于数字单镜头反光(DSLR)相机、车辆、无人机、闭路电视(CCTV)相机、网络摄像头相机、360度相机、用于拍摄和广播的相机、虚拟现实/增强现实(VR/AR)相机等。图像处理设备还可适用于各种领域,包括例如柔性或可拉伸相机、昆虫眼相机、隐形眼镜型相机等。
此外,根据示例实施例的图像处理设备可适用于多帧超分辨率图像恢复,多帧超分辨率图像恢复使用视频图像的多个拍摄的连续帧的帧信息来增大分辨率。
对于另一示例,如图13中所示,图像处理设备1300可用在图像显示装置(例如,智能TV、智能电话、PC等)和播放或显示拍摄的图像的装置(例如,数字光盘(DVD)或蓝光盘播放器)中。
在此描述的单元可使用硬件组件、软件组件或它们的组合来实现。例如,硬件组件可包括麦克风、放大器、带通滤波器、音频至数字转换器、非暂时性计算机存储器以及处理装置。处理装置可使用一个或多个通用计算机或专用计算机(诸如,以处理器、控制器和算术逻辑单元(ALU)、数字信号处理器、微型计算机、现场可编程门阵列(FPGA)、可编程逻辑单元(PLU)、微处理器或能够以限定的方式响应并执行指令的任何其它装置为例)来实现。处理装置可运行操作系统(OS)和在OS上运行的一个或多个软件应用。处理装置还可响应于软件的执行来访问、存储、操控、处理和创建数据。为了简洁的目的,处理装置的描述为单数;然而,本领域技术人员将理解,处理装置可包括多个处理元件和多种类型的处理元件。例如,处理装置可包括多个处理器或处理器和控制器。另外,不同的处理配置是可行的(诸如,并行处理器)。
软件可包括计算机程序、代码段、指令或它们的任何组合,以独立地或共同地指示和/或配置处理装置如期望的那样进行操作。软件和数据可永久地或临时地设置在任何类型的机器、组件、物理或虚拟设备、计算机存储介质或装置中,或者以能够向处理装置提供指令或数据或能够由处理装置解释的传播信号波实现。软件还可分布在联网的计算机系统上,使得软件以分布式方式被存储和执行。软件和数据可由一个或多个非暂时性计算机可读记录介质存储。非暂时性计算机可读记录介质可包括可存储其后可由计算机系统或处理装置读取的数据的任何数据存储装置。
示例实施例包括非暂时性计算机可读介质,该非暂时性计算机可读介质包括用于实现由计算机执行的各种操作的程序指令。介质还可单独地或与程序指令组合地包括数据文件、数据结构、表等。介质和程序指令可以是为了示例实施例的目的而专门设计和构造的介质和程序指令,或者它们可以是计算机软件领域的技术人员已知和可用的。非暂时性计算机可读介质的示例包括磁介质(诸如,硬盘、软盘和磁带)、光学介质(诸如,光盘只读存储器(CD-ROM))、磁光介质(诸如,光盘)以及被专门配置为存储和执行程序指令的硬件装置(诸如,只读存储器(ROM)、随机存取存储器(RAM))。程序指令的示例包括诸如由编译器产生的机器代码和包含可由计算机使用解释器执行的高级代码的文件两者。描述的硬件装置可被配置为充当一个或多个软件模块,以便执行以上描述的示例实施例的操作,或者反之亦然。
虽然已经参照公开的实施例具体地示出并描述了公开,但是将理解,在不脱离权利要求及其等同物的精神和范围的情况下,可在其中进行形式和细节上的各种改变。

Claims (20)

1.一种通过使用神经网络的用于处理图像的方法,所述方法通过使用至少一个处理器来执行,并且所述方法包括:
获得目标图像;和
通过使用所述神经网络来获得与目标图像对应的恢复的图像,所述神经网络包括顺序连接的多个残差块,
其中,获得恢复的图像的步骤包括:在所述多个残差块中的每个残差块中,通过以不同的尺度对从前一残差块输入的输入图像执行图像处理来获得恢复的图像,并且将以不同的尺度执行的图像处理的结果提供给后续残差块。
2.根据权利要求1所述的方法,其中,提供图像处理的结果的步骤包括:通过以对应的尺度连接到后续残差块的跳过连接来提供在所述多个残差块中的每个残差块中以对应的尺度执行的图像处理的结果,
其中,以每个尺度执行的图像处理的结果用于将在后续残差块中以对应的尺度执行的图像处理。
3.根据权利要求1所述的方法,其中,执行图像处理的步骤包括:在所述多个残差块中的每个残差块中,使用输入图像和以不同的尺度执行的图像处理的结果来逐渐地恢复输入图像。
4.根据权利要求1所述的方法,其中,使用以第二尺度执行的图像处理的结果以进行将以第一尺度执行的图像处理,第一尺度表示输入图像的第一范围的区域,第二尺度表示比第一范围大的第二范围的区域。
5.根据权利要求4所述的方法,其中,对以第二尺度执行的图像处理的结果执行像素混洗或上采样,并且将像素混洗或上采样的结果用于将以第一尺度执行的图像处理。
6.根据权利要求4所述的方法,其中,基于通过对应用了第一尺度的图像处理的图像执行逆像素混洗或下采样获得的结果来执行以第二尺度执行的图像处理。
7.根据权利要求1所述的方法,其中,获得恢复的图像的步骤还包括:在所述多个残差块中的每个残差块中,对以每个尺度执行的图像处理中的卷积操作的结果执行归一化操作。
8.根据权利要求1所述的方法,其中,以每个尺度执行的图像处理的结果与未应用以每个尺度的图像处理的输入图像一起被提供给后续残差块,以用于在后续残差块中将以对应的尺度执行的图像处理。
9.根据权利要求1至权利要求8中的任意一项所述的方法,其中,应用于所述多个残差块中的每个残差块的不同的尺度的数量基于在目标图像中的潜在劣化的大小、用于图像处理的卷积核的大小以及不同的尺度之间的差异的程度中的至少一个而被确定。
10.根据权利要求1至权利要求8中的任意一项所述的方法,其中,目标图像对应于发生劣化的至少一个低分辨率图像,并且
其中,恢复的图像是劣化被减小的高分辨率图像。
11.根据权利要求1至权利要求8中的任意一项所述的方法,其中,获得目标图像的步骤包括:基于通过多镜头阵列拍摄的多个图像或者通过单个镜头多次拍摄的多个图像确定目标图像。
12.一种存储指令的非暂时性计算机可读存储介质,所述指令能够由处理器执行,以执行根据权利要求1至权利要求11中的任意一项所述的方法。
13.一种用于处理图像的设备,所述设备包括:
至少一个处理器,被配置为:获得目标图像,并且通过使用神经网络获得与目标图像对应的恢复的图像,神经网络包括顺序连接的多个残差块,
其中,所述多个残差块中的每个残差块被配置为:以不同的尺度对从前一残差块输入的输入图像执行图像处理,并且将以不同的尺度执行的图像处理的结果提供给后续残差块。
14.根据权利要求13所述的设备,其中,所述多个残差块中的每个残差块被配置为:通过以对应的尺度连接到后续残差块的跳过连接来提供以对应的尺度执行的图像处理的结果,并且
其中,以每个尺度执行的图像处理的结果用于将在后续残差块中以对应的尺度执行的图像处理。
15.根据权利要求13所述的设备,所述多个残差块中的每个残差块被配置为:使用输入图像和以不同的尺度执行的图像处理的结果来逐渐地恢复输入图像。
16.根据权利要求13所述的设备,其中,所述多个残差块中的每个残差块被配置为:使用以第二尺度执行的图像处理的结果以进行将以第一尺度执行的图像处理,第一尺度表示输入图像的第一范围的区域,第二尺度表示比第一范围大的第二范围的区域。
17.根据权利要求13所述的设备,其中,所述多个残差块中的每个残差块被配置为:对以每个尺度执行的图像处理中的卷积操作的结果执行归一化操作。
18.根据权利要求13所述的设备,其中,所述多个残差块中的每个残差块被配置为:将以每个尺度执行的图像处理的结果和未应用以每个尺度的图像处理的输入图像提供给后续残差块,用于将在后续残差块中以对应的尺度执行的图像处理。
19.根据权利要求13至权利要求18中的任意一项所述的设备,其中,应用于所述多个残差块中的每个残差块的不同的尺度的数量基于在目标图像中的潜在劣化的大小、用于图像处理的卷积核的大小以及不同的尺度之间的差异的程度而被确定。
20.根据权利要求13至权利要求18中的任意一项所述的设备,其中,目标图像是通过多镜头阵列拍摄的多个图像或者通过布置的单个镜头多次拍摄的多个图像之中的图像。
CN202110538128.3A 2020-12-07 2021-05-18 用于处理图像的方法和设备 Pending CN114596201A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200169146A KR20220080249A (ko) 2020-12-07 2020-12-07 영상 처리 방법 및 장치
KR10-2020-0169146 2020-12-07

Publications (1)

Publication Number Publication Date
CN114596201A true CN114596201A (zh) 2022-06-07

Family

ID=81804181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110538128.3A Pending CN114596201A (zh) 2020-12-07 2021-05-18 用于处理图像的方法和设备

Country Status (3)

Country Link
US (1) US11734800B2 (zh)
KR (1) KR20220080249A (zh)
CN (1) CN114596201A (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583345B (zh) 2018-11-21 2023-09-26 平安科技(深圳)有限公司 道路识别方法、装置、计算机装置及计算机可读存储介质
CN109598728B (zh) 2018-11-30 2019-12-27 腾讯科技(深圳)有限公司 图像分割方法、装置、诊断系统及存储介质
CN110120033A (zh) 2019-04-12 2019-08-13 天津大学 基于改进的U-Net神经网络三维脑肿瘤图像分割方法
CN110310270B (zh) 2019-06-29 2020-11-20 东南大学苏州医疗器械研究院 基于U-net网络模型的肿瘤微球轮廓检测方法及装置
KR20210051242A (ko) 2019-10-30 2021-05-10 삼성전자주식회사 멀티 렌즈 영상 복원 장치 및 방법
KR20210066366A (ko) 2019-11-28 2021-06-07 삼성전자주식회사 영상 복원 방법 및 장치
CN111242956A (zh) 2020-01-09 2020-06-05 西北工业大学 基于U-Net超声胎心和胎肺深度学习联合分割方法

Also Published As

Publication number Publication date
KR20220080249A (ko) 2022-06-14
US11734800B2 (en) 2023-08-22
US20220180480A1 (en) 2022-06-09

Similar Documents

Publication Publication Date Title
US20200162715A1 (en) View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning
US10645368B1 (en) Method and apparatus for estimating depth of field information
CN110428366B (zh) 图像处理方法和装置、电子设备、计算机可读存储介质
US11375092B2 (en) Image sensor and image sensing method
US11663699B2 (en) Method and apparatus for restoring image
EP3816929A1 (en) Method and apparatus for restoring image
US10924667B2 (en) Image sensor and image sensing method
Brady et al. Deep learning for camera data acquisition, control, and image estimation
US11941781B2 (en) Method and apparatus for restoring image
US11734877B2 (en) Method and device for restoring image obtained from array camera
US11595575B2 (en) Image sensor
KR102644944B1 (ko) 이미지 센서 및 이미지 센싱 방법
US11734800B2 (en) Method and apparatus for restoring an image by using a neural network including multi-scale residual blocks
KR20200072136A (ko) 렌즈 어레이 카메라 및 렌즈 어레이 카메라의 구동 방법
US20220028039A1 (en) Image restoration method and device
US11988849B2 (en) Imaging device and method
US10868957B2 (en) Apparatus and method for processing image to reconstruct image
CN116016816B (zh) 一种改进l-orb算法的嵌入式gpu零拷贝全景图像拼接方法和系统
US20230060314A1 (en) Method and apparatus with image processing
KR20210137886A (ko) 이미지 센서
CN112950476A (zh) 一种用于提高图片分辨率和清晰度的方法
CN116405791A (zh) 图像虚化处理方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination