CN117974442A - 用于图像处理的方法、电子设备和计算机程序产品 - Google Patents
用于图像处理的方法、电子设备和计算机程序产品 Download PDFInfo
- Publication number
- CN117974442A CN117974442A CN202211288516.1A CN202211288516A CN117974442A CN 117974442 A CN117974442 A CN 117974442A CN 202211288516 A CN202211288516 A CN 202211288516A CN 117974442 A CN117974442 A CN 117974442A
- Authority
- CN
- China
- Prior art keywords
- image
- resolution
- feature
- image feature
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000004590 computer program Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 title abstract description 60
- 230000004044 response Effects 0.000 claims description 18
- 238000003672 processing method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 abstract description 21
- 238000011084 recovery Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 60
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 21
- 239000000306 component Substances 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 6
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 210000004209 hair Anatomy 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及用于图像处理的方法、电子设备和计算机程序产品。方法包括提取第一分辨率的第一图像的第一图像特征和第二分辨率的第二图像的第二图像特征,其中第一分辨率小于第二分辨率,并且第一图像和第二图像相对应。方法还包括提取参考图像的参考图像特征,其中参考图像包括用于重建参考的边缘和模式。方法还包括基于第一图像特征、第二图像特征以及参考图像特征,生成第三分辨率的第三图像,其中第三分辨率小于等于第二分辨率。通过使用本方法,可以实现对低分辨率图像进行超分辨率图像处理,得到与原始图像相近或者相同分辨率的重建图像,从而可以节省大量的存储空间和设备成本,同时提供卓越的图像恢复质量。
Description
技术领域
本公开的实施例涉及计算机领域,并且更具体地,涉及用于图像处理的方法、电子设备和计算机程序产品。
背景技术
图像/视频超分辨率(super-resolution,SR)是计算机视觉中的基本信号处理。它是数字化和通信的基石。其目标是在不损失原始质量的情况下将丰富的空间/时间信息压缩到更密集的空间中。鉴于人类现在生活在一个大数据时代,数据量呈指数级增长,尤其是在有更多高清设备可用的情况下。例如,用户需要将他们的4K图像和视频存储在云端以进行远程访问。企业及数字服务提供方可以提供定制的云服务以实现高效的数据共享。对于企业来说,他们对大数据进行人工智能训练和数据分析的需求更为迫切。通过提供对高质量大数据的便捷访问,让人工智能公司或研究小组无需下载即可直接访问数据。
图像超分辨率也是长期存在的研究课题。当前的大多数技术更多地关注低分辨率上采样,例如仅提供具有2倍、4倍的较低放大尺寸。而对于具有4K或8K分辨率图像,仅提供具有2倍、4倍的放大尺寸的上采样功能是不够的。
发明内容
本公开的实施例提供一种用于图像超分辨率重建的方法、电子设备和计算机程序产品。
根据本公开的第一方面,提供了一种图像处理方法。该方法包括提取第一分辨率的第一图像的第一图像特征和第二分辨率的第二图像的第二图像特征,其中第一分辨率小于第二分辨率,并且第一图像和第二图像相对应。该方法还包括提取参考图像的参考图像特征,其中参考图像包括用于重建参考的边缘和模式;基于第一图像特征、第二图像特征以及参考图像特征,生成第三分辨率的第三图像,其中第三分辨率小于等于第二分辨率。
根据本公开的第二方面,提供了一种电子设备。该电子设备包括至少一个处理器;以及存储器,耦合至少一个处理器并且具有存储于其上的指令,指令在由至少一个处理器执行时使电子设备执行动作,动作包括:提取第一分辨率的第一图像的第一图像特征和第二分辨率的第二图像的第二图像特征,其中第一分辨率小于第二分辨率,并且第一图像和第二图像相对应。该动作还包括:提取参考图像的参考图像特征,其中参考图像包括用于重建参考的边缘和模式;以及基于第一图像特征、第二图像特征以及参考图像特征,生成第三分辨率的第三图像,其中第三分辨率小于等于第二分辨率。
根据本公开的第三方面,提供了一种计算机程序产品,该计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令,该机器可执行指令在被执行时使机器执行本公开的第一方面中的方法的步骤。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加清楚,其中,在本公开示例性实施例中,相同的附图标记通常代表相同元素。在附图中:
图1图示了根据本公开的实施例的设备和/或方法可以在其中被实施的示例环境的示意图;
图2图示了根据本公开的实施例的用于图像处理方法的图像处理训练系统的框架图;
图3图示了根据本公开的实施例的用于图像处理方法的图像处理训练系统的流程图;
图4图示了分别利用超分VAE模型、超分GAN模型、以及基于本公开的利用参考图像的特征图和高频分量来训练的编码器和解码器而重构图像的对比图像。
图5图示了根据本公开的实施例的、对用于图像处理方法的图像处理系统的编码器和解码器进行训练过程的示意图;
图6图示了根据本公开的实施例的用于图像处理方法的通过对图像数据进行上采样来生成多个样本的过程的示意图。
图7图示了适于用来实施本公开内容的实施例的示例设备的示意性框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的一些具体实施例,然而应该理解,可以以各种形式实现本公开,而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象,除非明确指示不同。
当前已知技术更关注对图像的低分辨率上采样,例如仅提供具有2倍、4倍的较低放大尺寸的上采样。当前的技术无法重建具有4K或8K分辨率图。此外,当前的技术无法重建更精细和高清的细节,诸如图像的边缘和纹理、毛发细节等。
至少为了解决上述和其他潜在问题,本公开的实施例提供了一种用于图像处理方法。该方法包括提取低分辨率的低分辨率图像的低分辨率图像特征和原始分辨率的原始图像的原始图像特征,其中低分辨率小于原始分辨率,并且低分辨图像和原始图像相对应。该方法还包括提取参考图像的参考图像特征,其中参考图像包括用于重建参考的边缘和模式;基于低分辨率图像特征、原始图像特征以及参考图像特征,生成重建分辨率的重建图像,其中重建分辨率小于等于原始分辨率。通过使用本方法,可以实现对低分辨率图像进行超分辨率图像处理,得到与原始图像相近或者相同分辨率的重建图像,从而可以节省大量的存储空间和设备成本,同时提供卓越的图像恢复质量
下面将参考附图来详细描述本公开的基本原理和多个示例实施例。其中图1示出了本公开的实施例的设备和/或方法可以在其中被实现的示例环境100的示意图。应当理解,图1示出的设备、图像和编码器、解码器的数目、布置、数据传输过程仅是示例性的,示例环境100中可以包括不同数目和以不同方式布置的设备、图像和编码器、解码器、以及各种附加元素等等。
图1为包括原始图像101和109、计算设备102和108、压缩图像103、解码图像107、图像编码器104、图像解码器106、云计算设备105的示例环境100。在该示例环境100中,本公开设计了新颖的类似GAN的变分自动编码器结构框架,该框架可以被称为Soft-Intro VAE。它可以使用图像编码器104和图像解码器106形成对抗结构来探索潜在数据分布。它还使用来自参考图像的先验来为精细的细节重建提供丰富的模式。在该示例环境100中,计算设备102和109可以是具有处理计算资源或者存储资源的任何设备。例如,计算设备102可以具备接收发送数据请求、实时数据分析、本地数据存储、实时网络联接等共性能力。计算设备通常可以包括各种类型的设备。计算设备的示例可以包括但不限于:台式计算机、笔记本计算机、智能电话、可穿戴式设备、安防设备、智能制造设备、智能家居设备、物联网设备、智能汽车、无人机,等等。应当理解,虽然图1中仅示出了计算设备102和计算设备109,但这仅仅是示例性的,而非对本公开的具体限定。在分布式系统100中,可以包括任意数目、任意类型的设备。
在该示例环境100中,原始图像101可以包括具有任意分辨率的、任意内容、任意格式类型、任意数目的一个或多个图像,本公开对此不进行限制。例如,原始图像101可以具有不同的分辨率,诸如720P、1080P、4K、8K等等,本公开对图像的内容不进行限制。原始图像101可以包括用户的计算设备102中存储的图像,也可以包括用户通过计算设备102的图像捕获设备(诸如,相机等)实时捕获的图像,本公开对图像的来源、获取方式、以及图像内容等方面不进行限制。
用户可以首先通过计算设备102对原始图像101进行压缩来获取压缩图像103。压缩图像103可以以任意压缩率相对于原始图像101而被压缩。例如,计算设备102可以将原始图像101以10%、30%、50%等的压缩率进行压缩来获取压缩图像103。具有图像编码器104的计算设备102可以随后对压缩图像103进行编码来获取编码数据,其中图像编码器104已经基于本公开实现的图像处理方法被训练完成。附加地或备选地,压缩图像103可以由图像编码器104以任意压缩率被进一步压缩。例如,压缩图像103可以由图像编码器104以10%、30%、50%等的压缩率进一步压缩来获取经压缩的编码数据。
用户随后可以通过计算设备102将获取的编码数据经由网络传输至根据本公开的图像处理方法实现的云计算设备105中。网络可以包括但不限于,互联网、局域网、无线网络等各种类型的网络,本公开对此不进行限制。云计算设备105是能够通过网络方便地访问的可配置计算资源(包括但不限于服务器、处理、计算、存储等)的共享池。云计算设备105可以提供的服务类型包括但不限于基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS),本公开对此不进行限制。云计算设备105还可以进一步被部署为私有云、社区云以及混合云等等,本公开对此不进行限制。云计算设备105还可以具有根据用户需要提供计算能力、可以与不同软件或者硬件兼容等特点。附加地或备选地,也可以使用任何本地化架构来实现云计算设备105。
云计算设备105响应于接收到来自用户的请求可以将编码数据传输至具有图像解码器106的计算设备108,其中图像解码器106已经基于本公开实现的图像处理方法被训练完成。响应于接收到编码数据,图像解码器通过对编码数据进行解码来生成解码图像107。响应于接收到解码图像107,计算设备108对解码图像108进行解压缩,从而获得与原始图像101相同的另一原始图像109。
应当理解,虽然图1中仅示出了不同的计算设备102和计算设备109,但这仅是示例性的,而非对本公开的具体限定。根据实际应用情况,计算设备可以是来自任意用户的、具有任意数目的计算设备。例如,计算设备102和计算设备109可以是来自相同用户的相同设备,计算设备102和计算设备109也可以是来自不同用户的不同设备,计算设备102和计算设备109也可以是来自相同用户的不同设备,本公开对此不做限制。此外,还应当理解,虽然示例环境100中的图像编码器104和图像解码器106被示为分别位于不同的计算设备102和计算设备109中,但这仅是示例性的。根据实际应用情况,图像编码器104和图像解码器106可以分别位于任何相同或者不同的计算设备上,本公开在此不做限制。附加地或备选地,图像编码器104和图像解码器106也可以位于任何云计算设备105中,本公开对此不做限制。
尽管以上结合图1描述了在图像传输的场景中对图像进行重建,但是本领域技术人员可以理解的是,根据本公开实施例的图像方法可以不限于上述场景,还可以根据需要应用于任何需要对图像进行重建的场景中,本公开不对应用场景进行限制。根据本公开实施例的方法,在重建图像的过程中,有效地利用了图像信息,能够极大地提高重建图像分辨率,同时,降低了运算量和相关配置资源,节约了图像处理时间与网络传输带宽,并且还可以获得分辨率更高的图像,从而能够极大地提升用户的观看体验。
上面结合图1描述了本公开的实施例能够在其中被实现的示例环境100的框图。下面结合图2描述根据本公开的实施例的用于图像处理方法的图像处理训练系统200的框架图。图像处理训练系统200可以在图1中的用户的计算设备102、108处及任意合适的计算设备处执行。
如图2所示,图像处理训练系统200可以包括先验网络204、特征提取器205和206、图像编码器207、采样器208、以及图像解码器210。应当理解,本公开对图像处理训练系统200中的各个元素的具体实现不进行限定,可以基于所需要实现的处理任务的需求,采用各种已知的和未来研发出来的模型或者应用程序。附加地或备选地,图像处理训练系统200可以包括多于或者少于本公开的附加元素,本领域技术人员可以对图像处理训练系统200进行多种修改,而不脱离权利要求书所述的本发明的范围。
在图像处理训练系统200中,响应于对图像编码器207和图像解码器210的进行训练的请求,图像处理训练系统200可以首先通过特征提取器205和特征提取器206而对原始图像202和低分辨率图像203进行图像特征提取。原始图像202与低分辨率图像203的图像内容、图像特征可以相同而两者的图像分辨率不同。例如,原始图像202可以是具有4k或者8k分辨率的图像,而低分辨率图像203可以是具有相同图像内容和图像特征的、并且具有720p、1080分辨率的图像。附加地或备选地,与原始图像202相比,低分辨率图像203可以具有不同的图像内容、图像特征以及分辨率。在本公开中特征提取器205可以是任何已知的未来研发出来的模型,本公开对此不做限制。作为示例,本公开中特征提取器205可以是VGG(“Oxford Visual Geometry Group”)-19模型。
应当理解,本公开中图像特征提取的方法可以基于所需要实现的处理任务的需求,采用各种已知的和未来研发出来的特征方法,包括但不限于对图像的颜色或者灰度特征进行提取、对图像的纹理和边缘特征进行提取、基于深度神经网络的图像特征提取、尺度不变特征转换(SIFT)特征提取、以及方向梯度直方图(HOG)特征提取等等,本公开对此不做限制。
在接收到对图像编码器207和图像解码器210的进行训练的请求之后,图像处理训练系统200还可以通过先验网络204而对参考图像201进行图像特征提取。先验网络204可以是任何已经训练的深度神经网络模型,包括但不限于多层感知机(MLP)、循环神经网络模型、递归神经网络模型、深度卷积网络模型(CNN)、深度生成模型(DNN)、生成式对抗网络模型(GAN)、变分自编码器模型(VAE)等等,本公开对此不做任何限制。作为示例,本公开中先验网络204可以是三层2D卷积网络模型。参考图像201可以是任意具有多种色彩、边缘、图案、模式以及纹理的图像,本公开对此不做任何限制。作为示例,在本公开中,参考图像201是广泛用于图像视频编解码的质量测量的标准数字图像,该参考图像201包含了丰富的、用于重建参考的边缘和模式。附加地或备选地,参考图像201还可以是基于用户指定的任意图像。
在特征提取器205和206对原始图像202和低分辨率图像203提取特征之后,特征提取器205和206可以将所提取的原始图像特征和低分辨率图像特征传输至图像编码器207。先验网络204可以将提取的参考图像的参考图像特征传输至图像编码器207。图像编码器207可以基于接收的原始图像特征、低分辨率图像特征以及参考图像特征来生成编码数据。
随后采样器208可以对编码数据进行采样,从而生成样本209。应当理解,在本公开中采样方法可以是任何已知的和未来研发出来的采样方法,包括但不限于图像均匀采样量化方法、图像非均匀采样量化方法等等,本公开对此不做任何限制。作为示例,在本公开中,采样器208可以使用随机高斯模型从包含原始图像特征的编码数据中对图像隐向量z进行上采样从而获取样本209,其中将图像隐向量z计算为和/>并且图像隐向量z=μ+∈*σ,其中μ表示样本数据均值,σ表示样本数据方差,∈表示随机参数。经上采样的原始图像特征中的图像隐向量z可以进而作为来处理参考图像201的参考图像特征的条件特征图,如以下公式所示:
Fcon=norm(F)×(1+σz)+μz (I)
其中Fcon表示条件特征图,F表示参考图像的特征图并且其中M×N表示图像的大小,C表示图像的通道数;norm表示归一化过程以确保参考图像的特征图的均值为0并且方差为1;σz和μz为经上采样的隐向量z的方差和均值。
响应于接收到样本209、参考图像特征、以及低分辨率图像特征,图像解码器210可以基于对这些数据的解码来生成重建图像211。随后重建图像211可以被再次传输至图像编码器207以供图像编码器207的下一训练212。
在图像编码器207的下一训练212开始之前,特征提取器205可以首先提取重建图像特征并且将重建图像特征传输至图像编码器207。随后,图像编码器207可以将重建图像特征与原始图像特征进行比较。
响应于重建图像特征满足由用户或者系统预先限定的预定条件,图像处理训练系统200可以停止对图像编码器207的训练。例如,在原始图像具有8K分辨率的情况下,响应于由图像解码器210基于样本209、参考图像特征、以及低分辨率图像特征生成的重建图像211同样具有8K分辨率,则图像编码器207可以确定重建图像特征已经满足了预定条件,从而终止对图像编码器207的训练。
在另一示例中,在原始图像同样具有8K分辨率的情况下,响应于由图像解码器210生成的重建图像211仅具有4K、2K或者更低的分辨率,则图像编码器207可以确定重建图像特征未满足预定条件,从而图像处理训练系统200可以继续执行对图像编码器207和图像解码器210执行以上描述的训练过程。
在又一示例中,原始图像202可以是具有多个细节、边缘、以及纹理的图像,响应于由图像解码器210生成的重建图像211具有与原始图像202相同分辨率的细节、边缘、以及纹理,则图像编码器207可以确定重建图像特征已经满足了预定条件,从而终止对图像编码器207的训练;相反,响应于由图像解码器210生成的重建图像211仅还原了原始图像202中的70%、50%或者更低的细节、边缘、以及纹理,则图像处理训练系统200可以继续执行对图像编码器207和图像解码器210执行以上描述的训练过程。
而在另一示例中,预定条件还可以是重建图像211的峰值信噪比(PSNR)达到了由用户指定的某个预定阈值。应当理解,以上描述的预定条件仅是示例性的,而非对本公开的具体限定。预定条件可以是用户或者系统根据实际应用情况对期望生成的重建图像特征的任意限定(诸如,达到预定分辨率、能够还原原始图像中的足够多的毛发、边缘、纹理等细节、具有足够高的PSNR等等),本公开对此不做任何限制。
根据本公开的图像处理方法,在数据存储上没有任何额外花销的情况下,本公开可以在边缘计算机上来实时对低分辨率图像进行上采样。针对计算机视觉,本公开提出的技术还可以是用于例如对象识别和检测的任何进一步过程的核心组件。本公开还可以用于诸如元世界和虚拟现实的产品中,并且提供更多的服务。根据本公开的图像处理方法的超分辨率和大上采样因子的能力可以节省大量的存储空间和设备成本,同时提供卓越的图像恢复质量。
下面结合图3描述根据本公开的实施例的用于图像处理方法的图像处理训练系统的流程图300。
在框301处,提取第一分辨率的第一图像的第一图像特征和第二分辨率的第二图像的第二图像特征,其中第一分辨率小于第二分辨率,并且第一图像和第二图像相对应。例如,图2中的图像处理训练系统200可以经由特征提取器205和206来提取具有第一分辨的第一图像的第一图像特征和具有第二分辨率的第二图像的第二图像特征,其中第一图像可以是低分辨图像203并且第二图像可以是原始图像202,并且其中第一分辨率小于第二分辨率,第一图像与第二图像的图像内容、图像特征等方面可以相对应。
在框302处,提取参考图像的参考图像特征,其中参考图像包括用于重建参考的边缘和模式。例如,图像处理训练系统200可以经由先验网络204来提取参考图像201的参考图像特征,其中参考图像201包括用于重建参考的边缘和模式。
在一些实施例中,图像处理训练系统200提取参考图像201的参考图像特征可以包括经由先验网络204来生成参考图像201的特征图;以及基于该特征图和参考图像的高频分量,提取参考图像201特征。
在框303处,基于第一图像特征、第二图像特征以及参考图像特征,生成第三分辨率的第三图像,其中第三分辨率小于等于所述第二分辨率。例如,图像处理训练系统200可以经由图像编码器207、采样器208以及图像解码器210来基于第一图像特征、第二图像特征以及参考图像特征,生成第三分辨率的第三图像,其中第三分辨率小于等于第二分辨率。在本公开的示例中,第三图像可以是重建图像211,并且其图像分辨率可以小于或等于原始图像202。
在一些实施例中,图像处理训练系统200生成具有第三分辨率的第三图像包括由图像编码器207基于第一图像特征、第二图像特征以及参考图像特征的编码,生成第一数据。在本公开的示例中,第一数据可以是编码数据。该编码数据包含了参考图像201的图像特征、原始图像202的图像特征以及与原始图像相对应的低分辨率图像的图像特征。这些图像特征包括但不限于颜色特征、纹理特征、形状特征、空间关系特征等。颜色特征进一步包括但不限于图像颜色分布、颜色的像素数量、图像中的高频分量和低频分量等;图像纹理包括但不限于像素及其周围空间邻域的灰度分布、图像中的对象的边缘、毛发细节等;空间关系特征括但不限于图像对象之间的相互的空间位置或相对方向关系、像素位置和定向等。
在一些实施例中,图像处理训练系统200生成具有第三分辨率的第三图像包括由采样器208通过对第一数据进行上采样来生成多个样本;以及响应于用户或者图像处理训练系统200对多个样本中的样本的选择,由图像解码器210基于对用户或者图像处理训练系统200选择的样本、第一图像特征和参考图像特征的解码来生成第三图像。
在一些实施例中,生成多个样本可以包括由采样器208使用随机高斯模型对第一数据中的隐向量进行上采样。
在一些实施例中,特征提取器205提取第三图像中的第三图像特征并且将第三图像特征传输至图像编码器207。响应于提取到的第三图像特征,图像编码器207可以将所接收的第三图像特征与第二图像特征进行比较。在本公开的示例中,第三图像可以是重建图像211。
在一些实施例中,图像编码器207响应于第三图像特征和第二图像特征未满足预定条件,对第三图像特征、参考图像特征、以及第二图像进行编码以生成第二数据,并且对第二数据进行上采样和解码以生成第四图像;以及图像编码器207响应于第三图像特征和第二图像特征满足预定条件,停止对第三图像特征的编码。在本公开的示例中,第二数据可以是与第一数据不同的另一编码数据,并且第四图像可以是与第三图像不同的另一重建图像。预定条件可以是由用户或者图像处理训练系统200指定的任意与图像特征相关联的条件。
在一些实施例中,图像编码器207通过使第四图像的第四图像特征与第二图像特征差别最大化而被训练,并且图像解码器210通过使第三图像的第三图像特征与第二图像特征差别最小化而被训练。以下将结合图5对训练的具体方法进行描述。
在一些实施例中,图像编码器207和图像解码器210使用基于第二图像的、以自然常数e为底的指数函数而被训练。
在一些实施例中,用户向经训练的图像编码器207输入具有较低分辨率的图像203,而经训练的图像解码器210可以基于较低分辨率的图像203来生成具有更高分辨率的重建图像211,该重建图像211可以具有至少与原始图像202接近或者相同并且高于图像203的图像分辨率。
图4图示了分别利用超分VAE模型、超分GAN模型、以及基于本公开的利用参考图像的特征图和高频分量来训练的编码器和解码器而重构图像的对比图400。
如图4所示,从左到右依次为分别一组原始图像401、利用超分VAE模型(SRVAE)重构的一组图像的部分402、利用超分GAN模型(SRGAN)重构的一组图像的部分403、以及基于本公开的利用参考图像的特征图和高频分量来训练的编码器和解码器而重构一组图像的部分404。
通过对比可以发现,与利用超分VAE模型重构的图像402以及利用超分GAN模型重构的图像的部分403相比,基于本公开的利用参考图像的特征图和高频分量来训练的编码器和解码器而重构一组图像的部分404可以具有更为清晰的边缘、图案、纹理、毛发等细节;并且重构一组图像404具有更高的PSNR 31.4,而利用超分VAE模型和利用超分GAN模型重构的图像经具有分别为30.12和30.45的PSNR。这是因为对常规神经网络模型进行图像训练的过程中,神经网络模型在迭代训练的过程中通常会将注意力放到对图像的低频分量的学习中,例如图像的整体轮廓、背景图图像等等,而忽视了对图像的高频分量的学习,例如图像中的毛发、纹理以及边缘等,因此得到的图像与原始图像相比通常细节更为模糊。
在本公开中,为了使先验网络204能够从参考图像201中提取高频分量,本公开的图像处理训练系统200可以以位置编码的方式对上述包含了参考图像的特征图的条件特征图Fcon进行编码。基本过程为使用三角函数来扩展特征图,表示如下:
λ(o)=(sin(20πo),cos(20πo),...,sin(2L-1πo),cos(2L-1πo)) (2)
其中L表示扩展程度的级数,o表示参考图像中每个点的坐标。
通过对输入的坐标o计算L对三角函数,从而使输入o的时域可以扩展到频域中,并且最终保留了参考图像中的高频分量。图像处理训练系统200可以将低分辨率图像特征图与条件特征图Fcon组合为/>并且将该数据输入到图像解码器210中用于图像重建。
图5图示了根据本公开的实施例的对用于图像处理方法的图像处理系统的编码器和解码器进行训练过程500的示意图。
在对变分自编码器(VAE)模型中的编码器和解码器进行训练的过程中,对重建图像的度量可以表示如下:
其中输入数据为x∈X,编码器表示为具有可学习参数φ的Q,解码器表示为具有可学习参数θ的P,z表示图像中的隐向量。该训练的目的为最大化重建图像数据似然度的证据下界(evidence lower bound,ELBO)。在训练过程中,针对给定的隐向量,通过优化解码器来生成优选的重建样本数据;同时使用Kullback-Leibler(KL)散度来约束编码器来使近似的后验分布Q(z|x)匹配先验分布P(Z)。KL项可以与对抗损失相耦合。
公式3可以在两种情景下使用:(1)针对生成的样本Dθ(x|z),可以期望最大化KL(Eφ(Dθ(z))||P(z)),而(2)针对真实的样本x,则期望将KL项最小化为KL(Eφ(x||P(z))。因此可以引入内省式(Introspective)变分自编码器(IntroVAE)来形成生成对抗网络(GAN)式结构,其中解码器类似于GAN中的生成器,而编码器类似于GAN中的鉴别器。在该模型中训练过程又可以分为:(1)首先固定解码器而优化编码器,(2)其次固定编码器而优化解码器,该过程可以表示为:
其中
其中编码器表示为E,而解码器表示为D,并且Phi表示变量之间相关性。在该模型中固定阈值可能会导致训练的不稳定性,并且难以分析完整的优化对象。因此,在本公开中可以将公式(4)改写如下:
其中α≥0并且γ≥0,并且表示超参数。与公式(4)相比,针对对抗损失,本公开使用了ELBO项来代替KL项,并且使用了基于原始图像的、以自然常数e为底的指数函数来代替固定阈值。
最终,在本公开中对图像编码器和图像解码器的训练过程可以变成编码器与解码器之间的对抗过程。如图5所示,在对用于图像处理方法的图像处理系统的编码器和解码器进行训练过程500中,可以首先固定图像解码器505而对图像编码器502-1进行训练。在该过程中,可以首先将包含原始图像202、低分辨率图像203以及参考图像201等的输入数据501输入到图像编码器502-1中进行编码,随后编码数据可以经由采样器403上采样来生成样本404。样本404可以被输入到图像解码器505中用于生成重建图像。重建图像随后被输入到图像编码器502-2中,图像编码器502-2将接收的重建图像与原始图像进行比较,以判读重建图像是否满足预定条件。附加地或备选地,图像编码器502-1和图像解码器502-2可以是相同或者不同的图像编码器,本公开对此不做限制。根据公式(5),在对图像编码器502-1或502-2进行训练的过程中,图像处理训练系统200会通过使图像解码器505生成的重建图像的重建图像特征与原始图像特征差别最大化而使图像编码器502-1或502-2得到训练,从而可以提高图像编码器502-1或502-2的鉴别重建图像的能力。
在另一方面,根据公式(5),在对图像解码器505进行训练的过程中,图像处理训练系统200会通过使图像解码器505生成的重建图像的重建图像特征与原始图像特征差别最小化,而使图像解码器505生成的图像与原始图像尽可能接近。对图像编码器502-1或502-2和图像解码器505的训练过程最终变成了图像编码器502-1或502-2与图像解码器505之间的博弈,图像编码器502-1或502-2可以基于ELBO值来区分原始图像和重建图像,而图像解码器505则可以通过生成重建图像来尝试“欺骗”图像编码器502-1或502-2,并且这两个训练过程是迭代进行的。最终提升了图像编码器502-1或502-2的鉴别重建图像的能力,以及图像解码器505生成与原始图像尽可能相同的重建图像的能力。
在训练过程中,图像处理训练系统200还可以使用平移和旋转等方法来随机增强训练图像。而对于参考图像201,图像处理训练系统200可以将参考图像划分为256个16x16大小的图像块并且将这些图像块堆叠为3D立方体用于训练,同时还可以将这些图像块进行随机旋转和翻转处理。
图6图示了根据本公开的实施例的用于图像处理方法的通过对图像数据进行上采样来生成多个样本的过程600的示意图。
在训练过程中,图像处理训练系统200可以相对于原始图像601来生成具有不同特性的图像样本(诸如,图像样本602至605),这些特性可以包括但不限于图像的分辨率、大小、边缘细节等。用户可以根据用户偏好来选择多个图像样本602至605中的一个图像样本,并且使图像处理训练系统200基于所选择的样本来对图像编码器和图像解码器进行训练,从而在输入较低分辨的图像后,经训练的图像编码器和图像解码器能够基于该较低分辨的图像来生成用户期望的高分辨率图像。
图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。图1中的计算设备102、108可以利用设备700来实现。如图所示,设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM703中,还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储页面708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200和400,可由处理单元701执行。例如,在一些实施例中,方法200和400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM 703并由CPU 701执行时,可以执行上文描述的方法200和400的一个或多个动作。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是清楚的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (20)
1.一种图像处理方法,包括:
提取第一分辨率的第一图像的第一图像特征和第二分辨率的第二图像的第二图像特征,其中所述第一分辨率小于所述第二分辨率,并且所述第一图像和所述第二图像相对应;
提取参考图像的参考图像特征,其中所述参考图像包括用于重建参考的边缘和模式;以及
基于所述第一图像特征、所述第二图像特征以及所述参考图像特征,生成第三分辨率的第三图像,其中所述第三分辨率小于等于所述第二分辨率。
2.根据权利要求1所述的方法,其中提取所述参考图像的所述参考图像特征包括:
生成所述参考图像的特征图;以及
基于所述特征图和所述参考图像的高频分量,提取所述参考图像特征。
3.根据权利要求1所述的方法,其中生成所述第三分辨率的所述第三图像包括:
由编码器基于所述第一图像特征、所述第二图像特征以及所述参考图像特征的编码,生成第一数据。
4.根据权利要求3所述的方法,其中生成所述第三分辨率的所述第三图像还包括:
通过对所述第一数据进行上采样来生成多个样本;以及
响应于对所述多个样本中的样本的选择,由解码器基于对所选择的所述样本、所述第一图像特征和所述参考图像特征的解码来生成所述第三图像。
5.根据权利要求4所述的方法,还包括:
提取所述第三图像的第三图像特征;以及
将所述第三图像特征与所述第二图像特征进行比较。
6.根据权利要求5所述的方法,其中将所述第三图像特征与所述第二图像特征进行比较包括:
响应于所述第三图像特征和所述第二图像特征未满足预定条件,对所述第三图像特征、所述参考图像特征、所述第二图像进行编码以生成第二数据,并且对所述第二数据进行上采样和解码以生成第四图像;以及
响应于所述第三图像特征和所述第二图像特征满足所述预定条件,停止对所述第三图像特征的编码。
7.根据权利要求6所述的方法,其中所述编码器通过使所述第四图像的第四图像特征与所述第二图像特征差别最大化而被训练,并且所述解码器通过使所述第三图像的第三图像特征与所述第二图像特征差别最小化而被训练。
8.根据权利要求6所述的方法,其中所述编码器和所述解码器使用基于所述第二图像的、以自然常数e为底的指数函数而被训练。
9.根据权利要求4所述的方法,其中生成所述多个样本包括:
使用随机高斯模型对所述第一数据中的隐向量进行上采样。
10.根据权利要求7所述的方法,还包括:
基于输入图像,使用经训练的所述编码器和所述解码器生成与所述输入图像相对应的输出图像,其中所述输出图像的分辨率大于所述输入图像的分辨率。
11.一种电子设备,包括:
至少一个处理器;以及
存储器,耦合至少一个处理器并且具有存储于其上的指令,所述指令在由至少一个处理器执行时使所述电子设备执行动作,动作包括:
提取第一分辨率的第一图像的第一图像特征和第二分辨率的第二图像的第二图像特征,其中所述第一分辨率小于所述第二分辨率,并且所述第一图像和所述第二图像相对应;
提取参考图像的参考图像特征,其中所述参考图像包括用于重建参考的边缘和模式;以及
基于所述第一图像特征、所述第二图像特征以及所述参考图像特征,生成第三分辨率的第三图像,其中所述第三分辨率小于等于所述第二分辨率。
12.根据权利要求11所述的电子设备,其中提取所述参考图像的所述参考图像特征包括:
生成所述参考图像的特征图;以及
基于所述特征图和所述参考图像的高频分量,提取所述参考图像特征。
13.根据权利要求11所述的电子设备,其中生成所述第三分辨率的所述第三图像包括:
由编码器基于所述第一图像特征、所述第二图像特征以及所述参考图像特征的编码,生成第一数据。
14.根据权利要求13所述的电子设备,其中生成所述第三分辨率的所述第三图像还包括:
通过对所述第一数据进行上采样来生成多个样本;以及
响应于对所述多个样本中的样本的选择,由解码器基于对所选择的所述样本、所述第一图像特征和所述参考图像特征的解码来生成所述第三图像。
15.根据权利要求14所述的电子设备,还包括:
提取所述第三图像的第三图像特征;以及
将所述第三图像特征与所述第二图像特征进行比较。
16.根据权利要求15所述的电子设备,其中将所述第三图像特征与所述第二图像特征进行比较包括:
响应于所述第三图像特征和所述第二图像特征未满足预定条件,对所述第三图像特征、所述参考图像特征、所述第二图像进行编码以生成第二数据,并且对所述第二数据进行上采样和解码以生成第四图像;以及
响应于所述第三图像特征和所述第二图像特征满足所述预定条件,停止对所述第三图像特征的编码。
17.根据权利要求16所述的电子设备,其中所述编码器通过使所述第四图像的第四图像特征与所述第二图像特征差别最大化而被训练,并且所述解码器通过使所述第三图像的第三图像特征与所述第二图像特征差别最小化而被训练。
18.根据权利要求16所述的电子设备,其中所述编码器和所述解码器使用基于所述第二图像的、以自然常数e为底的指数函数而被训练。
19.根据权利要求14所述的电子设备,其中生成所述多个样本包括:
使用随机高斯模型对所述第一数据中的隐向量进行上采样。
20.一种计算机程序产品,所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令,所述计算机可执行指令在由设备执行时使所述设备执行根据权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211288516.1A CN117974442A (zh) | 2022-10-20 | 2022-10-20 | 用于图像处理的方法、电子设备和计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211288516.1A CN117974442A (zh) | 2022-10-20 | 2022-10-20 | 用于图像处理的方法、电子设备和计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117974442A true CN117974442A (zh) | 2024-05-03 |
Family
ID=90858491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211288516.1A Pending CN117974442A (zh) | 2022-10-20 | 2022-10-20 | 用于图像处理的方法、电子设备和计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117974442A (zh) |
-
2022
- 2022-10-20 CN CN202211288516.1A patent/CN117974442A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112543347B (zh) | 基于机器视觉编解码的视频超分辨率方法、装置、系统和介质 | |
CN111970513A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN110915215A (zh) | 使用神经网络的图块化图像压缩 | |
Zhang et al. | A joint compression scheme of video feature descriptors and visual content | |
CN113870104A (zh) | 超分辨率图像重建 | |
CN116803079A (zh) | 视频和相关特征的可分级译码 | |
WO2023005740A1 (zh) | 图像编码、解码、重建、分析方法、系统及电子设备 | |
US11636626B2 (en) | Apparatus and method of using AI metadata related to image quality | |
US11758182B2 (en) | Video encoding through non-saliency compression for live streaming of high definition videos in low-bandwidth transmission | |
WO2020148603A1 (en) | Point cloud coding using homography transform | |
CN111970509A (zh) | 一种视频图像的处理方法、装置与系统 | |
WO2023050720A1 (zh) | 图像处理方法、图像处理装置、模型训练方法 | |
CN114979672A (zh) | 视频编码方法、解码方法、电子设备及存储介质 | |
JP2024520151A (ja) | 特徴データ符号化および復号方法および装置 | |
CN115396645A (zh) | 一种沉浸媒体的数据处理方法、装置、设备及存储介质 | |
Khan et al. | Sparse to dense depth completion using a generative adversarial network with intelligent sampling strategies | |
WO2023124461A1 (zh) | 面向机器视觉任务的视频编解码方法、装置、设备及介质 | |
CN116597033A (zh) | 图像重建方法、装置、设备和介质 | |
CN117974442A (zh) | 用于图像处理的方法、电子设备和计算机程序产品 | |
Zhuang et al. | A robustness and low bit-rate image compression network for underwater acoustic communication | |
CN114900717B (zh) | 视频数据传输方法、装置、介质和计算设备 | |
US20220301523A1 (en) | Method and apparatus for efficient application screen compression | |
US20240185388A1 (en) | Method, electronic device, and computer program product for image processing | |
CN116264606A (zh) | 用于处理视频的方法、设备和计算机程序产品 | |
WO2024093627A1 (zh) | 一种视频压缩方法、视频解码方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |