CN116490892A - 数字图像处理方法 - Google Patents
数字图像处理方法 Download PDFInfo
- Publication number
- CN116490892A CN116490892A CN202180071681.9A CN202180071681A CN116490892A CN 116490892 A CN116490892 A CN 116490892A CN 202180071681 A CN202180071681 A CN 202180071681A CN 116490892 A CN116490892 A CN 116490892A
- Authority
- CN
- China
- Prior art keywords
- image
- digital image
- resolution
- machine learning
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 76
- 238000012545 processing Methods 0.000 claims abstract description 60
- 238000010801 machine learning Methods 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000003287 optical effect Effects 0.000 claims description 34
- 238000003384 imaging method Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 17
- 238000002347 injection Methods 0.000 claims description 12
- 239000007924 injection Substances 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 10
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000009826 distribution Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012634 optical imaging Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种数字图像处理方法,包括:对原始数字图像(DI1)进行图像处理,以生成经图像处理的数字图像(DI2);降低经图像处理的数字图像(DI2)的分辨率,以生成起始数字图像(DI7),其中,原始数字图像(DI1)和起始数字图像(DI7)用来形成用于提高数字图像分辨率的机器学习系统的训练数据集,该机器学习系统特别是神经网络学习系统。此外,本发明涉及一种数字图像处理方法,该方法用来由原始数字图像生成具有增加的分辨率的数字图像。本发明还涉及一种计算机程序产品和一种用于执行上述方法的设备。
Description
技术领域
本发明涉及一种用于生成数字图像的数字图像处理方法,所述数字图像可用于训练机器学习系统、特别是神经网络学习系统。
此外,本发明涉及一种用于由原始数字图像生成具有增加的分辨率的数字图像的数字图像处理方法。
此外,本发明涉及一种计算机程序产品和一种被设置用于执行上述方法的设备。
背景技术
通常,图像采集系统的图像分辨率存在限制,因为它们的技术组件存在各种制约。其中,限制是由于衍射(即当光通过有限的开口或孔时发生的光波的弯曲)、以及图像采集系统的光学镜头的实际技术限制。例如,光学镜头可能存在像差,记录光强度的传感器元件只能封装到一定密度,并且记录过程总是会在测量中引入噪声。这些制约共同限制了图像采集系统的分辨率,这导致其记录的图像中对象的精细细节丢失。
从低分辨率图像生成高分辨率图像在现有技术中是已知的。大多数方法旨在模拟适配于输入的低分辨率图像的细节和纹理,并生成逼真的高分辨率图像以实现此目标。大多数此类方法依赖于由成对的低分辨率图像和高分辨率图像组成的数据库。讨论该主题的科学出版文献有:William T Freeman、Thouis R Jones和Egon C Pasztor在《IEEE计算机图形与应用》22.2(2002)第56-65页发表的“Example-based super-resolution”,以及HongChang、Dit-Yan Yeung和Yimin Xiong在2004年IEEE计算机协会计算机视觉和模式识别会议的论文集,2004.CVPR2004第1卷IEEE2004,中发表的“Super-resolution throughneighbor embedding”。
即使在提高计算机生成的数字图像的分辨率增加的质量方面取得了一些进展,增加用表现出上述制约的真实图像采集系统采集的数字图像的分辨率仍然是个问题,因为生成的数字图像通常看起来不自然。
发明内容
本发明的目的是找到提高分辨率增加的图像的质量的方法。
根据本发明的数字图像处理方法包括:提供原始数字图像、对原始数字图像进行图像处理以生成经图像处理的数字图像、降低经图像处理的数字图像的分辨率以生成起始数字图像,其中,原始数字图像和起始数字图像用于形成用来提高数字图像分辨率的机器学习系统的训练数据集,该机器学习系统特别是神经网络学习系统。
该图像处理的方法步骤用于模拟图像采集系统的上述制约。优选地,该图像处理包括改变原始数字图像。在进行图像处理后,将所得数字图像的分辨率降低,以形成包括原始数字图像和起始图像的训练数据集。
适宜地,机器学习系统使用人工智能例程,特别是提供用于增加数字图像的分辨率的人工智能例程。优选地,机器学习系统为深度学习系统,例如卷积神经网络系统。众所周知,卷积神经网络系统可应用于视觉图像分析。它们通常用于图像和视频识别、图像分类和医学图像分析等。此外,机器学习系统可以是深度神经网络系统、深度信念网络系统或递归神经网络系统。
适宜地,机器学习系统被适当地初始化或预训练以用于改变数字图像,特别是用于增加数字图像的分辨率。优选地,合适的人工智能初始化或训练例程用于初始化或预训练机器学习系统。示例为Xintao Wang、Ke Yu、Shixiang Wu、Jinjin Gu、Yihao Liu、ChaoDong、Yu Qiao和Chen Chang Loy在欧洲计算机视觉会议施普林格2018第63-79页发表的“ESRGAN:Enhanced Super-Resolution Generative Adversarial Networks”中提出的残差套残差密集网络(RRDBNet)。但是,也可以使用其他合适的网络。
所提到的图像处理适宜地包括改变原始数字图像。在本发明的优选实施例中,该图像处理和/或该改变包括去噪和/或模糊。备选地或附加地,该图像处理可以包括改变数字图像的至少部分的强度、亮度和/或着色,改变至少个别像素的位置,改变至少这些像素中个别像素的表示的强度,晕化或去晕,和/或数字图像过滤,例如用于改变颜色、亮度和/或着色。
可选地,该方法包括初始图像处理步骤,包括使用3x3、5x5、7x7和/或9x9高斯模糊核和/或小波滤波器核和/或另一模糊滤波器核对原始图像进行初始模糊。附加地或备选地,初始图像处理步骤可以包括初始分辨率降低。如果原始图像是用光学图像采集设备采集的,则优选执行初始图像处理步骤。
适宜地,模糊对应于和/或等同于真实光学设备的模糊和/或从真实光学设备的模糊中得出,其中优选地测量真实光学设备的模糊。执行该步骤是为了模拟通常在光通过真实光学成像系统(例如光学镜头)时发生的模糊。优选地,为了执行模糊,使用真实光学设备的和/或表示真实光学设备的模糊的模糊核或/和点扩散函数。已经发现,使用真实光学设备的模糊导致生成特别适合机器学习系统的训练的起始图像。优选地使用光学测量设备来测量真实光学设备的这种模糊。
在本发明的另一个实施例中,使用不同的原始数字图像多次执行该方法以生成更大量的数字图像用于训练目的。
附加地或者在本发明的另一个实施例中,通过使用不同的图像处理来多次执行该方法以生成更大量的数字图像用于训练目的。
有利地,通过使用不同的原始数字图像和/或通过使用不同的图像处理,可以分别生成多个试验图像或成对的试验图像和原始图像。
在本发明的另一个实施例中,该方法使用不同的模糊、特别是模糊核或/和点扩散函数而多次执行,这些模糊对应于不同的真实光学设备和/或对应于不同的高斯滤波器,特别是9x9、7x7和/或5x5高斯滤波器。
适宜地,提供包括用于模糊图像处理的不同数据集的数据库,并且优选地随机地,不同的数据集用于模糊。
适宜地,数据集包括不同的模糊核和/或点扩散函数,特别是上述模糊核和/或点扩散函数。在本发明的特别优选的实施例中,不同的模糊包含在对应于不同的真实光学设备的数据集中,这些数据集优选地对应于市场上常用的光学设备。
适宜地,为了生成可用于训练的附加的起始数字图像,翻转经图像处理的、特别是经改变的数字图像,该翻转优选地在不同的方向上(例如水平和/或垂直)进行。
在本发明的特别优选的实施例中,真实光学设备是全光成像系统、特别是万花筒,优选地同时生成要采集的对象的多个图像。优选地,所述多个图像中的每一个图像是从不同的有利位置采集的。适宜地,使用模糊核和/或点扩散函数对每个生成的图像单独执行模糊。优选地,对于每个生成的图像,使用不同的模糊核和/或点扩散函数。
在本发明的优选实施例中,全光成像系统、特别是用于摄像机的全光成像系统具有多个成像装置,这些成像装置在光轴方向上连续布置并且包括:第一成像装置,其用于在中间图像平面中生成对象的真实中间图像;第二成像装置,其用于生成真实中间图像的至少一个虚镜像,该虚镜像布置在该中间图像平面中并偏离真实中间图像;以及第三成像装置,所述第三成像装置用于将真实中间图像和虚镜像共同成像为图像接收表面上的真实图像、即实像,该图像接收表面被布置在距中间图像平面一定轴向距离处。
万花筒优选地包括至少一对平面镜面,所述平面镜面彼此面对并间隔开距离。光路的至少一部分,优选光路的全部穿过镜面之间的空间。优选地,镜面彼此平行布置。万花筒可以具有两对或更多对镜子。成对的镜子可以形成横截面为多边形、优选为矩形的管。备选地,万花筒可以由具有多边形横截面的柱形玻璃棒形成,其具有侧表面和镜反射的前表面,以供光线的进出。玻璃棒的横截面优选为等腰三角形、矩形且尤其是正方形、正五边形、六边形、七边形或八边形。
适宜地,成像系统包括图像接收表面和用于处理借助于图像接收表面取得的真实图像的装置。优选地,图像接收表面具有至少一个图像接收传感器或由至少一个图像接收传感器形成。在本发明的优选实施例中,图像接收表面由单个图像接收传感器形成。图像接收传感器优选为CCD传感器或CMOS传感器。
在本发明的优选实施例中,模糊(B)或这些模糊(B、B1、B2、…、Bn)、特别是模糊的强度或类型在表示图像的图像平面中不同。
模糊(B)或这些模糊(B、B1、B2、…、Bn)可以在表示图像的图像平面的至少一个方向上不相同。
在本发明的另一个实施例中,模糊核和/或点扩散函数模拟由全光成像系统(特别是万花筒)针对所述多个图像(特别是真实中间图像和所述至少一个虚镜像)中的每一个图像所造成的模糊,其中,用于所述多个图像中的每一个图像的模糊核和/或点扩散函数可以彼此不同。适宜地,模糊核和/或点扩散函数可以在表示图像的图像平面的至少一个方向上变化,优选地在所述多个图像的每一个图像内变化。优选地,使用光学测量设备测量由全光成像系统造成的模糊,并且基于测量结果确定模糊核和/或点扩散函数。
在本发明的另一个实施例中,所述多个图像、特别是真实中间图像和所述至少一个虚镜像被分开处理。适宜地,根据按照本发明的方法,将所述多个图像彼此分离并独立处理。优选地,针对所述多个图像中的每一个图像,特别是针对真实中间图像和每一个虚镜像,训练单独的机器学习系统。
在本发明的另一个实施例中,为了生成起始数字图像,在模糊之后执行对经图像处理的数字图像的分辨率的降低。优选地,降低分辨率使得所得分辨率对应于其分辨率将通过该过程增加的图像分辨率。适宜地,多次执行该方法以不同程度降低分辨率以生成不同的起始数字图像。不同的起始数字图像可用于机器学习系统的训练。
在本发明的另一个实施例中,图像数据格式、特别是原始数字图像和/或任何生成的数字图像、特别是起始数字图像的图像数据格式被改变,优选地改变成被设置为用于包括来自图像传感器的未处理的或最少处理的数据的图像数据格式,优选改变成RAW图像格式。适宜地,图像数据格式从原始数字图像的图像数据格式起改变,原始数字图像优选地使用RGB颜色空间、特别是sRGB。图像数据格式由如下图像数据格式改变得到,所述图像数据格式可以是TIFF、JPEG、GIF、BMP、PNG等。
优选地,图像数据格式在模糊之后和/或在分辨率降低之后被改变。
提供上述图像数据格式的改变是为了能够特别准确地模拟在数字图像装置中(例如在上述全光成像系统中)、在图像接收传感器中和/或在上述数据处理设备中采集和处理数字图像时通常发生的过程。
通常,RAW传感器图像由摄像机图像信号处理器(ISP)使用几个步骤进行转变,以获得显示就绪的sRGB图像。例如,RAW传感器图像经过伽马校正和去马赛克。去马赛克将单通道RAW数据转换为三通道RGB数据。去马赛克步骤使噪声在空间和色度上相关。也可以可选地应用诸如色调映射、白平衡、颜色校正和/或压缩的其他处理步骤以最终到达显示就绪的sRGB图像。所有这些步骤的综合效果是RAW图像中存在的噪声分布在图像处理过程中发生了很大的转变。
在本发明的另一个实施例中,图像处理包括噪声注入。这种噪声注入优选地模拟通常在数字图像在其采集或/和其进一步处理过程中的电子处理期间发生的噪声注入。
在本发明的一个实施例中,用于对要注入到原始图像的噪声进行建模的噪声源被建模成,使得用于每个像素的噪声过程在统计上独立于相邻像素、特别是直接相邻的像素的噪声过程。备选地,可以对噪声源建模,使得用于每个像素的噪声过程在统计上依赖于相邻像素、特别是直接相邻的像素。
优选地,注入根据泊松-高斯噪声模型的噪声。备选地或附加地,可以注入根据针对特定图像数据处理设备、例如照片摄像机和/或视频摄像机机身、光电倍增管摄像机、光谱和/或多光谱摄像机和/或荧光摄像机而测量的噪声函数的噪声注入。优选地,使用噪声测量设备测量由图像数据处理设备引起的噪声注入,并且基于测量结果创建噪声函数。
通常降低图像质量并且要被模拟的噪声在为获得通常期望的图像而执行的处理的各个阶段生成并被转换。记录场景的图像的过程始于测量场景辐照度的传感器的感光点。感光点排列在构成整个传感器的二维网格中。每个感光点都会计算入射到其上的光子数。光子计数是经典的泊松过程,并且过程的不确定性会在图像中生成光子噪声。
因此,可以对由每个感光点计数的光子数进行建模作为泊松分布。泊松分布的概率质量函数优选由下式给出:
其中N是感光点处的光子计数,并且λ是给出分布期望的分布参数。这等于入射到感光点上的实际光子数并因此与场景辐照度成正比。光子噪声量由泊松分布的方差给出。泊松分布具有其方差等于其期望值的特性。因此,光子噪声的数量也与场景辐照度成正比。光子噪声构成真实世界图像中噪声的信号相关部分。在主要使用CMOS制造工艺制造的现代数码摄像机传感器中,光子噪声是限制性能的噪声分量。光子噪声分量优选地使用异方差高斯建模如下:
光子计数存储为在传感器暴露的时间段期间在每个感光点处累积的电荷。最终,电荷被转换成电压、被放大、从传感器中读取、被数字化和/或存储在摄像机存储器中。此时的数据构成了RAW传感器图像。与放大、读取和数字化相关的过程也会在数据中引入噪声。这种噪声通常统称为读取噪声。
适宜地,假设读取噪声与信号无关,并且因此可以建模为零均值高斯分布。优选地,对在RAW图像的形成中的噪声使用的泊松-高斯模型由下式给出:
r=x+n (函数3)
其中r是噪声RAW图像,x是干净图像,并且n是加性噪声。
优选地,假设所用模型中的噪声n遵循异方差高斯分布,即:
则噪声σ2(r)的方差优选取决于场景的辐照度,这由下式给出:
σ2(r)=ar+b (函数5)
其中a和b分别是确定信号相关的光子噪声和信号无关的读取噪声的强度的参数。适宜地,a和b的值取决于多种因素,例如传感器的量子效率(其决定了传感器将入射光子转换为电荷的效率)、用于放大电压并由摄像机上的ISO设置决定的模拟增益、总是存在于传感器中的基座电荷或基底电荷等。在本发明的优选实施例中,使用了根据Foi等人的用于在RAW图像的形成中的噪声的泊松-高斯模型,见Alessandro Foi、Mej di Trimeche、Vladimir Katkovnik和Karen Egiazarian在《IEEE图像处理会刊》17.10(2008)第1737-1754页发表的“Practical Poissonian-Gaussian noise modeling and fitting forsingle-image raw-data”。
优选地,为了更好地模拟在典型的图像数据处理期间发生的过程,在噪声注入之前,将数据格式改变成被提供用于包括未处理的或最少处理的数据的图像数据格式。
在本发明的另一实施例中,优选地在噪声注入之后,图像数据格式从/由来自图像传感器的被提供用于包括未处理或最少处理的数据的图像数据格式被改变,优选地从/由RAW图像格式被改变。适宜地,图像数据格式被改变为原始数字图像的图像数据格式,原始数字图像优选地使用RGB颜色空间、特别是sRGB。在本发明的特别优选的实施例中,所得数字图像被用作所提到的起始数字图像。如果将该处理应用于视频信号的帧,则优选的图像数据格式是YCbCr。
训练数据集优选地被提供用于训练机器学习系统以增加数字图像的分辨率,该机器学习系统特别是神经网络学习系统。
在本发明的优选实施例中,使用——优选地预训练的——用于生成试验图像的机器学习系统来增加起始图像的分辨率。在机器学习系统的训练过程中,将试验图像与原始图像进行比较,并使用人工智能训练例程对机器学习系统进行训练。
机器学习系统优选地通过处理形成概率加权关联的数字图像来训练,这些概率加权关联存储在系统的数据结构中。优选地通过确定生成的试验数字图像与原始数字图像之间的差异来进行训练。这种差异对应于误差。系统根据学习规则并使用该误差值来调整其加权关联。连续的调整将使神经网络生成与原始数字图像越来越相似的输出。
适宜地,通过最小化机器学习系统的输出与原始数字图像之间的损失来优化机器学习系统。该损失/>可以写成:
其中G(xi)是机器学习系统的输出,并且y是原始图像。通过首先取得该损失相对于参数的梯度并且然后应用Adam优化的随机梯度下降来更新网络参数。机器学习系统优选使用具有23个RRDB(残差套残差密集块)的RRDBNet网络(如上所述)进行预训练。该网络可以在适合于机器学习的程序库、例如程序库PyTorch中实现。优选地,使用合适的优化器,例如ADAM优化器。
在本发明的特别优选的实施例中,在机器学习模型中引导该训练结果。
使用该训练方法和/或机器学习模型能够提供增强的计算机程序或机器学习系统以增加数字图像的分辨率。
根据本发明的方法在如下方面改进了机器学习系统的训练结果,即,从合成生成的数字图像或/和从用光学图像采集设备采集的数字图像开始增加用真实光学图像采集设备采集的图像的分辨率。
优选地,该方法用于处理单个图像,例如照片或/和计算机生成的图像,和/或图像序列,例如拍摄的、特别是通过视频记录或/和计算机生成的图像序列。
在本发明的另一个实施例中,使用已经被训练执行上述任意方法步骤的机器学习系统来增加用光学设备生成的数字图像的分辨率。
在本发明的另一个实施例中,上述计算机程序产品包括指令,当该程序由计算机执行时,该指令使计算机执行上述方法的步骤。
此外,本发明涉及一种用于提高数字图像分辨率的计算机程序产品,其包括指令,当该程序由计算机执行时,该指令使计算机使用已经被训练执行上面提到的任何方法步骤的机器学习系统来提高数字图像的分辨率。为真实光学设备(特别是全光设备)训练的(优选地针对特定光学设备而训练的)用于增加数字图像分辨率的计算机程序产品可以与所提到的真实光学设备一起提供。例如,它可以作为数据存储介质上的文件而提供,所述文件包括可以物理连接到光学设备的经训练的机器学习系统,或者它作为表示可以通过计算机网络(例如互联网)访问的数据集的信号序列而提供。可以想到在光学设备上,例如在镜头的外壳上,将链接关联到存储在计算机网络(特别是因特网)中的文件。
此外,本发明涉及一种传输计算机程序产品的数据载体信号。
在本发明的另一个实施例中,本发明涉及一种数字图像处理设备,包括用于执行上述方法的装置。适宜地,用于处理数字图像的设备由数据处理设备、特别是计算机构成,特别是设置为用于处理从图像采集传感器读取的数据。在本发明的一个实施例中,数据处理设备被布置在摄像机的外壳中,所述数据处理设备优选地形成成像系统的一部分或被布置为与成像系统一起使用。
附图说明
下面使用示例性实施例和与示例性实施例相关的附图更详细地解释本发明,其中:
图1示意性地示出了根据本发明的方法,
图2示意性地示出了根据本发明的方法,
图3示出了用于执行根据本发明的方法的不同数字图像,
图4示意性地图示了全光成像系统的细节,
图5示意性地图示了全光成像系统的更多细节,
图6示意性地图示了全光成像系统的更多细节,
图7示意性地图示了该方法的细节,以及
图8图示了真实光学设备的点扩散函数,
图9示意性地图示了机器学习系统的细节,
图10示意性地图示了根据图9的机器学习系统的更多细节,
图11示意性地图示了根据图9和10的机器学习系统的更多细节,
图12示意性地图示了数字图像处理设备,
图13示意性地图示了另一数字图像处理设备,并且
图14示意性地图示了摄像机系统。
具体实施方式
图1示意性地图示了根据本发明的数字图像处理方法。
具有使用RGB颜色空间的图像数据格式的原始数字图像DI1被存储在图像文件中,例如JPEG、GIF、PNG或TIFF。
在可选的处理步骤DN中,原始数字图像DI1被去噪,例如使用3x3、5x5、7x7和/或9x9高斯模糊核去噪,然后初始降低分辨率。处理步骤DN生成清理后的原始数字图像DI2。
原始数字图像DI1或者清理后的原始图像DI2在处理步骤B中进行模糊处理。处理步骤B提供用于模拟通常发生在诸如镜头的真实光学成像系统中的模糊。处理步骤B使用作为数据集存储在数据库DB中的模糊函数。数据库DB包含不同的模糊函数数据集,不同的模糊函数数据集对应于当使用不同的真实光学设备和不同的高斯模糊滤波器(特别是9x9、7x7和/或5x5高斯滤波器)采集数字图像时发生的模糊。为了执行处理步骤B,随机选择数据库DB中的数据集之一。生成经模糊的数字图像DI3。
在处理步骤RR中,降低经模糊的数字图像DI3的分辨率以生成数字图像DI4。
为了生成对应于用真实数字图像采集系统采集的数字图像的数字图像,数字图像DI4的数据格式(通常与原始数字图像DI1的数据格式相同,例如JPEG、GIF、PNG或TIFF)在处理步骤DFC1中改变为RAW格式,优选地包括将颜色信息缩减为马赛克化单波段图像。
所得的RAW格式的数字图像DI5在噪声注入步骤N中被处理,其中使用根据上述函数DI3的噪声模型来注入噪声。噪声向量n(DI5)是通过从异方差高斯分布中采样生成的,即:
其中σ2(DI5)表示高斯分布的方差,其为RAW数字图像DI5的函数,并由下式给出:
σ2(DI5)=a D/5+b
在处理步骤DFC2中,在处理步骤N中生成的数字图像DI6的RAW文件格式被去马赛克化,并改变为优选地用作RGB或YCbCr颜色空间的多色带数据格式。例如,此类图像可以以JPEG、GIF、PNG、TIFF或其他文件格式存储。优选地,图像以与原始数字图像DI1或清理后的原始数字图像DI2相同的图像数据格式和相同的文件格式存储。
处理步骤DFC2生成起始数字图像D17,其被提供用于训练可用于增加数字图像的分辨率的机器学习系统。
出于训练目的,机器学习系统在处理步骤R1中增加起始数字图像DI7的分辨率。在步骤C的训练过程中,所生成的具有增加的分辨率的试验数字图像DI8分别与原始数字图像DI1或清理后的原始数字图像DI2一起使用。
机器学习系统是现有技术中已知的深度学习系统,例如卷积神经网络系统。下述文献中描述了相应的机器学习系统:Xintao Wang、Ke Yu、Shixiang Wu、Jinjin Gu、YihaoLiu、Chao Dong、Yu Qiao和Chen Chang Loy在欧洲计算机视觉会议施普林格2018第63-79页发表的“ESRGAN:Enhanced Super-Resolution Generative Adversarial Networks”。该机器学习系统通过最小化机器学习系统的输出与原始数字图像之间的损失来优化。该损失/>可以写成:
其中G(xi)是机器学习系统的输出,并且y是原始图像。通过首先取得该损失相对于参数的梯度并且然后应用Adam优化(自适应矩估计)的随机梯度下降来更新网络参数。机器学习系统优选使用具有23个RRDB(残差套残差密集块)的RRDBNet网络进行预训练。该网络可以在适合机器学习的程序库中实现,例如程序库PyTorch。该Adam优化器用β1=0.86和β2=0.97以及3×10-4的初始学习率构建以用于优化。我们将批量大小设置为26,并训练网络达550个时期。使用显卡“Nvidia Quadro 6000RTX”来训练网络大约需要10个小时。
机器学习系统网络设计遵循既定惯例。网络的第一部分包含初始卷积层,用于将图像转换为特征空间。接下来是几个基本块,大部分计算都在这些块中进行。使用卷积转秩层对生成的特征进行上采样。通过生成具有高分辨率的图像的最终的卷积层,上采样的特征被压缩到3个通道。RRDBNet网络的架构如图9所示。该网络由初始卷积层和一系列用于提取特征的残差套残差密集块组成。最后,对特征进行上采样并压缩以生成具有增加的分辨率的图像。
基本块是残差套残差密集块(RRDB)。它由三个残差密集块(RDB)组成,其间有跳跃连接。跳跃连接是通过将输入特征图添加到每个块的输出特征图来实现的,因此具有跳过块的路径,如图10所示。跳跃连接确保了块必须仅从输入学习残差映射,从而能够训练具有多个卷积层的深度网络。在将跳跃连接应用到块的输入之前,用0到1之间的常数对特征图的值进行缩放可以稳定训练,因为有大量的层和相应的跳跃连接,特征图中的值会变得非常大。
构成网络的基本块的残差密集块(RDB)由4个卷积层组成,每个卷积层跟随着ReLU(x)非线性,其由下式给出:
每个卷积层的输出与块内所有先前层的输出级联,所述块包括成为对下一层的输入的输入。这使得块中的层紧密连接。单个RDB的架构如图11所示。RDB由四个卷积层组成。密集连接是通过级联所有先前层的输出来实现的。应用对块的输入的跳跃连接。密集块内所有卷积层的级联输出最后使用最终卷积层进行压缩。接下来是对残差学习块的输入的跳跃连接。
此外,机器学习系统可以是深度神经网络系统、深度信念网络系统或递归神经网络系统。
为了提高用于训练目的的数字图像或数字图像对的质量,可以多次执行该方法或该方法的单个步骤(参见图2):
a)使用不同的原始数字图像(DI1、DI1a、DI1b、…、DI1n),
b)在处理步骤B中使用不同的模糊来处理相同或不同的原始数字图像(DI1、DI1a、DI1b、…、DI1n或/和DI2,DI2a,DI2b、…、DI2n),
c)在处理步骤RR中使用不同程度的分辨率降低来处理相同地或不同地模糊的数字图像(DI3,DI3a,DI3b、…、DI3n),
d)在处理步骤N中使用不同的噪声注入来处理相同或不同的数字图像(DI5、DI5a、DI5b、…、DI5n),和/或
e)在处理步骤Rl中对相同或不同的数字起始图像(DI7、DI7a、DI7b、…、DI7n)使用不同程度的增加以生成试验图像(DI8、DI8a、DI8b、…、DI8n)。
f)在处理步骤C中使用不同的所生成的数字试验图像(DI8,DI8a,DI8b、…、DI8n)结合相应的原始数字图像(DI1、DI1a、DI1b、…、DI1n)或/并结合相应的清理后的原始图像(DI2,DI2a,DI2b、…、DI2n),以训练机器学习系统。
图3示出了不同的数字图像。图3a所示的原始数字图像DI1是使用“索尼Xperia智能手机”类型的摄像机采集的。
图3中所示的每组图像(a)、(b)、(c)和(d)在下侧分别包括上侧所示的相应数字图像DI1、DI7、DI8a、DI8b的两个放大部分。被放大的部分被框在数字图像的上侧。
图3a示出了对应于图1的原始数字图像DI1的原始数字图像。图3b中所示的数字图像示出对应于起始数字图像DI7的数字图像。图3c和3d中的图像分别是不同的数字图像DI8a和DI8b,其分辨率已经使用不同训练的卷积神经网络系统而从图3b的图像增加。图3c中的图像DI8a是用已经针对较高噪声水平训练的卷积神经网络系统生成的,而图3d中的图像DI8b是用已经针对较低噪声水平训练的卷积神经网络系统生成的。图3d中的图像不太准确,并且包含斑点伪影。此类伪影在图3c中不存在,这表明它们的出现是因为已经针对较低噪声水平进行训练的卷积神经网络系统未针对输入图像中存在的噪声水平进行训练。
在另一个例子中,根据本发明的方法是使用原始数字图像进行的,这些原始数字图像是使用全光成像系统、特别是包括万花筒的全光成像系统采集的,以同时生成要采集的对象的多个图像。上面概述了全光成像系统的一些细节。此外,图4示意性地示出了根据本发明如何使用包括万花筒的全光成像设备1进行全光图像采集,该万花筒除了入射透镜7和出射透镜8之外还具有镜盒,该镜盒包括形成万花筒的镜子3、4、5、6。镜子3、4、5、6如图5和6所示在镜盒内呈矩形截面排列,镜子的镜面布置在镜盒的内侧。从对对象成像的对象区域9发出的光线10进入入射透镜7并且通过入射透镜被引导到镜盒的内部。一些光线10穿过镜盒到达出射透镜8而不会撞击镜子3、4、5、6中的任何一个,而其他光线在撞击出射透镜8之前仅在镜子3、4、5、6之一处反射一次。其他光线依次在镜盒内在镜子3、4、5、6处反射几次,因此反射可以在相对的镜子3、4、5、6处和在相邻布置的镜子3,4,5,6处发生。出射透镜8布置成使得从镜盒射出的光线被引导到由传感器形成的接收器表面2,特别是CCD或CMOS传感器。
入射透镜7、镜子3、4、5、6和出射透镜8被布置成使得对象区域的九个图像形成在接收器表面2上,这些图像彼此相邻地生成在如图7所示的3×3网格中。以这样的方式生成图像,即所述图像从九个不同的视角(或换句话说,观看角度)形成从入射透镜7开始的对象区域。备选地,入射透镜7、镜子3、4、5、6和出射透镜8可以被布置成,使得对象区域的N×N图像形成在接受器表面上并彼此相邻地生成在N×N网格中,其中N表示奇数。除了上述栅格之外,还可以考虑5×5栅格中对象区域的25个图像或7×7栅格中的49个图像。不言而喻,为了增加可实现的视角数量,还可以提供更多数量的图示和相应的栅格布置。
在本示例中,全光成像设备1包括具有申请人K Lens GmbH的万花筒的全光成像设备。全光成像设备1布置在包括上述组件的透镜体中。它包括用于将透镜体安装在实际摄像机主体(例如上述“尼康D810”等)上的安装机构(“镜头座”)。其允许使用单个摄像机传感器上的单个镜头对场景的9个不同视角进行成像。不同的视角可用于许多后处理任务和应用,如深度估计、采集后对焦等。由于传感器现在采集9个不同的视角,因此针对每个视角的像素数约为整个传感器像素数的1/9。目标是找到一种方法来增强每个视图的分辨率。
为了在步骤B中模糊原始数字图像,使用模糊函数,所述模糊函数对应于当用全光成像系统采集数字图像时发生的模糊。
这种模糊已经针对全光成像设备测量如下。已经在暗室中使用包括具有尼康D810摄像机的K Lens GmbH的全光成像设备对点光源(白色LED灯围绕具有30μm孔的覆盖物)成像。为了获得不同空间位置的估计值,我们将该点光源成像在规则的3x3网格上。曝光时间设置为1/6秒,ISO设置为100。为了提取PSF,我们在每个图像的最亮点周围裁剪9x9像素的窗口。该窗口成为该位置的PSF,我们实验中测得的PSF如图8所示。图8图示了3x3网格的9个部分中的每个部分的点扩散函数都不同。
基于这些测量结果,在数据库DB中生成并提供在表示图像的图像平面中相应地变化的至少一种模糊函数、优选地多种模糊函数。因此,至少模糊功能适应了可以提供的当前的全光成像设备。由于所描述类型的全光设备具有相对复杂的机械结构,因此该类型的每个全光设备具有略微不同的光学特性,特别是其自身特定的点扩散函数,因此可以专门针对每个全光设备训练机器学习系统。这使得可以在提高采集的数字图像的分辨率方面达到特别好的结果。
在另一个示例中,使用上述全光成像设备采集的各数字图像的部分彼此分开。分离的图像部分用于训练不同的机器学习系统。对3x3网格的9个部分中的每个部分进行不同的训练,以便为每个部分提供不同的经训练的机器学习系统,特别是不同的经训练的神经网络。
图12示意性地图示了用于处理数字图像的计算机设备20。设备20包括用于执行如上所述的用于生成适合于训练机器学习系统的数字图像的至少一种方法或/和方法步骤的装置,特别是合适的计算机硬件2和软件40。软件40包括指令,当程序由计算机设备执行时,这些指令使计算机设备20执行该方法的步骤和/或各方法步骤。
图13示意性地图示了用于处理数字图像的计算机设备50。设备50包括计算机硬件60并且在其上设置有深度学习系统70,例如如上所述的卷积神经网络系统。深度学习系统70使用如上所述生成的数字图像进行如上所述的训练。
图14示意性地图示了用于处理数字图像的计算机设备100。设备100包括用于执行至少一种方法或/和方法步骤以使用根据上述方法训练的经训练的机器学习模型来处理数字图像的装置,特别是合适的计算机硬件200和软件300。
软件300包括指令,当程序由计算机设备执行时,这些指令使计算机设备20执行用于使用经训练的机器学习模型处理数字图像的步骤。
图15示意性地示出了包括图像采集系统5的摄像机系统4,图像采集系统5包括光学透镜和用于图像采集的装置以及根据图13的计算机设备100。摄像机系统4设置为使得计算机设备100可以使用经训练的机器学习模型提高图像采集系统5采集的数字图像的分辨率。
Claims (23)
1.一种数字图像处理方法,包括:
对原始数字图像(DI1)进行图像处理,以生成经图像处理的数字图像(DI2),
降低经图像处理的数字图像(DI2)的分辨率,以生成起始数字图像(DI7),
其中,原始数字图像(DI1)和起始数字图像(DI7)用于形成用来提高数字图像分辨率的机器学习系统的训练数据集,该机器学习系统特别是神经网络学习系统。
2.根据权利要求1所述的方法,其特征在于,图像处理包括改变原始数字图像、优选为去噪(DN)和/或模糊(B)。
3.根据权利要求1或2所述的方法,其特征在于,模糊(B)对应于真实光学设备的模糊,其中,模糊优选地使用模糊核和/或点扩散函数来进行。
4.根据权利要求1至3中任一项所述的方法,其特征在于,该方法使用不同的原始数字图像(DI1、DI1a、DI1b、…、DI1n)而多次执行和/或通过执行不同的图像处理而多次执行,所述不同的图像处理特别是不同的模糊(B、B1、B2、…、Bn)。
5.根据权利要求2至4中任一项所述的方法,其特征在于,该方法使用不同的模糊(B、B1、B2、…、Bn)而多次执行,每个模糊对应于不同的真实光学设备。
6.根据权利要求2至5中任一项所述的方法,其特征在于,该方法使用不同的模糊(B、B1、B2、…、Bn)而多次执行,每个模糊对应于不同的高斯滤波器,特别是9x9、7x7和/或5x5高斯滤波器。
7.根据权利要求2至6中任一项所述的方法,其特征在于,该模糊(B)或这些模糊(B、B1、B2、…、Bn)、特别是模糊的强度或类型在表示图像的图像平面中不同。
8.根据权利要求1至7中任一项所述的方法,其特征在于,真实光学设备是全光成像系统、特别是万花筒,优选地真实光学设备生成要采集的对象的多个图像。
9.根据权利要求1至8中任一项所述的方法,其特征在于,图像处理包括噪声注入,该噪声特别是根据泊松-高斯噪声模型的真实噪声。
10.根据权利要求1至9中任一项所述的方法,其特征在于,改变图像数据格式,特别是将图像数据格式改变成被设置为用于包括来自图像传感器的未处理的或最少处理的数据的图像数据格式,优选地将图像数据格式改变成RAW图像格式。
11.根据权利要求10所述的方法,其特征在于,“改变成被设置为用于包括来自图像传感器的未处理的或最少处理的数据的图像数据格式,优选地改变成RAW图像格式”在噪声注入之前被执行,并且在噪声注入之后,将该图像数据格式改变成原始数字图像(1)的图像数据格式,原始数字图像优选使用RGB颜色空间、特别是sRGB,得到的数字图像优选形成用于生成试验数字图像(4)的起始数字图像(3)。
12.根据权利要求1至11中任一项所述的方法,其特征在于,原始数字图像(DI1)和起始数字图像(DI7)用于训练机器学习系统。
13.根据权利要求1至12中任一项所述的方法,其特征在于,训练包括增加起始数字图像(DI7)的分辨率,以用于生成试验数字图像(DI8)。
14.根据权利要求1至13中任一项所述的方法,其特征在于,训练包括比较试验数字图像(DI8)与原始数字图像(DI1)。
15.根据权利要求1至14中任一项所述的方法,其特征在于,使用已经通过执行根据权利要求1至14中任一项所述的方法步骤而被训练的机器学习系统来增加数字图像的分辨率,该数字图像优选地是用光学设备生成的数字图像。
16.一种数字图像处理方法,其中,使用已经通过执行根据权利要求1至15中任一项所述的方法步骤而被训练的机器学习系统来增加数字图像的分辨率,该数字图像优选地是用光学设备生成的数字图像。
17.一种计算机程序产品,所述计算机程序产品包括指令,当计算机执行程序时,该指令使该计算机执行根据权利要求1至16中任一项所述的方法的步骤。
18.根据权利要求17所述的计算机程序产品,其特征在于,该计算机程序产品是存储在下列项上的计算机程序:数据载体,优选为RAM、ROM、CD等;或者是装置,特别是个人计算机、具有嵌入式处理器的装置、嵌入在装置中的计算机、智能手机、用于生成图像记录的装置的计算机,该用于生成图像记录的装置特别是照片摄像机和/或视频摄像机;或者是代表适合通过计算机网络、特别是互联网传输的数据的信号序列。
19.一种数字图像处理设备,其包括用于执行根据权利要求1至16中任一项所述的过程的装置。
20.一种根据权利要求12至16中任一项所述的方法训练的经训练的机器学习模型。
21.一种数字图像处理设备,所述数字图像处理设备使用根据权利要求20所述的经训练的机器学习模型,以特别是用于增加数字图像的分辨率。
22.根据权利要求19或21中任一项所述的数字图像处理设备,其特征在于,该设备是图像采集系统的一部分,特别是摄像机,优选地是照片摄像机和/或视频摄像机。
23.一种传输根据权利要求17或18中任一项所述的计算机程序产品的数据载体信号。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102020130245.2 | 2020-11-16 | ||
LU102214A LU102214B1 (en) | 2020-11-16 | 2020-11-16 | Method for digital image processing |
LULU102214 | 2020-11-16 | ||
PCT/EP2021/081900 WO2022101516A1 (en) | 2020-11-16 | 2021-11-16 | Method for digital image processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116490892A true CN116490892A (zh) | 2023-07-25 |
Family
ID=74195037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180071681.9A Pending CN116490892A (zh) | 2020-11-16 | 2021-11-16 | 数字图像处理方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116490892A (zh) |
LU (1) | LU102214B1 (zh) |
-
2020
- 2020-11-16 LU LU102214A patent/LU102214B1/en active IP Right Grant
-
2021
- 2021-11-16 CN CN202180071681.9A patent/CN116490892A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
LU102214B1 (en) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101612165B1 (ko) | 초고해상도 이미지 생성 방법 및 이를 구현하기 위한 비선형 디지털 필터 | |
JP7015374B2 (ja) | デュアルカメラを使用する画像処理のための方法および移動端末 | |
US8559744B2 (en) | Method for processing a digital object and related system | |
Sun et al. | End-to-end learned, optically coded super-resolution SPAD camera | |
Green et al. | Multi-aperture photography | |
EP1361747A2 (en) | Method and apparatus for enhancing digital images utilizing non-image data | |
JP2022509034A (ja) | ニューラルネットワークを使用した輝点除去 | |
CN113170030A (zh) | 使用神经网络对摄影曝光不足进行校正 | |
CN107948520A (zh) | 图像处理方法和装置 | |
US20170339363A1 (en) | Image capturing apparatus, image capturing method, and storage medium using compressive sensing | |
KR20160140453A (ko) | 4d 원시 광 필드 데이터로부터 리포커싱된 이미지를 획득하기 위한 방법 | |
CN110428362A (zh) | 图像hdr转换方法及装置、存储介质 | |
Lv et al. | An integrated enhancement solution for 24-hour colorful imaging | |
JP2011109619A (ja) | 画像処理方法および画像処理装置、プログラム | |
EP4167134A1 (en) | System and method for maximizing inference accuracy using recaptured datasets | |
US20230419446A1 (en) | Method for digital image processing | |
LU102214B1 (en) | Method for digital image processing | |
WO2019171691A1 (ja) | 画像処理装置、および撮像装置、並びに画像処理方法 | |
US8736722B2 (en) | Enhanced image capture sharpening | |
Alasal et al. | Improving passive 3D model reconstruction using image enhancement | |
JP6611509B2 (ja) | 画像処理装置、撮像装置および画像処理プログラム | |
Hajisharif | Computational Photography: High Dynamic Range and Light Fields | |
Singh et al. | Detail Enhanced Multi-Exposer Image Fusion Based on Edge Perserving Filters | |
JP7334509B2 (ja) | 三次元形状モデル生成システム、三次元形状モデル生成方法及びプログラム | |
US11983853B1 (en) | Techniques for generating training data for machine learning enabled image enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |