CN113379612A

CN113379612A - 学习数据的制造方法、学习方法以及学习数据制造装置

Info

Publication number: CN113379612A
Application number: CN202110238468.4A
Authority: CN
Inventors: 鬼木崇
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-03-09
Filing date: 2021-03-04
Publication date: 2021-09-10
Also published as: US20210279851A1; JP2024024012A; US11830173B2; US20240046439A1; EP3879483A1

Abstract

本公开涉及学习数据的制造方法、学习方法以及学习数据制造装置。学习数据的制造方法被用于使神经网络执行学习。学习数据的制造方法包括：第一获取步骤，被配置为获取原始图像；第二获取步骤，被配置为获取通过向原始图像添加模糊而生成的作为训练图像的第一图像；以及第三获取步骤，被配置为获取通过向原始图像添加模糊而生成的作为地面真值图像的第二图像。添加到第二图像的模糊量小于添加到第一图像的模糊量。

Description

学习数据的制造方法、学习方法以及学习数据制造装置

技术领域

本发明涉及用于深度学习的学习数据的制造方法以及使用深度学习的学习方法。

背景技术

日本专利公开No.(“JP”)2019-121252公开了一种在使多层神经网络执行使用RAW图像作为输入的学习时通过考虑伽玛校正的影响而抑制下冲(undershoot)和振铃(ringing)的方法，其中下冲和振铃中的每一个都是由增加分辨率或对比度(锐化)造成的。X.Mao、C.Shen、Y.Yang，“Image Restoration Using Convolutional Auto-encoders withSymmetric Skip Connections”，https://arxiv.org/abs/1606.08921(下文中称为Mao等人)公开了一种网络配置，该网络配置普遍适用于各种回归(regression)问题。Mao等人进一步公开了通过使用网络对输入图像执行升采样、JPEG解块(压缩噪声的移除)、去噪、非盲去模糊或修复。

但是，JP 2019-121252和Mao等人公开的方法取决于输入图像而可能无法抑制下冲、振铃等，并且这些副作用可能会在校正后的图像(估计的图像)中发生。具体而言，当输入图像包括高亮度的对象时、当输入图像包括由于光学系统的像差而大大模糊的对象时，或者尤其是当输入图像包括具有高亮度值和亮度饱和的对象时，这些副作用可能会发生。当此类图像用作学习数据时，取决于校正量，诸如下冲和振铃之类的副作用可能会发生。

发明内容

本发明提供了一种学习数据等的制造方法，即使当输入到神经网络的图像包括高亮度的对象或由于光学系统的像差而大大模糊的对象时，学习数据等中的每一种也可以实现高度准确的校正，同时减少副作用发生的可能性。

作为本发明的一个方面的学习数据的制造方法被用于使神经网络执行学习。学习数据的制造方法包括：第一获取步骤，被配置为获取原始图像；第二获取步骤，被配置为获取通过向原始图像添加模糊而生成的作为训练图像的第一图像；以及第三获取步骤，被配置为获取通过向原始图像添加模糊而生成的作为地面真值图像的第二图像。添加到第二图像的模糊量小于添加到第一图像的模糊量。

作为本发明另一方面的学习方法使神经网络使用由上述学习数据的制造方法生成的学习数据来执行学习。该学习方法包括以下步骤：通过将第一图像作为训练图像输入到神经网络中来生成经处理的图像，并且基于第二图像和经处理的图像来更新神经网络。

作为本发明另一方面的学习数据制造装置制造用于神经网络的学习的学习数据。该学习数据制造装置包括：第一获取单元，被配置为获取原始图像；第二获取单元，被配置为获取通过向原始图像添加模糊而生成的第一图像；以及第三获取单元，被配置为获取通过向原始图像添加模糊而生成的第二图像。添加到第二图像的模糊量小于添加到第一图像的模糊量。

作为本发明的另一方面的学习装置包括上述学习数据制造装置、被配置为通过将第一图像作为训练图像输入到神经网络来生成经处理的图像的生成单元，以及被配置为基于第二图像和经处理的图像来更新神经网络的更新单元。

作为本发明的另一方面的经学习的模型的制造方法通过使神经网络使用由上述学习数据的制造方法生成的学习数据执行学习来制造经学习的模型。经学习的模型的制造方法包括以下步骤：通过将第一图像作为训练图像输入到神经网络来生成经处理的图像，并且使神经网络基于第二图像和经处理的图像来执行学习。

通过以下参考附图对示例性实施例的描述，本发明的其它特征将变得清楚。

附图说明

图1是例示根据第一实施例的学习数据的制造方法的流程图。

图2是例示根据第一实施例和第三实施例的图像处理系统的框图。

图3是例示根据第一实施例和第三实施例的图像处理系统的外观图。

图4是与根据每个实施例的光学信息相关的说明图。

图5是与根据第一实施例和第三实施例的校正图相关的说明图。

图6是例示根据每个实施例的学习阶段的流程图。

图7是例示根据每个实施例的卷积神经网络的图。

图8A和图8B是与根据每个实施例的图像的颜色分量相关的说明图。

图9是例示根据第一实施例和第二实施例的估计阶段的流程图。

图10是例示根据第二实施例的图像处理系统的框图。

图11是例示根据第二实施例的图像处理系统的外观图。

图12是例示根据第二实施例的学习数据的制造方法的流程图。

图13A和图13B是与根据第二实施例的校正图相关的说明图。

图14是例示根据第三实施例的学习数据的制造方法的流程图。

图15是例示根据第三实施例的光学性能和模糊量的说明图。

图16是例示根据第三实施例的估计处理的流程图。

具体实施方式

现在参考附图，将给出本发明的实施例的描述。相应附图中的对应元件将由相同的附图标记表示，并且将省略其描述。

首先，将给出在每个实施例中使用的每个术语的定义。每个实施例涉及通过深度学习解决回归问题和从输入图像估计各种输出图像的方法。深度学习是使用多层神经网络的机器学习。当从大量的训练图像和对应的地面真值图像(ground truthimage)(期望的输出)的对中学习网络参数(权重和偏差)时，即使对于未知的输入图像，也有可能执行高度准确的估计。

使用多层神经网络的图像处理包括两个阶段，这两个阶段是用于更新网络参数(权重和偏差)的处理阶段和用于使用更新后的参数对未知的输入执行估计的处理阶段。在下文中，前一个阶段将被称为学习阶段，而后一个阶段将被称为估计阶段。

接下来，定义在学习阶段和估计阶段中的图像的名称。输入到网络的图像将被称为输入图像，并且特别地，已知其地面真值图像并且在学习阶段使用的输入图像将被称为训练图像。从网络输出的图像将被称为输出图像，并且特别地，在估计阶段期间的输出图像将被称为估计的图像。网络的输入图像和地面真值图像是RAW图像。RAW图像是从图像传感器输出的未显影的图像数据，并且每个像素的光量和信号值具有基本上线性的关系。在用户观看图像之前对RAW图像进行显影，在显影时执行伽玛校正。伽玛校正是例如将输入信号值提高到幂的处理，并且将1/2.2等用作指数。在每个实施例的学习数据(学习图像)的制造方法中，生成经调整的地面真值图像，在学习中使用该经调整的地面真值图像，以在抑制副作用的同时实现高度准确的校正。在每个实施例中，将基本上没有劣化并且是生成地面真值图像或训练图像的基础的图像称为原始图像。

在详细描述每个实施例之前，将描述本发明的要点。本发明实现了一种神经网络，并提供其必需的学习数据，该神经网络能够校正包括高亮度对象或由于光学系统的像差而大大模糊的对象的图像，同时防止副作用。本发明不是原样使用原始图像作为学习数据的地面真值图像，而是使用经调整的地面真值图像。经调整的地面真值图像是其中模糊被添加到原始图像的有可能发生副作用的部分(诸如高亮度部分、高对比度部分以及具有大像差的区域)的图像。这种调整使锐度在地面真值图像与训练图像之间根据图像的位置而不同。可替代地，训练图像可以通过锐化来生成。这些方法中的任何一种都可以将地面真值图像的模糊量(锐度)调整为原始图像与训练图像之间的中间模糊量。由此，在可能发生副作用的区域中，可以使地面真值图像与训练图像之间的差异小于原始图像与训练图像之间的差异。当通过使用均以这种方式生成的地面真值图像和训练图像执行学习时，有可能生成在减少副作用发生的可能性的同时实现高度准确校正的学习模型。

第一实施例

将给出对本发明的第一实施例的图像处理系统的描述。在这个实施例中，首先，生成用于通过多层神经网络进行学习的学习数据。此后，使用生成的学习数据来执行学习，并且使用学习到的模型来执行校正处理。

图2是例示这个实施例中的图像处理系统100的框图。图3是例示图像处理系统100的外观图。图像处理系统100包括学习装置(图像处理装置)101、图像拾取装置102、图像估计装置(图像处理装置)103、显示装置104、记录介质105、输出装置106、网络107和学习数据制造装置(图像处理装置)108。

学习数据制造装置108是被配置为制造在学习阶段中使用的学习数据的装置，并且包括存储器108a、获取器108b和生成器108c。获取器108b被配置为获取原始图像(第三图像)和关于光学系统的特点信息，诸如用于生成学习数据的像高。生成器108c被配置为基于原始图像生成训练图像(第一图像)和地面真值图像(第二图像)。即，生成器108c具有作为用于获取训练图像的获取单元和用于生成具有与训练图像的光学特点不同的光学特点的地面真值图像的生成单元的功能。由生成器108c生成的训练图像和地面真值图像被存储在存储器108a中。稍后将参考图1的流程图给出关于学习数据的生成的详细描述。

学习装置101是被配置为执行学习阶段的图像处理装置，并且包括存储器101a、获取器101b、生成器(生成单元)101c和更新器(更新单元)101d。获取器101b被配置为获取训练图像和地面真值图像。生成器101c被配置为将训练图像(第一图像)输入到多层神经网络并生成输出图像(经处理的图像)。更新器101d被配置为基于由生成器101c生成的输出图像与地面真值图像之间的差异(误差)来更新神经网络的网络参数。稍后将参考流程图给出学习阶段的详细描述。学习到的网络参数被存储在存储器101a中。

图像拾取装置102包括光学系统102a和图像传感器102b。光学系统102a被配置为收集从对象空间进入图像拾取装置102的光。图像传感器102b被配置为通过接收经由光学系统102a形成的光学图像(对象图像)的光(即，通过对该光学图像进行光电转换)来获取捕获的图像。图像传感器102b是例如CCD(电荷耦合器件)传感器、CMOS(互补金属氧化物半导体)传感器等。由图像拾取装置102获取的捕获的图像包括由光学系统102a的像差或衍射造成的模糊和由图像传感器102b造成的噪声。

图像估计装置103是被配置为执行估计阶段的装置，并且包括存储器103a、获取器103b和校正单元(估计单元)103c。图像估计装置103被配置为获取捕获的图像，在抑制副作用的同时执行去模糊(校正模糊)，并生成估计的图像。多层神经网络被用于模糊，并且从存储器103a读取关于网络参数的信息。网络参数由学习装置101学习到。图像估计装置103被配置为预先经由网络107从存储器101a读取网络参数并且将网络参数存储在存储器103a中。所存储的网络参数可以是数值本身，或者可以是编码的形式。稍后将给出网络参数的学习和使用网络参数的去模糊处理的详细描述。

输出图像被输出到显示装置104、记录介质105和输出装置106中的至少一个。显示装置104是例如液晶显示器或投影仪。用户可以经由显示装置104在检查正在处理的图像的同时执行编辑工作等。记录介质105是例如半导体存储器、硬盘、网络上的服务器等。输出装置106是打印机等。图像估计装置103具有根据需要执行显影处理和其它图像处理的功能。

接下来，将参考图1给出由学习数据制造装置108执行的学习数据的制造方法的描述。图1是例示学习数据的制造方法的流程图。图1的每个步骤由学习数据制造装置108的每个部分(存储器108a、获取器108b和生成器108c)执行。

首先，在图1的步骤S101中，获取器108b获取多个原始图像(第三图像)(第一获取步骤)。原始图像可以预先存储在存储器108a中并从存储器108a获取，或者可以从外部装置(未示出)获取。在这个实施例中，原始图像是未显影的RAW图像。但是，这个实施例不限于此，并且可以是显影后的图像。多个原始图像是包括各种对象(即，各种强度和方向的边缘、各种纹理、各种灰度、各种平坦部分等)的图像。原始图像可以是捕获的图像，或者可以是由CG(计算机图形)生成的图像。原始图像可以具有高于图像传感器102b的亮度饱和度值的信号值，因为当图像拾取由图像拾取装置102在具体曝光条件下执行时，实际对象可以是具有大于亮度饱和度值的信号值的对象。

随后，在步骤S102中，获取器108b获取用于对在步骤S101中获取的原始图像进行模糊(向其添加模糊)的光学系统102a的光学信息(第四获取步骤)。光学系统102a取决于多个透镜状态(变焦、光圈和对焦距离的状态)、像高和方位而造成不同的像差和衍射。因此，有必要向每个原始图像添加由取决于透镜状态、像高和方位的像差或衍射造成的不同模糊。在步骤S102中，获取光学系统102a的PSF(点扩展函数)，该PSF被用于在下一步骤S103中进行模糊。此时，由获取器108b获取的光学信息可以是与PSF的分布对应的二维数据，或者可以是通过利用奇异值分解等对PSF进行分解而获取的一维向量的集合。PSF可以通过具体的函数来拟合和近似，并且可以获取在近似时获取的多条系数数据作为光学信息。在这种情况下，可以通过使用获取的系数数据和近似函数进行重构来获取PSF。在这个实施例中，将描述使用PSF进行模糊的情况，但是可以使用OTF(光学传递函数)来代替PSF。在获取OTF作为光学信息的情况下，与获取PSF的情况一样，可以将OTF获取为二维数据、一维向量或系数数据。

图4例示了原始图像与PSF之间的位置关系。在图4中，矩形框表示原始图像，而白色圆圈表示要获取或生成的PSF的位置。当PSF在原始图像中改变时，获取或生成与图4所示的每个位置对应的PSF。在图4中，PSF的位置为9×9，但可以为了减重(weightreduction)而减小，或者可以为了高准确度而增加。

随后，在步骤S103中，生成器108c通过使用在步骤S102中获取的光学信息来生成训练图像(第一图像)(第二获取步骤)。当获取的光学信息不是PSF而是作为PSF的基础的系数数据等时，生成PSF。此后，生成器108c通过使用PSF使原始图像模糊。在这个实施例中，通过将PSF作为模糊滤波器卷积到原始图像中来执行模糊。当基于像高改变模糊的程度时，可以对于原始图像的每个像素改变PSF，并且可以对于所有像素中的每个像素计算PSF和原始图像的对应区域的线性和。例如，当使用与图4中所示的位置对应的PSF时，为了在模糊位于白色圆圈之间的像素(关注的像素)之后获取像素值，首先，获取与邻近像素的四个白色圆圈对应的PSF。此后，对四个获取的PSF进行插值以计算与关注的像素对应的PSF，计算PSF和原始图像的线性和，并且将该值假设为关注的像素在模糊之后的值。作为插值方法，诸如双线性、双三次和最近邻之类的已知方法可以被使用。

接下来，减小模糊的原始图像。当原始图像的信号值高于图像传感器102b的亮度饱和度值时，该信号被削波为图像传感器102b的亮度饱和度值。特别地，当将捕获的图像用作原始图像时，已经由像差或衍射造成模糊。可以通过减小原始图像来减少模糊的影响，从而可以获取具有高分辨率(高质量)的图像。当原始图像包括足够量的高频分量时，可以不执行减小。

随后，在步骤S104中，生成器108c生成用于生成地面真值图像的校正图。图5是例示这个实施例中的校正图的图。在图5的校正图中，基于像高将原始图像划分为A、B、C和D四个区域。在图5中，实线内部的区域表示A区域，由实线和虚线包围的区域表示B区域，由虚线和双点划线包围的区域表示C区域，并且双点划线外部的区域表示D区域。在这个实施例中，通过基于光学系统的性能使原始图像模糊来生成地面真值图像。关于用于生成校正图的光学系统的性能，可以使用与性能相关的任何指标，但是这个实施例使用光学系统的OTF来生成校正图。

首先，通过对与图4中的白色圆圈对应的PSF执行傅立叶变换来生成与白色圆圈对应的位置处的OTF。接下来，对于每个OTF，获取绝对值以计算MTF(调制传递函数)。此后，计算每个MTF的直到图像传感器的Nyquist频率的平均值，并且使用这个值作为指标来生成校正图。除白色圆圈以外的位置处的指标值通过插值与附近的白色圆圈对应的指标值来获取。虽然这里通过使用直到Nyquist频率的平均MTF来计算指标，但是可以在不同的频带中计算平均MTF，或者可以将特定频率用作指标。这个实施例中的校正图被用于使地面真值图像模糊，因此校正图与每个像素中的模糊量对应。

在图5中，校正图基于像高被划分为四个区域，并基于作为索引值的平均MTF的值被划分为这些区域。例如，平均MTF为0.8以上的区域是A区域，平均MTF为0.6以上且小于0.8的区域是B区域，平均MTF为0.4以上且小于0.6的区域为C区域，并且平均MTF小于0.4的区域为D区域。当光学系统102a是同轴系统时，光学性能相对于光轴是对称的，因此校正图也是旋转对称的，如图5中所示。一般而言，在光学系统中，随着位置越靠近图像的中心，即，越靠近光轴(随着像高越低)，性能就趋于越高，而随着位置越靠近图像的外围，即，越远离光轴(随着像高越高)，性能就趋于越低。因此，校正图可能具有如图5中所示的分布。换句话说，在地面真值图像中，当像高是第一像高时，锐度是第一锐度(第一模糊量)，而当像高是高于第一像高的第二像高时，锐度是是低于第一锐度的第二锐度(大于第一模糊量的第二模糊量)。

当考虑光学低通滤波器、图像传感器102b的像素开口、光学系统102a的制造期间的变化等时，这种对称性丧失，因此校正图不一定具有圆形对称性。这个步骤计算OTF以便计算指标，但是只要指标反映光学性能，就可以将另一个数值用作指标。例如，PSF的峰值可以被用作指标。PSF的峰值是OTF的实部的积分值，因此该峰值是与MTF相关的指标。可替代地，可以通过使用Parseval定理来计算PSF的平方和，并且可以计算MTF的平方和的平均值。当不计算OTF而直接从PSF计算指标并且以这种方式生成校正图时，傅立叶变换变得不必要，并且有可能减少计算量。如图5中所示，这个实施例中的校正图被划分为四个区域，但是区域的数量可以增加或减少。指标按阶段划分，但是指标值原样可以被用作校正图，或者可以被用作连续值。

随后，在步骤S105中，生成器108c基于在步骤S104中生成的校正图生成地面真值图像(第二图像)(第三获取步骤)。当通过深度学习校正模糊(执行去模糊)时，用于学习的学习数据中的训练图像与地面真值图像之间的差异越大，越可能在估计时产生副作用。光学系统102a在区域中的性能越低，在步骤S103中使训练图像模糊的程度越大。因此，当原始图像原样用作地面真值图像时，区域的性能越低，训练图像与地面真值图像彼此越不同。通过减小这个差异，这个实施例减小了发生副作用的可能性。在图5的校正图中，由于区域A是具有高性能的区域，因此原始图像被原样使用而不被模糊为与这个区域对应的地面真值图像。由此，可以通过针对本来就不太可能发生副作用的高性能区域维持训练图像与地面真值图像之间的差异来维持校正量。

接下来，关于区域B，其性能低于区域A的性能并且高于区域C的性能，因此原始图像被轻微地添加模糊。通过例如生成减小到与每个像素对应的PSF的30％的PSF并且将减小的PSF添加到原始图像来生成地面真值图像。由于区域C的性能低于区域B的性能，因此进一步增加模糊量。例如，通过生成减小到被添加到训练图像的PSF的60％的PSF并将减小的PSF添加到原始图像来生成地面真值图像。由于区域D的性能最低，因此通过将添加到训练图像的PSF不经减小地添加到原始图像来生成地面真值图像。用于校正图的PSF的减小量是示例，并且不限于此。区域A被描述为不被模糊的区域，但是整个区域可以被模糊。但是，要添加到地面真值图像的模糊量需要等于或小于生成训练图像时添加的模糊量。即，训练图像具有比地面真值图像更低的锐度(更大的模糊量)。因此，在使地面真值图像模糊的情况下，要使用的PSF等于或小于生成训练图像时使用的PSF。

当在步骤S103中在生成训练图像期间使训练图像模糊之后减小训练图像时，地面真值图像也以相同的倍率减小。此时，当原始图像的信号值高于图像传感器102b的亮度饱和度值时，该信号被削波为图像传感器102b的亮度饱和度值。

随后，在步骤S106中，存储器108a将在步骤S103中生成的训练图像和在步骤S105中生成的地面真值图像的对存储为学习数据。将要生成的训练图像和地面真值图像可以被划分并输出为多个块(patch)。块是具有预定数量的像素(例如，64×64像素)的图像。地面真值块和训练块的像素数量可以不一定匹配。当图像被输出为块时，可以划分通过图1的流程图输出的训练图像和地面真值图像，或者可以在步骤S101中将原始图像分解为每个块，然后可以进行步骤S102之后的处理。

如上所述，当生成地面真值图像时，这个实施例不简单地减小并输出原始图像，而是使光学系统的光学性能低的区域模糊，即，降低锐度。可以使用旋转对称模糊(诸如，高斯分布)或基于光学系统退化的模糊来执行模糊。当如这个实施例中那样使用光学系统的PSF时，图像能够以更高的准确度被去模糊。

接下来，将参考图6给出关于由实施例中的学习装置101执行的网络参数的学习方法(即，学习模型的制造方法)的描述。图6是与网络参数的学习相关的流程图。图6的每个步骤主要由学习装置101的获取器101b、生成器101c或更新器101d执行。

首先，在图6的步骤S201中，获取器101b获取地面真值块(第一地面真值图像)和训练块(第一训练图像)。地面真值块是具有相对较少模糊的图像，而训练块是具有相对较多模糊的图像。这个实施例使用迷你批量学习(mini-batch learning)来通过多层神经网络学习网络参数。因此，在步骤S101中，获取地面真值块和训练块的多个集合。但是，这个实施例不限于此，并且可以使用在线学习或批量学习。

随后，在步骤S202中，获取器101b获取关于在学习阶段中使用的校正强度的信息，该信息在下文中也被称为校正强度信息。在这个实施例中，校正强度信息是与学习数据相关联的信息，并且使得有可能在估计期间控制校正量。例如，当两条信息“强”和“弱”可以在估计时被设置为校正强度信息时，有必要使用与每条信息对应的学习数据(即，训练图像和地面真值图像)来执行学习并准备两种类型的网络参数。在这个实施例中，将给出使用这两条信息的情况的描述，但是可以增加可设置信息的条数，或者可以将该信息设置为连续信息而不是离散信息。

随后，在步骤S203中，生成器101c从在步骤S201中获取的多个训练图像中选择至少一个训练图像，将选择的训练图像输入到网络，并计算(生成)输出图像。批量学习是选择该多个训练图像的全部的情况，即，所有训练图像都被输入到网络并且通过使用所有输出来更新网络参数的情况。在这个方法中，随着训练图像的数量增加，计算负荷大大增加。在线学习是选择单个训练图像的情况，即，单个训练图像被用于更新网络参数并且对于每个更新使用不同的训练图像的情况。在这个方法中，即使训练图像的总数增加，计算量也不会增加，但是容易受到单个训练图像中存在的噪声的影响。因此，可以使用迷你批量方法，其中从多个训练图像中选择少量(迷你批量)的训练图像，并使用那些来更新网络参数。在下一次更新中，选择并使用不同的少量训练图像。通过重复这个处理，可以减少批量学习和在线学习的弱点。

在此，参考图7，将给出对由多层神经网络执行的处理的描述。图7是例示卷积神经网络(CNN)的图。但是，本实施例不限于此，并且例如，可以使用残差网络(residualnetwork)作为CNN，或者可以使用GAN(Generative Adversarial Network，生成式对抗网络)等。在图7中，为了简化，例示了要输入的单个训练图像201，但是实际上，针对所选择的多个训练图像中的每一个生成输出图像。训练图像201是针对每个颜色分量在三维方向上布置RAW图像的图像。

图8A和图8B是与图像的颜色分量相关的说明图。在这个实施例中，训练图像是如图8A中所示的Bayer阵列的图像。在此，R、G和B分别表示红色、绿色和蓝色。图8B例示了一种配置，其中针对来自图8A的Bayer阵列的每种颜色重新布置了分量。G包括G1和G2这两种类型，并且分别提取和布置它们。在三维方向上布置图8B的四个图像的四通道图像是图7中的训练图像201。这个处理并非总是必要的，但是像差和衍射取决于波长而改变，因此，当布置具有相同模糊的每个颜色分量时，更容易执行去模糊。另外，当R、G和B被布置在相同维度中时，具有不同亮度的像素被局部混合，因此估计准确度可能降低。因此，可以针对每个颜色分量分离训练图像。在此，描述了Bayer布置的情况，但是同样适用于其它布置，诸如蜂窝结构。在单色的情况下，可以不执行颜色分量的重新布置。这个实施例描述了共同地学习和估计多个颜色分量的示例，但是每个颜色可以被单独地学习和估计。

在这个实施例中，训练图像和地面真值图像中的每一个可以包括周期性布置的多个颜色分量，并且可以提供生成仅由训练图像或地面真值图像的每个颜色分量组成的颜色分量图像的步骤。在这种情况下，在将训练图像输入到神经网络之前对训练图像执行生成颜色分量图像的步骤，并且在计算误差之前对地面真值图像执行生成颜色分量图像的步骤。CNN具有包括多个层的结构，并且在每个层中执行线性变换和非线性变换。线性变换由输入图像(或特征图)与滤波器的卷积与偏差(如图7所示)之和表示。学习阶段为每一层更新网络参数(滤波器的权重和偏差)。非线性变换是通过作为非线性函数的激活函数(图7中的AF)进行的变换。激活函数是例如S形(sigmoid)函数或双曲正切函数，并且这个实施例使用由以下表达式(1)表示的ReLU(整流线性单元)。

f(x)＝max(x,0) (1)

在表达式(1)中，max表示输出自变量中的最大值的MAX函数。

在第一卷积层中，获取输入到输入层的训练图像201和多个滤波器202中的每一个的卷积与偏差之和。通道数量在每个滤波器202和训练图像201之间是相同的。当训练图像201的通道数量是两个或更多时，滤波器202变为三维滤波器(第三维表示通道数量)。滤波器的垂直和水平尺寸是任意的。对每个卷积与偏差之和的结果执行激活函数的非线性变换，并且第一特征图203被输出到第一中间层。第一特征图203的通道数量(在三维方向上的布置的数量)与滤波器202的数量相同。随后，以与上述相同的方式，将第一特征图203输入到第二卷积层并且获取第一特征图203与多个滤波器204中的每一个的卷积与偏差之和。结果被非线性变换，并且对卷积层的数量重复相同的处理。一般而言，深度学习由具有三个或更多个卷积层的CNN执行。从最后的卷积层输出的结果是CNN的输出图像211。在最后的卷积层中，可能不必通过激活函数执行非线性变换。

随后，在步骤S204中，生成器101c计算输出图像211与地面真值图像221之间的误差。此时，这个实施例在对输出图像211和地面真值图像221执行伽玛校正之后计算误差。伽玛校正是例如将输入信号值提高到幂的处理，并且使用1/2.2等作为指数。如训练图像201中那样，地面真值图像221被针对每个颜色分量进行布置，并且在通道方向上堆叠。在这个实施例中，生成器101c使用以下表达式(2)来计算误差L。

在表达式(2)中，t表示地面真值图像221的信号值，y表示输出图像211的信号值，j表示像素数，N表示像素的总数，并且g表示伽玛校正。在表达式(2)中使用欧几里得范数，但是可以使用另一个指标，只要该指标是表示地面真值图像与输出图像之间的差异的值即可。在这个实施例中，在对输出图像211和地面真值图像221执行伽玛校正之后计算误差。但是，这个处理不是必需的，并且可以在不进行伽玛校正的情况下计算误差。

随后，在步骤S205中，更新器101d使用在步骤S204中计算出的误差来计算网络参数的更新量，并更新网络参数。在此，使用反向传播。在反向传播中，基于误差的导数来计算更新量。但是，这个实施例不限于此。

随后，在步骤S206中，更新器101d确定是否满足预定的终止条件，即，是否完成了网络参数的优化。预定终止条件是例如当学习阶段达到预定时间时、当参数被更新了预定次数时或者当准备了将不用于参数更新的训练图像和地面真值图像并且输出图像与准备的地面真值图像之间的误差等于或小于预定值时。可替代地，用户可以指示优化的结束。当不满足预定终止条件时，处理返回到步骤S203，并且更新器101d获取新的迷你批量并更新网络参数。另一方面，当满足预定终止条件时，处理前进到步骤S207。

在步骤S207中，将由更新器101d更新了的网络参数输出到记录介质105。在这个实施例中，由于针对每条不同的校正强度信息来学习网络参数，因此将网络参数和对应的校正强度信息一起存储在记录介质105中。根据上述学习阶段，即使当对包括具有低光学性能的区域的图像执行校正处理时，也可以获取能够减少副作用发生的可能性的多层神经网络。

接下来，将参考图9给出关于由图像估计装置103执行的估计阶段的描述。图9是例示估计阶段的流程图。

首先，在步骤S301中，获取器103b从图像拾取装置102或记录介质105获取捕获的图像。捕获的图像是未显影的RAW图像。当RAW图像的信号值被编码时，校正单元103c执行解码处理。获取器103b从图像拾取装置102或记录介质105获取校正强度信息。如上所述，校正强度信息是与诸如“强”和“弱”之类的校正强度相关联的参数，并且用户可以经由图像拾取装置中的设置自由地选择它。校正强度信息可以被保留在捕获的图像中作为捕获的图像的标题信息。在下面的描述中，标题信息指示图像的附加信息，并且可以是脚注信息。校正强度信息可以不是由用户选择的，而是可以由图像拾取装置102基于图像拾取场景自动确定的。

随后，在步骤S302中，校正单元103c从在步骤S301中获取的校正强度信息中获取与该信息对应的网络参数。网络参数从学习装置101的存储器101a读取。可替代地，图像估计装置103的存储器103a可以预先存储多个网络参数，并且网络参数可以从存储器103a读取。获取使在步骤S301中获取的校正强度信息与学习阶段中使用的校正强度信息彼此匹配或变得最接近的网络参数。

随后，在步骤S303中，校正单元103c从捕获的图像中获取要输入到CNN的输入图像。如在训练图像中一样，输入图像被针对每个颜色分量进行布置并在三维方向上堆叠。估计阶段中的输入图像的尺寸可以不必与学习阶段中的训练图像的尺寸相同。

随后，在步骤S304中，校正单元103c基于输入图像和网络参数生成估计的图像。与学习阶段中一样，使用图7中所示的CNN生成估计的图像。但是，图7中的输出图像211是估计的图像，并且不执行诸如与地面真值图像的误差计算之类的后续处理。

随后，在步骤S305中，校正单元103c确定对于捕获的图像的预定区域是否完成了估计。当估计未完成时，处理返回到步骤S303，并且校正单元103c从捕获的图像的预定区域获取新的输入图像。在用于估计的CNN中，当输出图像的尺寸小于输入图像的尺寸时，有必要从预定区域获取与先前图像重叠的新输入图像。预定区域是捕获的图像的全部或一部分。因为捕获的图像是RAW图像，因此除了通过接收光获取的图像之外，捕获的图像还可以包括标题信息(即，诸如图像的像素数和图像拾取时间之类的信息)，以及图像传感器的光学黑(optical black)信息。由于标题信息和光学黑与由像差或衍射造成的模糊无关，因此可以将其从预定区域中排除。

随后，在步骤S306中，校正单元103c组合所生成的多个估计的图像并输出其中校正了由像差或衍射造成的模糊的去模糊的捕获的图像。如果有必要，那么校正单元103c也输出标题信息和光学黑信息。

根据上述估计阶段，即使当对包括由于光学系统的性能而严重劣化的图像的捕获的图像执行估计处理时，也可以在抑制下冲和振铃的同时校正由像差或衍射造成的模糊。在估计阶段之后，用户可选地执行编辑工作(诸如曝光校正等)，并通过显影处理获取最终的显影图像。这个实施例已经描述了基于校正强度信息来切换网络参数以执行校正的方法。但是，可以通过获取多个网络参数并将输入图像输入到每个网络来生成多个输出图像。在这种情况下，有可能生成具有不同校正强度的多个输出图像。由此，可以通过例如对输出图像进行插值来生成具有中间校正强度的输出图像。可替代地，可以使用单条校正强度信息，并且可以仅将特定的网络参数存储在图像拾取装置102或记录介质105中。

第二图像可以取决于像高而具有不同的锐度。在第二图像中，当像高是第一像高时，锐度可以是第一锐度，并且当像高是高于第一像高的第二像高时，锐度可以是低于第一锐度的第二锐度。

第二图像可以取决于亮度值而具有不同的锐度。在第二图像中，当亮度值是第一亮度值时，锐度可以是第三锐度，并且当亮度值是低于第一亮度值的第二亮度值时，锐度可以是高于第三锐度的第四锐度。

第一图像可以具有比第二图像更低的锐度。

学习数据的制造方法还可以包括获取第三图像(原始图像)的步骤。在生成图像的步骤中，通过模糊第三图像来生成第二图像。在生成图像的步骤中，可以通过对第三图像进行其中模糊量取决于光学系统的光学特性而不同的模糊处理来生成第二图像。

第二实施例

接下来，将给出对本发明第二实施例中的图像处理系统的描述。

图10是例示这个实施例中的图像处理系统300的框图。图11是例示图像处理系统300的外观图。图像处理系统300包括经由网络303连接的服务器301和图像拾取装置302。

服务器301包括学习单元310和作为学习数据制造装置的学习数据生成器330。学习单元310包括存储器311、获取器312、生成器313和更新器314，并且被配置为使神经网络学习用于校正由像差或衍射造成的模糊的网络参数。学习数据生成器330包括存储器331、获取器332和生成器333。获取器332被配置为获取原始图像和用于生成学习数据的光学系统的特点信息。生成器333被配置为基于原始图像生成训练图像和地面真值图像。即，生成器333具有作为用于获取训练图像的获取单元和用于生成具有与训练图像的光学特点不同的光学特点的地面真值图像的生成单元的功能。由生成器333生成的训练图像和地面真值图像被存储在存储器331中。

图像拾取装置302被配置为捕获对象空间的图像以获取捕获的图像，并且使用读取的网络参数来校正捕获的图像中由像差或衍射造成的模糊。图像拾取装置302包括光学系统321和图像传感器322。图像估计单元323包括获取器323a和估计单元323b，并且被配置为使用存储在存储器324中的网络参数以及对捕获的图像执行校正。网络参数由学习单元310预先学习到并存储在存储器311中。图像拾取装置302被配置为经由网络303从存储器311读取网络参数，并将其存储在存储器324中。记录介质325被配置为存储其中校正了由像差或衍射造成的模糊的去模糊的捕获的图像(输出图像)。当用户给出关于显示输出图像的指令时，所存储的输出图像被读出并显示在显示单元326上。预先存储在记录介质325中的捕获的图像可以由图像估计单元323读出并去模糊。系统控制器327被配置为执行上述一系列控制。

接下来，将参考图12给出由学习数据生成器330执行的学习数据生成处理的描述。图12是例示学习数据生成处理的流程图。图12的每个步骤由学习数据生成器330的每个部分(存储器331、获取器332和生成器333)执行。

在第一实施例中，对于光学系统的光学性能低的区域，原始图像在生成地面真值图像时被模糊。由此，在光学性能低的区域中，训练图像与地面真值图像之间的差异被变小，而在光学性能高的区域中，训练图像与地面真值图像之间的差异被维持。因此，生成了使副作用发生的可能性减少的学习数据。另一方面，这个实施例专注于图像的亮度值，并且将给出用于减小诸如每个都发生在高亮度部分附近的下冲和振铃之类的副作用发生的可能性的学习数据的制造方法的描述。

图12的步骤S401、S402和S403与图1的步骤S101、S102和S103中的处理相同，因此将省略其描述。当关于图像传感器322的亮度饱和度值的信息在步骤S404中使用时，获取器332可以在步骤S401或步骤S402中从图像拾取装置302获取关于亮度饱和度值的信息。可替代地，关于亮度饱和度值的信息可以从在步骤S401中获取的原始图像的标题信息中获取。

接下来，在步骤S404中，生成用于生成地面真值图像的校正图。图13A是例示这个实施例中的校正图的图。在校正图中，基于亮度值将原始图像划分为A、B、C和D四个区域。在图13A中，实线内部的区域表示D区域，虚线内部的排除D区域的区域是C区域，双点划线内部的排除D区域和C区域的区域是B区域，并且双点划线外部的区域是A区域。图13B是原始图像的截面图并且与图13A的粗实线对应。图13B中的实线、虚线和双点划线分别与图13A中的实线、虚线和双点划线对应。在这个实施例中，D区域是亮度值等于或高于图像传感器322的亮度饱和度值的区域，C区域是亮度值为该亮度饱和度值的60％以上且小于该亮度饱和度值的区域，B区域是亮度值为该亮度饱和度值的20％以上且小于60％的区域，而A区域是亮度值小于该亮度饱和度值的20％的区域。在这个实施例中，如图13A中所示，基于亮度值将校正图划分为四个区域，但是区域的数量可以增加或减少。在这个实施例中，指标被划分为步阶，但是指标值可以原样用作校正图或用作连续值。

随后，在步骤S405中，基于在步骤S404中生成的校正图来生成地面真值图像。在图13A的校正图中，A区域具有低亮度值并且不太可能发生副作用，因此与这个区域对应的地面真值图像原样使用原始图像，而不添加模糊。由此，通过对于发生副作用的可能性本来就低的高性能区域维持训练图像与地面真值图像之间的差异，可以维持校正量。

关于B区域，亮度高于A区域的亮度并且低于C区域的亮度，因此模糊被轻微地添加到原始图像。例如，通过将减小的PSF添加到原始图像来生成地面真值图像，该减小的PSF通过将与每个像素对应的PSF减小到20％来生成。随后，C区域的亮度高于B区域的亮度，进一步增加模糊量。例如，通过将减小的PSF添加到原始图像来生成地面真值图像，该减小的PSF通过将给予训练图像的PSF减小到50％来生成。D区域具有最高的亮度，因此通过用添加到训练图像的PSF对原始图像进行模糊来生成地面真值图像，该PSF没有被减小。换句话说，在地面真值图像中，当亮度值是第一亮度值时，锐度是第三锐度(第三模糊量)，而当亮度值是低于第一亮度值的第二亮度值时，锐度是高于第三锐度的第四锐度(小于第三模糊量的第四模糊量)。

上面描述的用于校正图的PSF的减小量是示例，并且不限于此。A区域被描述为不添加模糊的区域，但是可以将模糊添加到整个区域。但是，添加到地面真值图像的模糊量需要等于或小于在生成训练图像时的模糊量。即，训练图像具有比地面真值图像更低的锐度(更大的模糊量)。因此，当将模糊添加到地面真值图像时，使用等于或小于在生成训练图像时使用的PSF的PSF。当在步骤S403中生成训练图像期间在模糊之后减小训练图像时，地面真值图像也以相同的倍率被减小。此时，当原始图像的信号值高于图像传感器322的亮度饱和度值时，该信号被削波为图像传感器322的亮度饱和度值。

随后，在步骤S406中，将在步骤S403中生成的训练图像和在步骤S405中生成的地面真值图像的对作为学习数据存储在存储器331中。步骤S406与步骤S106相同，因此将省略其详细描述。

在这个实施例中，学习单元310执行学习阶段，并且图像估计单元323执行估计阶段。对于这个实施例中的学习阶段，使用在图12的流程中生成的学习数据(地面真值图像和训练图像)。其它内容与第一实施例的图6中所示的流程图相同，因此将省略其细节。估计阶段与第一实施例的图9中的流程图所示的处理相同，因此将省略其描述。

如上所述，基于亮度值生成校正图，并且基于校正图生成地面真值图像。由此，可以制造能够减小诸如每个都发生在高亮度部分附近的下冲和振铃之类的副作用发生的可能性的学习数据。通过使用以这种方式生成的学习数据来生成网络参数，并且通过使用关于网络参数的信息来执行估计处理。因此，即使当捕获的图像包括高亮度部分时，也能够以高准确度校正由像差或衍射造成的模糊，同时减小副作用发生的可能性。在这个实施例中，校正图被划分为四个部分，但是可以被划分为两个部分：亮度饱和部分和除亮度饱和部分以外的部分。例如，当对于亮度饱和部分通过用添加到训练图像的PSF对原始图像进行模糊而生成地面真值图像时，对于亮度饱和部分的训练图像与地面真值图像之间的差异消失。当网络通过使用这个学习数据来执行学习并且通过使用网络参数来执行估计处理时，可以实现以下处理：其中除亮度饱和部分以外的区域被去模糊，而亮度饱和部分未被去模糊。特别地，在捕获的图像中，亮度饱和部分是其中信息丢失的区域，并且如果像在其它区域中那样执行去模糊，那么有可能会发生副作用。通过如上所述地执行学习，网络可以输出具有高质量的估计的图像。在这个实施例中，校正图是通过使用原始图像的亮度值生成的，但是校正图可以基于亮度值的变化来生成。在这种情况下，可以通过对原始图像应用微分滤波器、Prewitt滤波器或Sobel滤波器来生成微分图像。可替代地，可以使用Laplacian滤波器等来生成二阶微分图像。当以这种方式基于亮度的变化来生成校正图时，可以生成能够抑制在具有高对比度的边缘附近发生的副作用的学习数据。

第一实施例已经描述了基于性能的校正图的生成，并且这个实施例已经描述了基于图像的亮度的校正图的生成，但是两者都可以被执行。在这种情况下，在步骤S404中，不仅生成基于亮度的校正图，而且生成基于光学系统的光学信息的校正图，并且将这两个校正图整合。例如，当整合图5和图13A的校正图时，该整合图是在校正图中添加更大模糊的图。即，使用一种将作为图5中的B区域且作为图13A中的D区域的区域设置为D区域的方法。可替代地，可以通过整合在每个校正图中的PSF的减小率的每个平均值来生成校正图。整合的方法不限于这些方法，并且可以通过使用另一种方法来生成整合的校正图。通过使用两个校正图，可以生成考虑光学系统的性能和图像的亮度值二者的影响的学习数据。

第三实施例

接下来，将给出对本发明的第三实施例中的图像处理系统的描述。这个实施例中的图像处理系统的配置和学习处理与第一实施例中的相同，并且学习数据生成处理(学习数据的制造方法)和估计处理与第一实施例中的不同。

将参考图14给出在这个实施例中执行的学习数据的制造方法的描述。图14是例示学习数据的制造方法的流程图。

在第一实施例中，生成校正图并且基于校正图生成地面真值图像。但是，在这个实施例中，通过不使用校正图来生成地面真值图像和训练图像。在这个实施例中，地面真值图像和训练图像针对原始图像的校正量在图像中是恒定的。由于步骤S601和S602分别是与第一实施例的步骤S101和S102相同的处理，因此将省略其描述。

在步骤S603中，生成器108c使用在步骤S602中获取的光学信息生成训练图像(第一图像)。这个实施例中的训练图像是例如通过仅提取通过使用光学系统的图像拾取而获取的图像(与光学系统的整个视角对应的图像)的一部分来获取的图像(与像高的一部分对应的图像)。第一实施例已经描述了一种线性插值PSF以便使PSF对于每个像素位置不同的方法，但是这个实施例添加均匀的模糊，而不基于像素位置改变PSF。为了应对取决于像高的光学性能(光学信息)的波动，这个实施例通过增加原始图像的数量来增加要生成的地面真值图像和训练图像的数量。当在估计时需要处理多个透镜状态、像高和方位时，它们被混合并用于生成地面真值图像和训练图像的对。

随后，在步骤S604中，生成器108c生成要与在步骤S603中生成的训练图像配对的地面真值图像(第二图像)。这个实施例中的地面真值图像与例如通过仅提取使用光学系统的图像拾取获取的图像(与光学系统的整个视角对应的图像)的一部分而获取的图像(与像高的一部分对应的图像)对应。被提取为地面真值图像的原始图像的区域可以等同于要配对的训练图像。在这个实施例中，通过使用PSF的峰值作为光学系统的性能来生成地面真值图像。光学系统的性能越高，PSF的峰值越高，而性能越低，峰值越低。因此，该峰值适合作为在从原始图像生成地面真值图像时使用的指标。如在第二实施例中那样，可以基于亮度饱和部分的存在或不存在而不是光学性能来生成地面真值图像。

图15是例示光学系统的性能(光学性能)与被添加到原始图像以生成地面真值图像的PSF的模糊量之间的关系的图，基于光学系统的性能划分为三个区域(部分A、B和C)。在这个实施例中，图15的水平轴表示与PSF的峰值对应的光学性能。当部分A包括光学性能时，可以认为PSF的峰值高并且光学系统的性能被充分发挥。当部分A包括被提取为地面真值图像的原始图像的区域的光学性能时，原始图像被原样用作地面真值图像。在这种情况下，光学性能高并且副作用发生的可能性低，因此训练图像与地面真值图像之间的差异被维持。由此，执行学习，使得当光学性能包括在部分A中时，用于训练图像(输入图像)的校正量变得相对大。

当部分B包括被提取为地面真值图像的原始图像的区域的光学性能时，基于PSF的峰值来改变PSF的模糊量。如图15中所示，当PSF的峰值高时，给予原始图像的模糊量小。另一方面，当峰值低时，模糊量被调整为大。图15的部分B中的改变由直线表示，但是改变不限于此并且可以由诸如二次函数和指数函数之类的非线性函数来表示。

部分C是光学系统性能最低的区域。当部分C包括被提取为地面真值图像的原始图像的区域的光学性能时，通过原样使用PSF(生成训练图像时使用的PSF)来生成地面真值图像。即，训练图像和地面真值图像通过相同的方法生成。当光学性能如在部分C中那样低时，更可能发生副作用。因此，通过将训练图像与地面真值图像进行匹配，抑制通过学习而给训练图像(输入图像)带来的去模糊效果。这使得可以抑制副作用。以这种方式，当从原始图像生成地面真值图像时，基于光学系统的性能来调整模糊量。由此，在不太可能发生副作用的条件下，可以增加去模糊效果。另一方面，在可能发生副作用的条件下，去模糊效果被抑制，并且可以优先考虑副作用抑制。

PSF的峰值被用作用于调整模糊量的指标，但是频率特点可以被用作指标。在这种情况下，通过对PSF进行傅立叶变换来生成OTF，并通过取OTF的绝对值来计算MTF。当将MTF用作指标时，可以使用特定频率处的MTF值(例如，Nyquist频率一半处的MTF值)，或者可以使用某个部分的积分值(直到Nyquist频率的积分值)或平均值。可以将模糊不对称性用作另一个指标，或者可以量化不对称性，并且可以基于该数值来调整模糊量。基本上，趋势是PSF越不对称，越可能发生副作用。作为量化不对称性的方法，例如，使用如下方法：其中，针对彼此正交的两个横截面，诸如子午方向和弧矢方向，从PSF计算LSF，并且两个LSF的峰值之间的差异被用作指标。在这种情况下，峰值之间的差异越大，形状越不对称，因此增加模糊量。另一方面，随着差异变小，减小模糊量。可以使用频率特点代替LSF来进行评估，并且可以将子午方向和弧矢方向上的MTF特点的平均值或特定频率处的差值用作不对称性的指标。可替代地，可以使用PSF的偏斜度(skewness)。偏斜度的绝对值越大，不对称性越高，因此增加模糊量。另一方面，绝对值越小，不对称性越小，因此可以减小模糊量。作为用于调整模糊量的更简单的指标，可以使用与地面真值图像对应的像高(地面真值图像在与光学系统的整个视角对应的图像中的位置)。如第一实施例中所述，一般存在如下相关性：光学性能随着像高的增加而降低。

当原始图像的高频分量不足时，可以在生成地面真值图像时减小原始图像。在这种情况下，也以相同的方式减小训练图像。

随后，在步骤S605中，将在步骤S603中生成的训练图像和在步骤S604中生成的地面真值图像的对作为学习数据存储在存储器108a中。

已经给出了这个实施例中的学习数据的制造方法的描述。当学习使用以这种方式生成的地面真值图像和训练图像时，可以生成用于实现高度准确的校正同时减小发生副作用的可能性的学习模型。

接下来，将参考图16给出由图像估计装置103执行的估计阶段的描述。图16是例示估计阶段的流程图。

第一实施例已经描述了基于校正强度信息来获取网络参数的方法。这个实施例将描述基于图像估计装置103的资源信息来获取网络模型的方法。在这个实施例中，网络模型包括网络参数和网络配置(体系架构)。如第一实施例中所述，输入到CNN的输入图像的尺寸可以与学习时的尺寸不同。当捕获的图像的区域的一部分被用作输入图像时，可以组合输出的估计的图像以生成去模糊的捕获的图像。当以这种方式执行估计处理时，通过增加输入图像的尺寸以减小捕获的图像的划分数量，能够以更高的速度执行估计处理。但是，随着尺寸的增加，存储器(RAM)的使用量相应地增加。如果超出了图像估计装置的存储器容量，那么处理速度会降低或者处理会异常结束。即，为了更高效地执行处理，根据图像估计装置来设置输入尺寸更好，并且在此将描述其示例。

首先，在步骤S701中，获取器103b从图像拾取装置102或记录介质105获取捕获的图像。捕获的图像是未显影的RAW图像。当RAW图像的信号值被编码时，校正单元103c执行解码处理。获取器103b获取图像处理装置的存储器信息(资源信息)。要获取的存储器信息可以是关于物理存储器的容量的信息，但是因为可用容量取决于其它处理而改变，所以可以获取关于空闲容量的信息。当其它处理的影响小时，可以获取关于物理存储器的容量的信息，或者可以根据物理存储器和使用中的存储器容量来估计可用的存储器容量。

随后，在步骤S702中，校正单元103c基于在步骤S701中获取的存储器信息来获取合适的网络模型。在其中输入图像的尺寸固定的网络模型的情况下，有必要选择合适的网络模型。例如，当在步骤S701中获取的存储器的空闲容量足够大于由CNN使用的存储器容量时，校正单元103c获取具有大输入图像尺寸的网络模型。另一方面，当空闲容量小时，校正单元103c获取具有小输入图像尺寸的网络模型。由于不需要改变网络参数，因此校正单元103c可以基于存储器信息仅获取网络配置。网络模型包括各种格式，但是当输入图像尺寸固定时，通过以这种方式切换网络模型，能够高效地执行校正处理。在其中输入图像尺寸可变的网络模型的情况下，不必改变网络模型，并且可以仅针对输入图像尺寸设置适当的值。已经描述了两种网络模型的选择，但是当网络模型的变化增加时，变得可以选择更适于图像处理装置的网络模型。不仅可以基于根据存储器信息的自动确定而且可以基于用户的输入信息来选择网络模型。例如，用户可以选择高性能模式和轻量模式，并且在选择网络模型时，还考虑选择的模式信息，从而可以实现用户期望的处理。

由于步骤S703及后续步骤与第一实施例的步骤S303及后续步骤相同，因此将省略其详细描述。

已经给出了这个实施例中的估计阶段的描述。基于图像处理装置的存储器信息来获取网络模型和配置，从而可以实现适于处理环境的估计处理。

在这个实施例中，训练图像和地面真值图像对应于与光学系统的整个视角对应的图像中的像高的一部分。在这种情况下，在学习时，除了训练图像之外，关于训练图像的像高的信息也可以被输入到神经网络并被学习。这使得可以针对与光学系统的整个视角对应的图像中的位置更准确地学习校正量。当关于训练图像的像高的信息被输入到神经网络以供学习时，关于输入图像的像高的信息被输入到神经网络，如在估计阶段中的学习中一样。

其它实施例

本发明的(一个或多个)实施例还可以通过读出并执行记录在存储介质(也可以被更完整地称为“非暂态计算机可读存储介质”)上的计算机可执行指令(例如，一个或多个程序)以执行上述(一个或多个)实施例中的一个或多个实施例的功能和/或包括用于执行上述(一个或多个)实施例中的一个或多个实施例的功能的一个或多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机来实现，以及通过由系统或装置的计算机通过例如从存储介质读出并执行计算机可执行指令以执行上述(一个或多个)实施例中的一个或多个实施例的功能和/或控制一个或多个电路执行上述(一个或多个)实施例中的一个或多个实施例的功能而执行的方法来实现。计算机可以包括一个或多个处理器(例如，中央处理单元(CPU)、微处理单元(MPU))，并且可以包括单独计算机或单独处理器的网络，以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储装置、光盘(诸如紧凑盘(CD)、数字多功能盘(DVD)或蓝光盘(BD)^TM)、闪存设备、存储卡等中的一个或多个。

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

每个实施例可以提供学习数据等的制造方法，即使当输入到神经网络的图像包括高亮度的对象或由于光学系统的像差而大大模糊的对象时，学习数据等中的每一种也可以实现高度准确的校正，同时减少发生副作用的可能性。

虽然已经参考示例性实施例描述了本发明，但是应该理解的是，本发明不限于所公开的示例性实施例。所附权利要求的范围应被赋予最宽泛的解释，以便涵盖所有这样的修改以及等同的结构和功能。

Claims

1.一种用于使神经网络执行学习的学习数据的制造方法，该学习数据的制造方法包括：

第一获取步骤，被配置为获取原始图像；

第二获取步骤，被配置为获取通过向原始图像添加模糊而生成的作为训练图像的第一图像；以及

第三获取步骤，被配置为获取通过向原始图像添加模糊而生成的作为地面真值图像的第二图像；

其特征在于，添加到第二图像的模糊量小于添加到第一图像的模糊量。

2.根据权利要求1所述的学习数据的制造方法，

其中在第二获取步骤和第三获取步骤的每一个中，基于光学信息添加模糊。

3.根据权利要求2所述的学习数据的制造方法，

其中基于光学信息调整添加到第二图像的模糊量。

4.根据权利要求1至3中的任一项所述的学习数据的制造方法，还包括被配置为获取光学信息的第四获取步骤，

其中光学信息是取决于像高而各自不同的多条光学信息，

其中第二获取步骤获取通过使用所述多条光学信息添加模糊而生成的第一图像，以及

其中第三获取步骤获取通过使用所述多条光学信息添加模糊而生成的第二图像。

5.根据权利要求1所述的学习数据的制造方法，

其中通过向原始图像添加具有取决于像高的不同量的模糊来生成第二图像。

6.根据权利要求5所述的学习数据的制造方法，

其中通过向原始图像的第一像高添加具有第一模糊量的模糊并且通过向原始图像的高于第一像高的第二像高添加具有大于第一模糊量的第二模糊量的模糊来生成第二图像。

7.根据权利要求1至3中的任一项所述的学习数据的制造方法，还包括被配置为获取光学信息的第四获取步骤，

其中光学信息是取决于像高而各自不同的多条光学信息，

其中第二获取步骤获取通过使用所述多条光学信息当中与和第一图像对应的像高对应的光学信息添加模糊而生成的第一图像，以及

其中第三获取步骤获取通过使用所述多条光学信息当中与和第二图像对应的像高对应的光学信息添加模糊而生成的第二图像。

8.根据权利要求1所述的学习数据的制造方法，

其中，在第三获取步骤中，基于亮度值调整要添加的模糊。

9.根据权利要求8所述的学习数据的制造方法，

其中，当亮度值为第一亮度值时，通过向原始图像添加具有第一模糊量的模糊来生成第二图像，以及

其中，当亮度值为低于第一亮度值的第二亮度值时，通过向原始图像添加具有大于第一模糊量的第二模糊量的模糊来生成第二图像。

10.一种学习方法，该学习方法使神经网络使用由根据权利要求1至9中的任一项所述的学习数据的制造方法生成的学习数据来执行学习，该学习方法包括以下步骤：

通过将第一图像作为训练图像输入到神经网络中来生成经处理的图像；以及

基于第二图像和经处理的图像来更新神经网络。

11.一种学习数据制造装置，制造用于神经网络的学习的学习数据，该学习数据制造装置包括：

第一获取单元，被配置为获取原始图像；

第二获取单元，被配置为获取通过向原始图像添加模糊而生成的第一图像；以及

第三获取单元，被配置为获取通过向原始图像添加模糊而生成的第二图像；

12.一种学习装置，包括：

根据权利要求11所述的学习数据制造装置；

生成单元，被配置为通过将第一图像作为训练图像输入到神经网络来生成经处理的图像；以及

更新单元，被配置为基于第二图像和经处理的图像来更新神经网络。

13.一种非暂态计算机可读存储介质，其存储使得计算机执行根据权利要求1至9中的任一项所述的学习数据的制造方法的计算机程序。

14.一种经学习的模型的制造方法，其通过使神经网络使用由根据权利要求1至9中的任一项所述的学习数据的制造方法生成的学习数据执行学习来制造经学习的模型，该经学习的模型的制造方法包括以下步骤：

通过将第一图像作为训练图像输入到神经网络来生成经处理的图像；以及

使神经网络基于第二图像和经处理的图像来执行学习。