CN111753869A

CN111753869A - 图像处理方法、图像处理装置、存储介质、图像处理系统及已学习模型制造方法

Info

Publication number: CN111753869A
Application number: CN202010210572.8A
Authority: CN
Inventors: 日浅法人
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-03-29
Filing date: 2020-03-24
Publication date: 2020-10-09
Also published as: US11600025B2; EP3716146A1; JP2020166628A; US20200311981A1; JP7362284B2

Abstract

本申请涉及图像处理方法、图像处理装置、存储介质、图像处理系统及已学习模型制造方法。一种图像处理方法，包括以下步骤：基于输入图像中的信号值和该信号值的阈值来获得表示输入图像的超出动态范围的区域的第一映射图，以及输入包括输入图像和第一映射图的输入数据并执行识别任务或回归任务。

Description

图像处理方法、图像处理装置、存储介质、图像处理系统及已学习模型制造方法

技术领域

本发明涉及可以抑制神经网络的估计准确性降低的图像处理方法。

背景技术

日本专利公开No.(“JP”)2016-110232公开了一种使用神经网络以高准确性来确定图像中的识别目标的位置的方法。

但是，JP 2016-110232中公开的方法在图像具有辉度饱和区域或被遮挡的阴影区域时降低了确定准确性。取决于图像传感器的动态范围和成像期间的曝光，辉度饱和区域或被遮挡的阴影区域会出现在图像中。在辉度饱和区域或被遮挡的阴影区域中，有可能无法获得与对象空间中的构造相关的信息，并且在这些区域之间的边界处会出现本来不存在的伪边缘。这导致对与对象的原始值不同的特征值的提取，降低了估计准确性。

发明内容

本发明提供了图像处理方法、图像处理装置、存储介质、图像处理系统以及已学习模型制造方法，即使在辉度饱和或被遮挡的阴影发生的情况下，其中的每一个也可以抑制神经网络的估计准确性降低。

作为本发明的一个方面的图像处理方法包括以下步骤：基于输入图像中的信号值和该信号值的阈值来获得表示该输入图像的超出动态范围的区域的第一映射图，以及输入包括输入图像和第一映射图的输入数据并执行识别任务或回归任务。

被配置为执行上述图像处理方法的图像处理装置以及存储使计算机能够执行上述图像处理方法的计算机程序的存储介质也构成本发明的另一方面。

作为本发明的一个方面的图像处理系统包括第一装置和与第一装置可通信的第二装置。第一装置包括发送器，该发送器被配置为传输使第二装置对捕获图像执行处理的请求。第二装置包括：接收器，该接收器被配置为接收由发送器发送的请求；获得器，该获得器被配置为基于捕获图像中的信号值和该信号值的阈值来获得表示捕获图像的超出动态范围的区域的第一映射图；处理器，该处理器被配置为将包括捕获图像和第一映射图的数据输入到神经网络并执行识别任务或回归任务；以及发送器，该发送器被配置为发送任务的结果。

作为本发明的一个方面的图像处理方法包括以下步骤：获得训练图像、基于训练图像中的信号值和该信号值的阈值表示训练图像的超出动态范围的区域的第一映射图以及地面真实数据，并使用包括训练图像和第一映射图以及地面真实数据的输入数据使神经网络学习以执行识别任务或回归任务。

存储使计算机能够执行上述图像处理方法的计算机程序的存储介质也构成本发明的另一方面。

作为本发明的一个方面的已学习模型制造方法包括以下步骤：获得训练图像、基于训练图像中的信号值和该信号值的阈值表示训练图像的超出动态范围的区域的第一映射图以及地面真实数据，并使用包括训练图像和第一映射图以及地面真实数据的输入数据使神经网络学习以执行识别任务或回归任务。

被配置为执行上述图像处理方法的图像处理装置也构成本发明的另一方面。

参照附图阅读示例性实施例的以下描述，本发明的进一步特征将变得十分清楚。

附图说明

图1是图示根据第一实施例的神经网络的配置的图解。

图2是根据第一实施例的图像处理系统的框图。

图3是根据第一实施例的图像处理系统的外部视图。

图4是根据第一实施例的与权重学习相关的流程图。

图5A和图5B是图示根据第一实施例的训练图像和地面真实类别图的示例的图。

图6A和图6B是图示根据第一实施例的训练图像的辉度饱和区域和超出动态范围的映射图的示例的图。

图7是与根据第一实施例的估计类别图的生成相关的流程图。

图8是根据第二实施例的图像处理系统的框图。

图9是根据第二实施例的图像处理系统的外部视图。

图10是根据第二实施例的与权重学习相关的流程图。

图11A和图11B是图示根据第二实施例的训练图像中的辉度饱和区域和被遮挡的阴影区域以及超出动态范围的映射图的示例的图解。

图12A和图12B是图示根据第二实施例的训练图像上的四通道转换的图解。

图13是图示根据第二实施例的神经网络的配置的图解。

图14是与根据第二实施例的加权平均图像的生成相关的流程图。

图15是根据第三实施例的图像处理系统的框图。

图16是与根据第三实施例的输出图像的生成相关的流程图。

具体实施方式

现在参考附图，将给出根据本发明的实施例的详细描述。相应附图中的对应元件将由相同的附图标记表示，并且将省略其重复描述。

首先，在对实施例进行具体描述之前，将给出本发明的要点。本发明抑制在使用神经网络的识别任务或回归任务期间由图像中的辉度饱和或遮挡阴影引起的估计准确性的降低。此处，输入到神经网络的输入数据是x(d维向量，d是自然数)。识别是用于找到与向量x对应的类别y的任务。例如，存在用于识别对象的特点和重要性的任务，诸如用于将图像中的对象分类为人、狗或汽车的任务，以及用于从面部图像识别诸如笑脸和哭脸之类的表情的任务。类别y一般是离散变量，并且可以是在分割图等的生成中的向量。另一方面，回归是用于找到与向量x对应的连续变量y的任务。例如，存在从噪声图像估计无噪声图像的任务，以及从下采样图像估计下采样之前的高分辨率图像的任务。

如上所述，具有辉度饱和或被遮挡的阴影的区域(下文中称为辉度饱和区域或被遮挡的阴影区域)已经损失了关于在对象空间中的构造的信息，并且在每个区域之间的边界处可能出现伪边缘。因此，难以正确提取对象的特征值。因此，神经网络的估计准确性降低。为了抑制这种降低，本发明使用输入图像和与输入图像对应的超出动态范围的映射图作为神经网络的输入数据。超出动态范围的映射图(第一映射图)是表示输入图像中的辉度饱和区域或被遮挡的阴影区域的映射图。使用超出动态范围的输入映射图，神经网络可以如上所述指定有问题的区域，以便抑制估计准确性的降低。

在下面的描述中，用于学习神经网络的权重的步骤将被称为学习阶段，而用于使用学习到的权重来执行识别或回归的步骤将被称为估计阶段。

第一实施例

现在将给出根据本发明第一实施例的图像处理系统的描述。在第一实施例中，神经网络执行用于检测图像中的人的区域的识别任务(是否为人的分割)。但是，本发明不限于该实施例，并且类似地适用于其它识别任务和回归任务。

图2是图示该实施例中的图像处理系统100的框图。图3是图像处理系统100的外部视图。图3图示了成像装置(图像处理装置)102的正面和背面。图像处理系统100包括学习装置(图像处理装置)101、成像装置102和网络103。学习装置101包括存储器111、获得器(获得单元)112、检测器(学习单元)113和更新器(学习单元)114，并且被配置为学习神经网络的权重以用于检测人的区域。稍后将描述这种学习的细节。存储器111存储由学习装置101学习的权重信息。成像装置102使用神经网络执行对捕获图像的获取和对人的区域的检测。

成像装置102包括光学系统121和图像传感器122。光学系统121收集从对象空间进入成像装置102的光。图像传感器122接收(光电转换)经由光学系统121形成的光学图像(对象图像)并获得捕获图像。图像传感器122是例如CCD(电荷耦合器件)传感器或CMOS(互补金属氧化物半导体)传感器。

图像处理器123包括获得器(获得单元)123a和检测器(处理单元)123b，并且被配置为使用存储在存储器124中的权重信息将捕获图像的至少一部分用作输入图像来检测人的区域。权重信息经由有线或无线网络103被预先从学习装置101读取，并被存储在存储器124上。所存储的权重信息可以是权重值本身或编码格式。稍后将给出与用于人的区域的检测处理相关的详细描述。图像处理器123基于所检测到的人的区域执行处理，并生成输出图像。例如，图像处理器123调整捕获图像中的亮度，使得人的区域具有合适的亮度。记录介质125存储输出图像。替代地，可以将捕获图像照原样存储在记录介质125上，其后图像处理器123可以从记录介质125读取捕获图像并检测人的区域。显示器126根据用户的指令显示存储在记录介质125中的输出图像。系统控制器127控制这一系列操作。

现在参考图4，将给出在该实施例中由学习装置101执行的权重学习(制造已学习模型)的描述。图4是与权重学习相关的流程图。主要地，学习装置101中的获得器112、检测器113或更新器114执行图4中的每个步骤。

首先，在步骤S101中，获得器112获得训练图像和地面真实类别图(也称为地面真实分割图或地面真实数据)以及超出动态范围的映射图的一个或多个集合。训练图像是神经网络的学习阶段期间的输入图像。地面真实类别图是与训练图像对应的地面真实分割图。

图5A和图5B图示了用于训练图像和地面真实类别图的示例。图6A和图6B是图示用于训练图像的辉度饱和区域和超出动态范围的映射图的示例的图。图5A图示了训练图像的示例，而图5B图示了对应的地面真实类别图。图5B中的白色区域是表示人的区域的类别，而黑色区域是表示其它区域的类别。图5A中的训练图像具有辉度饱和的区域。

图6A图示了其中波浪线表示辉度饱和区域的图像。在该实施例中，超出动态范围的映射图(第一映射图)是指示对于训练图像中的每个像素是否已经发生辉度饱和的映射图。但是，本发明不限于该实施例，并且该映射图可以是表示被遮挡的阴影的映射图。将训练图像中每个像素处的信号值与作为阈值的辉度饱和值进行比较。当信号值等于或大于辉度饱和值时，生成超出动态范围的映射图，其中该映射图指示信号值超出动态范围。替代地，动态范围之外的映射图可以根据上述用于训练图像的方法被预先生成，并且可以通过读出来获得。

在该实施例中，超出动态范围的映射图是1或0的二进制图(指示是否发生辉度饱和的信息)，如图6B中所示。数值有效位可以颠倒。二进制图具有降低数据容量的优点。但是，本发明不限于该实施例。超出动态范围的映射图可以是具有中间值的映射图，以指示信号值与辉度饱和值有多接近。学习阶段使用各种成像场景的多个训练图像，使得即使在未知成像场景的图像中，估计阶段也稳定地检测人的区域。可以通过改变相同成像场景中的亮度来获得多个训练图像。训练图像在估计阶段具有与输入图像相同的格式。如果估计阶段中的输入图像是未显影的RAW图像，那么训练图像也是未显影的RAW图像。如果在估计阶段的输入图像是显影后的图像，那么这也同样适用于训练图像。当训练图像是RAW图像时，可以在应用白平衡之后生成超出动态范围的映射图。估计阶段中的输入图像和训练图像可以不必具有相同的像素数。

接下来，在图4的步骤S102中，检测器113将训练图像和超出动态范围的映射图输入到神经网络，并生成估计的类别图。在该实施例中，神经网络使用图1中所示的U-Net(有关详细描述，请参阅O.Ronneberger、P.Fischer和T.Brox的“U-net:Convolutionalnetworks for biomedical image segmentation”，MICACI，2015年)，但是本发明不限于该实施例。输入数据201是通过将训练图像与超出动态范围的映射图在通道方向上进行级联而获得的数据。级联的次序不受限制，并且其它数据可以插入它们之间。训练图像可以具有RGB(红色、绿色、蓝色)的多个通道。超出动态范围的映射图可以只有一个通道或与训练图像相同的通道数。当超出动态范围的映射图具有一个通道时，该映射图是例如表述用于除了颜色差异之外的辉度分量的辉度饱和的存在或不存在的图。在训练图像与超出动态范围的映射图之间，每一个通道的像素数(元素数)相同。即使将包括辉度饱和的各种场景的训练图像输入到神经网络，通过将超出动态范围的映射图包括在输入数据中，神经网络也可以识别训练图像中的辉度饱和区域，并且可以抑制估计准确性的降低。

如果有必要，可以对输入数据进行归一化。当训练图像是RAW图像时，取决于图像传感器或ISO感光度，黑电平可以有所不同。因此，在从训练图像中的信号值减去黑电平之后，训练图像被输入到神经网络。可以在减去黑电平之后执行归一化。图1中的卷积表示一个或多个卷积层，最大池化表示最大值池化，上卷积表示包括上采样的一个或多个卷积层，而级联表示通道方向上的级联。在第一次学习时，使用随机数来确定用于每个卷积层中的滤波器的权重。计算作为与训练图像对应的U-Net的输出的估计类别图202。

可以将输入图像和超出动态范围的映射图中的仅一个输入到神经网络中的第一层，并且可以在通道方向上将至少从第一层输出的特征图与输入图像和超出动态范围的映射图中尚未输入到第一层的另一个级联，并且可以被输入到后续的层。替代地，可以对神经网络的输入部分进行分支，可以将输入图像和超出动态范围的映射图转换成不同层中的特征图，并且可以将该特征图彼此级联并且可以输入到后续的层。

随后，在图4中的步骤S103中，更新器114基于估计的类别图和地面真实类别图来更新神经网络的权重。第一实施例将估计的类别图和地面真实类别图的交叉熵用作损失函数，但本发明不限于这个实施方式。权重根据通过反向传播等从损失函数的计算出的值来更新。

随后在图4的步骤S104中，更新器114确定权重学习是否已经完成。该完成可以基于学习(权重更新)的迭代次数是否已经达到预定值或者更新时的权重变化量是否小于预定值来确定。如果权重学习被确定为未完成，那么处理返回到步骤S101，以新获得训练图像、超出动态范围的映射图以及地面真实类别图的一个或多个集合。另一方面，如果权重学习被确定为完成，那么学习被终止，并且存储器111存储该权重信息。

现在参考图7，将给出在该实施例中由图像处理器123执行的在输入图像中的人的区域的检测(估计的类别图的生成，估计阶段)的描述。图7是与估计的类别图的生成相关的流程图。主要地，图像处理器123中的获得器123a或检测器123b执行图7中的每个步骤。

首先，在步骤S201中，获得器123a获得输入图像和与该输入图像对应的阈值(在该实施例中为辉度饱和值)。输入图像是图像传感器122捕获的捕获图像的至少一部分。存储器124已经存储了图像传感器122的辉度饱和值，并且该值被读取和获得。随后在步骤S202中，获得器123a基于输入图像中每个像素处的信号值与阈值之间的比较来生成超出动态范围的映射图。随后在步骤S203中，检测器123b将输入图像和超出动态范围的映射图作为输入数据输入到神经网络，并生成估计的类别图。此时，使用在图1的神经网络和学习阶段中获得的权重。

该实施例可以提供即使在发生辉度饱和时也可以生成高度准确的分割图的图像处理系统。

第二实施例

现在将给出本发明第二实施例中的图像处理系统的描述。在该实施例中，神经网络被配置为执行回归任务，该任务用于对具有由像差和衍射造成的模糊的捕获图像进行去模糊处理。但是，本发明不限于该实施例，并且可应用于另一个识别任务或回归任务。

图8是该实施例中的图像处理系统300的框图。图9是图像处理系统300的外部视图。图像处理系统300包括学习装置(图像处理装置)301、成像装置302、图像估计装置(图像处理装置)303、显示装置304、记录介质305、输出装置306和网络307。

学习装置301包括存储器301a、获得器(获得单元)301b、生成器(学习单元)301c和更新器(学习单元)301d。成像装置302包括光学系统302a和图像传感器302b。由图像传感器302b捕获的捕获图像包括由光学系统302a的像差和衍射造成的模糊，以及由于图像传感器302b的动态范围引起的辉度饱和被遮挡的阴影。图像估计装置303包括存储器303a、获得器303b和生成器303c，并且被配置为生成通过对作为捕获图像的至少一部分的输入图像进行去模糊而获得的估计图像，并根据输入图像和估计的图像生成加权平均图像。输入图像和估计的图像是RAW图像。神经网络被用于去模糊，并且其权重信息从存储器303a中读取。学习装置301已经学习到权重，并且图像估计装置303已经预先经由网络307从存储器301a中读出了权重信息，并且存储器303a已经存储了该权重信息。稍后将给出权重学习和使用权重的去模糊处理的详细描述。图像估计装置303对加权平均图像执行显影处理，并生成输出图像。输出图像被输出到显示装置304、记录介质305和输出装置306中的至少一个。显示装置304是例如液晶显示器或投影仪。经由显示装置304，用户可以在检查正在处理中的图像的同时执行编辑工作等。记录介质305是例如半导体存储器、硬盘驱动器或网络上的服务器。输出装置306是打印机等。

现在参考图10，将给出对由学习装置301执行的权重学习(学习阶段)的描述。图10是与权重学习相关的流程图。主要地，学习装置301中的获得器301b、生成器301c或更新器301d执行图10中的每个步骤。

首先，在步骤S301中，获得器301b获得源图像和成像条件的一个或多个集合。一对模糊的图像(下文中称为第一训练图像)和非模糊的图像(下文中称为地面真实图像)被要求用于对像差和衍射进行去模糊学习。该实施例通过成像仿真从源图像生成该对图像。但是，本发明不限于该实施例，并且可以通过使用可能由于像差和衍射而造成模糊的透镜和更高性能的透镜对同一对象进行成像来准备该对图像。

该实施例使用RAW图像进行学习和去模糊。但是，本发明不限于该实施例，并且可以在显影之后使用图像。源图像是RAW图像，并且成像条件是用于将源图像用作对象的成像仿真的参数。参数包括用于成像的光学系统、光学系统的状态(变焦、孔径光阑和对焦距离)、像高、光学低通滤波器的存在或不存在以及类型、图像传感器的噪声特性、像素间距、ISO感光度、滤色器阵列、动态范围、黑电平等。该实施例学习要在用于每个光学系统的去模糊中使用的权重。该实施例针对具体的光学系统设置状态、像高、像素间距、ISO感光度等的多个组合，并在不同的成像条件下生成一对第一训练图像和地面真实图像(地面真实数据)。源图像可以是动态范围比训练图像更宽的图像。当源图像与训练图像之间的动态范围相同时，模糊处理删除源图像中的较小的辉度饱和区域或较小的被遮挡的阴影区域，从而使得难以执行学习。可以通过使用具有宽动态范围的图像传感器来捕获图像或者通过在不同的曝光条件下捕获并组合同一对象的图像来准备具有宽动态范围的源图像。

随后在步骤S302中，生成器301c基于成像条件从源图像生成第一训练图像、第二训练图像和地面真实图像。第一训练图像和地面真实图像分别为通过将由光学系统的像差和衍射造成的模糊添加到源图像而获得的图像，和作为没有添加模糊的源图像的图像。如果有必要，那么可以将噪声添加到第一训练图像和地面真实图像。当没有噪声添加到第一训练图像时，神经网络在估计阶段放大噪声并进行去模糊。当将噪声添加到第一训练图像中，并且没有将噪声添加到地面真实图像中，或者将与第一训练图像中的噪声没有相关性的噪声添加到地面真实图像中时，神经网络学习去模糊和去噪。另一方面，当与第一训练图像中的噪声具有相关性的噪声被添加到地面真实图像时，神经网络学习去模糊，其中噪声变化被抑制。

该实施例将相关噪声添加到第一训练图像和地面真实图像。如果源图像中的动态范围大于第一训练图像的动态范围，那么对信号值进行裁剪，以使第一训练图像和地面真实图像中的动态范围带入原始地面真实范围。该实施例对第一训练图像使用Wiener(维纳)滤波器，并生成其中模糊已经被某种程度地校正的第二训练图像(下文中称为学习阶段中的中间去模糊的图像)。Wiener滤波器是从赋予第一训练图像的模糊中计算出的滤波器。但是，校正方法不限于Wiener滤波器，并且可以使用另一种基于逆滤波器的方法或Richardson-Lucy方法。通过使用第二训练图像，有可能对于神经网络中的模糊变化提高去模糊的稳健性。如果有必要，可以在成像仿真期间减少源图像。当不是通过CG(计算机图形学)而是通过实际成像来准备源图像时，源图像是通过某个光学系统捕获的图像。因此，源图像已经包括由像差和衍射造成的模糊。但是，这种减少可以降低模糊的影响并生成包括高频的地面真实图像。

随后在步骤S303中，生成器301c基于第一训练图像(学习阶段的输入图像)中的信号值与该信号值的阈值之间的比较来生成超出动态范围的映射图。但是，可以从第二训练图像中的信号值生成超出动态范围的映射图。

在该实施例中，信号阈值基于图像传感器302b的辉度饱和值和黑电平。示例在图11A和图11B中示出。图11A是第一训练图像，其中波浪线表示具有等于或大于辉度饱和值(下文中称为第一阈值)的信号值的区域。垂直线表示具有等于或小于通过将常数添加到黑电平而获得的值(下文中称为第二阈值)的信号值的区域。此时，与第一训练图像对应的超出动态范围的映射图如图11B中所示。具有等于或大于第一阈值的信号值的区域被设置为1，具有等于或小于第二阈值的信号值的区域被设置为0，其它区域被设置为0.5。但是，本发明不限于该实施例。例如，可以将具有大于第二阈值且小于第一阈值的信号值的区域设置为0，并且将具有辉度饱和或被遮挡的阴影的构造的其它区域设置为1。

接下来是将常数添加到第二阈值中的黑电平的原因。由于噪声被添加到第一训练图像，因此即使真实信号值是黑电平，信号值也可以由于噪声而超过黑电平。因此，考虑到信号值由于噪声引起的增加，将常数添加到第二阈值。该常数可以是反映噪声量的值。例如，可以将常数设置为噪声的标准偏差的n倍(n为正实数)。超出动态范围的映射图在学习阶段和估计阶段都被输入到神经网络。因为学习阶段在仿真期间添加噪声，所以输入图像中噪声的标准偏差是已知的，但是在估计阶段，输入图像中噪声的标准偏差是未知的。因此，估计阶段可以预先测量图像传感器302b的噪声特性，并且可以在成像时根据ISO感光度确定要添加到第二阈值的常数。如果噪声足够小，那么常数可以为零。

随后在步骤S304中，生成器301c将第一训练图像和第二训练图像以及超出动态范围的映射图输入到神经网络，并生成估计的图像(即，去模糊的图像)。该实施例将第一训练图像和第二训练图像以及超出动态范围的映射图分别转换为四通道格式，并将它们输入到神经网络。图12A和图12B将描述这种转换。图12A图示了第一训练图像中的滤色器阵列。G1和G2表示两个绿色分量。第一训练图像在输入到神经网络期间被转换为四通道格式，如图12B中所示。虚线表示在同一位置处的每个通道分量。但是，阵列中的颜色次序不限于图12A和图12B所示。类似地，第二训练图像和超出动态范围的映射图被转换为四通道格式。不一定总是需要执行向四通道格式的转换。如果有必要，可以对第一训练图像和第二训练图像进行归一化，并且可以减去黑电平。

该实施例使用图13中所示的神经网络，但是本发明不限于该实施例，并且可以使用例如GAN(生成对抗网络)。输入数据511是通过在通道方向上将被转换为四通道格式的第一训练图像501、第二训练图像和超出动态范围的映射图进行级联而获得的数据。在通道方向上的级联次序没有限制。卷积表示一个或多个卷积层，而去卷积表示一个或多个去卷积层。第二跳过连接至第四跳过连接522至524取两个特征图中的每个元素的总和，或者可以在通道方向上将这些元素进行级联。第一跳过连接521通过取第一训练图像501(或第二训练图像)和从最终层输出的残差图像之和来获得估计的图像512。但是，跳过连接的数量不限于图13中的数量。如图12B中所示，估计的图像512也是四通道图像。

在图像分辨率增强和对比度增强(诸如去模糊)中，由于辉度饱和或被遮挡的阴影而引起对象信息损失的区域附近会出现问题。此外，去模糊可以缩小具有对象信息损失的区域。与其它区域中不同，神经网络需要在具有对象信息损失的区域中执行修复处理。使用超出动态范围的输入映射图作为输入，神经网络可以指定这些区域，并且可以执行高度准确的去模糊。

随后，在步骤S305中，更新器301d根据估计的图像和地面真实图像更新神经网络的权重。该实施例将估计的图像与地面真实图像之间的信号值之差的欧几里得范数定义为损失函数。但是，损失函数不限于此。在取得该差之前，地面真实图像也根据估计的图像被转换为四通道格式。第二实施例从损失中去除了具有辉度饱和或被遮挡的阴影的区域。由于该区域损失了关于对象空间的信息，因此修复任务如上所述被要求以便使得估计的图像类似于地面真实图像。由于修复可能造成错误的构造，因此第二实施例从估计中排除该区域，并且还在估计阶段中用输入图像替换该区域。如图12B中所示，第一训练图像包括多个颜色分量。由此，即使某个颜色分量具有辉度饱和或被遮挡的阴影，也可以通过其它颜色分量来获得对象的构造。在这种情况下，由于可以根据存在于非常靠近的位置处的像素来估计关于具有辉度饱和或被遮挡的阴影的区域的信息，因此几乎不会出现错误构造。因此，在超出动态范围的映射图中，损失权重映射图被生成，其中具有超出动态范围的通道的所有像素均被设置为0，而其它像素被设置为1，并且通过取与估计的图像与地面真实图像之间的差有关的每个分量的乘积来计算损失。由此，有可能仅排除可能具有错误构造的区域。不总是需要从损失中排除可能具有错误构造的区域。

随后在步骤S306中，更新器301d确定学习是否已经完成。如果学习尚未完成，那么处理返回到步骤S301以新获得源图像和成像条件的一个或多个集合。另一方面，如果学习完成，那么存储器301a存储权重信息。

现在参考图14，将给出对由图像估计装置303执行的用于输入图像中的像差和衍射的去模糊(加权平均图像的生成，估计阶段)的描述。图14是与加权平均图像的生成相关的流程图。主要地，图像估计装置303中的获得器303b和生成器303c执行图14中的每个步骤。

首先，在步骤S401中，获得器303b从捕获图像中获得输入图像和与该输入图像对应的阈值。第一阈值是图像传感器302b的辉度饱和值，而第二阈值是通过将常数添加到图像传感器302b的黑电平而获得的值。该常数使用图像传感器302b的噪声特性根据在捕获捕获图像时的ISO感光度确定。

随后在步骤S402中，生成器303c根据输入图像的信号值与第一阈值和第二阈值的比较生成超出动态范围的映射图。通过与学习阶段中的步骤S303中的方法类似的方法来生成超出动态范围的映射图。

随后在步骤S403中，生成器303c从输入图像生成中间去模糊的图像。生成器303c通过从存储器303a中读出关于校正由光学系统302a的像差和衍射造成的模糊的Wiener滤波器的信息，并通过将该信息应用于输入图像来生成中间去模糊的图像。由于输入图像对于每个像高具有不同的模糊，因此执行移位可变校正。可以首先执行步骤S402或步骤S403中的任何一个。

随后在步骤S404中，生成器303c将输入图像、中间去模糊的图像和超出动态范围的映射图输入到神经网络，并生成估计的图像。神经网络使用图13中所示的配置，并输入通过在通道方向上以与学习中的次序相同的次序将输入图像(与第一训练图像对应)、中间去模糊的图像(与第二训练图像对应)和超出动态范围的映射图进行级联而获得的输入数据。通过从存储器303a读出与光学系统302a对应的权重信息来生成估计的图像。如果在输入到神经网络时步骤S404已经执行了归一化或黑电平相减，那么对估计的图像执行用于恢复信号值的标度和用于添加黑电平的处理。

随后在步骤S405中，生成器303c基于输入图像中的信号值与第一阈值和第二阈值之间的比较来计算权重映射图。即，生成器303c基于输入图像中的信号值和该信号值的阈值来获得权重映射图。与学习阶段中的损失权重映射图计算类似，该实施例使用超出动态范围的映射图来计算权重映射图。例如，当在具有某个颜色分量的目标像素中发生辉度饱和或被遮挡的阴影时，如果在具有其它颜色的所有最接近像素中均出现辉度饱和或被遮挡的阴影，那么将权重设置为0；在其它情况下，将权重设置为1。

如上所述，在该实施例中，输入图像包括多个颜色分量。如果在输入图像的目标像素中以及在预定区域(例如，最接近的区域)内具有与目标像素中的颜色分量不同的颜色分量的所有像素中出现辉度饱和或被遮挡的阴影，那么生成权重映射图从而使输入图像中在目标像素位置处的权重大于来自神经网络的输出。另一方面，如果在输入图像的目标像素和/或在预定区域内具有与目标像素中的颜色分量不同的颜色分量的像素中的任何一个都没有出现辉度饱和或被遮挡的阴影，那么生成权重映射图，以使输入图像中在目标像素位置处的权重小于来自神经网络的输出。

可以执行模糊处理以减少计算出的权重映射图的不连续性，或者可以通过另一种方法来生成权重映射图。可以在步骤S401和步骤S406之间的任何时间生成权重映射图。

随后在步骤S406中，生成器303c基于权重映射图对输入图像和估计的图像进行加权和平均，并且生成加权平均图像。即，生成器303c基于来自神经网络的输出(估计的图像或残差图像)、输入图像和权重映射图来生成加权平均图像。加权平均图像是通过取权重映射图与估计的图像中每个元素的乘积与从输入图像中所有元素的图减去权重映射图而获得的图和每个元素的乘积之和生成的。代替步骤S406，通过使用权重映射图，当跳过连接521取得输入图像和步骤S404中的残差图像之和时，可以生成估计的图像，其中输入图像替换了估计的图像中可能具有错误构造的区域。在这种情况下，将可能具有由权重映射图指示的错误构造的像素设置为输入图像，并且将其它像素设置为输入图像与残留图像之和。通过执行相同的处理，在步骤S305中，学习阶段还可以从损失函数中排除可能具有错误构造的区域。

该实施例可以提供即使在发生辉度饱和或被遮挡的阴影时也可以以高准确性进行去模糊的图像处理系统。

因此，在第一和第二实施例中，获得单元(获得器123a；获得器303b和生成器303c)基于输入图像中的信号值和该信号值的阈值来获得输入图像的超出动态范围的映射图。处理单元(检测器123b；生成器303c)将包括输入图像和超出动态范围的映射图的输入数据输入到神经网络，并执行识别任务或回归任务。

第三实施例

现在将给出本发明第三实施例中的图像处理系统的描述。该实施例中的图像处理系统与第一实施例和第二实施例的不同之处在于，图像处理系统包括处理装置(计算机)，该处理装置被配置为将要处理的捕获图像(输入图像)发送到图像估计装置并从图像估计装置接收被处理的输出图像。

图15是该实施例中的图像处理系统600的框图。图像处理系统600包括学习装置601、成像装置602、图像估计装置603和处理装置(计算机)604。学习装置601和图像估计装置603是例如服务器。计算机604是例如用户终端(个人计算机或智能电话)。网络605连接计算机604和图像估计装置603。网络606连接图像估计装置603和学习装置601。即，计算机604和图像估计装置603被配置为可通信，并且图像估计装置603和学习装置601被配置为可通信。计算机604与第一装置对应，并且图像估计装置603与第二装置对应。学习装置601的配置与第二实施例中的学习装置301的配置相同，因此将省略其描述。成像装置602的配置与第二实施例中的成像装置302的配置相同，因此将省略其描述。

图像估计装置603包括存储器603a、获得器(获得单元)603b、生成器(处理单元)603c以及通信器(接收单元和发送单元)603d。存储器603a、获得器603b和生成器603c分别与第二实施例中的图像估计装置303中的存储器103a、获得器103b和生成器103c相同。通信器603d具有接收从计算机604发送的请求的功能，以及将由图像估计装置603生成的输出图像发送到计算机604的功能。

计算机604包括通信器(发送单元)604a、显示器604b、图像处理器604c和记录器604d。通信器604a具有将使图像估计装置603对捕获图像执行处理的请求发送到图像估计装置603的功能，以及接收由图像估计装置603处理的输出图像的功能。显示器604b具有显示各种信息的功能。由显示器604b显示的信息包括例如要发送到图像估计装置603的捕获图像和从图像估计装置603接收的输出图像。图像处理器604c具有对从图像估计装置603接收的输出图像执行进一步图像处理的功能。记录器604d记录从成像装置602获得的捕获图像、从图像估计装置603接收的输出图像等。

现在参考图16，将给出该实施例中的图像处理的描述。该实施例中的图像处理等效于第二实施例中描述的去模糊处理(图14)。

图16是与输出图像的生成相关的流程图。当用户经由计算机604发出开始图像处理的指令时，图16中所示的图像处理开始。首先，将描述计算机604中的操作。

在步骤S701中，计算机604将对捕获图像进行处理的请求发送到图像估计装置603。要处理的捕获图像如何被发送到图像估计装置603没有关系。例如，捕获图像可以与步骤S701同时从计算机604上传到图像估计装置603，或者可以在步骤S701之前被上传到图像估计装置603。代替记录在计算机604上的图像，捕获图像可以是存储在与图像估计装置603不同的服务器上的图像。在步骤S701中，计算机604可以发送用于认证用户的ID信息等以及对捕获图像的处理请求。在步骤S702中，计算机604接收在图像估计装置603中生成的输出图像。与第二实施例中类似，输出图像是通过对捕获图像进行去模糊而获得的估计图像。

现在将给出图像估计装置603的操作的描述。在步骤S801中，图像估计装置603接收从计算机604发送的对捕获图像进行处理的请求。图像估计装置603确定已经指示对捕获图像的处理(去模糊处理)，并且执行步骤S802之后的处理。步骤S802至S807与第二实施例中的步骤S401至S406相同。在步骤S808中，图像估计装置603将作为回归任务的结果的估计的图像(加权平均图像)作为输出图像传输到计算机604。

虽然已经描述了该实施例与第二实施例类似地执行去模糊处理，但是该实施例可以类似地应用于第一实施例中的人的区域的检测(图7)。该实施例已经描述图像估计装置603执行与第二实施例中的步骤S401至S406对应的所有处理，但是本发明不限于该实施例。例如，计算机604可以执行第二实施例中的步骤S401至S406中的一个或多个(与该实施例中的步骤S802至S807对应)，并且可以将结果发送到图像估计装置603。

如该实施例中所述，可以使用被可通信地连接到图像估计装置603的计算机604来控制图像估计装置603。

例如，每个实施例中的回归任务是在捕获图像中形成散焦模糊。形成散焦模糊是用于将双线模糊、渐晕、由非球面透镜模具造成的环形图案、镜面透镜的环形散焦模糊等转换为具有任意分布的模糊的任务。此时，由于辉度饱和或被遮挡的阴影而引起信息损失的区域中会出现问题。但是，通过将超出动态范围的映射图输入到神经网络，有可能在抑制副作用的同时执行散焦模糊的形成。

其它实施例

本发明的实施例还可以通过系统或装置的计算机和由该系统或装置的计算机进行的方法来实现，该计算机读出和执行记录在存储介质(也可以更完整地称为“非暂态计算机可读存储介质”)上的计算机可执行指令(例如，一个或多个程序)以执行以上描述的实施例中的一个或多个实施例的功能，和/或包括用于进行以上描述的实施例中的一个或多个实施例的功能的一个或多个电路(例如，专用集成电路(ASIC))，该方法通过例如读出和执行来自该存储介质的计算机可执行指令以执行以上描述的实施例中的一个或多个实施例的功能，和/或控制该一个或多个电路执行以上描述的实施例中的一个或多个的功能。该计算机可以包括一个或多个处理器(例如，中央处理器(CPU)、微处理单元(MPU))并且可以包括独立计算机或独立处理器的网络以读出和执行该计算机可执行指令。该计算机可执行指令可从例如网络或该存储介质被提供到该计算机。该存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储装置、光盘(诸如紧致盘(CD)、数字通用盘(DVD)或蓝光光盘(BDTM))、闪存设备、记忆卡等中的一个或多个。

其它实施例

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

上述实施例可以提供图像处理方法、图像处理装置、程序、图像处理系统以及已学习模型制造方法，即使在辉度饱和或被遮挡的阴影发生的情况下，它们各自也可以抑制神经网络的估计准确性的降低。

虽然已参照示例性实施例描述了本发明，但应理解，本发明不限于所公开的示例性实施例。以下的权利要求的范围应被赋予最宽的解释，以便包含所有这样的修改和等同的结构和功能。

Claims

1.一种图像处理方法，其特征在于，包括以下步骤：

基于输入图像中的信号值和所述信号值的阈值来获得表示所述输入图像的超出动态范围的区域的第一映射图；以及

输入包括所述输入图像和所述第一映射图的输入数据并执行识别任务或回归任务。

2.根据权利要求1所述的图像处理方法，其特征在于所述信号值的阈值基于所述输入图像中的辉度饱和值和黑电平中的至少一个来设置。

3.根据权利要求1所述的图像处理方法，其特征在于所述第一映射图是表示所述输入图像中的辉度饱和区域和被遮挡的阴影区域中的至少一个的映射图。

4.根据权利要求1所述的图像处理方法，其特征在于所述输入数据包括所述输入图像和所述第一映射图作为通道分量。

5.根据权利要求4所述的图像处理方法，其特征在于输入步骤仅将所述输入图像和所述第一映射图中的一个输入到神经网络的第一层，将作为来自至少所述第一层的输出的特征图与所述输入图像和所述第一映射图中尚未输入到所述第一层的另一个在通道方向上级联，并且将所级联的数据输入到所述神经网络的后续层。

6.根据权利要求4所述的图像处理方法，其特征在于输入步骤对神经网络的输入部分进行分支，将所述输入图像和所述第一映射图转换成不同层中的特征图，级联所述特征图，并所述特征图输入到后续层。

7.根据权利要求1所述的图像处理方法，其特征在于在所述输入图像与所述第一映射图之间，每一个通道的像素数彼此相等。

8.根据权利要求1所述的图像处理方法，其特征在于所述任务是对所述输入图像进行去模糊。

9.根据权利要求1所述的图像处理方法，还包括以下步骤：

基于所述输入图像中的信号值和所述信号值的阈值来获得权重映射图；以及

基于来自神经网络的输出、所述输入图像和所述权重映射图来生成加权平均图像。

10.根据权利要求9所述的图像处理方法，其特征在于所述输入图像包括多个颜色分量，以及

其中，在所述输入图像中，当在预定区域中的目标像素和具有与所述目标像素的颜色分量不同的颜色分量的像素的全部中出现辉度饱和或被遮挡的阴影时，所述权重映射图被生成以使所述输入图像中在目标像素的位置处的权重大于所述来自神经网络的输出。

11.根据权利要求9所述的图像处理方法，其特征在于所述输入图像具有多个颜色分量，以及

其中，在所述输入图像中，当目标像素和在预定区域中的具有与该目标像素的颜色分量不同的颜色分量的像素的全部中既没有出现辉度饱和也没有出现被遮挡的阴影时，所述权重映射图被生成以使所述输入图像中在目标像素的位置处的权重小于所述来自神经网络的输出。

12.一种图像处理装置，其特征在于，包括：

获得单元，所述获得单元被配置为基于输入图像中的信号值和该信号值的阈值来获得表示所述输入图像的超出动态范围的区域的第一映射图；以及

处理单元，所述处理单元被配置为将包括所述输入图像和所述第一映射图的数据输入到神经网络并执行识别任务或回归任务。

13.根据权利要求12所述的图像处理装置，还包括存储器，该存储器被配置为存储在所述神经网络中使用的权重信息。

14.一种存储使计算机执行图像处理方法的计算机程序的非暂态计算机可读存储介质，其特征在于，

所述图像处理方法包括以下步骤：

15.一种图像处理系统，其特征在于，包括：

第一装置；以及

能够与所述第一装置通信的第二装置，

其特征在于所述第一装置包括发送器，所述发送器被配置为发送使所述第二装置对捕获图像执行处理的请求；

其中所述第二装置包括：

接收器，所述接收器被配置为接收由所述发送器发送的请求；

获得器，所述获得器被配置为基于所述捕获图像中的信号值和所述信号值的阈值来获得表示所述捕获图像的超出动态范围的区域的第一映射图；

处理器，所述处理器被配置为将包括所述捕获图像和所述第一映射图的数据输入到神经网络并执行识别任务或回归任务；以及

发送器，该发送器被配置为发送所述任务的结果。

16.一种图像处理方法，其特征在于，包括以下步骤：

获得训练图像、表示所述训练图像的超出动态范围的区域的第一映射图以及地面真实数据，所述第一映射图基于所述训练图像中的信号值和所述信号值的阈值；以及

使用包括所述训练图像和所述第一映射图以及所述地面真实数据的输入数据使神经网络学习以执行识别任务或回归任务。

17.一种存储使计算机执行图像处理方法的计算机程序的非暂态计算机可读存储介质，其特征在于，

所述图像处理方法包括以下步骤：

18.一种已学习模型的制造方法，其特征在于，包括以下步骤：

19.一种图像处理装置，其特征在于，包括：

获得单元，所述获得单元被配置为获得训练图像、表示该训练图像的超出动态范围的区域的第一映射图以及地面真实数据，所述超出动态范围的映射图，所述第一映射图基于所述训练图像中的信号值和所述信号值的阈值；以及

学习单元，所述学习单元被配置为使神经网络使用包括所述训练图像和所述第一映射图以及所述地面真实数据的输入数据来学习以执行识别任务或回归任务。