CN112581382A

CN112581382A - 图像处理方法、装置及系统、存储介质和学习模型制造方法

Info

Publication number: CN112581382A
Application number: CN202011022610.3A
Authority: CN
Inventors: 小林正和
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-27
Filing date: 2020-09-25
Publication date: 2021-03-30
Anticipated expiration: 2040-09-25
Also published as: CN120219177A; US20210097650A1; JP7455542B2; JP2021056678A; US11508038B2; CN112581382B

Abstract

本发明提供图像处理方法、装置及系统、存储介质和学习模型制造方法。图像处理方法用于生成估计图像，在估计图像中校正了拍摄图像中的散焦模糊形状，图像处理方法包括：第一步骤，获取输入数据，输入数据包括拍摄图像和形状指定信息，形状指定信息指定估计图像中的散焦模糊形状；以及第二步骤，将输入数据输入到机器学习模型中并生成估计图像。

Description

图像处理方法、装置及系统、存储介质和学习模型制造方法

技术领域

本发明涉及用于通过对在拍摄图像中的由散焦引起的模糊进行整形来获得良好的图像的图像处理方法。

背景技术

日本特开(“JP”)2016-220016号公报公开了一种校正由散焦引起的模糊形状(散焦模糊或散焦散景)的方法，该方法包括：将光学系统中的光瞳划分为多个部分；拍摄通过从各个划分的光瞳观察被摄体空间而获得的多个视差图像；以及调整用于组合多个视差图像的权重。

然而，在JP 2016-220016号公报中公开的方法不能再现与比光学系统中的光瞳更大的光瞳相对应的散焦模糊，这是因为该方法调整各个划分的光瞳的权重并且组合多个视差图像。换句话说，该方法不能弥补由渐晕引起的散焦模糊缺陷。当用于组合多个视差图像的权重变得不均匀时，噪声增加。由于双线模糊等具有精细的结构，因此有必要将光学系统中的光瞳划分为更精细的部分以降低其影响。然后，各个视差图像的空间分辨率降低或噪声增加。

可以利用诸如CNN(Convolutional Neural Network，卷积神经网络)的机器学习模型来校正散焦模糊形状。由于用户对散焦模糊形状的个人喜好，因此有必要学习具有各种形状的散焦模糊作为正解图像(ground truth image)。然而，当针对某些情况存在与单个训练图像相对应的多个正解图像时，当仅利用一个机器学习模型中的权重时很难对学习数据进行学习。于是，即使将拍摄图像输入到学习后的CNN，也可以输出作为正解图像的各种散焦模糊形状的平均值作为估计图像。这是因为CNN平均地学习多个正解图像。如果针对作为正解图像的各个散焦模糊形状来学习不同的权重，则学习负荷和存储的数据量将增大。

发明内容

本发明提供了图像处理方法等，图像处理方法等中的各个能够在抑制机器学习模型的学习负荷和存储的数据量的增大的同时将拍摄图像中的散焦模糊形状校正为各种形状。

根据本发明的一方面的图像处理方法，用于生成估计图像，在所述估计图像中，校正了拍摄图像中的散焦模糊形状，所述图像处理方法包括：第一步骤，获取输入数据，所述输入数据包括所述拍摄图像和形状指定信息，所述形状指定信息指定所述估计图像中的散焦模糊形状；以及第二步骤，将所述输入数据输入到机器学习模型中并生成所述估计图像。

存储用于使计算机执行以上图像处理方法的程序的非暂时性计算机可读存储介质也构成了本发明的另一方面。对应于以上图像处理方法的图像处理装置也构成了本发明的另一方面。

根据本发明的另一方面的学习模型制造方法，包括如下步骤：获取针对相同被摄体具有不同模糊形状的训练图像和正解图像；获取用于指定所述正解图像的散焦模糊形状的形状指定信息；以及在机器学习模型处基于所述训练图像、所述正解图像和所述形状指定信息来进行学习。对应于以上学习模型制造方法的图像处理装置也构成了本发明的另一方面。

根据本发明的另一方面的图像处理系统，包括彼此进行通信的第一装置和第二装置。所述第一装置包括发送器，所述发送器被构造为向所述第二装置发送针对拍摄图像的处理执行请求。所述第二装置包括：接收器，其被构造为接收所述请求；获取器，其被构造为获取输入数据，所述输入数据包括所述拍摄图像和形状指定信息，所述形状指定信息用于指定估计图像的散焦模糊形状；以及生成器，其被构造为根据所述请求将所述输入数据输入到机器学习模型中，并生成所述估计图像，在所述估计图像中，校正了所述拍摄图像的散焦模糊形状。

通过以下参照附图对示例性实施例的描述，本发明的其他特征将变得清楚。

附图说明

图1示出了根据第一实施例的机器学习模型的构造。

图2是根据第一实施例的图像处理系统的框图。

图3是根据第一实施例的图像处理系统的外观。

图4是根据第一至第四实施例的学习数据生成方法的流程图。

图5是根据第一、第三和第四实施例的针对权重学习的流程图。

图6是根据第一实施例的用于生成估计图像的流程图。

图7是根据第一实施例的用于编辑拍摄图像的流程图。

图8示出了根据第一实施例的用户界面。

图9示出了根据第二实施例的机器学习模型的构造。

图10是根据第二实施例的图像处理系统的框图。

图11是根据第二实施例的图像处理系统的外观。

图12是根据第二实施例的用于权重学习的流程图。

图13是根据第二实施例的用于生成估计图像的流程图。

图14示出了根据第二实施例的用户界面。

图15示出了根据第三实施例的机器学习模型的构造。

图16是根据第三实施例的图像处理系统的框图。

图17是根据第三实施例的图像处理系统的外观。

图18是根据第三实施例的用于生成估计图像的流程图。

图19示出了根据第三实施例的用户界面。

图20示出了根据第四实施例的机器学习模型的构造。

图21是根据第四实施例的图像处理系统的框图。

图22是根据第四实施例的图像处理系统的外观。

图23是根据第四实施例的用于生成估计图像的流程图。

图24示出了根据第四实施例的用户界面。

图25A至图25C示出了根据各个实施例的在散焦距离处的点扩展函数(PSF)。

具体实施方式

现在将参照附图详细描述根据本发明的实施例。通过相同的附图标记来指定各图中的对应元件，并且将省略其重复描述。

在具体描述实施例之前，将描述本发明的要点。本发明使用机器学习模型来对拍摄图像中的散焦模糊进行重新整形。机器学习模型包括例如神经网络、遗传编程、贝叶斯网络等。神经网络包括CNN、GAN(Generative Adversary Network，生成式对抗网络)、RNN(Recurrent Neural Network，递归神经网络)等。散焦模糊整形是指对散焦模糊形式或形状进行重新整形而不恢复频率分量。例如，包括从双线散焦模糊重新整形为高斯散焦模糊或圆形散焦模糊等。各种散焦模糊形状的细节将在后面描述。要校正的其他散焦模糊例如包括由渐晕引起的散焦模糊缺陷、以及由诸如反射折射透镜的光瞳遮挡引起的环形散焦模糊。本发明不限制目标散焦模糊形状或校正后的散焦模糊形状。

接下来，描述与在智能电话上进行的散焦模糊添加的区别。具有广角镜头和小的传感器尺寸的智能电话难以创建散焦模糊。因此，添加散焦模糊以创建期望的散焦模糊。另一方面，根据本发明的散焦模糊校正将已经散焦的被摄体校正为期望的散焦模糊。换句话说，本发明需要应用满足在预先存在的散焦模糊与期望的散焦模糊之间的差异的散焦模糊，并且需要更复杂的处理。

输入到机器学习模型的输入数据包括拍摄图像和指定校正后的散焦模糊形状的信息(形状指定信息)。该形状是指散焦模糊的类型和尺寸中的至少一者。在机器学习模型的学习中，通过将形状指定信息与训练图像一起输入，机器学习模型可以针对单个训练图像学习具有不同散焦模糊形状的多个正解图像。换句话说，即使正解图像包括具有各种形状的散焦模糊，也可以学习用于针对各个散焦模糊形状而创建不同形状的权重，而不是用于创建散焦模糊的平均形状的权重。因此，可以高精度地集中学习包括具有各种形状的散焦模糊的学习数据。结果，本发明可以根据用户的喜好校正具有各种形状的散焦模糊，同时抑制学习负荷和存储的数据量。

在下文中，对机器学习模型的权重进行学习的阶段被称为学习阶段，并且使用机器学习模型和经学习权重(learned weight)对散焦模糊形状进行校正的阶段被称为估计阶段。

第一实施例

现在参照图2和图3，将描述根据本发明的第一实施例的图像处理系统。图2是图像处理系统100的框图。图3是图像处理系统100的外观。

图像处理系统100包括学习装置101、摄像装置102、图像估计装置103、显示装置104、记录介质105、输出装置106和网络107。学习装置101包括存储器101a、获取器101b、生成器101c和更新器101d，并且对用于校正散焦模糊的机器学习模型的权重进行学习(以制造学习模型)。稍后将描述权重学习和使用权重的散焦模糊校正处理的细节。

摄像装置102具有光学系统102a和图像传感器102b，并且拍摄被摄体空间的图像以获取拍摄图像。光学系统102a收集从被摄体空间入射的光并形成光学图像(被摄体图像)。图像传感器102b通过对光学图像进行光电转换来获取拍摄图像。图像传感器102b例如是CCD(电荷耦合器件)传感器和CMOS(互补金属氧化物半导体)传感器。

图像估计装置(图像处理装置)103包括存储器103a、获取器103b，模糊整形单元(模糊形状校正器或生成器)103c和生成器103d。图像估计装置103针对由摄像装置102拍摄的拍摄图像(的至少一部分)，生成校正了散焦模糊形状的估计图像。对于散焦模糊校正，使用机器学习模型，该机器学习模型使用已通过学习装置101学习的权重。学习装置101和图像估计装置103通过网络107连接，并且图像估计装置103在散焦模糊校正之前或在散焦模糊校正期间，从学习装置101读出经学习权重信息。估计图像被输出到显示装置104、记录介质105和输出装置106中的至少一个。

显示装置104例如是液晶显示器或投影器。用户可以在检查正经由显示装置104处理的图像的同时进行编辑等。稍后将描述在编辑期间的用户界面的细节。记录介质105例如是半导体存储器、硬盘驱动器、网络上的服务器等，并且存储估计图像。记录装置106是打印机等。

现在参照图4，将描述生成由学习装置101执行的学习数据，图4是学习数据生成方法的流程图。图4中的各个步骤主要由学习装置101中的各个单元执行。该实施例使用CNN作为机器学习模型，但是可以类似地应用其他模型。

首先，在步骤S101中，获取器101b获取原始图像。原始图像的数量可以是一个或更多个。原始图像是实际拍摄的图像、CG(计算机图形)图像等。在后续步骤中，将散焦模糊应用于原始图像以创建训练图像和正解图像。因此，原始图像可能包括具有拥有各种强度和方向的边缘、纹理、渐变、平坦部分等的图像，从而对各种被摄体正确地进行散焦模糊的形状转换。

原始图像可以具有比图像传感器102b的亮度饱和值高的信号值。这是因为即使当摄像装置102在特定曝光条件下拍摄实际被摄体的图像时，也有一些被摄体没有落入亮度饱和值内。正解图像和训练图像接收散焦模糊，然后通过图像传感器102b的亮度饱和值剪辑。从而可以再现没有落入实际亮度饱和值的被摄体。

接下来，在步骤S102中，生成器(第二获取器)101c生成(获取)形状指定信息(其指定正解图像的散焦模糊形状)，并将其存储在存储器101a中。形状指定信息指定校正后的散焦形状的尺寸和类型中的至少一者。类型表示由于PSF(点扩展函数)强度分布上的差异而导致的高斯模糊、圆形模糊、双线模糊等上的差异。

现在参照图25A至图25C，将描述双线模糊、圆形模糊和高斯模糊。图25A示出了双线模糊的点扩展函数(PSF)。在图25A中，横坐标轴表示空间坐标(位置)，而纵坐标轴表示强度。这也适用于稍后描述的图25B和图25C。如图25A所示，双线模糊具有拥有分离的峰的PSF。当散焦距离处的PSF具有如图25A所示的形状时，最初具有单线的被摄体由于散焦而看起来像双重模糊。图25B示出具有圆形模糊的PSF。圆形模糊具有拥有平坦强度的PSF。图25C示出了具有高斯模糊的PSF。高斯模糊具有拥有高斯分布的PSF。尺寸是指PSF具有强度的范围。

指定尺寸对应于虚拟地改变光学系统102a的F数(光圈值)。当F数改变时，光学系统102a的光瞳的尺寸改变，使得散焦模糊的尺寸改变。校正散焦模糊的图像处理可以将F数改变为光学系统102a无法从拍摄图像物理获取的F数。指定类型对应于将光学系统102a虚拟地改变为不同的透镜构造。散焦模糊的类型(诸如双线模糊、圆形模糊和高斯模糊)取决于由光学系统102a的透镜构造确定的光瞳函数。换句话说，指定校正后的散焦的尺寸或类型对应于指定虚拟透镜参数。更具体地，指定F数对应于改变光瞳函数的扩展。此外，指定诸如双线模糊和圆形模糊的类型对应于改变光瞳函数的振幅或相位。

形状指定信息可以是标量或图(map)，但是在本实施例中是图。当形状指定信息是标量时，不能针对图像中的各个区域指定散焦模糊形状。另一方面，当形状指定信息是图时，可以针对图像中的各个区域指定散焦模糊形状。因此形状指定信息可以是图。当形状指定信息是图时，信道数是一个或更多个，散焦模糊的类型和尺寸由数值指示，并将数值归一化。例如，当在具有一个信道的图中指定模糊类型时，可以将0设置为高斯模糊，并且可以将1设置为圆形模糊。在利用具有多个信道的图来进行指定时，可以将1设置为第一信道上的高斯模糊的区域，并且可以将1设置为第二信道上的圆形模糊的区域。当通过具有一个信道的图来指定模糊尺寸时，可以将0设置为与F1.0相对应的尺寸，并且可以将1设置为与F2.0相对应的尺寸。在利用具有多个信道的图进行指定时，可以将1设置为在第一信道上与F2.0相对应的尺寸的区域，并且可以将1设置为在第二信道上与F1.0相对应的尺寸的区域。

可以将平滑滤波器等应用于形状指定信息。由此可以精确地校正指定不同形状的边界。形状指定信息生成指定各种散焦模糊形状的多条信息。在该实施例中，各种散焦模糊形状是在示出用户界面的图8中的散焦模糊形状指定标签104a上可选择的形状。

接下来，在图4的步骤S103中，生成器101c生成训练图像并将其存储在存储器101a中。训练图像是通过将目标散焦模糊应用于原始图像并通过进行成像模拟而获得的图像。为了处理所有的拍摄图像，可以应用与各种散焦量相对应的散焦模糊。可以通过将PSF与原始图像进行卷积或通过取原始图像的频率特性与OTF(光学传递函数)的乘积，来应用散焦模糊。在校正散焦模糊前后，焦平面上的图像可以不变，使得也会生成未应用散焦模糊的训练图像和正解图像。

接下来，在步骤S104中，生成器101c针对单个训练图像生成与多个形状指定信息相对应的多个正解图像，并将它们存储在存储器101a中。正解图像是通过对原始图像应用校正后的散焦模糊形状并通过进行成像模拟而获得的图像。对于校正后的散焦模糊形状，准备具有与形状指定信息相对应的不同尺寸和类型的各种图案，诸如与F2.0相对应的圆形模糊和与F1.0相对应的高斯模糊。正解图像和训练图像可以是未显影的RAW图像或显影后的图像。可以交换生成训练图像、正解图像和形状指定信息的顺序。

由光学系统102a和图像传感器102b摄取的实际拍摄图像可以用于生成学习数据，例如，使用光学系统102a获得训练图像。通过使用散焦模糊形状与光学系统102a的散焦模糊形状不同的另一成像光学系统拍摄与训练图像的被摄体相同的被摄体，来获得正解图像。换句话说，训练图像和正解图像可以具有相同的被摄体并且具有不同的散焦模糊形状。在这种情况下，针对具有与光学系统102a的散焦模糊形状不同的散焦模糊形状的不同的成像光学系统，生成多个形状指定信息，并且多个形状指定信息具有不同的数值。可以从通过以上两种方法生成的并用于学习的训练图像和正解图像中提取具有预定数量的像素的部分区域。针对形状指定信息，可以在与训练图像和正解图像中的各个相同的定时来提取具有预定数量的像素的部分区域。另选地，在可以从训练图像和正解图像中提取具有预定数量的像素的部分区域之后，可以生成用于形状指定信息的部分区域。

现在参照图5，将描述权重学习(学习阶段)。图5是针对权重学习(学习模型制造方法)的流程图。图5中的各个步骤主要由学习装置101中的各个单元执行。

首先，在步骤S111中，获取器101b从存储器101a获取一组或更多组正解图像和训练输入数据。该训练输入数据为CNN学习阶段的输入数据。训练输入数据包括训练图像和形状指定信息。从多个正解图像当中选择并获取具有与形状指定信息相对应的散焦模糊的正解图像。

接下来，在步骤S112中，生成器101c将训练输入数据输入到CNN并生成输出图像。现在参照图1，将描述在该实施例中生成输出图像。图1示出了机器学习模型的构造。训练输入数据包括训练图像201和形状指定信息202。训练图像201可以由灰度表达或可以具有多个信道分量。

在该实施例中，CNN(卷积神经网络)206具有一个或更多个卷积层或全连结层。在学习开始时，通过随机数生成CNN 206的权重(各个滤波器元素和偏置值)。连结层205在信道方向上按预定顺序连结训练图像201和形状指定信息202。可以在训练图像201与形状指定信息202之间连结其他数据。CNN 206输入连结了训练图像201和形状指定信息202的训练输入数据203，并生成输出图像204。当在步骤S111中获取了多组训练输入数据时，针对各个组生成输出图像204。即使对于相同的训练图像201，输出图像204也会根据形状指定信息202而不同。训练图像201或形状指定信息202被输入到网络的位置不受限制。形状指定信息202可以在其由子网转换为特征图之后被输入。例如，形状指定信息202可以被子网转换为特征图，并从CNN 206的中间层输入。如果形状指定信息是标量，则通过子网将标量转换为特征图，然后进行与图1中的形状指定信息202的处理相同的处理。

接下来，在图5的步骤S113中，更新器101d根据输出图像与正解图像之间的误差或差异来更新CNN的权重。本实施例将输出图像的信号值与正解图像的信号值之间的差的欧几里得范数设置为损失函数。然而，损失函数不限于本实施例。当在步骤S111中获取了多组训练输入数据和正解图像时，针对各组计算损失函数的值。通过反向传播方法等根据损失函数的计算值来更新权重。

接下来，在步骤S114中，更新器101d确定权重学习是否完成。可以基于学习(权重更新)迭代的次数是否已达到指定次数或更新期间的权重改变量是否小于指定值来确定完成。如果确定尚未完成权重学习，则流程返回到步骤S111，以获取一组或更多组新的训练输入数据和正解图像。当确定权重学习已经完成时，学习结束，并且将权重信息存储在存储器101a中。

接下来，描述由图像估计装置103执行的对拍摄图像的散焦模糊形状校正(估计阶段)和用户界面。在本实施例中，用户确定替换区域，该替换区域是拍摄图像中的散焦模糊校正区域。然后，生成器103d用估计图像将替换区域替换，从而生成用户指定的任意区域中的散焦模糊被校正的图像。如图8所示，显示装置104显示散焦模糊形状指定标签104a、画笔104b和拍摄图像104c。用户可以在确认显示装置104上的显示的同时校正散焦模糊。

现在参照图6，将描述生成估计图像。图6是用于生成估计图像的流程图。图6中的各个步骤主要由图像估计装置103中的各个单元执行。

首先，在步骤S201中，获取器103b获取拍摄图像和权重信息。要获取的拍摄图像可以是整个拍摄图像的一部分。权重信息被预先从存储器101a中读出并存储在存储器103a中。

接下来，在步骤S202中，获取器103b获取拍摄图像的散焦图。散焦图是示出与应用到拍摄图像中的被摄体的散焦模糊有关的信息的图，并且通过数值指示被摄体的散焦量。可以通过拍摄视差图像或使用DFD(Depth from Defocus，散焦测距)来获取散焦图。散焦图有两个主要作用。第一个作用是通过利用各个被摄体的散焦量不同的事实来提取混合在拍摄图像中的被摄体区域，并使用该被摄体区域来确定替换区域。第二个作用是输入到机器学习模型，以进行在对焦位置处的被摄体与散焦模糊之间高精度区分的形状校正。该实施例使用前一作用或提取混合在拍摄图像中的被摄体区域。稍后将描述后者的细节。

接下来，在步骤S203中，生成器103d生成与在散焦模糊形状指定标签104a上可选择的形状相对应的形状指定信息。在本实施方式中，由于用户指定了替换区域，因此形状指定信息不具有空间分布，并且可以在整个图中具有相同的值。

接下来，在步骤S204中，模糊整形单元103c将输入数据输入到CNN并生成估计图像。输入数据包括拍摄图像和指定估计图像中的散焦模糊形状的形状指定信息。估计图像是校正了拍摄图像中的散焦模糊形状的图像，并通过形状指定信息确定该图像的形状。与学习类似，使用图1所示的CNN 206来生成估计图像。在CNN 206中，使用获取的经学习权重。针对与在图8所示的散焦模糊形状指定标签104a上可选择的散焦模糊相对应的多个形状指定信息中的各个生成估计图像。针对用于指定散焦模糊的尺寸和类型中的至少一个的第一形状指定信息、和用于指定散焦模糊的尺寸和类型中的至少一个的不同于第一形状指定信息的第二形状指定信息，CNN使用相同的权重。所生成的多个估计图像被存储在存储器103a中。

现在参照图7和图8，将描述由用户编辑拍摄图像。图7是用于编辑拍摄图像的流程图。图7中的各个步骤主要由图像估计装置103中的各个单元执行。

首先，在步骤S211中，获取器103b获取用于指定由用户使用图8所示的形状指定标签104a而指定的校正后的散焦模糊形状的信息。

接下来，在步骤S212中，获取器103b获取用户使用画笔104b选择的拍摄图像104c中的区域信息(替换区域)。该区域由用户逐像素或基于拍摄图像的信号值分布或散焦图从用户使用画笔104b大致选择的区域中确定的。根据拍摄图像的信号值分布或散焦图使得能够提取目标被摄体区域。根据拍摄图像的信号值分布是指：指定拍摄图像的像素值不连续改变的区域并提取被摄体区域。

接下来，在步骤S213中，生成器103d用具有指定的散焦模糊形状的估计图像来替换由用户选择的替换区域。如上所述，本实施例获取关于拍摄图像的替换区域的信息，并用估计图像替换拍摄图像的替换区域。因此，与每当选择替换区域时生成估计图像的情况相比，估计图像生成的次数更小，并且可以在短时间内实现用户喜欢的散焦模糊校正。估计图像可以使用保存在存储器103a中的图像。

上述构造可以在抑制学习负荷和存储的数据量的同时校正散焦模糊形状。可以修改该构造，使得根据散焦模糊形状和由用户使用形状指定标签104a和画笔104b选择的替换区域来生成形状指定信息的图，并且执行步骤S204。将在第二和后续实施例中详细描述具有空间上不同分布的形状指定信息。

接下来，描述用于增强该实施例的效果的条件。输入数据还可以包括亮度饱和图。亮度饱和图指示图像中的亮度饱和像素区域，并且具有与图像相同的尺寸。学习阶段根据训练图像生成亮度饱和图。估计阶段根据拍摄图像生成亮度饱和图。由于在亮度饱和部分中存在与因亮度饱和引起的被摄体结构不同的假边缘，因此，机器学习模型难以将亮度饱和部分与具有边缘的部分(诸如具有高频分量的散焦模糊和聚焦位置)区分开。亮度饱和图使机器学习模型能够将具有高频分量的散焦模糊和聚焦位置与亮度饱和部分区分开，并且使得能够进行高精度的形状校正。当应用具有尖峰的PSF(诸如双线模糊)时，可能会出现具有高频分量的散焦模糊。

输入数据还可以包括散焦图。散焦图是示出关于应用于拍摄图像中的被摄体的散焦模糊的信息的图。学习阶段将与应用于训练图像的散焦模糊相对应的散焦量转换为数值。例如，焦平面可以被设置为0，远离摄像装置的方向可以被设置为负，并且接近方向可以被设置为正。估计阶段通过拍摄视差图像、使用DFD(散焦测距)等，来获取拍摄图像的散焦图。此时的散焦图的数值与学习阶段的数值相对应。散焦图可以高精度地校正对焦位置处的被摄体的形状和散焦模糊。如果没有散焦图，则对焦位置处的被摄体和具有高频分量的散焦模糊不能彼此区分开，并且对焦位置处的被摄体会模糊。

输入数据还可以包括状态图，该状态图是光学系统102a的状态在成像期间由(Z，F，D)表示的信息。在(Z，F，D)中，Z对应于变焦位置，F对应于F数，并且D对应于焦距。

输入数据还可以包括位置图。位置图是示出图像上各个像素的像平面坐标的图。位置图可以是极坐标系(对应于像高和方位(azimuth))。

散焦模糊根据透镜状态、像高和方位而变化。由于学习了CNN以便平均地校正学习数据中包括的所有散焦模糊形状，因此对各个不同的散焦模糊形状的校正精度降低。因此，机器学习模型可以通过将状态图和位置图输入到机器学习模型中来指定应用于拍摄图像的PSF。由此，在学习阶段中，即使用于学习的训练图像不包含各种散焦模糊形状，机器学习模型也针对各模糊形状学习用于不同校正的权重，而不是用于平均地校正散焦模糊形状的权重。由此，在估计阶段，可以高精度地校正各个散焦模糊形状。因此，本实施例可以集中学习用于校正各种散焦模糊形状的学习数据，同时抑制形状校正精度的降低。

第二实施例

现在参照图10和图11，将描述根据本发明的第二实施例的图像处理系统。图10是根据该实施例的图像处理系统300的框图。图11是图像处理系统300的外观。

图像处理系统300具有学习装置301、摄像装置302、图像估计装置303以及网络304和305。学习装置301具有存储器301a、获取器301b、生成器301c和更新器301d，并且学习用于校正散焦模糊形状的机器学习模型的权重。稍后将描述权重学习和使用权重的散焦模糊校正的细节。

摄像装置302具有光学系统302a、图像传感器302b、获取器302c、记录介质302d、显示单元302e和系统控制器302f。光学系统302a收集从被摄体空间入射的光，并形成光学图像(被摄体图像)。图像传感器302b通过光电转换将光学图像转换成电信号并生成拍摄图像。

图像估计装置(图像处理装置)303包括存储器303a、模糊整形单元(模糊形状校正器或生成器)303b、获取器303c和生成器303d。图像估计装置303针对由摄像装置302拍摄的拍摄图像(的至少一部分)，生成校正了散焦模糊形状的估计图像。将由学习装置301学习的经学习权重的信息用于生成估计图像。权重信息存储在存储器303a中。获取器302c获取估计图像，并且记录介质302d存储估计图像。系统控制器302f控制摄像装置302的一系列操作。

现在参照图12，将描述由学习装置301进行的权重学习(学习阶段)。图12是用于权重学习(学习模型制造方法)的流程图。图12中的各步骤主要由学习装置301中的各个单元执行。该实施例将GAN用于机器学习模型，但是可以类似地应用其他模型。GAN是对抗地生成的网络，其包括生成图像的生成器和识别生成的图像的鉴别器。在本实施例中，将省略对与第一实施例相同的元件的描述。

首先，在步骤S301中，获取器301b从存储器301a获取一组或更多组正解图像和训练输入数据。正解图像和训练图像的生成与第一实施例中的相同。现在参照图9，将描述根据该实施例的生成训练输入数据。图9示出了作为机器学习模型的GAN的构造。连结层406在信道方向上按预定顺序连接训练图像401和形状指定信息402，以生成训练输入数据403。

接下来，在图12的步骤S302中，生成器301c将训练输入数据403输入到生成器407中，并生成输出图像404。生成器407例如是CNN。接下来，在步骤S303中，更新器301d根据输出图像404与正解图像405之间的误差或差异来更新生成器407的权重。将各个像素处的差的欧几里得范数用于损失函数。接下来，在步骤S304中，更新器301d确定第一学习是否已经完成。如果第一学习尚未完成，则流程返回到步骤S301。另一方面，当第一学习已经完成时，流程进行到步骤S305，并且执行第二学习。

接下来，在步骤S305中，与步骤S301中相同，获取器301b从存储器301a中获取一组或更多组正解图像405和训练输入数据403。接下来，在步骤S306中，与步骤S302中相同，生成器301c将训练输入数据403输入到生成器407中并生成输出图像404。

在步骤S307中，更新器301d根据输出图像404和正解图像405更新鉴别器408的权重。鉴别器408鉴别输入图像是生成器407生成的假图像还是作为正解图像405的真图像。输出图像404或正解图像405被输入到鉴别器408以生成鉴别标签(假或真)。基于鉴别标签与正解标签之间的误差或差异(输出图像404为假，而正解图像405为真)来更新鉴别器408的权重。尽管S形(sigmoid)交叉熵被用于损失函数，但是可以使用其他损失函数。

接下来，在步骤S308中，更新器301d根据输出图像404和正解图像405更新生成器407的权重。损失函数是步骤S303中的欧几里得范数与随后两项的加权和。第一项是称为内容损失(Content Loss)的项，其是在将输出图像404和正解图像405转换为特征图后，输出图像404与正解图像405之间的各个元素的差的欧几里得范数。通过将特征图的差添加到损失函数，可以使输出图像404的更抽象的性质更接近正解图像405。第二项是通过将输出图像404输入到鉴别器408而获得的鉴别标签的S形交叉熵，其称为对抗损失(adversarialloss)。进行学习，使得鉴别器408可以将假和真彼此区分，生成器407被训练成输出更客观地看起来像正解图像405的输出图像404。

接下来，在步骤S309中，更新器301d确定第二学习是否已经完成。类似于步骤S304，如果第二学习尚未完成，则流程返回到步骤S305。另一方面，当第二学习已经完成时，将学习的生成器407的权重信息存储在存储器301a中。

现在参照图13和图14，将描述由图像估计装置303执行的散焦模糊形状校正(估计阶段)和用户界面。图13是本实施例中的用于生成估计图像的流程图。图14示出了根据该实施例的用户界面。在该实施例中，用户可以通过指定阈值，通过在拍摄图像中划分区域，以及通过针对各个划分区域指定散焦模糊形状，来校正散焦模糊形状。

如图14所示，显示单元302e显示拍摄图像302e-1、亮度值直方图302e-2、区域划分图像302e-3和散焦模糊形状指定标签302e-4。本实施例中的拍摄图像302e-1具有处于对焦位置的人物，并且背景中的高亮度被摄体和其他被摄体散焦。

首先，在图13的步骤S401中，获取器303c获取(至少一部分)拍摄图像。接下来，在步骤S402中，获取器303c获取由用户通过查看拍摄图像302e-1中的直方图302e-2而指定的阈值。然后，在步骤S403中，生成器303d基于获取的阈值生成区域划分图像302e-3。例如，对于亮度值为0至255的拍摄图像，假定区域A的亮度值为250至255，区域B的亮度值为0至250。由此，可以对背景中的高亮度被摄体和其他被摄体进行划分。当在整个图像中统一校正散焦模糊形状时，无需区域划分。

接下来，在步骤S404中，获取器303c获取由用户在散焦模糊形状指定标签302e-4上指定的校正后的散焦模糊形状。针对步骤S403中的各个划分区域来指定形状。指定信息包括尺寸和类型。尺寸被指定为F1.0或F2.0。对于类型，指定各种散焦模糊形状，诸如高斯模糊和圆形模糊。例如，区域A被指定为F1.0圆形模糊，而区域B被指定为F2.0高斯模糊。

接下来，在步骤S405中，生成器303d基于所获取的区域划分信息和指定校正后的散焦模糊形状的信息来生成形状指定信息。接下来，在步骤S406中，获取器303c获取输入数据和经学习权重信息。输入数据包括拍摄图像和形状指定信息。权重信息被预先从存储器301a中读出并存储在存储器303a中。

接下来，在步骤S407中，模糊整形单元303b将输入数据输入到CNN并生成估计图像。在步骤S404中，当区域A被指定为F1.0圆形模糊并且区域B被指定为F2.0高斯模糊时，生成如下估计图像，在该估计图像中，将拍摄图像302e-1中的散焦模糊形状校正为指定形状。

以上构造可以在抑制学习负荷和存储的数据量的同时将散焦模糊形状校正为各种形状。

第三实施例

现在参照图16和图17，将描述根据本发明的第三实施例的图像处理系统。图16是根据该实施例的图像处理系统500的框图。图17是图像处理系统500的外观。

图像处理系统500包括学习装置501、摄像装置502、透镜装置503、控制装置(第一装置)504、图像估计装置(第二装置)505、以及网络506和507。控制装置504和图像估计装置505可以经由网络506彼此通信。学习装置501和图像估计装置505可以经由网络507彼此通信。学习装置501和图像估计装置505例如包括服务器。控制装置504包括用户终端(智能电话、平板电脑等)。学习装置501包括存储器501a、获取器501b、生成器501c和更新器501d，并且学习用于对使用摄像装置502拍摄的拍摄图像中的散焦模糊形状进行校正的机器学习模型的权重。稍后将描述有关学习的细节。

摄像装置502具有图像传感器502a，并且图像传感器502a对由透镜装置503形成的光学图像进行光电转换以获得拍摄图像。可以将透镜装置503附装到摄像装置502并从摄像装置502拆卸，并且可以通过多种类型来组合透镜装置503和摄像装置502。控制装置504包括通信器504a、显示单元504b、存储器504c和获取器504d，并且根据用户的操作控制对从通过有线或无线方式连接的摄像装置502获取的拍摄图像的处理。另选地，可以将由摄像装置502拍摄的拍摄图像预先存储在存储器504c中，并且可以读出所存储的拍摄图像。

图像估计装置505包括通信器505a、获取器(获取器)505b、存储器505c和整形单元(形状校正器或生成器)505d。图像估计装置505响应于来自经由网络506连接的控制装置504的请求，对拍摄图像执行散焦模糊校正处理。图像估计装置505在散焦模糊校正之前或期间从经由网络507连接的学习装置501获取经学习权重信息，并将其用于对拍摄图像的散焦模糊校正。散焦模糊形状校正之后的估计图像被再次发送到控制装置504，存储在存储器504c中，并显示在显示单元504b上。

接下来，描述由学习装置501进行的权重学习(学习阶段)。该实施例中的形状指定信息的输入方法与第一实施例中的不同。用于权重学习的流程图的各个步骤与图5相同。

将参照图15描述输入形状指定信息的方法。图15示出了根据本实施例的机器学习模型的构造。训练输入数据是训练图像601和形状指定信息602。分别使用子网607和608将训练图像601和形状指定信息602转换为特征图603和604。连结层609在信道方向上以预定顺序连接特征图603和604。CNN 610输入连结的特征图603和604并生成输出图像605。

现在参照图18和图19，将描述在该实施例中由控制装置504和图像估计装置505执行的对拍摄图像的散焦模糊校正(估计阶段)和用户界面。图18是根据本实施例的用于生成估计图像的流程图。图18中的各个步骤主要由图像估计装置505中的各个单元执行。图19示出了根据本实施例的用户界面。

在该实施例中，用户可以通过选择预设模式来校正拍摄图像中的散焦模糊形状。如图19所示，显示单元504b显示模式选择标签504b-1和拍摄图像504b-2。本实施例中的拍摄图像504b-2在对焦位置处具有三个人，并且背景散焦。

首先，在图18的步骤S501中，获取器504d获取由用户在模式选择标签504b-1上选择的信息。例如，预先设置如下三个可选模式，其包括(1)全部为高斯模糊(F数为1.0)；(2)全部为圆形模糊(F数为2.0)；(3)亮度饱和部分为圆形模糊而其他部分为高斯模糊(F数为1.0)。模式选择对应于形状指定信息的选择。可以设置其他模式，其中根据散焦图的散焦量来划分区域，并且在散焦量较大的区域中使F数较低。这种结构可以创建强调距离感的图像。

接下来，在步骤S502中，通信器(发送器)504a向图像估计装置505发送生成拍摄图像、散焦图、选择模式信息和估计图像的请求(该请求是针对拍摄图像的处理执行请求)。散焦图可以通过第一实施例中描述的方法来生成。

接下来，在步骤S503中，通信器505a接收并获取对所发送的拍摄图像、散焦图、模式信息和处理的请求。接下来，在步骤S504中，获取器505b从存储器505c获取经学习权重信息。权重信息预先从存储器501a中读出并存储在存储器505c中，接下来，在步骤S505中，获取器505b从拍摄图像中获取亮度饱和图。

接下来，在步骤S506中，整形单元505d根据选择的模式信息生成形状指定信息。亮度饱和图或散焦图可用于生成形状指定信息。当使用亮度饱和图或散焦图时，可以提取被摄体区域，并且形状指定信息具有空间分布。然而，如果仅通过亮度饱和图或散焦图来提取被摄体区域，则在被摄体区域中可能出现缺陷。例如，在尝试利用亮度饱和图提取诸如路灯的光源区域时，由于光源的不均匀亮度或所应用的散焦模糊分布，部分亮度可能是不饱和的。在这种情况下，可以使用开放处理(opening processing)来弥补该区域中的缺陷。因此，可以使用开处理来提取被摄体区域。

接下来，在步骤S507中，整形单元505d将输入数据输入到CNN并生成校正了拍摄图像中的散焦模糊形状的估计图像。输入数据包括拍摄图像和形状指定信息。在步骤S501中，当选择(1)全部为高斯模糊(F数为1.0)时，可以将拍摄图像504b-2中的散焦模糊形状校正为具有校正后的F1.0高斯模糊的估计图像。接下来，在步骤S508中，通信器505a将估计图像发送到控制装置504。

接下来，在步骤S509中，通信器504a获取所发送的估计图像并将其保存在存储器504c中。另选地，在步骤S502中，可以发送以预设的可选模式生成所有拍摄图像和估计图像的请求，并且可以将在随后的步骤中生成的多个估计图像存储在存储器505c中。当用户选择模式时，将对应的估计图像发送到控制装置504。

第四实施例

现在参照图21和图22，将描述根据本发明第四实施例的图像处理系统。图21是图像处理系统700的框图。图22是图像处理系统700的外观。

图像处理系统700包括学习装置701、摄像装置702、透镜装置703、控制装置(第一装置)704、图像估计装置(第二装置)705、以及网络706和707。学习装置701包括存储器701a、获取器701b、生成器701c和更新器701d。摄像装置702具有图像传感器702a。控制装置704具有通信器704a、显示单元704b、存储器704c和获取器704d。图像估计装置705包括通信器705a、获取器705b、存储器705c和整形单元(形状校正器或生成器)705d。由于图像处理系统700中的各个部件的构造和操作与根据第三实施例的图像处理系统500相同，因此将省略其描述。在该实施例中，个人计算机被用于用户终端。

接下来，描述由学习装置701进行的权重学习(学习阶段)。该实施例与第一实施例的不同之处在于输入形状指定信息的方法。其他步骤是共同的。

将参照图20描述输入形状指定信息的方法。图20示出了根据本实施例的机器学习模型的构造。训练输入数据包括训练图像801和形状指定信息802。在该实施例中，使用子网806将形状指定信息802转换为特征图803。连结层807在信道方向上以预定顺序连结训练图像801和特征图803。CNN 808输入连结的训练图像801和特征图803，并生成输出图像804。

现在参照图23和图24，将描述由控制装置704和图像估计装置705执行的对拍摄图像的散焦模糊校正(估计阶段)和用户界面。图23是根据本实施例的用于生成估计图像的流程图。图23中的各个步骤主要由图像估计装置705中的各个单元执行。图24示出了根据该实施例的用户界面。

在该实施例中，用户可以通过使用光标等将拍摄图像划分为多个区域，并且通过针对各个划分的区域指定散焦模糊形状，来校正散焦模糊形状。如图24所示，显示单元704b显示拍摄图像704b-1、区域划分图像704b-2和散焦模糊形状指定标签704b-3。根据本实施例的拍摄图像704b-1具有处于对焦位置的人物，并且背景中的高亮度被摄体和其他被摄体散焦。

首先，在图23的步骤S601中，获取器704d获取用户指定的区域划分信息，并将拍摄图像划分为多个区域。用户在观看显示单元704b的同时指定拍摄图像的区域划分信息。例如，当用户想要提取区域A时，用户使用光标等来粗略地选择区域A周围的区域。接下来，用户通过使用亮度饱和图或散焦图从粗略选择的区域中获取区域A。当要获取(提取)的区域是亮度饱和部分时，使用亮度饱和图。如果要获取的区域是特定被摄体区域，则使用散焦图。在获取亮度饱和区域时，因为散焦图可以包括亮度饱和部分以外的区域，所以使用亮度饱和图。因为用户难以使用光标等来高精度地指定区域，因此使用这种图。

接下来，在步骤S602中，获取器704d获取与用户指定的校正后的散焦模糊形状有关的信息。这是由用户使用模糊形状指定标签704b-3针对各个划分区域而指定的。例如，区域A被指定为F1.4圆形模糊，并且区域B被指定为F2.8高斯模糊。接下来，在步骤S603中，通信器(发送器)704a向图像估计装置705发送拍摄图像、生成估计图像的请求(针对拍摄图像的处理执行请求)、区域划分信息以及有关校正后的散焦模糊形状的信息。

接下来，在步骤S604中，通信器705a接收并获取所发送的拍摄图像、处理请求、区域划分信息以及关于校正后的散焦模糊形状的信息。接下来，在步骤S605中，获取器705b从存储器705c获取经学习权重信息。该权重信息被预先从存储器701a中读取并存储在存储器705c中。接下来，在步骤S606中，整形单元(形状校正器或生成器)705d基于区域划分信息和关于校正后的散焦模糊形状的信息来生成形状指定信息。接下来，在步骤S607中，整形单元705d将输入数据输入到CNN中，并生成校正了散焦模糊形状的估计图像。在步骤S602中，当将区域A指定为F1.4圆形模糊并且将区域B指定为F2.8高斯模糊时，可以生成如下估计图像，在该估计图像中，拍摄图像704b-1中的散焦模糊形状已被校正为指定形状。

接下来，在步骤S608中，通信器705a将估计图像发送到控制装置704。然后，在步骤S609中，通信器704a获取所发送的估计图像并将其存储在存储器704c中。

其他实施例

还可以通过读出并执行记录在存储介质(也可更完整地称为“非临时性计算机可读存储介质”)上的计算机可执行指令(例如，一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机，来实现本发明的实施例，并且，可以利用通过由所述系统或装置的所述计算机例如读出并执行来自所述存储介质的所述计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制所述一个或更多个电路执行上述实施例中的一个或更多个的功能的方法，来实现本发明的实施例。所述计算机可以包括一个或更多个处理器(例如，中央处理单元(CPU)，微处理单元(MPU))，并且可以包括分开的计算机或分开的处理器的网络，以读出并执行所述计算机可执行指令。所述计算机可执行指令可以例如从网络或所述存储介质被提供给计算机。所述存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)^TM)、闪存设备以及存储卡等中的一个或更多个。

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

各实施例可以提供能够在抑制机器学习模型的学习负荷和存储的数据量的增大的同时(根据用户的喜好)将拍摄图像中的散焦模糊形状校正为各种形状的图像处理方法。各实施例可以提供用于获得相同效果的非暂时性计算机可读存储介质、图像处理装置、图像处理系统和学习模型制造方法。

虽然参照示例性实施例对本发明进行了描述，但是应当理解，本发明并不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释，以使其涵盖所有这些变型例以及等同的结构和功能。

Claims

1.一种用于生成估计图像的图像处理方法，在所述估计图像中，校正了拍摄图像中的散焦模糊形状，其特征在于，所述图像处理方法包括：

第一步骤，获取输入数据，所述输入数据包括所述拍摄图像和形状指定信息，所述形状指定信息指定所述估计图像中的散焦模糊形状；以及

第二步骤，将所述输入数据输入到机器学习模型中并生成所述估计图像。

2.根据权利要求1所述的图像处理方法，其特征在于，所述形状指定信息包括指定散焦模糊的尺寸和类型中的至少一者的信息。

3.根据权利要求2所述的图像处理方法，其特征在于，所述尺寸和类型对应于虚拟透镜参数。

4.根据权利要求1所述的图像处理方法，其特征在于，基于所述拍摄图像的信号值来确定所述形状指定信息。

5.根据权利要求4所述的图像处理方法，其特征在于，基于所述拍摄图像的信号值的分布来确定所述形状指定信息。

6.根据权利要求1所述的图像处理方法，其特征在于，基于所述拍摄图像的散焦图来确定所述形状指定信息。

7.根据权利要求1所述的图像处理方法，其特征在于，所述形状指定信息具有空间分布。

8.根据权利要求1所述的图像处理方法，其特征在于，所述形状指定信息是至少一个信道的图，并且利用数值指示散焦模糊的尺寸和类型中的至少一者，并且

其中，所述数值被归一化。

9.根据权利要求1所述的图像处理方法，所述图像处理方法还包括：

第三步骤，获取与所述拍摄图像的替换区域相关的信息，并且利用所述估计图像来替换所述拍摄图像的所述替换区域。

10.根据权利要求9所述的图像处理方法，其特征在于，基于所述拍摄图像的信号值或散焦图来确定所述替换区域。

11.根据权利要求1所述的图像处理方法，其特征在于，所述输入数据还包括所述拍摄图像的散焦图或亮度饱和图。

12.根据权利要求1所述的图像处理方法，其特征在于，所述机器学习模型针对用于指定散焦模糊的尺寸和类型中的一者的第一形状指定信息、以及用于指定所述散焦模糊的尺寸和类型中的一者的不同于所述第一形状指定信息的第二形状指定信息，使用相同的权重。

13.一种非暂时性计算机可读存储介质，其存储用于使计算机执行根据权利要求1所述的图像处理方法的程序。

14.一种用于生成估计图像的图像处理装置，在所述估计图像中，校正了拍摄图像中的散焦模糊形状，所述图像处理装置包括：

获取器，其被构造为获取输入数据，所述输入数据包括所述拍摄图像和形状指定信息，所述形状指定信息指定所述估计图像中的散焦模糊形状；以及

生成器，其被构造为将所述输入数据输入到机器学习模型中并生成所述估计图像。

15.一种学习模型制造方法，其包括如下步骤：

获取针对相同被摄体具有不同模糊形状的训练图像和正解图像；

获取用于指定所述正解图像的散焦模糊形状的形状指定信息；以及

在机器学习模型处基于所述训练图像、所述正解图像和所述形状指定信息来进行学习。

16.一种图像处理装置，其包括：

第一获取器，其被构造为，获取针对相同被摄体具有不同模糊形状的训练图像和正解图像；

第二获取器，其被构造为，获取用于指定所述正解图像的散焦模糊形状的形状指定信息；以及

学习器，其被构造为，在机器学习模型处基于所述训练图像、所述正解图像和所述形状指定信息来进行学习。

17.一种图像处理系统，其包括彼此进行通信的第一装置和第二装置，

其特征在于，所述第一装置包括发送器，所述发送器被构造为向所述第二装置发送针对拍摄图像的处理执行请求，

其中，所述第二装置包括：

接收器，其被构造为接收所述请求；

获取器，其被构造为获取输入数据，所述输入数据包括所述拍摄图像和形状指定信息，所述形状指定信息用于指定估计图像的散焦模糊形状；以及

生成器，其被构造为，根据所述请求将所述输入数据输入到机器学习模型中，并生成所述估计图像，在所述估计图像中，校正了所述拍摄图像的散焦模糊形状。