CN114762004A

CN114762004A - 数据生成方法、数据生成装置、模型生成方法、模型生成装置及程序

Info

Publication number: CN114762004A
Application number: CN202080082236.8A
Authority: CN
Inventors: 李旻骏; 朱华春; 金阳华; 米辻泰山
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2019-11-28
Filing date: 2020-11-24
Publication date: 2022-07-15
Also published as: US20220292690A1; JP7482620B2; WO2021106855A1; JP2021086462A

Abstract

提供一种利用了对用户友好的分割图的数据生成技术。本公开的一个方面涉及一种数据生成方法，包括：一个以上的处理器基于第一数据的特征图和经分层的分割图，取得第二数据的步骤。

Description

数据生成方法、数据生成装置、模型生成方法、模型生成装置及程序

技术领域

本公开涉及一种数据生成方法、数据生成装置、模型生成方法、模型生成装置及程序。

背景技术

随着深度学习的进步，提出了各种神经网络架构和训练方法，并将其用于各种用途。例如，在图像处理的领域，通过利用深度学习，从而针对图像识别、物体检测、图像合成等取得了各种研究成果。

例如，在图像合成的领域，开发出GauGAN、Pix2PixHD等各种图像合成工具。使用这些工具，例如，能够将风景图像按照天空、山脉、海洋等进行分割，并且利用针对各个分割部标记有天空、山脉、海洋等的分割图进行图像合成。

发明内容

<本发明要解决的问题>

本公开的目的在于提供一种对用户友好的数据生成技术。

<用于解决问题的手段>

为了解决上述问题，本公开的一个方面涉及一种数据生成方法，包括：一个以上的处理器基于第一数据的特征图和经分层的分割图，取得第二数据的步骤。

本公开的另一个方面涉及一种模型生成方法，包括：一个以上的处理器利用作为训练对象的编码器从训练用的第一图像取得第一特征图的步骤；所述一个以上的处理器利用作为训练对象的解码器从所述第一特征图和训练用的经分层的分割图取得第二图像的步骤；所述一个以上的处理器将所述第一图像和所述训练用的经分层的分割图的第一对、以及所述第二图像和所述训练用的经分层的分割图的第二对中的任意一对输入至判别器，并根据基于所述判别器的判别结果确定的第一损失值对所述判别器的参数进行更新的步骤；以及所述一个以上的处理器确定用于表示所述第一图像与所述第二图像之间的特征量的差异的第二损失值，并根据所述确定的第二损失值对所述编码器和所述解码器的参数进行更新的步骤。

附图说明

图1是示出根据本公开的一个实施例的数据生成处理的示意图。

图2是示出根据本公开的一个实施例的数据生成装置的功能构成的框图。

图3是示出根据本公开的一个实施例的作为一个示例的经分层的分割图的图。

图4是示出根据本公开的一个实施例的作为一个示例的数据生成处理的图。

图5是示出根据本公开的一个实施例的使用分割图进行的特征图的转换处理的图。

图6是示出根据本公开的一个实施例的数据生成处理的变形例的图。

图7是示出根据本公开的一个实施例的数据生成处理的变形例的图。

图8是示出根据本公开的一个实施例的数据生成处理的变形例的图。

图9是示出根据本公开的一个实施例的数据生成处理的流程图。

图10是示出根据本公开的一个实施例的作为一个示例的用户界面的图。

图11是示出根据本公开的一个实施例的作为一个示例的用户界面的图。

图12是示出根据本公开的一个实施例的作为一个示例的用户界面的图。

图13是示出根据本公开的一个实施例的作为一个示例的用户界面的图。

图14是示出根据本公开的一个实施例的作为一个示例的用户界面的图。

图15是示出根据本公开的一个实施例的作为一个示例的用户界面的图。

图16是示出根据本公开的一个实施例的作为一个示例的用户界面的图。

图17是示出根据本公开的一个实施例的作为一个示例的用户界面的图。

图18是示出根据本公开的一个实施例的作为一个示例的用户界面的图。

图19是示出根据本公开的一个实施例的作为一个示例的用户界面的图。

图20是示出根据本公开的一个实施例的作为一个示例的训练装置的功能构成的框图。

图21是示出根据本公开的一个实施例的使用分割图进行的特征图的转换处理的图。

图22是示出根据本公开的一个实施例的分割模型的神经网络架构的图。

图23是示出根据本公开的一个实施例的训练处理的流程图。

图24是示出根据本公开的一个实施例的数据生成装置和训练装置的硬件构成的框图。

具体实施方式

以下，参照附图对本公开的实施方式进行说明。在以下的实施例中，公开了利用了分割图(segmentation map)的数据生成装置、以及对该数据生成装置的编码器和解码器进行训练的训练装置。

[本公开的概要]

如图1所示，根据本公开的实施例的数据生成装置100具有例如实现为神经网络等任意类型的机器学习模型的编码器、分割模型及解码器。数据生成装置100向用户提示使用编码器从输入图像生成的特征图和使用分割模型从输入图像生成的经分层的分割图(第一分割图)，并基于由用户编辑的经分层的分割图(与第一分割图不同的第二分割图)(在图示的示例中，将双耳从分割图的图像中删除)从解码器取得输出图像。该输出图像是通过将编辑完成的经分层的分割图的编辑内容反映到输入图像而生成的。

训练装置200利用在数据库300中存储的训练数据，对要提供给数据生成装置100的编码器和解码器进行训练，并将训练完成的编码器和解码器提供给数据生成装置100。例如，训练数据可以由后述的图像和经分层的分割图的一对图构成。

[数据生成装置]

参照图2～图5对根据本公开的一个实施例的数据生成装置100进行说明。图2是示出根据本公开的一个实施例的数据生成装置100的功能构成的框图。

如图2所示，数据生成装置100具有编码器110、分割模型120以及解码器130。

编码器110生成输入图像等的数据的特征图。编码器110由通过训练装置200而得到的训练完成的神经网络构成，该神经网络例如可以实现为卷积神经网络。

分割模型生成输入图像等的数据的经分层的分割图。在经分层的分割图中，例如可以针对图像的各个像素赋予1个以上的标签。例如，针对如图2所示的角色的输入图像，在额前头发的区域中，被额前头发覆盖的脸部被隐藏，并且在其后方进一步存在背景。经分层的分割图由表示额前头发的层、表示脸部的层以及表示背景的层叠加而成的层结构构成。在此情况下，经分层的分割图的层结构可以由如图3所示的数据结构来表现。例如，显示背景的区域的像素由“1，0，0”表示。另外，在背景上叠加有脸部的区域的像素由“1，1，0”表示。另外，在背景上叠加有头发的区域的像素由“1，0，1”表示。此外，在背景上叠加有脸部，并进一步在脸部上叠加有头发的区域的像素由“1，1，1”表示。例如，各个层通过从叠加在最上位的对象(在图示的角色中为头发)到叠加在最下位的对象(在图示的角色中为背景)的层结构保存。通过这样的经分层的分割图，在用户以删除额前头发的方式对经分层的分割图进行编辑的情况下，下一层的脸部会显示在已删除的额前头发区域中。

需要说明的是，分割模型120由通过训练装置200得到的训练完成的神经网络构成，该神经网络例如可以实现为后述的U-Net型等的卷积神经网络。另外，分割的生成和分层可以通过一个模型来进行，也可以使用不同的模型等来进行。

解码器130从经分层的分割图和特征图生成输出图像。在此，可以生成将经分层的分割图中的编辑内容反映到输入图像而得到的该输出图像。例如，在用户将输入图像的经分层的分割图的图像的眉毛删除，并以将删除部分替换为下一层的脸部(脸部的皮肤)的方式对经层化的分割图进行编辑的情况下，解码器130生成将输入图像的眉毛替换为脸部的输出图像。

在一个实施例中，如图4所示，将由编码器110生成的特征图与由分割模型120生成的经分层的分割图池化(例如平均池化等)，导出特征向量。利用编辑完成的经分层的分割图对该导出的特征向量进行扩展，导出经编辑的特征图。将经编辑的特征图输入至解码器130，生成将针对编辑区域的编辑内容反映到输入图像的相应区域中的输出图像。

具体而言，如图5所示，当编码器110生成如图所示的输入图像的特征图，分割模型120生成如图所示的经分层的分割图时，针对生成的特征图和经分层的分割图的最上位层执行平均池化，导出如图所示的特征向量。然后，利用如图所示的编辑完成的经分层的分割图对导出的特征向量进行扩展，导出用于输入到解码器130的如图所示的特征图。

解码器130由通过训练装置200得到的训练完成的神经网络构成，该神经网络例如可以实现为卷积神经网络。

[变形例]

接着，参照图6～图8，对根据本公开的一个实施例的数据生成装置100的数据生成处理的各种变形例进行说明。

图6是示出根据本公开的一个实施例的数据生成装置100的数据生成处理的变形例的图。如图6所示，分割模型120生成输入图像的经分层的分割图，解码器130如图所示从与输入图像不同的参考图像(第三数据)的特征图、以及从输入图像生成的经分层的分割图，生成将经分层的分割图的最上位层的内容反映到参考图像的输出图像。

参考图像是为了供用户使用而由数据生成装置100预先保存的图像，用户可以将由自己提供的输入图像与参考图像合成。在图示的实施例中，虽然经分层的分割图未被编辑，但是也可以对要与参考图像合成的经分层的分割图进行编辑。在此情况下，可以通过将针对编辑完成的经分层的分割图的编辑区域的编辑内容反映到参考图像的相应区域中来生成输出图像。

根据本变形例，将输入图像输入至分割模型120，取得经分层的分割图。基于由编码器110生成的参考图像的特征图、以及该经分层的分割图或针对该经分层的分割图的编辑完成的经分层的分割图，从解码器130生成输出图像。

图7是示出根据本公开的一个实施例的数据生成装置100的数据生成处理的另一个变形例的图。如图7所示，分割模型120生成输入图像和参考图像的各个经分层的分割图，解码器130如图所示从与输入图像不同的参考图像的特征图、以及针对2个经分层的分割图中的一者或两者由用户进行编辑的经分层的分割图，生成将编辑完成的经分层的分割图的内容反映到参考图像的输出图像。需要说明的是，关于2个经分层的分割图的使用，如图8所示，例如可以通过参考图像的经分层的分割图对参考图像的特征图进行池化，并通过输入图像的经分层的分割图对导出的特征向量进行扩展。

根据该变形例，将输入图像和参考图像输入至分割模型120，并取得各自的经分层的分割图。将由编码器110生成的参考图像的特征图、以及针对该经分层的分割图的编辑完成的经分层的分割图中的一者或两者输入至解码器130，并生成输出图像。

在此，在使用参考图像的情况下，无需将从参考图像中提取的特征的全部均用于输出图像的生成，而是可以仅利用一部分特征(例如头发等)。另外，可以将参考图像的特征图与输入图像的特征图的任意组合(例如加权平均、仅右半部分的头发与左半部分的头发的特征的组合)用于输出图像的生成。另外，可以将多个参考图像用于输出图像的生成。

虽然在上述的实施例中着眼于针对图像的生成处理来进行说明，但是根据本公开的处理对象的数据不限于此，根据本公开的数据生成装置100可以应用于其他任意的适当的数据格式。

[数据生成处理]

接着，参照图9，对根据本公开的一个实施例的数据生成处理进行说明。该数据生成处理由上述的数据生成装置100实现，例如可以通过由数据生成装置100的1个以上的处理器或处理电路执行程序或指令来实现。图9是示出根据本公开的一个实施例的数据生成处理的流程图。

如图9所示，在步骤S101中，数据生成装置100从输入图像取得特征图。具体而言，数据生成装置100将从用户等接收的输入图像输入至编码器110，并从编码器110取得输出图像。

在步骤S102中，数据生成装置100从输入图像取得经分层的分割图。具体而言，数据生成装置100将输入图像输入至分割模型120，从分割模型120取得经分层的分割图。

在步骤S103中，数据生成装置100取得编辑完成的经分层的分割图。例如，当将在步骤S102中生成的经分层的分割图提示给用户终端，并且用户在用户终端上对经分层的分割图进行编辑时，数据生成装置100从用户终端接收编辑完成的经分层的分割图。

在步骤S104中，数据生成装置100从特征图和编辑完成的经分层的分割图取得输出图像。具体而言，数据生成装置100对在步骤S101中取得的特征图和在步骤S102中取得的经分层的分割图执行平均池化等池化，导出特征向量。然后，数据生成装置100通过在步骤S103中取得的编辑完成的经分层的分割图对特征向量进行扩展，将经扩展的特征图输入至解码器130，并从解码器130取得输出图像。

需要说明的是，在上述实施例中，虽然对特征图和经分层的分割图执行了池化，但是本公开不限于此。例如，编码器110可以是能够提取图像的各个物体和/或部分的特征的任意的合适的模型。例如，编码器110可以是Pix2PixHD的编码器，并且可以在最后的特征图中针对每个实例执行最大池化、最小池化、注意力池化(attention pooling)等，而非平均池化。另外，可以利用Pix2PixHD的编码器，通过CNN等在最后的特征图中针对每个实例提取特征向量。

[用户界面]

接着，参照图10～图19，对由根据本公开的一个实施例的数据生成装置100提供的用户界面进行说明。该用户界面例如可以实现为由数据生成装置100提供给用户终端的操作画面。

图10所示的用户界面画面在由用户选择参考图像时显示。即，当用户选择图示的参考图像时，将能够对所选择的图像进行编辑的部分显示为层列表，并显示基于从参考图像生成的编辑前的经分层的分割图或经编辑的经分层的分割图生成的输出图像。换言之，在本实施方式中，将分割按照进行了分割的各部分进行分层。这样一来，经分层的分割图包括至少2个以上的层，并且能够在显示装置上对各个层的显示和隐藏进行切换。由此，如后所述，能够容易地进行各部分的分割图的编辑。

如图11所示，当用户关注经分层的分割图的眼睛的部分，并从层列表中选择眼白的层时，显示露出眼白的层的经分层的分割图。

另外，如图12所示，当用户关注经分层的分割图的眼睛的部分，从层列表中选择睫毛、虹膜及眼白，并进一步将该些部分隐藏时，该些部分被隐藏，并且显示露出下一层的脸部的经分层的分割图。

另外，如图13所示，当用户从层列表中选择虹膜，并进一步选择矩形框选择时，显示露出矩形框的虹膜部分的经分层的分割图。此外，如图14所示，用户还可以移动经分层的分割图的矩形框的虹膜部分。此外，如图15所示，当用户按下应用按钮时，显示对编辑完成的经分层的分割图进行了反映的输出图像。

另外，如图16所示，当用户为了拉长角色的头发而如图所示对经分层的分割图进行编辑时，拉长的头发会覆盖衣服。当用户为了防止衣服被拉长的头发覆盖而如图17所示选择层列表中的衣服的层时，如图所示，以使衣服不被拉长的头发覆盖的方式对经分层的分割图进行编辑。

在此，如图18所示，用户可以从由数据生成装置100保存的多个参考图像中选择所需的图像。例如，如图19所示，也可以将选择的参考图像的特征应用于输入图像，并生成输出图像。

[训练装置(模型生成装置)]

接着，参照图20～图22，对根据本公开的一个实施例的训练装置200进行说明。训练装置200利用在数据库300中存储的训练数据，以端到端(end-to-end)的方式对作为训练对象的编码器210、分割模型220、解码器230及判别器240进行训练。图20是示出根据本公开的一个实施例的训练装置200的框图。

如图20所示，训练装置200利用训练用的图像和经分层的分割图，通过基于GANs(Generative Adversarial Networks：生成对抗网络)的端到端方式对作为训练对象的编码器210、分割模型220及解码器230进行训练，并将训练完成后的编码器210、分割模型220及解码器230作为训练完成的编码器110、分割模型120及解码器130提供给数据生成装置100。

具体而言，训练装置200将训练用的图像输入至编码器210，取得特征图，并基于取得的特征图和训练用的经分层的分割图从解码器230取得输出图像。具体而言，如图21所示，训练装置200对从编码器210取得的特征图和训练用的经分层的分割图执行平均池化等池化，并导出特征向量。然后，训练装置200通过该经分层的分割图对导出的特征向量进行扩展，将导出的特征图输入至解码器230，并从解码器230取得输出图像。

然后，训练装置200将从解码器230生成的输出图像和训练用的经分层的分割图的对、以及输入图像和训练用的经分层的分割图的对中的任意一对输入至判别器240，并基于判别器240的判别结果取得损失值。具体而言，可以在判别器240对输入的对正确地进行了判别的情况下，将损失值设定为零等，并在判别器240对输入的对错误地进行了判别的情况下，将损失值设定为非零的正值。或者，训练装置200可以将从解码器230生成的输出图像和输入图像中的任意一者输入至判别器240，并基于判别器240的判别结果取得损失值。

另一方面，训练装置200从输出图像和输入图像的特征图取得用于表示特征量的差异的损失值。可以在特征量的差异较小的情况下，将该损失值设定得较小，而在特征量的差异较大的情况下，将该损失值设定得较大。

训练装置200基于取得的2个损失值对编码器210、解码器230及判别器240的各个参数进行更新。如果满足针对准备的所有训练数据均完成了上述步骤的执行等预定的结束条件，则训练装置200将最终获得的编码器210和解码器230作为训练完成的编码器110和解码器130提供给数据生成装置100。

另一方面，训练装置200利用训练用的图像和经分层的分割图的对，对分割模型220进行训练。例如，可以通过以手动的方式对图像中包含的各个对象进行分割，并对各个分割部分赋予该对象的标记，从而创建训练用的经分层的分割图。

例如，分割模型220可以具有如图22所示的U-Net型的神经网络架构。训练装置200将训练用的图像输入至分割模型220，并取得经分层的分割图。训练装置200根据从分割模型220取得的经分层的分割图与训练用的经分层的分割图之间的误差对分割模型220的参数进行更新。如果满足针对准备的所有训练数据均完成了上述步骤的执行等预定的结束条件，则训练装置200将最终获得的分割模型220作为训练完成的分割模型120提供给数据生成装置100。

需要说明的是，可以预先训练作为训练对象的编码器210、分割模型220及解码器230中的1个以上。在此情况下，能够利用较少的训练数据对编码器210、分割模型220及解码器230进行训练。

[训练处理(模型生成处理)]

接着，参照图23，对根据本公开的一个实施例的训练处理进行说明。该训练处理由上述的训练装置200实现，例如可以通过由训练装置200的1个以上的处理器或处理电路执行程序或指令来实现。图23是示出根据本公开的一个实施例的训练处理的流程图。

如图23所示，在步骤S201中，训练装置200从训练用的输入图像取得特征图。具体而言，训练装置200将训练用的输入图像输入至作为训练对象的编码器210，并从编码器210取得特征图。

在步骤S202中，训练装置200从取得的特征图和训练用的经分层的分割图取得输出图像。具体而言，训练装置200对从编码器210取得的特征图和训练用的经分层的分割图执行平均池化等池化，并导出特征向量。然后，训练装置200通过训练用的经分层的分割图对导出的特征向量进行扩展，并导出特征图。然后，训练装置200将导出的特征图输入至作为训练对象的解码器230，并从解码器230取得输出图像。

在步骤S203中，训练装置200将输入图像和训练用的经分层的分割图的对、或输出图像和训练用的经分层的分割图的对中的任意一者输入至作为训练对象的判别器240，并使判别器240对输入的对是否是输入图像和训练用的经分层的分割图的对、以及输出图像和训练用的经分层的分割图的对中的任意一者进行判别。训练装置200根据判别器240的判别结果的正确与否确定判别器240的损失值，并根据确定的损失值对判别器240的参数进行更新。

在步骤S204中，训练装置200根据输入图像与输出图像之间的特征图的误差确定损失值，并根据确定的损失值对编码器210和解码器230的参数进行更新。

在步骤S205中，训练装置200对是否满足结束条件进行判断，在满足结束条件的情况下(S205：是)，结束该训练处理。另一方面，在不满足结束条件的情况下(S205：否)，训练装置200针对下一个训练数据执行步骤S201～S205。在此，结束条件可以是针对准备的所有训练数据均执行了步骤S201～S205等。

[硬件构成]

上述实施方式中的各装置(数据生成装置100或训练装置200)的一部分或全部可以由硬件构成，也可以由CPU(Central Processing Unit)或GPU(Graphics ProcessingUnit)等执行的软件(程序)的信息处理构成。在由软件的信息处理构成的情况下，可以通过用于实现上述的实施方式中各装置的至少一部分功能的软件存储在软盘、CD-ROM(CompactDisc-Read Only Memory)或USB(Universal Serial Bus)存储器等非临时的存储介质(非临时的计算机可读介质)中，并将其加载到计算机中，来执行软件的信息处理。另外，可以经由通信网络下载该软件。此外，可以通过将软件安装在ASIC(Application SpecificIntegrated Circuit)或FPGA(Field Programmable Gate Array)等电路中，来通过硬件执行信息处理。

对于用于存储软件的存储介质的类型并无限定。存储介质不限于磁盘或光盘等可移动存储介质，也可以是硬盘或存储器等固定型的存储介质。另外，存储介质可以设置在计算机内部，也可以设置在计算机外部。

图24是示出上述实施方式中的各装置(数据生成装置100或训练装置200)的硬件构成的一个示例的框图。作为一个示例，各设备包括处理器101、主存储装置102(存储器)、辅助存储装置103(存储器)、网络接口104以及设备接口105，并且各部分可以实现为经由总线106连接的计算机107。

虽然图24的计算机107包括1个各构成要素，但是也可以包括多个相同的构成要素。另外，虽然在图24中示出了1台计算机107，但是也可以将软件安装在多台计算机中，并由该多台计算机分别执行软件的相同或不同的一部分处理。在此情况下，其可以是计算机分别经由网络接口104等进行通信并执行处理的分布式计算的形态。换言之，上述实施方式中的各装置(数据生成装置100或训练装置200)可以构成为通过由1台或多台计算机对存储在1个或多个存储装置中的指令进行执行来实现功能的系统。另外，其可以是利用在云端设置的1台或多台计算机对从终端发送的信息进行处理，并将该处理结果发送至终端的构成。

上述实施方式中的各装置(数据生成装置100或训练装置200)的各种运算可以使用1个或多个处理器、或使用经由网络连接的多台计算机，通过并行处理来执行。另外，可以将各种运算分别配到处理器内的多个运算核心，并通过并行处理来执行。另外，本公开的处理、手段等的一部分或全部可以通过设置在能够经由网络与计算机107进行通信的云端的处理器和存储装置中的至少一者来执行。如上所述，上述实施方式中的各装置可以是由1台或多台计算机进行的并行计算的形态。

处理器101可以是包括计算机的控制装置和运算装置的电子电路(处理电路、Processing circuit、Processing circuitry、CPU、GPU、FPGA、ASIC等)。另外，处理器101可以是包括专用的处理电路的半导体装置等。处理器101不限于使用电子逻辑元件的电子电路，也可以通过使用光逻辑元件的光电路来实现。另外，处理器101可以包括基于量子计算的运算功能。

处理器101能够基于从计算机107的内部结构的各装置等输入的数据或软件(程序)进行运算处理，并将运算结果或控制信号输出至各装置等。处理器101可以通过执行计算机107的OS(Operating System)或应用程序等，从而对构成计算机107的各构成要素进行控制。

上述实施方式中的各装置(数据生成装置100或训练装置200)可以由1个以上的处理器101来实现。在此，处理器101可以是指布置在1个芯片上的1个或多个电子电路，也可以是指布置在2个以上的芯片或2个以上的器件上的1个或多个电子电路。在使用多个电子电路的情况下，各电子电路可以通过有线或无线的方式进行通信。

主存储装置102是对由处理器101执行的指令和各种数据等进行存储的存储装置，并通过处理器101将存储在主存储装置102中的信息读出。辅助存储装置103是主存储装置102以外的存储装置。需要说明的是，该些存储装置是指能够存储电子信息的任意的电子元件，并且可以是半导体的存储器。半导体的存储器可以是易失性存储器、非易失性存储器中的任意一者。用于在上述实施方式中的各装置(数据生成装置100或训练装置200)中存储各种数据的存储装置可以由主存储装置102或辅助存储装置103实现，也可以由内置在处理器101内的内置存储器来实现。例如，上述实施方式中的存储部可以由主存储装置102或辅助存储装置103来实现。

针对1个存储装置(存储器)，可以连接(耦合)多个处理器，也可以连接单个处理器。针对1个处理器，可以连接(耦合)多个存储装置(存储器)。在上述实施方式中的各装置(数据生成装置100或训练装置200)由至少1个存储装置(存储器)和与该至少1个存储装置(存储器)连接(耦合)的多个处理器构成的情况下，可以包括多个处理器之中的至少1个处理器与至少1个存储装置(存储器)连接(耦合)的构成。另外，该构成可以通过包括在多台计算机中的存储装置(存储器)和处理器来实现。此外，可以包括存储装置(存储器)与处理器(例如包括L1高速缓存和L2高速缓存的高速缓存存储器)为一体的构成。

网络接口104是用于通过无线或有线的方式连接到通信网络108的接口。作为网络接口104，可以使用符合现有的通信标准的接口等适当的接口。可以通过网络接口104，与经由通信网络108连接的外部装置109A进行信息的交换。需要说明的是，通信网络108可以是WAN(Wide Area Network)、LAN(Local Area Network)、PAN(Personal Area Network)等中的任意一者或其组合，并且可以在计算机107与外部装置109A之间进行信息的交换。作为WAN的一个示例包括互联网等，作为LAN的一个示例，包括IEEE802.11或以太网(注册商标)等，作为PAN的一个示例，包括Bluetooth(注册商标)、NFC(Near Field Communication)等。

设备接口105是与外部装置109B直接连接的USB等接口。

外部装置109A是经由网络与计算机107连接的装置。外部装置109B是直接与计算机107连接的装置。

作为一个示例，外部装置109A或外部装置109B可以是输入装置。输入装置例如是照相机、麦克风、动作捕捉装置、各种传感器、键盘、鼠标、触摸面板等设备，并且将取得的信息提供给计算机107。另外，其可以是包括个人计算机、平板终端或智能手机等输入部、存储器及处理器的设备。

另外，作为一个示例，外部装置109A或外部装置109B可以是输出装置。输出装置例如可以是LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma DisplayPanel)或有机EL(Electro Luminescence)面板等显示装置，也可以是输出声音等的扬声器等。另外，其可以是包括个人计算机、平板终端或智能手机等输出部、存储器及处理器的设备。

另外，外部装置109A或外部装置109B可以是存储装置(存储器)。例如，外部装置109A可以是网络存储设备等，外部装置109B可以是HDD等存储设备。

另外，外部装置109A或外部装置109B可以是具有上述实施方式中的各装置(数据生成装置100或训练装置200)的构成要素的一部分功能的装置。换言之，计算机107可以发送或接收外部装置109A或外部装置109B的处理结果的一部分或全部。

在本说明书(包括权利要求)中，使用“a、b及c中的至少一者(一个)”或“a、b或c中的至少一者(一个)”的表述(包括类似的表述)的情况下，包括a、b、c、a-b、a-c、b-c、或a-b-c中的任意一者。另外，如a-a、a-b-b、a-a-b-b-c-c等，还可以针对任意一个要素包括多个实例。此外，如a-b-c-d，还包括增加具有d等的除了列出的要素(a、b及c)以外的其他要素。

在本说明书(包括权利要求)中，在使用“以数据作为输入/基于/根据/根据/响应于数据”等表述(包括类似的表述)的情况下，除非另有说明，否则包括使用各种数据本身作为输入的情况、或将对各种数据进行某种处理而得到的数据(例如，加了噪声的数据、经归一化的数据、各种数据的中间表述等)作为输入的情况。另外，在记载有“基于/根据/响应于数据”获得某些结果的内容的情况下，可以包括仅基于数据获得该结果的情况、以及还受到该数据以外的其他数据、因素、条件和/或状态等的影响下获得结果的情况。另外，在记载有“输出数据”的内容的情况下，除非另有说明，否则还包括使用各种数据本身作为输出的情况，或将对各种数据进行某种处理而得到的数据(例如，加了噪声的数据、经归一化的数据、各种数据的中间表述等)作为输出的情况。

当本说明书(包括权利要求)中，在使用术语“连接(connected)”和“耦合(coupled)”的情况下，其意图表示还包括直接的连接/耦合、间接的连接/耦合、电学上的(electrically)连接/耦合、通信上的(communicatively)连接/耦合、功能上的(operatively)连接/耦合、物理上的(physically)连接/耦合等中的任意一者的非限定性的术语。虽然应当根据使用该术语的上下文对该术语进行适当解释，但是应当非限定地解释为在该术语中包括并非有意或自然排除的连接/耦合的形态。

在本说明书(包括权利要求)中，在使用表述“将A以B的方式构成(A configuredto B)”的情况下，可以包括要素A的物理结构具有能够执行动作B的构成，并且要素A的永久(permanent)或临时(temporary)的设置(setting/configuration)被设置(configured/set)为实际执行动作B。例如，在要素A是通用处理器的情况下，该处理器具有能够执行动作B的硬件构成，并且可以通过永久(permanent)或临时(temporary)的程序(指令)的设置，被设置(configured)为实际执行动作B。另外，在要素元件A是专用处理器或专用运算电路等的情况下，该处理器的电路结构可以被构建(implemented)为实际执行动作B，而与是否实际附带了控制指令和数据无关。

在本说明书(包括权利要求)中，在使用表示含有或拥有的术语(例如“包括(comprising/including)”和“具有(having)”等)的情况下，意图表示包含或拥有由该术语的宾语所表示的对象物以外的对象的情况的开放式(open-ended)的术语。在该些表示包含或拥有的术语的宾语并非指定数量或暗示单数的表述(以a或an作为冠词的表述)的情况下，该表述应当被解释为不限于特定数量。

在本说明书(包括权利要求)中，即使在某些地方使用“1个或多个(one or more)”或“至少1个(at least one)”等表述，而在其他地方使用未指定数量或暗示单数的表述(以a或an作为冠词的表述)，后者的表述并非意图是指“1个”。一般而言，未指定数量或暗示单数的表述(以a或an作为冠词的表述)应当被解释为并非限定于特定数量。

在本说明书中，在记载了针对某些实施例的特定构成可以获得特定效果(advantage/result)的内容的情况下，除非另有原因，否则应当理解为针对具有该构成的另外1个或多个实施例也能够获得该效果。但是，应该理解为该效果的有无一般取决于各种因素、条件和/或状态等，而非通过该构成必然能够获得该效果。该效果仅是在满足各种因素、条件和/或状态时通过实施例中记载的该构成而获得，并且在与定义该构成或类似的构成的权利要求相关的发明中，并非必然能够获得该效果。

在本说明书(包括权利要求书)中，在使用“最大化(maximize)”等术语的情况下，包括求出全局的最大值、求出全局的最大值的近似值、求出局部的最大值、以及求出局部的最大值的近似值，并且应当根据使用该术语的上下文适当地进行解释。另外，包括在概率上或启发式地求出该些最大值的近似值。同样地，在使用“最小化(minimize)”等术语的情况下，包括求出全局的最小值、求出全局的最小值的近似值、求出局部的最小值、以及求出局部的最小值的近似值，并且应当根据使用该术语的上下文适当地进行解释。另外，包括在概率上或启发式地求出该些最小值的近似值。同样地，在使用“优化(optimize)”等术语的情况下，包括求出全局的最优值、求出全局的最优值的近似值、求出局部的最优值、以及求出局部的最优值的近似值，并且应当根据使用该术语的上下文适当地进行解释。另外，包括在概率上或启发式地求出该些最优值的近似值。

在本说明书(包括权利要求)中，在由多个硬件执行预定处理的情况下，各个硬件可以协作地执行预定处理，也可以由一部分硬件执行全部预定处理。另外，可以由一部分硬件执行预定处理的一部分，并由另外的硬件执行预定处理的其余部分。在本说明书(包括权利要求)中，使用“1个或多个硬件进行第一处理，并由所述1个或多个硬件进行第二处理”的表述的情况下，进行第一处理的硬件和进行第二处理的硬件可以相同，也可以不同。换言之，进行第一处理的硬件和进行第二处理的硬件可以包括在所述1个或多个硬件中。需要说明的是，硬件可以包括电子电路、包括电子电路的装置等。

在本说明书(包括权利要求)中，在多个存储装置(存储器)对数据进行存储的情况下，多个存储装置(存储器)之中的每个存储装置(存储器)可以仅对数据的一部分进行存储，也可以对数据的全部进行存储。

虽然以上对本公开的实施方式详细地进行了说明，但是本公开不限于上述各个实施方式。可以在不背离权利要求书所规定的内容及从其等同范围导出的本发明的概念性的思想和宗旨的范围内，进行各种增加、改变、替换、部分删除等。例如，在上述所有实施方式中，在使用数值或数学公式进行说明的情况下，其仅作为一个示例示出，并且不限于此。另外，实施方式中的各动作的顺序仅作为一个示例示出，并且不限于此。

本申请以于2019年11月28日提交的日本发明专利申请2019-215846号作为要求优先权的基础，并在本申请中援引该日本发明专利申请2019-215846的全部内容。

符号说明

100 数据生成装置；

101 处理器；

102 主存储装置；

103 辅助存储装置；

104 网络接口；

105 设备接口；

106 总线；

108 通信网络；

109A、109B 外部装置；

110、210 编码器；

120、220 分割模型；

130、230 解码器；

200 训练装置；

240 判别器。

Claims

1.一种数据生成方法，包括：

一个以上的处理器基于第一数据的特征图和经分层的分割图，取得第二数据的步骤。

2.根据权利要求1所述的数据生成方法，其中，

所述第一数据和所述第二数据分别是图像。

3.根据权利要求2所述的数据生成方法，还包括：

所述一个以上的处理器使用解码器，从通过编码器取得的第一图像的第一特征图和所述经分层的分割图，取得第二图像的步骤。

4.根据权利要求3所述的数据生成方法，还包括：

所述一个以上的处理器利用分割模型从所述第一图像取得所述经分层的分割图的步骤。

5.根据权利要求3或4所述的数据生成方法，还包括：

所述一个以上的处理器从第三图像取得所述经分层的分割图的步骤。

6.根据权利要求3至5中任一项所述的数据生成方法，还包括：

所述一个以上的处理器接受针对所述经分层的分割图的编辑的步骤，

其中，在取得所述第二图像的步骤中，利用所述解码器从所述第一特征图和所述经编辑的经分层的分割图取得所述第二图像。

7.根据权利要求6所述的数据生成方法，其中，

所述第二图像是通过将针对所述经编辑的经分层的分割图的编辑内容反映到所述第一图像而生成的。

8.根据权利要求3至7中任一项所述的数据生成方法，其中，

在取得所述第二图像的步骤中，通过针对所述第一特征图和第一经分层的分割图执行池化而导出特征向量，通过利用第二经分层的分割图对所述导出的特征向量进行扩展而导出第二特征图，将所述导出的第二特征图输入至所述解码器，并从所述解码器取得所述第二图像。

9.一种数据生成装置，包括：

一个以上的存储器；以及

一个以上的处理器，

其中，所述一个以上的处理器基于第一数据的特征图和经分层的分割图，取得第二数据。

10.根据权利要求9所述的数据生成装置，其中，

所述第一数据和所述第二数据分别是图像。

11.根据权利要求10所述的数据生成装置，其中，

所述一个以上的处理器还使用解码器，从通过编码器取得的第一图像的第一特征图和所述经分层的分割图，取得第二图像。

12.根据权利要求11所述的数据生成装置，其中，

所述一个以上的处理器还利用分割模型从所述第一图像取得所述经分层的分割图。

13.根据权利要求11或12所述的数据生成装置，其中，

所述一个以上的处理器还从第三图像取得所述经分层的分割图。

14.根据权利要求11至13中任一项所述的数据生成装置，其中，

所述一个以上的处理器还接受针对所述经分层的分割图的编辑，

所述一个以上的处理器利用所述解码器从所述第一特征图和所述经编辑的经分层的分割图取得所述第二图像。

15.根据权利要求14所述的数据生成装置，其中，

16.根据权利要求11至15中任一项所述的数据生成装置，其中，

所述一个以上的处理器通过针对所述第一特征图和第一经分层的分割图执行池化而导出特征向量，通过利用第二经分层的分割图对所述导出的特征向量进行扩展而导出第二特征图，将所述导出的第二特征图输入至所述解码器，并从所述解码器取得所述第二图像。

17.根据权利要求9至16中任一项所述的数据生成装置，其中，

所述经分层的分割图至少包括第一层和第二层，并且能够在显示装置上对所述第一层和所述第二层的显示和隐藏进行切换。

18.一种程序，使一个以上的计算机执行以下处理：

基于第一数据的特征图和经分层的分割图，取得第二数据的处理。

19.一种模型生成方法，包括：

一个以上的处理器利用作为训练对象的编码器从训练用的第一图像取得第一特征图的步骤；

所述一个以上的处理器利用作为训练对象的解码器从所述第一特征图和训练用的经分层的分割图取得第二图像的步骤；

所述一个以上的处理器将所述第一图像和所述训练用的经分层的分割图的第一对、以及所述第二图像和所述训练用的经分层的分割图的第二对中的任意一对输入至判别器，并根据基于所述判别器的判别结果确定的第一损失值对所述判别器的参数进行更新的步骤；以及

所述一个以上的处理器确定用于表示所述第一图像与所述第二图像之间的特征量的差异的第二损失值，并根据所述确定的第二损失值对所述编码器和所述解码器的参数进行更新的步骤。

20.一种模型生成装置，包括：

一个以上的存储器；以及

一个以上的处理器，

其中，所述一个以上的处理器

利用作为训练对象的编码器从训练用的第一图像取得第一特征图；

利用作为训练对象的解码器从所述第一特征图和训练用的经分层的分割图取得第二图像；

将所述第一图像和所述训练用的经分层的分割图的第一对、以及所述第二图像和所述训练用的经分层的分割图的第二对中的任意一对输入至判别器，并根据基于所述判别器的判别结果确定的第一损失值对所述判别器的参数进行更新；并且

确定用于表示所述第一图像与所述第二图像之间的特征量的差异的第二损失值，并根据所述确定的第二损失值对所述编码器和所述解码器的参数进行更新。

21.一种程序，使一个以上的计算机执行以下处理：

利用作为训练对象的编码器从训练用的第一图像取得第一特征图的处理；

利用作为训练对象的解码器从所述第一特征图和训练用的经分层的分割图取得第二图像的处理；

将所述第一图像和所述训练用的经分层的分割图的第一对、以及所述第二图像和所述训练用的经分层的分割图的第二对中的任意一对输入至判别器，并根据基于所述判别器的判别结果确定的第一损失值对所述判别器的参数进行更新的处理；以及

确定用于表示所述第一图像与所述第二图像之间的特征量的差异的第二损失值，并根据所述确定的第二损失值对所述编码器和所述解码器的参数进行更新的处理。