CN112534471A

CN112534471A - 图像生成装置、机器人训练系统、图像生成方法以及图像生成程序

Info

Publication number: CN112534471A
Application number: CN201980051700.4A
Authority: CN
Inventors: 傅健忠; 山口雄纪; 大川洋平; 林剣之介; 齐藤千智; 柴田义也
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2018-11-29
Filing date: 2019-10-18
Publication date: 2021-03-19
Anticipated expiration: 2039-10-18
Also published as: JP6915605B2; EP3889887A1; CN112534471B; US20210331311A1; JP2020082315A; WO2020110505A1; EP3889887A4

Abstract

本发明的图像生成装置基于输入图像来生成学习用图像，所述学习用图像用于训练对于对象物进行规定作业的机器人的动作，所述图像生成装置包括：第一图像获取部，获取第一图像，所述第一图像是拍摄包含所述机器人而不含所述对象物的现实作业空间所得；第二图像获取部，获取第二图像，所述第二图像描绘有包含与所述机器人对应的虚拟机器人、及与所述对象物对应的虚拟对象物的虚拟作业空间；以及学习器，通过机器学习而被训练成，将所述第一图像及第二图像作为输入，而输出第三图像，所述第三图像是对所述第二图像进行了转换，以使所述第二图像中所含的至少所述虚拟机器人近似于所述第一图像中所含的所述机器人。

Description

图像生成装置、机器人训练系统、图像生成方法以及图像生成程序

技术领域

本发明涉及一种图像生成装置、机器人训练系统、图像生成方法以及图像生成程序。

背景技术

近年来，作为机器人的控制方法，提出了一种被称作视觉伺服系统(visual servosystem)的控制方法。例如，在握持对象物的机器人的控制中，由摄像机等视觉传感器来获取包含对象物的图像以作为输入图像，基于根据所述图像而确定的机器人与对象物的位置关系来生成控制命令，所述控制命令用于使机器人运行以握持对象物。并且，为了生成此种控制命令，而进行用于生成适合于所获取的图像的控制命令的机器学习(例如专利文献1)。

此外，为了进行如上所述的机器学习，需要教学数据，所述教学数据具有映照出各种种类的对象物或者以各种位置、方向配置的对象物与机器人的位置关系的学习用图像、及用于机器人对映照在各学习用图像上的对象物进行作为目标的握持作业的控制命令，一般而言，所述教学数据的数量越多，则能够进行精度越高的学习。因此，作为学习用图像，例如要求映照有种类不同的对象物的大量图像、或者对象物与机器人的位置关系不同的大量图像。

现有技术文献

专利文献

专利文献1：日本专利特开2017-185577号公报

发明内容

发明所要解决的问题

作为学习用图像，例如除了使用对现实作业空间拍摄的拍摄图像以外，还能够使用描绘有模拟出机器人或对象物的虚拟作业空间的虚拟图像。但是，拍摄大量配置有各种对象物的现实作业空间的图像而生成拍摄图像并不容易。另一方面，如上所述的虚拟图像能够由计算机来生成，因此虽能容易地生成大量图像，但由于是人工生成的图像，因此无法完全描绘出映照在拍摄图像上的机器人之类的实际的机器人。因此，若使用虚拟图像，则例如有时无法准确地确定机器人与对象物的位置关系，此种情况下，有可能无法输出用于作为目标的握持动作的控制命令。

本发明是为了解决所述问题而完成，其目的在于提供一种图像生成装置、机器人训练系统、图像生成方法以及图像生成程序，能够基于输入图像而容易地生成学习用图像，所述学习用图像适合于训练对于对象物进行规定作业的机器人的动作。

解决问题的技术手段

所述图像生成装置中，所述学习器还包括：生成器，生成所述第三图像；第四图像获取部，基于所述第二图像来获取对所述第一图像附加有所述虚拟对象物的第四图像；以及判别器，连接于所述生成器及所述第四图像获取部，所述机器学习能够构成为包含：交替地进行第一训练步骤及第二训练步骤，所述第一训练步骤是将所述判别器训练成，判别对所述判别器输入的所述第三图像是否为所述第四图像，所述第二训练步骤是将所述生成器训练成，生成所述判别器的所述判别错误的所述第三图像。

所述图像生成装置中，所述学习器能够还包括预测器，所述预测器被训练成，将所述第三图像作为输入，而输出所述机器人对作业的效能(performance)。

本发明的机器人训练系统包括：拍摄部，获取所述输入图像；所述机器人；以及所述任一个图像生成装置，所述机器人通过包含由所述图像生成装置所生成的所述第三图像的学习数据而被训练成，根据所述输入图像来进行规定作业。

所述机器人训练系统中，能够还包括：模拟器，模拟所述机器人的作业；以及评估部，评估所述模拟器的作业。

本发明的图像生成方法基于输入图像来生成学习用图像，所述学习用图像用于训练对于对象物进行规定作业的机器人的动作，所述图像生成方法包括下述步骤：获取第一图像，所述第一图像是拍摄包含所述机器人而不含所述对象物的现实作业空间所得；获取第二图像，所述第二图像描绘有包含与所述机器人对应的虚拟机器人、及与所述对象物对应的虚拟对象物的虚拟作业空间；以及将所述第一图像及第二图像作为输入，而输出第三图像，所述第三图像是对所述第二图像进行了转换，以使所述第二图像中所含的至少所述虚拟机器人近似于所述第一图像中所含的所述机器人。

本发明的图像生成程序使基于输入图像来生成学习用图像的计算机执行下述步骤，所述学习用图像用于训练对于对象物进行规定作业的机器人的动作，所述步骤为：获取第一图像，所述第一图像是拍摄包含所述机器人而不含所述对象物的现实作业空间所得；获取第二图像，所述第二图像显示有包含与所述机器人对应的虚拟机器人、及与所述对象物对应的虚拟对象物的虚拟作业空间；以及将所述第一图像及第二图像作为输入，而输出第三图像，所述第三图像是对所述第二图像进行了转换，以使所述第二图像中所含的至少所述虚拟机器人近似于所述第一图像中所含的所述机器人。

发明的效果

根据本发明，能够基于输入图像而容易地生成学习用图像，所述学习用图像适合于训练对于对象物进行规定作业的机器人的动作。

附图说明

图1是表示将本发明的处理系统适用于握持系统的场景的一例的框图。

图2是本发明的一实施方式的握持系统的概略结构图。

图3是表示图2的系统中所用的控制装置的硬件结构的框图。

图4是表示图2的系统中所用的学习装置的硬件结构的框图。

图5是表示图2的系统中所用的图像生成装置的硬件结构的框图。

图6是表示图2的系统中所用的评估装置的硬件结构的框图。

图7是图5的图像生成装置的功能框图。

图8A是表示虚拟图像的示例的图。

图8B是表示虚拟图像的示例的图。

图8C是表示虚拟图像的示例的图。

图8D是表示虚拟图像的示例的图。

图9A是表示虚拟图像与现实图像的对应的示例的图。

图9B是表示虚拟图像与现实图像的对应的示例的图。

图9C是表示虚拟图像与现实图像的对应的示例的图。

图10A是表示虚拟图像、现实图像及合成图像的一例的图。

图10B是表示虚拟图像、现实图像及合成图像的一例的图。

图11是图3的控制装置的功能框图。

图12是图4的学习装置的功能框图。

图13是图6的评估装置的功能框图。

图14是表示图2的系统的动作例的流程图。

具体实施方式

以下，参照附图来说明本发明的图像生成装置、机器人训练系统、图像生成方法以及图像生成程序的一实施方式。但是，以下说明的实施方式在所有方面不过是本发明的例示，当然能够不脱离本发明的范围而进行各种改良或变形。即，在本发明的实施时，也可适当采用与实施方式相应的具体结构。另外，通过自然语言说明了本实施方式中出现的数据，但更具体而言，是以计算机可识别的伪语言、命令、参数、机器语言等来指定。

＜1.适用例＞

首先，使用图1来说明适用本发明的场景的一例。图1示意性地例示了将包含本发明的图像生成装置的机器人训练系统适用于握持系统100的场景的一例。但是，本发明的适用范围并不限于以下例示的握持系统的示例。即，本发明能够全盘适用于获取输入图像，并基于所述输入图像来训练机器人对于对象物进行规定作业的机器人训练系统。

如图1所例示的那样，本实施方式的握持系统100具有：视觉伺服装置10，包含摄像机1、握持对象物R的机器人2及对机器人2的动作进行控制的控制装置3；学习装置4，用于训练机器人2的动作；图像生成装置5，生成被用于学习装置4的学习用图像；以及评估装置6，对机器人2的学习结果进行评估。首先，对视觉伺服装置10进行说明。

所述视觉伺服装置10中，对摄像机1的视野进行了调整，以通过摄像机1来拍摄进行机器人2握持对象物R的作业的现实作业空间。作为一例，机器人2包括：臂20，具有两个弯曲关节21、22；以及支撑台23，可绕垂直轴旋转地支撑所述臂20。而且，在臂20的前端，安装有握持对象物R的握爪24。并且，各弯曲关节21、22、臂20相对于支撑台23的旋转、握爪24对于对象物R的握持是通过省略图示的驱动马达来进行。针对驱动马达的控制命令是从控制装置3输出，由此，机器人2执行握持对象物R并使其移动到规定位置为止的目标作业。即，对各弯曲关节21、22的弯曲角度、臂20相对于支撑台23的旋转角度、握爪24的握持程度进行控制，以执行目标作业。

并且，如上所述的机器人2的动作是基于由摄像机1所拍摄的图像来进行。即，通过摄像机1来拍摄现实作业空间，获取映照有对象物R与机器人2的输入图像。并且，控制装置3的控制部31根据映照在所述输入图像中的对象物R的种类、位置、方向等以及对象物R与机器人2的位置关系，确定握持对象物R所需的机器人1的动作，并对机器人2输出所述动作所需的控制命令。

为了输出与输入图像对应的适当的控制命令，控制部31进行下述控制，即，通过学习装置4进行机器学习，并基于学习装置4所生成的学习结果数据，根据输入图像来输出控制命令。此处，为了机器人2的动作的机器学习，需要教学数据，所述教学数据具有映照出各种种类的对象物R或者以各种方向配置的对象物R与机器人2的位置关系的学习用图像、与用于机器人2对映照在各学习用图像中的对象物R进行目标作业的控制命令，一般而言，所述教学数据越多，则能够进行精度越高的学习。本实施方式中，由图像生成装置5来生成被用于如上所述的学习的学习用图像。

本实施方式中，图像生成装置5使用两种图像来生成学习用图像。其中一个图像是虚拟地描绘有作业空间(包含对象物所进入的托盘T)、机器人2、对象物R的全部的虚拟图像(第二图像)，所述虚拟图像是由虚拟图像生成部501所生成。另一个图像是仅虚拟地生成作业空间、机器人2及对象物R中的对象物R，并将所述虚拟制品图像与由摄像机1所拍摄的作业空间及机器人2的现实图像(第一图像)进行合成所得的合成图像(第四图像)。所述合成图像是由加工器503所生成。并且，使用这两个图像，通过学习器509来生成学习用图像(第三图像)。

此处，虚拟图像完全是由计算机生成现实作业空间，因此有可能无法忠实地描绘出实际的作业空间。因此，若直接使用此种虚拟图像来利用学习装置4进行学习，则有可能无法生成适当的学习结果数据。例如，若映照在虚拟图像上的对象物R与机器人2的位置关系无法忠实地再现现实作业空间的位置关系，则根据虚拟图像，只能确定不准确的位置关系，由此，有可能无法输出用于进行目标作业的正确的控制命令。因此，本实施方式中，使用仅虚拟地描绘出对象物R，并将其合成到由摄像机1所拍摄的作业空间及机器人2的拍摄图像中的合成图像。并且，使用所述合成图像与虚拟图像这两个图像，通过学习器509来生成经转换以使虚拟图像近似于合成图像的学习用图像。即，合成图像除了对象物以外使用了现实图像，因此大致忠实地表示了实际的作业空间，通过使用此合成图像，根据虚拟图像来生成近似于现实作业空间的学习用图像。而且，合成图像中，仅机器人为现实图像，而对象物是由计算机所生成，因此与利用拍摄图像来准备所有的学习用图像的情况相比，能够容易地生成。

而且，在将此种经生成的学习用图像发送至学习装置4之前，通过预测器508来预测此图像是否适当。所述预测器508经学习，以输出学习用图像是否为能够进行适当控制的图像的评估。因此，通过使用所述预测器508，能够在将学习用图像发送至学习装置4之前进行其适当与否的确认。

像这样生成的学习用图像被发送至学习装置4，以用于控制部31的学习。由学习装置4所生成的学习结果数据也可由控制部31直接使用，但在本实施方式中，在此之前，先通过评估装置6进行评估。即，将由学习装置4所生成的学习结果数据发送至评估装置6，利用评估装置6的模拟器601来进行机器人2的作业的模拟。并且，通过评估部602来评估其结果。此处的评估例如能够采用与握持作业相关的各种评估，例如机器人2能够握持对象物R的概率、或能够握持对象物R的正确位置的概率等。

并且，若评估部602对学习结果数据作出为适当评估的意旨的判定，则视为所述学习结果数据能够使用于实际作业，而发送至控制部31。而且，通过所述评估部62的评估，能够进行所述预测器508的重新学习，由此，能够提高预测器508的预测精度。

本实施方式的握持系统的结构能够进行各种变更，以下，尤其说明使用由作为机器学习之一的生成对抗网络(Generative Adversarial Network，GAN)来构成所述学习器509的图像生成装置5的示例。以下进行详细说明。

＜2.结构例＞

＜2-1.硬件结构＞

＜2-1-1.握持系统的概要＞

使用图2来说明包含本实施方式的图像处理装置5的握持系统100。如图2所示，所述握持系统包括经由网络10而连接的控制装置3、图像生成装置4、控制装置3的学习装置5及评估装置6。并且，在控制装置3，连接有机器人2与对包含所述机器人2的现实作业空间进行拍摄的摄像机1，从而构成视觉伺服装置10。控制装置3、学习装置4、图像生成装置5及评估装置6之间的网络的种类也可不受特别限定，例如，可从国际互联网、无线通信网、移动通信网、电话网、专用网等中适当选择。

另外，图2的示例中，控制装置3、学习装置4、图像生成装置5及评估装置6分别为独立的计算机。但是，握持系统的结构也可不限定于此种示例。控制装置3、学习装置4、图像生成装置5及评估装置6中的至少任一对也可为一体的计算机。而且，控制装置3、学习装置4、图像生成装置5及评估装置6也可分别包含多台计算机。

＜2-1-2.控制装置＞

接下来，进一步使用图3来说明本实施方式的控制装置3的硬件结构的一例。图3示意性地例示本实施方式的控制装置3的硬件结构的一例。

所述控制装置3是由控制部31、存储部32、外部接口33及通信接口34电连接而成的计算机。由此，控制装置3构成为，对摄像机1、握持装置2及后述的显示器35的动作进行控制。另外，图3中，将外部接口33及通信接口34记载为“外部I/F”及“通信I/F”。此点在后述的各种装置中也同样。

控制部31包含中央处理器(Central Processing Unit，CPU)、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)等，且构成为，基于程序及数据来执行各种信息处理。存储部32例如包含RAM、ROM等，存储控制程序321、学习结果数据322等。控制程序321是用于使控制装置3执行机器人2的控制处理的程序，基于由学习装置4所生成的学习结果数据322来进行控制处理。控制部31构成为，通过解释及执行所述控制程序321，从而执行后述的各步骤的处理。

外部接口33是用于与外部装置连接的接口，根据所连接的外部装置而适当构成。本实施方式中，外部接口33连接于显示器35。所述显示器35例如被利用于显示握持装置2的状态(status)。显示器35只要能够显示所述状态，则也可无特别限定，可使用公知的液晶显示器、触控面板显示器等。除此以外，在外部接口33，能够适当连接输入装置及输出装置等。

通信接口34例如是有线局域网(Local Area Network，LAN)模块、无线LAN模块等用于进行有线或无线通信的接口。即，通信接口34是构成为与其他装置进行通信的通信部的一例。本实施方式中，经由网络10而连接于所述摄像机1、握持装置2及学习装置4。

另外，关于控制装置3的具体的硬件结构，可根据实施方式来适当地进行构成元件的省略、替换及追加。控制部31也可包含多个处理器。而且，控制部31也可包含现场可编程门阵列(Field Programmable Gate Array，FPGA)。存储部32也可包含控制部31中所含的RAM及ROM。而且，存储部32也可包含硬盘驱动器、固态硬盘等辅助存储装置。控制装置3除了专为所提供的服务设计的信息处理装置以外，还可根据所控制的对象而为通用的桌面式个人计算机(Personal Computer，PC)、平板(tablet)PC等。以上方面在后述的学习装置4、图像生成装置5及评估装置6中也相同。

＜2-1-3.机器人＞

接下来，对机器人2进行说明。机器人2的概要如上所述，对更详细的示例进行说明。

进行各弯曲关节21、22的驱动或臂的旋转的驱动马达包含伺服马达、无刷马达等。而且，在各弯曲关节21、22、臂20的基端部，安装有旋转编码器等可检测角度的角度传感器。

而且，在握爪24，也可安装有对作用于所述握爪24的力进行检测的力量传感器。由此，机器人2可构成为，对作用于握爪24的力进行检测。

另外，关于机器人2的具体结构，可根据实施方式来适当地进行构成元件的省略、替换及追加。例如，弯曲关节21、22的数量可根据实施方式来适当选择。而且，在弯曲关节21、22，除了所述角度传感器以外，也可安装有扭矩传感器。由此，能够根据扭矩来控制各弯曲关节21、22的弯曲角度。

而且，机器人2也能够将基于控制命令而进行的作业的结果反馈给控制装置3，并使所述结果反映到后述的控制装置3的学习中。

＜2-1-4.摄像机＞

摄像机1对包含机器人2及对象物R的现实作业空间进行拍摄。另外，摄像机1既可被固定于规定的场所，也可构成为，可通过马达等来变更拍摄方向(朝向)。对于摄像机1，可使用一般的数字摄像机、摄影机、360度摄像机等，既可为可见光拍摄用摄像机，也可为红外光拍摄用摄像机。

＜2-1-5.学习装置＞

图4是表示本实施方式的学习装置的框图。如图4所示，本实施方式的学习装置4是用于对控制装置3的控制部31进行学习的装置，是由控制部41、存储部42、通信接口43、输入装置44、输出装置45、外部接口46及驱动器47电连接而成的计算机。

控制部41包含中央处理器(Central Processing Unit，CPU)、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)等，根据信息处理来进行各构成元件的控制。存储部42例如为硬盘驱动器、固态硬盘等辅助存储装置，存储由控制部41所执行的学习程序421、学习结果数据422及学习数据423等。

学习程序421是用于使学习装置4执行基于神经网络等的机器学习的学习处理的程序。学习结果数据422为学习处理的结果数据，是用于进行控制装置3的控制部31的设定的数据。学习数据423是用于进行学习的数据，在所述学习数据423中，包含由后述的图像生成装置5所生成的学习用图像。详细将后述。

通信接口43及外部接口46与控制装置3中所示的相同。输入装置44例如是鼠标、键盘等用于进行输入的装置，输出装置45例如是显示器、扬声器等用于进行输出的装置。

驱动器47例如是光盘(Compact Disk，CD)驱动器、数字多功能光盘(DigitalVersatile Disk，DVD)驱动器等，是用于读取存储在存储介质49中的程序的装置。驱动器47的种类可根据存储介质49的种类来适当选择。所述学习程序421及/或学习结果数据422也可被存储在所述存储介质49中。

存储介质49是以计算机或其他装置、机械等可读取所记录的程序等信息的方式，而通过电、磁、光学、机械或化学的作用来保存所述程序等信息的介质。图像处理装置1也可从所述存储介质49中获取学习程序421及/或学习结果数据422。

此处，图4中，作为存储介质49的一例，例示了CD、DVD等盘型的存储介质。但是，存储介质49的种类并不限定于盘型，也可为盘型以外。作为盘型以外的存储介质，例如可列举快闪存储器等半导体存储器。

＜2-1-6.图像生成装置＞

图5是表示本实施方式的图像生成装置的框图。如图5所示，本实施方式的图像生成装置5是由控制部51、存储部52、通信接口53、输入装置54、输出装置55、外部接口56及驱动器57电连接而成的计算机。

控制部51～驱动器57以及存储介质59分别具有与所述学习装置4的控制部41～驱动器47以及存储介质49同样的结构。但是，图像生成装置5的存储部52主要存储：由控制部51所执行的图像生成程序521；分别利用于后述的生成器504、判别器505及预测器508的学习的第一学习数据522、第二学习数据523及第三学习数据524；以及执行学习程序521而制作的第一学习结果数据525、第二学习结果数据526及第三学习结果数据527。

另外，与所述学习装置4同样，各种程序521及数据522～527也可被存储在存储介质59中。与此相应地，图像生成装置5也可从存储介质59中获取这些程序521及数据522～527中的至少一个。

而且，在通信接口53，经由网络10而连接有摄像机1，发送由摄像机1所拍摄的现实作业空间的图像。但是，如后所述，此处所用的现实作业空间的图像中，不包含制品R。

＜2-1-7.评估装置＞

图6是表示本实施方式的评估装置的框图。如图6所示，本实施方式的评估装置6是由控制部61、存储部62、通信接口63、输入装置64、输出装置65、外部接口66及驱动器67电连接而成的计算机。

控制部61～驱动器67以及存储介质69分别具有与所述学习装置4的控制部41～驱动器47以及存储介质49同样的结构。但是，评估装置6的存储部62存储由评估装置6所执行的模拟程序621、对模拟的结果进行评估的评估程序622以及评估结果623等。

另外，与所述学习装置4同样，各种程序621、622也可被存储在存储介质69中。与此相应地，评估装置6也可从存储介质69获取这些程序621、622中的至少一个。

而且，在通信接口63，经由网络10而连接有学习装置4及图像生成装置5。由此，所述评估装置6经由网络10来从学习装置4获取学习结果数据422，并且，将所生成的评估结果623发送至图像生成装置5，以用于预测器508的学习。

＜2-2.软件结构＞

＜2-2-1.图像生成装置＞

接下来，参照图7来说明图像生成装置5的软件结构。如图7所示，图像生成装置5的控制部51在将存储在存储部52中的图像生成程序521展开到RAM中时，通过CPU来解释及执行所述图像生成程序521，从而作为包括虚拟图像生成部(第二图像获取部)501、提取器502、加工器(第一图像获取部、第四图像获取部)503、生成器504、判别器505、学习处理部506、保存处理部507及预测器508的计算机发挥功能。

虚拟图像生成部501生成虚拟图像，所述虚拟图像虚拟地生成有作业空间、机器人2、对象物R的全部。所述虚拟图像为学习用图像的基础，因此生成大量图像。例如，如图8A～图8D所示，生成对象物R的种类、位置、方向等不同的大量虚拟图像。除此以外，也能够生成改变了作业空间内的照明(照度、颜色、方向等)或摄像机1的拍摄位置的虚拟图像。所述虚拟图像中的对象物R可包含位置信息。

提取器502从所制作的多个虚拟图像中，针对每个虚拟图像而提取与作业空间内的机器人及对象物相关的特征，即制品的形状、位置、方向等信息。

加工器503获取包含由摄像机1所拍摄的机器人2的、作业空间的现实图像。此时，所获取的现实图像例如图9A～图9C所示，是获取与虚拟图像对应的现实图像。即，获取映照有具有与各虚拟图像相同的臂的旋转位置及相同的关节角的机器人2、及对象物R所进入的托盘T的、作业空间的现实图像。例如，在图9B及图9C的示例中，仅虚拟图像中所含的对象物不同，而机器人处于相同的位置，因此与其对应的现实图像可为一个。并且，针对所获取的现实图像，加工器503例如使用公知的增强现实(Augmented Reality，AR)等技术，来合成对象物R的图像。此时，所合成的对象物R的图像是基于由提取器502从对应的虚拟图像中提取的信息(位置信息等)而生成。这样，在加工器503中，生成在现实图像中合成有对象物R的图像的合成图像。并且，由虚拟图像生成部501所生成的虚拟图像被发送至生成器504，并且，由加工器503所生成的合成图像被发送至判别器505。图10A及图10B表示虚拟图像、现实图像及合成图像的示例。

接下来，对生成器504及判别器505进行说明。这些生成器504及判别器505构成基于GAN的学习网络。并且，生成器504包含与控制装置3或学习装置4同样的多层结构的神经网络。同样，判别器505也包含多层结构的神经网络。但是，判别器505的结构可与生成器504不同。

并且，学习处理部506中，实施所述学习网络的机器学习。所述机器学习的实施包含：交替地进行训练判别器505的第一训练步骤及训练生成器504的第二训练步骤。学习处理部506在第一训练步骤中，将判别器505训练成，判别对判别器505输入的图像是由生成器504所生成的图像(后述的学习用图像)，还是从加工器503发送的合成图像。即，判别器505被训练成，判别被给予的图像是来源于加工器503，还是来源于生成器504。而且，学习处理部506在第二训练步骤中，将生成器504训练成，生成判别器505的判别错误的图像。另外，此处，将来源于加工器503的情况表达为“真”，将来源于生成器504的情况表达为“伪”。但是，表达各来源的方法可不限定于此种示例，可根据实施方式来适当选择。

具体而言，第一训练步骤中，学习处理部506将虚拟图像输入至生成器504的输入层，执行生成器504的运算处理。由此，生成器504从输出层获取与跟所输入的虚拟图像对应的合成图像近似的学习用图像。例如，从图10A所示的虚拟图像，以近似于合成图像的方式来对虚拟图像进行转换，并输出学习用图像。

并且，所述学习用图像由学习处理部506输入至判别器505的输入层，执行判别器505的运算处理。由此，从输出层获取与判别学习用图像是来源于生成器50还是来源于加工器503的结果对应的输出值。此处，对判别器505输入的图像是生成器504所生成的学习用图像，因此判别器505判别为“伪”是正解。并且，算出从输出层获得的输出值与所述正解的误差。学习处理部506关于各学习用图像，算出从输出层获得的输出值与所述正解的误差。

同样，学习处理部506将合成图像输入至判别器505的输入层，执行判别器505的运算处理。由此，学习处理部506从输出层获取与判别所输入的图像是来源于生成器504还是来源于加工器503的结果对应的输出值。此处，所输入的图像为合成图像，因此判别器505判别为“真”是正解。学习处理部506关于各合成图像，算出从输出层获得的输出值与所述正解的误差。

并且，学习处理部506调节判别器505的参数的值，以使所算出的误差之和变小。学习处理部506通过所述一连串处理来反复进行判别器505的参数的值的调节，直至从输出层获得的输出值与真伪的正解的误差之和成为阈值以下为止。由此，第一训练步骤中，学习处理部506将判别器505训练成，判别是由生成器505所生成的学习用图像还是合成图像。

另一方面，第二训练步骤中，学习处理部506将虚拟图像输入至生成器504的输入层，执行生成器504的运算处理。由此，学习处理部506如上述那样，从输出层获取与跟所输入的虚拟图像对应的合成图像近似的学习用图像。即，输出将虚拟图像转换成为与包含现实图像的合成图像近似的图像的学习用图像。

接下来，学习处理部506将所生成的学习用图像输入至判别器505的输入层，执行判别器505的运算处理。由此，学习处理部506从输出层获取与判别所输入的学习用图像是来源于生成器504还是来源于加工器503的结果对应的输出值。所述生成器504的训练中，判别器505得出的判别结果为错误是正解。即，对于由生成器504所生成的学习用图像，只要生成近似到误认为是合成图像的程度的学习用图像即可，从输出层获得的输出值对应于“真”是正解。学习处理部506关于各学习用图像与合成图像的组合，算出通过一连串处理而从输出层获得的输出值与所述正解(即，“真”)的误差。

并且，学习处理部506调节生成器504的参数的值，以使所算出的误差之和变小。关于各学习用图像与合成图像的组合，学习处理部506通过所述一连串处理来反复进行生成器504的参数的值的调节，直至通过一连串处理而从输出层获得的输出值与“真”的误差之和成为阈值以下为止。由此，第二训练步骤中，学习处理部506将生成器504训练成，生成判别器505的判别为错误的学习用图像。

这样，学习处理部506交替地实施所述第一训练步骤及第二训练步骤，由此，交替地提高判别器505及生成器504的精度。由此，生成器504能够学会适当地生成学习用图像的能力，所述学习用图像与包含现实图像的合成图像大致相同。

在所述机器学习完成后，保存处理部507生成第一学习结果数据及第二学习结果数据，所述第一学习结果数据及第二学习结果数据分别表示所构建的生成器504及判别器505的结构(例如神经网络的层数、各层中的神经元的个数、神经元彼此的结合关系、各神经元的传递函数)、及运算参数(例如各神经元间的结合的权重、各神经元的阈值)。并且，保存处理部507将所生成的第一及第一学习结果数据保存到规定的存储区域。

这样，当将由虚拟图像生成器501所生成的虚拟图像输入至经学习的生成器504时，能够生成近似于合成图像的学习用图像。这样，当生成学习用图像时，不需要准备包含实际的对象物R的现实图像，能够降低学习用图像的生成的负荷。即，能够容易地进行学习用图像的生成。并且，所述学习用图像被发送至学习装置4，但在此之前，为了判定所述学习用图像是否适当，而准备有预测器508。所述预测器508包含多层结构的神经网络，且经学习成，将在学习完毕的生成器504中生成的学习用图像作为输入，将所述学习用图像是否适合于握持装置2的控制作为输出。所述学习数据能够使用由接下来说明的评估装置所输出的评估。即，若基于使用所生成的学习用图像而学习的学习结果数据来进行机器人2的模拟的结果为握持作业可适当进行，则能够判断所述学习用图像为适当。另一方面，若握持作业不适当，则能够判断为所述学习用图像不适当。因此，只要将学习用图像与评估装置6的评估的组合作为学习数据来使预测器508进行学习，便能够在进行模拟之前判断由预测器508所生成的学习用图像的适当与否。此时所生成的预测器508的学习结果数据成为第三学习结果数据。

＜2-2-1.控制装置＞

接下来，参照图11来说明控制装置3的软件结构。如图11所示，控制装置3的控制部31在将存储在存储部32中的控制程序321展开到RAM中时，通过CPU来解释及执行所述控制程序321，以作为包括学习结果数据获取部381、输入图像获取部382、处理部383及发送部384的计算机发挥功能。

学习结果数据获取部381从学习装置4获取学习结果数据422。而且，输入图像获取部382获取从摄像机1发送的输入图像。并且，处理部383构成学习器，所述学习器经学习成，在输入有输入图像时，基于所述输入图像而输出用于机器人2的动作的控制命令。

进行此种输出的处理部383包含神经网络30。具体而言，是图11所示的、被用于所谓的深层学习的多层结构的神经网络30，从输入起依序包括输入层301、中间层(隐藏层)302及输出层303。

图11的示例中，神经网络30包括一层中间层302，输入层301的输出成为中间层302的输入，中间层302的输出成为输出层303的输入。但是，中间层302的数量也可不限于一层，神经网络30也可包括两层以上的中间层302。

各层301～303包括一个或多个神经元。例如，输入层301的神经元的数量能够根据输入图像的数量来设定。中间层302的神经元的数量能够根据实施方式来适当设定。而且，输出层303也能够根据控制命令的数量来设定。

邻接的层的神经元彼此适当结合，对于各结合设定有权重(结合负荷)。图7的示例中，各神经元与邻接的层的所有神经元结合，但神经元的结合也可不限定于此种示例，可根据实施方式来适当设定。

对于各神经元设定有阈值，基本上，根据各输入与各权重之积的和是否超过阈值来决定各神经元的输出。控制装置3通过将所述输入图像输入至此种神经网络30的输入层301，从而从输出层73获得表示最佳的机器人动作的控制命令。

另外，表示此种神经网络30的结构(例如神经网络的层数、各层中的神经元的个数、神经元彼此的结合关系、各神经元的传递函数)、各神经元间的结合的权重、及各神经元的阈值的信息包含在由学习装置4所生成的学习结果数据422中。因此，学习结果数据获取部381参照从学习装置4发送的学习结果数据422来进行学习完毕的神经网络30即处理部383的设定。

并且，由处理部383所输出的控制命令通过发送部384而发送至机器人2。

＜2-2-3.学习装置＞

接下来，参照图12来说明学习装置4的软件结构。如图12所示，学习装置4的控制部41在将存储在存储部42中的学习程序421展开到RAM中时，通过CPU来解释及执行所述学习程序421，从而作为包括学习数据生成部481、处理部482、发送部483的计算机发挥功能。

学习数据生成部481收集从图像生成装置5收到的学习用图像、与用于根据映照在所述学习用图像上的机器人2与对象物R的位置关系来进行适当的握持作业的控制命令，由它们生成学习数据423。并且，处理部482具有神经网络40作为学习器，使用学习数据423，对于神经网络40的学习，利用误差传播法等来进行学习。并且，所述学习的结果获得的学习结果数据422通过发送部483而发送至控制装置3。

＜2-2-4.评估装置＞

接下来，参照图13来说明评估装置6的软件结构。如图13所示，评估装置6的控制部61在将存储在存储部62中的模拟程序621展开到RAM中时，通过CPU来解释及执行所述模拟程序621，从而作为包括模拟器601及评估部602的计算机发挥功能。

模拟器601基于从学习装置4收到的学习结果数据422来进行握持装置2的模拟。因此，模拟器601在计算机上再现装入有所述学习结果数据422的控制装置3及机器人2，当输入有规定的输入图像时，进行机器人2是否能进行适当的握持操作的模拟。并且，评估部602进行所述动作的评估。即，如上所述，进行模拟的结果为机器人2是否已握持了对象物R，是否以正确的角度握持了对象物R，是否握持了对象物R的正确的位置，搬送后是否正确配置了对象物R等的评估。并且，若评估为规定值以上，则能够判断被用于所述模拟的学习结果数据为适当，从而在控制装置3中使用。

而且，将为了生成用于评估的学习结果数据而使用的学习用图像，用于所述图像生成装置5的预测器508的学习。

＜3.动作例＞

接下来，一边参照图14的流程图，一边说明像这样构成的握持系统的动作例。首先，进行图像等数据的收集(步骤S101)。即，通过摄像机1来获取多个现实图像，或者通过虚拟图像生成器501来获取多个虚拟图像。接下来，由所获取的图像生成合成图像。即，从虚拟图像中提取与机器人2及对象物R相关的特征，并基于此来生成将对象物合成到对应的现实图像中的合成图像(步骤S102)。继而，基于虚拟图像及合成图像来进行生成器504与判别器505的训练(步骤S103)。这样，若生成器504的训练完成，则使用训练完毕的生成器504来从虚拟图像生成学习用图像(步骤S104)。

所生成的学习用图像被发送至学习装置4，通过学习装置4，生成用于驱动控制装置3的学习结果数据。并且，通过评估装置6，评估所生成的学习结果数据是否适当(步骤S105)，若适当，则将所述学习结果数据安装至控制装置3，使用摄像机1及机器人2来实际进行对象物的握持作业(步骤S106)。

＜4.特征＞

如上所述，根据本实施方式，由图像生成装置5生成用于对机器人2的控制装置3进行学习的学习用图像。此种学习用图像若使用接近现实图像的图像，则机器人2有可能无法良好地运转。但是，准备改变了机器人2或对象物R的位置、方向的大量学习用图像并不容易。因此，本实施方式中，获取仅包含机器人2及托盘T的现实作业空间的现实图像，生成将对象物的虚拟R的图像合成到所述现实图像中的合成图像。并且，通过使用GAN，将虚拟图像转换成近似于合成图像的学习用图像，并采用其作为学习用图像。因此，当生成学习用图像时，不需要准备包含实际的对象物R的现实图像，能够降低学习用图像的生成的负荷。即，能够容易地进行学习用图像的生成。而且，由于所生成的学习用图像中所含的包含机器人R的现实作业空间是以近似于现实图像的方式而生成，因此能够防止根据所述图像来确定错误的机器人2与对象物R的位置关系，从而可实现高精度的学习。

＜5.变形例＞

以上，详细说明了本发明的实施方式，但直至上文为止的说明在所有方面不过是本发明的例示。当然能够不脱离本发明的范围而进行各种改良或变形。例如，可进行如下所述的变更。另外，以下，关于与所述实施方式同样的构成元件，使用同样的符号，关于与所述实施方式同样的点，适当省略说明。以下的变形例可适当组合。

＜5-1＞

所述实施方式中，对于处理部383、处理部482、生成器504、判别部505及预测器508，使用了所谓的多层结构的全结合神经网络。但是，构成它们的神经网络的结构及种类也可不限定于此种示例，可根据实施方式来适当选择。例如，对于它们中的至少一个，可利用卷积神经网络。

＜5-2＞

上实施方式中，将虚拟图像生成器501设在图像处理装置5内，但也可由其他装置生成虚拟图像，图像处理装置5在获取了所述虚拟图像后，进行如上所述的处理。所述实施方式中，在现实图像中，映照有包含机器人2与托盘T的现实作业空间，但只要至少映照有机器人2即可。

＜5-3＞

上实施方式中，在图像生成装置5中设有预测器508，但未必需要预测器508，也可不设预测器508。

＜5-4＞

上实施方式中，通过GAN，由虚拟图像与合成图像来生成学习用图像，但也可使用GAN以外的方式，基于虚拟图像来生成与包含现实图像的图像近似的学习用图像。

＜5-5＞

所述实施方式中，由图像生成装置5生成用于机器人2握持对象物的控制的学习用图像。但是，此种学习用图像的生成并不限于握持对象物的情况，能够全盘适用于机器人对于对象物进行某些作业的视觉伺服系统。即，能够将本发明的图像生成装置全盘适用于基于图像来进行下述控制的系统，所述控制是进行对于对象物进行推压、移动或加工等的作业。

符号的说明

1：摄像机(拍摄部)

2：机器人

3：控制装置

4：学习装置

5：图像生成装置

504：生成器

505：判别器

508：预测器

6：评估装置

Claims

1.一种图像生成装置，基于输入图像来生成学习用图像，所述学习用图像用于训练对于对象物进行规定作业的机器人的动作，所述图像生成装置包括：

第一图像获取部，获取第一图像，所述第一图像是拍摄包含所述机器人而不含所述对象物的现实作业空间所得；

第二图像获取部，获取第二图像，所述第二图像描绘有包含与所述机器人对应的虚拟机器人、及与所述对象物对应的虚拟对象物的虚拟作业空间；以及

学习器，通过机器学习而被训练成，将所述第一图像及第二图像作为输入，而输出第三图像，所述第三图像是对所述第二图像进行了转换，以使所述第二图像中所含的至少所述虚拟机器人近似于所述第一图像中所含的所述机器人。

2.根据权利要求1所述的图像生成装置，其中

所述学习器还包括：

生成器，生成所述第三图像；

第四图像获取部，基于所述第二图像来获取对所述第一图像附加有所述虚拟对象物的第四图像；以及

判别器，连接于所述生成器及所述第四图像获取部，

所述机器学习包含：交替地进行第一训练步骤及第二训练步骤，

所述第一训练步骤是将所述判别器训练成，判别对所述判别器输入的所述第三图像是否为所述第四图像，

所述第二训练步骤是将所述生成器训练成，生成所述判别器的所述判别错误的所述第三图像。

3.根据权利要求2所述的图像生成装置，其中

所述学习器还包括预测器(predictor)，所述预测器被训练成，将所述第三图像作为输入，而输出所述机器人对作业的效能。

4.一种机器人训练系统，包括：

拍摄部，获取所述输入图像；

所述机器人；以及

权利要求1至3中任一项所述的图像生成装置，

所述机器人通过包含由所述图像生成装置所生成的所述第三图像的学习数据而被训练成，根据所述输入图像来进行规定作业。

5.根据权利要求4所述的机器人训练系统，还包括：

模拟器，模拟所述机器人的作业；以及

评估部，评估所述模拟器的作业。

6.一种图像生成方法，基于输入图像来生成学习用图像，所述学习用图像用于训练对于对象物进行规定作业的机器人的动作，所述图像生成方法包括下述步骤：

获取第一图像，所述第一图像是拍摄包含所述机器人而不含所述对象物的现实作业空间所得；

获取第二图像，所述第二图像描绘有包含与所述机器人对应的虚拟机器人、及与所述对象物对应的虚拟对象物的虚拟作业空间；以及

通过机器学习完毕的学习器，将所述第一图像及第二图像作为输入，而输出第三图像，所述第三图像是对所述第二图像进行了转换，以使所述第二图像中所含的至少所述虚拟机器人近似于所述第一图像中所含的所述机器人。

7.一种图像生成程序，使基于输入图像来生成学习用图像的计算机执行下述步骤，所述学习用图像用于训练对于对象物进行规定作业的机器人的动作，所述步骤为：

获取第一图像，所述第一图像是拍摄包含所述机器人的现实作业空间所得；