CN109146082B

CN109146082B - 机器学习装置、机器人控制系统和机器学习方法

Info

Publication number: CN109146082B
Application number: CN201810662342.8A
Authority: CN
Inventors: 太田悠介; 藁科文和; 高桥广光
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-06-27
Filing date: 2018-06-25
Publication date: 2020-04-28
Anticipated expiration: 2038-06-25
Also published as: US10596698B2; JP6549644B2; US20180370027A1; DE102018208191B4; JP2019007891A; CN109146082A; DE102018208191A1

Abstract

本发明提供一种用于进行使用了机器人的缺陷检查的机器学习装置、机器人控制系统以及机器学习方法。机器学习装置具有：状态信息取得部，其从机器人控制检查系统取得包含缺陷检测信息、机器人机械手的移动路径和工件的拍摄点、照相机的拍摄次数在内的状态信息s，机器人控制检查系统使机器人机械手把持工件或者照相机来进行工件的缺陷检查，缺陷检测信息包含工件的缺陷检测部位；行为信息输出部，其输出状态s的调整信息即行为a；回报计算部，其根据包含缺陷检测部位的缺陷检测信息，计算强化学习中的回报值；价值函数更新部，其根据由回报计算部计算出的回报值、状态s、行为a来进行强化学习，由此更新行为价值函数Q。

Description

机器学习装置、机器人控制系统和机器学习方法

技术领域

本发明涉及机器学习装置、机器人控制系统和机器学习方法。

背景技术

例如专利文献1所记载那样，以往是使机器人把持工件和照相机来进行工件的缺陷检查。例如，像专利文献1所记载那样，首先，作为准备作业，对与机器人连接的动作处理部执行用于存储检查路径和多个拍摄地点的教学步骤(teaching step)。在这样的教学步骤中示教了登记多个拍摄点、设置于机器人末端的CCD照相机在各拍摄点处检查拍摄点处的基于照明单元的反射光、将检测出的光学信息作为脉冲信息来进行输出，由此，检查路径和多个拍摄点作为动作程序而被存储在与机器人连接的动作处理部的教学部中。

这样，在使用了机器人的缺陷检查中，需要示教机器人的位置，指定工件的拍摄部位。作为拍摄部位的指定方法，有在想要检查的范围内均等地进行拍摄的方法，但是当仔细检查整个范围时，存在以下两点问题。

第一，由于在缺陷检查中微小的缺陷也不会忽略，因此多是在提升了照相机分辨能力的状态下进行检查，多是缩小视野大小来实施检查。因此，一次拍摄下可以检查的范围狭小，需要以狭小的间隔来重复拍摄。第二，缺陷的拍照方法因照相机/工件/照明的位置关系不同而不同，有可能因它们的位置关系而忽略缺陷。因此，为了减少缺陷的忽略，需要在各部位一边改变照相机/工件/照明的位置关系一边进行拍摄。

现有技术文献

专利文献1：日本特开2009-014357号公报

这样，在使用了机器人的缺陷检查中，为了使微小的缺陷也不会被忽略，在指定工件的拍摄部位时，要决定拍摄点(拍摄部位)使得能精细地拍摄整个被检查面，并且要考虑照相机/照明与工件的位置关系有关的缺陷的拍照方法，因此，需要以在同一部位使工件的方向不同(即，照明的方向不同)的方式示教多个机器人位置。

与之相对地，很多时候由于工件的加工条件等原因，导致在哪个部位产生缺陷(缺陷的产生部位)、产生何种形状(特征)的缺陷(缺陷的种类)等存在某种趋势。由于工件的部位不同，导致容易带缺陷程度不同、功能上/外观上要求的检查精度不同。因此，例如在由人进行检查时，能够通过积累经验，谨慎观察应该注意的部位，对不怎么产生不良的部位一扫而过。

即便是使用了机器人的缺陷检查，也与人进行检查的情况一样，希望对缺陷产生可能性高的部位谨慎检查、对缺陷产生频率小的部位简单检查，由此，使拍摄张数、拍摄部位最佳化，缩短检查的周期时间。

发明内容

本发明是鉴于以上课题而完成的，其目的在于提供一种机器学习装置、机器人控制系统和机器学习方法，在使用了机器人的缺陷检查中，对缺陷产生可能性高的部位谨慎检查、对缺陷产生频率小的部位简单检查，由此，使拍摄张数、拍摄部位最佳化，缩短检查的周期时间。

(1)本发明涉及一种机器学习装置(例如，后述的机器学习装置10)，其针对机器人控制系统(例如，后述的机器人控制检查系统20)进行强化学习，该机器人控制系统具有：照明单元(例如，后述的照明220)，其对被检查物(例如，后述的工件50)的被检查面照射照明光；拍摄单元(例如，后述的照相机210)，其拍摄所述被检查面；机器人(例如，后述的机器人200)，其具有机器人机械手(例如，后述的机器人机械手201)；控制部(例如，后述的控制装置300)，其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的多个拍摄点的拍摄区域的移动路径进行移动，使得由所述拍摄单元拍摄的多个图像包罗所述被检查面，一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄；以及缺陷检查部(例如，后述的缺陷检查装置400)，其在所述拍摄点根据由所述拍摄单元拍摄了所述被检查面而得的图像，来检测所述被检查面上的缺陷，其中，所述机器学习装置具有：行为信息输出部(例如，后述的行为信息输出部130)，其对所述控制部输出包含拍摄区域的调整信息的行为信息，该拍摄区域包含所述拍摄点；状态信息取得部(例如，后述的状态信息取得部110)，针对预先准备的多个被检查物中的每一个被检查物，所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动，所述状态信息取得部根据由所述拍摄单元拍摄了所述被检查面而得的图像，从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息，所述缺陷检测信息含有由所述缺陷检查部检测出的所述被检查面的缺陷检测部位；回报输出部(例如，后述的回报计算部121)，其根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数，输出强化学习中的回报值；以及价值函数更新部(例如，后述的价值函数更新部122)，其根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。

(2)在(1)所述的机器学习装置中，可以是，在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时，且所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数少时，所述回报输出部使所述回报值为正值，在由所述缺陷检查部检测出的缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数少时，所述回报输出部使所述回报值为负值。

(3)在(2)所述的机器学习装置中，可以是，在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时，所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少，所述回报输出部使所述回报值越大。

(4)在(2)或(3)所述的机器学习装置中，可以是，所述机器学习装置具有：最佳化行为信息输出部，其根据由所述价值函数更新部更新后的所述行为价值函数，生成所述拍摄次数为最小的最佳化行为信息，该最佳化行为信息是所述缺陷检测部位的个数与所述机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致的行为信息。

(5)在(1)所述的机器学习装置中，可以是，在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致时，在拍摄次数比所述机器学习开始时的初始状态下的拍摄次数少时，所述回报输出部使所述回报值为正值，在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数少时，所述回报输出部使所述回报值为负值。

(6)在(5)所述的机器学习装置中，可以是，在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致时，所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少，所述回报输出部使所述回报值越大。

(7)在(5)或(6)所述的机器学习装置中，可以是，所述机器学习装置具有：最佳化行为信息输出部，其根据由所述价值函数更新部更新后的所述行为价值函数，生成所述拍摄次数为最小的最佳化行为信息，该最佳化行为信息是所述被检查面的规定区域中所述缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致的行为信息。

(8)在(1)～(7)中任一项所述的机器学习装置中，可以是，所述机器学习装置与其他机器学习装置之间共享所述行为价值函数，所述价值函数更新部更新所共享的所述行为价值函数。

(9)本发明涉及的机器人控制系统具有(1)～(8)中任一项所述的机器学习装置。

(10)本发明涉及一种机器学习方法，该机器学习装置针对机器人控制系统进行强化学习，该机器人控制系统具有：照明单元，其对被检查物的被检查面照射照明光；拍摄单元，其拍摄所述被检查面；机器人，其具有机器人机械手；控制部，其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的拍摄点的拍摄区域的移动路径进行移动，使得由所述拍摄单元拍摄的多个图像包罗所述被检查面，一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄；以及缺陷检查部，其在所述拍摄点根据由所述拍摄单元拍摄了所述被检查面而得的图像，来检测所述被检查面上的缺陷，其中，所述机器学习方法具有以下步骤：行为信息输出步骤，对所述控制部输出包含拍摄区域的调整信息的行为信息，该拍摄区域包含所述拍摄点；状态信息取得步骤，针对预先准备的多个被检查物中的每一个被检查物，所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动，根据由所述拍摄单元拍摄了所述被检查面而得的图像，从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息，所述缺陷检测信息含有由所述缺陷检查部检测出的缺陷检测部位；回报输出步骤，根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数，输出强化学习中的回报值；以及价值函数更新步骤，根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。

发明效果

根据本发明，可以提供一种机器学习装置、机器人控制系统和机器学习方法，在使用了机器人的缺陷检查中，谨慎检查缺陷产生可能性高的部位、简单检查缺陷产生频率小的部位或重要性低的部位，由此，使拍摄张数、拍摄部位最佳化，缩短检查的周期时间。

附图说明

图1是表示本发明的实施方式整体的基本结构的框图。

图2是本发明的实施方式的机器学习系统的概略图。

图3表示本发明的实施方式中的控制装置300的功能框图。

图4A是表示在本发明的实施方式中的工件50的被检查面上设置的拍摄点和包含该拍摄点的拍摄区域的一例的图。

图4B是表示在本发明的实施方式中的工件50的被检查面上设置的拍摄点和包含该拍摄点的拍摄区域、以及与照相机的关系的图。

图4C是表示在本发明的实施方式中的工件50的被检查面上设置的拍摄点和该拍摄点处的工件50的方向的一例的图。

图4D是表示在本发明的实施方式中的工件50的被检查面上设置的拍摄点和该拍摄点处的工件50的方向的一例的图。

图4E是表示在本发明的实施方式中的工件50的被检查面上设置的拍摄点和该拍摄点处的工件50的方向的一例的图。

图5表示本发明的实施方式中的缺陷检查装置400的功能框图。

图6表示本发明的实施方式中的机器学习装置10的功能框图。

图7是表示本发明的实施方式中的机器学习中的行为信息的调整的一例的图。

图8是用于对本发明的实施方式中的机器学习装置的、学习阶段的动作进行说明的流程图。

图9是用于对本发明的实施方式中的机器学习装置的、运用阶段的动作进行说明的流程图。

符号说明

1 机器学习系统

10 机器学习装置

100 状态信息取得部

120 学习部

121 回报计算部

122 价值函数更新部

123 行为信息生成部

130 行为信息输出部

140 价值函数存储部

150 最佳化行为信息输出部

20 机器人控制检查系统

200 机器人

201 机器人机械手

210 照相机

213 支承体

220 照明

300 控制装置

310 拍摄部位信息设定部

320 移动路径计算部

330 移动动作控制部

340 拍摄控制部

350 拍摄信息发送部

400 缺陷检查装置

410 拍摄信息接收部

420 缺陷检测部

430 缺陷检测信息发送部

50 工件

70 网络

具体实施方式

以下，使用附图对本发明的实施方式进行详细说明。

<实施方式的整体结构>

图1是表示作为本实施方式的机器学习系统1的整体结构的功能框图。此外，图2是本发明的实施方式的机器学习系统1的概略图。如图1和图2所示，机器学习系统1构成为包含机器学习装置10、机器人控制检查系统20、工件50。机器人控制检查系统20具有：机器人200、照相机210、照明220、控制装置300、缺陷检查装置400。这里，机器学习装置10、控制装置300和缺陷检查装置400如图1所示经由网络70连接，或者如图2所示经由连接接口而直接连接，能够彼此进行通信。另外，网络70例如是在工厂内构筑的LAN(Local Area Network：局域网)、互联网、公用电话、或者它们的组合。对于网络70中的具体通信方式，是有线连接还是无线连接中的哪一个等情况来说没有特别限定。

机器学习装置10是进行如下机器学习的装置：在使用了机器人控制检查系统20的作为被检查物的工件50的缺陷检查中，通过谨慎检查缺陷产生可能性高的部位、简单检查缺陷产生频率小的部位，由此使拍摄张数、拍摄部位最佳化，缩短检查的周期时间。

机器学习装置10例如可以通过个人计算机、服务器装置或者数值控制装置(CNC：Computerized Numerical Control)等来实现。对于机器学习装置10的详细情况将在后面进行描述。

对机器人控制检查系统20进行说明。如上所述，机器人控制检查系统20具有：机器人200、照相机210、照明220、控制装置300、缺陷检查装置400。

如图2所示，机器人210具有：机器人机械手201，其姿势被控制为各种位置和角度。机器人200例如按顺序把持工件50，机器人机械手201能够变更所把持的工件50的位置姿势，其中，所述工件50为在工件放置场所准备的多个被检查物。

另外，当工件50在其外形形状中具有多个被检查面时，对工件50具有的每一个被检查面进行缺陷检查。该情况下，可以对多个工件各自的每一个被检查面进行缺陷检查。因此，在本实施方式中，说明在工件50中进行规定的被检查面的缺陷检查的情况。

照相机210是用于拍摄工件50的被检查面的拍摄单元，例如由CCD图像传感器或CMOS图像传感器等拍摄元件构成。照相机210通过支承体213支承成规定姿势以便可以拍摄由机器人机械手201把持的工件50的被检查面。此外，照明220与照相机210一样通过支承体213支承为可以使光照射到由机器人机械手201把持的工件50的被检查面的规定姿势。照明220例如是从工件50的被检查面的周围照射光的环形照明或者圆顶照明、从一个方向照射光的条形照明等，根据被检查物来适当构成。

在本实施方式中，在被固定的状态下设置构成光学系统的照相机210和照明220。即，在机器人控制检查系统20中，通过利用机器人机械手201的动作来变更机器人机械手201所把持的工件50的位置姿势，利用照相机210来拍摄包含在工件50的被检查面上设定的拍摄点在内的拍摄区域。

另外，在本实施方式中，为了使工件50与照相机210的相对位置关系发生变化，而固定照相机210、使工件50移动，但是并非限定于此。例如，也可以固定工件50，使机器人机械手201把持照相机210，能够变更所把持的照相机210的位置姿势。

<控制装置300>

控制装置300一边使把持工件50的机器人机械手201沿着包含设定于被检查面上的多个拍摄点的移动路径进行移动，使得由照相机210拍摄的多个图像包罗工件50的被检查面，一边使照相机210在设定于工件50的被检查面上的各拍摄点进行拍摄。

更具体来说，例如像专利文献1所记载那样，针对与机器人200连接的控制装置300执行存储移动路径和多个拍摄点的教学步骤。在这样的教学步骤中示教了登记多个拍摄点、照相机210在各拍摄点处对拍摄点(拍摄区域)处的基于照明220的反射光进行拍摄，由此，移动路径和多个拍摄点(拍摄区域)作为动作程序而存储在与机器人200连接的控制装置300中。通过这样，控制装置300动作指示移动机器人机械手201，使得所登记的拍摄点为照相机210拍摄时的拍摄点。

图3表示控制装置300的功能框图。如图3所示，控制装置300具有：拍摄部位信息设定部310、移动路径计算部320、移动动作控制部330、拍摄控制部340、拍摄信息发送部350。

<关于拍摄部位>

在对拍摄部位信息设定部310的功能进行说明之前，参照图4A～图4E，对拍摄部位进行说明。图4A～图4E是表示(被机器人机械手201把持的)工件50的被检查面与照相机210的光轴(以及照明220的照明光)的位置关系的图。

在本实施方式中，如上所述，构成光学系统的照相机210和照明220设置为被固定的状态。即，在机器人控制检查系统20中，利用机器人机械手201的动作来变更机器人机械手201所把持的工件50的位置姿势，由此，利用照相机210来拍摄包含在工件50的被检查面上设定的拍摄点在内的拍摄区域。

这里，所谓拍摄点如图4A所示，是由照相机210进行拍摄时的位于光轴上的点，所谓拍摄区域表示通过照相机210拍摄的拍摄范围。此外，在从照相机210到拍摄点的距离较近时，如图4B所示的拍摄区域1那样拍摄区域狭小(视野狭小)，在将照相机210到拍摄点的距离远离时如拍摄区域2所示，拍摄区域宽广(视野宽广)。这样，在通过照相机210来拍摄工件50的被检查面时，在拍摄点处的焦点范围内，通过调整照相机210到拍摄点的距离，能够实现拍摄次数的增减。

另外，在通过照相机210来拍摄工件50的被检查面时，根据形成于工件50的被检查面的缺陷形状，需要设定照相机210和照明220与工件50的拍摄点之间的多个位置关系。

因此，除了包含拍摄点在内的拍摄区域相对于照相机210的光轴(以及照明220的照明光)例如图4C所示为垂直的拍摄以外，在同一拍摄点，以包含该拍摄点在内的拍摄区域相对于照相机210的光轴和照明220的照明光为不垂直的角度的方式，例如图4D或者图4E所示通过利用机器人机械手201的动作来调整机器人机械手201所把持的工件50的方向，由此可以提升缺陷检查的精度。

这样，在通过照相机210来拍摄工件50的被检查面时，通过指定拍摄点、从照相机210到该拍摄点的距离、以及该拍摄点处的工件50的方向(以下，将这些称为“拍摄部位信息”)，使得由机器人机械手201把持的工件50的被检查面与照相机210的光轴和照明220的照明光之间的位置关系唯一确定，并且使得由照相机210拍摄的、被检查面的拍摄区域唯一确定。

拍摄部位信息设定部310设定由机器人机械手201保持的工件50的被检查面上的拍摄部位信息。另外，如后面叙述那样，根据从机器学习装置100输出的行为信息或者最佳化行为信息来设定拍摄部位信息。

移动路径计算部320根据由拍摄部位信息设定部310设定出的被检查面的拍摄部位信息而唯一确定的由机器人机械手201把持的工件50的被检查面与照相机210的光轴和照明220的照明光之间的位置关系，来计算机器人机械手201的移动路径。

移动动作控制部330根据由拍摄部位信息设定部320计算出的机器人机械手201的移动路径，使机器人机械手201移动来控制成满足机器人机械手201所把持的工件50的被检查面与照相机210的光轴和照明220的照明光之间的位置关系，使得由拍摄部位信息设定部310设定的拍摄部位信息所包含的所有拍摄点为照相机210进行拍摄时的拍摄点。

拍摄控制部340在机器人机械手201通过移动动作控制部330到达拍摄部位信息所包含的拍摄部位时，控制照相机210拍摄基于照明220的反射光。

拍摄信息发送部350通过拍摄控制部340将拍摄到的工件50的图像与拍摄部位信息所包含的各拍摄部位对应起来，发送给缺陷检查装置400。另外，希望在每次进行拍摄时都发送拍摄到的工件50的图像。但是也可以将拍摄到的图像统一批量发送。

此外，拍摄信息发送部350还将拍摄部位信息和拍摄次数发送给机器学习装置10。

另外，控制装置300与机器人200、照相机210、以及照明220分别为一对一的组，能够通信地连接。另外，控制装置300与机器人200、照相机210、以及照明220可以经由连接接口直接连接，此外，也可以经由LAN(Local Area Network：局域网)等网络连接。

<缺陷检查装置400>

图5表示缺陷检查装置400的功能框图。如图5所示，缺陷检查装置400具有拍摄信息接收部410、缺陷检测部420、缺陷检测信息发送部430。

拍摄信息接收部410从控制装置300接收工件50的被检查面的与拍摄部位信息对应起来的工件50的图像。

拍摄检测部420对与拍摄部位信息所包含的拍摄部位对应起来的每一个图像，判定工件50是否有缺陷。在进行缺陷判定时，例如，可以根据亮度值来进行。在检测出工件50缺陷时，在该工件50中，针对与拍摄部位信息对应起来的每一个图像确定缺陷检测部位(位置信息)和缺陷数量。然后，通过将检查出缺陷的该图像中的位置信息例如变换为该工件50的被检查面上的位置信息，由此可以确定该工件50的被检查面上的缺陷检测部位。

缺陷检测信息发送部430将缺陷检测信息发送给机器学习装置10，该缺陷检测信息包含由缺陷检测部420检测出的与工件50的拍摄部位信息对应起来的每一个图像的缺陷检测部位(位置信息)和缺陷数量、以及在该工件50的被检查面上检测出的所有缺陷的位置信息和缺陷数量。另外，在无法通过缺陷检测部420检测工件50的缺陷时，将与该工件50相关的无缺陷检测信息发送给机器学习装置10。

机器学习装置10进行如下机器学习(强化学习)：在使用了机器人控制检查系统20的作为被检查物的工件50的缺陷检查中，如后面叙述那样，预先设定包含规定拍摄点在内的拍摄区域，以在开始机器学习时的初始状态s₀下观测的工件50的缺陷检测部位在内的缺陷检测信息为基准，调整包含拍摄点在内的拍摄区域，使得可以检测与初始状态s₀下观测的检测出的工件50的缺陷检测信息同等的缺陷信息，由此，减少拍摄张数、拍摄部位，缩短检查的周期时间。

接下来，在进行机器学习装置10所包含的各功能块的说明之前，对强化学习的基本结构进行说明。

在强化学习中，智能体(相当于本实施方式中的机器学习装置10)观测环境的状态，选择某个行为，环境根据该行为发生变化。随着环境的变化，提供某种回报，智能体学习更好的行为选择(决策)。

多数情况下，监督学习表示完全的正解，而强化学习中的回报是基于环境的一部分变化的片段值。

因此，智能体学习选择行为使得到将来的回报合计最大化。

这样，在强化学习中，通过学习行为，以行为给予环境的相互作用为基础来学习适当的行为，即学习用于使将来获得的回报最大化的学习的方法。这在本实施方式中表示，例如可以获得通过谨慎检查缺陷产生可能性高的部位、简单检查产生缺陷频率小的部位，由此使拍摄张数、拍摄部位最佳化，缩短检查的周期时间这样的对未来造成影响的行为。

这里，作为强化学习，可以使用任意的学习方法，在以下的说明中，以在某种环境的状态s下，使用Q学习(Q-learning)的情况为例进行说明，所述Q学习是学习选择行为a的价值Q(s、a)的方法。

在Q学习中，在某种状态s时，以从能够取得的行为a中，将价值Q(s、a)的最高的行为a选择为最佳的行为为目的。

但是，在最初开始Q学习的时间点，关于状态s与行为a的组合，完全不知晓价值Q(s、a)的正确值。因此，智能体在某种状态s下选择各种行为a，针对当时的行为a，根据给予的回报选择更好的行为，由此继续学习正确的价值Q(s、a)。

此外，由于想要使将来获得的回报合计最大化，因此目标是最终成为价值Q(s、a)＝E[Σ(γ^t)r_t]。这里，E[]表示期待值，t表示时刻、γ表示后述的称为折扣率的参数，r_t表示时刻t的回报，Σ是时刻t涉及的合计。该数学式中的期待值是状态按最佳行为变化时的期望值。但是在Q学习的过程中，由于不知道最佳行为，因此通过进行各种行为，一边探索一边进行强化学习。这样的价值Q(s、a)的更新式例如可以通过如下的“数学式1”来表示。

在上述的数学式(1)中，s_t表示时刻t的环境状态，a_t表示时刻t的行为。通过行为a_t，状态变化为s_t+1。r_t+1表示通过该状态的变化而得到的回报。此外，带有max的项是：在状态s_t+1下，将γ乘以选择出当时知道的Q值最高的行为a时的Q值。这里，γ是0＜γ≤1的参数，被称为折扣率。α是学习系数，设α的范围为0＜α≤1。

上述的数学式(1)表示如下方法：根据试行a_t的结果而反馈回来的回报r_t+1，更新状态s_t下的行为a_t的价值Q(s_t、a_t)。

该更新式表示了：若行为a_t导致的下一状态s_t+1下的最佳行为的价值max_a Q(s_t+1、a)比状态s_t下的行为a_t的价值Q(s_t、a_t)大，则增大价值Q(s_t、a_t)，反之如果小，则减小价值Q(s_t、a_t)。也就是说，使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳的行为价值。其中，其差因折扣率γ和回报r_t+1的存在方式而变化，基本上，是某种状态下的最佳的行为价值传播至前一个状态下的行为价值的结构。

这里，在Q学习中有以下方法：制作针对所有状态行为对(s、a)的价值Q(s、a)的表格，来进行学习。但是为了求出所有状态行为对的价值Q(s、a)的值使得状态数增多，Q学习收敛需要较多的时间。

因此，可以利用公知的称为DQN(Deep Q-Network)的技术。具体来说，通过使用适当的神经网络来构成价值函数Q，调整神经网络的参数，由此通过适当的神经网络来使价值函数Q近似来计算价值Q(s、a)的值。通过利用DQN，能够缩短Q学习收敛所需的时间。另外，对于DQN来说，例如在以下的非专利文献中存在详细的记载。

<非专利文献>

“Human-level control through deep reinforcement learning”，VolodymyrMnih1著[online]，[平成29年3月17日检索]，互联网〈URL：http：//files.davidqiu.com/research/nature14236.pdf〉

以上，机器学习装置10进行所说明的Q学习。

具体来说，机器学习装置10对于预先准备的多个工件50(以下，称为“学习用工件”)的每一个工件，将由从控制装置300(拍摄信息发送部350)发送的拍摄部位信息、从缺陷检查装置400(缺陷检测信息发送部430)发送的包含该拍摄部位信息涉及的拍摄部位处的缺陷检测部位在内的缺陷检测信息而确定的状态观测为环境状态s，在该环境状态s下，将拍摄部位信息(拍摄点与拍摄区域)的调整选择为行为a，来学习价值Q。

即，本实施方式中的机器学习以如下内容为前提：实际上由于难以对所有工件50进行学习，因此根据在预先准备的多个学习用工件50的每一个中检测出的缺陷检测信息的集合，在相同的工件50中确定容易产生缺陷的部位、容易发现缺陷的角度和位置(所谓的标本调查)。因此，希望在准备多个学习用工件50时，以标本(多个学习用工件50)更好地表示了该工件50的母本集特征的方式、也就是说以成为母本集的更好缩影的方式来进行提取。以下，将学习用工件50的个数设为M个，各学习用工件50通过索引k(1≤k≤M)来识别。

机器学习装置10为了学习价值Q，每当进行行为a时都计算回报。并且，机器学习装置10以例如使到将来的回报合计为最大的方式来试错性地探索最佳的行为a。通过这样机器学习装置10能够针对环境状态s选择最佳的行为a。

此时，机器学习装置10为了判定在各环境状态s下观测的缺陷检测信息是否遗漏，而需要在开始机器学习时，针对该多个工件50检测正确的缺陷检测信息。

因此，机器学习装置10预先设定初始状态s₀，以初始状态s₀下观测的缺陷检测信息为基准，判定开始机器学习后的各状态s下的缺陷检测信息。并且，根据状态s下的缺陷检测信息的判定来计算每当进行行为a时计算的回报。

这样，机器学习装置10学习价值函数Q。并且，根据学习到的价值函数Q，选择应用于某种状态s的行为a中的、Q值为最大的行为a，例如，能够获得可以检测与初始状态s₀下观测的缺陷检测信息相同的缺陷检测信息的、最佳的拍摄部位信息(拍摄点与拍摄区域)。

<机器学习装置10的功能块>

接下来，参照图6对进行上述强化学习的机器学习装置10的功能块进行说明。

如图6所示，机器学习装置10具有：状态信息取得部110、学习部120、行为信息输出部130、价值函数存储部140、最佳化行为信息输出部150。此外，学习部120具有：回报计算部121、价值函数更新部122、行为信息生成部123。

状态信息取得部110分别从控制装置300和缺陷检查装置400取得状态信息s，该状态信息s包含设定给控制装置300的拍摄部位信息(拍摄点和拍摄区域)、拍摄次数、由缺陷检查装置400检查的学习用工件50(k)(1≤k≤M)的缺陷检测信息。该状态信息s对应于Q学习中的环境状态s。

状态信息取得部110针对学习部120输出取得到的状态信息s。

<初始状态s₀下的拍摄部位信息>

每当机器学习装置10开始机器学习时，例如以如下方式设定初始状态s₀。

例如，如图4A所示，为了避免检查遗漏和缺陷忽视，初始状态s₀所含的拍摄部位信息表示的拍摄部位优选以缩小拍摄区域、均等地拍摄工件50的被检查面的方式而将拍摄点设定得细致。此时，例如可以将拍摄点和拍摄区域设定成使各拍摄点的拍摄区域与附近的拍摄点的拍摄区域重合。并且，如图4C～图4E所示，由于考虑到照相机210和照明220与学习用工件50的被检查面的位置关系有关的缺陷拍照方法，因此优选在相同拍摄点设定多个方向以使学习用工件50的方向不同。另外，在本实施方式中，关于拍摄点和拍摄区域如图4A所示以均设定的方式进行了设定，但是并非限定于此。只要能细致地拍摄整体而没有检查遗漏和缺陷忽视即可，拍摄点和拍摄区域可以不均等。

这里，通过索引来识别与初始状态s₀所含的拍摄部位信息对应的拍摄部位(拍摄点、照相机210到该拍摄点的距离、该拍摄点处的学习用工件50的方向)。

即，在初始状态s₀下，设定N个拍摄点(i)(1≤i≤N)，将拍摄点(i)处的照相机210到该拍摄点的所设定的距离设为D(i)，将拍摄点(i)处的学习用工件50的方向设为R(i、j)。这里，拍摄点(i)处的学习用工件50的方向被定义为1以上的n(i)个数量。

于是，如上所述，拍摄点(i)处的各拍摄区域(i、j){1≤i≤N、1≤j≤n(i)}，通过拍摄点(i)、照相机210到拍摄点(i)的设定出的距离D(i)和拍摄点(i)处的学习用工件50的方向R(i、j)而被唯一确定。

<初始状态s₀下的缺陷检测信息>

针对各学习用工件50(k)(1≤k≤M)，按初始状态s₀所含的拍摄区域(i、j){1≤i≤N、1≤j≤n(i)}来检测初始状态s₀下的缺陷检测信息。

关于初始状态s₀下的受伤检测信息，将包含针对每一个学习用工件50(k)检测出的被检查面上的所有缺陷的位置信息和缺陷的数量在内的缺陷检测信息作为缺陷检测表_初始状态s₀而存储于存储部中(未图示)。

另外，通过利用后述的机器学习(强化学习)来调整上述的初始状态s₀所含的拍摄区域(i、j){1≤i≤N、1≤j≤n(i)}，求出具有与初始状态s₀下的缺陷检查同等精度的、且拍摄次数为最小的拍摄点和拍摄区域。更具体来说，在状态s下，将包含针对每一个学习用工件50(k)检测出的被检查面上的所有缺陷的位置信息和缺陷数量在内的缺陷检测信息作为缺陷检测表_状态s而存储于存储部中(未图示)。

学习部120是在某种环境状态s下，对选择某个行为a时的价值Q(s、a)进行学习的部分。为了进行该学习，学习部120具有：回报计算部121、价值函数更新部122、行为信息生成部123。

回报计算部121计算在某种状态s下选择了行为a时的回报。将执行了行为a时的状态设为s’。

针对每一个学习用工件50(k)比较缺陷检测表_状态s’和缺陷检测表_初始状态s₀，由此，判断状态s’所含的缺陷检测信息与初始状态s₀所含的缺陷检测信息是否表示相同的检测结果(例如，学习用工件50(k)的被检查面中缺陷检测部位的个数相同的结果)，在表示了相同的检测结果时、且状态s’所含的拍摄次数比初始状态s₀下的拍摄次数少时，回报计算部121使回报r的值为正值。更具体地，回报计算部121通过针对每一个学习用工件50(k)比较缺陷检测表_状态s与缺陷检测表_初始状态s₀，由此判断是否是相同的检测结果。

另外，在状态s’所含的学习用工件50(k)的缺陷检测信息与初始状态s₀所含的学习用工件50(k)的缺陷检测信息表示了相同的检测结果(例如，学习用工件50(k)的被检查面中缺陷检测部位的个数相同的结果)时、且状态s’所含的拍摄次数与初始状态s₀下的拍摄次数相等时，使回报r的值为零。

反之，在状态s’所含的学习用工件50(k)的缺陷检测信息比初始状态s₀所含的学习用工件50(k)的缺陷检测信息少时(例如，学习用工件50(k)的被检查面中缺陷检测部位的个数少时)，使回报r的值为负值。另外，本实施方式中的学习以缺陷检测信息相同为前提，因此希望不选择回报为负值的行为。因此，作为负值，例如可以设为较大的负值。

另外，在状态s’所含的学习用工件50(k)的缺陷检测信息与初始状态s₀所含的学习用工件50(k)的缺陷检测信息表示相同的检测结果(例如，工件50的被检查面中缺陷检测部位的个数相同的结果)时，状态s’的拍摄次数比初始状态s₀下的拍摄次数越少，使回报r的值越大。

价值函数更新部122通过根据状态s、行为a、将行为a应用于状态s时的状态s’、如上所述计算出的回报值来进行Q学习，由此更新价值函数存储部140存储的价值函数Q。

价值函数Q的更新可以通过在线学习来进行，也可以通过批量学习来进行，还可以通过小批量学习来进行。

所谓在线学习是通过将某种行为a应用于当前的状态s，在状态s向新的状态s’转移时，立即进行价值函数Q的更新这样的学习方法。此外，所谓批量学习是通过将某种行为a应用于当前的状态s，反复进行状态s向新状态s’转移，收集学习用的数据，使用收集到的所有学习用数据，来进行价值函数Q的更新这样的学习方法。此外，所谓小批量学习是在线学习与批量学习中间的、每当积攒了某种程度的学习用数据时进行价值函数Q的更新这样的学习方法。

行为信息生成部123针对当前的状态s选择Q学习过程中的行为a。行为信息生成部123在Q学习的过程中，生成使拍摄次数减少的行为a。例如图7所示，行为信息生成部123在缺陷检测表_初始状态s₀下以几乎所有的学习用工件50(k)(1≤k≤M)，对没有出现缺陷检测部位的拍摄部位，在聚焦的范围内，生成调整成增大从照相机210到拍摄点的距离的行为a。通过使视野变得宽广，在覆盖其他拍摄部位时，可以减少拍摄部位数量。

更具体来说，如上所述，针对初始状态s₀所含的每一个拍摄区域(i、j){1≤i≤N、1≤j≤n(i)}检测初始状态s₀下的学习用工件50(k)(1≤k≤M)的缺陷检测信息。

可以通过调整初始状态s₀所含的拍摄区域(i、j){1≤i≤N、1≤j≤n(i)}来生成行为a。

即，例如在拍摄点(i)处，在能够通过多个方向(≤n(i))来检测相同的缺陷时，生成调整成限定方向的行为a。

此外，例如图7所示，当在多个拍摄区域几乎没有出现学习用工件50(k)(1≤k≤M)的缺陷检测部位时，选择多个拍摄区域所含的拍摄点(i)，在聚焦范围内，生成调整成增大从照相机210到拍摄点(i)的距离的行为a。通过扩大包含拍摄点(i)在内的拍摄区域，可以省略位于拍摄点(i)附近的拍摄点(l)处的拍摄，生成减少拍摄部位数量的行为a。

此外，行为信息生成部123可以采取随机选择行为a这样的策略。此外，还可以通过如下众所周知的方法来获取选择行为a的策略：在当前推定的行为a的价值中，选择价值Q(s、a)最高的行为a的贪婪算法；通过某个较小的概率ε随机选择行为a，除此之外选择价值Q(s、a)最高的行为a的ε贪婪算法。

行为信息输出部130针对控制装置300的拍摄部位设定部310发送从学习部120输出的行为信息a。通过这样，机器人控制检查系统20转移到下一状态s’(即基于修正后的拍摄部位信息的、利用了拍摄部位处的拍摄与该拍摄到的图像的缺陷检查)。

<关于行为a的生成时刻>

这里，对生成行为信息计算部130的行为a的时刻进行说明。在本实施方式中，通过比较(状态s所含的)所有学习用工件50(k)(1≤k≤M)的缺陷检测信息和初始状态s₀所含的所有学习用工件50(k)(1≤k≤M)的缺陷检测信息，可以生成更有效的行为a，因此，行为信息计算部130在取得(状态s所含的)所有学习用工件50(k)(1≤k≤M)的缺陷检测信息之后，生成行为a。

与之相对地，如上所述，信息制作回报计算部121在本次的状态s所含的、任意的m(1≤m≤M)中的学习用工件50(m)的缺陷检测部位比初始状态s₀所含的该学习用工件50(m)的缺陷检测部位少时，可以不论以后的学习用工件50(k)(k＞m)的缺陷检测信息如何，都使回报为负值。

因此，行为信息计算部130在本次的状态s所含的、任意的m(1≤m≤M)的学习用工件50(m)的缺陷检测部位比初始状态s₀所含的该学习用工件50(m)的缺陷检测部位少时，不论以后的学习用工件50(k)(k＞m)的缺陷检测信息如何，都可以生成行为a。通过这样，省略本次的状态s下的、学习用工件50(k)(k＞m)的缺陷检测作业，通过行为信息输出部130转移到下一状态s’(即基于修正后的拍摄部位信息的、利用了拍摄部位处的拍摄和该拍摄到的图像的缺陷检测)。由此，可以缩短机器学习时间。

价值函数存储部140是存储价值函数Q的存储装置。价值函数Q例如可以按每一状态s、行为a而存储为表。存储于价值函数存储部140中的价值函数Q通过价值函数更新部122而被更新。此外，存储于价值函数存储部140中的价值函数Q也可以在与其他机器学习装置100之间进行共享。如果设置成在多个机器学习装置100之间共享价值函数Q，则能够通过各机器学习装置100分散地进行强化学习，因此能够提升强化学习的效率。

最佳化行为信息输出部150根据价值函数更新部122进行Q学习而更新后的价值函数Q，生成价值Q(s、a)为最大的、调整拍摄部位信息的行为信息a(以下，称为“最佳化行为信息”)

更具体来说，最佳化行为信息输出部150取得价值函数存储部140中存储的价值函数Q。该价值函数Q如上所述是通过价值函数更新部122进行Q学习而更新后的价值函数。并且，最佳化行为信息输出部150根据价值函数Q、初始状态s₀，生成最佳化行为信息，对机器人控制检查系统20输出所生成的最佳化行为信息。在该最佳化行为信息中，与行为信息输出部130在Q学习的过程中输出的行为信息一样，包含调整拍摄部位信息的行为信息。

在机器人控制检查系统20中，根据该最佳化行为信息来修正拍摄部位信息(拍摄点与拍摄区域)。

如上所述，通过利用机器学习装置10，能够使机器人控制检查系统20中的拍摄张数、拍摄部位最佳化。

以上，对机器学习装置10、控制装置300、缺陷检查装置400所含的功能块进行了说明。

为了实现这些功能块，机器学习装置10、控制装置300、缺陷检查装置400具有CPU(Central Processing Unit：中央处理单元)等运算处理装置。此外，机器学习装置10、控制装置300、缺陷检查装置400还具有存储了应用软件和OS(Operating System：操作系统)等各种控制用程序的HDD(Hard Disk Drive：硬盘驱动器)等辅助存储装置、用于存储在运算处理装置执行程序之后临时需要的数据的RAM(Random Access Memory：随机存取存储器)这样的主存储装置。

并且，关于机器学习装置10、控制装置300、缺陷检查装置400的运算处理装置从辅助存储装置读入应用软件和OS，一边在主存储装置上展开所读入的应用软件和OS，一边进行根据了这些应用软件和OS的运算处理。此外，机器学习装置10、控制装置300、缺陷检查装置400根据该运算结果，控制各装置具有的各种硬件。由此，实现本实施方式的功能块。也就是说，本实施方式可以通过硬件与软件协作来实现。

作为具体例，机器学习装置10可以通过将用于实现本实施方式的应用软件装入到一般的个人计算机来实现。此外，控制装置300可以通过将用于实现本实施方式的应用软件装入到一般的机器人100的控制装置来实现。此外，缺陷检查装置400可以通过将用于实现本实施方式的应用软件装入到一般的个人计算机来实现。

另外，关于机器学习装置10，由于伴随机器学习的运算量较多，因此例如在个人计算机中搭载GPU(Graphics Processing Units：图形处理单元)，通过称为GPGPU(General-Purpose computing on Graphics Processing Units：通用图形处理单元)的技术，若将GPU用于伴随机器学习的运算处理，则可以进行高速处理。并且，为了进行更高速的处理，机器学习装置10使用多台搭载了这样的GPU的计算机来构筑计算机集群，通过该计算机集群所含的多台计算机来进行并行处理。

接下来，参照图8的流程图对Q学习时的机器学习装置10进行说明。另外，在开始步骤S11之前，事先设定作为标本的多个学习用工件50(k)(1≤k≤M)、初始状态s₀所含的拍摄部位信息，此外检测初始状态s₀下的缺陷检测信息，作为缺陷检测表_初始状态s₀而存储于存储部(未图示)中。

在步骤S11中，状态信息取得部110取得状态信息s，该状态信息s包含设定给控制装置300的拍摄部位信息、由缺陷检查装置400检测的学习用工件50(k)(1≤k≤M)的缺陷检测信息。取得的状态信息被输出给价值函数更新部122和行为信息生成部123。如上所述，该状态信息s是相当于Q学习中的环境状态s的信息。

在步骤S12中，行为信息生成部123生成新的行为信息a，经由行为信息输出部130将生成的新的行为信息a输出给控制装置300的拍摄部位设定部310。行为信息生成部123根据上述策略，输出新的行为信息a。另外，接收到行为信息a的控制装置300通过基于接收到的行为信息a而修正了当前状态s涉及的拍摄部位信息后的状态s’，使机器人控制检查系统20执行学习用工件50(k)(1≤k≤M)的缺陷检查处理。如上所述，该行为信息相当于Q学习中的行为a。

在步骤S13中，状态信息取得部110从机器人控制检查系统20取得新的状态s’下的状态信息s’。

将取得到的状态信息s’输出给回报计算部121。

在步骤S14中，回报计算部121根据初始状态s₀所含的缺陷检测信息和拍摄次数、本次的状态信息s’所含的缺陷检测信息和拍摄次数来计算回报。

在步骤S15中，判定回报为正值、负值、还是为零。

在回报为正值时，向步骤S16前进。然后，在步骤S16作为回报将正值输出给价值函数更新部122。

在回报为零时，向步骤S17前进。然后，在步骤S17作为回报将零输出给价值函数更新部122。

在回报为负值时，向步骤S18前进。然后，在步骤S18作为回报将负值输出给价值函数更新部122。

在步骤S16、步骤S17和步骤S18中的某一个结束时处理向步骤S19前进。

在步骤S19中，根据步骤S16、步骤S17和步骤S18中的某一个步骤输出的回报值，价值函数更新部122更新存储于价值函数存储部140中的价值函数Q。另外，步骤S19示例了在线更新，但是也可以代替在线更新而置换为批量更新或者小批量更新。

在步骤S20中，学习部120判定是否满足了结束强化学习的条件。结束强化学习的条件例如设为以规定次数重复上述处理、或以规定时间重复上述处理。在还不满足结束强化学习的条件时，在步骤S20中判定为否，处理再次返回到步骤S11。然后，通过重复上述处理，价值函数Q继续收敛为适当值。

另一方面，在满足了结束强化学习的条件时，在步骤S20中判定为是，处理结束。

以上，通过参照图8所说明的动作，在本实施方式中，通过利用机器学习装置100，可以获得用于使拍摄张数、拍摄部位最佳化的价值函数。

接下来，参照图9的流程图，对最佳化行为信息输出部150进行的最佳化行为信息生成时的动作进行说明。

首先，在步骤S31中，状态信息取得部110从机器人控制检查系统20取得状态信息s。

在步骤S32中，最佳化行为信息输出部150取得存储于价值函数存储部140中的价值函数Q。价值函数Q如上所述通过价值函数更新部122进行Q学习而进行了更新。

在步骤S33中，最佳化行为信息输出部150根据在步骤S31中取得的状态信息s所含的拍摄部位信息、在步骤S32中取得的价值函数Q，生成最佳化行为信息。然后，最佳化行为信息输出部150对机器人控制检查系统20(控制装置300)的拍摄部位设定部310输出生成的最佳化行为信息。该最佳化行为信息是用于使拍摄张数、拍摄部位最佳化的信息。

在机器人控制检查系统20中，根据该最佳化行为信息，使拍摄张数、拍摄部位最佳化，缩短检查的周期时间。

如上所述，通过利用本发明涉及的机器学习装置10，谨慎检查缺陷产生可能性高的部位、简单检查缺陷产生频率小的部位或重要性低的部位，由此，能够使拍摄张数、拍摄部位最佳化，缩短检查的周期时间。

<硬件与软件的协作>

另外，上述机器学习系统1所含的各装置中的每一个，可以通过硬件、软件或者它们的组合来实现。此外，通过上述机器学习系统1所含的各装置中的每一个进行的机器学习方法也可以通过硬件、软件或者它们的组合来实现。这里，所谓通过软件来实现表示计算机通过读入程序来执行从而实现。

可以使用各种类型的非临时性的计算机可读介质(non-transitory computerreadable medium)来存储程序而提供给计算机。非临时性的计算机可读介质包含各种类型的有实体的存储介质(tangible storage medium)。非临时性的计算机可读介质的示例包含：磁存储介质(例如，软盘、磁带、硬盘驱动器)、磁-光存储介质(例如，光盘)、CD-ROM(ReadOnly Memory)、CD-R、CD-R/W、半导体存储器(例如，掩膜ROM、PROM(Programmable ROM：可编程ROM)、EPROM(Erasable PROM：可擦写PROM)、闪存ROM、RAM(random access memory))。此外，可以通过各种类型的临时性的计算机可读介质(transitory computer readablemedium)将程序供给到计算机。临时性的计算机可读介质的示例包含电气信号、光信号、电磁波。临时性的计算机可读介质可以经由电线和光纤等有线通信路、或者无线通信路将程序供给到计算机。

此外，上述实施方式是本发明的优选实施方式，但是并非将本发明的范围仅限定于上述实施方式，可以在不脱离本发明精神的范围内以实施了各种变形的方式来实施。

<变形例1>

在上述实施方式中，通过调整初始状态s₀所含的拍摄区域(i、j){1≤i≤N、1≤j≤n(i)}，进行具有与初始状态s₀下的缺陷检查同等的精度、且求出拍摄次数为最小的拍摄点和拍摄区域的机器学习。与之相对地，关于被检查面的规定区域中的缺陷检查，也可以进行具有与初始状态s₀下的缺陷检查同等的精度、且求出拍摄次数为最小的拍摄点和拍摄区域的机器学习。

此时，可以在由缺陷检查装置400检测出的、被检查面的规定区域(例如，除了重要性低的部位的区域)中的缺陷检测部位的个数与开始机器学习时的初始状态s₀下的缺陷检查装置400检测出的、被检查面的规定区域中的缺陷检测部位的个数一致时，当拍摄次数比初始状态s₀下的拍摄次数少时，回报计算部121使回报值为正值，在由缺陷检查装置400检测出的、被检查面的规定区域中的缺陷检测部位的个数比开始机器学习时的初始状态s₀下的缺陷检查装置400检测出的、被检查面的规定区域中的缺陷检测部位的个数少时，使回报值为负值。通过这样，关于被检查面的规定区域中的缺陷检查，可以进行具有与初始装置s₀下的缺陷检查同等的精度、且拍摄次数最小的最佳化。

<变形例2>

在上述实施方式中，在进行缺陷判定时，例如，根据预先设定的亮度值来进行，但是并非限定于此。例如，作为工件50的被检查面上的缺陷的判定方法，可以用相同光学条件，与拍摄到的无缺陷工件50的图像进行比较，来进行缺陷判定。

在应用该方法时，例如，可以如下方式进行。即，当准备多个学习用工件50(k)(1≤k≤M)时，通过准备1个以上的无缺陷工件50，在状态s下，以拍摄了1个以上的无缺陷工件50而得的图像为基准，评价与拍摄了学习用工件50(k)(1≤k≤M)而得的图像之间的差分，由此可以用相同光学条件进行状态s下的缺陷检测。

<变形例3>

在上述实施方式中，回报计算部121在回报是正值时拍摄次数越少使回报值越大，但是不限定于此。例如，回报计算部121可以在回报是正值时工件检查涉及的周期时间越小，使回报值越大。

<变形例4>

在上述实施方式中，假设通过与控制装置300或缺陷检查装置400不同的装置来实现机器学习装置10，例如可以通过控制装置300或缺陷检查装置400来实现机器学习装置10的一部分功能或者全部功能。

<变形例5>

在上述实施方式中，设为机器学习装置10具有进行学习的功能和生成行为信息的功能，但也可以通过其他装置来进行学习的功能、生成行为信息的功能。

<变形例6>

在上述实施方式中，机器学习装置10与控制装置300作为一对一的组能够通信地连接，例如一台机器学习装置10经由网络70能够通信地与多个控制装置300连接，实施各控制装置300的机器学习。

此时，可以使机器学习装置10的各功能为适当分散到多个服务器的分散处理系统。此外，也可以在云端上利用虚拟服务器功能等来实现机器学习装置10的各功能。

此外，在多个相同型号名称、相同结构、或者同一系列的控制装置300-1～300-n分别与同一机器人200连接时，可以共享各机器学习装置10-1～10-n中的学习结果。通过这样，能够构筑更合适的模型。

Claims

1.一种机器学习装置，其针对机器人控制系统进行强化学习，该机器人控制系统具有：

照明单元，其对被检查物的被检查面照射照明光；

拍摄单元，其拍摄所述被检查面；

机器人，其具有机器人机械手；

控制部，其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的多个拍摄点的拍摄区域的移动路径进行移动，使得由所述拍摄单元拍摄的多个图像包罗所述被检查面，一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄；以及

缺陷检查部，其在所述拍摄点根据由所述拍摄单元拍摄了所述被检查面而得的图像，来检测所述被检查面上的缺陷，

其特征在于，所述机器学习装置具有：

行为信息输出部，其对所述控制部输出包含拍摄区域的调整信息的行为信息，该拍摄区域包含所述拍摄点；

状态信息取得部，针对预先准备的多个被检查物中的每一个被检查物，所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动，所述状态信息取得部根据由所述拍摄单元拍摄了所述被检查面而得的图像，从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息，所述缺陷检测信息含有由所述缺陷检查部检测出的所述被检查面的缺陷检测部位；

回报输出部，其根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数，输出强化学习中的回报值；以及

价值函数更新部，其根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。

2.根据权利要求1所述的机器学习装置，其特征在于，

在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时，且所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数少时，所述回报输出部使所述回报值为正值，

在由所述缺陷检查部检测出的缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数少时，所述回报输出部使所述回报值为负值。

3.根据权利要求2所述的机器学习装置，其特征在于，

在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时，所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少，所述回报输出部使所述回报值越大。

4.根据权利要求2或3所述的机器学习装置，其特征在于，

所述机器学习装置具有：最佳化行为信息输出部，其根据由所述价值函数更新部更新后的所述行为价值函数，生成所述拍摄次数为最小的最佳化行为信息，该最佳化行为信息是所述缺陷检测部位的个数与所述机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致的行为信息。

5.根据权利要求1所述的机器学习装置，其特征在于，

在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致时，在拍摄次数比所述机器学习开始时的初始状态下的拍摄次数少时，所述回报输出部使所述回报值为正值，

在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数少时，所述回报输出部使所述回报值为负值。

6.根据权利要求5所述的机器学习装置，其特征在于，

在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致时，所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少，所述回报输出部使所述回报值越大。

7.根据权利要求5或6所述的机器学习装置，其特征在于，

所述机器学习装置具有：最佳化行为信息输出部，其根据由所述价值函数更新部更新后的所述行为价值函数，生成所述拍摄次数为最小的最佳化行为信息，该最佳化行为信息是所述被检查面的规定区域中所述缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致的行为信息。

8.根据权利要求1～3中任一项所述的机器学习装置，其特征在于，

所述机器学习装置与其他机器学习装置之间共享所述行为价值函数，

所述价值函数更新部更新所共享的所述行为价值函数。

9.一种机器人控制系统，其特征在于，

所述机器人控制系统具有权利要求1～8中任一项所述的机器学习装置。

10.一种机器学习装置的机器学习方法，该机器学习装置针对机器人控制系统进行强化学习，该机器人控制系统具有：

照明单元，其对被检查物的被检查面照射照明光；

拍摄单元，其拍摄所述被检查面；

机器人，其具有机器人机械手；

控制部，其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的拍摄点的拍摄区域的移动路径进行移动，使得由所述拍摄单元拍摄的多个图像包罗所述被检查面，一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄；以及

其特征在于，所述机器学习方法具有以下步骤：

行为信息输出步骤，对所述控制部输出包含拍摄区域的调整信息的行为信息，该拍摄区域包含所述拍摄点；

状态信息取得步骤，针对预先准备的多个被检查物中的每一个被检查物，所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动，根据由所述拍摄单元拍摄了所述被检查面而得的图像，从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息，所述缺陷检测信息含有由所述缺陷检查部检测出的缺陷检测部位；

回报输出步骤，根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数，输出强化学习中的回报值；以及

价值函数更新步骤，根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。