CN109146082B - 机器学习装置、机器人控制系统和机器学习方法 - Google Patents

机器学习装置、机器人控制系统和机器学习方法 Download PDF

Info

Publication number
CN109146082B
CN109146082B CN201810662342.8A CN201810662342A CN109146082B CN 109146082 B CN109146082 B CN 109146082B CN 201810662342 A CN201810662342 A CN 201810662342A CN 109146082 B CN109146082 B CN 109146082B
Authority
CN
China
Prior art keywords
imaging
unit
machine learning
inspected
defect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810662342.8A
Other languages
English (en)
Other versions
CN109146082A (zh
Inventor
太田悠介
藁科文和
高桥广光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of CN109146082A publication Critical patent/CN109146082A/zh
Application granted granted Critical
Publication of CN109146082B publication Critical patent/CN109146082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/88Investigating the presence of flaws or contamination
    • G01N21/8851Scan or image signal processing specially adapted therefor, e.g. for scan signal adjustment, for detecting different kinds of defects, for compensating for structures, markings, edges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/021Optical sensing devices
    • B25J19/023Optical sensing devices including video camera means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1674Programme controls characterised by safety, monitoring, diagnostic
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/88Investigating the presence of flaws or contamination
    • G01N21/8851Scan or image signal processing specially adapted therefor, e.g. for scan signal adjustment, for detecting different kinds of defects, for compensating for structures, markings, edges
    • G01N2021/8887Scan or image signal processing specially adapted therefor, e.g. for scan signal adjustment, for detecting different kinds of defects, for compensating for structures, markings, edges based on image processing techniques
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/37Measurements
    • G05B2219/37448Inspection process planner
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/45Nc applications
    • G05B2219/45066Inspection robot
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30164Workpiece; Machine component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Signal Processing (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Manipulator (AREA)
  • Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种用于进行使用了机器人的缺陷检查的机器学习装置、机器人控制系统以及机器学习方法。机器学习装置具有:状态信息取得部,其从机器人控制检查系统取得包含缺陷检测信息、机器人机械手的移动路径和工件的拍摄点、照相机的拍摄次数在内的状态信息s,机器人控制检查系统使机器人机械手把持工件或者照相机来进行工件的缺陷检查,缺陷检测信息包含工件的缺陷检测部位;行为信息输出部,其输出状态s的调整信息即行为a;回报计算部,其根据包含缺陷检测部位的缺陷检测信息,计算强化学习中的回报值;价值函数更新部,其根据由回报计算部计算出的回报值、状态s、行为a来进行强化学习,由此更新行为价值函数Q。

Description

机器学习装置、机器人控制系统和机器学习方法
技术领域
本发明涉及机器学习装置、机器人控制系统和机器学习方法。
背景技术
例如专利文献1所记载那样,以往是使机器人把持工件和照相机来进行工件的缺陷检查。例如,像专利文献1所记载那样,首先,作为准备作业,对与机器人连接的动作处理部执行用于存储检查路径和多个拍摄地点的教学步骤(teaching step)。在这样的教学步骤中示教了登记多个拍摄点、设置于机器人末端的CCD照相机在各拍摄点处检查拍摄点处的基于照明单元的反射光、将检测出的光学信息作为脉冲信息来进行输出,由此,检查路径和多个拍摄点作为动作程序而被存储在与机器人连接的动作处理部的教学部中。
这样,在使用了机器人的缺陷检查中,需要示教机器人的位置,指定工件的拍摄部位。作为拍摄部位的指定方法,有在想要检查的范围内均等地进行拍摄的方法,但是当仔细检查整个范围时,存在以下两点问题。
第一,由于在缺陷检查中微小的缺陷也不会忽略,因此多是在提升了照相机分辨能力的状态下进行检查,多是缩小视野大小来实施检查。因此,一次拍摄下可以检查的范围狭小,需要以狭小的间隔来重复拍摄。第二,缺陷的拍照方法因照相机/工件/照明的位置关系不同而不同,有可能因它们的位置关系而忽略缺陷。因此,为了减少缺陷的忽略,需要在各部位一边改变照相机/工件/照明的位置关系一边进行拍摄。
现有技术文献
专利文献1:日本特开2009-014357号公报
这样,在使用了机器人的缺陷检查中,为了使微小的缺陷也不会被忽略,在指定工件的拍摄部位时,要决定拍摄点(拍摄部位)使得能精细地拍摄整个被检查面,并且要考虑照相机/照明与工件的位置关系有关的缺陷的拍照方法,因此,需要以在同一部位使工件的方向不同(即,照明的方向不同)的方式示教多个机器人位置。
与之相对地,很多时候由于工件的加工条件等原因,导致在哪个部位产生缺陷(缺陷的产生部位)、产生何种形状(特征)的缺陷(缺陷的种类)等存在某种趋势。由于工件的部位不同,导致容易带缺陷程度不同、功能上/外观上要求的检查精度不同。因此,例如在由人进行检查时,能够通过积累经验,谨慎观察应该注意的部位,对不怎么产生不良的部位一扫而过。
即便是使用了机器人的缺陷检查,也与人进行检查的情况一样,希望对缺陷产生可能性高的部位谨慎检查、对缺陷产生频率小的部位简单检查,由此,使拍摄张数、拍摄部位最佳化,缩短检查的周期时间。
发明内容
本发明是鉴于以上课题而完成的,其目的在于提供一种机器学习装置、机器人控制系统和机器学习方法,在使用了机器人的缺陷检查中,对缺陷产生可能性高的部位谨慎检查、对缺陷产生频率小的部位简单检查,由此,使拍摄张数、拍摄部位最佳化,缩短检查的周期时间。
(1)本发明涉及一种机器学习装置(例如,后述的机器学习装置10),其针对机器人控制系统(例如,后述的机器人控制检查系统20)进行强化学习,该机器人控制系统具有:照明单元(例如,后述的照明220),其对被检查物(例如,后述的工件50)的被检查面照射照明光;拍摄单元(例如,后述的照相机210),其拍摄所述被检查面;机器人(例如,后述的机器人200),其具有机器人机械手(例如,后述的机器人机械手201);控制部(例如,后述的控制装置300),其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的多个拍摄点的拍摄区域的移动路径进行移动,使得由所述拍摄单元拍摄的多个图像包罗所述被检查面,一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄;以及缺陷检查部(例如,后述的缺陷检查装置400),其在所述拍摄点根据由所述拍摄单元拍摄了所述被检查面而得的图像,来检测所述被检查面上的缺陷,其中,所述机器学习装置具有:行为信息输出部(例如,后述的行为信息输出部130),其对所述控制部输出包含拍摄区域的调整信息的行为信息,该拍摄区域包含所述拍摄点;状态信息取得部(例如,后述的状态信息取得部110),针对预先准备的多个被检查物中的每一个被检查物,所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动,所述状态信息取得部根据由所述拍摄单元拍摄了所述被检查面而得的图像,从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息,所述缺陷检测信息含有由所述缺陷检查部检测出的所述被检查面的缺陷检测部位;回报输出部(例如,后述的回报计算部121),其根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数,输出强化学习中的回报值;以及价值函数更新部(例如,后述的价值函数更新部122),其根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。
(2)在(1)所述的机器学习装置中,可以是,在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时,且所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数少时,所述回报输出部使所述回报值为正值,在由所述缺陷检查部检测出的缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数少时,所述回报输出部使所述回报值为负值。
(3)在(2)所述的机器学习装置中,可以是,在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时,所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少,所述回报输出部使所述回报值越大。
(4)在(2)或(3)所述的机器学习装置中,可以是,所述机器学习装置具有:最佳化行为信息输出部,其根据由所述价值函数更新部更新后的所述行为价值函数,生成所述拍摄次数为最小的最佳化行为信息,该最佳化行为信息是所述缺陷检测部位的个数与所述机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致的行为信息。
(5)在(1)所述的机器学习装置中,可以是,在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致时,在拍摄次数比所述机器学习开始时的初始状态下的拍摄次数少时,所述回报输出部使所述回报值为正值,在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数少时,所述回报输出部使所述回报值为负值。
(6)在(5)所述的机器学习装置中,可以是,在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致时,所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少,所述回报输出部使所述回报值越大。
(7)在(5)或(6)所述的机器学习装置中,可以是,所述机器学习装置具有:最佳化行为信息输出部,其根据由所述价值函数更新部更新后的所述行为价值函数,生成所述拍摄次数为最小的最佳化行为信息,该最佳化行为信息是所述被检查面的规定区域中所述缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致的行为信息。
(8)在(1)~(7)中任一项所述的机器学习装置中,可以是,所述机器学习装置与其他机器学习装置之间共享所述行为价值函数,所述价值函数更新部更新所共享的所述行为价值函数。
(9)本发明涉及的机器人控制系统具有(1)~(8)中任一项所述的机器学习装置。
(10)本发明涉及一种机器学习方法,该机器学习装置针对机器人控制系统进行强化学习,该机器人控制系统具有:照明单元,其对被检查物的被检查面照射照明光;拍摄单元,其拍摄所述被检查面;机器人,其具有机器人机械手;控制部,其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的拍摄点的拍摄区域的移动路径进行移动,使得由所述拍摄单元拍摄的多个图像包罗所述被检查面,一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄;以及缺陷检查部,其在所述拍摄点根据由所述拍摄单元拍摄了所述被检查面而得的图像,来检测所述被检查面上的缺陷,其中,所述机器学习方法具有以下步骤:行为信息输出步骤,对所述控制部输出包含拍摄区域的调整信息的行为信息,该拍摄区域包含所述拍摄点;状态信息取得步骤,针对预先准备的多个被检查物中的每一个被检查物,所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动,根据由所述拍摄单元拍摄了所述被检查面而得的图像,从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息,所述缺陷检测信息含有由所述缺陷检查部检测出的缺陷检测部位;回报输出步骤,根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数,输出强化学习中的回报值;以及价值函数更新步骤,根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。
发明效果
根据本发明,可以提供一种机器学习装置、机器人控制系统和机器学习方法,在使用了机器人的缺陷检查中,谨慎检查缺陷产生可能性高的部位、简单检查缺陷产生频率小的部位或重要性低的部位,由此,使拍摄张数、拍摄部位最佳化,缩短检查的周期时间。
附图说明
图1是表示本发明的实施方式整体的基本结构的框图。
图2是本发明的实施方式的机器学习系统的概略图。
图3表示本发明的实施方式中的控制装置300的功能框图。
图4A是表示在本发明的实施方式中的工件50的被检查面上设置的拍摄点和包含该拍摄点的拍摄区域的一例的图。
图4B是表示在本发明的实施方式中的工件50的被检查面上设置的拍摄点和包含该拍摄点的拍摄区域、以及与照相机的关系的图。
图4C是表示在本发明的实施方式中的工件50的被检查面上设置的拍摄点和该拍摄点处的工件50的方向的一例的图。
图4D是表示在本发明的实施方式中的工件50的被检查面上设置的拍摄点和该拍摄点处的工件50的方向的一例的图。
图4E是表示在本发明的实施方式中的工件50的被检查面上设置的拍摄点和该拍摄点处的工件50的方向的一例的图。
图5表示本发明的实施方式中的缺陷检查装置400的功能框图。
图6表示本发明的实施方式中的机器学习装置10的功能框图。
图7是表示本发明的实施方式中的机器学习中的行为信息的调整的一例的图。
图8是用于对本发明的实施方式中的机器学习装置的、学习阶段的动作进行说明的流程图。
图9是用于对本发明的实施方式中的机器学习装置的、运用阶段的动作进行说明的流程图。
符号说明
1 机器学习系统
10 机器学习装置
100 状态信息取得部
120 学习部
121 回报计算部
122 价值函数更新部
123 行为信息生成部
130 行为信息输出部
140 价值函数存储部
150 最佳化行为信息输出部
20 机器人控制检查系统
200 机器人
201 机器人机械手
210 照相机
213 支承体
220 照明
300 控制装置
310 拍摄部位信息设定部
320 移动路径计算部
330 移动动作控制部
340 拍摄控制部
350 拍摄信息发送部
400 缺陷检查装置
410 拍摄信息接收部
420 缺陷检测部
430 缺陷检测信息发送部
50 工件
70 网络
具体实施方式
以下,使用附图对本发明的实施方式进行详细说明。
<实施方式的整体结构>
图1是表示作为本实施方式的机器学习系统1的整体结构的功能框图。此外,图2是本发明的实施方式的机器学习系统1的概略图。如图1和图2所示,机器学习系统1构成为包含机器学习装置10、机器人控制检查系统20、工件50。机器人控制检查系统20具有:机器人200、照相机210、照明220、控制装置300、缺陷检查装置400。这里,机器学习装置10、控制装置300和缺陷检查装置400如图1所示经由网络70连接,或者如图2所示经由连接接口而直接连接,能够彼此进行通信。另外,网络70例如是在工厂内构筑的LAN(Local Area Network:局域网)、互联网、公用电话、或者它们的组合。对于网络70中的具体通信方式,是有线连接还是无线连接中的哪一个等情况来说没有特别限定。
机器学习装置10是进行如下机器学习的装置:在使用了机器人控制检查系统20的作为被检查物的工件50的缺陷检查中,通过谨慎检查缺陷产生可能性高的部位、简单检查缺陷产生频率小的部位,由此使拍摄张数、拍摄部位最佳化,缩短检查的周期时间。
机器学习装置10例如可以通过个人计算机、服务器装置或者数值控制装置(CNC:Computerized Numerical Control)等来实现。对于机器学习装置10的详细情况将在后面进行描述。
对机器人控制检查系统20进行说明。如上所述,机器人控制检查系统20具有:机器人200、照相机210、照明220、控制装置300、缺陷检查装置400。
如图2所示,机器人210具有:机器人机械手201,其姿势被控制为各种位置和角度。机器人200例如按顺序把持工件50,机器人机械手201能够变更所把持的工件50的位置姿势,其中,所述工件50为在工件放置场所准备的多个被检查物。
另外,当工件50在其外形形状中具有多个被检查面时,对工件50具有的每一个被检查面进行缺陷检查。该情况下,可以对多个工件各自的每一个被检查面进行缺陷检查。因此,在本实施方式中,说明在工件50中进行规定的被检查面的缺陷检查的情况。
照相机210是用于拍摄工件50的被检查面的拍摄单元,例如由CCD图像传感器或CMOS图像传感器等拍摄元件构成。照相机210通过支承体213支承成规定姿势以便可以拍摄由机器人机械手201把持的工件50的被检查面。此外,照明220与照相机210一样通过支承体213支承为可以使光照射到由机器人机械手201把持的工件50的被检查面的规定姿势。照明220例如是从工件50的被检查面的周围照射光的环形照明或者圆顶照明、从一个方向照射光的条形照明等,根据被检查物来适当构成。
在本实施方式中,在被固定的状态下设置构成光学系统的照相机210和照明220。即,在机器人控制检查系统20中,通过利用机器人机械手201的动作来变更机器人机械手201所把持的工件50的位置姿势,利用照相机210来拍摄包含在工件50的被检查面上设定的拍摄点在内的拍摄区域。
另外,在本实施方式中,为了使工件50与照相机210的相对位置关系发生变化,而固定照相机210、使工件50移动,但是并非限定于此。例如,也可以固定工件50,使机器人机械手201把持照相机210,能够变更所把持的照相机210的位置姿势。
<控制装置300>
控制装置300一边使把持工件50的机器人机械手201沿着包含设定于被检查面上的多个拍摄点的移动路径进行移动,使得由照相机210拍摄的多个图像包罗工件50的被检查面,一边使照相机210在设定于工件50的被检查面上的各拍摄点进行拍摄。
更具体来说,例如像专利文献1所记载那样,针对与机器人200连接的控制装置300执行存储移动路径和多个拍摄点的教学步骤。在这样的教学步骤中示教了登记多个拍摄点、照相机210在各拍摄点处对拍摄点(拍摄区域)处的基于照明220的反射光进行拍摄,由此,移动路径和多个拍摄点(拍摄区域)作为动作程序而存储在与机器人200连接的控制装置300中。通过这样,控制装置300动作指示移动机器人机械手201,使得所登记的拍摄点为照相机210拍摄时的拍摄点。
图3表示控制装置300的功能框图。如图3所示,控制装置300具有:拍摄部位信息设定部310、移动路径计算部320、移动动作控制部330、拍摄控制部340、拍摄信息发送部350。
<关于拍摄部位>
在对拍摄部位信息设定部310的功能进行说明之前,参照图4A~图4E,对拍摄部位进行说明。图4A~图4E是表示(被机器人机械手201把持的)工件50的被检查面与照相机210的光轴(以及照明220的照明光)的位置关系的图。
在本实施方式中,如上所述,构成光学系统的照相机210和照明220设置为被固定的状态。即,在机器人控制检查系统20中,利用机器人机械手201的动作来变更机器人机械手201所把持的工件50的位置姿势,由此,利用照相机210来拍摄包含在工件50的被检查面上设定的拍摄点在内的拍摄区域。
这里,所谓拍摄点如图4A所示,是由照相机210进行拍摄时的位于光轴上的点,所谓拍摄区域表示通过照相机210拍摄的拍摄范围。此外,在从照相机210到拍摄点的距离较近时,如图4B所示的拍摄区域1那样拍摄区域狭小(视野狭小),在将照相机210到拍摄点的距离远离时如拍摄区域2所示,拍摄区域宽广(视野宽广)。这样,在通过照相机210来拍摄工件50的被检查面时,在拍摄点处的焦点范围内,通过调整照相机210到拍摄点的距离,能够实现拍摄次数的增减。
另外,在通过照相机210来拍摄工件50的被检查面时,根据形成于工件50的被检查面的缺陷形状,需要设定照相机210和照明220与工件50的拍摄点之间的多个位置关系。
因此,除了包含拍摄点在内的拍摄区域相对于照相机210的光轴(以及照明220的照明光)例如图4C所示为垂直的拍摄以外,在同一拍摄点,以包含该拍摄点在内的拍摄区域相对于照相机210的光轴和照明220的照明光为不垂直的角度的方式,例如图4D或者图4E所示通过利用机器人机械手201的动作来调整机器人机械手201所把持的工件50的方向,由此可以提升缺陷检查的精度。
这样,在通过照相机210来拍摄工件50的被检查面时,通过指定拍摄点、从照相机210到该拍摄点的距离、以及该拍摄点处的工件50的方向(以下,将这些称为“拍摄部位信息”),使得由机器人机械手201把持的工件50的被检查面与照相机210的光轴和照明220的照明光之间的位置关系唯一确定,并且使得由照相机210拍摄的、被检查面的拍摄区域唯一确定。
拍摄部位信息设定部310设定由机器人机械手201保持的工件50的被检查面上的拍摄部位信息。另外,如后面叙述那样,根据从机器学习装置100输出的行为信息或者最佳化行为信息来设定拍摄部位信息。
移动路径计算部320根据由拍摄部位信息设定部310设定出的被检查面的拍摄部位信息而唯一确定的由机器人机械手201把持的工件50的被检查面与照相机210的光轴和照明220的照明光之间的位置关系,来计算机器人机械手201的移动路径。
移动动作控制部330根据由拍摄部位信息设定部320计算出的机器人机械手201的移动路径,使机器人机械手201移动来控制成满足机器人机械手201所把持的工件50的被检查面与照相机210的光轴和照明220的照明光之间的位置关系,使得由拍摄部位信息设定部310设定的拍摄部位信息所包含的所有拍摄点为照相机210进行拍摄时的拍摄点。
拍摄控制部340在机器人机械手201通过移动动作控制部330到达拍摄部位信息所包含的拍摄部位时,控制照相机210拍摄基于照明220的反射光。
拍摄信息发送部350通过拍摄控制部340将拍摄到的工件50的图像与拍摄部位信息所包含的各拍摄部位对应起来,发送给缺陷检查装置400。另外,希望在每次进行拍摄时都发送拍摄到的工件50的图像。但是也可以将拍摄到的图像统一批量发送。
此外,拍摄信息发送部350还将拍摄部位信息和拍摄次数发送给机器学习装置10。
另外,控制装置300与机器人200、照相机210、以及照明220分别为一对一的组,能够通信地连接。另外,控制装置300与机器人200、照相机210、以及照明220可以经由连接接口直接连接,此外,也可以经由LAN(Local Area Network:局域网)等网络连接。
<缺陷检查装置400>
图5表示缺陷检查装置400的功能框图。如图5所示,缺陷检查装置400具有拍摄信息接收部410、缺陷检测部420、缺陷检测信息发送部430。
拍摄信息接收部410从控制装置300接收工件50的被检查面的与拍摄部位信息对应起来的工件50的图像。
拍摄检测部420对与拍摄部位信息所包含的拍摄部位对应起来的每一个图像,判定工件50是否有缺陷。在进行缺陷判定时,例如,可以根据亮度值来进行。在检测出工件50缺陷时,在该工件50中,针对与拍摄部位信息对应起来的每一个图像确定缺陷检测部位(位置信息)和缺陷数量。然后,通过将检查出缺陷的该图像中的位置信息例如变换为该工件50的被检查面上的位置信息,由此可以确定该工件50的被检查面上的缺陷检测部位。
缺陷检测信息发送部430将缺陷检测信息发送给机器学习装置10,该缺陷检测信息包含由缺陷检测部420检测出的与工件50的拍摄部位信息对应起来的每一个图像的缺陷检测部位(位置信息)和缺陷数量、以及在该工件50的被检查面上检测出的所有缺陷的位置信息和缺陷数量。另外,在无法通过缺陷检测部420检测工件50的缺陷时,将与该工件50相关的无缺陷检测信息发送给机器学习装置10。
机器学习装置10进行如下机器学习(强化学习):在使用了机器人控制检查系统20的作为被检查物的工件50的缺陷检查中,如后面叙述那样,预先设定包含规定拍摄点在内的拍摄区域,以在开始机器学习时的初始状态s0下观测的工件50的缺陷检测部位在内的缺陷检测信息为基准,调整包含拍摄点在内的拍摄区域,使得可以检测与初始状态s0下观测的检测出的工件50的缺陷检测信息同等的缺陷信息,由此,减少拍摄张数、拍摄部位,缩短检查的周期时间。
接下来,在进行机器学习装置10所包含的各功能块的说明之前,对强化学习的基本结构进行说明。
在强化学习中,智能体(相当于本实施方式中的机器学习装置10)观测环境的状态,选择某个行为,环境根据该行为发生变化。随着环境的变化,提供某种回报,智能体学习更好的行为选择(决策)。
多数情况下,监督学习表示完全的正解,而强化学习中的回报是基于环境的一部分变化的片段值。
因此,智能体学习选择行为使得到将来的回报合计最大化。
这样,在强化学习中,通过学习行为,以行为给予环境的相互作用为基础来学习适当的行为,即学习用于使将来获得的回报最大化的学习的方法。这在本实施方式中表示,例如可以获得通过谨慎检查缺陷产生可能性高的部位、简单检查产生缺陷频率小的部位,由此使拍摄张数、拍摄部位最佳化,缩短检查的周期时间这样的对未来造成影响的行为。
这里,作为强化学习,可以使用任意的学习方法,在以下的说明中,以在某种环境的状态s下,使用Q学习(Q-learning)的情况为例进行说明,所述Q学习是学习选择行为a的价值Q(s、a)的方法。
在Q学习中,在某种状态s时,以从能够取得的行为a中,将价值Q(s、a)的最高的行为a选择为最佳的行为为目的。
但是,在最初开始Q学习的时间点,关于状态s与行为a的组合,完全不知晓价值Q(s、a)的正确值。因此,智能体在某种状态s下选择各种行为a,针对当时的行为a,根据给予的回报选择更好的行为,由此继续学习正确的价值Q(s、a)。
此外,由于想要使将来获得的回报合计最大化,因此目标是最终成为价值Q(s、a)=E[Σ(γt)rt]。这里,E[]表示期待值,t表示时刻、γ表示后述的称为折扣率的参数,rt表示时刻t的回报,Σ是时刻t涉及的合计。该数学式中的期待值是状态按最佳行为变化时的期望值。但是在Q学习的过程中,由于不知道最佳行为,因此通过进行各种行为,一边探索一边进行强化学习。这样的价值Q(s、a)的更新式例如可以通过如下的“数学式1”来表示。
Figure BDA0001706743070000131
在上述的数学式(1)中,st表示时刻t的环境状态,at表示时刻t的行为。通过行为at,状态变化为st+1。rt+1表示通过该状态的变化而得到的回报。此外,带有max的项是:在状态st+1下,将γ乘以选择出当时知道的Q值最高的行为a时的Q值。这里,γ是0<γ≤1的参数,被称为折扣率。α是学习系数,设α的范围为0<α≤1。
上述的数学式(1)表示如下方法:根据试行at的结果而反馈回来的回报rt+1,更新状态st下的行为at的价值Q(st、at)。
该更新式表示了:若行为at导致的下一状态st+1下的最佳行为的价值maxa Q(st+1、a)比状态st下的行为at的价值Q(st、at)大,则增大价值Q(st、at),反之如果小,则减小价值Q(st、at)。也就是说,使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳的行为价值。其中,其差因折扣率γ和回报rt+1的存在方式而变化,基本上,是某种状态下的最佳的行为价值传播至前一个状态下的行为价值的结构。
这里,在Q学习中有以下方法:制作针对所有状态行为对(s、a)的价值Q(s、a)的表格,来进行学习。但是为了求出所有状态行为对的价值Q(s、a)的值使得状态数增多,Q学习收敛需要较多的时间。
因此,可以利用公知的称为DQN(Deep Q-Network)的技术。具体来说,通过使用适当的神经网络来构成价值函数Q,调整神经网络的参数,由此通过适当的神经网络来使价值函数Q近似来计算价值Q(s、a)的值。通过利用DQN,能够缩短Q学习收敛所需的时间。另外,对于DQN来说,例如在以下的非专利文献中存在详细的记载。
<非专利文献>
“Human-level control through deep reinforcement learning”,VolodymyrMnih1著[online],[平成29年3月17日检索],互联网〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
以上,机器学习装置10进行所说明的Q学习。
具体来说,机器学习装置10对于预先准备的多个工件50(以下,称为“学习用工件”)的每一个工件,将由从控制装置300(拍摄信息发送部350)发送的拍摄部位信息、从缺陷检查装置400(缺陷检测信息发送部430)发送的包含该拍摄部位信息涉及的拍摄部位处的缺陷检测部位在内的缺陷检测信息而确定的状态观测为环境状态s,在该环境状态s下,将拍摄部位信息(拍摄点与拍摄区域)的调整选择为行为a,来学习价值Q。
即,本实施方式中的机器学习以如下内容为前提:实际上由于难以对所有工件50进行学习,因此根据在预先准备的多个学习用工件50的每一个中检测出的缺陷检测信息的集合,在相同的工件50中确定容易产生缺陷的部位、容易发现缺陷的角度和位置(所谓的标本调查)。因此,希望在准备多个学习用工件50时,以标本(多个学习用工件50)更好地表示了该工件50的母本集特征的方式、也就是说以成为母本集的更好缩影的方式来进行提取。以下,将学习用工件50的个数设为M个,各学习用工件50通过索引k(1≤k≤M)来识别。
机器学习装置10为了学习价值Q,每当进行行为a时都计算回报。并且,机器学习装置10以例如使到将来的回报合计为最大的方式来试错性地探索最佳的行为a。通过这样机器学习装置10能够针对环境状态s选择最佳的行为a。
此时,机器学习装置10为了判定在各环境状态s下观测的缺陷检测信息是否遗漏,而需要在开始机器学习时,针对该多个工件50检测正确的缺陷检测信息。
因此,机器学习装置10预先设定初始状态s0,以初始状态s0下观测的缺陷检测信息为基准,判定开始机器学习后的各状态s下的缺陷检测信息。并且,根据状态s下的缺陷检测信息的判定来计算每当进行行为a时计算的回报。
这样,机器学习装置10学习价值函数Q。并且,根据学习到的价值函数Q,选择应用于某种状态s的行为a中的、Q值为最大的行为a,例如,能够获得可以检测与初始状态s0下观测的缺陷检测信息相同的缺陷检测信息的、最佳的拍摄部位信息(拍摄点与拍摄区域)。
<机器学习装置10的功能块>
接下来,参照图6对进行上述强化学习的机器学习装置10的功能块进行说明。
如图6所示,机器学习装置10具有:状态信息取得部110、学习部120、行为信息输出部130、价值函数存储部140、最佳化行为信息输出部150。此外,学习部120具有:回报计算部121、价值函数更新部122、行为信息生成部123。
状态信息取得部110分别从控制装置300和缺陷检查装置400取得状态信息s,该状态信息s包含设定给控制装置300的拍摄部位信息(拍摄点和拍摄区域)、拍摄次数、由缺陷检查装置400检查的学习用工件50(k)(1≤k≤M)的缺陷检测信息。该状态信息s对应于Q学习中的环境状态s。
状态信息取得部110针对学习部120输出取得到的状态信息s。
<初始状态s0下的拍摄部位信息>
每当机器学习装置10开始机器学习时,例如以如下方式设定初始状态s0
例如,如图4A所示,为了避免检查遗漏和缺陷忽视,初始状态s0所含的拍摄部位信息表示的拍摄部位优选以缩小拍摄区域、均等地拍摄工件50的被检查面的方式而将拍摄点设定得细致。此时,例如可以将拍摄点和拍摄区域设定成使各拍摄点的拍摄区域与附近的拍摄点的拍摄区域重合。并且,如图4C~图4E所示,由于考虑到照相机210和照明220与学习用工件50的被检查面的位置关系有关的缺陷拍照方法,因此优选在相同拍摄点设定多个方向以使学习用工件50的方向不同。另外,在本实施方式中,关于拍摄点和拍摄区域如图4A所示以均设定的方式进行了设定,但是并非限定于此。只要能细致地拍摄整体而没有检查遗漏和缺陷忽视即可,拍摄点和拍摄区域可以不均等。
这里,通过索引来识别与初始状态s0所含的拍摄部位信息对应的拍摄部位(拍摄点、照相机210到该拍摄点的距离、该拍摄点处的学习用工件50的方向)。
即,在初始状态s0下,设定N个拍摄点(i)(1≤i≤N),将拍摄点(i)处的照相机210到该拍摄点的所设定的距离设为D(i),将拍摄点(i)处的学习用工件50的方向设为R(i、j)。这里,拍摄点(i)处的学习用工件50的方向被定义为1以上的n(i)个数量。
于是,如上所述,拍摄点(i)处的各拍摄区域(i、j){1≤i≤N、1≤j≤n(i)},通过拍摄点(i)、照相机210到拍摄点(i)的设定出的距离D(i)和拍摄点(i)处的学习用工件50的方向R(i、j)而被唯一确定。
<初始状态s0下的缺陷检测信息>
针对各学习用工件50(k)(1≤k≤M),按初始状态s0所含的拍摄区域(i、j){1≤i≤N、1≤j≤n(i)}来检测初始状态s0下的缺陷检测信息。
关于初始状态s0下的受伤检测信息,将包含针对每一个学习用工件50(k)检测出的被检查面上的所有缺陷的位置信息和缺陷的数量在内的缺陷检测信息作为缺陷检测表_初始状态s0而存储于存储部中(未图示)。
另外,通过利用后述的机器学习(强化学习)来调整上述的初始状态s0所含的拍摄区域(i、j){1≤i≤N、1≤j≤n(i)},求出具有与初始状态s0下的缺陷检查同等精度的、且拍摄次数为最小的拍摄点和拍摄区域。更具体来说,在状态s下,将包含针对每一个学习用工件50(k)检测出的被检查面上的所有缺陷的位置信息和缺陷数量在内的缺陷检测信息作为缺陷检测表_状态s而存储于存储部中(未图示)。
学习部120是在某种环境状态s下,对选择某个行为a时的价值Q(s、a)进行学习的部分。为了进行该学习,学习部120具有:回报计算部121、价值函数更新部122、行为信息生成部123。
回报计算部121计算在某种状态s下选择了行为a时的回报。将执行了行为a时的状态设为s’。
针对每一个学习用工件50(k)比较缺陷检测表_状态s’和缺陷检测表_初始状态s0,由此,判断状态s’所含的缺陷检测信息与初始状态s0所含的缺陷检测信息是否表示相同的检测结果(例如,学习用工件50(k)的被检查面中缺陷检测部位的个数相同的结果),在表示了相同的检测结果时、且状态s’所含的拍摄次数比初始状态s0下的拍摄次数少时,回报计算部121使回报r的值为正值。更具体地,回报计算部121通过针对每一个学习用工件50(k)比较缺陷检测表_状态s与缺陷检测表_初始状态s0,由此判断是否是相同的检测结果。
另外,在状态s’所含的学习用工件50(k)的缺陷检测信息与初始状态s0所含的学习用工件50(k)的缺陷检测信息表示了相同的检测结果(例如,学习用工件50(k)的被检查面中缺陷检测部位的个数相同的结果)时、且状态s’所含的拍摄次数与初始状态s0下的拍摄次数相等时,使回报r的值为零。
反之,在状态s’所含的学习用工件50(k)的缺陷检测信息比初始状态s0所含的学习用工件50(k)的缺陷检测信息少时(例如,学习用工件50(k)的被检查面中缺陷检测部位的个数少时),使回报r的值为负值。另外,本实施方式中的学习以缺陷检测信息相同为前提,因此希望不选择回报为负值的行为。因此,作为负值,例如可以设为较大的负值。
另外,在状态s’所含的学习用工件50(k)的缺陷检测信息与初始状态s0所含的学习用工件50(k)的缺陷检测信息表示相同的检测结果(例如,工件50的被检查面中缺陷检测部位的个数相同的结果)时,状态s’的拍摄次数比初始状态s0下的拍摄次数越少,使回报r的值越大。
价值函数更新部122通过根据状态s、行为a、将行为a应用于状态s时的状态s’、如上所述计算出的回报值来进行Q学习,由此更新价值函数存储部140存储的价值函数Q。
价值函数Q的更新可以通过在线学习来进行,也可以通过批量学习来进行,还可以通过小批量学习来进行。
所谓在线学习是通过将某种行为a应用于当前的状态s,在状态s向新的状态s’转移时,立即进行价值函数Q的更新这样的学习方法。此外,所谓批量学习是通过将某种行为a应用于当前的状态s,反复进行状态s向新状态s’转移,收集学习用的数据,使用收集到的所有学习用数据,来进行价值函数Q的更新这样的学习方法。此外,所谓小批量学习是在线学习与批量学习中间的、每当积攒了某种程度的学习用数据时进行价值函数Q的更新这样的学习方法。
行为信息生成部123针对当前的状态s选择Q学习过程中的行为a。行为信息生成部123在Q学习的过程中,生成使拍摄次数减少的行为a。例如图7所示,行为信息生成部123在缺陷检测表_初始状态s0下以几乎所有的学习用工件50(k)(1≤k≤M),对没有出现缺陷检测部位的拍摄部位,在聚焦的范围内,生成调整成增大从照相机210到拍摄点的距离的行为a。通过使视野变得宽广,在覆盖其他拍摄部位时,可以减少拍摄部位数量。
更具体来说,如上所述,针对初始状态s0所含的每一个拍摄区域(i、j){1≤i≤N、1≤j≤n(i)}检测初始状态s0下的学习用工件50(k)(1≤k≤M)的缺陷检测信息。
可以通过调整初始状态s0所含的拍摄区域(i、j){1≤i≤N、1≤j≤n(i)}来生成行为a。
即,例如在拍摄点(i)处,在能够通过多个方向(≤n(i))来检测相同的缺陷时,生成调整成限定方向的行为a。
此外,例如图7所示,当在多个拍摄区域几乎没有出现学习用工件50(k)(1≤k≤M)的缺陷检测部位时,选择多个拍摄区域所含的拍摄点(i),在聚焦范围内,生成调整成增大从照相机210到拍摄点(i)的距离的行为a。通过扩大包含拍摄点(i)在内的拍摄区域,可以省略位于拍摄点(i)附近的拍摄点(l)处的拍摄,生成减少拍摄部位数量的行为a。
此外,行为信息生成部123可以采取随机选择行为a这样的策略。此外,还可以通过如下众所周知的方法来获取选择行为a的策略:在当前推定的行为a的价值中,选择价值Q(s、a)最高的行为a的贪婪算法;通过某个较小的概率ε随机选择行为a,除此之外选择价值Q(s、a)最高的行为a的ε贪婪算法。
行为信息输出部130针对控制装置300的拍摄部位设定部310发送从学习部120输出的行为信息a。通过这样,机器人控制检查系统20转移到下一状态s’(即基于修正后的拍摄部位信息的、利用了拍摄部位处的拍摄与该拍摄到的图像的缺陷检查)。
<关于行为a的生成时刻>
这里,对生成行为信息计算部130的行为a的时刻进行说明。在本实施方式中,通过比较(状态s所含的)所有学习用工件50(k)(1≤k≤M)的缺陷检测信息和初始状态s0所含的所有学习用工件50(k)(1≤k≤M)的缺陷检测信息,可以生成更有效的行为a,因此,行为信息计算部130在取得(状态s所含的)所有学习用工件50(k)(1≤k≤M)的缺陷检测信息之后,生成行为a。
与之相对地,如上所述,信息制作回报计算部121在本次的状态s所含的、任意的m(1≤m≤M)中的学习用工件50(m)的缺陷检测部位比初始状态s0所含的该学习用工件50(m)的缺陷检测部位少时,可以不论以后的学习用工件50(k)(k>m)的缺陷检测信息如何,都使回报为负值。
因此,行为信息计算部130在本次的状态s所含的、任意的m(1≤m≤M)的学习用工件50(m)的缺陷检测部位比初始状态s0所含的该学习用工件50(m)的缺陷检测部位少时,不论以后的学习用工件50(k)(k>m)的缺陷检测信息如何,都可以生成行为a。通过这样,省略本次的状态s下的、学习用工件50(k)(k>m)的缺陷检测作业,通过行为信息输出部130转移到下一状态s’(即基于修正后的拍摄部位信息的、利用了拍摄部位处的拍摄和该拍摄到的图像的缺陷检测)。由此,可以缩短机器学习时间。
价值函数存储部140是存储价值函数Q的存储装置。价值函数Q例如可以按每一状态s、行为a而存储为表。存储于价值函数存储部140中的价值函数Q通过价值函数更新部122而被更新。此外,存储于价值函数存储部140中的价值函数Q也可以在与其他机器学习装置100之间进行共享。如果设置成在多个机器学习装置100之间共享价值函数Q,则能够通过各机器学习装置100分散地进行强化学习,因此能够提升强化学习的效率。
最佳化行为信息输出部150根据价值函数更新部122进行Q学习而更新后的价值函数Q,生成价值Q(s、a)为最大的、调整拍摄部位信息的行为信息a(以下,称为“最佳化行为信息”)
更具体来说,最佳化行为信息输出部150取得价值函数存储部140中存储的价值函数Q。该价值函数Q如上所述是通过价值函数更新部122进行Q学习而更新后的价值函数。并且,最佳化行为信息输出部150根据价值函数Q、初始状态s0,生成最佳化行为信息,对机器人控制检查系统20输出所生成的最佳化行为信息。在该最佳化行为信息中,与行为信息输出部130在Q学习的过程中输出的行为信息一样,包含调整拍摄部位信息的行为信息。
在机器人控制检查系统20中,根据该最佳化行为信息来修正拍摄部位信息(拍摄点与拍摄区域)。
如上所述,通过利用机器学习装置10,能够使机器人控制检查系统20中的拍摄张数、拍摄部位最佳化。
以上,对机器学习装置10、控制装置300、缺陷检查装置400所含的功能块进行了说明。
为了实现这些功能块,机器学习装置10、控制装置300、缺陷检查装置400具有CPU(Central Processing Unit:中央处理单元)等运算处理装置。此外,机器学习装置10、控制装置300、缺陷检查装置400还具有存储了应用软件和OS(Operating System:操作系统)等各种控制用程序的HDD(Hard Disk Drive:硬盘驱动器)等辅助存储装置、用于存储在运算处理装置执行程序之后临时需要的数据的RAM(Random Access Memory:随机存取存储器)这样的主存储装置。
并且,关于机器学习装置10、控制装置300、缺陷检查装置400的运算处理装置从辅助存储装置读入应用软件和OS,一边在主存储装置上展开所读入的应用软件和OS,一边进行根据了这些应用软件和OS的运算处理。此外,机器学习装置10、控制装置300、缺陷检查装置400根据该运算结果,控制各装置具有的各种硬件。由此,实现本实施方式的功能块。也就是说,本实施方式可以通过硬件与软件协作来实现。
作为具体例,机器学习装置10可以通过将用于实现本实施方式的应用软件装入到一般的个人计算机来实现。此外,控制装置300可以通过将用于实现本实施方式的应用软件装入到一般的机器人100的控制装置来实现。此外,缺陷检查装置400可以通过将用于实现本实施方式的应用软件装入到一般的个人计算机来实现。
另外,关于机器学习装置10,由于伴随机器学习的运算量较多,因此例如在个人计算机中搭载GPU(Graphics Processing Units:图形处理单元),通过称为GPGPU(General-Purpose computing on Graphics Processing Units:通用图形处理单元)的技术,若将GPU用于伴随机器学习的运算处理,则可以进行高速处理。并且,为了进行更高速的处理,机器学习装置10使用多台搭载了这样的GPU的计算机来构筑计算机集群,通过该计算机集群所含的多台计算机来进行并行处理。
接下来,参照图8的流程图对Q学习时的机器学习装置10进行说明。另外,在开始步骤S11之前,事先设定作为标本的多个学习用工件50(k)(1≤k≤M)、初始状态s0所含的拍摄部位信息,此外检测初始状态s0下的缺陷检测信息,作为缺陷检测表_初始状态s0而存储于存储部(未图示)中。
在步骤S11中,状态信息取得部110取得状态信息s,该状态信息s包含设定给控制装置300的拍摄部位信息、由缺陷检查装置400检测的学习用工件50(k)(1≤k≤M)的缺陷检测信息。取得的状态信息被输出给价值函数更新部122和行为信息生成部123。如上所述,该状态信息s是相当于Q学习中的环境状态s的信息。
在步骤S12中,行为信息生成部123生成新的行为信息a,经由行为信息输出部130将生成的新的行为信息a输出给控制装置300的拍摄部位设定部310。行为信息生成部123根据上述策略,输出新的行为信息a。另外,接收到行为信息a的控制装置300通过基于接收到的行为信息a而修正了当前状态s涉及的拍摄部位信息后的状态s’,使机器人控制检查系统20执行学习用工件50(k)(1≤k≤M)的缺陷检查处理。如上所述,该行为信息相当于Q学习中的行为a。
在步骤S13中,状态信息取得部110从机器人控制检查系统20取得新的状态s’下的状态信息s’。
将取得到的状态信息s’输出给回报计算部121。
在步骤S14中,回报计算部121根据初始状态s0所含的缺陷检测信息和拍摄次数、本次的状态信息s’所含的缺陷检测信息和拍摄次数来计算回报。
在步骤S15中,判定回报为正值、负值、还是为零。
在回报为正值时,向步骤S16前进。然后,在步骤S16作为回报将正值输出给价值函数更新部122。
在回报为零时,向步骤S17前进。然后,在步骤S17作为回报将零输出给价值函数更新部122。
在回报为负值时,向步骤S18前进。然后,在步骤S18作为回报将负值输出给价值函数更新部122。
在步骤S16、步骤S17和步骤S18中的某一个结束时处理向步骤S19前进。
在步骤S19中,根据步骤S16、步骤S17和步骤S18中的某一个步骤输出的回报值,价值函数更新部122更新存储于价值函数存储部140中的价值函数Q。另外,步骤S19示例了在线更新,但是也可以代替在线更新而置换为批量更新或者小批量更新。
在步骤S20中,学习部120判定是否满足了结束强化学习的条件。结束强化学习的条件例如设为以规定次数重复上述处理、或以规定时间重复上述处理。在还不满足结束强化学习的条件时,在步骤S20中判定为否,处理再次返回到步骤S11。然后,通过重复上述处理,价值函数Q继续收敛为适当值。
另一方面,在满足了结束强化学习的条件时,在步骤S20中判定为是,处理结束。
以上,通过参照图8所说明的动作,在本实施方式中,通过利用机器学习装置100,可以获得用于使拍摄张数、拍摄部位最佳化的价值函数。
接下来,参照图9的流程图,对最佳化行为信息输出部150进行的最佳化行为信息生成时的动作进行说明。
首先,在步骤S31中,状态信息取得部110从机器人控制检查系统20取得状态信息s。
在步骤S32中,最佳化行为信息输出部150取得存储于价值函数存储部140中的价值函数Q。价值函数Q如上所述通过价值函数更新部122进行Q学习而进行了更新。
在步骤S33中,最佳化行为信息输出部150根据在步骤S31中取得的状态信息s所含的拍摄部位信息、在步骤S32中取得的价值函数Q,生成最佳化行为信息。然后,最佳化行为信息输出部150对机器人控制检查系统20(控制装置300)的拍摄部位设定部310输出生成的最佳化行为信息。该最佳化行为信息是用于使拍摄张数、拍摄部位最佳化的信息。
在机器人控制检查系统20中,根据该最佳化行为信息,使拍摄张数、拍摄部位最佳化,缩短检查的周期时间。
如上所述,通过利用本发明涉及的机器学习装置10,谨慎检查缺陷产生可能性高的部位、简单检查缺陷产生频率小的部位或重要性低的部位,由此,能够使拍摄张数、拍摄部位最佳化,缩短检查的周期时间。
<硬件与软件的协作>
另外,上述机器学习系统1所含的各装置中的每一个,可以通过硬件、软件或者它们的组合来实现。此外,通过上述机器学习系统1所含的各装置中的每一个进行的机器学习方法也可以通过硬件、软件或者它们的组合来实现。这里,所谓通过软件来实现表示计算机通过读入程序来执行从而实现。
可以使用各种类型的非临时性的计算机可读介质(non-transitory computerreadable medium)来存储程序而提供给计算机。非临时性的计算机可读介质包含各种类型的有实体的存储介质(tangible storage medium)。非临时性的计算机可读介质的示例包含:磁存储介质(例如,软盘、磁带、硬盘驱动器)、磁-光存储介质(例如,光盘)、CD-ROM(ReadOnly Memory)、CD-R、CD-R/W、半导体存储器(例如,掩膜ROM、PROM(Programmable ROM:可编程ROM)、EPROM(Erasable PROM:可擦写PROM)、闪存ROM、RAM(random access memory))。此外,可以通过各种类型的临时性的计算机可读介质(transitory computer readablemedium)将程序供给到计算机。临时性的计算机可读介质的示例包含电气信号、光信号、电磁波。临时性的计算机可读介质可以经由电线和光纤等有线通信路、或者无线通信路将程序供给到计算机。
此外,上述实施方式是本发明的优选实施方式,但是并非将本发明的范围仅限定于上述实施方式,可以在不脱离本发明精神的范围内以实施了各种变形的方式来实施。
<变形例1>
在上述实施方式中,通过调整初始状态s0所含的拍摄区域(i、j){1≤i≤N、1≤j≤n(i)},进行具有与初始状态s0下的缺陷检查同等的精度、且求出拍摄次数为最小的拍摄点和拍摄区域的机器学习。与之相对地,关于被检查面的规定区域中的缺陷检查,也可以进行具有与初始状态s0下的缺陷检查同等的精度、且求出拍摄次数为最小的拍摄点和拍摄区域的机器学习。
此时,可以在由缺陷检查装置400检测出的、被检查面的规定区域(例如,除了重要性低的部位的区域)中的缺陷检测部位的个数与开始机器学习时的初始状态s0下的缺陷检查装置400检测出的、被检查面的规定区域中的缺陷检测部位的个数一致时,当拍摄次数比初始状态s0下的拍摄次数少时,回报计算部121使回报值为正值,在由缺陷检查装置400检测出的、被检查面的规定区域中的缺陷检测部位的个数比开始机器学习时的初始状态s0下的缺陷检查装置400检测出的、被检查面的规定区域中的缺陷检测部位的个数少时,使回报值为负值。通过这样,关于被检查面的规定区域中的缺陷检查,可以进行具有与初始装置s0下的缺陷检查同等的精度、且拍摄次数最小的最佳化。
<变形例2>
在上述实施方式中,在进行缺陷判定时,例如,根据预先设定的亮度值来进行,但是并非限定于此。例如,作为工件50的被检查面上的缺陷的判定方法,可以用相同光学条件,与拍摄到的无缺陷工件50的图像进行比较,来进行缺陷判定。
在应用该方法时,例如,可以如下方式进行。即,当准备多个学习用工件50(k)(1≤k≤M)时,通过准备1个以上的无缺陷工件50,在状态s下,以拍摄了1个以上的无缺陷工件50而得的图像为基准,评价与拍摄了学习用工件50(k)(1≤k≤M)而得的图像之间的差分,由此可以用相同光学条件进行状态s下的缺陷检测。
<变形例3>
在上述实施方式中,回报计算部121在回报是正值时拍摄次数越少使回报值越大,但是不限定于此。例如,回报计算部121可以在回报是正值时工件检查涉及的周期时间越小,使回报值越大。
<变形例4>
在上述实施方式中,假设通过与控制装置300或缺陷检查装置400不同的装置来实现机器学习装置10,例如可以通过控制装置300或缺陷检查装置400来实现机器学习装置10的一部分功能或者全部功能。
<变形例5>
在上述实施方式中,设为机器学习装置10具有进行学习的功能和生成行为信息的功能,但也可以通过其他装置来进行学习的功能、生成行为信息的功能。
<变形例6>
在上述实施方式中,机器学习装置10与控制装置300作为一对一的组能够通信地连接,例如一台机器学习装置10经由网络70能够通信地与多个控制装置300连接,实施各控制装置300的机器学习。
此时,可以使机器学习装置10的各功能为适当分散到多个服务器的分散处理系统。此外,也可以在云端上利用虚拟服务器功能等来实现机器学习装置10的各功能。
此外,在多个相同型号名称、相同结构、或者同一系列的控制装置300-1~300-n分别与同一机器人200连接时,可以共享各机器学习装置10-1~10-n中的学习结果。通过这样,能够构筑更合适的模型。

Claims (10)

1.一种机器学习装置,其针对机器人控制系统进行强化学习,该机器人控制系统具有:
照明单元,其对被检查物的被检查面照射照明光;
拍摄单元,其拍摄所述被检查面;
机器人,其具有机器人机械手;
控制部,其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的多个拍摄点的拍摄区域的移动路径进行移动,使得由所述拍摄单元拍摄的多个图像包罗所述被检查面,一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄;以及
缺陷检查部,其在所述拍摄点根据由所述拍摄单元拍摄了所述被检查面而得的图像,来检测所述被检查面上的缺陷,
其特征在于,所述机器学习装置具有:
行为信息输出部,其对所述控制部输出包含拍摄区域的调整信息的行为信息,该拍摄区域包含所述拍摄点;
状态信息取得部,针对预先准备的多个被检查物中的每一个被检查物,所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动,所述状态信息取得部根据由所述拍摄单元拍摄了所述被检查面而得的图像,从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息,所述缺陷检测信息含有由所述缺陷检查部检测出的所述被检查面的缺陷检测部位;
回报输出部,其根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数,输出强化学习中的回报值;以及
价值函数更新部,其根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。
2.根据权利要求1所述的机器学习装置,其特征在于,
在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时,且所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数少时,所述回报输出部使所述回报值为正值,
在由所述缺陷检查部检测出的缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数少时,所述回报输出部使所述回报值为负值。
3.根据权利要求2所述的机器学习装置,其特征在于,
在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时,所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少,所述回报输出部使所述回报值越大。
4.根据权利要求2或3所述的机器学习装置,其特征在于,
所述机器学习装置具有:最佳化行为信息输出部,其根据由所述价值函数更新部更新后的所述行为价值函数,生成所述拍摄次数为最小的最佳化行为信息,该最佳化行为信息是所述缺陷检测部位的个数与所述机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致的行为信息。
5.根据权利要求1所述的机器学习装置,其特征在于,
在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致时,在拍摄次数比所述机器学习开始时的初始状态下的拍摄次数少时,所述回报输出部使所述回报值为正值,
在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数少时,所述回报输出部使所述回报值为负值。
6.根据权利要求5所述的机器学习装置,其特征在于,
在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致时,所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少,所述回报输出部使所述回报值越大。
7.根据权利要求5或6所述的机器学习装置,其特征在于,
所述机器学习装置具有:最佳化行为信息输出部,其根据由所述价值函数更新部更新后的所述行为价值函数,生成所述拍摄次数为最小的最佳化行为信息,该最佳化行为信息是所述被检查面的规定区域中所述缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致的行为信息。
8.根据权利要求1~3中任一项所述的机器学习装置,其特征在于,
所述机器学习装置与其他机器学习装置之间共享所述行为价值函数,
所述价值函数更新部更新所共享的所述行为价值函数。
9.一种机器人控制系统,其特征在于,
所述机器人控制系统具有权利要求1~8中任一项所述的机器学习装置。
10.一种机器学习装置的机器学习方法,该机器学习装置针对机器人控制系统进行强化学习,该机器人控制系统具有:
照明单元,其对被检查物的被检查面照射照明光;
拍摄单元,其拍摄所述被检查面;
机器人,其具有机器人机械手;
控制部,其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的拍摄点的拍摄区域的移动路径进行移动,使得由所述拍摄单元拍摄的多个图像包罗所述被检查面,一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄;以及
缺陷检查部,其在所述拍摄点根据由所述拍摄单元拍摄了所述被检查面而得的图像,来检测所述被检查面上的缺陷,
其特征在于,所述机器学习方法具有以下步骤:
行为信息输出步骤,对所述控制部输出包含拍摄区域的调整信息的行为信息,该拍摄区域包含所述拍摄点;
状态信息取得步骤,针对预先准备的多个被检查物中的每一个被检查物,所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动,根据由所述拍摄单元拍摄了所述被检查面而得的图像,从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息,所述缺陷检测信息含有由所述缺陷检查部检测出的缺陷检测部位;
回报输出步骤,根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数,输出强化学习中的回报值;以及
价值函数更新步骤,根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。
CN201810662342.8A 2017-06-27 2018-06-25 机器学习装置、机器人控制系统和机器学习方法 Active CN109146082B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017125285A JP6549644B2 (ja) 2017-06-27 2017-06-27 機械学習装置、ロボット制御システム及び機械学習方法
JP2017-125285 2017-06-27

Publications (2)

Publication Number Publication Date
CN109146082A CN109146082A (zh) 2019-01-04
CN109146082B true CN109146082B (zh) 2020-04-28

Family

ID=64691875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810662342.8A Active CN109146082B (zh) 2017-06-27 2018-06-25 机器学习装置、机器人控制系统和机器学习方法

Country Status (4)

Country Link
US (1) US10596698B2 (zh)
JP (1) JP6549644B2 (zh)
CN (1) CN109146082B (zh)
DE (1) DE102018208191B4 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
DE102017207069A1 (de) * 2017-04-27 2018-10-31 Robert Bosch Gmbh Prüfvorrichtung zur optischen Prüfung eines Objektes, Produktionsanlage mit der Prüfvorrichtung und Verfahren zur optischen Prüfung des Objektes mit der Prüfvorrichtung
JP6538751B2 (ja) * 2017-05-18 2019-07-03 ファナック株式会社 プログラミング装置及びロボット制御方法
JP6756676B2 (ja) * 2017-07-27 2020-09-16 ファナック株式会社 製造システム
JP6570592B2 (ja) * 2017-09-29 2019-09-04 株式会社牧野フライス製作所 工作機械の機上測定方法および制御装置
JP7245603B2 (ja) * 2017-11-10 2023-03-24 株式会社安川電機 教示装置、ロボットシステムおよび教示方法
JP6669714B2 (ja) * 2017-11-28 2020-03-18 ファナック株式会社 教示操作盤およびロボット制御システム
US10695911B2 (en) * 2018-01-12 2020-06-30 Futurewei Technologies, Inc. Robot navigation and object tracking
US11688207B2 (en) * 2018-07-26 2023-06-27 Upstream Security, Ltd. System and method for contextually monitoring vehicle state
US11839983B2 (en) * 2018-11-27 2023-12-12 Ocado Innovation Limited Systems and methods for robotic grasp verification
JP6630912B1 (ja) * 2019-01-14 2020-01-15 株式会社デンケン 検査装置及び検査方法
KR102206753B1 (ko) 2019-01-24 2021-01-22 주식회사 수아랩 결함 검사 장치
JP7262232B2 (ja) * 2019-01-29 2023-04-21 東京エレクトロン株式会社 画像認識システムおよび画像認識方法
CN109949827A (zh) * 2019-03-15 2019-06-28 上海师范大学 一种基于深度学习与强化学习的室内声学行为识别方法
JP2020166371A (ja) * 2019-03-28 2020-10-08 セイコーエプソン株式会社 情報処理方法、情報処理装置、物体検出装置およびロボットシステム
US11345030B2 (en) * 2019-05-28 2022-05-31 Intel Corporation Methods and apparatus for complex assembly via autonomous robots using reinforcement learning action primitives
JP6841297B2 (ja) * 2019-05-31 2021-03-10 株式会社デンソー ビジュアルサーボシステム
DE102019116735A1 (de) * 2019-06-20 2020-12-24 Jenoptik Automatisierungstechnik Gmbh Verfahren zur Kontrolle und Nacharbeitung eines Werkstückes mit einer lasergeschnittenen geschlossenen Innenkontur
CN110230981B (zh) * 2019-06-21 2020-08-07 湖南大学 用于大尺寸件的尺寸检测系统及尺寸检测方法
US11389957B2 (en) 2019-09-30 2022-07-19 Mitsubishi Electric Research Laboratories, Inc. System and design of derivative-free model learning for robotic systems
WO2021097486A1 (en) 2019-11-12 2021-05-20 Bright Machines, Inc. Image analysis system for testing in manufacturing
CN110908377B (zh) * 2019-11-26 2021-04-27 南京大学 一种机器人导航空间约简方法
CN111179223B (zh) * 2019-12-12 2023-05-09 天津大学 基于深度学习的工业自动化缺陷检测方法
CN111862029A (zh) * 2020-07-15 2020-10-30 哈尔滨市科佳通用机电股份有限公司 一种铁路动车组垂向减震器螺栓部件故障检测方法
CN114092382A (zh) * 2020-08-07 2022-02-25 富泰华工业(深圳)有限公司 产品瑕疵标记装置和方法
CN112362522B (zh) * 2020-10-23 2022-08-02 浙江中烟工业有限责任公司 一种基于强化学习的烟叶容重测量方法
JP2022093035A (ja) * 2020-12-11 2022-06-23 日立Astemo株式会社 検査経路生成装置、検査経路生成方法
US20220207684A1 (en) * 2020-12-25 2022-06-30 Sintokogio, Ltd. Inspection device, inspection method, machine learning device, and machine learning method
CN112734759B (zh) * 2021-03-30 2021-06-29 常州微亿智造科技有限公司 飞拍拍摄触发点的确定方法和装置
CN113297952B (zh) * 2021-05-21 2022-06-24 哈尔滨工业大学(深圳) 一种复杂环境下绳驱柔性机器人的测量方法和系统
CN114273263A (zh) * 2021-12-28 2022-04-05 厦门海辰新能源科技有限公司 检测系统和检测方法
WO2023163650A2 (en) * 2022-02-28 2023-08-31 Agency For Science, Technology And Research Defect detection by image processing
CN114454137A (zh) * 2022-04-12 2022-05-10 西南交通大学 基于双目视觉的钢结构损伤智能巡检方法、系统及机器人
CN116297531B (zh) * 2023-05-22 2023-08-01 中科慧远视觉技术(北京)有限公司 机器视觉检测方法、系统、介质及设备

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6917925B2 (en) 2001-03-30 2005-07-12 Intelligent Inference Systems Corporation Convergent actor critic-based fuzzy reinforcement learning apparatus and method
US7096207B2 (en) 2002-03-22 2006-08-22 Donglok Kim Accelerated learning in machine vision using artificially implanted defects
WO2004068399A1 (ja) 2003-01-31 2004-08-12 Matsushita Electric Industrial Co. Ltd. 予測型行動決定装置および行動決定方法
DE102004007829B4 (de) 2004-02-18 2007-04-05 Isra Vision Systems Ag Verfahren zur Bestimmung von zu inspizierenden Bereichen
DE102004007828B4 (de) 2004-02-18 2006-05-11 Isra Vision Systems Ag Verfahren und System zur Inspektion von Oberflächen
US20060055664A1 (en) 2004-09-13 2006-03-16 Repetto Mark E Unified user input device
JP4862765B2 (ja) 2007-06-29 2012-01-25 関東自動車工業株式会社 表面検査装置及び表面検査方法
JP5330138B2 (ja) 2008-11-04 2013-10-30 本田技研工業株式会社 強化学習システム
CN102819264B (zh) 2012-07-30 2015-01-21 山东大学 移动机器人路径规划q学习初始化方法
CN104458755B (zh) 2014-11-26 2017-02-22 吴晓军 一种基于机器视觉的多类型材质表面缺陷检测方法
US11347191B2 (en) * 2015-07-29 2022-05-31 Illinois Tool Works Inc. System and method to facilitate welding software as a service
JP6625868B2 (ja) 2015-11-18 2019-12-25 ファナック株式会社 加工プログラムの機械学習装置、該機械学習装置を備えた加工組立システムおよび加工プログラムの機械学習方法
US11580375B2 (en) * 2015-12-31 2023-02-14 Kla-Tencor Corp. Accelerated training of a machine learning based model for semiconductor applications
CN105690392B (zh) 2016-04-14 2017-11-28 苏州大学 基于行动者‑评论家方法的机器人运动控制方法和装置
US9671777B1 (en) 2016-06-21 2017-06-06 TruPhysics GmbH Training robots to execute actions in physics-based virtual environment
US20180035606A1 (en) * 2016-08-05 2018-02-08 Romello Burdoucci Smart Interactive and Autonomous Robotic Property Maintenance Apparatus, System, and Method
JP6514166B2 (ja) * 2016-09-16 2019-05-15 ファナック株式会社 ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法
US11062207B2 (en) * 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
US10395358B2 (en) * 2016-11-10 2019-08-27 Kla-Tencor Corp. High sensitivity repeater defect detection
JP6457473B2 (ja) * 2016-12-16 2019-01-23 ファナック株式会社 ロボットおよびレーザスキャナの動作を学習する機械学習装置,ロボットシステムおよび機械学習方法
US10234848B2 (en) * 2017-05-24 2019-03-19 Relativity Space, Inc. Real-time adaptive control of additive manufacturing processes using machine learning
US11131539B2 (en) * 2017-06-12 2021-09-28 Sightline Innovation Inc. Multimodal image data acquisition system and method
US20190080446A1 (en) * 2017-09-11 2019-03-14 All Axis Robotics, LLC System and method for automated defect detection
JP6626057B2 (ja) * 2017-09-27 2019-12-25 ファナック株式会社 検査装置及び検査システム
JP6936957B2 (ja) * 2017-11-07 2021-09-22 オムロン株式会社 検査装置、データ生成装置、データ生成方法及びデータ生成プログラム
JP6936958B2 (ja) * 2017-11-08 2021-09-22 オムロン株式会社 データ生成装置、データ生成方法及びデータ生成プログラム
JP6919997B2 (ja) * 2018-02-06 2021-08-18 株式会社日立製作所 制御装置、制御方法、および制御プログラム

Also Published As

Publication number Publication date
DE102018208191B4 (de) 2022-02-10
JP6549644B2 (ja) 2019-07-24
CN109146082A (zh) 2019-01-04
US20180370027A1 (en) 2018-12-27
JP2019007891A (ja) 2019-01-17
DE102018208191A1 (de) 2019-01-31
US10596698B2 (en) 2020-03-24

Similar Documents

Publication Publication Date Title
CN109146082B (zh) 机器学习装置、机器人控制系统和机器学习方法
JP6668278B2 (ja) 試料観察装置および試料観察方法
TWI688025B (zh) 疊代式缺陷濾除製程
JP7074460B2 (ja) 画像検査装置および方法
KR102427381B1 (ko) 부품의 실장 상태를 검사하기 위한 방법, 인쇄 회로 기판 검사 장치 및 컴퓨터 판독 가능한 기록매체
TWI404609B (zh) 機械手臂系統參數的校正方法與校正裝置
JP6765791B2 (ja) パターンマッチング用の基準画像セットの作成方法、パターンマッチング用の基準画像セットの作成装置、ワークの認識方法、プログラム、及び記録媒体
JP2008170981A (ja) レンズ光学系の偏芯調整方法及び装置並びにプログラム
WO2017149869A1 (ja) 情報処理装置、方法、プログラム及びマルチカメラシステム
JP6641372B2 (ja) 高次元変数選択モデルを使用した重要なパラメータの決定
JP2016120565A (ja) 画像処理装置、画像処理システム、画像処理方法及びコンピュータプログラム
JP2019168520A (ja) 情報処理装置、情報処理方法、プログラム、及び画像測定装置
TWI701613B (zh) 加工配方生成裝置
JP6977634B2 (ja) 外観検査装置、外観検査方法及びプログラム
JP6410388B2 (ja) 画像処理装置、画像処理システム、画像処理方法及びコンピュータプログラム
CN116276938A (zh) 基于多零位视觉引导的机械臂定位误差补偿方法及装置
CN111062920B (zh) 用于生成半导体检测报告的方法及装置
JP2018112447A (ja) 計測装置および計測装置の作動方法
KR102233109B1 (ko) 영상 학습을 통한 기계 진단시스템 및 이를 이용한 기계 진단방법
JP7415028B2 (ja) 撮像条件調整装置、及び撮像条件調整方法
CN117128862B (zh) 一种汽车部件的扫描检测分析方法
EP4019894B1 (en) Method of measuring a workpiece by using a coordinate measuring machine, and arrangement comprising a coordinate measuring machine
JP2009071383A (ja) 画像処理装置、検査システム、画像処理方法、画像処理プログラム、及び該プログラムを記録したコンピュータ読み取り可能な記録媒体
CN117388254A (zh) 一种工业产品缺陷检测方法及检测系统
CN114928691A (zh) 图像处理装置及方法、生产系统、产品制造方法和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant