JP2017030135A - Machine learning apparatus, robot system, and machine learning method for learning workpiece take-out motion - Google Patents

Machine learning apparatus, robot system, and machine learning method for learning workpiece take-out motion Download PDF

Info

Publication number
JP2017030135A
JP2017030135A JP2015233857A JP2015233857A JP2017030135A JP 2017030135 A JP2017030135 A JP 2017030135A JP 2015233857 A JP2015233857 A JP 2015233857A JP 2015233857 A JP2015233857 A JP 2015233857A JP 2017030135 A JP2017030135 A JP 2017030135A
Authority
JP
Japan
Prior art keywords
robot
unit
machine learning
workpiece
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015233857A
Other languages
Japanese (ja)
Other versions
JP6522488B2 (en
Inventor
岳 山▲崎▼
Takeshi Yamazaki
岳 山▲崎▼
拓未 尾山
Takumi Oyama
拓未 尾山
峻 陶山
Shun Toyama
峻 陶山
一隆 中山
Kazutaka Nakayama
一隆 中山
英俊 組谷
Hidetoshi Kumiya
英俊 組谷
中川 浩
Hiroshi Nakagawa
中川  浩
大輔 岡野原
Daisuke Okanohara
大輔 岡野原
遼介 奥田
Ryosuke Okuda
遼介 奥田
叡一 松元
Eiichi Matsumoto
叡一 松元
圭悟 河合
Keigo Kawai
圭悟 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Preferred Networks Inc
Original Assignee
Fanuc Corp
Preferred Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp, Preferred Networks Inc filed Critical Fanuc Corp
Priority to DE102016015873.5A priority Critical patent/DE102016015873B3/en
Priority to DE102016009030.8A priority patent/DE102016009030B4/en
Priority to CN202110544521.3A priority patent/CN113199483A/en
Priority to CN201610617361.XA priority patent/CN106393102B/en
Priority to US15/223,141 priority patent/US10717196B2/en
Publication of JP2017030135A publication Critical patent/JP2017030135A/en
Application granted granted Critical
Publication of JP6522488B2 publication Critical patent/JP6522488B2/en
Priority to US16/860,071 priority patent/US11780095B2/en
Priority to US18/209,477 priority patent/US20230321837A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1687Assembly, peg and hole, palletising, straight line, weaving pattern movement
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39297First learn inverse model, then fine tune with ffw error learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40053Pick 3-D object from pile of objects

Abstract

PROBLEM TO BE SOLVED: To provide a machine learning apparatus, a robot system, and a machine learning method capable of selecting an optimum motion of a robot without a human operator when the robot takes out workpieces placed in a disorderly fashion including a bulk state.SOLUTION: A machine learning apparatus learning a motion of a robot 14 that takes out a workpiece 12 by a hand section 13 from a plurality of workpieces 12 placed in a disorderly fashion including a bulk state, comprises: a state variable observation unit 21 observing a state variable of the robot including output data from a three-dimensional measuring tool 15 that acquires a three-dimensional map for each of the workpieces; a motion result acquisition unit 26 acquiring a result of a take-out motion of the robot that takes out the workpiece by the hand section; and a learning unit 22 receiving an output from the state variable observation unit and an output from the motion result acquisition unit, and learning a manipulated variable including command data for commanding the robot to make the take-out motion of the workpiece to be associated with the state variable of the robot and the result of the take-out motion.SELECTED DRAWING: Figure 1

Description

本発明は、バラ積みされた状態を含む、乱雑に置かれたワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法に関する。   The present invention relates to a machine learning apparatus, a robot system, and a machine learning method for learning a picking-up operation of a randomly placed work including a state in which they are stacked.

従前より、例えば、かご状の箱にバラ積みされたワークを、ロボットのハンド部により把持して運搬するロボットシステムが知られている(例えば、特許文献1、2参照)。このようなロボットシステムにおいては、例えば、かご状の箱の上方に設置された三次元計測器を用いて複数のワークの位置情報を取得し、その位置情報に基づいてワークを1つずつロボットのハンド部によって取り出している。   Conventionally, for example, a robot system is known in which a workpiece stacked in a basket-like box is gripped and transported by a robot hand (see, for example, Patent Documents 1 and 2). In such a robot system, for example, position information of a plurality of workpieces is acquired using a three-dimensional measuring device installed above a cage-like box, and workpieces are moved one by one based on the position information. It is taken out by the hand part.

特許第5642738号公報Japanese Patent No. 5642738 特許第5670397号公報Japanese Patent No. 5670397

しかしながら、上述した従来のロボットシステムにおいては、例えば、三次元計測器により計測された複数のワークの距離画像から、取り出すワークをどのように抽出するのか、並びに、どの位置のワークを取り出すのかを事前に設定しておく必要がある。また、ワークを取り出すとき、ロボットのハンド部をどのように動作させるのかといったことも事前にプログラミングしておく必要がある。具体的に、例えば、人間がティーチングペンダントを用いて、ロボットにワークの取り出し動作を教示するといったことが必要になる。   However, in the above-described conventional robot system, for example, how to extract a workpiece to be extracted from a distance image of a plurality of workpieces measured by a three-dimensional measuring instrument, and which position to extract the workpiece in advance. It is necessary to set to. In addition, it is necessary to program in advance how to operate the hand portion of the robot when the workpiece is taken out. Specifically, for example, it is necessary for a human to teach a robot to take out a workpiece using a teaching pendant.

そのため、複数のワークの距離画像から、取り出すワークを抽出する設定が適切でなかったり、ロボットの動作プログラムが適切に作成されないと、ロボットがワークを取り出して運搬する際の成功率が低下する。また、その成功率を高めるには、人間が試行錯誤を重ねてロボットの最適な動作を模索しながら、ワークの検出設定とロボットの動作プログラムとを改良していく必要がある。   Therefore, if the setting for extracting the workpiece to be taken out from the distance images of a plurality of workpieces is not appropriate, or if the robot operation program is not properly created, the success rate when the robot takes out and transports the workpiece decreases. In order to increase the success rate, it is necessary for humans to improve the work detection setting and the robot operation program while searching for the optimal operation of the robot through trial and error.

そこで、本発明の目的は、上述したような実情に鑑み、バラ積みされた状態を含む、乱雑に置かれたワークを取り出すときのロボットの最適な動作を人間の介在無しに学習できる機械学習装置、ロボットシステムおよび機械学習方法を提供することにある。   Accordingly, an object of the present invention is to provide a machine learning device capable of learning the optimum operation of a robot when taking out a randomly placed workpiece, including a stacked state, in view of the above-described situation without human intervention. It is to provide a robot system and a machine learning method.

本発明に係る第1実施形態によれば、バラ積みされた状態を含む、乱雑に置かれた複数のワークからハンド部によって前記ワークを取り出すロボットの動作を学習する機械学習装置であって、前記ワーク毎の三次元マップを計測する三次元計測器の出力データを含む前記ロボットの状態量を観測する状態量観測部と、前記ハンド部によって前記ワークを取り出す前記ロボットの取り出し動作の結果を取得する動作結果取得部と、前記状態量観測部からの出力および前記動作結果取得部からの出力を受け取り、前記ワークの前記取り出し動作を前記ロボットに指令する指令データを含む操作量を、前記ロボットの前記状態量および前記取り出し動作の結果に関連付けて学習する学習部と、を備える機械学習装置が提供される。前記機械学習装置は、さらに、前記学習部が学習した前記操作量を参照して、前記ロボットに指令する前記指令データを決定する意思決定部を備えるのが好ましい。   According to the first embodiment of the present invention, there is provided a machine learning device that learns the operation of a robot that picks up a workpiece by a hand unit from a plurality of randomly placed workpieces, including a state in which the workpieces are stacked. A state quantity observing unit for observing the state quantity of the robot including output data of a three-dimensional measuring instrument for measuring a three-dimensional map for each work, and a result of the robot taking out the work by the hand unit. An operation result acquisition unit, an output from the state quantity observation unit and an output from the operation result acquisition unit, and an operation amount including command data for instructing the robot to take out the workpiece, A machine learning device comprising: a learning unit that learns in association with a state quantity and a result of the extraction operation. The machine learning device preferably further includes a decision making unit that determines the command data to be commanded to the robot with reference to the operation amount learned by the learning unit.

本発明に係る第2実施形態によれば、バラ積みされた状態を含む、乱雑に置かれた複数のワークからハンド部によって前記ワークを取り出すロボットの動作を学習する機械学習装置であって、前記ワーク毎の三次元マップを計測する三次元計測器の出力データを含む前記ロボットの状態量を観測する状態量観測部と、前記ハンド部によって前記ワークを取り出す前記ロボットの取り出し動作の結果を取得する動作結果取得部と、前記状態量観測部からの出力および前記動作結果取得部からの出力を受け取り、前記三次元計測器の計測パラメータを含む操作量を、前記ロボットの前記状態量および前記取り出し動作の結果に関連付けて学習する学習部と、を備える機械学習装置が提供される。前記機械学習装置は、さらに、前記学習部が学習した前記操作量を参照して、前記三次元計測器の前記計測パラメータを決定する意思決定部を備えるのが好ましい。   According to a second embodiment of the present invention, there is provided a machine learning device that learns the operation of a robot that picks up a workpiece by a hand unit from a plurality of randomly placed workpieces, including a stacked state. A state quantity observing unit for observing the state quantity of the robot including output data of a three-dimensional measuring instrument for measuring a three-dimensional map for each work, and a result of the robot taking out the work by the hand unit. An operation result acquisition unit, an output from the state quantity observation unit and an output from the operation result acquisition unit are received, and an operation amount including a measurement parameter of the three-dimensional measuring instrument is determined as the state amount and the extraction operation of the robot. And a learning unit that learns in association with the result of the above. It is preferable that the machine learning device further includes a decision making unit that determines the measurement parameter of the three-dimensional measuring device with reference to the operation amount learned by the learning unit.

前記状態量観測部は、さらに、前記三次元計測器の出力に基づいて、前記ワーク毎の三次元位置を計算する座標計算部の出力データを含む前記ロボットの状態量も観測することもできる。前記座標計算部は、さらに、前記ワーク毎の姿勢を計算し、計算された前記ワーク毎の三次元位置および姿勢のデータを出力してもよい。前記動作結果取得部は、前記三次元計測器の出力データを利用することができる。前記機械学習装置は、さらに、前記三次元計測器の出力データを、前記状態量観測部への入力前に処理する前処理部を備え、前記状態量観測部は、前処理部の出力データを前記ロボットの状態量として受け取るのが好ましい。前記前処理部は、前記三次元計測器の出力データにおける前記ワーク毎の方向および高さを一定に揃えることができる。前記動作結果取得部は、前記ワークの取り出しの成否、前記ワークの破損状態、および、取り出した前記ワークを後工程に渡すときの達成度のうちの少なくとも1つを取得することができる。   The state quantity observation unit can also observe a state quantity of the robot including output data of a coordinate calculation unit that calculates a three-dimensional position for each workpiece based on an output of the three-dimensional measuring instrument. The coordinate calculation unit may further calculate a posture for each workpiece and output data of the calculated three-dimensional position and posture for each workpiece. The operation result acquisition unit can use output data of the three-dimensional measuring instrument. The machine learning device further includes a preprocessing unit that processes output data of the three-dimensional measuring instrument before input to the state quantity observation unit, and the state quantity observation unit receives output data of the preprocessing unit. It is preferably received as a state quantity of the robot. The said pre-processing part can arrange | equalize the direction and height for every said workpiece | work in the output data of the said three-dimensional measuring device uniformly. The operation result acquisition unit can acquire at least one of success or failure of the removal of the workpiece, a damaged state of the workpiece, and an achievement level when the removed workpiece is passed to a subsequent process.

前記学習部は、前記動作結果取得部の出力に基づいて報酬を計算する報酬計算部と、前記ワークの前記取り出し動作の価値を定める価値関数を有し、前記報酬に応じて前記価値関数を更新する価値関数更新部と、を備えることができる。前記学習部は、前記ワークの前記取り出し動作を学習する学習モデルを有し、前記動作結果取得部の出力、および、前記学習モデルの出力に基づいて誤差を計算する誤差計算部と、前記誤差に応じて前記学習モデルを更新する学習モデル更新部と、を備えることもできる。前記機械学習装置は、ニューラルネットワークを有するのが好ましい。   The learning unit has a reward calculation unit that calculates a reward based on an output of the operation result acquisition unit, and a value function that determines a value of the picking-up operation of the work, and updates the value function according to the reward And a value function updating unit to perform. The learning unit includes a learning model that learns the take-out operation of the workpiece, an error calculation unit that calculates an error based on an output of the operation result acquisition unit, and an output of the learning model, and the error And a learning model updating unit that updates the learning model accordingly. The machine learning device preferably has a neural network.

本発明に係る第3実施形態によれば、バラ積みされた状態を含む、乱雑に置かれた複数のワークからハンド部によって前記ワークを取り出すロボットの動作を学習する機械学習装置であって、前記ワーク毎の三次元マップを計測する三次元計測器の出力データを含む前記ロボットの状態量を観測する状態量観測部と、前記ハンド部によって前記ワークを取り出す前記ロボットの取り出し動作の結果を取得する動作結果取得部と、前記状態量観測部からの出力および前記動作結果取得部からの出力を受け取り、前記ワークの前記取り出し動作を前記ロボットに指令する指令データを含む操作量を、前記ロボットの前記状態量および前記取り出し動作の結果に関連付けて学習する学習部と、を備える機械学習装置を備えたロボットシステムであって、前記ロボットと、前記三次元計測器と、前記ロボットおよび前記三次元計測器をそれぞれ制御する制御装置と、を備えるロボットシステムが提供される。   According to a third embodiment of the present invention, there is provided a machine learning device that learns an operation of a robot that picks up a workpiece by a hand unit from a plurality of randomly placed workpieces including a state in which the workpieces are piled up. A state quantity observing unit for observing the state quantity of the robot including output data of a three-dimensional measuring instrument for measuring a three-dimensional map for each work, and a result of the robot taking out the work by the hand unit. An operation result acquisition unit, an output from the state quantity observation unit and an output from the operation result acquisition unit, and an operation amount including command data for instructing the robot to take out the workpiece, And a learning unit that learns in association with a state quantity and a result of the take-out operation. , And the robot, and the three-dimensional measuring instrument, a robot system comprising a control device, the controlling the robot and the three-dimensional measuring instrument, respectively is provided.

本発明に係る第4実施形態によれば、バラ積みされた状態を含む、乱雑に置かれた複数のワークからハンド部によって前記ワークを取り出すロボットの動作を学習する機械学習装置であって、前記ワーク毎の三次元マップを計測する三次元計測器の出力データを含む前記ロボットの状態量を観測する状態量観測部と、前記ハンド部によって前記ワークを取り出す前記ロボットの取り出し動作の結果を取得する動作結果取得部と、前記状態量観測部からの出力および前記動作結果取得部からの出力を受け取り、前記三次元計測器の計測パラメータを含む操作量を、前記ロボットの前記状態量および前記取り出し動作の結果に関連付けて学習する学習部と、を備える機械学習装置を備えたロボットシステムであって、前記ロボットと、前記三次元計測器と、前記ロボットおよび前記三次元計測器をそれぞれ制御する制御装置と、を備えるロボットシステムが提供される。   According to a fourth embodiment of the present invention, there is provided a machine learning device that learns the operation of a robot that picks up a workpiece by a hand unit from a plurality of randomly placed workpieces, including a stacked state. A state quantity observing unit for observing the state quantity of the robot including output data of a three-dimensional measuring instrument for measuring a three-dimensional map for each work, and a result of the robot taking out the work by the hand unit. An operation result acquisition unit, an output from the state quantity observation unit and an output from the operation result acquisition unit are received, and an operation amount including a measurement parameter of the three-dimensional measuring instrument is determined as the state amount and the extraction operation of the robot. A learning unit comprising: a learning unit that learns in association with a result of the robot, wherein the robot and the three-dimensional And measuring device, a robot system and a control device for controlling each said robot and said three-dimensional measuring device is provided.

前記ロボットシステムは、複数の前記ロボットを備え、前記機械学習装置は、前記ロボット毎にそれぞれ設けられ、複数の前記ロボットに設けられた複数の前記機械学習装置は、通信媒体を介して相互にデータを共有または交換するのが好ましい。前記機械学習装置は、クラウドサーバ上に存在してもよい。   The robot system includes a plurality of the robots, the machine learning device is provided for each of the robots, and the plurality of machine learning devices provided in the plurality of robots exchange data with each other via a communication medium. Is preferably shared or exchanged. The machine learning device may exist on a cloud server.

本発明に係る第5実施形態によれば、バラ積みされた状態を含む、乱雑に置かれた複数のワークからハンド部によって前記ワークを取り出すロボットの動作を学習する機械学習方法であって、前記ワーク毎の三次元マップを計測する三次元計測器の出力データを含む前記ロボットの状態量を観測し、前記ハンド部によって前記ワークを取り出す前記ロボットの取り出し動作の結果を取得し、前記状態量観測部からの出力および前記動作結果取得部からの出力を受け取り、前記ワークの前記取り出し動作を前記ロボットに指令する指令データを含む操作量を、前記ロボットの前記状態量および前記取り出し動作の結果に関連付けて学習する機械学習方法が提供される。   According to a fifth embodiment of the present invention, there is provided a machine learning method for learning an operation of a robot that takes out the workpiece by a hand unit from a plurality of randomly placed workpieces including a state in which the workpieces are piled up. Observe the state quantity of the robot including output data of a three-dimensional measuring instrument that measures a three-dimensional map for each work, obtain the result of the robot's take-out operation to take out the work by the hand unit, and observe the state quantity The operation amount including the command data for receiving the output from the unit and the output from the operation result acquisition unit and instructing the robot to take out the workpiece is related to the state quantity of the robot and the result of the extraction operation. A machine learning method is provided.

本発明に係る機械学習装置、ロボットシステムおよび機械学習方法によれば、バラ積みされた状態を含む、乱雑に置かれたワークを取り出すときのロボットの最適な動作を人間の介在無しに学習できるという効果を奏する。   According to the machine learning device, the robot system, and the machine learning method according to the present invention, it is possible to learn the optimal operation of the robot when taking out a randomly placed workpiece including a stacked state without human intervention. There is an effect.

図1は、本発明の一実施形態のロボットシステムの概念的な構成を示すブロック図である。FIG. 1 is a block diagram showing a conceptual configuration of a robot system according to an embodiment of the present invention. 図2は、ニューロンのモデルを模式的に示す図である。FIG. 2 is a diagram schematically illustrating a neuron model. 図3は、図2に示すニューロンを組み合わせて構成した三層のニューラルネットワークを模式的に示す図である。FIG. 3 is a diagram schematically showing a three-layer neural network configured by combining the neurons shown in FIG. 図4は、図1に示す機械学習装置の動作の一例を示すフローチャートである。FIG. 4 is a flowchart showing an example of the operation of the machine learning apparatus shown in FIG. 図5は、本発明の他の実施形態のロボットシステムの概念的な構成を示すブロック図である。FIG. 5 is a block diagram showing a conceptual configuration of a robot system according to another embodiment of the present invention. 図6は、図5に示すロボットシステムにおける前処理部の処理の一例を説明するための図である。FIG. 6 is a diagram for explaining an example of processing of the preprocessing unit in the robot system shown in FIG. 図7は、図1に示すロボットシステムの変形例を示すブロック図である。FIG. 7 is a block diagram showing a modification of the robot system shown in FIG.

以下、本発明に係る機械学習装置、ロボットシステムおよび機械学習方法の実施例を、添付図面を参照して詳述する。ここで、各図面において、同じ部材には同じ参照符号が付されている。また、異なる図面において同じ参照符号が付されたものは同じ機能を有する構成要素であることを意味するものとする。なお、理解を容易にするために、これらの図面は縮尺を適宜変更している。   Hereinafter, embodiments of a machine learning device, a robot system, and a machine learning method according to the present invention will be described in detail with reference to the accompanying drawings. Here, in each drawing, the same reference numeral is given to the same member. Moreover, what attached | subjected the same referential mark in a different drawing shall mean that it is a component which has the same function. In order to facilitate understanding, the scales of these drawings are appropriately changed.

図1は、本発明の一実施形態のロボットシステムの概念的な構成を示すブロック図である。本実施形態のロボットシステム10は、かご状の箱11にバラ積みされたワーク12を把持するハンド部13が取り付けられたロボット14と、ワーク12の表面の三次元マップを計測する三次元計測器15と、ロボット14および三次元計測器15をそれぞれ制御する制御装置16と、座標計算部19と、機械学習装置20と、を備える。   FIG. 1 is a block diagram showing a conceptual configuration of a robot system according to an embodiment of the present invention. The robot system 10 of this embodiment includes a robot 14 to which a hand unit 13 that holds a workpiece 12 stacked in a basket-like box 11 is attached, and a three-dimensional measuring instrument that measures a three-dimensional map of the surface of the workpiece 12. 15, a control device 16 that controls the robot 14 and the three-dimensional measuring instrument 15, a coordinate calculation unit 19, and a machine learning device 20.

ここで、機械学習装置20は、状態量観測部21と、動作結果取得部26と、学習部22と、意思決定部25と、を備える。なお、機械学習装置20は、後に詳述するように、ワーク12の取り出し動作をロボット14に指令する指令データ、或いは、三次元計測器15の計測パラメータといった操作量を学習して出力する。   Here, the machine learning device 20 includes a state quantity observation unit 21, an operation result acquisition unit 26, a learning unit 22, and a decision determination unit 25. As will be described in detail later, the machine learning device 20 learns and outputs operation data such as command data for instructing the robot 14 to take out the workpiece 12 or measurement parameters of the three-dimensional measuring instrument 15.

ロボット14は、例えば、6軸多関節型ロボットであり、ロボット14およびハンド部13のそれぞれの駆動軸は、制御装置16によって制御される。また、ロボット14は、所定の位置に設置された箱11からワーク12を1つずつ取り出して指定の場所、例えば、コンベヤまたは作業台(図示しない)まで順次移動させるために使用される。   The robot 14 is, for example, a 6-axis articulated robot, and the drive axes of the robot 14 and the hand unit 13 are controlled by the control device 16. The robot 14 is used to take out the workpieces 12 one by one from the box 11 installed at a predetermined position and sequentially move them to a designated place, for example, a conveyor or a work table (not shown).

ところで、バラ積みされたワーク12を箱11から取り出す際、ハンド部13またはワーク12が箱11の壁と衝突もしくは接触する場合がある。あるいは、ハンド部13またはワーク12が別のワーク12に引っかかったりする場合もある。そのような場合にロボット14に掛かる過負荷を直ちに回避できるように、ハンド部13に作用する力を検出する機能が必要となる。そのため、ロボット14のアーム部の先端とハンド部13との間には、6軸の力センサ17が設けられている。また、本実施形態のロボットシステム10は、ロボット14の各関節部の駆動軸を駆動するモータ(図示しない)の電流値をもとにハンド部13に作用する力を推定する機能も備えている。   By the way, when the work 12 stacked in bulk is taken out from the box 11, the hand unit 13 or the work 12 may collide with or come into contact with the wall of the box 11. Alternatively, the hand unit 13 or the work 12 may be caught by another work 12. In such a case, a function for detecting the force acting on the hand unit 13 is required so that an overload applied to the robot 14 can be immediately avoided. Therefore, a six-axis force sensor 17 is provided between the tip of the arm part of the robot 14 and the hand part 13. The robot system 10 of this embodiment also has a function of estimating the force acting on the hand unit 13 based on the current value of a motor (not shown) that drives the drive shaft of each joint unit of the robot 14. .

さらに、力センサ17は、ハンド部13に作用する力を検出できるため、ハンド部13がワーク12を実際に把持しているか否かも判断することができる。つまり、ハンド部13がワーク12を把持した場合、ハンド部13にワーク12の重さが作用するため、ワーク12の取り出し動作を実施した後、力センサ17の検出値が所定の閾値を超えていれば、ハンド部13がワーク12を把持していると判断することができる。なお、ハンド部13がワーク12を把持しているか否かの判断については、例えば、三次元計測器15に使用されるカメラの撮影データや、ハンド部13に取り付けられた図示しない光電センサ等の出力により判断することもできる。また、後述の吸着式ハンドの圧力計のデータをもとに判断してもよい。   Furthermore, since the force sensor 17 can detect the force acting on the hand portion 13, it can also determine whether or not the hand portion 13 is actually gripping the workpiece 12. That is, when the hand unit 13 grips the workpiece 12, the weight of the workpiece 12 acts on the hand unit 13, and therefore, after the workpiece 12 is taken out, the detection value of the force sensor 17 exceeds a predetermined threshold value. Then, it can be determined that the hand unit 13 is holding the workpiece 12. In addition, about the judgment whether the hand part 13 is holding the workpiece | work 12, about the imaging | photography data of the camera used for the three-dimensional measuring device 15, the photoelectric sensor etc. which are not shown attached to the hand part 13, etc., for example It can also be judged from the output. Further, the determination may be made based on the data of the pressure gauge of the suction type hand described later.

ここで、ハンド部13は、ワーク12を保持可能であれば様々な形態を有していてもよい。例えば、ハンド部13は、2本または複数の爪部を開閉することによってワーク12を把持する形態、あるいは、ワーク12に対して吸引力を発生する電磁石または負圧発生装置を備えたものであってもよい。すなわち、図1において、ハンド部13は、2本の爪部によりワークを把持するものとして描かれているが、これ限定されないのはいうまでもない。   Here, as long as the hand part 13 can hold | maintain the workpiece | work 12, it may have various forms. For example, the hand unit 13 is configured to grip the workpiece 12 by opening or closing two or more claw units, or includes an electromagnet or a negative pressure generator that generates an attractive force with respect to the workpiece 12. May be. That is, in FIG. 1, the hand portion 13 is depicted as holding a workpiece by two claw portions, but it is needless to say that this is not a limitation.

三次元計測器15は、複数のワーク12を測定するために、支持部18によって複数のワーク12の上方の所定の位置に設けられている。三次元計測器15としては、例えば、2台のカメラ(図示しない)から撮影されたワーク12の画像データを画像処理することによって、三次元位置情報を取得する三次元視覚センサを使用することができる。具体的には、三角計測法、光切断法、Time-of-flight法、Depth from Defocus法、または、これらを併用した方法などを適用することにより、三次元マップ(バラ積みされた複数のワーク12の表面の位置)が測定される。   The three-dimensional measuring instrument 15 is provided at a predetermined position above the plurality of workpieces 12 by the support unit 18 in order to measure the plurality of workpieces 12. As the three-dimensional measuring instrument 15, for example, a three-dimensional visual sensor that acquires three-dimensional position information by performing image processing on the image data of the workpiece 12 photographed from two cameras (not shown) may be used. it can. Specifically, by applying the triangulation measurement method, light cutting method, time-of-flight method, depth from defocus method, or a combination of these methods, a 3D map 12 surface positions) are measured.

座標計算部19は、三次元計測器15で得られた三次元マップを入力として、バラ積みされた複数のワーク12の表面の位置を計算(測定)する。すなわち、三次元計測器15の出力を利用して、それぞれのワーク12毎の三次元位置データ(x,y,z)、あるいは、三次元位置データ(x,y,z)および姿勢データ(w,p,r)を得ることができる。ここで、状態量観測部21は、三次元計測器15からの三次元マップおよび座標計算部19はからの位置データ(姿勢データ)の両方を受け取ってロボット14の状態量を観測しているが、例えば、三次元計測器15からの三次元マップだけを受け取ってロボット14の状態量を観測することもできる。また、後に図5を参照して説明するのと同様に、前処理部50を追加し、この前処理部50により、状態量観測部21への入力前に、三次元計測器15からの三次元マップを処理(前処理)して状態量観測部21に入力することも可能である。   The coordinate calculation unit 19 calculates (measures) the positions of the surfaces of the plurality of workpieces 12 stacked in bulk, using the three-dimensional map obtained by the three-dimensional measuring instrument 15 as an input. That is, using the output of the three-dimensional measuring instrument 15, three-dimensional position data (x, y, z) for each workpiece 12, or three-dimensional position data (x, y, z) and posture data (w , P, r). Here, the state quantity observation unit 21 receives both the three-dimensional map from the three-dimensional measuring device 15 and the position data (posture data) from the coordinate calculation unit 19 and observes the state quantity of the robot 14. For example, only the three-dimensional map from the three-dimensional measuring instrument 15 can be received and the state quantity of the robot 14 can be observed. Further, as described later with reference to FIG. 5, a pre-processing unit 50 is added, and this pre-processing unit 50 performs the tertiary processing from the three-dimensional measuring instrument 15 before input to the state quantity observation unit 21. It is also possible to process (pre-process) the original map and input it to the state quantity observation unit 21.

なお、ロボット14と三次元計測器15との相関位置は、予めキャリブレーションにより決定されているものとする。また、本願発明の三次元計測器15には、三次元視覚センサに代えて、レーザ距離測定器を使用することもできる。つまり、三次元計測器15が設置された位置から各ワーク12の表面までの距離をレーザ走査によって計測することや、単眼カメラ、触覚センサなどの各種センサを用いることにより、バラ積みされた複数のワーク12の三次元位置データおよび姿勢(x,y,z,w,p,r)を取得してもよい。   It is assumed that the correlation position between the robot 14 and the three-dimensional measuring instrument 15 is determined in advance by calibration. The three-dimensional measuring instrument 15 of the present invention can use a laser distance measuring instrument instead of the three-dimensional visual sensor. That is, by measuring the distance from the position where the three-dimensional measuring instrument 15 is installed to the surface of each workpiece 12 by laser scanning, or by using various sensors such as a monocular camera and a tactile sensor, a plurality of stacked units are collected. The three-dimensional position data and posture (x, y, z, w, p, r) of the workpiece 12 may be acquired.

すなわち、本発明においては、例えば、それぞれのワーク12のデータ(x,y,z,w,p,r)を取得できれば、どのような三次元計測法を適用した三次元計測器15でも適用することができる。また、三次元計測器15が設置される態様も特に限定されるものではなく、例えば、床や壁などに固定されていてもよいし、ロボット14のアーム部等に取り付けられていてもよい。   That is, in the present invention, for example, any three-dimensional measuring device 15 to which any three-dimensional measuring method is applied is applicable as long as data (x, y, z, w, p, r) of each workpiece 12 can be acquired. be able to. The manner in which the three-dimensional measuring instrument 15 is installed is not particularly limited, and may be fixed to a floor, a wall, or the like, or may be attached to an arm portion of the robot 14 or the like.

三次元計測器15は、制御装置16からの指令により、箱11にバラ積みされた複数のワーク12の三次元マップを取得し、座標計算部19は、その三次元マップをもとに複数のワーク12の三次元位置(姿勢)のデータを取得(計算)し、そのデータを、制御装置16と後述する機械学習装置20の状態量観測部21および動作結果取得部26とに出力するようになっている。特に、座標計算部19においては、例えば、撮影された複数のワーク12の画像データを基に、或るワーク12と別のワーク12との境界や、ワーク12と箱11との境界が推定され、ワーク12毎の三次元位置のデータが取得される。   The three-dimensional measuring instrument 15 acquires a three-dimensional map of the plurality of workpieces 12 stacked in the box 11 according to a command from the control device 16, and the coordinate calculation unit 19 uses a plurality of the three-dimensional maps based on the three-dimensional map. Data of the three-dimensional position (posture) of the workpiece 12 is acquired (calculated), and the data is output to the control device 16 and a state quantity observation unit 21 and an operation result acquisition unit 26 of the machine learning device 20 described later. It has become. In particular, in the coordinate calculation unit 19, for example, the boundary between one workpiece 12 and another workpiece 12 or the boundary between the workpiece 12 and the box 11 is estimated based on the image data of a plurality of photographed workpieces 12. The data of the three-dimensional position for each workpiece 12 is acquired.

ワーク12毎の三次元位置のデータとは、例えば、バラ積みされた複数のワーク12の表面上の複数の点の位置から各々のワーク12の存在位置や保持可能な位置を推定することによって取得されたデータを指す。勿論、ワーク12毎の三次元位置のデータには、ワーク12の姿勢のデータが含まれてもよい。   The three-dimensional position data for each work 12 is obtained by, for example, estimating the existence position and the holdable position of each work 12 from the positions of a plurality of points on the surface of the plurality of works 12 stacked in bulk. Points to the generated data. Of course, the three-dimensional position data for each workpiece 12 may include data on the posture of the workpiece 12.

さらに、座標計算部19におけるワーク12毎の三次元位置および姿勢データの取得には、機械学習の手法を使用することも含まれる。例えば、後述する教師あり学習等の手法を用いた入力画像もしくはレーザ距離測定器などからの物体認識や角度推定などを適用することも可能である。   Furthermore, the acquisition of the three-dimensional position and orientation data for each workpiece 12 in the coordinate calculation unit 19 includes using a machine learning method. For example, it is also possible to apply object recognition or angle estimation from an input image or a laser distance measuring device using a method such as supervised learning described later.

そして、ワーク12毎の三次元位置のデータが三次元計測器15から座標計算部19を介して制御装置16に入力されると、制御装置16は、或るワーク12を箱11から取り出すハンド部13の動作を制御する。このとき、後述する機械学習装置20により得られたハンド部13の最適な位置,姿勢および取り出し方向に対応する指令値(操作量)に基づいて、ハンド部13やロボット14の各軸のモータ(図示しない)が駆動される。   When the data of the three-dimensional position for each workpiece 12 is input from the three-dimensional measuring instrument 15 to the control device 16 via the coordinate calculation unit 19, the control device 16 takes out a certain workpiece 12 from the box 11. 13 operations are controlled. At this time, on the basis of the command value (operation amount) corresponding to the optimum position, posture and take-out direction of the hand unit 13 obtained by the machine learning device 20 described later, the motors of the axes of the hand unit 13 and the robot 14 ( (Not shown) is driven.

また、機械学習装置20は、三次元計測器15に使用されるカメラの撮影条件の変数(三次元計測器15の計測パラメータ:例えば、露出計を用いて撮影時に調整される露出時間、被撮影対象を照明する照明系の照度など)を学習し、制御装置16を介して、学習した計測パラメータ操作量に基づいて、三次元計測器15を制御することもできる。ここで、三次元計測器15が、計測した複数のワーク12の位置から各々のワーク12の存在位置・姿勢や保持可能な位置・姿勢を推定するのに使用する位置・姿勢推定条件の変数は、上述の三次元計測器15の出力データに含まれてもよい。   In addition, the machine learning device 20 uses a camera imaging condition variable used for the three-dimensional measuring instrument 15 (measurement parameters of the three-dimensional measuring instrument 15; for example, exposure time adjusted at the time of shooting using an exposure meter, The illuminance of the illumination system that illuminates the object is learned, and the three-dimensional measuring instrument 15 can be controlled via the control device 16 based on the learned measurement parameter operation amount. Here, the variable of the position / posture estimation condition used by the three-dimensional measuring instrument 15 to estimate the existence position / posture of each work 12 and the holdable position / posture from the measured positions of the plurality of works 12 is as follows. , It may be included in the output data of the three-dimensional measuring instrument 15 described above.

さらに、三次元計測器15からの出力データは、図5を参照して後に詳述する前処理部50等により、事前に処理し、その処理されたデータ(画像データ)を状態量観測部21に与えるようにすることも可能なのは前述した通りである。なお、動作結果取得部26は、例えば、三次元計測器15からの出力データ(座標計算部19の出力データ)から、ロボット14のハンド部13によりワーク12を取り出した結果を取得することができるが、それ以外に、例えば、取り出したワーク12を後工程に渡したときの達成度、並びに、取り出したワーク12の破損等の状態変化がないかどうかといった動作結果を、他の手段(例えば、後工程に設けられたカメラやセンサ等)を介して取得することもできるのはいうまでもない。以上において、状態量観測部21および動作結果取得部26は、機能的なブロックであり、1つのブロックにより両者の機能を達成するものとして捉えることもできるのは勿論である。   Furthermore, the output data from the three-dimensional measuring instrument 15 is processed in advance by a preprocessing unit 50 or the like which will be described in detail later with reference to FIG. 5, and the processed data (image data) is processed by the state quantity observation unit 21. As described above, it is also possible to give to the above. The operation result acquisition unit 26 can acquire, for example, the result of taking out the workpiece 12 by the hand unit 13 of the robot 14 from the output data from the three-dimensional measuring instrument 15 (output data of the coordinate calculation unit 19). In addition, for example, the degree of achievement when the taken-out workpiece 12 is passed to the subsequent process, and the operation result such as whether there is no state change such as breakage of the taken-out workpiece 12 are obtained by other means (for example, Needless to say, it can also be obtained via a camera, sensor, etc. provided in a post-process. In the above, the state quantity observation unit 21 and the operation result acquisition unit 26 are functional blocks, and it is needless to say that both functions can be achieved by one block.

次に、図1に示される機械学習装置20について、詳述する。機械学習装置20は、装置に入力されるデータの集合から、その中にある有用な規則や知識表現、判断基準などを解析により抽出し、その判断結果を出力するとともに、知識の学習(機械学習)を行う機能を有する。機械学習の手法は様々であるが、大別すれば、例えば、「教師あり学習」、「教師なし学習」および「強化学習」に分けられる。さらに、これらの手法を実現するうえで、特徴量そのものの抽出を学習する、「深層学習(ディープラーニング:Deep Learning)」と呼ばれる手法がある。なお、これらの機械学習(機械学習装置20)は、汎用の計算機もしくはプロセッサを用いてもよいが、GPGPU(General-Purpose computing on Graphics Processing Units)や大規模PCクラスター等を適用すると、より高速に処理することが可能である。   Next, the machine learning device 20 shown in FIG. 1 will be described in detail. The machine learning device 20 extracts useful rules, knowledge expressions, judgment criteria, and the like from the set of data input to the device by analysis, outputs the judgment results, and learns knowledge (machine learning). ). There are various machine learning methods, but they can be roughly classified into “supervised learning”, “unsupervised learning”, and “reinforcement learning”. Furthermore, in order to realize these methods, there is a method called “deep learning” that learns the extraction of the feature quantity itself. These machine learnings (machine learning device 20) may use general-purpose computers or processors. However, when GPGPU (General-Purpose computing on Graphics Processing Units) or a large-scale PC cluster is applied, the machine learning is faster. Can be processed.

まず、教師あり学習とは、ある入力と結果(ラベル)のデータの組を大量に機械学習装置20に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル、すなわちその関係性を帰納的に獲得するものである。この教師あり学習を本実施形態に適用する場合、例えば、センサ入力からワーク位置を推定する部分、あるいはワーク候補に対してその取得成功確率を推定する部分などに用いることができる。例えば、後述のニューラルネットワークなどのアルゴリズムを用いて実現することが可能である。   First, supervised learning is a model in which a large number of data sets of certain inputs and results (labels) are given to the machine learning device 20 to learn features in those data sets and to estimate the results from the inputs. That is, the relationship is acquired inductively. When this supervised learning is applied to the present embodiment, it can be used, for example, as a part for estimating a work position from a sensor input or a part for estimating an acquisition success probability for a work candidate. For example, it can be realized using an algorithm such as a neural network described later.

また、教師なし学習とは、入力データのみを大量に学習装置に与えることで、入力データがどのような分布をしているか学習し、対応する教師出力データを与えなくても、入力データに対して圧縮・分類・整形などを行う装置で学習する手法である。例えば、それらのデータセットにある特徴を、似た者どうしにクラスタリングすることなどができる。この結果を使って、何らかの基準を設けてそれを最適化するような出力の割り当てを行うことにより、出力の予測を実現することできる。   In addition, unsupervised learning means that only a large amount of input data is given to the learning device to learn how the input data is distributed. This is a technique for learning with a device that performs compression, classification, shaping, and the like. For example, features in those data sets can be clustered among similar people. By using this result, output prediction can be realized by assigning outputs so as to optimize some of them by providing some criteria.

なお、教師なし学習と教師あり学習との中間的な問題設定として、半教師あり学習と呼ばれるものもあり、これは、例えば、一部のみ入力と出力のデータの組が存在し、それ以外は入力のみのデータである場合が対応する。本実施形態においては、実際にロボットを動かさなくても取得することができるデータ(画像データやシミュレーションのデータ等)を教師なし学習で利用することにより、学習を効率的に行うことが可能となる。   In addition, as an intermediate problem setting between unsupervised learning and supervised learning, there is what is called semi-supervised learning. For example, only a part of input and output data sets exist, and other than that, This corresponds to the case of input-only data. In this embodiment, it is possible to efficiently perform learning by using unsupervised learning (data such as image data and simulation data) that can be acquired without actually moving the robot. .

次に、強化学習について、説明する。まず、強化学習の問題設定として、次のように考える。
・ロボットは、環境の状態を観測し、行動を決定する。
・環境は、何らかの規則に従って変化し、さらに、自分の行動が、環境に変化を与えることもある。
・行動するたびに、報酬信号が帰ってくる。
・最大化したいのは、将来にわたっての(割引)報酬の合計である。
・行動が引き起こす結果を全く知らない、または、不完全にしか知らない状態から学習はスタートする。すなわち、ロボットは、実際に行動して初めて、その結果をデータとして得ることができる。つまり、試行錯誤しながら最適な行動を探索する必要がある。
・人間の動作を真似るように、事前学習(前述の教師あり学習や、逆強化学習といった手法)した状態を初期状態として、良いスタート地点から学習をスタートさせることもできる。
Next, reinforcement learning will be described. First, consider the following as a problem setting for reinforcement learning.
-The robot observes the state of the environment and decides the action.
・ Environment changes according to some rules, and your actions may change the environment.
-Every time you act, a reward signal comes back.
• What we want to maximize is the sum of future (discounted) rewards.
・ Learning starts from a state of not knowing the consequences of the action at all or knowing incompletely. That is, the robot can obtain the result as data only after actually acting. In other words, it is necessary to search for the optimum action through trial and error.
-Learning can be started from a good starting point with the state of prior learning (a method such as supervised learning or reverse reinforcement learning described above) as an initial state so as to imitate human movement.

ここで、強化学習とは、判定や分類だけではなく、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶものである。このことは、本実施形態において、例えば、ワーク12の山を崩して将来的にワーク12を取り易くする、といった、未来に影響をおよぼすような行動を獲得できることを表している。以下に、例として、Q学習の場合で説明を続けるが、Q学習に限定されるものではない。   Reinforcement learning is not only judgment and classification, but also learning behavior, learning appropriate behavior based on the interaction of behavior on the environment, that is, maximizing the reward that can be obtained in the future. Learn how to learn. This indicates that, in the present embodiment, for example, an action that affects the future, such as breaking the mountain of the work 12 and making it easier to take the work 12 in the future, can be obtained. Hereinafter, as an example, the description will be continued in the case of Q learning, but is not limited to Q learning.

Q学習は、或る環境状態sの下で、行動aを選択する価値Q(s,a)を学習する方法である。つまり、或る状態sのとき、価値Q(s,a)の最も高い行動aを最適な行動として選択すればよい。しかし、最初は、状態sと行動aとの組合せについて、価値Q(s,a)の正しい値は全く分かっていない。そこで、エージェント(行動主体)は、或る状態sの下で様々な行動aを選択し、その時の行動aに対して、報酬が与えられる。それにより、エージェントは、より良い行動の選択、すなわち、正しい価値Q(s,a)を学習していく。   Q learning is a method of learning a value Q (s, a) for selecting an action a under a certain environmental state s. That is, in a certain state s, the action a having the highest value Q (s, a) may be selected as the optimum action. However, at first, the correct value Q (s, a) is not known at all for the combination of the state s and the action a. Therefore, the agent (action subject) selects various actions a under a certain state s, and a reward is given to the action a at that time. Thereby, the agent learns the selection of a better action, that is, the correct value Q (s, a).

さらに、行動の結果、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γt)rt]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rtは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化したときについてとるものとし、それは、分かっていないので、探索しながら学習することになる。このような価値Q(s,a)の更新式は、例えば、次の式(1)により表すことができる。 The results of behavioral, we want to maximize the sum of the rewards future, finally Q (s, a) = E aims to [Σ (γ t) r t ] become so. Here E [] denotes the expected value, t is the time, parameter γ is called the discount rate to be described later, is r t compensation at time t, sigma is the sum by the time t. The expected value in this equation is assumed when the state changes according to the optimum behavior, and since it is not known, it is learned while searching. Such an update formula of the value Q (s, a) can be expressed by the following formula (1), for example.

上記の式(1)において、stは、時刻tにおける環境の状態を表し、atは、時刻tにおける行動を表す。行動atにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。 In the above formula (1), s t represents the state of the environment at time t, a t represents the action at time t. By the action a t, the state changes to s t + 1. r t + 1 represents a reward obtained by the change of the state. The term with max is a value obtained by multiplying the Q value when the action a having the highest Q value known at that time is selected under the state s t + 1 by γ. Here, γ is a parameter of 0 <γ ≦ 1, and is called a discount rate. In addition, α is a learning coefficient and is in a range of 0 <α ≦ 1.

上述した式(1)は、試行atの結果、帰ってきた報酬rt+1を元に、状態stにおける行動atの評価値Q(st,at)を更新する方法を表している。すなわち、状態sにおける行動aの評価値Q(st,at)よりも、報酬rt+1と行動aによる次の状態における最良の行動max aの評価値Q(st+1,max at+1)の合計の方が大きければ、Q(st,at)を大きくし、反対に小さければ、Q(st,at)を小さくすることを示している。つまり、或る状態における或る行動の価値を、結果として即時帰ってくる報酬と、その行動による次の状態における最良の行動の価値に近付けるようにしている。 The above-mentioned formula (1) as a result of the trial a t, based on the reward r t + 1 came back, represents a method for updating the evaluation value Q of the action a t in state s t (s t, a t ) ing. That is, the evaluation value Q (s t + 1 , max) of the best action max a in the next state by the reward r t + 1 and the action a, rather than the evaluation value Q (s t , a t ) of the action a in the state s. If the sum of a t + 1 ) is larger, Q (s t , a t ) is increased, and if it is smaller, Q (s t , a t ) is decreased. That is, the value of a certain action in a certain state is brought close to the reward that immediately returns as a result and the value of the best action in the next state by that action.

ここで、Q(s,a)の計算機上での表現方法は、すべての状態行動ペア(s,a)に対して、その値をテーブルとして保持しておく方法と、Q(s,a)を近似するような関数を用意する方法がある。後者の方法では、前述の式(1)は、確率勾配降下法などの手法で近似関数のパラメータを調整していくことにより、実現することができる。なお、近似関数としては、後述のニューラルネットワークを用いることができる。   Here, the expression method of Q (s, a) on the computer includes a method of holding the values as a table for all the state action pairs (s, a), and Q (s, a). There is a method to prepare a function that approximates. In the latter method, the above-described equation (1) can be realized by adjusting the parameters of the approximate function by a method such as the probability gradient descent method. Note that a neural network described later can be used as the approximate function.

また、教師あり学習、教師なし学習の学習モデル、あるいは強化学習での価値関数の近似アルゴリズムとして、ニューラルネットワークを用いることができる。図2は、ニューロンのモデルを模式的に示す図であり、図3は、図2に示すニューロンを組み合わせて構成した三層のニューラルネットワークを模式的に示す図である。すなわち、ニューラルネットワークは、例えば、図2に示すようなニューロンのモデルを模した演算装置およびメモリ等で構成される。   A neural network can be used as a learning model for supervised learning, unsupervised learning, or an approximation algorithm for a value function in reinforcement learning. FIG. 2 is a diagram schematically showing a neuron model, and FIG. 3 is a diagram schematically showing a three-layer neural network configured by combining the neurons shown in FIG. That is, the neural network includes, for example, an arithmetic device that simulates a neuron model as shown in FIG.

図2に示されるように、ニューロンは、複数の入力x(図2では、一例として入力x1〜入力x3)に対する出力(結果)yを出力するものである。各入力x(x1,x2,x3)には、この入力xに対応する重みw(w1,w2,w3)が掛けられる。これにより、ニューロンは、次の式(2)により表現される結果yを出力する。なお、入力x、結果yおよび重みwは、すべてベクトルである。また、下記の式(2)において、θは、バイアスであり、fkは、活性化関数である。
As shown in FIG. 2, the neuron outputs an output (result) y for a plurality of inputs x (in FIG. 2, as an example, inputs x1 to x3). Each input x (x1, x2, x3) is multiplied by a weight w (w1, w2, w3) corresponding to this input x. Thereby, the neuron outputs a result y expressed by the following equation (2). Note that the input x, the result y, and the weight w are all vectors. In the following equation (2), θ is a bias, and f k is an activation function.

図3を参照して、図2に示すニューロンを組み合わせて構成した三層のニューラルネットワークを説明する。図3に示されるように、ニューラルネットワークの左側から複数の入力x(ここでは、一例として、入力x1〜入力x3)が入力され、右側から結果y(ここでは、一例として、結果y1〜入力y3)が出力される。具体的に、入力x1,x2, x3は、3つのニューロンN11〜N13の各々に対して、対応する重みが掛けられて入力される。これらの入力に掛けられる重みは、まとめてw1と標記されている。   With reference to FIG. 3, a three-layer neural network configured by combining the neurons shown in FIG. 2 will be described. As shown in FIG. 3, a plurality of inputs x (here, as an example, inputs x1 to x3) are inputted from the left side of the neural network, and results y (here, as an example, results y1 to y3 are taken as examples). ) Is output. Specifically, the inputs x1, x2, and x3 are input with corresponding weights applied to each of the three neurons N11 to N13. The weights applied to these inputs are collectively labeled w1.

ニューロンN11〜N13は、それぞれ、z11〜z13を出力する。図3において、これらz11〜z13は、まとめて特徴ベクトルz1と標記され、入力ベクトルの特徴量を抽出したベクトルとみなすことができる。この特徴ベクトルz1は、重みw1と重みw2との間の特徴ベクトルである。z11〜z13は、2つのニューロンN21およびN22の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてw2と標記されている。   The neurons N11 to N13 output z11 to z13, respectively. In FIG. 3, these z11 to z13 are collectively described as a feature vector z1, and can be regarded as a vector obtained by extracting the feature quantity of the input vector. The feature vector z1 is a feature vector between the weight w1 and the weight w2. z11 to z13 are inputted to each of the two neurons N21 and N22 with corresponding weights multiplied. The weights applied to these feature vectors are collectively labeled w2.

ニューロンN21,N22は、それぞれz21,z22を出力する。図3において、これらz21,z22は、まとめて特徴ベクトルz2と標記されている。この特徴ベクトルz2は、重みw2と重みw3との間の特徴ベクトルである。z21,z22は、3つのニューロンN31〜N33の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてw3と標記されている。   The neurons N21 and N22 output z21 and z22, respectively. In FIG. 3, these z21 and z22 are collectively denoted as a feature vector z2. The feature vector z2 is a feature vector between the weight w2 and the weight w3. z21 and z22 are input with corresponding weights applied to each of the three neurons N31 to N33. The weights applied to these feature vectors are collectively labeled w3.

最後に、ニューロンN31〜N33は、それぞれ、結果y1〜結果y3を出力する。ニューラルネットワークの動作には、学習モードと価値予測モードとがある。例えば、学習モードにおいて、学習データセットを用いて重みWを学習し、そのパラメータを用いて予測モードにおいて、ロボットの行動判断を行う。なお、便宜上、予測と書いたが、検出・分類・推論など多様なタスクが可能なのはいうまでもない。   Finally, the neurons N31 to N33 output the results y1 to y3, respectively. The operation of the neural network includes a learning mode and a value prediction mode. For example, in the learning mode, the weight W is learned using the learning data set, and the behavior of the robot is determined in the prediction mode using the parameters. For convenience, the word “prediction” is used, but it goes without saying that various tasks such as detection, classification, and inference are possible.

ここで、予測モードで実際にロボットを動かして得られたデータを即時学習し、次の行動に反映させる(オンライン学習)ことも、予め収集しておいたデータ群を用いてまとめた学習を行い、以降はずっとそのパラメータで検知モードを行う(バッチ学習)こともできる。あるいは、その中間的な、ある程度データが溜まるたびに学習モードを挟むということも可能である。   Here, it is possible to immediately learn the data obtained by actually moving the robot in the prediction mode and reflect it in the next action (online learning). From then on, the detection mode can be performed with the parameters (batch learning). Alternatively, it is also possible to sandwich the learning mode every time data is accumulated to some extent.

また、重みw1〜w3は、誤差逆伝搬法(誤差逆転伝播法:バックプロパゲーション:Backpropagation)により学習可能なものである。なお、誤差の情報は、右側から入り左側に流れる。誤差逆伝搬法は、各ニューロンについて、入力xが入力されたときの出力yと真の出力y(教師)との差分を小さくするように、それぞれの重みを調整(学習)する手法である。   Further, the weights w1 to w3 can be learned by the error back propagation method (error reverse propagation method: backpropagation). The error information enters from the right side and flows to the left side. The error back-propagation method is a method of adjusting (learning) the weight of each neuron so as to reduce the difference between the output y when the input x is input and the true output y (teacher).

このようなニューラルネットワークは、三層以上に、さらに層を増やすことも可能である(深層学習と称される)。また、入力の特徴抽出を段階的に行い、結果を回帰する演算装置を、教師データのみから自動的に獲得することも可能である。   Such a neural network can have more layers than three layers (referred to as deep learning). It is also possible to automatically acquire an arithmetic unit that performs input feature extraction step by step and regresses the result from only teacher data.

そこで、本実施形態の機械学習装置20は、上述のQ学習を実施すべく、図1に示されるように、状態量観測部21、動作結果取得部26、学習部22、および、意思決定部25を備えている。ただし、本発明に適用される機械学習方法は、Q学習に限定されないのは前述した通りである。すなわち、機械学習装置で用いることが出来る手法である「教師あり学習」、「教師なし学習」、「半教師あり学習」および「強化学習」等といった様々な手法が適用可能である。なお、これらの機械学習(機械学習装置20)は、汎用の計算機もしくはプロセッサを用いてもよいが、GPGPUや大規模PCクラスター等を適用すると、より高速に処理することが可能である。   Therefore, the machine learning device 20 of the present embodiment performs the above-described Q learning, as shown in FIG. 1, the state quantity observation unit 21, the operation result acquisition unit 26, the learning unit 22, and the decision making unit. 25. However, as described above, the machine learning method applied to the present invention is not limited to the Q learning. That is, various methods such as “supervised learning”, “unsupervised learning”, “semi-supervised learning”, “reinforcement learning”, and the like that can be used in the machine learning apparatus are applicable. These machine learning (machine learning device 20) may use a general-purpose computer or processor, but can be processed at higher speed by applying GPGPU, a large-scale PC cluster, or the like.

すなわち、本実施形態によれば、バラ積みされた状態を含む、乱雑に置かれた複数のワーク12からハンド部13によってワーク12を取り出すロボット14の動作を学習する機械学習装置であって、ワーク12毎の三次元位置(x,y,z)、あるいは三次元位置と姿勢(x,y,z,w,p,r)を計測する三次元計測器15の出力データを含むロボット14の状態量を観測する状態量観測部21と、ハンド部13によってワーク12を取り出すロボット14の取り出し動作の結果を取得する動作結果取得部26と、状態量観測部21からの出力および動作結果取得部26からの出力を受け取り、ワーク12の取り出し動作をロボット14に指令する指令データを含む操作量を、ロボット14の状態量および取り出し動作の結果に関連付けて学習する学習部22と、を備える。   That is, according to the present embodiment, a machine learning device that learns the operation of a robot 14 that takes out a workpiece 12 by a hand unit 13 from a plurality of randomly placed workpieces 12 including a stacked state. The state of the robot 14 including the output data of the three-dimensional measuring device 15 that measures the three-dimensional position (x, y, z) every twelve or the three-dimensional position and posture (x, y, z, w, p, r). A state quantity observing unit 21 for observing the quantity, an operation result obtaining unit 26 for obtaining the result of the take-out operation of the robot 14 for taking out the workpiece 12 by the hand unit 13, and an output from the state quantity observing unit 21 and the operation result obtaining unit 26. The operation amount including the command data for receiving the output from the robot 14 and instructing the robot 14 to take out the workpiece 12 is related to the state quantity of the robot 14 and the result of the take-out operation. Comprising a learning unit 22 for learning and Te.

なお、状態量観測部21が観測する状態量は、例えば、或るワーク12を箱11から取り出すときのハンド部13の位置,姿勢および取り出し方向をそれぞれ設定する状態変数が含まれてもよい。また、学習される操作量は、例えば、ワーク12を箱11から取り出す際に制御装置16からロボット14やハンド部13の各駆動軸に与えられるトルク、速度、回転位置などの指令値が含まれてもよい。   Note that the state quantity observed by the state quantity observation unit 21 may include, for example, state variables for setting the position, posture, and take-out direction of the hand unit 13 when a certain work 12 is taken out from the box 11. In addition, the learned operation amount includes, for example, command values such as torque, speed, and rotational position given from the control device 16 to each drive shaft of the robot 14 and the hand unit 13 when the workpiece 12 is taken out of the box 11. May be.

そして、学習部22は、バラ積みされた複数のワーク12のうちの1つを取り出すとき、上記の状態変数をワーク12の取り出し動作の結果(動作結果取得部26の出力)に関連付けて学習する。つまり、制御装置16により三次元計測器15(座標計算部19)の出力データとハンド部13の指令データとをそれぞれ無作為に設定し、あるいは所定のルールに基づいて作為的に設定し、ハンド部13によるワーク12の取り出し動作を実施する。ここで、上記所定のルールとしては、例えば、バラ積みされた複数のワーク12のうち、高さ(z)方向が高いワークから順番に取り出すといったものがある。これにより、或るワークを取り出す行為に対して、三次元計測器15の出力データとハンド部13の指令データが対応する。そして、ワーク12の取り出しの成功と失敗が生じ、そのような成功と失敗が生じる都度、学習部22は、三次元計測器15の出力データとハンド部13の指令データとから構成される状態変数を評価していく。   When the learning unit 22 takes out one of the plurality of stacked workpieces 12, the learning unit 22 learns by associating the state variable with the result of the workpiece 12 take-out operation (output of the operation result acquisition unit 26). . That is, the control device 16 sets the output data of the three-dimensional measuring instrument 15 (coordinate calculation unit 19) and the command data of the hand unit 13 at random, or sets them randomly based on a predetermined rule. The operation of taking out the workpiece 12 by the unit 13 is performed. Here, as said predetermined rule, there exists a thing taken out in order from the workpiece | work with a high height (z) direction among the some workpiece | work 12 piled up in bulk, for example. Thereby, the output data of the three-dimensional measuring instrument 15 and the command data of the hand unit 13 correspond to the action of taking out a certain workpiece. Then, success and failure of taking out the workpiece 12 occur, and each time such success and failure occur, the learning unit 22 is a state variable composed of the output data of the three-dimensional measuring instrument 15 and the command data of the hand unit 13. Will be evaluated.

また、学習部22は、ワーク12を取り出すときの三次元計測器15の出力データおよびハンド部13の指令データと、ワーク12の取り出し動作の結果に対する評価とを関連付けて記憶する。なお、失敗例としては、ハンド部13がワーク12を把持できていない場合、あるいは、ワーク12を把持できたとしてもワーク12が箱11の壁と衝突もしくは接触する場合、等がある。また、このようなワーク12の取り出しの成否は、力センサ17の検出値や、三次元計測器による撮影データをもとに判断される。ここで、機械学習装置20は、例えば、制御装置16から出力されるハンド部13の指令データの一部を利用して学習を行うことも可能である。   Further, the learning unit 22 stores the output data of the three-dimensional measuring instrument 15 when the workpiece 12 is taken out, the command data of the hand unit 13 and the evaluation of the result of the taking-out operation of the workpiece 12 in association with each other. Examples of the failure include a case where the hand unit 13 cannot grip the workpiece 12 or a case where the workpiece 12 collides with or contacts the wall of the box 11 even if the workpiece 12 can be gripped. Further, whether or not the workpiece 12 is taken out is determined based on the detection value of the force sensor 17 and the image data obtained by the three-dimensional measuring instrument. Here, the machine learning device 20 can also perform learning by using a part of the command data of the hand unit 13 output from the control device 16, for example.

ここで、本実施形態の学習部22は、報酬計算部23および価値関数更新部24を備えることが好ましい。例えば、報酬計算部23は、上記の状態変数に起因するワーク12の取り出しの成否に基づいて報酬、例えば、スコアを計算する。ワーク12の取り出しの成功に対しては報酬が高くなるようにし、ワーク12の取り出しの失敗に対しては報酬が低くなるようにする。また、所定の時間内にワーク12の取り出しに成功した回数に基づいて報酬を計算してもよい。さらに、この報酬を計算するとき、例えば、ハンド部13による把持に成功や、ハンド部13による運搬の成功、ワーク12の置き動作に成功、などといったワーク12の取り出しの各段階に応じて報酬を計算してもよい。   Here, the learning unit 22 of the present embodiment preferably includes a reward calculation unit 23 and a value function update unit 24. For example, the reward calculation unit 23 calculates a reward, for example, a score based on the success or failure of taking out the workpiece 12 caused by the state variable. The reward is increased for the successful removal of the workpiece 12, and the reward is decreased for the failure to extract the workpiece 12. Further, the reward may be calculated based on the number of successful removal of the workpiece 12 within a predetermined time. Furthermore, when calculating the reward, for example, the reward is determined according to each stage of the removal of the workpiece 12 such as successful gripping by the hand unit 13, successful transport by the hand unit 13, and successful placement operation of the workpiece 12. You may calculate.

そして、価値関数更新部24は、ワーク12の取り出し動作の価値を定める価値関数を有していて、上記の報酬に応じて価値関数を更新する。この価値関数の更新には、上述したような価値Q(s,a)の更新式が使用される。さらに、この更新の際、行動価値テーブルを作成することが好ましい。ここでいう行動価値テーブルとは、ワーク12を取り出した時の三次元計測器15の出力データおよびハンド部13の指令データと、その時のワーク12の取り出し結果に応じて更新された価値関数(すなわち評価値)とを互いに関連付けて記録したものをいう。   And the value function update part 24 has a value function which determines the value of the taking-out operation | work of the workpiece | work 12, and updates a value function according to said reward. For updating the value function, the update formula of the value Q (s, a) as described above is used. Furthermore, it is preferable to create an action value table at the time of this update. The action value table here is a value function updated according to the output data of the three-dimensional measuring instrument 15 and the command data of the hand unit 13 when the work 12 is taken out, and the take-out result of the work 12 at that time (that is, The evaluation value is recorded in association with each other.

なお、この行動価値テーブルとして、前述のニューラルネットワークを用いて近似した関数を用いることも可能であり、画像データなどのように状態sの情報量が莫大であるときは特に有効である。また、上記の価値関数は1種類に限定されない。例えば、ハンド部13によるワーク12の把持の成否を評価する価値関数や、ハンド部13によりワーク12を把持して運搬するのに要した時間(サイクルタイム)を評価する価値関数が考えられる。   Note that a function approximated using the above-described neural network can also be used as this action value table, which is particularly effective when the amount of information of the state s is enormous, such as image data. The value function is not limited to one type. For example, a value function for evaluating the success or failure of gripping the workpiece 12 by the hand unit 13 or a value function for evaluating the time (cycle time) required to grip and transport the workpiece 12 by the hand unit 13 can be considered.

さらに、上記の価値関数として、ワーク取り出し時の箱11とハンド部13またはワーク12との干渉を評価する価値関数を使用してもよい。この価値関数の更新に用いる報酬を計算するため、状態量観測部21は、ハンド部13に作用する力、例えば、力センサ17により検出される値を観測することが好ましい。そして、力センサ17により検出される力の変化量が所定の閾値を超える場合、上記の干渉が発生したと推定できるため、その場合の報酬を例えばマイナスの値とし、価値関数が定める価値が低くなるようにするのが好ましい。   Furthermore, as the above value function, a value function for evaluating the interference between the box 11 and the hand unit 13 or the work 12 at the time of taking out the work may be used. In order to calculate a reward used for updating the value function, the state quantity observation unit 21 preferably observes a force acting on the hand unit 13, for example, a value detected by the force sensor 17. If the amount of change in the force detected by the force sensor 17 exceeds a predetermined threshold, it can be estimated that the interference has occurred. Therefore, the reward in that case is set to a negative value, for example, and the value defined by the value function is low. It is preferable to do so.

また、本実施形態によれば、三次元計測器15の計測パラメータを操作量として学習することも可能である。すなわち、本実施形態によれば、バラ積みされた状態を含む、乱雑に置かれた複数のワーク12からハンド部13によってワーク12を取り出すロボット14の動作を学習する機械学習装置であって、ワーク12毎の三次元位置(x,y,z)、あるいは三次元位置と姿勢(x,y,z,w,p,r)を計測する三次元計測器15の出力データを含むロボット14の状態量を観測する状態量観測部21と、ハンド部13によってワーク12を取り出すロボット14の取り出し動作の結果を取得する動作結果取得部26と、状態量観測部21からの出力および動作結果取得部26からの出力を受け取り、三次元計測器15の計測パラメータを含む操作量を、ロボット14の状態量および取り出し動作の結果に関連付けて学習する学習部22と、を備える。   Moreover, according to this embodiment, it is also possible to learn the measurement parameter of the three-dimensional measuring instrument 15 as the operation amount. That is, according to the present embodiment, a machine learning device that learns the operation of a robot 14 that takes out a workpiece 12 by a hand unit 13 from a plurality of randomly placed workpieces 12 including a stacked state. The state of the robot 14 including the output data of the three-dimensional measuring device 15 that measures the three-dimensional position (x, y, z) every twelve or the three-dimensional position and posture (x, y, z, w, p, r). A state quantity observing unit 21 for observing the quantity, an operation result obtaining unit 26 for obtaining the result of the take-out operation of the robot 14 for taking out the workpiece 12 by the hand unit 13, and an output from the state quantity observing unit 21 and the operation result obtaining unit 26. A learning unit 22 that receives an output from the robot and learns an operation amount including a measurement parameter of the three-dimensional measuring instrument 15 in association with a state amount of the robot 14 and a result of the extraction operation; Provided.

さらに、本実施形態のロボットシステム10においては、ロボット14に取り付けられているハンド部13を別の形態のハンド部13に交換する自動ハンド交換装置(図示しない)が備えられていてもよい。その場合、価値関数更新部24は、形態の異なるハンド部13毎に上記の価値関数を有していて、交換後のハンド部13の価値関数を報酬に応じて更新するものであるとよい。それにより、形態の異なる複数のハンド13毎にハンド部13の最適な動作を学習できるため、価値関数のより高いハンド部13を自動ハンド交換装置に選定させることが可能となる。   Furthermore, in the robot system 10 of the present embodiment, an automatic hand exchange device (not shown) that exchanges the hand unit 13 attached to the robot 14 with another type of hand unit 13 may be provided. In that case, the value function updating unit 24 preferably has the value function for each hand unit 13 having a different form, and updates the value function of the exchanged hand unit 13 according to the reward. Thereby, since the optimal operation | movement of the hand part 13 can be learned for every several hand 13 from which a form differs, it becomes possible to make the automatic hand changer select the hand part 13 with a higher value function.

続いて、意思決定部25は、例えば、上述したように作成した行動価値テーブルを参照して、最も高い評価値に対応する、三次元計測器15の出力データおよびハンド部13の指令データを選択することが好ましい。その後、意思決定部25は、選定したハンド部13や三次元計測器15の最適なデータを制御装置16に出力する。   Subsequently, the decision making unit 25 selects, for example, the output data of the three-dimensional measuring instrument 15 and the command data of the hand unit 13 corresponding to the highest evaluation value with reference to the action value table created as described above. It is preferable to do. Thereafter, the decision making unit 25 outputs optimum data of the selected hand unit 13 and the three-dimensional measuring instrument 15 to the control device 16.

そして、制御装置16は、学習部22が出力するハンド部13や三次元計測器15の最適なデータを用いて、三次元計測器15およびロボット14をそれぞれ制御してワーク12を取り出す。例えば、制御装置16は、学習部22により得られたハンド部13の最適な位置,姿勢および取り出し方向をそれぞれ設定する状態変数に基づいて、ハンド部13やロボット14の各駆動軸を動作させることが好ましい。   And the control apparatus 16 takes out the workpiece | work 12 by controlling the three-dimensional measuring device 15 and the robot 14, respectively, using the optimal data of the hand part 13 and the three-dimensional measuring device 15 which the learning part 22 outputs. For example, the control device 16 operates each drive shaft of the hand unit 13 or the robot 14 based on the state variables for setting the optimum position, posture, and extraction direction of the hand unit 13 obtained by the learning unit 22. Is preferred.

なお、上述した実施形態のロボットシステム10は、図1に示されるように1つのロボット14に対して1つの機械学習装置20を備えたものである。しかし、本発明においては、ロボット14および機械学習装置20の各々の数は1つに限定されない。例えば、ロボットシステム10は複数のロボット14を備えていて、1つ以上の機械学習装置20が各々のロボット14に対応して設けられていてもよい。そして、ロボットシステム10は、各ロボット14の機械学習装置20が取得した、三次元計測器15とハンド部13の最適な状態変数を、ネットワークなどの通信媒体によって共有または相互交換するのが好ましい。それにより、或るロボット14の稼働率が別のロボット14の稼働率より低くても、別のロボット14に備わる機械学習装置20が取得した最適な動作結果を或るロボット14の動作に利用することができる。また、複数のロボットでの学習モデルの共有、もしくは三次元計測器15の計測パラメータを含む操作量とロボット14の状態量および取り出し動作の結果を共有することにより、学習に掛かる時間を短縮することができる。   The robot system 10 according to the above-described embodiment includes one machine learning device 20 for one robot 14 as shown in FIG. However, in the present invention, the number of each of the robot 14 and the machine learning device 20 is not limited to one. For example, the robot system 10 may include a plurality of robots 14, and one or more machine learning devices 20 may be provided corresponding to each robot 14. The robot system 10 preferably shares or exchanges the optimum state variables of the three-dimensional measuring instrument 15 and the hand unit 13 acquired by the machine learning device 20 of each robot 14 with a communication medium such as a network. Thereby, even if the operation rate of a certain robot 14 is lower than the operation rate of another robot 14, the optimum operation result acquired by the machine learning device 20 provided in the other robot 14 is used for the operation of the certain robot 14. be able to. Also, the learning time can be shortened by sharing the learning model among a plurality of robots, or by sharing the operation amount including the measurement parameters of the three-dimensional measuring instrument 15, the state amount of the robot 14, and the result of the extraction operation. Can do.

さらに、機械学習装置20はロボット14内に在ってもロボット14外に在ってもよい。あるいは、機械学習装置20は、制御装置16内に在ってもよいし、クラウドサーバ(図示しない)に存在してもよい。   Further, the machine learning device 20 may be inside the robot 14 or outside the robot 14. Or the machine learning apparatus 20 may exist in the control apparatus 16, and may exist in a cloud server (not shown).

また、ロボットシステム10が複数のロボット14を備える場合には、或るロボット14がハンド部13により把持したワーク12を運搬する間に、別のロボット14のハンド部にワーク12を取り出す作業を実施させることが可能である。そして、このようなワーク12を取り出すロボット14が切替る間の時間を利用して価値関数更新部24が価値関数を更新することもできる。さらに、機械学習装置20には、複数のハンドモデルの状態変数をもち、ワーク12の取り出し動作中に複数のハンドモデルでの取り出しシミュレーションを行い、その取り出しシミュレーションの結果に応じて、複数のハンドモデルの状態変数を、ワーク12の取り出し動作の結果に関連付けて学習することも可能である。   Further, when the robot system 10 includes a plurality of robots 14, an operation of taking out the workpiece 12 to the hand portion of another robot 14 is performed while a certain robot 14 transports the workpiece 12 gripped by the hand portion 13. It is possible to make it. And the value function update part 24 can also update a value function using the time during which the robot 14 which takes out such a workpiece | work 12 switches. Further, the machine learning device 20 has state variables of a plurality of hand models, performs a pick-up simulation with a plurality of hand models during the picking-up operation of the workpiece 12, and a plurality of hand models according to the result of the pick-up simulation. It is also possible to learn the state variable in association with the result of the workpiece 12 take-out operation.

なお、上述の機械学習装置20においては、ワーク12毎の三次元マップのデータを取得した際の三次元計測器15の出力データが、三次元計測器15から状態量観測部21に送信されるようになっている。そのような送信データには、異常なデータが含まれていないとは限らないので、機械学習装置20には、異常データのフィルタリング機能、すなわち三次元計測器15からのデータを状態量観測部21に入力するか否かを選択可能な機能を持たせることができる。それにより、機械学習装置20の学習部22は、三次元計測器15およびロボット14によるハンド部13の最適な動作を効率よく学習できるようになる。   In the machine learning device 20 described above, the output data of the three-dimensional measuring instrument 15 when acquiring the three-dimensional map data for each workpiece 12 is transmitted from the three-dimensional measuring instrument 15 to the state quantity observation unit 21. It is like that. Since such transmission data does not always include abnormal data, the machine learning device 20 uses the abnormal data filtering function, that is, the data from the three-dimensional measuring instrument 15 as the state quantity observation unit 21. It is possible to provide a function capable of selecting whether or not to input to. Thereby, the learning unit 22 of the machine learning device 20 can efficiently learn the optimum operation of the hand unit 13 by the three-dimensional measuring instrument 15 and the robot 14.

さらに、上述した機械学習装置20において、制御装置16には、学習部22からの出力データが入力されているが、その学習部22からの出力データにも、異常なデータが含まれていないとは限られないので、異常データのフィルタリング機能、すなわち、学習部22からのデータを制御装置16に出力するか否かを選択可能な機能を持たせてもよい。それにより、制御装置16は、ハンド部13の最適な動作をより安全にロボット14に実行させることが可能になる。   Furthermore, in the machine learning device 20 described above, output data from the learning unit 22 is input to the control device 16, but the output data from the learning unit 22 does not include abnormal data. Since it is not limited, a filtering function for abnormal data, that is, a function capable of selecting whether to output data from the learning unit 22 to the control device 16 may be provided. Thereby, the control device 16 can cause the robot 14 to more safely execute the optimum operation of the hand unit 13.

なお、上述の異常データは、次のような手順により検出し得る。すなわち、入力データの確率分布を推定し、確率分布を用いて新規の入力の発生確率を導き、発生確率が一定以下ならば、典型的な挙動から大きく外れる異常なデータと見なす、という手順により異常データを検出できる。   The abnormal data described above can be detected by the following procedure. That is, the probability distribution of the input data is estimated, the probability distribution of the new input is derived using the probability distribution, and if the probability of occurrence is below a certain level, it is regarded as abnormal data that deviates significantly from typical behavior. Data can be detected.

次に、本実施形態のロボットシステム10に備わる機械学習装置20の動作の一例を説明する。図4は、図1に示す機械学習装置の動作の一例を示すフローチャートである。図4に示されるように、図1に示す機械学習装置20において、学習動作(学習処理)が開始すると、三次元計測器15により三次元計測を実施して出力する(図4のステップS11)。すなわち、ステップS11において、例えば、バラ積みされた状態を含む、乱雑に置かれたワーク12毎の三次元マップ(三次元計測器15の出力データ)を取得して状態量観測部21に出力するとともに、座標計算部19によりワーク12毎の三次元マップを受け取ってワーク12毎の三次元位置(x,y,z)を計算して状態量観測部21,動作結果取得部26および制御装置16に出力する。ここで、座標計算部19は、三次元計測器15の出力からワーク12毎の姿勢(w,p,r)を計算して出力してもよい。   Next, an example of operation | movement of the machine learning apparatus 20 with which the robot system 10 of this embodiment is provided is demonstrated. FIG. 4 is a flowchart showing an example of the operation of the machine learning apparatus shown in FIG. As shown in FIG. 4, when the learning operation (learning process) is started in the machine learning device 20 shown in FIG. 1, the three-dimensional measuring device 15 performs three-dimensional measurement and outputs it (step S11 in FIG. 4). . That is, in step S 11, for example, a three-dimensional map (output data of the three-dimensional measuring instrument 15) for each work 12 placed in a messy state including the stacked state is acquired and output to the state quantity observation unit 21. At the same time, the coordinate calculation unit 19 receives a three-dimensional map for each workpiece 12 and calculates a three-dimensional position (x, y, z) for each workpiece 12 to calculate the state quantity observation unit 21, the operation result acquisition unit 26, and the control device 16. Output to. Here, the coordinate calculation unit 19 may calculate and output the posture (w, p, r) for each workpiece 12 from the output of the three-dimensional measuring instrument 15.

なお、図5を参照して説明するように、三次元計測器15の出力(三次元マップ)は、状態量観測部21へ入力される前に処理する前処理部50を介して状態量観測部21に入力されてもよい。また、図7を参照して説明するように、三次元計測器15の出力だけが状態量観測部21に入力されてもよく、さらに、三次元計測器15の出力だけが前処理部50を介して状態量観測部21に入力されてもよい。このように、ステップS11における三次元計測の実施および出力は、様々なものを含むことが可能である。   As will be described with reference to FIG. 5, the output (three-dimensional map) of the three-dimensional measuring instrument 15 is subjected to state quantity observation via a preprocessing unit 50 that is processed before being input to the state quantity observation unit 21. It may be input to the unit 21. Further, as will be described with reference to FIG. 7, only the output of the three-dimensional measuring device 15 may be input to the state quantity observation unit 21, and only the output of the three-dimensional measuring device 15 may be connected to the preprocessing unit 50. It may be input to the state quantity observation unit 21 via this. Thus, the implementation and output of the three-dimensional measurement in step S11 can include various things.

具体的に、図1の場合には、状態量観測部21は、三次元計測器15からのワーク12毎の三次元マップ、ならびに、座標計算部19からのワーク12毎の三次元位置(x,y,z)および姿勢(w,p,r)といった状態量(三次元計測器15の出力データ)を観測する。なお、動作結果取得部26は、三次元計測器15の出力データ(座標計算部19の出力データ)により、ハンド部13によってワーク12を取り出すロボット14の取り出し動作の結果を取得する。なお、動作結果取得部26は、三次元計測器の出力データ以外に、例えば、取り出したワーク12を後工程に渡したときの達成度や取り出したワーク12の破損といった取り出し動作の結果も取得することができる。   Specifically, in the case of FIG. 1, the state quantity observation unit 21 includes a three-dimensional map for each workpiece 12 from the three-dimensional measuring instrument 15 and a three-dimensional position (x for each workpiece 12 from the coordinate calculation unit 19. , Y, z) and state quantities (output data of the three-dimensional measuring instrument 15) such as posture (w, p, r) are observed. The operation result acquisition unit 26 acquires the result of the extraction operation of the robot 14 that extracts the workpiece 12 by the hand unit 13 based on the output data of the three-dimensional measuring instrument 15 (output data of the coordinate calculation unit 19). In addition to the output data of the three-dimensional measuring instrument, the operation result acquisition unit 26 also acquires the result of the extraction operation such as the degree of achievement when the extracted workpiece 12 is passed to the subsequent process and the damage of the extracted workpiece 12. be able to.

さらに、例えば、機械学習装置20により、三次元計測器15の出力データをもとに最適な動作を決定し(図4のステップS12)、また、制御装置16は、ハンド部13(ロボット14)の指令データ(操作量)を出力して、ワーク12の取り出し動作を実施する(図4のステップS13)。そして、ワークの取り出し結果は、上述した動作結果取得部26により取得される(図4のステップS14)。   Further, for example, the machine learning device 20 determines an optimal operation based on the output data of the three-dimensional measuring instrument 15 (step S12 in FIG. 4), and the control device 16 also determines the hand unit 13 (robot 14). Command data (operation amount) is output, and the workpiece 12 is taken out (step S13 in FIG. 4). Then, the workpiece removal result is acquired by the operation result acquisition unit 26 described above (step S14 in FIG. 4).

次に、動作結果取得部26からの出力により、ワーク12の取り出しの成否を判定し(図4のステップS15)、ワーク12の取り出しに成功した場合は、プラスの報酬を設定し(図4のステップS16)、ワーク12の取り出しに失敗した場合は、マイナスの報酬を設定し(図4のステップS17)、そして、行動価値テーブル(価値関数)を更新する(図4のステップS18)。   Next, whether or not the workpiece 12 is successfully taken out is determined based on the output from the operation result acquisition unit 26 (step S15 in FIG. 4). If the workpiece 12 is successfully taken out, a positive reward is set (see FIG. 4). Step S16) If the removal of the workpiece 12 fails, a negative reward is set (step S17 in FIG. 4), and the action value table (value function) is updated (step S18 in FIG. 4).

ここで、ワーク12の取り出しの成否判定は、例えば、ワーク12の取り出し動作の後の三次元計測器15の出力データに基づいてことができる。また、ワーク12の取り出しの成否判定は、ワーク12の取り出しの成否を評価したものに限定されず、例えば、取り出したワーク12を後工程に渡したときの達成度、取り出したワーク12の破損等の状態変化がないかどうか、あるいは、ハンド部13によりワーク12を把持して運搬するのに要した時間(サイクルタイム)やエネルギー(電力量)などを評価したものであってもよい。   Here, the success / failure determination of the removal of the workpiece 12 can be made based on, for example, the output data of the three-dimensional measuring instrument 15 after the workpiece 12 is removed. Moreover, the success / failure determination of the removal of the workpiece 12 is not limited to the evaluation of the success / failure of the removal of the workpiece 12, for example, the degree of achievement when the removed workpiece 12 is passed to the subsequent process, the damage of the removed workpiece 12, etc. It may be evaluated whether there is no change in the state, or the time (cycle time) or energy (electric energy) required for gripping and transporting the workpiece 12 by the hand unit 13.

なお、ワーク12の取り出しの成否判定に基づいた報酬の値の計算は、報酬計算部23により行われ、また、行動価値テーブルの更新は、価値関数更新部24により行われる。すなわち、学習部22は、ワーク12の取り出しに成功したときは、前述した価値Q(s,a)の更新式における報酬にプラスの報酬を設定し(S16)、また、ワーク12の取り出しに失敗したときは、その更新式における報酬にマイナスの報酬を設定する(S17)。そして、学習部22は、ワーク12の取り出しの都度、前述した行動価値テーブルの更新を行う(S18)。以上のステップS11〜S18を繰返すことにより、学習部22は、行動価値テーブルの更新を継続(学習)することになる。   The reward value calculation based on the success / failure determination of the removal of the workpiece 12 is performed by the reward calculation unit 23, and the behavior value table is updated by the value function updating unit 24. That is, when the learning unit 22 succeeds in picking up the workpiece 12, the learning unit 22 sets a positive reward to the reward in the above-described update formula of the value Q (s, a) (S16), and fails to take out the workpiece 12 If so, a negative reward is set as the reward in the update formula (S17). And the learning part 22 updates the action value table mentioned above whenever the workpiece | work 12 is taken out (S18). By repeating the above steps S11 to S18, the learning unit 22 continues (learns) updating of the behavior value table.

以上において、状態量観測部21に入力されるデータは、三次元計測器15の出力データに限定されず、例えば、他のセンサの出力等のデータが含まれてもよく、さらに、制御装置16からの指令データの一部を利用することも可能である。このようにして、制御装置16は、機械学習装置20から出力された指令データ(操作量)を使って、ワーク12の取り出し動作をロボット14に実行させる。なお、機械学習装置20による学習は、ワーク12の取り出し動作に限定されるものではなく、例えば、三次元計測器15の計測パラメータであってもよいのは前述した通りである。   In the above, the data input to the state quantity observation unit 21 is not limited to the output data of the three-dimensional measuring instrument 15 and may include, for example, data such as the output of other sensors. It is also possible to use part of the command data from In this way, the control device 16 causes the robot 14 to perform an operation of taking out the workpiece 12 using the command data (operation amount) output from the machine learning device 20. Note that the learning by the machine learning device 20 is not limited to the operation of taking out the workpiece 12, and for example, as described above, the measurement parameter of the three-dimensional measuring instrument 15 may be used.

以上のように、本実施形態の機械学習装置20を備えたロボットシステム10によれば、バラ積みされた状態を含む、乱雑に置かれた複数のワーク12からハンド部13によってワーク12を取り出すロボット14の動作を学習することができる。これにより、ロボットシステム10は、バラ積みされたワーク12を取り出すロボット14の最適な動作の選択を人間の介在無しに学習することが可能になる。   As described above, according to the robot system 10 including the machine learning device 20 according to the present embodiment, the robot 12 picks up the workpiece 12 by the hand unit 13 from the plurality of randomly placed workpieces 12 including the stacked state. 14 actions can be learned. Thereby, the robot system 10 can learn selection of the optimal operation | movement of the robot 14 which takes out the workpiece | work 12 piled up without a human intervention.

図5は、本発明の他の実施形態のロボットシステムの概念的な構成を示すブロック図であり、教師あり学習を適用したロボットシステムを示すものである。図5と、前述した図1の比較から明らかなように、図5に示す教師あり学習を適用したロボットシステム10’は、図1に示すQ学習(強化学習)を適用したロボットシステム10に対して、さらに、結果(ラベル)付きデータ記録部40を備える。なお、図5に示すロボットシステム10’は、さらに、三次元計測器15の出力データを前処理する前処理部50を備える。なお、前処理部50は、例えば、図1に示すロボットシステム10に対しても設けることができるのはいうまでもない。   FIG. 5 is a block diagram showing a conceptual configuration of a robot system according to another embodiment of the present invention, and shows a robot system to which supervised learning is applied. As is clear from a comparison between FIG. 5 and FIG. 1 described above, the robot system 10 ′ to which supervised learning shown in FIG. 5 is applied is different from the robot system 10 to which Q learning (reinforcement learning) shown in FIG. In addition, a data recording unit 40 with a result (label) is provided. Note that the robot system 10 ′ illustrated in FIG. 5 further includes a preprocessing unit 50 that preprocesses the output data of the three-dimensional measuring instrument 15. Needless to say, the pre-processing unit 50 can be provided for the robot system 10 shown in FIG. 1, for example.

図5に示されるように、教師あり学習を適用したロボットシステム10’における機械学習装置30は、状態量観測部31と、動作結果取得部36と、学習部32と、意思決定部35と、を備える。学習部32は、誤差計算部33と、学習モデル更新部34と、を含む。なお、本実施形態のロボットシステム10’においても、機械学習装置30は、ワーク12の取り出し動作をロボット14に指令する指令データ、或いは、三次元計測器15の計測パラメータといった操作量を学習して出力する。   As shown in FIG. 5, the machine learning device 30 in the robot system 10 ′ to which supervised learning is applied includes a state quantity observation unit 31, an operation result acquisition unit 36, a learning unit 32, a decision making unit 35, Is provided. The learning unit 32 includes an error calculation unit 33 and a learning model update unit 34. In the robot system 10 ′ of the present embodiment, the machine learning device 30 learns operation amounts such as command data for instructing the robot 14 to take out the workpiece 12 or measurement parameters of the three-dimensional measuring instrument 15. Output.

すなわち、図5に示す教師あり学習を適用したロボットシステム10’において、誤差計算部33および学習モデル更新部34は、それぞれ、図1に示すQ学習を適用したロボットシステム10における報酬計算部23および価値関数更新部24に対応する。なお、他の構成、例えば、三次元計測器15,制御装置16およびロボット14等の構成は、前述した図1と同様であり、その説明は省略する。   That is, in the robot system 10 ′ to which supervised learning shown in FIG. 5 is applied, the error calculation unit 33 and the learning model update unit 34 are respectively a reward calculation unit 23 in the robot system 10 to which Q learning shown in FIG. This corresponds to the value function updating unit 24. Other configurations, for example, the configurations of the three-dimensional measuring instrument 15, the control device 16, the robot 14, and the like are the same as those in FIG.

動作結果取得部36から出力される結果(ラベル)と学習部に実装されている学習モデルの出力との誤差が誤差計算部33で計算される。ここで、結果(ラベル)付きデータ記録部40は、例えば、ワーク12の形状やロボット14による処理が同一の場合にはロボット14に作業を行わせる所定日の前日までに得られた結果(ラベル)付きデータを保持し、その所定日に、結果(ラベル)付きデータ記録部40に保持された結果(ラベル)付きデータを誤差計算部33に提供することができる。あるいは、ロボットシステム10’の外部で行われたシミュレーション等により得られたデータ、または、他のロボットシステムの結果(ラベル)付きデータを、メモリカードや通信回線により、そのロボットシステム10’の誤差計算部33に提供することも可能である。さらに、結果(ラベル)付きデータ記録部40をフラッシュメモリ(Flash Memory)等の不揮発性メモリで構成し、結果(ラベル)付きデータ記録部(不揮発性メモリ)40を学習部32に内蔵し、その結果(ラベル)付きデータ記録部40に保持された結果(ラベル)付きデータを、そのまま学習部32で使用することもできる。   The error calculation unit 33 calculates an error between the result (label) output from the operation result acquisition unit 36 and the output of the learning model installed in the learning unit. Here, the result (label) -attached data recording unit 40, for example, if the shape of the workpiece 12 and the processing by the robot 14 are the same, the result (label) obtained up to the day before a predetermined day for the robot 14 to perform the work. ) And data with results (label) held in the data recording unit with results (label) 40 can be provided to the error calculator 33 on the predetermined date. Alternatively, data obtained by a simulation or the like performed outside the robot system 10 ′ or data with a result (label) of another robot system is calculated using a memory card or a communication line to calculate the error of the robot system 10 ′. It can also be provided to the unit 33. Further, the data recording unit 40 with the result (label) is configured by a non-volatile memory such as a flash memory, and the data recording unit (non-volatile memory) 40 with the result (label) is built in the learning unit 32. The data with the result (label) held in the data recording unit with result (label) 40 can be used as it is by the learning unit 32.

図6は、図5に示すロボットシステムにおける前処理部の処理の一例を説明するための図であり、図6(a)は、箱11にバラ積みされた複数のワーク12の三次元位置(姿勢)のデータ、すなわち、三次元計測器15の出力データの一例を示し、図6(b)〜図6(d)は、図6(a)におけるワーク121〜123に対して前処理を行った後の画像データの例を示す。   FIG. 6 is a diagram for explaining an example of the processing of the preprocessing unit in the robot system shown in FIG. 5. FIG. 6A shows the three-dimensional positions (a plurality of workpieces 12 stacked in the box 11 ( FIG. 6 (b) to FIG. 6 (d) perform preprocessing on the workpieces 121 to 123 in FIG. 6 (a). The example of the image data after is shown.

ここで、ワーク12(121〜123)としては、円柱形状の金属部品を想定し、ハンド(13)としては、2本の爪部でワークを把持するのではなく、例えば、円柱形状のワーク12の長手中央部分を負圧で吸い取る吸着パッドを想定している。そのため、例えば、ワーク12の長手中央部分の位置が分かれば、その位置に対して吸着パッド(13)を移動させて吸着することにより、ワーク12を取り出すことができるようになっている。また、図6(a)〜図6(d)における数値は、[mm]で表され、それぞれx方向,y方向,z方向を示す。なお、z方向は、複数のワーク12がバラ積みされた箱11を、上方に設けられた三次元計測器15(例えば、2つのカメラを有する)により撮像した画像データの高さ(深さ)方向に対応する。   Here, the workpiece 12 (121 to 123) is assumed to be a cylindrical metal part, and the hand (13) does not hold the workpiece with two claw portions, but, for example, the cylindrical workpiece 12 It is assumed that the suction pad absorbs the longitudinal center of the substrate with negative pressure. Therefore, for example, if the position of the longitudinal center portion of the workpiece 12 is known, the workpiece 12 can be taken out by moving the suction pad (13) to the position and sucking it. Also, the numerical values in FIGS. 6A to 6D are expressed in [mm] and indicate the x direction, the y direction, and the z direction, respectively. Note that, in the z direction, the height (depth) of image data obtained by imaging the box 11 in which a plurality of workpieces 12 are stacked by a three-dimensional measuring instrument 15 (for example, having two cameras) provided above. Corresponds to the direction.

図6(a)と、図6(b)〜図6(d)の比較から明らかなように、図5に示すロボットシステム10’における前処理部50の処理の一例としては、三次元計測器15の出力データ(三次元画像)から、注目するワーク12(例えば、3つのワーク121〜123)を、回転させると共に、中心の高さが『0』となるように処理するものである。   As is clear from a comparison between FIG. 6 (a) and FIGS. 6 (b) to 6 (d), as an example of the processing of the preprocessing unit 50 in the robot system 10 ′ shown in FIG. From the 15 output data (three-dimensional images), the work 12 of interest (for example, the three works 121 to 123) is rotated and processed so that the center height becomes “0”.

すなわち、三次元計測器15の出力データには、例えば、それぞれのワーク12の長手中央部分の三次元位置(x,y,z)および姿勢(w,p,r)の情報が含まれている。このとき、図6(b),図6(c)および図6(d)に示されるように、注目する3つのワーク121,122,123は、それぞれ−rだけ回転させると共に、zだけ減算して、全て同じ条件に揃えるようになっている。このような前処理を行うことにより、機械学習装置30の負荷を低減することが可能になる。   That is, the output data of the three-dimensional measuring instrument 15 includes, for example, information on the three-dimensional position (x, y, z) and posture (w, p, r) of the longitudinal center portion of each workpiece 12. . At this time, as shown in FIGS. 6 (b), 6 (c) and 6 (d), the three workpieces 121, 122, 123 of interest are respectively rotated by −r and subtracted by z. Are all set to the same conditions. By performing such preprocessing, the load on the machine learning device 30 can be reduced.

ここで、図6(a)に示す三次元画も、三次元計測器15の出力データそのものではなく、例えば、以前より実施しているワーク12の取り出し順を規定するプログラムにより得られた画像から、選択するためのしきい値を低くしたものとなっており、この処理自体も前処理部50で行うこともできる。なお、このような前処理部50による処理としては、ワーク12の形状およびハンド13の種類等を始めとしてさまざまな条件により様々に変化し得るのはいうまでもない。   Here, the three-dimensional image shown in FIG. 6A is not the output data itself of the three-dimensional measuring instrument 15 but, for example, from an image obtained by a program that prescribes the order in which the workpieces 12 are taken out. The threshold value for selection is lowered, and this processing itself can also be performed by the preprocessing unit 50. In addition, it cannot be overemphasized that it can change variously according to various conditions as a process by such a pre-processing part 50 including the shape of the workpiece | work 12, the kind of hand 13, etc. FIG.

このように、前処理部50により、状態量観測部31への入力前に処理を行った三次元計測器15の出力データ(ワーク12毎の三次元マップ)は、状態量観測部31に入力されることになる。再び、図5を参照して、動作結果取得部36から出力される結果(ラベル)を受け取る誤差計算部33は、例えば、学習モデルとして図3に示すニューラルネットワークの出力をyとしたとき、実際にワーク12の取り出し動作を行って成功していたときは−log(y)の誤差、失敗していたときは−log(1−y)の誤差があるとみなし、この誤差を最小化することを目標として処理を行う。なお、図3に示すニューラルネットワークの入力としては、例えば、図6(b)〜図6(d)に示されるような前処理を行った後の注目するワーク121〜123の画像データ、並びに、それら注目するワーク121〜123毎の三次元位置および姿勢(x,y,z,w,p,r)のデータを与えることになる。   As described above, the output data (three-dimensional map for each work 12) of the three-dimensional measuring instrument 15 processed by the preprocessing unit 50 before being input to the state quantity observation unit 31 is input to the state quantity observation unit 31. Will be. Referring to FIG. 5 again, the error calculation unit 33 that receives the result (label) output from the operation result acquisition unit 36, when the output of the neural network shown in FIG. If the workpiece 12 is successfully taken out, it is assumed that there is an error of -log (y), and if it is unsuccessful, an error of -log (1-y) is assumed, and this error is minimized. Process with the goal. As the input of the neural network shown in FIG. 3, for example, image data of the works 121 to 123 to be noticed after performing the preprocessing as shown in FIGS. 6B to 6D, and Data of the three-dimensional position and posture (x, y, z, w, p, r) for each of the workpieces 121 to 123 to which attention is paid is given.

図7は、図1に示すロボットシステムの変形例を示すブロック図である。図7と、図1の比較から明らかなように、図7に示すロボットシステム10の変形例において、座標計算部19は削除され、状態量観測部21は、三次元計測器15からの三次元マップだけを受け取ってロボット14の状態量を観測するようになっている。なお、制御装置16に対して、座標計算部19に対応する構成を設けることができるのはいうまでもない。また、この図7に示す構成は、例えば、図5を参照して説明した教師あり学習を適用したロボットシステム10’に対しても適用することができる。すなわち、図5に示すロボットシステム10’において、前処理部50を削除し、状態量観測部31が三次元計測器15からの三次元マップだけを受け取ってロボット14の状態量を観測することも可能である。このように、上述した各実施例は、様々な変更および変形することが可能である。   FIG. 7 is a block diagram showing a modification of the robot system shown in FIG. As is clear from comparison between FIG. 7 and FIG. 1, in the modification of the robot system 10 shown in FIG. 7, the coordinate calculation unit 19 is deleted, and the state quantity observation unit 21 is Only the map is received and the state quantity of the robot 14 is observed. It goes without saying that a configuration corresponding to the coordinate calculation unit 19 can be provided for the control device 16. Further, the configuration shown in FIG. 7 can be applied to, for example, the robot system 10 ′ to which supervised learning described with reference to FIG. 5 is applied. That is, in the robot system 10 ′ shown in FIG. 5, the preprocessing unit 50 is deleted, and the state quantity observation unit 31 receives only the three-dimensional map from the three-dimensional measuring device 15 and observes the state quantity of the robot 14. Is possible. As described above, the embodiments described above can be variously changed and modified.

以上、詳述したように、本実施形態によれば、バラ積みされた状態を含む、乱雑に置かれたワークを取り出すときのロボットの最適な動作を人間の介在無しに学習できる機械学習装置、ロボットシステムおよび機械学習方法を提供することが可能になる。なお、本発明における機械学習装置20,30としては、強化学習(例えば、Q学習)または教師あり学習を適用したものに限定されず、様々な機械学習のアルゴリズムを適用することが可能である。   As described above in detail, according to the present embodiment, the machine learning device that can learn the optimal operation of the robot when taking out a randomly placed work, including a stacked state, without human intervention, It becomes possible to provide a robot system and a machine learning method. The machine learning devices 20 and 30 in the present invention are not limited to those using reinforcement learning (for example, Q learning) or supervised learning, and various machine learning algorithms can be applied.

以上、実施形態を説明したが、ここに記載したすべての例や条件は、発明および技術に適用する発明の概念の理解を助ける目的で記載されたものであり、特に記載された例や条件は発明の範囲を制限することを意図するものではない。また、明細書のそのような記載は、発明の利点および欠点を示すものでもない。発明の実施形態を詳細に記載したが、各種の変更、置き換え、変形が発明の精神および範囲を逸脱することなく行えることが理解されるべきである。   Although the embodiment has been described above, all examples and conditions described herein are described for the purpose of helping understanding of the concept of the invention applied to the invention and the technology. It is not intended to limit the scope of the invention. Nor does such a description of the specification indicate an advantage or disadvantage of the invention. Although embodiments of the invention have been described in detail, it should be understood that various changes, substitutions and modifications can be made without departing from the spirit and scope of the invention.

10,10’ ロボットシステム
11 箱
12 ワーク
13 ハンド部
14 ロボット
15 三次元計測器
16 制御装置
17 力センサ
18 支持部
19 座標計算部
20,30 機械学習装置
21,31 状態量観測部
22,32 学習部
23 報酬計算部
24 価値関数更新部
25,35 意思決定部
26,36 動作結果取得部
33 誤差計算部
34 学習モデル更新部
40 結果(ラベル)付きデータ記録部
50 前処理部
DESCRIPTION OF SYMBOLS 10,10 'Robot system 11 Box 12 Work 13 Hand part 14 Robot 15 Three-dimensional measuring device 16 Control apparatus 17 Force sensor 18 Support part 19 Coordinate calculation part 20, 30 Machine learning apparatus 21, 31 State quantity observation part 22, 32 Learning Unit 23 Reward calculation unit 24 Value function update unit 25, 35 Decision making unit 26, 36 Operation result acquisition unit 33 Error calculation unit 34 Learning model update unit 40 Data recording unit with result (label) 50 Pre-processing unit

図3を参照して、図2に示すニューロンを組み合わせて構成した三層のニューラルネットワークを説明する。図3に示されるように、ニューラルネットワークの左側から複数の入力x(ここでは、一例として、入力x1〜入力x3)が入力され、右側から結果y(ここでは、一例として、結果y1〜入力y3)が出力される。具体的に、入力x1,x2, x3は、3つのニューロンN11〜N13の各々に対して、対応する重みが掛けられて入力される。これらの入力に掛けられる重みは、まとめて1と標記されている。 With reference to FIG. 3, a three-layer neural network configured by combining the neurons shown in FIG. 2 will be described. As shown in FIG. 3, a plurality of inputs x (here, as an example, inputs x1 to x3) are inputted from the left side of the neural network, and results y (here, as an example, results y1 to y3 are taken as examples). ) Is output. Specifically, the inputs x1, x2, and x3 are input with corresponding weights applied to each of the three neurons N11 to N13. The weights applied to these inputs are collectively labeled W1 .

ニューロンN11〜N13は、それぞれ、z11〜z13を出力する。図3において、これらz11〜z13は、まとめて特徴ベクトル1と標記され、入力ベクトルの特徴量を抽出したベクトルとみなすことができる。この特徴ベクトル1は、重み1と重み2との間の特徴ベクトルである。z11〜z13は、2つのニューロンN21およびN22の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめて2と標記されている。 The neurons N11 to N13 output z11 to z13, respectively. 3, these z11~z13 are collectively is labeled as a feature vector Z 1 and can be considered to have extracts a feature quantity of the input vector vector. This feature vector Z 1 is a feature vector between the weight W 1 and the weight W 2. z11 to z13 are inputted to each of the two neurons N21 and N22 with corresponding weights multiplied. The weights applied to these feature vectors are collectively labeled W2 .

ニューロンN21,N22は、それぞれz21,z22を出力する。図3において、これらz21,z22は、まとめて特徴ベクトル2と標記されている。この特徴ベクトル2は、重み2と重み3との間の特徴ベクトルである。z21,z22は、3つのニューロンN31〜N33の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめて3と標記されている。 The neurons N21 and N22 output z21 and z22, respectively. 3, these z21, Z22 are collectively are labeled as feature vector Z 2. The feature vector Z 2 is a feature vector between the weight W 2 and the weight W 3. z21 and z22 are input with corresponding weights applied to each of the three neurons N31 to N33. The weights applied to these feature vectors are collectively labeled W3 .

また、重み1〜3は、誤差逆伝搬法(誤差逆転伝播法:バックプロパゲーション:Backpropagation)により学習可能なものである。なお、誤差の情報は、右側から入り左側に流れる。誤差逆伝搬法は、各ニューロンについて、入力xが入力されたときの出力yと真の出力y(教師)との差分を小さくするように、それぞれの重みを調整(学習)する手法である。 Further, the weights W 1 to W 3 can be learned by the error back propagation method (error reverse propagation method: backpropagation). The error information enters from the right side and flows to the left side. The error back-propagation method is a method of adjusting (learning) the weight of each neuron so as to reduce the difference between the output y when the input x is input and the true output y (teacher).

本発明に係る第1実施形態の第一構成例によれば、バラ積みされた状態を含む、乱雑に置かれた複数のワークからハンド部によって前記ワークを取り出すロボットの動作を学習する機械学習装置であって、前記ワーク毎の少なくとも三次元マップを計測する三次元計測器の出力データを観測する状態量観測部と、前記ハンド部によって前記ワークを取り出す前記ロボットの取り出し動作の結果を取得する動作結果取得部と、前記状態量観測部からの出力および前記動作結果取得部からの出力を受け取って、前記ワークの前記取り出し動作を学習する学習部と、を備え、前記学習部は、前記動作結果取得部の出力である前記ワークの取り出しの成否の判定結果に基づいて報酬を計算する報酬計算部と、前記ワークの前記取り出し動作の価値を定める価値関数を有し、前記報酬に応じて前記価値関数を更新する価値関数更新部と、を備える機械学習装置が提供される。本発明に係る第1実施形態の第二構成例によれば、バラ積みされた状態を含む、乱雑に置かれた複数のワークからハンド部によって前記ワークを取り出すロボットの動作を学習する機械学習装置であって、前記ワーク毎の少なくとも三次元マップを計測する三次元計測器の出力データを観測する状態量観測部と、前記ハンド部によって前記ワークを取り出す前記ロボットの取り出し動作の結果を取得する動作結果取得部と、前記状態量観測部からの出力および前記動作結果取得部からの出力を受け取って、前記ワークの前記取り出し動作を学習する学習部と、を備え、前記学習部は、前記ワークの前記取り出し動作を学習する学習モデルを有し、前記動作結果取得部の出力である前記ワークの取り出しの成否の判定結果、および、前記学習モデルに基づいて誤差を計算する誤差計算部と、前記誤差に応じて前記学習モデルを更新する学習モデル更新部と、を備える機械学習装置が提供される。前記機械学習装置は、さらに、前記学習部からの出力を参照して、前記ワークの取り出し動作を前記ロボットに指令する指令データを決定する意思決定部を備えるのが好ましい。 According to the first configuration example of the first embodiment of the present invention, a machine learning device that learns the operation of a robot that picks up a workpiece by a hand unit from a plurality of randomly placed workpieces including a state in which the workpieces are piled up. a is, acquires the state quantity monitoring unit which observations the output data of the three-dimensional measuring device for measuring at least three-dimensional map of each of the work, the result of the extraction operation of the robot for taking out the workpiece by the hand unit an operation result acquisition unit, taking receives the output from the output and the operation result acquisition unit from the state quantity monitoring unit, and a learning unit for learning the operation of taking out the work, the learning section, wherein A reward calculation unit that calculates a reward based on a determination result of success or failure of the removal of the workpiece, which is an output of the operation result acquisition unit, and a value of the extraction operation of the workpiece. It has a value function that the value function update unit for updating the value function in accordance with the compensation, the machine learning device comprising a are provided. According to the second configuration example of the first embodiment of the present invention, a machine learning device that learns the operation of a robot that picks up a workpiece by a hand unit from a plurality of randomly placed workpieces including a state in which the workpieces are piled up. A state quantity observing unit for observing output data of a three-dimensional measuring instrument that measures at least a three-dimensional map for each workpiece, and an operation for acquiring a result of an extraction operation of the robot that takes out the workpiece by the hand unit. A learning unit that receives a result acquisition unit and an output from the state quantity observation unit and an output from the operation result acquisition unit to learn the take-out operation of the workpiece; A learning model for learning the picking-up operation; a determination result of success or failure of picking up the workpiece, which is an output of the operation result acquisition unit; and the learning model An error calculator for calculating an error based on Le, a learning model updating unit for updating the learning model in response to the error, the machine learning device comprising a are provided. The machine learning apparatus further refers to the output from the learning section, provided with a decision section for determining a directive data you command the operation of taking out the workpiece to the robot are preferred.

Claims (18)

バラ積みされた状態を含む、乱雑に置かれた複数のワーク(12)からハンド部(13)によって前記ワーク(12)を取り出すロボット(14)の動作を学習する機械学習装置であって、
前記ワーク(12)毎の三次元マップを取得する三次元計測器(15)の出力データを含む前記ロボット(14)の状態量を観測する状態量観測部(21,31)と、
前記ハンド部(13)によって前記ワーク(12)を取り出す前記ロボット(14)の取り出し動作の結果を取得する動作結果取得部(26,36)と、
前記状態量観測部(21,31)からの出力および前記動作結果取得部(26,36)からの出力を受け取り、前記ワーク(12)の前記取り出し動作を前記ロボット(14)に指令する指令データを含む操作量を、前記ロボット(14)の前記状態量および前記取り出し動作の結果に関連付けて学習する学習部(22,32)と、を備える、
ことを特徴とする機械学習装置。
A machine learning device that learns the operation of a robot (14) that picks up the workpiece (12) by a hand unit (13) from a plurality of randomly placed workpieces (12), including a state of being stacked apart,
A state quantity observation unit (21, 31) for observing a state quantity of the robot (14) including output data of a three-dimensional measuring instrument (15) for obtaining a three-dimensional map for each work (12);
An operation result acquisition unit (26, 36) for acquiring a result of the extraction operation of the robot (14) for extracting the workpiece (12) by the hand unit (13);
Command data for receiving the output from the state quantity observation unit (21, 31) and the output from the operation result acquisition unit (26, 36) and instructing the robot (14) to take out the workpiece (12). A learning unit (22, 32) that learns an operation amount including the relationship between the state amount of the robot (14) and a result of the extraction operation,
A machine learning device characterized by that.
さらに、
前記学習部(22,32)が学習した前記操作量を参照して、前記ロボット(14)に指令する前記指令データを決定する意思決定部(25,35)を備える、
ことを特徴とする請求項1に記載の機械学習装置。
further,
A decision making unit (25, 35) for determining the command data to be commanded to the robot (14) with reference to the operation amount learned by the learning unit (22, 32);
The machine learning device according to claim 1.
バラ積みされた状態を含む、乱雑に置かれた複数のワーク(12)からハンド部(13)によって前記ワーク(12)を取り出すロボット(14)の動作を学習する機械学習装置であって、
前記ワーク(12)毎の三次元マップを計測する三次元計測器(15)の出力データを含む前記ロボット(14)の状態量を観測する状態量観測部(21,31)と、
前記ハンド部(13)によって前記ワーク(12)を取り出す前記ロボット(14)の取り出し動作の結果を取得する動作結果取得部(26,36)と、
前記状態量観測部(21,31)からの出力および前記動作結果手得部(26,36)からの出力を受け取り、前記三次元計測器(15)の計測パラメータを含む操作量を、前記ロボット(14)の前記状態量および前記取り出し動作の結果に関連付けて学習する学習部(22,32)と、を備える、
ことを特徴とする機械学習装置。
A machine learning device that learns the operation of a robot (14) that picks up the workpiece (12) by a hand unit (13) from a plurality of randomly placed workpieces (12), including a state of being stacked apart,
A state quantity observation unit (21, 31) for observing a state quantity of the robot (14) including output data of a three-dimensional measuring instrument (15) for measuring a three-dimensional map for each work (12);
An operation result acquisition unit (26, 36) for acquiring a result of the extraction operation of the robot (14) for extracting the workpiece (12) by the hand unit (13);
An output from the state quantity observation unit (21, 31) and an output from the operation result acquisition unit (26, 36) are received, and an operation amount including a measurement parameter of the three-dimensional measuring device (15) is obtained as the robot. A learning unit (22, 32) that learns in association with the state quantity of (14) and the result of the extraction operation,
A machine learning device characterized by that.
さらに、
前記学習部(22,32)が学習した前記操作量を参照して、前記三次元計測器(15)の前記計測パラメータを決定する意思決定部(25,35)を備える、
ことを特徴とする請求項3に記載の機械学習装置。
further,
A decision-making unit (25, 35) for determining the measurement parameter of the three-dimensional measuring device (15) with reference to the operation amount learned by the learning unit (22, 32);
The machine learning apparatus according to claim 3.
前記状態量観測部(21,31)は、さらに、前記三次元計測器(15)の出力に基づいて、前記ワーク(12)毎の三次元位置を計算する座標計算部(19)の出力データを含む前記ロボット(14)の状態量も観測する、
ことを特徴とする請求項1〜請求項4のいずれか1項に記載の機械学習装置。
The state quantity observation unit (21, 31) further outputs output data of a coordinate calculation unit (19) that calculates a three-dimensional position for each workpiece (12) based on the output of the three-dimensional measuring device (15). Observing a state quantity of the robot (14) including:
The machine learning apparatus according to claim 1, wherein the machine learning apparatus is a machine learning apparatus.
前記座標計算部(19)は、さらに、
前記ワーク(12)毎の姿勢を計算し、計算された前記ワーク(12)毎の三次元位置および姿勢のデータを出力する、
ことを特徴とする請求項5に記載の機械学習装置。
The coordinate calculation unit (19) further includes:
Calculating the posture of each workpiece (12) and outputting the calculated three-dimensional position and posture data for each workpiece (12);
The machine learning device according to claim 5.
前記動作結果取得部(26,36)は、前記三次元計測器(15)の出力データを利用する、
ことを特徴とする請求項1〜請求項6のいずれか1項に記載の機械学習装置。
The operation result acquisition unit (26, 36) uses output data of the three-dimensional measuring instrument (15).
The machine learning apparatus according to claim 1, wherein the machine learning apparatus is a machine learning apparatus.
さらに、
前記三次元計測器(15)の出力データを、前記状態量観測部(21,31)への入力前に処理する前処理部(50)を備え、
前記状態量観測部(21,31)は、前処理部(50)の出力データを前記ロボット(14)の状態量として受け取る、
ことを特徴とする請求項1〜請求項7のいずれか1項に記載の機械学習装置。
further,
A preprocessing unit (50) for processing output data of the three-dimensional measuring instrument (15) before input to the state quantity observation unit (21, 31);
The state quantity observation unit (21, 31) receives output data of the preprocessing unit (50) as a state quantity of the robot (14).
The machine learning apparatus according to claim 1, wherein the machine learning apparatus is a machine learning apparatus.
前記前処理部(50)は、前記三次元計測器(15)の出力データにおける前記ワーク(12)毎の方向および高さを一定に揃える、
ことを特徴とする請求項8に記載の機械学習装置。
The pre-processing unit (50) uniformly aligns the direction and height of each workpiece (12) in the output data of the three-dimensional measuring instrument (15).
The machine learning device according to claim 8.
前記動作結果取得部(26,36)は、
前記ワーク(12)の取り出しの成否、前記ワーク(12)の破損状態、および、取り出した前記ワーク(12)を後工程に渡すときの達成度のうちの少なくとも1つを取得する、
ことを特徴とする請求項1〜請求項9のいずれか1項に記載の機械学習装置。
The operation result acquisition unit (26, 36)
Obtaining at least one of success or failure of removal of the workpiece (12), a damaged state of the workpiece (12), and a degree of achievement when the removed workpiece (12) is passed to a subsequent process;
The machine learning apparatus according to claim 1, wherein the machine learning apparatus is a machine learning apparatus.
前記学習部(22)は、
前記動作結果取得部(26)の出力に基づいて報酬を計算する報酬計算部(23)と、
前記ワーク(12)の前記取り出し動作の価値を定める価値関数を有し、前記報酬に応じて前記価値関数を更新する価値関数更新部(24)と、を備える、
ことを特徴とする請求項1〜請求項10のいずれか1項に記載の機械学習装置。
The learning unit (22)
A reward calculation unit (23) for calculating a reward based on the output of the operation result acquisition unit (26);
A value function update unit (24) having a value function for determining the value of the take-out operation of the work (12) and updating the value function according to the reward,
The machine learning apparatus according to claim 1, wherein the machine learning apparatus is a machine learning apparatus.
前記学習部(32)は、前記ワーク(12)の前記取り出し動作を学習する学習モデルを有し、
前記動作結果取得部(26)の出力、および、前記学習モデルの出力に基づいて誤差を計算する誤差計算部(33)と、
前記誤差に応じて前記学習モデルを更新する学習モデル更新部(34)と、を備える、
ことを特徴とする請求項1〜請求項10のいずれか1項に記載の機械学習装置。
The learning unit (32) has a learning model for learning the take-out operation of the work (12),
An error calculation unit (33) that calculates an error based on the output of the operation result acquisition unit (26) and the output of the learning model;
A learning model update unit (34) that updates the learning model according to the error,
The machine learning apparatus according to claim 1, wherein the machine learning apparatus is a machine learning apparatus.
前記機械学習装置は、
ニューラルネットワークを有する、請求項1〜請求項12のいずれか1項に記載の機械学習装置。
The machine learning device includes:
The machine learning device according to claim 1, comprising a neural network.
請求項1〜請求項13のいずれか1項に記載の機械学習装置(20,30)を備えたロボットシステム(10,10’)であって、
前記ロボット(14)と、
前記三次元計測器(15)と、
前記ロボット(14)および前記三次元計測器(15)をそれぞれ制御する制御装置(16)と、を備える、
ことを特徴とするロボットシステム。
A robot system (10, 10 ') comprising the machine learning device (20, 30) according to any one of claims 1 to 13,
The robot (14);
The three-dimensional measuring instrument (15);
A control device (16) for controlling the robot (14) and the three-dimensional measuring device (15), respectively.
A robot system characterized by this.
前記ロボットシステム(10,10’)は、複数の前記ロボット(14)を備え、
前記機械学習装置(20,30)は、前記ロボット(14)毎にそれぞれ設けられ、
複数の前記ロボット(14)に設けられた複数の前記機械学習装置(20)は、通信媒体を介して相互にデータを共有または交換するようになっている、
ことを特徴とする請求項14に記載のロボットシステム。
The robot system (10, 10 ′) includes a plurality of the robots (14),
The machine learning device (20, 30) is provided for each robot (14),
The plurality of machine learning devices (20) provided in the plurality of robots (14) are configured to share or exchange data with each other via a communication medium.
The robot system according to claim 14.
前記機械学習装置(20,30)は、クラウドサーバ上に存在する、
ことを特徴とする請求項15に記載のロボットシステム。
The machine learning device (20, 30) exists on a cloud server,
The robot system according to claim 15.
バラ積みされた状態を含む、乱雑に置かれた複数のワーク(12)からハンド部(13)によって前記ワーク(12)を取り出すロボット(14)の動作を学習する機械学習方法であって、
前記ワーク(12)毎の三次元位置を計測する三次元計測器(15)の出力データを含む前記ロボット(14)の状態量を観測し、
前記ハンド部(13)によって前記ワーク(12)を取り出す前記ロボット(14)の取り出し動作の結果を取得し、
観測された前記ロボット(14)の状態量および取得された前記ロボット(14)の取り出し動作の結果を受け取り、前記ワーク(12)の前記取り出し動作を前記ロボット(14)に指令する指令データを含む操作量を、前記ロボット(14)の前記状態量および前記取り出し動作の結果に関連付けて学習する、
ことを特徴とする機械学習方法。
A machine learning method for learning an operation of a robot (14) that takes out the workpiece (12) by a hand unit (13) from a plurality of randomly placed workpieces (12) including a state in which the pieces are stacked.
Observing a state quantity of the robot (14) including output data of a three-dimensional measuring instrument (15) that measures a three-dimensional position of each workpiece (12);
The result of the picking-up operation of the robot (14) for picking up the work (12) by the hand part (13) is obtained,
It includes command data for receiving the observed state quantity of the robot (14) and the acquired result of the removal operation of the robot (14) and instructing the robot (14) to perform the removal operation of the workpiece (12). Learning an operation amount in association with the state amount of the robot (14) and the result of the extraction operation;
A machine learning method characterized by that.
バラ積みされた状態を含む、乱雑に置かれた複数のワーク(12)からハンド部(13)によって前記ワーク(12)を取り出すロボット(14)の動作を学習する機械学習方法であって、
前記ワーク(12)毎の三次元マップを計測する三次元計測器(15)の出力データを含む前記ロボット(14)の状態量を観測し、
前記ハンド部(13)によって前記ワーク(12)を取り出す前記ロボット(14)の取り出し動作の結果を取得し、
観測された前記ロボット(14)の状態量および取得された前記ロボット(14)の取り出し動作の結果を受け取り、前記三次元計測器(15)の計測パラメータを含む操作量を、前記ロボット(14)の前記状態量および前記取り出し動作の結果に関連付けて学習する、
ことを特徴とする機械学習方法。
A machine learning method for learning an operation of a robot (14) that takes out the workpiece (12) by a hand unit (13) from a plurality of randomly placed workpieces (12) including a state in which the pieces are stacked.
Observing a state quantity of the robot (14) including output data of a three-dimensional measuring instrument (15) for measuring a three-dimensional map for each workpiece (12);
The result of the picking-up operation of the robot (14) for picking up the work (12) by the hand part (13) is obtained,
The observed state quantity of the robot (14) and the acquired result of the extraction operation of the robot (14) are received, and the operation amount including the measurement parameters of the three-dimensional measuring instrument (15) is obtained as the operation quantity of the robot (14). Learning in association with the state quantity of and the result of the extraction operation,
A machine learning method characterized by that.
JP2015233857A 2015-07-31 2015-11-30 Machine learning apparatus, robot system and machine learning method for learning work taking-out operation Active JP6522488B2 (en)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE102016009030.8A DE102016009030B4 (en) 2015-07-31 2016-07-26 Machine learning device, robot system and machine learning system for learning a workpiece receiving operation
DE102016015873.5A DE102016015873B3 (en) 2015-07-31 2016-07-26 Machine learning apparatus, robot system, and machine learning system for learning a workpiece pick-up operation
CN201610617361.XA CN106393102B (en) 2015-07-31 2016-07-29 Machine learning device, robot system, and machine learning method
US15/223,141 US10717196B2 (en) 2015-07-31 2016-07-29 Machine learning device, robot system, and machine learning method for learning workpiece picking operation
CN202110544521.3A CN113199483A (en) 2015-07-31 2016-07-29 Robot system, robot control method, machine learning device, and machine learning method
US16/860,071 US11780095B2 (en) 2015-07-31 2020-04-28 Machine learning device, robot system, and machine learning method for learning object picking operation
US18/209,477 US20230321837A1 (en) 2015-07-31 2023-06-14 Machine learning device, robot system, and machine learning method for learning object picking operation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015152067 2015-07-31
JP2015152067 2015-07-31

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017010506A Division JP7100426B2 (en) 2015-07-31 2017-01-24 Machine learning device, robot system and machine learning method to learn the operation of taking out the work

Publications (2)

Publication Number Publication Date
JP2017030135A true JP2017030135A (en) 2017-02-09
JP6522488B2 JP6522488B2 (en) 2019-05-29

Family

ID=57985283

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2015233857A Active JP6522488B2 (en) 2015-07-31 2015-11-30 Machine learning apparatus, robot system and machine learning method for learning work taking-out operation
JP2017010506A Active JP7100426B2 (en) 2015-07-31 2017-01-24 Machine learning device, robot system and machine learning method to learn the operation of taking out the work
JP2020120352A Pending JP2020168719A (en) 2015-07-31 2020-07-14 Robot system and control method of robot
JP2022128174A Pending JP2022145915A (en) 2015-07-31 2022-08-10 Inference method, inference program, inference device, learning method, learning program, learning device, and model generation method

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2017010506A Active JP7100426B2 (en) 2015-07-31 2017-01-24 Machine learning device, robot system and machine learning method to learn the operation of taking out the work
JP2020120352A Pending JP2020168719A (en) 2015-07-31 2020-07-14 Robot system and control method of robot
JP2022128174A Pending JP2022145915A (en) 2015-07-31 2022-08-10 Inference method, inference program, inference device, learning method, learning program, learning device, and model generation method

Country Status (3)

Country Link
JP (4) JP6522488B2 (en)
CN (2) CN113199483A (en)
DE (1) DE102016015873B3 (en)

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018118343A (en) * 2017-01-25 2018-08-02 株式会社安川電機 Handling system and controller
JP2018126802A (en) * 2017-02-06 2018-08-16 ファナック株式会社 Workpiece take-out device and workpiece take-out method for improving take-out operation of workpiece
WO2018163242A1 (en) * 2017-03-06 2018-09-13 株式会社Fuji Data structure for creating image-processing data and method for creating image-processing data
JP2018151843A (en) * 2017-03-13 2018-09-27 ファナック株式会社 Apparatus and method for image processing to calculate a likelihood of an image of an object detected from an input image
JP2018149628A (en) * 2017-03-13 2018-09-27 ファナック株式会社 Robot system taking-up work-piece by use of measurement data corrected by machine learning, measurement data processing device and measurement data processing method
US20180281181A1 (en) * 2017-03-31 2018-10-04 Fanuc Corporation Robot controller, machine learning device and machine learning method
JP2018153873A (en) * 2017-03-15 2018-10-04 株式会社オカムラ Device for controlling manipulator, control method, program and work system
JP2018153874A (en) * 2017-03-15 2018-10-04 株式会社オカムラ Presentation device, presentation method, program and work system
KR20180111625A (en) * 2017-03-30 2018-10-11 화낙 코퍼레이션 Control device of wire electric discharge machine and machine learning device
JP2018161692A (en) * 2017-03-24 2018-10-18 キヤノン株式会社 Information processing system, information processing method and program
JP2018167424A (en) * 2017-03-29 2018-11-01 ファナック株式会社 State determination device
JP2018202550A (en) * 2017-06-05 2018-12-27 株式会社日立製作所 Machine learning device, machine learning method, and machine learning program
JP2018202564A (en) * 2017-06-07 2018-12-27 ファナック株式会社 Controller and machine learning device
CN109382825A (en) * 2017-08-08 2019-02-26 发那科株式会社 Control device and learning device
JP2019058960A (en) * 2017-09-25 2019-04-18 ファナック株式会社 Robot system and workpiece take-out method
CN109784400A (en) * 2019-01-12 2019-05-21 鲁班嫡系机器人(深圳)有限公司 Intelligent body Behavioral training method, apparatus, system, storage medium and equipment
JP2019089188A (en) * 2017-11-16 2019-06-13 株式会社東芝 Operation system and program
KR20190073282A (en) * 2017-12-18 2019-06-26 고쿠리츠 다이가쿠 호우징 신슈 다이가쿠 Grasping apparatus, learning apparatus, learned model, grasping system, determination method, and learning method
KR20190075356A (en) * 2017-12-21 2019-07-01 삼성전자주식회사 Method and apparatus for identifying object
WO2019146007A1 (en) * 2018-01-24 2019-08-01 三菱電機株式会社 Position control device and position control method
EP3534230A2 (en) 2018-03-02 2019-09-04 Hitachi, Ltd. Robot work system and method of controlling robot work system
JP2019155561A (en) * 2018-03-15 2019-09-19 オムロン株式会社 Operation control device of robot
WO2019176829A1 (en) * 2018-03-13 2019-09-19 オムロン株式会社 Workpiece picking device and workpiece picking method
JP2019162712A (en) * 2018-03-20 2019-09-26 ファナック株式会社 Control device, machine learning device and system
KR20190113140A (en) * 2018-03-27 2019-10-08 한국철도기술연구원 Auto picking system and method for automatically picking using the same
WO2019225746A1 (en) 2018-05-25 2019-11-28 川崎重工業株式会社 Robot system and supplemental learning method
WO2019239562A1 (en) * 2018-06-14 2019-12-19 ヤマハ発動機株式会社 Machine learning device and robot system provided with same
WO2019239563A1 (en) * 2018-06-14 2019-12-19 ヤマハ発動機株式会社 Robot system
JP2019214112A (en) * 2018-06-14 2019-12-19 ヤマハ発動機株式会社 Machine learning device, and robot system equipped with the same
KR20190140546A (en) * 2018-06-11 2019-12-20 동국대학교 산학협력단 System and method for predicting force based on image
CN110658785A (en) * 2018-06-28 2020-01-07 发那科株式会社 Output device, control device, and method for outputting evaluation function value
WO2020022302A1 (en) * 2018-07-26 2020-01-30 Ntn株式会社 Grasping device
WO2020021643A1 (en) * 2018-07-24 2020-01-30 株式会社Fuji End effector selection method and selection system
WO2020026447A1 (en) * 2018-08-03 2020-02-06 株式会社Fuji Parameter learning method and work system
JP2020082313A (en) * 2018-11-29 2020-06-04 京セラドキュメントソリューションズ株式会社 Robot control device, learning device and robot control system
WO2020138436A1 (en) 2018-12-27 2020-07-02 川崎重工業株式会社 Robot control device, robot system, and robot control method
WO2020138461A1 (en) 2018-12-27 2020-07-02 川崎重工業株式会社 Robot control device, robot system, and robot control method
CN111438687A (en) * 2019-01-16 2020-07-24 发那科株式会社 Determination device
JP2020110920A (en) * 2017-09-25 2020-07-27 ファナック株式会社 Device, robot system, model generation method, and model generation program
JP2020110894A (en) * 2019-01-16 2020-07-27 株式会社エクサウィザーズ Learned-model generation device, robot control device, and program
WO2020175643A1 (en) 2019-02-28 2020-09-03 川崎重工業株式会社 Machine-learning model operation management system and machine-learning model operation management method
JP2020140641A (en) * 2019-03-01 2020-09-03 株式会社Preferred Networks Information processing device and information processing method
CN111655433A (en) * 2017-11-30 2020-09-11 Abb瑞士股份有限公司 Method for operating a robot
CN111727108A (en) * 2018-03-05 2020-09-29 欧姆龙株式会社 Method, apparatus, system, and program for controlling robot, and storage medium
CN111745467A (en) * 2019-03-27 2020-10-09 株式会社捷太格特 Auxiliary device and auxiliary method for grinding machine
JP2020529932A (en) * 2017-08-07 2020-10-15 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh Handling assemblies, methods and computer programs with handling devices for performing at least one work step
JP2020532440A (en) * 2017-09-01 2020-11-12 カリフォルニア大学The Regents of the University of California Robot systems and methods for robustly gripping and targeting objects
JP2021022187A (en) * 2019-07-29 2021-02-18 セイコーエプソン株式会社 Program transfer system and robot system
CN112638596A (en) * 2018-08-23 2021-04-09 株式会社日立制作所 Autonomous learning robot device and method for generating operation of autonomous learning robot device
JP2021061014A (en) * 2019-06-19 2021-04-15 株式会社Preferred Networks Learning device, learning method, learning model, detector, and gripping system
WO2021111929A1 (en) * 2019-12-02 2021-06-10 Arithmer株式会社 Picking system, picking method, and program
US11185977B2 (en) 2017-11-02 2021-11-30 Canon Kabushiki Kaisha Information processing apparatus, grasping system, and information processing method
WO2022009859A1 (en) * 2020-07-10 2022-01-13 株式会社Preferred Networks Reinforcement learning device, reinforcement learning system, object manipulation device, model generation method, and reinforcement learning program
US11285603B2 (en) 2018-04-27 2022-03-29 Canon Kabushiki Kaisha Information processing apparatus, control method, robot system, and storage medium
WO2022123978A1 (en) 2020-12-08 2022-06-16 ソニーグループ株式会社 Training device, training system, and training method
DE112020006594T5 (en) 2020-04-28 2022-11-10 Yamaha Hatsudoki Kabushiki Kaisha Machine learning method and robotic system
WO2023042306A1 (en) * 2021-09-15 2023-03-23 ヤマハ発動機株式会社 Image processing device, component gripping system, image processing method, and component gripping method
US11654553B2 (en) 2019-09-04 2023-05-23 Kabushiki Kaisha Toshiba Robot system and driving method
JP7398373B2 (en) 2018-07-04 2023-12-14 株式会社Preferred Networks Control device, system, control method, and program
JP7398830B2 (en) 2021-08-05 2023-12-15 アジャイルソーダ インコーポレイテッド Deep reinforcement learning device and method for pick-and-place system

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6522488B2 (en) * 2015-07-31 2019-05-29 ファナック株式会社 Machine learning apparatus, robot system and machine learning method for learning work taking-out operation
JP6526100B2 (en) 2017-04-28 2019-06-05 ファナック株式会社 Material pick-up system
JP6487495B2 (en) * 2017-05-19 2019-03-20 ファナック株式会社 Work removal system
JP6886869B2 (en) * 2017-06-09 2021-06-16 川崎重工業株式会社 Motion prediction system and motion prediction method
CN107336234A (en) * 2017-06-13 2017-11-10 赛赫智能设备(上海)股份有限公司 A kind of reaction type self study industrial robot and method of work
EP3693138B1 (en) 2017-06-19 2022-08-03 Google LLC Robotic grasping prediction using neural networks and geometry aware object representation
CN107329445B (en) * 2017-06-28 2020-09-08 重庆柚瓣家科技有限公司 Intelligent supervision method for robot behavior criterion
CN107255969B (en) * 2017-06-28 2019-10-18 重庆柚瓣家科技有限公司 Endowment robot supervisory systems
CN107252785B (en) * 2017-06-29 2019-05-10 顺丰速运有限公司 A kind of express mail grasping means applied to quick despatch robot piece supplying
JP6564426B2 (en) * 2017-07-07 2019-08-21 ファナック株式会社 Parts supply device and machine learning device
JP7116901B2 (en) * 2017-08-01 2022-08-12 オムロン株式会社 ROBOT CONTROL DEVICE, ROBOT CONTROL METHOD AND ROBOT CONTROL PROGRAM
JP6680732B2 (en) 2017-08-23 2020-04-15 ファナック株式会社 Goods stacking device and machine learning device
JP6795472B2 (en) * 2017-08-28 2020-12-02 ファナック株式会社 Machine learning device, machine learning system and machine learning method
JP6608890B2 (en) 2017-09-12 2019-11-20 ファナック株式会社 Machine learning apparatus, robot system, and machine learning method
EP3456485B1 (en) * 2017-09-15 2021-02-17 Siemens Aktiengesellschaft Optimisation of an automated process for selecting and gripping an object by a robot
JP6579498B2 (en) 2017-10-20 2019-09-25 株式会社安川電機 Automation device and position detection device
JP6676030B2 (en) 2017-11-20 2020-04-08 株式会社安川電機 Grasping system, learning device, gripping method, and model manufacturing method
JP6680750B2 (en) * 2017-11-22 2020-04-15 ファナック株式会社 Control device and machine learning device
CN108340367A (en) * 2017-12-13 2018-07-31 深圳市鸿益达供应链科技有限公司 Machine learning method for mechanical arm crawl
JP6587195B2 (en) * 2018-01-16 2019-10-09 株式会社Preferred Networks Tactile information estimation device, tactile information estimation method, program, and non-transitory computer-readable medium
JP6892400B2 (en) * 2018-01-30 2021-06-23 ファナック株式会社 Machine learning device that learns the failure occurrence mechanism of laser devices
JP6703020B2 (en) * 2018-02-09 2020-06-03 ファナック株式会社 Control device and machine learning device
JP6874712B2 (en) * 2018-02-19 2021-05-19 オムロン株式会社 Simulation equipment, simulation method and simulation program
JP7005388B2 (en) * 2018-03-01 2022-01-21 株式会社東芝 Information processing equipment and sorting system
JP6687657B2 (en) * 2018-03-20 2020-04-28 ファナック株式会社 Article taking-out apparatus using sensor and robot, and article taking-out method
JP6810087B2 (en) * 2018-03-29 2021-01-06 ファナック株式会社 Machine learning device, robot control device and robot vision system using machine learning device, and machine learning method
US11260534B2 (en) * 2018-04-04 2022-03-01 Canon Kabushiki Kaisha Information processing apparatus and information processing method
JP6829271B2 (en) * 2018-04-05 2021-02-10 ファナック株式会社 Measurement operation parameter adjustment device, machine learning device and system
US11579000B2 (en) 2018-04-05 2023-02-14 Fanuc Corporation Measurement operation parameter adjustment apparatus, machine learning device, and system
CN108527371A (en) * 2018-04-17 2018-09-14 重庆邮电大学 A kind of Dextrous Hand planing method based on BP neural network
EP3785866B1 (en) 2018-04-26 2023-12-20 Panasonic Holdings Corporation Actuator device, method for removing target object using actuator device, and target object removal system
JP7039389B2 (en) * 2018-05-25 2022-03-22 川崎重工業株式会社 Robot system and robot control method
JP2020001127A (en) * 2018-06-28 2020-01-09 勇貴 高橋 Picking system, picking processing equipment, and program
JP6740288B2 (en) * 2018-07-13 2020-08-12 ファナック株式会社 Object inspection apparatus, object inspection system, and method for adjusting inspection position
CN109434844B (en) * 2018-09-17 2022-06-28 鲁班嫡系机器人(深圳)有限公司 Food material processing robot control method, device and system, storage medium and equipment
CN109731793A (en) * 2018-12-17 2019-05-10 上海航天电子有限公司 A kind of small lot chip bulk cargo device intelligent sorting equipment
WO2020194392A1 (en) * 2019-03-22 2020-10-01 connectome.design株式会社 Computer, method, and program for generating teaching data for autonomous robot
JP2021013996A (en) * 2019-07-12 2021-02-12 キヤノン株式会社 Control method of robot system, manufacturing method of articles, control program, recording medium, and robot system
CN110456644B (en) * 2019-08-13 2022-12-06 北京地平线机器人技术研发有限公司 Method and device for determining execution action information of automation equipment and electronic equipment
WO2021039995A1 (en) 2019-08-28 2021-03-04 株式会社DailyColor Robot control device
JP7458741B2 (en) * 2019-10-21 2024-04-01 キヤノン株式会社 Robot control device and its control method and program
EP4091777B1 (en) * 2020-01-16 2024-04-03 OMRON Corporation Control device, control method, and control program
JP7463777B2 (en) 2020-03-13 2024-04-09 オムロン株式会社 CONTROL DEVICE, LEARNING DEVICE, ROBOT SYSTEM, AND METHOD
CN112476424A (en) * 2020-11-13 2021-03-12 腾讯科技(深圳)有限公司 Robot control method, device, equipment and computer storage medium
DE102021104001B3 (en) 2021-02-19 2022-04-28 Gerhard Schubert Gesellschaft mit beschränkter Haftung Method for automatically grasping, in particular moving, objects
DE102021209646A1 (en) 2021-09-02 2023-03-02 Robert Bosch Gesellschaft mit beschränkter Haftung Robotic device, method for computer-implemented training of a robotic control model and method for controlling a robotic device
EP4311632A1 (en) * 2022-07-27 2024-01-31 Siemens Aktiengesellschaft Method for gripping an object, computer program and electronically readable data carrier
CN115816466B (en) * 2023-02-02 2023-06-16 中国科学技术大学 Method for improving control stability of vision observation robot

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000094374A (en) * 1998-09-25 2000-04-04 Matsushita Electric Works Ltd Picking device
JP2005103681A (en) * 2003-09-29 2005-04-21 Fanuc Ltd Robot system
JP2005199383A (en) * 2004-01-15 2005-07-28 Sony Corp Dynamic control device and bipedal walking body using the same
JP2006320997A (en) * 2005-05-18 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> Device and method for selecting robot action
JP2007313624A (en) * 2006-05-29 2007-12-06 Fanuc Ltd Device and method for taking out workpiece
JP2009262279A (en) * 2008-04-25 2009-11-12 Nec Corp Robot, robot program sharing system, robot program sharing method, and program
JP2010244549A (en) * 2009-04-03 2010-10-28 Siemens Ag Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot
JP2013052490A (en) * 2011-09-06 2013-03-21 Mitsubishi Electric Corp Workpiece takeout device
JP2014081863A (en) * 2012-10-18 2014-05-08 Sony Corp Information processing device, information processing method and program
JP2014206795A (en) * 2013-04-11 2014-10-30 日本電信電話株式会社 Reinforcement learning method based on linear model, device therefor and program
JP5670397B2 (en) * 2012-08-29 2015-02-18 ファナック株式会社 Apparatus and method for picking up loosely stacked articles by robot

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0588721A (en) * 1991-09-30 1993-04-09 Fujitsu Ltd Controller for articulated robot
JPH06106490A (en) * 1992-09-29 1994-04-19 Fujitsu Ltd Control device
JPH06203166A (en) * 1993-01-06 1994-07-22 Fujitsu Ltd Measurement, controller and learning method for multi-dimensional position
JP3211186B2 (en) * 1997-12-15 2001-09-25 オムロン株式会社 Robot, robot system, robot learning method, robot system learning method, and recording medium
JPH11272845A (en) * 1998-03-23 1999-10-08 Denso Corp Image recognition device
JP2001019165A (en) 1999-07-02 2001-01-23 Murata Mach Ltd Work picking device
CN1283428C (en) * 2000-03-31 2006-11-08 索尼公司 Robot device, robot device action control method, external force detecting device and method
US6925357B2 (en) * 2002-07-25 2005-08-02 Intouch Health, Inc. Medical tele-robotic system
JP2005238422A (en) * 2004-02-27 2005-09-08 Sony Corp Robot device, its state transition model construction method and behavior control method
JP4153528B2 (en) * 2006-03-10 2008-09-24 ファナック株式会社 Apparatus, program, recording medium and method for robot simulation
JP2007280054A (en) * 2006-04-06 2007-10-25 Sony Corp Learning device, learning method, and program
JP4238256B2 (en) * 2006-06-06 2009-03-18 ファナック株式会社 Robot simulation device
US7957583B2 (en) * 2007-08-02 2011-06-07 Roboticvisiontech Llc System and method of three-dimensional pose estimation
JP2010086405A (en) 2008-10-01 2010-04-15 Fuji Heavy Ind Ltd System for adapting control parameter
JP5330138B2 (en) * 2008-11-04 2013-10-30 本田技研工業株式会社 Reinforcement learning system
CN101726251A (en) * 2009-11-13 2010-06-09 江苏大学 Automatic fruit identification method of apple picking robot on basis of support vector machine
CN101782976B (en) * 2010-01-15 2013-04-10 南京邮电大学 Automatic selection method for machine learning in cloud computing environment
FI20105732A0 (en) * 2010-06-24 2010-06-24 Zenrobotics Oy Procedure for selecting physical objects in a robotic system
JP5743499B2 (en) * 2010-11-10 2015-07-01 キヤノン株式会社 Image generating apparatus, image generating method, and program
JP5767464B2 (en) * 2010-12-15 2015-08-19 キヤノン株式会社 Information processing apparatus, information processing apparatus control method, and program
JP5750657B2 (en) * 2011-03-30 2015-07-22 株式会社国際電気通信基礎技術研究所 Reinforcement learning device, control device, and reinforcement learning method
JP5787642B2 (en) 2011-06-28 2015-09-30 キヤノン株式会社 Object holding device, method for controlling object holding device, and program
JP5642738B2 (en) * 2012-07-26 2014-12-17 ファナック株式会社 Apparatus and method for picking up loosely stacked articles by robot
JP6126437B2 (en) 2013-03-29 2017-05-10 キヤノン株式会社 Image processing apparatus and image processing method
JP5929854B2 (en) * 2013-07-31 2016-06-08 株式会社安川電機 Robot system and method of manufacturing workpiece
CN103753557B (en) * 2014-02-14 2015-06-17 上海创绘机器人科技有限公司 Self-balance control method of movable type inverted pendulum system and self-balance vehicle intelligent control system
CN104793620B (en) * 2015-04-17 2019-06-18 中国矿业大学 The avoidance robot of view-based access control model feature binding and intensified learning theory
JP6522488B2 (en) * 2015-07-31 2019-05-29 ファナック株式会社 Machine learning apparatus, robot system and machine learning method for learning work taking-out operation

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000094374A (en) * 1998-09-25 2000-04-04 Matsushita Electric Works Ltd Picking device
JP2005103681A (en) * 2003-09-29 2005-04-21 Fanuc Ltd Robot system
JP2005199383A (en) * 2004-01-15 2005-07-28 Sony Corp Dynamic control device and bipedal walking body using the same
JP2006320997A (en) * 2005-05-18 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> Device and method for selecting robot action
JP2007313624A (en) * 2006-05-29 2007-12-06 Fanuc Ltd Device and method for taking out workpiece
JP2009262279A (en) * 2008-04-25 2009-11-12 Nec Corp Robot, robot program sharing system, robot program sharing method, and program
JP2010244549A (en) * 2009-04-03 2010-10-28 Siemens Ag Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot
JP2013052490A (en) * 2011-09-06 2013-03-21 Mitsubishi Electric Corp Workpiece takeout device
JP5670397B2 (en) * 2012-08-29 2015-02-18 ファナック株式会社 Apparatus and method for picking up loosely stacked articles by robot
JP2014081863A (en) * 2012-10-18 2014-05-08 Sony Corp Information processing device, information processing method and program
JP2014206795A (en) * 2013-04-11 2014-10-30 日本電信電話株式会社 Reinforcement learning method based on linear model, device therefor and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杉尾 昇,木内 陽介,白井 文夫: "強化学習によるロボットハンドの把握制御", 電気学会論文誌C(電子・情報・システム部門誌), vol. 121, no. 4, JPN6016014351, 2001, JP, pages 710 - 717, ISSN: 0003300287 *

Cited By (125)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018118343A (en) * 2017-01-25 2018-08-02 株式会社安川電機 Handling system and controller
JP2018126802A (en) * 2017-02-06 2018-08-16 ファナック株式会社 Workpiece take-out device and workpiece take-out method for improving take-out operation of workpiece
US10603790B2 (en) 2017-02-06 2020-03-31 Fanuc Corporation Workpiece picking device and workpiece picking method for improving picking operation of workpieces
JP2021185016A (en) * 2017-03-06 2021-12-09 株式会社Fuji Image processing device
WO2018163242A1 (en) * 2017-03-06 2018-09-13 株式会社Fuji Data structure for creating image-processing data and method for creating image-processing data
JP7197653B2 (en) 2017-03-06 2022-12-27 株式会社Fuji Image processing device
CN110382172A (en) * 2017-03-06 2019-10-25 株式会社富士 The data structure and image processing data generation method of image processing data generation
JP7145146B2 (en) 2017-03-06 2022-09-30 株式会社Fuji Image processing data creation method
JPWO2018163242A1 (en) * 2017-03-06 2019-11-21 株式会社Fuji Data structure for creating image processing data and image processing data creation method
EP3593960A4 (en) * 2017-03-06 2020-01-22 Fuji Corporation Data structure for creating image-processing data and method for creating image-processing data
US11222417B2 (en) 2017-03-06 2022-01-11 Fuji Corporation Data structure for creating image-processing data and method for creating image-processing data
JP2018151843A (en) * 2017-03-13 2018-09-27 ファナック株式会社 Apparatus and method for image processing to calculate a likelihood of an image of an object detected from an input image
US10350752B2 (en) 2017-03-13 2019-07-16 Fanuc Corporation Robot system, measurement data processing device and measurement data processing method for picking out workpiece using measurement data corrected by means of machine learning
US11741367B2 (en) 2017-03-13 2023-08-29 Fanuc Corporation Apparatus and method for image processing to calculate likelihood of image of target object detected from input image
JP2018149628A (en) * 2017-03-13 2018-09-27 ファナック株式会社 Robot system taking-up work-piece by use of measurement data corrected by machine learning, measurement data processing device and measurement data processing method
JP2018153874A (en) * 2017-03-15 2018-10-04 株式会社オカムラ Presentation device, presentation method, program and work system
JP2018153873A (en) * 2017-03-15 2018-10-04 株式会社オカムラ Device for controlling manipulator, control method, program and work system
JP2018161692A (en) * 2017-03-24 2018-10-18 キヤノン株式会社 Information processing system, information processing method and program
JP2018167424A (en) * 2017-03-29 2018-11-01 ファナック株式会社 State determination device
KR20180111625A (en) * 2017-03-30 2018-10-11 화낙 코퍼레이션 Control device of wire electric discharge machine and machine learning device
KR102208592B1 (en) 2017-03-30 2021-01-27 화낙 코퍼레이션 Control device of wire electric discharge machine and machine learning device
JP2018171684A (en) * 2017-03-31 2018-11-08 ファナック株式会社 Robot control device, machine learning device and machine learning method
US10549422B2 (en) 2017-03-31 2020-02-04 Fanuc Corporation Robot controller, machine learning device and machine learning method
US20180281181A1 (en) * 2017-03-31 2018-10-04 Fanuc Corporation Robot controller, machine learning device and machine learning method
JP2018202550A (en) * 2017-06-05 2018-12-27 株式会社日立製作所 Machine learning device, machine learning method, and machine learning program
JP7045139B2 (en) 2017-06-05 2022-03-31 株式会社日立製作所 Machine learning equipment, machine learning methods, and machine learning programs
US10668619B2 (en) 2017-06-07 2020-06-02 Fanuc Corporation Controller and machine learning device
JP2018202564A (en) * 2017-06-07 2018-12-27 ファナック株式会社 Controller and machine learning device
JP2020529932A (en) * 2017-08-07 2020-10-15 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh Handling assemblies, methods and computer programs with handling devices for performing at least one work step
US10953538B2 (en) 2017-08-08 2021-03-23 Fanuc Corporation Control device and learning device
CN109382825A (en) * 2017-08-08 2019-02-26 发那科株式会社 Control device and learning device
JP2019030941A (en) * 2017-08-08 2019-02-28 ファナック株式会社 Control device and learning device
CN109382825B (en) * 2017-08-08 2021-03-02 发那科株式会社 Control device and learning device
JP2020532440A (en) * 2017-09-01 2020-11-12 カリフォルニア大学The Regents of the University of California Robot systems and methods for robustly gripping and targeting objects
JP2019058960A (en) * 2017-09-25 2019-04-18 ファナック株式会社 Robot system and workpiece take-out method
US11845194B2 (en) 2017-09-25 2023-12-19 Fanuc Corporation Robot system and workpiece picking method
JP2020110920A (en) * 2017-09-25 2020-07-27 ファナック株式会社 Device, robot system, model generation method, and model generation program
US11185977B2 (en) 2017-11-02 2021-11-30 Canon Kabushiki Kaisha Information processing apparatus, grasping system, and information processing method
JP2019089188A (en) * 2017-11-16 2019-06-13 株式会社東芝 Operation system and program
CN111655433A (en) * 2017-11-30 2020-09-11 Abb瑞士股份有限公司 Method for operating a robot
CN111655433B (en) * 2017-11-30 2023-05-02 Abb瑞士股份有限公司 Method for operating a robot
KR20200032057A (en) * 2017-12-18 2020-03-25 고쿠리츠 다이가쿠 호우징 신슈 다이가쿠 Learning apparatus, non-transitory computer readable medium storing a learned model, and learning method
KR20190073282A (en) * 2017-12-18 2019-06-26 고쿠리츠 다이가쿠 호우징 신슈 다이가쿠 Grasping apparatus, learning apparatus, learned model, grasping system, determination method, and learning method
US11383378B2 (en) 2017-12-18 2022-07-12 Shinshu University Grasping apparatus, learning apparatus, learned model, grasping system, determination method, and learning method
KR102140639B1 (en) * 2017-12-18 2020-08-04 고쿠리츠 다이가쿠 호우징 신슈 다이가쿠 Learning apparatus, non-transitory computer readable medium storing a learned model, and learning method
KR102140637B1 (en) * 2017-12-18 2020-08-04 고쿠리츠 다이가쿠 호우징 신슈 다이가쿠 Grasping apparatus, grasping system, and determination method
KR20190075356A (en) * 2017-12-21 2019-07-01 삼성전자주식회사 Method and apparatus for identifying object
KR102565444B1 (en) * 2017-12-21 2023-08-08 삼성전자주식회사 Method and apparatus for identifying object
US11645778B2 (en) 2017-12-21 2023-05-09 Samsung Electronics Co., Ltd. Apparatus and method for identifying and picking object using artificial intelligence algorithm
WO2019146007A1 (en) * 2018-01-24 2019-08-01 三菱電機株式会社 Position control device and position control method
US11065762B2 (en) 2018-03-02 2021-07-20 Hitachi, Ltd. Robot work system and method of controlling robot work system
EP3534230A2 (en) 2018-03-02 2019-09-04 Hitachi, Ltd. Robot work system and method of controlling robot work system
CN111727108A (en) * 2018-03-05 2020-09-29 欧姆龙株式会社 Method, apparatus, system, and program for controlling robot, and storage medium
JP2021515705A (en) * 2018-03-05 2021-06-24 オムロン株式会社 Methods, devices, systems and programs that control robots, and storage media
US11420325B2 (en) 2018-03-05 2022-08-23 Omron Corporation Method, apparatus and system for controlling a robot, and storage medium
CN111727108B (en) * 2018-03-05 2023-09-15 欧姆龙株式会社 Method, device and system for controlling robot and storage medium
JP7167990B2 (en) 2018-03-05 2022-11-09 オムロン株式会社 Method, device, system and program for controlling robot, and storage medium
US11667036B2 (en) 2018-03-13 2023-06-06 Omron Corporation Workpiece picking device and workpiece picking method
EP3766644A4 (en) * 2018-03-13 2022-01-12 Omron Corporation Workpiece picking device and workpiece picking method
JP2019155535A (en) * 2018-03-13 2019-09-19 オムロン株式会社 Workpiece picking device and method
WO2019176829A1 (en) * 2018-03-13 2019-09-19 オムロン株式会社 Workpiece picking device and workpiece picking method
US11478926B2 (en) 2018-03-15 2022-10-25 Omron Corporation Operation control device for robot, robot control system, operation control method, control device, processing device and recording medium
WO2019176478A1 (en) * 2018-03-15 2019-09-19 オムロン株式会社 Operation control device for robot
JP2019155561A (en) * 2018-03-15 2019-09-19 オムロン株式会社 Operation control device of robot
JP2019162712A (en) * 2018-03-20 2019-09-26 ファナック株式会社 Control device, machine learning device and system
KR102043898B1 (en) * 2018-03-27 2019-11-12 한국철도기술연구원 Auto picking system and method for automatically picking using the same
KR20190113140A (en) * 2018-03-27 2019-10-08 한국철도기술연구원 Auto picking system and method for automatically picking using the same
US11285603B2 (en) 2018-04-27 2022-03-29 Canon Kabushiki Kaisha Information processing apparatus, control method, robot system, and storage medium
WO2019225746A1 (en) 2018-05-25 2019-11-28 川崎重工業株式会社 Robot system and supplemental learning method
KR20210006431A (en) 2018-05-25 2021-01-18 카와사키 주코교 카부시키가이샤 Robot system and additional learning methods
US11858140B2 (en) 2018-05-25 2024-01-02 Kawasaki Jukogyo Kabushiki Kaisha Robot system and supplemental learning method
KR20190140546A (en) * 2018-06-11 2019-12-20 동국대학교 산학협력단 System and method for predicting force based on image
KR102094360B1 (en) 2018-06-11 2020-03-30 동국대학교 산학협력단 System and method for predicting force based on image
JP7143410B2 (en) 2018-06-14 2022-09-28 ヤマハ発動機株式会社 robot system
JPWO2019239562A1 (en) * 2018-06-14 2021-04-22 ヤマハ発動機株式会社 Machine learning device and robot system equipped with it
JP7102241B2 (en) 2018-06-14 2022-07-19 ヤマハ発動機株式会社 Machine learning device and robot system equipped with it
US11926057B2 (en) 2018-06-14 2024-03-12 Yamaha Hatsudoki Kabushiki Kaisha Robot system
US11945115B2 (en) 2018-06-14 2024-04-02 Yamaha Hatsudoki Kabushiki Kaisha Machine learning device and robot system provided with same
JPWO2019239563A1 (en) * 2018-06-14 2021-03-11 ヤマハ発動機株式会社 Robot system
US20210229275A1 (en) * 2018-06-14 2021-07-29 Yamaha Hatsudoki Kabushiki Kaisha Machine learning device and robot system provided with same
CN112135719A (en) * 2018-06-14 2020-12-25 雅马哈发动机株式会社 Machine learning device and robot system provided with same
CN112135719B (en) * 2018-06-14 2023-08-22 雅马哈发动机株式会社 Machine learning device and robot system provided with same
JP2019214112A (en) * 2018-06-14 2019-12-19 ヤマハ発動機株式会社 Machine learning device, and robot system equipped with the same
WO2019239563A1 (en) * 2018-06-14 2019-12-19 ヤマハ発動機株式会社 Robot system
WO2019239562A1 (en) * 2018-06-14 2019-12-19 ヤマハ発動機株式会社 Machine learning device and robot system provided with same
CN110658785A (en) * 2018-06-28 2020-01-07 发那科株式会社 Output device, control device, and method for outputting evaluation function value
CN110658785B (en) * 2018-06-28 2024-03-08 发那科株式会社 Output device, control device, and method for outputting evaluation function value
JP7398373B2 (en) 2018-07-04 2023-12-14 株式会社Preferred Networks Control device, system, control method, and program
JP7133017B2 (en) 2018-07-24 2022-09-07 株式会社Fuji END EFFECTOR SELECTION METHOD AND SELECTION SYSTEM
WO2020021643A1 (en) * 2018-07-24 2020-01-30 株式会社Fuji End effector selection method and selection system
JPWO2020021643A1 (en) * 2018-07-24 2021-08-02 株式会社Fuji End effector selection method and selection system
JP2020015141A (en) * 2018-07-26 2020-01-30 Ntn株式会社 Gripping device
JP7191569B2 (en) 2018-07-26 2022-12-19 Ntn株式会社 gripping device
WO2020022302A1 (en) * 2018-07-26 2020-01-30 Ntn株式会社 Grasping device
JP7121127B2 (en) 2018-08-03 2022-08-17 株式会社Fuji Parameter learning method and working system
JPWO2020026447A1 (en) * 2018-08-03 2021-08-02 株式会社Fuji Parameter learning method and working system
WO2020026447A1 (en) * 2018-08-03 2020-02-06 株式会社Fuji Parameter learning method and work system
CN112638596A (en) * 2018-08-23 2021-04-09 株式会社日立制作所 Autonomous learning robot device and method for generating operation of autonomous learning robot device
CN112638596B (en) * 2018-08-23 2024-02-20 株式会社日立制作所 Autonomous learning robot device and method for generating operation of autonomous learning robot device
JP2020082313A (en) * 2018-11-29 2020-06-04 京セラドキュメントソリューションズ株式会社 Robot control device, learning device and robot control system
JP7159525B2 (en) 2018-11-29 2022-10-25 京セラドキュメントソリューションズ株式会社 ROBOT CONTROL DEVICE, LEARNING DEVICE, AND ROBOT CONTROL SYSTEM
WO2020138436A1 (en) 2018-12-27 2020-07-02 川崎重工業株式会社 Robot control device, robot system, and robot control method
WO2020138461A1 (en) 2018-12-27 2020-07-02 川崎重工業株式会社 Robot control device, robot system, and robot control method
CN109784400A (en) * 2019-01-12 2019-05-21 鲁班嫡系机器人(深圳)有限公司 Intelligent body Behavioral training method, apparatus, system, storage medium and equipment
JP2020110894A (en) * 2019-01-16 2020-07-27 株式会社エクサウィザーズ Learned-model generation device, robot control device, and program
CN111438687A (en) * 2019-01-16 2020-07-24 发那科株式会社 Determination device
JP2020110900A (en) * 2019-01-16 2020-07-27 ファナック株式会社 Determination device
US11654556B2 (en) 2019-01-16 2023-05-23 Fanuc Corporation Determination apparatus for determining an operation of an industrial robot
JP7000359B2 (en) 2019-01-16 2022-01-19 ファナック株式会社 Judgment device
WO2020175643A1 (en) 2019-02-28 2020-09-03 川崎重工業株式会社 Machine-learning model operation management system and machine-learning model operation management method
JP7336856B2 (en) 2019-03-01 2023-09-01 株式会社Preferred Networks Information processing device, method and program
JP2020140641A (en) * 2019-03-01 2020-09-03 株式会社Preferred Networks Information processing device and information processing method
CN111745467A (en) * 2019-03-27 2020-10-09 株式会社捷太格特 Auxiliary device and auxiliary method for grinding machine
JP2021061014A (en) * 2019-06-19 2021-04-15 株式会社Preferred Networks Learning device, learning method, learning model, detector, and gripping system
JP2021022187A (en) * 2019-07-29 2021-02-18 セイコーエプソン株式会社 Program transfer system and robot system
JP7415356B2 (en) 2019-07-29 2024-01-17 セイコーエプソン株式会社 Program transfer system and robot system
US11654553B2 (en) 2019-09-04 2023-05-23 Kabushiki Kaisha Toshiba Robot system and driving method
WO2021111929A1 (en) * 2019-12-02 2021-06-10 Arithmer株式会社 Picking system, picking method, and program
JP2021088011A (en) * 2019-12-02 2021-06-10 Arithmer株式会社 Picking system, picking method, and program
DE112020006594T5 (en) 2020-04-28 2022-11-10 Yamaha Hatsudoki Kabushiki Kaisha Machine learning method and robotic system
DE112020006594B4 (en) 2020-04-28 2024-02-29 Yamaha Hatsudoki Kabushiki Kaisha Machine learning methods and robotic system
WO2022009859A1 (en) * 2020-07-10 2022-01-13 株式会社Preferred Networks Reinforcement learning device, reinforcement learning system, object manipulation device, model generation method, and reinforcement learning program
WO2022123978A1 (en) 2020-12-08 2022-06-16 ソニーグループ株式会社 Training device, training system, and training method
JP7398830B2 (en) 2021-08-05 2023-12-15 アジャイルソーダ インコーポレイテッド Deep reinforcement learning device and method for pick-and-place system
WO2023042306A1 (en) * 2021-09-15 2023-03-23 ヤマハ発動機株式会社 Image processing device, component gripping system, image processing method, and component gripping method

Also Published As

Publication number Publication date
JP6522488B2 (en) 2019-05-29
JP7100426B2 (en) 2022-07-13
CN106393102B (en) 2021-06-01
JP2022145915A (en) 2022-10-04
CN113199483A (en) 2021-08-03
JP2017064910A (en) 2017-04-06
DE102016015873B3 (en) 2020-10-29
CN106393102A (en) 2017-02-15
JP2020168719A (en) 2020-10-15

Similar Documents

Publication Publication Date Title
JP7100426B2 (en) Machine learning device, robot system and machine learning method to learn the operation of taking out the work
US11780095B2 (en) Machine learning device, robot system, and machine learning method for learning object picking operation
JP6810087B2 (en) Machine learning device, robot control device and robot vision system using machine learning device, and machine learning method
CN109483573B (en) Machine learning device, robot system, and machine learning method
JP6514171B2 (en) Machine learning apparatus and method for learning an optimal article gripping path
JP6240689B2 (en) Machine learning device, robot control device, robot system, and machine learning method for learning human behavior pattern
US10486306B2 (en) Control device for controlling robot by learning action of person, robot system, and production system
CN108393908B (en) Workpiece taking-out device and workpiece taking-out method for improving workpiece taking-out action
US20190061151A1 (en) Article stacking apparatus and machine learning apparatus
CN111226237A (en) Robotic system and method for robust grasping and aiming of objects
JP2017107902A (en) Machine learning device learning action of laminating core sheet, laminated core manufacturing device, laminated core manufacturing system, and machine learning method
EP3812107A1 (en) Robot control device, and method and program for controlling the same
US20190009407A1 (en) Component supply device and machine learning device
CN108687766B (en) Robot control device, machine learning device, and machine learning method
Huang et al. Grasping novel objects with a dexterous robotic hand through neuroevolution
US11203116B2 (en) System and method for predicting robotic tasks with deep learning
KR20230119159A (en) Pixel-by-pixel prediction for phage generation
TW202226071A (en) Machine learning device and machine learning method
CN117377558A (en) Automatic pick and place system
CN116460839A (en) Apparatus and method for controlling robot

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160113

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160113

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160419

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160818

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170124

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20170124

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20170207

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170307

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20170314

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20170526

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20170530

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20180227

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20180403

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20180424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180625

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20180911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181112

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20190226

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20190326

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20190326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190424

R150 Certificate of patent or registration of utility model

Ref document number: 6522488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250