JP2018200537A - Learning device, learning control method, and its program - Google Patents
Learning device, learning control method, and its program Download PDFInfo
- Publication number
- JP2018200537A JP2018200537A JP2017104523A JP2017104523A JP2018200537A JP 2018200537 A JP2018200537 A JP 2018200537A JP 2017104523 A JP2017104523 A JP 2017104523A JP 2017104523 A JP2017104523 A JP 2017104523A JP 2018200537 A JP2018200537 A JP 2018200537A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- control
- result
- neural network
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 230000036961 partial effect Effects 0.000 claims description 28
- 230000009471 action Effects 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 5
- 230000033001 locomotion Effects 0.000 abstract description 23
- 230000008030 elimination Effects 0.000 abstract 1
- 238000003379 elimination reaction Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 239000013598 vector Substances 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 9
- 230000001133 acceleration Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013075 data extraction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004904 shortening Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0062—Adapting control system settings
- B60W2050/0075—Automatic parameter input, automatic initialising or calibrating means
- B60W2050/0083—Setting, resetting, calibration
- B60W2050/0088—Adaptive recalibration
Abstract
Description
本発明は、学習装置、学習制御方法、及びそのプログラムに関する。 The present invention relates to a learning device, a learning control method, and a program thereof.
従来から、ニューラルネットワークなどの人工知能技術(以下、「AI技術」という。)に関する研究が、幅広く行われている(例えば、特許文献1参照)。特に、深層学習(Deep Learning)と呼ばれるAI技術の台頭により、例えば画像による対象物の認識技術は、ここ数年で認識率が急速に向上し、画像の分類については人の認識率を超えるレベルに到達しつつある。深層学習の技術は、画像の認識のみではなく、音声認識、個人認証、行動予測、文章の要約、自動翻訳、監視、自動運転、故障予測、センサデータの分析、楽曲のジャンル判定、コンテンツ生成、セキュリティシステム、その他幅広い分野への応用が期待されている。 Conventionally, research on artificial intelligence technology such as a neural network (hereinafter referred to as “AI technology”) has been widely performed (see, for example, Patent Document 1). In particular, with the rise of AI technology called Deep Learning, recognition technology for objects using images, for example, has rapidly improved the recognition rate in recent years, and the level of image classification exceeds human recognition rate. Is reaching. Deep learning technology is not only image recognition, but also voice recognition, personal authentication, behavior prediction, sentence summarization, automatic translation, monitoring, automatic driving, failure prediction, sensor data analysis, music genre determination, content generation, Applications in security systems and other broad fields are expected.
深層学習などの機械学習においては、機械に学習を実施させて所定の能力を獲得させることができる。このとき、機械学習を行う学習装置では、所定の能力を獲得するまで、学習する動作を繰り返し実行する。 In machine learning such as deep learning, a machine can perform learning to acquire a predetermined ability. At this time, the learning device that performs machine learning repeatedly performs the learning operation until a predetermined ability is acquired.
例えば、特許文献1には、ロボットの学習制御方法について開示されている。特許文献1に記載の学習制御方法においては、人が予め設定したロボット動作の目標となる目標軌道と、ロボットが実際に動作した場合の実軌道との間に生じる誤差に基づき、ロボットの駆動部へ供給する入力値を修正する。
For example,
自動車のエンジンや走行の制御、あるいは化学プラント等の、数多くのセンサ情報に基づいてアクチュエータを制御するような学習装置においては、制御とセンサ情報の出力とが互いに影響を与えるため、制御方法を獲得するために、より複雑な学習を行う必要がある。したがって、このような複雑な学習を行う学習装置において、特許文献1のように、人が予め制御量の目標値を設定することは容易ではない。他方で、目標値を設定せずに学習装置に学習を行わせた場合、非常に多くのトライエラーを繰り返す必要があり、効率が悪い。
In learning devices that control actuators based on a large number of sensor information, such as control of automobile engines and driving, or chemical plants, the control method and output of sensor information influence each other, so a control method is acquired. To do this, it is necessary to perform more complicated learning. Therefore, it is not easy for a learning apparatus that performs such complicated learning to set a control amount target value in advance as in
そこで、本発明は、人の手を介さずに、学習装置が学習目的を達成するのに要する時間を短縮するための技術を提供することを目的とする。 Therefore, an object of the present invention is to provide a technique for shortening the time required for the learning device to achieve the learning purpose without involving human hands.
本発明の一側面に係る学習装置は、所定のタスクに係る動作の制御を学習する学習装置であって、学習目的を含む学習データを受け付ける学習データ受付部と、学習データに基づいて、学習を実行するニューラルネットワークと、ニューラルネットワークによる学習結果を出力する出力部と、を備え、ニューラルネットワークは、学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、第2学習の結果に基づいて、続行不能となる状態に至る制御を除外して学習目的を達成するための第3学習を実行する。 A learning device according to an aspect of the present invention is a learning device that learns control of an operation related to a predetermined task, and a learning data receiving unit that receives learning data including a learning purpose, and learning based on the learning data. A neural network to be executed, and an output unit for outputting a learning result by the neural network. The neural network executes the first learning for achieving the initial stage of the learning purpose, and is based on the result of the first learning. Then, the second learning is performed to learn the control that reaches the state where the learning operation cannot be continued, and the learning purpose is achieved by excluding the control reaching the state where the learning cannot be continued based on the result of the second learning. 3rd learning for performing is performed.
上記構成によれば、学習目的を達成するための第3学習の前に、学習に係る動作を続行不能となる状態に至る制御の学習がなされる。これによって、人によって制御動作を制限する条件が与えられることなしに、装置自らが続行不能状態に至る制御を除外して学習を行うことができるため、より短期間で学習目的を達成することができる。 According to the above-described configuration, before the third learning for achieving the learning purpose, the control is learned so that the operation related to the learning cannot be continued. As a result, the learning can be achieved in a shorter period of time because it is possible to perform the learning by excluding the control in which the apparatus itself cannot be continued without being given a condition for limiting the control operation by a person. it can.
また、出力部は、第2学習の結果を出力してもよい。この態様によると、続行不能状態に至る制御の学習結果を、ほかの学習装置においても活用することができる。 The output unit may output a result of the second learning. According to this aspect, the learning result of the control leading to the state where the continuation is impossible can be utilized also in other learning apparatuses.
また、学習装置は、所定のタスクに係る一連の動作の制御を学習する学習装置であって、タスクを複数の場面に分割し、分割された場面それぞれにおいて、一連の動作のうち当該場面において行われる部分動作を特定する分類部をさらに備え、ニューラルネットワークは、第2学習及び第3学習を、部分動作ごとに実行してもよい。 The learning device is a learning device that learns control of a series of operations related to a predetermined task. The learning device divides the task into a plurality of scenes, and performs each of the divided scenes in the scene in the series of operations. The neural network may further include a classifying unit that identifies a partial action to be performed, and the neural network may perform the second learning and the third learning for each partial action.
この態様によると、学習装置は、学習に係る動作を、場面に応じてより小さな単位である部分動作に分類し、分類した部分動作ごとに学習することができる。これによって、よりより短期間で学習目的を達成することができる。 According to this aspect, the learning apparatus can classify the motions related to learning into partial motions that are smaller units depending on the scene, and can learn for each classified partial motion. As a result, the learning purpose can be achieved in a shorter period of time.
本発明の一側面に係る自動走行制御学習装置は、所定のコースを周回する車両の自動走行に係る一連の動作について制御を学習する自動走行制御学習装置であって、コースを所定時間以内に所定の回数周回することを目的とする学習目的を含む学習データを受け付ける学習データ受付部と、学習データに基づいて、学習を実行するニューラルネットワークと、ニューラルネットワークによる学習結果を出力する出力部と、を備え、ニューラルネットワークは、コースを1周できることを達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習に係る動作が続行不能となる状態に至る制御を学習する第2学習を実行し、当該第2学習の結果に基づいて、続行不能となる状態に至る制御を除外して学習目的を達成するための第3学習を実行する。 An automatic travel control learning device according to one aspect of the present invention is an automatic travel control learning device that learns control regarding a series of operations related to automatic travel of a vehicle that circulates a predetermined course, and the course is determined within a predetermined time. A learning data receiving unit that receives learning data including a learning purpose intended to circulate the number of times, a neural network that performs learning based on the learning data, and an output unit that outputs a learning result by the neural network, And the neural network performs a first learning for achieving the ability to make one round of the course, and learns a control for reaching a state in which the operation related to the learning cannot be continued based on a result of the first learning. 3rd for performing learning and excluding the control which will be in the state which becomes impossible to continue based on the result of the said 2nd learning, and achieving a learning objective To run the learning.
また、本発明の一側面に係るロボット制御学習装置は、所定のワークを把持して、当該ワークの形状に応じた載置場所に積み上げるタスクに係る一連の動作について制御を学習するロボット制御学習装置であって、所定時間以内にワークを所定の個数、載置場所に積み上げることを目的とする学習目的を含む学習データを受け付ける学習データ受付部と、学習データに基づいて、学習を実行するニューラルネットワークと、ニューラルネットワークによる学習結果を出力する出力部と、を備え、ニューラルネットワークは、ワークを1つ前記載置場所に積むことを達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習に係る動作が続行不能となる状態に至る制御を学習する第2学習を実行し、当該第2学習の結果に基づいて、続行不能となる状態に至る制御を除外して学習目的を達成するための第3学習を実行する。 The robot control learning device according to one aspect of the present invention is a robot control learning device that learns control about a series of operations related to a task of gripping a predetermined workpiece and stacking it on a placement place corresponding to the shape of the workpiece. A learning data receiving unit for receiving learning data including a learning purpose for the purpose of accumulating a predetermined number of workpieces in a predetermined place within a predetermined time, and a neural network for performing learning based on the learning data And an output unit that outputs a learning result by the neural network, and the neural network executes the first learning for achieving the loading of the work in the previous place, and the result of the first learning Based on the above, the second learning is performed to learn the control that leads to the state where the operation related to learning cannot be continued, and based on the result of the second learning Executes a third learning for achieving the learning object by excluding the control to the state becomes impossible to continue.
また、本発明の一側面に係る学習方法は、制御部を備えるコンピュータが実行する、所定のタスクに係る動作の制御を学習する学習方法であって、制御部が、学習目的を含む学習データを受け付けるステップと、学習データに基づいて、学習を実行するステップと、学習を実行するステップによる学習結果を出力するステップと、を実行し、学習を実行するステップは、学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、第2学習の結果に基づいて、続行不能となる状態に至る制御を除外して学習目的を達成するための第3学習を実行する、ステップを含む、学習方法。 A learning method according to one aspect of the present invention is a learning method for learning control of an operation related to a predetermined task, which is executed by a computer including a control unit, and the control unit stores learning data including a learning purpose. The step of receiving, the step of executing learning based on the learning data, and the step of outputting the learning result by the step of executing learning, and the step of executing learning achieve the initial stage of learning purpose First learning is performed, and based on the result of the first learning, second learning is performed to learn control for reaching a state where the operation related to learning cannot be continued, and based on the result of the second learning A learning method including a step of performing a third learning for achieving a learning purpose by excluding a control that leads to a state where it is impossible to continue.
本発明の一側面に係るプログラムは、所定のタスクに係る動作の制御を学習するコンピュータに、学習目的を含む学習データを受け付ける手順、学習データに基づいて、学習を実行する手順、及び学習を実行する手順による学習結果を出力する手順、を実行させ、学習を実行する手順は、学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、第2学習の結果に基づいて、続行不能となる状態に至る制御を除外して学習目的を達成するための第3学習を実行する、手順を含む、プログラム。 A program according to an aspect of the present invention executes a procedure for receiving learning data including a learning purpose in a computer that learns control of an operation related to a predetermined task, a procedure for executing learning based on the learning data, and learning. The procedure for outputting the learning result according to the procedure for performing the learning and executing the learning is to execute the first learning for achieving the initial stage of the learning purpose, and to perform the learning based on the result of the first learning. The second learning for learning the control that reaches the state where the operation cannot be continued is performed, and the control for reaching the state where the operation cannot be continued is excluded based on the result of the second learning to achieve the learning purpose. 3. A program including a procedure for performing learning.
また、本発明の一側面に係る装置は、所定のタスクを実行する装置であって、装置がタスクを実行するための動作に必要な情報をセンシングする第1センサと、アクチュエータと、アクチュエータによる装置の状態変化をセンシングする第2センサと、第1センサ及び第2センサから出力されるセンサ値に基づいてアクチュエータを制御する制御部と、上記の学習装置によって行われた学習結果を記憶する記憶部と、を備え、制御部は、記憶部に記憶された学習結果に基づいて、第1センサ及び第2センサから出力されるセンサ値に応じた制御量を決定する、装置。 An apparatus according to an aspect of the present invention is an apparatus that executes a predetermined task, and includes a first sensor that senses information necessary for the operation of the apparatus to execute the task, an actuator, and an apparatus using the actuator. A second sensor that senses a change in the state of the sensor, a control unit that controls the actuator based on sensor values output from the first sensor and the second sensor, and a storage unit that stores a learning result performed by the learning device The control unit determines a control amount according to the sensor value output from the first sensor and the second sensor based on the learning result stored in the storage unit.
本発明によれば、人の手を介さずに、学習装置が学習目的を達成するのに要する時間を短縮するための技術を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the technique for shortening the time required for a learning apparatus to achieve the learning objective can be provided without a human hand.
[第1実施形態]
以下、図面を参照して本発明の実施形態について詳細に説明する。なお、同一の要素には同一の符号を付し、重複する説明を省略する。また、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。さらに、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。
[First embodiment]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In addition, the same code | symbol is attached | subjected to the same element and the overlapping description is abbreviate | omitted. Further, the following embodiments are exemplifications for explaining the present invention, and are not intended to limit the present invention only to the embodiments. Furthermore, the present invention can be variously modified without departing from the gist thereof.
<1.システム概要>
図1乃至図3を参照して本実施形態におけるシステムの概要について説明する。
図1は、本実施形態に係る学習装置1の概略構成を示すブロック図である。学習装置1は、所定のタスクを学習するものである。本実施形態に係る学習装置1は,一例として自動走行制御車両(以下、単に「車両」ともいう。)90に搭載され、所定のコース(図2参照)を自動走行するための車両90の制御を学習する。このとき学習装置1には、例えばオペレータ等から学習データが与えられる。学習データは、例えば次のような学習目的と学習要件を含むデータである。
<1. System overview>
An overview of the system in this embodiment will be described with reference to FIGS. 1 to 3.
FIG. 1 is a block diagram illustrating a schematic configuration of a
(学習目的)
・所定時間以内にコースを10周してゴールする。
(学習要件)
・コースアウトしない
・周回方向は時計回り
・ゴールする
・初期段階レベルでは「コースを1周してゴールする」
(Learning purpose)
・ Go 10 courses within a predetermined time and finish.
(Learning requirements)
・ Do not go out of the course ・ Circling direction is clockwise ・ Goal ・ In the initial stage level, “Go around the course once”
なお、タスクは、学習に係る動作(本実施形態での「学習に係る動作」は、車両90の自動走行に必要な各種制御である。なお、当該各種制御によって車両90が実行する動作と考えてもよい。)で達成したいことであり、本実施形態ではコースを周回することである。また、学習目的はタスクが達成すべき水準であり、本実施形態では、上記のとおり「所定時間以内にコースを10周してゴールすること」である。そうすると、本実施形態では、初期段階レベルの学習では、タスクが行えるようになることが、学習要件として与えられているとも考えられる。
Note that a task is an operation related to learning (the “operation related to learning” in the present embodiment is various controls necessary for automatic traveling of the
また、以下の説明では、学習装置1はPC(Personal Computer)やサーバ装置などのコンピュータによって構成されるものとして説明するが、これに限定されず、例えば、プロセッサ、RAM、ROMを有する任意の組込装置によって実現されてもよい。また、各装置において実装される構成はソフトウェアによって実現される構成に限定されない。各装置に含まれる任意の構成は、ハードウェアによって実現される構成でもよい。例えば後述するニューラルネットワーク22はカスタムLSI(Large-Scale Integration)やFPGA(Field-Programmable Gate Array)等の電子回路によって構成されてもよい。
Further, in the following description, the
図1に示すように、学習装置1は、制御部10と、機械学習部20と、動作分類部30と、記憶部40とを有している。
As illustrated in FIG. 1, the
制御部10は、車両90において、学習装置1外に設けられた制御用センサ91、アクチュエータ92、状態検知用センサ93と接続されている。制御部10は、制御用センサ91、及び状態検知用センサ93からの出力に応じて、アクチュエータ92を制御して、車両90の自動走行を実施する。
In the
制御用センサ91は、車両90の自動走行制御を行うためのセンサ群である。例えば制御用センサ91は、車載カメラやレーザ等の車外障害物検出センサ、路面状態検出センサ等から構成される。他方で、状態検知用センサ93は、自動走行している車両90の制御状態を検出するセンサ群である。例えば状態検知用センサ93は、振動センサや騒音センサ、燃料消費量検出センサ、車速センサ、加速度センサ、ヨーレートセンサ等から構成される。
The
アクチュエータ92は、車両90を自動走行させるために制御部10によって制御される。アクチュエータ92は、例えばアクセルアクチュエータ、ブレーキアクチュエータ、及び操舵アクチュエータ等から構成される。アクセルアクチュエータは、制御部10からの制御信号に応じてスロットル開度を制御することによって車両の駆動力を制御する。ブレーキアクチュエータは、制御部10からの制御信号に応じてブレーキペダルの操作量を制御することにより、車両の車輪に対する制動力の制御を行う。操舵アクチュエータは、制御部10からの制御信号に応じて電動パワーステアリングシステムの操舵アシストモータの駆動を制御して、車両の操舵作用の制御を行う。
The
次に、図3を参照して学習装置1が学習を行う手順を大まかに説明する。なお、各ステップの処理の詳細については、後述する。図3は、学習装置1が学習を行う際の、処理フローの概略を示すフローチャートである。まず、学習初期段階(S1)として、タスクが行えるようになること(すなわち初期段階の学習要件を満たした動作ができるようになること)を目的に学習が行われる。本実施形態における学習装置1は、初期段階としては、「コースを1周してゴールすること」が学習要件として与えられている。
Next, a procedure for the
初期段階レベルの目的をクリアすると、次に動作の分類(S2)が行われる。この段階では、S1の学習初期段階で行った学習内容を解析することにより、タスクを所定のパラメータに基づいて複数に分割(以下では、分割されたタスクを「場面」ともいう。)し、分割された場面それぞれにおいて、タスクに係る一連の動作のうち当該場面において行われる動作(以下、「部分動作」ともいう。)を特定する処理が行われる。タスクを分割する所定のパラメータは、例えばタスクの学習中に係る動作の変位量や、タスクの学習中に係る動作を実行する環境(タスクの開始時点からの経過時間や、タスクの開始場所からの位置等)である。本実施形態では、所定のパラメータとして、タスクの開始場所からの位置(タスクの学習中に係る動作を実行する環境)を用いる。すなわち、本実施形態では、学習装置1は、コース上の位置に基づいて、タスクを場面に分割し、分割した場面に対応するコース単位で行われる動作に基づいて、学習に係る一連の動作が場面に分類される。場面に応じて分類された部分動作単位で学習を行うことで、学習の効率化を図ることができる。なお、本実施形態において、学習の効率化とは、例えば学習開始から学習目的の達成までの所要時間の短縮化を意味してもよい。
When the purpose of the initial stage level is cleared, the operation classification (S2) is performed next. At this stage, by analyzing the learning content performed in the initial learning stage of S1, the task is divided into a plurality of parts based on predetermined parameters (hereinafter, the divided task is also referred to as “scene”), and is divided. In each of the performed scenes, a process of specifying an operation (hereinafter, also referred to as “partial operation”) performed in the scene among a series of operations related to the task is performed. Predetermined parameters for dividing a task include, for example, the amount of movement displacement during task learning, the environment in which the operation associated with task learning is executed (elapsed time from the start of the task, Position). In the present embodiment, the position from the start location of the task (environment in which an operation related to task learning is executed) is used as the predetermined parameter. That is, in the present embodiment, the
動作を分類すると、次のステップとして、分類した部分動作ごとに、学習続行不能状態に至る制御の学習(S3)が行われる。ここで、学習続行不能状態とは、タスクが続行不能になる状態をいう。例えば、学習装置1における学習が所定の装置の制御である場合には、制御対象となる所定の装置の動作が停止した場合や、所定の装置が故障して動作不能に陥った場合をいう。本実施形態では、学習続行不能状態とは、例えば、コースアウトする、壁等にクラッシュして動けなくなる、故障する等の状態である。学習続行不能状態に至る制御を予め学習することによって、のちのステップで最適な制御を学習するうえで、学習続行不能状態に陥ることを避けて学習を行うことができる。これによってより効率的に学習を行うことが可能になる。
When the actions are classified, as a next step, learning of control for reaching the learning continuation impossible state (S3) is performed for each classified partial action. Here, the state in which learning cannot be continued refers to a state in which the task cannot be continued. For example, when the learning in the
学習最終段階(S4)では、学習の最適化が行われる。この段階では、場面ごとに分類して学習した部分動作を組み合わせた上で、動作の開始から終了までを最適に行う学習が行われる。本実施形態では、最終段階の学習として、所定時間以内にコースを10周してゴールする学習が行われる。 In the final learning stage (S4), learning optimization is performed. At this stage, learning that performs optimally from the start to the end of the motion is performed after combining the partial motions classified and learned for each scene. In the present embodiment, as the final stage of learning, learning is performed in which a goal is made by making 10 laps within a predetermined time.
<2.詳細処理>
次に、図4乃至図8を参照して、各ステップにおける学習装置1の処理の詳細について説明する。図4は本実施形態に係る学習装置1の詳細な構成を示すブロック図である。図4に示すように、機械学習部20は、学習データ入出力部21と、ニューラルネットワーク22と、学習結果出力部23とから構成される。また、動作分類部30は、制御データ抽出部31と、動作分類結果抽出部32とから構成される。
以下では、図3のステップごとに、各部の処理の詳細について説明する。
<2. Detailed processing>
Next, with reference to FIG. 4 to FIG. 8, the details of the processing of the
Below, the detail of the process of each part is demonstrated for every step of FIG.
(2−1.学習初期段階)
図5は、図3に示したS1の学習初期段階における詳細な処理フローを示すフローチャートである。まず、学習の初期段階(第1学習)において、学習データ入出力部21が学習データを受け付ける(S101)。学習データは、例えば上述した学習目的及び学習要件を含むデータである。
(2-1. Early learning stage)
FIG. 5 is a flowchart showing a detailed processing flow in the initial learning stage of S1 shown in FIG. First, in the initial stage of learning (first learning), the learning data input /
次のステップ(S102)では、機械学習が行われる。本実施形態では、個々の制御動作を制限するための条件は予め指定されていないため、学習装置1自らが制御動作を学習することになる。具体的には、制御部10は、ランダムな制御量をアクチュエータ92に対して設定して動作させる。このとき車両90は当然コースに沿って走行することはできないので、コースアウト等をしながらでたらめな走行をすることになる。制御部10は、ランダムに与えた制御量に対する制御用センサ91及び状態検知用センサ93から出力(以下、「センサ値」ともいう。)を読み取り、これらのデータ(制御量及びセンサ値)を記憶部40に記憶させる。ニューラルネットワーク22は、記憶部40を参照して、記憶された制御量とセンサ値とを読み取り、学習要件に適応する制御動作をDeep Learningにより学習する(S102)。
In the next step (S102), machine learning is performed. In this embodiment, since the conditions for restricting individual control operations are not designated in advance, the
学習要件には、初期段階レベルの目的として、「コースを1周してゴールすること」が設定されている。したがって、学習装置1においては、例えば制御用センサ91からの出力に基づいてコースを1周してゴールしたと判断した時点で、機械学習が初期段階レベルに達したと判定し(S103:Y)、初期段階の学習を終了する。
The learning requirement is set to “go around the course and make a goal” as the purpose of the initial stage level. Accordingly, the
(2−2.動作の分類)
図6は、図3に示したS2の動作の分類における詳細な処理フローを示すフローチャートである。まず、動作の分類処理を行うに当たり、制御データ抽出部31が学習初期段階終了時点における、制御用センサ91のセンサ値と、これに対するアクチュエータ92の制御量及び状態検知用センサ93のセンサ値とを記憶部40から抽出する(S201)。制御データ抽出部31は、抽出した各値をニューラルネットワーク22に対して学習データとして入力する。
(2-2. Classification of operation)
FIG. 6 is a flowchart showing a detailed processing flow in the operation classification of S2 shown in FIG. First, in performing the operation classification process, the control
次に、ニューラルネットワーク22は、制御データ抽出部31により入力された学習データに基づいて、機械学習を行う(S202)。このとき、ニューラルネットワーク22では、周回動作を所定の個数に分割された場面に分類する。
Next, the
ニューラルネットワーク22による周回動作の場面への分類処理についてより詳細に説明する。ニューラルネットワーク22は、周回動作の場面への分類を場面ベクトルと動作ベクトルとに基づいて行う。場面ベクトルは、車両90が行うタスクの場面を表す。場面ベクトルは、例えば、制御用センサ91が出力するセンサ値(例えばスタート地点からの位置(又は距離)、及びスタート地点からの方向)から取得される。一例として、スタート地点を原点とするx、y座標を想定した場合、地点lにおける場面ベクトルは、(lx、y)で表すことが可能である。
A more detailed description will be given of the classification processing into scenes of the orbiting operation by the
他方、動作ベクトルは、走行する車両90の制御状態を表す。動作ベクトルは、例えば状態検知用センサ93が出力するセンサ値(例えば速度や加速度、角速度、角加速度等である)から取得される。一例として、ある地点lでの動作ベクトルは、当該地点lでの速度v、加速度aを用いて(vl、al)で表される。
On the other hand, the motion vector represents the control state of the traveling
ニューラルネットワーク22は、場面ベクトル(lx、y)に基づいて、タスクを場面に分割し、動作ベクトル(vl、al)に基づいて、分割した場面ごとに当該場面で学習すべき動作の分類を学習する。これによって、学習装置1は、自身が今どの場面にいるかを判定することで、場面に応じた部分動作を学習することができる。一例としてニューラルネットワーク22は、場面ベクトルが表す位置に加え、動作ベクトルの変化点に着目することで、車両90の動作の加速・減速・方向転換等を把握し、当該変化点に基づいて、一連の動作を場面に応じた動作に分類することができる。また、例えばニューラルネットワーク22は、動作ベクトルの類似度に基づいて、動作の分類を学習することも可能である。
The
図2に示したコースの例では、タスクは、ア〜オの5つのコースに応じた場面に分割される。各場面に分類される部分動作は例えば以下のとおりである。
場面ア:第1ストレート部分動作(例えば次の第1コーナーに差し掛かる際の減速のタイミングや走行位置等の制御である。)
場面イ:第1コーナー部分動作(例えばコーナーでのハンドル操作や、第2ストレートへ進入するに際した加速のタイミング等の制御である。)
場面ウ:第2ストレート部分動作(例えば次の第2コーナーに差し掛かる際の減速のタイミングや走行位置等の制御である。)
場面エ:第2コーナー部分動作(例えばコーナーでのハンドル操作や、第3ストレートへ進入するに際した加速のタイミング等の制御である。)
場面オ:第3ストレート部分動作(例えば第1ストレートに進入するに際した加速等の制御である。)
In the example of the course shown in FIG. 2, the task is divided into scenes corresponding to five courses a to o. The partial operations classified into each scene are as follows, for example.
Scene A: First straight partial operation (for example, control of deceleration timing, traveling position, etc. when approaching the next first corner)
Scene A: First corner partial movement (for example, control of steering operation at the corner, acceleration timing when entering the second straight, etc.)
Scene C: Second straight partial operation (for example, control of deceleration timing, travel position, etc. when approaching the next second corner)
Scene D: Second corner partial movement (for example, steering operation at the corner, control of acceleration timing when entering the third straight, etc.)
Scene O: Third straight partial movement (for example, control of acceleration or the like when entering the first straight)
なお、ニューラルネットワーク22は、分割した場面を、進行順に応じて並び替え可能であることが好ましい。
Note that the
動作分類結果抽出部32は、ニューラルネットワーク22が学習した部分動作の分類を抽出し、記憶部40に記憶させる(S203)。
The action classification
(2−3.学習続行不能状態に至る制御の学習)
図7は、図3に示したS3の学習続行不能状態に至る制御の学習(第2学習)における詳細な処理フローを示すフローチャートである。まず、学習データ入出力部21は、記憶部40を参照し、S2の処理において分類された部分動作のうち、いずれかの部分動作を選択し、当該部分動作に必要なアクチュエータ92への制御量を抽出する。さらに学習データ入出力部21は、記憶部40を参照し抽出した制御量において制御を実行し、その結果、学習続行不能状態に至ったか否かを例えば状態検知用センサ93からの出力等に基づいて判定する。学習データ入出力部21は、抽出した制御量とその結果、学習続行不能状態に至ったか否かの情報を学習データとして読み出し、ニューラルネットワーク22に学習データとして与える。ニューラルネットワーク22は、与えられた学習データのもと、Deep Learningにより学習を行う(S301)。
(2-3. Learning of control leading to a state where learning cannot be continued)
FIG. 7 is a flowchart showing a detailed processing flow in the learning of control (second learning) in S3 shown in FIG. First, the learning data input /
このとき、学習結果出力部23は、学習続行不能状態に至る制御の学習結果を出力することが可能である。これによって、ニューラルネットワーク22は、例えば同様の構成を備える別の学習装置1’から、学習続行不能状態に至った制御を学習データとして受け付けて追加学習を行うことができる(S302)。これによってより効率の良い学習を行うことができる。効率の良い学習とは、例えば学習開始から学習目的達成までに要する時間が短い学習をいう。なお、S302の処理は必須の処理ではない。
At this time, the learning
学習装置1は、S301(及びS302)の処理を、分類されたすべての部分動作について実施する(S303)。
The
必須ではないが、学習装置1は、分類されたすべての部分動作について学習続行不能状態に至る制御を学習した後に、一連の動作を通じて再度学習を行うことも可能である(S304)。これによって、より速い周回制御を行うことが可能になる。
Although not essential, the
このように、本実施形態に係る学習装置1が、分類された部分動作について、まず学習続行不能状態に至る制御を学習することによって、その後の学習において、当該制御を避けて学習することが可能になる。これによって、より効率的な学習を行うことができる。
As described above, the
(2−4.最適化学習)
図8は、図3に示したS4の最適化学習(第3学習)における詳細な処理フローを示すフローチャートである。最適化学習では、S3までのステップで行った学習の最適化を図ることにより、学習開始時に学習データとして与えられた学習目的(本実施形態においては、「所定時間以内にコースを10周してゴールする」ことである。)を達成するための学習を行う。最適化学習においては、S3で学習した学習続行不能状態に至る制御を除外して学習が行われる。このとき、学習データ入出力部21は、記憶部40を参照して、学習初期段階(図3のS1)において入力された学習データ(オペレータが設定したものである)を抽出する。また、学習データ入出力部21は、さらに記憶部40を参照して学習続行不能状態に至る制御を学習した後のニューラルネットワーク22の状態を抽出する。学習データ入出力部21は、抽出したこれらのデータを制御部10に設定する。
(2-4. Optimization learning)
FIG. 8 is a flowchart showing a detailed processing flow in the optimization learning (third learning) in S4 shown in FIG. In the optimization learning, the learning purpose given as learning data at the start of learning is performed by optimizing the learning performed in the steps up to S3 (in this embodiment, “10 courses are made within a predetermined time. Learning to achieve “goal”. In the optimization learning, learning is performed excluding the control that has been learned in S3 and reaches the state where learning cannot be continued. At this time, the learning data input /
制御部10では、設定された上述のデータに基づいて、アクチュエータ92に対する制御量を出力し、これに対する制御用センサ91及び状態検知用センサ93のセンサ値を取得する。制御部10は、与えた制御量及び、これに対して出力されたセンサ値を記憶部40に記憶させる。
The
ニューラルネットワーク22は、上記の処理において制御部10が記憶させた制御量及びセンサ値を読み出して、Deep Learningにより学習を行う(S401)。これによってニューラルネットワーク22は、学習続行不能状態に至る制御を学習した状態で、動作の開始から終了まで(すなわち、コースのスタートからゴールまで)をとおして、学習要件に適応する制御動作をより効率よく学習することができる。学習全体の最適化がなされるまでS401の処理が繰り返し行われる(S402)。最適化学習の結果は、学習結果出力部23によって抽出され、記憶部40に記憶される。これによって、最適化学習では、学習続行不能状態に至る制御を除外して学習を行うことができる。
The
このように、本実施形態に係る学習装置1によると、学習装置1自身が、学習に係る動作を、部分動作に分類して学習を行うことができる。これによって分類した動作ごとに個別最適化を図ることができるため、より効率よく(すなわち、より短期間で)学習を行うことができる。さらに、本実施形態に係る学習装置1によると、部分動作を学習するに際して、まず学習続行不能状態に至る制御を学習する。これによって、人があらかじめ動作ごとに細かく条件を設定することなく、効率よく学習を行うことができる。
As described above, according to the
(ハードウェア構成)
図9を参照しながら、上述してきた学習装置1をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の構成は、複数台の装置に分けて実現することもできる。
(Hardware configuration)
With reference to FIG. 9, an example of a hardware configuration when the
図9に示すように、コンピュータ800は、プロセッサ801、メモリ803、記憶装置805、入力インタフェース部(入力I/F部)807、データインタフェース部(データI/F部)809、通信インタフェース部(通信I/F部)811、及び表示装置813を含む。
As shown in FIG. 9, a
プロセッサ801は、メモリ803に記憶されているプログラムを実行することによりコンピュータ800における様々な処理を制御する。例えば、プロセッサ801がメモリ803に記憶されているプログラムを実行することで、学習装置1の制御部10、機械学習部20、及び動作分類部30などが実現可能となる。
The
メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
The
記憶装置805は、例えばハードディスクドライブ(HDD)やソリッドステートドライブ等の補助記憶装置、フラッシュメモリ等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。このようなプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。例えば上述の記憶部40は、記憶装置805によって実現される。
The
入力I/F部807は、管理者からの入力を受け付けるためのデバイスである。入力I/F部807の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部807は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ800に接続されても良い。
The input I /
データI/F部809は、コンピュータ800の外部からデータを入力するためのデバイスである。データI/F部809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部809は、コンピュータ800の外部に設けられることも考えられる。その場合、データI/F部809は、例えばUSB等のインタフェースを介してコンピュータ800へと接続される。
A data I /
通信I/F部811は、コンピュータ800の外部の装置と有線又は無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部811は、コンピュータ800の外部に設けられることも考えられる。その場合、通信I/F部811は、例えばUSB等のインタフェースを介してコンピュータ800に接続される。
The communication I /
表示装置813は、各種情報を表示するためのデバイスである。表示装置813の具体例としては、例えば液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置813は、コンピュータ800の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介してコンピュータ800に接続される。
The
[第2実施形態]
第1実施形態では、学習装置1が自動走行制御車両90に用いられる例について説明した。しかし、学習装置1が適用される装置は、第1実施形態に示した例に限定されず、種々の装置に適用することができる。本実施形態では、ピックアンドプレース動作を行うことをタスクとする、ロボットの制御に適用する例について説明する。なお、第2実施形態では、第1実施形態との差異点を中心に説明する。
[Second Embodiment]
In the first embodiment, an example in which the
まず、図10を参照して本実施形態に係るシステム構成について第1実施形態との違いを説明する。学習装置1の構成は第1実施形態と同様である。他方で、学習装置1外の構成について、本実施形態では、制御用センサ91’は、ピックアンドプレース動作を行うためのセンサ群から構成される。具体的には、ワーク検出センサ(画像センサ)、ロボット把持用力覚センサ等から構成される。また、制御用センサ91’は、画像認識アルゴリズムを有しており、把持するワークの形状を認識することができる。その他の学習装置1外の構成は第1実施形態と同様である。
First, the difference between the system configuration according to the present embodiment and the first embodiment will be described with reference to FIG. The configuration of the
次に、本実施形態に係る学習と第1実施形態に係る学習の違いについて説明する。
本実施形態に係るタスクであるピックアンドプレース動作は、以下の手順で行われる動作をいう。
1.ワーク形状を認識して把持する。
2.把持したワークを持ち上げる。
3.ワーク形状に応じた所定の位置へ持ち上げたワークを移動させる。
4.ワーク形状ごとに筒内に積み上げる。
Next, the difference between learning according to the present embodiment and learning according to the first embodiment will be described.
The pick and place operation that is a task according to the present embodiment refers to an operation performed in the following procedure.
1. Recognize and grip the workpiece shape.
2. Lift the gripped work.
3. The lifted work is moved to a predetermined position according to the work shape.
4). Each workpiece shape is stacked in a cylinder.
また、本実施形態に係るロボット制御の学習において、与えられる学習目的と学習要件とは次のとおりである。 In the robot control learning according to the present embodiment, the learning objectives and learning requirements given are as follows.
(学習目的)
・3種類の異なる形状(例えば、円柱ワーク、四角柱ワーク、及び三角柱ワークの3種類である。)をしたワークがバラ積みされたコンテナから、ピックアンドプレース動作により、所定時間以内に、ワーク形状に応じた入口を有する筒(円形、四角形、三角形)に、10個のワークを積み上げる。
(学習要件)
・所定位置以外にワークを載置しない
・ワーク形状ごとに10個のワークを筒の中で積み上げる
・初期レベルでは「1個のワークを、適切なワーク形状の筒の中に積む」
(Learning purpose)
・ Work shape within a specified time by pick-and-place operation from a container in which workpieces with three different shapes (for example, cylindrical workpiece, quadrangular prism workpiece and triangular prism workpiece) are stacked. Ten workpieces are stacked in a cylinder (circular, square, triangular) having an inlet corresponding to the above.
(Learning requirements)
-Do not place workpieces in any other position-
本実施形態では、タスクは、ワークを形状に応じた筒に積み上げることである。また、本実施形態では、学習するピックアンドプレース動作は、第1の実施形態において、車両90が走行するコースに基づいてタスクを場面に分割し、当該場面に基づいて部分動作を分類するのと同様の手順で、当該ピックアンドプレース動作も場面に応じて部分動作に分類処理されてもよい。例えば、本実施形態では、タスクは、タスクの学習中に係る動作の変位量に基づいて、ワークを把持する動作に応じた場面、ワークを運ぶ動作に応じた場面、ワークを積み上げる動作に応じた場面、に分割される。ピックアンドプレース動作は、分割された場面に応じて、部分動作に分類される。
In the present embodiment, the task is to stack the workpieces in a cylinder corresponding to the shape. In the present embodiment, the pick-and-place operation to be learned is that, in the first embodiment, the task is divided into scenes based on the course on which the
また、本実施形態において、学習続行不能状態とは、例えばワークが筒内に入らなくなる状態をいう。したがって、学習続行不能状態に至る制御の学習段階において、学習される制御は、例えば次のとおりである。
・載置場所を間違える(ワークの形状と筒の入り口の形状が異なる)
・ワークを積み上げる向きを間違える(ワークの形状の向きと筒の形状の向きとが異なる)
In the present embodiment, the state where learning cannot be continued refers to, for example, a state where the workpiece does not enter the cylinder. Therefore, the control learned in the learning stage of the control to reach the state where learning cannot be continued is, for example, as follows.
・ Wrong mounting location (The shape of the workpiece and the shape of the cylinder entrance are different)
・ Incorrect stacking direction of workpieces (The direction of the shape of the workpiece is different from the direction of the cylinder shape)
本実施形態に係る学習装置1では、上記の学習続行不能状態に至る制御を予め学習することによって、ワーク形状と筒の形状を適切に認識することや、ワークを把持する際の向きについて予め学習することができる。これによって、最終段階の学習では、学習続行不能状態に至ることを避けることができるため、より学習の効率化を図ることができる。すなわち、学習目的達成までに要する時間をより短縮することができる。
その他の構成は第1実施形態と同様である。
In the
Other configurations are the same as those of the first embodiment.
以上、本発明の一実施形態について説明した。なお、本実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。また、本発明は、その趣旨を逸脱することなく、変更ないし改良され得るものである。例えば、上述の処理フローにおける各ステップは処理内容に矛盾を生じない範囲で各ステップの一部を省略したり、各処理ステップの順番を任意に変更して又は並列に実行することができる。 The embodiment of the present invention has been described above. Note that this embodiment is intended to facilitate understanding of the present invention and is not intended to limit the present invention. The present invention can be changed or improved without departing from the spirit of the present invention. For example, each step in the above-described processing flow can be executed in parallel, with some of the steps omitted in a range where no contradiction occurs in the processing content, or the order of the processing steps is arbitrarily changed.
上述の実施形態では、本発明に係るシステムを利用して、深層学習などのAI技術によって機械が獲得した能力の管理を行う例について説明したが、本発明はこれに限定されず、幅広い分野に適用することができる。例えば、製品の良品と不良品の識別、食品、機械部品、化学製品、薬品などのさまざまな工業分野、漁業分野、農業分野、林業分野、サービス業、医療や健康分野に適用することができる。また、組込分野の製品にAI技術を適用する場合や社会システム等のIT技術を活用したシステム、ビッグデータの分析、幅広い制御装置における分類処理等に本発明を適用してもよい。 In the above-described embodiment, the example in which the ability acquired by the machine is managed by the AI technology such as deep learning using the system according to the present invention has been described. However, the present invention is not limited to this and is applied to a wide range of fields. Can be applied. For example, the present invention can be applied to various industrial fields such as identification of good and defective products, food products, machine parts, chemical products, and pharmaceuticals, fishery fields, agricultural fields, forestry fields, service industries, medical care, and health fields. Further, the present invention may be applied to a case where AI technology is applied to products in the embedded field, a system utilizing IT technology such as a social system, analysis of big data, classification processing in a wide range of control devices, and the like.
なお、本明細書において、「部」や「手段」、「手順」とは、単に物理的構成を意味するものではなく、その「部」が行う処理をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「手順」や装置が行う処理が2つ以上の物理的構成や装置により実行されても、2つ以上の「部」や「手順」、装置が行う処理が1つの物理的手段や装置により実行されてもよい。 In this specification, “unit”, “means”, and “procedure” do not simply mean a physical configuration, but also include a case where processing performed by the “unit” is realized by software. In addition, even if one “unit”, “means”, “procedure”, or processing performed by an apparatus is executed by two or more physical configurations or apparatuses, two or more “parts”, “procedures”, and apparatuses The processing to be performed may be executed by one physical means or apparatus.
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
少なくとも1つのハードウェアプロセッサを備え、
前記ハードウェアプロセッサは、
学習目的を含む学習データを受け付け、
前記学習データに基づいて、学習を実行し、
前記ニューラルネットワークによる学習結果を出力し、
前記学習を実行することは、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行することを含む。
(付記2)
少なくとも1つ以上のハードウェアプロセッサによって、
学習を行うステップであって、
学習目的を含む学習データを受け付けるステップと、
前記学習データに基づいて、学習を実行するステップと、
前記ニューラルネットワークによる学習結果を出力するステップと、
を実行し、
前記学習を実行するステップは、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、ステップを含む、学習方法。
Moreover, although a part or all of said embodiment may be described also as the following additional remarks, it is not restricted to the following.
(Appendix 1)
Comprising at least one hardware processor;
The hardware processor is
Accept learning data including learning purpose,
Performing learning based on the learning data;
Output the learning result by the neural network,
Performing the learning includes
The first learning for achieving the initial stage of the learning purpose is executed, and the second learning for learning the control to the state where the operation related to the learning cannot be continued is executed based on the result of the first learning Then, based on the result of the second learning, the third learning for achieving the learning purpose is performed by excluding the control that reaches the state where the continuation becomes impossible.
(Appendix 2)
By at least one or more hardware processors,
A step of learning,
Accepting learning data including learning objectives;
Performing learning based on the learning data;
Outputting a learning result by the neural network;
Run
The step of performing the learning includes:
The first learning for achieving the initial stage of the learning purpose is executed, and the second learning for learning the control to the state where the operation related to the learning cannot be continued is executed based on the result of the first learning Then, based on the result of the second learning, a learning method including a step of performing the third learning for achieving the learning purpose by excluding the control to reach the state where it is impossible to continue.
1 学習装置
10 制御部
20 機械学習部
21 学習データ入出力部
22 ニューラルネットワーク
23 学習結果出力部
30 動作分類部
31 制御データ抽出部
32 動作分類結果抽出部
40 記憶部
90 自動走行制御車両
91 制御用センサ
92 アクチュエータ
93 状態検知用センサ
DESCRIPTION OF
Claims (8)
学習目的を含む学習データを受け付ける学習データ受付部と、
前記学習データに基づいて、学習を実行するニューラルネットワークと、
前記ニューラルネットワークによる学習結果を出力する出力部と、
を備え、
前記ニューラルネットワークは、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、
学習装置。 A learning device that learns control of operations related to a predetermined task,
A learning data receiving unit for receiving learning data including a learning purpose;
A neural network for performing learning based on the learning data;
An output unit for outputting a learning result by the neural network;
With
The neural network is
The first learning for achieving the initial stage of the learning purpose is executed, and the second learning for learning the control to the state where the operation related to the learning cannot be continued is executed based on the result of the first learning Then, based on the result of the second learning, the third learning for achieving the learning purpose is performed by excluding the control that reaches the state where the continuation is impossible.
Learning device.
前記第2学習の結果を出力する、
請求項1に記載の学習装置。 The output unit is
Outputting the result of the second learning;
The learning device according to claim 1.
所定のタスクに係る一連の動作の制御を学習する学習装置であって、
前記タスクを複数の場面に分割し、分割された前記場面それぞれにおいて、前記一連の動作のうち当該場面において行われる部分動作を特定する分類部をさらに備え、
前記ニューラルネットワークは、前記第2学習及び前記第3学習を、前記部分動作ごとに実行する、
請求項1に記載の学習装置。 The learning device
A learning device for learning control of a series of operations related to a predetermined task,
The task is further divided into a plurality of scenes, and each of the divided scenes further includes a classification unit that identifies a partial action performed in the scene among the series of actions,
The neural network performs the second learning and the third learning for each partial operation.
The learning device according to claim 1.
前記コースを所定時間以内に所定の回数周回することを目的とする学習目的を含む学習データを受け付ける学習データ受付部と、
前記学習データに基づいて、学習を実行するニューラルネットワークと、
前記ニューラルネットワークによる学習結果を出力する出力部と、
を備え、
前記ニューラルネットワークは、
前記コースを1周できることを達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作が続行不能となる状態に至る制御を学習する第2学習を実行し、当該第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、
自動走行制御学習装置。 An automatic traveling control learning device that learns control about a series of operations related to automatic traveling of a vehicle that circulates a predetermined course,
A learning data receiving unit for receiving learning data including a learning purpose for the purpose of circulating the course a predetermined number of times within a predetermined time;
A neural network for performing learning based on the learning data;
An output unit for outputting a learning result by the neural network;
With
The neural network is
The first learning is performed to achieve the ability to make one round of the course, and the second learning is performed to learn the control to reach a state where the operation related to the learning cannot be continued based on the result of the first learning. Then, based on the result of the second learning, the third learning for achieving the learning purpose is performed by excluding the control to reach the state where the continuation is impossible.
Automatic travel control learning device.
所定時間以内に前記ワークを所定の個数、前記載置場所に積み上げることを目的とする学習目的を含む学習データを受け付ける学習データ受付部と、
前記学習データに基づいて、学習を実行するニューラルネットワークと、
前記ニューラルネットワークによる学習結果を出力する出力部と、
を備え、
前記ニューラルネットワークは、
前記ワークを1つ前記載置場所に積むことを達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作が続行不能となる状態に至る制御を学習する第2学習を実行し、当該第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、
ロボット制御学習装置。 A robot control learning device that learns control about a series of operations related to a task of gripping a predetermined workpiece and stacking it on a placement place corresponding to the shape of the workpiece,
A learning data receiving unit for receiving learning data including a learning purpose for the purpose of accumulating a predetermined number of the workpieces within the predetermined time within a predetermined time;
A neural network for performing learning based on the learning data;
An output unit for outputting a learning result by the neural network;
With
The neural network is
Execute first learning to achieve loading the work in the previous place, and learn control based on the result of the first learning to reach a state where the operation related to the learning cannot be continued. Performing the second learning to perform, and based on the result of the second learning, to perform the third learning for achieving the learning purpose by excluding the control to reach the state where it is impossible to continue,
Robot control learning device.
前記制御部が、
学習目的を含む学習データを受け付けるステップと、
前記学習データに基づいて、学習を実行するステップと、
前記学習を実行するステップによる学習結果を出力するステップと、
を実行し、
前記学習を実行するステップは、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、ステップを含む、
学習方法。 A learning method for learning control of an operation related to a predetermined task, which is executed by a computer including a control unit,
The control unit is
Accepting learning data including learning objectives;
Performing learning based on the learning data;
Outputting a learning result obtained by executing the learning;
Run
The step of performing the learning includes:
The first learning for achieving the initial stage of the learning purpose is executed, and the second learning for learning the control to the state where the operation related to the learning cannot be continued is executed based on the result of the first learning And, based on the result of the second learning, including the step of performing the third learning for achieving the learning purpose by excluding the control that leads to the state where the continuation becomes impossible,
Learning method.
学習目的を含む学習データを受け付ける手順、
前記学習データに基づいて、学習を実行する手順、及び
前記学習を実行する手段による学習結果を出力する手順、
を実行させ、
前記学習を実行する手順は、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、手順を含む、
プログラム。 A computer that learns the control of operations related to a given task.
Procedures for accepting learning data including learning objectives,
A procedure for performing learning based on the learning data, and a procedure for outputting a learning result by the means for performing learning;
And execute
The procedure for performing the learning is as follows:
The first learning for achieving the initial stage of the learning purpose is executed, and the second learning for learning the control to the state where the operation related to the learning cannot be continued is executed based on the result of the first learning And, based on the result of the second learning, including the procedure of performing the third learning for achieving the learning purpose by excluding the control that reaches the state where the continuation is impossible.
program.
前記装置がタスクを実行するための動作に必要な情報をセンシングする第1センサと、
アクチュエータと、
前記アクチュエータによる前記装置の状態変化をセンシングする第2センサと、
前記第1センサ及び前記第2センサから出力されるセンサ値に基づいて前記アクチュエータを制御する制御部と、
請求項1乃至3のいずれか一項に記載された学習装置によって行われた学習結果を記憶する記憶部と、
を備え、
前記制御部は、
前記記憶部に記憶された前記学習結果に基づいて、前記第1センサ及び前記第2センサから出力されるセンサ値に応じた制御量を決定する、
装置。 An apparatus for performing a predetermined task,
A first sensor that senses information necessary for the device to perform a task;
An actuator,
A second sensor for sensing a change in state of the device by the actuator;
A control unit for controlling the actuator based on sensor values output from the first sensor and the second sensor;
A storage unit for storing a learning result performed by the learning device according to any one of claims 1 to 3;
With
The controller is
Based on the learning result stored in the storage unit, a control amount corresponding to a sensor value output from the first sensor and the second sensor is determined.
apparatus.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017104523A JP6863081B2 (en) | 2017-05-26 | 2017-05-26 | Learning device, learning control method, and its program |
PCT/JP2018/018142 WO2018216493A1 (en) | 2017-05-26 | 2018-05-10 | Learning apparatus, learning control method, and program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017104523A JP6863081B2 (en) | 2017-05-26 | 2017-05-26 | Learning device, learning control method, and its program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018200537A true JP2018200537A (en) | 2018-12-20 |
JP6863081B2 JP6863081B2 (en) | 2021-04-21 |
Family
ID=62386890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017104523A Active JP6863081B2 (en) | 2017-05-26 | 2017-05-26 | Learning device, learning control method, and its program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6863081B2 (en) |
WO (1) | WO2018216493A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109884886B (en) * | 2019-03-29 | 2021-09-28 | 大连海事大学 | Ship motion model-free adaptive optimal control method based on width learning |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05119815A (en) * | 1991-10-28 | 1993-05-18 | Toshiba Corp | Obstacle avoiding method using neural network |
JPH0660300A (en) * | 1992-08-04 | 1994-03-04 | Takata Kk | Collision prevention and prediction system by neural network |
JP2004017256A (en) * | 2002-06-19 | 2004-01-22 | Toyota Motor Corp | Device and method for controlling robot coexisting with human being |
US20150127155A1 (en) * | 2011-06-02 | 2015-05-07 | Brain Corporation | Apparatus and methods for operating robotic devices using selective state space training |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3433465B2 (en) | 1993-04-02 | 2003-08-04 | 日本電信電話株式会社 | Robot learning control method |
US9015093B1 (en) * | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
-
2017
- 2017-05-26 JP JP2017104523A patent/JP6863081B2/en active Active
-
2018
- 2018-05-10 WO PCT/JP2018/018142 patent/WO2018216493A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05119815A (en) * | 1991-10-28 | 1993-05-18 | Toshiba Corp | Obstacle avoiding method using neural network |
JPH0660300A (en) * | 1992-08-04 | 1994-03-04 | Takata Kk | Collision prevention and prediction system by neural network |
JP2004017256A (en) * | 2002-06-19 | 2004-01-22 | Toyota Motor Corp | Device and method for controlling robot coexisting with human being |
US20150127155A1 (en) * | 2011-06-02 | 2015-05-07 | Brain Corporation | Apparatus and methods for operating robotic devices using selective state space training |
Non-Patent Citations (1)
Title |
---|
近藤 敏之 TOSHIYUKI KONDO: "拘束ルール抽出機構を用いた自律移動ロボットの段階的行動学習 An Incremental Behavior Learning Using C", 計測自動制御学会論文集 第40巻 第3号 TRANSACTIONS OF THE SOCIETY OF INSTRUMENT AND CONTROL ENGI, vol. 第40巻, JPN6021006713, JP, ISSN: 0004455901 * |
Also Published As
Publication number | Publication date |
---|---|
JP6863081B2 (en) | 2021-04-21 |
WO2018216493A1 (en) | 2018-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11331800B2 (en) | Adaptive predictor apparatus and methods | |
US10293483B2 (en) | Apparatus and methods for training path navigation by robots | |
JP7091820B2 (en) | Control system, learning data creation device, learning device and judgment device | |
CN115003460A (en) | Robot configuration in a multi-robot operating environment | |
WO2020069379A1 (en) | Training a deep neural network model to generate rich object-centric embeddings of robotic vision data | |
Majewski et al. | Conceptual design of innovative speech interfaces with augmented reality and interactive systems for controlling loader cranes | |
JP2018200539A (en) | Learning device, learning control method, and its program | |
WO2023192497A1 (en) | Natural language control of a robot | |
JP2018200537A (en) | Learning device, learning control method, and its program | |
US20220410391A1 (en) | Sensor-based construction of complex scenes for autonomous machines | |
US20230330858A1 (en) | Fine-grained industrial robotic assemblies | |
JP6978722B2 (en) | Learning device, learning control method, and its program | |
CN101645169A (en) | Robot vision matching method based on quantum and quantum particle swarm optimization | |
Duan et al. | HRC for dual-robot intelligent assembly system based on multimodal perception | |
CN116803631A (en) | Autonomous system and method performed by an autonomous system | |
Eiband et al. | Intuitive programming of conditional tasks by demonstration of multiple solutions | |
US20220402121A1 (en) | Control and monitoring of a machine arrangement | |
US11285604B2 (en) | Robot collision detection using cascading variational autoencoder | |
CN115398352A (en) | Robotic process | |
CN112230618A (en) | Method for automatically synthesizing multi-robot distributed controller from global task | |
KR102494084B1 (en) | Multi-agent reinforcement learning system and method | |
Lim et al. | Skill-based anytime agent architecture for European Robotics Challenges in realistic environments: EuRoC Challenge 2, Stage II—realistic labs | |
CN117656049A (en) | Workpiece stirring method, device, equipment and storage medium | |
Sugiura et al. | Exploiting interaction between sensory morphology and learning | |
CN117657755A (en) | Workpiece grabbing system and robot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210302 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6863081 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |