JP6863081B2 - Learning device, learning control method, and its program - Google Patents
Learning device, learning control method, and its program Download PDFInfo
- Publication number
- JP6863081B2 JP6863081B2 JP2017104523A JP2017104523A JP6863081B2 JP 6863081 B2 JP6863081 B2 JP 6863081B2 JP 2017104523 A JP2017104523 A JP 2017104523A JP 2017104523 A JP2017104523 A JP 2017104523A JP 6863081 B2 JP6863081 B2 JP 6863081B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- control
- result
- executed
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 44
- 230000033001 locomotion Effects 0.000 claims description 61
- 238000013528 artificial neural network Methods 0.000 claims description 43
- 238000003860 storage Methods 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 239000013598 vector Substances 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 9
- 230000001133 acceleration Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013075 data extraction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004904 shortening Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0062—Adapting control system settings
- B60W2050/0075—Automatic parameter input, automatic initialising or calibrating means
- B60W2050/0083—Setting, resetting, calibration
- B60W2050/0088—Adaptive recalibration
Description
本発明は、学習装置、学習制御方法、及びそのプログラムに関する。 The present invention relates to a learning device, a learning control method, and a program thereof.
従来から、ニューラルネットワークなどの人工知能技術(以下、「AI技術」という。)に関する研究が、幅広く行われている(例えば、特許文献1参照)。特に、深層学習(Deep Learning)と呼ばれるAI技術の台頭により、例えば画像による対象物の認識技術は、ここ数年で認識率が急速に向上し、画像の分類については人の認識率を超えるレベルに到達しつつある。深層学習の技術は、画像の認識のみではなく、音声認識、個人認証、行動予測、文章の要約、自動翻訳、監視、自動運転、故障予測、センサデータの分析、楽曲のジャンル判定、コンテンツ生成、セキュリティシステム、その他幅広い分野への応用が期待されている。 Conventionally, research on artificial intelligence technology such as neural networks (hereinafter referred to as "AI technology") has been widely conducted (see, for example, Patent Document 1). In particular, with the rise of AI technology called deep learning, for example, the recognition rate of object recognition technology using images has improved rapidly in the last few years, and the level of image classification exceeds the human recognition rate. Is reaching. Deep learning technology is not limited to image recognition, but also voice recognition, personal authentication, behavior prediction, sentence summarization, automatic translation, monitoring, automatic driving, failure prediction, sensor data analysis, song genre judgment, content generation, It is expected to be applied to security systems and a wide range of other fields.
深層学習などの機械学習においては、機械に学習を実施させて所定の能力を獲得させることができる。このとき、機械学習を行う学習装置では、所定の能力を獲得するまで、学習する動作を繰り返し実行する。 In machine learning such as deep learning, it is possible to have a machine perform learning to acquire a predetermined ability. At this time, the learning device that performs machine learning repeatedly executes the learning operation until a predetermined ability is acquired.
例えば、特許文献1には、ロボットの学習制御方法について開示されている。特許文献1に記載の学習制御方法においては、人が予め設定したロボット動作の目標となる目標軌道と、ロボットが実際に動作した場合の実軌道との間に生じる誤差に基づき、ロボットの駆動部へ供給する入力値を修正する。
For example,
自動車のエンジンや走行の制御、あるいは化学プラント等の、数多くのセンサ情報に基づいてアクチュエータを制御するような学習装置においては、制御とセンサ情報の出力とが互いに影響を与えるため、制御方法を獲得するために、より複雑な学習を行う必要がある。したがって、このような複雑な学習を行う学習装置において、特許文献1のように、人が予め制御量の目標値を設定することは容易ではない。他方で、目標値を設定せずに学習装置に学習を行わせた場合、非常に多くのトライエラーを繰り返す必要があり、効率が悪い。
In learning devices that control actuators based on a large amount of sensor information, such as automobile engine and running control, or chemical plants, control and sensor information output affect each other, so a control method is acquired. In order to do so, we need to do more complicated learning. Therefore, in a learning device that performs such complicated learning, it is not easy for a person to set a target value of a controlled amount in advance as in
そこで、本発明は、人の手を介さずに、学習装置が学習目的を達成するのに要する時間を短縮するための技術を提供することを目的とする。 Therefore, an object of the present invention is to provide a technique for shortening the time required for a learning device to achieve a learning purpose without human intervention.
本発明の一側面に係る学習装置は、所定のタスクに係る動作の制御を学習する学習装置であって、学習目的を含む学習データを受け付ける学習データ受付部と、学習データに基づいて、学習を実行するニューラルネットワークと、ニューラルネットワークによる学習結果を出力する出力部と、を備え、ニューラルネットワークは、学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、第2学習の結果に基づいて、続行不能となる状態に至る制御を除外して学習目的を達成するための第3学習を実行する。 The learning device according to one aspect of the present invention is a learning device that learns the control of movements related to a predetermined task, and learns based on a learning data receiving unit that receives learning data including a learning purpose and learning data. A neural network to be executed and an output unit for outputting the learning result by the neural network are provided, and the neural network executes the first learning for achieving the initial stage of the learning purpose and is based on the result of the first learning. Then, the second learning is executed to learn the control that leads to the state in which the operation related to learning cannot be continued, and based on the result of the second learning, the control that leads to the state in which the learning cannot be continued is excluded and the learning purpose is achieved. Perform the third learning to do.
上記構成によれば、学習目的を達成するための第3学習の前に、学習に係る動作を続行不能となる状態に至る制御の学習がなされる。これによって、人によって制御動作を制限する条件が与えられることなしに、装置自らが続行不能状態に至る制御を除外して学習を行うことができるため、より短期間で学習目的を達成することができる。 According to the above configuration, before the third learning for achieving the learning purpose, the control learning to reach a state in which the operation related to the learning cannot be continued is performed. As a result, the learning purpose can be achieved in a shorter period of time because the learning can be performed excluding the control that leads to the inability to continue the device itself without giving the condition for restricting the control operation by a person. it can.
また、出力部は、第2学習の結果を出力してもよい。この態様によると、続行不能状態に至る制御の学習結果を、ほかの学習装置においても活用することができる。 Further, the output unit may output the result of the second learning. According to this aspect, the learning result of the control leading to the non-continuation state can be utilized in other learning devices.
また、学習装置は、所定のタスクに係る一連の動作の制御を学習する学習装置であって、タスクを複数の場面に分割し、分割された場面それぞれにおいて、一連の動作のうち当該場面において行われる部分動作を特定する分類部をさらに備え、ニューラルネットワークは、第2学習及び第3学習を、部分動作ごとに実行してもよい。 Further, the learning device is a learning device that learns the control of a series of movements related to a predetermined task. The task is divided into a plurality of scenes, and in each of the divided scenes, a line in the series of movements is performed. The neural network may execute the second learning and the third learning for each partial motion, further including a classification unit for specifying the partial motion.
この態様によると、学習装置は、学習に係る動作を、場面に応じてより小さな単位である部分動作に分類し、分類した部分動作ごとに学習することができる。これによって、よりより短期間で学習目的を達成することができる。 According to this aspect, the learning device can classify the movements related to learning into partial movements, which are smaller units according to the scene, and can learn each of the classified partial movements. As a result, the learning purpose can be achieved in a shorter period of time.
本発明の一側面に係る自動走行制御学習装置は、所定のコースを周回する車両の自動走行に係る一連の動作について制御を学習する自動走行制御学習装置であって、コースを所定時間以内に所定の回数周回することを目的とする学習目的を含む学習データを受け付ける学習データ受付部と、学習データに基づいて、学習を実行するニューラルネットワークと、ニューラルネットワークによる学習結果を出力する出力部と、を備え、ニューラルネットワークは、コースを1周できることを達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習に係る動作が続行不能となる状態に至る制御を学習する第2学習を実行し、当該第2学習の結果に基づいて、続行不能となる状態に至る制御を除外して学習目的を達成するための第3学習を実行する。 The automatic running control learning device according to one aspect of the present invention is an automatic running control learning device that learns control about a series of operations related to automatic running of a vehicle orbiting a predetermined course, and determines the course within a predetermined time. A learning data receiving unit that receives learning data including a learning purpose for the purpose of orbiting the number of times, a neural network that executes learning based on the learning data, and an output unit that outputs learning results by the neural network. In preparation, the neural network executes the first learning to achieve the ability to go around the course, and based on the result of the first learning, learns the control to reach the state where the operation related to the learning cannot be continued. 2 Learning is executed, and based on the result of the second learning, the third learning for achieving the learning purpose is executed by excluding the control leading to the state of being unable to continue.
また、本発明の一側面に係るロボット制御学習装置は、所定のワークを把持して、当該ワークの形状に応じた載置場所に積み上げるタスクに係る一連の動作について制御を学習するロボット制御学習装置であって、所定時間以内にワークを所定の個数、載置場所に積み上げることを目的とする学習目的を含む学習データを受け付ける学習データ受付部と、学習データに基づいて、学習を実行するニューラルネットワークと、ニューラルネットワークによる学習結果を出力する出力部と、を備え、ニューラルネットワークは、ワークを1つ前記載置場所に積むことを達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習に係る動作が続行不能となる状態に至る制御を学習する第2学習を実行し、当該第2学習の結果に基づいて、続行不能となる状態に至る制御を除外して学習目的を達成するための第3学習を実行する。 Further, the robot control learning device according to one aspect of the present invention is a robot control learning device that learns control about a series of operations related to a task of grasping a predetermined work and stacking it in a mounting place according to the shape of the work. A learning data reception unit that accepts learning data including a learning purpose for the purpose of stacking a predetermined number of works in a predetermined number of places within a predetermined time, and a neural network that executes learning based on the learning data. And an output unit that outputs the learning result by the neural network, the neural network executes the first learning to achieve stacking the work in the previously described place, and the result of the first learning. Based on the above, the second learning is executed to learn the control that leads to the state in which the operation related to learning cannot be continued, and based on the result of the second learning, the control that leads to the state in which the learning cannot be continued is excluded and learned. Perform the third learning to achieve the purpose.
また、本発明の一側面に係る学習方法は、制御部を備えるコンピュータが実行する、所定のタスクに係る動作の制御を学習する学習方法であって、制御部が、学習目的を含む学習データを受け付けるステップと、学習データに基づいて、学習を実行するステップと、学習を実行するステップによる学習結果を出力するステップと、を実行し、学習を実行するステップは、学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、第2学習の結果に基づいて、続行不能となる状態に至る制御を除外して学習目的を達成するための第3学習を実行する、ステップを含む、学習方法。 Further, the learning method according to one aspect of the present invention is a learning method for learning the control of an operation related to a predetermined task executed by a computer provided with a control unit, and the control unit receives learning data including a learning purpose. The step of executing the learning, the step of executing the learning based on the learning data, the step of outputting the learning result by the step of executing the learning, and the step of executing the learning achieve the initial stage of the learning purpose. The first learning for learning is executed, and based on the result of the first learning, the second learning that learns the control to reach the state where the operation related to the learning cannot be continued is executed, and based on the result of the second learning. A learning method that includes a step of performing a third learning to achieve a learning objective, excluding control leading to a state of being unable to continue.
本発明の一側面に係るプログラムは、所定のタスクに係る動作の制御を学習するコンピュータに、学習目的を含む学習データを受け付ける手順、学習データに基づいて、学習を実行する手順、及び学習を実行する手順による学習結果を出力する手順、を実行させ、学習を実行する手順は、学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、第2学習の結果に基づいて、続行不能となる状態に至る制御を除外して学習目的を達成するための第3学習を実行する、手順を含む、プログラム。 The program according to one aspect of the present invention includes a procedure for receiving learning data including a learning purpose, a procedure for executing learning based on the learning data, and a procedure for executing learning on a computer that learns the control of an operation related to a predetermined task. The procedure for outputting the learning result according to the procedure to be performed is to execute the first learning for achieving the initial stage of the learning purpose, and based on the result of the first learning, the learning is performed. The second learning is executed to learn the control leading to the state in which the operation cannot be continued, and based on the result of the second learning, the control leading to the state in which the operation cannot be continued is excluded to achieve the learning purpose. 3 A program that includes procedures to perform learning.
また、本発明の一側面に係る装置は、所定のタスクを実行する装置であって、装置がタスクを実行するための動作に必要な情報をセンシングする第1センサと、アクチュエータと、アクチュエータによる装置の状態変化をセンシングする第2センサと、第1センサ及び第2センサから出力されるセンサ値に基づいてアクチュエータを制御する制御部と、上記の学習装置によって行われた学習結果を記憶する記憶部と、を備え、制御部は、記憶部に記憶された学習結果に基づいて、第1センサ及び第2センサから出力されるセンサ値に応じた制御量を決定する、装置。 Further, the device according to one aspect of the present invention is a device that executes a predetermined task, and is a first sensor that senses information necessary for the device to perform an operation for executing the task, an actuator, and a device using the actuator. A second sensor that senses the state change of the above, a control unit that controls the actuator based on the sensor values output from the first sensor and the second sensor, and a storage unit that stores the learning result performed by the above learning device. The control unit determines the control amount according to the sensor values output from the first sensor and the second sensor based on the learning result stored in the storage unit.
本発明によれば、人の手を介さずに、学習装置が学習目的を達成するのに要する時間を短縮するための技術を提供することができる。 According to the present invention, it is possible to provide a technique for shortening the time required for a learning device to achieve a learning object without human intervention.
[第1実施形態]
以下、図面を参照して本発明の実施形態について詳細に説明する。なお、同一の要素には同一の符号を付し、重複する説明を省略する。また、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。さらに、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。
[First Embodiment]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The same elements are designated by the same reference numerals, and duplicate description will be omitted. Further, the following embodiments are examples for explaining the present invention, and the present invention is not intended to be limited only to the embodiments thereof. Furthermore, the present invention can be modified in various ways as long as it does not deviate from the gist thereof.
<1.システム概要>
図1乃至図3を参照して本実施形態におけるシステムの概要について説明する。
図1は、本実施形態に係る学習装置1の概略構成を示すブロック図である。学習装置1は、所定のタスクを学習するものである。本実施形態に係る学習装置1は,一例として自動走行制御車両(以下、単に「車両」ともいう。)90に搭載され、所定のコース(図2参照)を自動走行するための車両90の制御を学習する。このとき学習装置1には、例えばオペレータ等から学習データが与えられる。学習データは、例えば次のような学習目的と学習要件を含むデータである。
<1. System overview>
The outline of the system in this embodiment will be described with reference to FIGS. 1 to 3.
FIG. 1 is a block diagram showing a schematic configuration of the
(学習目的)
・所定時間以内にコースを10周してゴールする。
(学習要件)
・コースアウトしない
・周回方向は時計回り
・ゴールする
・初期段階レベルでは「コースを1周してゴールする」
(Learning purpose)
・ Complete 10 laps of the course within the specified time to reach the goal.
(Learning requirements)
・ Do not go out of the course ・ Clockwise in the lap direction ・ Goal ・ At the initial stage level, “Go around the course once”
なお、タスクは、学習に係る動作(本実施形態での「学習に係る動作」は、車両90の自動走行に必要な各種制御である。なお、当該各種制御によって車両90が実行する動作と考えてもよい。)で達成したいことであり、本実施形態ではコースを周回することである。また、学習目的はタスクが達成すべき水準であり、本実施形態では、上記のとおり「所定時間以内にコースを10周してゴールすること」である。そうすると、本実施形態では、初期段階レベルの学習では、タスクが行えるようになることが、学習要件として与えられているとも考えられる。
The task is an operation related to learning (the "operation related to learning" in the present embodiment is various controls required for automatic traveling of the
また、以下の説明では、学習装置1はPC(Personal Computer)やサーバ装置などのコンピュータによって構成されるものとして説明するが、これに限定されず、例えば、プロセッサ、RAM、ROMを有する任意の組込装置によって実現されてもよい。また、各装置において実装される構成はソフトウェアによって実現される構成に限定されない。各装置に含まれる任意の構成は、ハードウェアによって実現される構成でもよい。例えば後述するニューラルネットワーク22はカスタムLSI(Large-Scale Integration)やFPGA(Field-Programmable Gate Array)等の電子回路によって構成されてもよい。
Further, in the following description, the
図1に示すように、学習装置1は、制御部10と、機械学習部20と、動作分類部30と、記憶部40とを有している。
As shown in FIG. 1, the
制御部10は、車両90において、学習装置1外に設けられた制御用センサ91、アクチュエータ92、状態検知用センサ93と接続されている。制御部10は、制御用センサ91、及び状態検知用センサ93からの出力に応じて、アクチュエータ92を制御して、車両90の自動走行を実施する。
The
制御用センサ91は、車両90の自動走行制御を行うためのセンサ群である。例えば制御用センサ91は、車載カメラやレーザ等の車外障害物検出センサ、路面状態検出センサ等から構成される。他方で、状態検知用センサ93は、自動走行している車両90の制御状態を検出するセンサ群である。例えば状態検知用センサ93は、振動センサや騒音センサ、燃料消費量検出センサ、車速センサ、加速度センサ、ヨーレートセンサ等から構成される。
The
アクチュエータ92は、車両90を自動走行させるために制御部10によって制御される。アクチュエータ92は、例えばアクセルアクチュエータ、ブレーキアクチュエータ、及び操舵アクチュエータ等から構成される。アクセルアクチュエータは、制御部10からの制御信号に応じてスロットル開度を制御することによって車両の駆動力を制御する。ブレーキアクチュエータは、制御部10からの制御信号に応じてブレーキペダルの操作量を制御することにより、車両の車輪に対する制動力の制御を行う。操舵アクチュエータは、制御部10からの制御信号に応じて電動パワーステアリングシステムの操舵アシストモータの駆動を制御して、車両の操舵作用の制御を行う。
The
次に、図3を参照して学習装置1が学習を行う手順を大まかに説明する。なお、各ステップの処理の詳細については、後述する。図3は、学習装置1が学習を行う際の、処理フローの概略を示すフローチャートである。まず、学習初期段階(S1)として、タスクが行えるようになること(すなわち初期段階の学習要件を満たした動作ができるようになること)を目的に学習が行われる。本実施形態における学習装置1は、初期段階としては、「コースを1周してゴールすること」が学習要件として与えられている。
Next, the procedure for the
初期段階レベルの目的をクリアすると、次に動作の分類(S2)が行われる。この段階では、S1の学習初期段階で行った学習内容を解析することにより、タスクを所定のパラメータに基づいて複数に分割(以下では、分割されたタスクを「場面」ともいう。)し、分割された場面それぞれにおいて、タスクに係る一連の動作のうち当該場面において行われる動作(以下、「部分動作」ともいう。)を特定する処理が行われる。タスクを分割する所定のパラメータは、例えばタスクの学習中に係る動作の変位量や、タスクの学習中に係る動作を実行する環境(タスクの開始時点からの経過時間や、タスクの開始場所からの位置等)である。本実施形態では、所定のパラメータとして、タスクの開始場所からの位置(タスクの学習中に係る動作を実行する環境)を用いる。すなわち、本実施形態では、学習装置1は、コース上の位置に基づいて、タスクを場面に分割し、分割した場面に対応するコース単位で行われる動作に基づいて、学習に係る一連の動作が場面に分類される。場面に応じて分類された部分動作単位で学習を行うことで、学習の効率化を図ることができる。なお、本実施形態において、学習の効率化とは、例えば学習開始から学習目的の達成までの所要時間の短縮化を意味してもよい。
After clearing the purpose of the initial stage level, the operation classification (S2) is performed next. At this stage, by analyzing the learning content performed in the initial learning stage of S1, the task is divided into a plurality of parts based on a predetermined parameter (hereinafter, the divided task is also referred to as a "scene") and divided. In each of the performed scenes, a process for specifying an operation (hereinafter, also referred to as "partial operation") performed in the scene among a series of operations related to the task is performed. Predetermined parameters for dividing a task are, for example, the displacement amount of the operation related to the learning of the task, the environment for executing the operation related to the learning of the task (elapsed time from the start time of the task, and the start location of the task). Position, etc.). In the present embodiment, the position from the start location of the task (environment for executing the operation related to the learning of the task) is used as a predetermined parameter. That is, in the present embodiment, the
動作を分類すると、次のステップとして、分類した部分動作ごとに、学習続行不能状態に至る制御の学習(S3)が行われる。ここで、学習続行不能状態とは、タスクが続行不能になる状態をいう。例えば、学習装置1における学習が所定の装置の制御である場合には、制御対象となる所定の装置の動作が停止した場合や、所定の装置が故障して動作不能に陥った場合をいう。本実施形態では、学習続行不能状態とは、例えば、コースアウトする、壁等にクラッシュして動けなくなる、故障する等の状態である。学習続行不能状態に至る制御を予め学習することによって、のちのステップで最適な制御を学習するうえで、学習続行不能状態に陥ることを避けて学習を行うことができる。これによってより効率的に学習を行うことが可能になる。
When the movements are classified, as the next step, learning of control (S3) leading to a state in which learning cannot be continued is performed for each classified partial movement. Here, the learning continuation impossible state means a state in which the task cannot be continued. For example, when the learning in the
学習最終段階(S4)では、学習の最適化が行われる。この段階では、場面ごとに分類して学習した部分動作を組み合わせた上で、動作の開始から終了までを最適に行う学習が行われる。本実施形態では、最終段階の学習として、所定時間以内にコースを10周してゴールする学習が行われる。 At the final stage of learning (S4), learning is optimized. At this stage, learning is performed in which the partial movements learned by classifying each scene are combined, and then the movements are optimally performed from the start to the end. In the present embodiment, as the final stage of learning, learning to complete 10 laps of the course within a predetermined time is performed.
<2.詳細処理>
次に、図4乃至図8を参照して、各ステップにおける学習装置1の処理の詳細について説明する。図4は本実施形態に係る学習装置1の詳細な構成を示すブロック図である。図4に示すように、機械学習部20は、学習データ入出力部21と、ニューラルネットワーク22と、学習結果出力部23とから構成される。また、動作分類部30は、制御データ抽出部31と、動作分類結果抽出部32とから構成される。
以下では、図3のステップごとに、各部の処理の詳細について説明する。
<2. Detailed processing>
Next, the details of the processing of the
In the following, the details of the processing of each part will be described for each step of FIG.
(2−1.学習初期段階)
図5は、図3に示したS1の学習初期段階における詳細な処理フローを示すフローチャートである。まず、学習の初期段階(第1学習)において、学習データ入出力部21が学習データを受け付ける(S101)。学習データは、例えば上述した学習目的及び学習要件を含むデータである。
(2-1. Initial stage of learning)
FIG. 5 is a flowchart showing a detailed processing flow in the initial stage of learning of S1 shown in FIG. First, in the initial stage of learning (first learning), the learning data input /
次のステップ(S102)では、機械学習が行われる。本実施形態では、個々の制御動作を制限するための条件は予め指定されていないため、学習装置1自らが制御動作を学習することになる。具体的には、制御部10は、ランダムな制御量をアクチュエータ92に対して設定して動作させる。このとき車両90は当然コースに沿って走行することはできないので、コースアウト等をしながらでたらめな走行をすることになる。制御部10は、ランダムに与えた制御量に対する制御用センサ91及び状態検知用センサ93から出力(以下、「センサ値」ともいう。)を読み取り、これらのデータ(制御量及びセンサ値)を記憶部40に記憶させる。ニューラルネットワーク22は、記憶部40を参照して、記憶された制御量とセンサ値とを読み取り、学習要件に適応する制御動作をDeep Learningにより学習する(S102)。
In the next step (S102), machine learning is performed. In the present embodiment, since the conditions for limiting the individual control operations are not specified in advance, the
学習要件には、初期段階レベルの目的として、「コースを1周してゴールすること」が設定されている。したがって、学習装置1においては、例えば制御用センサ91からの出力に基づいてコースを1周してゴールしたと判断した時点で、機械学習が初期段階レベルに達したと判定し(S103:Y)、初期段階の学習を終了する。
In the learning requirements, "to go around the course and reach the goal" is set as the purpose of the initial stage level. Therefore, in the
(2−2.動作の分類)
図6は、図3に示したS2の動作の分類における詳細な処理フローを示すフローチャートである。まず、動作の分類処理を行うに当たり、制御データ抽出部31が学習初期段階終了時点における、制御用センサ91のセンサ値と、これに対するアクチュエータ92の制御量及び状態検知用センサ93のセンサ値とを記憶部40から抽出する(S201)。制御データ抽出部31は、抽出した各値をニューラルネットワーク22に対して学習データとして入力する。
(2-2. Classification of movement)
FIG. 6 is a flowchart showing a detailed processing flow in the operation classification of S2 shown in FIG. First, in performing the motion classification process, the control
次に、ニューラルネットワーク22は、制御データ抽出部31により入力された学習データに基づいて、機械学習を行う(S202)。このとき、ニューラルネットワーク22では、周回動作を所定の個数に分割された場面に分類する。
Next, the
ニューラルネットワーク22による周回動作の場面への分類処理についてより詳細に説明する。ニューラルネットワーク22は、周回動作の場面への分類を場面ベクトルと動作ベクトルとに基づいて行う。場面ベクトルは、車両90が行うタスクの場面を表す。場面ベクトルは、例えば、制御用センサ91が出力するセンサ値(例えばスタート地点からの位置(又は距離)、及びスタート地点からの方向)から取得される。一例として、スタート地点を原点とするx、y座標を想定した場合、地点lにおける場面ベクトルは、(lx、y)で表すことが可能である。
The classification process of the
他方、動作ベクトルは、走行する車両90の制御状態を表す。動作ベクトルは、例えば状態検知用センサ93が出力するセンサ値(例えば速度や加速度、角速度、角加速度等である)から取得される。一例として、ある地点lでの動作ベクトルは、当該地点lでの速度v、加速度aを用いて(vl、al)で表される。
On the other hand, the motion vector represents the control state of the traveling
ニューラルネットワーク22は、場面ベクトル(lx、y)に基づいて、タスクを場面に分割し、動作ベクトル(vl、al)に基づいて、分割した場面ごとに当該場面で学習すべき動作の分類を学習する。これによって、学習装置1は、自身が今どの場面にいるかを判定することで、場面に応じた部分動作を学習することができる。一例としてニューラルネットワーク22は、場面ベクトルが表す位置に加え、動作ベクトルの変化点に着目することで、車両90の動作の加速・減速・方向転換等を把握し、当該変化点に基づいて、一連の動作を場面に応じた動作に分類することができる。また、例えばニューラルネットワーク22は、動作ベクトルの類似度に基づいて、動作の分類を学習することも可能である。
The
図2に示したコースの例では、タスクは、ア〜オの5つのコースに応じた場面に分割される。各場面に分類される部分動作は例えば以下のとおりである。
場面ア:第1ストレート部分動作(例えば次の第1コーナーに差し掛かる際の減速のタイミングや走行位置等の制御である。)
場面イ:第1コーナー部分動作(例えばコーナーでのハンドル操作や、第2ストレートへ進入するに際した加速のタイミング等の制御である。)
場面ウ:第2ストレート部分動作(例えば次の第2コーナーに差し掛かる際の減速のタイミングや走行位置等の制御である。)
場面エ:第2コーナー部分動作(例えばコーナーでのハンドル操作や、第3ストレートへ進入するに際した加速のタイミング等の制御である。)
場面オ:第3ストレート部分動作(例えば第1ストレートに進入するに際した加速等の制御である。)
In the example of the course shown in FIG. 2, the task is divided into scenes corresponding to the five courses A to O. The partial operations classified into each scene are as follows, for example.
Scene A: First straight partial operation (for example, control of deceleration timing, running position, etc. when approaching the next first corner)
Scene a: Partial movement of the first corner (for example, control of steering wheel operation at a corner, acceleration timing when entering the second straight, etc.)
Scene c: Second straight partial operation (for example, control of deceleration timing, running position, etc. when approaching the next second corner)
Scene d: Partial movement of the second corner (for example, control of steering wheel operation at a corner, acceleration timing when entering the third straight, etc.)
Scene e: Partial movement of the third straight (for example, control of acceleration when entering the first straight)
なお、ニューラルネットワーク22は、分割した場面を、進行順に応じて並び替え可能であることが好ましい。
It is preferable that the
動作分類結果抽出部32は、ニューラルネットワーク22が学習した部分動作の分類を抽出し、記憶部40に記憶させる(S203)。
The motion classification
(2−3.学習続行不能状態に至る制御の学習)
図7は、図3に示したS3の学習続行不能状態に至る制御の学習(第2学習)における詳細な処理フローを示すフローチャートである。まず、学習データ入出力部21は、記憶部40を参照し、S2の処理において分類された部分動作のうち、いずれかの部分動作を選択し、当該部分動作に必要なアクチュエータ92への制御量を抽出する。さらに学習データ入出力部21は、記憶部40を参照し抽出した制御量において制御を実行し、その結果、学習続行不能状態に至ったか否かを例えば状態検知用センサ93からの出力等に基づいて判定する。学習データ入出力部21は、抽出した制御量とその結果、学習続行不能状態に至ったか否かの情報を学習データとして読み出し、ニューラルネットワーク22に学習データとして与える。ニューラルネットワーク22は、与えられた学習データのもと、Deep Learningにより学習を行う(S301)。
(2-3. Learning of control leading to a state in which learning cannot be continued)
FIG. 7 is a flowchart showing a detailed processing flow in the control learning (second learning) leading to the learning continuation impossible state of S3 shown in FIG. First, the learning data input /
このとき、学習結果出力部23は、学習続行不能状態に至る制御の学習結果を出力することが可能である。これによって、ニューラルネットワーク22は、例えば同様の構成を備える別の学習装置1’から、学習続行不能状態に至った制御を学習データとして受け付けて追加学習を行うことができる(S302)。これによってより効率の良い学習を行うことができる。効率の良い学習とは、例えば学習開始から学習目的達成までに要する時間が短い学習をいう。なお、S302の処理は必須の処理ではない。
At this time, the learning
学習装置1は、S301(及びS302)の処理を、分類されたすべての部分動作について実施する(S303)。
The
必須ではないが、学習装置1は、分類されたすべての部分動作について学習続行不能状態に至る制御を学習した後に、一連の動作を通じて再度学習を行うことも可能である(S304)。これによって、より速い周回制御を行うことが可能になる。
Although not essential, the
このように、本実施形態に係る学習装置1が、分類された部分動作について、まず学習続行不能状態に至る制御を学習することによって、その後の学習において、当該制御を避けて学習することが可能になる。これによって、より効率的な学習を行うことができる。
As described above, the
(2−4.最適化学習)
図8は、図3に示したS4の最適化学習(第3学習)における詳細な処理フローを示すフローチャートである。最適化学習では、S3までのステップで行った学習の最適化を図ることにより、学習開始時に学習データとして与えられた学習目的(本実施形態においては、「所定時間以内にコースを10周してゴールする」ことである。)を達成するための学習を行う。最適化学習においては、S3で学習した学習続行不能状態に至る制御を除外して学習が行われる。このとき、学習データ入出力部21は、記憶部40を参照して、学習初期段階(図3のS1)において入力された学習データ(オペレータが設定したものである)を抽出する。また、学習データ入出力部21は、さらに記憶部40を参照して学習続行不能状態に至る制御を学習した後のニューラルネットワーク22の状態を抽出する。学習データ入出力部21は、抽出したこれらのデータを制御部10に設定する。
(2-4. Optimization learning)
FIG. 8 is a flowchart showing a detailed processing flow in the optimization learning (third learning) of S4 shown in FIG. In the optimized learning, by optimizing the learning performed in the steps up to S3, the learning purpose given as the learning data at the start of the learning (in the present embodiment, "10 laps of the course within a predetermined time". To achieve the goal ”). In the optimized learning, the learning is performed excluding the control that leads to the learning continuation impossible state learned in S3. At this time, the learning data input /
制御部10では、設定された上述のデータに基づいて、アクチュエータ92に対する制御量を出力し、これに対する制御用センサ91及び状態検知用センサ93のセンサ値を取得する。制御部10は、与えた制御量及び、これに対して出力されたセンサ値を記憶部40に記憶させる。
The
ニューラルネットワーク22は、上記の処理において制御部10が記憶させた制御量及びセンサ値を読み出して、Deep Learningにより学習を行う(S401)。これによってニューラルネットワーク22は、学習続行不能状態に至る制御を学習した状態で、動作の開始から終了まで(すなわち、コースのスタートからゴールまで)をとおして、学習要件に適応する制御動作をより効率よく学習することができる。学習全体の最適化がなされるまでS401の処理が繰り返し行われる(S402)。最適化学習の結果は、学習結果出力部23によって抽出され、記憶部40に記憶される。これによって、最適化学習では、学習続行不能状態に至る制御を除外して学習を行うことができる。
The
このように、本実施形態に係る学習装置1によると、学習装置1自身が、学習に係る動作を、部分動作に分類して学習を行うことができる。これによって分類した動作ごとに個別最適化を図ることができるため、より効率よく(すなわち、より短期間で)学習を行うことができる。さらに、本実施形態に係る学習装置1によると、部分動作を学習するに際して、まず学習続行不能状態に至る制御を学習する。これによって、人があらかじめ動作ごとに細かく条件を設定することなく、効率よく学習を行うことができる。
As described above, according to the
(ハードウェア構成)
図9を参照しながら、上述してきた学習装置1をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の構成は、複数台の装置に分けて実現することもできる。
(Hardware configuration)
An example of the hardware configuration in the case where the
図9に示すように、コンピュータ800は、プロセッサ801、メモリ803、記憶装置805、入力インタフェース部(入力I/F部)807、データインタフェース部(データI/F部)809、通信インタフェース部(通信I/F部)811、及び表示装置813を含む。
As shown in FIG. 9, the
プロセッサ801は、メモリ803に記憶されているプログラムを実行することによりコンピュータ800における様々な処理を制御する。例えば、プロセッサ801がメモリ803に記憶されているプログラムを実行することで、学習装置1の制御部10、機械学習部20、及び動作分類部30などが実現可能となる。
The
メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
The
記憶装置805は、例えばハードディスクドライブ(HDD)やソリッドステートドライブ等の補助記憶装置、フラッシュメモリ等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。このようなプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。例えば上述の記憶部40は、記憶装置805によって実現される。
The
入力I/F部807は、管理者からの入力を受け付けるためのデバイスである。入力I/F部807の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部807は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ800に接続されても良い。
The input I /
データI/F部809は、コンピュータ800の外部からデータを入力するためのデバイスである。データI/F部809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部809は、コンピュータ800の外部に設けられることも考えられる。その場合、データI/F部809は、例えばUSB等のインタフェースを介してコンピュータ800へと接続される。
The data I /
通信I/F部811は、コンピュータ800の外部の装置と有線又は無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部811は、コンピュータ800の外部に設けられることも考えられる。その場合、通信I/F部811は、例えばUSB等のインタフェースを介してコンピュータ800に接続される。
The communication I /
表示装置813は、各種情報を表示するためのデバイスである。表示装置813の具体例としては、例えば液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置813は、コンピュータ800の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介してコンピュータ800に接続される。
The
[第2実施形態]
第1実施形態では、学習装置1が自動走行制御車両90に用いられる例について説明した。しかし、学習装置1が適用される装置は、第1実施形態に示した例に限定されず、種々の装置に適用することができる。本実施形態では、ピックアンドプレース動作を行うことをタスクとする、ロボットの制御に適用する例について説明する。なお、第2実施形態では、第1実施形態との差異点を中心に説明する。
[Second Embodiment]
In the first embodiment, an example in which the
まず、図10を参照して本実施形態に係るシステム構成について第1実施形態との違いを説明する。学習装置1の構成は第1実施形態と同様である。他方で、学習装置1外の構成について、本実施形態では、制御用センサ91’は、ピックアンドプレース動作を行うためのセンサ群から構成される。具体的には、ワーク検出センサ(画像センサ)、ロボット把持用力覚センサ等から構成される。また、制御用センサ91’は、画像認識アルゴリズムを有しており、把持するワークの形状を認識することができる。その他の学習装置1外の構成は第1実施形態と同様である。
First, the difference between the system configuration according to the present embodiment and the first embodiment will be described with reference to FIG. The configuration of the
次に、本実施形態に係る学習と第1実施形態に係る学習の違いについて説明する。
本実施形態に係るタスクであるピックアンドプレース動作は、以下の手順で行われる動作をいう。
1.ワーク形状を認識して把持する。
2.把持したワークを持ち上げる。
3.ワーク形状に応じた所定の位置へ持ち上げたワークを移動させる。
4.ワーク形状ごとに筒内に積み上げる。
Next, the difference between the learning according to the present embodiment and the learning according to the first embodiment will be described.
The pick-and-place operation, which is a task according to the present embodiment, refers to an operation performed by the following procedure.
1. 1. Recognize and grip the work shape.
2. Lift the gripped work.
3. 3. The lifted work is moved to a predetermined position according to the shape of the work.
4. Stack each work shape in the cylinder.
また、本実施形態に係るロボット制御の学習において、与えられる学習目的と学習要件とは次のとおりである。 Further, in the learning of robot control according to the present embodiment, the learning objectives and learning requirements given are as follows.
(学習目的)
・3種類の異なる形状(例えば、円柱ワーク、四角柱ワーク、及び三角柱ワークの3種類である。)をしたワークがバラ積みされたコンテナから、ピックアンドプレース動作により、所定時間以内に、ワーク形状に応じた入口を有する筒(円形、四角形、三角形)に、10個のワークを積み上げる。
(学習要件)
・所定位置以外にワークを載置しない
・ワーク形状ごとに10個のワークを筒の中で積み上げる
・初期レベルでは「1個のワークを、適切なワーク形状の筒の中に積む」
(Learning purpose)
-From a container in which workpieces having three different shapes (for example, three types of cylindrical workpiece, square prism workpiece, and triangular prism workpiece) are stacked separately, the work shape can be obtained within a predetermined time by a pick-and-place operation. Ten workpieces are stacked in a cylinder (circular, quadrangular, triangular) having an entrance according to the above.
(Learning requirements)
・ Do not place workpieces in any position other than the specified position. ・
本実施形態では、タスクは、ワークを形状に応じた筒に積み上げることである。また、本実施形態では、学習するピックアンドプレース動作は、第1の実施形態において、車両90が走行するコースに基づいてタスクを場面に分割し、当該場面に基づいて部分動作を分類するのと同様の手順で、当該ピックアンドプレース動作も場面に応じて部分動作に分類処理されてもよい。例えば、本実施形態では、タスクは、タスクの学習中に係る動作の変位量に基づいて、ワークを把持する動作に応じた場面、ワークを運ぶ動作に応じた場面、ワークを積み上げる動作に応じた場面、に分割される。ピックアンドプレース動作は、分割された場面に応じて、部分動作に分類される。
In the present embodiment, the task is to stack the workpieces in a cylinder according to the shape. Further, in the present embodiment, in the first embodiment, the pick-and-place motion to be learned divides the task into scenes based on the course on which the
また、本実施形態において、学習続行不能状態とは、例えばワークが筒内に入らなくなる状態をいう。したがって、学習続行不能状態に至る制御の学習段階において、学習される制御は、例えば次のとおりである。
・載置場所を間違える(ワークの形状と筒の入り口の形状が異なる)
・ワークを積み上げる向きを間違える(ワークの形状の向きと筒の形状の向きとが異なる)
Further, in the present embodiment, the state in which learning cannot be continued means, for example, a state in which the work cannot enter the cylinder. Therefore, in the learning stage of the control leading to the state in which learning cannot be continued, the control to be learned is, for example, as follows.
・ Wrong place of placement (the shape of the work and the shape of the entrance of the cylinder are different)
・ The direction in which the workpieces are stacked is incorrect (the orientation of the workpiece and the orientation of the cylinder are different).
本実施形態に係る学習装置1では、上記の学習続行不能状態に至る制御を予め学習することによって、ワーク形状と筒の形状を適切に認識することや、ワークを把持する際の向きについて予め学習することができる。これによって、最終段階の学習では、学習続行不能状態に至ることを避けることができるため、より学習の効率化を図ることができる。すなわち、学習目的達成までに要する時間をより短縮することができる。
その他の構成は第1実施形態と同様である。
In the
Other configurations are the same as those in the first embodiment.
以上、本発明の一実施形態について説明した。なお、本実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。また、本発明は、その趣旨を逸脱することなく、変更ないし改良され得るものである。例えば、上述の処理フローにおける各ステップは処理内容に矛盾を生じない範囲で各ステップの一部を省略したり、各処理ステップの順番を任意に変更して又は並列に実行することができる。 The embodiment of the present invention has been described above. It should be noted that the present embodiment is for facilitating the understanding of the present invention, and is not for limiting and interpreting the present invention. Further, the present invention can be changed or improved without deviating from the gist thereof. For example, each step in the above-mentioned processing flow can omit a part of each step within a range that does not cause a contradiction in the processing contents, or can arbitrarily change the order of each processing step or execute them in parallel.
上述の実施形態では、本発明に係るシステムを利用して、深層学習などのAI技術によって機械が獲得した能力の管理を行う例について説明したが、本発明はこれに限定されず、幅広い分野に適用することができる。例えば、製品の良品と不良品の識別、食品、機械部品、化学製品、薬品などのさまざまな工業分野、漁業分野、農業分野、林業分野、サービス業、医療や健康分野に適用することができる。また、組込分野の製品にAI技術を適用する場合や社会システム等のIT技術を活用したシステム、ビッグデータの分析、幅広い制御装置における分類処理等に本発明を適用してもよい。 In the above-described embodiment, an example in which the system according to the present invention is used to manage the ability acquired by the machine by AI technology such as deep learning has been described, but the present invention is not limited to this and covers a wide range of fields. Can be applied. For example, it can be applied to distinguish between good and bad products, various industrial fields such as food, mechanical parts, chemical products and chemicals, fishery field, agriculture field, forestry field, service industry, medical and health field. Further, the present invention may be applied to a case where AI technology is applied to a product in the embedded field, a system utilizing IT technology such as a social system, big data analysis, classification processing in a wide range of control devices, and the like.
なお、本明細書において、「部」や「手段」、「手順」とは、単に物理的構成を意味するものではなく、その「部」が行う処理をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「手順」や装置が行う処理が2つ以上の物理的構成や装置により実行されても、2つ以上の「部」や「手順」、装置が行う処理が1つの物理的手段や装置により実行されてもよい。 In addition, in this specification, a "part", a "means", and a "procedure" do not simply mean a physical configuration, but also include a case where the processing performed by the "part" is realized by software. Further, even if one "part", "means", "procedure" or process performed by the device is executed by two or more physical configurations or devices, two or more "parts", "procedures" or devices The processing to be performed may be performed by one physical means or device.
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
少なくとも1つのハードウェアプロセッサを備え、
前記ハードウェアプロセッサは、
学習目的を含む学習データを受け付け、
前記学習データに基づいて、学習を実行し、
前記ニューラルネットワークによる学習結果を出力し、
前記学習を実行することは、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行することを含む。
(付記2)
少なくとも1つ以上のハードウェアプロセッサによって、
学習を行うステップであって、
学習目的を含む学習データを受け付けるステップと、
前記学習データに基づいて、学習を実行するステップと、
前記ニューラルネットワークによる学習結果を出力するステップと、
を実行し、
前記学習を実行するステップは、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、ステップを含む、学習方法。
In addition, some or all of the above embodiments may be described as in the following appendix, but are not limited to the following.
(Appendix 1)
With at least one hardware processor
The hardware processor
Accepts learning data including learning purposes,
Based on the learning data, the learning is executed and
The learning result by the neural network is output, and
Performing the learning
The first learning for achieving the initial stage of the learning purpose is executed, and based on the result of the first learning, the second learning for learning the control to reach the state where the operation related to the learning cannot be continued is executed. Then, based on the result of the second learning, the third learning for achieving the learning purpose is included by excluding the control leading to the state in which the learning cannot be continued.
(Appendix 2)
By at least one or more hardware processors
It ’s a learning step,
Steps to accept learning data including learning purpose,
Based on the learning data, the steps to execute the learning and
The step of outputting the learning result by the neural network and
And
The step of executing the learning is
The first learning for achieving the initial stage of the learning purpose is executed, and based on the result of the first learning, the second learning for learning the control to reach the state where the operation related to the learning cannot be continued is executed. Then, based on the result of the second learning, a learning method including a step of executing the third learning for achieving the learning purpose by excluding the control leading to the inability to continue.
1 学習装置
10 制御部
20 機械学習部
21 学習データ入出力部
22 ニューラルネットワーク
23 学習結果出力部
30 動作分類部
31 制御データ抽出部
32 動作分類結果抽出部
40 記憶部
90 自動走行制御車両
91 制御用センサ
92 アクチュエータ
93 状態検知用センサ
1
Claims (8)
学習目的を含む学習データを受け付ける学習データ受付部と、
前記学習データに基づいて、学習を実行するニューラルネットワークと、
前記ニューラルネットワークによる学習結果を出力する出力部と、
を備え、
前記ニューラルネットワークは、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、
学習装置。 A learning device that learns the control of movements related to a predetermined task.
A learning data reception unit that accepts learning data including learning purposes,
A neural network that executes learning based on the training data,
An output unit that outputs the learning result of the neural network and
With
The neural network
The first learning for achieving the initial stage of the learning purpose is executed, and based on the result of the first learning, the second learning for learning the control to reach the state where the operation related to the learning cannot be continued is executed. Then, based on the result of the second learning, the third learning for achieving the learning purpose is executed by excluding the control leading to the inability to continue.
Learning device.
前記第2学習の結果を出力する、
請求項1に記載の学習装置。 The output unit
Output the result of the second learning,
The learning device according to claim 1.
所定のタスクに係る一連の動作の制御を学習する学習装置であって、
前記タスクを複数の場面に分割し、分割された前記場面それぞれにおいて、前記一連の動作のうち当該場面において行われる部分動作を特定する分類部をさらに備え、
前記ニューラルネットワークは、前記第2学習及び前記第3学習を、前記部分動作ごとに実行する、
請求項1に記載の学習装置。 The learning device is
A learning device that learns the control of a series of movements related to a predetermined task.
The task is divided into a plurality of scenes, and in each of the divided scenes, a classification unit for specifying a partial operation performed in the scene among the series of operations is further provided.
The neural network executes the second learning and the third learning for each partial operation.
The learning device according to claim 1.
前記コースを所定時間以内に所定の回数周回することを目的とする学習目的を含む学習データを受け付ける学習データ受付部と、
前記学習データに基づいて、学習を実行するニューラルネットワークと、
前記ニューラルネットワークによる学習結果を出力する出力部と、
を備え、
前記ニューラルネットワークは、
前記コースを1周できることを達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作が続行不能となる状態に至る制御を学習する第2学習を実行し、当該第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、
自動走行制御学習装置。 It is an automatic driving control learning device that learns control about a series of movements related to automatic driving of a vehicle that goes around a predetermined course.
A learning data reception unit that receives learning data including a learning purpose for the purpose of going around the course a predetermined number of times within a predetermined time.
A neural network that executes learning based on the training data,
An output unit that outputs the learning result of the neural network and
With
The neural network
The first learning for achieving one lap of the course is executed, and based on the result of the first learning, the second learning for learning the control leading to the state in which the operation related to the learning cannot be continued is executed. Then, based on the result of the second learning, the third learning for achieving the learning purpose is executed by excluding the control leading to the state of being unable to continue.
Automatic driving control learning device.
所定時間以内に前記ワークを所定の個数、前記載置場所に積み上げることを目的とする学習目的を含む学習データを受け付ける学習データ受付部と、
前記学習データに基づいて、学習を実行するニューラルネットワークと、
前記ニューラルネットワークによる学習結果を出力する出力部と、
を備え、
前記ニューラルネットワークは、
前記ワークを1つ前記載置場所に積むことを達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作が続行不能となる状態に至る制御を学習する第2学習を実行し、当該第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、
ロボット制御学習装置。 A robot control learning device that learns control of a series of operations related to a task of grasping a predetermined work and stacking it in a placement place according to the shape of the work.
A learning data reception unit that receives learning data including a learning purpose for the purpose of stacking a predetermined number of the works in a predetermined place within a predetermined time.
A neural network that executes learning based on the training data,
An output unit that outputs the learning result of the neural network and
With
The neural network
The first learning for achieving the stacking of the work in the previously described place is executed, and based on the result of the first learning, the control leading to the state in which the operation related to the learning cannot be continued is learned. The second learning is executed, and based on the result of the second learning, the third learning for achieving the learning purpose is executed by excluding the control leading to the inability to continue.
Robot control learning device.
前記制御部が、
学習目的を含む学習データを受け付けるステップと、
前記学習データに基づいて、学習を実行するステップと、
前記学習を実行するステップによる学習結果を出力するステップと、
を実行し、
前記学習を実行するステップは、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、ステップを含む、
学習方法。 It is a learning method for learning the control of an operation related to a predetermined task executed by a computer provided with a control unit.
The control unit
Steps to accept learning data including learning purpose,
Based on the learning data, the steps to execute the learning and
A step of outputting the learning result by the step of executing the learning and a step of outputting the learning result
And
The step of executing the learning is
The first learning for achieving the initial stage of the learning purpose is executed, and based on the result of the first learning, the second learning for learning the control to reach the state where the operation related to the learning cannot be continued is executed. Then, based on the result of the second learning, the third learning for achieving the learning purpose is executed by excluding the control leading to the non-continuable state, including the step.
Learning method.
学習目的を含む学習データを受け付ける手順、
前記学習データに基づいて、学習を実行する手順、及び
前記学習を実行する手段による学習結果を出力する手順、
を実行させ、
前記学習を実行する手順は、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習に係る動作を続行不能となる状態に至る制御を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記続行不能となる状態に至る制御を除外して前記学習目的を達成するための第3学習を実行する、手順を含む、
プログラム。 To a computer that learns to control movements related to a given task
Procedure for accepting learning data including learning purpose,
A procedure for executing learning based on the learning data, and a procedure for outputting the learning result by the means for executing the learning.
To execute,
The procedure for performing the learning is
The first learning for achieving the initial stage of the learning purpose is executed, and based on the result of the first learning, the second learning for learning the control to reach the state where the operation related to the learning cannot be continued is executed. Then, based on the result of the second learning, the third learning for achieving the learning purpose is executed by excluding the control leading to the non-continuable state, including the procedure.
program.
前記装置がタスクを実行するための動作に必要な情報をセンシングする第1センサと、
アクチュエータと、
前記アクチュエータによる前記装置の状態変化をセンシングする第2センサと、
前記第1センサ及び前記第2センサから出力されるセンサ値に基づいて前記アクチュエータを制御する制御部と、
請求項1乃至3のいずれか一項に記載された学習装置によって行われた学習結果を記憶する記憶部と、
を備え、
前記制御部は、
前記記憶部に記憶された前記学習結果に基づいて、前記第1センサ及び前記第2センサから出力されるセンサ値に応じた制御量を決定する、
装置。 A device that performs a given task
A first sensor that senses information necessary for the device to perform a task,
Actuator and
A second sensor that senses the state change of the device by the actuator, and
A control unit that controls the actuator based on the sensor values output from the first sensor and the second sensor.
A storage unit that stores the learning results performed by the learning device according to any one of claims 1 to 3.
With
The control unit
Based on the learning result stored in the storage unit, the control amount according to the sensor values output from the first sensor and the second sensor is determined.
apparatus.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017104523A JP6863081B2 (en) | 2017-05-26 | 2017-05-26 | Learning device, learning control method, and its program |
PCT/JP2018/018142 WO2018216493A1 (en) | 2017-05-26 | 2018-05-10 | Learning apparatus, learning control method, and program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017104523A JP6863081B2 (en) | 2017-05-26 | 2017-05-26 | Learning device, learning control method, and its program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018200537A JP2018200537A (en) | 2018-12-20 |
JP6863081B2 true JP6863081B2 (en) | 2021-04-21 |
Family
ID=62386890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017104523A Active JP6863081B2 (en) | 2017-05-26 | 2017-05-26 | Learning device, learning control method, and its program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6863081B2 (en) |
WO (1) | WO2018216493A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109884886B (en) * | 2019-03-29 | 2021-09-28 | 大连海事大学 | Ship motion model-free adaptive optimal control method based on width learning |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05119815A (en) * | 1991-10-28 | 1993-05-18 | Toshiba Corp | Obstacle avoiding method using neural network |
JPH0785280B2 (en) * | 1992-08-04 | 1995-09-13 | タカタ株式会社 | Collision prediction judgment system by neural network |
JP3433465B2 (en) | 1993-04-02 | 2003-08-04 | 日本電信電話株式会社 | Robot learning control method |
JP3872387B2 (en) * | 2002-06-19 | 2007-01-24 | トヨタ自動車株式会社 | Control device and control method of robot coexisting with human |
US9015093B1 (en) * | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US9566710B2 (en) * | 2011-06-02 | 2017-02-14 | Brain Corporation | Apparatus and methods for operating robotic devices using selective state space training |
-
2017
- 2017-05-26 JP JP2017104523A patent/JP6863081B2/en active Active
-
2018
- 2018-05-10 WO PCT/JP2018/018142 patent/WO2018216493A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2018200537A (en) | 2018-12-20 |
WO2018216493A1 (en) | 2018-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11331800B2 (en) | Adaptive predictor apparatus and methods | |
US11429854B2 (en) | Method and device for a computerized mechanical device | |
US9403273B2 (en) | Rapid robotic imitation learning of force-torque tasks | |
JP7091820B2 (en) | Control system, learning data creation device, learning device and judgment device | |
JP7421544B2 (en) | Driving function monitoring based on neural networks | |
CN108549911A (en) | Driver based on neural network turns to intervention recognition methods | |
JP6863082B2 (en) | Learning device, learning control method, and its program | |
JP6863081B2 (en) | Learning device, learning control method, and its program | |
Majewski et al. | Conceptual design of innovative speech interfaces with augmented reality and interactive systems for controlling loader cranes | |
JP6978722B2 (en) | Learning device, learning control method, and its program | |
Torresen | Scalable evolvable hardware applied to road image recognition | |
EP3867021B1 (en) | Robot navigation using a high-level policy model and a trained low-level policy model | |
Kang et al. | Fusion drive: End-to-end multi modal sensor fusion for guided low-cost autonomous vehicle | |
KR102376615B1 (en) | Method for controlling mobile robot and apparatus thereof | |
CN113226674A (en) | Control device | |
CN114291107B (en) | Device and method for controlling driving of vehicle | |
Eiband et al. | Intuitive programming of conditional tasks by demonstration of multiple solutions | |
EP3900887A1 (en) | Robot collision detection using cascading variational autoencoder | |
US20160311430A1 (en) | Road environment recognition device, vehicle control device, and vehicle control method | |
CN115398352A (en) | Robotic process | |
WO2021160273A1 (en) | Computing system and method using end-to-end modeling for a simulated traffic agent in a simulation environment | |
Kumar et al. | Situational Intelligence-Based Vehicle Trajectory Prediction in an Unstructured Off-Road Environment | |
Ma et al. | Identification of human skill and its application to an automatic driving system-an approach from hybrid dynamical system | |
Becker | Self-driving cars | |
Khan | Self driving car using tensorflow |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210302 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6863081 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |