JP2018200539A - 学習装置、学習制御方法、及びそのプログラム - Google Patents

学習装置、学習制御方法、及びそのプログラム Download PDF

Info

Publication number
JP2018200539A
JP2018200539A JP2017104528A JP2017104528A JP2018200539A JP 2018200539 A JP2018200539 A JP 2018200539A JP 2017104528 A JP2017104528 A JP 2017104528A JP 2017104528 A JP2017104528 A JP 2017104528A JP 2018200539 A JP2018200539 A JP 2018200539A
Authority
JP
Japan
Prior art keywords
learning
control
result
neural network
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017104528A
Other languages
English (en)
Other versions
JP6863082B2 (ja
Inventor
安藤 丹一
Tanichi Ando
丹一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2017104528A priority Critical patent/JP6863082B2/ja
Priority to PCT/JP2018/018133 priority patent/WO2018216490A1/en
Publication of JP2018200539A publication Critical patent/JP2018200539A/ja
Application granted granted Critical
Publication of JP6863082B2 publication Critical patent/JP6863082B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0083Setting, resetting, calibration
    • B60W2050/0088Adaptive recalibration

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

【課題】人の手を介さずに、学習装置が学習目的を達成するのに要する時間を短縮するための技術を提供する。
【解決手段】所定のタスクに係る動作の制御を学習する学習装置であって、学習目的と、制御を学習する際に行われる学習動作の許容要件とを含む学習データを受け付ける学習データ受付部と、学習データに基づいて、学習を実行するニューラルネットワークと、ニューラルネットワークによる学習結果を出力する出力部と、を備え、ニューラルネットワークは、学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習動作が許容要件に適合する制御範囲を学習する第2学習を実行し、第2学習の結果に基づいて、制御範囲内において、学習目的を達成するための第3学習を実行する。
【選択図】図1

Description

本発明は、学習装置、学習制御方法、及びそのプログラムに関する。
従来から、ニューラルネットワークなどの人工知能技術(以下、「AI技術」という。)に関する研究が、幅広く行われている(例えば、特許文献1参照)。特に、深層学習(Deep Learning)と呼ばれるAI技術の台頭により、例えば画像による対象物の認識技術は、ここ数年で認識率が急速に向上し、画像の分類については人の認識率を超えるレベルに到達しつつある。深層学習の技術は、画像の認識のみではなく、音声認識、個人認証、行動予測、文章の要約、自動翻訳、監視、自動運転、故障予測、センサデータの分析、楽曲のジャンル判定、コンテンツ生成、セキュリティシステム、その他幅広い分野への応用が期待されている。
深層学習などの機械学習においては、機械に学習を実施させて所定の能力を獲得させることができる。このとき、機械学習を行う学習装置では、所定の能力を獲得するまで、学習する動作を繰り返し実行する。
例えば、特許文献1には、ロボットの学習制御方法について開示されている。特許文献1に記載の学習制御方法においては、人が予め設定したロボット動作の目標となる目標軌道と、ロボットが実際に動作した場合の実軌道との間に生じる誤差に基づき、ロボットの駆動部へ供給する入力値を修正する。
特開平6−289918号公報
自動車のエンジンや走行の制御、あるいは化学プラント等の、数多くのセンサ情報に基づいてアクチュエータを制御するような学習装置においては、制御とセンサ情報の出力とが互いに影響を与えるため、制御方法を獲得するために、より複雑な学習を行う必要がある。したがって、このような複雑な学習を行う学習装置において、特許文献1のように、人が予め制御量の目標値を設定することは容易ではない。他方で、目標値を設定せずに学習装置に学習を行わせた場合、非常に多くのトライエラーを繰り返す必要があり、効率が悪い。
そこで、本発明は、人の手を介さずに、学習装置が学習目的を達成するのに要する時間を短縮するための技術を提供することを目的とする。
本発明の一側面に係る学習装置は、所定のタスクに係る動作の制御を学習する学習装置であって、学習目的と、制御を学習する際に行われる学習動作の許容要件とを含む学習データを受け付ける学習データ受付部と、学習データに基づいて、学習を実行するニューラルネットワークと、ニューラルネットワークによる学習結果を出力する出力部と、を備え、ニューラルネットワークは、学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習動作が許容要件に適合する制御範囲を学習する第2学習を実行し、第2学習の結果に基づいて、制御範囲内において、学習目的を達成するための第3学習を実行する。
上記構成によれば、学習目的を達成するための第3学習の前に、学習動作が許容要件に適合する制御範囲の学習がなされる。これによって、人によって制御動作を制限する条件が与えられることなしに、装置自らが、学習動作が許容要件に適合する制御範囲において学習を行うことができるため、より短期間で学習目的を達成することができる。
また、出力部は、第2学習の結果を出力してもよい。この態様によると、学習動作が許容要件に適合する制御範囲の学習結果を、ほかの学習装置においても活用することができる。
また、学習装置は、所定のタスクに係る一連の動作の制御を学習する学習装置であって、タスクを複数の場面に分割し、分割された場面それぞれにおいて、一連の動作のうち当該場面において行われる部分動作を特定する分類部をさらに備え、ニューラルネットワークは、第2学習及び第3学習を、部分動作ごとに実行してもよい。
この態様によると、学習装置は、学習に係る動作を、場面に応じてより小さな単位である部分動作に分類して、分類した部分動作ごとに学習することができる。これによって、より短期間で学習目的を達成することができる。
本発明の一側面に係る自動走行制御学習装置は、所定のコースを周回する車両の自動走行に係る一連の動作について制御を学習する自動走行制御学習装置であって、コースを所定時間以内に所定の回数周回することを目的とする学習目的と、制御を学習する際に行われる学習動作の許容要件を含む学習データを受け付ける学習データ受付部と、学習データに基づいて、学習を実行するニューラルネットワークと、ニューラルネットワークによる学習結果を出力する出力部と、を備え、ニューラルネットワークは、コースを1周できることを達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習動作が許容要件に適合する制御範囲を学習する第2学習を実行し、当該第2学習の結果に基づいて、制御範囲内において、学習目的を達成するための第3学習を実行する。
本発明の一側面に係るロボット制御学習装置は、予め定められた載置場所へ所定の対象物を搬送して所定数積み重ね、梱包するタスクに係る一連の動作について制御を学習するロボット制御学習装置であって、一連の作業をなるべく早く完了させることを目的とする学習目的と、制御を学習する際に行われる学習動作の許容要件とを含む学習データを受け付ける学習データ受付部と、学習データに基づいて、学習を実行するニューラルネットワークと、ニューラルネットワークによる学習結果を出力する出力部と、を備え、ニューラルネットワークは、タスクに係る一連の動作を制御できることを達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習動作が前記許容要件に適合する制御範囲を学習する第2学習を実行し、当該第2学習の結果に基づいて、制御範囲内において、学習目的を達成するための第3学習を実行する。
本発明の一側面に係る学習方法は、制御部を備えるコンピュータが実行する、所定のタスクに係る動作の制御を学習する学習方法であって、制御部が、学習目的と、制御を学習する際に行われる学習動作の許容要件とを含む学習データを受け付けるステップと、学習データに基づいて、学習を実行するステップと、学習を実行するステップによる学習結果を出力するステップと、を実行し、学習を実行するステップは、学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習動作が許容要件に適合する制御範囲を学習する第2学習を実行し、第2学習の結果に基づいて、制御範囲内において、学習目的を達成するための第3学習を実行するステップを含む。
本発明の一側面に係るプログラムは、所定のタスクに係る動作の制御を学習するコンピュータに、学習目的と、制御を学習する際に行われる学習動作の許容要件とを含む学習データを受け付ける手順、学習データに基づいて、学習を実行する手順、及び学習を実行する手順による学習結果を出力する手順、を実行させ、学習を実行する手順は、学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、学習動作が許容要件に適合する制御範囲を学習する第2学習を実行し、第2学習の結果に基づいて、制御範囲内において、学習目的を達成するための第3学習を実行する、手順を含む。
本発明の一側面に係る装置は、所定のタスクを実行する装置であって、装置がタスクを実行するための動作に必要な情報をセンシングする第1センサと、アクチュエータと、アクチュエータによる装置の状態変化をセンシングする第2センサと、第1センサ及び第2センサから出力されるセンサ値に基づいてアクチュエータを制御する制御部と、上記の学習装置によって行われた学習結果を記憶する記憶部と、を備え、制御部は、記憶部に記憶された学習結果に基づいて、制御範囲に収まるように、第1センサ及び第2センサから出力されるセンサ値に応じた制御量を決定する。
本発明によれば、人の手を介さずに、学習装置が学習目的を達成するのに要する時間を短縮するための技術を提供することができる。
第1実施形態における学習装置の概略構成を示すブロック図である。 第1実施形態における学習装置によって制御される車両が自動走行するコースを示す模式図である。 第1実施形態における学習装置の処理の概略を示すフローチャートである。 第1実施形態における学習装置の詳細構成を示すブロック図である。 第1実施形態における学習装置の処理の詳細を示すフローチャートである。 第1実施形態における学習装置の処理の詳細を示すフローチャートである。 第1実施形態における学習装置の処理の詳細を示すフローチャートである。 第1実施形態における学習装置の処理の詳細を示すフローチャートである。 第1実施形態における学習装置のハードウェア構成の一例を示す図である。 第2実施形態における学習装置の概略構成を示すブロック図である。
[第1実施形態]
以下、図面を参照して本発明の実施形態について詳細に説明する。なお、同一の要素には同一の符号を付し、重複する説明を省略する。また、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。さらに、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。
<1.システム概要>
図1乃至図3を参照して本実施形態におけるシステムの概要について説明する。
図1は、本実施形態に係る学習装置1の概略構成を示すブロック図である。学習装置1は、所定のタスクを学習するものである。本実施形態に係る学習装置1は、一例として自動走行制御車両(以下、単に「車両」ともいう。)90に搭載され、所定のコース(図2参照)を自動走行するための車両90の制御を学習する。このとき学習装置1には、例えばオペレータ等から学習データが与えられる。学習データは、例えば次のような学習目的、学習要件、及び許容要件を含むデータである。
(学習目的)
・所定時間以内にコースを10周してゴールする。
(学習要件)
・コースアウトしない
・周回方向は時計回り
・ゴールする
・初期段階レベルでは「コースを1周してゴールする」
(許容要件)
・別の何かに接触しないこと
なお、タスクは、学習に係る動作(本実施形態での「学習に係る動作」は、車両90の自動走行に必要な各種制御である。なお、当該各種制御によって車両90が実行する動作と考えてもよい。)で達成したいことであり、本実施形態ではコースを周回することである。また、学習目的はタスクが達成すべき水準であり、本実施形態では、上記のとおり「所定時間以内にコースを10周してゴールすること」である。そうすると、本実施形態では、初期段階レベルの学習では、タスクが行えるようになることが、学習要件として与えられているとも考えられる。
また、許容要件は、学習が行われる際に実施される動作(学習動作)が満たすべき要件である。すなわち、学習が行われる際において、例えばコースアウトすることは許容されるが、別の何かに接触することは許容されないことを意味している。なお,学習目的、学習要件、及び許容要件は、これに限定されない。
本実施形態では、学習データは、後述する学習データ入出力部21からオペレータ等によって入力されるが、許容要件については、各部品の仕様値等に基づいて学習装置1が自動生成する構成でもよい。
なお、以下の説明では、学習装置1はPC(Personal Computer)やサーバ装置などのコンピュータによって構成されるものとして説明するが、これに限定されず、例えば、プロセッサ、RAM、ROM等を有する任意の組込装置によって実現されてもよい。また、各装置において実装される構成はソフトウェアによって実現される構成に限定されない。各装置に含まれる任意の構成は、ハードウェアによって実現される構成でもよい。例えば後述するニューラルネットワーク22はカスタムLSI(Large-Scale Integration)やFPGA(Field-Programmable Gate Array)等の電子回路によって構成されてもよい。
図1に示すように、学習装置1は、制御部10と、機械学習部20と、動作分類部30と、記憶部40とを有している。
制御部10は、車両90において、学習装置1外に設けられた制御用センサ91、アクチュエータ92、状態検知用センサ93と接続されている。制御部10は、制御用センサ91、及び状態検知用センサ93からの出力に応じて、アクチュエータ92を制御して、車両90の自動走行を実施する。
制御用センサ91は、車両90の自動走行制御を行うためのセンサ群である。例えば制御用センサ91は、車載カメラやレーザ等の車外障害物検出センサ、路面状態検出センサ等から構成される。他方で、状態検知用センサ93は、自動走行している車両90の制御状態を検出するセンサ群である。例えば状態検知用センサ93は、振動センサや騒音センサ、燃料消費量検出センサ、車速センサ、加速度センサ、ヨーレートセンサ等から構成される。
アクチュエータ92は、車両90を自動走行させるために制御部10によって制御される。アクチュエータ92は、例えばアクセルアクチュエータ、ブレーキアクチュエータ、及び操舵アクチュエータ等から構成される。アクセルアクチュエータは、制御部10からの制御信号に応じてスロットル開度を制御することによって車両の駆動力を制御する。ブレーキアクチュエータは、制御部10からの制御信号に応じてブレーキペダルの操作量を制御することにより、車両の車輪に対する制動力の制御を行う。操舵アクチュエータは、制御部10からの制御信号に応じて電動パワーステアリングシステムの操舵アシストモータの駆動を制御して、車両の操舵作用の制御を行う。
次に、図3を参照して学習装置1が学習を行う手順を大まかに説明する。なお、各ステップの処理の詳細については、後述する。図3は、学習装置1が学習を行う際の、処理フローの概略を示すフローチャートである。まず、学習初期段階(S1)として、タスクが行えるようになること(すなわち初期段階の学習要件を満たした動作ができるようになること)を目的に学習が行われる。本実施形態における学習装置1は、所定のコースを自動走行するための制御を学習するため、初期段階としては、「コースを1周してゴールすること」が学習要件として与えられている。
初期段階の目的をクリアすると、次に動作の分類(S2)が行われる。この段階では、S1の学習初期段階で行った学習内容を解析することにより、タスクを所定のパラメータに基づいて複数に分割し(以下では、分割されたタスクを「場面」ともいう。)、分割された場面それぞれにおいて、タスクに係る一連の動作のうち当該場面において行われる動作(以下、「部分動作」ともいう。)を特定する処理が行われる。タスクを分割する所定のパラメータは、例えばタスクの学習中に係る動作の変位量や、タスクの学習中に係る動作を実行する環境(タスクの開始時点からの経過時間や、タスクの開始場所からの相対的な位置等)である。本実施形態では、所定のパラメータとして、タスクの開始場所からの相対的な位置を用いる。すなわち、本実施形態では、学習装置1は、コース上の位置に基づいてタスクを場面に分割し、分割した場面に対応するコース単位で行われる動作に基づいて、学習に係る一連の動作が場面に分類される。場面に応じて分類された部分動作単位で学習を行うことで、学習の効率化を図ることができる。なお、学習の効率化とは、例えば学習開始から学習目的の達成までの所要時間の短縮化を意味してもよい。
動作を分類すると、次のステップとして、分類した部分動作ごとに、動作許容範囲の学習(S3)が行われる。ここで、動作許容範囲とは、学習の際に、制御部10が学習によって制御を学習する制御対象物に与える制御量の適切な範囲をいう。より具体的には、動作許容範囲は、制御部10が学習の際に所定の制御量を与えて制御対象物を動作(学習動作)させる場合において、当該学習動作が許容要件に適合する制御量の範囲をいう。本実施形態においては、動作許容範囲は、制御部10がアクチュエータ92に所定の制御量を与えて制御を行う場合において、与えられた制御量に基づいてアクチュエータ92が車両90を動作させた結果、車両90が別の何かに接触せずに動作を行うことが可能な制御量の範囲である。具体的には、動作許容範囲として、アクチュエータの制御量(ブレーキ、アクセル、ステアリング等への制御)の最小値から最大値を学習することができる。許容要件を満たす動作許容範囲を予め学習することによって、のちのステップで最適な制御を学習するうえで、許容要件から外れた動作を行うことを避けて学習を行うことができる。これによってより効率的に学習を行うことが可能になる。
学習最終段階(S4)では、学習の最適化が行われる。この段階では、場面ごとに分類して学習した部分動作を組み合わせた上で、動作の開始から終了までを最適に行う学習が行われる。本実施形態では、最終段階の学習として、所定時間以内にコースを10周してゴールする学習が行われる。
<2.詳細処理>
次に、図4乃至図8を参照して、各ステップにおける学習装置1の処理の詳細について説明する。図4は本実施形態に係る学習装置1の詳細な構成を示すブロック図である。図4に示すように、機械学習部20は、学習データ入出力部21と、ニューラルネットワーク22と、学習結果出力部23とから構成される。また、動作分類部30は、制御データ抽出部31と、動作分類結果抽出部32とから構成される。
以下では、図3のステップごとに、各部の処理の詳細について説明する。
(2−1.学習初期段階)
図5は、図3に示したS1の学習初期段階における詳細な処理フローを示すフローチャートである。まず、学習の初期段階(第1学習)において、学習データ入出力部21が学習データを受け付ける(S101)。学習データは、例えば上述した学習目的、学習要件、及び許容要件を含むデータである。
次のステップ(S102)では、機械学習が行われる。本実施形態では、個々の制御動作を制限するための条件は予め指定されていないため、学習装置1自らが制御動作を学習することになる。具体的には、制御部10は、ランダムな制御量をアクチュエータ92に対して設定して動作させる。このとき車両90は当然コースに沿って走行することはできないので、コースアウト等をしながらでたらめな走行をすることになる。制御部10は、ランダムに与えた制御量に対する制御用センサ91及び状態検知用センサ93から出力(以下、「センサ値」ともいう。)を読み取り、これらのデータ(制御量及びセンサ値)を記憶部40に記憶させる。ニューラルネットワーク22は、記憶部40を参照して、記憶された制御量とセンサ値とを読み取り、学習要件に適応する制御動作をDeep Learningにより学習する(S102)。
学習要件には、初期段階レベルの目的として、「コースを1周してゴールすること」が設定されている。したがって、学習装置1においては、例えば制御用センサ91からの出力に基づいてコースを1周してゴールしたと判断した時点で、機械学習が初期段階レベルに達したと判定し(S103:Y)、初期段階の学習を終了する。
(2−2.動作の分類)
図6は、図3に示したS2の動作の分類における詳細な処理フローを示すフローチャートである。まず、動作の分類処理を行うに当たり、制御データ抽出部31が学習初期段階終了時点における、制御用センサ91のセンサ値と、これに対するアクチュエータ92の制御量及び状態検知用センサ93のセンサ値とを記憶部40から抽出する(S201)。制御データ抽出部31は、抽出した各値をニューラルネットワーク22に対して学習データとして入力する。
次に、ニューラルネットワーク22は、制御データ抽出部31により入力された学習データに基づいて、機械学習を行う(S202)。このとき、ニューラルネットワーク22では、周回動作を所定の個数に分割された場面に分類する。
ニューラルネットワーク22による周回動作の場面への分類処理についてより詳細に説明する。ニューラルネットワーク22は、周回動作の場面への分類を場面ベクトルと動作ベクトルとに基づいて行う。場面ベクトルは、本実施形態では、車両90が行うタスクの場面を表す。場面ベクトルは、例えば、制御用センサ91が出力するセンサ値(例えばスタート地点からの位置(又は距離)、及びスタート地点からの方向)から取得される。一例として、スタート地点を原点とするx、y座標を想定した場合、地点lにおける場面ベクトルは、(lxy)で表すことが可能である。
他方、動作ベクトルは、走行する車両90の制御状態を表す。動作ベクトルは、例えば状態検知用センサ93が出力するセンサ値(例えば速度や加速度、角速度、角加速度等である)から取得される。一例として、ある地点lでの動作ベクトルは、当該地点lでの速度v、加速度aを用いて(vl、al)で表される。
ニューラルネットワーク22は、場面ベクトル(lxy)に基づいて、タスクを場面に分割し、動作ベクトル(vl、al)に基づいて、分割した場面ごとに当該場面で学習すべき動作の分類を学習する。これによって、学習装置1は、自身が今どの場面にいるかを判定することで、場面に応じた部分動作を学習することができる。一例としてニューラルネットワーク22は、場面ベクトルが表す位置に加え、動作ベクトルの変化点に着目することで、車両90の動作の加速・減速・方向転換等を把握し、当該変化点に基づいて、一連の動作を場面に応じた動作に分類することができる。また、例えばニューラルネットワーク22は、動作ベクトルの類似度に基づいて、動作の分類を学習することも可能である。
図2に示したコースの例では、タスクはア〜オの5つのコースに応じた場面に分割される。各場面に分類される部分動作は例えば以下のとおりである。
場面ア:第1ストレート部分動作(例えば次の第1コーナーに差し掛かる際の減速のタイミングや走行位置等の制御である。)
場面イ:第1コーナー部分動作(例えばコーナーでのハンドル操作や、第2ストレートへ進入するに際した加速のタイミング等の制御である。)
場面ウ:第2ストレート部分動作(例えば次の第2コーナーに差し掛かる際の減速のタイミングや走行位置等の制御である。)
場面エ:第2コーナー部分動作(例えばコーナーでのハンドル操作や、第3ストレートへ進入するに際した加速のタイミング等の制御である。)
場面オ:第3ストレート部分動作(例えば第1ストレートに進入するに際した加速等の制御である。)
なお、ニューラルネットワーク22は、分割した場面を、進行順に応じて並び替え可能であることが好ましい。
動作分類結果抽出部32は、ニューラルネットワーク22が学習した部分動作の分類を抽出し、記憶部40に記憶させる(S203)。
(2−3.動作許容範囲の学習)
図7は、図3に示したS3の動作許容範囲の学習(第2学習)における詳細な処理フローを示すフローチャートである。まず、学習データ入出力部21は、記憶部40を参照し、S2の処理において分類された部分動作のうち、いずれかの部分動作を選択し、当該選択された部分動作に必要なアクチュエータ92への制御量を抽出する。学習データ入出力部21は、抽出した制御量において制御を実行し、その結果、許容要件を満たしたか否かを例えば状態検知用センサ93からの出力等に基づいて判定する。このとき例えば、別の何かに接触しない、という許容要件のもとにおいては、何かに接触したか、それによって停止してしまったか否か等が判定される。学習データ入出力部21は、抽出した制御量とその結果学習動作が許容要件に適合したか否かの情報(判定結果)を学習データとして読み出し、ニューラルネットワーク22に学習データとして与える。ニューラルネットワーク22は、与えられた学習データのもと、Deep Learningにより学習を行う(S301)。ニューラルネットワーク22では、学習の結果、許容要件を満たすアクチュエータ92の制御量の最小値及び最大値を抽出する。学習結果出力部23は、抽出された最小値及び最大値を動作許容範囲として記憶部40に記憶させる。
学習装置1は、S301(及びS302)の処理を、分類されたすべての部分動作について実施する(S303)。なお、学習結果出力部23は、記憶された動作許容範囲を、動作許容範囲の学習結果として出力することも可能である。これによって、例えば同様の構成を備える別の学習装置1’から、動作許容範囲の学習結果を受け付けて、第2学習を省略することができる。
必須ではないが、学習装置1は、分類されたすべての部分動作について動作許容範囲を学習した後に、一連の動作を通じて再度学習を行うことも可能である(S304)。これによって、より速い周回制御を行うことが可能になる。
このように、本実施形態に係る学習装置1が、分類された部分動作について、まず動作許容範囲に学習動作が収まる制御を学習することによって、その後の学習において、当該制御を避けて学習することが可能になる。これによって、より効率的な学習を行うことができる。
(2−4.最適化学習)
図8は、図3に示したS4の最適化学習(第3学習)における詳細な処理フローを示すフローチャートである。最適化学習では、S3までのステップで行った学習の最適化を図ることにより、学習開始時に学習データとして与えられた学習目的(本実施形態においては、「所定時間以内にコースを10周してゴールする」ことである。)を達成するための学習を行う。最適化学習においては、S3で学習した動作共範囲内において学習が行われる。このとき、学習データ入出力部21は、記憶部40を参照して、学習初期段階(図3のS1)において入力された学習データ(オペレータが設定したものである)を抽出する。また、学習データ入出力部21は、さらに記憶部40を参照して動作許容範囲を学習した後のニューラルネットワーク22の状態を抽出する。学習データ入出力部21は、抽出したこれらのデータを制御部10に設定する。
制御部10では、設定された上述のデータに基づいて、アクチュエータ92に対する制御量を出力し、これに対する制御用センサ91及び状態検知用センサ93のセンサ値を取得する。制御部10は、与えた制御量及び、これに対して出力されたセンサ値を記憶部40に記憶させる。なお、このときアクチュエータ92に対して出力される制御量は、記憶された動作許容範囲内にあるか否かが判定される。動作許容範囲内にある場合には、その制御量が出力され、動作許容範囲外の制御量は出力されない。
ニューラルネットワーク22は、上記の処理において制御部10が記憶させた制御量及びセンサ値を読み出して、Deep Learningにより学習を行う(S401)。これによってニューラルネットワーク22は、動作許容範囲を学習した状態で、動作の開始から終了まで(すなわち、コースのスタートからゴールまで)をとおして、学習要件に適応する制御動作をより効率よく学習することができる。学習全体の最適化がなされるまでS401の処理が繰り返し行われる(S402)。最適化学習の結果は、学習結果出力部23によって抽出され、記憶部40に記憶される。これによって、最適化学習では、動作許容範囲内で学習を行うことができる。
このように、本実施形態に係る学習装置1によると、学習装置1自身が、学習に係る動作を、部分動作に分類して学習を行うことができる。これによって分類した動作ごとに個別最適化を図ることができるため、より効率よく(すなわちより短期間で)学習を行うことができる。さらに、本実施形態に係る学習装置1によると、部分動作を学習するに際して、まず動作許容範囲を学習する。これによって、人があらかじめ動作ごとに細かく条件を設定することなく、効率よく学習を行うことができる。
(ハードウェア構成)
図9を参照しながら、上述してきた学習装置1をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の構成は、複数台の装置に分けて実現することもできる。
図9に示すように、コンピュータ800は、プロセッサ801、メモリ803、記憶装置805、入力インタフェース部(入力I/F部)807、データインタフェース部(データI/F部)809、通信インタフェース部(通信I/F部)811、及び表示装置813を含む。
プロセッサ801は、メモリ803に記憶されているプログラムを実行することによりコンピュータ800における様々な処理を制御する。例えば、プロセッサ801がメモリ803に記憶されているプログラムを実行することで、学習装置1の制御部10、機械学習部20、及び動作分類部30などが実現可能となる。
メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
記憶装置805は、例えばハードディスクドライブ(HDD)やソリッドステートドライブ等の補助記憶装置、フラッシュメモリ等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。このようなプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。例えば上述の記憶部40は、記憶装置805によって実現される。
入力I/F部807は、管理者からの入力を受け付けるためのデバイスである。入力I/F部807の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部807は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ800に接続されても良い。
データI/F部809は、コンピュータ800の外部からデータを入力するためのデバイスである。データI/F部809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部809は、コンピュータ800の外部に設けられることも考えられる。その場合、データI/F部809は、例えばUSB等のインタフェースを介してコンピュータ800へと接続される。
通信I/F部811は、コンピュータ800の外部の装置と有線又は無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部811は、コンピュータ800の外部に設けられることも考えられる。その場合、通信I/F部811は、例えばUSB等のインタフェースを介してコンピュータ800に接続される。
表示装置813は、各種情報を表示するためのデバイスである。表示装置813の具体例としては、例えば液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置813は、コンピュータ800の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介してコンピュータ800に接続される。
[第2実施形態]
第1実施形態では、学習装置1が自動走行制御車両90に用いられる例について説明した。しかし、学習装置1が適用される装置は、第1実施形態に示した例に限定されず、種々の装置に適用することができる。本実施形態では、紙コップを梱包することをタスクとする、ロボットの制御に適用する例について説明する。なお、第2実施形態では、第1実施形態との差異点を中心に説明する。
まず、図10を参照して本実施形態に係るシステム構成について第1実施形態との違いを説明する。学習装置1の構成は第1実施形態と同様である。他方で、学習装置1外の構成について、本実施形態では、制御用センサ91’は、ピックアンドプレース動作を行うためのセンサ群から構成される。具体的には、ワーク検出センサ(画像センサ)、ロボット把持用力覚センサ等から構成される。また、制御用センサ91’は、画像認識アルゴリズムを有しており、把持するワークの形状を認識することができる。その他の学習装置1外の構成は第1実施形態と同様である。
次に、本実施形態に係る学習と第1実施形態に係る学習の違いについて説明する。
本実施形態に係るタスクであるピックアンドプレース動作は、以下の手順で行われる動作をいう。
1)紙コップを1つだけ把持して、所定位置へ載置する
2)上記作業(把持+載置)を所定回数繰り返して、所定個数の紙コップを積み重ねる
3)所定個数の紙コップが積み重なった状態の1つを、袋に入れる
4)袋の先端をひねり、袋の口部分を結束バンドで止める
5)袋の口部分を結束バンドで止められた状態の1つを、段ボール箱に詰める
6)上記1)〜5)の作業を所定回数繰り返して、袋の口部分を結束バンドで止められた状態の別の1つを、段ボール箱に詰める
7)上記6)を所定回数繰り返して、段ボール箱に詰めた状態で、フタを閉める
また、本実施形態に係るロボット制御の学習において、与えられる学習目的、学習要件、及び許容要件は次のとおりである。
(学習目的)
・所定時間以内に上記の一連作業を完了させる。
(学習要件)
・袋や段ボールからはみ出さないこと
・初期段階レベルでは「一連作業を完了させる」(すなわち、「タスクに係る一連の動作を制御できるようになる」ことである。)
(許容要件)
・紙コップ、袋、段ボール箱にダメージを与えないこと
上記の学習データを与えられた本実施形態に係る学習装置1では、動作許容範囲として、段ボールや紙コップを把持する際に加える力の最小値及び最大値を動作許容範囲として、学習する。
以上、本発明の一実施形態について説明した。なお、本実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。また、本発明は、その趣旨を逸脱することなく、変更ないし改良され得るものである。例えば、上述の処理フローにおける各ステップは処理内容に矛盾を生じない範囲で各ステップの一部を省略したり、各処理ステップの順番を任意に変更して又は並列に実行することができる。
上述の実施形態では、本発明に係るシステムを利用して、深層学習などのAI技術によって機械が獲得した能力の管理を行う例について説明したが、本発明はこれに限定されず、幅広い分野に適用することができる。例えば、製品の良品と不良品の識別、食品、機械部品、化学製品、薬品などのさまざまな工業分野、漁業分野、農業分野、林業分野、サービス業、医療や健康分野に適用することができる。また、組込分野の製品にAI技術を適用する場合や社会システム等のIT技術を活用したシステム、ビッグデータの分析、幅広い制御装置における分類処理等に本発明を適用してもよい。
なお、本明細書において、「部」や「手段」、「手順」とは、単に物理的構成を意味するものではなく、その「部」等が行う処理をソフトウェアによって実現する場合も含む。また、1つの「部」等や、装置が行う処理が2つ以上の物理的構成や装置により実行されても、2つ以上の「部」等や、装置が行う処理が1つの物理的手段や装置により実行されてもよい。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
少なくとも1つのハードウェアプロセッサを備え、
前記ハードウェアプロセッサは、
学習目的、及び制御を学習する際に行われる学習動作の許容要件を含む学習データを受け付け、
前記学習データに基づいて、学習を実行し、
前記ニューラルネットワークによる学習結果を出力し、
前記学習を実行することは、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習動作が前記許容要件に適合する制御範囲を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記制御範囲内において、前記学習目的を達成するための第3学習を実行することを含む。
(付記2)
少なくとも1つ以上のハードウェアプロセッサによって、
学習を行うステップであって、
学習目的と、前記制御を学習する際に行われる学習動作の許容要件とを含む学習データを受け付けるステップと、
前記学習データに基づいて、学習を実行するステップと、
前記学習を実行するステップによる学習結果を出力するステップと、
を実行し、
前記学習を実行するステップは、
前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習動作が前記許容要件に適合する制御範囲を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記制御範囲内において、前記学習目的を達成するための第3学習を実行するステップを含む、学習方法。
1 学習装置
10 制御部
20 機械学習部
21 学習データ入出力部
22 ニューラルネットワーク
23 学習結果出力部
30 動作分類部
31 制御データ抽出部
32 動作分類結果抽出部
40 記憶部
90 自動走行制御車両
91 制御用センサ
92 アクチュエータ
93 状態検知用センサ

Claims (8)

  1. 所定のタスクに係る動作の制御を学習する学習装置であって、
    学習目的と、前記制御を学習する際に行われる学習動作の許容要件とを含む学習データを受け付ける学習データ受付部と、
    前記学習データに基づいて、学習を実行するニューラルネットワークと、
    前記ニューラルネットワークによる学習結果を出力する出力部と、
    を備え、
    前記ニューラルネットワークは、
    前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習動作が前記許容要件に適合する制御範囲を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記制御範囲内において、前記学習目的を達成するための第3学習を実行する、
    学習装置。
  2. 前記出力部は、
    前記第2学習の結果を出力する、
    請求項1に記載の学習装置。
  3. 前記学習装置は、
    所定のタスクに係る一連の動作の制御を学習する学習装置であって、
    前記タスクを複数の場面に分割し、分割された前記場面それぞれにおいて、前記一連の動作のうち当該場面において行われる部分動作を特定する分類部をさらに備え、
    前記ニューラルネットワークは、前記第2学習及び前記第3学習を、部分動作ごとに実行する、
    請求項1に記載の学習装置。
  4. 所定のコースを周回する車両の自動走行に係る一連の動作について制御を学習する自動走行制御学習装置であって、
    前記コースを所定時間以内に所定の回数周回することを目的とする学習目的と、前記制御を学習する際に行われる学習動作の許容要件を含む学習データを受け付ける学習データ受付部と、
    前記学習データに基づいて、学習を実行するニューラルネットワークと、
    前記ニューラルネットワークによる学習結果を出力する出力部と、
    を備え、
    前記ニューラルネットワークは、
    前記コースを1周できることを達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習動作が前記許容要件に適合する制御範囲を学習する第2学習を実行し、当該第2学習の結果に基づいて、前記制御範囲内において、学習目的を達成するための第3学習を実行する、
    自動走行制御学習装置。
  5. 予め定められた載置場所へ所定の対象物を搬送して所定数積み重ね、梱包するタスクに係る一連の動作について制御を学習するロボット制御学習装置であって、
    前記タスクをなるべく早く完了させることを目的とする学習目的と、前記制御を学習する際に行われる学習動作の許容要件とを含む学習データを受け付ける学習データ受付部と、
    前記学習データに基づいて、学習を実行するニューラルネットワークと、
    前記ニューラルネットワークによる学習結果を出力する出力部と、
    を備え、
    前記ニューラルネットワークは、
    前記タスクに係る一連の動作を制御できることを達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習動作が前記許容要件に適合する制御範囲を学習する第2学習を実行し、当該第2学習の結果に基づいて、前記制御範囲内において、学習目的を達成するための第3学習を実行する、
    ロボット制御学習装置。
  6. 制御部を備えるコンピュータが実行する、所定のタスクに係る動作の制御を学習する学習方法であって、
    前記制御部が、
    学習目的と、前記制御を学習する際に行われる学習動作の許容要件とを含む学習データを受け付けるステップと、
    前記学習データに基づいて、学習を実行するステップと、
    前記学習を実行するステップによる学習結果を出力するステップと、
    を実行し、
    前記学習を実行するステップは、
    前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習動作が前記許容要件に適合する制御範囲を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記制御範囲内において、前記学習目的を達成するための第3学習を実行するステップを含む、学習方法。
  7. 所定のタスクに係る動作の制御を学習するコンピュータに、
    学習目的と、前記制御を学習する際に行われる学習動作の許容要件とを含む学習データを受け付ける手順、
    前記学習データに基づいて、学習を実行する手順、及び
    前記学習を実行する手順による学習結果を出力する手順、
    を実行させ、
    前記学習を実行する手順は、
    前記学習目的の初期段階を達成するための第1学習を実行し、当該第1学習の結果に基づいて、前記学習動作が前記許容要件に適合する制御範囲を学習する第2学習を実行し、前記第2学習の結果に基づいて、前記制御範囲内において、前記学習目的を達成するための第3学習を実行する、手順を含む、
    プログラム。
  8. 所定のタスクを実行する装置であって、
    前記装置がタスクを実行するための動作に必要な情報をセンシングする第1センサと、
    アクチュエータと、
    前記アクチュエータによる前記装置の状態変化をセンシングする第2センサと、
    前記第1センサ及び前記第2センサから出力されるセンサ値に基づいて前記アクチュエータを制御する制御部と、
    請求項1乃至3の何れか一項に記載された学習装置によって行われた学習結果を記憶する記憶部と、
    を備え、
    前記制御部は、
    前記記憶部に記憶された前記学習結果に基づいて、前記制御範囲に収まるように、前記第1センサ及び前記第2センサから出力されるセンサ値に応じた制御量を決定する、
    装置。
JP2017104528A 2017-05-26 2017-05-26 学習装置、学習制御方法、及びそのプログラム Active JP6863082B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017104528A JP6863082B2 (ja) 2017-05-26 2017-05-26 学習装置、学習制御方法、及びそのプログラム
PCT/JP2018/018133 WO2018216490A1 (en) 2017-05-26 2018-05-10 Learning apparatus, learning control method, program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017104528A JP6863082B2 (ja) 2017-05-26 2017-05-26 学習装置、学習制御方法、及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2018200539A true JP2018200539A (ja) 2018-12-20
JP6863082B2 JP6863082B2 (ja) 2021-04-21

Family

ID=62386888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017104528A Active JP6863082B2 (ja) 2017-05-26 2017-05-26 学習装置、学習制御方法、及びそのプログラム

Country Status (2)

Country Link
JP (1) JP6863082B2 (ja)
WO (1) WO2018216490A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020104584A (ja) * 2018-12-26 2020-07-09 トヨタ自動車株式会社 車両の制御装置
JPWO2021033315A1 (ja) * 2019-08-22 2021-02-25

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119815A (ja) * 1991-10-28 1993-05-18 Toshiba Corp 神経回路網を用いた障害物回避方法
JPH0660300A (ja) * 1992-08-04 1994-03-04 Takata Kk 神経回路網による衝突予防予測システム
JP2002310283A (ja) * 2001-04-10 2002-10-23 Mitsubishi Electric Corp 自動変速装置の異常検出装置
JP2004017256A (ja) * 2002-06-19 2004-01-22 Toyota Motor Corp 人間と共存するロボットの制御装置と制御方法
JP2008045651A (ja) * 2006-08-14 2008-02-28 Toyota Central Res & Dev Lab Inc 変速シミュレーション装置、変速シミュレーションプログラムおよび自動車
US20150127155A1 (en) * 2011-06-02 2015-05-07 Brain Corporation Apparatus and methods for operating robotic devices using selective state space training

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3433465B2 (ja) 1993-04-02 2003-08-04 日本電信電話株式会社 ロボットの学習制御方法
US9015093B1 (en) * 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119815A (ja) * 1991-10-28 1993-05-18 Toshiba Corp 神経回路網を用いた障害物回避方法
JPH0660300A (ja) * 1992-08-04 1994-03-04 Takata Kk 神経回路網による衝突予防予測システム
JP2002310283A (ja) * 2001-04-10 2002-10-23 Mitsubishi Electric Corp 自動変速装置の異常検出装置
JP2004017256A (ja) * 2002-06-19 2004-01-22 Toyota Motor Corp 人間と共存するロボットの制御装置と制御方法
JP2008045651A (ja) * 2006-08-14 2008-02-28 Toyota Central Res & Dev Lab Inc 変速シミュレーション装置、変速シミュレーションプログラムおよび自動車
US20150127155A1 (en) * 2011-06-02 2015-05-07 Brain Corporation Apparatus and methods for operating robotic devices using selective state space training

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
近藤 敏之 TOSHIYUKI KONDO: "拘束ルール抽出機構を用いた自律移動ロボットの段階的行動学習 An Incremental Behavior Learning Using C", 計測自動制御学会論文集 第40巻 第3号 TRANSACTIONS OF THE SOCIETY OF INSTRUMENT AND CONTROL ENGI, vol. 第40巻, JPN6021006714, JP, ISSN: 0004455902 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020104584A (ja) * 2018-12-26 2020-07-09 トヨタ自動車株式会社 車両の制御装置
JP7087995B2 (ja) 2018-12-26 2022-06-21 トヨタ自動車株式会社 車両の制御装置
JPWO2021033315A1 (ja) * 2019-08-22 2021-02-25
JP7334784B2 (ja) 2019-08-22 2023-08-29 日本電気株式会社 ロボット制御システム、ロボット制御方法、及び、プログラム

Also Published As

Publication number Publication date
JP6863082B2 (ja) 2021-04-21
WO2018216490A1 (en) 2018-11-29

Similar Documents

Publication Publication Date Title
US20180157973A1 (en) Method and device for a computerized mechanical device
JP2018200539A (ja) 学習装置、学習制御方法、及びそのプログラム
Majewski et al. Conceptual design of innovative speech interfaces with augmented reality and interactive systems for controlling loader cranes
EP3867021B1 (en) Robot navigation using a high-level policy model and a trained low-level policy model
Moosmann et al. Using deep neural networks to separate entangled workpieces in random bin picking
JP6978722B2 (ja) 学習装置、学習制御方法、及びそのプログラム
JP6863081B2 (ja) 学習装置、学習制御方法、及びそのプログラム
EP4192658A1 (en) Fine-grained industrial robotic assemblies
Duan et al. HRC for dual-robot intelligent assembly system based on multimodal perception
CN113590455A (zh) 用于经由多次迭代训练用于控制装置的控制策略的设备和方法
WO2021258023A1 (en) Robotic intervention systems
CN111356558B (zh) 用于仿真机器人的制动过程的方法和系统
Kang et al. Fusion drive: End-to-end multi modal sensor fusion for guided low-cost autonomous vehicle
CN116803631A (zh) 自主系统和由自主系统执行的方法
US11868446B2 (en) Method of operating neural network model using DRM package and method of processing data using the same
Kim et al. Robot intelligence technology and applications 2012: an edition of the presented papers from the 1st international conference on robot intelligence technology and applications
Eiband et al. Intuitive programming of conditional tasks by demonstration of multiple solutions
US20220402121A1 (en) Control and monitoring of a machine arrangement
Yusof et al. Simulation of mobile robot navigation utilizing reinforcement and unsupervised weightless neural network learning algorithm
CN115398352A (zh) 机器人过程
CN112230618A (zh) 一种从全局任务自动合成多机器人分布式控制器的方法
WO2021160273A1 (en) Computing system and method using end-to-end modeling for a simulated traffic agent in a simulation environment
Herrero et al. Parametrization of Compliant, Object-Level Controllers from Human Demonstrations
Zhang et al. Zeroth-Order Optimization Attacks on Deep Reinforcement Learning-Based Lane Changing Algorithms for Autonomous Vehicles.
US20180012133A1 (en) Method and system for behavior control of AI-based systems.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210315

R150 Certificate of patent or registration of utility model

Ref document number: 6863082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250