JP6988969B1 - 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法 - Google Patents

自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法 Download PDF

Info

Publication number
JP6988969B1
JP6988969B1 JP2020154225A JP2020154225A JP6988969B1 JP 6988969 B1 JP6988969 B1 JP 6988969B1 JP 2020154225 A JP2020154225 A JP 2020154225A JP 2020154225 A JP2020154225 A JP 2020154225A JP 6988969 B1 JP6988969 B1 JP 6988969B1
Authority
JP
Japan
Prior art keywords
inference
vehicle
learning
model
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020154225A
Other languages
English (en)
Other versions
JP2022048416A (ja
Inventor
泰宏 金剌
健人 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Original Assignee
Meidensha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp filed Critical Meidensha Corp
Priority to JP2020154225A priority Critical patent/JP6988969B1/ja
Priority to PCT/JP2021/032055 priority patent/WO2022059484A1/ja
Application granted granted Critical
Publication of JP6988969B1 publication Critical patent/JP6988969B1/ja
Publication of JP2022048416A publication Critical patent/JP2022048416A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D29/00Controlling engines, such controlling being peculiar to the devices driven thereby, the devices being other than parts or accessories essential to engine operation, e.g. controlling of engines by signals external thereto
    • F02D29/02Controlling engines, such controlling being peculiar to the devices driven thereby, the devices being other than parts or accessories essential to engine operation, e.g. controlling of engines by signals external thereto peculiar to engines driving vehicles; peculiar to engines driving variable pitch propellers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M17/00Testing of vehicles
    • G01M17/007Wheeled or endless-tracked vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Control Of Vehicle Engines Or Engines For Specific Uses (AREA)
  • Feedback Control In General (AREA)

Abstract

【課題】自動操縦ロボット(ドライブロボット)を制御する操作推論学習モデルの学習システム及び学習方法を提供する。【解決手段】模擬走行状態を操作推論学習モデル70に適用することで、操作推論学習モデル70を機械学習し、実環境1において、推論操作が推論されてから、推論操作が自動操縦ロボット4に入力されて車両2が操作、走行され、車両2の走行状態が取得され、走行状態が操作推論学習モデル70に適用されるまでに要する実時間を基に、推論操作が推論されてから仮想装置モデル50において使用され、模擬走行状態が出力されてから操作推論学習モデル70に適用されるまでの時間を調整する、調整部55を備えている。【選択図】図2

Description

本発明は、自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法に関する。
一般に、普通自動車などの車両を製造、販売する際には、国や地域により規定された、特定の走行パターン(モード)により車両を走行させた際の燃費や排出ガスを測定し、これを表示する必要がある。
モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット(登録商標)により、モードに従って車両を運転させることにより行われる。
指令車速には、許容誤差範囲が規定されている。車速が許容誤差範囲を逸脱すると、その試験は無効となるため、ドライブロボットの制御には、指令車速への高い追従性が求められる。このため、特に近年においては、ドライブロボットを、車両の現在の状態を入力すると、車両を指令車速に従って走行させるような操作を推論するように機械学習された学習モデルを用いて制御することがある。
例えば、特許文献1には、人間らしいペダル操作を行うドライバモデルを強化学習によって構築することが可能な車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラムが開示されている。
より詳細には、車輌用走行シミュレーション装置は、ドライバモデルのゲインの値を変更させながら、車輌モデルを複数回走行させ、この時に変更されたゲインの値を報酬値に基づいて評価することによって、ドライバモデルのゲインの設定を自動的に行う。上記ゲインの値は、車速の追従性を評価する車速報酬関数のみならず、アクセルペダルの操作の滑らかさを評価するアクセル報酬関数、ブレーキペダルの操作の滑らかさを評価するブレーキ報酬関数によっても評価が行われる。
特許文献1等において用いられる車両モデルとしては、通常、車両の各構成要素に対して、動作を模した物理モデルを各々作成し、これらを組み合わせた物理モデルとして作成される。
特開2014−115168号公報
特許文献1に開示されたような装置においては、車両の操作を推論する操作推論学習モデルを、車両モデルを基に学習している。このため、車両モデルを含めた仮想環境の、実車両を含めた実際の環境に対する再現精度が低いと、操作推論学習モデルをどれだけ精密に学習させたとしても、操作推論学習モデルが推論する操作が、実際の車両にそぐわないものとなり得る。
仮想環境の再現精度向上に大きな影響を有する実際の環境の特性として、処理時間が挙げられる。
例えば、実車両と車両モデルとは、何らかの操作が入力されてから、これに対応して走行状態が変化するまでの時間に、差異がある。これら実車両と車両モデルに限らず、実際の環境と仮想環境に個別に、例えばドライブロボットと、これを模擬動作するドライブロボットモデルのような、互いに対応する処理体系が設けられている場合には、これらの間には少なからず処理時間の際が生じ得る。
実際の環境と仮想環境の間で異なる処理時間を有し得る他の例として、データ等の伝達が挙げられる。例えば、実際の環境においては、ドライブロボットはアクチュエータを制御することで実車両のアクセルペダルやブレーキペダルを、機械的に、直接操作する。これに対し、仮想環境においては、ドライブロボットモデルの出力を車両モデルに入力するのみであるため、これらの間に機械的な動作は存在しない。したがって、仮想環境におけるデータ等の伝達に要する時間は、実際の環境よりも短いものとなり得る。
ドライブロボットと実車両の間のみならず、例えば操作推論学習モデルとドライブロボットあるいはドライブロボットモデルの間や、実車両あるいは車両モデルと操作推論学習モデルの間でのデータ伝達に要する時間に関しても、これらは、実際の環境と仮想環境で異なる値となり得る。
このように、仮想環境で操作推論学習モデルが推論した操作をドライブロボットモデルに入力して車両モデルを操作し、操作後の走行状態である模擬走行状態を取得して操作推論学習モデルに適用するまでの処理時間は、実際の環境で操作推論学習モデルが推論した操作をドライブロボットに入力して実車両を操作し、操作後の実際の走行状態を取得して操作推論学習モデルに適用するまでの処理時間とは異なった、多くの場合においてはより短い時間となり得る。
ここで、例えば、処理時間が上記のように実際の環境よりも小さな値として設定された仮想環境を用いて、アクセルペダルの操作を推論するように学習された操作推論学習モデルが、実際の環境で、アクセルペダルを操作するために使用される場合を考える。
このような場合においては、操作推論学習モデルがアクセルペダルの操作を推論した後の、実際の試験環境における、実際の走行状態が取得されるまでの反応が、仮想環境の場合に比べると遅くなる。このため、実際の環境においては、入力された操作に対応して正しく反応しようとしているにもかかわらず、操作推論学習モデルは実際の環境から想定された程度の十分な反応がないと認識する。結果として、操作推論学習モデルは、実際の環境に対し、より大きな反応を求めて、必要以上に大きくアクセルペダルを操作してしまう。
必要以上に大きな操作は、実車両に負担をかけるため、できるだけ出力しないように、低減するのが望ましい。
したがって、仮想環境においては、処理時間を、実際の環境にあわせて調整するように、構築することが必要となる。
例えば車両モデルが機械学習モデルである場合には、上記のような、実際の環境と仮想環境の処理時間の差異が発覚した後に、車両モデルを、処理時間が実際の環境に適合するように再度学習することも考えられる。すなわち、この場合においては、車両モデルが実際の環境の処理時間をも含めて学習するため、処理時間の調整に要する手間は省くことができる。しかし、機械学習モデルの再度の学習には多くの計算時間を要し、容易に実行され得るものではなく、現実的ではない。
あるいは、仮想環境を、実環境全体の、遅延も含めた、総合的な動作を再現するように構築することも考えられる。しかし、この場合においては、例えば車種が変わる等の、実車両を含めた、試験の対象となる試験環境が部分的に変わるだけで、仮想環境全体の再度の学習が必要となる。このため、実現が容易ではない。
本発明が解決しようとする課題は、車両モデルを操作実行の対象として操作推論学習モデルを機械学習するに際し、車両モデルと実車両との処理時間の差異に起因する操作推論学習モデルの学習精度の低下を、容易に抑制可能な、自動操縦ロボット(ドライブロボット)を制御する操作推論学習モデルの学習システム及び学習方法を提供することである。
本発明は、上記課題を解決するため、以下の手段を採用する。すなわち、本発明は、車両と、前記車両に搭載された自動操縦ロボットとを備える実環境と、車速を含む前記車両の走行状態を基に、前記車両を規定された指令車速に従って走行させるような、前記車両の操作を推論する操作推論学習モデルを備え、前記自動操縦ロボットは、前記操作推論学習モデルが推論した推論操作を基に当該車両を走行させ、前記操作推論学習モデルを機械学習する、自動操縦ロボットを制御する操作推論学習モデルの学習システムであって、前記車両を模擬動作するように設定され、前記推論操作を基に、前記車両を模した前記走行状態である模擬走行状態を出力する、車両モデルを備えた、仮想装置モデルを備え、前記仮想装置モデルは、前記推論操作が入力されると、当該推論操作を基に、前記車両モデルにより前記模擬走行状態を出力し、当該模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを機械学習し、前記実環境において、前記推論操作が推論されてから、当該推論操作が前記自動操縦ロボットに入力されて前記車両が操作、走行され、前記車両の前記走行状態が取得され、当該走行状態が前記操作推論学習モデルに適用されるまでに要する実時間を基に、前記推論操作が推論されてから前記仮想装置モデルにおいて使用され、前記模擬走行状態が出力されてから前記操作推論学習モデルに適用されるまでの時間を調整する、調整部を備えている、自動操縦ロボットを制御する操作推論学習モデルの学習システムを提供する。
また、本発明は、車両と、前記車両に搭載された自動操縦ロボットとを備える実環境と、車速を含む前記車両の走行状態を基に、前記車両を規定された指令車速に従って走行させるような、前記車両の操作を推論する操作推論学習モデルとに関し、前記自動操縦ロボットは、前記操作推論学習モデルが推論した推論操作を基に当該車両を走行させ、前記操作推論学習モデルを機械学習する、自動操縦ロボットを制御する操作推論学習モデルの学習方法であって、前記車両を模擬動作するように設定され、前記推論操作を基に、前記車両を模した前記走行状態である模擬走行状態を出力する、車両モデルを備えた、仮想装置モデルにおいて、前記推論操作が入力されると、当該推論操作を基に、前記車両モデルにより前記模擬走行状態を出力し、当該模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを機械学習し、前記実環境において、前記推論操作が推論されてから、当該推論操作が前記自動操縦ロボットに入力されて前記車両が操作、走行され、前記車両の前記走行状態が取得され、当該走行状態が前記操作推論学習モデルに適用されるまでに要する実時間を基に、前記推論操作が推論されてから前記仮想装置モデルにおいて使用され、前記模擬走行状態が出力されてから前記操作推論学習モデルに適用されるまでの時間を調整する、自動操縦ロボットを制御する操作推論学習モデルの学習方法を提供する。
本発明によれば、車両モデルを操作実行の対象として操作推論学習モデルを機械学習するに際し、車両モデルと実車両との処理時間の差異に起因する操作推論学習モデルの学習精度の低下を、容易に抑制可能な、自動操縦ロボット(ドライブロボット)を制御する操作推論学習モデルの学習システム及び学習方法を提供することができる。
本発明の実施形態における、自動操縦ロボット(ドライブロボット)を用いた試験環境の説明図である。 上記実施形態における自動操縦ロボットを制御する操作推論学習モデルの学習システムの、車両学習モデルの学習時における処理の流れを記したブロック図である。 上記車両学習モデルのブロック図である。 上記自動操縦ロボットを制御する操作推論学習モデルの学習システムの、操作推論学習モデルの事前学習時における処理の流れを記したブロック図である。 上記自動操縦ロボットを制御する操作推論学習モデルの学習システムの、操作推論学習モデルの事前学習が終了した後の強化学習時における処理の流れを記したブロック図である。 上記実施形態における自動操縦ロボットを制御する操作推論学習モデルの学習方法のフローチャートである。 上記実施形態の第1変形例の学習システムの、操作推論学習モデルの事前学習時における処理の流れを記したブロック図である。
以下、本発明の実施形態について図面を参照して詳細に説明する。
本実施形態においては、自動操縦ロボットとしては、ドライブロボット(登録商標)を用いているため、以下、自動操縦ロボットをドライブロボットと記載する。
図1は、実施形態におけるドライブロボットを用いた試験環境の説明図である。試験装置1は、車両2、シャシーダイナモメータ3、及びドライブロボット4を備えている。
車両2は、床面上に設けられている。シャシーダイナモメータ3は、床面の下方に設けられている。車両2は、車両2の駆動輪2aがシャシーダイナモメータ3の上に載置されるように、位置づけられている。車両2が走行し駆動輪2aが回転する際には、シャシーダイナモメータ3が反対の方向に回転する。
ドライブロボット4は、車両2の運転席2bに搭載されて、車両2を走行させる。ドライブロボット4は、第1アクチュエータ4cと第2アクチュエータ4dを備えており、これらはそれぞれ、車両2のアクセルペダル2cとブレーキペダル2dに当接するように設けられている。
ドライブロボット4は、後に詳説する学習制御装置11によって制御されている。学習制御装置11は、ドライブロボット4の第1アクチュエータ4cと第2アクチュエータ4dを制御することにより、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更、調整する。
学習制御装置11は、ドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する。すなわち、学習制御装置11は、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更することで、規定された走行パターン(モード)に従うように、車両2を走行制御する。より詳細には、学習制御装置11は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両2を走行制御する。
学習システム10は、上記のような試験装置1と学習制御装置11を備えている。
学習制御装置11は、ドライブロボット制御部20と学習部30を備えている。
ドライブロボット制御部20は、ドライブロボット4の制御を行うための制御信号を生成し、ドライブロボット4に送信することで、ドライブロボット4を制御する。学習部30は、後に説明するような機械学習を行い、車両学習モデル、操作推論学習モデル、及び価値推論学習モデルを生成する。上記のような、ドライブロボット4の制御を行うための制御信号は、操作推論学習モデルにより生成される。
ドライブロボット制御部20は、例えば、ドライブロボット4の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部30は、例えばパーソナルコンピュータ等の情報処理装置である。
図2は、学習システム10のブロック図である。図2においては、各構成要素を結ぶ線は、上記車両学習モデルを機械学習する際にデータの送受信があるもののみが示されており、したがって構成要素間の全てのデータの送受信を示すものではない。
試験装置1は、既に説明したような車両2、シャシーダイナモメータ3、及びドライブロボット4に加え、車両状態計測部5を備えている。車両状態計測部5は、車両2の状態を計測する各種の計測装置である。車両状態計測部5としては、例えばアクセルペダル2cやブレーキペダル2dの操作量を計測するためのカメラや赤外線センサなどであり得る。
ドライブロボット制御部20は、ペダル操作パターン生成部21、車両操作制御部22、及び駆動状態取得部23を備えている。学習部30は、指令車速生成部31、推論データ成形部32、学習データ成形部33、学習データ生成部34、学習データ記憶部35、強化学習部40、及び仮想装置モデル50を備えている。強化学習部40は、操作内容推論部41、状態行動価値推論部42、及び報酬計算部43を備えている。仮想装置モデル50は、ドライブロボットモデル(自動操縦ロボットモデル)51、車両モデル52、シャシーダイナモメータモデル53、及び調整部55を備えている。調整部55は、推論操作調整部56、車両モデル入力調整部57、及び模擬走行状態調整部58を備えている。
学習制御装置11の、学習データ記憶部35以外の各構成要素は、例えば上記の各情報処理装置内のCPUにより実行されるソフトウェア、プログラムであってよい。また、学習データ記憶部35は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。
仮想装置モデル50の、車両モデル52、ドライブロボットモデル51及びシャシーダイナモメータモデル53は、試験装置1の、車両2、ドライブロボット4、シャシーダイナモメータ3に対応して、これらを模擬動作するように構成された、例えばプログラムである。すなわち、仮想装置モデル50は、物理的に現存する実際の環境である試験装置(実環境)1に対し、これを模擬動作するように構成された、仮想環境である。
後に説明するように、操作内容推論部41は、ある時刻における走行状態を基に、指令車速に従うような、当該時刻よりも後の車両2の操作を推論する。この、車両2の操作の推論を効果的に行うために、特に操作内容推論部41は、後に説明するように機械学習器を備えており、推論した操作に基づいたドライブロボット4の操作の後の時刻における走行状態に基づいて計算された報酬を基に機械学習器を機械学習して学習モデル(操作推論学習モデル)70を生成する。操作内容推論部41は、性能測定のために実際に車両2を走行制御させる際には、この学習が完了した操作推論学習モデル70を使用して、車両2の操作を推論する。
すなわち、学習システム10は大別して、機械学習時における操作の学習と、性能測定のために車両を走行制御させる際における操作の推論の、2通りの動作を行う。説明を簡単にするために、以下ではまず、操作の学習時における、学習システム10の各構成要素の説明をした後に、車両の性能測定に際して操作を推論する場合での各構成要素の挙動について説明する。
まず、操作の学習時における、学習制御装置11の構成要素の挙動を説明する。
学習制御装置11は、操作の学習に先立ち、学習時に使用する走行実績データ(走行実績)を、走行実績として収集する。詳細には、ドライブロボット制御部20が、アクセルペダル2c及びブレーキペダル2dの、車両特性計測用の操作パターンを生成して、これにより車両2を走行制御し、走行実績データを収集する。
ペダル操作パターン生成部21は、ペダル2c、2dの、車両特性計測用の操作パターンを生成する。ペダル操作パターンとしては、例えば車両2と類似する他の車両において、WLTC(Worldwide harmonized Light vehicles Test Cycle)モードなどによって走行した際のペダル操作の実績値を使用することができる。
ペダル操作パターン生成部21は、生成したペダル操作パターンを、車両操作制御部22へ送信する。
車両操作制御部22は、ペダル操作パターン生成部21から、ペダル操作パターンを受信し、これを、ドライブロボット4の第1及び第2アクチュエータ4c、4dへの指令に変換して、ドライブロボット4に送信する。
ドライブロボット4は、アクチュエータ4c、4dへの指令を受信すると、これに基づいて車両2をシャシーダイナモメータ3上で走行させる。
駆動状態取得部23は、例えばアクチュエータ4c、4dの位置等の、ドライブロボット4の実際の駆動状態を取得する。車両2が走行することにより、車両2の走行状態は逐次変化する。駆動状態取得部23と、車両状態計測部5、及びシャシーダイナモメータ3に設けられた様々な計測器により、車両2の走行状態が計測される。例えば、駆動状態取得部23は上記のように、アクセルペダル2cの検出量と、ブレーキペダル2dの検出量を、走行状態として計測する。また、シャシーダイナモメータ3に設けられた計測器は、車速を走行状態として計測する。
計測された車両2の走行状態は、学習部30の学習データ成形部33へ送信される。
学習データ成形部33は、車両2の走行状態を受信し、受信したデータを後の様々な学習において使用されるフォーマットに変換して、走行実績データとして学習データ記憶部35に保存する。
車両2の走行状態すなわち走行実績データの収集が終了すると、学習データ生成部34は学習データ記憶部35から走行実績データを取得し、適切なフォーマットに成形して、仮想装置モデル50に送信する。
学習部30の、仮想装置モデル50の車両モデル52は、学習データ生成部34から成形された走行実績データを取得し、これを用いて機械学習器60を機械学習して、車両学習モデル60を生成する。車両学習モデル60は、車両2の実際の走行実績である走行実績データを基に車両2を模擬動作するように設定、本実施形態においては機械学習され、車両2に対する操作を受信すると、これを基に、車両2を模した模擬走行状態を出力する。すなわち、車両モデル52の機械学習器60は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデル60を生成するものである。
本実施形態においては、車両学習モデル60は、ニューラルネットワークで実現されている。
以下、説明を簡単にするため、車両モデル52が備えている機械学習器と、これが学習されて生成される学習モデルをともに、車両学習モデル60と呼称する。
図3は、車両学習モデル60のブロック図である。本実施形態においては、車両学習モデル60は、中間層を3層とした全5層の全結合型のニューラルネットワークにより実現されている。車両学習モデル60は、入力層61、中間層62、及び出力層63を備えている。図3においては、各層が矩形として描かれており、各層に含まれるノードは省略されている。
本実施形態においては、車両学習モデル60の入力は、任意の基準時刻を基点として、走行実績データ内の所定の第1時間だけ過去から基準時刻までの間の、車速の系列を含む。また、本実施形態においては、車両学習モデル60の入力は、基準時刻から所定の第2時間だけ将来の時刻までの間の、アクセルペダル2cの操作量の系列、及びブレーキペダル2dの操作量の系列を含む。これらアクセルペダル2cの操作量の系列、及びブレーキペダル2dの操作量の系列は、実際には、学習データ記憶部35に保存された走行実績データ内の、基準時刻以降のアクセルペダル2cの検出量と、ブレーキペダル2dの検出量であり、これらが基準時刻において車両2に対して適用される操作として、車両学習モデル60に入力される。
入力層61は、上記のような車速の系列である車速系列i1、アクセルペダル2cの操作量の系列であるアクセルペダル操作量系列i2、及びブレーキペダル2dの操作量の系列であるブレーキペダル操作量系列i3の各々に対応する入力ノードを備えている。
上記のように、各入力i1、i2、i3は系列であり、それぞれ、複数の値により実現されている。例えば、図3においては、一つの矩形として示されている、車速系列i1に対応する入力は、実際には、車速系列i1の複数の値の各々に対応するように、入力ノードが設けられている。
車両モデル52は、各入力ノードに、対応する走行実績データの値を格納する。
中間層62は、第1中間層62a、第2中間層62b、及び第3中間層62cを備えている。
中間層62の各ノードにおいては、前段の層(例えば、第1中間層62aの場合は入力層61、第2中間層62bの場合は第1中間層62a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層62のノードへの重みを基にした演算がなされて、当該中間層62のノード内に演算結果が格納される。
出力層63においても、中間層62の各々と同様な演算が行われ、出力層63に備えられた各出力ノードに演算結果が格納される。
本実施形態においては、車両学習モデル60の出力は、基準時刻から所定の第3時間だけ将来の時刻(後の時刻)までの間の、推定された車速の系列である推定車速系列o1と、アクセルペダル2cの検出量の系列であるアクセルペダル検出量系列o2、及びブレーキペダル2dの検出量の系列であるブレーキペダル検出量系列o3を含む、模擬走行状態oである。この、図3においては、一つの矩形として示されている模擬走行状態oの各々は、実際には、上記の複数の値の各々に対応するように、出力ノードが設けられている。
車両学習モデル60においては、上記のように基準時刻の走行実績が入力されて、後の時刻の、車両2の走行を模した模擬走行状態oを出力することができるように学習がなされる。
より詳細には、車両モデル52は、別途学習データ記憶部35から学習データ生成部34を介して送信された、基準時刻から第3時間だけ将来の時刻までの間の走行実績を、教師データとして受信する。車両モデル52は、教師データと、車両学習モデル60が出力した模擬走行状態oの平均二乗誤差が小さくなるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。
車両モデル52は、車両学習モデル60の学習を繰り返しつつ、教師データと模擬走行状態oの最小二乗誤差を都度計算し、これが所定の値よりも小さければ、車両学習モデル60の学習を終了する。
車両学習モデル60の学習が終了すると、学習システム10の強化学習部40は、操作内容推論部41に設けられた、車両2の操作を推論する操作推論学習モデル70を事前学習する。図4は、事前学習時のデータの送受信関係が示された学習システム10のブロック図である。本実施形態においては、操作推論学習モデル70は、強化学習により機械学習される。すなわち、操作推論学習モデル70は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
学習システム10は、既に学習が終了した車両学習モデル60が出力した模擬走行状態を操作推論学習モデル70に適用することで、操作推論学習モデル70を事前に強化学習する。後に説明するように、操作推論学習モデル70の強化学習が進行して事前の強化学習が終了した後に、操作推論学習モデル70の出力した推論操作を基に実際に車両2を走行させて取得された走行状態を操作推論学習モデル70に適用することで、操作推論学習モデル70を更に強化学習する。このように、学習システム10は、操作推論学習モデル70の学習段階に応じて、推論操作の実行対象及び走行状態の取得対象を、車両学習モデル60から実車両2へと変更する。
後に説明するように、操作内容推論部41は、学習が中途段階の操作推論学習モデル70によって、現時点から第1時間だけ将来の時刻までの間の車両2の操作を推論操作として出力し、これを推論操作調整部56に送信する。本実施形態において、操作内容推論部41は、特にアクセルペダル2c及びブレーキペダル2dの操作の系列、すなわちペダル操作量を出力する。
車両学習モデル60の学習により、仮想装置モデル50は、全体として、実環境としての試験装置1の各々を模擬動作するように構成されている。仮想装置モデル50は、推論操作を受信する。
推論操作調整部56は、後に詳細に説明するように、推論操作が操作推論学習モデル70によって推論されてからドライブロボットモデル51に入力されるまでの時間を調整する。推論操作調整部56は、時間が調整された推論操作を、ドライブロボットモデル51に送信する。
ドライブロボットモデル51は、ドライブロボット4を模擬動作するように構成されている。ドライブロボットモデル51は、推論操作調整部56から受信した、時間が調整された推論操作を基に、操作系の表現を車両2に対する実際のペダル操作量の値へと変換して、入力操作を生成する。より詳細には、ドライブロボットモデル51は、入力操作としてペダル操作量の系列であるアクセルペダル操作量系列i2とブレーキペダル操作量系列i3を生成し、車両モデル入力調整部57に送信する。
シャシーダイナモメータモデル53は、シャシーダイナモメータ3を模擬動作するように構成されている。シャシーダイナモメータ3は、模擬走行中の車両学習モデル60の車速を検出しつつ、これを内部に随時記録している。シャシーダイナモメータモデル53は、この過去の車速の記録から車速系列i1を生成し、車両モデル入力調整部57に送信する。
車両モデル入力調整部57は、後に詳細に説明するように、車速系列i1と入力操作i2、i3が車両モデル52に入力されるまでの時間を調整する。車両モデル入力調整部57は、時間が調整された車速系列i1と入力操作i2、i3を、車両モデル52に送信する。
車両モデル52は、車速系列i1と入力操作i2、i3を受信して、これらを車両学習モデル60に入力する。車両学習モデル60が模擬走行状態oを出力すると、車両モデル52は模擬走行状態oをシャシーダイナモメータモデル53と模擬走行状態調整部58に送信する。
模擬走行状態調整部58は、後に説明するように、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を調整する。
模擬走行状態調整部58によって時間が調整された模擬走行状態oは、推論データ成形部32と強化学習部40に送信される。
このように、仮想装置モデル50は、推論操作が入力されると、推論操作を基に、車両モデル52により模擬走行状態oを出力する。
指令車速生成部31は、モードに関する情報に基づいて生成された、指令車速を保持している。指令車速生成部31は、現時点から所定の第4時間だけ将来の時刻までの間に、車両学習モデル60が従うべき指令車速の系列を生成し、推論データ成形部32に送信する。
推論データ成形部32は、模擬走行状態oと指令車速系列を受信し、適切に成形した後に強化学習部40に送信する。
強化学習部40は、模擬走行状態oと指令車速系列を、走行状態として操作内容推論部41に送信する。
操作内容推論部41は、ある時刻において走行状態を受信すると、これを基に、学習中の操作推論学習モデル70により、当該時刻より後の操作の系列を推論する。
本実施形態においては、操作推論学習モデル70は、走行状態の各々に対応する入力ノードを備えた入力層と、複数の中間層、及び複数の出力ノードを有する出力層を備えた、ニューラルネットワークである。
入力ノードの各々に、対応する走行状態の値が入力されると、重みを基にした演算がなされて、入力ノードの次の段として設けられた中間層の、中間ノードの各々に、演算結果が格納される。このような演算と、次の段の中間ノードへの演算結果の格納が、各中間層に対して順次実行される。最終的には、最終段の中間層内の中間ノードに格納された演算結果を基に、同様な演算がなされ、その結果が出力ノードに格納される。
操作推論学習モデル70の出力ノードの各々は、操作の各々に対応するように設けられている。本実施形態においては、操作の対象は、アクセルペダル2cとブレーキペダル2dであり、これに対応して、操作推論学習モデル70は、操作として、例えばアクセルペダル操作の系列とブレーキペダル操作の系列を推論する。
操作内容推論部41は、このようにして生成されたアクセルペダル操作とブレーキペダル操作を、推論操作として仮想装置モデル50に送信する。仮想装置モデル50においては、推論操作調整部56が推論操作の時間を調整し、ドライブロボットモデル51がこれを基に入力操作となるアクセルペダル操作量系列i2とブレーキペダル操作量系列i3を生成する。そして、車両モデル入力調整部57が入力操作の時間を調整したうえで車両学習モデル60に送信する。車両学習モデル60は、これを受信して、次の模擬走行状態oを推論する。模擬走行状態調整部58は模擬走行状態oの時間を調整する。このようにして、次の走行状態が生成される。
操作推論学習モデル70の学習、すなわち誤差逆伝搬法、確率的勾配降下法によるニューラルネットワークを構成する各パラメータの値の調整は、現段階においては行われず、操作推論学習モデル70は操作を推論するのみである。操作推論学習モデル70の学習は、後に、価値推論学習モデル80の学習に伴って行われる。
報酬計算部43は、走行状態と、これに対応して操作推論学習モデル70により推論された推論操作、及び当該推論操作を基に新たに生成された走行状態を基に、適切に設計された式により報酬を計算する。報酬は、推論操作、及びこれに伴う新たに生成された走行状態が望ましくないほど小さい値を、望ましいほど大きい値を、有するように設計されている。後述する状態行動価値推論部42は、行動価値を、報酬が大きいほどこれが高くするように計算し、操作推論学習モデル70はこの行動価値が高くなるような推論操作を出力するように、強化学習が行われる。
報酬計算部43は、走行状態、これに対応して推論された推論操作、当該推論操作を基に新たに生成された走行状態、及び計算した報酬を、学習データ成形部33に送信する。学習データ成形部33は、これらを適切に成形して学習データ記憶部35に保存する。これらのデータは、後述する価値推論学習モデル80の学習に使用される。
このようにして、操作内容推論部41による推論操作の推論と、この推論操作に対応した、車両モデル52による模擬走行状態oの推論、及び報酬の計算が、価値推論学習モデル80の学習に十分なデータが蓄積されるまで、繰り返し行われる。
学習データ記憶部35に、価値推論学習モデル80の学習に十分な量の走行データが蓄積されると、状態行動価値推論部42は価値推論学習モデル80を学習する。価値推論学習モデル80は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
強化学習部40は全体として、操作推論学習モデル70が推論した推論操作がどの程度適切であったかを示す行動価値を計算し、操作推論学習モデル70が、この行動価値が高くなるような推論操作を出力するように、強化学習を行う。行動価値は、走行状態と、これに対する推論操作を引数として、報酬が大きいほど行動価値を高くするように設計された関数として表わされる。本実施形態においては、この関数の計算を、走行状態と推論操作を入力として、行動価値を出力するように設計された、関数近似器としての学習モデル80により行う。
操作学習データ生成部34は、学習データ記憶部35内の学習データを成形して、状態行動価値推論部42へ送信する。
状態行動価値推論部42は、成形された学習データを受信し、価値推論学習モデル80を機械学習させる。
本実施形態においては、価値推論学習モデル80は、走行状態と推論操作の各々に対応する入力ノードを備えた入力層と、複数の中間層、及び行動価値に対応する出力ノードを備えた、ニューラルネットワークである。価値推論学習モデル80は、操作推論学習モデル70と同様な構造のニューラルネットワークにより実現されているため、構造上の詳細な説明を割愛する。
状態行動価値推論部42は、TD(Temporal Difference)誤差、すなわち、推論操作を実行する前の行動価値と、推論操作を実行した後の行動価値の誤差を小さくして、行動価値として適切な値が出力されるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。このように、現状の操作推論学習モデル70によって推論された推論操作を適切に評価できるように、価値推論学習モデル80を学習させる。
価値推論学習モデル80の学習が進むと、価値推論学習モデル80は、より適切な行動価値の値を出力するようになる。すなわち、価値推論学習モデル80が出力する行動価値の値が学習前とは変わるため、これに伴い、行動価値が高くなるような推論操作を出力するように設計された操作推論学習モデル70を更新する必要がある。このため、操作内容推論部41は操作推論学習モデル70を学習する。
具体的には、操作内容推論部41は、例えば行動価値の負値を損失関数とし、これをできるだけ小さくするような、すなわち行動価値が大きくなるような推論操作を出力するように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整して、操作推論学習モデル70を学習させる。
操作推論学習モデル70が学習され更新されると、出力される推論操作が変化するため、再度走行データを蓄積し、これを基に価値推論学習モデル80を学習する。
このように、学習部30は、操作推論学習モデル70と価値推論学習モデル80の学習を繰り返すことにより、これら学習モデル70、80を強化学習する。
学習部30は、この事前学習としての、車両学習モデル60を推論操作の実行対象として用いた強化学習を、事前学習終了基準を満たすまで実行する。
次に、上記のような車両学習モデル60を用いた操作推論学習モデル70の事前学習における、調整部55の挙動を説明する。
操作推論学習モデル70が精度よく学習されるためには、仮想装置モデル50において、試験装置1の再現精度を高める必要がある。この際に特に重要となるのは、試験装置1における処理時間を、仮想装置モデル50においても正確に再現することである。
仮想環境で、すなわち仮想装置モデル50において、操作推論学習モデル70が推論した推論操作をドライブロボットモデル51に入力して車両モデル52を操作し、操作後の走行状態である模擬走行状態oを取得して操作推論学習モデル70に適用するまでの処理時間は、実際の環境で、すなわち試験装置1において、操作推論学習モデル70が推論した推論操作をドライブロボット4に入力して車両2を操作し、操作後の実際の走行状態を取得して操作推論学習モデル70に適用するまでの処理時間とは異なった、多くの場合においてはより短い時間となり得る。
このため、操作推論学習モデル70が例えばアクセルペダル2cの操作を推論した後の、実際の試験装置1における、実際の走行状態が取得されるまでの反応が、仮想装置モデル50の場合に比べると遅くなることが想定される。これにより、特に本実施形態のように、操作推論学習モデル70の学習段階に応じて、推論操作の実行対象及び走行状態の取得対象を、車両学習モデル60から実車両2へと変更するような場合には、次のような不都合が生じる。すなわち、試験装置1においては、入力された推論操作に対応して正しく反応しようとしているにもかかわらず、操作推論学習モデル70は試験装置1から想定された程度の十分な反応がないと認識する。結果として、操作推論学習モデル70は、試験装置1に対し、より大きな反応を求めて、必要以上に大きくアクセルペダルを操作するような、推論操作を推論してしまう。
このような、実際の試験装置1を用いた際に必要以上に大きな操作が推論されるのを抑制するために、調整部55は、仮想装置モデル50を用いて操作推論学習モデル70を学習させる際に、推論操作や模擬走行状態oが使用される時間を調整する。
後に説明するように、事前学習終了後に、試験装置1を用いて操作推論学習モデル70を学習する際には、操作推論学習モデル70の出力した推論操作は、試験装置1に送信されて、ドライブロボット4に入力される。このため、試験装置1を用いた場合には、推論操作が推論されてからドライブロボット4へ入力されるまでの、一定の、実環境での伝達時間が必要である。
同様に、事前学習時に、仮想装置モデル50を用いて操作推論学習モデル70を学習する際にも、操作推論学習モデル70の出力した推論操作は、仮想装置モデル50に送信されて、ドライブロボットモデル51に入力される。このため、仮想装置モデル50を用いた場合にも、推論操作が推論されてからドライブロボットモデル51へ入力されるまでの、一定の、仮想環境での伝達時間が必要である。
ここで、本実施形態においては、ドライブロボット4は、学習制御装置11とは独立して別個に設けられた装置であるが、ドライブロボットモデル51は、学習制御装置11内に設けられた、学習制御装置11の構成要素である。したがって、操作推論学習モデル70によって推論された推論操作の、実環境での伝達時間は、仮想環境での伝達時間よりも長いものとなり得る。
推論操作調整部56は、推論操作の入力時における、仮想環境での伝達時間を、実環境での伝達時間と同等となるように調整する。すなわち、推論操作調整部56は、試験装置1を用いた場合において、推論操作が推論されてから、当該推論操作がドライブロボット4に入力されるまでの時間を基に、推論操作が推論されてからドライブロボットモデル51に入力されるまでの時間を調整する。
より詳細には、推論操作調整部56は、操作推論学習モデル70が出力した推論操作が、ドライブロボットモデル51に、推論操作が出力された時刻から上記の実環境での伝達時間後に、入力されるように、推論操作の伝達時間を遅延させる。
また、事前学習終了後に、試験装置1を用いて操作推論学習モデル70を学習する際には、ドライブロボット4は、第1及び第2アクチュエータ4c、4dを制御することで、車両2のアクセルペダル2cやブレーキペダル2dを、機械的に、直接操作する。このため、試験装置1を用いた場合には、推論操作がドライブロボット4へ入力されてから車両2が操作されるまでの、一定の、実環境での作動時間が必要である。
同様に、事前学習時に、仮想装置モデル50を用いて操作推論学習モデル70を学習する際にも、ドライブロボットモデル51は、入力操作を車両モデル52に入力することで、車両モデル52を操作する。このため、仮想装置モデル50を用いた場合にも、入力操作が車両モデル52に入力されるまでの、一定の、仮想環境での作動時間が必要である。
ここで、本実施形態においては、ドライブロボット4は上記のように、車両2を機械的に操作するのに対し、ドライブロボットモデル51と車両モデル52は、同一の学習制御装置11内に設けられた、プログラムなどの構成要素である。したがって、車両2の操作に要する、実環境での作動時間は、車両モデル52の操作に要する、仮想環境での作動時間よりも長いものとなり得る。
車両モデル入力調整部57は、仮想環境での作動時間を、実環境での作動時間と同等となるように調整する。すなわち、車両モデル入力調整部57は、試験装置1を用いた場合において、推論操作がドライブロボット4に入力されてから車両2が操作されるまでの時間を基に、入力操作が車両モデル52に入力されるまでの時間を調整する。
より詳細には、車両モデル入力調整部57は、ドライブロボットモデル51が出力した入力操作が、車両モデル52に、入力操作が出力された時刻から上記の実環境での作動時間後に、入力されるように、入力操作の伝達時間を遅延させる。
更に、事前学習終了後に、試験装置1を用いて操作推論学習モデル70を学習する際には、車両2がドライブロボット4によって操作、走行された結果として、車両状態計測部5によって走行状態が取得され、学習部30に送信されて加工され、操作推論学習モデル70に入力される。このため、試験装置1を用いた場合には、走行状態が取得されてから操作推論学習モデル70へ適用されるまでの、一定の、実環境での伝達時間が必要である。
同様に、事前学習時に、仮想装置モデル50を用いて操作推論学習モデル70を学習する際にも、車両モデル52がドライブロボットモデル51によって操作、走行された結果として、模擬走行状態oが取得され、最終的には操作推論学習モデル70に入力される。このため、仮想装置モデル50を用いた場合にも、模擬走行状態oが取得されてから操作推論学習モデル70へ適用されるまでの、一定の、仮想環境での伝達時間が必要である。
ここで、本実施形態においては、車両2や車両2の走行状態を取得する車両状態計測部5は、学習制御装置11とは独立して別個に設けられた装置であるが、車両モデル52は、学習制御装置11内に設けられた、学習制御装置11の構成要素である。したがって、走行状態が操作推論学習モデル70に適用されるまでの、実環境での伝達時間は、模擬走行状態oが操作推論学習モデル70に適用されるまでの、仮想環境での伝達時間よりも、長いものとなり得る。
模擬走行状態調整部58は、模擬走行状態oの出力時における、仮想環境での伝達時間を、走行状態の実環境での伝達時間と同等となるように調整する。すなわち、模擬走行状態調整部58は、試験装置1を用いた場合において、車両2の走行状態が取得されてから操作推論学習モデル70に適用されるまでの時間を基に、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を調整する。
より詳細には、模擬走行状態調整部58は、車両モデル52が出力した模擬走行状態oが、操作推論学習モデル70に、模擬走行状態oが出力された時刻から上記の実環境での伝達時間後に、入力されるように、模擬走行状態oの伝達時間を遅延させる。
このように、調整部55は、実環境すなわち試験装置1において、推論操作が推論されてから、当該推論操作がドライブロボット4に入力されて車両2が操作、走行され、車両2の走行状態が取得され、当該走行状態が操作推論学習モデル70に適用されるまでに要する実時間を基に、推論操作が推論されてから仮想装置モデル50において使用され、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を調整する。
上記のような時間の調整は、より詳細には、例えば次のように、推論操作や模擬走行状態o等のデータの伝達を遅延させることで行われる。ここでは、模擬走行状態調整部58を例として説明するが、推論操作調整部56、車両モデル入力調整部57も同様に構成することが可能である。
模擬走行状態調整部58は、リングメモリを備えている。リングメモリは、例えば、メモリ上で一定の長さの配列を確保し、当該配列の末尾を超えてアクセスがなされた際には、当該配列の先頭をアクセスするように構成されている。
模擬走行状態調整部58は、車両モデル52が模擬走行状態oを推論するたびに、リングメモリの先頭位置に模擬走行状態oを格納し、先頭位置を新たに格納された模擬走行状態oの先に移動させる。模擬走行状態oは車両モデル52によって続々と推論されるが、格納対象がリングメモリであるため、これを適切に設計した際には、メモリの末尾を意識することなく、データの格納が可能である。
ここで、データの伝達を遅延させる時間をTdelay、車両モデル52において模擬走行状態oの推論がなされる時間間隔をTsim、リングメモリに格納される模擬走行状態oのデータサイズをLstateとすると、これらの値と、Tdelay時間の間にリングメモリに格納される模擬走行状態oの総データサイズLnumとの間には、次の関係が成立する。
delay = (Lnum / Lstate) × Tsim
すなわち、模擬走行状態調整部58は、リングメモリから、データサイズLnumだけ先頭位置から後方に位置して格納された模擬走行状態oを取得し、これを模擬走行状態oとして出力することで、模擬走行状態oの出力を時間Tdelayだけ遅延させている。
ここで、リングメモリの大きさを、上記の総データサイズLnumと一致させると、データサイズLnumだけ先頭位置から後方に位置して格納された模擬走行状態oを取得する際に、実際には、リングメモリの先頭位置に現在格納されている模擬走行状態oを取得すればよいので、好適である。すなわち、この場合には、模擬走行状態調整部58の実装が容易となる。
操作推論学習モデル70及び価値推論学習モデル80の、車両学習モデル60を推論操作の実行対象として用いた事前学習が終了すると、学習部30は、車両学習モデル60に替えて、実車両2を推論操作の実行対象として、操作推論学習モデル70及び価値推論学習モデル80を更に強化学習する。図5は、事前学習が終了した後の強化学習時におけるデータの送受信関係が示された学習システム10のブロック図である。
操作内容推論部41は、現時点から第1時間だけ将来の時刻までの間の車両2の推論操作を出力し、これを車両操作制御部22に送信する。
車両操作制御部22は、受信した推論操作を、ドライブロボット4の第1及び第2アクチュエータ4c、4dへの指令に変換して、ドライブロボット4に送信する。
ドライブロボット4は、アクチュエータ4c、4dへの指令を受信すると、これに基づいて車両2をシャシーダイナモメータ3上で走行させる。
シャシーダイナモメータ3と車両状態計測部5は、車両2の車速、アクセルペダル2cとブレーキペダル2dの操作量を検出して各々の系列を生成し、推論データ成形部32に送信する。
指令車速生成部31は、指令車速系列を生成して推論データ成形部32に送信する。
推論データ成形部32は、各系列を受信し、適切に成形した後に走行状態として、強化学習部40に送信する。
強化学習部40は、試験装置モデル50により生成される推定車速系列oの替わりに上記の各系列を用いて、図4を用いて説明した事前学習時と同様に、上記のように実車両2を推論操作の実行対象として用いて学習データを学習データ記憶部35に蓄積する。強化学習部40は、十分な量の走行データが蓄積されると、価値推論学習モデル80を学習し、その後操作推論学習モデル70を学習する。
学習部30は、学習データの蓄積と、操作推論学習モデル70と価値推論学習モデル80の学習を繰り返すことにより、これら学習モデル70、80を強化学習する。
学習部30は、車両2を推論操作の実行対象として用いた強化学習を、所定の学習終了基準を満たすまで実行する。
次に、車両2の性能測定に際して推論操作を推論する場合での、すなわち、操作推論学習モデル70の強化学習が終了した後における、学習システム10の各構成要素の挙動について説明する。
駆動状態取得部23と、車両状態計測部5、及びシャシーダイナモメータ3に設けられた様々な計測器により、車両2の車速、アクセルペダル2cの検出量、ブレーキペダル2dの検出量等が計測される。これらの値は、推論データ成形部32に送信される。
指令車速生成部31は、指令車速系列を生成して推論データ成形部32に送信する。
推論データ成形部32は、車速、アクセルペダル2cの検出量、ブレーキペダル2dの検出量等と、指令車速系列を受信し、適切に成形した後に走行状態として、強化学習部40に送信する。
操作内容推論部41は、走行状態を受信すると、これを基に、学習済みの操作推論学習モデル70により、車両2の推論操作を推論する。
操作内容推論部41は、推論した推論操作を、車両操作制御部22へ送信する。
車両操作制御部22は、操作内容推論部41から推論操作を受信し、この推論操作に基づき、ドライブロボット4を操作する。
次に、図1〜図5、及び図6を用いて、上記の学習システム10を用いた、ドライブロボット4を制御する操作推論学習モデル70の学習方法を説明する。図6は、学習方法のフローチャートである。
学習制御装置11は、操作の学習に先立ち、学習時に使用する走行実績データ(走行実績)を、走行実績として収集する。詳細には、ドライブロボット制御部20が、アクセルペダル2c及びブレーキペダル2dの、車両特性計測用の操作パターンを生成して、これにより車両2を走行制御し、走行実績データを収集する(ステップS1)。
車両モデル52は、学習データ生成部34から成形された走行実績データを取得し、これを用いて機械学習器60を機械学習して、車両学習モデル60を生成する(ステップS3)。
車両学習モデル60の学習が終了すると、学習システム10の強化学習部40は、車両2の操作を推論する操作推論学習モデル70を事前学習する(ステップS5)。より詳細には、学習システム10は、既に学習が終了した車両学習モデル60が出力した模擬走行状態を操作推論学習モデル70に適用することで、操作推論学習モデル70を事前に強化学習する。この際には、調整部55は、実環境すなわち試験装置1において、推論操作が推論されてから、当該推論操作がドライブロボット4に入力されて車両2が操作、走行され、車両2の走行状態が取得され、当該走行状態が操作推論学習モデル70に適用されるまでに要する実時間を基に、推論操作が推論されてから仮想装置モデル50において使用され、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を調整する。
学習部30は、この事前学習としての、車両学習モデル60を推論操作の実行対象として用いた強化学習を、事前学習終了基準を満たすまで実行する。事前学習終了基準を満たさなければ(ステップS7のNo)、事前学習を継続する。事前学習終了基準が満たされると(ステップS7のYes)、事前学習を終了する。
操作推論学習モデル70及び価値推論学習モデル80の、車両学習モデル60を推論操作の実行対象として用いた事前学習が終了すると、学習部30は、車両学習モデル60に替えて、実車両2を推論操作の実行対象として、操作推論学習モデル70及び価値推論学習モデル80を更に強化学習する(ステップS9)。
次に、上記のドライブロボットを制御する操作推論学習モデルの学習システム及び学習方法の効果について説明する。
本実施形態の学習システム10は、車両2と、車両2に搭載されたドライブロボット(自動操縦ロボット)4とを備える試験装置(実環境)1と、車速を含む車両2の走行状態を基に、車両2を規定された指令車速に従って走行させるような、車両2の操作を推論する操作推論学習モデル70を備え、ドライブロボット4は、操作推論学習モデル70が推論した推論操作を基に車両2を走行させ、操作推論学習モデル70を機械学習する、ドライブロボット4を制御する操作推論学習モデル70の学習システム10であって、車両2を模擬動作するように設定され、推論操作を基に、車両2を模した走行状態である模擬走行状態oを出力する、車両モデル52を備えた、仮想装置モデル50を備え、仮想装置モデル50は、推論操作が入力されると、推論操作を基に、車両モデル52により模擬走行状態oを出力し、当該模擬走行状態oを操作推論学習モデル70に適用することで、操作推論学習モデル70を機械学習し、試験装置1において、推論操作が推論されてから、推論操作がドライブロボット4に入力されて車両2が操作、走行され、車両2の走行状態が取得され、走行状態が操作推論学習モデル70に適用されるまでに要する実時間を基に、推論操作が推論されてから仮想装置モデル50において使用され、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を調整する、調整部55を備えている。
また、本実施形態の学習制御方法は、車両2と、車両2に搭載されたドライブロボット(自動操縦ロボット)4とを備える試験装置(実環境)1と、車速を含む車両2の走行状態を基に、車両2を規定された指令車速に従って走行させるような、車両2の操作を推論する操作推論学習モデル70とに関し、ドライブロボット4は、操作推論学習モデル70が推論した推論操作を基に車両2を走行させ、操作推論学習モデル70を機械学習する、ドライブロボット4を制御する操作推論学習モデル70の学習方法であって、車両2を模擬動作するように設定され、推論操作を基に、車両2を模した走行状態である模擬走行状態oを出力する、車両モデル52を備えた、仮想装置モデル50において、推論操作が入力されると、推論操作を基に、車両モデル52により模擬走行状態oを出力し、当該模擬走行状態oを操作推論学習モデル70に適用することで、操作推論学習モデル70を機械学習し、試験装置1において、推論操作が推論されてから、推論操作がドライブロボット4に入力されて車両2が操作、走行され、車両2の走行状態が取得され、走行状態が操作推論学習モデル70に適用されるまでに要する実時間を基に、推論操作が推論されてから仮想装置モデル50において使用され、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を調整する。
上記のような構成によれば、既に説明したように、試験装置1における、データの伝達に要する遅延時間や機械的な動作時間が、仮想装置モデル50において考慮され、結果として、試験装置1における処理時間が、仮想装置モデル50においても正確に再現される。このため、仮想装置モデル50における、入力された推論操作に対する反応を、試験装置1における反応に一致させるに際し、少なくとも、試験装置1と仮想装置モデル50の間の処理時間による影響は低減される。
更に、試験装置1と仮想装置モデル50の間の処理時間による影響が低減されるため、車両モデル52を学習させた後に、試験装置1と仮想装置モデル50の処理時間の差異が発覚し、車両モデル52を処理時間が試験装置1に適合するように再度学習するという事態の発生も抑制される。このため、実現が容易である。
したがって、車両モデル52を操作実行の対象として操作推論学習モデル70を機械学習するに際し、車両モデル52と実車両2との処理時間の差異に起因する操作推論学習モデル70の学習精度の低下を、容易に抑制可能である。
特に、処理時間が例えば実際の環境よりも小さな値として設定された仮想環境を用いて、アクセルペダルの操作を推論するように学習された操作推論学習モデルが、実際の環境で、アクセルペダルを操作するために使用される場合においては、操作推論学習モデルがアクセルペダルの操作を推論した後の、実際の試験環境における、実際の走行状態が取得されるまでの反応が、仮想環境の場合に比べると遅くなる。このため、実際の環境においては、入力された操作に対応して正しく反応しようとしているにもかかわらず、操作推論学習モデルは実際の環境から想定された程度の十分な反応がないと認識する。結果として、操作推論学習モデルは、実際の環境に対し、より大きな反応を求めて、必要以上に大きくアクセルペダルを操作してしまう。
これに対し、本実施形態においては、上記のように、試験装置1と仮想装置モデル50の間の処理時間による影響が低減されるため、上記のような必要以上に大きな操作を抑制し、実車両への負担を低減可能である。
また、仮想装置モデル50は、ドライブロボット4を模擬動作するように設定され、推論操作を入力として、車両モデル52へ入力される入力操作を出力する、ドライブロボットモデル(自動操縦ロボットモデル)51を更に備え、調整部55は、推論操作が推論されてから、当該推論操作がドライブロボット4に入力されるまでの時間を基に、推論操作が推論されてからドライブロボットモデル51に入力されるまでの時間を調整する、推論操作調整部56と、推論操作がドライブロボット4に入力されてから車両2が操作されるまでの時間を基に、入力操作が車両モデル52に入力されるまでの時間を調整する、車両モデル入力調整部57と、車両2の走行状態が取得されてから操作推論学習モデル70に適用されるまでの時間を基に、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を調整する、模擬走行状態調整部58と、を備えている。
また、操作は、アクセルペダル2dとブレーキペダル2dのいずれか一方または双方のペダルの、ペダル操作量を含む。
また、車両モデル52は、車両2の実際の走行実績を基に車両2を模擬動作するように機械学習され、推論操作を基に模擬走行状態oを出力する、車両学習モデル60を備えている。
特に本実施形態においては、車両学習モデル60は、ニューラルネットワークで実現されている。
上記のような構成によれば、学習システム10を適切に実現可能である。
また、操作推論学習モデル70は、強化学習されている。
強化学習により学習される操作推論学習モデル70は、強化学習の初期段階においては、例えばペダル2c、2dを極端に高い頻度で操作するような、人間には不可能で、実車両に負担がかかる、好ましくない推論操作を出力する可能性がある。
上記のような構成によれば、このような強化学習の初期段階においては、当該車両学習モデル60が、操作推論学習モデル70が推論した推論操作を基に、車両2を模した走行状態sである模擬走行状態oを出力し、これを操作推論学習モデル70に適用することで、操作推論学習モデル70を事前に強化学習する。すなわち、強化学習の初期段階においては、実車両2を使用せずに、操作推論学習モデル70を強化学習することができる。したがって、実車両2の負担を低減可能である。
また、事前学習が終了すると、実車両2を使用して操作推論学習モデル70を更に強化学習するため、車両学習モデル60のみを使用して操作推論学習モデル70を強化学習する場合に比べると、操作推論学習モデル70により出力する操作の学習精度を向上することができる。
特に、上記のような構成においては、事前学習を、車両学習モデル60を推論操作の実行対象として行うため、事前学習の全過程において車両2を推論操作の実行対象とした場合に比べると、学習時間を低減可能である。
[実施形態の第1変形例]
次に、上記実施形態として示したドライブロボットを制御する操作推論学習モデルの学習システム及び学習方法の第1変形例を説明する。図7は、本第1変形例における学習システムの、操作推論学習モデル70の事前学習時における処理の流れを記したブロック図である。本第1変形例における学習システムは、上記実施形態の学習システム10とは、調整部55Aが推論操作調整部56と車両モデル入力調整部57を備えておらず、模擬走行状態調整部58Aのみを備えている点が異なっている。
本変形例における模擬走行状態調整部58Aは、上記実施形態における推論操作調整部56、車両モデル入力調整部57、及び模擬走行状態調整部58の各々において調整された、全ての時間を調整する。
すなわち、本変形例における模擬走行状態調整部58Aは、試験装置1において、推論操作が推論されてから、推論操作がドライブロボット4に入力されて車両2が操作、走行され、車両2の走行状態が取得され、走行状態が操作推論学習モデル70に適用されるまでに要する実時間を基に、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を調整する。
このように、本変形例における模擬走行状態調整部58Aは、仮想装置モデル50を、試験装置1に対応する1つの制御処理系と見做して、仮想装置モデル50全体における時間をまとめて調整している。
上記実施形態においては、試験装置1において、推論操作が推論されてから、当該推論操作がドライブロボット4に入力されるまでの時間、推論操作がドライブロボット4に入力されてから車両2が操作されるまでの時間、及び車両2の走行状態が取得されてから操作推論学習モデル70に適用されるまでの時間の各々を測定し、測定結果を推論操作調整部56、車両モデル入力調整部57、及び模擬走行状態調整部58の各々に、個別に反映させる必要があった。
これに対し、本変形例においては、上記のように仮想装置モデル50全体の処理時間を測定し、測定結果を模擬走行状態調整部58Aに反映させればよいため、仮想装置モデル50の構築が容易である。
本変形例が、既に説明した実施形態と同様な他の効果を奏することは言うまでもない。
[実施形態の第2変形例]
次に、上記実施形態として示したドライブロボットを制御する操作推論学習モデルの学習システム及び学習方法の第2変形例を説明する。本第2変形例における学習システムは、上記実施形態の学習システム10とは、調整部55が、推論操作の分解能を、仮想装置モデル50における分解能へと変換し、模擬走行状態oの分解能を、車両2に対して取得される走行状態の分解能へと変換する点が異なっている。
上記実施形態においては、推論操作調整部56は、推論操作が推論されてから、当該推論操作がドライブロボット4に入力されるまでの時間を基に、推論操作が推論されてからドライブロボットモデル51に入力されるまでの時間を調整していた。本変形例においては、推論操作調整部56は、これに加えて、操作推論学習モデル70が推論した推論操作の分解能を、仮想装置モデル50における、例えば通信パケットのデータサイズに応じた、分解能へと変換する。
また、上記実施形態においては、模擬走行状態調整部58は、車両2の走行状態が取得されてから操作推論学習モデル70に適用されるまでの時間を基に、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を調整していた。本変形例においては、模擬走行状態調整部58は、これに加えて、模擬走行状態oの分解能を、試験装置1における、例えばセンサや通信パケットのデータサイズに応じた、分解能へと変換する。
上記のような時間の調整は、より詳細には、例えば次のように行われる。
例えば仮想装置モデル50において、プログラムによって、試験装置1の各々の物理動作が記述され、再現される場合においては、各変数のデータ型としては、浮動小数点が使用される。推論操作調整部56においては、仮想装置モデル50に入力されるデータの型を浮動小数点へと変換する。逆に、模擬走行状態調整部58においては、仮想装置モデル50から出力するデータの型を浮動小数点から他の型へと変換する。
例えば、アクセルペダル2cに対する操作を想定した場合に、分解能を変換する前のペダル開度をPbase、変換後の1ビット分解能をBreal、分解能を変換した後の値をPchg、浮動小数点の変数を整数へと変換する関数をInteger()とすると、模擬走行状態調整部58においてデータの型を浮動小数点から他の型へと変換する場合に、次の式が適用可能である。
chg = Integer(Pbase / Breal) × Breal
上記実施形態においては、分解能が高い操作推論学習モデル70が微小な推論操作を出力した場合、同等の分解能を有する仮想装置モデル50はこれに対応し反応することが可能であるため、この微小な推論操作が有効なものであると操作推論学習モデル70が学習する。このように学習された操作推論学習モデル70が、実際の試験装置1に対して推論操作を出力する場合には、試験装置1の分解能が低いと、操作推論学習モデル70が出力する微小な推論操作が試験装置1に効果的に反映されない。このため、試験装置1における推論操作の反映が遅れ、操作推論学習モデル70は、より大きな反応を求めて、必要以上に大きくアクセルペダルを操作してしまう。
これに対し、本変形例においては、調整部55によって、仮想装置モデル50の入出力の分解能を試験装置1にあわせて調整することができる。これにより、上記のような必要以上に大きな操作を抑制し、実車両への負担を低減可能である。
本変形例が、既に説明した実施形態と同様な他の効果を奏することは言うまでもない。
なお、本発明のドライブロボットを制御する操作推論学習モデルの学習システム及び学習方法は、図面を参照して説明した上述の実施形態及び各変形例に限定されるものではなく、その技術的範囲において他の様々な変形例が考えられる。
例えば、上記第1変形例においては、調整部55が推論操作調整部56と車両モデル入力調整部57を備えておらず、模擬走行状態調整部58のみを備え、模擬走行状態調整部58が、仮想装置モデル50を、試験装置1に対応する1つの制御処理系と見做して、仮想装置モデル50全体における時間をまとめて調整していた。
これに変えて、調整部55が車両モデル入力調整部57と模擬走行状態調整部58を備えておらず、推論操作調整部56のみを備えた構成としてもよい。この場合においては、推論操作調整部56が、推論操作が推論されてから、推論操作がドライブロボット4に入力されて車両2が操作、走行され、車両2の走行状態が取得され、走行状態が操作推論学習モデル70に適用されるまでに要する実時間を基に、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を調整する。
あるいは、調整部55が、推論操作調整部56、車両モデル入力調整部57、及び模擬走行状態調整部58のいずれか2つを備えた構成としてもよい。この場合においては、推論操作調整部56、車両モデル入力調整部57、及び模擬走行状態調整部58のいずれか2つが、推論操作が推論されてから、推論操作がドライブロボット4に入力されて車両2が操作、走行され、車両2の走行状態が取得され、走行状態が操作推論学習モデル70に適用されるまでに要する実時間を基に、模擬走行状態oが出力されてから操作推論学習モデル70に適用されるまでの時間を、分担して調整する。
また、上記実施形態及び各変形例においては、車両モデル52はニューラルネットワークとして実現された車両学習モデル60を備え、この車両学習モデル60によって車両2を模擬動作させていたが、これに限られない。すなわち、車両学習モデルは、ニューラルネットワーク以外の手段によって機械学習された機械学習モデルであって構わない。あるいは、車両モデルは、機械学習された学習モデルを備えた構成でなくともよく、例えば数式モデル等で実現されていてもよい。
このようにした場合においては、何らかの車両モデルが用意できる環境にあるのであれば、車両学習モデル60を機械学習させなくとも、操作推論学習モデル70を事前学習することができる。したがって、操作推論学習モデル70の学習が容易である。
これ以外にも、本発明の主旨を逸脱しない限り、上記実施形態及び各変形例で挙げた構成を取捨選択したり、他の構成に適宜変更したりすることが可能である。
1 試験装置(実環境)
2 車両
2c アクセルペダル
2d ブレーキペダル
3 シャシーダイナモメータ
4 ドライブロボット(自動操縦ロボット)
10 学習システム
11 学習制御装置
20 ドライブロボット制御部
30 学習部
40 強化学習部
41 操作内容推論部
42 状態行動価値推論部
43 報酬計算部
50 仮想装置モデル
51 ドライブロボットモデル(自動操縦ロボットモデル)
52 車両モデル
53 シャシーダイナモメータモデル
55、55A 調整部
56 推論操作調整部
57 車両モデル入力調整部
58、58A 模擬走行状態調整部
60 車両学習モデル
70 操作推論学習モデル
80 価値推論学習モデル
i1 車速系列
i2 アクセルペダル操作量系列(入力操作)
i3 ブレーキペダル操作量系列(入力操作)
o 模擬走行状態

Claims (8)

  1. 車両と、前記車両に搭載された自動操縦ロボットとを備える実環境と、車速を含む前記車両の走行状態を基に、前記車両を規定された指令車速に従って走行させるような、前記車両の操作を推論する操作推論学習モデルを備え、前記自動操縦ロボットは、前記操作推論学習モデルが推論した推論操作を基に当該車両を走行させ、前記操作推論学習モデルを機械学習する、自動操縦ロボットを制御する操作推論学習モデルの学習システムであって、
    前記車両を模擬動作するように設定され、前記推論操作を基に、前記車両を模した前記走行状態である模擬走行状態を出力する、車両モデルを備えた、仮想装置モデルを備え、
    前記仮想装置モデルは、前記推論操作が入力されると、当該推論操作を基に、前記車両モデルにより前記模擬走行状態を出力し、
    当該模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを機械学習し、
    前記実環境において、前記推論操作が推論されてから、当該推論操作が前記自動操縦ロボットに入力されて前記車両が操作、走行され、前記車両の前記走行状態が取得され、当該走行状態が前記操作推論学習モデルに適用されるまでに要する実時間を基に、前記推論操作が推論されてから前記仮想装置モデルにおいて使用され、前記模擬走行状態が出力されてから前記操作推論学習モデルに適用されるまでの時間を調整する、調整部を備えている、自動操縦ロボットを制御する操作推論学習モデルの学習システム。
  2. 前記仮想装置モデルは、前記自動操縦ロボットを模擬動作するように設定され、前記推論操作を入力として、前記車両モデルへ入力される入力操作を出力する、自動操縦ロボットモデルを更に備え、
    前記調整部は、
    前記推論操作が推論されてから、当該推論操作が前記自動操縦ロボットに入力されるまでの時間を基に、前記推論操作が推論されてから前記自動操縦ロボットモデルに入力されるまでの時間を調整する、推論操作調整部と、
    前記推論操作が前記自動操縦ロボットに入力されてから前記車両が操作されるまでの時間を基に、前記入力操作が前記車両モデルに入力されるまでの時間を調整する、車両モデル入力調整部と、
    前記車両の前記走行状態が取得されてから前記操作推論学習モデルに適用されるまでの時間を基に、前記模擬走行状態が出力されてから前記操作推論学習モデルに適用されるまでの時間を調整する、模擬走行状態調整部と、
    を備えている、請求項1に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。
  3. 前記調整部は、前記推論操作が推論されてから、当該推論操作が前記自動操縦ロボットに入力されて前記車両が操作、走行され、前記車両の前記走行状態が取得され、当該走行状態が前記操作推論学習モデルに適用されるまでに要する前記実時間を基に、前記模擬走行状態が出力されてから前記操作推論学習モデルに適用されるまでの時間を調整する、模擬走行状態調整部を備えている、請求項1に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。
  4. 前記調整部は、前記推論操作の分解能を、前記仮想装置モデルにおける分解能へと変換し、前記模擬走行状態の分解能を、前記車両に対して取得される前記走行状態の分解能へと変換する、請求項1から3のいずれか一項に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。
  5. 前記操作は、アクセルペダルとブレーキペダルのいずれか一方または双方のペダルの、ペダル操作量を含む、請求項1から4のいずれか一項に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。
  6. 前記車両モデルは、前記車両を模擬動作するように機械学習され、前記推論操作を基に、前記模擬走行状態を出力する、車両学習モデルを備え、
    前記車両学習モデルは、ニューラルネットワークで実現されている、請求項1から5のいずれか一項に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。
  7. 前記操作推論学習モデルは、強化学習されている、請求項1から6のいずれか一項に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。
  8. 車両と、前記車両に搭載された自動操縦ロボットとを備える実環境と、車速を含む前記車両の走行状態を基に、前記車両を規定された指令車速に従って走行させるような、前記車両の操作を推論する操作推論学習モデルとに関し、前記自動操縦ロボットは、前記操作推論学習モデルが推論した推論操作を基に当該車両を走行させ、前記操作推論学習モデルを機械学習する、自動操縦ロボットを制御する操作推論学習モデルの学習方法であって、
    前記車両を模擬動作するように設定され、前記推論操作を基に、前記車両を模した前記走行状態である模擬走行状態を出力する、車両モデルを備えた、仮想装置モデルにおいて、前記推論操作が入力されると、当該推論操作を基に、前記車両モデルにより前記模擬走行状態を出力し、
    当該模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを機械学習し、
    前記実環境において、前記推論操作が推論されてから、当該推論操作が前記自動操縦ロボットに入力されて前記車両が操作、走行され、前記車両の前記走行状態が取得され、当該走行状態が前記操作推論学習モデルに適用されるまでに要する実時間を基に、前記推論操作が推論されてから前記仮想装置モデルにおいて使用され、前記模擬走行状態が出力されてから前記操作推論学習モデルに適用されるまでの時間を調整する、自動操縦ロボットを制御する操作推論学習モデルの学習方法。
JP2020154225A 2020-09-15 2020-09-15 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法 Active JP6988969B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020154225A JP6988969B1 (ja) 2020-09-15 2020-09-15 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法
PCT/JP2021/032055 WO2022059484A1 (ja) 2020-09-15 2021-09-01 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020154225A JP6988969B1 (ja) 2020-09-15 2020-09-15 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法

Publications (2)

Publication Number Publication Date
JP6988969B1 true JP6988969B1 (ja) 2022-01-05
JP2022048416A JP2022048416A (ja) 2022-03-28

Family

ID=79239752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020154225A Active JP6988969B1 (ja) 2020-09-15 2020-09-15 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法

Country Status (2)

Country Link
JP (1) JP6988969B1 (ja)
WO (1) WO2022059484A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937197B2 (en) * 2005-01-07 2011-05-03 GM Global Technology Operations LLC Apparatus and methods for evaluating a dynamic system
WO2018098658A1 (zh) * 2016-11-30 2018-06-07 深圳市大疆创新科技有限公司 对象测试方法、装置及系统
JP7110891B2 (ja) * 2018-10-04 2022-08-02 株式会社明電舎 自動操縦ロボットの制御装置及び制御方法
CN110795818B (zh) * 2019-09-12 2022-05-17 腾讯科技(深圳)有限公司 一种确定虚拟测试场景方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11654915B2 (en) * 2019-10-18 2023-05-23 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system

Also Published As

Publication number Publication date
JP2022048416A (ja) 2022-03-28
WO2022059484A1 (ja) 2022-03-24

Similar Documents

Publication Publication Date Title
WO2020183864A1 (ja) 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法
US20220193895A1 (en) Apparatus and methods for object manipulation via action sequence optimization
CN108828944B (zh) 基于改进pso及svm的编码器故障诊断系统及方法
Wu et al. Deep reinforcement learning on autonomous driving policy with auxiliary critic network
JP6908144B1 (ja) 自動操縦ロボットの制御装置及び制御方法
JP6954168B2 (ja) 車両速度制御装置及び車両速度制御方法
JP2005059656A (ja) 飛行体の着陸制御装置および飛行体の着陸制御方法
WO2022059484A1 (ja) 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法
CN115446867B (zh) 一种基于数字孪生技术的工业机械臂控制方法及系统
CN113641099A (zh) 一种超越专家演示的阻抗控制模仿学习训练方法
JP7336856B2 (ja) 情報処理装置、方法及びプログラム
CN118193978A (zh) 一种基于dqn深度强化学习算法的汽车路障规避方法
JP2021143882A (ja) 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法
JP7110891B2 (ja) 自動操縦ロボットの制御装置及び制御方法
JP2021128510A (ja) 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法
US20230038802A1 (en) Automatic Driving Robot Control Device And Control Method
CN115562258A (zh) 基于神经网络的机器人社会自适应路径规划方法及系统
KR20230153481A (ko) 판별기 모델의 앙상블을 사용한 강화 학습
CN115081612A (zh) 用以改进机器人策略学习的设备和方法
Pretorius et al. Towards an artificial neural network-based simulator for behavioural evolution in evolutionary robotics
KR102719462B1 (ko) 다관절 로봇의 구동을 위한 기구학 모델링 방법, 장치 및 컴퓨터 프로그램
JP2024001584A (ja) 自動操縦ロボットの制御装置及び制御方法
CN117444978B (zh) 一种气动软体机器人的位置控制方法及其系统、设备
KR20220163751A (ko) 가상 드라이빙 시스템의 딥러닝 머신 및 그 운용방법
WO2022044429A1 (ja) モデルパラメータ学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210906

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211115

R150 Certificate of patent or registration of utility model

Ref document number: 6988969

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150