JP2022174734A

JP2022174734A - 建設現場用のオフロード車両のための方策を学習するための装置および方法

Info

Publication number: JP2022174734A
Application number: JP2022077382A
Authority: JP
Inventors: ロスチャナ; Ross Chana; ディカストロドータン; Di Castro Dotan; ミロンヤコフ; Miron Yakov
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-05-11
Filing date: 2022-05-10
Publication date: 2022-11-24
Also published as: DE102021204797A1

Abstract

【解決手段】強化学習を使用して、好ましくはデジタルツインによって方策を学習するためのコンピュータ実装方法であって、学習された方策は、オフロード車両を制御するように構成されており、オフロード車両は、粒状材料と相互作用するように構成されている、方法。【効果】エージェント（オフロード車両）と環境との間の相互作用が未知である（モデルなし）が、現実世界のデータを収集するための可能性が制限されている場合に、強化学習アルゴリズムを訓練する完全なパイプラインを可能にするものである。したがって、手動での相互作用を必要としない自動化された学習パイプラインが提案される。【選択図】図２

Description

本発明は、（１）デジタルツインに適用される強化学習を用いて建設現場でのオフロード車両のための方策を学習するための方法と、（２）オフロード車両のアクチュエータを動作させるための方法と、コンピュータプログラムと、機械可読記憶媒体と、訓練システムとに関する。

従来技術
米国特許第１０４８１６０３号明細書は、オフロード車両のための軌道計画アルゴリズムを開示している。

この軌道を学習するための１つのアプローチは、強化学習によるものであり、ここでは、車両の状態および／または環境の状態が与えられると、車両のための次の行動を選択する方策が作成される。

オフロードの軌道計画のために強化学習を使用する場合には、現実世界からのデータを収集しなければならない。データが収集されると、２つのアプローチに従うことができ、すなわち、所与のデータに基づいて訓練する（「モデルなし」）アプローチか、または車両と環境との相互作用をエミュレートするシミュレーションを作成して（「モデルベース」）、検証のためにデータを使用するアプローチのいずれかに従うことができる。

これらのシミュレーションは、収集されたデータと、好ましくは単純化された物理学とに基づいて車両および車両と環境との相互作用をモデル化して、強化学習アルゴリズムのモデルベースの訓練を可能にする。

発明の利点
多くのシミュレーションは、非常に複雑な物理方程式を用いて環境をモデル化し、計算コストのかかる数値シミュレーションを必要とする。シミュレーションによって相互作用を模倣しなければならない一方で、複数の軌道も迅速に計算して効率的に算出しなければならないような強化学習の訓練にとっては、この種のシミュレーションは有用ではない。

本発明は、エージェント（オフロード車両）と環境との間の相互作用が未知である（モデルなし）が、現実世界のデータを収集するための可能性が制限されている場合に、強化学習アルゴリズムを訓練する完全なパイプラインを可能にするものである。したがって、手動での相互作用を必要としない自動化された学習パイプラインが提案される。

さらなる利点は、データを収集するため、かつ強化学習アルゴリズムを訓練するための現実世界との相互作用が低減されることである。このことは、現実世界を再現することはできないかもしれないが、例えば車両と土壌との間に政策に影響を与える主要な相互作用を含んでいるような、シミュレートされた環境に基づいて訓練する能力のおかげである。したがって、本発明によれば、収束のために使用されるデータ量が顕著に少なくなる。したがって、データ効率および計算効率のより高いアプローチが開示されている。さらに、高速な収束を達成することが可能である。

発明の開示
第１の態様では、オフロード車両を制御するように構成された方策を学習するためのコンピュータ実装方法が提案される。オフロード車両は、例えば建設現場において粒状材料と相互作用するように構成されている。この相互作用は、オフロード車両が粒状材料を分配することができるという意味で理解可能である。例えば、オフロード車両は、粒状材料を取り上げ、搬送して、降ろすことができるか、またはそうでなければ、粒状材料を別の位置へと移動させることができる。

当該方法は、以下のステップを含む：

当該方法は、φによってパラメータ化された、オフロード車両の環境のモデルを初期化することから始まる。このモデルは、可能な行動の集合のうちの、オフロード車両の少なくとも１つの入力された行動に依存して出力を決定するために適しており、この出力は、少なくとも、入力された行動および報酬（Ｒ_ｔ）が実行された後の環境（Ｓ_ｔ＋１）を特徴付ける。

続いて、オフロード車両の取得された実際の軌道と、環境の状態と、軌道内の注釈付きの行動とを、タプル（［Ｓ_ｔ；Ａ_ｔ；Ｒ_ｔ；Ｓ_ｔ＋１］）に変換することが実施される。当該ステップは、データの収集と、環境のモデルを構築するためのデータセットの作成とに関連すると言ってもよい。

続いて、タプルに依存してモデルが車両と環境との間の相互作用を最良にエミュレートするように、モデルのパラメータφを最適化することが実施される。換言すれば、モデルは、経験豊富な現実世界の運転者の方策に基づいて収集されたタプルのタプルをシミュレートするように訓練される。

続いて、累積された報酬が最適化されるように、モデルとの相互作用に基づいて強化学習によって方策が学習される。好ましくは、この相互作用は、上記のモデルのみと実施されるものである。

オフロード車両は、ブルドーザ、圧縮機、ダンパ、または環境との相互作用を含んでいる多数の割り当てを有する任意の他の種類の車両であってもよい。これらの割り当ての種類についての例は、地ならし、砂の廃棄、地面の突固め、粒状材料の除去等であってもよい。

環境の状態Ｓ_ｔが、車両状態をさらに含むことが提案される。車両状態は、例えば６つの自由度によって、すなわちユークリッド空間内の位置である（ｘ，ｙ，ｚ）と、このデカルト空間に対する車両姿勢のオイラー角の表現としての（ψ，θ，φ）とによってモデル化可能である。好ましくは、操縦可能なツール、例えばブルドーザのブレードを有するオフロード車両の場合には、車両に対する別の２つの自由度、すなわちブレードの高さと、懸架装置に対する角度とを追加することができる。精度と最小計算負荷との間の良好なトレードオフを達成するために、自由度は、（ｘ，ｙ，ｚ，ψ）のみによって定義される。好ましくは、環境は、行列によって特徴付けられ、ここで、行および列は、環境内の位置の座標（ｘ，ｙ）を表し、上記の行列のそれぞれのエントリＳ（ｘ；ｙ）＝ｈは、それぞれの位置での所定の高さ（ｈ）における粒状材料を特徴付ける。

さらに、収集された実際の軌道と、環境の状態と、注釈付きの行動とが、人間の操作者によって駆動されるオフロード車両の行動を記録することによって収集され、行動の記録中に、環境高さマップも記録されるようにすることが提案される。その場合、例えば、環境の状態は、記録された環境高さマップに依存して決定される。

さらに、環境高さマップが、特に車両と粒状材料とが相互作用する領域を特徴付けることが提案される。例えば、オフロード車両がブルドーザである場合には、環境高さマップは、ブルドーザのブレードが粒状材料と接触する領域である。

環境高さマップは、ＬｉＤＡＲ、カメラ、または任意の他のセンサを使用して記録可能であり、これらから、経時的な環境高さマップを導出することができ、速度、位置、オイラー角、角速度、加速度、および車両位置に関する任意の他の重要な情報のような車両センサを、車両状態のために使用することができる。

さらに、粒状材料が、土または砂であることが提案される。粒状材料のシミュレーションは非常に複雑であるので、このことは、好ましい実施形態を呈している。環境は、車両の行動に基づいて変化するので、粒状材料は、動的な相互作用と、続いて生じる相互作用後の粒状材料の動的な形状変化という点でシミュレーションすることが困難である。したがって、物理的なシミュレーションによってではなくモデルによって環境をシミュレーションすることにより、シミュレーション速度が顕著に増加され、方策の学習速度が顕著に増加される。

さらに、環境のモデルが、ニューラルネットワークであることが提案される。タプルの次の状態（Ｓ_ｔ＋１）と、ニューラルネットワークによって出力された次の状態

との間の距離を最小化することにより、ニューラルネットワークが最適化される。

教師あり学習モデルの損失は、

となるであろう。ここで、Ｓ_ｔ＋１は、実際の状態であり、

は、モデルによってシミュレートされた状態である。ニューラルネットワークの最適化は、機械学習アルゴリズム、例えば勾配降下法によって実施可能である。

本発明の実施形態について、以下の図面を参照しながらより詳細に説明する。

オフロード車両、特にブルドーザの概略図である。オフロード車両を制御するための方策を訓練するためのフローチャートである。方策を訓練するための訓練システムを示す図である。

実施形態の説明
図１には、オフロード車両、特にブルドーザ１００の１つの実施形態が示されている。ブルドーザ１００は、制御システム４０と相互作用するアクチュエータ１０を含む。センサ３０は、好ましくは等間隔の距離を置いて、アクチュエータシステムの状況、および／またはブルドーザ１００の周囲の環境の状態を検知する。センサ３０は、複数のセンサを含むことができる。好ましくは、センサ３０は、環境２０の画像を撮影する光学センサである。検知された状況を符号化するセンサ３０の出力信号（またはセンサ３０が複数のセンサを含む場合には、センサの各々についての出力信号Ｓ）が、制御システム４０に送信される。

考えられるセンサは、限定するわけではないが、ジャイロスコープ、加速度計、力センサ、カメラ、レーダ、ＬｉＤＡＲ、角度エンコーダ等を含む。センサは、システムの状態を直接的に測定するのではなく、むしろ状態の結果を観察することが多く、例えばカメラは、別のオブジェクトに対する車両の相対位置を直接的に測定する代わりに、画像を検出するということに留意されたい。しかしながら、画像またはＬｉＤＡＲ測定値のような高次元の観察結果から、状態をフィルタリングすることが可能である。

さらに、システムは、撮影されたシステムの状態および行動の品質を指示する報酬信号ｒを供給しなければならない。典型的に、この報酬信号は、学習アルゴリズムの挙動を操縦するように構成されている。一般的に、報酬信号は、望ましい状態／行動に対して大きな値を帰属させるべきであり、システムによって回避されるべき状態／行動に対して小さな（または負の）値を帰属させるべきである。

考えられる報酬信号は、限定するわけではないが、いくつかの基準状態信号に対する負の追従誤差、特定のタスクの成功に対する指示関数、負の二次コスト項（最適制御からの方法に類似）等を含む。学習アルゴリズムが複数の目標に向けて同時に努力すべき場合には、他の報酬信号のうちの重み付けされたいくつかの報酬信号として、別の報酬信号を構成することも可能である。正の報酬の１つの例は、エージェントが（ａ）満足のいく性能を有するタスクを（ｂ）迅速に完了した場合には「＋１」であってもよい。負の報酬の１つの例は、エージェントがタスクを完了したが緩慢であった場合には「－１」であってもよい。大きな負の報酬の別の例は、信用されている許可領域から車両が離れた場合には「－１００」であってもよい。

これにより、制御システム４０は、センサ信号のストリームを受信する。次いで、制御システム４０は、センサ信号のストリームに依存して一連のアクチュエータ制御命令Ａを計算し、これらの制御命令Ａは、その後、アクチュエータ１０に送信される。

制御システム４０は、オブションの受信ユニットにおいてセンサ３０のセンサ信号Ｓのストリームを受信する。受信ユニットは、センサ信号Ｓを現在の状態信号Ｓ_ｔに変換する。代替的に、受信ユニットが存在しない場合には、それぞれのセンサ信号を現在の状態信号Ｓ_ｔとして直接的に受信してもよい。

次いで、状態信号Ｓ_ｔは、最適化された方策６０に伝達され、この最適化された方策６０は、例えば人工ニューラルネットワークによって提供可能である。

最適化された方策６０は、パラメータ記憶装置に記憶され、かつパラメータ記憶装置によって提供されるパラメータφによってパラメータ化される。

最適化された方策６０は、現在の状態信号Ｓ_ｔから出力される行動信号Ａ_ｔを決定する。行動信号Ａ_ｔは、オプションの変換ユニットに送信され、この変換ユニットは、行動信号Ａ_ｔを制御命令Ａに変換する。次いで、アクチュエータ制御命令Ａは、アクチュエータ１０を相応に制御するためにアクチュエータ１０に送信される。代替的に、出力信号ｙを制御命令Ａとして直接的に受信してもよい。

アクチュエータ１０は、アクチュエータ制御命令Ａを受信し、相応に制御されて、アクチュエータ制御命令Ａに対応する行動を実行する。アクチュエータ１０は、制御ロジックを含むことができ、この制御ロジックは、アクチュエータ制御命令Ａをさらなる制御命令に変換し、このさらなる制御命令は、次いで、アクチュエータ１０を制御するために使用される。

さらに、制御システム４０は、プロセッサ４５（または複数のプロセッサ）と、少なくとも１つの機械可読記憶媒体４６とを含むことができ、この機械可読記憶媒体４６には、実行された場合に、最適化された方策に依存してブルドーザ１００を制御するための方法を制御システム４０に実行させるための命令が記憶されている。

好ましくは、オフロード車両は、方策によって部分的に制御される少なくとも部分的に自律的な車両である。

図２には、オフロード車両を制御するための最適化された方策６０を取得するための方法２０の１つの実施形態が示されている。

方法２０は、パラメータφによってパラメータ化された、オフロード車両の環境のモデルを初期化すること（Ｓ２１）から始まる。モデル自体は、可能な行動の集合のうちの、オフロード車両の少なくとも１つの入力された行動に依存して出力を決定するために適しており、この出力は、少なくとも、入力された行動および報酬（Ｒ_ｔ）が実行された後の環境（Ｓ_ｔ＋１）を特徴付ける。

ステップＳ２１の後、オフロード車両の取得された実際の軌道と、環境の割り当てられた状態と、軌道内の注釈付きの行動とを、タプル（［Ｓ_ｔ；Ａ_ｔ；Ｒ_ｔ；Ｓ_ｔ＋１］）に変換すること（Ｓ２２）が実施される。代替的に、タプルが既に提供されている場合には、ステップＳ２２をスキップしてもよいことに留意されたい。

その後、タプルに依存してモデルが車両と環境との間の相互作用を最良にエミュレートするように、環境のモデルのパラメータ（デジタルツイン）を最適化すること（Ｓ２３）が続く。

その後、報酬が最適化されるように、モデルとの相互作用のみに基づいて強化学習によって最適な方策６０を学習すること（Ｓ２４）が続く。

最後のステップは、最適な方策（６０）を出力する（Ｓ２５）。

ステップＳ２５の後のオプションのステップでは、オフロード車両、特にブルドーザ１００を制御するために、最適な方策が利用される。

図３には、方策６０を訓練するための訓練システムの１つの実施形態が示されている。

データベース３００は、記録された軌道の、記録されたタプル［Ｓ_ｔ；Ａ_ｔ；Ｒ_ｔ；Ｓ_ｔ＋１］を含む。これらのタプルは、環境と、好ましくはオフロード車両とのデジタルツイン３０２を構築するために、教師あり学習アルゴリズム３０１によって利用される。

デジタルツイン３０２は、決定されたタプル（［Ｓ_ｔ；Ａ_ｔ；Ｒ_ｔ；Ｓ_ｔ＋１］）を返し、この決定されたタプル（［Ｓ_ｔ；Ａ_ｔ；Ｒ_ｔ；Ｓ_ｔ＋１］）は、教師あり学習アルゴリズム３０１によって分析される。続いて、教師あり学習アルゴリズム３０１は、改善されたパラメータφをデジタルツイン３０２に返す。これにより、デジタルツインの性能が改善される。教師あり学習アルゴリズム３０１とデジタルツイン３０２との間のこれら２つの相互作用は、複数回繰り返される。

次いで、デジタルツイン３０２との相互作用に基づいて方策６０を最適化するために、強化学習アルゴリズム３０３が使用される。強化学習アルゴリズム３０３および方策６０を介して行動Ａ_ｔが決定され、デジタルツイン３０２に提出される。デジタルツインは、上記の行動Ａ_ｔに依存して報酬Ｒ_ｔを強化学習アルゴリズム３０３に返し、強化学習アルゴリズム３０３は、報酬が最大化されるように方策を調整する。強化学習アルゴリズム３０３とデジタルツイン３０２との間のこれら２つの相互作用は、複数回繰り返される。

Claims

オフロード車両を制御するように構成された方策（６０）を学習するためのコンピュータ実装方法（２０）であって、
前記オフロード車両は、粒状材料と相互作用するように構成されており、
前記方法は、
ｉ．パラメータ化された、オフロード車両の環境のモデルを初期化するステップ（Ｓ２１）であって、前記モデルは、可能な行動の集合のうちの、前記オフロード車両の少なくとも１つの入力された行動に依存して出力を決定するために適しており、前記出力のパラメータは、少なくとも、入力された行動および報酬（Ｒ_ｔ）が実行された後の前記環境（Ｓ_ｔ＋１）を特徴付ける、ステップ（Ｓ２１）と、
ｉｉ．オフロード車両の取得された実際の軌道と、環境の状態と、軌道内の注釈付きの行動とを、タプル（［Ｓ_ｔ；Ａ_ｔ；Ｒ_ｔ；Ｓ_ｔ＋１］）に変換するステップ（Ｓ２２）であって、前記タプルは、前記環境の状態（Ｓ_ｔ）と、前記オフロード車両によって実行される行動（Ａ_ｔ）と、報酬（Ｒ_ｔ）と、それぞれの時間刻みごとの前記環境の次の状態（Ｓ_ｔ＋１）とを含み、前記環境の次の状態は、注釈に基づいて前記行動が実行された後の前記環境を特徴付ける、ステップ（Ｓ２２）と、
ｉｉｉ．前記タプルに依存して前記モデルが前記車両と前記環境との間の相互作用を最良にエミュレートするように、環境の前記モデルのパラメータ（デジタルツイン）を最適化するステップ（Ｓ２３）と、
ｉｖ．報酬が最適化されるように、前記モデルとの相互作用に基づいて強化学習によって最適な方策（π（Ｓ_ｔ））を学習するステップ（Ｓ２４）と、
ｖ．前記最適な方策（６０）を出力するステップ（Ｓ２５）と
を含む、方法。
前記環境の状態（Ｓ_ｔ）は、車両状態をさらに含み、
前記環境の状態は、行列によって特徴付けられ、ここで、行および列は、前記環境内の位置の座標（ｘ，ｙ）を表し、
前記行列のそれぞれのエントリ（Ｓ（ｘ；ｙ）＝ｈ）は、それぞれの位置での所定の高さ（ｈ）における粒状材料を特徴付ける、
請求項１記載の方法。
収集された前記実際の軌道と、前記環境の状態と、注釈付きの行動とが、人間の操作者によって駆動される前記オフロード車両の行動を記録することによって収集され、
前記行動の記録中に、環境高さマップが記録され、
前記環境の状態は、記録された前記環境高さマップに依存して決定される、
請求項１または２記載の方法。
前記粒状材料は、土または砂である、
請求項３記載の方法。
前記環境の前記モデルは、ニューラルネットワークであり、
前記タプルの次の状態（Ｓ_ｔ＋１）と、前記ニューラルネットワークによって出力された次の状態との間の距離を最小化することにより、前記ニューラルネットワークが最適化される、
請求項１から４までのいずれか１項記載の方法。
前記環境の前記モデルは、前記環境と、前記オフロード車両とのデジタルツインである、
請求項１から４までのいずれか１項記載の方法。
学習された方策に基づいた、かつ最適化された方策（π（Ｓ_ｔ））に基づく環境の状態に依存した、オフロード車両の制御であって、
前記最適化された方策は、請求項１から６までのいずれか１項記載の方法によって取得される、オフロード車両の制御。
請求項１から６までのいずれか１項記載の方法を実施するように構成されている、装置。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサ（４５）によって実行された場合に、請求項１から６までのいずれか１項記載の方法を、その全てのステップとともにコンピュータに実行させるように構成されている、コンピュータプログラム。
請求項９記載のコンピュータプログラムが記憶されている、機械可読記憶媒体（４６）。