JP2022174734A - 建設現場用のオフロード車両のための方策を学習するための装置および方法 - Google Patents
建設現場用のオフロード車両のための方策を学習するための装置および方法 Download PDFInfo
- Publication number
- JP2022174734A JP2022174734A JP2022077382A JP2022077382A JP2022174734A JP 2022174734 A JP2022174734 A JP 2022174734A JP 2022077382 A JP2022077382 A JP 2022077382A JP 2022077382 A JP2022077382 A JP 2022077382A JP 2022174734 A JP2022174734 A JP 2022174734A
- Authority
- JP
- Japan
- Prior art keywords
- environment
- road vehicle
- state
- model
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000010276 construction Methods 0.000 title description 3
- 230000009471 action Effects 0.000 claims abstract description 22
- 230000002787 reinforcement Effects 0.000 claims abstract description 17
- 230000003993 interaction Effects 0.000 claims description 20
- 230000006399 behavior Effects 0.000 claims description 13
- 239000011236 particulate material Substances 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 3
- 239000002689 soil Substances 0.000 claims description 3
- 239000008187 granular material Substances 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract 1
- 238000004088 simulation Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- E—FIXED CONSTRUCTIONS
- E02—HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
- E02F—DREDGING; SOIL-SHIFTING
- E02F9/00—Component parts of dredgers or soil-shifting machines, not restricted to one of the kinds covered by groups E02F3/00 - E02F7/00
- E02F9/26—Indicating devices
- E02F9/261—Surveying the work-site to be treated
- E02F9/262—Surveying the work-site to be treated with follow-up actions to control the work tool, e.g. controller
-
- E—FIXED CONSTRUCTIONS
- E02—HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
- E02F—DREDGING; SOIL-SHIFTING
- E02F3/00—Dredgers; Soil-shifting machines
- E02F3/04—Dredgers; Soil-shifting machines mechanically-driven
- E02F3/76—Graders, bulldozers, or the like with scraper plates or ploughshare-like elements; Levelling scarifying devices
- E02F3/80—Component parts
- E02F3/84—Drives or control devices therefor, e.g. hydraulic drive systems
- E02F3/841—Devices for controlling and guiding the whole machine, e.g. by feeler elements and reference lines placed exteriorly of the machine
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- E—FIXED CONSTRUCTIONS
- E02—HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
- E02F—DREDGING; SOIL-SHIFTING
- E02F3/00—Dredgers; Soil-shifting machines
- E02F3/04—Dredgers; Soil-shifting machines mechanically-driven
- E02F3/76—Graders, bulldozers, or the like with scraper plates or ploughshare-like elements; Levelling scarifying devices
- E02F3/80—Component parts
- E02F3/84—Drives or control devices therefor, e.g. hydraulic drive systems
- E02F3/841—Devices for controlling and guiding the whole machine, e.g. by feeler elements and reference lines placed exteriorly of the machine
- E02F3/842—Devices for controlling and guiding the whole machine, e.g. by feeler elements and reference lines placed exteriorly of the machine using electromagnetic, optical or photoelectric beams, e.g. laser beams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Civil Engineering (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Mining & Mineral Resources (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Structural Engineering (AREA)
- Mechanical Engineering (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Operation Control Of Excavators (AREA)
Abstract
【解決手段】強化学習を使用して、好ましくはデジタルツインによって方策を学習するためのコンピュータ実装方法であって、学習された方策は、オフロード車両を制御するように構成されており、オフロード車両は、粒状材料と相互作用するように構成されている、方法。【効果】エージェント(オフロード車両)と環境との間の相互作用が未知である(モデルなし)が、現実世界のデータを収集するための可能性が制限されている場合に、強化学習アルゴリズムを訓練する完全なパイプラインを可能にするものである。したがって、手動での相互作用を必要としない自動化された学習パイプラインが提案される。【選択図】図2
Description
本発明は、(1)デジタルツインに適用される強化学習を用いて建設現場でのオフロード車両のための方策を学習するための方法と、(2)オフロード車両のアクチュエータを動作させるための方法と、コンピュータプログラムと、機械可読記憶媒体と、訓練システムとに関する。
従来技術
米国特許第10481603号明細書は、オフロード車両のための軌道計画アルゴリズムを開示している。
米国特許第10481603号明細書は、オフロード車両のための軌道計画アルゴリズムを開示している。
この軌道を学習するための1つのアプローチは、強化学習によるものであり、ここでは、車両の状態および/または環境の状態が与えられると、車両のための次の行動を選択する方策が作成される。
オフロードの軌道計画のために強化学習を使用する場合には、現実世界からのデータを収集しなければならない。データが収集されると、2つのアプローチに従うことができ、すなわち、所与のデータに基づいて訓練する(「モデルなし」)アプローチか、または車両と環境との相互作用をエミュレートするシミュレーションを作成して(「モデルベース」)、検証のためにデータを使用するアプローチのいずれかに従うことができる。
これらのシミュレーションは、収集されたデータと、好ましくは単純化された物理学とに基づいて車両および車両と環境との相互作用をモデル化して、強化学習アルゴリズムのモデルベースの訓練を可能にする。
発明の利点
多くのシミュレーションは、非常に複雑な物理方程式を用いて環境をモデル化し、計算コストのかかる数値シミュレーションを必要とする。シミュレーションによって相互作用を模倣しなければならない一方で、複数の軌道も迅速に計算して効率的に算出しなければならないような強化学習の訓練にとっては、この種のシミュレーションは有用ではない。
多くのシミュレーションは、非常に複雑な物理方程式を用いて環境をモデル化し、計算コストのかかる数値シミュレーションを必要とする。シミュレーションによって相互作用を模倣しなければならない一方で、複数の軌道も迅速に計算して効率的に算出しなければならないような強化学習の訓練にとっては、この種のシミュレーションは有用ではない。
本発明は、エージェント(オフロード車両)と環境との間の相互作用が未知である(モデルなし)が、現実世界のデータを収集するための可能性が制限されている場合に、強化学習アルゴリズムを訓練する完全なパイプラインを可能にするものである。したがって、手動での相互作用を必要としない自動化された学習パイプラインが提案される。
さらなる利点は、データを収集するため、かつ強化学習アルゴリズムを訓練するための現実世界との相互作用が低減されることである。このことは、現実世界を再現することはできないかもしれないが、例えば車両と土壌との間に政策に影響を与える主要な相互作用を含んでいるような、シミュレートされた環境に基づいて訓練する能力のおかげである。したがって、本発明によれば、収束のために使用されるデータ量が顕著に少なくなる。したがって、データ効率および計算効率のより高いアプローチが開示されている。さらに、高速な収束を達成することが可能である。
発明の開示
第1の態様では、オフロード車両を制御するように構成された方策を学習するためのコンピュータ実装方法が提案される。オフロード車両は、例えば建設現場において粒状材料と相互作用するように構成されている。この相互作用は、オフロード車両が粒状材料を分配することができるという意味で理解可能である。例えば、オフロード車両は、粒状材料を取り上げ、搬送して、降ろすことができるか、またはそうでなければ、粒状材料を別の位置へと移動させることができる。
第1の態様では、オフロード車両を制御するように構成された方策を学習するためのコンピュータ実装方法が提案される。オフロード車両は、例えば建設現場において粒状材料と相互作用するように構成されている。この相互作用は、オフロード車両が粒状材料を分配することができるという意味で理解可能である。例えば、オフロード車両は、粒状材料を取り上げ、搬送して、降ろすことができるか、またはそうでなければ、粒状材料を別の位置へと移動させることができる。
当該方法は、以下のステップを含む:
当該方法は、φによってパラメータ化された、オフロード車両の環境のモデルを初期化することから始まる。このモデルは、可能な行動の集合のうちの、オフロード車両の少なくとも1つの入力された行動に依存して出力を決定するために適しており、この出力は、少なくとも、入力された行動および報酬(Rt)が実行された後の環境(St+1)を特徴付ける。
続いて、オフロード車両の取得された実際の軌道と、環境の状態と、軌道内の注釈付きの行動とを、タプル([St;At;Rt;St+1])に変換することが実施される。当該ステップは、データの収集と、環境のモデルを構築するためのデータセットの作成とに関連すると言ってもよい。
続いて、タプルに依存してモデルが車両と環境との間の相互作用を最良にエミュレートするように、モデルのパラメータφを最適化することが実施される。換言すれば、モデルは、経験豊富な現実世界の運転者の方策に基づいて収集されたタプルのタプルをシミュレートするように訓練される。
続いて、累積された報酬が最適化されるように、モデルとの相互作用に基づいて強化学習によって方策が学習される。好ましくは、この相互作用は、上記のモデルのみと実施されるものである。
オフロード車両は、ブルドーザ、圧縮機、ダンパ、または環境との相互作用を含んでいる多数の割り当てを有する任意の他の種類の車両であってもよい。これらの割り当ての種類についての例は、地ならし、砂の廃棄、地面の突固め、粒状材料の除去等であってもよい。
環境の状態Stが、車両状態をさらに含むことが提案される。車両状態は、例えば6つの自由度によって、すなわちユークリッド空間内の位置である(x,y,z)と、このデカルト空間に対する車両姿勢のオイラー角の表現としての(ψ,θ,φ)とによってモデル化可能である。好ましくは、操縦可能なツール、例えばブルドーザのブレードを有するオフロード車両の場合には、車両に対する別の2つの自由度、すなわちブレードの高さと、懸架装置に対する角度とを追加することができる。精度と最小計算負荷との間の良好なトレードオフを達成するために、自由度は、(x,y,z,ψ)のみによって定義される。好ましくは、環境は、行列によって特徴付けられ、ここで、行および列は、環境内の位置の座標(x,y)を表し、上記の行列のそれぞれのエントリS(x;y)=hは、それぞれの位置での所定の高さ(h)における粒状材料を特徴付ける。
さらに、収集された実際の軌道と、環境の状態と、注釈付きの行動とが、人間の操作者によって駆動されるオフロード車両の行動を記録することによって収集され、行動の記録中に、環境高さマップも記録されるようにすることが提案される。その場合、例えば、環境の状態は、記録された環境高さマップに依存して決定される。
さらに、環境高さマップが、特に車両と粒状材料とが相互作用する領域を特徴付けることが提案される。例えば、オフロード車両がブルドーザである場合には、環境高さマップは、ブルドーザのブレードが粒状材料と接触する領域である。
環境高さマップは、LiDAR、カメラ、または任意の他のセンサを使用して記録可能であり、これらから、経時的な環境高さマップを導出することができ、速度、位置、オイラー角、角速度、加速度、および車両位置に関する任意の他の重要な情報のような車両センサを、車両状態のために使用することができる。
さらに、粒状材料が、土または砂であることが提案される。粒状材料のシミュレーションは非常に複雑であるので、このことは、好ましい実施形態を呈している。環境は、車両の行動に基づいて変化するので、粒状材料は、動的な相互作用と、続いて生じる相互作用後の粒状材料の動的な形状変化という点でシミュレーションすることが困難である。したがって、物理的なシミュレーションによってではなくモデルによって環境をシミュレーションすることにより、シミュレーション速度が顕著に増加され、方策の学習速度が顕著に増加される。
さらに、環境のモデルが、ニューラルネットワークであることが提案される。タプルの次の状態(St+1)と、ニューラルネットワークによって出力された次の状態
との間の距離を最小化することにより、ニューラルネットワークが最適化される。
教師あり学習モデルの損失は、
となるであろう。ここで、St+1は、実際の状態であり、
は、モデルによってシミュレートされた状態である。ニューラルネットワークの最適化は、機械学習アルゴリズム、例えば勾配降下法によって実施可能である。
本発明の実施形態について、以下の図面を参照しながらより詳細に説明する。
実施形態の説明
図1には、オフロード車両、特にブルドーザ100の1つの実施形態が示されている。ブルドーザ100は、制御システム40と相互作用するアクチュエータ10を含む。センサ30は、好ましくは等間隔の距離を置いて、アクチュエータシステムの状況、および/またはブルドーザ100の周囲の環境の状態を検知する。センサ30は、複数のセンサを含むことができる。好ましくは、センサ30は、環境20の画像を撮影する光学センサである。検知された状況を符号化するセンサ30の出力信号(またはセンサ30が複数のセンサを含む場合には、センサの各々についての出力信号S)が、制御システム40に送信される。
図1には、オフロード車両、特にブルドーザ100の1つの実施形態が示されている。ブルドーザ100は、制御システム40と相互作用するアクチュエータ10を含む。センサ30は、好ましくは等間隔の距離を置いて、アクチュエータシステムの状況、および/またはブルドーザ100の周囲の環境の状態を検知する。センサ30は、複数のセンサを含むことができる。好ましくは、センサ30は、環境20の画像を撮影する光学センサである。検知された状況を符号化するセンサ30の出力信号(またはセンサ30が複数のセンサを含む場合には、センサの各々についての出力信号S)が、制御システム40に送信される。
考えられるセンサは、限定するわけではないが、ジャイロスコープ、加速度計、力センサ、カメラ、レーダ、LiDAR、角度エンコーダ等を含む。センサは、システムの状態を直接的に測定するのではなく、むしろ状態の結果を観察することが多く、例えばカメラは、別のオブジェクトに対する車両の相対位置を直接的に測定する代わりに、画像を検出するということに留意されたい。しかしながら、画像またはLiDAR測定値のような高次元の観察結果から、状態をフィルタリングすることが可能である。
さらに、システムは、撮影されたシステムの状態および行動の品質を指示する報酬信号rを供給しなければならない。典型的に、この報酬信号は、学習アルゴリズムの挙動を操縦するように構成されている。一般的に、報酬信号は、望ましい状態/行動に対して大きな値を帰属させるべきであり、システムによって回避されるべき状態/行動に対して小さな(または負の)値を帰属させるべきである。
考えられる報酬信号は、限定するわけではないが、いくつかの基準状態信号に対する負の追従誤差、特定のタスクの成功に対する指示関数、負の二次コスト項(最適制御からの方法に類似)等を含む。学習アルゴリズムが複数の目標に向けて同時に努力すべき場合には、他の報酬信号のうちの重み付けされたいくつかの報酬信号として、別の報酬信号を構成することも可能である。正の報酬の1つの例は、エージェントが(a)満足のいく性能を有するタスクを(b)迅速に完了した場合には「+1」であってもよい。負の報酬の1つの例は、エージェントがタスクを完了したが緩慢であった場合には「-1」であってもよい。大きな負の報酬の別の例は、信用されている許可領域から車両が離れた場合には「-100」であってもよい。
これにより、制御システム40は、センサ信号のストリームを受信する。次いで、制御システム40は、センサ信号のストリームに依存して一連のアクチュエータ制御命令Aを計算し、これらの制御命令Aは、その後、アクチュエータ10に送信される。
制御システム40は、オブションの受信ユニットにおいてセンサ30のセンサ信号Sのストリームを受信する。受信ユニットは、センサ信号Sを現在の状態信号Stに変換する。代替的に、受信ユニットが存在しない場合には、それぞれのセンサ信号を現在の状態信号Stとして直接的に受信してもよい。
次いで、状態信号Stは、最適化された方策60に伝達され、この最適化された方策60は、例えば人工ニューラルネットワークによって提供可能である。
最適化された方策60は、パラメータ記憶装置に記憶され、かつパラメータ記憶装置によって提供されるパラメータφによってパラメータ化される。
最適化された方策60は、現在の状態信号Stから出力される行動信号Atを決定する。行動信号Atは、オプションの変換ユニットに送信され、この変換ユニットは、行動信号Atを制御命令Aに変換する。次いで、アクチュエータ制御命令Aは、アクチュエータ10を相応に制御するためにアクチュエータ10に送信される。代替的に、出力信号yを制御命令Aとして直接的に受信してもよい。
アクチュエータ10は、アクチュエータ制御命令Aを受信し、相応に制御されて、アクチュエータ制御命令Aに対応する行動を実行する。アクチュエータ10は、制御ロジックを含むことができ、この制御ロジックは、アクチュエータ制御命令Aをさらなる制御命令に変換し、このさらなる制御命令は、次いで、アクチュエータ10を制御するために使用される。
さらに、制御システム40は、プロセッサ45(または複数のプロセッサ)と、少なくとも1つの機械可読記憶媒体46とを含むことができ、この機械可読記憶媒体46には、実行された場合に、最適化された方策に依存してブルドーザ100を制御するための方法を制御システム40に実行させるための命令が記憶されている。
好ましくは、オフロード車両は、方策によって部分的に制御される少なくとも部分的に自律的な車両である。
図2には、オフロード車両を制御するための最適化された方策60を取得するための方法20の1つの実施形態が示されている。
方法20は、パラメータφによってパラメータ化された、オフロード車両の環境のモデルを初期化すること(S21)から始まる。モデル自体は、可能な行動の集合のうちの、オフロード車両の少なくとも1つの入力された行動に依存して出力を決定するために適しており、この出力は、少なくとも、入力された行動および報酬(Rt)が実行された後の環境(St+1)を特徴付ける。
ステップS21の後、オフロード車両の取得された実際の軌道と、環境の割り当てられた状態と、軌道内の注釈付きの行動とを、タプル([St;At;Rt;St+1])に変換すること(S22)が実施される。代替的に、タプルが既に提供されている場合には、ステップS22をスキップしてもよいことに留意されたい。
その後、タプルに依存してモデルが車両と環境との間の相互作用を最良にエミュレートするように、環境のモデルのパラメータ(デジタルツイン)を最適化すること(S23)が続く。
その後、報酬が最適化されるように、モデルとの相互作用のみに基づいて強化学習によって最適な方策60を学習すること(S24)が続く。
最後のステップは、最適な方策(60)を出力する(S25)。
ステップS25の後のオプションのステップでは、オフロード車両、特にブルドーザ100を制御するために、最適な方策が利用される。
図3には、方策60を訓練するための訓練システムの1つの実施形態が示されている。
データベース300は、記録された軌道の、記録されたタプル[St;At;Rt;St+1]を含む。これらのタプルは、環境と、好ましくはオフロード車両とのデジタルツイン302を構築するために、教師あり学習アルゴリズム301によって利用される。
デジタルツイン302は、決定されたタプル([St;At;Rt;St+1])を返し、この決定されたタプル([St;At;Rt;St+1])は、教師あり学習アルゴリズム301によって分析される。続いて、教師あり学習アルゴリズム301は、改善されたパラメータφをデジタルツイン302に返す。これにより、デジタルツインの性能が改善される。教師あり学習アルゴリズム301とデジタルツイン302との間のこれら2つの相互作用は、複数回繰り返される。
次いで、デジタルツイン302との相互作用に基づいて方策60を最適化するために、強化学習アルゴリズム303が使用される。強化学習アルゴリズム303および方策60を介して行動Atが決定され、デジタルツイン302に提出される。デジタルツインは、上記の行動Atに依存して報酬Rtを強化学習アルゴリズム303に返し、強化学習アルゴリズム303は、報酬が最大化されるように方策を調整する。強化学習アルゴリズム303とデジタルツイン302との間のこれら2つの相互作用は、複数回繰り返される。
Claims (10)
- オフロード車両を制御するように構成された方策(60)を学習するためのコンピュータ実装方法(20)であって、
前記オフロード車両は、粒状材料と相互作用するように構成されており、
前記方法は、
i.パラメータ化された、オフロード車両の環境のモデルを初期化するステップ(S21)であって、前記モデルは、可能な行動の集合のうちの、前記オフロード車両の少なくとも1つの入力された行動に依存して出力を決定するために適しており、前記出力のパラメータは、少なくとも、入力された行動および報酬(Rt)が実行された後の前記環境(St+1)を特徴付ける、ステップ(S21)と、
ii.オフロード車両の取得された実際の軌道と、環境の状態と、軌道内の注釈付きの行動とを、タプル([St;At;Rt;St+1])に変換するステップ(S22)であって、前記タプルは、前記環境の状態(St)と、前記オフロード車両によって実行される行動(At)と、報酬(Rt)と、それぞれの時間刻みごとの前記環境の次の状態(St+1)とを含み、前記環境の次の状態は、注釈に基づいて前記行動が実行された後の前記環境を特徴付ける、ステップ(S22)と、
iii.前記タプルに依存して前記モデルが前記車両と前記環境との間の相互作用を最良にエミュレートするように、環境の前記モデルのパラメータ(デジタルツイン)を最適化するステップ(S23)と、
iv.報酬が最適化されるように、前記モデルとの相互作用に基づいて強化学習によって最適な方策(π(St))を学習するステップ(S24)と、
v.前記最適な方策(60)を出力するステップ(S25)と
を含む、方法。 - 前記環境の状態(St)は、車両状態をさらに含み、
前記環境の状態は、行列によって特徴付けられ、ここで、行および列は、前記環境内の位置の座標(x,y)を表し、
前記行列のそれぞれのエントリ(S(x;y)=h)は、それぞれの位置での所定の高さ(h)における粒状材料を特徴付ける、
請求項1記載の方法。 - 収集された前記実際の軌道と、前記環境の状態と、注釈付きの行動とが、人間の操作者によって駆動される前記オフロード車両の行動を記録することによって収集され、
前記行動の記録中に、環境高さマップが記録され、
前記環境の状態は、記録された前記環境高さマップに依存して決定される、
請求項1または2記載の方法。 - 前記粒状材料は、土または砂である、
請求項3記載の方法。 - 前記環境の前記モデルは、ニューラルネットワークであり、
前記タプルの次の状態(St+1)と、前記ニューラルネットワークによって出力された次の状態との間の距離を最小化することにより、前記ニューラルネットワークが最適化される、
請求項1から4までのいずれか1項記載の方法。 - 前記環境の前記モデルは、前記環境と、前記オフロード車両とのデジタルツインである、
請求項1から4までのいずれか1項記載の方法。 - 学習された方策に基づいた、かつ最適化された方策(π(St))に基づく環境の状態に依存した、オフロード車両の制御であって、
前記最適化された方策は、請求項1から6までのいずれか1項記載の方法によって取得される、オフロード車両の制御。 - 請求項1から6までのいずれか1項記載の方法を実施するように構成されている、装置。
- コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサ(45)によって実行された場合に、請求項1から6までのいずれか1項記載の方法を、その全てのステップとともにコンピュータに実行させるように構成されている、コンピュータプログラム。 - 請求項9記載のコンピュータプログラムが記憶されている、機械可読記憶媒体(46)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021204797.1 | 2021-05-11 | ||
DE102021204797.1A DE102021204797A1 (de) | 2021-05-11 | 2021-05-11 | Vorrichtung und Verfahren zum Erlernen einer Richtlinie für Geländefahrzeuge für Baustellen |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022174734A true JP2022174734A (ja) | 2022-11-24 |
Family
ID=83806099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022077382A Pending JP2022174734A (ja) | 2021-05-11 | 2022-05-10 | 建設現場用のオフロード車両のための方策を学習するための装置および方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022174734A (ja) |
DE (1) | DE102021204797A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021214200A1 (de) | 2021-12-13 | 2023-06-15 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zum Lernen einer Strategie für Geländefahrzeuge für Baustellen |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102014212384A1 (de) | 2014-06-27 | 2015-12-31 | Robert Bosch Gmbh | Vorrichtung und Verfahren zum Betreiben eines Fahrzeugs |
-
2021
- 2021-05-11 DE DE102021204797.1A patent/DE102021204797A1/de active Pending
-
2022
- 2022-05-10 JP JP2022077382A patent/JP2022174734A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
DE102021204797A1 (de) | 2022-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dean et al. | Robust guarantees for perception-based control | |
WO2017028653A1 (zh) | 一种移动机器人室内自建地图的方法和系统 | |
CN110955242A (zh) | 机器人导航方法、系统、机器人及存储介质 | |
Bruce et al. | Learning deployable navigation policies at kilometer scale from a single traversal | |
WO2020065001A1 (en) | Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy | |
WO2020152364A1 (en) | Multi-agent reinforcement learning with matchmaking policies | |
CN112135716A (zh) | 数据高效的分层强化学习 | |
JP7169328B2 (ja) | 自律走行車両ためのニューラル・タスク計画部 | |
CN111857107B (zh) | 基于学习组件库的辅助型移动机器人导航控制系统和方法 | |
JP2022174734A (ja) | 建設現場用のオフロード車両のための方策を学習するための装置および方法 | |
JP2023054776A (ja) | 車両を制御するように構成されたストラテジを生成するための強化学習用エージェントに対してトレーニングデータを提供するための装置及びコンピュータ実装された方法、車両を制御するように構成されたストラテジを生成するための装置及び方法、並びに、車両 | |
EP4014162A1 (en) | Controlling agents using causally correct environment models | |
WO2022091305A1 (ja) | 挙動推定装置、挙動推定方法、経路生成装置、経路生成方法、及びコンピュータ読み取り可能な記録媒体 | |
CN111949013A (zh) | 控制载具的方法和用于控制载具的装置 | |
Miron et al. | Autonomous dozer sand grading under localization uncertainties | |
CN113177365B (zh) | 启发式不规则物体垂直堆叠方法及系统、存储介质及终端 | |
Cubuktepe et al. | Shared control with human trust and workload models | |
CN115081612A (zh) | 用以改进机器人策略学习的设备和方法 | |
CN114527759A (zh) | 一种基于分层强化学习的端到端驾驶方法 | |
JP7488401B2 (ja) | デバイスを制御するように設計されて、トレーニングされている機械学習エージェントを提供するための装置及びコンピュータ実装された方法、デバイスを制御するための装置及び方法、並びに、車両 | |
Alexandersson et al. | Implementation of SLAM algorithms in a small-scale vehicle using model-based development | |
Zhang et al. | Using simulation to design an MPC policy for field navigation using GPS sensing | |
EP4276708A1 (en) | Apparatus and computer-implemented method for providing a trained policy configured to control a device, apparatus and method for controlling a device, and vehicle | |
Moshkina et al. | Variable fidelity simulation and replay for unmanned autonomous ground vehicles | |
JP7369890B1 (ja) | ロボットを制御する装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220610 |