JP7465048B2 - 視覚入力に対する形式的安全シンボリック強化学習 - Google Patents

視覚入力に対する形式的安全シンボリック強化学習 Download PDF

Info

Publication number
JP7465048B2
JP7465048B2 JP2022535465A JP2022535465A JP7465048B2 JP 7465048 B2 JP7465048 B2 JP 7465048B2 JP 2022535465 A JP2022535465 A JP 2022535465A JP 2022535465 A JP2022535465 A JP 2022535465A JP 7465048 B2 JP7465048 B2 JP 7465048B2
Authority
JP
Japan
Prior art keywords
agent
safety
image
action
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022535465A
Other languages
English (en)
Other versions
JP2023506169A (ja
Inventor
ダス,スブロ
ハント,ネイサン
フルトン,ナサニエル,ライアン
ニア ホアン,チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023506169A publication Critical patent/JP2023506169A/ja
Application granted granted Critical
Publication of JP7465048B2 publication Critical patent/JP7465048B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0055Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots with safety arrangements
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Description

本開示の実施形態は、視覚テンプレートを用いて、視覚入力をシンボリック状態空間にマッピングする深層強化学習アルゴリズムに関する。
自動運転車および航空機衝突回避システムのような物理システム用の制御ソフトウェアは、安全なシステム動作において最も高い信頼度を保証する必要がある。形式的検証は、これらのシステムの安全性を保証するための厳密な方法を提供するが、しかしながら、典型的には、制御ポリシーがシンボリック状態空間上で定義されること、すなわち、高レベルの変数から具体的数値へのマッピングを仮定する。例えば、アダプティブ・クルーズ・コントロール・システム(定速走行・車間距離制御装置)用の形式的検証がなされた制御ポリシーは、全ての関連車両の平面座標を入力として仮定する。これらの検証されたモデルは、強い安全の保証を提供するが、それらは典型的には高度に非決定論的であり、従って、どのように制御目的を達成するかを説明しない。
強化学習(RL)は、エージェントがその環境と対話してタスクを実行することを学習する機械学習方法である。周知のタスク例には、碁、チェスおよび種々のコンピュータ・ゲームのようなゲームが含まれる。各状態、例えば、現在の盤面のセットアップにおいて、エージェントは、ルークをA4へ、のようなアクションを選択する。エージェントは、ゲームに勝利するなど、良好なアクションに対する報酬、または誤ったアクションに対するペナルティを受け取る。時間が経過すると、エージェントは、その報酬を最大にする行動を学習する。安全RLは、一部のアクションがエージェントまたは環境を損傷することを避けるために制約される、RLの変形例である。自動車および他の地上型車両、航空機、船舶および潜水艇用の制御システムの文脈では、RLエージェントは、乗り物自体の表現である。安全RLは、いずれの状態およびアクションが安全であるかの仕様を必要とする。
安全RLに対する以前のアプローチは、環境のシミュレータなどのモデルおよび安全状態のセットを提供し、各アクションをシミュレートして安全性を検査することを含む。しかしながら、このアプローチは、モデルが利用可能でない場合には適用できない。安全強化学習に向けたいくつかの最近のアプローチは、強化学習エージェントへの安全制約を提供するべく、制御システムの形式的検証済みの非決定論的モデルをどのように活用するかを説明する。形式的制約付きRLへの多くの既存のアプローチは、制御システムへの入力として先行車両および後続車両の位置および速度が提供されるアダプティブ・クルーズ・コントロール問題のように、エージェントが、世界のシンボリック表現にわたり最適化していることを仮定する。同様に、制御ポリシーは、関連する状態変数が入力として提供されることを仮定するシンボリック状態空間上で学習され得る。
別のアプローチは、人間が実証した安全な動作を有することを含む。しかしながら、このアプローチは、人間が実証していない状態に安全性を汎化することが困難であり、人間のパフォーマンスを安全に向上させることが困難である。別のアプローチでは、人がエージェントのトレーニングを監督し、安全でないアクションを防止しかつ罰する。このアプローチは、ドメイン・エキスパートからかなりの時間を必要とし、学習された安全規則は解釈可能ではない。
残念ながら、現実世界のシステムは、世界の状態について正解を与えるこの種のオラクルを有していない。ここで、オラクルは、常に正しい回答を返す(理論的な、実際のものではない)関数であるが、その実装は、未知であるかまたは実行不可能である。その代わりに、ロボットは、カメラやLiDARなどのセンサから得られた高次元入力を処理することによって、セーフティ・クリティカルな設定(safety-critical settings)において決断しなければならない。これらの視覚入力のあらゆる潜在的な側面をシンボリック状態空間に手動でマッピングすることは、多大な時間を必要とし、多くの場合に解決困難である。この所見は、視覚上の問題に対する深層学習の有効性と同様に、エージェントが視覚入力上で直接ポリシーを学習する、深層強化学習アルゴリズムの開発を動機づけた。
制約付き強化学習(RL)は、アクション空間上で形式的に指定された制約を強制することによってRLエージェントが安全なアクションを行うのみであることを保証する。形式的制約付きRLへ向けた既存のアプローチは、画像のような生の入力からシンボリック状態空間へマッピングするオラクルを仮定する。残念なことに、この仮定は、世界を正しく理解するという基本的かつ困難なタスクに対処するものではない。シンボリック状態にわたり学習することは、また、報酬信号に関連する環境のあらゆる側面を捕捉するシンボリック状態空間を構築することを含む。
形式的制約付き強化学習へ向けた既存のアプローチは、典型的には、トレーニング中にアクション空間を制約し、トレーニング・プロセス中に完全には探索されていない潜在的に安全ではない状態を残す。これは、安全制約を構築するために使用したモデル仮定において不正確性があってもなお訓練済みシステムは安全なままであるか?という汎化に関する懸念を引き起こす。モデリング仮定が報酬信号を構造化するために用いることができることを提案する予備的ないくつかの研究はさておき、この疑問は、ほとんど未踏もまま残される。
背景および関連研究は、シンボリック強化学習、検証可能/形式的に安全な強化学習に重点を置いた安全強化学習および形式的仕様/検証の3つの大まかなカテゴリーに分類される。いくつかの著者は、強化学習においてシンボリック・マッピングを利用することを提案した。シンボリックRLについての既存の研究は、状態空間全体の完全なシンボリック表現を学習することを試みる。加えて、最適化されているシステムの安全制約を考慮するシンボリック強化学習に関する従来の研究は存在しない。安全制約は、シンボリックRLに報酬構造を介して組み込まれるが、しかしながら、これは、集められる報酬を最適化するよりも破滅的な状態を回避することがより重要である、セーフティ・クリティカルなシナリオにおいては十分ではない。時には、最適なポリシーが安全制約を保存することを保証する報酬構造を選択することが可能であるが、これらのような場合でさえ、シンボリック強化学習アルゴリズムは、トレーニング・プロセス中の安全性の保証を提供することができない。シンボリックRLについての他の最近の研究は、モデルベースのRLとシンボリック・プランニングを統合する。
深層ニューラルネットワーク(DNN)をRLに統合することは、カメラ入力上で直接に制御ポリシーを学習する、例えばビデオ・ゲームやロボットなど、以前は困難であった問題に強化学習を拡張することを支援した。深層RLは、手動で、時間がかかり、しばしば不完全な特徴エンジニアリング処理によりボトルネックとなっていた、従来型の強化学習アプローチを上回る重要な利点を提供する。
これらの実質的な利点にもかかわらず、深層RLアルゴリズムは、第一原理に基づく形式的で説明可能な安全保証を提供しない。これは、安全性について最適化するために学習の前にエージェントが相当な数の破滅的なイベントを観測しなければならず、その場合にも、報酬関数が注意深く作りこまれた場合に限られる、トレーニング中は、特に真実である。
本開示の例示的な実施形態は、RLエージェントに対する制約付きアクションを生成し、それ自体/環境にダメージを与えることを回避するように、安全制約を指定(specifying)し、強制する(enforcing)ためのシステムおよび方法を対象とする。本開示の実施形態は、ドメイン・エキスパートからの入力として、どのような状態/アクションが安全であるかの仕様を取得し、環境のいかなるモデルも必要としない。実施形態によるシステムは、視覚入力からテンプレートベースのマッピングを学習してシステムの状態の部分的なシンボリック表現を作成することによって、エンド・ツー・エンドのポリシーを学習し、安全制約を強制することができる。本開示の実施形態は、複雑な視覚入力に汎化する。経験的評価は、実施形態によるシステムが、安全性を学習し、生の視覚入力上でのみ観測可能な目的(objectives)を最適化することができることを実証する。本開示の実施形態によるシステムは、自動運転車などのロボティック・ハードウェアまたはソフトウェア製品を製造する、あるいはこれらの産業セクタにサービスを提供する会社にとって関心があるであろう。
本開示の実施形態によれば、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法が提供され、方法は、強化学習(RL)エージェントのアクション空間の画像中の各オブジェクトについて、RLエージェントの画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、RLエージェントのアクション空間の画像中の各オブジェクトが検出される、ステップと、検出された各オブジェクトを、RLエージェントのアクション空間の画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、RLエージェントのアクション空間の画像中の各オブジェクトについての座標に関する変数のセットに対し、RLエージェントのアクション空間に対する安全仕様を適用することによって、RLエージェントに対する安全アクションのセットを決定するステップと、RL手順の現在の状態について、RLエージェントに安全アクションのセットを出力するステップと、RLエージェントがアクションを行う前に、RLエージェントが安全でないアクションを実行することを防止するステップとを含む。
本開示のさらなる実施形態によれば、RLエージェントのアクション空間の画像中の各オブジェクトについてテンプレートマッチングを実行するステップは、各オブジェクトの視覚テンプレートを用いて、RLエージェントのアクション空間の画像中の各オブジェクトあたりに境界ボックスを配置するステップを含む。
本開示のさらなる実施形態によれば、検出された各オブジェクトを、RLエージェントのアクション空間の画像中の各オブジェクトについて平面座標のセットにマッピングするステップは、各境界ボックスの重心を、RLエージェントのアクション空間の画像中の各オブジェクトについての平面座標のセットにマッピングするステップを含む。
本開示のさらなる実施形態によれば、方法は、RLエージェントのアクション空間の単一のラベル付き画像におけるデータを拡張し、画像からすべてのテンプレートを除去し、複数のテンプレートをランダムにサンプリングし、複数のテンプレートの各々を拡張し、テンプレート・マスクを用いて複数のテンプレートの各々をランダムに画像中に配置し、複数の画像が生成され、複数の画像を用いてテンプレートマッチングをトレーニングすることによって、各オブジェクトについてのテンプレートマッチングをトレーニングするステップをさらに含む。
本開示のさらなる実施形態によれば、単一のラベル付き画像におけるデータを拡張することは、画像の輝度をランダムに調整すること、画像をクロッピングすることまたは画像を左右反転することの1または複数を含み、複数のテンプレートの各々を拡張することは、テンプレートを左右反転すること、テンプレートを回転することまたはテンプレートからピクセルを落とすことの1または複数を含む。
本開示のさらなる実施形態によれば、RLエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの1つである。
本開示のさらなる実施形態によれば、方法は、現在のRLステップでの画像中の各オブジェクトについての平面座標のセットと、以前のRLステップでの画像中の各オブジェクトについての平面座標のセットとの間の差分を用いて各オブジェクトについての潜在的なアクションを推定するステップを含む。RLエージェントは、そのダイナミクスの知識および安全仕様を用いて、RLエージェントが、アクションを取った後、次いで以前に観測された状態遷移すべての最悪な潜在的な結果が続き、安全仕様が、ワン・ステップ将来でも依然として満足される場合にのみ、アクションをとることを確実にする制約を構築する。
本開示のさらなる実施形態によれば、安全仕様は、画像中の各オブジェクトについて形式論理学で特定される複数の安全制約を含む。
本開示の別の実施形態によれば、制御ソフトウェアを実行する強化学習(RL)アルゴリズムにおいて安全制約を強化するために制御ソフトウェアをトレーニングするための方法が提供され、方法は、入力画像中の1または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成するステップと、入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップと、各安全性関連オブジェクトについての座標を用いることによって、RLアルゴリズムにおけるRLエージェントに対し安全制約を強制するステップと、RLエージェントがアクションを行う前に、RLエージェントが安全でないアクションを実行することを防止するステップとを含む。
本開示のさらなる実施形態によれば、入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップは、各オブジェクトに対する視覚テンプレートを用いて、各安全性関連オブジェクトあたりに境界ボックスを配置するステップと、各境界ボックスの重心を、入力画像中の各安全性関連オブジェクトについての座標にマッピングするステップとを含む。
本開示のさらなる実施形態によれば、RLアルゴリズムにおけるRLエージェントに対し安全制約を強制するステップは、RLエージェントに対する安全仕様を受信するステップと、安全仕様および各安全性関連オブジェクトについての座標から安全制約を決定するステップであって、RLエージェントの各アクションが、安全(safe)または安全ではない(非安全;unsafe)とラベル付けされる、ステップと、RLエージェントが安全ではないアクションを実行するのを防止するステップとを含む。
本開示のさらなる実施形態によれば、RLエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの1つである。
本開示の別の実施形態によれば、コンピュータにより可読な非一時的プログラム格納デバイスが提供され、プログラム格納デバイスは、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法のステップを行うためにコンピュータによって実行される命令のプログラムを有形に具現化するものである。
本開示の一側面によれば、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法が提供され、方法は、強化学習(RL)エージェントのアクション空間の画像中の各オブジェクトについて、RLエージェントの画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、RLエージェントのアクション空間の画像中の各オブジェクトが検出される、ステップと、検出された各オブジェクトを、RLエージェントのアクション空間の画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、RLエージェントのアクション空間の画像中の各オブジェクトについての座標に関する変数のセットに対し、RLエージェントのアクション空間に対する安全仕様を適用することによって、RLエージェントに対する安全アクションのセットを決定するステップと、RL手順の現在の状態について、RLエージェントに前安全アクションのセットを出力するステップと、RLエージェントがアクションを行う前に、RLエージェントが安全でないアクションを実行することを防止するステップとを含む。
本開示の別の側面によれば、制御ソフトウェアを実行する強化学習(RL)アルゴリズムにおいて安全制約を強化するために制御ソフトウェアをトレーニングするための方法が提供され、方法は、入力画像中の1または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成するステップと、入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップと、各安全性関連オブジェクトについての座標を用いることによって、RLアルゴリズムにおけるRLエージェントに対し安全制約を強制するステップと、RLエージェントがアクションを行う前に、RLエージェントが安全でないアクションを実行することを防止するステップとを含む。
本開示の別の側面によれば、コンピュータにより可読な非一時的プログラム格納デバイスが提供され、プログラム格納デバイスは、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法のステップを行うためにコンピュータによって実行される命令のプログラムを有形に具現化するものであり、方法は、強化学習(RL)エージェントのアクション空間の画像中の各オブジェクトについて、RLエージェントの画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、RLエージェントのアクション空間の画像中の各オブジェクトが検出される、ステップと、検出された各オブジェクトを、RLエージェントのアクション空間の画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、RLエージェントのアクション空間の画像中の各オブジェクトについての座標に関する変数のセットに対し、RLエージェントのアクション空間についての安全仕様を適用することによって、RLエージェントに対する安全アクションのセットを決定するステップと、RL手順の現在の状態について、RLエージェントに安全アクションのセットを出力するステップと、RLエージェントがアクションを行う前に、RLエージェントが安全でないアクションを実行することを防止するステップとを含む。
本開示の別の側面によれば、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするためのシステムが提供され、システムは、強化学習(RL)エージェントのアクション空間の画像中の各オブジェクトについて、RLエージェントの画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行することであって、RLエージェントのアクション空間の画像中の各オブジェクトが検出される、実行することと、検出された各オブジェクトを、RLエージェントのアクション空間の画像中の各オブジェクトについて平面座標のセットにマッピングすることと、RLエージェントのアクション空間の画像中の各オブジェクトについての座標に関する変数のセットに対し、RLエージェントのアクション空間に対する安全仕様を適用することによって、RLエージェントに対する安全アクションのセットを決定することと、RL手順の現在の状態について、RLエージェントに安全アクションのセットを出力することと、RLエージェントがアクションを行う前に、RLエージェントが安全でないアクションを実行することを防止することを実行するように動作可能である。
本開示の別の側面によれば、制御ソフトウェアを実行する強化学習(RL)アルゴリズムにおいて安全制約を強化するために制御ソフトウェアをトレーニングするためのシステムが提供され、システムは、入力画像中の1または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成することと、入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定することと、各安全性関連オブジェクトについての前記座標を用いることによって、RLアルゴリズムにおけるRLエージェントに対し安全制約を強制することと、RLエージェントがアクションを行う前に、RLエージェントが安全でないアクションを実行することを防止することとを実行するように動作可能である。
以下、本発明の実施形態について、例として、添付図面を参照しながら説明する。
本開示の実施形態による、コンピュータ・ビジョンおよび強化学習エージェント・システムのブロック図である。 ロードランナー・コンピュータ・ゲーム環境に適用される本開示の実施形態によるエンド・ツー・エンド深層強化学習アルゴリズムを示す図である。 ロードランナー・ゲーム環境を示す図である。 本開示の実施形態によるロードランナーおよびコヨーテのシンボリック・マッピングを示す。 本開示の実施形態による、単一のラベル付きテンプレート画像を示す。 本開示の一実施形態による、トレーニング画像の例示的なセットを示す。 本開示の実施形態による、XO環境におけるトレーニング中の安全性違反の数を比較する。 本開示の実施形態による、XO環境におけるトレーニング中の累積報酬を示す。 本開示の実施形態による、ペナルティ(非安全リワード≠0)がシステム性能を低下させる、XO環境において安全でないアクションの試みにペナルティを与える安全汎化能力を示す。 本開示の実施形態による、ロードランナー環境におけるトレーニング中の安全性違反の数を比較する。 本開示の実施形態による、ロードランナー環境におけるトレーニング中の累積報酬を示す。 本開示の実施形態による、トレーニング中、安全でないアクションが試みられる場合に必ず「非安全報酬」(ペナルティ)が適用される場合のリターンの比較を示す。 XO環境を示す図である。 本開示の実施形態を実装する例示的なクラウド・コンピューティング・ノードの概略図である。 本開示の実施形態による例示的なクラウド・コンピューティング環境を示す。
本開示の例示的な実施形態は、概して、視覚テンプレート(visual template)を用いて視覚入力(visual input)をシンボリック状態空間(symbolic state space)にマッピングする深層強化学習アルゴリズムを提供する。実施形態は、種々の変形および代替形式を受け入れる余地があるが、その特定の実施形態は、例として図面に示され、本明細書において詳細に説明されるであろう。しかしながら、本開示を開示される特定の形式への制限する意図はなく、反対に、本開示は、本開示の精神および範囲内に含まれるすべての変形例、等価物および代替物を対象とするものであることを理解されたい。
本開示の例示的な実施形態は、視覚入力を通してポリシーを学習するエンド・ツー・エンド強化学習アルゴリズムへシンボリックな安全制約を組み込むフレームワークを提供する。本開示の実施形態は、現在の状態の完全なシンボリック表現を与えるオラクル(oracle)の存在を仮定せず、エージェントのポリシーまたは価値関数がシンボリック状態空間上で定義されることを仮定しない。実施形態によるシステムは、視覚テンプレートマッチングを使用して、視覚データから、エージェントおよびエージェントが回避すべき障害物の位置のような安全に関連するシンボリック特徴を抽出する。これらのシンボリック特徴は、次いで、形式的な安全制約を強制するために使用されるが、ポリシーが学習される実際のドメインとしては使用されない。
本開示の実施形態によるシステムは、視覚入力から、それにわたって形式的モデルが定義されるシンボリック状態空間へのマッピングのためのオラクルに依存しない、視覚入力上の形式的安全エンド・ツー・エンドの強化学習のためのシステム、並びに、より高いレベルの形式的な安全仕様、すなわち衝突回避のような最終的な安全目標が所与で、左に曲がっても安全であるといった状態のセットなどのアクション上のガードを学習するためのシステムを提供する。
安全コントローラの指定
実施形態によれば、差動動的ロジック(dL)が、エージェントのアクション空間上の安全制約を指定するために使用される。dLは、離散的および連続的な時間的動力学ステムの両方の到達性特性を指定しかつ証明するためのロジックである。動力学システムは、ハイブリッド・プログラム(HP)、つまり、命令型プログラムを微分方程式の系と組み合わせる簡素なプログラミング言語によって指定される。HPの構文および情報セマンティクスは、以下の通りである:
ここで、f,gは、実数算術の多項式であり、~は、{≦,<,=,≧}の1つであり、[α]φの意味は、プログラムαを実行することにより到達されるすべての状態においてφが真である、ということである。dLの式は、KeYmaera X定理証明器において記述されまた証明される。そのような仕様が与えられると、強化学習アルゴリズムのための、本明細書では安全モニタと参照される安全アクションのセットがシンボリック状態空間上で構築されてもよい。実施形態によれば、安全制約は、dLプリミティブに関して述べられているが、安全制約についての証明は、構築されていない。
概要
実施形態による、安全制約を指定し、強制するためのシステムおよび方法は、環境のモデルを必要とせず、複雑な(視覚の)状態空間に適用可能である。実施形態によるシステムは、ドメイン・エキスパートが高レベルの安全制約を指定することを可能にし、視覚入力を高レベルの特徴にマッピングして制約を検証し、解釈可能な安全ルールを使用する。これにより、ドメイン・エキスパートが安全制約を指定するのに要した時間が短縮される。実施形態によるシステムは、エージェントが、安全でないアクションをとることを防止することができる。物理システム用の制御ソフトウェアの文脈においては、エージェントは、例えば、自動運転またはロボットモータ車両、ロボット水上船舶または潜水艦、または自己制御された無人航空機などの自動化された自己制御車両(vehicle、乗り物)である。
例示的な実世界の応用は、Amazon様式の倉庫内のロボットである。ロボットは、倉庫から人間の荷造り作業員への物品のスタックを運ぶ必要がある。安全制約は、他のロボット、人間の作業員および物品のスタックについて別個に定義されるであろう、ロボットの許容される位置および速度を制御するであろう。
実施形態によるコンピュータ・ビジョンおよび強化学習エージェント・システムは、入力として、(1)ドメイン・エキスパートからの高レベル(シンボリック)の安全制約、(2)カノニカル・オブジェクト表現および(3)強化学習環境からの視覚入力を取得する。実施形態によるシステムは、モデルを使用しない。実施形態によるコンピュータ・ビジョンおよび強化学習エージェント・システムは、視覚入力からシンボリック特徴にマッピングし、シンボリック制約を検査し、環境においてアクションを実行する。実施形態によるコンピュータ・ビジョンおよび強化学習エージェント・システムの出力は、(1)現在の状態における安全アクションのセットおよび(2)安全制御ポリシーである。
図1Aは、実施形態によるコンピュータ・ビジョンおよび強化学習エージェント・システムのブロック図である。実施形態によるシステムは、強化学習ループ110および安全システム120を含む。強化学習ループ110は、視覚観測111、エージェント112、アクション113、環境114および報酬115を含む。安全システム120は、ドメイン・エキスパート121、オブジェクト表現122、シンボリック・マッピング123、シンボリック特徴124、シンボリック制約125および安全アクション126を含む。
強化学習ループ110においては、各状態、例えば、現在の盤面セットアップで、エージェント112は、現在の環境114の視覚観測111に基づいて、ルークをA4へのようなアクション113を選択する。アクション113は、環境114を変化させ、エージェント112は、ゲームに勝つといった、良好なアクションに対する報酬115または不良なアクションに対するペナルティを受け取る。時間が経過すると、エージェントは、その報酬を最大にするように学習する。実施形態によるコンピュータ・ビジョンおよび強化学習エージェント・システムにおいては、視覚観測111は、シンボリック・マッピング・プロセス123において安全システム120によって使用されて、安全アクション126を決定し、これは、エージェント112に提供される。これらは、以下に詳細に説明される。
実施形態によれば、ドメイン・エキスパート121は、オブジェクトおよび位置などのこれらの特性のような高レベルの特徴に関するシンボリック制約125を提供する。シンボリック制約125は、条件を指定し、その条件が満たされた場合にいずれのアクションが安全でないかを指定する。例えば、「車があなたの左側に近接し、あなたの上でも下でもない場合は、左に移動しない」は、シンボリックには以下のように表現され得る:
実施形態によれば、ドメイン・エキスパート121は、また、システム内の各オブジェクトについてカノニカル表現122を提供する。観測111から、エージェントは、画像などを受信し、エキスパート121は、画像中のどのオブジェクトがどこにあるかを記録する。例えば、AIのロードランナー(roadrunner)のゲームにおいては、図2Aに示されるが、エージェントが、ロードランナー210で、コヨーテ220が、安全ではないオブジェクトである。ボックス212,222は、エキスパートのアノテーションである。
実施形態によるシステムは、システム内の各オブジェクトについてのカノニカル表現122を使用して、視覚入力111からシンボリック特徴124へのマッピング123を作成する。他のコンピュータ・ビジョン・タスクからのプレトレーニングされたモデルを使用して、多数のラベル付けデータの必要性を回避することができる。テンプレート画像から生成されたデータ上でさらにトレーニングを行うことができる。図2Bにおけるロードランナー(roadrunner)210およびコヨーテ220のシンボリック・マッピングは、以下のシンボリック特徴をもたらす(roadrunner,x=100,y=124),(coyote,x=130,y=129)。
実施形態によるシステムは、オブジェクトの各潜在的なグループピング上でシンボリック制約125を評価し、すべての制約125下で安全であるアクション126のみを許容する。例えば、シンボリック特徴(roadrunner,x=100,y=124),(coyote,x=130,y=129)、シンボリック制約(abs(coyote.y-roadrunner.y)<6)&(0<coyote.x-roadrunner.x<31):{right}および潜在的なアクションのセット{left,right,up,down}が与えられると、実施形態による制約評価は、安全アクション126:{left,up,down}を生じる。これらの安全アクション126は、そこから選択するためにエージェント112に提供される。
実施形態による安全システムは、複数のやり方で安全を強制するためにRLエージェントと統合される。安全アクションは、安全アクションにわたるポリシー分布からまたは一様ランダムにサンプリングすることにより、最も安全なQ値によって選択されてもよい。安全ではない試みに対するペナルティは、エージェントに安全を、制約から偶発的に除外された状態に汎化することを教えてもよい。しかしながら、強いペナルティは、過度に慎重な振る舞いにつながる可能性がある。探査と、安全であるという厳正さとの間にはトレードオフがある。エージェントのトレーニングは、安全なまたは安全ではない両方の元のアクションを考慮してもよく、またはその代わりに安全なアクションを使用してもよい。
実施形態による方法の詳細な実施および結果が以下に提供される。
視覚入力上での安全RL
本開示の実施形態は、視覚テンプレートを使用して視覚入力を、エージェントのアクション空間上で安全制約を強制するために使用し得る、シンボリック状態空間にマッピングするエンド・ツー・エンドの深層強化学習アルゴリズムを提供することができる。基本的なフレームワークは、上述した図1に示されている。学習の前に、ドメイン・エキスパートは、dLまたは別のプログラミング言語/ロジックで書かれた安全仕様を提供する。実施形態による安全仕様は、安全制約のセットである。ドメイン・エキスパートは、これらのシンボリック制約に加えて、シンボリック安全制約において記載されている各オブジェクトについての視覚テンプレートも提供する。これらのカノニカル・オブジェクト表現は、学習中に、視覚入力からシンボリック状態を抽出するために使用される。標準的なエンド・ツー・エンドの深層強化学習アルゴリズムが、次いで、各視覚入力をシンボリック特徴空間にマッピングし、シンボリック安全制約を適用し、現在の状態に対する安全なアクションのセットを出力する、安全モニタリング・システムによって拡張される。
図1Bは、ロードランナー環境100に適用される実施形態による、エンド・ツー・エンドの深層強化学習アルゴリズムを示す。図1Bにおいては、ロードランナー131、コヨーテ141および車151といった、ロードランナー環境の視覚表現100内のオブジェクトを検出するためにオブジェクト・テンプレート160が使用される。検出されたオブジェクトから導出されたシンボリック制約は、視覚表現100に作用するポリシー・ネットワーク150の出力と組み合わせられて、ロードランナーについての安全なアクションのセットである、安全モニタ180を学習する。シンボリック・マッピングは、安全制約を強制するためにのみ使用され、安全性を強制するために使用されるシンボリック表現は、オラクルではなく、代わりにテンプレートマッチング・アルゴリズムを使用して学習されることに留意されたい。このゲームでは、位置(rr.x,rr.y)のロードランナー131は、シンボリック状態において表現されていないバードシードを拾いながら、位置(co.x,co.y)のコヨーテ141および位置(car.x,car.y)の車151の両方を回避しなければならない。全体の安全仕様は、これらの障害物の両方に対する衝突回避である:
実施形態によれば、テンプレートマッチングが使用されて、ロードランナー132、コヨーテ142(敵対的障害物)および車152(移動障害物)の周りに境界ボックスを配置する。これらの境界ボックスの重心は、各オブジェクトのx座標およびy座標に対する変数にマッピングされる。これらの変数にわたって定義されたシンボリック安全制約が、次いで、利用可能なアクションのセットを制約するために使用される。例えば、リスト1は、ロードランナー環境に対するいくつかの制約の1つである。この制約は、車がロードランナーの北東にある場合に、ロードランナーが上(up)に移動したり、右上に(upright;上および右に)に移動したりしないことを記述する。車、ロードランナーおよびコヨーテの他の構成に対する同様の制約が、衝突を防止し得る。
リスト1:ロードランナー環境用の安全制約の一例:
リスト1の制約は、安全仕様、この場合、式(1)と、しばしば暗黙的であり、好ましくは明示的な環境のモデルと組み合わせて、人間、すなわち、ドメイン・エキスパートによって体系的に構築される。実施形態によれば、制約は、リスト1にあるように、アクション空間上の入力である。別の実施形態によれば、リスト1のもののようなアクション制約は、式(1)のような安全仕様を入力として取得し、学習プロセスの開始時点でのいくつかの初期実験から、世界がどのように振る舞うかについての観測を前提として安全仕様をどのように保存するかを推論することによって構築される。本開示の実施形態は、視覚入力から環境の形式的シンボリックな動力学モデルを自動的に学習する安全RLアプローチを提供することができる。
シンボリック・マッピングの構築
実施形態によれば、シンボリック安全制約は、安全性に関連するオブジェクト(safety-relevant object)の平面座標に関連して記述され、これは、速度に関して記述された制約ではなく、位置的な安全制約がサポートされることを意味する。形式的安全RLを対象とした大部分の既存のアプローチは、位置に関して安全制約を記述する。入力画像中の各安全関連オブジェクトの平面座標を検出するには、全ての安全関連オブジェクトのサンプル観測が必要である。全ての安全関連オブジェクトのこれらのサンプル観測は、各オブジェクトについての視覚テンプレートの一部を形成する。これらのサンプル観測は、境界ボックスおよびセグメンテーション・マスクで全ての安全関連オブジェクトがラベル付けされた状態で、環境から少なくとも1つのサンプル観察をラベル付けする人間によって、提供される。この人間は、上述したドメイン・エキスパートである。人間は、安全関連オブジェクトのあらゆるクラスの少なくとも1つの実例をラベル付けするが、そのオブジェクトの各インスタンスをラベル付けする必要はない。例えば、シーンに出入りする複数の車が存在する場合がある。人間は、車をラベル付けする必要があるが、シーンに入る一つ一つの車をラベル付けする必要はない。マスクは、任意であるが、マッピングの精度を向上させる可能性がある。制約で述べられた各シンボリック・オブジェクトについて、そのカノニカル視覚表現が、視覚入力を安全関連オブジェクトの平面座標のセットへマッピングするために使用される。オブジェクトのカノニカル視覚表現は、オブジェクトの視覚テンプレートから取得され、視覚テンプレートと同一であってもよいことに留意されたい。カノニカル視覚表現が視覚テンプレートの摂動されたバージョン(perturbed version)であってもよい。加えて、ラベル付き画像は、安全関連オブジェクト自体のクロッピングされた画像ではなく、サンプル観測であるべきであり、これにより、以下に説明するように、ラベル付き画像の背景がデータ拡張に使用されるようにしてもよい。
実施形態によれば、視覚テンプレートが見つけられると、テンプレートおよび画像が、テンプレートにマッチする画像の部分の(x,y)座標を返すテンプレートマッチング関数に渡されてもよい。実施形態によれば、これら(x,y)座標(複数可)は、視覚テンプレート中の関心のあるオブジェクトの周りの境界ボックスの重心に対応する。実施形態によるシンボリック・マッピングの一例の非限定的な実装は、以下の通りである:
本開示の実施形態によれば、Cheng等による「QATM:Quality-aware template matching for deep learning」、Proceedings of the IEEE conference on Computer Vision and Pattern Recognition,11553-11562(2019)に開示される、品質アウェア・テンプレートマッチング(QATM;Quality Aware Template Matching)アルゴリズムの変形例が、ユーザ提供の安全関連オブジェクトのテンプレートにマッチする視覚入力におけるオブジェクトを検出するために用いられ、この論文の内容は、それらの全体として、本明細書に参照により組み込まれる。QATMは、エンド・ツー・エンドの微分可能なテンプレートマッチング・アルゴリズムであり、これは、そのパラメータが訓練可能であることを意味する。アルゴリズム1は、視覚入力をシンボリック特徴にマッピングするための実施形態による方法の概要を与える。各ステップが、以下に詳細に説明される。入力および出力は、次の通りである:
・F:入力として画像を用いて任意のタスクでプレトレーニングされたCNN。これは、一般的な画像に関する関連の特徴を包含する学習済み表現を有することを意味する。テンプレートマッチングは、このCNNの表現空間において実行される。
・I:テンプレートによって指定される全てのオブジェクトの位置を照会される画像。
・T:検出されるべき各オブジェクトについて1つのテンプレート画像のセット。
・α:各テンプレートについてのソフトマックス温度パラメータ。
・T、各テンプレートについての閾値:テンプレートマッチングのスコアは、検出が行われるためにはこれを超える必要がある(後述する他の条件も同様にある)。
・conv:各テンプレートに対する別個の畳み込み層。各層において使用されるカーネルのサイズは、対応するテンプレート画像のサイズと一致する。これらがトレーニングされると、各テンプレートについてのテンプレートマッチング・スコアが、そのテンプレートに対して最も識別力のあるピクセル位置に焦点を当てるようになる。テンプレート固有のゼロ・パディングされた層もまた追加されて、異なるカーネルサイズでの畳み込みの後でも全てのテンプレートについてのスコア・マップが同一となるようになされるが、わかりやすくするために省略される。
・sys_state:キーがテンプレートであり、値が画像中のテンプレート・オブジェクトの全ての検出された実例の(x,y)位置のリストである辞書。
実施形態によるシンボリック・マッピングは、変更を含むQATMアルゴリズム(上記3行目)、QATMスコアからオブジェクトを検出すること(上記第4行~第13行)およびモデルをトレーニングすることを含む、3つのセクションを含む。
QATM
特徴抽出器Fは、任意のプレトレーニング済みのCNNであってもよい。テンプレートマッチングは、生のピクセル空間の代わりにCNNの学習済み表現を使用して行われるであろう。テンプレートマッチングのタスクが、特徴抽出器がトレーニングされた元のタスクとは異なってもよいので、抽出される特徴は、ネットワークの出力層の近くではない層から取得される。実施形態によれば、オリジナルのQATMの論文と同じセットアップが使用される:特徴抽出器は、画像データベース上でプレトレーニングされた深層畳み込みニューラルネットワークであり、第2層および第16層からの特徴が使用される。バイリニア補間が使用されて、より多くのプーリングが生じた後の第16層からの特徴が、第2層からのものと同一サイズにリサイズされる。これらの両方の層からの特徴マップが、次いで連結されて、最終的な特徴テンソルが生成される。シンボリック・マッピングに渡される画像Iは、環境からの完全な解像度のRGB観測である。PPOへの入力として、効率のために低解像度のグレイ・スケール画像が使用されるが、実施形態によるシンボリック・マッピングは、生の観測を用いた方がより正確である。安全性を保存することが非常に重要であるので、主にトレーニングについての問題である効率を低下させる価値がある。実施形態によるアルゴリズムは、毎秒100を超えるフレームを処理することができ、これは、リアルタイム推論のために十分である。シンボリック・マッピングによって使用されるテンプレートTは、所与の境界ボックスを使用してエキスパートによりアノテーションされた画像からクロップされる。セグメンテーション・マスクが提供される場合、オブジェクトに属さないこれらの画素が背景値に設定されてもよい。ロードランナー環境に対してはゼロが使用されるが、オブジェクト自体が0のピクセル値を有するので、XO環境においてテンプレートに変更がなされない。テンプレート固有の温度α、閾値Tおよび畳み込み層convは、以下に説明される。
一実施形態によれば、2つの層からの特徴マップを連結した後、訓練可能な畳み込み層が、QATMの特徴抽出器に加えられ、別個の平滑化層およびソフトマックス温度が、各テンプレートについてトレーニングされた。QATM機能がどのように機能するかについての詳細については、cheng等を参照されたい。簡潔には、Chengの方法は、まず、特徴抽出器を使用して画像およびテンプレートについての特徴を計算する。各位置におけるこれらの特徴の間の類似性が、チャネルの次元にわたりテンソル積を用いて計算される。所与の温度を使用して2つのソフトマックス配列、テンプレートの次元にわたるものおよび画像の次元にわたるもの、が計算される。これらが、要素ごとに乗算され、最大値がテンプレートの次元にわたってとられ、各位置での、予測されたマッチング確率であるQATMスコアを得る。
スコア・マップからのオブジェクトの検出
実施形態によれば、スコア・マップから検出を得るため、それらの近傍よりも高いスコアを有し、かつテンプレート固有の閾値に達する全ての位置が選択される。局所最大スコアを有する位置を検出することは、その位置におけるスコアが、その位置を中心とするmaxpool操作の結果と等しいか否かを検査することによって行うことができる。これは、maxpool操作のために利用可能な最適化されたGPU実装の結果、効率的な方法である。スコアがその位置で適用される3×3のカーネルを用いたmaxpoolの結果に等しく、スコアがそのタイプのオブジェクトについての閾値を超える任意の位置が検出として返される。この計算は、アルゴリズム1の第2行~第11行において、わかりやすくするために、forループを用いて明示的に行われる。
実施形態によれば、アルゴリズム1は、各テンプレートについて実行されて、全てのオブジェクトの検出された位置を得るが、実際には、計算の一部は、同一の入力画像でのコール間で再使用されてもよい。これらのオブジェクト・タイプおよび位置は、以下に示すように、現在の状態での安全制約を評価するために使用されるシンボリック特徴である。
シンボリック・マッピングのトレーニング
実施形態によれば、大量のアノテーションへの依存性が導入されるのを回避するために、図2Cに示すように、単一のラベル付きテンプレート画像が、QATMをトレーニングするために使用され、シンボリック・マッピングのパラメータをトレーニングするために積極的なデータ拡張が使用された。例示的な拡張には、画像の輝度に対するランダムな調整、クロッピングおよび左右反転が含まれる。加えて、テンプレート・マスクが用いられてテンプレートを背景画像中の様々な位置に移動させた。最初にすべてのテンプレートが修復アルゴリズムを用いて画像から除去されて、それらのピクセルを置換した。次いで、トレーニングで使用される各画像を作成するために、テンプレートのセットが、画像中に含ませるためにランダムにサンプリングされた。各テンプレートについて、左右反転、小回転およびテンプレートのピクセルの一部を落とすことがランダムに適用された。テンプレートは、次いで、背景画像中のランダムな位置に貼り付けられ、多数のトレーニング画像のセットを作成した。図2Dは、本発明の実施の形態によるトレーニング画像の例示的なセットを示す。これらの環境の図形的な単純さから、テンプレートの平均色は、貼付する領域の平均色とは十分に異なる。これは、テンプレートが識別可能となることを確実にする。
移動するオブジェクトは、しばしば、互いに部分的に遮蔽する。シンボリック・マッピングが、部分的に遮蔽されたオブジェクトを識別するタスクを実行することができるようにするために、拡張の際の高い確率でのテンプレートの重複が用いられる。これは、2つの理由のためにロードランナー環境で妥当である。第1に、車がコヨーテに衝突することが許容される。第2に、ロードランナーは、車と衝突することなく、車と重なることができる。同様の部分的に重複する状況が、2つの歩行者が車の前方で互いに通過する場合のように他の制御問題においても生じる。
実施形態によれば、拡張されたデータセットを作成した後、単一のラベル付きテンプレート画像について少数のラベル付きサンプルを使用することによってテンプレートマッチングが逆伝播を用いてトレーニングされる。ラベル・スコア・マップを作成するための例示的、非限定的な手順は、上記のアルゴリズム2である。オブジェクトの真の位置がピクセル位置(x,y)にある場合、平均[x,y]を有する2Dガウス分布が生成され、その確率密度が各ピクセル位置(I,j)で評価されて、ラベル画像を得る。これは、画像全体にわたって合計が1となるように正規化されないことに留意されたい。ガウス分布の共分散は、(w,h)が所与のテンプレートの幅および高さであるとして、対角に沿って[w=2,h=2]に設定され、それ以外が0であり、これは、テンプレート・オブジェクトが大きくなるほど、予測されたオブジェクトの位置でペナルティが課される僅かな誤差がより少なくなることを意味する。画像中に同一オブジェクトの複数の実例が存在する場合、同一タイプの各オブジェクトについて作成されたラベル画像の要素ごとの最大値をとることによって、単一のラベル画像が作成される。このラベル・スコア・マップと予測されたスコア・マップとの間の損失関数は、フォーカル・ロス(focal loss)であり、これは、予測された確率が、真の確率からかけ離れている困難例に焦点を当てるクロス・エントロピーの変形例である。一実施形態によれば、変更されたフォーカル・ロスが使用される:
ここで、Nは、画像中の、任意の種類の、オブジェクトの数であり、(w,h)は、それぞれ画像の幅および高さであり、Tは、テンプレートの数であり、これはオブジェクトの異なる種類の数に対応する。Y^xyt(Y^は、Yにハット記号を付したものを表す)は、画像中の位置(x,y)を中心とするオブジェクト・マッチング・テンプレートtの予測確率であり、すなわち、QATMからのスコア・マップであり、Yxytは、アルゴリズム2を用いて生成された「真」の確率である。α,βは、ハイパーパラメータである。実施形態によれば、これらはそれぞれ2および4に設定される。いくつかの画像がオブジェクトを含まないで作成されるため、オブジェクトにわたる平均を求める場合は、ゼロ除算エラーを避けるべく、通常のNの代わりにN+1が用いられる。
シンボリック・マッピングのすべてのトレーニングは、RLエージェントによる使用の前に生じ、その結果、安全性は、RLトレーニング全体を通して強制されるようになる。
制約の強制
本開示の実施形態によるシステムは、任意の既存の深層強化学習アルゴリズムを拡張することができ、唯一の修正は、任意のアクションが行われる前に、実施形態によるテンプレートベースの方法を用いて視覚入力からシンボリック特徴を抽出することである。実施形態によれば、安全制約が評価され、それらの各々は、シンボリック状態を、許可されたアクションのセットにマッピングする。安全でないアクションが実行されるのを防止するために、アクション空間にわたる全ての安全でないアクションの確率はゼロに設定され、ポリシーからアクションがサンプリングされる前に分布が再正規化される。例えば、アクション空間が{left,right,up,down}である場合、Prob(left)+Prob(right)+Prob(up)+Prob(down)=1である。しかしながら、leftアクションが安全でない場合には、エージェントは、{right,up,down}だけの中から選択され、Prob(left)を0にセットする。その場合、Prob(left)は、他の全てのオプションに均一に再分配されるので、Prob(right)+Prob(up)+Prob(down)=1となる。
視覚入力用の安全エンド・ツー・エンド強化学習アルゴリズムのための擬似コードは、以下の通りである。
実施形態によれば、Sが画像にわたって及び、シンボリック状態ではないので、各ステップにおいて、コントローラ・モニタが定義されるシンボリック状態が構築される。シンボリック状態symStateは、symmapから得られ、コントローラ・モニタ内のシンボリック変数をインスタンス化するために使用される。
安全仕様からのアクション制約の学習
実施形態によるフレームワークは、例えば車が直下にある場合には下に行かないといった、アクション空間上で状態依存制約を評価するによって、RLエージェントが、衝突回避のような安全制約を尊重することを確実にすることができる。形式的安全RLへ向けたアプローチでは、これらの状態依存制約は、ドメイン・エキスパートによって、環境の近似モデルおよび所望の安全仕様の両方を考慮することにより構築される。アクション空間上のこれらの状態依存の制約を構築することは、時間がかかり、かつ、エラーが発生しやすい。別の実施形態によるシステムは、安全関連オブジェクトのダイナミクスを学習し、高レベルの安全仕様を尊重するために要求されるアクション空間上の制約を自動的に構築することができる。これはシンボリック空間で行われるので、ダイナミクスは、視覚空間においてよりも学習が容易である。
別の実施形態によれば、各ステップにおいて、各オブジェクトの現在のシンボリック特徴と以前のシンボリック特徴との間の差分が、そのオブジェクトの潜在的なアクションを推定するために使用される。アクション{left,right,up,down}を有するエージェントに対して、これらの差分が、実行されたアクションにマッピングされる;各アクションは、エージェントのダイナミクスに関する初期知識を提供するためにRLアルゴリズムのトレーニングの開始時に一度行われる。ワン・ステップの先読みを使用することにより、エージェントは、これらのダイナミクスおよび安全仕様を使用して、アクションを行った後、以前に観察されたすべての状態遷移の最悪の潜在的な結果に続き、安全仕様が、ワン・ステップ将来でも依然として満足される場合にのみアクションを行うことを保証する制約を構築することができる。
learnBehavior関数は、各オブジェクトについて最悪の場合のワン・ステップ先読みを実行することによって、各アクションに対するガードを構築する。例えば、別の実施形態によれば、アクション「right」をとることで、それ自身のx座標が1および5ピクセルの間の変化をもたらすことを観測するエージェントを考える。エージェントは、また、常に2ピクセル左に移動する障害物を観測する。この場合、障害物がエージェントの右側にある場合、エージェントは、エージェントが障害物から7ピクセル以上離れている場合にのみ右に移動することができるという安全制約を構築することができる。
別の実施形態によるシステムは、安全なポリシーを構築することを保証せず、目先のワン・ステップの安全性がグローバルな安全を確保するために不十分であるドメインにおいては、そうすることができないかもしれない。しかしながら、別の実施形態によるアプローチは、人的労力がはるかに少なく済み、ある種のドメインにおいては十分であり、複数ステップ先読みを計画する制約を構築することによって拡張することができる。
実験評価
本開示の実施形態によるシステムは、2つの環境、トイ「XsおよびOs」(XO)環境およびロードランナーのコンピュータ実装環境上で評価された。実施形態によれば、評価のために3つの基準、安全制約の保存;元の環境からわずかに逸脱した環境への汎化およびペナルティ付与を介した制御ポリシーへの安全制約の内面化;並びに安全を維持する以外の目的関数の最適化、この場合、環境報酬を最適化すること、が使用された。
評価環境の説明
XO環境は、シンボリック強化学習アルゴリズムを実証するために導入された簡素なセッティングである。XO環境は、図3Gにおいて可視化されており、3つのタイプのオブジェクト、収集するべきXオブジェクト(+1報酬)、回避するべきOオブジェクト(-1報酬)およびエージェント(+でマークされる)を包含する。また、すべてのXの迅速な収集およびエピソードの完了を奨励するために各ステップで小さなペナルティ(-0.01)が存在する。この環境は、本開示の実施形態による深層強化学習アルゴリズムを評価するための簡易なベースラインを提供する。また、実施形態によるシステムの安全ポリシーを、暗黙的なモデリング仮説からわずかに乖離した環境に汎化する能力を評価するために使用することができるように変更および拡張することも容易である。シンボリック状態空間は、+およびOsを含むが、Xsは、安全に関連しないのため含まない。効率のために、より単純なテンプレート・マッチャがこの環境のために使用された。
XO環境に加えて、ロードランナー・ゲームが、エンド・ツー・エンドの強化学習アルゴリズムが特に有効であることが証明されているアーケード形式のゲームのサンプルとして考慮した。このゲームにおいては、図1Bに可視化されているが、ロードランナー110は、地面からバードシードを収集しながら、コヨーテ120だけでなく車130を回避しなければならない。実施形態によるシンボリック状態空間は、コヨーテ、車およびロードランナーを含むが、バードシードは含まない。ここで、レベルは、ビデオ・ゲームのレベルを参照するが、この環境の第1レベルのみが考慮され、レベル2に到達したときにエピソードが終了する。グレイ・スケール画像がRLエージェントへの入力として使用されるが、一般的であるように、フルのRGB画像がシンボリック・マッピングのために使用される。
安全制約の保存
所望の安全仕様を保存することは、実施形態によるシステムの目標である。実施形態によるシステムは、視覚→シンボリック・マッピングにいくらかのノイズがある場合でさえも、安全仕様を保存することができる。安全仕様を保存することは、また、トレーニング・プロセスにおける早期でのポリシーのパフォーマンスを改善する。
実施形態によるシステムは、視覚→シンボリック・マッピングを完全に実行することができるので、XO環境におけるトレーニング全体を通して完全に安全を保存することができる。図3Aは、別の実施形態303によるシステムが、トレーニング中の安全性を保存する一方で、vanillaの近接ポリシー最適化(PPO)301が、トレーニングの終了までに、安全でないオブジェクトを完全に回避するポリシーに収束さえしないことを示す。
ロードランナー環境における安全性の保存は、視覚→シンボリック・マッピングにいくらかのノイズが存在するので、より困難な挑戦である。ノイズの多いマッピングにもかかわらず、実施形態302によるシステムは、図3Dに示すように、大多数のトレーニング・エピソードにおいて、安全性をPPO301よりも有意に保存することができる。
汎化および内面化
制約付きRLについてしばしば表現される懸念は、トレーニング中の状態‐アクション空間の安全でない部分を刈り取ることが、不良な状態に関連する負の報酬を内面化しない脆弱なポリシーをもたらすことである。仮説においては、これは、結果として生じる制約されたポリシーが、モデリング仮定のわずかな逸脱を汎化することに失敗したことを意味する。この問題に対処する一つの方法は、RLエージェントが実際に制限されたアクションを取ることなく、潜在的な負の報酬を内面化することである。
このペナルティ仮説は、実施形態によるシステムを以下のようなやり方で修正することによって検証される。制限されたアクション空間をエージェントに提供する代わりに、(1)エージェントが任意のアクションを選択することを可能にし、(2)安全でないアクションを選択したことに対してエージェントにペナルティを与えるが、(3)安全でないアクションを既知の安全なアクションで置換する。このようにして、トレーニング・プロセス中に実際に安全性を損なうことなく、エージェントは、安全でないアクションを選択することに対してペナルティが課される。作業仮説は、このペナルティを用いた実施形態が、エージェントのポリシーが、実際にこれらのアクションをとることなく、また、安全でない状態を直接観察することなく、安全制約によって提供される知識を内部化することを可能にするであろうというものである。しかしながら、XO環境における実験は、ペナルティがしばしば関連するすべてのメトリックで性能を劣化させることを明らかにする。
図3Cは、実施形態によるシステムの安全ガードありおよび安全ガードなしでの累積報酬を比較する。エージェントは、トレーニング中に、安全でないアクションを試みることに対する異なる量のペナルティ(「非安全報酬」)を用いてトレーニングされ、探索することが推奨される、(「エントロピー係数」)。最終的に訓練されたポリシーは、トレーニング中に安全でないアクションを選択することに対してエージェントがペナルティを受けた場合であっても、安全性モニタが除去された場合、安全性が有意に低下し、より多くのペナルティを与えても、安全制約のより大きな内部化を引き起こすことに失敗する。加えて、わずかなペナルティを超えると、報酬の最適化を劣化させる。
安全性の汎化をテストするためには、テスト時にOsを指定されるよりも大きく変更することによって、XO環境に仕様上のエラーが導入され、安全制約が、これらの周りに十分に大きな半径を配置しないようになる。実施形態による未変更のアルゴリズムが、誤って指定された(mis-specified)環境上でテストされ、リターンが測定された。図3Fは、安全ではないアクションの試みに全くペナルティを与えないと、誤って指定されたテスト環境への最良の安全の汎化に導かれることを示す。
これらの観測は、安全でないアクションの試みにペナルティを課さないことは、元のドメインを超えて安全に汎化するポリシーを構築するための有効な方法ではないことを示している。実際に、そうすることにより、元のタスク上と、同様であるが新規なタスク上の両方で性能を低下させる。したがって、安全モニタのリスクの考えを内面化することによって汎化することを試みる代わりに、環境の遷移を直接観測し、実際に観測されるダイナミクスに忠実な安全制約を誘導的に構築する別の実施形態が提案される。図3Bは、別の実施形態303によるアプローチがXO環境で実際に良好に機能することを示す。
最適化
実施形態によるシステムは、安全でない状態のセットを精密に指定することが可能な環境において良好に実行される。図3Bは、vanillaPPO、実施形態302によるシステムおよび他の実施形態303によるシステムについての累積報酬をプロットする。安全制約ポリシー303は、より良いポリシーにより早く収束する。
安全と同様に、ロードランナー環境においては、ストーリーがより複雑である。図3Eは、実施形態302によるシステムおよびvanillaPPO301についての累積報酬をプロットする。実施形態302によるシステムは、トレーニングの開始時においてPPO301よりもはるかに高速に改善するが、最終的には、PPO301は、ゲームスコアにおいては、実施形態302に従ったシステムを追い越す。PPOが、実施形態によるシステムの性能を上回る2つの根本的な要因が存在する。
制約なしエージェントの余剰な報酬の一部が、ロードランナー・ゲームの報酬構造が安全性を優先しないという事実に寄与する。例えば、レベル1の終わり近くでは、より高い報酬は、レベルを終えるために生存するよりも、バードシードを収集するためにライフを失うことによって達成されるであろう。Kamikaze戦略を最大化する報酬に対する実施形態によるシステムの保守性は、ゲームスコアのような、しばしば最適性のある定義と競合するスタンド・アローンの関心としての安全性の重要性を示す。
しかしながら、PPOの余剰な報酬の一部は、安全ガードに保存性に起因する。この保守性は、視覚からシンボリックへのマッピングにおけるノイズに対処するため、および、ロードランナーにおける障害物の動きを正確にモデリングすることが、マップの途中で座標が変換されるために一見困難であるための両方で使用される。制約の保守性は、ロードランナーを車から離れる方向に後押しし、コヨーテに当てさせる振る舞いを報酬化するために必要とされる、ロードランナーとコヨーテとの間に車を入れることをより困難にする。
要約すると、実施形態によるシステムは、安全性および報酬の最大化が整合するシンプルな環境において、報酬最大化において極めて良好に動作する。逆に、知覚のノイズが多く、報酬構造が、安全性から分離した環境では、実施形態によるシステムは、せっかくのいくらかの報酬を無駄にする。実施形態に係るシステムは、安全性が自滅的な報酬の最大化を除外するため、および、誤解による衝突を避けることがより危険な報酬最大化戦略を除外することからの両方の理由でこの追加の報酬を逃す。
システム実装
本開示の実施形態は、ハードウェア、ソフトウェア、ファームウェア、特定目的プロセスまたはその組み合わせの種々の形態で実装されてもよいことを理解すべきである。一実施形態においては、本開示の実施形態は、コンピュータ可読プログラム格納デバイス上で有形に具現化されたアプリケーション・プログラムとしてソフトウェアで実装されてもよい。アプリケーション・プログラムは、任意の適切なアーキテクチャを含むマシンに、アップロードされ、また、マシンによって実行されてもよい。さらに、本開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書で詳述される教示の実装は、クラウド・コンピューティング環境に限定されないことに理解されたい。むしろ、本発明の実施形態は、現時点で知られた、またはこれから開発される、他の任意のタイプのコンピューティング環境と併せて実装することが可能性である。本開示の実施形態による自動トラブル・シューティング・システムが、また、クラウド実装のために適している。
クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速にプロビジョニングおよびリリースされ得る、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシンおよびサービス)の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能とする、サービス配信モデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデルおよび少なくとも4つのデプロイメント・モデルを含み得る。
特性は、以下の通りである。
オンデマンド・セルフ・サービス:クラウド・コンシューマは、サービス・プロバイダとの人的な対話を必要とせずに自動的に必要なだけ、サーバ時間およびネットワーク・ストレージなどのコンピュータ能力を一方的にプロビジョニングすることができる。
広帯域ネットワーク・アクセス:能力は、ネットワーク越しに利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム(例えば、モバイルフォン、ラップトップ、PDA)による使用を促進する標準的なメカニズムを介して、アクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを用いて複数のコンシューマに提供するためにプールされ、種々の物理的および仮想的リソースが需要に従って動的に割り当てられ、また、再割り当てられる。コンシューマは、一般的に、提供されるリソースの正確な場所を管理したり、知識を有したりせず、しかし、より高度な抽象レベル(例えば国、州、またはデータセンタ)にて場所を指定することが可能であるという意味で、場所の独立感がある。
迅速な弾力性:能力は、迅速かつ柔軟に、いくつかの場合では自動的に、プロビジョニングされて素早くスケール・アウトすることができ、また、迅速にリリースされて素早くスケール・インすることができる。コンシューマにとって、プロビジョニング利用可能な能力は、しばしば外面的には無制限のように見え、任意の時間に任意の量を購入することができる。
測量されたサービス:クラウドシステムは、サービスのタイプにとって適切なある抽象レベル(例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ数)での計量能力を利用することによって、自動的にリソース使用を制御し、また最適化する。リソース使用量は、監視され、制御されおよび報告されて、利用サービスのプロバイダおよびコンシューマの双方に対する透明性を提供する。
サービス・モデルは、以下の通りである。
ソフトウェア・アズ・ア・サービス(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ(例えばウェブベースの電子メール)などのシン・クライアント・インタフェースを介して種々のクライアント・デバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または、限定されたユーザ固有のアプリケーション構成設定の潜在的な例外を除いて個々のアプリケーション能力すらも含む下層のインフラストラクチャを管理または制御しない。
プラットフォーム・アズ・ア・サービス(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、コンシューマ作成または獲得のアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システムまたはストレージを含む下層のクラウド・インフラストラクチャを管理または制御しないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境の構成への制御を有する。
インフラストラクチャ・アズ・ア・サービス(IaaS):コンシューマに提供される能力は、処理、ストレージ、ネットワーク、および、コンシューマが、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをデプロイし、稼働させることができる他の基本的なコンピューティング・リソースを提供することである。コンシューマは、下層のクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対する制御、および、場合によっては、選択したネットワーキング・コンポーネント(例えば、ホストファイアウォール)の限定された制御を有する。
デプロイメント・モデルは、以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、1つの組織のためだけに使用される。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織により共有され、共通の懸念(例えば、ミッション、セキュリティ要件、ポリシーおよびコンプライアンスに関する考慮事項)を有する特定のコミュニティをサポートする。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆、または、大きな業界団体が利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、2以上のクラウド(プライベート、コミュニティまたはパブリック)の混成であり、これらのクラウドは、固有のエンティティのままであるが、しかし、データおよびアプリケーションのポータビリティを可能とする標準化されたまたは独自の技術(例えばクラウド間の負荷分散のためのクラウド・バースティング)によって結合される。
クラウド・コンピューティング環境は、ステートレス性、低結合、モジュール性および意味論的な相互運用性に重点を置いたサービス指向である。クラウド・コンピューティングの核心は、相互接続された複数のノードのネットワークを含むインフラストラクチャである。
ここで、図4を参照すると、クラウド・コンピューティング・ノードの一例のスキームが示される。クラウド・コンピューティング・ノード410は、適切なクラウド・コンピューティング・ノードの一例に過ぎず、本明細書に記載される本開示の実施形態の使用または機能性の範囲に関する制限を示唆するものではない。にもかかわらず、クラウド・コンピューティング・ノード410は、上述した機能のいずれかが、実装されること、もしくは実行すること、またはこれらの両方されることが可能である。
クラウド・コンピューティング・ノード410においては、コンピュータ・システム/サーバ412があり、このコンピュータ・システム/サーバ412は、多数の他の汎用または特定用途のコンピューティング・システム環境または構成で動作可能である。コンピュータ・システム/サーバ412と使用するのに適した周知のコンピューティング・システム、環境もしくは構成またはこれらの組み合わせの例は、これらに限定されないが、上述したシステムまたは装置などの任意のものを含む、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベース・システム、セットトップ・ボックス、プログラマブル・コンシューマ・エレクトロニクス、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、分散型クラウド・コンピューティング環境などを含む。
コンピュータ・システム/サーバ412は、コンピュータ・システムによって実行される、プログラム・モジュールのようなコンピュータ・システム実行可能命令の一般的な文脈で記述され得る。概して、プログラム・モジュールは、特定のタスクを実行するか、または特定の抽象的なデータタイプを実装するかする、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含む。コンピュータ・システム/サーバ412は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実行される分散型クラウド・コンピューティング環境で実装することができる。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルおよびリモートの両方のコンピュータ・システム・ストレージ媒体に配置されてもよい。
図4に示すように、クラウド・コンピューティング・ノード410内のコンピュータ・システム/サーバ412は、汎用コンピューティング・デバイスの形態で示されている。コンピュータ・システム/サーバ412のコンポーネントは、これらに限定されないが、1以上のプロセッサまたは処理ユニット416と、システム・メモリ428と、システム・メモリ428を含む種々のシステム・コンポーネントをプロセッサ416に結合するバス418とを含む。
バス418は、メモリバスまたはメモリコントローラ、周辺バスと、アクセレーテッド・グラフィックス・ポート、種々のバス・アーキテクチャの任意のものを使用するプロセッサまたはローカル・バスとを含む、いくつかのタイプのバス構造のうちの1以上を表す。一例として、また限定ではなく、このようなアーキテクチャには、インダストリ・スタンダード・アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション(VESA)ローカル・バスおよびペリフェラル・コンポーネント・インターコネクト(PCI)バスが含まれる。
コンピュータ・システム/サーバ412は、典型的には、様々なコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム/サーバ412によってアクセス可能な任意の利用可能な媒体であってもよく、これは、揮発性、不揮発性の両方の媒体、リムーバブルおよび非リムーバブル媒体を含む。
システム・メモリ428は、ランダム・アクセス・メモリ(RAM)430またはキャッシュ・メモリ432など、揮発性メモリの形態でコンピュータ・システム可読な媒体を含んでもよい。コンピュータ・システム/サーバ412は、さらに、他のリムーバブル/非リムーバブルの揮発性/不揮発性コンピュータ・システム・ストレージ媒体を含んでもよい。一例として、ストレージ・システム434は、非ポータブルの不揮発性磁気媒体(図示しないが、典型的にはハード・ドライブと参照される)から読み出すおよび磁気媒体へ書き込むために提供される。図示しないが、リムーバブルの不揮発性磁気ディスク(例えば、フロッピーディスク(登録商標))から読み出し、および、磁気ディスクへ書き込むための磁気ディスク・ドライブ、または、CD-ROM、DVD-ROMまたは他の光学メディアなどのリムーバブルの不揮発性光学ディスクから読み出しおよび光学ディスクへ書き込むための光学ディスク・ドライブが提供されてもよい。このような実例において、各々は、1以上のデータ・メディア・インタフェースによってバス418に接続されてもよい。以下さらに説明するように、メモリ428は、本開示の実施形態の機能を実現するよう構成されたプログラム・モジュールのセット(少なくとも1つ)を有する少なくとも1つのプログラム製品を含んでいてもよい。
プログラム/ユーティリティ440は、それぞれ、プログラム・モジュール442のセット(少なくとも1つ)を有しており、一例であるが限定されないメモリ428に格納されてもよく、1以上のオペレーティング・システム、1以上のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データを含んでもよい。オペレーティング・システム、1以上のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データの各々またはこれらのいくつかの組み合わせは、ネットワーキング環境の実装を含んでもよい。プログラム・モジュール442は、概して、本明細書で説明されるように、本開示の実施形態の機能または方法論を実現する。
コンピュータ・システム/サーバ412は、また、キーボード、ポインティング・デバイス、ディスプレイ424などの1以上の外部装置414と、ユーザがコンピュータ・システム/サーバ412と対話することを可能にする1以上のデバイス、もしくはコンピュータ・システム/サーバ412が1以上の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(例えば、ネットワーク・カード、モデムなど)またはこれらの両方と通信してもよい。このような通信は、入力/出力(I/O)インタフェース422を介して行うことができる。さらに、コンピュータ・システム/サーバ412は、ネットワーク・アダプタ420を介して、ローカル・エリア・ネットワーク(LAN)、一般ワイド・エリア・ネットワーク(WAN)、もしくは公衆ネットワーク(例えば、インターネット)またはこれらの組み合わせなどの1以上のネットワークと通信することができる。図示されるように、ネットワーク・アダプタ420は、バス418を介してコンピュータ・システム/サーバ412の他のコンポーネントと通信することができる。図示されていないが、他のハードウェアもしくはソフトウェア・コンポーネントまたはこれらの両方を、コンピュータ・システム/サーバ412と組み合わせて使用することができることを理解されたい。例としては、これらに限定されないが、マイクロコード、デバイス・ドライバ、冗長処理ユニットおよび外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージシステムなどを挙げることができる。
図5を参照すると、例示的なクラウド・コンピューティング環境50が示される。図示のように、クラウド・コンピューティング環境50は、例えば、パーソナル・デジタル・アシスタント(PDA)またはセルラ電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、もしくは自動車コンピュータ・システム54Nまたはその組み合わせのような、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信することができる1または複数のクラウド・コンピューティング・ノード400を含む。ノード400は、互いに通信することができる。これらは、プライベート、コミュニティ、パブリックもしくはハイブリッド・クラウドなど上述したような、またはこれらの組み合わせなどの1以上のネットワークにおいて、物理的にまたは仮想的にグループ化(図示しない)されてもよい。これは、クラウド・コンピューティング環境50が、インフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせをサービスとして提供することを可能とし、これらについては、クラウド・コンシューマは、リソースをローカル・コンピューティング・デバイス上で維持する必要がない。図5に示されるコンピューティング・デバイス54A~54Nのタイプは、説明する目的のみを意図しており、コンピューティング・ノード400およびクラウド・コンピューティング環境50は、任意のタイプのネットワークもしくはネットワークアドレス可能な接続(例えば、ウェブ・ブラウザを使用して)またはこれらの両方を介して、任意のタイプのコンピュータ化されたデバイスと通信することができることが理解される。
本開示の実施形態が例示の実施形態を参照しながら、詳細に説明されたが、当業者であれば、種々の変形および置換が、添付の請求項で明らかにされるように、本開示の精神および範囲を逸脱することなく、これらに為し得ることを理解するであろう。

Claims (27)

  1. 視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法であって、
    強化学習(RL)エージェントのアクション空間の画像中の各オブジェクトについて、前記RLエージェントの前記画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトが検出される、ステップと、
    検出された各オブジェクトを、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、
    前記RLエージェントのアクション空間の前記画像中の各オブジェクトについての座標に関する変数のセットに対し、前記RLエージェントのアクション空間に対する安全仕様を適用することによって、前記RLエージェントに対する安全アクションのセットを決定するステップと、
    RL手順の現在の状態について、前記RLエージェントに前記安全アクションのセットを出力するステップと、
    前記RLエージェントがアクションを行う前に、前記RLエージェントが安全でないアクションを実行することを防止するステップと
    を含む、方法。
  2. 前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについてテンプレートマッチングを実行するステップは、
    各オブジェクトの前記視覚テンプレートを用いて、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトあたりに境界ボックスを配置するステップ
    を含む、請求項1に記載の方法。
  3. 検出された各オブジェクトを、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについて前記平面座標のセットにマッピングするステップは、
    各境界ボックスの重心を、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについての前記平面座標のセットにマッピングするステップ
    を含む、請求項2に記載の方法。
  4. 前記RLエージェントの前記アクション空間の単一のラベル付き画像におけるデータを拡張し、前記画像からすべてのテンプレートを除去し、複数のテンプレートをランダムにサンプリングし、前記複数のテンプレートの各々を拡張し、テンプレート・マスクを用いて前記複数のテンプレートの各々をランダムに前記画像中に配置し、複数の画像が生成され、前記複数の画像を用いてテンプレートマッチングをトレーニングすることによって、各オブジェクトについてのテンプレートマッチングをトレーニングするステップ
    をさらに含む、請求項1に記載の方法。
  5. 前記単一のラベル付き画像におけるデータを拡張することは、前記画像の輝度をランダムに調整すること、前記画像をクロッピングすることまたは前記画像を左右反転することの1または複数を含み、前記複数のテンプレートの各々を拡張することは、前記テンプレートを左右反転すること、前記テンプレートを回転することまたは前記テンプレートからピクセルを落とすことの1または複数を含む、請求項4に記載の方法。
  6. 前記RLエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの1つである、請求項1に記載の方法。
  7. 現在のRLステップでの前記画像中の各オブジェクトについての平面座標のセットと、以前のRLステップでの前記画像中の各オブジェクトについての平面座標のセットとの間の差分を用いて各オブジェクトについて潜在的なアクションを推定するステップを含み、
    前記RLエージェントは、そのダイナミクスの知識および前記安全仕様を用いて、前記RLエージェントが、アクションを取った後、次いで以前に観測された状態遷移すべての最悪な潜在的な結果が続き、前記安全仕様が、ワン・ステップ将来でも依然として満足される場合にのみ、アクションをとることを確実にする制約を構築する、請求項1に記載の方法。
  8. 前記安全仕様は、前記画像中の各オブジェクトについて形式論理学で特定される複数の安全制約を含む、請求項1に記載の方法。
  9. 入力画像中の1または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成するステップと、
    前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップと、
    各安全性関連オブジェクトについての前記座標を用いることによって、RLアルゴリズムにおける前記RLエージェントに対し安全制約を強制するステップと
    を含む、請求項1に記載の方法。
  10. 前記入力画像中の各安全性関連オブジェクトの前記視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップは、
    各オブジェクトについての前記視覚テンプレートを用いて、各安全性関連オブジェクトあたりに境界ボックスを配置するステップと、
    各境界ボックスの重心を、前記入力画像中の各安全性関連オブジェクトについての前記座標にマッピングするステップと
    を含む、請求項9に記載の方法。
  11. 前記RLアルゴリズムにおける前記RLエージェントに対し安全制約を強制するステップは、
    前記RLエージェントに対する安全仕様を受信するステップと、
    前記安全仕様および各安全性関連オブジェクトについての前記座標から安全制約を決定するステップであって、前記RLエージェントの各アクションが、安全または安全ではないとラベル付けされる、ステップと
    前記RLエージェントが安全ではないアクションを実行するのを防止するステップと
    を含む、請求項9に記載の方法。
  12. 前記RLエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの1つである、請求項9に記載の方法。
  13. 制御ソフトウェアを実行する強化学習(RL)アルゴリズムにおいて安全制約を強化するために前記制御ソフトウェアをトレーニングするための方法であって、
    入力画像中の1または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成するステップと、
    前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップと、
    各安全性関連オブジェクトについての前記座標を用いることによって、前記RLアルゴリズムにおけるRLエージェントに対し安全制約を強制するステップと、
    前記RLエージェントがアクションを行う前に、前記RLエージェントが安全でないアクションを実行することを防止するステップと
    を含む、方法。
  14. 前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップは、
    各オブジェクトについての前記視覚テンプレートを用いて、各安全性関連オブジェクトあたりに境界ボックスを配置するステップと、
    各境界ボックスの重心を、前記入力画像中の各安全性関連オブジェクトについての前記座標にマッピングするステップと
    を含む、請求項13に記載の方法。
  15. 前記RLアルゴリズムにおける前記RLエージェントに対し安全制約を強制するステップは、
    前記RLエージェントに対する安全仕様を受信するステップと、
    前記安全仕様および各安全性関連オブジェクトについての前記座標から安全制約を決定するステップであって、前記RLエージェントの各アクションが、安全または安全ではないとラベル付けされる、ステップと
    前記RLエージェントが安全ではないアクションを実行するのを防止するステップと
    を含む、請求項13に記載の方法。
  16. 前記RLエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの1つである、請求項13に記載の方法。
  17. コンピュータにより可読な非一時的プログラム格納デバイスであって、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法のステップを行うためにコンピュータによって実行される命令のプログラムを有形に具現化するものであり、前記方法は、
    強化学習(RL)エージェントのアクション空間の画像中の各オブジェクトについて、前記RLエージェントの前記画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトが検出される、ステップと、
    検出された各オブジェクトを、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、
    前記RLエージェントのアクション空間の前記画像中の各オブジェクトについての座標に関する変数のセットに対し、前記RLエージェントのアクション空間に対する安全仕様を適用することによって、前記RLエージェントに対する安全アクションのセットを決定するステップと、
    RL手順の現在の状態について、前記RLエージェントに前記安全アクションのセットを出力するステップと、
    前記RLエージェントがアクションを行う前に、前記RLエージェントが安全でないアクションを実行することを防止するステップと
    を含む、コンピュータ可読プログラム格納デバイス。
  18. 前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについてテンプレートマッチングを実行するステップは、
    各オブジェクトの前記視覚テンプレートを用いて、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトあたりに境界ボックスを配置するステップ
    を含む、請求項17に記載のコンピュータ可読プログラム格納デバイス。
  19. 検出された各オブジェクトを、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについて前記平面座標のセットにマッピングするステップは、
    各境界ボックスの重心を、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについての前記平面座標のセットにマッピングするステップ
    を含む、請求項18に記載のコンピュータ可読プログラム格納デバイス。
  20. 前記RLエージェントの前記アクション空間の単一のラベル付き画像におけるデータを拡張し、前記画像からすべてのテンプレートを除去し、複数のテンプレートをランダムにサンプリングし、前記複数のテンプレートの各々を拡張し、テンプレート・マスクを用いて前記複数のテンプレートの各々をランダムに前記画像中に配置し、複数の画像が生成され、前記複数の画像を用いてテンプレートマッチングをトレーニングすることによって、各オブジェクトについてのテンプレートマッチングをトレーニングするステップ
    をさらに含む、請求項17に記載のコンピュータ可読プログラム格納デバイス。
  21. 前記単一のラベル付き画像におけるデータを拡張することは、前記画像の輝度をランダムに調整すること、前記画像をクロッピングすることまたは前記画像を左右反転することの1または複数を含み、前記複数のテンプレートの各々を拡張することは、前記テンプレートを左右反転すること、前記テンプレートを回転することまたは前記テンプレートからピクセルを落とすことの1または複数を含む、請求項20に記載のコンピュータ可読プログラム格納デバイス。
  22. 前記RLエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの1つである、請求項17に記載のコンピュータ可読プログラム格納デバイス。
  23. 現在のRLステップでの前記画像中の各オブジェクトについての平面座標のセットと、以前のRLステップでの前記画像中の各オブジェクトについての平面座標のセットとの間の差分を用いて各オブジェクトについての潜在的なアクションを推定するステップを含み、
    前記RLエージェントは、そのダイナミクスの知識および前記安全仕様を用いて、前記RLエージェントが、アクションを取った後、次いで以前に観測された状態遷移すべての最悪な潜在的な結果が続き、前記安全仕様が、ワン・ステップ将来でも依然として満足される場合にのみ、アクションをとることを確実にする制約を構築する、請求項17に記載のコンピュータ可読プログラム格納デバイス。
  24. 前記安全仕様は、前記画像中の各オブジェクトについて形式論理学で特定される複数の安全制約を含む、請求項17に記載のコンピュータ可読プログラム格納デバイス。
  25. コンピュータ・プログラムであって、コンピュータ上でプログラムが実行された場合に、請求項1~16のいずれか1項に記載の方法を実行するように適合されたプログラム・コード手段を含む、コンピュータ・プログラム。
  26. 視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするためのシステムあって、前記システムは、
    強化学習(RL)エージェントのアクション空間の画像中の各オブジェクトについて、前記RLエージェントの前記画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行することであって、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトが検出される、実行することと、
    検出された各オブジェクトを、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについて平面座標のセットにマッピングすることと、
    前記RLエージェントのアクション空間の前記画像中の各オブジェクトについての座標に関する変数のセットに対し、前記RLエージェントのアクション空間についての安全仕様を適用することによって、前記RLエージェントに対する安全アクションのセットを決定することと、
    RL手順の現在の状態について、前記RLエージェントに前記安全アクションのセットを出力することと、
    前記RLエージェントがアクションを行う前に、前記RLエージェントが安全でないアクションを実行することを防止することと
    を実行するように動作可能である、システム。
  27. 制御ソフトウェアを実行する強化学習(RL)アルゴリズムにおいて安全制約を強化するために前記制御ソフトウェアをトレーニングするためのシステムあって、前記システムは、
    入力画像中の1または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成することと、
    前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定することと、
    各安全性関連オブジェクトについての前記座標を用いることによって、前記RLアルゴリズムにおけるRLエージェントに対し安全制約を強制することと、
    前記RLエージェントがアクションを行う前に、前記RLエージェントが安全でないアクションを実行することを防止することと
    を実行するように動作可能である、システム。
JP2022535465A 2019-12-10 2020-12-07 視覚入力に対する形式的安全シンボリック強化学習 Active JP7465048B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/709,633 US11513520B2 (en) 2019-12-10 2019-12-10 Formally safe symbolic reinforcement learning on visual inputs
US16/709,633 2019-12-10
PCT/IB2020/061587 WO2021116875A1 (en) 2019-12-10 2020-12-07 Formally safe symbolic reinforcement learning on visual inputs

Publications (2)

Publication Number Publication Date
JP2023506169A JP2023506169A (ja) 2023-02-15
JP7465048B2 true JP7465048B2 (ja) 2024-04-10

Family

ID=76209839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022535465A Active JP7465048B2 (ja) 2019-12-10 2020-12-07 視覚入力に対する形式的安全シンボリック強化学習

Country Status (6)

Country Link
US (1) US11513520B2 (ja)
JP (1) JP7465048B2 (ja)
CN (1) CN114787738A (ja)
DE (1) DE112020006045T5 (ja)
GB (1) GB2606917A (ja)
WO (1) WO2021116875A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202147181A (zh) * 2020-06-10 2021-12-16 淡江大學 三指式機械夾爪系統及其訓練方法
US20230219230A1 (en) * 2020-12-18 2023-07-13 Strong Force Vcn Portfolio 2019, Llc Fleet Management Platform for Multi-Purpose Robots
US20220374930A1 (en) * 2021-05-18 2022-11-24 At&T Intellectual Property I, L.P. Machine learning models with accurate data labeling
EP4392905A1 (en) * 2021-08-24 2024-07-03 Royal Bank of Canada System and method for machine learning architecture with selective learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697458A (zh) 2018-11-27 2019-04-30 深圳前海达闼云端智能科技有限公司 控制设备移动的方法、装置、存储介质及电子设备
US20190279081A1 (en) 2018-03-07 2019-09-12 International Business Machines Corporation Constraining actions for reinforcement learning under safety requirements
US20190295179A1 (en) 2016-12-23 2019-09-26 Mobileye Vision Technologies Ltd. Navigation with Liability Tracking
US20190310649A1 (en) 2018-04-09 2019-10-10 SafeAI, Inc. System and method for a framework of robust and safe reinforcement learning application in real world autonomous vehicle application

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6917925B2 (en) 2001-03-30 2005-07-12 Intelligent Inference Systems Corporation Convergent actor critic-based fuzzy reinforcement learning apparatus and method
US9715711B1 (en) * 2014-05-20 2017-07-25 State Farm Mutual Automobile Insurance Company Autonomous vehicle insurance pricing and offering based upon accident risk
CN104036550B (zh) 2014-06-25 2017-02-15 北京师范大学 基于形状语义的建筑立面激光雷达点云解译与重建的方法
DE102014212898A1 (de) * 2014-07-03 2016-01-07 Robert Bosch Gmbh Verfahren zum Ermitteln einer Notfall-Trajektorie und Verfahren zum teilautomatisierten oder automatisierten Führen eines Ego-Fahrzeugs
US10839302B2 (en) * 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
WO2017142935A1 (en) * 2016-02-15 2017-08-24 Allstate Insurance Company Real time risk assessment and operational changes with semi-autonomous vehicles
US11263545B2 (en) 2016-06-30 2022-03-01 Microsoft Technology Licensing, Llc Control of cyber-physical systems under uncertainty
US10694526B2 (en) 2016-09-30 2020-06-23 Drexel University Adaptive pursuit learning method to mitigate small-cell interference through directionality
CN107464021B (zh) 2017-08-07 2019-07-23 山东师范大学 一种基于强化学习的人群疏散仿真方法、装置
US20200156243A1 (en) * 2018-11-21 2020-05-21 Amazon Technologies, Inc. Robotics application simulation management

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190295179A1 (en) 2016-12-23 2019-09-26 Mobileye Vision Technologies Ltd. Navigation with Liability Tracking
US20190279081A1 (en) 2018-03-07 2019-09-12 International Business Machines Corporation Constraining actions for reinforcement learning under safety requirements
US20190310649A1 (en) 2018-04-09 2019-10-10 SafeAI, Inc. System and method for a framework of robust and safe reinforcement learning application in real world autonomous vehicle application
CN109697458A (zh) 2018-11-27 2019-04-30 深圳前海达闼云端智能科技有限公司 控制设备移动的方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岡野原大輔,安全が保証された強化学習 リアプノフ関数で制約満たす方策を導出,NIKKEI Robotics,日経BP社,2018年10月10日,第40号,pp. 36-38

Also Published As

Publication number Publication date
US20210173395A1 (en) 2021-06-10
US11513520B2 (en) 2022-11-29
JP2023506169A (ja) 2023-02-15
DE112020006045T5 (de) 2022-10-06
GB2606917A (en) 2022-11-23
CN114787738A (zh) 2022-07-22
WO2021116875A1 (en) 2021-06-17
GB202209961D0 (en) 2022-08-24

Similar Documents

Publication Publication Date Title
JP7465048B2 (ja) 視覚入力に対する形式的安全シンボリック強化学習
US20230202513A1 (en) Systems and Methods for Graph-Based AI Training
CN113039563B (zh) 学习生成用于训练神经网络的合成数据集
WO2020224403A1 (zh) 分类任务模型的训练方法、装置、设备及存储介质
US20130177235A1 (en) Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations
US20190243928A1 (en) Semantic segmentation of 2d floor plans with a pixel-wise classifier
CN113272827A (zh) 卷积神经网络中分类决策的验证
US10845818B2 (en) System and method for 3D scene reconstruction of agent operation sequences using low-level/high-level reasoning and parametric models
EP3616130A1 (en) Using simulation and domain adaptation for robotic control
KR20170140214A (ko) 신경망을 위한 훈련 기준으로서의 필터 특이성
WO2020256732A1 (en) Domain adaptation and fusion using task-irrelevant paired data in sequential form
Leiva et al. Collision avoidance for indoor service robots through multimodal deep reinforcement learning
US20210150274A1 (en) Object recognition from images using cad models as prior
US11328182B2 (en) Three-dimensional map inconsistency detection using neural network
CN110749325B (zh) 航迹规划方法和装置
Hogan et al. Explainable object detection for uncrewed aerial vehicles using kernelshap
Pereira A machine learning approach for predicting docking-based structures
CN111727108B (zh) 用于控制机器人的方法、装置及系统以及存储介质
Kobelrausch et al. Collision-Free Deep Reinforcement Learning for Mobile Robots using Crash-Prevention Policy
US20240028784A1 (en) Segmenting a building scene
Li et al. Simulated mental imagery for robotic task planning
KR102640618B1 (ko) 3d 스캐너 기반 시공 오차 검증 방법, 장치 및 시스템
EP4300361A1 (en) Methods and systems for optimizing a peak memory usage of an artificial neural network graph
US20240160888A1 (en) Realistic, controllable agent simulation using guided trajectories and diffusion models
Mees et al. Advances in computer assisted image interpretation

Legal Events

Date Code Title Description
RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20220624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240312

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20240313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240326

R150 Certificate of patent or registration of utility model

Ref document number: 7465048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150