JP7465048B2

JP7465048B2 - 視覚入力に対する形式的安全シンボリック強化学習

Info

Publication number: JP7465048B2
Application number: JP2022535465A
Authority: JP
Inventors: ダス，スブロ; ハント，ネイサン; フルトン，ナサニエル，ライアン; ニアホアン，チョン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-12-10
Filing date: 2020-12-07
Publication date: 2024-04-10
Anticipated expiration: 2040-12-07
Also published as: GB202209961D0; JP2023506169A; US20210173395A1; CN114787738A; WO2021116875A1; GB2606917A; DE112020006045T5; US11513520B2

Description

本開示の実施形態は、視覚テンプレートを用いて、視覚入力をシンボリック状態空間にマッピングする深層強化学習アルゴリズムに関する。

自動運転車および航空機衝突回避システムのような物理システム用の制御ソフトウェアは、安全なシステム動作において最も高い信頼度を保証する必要がある。形式的検証は、これらのシステムの安全性を保証するための厳密な方法を提供するが、しかしながら、典型的には、制御ポリシーがシンボリック状態空間上で定義されること、すなわち、高レベルの変数から具体的数値へのマッピングを仮定する。例えば、アダプティブ・クルーズ・コントロール・システム（定速走行・車間距離制御装置）用の形式的検証がなされた制御ポリシーは、全ての関連車両の平面座標を入力として仮定する。これらの検証されたモデルは、強い安全の保証を提供するが、それらは典型的には高度に非決定論的であり、従って、どのように制御目的を達成するかを説明しない。

強化学習（ＲＬ）は、エージェントがその環境と対話してタスクを実行することを学習する機械学習方法である。周知のタスク例には、碁、チェスおよび種々のコンピュータ・ゲームのようなゲームが含まれる。各状態、例えば、現在の盤面のセットアップにおいて、エージェントは、ルークをＡ４へ、のようなアクションを選択する。エージェントは、ゲームに勝利するなど、良好なアクションに対する報酬、または誤ったアクションに対するペナルティを受け取る。時間が経過すると、エージェントは、その報酬を最大にする行動を学習する。安全ＲＬは、一部のアクションがエージェントまたは環境を損傷することを避けるために制約される、ＲＬの変形例である。自動車および他の地上型車両、航空機、船舶および潜水艇用の制御システムの文脈では、ＲＬエージェントは、乗り物自体の表現である。安全ＲＬは、いずれの状態およびアクションが安全であるかの仕様を必要とする。

安全ＲＬに対する以前のアプローチは、環境のシミュレータなどのモデルおよび安全状態のセットを提供し、各アクションをシミュレートして安全性を検査することを含む。しかしながら、このアプローチは、モデルが利用可能でない場合には適用できない。安全強化学習に向けたいくつかの最近のアプローチは、強化学習エージェントへの安全制約を提供するべく、制御システムの形式的検証済みの非決定論的モデルをどのように活用するかを説明する。形式的制約付きＲＬへの多くの既存のアプローチは、制御システムへの入力として先行車両および後続車両の位置および速度が提供されるアダプティブ・クルーズ・コントロール問題のように、エージェントが、世界のシンボリック表現にわたり最適化していることを仮定する。同様に、制御ポリシーは、関連する状態変数が入力として提供されることを仮定するシンボリック状態空間上で学習され得る。

別のアプローチは、人間が実証した安全な動作を有することを含む。しかしながら、このアプローチは、人間が実証していない状態に安全性を汎化することが困難であり、人間のパフォーマンスを安全に向上させることが困難である。別のアプローチでは、人がエージェントのトレーニングを監督し、安全でないアクションを防止しかつ罰する。このアプローチは、ドメイン・エキスパートからかなりの時間を必要とし、学習された安全規則は解釈可能ではない。

残念ながら、現実世界のシステムは、世界の状態について正解を与えるこの種のオラクルを有していない。ここで、オラクルは、常に正しい回答を返す（理論的な、実際のものではない）関数であるが、その実装は、未知であるかまたは実行不可能である。その代わりに、ロボットは、カメラやＬｉＤＡＲなどのセンサから得られた高次元入力を処理することによって、セーフティ・クリティカルな設定（safety-critical settings）において決断しなければならない。これらの視覚入力のあらゆる潜在的な側面をシンボリック状態空間に手動でマッピングすることは、多大な時間を必要とし、多くの場合に解決困難である。この所見は、視覚上の問題に対する深層学習の有効性と同様に、エージェントが視覚入力上で直接ポリシーを学習する、深層強化学習アルゴリズムの開発を動機づけた。

制約付き強化学習（ＲＬ）は、アクション空間上で形式的に指定された制約を強制することによってＲＬエージェントが安全なアクションを行うのみであることを保証する。形式的制約付きＲＬへ向けた既存のアプローチは、画像のような生の入力からシンボリック状態空間へマッピングするオラクルを仮定する。残念なことに、この仮定は、世界を正しく理解するという基本的かつ困難なタスクに対処するものではない。シンボリック状態にわたり学習することは、また、報酬信号に関連する環境のあらゆる側面を捕捉するシンボリック状態空間を構築することを含む。

形式的制約付き強化学習へ向けた既存のアプローチは、典型的には、トレーニング中にアクション空間を制約し、トレーニング・プロセス中に完全には探索されていない潜在的に安全ではない状態を残す。これは、安全制約を構築するために使用したモデル仮定において不正確性があってもなお訓練済みシステムは安全なままであるか？という汎化に関する懸念を引き起こす。モデリング仮定が報酬信号を構造化するために用いることができることを提案する予備的ないくつかの研究はさておき、この疑問は、ほとんど未踏もまま残される。

背景および関連研究は、シンボリック強化学習、検証可能／形式的に安全な強化学習に重点を置いた安全強化学習および形式的仕様／検証の３つの大まかなカテゴリーに分類される。いくつかの著者は、強化学習においてシンボリック・マッピングを利用することを提案した。シンボリックＲＬについての既存の研究は、状態空間全体の完全なシンボリック表現を学習することを試みる。加えて、最適化されているシステムの安全制約を考慮するシンボリック強化学習に関する従来の研究は存在しない。安全制約は、シンボリックＲＬに報酬構造を介して組み込まれるが、しかしながら、これは、集められる報酬を最適化するよりも破滅的な状態を回避することがより重要である、セーフティ・クリティカルなシナリオにおいては十分ではない。時には、最適なポリシーが安全制約を保存することを保証する報酬構造を選択することが可能であるが、これらのような場合でさえ、シンボリック強化学習アルゴリズムは、トレーニング・プロセス中の安全性の保証を提供することができない。シンボリックＲＬについての他の最近の研究は、モデルベースのＲＬとシンボリック・プランニングを統合する。

深層ニューラルネットワーク（ＤＮＮ）をＲＬに統合することは、カメラ入力上で直接に制御ポリシーを学習する、例えばビデオ・ゲームやロボットなど、以前は困難であった問題に強化学習を拡張することを支援した。深層ＲＬは、手動で、時間がかかり、しばしば不完全な特徴エンジニアリング処理によりボトルネックとなっていた、従来型の強化学習アプローチを上回る重要な利点を提供する。

これらの実質的な利点にもかかわらず、深層ＲＬアルゴリズムは、第一原理に基づく形式的で説明可能な安全保証を提供しない。これは、安全性について最適化するために学習の前にエージェントが相当な数の破滅的なイベントを観測しなければならず、その場合にも、報酬関数が注意深く作りこまれた場合に限られる、トレーニング中は、特に真実である。

本開示の例示的な実施形態は、ＲＬエージェントに対する制約付きアクションを生成し、それ自体／環境にダメージを与えることを回避するように、安全制約を指定（specifying）し、強制する（enforcing）ためのシステムおよび方法を対象とする。本開示の実施形態は、ドメイン・エキスパートからの入力として、どのような状態／アクションが安全であるかの仕様を取得し、環境のいかなるモデルも必要としない。実施形態によるシステムは、視覚入力からテンプレートベースのマッピングを学習してシステムの状態の部分的なシンボリック表現を作成することによって、エンド・ツー・エンドのポリシーを学習し、安全制約を強制することができる。本開示の実施形態は、複雑な視覚入力に汎化する。経験的評価は、実施形態によるシステムが、安全性を学習し、生の視覚入力上でのみ観測可能な目的（objectives）を最適化することができることを実証する。本開示の実施形態によるシステムは、自動運転車などのロボティック・ハードウェアまたはソフトウェア製品を製造する、あるいはこれらの産業セクタにサービスを提供する会社にとって関心があるであろう。

本開示の実施形態によれば、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法が提供され、方法は、強化学習（ＲＬ）エージェントのアクション空間の画像中の各オブジェクトについて、ＲＬエージェントの画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、ＲＬエージェントのアクション空間の画像中の各オブジェクトが検出される、ステップと、検出された各オブジェクトを、ＲＬエージェントのアクション空間の画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、ＲＬエージェントのアクション空間の画像中の各オブジェクトについての座標に関する変数のセットに対し、ＲＬエージェントのアクション空間に対する安全仕様を適用することによって、ＲＬエージェントに対する安全アクションのセットを決定するステップと、ＲＬ手順の現在の状態について、ＲＬエージェントに安全アクションのセットを出力するステップと、ＲＬエージェントがアクションを行う前に、ＲＬエージェントが安全でないアクションを実行することを防止するステップとを含む。

本開示のさらなる実施形態によれば、ＲＬエージェントのアクション空間の画像中の各オブジェクトについてテンプレートマッチングを実行するステップは、各オブジェクトの視覚テンプレートを用いて、ＲＬエージェントのアクション空間の画像中の各オブジェクトあたりに境界ボックスを配置するステップを含む。

本開示のさらなる実施形態によれば、検出された各オブジェクトを、ＲＬエージェントのアクション空間の画像中の各オブジェクトについて平面座標のセットにマッピングするステップは、各境界ボックスの重心を、ＲＬエージェントのアクション空間の画像中の各オブジェクトについての平面座標のセットにマッピングするステップを含む。

本開示のさらなる実施形態によれば、方法は、ＲＬエージェントのアクション空間の単一のラベル付き画像におけるデータを拡張し、画像からすべてのテンプレートを除去し、複数のテンプレートをランダムにサンプリングし、複数のテンプレートの各々を拡張し、テンプレート・マスクを用いて複数のテンプレートの各々をランダムに画像中に配置し、複数の画像が生成され、複数の画像を用いてテンプレートマッチングをトレーニングすることによって、各オブジェクトについてのテンプレートマッチングをトレーニングするステップをさらに含む。

本開示のさらなる実施形態によれば、単一のラベル付き画像におけるデータを拡張することは、画像の輝度をランダムに調整すること、画像をクロッピングすることまたは画像を左右反転することの１または複数を含み、複数のテンプレートの各々を拡張することは、テンプレートを左右反転すること、テンプレートを回転することまたはテンプレートからピクセルを落とすことの１または複数を含む。

本開示のさらなる実施形態によれば、ＲＬエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの１つである。

本開示のさらなる実施形態によれば、方法は、現在のＲＬステップでの画像中の各オブジェクトについての平面座標のセットと、以前のＲＬステップでの画像中の各オブジェクトについての平面座標のセットとの間の差分を用いて各オブジェクトについての潜在的なアクションを推定するステップを含む。ＲＬエージェントは、そのダイナミクスの知識および安全仕様を用いて、ＲＬエージェントが、アクションを取った後、次いで以前に観測された状態遷移すべての最悪な潜在的な結果が続き、安全仕様が、ワン・ステップ将来でも依然として満足される場合にのみ、アクションをとることを確実にする制約を構築する。

本開示のさらなる実施形態によれば、安全仕様は、画像中の各オブジェクトについて形式論理学で特定される複数の安全制約を含む。

本開示の別の実施形態によれば、制御ソフトウェアを実行する強化学習（ＲＬ）アルゴリズムにおいて安全制約を強化するために制御ソフトウェアをトレーニングするための方法が提供され、方法は、入力画像中の１または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成するステップと、入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップと、各安全性関連オブジェクトについての座標を用いることによって、ＲＬアルゴリズムにおけるＲＬエージェントに対し安全制約を強制するステップと、ＲＬエージェントがアクションを行う前に、ＲＬエージェントが安全でないアクションを実行することを防止するステップとを含む。

本開示のさらなる実施形態によれば、入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップは、各オブジェクトに対する視覚テンプレートを用いて、各安全性関連オブジェクトあたりに境界ボックスを配置するステップと、各境界ボックスの重心を、入力画像中の各安全性関連オブジェクトについての座標にマッピングするステップとを含む。

本開示のさらなる実施形態によれば、ＲＬアルゴリズムにおけるＲＬエージェントに対し安全制約を強制するステップは、ＲＬエージェントに対する安全仕様を受信するステップと、安全仕様および各安全性関連オブジェクトについての座標から安全制約を決定するステップであって、ＲＬエージェントの各アクションが、安全（safe）または安全ではない（非安全；unsafe）とラベル付けされる、ステップと、ＲＬエージェントが安全ではないアクションを実行するのを防止するステップとを含む。

本開示の別の実施形態によれば、コンピュータにより可読な非一時的プログラム格納デバイスが提供され、プログラム格納デバイスは、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法のステップを行うためにコンピュータによって実行される命令のプログラムを有形に具現化するものである。

本開示の一側面によれば、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法が提供され、方法は、強化学習（ＲＬ）エージェントのアクション空間の画像中の各オブジェクトについて、ＲＬエージェントの画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、ＲＬエージェントのアクション空間の画像中の各オブジェクトが検出される、ステップと、検出された各オブジェクトを、ＲＬエージェントのアクション空間の画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、ＲＬエージェントのアクション空間の画像中の各オブジェクトについての座標に関する変数のセットに対し、ＲＬエージェントのアクション空間に対する安全仕様を適用することによって、ＲＬエージェントに対する安全アクションのセットを決定するステップと、ＲＬ手順の現在の状態について、ＲＬエージェントに前安全アクションのセットを出力するステップと、ＲＬエージェントがアクションを行う前に、ＲＬエージェントが安全でないアクションを実行することを防止するステップとを含む。

本開示の別の側面によれば、制御ソフトウェアを実行する強化学習（ＲＬ）アルゴリズムにおいて安全制約を強化するために制御ソフトウェアをトレーニングするための方法が提供され、方法は、入力画像中の１または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成するステップと、入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップと、各安全性関連オブジェクトについての座標を用いることによって、ＲＬアルゴリズムにおけるＲＬエージェントに対し安全制約を強制するステップと、ＲＬエージェントがアクションを行う前に、ＲＬエージェントが安全でないアクションを実行することを防止するステップとを含む。

本開示の別の側面によれば、コンピュータにより可読な非一時的プログラム格納デバイスが提供され、プログラム格納デバイスは、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法のステップを行うためにコンピュータによって実行される命令のプログラムを有形に具現化するものであり、方法は、強化学習（ＲＬ）エージェントのアクション空間の画像中の各オブジェクトについて、ＲＬエージェントの画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、ＲＬエージェントのアクション空間の画像中の各オブジェクトが検出される、ステップと、検出された各オブジェクトを、ＲＬエージェントのアクション空間の画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、ＲＬエージェントのアクション空間の画像中の各オブジェクトについての座標に関する変数のセットに対し、ＲＬエージェントのアクション空間についての安全仕様を適用することによって、ＲＬエージェントに対する安全アクションのセットを決定するステップと、ＲＬ手順の現在の状態について、ＲＬエージェントに安全アクションのセットを出力するステップと、ＲＬエージェントがアクションを行う前に、ＲＬエージェントが安全でないアクションを実行することを防止するステップとを含む。

本開示の別の側面によれば、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするためのシステムが提供され、システムは、強化学習（ＲＬ）エージェントのアクション空間の画像中の各オブジェクトについて、ＲＬエージェントの画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行することであって、ＲＬエージェントのアクション空間の画像中の各オブジェクトが検出される、実行することと、検出された各オブジェクトを、ＲＬエージェントのアクション空間の画像中の各オブジェクトについて平面座標のセットにマッピングすることと、ＲＬエージェントのアクション空間の画像中の各オブジェクトについての座標に関する変数のセットに対し、ＲＬエージェントのアクション空間に対する安全仕様を適用することによって、ＲＬエージェントに対する安全アクションのセットを決定することと、ＲＬ手順の現在の状態について、ＲＬエージェントに安全アクションのセットを出力することと、ＲＬエージェントがアクションを行う前に、ＲＬエージェントが安全でないアクションを実行することを防止することを実行するように動作可能である。

本開示の別の側面によれば、制御ソフトウェアを実行する強化学習（ＲＬ）アルゴリズムにおいて安全制約を強化するために制御ソフトウェアをトレーニングするためのシステムが提供され、システムは、入力画像中の１または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成することと、入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定することと、各安全性関連オブジェクトについての前記座標を用いることによって、ＲＬアルゴリズムにおけるＲＬエージェントに対し安全制約を強制することと、ＲＬエージェントがアクションを行う前に、ＲＬエージェントが安全でないアクションを実行することを防止することとを実行するように動作可能である。

以下、本発明の実施形態について、例として、添付図面を参照しながら説明する。

本開示の実施形態による、コンピュータ・ビジョンおよび強化学習エージェント・システムのブロック図である。ロードランナー・コンピュータ・ゲーム環境に適用される本開示の実施形態によるエンド・ツー・エンド深層強化学習アルゴリズムを示す図である。ロードランナー・ゲーム環境を示す図である。本開示の実施形態によるロードランナーおよびコヨーテのシンボリック・マッピングを示す。本開示の実施形態による、単一のラベル付きテンプレート画像を示す。本開示の一実施形態による、トレーニング画像の例示的なセットを示す。本開示の実施形態による、ＸＯ環境におけるトレーニング中の安全性違反の数を比較する。本開示の実施形態による、ＸＯ環境におけるトレーニング中の累積報酬を示す。本開示の実施形態による、ペナルティ（非安全リワード≠０）がシステム性能を低下させる、ＸＯ環境において安全でないアクションの試みにペナルティを与える安全汎化能力を示す。本開示の実施形態による、ロードランナー環境におけるトレーニング中の安全性違反の数を比較する。本開示の実施形態による、ロードランナー環境におけるトレーニング中の累積報酬を示す。本開示の実施形態による、トレーニング中、安全でないアクションが試みられる場合に必ず「非安全報酬」(ペナルティ)が適用される場合のリターンの比較を示す。ＸＯ環境を示す図である。本開示の実施形態を実装する例示的なクラウド・コンピューティング・ノードの概略図である。本開示の実施形態による例示的なクラウド・コンピューティング環境を示す。

本開示の例示的な実施形態は、概して、視覚テンプレート（visual template）を用いて視覚入力（visual input）をシンボリック状態空間（symbolic state space）にマッピングする深層強化学習アルゴリズムを提供する。実施形態は、種々の変形および代替形式を受け入れる余地があるが、その特定の実施形態は、例として図面に示され、本明細書において詳細に説明されるであろう。しかしながら、本開示を開示される特定の形式への制限する意図はなく、反対に、本開示は、本開示の精神および範囲内に含まれるすべての変形例、等価物および代替物を対象とするものであることを理解されたい。

本開示の例示的な実施形態は、視覚入力を通してポリシーを学習するエンド・ツー・エンド強化学習アルゴリズムへシンボリックな安全制約を組み込むフレームワークを提供する。本開示の実施形態は、現在の状態の完全なシンボリック表現を与えるオラクル（oracle）の存在を仮定せず、エージェントのポリシーまたは価値関数がシンボリック状態空間上で定義されることを仮定しない。実施形態によるシステムは、視覚テンプレートマッチングを使用して、視覚データから、エージェントおよびエージェントが回避すべき障害物の位置のような安全に関連するシンボリック特徴を抽出する。これらのシンボリック特徴は、次いで、形式的な安全制約を強制するために使用されるが、ポリシーが学習される実際のドメインとしては使用されない。

本開示の実施形態によるシステムは、視覚入力から、それにわたって形式的モデルが定義されるシンボリック状態空間へのマッピングのためのオラクルに依存しない、視覚入力上の形式的安全エンド・ツー・エンドの強化学習のためのシステム、並びに、より高いレベルの形式的な安全仕様、すなわち衝突回避のような最終的な安全目標が所与で、左に曲がっても安全であるといった状態のセットなどのアクション上のガードを学習するためのシステムを提供する。

安全コントローラの指定
実施形態によれば、差動動的ロジック（ｄＬ）が、エージェントのアクション空間上の安全制約を指定するために使用される。ｄＬは、離散的および連続的な時間的動力学ステムの両方の到達性特性を指定しかつ証明するためのロジックである。動力学システムは、ハイブリッド・プログラム（ＨＰ）、つまり、命令型プログラムを微分方程式の系と組み合わせる簡素なプログラミング言語によって指定される。ＨＰの構文および情報セマンティクスは、以下の通りである：
ここで、ｆ，ｇは、実数算術の多項式であり、～は、｛≦，＜，＝，≧｝の１つであり、［α］φの意味は、プログラムαを実行することにより到達されるすべての状態においてφが真である、ということである。ｄＬの式は、ＫｅＹｍａｅｒａＸ定理証明器において記述されまた証明される。そのような仕様が与えられると、強化学習アルゴリズムのための、本明細書では安全モニタと参照される安全アクションのセットがシンボリック状態空間上で構築されてもよい。実施形態によれば、安全制約は、ｄＬプリミティブに関して述べられているが、安全制約についての証明は、構築されていない。

概要
実施形態による、安全制約を指定し、強制するためのシステムおよび方法は、環境のモデルを必要とせず、複雑な（視覚の）状態空間に適用可能である。実施形態によるシステムは、ドメイン・エキスパートが高レベルの安全制約を指定することを可能にし、視覚入力を高レベルの特徴にマッピングして制約を検証し、解釈可能な安全ルールを使用する。これにより、ドメイン・エキスパートが安全制約を指定するのに要した時間が短縮される。実施形態によるシステムは、エージェントが、安全でないアクションをとることを防止することができる。物理システム用の制御ソフトウェアの文脈においては、エージェントは、例えば、自動運転またはロボットモータ車両、ロボット水上船舶または潜水艦、または自己制御された無人航空機などの自動化された自己制御車両（vehicle、乗り物）である。

例示的な実世界の応用は、Ａｍａｚｏｎ様式の倉庫内のロボットである。ロボットは、倉庫から人間の荷造り作業員への物品のスタックを運ぶ必要がある。安全制約は、他のロボット、人間の作業員および物品のスタックについて別個に定義されるであろう、ロボットの許容される位置および速度を制御するであろう。

実施形態によるコンピュータ・ビジョンおよび強化学習エージェント・システムは、入力として、（１）ドメイン・エキスパートからの高レベル（シンボリック）の安全制約、（２）カノニカル・オブジェクト表現および（３）強化学習環境からの視覚入力を取得する。実施形態によるシステムは、モデルを使用しない。実施形態によるコンピュータ・ビジョンおよび強化学習エージェント・システムは、視覚入力からシンボリック特徴にマッピングし、シンボリック制約を検査し、環境においてアクションを実行する。実施形態によるコンピュータ・ビジョンおよび強化学習エージェント・システムの出力は、（１）現在の状態における安全アクションのセットおよび（２）安全制御ポリシーである。

図１Ａは、実施形態によるコンピュータ・ビジョンおよび強化学習エージェント・システムのブロック図である。実施形態によるシステムは、強化学習ループ１１０および安全システム１２０を含む。強化学習ループ１１０は、視覚観測１１１、エージェント１１２、アクション１１３、環境１１４および報酬１１５を含む。安全システム１２０は、ドメイン・エキスパート１２１、オブジェクト表現１２２、シンボリック・マッピング１２３、シンボリック特徴１２４、シンボリック制約１２５および安全アクション１２６を含む。

強化学習ループ１１０においては、各状態、例えば、現在の盤面セットアップで、エージェント１１２は、現在の環境１１４の視覚観測１１１に基づいて、ルークをＡ４へのようなアクション１１３を選択する。アクション１１３は、環境１１４を変化させ、エージェント１１２は、ゲームに勝つといった、良好なアクションに対する報酬１１５または不良なアクションに対するペナルティを受け取る。時間が経過すると、エージェントは、その報酬を最大にするように学習する。実施形態によるコンピュータ・ビジョンおよび強化学習エージェント・システムにおいては、視覚観測１１１は、シンボリック・マッピング・プロセス１２３において安全システム１２０によって使用されて、安全アクション１２６を決定し、これは、エージェント１１２に提供される。これらは、以下に詳細に説明される。

実施形態によれば、ドメイン・エキスパート１２１は、オブジェクトおよび位置などのこれらの特性のような高レベルの特徴に関するシンボリック制約１２５を提供する。シンボリック制約１２５は、条件を指定し、その条件が満たされた場合にいずれのアクションが安全でないかを指定する。例えば、「車があなたの左側に近接し、あなたの上でも下でもない場合は、左に移動しない」は、シンボリックには以下のように表現され得る：

実施形態によれば、ドメイン・エキスパート１２１は、また、システム内の各オブジェクトについてカノニカル表現１２２を提供する。観測１１１から、エージェントは、画像などを受信し、エキスパート１２１は、画像中のどのオブジェクトがどこにあるかを記録する。例えば、ＡＩのロードランナー（roadrunner）のゲームにおいては、図２Ａに示されるが、エージェントが、ロードランナー２１０で、コヨーテ２２０が、安全ではないオブジェクトである。ボックス２１２，２２２は、エキスパートのアノテーションである。

実施形態によるシステムは、システム内の各オブジェクトについてのカノニカル表現１２２を使用して、視覚入力１１１からシンボリック特徴１２４へのマッピング１２３を作成する。他のコンピュータ・ビジョン・タスクからのプレトレーニングされたモデルを使用して、多数のラベル付けデータの必要性を回避することができる。テンプレート画像から生成されたデータ上でさらにトレーニングを行うことができる。図２Ｂにおけるロードランナー（roadrunner）２１０およびコヨーテ２２０のシンボリック・マッピングは、以下のシンボリック特徴をもたらす（ｒｏａｄｒｕｎｎｅｒ，ｘ＝１００，ｙ＝１２４），（ｃｏｙｏｔｅ，ｘ＝１３０，ｙ＝１２９）。

実施形態によるシステムは、オブジェクトの各潜在的なグループピング上でシンボリック制約１２５を評価し、すべての制約１２５下で安全であるアクション１２６のみを許容する。例えば、シンボリック特徴（ｒｏａｄｒｕｎｎｅｒ，ｘ＝１００，ｙ＝１２４），（ｃｏｙｏｔｅ，ｘ＝１３０，ｙ＝１２９）、シンボリック制約（ａｂｓ（ｃｏｙｏｔｅ．ｙ－ｒｏａｄｒｕｎｎｅｒ．ｙ）＜６）＆（０＜ｃｏｙｏｔｅ．ｘ－ｒｏａｄｒｕｎｎｅｒ．ｘ＜３１）：｛ｒｉｇｈｔ｝および潜在的なアクションのセット｛ｌｅｆｔ，ｒｉｇｈｔ，ｕｐ，ｄｏｗｎ｝が与えられると、実施形態による制約評価は、安全アクション１２６：｛ｌｅｆｔ，ｕｐ，ｄｏｗｎ｝を生じる。これらの安全アクション１２６は、そこから選択するためにエージェント１１２に提供される。

実施形態による安全システムは、複数のやり方で安全を強制するためにＲＬエージェントと統合される。安全アクションは、安全アクションにわたるポリシー分布からまたは一様ランダムにサンプリングすることにより、最も安全なＱ値によって選択されてもよい。安全ではない試みに対するペナルティは、エージェントに安全を、制約から偶発的に除外された状態に汎化することを教えてもよい。しかしながら、強いペナルティは、過度に慎重な振る舞いにつながる可能性がある。探査と、安全であるという厳正さとの間にはトレードオフがある。エージェントのトレーニングは、安全なまたは安全ではない両方の元のアクションを考慮してもよく、またはその代わりに安全なアクションを使用してもよい。

実施形態による方法の詳細な実施および結果が以下に提供される。

視覚入力上での安全ＲＬ
本開示の実施形態は、視覚テンプレートを使用して視覚入力を、エージェントのアクション空間上で安全制約を強制するために使用し得る、シンボリック状態空間にマッピングするエンド・ツー・エンドの深層強化学習アルゴリズムを提供することができる。基本的なフレームワークは、上述した図１に示されている。学習の前に、ドメイン・エキスパートは、ｄＬまたは別のプログラミング言語／ロジックで書かれた安全仕様を提供する。実施形態による安全仕様は、安全制約のセットである。ドメイン・エキスパートは、これらのシンボリック制約に加えて、シンボリック安全制約において記載されている各オブジェクトについての視覚テンプレートも提供する。これらのカノニカル・オブジェクト表現は、学習中に、視覚入力からシンボリック状態を抽出するために使用される。標準的なエンド・ツー・エンドの深層強化学習アルゴリズムが、次いで、各視覚入力をシンボリック特徴空間にマッピングし、シンボリック安全制約を適用し、現在の状態に対する安全なアクションのセットを出力する、安全モニタリング・システムによって拡張される。

図１Ｂは、ロードランナー環境１００に適用される実施形態による、エンド・ツー・エンドの深層強化学習アルゴリズムを示す。図１Ｂにおいては、ロードランナー１３１、コヨーテ１４１および車１５１といった、ロードランナー環境の視覚表現１００内のオブジェクトを検出するためにオブジェクト・テンプレート１６０が使用される。検出されたオブジェクトから導出されたシンボリック制約は、視覚表現１００に作用するポリシー・ネットワーク１５０の出力と組み合わせられて、ロードランナーについての安全なアクションのセットである、安全モニタ１８０を学習する。シンボリック・マッピングは、安全制約を強制するためにのみ使用され、安全性を強制するために使用されるシンボリック表現は、オラクルではなく、代わりにテンプレートマッチング・アルゴリズムを使用して学習されることに留意されたい。このゲームでは、位置（ｒｒ．ｘ，ｒｒ．ｙ）のロードランナー１３１は、シンボリック状態において表現されていないバードシードを拾いながら、位置（ｃｏ．ｘ，ｃｏ．ｙ）のコヨーテ１４１および位置（ｃａｒ．ｘ，ｃａｒ．ｙ）の車１５１の両方を回避しなければならない。全体の安全仕様は、これらの障害物の両方に対する衝突回避である：

実施形態によれば、テンプレートマッチングが使用されて、ロードランナー１３２、コヨーテ１４２（敵対的障害物）および車１５２（移動障害物）の周りに境界ボックスを配置する。これらの境界ボックスの重心は、各オブジェクトのｘ座標およびｙ座標に対する変数にマッピングされる。これらの変数にわたって定義されたシンボリック安全制約が、次いで、利用可能なアクションのセットを制約するために使用される。例えば、リスト１は、ロードランナー環境に対するいくつかの制約の１つである。この制約は、車がロードランナーの北東にある場合に、ロードランナーが上（ｕｐ）に移動したり、右上に（ｕｐｒｉｇｈｔ；上および右に）に移動したりしないことを記述する。車、ロードランナーおよびコヨーテの他の構成に対する同様の制約が、衝突を防止し得る。

リスト１：ロードランナー環境用の安全制約の一例：

リスト１の制約は、安全仕様、この場合、式（１）と、しばしば暗黙的であり、好ましくは明示的な環境のモデルと組み合わせて、人間、すなわち、ドメイン・エキスパートによって体系的に構築される。実施形態によれば、制約は、リスト１にあるように、アクション空間上の入力である。別の実施形態によれば、リスト１のもののようなアクション制約は、式（１）のような安全仕様を入力として取得し、学習プロセスの開始時点でのいくつかの初期実験から、世界がどのように振る舞うかについての観測を前提として安全仕様をどのように保存するかを推論することによって構築される。本開示の実施形態は、視覚入力から環境の形式的シンボリックな動力学モデルを自動的に学習する安全ＲＬアプローチを提供することができる。

シンボリック・マッピングの構築
実施形態によれば、シンボリック安全制約は、安全性に関連するオブジェクト（safety-relevant object）の平面座標に関連して記述され、これは、速度に関して記述された制約ではなく、位置的な安全制約がサポートされることを意味する。形式的安全ＲＬを対象とした大部分の既存のアプローチは、位置に関して安全制約を記述する。入力画像中の各安全関連オブジェクトの平面座標を検出するには、全ての安全関連オブジェクトのサンプル観測が必要である。全ての安全関連オブジェクトのこれらのサンプル観測は、各オブジェクトについての視覚テンプレートの一部を形成する。これらのサンプル観測は、境界ボックスおよびセグメンテーション・マスクで全ての安全関連オブジェクトがラベル付けされた状態で、環境から少なくとも１つのサンプル観察をラベル付けする人間によって、提供される。この人間は、上述したドメイン・エキスパートである。人間は、安全関連オブジェクトのあらゆるクラスの少なくとも１つの実例をラベル付けするが、そのオブジェクトの各インスタンスをラベル付けする必要はない。例えば、シーンに出入りする複数の車が存在する場合がある。人間は、車をラベル付けする必要があるが、シーンに入る一つ一つの車をラベル付けする必要はない。マスクは、任意であるが、マッピングの精度を向上させる可能性がある。制約で述べられた各シンボリック・オブジェクトについて、そのカノニカル視覚表現が、視覚入力を安全関連オブジェクトの平面座標のセットへマッピングするために使用される。オブジェクトのカノニカル視覚表現は、オブジェクトの視覚テンプレートから取得され、視覚テンプレートと同一であってもよいことに留意されたい。カノニカル視覚表現が視覚テンプレートの摂動されたバージョン（perturbed version）であってもよい。加えて、ラベル付き画像は、安全関連オブジェクト自体のクロッピングされた画像ではなく、サンプル観測であるべきであり、これにより、以下に説明するように、ラベル付き画像の背景がデータ拡張に使用されるようにしてもよい。

実施形態によれば、視覚テンプレートが見つけられると、テンプレートおよび画像が、テンプレートにマッチする画像の部分の（ｘ，ｙ）座標を返すテンプレートマッチング関数に渡されてもよい。実施形態によれば、これら（ｘ，ｙ）座標（複数可）は、視覚テンプレート中の関心のあるオブジェクトの周りの境界ボックスの重心に対応する。実施形態によるシンボリック・マッピングの一例の非限定的な実装は、以下の通りである：

本開示の実施形態によれば、Ｃｈｅｎｇ等による「ＱＡＴＭ：Ｑｕａｌｉｔｙ－ａｗａｒｅｔｅｍｐｌａｔｅｍａｔｃｈｉｎｇｆｏｒｄｅｅｐｌｅａｒｎｉｎｇ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，１１５５３－１１５６２（２０１９）に開示される、品質アウェア・テンプレートマッチング（ＱＡＴＭ；Quality Aware Template Matching）アルゴリズムの変形例が、ユーザ提供の安全関連オブジェクトのテンプレートにマッチする視覚入力におけるオブジェクトを検出するために用いられ、この論文の内容は、それらの全体として、本明細書に参照により組み込まれる。ＱＡＴＭは、エンド・ツー・エンドの微分可能なテンプレートマッチング・アルゴリズムであり、これは、そのパラメータが訓練可能であることを意味する。アルゴリズム１は、視覚入力をシンボリック特徴にマッピングするための実施形態による方法の概要を与える。各ステップが、以下に詳細に説明される。入力および出力は、次の通りである：
・Ｆ：入力として画像を用いて任意のタスクでプレトレーニングされたＣＮＮ。これは、一般的な画像に関する関連の特徴を包含する学習済み表現を有することを意味する。テンプレートマッチングは、このＣＮＮの表現空間において実行される。
・Ｉ：テンプレートによって指定される全てのオブジェクトの位置を照会される画像。
・Ｔ：検出されるべき各オブジェクトについて１つのテンプレート画像のセット。
・α_Ｔ：各テンプレートについてのソフトマックス温度パラメータ。
・Ｔ_Ｔ、各テンプレートについての閾値：テンプレートマッチングのスコアは、検出が行われるためにはこれを超える必要がある(後述する他の条件も同様にある)。
・ｃｏｎｖ_Ｔ：各テンプレートに対する別個の畳み込み層。各層において使用されるカーネルのサイズは、対応するテンプレート画像のサイズと一致する。これらがトレーニングされると、各テンプレートについてのテンプレートマッチング・スコアが、そのテンプレートに対して最も識別力のあるピクセル位置に焦点を当てるようになる。テンプレート固有のゼロ・パディングされた層もまた追加されて、異なるカーネルサイズでの畳み込みの後でも全てのテンプレートについてのスコア・マップが同一となるようになされるが、わかりやすくするために省略される。
・ｓｙｓ＿ｓｔａｔｅ：キーがテンプレートであり、値が画像中のテンプレート・オブジェクトの全ての検出された実例の（ｘ，ｙ）位置のリストである辞書。

実施形態によるシンボリック・マッピングは、変更を含むＱＡＴＭアルゴリズム（上記３行目）、ＱＡＴＭスコアからオブジェクトを検出すること（上記第４行～第１３行）およびモデルをトレーニングすることを含む、３つのセクションを含む。

ＱＡＴＭ
特徴抽出器Ｆは、任意のプレトレーニング済みのＣＮＮであってもよい。テンプレートマッチングは、生のピクセル空間の代わりにＣＮＮの学習済み表現を使用して行われるであろう。テンプレートマッチングのタスクが、特徴抽出器がトレーニングされた元のタスクとは異なってもよいので、抽出される特徴は、ネットワークの出力層の近くではない層から取得される。実施形態によれば、オリジナルのＱＡＴＭの論文と同じセットアップが使用される：特徴抽出器は、画像データベース上でプレトレーニングされた深層畳み込みニューラルネットワークであり、第２層および第１６層からの特徴が使用される。バイリニア補間が使用されて、より多くのプーリングが生じた後の第１６層からの特徴が、第２層からのものと同一サイズにリサイズされる。これらの両方の層からの特徴マップが、次いで連結されて、最終的な特徴テンソルが生成される。シンボリック・マッピングに渡される画像Ｉは、環境からの完全な解像度のＲＧＢ観測である。ＰＰＯへの入力として、効率のために低解像度のグレイ・スケール画像が使用されるが、実施形態によるシンボリック・マッピングは、生の観測を用いた方がより正確である。安全性を保存することが非常に重要であるので、主にトレーニングについての問題である効率を低下させる価値がある。実施形態によるアルゴリズムは、毎秒１００を超えるフレームを処理することができ、これは、リアルタイム推論のために十分である。シンボリック・マッピングによって使用されるテンプレートＴは、所与の境界ボックスを使用してエキスパートによりアノテーションされた画像からクロップされる。セグメンテーション・マスクが提供される場合、オブジェクトに属さないこれらの画素が背景値に設定されてもよい。ロードランナー環境に対してはゼロが使用されるが、オブジェクト自体が０のピクセル値を有するので、ＸＯ環境においてテンプレートに変更がなされない。テンプレート固有の温度α_Ｔ、閾値Ｔ_Ｔおよび畳み込み層ｃｏｎｖ_Ｔは、以下に説明される。

一実施形態によれば、２つの層からの特徴マップを連結した後、訓練可能な畳み込み層が、ＱＡＴＭの特徴抽出器に加えられ、別個の平滑化層およびソフトマックス温度が、各テンプレートについてトレーニングされた。ＱＡＴＭ機能がどのように機能するかについての詳細については、ｃｈｅｎｇ等を参照されたい。簡潔には、Ｃｈｅｎｇの方法は、まず、特徴抽出器を使用して画像およびテンプレートについての特徴を計算する。各位置におけるこれらの特徴の間の類似性が、チャネルの次元にわたりテンソル積を用いて計算される。所与の温度を使用して２つのソフトマックス配列、テンプレートの次元にわたるものおよび画像の次元にわたるもの、が計算される。これらが、要素ごとに乗算され、最大値がテンプレートの次元にわたってとられ、各位置での、予測されたマッチング確率であるＱＡＴＭスコアを得る。

スコア・マップからのオブジェクトの検出
実施形態によれば、スコア・マップから検出を得るため、それらの近傍よりも高いスコアを有し、かつテンプレート固有の閾値に達する全ての位置が選択される。局所最大スコアを有する位置を検出することは、その位置におけるスコアが、その位置を中心とするｍａｘｐｏｏｌ操作の結果と等しいか否かを検査することによって行うことができる。これは、ｍａｘｐｏｏｌ操作のために利用可能な最適化されたＧＰＵ実装の結果、効率的な方法である。スコアがその位置で適用される３×３のカーネルを用いたｍａｘｐｏｏｌの結果に等しく、スコアがそのタイプのオブジェクトについての閾値を超える任意の位置が検出として返される。この計算は、アルゴリズム１の第２行～第１１行において、わかりやすくするために、ｆｏｒループを用いて明示的に行われる。

実施形態によれば、アルゴリズム１は、各テンプレートについて実行されて、全てのオブジェクトの検出された位置を得るが、実際には、計算の一部は、同一の入力画像でのコール間で再使用されてもよい。これらのオブジェクト・タイプおよび位置は、以下に示すように、現在の状態での安全制約を評価するために使用されるシンボリック特徴である。

シンボリック・マッピングのトレーニング
実施形態によれば、大量のアノテーションへの依存性が導入されるのを回避するために、図２Ｃに示すように、単一のラベル付きテンプレート画像が、ＱＡＴＭをトレーニングするために使用され、シンボリック・マッピングのパラメータをトレーニングするために積極的なデータ拡張が使用された。例示的な拡張には、画像の輝度に対するランダムな調整、クロッピングおよび左右反転が含まれる。加えて、テンプレート・マスクが用いられてテンプレートを背景画像中の様々な位置に移動させた。最初にすべてのテンプレートが修復アルゴリズムを用いて画像から除去されて、それらのピクセルを置換した。次いで、トレーニングで使用される各画像を作成するために、テンプレートのセットが、画像中に含ませるためにランダムにサンプリングされた。各テンプレートについて、左右反転、小回転およびテンプレートのピクセルの一部を落とすことがランダムに適用された。テンプレートは、次いで、背景画像中のランダムな位置に貼り付けられ、多数のトレーニング画像のセットを作成した。図２Ｄは、本発明の実施の形態によるトレーニング画像の例示的なセットを示す。これらの環境の図形的な単純さから、テンプレートの平均色は、貼付する領域の平均色とは十分に異なる。これは、テンプレートが識別可能となることを確実にする。

移動するオブジェクトは、しばしば、互いに部分的に遮蔽する。シンボリック・マッピングが、部分的に遮蔽されたオブジェクトを識別するタスクを実行することができるようにするために、拡張の際の高い確率でのテンプレートの重複が用いられる。これは、２つの理由のためにロードランナー環境で妥当である。第１に、車がコヨーテに衝突することが許容される。第２に、ロードランナーは、車と衝突することなく、車と重なることができる。同様の部分的に重複する状況が、２つの歩行者が車の前方で互いに通過する場合のように他の制御問題においても生じる。

実施形態によれば、拡張されたデータセットを作成した後、単一のラベル付きテンプレート画像について少数のラベル付きサンプルを使用することによってテンプレートマッチングが逆伝播を用いてトレーニングされる。ラベル・スコア・マップを作成するための例示的、非限定的な手順は、上記のアルゴリズム２である。オブジェクトの真の位置がピクセル位置（ｘ，ｙ）にある場合、平均［ｘ，ｙ］を有する２Ｄガウス分布が生成され、その確率密度が各ピクセル位置（Ｉ，ｊ）で評価されて、ラベル画像を得る。これは、画像全体にわたって合計が１となるように正規化されないことに留意されたい。ガウス分布の共分散は、（ｗ，ｈ）が所与のテンプレートの幅および高さであるとして、対角に沿って［ｗ＝２，ｈ＝２］に設定され、それ以外が０であり、これは、テンプレート・オブジェクトが大きくなるほど、予測されたオブジェクトの位置でペナルティが課される僅かな誤差がより少なくなることを意味する。画像中に同一オブジェクトの複数の実例が存在する場合、同一タイプの各オブジェクトについて作成されたラベル画像の要素ごとの最大値をとることによって、単一のラベル画像が作成される。このラベル・スコア・マップと予測されたスコア・マップとの間の損失関数は、フォーカル・ロス（focal loss）であり、これは、予測された確率が、真の確率からかけ離れている困難例に焦点を当てるクロス・エントロピーの変形例である。一実施形態によれば、変更されたフォーカル・ロスが使用される：
ここで、Ｎは、画像中の、任意の種類の、オブジェクトの数であり、（ｗ，ｈ）は、それぞれ画像の幅および高さであり、Ｔは、テンプレートの数であり、これはオブジェクトの異なる種類の数に対応する。Ｙ＾ｘｙｔ（Ｙ＾は、Ｙにハット記号を付したものを表す）は、画像中の位置（ｘ，ｙ）を中心とするオブジェクト・マッチング・テンプレートｔの予測確率であり、すなわち、ＱＡＴＭからのスコア・マップであり、Ｙｘｙｔは、アルゴリズム２を用いて生成された「真」の確率である。α，βは、ハイパーパラメータである。実施形態によれば、これらはそれぞれ２および４に設定される。いくつかの画像がオブジェクトを含まないで作成されるため、オブジェクトにわたる平均を求める場合は、ゼロ除算エラーを避けるべく、通常のＮの代わりにＮ＋１が用いられる。

シンボリック・マッピングのすべてのトレーニングは、ＲＬエージェントによる使用の前に生じ、その結果、安全性は、ＲＬトレーニング全体を通して強制されるようになる。

制約の強制
本開示の実施形態によるシステムは、任意の既存の深層強化学習アルゴリズムを拡張することができ、唯一の修正は、任意のアクションが行われる前に、実施形態によるテンプレートベースの方法を用いて視覚入力からシンボリック特徴を抽出することである。実施形態によれば、安全制約が評価され、それらの各々は、シンボリック状態を、許可されたアクションのセットにマッピングする。安全でないアクションが実行されるのを防止するために、アクション空間にわたる全ての安全でないアクションの確率はゼロに設定され、ポリシーからアクションがサンプリングされる前に分布が再正規化される。例えば、アクション空間が｛ｌｅｆｔ，ｒｉｇｈｔ，ｕｐ，ｄｏｗｎ｝である場合、Ｐｒｏｂ（ｌｅｆｔ）＋Ｐｒｏｂ（ｒｉｇｈｔ）＋Ｐｒｏｂ（ｕｐ）＋Ｐｒｏｂ（ｄｏｗｎ）＝１である。しかしながら、ｌｅｆｔアクションが安全でない場合には、エージェントは、｛ｒｉｇｈｔ，ｕｐ，ｄｏｗｎ｝だけの中から選択され、Ｐｒｏｂ（ｌｅｆｔ）を０にセットする。その場合、Ｐｒｏｂ（ｌｅｆｔ）は、他の全てのオプションに均一に再分配されるので、Ｐｒｏｂ（ｒｉｇｈｔ）＋Ｐｒｏｂ（ｕｐ）＋Ｐｒｏｂ（ｄｏｗｎ）＝１となる。

視覚入力用の安全エンド・ツー・エンド強化学習アルゴリズムのための擬似コードは、以下の通りである。

実施形態によれば、Ｓが画像にわたって及び、シンボリック状態ではないので、各ステップにおいて、コントローラ・モニタが定義されるシンボリック状態が構築される。シンボリック状態ｓｙｍＳｔａｔｅは、ｓｙｍｍａｐから得られ、コントローラ・モニタ内のシンボリック変数をインスタンス化するために使用される。

安全仕様からのアクション制約の学習
実施形態によるフレームワークは、例えば車が直下にある場合には下に行かないといった、アクション空間上で状態依存制約を評価するによって、ＲＬエージェントが、衝突回避のような安全制約を尊重することを確実にすることができる。形式的安全ＲＬへ向けたアプローチでは、これらの状態依存制約は、ドメイン・エキスパートによって、環境の近似モデルおよび所望の安全仕様の両方を考慮することにより構築される。アクション空間上のこれらの状態依存の制約を構築することは、時間がかかり、かつ、エラーが発生しやすい。別の実施形態によるシステムは、安全関連オブジェクトのダイナミクスを学習し、高レベルの安全仕様を尊重するために要求されるアクション空間上の制約を自動的に構築することができる。これはシンボリック空間で行われるので、ダイナミクスは、視覚空間においてよりも学習が容易である。

別の実施形態によれば、各ステップにおいて、各オブジェクトの現在のシンボリック特徴と以前のシンボリック特徴との間の差分が、そのオブジェクトの潜在的なアクションを推定するために使用される。アクション｛ｌｅｆｔ，ｒｉｇｈｔ，ｕｐ，ｄｏｗｎ｝を有するエージェントに対して、これらの差分が、実行されたアクションにマッピングされる；各アクションは、エージェントのダイナミクスに関する初期知識を提供するためにＲＬアルゴリズムのトレーニングの開始時に一度行われる。ワン・ステップの先読みを使用することにより、エージェントは、これらのダイナミクスおよび安全仕様を使用して、アクションを行った後、以前に観察されたすべての状態遷移の最悪の潜在的な結果に続き、安全仕様が、ワン・ステップ将来でも依然として満足される場合にのみアクションを行うことを保証する制約を構築することができる。

ｌｅａｒｎＢｅｈａｖｉｏｒ関数は、各オブジェクトについて最悪の場合のワン・ステップ先読みを実行することによって、各アクションに対するガードを構築する。例えば、別の実施形態によれば、アクション「ｒｉｇｈｔ」をとることで、それ自身のｘ座標が１および５ピクセルの間の変化をもたらすことを観測するエージェントを考える。エージェントは、また、常に２ピクセル左に移動する障害物を観測する。この場合、障害物がエージェントの右側にある場合、エージェントは、エージェントが障害物から７ピクセル以上離れている場合にのみ右に移動することができるという安全制約を構築することができる。

別の実施形態によるシステムは、安全なポリシーを構築することを保証せず、目先のワン・ステップの安全性がグローバルな安全を確保するために不十分であるドメインにおいては、そうすることができないかもしれない。しかしながら、別の実施形態によるアプローチは、人的労力がはるかに少なく済み、ある種のドメインにおいては十分であり、複数ステップ先読みを計画する制約を構築することによって拡張することができる。

実験評価
本開示の実施形態によるシステムは、２つの環境、トイ「ＸｓおよびＯｓ」（ＸＯ）環境およびロードランナーのコンピュータ実装環境上で評価された。実施形態によれば、評価のために３つの基準、安全制約の保存；元の環境からわずかに逸脱した環境への汎化およびペナルティ付与を介した制御ポリシーへの安全制約の内面化；並びに安全を維持する以外の目的関数の最適化、この場合、環境報酬を最適化すること、が使用された。

評価環境の説明
ＸＯ環境は、シンボリック強化学習アルゴリズムを実証するために導入された簡素なセッティングである。ＸＯ環境は、図３Ｇにおいて可視化されており、３つのタイプのオブジェクト、収集するべきＸオブジェクト（＋１報酬）、回避するべきＯオブジェクト（－１報酬）およびエージェント（＋でマークされる）を包含する。また、すべてのＸの迅速な収集およびエピソードの完了を奨励するために各ステップで小さなペナルティ（－０．０１）が存在する。この環境は、本開示の実施形態による深層強化学習アルゴリズムを評価するための簡易なベースラインを提供する。また、実施形態によるシステムの安全ポリシーを、暗黙的なモデリング仮説からわずかに乖離した環境に汎化する能力を評価するために使用することができるように変更および拡張することも容易である。シンボリック状態空間は、＋およびＯｓを含むが、Ｘｓは、安全に関連しないのため含まない。効率のために、より単純なテンプレート・マッチャがこの環境のために使用された。

ＸＯ環境に加えて、ロードランナー・ゲームが、エンド・ツー・エンドの強化学習アルゴリズムが特に有効であることが証明されているアーケード形式のゲームのサンプルとして考慮した。このゲームにおいては、図１Ｂに可視化されているが、ロードランナー１１０は、地面からバードシードを収集しながら、コヨーテ１２０だけでなく車１３０を回避しなければならない。実施形態によるシンボリック状態空間は、コヨーテ、車およびロードランナーを含むが、バードシードは含まない。ここで、レベルは、ビデオ・ゲームのレベルを参照するが、この環境の第１レベルのみが考慮され、レベル２に到達したときにエピソードが終了する。グレイ・スケール画像がＲＬエージェントへの入力として使用されるが、一般的であるように、フルのＲＧＢ画像がシンボリック・マッピングのために使用される。

安全制約の保存
所望の安全仕様を保存することは、実施形態によるシステムの目標である。実施形態によるシステムは、視覚→シンボリック・マッピングにいくらかのノイズがある場合でさえも、安全仕様を保存することができる。安全仕様を保存することは、また、トレーニング・プロセスにおける早期でのポリシーのパフォーマンスを改善する。

実施形態によるシステムは、視覚→シンボリック・マッピングを完全に実行することができるので、ＸＯ環境におけるトレーニング全体を通して完全に安全を保存することができる。図３Ａは、別の実施形態３０３によるシステムが、トレーニング中の安全性を保存する一方で、ｖａｎｉｌｌａの近接ポリシー最適化（ＰＰＯ）３０１が、トレーニングの終了までに、安全でないオブジェクトを完全に回避するポリシーに収束さえしないことを示す。

ロードランナー環境における安全性の保存は、視覚→シンボリック・マッピングにいくらかのノイズが存在するので、より困難な挑戦である。ノイズの多いマッピングにもかかわらず、実施形態３０２によるシステムは、図３Ｄに示すように、大多数のトレーニング・エピソードにおいて、安全性をＰＰＯ３０１よりも有意に保存することができる。

汎化および内面化
制約付きＲＬについてしばしば表現される懸念は、トレーニング中の状態‐アクション空間の安全でない部分を刈り取ることが、不良な状態に関連する負の報酬を内面化しない脆弱なポリシーをもたらすことである。仮説においては、これは、結果として生じる制約されたポリシーが、モデリング仮定のわずかな逸脱を汎化することに失敗したことを意味する。この問題に対処する一つの方法は、ＲＬエージェントが実際に制限されたアクションを取ることなく、潜在的な負の報酬を内面化することである。

このペナルティ仮説は、実施形態によるシステムを以下のようなやり方で修正することによって検証される。制限されたアクション空間をエージェントに提供する代わりに、（１）エージェントが任意のアクションを選択することを可能にし、（２）安全でないアクションを選択したことに対してエージェントにペナルティを与えるが、（３）安全でないアクションを既知の安全なアクションで置換する。このようにして、トレーニング・プロセス中に実際に安全性を損なうことなく、エージェントは、安全でないアクションを選択することに対してペナルティが課される。作業仮説は、このペナルティを用いた実施形態が、エージェントのポリシーが、実際にこれらのアクションをとることなく、また、安全でない状態を直接観察することなく、安全制約によって提供される知識を内部化することを可能にするであろうというものである。しかしながら、ＸＯ環境における実験は、ペナルティがしばしば関連するすべてのメトリックで性能を劣化させることを明らかにする。

図３Ｃは、実施形態によるシステムの安全ガードありおよび安全ガードなしでの累積報酬を比較する。エージェントは、トレーニング中に、安全でないアクションを試みることに対する異なる量のペナルティ（「非安全報酬」）を用いてトレーニングされ、探索することが推奨される、（「エントロピー係数」）。最終的に訓練されたポリシーは、トレーニング中に安全でないアクションを選択することに対してエージェントがペナルティを受けた場合であっても、安全性モニタが除去された場合、安全性が有意に低下し、より多くのペナルティを与えても、安全制約のより大きな内部化を引き起こすことに失敗する。加えて、わずかなペナルティを超えると、報酬の最適化を劣化させる。

安全性の汎化をテストするためには、テスト時にＯｓを指定されるよりも大きく変更することによって、ＸＯ環境に仕様上のエラーが導入され、安全制約が、これらの周りに十分に大きな半径を配置しないようになる。実施形態による未変更のアルゴリズムが、誤って指定された（mis-specified）環境上でテストされ、リターンが測定された。図３Ｆは、安全ではないアクションの試みに全くペナルティを与えないと、誤って指定されたテスト環境への最良の安全の汎化に導かれることを示す。

これらの観測は、安全でないアクションの試みにペナルティを課さないことは、元のドメインを超えて安全に汎化するポリシーを構築するための有効な方法ではないことを示している。実際に、そうすることにより、元のタスク上と、同様であるが新規なタスク上の両方で性能を低下させる。したがって、安全モニタのリスクの考えを内面化することによって汎化することを試みる代わりに、環境の遷移を直接観測し、実際に観測されるダイナミクスに忠実な安全制約を誘導的に構築する別の実施形態が提案される。図３Ｂは、別の実施形態３０３によるアプローチがＸＯ環境で実際に良好に機能することを示す。

最適化
実施形態によるシステムは、安全でない状態のセットを精密に指定することが可能な環境において良好に実行される。図３Ｂは、ｖａｎｉｌｌａＰＰＯ、実施形態３０２によるシステムおよび他の実施形態３０３によるシステムについての累積報酬をプロットする。安全制約ポリシー３０３は、より良いポリシーにより早く収束する。

安全と同様に、ロードランナー環境においては、ストーリーがより複雑である。図３Ｅは、実施形態３０２によるシステムおよびｖａｎｉｌｌａＰＰＯ３０１についての累積報酬をプロットする。実施形態３０２によるシステムは、トレーニングの開始時においてＰＰＯ３０１よりもはるかに高速に改善するが、最終的には、ＰＰＯ３０１は、ゲームスコアにおいては、実施形態３０２に従ったシステムを追い越す。ＰＰＯが、実施形態によるシステムの性能を上回る２つの根本的な要因が存在する。

制約なしエージェントの余剰な報酬の一部が、ロードランナー・ゲームの報酬構造が安全性を優先しないという事実に寄与する。例えば、レベル１の終わり近くでは、より高い報酬は、レベルを終えるために生存するよりも、バードシードを収集するためにライフを失うことによって達成されるであろう。Ｋａｍｉｋａｚｅ戦略を最大化する報酬に対する実施形態によるシステムの保守性は、ゲームスコアのような、しばしば最適性のある定義と競合するスタンド・アローンの関心としての安全性の重要性を示す。

しかしながら、ＰＰＯの余剰な報酬の一部は、安全ガードに保存性に起因する。この保守性は、視覚からシンボリックへのマッピングにおけるノイズに対処するため、および、ロードランナーにおける障害物の動きを正確にモデリングすることが、マップの途中で座標が変換されるために一見困難であるための両方で使用される。制約の保守性は、ロードランナーを車から離れる方向に後押しし、コヨーテに当てさせる振る舞いを報酬化するために必要とされる、ロードランナーとコヨーテとの間に車を入れることをより困難にする。

要約すると、実施形態によるシステムは、安全性および報酬の最大化が整合するシンプルな環境において、報酬最大化において極めて良好に動作する。逆に、知覚のノイズが多く、報酬構造が、安全性から分離した環境では、実施形態によるシステムは、せっかくのいくらかの報酬を無駄にする。実施形態に係るシステムは、安全性が自滅的な報酬の最大化を除外するため、および、誤解による衝突を避けることがより危険な報酬最大化戦略を除外することからの両方の理由でこの追加の報酬を逃す。

システム実装
本開示の実施形態は、ハードウェア、ソフトウェア、ファームウェア、特定目的プロセスまたはその組み合わせの種々の形態で実装されてもよいことを理解すべきである。一実施形態においては、本開示の実施形態は、コンピュータ可読プログラム格納デバイス上で有形に具現化されたアプリケーション・プログラムとしてソフトウェアで実装されてもよい。アプリケーション・プログラムは、任意の適切なアーキテクチャを含むマシンに、アップロードされ、また、マシンによって実行されてもよい。さらに、本開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書で詳述される教示の実装は、クラウド・コンピューティング環境に限定されないことに理解されたい。むしろ、本発明の実施形態は、現時点で知られた、またはこれから開発される、他の任意のタイプのコンピューティング環境と併せて実装することが可能性である。本開示の実施形態による自動トラブル・シューティング・システムが、また、クラウド実装のために適している。

クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速にプロビジョニングおよびリリースされ得る、構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシンおよびサービス）の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能とする、サービス配信モデルである。このクラウド・モデルは、少なくとも５つの特性、少なくとも３つのサービス・モデルおよび少なくとも４つのデプロイメント・モデルを含み得る。

特性は、以下の通りである。
オンデマンド・セルフ・サービス：クラウド・コンシューマは、サービス・プロバイダとの人的な対話を必要とせずに自動的に必要なだけ、サーバ時間およびネットワーク・ストレージなどのコンピュータ能力を一方的にプロビジョニングすることができる。
広帯域ネットワーク・アクセス：能力は、ネットワーク越しに利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム（例えば、モバイルフォン、ラップトップ、ＰＤＡ）による使用を促進する標準的なメカニズムを介して、アクセスされる。
リソース・プーリング：プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを用いて複数のコンシューマに提供するためにプールされ、種々の物理的および仮想的リソースが需要に従って動的に割り当てられ、また、再割り当てられる。コンシューマは、一般的に、提供されるリソースの正確な場所を管理したり、知識を有したりせず、しかし、より高度な抽象レベル（例えば国、州、またはデータセンタ）にて場所を指定することが可能であるという意味で、場所の独立感がある。
迅速な弾力性：能力は、迅速かつ柔軟に、いくつかの場合では自動的に、プロビジョニングされて素早くスケール・アウトすることができ、また、迅速にリリースされて素早くスケール・インすることができる。コンシューマにとって、プロビジョニング利用可能な能力は、しばしば外面的には無制限のように見え、任意の時間に任意の量を購入することができる。
測量されたサービス：クラウドシステムは、サービスのタイプにとって適切なある抽象レベル（例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ数）での計量能力を利用することによって、自動的にリソース使用を制御し、また最適化する。リソース使用量は、監視され、制御されおよび報告されて、利用サービスのプロバイダおよびコンシューマの双方に対する透明性を提供する。

サービス・モデルは、以下の通りである。
ソフトウェア・アズ・ア・サービス（ＳａａＳ）：コンシューマに提供される能力は、クラウド・インフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ（例えばウェブベースの電子メール）などのシン・クライアント・インタフェースを介して種々のクライアント・デバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または、限定されたユーザ固有のアプリケーション構成設定の潜在的な例外を除いて個々のアプリケーション能力すらも含む下層のインフラストラクチャを管理または制御しない。
プラットフォーム・アズ・ア・サービス（ＰａａＳ）：コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、コンシューマ作成または獲得のアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システムまたはストレージを含む下層のクラウド・インフラストラクチャを管理または制御しないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境の構成への制御を有する。
インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：コンシューマに提供される能力は、処理、ストレージ、ネットワーク、および、コンシューマが、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをデプロイし、稼働させることができる他の基本的なコンピューティング・リソースを提供することである。コンシューマは、下層のクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対する制御、および、場合によっては、選択したネットワーキング・コンポーネント（例えば、ホストファイアウォール）の限定された制御を有する。

デプロイメント・モデルは、以下の通りである。
プライベート・クラウド：クラウド・インフラストラクチャは、１つの組織のためだけに使用される。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
コミュニティ・クラウド：クラウド・インフラストラクチャは、いくつかの組織により共有され、共通の懸念（例えば、ミッション、セキュリティ要件、ポリシーおよびコンプライアンスに関する考慮事項）を有する特定のコミュニティをサポートする。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
パブリック・クラウド：クラウド・インフラストラクチャは、一般公衆、または、大きな業界団体が利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド：クラウド・インフラストラクチャは、２以上のクラウド（プライベート、コミュニティまたはパブリック）の混成であり、これらのクラウドは、固有のエンティティのままであるが、しかし、データおよびアプリケーションのポータビリティを可能とする標準化されたまたは独自の技術（例えばクラウド間の負荷分散のためのクラウド・バースティング）によって結合される。

クラウド・コンピューティング環境は、ステートレス性、低結合、モジュール性および意味論的な相互運用性に重点を置いたサービス指向である。クラウド・コンピューティングの核心は、相互接続された複数のノードのネットワークを含むインフラストラクチャである。

ここで、図４を参照すると、クラウド・コンピューティング・ノードの一例のスキームが示される。クラウド・コンピューティング・ノード４１０は、適切なクラウド・コンピューティング・ノードの一例に過ぎず、本明細書に記載される本開示の実施形態の使用または機能性の範囲に関する制限を示唆するものではない。にもかかわらず、クラウド・コンピューティング・ノード４１０は、上述した機能のいずれかが、実装されること、もしくは実行すること、またはこれらの両方されることが可能である。

クラウド・コンピューティング・ノード４１０においては、コンピュータ・システム／サーバ４１２があり、このコンピュータ・システム／サーバ４１２は、多数の他の汎用または特定用途のコンピューティング・システム環境または構成で動作可能である。コンピュータ・システム／サーバ４１２と使用するのに適した周知のコンピューティング・システム、環境もしくは構成またはこれらの組み合わせの例は、これらに限定されないが、上述したシステムまたは装置などの任意のものを含む、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベース・システム、セットトップ・ボックス、プログラマブル・コンシューマ・エレクトロニクス、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、分散型クラウド・コンピューティング環境などを含む。

コンピュータ・システム／サーバ４１２は、コンピュータ・システムによって実行される、プログラム・モジュールのようなコンピュータ・システム実行可能命令の一般的な文脈で記述され得る。概して、プログラム・モジュールは、特定のタスクを実行するか、または特定の抽象的なデータタイプを実装するかする、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含む。コンピュータ・システム／サーバ４１２は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実行される分散型クラウド・コンピューティング環境で実装することができる。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルおよびリモートの両方のコンピュータ・システム・ストレージ媒体に配置されてもよい。

図４に示すように、クラウド・コンピューティング・ノード４１０内のコンピュータ・システム／サーバ４１２は、汎用コンピューティング・デバイスの形態で示されている。コンピュータ・システム／サーバ４１２のコンポーネントは、これらに限定されないが、１以上のプロセッサまたは処理ユニット４１６と、システム・メモリ４２８と、システム・メモリ４２８を含む種々のシステム・コンポーネントをプロセッサ４１６に結合するバス４１８とを含む。

バス４１８は、メモリバスまたはメモリコントローラ、周辺バスと、アクセレーテッド・グラフィックス・ポート、種々のバス・アーキテクチャの任意のものを使用するプロセッサまたはローカル・バスとを含む、いくつかのタイプのバス構造のうちの１以上を表す。一例として、また限定ではなく、このようなアーキテクチャには、インダストリ・スタンダード・アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ）ローカル・バスおよびペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）バスが含まれる。

コンピュータ・システム／サーバ４１２は、典型的には、様々なコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム／サーバ４１２によってアクセス可能な任意の利用可能な媒体であってもよく、これは、揮発性、不揮発性の両方の媒体、リムーバブルおよび非リムーバブル媒体を含む。

システム・メモリ４２８は、ランダム・アクセス・メモリ（ＲＡＭ）４３０またはキャッシュ・メモリ４３２など、揮発性メモリの形態でコンピュータ・システム可読な媒体を含んでもよい。コンピュータ・システム／サーバ４１２は、さらに、他のリムーバブル／非リムーバブルの揮発性／不揮発性コンピュータ・システム・ストレージ媒体を含んでもよい。一例として、ストレージ・システム４３４は、非ポータブルの不揮発性磁気媒体（図示しないが、典型的にはハード・ドライブと参照される）から読み出すおよび磁気媒体へ書き込むために提供される。図示しないが、リムーバブルの不揮発性磁気ディスク（例えば、フロッピーディスク（登録商標））から読み出し、および、磁気ディスクへ書き込むための磁気ディスク・ドライブ、または、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭまたは他の光学メディアなどのリムーバブルの不揮発性光学ディスクから読み出しおよび光学ディスクへ書き込むための光学ディスク・ドライブが提供されてもよい。このような実例において、各々は、１以上のデータ・メディア・インタフェースによってバス４１８に接続されてもよい。以下さらに説明するように、メモリ４２８は、本開示の実施形態の機能を実現するよう構成されたプログラム・モジュールのセット（少なくとも１つ）を有する少なくとも１つのプログラム製品を含んでいてもよい。

プログラム／ユーティリティ４４０は、それぞれ、プログラム・モジュール４４２のセット（少なくとも１つ）を有しており、一例であるが限定されないメモリ４２８に格納されてもよく、１以上のオペレーティング・システム、１以上のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データを含んでもよい。オペレーティング・システム、１以上のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データの各々またはこれらのいくつかの組み合わせは、ネットワーキング環境の実装を含んでもよい。プログラム・モジュール４４２は、概して、本明細書で説明されるように、本開示の実施形態の機能または方法論を実現する。

コンピュータ・システム／サーバ４１２は、また、キーボード、ポインティング・デバイス、ディスプレイ４２４などの１以上の外部装置４１４と、ユーザがコンピュータ・システム／サーバ４１２と対話することを可能にする１以上のデバイス、もしくはコンピュータ・システム／サーバ４１２が１以上の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えば、ネットワーク・カード、モデムなど）またはこれらの両方と通信してもよい。このような通信は、入力／出力（Ｉ／Ｏ）インタフェース４２２を介して行うことができる。さらに、コンピュータ・システム／サーバ４１２は、ネットワーク・アダプタ４２０を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、一般ワイド・エリア・ネットワーク（ＷＡＮ）、もしくは公衆ネットワーク（例えば、インターネット）またはこれらの組み合わせなどの１以上のネットワークと通信することができる。図示されるように、ネットワーク・アダプタ４２０は、バス４１８を介してコンピュータ・システム／サーバ４１２の他のコンポーネントと通信することができる。図示されていないが、他のハードウェアもしくはソフトウェア・コンポーネントまたはこれらの両方を、コンピュータ・システム／サーバ４１２と組み合わせて使用することができることを理解されたい。例としては、これらに限定されないが、マイクロコード、デバイス・ドライバ、冗長処理ユニットおよび外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージシステムなどを挙げることができる。

図５を参照すると、例示的なクラウド・コンピューティング環境５０が示される。図示のように、クラウド・コンピューティング環境５０は、例えば、パーソナル・デジタル・アシスタント（ＰＤＡ）またはセルラ電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、もしくは自動車コンピュータ・システム５４Ｎまたはその組み合わせのような、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信することができる１または複数のクラウド・コンピューティング・ノード４００を含む。ノード４００は、互いに通信することができる。これらは、プライベート、コミュニティ、パブリックもしくはハイブリッド・クラウドなど上述したような、またはこれらの組み合わせなどの１以上のネットワークにおいて、物理的にまたは仮想的にグループ化（図示しない）されてもよい。これは、クラウド・コンピューティング環境５０が、インフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせをサービスとして提供することを可能とし、これらについては、クラウド・コンシューマは、リソースをローカル・コンピューティング・デバイス上で維持する必要がない。図５に示されるコンピューティング・デバイス５４Ａ～５４Ｎのタイプは、説明する目的のみを意図しており、コンピューティング・ノード４００およびクラウド・コンピューティング環境５０は、任意のタイプのネットワークもしくはネットワークアドレス可能な接続（例えば、ウェブ・ブラウザを使用して）またはこれらの両方を介して、任意のタイプのコンピュータ化されたデバイスと通信することができることが理解される。

本開示の実施形態が例示の実施形態を参照しながら、詳細に説明されたが、当業者であれば、種々の変形および置換が、添付の請求項で明らかにされるように、本開示の精神および範囲を逸脱することなく、これらに為し得ることを理解するであろう。

Claims

視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法であって、
強化学習（ＲＬ）エージェントのアクション空間の画像中の各オブジェクトについて、前記ＲＬエージェントの前記画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトが検出される、ステップと、
検出された各オブジェクトを、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、
前記ＲＬエージェントのアクション空間の前記画像中の各オブジェクトについての座標に関する変数のセットに対し、前記ＲＬエージェントのアクション空間に対する安全仕様を適用することによって、前記ＲＬエージェントに対する安全アクションのセットを決定するステップと、
ＲＬ手順の現在の状態について、前記ＲＬエージェントに前記安全アクションのセットを出力するステップと、
前記ＲＬエージェントがアクションを行う前に、前記ＲＬエージェントが安全でないアクションを実行することを防止するステップと
を含む、方法。
前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトについてテンプレートマッチングを実行するステップは、
各オブジェクトの前記視覚テンプレートを用いて、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトあたりに境界ボックスを配置するステップ
を含む、請求項１に記載の方法。
検出された各オブジェクトを、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトについて前記平面座標のセットにマッピングするステップは、
各境界ボックスの重心を、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトについての前記平面座標のセットにマッピングするステップ
を含む、請求項２に記載の方法。
前記ＲＬエージェントの前記アクション空間の単一のラベル付き画像におけるデータを拡張し、前記画像からすべてのテンプレートを除去し、複数のテンプレートをランダムにサンプリングし、前記複数のテンプレートの各々を拡張し、テンプレート・マスクを用いて前記複数のテンプレートの各々をランダムに前記画像中に配置し、複数の画像が生成され、前記複数の画像を用いてテンプレートマッチングをトレーニングすることによって、各オブジェクトについてのテンプレートマッチングをトレーニングするステップ
をさらに含む、請求項１に記載の方法。
前記単一のラベル付き画像におけるデータを拡張することは、前記画像の輝度をランダムに調整すること、前記画像をクロッピングすることまたは前記画像を左右反転することの１または複数を含み、前記複数のテンプレートの各々を拡張することは、前記テンプレートを左右反転すること、前記テンプレートを回転することまたは前記テンプレートからピクセルを落とすことの１または複数を含む、請求項４に記載の方法。
前記ＲＬエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの１つである、請求項１に記載の方法。
現在のＲＬステップでの前記画像中の各オブジェクトについての平面座標のセットと、以前のＲＬステップでの前記画像中の各オブジェクトについての平面座標のセットとの間の差分を用いて各オブジェクトについて潜在的なアクションを推定するステップを含み、
前記ＲＬエージェントは、そのダイナミクスの知識および前記安全仕様を用いて、前記ＲＬエージェントが、アクションを取った後、次いで以前に観測された状態遷移すべての最悪な潜在的な結果が続き、前記安全仕様が、ワン・ステップ将来でも依然として満足される場合にのみ、アクションをとることを確実にする制約を構築する、請求項１に記載の方法。
前記安全仕様は、前記画像中の各オブジェクトについて形式論理学で特定される複数の安全制約を含む、請求項１に記載の方法。
入力画像中の１または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成するステップと、
前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップと、
各安全性関連オブジェクトについての前記座標を用いることによって、ＲＬアルゴリズムにおける前記ＲＬエージェントに対し安全制約を強制するステップと
を含む、請求項１に記載の方法。
前記入力画像中の各安全性関連オブジェクトの前記視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップは、
各オブジェクトについての前記視覚テンプレートを用いて、各安全性関連オブジェクトあたりに境界ボックスを配置するステップと、
各境界ボックスの重心を、前記入力画像中の各安全性関連オブジェクトについての前記座標にマッピングするステップと
を含む、請求項９に記載の方法。
前記ＲＬアルゴリズムにおける前記ＲＬエージェントに対し安全制約を強制するステップは、
前記ＲＬエージェントに対する安全仕様を受信するステップと、
前記安全仕様および各安全性関連オブジェクトについての前記座標から安全制約を決定するステップであって、前記ＲＬエージェントの各アクションが、安全または安全ではないとラベル付けされる、ステップと
前記ＲＬエージェントが安全ではないアクションを実行するのを防止するステップと
を含む、請求項９に記載の方法。
前記ＲＬエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの１つである、請求項９に記載の方法。
制御ソフトウェアを実行する強化学習（ＲＬ）アルゴリズムにおいて安全制約を強化するために前記制御ソフトウェアをトレーニングするための方法であって、
入力画像中の１または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成するステップと、
前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップと、
各安全性関連オブジェクトについての前記座標を用いることによって、前記ＲＬアルゴリズムにおけるＲＬエージェントに対し安全制約を強制するステップと、
前記ＲＬエージェントがアクションを行う前に、前記ＲＬエージェントが安全でないアクションを実行することを防止するステップと
を含む、方法。
前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップは、
各オブジェクトについての前記視覚テンプレートを用いて、各安全性関連オブジェクトあたりに境界ボックスを配置するステップと、
各境界ボックスの重心を、前記入力画像中の各安全性関連オブジェクトについての前記座標にマッピングするステップと
を含む、請求項１３に記載の方法。
前記ＲＬアルゴリズムにおける前記ＲＬエージェントに対し安全制約を強制するステップは、
前記ＲＬエージェントに対する安全仕様を受信するステップと、
前記安全仕様および各安全性関連オブジェクトについての前記座標から安全制約を決定するステップであって、前記ＲＬエージェントの各アクションが、安全または安全ではないとラベル付けされる、ステップと
前記ＲＬエージェントが安全ではないアクションを実行するのを防止するステップと
を含む、請求項１３に記載の方法。
前記ＲＬエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの１つである、請求項１３に記載の方法。
コンピュータにより可読な非一時的プログラム格納デバイスであって、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法のステップを行うためにコンピュータによって実行される命令のプログラムを有形に具現化するものであり、前記方法は、
強化学習（ＲＬ）エージェントのアクション空間の画像中の各オブジェクトについて、前記ＲＬエージェントの前記画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトが検出される、ステップと、
検出された各オブジェクトを、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、
前記ＲＬエージェントのアクション空間の前記画像中の各オブジェクトについての座標に関する変数のセットに対し、前記ＲＬエージェントのアクション空間に対する安全仕様を適用することによって、前記ＲＬエージェントに対する安全アクションのセットを決定するステップと、
ＲＬ手順の現在の状態について、前記ＲＬエージェントに前記安全アクションのセットを出力するステップと、
前記ＲＬエージェントがアクションを行う前に、前記ＲＬエージェントが安全でないアクションを実行することを防止するステップと
を含む、コンピュータ可読プログラム格納デバイス。
前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトについてテンプレートマッチングを実行するステップは、
各オブジェクトの前記視覚テンプレートを用いて、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトあたりに境界ボックスを配置するステップ
を含む、請求項１７に記載のコンピュータ可読プログラム格納デバイス。
検出された各オブジェクトを、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトについて前記平面座標のセットにマッピングするステップは、
各境界ボックスの重心を、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトについての前記平面座標のセットにマッピングするステップ
を含む、請求項１８に記載のコンピュータ可読プログラム格納デバイス。
前記ＲＬエージェントの前記アクション空間の単一のラベル付き画像におけるデータを拡張し、前記画像からすべてのテンプレートを除去し、複数のテンプレートをランダムにサンプリングし、前記複数のテンプレートの各々を拡張し、テンプレート・マスクを用いて前記複数のテンプレートの各々をランダムに前記画像中に配置し、複数の画像が生成され、前記複数の画像を用いてテンプレートマッチングをトレーニングすることによって、各オブジェクトについてのテンプレートマッチングをトレーニングするステップ
をさらに含む、請求項１７に記載のコンピュータ可読プログラム格納デバイス。
前記単一のラベル付き画像におけるデータを拡張することは、前記画像の輝度をランダムに調整すること、前記画像をクロッピングすることまたは前記画像を左右反転することの１または複数を含み、前記複数のテンプレートの各々を拡張することは、前記テンプレートを左右反転すること、前記テンプレートを回転することまたは前記テンプレートからピクセルを落とすことの１または複数を含む、請求項２０に記載のコンピュータ可読プログラム格納デバイス。
前記ＲＬエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの１つである、請求項１７に記載のコンピュータ可読プログラム格納デバイス。
現在のＲＬステップでの前記画像中の各オブジェクトについての平面座標のセットと、以前のＲＬステップでの前記画像中の各オブジェクトについての平面座標のセットとの間の差分を用いて各オブジェクトについての潜在的なアクションを推定するステップを含み、
前記ＲＬエージェントは、そのダイナミクスの知識および前記安全仕様を用いて、前記ＲＬエージェントが、アクションを取った後、次いで以前に観測された状態遷移すべての最悪な潜在的な結果が続き、前記安全仕様が、ワン・ステップ将来でも依然として満足される場合にのみ、アクションをとることを確実にする制約を構築する、請求項１７に記載のコンピュータ可読プログラム格納デバイス。
前記安全仕様は、前記画像中の各オブジェクトについて形式論理学で特定される複数の安全制約を含む、請求項１７に記載のコンピュータ可読プログラム格納デバイス。
コンピュータ・プログラムであって、コンピュータ上でプログラムが実行された場合に、請求項１～１６のいずれか１項に記載の方法を実行するように適合されたプログラム・コード手段を含む、コンピュータ・プログラム。
視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするためのシステムあって、前記システムは、
強化学習（ＲＬ）エージェントのアクション空間の画像中の各オブジェクトについて、前記ＲＬエージェントの前記画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行することであって、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトが検出される、実行することと、
検出された各オブジェクトを、前記ＲＬエージェントの前記アクション空間の前記画像中の各オブジェクトについて平面座標のセットにマッピングすることと、
前記ＲＬエージェントのアクション空間の前記画像中の各オブジェクトについての座標に関する変数のセットに対し、前記ＲＬエージェントのアクション空間についての安全仕様を適用することによって、前記ＲＬエージェントに対する安全アクションのセットを決定することと、
ＲＬ手順の現在の状態について、前記ＲＬエージェントに前記安全アクションのセットを出力することと、
前記ＲＬエージェントがアクションを行う前に、前記ＲＬエージェントが安全でないアクションを実行することを防止することと
を実行するように動作可能である、システム。
制御ソフトウェアを実行する強化学習（ＲＬ）アルゴリズムにおいて安全制約を強化するために前記制御ソフトウェアをトレーニングするためのシステムあって、前記システムは、
入力画像中の１または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成することと、
前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定することと、
各安全性関連オブジェクトについての前記座標を用いることによって、前記ＲＬアルゴリズムにおけるＲＬエージェントに対し安全制約を強制することと、
前記ＲＬエージェントがアクションを行う前に、前記ＲＬエージェントが安全でないアクションを実行することを防止することと
を実行するように動作可能である、システム。