JP7465048B2 - 視覚入力に対する形式的安全シンボリック強化学習 - Google Patents
視覚入力に対する形式的安全シンボリック強化学習 Download PDFInfo
- Publication number
- JP7465048B2 JP7465048B2 JP2022535465A JP2022535465A JP7465048B2 JP 7465048 B2 JP7465048 B2 JP 7465048B2 JP 2022535465 A JP2022535465 A JP 2022535465A JP 2022535465 A JP2022535465 A JP 2022535465A JP 7465048 B2 JP7465048 B2 JP 7465048B2
- Authority
- JP
- Japan
- Prior art keywords
- agent
- safety
- image
- action
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims description 82
- 230000002787 reinforcement Effects 0.000 title claims description 51
- 230000009471 action Effects 0.000 claims description 172
- 238000000034 method Methods 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 51
- 238000013507 mapping Methods 0.000 claims description 44
- 238000004422 calculation algorithm Methods 0.000 claims description 43
- 230000003190 augmentative effect Effects 0.000 claims description 14
- 238000007667 floating Methods 0.000 claims description 6
- 230000003334 potential effect Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 1
- 241000272183 Geococcyx californianus Species 0.000 description 31
- 238000013459 approach Methods 0.000 description 16
- 241000282470 Canis latrans Species 0.000 description 14
- 238000003860 storage Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 240000003705 Senecio vulgaris Species 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 235000009499 Vanilla fragrans Nutrition 0.000 description 3
- 244000263375 Vanilla tahitensis Species 0.000 description 3
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000282421 Canidae Species 0.000 description 2
- 241001274613 Corvus frugilegus Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005183 dynamical system Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013383 initial experiment Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0055—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots with safety arrangements
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Description
実施形態によれば、差動動的ロジック(dL)が、エージェントのアクション空間上の安全制約を指定するために使用される。dLは、離散的および連続的な時間的動力学ステムの両方の到達性特性を指定しかつ証明するためのロジックである。動力学システムは、ハイブリッド・プログラム(HP)、つまり、命令型プログラムを微分方程式の系と組み合わせる簡素なプログラミング言語によって指定される。HPの構文および情報セマンティクスは、以下の通りである:
実施形態による、安全制約を指定し、強制するためのシステムおよび方法は、環境のモデルを必要とせず、複雑な(視覚の)状態空間に適用可能である。実施形態によるシステムは、ドメイン・エキスパートが高レベルの安全制約を指定することを可能にし、視覚入力を高レベルの特徴にマッピングして制約を検証し、解釈可能な安全ルールを使用する。これにより、ドメイン・エキスパートが安全制約を指定するのに要した時間が短縮される。実施形態によるシステムは、エージェントが、安全でないアクションをとることを防止することができる。物理システム用の制御ソフトウェアの文脈においては、エージェントは、例えば、自動運転またはロボットモータ車両、ロボット水上船舶または潜水艦、または自己制御された無人航空機などの自動化された自己制御車両(vehicle、乗り物)である。
本開示の実施形態は、視覚テンプレートを使用して視覚入力を、エージェントのアクション空間上で安全制約を強制するために使用し得る、シンボリック状態空間にマッピングするエンド・ツー・エンドの深層強化学習アルゴリズムを提供することができる。基本的なフレームワークは、上述した図1に示されている。学習の前に、ドメイン・エキスパートは、dLまたは別のプログラミング言語/ロジックで書かれた安全仕様を提供する。実施形態による安全仕様は、安全制約のセットである。ドメイン・エキスパートは、これらのシンボリック制約に加えて、シンボリック安全制約において記載されている各オブジェクトについての視覚テンプレートも提供する。これらのカノニカル・オブジェクト表現は、学習中に、視覚入力からシンボリック状態を抽出するために使用される。標準的なエンド・ツー・エンドの深層強化学習アルゴリズムが、次いで、各視覚入力をシンボリック特徴空間にマッピングし、シンボリック安全制約を適用し、現在の状態に対する安全なアクションのセットを出力する、安全モニタリング・システムによって拡張される。
実施形態によれば、シンボリック安全制約は、安全性に関連するオブジェクト(safety-relevant object)の平面座標に関連して記述され、これは、速度に関して記述された制約ではなく、位置的な安全制約がサポートされることを意味する。形式的安全RLを対象とした大部分の既存のアプローチは、位置に関して安全制約を記述する。入力画像中の各安全関連オブジェクトの平面座標を検出するには、全ての安全関連オブジェクトのサンプル観測が必要である。全ての安全関連オブジェクトのこれらのサンプル観測は、各オブジェクトについての視覚テンプレートの一部を形成する。これらのサンプル観測は、境界ボックスおよびセグメンテーション・マスクで全ての安全関連オブジェクトがラベル付けされた状態で、環境から少なくとも1つのサンプル観察をラベル付けする人間によって、提供される。この人間は、上述したドメイン・エキスパートである。人間は、安全関連オブジェクトのあらゆるクラスの少なくとも1つの実例をラベル付けするが、そのオブジェクトの各インスタンスをラベル付けする必要はない。例えば、シーンに出入りする複数の車が存在する場合がある。人間は、車をラベル付けする必要があるが、シーンに入る一つ一つの車をラベル付けする必要はない。マスクは、任意であるが、マッピングの精度を向上させる可能性がある。制約で述べられた各シンボリック・オブジェクトについて、そのカノニカル視覚表現が、視覚入力を安全関連オブジェクトの平面座標のセットへマッピングするために使用される。オブジェクトのカノニカル視覚表現は、オブジェクトの視覚テンプレートから取得され、視覚テンプレートと同一であってもよいことに留意されたい。カノニカル視覚表現が視覚テンプレートの摂動されたバージョン(perturbed version)であってもよい。加えて、ラベル付き画像は、安全関連オブジェクト自体のクロッピングされた画像ではなく、サンプル観測であるべきであり、これにより、以下に説明するように、ラベル付き画像の背景がデータ拡張に使用されるようにしてもよい。
・F:入力として画像を用いて任意のタスクでプレトレーニングされたCNN。これは、一般的な画像に関する関連の特徴を包含する学習済み表現を有することを意味する。テンプレートマッチングは、このCNNの表現空間において実行される。
・I:テンプレートによって指定される全てのオブジェクトの位置を照会される画像。
・T:検出されるべき各オブジェクトについて1つのテンプレート画像のセット。
・αT:各テンプレートについてのソフトマックス温度パラメータ。
・TT、各テンプレートについての閾値:テンプレートマッチングのスコアは、検出が行われるためにはこれを超える必要がある(後述する他の条件も同様にある)。
・convT:各テンプレートに対する別個の畳み込み層。各層において使用されるカーネルのサイズは、対応するテンプレート画像のサイズと一致する。これらがトレーニングされると、各テンプレートについてのテンプレートマッチング・スコアが、そのテンプレートに対して最も識別力のあるピクセル位置に焦点を当てるようになる。テンプレート固有のゼロ・パディングされた層もまた追加されて、異なるカーネルサイズでの畳み込みの後でも全てのテンプレートについてのスコア・マップが同一となるようになされるが、わかりやすくするために省略される。
・sys_state:キーがテンプレートであり、値が画像中のテンプレート・オブジェクトの全ての検出された実例の(x,y)位置のリストである辞書。
特徴抽出器Fは、任意のプレトレーニング済みのCNNであってもよい。テンプレートマッチングは、生のピクセル空間の代わりにCNNの学習済み表現を使用して行われるであろう。テンプレートマッチングのタスクが、特徴抽出器がトレーニングされた元のタスクとは異なってもよいので、抽出される特徴は、ネットワークの出力層の近くではない層から取得される。実施形態によれば、オリジナルのQATMの論文と同じセットアップが使用される:特徴抽出器は、画像データベース上でプレトレーニングされた深層畳み込みニューラルネットワークであり、第2層および第16層からの特徴が使用される。バイリニア補間が使用されて、より多くのプーリングが生じた後の第16層からの特徴が、第2層からのものと同一サイズにリサイズされる。これらの両方の層からの特徴マップが、次いで連結されて、最終的な特徴テンソルが生成される。シンボリック・マッピングに渡される画像Iは、環境からの完全な解像度のRGB観測である。PPOへの入力として、効率のために低解像度のグレイ・スケール画像が使用されるが、実施形態によるシンボリック・マッピングは、生の観測を用いた方がより正確である。安全性を保存することが非常に重要であるので、主にトレーニングについての問題である効率を低下させる価値がある。実施形態によるアルゴリズムは、毎秒100を超えるフレームを処理することができ、これは、リアルタイム推論のために十分である。シンボリック・マッピングによって使用されるテンプレートTは、所与の境界ボックスを使用してエキスパートによりアノテーションされた画像からクロップされる。セグメンテーション・マスクが提供される場合、オブジェクトに属さないこれらの画素が背景値に設定されてもよい。ロードランナー環境に対してはゼロが使用されるが、オブジェクト自体が0のピクセル値を有するので、XO環境においてテンプレートに変更がなされない。テンプレート固有の温度αT、閾値TTおよび畳み込み層convTは、以下に説明される。
実施形態によれば、スコア・マップから検出を得るため、それらの近傍よりも高いスコアを有し、かつテンプレート固有の閾値に達する全ての位置が選択される。局所最大スコアを有する位置を検出することは、その位置におけるスコアが、その位置を中心とするmaxpool操作の結果と等しいか否かを検査することによって行うことができる。これは、maxpool操作のために利用可能な最適化されたGPU実装の結果、効率的な方法である。スコアがその位置で適用される3×3のカーネルを用いたmaxpoolの結果に等しく、スコアがそのタイプのオブジェクトについての閾値を超える任意の位置が検出として返される。この計算は、アルゴリズム1の第2行~第11行において、わかりやすくするために、forループを用いて明示的に行われる。
実施形態によれば、大量のアノテーションへの依存性が導入されるのを回避するために、図2Cに示すように、単一のラベル付きテンプレート画像が、QATMをトレーニングするために使用され、シンボリック・マッピングのパラメータをトレーニングするために積極的なデータ拡張が使用された。例示的な拡張には、画像の輝度に対するランダムな調整、クロッピングおよび左右反転が含まれる。加えて、テンプレート・マスクが用いられてテンプレートを背景画像中の様々な位置に移動させた。最初にすべてのテンプレートが修復アルゴリズムを用いて画像から除去されて、それらのピクセルを置換した。次いで、トレーニングで使用される各画像を作成するために、テンプレートのセットが、画像中に含ませるためにランダムにサンプリングされた。各テンプレートについて、左右反転、小回転およびテンプレートのピクセルの一部を落とすことがランダムに適用された。テンプレートは、次いで、背景画像中のランダムな位置に貼り付けられ、多数のトレーニング画像のセットを作成した。図2Dは、本発明の実施の形態によるトレーニング画像の例示的なセットを示す。これらの環境の図形的な単純さから、テンプレートの平均色は、貼付する領域の平均色とは十分に異なる。これは、テンプレートが識別可能となることを確実にする。
本開示の実施形態によるシステムは、任意の既存の深層強化学習アルゴリズムを拡張することができ、唯一の修正は、任意のアクションが行われる前に、実施形態によるテンプレートベースの方法を用いて視覚入力からシンボリック特徴を抽出することである。実施形態によれば、安全制約が評価され、それらの各々は、シンボリック状態を、許可されたアクションのセットにマッピングする。安全でないアクションが実行されるのを防止するために、アクション空間にわたる全ての安全でないアクションの確率はゼロに設定され、ポリシーからアクションがサンプリングされる前に分布が再正規化される。例えば、アクション空間が{left,right,up,down}である場合、Prob(left)+Prob(right)+Prob(up)+Prob(down)=1である。しかしながら、leftアクションが安全でない場合には、エージェントは、{right,up,down}だけの中から選択され、Prob(left)を0にセットする。その場合、Prob(left)は、他の全てのオプションに均一に再分配されるので、Prob(right)+Prob(up)+Prob(down)=1となる。
実施形態によるフレームワークは、例えば車が直下にある場合には下に行かないといった、アクション空間上で状態依存制約を評価するによって、RLエージェントが、衝突回避のような安全制約を尊重することを確実にすることができる。形式的安全RLへ向けたアプローチでは、これらの状態依存制約は、ドメイン・エキスパートによって、環境の近似モデルおよび所望の安全仕様の両方を考慮することにより構築される。アクション空間上のこれらの状態依存の制約を構築することは、時間がかかり、かつ、エラーが発生しやすい。別の実施形態によるシステムは、安全関連オブジェクトのダイナミクスを学習し、高レベルの安全仕様を尊重するために要求されるアクション空間上の制約を自動的に構築することができる。これはシンボリック空間で行われるので、ダイナミクスは、視覚空間においてよりも学習が容易である。
本開示の実施形態によるシステムは、2つの環境、トイ「XsおよびOs」(XO)環境およびロードランナーのコンピュータ実装環境上で評価された。実施形態によれば、評価のために3つの基準、安全制約の保存;元の環境からわずかに逸脱した環境への汎化およびペナルティ付与を介した制御ポリシーへの安全制約の内面化;並びに安全を維持する以外の目的関数の最適化、この場合、環境報酬を最適化すること、が使用された。
XO環境は、シンボリック強化学習アルゴリズムを実証するために導入された簡素なセッティングである。XO環境は、図3Gにおいて可視化されており、3つのタイプのオブジェクト、収集するべきXオブジェクト(+1報酬)、回避するべきOオブジェクト(-1報酬)およびエージェント(+でマークされる)を包含する。また、すべてのXの迅速な収集およびエピソードの完了を奨励するために各ステップで小さなペナルティ(-0.01)が存在する。この環境は、本開示の実施形態による深層強化学習アルゴリズムを評価するための簡易なベースラインを提供する。また、実施形態によるシステムの安全ポリシーを、暗黙的なモデリング仮説からわずかに乖離した環境に汎化する能力を評価するために使用することができるように変更および拡張することも容易である。シンボリック状態空間は、+およびOsを含むが、Xsは、安全に関連しないのため含まない。効率のために、より単純なテンプレート・マッチャがこの環境のために使用された。
所望の安全仕様を保存することは、実施形態によるシステムの目標である。実施形態によるシステムは、視覚→シンボリック・マッピングにいくらかのノイズがある場合でさえも、安全仕様を保存することができる。安全仕様を保存することは、また、トレーニング・プロセスにおける早期でのポリシーのパフォーマンスを改善する。
制約付きRLについてしばしば表現される懸念は、トレーニング中の状態‐アクション空間の安全でない部分を刈り取ることが、不良な状態に関連する負の報酬を内面化しない脆弱なポリシーをもたらすことである。仮説においては、これは、結果として生じる制約されたポリシーが、モデリング仮定のわずかな逸脱を汎化することに失敗したことを意味する。この問題に対処する一つの方法は、RLエージェントが実際に制限されたアクションを取ることなく、潜在的な負の報酬を内面化することである。
実施形態によるシステムは、安全でない状態のセットを精密に指定することが可能な環境において良好に実行される。図3Bは、vanillaPPO、実施形態302によるシステムおよび他の実施形態303によるシステムについての累積報酬をプロットする。安全制約ポリシー303は、より良いポリシーにより早く収束する。
本開示の実施形態は、ハードウェア、ソフトウェア、ファームウェア、特定目的プロセスまたはその組み合わせの種々の形態で実装されてもよいことを理解すべきである。一実施形態においては、本開示の実施形態は、コンピュータ可読プログラム格納デバイス上で有形に具現化されたアプリケーション・プログラムとしてソフトウェアで実装されてもよい。アプリケーション・プログラムは、任意の適切なアーキテクチャを含むマシンに、アップロードされ、また、マシンによって実行されてもよい。さらに、本開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書で詳述される教示の実装は、クラウド・コンピューティング環境に限定されないことに理解されたい。むしろ、本発明の実施形態は、現時点で知られた、またはこれから開発される、他の任意のタイプのコンピューティング環境と併せて実装することが可能性である。本開示の実施形態による自動トラブル・シューティング・システムが、また、クラウド実装のために適している。
オンデマンド・セルフ・サービス:クラウド・コンシューマは、サービス・プロバイダとの人的な対話を必要とせずに自動的に必要なだけ、サーバ時間およびネットワーク・ストレージなどのコンピュータ能力を一方的にプロビジョニングすることができる。
広帯域ネットワーク・アクセス:能力は、ネットワーク越しに利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム(例えば、モバイルフォン、ラップトップ、PDA)による使用を促進する標準的なメカニズムを介して、アクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを用いて複数のコンシューマに提供するためにプールされ、種々の物理的および仮想的リソースが需要に従って動的に割り当てられ、また、再割り当てられる。コンシューマは、一般的に、提供されるリソースの正確な場所を管理したり、知識を有したりせず、しかし、より高度な抽象レベル(例えば国、州、またはデータセンタ)にて場所を指定することが可能であるという意味で、場所の独立感がある。
迅速な弾力性:能力は、迅速かつ柔軟に、いくつかの場合では自動的に、プロビジョニングされて素早くスケール・アウトすることができ、また、迅速にリリースされて素早くスケール・インすることができる。コンシューマにとって、プロビジョニング利用可能な能力は、しばしば外面的には無制限のように見え、任意の時間に任意の量を購入することができる。
測量されたサービス:クラウドシステムは、サービスのタイプにとって適切なある抽象レベル(例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ数)での計量能力を利用することによって、自動的にリソース使用を制御し、また最適化する。リソース使用量は、監視され、制御されおよび報告されて、利用サービスのプロバイダおよびコンシューマの双方に対する透明性を提供する。
ソフトウェア・アズ・ア・サービス(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ(例えばウェブベースの電子メール)などのシン・クライアント・インタフェースを介して種々のクライアント・デバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または、限定されたユーザ固有のアプリケーション構成設定の潜在的な例外を除いて個々のアプリケーション能力すらも含む下層のインフラストラクチャを管理または制御しない。
プラットフォーム・アズ・ア・サービス(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、コンシューマ作成または獲得のアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システムまたはストレージを含む下層のクラウド・インフラストラクチャを管理または制御しないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境の構成への制御を有する。
インフラストラクチャ・アズ・ア・サービス(IaaS):コンシューマに提供される能力は、処理、ストレージ、ネットワーク、および、コンシューマが、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをデプロイし、稼働させることができる他の基本的なコンピューティング・リソースを提供することである。コンシューマは、下層のクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対する制御、および、場合によっては、選択したネットワーキング・コンポーネント(例えば、ホストファイアウォール)の限定された制御を有する。
プライベート・クラウド:クラウド・インフラストラクチャは、1つの組織のためだけに使用される。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織により共有され、共通の懸念(例えば、ミッション、セキュリティ要件、ポリシーおよびコンプライアンスに関する考慮事項)を有する特定のコミュニティをサポートする。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆、または、大きな業界団体が利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、2以上のクラウド(プライベート、コミュニティまたはパブリック)の混成であり、これらのクラウドは、固有のエンティティのままであるが、しかし、データおよびアプリケーションのポータビリティを可能とする標準化されたまたは独自の技術(例えばクラウド間の負荷分散のためのクラウド・バースティング)によって結合される。
Claims (27)
- 視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法であって、
強化学習(RL)エージェントのアクション空間の画像中の各オブジェクトについて、前記RLエージェントの前記画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトが検出される、ステップと、
検出された各オブジェクトを、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、
前記RLエージェントのアクション空間の前記画像中の各オブジェクトについての座標に関する変数のセットに対し、前記RLエージェントのアクション空間に対する安全仕様を適用することによって、前記RLエージェントに対する安全アクションのセットを決定するステップと、
RL手順の現在の状態について、前記RLエージェントに前記安全アクションのセットを出力するステップと、
前記RLエージェントがアクションを行う前に、前記RLエージェントが安全でないアクションを実行することを防止するステップと
を含む、方法。 - 前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについてテンプレートマッチングを実行するステップは、
各オブジェクトの前記視覚テンプレートを用いて、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトあたりに境界ボックスを配置するステップ
を含む、請求項1に記載の方法。 - 検出された各オブジェクトを、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについて前記平面座標のセットにマッピングするステップは、
各境界ボックスの重心を、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについての前記平面座標のセットにマッピングするステップ
を含む、請求項2に記載の方法。 - 前記RLエージェントの前記アクション空間の単一のラベル付き画像におけるデータを拡張し、前記画像からすべてのテンプレートを除去し、複数のテンプレートをランダムにサンプリングし、前記複数のテンプレートの各々を拡張し、テンプレート・マスクを用いて前記複数のテンプレートの各々をランダムに前記画像中に配置し、複数の画像が生成され、前記複数の画像を用いてテンプレートマッチングをトレーニングすることによって、各オブジェクトについてのテンプレートマッチングをトレーニングするステップ
をさらに含む、請求項1に記載の方法。 - 前記単一のラベル付き画像におけるデータを拡張することは、前記画像の輝度をランダムに調整すること、前記画像をクロッピングすることまたは前記画像を左右反転することの1または複数を含み、前記複数のテンプレートの各々を拡張することは、前記テンプレートを左右反転すること、前記テンプレートを回転することまたは前記テンプレートからピクセルを落とすことの1または複数を含む、請求項4に記載の方法。
- 前記RLエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの1つである、請求項1に記載の方法。
- 現在のRLステップでの前記画像中の各オブジェクトについての平面座標のセットと、以前のRLステップでの前記画像中の各オブジェクトについての平面座標のセットとの間の差分を用いて各オブジェクトについて潜在的なアクションを推定するステップを含み、
前記RLエージェントは、そのダイナミクスの知識および前記安全仕様を用いて、前記RLエージェントが、アクションを取った後、次いで以前に観測された状態遷移すべての最悪な潜在的な結果が続き、前記安全仕様が、ワン・ステップ将来でも依然として満足される場合にのみ、アクションをとることを確実にする制約を構築する、請求項1に記載の方法。 - 前記安全仕様は、前記画像中の各オブジェクトについて形式論理学で特定される複数の安全制約を含む、請求項1に記載の方法。
- 入力画像中の1または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成するステップと、
前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップと、
各安全性関連オブジェクトについての前記座標を用いることによって、RLアルゴリズムにおける前記RLエージェントに対し安全制約を強制するステップと
を含む、請求項1に記載の方法。 - 前記入力画像中の各安全性関連オブジェクトの前記視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップは、
各オブジェクトについての前記視覚テンプレートを用いて、各安全性関連オブジェクトあたりに境界ボックスを配置するステップと、
各境界ボックスの重心を、前記入力画像中の各安全性関連オブジェクトについての前記座標にマッピングするステップと
を含む、請求項9に記載の方法。 - 前記RLアルゴリズムにおける前記RLエージェントに対し安全制約を強制するステップは、
前記RLエージェントに対する安全仕様を受信するステップと、
前記安全仕様および各安全性関連オブジェクトについての前記座標から安全制約を決定するステップであって、前記RLエージェントの各アクションが、安全または安全ではないとラベル付けされる、ステップと
前記RLエージェントが安全ではないアクションを実行するのを防止するステップと
を含む、請求項9に記載の方法。 - 前記RLエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの1つである、請求項9に記載の方法。
- 制御ソフトウェアを実行する強化学習(RL)アルゴリズムにおいて安全制約を強化するために前記制御ソフトウェアをトレーニングするための方法であって、
入力画像中の1または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成するステップと、
前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップと、
各安全性関連オブジェクトについての前記座標を用いることによって、前記RLアルゴリズムにおけるRLエージェントに対し安全制約を強制するステップと、
前記RLエージェントがアクションを行う前に、前記RLエージェントが安全でないアクションを実行することを防止するステップと
を含む、方法。 - 前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定するステップは、
各オブジェクトについての前記視覚テンプレートを用いて、各安全性関連オブジェクトあたりに境界ボックスを配置するステップと、
各境界ボックスの重心を、前記入力画像中の各安全性関連オブジェクトについての前記座標にマッピングするステップと
を含む、請求項13に記載の方法。 - 前記RLアルゴリズムにおける前記RLエージェントに対し安全制約を強制するステップは、
前記RLエージェントに対する安全仕様を受信するステップと、
前記安全仕様および各安全性関連オブジェクトについての前記座標から安全制約を決定するステップであって、前記RLエージェントの各アクションが、安全または安全ではないとラベル付けされる、ステップと
前記RLエージェントが安全ではないアクションを実行するのを防止するステップと
を含む、請求項13に記載の方法。 - 前記RLエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの1つである、請求項13に記載の方法。
- コンピュータにより可読な非一時的プログラム格納デバイスであって、視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするための方法のステップを行うためにコンピュータによって実行される命令のプログラムを有形に具現化するものであり、前記方法は、
強化学習(RL)エージェントのアクション空間の画像中の各オブジェクトについて、前記RLエージェントの前記画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行するステップであって、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトが検出される、ステップと、
検出された各オブジェクトを、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについて平面座標のセットにマッピングするステップと、
前記RLエージェントのアクション空間の前記画像中の各オブジェクトについての座標に関する変数のセットに対し、前記RLエージェントのアクション空間に対する安全仕様を適用することによって、前記RLエージェントに対する安全アクションのセットを決定するステップと、
RL手順の現在の状態について、前記RLエージェントに前記安全アクションのセットを出力するステップと、
前記RLエージェントがアクションを行う前に、前記RLエージェントが安全でないアクションを実行することを防止するステップと
を含む、コンピュータ可読プログラム格納デバイス。 - 前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについてテンプレートマッチングを実行するステップは、
各オブジェクトの前記視覚テンプレートを用いて、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトあたりに境界ボックスを配置するステップ
を含む、請求項17に記載のコンピュータ可読プログラム格納デバイス。 - 検出された各オブジェクトを、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについて前記平面座標のセットにマッピングするステップは、
各境界ボックスの重心を、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについての前記平面座標のセットにマッピングするステップ
を含む、請求項18に記載のコンピュータ可読プログラム格納デバイス。 - 前記RLエージェントの前記アクション空間の単一のラベル付き画像におけるデータを拡張し、前記画像からすべてのテンプレートを除去し、複数のテンプレートをランダムにサンプリングし、前記複数のテンプレートの各々を拡張し、テンプレート・マスクを用いて前記複数のテンプレートの各々をランダムに前記画像中に配置し、複数の画像が生成され、前記複数の画像を用いてテンプレートマッチングをトレーニングすることによって、各オブジェクトについてのテンプレートマッチングをトレーニングするステップ
をさらに含む、請求項17に記載のコンピュータ可読プログラム格納デバイス。 - 前記単一のラベル付き画像におけるデータを拡張することは、前記画像の輝度をランダムに調整すること、前記画像をクロッピングすることまたは前記画像を左右反転することの1または複数を含み、前記複数のテンプレートの各々を拡張することは、前記テンプレートを左右反転すること、前記テンプレートを回転することまたは前記テンプレートからピクセルを落とすことの1または複数を含む、請求項20に記載のコンピュータ可読プログラム格納デバイス。
- 前記RLエージェントは、自己制御された地上型モータ車両、自己制御されたモータ航空機、自己制御された浮動式モータ船舶、または自己制御されたモータ潜水艇のうちの1つである、請求項17に記載のコンピュータ可読プログラム格納デバイス。
- 現在のRLステップでの前記画像中の各オブジェクトについての平面座標のセットと、以前のRLステップでの前記画像中の各オブジェクトについての平面座標のセットとの間の差分を用いて各オブジェクトについての潜在的なアクションを推定するステップを含み、
前記RLエージェントは、そのダイナミクスの知識および前記安全仕様を用いて、前記RLエージェントが、アクションを取った後、次いで以前に観測された状態遷移すべての最悪な潜在的な結果が続き、前記安全仕様が、ワン・ステップ将来でも依然として満足される場合にのみ、アクションをとることを確実にする制約を構築する、請求項17に記載のコンピュータ可読プログラム格納デバイス。 - 前記安全仕様は、前記画像中の各オブジェクトについて形式論理学で特定される複数の安全制約を含む、請求項17に記載のコンピュータ可読プログラム格納デバイス。
- コンピュータ・プログラムであって、コンピュータ上でプログラムが実行された場合に、請求項1~16のいずれか1項に記載の方法を実行するように適合されたプログラム・コード手段を含む、コンピュータ・プログラム。
- 視覚入力を使用して安全制約を強化するために制御ソフトウェアをトレーニングするためのシステムあって、前記システムは、
強化学習(RL)エージェントのアクション空間の画像中の各オブジェクトについて、前記RLエージェントの前記画像内の各オブジェクトの視覚テンプレートを用いて、テンプレートマッチングを実行することであって、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトが検出される、実行することと、
検出された各オブジェクトを、前記RLエージェントの前記アクション空間の前記画像中の各オブジェクトについて平面座標のセットにマッピングすることと、
前記RLエージェントのアクション空間の前記画像中の各オブジェクトについての座標に関する変数のセットに対し、前記RLエージェントのアクション空間についての安全仕様を適用することによって、前記RLエージェントに対する安全アクションのセットを決定することと、
RL手順の現在の状態について、前記RLエージェントに前記安全アクションのセットを出力することと、
前記RLエージェントがアクションを行う前に、前記RLエージェントが安全でないアクションを実行することを防止することと
を実行するように動作可能である、システム。 - 制御ソフトウェアを実行する強化学習(RL)アルゴリズムにおいて安全制約を強化するために前記制御ソフトウェアをトレーニングするためのシステムあって、前記システムは、
入力画像中の1または複数の安全性関連オブジェクトの視覚テンプレートを、各安全性関連オブジェクトのサンプル観測から形成することと、
前記入力画像中の各安全性関連オブジェクトの視覚テンプレートから各安全性関連オブジェクトについての座標を決定することと、
各安全性関連オブジェクトについての前記座標を用いることによって、前記RLアルゴリズムにおけるRLエージェントに対し安全制約を強制することと、
前記RLエージェントがアクションを行う前に、前記RLエージェントが安全でないアクションを実行することを防止することと
を実行するように動作可能である、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/709,633 | 2019-12-10 | ||
US16/709,633 US11513520B2 (en) | 2019-12-10 | 2019-12-10 | Formally safe symbolic reinforcement learning on visual inputs |
PCT/IB2020/061587 WO2021116875A1 (en) | 2019-12-10 | 2020-12-07 | Formally safe symbolic reinforcement learning on visual inputs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023506169A JP2023506169A (ja) | 2023-02-15 |
JP7465048B2 true JP7465048B2 (ja) | 2024-04-10 |
Family
ID=76209839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022535465A Active JP7465048B2 (ja) | 2019-12-10 | 2020-12-07 | 視覚入力に対する形式的安全シンボリック強化学習 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11513520B2 (ja) |
JP (1) | JP7465048B2 (ja) |
CN (1) | CN114787738A (ja) |
DE (1) | DE112020006045T5 (ja) |
GB (1) | GB2606917A (ja) |
WO (1) | WO2021116875A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW202147181A (zh) * | 2020-06-10 | 2021-12-16 | 淡江大學 | 三指式機械夾爪系統及其訓練方法 |
US20230219230A1 (en) * | 2020-12-18 | 2023-07-13 | Strong Force Vcn Portfolio 2019, Llc | Fleet Management Platform for Multi-Purpose Robots |
US12073343B2 (en) * | 2021-05-18 | 2024-08-27 | At&T Intellectual Property I, L.P. | Machine learning models with accurate data labeling |
EP4392905A1 (en) * | 2021-08-24 | 2024-07-03 | Royal Bank of Canada | System and method for machine learning architecture with selective learning |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697458A (zh) | 2018-11-27 | 2019-04-30 | 深圳前海达闼云端智能科技有限公司 | 控制设备移动的方法、装置、存储介质及电子设备 |
US20190279081A1 (en) | 2018-03-07 | 2019-09-12 | International Business Machines Corporation | Constraining actions for reinforcement learning under safety requirements |
US20190295179A1 (en) | 2016-12-23 | 2019-09-26 | Mobileye Vision Technologies Ltd. | Navigation with Liability Tracking |
US20190310649A1 (en) | 2018-04-09 | 2019-10-10 | SafeAI, Inc. | System and method for a framework of robust and safe reinforcement learning application in real world autonomous vehicle application |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6917925B2 (en) | 2001-03-30 | 2005-07-12 | Intelligent Inference Systems Corporation | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
US10185998B1 (en) * | 2014-05-20 | 2019-01-22 | State Farm Mutual Automobile Insurance Company | Accident fault determination for autonomous vehicles |
CN104036550B (zh) | 2014-06-25 | 2017-02-15 | 北京师范大学 | 基于形状语义的建筑立面激光雷达点云解译与重建的方法 |
DE102014212898A1 (de) * | 2014-07-03 | 2016-01-07 | Robert Bosch Gmbh | Verfahren zum Ermitteln einer Notfall-Trajektorie und Verfahren zum teilautomatisierten oder automatisierten Führen eines Ego-Fahrzeugs |
US10839302B2 (en) * | 2015-11-24 | 2020-11-17 | The Research Foundation For The State University Of New York | Approximate value iteration with complex returns by bounding |
US10942038B2 (en) * | 2016-02-15 | 2021-03-09 | Allstate Insurance Company | Real time risk assessment and operational changes with semi-autonomous vehicles |
US11263545B2 (en) | 2016-06-30 | 2022-03-01 | Microsoft Technology Licensing, Llc | Control of cyber-physical systems under uncertainty |
US10694526B2 (en) | 2016-09-30 | 2020-06-23 | Drexel University | Adaptive pursuit learning method to mitigate small-cell interference through directionality |
CN107464021B (zh) | 2017-08-07 | 2019-07-23 | 山东师范大学 | 一种基于强化学习的人群疏散仿真方法、装置 |
US20200156243A1 (en) * | 2018-11-21 | 2020-05-21 | Amazon Technologies, Inc. | Robotics application simulation management |
-
2019
- 2019-12-10 US US16/709,633 patent/US11513520B2/en active Active
-
2020
- 2020-12-07 JP JP2022535465A patent/JP7465048B2/ja active Active
- 2020-12-07 CN CN202080085415.7A patent/CN114787738A/zh active Pending
- 2020-12-07 GB GB2209961.8A patent/GB2606917A/en active Pending
- 2020-12-07 WO PCT/IB2020/061587 patent/WO2021116875A1/en active Application Filing
- 2020-12-07 DE DE112020006045.4T patent/DE112020006045T5/de active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190295179A1 (en) | 2016-12-23 | 2019-09-26 | Mobileye Vision Technologies Ltd. | Navigation with Liability Tracking |
US20190279081A1 (en) | 2018-03-07 | 2019-09-12 | International Business Machines Corporation | Constraining actions for reinforcement learning under safety requirements |
US20190310649A1 (en) | 2018-04-09 | 2019-10-10 | SafeAI, Inc. | System and method for a framework of robust and safe reinforcement learning application in real world autonomous vehicle application |
CN109697458A (zh) | 2018-11-27 | 2019-04-30 | 深圳前海达闼云端智能科技有限公司 | 控制设备移动的方法、装置、存储介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
岡野原大輔,安全が保証された強化学習 リアプノフ関数で制約満たす方策を導出,NIKKEI Robotics,日経BP社,2018年10月10日,第40号,pp. 36-38 |
Also Published As
Publication number | Publication date |
---|---|
GB202209961D0 (en) | 2022-08-24 |
JP2023506169A (ja) | 2023-02-15 |
US20210173395A1 (en) | 2021-06-10 |
CN114787738A (zh) | 2022-07-22 |
WO2021116875A1 (en) | 2021-06-17 |
GB2606917A (en) | 2022-11-23 |
DE112020006045T5 (de) | 2022-10-06 |
US11513520B2 (en) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7465048B2 (ja) | 視覚入力に対する形式的安全シンボリック強化学習 | |
WO2020224403A1 (zh) | 分类任务模型的训练方法、装置、设备及存储介质 | |
US9111375B2 (en) | Evaluation of three-dimensional scenes using two-dimensional representations | |
US20200081445A1 (en) | Systems and Methods for Graph-Based AI Training | |
US11341364B2 (en) | Using simulation and domain adaptation for robotic control | |
US12051261B2 (en) | Semantic segmentation of 2D floor plans with a pixel-wise classifier | |
US10845818B2 (en) | System and method for 3D scene reconstruction of agent operation sequences using low-level/high-level reasoning and parametric models | |
Katyal et al. | Uncertainty-aware occupancy map prediction using generative networks for robot navigation | |
CN113039563A (zh) | 学习生成用于训练神经网络的合成数据集 | |
KR20170140214A (ko) | 신경망을 위한 훈련 기준으로서의 필터 특이성 | |
US11328182B2 (en) | Three-dimensional map inconsistency detection using neural network | |
Leiva et al. | Collision avoidance for indoor service robots through multimodal deep reinforcement learning | |
EP3759649B1 (en) | Object recognition from images using cad models as prior | |
Vemprala et al. | Grid: A platform for general robot intelligence development | |
CN110749325B (zh) | 航迹规划方法和装置 | |
CN111727108B (zh) | 用于控制机器人的方法、装置及系统以及存储介质 | |
Hogan et al. | Explainable object detection for uncrewed aerial vehicles using kernelshap | |
CN116977195A (zh) | 复原模型的调整方法、装置、设备及存储介质 | |
Pereira | A machine learning approach for predicting docking-based structures | |
Kobelrausch et al. | Collision-Free Deep Reinforcement Learning for Mobile Robots using Crash-Prevention Policy | |
EP4310779A1 (en) | Segmenting a building scene | |
KR102640618B1 (ko) | 3d 스캐너 기반 시공 오차 검증 방법, 장치 및 시스템 | |
EP4300361A1 (en) | Methods and systems for optimizing a peak memory usage of an artificial neural network graph | |
US20240160888A1 (en) | Realistic, controllable agent simulation using guided trajectories and diffusion models | |
JP7264184B2 (ja) | 学習装置、学習方法、及び学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7436 Effective date: 20220624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240312 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20240313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7465048 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |