JP2008537271A

JP2008537271A - コントローラ

Info

Publication number: JP2008537271A
Application number: JP2008524597A
Authority: JP
Inventors: ケイド、ネイル・アレクサンダー
Original assignee: BAE Systems PLC
Current assignee: BAE Systems PLC
Priority date: 2006-07-13
Filing date: 2007-07-10
Publication date: 2008-09-11
Anticipated expiration: 2027-07-10
Also published as: WO2008007137A1; JP4875080B2; US7966276B2; EP2341404A2; US20090299496A1; AU2007274026B2; EP2341404A3; EP2041631A1; AU2007274026A1; GB0613955D0

Abstract

少なくとも部分的な自律性をもって、センサ測定データに基づきシステムの状態を完全に判断することが不可能である環境におけるシステムの状態を示す複数のセンサから受け取られた測定データに基づいて、前記システムを制御するように動作するコントローラが提供される。前記コントローラは、前記システムの動的進化のための確率の少なくとも１つの集合と、前記システムの前記複数のセンサのための対応する測定モデルとを定義するシステムモデルと、前記センサから測定データを受け取り、前記システムモデルを参照して、それぞれが前記システムの状態を表す複数のサンプルを生成するように動作する確率論的な推定器と、前記システムの考えられる状態を表す複数の考えられるサンプルのそれぞれについて、前記システムで実施される動作を定義する情報を定義する前記システムモデルに対応する規則集合と、前記確率論的な推定器の出力を受け取り、前記規則集合を参照して、前記システムで実行される１つ以上の対応する動作を定義する情報を選択するように動作する動作セレクタとを備える。
【選択図】図１

Description

本発明はシステムの制御に関し、特に、関連するシステムの状態を完全に判断することが不可能である環境において、センサ測定に基づいて該環境の制御されるべき部分の範囲を画定し、少なくとも部分的な自律性をもって動作するように設計された最適化されたコントローラに関するが、これに限られない。

部分的に観測でき、つまりシステムの状態を、環境の利用できる測定（観測）を通して部分的にだけ判断できるシステムの最適制御は、活発に研究され続けている分野である。このいわゆる「部分的観測性」は、（例えば）センサの不正確性または、より顕著には、コントローラが始められる動作に関連する状態のための適切なセンサを欠いていること等の原因から生じる。このような状態は、特に、制御されるシステムが、制御されるシステムの性能に見合うように特に設計されていない他の同様に自律的なエンティティを含む大きなシナリオの小さな部分である、相対的に構造化されていない環境で発生する可能性が高い。あらゆる分野で、ロボットシステム（例えば、自動国境監視、農業における無人農薬空中散布、自律監視「ピル」を使用する腸管マッピング（mapping））の使用の増加が予想される中で、このような状態はますます重要になり、この技術には多くの潜在的な適用例がある。

これらのシステムを制御する上で重要な要件は、特に外乱がコントローラの動作に反応する可能性が高いときに、非常に限られたセンサ情報を使用して非常に広範囲の外部の外乱に合理的に反応する能力である。例えば、空中農薬散布では、鳥との衝突を回避する必要性がある場合があるが、散布対象の農作物の領域全体を横断する動作は必然的に農作物から飛び立つ鳥につながる。鳥は農作物の上では見えない可能性があるが、鳥との衝突の発生を最小限に抑えるような散布の最良のパターンを定めるために、鳥の挙動のモデル形式での経験が使用することができる。

この問題の領域に対処する手法は最適制御理論により提供される。この一般的な問題に再帰的解法を与える基本的な方程式は、例えば、「ダイナミックプログラミング（Dynamic Programming）」、プリンストン大学出版（１９５７年）でＲＥＢｅｌｌｍａｎによって説明されるようなハミルトンベルマン方程式である。ハミルトンベルマン方程式は、相対的に簡略な制御問題の制限された範囲においてのみ正確に解くことができる。

特に、性能基準が二次であり、環境の観測で生じる雑音が本質的にガウスであると推定される線形システムの場合、Ｇｏｏｄｗｉｎ及びＫｗａｉＳａｎｇＳｉｎ（適応フィルタリング、予測及び制御（Adaptive Filtering, Prediction and Control）、プレンティスホール（Prentice Hall）（１９８４年））は、例えば、カルマンフィルタを使用して、オンラインでシステムの状態を推定することと、状態推定プロセスとは別個に設計された完全状態フィードバックコントローラに該状態推定値を使用することとを備える、システムを制御するための方法を説明している。この方法は、カルマンフィルタ自体の方程式に非常に類似したリカッティ方程式の組のオフライン解を含む。このプロセスは関連する制御問題に対して的確な解を与えるが、解を得るために必要とされる仮定は実システムではめったに満たされない。

コントローラ及び状況推定を別々に解くことを可能にする「分離原理」を呼び出すことは、より現実的な状況では不可能である。このような分離は推定と制御の両方を、別々の事前に計算された利得係数に関してコンパクトに表すことを可能にする。この分離がない場合、最適制御は、単に瞬間誤差推定だけに依存するのではなく、観測の結果に依存する。この密接な結合（intimate coupling）のため、非線形センサとダイナミクス、及び相応して（例えば、「システム浸漬を介した非線形適応安定化：制御設計及び適用例（Nonlinear adaptive stabilization via system immersion: control design and applications）」、制御及び情報科学の講義ノート（Lecture Notes in Control and Information Sciences）、シュプリンガー・フェアラーク（Springer-Verlag）、ベルリン（Berlin）、３１１、１から２１ページ（２００５年）にＤ．Ｋａｒａｇｉａｎｎｉｓ、Ｒ．Ｏｒｔｅｇａ及びＡ．Ａｓｔｏｌｆｉによって説明されているような）非ガウス統計によって特徴付けられるこのような複雑なシステムのコントローラの設計に対する通常の手法は、状態推定を完全に回避し、コントローラシステムのダイナミクスの分析に基づいてコントローラを直接的に設計することである。

この手法は制御のために十分であるが、講じられた制御動作の解釈を行わない。これは閉じた自律システムにとっては重大な問題ではないが、このようなシステムが協力している人間のオペレータにリンクされている場合、ロボットのアクションに対する説明を行うシステムコントローラがないと、人間の協力者は該アクションに対抗する結果となりえるため、望ましくない挙動が生じる場合がある。パイロット誘起振動がこの現象の一例である。

システムの状態を、直接的に観測される離散値によって定義できる線形システムの場合には、最適制御問題は、ちょうど、ＮＰ完全である周知の「巡回セールスマン」問題の最適制御問題である。つまり、一般解を得るために要する時間は、状態数のいかなる多項式よりも速く拡大縮小する（scale）ことが知られている。にもかかわらず、少なくとも効果的な有限範囲の場合には、実際的な近似解を得られる多くのアルゴリズムであって、制御アルゴリズムがオフラインで解かれるか、または、制御動作が講じられるにつれて、反復的に改良されるものが知られている。これらの方法は一般的には、制御動作及び性能基準で補強されている、システムの状態と測定を表すベイジアンネットワークを備えるマルコフ決定過程（ＭＤＰｓ）の枠組みの中で説明される。このモデルにおいては、状態と測定の間の確率論的なリンクは測定モデルと呼ばれ、異なる時点における状態間のリンクがシステムダイナミクスのモデルを構成する。このダイナミクスは該コントローラ動作によってパラメータ化され、システムの性能は、システムの状態を条件とする（恐らく確率変数である）評価（rewards）によって監視される。この確率的構造が与えられれば、特定の制御動作の利点は純利益関数（net return function)で蓄積できる。長い目で見たときの純利益を最適化するように動作を選ぶと、最適コントローラの設計への道が与えられる。

離散値状態を用いるＭＤＰシステムの場合には、上記に参照されたハミルトンベルマン方程式は離散状態空間における行列方程式であり、最適制御のための解はこの行列方程式を反復することによって得られる。個々の反復は状態数の多項式であるマトリクス乗算を必要とし、その結果、有限範囲を仮定できるならば、ほぼ多項式時間内に解全体を見つけることができる。ＳｕｔｔｏｎＲＳ及びＢａｒｔｏ，ＡＧ、による教科書「強化学習−序論（Reinforcement Learning - an Introduction）」、ＭＩＴ出版、ケンブリッジ、マサチューセッツ、（１９９８年）の中で、Ｂａｒｔｏ及びＳｕｔｔｏｎは、このような離散状態決定問題を解くための多くの異なる方法を説明している。

すべての状態が「よく観測されている」わけではない、つまり観測に基づいてシステムのすべての状態を確実に判断することができない一般的な場合には、制御問題は、部分的観測マルコフ決定過程（ＰＯＭＤＰ）と呼ばれる手段によって解かれる必要がある。この場合には、前述されたＭＤＰ解法は実行可能ではない。同じＭＤＰ手法は、状態がよく観測されていないときにも等しく有効であるが、結果として生じる方程式は状態自体での合計ではなく、状態の確率での積分を必要とする。このような方程式は正確に可解ではなく、公知の近似解（例えば「証人（Witness）」アルゴリズム）さえ、多項式となることが保証されていない。

Ｋａｅｌｂｌｉｎｇらによって開発され、例えば、ＡｎｔｈｏｎｙＲ．Ｃａｓｓａｎｄｒａ、ＬｅｓｌｉｅＰａｃｋＫａｅｌｂｌｉｎｇ、及びＭｉｃｈａｅｌＬ．Ｌｉｔｔｍａｎ「部分的に観測可能な確率的領域で最適に動作すること（Acting optimally in partially observable stochastic domais）」、人工知能に関する第１２回全米会議の会議記録（Proceedings of the Twelfth National Conference on Artificial Intelligence）、シアトル、ワシントン州（１９９４年）に説明されている証人アルゴリズムは、アルゴリズムの取り扱いやすさが先験的に測ることが困難であるため、実際問題としては使用するのが困難である。このアルゴリズムでは、上記に参照された積分の問題は、大局的な利益関数が区分的に線形であると仮定することによって離散問題に変換される。この仮定は根本的なハミルトンベルマン方程式の形と一貫しているが、これは解を生じさせられる線形ファセット（facets）の数に制限を課さない。ここで、解決時間はこのファセットの数の多項式であるが、ファセットの数は無制限に大きくなることが可能であるので、解は依然として非多項式である可能性がある。

実際には、コントローラ設計がオフラインで実行される場合には、実行可能な時間内に妥当な解を得るために解の有効領域を調整することが可能であるため、これは、重大な制限にならない場合がある。しかしながら、該方法はファセットの数、したがって計算時間が、解プロセスが進行するにつれてのみ得られるという望ましくない特徴を有している。これは、よくても該手法はオフラインでのコントローラ（意思決定器（decision maker））設計に限られることを意味する。

証人アルゴリズム手法は、該手法が最適制御動作と該システム状態の最適推定の両方を提供するという問題に対処し、動作のための論理的根拠を与えるという優位点を有している。対照的に、ＭａｃＡｌｌｅｓｔｅｒ及びＳｉｎｇｈによる最新の研究（「人工知能における不確実性（Uncertainty in Artificial Intelligence）、第５巻、４０９ページ（１９９９年）」は、従来の制御において上記に参照されたＫａｒａｇｉａｎｎｉｓらの手法に類似した手法を採り、測定の履歴に関して直接的にＰＯＭＤＰ問題の制御解を求めることで状態推定を完全に回避する。上記に留意されたように、このような手法は、制御の複数のレベル、特に人間のプレーヤとの対話を必要とする、レベルの統合を困難にする。

部分観測は、任意に正確にすることができる解を提供する公知の手法がない問題につながるが、完全に観測できないことがあまり影響せず、完全に観測された場合を解き、次にこの古典的な解の回りの変動を検討することによって摂動解を探すことによって近似解を得ることが可能であるな場合が多くある。連続状態空間の場合、これはラプラス近似である。

最近では複数の古典的経路を可能にすることによってこの手法を拡大しようとする試みがあった。特に、Ｈ．Ｊ．Ｋａｐｐｅｎの「最適制御理論のための経路積分及び対称性の破壊（Path integrals and symmetry breaking for optimal control theory）」、ａｒＸｉｖ：物理学／０５０５０６６４（２００５年）の中で、Ｋａｐｐｅｎは、すべての古典的な最適解経路の近傍からのシステム軌跡上でサンプリングすることによってこの拡張に対処してきた。この手法では、最適に制御される経路は、考えられる経路のサンプルを適切な尤度の重み付けを用いて平均化することによって得られる。この手法は、再帰的定式化（recursive formulation）のオンライン最適化を可能にし得るという潜在的な利点を失い、該手法は状態の推定値を計算する必要性も回避する。後者は優位点として見られる可能性があるが、自律ロボットシステムの制御された動作を「理解する」必要性がある場合には、優位点ではない。

第１の態様から、本発明はシステムの状態を示す複数のセンサから受け取られた測定データに基づいて前記システムを制御するために動作可能なコントローラにある。

前記コントローラは、
システムの動的進化の確率の少なくとも１つの集合と、システムの前記複数のセンサに対して対応する測定モデルとを定義するシステムモデルと、
前記複数のセンサから測定データを受け取り、前記システムモデルを参照して、それぞれがシステムの状態を表す複数のサンプルを生成するように動作する確率論的な推定器と、
システムの考えられる状態を表す複数の考えられるサンプルのそれぞれについて、システム内で実施される動作を定義する情報を定義する前記システムモデルに対応する規則集合と、
前記確率論的な推定器の出力を受け取り、前記規則集合を参照して、システムで実行される１つ以上の対応する動作を定義する情報を選択するように動作する動作セレクタと、
を備える。

本発明の第１の態様によるコントローラは、不確実性、つまりセンサデータまたはシステムの動作環境の他の測定値が（外部環境と自律システム自体のどちらかまたは両方を備える）システムの状態の正確な判断を提供するには不十分であるような不確実性のあるシステムの最適制御を達成するのに特に適している。コントローラは、少なくとも部分的にはセンサデータによって表されるような、環境の不完全な観測に基づいてシステムで講じられる制御動作を決定するために好ましいアルゴリズムを実行するように動作する。好ましくは１組のアルゴリズムがあり、第１のアルゴリズムは観測を制御動作の上に対してマッピングするためであり、第２のアルゴリズムはマッピング関数の構造を決定するためである。

有利なことに、本発明の好ましい実施形態によるコントローラは特に、上記に参照された、ハミルトンベルマン方程式の近似解のための方法を提供し、該ハミルトンベルマン方程式は、単純な制御問題の制限されただけの範囲よりもさらに幅広い範囲の状況で適用可能となるであろう。該方法はマルコフシステムの最適制御に対する一般的な「動的計画」手法に基づいている。これは最適制御概念を支える一般的な原則であるが、その複雑さゆえ、現実の適用例で実現することは実行不可能である。しかしながら、本発明の好ましい実施形態では、この一般原則に基づいているが、実際的な適用を可能にする新しい方法が提供される。この新しい方法の重要な部分は、観測に基づいてシステムの状態を推定することである。

好ましくは、必要な推定フィルタを構築するためには従来の統計サンプリング手法が使用され、本発明の革新的な部分はコントローラの構築においてこれらの統計サンプルを使用することにある。

本発明の好ましい実施形態によるコントローラは、連続システムと離散システム両方に使用されることができるが、コントローラは離散自動制御及び意思決定に対して特に効率的な形式を達成する。

本発明の好ましい実施形態は、このような自律システムが人間の参加者の動作と自らの動作を調整することを必要とすることが予想される自律ロボットシステムのニーズによって動機付けられるものである。したがって、本発明によるコントローラの有利な特徴は、コントローラのロボットのような挙動を、人間の協力者が理解できるように、システム状態の制御と、システム状態の一貫した推定との両方を提供するというものである。

本発明の好ましい実施形態によるコントローラの潜在的な適用例は、例えば自律走行車の制御からセキュリティシステム及び金融システムの制御に及ぶ。

本発明の好ましい実施形態では、測定データはシステムの状態を定義する。代わりに、または組み合わせて、測定データは、システムが既定の状態にある、所定の確率を示している。

本発明のさらなる好ましい実施形態によるコントローラでは、該動作セレクタは複数の推奨された動作の集合と関連付けられた重み係数を生成し、前記重み係数に比例する確率で前記動作の少なくとも１つを確率的に選択するように動作可能である。

以下の好ましい特徴が、本発明の好ましい実施形態の範囲に入る。

１）「サンプル状態表現」は、それぞれが元の状態空間の区分から導かれる別々のサンプル集合を備え、規則集合と動作セレクタの関数は別々の区分に対して別々の規則及びセレクタを備る。

２）規則集合は、（作表を必要とするデータがより少ないという優位点を持つ）同じ動作を有するサンプル状態のクラスタに関して編成され、動作セレクタは異なるサンプル状態ではなくクラスタに対して動作する。

３）暗示的にまたは明示的にのどちらかでシステムダイナミクスを更新するために、制御動作に対する対応の観測された統計を利用することによってコントローラの動作の過程で規則集合を更新し、それによって上記に参照されたハミルトンベルマン方程式を使用する制御規則の反復適応を可能にする。

ここで、本発明の好ましい実施形態が、添付図面を参照してさらに詳細に、及び一例としてのみ説明される。

本発明の好ましい実施形態によるコントローラ及び制御されるシステムへの、該コントローラのインタフェースの概要がここで図１を参照して説明される。

図１を参照すると、コントローラ１００は、制御対象のシステム１１０の挙動または動作を表す多様なパラメータを監視するまたは測定するように順に構成された多くのセンサ１０５から入力を受信するように構成されている。センサ１０５からの入力を受信した結果としてコントローラ１００によって選択される動作は、例えば、動作エフェクタ１１５によって解釈され、動作エフェクタ１１５によってまたは動作エフェクタ１１５の制御下で実現される、システム１１０に対する要求の形で、動作エフェクタ１１５に通知される。

コントローラ１００は、好ましくは条件付きで依存する推移確率の集合の形で、制御対象のシステム１１０のダイナミクスを表すデータを含む確率モデル１２０を備える。このような確率システムモデル１２０の単純な例は以下の付属Ａに示されている。コントローラ１００は、後述される設計段階中に入力され、コントローラ１００の動作中に動作セレクタ１３０によって選択され得る動作を定義する規則を含む制御規則集合１２５をさらに備える。制御規則集合１２５に記憶されている規則は、好ましくは、制御対象であるシステム１１０の十分に正確な記述を提供することを意図した、システムモデル１２０の状態の確率からのサンプルの集合であるとして定義されているいわゆる「サンプル状態」に基づいて定義される。

コントローラ１００は、詳細な動作が後述される確率論的推定器１３５であって、入力としてセンサ１０５からのデータを受信し、受信したデータ及び確率システムモデル１２０に記憶されているデータに基づいて、動作セレクタ１３０にサンプル状態を出力するように動作可能な確率論的推定器１３５をさらに備える。動作セレクタ１３０は、確率論的推定器１３５からサンプル状態を受け取ると、制御規則集合１２５に問い合わせし、適切な動作を決定し、このようにして動作エフェクタ１１５に出力される要求を生成する。

本発明の好ましい実施形態によるコントローラ１００の特に有利な特徴は、観測によって直接アクセス可能な「サンプル状態」として構築される離散状態に関しての制御問題の定式化である。このようにして、制御問題は、従来の手段によって解決されることができる同等の（完全に観測される）マルコフ決定過程に変換されると同時に、システムの状態の最良の推定と最良の制御動作の選択との間に直接的なリンクが提供される。有利なことに、この直接的なリンクが、コントローラによって開始される動作のための論理的根拠を可視的にすることができ、該コントローラは、本発明の好ましい実施形態によるこのようなコントローラを備える自律システムを、人間、または同じ環境で動作する他のエンティティと統合することを容易にする。この可視性は、確率論的推定器１３５の適切且つ従来の出力であるサンプル状態を通して提供される。直接的にサンプル状態に基づく制御規則集合１２５を用いると、制御及び推定は同じ状態表示を使用するため、コントローラ１００の効率的な実現が可能となる。これらの代表的なサンプル状態は直接的に観測可能であるため、コントローラ１００によって実現される制御プロセスの観測された結果から瞬時にフィードバックする可能性がある。すなわち、該コントローラ１００によって選択された任意の制御動作の実現後、結果として生じる（観測された）システム１１０の状態は、システム１１０のためのＭＤＰ「サンプル状態」ダイナミクスモデルの予測に基づいて期待される状態と比較できる。これは、本発明の好ましい実施形態において、コントローラまたは意思決定器の適応設計の可能性を与え、これにより、少なくとも部分的には確率システムモデル１２０によって表されるようにシステム１１０のダイナミクスモデルが、システム１１０のダイナミクスモデルの、観測された動的挙動を反映するように、オンラインで更新される。このような敵応性は、システムモデルがコントローラ１００の最適決定関数のオフライン設計を可能にするために事前に十分によく知られていない可能性が高い、自律性の意思決定において特に有利である可能性が高い。

線形ダイナミクス及びガウス雑音プロセスを仮定しないシステムに固有の困難は、状態推定及びコントローラ設計の強力な結合である。このような形式では、状態推定はそれ自体困難であり、一般的には、近似解を得られるようになんらかの統計的なサンプリング方法の手段を用いることが必要である。本発明の好ましい実施形態の重要な技術革新は、状態確率のこれらの統計サンプル、つまりサンプル状態を、動作セレクタ１３０の設計のための近似的な「十分な統計」として使用することである。該サンプル状態は確率論的推定器１３５によって提供される推定状態の十分な数の統計サンプルの集合であり、したがって、該サンプル状態は、制御規則集合１２５に従って関連する動作を選択するために、確率論的推定器１３５によって出力され、動作セレクタ１３０によって使用される状態信号である。

好ましくは確率論的推定器１３５によって実行されるような状態推定のために使用される統計サンプリング方法はしばしば「粒子フィルタ」と呼ばれ、各サンプル（又は粒子）は、本来、例えばセンサ１０５によって出力されるセンサデータのような、使用可能な観測データによって提供されるシステムの不完全な知識が与えられた場合に、自律サブシステムが動作する環境で発生し得るイベントの集合からの不偏サンプルである。このような粒子フィルタは、事実上、どの時点においても、仮説の該サンプルの結果にわたる平均として、システムの状態の最良の推定値を提供する多重仮説推定器である。粒子フィルタに関するさらに詳細な情報は、ＡＤｏｕｃｅｔ、ＮｄｅＦｒｅｉｔａｓ、ＮＧｏｒｄｏｎ、実践での順次モンテカルロ法（Sequential Monte Carlo Methods in Practice）、シュプリンガー・フェアラーク（Springer-Verlag）ニューヨーク（２００１年）に提供され、本明細書ではさらに説明されない。

状態仮説がどれほど多様であっても、ただ１つの制御動作しか講じることができないため、コントローラによって講じられる適切な制御動作を決定するためにこのような多重仮説の記述を使用できるであろうことは、当業者にとってただちに自明ではないであろう。したがって、本発明の好ましい実施形態は、制御動作を、特定のサンプルまたは考えられるサンプルの平均ではなく、サンプル状態の関数、つまりシステムモデル１２０に定義されるように、状態の確率から確率論的推定器１３５によってサンプリングされた所定数の「粒子」であると見なす。このようにして、本発明の好ましい実施形態では、一般的な場合の制御動作を状態の確率密度の汎関数と見なすのではなく、近似的表現が状態の確率からの有限サンプルの空間上の関数として提供される。ちょうど、状態推定の場合のように、固定数のサンプルを考慮することが適切であり、これにより、動作を制御するためのサンプル集合からのマッピングが次元性を固定することができる。これは、ただちにこの手法に基づくアルゴリズムの魅力的な特徴をもたらす。つまり、計算問題の規模は記述で使用される、選ばれた数の粒子によってだけ固定される。

特に、アルゴリズムの実行速度はシステムモデルの複雑さまたは状態の不確実性の程度に依存するのではなく、この粒子（統計サンプル）数は実行可能な実行速度を提供するために先験的に選ぶことができる。

発明されたアルゴリズムは、該アルゴリズムの基本的な形においてシステムの離散状態空間記述を含む。この記述は従来のＭＤＰまたはＰＯＭＤＰアルゴリズムで必要とされる形の測定モデルと、システムダイナミクスモデルとを備える。

アルゴリズムは、ＭＤＰシステムのための一般的な動的計画法手法に従った経路に沿った各時間ステップにおける、状態及び動作の関数として蓄積された個々の評価の合計として、システムの状態空間軌跡に沿って平均期待利益関数を最大限にするためにシステムの制御を行う。

一般的なＰＯＭＤＰアルゴリズムとＭＰＤアルゴリズムと同様に、本発明の好ましい実施形態によるコントローラ１００によって実現されるアルゴリズムには２つの段階が含まれる。第１に、最適制御関数または規則集合１２５が、わかっているシステムの状態の関数として取得される。第２に、該最適制御が、測定データからシステムの状態に関する最良の情報を推論し、必要とされる制御動作を取得するために計算された制御関数を使用することによって行われる。

好ましくは、最適制御規則は設計段階でオフライン設計され、制御規則集合１２５に「ルックアップ」関数として組み込まれ、システム１１０の状態に関して確率論的推定器１３５によって測定が行われる際に最適決定を提供するために動作セレクタ１３０によって使用される。しかしながら、本発明の好ましい実施形態では、さらに効率的な実現のために、このようにして初期化されるコントローラ１００が、利用される際に同時に順次更新されることができる。

本発明によるコントローラ１００で実現されるアルゴリズムの特に革新的な特徴は、測定（センサデータ及び他の観測入力）の結果として取得されたこれらの状態の確率から、システムのとりそうな状態のいくつかの数（Ｎ）のサンプルに関して、システム１００の現在の状態の知識を表現することである。Ｎ個の「有望な状態のサンプル」又は粒子の、この集合を使用して、新しい補助的なＭＤＰが構築され、該補助的なＭＤＰにおいては、該サンプル集合は、近似された、問題に対して十分な統計値であり、これらのサンプル集合が補助的なＭＤＰの「状態」として解釈される。明らかに、サンプルの数は状態の元の数より指数的に大きくなるが、数Ｎを制限することにより、この空間は実行可能な規模に制限できる。例えば、元は１６の状態があった場合には、Ｎ＝３の場合８１６のサンプル状態がある。ここで、状態のさらに大きな数でサンプルの数を増加させることは妥当であろうが、粒子の数の選択は、すべての考えられる状態を探求する問題というよりも、システムのありそうな変動を十分に探求する問題であり、したがって状態の数よりもはるかに少ないサンプルの数を有することが妥当である。

このＭＤＰを実現するためには、サンプル状態及び関連する測定モデルの対応するダイナミクスを表現するサンプル状態マルコフ決定過程（ＳＳＭＤＰ）を、コントローラセットアップのための設計段階の間に定義することが必要である。これらは従来のベイジアン統計的推論によって取得され、考えられるサンプルに条件をつける。このプロセスは計算上の要求が厳しく、オフラインで実行され、一度だけ実行される必要があることが好ましい（例えば、ＡＤｏｕｃｅｔ、ＮｄｅＦｒｅｉｔａｓ、ＮＧｏｒｄｏｎ、実践での順次モンテカルロ法（Sequential Monte Carlo Methods in Practice）、シュプリンガー・フェアラーク（Springer-Verlag）ニューヨーク（２００１年）を参照すること）。

これ（ＳＳＭＤＰ）が構築されたので、状態推定の解、コントローラ設計及び制御の実現は、任意のＭＤＰ解法アルゴリズムを使用して得られる。ここで、ＭＤＰアルゴリズムがＰＯＭＤＰアルゴリズムよりはるかに高速であり、特定の例の問題では本発明の好ましい実施形態によるアルゴリズムは、（上記に参照された）ＰＯＭＤＰ用の「証人」アルゴリズムを使用して取得される解と区別ができないほぼ最適なコントローラ解を計算時間の千分の１未満で提供することに留意するべきである。

多くの数の状態に対して、状態推定プロセス自体はサンプリングによって実現することができ、これにより、状態推定で使用される該サンプルは当然制御で使用される同じサンプルとなり得ることに留意すべきである。

本発明で使用される手法の概念上の簡略さを考えると、該アルゴリズムの多くの拡張を想像することが可能である。特に、該アルゴリズムは、状態推定問題が、サンプルが離散空間から引き出されて、ガウス分布の混合物を生成するために使用されるラオ・ブラックウェル（Rao-Blackwellised）粒子フィルタとして扱いやすくなるように、ガウス混合モデルに関して状態の確率密度を記述することによって連続状態空間に拡大されることができる。

その結果、離散要求及び該離散要求を満たす連続制御動作に対して類似した制御動作の因子分解を行うことが適切である。離散成分は制御問題を、連続制御動作を従来のコントローラ設計を使用するために解くことができる単一モード制御問題の集合に制限する。これらの連続コントローラの期待される利益が、次に、本発明のサンプリング技法を使用して解くことができる離散制御問題の評価関数になる。

本発明の好ましい実施形態は、相対的に乏しいセンサデータ（１０５）に基づいてシステム１１０の状態を推定し、この知識を使用して最適決定経路を推論するという問題に向けられている。数学的な記述の構造がどうであれ、結果は単に、観測のシーケンスを、考えられる動作にマッピングすることにすぎない。これは発見的なニューラルネットワーク関数当てはめ問題（heuristic neural network function fitting problem）として構築され得る。本発明の好ましい実施形態で採られる手法は、動的状態、測定値、決定及び評価を前提とする完全な確率空間において問題を表現し、条件付き確率因子分解に関して、これらのすべての状態の結合確率を表現するベイジアンネットワークによって因果モデル構造を課すことである。この構造は図２に示されている。

図２を参照すると、別々の変数間の関係性を、別々の変数の部分集合と関連付けられる別々の条件付き確率の形で表すモデル構造が示されている。より簡略な構成要素部分から、より複雑なモデルを構築できるようにするのはまさにこのような因子分解である。図２の図はそれぞれの一般決定の問題における、関心のあるすべての状態の結合確率を表している。図２に描かれているすべての変数は、関連する位相空間におけるベクトルであり、特に、
・システム状態Ｓ_ｔは、時間「ｔ」での状態が以前の時間の状態だけによって影響を及ぼされるように隠れマルコフプロセスによって決定される。

・測定値ｍ_ｔはこれらのシステム状態から形成され、該システム状態のみが測定値を決定する確率変数であるが、すべての状態が測定可能であるとは仮定されない。

・システム状態の時間的発達を達成する所定の決定ｕ_ｔが下される。一般的に、これらは毎回決定される先の確率に関して定義されるが、この説明においては、私たちは確率論的広がりなしに「純粋な戦略」だけを考慮する（該手法は、混合戦略の場合に容易に拡大できる）。

・決定動作の利点は、結果として生じる状態と、該状態が達成される結果となった決定の両方に依存する直接評価ｒ_ｔによって提供される。

・決定システムの総性能は純利益ｑ_ｔであり、これは該直接局所評価から蓄積される。決定システムが、動作からの直接便益に関連して将来の評価に正当な重みを与える決定戦略を提供できるようにするのがこの評価の蓄積である。

この記述から、前の測定値及び将来の評価からの純利益の対応する機能的推定値を考慮してシステムの状態の再帰的推定値を構築することは相対的に簡略である。離散状態を仮定すると、その時点までのすべての測定値が与えられると、時間ｔ＋１での状態の再帰確率は、以下のとおりであり、

表記では、大文字はすべての前の状態の集合を示し、例えばＭ_ｔ＝｛ｍ_τ：τ≦ｔ｝である。

同様に、純利益の再帰方程式は、平均利益を決定するために使用することができる。

最適性能を達成するために、この利益を最大にする決定ｕ_ｔが下される必要がある。これが行われる場合、完全に観測された状態（‘ｍ≡ｘ’）について、マルコフ決定過程（ＭＤＰ）での最適動作のための通常の方程式を与える最適意思決定プロセスに対するハミルトン−ベルマン方程式は以下のとおりであり、

ここで、ｖ^＊は最適な将来決定のために取得される最大平均評価であり、ｑ^＊はある特定の決定及び以後続く最適決定を採るための対応する評価である。これらの第１の決定でｑ^＊を最大限にすると、ｖ^＊及び最適な決定自体が得られる。

このすべては、完全に観測されたマルコフ決定プロセスがあるかどうか、あるいは測定値がシステム状態の完全な知識を提供するために不十分であるかどうかに関わらず、正しい。しかしながら、後者の場合には、ｑ^＊（ｓ_ｔ、ｕ_ｔ）を評価する際に使用されなければならないｓ_ｔの値を知ることが可能ではないでために、方程式（３）のｑ^＊（ｓ_ｔ、ｕ_ｔ）はあまり有益な情報を提供しない。

使用可能なデータが、よくても状態値の確率だけを示し、相応して観測可能な純利益が、状態自体ではなく状態の確率の関数である部分観測マルコフ決定過程（ＰＯＭＤＰ）の場合

であり、ここで、方程式（１）によって定義されるｂ_ｔ＋１は状態測定値ｍ_ｔ＋１の陰関数である。この方程式は、方程式（２）から、単に、方程式（１）によって示される状態のわかっている確率に関連して方程式の平均を採ることによって得られる。方程式（４）は、次に、考えられる決定で純利益を最大にすることによって取得される。最大化は平均が採られた後に実行される必要があるため、これは方程式（３）の確率で重み付けされた平均ではないことに留意しなければならない。最適決定が使用可能な情報に基づいてのみ下すことができるのは明らかである。

一見これはＭＤＰの場合と形式上同一であるが、利益は、離散状態についてさえも、連続的な確率の関数である。このように、形式上の類似性に関わらず、方程式（４）を解くことは方程式（３）によって呈される問題よりはるかに難しい。それにも関わらず、種々の公知の手法が使用されている。

・離散状態に対して、Ｃａｓｓａｎｄｒａらは「部分的に観測可能な確率的領域で最適に動作すること（Acting optimally in partially observable stochastic domains）」、人工知能に関する第１２回全米会議の会議記録（Proceedings of the Twelfth National Conference on Artificial Intelligence）、シアトル、ワシントン州（Seattle, WA）（１９９４年）において、区分的に線形な関数としてｖ^＊を近似することに基づくいわゆる証人アルゴリズムを提案した。

・連続状態に対して、ＫａｐｐｅｎＨＪは「最適制御理論のための経路積分及び対称性の破壊（Path integrals and symmetry breaking for optimal control theory）」、ａｒＸｉｖ：物理学／０５０５０６６４（２００５年）の中で、経路積分定式化に基づいた統計物理学手法を採り、可変決定経路の確率重み付け合計として利益を取得する。

・本発明では、離散状態の場合に対処するが、連続状態にも明らかに拡張される、やや異なる手法が採られる。

方程式（４）は部分観測マルコフシステムの関連で最適意思決定の完全な記述を提供する。離散システム状態を仮定して、結果が取得されたが、該結果は連続状態についてさえも形式上正しいままである。また、該結果はすべての状態が明示的に観測される場合には方程式（２）のＭＤＰケースに帰着する。さらに、完全に観測される状態もあるが、完全に観測されない状態もある場合は特別の困難性はない。

方程式（４）は、概念上簡略であるが、単純な低次元の問題以外のものについては、方程式（４）の直接反復は収束するのが遅すぎて、有効ではない。これは、該方程式が、離散状態があったのと同じくらい多くの次元の、高次元空間内の単一の点で連続関数ｖ^＊を更新することに留意すれば分かる。したがって、該反復が収束するには、一般的には不定に大きな数の方程式（４）の反復を要するであろう。これより、方程式（４）が最適コントローラのための解を見つけるための方策とは程遠いことが直ちに明らかである。

前記方法は、平均正味値関数ｑとｖをなんらかのパラメータ形式で表現することによって実際的な解の問題に対処してきた。

上記に参照された証人アルゴリズムでは、これらの関数は区分的な線形関数によって表される。これは明らかに適切な仮定である。評価関数

は、方程式（２）の状態に依存する評価の確率重み付けされた平均であり、個々の評価が事実上、状態の確率の線形関数であるという明らかな結果を伴う。したがって、反復が有限数のステップで収束するならば、結果として生じる価値関数は必ず区分的な線形関数となる。したがって、この仮定は、優れた近似解が有限範囲を使用して取得できると仮定することに同等である。例えば、「多値制御問題及び混合密度ネットワーク（Multi-valued Control Problems and Mixture Density Network）」、インテリジェント制御システム及び信号処理に関するＩＦＡＣ国際会議（IFAC International Conference on Intelligent Control Systems and Signal Processing）、ＩＣＯＮＳ２００３年、編集者Ａ．Ｅ．Ｒｕａｎｏ、２、３８７から３９２ページ（２００３年）等の従来の制御参考文献では、しばしば、この同じ近似が正当であると判明している。

該証人アルゴリズムは、該アルゴリズムが多くの場合優れた性能を示す単純なモデルに実現されている。より複雑な（より高次元の）問題については、該アルゴリズムは予測できないほど非常に低速な性能を生じさせることがある。この困難性の本質は、線形性の仮定により解の有限な検索を保証されるが、該方法が解を提供するために必要とされる線形小面の数が予定されないという事実である。これらは反復の仮定でのみ決定され、大きな数がある場合には、収束は低速となる。

上記に留意されたように、本発明の好ましい実施形態で採られる手法はやや異なっている。決定問題の本質は、状態推定と意思決定の結合の問題である。したがって、実行可能な状態推定方法に密接に関連する決定問題に対する手法を検討することが適切である。

問題−空間の本質的な特徴は、状態の数が潜在的に非常に大きいが、それにも関わらず、解は問題−空間の非常に小さい部分しか占有しないことである。すなわち、確率関数は、多くの考えられる状態がほぼゼロの確率を有するスパース（sparse）となる。これにも関わらず重大な情報が使用できるようになるにつれ、確率空間の関連する部分がまったく変化してしまうため、空間の次元性を削減することは不可能である。例えば、空港警備システムでは、潜在的な乗客に爆破物を検知すると、状況の認識ととられるべき動作はただちにに変化する。

問題の状態推定部分では、統計サンプリングによって適切な手法が提供される。これは、例えば、ＡＤｏｕｃｅｔ、ＮｄｅＦｒｅｉｔａｓ、ＮＧｏｒｄｏｎによる「実践での順次モンテカルロ法（Sequential Monte Carlo Methods in Practice）」、シュプリンガー・フェアラーク（Springer-Verlag）ニューヨーク（New York）（２００１年）の中で記述されるような連続状態での問題で使用される粒子フィルタと類似している。粒子フィルタでは、連続状態に対応する無限数の考えられる状態が、状態の確率密度に比例して取られる状態のサンプルの有限集合によって表されている。離散状態の場合には、まったく同じ手法を使用することが可能で、類似する不偏サンプルを確率に比例する離散型確率関数から取る。

この離散粒子フィルタ手法では、該状態確率はＮ個のサンプルの有限集合により表される。

ここで、Ｕ_ｔは少なくともｔと同等に早い時間におけるすべての動作ｕ_ｔの集合である。

方程式（５）の近似状態確率が与えられると、以後の（ｔより大きい時間での）確率の計算は、考えられる遷移ダイナミクスでのサンプリング、及び測定確率による重要性重み付けによって先に進む。遷移行列Ｐ（ｓ_ｔ＋１｜ｓ_ｔ，ｕ_ｔ）の動的更新でのサンプリングは、更新された状態確率のサンプルの数を明らかにに拡大する。ダイナミクスから取られたＮ_ｓ個のサンプルがあった場合、更新後にはＮ×Ｎ_ｓ個の粒子がある。推定更新プロセスの最終段階は、Ｎ個のサンプルがこの拡大された集合から（置換により）取られる「再サンプリング（‘resampling’）」である。これは、サンプルの雑音を削減するために（残留再サンプリング等の）いかなる測定値も呼び出さない標準的な粒子フィルタ手法である。結果は、方程式（５）と同じ形式を有する状態の更新された確率に対する近似であり、更新代数は閉である。詳細は、ＡＤｏｕｃｅｔ、ＮｄｅＦｒｅｉｔａｓ、ＮＧｏｒｄｏｎによる「実践での順次モンテカルロ法（Sequential Monte Carlo Methods in Practice）」、シュプリンガー・フェアラーク（Springer-Verlag）ニューヨーク（New York）（２００１年）を参照すると入手できる。

Ｓ_ｔ＝｛ｓ_ｉ（Ｕ_ｔ−１，Ｍ_ｔ），∀ｉ∈｛１，...，Ｎ｝｝を時間ｔでのサンプルの省略表現として書くと、Ｓ_ｔが方程式（５）に示される確率から得ることができるであろう任意の統計の構築を可能にするためのすべての情報を含んでいるという意味で、Ｓ_ｔは方程式（５）の近似状態確率にとって十分な統計である。したがって、任意の追加の近似を呼び出さずに、方程式（４）の代りに、方程式（５）によって示される状態確率の表現と一致する最適決定プロセスの表現を書くことができる。

ここで、Ｐは、方程式（５）の近似確率によって重み付けられた評価であり、Ｙは関連付けられた最良の純利益である。直接評価の式を得ることは相対的に簡略なプロセスである。

また、更新行列П（ｍ_ｔ＋１Ｓ_ｔ＋１｜Ｓ_ｔ，ｕ_ｔ）は、基本状態推移行列及び測定確率から少し考えると構築できる。基本的なステップを以下に示す。ベイズ定理を使用すると、既定の測定値ｍ_ｔ＋１に対して、

となることに留意する。

したがって、サンプルＳ_ｔ＋１の対応する確率を構築することは簡略な（煩雑な場合）ことである。

観測値ｍ_ｔ＋１の確率はサンプルから自明に取得され、

以下の最終的な結果をもたらす。

このように構築されると、方程式（６）は、観測確率及び推移行列がそれぞれ方程式（８）と（９）で示されている、従来の「完全に観測された」ＭＤＰのための該最適意思決定器のためのハミルトン−ベルマン方程式である。

ほぼ同等なＭＤＰ問題へのこの変換の結果として、ＭＤＰ問題に対する従来の解法の全範囲がただちに使用できる。特に前述された方法は、上記に参照された、例えばＲ．Ｓ．Ｓｕｔｔｏｎ及びＡ．Ｇ．Ｂａｒｔｏによって説明されたような「値反復（‘value iteration’）」解法を使用して試験されている。この手法は、完全なオフライン解を取得するために理想的であり、決定を単に状態サンプルの関数として作表できるようにする。しかしながら、これは意思決定器にとって優れたベースラインを提供するが、ミッションにおいて（in a mission）探求されるサンプル空間のベースラインの部分を更新するオンライン強化学習段階を利用することはほぼ確実に有利となる。上記に参照されたように、Ｂａｒｔｏ及びＳｕｔｔｏｎはこのような多岐に渡る強化学習手法を提供する。

実際のミッションのいかなるものもサンプル空間の非常に小さい断片を探求し、ベースライン決定表で開始することが必須であることに留意せよ。

（設計段階）
ある特定のシステム及びある特定の制御問題に関してコントローラ１００のセットアップのために従うことができる設計段階プロセスの概要が、本発明の好ましい実施形態に従って図３に関して本明細書で説明される。設計段階プロセスは、好ましくはコントローラ１００のオンライン動作の前のオフラインプロセスとして動作し、ある特定のシステム１１０及び制御問題に関して確率システムモデル１２０及び制御規則集合１２５を入力するように設計されている。実際には、設計段階プロセスは計算集約的である。

図３を参照すると、制御対象である完全なシステム１１０の元のＰＯＭＤＰ確率モデルを用いて、設計段階プロセスがステップ３００で開始する。ステップ３０５で、ステップ３００からの元のＰＯＭＤＰモデルを使用して、観測（測定）モデルに関して状態サブ空間が特定され、十分な数の粒子がこれらのサブ空間のそれぞれで状態不確実性を表すように選ばれ、結果的に特定の制御問題のためのサンプル−状態空間が生成される（３１０）。

ステップ３１５では、目的は、ＳＴＥＰ３００からの元のＰＯＭＤＰ及び３１０からのサンプル−状態空間を使用して、必要に応じて再正規化される（renormalized）元の推移確率の（組み合わせの）積として条件付きサンプル−状態遷移確率を構築することである。これは結果として３２０で、サンプル−状態表現のための動的モデル―確率システムモデル１２０―を生じさせる。次のステップ、ステップ３２５は、元のＰＯＭＤＰモデル（３００）、サンプル−状態空間（３１０）、及び動的モデル（３２０）を、サンプル−状態表示のための平均評価関数の評価に使用し、新しいＭＤＰ問題記述（３３０）を取得するためにサンプル−状態表示をサンプル−状態ダイナミクスに組み込むことである。この新しいＭＤＰ問題記述（３３０）は、次にこのＭＤＰと関連付けられたハミルトンベルマン方程式を構築するために、及び特定のシステム１１０のための最適制御解を取得するために反復的に解くためにステップ３３５で用いられ、こうして３４０で、考えられるサンプル状態によって索引が付けられる制御動作の表が作成される。この表が制御規則集合１２５である。

（ある特定の問題に対する適用例）
本発明の好ましい実施態様に最も関連性のある制御問題は、多岐に渡る適用例で、また幅広い範囲の操作要求に対して発生する。これらは複数の工場の監視制御、人間のパイロットによる民間航空機または軍用機の飛行、または補助的なオートパイロットによって拡大される自律コントローラ及びターゲットを追跡するため、または地形を探検するための複数のロボットセンサプラットホームの協調制御を含む。これらの分散制御システムの中心的な問題は、多数の別々の要件によって動かされる別々の制御動作の連携の必要性である。

このような状況の一例として、原子力発電所の監視は、電力出力を維持し、かつ、安全性を保証することを要求される。制御棒の自動コントローラがより遅い制御棒を挿入し、電力出力を削減するのが見られる場合、動作を無効にするか、あるいは動作を受け入れるという監視システムの最適決定は、自動コントローラの動作の理由に左右される。原因が、冷却剤の流れが失敗したためにコアの温度が上昇する可能性が高いという考えによるものである場合には、温度センサの故障が自動動作の原因である場合とは反対に、監視動作は非常に異なる必要がある。

高性能有人航空機またはレーシングカーの場合のように、全体的な制御がパイロットまたはドライバからの制御出力と、なんらかの自動操縦または牽引制御システムからの関連する出力の積である場合には、類似する矛盾が生じる。これらの矛盾は（自動または人間の）ドライバまたはパイロットが自動システムの好ましい動作の原因を理解し、どのように自動システムが応答するのかを理解した上で自らの出力を調整することができる場合にだけ解決できる。このような状況認識がない場合に、周知の研究されている現象、つまり「パイロット誘起振動」が発生することが知られている。

これらの例はすべて本来非線形であり、制御問題を、独立して解くことができるより小さな問題の集合に因子分解することができないような制御問題を生じさせる。したがって、原子力発電所では、最適監視に基づく制御、及び別個に設計された最適自動コントローラを提供することができない。これは、ほとんどのサブシステムが高い知能を持った人間である場合にはあまり深刻ではない可能性があるが、潜在的な脅威を追跡しようと試みるような複数のＵＧＶ（無人地上車（unmanned ground vehicles））の場合にはさらに困難になる。該脅威が建物の後方にあり、１対のＵＧＶの内の第１のＵＧＶが左回りで該建物の周りを巡回する場合には、第２のＵＧＶの最良の動作は、該動作自体の観測だけに依存するのではなく、この動作の理由に依存する。例えば、第１のＵＧＶが建物の後方に援護を求める脅威を見たかもしれないし、あるいは脅威の別の考えられる場所への最短のルートにすぎないかもしれない。

これらの高次元の問題の複雑さのため、及び制御動作の理由を表す、システムの状態の推定値の提供を制御問題自体から切り離すことができないという事実のために、現在の最良の慣行は論理的根拠（システムの状態）を得ることなく制御問題の解を直接に得ることを推奨する。本発明は、制御動作のための状態推定（論理的根拠）及び制御動作自体を提供する方法であって、状態推定値が制御動作の選択において直接的に使用されるという意味で努力が無駄にされることのない方法を提供する。

本発明の第１の好ましい実施形態による、制御されるシステムへのインタフェースを含むコントローラの図表示である。ベイジアンネットワークの形を取る、制御される完全なシステムの確率モデルの表示である。本発明の好ましい実施形態によるコントローラの設計段階プロセスの概略表示である。

Claims

システムの状態を示す複数のセンサから受け取られた測定データに基づいてシステムを制御するように動作するコントローラであって、
前記システムの動的進化のための確率の少なくとも１つの集合と、前記システムの前記複数のセンサに対して対応する測定モデルと、を定義するシステムモデルと、
前記複数のセンサから測定データを受け取り、前記システムモデルを参照して、それぞれが前記システムの状態を表す複数のサンプルを生成するように動作する確率論的な推定器と、
前記システムの考えられる状態を表す複数の考えられるサンプルのそれぞれについて、前記システムで実施される動作を定義する情報を定義する前記システムモデルに対応する規則集合と、
前記確率論的な推定器の出力を受け取り、前記規則集合を参照して、前記システムで実行される１つ以上の対応する動作を定義する情報を選択するように動作する動作セレクタと、
を備えるコントローラ。
前記測定データは前記システムの状態を定義する、請求項１に記載のコントローラ。
前記測定データは、前記システムが既定の状態にある所定の確率を示す、請求項１に記載のコントローラ。
前記動作セレクタは動作及び関連付けられた重み係数の推奨される集合を複数生成し、前記重み係数に比例する確率で前記動作の少なくとも１つを確率的に選択するように動作する、請求項１ないし請求項３のいずれか１項に記載のコントローラ。