JP2008537271A - コントローラ - Google Patents

コントローラ Download PDF

Info

Publication number
JP2008537271A
JP2008537271A JP2008524597A JP2008524597A JP2008537271A JP 2008537271 A JP2008537271 A JP 2008537271A JP 2008524597 A JP2008524597 A JP 2008524597A JP 2008524597 A JP2008524597 A JP 2008524597A JP 2008537271 A JP2008537271 A JP 2008537271A
Authority
JP
Japan
Prior art keywords
state
controller
control
model
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008524597A
Other languages
English (en)
Other versions
JP4875080B2 (ja
Inventor
ケイド、ネイル・アレクサンダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BAE Systems PLC
Original Assignee
BAE Systems PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BAE Systems PLC filed Critical BAE Systems PLC
Publication of JP2008537271A publication Critical patent/JP2008537271A/ja
Application granted granted Critical
Publication of JP4875080B2 publication Critical patent/JP4875080B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Selective Calling Equipment (AREA)

Abstract

少なくとも部分的な自律性をもって、センサ測定データに基づきシステムの状態を完全に判断することが不可能である環境におけるシステムの状態を示す複数のセンサから受け取られた測定データに基づいて、前記システムを制御するように動作するコントローラが提供される。前記コントローラは、前記システムの動的進化のための確率の少なくとも1つの集合と、前記システムの前記複数のセンサのための対応する測定モデルとを定義するシステムモデルと、前記センサから測定データを受け取り、前記システムモデルを参照して、それぞれが前記システムの状態を表す複数のサンプルを生成するように動作する確率論的な推定器と、前記システムの考えられる状態を表す複数の考えられるサンプルのそれぞれについて、前記システムで実施される動作を定義する情報を定義する前記システムモデルに対応する規則集合と、前記確率論的な推定器の出力を受け取り、前記規則集合を参照して、前記システムで実行される1つ以上の対応する動作を定義する情報を選択するように動作する動作セレクタとを備える。
【選択図】 図1

Description

本発明はシステムの制御に関し、特に、関連するシステムの状態を完全に判断することが不可能である環境において、センサ測定に基づいて該環境の制御されるべき部分の範囲を画定し、少なくとも部分的な自律性をもって動作するように設計された最適化されたコントローラに関するが、これに限られない。
部分的に観測でき、つまりシステムの状態を、環境の利用できる測定(観測)を通して部分的にだけ判断できるシステムの最適制御は、活発に研究され続けている分野である。このいわゆる「部分的観測性」は、(例えば)センサの不正確性または、より顕著には、コントローラが始められる動作に関連する状態のための適切なセンサを欠いていること等の原因から生じる。このような状態は、特に、制御されるシステムが、制御されるシステムの性能に見合うように特に設計されていない他の同様に自律的なエンティティを含む大きなシナリオの小さな部分である、相対的に構造化されていない環境で発生する可能性が高い。あらゆる分野で、ロボットシステム(例えば、自動国境監視、農業における無人農薬空中散布、自律監視「ピル」を使用する腸管マッピング(mapping))の使用の増加が予想される中で、このような状態はますます重要になり、この技術には多くの潜在的な適用例がある。
これらのシステムを制御する上で重要な要件は、特に外乱がコントローラの動作に反応する可能性が高いときに、非常に限られたセンサ情報を使用して非常に広範囲の外部の外乱に合理的に反応する能力である。例えば、空中農薬散布では、鳥との衝突を回避する必要性がある場合があるが、散布対象の農作物の領域全体を横断する動作は必然的に農作物から飛び立つ鳥につながる。鳥は農作物の上では見えない可能性があるが、鳥との衝突の発生を最小限に抑えるような散布の最良のパターンを定めるために、鳥の挙動のモデル形式での経験が使用することができる。
この問題の領域に対処する手法は最適制御理論により提供される。この一般的な問題に再帰的解法を与える基本的な方程式は、例えば、「ダイナミックプログラミング(Dynamic Programming)」、プリンストン大学出版(1957年)でR E Bellmanによって説明されるようなハミルトンベルマン方程式である。ハミルトンベルマン方程式は、相対的に簡略な制御問題の制限された範囲においてのみ正確に解くことができる。
特に、性能基準が二次であり、環境の観測で生じる雑音が本質的にガウスであると推定される線形システムの場合、Goodwin及びKwai Sang Sin(適応フィルタリング、予測及び制御(Adaptive Filtering, Prediction and Control)、プレンティスホール(Prentice Hall)(1984年))は、例えば、カルマンフィルタを使用して、オンラインでシステムの状態を推定することと、状態推定プロセスとは別個に設計された完全状態フィードバックコントローラに該状態推定値を使用することとを備える、システムを制御するための方法を説明している。この方法は、カルマンフィルタ自体の方程式に非常に類似したリカッティ方程式の組のオフライン解を含む。このプロセスは関連する制御問題に対して的確な解を与えるが、解を得るために必要とされる仮定は実システムではめったに満たされない。
コントローラ及び状況推定を別々に解くことを可能にする「分離原理」を呼び出すことは、より現実的な状況では不可能である。このような分離は推定と制御の両方を、別々の事前に計算された利得係数に関してコンパクトに表すことを可能にする。この分離がない場合、最適制御は、単に瞬間誤差推定だけに依存するのではなく、観測の結果に依存する。この密接な結合(intimate coupling)のため、非線形センサとダイナミクス、及び相応して(例えば、「システム浸漬を介した非線形適応安定化:制御設計及び適用例(Nonlinear adaptive stabilization via system immersion: control design and applications)」、制御及び情報科学の講義ノート(Lecture Notes in Control and Information Sciences)、シュプリンガー・フェアラーク(Springer-Verlag)、ベルリン(Berlin)、311、1から21ページ(2005年)にD.Karagiannis、R.Ortega及びA.Astolfiによって説明されているような)非ガウス統計によって特徴付けられるこのような複雑なシステムのコントローラの設計に対する通常の手法は、状態推定を完全に回避し、コントローラシステムのダイナミクスの分析に基づいてコントローラを直接的に設計することである。
この手法は制御のために十分であるが、講じられた制御動作の解釈を行わない。これは閉じた自律システムにとっては重大な問題ではないが、このようなシステムが協力している人間のオペレータにリンクされている場合、ロボットのアクションに対する説明を行うシステムコントローラがないと、人間の協力者は該アクションに対抗する結果となりえるため、望ましくない挙動が生じる場合がある。パイロット誘起振動がこの現象の一例である。
システムの状態を、直接的に観測される離散値によって定義できる線形システムの場合には、最適制御問題は、ちょうど、NP完全である周知の「巡回セールスマン」問題の最適制御問題である。つまり、一般解を得るために要する時間は、状態数のいかなる多項式よりも速く拡大縮小する(scale)ことが知られている。にもかかわらず、少なくとも効果的な有限範囲の場合には、実際的な近似解を得られる多くのアルゴリズムであって、制御アルゴリズムがオフラインで解かれるか、または、制御動作が講じられるにつれて、反復的に改良されるものが知られている。これらの方法は一般的には、制御動作及び性能基準で補強されている、システムの状態と測定を表すベイジアンネットワークを備えるマルコフ決定過程(MDPs)の枠組みの中で説明される。このモデルにおいては、状態と測定の間の確率論的なリンクは測定モデルと呼ばれ、異なる時点における状態間のリンクがシステムダイナミクスのモデルを構成する。このダイナミクスは該コントローラ動作によってパラメータ化され、システムの性能は、システムの状態を条件とする(恐らく確率変数である)評価(rewards)によって監視される。この確率的構造が与えられれば、特定の制御動作の利点は純利益関数(net return function)で蓄積できる。長い目で見たときの純利益を最適化するように動作を選ぶと、最適コントローラの設計への道が与えられる。
離散値状態を用いるMDPシステムの場合には、上記に参照されたハミルトンベルマン方程式は離散状態空間における行列方程式であり、最適制御のための解はこの行列方程式を反復することによって得られる。個々の反復は状態数の多項式であるマトリクス乗算を必要とし、その結果、有限範囲を仮定できるならば、ほぼ多項式時間内に解全体を見つけることができる。Sutton R S及びBarto,A G、による教科書「強化学習−序論(Reinforcement Learning - an Introduction)」、MIT出版、ケンブリッジ、マサチューセッツ、(1998年)の中で、Barto及びSuttonは、このような離散状態決定問題を解くための多くの異なる方法を説明している。
すべての状態が「よく観測されている」わけではない、つまり観測に基づいてシステムのすべての状態を確実に判断することができない一般的な場合には、制御問題は、部分的観測マルコフ決定過程(POMDP)と呼ばれる手段によって解かれる必要がある。この場合には、前述されたMDP解法は実行可能ではない。同じMDP手法は、状態がよく観測されていないときにも等しく有効であるが、結果として生じる方程式は状態自体での合計ではなく、状態の確率での積分を必要とする。このような方程式は正確に可解ではなく、公知の近似解(例えば「証人(Witness)」アルゴリズム)さえ、多項式となることが保証されていない。
Kaelblingらによって開発され、例えば、Anthony R.Cassandra、Leslie Pack Kaelbling、及びMichael L.Littman「部分的に観測可能な確率的領域で最適に動作すること(Acting optimally in partially observable stochastic domais)」、人工知能に関する第12回全米会議の会議記録(Proceedings of the Twelfth National Conference on Artificial Intelligence)、シアトル、ワシントン州(1994年)に説明されている証人アルゴリズムは、アルゴリズムの取り扱いやすさが先験的に測ることが困難であるため、実際問題としては使用するのが困難である。このアルゴリズムでは、上記に参照された積分の問題は、大局的な利益関数が区分的に線形であると仮定することによって離散問題に変換される。この仮定は根本的なハミルトンベルマン方程式の形と一貫しているが、これは解を生じさせられる線形ファセット(facets)の数に制限を課さない。ここで、解決時間はこのファセットの数の多項式であるが、ファセットの数は無制限に大きくなることが可能であるので、解は依然として非多項式である可能性がある。
実際には、コントローラ設計がオフラインで実行される場合には、実行可能な時間内に妥当な解を得るために解の有効領域を調整することが可能であるため、これは、重大な制限にならない場合がある。しかしながら、該方法はファセットの数、したがって計算時間が、解プロセスが進行するにつれてのみ得られるという望ましくない特徴を有している。これは、よくても該手法はオフラインでのコントローラ(意思決定器(decision maker))設計に限られることを意味する。
証人アルゴリズム手法は、該手法が最適制御動作と該システム状態の最適推定の両方を提供するという問題に対処し、動作のための論理的根拠を与えるという優位点を有している。対照的に、MacAllester及びSinghによる最新の研究(「人工知能における不確実性(Uncertainty in Artificial Intelligence)、第5巻、409ページ(1999年)」は、従来の制御において上記に参照されたKaragiannisらの手法に類似した手法を採り、測定の履歴に関して直接的にPOMDP問題の制御解を求めることで状態推定を完全に回避する。上記に留意されたように、このような手法は、制御の複数のレベル、特に人間のプレーヤとの対話を必要とする、レベルの統合を困難にする。
部分観測は、任意に正確にすることができる解を提供する公知の手法がない問題につながるが、完全に観測できないことがあまり影響せず、完全に観測された場合を解き、次にこの古典的な解の回りの変動を検討することによって摂動解を探すことによって近似解を得ることが可能であるな場合が多くある。連続状態空間の場合、これはラプラス近似である。
最近では複数の古典的経路を可能にすることによってこの手法を拡大しようとする試みがあった。特に、H.J.Kappenの「最適制御理論のための経路積分及び対称性の破壊(Path integrals and symmetry breaking for optimal control theory)」、arXiv:物理学/0505066 4(2005年)の中で、Kappenは、すべての古典的な最適解経路の近傍からのシステム軌跡上でサンプリングすることによってこの拡張に対処してきた。この手法では、最適に制御される経路は、考えられる経路のサンプルを適切な尤度の重み付けを用いて平均化することによって得られる。この手法は、再帰的定式化(recursive formulation)のオンライン最適化を可能にし得るという潜在的な利点を失い、該手法は状態の推定値を計算する必要性も回避する。後者は優位点として見られる可能性があるが、自律ロボットシステムの制御された動作を「理解する」必要性がある場合には、優位点ではない。
第1の態様から、本発明はシステムの状態を示す複数のセンサから受け取られた測定データに基づいて前記システムを制御するために動作可能なコントローラにある。
前記コントローラは、
システムの動的進化の確率の少なくとも1つの集合と、システムの前記複数のセンサに対して対応する測定モデルとを定義するシステムモデルと、
前記複数のセンサから測定データを受け取り、前記システムモデルを参照して、それぞれがシステムの状態を表す複数のサンプルを生成するように動作する確率論的な推定器と、
システムの考えられる状態を表す複数の考えられるサンプルのそれぞれについて、システム内で実施される動作を定義する情報を定義する前記システムモデルに対応する規則集合と、
前記確率論的な推定器の出力を受け取り、前記規則集合を参照して、システムで実行される1つ以上の対応する動作を定義する情報を選択するように動作する動作セレクタと、
を備える。
本発明の第1の態様によるコントローラは、不確実性、つまりセンサデータまたはシステムの動作環境の他の測定値が(外部環境と自律システム自体のどちらかまたは両方を備える)システムの状態の正確な判断を提供するには不十分であるような不確実性のあるシステムの最適制御を達成するのに特に適している。コントローラは、少なくとも部分的にはセンサデータによって表されるような、環境の不完全な観測に基づいてシステムで講じられる制御動作を決定するために好ましいアルゴリズムを実行するように動作する。好ましくは1組のアルゴリズムがあり、第1のアルゴリズムは観測を制御動作の上に対してマッピングするためであり、第2のアルゴリズムはマッピング関数の構造を決定するためである。
有利なことに、本発明の好ましい実施形態によるコントローラは特に、上記に参照された、ハミルトンベルマン方程式の近似解のための方法を提供し、該ハミルトンベルマン方程式は、単純な制御問題の制限されただけの範囲よりもさらに幅広い範囲の状況で適用可能となるであろう。該方法はマルコフシステムの最適制御に対する一般的な「動的計画」手法に基づいている。これは最適制御概念を支える一般的な原則であるが、その複雑さゆえ、現実の適用例で実現することは実行不可能である。しかしながら、本発明の好ましい実施形態では、この一般原則に基づいているが、実際的な適用を可能にする新しい方法が提供される。この新しい方法の重要な部分は、観測に基づいてシステムの状態を推定することである。
好ましくは、必要な推定フィルタを構築するためには従来の統計サンプリング手法が使用され、本発明の革新的な部分はコントローラの構築においてこれらの統計サンプルを使用することにある。
本発明の好ましい実施形態によるコントローラは、連続システムと離散システム両方に使用されることができるが、コントローラは離散自動制御及び意思決定に対して特に効率的な形式を達成する。
本発明の好ましい実施形態は、このような自律システムが人間の参加者の動作と自らの動作を調整することを必要とすることが予想される自律ロボットシステムのニーズによって動機付けられるものである。したがって、本発明によるコントローラの有利な特徴は、コントローラのロボットのような挙動を、人間の協力者が理解できるように、システム状態の制御と、システム状態の一貫した推定との両方を提供するというものである。
本発明の好ましい実施形態によるコントローラの潜在的な適用例は、例えば自律走行車の制御からセキュリティシステム及び金融システムの制御に及ぶ。
本発明の好ましい実施形態では、測定データはシステムの状態を定義する。代わりに、または組み合わせて、測定データは、システムが既定の状態にある、所定の確率を示している。
本発明のさらなる好ましい実施形態によるコントローラでは、該動作セレクタは複数の推奨された動作の集合と関連付けられた重み係数を生成し、前記重み係数に比例する確率で前記動作の少なくとも1つを確率的に選択するように動作可能である。
以下の好ましい特徴が、本発明の好ましい実施形態の範囲に入る。
1)「サンプル状態表現」は、それぞれが元の状態空間の区分から導かれる別々のサンプル集合を備え、規則集合と動作セレクタの関数は別々の区分に対して別々の規則及びセレクタを備る。
2)規則集合は、(作表を必要とするデータがより少ないという優位点を持つ)同じ動作を有するサンプル状態のクラスタに関して編成され、動作セレクタは異なるサンプル状態ではなくクラスタに対して動作する。
3)暗示的にまたは明示的にのどちらかでシステムダイナミクスを更新するために、制御動作に対する対応の観測された統計を利用することによってコントローラの動作の過程で規則集合を更新し、それによって上記に参照されたハミルトンベルマン方程式を使用する制御規則の反復適応を可能にする。
ここで、本発明の好ましい実施形態が、添付図面を参照してさらに詳細に、及び一例としてのみ説明される。
本発明の好ましい実施形態によるコントローラ及び制御されるシステムへの、該コントローラのインタフェースの概要がここで図1を参照して説明される。
図1を参照すると、コントローラ100は、制御対象のシステム110の挙動または動作を表す多様なパラメータを監視するまたは測定するように順に構成された多くのセンサ105から入力を受信するように構成されている。センサ105からの入力を受信した結果としてコントローラ100によって選択される動作は、例えば、動作エフェクタ115によって解釈され、動作エフェクタ115によってまたは動作エフェクタ115の制御下で実現される、システム110に対する要求の形で、動作エフェクタ115に通知される。
コントローラ100は、好ましくは条件付きで依存する推移確率の集合の形で、制御対象のシステム110のダイナミクスを表すデータを含む確率モデル120を備える。このような確率システムモデル120の単純な例は以下の付属Aに示されている。コントローラ100は、後述される設計段階中に入力され、コントローラ100の動作中に動作セレクタ130によって選択され得る動作を定義する規則を含む制御規則集合125をさらに備える。制御規則集合125に記憶されている規則は、好ましくは、制御対象であるシステム110の十分に正確な記述を提供することを意図した、システムモデル120の状態の確率からのサンプルの集合であるとして定義されているいわゆる「サンプル状態」に基づいて定義される。
コントローラ100は、詳細な動作が後述される確率論的推定器135であって、入力としてセンサ105からのデータを受信し、受信したデータ及び確率システムモデル120に記憶されているデータに基づいて、動作セレクタ130にサンプル状態を出力するように動作可能な確率論的推定器135をさらに備える。動作セレクタ130は、確率論的推定器135からサンプル状態を受け取ると、制御規則集合125に問い合わせし、適切な動作を決定し、このようにして動作エフェクタ115に出力される要求を生成する。
本発明の好ましい実施形態によるコントローラ100の特に有利な特徴は、観測によって直接アクセス可能な「サンプル状態」として構築される離散状態に関しての制御問題の定式化である。このようにして、制御問題は、従来の手段によって解決されることができる同等の(完全に観測される)マルコフ決定過程に変換されると同時に、システムの状態の最良の推定と最良の制御動作の選択との間に直接的なリンクが提供される。有利なことに、この直接的なリンクが、コントローラによって開始される動作のための論理的根拠を可視的にすることができ、該コントローラは、本発明の好ましい実施形態によるこのようなコントローラを備える自律システムを、人間、または同じ環境で動作する他のエンティティと統合することを容易にする。この可視性は、確率論的推定器135の適切且つ従来の出力であるサンプル状態を通して提供される。直接的にサンプル状態に基づく制御規則集合125を用いると、制御及び推定は同じ状態表示を使用するため、コントローラ100の効率的な実現が可能となる。これらの代表的なサンプル状態は直接的に観測可能であるため、コントローラ100によって実現される制御プロセスの観測された結果から瞬時にフィードバックする可能性がある。すなわち、該コントローラ100によって選択された任意の制御動作の実現後、結果として生じる(観測された)システム110の状態は、システム110のためのMDP「サンプル状態」ダイナミクスモデルの予測に基づいて期待される状態と比較できる。これは、本発明の好ましい実施形態において、コントローラまたは意思決定器の適応設計の可能性を与え、これにより、少なくとも部分的には確率システムモデル120によって表されるようにシステム110のダイナミクスモデルが、システム110のダイナミクスモデルの、観測された動的挙動を反映するように、オンラインで更新される。このような敵応性は、システムモデルがコントローラ100の最適決定関数のオフライン設計を可能にするために事前に十分によく知られていない可能性が高い、自律性の意思決定において特に有利である可能性が高い。
線形ダイナミクス及びガウス雑音プロセスを仮定しないシステムに固有の困難は、状態推定及びコントローラ設計の強力な結合である。このような形式では、状態推定はそれ自体困難であり、一般的には、近似解を得られるようになんらかの統計的なサンプリング方法の手段を用いることが必要である。本発明の好ましい実施形態の重要な技術革新は、状態確率のこれらの統計サンプル、つまりサンプル状態を、動作セレクタ130の設計のための近似的な「十分な統計」として使用することである。該サンプル状態は確率論的推定器135によって提供される推定状態の十分な数の統計サンプルの集合であり、したがって、該サンプル状態は、制御規則集合125に従って関連する動作を選択するために、確率論的推定器135によって出力され、動作セレクタ130によって使用される状態信号である。
好ましくは確率論的推定器135によって実行されるような状態推定のために使用される統計サンプリング方法はしばしば「粒子フィルタ」と呼ばれ、各サンプル(又は粒子)は、本来、例えばセンサ105によって出力されるセンサデータのような、使用可能な観測データによって提供されるシステムの不完全な知識が与えられた場合に、自律サブシステムが動作する環境で発生し得るイベントの集合からの不偏サンプルである。このような粒子フィルタは、事実上、どの時点においても、仮説の該サンプルの結果にわたる平均として、システムの状態の最良の推定値を提供する多重仮説推定器である。粒子フィルタに関するさらに詳細な情報は、A Doucet、N de Freitas、N Gordon、実践での順次モンテカルロ法(Sequential Monte Carlo Methods in Practice)、シュプリンガー・フェアラーク(Springer-Verlag)ニューヨーク(2001年)に提供され、本明細書ではさらに説明されない。
状態仮説がどれほど多様であっても、ただ1つの制御動作しか講じることができないため、コントローラによって講じられる適切な制御動作を決定するためにこのような多重仮説の記述を使用できるであろうことは、当業者にとってただちに自明ではないであろう。したがって、本発明の好ましい実施形態は、制御動作を、特定のサンプルまたは考えられるサンプルの平均ではなく、サンプル状態の関数、つまりシステムモデル120に定義されるように、状態の確率から確率論的推定器135によってサンプリングされた所定数の「粒子」であると見なす。このようにして、本発明の好ましい実施形態では、一般的な場合の制御動作を状態の確率密度の汎関数と見なすのではなく、近似的表現が状態の確率からの有限サンプルの空間上の関数として提供される。ちょうど、状態推定の場合のように、固定数のサンプルを考慮することが適切であり、これにより、動作を制御するためのサンプル集合からのマッピングが次元性を固定することができる。これは、ただちにこの手法に基づくアルゴリズムの魅力的な特徴をもたらす。つまり、計算問題の規模は記述で使用される、選ばれた数の粒子によってだけ固定される。
特に、アルゴリズムの実行速度はシステムモデルの複雑さまたは状態の不確実性の程度に依存するのではなく、この粒子(統計サンプル)数は実行可能な実行速度を提供するために先験的に選ぶことができる。
発明されたアルゴリズムは、該アルゴリズムの基本的な形においてシステムの離散状態空間記述を含む。この記述は従来のMDPまたはPOMDPアルゴリズムで必要とされる形の測定モデルと、システムダイナミクスモデルとを備える。
アルゴリズムは、MDPシステムのための一般的な動的計画法手法に従った経路に沿った各時間ステップにおける、状態及び動作の関数として蓄積された個々の評価の合計として、システムの状態空間軌跡に沿って平均期待利益関数を最大限にするためにシステムの制御を行う。
一般的なPOMDPアルゴリズムとMPDアルゴリズムと同様に、本発明の好ましい実施形態によるコントローラ100によって実現されるアルゴリズムには2つの段階が含まれる。第1に、最適制御関数または規則集合125が、わかっているシステムの状態の関数として取得される。第2に、該最適制御が、測定データからシステムの状態に関する最良の情報を推論し、必要とされる制御動作を取得するために計算された制御関数を使用することによって行われる。
好ましくは、最適制御規則は設計段階でオフライン設計され、制御規則集合125に「ルックアップ」関数として組み込まれ、システム110の状態に関して確率論的推定器135によって測定が行われる際に最適決定を提供するために動作セレクタ130によって使用される。しかしながら、本発明の好ましい実施形態では、さらに効率的な実現のために、このようにして初期化されるコントローラ100が、利用される際に同時に順次更新されることができる。
本発明によるコントローラ100で実現されるアルゴリズムの特に革新的な特徴は、測定(センサデータ及び他の観測入力)の結果として取得されたこれらの状態の確率から、システムのとりそうな状態のいくつかの数(N)のサンプルに関して、システム100の現在の状態の知識を表現することである。N個の「有望な状態のサンプル」又は粒子の、この集合を使用して、新しい補助的なMDPが構築され、該補助的なMDPにおいては、該サンプル集合は、近似された、問題に対して十分な統計値であり、これらのサンプル集合が補助的なMDPの「状態」として解釈される。明らかに、サンプルの数は状態の元の数より指数的に大きくなるが、数Nを制限することにより、この空間は実行可能な規模に制限できる。例えば、元は16の状態があった場合には、N=3の場合816のサンプル状態がある。ここで、状態のさらに大きな数でサンプルの数を増加させることは妥当であろうが、粒子の数の選択は、すべての考えられる状態を探求する問題というよりも、システムのありそうな変動を十分に探求する問題であり、したがって状態の数よりもはるかに少ないサンプルの数を有することが妥当である。
このMDPを実現するためには、サンプル状態及び関連する測定モデルの対応するダイナミクスを表現するサンプル状態マルコフ決定過程(SSMDP)を、コントローラセットアップのための設計段階の間に定義することが必要である。これらは従来のベイジアン統計的推論によって取得され、考えられるサンプルに条件をつける。このプロセスは計算上の要求が厳しく、オフラインで実行され、一度だけ実行される必要があることが好ましい(例えば、A Doucet、N de Freitas、N Gordon、実践での順次モンテカルロ法(Sequential Monte Carlo Methods in Practice)、シュプリンガー・フェアラーク(Springer-Verlag)ニューヨーク(2001年)を参照すること)。
これ(SSMDP)が構築されたので、状態推定の解、コントローラ設計及び制御の実現は、任意のMDP解法アルゴリズムを使用して得られる。ここで、MDPアルゴリズムがPOMDPアルゴリズムよりはるかに高速であり、特定の例の問題では本発明の好ましい実施形態によるアルゴリズムは、(上記に参照された)POMDP用の「証人」アルゴリズムを使用して取得される解と区別ができないほぼ最適なコントローラ解を計算時間の千分の1未満で提供することに留意するべきである。
多くの数の状態に対して、状態推定プロセス自体はサンプリングによって実現することができ、これにより、状態推定で使用される該サンプルは当然制御で使用される同じサンプルとなり得ることに留意すべきである。
本発明で使用される手法の概念上の簡略さを考えると、該アルゴリズムの多くの拡張を想像することが可能である。特に、該アルゴリズムは、状態推定問題が、サンプルが離散空間から引き出されて、ガウス分布の混合物を生成するために使用されるラオ・ブラックウェル(Rao-Blackwellised)粒子フィルタとして扱いやすくなるように、ガウス混合モデルに関して状態の確率密度を記述することによって連続状態空間に拡大されることができる。
その結果、離散要求及び該離散要求を満たす連続制御動作に対して類似した制御動作の因子分解を行うことが適切である。離散成分は制御問題を、連続制御動作を従来のコントローラ設計を使用するために解くことができる単一モード制御問題の集合に制限する。これらの連続コントローラの期待される利益が、次に、本発明のサンプリング技法を使用して解くことができる離散制御問題の評価関数になる。
本発明の好ましい実施形態は、相対的に乏しいセンサデータ(105)に基づいてシステム110の状態を推定し、この知識を使用して最適決定経路を推論するという問題に向けられている。数学的な記述の構造がどうであれ、結果は単に、観測のシーケンスを、考えられる動作にマッピングすることにすぎない。これは発見的なニューラルネットワーク関数当てはめ問題(heuristic neural network function fitting problem)として構築され得る。本発明の好ましい実施形態で採られる手法は、動的状態、測定値、決定及び評価を前提とする完全な確率空間において問題を表現し、条件付き確率因子分解に関して、これらのすべての状態の結合確率を表現するベイジアンネットワークによって因果モデル構造を課すことである。この構造は図2に示されている。
図2を参照すると、別々の変数間の関係性を、別々の変数の部分集合と関連付けられる別々の条件付き確率の形で表すモデル構造が示されている。より簡略な構成要素部分から、より複雑なモデルを構築できるようにするのはまさにこのような因子分解である。図2の図はそれぞれの一般決定の問題における、関心のあるすべての状態の結合確率を表している。図2に描かれているすべての変数は、関連する位相空間におけるベクトルであり、特に、
・システム状態Sは、時間「t」での状態が以前の時間の状態だけによって影響を及ぼされるように隠れマルコフプロセスによって決定される。
・測定値mはこれらのシステム状態から形成され、該システム状態のみが測定値を決定する確率変数であるが、すべての状態が測定可能であるとは仮定されない。
・システム状態の時間的発達を達成する所定の決定uが下される。一般的に、これらは毎回決定される先の確率に関して定義されるが、この説明においては、私たちは確率論的広がりなしに「純粋な戦略」だけを考慮する(該手法は、混合戦略の場合に容易に拡大できる)。
・決定動作の利点は、結果として生じる状態と、該状態が達成される結果となった決定の両方に依存する直接評価rによって提供される。
・決定システムの総性能は純利益qであり、これは該直接局所評価から蓄積される。決定システムが、動作からの直接便益に関連して将来の評価に正当な重みを与える決定戦略を提供できるようにするのがこの評価の蓄積である。
この記述から、前の測定値及び将来の評価からの純利益の対応する機能的推定値を考慮してシステムの状態の再帰的推定値を構築することは相対的に簡略である。離散状態を仮定すると、その時点までのすべての測定値が与えられると、時間t+1での状態の再帰確率は、以下のとおりであり、
Figure 2008537271
表記では、大文字はすべての前の状態の集合を示し、例えばM={mτ:τ≦t}である。
同様に、純利益の再帰方程式は、平均利益を決定するために使用することができる。
Figure 2008537271
最適性能を達成するために、この利益を最大にする決定uが下される必要がある。これが行われる場合、完全に観測された状態(‘m≡x’)について、マルコフ決定過程(MDP)での最適動作のための通常の方程式を与える最適意思決定プロセスに対するハミルトン−ベルマン方程式は以下のとおりであり、
Figure 2008537271
ここで、vは最適な将来決定のために取得される最大平均評価であり、qはある特定の決定及び以後続く最適決定を採るための対応する評価である。これらの第1の決定でqを最大限にすると、v及び最適な決定自体が得られる。
このすべては、完全に観測されたマルコフ決定プロセスがあるかどうか、あるいは測定値がシステム状態の完全な知識を提供するために不十分であるかどうかに関わらず、正しい。しかしながら、後者の場合には、q(s、u)を評価する際に使用されなければならないsの値を知ることが可能ではないでために、方程式(3)のq(s、u)はあまり有益な情報を提供しない。
使用可能なデータが、よくても状態値の確率だけを示し、相応して観測可能な純利益が、状態自体ではなく状態の確率の関数である部分観測マルコフ決定過程(POMDP)の場合
Figure 2008537271
であり、ここで、方程式(1)によって定義されるbt+1は状態測定値mt+1の陰関数である。この方程式は、方程式(2)から、単に、方程式(1)によって示される状態のわかっている確率に関連して方程式の平均を採ることによって得られる。方程式(4)は、次に、考えられる決定で純利益を最大にすることによって取得される。最大化は平均が採られた後に実行される必要があるため、これは方程式(3)の確率で重み付けされた平均ではないことに留意しなければならない。最適決定が使用可能な情報に基づいてのみ下すことができるのは明らかである。
一見これはMDPの場合と形式上同一であるが、利益は、離散状態についてさえも、連続的な確率の関数である。このように、形式上の類似性に関わらず、方程式(4)を解くことは方程式(3)によって呈される問題よりはるかに難しい。それにも関わらず、種々の公知の手法が使用されている。
・離散状態に対して、Cassandraらは「部分的に観測可能な確率的領域で最適に動作すること(Acting optimally in partially observable stochastic domains)」、人工知能に関する第12回全米会議の会議記録(Proceedings of the Twelfth National Conference on Artificial Intelligence)、シアトル、ワシントン州(Seattle, WA)(1994年)において、区分的に線形な関数としてvを近似することに基づくいわゆる証人アルゴリズムを提案した。
・連続状態に対して、Kappen H Jは「最適制御理論のための経路積分及び対称性の破壊(Path integrals and symmetry breaking for optimal control theory)」、arXiv:物理学/0505066 (2005年)の中で、経路積分定式化に基づいた統計物理学手法を採り、可変決定経路の確率重み付け合計として利益を取得する。
・本発明では、離散状態の場合に対処するが、連続状態にも明らかに拡張される、やや異なる手法が採られる。
方程式(4)は部分観測マルコフシステムの関連で最適意思決定の完全な記述を提供する。離散システム状態を仮定して、結果が取得されたが、該結果は連続状態についてさえも形式上正しいままである。また、該結果はすべての状態が明示的に観測される場合には方程式(2)のMDPケースに帰着する。さらに、完全に観測される状態もあるが、完全に観測されない状態もある場合は特別の困難性はない。
方程式(4)は、概念上簡略であるが、単純な低次元の問題以外のものについては、方程式(4)の直接反復は収束するのが遅すぎて、有効ではない。これは、該方程式が、離散状態があったのと同じくらい多くの次元の、高次元空間内の単一の点で連続関数vを更新することに留意すれば分かる。したがって、該反復が収束するには、一般的には不定に大きな数の方程式(4)の反復を要するであろう。これより、方程式(4)が最適コントローラのための解を見つけるための方策とは程遠いことが直ちに明らかである。
前記方法は、平均正味値関数qとvをなんらかのパラメータ形式で表現することによって実際的な解の問題に対処してきた。
上記に参照された証人アルゴリズムでは、これらの関数は区分的な線形関数によって表される。これは明らかに適切な仮定である。評価関数
Figure 2008537271
は、方程式(2)の状態に依存する評価の確率重み付けされた平均であり、個々の評価が事実上、状態の確率の線形関数であるという明らかな結果を伴う。したがって、反復が有限数のステップで収束するならば、結果として生じる価値関数は必ず区分的な線形関数となる。したがって、この仮定は、優れた近似解が有限範囲を使用して取得できると仮定することに同等である。例えば、「多値制御問題及び混合密度ネットワーク(Multi-valued Control Problems and Mixture Density Network)」、インテリジェント制御システム及び信号処理に関するIFAC国際会議(IFAC International Conference on Intelligent Control Systems and Signal Processing)、ICONS2003年、編集者A.E.Ruano、、387から392ページ(2003年)等の従来の制御参考文献では、しばしば、この同じ近似が正当であると判明している。
該証人アルゴリズムは、該アルゴリズムが多くの場合優れた性能を示す単純なモデルに実現されている。より複雑な(より高次元の)問題については、該アルゴリズムは予測できないほど非常に低速な性能を生じさせることがある。この困難性の本質は、線形性の仮定により解の有限な検索を保証されるが、該方法が解を提供するために必要とされる線形小面の数が予定されないという事実である。これらは反復の仮定でのみ決定され、大きな数がある場合には、収束は低速となる。
上記に留意されたように、本発明の好ましい実施形態で採られる手法はやや異なっている。決定問題の本質は、状態推定と意思決定の結合の問題である。したがって、実行可能な状態推定方法に密接に関連する決定問題に対する手法を検討することが適切である。
問題−空間の本質的な特徴は、状態の数が潜在的に非常に大きいが、それにも関わらず、解は問題−空間の非常に小さい部分しか占有しないことである。すなわち、確率関数は、多くの考えられる状態がほぼゼロの確率を有するスパース(sparse)となる。これにも関わらず重大な情報が使用できるようになるにつれ、確率空間の関連する部分がまったく変化してしまうため、空間の次元性を削減することは不可能である。例えば、空港警備システムでは、潜在的な乗客に爆破物を検知すると、状況の認識ととられるべき動作はただちにに変化する。
問題の状態推定部分では、統計サンプリングによって適切な手法が提供される。これは、例えば、A Doucet、N de Freitas、N Gordonによる「実践での順次モンテカルロ法(Sequential Monte Carlo Methods in Practice)」、シュプリンガー・フェアラーク(Springer-Verlag)ニューヨーク(New York)(2001年)の中で記述されるような連続状態での問題で使用される粒子フィルタと類似している。粒子フィルタでは、連続状態に対応する無限数の考えられる状態が、状態の確率密度に比例して取られる状態のサンプルの有限集合によって表されている。離散状態の場合には、まったく同じ手法を使用することが可能で、類似する不偏サンプルを確率に比例する離散型確率関数から取る。
この離散粒子フィルタ手法では、該状態確率はN個のサンプルの有限集合により表される。
Figure 2008537271
ここで、Uは少なくともtと同等に早い時間におけるすべての動作uの集合である。
方程式(5)の近似状態確率が与えられると、以後の(tより大きい時間での)確率の計算は、考えられる遷移ダイナミクスでのサンプリング、及び測定確率による重要性重み付けによって先に進む。遷移行列P(st+1|s,u)の動的更新でのサンプリングは、更新された状態確率のサンプルの数を明らかにに拡大する。ダイナミクスから取られたN個のサンプルがあった場合、更新後にはN×N個の粒子がある。推定更新プロセスの最終段階は、N個のサンプルがこの拡大された集合から(置換により)取られる「再サンプリング(‘resampling’)」である。これは、サンプルの雑音を削減するために(残留再サンプリング等の)いかなる測定値も呼び出さない標準的な粒子フィルタ手法である。結果は、方程式(5)と同じ形式を有する状態の更新された確率に対する近似であり、更新代数は閉である。詳細は、A Doucet、N de Freitas、N Gordonによる「実践での順次モンテカルロ法(Sequential Monte Carlo Methods in Practice)」、シュプリンガー・フェアラーク(Springer-Verlag)ニューヨーク(New York)(2001年)を参照すると入手できる。
={s(Ut−1,M),∀i∈{1,...,N}}を時間tでのサンプルの省略表現として書くと、Sが方程式(5)に示される確率から得ることができるであろう任意の統計の構築を可能にするためのすべての情報を含んでいるという意味で、Sは方程式(5)の近似状態確率にとって十分な統計である。したがって、任意の追加の近似を呼び出さずに、方程式(4)の代りに、方程式(5)によって示される状態確率の表現と一致する最適決定プロセスの表現を書くことができる。
Figure 2008537271
ここで、Pは、方程式(5)の近似確率によって重み付けられた評価であり、Yは関連付けられた最良の純利益である。直接評価の式を得ることは相対的に簡略なプロセスである。
Figure 2008537271
また、更新行列П(mt+1t+1|S,u)は、基本状態推移行列及び測定確率から少し考えると構築できる。基本的なステップを以下に示す。ベイズ定理を使用すると、既定の測定値mt+1に対して、
Figure 2008537271
となることに留意する。
したがって、サンプルSt+1の対応する確率を構築することは簡略な(煩雑な場合)ことである。
Figure 2008537271
観測値mt+1の確率はサンプルから自明に取得され、
Figure 2008537271
以下の最終的な結果をもたらす。
Figure 2008537271
このように構築されると、方程式(6)は、観測確率及び推移行列がそれぞれ方程式(8)と(9)で示されている、従来の「完全に観測された」MDPのための該最適意思決定器のためのハミルトン−ベルマン方程式である。
ほぼ同等なMDP問題へのこの変換の結果として、MDP問題に対する従来の解法の全範囲がただちに使用できる。特に前述された方法は、上記に参照された、例えばR.S.Sutton及びA.G.Bartoによって説明されたような「値反復(‘value iteration’)」解法を使用して試験されている。この手法は、完全なオフライン解を取得するために理想的であり、決定を単に状態サンプルの関数として作表できるようにする。しかしながら、これは意思決定器にとって優れたベースラインを提供するが、ミッションにおいて(in a mission)探求されるサンプル空間のベースラインの部分を更新するオンライン強化学習段階を利用することはほぼ確実に有利となる。上記に参照されたように、Barto及びSuttonはこのような多岐に渡る強化学習手法を提供する。
実際のミッションのいかなるものもサンプル空間の非常に小さい断片を探求し、ベースライン決定表で開始することが必須であることに留意せよ。
(設計段階)
ある特定のシステム及びある特定の制御問題に関してコントローラ100のセットアップのために従うことができる設計段階プロセスの概要が、本発明の好ましい実施形態に従って図3に関して本明細書で説明される。設計段階プロセスは、好ましくはコントローラ100のオンライン動作の前のオフラインプロセスとして動作し、ある特定のシステム110及び制御問題に関して確率システムモデル120及び制御規則集合125を入力するように設計されている。実際には、設計段階プロセスは計算集約的である。
図3を参照すると、制御対象である完全なシステム110の元のPOMDP確率モデルを用いて、設計段階プロセスがステップ300で開始する。ステップ305で、ステップ300からの元のPOMDPモデルを使用して、観測(測定)モデルに関して状態サブ空間が特定され、十分な数の粒子がこれらのサブ空間のそれぞれで状態不確実性を表すように選ばれ、結果的に特定の制御問題のためのサンプル−状態空間が生成される(310)。
ステップ315では、目的は、STEP300からの元のPOMDP及び310からのサンプル−状態空間を使用して、必要に応じて再正規化される(renormalized)元の推移確率の(組み合わせの)積として条件付きサンプル−状態遷移確率を構築することである。これは結果として320で、サンプル−状態表現のための動的モデル―確率システムモデル120―を生じさせる。次のステップ、ステップ325は、元のPOMDPモデル(300)、サンプル−状態空間(310)、及び動的モデル(320)を、サンプル−状態表示のための平均評価関数の評価に使用し、新しいMDP問題記述(330)を取得するためにサンプル−状態表示をサンプル−状態ダイナミクスに組み込むことである。この新しいMDP問題記述(330)は、次にこのMDPと関連付けられたハミルトンベルマン方程式を構築するために、及び特定のシステム110のための最適制御解を取得するために反復的に解くためにステップ335で用いられ、こうして340で、考えられるサンプル状態によって索引が付けられる制御動作の表が作成される。この表が制御規則集合125である。
(ある特定の問題に対する適用例)
本発明の好ましい実施態様に最も関連性のある制御問題は、多岐に渡る適用例で、また幅広い範囲の操作要求に対して発生する。これらは複数の工場の監視制御、人間のパイロットによる民間航空機または軍用機の飛行、または補助的なオートパイロットによって拡大される自律コントローラ及びターゲットを追跡するため、または地形を探検するための複数のロボットセンサプラットホームの協調制御を含む。これらの分散制御システムの中心的な問題は、多数の別々の要件によって動かされる別々の制御動作の連携の必要性である。
このような状況の一例として、原子力発電所の監視は、電力出力を維持し、かつ、安全性を保証することを要求される。制御棒の自動コントローラがより遅い制御棒を挿入し、電力出力を削減するのが見られる場合、動作を無効にするか、あるいは動作を受け入れるという監視システムの最適決定は、自動コントローラの動作の理由に左右される。原因が、冷却剤の流れが失敗したためにコアの温度が上昇する可能性が高いという考えによるものである場合には、温度センサの故障が自動動作の原因である場合とは反対に、監視動作は非常に異なる必要がある。
高性能有人航空機またはレーシングカーの場合のように、全体的な制御がパイロットまたはドライバからの制御出力と、なんらかの自動操縦または牽引制御システムからの関連する出力の積である場合には、類似する矛盾が生じる。これらの矛盾は(自動または人間の)ドライバまたはパイロットが自動システムの好ましい動作の原因を理解し、どのように自動システムが応答するのかを理解した上で自らの出力を調整することができる場合にだけ解決できる。このような状況認識がない場合に、周知の研究されている現象、つまり「パイロット誘起振動」が発生することが知られている。
これらの例はすべて本来非線形であり、制御問題を、独立して解くことができるより小さな問題の集合に因子分解することができないような制御問題を生じさせる。したがって、原子力発電所では、最適監視に基づく制御、及び別個に設計された最適自動コントローラを提供することができない。これは、ほとんどのサブシステムが高い知能を持った人間である場合にはあまり深刻ではない可能性があるが、潜在的な脅威を追跡しようと試みるような複数のUGV(無人地上車(unmanned ground vehicles))の場合にはさらに困難になる。該脅威が建物の後方にあり、1対のUGVの内の第1のUGVが左回りで該建物の周りを巡回する場合には、第2のUGVの最良の動作は、該動作自体の観測だけに依存するのではなく、この動作の理由に依存する。例えば、第1のUGVが建物の後方に援護を求める脅威を見たかもしれないし、あるいは脅威の別の考えられる場所への最短のルートにすぎないかもしれない。
これらの高次元の問題の複雑さのため、及び制御動作の理由を表す、システムの状態の推定値の提供を制御問題自体から切り離すことができないという事実のために、現在の最良の慣行は論理的根拠(システムの状態)を得ることなく制御問題の解を直接に得ることを推奨する。本発明は、制御動作のための状態推定(論理的根拠)及び制御動作自体を提供する方法であって、状態推定値が制御動作の選択において直接的に使用されるという意味で努力が無駄にされることのない方法を提供する。
本発明の第1の好ましい実施形態による、制御されるシステムへのインタフェースを含むコントローラの図表示である。 ベイジアンネットワークの形を取る、制御される完全なシステムの確率モデルの表示である。 本発明の好ましい実施形態によるコントローラの設計段階プロセスの概略表示である。

Claims (4)

  1. システムの状態を示す複数のセンサから受け取られた測定データに基づいてシステムを制御するように動作するコントローラであって、
    前記システムの動的進化のための確率の少なくとも1つの集合と、前記システムの前記複数のセンサに対して対応する測定モデルと、を定義するシステムモデルと、
    前記複数のセンサから測定データを受け取り、前記システムモデルを参照して、それぞれが前記システムの状態を表す複数のサンプルを生成するように動作する確率論的な推定器と、
    前記システムの考えられる状態を表す複数の考えられるサンプルのそれぞれについて、前記システムで実施される動作を定義する情報を定義する前記システムモデルに対応する規則集合と、
    前記確率論的な推定器の出力を受け取り、前記規則集合を参照して、前記システムで実行される1つ以上の対応する動作を定義する情報を選択するように動作する動作セレクタと、
    を備えるコントローラ。
  2. 前記測定データは前記システムの状態を定義する、請求項1に記載のコントローラ。
  3. 前記測定データは、前記システムが既定の状態にある所定の確率を示す、請求項1に記載のコントローラ。
  4. 前記動作セレクタは動作及び関連付けられた重み係数の推奨される集合を複数生成し、前記重み係数に比例する確率で前記動作の少なくとも1つを確率的に選択するように動作する、請求項1ないし請求項3のいずれか1項に記載のコントローラ。
JP2008524597A 2006-07-13 2007-07-10 コントローラ Expired - Fee Related JP4875080B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0613955.4 2006-07-13
GBGB0613955.4A GB0613955D0 (en) 2006-07-13 2006-07-13 Controller
PCT/GB2007/050391 WO2008007137A1 (en) 2006-07-13 2007-07-10 Controller

Publications (2)

Publication Number Publication Date
JP2008537271A true JP2008537271A (ja) 2008-09-11
JP4875080B2 JP4875080B2 (ja) 2012-02-15

Family

ID=37671413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008524597A Expired - Fee Related JP4875080B2 (ja) 2006-07-13 2007-07-10 コントローラ

Country Status (6)

Country Link
US (1) US7966276B2 (ja)
EP (2) EP2341404A3 (ja)
JP (1) JP4875080B2 (ja)
AU (1) AU2007274026B2 (ja)
GB (1) GB0613955D0 (ja)
WO (1) WO2008007137A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191273A (ja) * 2014-03-27 2015-11-02 株式会社デンソーアイティーラボラトリ 駐車スペース案内システム、駐車スペース案内方法、及びプログラム
JP2022163098A (ja) * 2017-02-10 2022-10-25 ニッサン ノース アメリカ,インク 自律走行車の動作管理

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012518326A (ja) * 2009-02-13 2012-08-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) リソースデータを処理するための方法及び装置
WO2010101749A1 (en) 2009-03-05 2010-09-10 Massachusetts Institute Of Technology Predictive semi-autonomous vehicle navigation system
US20110257768A1 (en) * 2010-03-26 2011-10-20 International Business Machines Corporation Control of a dynamic system cross reference to related application
US8494690B2 (en) * 2011-04-26 2013-07-23 The Boeing Company Flight controller management system with a backdrive monitor
US8965834B2 (en) 2011-12-07 2015-02-24 Extendabrain Corporation Particle methods for nonlinear control
US10366325B2 (en) 2011-12-07 2019-07-30 Paul Burchard Sparse neural control
US8938348B2 (en) * 2011-12-13 2015-01-20 Mitsubishi Electric Research Laboratories, Inc. Method for optimizing run curve of vehicles
US20130184838A1 (en) * 2012-01-06 2013-07-18 Michigan Aerospace Corporation Resource optimization using environmental and condition-based monitoring
US11495213B2 (en) * 2012-07-23 2022-11-08 University Of Southern California Noise speed-ups in hidden markov models with applications to speech recognition
US20140122396A1 (en) * 2012-10-29 2014-05-01 Qualcomm Incorporated Rules engine as a platform for mobile applications
US11256982B2 (en) 2014-07-18 2022-02-22 University Of Southern California Noise-enhanced convolutional neural networks
US10896383B2 (en) 2014-08-07 2021-01-19 Okinawa Institute Of Science And Technology School Corporation Direct inverse reinforcement learning with density ratio estimation
EP3178040A4 (en) * 2014-08-07 2018-04-04 Okinawa Institute of Science and Technology School Corporation Inverse reinforcement learning by density ratio estimation
US20170336764A1 (en) * 2014-11-04 2017-11-23 Douglas A. Samuelson Machine Learning and Robust Automatic Control of Complex Systems with Stochastic Factors
US9745060B2 (en) * 2015-07-17 2017-08-29 Topcon Positioning Systems, Inc. Agricultural crop analysis drone
RU2623464C2 (ru) * 2015-07-22 2017-06-26 Акционерное общество "Научно-производственное объединение автоматики имени академика Н.А. Семихатова" Способ идентификации характеристик и возмущений динамических объектов в стохастических системах автоматического управления
US10540598B2 (en) * 2015-09-09 2020-01-21 International Business Machines Corporation Interpolation of transition probability values in Markov decision processes
US10528883B2 (en) * 2015-09-09 2020-01-07 International Business Machines Corporation Hybrid estimation of transition probability values in markov decision processes
US10231441B2 (en) 2015-09-24 2019-03-19 Digi-Star, Llc Agricultural drone for use in livestock feeding
US10321663B2 (en) 2015-09-24 2019-06-18 Digi-Star, Llc Agricultural drone for use in livestock monitoring
US9807932B2 (en) * 2015-10-02 2017-11-07 Deere & Company Probabilistic control of an agricultural machine
US10839302B2 (en) 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
WO2017213064A1 (ja) * 2016-06-09 2017-12-14 日本電気株式会社 車両制御システム、車両制御方法およびプログラム記録媒体
US11062225B2 (en) * 2016-12-09 2021-07-13 Adobe Inc. Techniques for providing sequential recommendations to users
CA3052954C (en) * 2017-02-10 2023-04-04 Nissan North America, Inc. Autonomous vehicle operational management including operating a partially observable markov decision process model instance
US11605304B2 (en) * 2017-03-06 2023-03-14 International Business Machines Corporation Learning of policy for selection of associative topic in dialog system
FR3066755B1 (fr) * 2017-05-23 2019-06-07 Airbus Operations Procede et dispositif de surveillance et d'estimation de parametres relatifs au vol d'un aeronef.
WO2019089015A1 (en) 2017-10-31 2019-05-09 Nissan North America, Inc. Autonomous vehicle operation with explicit occlusion reasoning
US11874120B2 (en) 2017-12-22 2024-01-16 Nissan North America, Inc. Shared autonomous vehicle operational management
US20190220016A1 (en) * 2018-01-15 2019-07-18 Uber Technologies, Inc. Discrete Decision Architecture for Motion Planning System of an Autonomous Vehicle
US11119507B2 (en) * 2018-06-27 2021-09-14 Intel Corporation Hardware accelerator for online estimation
US10882522B2 (en) 2018-09-13 2021-01-05 Toyota Research Institute, Inc. Systems and methods for agent tracking
DE102018216561A1 (de) * 2018-09-27 2020-04-02 Robert Bosch Gmbh Verfahren, Vorrichtung und Computerprogramm zum Ermitteln einer Strategie eines Agenten
US11184232B2 (en) 2018-11-26 2021-11-23 Eagle Technology, Llc Radio frequency (RF) communication system providing enhanced RF equipment configuration updates for mobile vehicles based upon reward matrices and related methods
US11095360B2 (en) * 2018-11-26 2021-08-17 Eagle Technology, Llc Radio frequency (RF) communication system providing enhanced mobile vehicle positioning based upon reward matrices and related methods
US10523342B1 (en) * 2019-03-12 2019-12-31 Bae Systems Information And Electronic Systems Integration Inc. Autonomous reinforcement learning method of receiver scan schedule control
US11126891B2 (en) * 2019-09-11 2021-09-21 Toyota Research Institute, Inc. Systems and methods for simulating sensor data using a generative model
US11635758B2 (en) 2019-11-26 2023-04-25 Nissan North America, Inc. Risk aware executor with action set recommendations
US11899454B2 (en) 2019-11-26 2024-02-13 Nissan North America, Inc. Objective-based reasoning in autonomous vehicle decision-making
US11613269B2 (en) 2019-12-23 2023-03-28 Nissan North America, Inc. Learning safety and human-centered constraints in autonomous vehicles
US11300957B2 (en) 2019-12-26 2022-04-12 Nissan North America, Inc. Multiple objective explanation and control interface design
US11577746B2 (en) 2020-01-31 2023-02-14 Nissan North America, Inc. Explainability of autonomous vehicle decision making
US11714971B2 (en) 2020-01-31 2023-08-01 Nissan North America, Inc. Explainability of autonomous vehicle decision making
US11782438B2 (en) 2020-03-17 2023-10-10 Nissan North America, Inc. Apparatus and method for post-processing a decision-making model of an autonomous vehicle using multivariate data
GB2593541A (en) * 2020-03-27 2021-09-29 Airbus Operations Ltd Control system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078516A (ja) * 2003-09-02 2005-03-24 Advanced Telecommunication Research Institute International 並列学習装置、並列学習方法及び並列学習プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
US5864773A (en) * 1995-11-03 1999-01-26 Texas Instruments Incorporated Virtual sensor based monitoring and fault detection/classification system and method for semiconductor processing equipment
US6278961B1 (en) * 1997-07-02 2001-08-21 Nonlinear Solutions, Inc. Signal and pattern detection or classification by estimation of continuous dynamical models
US6353815B1 (en) 1998-11-04 2002-03-05 The United States Of America As Represented By The United States Department Of Energy Statistically qualified neuro-analytic failure detection method and system
US6917925B2 (en) * 2001-03-30 2005-07-12 Intelligent Inference Systems Corporation Convergent actor critic-based fuzzy reinforcement learning apparatus and method
US6868310B2 (en) * 2001-04-06 2005-03-15 Eni Technology, Inc. Predictive failure scheme for industrial thin films processing power delivery system
US7539597B2 (en) * 2001-04-10 2009-05-26 Smartsignal Corporation Diagnostic systems and methods for predictive condition monitoring
US6738682B1 (en) * 2001-09-13 2004-05-18 Advances Micro Devices, Inc. Method and apparatus for scheduling based on state estimation uncertainties
SE522691C3 (sv) * 2002-06-12 2004-04-07 Abb Ab Dynamisk on-line-optimering av produktionsprocesser
CA2495147C (en) * 2002-08-09 2013-02-12 O. Patrick Kreidl Control systems and methods using a partially-observable markov decision process (po-mdp)
US6823675B2 (en) * 2002-11-13 2004-11-30 General Electric Company Adaptive model-based control systems and methods for controlling a gas turbine
US7128167B2 (en) * 2002-12-27 2006-10-31 Schlumberger Technology Corporation System and method for rig state detection
US7296007B1 (en) * 2004-07-06 2007-11-13 Ailive, Inc. Real time context learning by software agents
US7536595B1 (en) * 2005-10-19 2009-05-19 At&T Intellectual Property, Ii, L.P. Systems, devices, and methods for initiating recovery

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078516A (ja) * 2003-09-02 2005-03-24 Advanced Telecommunication Research Institute International 並列学習装置、並列学習方法及び並列学習プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200501266003, 北澤 幸吉 Kokichi KITAZAWA, "視聴覚情報の統合による音源の3次元位置推定と移動追跡 Localization and Tracking of 3−D Sound Source", 電子情報通信学会技術研究報告 Vol.104 No.745 IEICE Technical Report, 20050318, 第104巻, JP, 社団法人電子情報通信学会 The Institute of Electro *
CSNG200600274003, 樋口 知之 Tomoyuki HIGUCHI, "粒子フィルタ Particle Filter", 電子情報通信学会誌 第88巻 第12号 THE JOURNAL OF THE INSTITUTE OF ELECTRONICS,INFORMATION AND, 20051201, 第88巻, JP, 社団法人電子情報通信学会 DENSHI−JOHO−TSUSHIN−GAKK *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191273A (ja) * 2014-03-27 2015-11-02 株式会社デンソーアイティーラボラトリ 駐車スペース案内システム、駐車スペース案内方法、及びプログラム
JP2022163098A (ja) * 2017-02-10 2022-10-25 ニッサン ノース アメリカ,インク 自律走行車の動作管理

Also Published As

Publication number Publication date
WO2008007137A1 (en) 2008-01-17
JP4875080B2 (ja) 2012-02-15
US7966276B2 (en) 2011-06-21
EP2341404A2 (en) 2011-07-06
US20090299496A1 (en) 2009-12-03
AU2007274026B2 (en) 2011-07-14
EP2341404A3 (en) 2017-07-26
EP2041631A1 (en) 2009-04-01
AU2007274026A1 (en) 2008-01-17
GB0613955D0 (en) 2007-01-10

Similar Documents

Publication Publication Date Title
JP4875080B2 (ja) コントローラ
Wang et al. Adaptive and extendable control of unmanned surface vehicle formations using distributed deep reinforcement learning
Qiu et al. RMIX: Learning risk-sensitive policies for cooperative reinforcement learning agents
Zhao et al. Systemic design of distributed multi-UAV cooperative decision-making for multi-target tracking
Precup et al. Grey wolf optimizer-based approaches to path planning and fuzzy logic-based tracking control for mobile robots
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
Dalmau et al. Air traffic control using message passing neural networks and multi-agent reinforcement learning
Hafez et al. Unmanned aerial vehicles formation using learning based model predictive control
Bouton et al. Utility decomposition with deep corrections for scalable planning under uncertainty
Bai et al. Learning-based multi-UAV flocking control with limited visual field and instinctive repulsion
Slade et al. Simultaneous active parameter estimation and control using sampling-based Bayesian reinforcement learning
Mustafa Towards continuous control for mobile robot navigation: A reinforcement learning and slam based approach
Chen Perspective view of autonomous control in unknown environment: Dual control for exploitation and exploration vs reinforcement learning
Zhang et al. Enhancing Multi-UAV Reconnaissance and Search Through Double Critic DDPG With Belief Probability Maps
Wei et al. Monte Carlo-based reinforcement learning control for unmanned aerial vehicle systems
Shivam et al. A predictive deep learning approach to output regulation: The case of collaborative pursuit evasion
Guo et al. Cross-Entropy Regularized Policy Gradient for Multirobot Nonadversarial Moving Target Search
Zhu et al. An approach for multi-UAV system navigation and target finding in cluttered environments
Etemadi et al. Leader connectivity management and flocking velocity optimization using the particle swarm optimization method
Jiang et al. A probabilistic decision engine for navigation of autonomous vehicles under uncertainty
Sebastian et al. Physics-Informed Multi-Agent Reinforcement Learning for Distributed Multi-Robot Problems
Thomas et al. Inverse Reinforcement Learning for Generalized Labeled Multi-Bernoulli Multi-Target Tracking
Goldfrank et al. Risk Reduction in Target Motion Analysis Using Approximate Dynamic Programming
Gupta et al. Decentralized Multi-agent Formation Control via Deep Reinforcement Learning.
Sánchez et al. Transitional Grid Maps: Efficient Analytical Inference of Dynamic Environments under Limited Sensing

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100730

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111124

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4875080

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees