JP2019159413A

JP2019159413A - 制御装置、移動体、自律分散制御プログラム

Info

Publication number: JP2019159413A
Application number: JP2018041148A
Authority: JP
Inventors: 神保　智彦; Tomohiko Jinbo; 智彦神保; 竜也宮野; Tatsuya Miyano; 一騎柴田; Kazuki Shibata
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2019-09-19
Anticipated expiration: 2038-03-07
Also published as: JP7091723B2

Abstract

【課題】特に、未知のリスクポテンシャルが点在する環境下での監視対象の追従及び探索において、追従精度向上と探索精度向上を両立させる。【解決手段】各状態行動価値関数Ψ１〜Ψ５の内、分散を最小化する行動を選択するのが最適な探索行動の選択となる。また、各状態行動価値関数Ψ１〜Ψ５の内、平均値が最大となる行動を選択するのが最適な追従行動の選択となる。行動を１つに絞るために、確定関数φを用いる。φ（ｓ、ａ）は、状態行動価値関数Ψの平均値＋β×状態行動価値関数Ψの分散の標準偏差で表すことができる。各行動（ａ１〜ａ５）における確定関数φ（１〜５）で得た数値の合計を分母とした、それぞれの確定関数φの演算結果を求め、行動を決定する確率として利用する。【選択図】図５

Description

本発明は、指定された監視対象が監視範囲となるように移動させる制御装置、移動体、自律分散制御プログラムに関する。

特許文献１には、監視対象に対して対処を行うのに適した位置まで飛行装置を移動制御する監視システムが記載されている。

より詳しくは、監視システムは、上空から地上を監視する飛行装置と、センタ装置を少なくとも備える。センタ装置は、制御種別ごとに監視対象に対する俯仰角を記憶する記憶部と、制御種別を含む制御信号の入力があると、記憶部を参照して制御種別に対応する俯仰角に相当する目標位置を算出する目標算出部と、目標位置に飛行装置を移動させる飛行装置制御部と、を備えている。

しかし、この特許文献１では、複数の移動体を想定したロジックになっていない。また、移動体に対してきめ細かい軌道計画を施さなければならない。

さらに、特許文献１では、センタ装置による集中処理となっているため計算負荷が高く、規模が大きくなると現実的時間内に解を求めることができない。

ここで、複数の移動体の集中管理せずに制御する技術として、ボロノイ領域を定義する分散管理技術がある。

例えば、カメラを備えた複数の移動体を、予め定めた領域内に設定されたリスクポテンシャル（監視対象領域）に移動させ、当該リスクポテンシャルを監視する場合、予め定めた領域をボロノイ領域に分割し、分割した各領域をそれぞれの移動体の担当領域として設定することで、移動体同士の衝突回避が可能となる。

ボロノイ領域を定義した技術は、複数の移動体を想定した最適なロジックを提供することができる。また、各移動体に対してきめ細かい軌道計画を施す必要がなく、各移動体が近傍とコミュニケーションをとりながら、自律分散的に意思決定することができる。

さらに、集中処理ではなく、分散処理であるため、計算負荷が小さく、規模の大きさに依存せず、現実的時間内で解を求めることができる。

なお、移動体は、移動体間の垂直二等分線で囲まれたボロノイ領域内において、リスクポテンシャルの重心位置に移動することを繰り返し行うことになる。また、ボロノイ領域の定義は、時々刻々と変化し得るものである。

さらに、本明細書において、リスクポテンシャルに対して、移動体が監視し得る監視領域の比率を「被覆率」という。被覆率は、そのままの比率（「監視領域の面積／リスクポテンシャルの面積」）でもよいし、百分率で表現してもよい（「監視領域の面積／リスクポテンシャルの面積」×１００％）。ここで、センサの捕捉領域を監視領域とする。

また、参考として、非特許文献１には、移動センサ（移動体）が近傍の移動センサとの垂直二等分線で定義されるボロノイ図による領域分割を行い、自身の領域の重心へ自律分散的に移動することを繰り返す、基本的な動作が開示されている。

特開２０１６−１１８９９６号公報

J.Cortes,S.Martinez,T.Karatas,and F.Bullo, Coverage Control for Mobile Sensing Networks,IEEE Transactions on Robotics and Automation,20(2),pp.242-255,(2004)

しかしながら、従来のボロノイ領域を含め、特定の環境下での自律分散制御では、特にリスクポテンシャルが未知の場合、それぞれの移動体の移動動作を、探索と追従の何れを重要とするかにより、自律分散制御によるリスクポテンシャルの被覆率に多大な影響を及ぼすことなる。

すなわち、探索と追従とは二律背反の関係にある。探索を重視すれば、未知のリスクポテンシャルの領域が減少するが、既知のリスクポテンシャルに対する追従性が悪い。一方、追従を重視すれば、既知のリスクポテンシャルに対する追従性が良いが、未知のリスクポテンシャルの領域が増加する。

本発明は上記事実を考慮し、特に、未知のリスクポテンシャルが点在する環境下での監視対象の追従及び探索において、追従精度向上と探索精度向上を両立させることができる制御装置、移動体、自律分散制御プログラムを得ることが目的である。

本発明に係る制御装置は、監視機能を備えた複数の移動体で監視対象を監視する場合に、前記複数の移動体の監視情報によって学習されていく状態行動価値関数に基づいて、自律分散的に探索しかつ追従するように、前記移動体の移動を制御する制御装置であって、前記複数の移動体における状態及び行動の候補により決まる前記状態行動価値関数の値の分散を最小化するように前記複数の移動体毎に探索行動を選択する第１選択手段と、前記複数の移動体における状態及び行動の候補により決まる前記状態行動価値関数の値の平均値が最大となるように前記複数の移動体毎に追従行動を選択する第２選択手段と、前記複数の移動体毎に、前記移動体における状態及び行動の候補により決まる状態行動価値関数の平均値と分散とを用いた確定関数に基づいて、前記第１選択手段で選択した探索行動、及び前記第２選択手段で選択した追従行動を含む複数の行動の候補の何れかに確定する確定手段と、

を有している。

本発明によれば、第１選択手段が複数の移動体における状態及び行動の候補により決まる状態行動価値関数の値の分散を最小化するように複数の移動体毎に探索行動を選択する。第２選択手段が複数の移動体における状態及び行動の候補により決まる状態行動価値関数の値の平均値が最大となるように複数の移動体毎に追従行動を選択する。

確定手段では、複数の移動体毎に、移動体における状態及び行動の候補により決まる状態行動価値関数の平均値と分散とを用いた確定関数に基づいて、第１選択手段で選択した探索行動、及び第２選択手段で選択した追従行動を含む複数の行動の候補の何れかに確定する。

これにより、特に、未知のリスクポテンシャルが点在する環境下での監視対象の追従及び探索において、追従精度向上と探索精度向上を両立させることができる。

本発明の制御装置において、前記確定関数が、前記移動体が特定の状態の下で選択し得る複数の行動の候補毎に、前記複数の移動体における状態及び行動の候補により決まる前記状態行動価値関数の値の平均値と分散の線形和で決まる評価点を演算し、前記評価点の合計点を分母とする、前記移動体が特定の状態の下での行動の候補の前記状態行動価値関数の値の割合に応じた確率を、前記複数の行動の候補の何れかに確定するときの確率とすることを特徴としている。

探索及び追従の双方を考慮して、行動を確定するときの確率を決めることができる。

本発明の制御装置において、前記第１選択手段、前記第２選択手段、及び前記確定手段の一部又は全部の制御が、前記複数の移動体を総合的に管理するサーバーで実行されることを特徴としている。

複数の移動体をサーバーで総合的に管理することができる。

本発明の制御装置において、前記第１選択手段、前記第２選択手段、及び前記確定手段の制御が、前記複数の移動体の各々で実行され、当該複数の移動体が、相互に自機の移動体及び他機の移動体となり、前記自機の移動体と前記他機の移動体との間で情報交換することで自律分散的に移動することを特徴としている。

移動体間で相互に情報交換することで、自律分散的に移動させることができる。

本発明の制御装置において、前記移動体が特定の状態となったときの移動軌跡とは異なる移動軌跡によって当該特定の状態となったときの監視情報を、逆仮想行動の監視情報として、探索行動又は前記追従行動を選択するための監視情報に追加することを特徴としている。

経験の内移動軌跡であっても、逆仮想行動として監視情報を得て、次の行動を確定するための情報を増幅することができる。

本発明の制御装置において、前記移動体が特定の状態の下で選択し得る複数の行動の候補の結果、移動する次の状態候補の中で、自機及び他機を問わず、周辺で監視済の監視情報が存在する状態に対して、前記監視済の監視情報を、探索行動又は前記追従行動を選択するための監視情報に追加することを特徴としている。

既に、訪問済みの監視対象の監視情報を用いることで、次の行動を確定するための情報を増幅することができる。

本発明に係る移動体は、監視機能を備え、移動しながら監視対象を監視する移動体であって、前記監視機能による監視情報、及び他機の移動体の監視機能による監視情報によって学習されていく状態行動価値関数に基づいて、自律分散的に探索しかつ追従するように移動を制御する制御手段を有し、前記制御手段が、自機の移動体及び他機の移動体における状態及び行動の候補により決まる前記状態行動価値関数の値の分散を最小化するように前記自機の移動体及び他機の移動体の各々の探索行動を選択する第１選択手段と、自機の移動体及び他機の移動体における状態及び行動の候補により決まる前記状態行動価値関数の値の平均値が最大となるように前記自機の移動体及び他機の移動体の各々の追従行動を選択する第２選択手段と、自機の移動体における状態及び行動の候補により決まる状態行動価値関数の平均値と分散とを用いた確定関数に基づいて、前記第１選択手段で選択した探索行動、及び前記第２選択手段で選択した追従行動を含む複数の行動の候補の何れかに確定する確定手段と、備えている。

移動体が搭載する制御手段は、監視機能を備え、移動しながら監視対象を監視する移動体であって、監視機能による監視情報、及び他機の移動体の監視機能による監視情報によって学習されていく状態行動価値関数に基づいて、自律分散的に探索しかつ追従するように移動を制御する。

さらに、制御手段は、自機の移動体及び他機の移動体における状態及び行動の候補により決まる状態行動価値関数の値の分散を最小化するように自機の移動体及び他機の移動体の各々の探索行動を選択し（第１選択手段）、自機の移動体及び他機の移動体における状態及び行動の候補により決まる状態行動価値関数の値の平均値が最大となるように自機の移動体及び他機の移動体の各々の追従行動を選択し（第２選択手段）、自機の移動体における状態及び行動の候補により決まる状態行動価値関数の平均値と分散とを用いた確定関数に基づいて、第１選択手段で選択した探索行動、及び第２選択手段で選択した追従行動を含む複数の行動の候補の何れかに確定する（確定手段）。

本発明の移動体において、複数の移動体が、相互に自機の移動体及び他機の移動体となり、前記自機の移動体と前記他機の移動体との間で、自律分散的に情報交換することを特徴としている。

本発明の移動体において、前記移動体が特定の状態となったときの移動軌跡とは異なる移動軌跡によって当該特定の状態となったときの監視情報を、逆仮想行動の監視情報として、探索行動又は前記追従行動を選択するための監視情報に追加することを特徴としている。

本発明の移動体において、前記移動体が特定の状態の下で選択し得る複数の行動の候補の結果、移動する次の状態候補の中で、自機及び他機を問わず、周辺で監視済の監視情報が存在する状態に対して、前記監視済の監視情報を、探索行動又は前記追従行動を選択するための監視情報に追加することを特徴としている。

本発明の制御装置は、コンピュータによって自律分散制御プログラムが実行される。

特に、未知のリスクポテンシャルが点在する環境下での監視対象の追従及び探索において、追従精度向上と探索精度向上を両立させることができる。

以上説明した如く本発明では、特に、未知のリスクポテンシャルが点在する環境下での監視対象の追従及び探索において、追従精度向上と探索精度向上を両立させることができるという効果を奏する。

第１の実施の形態に係る移動体の自律分散制御システムの概略図である。第１の実施の形態に係る移動体の自律分散制御システムにおいて、移動体を動作させるための制御ブロック図である。第１の実施の形態に係る移動体のＣＰＵで実行される自律分散制御プログラムの実行を機能別に分類したブロック図である。第１の実施の形態の自律分散制御に用いるマルコフ決定過程の概念図である。第１の実施の形態に係る移動体の行動パターンを示すグリッドワールドの展開図である。（Ａ）及び（Ｂ）は、図５のグリッドワールドを用いたサンプリング増幅の概念を示す概略図である。第１の実施の形態に係る自律分散制御の流れを示すフローチャートである。第２の実施の形態に係る移動体のＣＰＵで実行される自律分散制御プログラムの実行を機能別に分類したブロック図である。第２の実施の形態に係る自律分散制御の流れを示すフローチャートである。第１の実施の形態及び第２の実施の形態で適用したグリッドワールドの変形例を示す展開図である。

（第１の実施の形態）

図１は、第１の実施の形態に係る移動体分散制御システム５０の概略図である。

第１の実施の形態の移動体分散制御システム５０は、複数の移動体１０、及び移動体１０が監視するために移動する複数の領域１２が示されている。

図１では、複数の移動体１０が３つの群５２に分類され、それぞれの群５２が３ヶ所の領域１２を担当して監視する構成としている。

なお、移動体１０の群構成、監視領域数等は、図１の「３」に限定されるものではなく、単一の群５２で単一の領域１２を監視する構成であってもよいし、２及び４以上の群５２及び領域１２であってもよい。

図２は、第１の実施の形態に適用される移動体１０（図１参照）を動作させるための制御系のブロック図である。

図２に示される如く、移動体１０は、領域１２の範囲内を無人で移動可能であり、当該移動を含む制御を実行するマイクロコンピュータを備えた制御装置１４が搭載されている。

制御装置１４のマイクロコンピュータは、ＣＰＵ１６Ａ、ＲＡＭ１６Ｂ、ＲＯＭ１６Ｃ、入出力ポート（Ｉ／Ｏ）１６Ｄ及びこれらを接続するデータバスやコントロールバス等のバス１６Ｅを有している。Ｉ／Ｏ１６Ｄには、監視モジュール１８、移動モジュール２０、位置認識モジュール２２及び通信モジュール２４が接続されている。

制御装置１４は、例えば、ＲＯＭ１６Ｃに予め記憶された移動体の分散制御プログラムをＣＰＵ１６Ａで起動させ、監視モジュール１８、移動モジュール２０、位置認識モジュール２２及び通信モジュール２４の動作を制御する。

(監視モジュール１８）

監視モジュール１８に適用されるデバイスは、例えば、カメラが代表的であり、移動体１０の位置から特定の監視範囲（視野）を撮像する。

なお、監視モジュール１８は、カメラによる撮像に限定されず、電波（レーダー、レーザー、超音波等）照射等による地理上の特徴物（ランドマーク）の検出等であってもよい。

(移動モジュール２０）

第１の実施の形態に係る移動体１０は、飛行体（一例として、ドローン）であり、移動モジュール２０に適用されるデバイスとして、独立した駆動源（モータ）で駆動する複数のプロペラを備えており、モータの駆動を制御することで、目的の方向に向けて飛行可能、かつ目的の位置空間で停止（ホバリング）可能である。

なお、移動体１０は、飛行体に限定されず、地上や水上を移動する移動モジュール２０であってもよく、複数のデバイスを併用してもよい。さらに、広い概念では、固定配置された監視カメラを、自律分散ネットワークに組み込むことで、移動モジュール２０と定義してもよい。

なお、監視カメラは、撮影範囲が固定であってもよいし、首振り動作機構を備え監視モジュール１８の監視範囲が変更可能であってもよい。

（位置認識モジュール２２）

位置認識モジュール２２は、自機の移動体１０の位置を認識する機能であり、位置情報を得るために、デバイスとして、ＧＰＳ、レーザー、レーダー、超音波、モーションキャプチャー、カメラ、無線通信、無線強度（距離情報）の少なくとも１つのセンサを備えている。

位置認識モジュール２２は、センサで検出した結果（検出信号）に基づき、自機の移動体１０の位置を三次元空間上の座標等によって認識する。

なお、位置認識モジュール２２は、自機の移動体１０の位置の認識以外に、後述する通信モジュール２４を介して他機の移動体１０の位置情報を取得し、相互の距離を演算して複数の移動体１０の相対位置関係を認識する。

(通信モジュール２４）

通信モジュール２４は、デバイスとして、無線通信装置を備える。無線通信は、監視を統括的に管理する基地局（サーバ）５４（図１参照）及び／又は移動体１０間で通信する機能として、位置情報を送受信する位置情報送受信部と、指定された監視対象（「リスクポテンシャル」、「対象」という場合がある）の監視度合い（「被覆率」という。）に関する情報（被覆率情報）を送受信する被覆率送受信部と、リスクポテンシャルの分担に関する調停情報を送受信する調停情報送受信部と、を備える。なお、通信は、移動体１０間のみとし、基地局（サーバ）５４は無くてもよい。

なお、移動体１０が相互に情報を交換し合う機能によって移動体分散制御システム５０が成立するのであれば、基地局５４は必須ではない。過去の情報（ビッグデータ）を管理する情報量によって、設置又は非設置を決めればよい。

調停情報とは、移動体１０がリスクポテンシャルへ移動するか否かの判定を行う情報であり、リスクポテンシャルの符号（正又は負）によって使い分ける。例えば、「正」と定義されたリスクポテンシャルは監視を必要とし、「負」と定義されたリスクポテンシャルは監視を不要とすることを示す。リスクポテンシャルは、第１の実施の形態で実行される予測制御により特定される探索領域及び追従領域となり得る領域である。

また、通信モジュール２４の無線通信は、監視モジュール１８で監視した結果（例えば、カメラであれば撮像情報）を、基地局５４へ送信する監視情報送信部を備える。

図１に示される如く、移動体１０が監視する領域１２は、例えば、車両５６が存在する路面（駐車場等）であり、移動体１０は車両５６が通行する路面を監視することで、死角の無い空間データを車両５６（運転者）に提供するようになっている。

図１に示す領域１２において、リスクポテンシャル２８として、既知のリスクポテンシャル２８と未知のリスクポテンシャル２８とが存在している。

既知のリスクポテンシャル２８（図１では、矩形実線枠「網状」で示している。）は、移動体１０を向かわせて、リスクポテンシャルを追従する必要がある領域（追従領域）である。

未知のリスクポテンシャル２８（図１では、矩形点線枠「？マーク」で示している。）は、移動体１０を向かわせる必要がある領域（探索領域）である。

なお、未知のリスクポテンシャル２８は、既知のリスクポテンシャル２８の経時によって履歴が消去され、未知のリスクポテンシャル２８となる領域を含む。

（分散制御プログラムによる情報処理制御）

図３は、移動体１０のＣＰＵ１６Ａ（図２参照）で実行される自律分散制御プログラムを機能別にブロック化した図（以下、自律分散制御部５８という）。なお、図３の自律分散制御部５８は、自律分散制御のためのハードウェア構成を限定するものではないが、マイクロコンピュータに代えて、ＡＳＩＣ（Application Specific Integrated Circuit）等の専用デバイスやプログラマブルロジックデバイス等のハードウェア構成で実現してもよいし、複数種類のハードウェア構成の組み合わせで実現してもよい。

図３に示される如く、自律分散制御部５８は、サンプリング部６０及び情報収集部６２を備える。サンプリング部６０は、監視モジュール１８によって監視した情報に基づいて、マルコフ決定過程（Markov decision process「MDP」）における要素（状態ｓ、行動ａでの報酬ｒ）をサンプリングする。以下、サンプリングした要素をサンプリング情報という。

図４は、第１の実施の形態においてＭＤＰを適用した場合の概念図である。

図４に示される如く、移動体は、状態ｓを環境６４（図１の領域１２に相当）から観測し、観測した状態ｓから行動ａに決定（選択）し、移動体１０は行動後の環境６４からの観測量に応じて報酬ｒを得る。また、移動体の行動に応じて、環境６４から観測される状態ｓが遷移する。

マルコフ決定過程の特徴は、次の状態ｓ’への遷移が、そのときの状態ｓと行動ａのみに依存し、それ以前の状態や行動に関係ないことが挙げられる。

図３に示される如く、サンプリング部６０は、保存部６６に接続されている。

保存部６６は、移動体１０がサンプリングしたサンプリング情報（状態ｓ、行動ａでの報酬ｒ）を保存する。

また、情報収集部６２は、自機の移動体１０に対して、所定の条件で関連する他機の移動体１０がサンプリングした他機の移動体１０のサンプリング情報を収集する。所定の条件とは、例えば、距離であり、予め定められた半径の範囲内に存在する他機の移動体１０からサンプリング情報を収集する。

情報収集部６２で収集したサンプリング情報は、サンプリング増幅部６８に接続されている。サンプリング増幅部６８は、例えば、自機の移動体１０のサンプリング情報（保存部６６に保存されたサンプリング情報）を主体として、情報収取部６２で収集した他機の移動体１０のサンプリング情報に基づいて、自機の移動体１０でサンプリングしたサンプリング情報として利用する。すなわち、自機の移動体１０でサンプリングしたサンプリング情報が増幅されることになる。

サンプリング増幅部６８は、サンプリング抽出部７０に接続され、増幅されたサンプリング情報の中から、状態行動価値関数Ψを学習するために必要なサンプリング情報を抽出し、抽出したサンプリング情報をフィッティング部７２へ送出する。

フィッティング部７２では、サンプリング情報に基づいて、状態行動価値関数Ψを学習する。

この学習の際、他機の移動体１０からのサンプリング情報を取り入れることで、全体的に状態行動価値関数Ψの最適化を図ることができる（詳細後述、図６参照）。

行動確定部７４は、状態行動価値関数Ψを用いて、自機の移動体１０において、次に取り得る全ての行動ａ（状態ｓは固定）における状態行動価値関数Ψ（ａ、ｓ）の値を演算する。

フィッティング部７２は行動確定部７４に接続され、フィッティング部７２から、行動ａに関与する状態行動価値関数Ψを取得し、自機の移動体１０の次の行動ａを選択する。

ここで、自機の移動体１０の次の行動ａは、探索行動を重視した選択と、追従行動を重視した選択とによって、選択する行動ａが異なる場合がある。

そこで、第１の実施の形態では、探索行動を重視した選択と、追従行動を重視した選択とを、互いの重要度合いに応じて調整（演算式の係数調整）した上で、総合的に自機の移動体１０の行動ａを確定するようにした。行動確定部７４の詳細については、後述する（図５及び図６参照）。

行動確定部７４において、自機の移動体１０の行動ａが決まると（所定の確率で、行動ａが決定すると）、移動制御部７６により、移動モジュール２０を制御して、自機の移動体１０を移動させるように指示する。この移動によって移動した状態ｓは監視モジュール１８によって監視され、報酬ｒが決まり、この報酬ｒによって、前記状態行動価値関数Ψが学習される。この状態行動価値関数Ψの学習が繰り返されることで、二律背反の関係にあった探索と追従において、未知のリスクポテンシャルの探索精度を向上させ、かつ、既知のリスクポテンシャルへの追従精度も向上させることが可能となる。

（行動確定部７４の詳細）

図５に基づき、行動確定部７４の詳細を説明する。

図５は、図１の領域１２をグリッドワールドとした概念図であり、領域１２が格子状のマス１２Ａ（一部に符号を指標）に仕切られており、各マス１２Ａが移動体１０の１単位の行動ａに対応する。

図５では、領域１２の中央のマス１２Ａに移動体１０が状態ｓで存在しており、行動ａとしては、右へ移動（行動ａ１）、上へ移動（行動ａ２）、左へ移動（行動ａ３）、下へ移動（行動ａ４）、及び移動しない（行動ａ５）を設定する。

各行動ａ（１〜５）毎に状態行動価値関数Ψ（ｓ、ａ１）、状態行動価値関数Ψ（ｓ、ａ２）、状態行動価値関数Ψ（ｓ、ａ３）、状態行動価値関数Ψ（ｓ、ａ４）、状態行動価値関数Ψ（ｓ、ａ５）を演算する。

そして、複数の移動体１０の行動の候補の組み合わせのうち、複数の移動体１０における状態及び行動の候補により決まる状態行動価値関数Ψの分散（ＶａｒΨ（ｓ、ａ））を最小化する行動の候補の組み合わせを選択するのが最適な探索行動の選択となる。

また、複数の移動体１０の行動の候補の組み合わせのうち、複数の移動体１０における状態及び行動の候補により決まる状態行動価値関数Ψの平均値が最大となる行動の候補の組み合わせを選択するのが最適な追従行動の選択となる。

第１の実施の形態では、移動体１０毎に、行動を１つに絞るために、確定関数φを用いている。

φ（ｓ、ａ）は、状態行動価値関数Ψの平均値＋β×状態行動価値関数Ψの分散の標準偏差で表すことができる（φ（ｓ、ａ）＝平均値＋β×（分散の標準偏差））。

ここで、βは探索行動に対する、追従行動の寄与度合いであり、この係数βによって、探索行動又は追従行動の重要度合いを決定することができる。

また、分散の標準偏差は、分散の平方根であり、平均値との次元数を揃え、確定関数φにおいて、探索行動と追従行動の線形的な加算演算を実現している。

各行動（ａ１〜ａ５）における確定関数φ（１〜５）の演算結果は、以下の通り、数値Ｌ１〜Ｌ５として表現される。

次に、各確定関数φで得た数値の合計を分母とした、それぞれの確定関数φの演算結果を求め、行動を決定する確率として利用する。

すなわち、ａ１〜ａ５のそれぞれの行動を選択する確率は、以下の通りとなる。

（ａ１の選択確率）Ｌ１／（Ｌ１＋Ｌ２＋Ｌ３＋Ｌ４＋Ｌ５）・・・（１）

（ａ２の選択確率）Ｌ２／（Ｌ１＋Ｌ２＋Ｌ３＋Ｌ４＋Ｌ５）・・・（２）

（ａ３の選択確率）Ｌ３／（Ｌ１＋Ｌ２＋Ｌ３＋Ｌ４＋Ｌ５）・・・（３）

（ａ４の選択確率）Ｌ４／（Ｌ１＋Ｌ２＋Ｌ３＋Ｌ４＋Ｌ５）・・・（４）

（ａ５の選択確率）Ｌ５／（Ｌ１＋Ｌ２＋Ｌ３＋Ｌ４＋Ｌ５）・・・（５）

なお、上記（１）式から（５）式を総称して、選択確率式という。

図６（Ａ）及び（Ｂ）は、図３に示すサンプリング増幅部６８における、自機の移動体１０（図６（Ａ）及び（Ｂ）の中央に位置する移動体１０）に影響を及ぼすサンプリング情報（マルコフ決定過程の状態ｓ、行動ａ、及び報酬ｒ）に基づいて、自機の移動体１０でサンプリングしたサンプリング情報を増幅させる場合の概念図である。

図６（Ａ）に基づき、現在の移動体１０が存在するマス１２Ａの周辺において、実際の移動軌跡とは異なる移動軌跡によって仮想的に移動した場合（逆仮想行動）における報酬について考える。

図６（Ａ）に示される如く、自機の移動体１０が、中央のマス１２Ａにいるとき、図６（Ａ）の矢印Ｘの方向から到達したものとする（実際の移動軌跡）。すなわち、中央のマス１２Ａの上側のマス１２Ａが移動元であり、現在のマス１２Ａに移動したことになる。このとき、図６（Ａ）に星印で示した、その他のマス（中央のマス１２Ａの下側、左側、右側のマス１２Ａ）に、移動体１０が過去に移動していなくても、図６（Ａ）の何れかの星（状態ｓ’）から中央のマス１２Ａ（状態ｓ）への行動によって得られる報酬は、移動体１０が中央のマス１２Ａにいることで既知となる。

従って、移動体１２０が、図６（Ａ）の星印のマス１２Ａに行ったことがなくても、当該星印のマス１２Ａから現在の位置（中央のマス１２Ａ）への行動の結果、得られる報酬は同じ値で、移動体１０での観測情報となる（報酬の増幅）。

図６（Ｂ）に基づき、現像の移動体１０が次の行動を選択する場合の仮想行動について考える。

図６（Ｂ）に示される如く、自機の移動体１０が状態ｓのとき、行動ａ１〜ａ５（ここでは、説明上、行動ａ５は除外する。）は、理論的には条件が同一であるが、領域１２おいて、チェックマーク１２Ｂが付与されたマス１２Ａは、自機の移動体１０若しくは他機の移動体１０が訪問済のマス１２Ａであることを示している。なお、ここでは、自機の移動体１０が自身で訪問したマス１２Ａの履歴を含んでいる。

行動ａ１〜ａ４から行動を確定させた後、残りで訪問済みへの行動があれば仮想行動とする

図６（Ｂ）の場合、行動ａ２（上向き）及び行動ａ３（左向き）は、訪問済であり、選択された仮想行動となり、行動ａ１（右向き）が選択されなかった行動となる。

以下に、第１の実施の形態の作用を、図７のフローチャートに従い説明する。

ステップ１００では、移動体１０の監視モジュール１８の各センサにより監視対象を観測する。すなわち、各センサで検出した情報に基づき、サンプリング情報（状態ｓ、行動ａ、報酬ｒ）をサンプリングする。

ステップ１０４では、自機の移動体１０でサンプリングしたサンプリング情報を保存し、次いで、ステップ１０６へ移行して他機の移動体１０からサンプリング情報を収集する。

サンプリング情報を収集する他機の移動体１０は、所定の条件で関連する他機の移動体１０に特定してもよい。所定の条件とは、例えば、距離であり、自機の移動体１０を中心として、予め定められた半径の範囲内に存在する他機の移動体１０からサンプリング情報を収集する。

また、所定条件としては、監視する領域１２に、ボロノイ領域を設定して監視している場合は、自機の移動体１０が監視ボロノイ領域に対して、周囲で隣接するボロノイ領域の他の移動体１０として、当該隣接する他の移動体１０から情報を収集するようにしてもよい。

次のステップ１０８では、サンプリング情報を増幅する。すなわち、他機の移動体１０から収集したサンプリング情報に基づいて、実際には未知である、自機の移動体１０の周辺のサンプリング情報を推定する（図６参照）。なお、サンプリング情報の増幅は、他機の移動体１０からの情報に限らず、自機の移動体１０が過去に観測した情報（過去に訪問した場所）に基づき、サンプリング情報を推定するようにしてもよい。

次のステップ１１０では、自機の移動体１０が、例えば、図５の中央のマス１２Ａにいるときの次の行動（行動ａ１〜行動ａ５の何れか）を確定するために必要なサンプリング情報を抽出し、ステップ１１１へ移行する。

次のステップ１１１では、抽出したサンプリング情報、主として報酬ｒに基づき、状態行動価値関数Ψを学習し、ステップ１１２へ移行する。

ステップ１１２では、学習した状態行動価値関数Ψに基づいて、それぞれの行動ａ１〜行動ａ５における状態行動価値関数Ψ（ａ、ｓ１）〜状態行動価値関数Ψ（ａ、ｓ５）を演算する。なお、この場合、Ψ（ａ、ｓ）の内、状態ｓは定数となり、行動ａ１〜ａ５が変数となる。

次のステップ１１４では、ステップ１１２において演算した状態行動価値関数Ψ１〜Ψ５の平均値及び分散をそれぞれ求め、この平均値及び分散に基づき、行動（行動ａ１〜行動ａ５の何れか）を確定する。

具体的に、状態行動価値関数Ψ１〜Ψ５の平均値及び分散を用いた行動の確定は、以下の通りである。

探索行動としては、状態行動価値関数Ψ１〜Ψ５の内、分散（ＶａｒΨ（ｓ、ａ））を最小化すればよい。

一方、追従行動としては、状態行動価値関数Ψ１〜Ψ５の内、平均値（Ψ”（ｓ、ａ））が最大となる行動を選択すればよい。

行動を１つに絞るためには、両者は二律背反の関係であるため、新たに確定関数φを用る。

φ（ｓ、ａ）は、状態行動価値関数Ψの平均値＋β×状態行動価値関数Ψの分散の標準偏差（φ（ｓ、ａ）＝平均値＋β×（分散の標準偏差））で表現する。βを調整することで、探索行動又は追従行動の重要度合いを決定する（分散の標準偏差は、分散の平方根）。

各行動（ａ１〜ａ５）における確定関数φ（１〜５）の演算結果は、以下の通り、数値Ｌ１〜Ｌ５となり、確定関数φで得た数値の合計を分母とした、それぞれの確定関数φの演算結果を求め、行動を決定する確率として利用する。

言い換えれば、各行動ａ１〜行動ａ５は、前述した選択確率式に示される如く、相対的に選択し易さ（し難さ）がそれぞれ異なり、現時点で、探索又は追従に有利な行動に確定する。この確定による良否は、繰り返し実行される処理において、ステップ１０２によって状態行動価値関数が、逐次学習されることで、精度が上がる。

次のステップ１１４では、移動体１０の移動モジュール２０を制御して、ステップ１１６で確定した行動（行動ａ１〜行動ａ５）に基づき移動させる。

次のステップ１１８では、領域１２におけるリスクポテンシャルの観測が完了したか否かを判断し、否定判定された場合は、ステップ１００へ戻り、上記工程を繰り返す。

また、ステップ１１８で肯定判定された場合は、このルーチンは終了する。

（第２の実施の形態）

以下、図８に従い、第２の実施の形態について説明する。第２の実施の形態において、第１の実施の形態と同一構成については、同一の符号を付して、その構成の説明を省略する。

第２の実施の形態の特徴は、前述した第１の実施の形態が、自律分散制御部５８としての制御をそれぞれの移動体１０が独自に実行する構成としたのに対し、一部の制御を基地局５４（図１参照）で行うようにしたことにある。言い換えれば、第１の実施の形態において、基地局５４は、移動体１０が自律分散的に移動して監視する制御に関しては不要であり、主として監視情報を収集となる。

図８に示される如く、自律分散制御部５８Ａは、サンプリング部６０を備える。サンプリング部６０は、監視モジュール１８によって監視した情報に基づいて、マルコフ決定過程（Markov decision process「MDP」）における要素（状態ｓ、行動ａでの報酬ｒ）をサンプリングする。以下、サンプリングした要素をサンプリング情報という。

サンプリング部６０は、情報送信部８０に接続されている。

情報送信部８０では、サンプリングしたサンプリング情報（状態ｓ、行動ａでの報酬ｒ）を基地局５４の集約部８２へ送信する。

また、集約部８２は、他機の移動体１０がサンプリングしたサンプリング情報を収集する。

集約部８２で収集したサンプリング情報は、サンプリング増幅部６８に接続されている。サンプリング増幅部６８は、各移動体１０のサンプリング情報に基づいて、特定の移動体１０でサンプリングしたサンプリング情報から行動を確定する場合に、特定以外の移動体１０のサンプリング情報を利用する。すなわち、特定の移動体１０でサンプリングしたサンプリング情報が増幅されることになる。

サンプリング増幅部６８は、サンプリング抽出部７０に接続され、増幅されたサンプリング情報の中から、自機の移動体１０の次の行動ａを得るために必要なサンプリング情報を抽出し、抽出したサンプリング情報をフィッティング部７２へ送出する。

フィッティング部７２では、状態行動価値関数Ψを用いて、自機の移動体１０において、次に取り得る全ての行動ａ（状態ｓは固定）における状態行動価値関数Ψ（ａ、ｓ）を演算する。

この演算の際、他機の移動体１０からのサンプリング情報を取り入れることで、最終的に確定する行動ａの最適化を図ることができる（詳細後述、図６参照）。

フィッティング部７２は、通信を介して移動体１０の行動確定部７４へ情報を送信する。行動確定部７４では、フィッティング部７２から、行動ａに関与する状態行動価値関数Ψの演算結果を取得し、自機の移動体１０の次の行動ａを選択する。

そこで、第２の実施の形態では、探索行動を重視した選択と、追従行動を重視した選択とを、互いの重要度合いに応じて調整（演算式の係数調整）した上で、総合的に自機の移動体１０の行動ａを確定するようにした（第１の実施の形態で説明した図５及び図６参照）。

以下に、第２の実施の形態の作用を、図９（Ａ）及び（Ｂ）のフローチャートに従い説明する。第２の実施の形態では、移動体１０と基地局５４とで、自律分散制御の機能を分担しており、図９（Ａ）は、移動体１０側で実行される制御であり、図９（Ｂ）は、基地局５４側で実行される制御である。

まず、図９（Ａ）のフローチャートに従い、移動体１０側で実行される制御を説明する。

ステップ２００では、移動体１０の監視モジュール１８の各センサにより監視対象を観測する。すなわち、各センサで検出した情報に基づき、サンプリング情報（状態ｓ、行動ａ、報酬ｒ）をサンプリングする。

次のステップ２０２では、サンプリング情報、基地局５４へ送信する（後述する、図９（Ｂ）のステップ２５０に対応）。

次のステップ２０４では、自機及び周辺の状態行動価値関数Ψの演算結果を要求し（図９（Ｂ）のステップ２６２に対応）、ステップ２０６へ移行する。

ステップ２０６では、ステップ２０４での要求によって受信した状態行動価値関数Ψ１〜Ψ５の平均値及び分散をそれぞれ求め、この平均値及び分散に基づき、行動（行動ａ１〜行動ａ５の何れか）を確定する。

次のステップ２０８では、移動体１０の移動モジュール２０を制御して、ステップ２０６で確定した行動（行動ａ１〜行動ａ５）に基づき移動させる。

次のステップ２１０では、領域１２におけるリスクポテンシャルの観測が完了したか否かを判断し、否定判定された場合は、ステップ２００へ戻り、上記工程を繰り返す。

また、ステップ２１０で肯定判定された場合は、このルーチンは終了する。

次に、図９（Ｂ）のフローチャートに従い、基地局５４で実行される制御を説明する。

ステップ２５０では、移動体１０から送信されるサンプリング情報を取得する（図９（Ａ）のステップ２０２に対応）。

次のステップ２５４では、各移動体１０でサンプリングしたサンプリング情報を集約し、次いで、ステップ２５６へ移行して各移動体１０からサンプリング情報を増幅する。すなわち、各移動体１０から収集したサンプリング情報に基づいて、実際には未知である、特定の移動体１０の周辺のサンプリング情報を推定する。なお、サンプリング情報の増幅は、特定の移動体１０の周辺からの情報に限らず、特定の移動体１０が過去に観測した情報（過去に訪問した場所）に基づき、サンプリング情報を推定するようにしてもよい。

次のステップ２５８では、特定の移動体１０が、次の行動を確定するために必要なサンプリング情報を抽出し、ステップ２５９へ移行する。

ステップ２５９では、主として報酬ｒに基づき、状態行動価値関数Ψを学習し、ステップ２６０へ移行する。

ステップ２６０では、抽出したサンプリング情報を、状態行動価値関数Ψにフィッティングし、それぞれの行動（例えば、図６に示す行動ａ１〜行動ａ５）における演算結果Ψ１（ａ、ｓ）〜Ψ５（ａ、ｓ）を得る。なお、この場合、Ψ（ａ、ｓ）の内、状態ｓは定数となり、行動ａ１〜ａ５が変数となる。

次のステップ２６２では、ステップ２６０のフィッティングにおいて演算した状態行動価値関数Ψ１〜Ψ５の演算結果を、要求を受けた移動体１０へ送信する（図９（Ａ）のステップ２０４に対応）。

次のステップ２６４では、領域１２におけるリスクポテンシャルの観測が完了したか否かを判断し、否定判定された場合は、ステップ２５０へ戻り、上記工程を繰り返す。

また、ステップ２６４で肯定判定された場合は、このルーチンは終了する。

なお、第１の実施の形態及び第２の実施の形態では、図５に示される如く、状態ｓからの行動として、行動ａ１〜行動ａ５の５方向としたが、図１０に示される如く、斜め方向の行動を加え、状態ｓからの行動として、行動ａ１〜行動ａ９としてもよい。

また、第１の実施の形態及び第２の実施の形態における領域１２（外部環境領域、担当領域）は、陸海空を問わず設定可能である。

センシングを目的別で言えば、監視、調査、レスキュー、モニタリング、及び予報等が挙げられる。より具体的には、比較的狭い領域の場合、駐車場での車両や歩行者の監視、交差点での車両の往来のモニタリング、家屋等の不審者監視等がある。また、比較的広い領域の場合、発掘調査、災害現場での遭難者の捜索（レスキュー）、山林の状況管理、天候調査による予報等がある。

また、移動体１０（アクチュエータ）として、空撮可能なドローンを挙げたが、例えば、車両、ボート等の他の移動体を自律分散制御するようにしてもよい。

１０移動体
１２領域
１２Ａマス
１２Ｂチェックマーク
１６ＡＣＰＵ（第１選択手段、第２選択手段、確定手段）
１６ＢＲＡＭ
１６ＣＲＯＭ
１６Ｄ入出力ポート（Ｉ／Ｏ）
１６Ｅバス
１８監視モジュール
２０移動モジュール
２２位置認識モジュール
２４通信モジュール
２８リスクポテンシャル
５０移動体分散制御システム
５２群
５４基地局（第１選択手段、第２選択手段、確定手段）
５６車両
５８自律分散制御部
６０サンプリング部
６２情報収集部
６４環境
６６保存部
６８サンプリング増幅部
７０サンプリング抽出部
７２フィッティング部
７４行動確定部
７６移動制御部
（第２の実施の形態）
８０情報送信部
８２集約部

Claims

監視機能を備えた複数の移動体で監視対象を監視する場合に、前記複数の移動体の監視情報によって学習されていく状態行動価値関数に基づいて、自律分散的に探索しかつ追従するように、前記移動体の移動を制御する制御装置であって、
前記複数の移動体における状態及び行動の候補により決まる前記状態行動価値関数の値の分散を最小化するように前記複数の移動体毎に探索行動を選択する第１選択手段と、
前記複数の移動体における状態及び行動の候補により決まる前記状態行動価値関数の値の平均値が最大となるように前記複数の移動体毎に追従行動を選択する第２選択手段と、
前記複数の移動体毎に、前記移動体における状態及び行動の候補により決まる状態行動価値関数の平均値と分散とを用いた確定関数に基づいて、前記第１選択手段で選択した探索行動、及び前記第２選択手段で選択した追従行動を含む複数の行動の候補の何れかに確定する確定手段と、
を有する制御装置。
前記確定関数が、
前記移動体が特定の状態の下で選択し得る複数の行動の候補毎に、前記複数の移動体における状態及び行動の候補により決まる前記状態行動価値関数の値の平均値と分散の線形和で決まる評価点を演算し、
前記評価点の合計点を分母とする、前記移動体が特定の状態の下での行動の候補の前記状態行動価値関数の値の割合に応じた確率を、前記複数の行動の候補の何れかに確定するときの確率とする、請求項１記載の制御装置。
前記第１選択手段、前記第２選択手段、及び前記確定手段の一部又は全部の制御が、前記複数の移動体を総合的に管理するサーバーで実行される、請求項１又は請求項２記載の制御装置。
前記第１選択手段、前記第２選択手段、及び前記確定手段の制御が、前記複数の移動体の各々で実行され、当該複数の移動体が、相互に自機の移動体及び他機の移動体となり、前記自機の移動体と前記他機の移動体との間で情報交換することで自律分散的に移動する、請求項１又は請求項２記載の制御装置。
前記移動体が特定の状態となったときの移動軌跡とは異なる移動軌跡によって当該特定の状態となったときの監視情報を、逆仮想行動の監視情報として、探索行動又は前記追従行動を選択するための監視情報に追加する、請求項１〜請求項４の何れか１項記載の制御装置。
前記移動体が特定の状態の下で選択し得る複数の行動の候補の結果、移動する次の状態候補の中で、自機及び他機を問わず、周辺で監視済の監視情報が存在する状態に対して、
前記監視済の監視情報を仮想行動の監視情報として、探索行動又は前記追従行動を選択するための監視情報に追加する、請求項１〜請求項５の何れか１項記載の制御装置。
監視機能を備え、移動しながら監視対象を監視する移動体であって、
前記監視機能による監視情報、及び他機の移動体の監視機能による監視情報によって学習されていく状態行動価値関数に基づいて、自律分散的に探索しかつ追従するように移動を制御する制御手段を有し、
前記制御手段が、
自機の移動体及び他機の移動体における状態及び行動の候補により決まる前記状態行動価値関数の値の分散を最小化するように前記自機の移動体及び他機の移動体の各々の探索行動を選択する第１選択手段と、
自機の移動体及び他機の移動体における状態及び行動の候補により決まる前記状態行動価値関数の値の平均値が最大となるように前記自機の移動体及び他機の移動体の各々の追従行動を選択する第２選択手段と、
自機の移動体における状態及び行動の候補により決まる状態行動価値関数の平均値と分散とを用いた確定関数に基づいて、前記第１選択手段で選択した探索行動、及び前記第２選択手段で選択した追従行動を含む複数の行動の候補の何れかに確定する確定手段と、備えた移動体。
複数の移動体が、相互に自機の移動体及び他機の移動体となり、前記自機の移動体と前記他機の移動体との間で、自律分散的に情報交換する、請求項７記載の移動体。
前記移動体が特定の状態となったときの移動軌跡とは異なる移動軌跡によって当該特定の状態となったときの監視情報を、逆仮想行動の監視情報として、探索行動又は前記追従行動を選択するための監視情報に追加する、請求項７又は請求項８記載の移動体。
前記移動体が特定の状態の下で選択し得る複数の行動の候補の結果、移動する次の状態候補の中で、自機及び他機を問わず、周辺で監視済の監視情報が存在する状態に対して、
前記監視済の監視情報を、探索行動又は前記追従行動を選択するための監視情報に追加する、請求項７〜請求項９の何れか１項記載の移動体。
コンピュータを、
請求項１〜請求項６の制御装置として動作させる、自律分散制御プログラム。