JP7070673B2

JP7070673B2 - 自律動作機の制御装置、自律動作機の制御方法、及び、自律動作機の制御プログラム

Info

Publication number: JP7070673B2
Application number: JP2020517672A
Authority: JP
Inventors: 雅嗣小川; 真澄一圓; 真史江村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2022-05-18
Anticipated expiration: 2038-05-09
Also published as: US20210232139A1; WO2019215838A1; JPWO2019215838A1; US11740629B2

Description

本願発明は、ある目的を達成するために、複数の自律動作機が協調動作するように制御する技術に関する。

近年、無人機をある目的のために使用する応用例が多く提案されている。例えば、自動的に部屋の掃除を行なう清掃ロボットや、飛行する無人機（ドローン）による空撮や宅配などである。また、原子力発電所などの危険な環境において活動するロボットなどもその一例である。

上述した応用例などでは、通常１体の無人機を使用しているが、複数の無人機を使用した応用例も提案されている。例えば、Ｅコマース用の工場において、荷物を運搬するロボットを複数使用することによって、顧客により発注された商品を迅速に収集する応用例や、探索対象を複数の無人機を使用して探索する応用例などが知られている。

特に探索対象を複数の無人機により探索するという応用例は、防衛関連技術として近年盛んに研究されている。このような応用例において用いられる無人機は、一般的に、ＵｘＶ（Unmanned x Vehicle）と呼ばれている。例えば、無人飛行機は、ＵＡＶ（Unmanned Air Vehicle）、無人船は、ＵＳＶ（Unmanned Surface Vehicle）、無人水中船は、ＵＵＶ（Unmanned Undersea Vehicle）と呼ばれている。

上述した無人機には、大別して、操作者によって遠隔操作されるものと、搭載されたプログラムによって自律的に動作するものとの２種類がある。そして、これら無人機に関する技術の方向性は、可能な限りプログラムにより自律的に動作することに向かっている。なぜなら、人間が不在である環境において、人間に代わって様々な行動、労働等を肩代わりすることが可能な無人機あるいは無人機群が望まれているからである。近年、優れた人工知能を搭載することによって、無人機が自律的に賢く動作できるようになることに対する期待等から、人工知能の研究が盛んに行なわれていることからもわかるように、上述した無人機の自律制御に関する技術への期待が高まってきている。

このような技術に関連する技術として、特許文献１には、複数の自律移動ロボットのそれぞれがより効率的にタスクを実行することができるようにした移動制御方法が開示されている。この方法では、第１の自律移動ロボットが、第１の自律移動ロボットの現在位置がタスクを実行するのに適した位置である度合いを示す第１の確信度を算出する。この方法では、第１の自律移動ロボットが、第２の自律移動ロボットの現在位置がタスクを実行するのに適した位置である度合いを示す第２の確信度を第２の自律移動ロボットから受信する。この方法では、第１の自律移動ロボットが、第１の確信度と第２の確信度と第２の自律移動ロボットの現在位置とに基づいて、第１の自律移動ロボットの移動すべき移動ベクトルを算出する。そしてこの方法では、第１の自律移動ロボットが、その移動ベクトルに基づいて第１の自律移動ロボットの移動を制御する。

また、特許文献２には、複数の移動体全体の信頼度を高い状態で維持し続けることのできるようにした自律移動体システムが開示されている。このシステムは、自己位置をセンサにより計測し目的の場所に自律的に移動する移動体を複数台備える。このシステムは、センサ情報を取得し、取得したセンサ情報に基づき自己位置を推定し、自己位置の信頼度を算出し、自己が保持する保持情報を移動体間で送信する。このシステムは、信頼度と、自己位置と、移動体を識別する識別子とを紐付けて記録し、信頼度回復行動を起こさせる移動体を選択する。そしてこのシステムは、選択した移動体が、信頼度が高い位置に移動するように制御する。

また、特許文献３には、他の移動体と協調して動作する移動体が開示されている。この移動体は、自移動体を単体で動作させるための第１の制御情報を生成する。この移動体は、自移動体及び他の移動体の状態を取得する。この移動体は、取得した状態に基づいて、自移動体を他の移動体と協調して動作させるための第２の制御情報を生成する。そしてこの移動体は、第１の制御情報と第２の制御情報とに基づいて第３の制御情報を生成し、その第３の制御情報に従って、自移動体の動作を制御する。

また、特許文献４には、安全性を低下させることなく、コストをかけずに、警報時間の短縮効果が得られる走行制御を支援する方法が開示されている。この方法では、踏切に接近した列車における車上装置は、自列車の位置及び速度情報を、所定の間隔で踏切制御装置に送信する。踏切制御装置は、車上装置から受信する列車の位置及び速度に基づいて、踏切到達予測時間及びブレーキパターン到達予測時間を算出する。踏切制御装置は、予め記憶している設計警報時間と、算出される踏切到達予測時間とを比較するとともに、予め記憶している踏切遮断完了時間と、算出される踏切遮断完了時間を比較し、その結果が所定の条件を満たす場合には警報を開始するように制御する。踏切制御装置は、警報開始後に列車を加速させる走行制御パターンを算出し、車上装置に送信する。そして、車上装置は、算出される走行制御パターンを乗務員に提示し、乗務員による走行制御を支援する。

特開2017-059217号公報特開2017-188066号公報国際公開第2017/221859号特許第5559671号公報

自律的に動作する無人機（自律動作機）が賢く動作するとは、無人機が、状況によって、自律的に動作を変えることを意味する。一般的に、無人機は、ある目的を達成するために、複数の動作（ミッション）を実行し、状況によって動作を変える必要がある。例えば、防衛用の無人機は、最初に危険物を探索し、危険物を発見した場合はその危険物を追跡し（危険物が動く場合）、場合によっては最終的に危険物を捕獲する。このように無人機は、状況によって動作（上述した例では、探索、追跡、捕獲）を変える必要がある。現在の多くのシステムでは、操作者がそれらの動作を遠隔操作により切り替えていることが多いが、将来的には、無人機が自律的に判断して、自動で動作を切り替えることが望まれている。

このような動作の切り替えに関して、単体の無人機が、状態遷移図をもとに、例えば「探索→追跡→捕獲」というように、動作を切り替えることは、それほど困難ではない。しかしながら、協調（連携）して動作する複数の無人機（無人機群）の場合、各無人機は、自機の動作の切り替えが、無人機群全体としての視点から、目的を達成することに関して整合がとれている（即ち全体最適である）ことを求められるので、その動作の切り替えの判断は非常に困難である。

例えば、ある無人機が危険物の近くにいるので、その無人機が危険物に対する追跡を行なうというような単純な判断では不十分である。その理由は、自機より危険物に近い別の無人機が存在する場合、その別の無人機が追跡を行なった方が効率的であるからである。さらに、無人機群のうちの複数の無人機が追跡を行なうような場合などでは、自機がどの動作を行なえばよいのかを、状態遷移図を用いた単純なIF-THENルール等により判断したのでは、最適であるとは言えない。このため、無人機群として目的を達成するために、個々の無人機が最適に（効率的に）動作を切り替えることは困難である。上述した特許文献１乃至４が示す技術は、この問題を解決するのに十分であるとは言えない。本願発明の主たる目的は、この課題を解決する自律動作機の制御装置等を提供することである。

本願発明の一態様に係る自律動作機の制御装置は、協調して動作する第一及び第二の自律動作機が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、前記第一の自律動作機の動作状態を表す第一状態情報と、前記第二の自律動作機の動作状態を表す第二状態情報とを取得する取得手段と、前記第一状態情報と前記第二状態情報とに基づいて、前記第一の自律動作機が実行可能な前記複数の動作の個々に関して、前記目的の達成に向けて実行する価値の高さを表す価値情報を、価値算出基準を用いて生成する生成手段と、前記複数の動作の各々に関する前記価値情報に基づいて、前記複数の動作のうちの特定の動作を選択する選択手段と、前記特定の動作を実行するように、前記第一の自律動作機を制御する制御手段と、を備える。

上記目的を達成する他の見地において、本願発明の一態様に係る自律動作機の制御方法は、情報処理装置によって、協調して動作する第一及び第二の自律動作機が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、前記第一の自律動作機の動作状態を表す第一状態情報と、前記第二の自律動作機の動作状態を表す第二状態情報とを取得し、前記第一状態情報と前記第二状態情報とに基づいて、前記第一の自律動作機が実行可能な前記複数の動作の個々に関して、前記目的の達成に向けて実行する価値の高さを表す価値情報を、価値算出基準を用いて生成し、前記複数の動作の各々に関する前記価値情報に基づいて、前記複数の動作のうちの特定の動作を選択し、前記特定の動作を実行するように、前記第一の自律動作機を制御する。

また、上記目的を達成する更なる見地において、本願発明の一態様に係る自律動作機の制御プログラムは、協調して動作する第一及び第二の自律動作機が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、前記第一の自律動作機の動作状態を表す第一状態情報と、前記第二の自律動作機の動作状態を表す第二状態情報とを取得する取得処理と、前記第一状態情報と前記第二状態情報とに基づいて、前記第一の自律動作機が実行可能な前記複数の動作の個々に関して、前記目的の達成に向けて実行する価値の高さを表す価値情報を、価値算出基準を用いて生成する生成処理と、前記複数の動作の各々に関する前記価値情報に基づいて、前記複数の動作のうちの特定の動作を選択する選択処理と、前記特定の動作を実行するように、前記第一の自律動作機を制御する制御処理と、をコンピュータに実行させるためのプログラムである。

更に、本願発明は、係る自律動作機の制御プログラム（コンピュータプログラム）が格納された、コンピュータ読み取り可能な、不揮発性の記録媒体によっても実現可能である。

本願発明は、協調して動作する複数の自律動作機の個々が、目的を達成するために全体最適となるような動作を選択するように、自律動作機を制御することを可能とする。

本願発明の第１の実施形態に係る制御装置１０の構成を示すブロック図である。本願発明の第１の実施形態に係る複数の無人機２０が協調して、目標物を、探索、追跡、捕獲するまでの無人機２０の動きを例示する図である。本願発明の第１の実施形態に係る制御装置１０が、無人機２０－０を自無人機２１として制御する場合において、生成部１２による価値情報１２２が示す値の算出例を示す図である。本願発明の第１の実施形態に係る制御装置１０が、無人機２０－１を自無人機２１として制御する場合において、生成部１２による価値情報１２２が示す値の算出例を示す図である。本願発明の第１の実施形態に係る制御装置１０が、無人機２０－２を自無人機２１として制御する場合において、生成部１２による価値情報１２２が示す値の算出例を示す図である。本願発明の第１の実施形態に係る制御装置１０が、無人機２０－３を自無人機２１として制御する場合において、生成部１２による価値情報１２２が示す値の算出例を示す図である。本願発明の第１の実施形態に係る操作端末装置３０を用いて、自律制御方式から手動制御方式に切り替える無人機２０を操作者が選択する際における、ユーザインタフェースの態様を例示する図である。本願発明の第１の実施形態に係る無人機２０が探索動作を行なう場合において、目標物の存在確率密度を表す関数ｇが示す値の分布を概念的に例示する図である。本願発明の第１の実施形態に係る無人機２０が追跡動作を行なう場合において、目標物の存在確率密度を表す関数ｇが示す値の分布を概念的に例示する図である。本願発明の第１の実施形態に係る制御装置１０の動作を示すフローチャートである。本願発明の第２の実施形態に係る自律動作機の制御装置６０の構成を示すブロック図である。本願発明の各実施形態に係る制御装置あるいは自律動作機の制御装置を実行可能な情報処理装置９００の構成を示すブロック図である。

以下、本願発明の実施の形態について図面を参照して詳細に説明する。

＜第１の実施形態＞
図１は、本願発明の第１の実施の形態に係る制御装置１０の構成を概念的に示すブロック図である。制御装置１０は、例えば、危険物等の目標物を、探索し、追跡し、捕獲するというような所定の目的を達成するために、協調（連携）して自律的に動作可能な複数の無人機２０（自律動作機）を制御する情報処理装置である。無人機２０は、当該目的を達成するために、例えば、探索、追跡、捕獲といった動作のいずれかを随時選択して実行する、例えばドローンのようなＵＡＶである。

本実施形態に係る制御装置１０は、複数の無人機２０を並列に制御する。制御装置１０は、後述するように、ある無人機２０に対する制御を行う際に、当該無人機２０とは異なる１以上の他の無人機２０の状態をふまえた制御を行う。したがって、本実施形態の説明においては、図１に例示する通り、無人機２０を、制御対象とする自無人機２１（第一の自律動作機）と、自無人機２１を制御する際にその状態を参照する、自無人機２１とは異なる他無人機２２（第二の自律動作機）とに区別することとする。

無人機２０（自無人機２１及び他無人機２２）は、自機の状態を測定可能なセンサを備えている。自無人機２１及び他無人機２２は、例えばＧＮＳＳ（Global Navigation Satellite System）センサ等を備えることによって、自機の状態の一つとして、自機の位置を、順に、状態情報２１０（第一状態情報）及び状態情報２２０（第二状態情報）として取得する。状態情報２１０及び状態情報２２０は、あるいは例えば、自機の移動速度を表す情報、自機の動作設定値を表す情報、自機に搭載されたバッテリの状態を表す情報、自機に関する障害の発生状況を表す情報などを含んでもよい。状態情報２１０及び状態情報２２０は、あるいは例えば、位置が確認できた目標物の位置を表す情報を含んでもよい。

自無人機２１及び他無人機２２は、無線通信装置４０と通信可能であり、取得した状態情報２１０及び状態情報２２０を、適宜、無線通信装置４０に送信する。無線通信装置４０は、例えばインターネットなどの通信ネットワーク５０に接続されている。通信ネットワーク５０には、また、制御装置１０及び操作端末装置３０も接続されている。即ち、制御装置１０及び操作端末装置３０は、通信ネットワーク５０を介して無線通信装置４０と通信可能であるので、制御装置１０及び操作端末装置３０は、無線通信装置４０を介して、無人機２０と通信可能である。尚、操作端末装置３０は、自無人機２１の制御方式を、自律制御方式から手動制御方式に切り替えて、自無人機２１に対する手動制御を操作者が行う際に使用する、例えばタブレット端末装置等の情報処理装置である。

図２は、本実施形態に係る複数の無人機２０が、危険物等の目標物を、探索し、追跡し、捕獲することを目的とする動作を行なう場合において、制御装置１０によって制御された無人機２０が協調（連携）して、目標物を、探索し、追跡し、捕獲するまでの無人機２０の動きを例示する図である。図２は、無人機２０及び目標物の位置を、ＸＹ座標（二次元座標）により表している。

図２（ａ）は、無人機２０が目標物を探索する探索状態を表している。図２（ａ）に例示する探索状態では、個々の無人機２０は、均一に分散して、目標物を探索している。図２（ｂ）は、無人機２０によって目標物が発見されたのち、無人機２０のうちの少なくとも一部（図２（ｂ）において点線に囲まれた領域内に位置する無人機２０）が目標物に対する追跡を開始した状態を表している。尚、図２（ｂ）において点線に囲まれた領域の外に位置する無人機２０は、例えば目標物が複数存在することを想定して、探索動作を継続する。

図２（ｃ）は、目標物を追跡する無人機２０のうち、操作者によって選択された特定の無人機２０が、目標物を捕獲する（例えばネットをかける）準備を開始した状態を表している。そして図２（ｄ）は、その特定の無人機２０によって、目標物が捕獲された状態を表している。本実施形態に係る制御装置１０は、後述する通り、無人機２０の個々が、目的を達成するために全体最適となるように、図２に例示するような動作を実行するように制御する。

本実施形態に係る制御装置１０は、例えばクラウドコンピューティングにおけるクラウド側に構築されたサーバ装置等の情報処理装置であり、上述した通信ネットワーク５０及び無線通信装置４０を介して無人機２０と通信することによって、無人機２０を制御する。制御装置１０は、図１に例示する通り、取得部１１、生成部１２、選択部１３、制御部１４、及び、算出部１５を備えている。

取得部１１は、通信ネットワーク５０及び無線通信装置４０を介して、自無人機２１及び他無人機２２から、上述した状態情報２１０及び状態情報２２０を取得する。尚、複数の無人機２０は、通常、互いに非同期に動作しているので、取得部１１が状態情報２１０及び状態情報２２０を取得するタイミングも、通常、非同期となる。

生成部１２は、取得部１１によって取得された状態情報２１０と状態情報２２０とに基づいて、自無人機２１が実行可能な複数の動作の個々に関して、目的の達成に向けて実行する価値の高さを表す価値情報１２２を、価値算出基準１２１を用いて生成する。但し、自無人機２１が実行可能な複数の動作とは、例えば、危険物等の目標物に対する、探索、追跡、及び、捕獲等である。自無人機２１が実行可能な複数の動作は、あるいは例えば、探索、追跡、及び、捕獲という動作の各々をさらに細かな粒度で分割した、４種類以上の動作であってもよい。尚、価値算出基準１２１は、制御装置１０の管理者等によって事前に与えられており、制御装置１０が備える、例えば電子メモリや磁気ディスク等の記憶デバイス（不図示）に格納されていることとする。

また、目的の達成に向けて実行する価値の高さとは、例えば、ある動作を実行することによって、その目的を達成できる確率の高さなどに基づく指標である。即ち、目的の達成に向けて実行する価値の高さは、例えば探索動作の場合、目標物を発見する確率の高さに基づく指標であり、例えば追跡動作の場合、発見した目標を見失わずに次第に目標に接近することができる確率の高さに基づく指標などである。

次に価値算出基準１２１について説明する。価値算出基準１２１は、例えば、自無人機２１が実行可能な複数の動作の個々に関して、状態情報２１０に基づく評価関数Ａ（Ｎ）（第一評価関数）と状態情報２２０に基づく評価関数Ｂ（Ｎ）（第二評価関数）とを含んでいる。ただしＮは、複数の動作（例えば、探索、追跡、捕獲等）の個々を識別可能な識別子（動作番号）である。

より具体的には、評価関数Ａ（Ｎ）は、例えば、状態情報２１０が示す状態にある自無人機２１が動作Ｎを実行した場合における、目的の達成に向けて実行する価値の高さを表し、例えば、自無人機２１が動作Ｎを実行するのに要する制御量（操作量）をパラメータ変数として含む。同様に評価関数Ｂ（Ｎ）は、例えば、状態情報２２０が示す状態にある他無人機２２が動作Ｎを実行した場合における、目的の達成に向けて実行する価値の高さを表し、例えば、他無人機２２が動作Ｎを実行するのに要する制御量（操作量）をパラメータ変数として含む。尚、評価関数Ａ（Ｎ）及び評価関数Ｂ（Ｎ）の具体例（詳細）については後述する。

そして価値算出基準１２１は、評価関数Ａ（Ｎ）と評価関数Ｂ（Ｎ）とに基づく、価値情報１２２が示す値を求める評価関数Ｆ（Ｎ）を含んでいる。評価関数Ｆ（Ｎ）は、例えば、評価関数Ａ（Ｎ）と評価関数Ｂ（Ｎ）との差分を表す関数である。即ちこの場合、評価関数Ｆ（Ｎ）は、自無人機２１が動作Ｎを実行する価値の高さと、他無人機２２が動作Ｎを実行する価値の高さとの大小関係を表している。

評価関数Ｆ（Ｎ）は、あるいは、評価関数Ａ（Ｎ）と評価関数Ｂ（Ｎ）とに含まれる、制御量を表すパラメータ変数によって、評価関数Ａ（Ｎ）と評価関数Ｂ（Ｎ）とを微分した、評価関数Ａ’（Ｎ）と評価関数Ｂ’（Ｎ）との差分を表す関数であってもよい。この場合、評価関数Ａ’（Ｎ）及び評価関数Ｂ’（Ｎ）は、単位制御量当たりの、目的の達成に向けて実行する価値の高さの変化量（増分）を表している。評価関数Ｆ（Ｎ）は、評価関数Ａ（Ｎ）と評価関数Ｂ（Ｎ）とを微分した評価関数を用いることによって、より正確に価値情報１２２が示す値を求めることができる。

本実施形態に係る生成部１２が、上述した価値算出基準１２１によって示される、評価関数Ａ’（Ｎ）、評価関数Ｂ’（Ｎ）、及び、評価関数Ｆ（Ｎ）を用いることによって、価値情報１２２を生成する具体例を、図３乃至図６を参照して説明する。

図３乃至図６に示す例では、図１に例示する制御装置１０は、少なくとも４台の無人機２０を制御することとし、それら４台の無人機を、無人機２０－０乃至２０－３と表すこととする。そして、図３乃至図６に示す例では、無人機２０－０乃至２０－３が、図２（ａ）に示す探索状態から図２（ｂ）に示す目標物発見及び追跡開始状態に移行するのにあたり、制御装置１０は、無人機２０－０乃至２０－３の個々が、探索動作の継続、あるいは、目標物に対する追跡動作の開始のいずれかを実行するように制御する。

図３は、制御装置１０が、無人機２０－０を図１に示す自無人機２１として制御する（即ち無人機２０－１乃至２０－３は図１に示す他無人機２２となる）場合において、生成部１２による価値情報１２２が示す値の算出例を示す図である。この場合、無人機２０－０に関する評価関数をＡ（Ｎ）とし、無人機２０－１乃至２０－３に関する評価関数を、順にＢ１（Ｎ）乃至Ｂ３（Ｎ）とする。

図３に示す例では、Ｎが「１」である動作（動作１）を探索とし、Ｎが「２」である動作（動作２）を追跡とする。無人機２０－０乃至２０－３が探索動作（動作１）を継続する場合、同じ動作を継続するので、Ａ’（１）、Ｂ１’（１）乃至Ｂ３’（１）とも、その値は「１」という小さな値（目的の達成に向けて実行する価値の増分は小さい）となっている。一方、無人機２０－０乃至２０－３が目標物に対する追跡動作（動作２）を開始する場合、Ａ’（２）、Ｂ１’（２）乃至Ｂ３’（２）の値は、順に、「１０」、「３」、「５」「２０」という、Ａ’（１）、Ｂ１’（１）乃至Ｂ３’（１）と比較して大きな値となっている。これは、無人機２０－１乃至２０－３が行なう動作が、探索から追跡という新たな段階へ移行するのにあたり、探索動作を継続する場合と比較して、目的の達成に向けて実行する価値の増分は高いと見なされるからである。

また、図３に示す例において、Ａ’（２）、Ｂ１’（２）乃至Ｂ３’（２）の値が互いに異なるのは、無人機２０－０乃至２０－３と目標物との位置関係が異なることなどによる。即ち、目標物から近い場所に位置する無人機２０ほど、追跡動作を実行する価値の増分は高いと見なされるので、その評価関数（微分した関数）が示す値も大きくなる。例えば図３に示す例では、Ｂ１’（２）（その値は「３」）及びＢ２’（２）（その値は「５」）と比較して、Ａ’（２）（その値は「１０」）及びＢ３’（２）（その値は「２０」）は、値が大きい。このことは、無人機２０－０及び２０－３は、無人機２０－１及び２０－２と比較して、目標物に近い場所に位置すること等を示している。

図３に示す例では、価値情報１２２が示す値を求める評価関数Ｆ（Ｎ）は、「Ａ’（Ｎ）－Ｂ１’（Ｎ）＋Ａ’（Ｎ）－Ｂ２’（Ｎ）＋Ａ’（Ｎ）－Ｂ３’（Ｎ）」として定義される。即ち、評価関数Ｆ（Ｎ）は、図１に示す自無人機２１に関する評価関数（微分した関数）が示す値と、１以上の他無人機２２の個々に関する評価関数（微分した関数）が示す値との差分の総和を表している。したがって、評価関数Ｆ（Ｎ）は、自無人機２１に関する評価関数（微分した関数）が示す値が、１以上の他無人機２２の個々に関する評価関数（微分した関数）が示す値と比較して、相対的に大きければ大きいほど大きな値となる。以上のことから、評価関数Ｆ（Ｎ）は、１以上の他無人機２２が動作Ｎを実行することと比較した、自無人機２１が動作Ｎを実行することが有する、目的の達成に向けて実行する価値の高さの増分に関する相対的な高さを表している。

図３に示す例では、生成部１２は、上述した評価関数Ｆ（Ｎ）の算出式に基づいて、Ｆ（０）を「０」、Ｆ（１）を「２」と算出する。

図４は、制御装置１０が、無人機２０－１を図１に示す自無人機２１として制御する（即ち無人機２０－０、２０－２、及び、２０－３は図１に示す他無人機２２となる）場合において、生成部１２による価値情報１２２が示す値の算出例を示す図である。この場合、無人機２０－１に関する評価関数をＡ（Ｎ）とし、無人機２０－０、２０－２、及び、２０－３に関する評価関数を、順にＢ０（Ｎ）、Ｂ２（Ｎ）、及び、Ｂ３（Ｎ）とする。

図４に示す例では、価値情報１２２が示す値を求める評価関数Ｆ（Ｎ）は、「Ａ’（Ｎ）－Ｂ０’（Ｎ）＋Ａ’（Ｎ）－Ｂ２’（Ｎ）＋Ａ’（Ｎ）－Ｂ３’（Ｎ）」として定義されるので、生成部１２は、この評価関数Ｆ（Ｎ）の算出式に基づいて、Ｆ（０）を「０」、Ｆ（１）を「－２６」と算出する。

図５は、制御装置１０が、無人機２０－２を図１に示す自無人機２１として制御する（即ち無人機２０－０、２０－１、及び、２０－３は図１に示す他無人機２２となる）場合において、生成部１２による価値情報１２２が示す値の算出例を示す図である。この場合、無人機２０－２に関する評価関数をＡ（Ｎ）とし、無人機２０－０、２０－１、及び、２０－３に関する評価関数を、順にＢ０（Ｎ）、Ｂ１（Ｎ）、及び、Ｂ３（Ｎ）とする。

図５に示す例では、価値情報１２２が示す値を求める評価関数Ｆ（Ｎ）は、「Ａ’（Ｎ）－Ｂ０’（Ｎ）＋Ａ’（Ｎ）－Ｂ１’（Ｎ）＋Ａ’（Ｎ）－Ｂ３’（Ｎ）」として定義されるので、生成部１２は、この評価関数Ｆ（Ｎ）の算出式に基づいて、Ｆ（０）を「０」、Ｆ（１）を「－１８」と算出する。

図６は、制御装置１０が、無人機２０－３を図１に示す自無人機２１として制御する（即ち無人機２０－０乃至２０－２は図１に示す他無人機２２となる）場合において、生成部１２による価値情報１２２が示す値の算出例を示す図である。この場合、無人機２０－３に関する評価関数をＡ（Ｎ）とし、無人機２０－０乃至２０－２に関する評価関数を、順にＢ０乃至Ｂ２（Ｎ）とする。

図６に示す例では、価値情報１２２が示す値を求める評価関数Ｆ（Ｎ）は、「Ａ’（Ｎ）－Ｂ０’（Ｎ）＋Ａ’（Ｎ）－Ｂ１’（Ｎ）＋Ａ’（Ｎ）－Ｂ２’（Ｎ）」として定義されるので、生成部１２は、この評価関数Ｆ（Ｎ）の算出式に基づいて、Ｆ（０）を「０」、Ｆ（１）を「４２」と算出する。

生成部１２は、また、各動作に関する評価関数Ａ（Ｎ）及び評価関数Ｂ（Ｎ）が示す値に対して、所定の基準による重み付けをおこなってもよい。生成部１２は、あるいはまた、ある動作の実行による価値の高さに関して、当該動作とは別の動作との間に相関関係等が存在する場合、その相関関係等が存在する別の動作に関する評価関数を参照することにより、上述した処理を行うようにしてもよい。

図１に示す選択部１３は、生成部１２によって上述した通り生成された、自無人機２１が実行可能な複数の動作の各々に関する価値情報１２２に基づいて、それら複数の動作のうちの特定の動作１３１を選択する。選択部１３は、例えば、価値情報１２２が示す値が所定の条件を満たす動作を、特定の動作１３１として選択する。当該所定の条件としては、例えば、価値情報１２２が示す値が閾値よりも高いことでもよいし、あるいは、価値情報１２２が示す値が最も高いことなどでもよい。

例えば、図３に示す例では、Ｆ（１）（その値は「２」）は、「０」（本実施形態では「０」を閾値とする）よりも高く、Ｆ（０）（その値は「０」）よりも高いので、選択部１３は、無人機２０－０に関して、「追跡」を特定の動作１３１として選択する。例えば、図４に示す例では、Ｆ（１）（その値は「－２６」）は、「０」よりも低く、Ｆ（０）（その値は「０」）よりも低いので、選択部１３は、無人機２０－１に関して、「探索」を特定の動作１３１として選択する。例えば、図５に示す例では、Ｆ（１）（その値は「－１８」）は、「０」よりも低く、Ｆ（０）（その値は「０」）よりも低いので、選択部１３は、無人機２０－２に関して、「探索」を特定の動作１３１として選択する。例えば、図６に示す例では、Ｆ（１）（その値は「４２」）は、「０」よりも高く、Ｆ（０）（その値は「０」）よりも高いので、選択部１３は、無人機２０－３に関して、「追跡」を特定の動作１３１として選択する。

図１に示す制御部１４は、選択部１３によって選択された特定の動作１３１を実行するように、自無人機２１を制御する。制御部１４は、この際、自無人機２１に関する状態情報２１０（第一状態情報）と、他無人機２２に関する状態情報２２０（第二状態情報）とに基づいて、特定の動作１３１に関する制御量１４１を算出し、特定の動作１３１を、算出した制御量１４１が示す値分実行するように、自無人機２１を制御する。制御部１４は、特定の動作１３１に関する制御量１４１の算出において、例えば、上述した評価関数Ａ（Ｎ）や、評価関数Ｂ（Ｎ）を参照してもよい。制御部１４は、算出した特定の動作１３１に関する制御量１４１に基づいて、自無人機２１を動作させるアクチュエータ（可動部）等の動作設定値を設定する。

（制御装置１０が、自律制御方式と手動制御方式とを切り替えることにより、無人機２０を制御する場合における制御装置１０の動作）
本実施形態に係る制御装置１０は、操作者からの要求に応じて、自無人機２１に対する制御方式を、自律制御方式から操作者による手動制御方式に切り替えることが可能である。次に、制御装置１０が、自律制御方式と手動制御方式とを切り替えながら、自無人機２１を制御する場合における、制御装置１０の動作について説明する。

制御装置１０は、図１に示す通り、操作端末装置３０から、通信ネットワーク５０を介して手動制御指示情報３０１を受信する。手動制御指示情報３０１は、操作者が操作端末装置３０に操作入力することによって、操作端末装置３０によって生成された情報である。手動制御指示情報３０１は、制御方式を自律制御方式から手動制御方式に切り替えたい（即ち、操作者による手動制御を行いたい）無人機２０（自無人機２１）を識別可能な情報と、手動制御方式に切り替える自無人機２１に対する動作指示を表す情報とを含んでいる。そして、手動制御方式に切り替える自無人機２１に対する動作指示を表す情報は、例えば、その自無人機２１がある動作を自律的に実行することを抑制することを指示する情報を含んでいる。

制御装置１０が手動制御指示情報３０１を受信した場合、選択部１３は、価値情報１２２と手動制御指示情報３０１とに基づいて、特定の動作１３１を選択する。生成部１２及び選択部１３の少なくともいずれかは、手動制御指示情報３０１が、ある動作Ｎを自律的に実行することを抑制することを指示する情報を含んでいる場合、その動作Ｎに関する価値情報１２２が示す値を低い値に設定する。

具体的には、生成部１２及び選択部１３の少なくともいずれかは、例えば、動作Ｎに関する評価関数Ａ（Ｎ）あるいは評価関数Ｆ（Ｎ）に対して所定の演算（例えば「０」あるいは負の実数を乗算する等）を行なうことによって、動作Ｎに関する自律制御を抑制することが可能である。この場合、動作Ｎに関する自律制御を抑制された自無人機２１は、動作Ｎに関して、複数の無人機２０により構成された無人機群から外れたことになるので、自無人機２１に対する制御方式が自律制御方式から手動制御方式に切り替わることが、無人機群全体に対して問題となるような影響を及ぼさないことになる。

自無人機２１に対する制御方式を自律制御方式から手動制御方式に切り替える場合、生成部１２は、自無人機２１について、他無人機２２と協調して実行する動作Ｎに関する評価関数Ａ（Ｎ）を無効化（評価関数Ａ（Ｎ）に対して上述した所定の演算を行なう）してもよい。これにより、手動制御方式に切り替えられた自無人機２１は、複数の無人機２０により構成された無人機群から切り離される。

尚、自無人機２１が実行可能な動作には、例えば衝突回避動作など、緊急対策的な動作も含まれる。生成部１２は、自無人機２１に対する制御方式が手動制御方式に切り替わった後も、自無人機２１がこのような緊急対策的な動作を自律的に行なうことができるように、緊急対策的な動作Ｎに関する評価関数Ａ（Ｎ）を無効化せずに、例えば、有効であることを表す所定の実数（例えば「１」）を、その評価関数Ａ（Ｎ）に設定してもよい。

また、生成部１２及び選択部１３の少なくともいずれかは、上述した通り、ある動作Ｎに関する価値情報１２２が示す値に対して、動作Ｎを抑制するような演算を行なう（例えば「０」あるいは負の実数を乗算する等）こととは逆に、動作Ｎを推奨するような演算を行なう（例えば「１」より大きな実数を乗算する等）ようにしてもよい。即ち、生成部１２及び選択部１３の少なくともいずれかは、動作Ｎの実行を抑制する、あるいは推奨することを指示する情報を含む手動制御指示情報３０１に基づいて、動作Ｎに関する評価関数Ａ（Ｎ）あるいは評価関数Ｆ（Ｎ）が示す値に対して演算を行なうことによって、自無人機２１が実行する動作に優先度を加えることが可能となる。

制御部１４は、制御装置１０が手動制御指示情報３０１を受信した場合、手動制御指示情報３０１もふまえて、特定の動作１３１に関する制御量１４１を算出し、特定の動作１３１を、算出した制御量１４１が示す値分実行するように、自無人機２１を制御する。

図１に示す算出部１５は、自無人機２１を制御する方式を自律制御方式から手動制御方式に切り替えることが目的の達成に与える影響の大きさに基づく、手動制御への切り替えの適切度１５１を、生成部１２により生成された価値情報１２２（評価関数Ｆ（Ｎ）が示す値）に基づいて算出する。算出部１５は、この際、価値情報１２２が示す値が小さいほど値が大きくなるように、手動制御への切り替えの適切度１５１を算出する。算出部１５は、例えば、評価関数Ｆ（Ｎ）が示す値の逆数を、手動制御への切り替えの適切度１５１として算出してもよい。

算出部１５は、算出した手動制御への切り替えの適切度１５１を、自無人機２１を識別可能な識別情報と関連付けて、通信ネットワーク５０を介して操作端末装置３０へ送信する。これにより、算出部１５は、手動制御への切り替えの適切度１５１を、自無人機２１と関連付けて、操作端末装置３０が備える表示画面に表示する。

図７は、本実施形態に係る操作端末装置３０を用いて、自律制御方式から手動制御方式に切り替える無人機２０を操作者が選択する際における、ユーザインタフェースの態様を例示する図である。図７に例示する通り、操作端末装置３０は、無人機状況表示部３１と、適切度表示部３２と、手動操作部３３と、を備えている。

無人機状況表示部３１は、各無人機２０から、あるいは、各無人機２０に関する状態情報２１０及び状態情報２２０を取得した制御装置１０から、通信ネットワーク５０を介して取得した状態情報２１０及び状態情報２２０に基づいて、各無人機２０と目標物との位置を表示する。尚、目標物の位置を示す情報は、各無人機２０による目標物に対する探索結果として、状態情報２１０及び状態情報２２０の少なくともいずれかに含まれていることとする。

適切度表示部３２は、算出部１５から上述の通り送信された情報に基づいて、各無人機２０に関する手動制御への切り替えの適切度１５１（手動制御適切度）を表示する。図７に示す例では、追跡動作を実行している無人機２０のうち、Ｎｏ．２の無人機２０の手動制御適切度が、「９８」という最も高い値となっている。

本実施形態では、目標物の捕獲は、操作者によって手動制御された無人機２０によって行われることとする。図７に示す例の場合、操作者は、手動制御適切度が最も高いＮｏ．２の無人機２０を、目標物を捕獲するために自律制御方式から手動制御方式に切り替える無人機として選択する。その選択動作は、操作者が手動制御部３３を操作することによって行なわれる。そして、手動制御方式に切り替えられた無人機２０は、手動操作部３３を介した操作者による手動制御によって、目標物を捕獲する動作を行なう。

また、上述した本実施形態では、操作者よって自律制御方式から手動制御方式に切り替えられる無人機２０を１台としているが、複数の無人機２０が、自律制御方式から手動制御方式に切り替えられるようにしてもよい。また、複数の操作端末装置３０が通信ネットワーク５０に接続され、複数の無人機２０が、複数の操作者によって手動制御されるようにしてもよい。

（価値算出基準１２１として用いる評価関数の具体例）
次に、無人機２０が、目標物に対する探索及び追跡動作を行なう場合を例として、制御装置１０が価値算出基準１２１として用いる、上述した評価関数の具体的な例について説明する。

目標物に対する探索及び追跡動作を行なう場合、探索理論によれば、場所に対する目標物の存在確率密度（場所を変数とした存在確率密度を表す関数）と、探索努力に対する目標物の発見確率（探索努力を変数とした発見確率を表す関数）とによって、価値算出基準１２１（評価関数）を表すことができると考えられる。尚、探索努力とは、探索あるいは追跡活動のために、利用（投入）可能な人、物、時間、費用などの資源の総称であり、例えば、上述した制御量（操作量）なども、探索努力の一つとして見なすことができる。

三次元空間における座標（ｘ，ｙ，ｚ）における、目標物の存在確率密度を、式１の通り表すこととする。

ｇ（ｘ，ｙ，ｚ，ｘ_ｔ，ｙ_ｔ，ｚ_ｔ）
・・・・・・（式１）

但し、式１において、（ｘ_ｔ，ｙ_ｔ，ｚ_ｔ）は、目標物が存在することが予測される座標を表す。

図８は、本実施形態に係る無人機２０が探索動作を行なう場合において、目標物の存在確率密度を表す関数ｇが示す値の分布を概念的に例示するである。図８に例示する通り、関数ｇは、無人機２０が探索動作を行なう領域（探索領域）が、無人機２０の数により分割された部分領域ごとに、部分領域の中心において値が最大となり（即ち、目標物が部分領域の中心付近に存在する確率が高いことを想定）、部分領域の境界に近づく（即ち部分領域の中心から遠くなる）にしたがって値が低下する特性を有する、例えばガウシアン関数などである。即ち、探索領域における座標に対して関数ｇをグラフ化した場合、そのグラフは部分領域ごとの山として表される。尚、図８に例示するグラフでは、説明の便宜上、一部の部分領域における山を省略して記載している。

また、図８は、探索領域における二次元座標に対する関数ｇのグラフを表しているが、探索領域における三次元座標に対する関数ｇも同様に（即ち、三次元の部分領域の中心において値が最大となり部分領域の境界に近づくにしたがって値が低下する特性を有する）考えればよい。関数ｇが図８に例示するような特性を有することにより、複数の無人機２０は分担して、探索領域全体を網羅的かつ効率的に探索することができる。

図９は、本実施形態に係る無人機２０が追跡動作を行なう場合において、目標物の存在確率密度を表す関数ｇが示す値の分布を概念的に例示する図である。図９に例示する通り、関数ｇは、直近に確認された目標物の位置において値が最大となり、直近に確認された目標物の位置から遠くなるにしたがって値が低下する特性を有する、例えばガウシアン関数などである。即ち、追跡領域における座標に対して関数ｇをグラフ化した場合、そのグラフは直近に確認された目標物の位置を頂とする山として表される。

関数ｇが図９に例示するような特性を有することにより、無人機２０は、目標物を効率的に追跡することができる。尚、目標物の位置を示す情報を入手できていない無人機２０は、制御装置１０から目標物の位置を示す情報を入手可能である。目標物の位置を示す情報を入手できていない無人機２０は、あるいは、目標物の位置を示す情報を入手している無人機２０とアドホック通信を行うことによって、目標物の位置を示す情報を入手してもよい。また、関数ｇが示す存在確率密度の精度を向上させるために、関数ｇは、直近に確認された目標物の位置と目標物の動き（方向や速度等）とに基づいて予測された目標物の位置において値が最大となるような特性を有してもよい。

上述した探索努力に対する目標物の発見確率を、式２の通り表すこととする。

ｐ_ｉ（ψ_ｉ）
・・・・・・（式２）

但し、式２において、ψ_ｉは無人機２０－ｉ（ｉは任意の自然数）に与えられた探索努力を表す。但し、ｉは無人機２０の個々に付与された識別子を表し、ｉという識別子が付与された無人機２０を、無人機２０－ｉと称することとする。

目標物の発見確率は、通常、無人機２０が存在する環境に依存する。例えば、無人機２０－ｉが、海中においてソナーを使用して目標物を探索する場合における発見確率ｐ_ｉ（ψ_ｉ）は、式３の通りに表されることが知られている。

ｐ_ｉ（ψ_ｉ）＝１－ｅ^{－γｉψｉ}
・・・・・・（式３）

但し、式３において、ｅは、自然対数の底を表す。また、γ_ｉは、電波の伝播に依存するパラメータであり、海域の特性によって異なる値である。

そして、無人機２０－ｉによる探索あるいは追跡動作に関する評価関数ｆ_ｉは、式４に示す通り、目標物の存在確率密度と目標物の発見確率との積により表すことができる。

ｆ_ｉ＝ｇ（ｘ_ｉ，ｙ_ｉ，ｚ_ｉ，ｘ_ｔ，ｙ_ｔ，ｚ_ｔ）ｐ_ｉ（ψ_ｉ）
・・・・・・（式４）

但し、式４における（ｘ_ｉ，ｙ_ｉ，ｚ_ｉ）は、無人機２０－ｉが位置する座標を表す。このように、本実施形態に係る価値算出基準１２１に含まれる、上述した評価関数Ａ（Ｎ）及びＢ（Ｎ）の一例として、例えば式４に示す評価関数ｆ_ｉを用いることができる。

次に図１０のフローチャートを参照して、本実施形態に係る制御装置１０の動作（処理）について詳細に説明する。

取得部１１は、自無人機２１に関する状態情報２１０と、他無人機２２に関する状態情報２２０とを取得する（ステップＳ１０１）。生成部１２は、状態情報２１０と状態情報２２０とに基づいて、自無人機２１が実行可能な複数の動作の個々に関して、価値算出基準１２１を用いて価値情報１２２を生成する（ステップＳ１０２）。

算出部１５は、価値情報１２２に基づいて、手動制御への切り替えの適切度１５１を算出し、算出した手動制御への切り替えの適切度１５１を、操作端末装置３０に表示する（ステップＳ１０３）。制御装置１０は、手動制御への切り替えの適切度１５１を確認した操作者によって、必要に応じて、手動制御指示情報３０１が入力される（ステップＳ１０４）。

選択部１３は、価値情報１２２と手動制御指示情報３０１とに基づいて、複数の動作のうちの特定の動作１３１を選択する（ステップＳ１０５）。制御部１４は、状態情報２１０と状態情報２２０と手動制御指示情報３０１とに基づいて、特定の動作１３１に関する制御量１４１を算出し、算出した制御量１４１の特定の動作１３１を実行するように、自無人機２１を制御する（ステップＳ１０６）。

複数の無人機２０が与えられた目的を達成していない場合（ステップＳ１０７でＮｏ）、処理はステップＳ１０１へ戻る。複数の無人機２０が与えられた目的を達成した場合（ステップＳ１０７でＹｅｓ）、全体の処理は終了する。

本実施形態に係る制御装置１０は、協調して動作する複数の自律動作機の個々が、目的を達成するために全体最適となるような動作を選択するように、自律動作機を制御することができる。その理由は、制御装置１０は、自無人機２１に関する状態情報２１０と、他無人機２２に関する状態情報２２０とに基づいて、自無人機２１が実行可能な複数の動作の個々に関して価値情報１２２を生成し、生成した価値情報１２２に基づいて複数の動作のうちの特定の動作１３１を決定し、その特定の動作１３１を実行するように自無人機２１を制御するからである。

以下に、本実施形態に係る制御装置１０によって実現される効果について、詳細に説明する。

無人機（自律動作機）を活用した様々な応用例が提案されている現代社会において、無人機が自律的に判断して、自動で動作（例えば、探索、追跡、捕獲等）を切り替えながら、目的を達成できるようにすることが望まれている。そして、複数の無人機が協調（連携）して動作することによって目的を達成する様々な応用例も提案されている。このような複数の無人機（無人機群）を使用する応用例では、各無人機による動作の切り替えに関して、無人機群全体としての視点から、目的を達成することに関して整合がとれている（即ち全体最適である）ことが求められる。即ち、無人機群として目的を達成するために、個々の無人機が最適に（効率的に）動作を切り替える必要があるが、その動作の切り替えの判断は非常に困難である。

このような課題に対して、本実施形態に係る制御装置１０は、取得部１１と、生成部１２と、選択部１３と、制御部１４と、を備え、例えば、図１乃至図１０を参照して上述した通り動作する。即ち、取得部１１は、協調して動作する自無人機２１（第一の自律動作機）及び他無人機２２（第二の自律動作機）が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、自無人機２１の動作状態を表す状態情報２１０と、他無人機２２の動作状態を表す状態情報２２０とを取得する。生成部１２は、状態情報２１０と状態情報２２０とに基づいて、自無人機２１が実行可能な複数の動作の個々に関して、目的の達成に向けて実行する価値の高さを表す価値情報１２２を、価値算出基準１２１を用いて生成する。選択部１３は、複数の動作の各々に関する価値情報１２２に基づいて、複数の動作のうちの特定の動作１３１を選択する。そして、制御部１４は、特定の動作１３１を実行するように、自無人機２１を制御する。

即ち、本実施形態に係る制御装置１０は、自無人機２１が次に行なう動作を複数の動作の中から決定する場合に、動作ごとに、自無人機２１が実行する場合と他無人機２２が実行する場合とについて、与えられた目的の達成に向けて実行する価値の高さを比較し、比較した結果が基準を満たす動作を、自無人機２１が次に行なう動作として決定する。これにより、制御装置１０は、協調して動作する複数の自律動作機の個々が、目的を達成するために全体最適となるような動作を選択するように、自律動作機を制御することができる。

また、本実施形態に係る価値算出基準１２１は、例えば探索理論等に基づいて、目標物の存在確率密度と目標物の発見確率等によって表される評価関数を含んでいる。例えば、複数の無人機２０により構成された無人機群全体による、探索あるいは追跡動作に関する評価関数は、上述した式４を用いて、式５に示す通り表すことができる。

Σ_ｉｆ_ｉ
・・・・・・（式５）

複数の無人機２０により構成された無人機群に与えることができる制御量（探索努力）は無尽蔵ではないので、制御量の最大値は、通常、所定の値である。即ち、制御装置１０は、無人機群に与えることができる制御量が、式６に示す通り所定の値Ψであるという条件の下で、式５に示す評価関数が示す値が最大となるように、無人機２０を制御することが求められる。

Ψ＝Σ_ｉψ_ｉ
・・・・・・（式６）

本願発明者は、本実施形態について上述した通り、自無人機２１が次に行なう動作を選択し、その制御量を算出する手法（アルゴリズム）を考案した。即ち、そのアルゴリズムでは、単位制御量（単位探索努力）あたりの、目的の達成に向けて実行する価値の増分が最も高くなるように、自無人機２１及び他無人機２２に関する評価関数が示す値に基づいて、自無人機２１の動作及びその制御量を決定する。

当該アルゴリズムでは、例えば、ある動作に関する単位制御量を投入する場合に、他無人機２２よりも自無人機２１の方が価値の増分が大きい場合、当該動作に関する単位制御量を自無人機２１に投入することを決定する。その逆に、自無人機２１よりも他無人機２２の方が価値の増分が大きい場合、当該動作に関する単位制御量を自無人機２１ではなく他無人機２２に投入することを決定する。

上述した単位制御量あたりの価値の増分（変化量）は、評価関数を制御量により微分することによって求められる。そして、単位制御量あたりの価値の増分が最も高くなるように当該動作の制御量を算出することを繰り返した場合、微分した評価関数が示す値が、全ての無人機２０に関して等しくなることに帰着するので、例えば、微分した評価関数が示す値が等しくなるような制御量を算出するというような手法も有効である。

また、制御装置１０は、当該アルゴリズムを用いて、自無人機２１の動作及びその制御量を決定する場合、必ずしも、目的の達成に向けて動作する無人機群に含まれる全ての他無人機２２に関する状態情報２２０を取得する必要はない。制御装置１０は、無人機群に含まれる、自無人機２１に対して影響を及ぼす度合いが大きい一部の他無人機２２（例えば、自無人機２１との距離が近い他無人機２２等）に関する状態情報２２０に基づいて、自無人機２１の動作及びその制御量を決定してもよい。

また、本実施形態に係る制御部１４が算出する制御量１４１（操作量）は、スカラー量ではなく、三次元の方向を有するベクトル量である。制御部１４は、例えば、以下の手順により、ベクトル量として表される制御量１４１を算出する。即ち、制御部１４は、自無人機２１の現在位置を始点とし、当該始点と目標物の位置（目標物が存在すると推測される位置）とを結ぶベクトルを生成する。制御部１４は、そのベクトルを単位ベクトル化（長さが１であるベクトルに規格化）した動作ベクトルを生成する。そして制御部１４は、長さが制御量１４１の大きさである動作ベクトルを、制御量１４１として算出する。

また、複数の無人機２０に与えられた目的が、目標物を探索し、追加し、捕獲することとは異なる場合であっても、制御装置１０は、上述した本実施形態が行なう通りに、無人機２０を制御すればよい。例えば、複数の無人機２０に与えられた目的が、無人機２０同士の通信が途切れないように通信状況を改善することである場合、制御装置１０は、価値算出基準１２１に含まれる評価関数として、例えば、自無人機２１が通信可能な他無人機２２の数を表す評価関数を用いることとし、当該評価関数は、自無人機２１と通信可能な他無人機２２の数が多ければ多いほど値が大きくなるような特性を有するようにすればよい。この場合、例えば、式７に示す評価関数ｈ_ｉが考えられる。

ｈ_ｉ＝１－ｅ^{－αｉｍｉ}
・・・・・・（式７）

但し、ｍ_ｉは、無人機２０－ｉ（自無人機２１）と通信可能な他無人機２２の数を表す。α_ｉは、無人機２０－ｉに関する所定の係数である。

また、本実施形態に係る制御装置１０は、操作者からの要求に応じて、自無人機２１に対する制御方式を、自律制御方式から操作者による手動制御方式に切り替えることが可能である。その場合、制御装置１０は、操作端末装置３０から入力された手動制御指示情報３０１もふまえて、特定の動作１３１を選択するとともに、その特定の動作１３１に関する制御量１４１を算出する。

近年、無人機をある目的のために使用する応用例において、無人機群が自律的に動作するだけではなく、一部の無人機について、必要に応じて自律制御方式から操作者による手動制御方式に切り替える（自律制御に手動制御を介入する）ような、マン・イン・ザ・ループ（人と無人機との協調）という概念も出てきている。本実施形態に係る制御装置１０は、このような場合であっても、上述した構成を備えることによって、自律制御による無人機２０と手動制御による無人機２０とを含む無人機群における個々の無人機２０が、目的を達成するために全体最適となるような動作を選択するように制御することができる。

また、本実施形態に係る制御装置１０は、自無人機２１を制御する方式を自律制御方式から手動制御方式に切り替えることが目的の達成に与える影響の大きさに基づく、手動制御への切り替えの適切度１５１を、価値情報１２２に基づいて算出する。そして、制御装置１０は、算出した手動制御への切り替えの適切度１５１を、例えば、図７に例示する通り、操作端末装置３０に表示する。これにより、本実施形態に係る制御装置１０は、操作者が、いずれかの無人機２０について、自律制御方式から手動制御方式に切り替える必要が生じた場合に、手動制御方式に切り替える無人機２０を、適切かつ容易に選択することができるようにする。

また、上述した本実施形態では、制御装置１０は、クラウドコンピューティングにおけるクラウド側（中央管理システム）に構築されることを想定しているが、制御装置１０は、例えば、各無人機２０に搭載されたエッジ側のシステムとして構築されてもよい。この場合、自無人機２１は、他無人機２２と直接通信可能な機能を備えることとする。このような各無人機２０が制御装置１０を搭載するシステムは、無人機２０が動作する領域が、中央管理システムとの通信が困難である領域に存在する場合であっても構築することができる。このようなシステムは、また、中央管理システムが障害等によって機能を停止した場合にも、動作を継続することができる。

また、制御装置１０を中央管理システムとして構築する場合、制御装置１０は、例えば、無人機２０が探索活動等を行なう海上の領域まで航行可能な母船の内部等に、専用システムとして構築されてもよい。

また、無人機２０は、ＵＡＶであっても、ＵＳＶであっても、ＵＵＶであってもよい。無人機２０は、あるいは、自律動作が可能であって、自律動作の状態を監視する操作者が搭乗した有人機であってもよい。無人機２０は、あるいは、協調して物を組み立てる（建設する）ような、地上に固定されたロボットなどでもよい。

また、無人機２０に与えられた目的は、目標物を探索し、追跡し、捕獲することに限定されない。無人機２０に与えられた目的は、例えば、無線機を搭載した無人機２０が、最も広範囲に、所望の転送レートで情報を送受信可能なフォーメーションを組むことなどでもよい。即ち、本実施形態に係る制御装置１０は、協調して動作する複数の無人機２０が、ある目的を達成するために動作する様々な応用例に適用可能である。

＜第２の実施形態＞
図１１は、本願発明の第２の実施形態に係る自律動作機の制御装置６０の構成を概念的に示すブロック図である。自律動作機の制御装置６０は、取得部６１、生成部６２、選択部６３、及び、制御部６４を備えている。

取得部６１は、協調して動作する第一の自律動作機７１及び第二の自律動作機７２が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、第一の自律動作機７１の動作状態を表す第一状態情報７１０と、第二の自律動作機７２の動作状態を表す第二状態情報７２０とを取得する。

生成部６２は、第一状態情報７１０と第二状態情報７２０とに基づいて、第一の自律動作機７１が実行可能な当該複数の動作の個々に関して、目的の達成に向けて実行する価値の高さを表す価値情報６２２を、価値算出基準６２１を用いて生成する。

選択部６３は、当該複数の動作の各々に関する価値情報６２２に基づいて、当該複数の動作のうちの特定の動作６３１を選択する。

制御部６４は、特定の動作６３１を実行するように、第一の自律動作機７１を制御する。

本実施形態に係る自律動作機の制御装置６０は、協調して動作する複数の自律動作機の個々が、目的を達成するために全体最適となるような動作を選択するように、自律動作機を制御することができる。その理由は、自律動作機の制御装置６０は、第一の自律動作機７１に関する第一状態情報７１０と、第二の自律動作機７２に関する第二状態情報７２０とに基づいて、第一の自律動作機７１が実行可能な複数の動作の個々に関して価値情報６２２を生成し、生成した価値情報６２２に基づいて複数の動作のうちの特定の動作６３１を決定し、その特定の動作６３１を実行するように第一の自律動作機７１を制御するからである。

＜ハードウェア構成例＞
上述した各実施形態において図１、及び、図１１に示した制御装置１０及び自律動作機の制御装置６０における各部は、専用のＨＷ（ＨａｒｄＷａｒｅ）（電子回路）によって実現することができる。また、図１、及び、図１１において、少なくとも、下記構成は、ソフトウェアプログラムの機能（処理）単位（ソフトウェアモジュール）と捉えることができる。
・取得部１１及び６１、
・生成部１２及び６２、
・選択部１３及び６３、
・制御部１４及び６４
・算出部１５。

但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図１２を参照して説明する。

図１２は、本願発明の各実施形態に係る制御装置あるいは自律動作機の制御装置を実行可能な情報処理装置９００（コンピュータ）の構成を例示的に説明する図である。即ち、図１２は、図１、及び、図１１に示した制御装置１０あるいは自律動作機の制御装置６０を実現可能なコンピュータ（情報処理装置）の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。

図１２に示した情報処理装置９００は、構成要素として下記を備えている。
・ＣＰＵ（Ｃｅｎｔｒａｌ＿Ｐｒｏｃｅｓｓｉｎｇ＿Ｕｎｉｔ）９０１、
・ＲＯＭ（Ｒｅａｄ＿Ｏｎｌｙ＿Ｍｅｍｏｒｙ）９０２、
・ＲＡＭ（Ｒａｎｄｏｍ＿Ａｃｃｅｓｓ＿Ｍｅｍｏｒｙ）９０３、
・ハードディスク（記憶装置）９０４、
・外部装置との通信インタフェース９０５、
・バス９０６（通信線）、
・ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ＿Ｄｉｓｃ＿Ｒｅａｄ＿Ｏｎｌｙ＿Ｍｅｍｏｒｙ）等の記録媒体９０７に格納されたデータを読み書き可能なリーダライタ９０８、
・モニターやスピーカ、キーボード等の入出力インタフェース９０９。

即ち、上記構成要素を備える情報処理装置９００は、これらの構成がバス９０６を介して接続された一般的なコンピュータである。情報処理装置９００は、ＣＰＵ９０１を複数備える場合もあれば、マルチコアにより構成されたＣＰＵ９０１を備える場合もある。

そして、上述した実施形態を例に説明した本願発明は、図１２に示した情報処理装置９００に対して、次の機能を実現可能なコンピュータプログラムを供給する。その機能とは、その実施形態の説明において参照したブロック構成図（図１、及び、図１１）における上述した構成、或いはフローチャート（図１０）の機能である。本願発明は、その後、そのコンピュータプログラムを、当該ハードウェアのＣＰＵ９０１に読み出して解釈し実行することによって達成される。また、当該装置内に供給されたコンピュータプログラムは、読み書き可能な揮発性のメモリ（ＲＡＭ９０３）、または、ＲＯＭ９０２やハードディスク９０４等の不揮発性の記憶デバイスに格納すれば良い。

また、前記の場合において、当該ハードウェア内へのコンピュータプログラムの供給方法は、現在では一般的な手順を採用することができる。その手順としては、例えば、ＣＤ－ＲＯＭ等の各種記録媒体９０７を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等がある。そして、このような場合において、本願発明は、係るコンピュータプログラムを構成するコード或いは、そのコードが格納された記録媒体９０７によって構成されると捉えることができる。

以上、上述した実施形態を模範的な例として本願発明を説明した。しかしながら、本願発明は、上述した実施形態には限定されない。即ち、本願発明は、本願発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

尚、上述した各実施形態の一部又は全部は、以下の付記のようにも記載されうる。しかしながら、上述した各実施形態により例示的に説明した本願発明は、以下には限られない。

（付記１）
協調して動作する第一及び第二の自律動作機が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、前記第一の自律動作機の動作状態を表す第一状態情報と、前記第二の自律動作機の動作状態を表す第二状態情報とを取得する取得手段と、
前記第一状態情報と前記第二状態情報とに基づいて、前記第一の自律動作機が実行可能な前記複数の動作の個々に関して、前記目的の達成に向けて実行する価値の高さを表す価値情報を、価値算出基準を用いて生成する生成手段と、
前記複数の動作の各々に関する前記価値情報に基づいて、前記複数の動作のうちの特定の動作を選択する選択手段と、
前記特定の動作を実行するように、前記第一の自律動作機を制御する制御手段と、
を備える自律動作機の制御装置。

（付記２）
前記制御手段は、前記第一状態情報と前記第二状態情報とに基づいて、前記特定の動作に関する制御量を算出し、算出した前記制御量の前記特定の動作を実行するように、前記第一の自律動作機を制御する、
付記１に記載の自律動作機の制御装置。

（付記３）
前記選択手段は、外部から入力された、前記第一の自律動作機に対する手動制御を指示する手動制御指示情報に基づいて、前記特定の動作を選択し、
前記制御手段は、前記手動制御指示情報に基づいて、前記特定の動作に関する前記制御量を算出する、
付記２に記載の自律動作機の制御装置。

（付記４）
前記生成手段及び前記選択手段の少なくともいずれかは、前記手動制御指示情報に基づいて、前記複数の動作の各々に関する前記価値情報が示す値に対して、当該動作の実行を抑制あるいは推奨する演算を実行する、
付記３に記載の自律動作機の制御装置。

（付記５）
前記第一の自律動作機を制御する方式を自律制御方式から手動制御方式に切り替えることが前記目的の達成に与える影響の大きさに基づく、前記手動制御方式に切り替えることの適切度を、前記価値情報に基づいて算出する算出手段
をさらに備える、付記３または付記４に記載の自律動作機の制御装置。

（付記６）
前記算出手段は、前記価値情報が示す値が小さいほど、前記適切度が示す値が大きくなるように、前記適切度を算出する、
付記５に記載の自律動作機の制御装置。

（付記７）
前記算出手段は、算出した前記適切度を、前記第一の自律動作機と関連付けて、前記手動制御指示情報が操作入力される操作端末装置が備える表示画面に表示する、
付記５あるいは付記６に記載の自律動作機の制御装置。

（付記８）
前記生成手段は、前記複数の動作の個々に関して、前記第一状態情報に基づいた、前記第一の自律動作機による当該動作の実行に要する前記制御量と前記価値の高さとの関係を表す第一評価関数と、前記第二状態情報に基づいた、前記第二の自律動作機による当該動作の実行に要する前記制御量と前記価値の高さとの関係を表す第二評価関数とを、前記価値算出基準として用いる、
付記２乃至付記７のいずれか一項に記載の自律動作機の制御装置。

（付記９）
前記生成手段は、前記第一評価関数と前記第二評価関数との差分、あるいは、前記第一評価関数を前記制御量により微分した値と前記第二評価関数を前記制御量により微分した値との差分を算出する、
付記８に記載の自律動作機の制御装置。

（付記１０）
前記第一評価関数及び前記第二評価関数は、前記動作が目標物を探索あるいは追跡することである場合、前記第一の自律動作機と前記目標物との位置関係に基づく前記目標物の存在確率密度を表す関数と、前記制御量に基づく前記目標物の発見確率を表す関数とにより表される、
付記８または付記９に記載の自律動作機の制御装置。

（付記１１）
前記存在確率密度を表す関数は、前記動作が前記目標物を探索することである場合、前記第一及び第二の自律動作機が前記目標物を探索する領域に含まれる複数の部分領域ごとに、前記部分領域の中心において値が最大となり、前記部分領域の境界に近づくにしたがって値が低下する特性を有し、前記動作が前記目標物を追跡することである場合、前記目標物が直近に発見された位置において値が最大となり、その直近に発見された位置から離れるにしたがって値が低下する特性を有する、
付記１０に記載の自律動作機の制御装置。

（付記１２）
前記制御手段は、前記複数の動作の個々に関して、前記第一状態情報に基づいた、前記第一の自律動作機による当該動作の実行に要する前記制御量と前記価値の高さとの関係を表す第一評価関数と、前記第二状態情報に基づいた、前記第二の自律動作機による当該動作の実行に要する前記制御量と前記価値の高さとの関係を表す第二評価関数とを用いて、前記特定の動作に関する前記制御量を算出する、
付記２乃至付記７のいずれか一項に記載の自律動作機の制御装置。

（付記１３）
前記制御手段は、前記第一評価関数を前記制御量により微分した値と前記第二評価関数を前記制御量により微分した値が等しくなるような前記制御量を、前記特定の動作に関する前記制御量として算出する、
付記１２に記載の自律動作機の制御装置。

（付記１４）
前記取得手段、前記生成手段、前記選択手段、及び、前記制御手段は、前記第一の自律動作機、あるいは、前記第一の自律動作機と通信可能な情報処理装置に備えられている、
付記１乃至付記１３のいずれか一項に記載の自律動作機の制御装置。

（付記１５）
情報処理装置によって、
協調して動作する第一及び第二の自律動作機が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、前記第一の自律動作機の動作状態を表す第一状態情報と、前記第二の自律動作機の動作状態を表す第二状態情報とを取得し、
前記第一状態情報と前記第二状態情報とに基づいて、前記第一の自律動作機が実行可能な前記複数の動作の個々に関して、前記目的の達成に向けて実行する価値の高さを表す価値情報を、価値算出基準を用いて生成し、
前記複数の動作の各々に関する前記価値情報に基づいて、前記複数の動作のうちの特定の動作を選択し、
前記特定の動作を実行するように、前記第一の自律動作機を制御する、
自律動作機の制御方法。

（付記１６）
協調して動作する第一及び第二の自律動作機が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、前記第一の自律動作機の動作状態を表す第一状態情報と、前記第二の自律動作機の動作状態を表す第二状態情報とを取得する取得処理と、
前記第一状態情報と前記第二状態情報とに基づいて、前記第一の自律動作機が実行可能な前記複数の動作の個々に関して、前記目的の達成に向けて実行する価値の高さを表す価値情報を、価値算出基準を用いて生成する生成処理と、
前記複数の動作の各々に関する前記価値情報に基づいて、前記複数の動作のうちの特定の動作を選択する選択処理と、
前記特定の動作を実行するように、前記第一の自律動作機を制御する制御処理と、
をコンピュータに実行させるための自律動作機の制御プログラムが格納された記録媒体。

１０制御装置
１１取得部
１２生成部
１２１価値算出基準
１２２価値情報
１３選択部
１３１特定の動作
１４制御部
１４１制御量
１５算出部
１５１手動制御への切り替えの適切度
２０無人機
２１自無人機
２１０状態情報
２２他無人機
２２０状態情報
３０操作端末装置
３０１手動制御指示情報
３１無人機状況表示部
３２適切度表示部
３３手動操作部
４０無線通信装置
５０通信ネットワーク
６０自律動作機の制御装置
６１取得部
６２生成部
６２１価値算出基準
６２２価値情報
６３選択部
６３１特定の動作
６４制御部
７１第一の自律動作機
７１０第一状態情報
７２第二の自律動作機
７２０第二状態情報
９００情報処理装置
９０１ＣＰＵ
９０２ＲＯＭ
９０３ＲＡＭ
９０４ハードディスク（記憶装置）
９０５通信インタフェース
９０６バス
９０７記録媒体
９０８リーダライタ
９０９入出力インタフェース

Claims

協調して動作する第一及び第二の自律動作機が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、前記第一の自律動作機の動作状態を表す第一状態情報と、前記第二の自律動作機の動作状態を表す第二状態情報とを取得する取得手段と、
前記第一状態情報と前記第二状態情報とに基づいて、前記第一の自律動作機が実行可能な前記複数の動作の個々に関して、前記目的の達成に向けて実行する価値の高さを表す価値情報を、価値算出基準を用いて生成する生成手段と、
前記複数の動作の各々に関する前記価値情報、及び、外部から入力された、前記第一の自律動作機に対する手動制御を指示する手動制御指示情報に基づいて、前記複数の動作のうちの特定の動作を選択する選択手段と、
前記第一状態情報と前記第二状態情報と前記手動制御指示情報とに基づいて、前記特定の動作に関する制御量を算出し、算出した前記制御量の前記特定の動作を実行するように、前記第一の自律動作機を制御する制御手段と、
前記第一の自律動作機を制御する方式を自律制御方式から手動制御方式に切り替えることが前記目的の達成に与える影響の大きさに基づく、前記手動制御方式に切り替えることの適切度を、前記価値情報に基づいて算出する算出手段と、
を備える自律動作機の制御装置。
前記生成手段及び前記選択手段の少なくともいずれかは、前記手動制御指示情報に基づいて、前記複数の動作の各々に関する前記価値情報が示す値に対して、当該動作の実行を抑制あるいは推奨する演算を実行する、
請求項１に記載の自律動作機の制御装置。
前記算出手段は、前記価値情報が示す値が小さいほど、前記適切度が示す値が大きくなるように、前記適切度を算出する、
請求項１または請求項２に記載の自律動作機の制御装置。
前記算出手段は、算出した前記適切度を、前記第一の自律動作機と関連付けて、前記手動制御指示情報が操作入力される操作端末装置が備える表示画面に表示する、
請求項１乃至請求項３のいずれか一項に記載の自律動作機の制御装置。
前記生成手段は、前記複数の動作の個々に関して、前記第一状態情報に基づいた、前記第一の自律動作機による当該動作の実行に要する前記制御量と前記価値の高さとの関係を表す第一評価関数と、前記第二状態情報に基づいた、前記第二の自律動作機による当該動作の実行に要する前記制御量と前記価値の高さとの関係を表す第二評価関数とを、前記価値算出基準として用いる、
請求項１乃至請求項４のいずれか一項に記載の自律動作機の制御装置。
前記生成手段は、前記第一評価関数と前記第二評価関数との差分、あるいは、前記第一評価関数を前記制御量により微分した値と前記第二評価関数を前記制御量により微分した値との差分を算出する、
請求項５に記載の自律動作機の制御装置。
前記制御手段は、前記複数の動作の個々に関して、前記第一状態情報に基づいた、前記第一の自律動作機による当該動作の実行に要する前記制御量と前記価値の高さとの関係を表す第一評価関数と、前記第二状態情報に基づいた、前記第二の自律動作機による当該動作の実行に要する前記制御量と前記価値の高さとの関係を表す第二評価関数とを用いて、前記特定の動作に関する前記制御量を算出する、
請求項１乃至請求項６のいずれか一項に記載の自律動作機の制御装置。
前記取得手段、前記生成手段、前記選択手段、及び、前記制御手段は、前記第一の自律動作機、あるいは、前記第一の自律動作機と通信可能な情報処理装置に備えられている、
請求項１乃至請求項７のいずれか一項に記載の自律動作機の制御装置。
情報処理装置によって、
協調して動作する第一及び第二の自律動作機が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、前記第一の自律動作機の動作状態を表す第一状態情報と、前記第二の自律動作機の動作状態を表す第二状態情報とを取得し、
前記第一状態情報と前記第二状態情報とに基づいて、前記第一の自律動作機が実行可能な前記複数の動作の個々に関して、前記目的の達成に向けて実行する価値の高さを表す価値情報を、価値算出基準を用いて生成し、
前記複数の動作の各々に関する前記価値情報、及び、外部から入力された、前記第一の自律動作機に対する手動制御を指示する手動制御指示情報に基づいて、前記複数の動作のうちの特定の動作を選択し、
前記第一状態情報と前記第二状態情報と前記手動制御指示情報とに基づいて、前記特定の動作に関する制御量を算出し、算出した前記制御量の前記特定の動作を実行するように、前記第一の自律動作機を制御し、
前記第一の自律動作機を制御する方式を自律制御方式から手動制御方式に切り替えることが前記目的の達成に与える影響の大きさに基づく、前記手動制御方式に切り替えることの適切度を、前記価値情報に基づいて算出する、
自律動作機の制御方法。
協調して動作する第一及び第二の自律動作機が、目的を達成するために、実行可能な複数の動作のうちの少なくともいずれかを随時選択して実行する場合に、前記第一の自律動作機の動作状態を表す第一状態情報と、前記第二の自律動作機の動作状態を表す第二状態情報とを取得する取得処理と、
前記第一状態情報と前記第二状態情報とに基づいて、前記第一の自律動作機が実行可能な前記複数の動作の個々に関して、前記目的の達成に向けて実行する価値の高さを表す価値情報を、価値算出基準を用いて生成する生成処理と、
前記複数の動作の各々に関する前記価値情報、及び、外部から入力された、前記第一の自律動作機に対する手動制御を指示する手動制御指示情報に基づいて、前記複数の動作のうちの特定の動作を選択する選択処理と、
前記第一状態情報と前記第二状態情報と前記手動制御指示情報とに基づいて、前記特定の動作に関する制御量を算出し、算出した前記制御量の前記特定の動作を実行するように、前記第一の自律動作機を制御する制御処理と、
前記第一の自律動作機を制御する方式を自律制御方式から手動制御方式に切り替えることが前記目的の達成に与える影響の大きさに基づく、前記手動制御方式に切り替えることの適切度を、前記価値情報に基づいて算出する算出処理と、
をコンピュータに実行させるための自律動作機の制御プログラム。