JP2023175366A

JP2023175366A - 制御装置、制御方法、及びプログラム

Info

Publication number: JP2023175366A
Application number: JP2022087778A
Authority: JP
Inventors: 大地和田; Daichi Wada; 篤司大瀬戸; Atsushi OSEDO; 深作久田; Shinsaku HISADA
Original assignee: Japan Aerospace Exploration Agency JAXA
Current assignee: Japan Aerospace Exploration Agency JAXA
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2023-12-12
Also published as: WO2023233857A1; GB202416622D0; GB2633253A

Abstract

【課題】ユーザの体格に依らずに、又はユーザの有無に依らずに飛行装置を好適に制御することができる制御装置、制御方法、及びプログラムを提供することを目的の一つとする。【解決手段】実施形態に係る制御装置は、ユーザが装着可能な飛行装置を制御するものであり、前記飛行装置の状態に関する状態データと、前記飛行装置の操作に関する操作データとを取得し、深層強化学習を用いて学習されたモデルに対して、前記取得した状態データ及び操作データを入力し、前記状態データ及び操作データが入力された前記モデルの出力結果に基づいて、前記飛行装置を制御する処理部を備える。【選択図】図３

Description

本発明は、制御装置、制御方法、及びプログラムに関する。

ジェットやロケットの推力を利用してユーザを飛行させる装着型の飛行装置（飛行器具）が知られている。このような飛行装置は、ポータブル・パーソナル・エアモビリティ・システムとも呼ばれている。一方で、深層強化学習を用いてロボットを制御する技術が知られている（例えば非特許文献１参照）。

X. B. Peng, M. Andrychowicz, W. Zaremba, and P. Abbeel, "Sim-to-real transfer of robotic control with dynamics randomization," in 2018 IEEE International Conference on Robotics and Automation (ICRA), 2018, pp. 3803-3810.

人間は一人ひとり体格が異なっているため、飛行装置がヘリコプターのような大きな装置でなく、スーツのように、人間の体格の差に対して相対的に大きな影響を受ける装置である場合、飛行装置を装着するユーザに応じて飛行装置の制御方法を調整する必要がある。しかしながら、従来の技術では、ユーザに応じて飛行装置の制御方法を十分に調整できていなかった。また、その制御方法はユーザが替わるたびに調整し直す必要があり、時間的或いは経済的コストが大きかった。

本発明は、このような事情を考慮してなされたものであり、ユーザを問わずに飛行装置を好適に制御することができる制御装置、制御方法、及びプログラムを提供することを目的の一つとする。

本発明の一態様は、ユーザが装着可能な飛行装置を制御するための制御装置である。前記飛行装置は、前記飛行装置の状態に関する状態データと、前記飛行装置の操作に関する操作データとを取得し、深層強化学習を用いて学習されたモデルに対して、前記取得した姿勢データ及び操作データを入力し、前記状態データ及び操作データが入力された前記モデルの出力結果に基づいて、前記飛行装置を制御する処理部を備える。

本発明の一態様によれば、ユーザの体格に依らずに、又はユーザの有無に依らずに飛行装置を好適に制御することができる。

実施形態に係る飛行装置１の利用場面を説明するための図である。実施形態に係る飛行装置１の構成例を表す図である。実施形態に係る制御装置１００の構成例を表す図である。処理部１７０の一連の処理の流れを示すフローチャートである。深層強化学習モデルＭＤＬの一例を表す図である。

以下、図面を参照し、本発明の制御装置、制御方法、及びプログラムの実施形態について説明する。

［飛行装置の利用場面］
図１は、実施形態に係る飛行装置１の利用場面を説明するための図である。図示のように、飛行装置１はユーザＵによって装着される。ユーザＵによって装着された飛行装置１は、ユーザＵの操縦によって飛行したり、又はオートパイロットのように自律的に飛行したりする。例えば、飛行装置１は、出発地Ａから目的地Ｂまで移動するために利用される。飛行装置１を装着したユーザＵが出発地Ａから目的地Ｂまで移動した後、飛行装置１を脱着して目的地Ｂに降り立った場合、飛行装置１は再度ユーザＵが装着するまで目的地Ｂの周辺でホバリングし続けてもよいし、自律飛行によって目的地Ｂから出発地Ａまで戻ってもよい。飛行装置１は、予め決められた単独のユーザだけでなく、不特定多数のユーザによって利用されてよい。

例えば、飛行装置１は、山岳救助隊が、山のふもとに設置された本部基地（出発地Ａ）から登山道内の救助現場（目的地Ｂ）に空路で向かうために利用されてよい。この際、１人目の救助隊員が目的地Ｂに到着した後、飛行装置１を脱着して目的地Ｂに降り立ち、その後、飛行装置１が単独で出発地Ａまで戻ることで、２人目の救助隊員が飛行装置１を装着して救助現場に向かう。これを繰り返すことで、１つの飛行装置１によって複数の救助隊員を目的地Ｂに出動させることができる。また、救助隊員が目的地Ｂに到着した後、飛行装置１を脱着して目的地Ｂに降り立ち、その後、飛行装置１が単独で出発地Ａや給油地Ｃまで向かい、出発地Ａや給油地Ｃにおいて給油を終えた後に飛行装置１が単独で目的地Ｂまで戻るようにしてもよい。この場合、出発地Ａから目的地Ｂまでの片道分の燃料しか搭載しておらず、往路しか有人飛行できない場合であっても、途中で飛行装置１単独による給油を挟むことで、目的地Ｂから出発地Ａまでの復路も有人飛行することができる。このように、航続距離をより長くすることもできる。

また、飛行装置１は、前述の用途に加え、地上の要救助者を上空で待機中のヘリコプターまで移送させるために利用されてもよい。更に、飛行装置１は地上に限られず、海上でも利用されてよい。例えば、飛行装置１は、海上遭難者を上空のヘリコプターや海上の船舶まで移送させるために利用されてもよい。

［飛行装置の構成］
図２は、実施形態に係る飛行装置１の構成例を表す図である。図示のように、飛行装置１は、例えば、推力装置１０と、翼２０と、着脱部３０と、制御装置１００とを備える。

図２に示すΣ_Ｗは慣性座標系の一つの地球固定座標Σ_Ｗを表し、Ｏ_Ｗは地球固定座標Σ_Ｗの原点を表し、Ｘ_Ｗ軸は真北を表し、Ｙ_Ｗ軸は東を表し、Ｚ_Ｗ軸は鉛直下方を表している。また、慣性主軸を機体固定座標系として定義した場合、図中Ｘ_Ｂ軸は、飛行装置１の重心を原点としたときの機体の慣性主軸を表し、Ｚ_Ｂ軸は、機体の下方向を表し、Ｙ_Ｂ軸は、機体の進行方向右側の方向を表している。言い換えれば、Ｘ_Ｂ軸はロール軸を表し、Ｚ_Ｂ軸はヨー軸を表し、Ｙ_Ｂ軸はピッチ軸を表している。

推力装置１０は、燃料１１を用いて飛行装置１に推力を発生させる。推力装置１０には、例えば、公知のジェットエンジンが好適に用いられてよい。以下、一例として推力装置１０には推力偏向可能なジェットエンジンが適用されるものとして説明する。ジェットエンジンの噴射口には、ダクトファンによって生じた噴流の向きを切り替えるための推力偏向機構（例えばパドルやノズル、リングなどを有するスラストベクタリング機構）が設けられており、これら推力偏向機構は、制御装置１００によって制御される。

翼２０は、飛行装置１の姿勢を維持し、かつ飛行する方向を転換する。翼２０による方向の転換は、ユーザＵが後述のユーザインターフェース１２０を操作することで行われてもよいし、制御装置１００が行ってもよいし、ユーザＵと制御装置１００との協働で行われてもよい。

本実施形態において、翼２０はリンク機構を備え、鳥の羽根のように折り畳みが可能である。上述の翼幅は、翼２０を広げた状態におけるものとする。翼２０を折り畳むことができることから、下記の機能を有する。すなわち、高速飛行時においては翼２０を折り畳んで小さめにすることで空気抵抗を減らし、低速飛行時及び離着陸時には翼２０を大きく展開することで空気力を得る。また、飛行装置１の不使用時には翼２０を折り畳むことで、運搬時の機動性に寄与してもよい。また、上記に限らず、翼２０は、折り畳むことに代えて伸縮構造を備えることによって展開及び格納が可能な構造としてもよい。あるいは、折りたたみ可能な構造を備えない平板状（つまり固定翼）であってもよい。また、本実施形態に係る翼２０は、上述のリンク機構に加えて各種アクチュエータを備え、図２に示すロール軸Ｘ_Ｂ、ヨー軸Ｚ_Ｂ、ピッチ軸Ｙ_Ｂまわりに回動することができるものとする。詳細については後述する。

なお飛行装置１は、翼２０が設けられている代わりに、手と足の間に布を張ったウィングスーツであってもよいし、上記のような固定翼であってもよい。

着脱部３０は、ユーザＵが飛行装置１を装着するための部材であり、この部材はユーザＵが容易に着脱可能な構造を有する。例えば、着脱部３０は、一般的なリュックサックのように肩に掛ける構造と、ユーザＵに固定するための留め具と、を備える構造を有してよい。あるいは、各ユーザＵが予め着脱部３０に対応した形状を備えた取付部材を装備した状態において、ユーザＵに装備された取付部材を介して、ユーザＵと着脱部３０とを適宜固定する構造としてもよい。

制御装置１００は、推力装置１０の推力を制御したり、その推力の向きを制御したりする。更に、制御装置１００は、翼２０の形状や向きを制御することで、飛行装置１の姿勢を調整したり、飛行する方向を転換したりする。

［制御装置の構成］
図３は、実施形態に係る制御装置１００の構成例を表す図である。図示のように、制御装置１００は、例えば、通信インターフェース１１０と、ユーザインターフェース１２０と、センサ１３０と、電源１４０と、記憶部１５０と、アクチュエータ１６０と、処理部１７０とを備える。

通信インターフェース１１０は、例えば、ＷＡＮ（Wide Area Network）などのネットワークを介して、外部装置と無線通信を行う。外部装置は、例えば、飛行装置１を遠隔操作可能なリモートコントローラであってよい。例えば、通信インターフェース１１０は、外部装置から、飛行装置１がとるべき目標の姿勢や速度などを指示するコマンドを受信してよい。これにより、ユーザＵの操縦技能が未熟であって、かつ、制御部２３０による自律単独飛行が不可能であるような場合に、外部から操縦に熟練したオペレータによる操縦を行うことができる。

また、通信インターフェース１１０は、外部装置から、目的地Ｂが変更になった旨を飛行中のユーザＵに対して連絡するための情報を受信してもよいし、目的地Ｂのより詳細な情報をユーザＵに対して連絡するための情報を受信してもよい。

また、通信インターフェース１１０は、外部装置に対して情報を送信してもよい。例えば、通信インターフェース１１０は、救助現場に関する詳細な情報（座標や高度等）を外部装置に送信してよい。

ユーザインターフェース１２０は、入力インターフェース１２０ａと、出力インターフェース１２０ｂとが含まれる。例えば、入力インターフェース１２０ａは、ジョイスティックやハンドル、ボタン、スイッチ、マイクロフォンなどである。出力インターフェース１２０ｂは、例えば、ディスプレイやスピーカなどである。例えば、ユーザＵは、入力インターフェース１２０ａのジョイスティック等を操作して、推力装置１０の推力やその向きを調整してもよいし、翼２０の形状や向きを調整してもよい。また、ユーザＵは、入力インターフェース１２０ａのマイクロフォンに対して、飛行装置１がとるべき速度や高度、姿勢などを発話することで、推力装置１０の推力やその向きを調整してもよいし、翼２０の形状や向きを調整してもよい。

センサ１３０は、例えば、慣性計測装置である。慣性計測装置は、例えば、三軸式加速度センサと、三軸式ジャイロセンサとを含む。慣性計測装置は、三軸式加速度センサや三軸式ジャイロセンサによって検出された検出値を処理部１７０に出力する。慣性計測装置による検出値には、例えば、水平方向、垂直方向、奥行き方向の各加速度及び／又は角速度や、ピッチ、ロール、ヨーの各軸の速度（レート）などが含まれる。センサ１３０には、更に、レーダやファインダ、ソナー、ＧＰＳ（Global Positioning System）受信機などが含まれてもよい。

電源１４０は、例えば、リチウムイオン電池などの二次電池である。電源１４０は、アクチュエータ１６０や処理部１７０などの構成要素に電力を供給する。電源１４０には、更に、ソーラーパネルなどが含まれてもよい。

またアクチュエータ１６０や処理部１７０などは、電源１４０から供給された電力を利用する代わりに、或いは加えて、推力装置１０のジェットエンジンによって発電された電力を利用してもよい。

記憶部１５０は、例えば、ＨＤＤ（Hard Disc Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などの記憶装置により実現される。記憶部１５０には、ファームウェアやアプリケーションプログラムなどの各種プログラムのほかに、処理部１７０の演算結果などがログとして格納される。また、記憶部１５０には、モデル情報１５２が格納される。モデル情報１５２は、例えば、ネットワークを介して外部装置から記憶部１５０にインストールされてもよいし、制御装置１００のドライブ装置に接続された可搬型の記憶媒体から記憶部１５０にインストールされてもよい。モデル情報１５２については後述する。

アクチュエータ１６０は、例えば、推力アクチュエータ１６２と、スイープアクチュエータ１６４と、フォールドアクチュエータ１６８とを備える。

推力アクチュエータ１６２は、推力装置１０を駆動させて、飛行装置１に推力を与えたり、その推力の向きを変更したりする。スイープアクチュエータ１６４は、ヨー軸Ｚ_Ｂ周りに翼２０を回動させる。

処理部１７０は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などが記憶部１５０に格納されたプログラムを実行することにより実現される。また、処理部１７０は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＦＰＧＡ（Field-Programmable Gate Array）などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

処理部１７０は、（ｉ）入力インターフェース１２０ａに対するユーザＵの入力操作、（ｉｉ）センサ１３０の検出結果、（ｉｉｉ）通信インターフェース１１０が外部装置から受信した遠隔操作のためのコマンドのうちの一部又は全部に基づいて、推力アクチュエータ１６２を制御する。これによって、推力装置１０の推力が制御されたり、その推力の向きが制御されたりする。例えば、制御装置１００は、推力アクチュエータ１６２を制御することによって、推力装置１０のジェットエンジンのダクトファンの回転数を制御することで推力を調整したり、ジェットエンジンの推力偏向機構を制御して推力方向を調整したりする。

また、制御装置１００は、翼２０が可変翼である場合、（ｉ）～（ｉｉｉ）のうちの一部又は全部に基づいて、スイープアクチュエータ１６４やフォールドアクチュエータ１６８を制御する。これによって、翼２０の形状や向きが制御される。翼２０の形状や向きは、「可変翼の操作量」の一例である。

［処理部の処理フロー］
以下、処理部１７０の一連の処理の流れをフローチャートを用いて説明する。図４は、処理部１７０の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてよい。

まず処理部１７０は、現時刻ｔにおいて飛行装置１をとりまく環境の状態を示す状態変数ｓ_ｔを取得する（ステップＳ１００）。状態変数ｓ_ｔには、例えば、飛行装置１の現時刻ｔの姿勢、位置、速度、及び角速度のうち少なくとも一つ（好ましくは全て）が含まれる。例えば、状態変数ｓ_ｔに含まれる角度は、ピッチ軸周りの角度（以下、ピッチ角という）であってよい。また状態変数ｓ_ｔに含まれる角速度は、ピッチ角の角速度であってよい。さらに、状態変数ｓ_ｔには、現時刻ｔの推力装置１０の推力及びその方向や、現時刻ｔの翼２０の形状や向きが含まれてよい。現時刻ｔにおける姿勢、位置、速度、及び角速度のうち少なくとも一つ又は全部は「状態データ」の一例である。また現時刻ｔの推力装置１０の推力及びその方向や、現時刻ｔの翼２０の形状や向きは「操作データ」の一例である。

例えば、処理部１７０は、センサ１３０から姿勢、位置、速度、及び角速度を状態変数ｓ_ｔとして取得する。

また、処理部１７０は、入力インターフェース１２０ａを介してユーザＵが推力装置１０の推力やその向きを指示した場合、入力インターフェース１２０ａに対するユーザＵの入力操作を状態変数ｓ_ｔに加えてもよい。

次に、処理部１７０は、記憶部１５０からモデル情報１５２を読み出し、そのモデル情報１５２によって定義された深層強化学習モデルＭＤＬを用いて、状態変数ｓ_ｔから、次の時刻ｔ＋１において飛行装置１が取り得ることが可能な最適な行動（行動変数）ａ_ｔ＋１を決定する（ステップＳ１０２）。

本実施形態における行動（行動変数）ａ_ｔ＋１は、所望のタスクを実現させるための行動であり、例えば、当タスクを実現させるために必要となる推力装置１０の推力とその方向が含まれてよく、更には、翼２０の形状や向きが含まれてよい。所望のタスクは、例えば、ある一定の高度を保ったまま飛行装置１をホバリングさせ続けることや、水平飛行から滑らかにホバリング体勢に遷移させること、強風下でも真っ直ぐに飛行すること、といった様々なタスクであってよい。

図５は、深層強化学習モデルＭＤＬの一例を表す図である。本実施形態に係る深層強化学習モデルＭＤＬは、深層強化学習を利用したニューラルネットワークである。図示のように、例えば、深層強化学習モデルＭＤＬは、中間層（隠れ層）の一部がＬＳＴＭ（Long Short Term Memory）であるリカレントニューラルネットワークであってよい。深層強化学習モデルＭＤＬは、ドメイン－ランダマゼイション（Domain-Randomization）を用いて、飛行装置１の重量や重心、慣性モーメント等のダイナミクスとシステム応答遅れがランダムに設定されて学習される。

ドメイン－ランダマゼイションによる（飛行装置１のダイナミクスがランダム化されて）学習をする際、深層強化学習モデルＭＤＬのＬＳＴＭには、ランダムに設定された飛行装置１のダイナミクスを反映した時系列が記憶される。このように、ニューラルネットワークにＬＳＴＭを設けることで、ドメイン－ランダマゼイションによる学習が好適に行われる。

例えば、深層強化学習モデルＭＤＬを学習させる深層強化学習のアルゴリズムが、価値ベース（Value based）である場合、深層強化学習モデルＭＤＬは、ＤＱＮ（Deep Q-Network）などを用いて学習されてよい。ＤＱＮとは、Ｑ学習と呼ばれる強化学習において、ある時刻ｔのある環境の状態ｓ_ｔの下で、ある行動ａ_ｔを選択したときの価値を関数として表した行動価値関数Ｑ（ｓ_ｔ、ａ_ｔ）を、ニューラルネットワークに近似関数として学習させる手法である。つまり、価値ベース（Value based）の手法で学習された深層強化学習モデルＭＤＬは、現時刻ｔにおいて飛行装置１が取り得ることが可能な一つ又は複数の行動（行動変数）ａ_ｔのうち、価値（Ｑ値）が最大となる行動（行動変数）ａ_ｔを出力するように学習されてよい。

Ｑ学習は、例えば、翼２０や推力装置１０が理想的な状態をとる場合に報酬を高くして、深層強化学習モデルＭＤＬの重みやバイアスを学習する。例えば、決められた地点の上空において、飛行装置１の姿勢が９０度のピッチアップ姿勢であり、飛行装置１の速度が静止と見做せる程度の速度にあるときには報酬を高くしてよい。一方、飛行装置１が地面や木々に接触したり、決められていた高度から逸脱したりする状態にあるときには、報酬を低く（例えばゼロ）にしてよい。

また、例えば、深層強化学習モデルＭＤＬを学習させる深層強化学習のアルゴリズムが方策ベース（Policy based）である場合、深層強化学習モデルＭＤＬは、方策勾配法（Policy Gradients）などを用いて学習されてよい。

また、例えば、深層強化学習モデルＭＤＬを学習させる深層強化学習のアルゴリズムが価値と方策を組み合わせたActor-Criticである場合、深層強化学習モデルＭＤＬに含まれるActor（行動器）を学習しながら、方策を評価するCritic（評価器）も同時に学習してよい。図５に例示した深層強化学習モデルＭＤＬは、ＰＰＯ（Proximal Policy Optimization）等のActor-Criticを用いて学習されたモデルであり、上段のレイヤが方策を出力するように学習され、下段のレイヤが価値を出力するように学習される。

このような深層強化学習モデルＭＤＬを定義したモデル情報１５２には、例えば、ニューラルネットワークを構成する複数の層のそれぞれに含まれるユニットが互いにどのように結合されるのかという結合情報や、結合されたユニット間で入出力されるデータに付与される結合係数などの各種情報が含まれる。結合情報とは、例えば、各層に含まれるユニット数や、各ユニットの結合先のユニットの種類を指定する情報、各ユニットを実現する活性化関数、隠れ層のユニット間に設けられたゲートなどの情報を含む。ユニットを実現する活性化関数は、例えば、正規化線形関数（ＲｅＬＵ関数）であってもよいし、シグモイド関数や、ステップ関数、その他の関数などであってもよい。ゲートは、例えば、活性化関数によって返される値（例えば１または０）に応じて、ユニット間で伝達されるデータを選択的に通過させたり、重み付けたりする。結合係数は、例えば、ニューラルネットワークの隠れ層において、ある層のユニットから、より深い層のユニットにデータが出力される際に、出力データに対して付与される重みを含む。結合係数は、各層の固有のバイアス成分などを含んでもよい。更に、モデル情報１５２には、ＬＳＴＭに含まれる各ゲートの活性化関数の種類を指定する情報や、リカレント重みやピープホール重みなどが含まれてよい。

例えば、処理部１７０は、飛行装置１の現時刻ｔの姿勢、位置、速度、及び角速度のうち少なくとも一つと、現時刻ｔの推力装置１０の推力及びその方向とを取得すると、それらを状態変数ｓ_ｔとして深層強化学習モデルＭＤＬに入力する。状態変数ｓ_ｔが入力された深層強化学習モデルＭＤＬは、次の時刻ｔ＋１において最適となる推力装置１０の推力及びその方向を出力する。上述したように、深層強化学習モデルＭＤＬは、次の時刻ｔ＋１において推力装置１０が出力すべき推力及びその方向に加えて、或いは代えて、次の時刻ｔ＋１において翼２０がとるべき形状や向きを出力するように学習されてもよい。

図４のフローチャートの説明に戻る。次に、処理部１７０は、深層強化学習モデルＭＤＬを用いて決定した飛行装置１がとるべき行動（行動変数）ａ_ｔ＋１、つまり次の時刻ｔ＋１において推力装置１０が出力すべき推力及びその方向や、次の時刻ｔ＋１において翼２０がとるべき形状や向きに基づいて、飛行装置１のアクチュエータ１６０を制御するための制御コマンドを生成する（ステップＳ１０４）。

例えば、処理部１７０は、深層強化学習モデルＭＤＬによって行動変数ａ_ｔ＋１として出力された推力装置１０の推力及びその方向に基づいて、推力アクチュエータ１６２の制御コマンドを生成してよい。また、処理部１７０は、行動変数ａ_ｔ＋１として出力された翼２０の形状や向きに基づいて、スイープアクチュエータ１６４やフォールドアクチュエータ１６８の制御コマンドを生成してよい。

次に、処理部１７０は、生成した制御コマンドに基づいてアクチュエータ１６０を制御する（ステップＳ１０６）。これによって所望のタスクが実現され、その結果として飛行装置１を取り巻く環境の状態が変化し、その状態を表す状態変数がｓ_ｔがｓ_ｔ＋１へと変化する。

処理部１７０は、状態変数ｓ_ｔがｓ_ｔ＋１へと変化したのに伴って、時刻ｔ＋１における状態変数ｓ_ｔ＋１を取得し直す。そして、処理部１７０は、時刻ｔ＋１における状態変数ｓ_ｔ＋１が、飛行装置１によって所望のタスクが達成され続けるように制御コマンドを対象のアクチュエータ１６０に与え続ける。これによって本フローチャートの処理が終了する。

以上説明した第実施形態によれば、制御装置１００の処理部１７０は、飛行装置１の現時刻ｔの姿勢、位置、速度、及び角速度のうち少なくとも一つ（好ましくは全て）と、現時刻ｔの推力装置１０の推力及びその向きとを状態変数ｓ_ｔとして取得する。この際、処理部１７０は、現時刻ｔの推力装置１０の推力及びその向きに加えて、或いは代えて、現時刻ｔの翼２０の形状や向きを、状態変数ｓ_ｔとして取得してもよい。

処理部１７０は、状態変数ｓ_ｔを取得すると、深層強化学習によって予め学習された深層強化学習モデルＭＤＬに対して、状態変数ｓ_ｔを入力する。処理部１７０は、状態変数ｓ_ｔが入力されたことに応じて深層強化学習モデルＭＤＬが出力した次の時刻ｔ＋１における行動変数ａ_ｔ＋１に基づいて、飛行装置１を制御する。このように、現時刻ｔの飛行装置１の姿勢、位置、速度、及び角速度と、現時刻ｔの推力装置１０の推力及びその向きとを含む状態変数ｓ_ｔをもとに深層強化学習された深層強化学習モデルＭＤＬを利用して飛行装置１を制御するため、有人飛行の場合には、飛行装置１を装着するユーザＵの体格（体重や身長など）にばらつきがあったとしても、ユーザＵの体格に依らずに飛行装置１を好適に制御することができる。また、飛行途中でユーザが飛行装置１を離脱し、有人飛行から無人飛行に切り替わった場合であっても、飛行装置１を好適に制御することができる。

例えば、前述のように、山岳救助隊が飛行装置１を装着して登山道内の救助現場（目的地Ｂ）に空路で向かう場合、１人目の救助隊員が目的地Ｂに到着した後、飛行装置１を脱着して目的地Ｂに降り立ち、その後、飛行装置１が単独で出発地Ａまで戻ることで、２人目の救助隊員が飛行装置１を装着して救助現場に向かうことが想定される。このような場合において、例えば、１人目の救助隊員と２人目の救助隊員との体格が大きく異なると、従来の技術では、同一の飛行装置１を利用することが難しい。これに対して本実施形態では、特にリカレントニューラルネットワークがＬＳＴＭ層を有するため、時系列の記憶が可能となり、制御出力と状態変数の履歴からユーザの体格に応じたチューニングが可能となる。この結果、体重が重いユーザＵが飛行装置１を装着したときでも、体重が軽いユーザＵが飛行装置１を装着したときでも同じように飛行装置１を安定的に飛行させ続けることができる。

また、例えば、１人目の救助隊員が目的地Ｂに到着した後、飛行装置１を脱着して目的地Ｂに降り立った場合、飛行装置１にかかる荷重が急激に減少することになる。このような場合、従来の技術では、飛行装置１を安定して飛行させ続けることが難しい。これに対して本実施形態では、ユーザの体格を考慮したのではなく、飛行装置１のダイナミクスや応答遅れのばらつきを考慮して深層強化学習を行っているため、つまりドメイン－ランダマゼイションを用いて深層強化学習を行っているため、ユーザＵが飛行装置１を離脱し、飛行装置１単体となった場合であっても、ユーザＵが飛行装置１を装着していたとき同様に、飛行装置１を安定的に飛行させ続けることができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…飛行装置、１０…推力装置、２０…翼、３０…着脱部、１００…制御装置、１１０…通信インターフェース、１２０…ユーザインターフェース、１３０…センサ、１４０…電源、１５０…記憶部、１６０…アクチュエータ、１７０…処理部

Claims

ユーザが装着可能な飛行装置を制御するための制御装置であって、
前記飛行装置の状態に関する状態データと、前記飛行装置の操作に関する操作データとを取得し、
深層強化学習を用いて学習されたモデルに対して、前記取得した状態データ及び操作データを入力し、
前記状態データ及び操作データが入力された前記モデルの出力結果に基づいて、前記飛行装置を制御する、
処理部を備える制御装置。
前記モデルは、ドメイン－ランダマゼイションによって学習されたニューラルネットワークである、
請求項１に記載の制御装置。
前記モデルは、記憶層が含まれるリカレントニューラルネットワークである、
請求項１又は２に記載の制御装置。
前記飛行装置は、ジェットエンジンが含まれ、
前記状態データには、前記飛行装置の姿勢、位置、速度、及び角速度のうち少なくとも一つが含まれ、
前記操作データには、前記ジェットエンジンの推力及び前記推力の方向が含まれ、
前記処理部は、前記モデルによって出力された前記推力及び前記推力の方向に基づいて、前記飛行装置の姿勢を制御する、
請求項１又は２に記載の制御装置。
前記飛行装置には、更に、可変翼が含まれ、
前記操作データには、更に、前記可変翼の操作量が含まれ、
前記処理部は、前記モデルによって出力された前記推力、前記推力の方向、及び前記可変翼の操作量に基づいて、前記飛行装置の姿勢を制御する、
請求項４に記載の制御装置。
ユーザが装着可能な飛行装置をコンピュータを用いて制御するための制御方法であって、
前記飛行装置の状態に関する状態データと、前記飛行装置の操作に関する操作データとを取得すること
深層強化学習を用いて学習されたモデルに対して、前記取得した状態データ及び操作データを入力すること、
前記状態データ及び操作データが入力された前記モデルの出力結果に基づいて、前記飛行装置を制御すること、
を含む制御方法。
ユーザが装着可能な飛行装置を制御するようコンピュータに実行させるためのプログラムであって、
前記飛行装置の状態に関する状態データと、前記飛行装置の操作に関する操作データとを取得すること
深層強化学習を用いて学習されたモデルに対して、前記取得した状態データ及び操作データを入力すること、
前記状態データ及び操作データが入力された前記モデルの出力結果に基づいて、前記飛行装置を制御すること、
を含むプログラム。