JP2021057024A

JP2021057024A - 航空機を制御するためのニューラルネットワークを訓練するためのシステム及び方法

Info

Publication number: JP2021057024A
Application number: JP2020145354A
Authority: JP
Inventors: ヤンチェン，; Yan Chen; ディーパックコースラ，; Khosla Deepak; ケヴィンマーティン，; Martin Kevin
Original assignee: Boeing Co
Current assignee: Boeing Co
Priority date: 2019-08-29
Filing date: 2020-08-31
Publication date: 2021-04-08
Also published as: EP3786925A1; US20210065003A1; CN112445129A; CA3091273A1; KR20210028107A; US11481634B2

Abstract

【課題】航空機を制御するためのニューラルネットワークを訓練する。【解決手段】システム１００は、制御入力生成器及びニューラルネットワーク訓練器を含む。フライトシミュレータは、第１の制御入力に応じて第１の状態データを生成し、候補の第２の制御入力を生成するために第１の状態データを主ニューラルネットワークに供給する。制御入力生成器は、乱数値に基づいて、候補の第２の制御入力と、第１の制御入力に加えられるランダムオフセットに基づくランダムな制御入力との間から第２の制御入力を選択する。フライトシミュレータは、制御入力生成器からの第２の制御入力に応じて、第２の状態データを生成する。ニューラルネットワーク訓練器は、第１の状態データ及び第２の状態データに少なくとも部分的に基づいて、主ニューラルネットワークの重みを更新する。【選択図】図１

Description

本開示は、概して、航空機を制御するためのニューラルネットワークを訓練することに関する。

人工知能と機械学習の進歩により、自動走行する車両は達成可能な目標となっているが、航空機は、引き続きパイロットによって操縦されている。自律的な航空機を訓練するために人間のパイロットからデータを収集することには、時間とコストが掛かりうる。以前のパイロットの経験に基づいた収集された訓練データでは、航空機が遭遇する可能性のある潜在的な新しいシナリオを網羅しないであろう。

或る特定の実現において、航空機を制御するためのニューラルネットワークを訓練する装置は、メモリと、制御入力生成器と、ニューラルネットワーク訓練器とを含む。メモリは、第１のニューラルネットワークを格納するよう構成される。制御入力生成器は、第１の制御入力を飛行シミュレータに供給するよう構成される。飛行シミュレータが、第１の制御入力に応じて第１の状態データを生成し、候補の第２の制御入力を生成するために第１の状態データを入力として第１のニューラルネットワークに供給するよう構成される。制御入力生成器はまた、乱数値に基づいて、飛行シミュレータのための第２の制御入力を選択するよう構成される。第２の制御入力が、候補第２制御入力と、ランダムなオフセット制御入力と、の間から選択される。ランダムなオフセット制御入力は、第１の制御入力に加えられるランダムオフセットに基づいている。制御入力生成器は、第２の制御入力を飛行シミュレータに提供するようさらに構成される。飛行シミュレータは、第２の制御入力に応じて、第２の状態データを生成するよう構成される。ニューラルネットワーク訓練器は、第１の状態データ及び第２の状態データに少なくとも部分的に基づいて、第１のニューラルネットワークの重みを更新するよう構成される。

他の特定の実現において、航空機を制御するためのニューラルネットワークを訓練する方法が、第１の制御入力を飛行シミュレータに供給することを含む。飛行シミュレータは、第１の制御入力に応じて第１の状態データを生成し、候補の第２の制御入力を生成するために第１の状態データを入力として第１のニューラルネットワークに供給する。本方法はまた、乱数値に基づいて、飛行シミュレータのための第２の制御入力を選択することを含む。第２の制御入力が、候補第２制御入力と、ランダムなオフセット制御入力と、の間から選択される。ランダムなオフセット制御入力は、第１の制御入力に加えられるランダムオフセットに基づいている。本方法は、第２の制御入力を飛行シミュレータに供給することを含む。飛行シミュレータは、第２の制御入力に応じて、第２の状態データを生成する。本方法はまた、第１の状態データ及び第２の状態データに少なくとも部分的に基づいて、第１のニューラルネットワークの重みを更新することを含む。

別の特定の実現において、コンピュータ可読記憶デバイスが、命令であって、
１つ以上のプロセッサによって実行されると、当該１つ以上のプロセッサに、航空機を制御するためのニューラルネットワークを訓練するための動作を実施又は制御させる命令を格納している。動作は、第１の制御入力を飛行シミュレータに供給することを含む。飛行シミュレータは、第１の制御入力に応じて第１の状態データを生成し、候補の第２の制御入力を生成するために第１の状態データを入力として第１のニューラルネットワークに供給する。動作はまた、乱数値に基づいて、飛行シミュレータのための第２の制御入力を選択することも含む。第２の制御入力が、候補第２制御入力と、ランダムなオフセット制御入力と、の間から選択される。ランダムなオフセット制御入力は、第１の制御入力に加えられるランダムオフセットに基づいている。動作は、第２の制御入力を飛行シミュレータに供給することを含む。飛行シミュレータは、第２の制御入力に応じて、第２の状態データを生成する。動作はまた、第１の状態データ及び第２の状態データに少なくとも部分的に基づいて、第１のニューラルネットワークの重みを更新することを含む。

本明細書に記載された特徴、機能、及び利点は、様々な実装形態において単独で実現することが可能であり、又は、更に別の実装形態において組み合わせることも可能である。これらのさらなる詳細は、以下の明細書の記載及び図面を参照して理解されうる。

航空機を制御するためのニューラルネットワークを訓練するよう構成されたシステムを示す図である。図１のシステムのニューラルネットワークの一例の図である。航空機を制御するためのニューラルネットワークを訓練する方法の一例のフローチャートを示す図である。図１のニューラルネットワークを含む、航空機のライフサイクルを示すフローチャートである。ニューラルネットワークにより制御されるよう構成された航空機の図である。本開示に係る、コンピュータにより実現される方法及びコンピュータで実行可能なプログラム命令（又はコード）の態様をサポートするよう構成された計算装値を含む計算環境のブロック図である。

本明細書に開示される態様は、航空機を制御するためのニューラルネットワークを訓練するためのシステム及び方法を提示している。ニューラルネットワークは、制御入力を飛行シミュレータに供給し、制御入力に応じて、飛行シミュレータにより生成された状態データに基づいて報酬値を決定し、報酬値に基づいてニューラルネットワークの重みを更新することによって訓練される。状態データは、飛行シミュレータにおける或る特定の機種の航空機シミュレーションの状態を示している。ニューラルネットワークは、状態データに応じて、ニューラルネットワークの重みに基づいて制御入力を生成するよう構成される。訓練されたニューラルネットワークは、或る特定の機種の航空機（例えば、実在の航空機）を制御するために利用されうる。飛行シミュレータに基づいてニューラルネットワークを訓練することによって、パイロットのデータと比べて、より少ないリソース（例えば、時間及び資金）が消費される。飛行シミュレータを用いて訓練されたニューラルネットワークはまた、よりロバストである可能性が高い。なぜならば、飛行シミュレータは、パイロットが通常では遭遇しないシナリオを含む様々なシナリオをシミュレートするよう設計可能だからである。

図及び以下の明細書の記載は、具体的かつ例示的な実施形態を示している。当業者は、本明細書に明示的に記載又は図示されていなくとも、本明細書に記載の原理を具現化し、かつ、本明細書に続く特許請求の範囲に含まれる様々な構成を考案しうることが認識されよう。更に、本明細書に記載のいかなる例も、本開示の原理の理解を支援するためのものであり、限定を含まないものと見做される。その結果、本開示は、後述する具体的な実施形態又は実施例に限定されないが、特許請求の範囲及びその均等物によって限定される。

本明細書では、特定の実現について図面を参照して説明する。本明細書の記載では、共通の特徴が図面全体を通じて、共通の参照番号により指し示される。本明細書では、様々な用語は、特定の実現を説明するためのみに使用されており、限定することは意図されていない。例えば、単数形「１つの（ａ、ａｎ）」及び「その（ｔｈｅ）」は、文脈が明らかにそうでないことを示さない限りは、複数形も含むことが意図されている。さらに、本明細書に記載する幾つかの特徴は、幾つかの実現では単数で存在し、他の実現では複数で存在する。本明細書で簡単に参照できるように、このような特徴は一般に「１つ以上の」特徴として導入され、それ以降は、複数の上記特徴に関連する態様が記載されていない限り、単数の特徴が言及される。

「備える（ｃｏｍｐｒｉｓｅ、ｃｏｍｐｒｉｓｅｓ、ｃｏｍｐｒｉｓｉｎｇ）」という用語は、「含む（ｉｎｃｌｕｄｅ、ｉｎｃｌｕｄｅｓ、ｉｎｃｌｕｄｉｎｇ）」と交換可能に使用される。さらに、「ここで（ｗｈｅｒｅｉｎ）」という用語は、「その場合に（ｗｈｅｒｅ）」という用語と交換可能に使用される。本明細書では、「例示的な（ｅｘｅｍｐｌａｒｙ）」は、実施例、実現、及び／又は態様を示し、選好又は好適な実装形態を限定又は指示すると解釈するべきではない。本明細書では、構造、構成要素、動作といった要素を修飾する序数用語（例えば、「第１の」、「第２の」、「第３の」など）は、これ自体が、他の要素に対する上記要素の任意の優先度又は序列を示すものではなく、上記要素を（序数用語の利用を除いて）同じ名称を有する他の要素と区別しているにすぎない。本明細書で使用される「集合（ｓｅｔ）」という用語は、１つ以上の要素のグループ化のことを指し、「複数の（ｐｌｕｒａｌｉｔｙ）」という用語は、複数の要素のことを指す。

本明細書では、「生成する（ｇｅｎｅｒａｔｉｎｇ）」、「計算する（ｃａｌｃｕｌａｔｉｎｇ）」、「使用する（ｕｓｉｎｇ）」、「選択する（ｓｅｌｅｃｔｉｎｇ）」、「アクセスする（ａｃｃｅｓｓｉｎｇ）」、及び「決定する（ｄｅｔｅｒｍｉｎｉｎｇ）」は、文脈がそうでないことを示さない限り交換可能である。例えば、パラメータ（又は信号）を「生成する」、「計算する」、若しくは「決定する」ことは、パラメータ（又は信号）を能動的に生成、計算、若しくは決定することを指し、又は、例えば他の構成要素又はデバイスによって、既に生成されているパラメータ（又は信号）を使用、選択、若しくはアクセスすることを指しうる。本明細書で使用される「結合（ｃｏｕｐｌｅｄ）」は、「通信可能に接続」、「電気的に結合」、又は「物理的に結合」を含むことができ、さらに（又は代替的に）その任意の組み合わせを含むことができる。２つのデバイス（又は構成要素）は、１つ以上の他のデバイス、構成要素、配線、バス、ネットワーク（例えば、有線ネットワーク、無線ネットワーク、又はその組み合わせ）などを介して直接又は間接的に結合（通信可能に接続、電気的に結合、又は物理的に結合）することが可能である。電気的に結合された２つのデバイス（又は構成要素）は、同じデバイス又は異なるデバイスに含めることができ、例示的な非限定的実施例として、電子機器、１つ以上のコネクタ、又は誘導結合を介して接続することが可能である。幾つかの実現において、電気通信などで通信可能に接続された２つのデバイス（又は構成要素）は、１つ又は複数の配線、バス、ネットワークなどを介して直接又は間接的に電気信号（デジタル信号又はアナログ信号）を送受信することが可能である。本明細書では、「直接結合された（ｄｉｒｅｃｔｌｙｃｏｕｐｌｅｄ）」は、構成要素を介在させることなく結合される（例えば、通信可能に接続され、電気的に結合され、又は物理的に結合された）２つのデバイスを記述するために使用される。

図１は、航空機を制御するためのニューラルネットワークを訓練するよう構成されたシステム１００の一例を示している。システム１００は、飛行シミュレータ１４６を含み、飛行シミュレータ１４６は、目標ニューラルネットワーク１０６、主ニューラルネットワーク１０４、メモリ１３２、又はこれらの組み合わせに通信可能に接続されている。例えば、飛行シミュレータ１４６は、目標ニューラルネットワーク１０６、主ニューラルネットワーク１０４、メモリ１３２、又はこれらの組み合わせとデータを交換するよう構成される。システム１００は、飛行シミュレータ１４６、メモリ１３２、又はその双方に接続された報酬計算機１４２を含む。システム１００は、メモリ１３２、報酬計算機１４２、目標ニューラルネットワーク１０６、主ニューラルネットワーク１０４、又はこれらの組み合わせに接続されたニューラルネットワーク訓練器１４０を含む。システム１００はまた、メモリ１３２、主ニューラルネットワーク１０４、オフセット計算器１４８、飛行シミュレータ１４６、又はこれらの組み合わせに接続された制御入力生成器１４４を含む。

或る特定の態様において、ニューラルネットワーク訓練器１４０は、（ＤＱＮ：ｄｅｅｐＱ−Ｎｅｔｗｏｒｋ）技術に基づいて、主ニューラルネットワーク１０４を訓練するよう構成される。例えば、ニューラルネットワーク訓練器１４０は、主ニューラルネットワーク１０４の遅延されたコピーに相当する目標ニューラルネットワーク１０６を用いて、主ニューラルネットワーク１０４を訓練する。例えば、ニューラルネットワーク訓練器１４０は、目標ニューラルネットワーク１０６の重みの先行する更新の後に、少なくとも１回の閾値回数による更新が主ニューラルネットワーク１０４の重みに対して行われているという判定に応じて、主ニューラルネットワーク１０４の重みを複写することによって、目標ニューラルネットワーク１０６の重みを更新するよう構成される。

以下の明細書の記載では、図１のシステム１００により実行される様々な機能は、特定の構成要素又はモジュールにより実行されるものとして記載されることに注意されたい。しかしながら、構成要素及びモジュールの上記分別は、例示のためだけに行われる。代替的な態様において、特定の構成要素又はモジュールにより実行されると本明細書に記載された機能が、複数の構成要素又はモジュールの間で分けられる。さらに、代替的な態様において、図１の２つ以上の構成要素又はモジュールが、単一の構成要素又はモジュールに組み込まれうる。図１に図示される各構成要素又はモジュールは、ハードウェア（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）デバイス、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、コントローラ等）、ソフトウェア（例えば、プロセッサにより実行可能な命令）、又はこれらの任意の組み合わせを用いて実現されうる。

或る特定の態様において、ニューラルネットワーク訓練器１４０は、主ニューラルネットワーク１０４を訓練するために、強化学習の仕組みを利用するよう構成される。上記強化学習の仕組みは、（報酬計算機１４２により計算された）報酬値を増大又は最大化しようと試みる。或る特定の実施例において、飛行シミュレータ１４６が、航空機シミュレーションの状態を表す状態データを生成する。主ニューラルネットワーク１０４は、状態データに基づいて制御入力を生成する。例えば、主ニューラルネットワーク１０４は、入力としての状態データを利用して、複数の出力のための複数の予測された主報酬値を生成する。本明細書では、「予測される主報酬値」とは、複数の出力のうちの或る特定の出力が制御入力として飛行シミュレータ１４６に供給される場合に主ニューラルネットワーク１０４の予測から結果的に得られる報酬値を指している。複数の出力のそれぞれが、様々な制御入力に相当する。或る特定の実施例において、主ニューラルネットワーク１０４が航空機の昇降舵設定を制御するために訓練される場合には、複数の出力は、入力として飛行シミュレータ１４６に供給可能な様々な昇降舵設定値（例えば、昇降舵位置角度）に相当する。本例では、或る特定の昇降舵設定値についての予測される主報酬値は、当該或る特定の昇降舵設定値が制御入力として飛行シミュレータ１４６に供給された場合に報酬計算機１４２が生成するだろうと主ニューラルネットワーク１０４が予測する報酬値を示す。或る特定の実現において、予測される主報酬値１１７は、可能な制御入力ごとに１つの予測される報酬値を含む報酬値の集合を含むベクトルである。例えば、制御入力が昇降舵設定値に相当するときには、予測される主報酬値１１７は、許容される昇降舵設定値ごとの予測される報酬値を示すことが可能である。代替的に、予測される主報酬値１１７は、ベクトルの最大予測報酬値に相当する１つの値を含みうる。

予測された主報酬値のベクトル、最大予測報酬値、又は、複数の主報酬値の最大予測主報酬値と関連する制御入力を識別する情報が、制御入力生成器１４４に供給され、候補の制御入力１０７が示される。制御入力生成器１４４は、飛行シミュレータ１４６に供給される制御入力を選択又は生成する。飛行シミュレータ１４６は、制御入力生成器１４４により供給された制御入力に基づいて、新しい状態データを生成する。報酬計算機１４２が、状態データにより示される航空機シミュレーション状態の変化に基づいて（例えば、以前の状態データと新しい状態データとの比較に基づいて）、報酬値（例えば、現在の報酬値、又は、検出された報酬値）を決定する。

ニューラルネットワーク訓練器１４０は、報酬値に少なくとも部分的に基づいて、主ニューラルネットワーク１０４を更新する。例えば、ニューラルネットワーク訓練器１４０は、報酬値に基づいて重み１２１を決定し、重み１２１に基づいて、主ニューラルネットワーク１０４の、重み付けされたノード接続を更新する。このようにして、主ニューラルネットワーク１０４は、結果的に「良い」報酬値（例えば、正の値の報酬値）が得られる制御入力を生成し、結果的に「悪い」報酬値（例えば、負の値報酬値）が得られる制御入力を生成しないよう訓練される。

或る特定の態様において、ニューラルネットワーク訓練器１４０は、主ニューラルネットワーク１０４の遅延されたコピーである目標ニューラルネットワーク１０６に基づいて、主ニューラルネットワーク１０４を訓練するよう構成される。例えば、ニューラルネットワーク訓練器１４０は、或る特定のシミュレーション時間ステップ（ｔ＋１）について、目標ニューラルネットワーク１０６により生成された予測される目標報酬値１１９と、先行するシミュレーション時間ステップ（ｔ）について、主ニューラルネットワーク１０４により生成された予測される主報酬値１２７と、に少なくとも部分的に基づいて、主ニューラルネットワーク１０４を更新する。本明細書では、「予測される目標報酬値」とは、或る特定の制御入力が飛行シミュレータ１４６に供給される場合に目標ニューラルネットワーク１０６の予測から結果的に得られる報酬値を指している。主ニューラルネットワーク１０４のように、目標ニューラルネットワーク１０６は、飛行シミュレータ１４６からの状態データ１０５に基づいて、複数の予測される目標報酬値を生成し、各目標報酬値１１９は、可能な制御入力に相当する。或る特定の実現において、予測される目標報酬値１１９は、可能な制御入力ごとに１つの予測される報酬値を含む報酬値の集合を含むベクトルである。例えば、制御入力が昇降舵設定値に相当するときには、予測される標報酬値１１９は、許容される昇降舵設定値ごとの予測される報酬値を示しうる。代替的に、予測される目標報酬値１１９は、ベクトルの最大予測報酬値に相当する１つの値を含みうる。

ニューラルネットワーク訓練器１４０は、予測される主報酬値１２７及び予測される目標報酬値１１９に基づいて、主ニューラルネットワーク１０４を更新する。或る特定の態様において、目標ニューラルネットワーク１０６は、主ニューラルネットワーク１０４よりも安定している。なぜならば、目標ニューラルネットワーク１０６が更新される頻度がより低いからである。目標ニューラルネットワーク１０６（例えば、時間的に遅いニューラルネットワーク）の予測される目標報酬値に基づいて、主ニューラルネットワーク１０４を更新することで、主ニューラルネットワーク１０４が不安定なフィードバックループに陥る可能性が低減される。

或る特定の態様において、制御入力生成器１４４は、主ニューラルネットワーク１０４の出力及びランダムな制御入力に基づいて、候補の制御入力１０７を無作為に選択するよう構成される。制御入力生成器１４４は、選択された制御入力を飛行シミュレータ１４６に供給するよう構成される。主ニューラルネットワーク１０４により生成された制御入力に加えて、ランダムな制御入力を利用することで、主ニューラルネットワーク１０４のよりロバストな訓練が可能となる。例えば、主ニューラルネットワーク１０４の訓練は、主ニューラルネットワーク１０４によって生成される可能性がより低い制御入力（例えば、ランダムな制御入力）に応じた状態データを含みうる。

或る特定の態様において、システム１００の１つ以上の構成要素（例えば、主ニューラルネットワーク１０４、目標ニューラルネットワーク１０６、ニューラルネットワーク訓練器１４０、報酬計算機１４２、制御入力生成器１４４、飛行シミュレータ１４６、オフセット計算器１４８、又はこれらの組み合わせ）が、少なくとも部分的に、１つ以上のプロセッサが１つ以上の命令を実行することで実現されうる。１つ以上の構成要素は、マルチコア構成、マルチプロセッサ構成、分散計算構成、クラウド計算構成、又はこれらの任意の組み合わせなど、１つのプロセッサ又は複数のプロセッサとして実現されうる。幾つかの実現において、システム１００の１つ以上の構成要素の１つ以上の部分が、プロセッサによって、専用ハードウェア、ファームウェア、又はこれらの組み合わせを用いて実現される。

動作中に、飛行シミュレータ１４６は、航空機シミュレーションの状態を示す状態データ１０５を生成する。或る特定の実施例において、飛行シミュレータ１４６が、或る特定のシミュレーション時間ステップに、状態データ１０５を生成するよう構成される。例えば、飛行シミュレータ１４６は、或る特定のシミュレーション時間ステップ（ｔ＋１）に対応する状態データ１０５を生成する。シミュレーション時間ステップは、航空機シミュレーションのための或る特定の時間間隔（例えば、５分）の経過を意味する。或る特定の態様において、飛行シミュレーションはリアルタイムでありうる（例えば、５秒のシミュレートされたフライトが、実際の時刻で５秒ごとに起きる）。代替的に、飛行シミュレーションは、異なるレートで起こりうる（例えば、１２０分のシミュレートされたフライトは、実際の時間では１２０秒の間に起こりうる）。さらに、シミュレートされる時間ステップは、等間隔であってよく、又は非等間隔であってよい。例えば、第１の時間間隔は、シミュレートされるフライトの離陸段階の間に利用され、第２の時間間隔は、シミュレートされるフライトの巡航段階の間に利用されうる。

状態データ１０５は、飛行シミュレーションの或る特定のシミュレーション時間ステップ（ｔ＋１）の間（例えば、当該シミュレーション時間ステップ（ｔ＋１）の開始時、当該シミュレーション時間ステップ（ｔ＋１）の最中、又は、当該シミュレーション時間ステップ（ｔ＋１）の終了時）の航空機の状態を示す値を含むベクトルである。或る特定の態様において、状態データ１０５は、或る特定のシミュレーション時間ステップ（ｔ＋１）の間の航空機の高度、速度、ピッチ、昇降舵設定、高度変化、速度変化、ピッチ変化、又はこれらの組み合わせを示す。

飛行シミュレータ１４６は、或る特定のシミュレーション時間ステップ（ｔ＋１）と関連する状態データ１０５を、後続のシミュレーション時間ステップと関連する報酬値計算のためにメモリ１３２に格納する。飛行シミュレータ１４６は、状態データ１０５を、報酬計算機１４２、目標ニューラルネットワーク１０６、主ニューラルネットワーク１０４、又はこれらの組み合わせに供給する。代替的に、報酬計算機１４２、目標ニューラルネットワーク１０６、主ニューラルネットワーク１０４、又はこれらの組み合わせが、飛行シミュレータ１４６又はメモリ１３２から状態データ１０５を獲得する。

報酬計算機１４２は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための状態データ１０５を飛行シミュレータ１４６から受信したことに応じて、メモリ１３２から先行するシミュレーション時間ステップ（ｔ）のための状態データ１１５を獲得する。報酬計算機１４２は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための状態データ１０５と、先行するシミュレーション時間ステップ（ｔ）のための状態データ１１５との比較に基づいて、或る特定のシミュレーション時間ステップ（ｔ＋１）のための報酬値１１１を決定する。或る特定の態様において、報酬計算機１４２は、報酬関数に基づいて報酬値１１１を決定する。報酬関数は、構成設定、デフォルト値、ユーザ入力、又はこれらの組み合わせに基づきうる。或る特定の態様において、報酬計算機１４２は、以下の報酬関数に基づいて、離陸シミュレーションの間に報酬値１１１（Ｒ）を決定する。即ち、

或る特定の実施例において、状態データ１１５は、航空機シミュレーションの第１の高度及び第１のピッチを示し、状態データ１０５は、航空機シミュレーションの第２の高度及び第２のピッチを示す。報酬計算機１４２は、第１の高度と第２の高度との比較に基づいて高度変化を決定する（例えば、高度変化＝第２の高度−第１の高度）。報酬計算機１４２は、第１のピッチと第２のピッチとの比較に基づいてピッチ変化を決定する（例えば、ピッチ変化＝第２のピッチ−第１のピッチ）。

或る特定の態様において、報酬計算機１４２は、第２のピッチが第１の閾値ピッチ（例えば１２度）より小さくかつピッチ変化が正の値である、又は、第２のピッチが第２の閾値ピッチ（例えば１３度）より大きくかつピッチ変化が負の値であるという判定に応じて、ピッチが収束しつつあると判定する。報酬計算機１４２は、高度変化が第１の閾値高度（例えば、１メートル）よりも大きくかつ第２のピッチが第１の閾値ピッチ（例えば１２度）以上である、第２のピッチが第２の閾値ピッチ（例えば１３度）以下である、又は、ピッチが収束しつつあるという判定に応じて、報酬値１１１を正の値（例えば１）に設定する。本例では、正の値は、状態データ１０５が離陸のための「良い」状態を指していることを示している。なぜならば、航空機は、第１の閾値高度を超えて高度を得ており、ピッチは、収束しつつあり又は既に第１のピッチ閾値と第２のピッチ閾値の間にあるからである。

代替的に、報酬計算機１４２は、高度変化が第２の閾値高度（例えば、−１メートル）より小さいという判定に応じて、報酬値１１１を負の値（例えば、−１）に設定する。本例では、負の値は、状態データ１０５が離陸のためには「悪い」状態を指すことを示している。なぜならば、航空機は、第２の閾値高度を超えて高度を失っているからである。

或る特定の態様において、報酬計算機１４２は、高度変化が第２の閾値高度（例えば、−１メートル）以上で、かつ第１の閾値高度（例えば、１メートル）以下であるという判定に応じて、報酬値１１１をニュートラルな値（例えば、０）に設定する。本例では、ニュートラルな値は、離陸のための「ニュートラルな」状態を示している。なぜならば、航空機は、それほど高度を変更してない（例えば、第１の高度の閾値と第２の高度の閾値の間）からである。代替的に、報酬計算機１４２は、高度変化が第１の閾値高度（例えば、１メートル）より大きい、第２のピッチが第１のピッチ閾値（例えば、１２）より小さく又は第２のピッチ閾値（例えば、１３）よりも大きい、及びピッチが収束していないという判定に応じて、報酬値１１１をニュートラルな値（例えば、０．０）に設定する。本例では、ニュートラルな値は離陸のための「ニュートラル」な状態を示している。なぜならば、航空機は高度を得ているが、ピッチが低すぎ又は高すぎて収束していないからである。

高度及びピッチに基づく離陸のための報酬関数は、例示的な非限定的な例として提供されると理解されたい。他の実施例において、報酬計算機１４２は、飛行の様々な段階（例えば、巡航、着陸、旋回、タキシング、駐機、又はこれらの組み合わせ）と関連する報酬関数に基づいて、報酬値を決定するよう構成される。報酬関数は、様々な航空機状態データ（例えば、ピッチ、ヨーイング、横揺れ、機首方位、高度、燃料消費、温度センサデータ、他の種類のセンサデータ、又はこれらの組み合わせ）に基づきうる。

報酬計算機１４２は、報酬値１１１をニューラルネットワーク訓練器１４０に供給する。代替的に、ニューラルネットワーク訓練器１４０が、報酬値１１１を報酬計算機１４２又はメモリ１３２から獲得する。ニューラルネットワーク訓練器１４０は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための報酬値１１１を受信したことに応じて、先行するシミュレーション時間ステップ（ｔ）のための予測された主報酬値１２７、及び、先行するシミュレートされた時間ステップ（ｔ）において飛行シミュレータ１４６に供給された制御入力１１３を示すデータを、メモリ１３２から獲得する。例えば、状態データ１０５が、先行するシミュレーション時間ステップ（ｔ）の制御入力１１３に基づいて生成され、主ニューラルネットワーク１０４は、制御入力１１３を選択するために利用される先行するシミュレーション時間ステップ（ｔ）の候補の制御入力のために、予測される主報酬値１２７を以前に生成していたのである。

或る特定の態様において、ニューラルネットワーク訓練器１４０は、制御入力１１３が、先行するシミュレーション時間ステップ（ｔ）のために主ニューラルネットワーク１０４により生成された候補の制御入力に相当するという判定に応じて、先行するシミュレーション時間ステップ（ｔ）のための候補の制御入力の予測される主報酬値１２７に基づいて、重み１２１を決定する。或る特定の実現において、ニューラルネットワーク訓練器１４０は、制御入力１１３が、先行するシミュレーション時間ステップ（ｔ）のために制御入力生成器１４４により生成されたランダムなオフセット制御入力に相当するという判定に応じて、予測された主報酬値１２７に基づいて重み１２１を決定しないようにし、かつ主ニューラルネットワーク１０４を更新しないようにする。代替的な実現において、ニューラルネットワーク訓練器１４０は、制御入力１１３が、先行するシミュレーション時間ステップ（ｔ）のためのランダムなオフセット制御入力に相当するという判定に応じて、先行するシミュレーション時間ステップ（ｔ）のための（候補の制御入力と比較される）ランダムなオフセット制御入力と対応する予測される主報酬値１２７を獲得する。ニューラルネットワーク訓練器１４０は、本明細書に記載するように、予測された主報酬値１２７に基づいて重み１２１を決定する。

目標ニューラルネットワーク１０６は、或る特定のシミュレーションステップ（ｔ＋１）のための状態データ１０５に基づいて、予測される目標報酬値１１９を生成する。図２に示す例では、ニューラルネットワーク２２０が、複数の入力ノード２０２と、複数の隠れ層ノード２０４を含む隠れ層と、複数の出力ノード２０６とを含む。或る特定の態様において、入力ノード２０２が、第１の複数の重み付けされたノード接続を介して隠れ層に完全に接続されている。或る特定の態様において、隠れ層は、第２の複数の重み付けされたノード接続を介して出力ノード２０６に完全に接続されている。或る特定の態様において、隠れ層は、第１の数（例えば４０）の隠れ層ノード２０４を含む。隠れ層ノード２０４の数がより大きいほど、ニューラルネットワーク２２０は、可変性が高くなりうる。隠れ層ノード２０４の数が少ないほど、出力ノード２０６の値を生成する処理時間が速くなりうる。図２は、１つの隠れ層を含むニューラルネットワーク２２０を示すが、他の実現において、ニューラルネットワーク２２０は、複数の隠れ層を含む。

或る特定の態様において、ニューラルネットワーク２２０は、図１の目標ニューラルネットワーク１０６、主ニューラルネットワーク１０４、又は双方に対応している。或る特定の実施例において、入力ノード２０２のそれぞれが、或る特定の種類のデータ（例えば、状態データ１０５の或る特定の値）に関連付けられている。例えば、第１の入力ノード２０２はピッチに、第２の入力ノード２０２は高度に、第３の入力ノード２０２は速度に関連付けられており、第４の入力ノード２０２は昇降舵設定に関連付けられており、第５の入力ノード２０２はピッチ変化に関連付けられており、第６の入力ノードは高度変化に関連付けられており、第７の入力ノードは速度変化、又はこれらの組み合わせと関連付けられている。７個の入力ノードが説明のための例として設けられているが、他の例では、入力ノード２０２が、７個より少ない入力ノード又は７個より多い入力ノードを含むと理解されたい。

或る特定の態様において、正規化された値が、１つ以上の入力ノード２０２に供給される。例えば、正規化されたピッチ値、正規化された高度、及び、正規化された速度が、第１の入力ノード２０２、第２の入力ノード２０２、及び第３の入力ノード２０２にそれぞれ供給される。例えば、有効なピッチ値は、第１のピッチ値（例えば、−６０度）から第２のピッチ値（例えば、６０度）までである。ピッチ値（例えば、３０度）が、（例えば、システム１００の飛行シミュレータ１４６、ニューラルネットワーク２２０、又は、他の構成要素によって）正規化されて、第１の正規化されたピッチ値（例えば−１）と第２の正規化されたピッチ値（例えば１）との間の範囲の正規化されたピッチ値（例えば、０．５）が生成される。正規化されたピッチ値は、第１の入力ノード２０２に供給される。

ニューラルネットワーク２２０（例えば、ニューラルネットワークエンジン）は、各隠れ層ノード２０４の値を、入力ノード２０２に印加される値の重み付けされた和として決定する。ニューラルネットワーク２２０は、出力ノード２０６の出力値を、隠れ層ノード２０４の値の重み付けされた和として決定する。例えば、ニューラルネットワーク２２０は、各出力ノード２０６の出力値（例えば、予測される報酬値）を、隠れ層ノード２０４の値の重み付けされた和として決定する。

出力ノード２０６のそれぞれは、飛行シミュレータ１４６のための或る特定の制御入力に対応している。或る特定の実施例において、ニューラルネットワーク２２０は、航空機シミュレーションの昇降舵設定を制御するための制御入力を生成するよう構成され、昇降舵設定は、第１の昇降舵設定（例えば−１）と第２の昇降舵設定（例えば１）との間の値（例えば、制御入力）の範囲を有する。本例では、出力ノード２０６のそれぞれは、上記範囲の或る特定の値に対応している。例えば、ニューラルネットワーク２２０は、第１の出力ノード、第２の出力ノード、第３の出力ノード、第４の出力ノード、及び第５の出力ノードを含み、それれ、第１の制御入力（例えば−１）、第２の制御入力（例えば−０．５）、第３の制御入力（例えば０）、第４の制御入力（例えば０．５）、及び第５の制御入力（例えば１）に対応している。図２では５個の出力ノード２０６が例示されているが、他の実現において、ニューラルネットワーク２２０は、５個の出力ノード２０６よりも少なく又は多い出力ノード２０６を含む。或る特定の態様において、出力ノード２０６の数が多いほど（例えば、５個ではなく１７個）、より少数の出力ノード２０６よりもより段階的な変更及びより細かな航空機制御が可能となる。しかしながら、出力ノード２０６の数が少ないほど、出力ノード２０６の値を決定する処理時間がより速くなりうる。

或る特定の態様において、ニューラルネットワーク２２０は、予測される報酬値のベクトル、又は、ニューラルネットワーク２２０により生成された予測される報酬値のうちの最大予測報酬値を有する出力ノード２０６を識別するデータを出力する。例えば、出力データは、予測される報酬値２１９、出力ノード２０６と関連付けられた制御入力、又は、その双方を含む又は識別することが可能である。或る特定の態様において、ニューラルネットワーク２２０は、制御入力及び対応する予測される報酬値を示す出力データ（例えばベクトル）を出力する。

或る特定の実施例において、目標ニューラルネットワーク１０６（例えば、目標ニューラルネットワークエンジン）は、状態データ１０５により示されるピッチ（例えば、正規化されたピッチ）、高度（例えば、正規化された高度）、速度（例えば、正規化された速度）、及び昇降舵設定を、第１の入力ノード２０２、第２の入力ノード２０２、第３の入力ノード２０２、及び第４の入力ノード２０２にそれぞれ印加する。幾つかの実現において、目標ニューラルネットワーク１０６（例えば、目標ニューラルネットワークエンジン）は、状態データ１１５により示される第１のピッチと状態データ１０５により示されるピッチとの比較に基づいて、ピッチ変化を決定し、状態データ１１５により示される第１の高度と状態データ１０５により示される高度との比較に基づいて、高度変化を決定し、状態データ１１５により示される第１の速度と、状態データ１０５の状態により示される速度との変化に基づいて、速度変化を決定し、又は、これらの組み合わせの比較に基づいて該当する変化を決定する。このような実現において、目標ニューラルネットワーク１０６（例えば、目標ニューラルネットワークエンジン）は、ピッチ変化、高度変化、及び速度変化をそれぞれ、第５の入力ノード２０２、第６の入力ノード２０２、及び第７の入力ノード２０２にそれぞれ印加する。目標ニューラルネットワーク１０６は、出力ノード２０６の出力値（例えば、予測される報酬値）を生成する。或る特定の態様において、予測される報酬値２１９（例えば、予測された報酬値のうちの最大予測報酬値）は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための予測される目標報酬値１１９に相当する。

図１に戻ると、目標ニューラルネットワーク１０６は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための予測される目標報酬値１１９を、ニューラルネットワーク訓練器１４０に供給し、又は、ニューラルネットワーク訓練器１４０が、予測される目標報酬値１１９を、目標ニューラルネットワーク１０６又はメモリ１３２から獲得する。ニューラルネットワーク訓練器１４０は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための予測される目標報酬値１１９、先行するシミュレーション時間ステップ（ｔ）のための予測される主報酬値１２７、或る特定のシミュレーション時間ステップ（ｔ＋１）のための報酬値１１１、又はこれらの組み合わせに基づいて、重み１２１を決定する。或る特定の態様において、重み１２１が、以下の損失（又は費用）関数を低減する（例えば、最小化する）ために決定される。即ち、

但し、

は、主ニューラルネットワーク１０４を訓練するため（例えば、主ニューラルネットワーク１０４のための（例えば、重み

により表される）重み１２１を決定するため）の損失関数に相当する。

は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための報酬値１１１に対応する。

は、入力Ｓ（例えば、状態データ）の集合がある場合の、重みがθのニューラルネットワーク（主ニューラルネットワーク１０４又は目標ニューラルネットワーク１０６）であって、当該ニューラルネットワークの出力値はａ（例えば、制御入力又はアクション）で示される、ニューラルネットワークの関数を表す。

は、最大値を有する出力ａのための、或る特定のシミュレーション時間ステップ（ｔ＋１）について目標ニューラルネットワーク１０６により生成された（例えば、重み

で表された）予測される目標報酬値１１９に相当する。

は、先行するシミュレーション時間ステップ（ｔ）のための、主ニューラルネットワーク１０４により生成された予測される主報酬値１２７に対応する。

は、割引値（例えば０．９９）に対応する。或る特定の態様において、割引値は、構成設定、デフォルト値、ユーザ入力、又はこれらの組み合わせに基づく。或る特定の態様において、損失関数は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための予測される目標報酬値１１９と、先行するシミュレーション時間ステップ（ｔ）のための予測される主報酬値１２７との間の自乗差の期待値に相当する。

或る特定の態様において、損失（又は費用）関数を低減（例えば最小化）することで、結果的に、主ニューラルネットワーク１０４が以下の数式で示すように更新される。即ち、

但し、

は、主ニューラルネットワーク１０４に対応し、

は、重み１２１を加えた後の主ニューラルネットワーク１０４の更新されたバージョンに対応し、

は学習率に対応し、

は、先行するシミュレーション時間ステップ（ｔ）のための予測される主報酬値１２７に対応する。或る特定の態様において、学習率は、構成設定、デフォルト値、ユーザ入力、又はこれらの組み合わせに基づいている。或る特定の態様において、ニューラルネットワーク訓練器１４０は、以下の数式に基づいて、

を決定する。即ち、

但し、

は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための報酬値１１１に対応し、

は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための予測される目標報酬値１１９に対応し、

は、割引値（例えば０．９９）に相当する。ニューラルネットワーク訓練器１４０は、重み１２１に基づいて、主ニューラルネットワーク１０４を更新する。例えば、主ニューラルネットワーク１０４が、図２のニューラルネットワーク２２０に対応するときには、ニューラルネットワーク訓練器１４０は、入力ノード２０２と隠れ層ノード２０４との間の第１の複数の重み付けされた接続の重み、隠れ層ノード２０４と出力ノード２０６との間の第２の複数の重み付けされた接続の重み、又は、これらの組み合わせの複数の重み付けされた接続の重みを更新する。

或る特定の態様において、シミュレーション時間ステップは、アクションサイクルに対応している。或る特定のシミュレーション時間ステップ（ｔ＋１）と関連するアクションサイクルデータは、状態データ１１５、状態データ１０５、報酬値１１１、制御入力１１３、先行するシミュレーション時間ステップ（ｔ）と関連する候補の制御入力、予測される目標報酬値１１９、予測される主報酬値１２７、重み１２１、又はこれらの組み合わせを含む。

ニューラルネットワーク訓練器１４０は、学習サイクルの間、主ニューラルネットワーク１０４を更新する。或る特定の態様において、ニューラルネットワーク訓練器１４０は、１つのアクションサイクルのアクションサイクルデータに基づいて、主ニューラルネットワーク１０４を更新する。例えば、ニューラルネットワーク訓練器１４０は、先行するシミュレーション時間ステップ（ｔ）の第１のアクションサイクルデータに基づいて、第１の時間に、主ニューラルネットワーク１０４を更新し、或る特定のシミュレーション時間ステップ（ｔ＋１）の第２のアクションサイクルデータに基づいて、第２の時間に、主ニューラルネットワーク１０４を更新する。代替的な態様において、ニューラルネットワーク訓練器１４０は、複数のアクションサイクルと関連するアクションサイクルデータに基づいて、或る特定の時間に、主ニューラルネットワーク１０４を更新する。或る特定の実施例において、メモリ１３２が、アクションサイクルの閾値番号（例えば、１２０００）と関連付けられたアクションサイクルデータを格納する先入れ先出（ＦＩＦＯ：ｆｉｒｓｔ−ｉｎｆｉｒｓｔ−ｏｕｔ）メモリバッファを含む。或る特定の態様において、アクションサイクルの閾値番号は、リプレイメモリの大きさに対応している。ニューラルネットワーク訓練器１４０は、アクションサイクルのバッチサイズ（例えば１２８）と関連付けられたアクションサイクルデータを、ミニバッチとしてメモリ１３２から獲得する。或る特定の態様において、ミニバッチは、ランダムな集合のアクションサイクルのアクションサイクルデータを含む。例えば、ミニバッチは、１２０００番の直近のアクションサイクルからの、１２８個のランダムアクションサイクルのアクションサイクルデータを含む。ニューラルネットワーク訓練器１４０は、ミニバッチに基づいて、或る特定の時間に、主ニューラルネットワーク１０４を更新する。或る特定の実施例において、ミニバッチは、或る特定のシミュレーション時間ステップ（ｔ＋１）と関連する第１のアクションサイクルデータ、及び、第２のシミュレーション時間ステップと関連する第２のアクションサイクルデータを含む。ニューラルネットワーク訓練器１４０は、第１のアクションサイクルデータに基づいて重み１２１を決定し、第２のアクションサイクルデータに基づいて、第２の重みを決定する。ニューラルネットワーク訓練器１４０は、重み１２１、第２の重み、又はこれらの組み合わせに基づいて、主ニューラルネットワーク１０４を更新する。

主ニューラルネットワーク１０４（例えば、主ニューラルネットワークエンジン）は、状態データ１０５のための予測される主報酬値を生成する。主ニューラルネットワーク１０４の重み（例えば重み１２１）が目標ニューラルネットワーク１０６の重みと異なるときには、主ニューラルネットワーク１０４により生成される、状態データ１０５のための予測される主報酬値は、目標ニューラルネットワーク１０６により生成される、状態データ１０５のための予測される目標報酬値とは異なりうる。

主ニューラルネットワーク１０４（例えば、主ニューラルネットワークエンジン）は、予測される主報酬値１１７（又は、予測される主報酬値のうちの少なくとも１つの予測される最大主報酬値）を示す出力を生成する。図１では、予測される主報酬値１１７は、制御入力生成器１４４への、或る特定のシミュレーション時間ステップ（ｔ＋１）のための候補の制御入力１０７を示し又は当該候補の制御入力１０７に対応する。主ニューラルネットワーク１０４は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための、候補の制御入力１０７と関連する予測される主報酬値１１７を、メモリ１３２に格納する。或る特定の態様において、主ニューラルネットワーク１０４は、予測される主報酬値１１７、及び、対応する制御入力をメモリ１３２に格納する。

制御入力生成器１４４は、或る特定のシミュレーションステップ（ｔ＋１）のための候補の制御入力１０７を受信したことに応じて、先行するシミュレーションステップ（ｔ）のための制御入力１１３を、メモリ１３２から獲得する。オフセット計算器１４８（例えば、乱数生成器）が、第１のオフセット（例えば、−０．５）と第２のオフセット（例えば、０．５）との間のランダムオフセット１０９を生成する。制御入力生成器１４４は、ランダムオフセット１０９及び先行するシミュレーション時間ステップ（ｔ）のための制御入力１１３に基づいて、或る特定のシミュレーション時間ステップ（ｔ＋１）のためのランダムオフセット制御入力１９１を生成する（例えば、ランダムオフセット制御入力１９１＝制御入力１１３＋ランダムオフセット１０９）。このように、制御入力生成器１４４は、制御入力１１３の値が中央に来るよう調整された範囲（例えば、−０．５〜＋０．５）内から値を無作為に選択することによって、ランダムオフセット制御入力１９１を生成する。或る特定の態様において、ランダムオフセット制御入力１９１は、第１の昇降舵設定（例えば、−１）と第２の昇降舵設定（例えば、１）との間である。

或る特定の態様において、制御入力生成器１４４は、制御入力１１３が主ニューラルネットワーク１０４の第１の出力ノード（例えば、第８の出力ノード）に対応すると判定する。制御入力生成器１４４は、第１の出力ノード（例えば、第８の出力ノード）及びランダムオフセット１０９（例えば２）に基づいて、第２の出力ノード（例えば、第１０の出力ノード）を識別する。例えば、第２の出力ノードの第２の識別子は、第１の出力ノードの第１の識別子とランダムオフセット１０９との和に基づいている（例えば、第２の識別子＝（第１の識別子＋ランダムオフセット１０９）ｍｏｄｕｌｕｓ（出力ノードの数））。制御入力生成器１４４は、第２の出力ノードに対応する或る特定の制御入力を、ランダムオフセット制御入力１９１として指定する。本態様において、ランダムオフセット１０９は、第１の値（例えば−２）と第２の値（例えば２）との間の乱数値を含む。このように、制御入力生成器１４４は、制御入力１１３の値が中央に来るよう調整された範囲内から値を無作為に選択することによって、ランダムオフセット制御入力１９１を生成する。上記範囲は、第１の出力ノード（例えば、第２の出力ノード）に対応する第１の制御入力から、第２の出力ノード（例えば、第２の出力ノード）に対応する第２の制御入力までである。制御入力１１３の値が中央に来るよう調整された範囲内から値を無作為に選択することによって、ランダムオフセット制御入力１９１を生成することは、「ランダムウォーク（ｒａｎｄｏｍ−ｗａｌｋ）」スキームを実施することに相当する。幾つかの態様において、ランダムウォークスキームは、拡張した状態と拡張していない状態との間で変化するフラップといった、別々の状態を有する傾向がある航空機制御と比べて、実際は比較的連続的な傾向にある航空機制御（例えば、昇降舵設定）のために適している。

制御入力生成器１４４は、候補の制御入力１０７又はランダムなオフセット制御入力１９１うちの１つを、或る特定のシミュレーション時間ステップ（ｔ＋１）のための制御入力１０３として選択する。例えば、制御入力生成器１４４は、第１の値（例えば、０．０）と第２の値（例えば、１．０）との間の或る特定の乱数値を生成する。制御入力生成器１４４は、主ニューラルネットワーク１０４を訓練する繰返し回数（例えば、ｔ＋１）に基づいて、ランダム化設定値１９３を決定する。例えば、制御入力生成器１４４は、繰返し回数（例えば、ｔ＋１）が観察閾値（例えば、３０００）よりも小さいという判定に応じて、ランダム化設定値１９３を第１の値（例えば、０．０）に設定する。ランダム化設定値１９３を第１の値に設定することで、ランダムなオフセット制御入力１９１が、観察閾値よりも少ない訓練の繰返しに対応する観察周期の間に選択される可能性が上がる。

或る特定の態様において、制御入力生成器１４４は、繰返し回数（例えば、ｔ＋１）が観察閾値（例えば、３０００）以上であるという判定に応じて、ランダム化設定値１９３を、繰返し回数（例えば、ｔ＋１）に基づいて一次関数を用いて、第１の値（例えば、０．０１）と第２の値（例えば、１．０）に設定する。例えば、一次関数は、第１の訓練繰返し（例えば、３０００）から第２の訓練繰返し（例えば、６０００）へと、第１の値（例えば、０．０１）から第２の値（例えば、１．０）へと線形的に増大して、ランダム化設定値１９３を生成する。ランダム化設定値１９３が線形的に増大することで、ランダムオフセット制御入力１９１が、観察周期の後の探索周期の間に選択される可能性が線形的に下がる。

制御入力生成器１４４は、或る特定の乱数値がランダム化設定値１９３よりも大きいという判定に基づいて、ランダムオフセット制御入力１９１を制御入力１０３として選択する。或る特定の態様において、観察周期の間に、シミュレーション時間ステップの少なくとも幾つかについてランダムオフセット制御入力を選択することで、より多くの航空機シミュレーション状態と制御入力の組み合わせの探索が可能となり、主ニューラルネットワーク１０４のロバスト性が向上する。代替的に、制御入力生成器１４４は、或る特定の乱数値がランダム化設定値１９３以下であるという判定に応じて、候補の制御入力１０７を制御入力１０３として選択する。或る特定の態様において、探索周期の間に候補の制御入力のうちのより多くを選択することで、主ニューラルネットワーク１０４の挙動を収束させることが可能となる。

或る特定の態様において、制御入力生成器１４４は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための制御入力１０３を識別するデータを、メモリ１３２に格納する。制御入力生成器１４４は、或る特定のシミュレーション時間ステップ（ｔ＋１）のための制御入力１０３を、飛行シミュレータ１４６に供給する。或る特定の態様において、ニューラルネットワーク訓練器１４０は、重み１２１に基づく主ニューラルネットワーク１０４の更新に続いて、及び、目標ニューラルネットワーク１０６の先行する更新の後に少なくとも１回の閾値回数で主ニューラルネットワーク１０４が更新されているという判定に応じて、主ニューラルネットワーク１０４を複写することによって目標ニューラルネットワーク１０６を更新する。例えば、ニューラルネットワーク訓練器１４０は、主ニューラルネットワーク１０４と同じ重み（例えば重み１２１）を有するように、目標ニューラルネットワーク１０６を更新する。

或る特定の態様において、飛行シミュレータ１４６は、或る特定のシミュレーション時間ステップ（ｔ＋１）が探索閾値（例えば、６０００）よりも小さいという判定に応じて、制御入力１０３に基づいて次のシミュレーション時間ステップ（ｔ＋２）のための第２の状態データを生成する。主ニューラルネットワーク１０４の訓練が、状態データ１０５及び第２の状態データに基づいて、本明細書に記載の技術に従って続けられる。代替的に、飛行シミュレータ１４６が、或る特定のシミュレーション時間ステップ（ｔ＋１）が探索閾値（例えば、６０００）以上であるという判定に応じて、主ニューラルネットワーク１０４が訓練されたことを示す出力を生成する。或る特定の態様において、主ニューラルネットワーク１０４が有効化されて、航空機（の昇降舵設定）を制御するために、航空機に提供される（例えば、アップロードされる）。例えば、航空機の１つ以上のセンサが、状態データを主ニューラルネットワーク１０４に供給し、航空機の昇降舵設定が、主ニューラルネットワーク１０４から受信された制御入力に基づいて更新される。

このようにして、システム１００は、航空機を制御するための主ニューラルネットワーク１０４の訓練を可能とする。飛行シミュレータ１４６に基づいて主ニューラルネットワーク１０４を訓練することによって、パイロットのデータと比べて、より少ないリソース（例えば、時間及び資金）が消費される。飛行シミュレータ１４６を用いて訓練されたニューラルネットワーク１０４はまた、よりロバストである可能性が高い。なぜならば、飛行シミュレータ１４６が、パイロットが通常では遭遇しないシナリオを含む様々なシナリオをシミュレートするよう設計可能だからである。

図３は、飛行機を制御するためのニューラルネットワークを訓練する方法３００を示している。或る特定の態様において、方法３００の１つ以上の操作が、図１の制御入力生成器１４４、飛行シミュレータ１４６、ニューラルネットワーク訓練器１４０、システム１００、又はこれらの組み合わせによって実施される。

方法３００は、３０２において、第１の制御入力を飛行シミュレータに供給することを含む。例えば、図１の制御入力生成器１４４が、図１を参照して説明したように、飛行シミュレータ１４６に制御入力１１３を供給する。飛行シミュレータ１４６は、制御入力１１３に応じて、第１の状態データを生成する。

方法３００はまた、３０４において、第１の状態データを入力として第１のニューラルネットワークに供給して、候補の第２の制御入力を生成することを含む。例えば、図１の飛行シミュレータ１４６が、図１を参照して説明したように、第１の状態データを主ニューラルネットワーク１０４に供給し、候補の制御入力１０７が生成される。

方法３００は、３０６において、乱数値に基づいて、飛行シミュレータのための第２の制御入力を選択することをさらに含む。例えば、図１の制御入力生成器１４４は、図１を参照して説明したように、乱数値に基づいて、飛行シミュレータ１４６のための制御入力１０３を選択する。図１を参照して説明したように、制御入力１０３は、候補の制御入力１０７とランダムなオフセット制御入力１９１との間で選択される。ランダムなオフセット制御入力１９１は、図１を参照して説明したように、制御入力１１３に加えられるランダムオフセット１０９に基づいている。

方法３００はまた、３０８において、第２の制御入力を飛行シミュレータに供給することも含む。例えば、制御入力生成器１４４が、制御入力１０３を飛行シミュレータ１４６に供給する。図１を参照して説明したように、飛行シミュレータ１４６が、制御入力１０３に応じて第２の状態データを生成する。

方法３００は、３１０において、第１の状態データ及び第２の状態データに少なくとも部分的に基づいて、第１のニューラルネットワークの重みを更新することをさらに含む。例えば、図１を参照して説明したように、ニューラルネットワーク訓練器１４０が、第１の状態データ及び第２の状態データに少なくとも部分的に基づいて、主ニューラルネットワーク１０４の重みを更新する。

図４を参照すると、ニューラルネットワークにより制御されるよう構成された航空機のライフサイクルを示すフローチャートが示されており、方法４００として設計されている。製造前の段階で、例示的な方法４００は、４０２において、図５を参照して記載される航空機５００といった、航空機の仕様及び設計を含む。航空機の使用及び設計では、方法４００は、ニューラルネットワークに基づく航空機制御システムの仕様及び設計を含みうる。ニューラルネットワークに基づく航空機制御システムは、主ニューラルネットワーク１０４を用いて稼働することを含み、又は主ニューラルネットワーク１０４を用いて稼働するよう構成される。４０４において、方法４００は材料調達を含み、このことは、ニューラルネットワークに基づく航空機制御システムのために材料を調達することを含みうる。

製造の段階で、方法４００は、４０６においてコンポーネントおよびサブアセンブリの製造を含み、４０８において航空機のシステムインテグレーションを含む。例えば、方法４００は、ニューラルネットワークに基づく航空機制御システムのコンポーネント及びサブアセンブリの製造、及び、ニューラルネットワークに基づく航空機制御システムのシステムインテグレーションを含みうる。例えば、主ニューラルネットワーク１０４は、ニューラルネットワークに基づく航空機制御システムにロードされうる。方法４００は、４１０において、航空機の認可及び納品を含み、４１２において、航空機を運航させることを含む。認可及び納品は、ニューラルネットワークに基づく航空機制御システムが認証され、当該ニューラルネットワークに基づく航空機制御システムが稼働させられることを含みうる。顧客により運行される間、航空機は、定期的な整備および保守（改造、再構成、改修等も含みうる）が予定されうる。例えば、主ニューラルネットワーク１０４の新バージョンが、ニューラルネットワークに基づく航空機制御システムにロードされうる。４１４において、方法４００は、航空機で整備及び保守を行うことを含み、このことは、ニューラルネットワークに基づく航空機制御システムで整備及び保守を行うことを含みうる。

方法４００のプロセスの各々は、システムインテグレータ、第三者、及び／又はオペレータ（例えば、顧客）によって実行され、又は実施されうる。本明細書の目的のために、システムインテグレータは、任意の数の航空機製造業者及び主要システム下請業者を含みうるがそれらに限定されず、第三者は、任意の数のベンダー、下請業者、及び供給業者を含みうるがそれらに限定されず、かつ、オペレータとは、航空会社、リース会社、軍事団体、サービス機関などでありうる。

本開示の態様は、車両を例とする文脈においても記載されうる。車両の或る特定の実施例は、図５に示される航空機５００である。

図５の例では、航空機５００は、複数のシステム５２０および内装５２２を備えた機体５１８を含む。複数のシステム５２０の例には、推進システム５２４、電気システム５２６、環境システム５２８、油圧システム５３０、及び、ニューラルネットワークに基づく航空機制御システム５３２であって、主ニューラルネットワーク１０４にアクセスすることを含み又は主ニューラルネットワーク１０４にアクセスするよう構成されたューラルネットワークに基づく航空機制御システム５３２、の１つ以上が含まれる。任意の数の他のシステムも含まれてよい。ニューラルネットワークに基づく航空機制御システム５３２は、１つ以上のセンサ５３６からセンサデータを受信し、センサデータに応じた主ニューラルネットワーク１０４の出力に基づいて、１つ以上の操縦翼面５３４の位置といった、航空機５００の１つ以上の他のシステム５２０の動作を制御するよう構成される。

図６は、本開示に係る、コンピュータによって実施される方法及びコンピュータで実行可能なプログラム命令（又はコード）の諸態様を支援するよう構成された計算装置６１０を含む計算環境６００のブロック図である。例えば、計算装置６１０又はその部分は、命令を実行して、図１から図５を参照しながら説明した１つ以上の動作を開始、実行、又は制御するように構成されている。或る特定の態様において、計算装置６１０は、図１のシステム１００の１つ以上の構成要素、１つ以上のサーバ、１つ以上の仮想デバイス、又はこれらの組み合わせを含む。

計算装置６１０は、１つ以上のプロセッサ６２０を含む。プロセッサ６２０は、システムメモリ６３０、１つ以上の記憶デバイス６４０、１つ以上の入力／出力インタフェース６５０、１つ以上の通信インタフェース６６０、又はこれらの任意の組み合わせと通信するよう構成される。システムメモリ６３０は、揮発性メモリデバイス（例えば、ランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）デバイス）、不揮発性メモリデバイス（例えば、読み出し専用メモリ（ＲＯＭ：ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）デバイス、プログララム可能な読み出し専用メモリ、及びフラッシュメモリ）、又はその双方を含む。システムメモリ６３０は、オペレーティングシステム６３２を格納しており、このオペレーティングシステム６３２は、計算装置６１０を起動するための基本入力／出力システムと、計算装置６１０がユーザ、他のプログラム、又は他の装置と連携することを可能とする完全なオペレーティングシステムと、を含みうる。システムメモリ６３０は、システム（プログラム）データ６３６を格納している。例えば、システムメモリ６３０は、主ニューラルネットワーク１０４、目標ニューラルネットワーク１０６、制御入力１０３、制御入力１１３、ランダムオフセット１０９、候補の制御入力１０７、ランダムオフセット制御入力１９１、ランダム化設定値１９３、予測される主報酬値１１７、予測される主報酬値１２７、予測される目標報酬値１１９、報酬値１１１、状態データ１０５、状態データ１１５、重み１２１、又はこれらの組み合わせを格納する。或る特定の態様において、システムメモリ６３０は図１のメモリ１３２を含む。

システムメモリ６３０は、プロセッサ６２０により実行可能な１つ以上のアプリケーション６３４（例えば、命令の集合）を含む。一例として、１つ以上のアプリケーション６３４は、図１から図５を参照しながら記載した１つ以上の動作を開始、制御、又は実施するための、プロセッサ６２０により実行可能な１つ以上の命令６８２を含む。例えば、１つ以上のアプリケーション６３４は、主ニューラルネットワーク１０４、目標ニューラルネットワーク１０６、ニューラルネットワーク訓練器１４０、報酬計算機１４２、制御入力生成器１４４、飛行シミュレータ１４６、オフセット計算器１４８、又はこれらの組み合わせを参照しながら記載した１つ以上の動作を開始、制御、又は実施するための、プロセッサ６２０により実行可能な上記命令６８２を含む。

或る特定の実現において、システムメモリ６３０は、非一過性のコンピュータ可読媒体（例えば、コンピュータ可読記憶デバイス）であって、プロセッサ６２０によって実行されると、当該プロセッサ６２０に、航空機を制御するためのニューラルネットワークを訓練するための動作を開始、実施、又は制御させる命令６８２を格納する非一過性のコンピュータ可読媒体を含む。上記動作は、第１の制御入力を飛行シミュレータに供給することを含む。飛行シミュレータは、第１の制御入力に応じて第１の状態データを生成し、候補の第２の制御入力を生成するために第１の状態データを入力として第１のニューラルネットワークに供給する。動作はまた、乱数値に基づいて、飛行シミュレータのための第２の制御入力を選択することも含む。第２の制御入力が、候補の第２の制御入力とランダムなオフセット制御入力との間から選択される。ランダムなオフセット制御入力は、第１の制御入力に加えられるランダムオフセットに基づいている。動作は、第２の制御入力を飛行シミュレータに供給することをさらに含む。飛行シミュレータは、第２の制御入力に応じて、第２の状態データを生成する。動作はまた、第１の状態データ及び第２の状態データに少なくとも部分的に基づいて、第１のニューラルネットワークの重みを更新することを含む。

１つ以上の記憶デバイス６４０は、磁気ディスク、光ディスク、又はフラッシュメモリデバイスといった、不揮発性の記憶デバイスを含む。或る特定の実施例において、記憶デバイス６４０は、取り外し可能なメモリデバイスと取り外し不可能なメモリデバイスの両方を含む。記憶デバイス６４０は、オペレーティングシステム、オペレーティングシステムの画像、アプリケーション（例えば、１つ以上のアプリケーション６３４）、及び、プログラムデータ（例えば、プログラムデータ６３６）を格納するよう構成される。或る特定の態様において、システムメモリ６３０、記憶デバイス６４０、又はその双方は、有形のコンピュータ可読媒体を含む。或る特定の態様において、１つ以上の記憶デバイス６４０は、計算装置６１０の外部に存在する。

計算装置６１０が１つ以上の入力／出力装置６７０と通信することを可能とする１つ以上の入力／出力インタフェース６５０が、ユーザとの相互作用を促進にする。例えば、１つ以上の入力／出力インタフェース６５０は、表示インタフェース、入力インタフェース、又はその双方を含みうる。例えば、入力／出力インタフェース６５０は、ユーザから入力を受信し、他の計算装置から入力を受信し、又は、これらを組み合わせて行うよう適合される。幾つかの実現において、入力／出力インタフェース６５０は、シリアルインタフェース（例えば、ＵＳＢ（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）インタフェース、又は、（ＩＥＥＥ（ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ）インタフェース標準）、パラレルインタフェース、表示アダプタ、音声アダプタ、又は、カスタムインタフェースを含む、１つ以上の標準インタフェースプロトコルに準拠している（「ＩＥＥＥ」は、ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ、Ｉｎｃ．ｏｆＰｉｓｃａｔａｗａｙ（ニュージャージー州）の登録商標である）。幾つかの実現において、入力／出力デバイス６７０が、ボタン、キーボード、ポインティングデバイス、ディスプレイ、スピーカ、マイクロフォン、タッチスクリーン、及び他のデバイスの何らかの組み合わせを含む、１つ以上のユーザインタフェースデバイス、及びディスプレイを含む。

プロセッサ６２０は、１つ以上の通信インタフェース６６０を介して、装置又はコントローラ６８０と通信するよう構成される。例えば、１つ以上の通信インタフェース６６０は、ネットワークインタフェースを含みうる。装置又はコントローラ６８０は、例えば、図５の航空機５００、１つ以上の他の装置、又は、これらの任意の組み合わせを含みうる。或る特定の実施例において、ニューラルネットワーク訓練器１４０は、主ニューラルネットワーク１０４の訓練が完了していると判定すること、ユーザ入力を受信すること、又はその双方に応じて、主ニューラルネットワーク１０４を、通信インタフェース６６０を介して航空機５００に提供する。

幾つかの実現において、非一過性のコンピュータ可読媒体（例えば、コンピュータ可読記憶デバイス）が、命令であって、１つ以上のプロセッサによって実行されると、当該１つ以上のプロセッサに、上述の機能の一部又は全てを実施するための動作を開始、実施又は制御させる命令を格納している。例えば、命令は、図１〜図５の１つ以上の動作又は方法を実現するために実施可能でありうる。幾つかの実現において、図１〜図５の１つ以上の動作又は方法の一部又は全てが、専用のハードウェア回路によって命令を実行する１つ以上のプロセッサ（例えば、１つ以上の中央処理ユニット（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、１つ以上のＧＰＵ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、１つ以上のデジタル信号プロセッサ（ＤＳＰ：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ））、又はこれらの任意の組み合わせによって実現されうる。

本明細書に記載された実施例の例示は、様々な実装形態の構造の概略的な理解をもたらすことが意図されている。上記例示は、本明細書に記載された構造又は方法を利用する装置及びシステムの全ての要素及び特徴を網羅的に説明する役割を果たすことは意図されていない。本開示を精査することで、当業者には、他の多くの実装形態が明らかになりうる。本開示の範囲から逸脱することなく構造的かつ論理的な置換及び変更を行うことができるように、他の実装形態を利用し、本開示から他の実装形態を導き出すことが可能である。例えば、図面に示す順序とは異なる順序で方法動作を実行してよく、又は１つ以上の方法動作を省略してよい。したがって、本開示及び図面は、限定的というよりは、むしろ例示的なものと見なすべきである。

さらに、本明細書では具体的な実施例が例示され記載されてきたが、同じ又は同様の結果を実現するよう設計された任意の後続の構成が、図示の特定の実装形態と置換されうると認識すべきである。本開示は、様々な実施態様のあらゆる後発の適合例又は変形例を対象とすることを意図している。上述の実装形態の組み合わせ、及び本明細書で特に記載されない他の実装形態が、本明細書を精査することで当業者には明らかとなろう。

本開示の「要約書」は、それが、特許請求の範囲又は意味を解釈又は限定するために使用されるものではないという理解のもとに提出される。加えて、上記の「発明を実施するための形態」においては、本開示を簡潔にする目的で、様々な特徴が一つにまとめられたり、又は一つの実装形態として説明されたりする場合がある。上述の実施例は、本発明を例示するが、本開示を限定するものではない。また、本開示の原理に従って多くの修正例および変形例が可能である。下記の特許請求の範囲に反映されているように、特許請求される発明の主題は、開示されて実施例のいずれでも、全ての特徴を対象としているわけではないことがある。従って、本開示の範囲は、以下の特許請求の範囲及びそれらの均等物によって規定される。

Claims

航空機を制御するためのニューラルネットワークを訓練する装置であって、
第１のニューラルネットワーク（１０４、２２０）を格納するよう構成されたメモリ（１３２）と、
制御入力生成器（１４４）であって、
第１の制御入力（１０３、１１３）を飛行シミュレータ（１４６）に供給することであって、前記飛行シミュレータ（１４６）は、前記第１の制御入力（１０３、１１３）に応じて第１の状態データ（１０５、１１５）を生成し、候補の第２の制御入力（１０７）を生成するために前記第１の状態データ（１０５、１１５）を入力として前記第１のニューラルネットワーク（１０４、２２０）に供給する、第１の制御入力（１０３、１１３）を飛行シミュレータ（１４６）に供給すること、
乱数値に基づいて、前記飛行シミュレータ（１４６）のための第２の制御入力（１０３、１１３）を選択することであって、前記第２の制御入力（１０３、１１３）は、前記候補の第２の制御入力（１０７）とランダムなオフセット制御入力（１９１）との間から選択され、前記ランダムなオフセット制御入力（１９１）は、前記第１の制御入力（１０３、１１３）に加えられるランダムオフセット（１０９）に基づいている、第２の制御入力（１０３、１１３）を選択すること、及び
前記第２の制御入力（１０３、１１３）を前記飛行シミュレータ（１４６）に供給することであって、前記飛行シミュレータ（１４６）は、前記第２の制御入力（１０３、１１３）に応じて第２の状態データ（１０５、１１５）を生成するよう構成される、前記第２の制御入力（１０３、１１３）を前記飛行シミュレータ（１４６）に供給すること
を行うよう構成された、制御入力生成器（１４４）と、
前記第１の状態データ（１０５、１１５）及び前記第２の状態データ（１０５、１１５）に少なくとも部分的に基づいて、前記第１のニューラルネットワーク（１０４、２２０）の重み（１２１）を更新するよう構成されたニューラルネットワーク訓練器（１４０）と
を備える、航空機を制御するためのニューラルネットワークを訓練する装置。
前記制御入力生成器（１４４）は、前記第１の制御入力（１０３、１１３）の値が中央に来るよう調整された範囲内から値を無作為に選択することにより、前記ランダムなオフセット制御入力（１９１）を生成するよう構成される、請求項１に記載の装置。
前記制御入力生成器（１４４）は、前記第２の状態データ（１０５、１１５）により示される高度変化及びピッチに基づいて、報酬値（１１１）を決定するよう構成され、前記重み（１２１）は、前記報酬値（１１１）に少なくとも部分的に基づいて更新される、請求項１又は２に記載の装置。
前記第１のニューラルネットワーク（１０４、２２０）は、複数の制御入力に対応する複数の出力ノード（２０６）を含み、前記複数の出力ノードの第１の出力ノード（２０６）が、前記候補の第２の制御入力（１０７）に対応しており、前記第１のニューラルネットワーク（１０４、２２０）が、前記第１の状態データ（１０５、１１５）を受信して、前記複数の出力ノード（２０６）のための出力値として複数の予測される報酬値を生成するよう構成され、前記第１の出力ノード（２０６）のための第１の予測される報酬値（１１７、１２７、２１９）が、前記複数の予測される報酬値からの最大予測報酬値である、請求項３に記載の装置。
前記メモリ（１３２）は、第２のニューラルネットワーク（１０６、２２０）を格納するようさらに構成され、
前記ニューラルネットワーク訓練器（１４０）は、
前記第２の状態データ（１０５、１１５）を第２の入力として前記第２のニューラルネットワーク（１０６、２２０）に供給することであって、前記第２のニューラルネットワーク（１０６、２２０）は、前記複数の制御入力に対応する複数の第２の出力ノード（２０６）を含み、前記第２のニューラルネットワーク（１０６、２２０）は、前記第２の状態データ（１０５、１１５）を受信して、前記複数の第２の出力ノード（２０６）のための第２の出力値として複数の第２の予測される報酬値を生成するよう構成される、前記第２の状態データ（１０５、１１５）を第２の入力として前記第２のニューラルネットワーク（１０６、２２０）に供給することと、
第２の出力ノード（２０６）のための第２の予測される報酬値（１１９、２１９）が、前記複数の第２の予測される報酬値からの最大予測報酬値であると判定すること
を行うようさらに構成され、
前記第１のニューラルネットワーク（１０４、２２０）の前記重み（１２１）が、前記報酬値（１１１）、前記第１の予測される報酬値（１１７、１２７、２１９）、及び前記第２の予測される報酬値（１１９、２１９）に基づいて更新される、請求項４に記載の装置。
前記第２のニューラルネットワーク（１０６、２２０）は、前記第１のニューラルネットワーク（１０４、２２０）の遅延されたコピーである、請求項５に記載の装置。
航空機を制御するためのニューラルネットワークを訓練する方法であって、
第１の制御入力（１０３、１１３）を飛行シミュレータ（１４６）に供給することであって、前記飛行シミュレータ（１４６）は前記第１の制御入力（１０３、１１３）に応じて第１の状態データ（１０５、１１５）を生成し、候補の第２の制御入力（１０７）を生成するために前記第１の状態データ（１０５、１１５）を入力として第１のニューラルネットワーク（１０４、２２０）に供給する、第１の制御入力（１０３、１１３）を飛行シミュレータ（１４６）に供給することと、
乱数値に基づいて、前記飛行シミュレータ（１４６）のための第２の制御入力（１０３、１１３）を選択することであって、前記第２の制御入力（１０３、１１３）は、前記候補の第２の制御入力（１０７）とランダムなオフセット制御入力（１９１）との間から選択され、前記ランダムなオフセット制御入力（１９１）は、前記第１の制御入力（１０３、１１３）に加えられるランダムオフセット（１０９）に基づいている、第２の制御入力（１０３、１１３）を選択することと、
前記第２の制御入力（１０３、１１３）を前記飛行シミュレータ（１４６）に供給することであって、前記飛行シミュレータ（１４６）は、前記第２の制御入力（１０３、１１３）に応じて第２の状態データ（１０５、１１５）を生成する、前記第２の制御入力（１０３、１１３）を前記飛行シミュレータ（１４６）に供給することと、
前記第１の状態データ（１０５、１１５）及び前記第２の状態データ（１０５、１１５）に少なくとも部分的に基づいて、前記第１のニューラルネットワーク（１０４、２２０）の重み（１２１）を更新すること
を含む、航空機を制御するためのニューラルネットワークを訓練する方法。
前記候補の第２の制御入力（１０７）は、前記乱数値がランダム化設定値（１９３）以下であるという判定に応じて、前記第２の制御入力（１０３、１１３）として選択される、請求項７に記載の方法。
前記ランダムなオフセット制御入力（１９１）は、前記乱数値がランダム化設定値（１９３）より大きいという判定に応じて、前記第２の制御入力（１０３、１１３）として選択される、請求項７又は８に記載の方法。
前記第１のニューラルネットワーク（１０４、２２０）を訓練する繰り返し回数に基づいて、ランダム化設定値（１９３）を更新することをさらに含み、前記第２の制御入力（１０３、１１３）は、前記ランダム化設定値（１９３）に基づいて選択される、請求項７から９のいずれか一項に記載の方法。
前記第１の制御入力（１０３、１１３）の値が中央に来るよう調整された範囲内から値を無作為に選択することにより、前記ランダムなオフセット制御入力（１９１）を生成することをさらに含む、請求項７から１０のいずれか一項に記載の方法。
前記第１の状態データ（１０５、１１５）は、高度、速度、ピッチ、昇降舵設定、高度変化、速度変化、又はピッチ変化の少なくとも１つを示す、請求項７から１１のいずれか一項に記載の方法。
前記第２の状態データ（１０５、１１５）により示される高度変化及びピッチに基づいて報酬値（１１１）を決定することをさらに含み、前記重み（１２１）は、前記報酬値（１１１）に少なくとも部分的に基づいて更新される、請求項７から１２のいずれか一項に記載の方法。
前記第１のニューラルネットワーク（１０４、２２０）は、複数の制御入力に対応する複数の出力ノード（２０６）を含み、第１の出力ノード（２０６）が、前記候補の第２の制御入力（１０７）に対応しており、前記第１のニューラルネットワーク（１０４、２２０）が、前記第１の状態データ（１０５、１１５）を受信して、前記複数の出力ノード（２０６）のための出力値として、複数の予測される報酬値を生成するよう構成され、前記第１の出力ノード（２０６）のための第１の予測される報酬値（１１７、１２７、２１９）が、前記複数の予測される報酬値からの最大予測報酬値である、請求項１３に記載の方法。
前記第２の状態データ（１０５、１１５）を第２の入力として第２のニューラルネットワーク（１０６、２２０）に供給することであって、前記第２のニューラルネットワーク（１０６、２２０）は、前記複数の制御入力に対応する複数の第２の出力ノード（２０６）を含み、前記第２のニューラルネットワーク（１０６、２２０）は、前記第２の状態データ（１０５、１１５）を受信して、前記複数の第２の出力ノード（２０６）のための第２の出力値として、複数の第２の予測される報酬値を生成するよう構成される、前記第２の状態データ（１０５、１１５）を第２の入力として第２のニューラルネットワーク（１０６、２２０）に供給することと、
第２の出力ノード（２０６）のための第２の予測される報酬値（１１９、２１９）が、前記複数の第２の予測される報酬値からの最大予測報酬値であると判定すること
をさらに含み、
前記第１のニューラルネットワーク（１０４、２２０）の前記重み（１２１）が、前記報酬値（１１１）、前記第１の予測される報酬値（１１７、１２７、２１９）、及び前記第２の予測される報酬値（１１９、２１９）に基づいて更新される、請求項１４に記載の方法。
前記第２のニューラルネットワーク（１０６、２２０）は、前記第１のニューラルネットワーク（１０４、２２０）の遅延されたコピーである、請求項１５に記載の方法。
前記第２のニューラルネットワーク（１０６、２２０）の第２の重みの先行する更新以降の、前記第１のニューラルネットワーク（１０４、２２０）の訓練の繰り返し回数が閾値より大きいという判定に基づいて、前記第２のニューラルネットワーク（１０６、２２０）の前記第２の重みを、前記第１のニューラルネットワーク（１０４、２２０）の前記重み（１２１）に基づいて更新することをさらに含む、請求項１５又は１６に記載の方法。
コンピュータ可読記憶デバイスであって、
命令を格納しており、
前記命令は、１つ以上のプロセッサによって実行されると、
第１の制御入力（１０３、１１３）を飛行シミュレータ（１４６）に供給することであって、前記飛行シミュレータ（１４６）は前記第１の制御入力（１０３、１１３）に応じて第１の状態データ（１０５、１１５）を生成し、候補の第２の制御入力（１０７）を生成するために前記第１の状態データ（１０５、１１５）を入力として第１のニューラルネットワーク（１０４、２２０）に供給する、第１の制御入力（１０３、１１３）を飛行シミュレータ（１４６）に供給することと、
乱数値に基づいて、前記飛行シミュレータ（１４６）のための第２の制御入力（１０３、１１３）を選択することであって、前記第２の制御入力（１０３、１１３）は、前記候補の第２の制御入力（１０７）とランダムなオフセット制御入力（１９１）との間から選択され、前記ランダムなオフセット制御入力（１９１）は、前記第１の制御入力（１０３、１１３）に加えられるランダムオフセット（１０９）に基づいている、第２の制御入力（１０３、１１３）を選択することと、
前記第２の制御入力（１０３、１１３）を前記飛行シミュレータ（１４６）に供給することであって、前記飛行シミュレータ（１４６）は、前記第２の制御入力（１０３、１１３）に応じて第２の状態データ（１０５、１１５）を生成する、前記第２の制御入力（１０３、１１３）を前記飛行シミュレータ（１４６）に供給することと、
前記第１の状態データ（１０５、１１５）及び前記第２の状態データ（１０５、１１５）に少なくとも部分的に基づいて、前記第１のニューラルネットワーク（１０４、２２０）の重み（１２１）を更新すること
を含む動作を、前記１つ以上のプロセッサに実行させる、コンピュータ可読記憶デバイス。
前記第１の状態データ（１０５、１１５）は、高度、速度、ピッチ、昇降舵設定、高度変化、速度変化、又はピッチ変化の少なくとも１つを示す、請求項１８に記載のコンピュータ可読記憶デバイス。
前記動作は、前記第２の状態データ（１０５、１１５）により示される高度変化及びピッチに基づいて、報酬値（１１１）を決定することをさらに含み、前記重み（１２１）は、前記報酬値（１１１）に少なくとも部分的に基づいて更新される、請求項１８又は１９に記載のコンピュータ可読記憶デバイス。