JP7046267B2

JP7046267B2 - 状態制御装置、学習装置、状態制御方法、学習方法及びプログラム

Info

Publication number: JP7046267B2
Application number: JP2021511689A
Authority: JP
Inventors: 良徳大橋
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2022-04-01
Anticipated expiration: 2039-03-29
Also published as: WO2020202308A1; US20220147798A1; JPWO2020202308A1

Description

本発明は、状態制御装置、学習装置、状態制御方法、学習方法及びプログラムに関する。

時系列のデータ等の一連のデータを処理するための機械学習モデルである再帰型ニューラルネットワーク（ＲＮＮ）モデルの中間層のユニットをロングショートタームメモリ（ＬＳＴＭ）ブロックに置き換えたＬＳＴＭモデルが知られている。ＬＳＴＭモデルでは、長期的な状態を状態変数の値として保存することが可能である。

しかし、ＬＳＴＭモデル等の、状態の関連付けが可能なニューラルネットワークであっても、当該状態が無限に保存されるわけではない。そのため、高頻度な入力が行われる場合は充分な期間にわたって状態が保存されないことがある。例えば、１秒あたり１２０回の入力が行われるＬＳＴＭモデルでは、状態変数の値が意図せず数秒程度でリセットされてしまうことがある。

本発明は上記課題に鑑みてなされたものであって、その目的の１つは、ニューラルネットワークに関連付けられている状態が保存される期間を長期化できる状態制御装置、学習装置、状態制御方法、学習方法及びプログラムを提供することにある。

上記課題を解決するために、本発明に係る状態制御装置は、入力データを取得する入力データ取得部と、前記入力データが入力される、状態の関連付けが可能な所与の学習済のニューラルネットワークの出力である出力データを用いた処理を実行する処理実行部と、を含み、前記入力データ取得部による前記入力データの取得、及び、前記処理実行部による処理の実行を含むループ処理は、繰り返し実行され、前記入力データ及び前記出力データの少なくとも一方に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する状態制御部、をさらに含む。

本発明の一態様では、前記状態制御部は、前記ニューラルネットワークに前記入力データを入力するか否かを制御する。

この態様では、前記処理実行部は、前記ニューラルネットワークに前記入力データを入力するよう制御される場合は、当該入力データを前記ニューラルネットワークに入力した際の出力である前記出力データを用いた処理を実行し、前記処理実行部は、前記ニューラルネットワークに前記入力データを入力しないよう制御される場合は、前記ニューラルネットワークの直近の出力である前記出力データを用いた処理を実行してもよい。

また、本発明の一態様では、前記状態制御部は、前記ニューラルネットワークへの前記入力データの入力に応じて更新された前記状態を、更新前の状態に戻すか否かを制御する。

また、本発明の一態様では、前記ニューラルネットワークへの入力を示す学習入力データと、当該入力に応じた前記ニューラルネットワークの出力と当該入力の直前の入力に応じた前記ニューラルネットワークの出力との差を示す教師データと、を含む学習データを用いた学習が実行された学習済の機械学習モデルである入力判定モデルをさらに含み、前記状態制御部は、前記入力データ取得部により取得される前記入力データを前記入力判定モデルに入力した際の出力に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する。

あるいは、前記状態制御部は、前記入力データの一部又は全部についての、当該入力データの直前に取得された前記入力データからの変化に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する。

あるいは、前記状態制御部は、前記入力データに含まれる要素間の相対的な関係についての、当該入力データの直前に取得された前記入力データからの変化に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する。

あるいは、前記状態制御部は、前記入力データの入力に応じた前記ニューラルネットワークの出力と当該入力データの次に取得される前記入力データとの比較結果に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する。

また、本発明の一態様では、前記ニューラルネットワークは、ロングショートタームメモリ（ＬＳＴＭ）モデルである。

また、本発明に係る学習装置は、状態の関連付けが可能な所与の学習済のニューラルネットワークへの入力を示す学習入力データと、当該入力に応じた前記ニューラルネットワークの出力と当該入力の直前の入力に応じた前記ニューラルネットワークの出力との差を示す教師データと、を含む学習データを取得する学習データ取得部と、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かの制御に用いられる機械学習モデルである入力判定モデルに前記学習データに含まれる前記学習入力データを入力した際の出力、及び、当該学習データに含まれる前記教師データを用いて、当該入力判定モデルの学習を実行する学習部と、を含む。

また、本発明に係る状態制御方法は、入力データを取得するステップと、前記入力データが入力される、状態の関連付けが可能な所与の学習済のニューラルネットワークの出力である出力データを用いた処理を実行するステップと、を含み、前記入力データの取得、及び、前記処理の実行を含むループ処理は、繰り返し実行され、前記入力データ及び前記出力データの少なくとも一方に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御するステップ、をさらに含む。

また、本発明に係る学習方法は、状態の関連付けが可能な所与の学習済のニューラルネットワークへの入力を示す学習入力データと、当該入力に応じた前記ニューラルネットワークの出力と当該入力の直前の入力に応じた前記ニューラルネットワークの出力との差を示す教師データと、を含む学習データを取得するステップと、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かの制御に用いられる機械学習モデルである入力判定モデルに前記学習データに含まれる前記学習入力データを入力した際の出力、及び、当該学習データに含まれる前記教師データを用いて、当該入力判定モデルの学習を実行するステップと、を含む。

また、本発明に係るプログラムは、入力データを取得する手順、前記入力データが入力される、状態の関連付けが可能な所与の学習済のニューラルネットワークの出力である出力データを用いた処理を実行する手順、をコンピュータに実行させ、前記入力データの取得、及び、前記処理の実行を含むループ処理は、繰り返し実行され、前記入力データ及び前記出力データの少なくとも一方に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する手順、をさらに前記コンピュータに実行させる。

また、本発明に係る別のプログラムは、状態の関連付けが可能な所与の学習済のニューラルネットワークへの入力を示す学習入力データと、当該入力に応じた前記ニューラルネットワークの出力と当該入力の直前の入力に応じた前記ニューラルネットワークの出力との差を示す教師データと、を含む学習データを取得する手順、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かの制御に用いられる機械学習モデルである入力判定モデルに前記学習データに含まれる前記学習入力データを入力した際の出力、及び、当該学習データに含まれる前記教師データを用いて、当該入力判定モデルの学習を実行する手順、をコンピュータに実行させる。

本発明の一実施形態に係る情報処理装置の一例を示す構成図である。ＬＳＴＭモデルの一例を示す図である。本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。入力判定モデルの学習の一例を模式的に示す図である。学習データセットの一例を示す図である。本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。

以下、本発明の一実施形態について図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係る情報処理装置１０の構成図である。本実施形態に係る情報処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、本実施形態に係る情報処理装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８を含んでいる。

プロセッサ１２は、例えば情報処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

なお、情報処理装置１０は、ネットワークボードなどの通信インタフェース、ＤＶＤ－ＲＯＭやＢｌｕ－ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

本実施形態に係る情報処理装置１０には、状態の関連付けが可能な所与の学習済のニューラルネットワークが実装されている。以下の説明では、情報処理装置１０に、状態の関連付けが可能な所与の学習済のニューラルネットワークの一例として、図２に例示する、所与の学習済のロングショートタームメモリ（ＬＳＴＭ）モデル２０が実装されていることとする。ＬＳＴＭモデル２０は、時系列のデータ等の一連のデータを処理するための機械学習モデルである。

図２に示すＬＳＴＭモデル２０には、入力層２２と、ロングショートターム（ＬＳＴＭ）ブロック２４と、出力ブロック２６と、が含まれる。

入力層２２は、ＬＳＴＭモデル２０に対する入力を受け付ける。以後、学習済のＬＳＴＭモデル２０に入力されるデータをターゲット入力データと呼ぶこととする。本実施形態では、それぞれが順序に対応付けられている一連のターゲット入力データが、対応付けられている順序に従って順番に、入力層２２に入力される。

ターゲット入力データが入力層２２に入力されると、当該ターゲット入力データが直前の入力に応じたＬＳＴＭブロック２４の出力と結合されたデータ（以後、結合入力データと呼ぶ。）が、ＬＳＴＭブロック２４に入力される。

ＬＳＴＭブロック２４は、ターゲット入力データの時系列推移などといったターゲット入力データの推移の特徴を示す、ＬＳＴＭの状態変数を出力する。

そして、ＬＳＴＭブロック２４からの出力である状態変数が出力ブロック２６に入力される。そして、出力ブロック２６は、当該入力に応じた出力データを出力する。

出力ブロック２６には、例えば、２つの中間層と出力層とが含まれる。２つの中間層は、それぞれ例えば正規化線形関数（ＲｅＬＵ）を活性化関数とする全結合層である。出力層は、例えば線形関数を活性化関数とする層である。

本実施形態では、ＬＳＴＭブロック２４からの出力である状態変数が１つ目の中間層に入力される。そして、１つ目の中間層の出力が２つ目の中間層に入力され、２つ目の中間層の出力が出力層に入力される。そして、出力層が、当該入力に応じた出力データを出力する。

ＬＳＴＭモデル２０では、長期的な状態を状態変数の値として保存することが可能である。しかし、ＬＳＴＭモデル２０等の状態の関連付けが可能な所与の学習済のニューラルネットワークであっても状態が無限に保存されるわけではない。そのため、高頻度な入力が行われる場合は充分な期間にわたって状態が保存されないことがある。例えば、１秒あたり１２０回の入力が行われるＬＳＴＭモデル２０では、状態変数の値が意図せず数秒程度でリセットされてしまうことがある。

そこで本実施形態では以下のようにして、状態の関連付けが可能なニューラルネットワークにおいて状態が保存される期間が長期化できるようにした。

以下、ＬＳＴＭモデル２０における状態の保存期間の長期化を中心に、本実施形態に係る情報処理装置１０の機能、及び、情報処理装置１０で実行される処理についてさらに説明する。

図３は、本実施形態に係る情報処理装置１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る情報処理装置１０で、図３に示す機能のすべてが実装される必要はなく、また、図３に示す機能以外の機能が実装されていても構わない。

図３に示すように、本実施形態に係る情報処理装置１０には、機能的には例えば、ＬＳＴＭモデル２０、ターゲット入力データ取得部３０、状態制御部３２、入力部３４、出力データ取得部３６、出力データ記憶部３８、処理実行部４０、が含まれる。ＬＳＴＭモデル２０は、プロセッサ１２、及び、記憶部１４を主として実装される。ターゲット入力データ取得部３０、状態制御部３２、入力部３４、出力データ取得部３６、処理実行部４０は、プロセッサ１２を主として実装される。出力データ記憶部３８は、記憶部１４を主として実装される。

以上の機能は、コンピュータである情報処理装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してプロセッサ１２に供給されてもよい。

ターゲット入力データ取得部３０は、本実施形態では例えば、上述のターゲット入力データを取得する。

状態制御部３２は、本実施形態では例えば、ターゲット入力データ及び出力データの少なくとも一方に基づいて、所与の学習済のニューラルネットワークに関連付けられている状態の更新を制限するか否かを制御する。ここで状態制御部３２が、ターゲット入力データ取得部３０により取得されるターゲット入力データが所定の条件を満足するか否かに基づいて、所与の学習済のＬＳＴＭモデル２０に当該ターゲット入力データを入力するか否かを制御してもよい。

入力部３４は、本実施形態では例えば、状態制御部３２により学習済のＬＳＴＭモデル２０等のニューラルネットワークにターゲット入力データを入力するよう制御される場合に、当該ターゲット入力データをＬＳＴＭモデル２０の入力層２２に入力する。

ＬＳＴＭモデル２０は、上述したように、本実施形態では例えば、状態の関連付けが可能な所与の学習済のニューラルネットワークの一例である、所与の学習済のＬＳＴＭモデル２０である。ＬＳＴＭモデル２０は、上述のように状態変数を保持している。そして、ＬＳＴＭモデル２０は、入力層２２に入力されるターゲット入力データと保持している状態変数とが結合された結合入力データを生成する。そして、ＬＳＴＭモデル２０は、生成される結合入力データをＬＳＴＭブロック２４に入力する。そして、ＬＳＴＭモデル２０は、当該入力に応じてＬＳＴＭブロック２４から出力される状態変数を出力ブロック２６に入力する。そしてＬＳＴＭモデル２０の出力ブロック２６は、入力された状態変数に応じた出力データを出力する。

また、ＬＳＴＭモデル２０は、保持している状態変数を、ＬＳＴＭブロック２４から出力された状態変数に更新する。このように本実施形態ではＬＳＴＭモデル２０が保持している状態変数の値は、入力層２２への入力に応じて更新される。

出力データ取得部３６は、本実施形態では例えば、ＬＳＴＭモデル２０の出力である出力データを取得する。

ここで、状態制御部３２によりＬＳＴＭモデル２０にターゲット入力データを入力するよう制御される場合は、出力データ取得部３６は、当該ターゲット入力データをＬＳＴＭモデル２０に入力した際の出力である出力データを取得する。この場合、出力データ取得部３６は、出力データ記憶部３８に記憶されている出力データを、取得される出力データに更新する。

一方で、状態制御部３２によりＬＳＴＭモデル２０にターゲット入力データを入力しないよう制御される場合は、出力データ取得部３６は、ＬＳＴＭモデル２０の直近の出力である出力データを取得する。ここで、出力データ取得部３６は、例えば、出力データ記憶部３８に記憶されている出力データを取得してもよい。

出力データ記憶部３８は、出力データ取得部３６により取得される出力データを記憶する。ここで出力データ記憶部３８は、出力データ取得部３６により直近に取得された出力データを記憶してもよい。

処理実行部４０は、本実施形態では例えば、ＬＳＴＭモデル２０の出力である出力データを用いた処理を実行する。

処理実行部４０は、出力データ取得部３６により取得される出力データを用いた処理を実行してもよい。例えば、処理実行部４０は、状態制御部３２によりＬＳＴＭモデル２０にターゲット入力データを入力するよう制御される場合は、当該ターゲット入力データをＬＳＴＭモデル２０に入力した際の出力である出力データを用いた処理を実行してもよい。そして、処理実行部４０は、状態制御部３２によりＬＳＴＭモデル２０にターゲット入力データを入力しないよう制御される場合は、ＬＳＴＭモデル２０の直近の出力である出力データを用いた処理を実行してもよい。ここで例えば、出力データ記憶部３８に記憶されている出力データを用いた処理が実行されてもよい。

本実施形態では、ターゲット入力データ取得部３０によるターゲット入力データの取得、状態制御部３２による制御、及び、処理実行部４０による処理の実行を含むループ処理は、繰り返し実行される。

ここで、本実施形態に係る情報処理装置１０で行われる、ＬＳＴＭモデル２０の状態制御に関する処理の流れの一例を、図４に例示するフロー図を参照しながら説明する。

図４に示すＳ１０１～Ｓ１０７に示す処理は、所定の時間間隔で（例えば１／１２０秒間隔で）繰り返し実行される。また、図４に示すＳ１０１～Ｓ１０７に示す処理は、それぞれが順序に対応付けられている一連のターゲット入力データのそれぞれを対象として、対応付けられている順序に従って順番に実行される。

まず、ターゲット入力データ取得部３０が、本ループにおける処理対象であるターゲット入力データを取得する（Ｓ１０１）。ここでは、対応付けられている順序が直前のループにおいてＳ１０１～Ｓ１０７に示す処理が実行されたターゲット入力データの次の順序であるターゲット入力データが取得される。

そして、状態制御部３２が、Ｓ１０１に示す処理で取得されたターゲット入力データが所定の入力抑制条件を満足するか否かを判定する（Ｓ１０２）。

Ｓ１０２に示す処理で入力抑制条件を満足すると判定された場合は（Ｓ１０２：Ｙ）、出力データ取得部３６が、出力データ記憶部３８に記憶されている出力データを取得する（Ｓ１０３）。

Ｓ１０２に示す処理で入力抑制条件を満足しないと判定された場合は（Ｓ１０２：Ｎ）、入力部３４が、Ｓ１０１に示す処理で取得されたターゲット入力データをＬＳＴＭモデル２０に入力する（Ｓ１０４）。この場合、上述のように当該ターゲット入力データとＬＳＴＭモデル２０が保持しているＬＳＴＭの状態変数とを結合した結合入力データがＬＳＴＭブロック２４に入力される。また、ＬＳＴＭモデル２０は、保持している状態変数を当該入力に応じてＬＳＴＭブロック２４が出力する状態変数に更新する。

そして、出力データ取得部３６が、Ｓ１０４に示す処理での入力に応じてＬＳＴＭモデル２０が出力する出力データを取得する（Ｓ１０５）。

そして、出力データ取得部３６が、出力データ記憶部３８に記憶されている出力データを、Ｓ１０５に示す処理で取得された出力データに更新する（Ｓ１０６）。

そして、処理実行部４０が、Ｓ１０３又はＳ１０５に示す処理で出力データ取得部３６により取得された出力データを用いた処理を実行して（Ｓ１０７）、Ｓ１０１に示す処理に戻る。

本実施形態では上述のように、ターゲット入力データ及び出力データの少なくとも一方に基づいて、ニューラルネットワークに関連付けられている状態の更新を制限するか否かが制御される。例えば、ターゲット入力データに基づいて、ＬＳＴＭモデル２０に当該ターゲット入力データを入力するか否かが制御される。そして、ＬＳＴＭモデル２０にターゲット入力データが入力されない場合は、ＬＳＴＭの状態変数は更新されない。このようにして本実施形態によれば、ＬＳＴＭモデル２０等の状態の関連付けが可能な所与の学習済のニューラルネットワークにおいて状態が保存される期間が長期化できることとなる。

また、本実施形態では、ＬＳＴＭモデル２０にターゲット入力データが入力されない状況でも、ＬＳＴＭモデル２０の直近の出力である出力データを用いた処理が実行される。そのため、ＬＳＴＭモデル２０等のニューラルネットワークにターゲット入力データが入力されない状況を考慮した、出力データを用いた後続の処理の実装の改変の手間があまりかからない。

また本実施形態において、図５に示すように、本実施形態に係る情報処理装置１０に、図３に示す要素に加え、入力判定モデル５０が含まれるようにしてもよい。図５に示されている入力判定モデル５０以外の要素は、図３に示すものと同様であるので説明を省略する。

入力判定モデル５０は、ＬＳＴＭモデル２０に関連付けられている状態の更新を制限するか否かの制御に用いられる、ＬＳＴＭモデル２０とは異なる、学習済の機械学習モデルである。ここでは、入力判定モデル５０は、ＬＳＴＭモデル２０にターゲット入力データを入力するか否かの制御に用いられる、ＬＳＴＭモデル２０とは異なる、学習済の機械学習モデルである。状態制御部３２は、ターゲット入力データ取得部３０により取得されるターゲット入力データを入力判定モデル５０に入力した際の出力に基づいて、ＬＳＴＭモデル２０に当該ターゲット入力データを入力するか否かを制御してもよい。

入力判定モデル５０は、ターゲット入力データの入力に応じて判定結果データＤｓｔｏｐを出力する。ここで例えば、判定結果データＤｓｔｏｐは、「０」又は「１」のいずれかの値をとるデータであってもよい。

本実施形態では例えば、ターゲット入力データの入力に応じて値が「１」である判定結果データＤｓｔｏｐが入力判定モデル５０から出力された場合は、当該ターゲットデータはＬＳＴＭモデル２０に入力されないよう制御されることとする。また、ターゲット入力データの入力に応じて値が「０」である判定結果データＤｓｔｏｐが入力判定モデル５０から出力された場合は、当該ターゲットデータはＬＳＴＭモデル２０に入力されるよう制御されることとする。

図６は、入力判定モデル５０の学習の一例を模式的に示す図である。入力判定モデル５０では、例えば複数の学習データセットを用いた学習が実行される。

図７は、学習データセットの一例を示す図である。学習データセットには、複数の学習データが含まれる。学習データには、例えば、入力判定モデル５０に入力される学習入力データＤｉｎと、当該入力に応じた入力判定モデル５０の出力と比較される教師データである判定結果教師データＴｓｔｏｐと、が含まれる。学習データセットに含まれる複数の学習入力データは、時系列のデータなどといった順序に対応付けられている一連のデータ（Ｄｉｎ（１）～Ｄｉｎ（ｎ））である。そして、Ｄｉｎ（１）～Ｄｉｎ（ｎ）は、判定結果教師データＴｓｔｏｐ（１）～Ｔｓｔｏｐ（ｎ）にそれぞれ対応付けられる。そのため判定結果教師データＴｓｔｏｐも順序に対応付けられることとなる。

判定結果教師データＴｓｔｏｐは、本実施形態では例えば、所与の学習済の機械学習モデルであるＬＳＴＭモデル２０を用いて生成される教師データである。例えば、学習入力データＤｉｎ（１）～Ｄｉｎ（ｎ）のそれぞれが対応付けられている順序に従ってＬＳＴＭモデル２０に順番に入力された際の、それぞれの入力に対応する出力Ｄｏｕｔ（１）～Ｄｏｕｔ（ｎ）が特定される。例えば、Ｄｉｎ（１）の入力に応じたＬＳＴＭモデル２０の出力Ｄｏｕｔ（１）、Ｄｉｎ（２）の入力に応じたＬＳＴＭモデル２０の出力Ｄｏｕｔ（２）、・・・、Ｄｉｎ（ｎ）の入力に応じたＬＳＴＭモデル２０の出力Ｄｏｕｔ（ｎ）が特定される。

そしてＬＳＴＭモデル２０の出力Ｄｏｕｔと当該出力Ｄｏｕｔの直前の出力との差の絶対値が所定の閾値よりも小さい場合は、当該出力Ｄｏｕｔに対応するＴｓｔｏｐの値が「１」と決定される。ＬＳＴＭモデル２０の出力Ｄｏｕｔと当該出力Ｄｏｕｔの直前の出力との差の絶対値が所定の閾値よりも小さくない場合は、当該出力Ｄｏｕｔに対応するＴｓｔｏｐの値が「０」と決定される。

例えば、Ｄｏｕｔ（２）－Ｄｏｕｔ（１）の絶対値が所定の閾値よりも小さい場合はＴｓｔｏｐ（２）の値が「１」と決定され、閾値よりも小さくない場合はＴｓｔｏｐ（２）の値が「０」と決定される。Ｄｏｕｔ（ｎ）－Ｄｏｕｔ（ｎ－１）の絶対値が所定の閾値よりも小さい場合はＴｓｔｏｐ（ｎ）の値が「１」と決定され、閾値よりも小さくない場合はＴｓｔｏｐ（ｎ）の値が「０」と決定される。なお、Ｔｓｔｏｐ（１）の値は所定値（例えば、「０」）と決定されてもよい。

例えば以上のようにして判定結果教師データＴｓｔｏｐ（１）～Ｔｓｔｏｐ（ｎ）の値は決定される。

そして、学習入力データＤｉｎ（１）～Ｄｉｎ（ｎ）と、判定結果教師データＴｓｔｏｐ（１）～Ｔｓｔｏｐ（ｎ）とを含む、学習データセットが生成される。

そしてこのようにして生成される学習データセットを用いて入力判定モデル５０の学習が実行される。例えば、学習入力データＤｉｎ（１）の入力に応じて入力判定モデル５０が出力する判定結果データＤｓｔｏｐ（１）の値が特定されてもよい。そして、判定結果データＤｓｔｏｐ（１）の値と判定結果教師データＴｓｔｏｐ（１）の値との差に基づいて、誤差逆伝搬法（バックプロパゲーション）により入力判定モデル５０のパラメータが更新されてもよい。次に、Ｄｉｎ（２）の入力に応じて入力判定モデル５０が出力するＤｓｔｏｐ（２）の値とＴｓｔｏｐ（２）の値との差に基づいて、入力判定モデル５０のパラメータが更新されてもよい。以後、同様な処理が実行され、最後に、Ｄｉｎ（ｎ）の入力に応じた出力であるＤｓｔｏｐ（ｎ）の値とＴｓｔｏｐ（ｎ）の値との差に基づいて、入力判定モデル５０のパラメータが更新されてもよい。

そして本実施形態では例えば、複数の学習データセットのそれぞれについて、上述の学習が実行されることで入力判定モデル５０の学習が実行されてもよい。なお入力判定モデル５０の学習に用いられる学習データセットに含まれる学習データの数は同じであってもよいし同じでなくてもよい。

なお以上の例では、教師あり学習により入力判定モデル５０の学習が実行されたが、教師なし学習あるいは強化学習などの他の手法により入力判定モデル５０の学習が実行されてもよい。

図８は、情報処理装置１０で実装される入力判定モデル５０の学習に関係する機能の一例を示す機能ブロック図である。ここでは情報処理装置１０において入力判定モデル５０の学習が実行されることとするが、情報処理装置１０とは異なる装置で入力判定モデル５０の学習が実行されてもよい。また、本実施形態に係る情報処理装置１０で、図８に示す機能のすべてが実装される必要はなく、また、図８に示す機能以外の機能が実装されていても構わない。

図８に示すように、本実施形態に係る情報処理装置１０には、機能的には例えば、入力判定モデル５０、学習データ記憶部６０、学習データ取得部６２、学習入力部６４、判定結果データ取得部６６、学習部６８、が含まれる。入力判定モデル５０は、プロセッサ１２及び記憶部１４を主として実装される。学習データ記憶部６０は、記憶部１４を主として実装される。学習データ取得部６２、学習入力部６４、判定結果データ取得部６６、学習部６８は、プロセッサ１２を主として実装される。

学習データ記憶部６０は、本実施形態では例えば、複数の学習データセットを記憶する。学習データセットには、複数の学習データが含まれている。学習データには、例えば、学習入力データＤｉｎと、判定結果教師データＴｓｔｏｐと、が含まれる。ここで上述のようにしてＬＳＴＭモデル２０を用いて予め生成された学習データセットが学習データ記憶部６０に記憶されていてもよい。

学習データ取得部６２は、本実施形態では例えば、学習データ記憶部６０に記憶されている学習データを取得する。

学習入力部６４は、本実施形態では例えば、学習データ取得部６２により取得される学習データに含まれる学習入力データＤｉｎを、入力判定モデル５０に入力する。

入力判定モデル５０は、本実施形態では例えば、学習入力データＤｉｎの入力に応じて判定結果データＤｓｔｏｐを出力する機械学習モデルである。

判定結果データ取得部６６は、本実施形態では例えば、入力判定モデル５０が出力する判定結果データＤｓｔｏｐを取得する。

学習部６８は、本実施形態では例えば、学習入力データＤｉｎを入力判定モデル５０に入力した際の出力を用いて、入力判定モデル５０の学習を実行する。ここでは例えば、学習データに含まれる学習入力データＤｉｎを入力判定モデル５０に入力した際の出力である判定結果データＤｓｔｏｐの値と、当該学習データに含まれる判定結果教師データＴｓｔｏｐの値と、の差が特定されてもよい。そして特定される差に基づいて入力判定モデル５０のパラメータの値が更新される教師あり学習が実行されてもよい。

ここで、本実施形態に係る情報処理装置１０で行われる、入力判定モデル５０の学習に関する処理の流れの一例を、図９に例示するフロー図を参照しながら説明する。

まず、学習データ取得部６２が、学習データ記憶部６０に記憶されている複数の学習データセットのうちから、Ｓ２０２～Ｓ２０５に示す処理が未実行であるものを１つ取得する（Ｓ２０１）。

そして、学習データ取得部６２が、Ｓ２０１に示す処理で取得された学習データセットに含まれる学習データであって、Ｓ２０３～Ｓ２０５に示す処理が未実行であるもののうち、対応付けられている順序が最も小さなものを取得する（Ｓ２０２）。

そして、学習入力部６４が、Ｓ２０２に示す処理で取得された学習データに含まれる学習入力データＤｉｎを入力判定モデル５０に入力する（Ｓ２０３）。

そして、判定結果データ取得部６６が、Ｓ２０３に示す処理での入力に応じて入力判定モデル５０が出力する判定結果データＤｓｔｏｐを取得する（Ｓ２０４）。

そして、学習部６８が、Ｓ２０４に示す処理で取得された判定結果データＤｓｔｏｐと、Ｓ２０２に示す処理で取得された学習データに含まれる判定結果教師データＴｓｔｏｐと、を用いた、入力判定モデル５０の学習を実行する（Ｓ２０５）。ここで例えば、当該判定結果データＤｓｔｏｐの値と、当該判定結果教師データＴｓｔｏｐの値と、の差に基づいて、入力判定モデル５０のパラメータの値が更新されてもよい。

そして、学習部６８が、Ｓ２０１に示す処理で取得された学習データセットに含まれるすべての学習データについて、Ｓ２０３～Ｓ２０５に示す処理が実行されたか否かを確認する（Ｓ２０６）。

Ｓ２０１に示す処理で取得された学習データセットに含まれるすべての学習データについて、Ｓ２０３～Ｓ２０５に示す処理が実行されていない場合は（Ｓ２０６：Ｎ）、Ｓ２０２に示す処理に戻る。

一方、Ｓ２０１に示す処理で取得された学習データセットに含まれるすべての学習データについて、Ｓ２０３～Ｓ２０５に示す処理が実行されたとする（Ｓ２０６：Ｙ）。この場合は、学習部６８が、学習データ記憶部６０に記憶されているすべての学習データセットについて、Ｓ２０２～Ｓ２０５に示す処理が実行されたか否かを確認する（Ｓ２０７）。

学習データ記憶部６０に記憶されているすべての学習データセットについて、Ｓ２０２～Ｓ２０５に示す処理が実行されていない場合は（Ｓ２０７：Ｎ）、Ｓ２０１に示す処理に戻る。

学習データ記憶部６０に記憶されているすべての学習データセットについて、Ｓ２０２～Ｓ２０５に示す処理が実行された場合は（Ｓ２０７：Ｙ）、本処理例に示す処理は終了される。

そして、以上のようにして生成された学習済の入力判定モデル５０を用いて、所与の学習済のニューラルネットワークに関連付けられている状態の更新を制限するか否かが制御されてもよい。例えば、生成された学習済の入力判定モデル５０を用いて、学習済のＬＳＴＭモデル２０にターゲット入力データを入力するか否かが制御されてもよい。この場合、例えば、状態制御部３２が、ターゲット入力データを入力判定モデル５０に入力した際の出力に基づいて、所与の学習済のニューラルネットワークに関連付けられている状態の更新を制限するか否かが制御されてもよい。例えば、状態制御部３２が、ターゲット入力データを入力判定モデル５０に入力した際の出力に基づいて、ＬＳＴＭモデル２０に当該ターゲット入力データを入力するか否かを制御してもよい。

例えば上述のＳ１０２に示す処理において、状態制御部３２が、Ｓ１０１に示す処理で取得されたターゲット入力データを学習済の入力判定モデル５０に入力してもよい。そして、状態制御部３２が、当該入力に応じて入力判定モデル５０が出力する判定結果データＤｓｔｏｐを取得してもよい。

そして、判定結果データＤｓｔｏｐの値が「１」である場合は、状態制御部３２は、入力抑制条件を満足すると判定してもよい。この場合は、Ｓ１０３に示す処理で、出力データ取得部３６が、出力データ記憶部３８に記憶されている出力データを取得する。

また、判定結果データＤｓｔｏｐの値が「０」である場合は、状態制御部３２は、入力抑制条件を満足しないと判定してもよい。この場合は、Ｓ１０４に示す処理で、入力部３４が、Ｓ１０１に示す処理で取得されたターゲット入力データをＬＳＴＭモデル２０に入力する。

本実施形態の応用範囲は、特定の技術分野には限定されない。

例えば、本実施形態をボディトラッキングに応用することができる。ここで例えば、ＬＳＴＭモデル２０が、ユーザの体の末端に装着されたトラッカーが備えるセンサによる計測結果であるセンシングデータの時系列が入力される学習済の機械学習モデルであるとする。そしてＬＳＴＭモデル２０が、当該入力に応じて、当該末端よりも体の中心に近い体の部位の姿勢の推定結果を示す出力データを出力することとする。ここでは例えば、ＬＳＴＭモデル２０は、ユーザの手の姿勢を示すセンシングデータの入力に応じて、手首の姿勢を示す出力データを出力することとする。そして、当該出力データを用いて、当該ユーザの体に含まれる複数の部位の姿勢を決定する処理を含むボディトラッキング処理が実行されることとする。

このような場面で、本実施形態によって、当該センシングデータをＬＳＴＭモデル２０に入力するか否かが制御されるようにしてもよい。例えば、手の姿勢の変化を示す値の絶対値が所定の閾値より小さい場合に当該センシングデータがＬＳＴＭモデル２０に入力されないようにしてもよい。

また例えば、本実施形態を、映像解析に応用することができる。ここで例えば、ＣＮＮモデルとＬＳＴＭモデル２０とが結合された学習済の機械学習モデルに、映像データに含まれる複数のフレーム画像がフレーム番号に従って順番に入力されることとする。そして当該機械学習モデルが、当該入力に応じて、入力されたフレーム画像の特徴量を示す出力データを出力することとする。そして、当該出力データを用いて、当該フレーム画像に表れている物体の像の特定などといった映像解析処理が実行されてもよい。

このような場面で、本実施形態によって、ＬＳＴＭモデル２０を含む当該機械学習モデルに当該フレーム画像を入力するか否かが制御されるようにしてもよい。例えば、当該フレーム画像の直前のフレーム画像からの変化を示す値の絶対値が所定の閾値より小さい場合に当該フレーム画像がＬＳＴＭモデル２０に入力されないようにしてもよい。

また、本実施形態における、ニューラルネットワークに関連付けられている状態の更新を制限するか否かの制御は、上述の例には限定されない。

例えば、状態制御部３２は、ターゲット入力データの一部又は全部についての、直前に取得されたターゲット入力データからの変化に基づいて、学習済のＬＳＴＭモデル２０に関連付けられている状態の更新を制限するか否かを制御してもよい。例えば、ターゲット入力データの一部又は全部における変化が小さい場合は、状態制御部３２は、学習済のＬＳＴＭモデル２０に当該ターゲット入力データを入力しないよう制御してもよい。また、ターゲット入力データの一部又は全部における変化が大きい場合は、状態制御部３２は、学習済のＬＳＴＭモデル２０に当該ターゲット入力データを入力するよう制御してもよい。

また例えば、状態制御部３２は、当該ターゲット入力データの値と当該ターゲット入力データの直前に取得されたターゲット入力データの値との差を特定してもよい。そして、状態制御部３２は、特定される差に基づいて、学習済のＬＳＴＭモデル２０に関連付けられている状態の更新を制限するか否かを制御してもよい。ここで例えば、状態制御部３２は、特定される差の絶対値の大きさに基づいて、学習済のＬＳＴＭモデル２０に当該ターゲット入力データを入力するか否かを制御してもよい。

例えば、特定される差の絶対値が所定の閾値よりも小さい場合は、状態制御部３２は、学習済のＬＳＴＭモデル２０に当該ターゲット入力データを入力しないよう制御してもよい。逆に、特定される差の絶対値が所定の閾値よりも小さくない場合は、状態制御部３２は、学習済のＬＳＴＭモデル２０に当該ターゲット入力データを入力するよう制御してもよい。

また例えば、状態制御部３２は、ターゲット入力データに含まれる要素間の相対的な関係についての、直前に取得されたターゲット入力データからの変化に基づいて、学習済のＬＳＴＭモデル２０に関連付けられている状態の更新を制限するか否かを制御してもよい。例えば、ターゲット入力データに含まれる要素間の相対的な関係における変化が小さい場合は、状態制御部３２は、学習済のＬＳＴＭモデル２０に当該ターゲット入力データを入力しないよう制御してもよい。また、ターゲット入力データに含まれる要素間の相対的な関係における変化が大きい場合は、状態制御部３２は、学習済のＬＳＴＭモデル２０に当該ターゲット入力データを入力するよう制御してもよい。

また、状態制御部３２は、ＬＳＴＭモデル２０等のニューラルネットワークへのターゲット入力データの入力に応じて更新された状態を、更新前の状態に戻すか否かを制御してもよい。例えば、出力データの一部又は全部についての、当該出力データの直前に出力された出力データからの変化に基づいて、ＬＳＴＭモデル２０に関連付けられている状態を更新前の状態に戻すか否かが制御されてもよい。例えば、出力データの一部又は全部における変化が小さい場合は、状態制御部３２は、ＬＳＴＭモデル２０へのターゲット入力データの入力に応じて更新された状態が、直前の状態に戻るよう制御してもよい。また、出力データの一部又は全部における変化が大きい場合は、ＬＳＴＭモデル２０へのターゲット入力データの入力に応じて更新された状態が維持されてもよい。

また例えば、状態制御部３２は、ターゲット入力データの入力に応じたＬＳＴＭモデル２０の出力と当該ターゲット入力データの次に取得されるターゲット入力データとを比較してもよい。そして状態制御部３２は、当該比較の結果に基づいて、ＬＳＴＭモデル２０に関連付けられている状態の更新を制限するか否かを制御してもよい。この場合も、上述のように、ＬＳＴＭモデル２０へのターゲット入力データの入力に応じて更新された状態を、更新前の状態に戻すか否かが制御されてもよい。

例えば上述のボディトラッキングにおいて、ＬＳＴＭモデル２０がセンサによる計測結果である頭の姿勢と手の姿勢を示すデータの入力に応じて未来の頭の姿勢を示すデータを出力するものであることとする。この場合、ＬＳＴＭモデル２０の出力であるデータと、次のループ処理における計測結果である頭の姿勢を示すデータとの差の絶対値が、所定の閾値よりも小さい場合は、ＬＳＴＭモデル２０に関連付けられている状態の更新が制限されるようにしてもよい。

また本実施形態において、出力データが変化しない条件が自明である場合は、当該条件に基づいて、学習済のＬＳＴＭモデル２０にターゲット入力データを入力するか否かが制御されてもよい。また、適用するユースケースとの関係で出力データが変化しない条件が経験則から予め判明している場合は、当該条件に基づいて、学習済のＬＳＴＭモデル２０にターゲット入力データを入力するか否かが制御されてもよい。

なお、本発明は上述の実施形態に限定されるものではない。

例えばＬＳＴＭモデル２０以外の、何らかの形で状態の関連付けが可能な所与の学習済のニューラルネットワークについても本発明は適用可能である。例えば、ＬＳＴＭモデル２０に含まれる各要素（ＣＥＣ、Input Gate、Output Gate、Forget Gate）についてばらばらに本発明を適用してもよい。また、ＬＳＴＭ２０モデルではない、状態の関連付けが可能な再帰型ニューラルネットワーク（ＲＮＮ）モデルにも本発明は適用可能である。また、特定の層（例えば全結合層）の現在の値を取り出して、当該値を次の入力に用いるようなニューラルネットワークにも本発明は適用可能である。この場合は、上記特定の層の値が状態変数の値に相当することとなる。

本発明における「ニューラルネットワークに関連付けられている状態」は、次のループに引き継がれるニューラルネットワークのある層の状態（内部状態）には限定されない。当該「状態」は、次のループにおけるある層の状態としては用いられないが、ニューラルネットワークに関連付けて記憶され、次のループにおける入出力に用いられるものも包含される。例えば本発明は、ニューラルネットワークのある層の状態が出力でき、当該出力が、次のループの入力として与えられ、当該ループにおける当該層の状態の初期値として設定できるものに適用可能である。また本発明は、ニューラルネットワークのある層の状態が出力でき、当該出力が、次のループの入力として与えられるが、当該ループにおける当該層の状態の初期値としては利用されないものにも適用可能である。また本発明は、ニューラルネットワークのある層の状態が、直前の入出力から引き継がれ、次のループの入出力における初期値として利用されるものにも適用可能である。

また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

入力データを取得する入力データ取得部と、
前記入力データが入力される、状態の関連付けが可能な所与の学習済のニューラルネットワークの出力である出力データを用いた処理を実行する処理実行部と、を含み、
前記入力データ取得部による前記入力データの取得、及び、前記処理実行部による処理の実行を含むループ処理は、繰り返し実行され、
前記入力データ及び前記出力データの少なくとも一方に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する状態制御部、をさらに含む、
ことを特徴とする状態制御装置。
前記状態制御部は、前記ニューラルネットワークに前記入力データを入力するか否かを制御する、
ことを特徴とする請求項１に記載の状態制御装置。
前記処理実行部は、前記ニューラルネットワークに前記入力データを入力するよう制御される場合は、当該入力データを前記ニューラルネットワークに入力した際の出力である前記出力データを用いた処理を実行し、
前記処理実行部は、前記ニューラルネットワークに前記入力データを入力しないよう制御される場合は、前記ニューラルネットワークの直近の出力である前記出力データを用いた処理を実行する、
ことを特徴とする請求項２に記載の状態制御装置。
前記状態制御部は、前記ニューラルネットワークへの前記入力データの入力に応じて更新された前記状態を、更新前の状態に戻すか否かを制御する、
ことを特徴とする請求項１に記載の状態制御装置。
前記ニューラルネットワークへの入力を示す学習入力データと、当該入力に応じた前記ニューラルネットワークの出力と当該入力の直前の入力に応じた前記ニューラルネットワークの出力との差を示す教師データと、を含む学習データを用いた学習が実行された学習済の機械学習モデルである入力判定モデルをさらに含み、
前記状態制御部は、前記入力データ取得部により取得される前記入力データを前記入力判定モデルに入力した際の出力に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する、
ことを特徴とする請求項１から４のいずれか一項に記載の状態制御装置。
前記状態制御部は、前記入力データの一部又は全部についての、当該入力データの直前に取得された前記入力データからの変化に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する、
ことを特徴とする請求項１から４のいずれか一項に記載の状態制御装置。
前記状態制御部は、前記入力データに含まれる要素間の相対的な関係についての、当該入力データの直前に取得された前記入力データからの変化に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する、
ことを特徴とする請求項１から４のいずれか一項に記載の状態制御装置。
前記状態制御部は、前記入力データの入力に応じた前記ニューラルネットワークの出力と当該入力データの次に取得される前記入力データとの比較結果に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する、
ことを特徴とする請求項１から４のいずれか一項に記載の状態制御装置。
前記ニューラルネットワークは、ロングショートタームメモリ（ＬＳＴＭ）モデルである、
ことを特徴とする請求項１から８のいずれか一項に記載の状態制御装置。
状態の関連付けが可能な所与の学習済のニューラルネットワークへの入力を示す学習入力データと、当該入力に応じた前記ニューラルネットワークの出力と当該入力の直前の入力に応じた前記ニューラルネットワークの出力との差を示す教師データと、を含む学習データを取得する学習データ取得部と、
前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かの制御に用いられる機械学習モデルである入力判定モデルに前記学習データに含まれる前記学習入力データを入力した際の出力、及び、当該学習データに含まれる前記教師データを用いて、当該入力判定モデルの学習を実行する学習部と、
を含むことを特徴とする学習装置。
入力データを取得するステップと、
前記入力データが入力される、状態の関連付けが可能な所与の学習済のニューラルネットワークの出力である出力データを用いた処理を実行するステップと、を含み、
前記入力データの取得、及び、前記処理の実行を含むループ処理は、繰り返し実行され、
前記入力データ及び前記出力データの少なくとも一方に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御するステップ、をさらに含む、
ことを特徴とする状態制御方法。
状態の関連付けが可能な所与の学習済のニューラルネットワークへの入力を示す学習入力データと、当該入力に応じた前記ニューラルネットワークの出力と当該入力の直前の入力に応じた前記ニューラルネットワークの出力との差を示す教師データと、を含む学習データを取得するステップと、
前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かの制御に用いられる機械学習モデルである入力判定モデルに前記学習データに含まれる前記学習入力データを入力した際の出力、及び、当該学習データに含まれる前記教師データを用いて、当該入力判定モデルの学習を実行するステップと、
を含むことを特徴とする学習方法。
入力データを取得する手順、
前記入力データが入力される、状態の関連付けが可能な所与の学習済のニューラルネットワークの出力である出力データを用いた処理を実行する手順、をコンピュータに実行させ、
前記入力データの取得、及び、前記処理の実行を含むループ処理は、繰り返し実行され、
前記入力データ及び前記出力データの少なくとも一方に基づいて、前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かを制御する手順、をさらに前記コンピュータに実行させる、
ことを特徴とするプログラム。
状態の関連付けが可能な所与の学習済のニューラルネットワークへの入力を示す学習入力データと、当該入力に応じた前記ニューラルネットワークの出力と当該入力の直前の入力に応じた前記ニューラルネットワークの出力との差を示す教師データと、を含む学習データを取得する手順、
前記ニューラルネットワークに関連付けられている前記状態の更新を制限するか否かの制御に用いられる機械学習モデルである入力判定モデルに前記学習データに含まれる前記学習入力データを入力した際の出力、及び、当該学習データに含まれる前記教師データを用いて、当該入力判定モデルの学習を実行する手順、
をコンピュータに実行させることを特徴とするプログラム。