JP2022013003A

JP2022013003A - 推論装置、学習装置、推論方法、プログラム、モデル生成方法及び再帰型ニューラルネットワーク

Info

Publication number: JP2022013003A
Application number: JP2020115240A
Authority: JP
Inventors: 貴史益子; Takashi Masuko
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2022-01-18

Abstract

【課題】計算量を効率よく削減し、ゲートを持つ種々のニューラルネットワークに対して容易に適用可能なモデルを提供すること。
【解決手段】実施形態に係る推論装置は、入力層と、出力層と、入力層と出力層との間に設けられ、再帰型ニューラルネットワークを構成し、入力層から第１のベクトルを入力し、出力層へ第２のベクトルを出力する中間層と、を備える。中間層は、第１のベクトルと再帰入力としての第２のベクトルとに基づいて、活性化された第３のベクトルを生成し、第１のベクトルと再帰入力としての第２のベクトルとに基づいて、複数の要素が共通化された少なくとも一つのゲートベクトルを生成し、少なくとも一つのゲートベクトルと第３のベクトルとに基づいて、出力層への出力としての第２のベクトルを生成する。
【選択図】図４

Description

本明細書等に開示の実施形態は、推論装置、学習装置、推論方法、プログラム、モデル生成方法及び再帰型ニューラルネットワークに関する。

再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）は、内部に再帰ループを持ち、情報を持続させることができるモデルである。このため、系列のパターンを考慮したパターン識別が可能であり、例えば、音声認識や画像認識、文字認識、自然言語処理、機械翻訳などの様々な分野でパターン識別装置として使用されている。

再帰型ニューラルネットワークは、再帰ループを持つ中間層において、入力に加えて再帰入力も出力の計算に用いる。このため、再帰型ではないニューラルネットワークと比べて、一般的に計算量が増加する。特に、ＬＳＴＭ（Long Short Term Memory）に代表されるゲートを有する再帰型ニューラルネットワークでは、ゲートにおいて入力層からの入力と再帰ループによる再帰入力とを用いてゲート出力を計算するため、計算量の増加が特に顕著である。

再帰型ニューラルネットワークにおける計算量の削減については、種々検討されている。しかしながら、特定の構造を持つ再帰型ニューラルネットワークにおいて計算量を効率よく削減するモデルであっても他の構造を持つニューラルネットワークへの適用は容易でない場合があり、改善が求められている。

Sak Hasim, Andrew Senior, and Francoise Beaufays. "Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition." arXiv preprint arXiv:1402.1128 (2014). Masuko, "Computational cost reduction of long short-term memory based on simultaneous compression of input and hidden state." 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2017.

本明細書等に開示の実施形態が解決しようとする課題の一つは、計算量を効率よく削減し、ゲートを持つ種々のニューラルネットワークに対して容易に適用可能なモデルを提供することである。

実施形態に係る推論装置は、入力層と、出力層と、前記入力層と前記出力層との間に設けられ、再帰型ニューラルネットワークを構成し、前記入力層から第１のベクトルを入力し、前記出力層へ第２のベクトルを出力する中間層と、を備える。前記中間層は、前記第１のベクトルと再帰入力としての前記第２のベクトルとに基づいて、活性化された第３のベクトルを生成し、前記第１のベクトルと再帰入力としての前記第２のベクトルとに基づいて、複数の要素が共通化された少なくとも一つのゲートベクトルを生成し、前記少なくとも一つのゲートベクトルと前記第３のベクトルとに基づいて、前記出力層への出力としての前記第２のベクトルを生成する。

本実施形態に係る推論装置によれば、計算量を効率よく削減し、ゲートを持つ種々のニューラルネットワークに対して容易に適用可能なモデルを提供することができる。

図１は、本実施形態に係る推論装置の構成を示した図である。図２は、中間層に用いられるＬＳＴＭの構成を示したブロック図である。図３は、比較例に係るＬＳＴＭにおいて、ゲートの値を共有しないゲートベクトルと、アクティベーションベクトルとの演算を模式的に示した図である。図４は、本実施形態に係る推論装置が有するＬＳＴＭにおいて、ゲートの値を２つ毎に共有したゲートベクトルと、アクティベーションベクトルとの演算を模式的に示した図である。図５は、本実施形態に係る学習装置を説明するための図である。図６は、本実施形態に係る推論装置、又は学習装置のハードウェア構成の一例を示すブロック図である。

以下に添付図面を参照して、実施形態に係る推論装置、学習装置、推論方法、プログラム、モデル生成方法及び再帰型ニューラルネットワークを詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、以下の説明において、各図面で共通する部分には同一の符号を付して、詳細な説明を省略する。

図１は、実施形態に係る推論装置１の構成を示した図である。推論装置１は、例えば音声認識、画像認識、文字認識、自然言語処理、機械翻訳等のパターン識別処理を実行する装置である。図１に示した様に、推論装置は、入力層１０、中間層１１、出力層１２を含む。

入力層１０は、音声データ、画像データ、テキストデータ等の時系列データとしてのベクトル系列を受け付け、系列のステップ毎に、入力ベクトルとして中間層へ順次出力する。

出力層１２は、入力層１０に入力されたベクトル系列に対応するパターン系列を出力する。

中間層１１は、入力層１０と出力層１２との間に設けられ、再帰型ニューラルネットワークを構成するＲＮＮ（Recurrent Neural Network）層を１層以上有する。ＲＮＮ層は、入力のステップ毎に、当該ステップの下位層からの入力に加え、前ステップの当該ＲＮＮ層の出力からなる再帰入力を用いて当該ステップの出力を計算する。従って、ＲＮＮ層を中間層とする再帰型ニューラルネットワークを用いたパターン識別装置は、系列のパターンを考慮したパターン識別が可能である。

また、中間層１１は、入力層１０から入力される第１のベクトルと再帰入力としての第２のベクトルとを用いて、活性化された第３のベクトルを生成する。中間層１１は、第１のベクトルと再帰入力としての第２のベクトルとを用いて、複数の要素が共通化された少なくとも一つのゲートベクトルを生成する。中間層１１は、少なくとも一つのゲートベクトルと第３のベクトルとに基づいて、出力層１２への出力としての第２のベクトルを生成する。

本実施形態においては、説明を具体的にするため、中間層１１が有するＲＮＮ層は、ＬＳＴＭ（Long Short Term Memory）であるとする。ここで、ＬＳＴＭは、例えば、入力を制御する入力ゲート、記憶を制御する忘却ゲート、および出力を制御する出力ゲートを備えたＬＳＴＭブロックと呼ばれるメモリセルを有する。ＲＮＮ層にＬＳＴＭを用いた推論装置１は、入力ゲート、忘却ゲート、および出力ゲートを用いて入力、記憶、および出力を制御することで、長期の記憶の保持が可能である。

図２は、中間層１１に用いられるＬＳＴＭの構成を示したブロック図である。

なお、図２において、各矢印はベクトル全体を一つのノードの出力から他のノードの入力へ運ぶことを意味する。実線矢印は下層からの入力ベクトルｘ_ｔに関わる伝播に対応し、破線矢印は再帰入力に関わる隠れ状態ベクトルｈ_ｔ－１の伝播に対応する。σで示された四角形、ｔａｎｈで示された四角形は、入力したベクトルの各要素のシグモイド関数を演算する演算層、入力したベクトルの各要素のｔａｎｈ関数を演算する演算層をそれぞれ意味する。また、中心に＋が示された円形、中心に一点が示された円形は、入力したベクトル間の要素ごとの加算を実行する演算層、入力したベクトル間の要素ごとの積（アダマール積）を実行する演算層をそれぞれ意味する。なお、入力ベクトルｘ_ｔ、隠れ状態ベクトルｈ_ｔは、それぞれ第１のベクトル、第２のベクトルの一例である。以下では簡単のためバイアスベクトルを省略して説明する。

まず、ＬＳＴＭ１１の出力ゲートについて説明する。ＬＳＴＭ１１に下層からの入力ベクトルｘ_ｔが入力されると、入力ベクトルｘ_ｔに出力ゲートのための線形変換行列Ｗ_ｏｘが積算されたベクトルＷ_ｏｘｘ_ｔが演算層１４０に入力される。また、演算層１４０には、ＬＳＴＭ１１の前回の出力ベクトルである（再帰入力としての）隠れ状態ベクトルｈ_ｔ－１に出力ゲートのための線形変換行列Ｗ_ｏｈが積算されたベクトルＷ_ｏｈｈ_ｔ－１が入力される。

演算層１４０は、ベクトルＷ_ｏｘｘ_ｔとベクトルＷ_ｏｈｈ_ｔ－１とを加算し、ベクトルＷ_ｏｘｘ_ｔ＋Ｗ_ｏｈｈ_ｔ－１を演算層１４２へ出力する。演算層１４２は、ベクトルＷ_ｏｘｘ_ｔ＋Ｗ_ｏｈｈ_ｔ－１の各要素のシグモイド関数を演算し、出力ゲートベクトルｏ_ｔを出力する。

次に、ＬＳＴＭ１１の入力ゲートについて説明する。ＬＳＴＭ１１に下層からの入力ベクトルｘ_ｔが入力されると、入力ベクトルｘ_ｔに入力ゲートのための線形変換行列Ｗ_ｉｘが積算されたベクトルＷ_ｉｘｘ_ｔが演算層１２０に入力される。また、演算層１２０には、ＬＳＴＭ１１の前回の出力ベクトルである（再帰入力としての）隠れ状態ベクトルｈ_ｔ－１に入力ゲートのための線形変換行列Ｗ_ｉｈが積算されたベクトルＷ_ｉｈｈ_ｔ－１が入力される。

演算層１２０は、ベクトルＷ_ｉｘｘ_ｔとベクトルＷ_ｉｈｈ_ｔ－１とを加算し、ベクトルＷ_ｉｘｘ_ｔ＋Ｗ_ｉｈｈ_ｔ－１を演算層１２２へ出力する。演算層１２２は、ベクトルＷ_ｉｘｘ_ｔ＋Ｗ_ｉｈｈ_ｔ－１の各要素のシグモイド関数を演算し、入力ゲートベクトルｉ_ｔを出力する。

次に、ＬＳＴＭ１１の忘却ゲートについて説明する。ＬＳＴＭ１１に下層からの入力ベクトルｘ_ｔが入力されると、入力ベクトルｘ_ｔに忘却ゲートのための線形変換行列Ｗ_ｆｘが積算されたベクトルＷ_fｘｘ_ｔが演算層１３０に入力される。また、演算層１３０には、ＬＳＴＭ１１の前回の出力ベクトルである（再帰入力としての）隠れ状態ベクトルｈ_ｔ－１に入力ゲートのための線形変換行列Ｗ_ｆｈが積算されたベクトルＷ_ｆｈｈ_ｔ－１が入力される。

演算層１３０は、ベクトルＷ_ｆｘｘ_ｔとベクトルＷ_ｆｈｈ_ｔ－１とを加算し、ベクトルＷ_ｆｘｘ_ｔ＋Ｗ_ｆｈｈ_ｔ－１を演算層１３２へ出力する。演算層１３２は、ベクトルＷ_ｆｘｘ_ｔ＋Ｗ_ｆｈｈ_ｔ－１の各要素のシグモイド関数を演算し、忘却ゲートベクトルｆ_ｔを出力する。

次に、ＬＳＴＭ１１のメモリーセル（以下、単に「セル」と呼ぶ）を用いて、入力ベクトルｘ_ｔの入力から隠れ状態ベクトルｈ_ｔの出力までの動作について説明する。

ＬＳＴＭ１１に下層からの入力ベクトルｘ_ｔが入力されると、入力ベクトルｘ_ｔに線形変換行列Ｗ_ａｘが積算されたベクトルＷ_ａｘｘ_ｔが演算層１１０に入力される。また、演算層１１０には、ＬＳＴＭ１１の前回の出力ベクトルである（再帰入力としての）隠れ状態ベクトルｈ_ｔ－１に線形変換行列Ｗ_ａｈが積算されたベクトルＷ_ａｈｈ_ｔ－１が入力される。

演算層１１０は、ベクトルＷ_ａｘｘ_ｔとベクトルＷ_ａｈｈ_ｔ－１とを加算して得られたベクトルを演算層１１２へ出力する。演算層１１２は、演算層１１０からのベクトルの各要素のｔａｎｈ関数を演算して入力アクティベーションベクトルａ_ｔを生成し、演算層１１４へ出力する。なお、入力アクティベーションベクトルａ_ｔは、第３のベクトルの一例である。

演算層１１４には、演算層１１２からの入力アクティベーションベクトルａ_ｔと入力ゲートベクトルｉ_ｔとが入力される。演算層１１４は、演算層１１２からの入力アクティベーションベクトルａ_ｔと入力ゲートベクトルｉ_ｔとの要素ごとの積を実行し、得られたベクトルを演算層１１６へ出力する。なお、演算層１１４から演算層１１６へ出力されるベクトルは、第３のベクトルの一例である。

演算層１１６には、演算層１１４からのベクトルと演算層１３３からのベクトルとを加算し、セルアクティベーションベクトルｃ_ｔを演算層１１８へ出力する。ここで、演算層１３３からのベクトルは、忘却ゲートベクトルｆ_ｔと前回の（再帰入力としての）セルアクティベーションベクトルｃ_ｔ－１との要素ごとの積を実行して得られるベクトルである。なお、セルアクティベーションベクトルｃ_ｔは、第３のベクトルの一例である。

演算層１１８は、セルアクティベーションベクトルｃ_ｔの各要素のｔａｎｈ関数を演算して得られたベクトルを演算層１１９へ出力する。なお、演算層１１８から演算層１１９へ出力されるベクトルは、第３のベクトルの一例である。

演算層１１９には、演算層１１８からのベクトルと出力ゲートベクトルｏ_ｔとが入力される。演算層１１９は、演算層１１８からのベクトルと出力ゲートベクトルｏ_ｔとの要素ごとの積を実行し、得られたベクトルを隠れ状態ベクトルｈ_ｔとして上層へ出力する。

上述したＬＳＴＭ１１における入力ゲートベクトルｉ_ｔ、忘却ゲートベクトルｆ_ｔ、出力ゲートベクトルｏ_ｔ、入力アクティベーションベクトルａ_ｔ、セルアクティベーションベクトルｃ_ｔ、隠れ状態ベクトルｈ_ｔは、それぞれ以下のように定式化することができる。

ここで、中心に一点が示された円形は、入力したベクトル間の要素ごとの積を実行する演算層を意味する。また、簡単のため，バイアスベクトルは省略している。

一般的なＬＳＴＭにおいて、入力ベクトルｘ_ｔがＮ次元、隠れ状態ベクトルｈ_ｔがＭ次元である場合を想定する。係る場合、入力ゲートベクトルｉ_ｔ、忘却ゲートベクトルｆ_ｔ、出力ゲートベクトルｏ_ｔ、入力アクティベーションベクトルａ_ｔ、セルアクティベーションベクトルｃ_ｔはＭ次元となる。

また、式（１）を用いた入力ゲートベクトルｉ_ｔの計算では、線形変換行列Ｗ_ｉｘ、Ｗ_ｉｈを用いた行列演算における積の数（すなわち、線形変換行列Ｗ_ｉｘ、Ｗ_ｉｈの要素数の和）は、ＮＭ＋ＭＭ個となる。

同様に、式（２）を用いた忘却ゲートベクトルｆ_ｔの計算では、線形変換行列Ｗ_ｆｘ、Ｗ_ｆｈを用いた行列演算における積の数（すなわち、線形変換行列Ｗ_ｆｘ、Ｗ_ｆｈの要素数の和）は、ＮＭ＋ＭＭ個となる。

同様に、式（３）を用いた出力ゲートベクトルｏ_ｔの計算では、線形変換行列Ｗ_ｏｘ、Ｗ_ｏｈを用いた行列演算における積の数（すなわち、線形変換行列Ｗ_ｏｘ、Ｗ_ｏｈの要素数の和）は、ＮＭ＋ＭＭ個となる。

同様に、式（４）を用いた入力アクティベーションベクトルａ_ｔの計算では、線形変換行列Ｗ_ａｘ、Ｗ_ａｈを用いた行列演算における積の数（すなわち、線形変換行列Ｗ_ａｘ、Ｗ_ａｈの要素数の和）は、ＮＭ＋ＭＭ個となる。

ここで、ＬＳＴＭにおける行列演算の積の数をＬＳＴＭの計算指標と定義する。この計算指標は、ＬＳＴＭを用いた推論装置の演算負荷を示すパラメータと捉えることができる。上述の内容から、一般的な推論装置が有するＬＳＴＭの計算指標は４（Ｎ＋Ｍ）Ｍとなる。

本実施形態に係る推論装置１は、ＬＳＴＭの計算指標を低くするために、次のような構成を用いる。なお、以下においては、説明を具体的にするため及び一般的なＬＳＴＭと比較容易にするため、入力ベクトルｘ_ｔはＮ次元ベクトルであり、隠れ状態ベクトルｈ_ｔはＭ次元ベクトルである場合を想定する。

本実施形態に係る推論装置１では、例えば、Ｌ（Ｌは２以上の自然数）個のノード（すなわち、入力アクティベーションベクトルまたは／およびセルアクティベーションベクトルの要素）ごとにゲートの値を共有する。このゲートの値の共有は、入力ゲート、出力ゲート、忘却ゲートのうち、少なくとも一つにおいて適用することができる。以下においては説明を具体的にするため、入力ゲート、出力ゲート、忘却ゲートの全てにおいて、Ｌ個のノードごとにゲートの値を共有する場合を例とする。

すなわち、通常のゲートの値を共有しない場合、式（５）、（６）をベクトルの要素ごとに記述すると、それぞれ以下の式（７）、（８）の様に表記することができる。

ここで、上付きの添字ｍはベクトルの要素番号を意味する。

一方、本実施形態に係る推論装置１において、Ｌ個のノードごとにゲートの値を共有する場合、式（５）、（６）をベクトルの要素ごとに記述すると、一般性を失わずに、それぞれ以下の式（９）、（１０）の様に表記することができる。

すなわち、本実施形態に係る推論装置１においては、Ｌ個のノードごとにゲートの値を共有することで、入力ゲートベクトルｉ_ｔ、忘却ゲートベクトルｆ_ｔ、出力ゲートベクトルｏ_ｔの次元数をＭ／Ｌとすることができる。

また、本実施形態に係る推論装置１においては、式（１）を用いた入力ゲートベクトルｉ_ｔの計算では、線形変換行列Ｗ_ｉｘ、Ｗ_ｉｈを用いた行列演算における積の数（すなわち、線形変換行列Ｗ_ｉｘ、Ｗ_ｉｈの要素数の和）は、ＮＭ／Ｌ＋ＭＭ／Ｌ個となる。

同様に、本実施形態に係る推論装置１においては、式（２）を用いた忘却ゲートベクトルｆ_ｔの計算では、線形変換行列Ｗ_ｆｘ、Ｗ_ｆｈを用いた行列演算における積の数（すなわち、線形変換行列Ｗ_ｆｘ、Ｗ_ｆｈの要素数の和）は、ＮＭ／Ｌ＋ＭＭ／Ｌ個となる。

同様に、本実施形態に係る推論装置１においては、式（３）を用いた出力ゲートベクトルｏ_ｔの計算では、線形変換行列Ｗ_ｏｘ、Ｗ_ｏｈを用いた行列演算における積の数（すなわち、線形変換行列Ｗ_ｏｘ、Ｗ_ｏｈの要素数の和）は、ＮＭ／Ｌ＋ＭＭ／Ｌ個となる。

一方、本実施形態に係る推論装置１においても、Ｌ個のノードごとのゲートの値の共有に関係しない、式（４）を用いた入力アクティベーションベクトルａ_ｔの計算では、線形変換行列Ｗ_ａｘ、Ｗ_ａｈを用いた行列演算における積の数は、ＮＭ＋ＭＭ個のままとなる。

すなわち、本実施形態に係る推論装置１におけるＬＳＴＭの計算指標は、（１＋３／Ｌ）（Ｎ＋Ｍ）Ｍとなる。従って、一般的なＬＳＴＭの計算指標は４（Ｎ＋Ｍ）Ｍと比較して、ＬＳＴＭの計算指標を削減することができ、計算における負荷を軽減することができる。これは、本実施形態に係る推論装置１では、複数のノードでゲートの値を共有してゲートそのものの次元（ゲートの出力の次元）を削減しているからである。

なお、ゲートの値を共有化するノードの数Ｌは、計算指標を削減するパラメータとして寄与する。本実施形態においては、ゲートの値を共有化するノードの数Ｌを削減率とも呼ぶ。

（比較例）
入力ベクトルｘ_ｔが４次元（Ｎ＝４）、隠れ状態ベクトルｈ_ｔが４次元（Ｍ＝４）である場合を想定する。

係る場合、ＬＳＴＭにおいては、入力ゲートベクトルｉ_ｔ、忘却ゲートベクトルｆ_ｔ、出力ゲートベクトルｏ_ｔ、入力アクティベーションベクトルａ_ｔ、セルアクティベーションベクトルｃ_ｔは４次元となる。

すなわち、ＬＳＴＭにおいて、式（７）を次元ごとに書くと、次の式（１１）、（１２）、（１３）、（１４）の様になる。同様に、ＬＳＴＭにおいて、式（８）を次元ごとに書くと、次の式（１５）、（１６）、（１７）、（１８）の様になる。

図３は、比較例に係るＬＳＴＭにおいて、ゲートの値を共有しないゲートベクトル２７０と、アクティベーションベクトル２５０との演算を模式的に示した図である。なお、図３において、中心に×が示された円形は要素同士の積を意味する。図４においても同様である。

図３に示した様に、ゲートベクトル２７０は、ゲートの値を共有していないため、四次元ベクトルの要素として、独立した四つのゲートの値２７０ａ、２７０ｂ、２７０ｃ、２７０ｄを有している。アクティベーションベクトル２５０は、独立した要素２５０ａ、２５０ｂ、２５０ｃ、２５０ｄを有している。

各ゲートの値２７０ａ、２７０ｂ、２７０ｃ、２７０ｄは、演算層２８０、２８１、２８２、２８３において、それぞれ対応するアクティベーションベクトルの要素２５０ａ、２５０ｂ、２５０ｃ、２５０ｄと積算される。その結果、各ゲートの値が積算された要素２６０ａ、２６０ｂ、２６０ｃ、２６０ｄを含むアクティベーションベクトル２６０が出力される。

図３において、例えばゲートベクトル２７０が忘却ゲートベクトルｆ_ｔとすれば、四つのゲートの値２７０ａ、２７０ｂ、２７０ｃ、２７０ｄの計算に用いる線形変換行列Ｗ_ｆｘ、Ｗ_ｆｈのサイズは４行４列となる。同様に、ゲートベクトル２７０が入力ゲートベクトルｉ_ｔであるとすれば、入力ゲートベクトルｉ_ｔの計算に用いる線形変換行列Ｗ_ｉｘ、Ｗ_ｉｈのサイズは４行４列となる。ゲートベクトル２７０が出力ゲートベクトルｏ_ｔであるとすれば、出力ゲートベクトルｏ_ｔの計算に用いる線形変換行列Ｗ_ｏｘ、Ｗ_ｏｈのサイズは４行４列となる。

従って、比較例に係るＬＳＴＭの計算指標は４×（４＋４）×４＝１２８である。

一方、本実施形態に係る推論装置１において、２個（削減率Ｌ＝２）のノードごとのゲートの値を共有するＬＳＴＭを想定する。係る場合、入力ゲートベクトルｉ_ｔ、忘却ゲートベクトルｆ_ｔ、出力ゲートベクトルｏ_ｔは、二つのノードで値が共有されるため２（＝４／２）次元となる。一方、入力アクティベーションベクトルａ_ｔ、セルアクティベーションベクトルｃ_ｔは４次元のままである。

すなわち、本実施形態に係る推論装置が有するＬＳＴＭにおいて、式（９）を次元ごとに書くと、次の式（１９）、（２０）、（２１）、（２２）の様になる。同様に、比較例に係るＬＳＴＭにおいて、式（１０）を次元ごとに書くと、次の式（２３）、（２４）、（２５）、（２６）の様になる。

図４は、本実施形態に係る推論装置１が有するＬＳＴＭにおいて、ゲートの値を２つ毎に共有したゲートベクトル１７０と、アクティベーションベクトル１５０との演算を模式的に示した図である。

図４に示した様に、ゲートベクトル１７０は、ゲートの値を二つごとに共有している。このため、ゲートベクトル１７０は、４次元ベクトルから２次元ベクトルになり、その要素として二つのゲートの値１７０ａ、１７０ｂを有している。アクティベーションベクトル１５０は、要素１５０ａ、１５０ｂ、１５０ｃ、１５０ｄを有している。

ゲートの値１７０ａは、演算層１８０、１８１において、対応するアクティベーションベクトルの要素１５０ａ、１５０ｂと積算される。また、ゲートの値１７０ｂは、演算層１８２、１８３において、対応するアクティベーションベクトルの要素１５０ｃ、１５０ｄと積算される。その結果、各ゲートの値が積算された要素１６０ａ、１６０ｂ、１６０ｃ、１６０ｄを含むアクティベーションベクトル１６０が出力される。

図４において、例えばゲートベクトル１７０を忘却ゲートベクトルｆ_ｔとすれば、忘却ゲートベクトルｆ_ｔの計算に用いる線形変換行列Ｗ_ｆｘ、Ｗ_ｆｈのサイズは、二つのゲートの値１７０ａ、１７０ｂを計算すればよいため、２行４列とすることができる。同様に、ゲートベクトル２７０を入力ゲートベクトルｉ_ｔとすれば、入力ゲートベクトルｉ_ｔの計算に用いる線形変換行列Ｗ_ｉｘ、Ｗ_ｉｈのサイズを２行４列とすることができる。ゲートベクトル２７０を出力ゲートベクトルｏ_ｔとすれば、出力ゲートベクトルｏ_ｔの計算に用いる線形変換行列Ｗ_ｏｘ、Ｗ_ｏｈのサイズを２行４列とすることができる。

従って、本実施形態に係る推論装置１が有するＬＳＴＭの計算指標は、削減率Ｌ＝２に従って、（１＋３／２）（４＋４）×４＝８０となる。その結果、本実施形態に係る推論装置１によれば、ＬＳＴＭの計算指標を削減することができ、計算における負荷を軽減することができる。

次に、推論装置１を学習（訓練）により生成する学習装置２について説明する。

図５は、実施形態に係る学習装置２の構成の一例を示すブロック図である。学習装置２は、学習により推論装置１を生成するために用いられるモデル（以下、「学習用モデル」と呼ぶ。）を用いて学習を行う。従って、学習用モデルは、推論装置１と同様の構成を有する。学習用モデルの中間層１１のネットワークパラメータは、本実施形態の学習装置２において、訓練データを用いた訓練（学習）により最適化することができる。

図５に示すように、学習装置２は、初期化部２１、勾配計算部２２、パラメータ更新部２３を備える。

初期化部２１は、学習用モデルが有するＲＮＮのネットワークパラメータを初期化する。勾配計算部２２は、学習用モデルの現在のパラメータで損失関数の勾配を計算する。パラメータ更新部２３は、勾配計算部２２が計算した損失関数の勾配に基づいて、現在の学習用モデルのネットワークパラメータを更新する。

すなわち、勾配計算部２２は、削減率Ｌを用いて、Ｌ個のノードごとにゲートの値が共有化された学習用モデルの損失関数の勾配を、例えば誤差逆伝播法を用いて計算する。このため、学習時においても、ゲートの数やゲートの行列演算に用いるベクトルの次元（ゲートの入力の次元）ではなく，複数のノードでゲートの値を共有してゲートそのものの次元（ゲートの出力の次元）を削減することで計算量を削減することができる。

以上述べた様に、本実施形態に係る推論装置１は、入力層１０と、出力層１２と、入力層１０と出力層１２との間に設けられ、ＬＳＴＭを構成し、入力層１０から第１のベクトルとしての入力ベクトルｘ_ｔを入力し、出力層１２へ第２のベクトルとしての隠れ状態ベクトルｈ_ｔを出力する中間層１１と、を備える。中間層１１は、入力ベクトルｘ_ｔと再帰入力としての隠れ状態ベクトルｈ_ｔ－１とを用いて、入力アクティベーションベクトルａ_ｔ、セルアクティベーションベクトルｃ_ｔ等の活性化された第３のベクトルを生成する。中間層１１は、入力ベクトルｘ_ｔと再帰入力としての隠れ状態ベクトルｈ_ｔ－１とを用いて、複数の要素が共通化された少なくとも一つのゲートベクトルｉ_ｔ、ｆ_ｔ、ｏ_ｔを生成する。中間層１１は、少なくとも一つのゲートベクトルｉ_ｔ、ｆ_ｔ、ｏ_ｔと第３のベクトルとに基づいて、出力層１２への出力としての隠れ状態ベクトルｈ_ｔを生成する。

従って、ゲートの数やゲートの行列演算に用いるベクトルの次元ではなく，複数のノードでゲートの値を共有してゲートそのものの次元（ゲートの出力の次元）を削減することで計算量を削減することができる。従って、例えばＬＳＴＭの出力や入力の次元を線形変換によって削減する手法とは異なり、計算量を効率よく削減しつつ、ゲートを持つ種々のニューラルネットワークに対して容易に適用可能なモデルを実現することができる。

また、本実施形態に係る推論装置１を、例えば音声認識装置に提要した場合、計算量を削減することができるため、パーソナルロボット等の電力消費を削減して稼働時間を伸ばすことができる。また、低スペックのプロセッサを選択可能にして製品コストを削減することができる。

（変形例１）
上述した実施形態においては、ＬＳＴＭが有する入力ゲート、出力ゲート、忘却ゲートの全てのゲートについて、削減率Ｌを用いて、複数の要素を共通化することで計算指標を低くする場合を例示した。これに対し、必ずしも全てのゲートに適用する必要はなく、例えば一つ又は二つのゲートについて、選択的に複数の要素を共通化することで計算指標を低くするようにしてもよい。

また、上述した実施形態においては、ＬＳＴＭが有する入力ゲート、出力ゲート、忘却ゲートの全てのゲートについて、同じ削減率Ｌを用いて、Ｌ個のノードごとにゲートの値を共有化した。これに対し、入力ゲート、出力ゲート、忘却ゲート間において、異なる削減率Ｌを用いてゲートの値を共有化するようにしてもよい。

さらに、ＬＳＴＭの様々な変種、例えば入力ゲートと忘却ゲートを統合したＣＩＦＧ（Coupled Input and Forget Gate）等に対しても、本実施形態に係る推論装置１の構成を適用することができる。

（変形例２）
上記実施形態においては、ＬＳＴＭ１１を有する推論装置１を例として説明した。これに対し、ゲート構造を有する他の推論装置、例えばＧＲＵ（Gated Recurrent Unit）を有する推論装置にも適用することができる。

一般的なＧＲＵにおける入力ゲートベクトルｉ_ｔ、更新ゲートベクトルｚ_ｔ、初期化ゲートベクトルｒ_ｔ、隠れ状態ベクトルｈ_ｔは、それぞれ以下の式（２７）、（２８）、（２９）、（３０）のように定式化することができる。

ここで、Ｗ_ｚ、Ｕ_ｚ、Ｗ_ｒ、Ｕ_ｒ、Ｗ、Ｕはそれぞれ線形変換行列である、また、簡単のため，バイアスベクトルは省略している。

例えば、入力ベクトルｘ_ｔがＮ次元、隠れ状態ベクトルｈ_ｔがＭ次元である場合を想定する。係る場合、更新ゲートベクトルｚ_ｔ、初期化ゲートベクトルｒ_ｔはＭ次元となる。

また、式（２７）を用いた更新ゲートベクトルｚ_ｔの計算、式（２８）を用いた初期化ゲートベクトルｒ_ｔの計算、式（２９）を用いたベクトルの計算では、線形変換行列Ｗ_ｚ、Ｕ_ｚ、Ｗ_ｒ、Ｕ_ｒ、Ｗ、Ｕを用いた行列演算における積の数（すなわち、線形変換行列Ｗ_ｉｘ、Ｗ_ｉｈの要素数の和）は、それぞれＮＭ＋ＭＭ個となる。従って、一般的なＧＲＵにおける計算指標は３（Ｎ＋Ｍ）Ｍとなる。

通常のゲートの値を共有しないＧＲＵの場合、式（２９）のｒ_ｔとｈ_ｔ－１との要素ごとの積の項、（３０）をベクトルの要素ごとに記述すると、それぞれ以下の式（３１）、（３２）の様に表記することができる。

一方、上述した本実施形態に係る推論装置１の構成と同様に、Ｌ個のノードごとのゲートの値を共有するＧＲＵを想定する。係る場合、式（３１）、（３２）は、それぞれ式（３３）、（３４）の様になる。

初期化ゲートベクトルｒ_ｔの計算に用いる線形変換行列Ｗ_ｒ、Ｕ_ｒのサイズは、Ｌ個のゲートの値を計算すればよいため、Ｎ／Ｌ行Ｍ列とすることができる。同様に、ゲートベクトルｚ_ｔ ^ｎの計算に用いる線形変換行列Ｗ_ｚ、Ｕ_ｚのサイズをＮ／Ｌ行Ｍ列とすることができる。

従って、本実施形態に係る推論装置１の構成が適用されたＧＲＵの計算指標は（１＋２／Ｌ）（Ｎ＋Ｍ）Ｍである。その結果、本実施形態に係る推論装置１によれば、一般的ＧＲＵに比して、計算指標を削減することができ、計算における負荷を軽減することができる。

（変形例４）
上述した実施形態においては、ＬＳＴＭが有するゲートについて、削減率Ｌを用いて、複数の要素を共通化することで計算指標を低くする構成について説明した。当該構成に加えて、ゲートの数を少なくしたり、ゲートの行列演算に用いるベクトルの次元を低くする構成も組み合わせることもできる。これにより、さらに計算指標を削減することができ、計算における負荷を軽減することができる。

（変形例５）
上記実施形態は、推論装置１はパターン識別処理を実行する装置である場合を例として説明した。これに対し、パターン認識処理に限らず、全般的な推論処理（推定処理）を実行する推論装置において、ゲートについて削減率Ｌを用いて、複数の要素を共通化することで計算指標を低くするようにしてもよい。

（補足説明）
前述した実施形態における推論装置１、又は学習装置２の一部又は全部は、ハードウェアで構成されていてもよいし、ＣＰＵ（Central Processing Unit）、又はＧＰＵ（Graphics Processing Unit）等が実行するソフトウェア（プログラム）の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、フレキシブルディスク、ＣＤ－ＲＯＭ（Compact Disc-Read Only Memory）、又はＵＳＢ（Universal Serial Bus）メモリ等の非一時的な記憶媒体（非一時的なコンピュータ可読媒体）に収納し、コンピュータに読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワークを介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアがＡＳＩＣ（Application Specific Integrated Circuit）、又はＦＰＧＡ（Field Programmable Gate Array）等の回路に実装されることにより、情報処理がハードウェアにより実行されてもよい。

ソフトウェアを収納する記憶媒体の種類は限定されるものではない。記憶媒体は、磁気ディスク、又は光ディスク等の着脱可能なものに限定されず、ハードディスク、又はメモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし、コンピュータ外部に備えられてもよい。

図６は、前述した実施形態における推論装置１、又は学習装置２のハードウェア構成の一例を示すブロック図である。各装置は、一例として、プロセッサ７１と、主記憶装置７２（メモリ）と、補助記憶装置７３（メモリ）と、ネットワークインタフェース７４と、デバイスインタフェース７５と、を備え、これらがバス７６を介して接続されたコンピュータ７として実現されてもよい。

図６のコンピュータ７は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図６では、１台のコンピュータ７が示されているが、ソフトウェアが複数台のコンピュータにインストールされて、当該複数台のコンピュータそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンピュータそれぞれがネットワークインタフェース７４等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、前述した実施形態における推論装置１、又は学習装置２は、１又は複数の記憶装置に記憶された命令を１台又は複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、端末から送信された情報をクラウド上に設けられた１台又は複数台のコンピュータで処理し、この処理結果を端末に送信するような構成であってもよい。

前述した実施形態における推論装置１、又は学習装置２の各種演算は、１又は複数のプロセッサを用いて、又は、ネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンピュータ７と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実行されてもよい。このように、前述した実施形態における各装置は、１台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。

プロセッサ７１は、コンピュータの制御装置及び演算装置を含む電子回路（処理回路、Processing circuit、Processing circuitry、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、又はＡＳＩＣ等）であってもよい。また、プロセッサ７１は、専用の処理回路を含む半導体装置等であってもよい。プロセッサ７１は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ７１は、量子コンピューティングに基づく演算機能を含むものであってもよい。

プロセッサ７１は、コンピュータ７の内部構成の各装置等から入力されたデータやソフトウェア（プログラム）に基づいて演算処理を行い、演算結果や制御信号を各装置等に出力することができる。プロセッサ７１は、コンピュータ７のＯＳ（Operating System）や、アプリケーション等を実行することにより、コンピュータ７を構成する各構成要素を制御してもよい。

前述した実施形態における推論装置１及、又は学習装置２は、１又は複数のプロセッサ７１により実現されてもよい。ここで、プロセッサ７１は、１チップ上に配置された１又は複数の電子回路を指してもよいし、２つ以上のチップあるいは２つ以上のデバイス上に配置された１又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。

主記憶装置７２は、プロセッサ７１が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置７２に記憶された情報がプロセッサ７１により読み出される。補助記憶装置７３は、主記憶装置７２以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。前述した実施形態における推論装置１、又は学習装置２において各種データを保存するための記憶装置は、主記憶装置７２又は補助記憶装置７３により実現されてもよく、プロセッサ７１に内蔵される内蔵メモリにより実現されてもよい。例えば、前述した実施形態における記憶部１０２は、主記憶装置７２又は補助記憶装置７３により実現されてもよい。

記憶装置（メモリ）１つに対して、複数のプロセッサが接続（結合）されてもよいし、単数のプロセッサが接続されてもよい。プロセッサ１つに対して、複数の記憶装置（メモリ）が接続（結合）されてもよい。前述した実施形態における推論装置１、又は学習装置２が、少なくとも１つの記憶装置（メモリ）とこの少なくとも１つの記憶装置（メモリ）に接続（結合）される複数のプロセッサで構成される場合、複数のプロセッサのうち少なくとも１つのプロセッサが、少なくとも１つの記憶装置（メモリ）に接続（結合）される構成を含んでもよい。また、複数台のコンピュータに含まれる記憶装置（メモリ））とプロセッサによって、この構成が実現されてもよい。さらに、記憶装置（メモリ）がプロセッサと一体になっている構成（例えば、Ｌ１キャッシュ、Ｌ２キャッシュを含むキャッシュメモリ）を含んでもよい。

ネットワークインタフェース７４は、無線又は有線により、通信ネットワーク８に接続するためのインタフェースである。ネットワークインタフェース７４は、既存の通信規格に適合したもの等、適切なインタフェースを用いればよい。ネットワークインタフェース７４により、通信ネットワーク８を介して接続された外部装置９Ａと情報のやり取りが行われてもよい。なお、通信ネットワーク８は、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、ＰＡＮ（Personal Area Network）等の何れか、又は、それらの組み合わせであってよく、コンピュータ７と外部装置９Ａとの間で情報のやり取りが行われるものであればよい。ＷＡＮの一例としてインターネット等があり、ＬＡＮの一例としてＩＥＥＥ８０２．１１やイーサネット等があり、ＰＡＮの一例としてＢｌｕｅｔｏｏｔｈ（登録商標）やＮＦＣ（Near Field Communication）等がある。

デバイスインタフェース７５は、外部装置９Ｂと直接接続するＵＳＢ等のインタフェースである。

外部装置９Ａはコンピュータ７とネットワーク８を介して接続されている装置である。外部装置９Ｂはコンピュータ７と直接接続されている装置である。

外部装置９Ａ又は外部装置９Ｂは、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ、キーボード、マウス、又はタッチパネル等のデバイスであり、取得した情報をコンピュータ７に与える。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の入力部とメモリとプロセッサを備えるデバイスであってもよい。

また、外部装置９Ａ又は外部装置９Ｂは、一例として、出力装置でもよい。出力装置は、例えば、ＬＣＤ（Liquid Crystal Display）、ＣＲＴ（Cathode Ray Tube）、ＰＤＰ（Plasma Display Panel）、又は有機ＥＬ（Electro Luminescence）パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の出力部とメモリとプロセッサを備えるデバイスであってもよい。

また、外部装置９Ａまた外部装置９Ｂは、記憶装置（メモリ）であってもよい。例えば、外部装置９Ａはネットワークストレージ等であってもよく、外部装置９ＢはＨＤＤ等のストレージであってもよい。

また、外部装置９Ａ又は外部装置９Ｂは、前述した実施形態における推論装置１、又は学習装置２の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータ７は、外部装置９Ａ又は外部装置９Ｂの処理結果の一部又は全部を送信又は受信してもよい。

本明細書（請求項を含む）において、「ａ、ｂ及びｃの少なくとも１つ（一方）」又は「ａ、ｂ又はｃの少なくとも１つ（一方）」の表現（同様な表現を含む）が用いられる場合は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ、又はａ－ｂ－ｃのいずれかを含む。また、ａ－ａ、ａ－ｂ－ｂ、ａ－ａ－ｂ－ｂ－ｃ－ｃ等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、ａ－ｂ－ｃ－ｄのようにdｄ有する等、列挙された要素（ａ、ｂ及びｃ）以外の他の要素を加えることも含む。

本明細書（請求項を含む）において、「データを入力として／データに基づいて／に従って／に応じて」等の表現（同様な表現を含む）が用いられる場合は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を入力として用いる場合を含む。また「データに基づいて／に従って／に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び／又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を出力とする場合も含む。

本明細書（請求項を含む）において、含有又は所有を意味する用語（例えば、「含む（comprising/including）」及び有する、備える「（having）等）」が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。

本明細書（請求項を含む）において、ある箇所において「１つ又は複数（one or more）」又は「少なくとも１つ（at least one）」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）が用いられているとしても、後者の表現が「１つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）は、必ずしも特定の数に限定されないものとして解釈されるべきである。

本明細書において、ある実施例の有する特定の構成について特定の効果（advantage/result）が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の１つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び／又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び／又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。

本明細書（請求項を含む）において、「最適化（optimize）」等の用語が用いられる場合は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。

本明細書（請求項を含む）において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書（請求項を含む）において、「１又は複数のハードウェアが第１の処理を行い、前記１又は複数のハードウェアが第２の処理を行う」等の表現が用いられている場合、第１の処理を行うハードウェアと第２の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第１の処理を行うハードウェア及び第２の処理を行うハードウェアが、前記１又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は電子回路を含む装置等を含んでよい。

本明細書（請求項を含む）において、複数の記憶装置（メモリ）がデータの記憶を行う場合、複数の記憶装置（メモリ）のうち個々の記憶装置（メモリ）は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。

以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、数値又は数式を説明に用いている場合は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。

１推論装置
２学習装置
１０入力層
１１中間層（ＬＳＴＭ）
１２出力層
７コンピュータ
８ネットワーク
９Ａ、９Ｂ外部装置
７１プロセッサ
７２主記憶装置
７３補助記憶装置
７４ネットワークインタフェース
７５デバイスインタフェース
７６バス
１１０、１１２、１１４、１１６、１１８、１１９演算層
１２０、１２２、１３０、１３２、１４０、１４２演算層
１５０、１６０、２５０、２６０アクティべーションベクトル
１７０、２７０ゲートベクトル
１５０ａ、１５０ｂ、１５０ｃ、１５０ｄ要素
１６０ａ、１６０ｂ、１６０ｃ、１６０ｄ要素
１７０ａ、１７０ｂ、１７０ｃ、１７０ｄ要素
２５０ａ、２５０ｂ、２５０ｃ、２５０ｄ要素
２６０ａ、２６０ｂ、２６０ｃ、２６０ｄ要素
２７０ａ、２７０ｂ、２７０ｃ、２７０ｄ要素

Claims

入力層と、
出力層と、
前記入力層と前記出力層との間に設けられ、再帰型ニューラルネットワークを構成し、前記入力層から第１のベクトルを入力し、前記出力層へ第２のベクトルを出力する中間層と、を備え
前記中間層は、
前記第１のベクトルと再帰入力としての前記第２のベクトルとに基づいて、活性化された第３のベクトルを生成し、
前記第１のベクトルと再帰入力としての前記第２のベクトルとに基づいて、複数の要素が共通化された少なくとも一つのゲートベクトルを生成し、
前記少なくとも一つのゲートベクトルと前記第３のベクトルとに基づいて、前記出力層への出力としての前記第２のベクトルを生成する、
推論装置。
前記中間層は、Ｌ（Ｌは２以上の自然数）個ごとに要素が共通化された前記少なくとも一つのゲートベクトルを生成する、
請求項１に記載の推論装置。
前記中間層は、前記少なくとも一つのゲートベクトルの複数の要素が共通化されたことにより低次元化された変換行列を用いて、前記少なくとも一つのゲートベクトルを生成する、
請求項１又は２に記載の推論装置。
前記中間層は、前記再帰型ニューラルネットワークとしてＬＳＴＭ（Long Short Term Memory）を含み、
前記少なくとも一つのゲートベクトルは、入力ゲートベクトル、出力ゲートベクトル、忘却ゲートベクトルの少なくともいずれかを含む、
請求項１乃至３のうちいずれか一項に記載の推論装置。
前記中間層は、前記再帰型ニューラルネットワークとしてＧＲＵ（Gated Recurrent Unit）を含み、
前記少なくとも一つのゲートベクトルは、更新ゲートベクトル、初期化ゲートベクトルの少なくともいずれかを含む、
請求項１乃至３のうちいずれか一項に記載の推論装置。
前記中間層は、
同一の削減率を用いて前記複数の要素が共通化された複数の前記ゲートベクトルを生成し、
複数の前記ゲートベクトルと前記第３のベクトルとに基づいて、前記第２のベクトルを生成する、
請求項１乃至５のうちいずれか一項に記載の推論装置。
前記中間層は、二以上の削減率を用いて前記複数の要素が共通化された複数の前記ゲートベクトルを生成し、
複数の前記ゲートベクトルと前記第３のベクトルとに基づいて、前記第２のベクトルを生成する、
請求項１乃至５のうちいずれか一項に記載の推論装置。
入力層と、出力層と、前記入力層と前記出力層との間に設けられ、再帰型ニューラルネットワークを構成し、前記入力層から第１のベクトルを入力し、前記出力層へ第２のベクトルを出力する中間層と、を備える推論モデルを学習する学習装置であって、
前記中間層は、
前記第１のベクトルと再帰入力としての前記第２のベクトルとに基づいて、活性化された第３のベクトルを生成し、
前記第１のベクトルと再帰入力としての前記第２のベクトルとに基づいて、複数の要素が共通化された少なくとも一つのゲートベクトルを生成し、
前記少なくとも一つのゲートベクトルと前記第３のベクトルとに基づいて、前記出力層への出力としての前記第２のベクトルを生成するものであり、
前記推論モデルのパラメータを用いた損失関数の勾配を計算する勾配計算部と、
前記勾配に基づいて前記推論モデルのパラメータを更新するパラメータ更新部と、
を有する学習装置。
入力層と、出力層と、前記入力層と前記出力層との間に設けられ、再帰型ニューラルネットワークを構成し、前記入力層から第１のベクトルを入力し、前記出力層へ第２のベクトルを出力する中間層と、を備える推論装置において実行される推論方法であって、
前記中間層において、
前記第１のベクトルと再帰入力としての前記第２のベクトルとに基づいて、活性化された第３のベクトルを生成し、
前記第１のベクトルと再帰入力としての前記第２のベクトルとに基づいて、複数の要素が共通化された少なくとも一つのゲートベクトルを生成し、
前記少なくとも一つのゲートベクトルと前記第３のベクトルとに基づいて、前記出力層への出力としての前記第２のベクトルを生成すること、
を備えた推論方法。
入力層と、出力層と、前記入力層と前記出力層との間に設けられ、再帰型ニューラルネットワークを構成し、前記入力層から第１のベクトルを入力し、前記出力層へ第２のベクトルを出力する中間層と、を備える推論装置としての機能をコンピュータに実現させるためのプログラムであって、
前記中間層において、
前記第１のベクトルと再帰入力としての前記第２のベクトルとをに基づいて、活性化された第３のベクトルを生成するステップと、
前記第１のベクトルと再帰入力としての前記第２のベクトルとをに基づいて、複数の要素が共通化された少なくとも一つのゲートベクトルを生成するステップと、
前記少なくとも一つのゲートベクトルと前記第３のベクトルとに基づいて、前記出力層への出力としての前記第２のベクトルを生成するステップと、
を少なくとも１台のコンピュータに実行させるプログラム。
入力層と、出力層と、前記入力層と前記出力層との間に設けられ、再帰型ニューラルネットワークを構成し、前記入力層から第１のベクトルを入力し、前記出力層へ第２のベクトルを出力する中間層と、を備える推論モデルを生成するモデル生成方法であって、
前記中間層は、
前記第１のベクトルと再帰入力としての前記第２のベクトルとに基づいて、活性化された第３のベクトルを生成し、
前記第１のベクトルと再帰入力としての前記第２のベクトルとに基づいて、複数の要素が共通化された少なくとも一つのゲートベクトルを生成し、
前記少なくとも一つのゲートベクトルと前記第３のベクトルとに基づいて、前記出力層への出力としての前記第２のベクトルを生成するものであり、
前記推論モデルのパラメータを用いた損失関数の勾配を計算し、
前記勾配に基づいて前記推論モデルのパラメータを更新すること、
を有するモデル生成方法。
請求項１１に記載のモデル生成方法を用いて生成した再帰型ニューラルネットワーク。