JP2022136575A

JP2022136575A - 推論装置、モデル生成装置、推論方法、及び推論プログラム

Info

Publication number: JP2022136575A
Application number: JP2021036254A
Authority: JP
Inventors: 成典長江; Shigenori Nagae
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-09-21
Also published as: EP4307187A1; CN116868209A; WO2022190966A1; US20240161259A1

Abstract

【課題】機械学習モデルの演算処理にかかる計算量を低減し、計算資源にかかる負担を抑える。【解決手段】本発明の一側面に係る推論装置は、対象データを取得し、機械学習により訓練済みの推論モデルを使用して、取得された前記対象データに対して推論タスクを遂行し、かつ推論タスクを遂行した結果に関する情報を出力する。推論モデルの複数のパラメータの少なくとも一部は、行列で表現される。行列は、第１部分行列及び第２部分行列を含む。第１部分行列及び第２部分行列の行及び列それぞれの要素の数は同一であり、第２部分行列の各要素の値は、第１部分行列及び対角行列の積と一致するように調節されている。【選択図】図１

Description

本発明は、推論装置、モデル生成装置、推論方法、及び推論プログラムに関する。

従来、製造ライン等の製品を製造する場面において、製造される製品を撮影装置により撮影し、得られた画像データを解析することで、製品の良否を検査する技術の開発が進んでいる。例えば、特許文献１では、訓練済みの第１ニューラルネットワークを使用して、画像に写る対象物が正常であるか異常であるかを判定し、異常であると判定した場合に、訓練済みの第２ニューラルネットワークを使用して、その異常の種別を分類する検査装置が提案されている。

訓練済みのニューラルネットワークを利用する方法によれば、画像処理の内容を人手により詳細に規定しなくても、訓練済みのニューラルネットワークの演算結果に基づいて製品の外観検査を実施することができる。そのため、外観検査の情報処理を簡略化し、検査プログラムを作成する手間を低減することができる。この作用効果は、ニューラルネットワークを利用するケースに限って得られる訳ではない。ニューラルネットワーク以外の訓練済みの機械学習モデル（例えば、主成分分析により得られる主成分ベクトル、サポートベクタマシン等）を利用する方法でも、外観検査の情報処理を簡略化し、検査プログラムを作成する手間を低減することができる。

加えて、訓練済みの機械学習モデルにより遂行可能な推論タスクは、外観検査及び画像に対する推論に限られる訳ではない。所望の情報処理に対応した学習データを機械学習に用いることにより、所定種類のデータに対して所望の推論タスクを遂行する能力を獲得した訓練済みの機械学習モデルを生成することができる。したがって、訓練済みの機械学習モデルを利用する方法によれば、所定種類のデータに対して所望の推論タスクを遂行する情報処理を簡略化し、推論プログラムを作成する手間を低減することができる。

一般的に、機械学習モデルは、推論タスクの演算に使用されるパラメータを有する。パラメータの値は、所望の入力に対して所望の出力を得られるように（すなわち、所望の推論タスクを遂行する能力を獲得するように）機械学習により調節される。機械学習モデルにニューラルネットワークを採用する場合、このパラメータは、例えば、各ニューロン間の結合の重み等である。推論タスクの遂行精度を高めようとするほど、機械学習モデルを構成するパラメータの数が増加する傾向にある。特に、機械学習モデルにニューラルネットワークを採用するケースでは、推論タスクの遂行精度を高めるために、ニューラルネットワークの階層を深める傾向にあり、ニューラルネットワークの階層が深くなればなるほど、ニューラルネットワークを構成するパラメータの数が増加してしまう。

当然のことながら、機械学習モデルを構成するパラメータの数が増加するほど、推論タスクの遂行精度の向上を見込むことができるが、機械学習モデルの演算処理にかかる計算量が増加してしまう。そのため、機械学習の場面及び推論タスクを遂行する場面の両方で、例えば、計算時間が遅延する、メモリを圧迫する、計算に時間がかかることで消費電力が高くなる、高価なコンピュータでなければ演算を完遂することができない等の計算量の増加に伴う諸問題が発生してしまう（すなわち、計算資源に負担がかかってしまう）。

そこで、特許文献２及び特許文献３では、分散処理により、機械学習モデルの演算処理を高速化する方法が提案されている。具体的に、特許文献２では、複数の学習装置及び分散深層学習装置の間で量子化勾配を交換することにより、深層学習を分散して行う方法が提案されている。また、特許文献３では、１方向に通信可能なリング型の通信ネットワークを介して複数の学習ノードを接続し、各学習ノード間での協調処理により深層学習を分散して行う方法が提案されている。その他、非特許文献１では、入力データ及びパラメータの積の計算を高速フーリエ変換により別表現の計算式に変換することで、畳み込み演算における計算回数を低減する方法が提案されている。

特開２０１２－０２６９８２号公報特開２０１８－１２０４４１号公報特開２０２０－００３８４８号公報

Tyler Highlander, Andres Rodriguez, "Very Efficient Training of Convolutional Neural Networks using Fast Fourier Transform and Overlap-and-Add", arXiv:1601.06815 [cs.NE], 25 Jan 2016.

本件発明者は、上記従来の方法には、次のような問題点があることを見出した。すなわち、分散処理のみに依拠する方法では、複数のコンピュータを繋ぐことで、１台１台のコンピュータの負担を低減し、かつ演算処理を高速化することはできるが、機械学習モデルの演算処理にかかる計算量を低減することは困難である。むしろ、計算過程の情報を各コンピュータ間で通信する分だけ、機械学習モデルの演算処理にかかる計算量は増加してしまい、全体でみた場合に計算資源にかかる負担が増加してしまう。また、非特許文献１のような、高速フーリエ変換を用いる方法では、畳み込み演算を高速化することは可能であるが、その他の演算に適用することは困難である。加えて、機械学習モデルのパラメータの情報と共に、高速フーリエ変換により得られた別表現の情報を保持する分だけ、計算資源にかかる負担が増加してしまう（特に、メモリが圧迫されてしまう）。したがって、従来の方法では、機械学習モデルの演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることが困難である。

本発明は、一側面では、このような事情を鑑みてなされたものであり、その目的は、機械学習モデルの演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えるための技術を提供することである。

本発明は、上述した課題を解決するために、以下の構成を採用する。

すなわち、本発明の一側面に係る推論装置は、対象データを取得するデータ取得部と、機械学習により訓練済みの推論モデルを使用して、取得された前記対象データに対して推論タスクを遂行する推論部と、前記推論タスクを遂行した結果に関する情報を出力する出力部と、を備える。前記推論モデルの複数のパラメータの少なくとも一部は、行列で表現される。前記行列は、第１部分行列及び第２部分行列を含む。前記第１部分行列及び前記第２部分行列の行及び列それぞれの要素の数は同一であり、前記第２部分行列の各要素の値は、前記第１部分行列及び対角行列の積と一致するように調節されている。

当該構成では、推論モデルの複数のパラメータの少なくとも一部が、第１部分行列及び第２部分行列を含む行列により表現可能であり、第２部分行列の各要素の値が、第１部分行列及び対角行列の積と一致するように調節されている。そのため、第２部分行列の情報を保持していなくても、第１部分行列の演算結果を使い回して、第２部分行列の演算結果を得ることができる。したがって、当該構成によれば、推論モデルを構成するパラメータの数を実質的に低減することができる。具体的には、第２部分行列の要素数と対角行列の０以外の要素数との差分だけパラメータの数を低減することができる。これにより、推論モデルの演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることができる。

上記一側面に係る推論装置では、前記行列の少なくとも一部において、行及び列それぞれの要素の数が同一である部分行列が行にＭ個ずつ及び列にＮ個ずつ並ぶように、前記行列の少なくとも一部は、Ｍ×Ｎ個の部分行列に分割され、各列において、いずれかの行に配置される部分行列が、当該いずれかの行を除く他の行に配置される各部分行列に対する前記第１部分行列を構成し、かつ前記他の行に配置される各部分行列が、前記第２部分行列を構成する、スケーリング関係が成立していてもよい。当該構成によれば、スケーリング関係の成立により推論モデルのパラメータ数を効果的に削減することができる。これにより、推論モデルの演算処理にかかる計算量を効果的に低減し、計算資源にかかる負担を抑えることができる。

上記一側面に係る推論装置において、前記Ｍ及び前記Ｎは、同一の素数Ｓであってよい。当該構成によれば、上記スケーリング関係の成立範囲を容易に調節することができる。

上記一側面に係る推論装置において、前記第１部分行列を構成する部分行列内での前記スケーリング関係の成立が繰り返されることで、前記行列の少なくとも一部内では、前記スケーリング関係が再帰的に成立していてもよい。当該構成によれば、スケーリング関係が再帰的に成立していることで、最終的に（すなわち、一番外側で）成立しているスケーリング関係における第１部分列内でも、パラメータ数の低減を図ることができる。よって、推論モデルの演算処理にかかる計算量を更に効果的に低減し、計算資源にかかる負担を更に抑えることができる。なお、スケーリング関係の成立は、各部分行列が任意サイズの行列（例えば、１×１行列）になるまで繰り返されてよい。

上記一側面に係る推論装置において、前記Ｍ及び前記Ｎは、同一の素数Ｓであってよく、前記行列の少なくとも一部は、要素の数が素数Ｓのべき乗である正方行列により構成されてよい。当該構成によれば、上記スケーリング関係の成立範囲を容易に調節することができる。

上記一側面に係る推論装置において、前記Ｍ及び前記Ｎはそれぞれ、２であってよい。当該構成によれば、上記スケーリング関係の成立範囲を容易に調節することができる。

上記一側面に係る推論装置において、前記推論モデルは、ニューラルネットワークにより構成されてよく、前記行列の各要素は、前記ニューラルネットワークにおける各ニューロン間の結合の重みに対応するように構成されてよい。当該構成によれば、推論モデル（機械学習モデル）としてニューラルネットワークを採用する場面において、推論モデルの演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることができる。

上記一側面に係る推論装置において、前記対象データは、製品の写る画像データにより構成されてよく、前記推論タスクは、前記画像データに写る製品に欠陥があるか否かを判定することであってよい。当該構成によれば、訓練済みの推論モデルを使用して、製品の外観検査を行う場面において、推論モデルの演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることができる。

また、本発明の形態は、上記推論装置に限られなくてよい。本発明の一側面は、上記いずれかの形態に係る推論装置で使用される訓練済みの推論モデルを生成するモデル生成装置であってもよい。

例えば、本発明の一側面に係るモデル生成装置は、訓練データ、及び前記訓練データに対する推論タスクの正解を示す正解ラベルの組み合わせによりそれぞれ構成される複数の学習データセットを取得するデータ取得部と、前記複数の学習データセットを使用して、推論モデルの機械学習を実施する学習処理部と、を備える。前記推論モデルの複数のパラメータの少なくとも一部は、行列で表現される。前記行列は、第１部分行列及び第２部分行列を含む。前記第１部分行列及び前記第２部分行列の行及び列それぞれの要素の数は同一である。そして、前記機械学習は、前記各学習データセットについて、前記推論モデルを使用して前記訓練データに対して前記推論タスクを遂行した結果が前記正解ラベルにより示される正解に適合すると共に、前記第２部分行列の各要素の値が、前記第１部分行列及び対角行列の積と一致するように調節されるように前記推論モデルを訓練することにより構成される。当該構成によれば、推論モデルの演算処理にかかる計算量を低減し、訓練済みの推論モデルを生成する際の計算資源にかかる負担を抑えることができる。

上記一側面に係るモデル生成装置において、前記推論モデルを訓練することは、前記行列の少なくとも一部において、行及び列それぞれの要素の数が同一である部分行列が行にＭ個ずつ及び列にＮ個ずつ並ぶように、前記行列の少なくとも一部は、Ｍ×Ｎ個の部分行列に分割され、各列において、いずれかの行に配置される部分行列が、当該いずれかの行を除く他の行に配置される各部分行列に対する前記第１部分行列を構成し、かつ前記他の行に配置される各部分行列が、前記第２部分行列を構成する、スケーリング関係が成立するように前記行列の各要素の値を調節することを含んでよい。当該構成によれば、スケーリング関係が成立している分だけ、推論モデルの演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることができる。また、このスケーリング関係の成立に基づいて、推論モデルの演算処理にかかる計算量を低減する量を管理することができる。なお、スケーリング関係の成立は、各部分行列が任意サイズの行列（例えば、１×１行列）になるまで、第１部分行列を構成する部分行列内で繰り返されてよい。

上記一側面に係るモデル生成装置において、前記推論モデルは、ニューラルネットワークにより構成されてよい。前記行列の各要素は、前記ニューラルネットワークにおける各ニューロン間の結合の重みに対応するように構成されてよい。前記推論モデルを訓練することは、前記第１部分行列を構成する部分行列内での前記スケーリング関係の成立が、各部分行列が１×１行列になるまで繰り返されることで、前記行列の少なくとも一部内では、前記スケーリング関係が再帰的に成立するように前記行列の少なくとも一部の各要素の値を調節することを含んでよい。前記行列の少なくとも一部の各要素の値を調節することは、前記スケーリング関係が再帰的に成立するように前記行列の少なくとも一部の各要素の初期値を与えること、順伝播のフェーズにおいて、前記各学習データセットの訓練データに対して推論タスクを遂行した結果を導出すること、並びに逆伝播のフェーズにおいて、導出された推論タスクの遂行結果及び対応する正解ラベルにより示される正解の間の誤差の勾配を逆伝播することにより、前記行列の少なくとも一部の各要素及び前記対角行列の各要素の値を調節すること、により構成されてよい。前記順伝播のフェーズの演算は、初期の第１部分行列を構成する前記１×１行列及び入力ベクトルの積を計算する第１ステップ、得られた前記初期の第１部分行列の積の結果及び前記対角行列の対応する要素の積を計算することで、初期の第２部分行列を構成する前記１×１行列及び入力ベクトルの積を導出する第２ステップ、対象の段階で得られた前記第１部分行列の積の結果及び前記第２部分行列の積の結果から次の段階の第１部分行列を構成する部分行列及び入力ベクトルの積を導出する第３ステップ、得られた次の段階の前記第１部分行列の積の結果及び前記対角行列の対応する要素の積を計算することで、次の段階の前記第２部分行列を構成する部分行列及び入力ベクトルの積を導出する第４ステップ、並びに、前記対象の段階で得られた前記第１部分行列の積の結果及び前記第２部分行列の積の結果それぞれの初期値として、前記第１ステップ及び前記第２ステップそれぞれで得られた前記初期の第１部分行列の積の結果及び前記初期の第２部分行列の積の結果それぞれを代入し、かつ前記第３ステップ及び前記第４ステップを再帰的に繰り返すことで、前記行列の少なくとも一部及び入力ベクトルの積を導出する第５ステップ、により構成されてよい。前記逆伝播のフェーズの演算は、前記行列の少なくとも一部及び入力ベクトルの積に対する前記誤差の勾配を取得する第１ステップ、取得された前記誤差の勾配、並びに前記順伝播のフェーズの再帰的繰り返しの最終の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積の値に基づいて、当該最終の段階で使用される対角行列の各要素についての誤差の勾配を導出する第２ステップ、取得された前記誤差の勾配及び前記最終の段階で使用される対角行列の各要素の値に基づいて、前記最終の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配を導出する第３ステップ、取得された前記誤差の勾配、前記順伝播のフェーズの再帰的繰り返しの対象の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積の値、並びに前記順伝播のフェーズの再帰的繰り返しにおいて当該対象の段階の次の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配に基づいて、当該対象の段階で使用される対角行列の各要素についての誤差の勾配を導出する第４ステップ、取得された前記誤差の勾配、前記対象の段階で使用される対角行列の各要素の値、並びに前記次の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配に基づいて、前記対象の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配を導出する第５ステップ、前記次の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配の初期値として、前記逆伝播のフェーズの前記第３ステップで導出される、前記最終の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配を代入し、かつ前記順伝播のフェーズの再帰的繰り返しの初期の段階で使用される対角行列の各要素についての誤差の勾配を導出するまで、前記逆伝播のフェーズの前記第４ステップ及び前記第５ステップを再帰的に繰り返すことで、各段階で使用される対角行列の各要素についての誤差の勾配を導出する第６ステップ、前記入力ベクトル、並びに前記第６ステップにより導出される、前記初期の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配に基づいて、前記初期の第１部分行列を構成する前記１×１行列の要素についての誤差の勾配を導出する第７ステップ、並びに前記各段階で使用される対角行列の各要素及び前記初期の第１部分行列を構成する前記１×１行列の要素それぞれについて導出された前記誤差の勾配に基づいて、前記各段階で使用される対角行列の各要素及び前記初期の第１部分行列を構成する前記１×１行列の要素それぞれの値を調節する第８ステップ、により構成されてよい。当該構成によれば、推論モデル（機械学習モデル）としてニューラルネットワークを採用する場面において、機械学習の処理過程で、スケーリング関係が再帰的に成立するように、推論モデルの各パラメータの値を調節することができる。その結果、最終的に成立しているスケーリング関係における第１部分行列内でも、パラメータ数の低減を図ることができる。よって、当該構成によれば、推論モデルの演算処理にかかる計算量を更に低減し、計算資源にかかる負担を更に抑えることができる。なお、この形態において、１×１行列は、任意サイズの単位行列に置き換えられてよい。

また、上記各形態に係る推論装置及びモデル生成装置それぞれの別の態様として、本発明の一側面は、以上の各構成の全部又はその一部を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記憶した、コンピュータその他装置、機械等が読み取り可能な記憶媒体であってもよい。ここで、コンピュータ等が読み取り可能な記憶媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。また、本発明の一側面は、上記いずれかの形態に係る推論装置及びモデル生成装置により構成される推論システムであってもよい。

例えば、本発明の一側面に係る推論方法は、コンピュータが、対象データを取得するステップと、機械学習により訓練済みの推論モデルを使用して、取得された前記対象データに対して推論タスクを遂行するステップと、前記推論タスクを遂行した結果に関する情報を出力するステップと、を実行する情報処理方法であって、前記推論モデルの複数のパラメータの少なくとも一部は、行列で表現され、前記行列は、第１部分行列及び第２部分行列を含み、前記第１部分行列及び前記第２部分行列の行及び列それぞれの要素の数は同一であり、前記第２部分行列の各要素の値は、前記第１部分行列及び対角行列の積と一致するように調節されている、情報処理方法である。

例えば、本発明の一側面に係る推論プログラムは、コンピュータに、対象データを取得するステップと、機械学習により訓練済みの推論モデルを使用して、取得された前記対象データに対して推論タスクを遂行するステップと、前記推論タスクを遂行した結果に関する情報を出力するステップと、を実行させるためのプログラムであって、前記推論モデルの複数のパラメータの少なくとも一部は、行列で表現され、前記行列は、第１部分行列及び第２部分行列を含み、前記第１部分行列及び前記第２部分行列の行及び列それぞれの要素の数は同一であり、前記第２部分行列の各要素の値は、前記第１部分行列及び対角行列の積と一致するように調節されている、プログラムである。

本発明によれば、機械学習モデルの演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることができる。

図１は、本発明が適用される場面の一例を模式的に例示する。図２は、実施の形態に係るモデル生成装置のハードウェア構成の一例を模式的に例示する。図３は、実施の形態に係る推論装置のハードウェア構成の一例を模式的に例示する。図４は、実施の形態に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。図５Ａは、第１部分行列及び第２部分行列の設定方法の一例を示す。図５Ｂは、４×４のパラメータ行列内でスケーリング関係が再帰的に成立する場面の一例を示す。図５Ｃは、スケーリング関係が再帰的に成立し、各段階で１行目の部分行列が第１部分行列を構成する場合における要素分割の一般化の一例を示す。図６は、実施の形態に係る推論装置のソフトウェア構成の一例を模式的に例示する。図７は、実施の形態に係るモデル生成装置の処理手順の一例を示すフローチャートである。図８Ａは、順伝播のフェーズにおけるパラメータ行列（２×２行列）の演算過程の一例を示す。図８Ｂは、逆伝播のフェーズにおけるパラメータ行列（２×２行列）の演算過程の一例を示す。図９Ａは、順伝播のフェーズにおけるパラメータ行列（４×４行列）の演算過程の一例を示す。図９Ｂは、逆伝播のフェーズにおけるパラメータ行列（４×４行列）の演算過程の一例を示す。図１０Ａは、順伝播のフェーズにおけるパラメータ行列（任意サイズの行列）の演算過程の一例を示す。図１０Ｂは、逆伝播のフェーズにおけるパラメータ行列（任意サイズの行列）の演算過程の一例を示す。図１１は、実施の形態に係る推論装置の処理手順の一例を示すフローチャートである。図１２は、本発明が適用される他の場面の一例を模式的に例示する。図１３は、本発明が適用される他の場面の一例を模式的に例示する。図１４は、本発明が適用される他の場面の一例を模式的に例示する。

以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

§１適用例
図１は、本発明を適用した場面の一例を模式的に例示する。図１に示されるとおり、本実施形態に係る推論システム１００は、モデル生成装置１及び推論装置２を備えている。

本実施形態に係るモデル生成装置１は、機械学習により訓練済みの推論モデル５を生成するように構成されたコンピュータである。本実施形態では、モデル生成装置１は、複数の学習データセット３を取得する。各学習データセット３は、訓練データ３１及び正解ラベル３２の組み合わせにより構成される。訓練データ３１は、推論タスク等に応じて適宜構成されてよい。正解ラベル３２は、訓練データ３１に対する推論タスクの正解（真値）を示すように構成される。

データに含まれる特徴を推論する任意の種類のタスクが、推論モデル５の推論タスクとして選択されてよい。一例として、画像による外観検査のための訓練済み推論モデル５を生成する場合、推論タスクは、画像データに写る製品に欠陥があるか否か（例えば、欠陥の有無、欠陥の種類、欠陥の存在する範囲の抽出等のタスクを含んでよい）を判定することであってよい。この場合、訓練データ３１は、製品の写る画像データにより構成されてよく、正解ラベル３２は、対応付けられる訓練データ３１に対する当該推論タスクの正解（例えば、欠陥の有無、欠陥の種類、欠陥の存在する範囲等）を示すように構成されてよい。モデル生成装置１は、複数の学習データセット３を使用して、推論モデル５の機械学習を実施する。

推論モデル５は、複数のパラメータを備える機械学習モデルにより構成される。機械学習モデルの種類は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。推論モデル５には、例えば、ニューラルネットワーク、主成分分析により得られる主成分ベクトル、サポートベクタマシン等が採用されてよい。以下では、説明の便宜のため、推論モデル５を構成する機械学習モデルとしてニューラルネットワークを採用した一例を示す（後述する図４）。推論モデル５がニューラルネットワークにより構成される場合、各ニューロン（ノード）間の結合の重みが、パラメータの一例である。

本実施形態では、推論モデル５の複数のパラメータの少なくとも一部が行列により表現可能に構成される。行列は、第１部分行列及び第２部分行列を含むように構成される。第１部分行列及び第２部分行列は、行及び列それぞれの要素の数が同一であるように構成される。各部分行列の行及び列の数はそれぞれ、実施の形態に応じて適宜選択されてよい。行の数と列の数とは一致してもよいし、或いは互いに異なっていてもよい。第１部分行列及び第２部分行列は、スカラー（１×１の行列）であってもよい。

機械学習は、各学習データセット３について、推論モデル５を使用して訓練データ３１に対して推論タスクを遂行した結果が正解ラベル３２により示される正解に適合すると共に、第２部分行列の各要素の値が、第１部分行列及び対角行列の積と一致するように調節されるように推論モデル５を訓練することにより構成される。これにより、推論タスクを遂行する能力を獲得し、かつ第２部分行列の各要素の値が第１部分行列及び対角行列の積と一致するように調節された訓練済みの推論モデル５を生成することができる。

図１の例では、ｗ₁－ｗ₄が、行列で表現されるパラメータの一例である。これらのうち、ｗ₁及びｗ₂が、第１部分行列の一例である。ｗ₃及びｗ₄が、第２部分行列の一例である。（ｙ₁、ｙ₂）は、推論モデル５における、この行列で表現される構成部分の演算結果（出力）を示す。（ｘ₁、ｘ₂）は、この構成部分に対する入力を示す。一例として、ニューラルネットワークを構成する各層が上記の行列により表現される場合、各層に対する入力が、（ｘ₁、ｘ₂）に対応し、各層からの出力が、（ｙ₁、ｙ₂）に対応する。（ａ₁、ａ₂）は、対角行列の対角成分の要素の一例である。対角行列の対角成分の各要素の値が同一である場合、対角行列は、１つの値（スカラー）で表現されてよい。

一方、本実施形態に係る推論装置２は、訓練済みの推論モデル５を使用して、推論タスクを遂行するように構成されたコンピュータである。本実施形態では、推論装置２は、対象データ２２１を取得する。次に、推論装置２は、機械学習により訓練済みの推論モデル５を使用して、取得された対象データ２２１に対して推論タスクを遂行する。上記のとおり、推論モデル５の複数のパラメータの少なくとも一部は、行列で表現される。当該行列は、第１部分行列及び第２部分行列を含む。第１部分行列及び第２部分行列の行及び列それぞれの要素の数は同一である。第２部分行列の各要素の値は、第１部分行列及び対角行列の積と一致するように調節されている。推論装置２は、推論タスクを遂行した結果に関する情報を出力する。

以上のとおり、本実施形態では、推論モデル５の複数のパラメータの少なくとも一部が、第１部分行列及び第２部分行列を含む行列により表現可能である。本実施形態に係るモデル生成装置１によれば、訓練済みの推論モデル５において、第２部分行列の各要素の値が、第１部分行列及び対角行列の積と一致するように調節される。そのため、第２部分行列の情報を保持していなくても、第１部分行列の演算結果を使い回して、第２部分行列の演算結果を得ることができる。図１の例では、ｗ₃ｘ₁及びｗ₄ｘ₂の演算を実行しなくても、第１部分行列の演算結果（ｗ₁ｘ₁及びｗ₂ｘ₂）より、第２部分行列の演算結果（ａ₁ｗ₁ｘ₁及びａ₂ｗ₂ｘ₂）を得ることができる。したがって、本実施形態によれば、推論モデル５を構成するパラメータの数を実質的に低減することができる。具体的には、第２部分行列の要素数と対角行列の０以外の要素数との差分だけパラメータの数を低減することができる。これにより、推論モデル５の演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることができる。

なお、図１の例では、モデル生成装置１及び推論装置２は、ネットワークを介して互いに接続されている。ネットワークの種類は、例えば、インターネット、無線通信網、移動通信網、電話網、専用網等から適宜選択されてよい。ただし、モデル生成装置１及び推論装置２の間でデータをやり取りする方法は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、モデル生成装置１及び推論装置２の間では、記憶媒体を利用して、データがやり取りされてよい。

また、図１の例では、モデル生成装置１及び推論装置２は、それぞれ別個のコンピュータにより構成されている。しかしながら、本実施形態に係る推論システム１００の構成は、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。たとえば、モデル生成装置１及び推論装置２は一体のコンピュータであってもよい。また、例えば、モデル生成装置１及び推論装置２のうちの少なくとも一方は、複数台のコンピュータにより構成されてもよい。

§２構成例
［ハードウェア構成］
＜モデル生成装置＞
図２は、本実施形態に係るモデル生成装置１のハードウェア構成の一例を模式的に例示する。図２に示されるとおり、本実施形態に係るモデル生成装置１は、制御部１１、記憶部１２、通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６、及びドライブ１７が電気的に接続されたコンピュータである。なお、図２では、通信インタフェース及び外部インタフェースを「通信Ｉ／Ｆ」及び「外部Ｉ／Ｆ」と記載している。

制御部１１は、ハードウェアプロセッサであるＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を含み、プログラム及び各種データに基づいて情報処理を実行するように構成される。記憶部１２は、メモリの一例であり、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部１２は、モデル生成プログラム８１、複数の学習データセット３、学習結果データ１２５等の各種情報を記憶する。

モデル生成プログラム８１は、訓練済みの推論モデル５を生成する後述の機械学習の情報処理（図７）をモデル生成装置１に実行させるためのプログラムである。モデル生成プログラム８１は、当該情報処理の一連の命令を含む。複数の学習データセット３は、訓練済みの推論モデル５の生成に使用される。学習結果データ１２５は、生成された訓練済みの推論モデル５に関する情報を示す。本実施形態では、学習結果データ１２５は、モデル生成プログラム８１を実行した結果として生成される。詳細は後述する。

通信インタフェース１３は、例えば、有線ＬＡＮ（Local Area Network）モジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。モデル生成装置１は、通信インタフェース１３を利用して、他の情報処理装置との間で、ネットワークを介したデータ通信を実行することができる。外部インタフェース１４は、例えば、ＵＳＢ（Universal Serial Bus）ポート、専用ポート等であり、外部装置と接続するためのインタフェースである。外部インタフェース１４の種類及び数は任意に選択されてよい。モデル生成装置１は、通信インタフェース１３及び外部インタフェース１４の少なくとも一方を介して、訓練データ３１を得るためのデバイス（例えば、訓練データ３１が画像データである場合、カメラ）に接続されてよい。

入力装置１５は、例えば、マウス、キーボード等の入力を行うための装置である。また、出力装置１６は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。ユーザ等のオペレータは、入力装置１５及び出力装置１６を利用することで、モデル生成装置１を操作することができる。

ドライブ１７は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９１に記憶されたプログラム等の各種情報を読み込むためのドライブ装置である。記憶媒体９１は、コンピュータその他装置、機械等が、記憶されたプログラム等の各種情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。上記モデル生成プログラム８１及び複数の学習データセット３の少なくともいずれかは、記憶媒体９１に記憶されていてもよい。モデル生成装置１は、この記憶媒体９１から、上記モデル生成プログラム８１及び複数の学習データセット３の少なくともいずれかを取得してもよい。なお、図２では、記憶媒体９１の一例として、ＣＤ、ＤＶＤ等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体９１の種類は、ディスク型に限られなくてもよく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。ドライブ１７の種類は、記憶媒体９１の種類に応じて任意に選択されてよい。

なお、モデル生成装置１の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部１１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ（field-programmable gate array）、ＤＳＰ（digital signal processor）等で構成されてよい。記憶部１２は、制御部１１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６及びドライブ１７の少なくともいずれかは省略されてもよい。モデル生成装置１は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、モデル生成装置１は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、ＰＣ（Personal Computer）、産業用ＰＣ（ＩＰＣ）等であってもよい。

＜推論装置＞
図３は、本実施形態に係る推論装置２のハードウェア構成の一例を模式的に例示する。図３に示されるとおり、本実施形態に係る推論装置２は、制御部２１、記憶部２２、通信インタフェース２３、外部インタフェース２４、入力装置２５、出力装置２６、及びドライブ２７が電気的に接続されたコンピュータである。

推論装置２の制御部２１～ドライブ２７及び記憶媒体９２はそれぞれ、上記モデル生成装置１の制御部１１～ドライブ１７及び記憶媒体９１それぞれと同様に構成されてよい。制御部２１は、ハードウェアプロセッサであるＣＰＵ、ＲＡＭ、ＲＯＭ等を含み、プログラム及びデータに基づいて各種情報処理を実行するように構成される。記憶部２２は、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部２２は、推論プログラム８２、学習結果データ１２５等の各種情報を記憶する。

推論プログラム８２は、訓練済みの推論モデル５を使用して推論タスクを遂行する後述の情報処理（図１１）を推論装置２に実行させるためのプログラムである。推論プログラム８２は、当該情報処理の一連の命令を含む。推論プログラム８２及び学習結果データ１２５の少なくともいずれかは、記憶媒体９２に記憶されていてもよい。また、推論装置２は、推論プログラム８２及び学習結果データ１２５の少なくともいずれかを記憶媒体９２から取得してもよい。

推論装置２は、通信インタフェース２３及び外部インタフェース２４の少なくともいずれかを介して、対象データ２２１を取得するためのデバイス（センサ、他のコンピュータ等）に接続されてよい。推論装置２は、入力装置２５及び出力装置２６の利用により、ユーザ等のオペレータからの操作及び入力を受け付けてよい。

なお、推論装置２の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部２１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ、ＤＳＰ等で構成されてよい。記憶部２２は、制御部２１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース２３、外部インタフェース２４、入力装置２５、出力装置２６、及びドライブ２７の少なくともいずれかは省略されてもよい。推論装置２は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、推論装置２は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ、産業用ＰＣ、ＰＬＣ（programmable logic controller）等であってもよい。

［ソフトウェア構成］
＜モデル生成装置＞
図４は、本実施形態に係るモデル生成装置１のソフトウェア構成の一例を模式的に例示する。モデル生成装置１の制御部１１は、記憶部１２に記憶されたモデル生成プログラム８１をＲＡＭに展開する。そして、制御部１１は、ＲＡＭに展開されたモデル生成プログラム８１に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これにより、図４に示されるとおり、本実施形態に係るモデル生成装置１は、データ取得部１１１、学習処理部１１２、及び保存処理部１１３をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、モデル生成装置１の各ソフトウェアモジュールは、制御部１１（ＣＰＵ）により実現される。

データ取得部１１１は、複数の学習データセット３を取得するように構成される。各学習データセット３は、訓練データ３１及び正解ラベル３２の組み合わせにより構成される。訓練データ３１は、推論タスク等に応じて適宜構成されてよい。正解ラベル３２は、訓練データ３１に対する推論タスクの正解（真値）を示すように構成される。

学習処理部１１２は、複数の学習データセット３を使用して、推論モデル５の機械学習を実施するように構成される。推論モデル５は、複数のパラメータを備える機械学習モデルにより構成される。推論モデル５の複数のパラメータの少なくとも一部が行列により表現可能であれば、推論モデル５の種類は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。

本実施形態では、推論モデル５の複数のパラメータの少なくとも一部が行列により表現可能に構成される。行列（以下、パラメータ行列とも称する）は、第１部分行列及び第２部分行列を含むように構成される。第１部分行列及び第２部分行列は、行及び列それぞれの要素の数が同一であるように構成される。機械学習は、各学習データセット３について、推論モデル５を使用して訓練データ３１に対して推論タスクを遂行した結果が正解ラベル３２により示される正解に適合すると共に、第２部分行列の各要素の値が、第１部分行列及び対角行列の積と一致するように調節されるように推論モデル５を訓練することにより構成される。

保存処理部１１３は、機械学習により生成された訓練済みの推論モデル５に関する情報を学習結果データ１２５として生成し、生成された学習結果データ１２５を所定の記憶領域に保存するように構成される。学習結果データ１２５は、訓練済みの推論モデル５を再生するための情報を含むように適宜構成されてよい。

（推論モデル）
図４に示されるとおり、推論モデル５の一例は、ニューラルネットワークにより構成されてよい。図４の例では、推論モデル５を構成するニューラルネットワークは、入力層５１、１つ以上の中間（隠れ）層５２、及び出力層５３を備える。中間層５２の数は、実施の形態に応じて適宜決定されてよい。各層５１～５３は、１又は複数のニューロン（ノード）を備えている。各層５１～５３に含まれるニューロンの数は、実施の形態に応じて適宜決定されてよい。また、各層５１～５３に含まれるニューロン間の接続関係も、実施の形態に応じて適宜決定されてよい。一例では、各層５１～５３に含まれる各ニューロンは、隣接する層の全てのニューロンと結合されてよい。これにより、推論モデル５は、全結合型ニューラルネットワークにより構成されてよい。

各層５１～５３の各結合には、重み（結合荷重）が設定される。各ニューロンには閾値が設定されており、基本的には、各入力と各重みとの積の和が閾値を超えているか否かによって各ニューロンの出力が決定される。閾値は、活性化関数により表現されてよい。この場合、各入力と各重みとの積の和を活性化関数に入力し、活性化関数の演算を実行することで、各ニューロンの出力が決定される。活性化関数の種類は任意に選択されてよい。各層５１～５３に含まれる各ニューロン間の結合の重みが、推論モデル５のパラメータの一例である。すなわち、推論モデル５がニューラルネットワークにより構成される場合、パラメータ行列の各要素は、ニューラルネットワークにおける各ニューロン間の結合の重みに対応するように構成されてよい。

なお、推論モデル５が、図４に例示されるニューラルネットワークにより構成される場合、各層５１～５３のパラメータが、別々の行列により表現可能である。この場合、機械学習の結果により、ニューラルネットワークを構成する各層５１～５３のうちの少なくともいずれかの層の少なくとも一部が、第１部分行列及び第２部分行列を含むパラメータ行列により構成されてよい。一例では、各層５１～５３が、互いに異なるパラメータ行列により構成されてよい。このとき、各パラメータ行列における上記（ｘ₁、ｘ₂）は、各層５１～５３に対する入力データに対応し、上記（ｙ₁、ｙ₂）は、各層５１～５３の演算結果（出力）に対応する。

機械学習では、学習処理部１１２は、各学習データセット３のうちの訓練データ３１を入力データとして使用し、正解ラベル３２を教師信号として使用する。すなわち、学習処理部１１２は、各学習データセット３の訓練データ３１を入力層５１に入力し、推論モデル５の順伝播の演算処理を実行する（順伝播のフェーズ）。この順伝播の演算処理の結果として、学習処理部１１２は、訓練データ３１に対して推論タスクを遂行した結果（すなわち、推論タスクの解を推論した結果）に対応する出力値を出力層５３から取得する。出力層５３から得られる出力値の形式は、推論結果を特定可能であれば、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。一例では、出力層５３の出力値は、推論結果を直接的に示すように構成されてもよい。他の一例では、出力層５３の出力値は、閾値処理等の任意の演算処理を介することで推論結果を間接的に示すように構成されてもよい。

学習処理部１１２は、得られた推論タスクの遂行結果と入力した訓練データ３１に対応付けられた正解ラベル３２により示される間の誤差を算出し、算出された誤差の勾配を更に算出する。そして、学習処理部１１２は、誤差逆伝播法により、算出された誤差の勾配を逆伝播して、各パラメータの値を調節する（逆伝播のフェーズ）。この調節の際に、学習処理部１１２は、第２部分行列の各要素の値が、第１部分行列及び対角行列の積と一致するように調節する。学習処理部１１２は、各学習データセット３について、算出される誤差の和が小さくなるように各パラメータの値を調節する上記一連の処理を繰り返す。この機械学習の結果として、推論タスクを遂行する能力を獲得し、かつ第２部分行列の各要素の値が第１部分行列及び対角行列の積と一致するように調節された訓練済みの推論モデル５を生成することができる。

保存処理部１１３は、上記機械学習により生成された訓練済みの推論モデル５を再生するための学習結果データ１２５を生成する。訓練済みの推論モデル５を再生可能であれば、学習結果データ１２５の構成は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。一例として、学習結果データ１２５は、上記機械学習の調節により得られた各パラメータの値を示す情報を含んでよい。このとき、第２部分行列の各要素の値は、第１部分行列及び対角行列の積と一致するため、第２部分行列を構成するパラメータの値を示す情報は省略可能である。すなわち、学習結果データ１２５は、上記機械学習の調節により得られた第１部分行列を構成するパラメータの値及び対角行列の対角成分の各値を示す情報を含むように構成されてよい。場合によって、学習結果データ１２５は、推論モデル５の構造を示す情報を更に含んでもよい。構造は、例えば、入力層から出力層までの層の数、各層の種類、各層に含まれるニューロンの数、隣接する層のニューロン同士の結合関係等により特定されてよい。保存処理部１１３は、生成された学習結果データ１２５を所定の記憶領域に保存する。

（第１部分行列及び第２部分行列の間の関係）
ここで、第１部分行列及び第２部分行列の間の関係の一例について説明する。本実施形態では、パラメータ行列の一部の要素が第１部分行列に対応し、残りのうちの少なくとも一部の要素が第２部分行列に対応していれば（すなわち、訓練済みの推論モデル５のパラメータ行列の少なくとも一部に比例関係が成立していれば）、パラメータの数を削減する効果を得ることができる。そのため、上記比例関係が、パラメータ行列の少なくとも一部に成立していればよい。ただし、効果的にパラメータの数を削減するためには、パラメータ行列内において、第１部分行列及び第２部分行列（特に、第２部分行列）に該当する範囲が広い方が好ましい。

図５Ａは、効果的にパラメータの数を削減するための、第１部分行列及び第２部分行列の設定方法の一例を示す。この設定方法では、パラメータ行列の少なくとも一部において、以下の条件（１）～（３）により定義されるスケーリング関係が成立するように、第１部分行列及び第２部分行列が設定される。
・条件（１）：行及び列それぞれの要素の数が同一である部分行列が行にＭ個ずつ及び列にＮ個ずつ並ぶように、パラメータ行列の少なくとも一部は、Ｍ×Ｎ個の部分行列に分割される。
・条件（２）：各列において、いずれかの行に配置される部分行列が、当該いずれかの行を除く他の行に配置される各部分行列に対応する第１部分行列を構成する。
・条件（３）：他の行に配置される各部分行列が、第２部分行列を構成する。

図５Ａの例において、Ｗは、パラメータ行列の少なくとも一部に対応し、Ｘは、当該一部に対する入力データに対応し、Ｙは、当該一部の演算結果（出力）に対応する。ｗ₁－ｗ_MNが、Ｍ×Ｎ個の部分行列に該当する。各部分行列ｗ₁－ｗ_MNの行及び列それぞれの要素の数は、各部分行列ｗ₁－ｗ_MN間で同一であれば、特に限定されなくてよく、実施の形態において適宜決定されてよい。各部分行列ｗ₁－ｗ_MNは、１×１行列（スカラー）であってもよい。各入力（ｘ₁－ｘ_N）の要素数は、各部分行列ｗ₁－ｗ_MNの列の要素数に対応する。

図５Ａの例では、各部分行列ｗ₁－ｗ_MNのうち、１行目の各部分行列ｗ₁－ｗ_Nが、各列における他の行（２行目以降の各行）の部分行列に対する第１部分行列を構成している。そして、残りの各部分行列ｗ_N+1－ｗ_MNが、該当列における１行目の部分行列（第１部分行列）に対する第２部分行列を構成している。つまり、１行目の部分行列ｗ_tは、２行目以降の各行の部分行列ｗ_rN+tに対する第１部分行列を構成し、各部分行列ｗ_rN+tは、部分行列ｗ_tに対する第２部分行列を構成している（ｔは、１からＮの自然数であり、ｒは、１からＭ－１の自然数である）。ａ_2,1－ａ_M,Nは、対角行列である。ａ_2,1－ａ_M,Nの要素数は、部分行列ｗ₁－ｗ_Nの行の要素数に対応する。

Ｍ及びＮの各値は、２以上の自然数であれば、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。一例では、Ｍ及びＮは、同一の素数Ｓであってよい。具体例として、Ｍ及びＮはそれぞれ、２であってよい（図１の例）。この場合、パラメータ行列の少なくとも一部の行及び列はそれぞれ２分割され、第１部分行列及び第２部分行列それぞれに対応する部分行列を容易に把握することができる。その他の一例では、Ｍ及びＮは、互いに異なる値であってよい。

なお、図５Ａの例では、各列の１行目に配置される部分行列が、各列の他の行（２行目以降の各行）に配置される部分行列に対する第１部分行列を構成し、各列の２行目以降の各行に配置される部分行列が、第２部分行列を構成している。しかしながら、第１部分行列及び第２部分行列の配置は、このような例に限定されなくてよい。各列において、第１部分行列は、２行目以降のいずれかの行に配置されてよい。また、図５Ａの例では、各列の同一行の部分行列が第１部分行列を構成しているが、第１部分行列の配置は、このような例に限定されなくてよい。すなわち、各列の間で、第１部分行列を構成する部分行列の配置される行は異なっていてもよい（例えば、１列目では、１行目の部分行列が第１部分行列を構成するのに対して、２列目では、２行目以降のいずれかの行の部分行列が第１部分行列を構成してもよい）。

パラメータの数を更に効果的に削減するため、パラメータ行列の少なくとも一部内において、上記スケーリング関係が再帰的に成立していてもよい（すなわち、各部分行列内で上記スケーリング関係が更に成立していてもよい）。スケーリング関係が再帰的に成立する回数は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。スケーリング関係の成立は、各部分行列が任意サイズの行列になるまで繰り返されてよい。この場合、任意サイズの行列は、「単位行列」と称してよい。ただし、パラメータの数を更により効果的に削減するためには、第１部分行列を構成する部分行列内でのスケーリング関係の成立が、各部分行列が１×１行列（スカラー）になるまで繰り返されるように、スケーリング関係が再帰的に成立していることが望ましい。これにより、推論モデル５の演算処理にかかる計算量を効果的に低減し、計算資源にかかる負担を抑えることができる。

図５Ｂは、４×４のパラメータ行列内において、各部分行列が１×１行列になるまでスケーリング関係が再帰的に成立する場面の一例を示す。まず、４×４のパラメータ行列Ｗは、２×２個の部分行列（サイズは２×２）に分割される。このうち、各列の１行目のＷ₁及びＷ₂が、第１部分行列を構成し、各列の２行目の部分行列が、第２部分行列を構成する。Ａ１及びＡ２（サイズは２×２）は、この段階で使用される対角行列である。これにより、４×４のパラメータ行列内では、スケーリング関係が成立している。そして、各第１部分行列（Ｗ₁、Ｗ₂）は、２×２個の部分行列（サイズは１×１）に更に分割される。このうち、各部分行列内の各列の１行目の部分行列（ｗ₁－ｗ₄）が、第１部分行列を構成し、各列の２行目の部分行列が、第２部分行列を構成する。ａ₁－ａ₄（サイズは１×１）は、この段階で使用される対角行列である。各第１部分行列（Ｗ₁、Ｗ₂）内では、スケーリング関係が更に成立している。対角行列の情報は、対角成分のみ保持すればよい。そのため、図５Ｂの例では、Ｗにおける１６個のパラメータを１２個（ｗ₁－ｗ₄、ａ₁－ａ₄、Ａ₁、Ａ₂）まで削減することができる。

なお、図５Ｂの例では、スケーリング関係が２段階で再帰的に成立し、各段階での分割数Ｍ×Ｎがそれぞれ同一（２×２）である。しかしながら、再帰的に成立する回数は、このような例に限定されなくてよく、実施の形態に応じて適宜決定されてよい。また、各段階における分割数Ｍ×Ｎは、少なくとも一部において異なっていてもよい。例えば、１段階目の分割数Ｍ₁×Ｎ₁と２段階目の分割数Ｍ₂×Ｎ₂との間で、Ｍ_i及びＮ_iの少なくともいずれか一方が異なっていてもよい。

図５Ｃは、スケーリング関係が再帰的に成立し、各段階で１行目の部分行列が第１部分行列を構成する場合における要素分割の一般化の一例を示す。Ｗ_j ⁱが、ｐ_i-1×ｑ_i-1個の部分行列（小行列とも記載する）に分割され、各段階で１行目の部分行列が第１部分行列を構成すると仮定した場合、各段階における該当行列Ｗ_j ⁱ内の小行列を、図５Ｃの式により表現することができる。ｉは、再帰の段階に対応する。ｉには、１からｌ＋１までの自然数が代入される。図５Ｃの要素分割は、ｉが２からｌ＋１までの範囲で成立する。ｌは、スケーリング関係が再帰的に成立する回数を示す。ｊは、各段階における該当行列の配置列の番号に対応する。ｊには、１からＪ_iまでの自然数が代入される。Ｊ_iは、以下の式１により示される。

Ｗ₁ ^l+1が、スケーリング関係により要素を分割する前のパラメータ行列の少なくとも一部（すなわち、パラメータ行列のうちのスケーリング関係が再帰的に成立する範囲の部分）に対応する。Ｗ_j ^l－Ｗ_j ¹が、各段階における第１部分行列に対応する。ｋ（ｉ，ｊ）（＝ｑ_i-1×（ｊ－１））は、同一段階の他の行列（例えば、Ｗ_j-1 ⁱ）との間で該当行列Ｗ_j ⁱ内の小行列を連続番号で表示するためのオフセットである。Ａ_g ^i-1は、サイズＭ_i-1×Ｍ_i-1の対角行列である。ｇは、（２，ｋ（ｉ，ｊ）＋１）－（ｐ_i-1，ｋ（ｉ，ｊ）＋ｑ_i-1）である。１段階前の要素数との関係で、Ｗ_j ⁱの行の要素数Ｍ_iは、Ｍ_i+1／ｐ_iと表現でき、Ｗ_j ⁱの列の要素数Ｎ_iは、Ｎ_i+1／ｑ_iと表現できる。最終の分割におけるＷ_j ¹は、１×１行列（スカラー）であってよい。この場合、Ｗ₁ ^l+1の行の要素数は、ｐ₁×・・・×ｐ_lであり、Ｗ₁ ^l+1の列の要素数は、ｑ₁×・・・×ｑ_lである。スケーリング関係がこのように再帰的に成立する場合、最終の分割におけるＷ_j ¹及び各段階の対角行列Ａ_g ¹－Ａ_g ^lの情報を学習結果データ１２５として保持すれば、訓練済みの推論モデル５を再生して、パラメータ行列の少なくとも一部の演算処理を実行することができる。つまり、パラメータ行列の少なくとも一部のパラメータ数をｐ₁×・・・×ｐ_l×ｑ₁×・・・×ｑ_lからＷ_j ¹及び各段階の対角行列Ａ_g ¹－Ａ_g ^lの要素数まで削減することができる。

各段階におけるｐ_i-1及びｑ_i-1は、各段階における分割数Ｍ及びＮに対応する。ｐ_i-1及びｑ_i-1の値は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。各段階における分割数は、各段階間で同一であってもよいし、或いは異なっていてもよい。ｐ_i-1及びｑ_i-1の値は、互いに同一であってもよいし、或いは異なっていてもよい。一例として、ｐ_i-1及びｑ_i-1は、同一の素数Ｓであってよく、各段階間で分割数は同一であってもよい。例えば、素数Ｓは、２であってよい。この場合、パラメータ行列の少なくとも一部（Ｗ₁ ^l+1）は、要素の数が素数Ｓのべき乗（Ｓ^2l）である正方行列により構成される。これにより、第１部分行列及び第２部分行列それぞれに対応する部分行列を容易に把握することができる。

なお、以下では、説明の便宜のため、特に明示しない限り、各段階における各列の第１部分行列を構成する部分行列の配置は１行目であり、２行目以降の部分行列は第２部分行列を構成すると仮定する。ただし、各段階における各列の第１部分行列を構成する部分行列の配置は、１行目に限られなくてもよい。各段階における各列の第１部分行列は、２行目以降のいずれかに配置されてよい。各列の第１部分行列の配置は、各段階間で同一であってもよいし、或いは異なっていてもよい。また、最終の分割におけるＷ_j ¹は、１×１行列に限られなくてよい。他の一例では、最終の分割におけるＷ_j ¹は、任意のサイズの行列であってよい。

＜推論装置＞
図６は、本実施形態に係る推論装置２のソフトウェア構成の一例を模式的に例示する。推論装置２の制御部２１は、記憶部２２に記憶された推論プログラム８２をＲＡＭに展開する。そして、制御部２１は、ＲＡＭに展開された推論プログラム８２に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これにより、図６に示されるとおり、本実施形態に係る推論装置２は、データ取得部２１１、推論部２１２、及び出力部２１３をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、推論装置２の各ソフトウェアモジュールも、モデル生成装置１と同様に、制御部２１（ＣＰＵ）により実現される。

データ取得部２１１は、対象データ２２１を取得するように構成される。推論部２１２は、学習結果データ１２５を保持していることで、機械学習により訓練済みの推論モデル５を備えている。推論部２１２は、訓練済みの推論モデル５を使用して、取得された対象データ２２１に対して推論タスクを遂行するように構成される。出力部２１３は、推論タスクを遂行した結果に関する情報を出力するように構成される。

＜その他＞
モデル生成装置１及び推論装置２の各ソフトウェアモジュールに関しては後述する動作例で詳細に説明する。なお、本実施形態では、モデル生成装置１及び推論装置２の各ソフトウェアモジュールがいずれも汎用のＣＰＵによって実現される例について説明している。しかしながら、上記ソフトウェアモジュールの一部又は全部が、１又は複数の専用のプロセッサ（例えば、グラフィックスプロセッシングユニット）により実現されてもよい。上記各モジュールは、ハードウェアモジュールとして実現されてもよい。また、モデル生成装置１及び推論装置２それぞれのソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。

§３動作例
［モデル生成装置］
図７は、本実施形態に係るモデル生成装置１による機械学習に関する処理手順の一例を示すフローチャートである。以下で説明するモデル生成装置１の処理手順は、モデル生成方法の一例である。ただし、以下で説明するモデル生成装置１の処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が行われてよい。

（ステップＳ１０１）
ステップＳ１０１では、制御部１１は、データ取得部１１１として動作し、訓練データ３１及び当該訓練データ３１に対する推論タスクの正解を示す正解ラベル３２の組み合わせによりそれぞれ構成される複数の学習データセット３を取得する。

各学習データセット３は、適宜生成されてよい。例えば、実空間又は仮想空間において推論タスクを遂行する環境を想定し、当該環境において任意の対象を観測することで、訓練データ３１（訓練サンプル）を取得することができる。観測対象は、推論タスクに応じて適宜選択されてよい。訓練データ３１の取得には任意のセンサが用いられてよい。一例として、推論タスクが製品の外観検査である場合、欠陥の存在する又は存在しない製品をカメラにより撮影することで、訓練データ３１を取得することができる。次に、取得された訓練データ３１に対して推論タスクを遂行した結果（正解／真値）を示す情報を正解ラベル３２として取得する。この場面では、推論タスクの遂行はオペレータ等の人手により行われてよい。そして、得られた正解ラベル３２を当該訓練データ３１に関連付ける。これにより、各学習データセット３を生成することができる。

各学習データセット３は、コンピュータの動作により自動的に生成されてもよいし、或いは少なくとも部分的にオペレータの操作を含むことで手動的に生成されてもよい。また、各学習データセット３の生成は、モデル生成装置１により行われてもよいし、モデル生成装置１以外の他のコンピュータにより行われてもよい。各学習データセット３をモデル生成装置１が生成する場合、制御部１１は、自動的に又は入力装置１５を介したオペレータの操作により手動的に上記一連の生成処理を実行することで、複数の学習データセット３を取得する。一方、各学習データセット３を他のコンピュータが生成する場合、制御部１１は、例えば、ネットワーク、記憶媒体９１等を介して、他のコンピュータにより生成された複数の学習データセット３を取得する。一部の学習データセット３がモデル生成装置１により生成され、その他の学習データセット３が１又は複数の他のコンピュータにより生成されてもよい。

取得する学習データセット３の件数は任意に選択されてよい。複数の学習データセット３を取得すると、制御部１１は、次のステップＳ１０２に処理を進める。

（ステップＳ１０２）
ステップＳ１０２では、制御部１１は、学習処理部１１２として動作し、複数の学習データセット３を使用して、推論モデル５の機械学習を実施する。本実施形態では、機械学習は、各学習データセット３について、推論モデル５を使用して訓練データ３１に対して推論タスクを遂行した結果が正解ラベル３２により示される正解に適合すると共に、第２部分行列の各要素の値が、第１部分行列及び対角行列の積と一致するように調節されるように推論モデル５を訓練することにより構成される。

上記スケーリング関係が成立する訓練済みの推論モデル５を生成する場合、推論モデル５を訓練することは、スケーリング関係が成立するようにパラメータ行列の少なくとも一部の各要素の値を調節することを含む。更に、上記スケーリング関係が再帰的に成立する訓練済みの推論モデル５を生成する場合には、推論モデル５を訓練することは、第１部分行列を構成する部分行列内でのスケーリング関係の成立が繰り返されることにより、パラメータ行列の少なくとも一部内でスケーリング関係が再帰的に成立するようにパラメータ行列の少なくとも一部の各要素の値を調節することを含む。このスケーリング関係の再帰的な成立は、各部分行列が１×１行列（スカラー）になるまで繰り返されてよい。すなわち、スケーリング関係による最終的な分割により得られる第１部分行列（Ｗ_j ¹）は、１×１行列であってよい。機械学習の方法は、推論モデル５を構成する機械学習モデルの種類に応じて適宜選択されてよい。

一例では、推論モデル５の訓練（パラメータ行列の少なくとも一部の各要素の値を調節すること）は、
・推論モデル５の初期設定を行う（各パラメータに初期値を与える）こと、
・順伝播のフェーズにおいて、各学習データセット３の訓練データ３１に対して推論タスクを試行的に遂行した結果を導出すること、並びに
・逆伝播のフェーズにおいて、導出された推論タスクの遂行結果及び対応する正解ラベル３２により示される正解の間の誤差の勾配を逆伝播することにより、推論モデル５のパラメータ（パラメータ行列の少なくとも一部の各要素及び対角行列の各要素）の値を調節すること、
により構成される。

（初期設定）
まず、制御部１１は、機械学習の処理対象となる推論モデル５の初期設定を行う。本実施形態では、制御部１１は、ニューラルネットワークの構造（例えば、層の数、各層の種類、各層に含まれるニューロンの数、隣接する層のニューロン同士の結合関係等）及び各ニューロン間の結合の重みの初期値は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。また、再学習を行う場合には、制御部１１は、過去の機械学習により得られた学習結果データに基づいて、ニューラルネットワークの初期設定を行ってもよい。

本実施形態では、パラメータ行列の各要素は、各ニューロン間の結合の重みに対応する。そのため、各ニューロン間の結合の重みの初期値を与えることは、パラメータ行列の各要素の初期値を与えることに対応する。第２部分行列は第１部分行列及び対角行列の積で表現されるため、第２部分行列に対応する要素の初期値を与えることは省略されてよい。つまり、各ニューロン間の結合の重みの初期値を与えることは、第１部分行列に対応する要素及び対角行列の対角成分の各要素の初期値を与えることにより構成されてよい。

スケーリング関係が再帰的に成立する訓練済みの推論モデル５を生成する場合には、制御部１１は、スケーリング関係が再帰的に成立するようにパラメータ行列の少なくとも一部の各要素の初期値を与える。具体例として、制御部１１は、最終の分割（すなわち、最終的に成立するスケーリング関係）において第１部分行列を構成するＷ_j ¹の各要素及び各段階で使用される対角行列の各要素の初期値を与える。

（順伝播のフェーズ）
次に、順伝播のフェーズでは、制御部１１は、各学習データセット３の訓練データ３１を入力層５１に入力し、推論モデル５の順伝播の演算処理を実行する。この順伝播の演算処理の際、まず、制御部１１は、第１部分行列を構成する部分行列及び入力ベクトルの積を計算する。パラメータ行列が入力層５１に対応する場合、入力ベクトルは、各学習データセット３の訓練データ３１である。パラメータ行列が中間層５２又は出力層５３に対応する場合、入力ベクトルは、対応する層の前の層の計算結果（出力）である。次に、制御部１１は、第１部分行列の積の結果及び対角行列の対応する要素の積を計算することで、第２部分行列を構成する部分行列及び入力ベクトルの積を導出する。つまり、制御部１１は、第１部分行列の積の結果及び対角行列を掛け算し、掛け算により得られた計算結果を、第２部分行列及び入力ベクトルの積の結果として取得する。

スケーリング関係が再帰的に成立する訓練済みの推論モデル５を生成する場合、順伝播のフェーズの演算は、以下の第１ステップ～第５ステップの演算により構成されてよい。
・第１ステップ：スケーリング関係を再帰的に成立させるパラメータ行列の少なくとも一部内において、初期の第１部分行列を構成する部分行列及び入力ベクトルの積を計算する
・第２ステップ：得られた初期の第１部分行列の積の結果及び対角行列の対応する要素の積を計算することで、初期の第２部分行列を構成する部分行列及び入力ベクトルの積を導出する
・第３ステップ：再帰的繰り返しの対象の段階で得られた第１部分行列の積の結果及び第２部分行列の積の結果から次の段階の第１部分行列を構成する部分行列及び入力ベクトルの積を導出する
・第４ステップ：得られた次の段階の第１部分行列の積の結果及び対角行列の対応する要素の積を計算することで、次の段階の第２部分行列を構成する部分行列及び入力ベクトルの積を導出する
・第５ステップ：対象の段階で得られた第１部分行列の積の結果及び第２部分行列の積の結果それぞれの初期値として、第１ステップ及び第２ステップそれぞれで得られた初期の第１部分行列の積の結果及び初期の第２部分行列の積の結果それぞれを代入し、かつ第３ステップ及び第４ステップを再帰的に繰り返す（すなわち、得られた次の段階の各部分行列の積の結果を新たな対象の段階の各部分行列の積の結果として代入し、第３ステップ及び第４ステップの処理を繰り返す）ことで、パラメータ行列の少なくとも一部及び入力ベクトルの積を導出する
なお、初期の第１部分行列及び初期の第２部分行列は、１×１行列により構成されてよい。

（逆伝播のフェーズ）
逆伝播のフェーズでは、制御部１１は、順伝播のフェーズにより得られた推論タスクの遂行結果と入力した訓練データ３１に対応付けられた正解ラベル３２により示される正解との間の誤差を算出し、算出された誤差の勾配を更に算出する。そして、制御部１１は、誤差逆伝播法により、算出された誤差の勾配を逆伝播して、各パラメータの値を調節する。この調節の際に、制御部１１は、第２部分行列の各要素の値が、第１部分行列及び対角行列の積と一致するように各パラメータの値を調節する。つまり、制御部１１は、第２部分行列の各要素に対応するように第１部分行列及び対角行列の各要素の値を調節する。

スケーリング関係が再帰的に成立する訓練済みの推論モデル５を生成する場合、逆伝播のフェーズの演算は、以下の第１ステップ～第８ステップの演算により構成されてよい。
・第１ステップ：パラメータ行列の少なくとも一部及び入力ベクトルの積に対する誤差の勾配を取得する
・第２ステップ：取得された誤差の勾配の対応する各要素、並びに順伝播のフェーズの第５ステップの再帰的繰り返しの最終の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の値に基づいて、当該最終の段階で使用される（すなわち、最終の段階の第１部分行列に掛け算される）対角行列の各要素についての誤差の勾配を導出する
・第３ステップ：取得された誤差の勾配及び最終の段階で使用される対角行列の各要素の値に基づいて、最終の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配を導出する
・第４ステップ：取得された誤差の勾配、順伝播のフェーズの再帰的繰り返しの対象の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の値、並びに順伝播のフェーズの再帰的繰り返しにおいて当該対象の段階の次の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配に基づいて、当該対象の段階で使用される対角行列の各要素についての誤差の勾配を導出する
・第５ステップ：取得された誤差の勾配、対象の段階で使用される対角行列の各要素の値、並びに次の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配に基づいて、対象の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配を導出する
・第６ステップ：次の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配の初期値として、逆伝播のフェーズの第３ステップで導出される、最終の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配を代入し、かつ順伝播のフェーズの再帰的繰り返しの初期の段階で使用される対角行列の各要素についての誤差の勾配を導出するまで、逆伝播のフェーズの第４ステップ及び第５ステップを再帰的に繰り返すことで、各段階で使用される対角行列の各要素についての誤差の勾配を導出する
・第７ステップ：入力ベクトル、並びに第６ステップにより導出される、初期の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配に基づいて、初期の第１部分行列を構成する部分行列の要素についての誤差の勾配を導出する
・第８ステップ：各段階で使用される対角行列の各要素及び初期の第１部分行列を構成する部分行列の要素それぞれについて導出された誤差の勾配に基づいて、各段階で使用される対角行列の各要素及び初期の第１部分行列を構成する部分行列の要素それぞれの値を調節する
パラメータ行列が出力層５３に対応する場合、第１ステップの誤差の勾配は、順伝播のフェーズにより得られた推論タスクの遂行結果と入力した訓練データ３１に対応付けられた正解ラベル３２により示される正解との間の誤差から算出される。パラメータ行列が中間層５２又は入力層５１に対応する場合、第１ステップの誤差の勾配は、対応する層の後の層から逆伝播される勾配である。なお、上記のとおり、初期の第１部分行列は、１×１行列により構成されてよい。

（Ａ）第１具体例（２×２行列）
まず、図８Ａ及び図８Ｂを用いて、簡単なケース（２×２行列）でスケーリング関係が成立する場合の順伝播及び逆伝播の演算過程の一例について説明する。図８Ａ及び図８Ｂは、スケーリング関係が成立するパラメータ行列（２×２行列）の順伝播及び逆伝播のフェーズにおける演算過程の一例を示す。本ケースは、図１の各部分行列ｗ₁－ｗ₄が１×１行列であるケースに相当する。

順伝播のフェーズでは、制御部１１は、第１部分行列を構成する部分行列（ｗ₁、ｗ₂）及び入力ベクトル（ｘ₁、ｘ₂）の積を計算する。それぞれの要素を以下の式２及び式３のとおり表現すると、この計算によって、Ｙ₁ ¹及びＹ₂ ¹を得ることができる。

続いて、制御部１１は、第１部分行列の積の演算結果（Ｙ₁ ¹、Ｙ₂ ¹）及び対角行列の対応する要素（ａ₁、ａ₂）の積を計算することで、第２部分行列を構成する部分行列及び入力ベクトルの積（Ｚ₁ ¹、Ｚ₂ ¹）を導出する。図８Ａは、これまでの演算過程を例示する。この演算処理の結果、パラメータ行列及び入力ベクトルの積の結果（ｙ₁、ｙ₂）を導出することができる。パラメータ行列が入力層５１又は中間層５２に対応する場合、制御部１１は、得られた積の結果を次の層に順伝播する。一方、パラメータ行列が出力層５３に対応する場合、制御部１１は、推論タスクの遂行結果として積の結果を取得する。

逆伝播のフェーズでは、制御部１１は、パラメータ行列及び入力ベクトルの積に対する誤差Ｌの勾配（∂Ｌ／∂ｙ₁、∂Ｌ／∂ｙ₂）を取得する。上記のとおり、パラメータ行列が出力層５３に対応する場合、制御部１１は、順伝播のフェーズにより得られた推論タスクの遂行結果と対応する正解ラベル３２により示される正解との間の誤差を偏微分することで、誤差の勾配（∂Ｌ／∂ｙ₁、∂Ｌ／∂ｙ₂）を得ることができる。一方、パラメータ行列が中間層５２又は入力層５１の場合、制御部１１は、対応する層の後の層から逆伝播される勾配を誤差の勾配（∂Ｌ／∂ｙ₁、∂Ｌ／∂ｙ₂）として得ることができる。

対角行列の要素（∂Ｌ／∂ａ₁）は、チェイン・ルールにより上記式４及び式５により表現することができる。上記式３から（∂ｙ₂／∂Ｚ₁ ¹）は、１である。したがって、（∂Ｌ／∂Ｚ₁ ¹）は、（∂Ｌ／∂ｙ₂）となる。また、上記式２から（∂Ｚ₁ ¹／∂ａ₁）は、（Ｙ₁ ¹）となる。よって、（∂Ｌ／∂ａ₁）は、（∂Ｌ／∂ｙ₂）×（Ｙ₁ ¹）となる。対角行列の他方の要素（∂Ｌ／∂ａ₂）も同様に演算すると、（∂Ｌ／∂ａ₂）は、（∂Ｌ／∂ｙ₂）×（Ｙ₂ ¹）となる。そのため、制御部１１は、取得された誤差の勾配の対応する各要素（∂Ｌ／∂ｙ₂）、並びに第１部分行列を構成する部分行列及び入力ベクトルの積の値（Ｙ₁ ¹、Ｙ₂ ¹）に基づいて、対角行列の各要素についての誤差の勾配（∂Ｌ／∂ａ₁、∂Ｌ／∂ａ₂）を導出することができる。

続いて、制御部１１は、第１部分行列を構成する部分行列の各要素についての誤差の勾配（∂Ｌ／∂ｗ₁、∂Ｌ／∂ｗ₂）を算出する。第１部分行列の誤差の勾配のうち（∂Ｌ／∂ｗ₁）は、チェイン・ルールにより上記式６及び式７により表現することができる。図８Ａに示されるとおり、Ｙ₁ ¹の変化は、ｙ₁及びＺ₁ ¹に伝達される。そのため、（∂Ｌ／∂Ｙ₁ ¹）は、式７により表現される。

上記式３から（∂ｙ₁／∂Ｙ₁ ¹）は、１である。上記式２から（∂Ｚ₁ ¹／∂Ｙ₁ ¹）は、ａ₁である。また、（∂Ｙ₁ ¹／∂ｗ₁）は、ｘ₁である。したがって、（∂Ｌ／∂Ｙ₁ ¹）は、「（∂Ｌ／∂ｙ₁）＋（∂Ｌ／∂Ｚ₁ ¹）×ａ₁」となり、（∂Ｌ／∂ｗ₁）は、「（∂Ｌ／∂Ｙ₁ ¹）×ｘ₁」となる。同様に、（∂Ｌ／∂Ｙ₂ ¹）は、「（∂Ｌ／∂ｙ₁）＋（∂Ｌ／∂Ｚ₂ ¹）×ａ₂」となり、（∂Ｌ／∂ｗ₂）は、「（∂Ｌ／∂Ｙ₂ ¹）×ｘ₂」となる。（∂Ｌ／∂Ｚ₁ ¹）及び（∂Ｌ／∂Ｚ₂ ¹）は、先の演算（例えば、式５）により既に計算されている。そこで、制御部１１は、取得された誤差の勾配（∂Ｌ／∂ｙ₁、∂Ｌ／∂ｙ₂）及び対角行列の各要素の値（ａ₁、ａ₂）に基づいて、第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配（∂Ｌ／∂Ｙ₁ ¹、∂Ｌ／∂Ｙ₂ ¹）を導出する。そして、制御部１１は、入力ベクトル（ｘ₁、ｘ₂）、並びに第１部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ₁ ¹、∂Ｌ／∂Ｙ₂ ¹）に基づいて、第１部分行列を構成する部分行列の各要素についての誤差の勾配（∂Ｌ／∂ｗ₁、∂Ｌ／∂ｗ₂）を導出する。

更に、制御部１１は、前の層に誤差を逆伝播するため、入力ベクトルについての誤差の勾配を算出する。入力ベクトルについての誤差の勾配のうち（∂Ｌ／∂ｘ₁）は、チェイン・ルールにより上記式８により表現することができる。（∂Ｌ／∂Ｙ₁ ¹）は、先の演算により既に計算済みである。上記式２により、（∂Ｙ₁ ¹／∂ｘ₁）は、ｗ₁である。そのため、（∂Ｌ／∂ｘ₁）は、「（∂Ｌ／∂Ｙ₁ ¹）×ｗ₁」となる。同様に、（∂Ｌ／∂ｘ₂）は、「（∂Ｌ／∂Ｙ₂ ¹）×ｗ₂」となる。そこで、制御部１１は、第１部分行列を構成する部分行列の各要素の値（ｗ₁、ｗ₂）、並びに第１部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ₁ ¹、∂Ｌ／∂Ｙ₂ ¹）に基づいて、入力ベクトルについての誤差の勾配（∂Ｌ／∂ｘ₁、∂Ｌ／∂ｘ₂）を算出する。パラメータ行列が中間層５２又は出力層５３に対応する場合、制御部１１は、算出された誤差の勾配を前の層に逆伝播する。図８Ｂは、これまでの演算過程を例示する。この演算処理の結果、第１部分行列の各要素及び対角行列の各要素を調節するためのそれぞれの誤差の勾配を得ることができる。制御部１１は、得られた誤差の勾配により、各パラメータ（第１部分行列の各要素及び対角行列の各要素）の値を調節する。

（Ｂ）第２具体例（４×４行列）
次に、図９Ａ及び図９Ｂを用いて、簡単なケース（４×４行列）でスケーリング関係が再帰的に成立する場合の順伝播及び逆伝播の演算過程の一例について説明する。図９Ａ及び図９Ｂは、スケーリング関係が再帰的に成立するパラメータ行列（４×４行列）の順伝播及び逆伝播のフェーズにおける演算過程の一例を示す。本ケースは、図５Ｂの最終の分割における各部分行列（ｗ₁－ｗ₄等）が１×１行列であるケースに相当する。

順伝播のフェーズでは、制御部１１は、初期の第１部分行列を構成する部分行列（ｗ₁－ｗ₄）及び入力ベクトル（ｘ₁－ｘ₄）の積を計算する。この計算は、上記順伝播フェーズの第１ステップの演算に相当する。それぞれの要素を以下の式９及び式１０のとおり表現すると、この計算によって、初期の第１部分行列の積の結果（Ｙ₁ ¹、Ｙ₂ ¹、Ｙ₃ ¹、Ｙ₄ ¹）を得ることができる。

続いて、制御部１１は、第１部分行列の積の演算結果（Ｙ₁ ¹－Ｙ₄ ¹）及び対角行列の対応する各要素（ａ₁－ａ₄）の積を計算することで、初期の第２部分行列を構成する部分行列及び入力ベクトルの積（Ｚ₁ ¹－Ｚ₄ ¹）を導出する。この計算は、上記順伝播フェーズの第２ステップの演算に相当する。（ｗ₁、ｗ₂、ａ₁ｗ₁、ａ₂ｗ₂）及び（ｗ₃、ｗ₄、ａ₃ｗ₃、ａ₄ｗ₄）それぞれが、次の段階の第１部分行列（Ｗ₁、Ｗ₂）に相当する。次の段階の第１部分行列の各要素は、以下の式１１及び式１２により表現することができる。

そこで、制御部１１は、初期の第１部分行列の積の結果（Ｙ₁ ¹－Ｙ₄ ¹）及び第２部分行列の積の結果（Ｚ₁ ¹－Ｚ₄ ¹）から次の段階の第１部分行列を構成する部分行列及び入力ベクトルの積（Ｙ₁ ²－Ｙ₄ ²）を導出する。この計算は、対象の段階で得られた第１部分行列の積の結果及び第２部分行列の積の結果それぞれの初期値として、第１ステップ及び第２ステップそれぞれで得られた初期の第１部分行列の積の結果及び初期の第２部分行列の積の結果それぞれを代入して実行する上記順伝播フェーズの第３ステップの演算に相当する。

そして、制御部１１は、得られた次の段階の第１部分行列の積の結果（Ｙ₁ ²－Ｙ₄ ²）及び対角行列の対応する各要素（Ａ₁、Ａ₂）の積を計算することで、次の段階の第２部分行列を構成する部分行列及び入力ベクトルの積（Ｚ₁ ²－Ｚ₄ ²）を導出する。この計算は、上記順伝播フェーズの第４ステップの演算に相当する。第２部分行列の積は、以下の式１３により表現することができる。

本ケースでは、スケーリング関係が再帰的に成立する回数が１回であるため、当該演算処理により、上記順伝播フェーズの第５ステップの演算が達成される。つまり、制御部１１は、パラメータ行列及び入力ベクトルの積の結果（ｙ₁－ｙ₄）を導出することができる。図９Ａは、これまでの演算過程を例示する。パラメータ行列が入力層５１又は中間層５２に対応する場合、制御部１１は、得られた積の結果を次の層に順伝播する。一方、パラメータ行列が出力層５３に対応する場合、制御部１１は、推論タスクの遂行結果として積の結果を取得する。

逆伝播のフェーズでは、制御部１１は、パラメータ行列及び入力ベクトルの積に対する誤差Ｌの勾配（∂Ｌ／∂ｙ₁－∂Ｌ／∂ｙ₄）を取得する。取得方法は、上記第１具体例と同様である。この処理は、上記逆伝播フェーズの第１ステップの処理に相当する。

続いて、制御部１１は、最終の段階で使用される対角行列（Ａ₁、Ａ₂）の各要素についての誤差の勾配を導出する。対角行列Ａ₁の対角成分をdiag（Ａ₁₁、Ａ₁₂）と表現し、対角行列Ａ₂の対角成分をdiag（Ａ₂₁、Ａ₂₂）と表現すると、上記第１具体例と同様に、チェイン・ルールにより、最終段階での第２部分行列の誤差の勾配（∂Ｌ／∂Ｚ₁ ²－∂Ｌ／∂Ｚ₄ ²）を経由して、各要素の勾配（∂Ｌ／∂Ａ₁₁、∂Ｌ／∂Ａ₁₂、∂Ｌ／∂Ａ₂₁、∂Ｌ／∂Ａ₂₂）は、以下の式１４－式１７を満たす。

そのため、制御部１１は、取得された誤差の勾配の対応する各要素（∂Ｌ／∂ｙ₃、∂Ｌ／∂ｙ₄）、並びに順伝播のフェーズの第５ステップの再帰的繰り返しの最終の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の値（Ｙ₁ ²－Ｙ₄ ²）に基づいて、当該最終の段階で使用される対角行列の各要素についての誤差の勾配（∂Ｌ／∂Ａ₁₁、∂Ｌ／∂Ａ₁₂、∂Ｌ／∂Ａ₂₁、∂Ｌ／∂Ａ₂₂）を導出する。この演算は、上記逆伝播フェーズの第２ステップに相当する。第１部分行列の積の値（Ｙ₁ ²－Ｙ₄ ²）は、順伝播のフェーズにより計算済みである。

同様に、チェイン・ルールにより、最終の段階での第２部分行列の積についての誤差の勾配（∂Ｌ／∂Ｚ₁ ²－∂Ｌ／∂Ｚ₄ ²）を経由して、最終の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配（∂Ｌ／∂Ｙ₁ ²－∂Ｌ／∂Ｙ₄ ²）は、以下の式１８－式２１を満たす。

そのため、制御部１１は、取得された誤差の勾配の対応する各要素（∂Ｌ／∂ｙ₃、∂Ｌ／∂ｙ₄）及び最終の段階で使用される対角行列の各要素の値（Ａ₁₁、Ａ₁₂、Ａ₂₁、Ａ₂₂）に基づいて、最終の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配（∂Ｌ／∂Ｙ₁ ²－∂Ｌ／∂Ｙ₄ ²）を導出する。この演算は、上記逆伝播フェーズの第３ステップに相当する。

次に、制御部１１は、１つ前の段階（対象の段階）で使用される対角行列の各要素についての誤差の勾配（∂Ｌ／∂ａ₁－∂Ｌ／∂ａ₄）を導出する。チェイン・ルールにより、当該段階での第２部分行列の積についての誤差の勾配（∂Ｌ／∂Ｚ₁ ¹－∂Ｌ／∂Ｚ₄ ¹）を経由して、各要素の誤差の勾配（∂Ｌ／∂ａ₁－∂Ｌ／∂ａ₄）は、以下の式２２－式２５を満たす。

そのため、制御部１１は、取得された誤差の勾配（∂Ｌ／∂ｙ₂）、対象の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の値（Ｙ₁ ¹－Ｙ₄ ¹）、並びに対象の段階の次の段階（この場合は、最終の段階）で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ₂ ²、∂Ｌ／∂Ｙ₄ ²）に基づいて、対象の段階で使用される対角行列の各要素についての誤差の勾配（∂Ｌ／∂ａ₁－∂Ｌ／∂ａ₄）を導出する。この演算は、次の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配の初期値として、上記第３ステップで導出される、最終の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配を代入して実行する上記逆伝播フェーズの第４ステップの演算に相当する。第１部分行列の積の値（Ｙ₁ ¹－Ｙ₄ ¹）は、順伝播のフェーズにより計算済みである。

次に、制御部１１は、対象の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配（∂Ｌ／∂Ｙ₁ ¹－∂Ｌ／∂Ｙ₄ ¹）を導出する。チェイン・ルールにより、当該段階での第２部分行列の積についての誤差の勾配（∂Ｌ／∂Ｚ₁ ¹－∂Ｌ／∂Ｚ₄ ¹）を経由して、対象の段階での第１部分行列の積についての誤差の勾配（∂Ｌ／∂Ｙ₁ ¹－∂Ｌ／∂Ｙ₄ ¹）は、以下の式２６－式２９を満たす。

そのため、制御部１１は、取得された誤差の勾配（∂Ｌ／∂ｙ₁、∂Ｌ／∂ｙ₂）、対象の段階で使用される対角行列の各要素の値（ａ₁－ａ₄）、並びに次の段階（この場合は、最終の段階）で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ₁ ²－∂Ｌ／∂Ｙ₄ ²）に基づいて、対象の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配（∂Ｌ／∂Ｙ₁ ¹－∂Ｌ／∂Ｙ₄ ¹）を導出する。この演算は、上記逆伝播フェーズの第５ステップの演算に相当する。本ケースでは、スケーリング関係が再帰的に成立する回数が１回であるため、当該演算処理により、上記逆伝播フェーズの第６ステップの演算が達成される。つまり、これまでの処理により、各段階で使用される対角行列の各要素についての誤差の勾配（∂Ｌ／∂Ａ₁₁、∂Ｌ／∂Ａ₁₂、∂Ｌ／∂Ａ₂₁、∂Ｌ／∂Ａ₂₂、∂Ｌ／∂ａ₁－∂Ｌ／∂ａ₄）、並びに初期の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ₁ ¹－∂Ｌ／∂Ｙ₄ ¹）が導出される。

次に、制御部１１は、初期の第１部分行列を構成する部分行列の要素についての誤差の勾配（∂Ｌ／∂ｗ₁－∂Ｌ／∂ｗ₄）を導出する。チェイン・ルールにより、初期の第１部分行列の誤差の勾配（∂Ｌ／∂ｗ₁－∂Ｌ／∂ｗ₄）は、以下の式３０－式３３を満たす。

そのため、制御部１１は、入力ベクトル（ｘ₁－ｘ₄）、並びに第６ステップにより導出される、初期の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ₁ ¹－∂Ｌ／∂Ｙ₄ ¹）に基づいて、初期の第１部分行列を構成する部分行列の要素についての誤差の勾配（∂Ｌ／∂ｗ₁－∂Ｌ／∂ｗ₄）を導出する。この演算は、上記逆伝播フェーズの第７ステップに相当する。これまでの演算により、パラメータ行列の調節（更新）に使用される誤差の勾配、すなわち、初期の第１部分行列を構成する部分行列の要素及び各段階で使用される対角行列の各要素についての誤差の勾配（本ケースでは、∂Ｌ／∂ｗ₁－∂Ｌ／∂ｗ₄、∂Ｌ／∂Ａ₁₁、∂Ｌ／∂Ａ₁₂、∂Ｌ／∂Ａ₂₁、∂Ｌ／∂Ａ₂₂、∂Ｌ／∂ａ₁－∂Ｌ／∂ａ₄）の情報を得ることができる。制御部１１は、各段階で使用される対角行列の各要素及び初期の第１部分行列を構成する部分行列の要素それぞれについて導出された誤差の勾配に基づいて、各段階で使用される対角行列の各要素及び初期の第１部分行列を構成する部分行列の要素それぞれの値を、推論結果との誤差が小さくなる方向に調節する。調節量は、学習率により適宜調整されてよい。この演算は、上記逆伝播フェーズの第８ステップに相当する。

なお、パラメータ行列が中間層５２又は出力層５３に対応する場合、制御部１１は、前の層に誤差を逆伝播するため、入力ベクトルについての誤差の勾配（∂Ｌ／∂ｘ₁－∂Ｌ／∂ｘ₄）を導出する。チェイン・ルールにより、入力ベクトルについての誤差の勾配（∂Ｌ／∂ｘ₁－∂Ｌ／∂ｘ₄）は、以下の式３４－式３７を満たす。

そのため、制御部１１は、初期の段階で第１部分行列を構成する部分行列の各要素の値（ｗ₁－ｗ₄）、並びに初期の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ₁ ¹－∂Ｌ／∂Ｙ₄ ¹）に基づいて、入力ベクトルについての誤差の勾配（∂Ｌ／∂ｘ₁－∂Ｌ／∂ｘ₄）を導出する。図９Ｂは、これまでの演算過程を例示する。制御部１１は、導出された誤差の勾配を前の層に逆伝播する。

（Ｃ）第３具体例（任意サイズの行列）
次に、図１０Ａ及び図１０Ｂを用いて、一般化されたケース（任意サイズの行列）でスケーリング関係が再帰的に成立する場合の順伝播及び逆伝播の演算過程の一例について説明する。図１０Ａ及び図１０Ｂは、スケーリング関係が再帰的に成立するパラメータ行列の順伝播及び逆伝播のフェーズにおける演算過程の一例を示す。本ケースは、図５Ｃで例示されるパラメータ行列のケースに相当する。本ケースの演算過程は、要素数が一般化されている点を除き、上記第２具体例と同様である。

順伝播のフェーズでは、制御部１１は、第１ステップの処理として、初期の第１部分行列を構成する部分行列（Ｗ_j ¹）及び入力ベクトル（ｘ_j）の積を計算する（式３８）。この計算によって、制御部１１は、初期の第１部分行列の積の結果（Ｙ_j ¹）を得る。

続いて、制御部１１は、第２ステップの処理として、第１部分行列の積の演算結果（Ｙ_j ¹）及び対角行列（Ａ_k,j ¹）の積を計算することで、初期の第２部分行列を構成する部分行列及び入力ベクトルの積（Ｚ_k,j ¹）を導出する（式３９のｉ＝１のケース）。

なお、Ｊ_iは、式１により算出される。

次に、制御部１１は、第３ステップの処理として、再帰的繰り返しの対象の段階で得られた第１部分行列の積の結果（Ｙ_j ⁱ）及び第２部分行列の積の結果（Ｚ_k,j ⁱ）から次の段階の第１部分行列を構成する部分行列及び入力ベクトルの積（Ｙ_j ⁱ⁺¹）を導出する。ここで、Ｙ_j ⁱおよびＺ_k,j ⁱの各要素をそれぞれＹ_j,m ⁱ、Ｚ_k,j,m ⁱとする（式４０）。また、制御部１１は、第４ステップの処理として、得られた次の段階の第１部分行列の積の結果（Ｙ_j ⁱ⁺¹）及び対角行列（Ａ_k,j ⁱ⁺¹）の積を計算することで、次の段階の第２部分行列を構成する部分行列及び入力ベクトルの積（Ｚ_k,j ⁱ⁺¹）を導出する（式３９）。

制御部１１は、対象の段階で得られた第１部分行列の積の結果（Ｙ_j ⁱ）及び第２部分行列の積の結果（Ｚ_k,j ⁱ）それぞれの初期値として、第１ステップ及び第２ステップそれぞれで得られた初期の第１部分行列の積の結果（Ｙ_j ¹）及び初期の第２部分行列の積の結果（Ｚ_k,j ¹）それぞれを代入する。そして、制御部１１は、第３ステップ及び第４ステップを再帰的に繰り返す。これら一連の処理は、上記順伝播フェーズの第５ステップの処理に相当する。本ケースでは、制御部１１は、第３ステップ及び第４ステップの処理をｌ回繰り返す。この演算結果により、制御部１１は、パラメータ行列及び入力ベクトルの積の結果（式４０のｉ＝ｌのケース）を導出することができる。図１０Ａは、これまでの演算過程を例示する。パラメータ行列が入力層５１又は中間層５２に対応する場合、制御部１１は、得られた積の結果を次の層に順伝播する。一方、パラメータ行列が出力層５３に対応する場合、制御部１１は、推論タスクの遂行結果として積の結果を取得する。

逆伝播のフェーズでは、制御部１１は、第１ステップの処理として、パラメータ行列及び入力ベクトルの積に対する誤差Ｌの勾配（∂Ｌ／∂Ｙ_j ^l+1）を取得する。取得方法は、上記第１具体例と同様である。続いて、制御部１１は、第２ステップの処理として、
取得された誤差の勾配（∂Ｌ／∂Ｙ_j ^l+1）の対応する各要素、並びに順伝播のフェーズの第５ステップの再帰的繰り返しの最終の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の値（Ｙ_j ^l）に基づいて、最終の段階で使用される対角行列（Ａ_k,j ^l）の各要素（Ａ_k,j,m ^l）についての誤差の勾配を導出する（式４１及び式４２のｉ＝ｌのケース）。

次に、制御部１１は、第３ステップの処理として、取得された誤差の勾配（∂Ｌ／∂Ｙ_j ^l+1）及び最終の段階で使用される対角行列（Ａ_k,j ^l）の各要素（Ａ_k,j,m ^l）の値に基づいて、最終の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配（∂Ｌ／∂Ｙ_j ^l）の各要素（∂Ｌ／∂Ｙ_j,m ^l）を導出する（式４２、式４３のｉ＝ｌのケース）。

続いて、制御部１１は、第４ステップの処理として、取得された誤差の勾配（∂Ｌ／∂Ｙ_j ^l+1）、順伝播のフェーズの再帰的繰り返しの対象の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の値（Ｙ_j ⁱ）、並びに順伝播のフェーズの再帰的繰り返しにおいて当該対象の段階の次の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ_j ⁱ⁺¹）に基づいて、当該対象の段階で使用される対角行列の各要素についての誤差の勾配（∂Ｌ／∂Ａ_k,j ⁱ）を導出する（式４１、式４２）。

制御部１１は、第５ステップの処理として、取得された誤差の勾配（∂Ｌ／∂Ｙ_j ^l+1）、対象の段階で使用される対角行列（Ａ_k,j ⁱ）の各要素の値、並びに次の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ_j ⁱ⁺¹）に基づいて、対象の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配（∂Ｌ／∂Ｙ_j ⁱ）を導出する（式４２、式４３）。

制御部１１は、次の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配（∂Ｌ／∂Ｙ_j ⁱ⁺¹）の初期値として、逆伝播のフェーズの第３ステップで導出される、最終の段階で第１部分行列を構成する部分行列及び入力ベクトルの積の各要素についての誤差の勾配（∂Ｌ／∂Ｙ_j ^l）を代入する。そして、制御部１１は、順伝播のフェーズの再帰的繰り返しの初期の段階で使用される対角行列の各要素についての誤差の勾配（∂Ｌ／∂Ａ_k,j ¹）を導出するまで、上記逆伝播フェーズの第４ステップ及び第５ステップを再帰的に繰り返すことで、各段階で使用される対角行列の各要素についての誤差の勾配（∂Ｌ／∂Ａ_k,j ⁱ、ｉは、１からｌの自然数）を導出する。これら一連の処理は、上記逆伝播フェーズの第６ステップの処理に相当する。これまでの処理により、各段階で使用される対角行列の各要素についての誤差の勾配（∂Ｌ／∂Ａ_k,j ⁱ）、並びに初期の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ_j ¹）が導出される。

次に、制御部１１は、第７ステップの処理として、入力ベクトル（ｘ_j）、並びに第６ステップにより導出される、初期の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ_j ¹）に基づいて、初期の第１部分行列を構成する部分行列の要素についての誤差の勾配（∂Ｌ／∂Ｗ_j ¹）を導出する。

制御部１１は、第８ステップの処理として、各段階で使用される対角行列の各要素及び初期の第１部分行列を構成する部分行列の要素それぞれについて導出された誤差の勾配（∂Ｌ／∂Ａ_k,j ⁱ、∂Ｌ／∂Ｗ_j ¹）に基づいて、各段階で使用される対角行列の各要素及び初期の第１部分行列を構成する部分行列の要素それぞれの値（Ａ_k,j ⁱ、Ｗ_j ¹）を調節する。

また、パラメータ行列が中間層５２又は出力層５３に対応する場合、制御部１１は、前の層に誤差を逆伝播するため、初期の段階で第１部分行列を構成する部分行列の各要素の値（Ｗ_j ¹）、並びに初期の段階で第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配（∂Ｌ／∂Ｙ_j ¹）に基づいて、入力ベクトルについての誤差の勾配（∂Ｌ／∂ｘ_j）を導出する（式４５）。図１０Ｂは、これまでの演算過程を例示する。制御部１１は、導出された誤差の勾配を前の層に逆伝播する。

（小括）
以上の各演算過程により、各ケースにおいて、制御部１１は、順伝播のフェーズ及び逆伝播のフェーズの処理を実行し、推論モデル５のパラメータの値を調節することができる。制御部１１は、所定の条件（例えば、規定回数実行する、算出される誤差の和が閾値以下になる）を満たすまで、順伝播のフェーズ及び逆伝播のフェーズの各処理を繰り返し実行してもよい。

上記機械学習の処理結果として、制御部１１は、推論タスクを遂行する能力を獲得し、かつ第２部分行列の各要素の値が第１部分行列及び対角行列の積と一致するように調節された訓練済みの推論モデル５を生成することができる。特に、上記第２具体例及び第３具体例によれば、パラメータ行列の少なくとも一部内でスケーリング関係が再帰的に成立するように各パラメータの値が調節された訓練済みの推論モデル５を生成することができる。機械学習の処理が完了すると、制御部１１は、次のステップＳ１０３に処理を進める。

（ステップＳ１０３）
図７に戻り、ステップＳ１０３では、制御部１１は、保存処理部１１３として動作し、機械学習により生成された訓練済みの推論モデル５に関する情報を学習結果データ１２５として生成する。学習結果データ１２５には、訓練済みの推論モデル５を再生するための情報が保持される。一例として、学習結果データ１２５は、上記機械学習の調節により得られた第１部分行列を構成するパラメータの値及び対角行列の対角成分の各値を示す情報を含むように構成されてよく、第２部分行列を構成するパラメータに関する情報は省略されてよい。他の一例として、スケーリング関係が再帰的に成立する場合、学習結果データ１２５は、上記機械学習の調節により得られた初期の第１部分行列を構成するパラメータの値（Ｗ_j ¹）及び各段階で使用される対角行列の各要素の値（Ａ_k,j ⁱ）を示す情報を含むように構成されてよく、これら以外のパラメータに関する情報は省略されてよい。制御部１１は、生成された学習結果データ１２５を所定の記憶領域に保存する。

所定の記憶領域は、例えば、制御部１１内のＲＡＭ、記憶部１２、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。記憶メディアは、例えば、ＣＤ、ＤＶＤ等であってよく、制御部１１は、ドライブ１７を介して記憶メディアに学習結果データ１２５を格納してもよい。外部記憶装置は、例えば、ＮＡＳ（Network Attached Storage）等のデータサーバであってよい。この場合、制御部１１は、通信インタフェース１３を利用して、ネットワークを介してデータサーバに学習結果データ１２５を格納してもよい。また、外部記憶装置は、例えば、外部インタフェース１４を介してモデル生成装置１に接続された外付けの記憶装置であってもよい。

学習結果データ１２５の保存が完了すると、制御部１１は、本動作例に係るモデル生成装置１の処理手順を終了する。

なお、生成された学習結果データ１２５は、任意のタイミングで推論装置２に提供されてよい。例えば、制御部１１は、ステップＳ１０３の処理として又はステップＳ１０３の処理とは別に、学習結果データ１２５を推論装置２に転送してもよい。推論装置２は、この転送を受信することで、学習結果データ１２５を取得してもよい。また、例えば、推論装置２は、通信インタフェース２３を利用して、モデル生成装置１又はデータサーバにネットワークを介してアクセスすることで、学習結果データ１２５を取得してもよい。また、例えば、推論装置２は、記憶媒体９２を介して、学習結果データ１２５を取得してもよい。また、例えば、学習結果データ１２５は、推論装置２に予め組み込まれてもよい。

更に、制御部１１は、上記ステップＳ１０１～ステップＳ１０３の処理を定期又は不定期に繰り返すことで、学習結果データ１２５を更新又は新たに生成してもよい。この繰り返しの際に、機械学習に使用する学習データセット３の少なくとも一部の変更、修正、追加、削除等が適宜実行されてよい。そして、制御部１１は、更新した又は新たに生成した学習結果データ１２５を任意の方法で推論装置２に提供することで、推論装置２の保持する学習結果データ１２５を更新してもよい。

［推論装置］
図１１は、本実施形態に係る推論装置２による推論タスクの遂行に関する処理手順の一例を示すフローチャートである。以下で説明する推論装置２の処理手順は、推論方法の一例である。ただし、以下で説明する推論装置２の処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が行われてよい。

（ステップＳ２０１）
ステップＳ２０１では、制御部２１は、データ取得部２１１として動作し、対象データ２２１を取得する。対象データ２２１は、推定タスクの遂行対象となる所定種類のデータのサンプルである。対象データ２２１を取得する方法は、データの種類に応じて適宜決定されてよい。一例として、推論対象をセンサ（例えば、カメラ）により観測することで、対象データ２２１が生成されてよい。また、対象データ２２１を取得する経路は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。一例として、制御部２１は、センサ等の装置から対象データ２２１を直接的に取得してもよい。他の一例では、制御部２１は、他のコンピュータ、記憶媒体９２等を介して、対象データ２２１を間接的に取得してもよい。対象データ２２１を取得すると、制御部２１は、次のステップＳ２０２に処理を進める。

（ステップＳ２０２）
ステップＳ２０２では、制御部２１は、推論部２１２として動作し、学習結果データ１２５を参照して、訓練済みの推論モデル５の設定を行う。そして、制御部２１は、訓練済みの推論モデル５を使用して、取得された対象データ２２１に対して推論タスクを遂行する。

ステップＳ２０２における推論処理は、上記機械学習の訓練処理における順伝播（すなわち、推論試行）のフェーズの演算処理と同様であってよい。すなわち、制御部２１は、対象データ２２１を入力層５１に入力し、推論モデル５の順伝播の演算処理を実行する。この順伝播の演算処理の際、制御部２１は、第１部分行列を構成する部分行列及び入力ベクトルの積を計算する。パラメータ行列が入力層５１に対応する場合、入力ベクトルは、対象データ２２１である。パラメータ行列が中間層５２又は出力層５３に対応する場合、入力ベクトルは、対応する層の前の層の計算結果（出力）である。次に、制御部２１は、第１部分行列の積の結果及び対角行列の対応する要素の積を計算することで、第２部分行列を構成する部分行列及び入力ベクトルの積を導出する。つまり、制御部２１は、第１部分行列の積の結果及び対角行列を掛け算し、掛け算により得られた計算結果を、第２部分行列及び入力ベクトルの積の結果として取得する。スケーリング関係が再帰的に成立する場合には、制御部２１は、上記順伝播フェーズの第１ステップ～第５ステップの演算を実行する。これらの演算の結果、制御部２１は、対象データ２２１に対して推論タスクを遂行した結果に対応する出力値を出力層５３から取得する。推論処理が完了すると、制御部２１は、次のステップＳ２０３に処理を進める。

（ステップＳ２０３）
ステップＳ２０３では、制御部２１は、出力部２１３として動作し、推論タスクを遂行した結果（推論結果）に関する情報を出力する。

出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。例えば、制御部２１は、ステップＳ２０２により得られた推論結果をそのまま出力装置２６に出力してもよい。また、制御部２１は、得られた推論の結果に基づいて、任意の情報処理を実行してもよい。そして、制御部２１は、その情報処理を実行した結果を、推論結果に関する情報として出力してもよい。この情報処理を実行した結果の出力には、推論結果に応じて制御対象装置の動作を制御すること等が含まれてよい。出力先は、例えば、出力装置２６、他のコンピュータの出力装置、制御対象装置等であってよい。

推論タスクを遂行した結果に関する情報の出力が完了すると、制御部２１は、本動作例に係る推論装置２の処理手順を終了する。なお、制御部２１は、ステップＳ２０１～ステップＳ２０３の一連の情報処理を継続的に繰り返し実行してもよい。繰り返すタイミングは、実施の形態に応じて適宜決定されてよい。これにより、推論装置２は、上記推論タスクを継続的に繰り返し遂行するように構成されてよい。

［特徴］
以上のとおり、本実施形態に係るモデル生成装置１によれば、ステップＳ１０１～ステップＳ１０３の処理により、第１部分行列及び第２部分行列を含む行列により表現され、かつ第２部分行列の各要素の値が第１部分行列及び対角行列の積と一致するように調節された訓練済みの推論モデル５を生成することができる。これにより、推論装置２のステップＳ２０２の処理において、第２部分行列の情報を保持していなくても、第１部分行列の演算結果を使い回して、第２部分行列の演算結果を得ることができる。同様に、そのような関係を満たすように各パラメータに初期値を与える（つまり、第１部分行列及び対角行列の各要素の値を設定する）ことで、ステップＳ１０２の処理においても、第２部分行列の情報を保持せずに、第１部分行列の演算結果を使い回して、第２部分行列の演算結果を得ることができる。したがって、本実施形態によれば、学習結果データ１２５において第２部分行列に関する情報を省略し、推論モデル５を構成するパラメータの数を実質的に低減することができる。具体的には、第２部分行列の要素数と対角行列の０以外の要素数との差分だけパラメータの数を低減することができる。スケーリング関係が再帰的に成立する場合には、パラメータ行列の少なくとも一部の要素数を、初期の第１部分行列を構成する部分行列の要素及び各段階で使用される対角行列の要素の数までパラメータの数を低減することができる。したがって、本実施形態によれば、推論モデル５の演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることができる。なお、本実施形態においても、特許文献２及び特許文献３で例示される分散処理、非特許文献１で例示される畳み込み演算の高速処理等の他の高速化手法が併用されてよい。

§４変形例
以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良又は変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。

＜４．１＞
上記実施形態に係る推論システム１００は、所定種類のデータに対して任意の推論タスクを遂行するあらゆる場面に適用されてよい。推論タスクは、例えば、画像データに写る製品に欠陥があるか否かを判定すること、画像データに写る対象物の種別を識別すること、センシングデータに表れる対象物の状態を推論すること等であってよい。訓練データ３１及び対象データ２２１は、例えば、画像データ、音データ、数値データ、テキストデータ、その他各種センサにより得られる測定データ等であってよい。訓練データ３１及び対象データ２２１は、任意の対象をセンサにより観測することで生成されるセンシングデータであってよい。センサは、例えば、カメラ、マイクロフォン、エンコーダ、環境センサ、バイタルセンサ、医療検査装置、車載センサ、ホームセキュリティセンサ等であってよい。環境センサは、例えば、気圧計、温度計、湿度計、音圧計、音センサ、紫外線センサ、照度計、雨量計、ガスセンサ等であってよい。バイタルセンサは、例えば、血圧計、脈拍計、心拍計、心電計、筋電計、体温計、皮膚電気反応計、マイクロ波センサ、脳波計、脳磁計、活動量計、血糖値測定器、眼電位センサ、眼球運動計測器等であってよい。医療検査装置は、例えば、ＣＴ（Computed Tomography）装置、ＭＲＩ（Magnetic Resonance Imaging）装置等であってよい。車載センサは、例えば、画像センサ、Lidar（light detection and ranging）センサ、ミリ波レーダ、超音波センサ、加速度センサ等であってよい。ホームセキュリティセンサは、例えば、画像センサ、赤外線センサ、活性度（音声）センサ、ガス（ＣＯ₂等）センサ、電流センサ、スマートメータ（家電、照明等の電力使用量を計測するセンサ）等であってよい。以下、適用場面を限定した変形例を例示する。

（Ａ）外観検査の場面
図１２は、第１変形例に係る検査システム１００Ａの適用場面の一例を模式的に例示する。本変形例は、製品の写る画像データを利用して、製品の外観検査を実施する場面に上記実施形態を適用した例である。本変形例に係る検査システム１００Ａは、上記推論システム１００の一例であり、モデル生成装置１及び検査装置２Ａを備えている。上記実施形態と同様に、モデル生成装置１及び検査装置２Ａは、ネットワークを介して互いに接続されてよい。

本変形例において取り扱われる所定種類のデータ（訓練データ３１Ａ及び対象データ２２１Ａ）は、製品ＲＡの写る画像データ（画像サンプル）により構成される。画像データは、カメラＳＡで製品ＲＡを撮影することで得られてよい。推論タスクは、画像データに写る製品ＲＡに欠陥があるか否かを判定することである。欠陥があるか否かを判定することは、欠陥の有無を識別すること、製品ＲＡに欠陥が含まれる確率を推定すること、製品ＲＡに含まれる欠陥の種別（「欠陥がない」ことを示す種別が含まれてもよい）を識別すること、製品ＲＡに含まれる欠陥の範囲を抽出すること又はこれらに組み合わせにより構成されてよい。これらの限定を除き、本変形例に係る検査システム１００Ａは、上記実施形態に係る推論システム１００と同様に構成されてよい。

なお、製品ＲＡは、例えば、電子機器、電子部品、自動車部品、薬品、食品等の製造ラインで搬送される製品であってよい。電子部品は、例えば、基盤、チップコンデンサ、液晶、リレーの巻線等であってよい。自動車部品は、例えば、コンロッド、シャフト、エンジンブロック、パワーウィンドウスイッチ、パネル等であってよい。薬品は、例えば、包装済みの錠剤、未包装の錠剤等であってよい。製品ＲＡは、製造過程完了後に生成される最終品であってもよいし、製造過程の途中で生成される中間品であってもよいし、製造過程を経過する前に用意される初期品であってもよい。欠陥は、例えば、傷、汚れ、クラック、打痕、バリ、色ムラ、異物混入等であってよい。

（モデル生成装置）
本変形例では、モデル生成装置１は、上記ステップＳ１０１において、複数の学習データセット３Ａを取得する。各学習データセット３Ａは、訓練データ３１Ａ及び正解ラベル３２Ａの組み合わせにより構成される。訓練データ３１Ａは、製品ＲＡの写る画像データにより構成される。訓練データ３１Ａの取得には、任意の種類のカメラが用いられてよい。正解ラベル３２Ａは、例えば、欠陥の有無、欠陥の種別、欠陥の存在する範囲等の、訓練データ３１Ａに写る製品の欠陥に関する推論タスクの正解を示すように構成される。

モデル生成装置１は、上記ステップＳ１０２の処理により、取得された複数の学習データセット３Ａを使用して、推論モデル５の機械学習を実施する。これにより、画像データに写る製品ＲＡに欠陥があるか否かを判定する能力を獲得し、かつ第２部分行列の各要素の値が第１部分行列及び対角行列の積と一致するように調節された訓練済みの推論モデル５を生成することができる。モデル生成装置１は、上記ステップＳ１０３の処理により、訓練済みの推論モデル５に関する情報を学習結果データ１２５として所定の記憶領域に適宜保存する。生成された学習結果データ１２５は、任意のタイミングで検査装置２Ａに提供されてよい。

（検査装置）
検査装置２Ａは、上記推論装置２の一例である。検査装置２Ａのハードウェア構成及びソフトウェア構成は、上記実施形態に係る推論装置２と同様であってよい。本変形例では、検査装置２Ａは、通信インタフェース又は外部インタフェースを介してカメラＳＡに接続されてよい。或いは、カメラＳＡは他のコンピュータに接続され、検査装置２Ａは、当該他のコンピュータに接続することで、カメラＳＡから画像データを取得可能に構成されてもよい。カメラＳＡは、例えば、一般的なＲＧＢカメラ、深度カメラ、赤外線カメラ等であってよい。カメラＳＡは、製品ＲＡを撮影可能な場所に適宜配置されてよい。例えば、カメラＳＡは、製品ＲＡを搬送するコンベア装置の近傍に配置されてよい。

検査装置２Ａは、上記推論装置２と同様の処理手順により、外観検査に関する一連の情報処理を実行する。すなわち、ステップＳ２０１では、検査装置２Ａは、カメラＳＡから対象データ２２１Ａを取得する。対象データ２２１Ａは、検査対象の製品ＲＡの写る画像データにより構成される。ステップＳ２０２では、検査装置２Ａは、訓練済みの推論モデル５を使用して、対象データ２２１Ａ（画像データ）に写る製品ＲＡに欠陥があるか否かを判定する。そして、ステップＳ２０３では、検査装置２Ａは、製品ＲＡに欠陥があるか否かを判定した結果に関する情報を出力する。一例では、検査装置２Ａは、製品ＲＡに欠陥があるか否かを判定した結果をそのまま出力装置に出力してよい。他の一例では、検査装置２Ａは、製品ＲＡに欠陥が含まれると判定した場合、そのことを知らせるための警告を出力装置に出力してもよい。これらの情報の出力先は、検査装置２Ａの出力装置に限られず、他のコンピュータの出力装置であってもよい。更にその他の一例では、製品ＲＡを搬送するコンベア装置に検査装置２Ａが接続される場合、検査装置２Ａは、判定結果に基づいて、欠陥のある製品と欠陥のない製品とを別のラインで搬送されるようにコンベア装置を制御してもよい。

（特徴）
本変形例によれば、推論モデル５を構成するパラメータの数を実質的に低減することで、外観検査に使用される推論モデル５の演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることができる。これにより、外観検査の高速化、低廉なコンピュータでの外観検査の実施等の効果を期待することができる。

（Ｂ）画像識別の場面
図１３は、第２変形例に係る識別システム１００Ｂの適用場面の一例を模式的に例示する。本変形例は、画像データに写る対象物を識別する場面に上記実施形態を適用した例である。本変形例に係る識別システム１００Ｂは、上記推論システム１００の一例であり、モデル生成装置１及び識別装置２Ｂを備えている。上記実施形態と同様に、モデル生成装置１及び識別装置２Ｂは、ネットワークを介して互いに接続されてよい。

本変形例において取り扱われる所定種類のデータ（訓練データ３１Ｂ及び対象データ２２１Ｂ）は、対象物ＲＢの写る画像データ（画像サンプル）により構成される。画像データは、カメラＳＢで対象物ＲＢを撮影することで得られてよい。推論タスクは、画像データに写る対象物ＲＢの種別を識別することである。対象物ＲＢの種別を識別することは、セグメンテーション（対象の写る範囲を抽出すること）を含んでよい。対象物ＲＢは、人物であってもよいし、任意の物であってもよい。画像データに写る範囲は、対象物ＲＢの特定部位（例えば、顔等）であってもよいし、或いは対象物ＲＢの全体であってもよい。対象物ＲＢが人物である場合、識別対象は、例えば、顔等の身体の一部であってもよい。人物の種別を識別することは、例えば、個人を推定することであってもよいし、或いは身体部位（顔、腕、脚、関節等）を推定することであってもよい。任意の物についても同様である。これらの限定を除き、本変形例に係る識別システム１００Ｂは、上記実施形態に係る推論システム１００と同様に構成されてよい。

（モデル生成装置）
本変形例では、モデル生成装置１は、上記ステップＳ１０１において、複数の学習データセット３Ｂを取得する。各学習データセット３Ｂは、訓練データ３１Ｂ及び正解ラベル３２Ｂの組み合わせにより構成される。訓練データ３１Ｂは、対象物ＲＢの写る画像データにより構成される。訓練データ３１Ｂの取得には、任意の種類のカメラが用いられてよい。正解ラベル３２Ｂは、訓練データ３１Ｂに写る対象物ＲＢの種別（正解）を示すように構成される。

モデル生成装置１は、上記ステップＳ１０２の処理により、取得された複数の学習データセット３Ｂを使用して、推論モデル５の機械学習を実施する。これにより、画像データに写る対象物ＲＢの種別を識別する能力を獲得し、かつ第２部分行列の各要素の値が第１部分行列及び対角行列の積と一致するように調節された訓練済みの推論モデル５を生成することができる。モデル生成装置１は、上記ステップＳ１０３の処理により、訓練済みの推論モデル５に関する情報を学習結果データ１２５として所定の記憶領域に適宜保存する。生成された学習結果データ１２５は、任意のタイミングで識別装置２Ｂに提供されてよい。

（識別装置）
識別装置２Ｂは、上記推論装置２の一例である。識別装置２Ｂのハードウェア構成及びソフトウェア構成は、上記実施形態に係る推論装置２と同様であってよい。本変形例では、識別装置２Ｂは、通信インタフェース又は外部インタフェースを介してカメラＳＢに接続されてよい。或いは、カメラＳＢは他のコンピュータに接続され、識別装置２Ｂは、当該他のコンピュータに接続することで、カメラＳＢから画像データを取得可能に構成されてもよい。カメラＳＢは、例えば、一般的なＲＧＢカメラ、深度カメラ、赤外線カメラ等であってよい。カメラＳＢは、対象物ＲＢを撮影可能な場所に適宜配置されてよい。

識別装置２Ｂは、上記推論装置２と同様の処理手順により、対象物ＲＢの識別に関する一連の情報処理を実行する。すなわち、ステップＳ２０１では、識別装置２Ｂは、カメラＳＢから対象データ２２１Ｂを取得する。対象データ２２１Ｂは、識別対象である対象物ＲＢの写る画像データにより構成される。ステップＳ２０２では、識別装置２Ｂは、訓練済みの推論モデル５を使用して、対象データ２２１Ｂ（画像データ）に写る対象物ＲＢの種別を識別する。そして、ステップＳ２０３では、識別装置２Ｂは、対象物ＲＢの種別を識別した結果に関する情報を出力する。一例では、識別装置２Ｂは、対象物ＲＢを識別した結果をそのまま出力装置に出力してよい。他の一例では、識別装置２Ｂは、対象物ＲＢを識別した結果に応じて任意の情報処理を実行してよい。例えば、識別装置２Ｂは、識別された対象人物（対象物ＲＢ）が特定の個人である場合に、ロックを解除する等の情報処理を実行してもよい。

（特徴）
本変形例によれば、推論モデル５を構成するパラメータの数を実質的に低減することで、対象物ＲＢの識別に使用される推論モデル５の演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることができる。その結果、対象物ＲＢの識別処理の高速化、低廉なコンピュータでの識別処理の実施等の効果を期待することができる。

（Ｃ）状態推論の場面
図１４は、第３変形例に係る推論システム１００Ｃの適用場面の一例を模式的に例示する。本変形例は、センシングデータに表れる対象物ＲＣの状態を推論（識別／回帰）する場面に上記実施形態を適用した例である。本変形例に係る推論システム１００Ｃは、上記推論システム１００の一例であり、モデル生成装置１及び推論装置２Ｃを備えている。上記実施形態と同様に、モデル生成装置１及び推論装置２Ｃは、ネットワークを介して互いに接続されてよい。

本変形例において取り扱われる所定種類のデータ（訓練データ３１Ｃ及び対象データ２２１Ｃ）は、対象物ＲＣをセンサＳＣにより観測することで生成されたセンシングデータにより構成される。センサＳＣは、例えば、カメラ、マイクロフォン、エンコーダ、環境センサ、バイタルセンサ、医療検査装置、車載センサ、ホームセキュリティセンサ等であってよい。推論タスクは、センシングデータに表れる対象物ＲＣの状態を推論（識別／回帰）することである。推論することは、予測すること（すなわち、センシングデータが得られた時点から未来の状態を推論すること）を含んでよい。これらの限定を除き、本変形例に係る推論システム１００Ｃは、上記実施形態に係る推論システム１００と同様に構成されてよい。

なお、センサＳＣの種類は、推論タスクに応じて適宜選択されてよい。一例として、対象物ＲＣは人物であり、対象物ＲＣの状態を推論することは、対象人物の状態を推論することであってよい。この場合、センサＳＣは、例えば、カメラ、マイクロフォン、バイタルセンサ、及び医療検査装置の少なくともいずれかにより構成されてよい。対象人物の状態を推論することは、例えば、所定の疾患を発症する確率、体調変化が生じる確率等の健康状態を推論することであってよい。或いは、対象人物は、例えば、車両の運転者であってよく、対象人物の状態を推論することは、運転者の状態（例えば、眠気度、疲労度、余裕度等）を推論することであってよい。

他の一例として、対象物ＲＣは産業用機械であり、対象物ＲＣの状態を推論することは、産業用機械に異常があるか否かを推論（検知又は予測）することであってよい。この場合、センサＳＣは、例えば、マイクロフォン、エンコーダ、及び環境センサの少なくともいずれかにより構成されてよい。センシングデータは、モータのエンコーダ値、温度、動作音等により構成されてよい。

他の一例として、対象物ＲＣは、車両の外部に存在する物体であり、対象物ＲＣの状態を推論することは、車両外部の状況を推論することであってよい。この場合、センサＳＣは、例えば、カメラ、及び車載センサの少なくともいずれかにより構成されてよい。車両外部の状況を推論することは、例えば、車両外部に存在する物体の属性を推論すること、混雑状況を推論すること、事故のリスクを推論すること等であってよい。車両外部に存在する物体は、例えば、道路、信号機、障害物（人、物）等であってよい。車両外部に存在する物体の属性を推論することは、例えば、人又は車両の飛び出し、急発進、急停車、車線変更等のイベントの発生を推論することを含んでよい。

他の一例として、対象物ＲＣは、例えば、屋外、所定の屋内（例えば、ビニルハウス内等）の特定の場所に存在する物体であり、対象物ＲＣの状態を推論することは、特定の場所の状況を推論することであってよい。この場合、センサＳＣは、例えば、カメラ、マイクロフォン、及び環境センサの少なくともいずれかにより構成されてよい。具体例として、対象物ＲＣは植物であってよく、特定の場所の状況を推論することは、植物の栽培状況を推論することであってよい。

他の一例として、対象物ＲＣは、例えば、住宅内に存在する物体であり、対象物ＲＣの状態を推論することは、住宅内の状況を推論することであってよい。この場合、センサＳＣは、例えば、カメラ、マイクロフォン、環境センサ、及びホームセキュリティセンサの少なくともいずれかにより構成されてよい。

（モデル生成装置）
本変形例では、モデル生成装置１は、上記ステップＳ１０１において、複数の学習データセット３Ｃを取得する。各学習データセット３Ｃは、訓練データ３１Ｃ及び正解ラベル３２Ｃの組み合わせにより構成される。訓練データ３１Ｃは、対象物ＲＣをセンサＳＣにより観測することで生成されたセンシングデータにより構成される。正解ラベル３２Ｃは、訓練データ３１Ｃに表れる対象物ＲＣの状態（正解）を示すように構成される。

モデル生成装置１は、上記ステップＳ１０２の処理により、取得された複数の学習データセット３Ｃを使用して、推論モデル５の機械学習を実施する。これにより、センシングデータに表れる対象物ＲＣの状態を推論する能力を獲得し、かつ第２部分行列の各要素の値が第１部分行列及び対角行列の積と一致するように調節された訓練済みの推論モデル５を生成することができる。モデル生成装置１は、上記ステップＳ１０３の処理により、訓練済みの推論モデル５に関する情報を学習結果データ１２５として所定の記憶領域に適宜保存する。生成された学習結果データ１２５は、任意のタイミングで推論装置２Ｃに提供されてよい。

（推論装置）
推論装置２Ｃは、上記推論装置２の一例である。推論装置２Ｃのハードウェア構成及びソフトウェア構成は、上記実施形態に係る推論装置２と同様であってよい。本変形例では、推論装置２Ｃは、通信インタフェース又は外部インタフェースを介してセンサＳＣに接続されてよい。或いは、センサＳＣは他のコンピュータに接続され、推論装置２Ｃは、当該他のコンピュータに接続することで、センサＳＣからセンシングデータを取得可能に構成されてよい。

推論装置２Ｃは、上記推論装置２と同様の処理手順により、対象物ＲＣの状態推論に関する一連の情報処理を実行する。すなわち、ステップＳ２０１では、推論装置２Ｃは、センサＳＣから対象データ２２１Ｃを取得する。対象データ２２１Ｃは、推論対象である対象物ＲＣをセンサＳＣにより観測することで生成されたセンシングデータにより構成される。ステップＳ２０２では、推論装置２Ｃは、訓練済みの推論モデル５を使用して、対象データ２２１Ｃ（センシングデータ）に表れる対象物ＲＣの状態を推論する。

そして、ステップＳ２０３では、推論装置２Ｃは、対象物ＲＣの状態を推論した結果に関する情報を出力する。一例では、推論装置２Ｃは、対象物ＲＣの状態を推論した結果をそのまま出力装置に出力してよい。他の一例では、推論装置２Ｃは、対象物ＲＣの状態を推論した結果に応じて任意の情報処理を実行してよい。具体例として、対象物ＲＣの状態を推論することが、対象人物の健康状態を推論することである場合、推論装置２Ｃは、対象人物の健康状態に異常があると判定される（例えば、所定の疾患の発症確率が閾値を超える）ときにそのことを知らせるための警告を出力してもよい。他の具体例として、対象物ＲＣの状態を推論することが、運転者の状態を推論することである場合、推論装置２Ｃは、運転者の眠気度又は疲労度が閾値を超えるときに、運転の休憩を促すメッセージを通知する、自動運転から手動運転の切り替えを禁止する等の出力を実行してもよい。他の具体例として、対象物ＲＣの状態を推論することが、産業用機械に異常があるか否かを推論ことである場合、産業用機械に異常がある又はその予兆があると判定されるときに、推論装置２Ｃは、そのことを知らせるための警告を出力してもよい。他の具体例として、対象物ＲＣの状態を推論することが、車両外部の状況を推論することである場合、推論装置２Ｃは、推論される車両外部の状況に応じて車両に対する動作指令を決定し、決定された動作指令により車両を制御してもよい（例えば、人の飛び出しを検知した場合に、車両の一時停止を実行する）。

（特徴）
本変形例によれば、推論モデル５を構成するパラメータの数を実質的に低減することで、対象物ＲＣの状態推論に使用される推論モデル５の演算処理にかかる計算量を低減し、計算資源にかかる負担を抑えることができる。その結果、対象物ＲＣの状態を推論する処理の高速化、低廉なコンピュータでの推論処理の実施等の効果を期待することができる。

＜４．２＞
上記実施形態では、推論モデル５は、全結合型ニューラルネットワークにより構成されている。しかしながら、推論モデル５を構成するニューラルネットワークの種類は、このような例に限定されなくてもよい。他の一例では、推論モデル５は、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク等により構成されてよい。推論モデル５を構成するニューラルネットワークは、例えば、畳み込み層、プーリング層、正規化層、ドロップアウト層等の他の種類の層を含んでもよい。

また、上記実施形態において、推論モデル５を構成する機械学習モデルの種類は、ニューラルネットワークに限られなくてもよい。パラメータを行列により表現可能であれば、推論モデル５を構成する機械学習モデルの種類は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。他の一例として、推論モデル５は、例えば、主成分分析により得られる主成分ベクトル、サポートベクタマシン等により構成されてよい。機械学習の方法は、採用される機械学習モデルの種類に応じて適宜決定されてよい。

１…モデル生成装置、
１１…制御部、１２…記憶部、１３…通信インタフェース、
１４…外部インタフェース、
１５…入力装置、１６…出力装置、１７…ドライブ、
８１…モデル生成プログラム、９１…記憶媒体、
１１１…データ取得部、１１２…学習処理部、
１１３…保存処理部、１２５…学習結果データ、
２…推論装置、
２１…制御部、２２…記憶部、２３…通信インタフェース、
２４…外部インタフェース、
２５…入力装置、２６…出力装置、２７…ドライブ、
８２…推論プログラム、９２…記憶媒体、
２１１…データ取得部、２１２…推論部、２１３…出力部、
２２１…対象データ、
３…学習データセット、
３１…訓練データ、３２…正解ラベル、
５…推論モデル、
５１…入力層、５２…中間（隠れ）層、５３…出力層

Claims

対象データを取得するデータ取得部と、
機械学習により訓練済みの推論モデルを使用して、取得された前記対象データに対して推論タスクを遂行する推論部と、
前記推論タスクを遂行した結果に関する情報を出力する出力部と、
を備え、
前記推論モデルの複数のパラメータの少なくとも一部は、行列で表現され、
前記行列は、第１部分行列及び第２部分行列を含み、
前記第１部分行列及び前記第２部分行列の行及び列それぞれの要素の数は同一であり、
前記第２部分行列の各要素の値は、前記第１部分行列及び対角行列の積と一致するように調節されている、
推論装置。
前記行列の少なくとも一部において、
行及び列それぞれの要素の数が同一である部分行列が行にＭ個ずつ及び列にＮ個ずつ並ぶように、前記行列の少なくとも一部は、Ｍ×Ｎ個の部分行列に分割され、
各列において、いずれかの行に配置される部分行列が、当該いずれかの行を除く他の行に配置される各部分行列に対する前記第１部分行列を構成し、かつ
前記他の行に配置される各部分行列が、前記第２部分行列を構成する、
スケーリング関係が成立している、
請求項１に記載の推論装置。
前記Ｍ及び前記Ｎは、同一の素数Ｓである、
請求項２に記載の推論装置。
前記第１部分行列を構成する部分行列内での前記スケーリング関係の成立が繰り返されることで、前記行列の少なくとも一部内では、前記スケーリング関係が再帰的に成立している、
請求項２又は３に記載の推論装置。
前記Ｍ及び前記Ｎは、同一の素数Ｓであり、
前記行列の少なくとも一部は、要素の数が素数Ｓのべき乗である正方行列により構成される、
請求項４に記載の推論装置。
前記Ｍ及び前記Ｎはそれぞれ、２である、
請求項２から５のいずれか１項に記載の推論装置。
前記推論モデルは、ニューラルネットワークにより構成され、
前記行列の各要素は、前記ニューラルネットワークにおける各ニューロン間の結合の重みに対応するように構成される、
請求項１から６のいずれか１項に記載の推論装置。
前記対象データは、製品の写る画像データにより構成され、
前記推論タスクは、前記画像データに写る製品に欠陥があるか否かを判定することである、
請求項１から７のいずれか１項に記載の推論装置。
訓練データ、及び前記訓練データに対する推論タスクの正解を示す正解ラベルの組み合わせによりそれぞれ構成される複数の学習データセットを取得するデータ取得部と、
前記複数の学習データセットを使用して、推論モデルの機械学習を実施する学習処理部であって、
前記推論モデルの複数のパラメータの少なくとも一部は、行列で表現され、
前記行列は、第１部分行列及び第２部分行列を含み、
前記第１部分行列及び前記第２部分行列の行及び列それぞれの要素の数は同一であり、
前記機械学習は、前記各学習データセットについて、前記推論モデルを使用して前記訓練データに対して前記推論タスクを遂行した結果が前記正解ラベルにより示される正解に適合すると共に、前記第２部分行列の各要素の値が、前記第１部分行列及び対角行列の積と一致するように調節されるように前記推論モデルを訓練することにより構成される、
学習処理部と、
を備える、
モデル生成装置。
前記推論モデルを訓練することは、前記行列の少なくとも一部において、行及び列それぞれの要素の数が同一である部分行列が行にＭ個ずつ及び列にＮ個ずつ並ぶように、前記行列の少なくとも一部は、Ｍ×Ｎ個の部分行列に分割され、各列において、いずれかの行に配置される部分行列が、当該いずれかの行を除く他の行に配置される各部分行列に対する前記第１部分行列を構成し、かつ前記他の行に配置される各部分行列が、前記第２部分行列を構成する、スケーリング関係が成立するように前記行列の各要素の値を調節することを含む、
請求項９に記載のモデル生成装置。
前記推論モデルは、ニューラルネットワークにより構成され、
前記行列の各要素は、前記ニューラルネットワークにおける各ニューロン間の結合の重みに対応するように構成され、
前記推論モデルを訓練することは、前記第１部分行列を構成する部分行列内での前記スケーリング関係の成立が、各部分行列が１×１行列になるまで繰り返されることで、前記行列の少なくとも一部内では、前記スケーリング関係が再帰的に成立するように前記行列の少なくとも一部の各要素の値を調節することを含み、
前記行列の少なくとも一部の各要素の値を調節することは、
前記スケーリング関係が再帰的に成立するように前記行列の少なくとも一部の各要素の初期値を与えること、
順伝播のフェーズにおいて、前記各学習データセットの訓練データに対して推論タスクを遂行した結果を導出すること、並びに
逆伝播のフェーズにおいて、導出された推論タスクの遂行結果及び対応する正解ラベルにより示される正解の間の誤差の勾配を逆伝播することにより、前記行列の少なくとも一部の各要素及び前記対角行列の各要素の値を調節すること、
により構成され、
前記順伝播のフェーズの演算は、
初期の第１部分行列を構成する前記１×１行列及び入力ベクトルの積を計算する第１ステップ、
得られた前記初期の第１部分行列の積の結果及び前記対角行列の対応する要素の積を計算することで、初期の第２部分行列を構成する前記１×１行列及び入力ベクトルの積を導出する第２ステップ、
対象の段階で得られた前記第１部分行列の積の結果及び前記第２部分行列の積の結果から次の段階の第１部分行列を構成する部分行列及び入力ベクトルの積を導出する第３ステップ、
得られた次の段階の前記第１部分行列の積の結果及び前記対角行列の対応する要素の積を計算することで、次の段階の前記第２部分行列を構成する部分行列及び入力ベクトルの積を導出する第４ステップ、並びに、
前記対象の段階で得られた前記第１部分行列の積の結果及び前記第２部分行列の積の結果それぞれの初期値として、前記第１ステップ及び前記第２ステップそれぞれで得られた前記初期の第１部分行列の積の結果及び前記初期の第２部分行列の積の結果それぞれを代入し、かつ前記第３ステップ及び前記第４ステップを再帰的に繰り返すことで、前記行列の少なくとも一部及び入力ベクトルの積を導出する第５ステップ、
により構成され、
前記逆伝播のフェーズの演算は、
前記行列の少なくとも一部及び入力ベクトルの積に対する前記誤差の勾配を取得する第１ステップ、
取得された前記誤差の勾配、並びに前記順伝播のフェーズの再帰的繰り返しの最終の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積の値に基づいて、当該最終の段階で使用される対角行列の各要素についての誤差の勾配を導出する第２ステップ、
取得された前記誤差の勾配及び前記最終の段階で使用される対角行列の各要素の値に基づいて、前記最終の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配を導出する第３ステップ、
取得された前記誤差の勾配、前記順伝播のフェーズの再帰的繰り返しの対象の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積の値、並びに前記順伝播のフェーズの再帰的繰り返しにおいて当該対象の段階の次の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配に基づいて、当該対象の段階で使用される対角行列の各要素についての誤差の勾配を導出する第４ステップ、
取得された前記誤差の勾配、前記対象の段階で使用される対角行列の各要素の値、並びに前記次の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配に基づいて、前記対象の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配を導出する第５ステップ、
前記次の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配の初期値として、前記逆伝播のフェーズの前記第３ステップで導出される、前記最終の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配を代入し、かつ前記順伝播のフェーズの再帰的繰り返しの初期の段階で使用される対角行列の各要素についての誤差の勾配を導出するまで、前記逆伝播のフェーズの前記第４ステップ及び前記第５ステップを再帰的に繰り返すことで、各段階で使用される対角行列の各要素についての誤差の勾配を導出する第６ステップ、
前記入力ベクトル、並びに前記第６ステップにより導出される、前記初期の段階で前記第１部分行列を構成する部分行列及び入力ベクトルの積についての誤差の勾配に基づいて、前記初期の第１部分行列を構成する前記１×１行列の要素についての誤差の勾配を導出する第７ステップ、並びに
前記各段階で使用される対角行列の各要素及び前記初期の第１部分行列を構成する前記１×１行列の要素それぞれについて導出された前記誤差の勾配に基づいて、前記各段階で使用される対角行列の各要素及び前記初期の第１部分行列を構成する前記１×１行列の要素それぞれの値を調節する第８ステップ、
により構成される、
請求項９に記載のモデル生成装置。
コンピュータが、
対象データを取得するステップと、
機械学習により訓練済みの推論モデルを使用して、取得された前記対象データに対して推論タスクを遂行するステップと、
前記推論タスクを遂行した結果に関する情報を出力するステップと、
を実行する推論方法であって、
前記推論モデルの複数のパラメータの少なくとも一部は、行列で表現され、
前記行列は、第１部分行列及び第２部分行列を含み、
前記第１部分行列及び前記第２部分行列の行及び列それぞれの要素の数は同一であり、
前記第２部分行列の各要素の値は、前記第１部分行列及び対角行列の積と一致するように調節されている、
推論方法。
コンピュータに、
対象データを取得するステップと、
機械学習により訓練済みの推論モデルを使用して、取得された前記対象データに対して推論タスクを遂行するステップと、
前記推論タスクを遂行した結果に関する情報を出力するステップと、
を実行させるための推論プログラムであって、
前記推論モデルの複数のパラメータの少なくとも一部は、行列で表現され、
前記行列は、第１部分行列及び第２部分行列を含み、
前記第１部分行列及び前記第２部分行列の行及び列それぞれの要素の数は同一であり、
前記第２部分行列の各要素の値は、前記第１部分行列及び対角行列の積と一致するように調節されている、
推論プログラム。