JP7392830B2

JP7392830B2 - 情報処理方法

Info

Publication number: JP7392830B2
Application number: JP2022510291A
Authority: JP
Inventors: 悠記小林
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2023-12-06
Anticipated expiration: 2040-03-26
Also published as: WO2021192182A1; US20230087752A1; JPWO2021192182A1

Description

本発明は、深層学習を行う情報処理方法、情報処理装置、プログラムに関する。

近年、畳み込みニューラルネットワーク（Convolutional Neural Network: CNN）に代表される深層学習の進化は目覚ましく、深層学習に対する要求性能がますます高まっている。特に、監視カメラ等のエッジ機器においては、最新の深層学習アルゴリズムに求められる高い性能をできる限り小さい消費電力で実現することが重要である。

エッジ機器で深層学習を実行する場合、汎用プロセッサを用いる方法、エッジ向けGPUを用いる方法、エッジAI向け ASSP （Application Specific Standard Product)を用いる方法、専用ASIC (Application Specific Integrated Circuit)を用いる方法などが考えられるが、そのいずれにしても、学習済みモデルを保持する記憶容量が問題となる。ここで、学習済みモデルは、畳込層(Convolution Layer)および全結合層（Fully Connected Layer）などから構成されるネットワーク構造と、各層で用いられる重みパラメタ（Weight parameter）の集合を表す。そして、記憶容量が問題となるのは重みパラメタである。

例えば、大規模画像データセットで学習された16層からなる学習済みの畳み込みニューラルネットワークであるVGG-16の重みパラメタ数は138百万個あり、４バイトで格納すると500MB以上の容量となる。これは、記憶容量が限られたエッジ機器では負担となる。また、エッジ機器においては、複数の学習済みモデルを同時または切り替えて利用することも考えられる。一例として、監視カメラといったエッジ機器を想定した場合、例えば、昼間用の物体検出モデルと、夜間用の物体検出モデルを両方用意し、周囲の明るさに合わせて切り替えて使用することが考えられる。このような場合、複数の学習済みモデルをそのまま格納すると、モデルの個数分の記憶容量が必要となり、エッジ機器では大きな負担となる。

ここで、単一の学習済みモデルの大きさを削減する手法として、Pruningと言われる手法が知られている（非特許文献１）。これは、値がゼロに近い重みパラメタを削除するもので、単一の学習済みモデルの容量を減らすことが可能である。ところが、重みパラメタを削除することで、認識精度の劣化が生じたり、認識精度の劣化を抑えるために再学習が必要となる。なお、学習済みモデル中の削除される重みパラメタは非連続のため、CSR（Compressed Sparse Row）などの形式で格納される。

また、ある学習済みモデルの最初の層群を流用し、全結合層など後段の層のみを学習し直す転移学習という手法がある。これにより、異なる学習済みモデルを利用する際の記憶容量をある程度効率化できる。また、大きな深層学習モデルから小さな深層学習モデルを生成する蒸留という手法もある。

Song Han, Huizi Mao, William J. Dally:"Deep Compression: Compressing Deep Neural Network with Pruning, Trained Quantization and Huffman Coding", ICLR 2016.

しかしながら、上述した転移学習や蒸留が適用できず、異なる学習データセットに対して全層の重みパラメタを再学習して作った複数の学習済みモデルを利用する場合、上述した既存手法は適用できない。すなわち、上述したように学習済みモデルを実装する機器に、複数の学習済みモデルの個数分だけ記憶容量が必要となり、記憶容量の削減を図ることができない、という問題が生じる。

このため、本発明の目的は、上述した課題である、機器に複数の学習済みモデルを実装する際において記憶容量の削減を図ることができない、という問題を解決することにある。

本発明の一形態である情報処理方法は、
第一の学習データセットを用いて第一の学習処理を行い、第一の重みパラメタを含む第一の学習モデルを生成すると共に、第二の学習データセットを用いて第二の学習処理を行い、第二の重みパラメタを含む第二の学習モデルを生成し、
前記第一の学習処理と前記第二の学習処理とを行う際に、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する、
という構成をとる。

本発明の一形態である情報処理装置は、
第一の学習データセットを用いて第一の学習処理を行い、第一の重みパラメタを含む第一の学習モデルを生成する第一の学習手段と、
第二の学習データセットを用いて第二の学習処理を行い、第二の重みパラメタを含む第二の学習モデルを生成する第二の学習手段と、
前記第一の学習処理と前記第二の学習処理とを行う際に、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する調停手段と、
を備えた、
という構成をとる。

本発明の一形態であるプログラムは、
情報処理装置に、
第一の学習データセットを用いて第一の学習処理を行い、第一の重みパラメタを含む第一の学習モデルを生成する第一の学習手段と、
第二の学習データセットを用いて第二の学習処理を行い、第二の重みパラメタを含む第二の学習モデルを生成する第二の学習手段と、
前記第一の学習処理と前記第二の学習処理とを行う際に、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する調停手段と、
を実現させる、
という構成をとる。

本発明は、以上のように構成されることにより、機器に複数の学習済みモデルを実装する際において記憶容量の削減を図ることができる。

本発明の実施形態１における学習装置の構成を示すブロック図である。図１に開示した学習装置の詳細な構成を示すブロック図である。図２に開示した重み調停部の詳細な構成を示すブロック図である。図１に開示した学習装置の動作を示すフローチャートである。図１に開示した学習装置による処理の様子を示す図である。図１に開示した学習装置による効果を説明するための図である。図１に開示した学習装置による効果を説明するための図である。本発明の実施形態２における情報処理装置のハードウェア構成を示すブロック図である。本発明の実施形態２における情報処理装置の構成を示すブロック図である。本発明の実施形態２における情報処理装置の動作を示すフローチャートである。

＜実施形態１＞
本発明の第１の実施形態を、図１乃至図７を参照して説明する。図１乃至図３は、学習装置の構成を説明するための図であり、図４乃至図５は、学習装置の処理動作を説明するための図である。図６乃至図７は、学習装置による効果を説明するための図である。

［構成］
本実施形態における学習装置１は、例えば、監視カメラ等のエッジ機器に搭載される学習モデルを学習するためのものである。特に、学習装置１は、一例として、２つの学習モデルを学習する際に、各学習モデルで用いられる重みパラメタが同一の値となるよう学習モデルを生成する機能を有する。これにより、各学習モデルで用いられる重みパラメタのデータ容量を抑制し、エッジ機器の記憶容量の削減を図ることとする。但し、学習装置１が学習する学習モデルはいかなる内容のものであってもよく、いかなる装置にて利用されるものであってもよい。

上記学習装置１は、演算装置と記憶装置とを備えた１台又は複数台の情報処理装置にて構成される。そして、学習装置１は、図１に示すように、第一の学習部１００、第二の学習部２００、モデル調停部３００、を備える。第一の学習部１００、第二の学習部２００、モデル調停部３００、の機能は、演算装置が記憶装置に格納された各機能を実現するためのプログラムを実行することにより、実現することができる。また、学習装置１は、学習データ記憶部４００を備える。学習データ記憶部４００は記憶装置により構成され、第一の学習データセット４１０、第二の学習データセット４２０、を記憶している。以下、各構成について詳述する。

上記第一の学習部１００（第一の学習手段）は、第一の学習データセット４１０から学習データおよび教師データを読み込み、深層学習の学習を行い、学習モデル（第一の学習モデル）を生成する。すなわち、ある学習データに対し、現状態における重みパラメタ（第一の重みパラメタ）を用いて各層の計算を行い、最終層の出力までを求める（順伝搬処理）。その後、教師データと最終層の出力とを比較し、差分（勾配（第一の勾配））を計算する。そして、計算した勾配を入力とし、各層の逆演算を行い、各層における重みパラメタとの勾配を出力する（逆伝搬処理）。この一連の動作を、深層学習の学習処理（Training）と呼称する。

上記第二の学習部２００（第二の学習手段）は、上述した第一の学習部１００と同様に、第二の学習データセット４２０から学習データおよび教師データを読み込み、深層学習の学習を行い、学習モデル（第二の学習モデル）を生成する。すなわち、ある学習データに対し、現状態における重みパラメタ（第二の重みパラメタ）を用いて各層の計算を行い、最終層の出力までを求める（順伝搬処理）。その後、教師データと最終層の出力とを比較し、差分（勾配（第一の勾配））を計算する。そして、計算した勾配を入力とし、各層の逆演算を行い、各層における重みパラメタとの勾配を出力する（逆伝搬処理）。

上記モデル調停部３００（調停手段）は、第一の学習部１００および第二の学習部２００の各層について、重みパラメタ（第一の重みパラメタ、第二の重みパラメタ）および重みパラメタに対する勾配（第一の勾配、第二の勾配）を入力として受け取る。そして、モデル調停部３００は、後述する調停演算を行った後、第一の学習部１００および第二の学習部２００の各層に対して重みパラメタの更新後の値をそれぞれ出力する。後述するように、モデル調停部３００の調停のもとに並行して第一の学習部１００と第二の学習部２００とが学習処理を行うことで、第一の学習部１００の重みパラメタ（第一の重みパラメタ）と第二の学習部２００の重みパラメタ（第二の重みパラメタ）がそれぞれ共通する値を持つようになる。

次に、上述した第一の学習部１００、第二の学習部２００、モデル調停部３００の構成についてさらに詳述する。

図２に示すように、第一の学習部１００は、中間層記憶部１１１～１１５と、中間層演算器１２１～１２４と、ロス関数計算部１３０と、とから構成されている。そして、第一の学習部１００は、学習データセット１４０を対象に学習処理を行う。なお、学習データセットは、学習対象データと教師データとから構成される。学習対象データは、最初の中間層記憶部１１１に入力され、教師データはロス関数計算部１３０に入力される。

上述したように、第一の学習部１００は、順伝搬処理と逆伝搬処理を交互に繰り返す。まず、順伝搬処理では、中間層演算器１２１は、重みパラメタ（第一の重みパラメタ）の現在の値を保持し、中間層記憶部１１１から入力されるデータに対し、下記数１式で表される畳込み演算を行い、中間層記憶部１１２に出力する。

ここで、上述した数１式における下記数２式に示す項は、第l層の中間層記憶が格納する第rチャネルの座標(j,k)のデータであり、数１式における下記数３式に示す項は、第l層の中間層演算器が入力チャネルrに対して出力チャネルiの計算に用いる重みパラメタである。

上記ロス関数計算部１３０は、最後の中間層記憶部１１５からの出力と、第一の学習データセットからの教師データと、を入力として受け取り、ロス関数を計算し、中間層の出力と教師データとの差分である勾配を中間層記憶部１１５へと出力する。

次に、逆伝搬処理では、中間層演算器１２４は、保持している現在の重みパラメタの値と、中間層記憶部１１５から入力されるデータとを用いて、逆畳み込み演算を行い、結果を中間層記憶部１１４に出力する。これと同時に、現在の重みパラメタとの差分を表す勾配を計算し、かかる勾配と現在の重みパラメタとをモデル調停部３００に出力する。そして、モデル調停部３００から返された更新後の重みパラメタで、自身が保持する現在の重みパラメタを更新する。なお、他の中間層演算器１２１～１２２も同様である。

なお、第二の学習部２００も、図２に示すように、第一の学習部１００と同様の構成である。

また、モデル調停部３００は、図２に示すように、第一の学習部１００および第二の学習部２００の各層に対応する重み調停部３１０をそれぞれ有する。そして、重み調停部３１０は、図３に示すように、勾配調停部３１１と、第一の重みパラメタ更新部３２１と、第二の重みパラメタ更新部３２２と、を備える。

上記勾配調停部３１１は、下記数４式及び数５式を用いて、それぞれの重みパラメタに対する調停後の勾配を計算し、第一の重みパラメタ更新部３２１および第二の重みパラメタ更新部３２２に出力する。

ここで、"grad1"は第一の学習部１００から入力された勾配（第一の勾配）、"grad2"は第二の学習部２００から入力された勾配（第二の勾配）である。"param1cur"は第一の学習部１００から入力された現在の重みパラメタ（第一の重みパラメタ）、"param2cur"は、第二の学習部２００から入力された現在の重みパラメタ（第二の重みパラメタ）である。"arbgrad1"は第一の学習部１００の重みパラメタに対する調停後の勾配（調停後の第一の勾配）、"arbgrad2"は第二の学習部２００の重みパラメタに対する調停後の勾配（調停後の第二の勾配）である。"β"は第一の学習部１００と第二の学習部２００の優先度を表す0以上1以下の実数である。

上記第一の重みパラメタ更新部３２１は、下記数６式を用いて、上述した数４式にて算出された調停後の勾配（調停後の第一の勾配）と、第一の学習部１００から入力された現在の重みパラメタ（第一の重みパラメタ）をもとに、第一の学習部１００における更新後の重みパラメタ(更新後の第１の重みパラメタ)を計算し、第一の学習部１００に出力する。

ここで、"param1new"は更新後の重みパラメタ、"param1cur"は現在の重みパラメタ、"arbgrad1"は調停後の勾配、"λ"は学習率を表す0<λ<1の実数である。

上記第二の重みパラメタ更新部３２２は、下記数７式を用いて、上述した数５式にて算出された調停後の勾配（調停後の第二の勾配）と、第二の学習部２００から入力された現在の重みパラメタ（第二の重みパラメタ）をもとに、第二の学習部２００における更新後の重みパラメタ(更新後の第１の重みパラメタ)を計算し、第二の学習部２００に出力する。

ここで、"param2new"は更新後の重みパラメタ、"param2cur"は現在の重みパラメタ、"arbgrad2"は調停後の勾配、"λ"は学習率を表す0<λ<1の実数である。

なお、上記では、第一の学習部１００と第二の学習部２００とのネットワーク構造は同一であることとして説明しているが、これらのネットワーク構造は異なるものであってもよい。また、上記では、２つの学習部１００，２００を並行して学習する場合を例示しているが、３つ以上の学習部を備え、これらの学習を並行して行い、各学習部における重みパラメタの調停を行ってもよい。

［動作］
次に、主に図２のブロック図及び図４のフローチャートを参照して、上述した学習装置１の動作を説明する。まず、第一の学習部１００は、第一の学習データセット４１０からデータを読み込み（ステップＳ１）、順伝搬処理を行う（ステップＳ３）。並行して、第二の学習部２００は、第二の学習データセット４２０からデータを読み込み（ステップＳ２）、順伝搬処理を行う（ステップＳ４）。

続いて、第一の学習部１００は、逆伝搬処理を開始する（ステップＳ５）。並行して、第二の学習部２００も逆伝搬処理を開始する（ステップＳ６）。そして、第一の学習部１００および第二の学習部２００は、それぞれの逆伝搬処理の中で得られる勾配（第一の勾配、第二の勾配）をモデル調停部３００に与える。モデル調停部３００は、得られた勾配の調停を行って調停後の勾配を算出し、かかる調停後の勾配を用いて第一の学習部１００および第二の学習部２００のそれぞれにおける重みパラメタを更新する（ステップＳ７）。そして、モデル調停部３００は、更新した重みパラメタをそれぞれ第一の学習部１００および第二の学習部２００に返すことで、第一の学習部１００および第二の学習部２００はそれぞれの重みパラメタを更新する。

次に、図５を参照してモデル調停部３００の具体的な動作を説明する。ここでは、数６式及び数７式における"λ"が「0.8」、数４式及び数５式における"β"が「0.4」、第一の学習部１００における第一の重みパラメタ（param1cur）の初期値が「30」、第二の学習部２００における第二の重みパラメタ（param2cur）の初期値が「70」である場合を例に挙げる。

最初のステップであるStep1においては、"param1cur"は「30」、"param2cur"は「70」である。このとき、逆伝搬処理において、第一の学習部１００における第一の勾配"grad1"および第二の学習部２００における第二の勾配"grad2"が、それぞれ「+20」、「－40」と計算されたとする。すると、上記数４式及び数５式に基づき、第一の学習部１００の重みパラメタに対応する調停後の勾配（調停後の第一の勾配）"arggrad1"、および、第二の学習部２００の重みパラメタに対応する調停後の勾配（調停後の第二の勾配）"arggrad2"は、それぞれ「+12」、「-28」と計算される。さらに、数６式及び数７式に基づき、第一の学習部１００における更新後の重みパラメタ（更新後の第一の重みパラメタ）"param1new"は「39.6」、第二の学習部２００における更新後の重みパラメタ（更新後の第二の重みパラメタ）"param１2new"は「47.6」と計算され、"param1new"および"param2new"の値で、第一の重みパラメタ"param1cur"及び第二の重みパラメタ"param1cur"が更新される。

次のステップであるStep2においては、逆伝搬処理において、勾配"grad1"および"grad2"がそれぞれ「+12」、「－18」と計算されたとする。このとき、Step1と同様に計算され、第一の重みパラメタ"param1cur"及び第二の重みパラメタ"param2cur"は、それぞれ「42.2」及び「43.8」と更新される。なお、勾配"grad1"の値は、第一の学習部１００中の他の重みパラメタに影響を受けて計算されるため、あるステップでの重みパラメタと勾配の和と別のステップでの重みパラメタと勾配の和とは必ずしも同じ値とはならない。

以上のように、ステップを進めていくと、図５の例では、Step5において、第一の重みパラメタ"param1cur"と第二の重みパラメタ"param2cur"の値が同じ値となる。なお、第一の重みパラメタと第二の重みパラメタの値が同じ値になったとしても、学習が終了するとは限らない。また、学習終了時点で上述したように二つのパラメタの値が必ず同じ値になっている保証はなく、また、同じ値に収束している必要があるわけではない。この場合、第一の重みパラメタと第二の重みパラメタの値の差が小さければ同一の値とみなしてもよい。つまり、モデル調停部３００は、第一の重みパラメタと第二の重みパラメタとを完全に同一の値となるよう更新することに限らず、両者に差があったとしても、予め設定された基準により同一と判断される範囲内の値であれば、略同一の値とみなして更新してもよい。

なお、第二の学習部２００の重みパラメタに対応する調停後の勾配"arbgrad2"は、下記数８式にて算出してもよい。この場合、"β"は、注目する学習部のもう一方の学習部に対する優先度を表す0以上1以下の実数と定義される。

［効果］
次に、本実施形態の効果について、図６乃至図７を参照して説明する。本実施形態では、２つの学習済みモデルの重みパラメタにできるだけ共通性をもたせる、つまり、略同一となるように学習するように構成されているため、重みパラメタを格納するために必要な記憶容量を削減できる。

まず、図６を用いて、重みパラメタを格納するために必要な記憶容量を削減する例を示す。図６の左側の表は、8つの32bitデータを、アドレス０ｂ０００～０ｂ１１１に格納する例を示す。ここで「0x」は16進数、「０ｂ」は2進数を表すものとする。このように、図６の左側の例では、8ｘ32＝256ビットの記憶容量が必要となる。

これに対し、図６の右側の１つ目の表では、データの持つ冗長性を利用し、記憶容量を削減している。例えば、アドレス０ｂ０００、０ｂ０１１、０ｂ１０１、０ｂ１１０に対するデータは同じ値０ｘ１２３４５６７８であるため、インデックス０とだけ記憶する。そして、図６の右側の２つ目の別の表においては、インデックス０に対応するデータとして０ｘ１２３４５６７８を記憶する。この例では、インデックスは３種類だけであるので、インデックスの記憶に必要なビット幅は高々2ビットであり、図６の右側に示す例では、合計記憶容量は８ｘ２＋３ｘ３２＝112ビットとなり、記憶容量を256ビットから大幅に削減することができる。

また、図７に、組合せ回路を用いて重みパラメタを格納するのに必要な記憶容量を削減する例を示す。図７の左側に示す例では、8入力セレクタを用いて、8つの32ビットデータを選択して出力する回路となっている。これに対し、図７の右側に示す例では、3入力セレクタと、アドレスをデコードするデコード回路を用い、図７の左側に示す例と同じ機能を実現している。

例えば、デコーダは
0b10 when (addr == 0b010) or (addr == 0b111) else
0b01 when (addr == 0b001) or (addr == 0b100) else
0b00
という簡単な回路で実現でき、図７の左側に示す例と比較して記憶容量（回路規模）を削減できる。

以上のように、本実施形態では、複数の学習済みモデルの重みパラメタが略同一となるよう学習しているため、複数の学習済みモデルの重みパラメタを格納するために必要な記憶容量を削減することができる。

＜実施形態２＞
次に、本発明の第２の実施形態を、図８乃至図１０を参照して説明する。図８乃至図９は、実施形態２における情報処理装置の構成を示すブロック図であり、図１０は、情報処理装置の動作を示すフローチャートである。なお、本実施形態では、上述した実施形態で説明した学習装置及び学習方法の構成の概略を示している。

まず、図８を参照して、本実施形態における情報処理装置５００のハードウェア構成を説明する。情報処理装置５００は、一般的な情報処理装置にて構成されており、一例として、以下のようなハードウェア構成を装備している。
・ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５０１（演算装置）
・ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０２（記憶装置）
・ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０３（記憶装置）
・ＲＡＭ５０３にロードされるプログラム群５０４
・プログラム群５０４を格納する記憶装置５０５
・情報処理装置外部の記憶媒体５１０の読み書きを行うドライブ装置５０６
・情報処理装置外部の通信ネットワーク５１１と接続する通信インタフェース５０７
・データの入出力を行う入出力インタフェース５０８
・各構成要素を接続するバス５０９

そして、情報処理装置５００は、プログラム群５０４をＣＰＵ５０１が取得して当該ＣＰＵ５０１が実行することで、図９に示す第一の学習手段５２１と第二の学習手段５２２と調停手段５２３とを構築して装備することができる。なお、プログラム群５０４は、例えば、予め記憶装置５０５やＲＯＭ５０２に格納されており、必要に応じてＣＰＵ５０１がＲＡＭ５０３にロードして実行する。また、プログラム群５０４は、通信ネットワーク５１１を介してＣＰＵ５０１に供給されてもよいし、予め記憶媒体５１０に格納されており、ドライブ装置５０６が該プログラムを読み出してＣＰＵ５０１に供給してもよい。但し、上述した第一の学習手段５２１と第二の学習手段５２２と調停手段５２３とは、かかる手段を実現させるための専用の電子回路で構築されるものであってもよい。

なお、図８は、情報処理装置５００のハードウェア構成の一例を示しており、情報処理装置のハードウェア構成は上述した場合に限定されない。例えば、情報処理装置は、ドライブ装置５０６を有さないなど、上述した構成の一部から構成されてもよい。

そして、情報処理装置５００は、上述したようにプログラムによって構築された第一の学習手段５２１と第二の学習手段５２２と調停手段５２３との機能により、図２０のフローチャートに示す情報処理方法を実行する。

図１０に示すように、情報処理装置５００は、
第一の学習データセットを用いて第一の学習処理を行い、第一の重みパラメタを含む第一の学習モデルを生成すると共に、第二の学習データセットを用いて第二の学習処理を行い、第二の重みパラメタを含む第二の学習モデルを生成し（ステップＳ１０１）、
前記第一の学習モデルと前記第二の学習モデルとを生成する際に、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する（ステップＳ１０２）、
という処理を実行する。

本発明は、以上のように構成されることにより、複数の学習モデルの重みパラメタが略同一となるよう学習しているため、複数の学習モデルの重みパラメタを格納するために必要な記憶容量を削減することができる。

なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。また、上述した第一の学習手段５２１と第二の学習手段５２２と調停手段５２３との機能のうちの少なくとも一以上の機能は、ネットワーク上のいかなる場所に設置され接続された情報処理装置で実行されてもよく、つまり、いわゆるクラウドコンピューティングで実行されてもよい。

＜付記＞
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における情報処理方法、情報処理装置、プログラムの構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
（付記１）
第一の学習データセットを用いて第一の学習処理を行い、第一の重みパラメタを含む第一の学習モデルを生成すると共に、第二の学習データセットを用いて第二の学習処理を行い、第二の重みパラメタを含む第二の学習モデルを生成し、
前記第一の学習処理と前記第二の学習処理とを行う際に、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する、
情報処理方法。
（付記２）
付記１に記載の情報処理方法であって、
前記第一の学習処理として、前記第一の重みパラメタを用いて順伝搬処理を行うと共に、前記第一の重みパラメタに対する第一の勾配を算出する逆伝搬処理を行い、
前記第二の学習処理として、前記第二の重みパラメタを用いて順伝搬処理を行うと共に、前記第二の重みパラメタに対する第二の勾配を算出する逆伝搬処理を行い、
前記第一の重みパラメタと、前記第一の勾配と、前記第二の重みパラメタと、前記第二の勾配と、を用いて、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する、
情報処理方法。
（付記３）
付記２に記載の情報処理方法であって、
前記第一の重みパラメタと、前記第一の勾配と、前記第二の重みパラメタと、前記第二の勾配と、を用いて、調停後の第一の勾配と調停後の第二の勾配とを算出し、前記調停後の第一の勾配と前記調停後の第二の勾配とに基づいて、前記第一の重みパラメタと前記第二の重みパラメタとを更新する、
情報処理方法。
（付記４）
付記３に記載の情報処理方法であって、
前記第一の重みパラメタをＰ１、前記第一の勾配をＧ１、前記第二の重みパラメタをＰ２、前記第二の勾配をＧ２、前記調停後の第一の勾配をＧ１ｎ、前記調停後の第二の勾配をＧ２ｎ、前記第一の学習処理と前記第二の学習処理との優先度をβ（０≦β≦１）、とした場合に、
Ｇ１ｎ＝Ｇ１＋β{（Ｐ２＋Ｇ２）－（Ｐ１＋Ｇ１）}
Ｇ２ｎ＝Ｇ２＋（１－β）{（Ｐ１＋Ｇ１）－（Ｐ２＋Ｇ２）}
にて前記調停後の第一の勾配と前記調停後の第二の勾配とを算出する、
情報処理方法。
（付記５）
付記３又は４に記載の情報処理方法であって、
前記第一の重みパラメタと前記調停後の第一の勾配とに基づいて、前記第一の重みパラメタを更新し、前記第二の重みパラメタと前記調停後の第二の勾配とに基づいて、前記第二の重みパラメタを更新する、
情報処理方法。
（付記６）
付記５に記載の情報処理方法であって、
前記第一の重みパラメタをＰ１、前記調停後の第一の勾配をＧ１ｎ、前記更新後の第一の重みパラメタＰ１ｎ、前記第二の重みパラメタをＰ２、前記調停後の第二の勾配をＧ２ｎ、前記更新後の第二の重みパラメタをＰ２ｎ、学習率をλ（０＜λ＜１）、とした場合に、
Ｐ１ｎ＝Ｐ１＋λ・Ｇ１ｎ
Ｐ２ｎ＝Ｐ２＋λ・Ｇ２ｎ
にて前記更新後の第一の重みパラメタと前記更新後の第二の重みパラメタとを算出する、
情報処理方法。
（付記７）
第一の学習データセットを用いて第一の学習処理を行い、第一の重みパラメタを含む第一の学習モデルを生成する第一の学習手段と、
第二の学習データセットを用いて第二の学習処理を行い、第二の重みパラメタを含む第二の学習モデルを生成する第二の学習手段と、
前記第一の学習処理と前記第二の学習処理とを行う際に、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する調停手段と、
を備えた情報処理装置。
（付記８）
付記７に記載の情報処理装置であって、
前記第一の学習手段は、前記第一の学習処理として、前記第一の重みパラメタを用いて順伝搬処理を行うと共に、前記第一の重みパラメタに対する第一の勾配を算出する逆伝搬処理を行い、
前記第二の学習手段は、前記第二の学習処理として、前記第二の重みパラメタを用いて順伝搬処理を行うと共に、前記第二の重みパラメタに対する第二の勾配を算出する逆伝搬処理を行い、
前記調停手段は、前記第一の重みパラメタと、前記第一の勾配と、前記第二の重みパラメタと、前記第二の勾配と、を用いて、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する、
情報処理装置。
（付記８．１）
付記８に記載の情報処理装置であって、
前記調停手段は、前記第一の重みパラメタと、前記第一の勾配と、前記第二の重みパラメタと、前記第二の勾配と、を用いて、調停後の第一の勾配と調停後の第二の勾配とを算出し、前記調停後の第一の勾配と前記調停後の第二の勾配とに基づいて、前記第一の重みパラメタと前記第二の重みパラメタとを更新する、
情報処理装置。
（付記８．２）
付記８．１に記載の情報処理装置であって、
前記調停手段は、前記第一の重みパラメタをＰ１、前記第一の勾配をＧ１、前記第二の重みパラメタをＰ２、前記第二の勾配をＧ２、前記調停後の第一の勾配をＧ１ｎ、前記調停後の第二の勾配をＧ２ｎ、前記第一の学習処理と前記第二の学習処理との優先度をβ（０≦β≦１）、とした場合に、
Ｇ１ｎ＝Ｇ１＋β{（Ｐ２＋Ｇ２）－（Ｐ１＋Ｇ１）}
Ｇ２ｎ＝Ｇ２＋（１－β）{（Ｐ１＋Ｇ１）－（Ｐ２＋Ｇ２）}
にて前記調停後の第一の勾配と前記調停後の第二の勾配とを算出する、
情報処理装置。
（付記８．３）
付記８．１又は８．２に記載の情報処理装置であって、
前記調停手段は、前記第一の重みパラメタと前記調停後の第一の勾配とに基づいて、前記第一の重みパラメタを更新し、前記第二の重みパラメタと前記調停後の第二の勾配とに基づいて、前記第二の重みパラメタを更新する、
情報処理装置。
（付記８．４）
付記８．３に記載の情報処理装置であって、
前記調停手段は、前記第一の重みパラメタをＰ１、前記調停後の第一の勾配をＧ１ｎ、更新後の第一の重みパラメタＰ１ｎ、前記第二の重みパラメタをＰ２、前記調停後の第二の勾配をＧ２ｎ、更新後の第二の重みパラメタをＰ２ｎ、学習率をλ（０＜λ＜１）、とした場合に、
Ｐ１ｎ＝Ｐ１＋λ・Ｇ１ｎ
Ｐ２ｎ＝Ｐ２＋λ・Ｇ２ｎ
にて前記更新後の第一の重みパラメタと前記更新後の第二の重みパラメタとを算出する、
情報処理装置。
（付記９）
情報処理装置に、
第一の学習データセットを用いて第一の学習処理を行い、第一の重みパラメタを含む第一の学習モデルを生成する第一の学習手段と、
第二の学習データセットを用いて第二の学習処理を行い、第二の重みパラメタを含む第二の学習モデルを生成する第二の学習手段と、
前記第一の学習処理と前記第二の学習処理とを行う際に、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する調停手段と、
を実現させるためのプログラムを記憶したコンピュータにて読み取り可能な記憶媒体。

１学習装置
１００第一の学習部
１１１，１１２，１１３，１１４，１１５中間層記憶部
１２１，１２２，１２４中間層演算器
１３０ロス関数計算部
２００第二の学習部
３００モデル調停部
３１０重み調停部
３１１勾配調停部
３２１第一の重みパラメタ更新部
３２２第二の重みパラメタ更新部
４００学習データ記憶部
４１０第一の学習データセット
４２０第二の学習データセット
５００情報処理装置
５０１ＣＰＵ
５０２ＲＯＭ
５０３ＲＡＭ
５０４プログラム群
５０５記憶装置
５０６ドライブ装置
５０７通信インタフェース
５０８入出力インタフェース
５０９バス
５１０記憶媒体
５１１通信ネットワーク
５２１第一の学習手段
５２２第二の学習手段
５２３調停手段

Claims

第一の学習データセットを用いて第一の学習処理を行い、第一の重みパラメタを含む第一の学習モデルを生成すると共に、第二の学習データセットを用いて第二の学習処理を行い、第二の重みパラメタを含む第二の学習モデルを生成し、
前記第一の学習処理と前記第二の学習処理とを行う際に、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する、
情報処理方法。
請求項１に記載の情報処理方法であって、
前記第一の学習処理として、前記第一の重みパラメタを用いて順伝搬処理を行うと共に、前記第一の重みパラメタに対する第一の勾配を算出する逆伝搬処理を行い、
前記第二の学習処理として、前記第二の重みパラメタを用いて順伝搬処理を行うと共に、前記第二の重みパラメタに対する第二の勾配を算出する逆伝搬処理を行い、
前記第一の重みパラメタと、前記第一の勾配と、前記第二の重みパラメタと、前記第二の勾配と、を用いて、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する、
情報処理方法。
請求項２に記載の情報処理方法であって、
前記第一の重みパラメタと、前記第一の勾配と、前記第二の重みパラメタと、前記第二の勾配と、を用いて、調停後の第一の勾配と調停後の第二の勾配とを算出し、前記調停後の第一の勾配と前記調停後の第二の勾配とに基づいて、前記第一の重みパラメタと前記第二の重みパラメタとを更新する、
情報処理方法。
請求項３に記載の情報処理方法であって、
前記第一の重みパラメタをＰ１、前記第一の勾配をＧ１、前記第二の重みパラメタをＰ２、前記第二の勾配をＧ２、前記調停後の第一の勾配をＧ１ｎ、前記調停後の第二の勾配をＧ２ｎ、前記第一の学習処理と前記第二の学習処理との優先度をβ（０≦β≦１）、とした場合に、
Ｇ１ｎ＝Ｇ１＋β{（Ｐ２＋Ｇ２）－（Ｐ１＋Ｇ１）}
Ｇ２ｎ＝Ｇ２＋（１－β）{（Ｐ１＋Ｇ１）－（Ｐ２＋Ｇ２）}
にて前記調停後の第一の勾配と前記調停後の第二の勾配とを算出する、
情報処理方法。
請求項３又は４に記載の情報処理方法であって、
前記第一の重みパラメタと前記調停後の第一の勾配とに基づいて、前記第一の重みパラメタを更新し、前記第二の重みパラメタと前記調停後の第二の勾配とに基づいて、前記第二の重みパラメタを更新する、
情報処理方法。
請求項５に記載の情報処理方法であって、
前記第一の重みパラメタをＰ１、前記調停後の第一の勾配をＧ１ｎ、更新後の第一の重みパラメタＰ１ｎ、前記第二の重みパラメタをＰ２、前記調停後の第二の勾配をＧ２ｎ、更新後の第二の重みパラメタをＰ２ｎ、学習率をλ（０＜λ＜１）、とした場合に、
Ｐ１ｎ＝Ｐ１＋λ・Ｇ１ｎ
Ｐ２ｎ＝Ｐ２＋λ・Ｇ２ｎ
にて前記更新後の第一の重みパラメタと前記更新後の第二の重みパラメタとを算出する、
情報処理方法。
第一の学習データセットを用いて第一の学習処理を行い、第一の重みパラメタを含む第一の学習モデルを生成する第一の学習手段と、
第二の学習データセットを用いて第二の学習処理を行い、第二の重みパラメタを含む第二の学習モデルを生成する第二の学習手段と、
前記第一の学習処理と前記第二の学習処理とを行う際に、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する調停手段と、
を備えた情報処理装置。
請求項７に記載の情報処理装置であって、
前記第一の学習手段は、前記第一の学習処理として、前記第一の重みパラメタを用いて順伝搬処理を行うと共に、前記第一の重みパラメタに対する第一の勾配を算出する逆伝搬処理を行い、
前記第二の学習手段は、前記第二の学習処理として、前記第二の重みパラメタを用いて順伝搬処理を行うと共に、前記第二の重みパラメタに対する第二の勾配を算出する逆伝搬処理を行い、
前記調停手段は、前記第一の重みパラメタと、前記第一の勾配と、前記第二の重みパラメタと、前記第二の勾配と、を用いて、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する、
情報処理装置。
情報処理装置に、
第一の学習データセットを用いて第一の学習処理を行い、第一の重みパラメタを含む第一の学習モデルを生成する第一の学習手段と、
第二の学習データセットを用いて第二の学習処理を行い、第二の重みパラメタを含む第二の学習モデルを生成する第二の学習手段と、
前記第一の学習処理と前記第二の学習処理とを行う際に、前記第一の重みパラメタと前記第二の重みパラメタとが略同一の値となるよう前記第一の重みパラメタと前記第二の重みパラメタとを更新する調停手段と、
を実現させるためのプログラム。