JP7566705B2

JP7566705B2 - 学習方法、学習プログラム、および学習装置

Info

Publication number: JP7566705B2
Application number: JP2021145941A
Authority: JP
Inventors: 雄士朗柏本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2024-10-15
Anticipated expiration: 2041-09-08
Also published as: US20230072334A1; JP2023039012A

Description

本発明の実施形態は、学習方法、学習プログラム、および学習装置に関する。

学習データを用いたニューラルネットワークの学習が行われている。例えば、教師有り学習データセットの特徴量と教師無し学習データセットの特徴量との区別がつかないように敵対的学習を行う方法が開示されている（例えば、特許文献１参照）。また、教師有り学習データの特徴量の要素間の共分散を損失関数として用いて学習する方法が開示されている（例えば、非特許文献１参照）。

しかし、特許文献１の方法では、区別可能な情報を敵対的学習によって強引に区別不能にする学習を行うため、学習モデルの本来目的とするタスクに悪影響が発生する場合があった。また、特許文献２の方法では、教師有り学習において要素間の共分散を損失関数に用いるため、要素の分散を低減してしまい特徴量の表現能力を低下させる場合があった。すなわち、従来技術では、ニューラルネットワークの性能が低下する場合があった。

国際公開第２０２１／０３８８１２号

ＭｉｃｈａｅｌＣｏｇｓｗｅｌｌ，ｅｔａｌ．"ＲｅｄｕｃｉｎｇＯｖｅｒｆｉｔｔｉｎｇｉｎＤｅｅｐＮｅｔｗｏｒｋｓｂｙＤｅｃｏｒｒｅｌａｔｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ"

本発明は、上記に鑑みてなされたものであって、ニューラルネットワークの性能向上を図ることができる、学習方法、学習プログラム、および学習装置を提供することを目的とする。

実施形態の学習方法は、コンピュータが実行する学習方法であって、複数の学習データからなる学習データ群を入力されたニューラルネットワークの中間層および最終層の少なくとも一方から出力される特徴量における、チャネル間の相関である第１の損失関数の値を低減させるように、前記ニューラルネットワークを学習する学習ステップ、を含み、前記特徴量は、複数の前記学習データの各々に対する、複数の前記チャネルの各々のチャネル値によって表され、前記チャネル間の相関は、前記特徴量に含まれる、互いに異なる前記チャネルに対する前記学習データ群の前記チャネル値の群間の相関を表す値である。

学習装置の構成の一例を示すブロック図。学習処理の一例の説明図。特徴量の一例の模式図。ニューラルネットワークの学習処理の一例の説明図。ニューラルネットワークの学習処理の一例の説明図。ニューラルネットワークの学習処理の一例の説明図。表示画面の一例の模式図。情報処理の流れの一例のフローチャート。ハードウェア構成図。

以下に添付図面を参照して、学習方法、学習プログラム、および学習装置を詳細に説明する。

図１は、本実施形態の学習装置１０の構成の一例を示すブロック図である。

学習装置１０は、ニューラルネットワーク２０を学習する情報処理装置である。

学習装置１０は、処理部１２と、記憶部１４と、表示部１６と、操作入力部１８と、を備える。処理部１２、記憶部１４、表示部１６、および操作入力部１８は、バス１９を介してデータまたは信号を授受可能に接続されている。

記憶部１４は、各種のデータを記憶する。記憶部１４は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部１４は、学習装置１０の外部に設けられた記憶装置であってもよい。また、記憶部１４、表示部１６、操作入力部１８、および処理部１２に含まれる複数の機能部、の少なくとも１つを、ネットワーク等を介して学習装置１０に通信可能に接続された外部の情報処理装置に搭載した構成としてもよい。

表示部１６は、各種の情報を表示するディスプレイである。操作入力部１８は、ユーザによる操作入力を受付ける。操作入力部１８は、例えば、マウス等の各種のポインティングデバイス、キーボード等である。表示部１６と操作入力部１８とを一体的に構成したタッチパネルとしてもよい。

処理部１２は、ニューラルネットワーク２０を学習する学習処理を含む情報処理を実行する。

図２Ａは、処理部１２による学習処理の一例の説明図である。

処理部１２は、複数の学習データ３０を入力されたニューラルネットワーク２０の中間層および最終層の少なくとも一方から出力される特徴量４０における、チャネル間の相関から求められる第１の損失関数の値５０を低減させるように、ニューラルネットワーク２０を学習する。

学習データ３０は、ニューラルネットワーク２０の学習に用いる入力データである。ニューラルネットワーク２０に入力する複数の学習データ３０は、例えば、教師有り学習データセット３２および教師無し学習データセット３４を含む。

教師有り学習データセット３２は、教示情報を付与された複数の教師有り学習データからなる。教師無し学習データセット３４は、教示情報を付与されていない複数の教師無し学習データからなる。

教示情報とは、学習の際にニューラルネットワーク２０から出力されるべき正解のデータを直接または間接的に表すデータである。教示情報は、正解ラベルと称される場合もある。

特徴量４０は、ニューラルネットワーク２０に入力された学習データ３０がニューラルネットワーク２０のモデル内のパラメータに従って処理され、ニューラルネットワーク２０の中間層または最終層から配列として出力される。

なお、処理部１２は、特徴量４０に対して配列の形状の操作や特定の軸を基準とした配列の値の操作を行ってもよい。この操作の一例には、”ＧｌｏｂａｌＡｖｅｒａｇｅＰｏｏｌｉｎｇ”、”ＧｌｏｂａｌＭａｘＰｏｏｌｉｎｇ”などの配列の次元を削減する操作手法が挙げられる。

図２Ｂは、特徴量４０の一例の模式図である。

図２Ｂ中、横軸はチャネル数を表す。縦軸はバッチサイズを表す。チャネルとは、特徴量を表す要素の種類である。要素の種類は、学習データ３０が人物の顔の画像データである場合、例えば、顔における両眼間の距離、鼻の高さ、などである。ただし、これらに限らず、実際にはニューラルネットワークの学習により顔画像から個人を識別するために有効な何らかの変量が数値として抽出され、それが要素として用いられればよい。チャネル数は、例えば、２５６等であるが、この数に限定されない。

バッチサイズとは、学習データ３０のサンプル数である。すなわち、バッチサイズは、ニューラルネットワーク２０の学習に用いる学習データ３０の数である。

第１の損失関数の値５０とは、特徴量４０における、チャネル間の相関の高さを表す値である。例えば、処理部１２は、特徴量４０における任意の２つのチャネルの値ｆ_ｉおよびｆ_ｊを特定する。ｆ_ｉおよびｆ_ｊは、互いに異なるチャネルにおける、複数の学習データ３０の各々の特徴量の値の群であり、ベクトルで表される。第１の損失関数の値５０は、例えば、相関係数を用いて算出される値である。例えば、第１の損失関数の値５０は、これらの２つのチャネルの値ｆ_ｉとｆ_ｊとの相関係数ｒ_ｉ，ｊを意味する。ｉおよびｊは、何番目のチャネルであるかを表す整数であり、互いに異なる値である。このため、相関係数ｒ_ｉ，ｊは、ｉ番目のチャネルとｊ番目のチャネルとの相関係数を意味する。

なお、第１の損失関数の値５０には、相関係数ｒ_ｉ，ｊの絶対和または相関係数ｒ_ｉ，ｊの二乗和を用いればよい。

処理部１２は、第１の損失関数の値５０を低減させるようにニューラルネットワーク２０を学習する。すなわち、処理部１２は、ベクトルによって表されるｉ番目のチャネルの値ｆ_ｉとｊ番目のチャネルの値ｆ_ｊとのベクトル間の相関を低減させるように、ニューラルネットワーク２０を学習する。

詳細には、処理部１２は、ｉ番目とｊ番目のチャネルの組み合わせを変えた複数の組み合わせの各々の第１の損失関数の値５０を算出し、これらの第１の損失関数の値５０を低減させるようにニューラルネットワーク２０を学習する。

具体的には、例えば、処理部１２は、損失関数を用いて、チャネル間の相関の高さを表す第１の損失関数の値５０を算出し、ニューラルネットワーク２０へ逆伝搬させる。例えば、処理部１２は、２つのチャネルの値ｆ_ｉとｆ_ｊとの相関係数をｒ_ｉ，ｊとすると、式（１）で表されるロスを加えてニューラルネットワーク２０を学習する。

そして、処理部１２は、勾配降下法を用いてニューラルネットワーク２０のモデル内のパラメータを更新し、特徴量４０のチャネル間の相関である第１の損失関数の値５０を低減させる学習を行う。

処理部１２が、第１の損失関数の値５０を低減させるようにニューラルネットワーク２０を繰り返し学習することで、特徴量４０のチャネル間の相関を低減させることができる。すなわち、処理部１２は、特徴量４０の互いに異なるチャネルの値がより異なる情報を表現できるようにニューラルネットワーク２０を学習させることができる。このため、処理部１２は、特徴量４０の表現能力を向上させることができる。

図１に戻り説明を続ける。処理部１２による処理を具体的に説明する。

本実施形態では、処理部１２は、入力部１２Ａと、取得部１２Ｂと、導出部１２Ｃと、学習部１２Ｄと、受付部１２Ｅと、表示制御部１２Ｆと、を有する。

入力部１２Ａ、取得部１２Ｂ、導出部１２Ｃ、学習部１２Ｄ、受付部１２Ｅ、および表示制御部１２Ｆは、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

図３Ａは、ニューラルネットワーク２０の学習処理の一例の説明図である。

入力部１２Ａは、複数の学習データ３０をニューラルネットワーク２０へ入力する。

例えば、入力部１２Ａは、複数の学習データ３０として、教師有り学習データセット３２および教師無し学習データセット３４をニューラルネットワーク２０へ入力する。

なお、ニューラルネットワーク２０に入力する複数の学習データ３０として、複数の教師有り学習データセット３２の群、および、複数の教師無し学習データセット３４の群、を用いてもよい。

この場合、複数の教師有り学習データセット３２は、互いに異なるドメインの教師有り学習データセット３２であってもよい。異なるドメインであるとは、データの種類およびデータの取得環境の少なくとも一方が異なることを意味する。具体的には、例えば、互いに異なるドメインの教師有り学習データセット３２は、風景の教師有り学習データセット３２と、人物の画像データである教師有り学習データセット３２、等である。

同様に、複数の教師無し学習データセット３４は、互いに異なるドメインの学習データ３０であってもよい。

また、教師無し学習データセット３４には、教師有り学習データセット３２から教示情報を除いたデータのセットを用いてもよい。

入力部１２Ａは、教師有り学習データセット３２に含まれる一部の教師有り学習データをニューラルネットワーク２０へ入力してもよい。また、入力部１２Ａは、教師有り学習データセット３２に含まれる全ての教師有り学習データをニューラルネットワーク２０へ入力してもよい。

同様に、入力部１２Ａは、教師無し学習データセット３４に含まれる一部の教師無し学習データをニューラルネットワーク２０へ入力してもよい。また、入力部１２Ａは、教師無し学習データセット３４に含まれる全ての教師無し学習データをニューラルネットワーク２０へ入力してもよい。

取得部１２Ｂは、特徴量４０として、第１特徴量４０Ａおよび第２特徴量４０Ｂを取得する。

第１特徴量４０Ａは、教師有り学習データセット３２をニューラルネットワーク２０へ入力することによって、ニューラルネットワーク２０の中間層および最終層の少なくとも一方から出力される特徴量４０である。

第２特徴量４０Ｂは、教師無し学習データセット３４をニューラルネットワーク２０へ入力することによって、ニューラルネットワーク２０の中間層および最終層の少なくとも一方から出力される特徴量４０である。

取得部１２Ｂは、教師有り学習データセット３２をニューラルネットワーク２０へ入力することで、該ニューラルネットワーク２０から第１特徴量４０Ａを取得する。また、取得部１２Ｂは、教師無し学習データセット３４をニューラルネットワーク２０へ入力することで、該ニューラルネットワーク２０から第２特徴量４０Ｂを取得する。

取得部１２Ｂによる第１特徴量４０Ａおよび第２特徴量４０Ｂの取得順は限定されない。例えば、取得部１２Ｂは、第１特徴量４０Ａを取得した後に第２特徴量４０Ｂを取得してよい。また、取得部１２Ｂは、第２特徴量４０Ｂを取得した後に第１特徴量４０Ａを取得してよい。

上述したように、第１特徴量４０Ａおよび第２特徴量４０Ｂは、ニューラルネットワーク２０の中間層または最終層から出力された特徴量４０である。第１特徴量４０Ａおよび第２特徴量４０Ｂは、ニューラルネットワーク２０の互いに異なる層から出力された特徴量４０であってもよい。また、第１特徴量４０Ａおよび第２特徴量４０Ｂは、ニューラルネットワーク２０の同じ層から出力された特徴量４０であってもよい。

ニューラルネットワーク２０から出力される第１特徴量４０Ａおよび第２特徴量４０Ｂは、それぞれ１つであってもよいし、複数であってもよい。複数である場合、例えば、取得部１２Ｂは、ニューラルネットワーク２０における２か所以上の層の各々から得られた複数の特徴量４０を、それぞれ独立に第１特徴量４０Ａおよび第２特徴量４０Ｂとして取得してもよい。

導出部１２Ｃは、特徴量４０から第１の損失関数の値５０を導出する。

例えば、導出部１２Ｃは、第１特徴量４０Ａに基づいて第２の損失関数の値５０Ｂを導出する。

第２の損失関数の値５０Ｂは、教師有り学習データセット３２をニューラルネットワーク２０へ入力することによってニューラルネットワーク２０から得られる出力情報が、教師有り学習データセット３２に付与された教示情報から求められる理想とする出力の状態からどれだけ遠いかを表す値である。言い換えると、第２の損失関数の値５０Ｂは、教師有り学習データセット３２に付与された教示情報に対して、ニューラルネットワーク２０から出力された出力情報がどれだけ近いまたは遠い情報であるかを表す情報である。

出力情報は、ニューラルネットワーク２０から出力される出力データを直接または間接的に表す情報である。言い換えると、出力情報は、教師有り学習データセット３２をニューラルネットワーク２０へ入力することによって、該ニューラルネットワーク２０が該教師有り学習データセット３２についての推論結果として出力する情報である。詳細には、出力情報は、ニューラルネットワーク２０から出力される、ニューラルネットワーク２０の目的とするタスクに関するデータである。

ニューラルネットワーク２０の目的とするタスクは、入力データの分類、入力データの識別、入力データから異なるデータの生成、入力データから特定のパターンの検出、などである。入力データは、ニューラルネットワーク２０に入力するデータである。ニューラルネットワーク２０の学習段階では、入力データは、学習データ３０である。

導出部１２Ｃは、第１特徴量４０Ａに基づいて目的とするタスクに応じた出力情報を導出し、導出した出力情報と教示情報との第２の損失関数の値５０Ｂを導出する。なお、第２の損失関数の値５０Ｂは、相関係数を用いて算出された値であってもよい。

また、導出部１２Ｃは、第２特徴量４０Ｂに基づいて第３の損失関数の値５０Ｃを導出する。第３の損失関数の値５０Ｃは、第１の損失関数の値５０の一例である。導出部１２Ｃは、第２特徴量４０Ｂにおけるチャネル間の相関を表す第１の損失関数の値５０を、第３の損失関数の値５０Ｃとして導出する。

学習部１２Ｄは、第２の損失関数の値５０Ｂおよび第３の損失関数の値５０Ｃを低減させるように、ニューラルネットワーク２０を学習する。

詳細には、学習部１２Ｄは、第２の損失関数の値５０Ｂをニューラルネットワーク２０に逆伝搬させ、勾配降下法によりニューラルネットワーク２０のモデル内のパラメータを更新することで学習を行う。この学習により、学習部１２Ｄは、目的とするタスクに対する性能が向上するようにニューラルネットワーク２０を学習させる。

この際、学習部１２Ｄは、更にニューラルネットワーク２０の中間出力あるいは最終出力を分類器やデコーダ等の他のニューラルネットワークに入力することで得られる出力を、目的とするタスクに関する第２の損失関数の値５０Ｂの算出に用いてもよい。そして、学習部１２Ｄは、これらの他のニューラルネットワークの学習と同時に、ニューラルネットワーク２０の学習を行ってもよい。

また、学習部１２Ｄは、第１の損失関数の値５０の一例である第３の損失関数の値５０Ｃをニューラルネットワーク２０に逆伝搬させ、勾配降下法によりニューラルネットワーク２０のモデル内のパラメータを更新することで学習を行う。これらの処理により、学習部１２Ｄは、教師無し学習データセット３４が入力されたとき得られる第２特徴量４０Ｂの表現能力が向上し、目的とするタスクにおける性能が向上するように、ニューラルネットワーク２０を学習させることができる。

なお、第２特徴量４０Ｂから導出される第３の損失関数の値５０Ｃに用いられる損失関数は、チャネル間の相関の高さを表す損失関数のみではなく、同時に他の種類の損失関数を含んだものであってもよい。この場合、学習部１２Ｄは、これらの複数種類の損失関数を第３の損失関数の値５０Ｃに用いて、ニューラルネットワーク２０を学習すればよい。複数種類の損失関数を第３の損失関数の値５０Ｃに用いてニューラルネットワーク２０に逆伝搬させる際には、学習部１２Ｄは、各々の種類の損失関数を個別に逆伝搬させればよい。あるいは、学習部１２Ｄは、第３の損失関数の値５０Ｃに用いる複数種類の損失関数を重み付け和により統合した上で、ニューラルネットワーク２０に逆伝搬させてもよい。

学習部１２Ｄが、第２の損失関数の値５０Ｂおよび第３の損失関数の値５０Ｃを低減させるようにニューラルネットワーク２０を繰り返し学習することで、ニューラルネットワーク２０に目的とするタスクの学習をさせることができる。また、学習部１２Ｄは、該タスクを教師無し学習データセット３４に対して適用した場合のニューラルネットワーク２０の性能を向上させることができる。

なお、図３Ａには、導出部１２Ｃが、第１特徴量４０Ａに基づいて、教師有り学習データセット３２をニューラルネットワーク２０へ入力することによってニューラルネットワーク２０から得られる出力情報が、教師有り学習データセット３２に付与された教示情報から求められる理想とする出力の状態からどれだけ遠いかを表す値である第２の損失関数の値５０Ｂを導出する例を示した。しかし、導出部１２Ｃは、第１特徴量４０Ａに基づいて、第１特徴量４０Ａのチャネル間の相関を表す第１の損失関数の値５０である第４の損失関数の値を導出してもよい。そして、学習部１２Ｄは、第２の損失関数の値５０Ｂに加えて第４の損失関数の値５０Ｄを用い、第４の損失関数の値５０Ｄおよび第３の損失関数の値５０Ｃを低減させるようにニューラルネットワーク２０を学習してもよい。

図３Ｂは、ニューラルネットワーク２０の学習処理の一例の説明図である。図３Ｂには、第２の損失関数の値５０Ｂ、第４の損失関数の値５０Ｄ、及び第３の損失関数の値５０Ｃをニューラルネットワーク２０の学習に用いる形態を示す。

図３Ａと同様に、入力部１２Ａは、複数の学習データ３０として、教師有り学習データセット３２および教師無し学習データセット３４をニューラルネットワーク２０へ入力する。なお、入力部１２Ａは、上記と同様に、２以上の教師有り学習データセット３２および２以上の教師無し学習データセット３４を学習データ３０として用いてもよい。

取得部１２Ｂは、特徴量４０として、ニューラルネットワーク２０から第１特徴量４０Ａおよび第２特徴量４０Ｂを取得する。取得部１２Ｂは、教師有り学習データセット３２をニューラルネットワーク２０へ入力することで、該ニューラルネットワーク２０から第１特徴量４０Ａを取得する。また、取得部１２Ｂは、教師無し学習データセット３４をニューラルネットワーク２０へ入力することで、該ニューラルネットワーク２０から第２特徴量４０Ｂを取得する。

導出部１２Ｃは、第１特徴量４０Ａから第２の損失関数の値５０Ｂ、及び第４の損失関数の値５０Ｄを導出し、第２特徴量４０Ｂから第３の損失関数の値５０Ｃを導出する。第４の損失関数の値５０Ｄは、第１の損失関数の値５０の一例である。導出部１２Ｃは、第１特徴量４０Ａにおけるチャネル間の相関を表す第１の損失関数の値５０を、第４の損失関数の値５０Ｄとして導出すればよい。

この場合、学習部１２Ｄは、第２の損失関数の値５０Ｂ、第４の損失関数の値５０Ｄ、及び第３の損失関数の値５０Ｃを低減させるように、ニューラルネットワーク２０を学習する。詳細には、学習部１２Ｄは、第２の損失関数の値５０Ｂ、第１の損失関数の値５０の一例である第４の損失関数の値５０Ｄ、及び第３の損失関数の値５０Ｃの各々をニューラルネットワーク２０に逆伝搬させ、勾配降下法によりニューラルネットワーク２０のモデル内のパラメータを更新することで学習を行う。この学習により、学習部１２Ｄは、第１特徴量４０Ａおよび第２特徴量４０Ｂの各々の表現能力が向上し、且つ、目的とするタスクにおける性能が向上するようにニューラルネットワーク２０を学習することができる。

すなわち、学習部１２Ｄが第２の損失関数の値５０Ｂ、第４の損失関数の値５０Ｄ、及び第３の損失関数の値５０Ｃを低減させるようにニューラルネットワーク２０を繰り返し学習することで、ニューラルネットワーク２０に目的とするタスクの学習をさせつつ、且つ、該タスクを教師無し学習データセット３４に対して適用した場合のニューラルネットワーク２０の性能を向上させることができる。

なお、処理部１２は、教師無し学習データセット３４を用いず、教師有り学習データセット３２のみを用いてニューラルネットワーク２０を学習してもよい。

図３Ｃは、ニューラルネットワーク２０の学習処理の一例の説明図である。図３Ｃには、学習データ３０として教師有り学習データセット３２のみを用いる形態を示す。

この場合、入力部１２Ａは、複数の学習データ３０として、教師有り学習データセット３２をニューラルネットワーク２０へ入力する。なお、入力部１２Ａは、２以上の教師有り学習データセット３２を学習データ３０として用いてもよい。

取得部１２Ｂは、特徴量４０として、ニューラルネットワーク２０から第１特徴量４０Ａを取得する。取得部１２Ｂは、教師有り学習データセット３２をニューラルネットワーク２０へ入力することで、該ニューラルネットワーク２０から第１特徴量４０Ａを取得する。

導出部１２Ｃは、第１特徴量４０Ａから第２の損失関数の値５０Ｂおよび第４の損失関数の値５０Ｄを導出する。上述したように、第２の損失関数の値５０Ｂは、教師有り学習データセット３２をニューラルネットワーク２０へ入力することによってニューラルネットワーク２０から得られる出力情報が、教師有り学習データセット３２に付与された教示情報から求められる理想とする出力の状態からどれだけ遠いかを表す値である。第４の損失関数の値５０Ｄは、上述したように、第１特徴量４０Ａにおけるチャネル間の相関を表す第１の損失関数の値５０である。

この場合、学習部１２Ｄは、第２の損失関数の値５０Ｂおよび第４の損失関数の値５０Ｄを低減させるように、ニューラルネットワーク２０を学習する。

詳細には、学習部１２Ｄは、第２の損失関数の値５０Ｂをニューラルネットワーク２０に逆伝搬させ、勾配降下法によりニューラルネットワーク２０のモデル内のパラメータを更新することで学習を行う。この学習により、学習部１２Ｄは、目的とするタスクに対する性能が向上するようにニューラルネットワーク２０を学習させる。この際、学習部１２Ｄは、更にニューラルネットワーク２０の中間出力あるいは最終出力を分類器やデコーダ等の他のニューラルネットワークに入力することで得られる出力を、目的とするタスクに関する第２の損失関数の値５０Ｂの算出に用いてもよい。そして、学習部１２Ｄは、これらの他のニューラルネットワークの学習と同時に、ニューラルネットワーク２０の学習を行ってもよい。

また、学習部１２Ｄは、第４の損失関数の値５０Ｄをニューラルネットワーク２０に逆伝搬させ、勾配降下法によりニューラルネットワーク２０のモデル内のパラメータを更新することで学習を行う。この学習により、学習部１２Ｄは、ニューラルネットワーク２０から出力される特徴量４０の表現能力が向上し、目的とするタスクに対する性能が向上するように、ニューラルネットワーク２０を学習させることができる。

すなわち、学習部１２Ｄが、第２の損失関数の値５０Ｂおよび第４の損失関数の値５０Ｄを低減させるようにニューラルネットワーク２０を繰り返し学習することで、ニューラルネットワーク２０の目的とするタスクの性能を向上させることができる。

なお、学習部１２Ｄは、複数の損失関数である第２の損失関数の値５０Ｂおよび第４の損失関数の値５０Ｄを逆伝搬させるときに、各々の損失関数を個別に逆伝搬させてもよいし、複数の損失関数を重み付け和により統合して逆伝搬させてもよい。

図１に戻り説明を続ける。受付部１２Ｅは、ユーザによる操作入力部１８の操作指示を受付ける。本実施形態では、受付部１２Ｅは、学習条件の入力を受付ける。学習条件は、学習対象のニューラルネットワーク２０のネットワーク構造、学習に用いる学習データ３０、および学習時に用いる設定内容、の少なくとも１つを含む。

例えば、ユーザは、表示部１６に表示された表示画面を視認しながら操作入力部１８を操作することで、学習条件を入力する。

図４は、表示画面６０の一例の模式図である。例えば、表示画面６０は、ネットワーク構造の選択領域６０Ａ、教師有り学習データセット３２の選択領域６０Ｂ、教師無し学習データセット３４の選択領域６０Ｃ、パラメータの入力領域６０Ｄ、学習状況表示領域６０Ｅ、終了ボタン６０Ｆ、および保存ボタン６０Ｇ、などを含む。

ネットワーク構造の選択領域６０Ａは、学習対象のニューラルネットワーク２０のネットワーク構造の選択領域である。ユーザは、ネットワーク構造の選択領域６０Ａに表示されたネットワーク構造の一覧の中から所望のネットワーク構造を選択する。この選択処理により、ユーザは、学習対象のニューラルネットワーク２０のネットワーク構造を入力する。

教師有り学習データセット３２の選択領域６０Ｂは、学習に用いる教師有り学習データセット３２の選択領域である。ユーザは、教師有り学習データセット３２の選択領域６０Ｂに表示された教師有り学習データセット３２の一覧の中から所望の教師有り学習データセット３２を選択する。この選択処理により、ユーザは、学習に用いる教師有り学習データセット３２を入力する。

教師無し学習データセット３４の選択領域６０Ｃは、学習に用いる教師無し学習データセット３４の選択領域である。ユーザは、教師無し学習データセット３４の選択領域６０Ｃに表示された教師無し学習データセット３４の一覧の中から所望の教師無し学習データセット３４を選択する。この選択処理により、ユーザは、学習に用いる教師無し学習データセット３４を入力する。

パラメータの入力領域６０Ｄは、ニューラルネットワーク２０の学習時に用いる設定内容の入力欄である。例えば、設定内容は、複数の損失関数の統合に用いる重み付け値や、逆伝搬の際に用いるパラメータなどである。ユーザは、パラメータの入力領域６０Ｄに所望のパラメータを入力することで、ニューラルネットワーク２０の学習時に用いる設定内容を入力する。

学習状況表示領域６０Ｅは、ニューラルネットワーク２０の学習状況の表示欄である。

終了ボタン６０Ｆは、学習終了を指示するための操作ボタンである。保存ボタン６０Ｇは、学習中のニューラルネットワーク２０の保存指示を入力するための操作ボタンである。

受付部１２Ｅは、ネットワーク構造の選択領域６０Ａ、教師有り学習データセット３２の選択領域６０Ｂ、教師無し学習データセット３４の選択領域６０Ｃ、およびパラメータの入力領域６０Ｄの各々を介して入力された学習条件を受付ける。

受付部１２Ｅが学習条件を受付けた場合、学習部１２Ｄは、受け付けた学習条件に応じてニューラルネットワーク２０を学習すればよい。

例えば、学習部１２Ｄは、受け付けた学習条件に含まれる教師有り学習データセット３２および教師無し学習データセット３４を学習データ３０として用いる。また、学習部１２Ｄは、ネットワーク構造の選択領域６０Ａを介して入力されたネットワーク構造のニューラルネットワーク２０を学習対象として用いる。また、学習部１２Ｄは、パラメータの入力領域６０Ｄを介して入力された学習時に用いる設定内容を用いて、ニューラルネットワーク２０を学習する。

ユーザが表示画面６０を介して学習条件を入力し、学習部１２Ｄが学習条件に応じてニューラルネットワーク２０を学習する。このため、専門的な知識を十分に備えていないユーザであっても、容易にニューラルネットワーク２０の学習条件を入力することができる。また、学習部１２Ｄは、ユーザの所望の学習条件に応じたニューラルネットワーク２０の学習を行うことができる。

表示制御部１２Ｆは、学習部１２Ｄによるニューラルネットワーク２０の学習進捗状況、および、学習進捗状況に応じた学習条件の変更推奨内容、の少なくとも一方を表示画面６０に表示する。

例えば、表示制御部１２Ｆは、学習部１２Ｄによるニューラルネットワーク２０の学習進捗状況を、表示画面６０の学習状況表示領域６０Ｅに表示する。ユーザは、学習状況表示領域６０Ｅを視認することで、ニューラルネットワーク２０の学習状況を容易に確認することができる。

学習条件の変更推奨内容は、学習条件の推奨する変更内容を表す情報である。例えば、表示制御部１２Ｆが、学習進捗状況に応じて、学習完了の目安となる閾値に損失関数の値が届かないと判別した場面を想定する。この場合、表示制御部１２Ｆは、学習データ３０のデータ量の増加を推奨することを表す情報を表示画面６０に表示する。また、表示制御部１２Ｆが、学習進捗状況に応じて、学習完了の目安となる閾値に損失関数の値が届かないと判別した場面を想定する。この場合、表示制御部１２Ｆは、ニューラルネットワーク２０のパラメータ変更を推奨することを表す情報を、表示画面６０に表示する。これらの損失関数の値は、上述した、第１の損失関数の値５０、第２の損失関数の値５０Ｂ、第３の損失関数の値５０Ｃ、および第４の損失関数の値５０Ｄを意味する。

ユーザは、提示された変更推奨内容に応じて、学習条件を変更すればよい。このため、専門的な知識を十分に備えていないユーザであっても、容易にニューラルネットワーク２０の学習条件を変更することができる。

次に、本実施形態の学習装置１０で実行する情報処理の流れの一例を説明する。

図５は、本実施形態の学習装置１０で実行する情報処理の流れの一例のフローチャートである。図５には、図３Ａに示す学習処理の情報処理の流れの一例を示す。

入力部１２Ａは、複数の学習データ３０をニューラルネットワーク２０へ入力する（ステップＳ１００）。

取得部１２Ｂは、ニューラルネットワーク２０の中間層および最終層の少なくとも一方から出力された、第１特徴量４０Ａおよび第２特徴量４０Ｂを特徴量４０として取得する（ステップ１０２）。

導出部１２Ｃは、ステップＳ１０２で取得した第１特徴量４０Ａおよび第２特徴量４０Ｂから第１の損失関数の値５０を導出する（ステップＳ１０４）。例えば、導出部１２Ｃは、第１特徴量４０Ａから第２の損失関数の値５０Ｂを導出し、第２特徴量４０Ｂから第３の損失関数の値５０Ｃを導出する。

学習部１２Ｄは、ステップＳ１０４で導出した第２の損失関数の値５０Ｂおよび第３の損失関数の値５０Ｃを低減させるように、ニューラルネットワーク２０を学習する（ステップＳ１０６）。

次に、処理部１２は、学習を終了するか否かを判断する（ステップＳ１０８）。処理部１２は、例えば、ステップＳ１０４で導出した第２の損失関数の値５０Ｂおよび第３の損失関数の値５０Ｃが学習完了の目安となる閾値以下となったか否かを判別することで、ステップＳ１０８の判断を行う。また、処理部１２は、ユーザによる操作入力部１８の操作指示によって終了ボタン６０Ｆが操作指示されたか否かを判別することで、ステップＳ１０８の判断を行ってもよい。

ステップＳ１０８で否定判断すると（ステップＳ１０８：Ｎｏ）、上記ステップＳ１００へ戻る。ステップＳ１０８で肯定判断すると（ステップＳ１０８：Ｙｅｓ）、学習したニューラルネットワーク２０を記憶部１４へ記憶し、本ルーチンを終了する。

以上説明したように、本実施形態の学習方法は、複数の学習データ３０を入力されたニューラルネットワーク２０の中間層および最終層の少なくとも一方から出力される特徴量４０における、チャネル間の相関を表す第１の損失関数の値５０を低減させるように、ニューラルネットワーク２０を学習する。

学習データ３０をニューラルネットワーク２０に入力したときに得られる特徴量４０のチャネル間の相関が高いほど、これらのチャネルによって表現される情報には重複が多いといえる。このため、特徴量４０のチャネル間の相関が高い状態であるほど、相関が低い状態である場合に比べて特徴量４０の表現能力が低い状態であるといえる。具体的には、例えば、ニューラルネットワーク２０の目的とするタスクが特徴量４０を用いたデータ識別である場合、特徴量４０のチャネル間の相関の高い状態は好ましくない状態である。

一方、本実施形態の学習装置１０で実行される学習方法は、特徴量４０におけるチャネル間の第１の損失関数の値５０を低減させるようにニューラルネットワーク２０を学習する。このため、本実施形態の学習方法は、特徴量４０の表現能力を向上させることができる。

すなわち、本実施形態の学習方法は、特徴量４０のチャネルの値の分散を低減させることなく、特徴量４０のチャネル間の相関を低減させることで、特徴量４０の表現能力の向上を図ることができる。

従って、本実施形態の学習方法は、ニューラルネットワーク２０の性能向上を図ることができる。

なお、ニューラルネットワーク２０に入力する学習データ３０には、ニューラルネットワーク２０の適用先で用いる入力データと同じドメインのデータを用いる事が好ましい。

学習データ３０と適用先で用いる入力データとの間で、データの取得環境やデータの種類などのドメインの違いが存在する場合がある。このような場合、ニューラルネットワーク２０を用いた推論の性能が低下する場合がある。一方、学習データ３０に適用先で用いる入力データと同じドメインのデータを用いることで、本実施形態の学習方法は、適用先で用いる入力データに対する特徴量４０の表現能力を向上させることができる。また、この場合、特徴量４０のチャネル間の相関の計算および低減処理において教示情報は不要である。このため、この場合、本実施形態の学習方法は、上記効果に加えて、教師無しの入力データを用いる適用先で利用可能なニューラルネットワーク２０を容易に提供することができる。

また、上述したように、第１の損失関数の値５０は、相関係数を用いて算出された値であってもよい。

第１の損失関数の値５０として相関係数を用いた場合、チャネル間の分散を高めつつ共分散を低下させる学習を行うことが可能であり、特徴量４０の表現能力を更に向上させるニューラルネットワーク２０の学習を行うことができる。また、相関係数は、元の値の分布に関わらず値域が－１から１の範囲となるため、個別に正規化する必要がない。

また、本実施形態の学習方法は、図３Ａおよび図３Ｂを用いて説明したように、教師有り学習データセット３２および教師無し学習データセット３４を学習データ３０として用いてよい。教師有り学習データセット３２および教師無し学習データセット３４を学習データ３０として用いることで、教師有り学習データセット３２および教師無し学習データセット３４の双方に対する表現能力を向上させるニューラルネットワーク２０の学習を行うことができる。このため、本実施形態の学習方法は、上記効果に加えて、ニューラルネットワーク２０の汎用的な性能向上を図ることが出来る。

また、上述したように、学習データ３０として、複数の教師有り学習データセット３２および複数の教師無し学習データセット３４を用いてもよい。複数の教師有り学習データセット３２および複数の教師無し学習データセット３４を用いることで、上記効果に加えて、ニューラルネットワーク２０の更なる性能向上を図ることができる。

次に、本実施形態の学習装置１０のハードウェア構成の一例を説明する。

図６は、本実施形態の学習装置１０の一例のハードウェア構成図である。

本実施形態の学習装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）８１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）８３、および通信Ｉ／Ｆ８４等がバス８５により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

ＣＰＵ８１は、本実施形態の学習装置１０を制御する演算装置である。ＲＯＭ８２は、ＣＰＵ８１による各種処理を実現するプログラム等を記憶する。ここではＣＰＵを用いて説明しているが、学習装置１０を制御する演算装置として、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を用いてもよい。ＲＡＭ８３は、ＣＰＵ８１による各種処理に必要なデータを記憶する。通信Ｉ／Ｆ８４は、表示部１６および操作入力部１８などに接続し、データを送受信するためのインターフェースである。

本実施形態の学習装置１０では、ＣＰＵ８１が、ＲＯＭ８２からプログラムをＲＡＭ８３上に読み出して実行することにより、上記各機能がコンピュータ上で実現される。

なお、本実施形態の学習装置１０で実行される上記各処理を実行するためのプログラムは、ＨＤＤ（ハードディスクドライブ）に記憶されていてもよい。また、本実施形態の学習装置１０で実行される上記各処理を実行するためのプログラムは、ＲＯＭ８２に予め組み込まれて提供されていてもよい。

また、本実施形態の学習装置１０で実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、メモリカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、本実施形態の学習装置１０で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、本実施形態の学習装置１０で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。

なお、上記には、本発明の実施形態を説明したが、本実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０学習装置
１２Ａ入力部
１２Ｂ取得部
１２Ｃ導出部
１２Ｄ学習部
１２Ｅ受付部
１２Ｆ表示制御部

Claims

コンピュータが実行する学習方法であって、
複数の学習データからなる学習データ群を入力されたニューラルネットワークの中間層および最終層の少なくとも一方から出力される特徴量における、チャネル間の相関である第１の損失関数の値を低減させるように、前記ニューラルネットワークを学習する学習ステップ、
を含み、
前記特徴量は、
複数の前記学習データの各々に対する、複数の前記チャネルの各々のチャネル値によって表され、
前記チャネル間の相関は、
前記特徴量に含まれる、互いに異なる前記チャネルに対する前記学習データ群の前記チャネル値の群間の相関を表す値である、
学習方法。
前記チャネル値の群間の相関は、
前記チャネル値の群間の相関係数によって表される、
請求項１に記載の学習方法。
複数の前記学習データとして、教示情報を付与された複数の教師有り学習データである教師有り学習データセットと、前記教示情報が付与されていない複数の教師無し学習データである教師無し学習データセットと、を前記ニューラルネットワークに入力する入力ステップと、
前記教師有り学習データセットを入力することによって前記ニューラルネットワークから出力される前記特徴量である第１特徴量と、前記教師無し学習データセットを入力することによって前記ニューラルネットワークから出力される前記特徴量である第２特徴量と、を取得する取得ステップと、
前記第１特徴量に基づいて導出される、前記教師有り学習データセットに付与された前記教示情報と前記教師有り学習データセットを入力することによって前記ニューラルネットワークから得られる前記教示情報に対応する出力情報との相関を表す第２の損失関数の値、および、前記第２特徴量におけるチャネル間の相関表す前記第１の損失関数の値である第３の損失関数の値を導出する相関導出ステップと、
を含み、
前記学習ステップは、
前記第２の損失関数の値および前記第３の損失関数の値を低減させるように、前記ニューラルネットワークを学習する、
請求項１に記載の学習方法。
複数の前記学習データとして、教示情報を付与された複数の教師有り学習データである教師有り学習データセットと、前記教示情報が付与されていない複数の教師無し学習データである教師無し学習データセットと、を前記ニューラルネットワークに入力する入力ステップと、
前記教師有り学習データセットを入力することによって前記ニューラルネットワークから出力される前記特徴量である第１特徴量と、前記教師無し学習データセットを入力することによって前記ニューラルネットワークから出力される前記特徴量である第２特徴量と、を取得する取得ステップと、
前記第１特徴量に基づいて導出される、前記教師有り学習データセットに付与された前記教示情報と前記教師有り学習データセットを入力することによって前記ニューラルネットワークから得られる前記教示情報に対応する出力情報との相関を表す第２の損失関数の値、前記第１特徴量におけるチャネル間の相関を表す前記第１の損失関数の値である第４の損失関数の値、および、前記第２特徴量におけるチャネル間の相関を表す前記第１の損失関数の値である第３の損失関数の値を導出する導出ステップと、
を含み、
前記学習ステップは、
前記第２の損失関数の値、前記第３の損失関数の値、及び前記第４の損失関数の値を低減させるように、前記ニューラルネットワークを学習する、
請求項１に記載の学習方法。
複数の前記学習データとして、教示情報を付与された複数の教師有り学習データである教師有り学習データセットを前記ニューラルネットワークに入力する入力ステップと、
前記教師有り学習データセットを入力することによって前記ニューラルネットワークから出力される前記特徴量である第１特徴量を取得する取得ステップと、
前記第１特徴量に基づいて導出される、前記教師有り学習データセットに付与された前記教示情報と前記教師有り学習データセットを入力することによって前記ニューラルネットワークから得られる前記教示情報に対応する出力情報との相関を表す第２の損失関数の値、および、前記第１特徴量におけるチャネル間の相関を表す前記第１の損失関数の値である第４の損失関数の値を導出する導出ステップと、
を含み、
前記学習ステップは、
前記第２の損失関数の値および前記第４の損失関数の値を低減させるように、前記ニューラルネットワークを学習する、
請求項１に記載の学習方法。
前記第１の損失関数の値の算出に相関係数を用いる、
請求項１～請求項５の何れか１項に記載の学習方法。
複数の前記学習データは、
複数の教師有り学習データセットの群、および、複数の教師無し学習データセットの群、の各々を複数含む、
請求項１～請求項６の何れか１項に記載の学習方法。
学習対象の前記ニューラルネットワークのネットワーク構造、学習に用いる前記学習データ、および学習時に用いる設定内容、の少なくとも１つを含む学習条件の入力を受け付ける受付ステップを含み、
前記学習ステップは、
受け付けた前記学習条件に応じて前記ニューラルネットワークを学習する、
請求項１～請求項７の何れか１項に記載の学習方法。
前記ニューラルネットワークの学習進捗状況、および前記学習進捗状況に応じた前記学習条件の変更推奨内容、の少なくとも一方を含む表示画面を表示する表示ステップと、
を含む、
請求項８に記載の学習方法。
コンピュータに実行させるための学習プログラムであって、
複数の学習データからなる学習データ群を入力されたニューラルネットワークの中間層および最終層の少なくとも一方から出力される特徴量における、チャネル間の相関である第１の損失関数の値を低減させるように、前記ニューラルネットワークを学習する学習ステップ、
を含み、
前記特徴量は、
複数の前記学習データの各々に対する、複数の前記チャネルの各々のチャネル値によって表され、
前記チャネル間の相関は、
前記特徴量に含まれる、互いに異なる前記チャネルに対する前記学習データ群の前記チャネル値の群間の相関を表す値である、
学習プログラム。
複数の学習データからなる学習データ群を入力されたニューラルネットワークの中間層および最終層の少なくとも一方から出力される特徴量における、チャネル間の相関である第１の損失関数の値を低減させるように、前記ニューラルネットワークを学習する学習部を備え、
前記特徴量は、
複数の前記学習データの各々に対する、複数の前記チャネルの各々のチャネル値によって表され、
前記チャネル間の相関は、
前記特徴量に含まれる、互いに異なる前記チャネルに対する前記学習データ群の前記チャネル値の群間の相関を表す値である、
学習装置。