JP7210489B2

JP7210489B2 - 学習装置、学習方法および学習プログラム

Info

Publication number: JP7210489B2
Application number: JP2020004837A
Authority: JP
Inventors: 恭史国定; 素子加賀谷; 蔵人前野
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2023-01-23
Anticipated expiration: 2040-01-16
Also published as: JP2021111299A

Description

本発明は、学習装置、学習方法および学習プログラムに関する。

一般に、今日の画像認識などにおいて高い性能を有する多層ニューラルネットワークは、膨大なパラメータと複雑なモデルとによって構成されている。しかし、この種の機械学習によるシステムは、優れた性能を示す一方、ニューラルネットワークの判断根拠の解釈が難しいという課題があった。この課題を解決するため、ニューラルネットワークの判断根拠の説明材料を提示する手法が幾つか提案されている。例えば、入力データに対する類似例をニューラルネットワークの判断根拠の説明材料の例として提示する手法が知られている。

特許文献１に記載の手法は、主に医用画像の診断において、画像から機械学習によって抽出された画像特徴量に基づいて画像特徴量に対応する症例（類似症例）を症例データベースから検索し、類似症例を提示する手法である。

非特許文献１に記載の手法は、画像の分類において、複数の分類クラスそれぞれの典型例（プロトタイプ）を学習し、推論時に識別用データの特徴量と最も類似度の高いプロトタイプをニューラルネットワークの判断根拠の説明材料の例として提示する手法である。かかる手法では、モデル内部に識別用データの特徴量とプロトタイプとの類似度を計算する層が埋め込まれているため、ニューラルネットワークは類似度に基づいた分類を行うように学習する。

特許文献２に記載の手法は、非特許文献１に記載の手法と同様に、複数の分類クラスそれぞれの典型例（プロトタイプ）を学習する手法である。しかし、特許文献２の手法は、学習したプロトタイプをそのまま提示するのではなく、プロトタイプに最も近い特徴量を持つデータを学習用データの中から探索し、見つかった学習用データを提示する。このとき、見つかった学習用データ（例えば、画像）の全体ではなく、学習用データの一部が類似部位として提示され得る。

特開２０１９－１２５２４０号公報

Oscar Li、他3名、"Deep Learning for Case-Based Reasoning through Prototypes: ANeural Network that Explains Its Predictions"、[online]、［令和1年12月26日検索］、インターネット＜https://arxiv.org/abs/1710.04806＞ Chaofan Chen、他5名、"This LooksLike That: Deep Learning for Interpretable Image Recognition"、[online]、［令和1年12月26日検索］、インターネット＜https://arxiv.org/abs/1806.10574＞ Wei Liu、他6名、"SSD: Single Shot MultiBox Detector"、[online]、［令和1年12月26日検索］、インターネット＜https://arxiv.org/abs/1512.02325＞

しかしながら、特許文献１に記載の手法、および、非特許文献１に記載の手法においては、ニューラルネットワークに入力されるデータの類似例が画像全体として提示される。したがって、かかる手法においては、類似例として提示された画像全体のうち特にどの部位が、ニューラルネットワークに入力されるデータと類似しているのかを解釈することが困難である。

非特許文献２に記載の手法においては、特徴空間上で計算された入力画像と類似する範囲（類似範囲）を入力画像と同じ大きさにアップサンプリングすることによって、類似範囲に対応する入力画像における部位を提示することが可能である。しかし、特徴空間上での位置と入力画像上の位置との関係は、単なる拡大関係あるいは縮小関係とは異なる。そのため、ニューラルネットワークは、提示された部位以外の箇所も類似部位として判断している可能性がある。すなわち、非特許文献２に記載の手法では、必ずしも正しい類似部位が提示されるとは限らない。

そこで、ニューラルネットワークの判断根拠のより有用な説明材料を提示することを可能とする技術が提供されることが望まれる。

上記問題を解決するために、本発明のある観点によれば、学習用データと正解値とを取得する入力部と、前記学習用データに基づいて１または複数の重要領域を推定する重要領域推定部と、前記学習用データと前記１または複数の重要領域それぞれを示す情報とに基づいて前記１または複数の重要領域に対してトリミングを行って前記１または複数の重要領域を出力するトリミング処理部と、前記１または複数の重要領域と第１のニューラルネットワークとに基づいて特徴量を抽出する特徴抽出部と、前記特徴量とプロトタイプとの類似度を算出して出力する類似度算出部と、前記類似度に基づいて推論値を出力する推論部と、前記正解値に基づいて前記推論値を評価して評価結果を得る評価部と、前記評価結果に基づいて、前記第１のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行う更新部と、を備える、学習装置が提供される。

前記重要領域推定部は、前記学習用データと第２のニューラルネットワークとに基づいて前記１または複数の重要領域を推定し、前記更新部は、前記評価結果に基づいて前記第２のニューラルネットワークの重みパラメータの更新を行ってもよい。

前記推論部は、前記類似度と第３のニューラルネットワークとに基づいて前記推論値を出力し、前記更新部は、前記評価結果に基づいて前記第３のニューラルネットワークの重みパラメータの更新を行ってもよい。

前記１または複数の重要領域それぞれのサイズは、可変であってもよい。

前記１または複数の重要領域それぞれのサイズに対して、所定の制約が課されていてもよい。

前記特徴量のサイズは、可変であってもよい。

前記特徴量のチャネル数は、前記プロトタイプのチャネル数と同一であり、前記類似度算出部は、前記特徴量のチャネルデータの１または複数個所それぞれと前記プロトタイプのチャネルデータとの類似度の中で最も高い類似度を、当該チャネルに対応する類似度として前記推論部に出力してもよい。

前記類似度算出部は、複数の学習用データの一部または全部それぞれにおいて、前記推論部に出力した類似度と、前記類似度に対応する特徴量とを、チャネルごとに保存データとして保存し、前記更新部は、前記プロトタイプと最も類似度が高い特徴量を類似特徴量としてチャネルごとに前記保存データから検出し、前記類似特徴量が抽出された学習用データの前記類似特徴量に対応する領域データをチャネルごとに前記プロトタイプに対応付けてもよい。

前記更新部は、前記類似特徴量によって前記プロトタイプをチャネルごとに上書きしてもよい。

前記更新部は、学習の途中において、前記類似特徴量によって前記プロトタイプを上書きした場合、前記プロトタイプの更新を停止してもよい。

また、本発明の別の観点によれば、学習用データと正解値とを取得することと、前記学習用データに基づいて１または複数の重要領域を推定することと、前記学習用データと前記１または複数の重要領域それぞれを示す情報とに基づいて前記１または複数の重要領域に対してトリミングを行って前記１または複数の重要領域を出力することと、前記１または複数の重要領域と第１のニューラルネットワークとに基づいて特徴量を抽出することと、前記特徴量とプロトタイプとの類似度を算出して出力することと、前記類似度に基づいて推論値を出力することと、前記正解値に基づいて前記推論値を評価して評価結果を得ることと、前記評価結果に基づいて、前記第１のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行うことと、を含む、学習方法が提供される。

また、本発明の別の観点によれば、コンピュータを、学習用データと正解値とを取得する入力部と、前記学習用データに基づいて１または複数の重要領域を推定する重要領域推定部と、前記学習用データと前記１または複数の重要領域それぞれを示す情報とに基づいて前記１または複数の重要領域に対してトリミングを行って前記１または複数の重要領域を出力するトリミング処理部と、前記１または複数の重要領域と第１のニューラルネットワークとに基づいて特徴量を抽出する特徴抽出部と、前記特徴量とプロトタイプとの類似度を算出して出力する類似度算出部と、前記類似度に基づいて推論値を出力する推論部と、前記正解値に基づいて前記推論値を評価して評価結果を得る評価部と、前記評価結果に基づいて、前記第１のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行う更新部と、を備える学習装置として機能させるための学習プログラムが提供される。

以上説明したように本発明によれば、ニューラルネットワークの判断根拠のより有用な説明材料を提示することを可能とする技術が提供される。

本発明の実施形態に係る学習装置の機能構成例を示す図である。重要領域推定部の機能の詳細を説明するための図である。トリミング処理部の機能の詳細を説明するための図である。特徴抽出部の機能の詳細を説明するための図である。類似度算出部の機能の詳細を説明するための図である。推論部の機能の詳細を説明するための図である。評価部の機能の詳細を説明するための図である。更新部の機能の詳細を説明するための図である。同実施形態に係る学習装置の動作例を示すフローチャートである。同実施形態に係る識別装置の機能構成例を示す図である。類似部位提示画面の例を示す図である。同実施形態に係る識別装置の動作例を示すフローチャートである。同実施形態に係る学習装置の例としての情報処理装置のハードウェア構成を示す図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。

（１．実施形態の詳細）
続いて、本発明の実施形態の詳細について説明する。本発明の実施形態では、学習用データと正解値との組み合わせに基づいてニューラルネットワークの学習を行う学習装置１０（図１）について説明した後、学習済みのニューラルネットワークと識別用データ（テストデータ）とに基づいて推論値を出力する識別装置２０（図１０）について説明を行う。

以下では、学習装置１０と識別装置２０とが同一のコンピュータによって実現される場合を主に想定する。しかし、学習装置１０と識別装置２０とは、別のコンピュータによって実現されてもよい。かかる場合には、学習装置１０によって生成された学習済みのニューラルネットワークが識別装置２０に提供される。例えば、学習済みのニューラルネットワークは、学習装置１０から識別装置２０に記録媒体を介して提供されてもよいし、通信を介して提供されてもよい。

（１－１．学習装置の構成）
まず、本発明の実施形態に係る学習装置１０の構成例について説明する。図１は、本発明の実施形態に係る学習装置１０の機能構成例を示す図である。図１に示されるように、本発明の実施形態に係る学習装置１０は、入力部１２１と、重要領域推定部１２２と、トリミング処理部１２３と、特徴抽出部１２４と、類似度算出部１２５と、推論部１２６と、評価部１４０と、更新部１５０とを備える。

本発明の実施形態では、入力部１２１と、重要領域推定部１２２と、トリミング処理部１２３と、特徴抽出部１２４と、類似度算出部１２５と、推論部１２６とが、ニューラルネットワーク１２０によって構成される場合を主に想定する。以下では、ニューラルネットワークを「ＮＮ」とも表記する。

より詳細に、特徴抽出部１２４は、第１のニューラルネットワーク（以下、「特徴抽出ＮＮ」とも表記する。）を含み、重要領域推定部１２２は、第２のニューラルネットワーク（以下、「重要領域推定ＮＮ」とも表記する。）を含み、推論部１２６は、第３のニューラルネットワーク（以下、「推論ＮＮ」とも表記する。）を含む。しかし、入力部１２１と、重要領域推定部１２２と、トリミング処理部１２３と、特徴抽出部１２４と、類似度算出部１２５と、推論部１２６とは、具体的にどのような構成であってもよい。

これらのブロックは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置を含み、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）により記憶されているプログラムが演算装置によりＲＡＭに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、これらのブロックは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。演算装置による演算に必要なデータは、図示しない記憶部によって適宜記憶される。

データセット１１０、重要領域推定ＮＮの重みパラメータ１３１、特徴抽出ＮＮの重みパラメータ１３２、推論ＮＮの重みパラメータ１３３、プロトタイプ１３４および保存データ１６０は、図示しない記憶部によって記憶される。かかる記憶部は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ハードディスクドライブまたはフラッシュメモリなどのメモリによって構成されてよい。

初期状態において、重要領域推定ＮＮの重みパラメータ１３１、特徴抽出ＮＮの重みパラメータ１３２、推論ＮＮの重みパラメータ１３３、および、プロトタイプ１３４それぞれには、初期値が設定されている。例えば、これらに設定される初期値は、ランダムな値であってよいが、どのような値であってもよい。例えば、これらに設定される初期値は、あらかじめ学習によって得られた学習済みの値であってもよい。一方、保存データには、初期状態では特に何も設定されていなくてよい。

（データセット１１０）
データセット１１０は、複数の学習用データ（入力データ）と当該複数の学習用データそれぞれの正解値とを含んで構成される。なお、本発明の実施形態では、学習用データが画像データである場合（特に、静止画像データである場合）を主に想定する。しかし、学習用データの種類は特に限定されない。例えば、学習用データは、複数のフレームを含んだ動画像データであってもよいし、音響データであってもよい。

（入力部１２１）
入力部１２１は、データセット１１０から学習用データおよび正解値の組み合わせを順次に取得する。入力部１２１は、学習用データおよび正解値の組み合わせを順次に重要領域推定部１２２およびトリミング処理部１２３それぞれに出力する。入力部１２１よりも後段の各ブロックにおいては、前段のブロックからの入力に基づいて順次に各自の処理が繰り返し実行される。

なお、例えば、入力部１２１は、データセット１１０から学習用データおよび正解値の組み合わせを全部取得し終わった場合には、最初から当該組み合わせを取得し直して再度出力する動作を所定の回数繰り返してよい。かかる場合には、入力部１２１よりも後段のブロックにおいても、前段のブロックからの再度の入力に基づいて順次に各自の処理が繰り返し実行されてよい。

（重要領域推定部１２２）
重要領域推定部１２２は、入力部１２１から出力された学習用データと重要領域推定ＮＮとに基づいて学習用データから１または複数の重要領域を推定する。より詳細に、重要領域推定部１２２は、重要領域推定ＮＮに学習用データを入力させたことに基づいて、重要領域推定ＮＮから出力されるデータを１または複数の重要領域それぞれを示す情報（１または複数の重要領域それぞれの位置およびサイズ）として得る。重要領域推定部１２２は、１または複数の重要領域それぞれを示す情報をトリミング処理部１２３に出力する。ここで、図２を参照しながら、重要領域推定部１２２の機能についてより詳細に説明する。

図２は、重要領域推定部１２２の機能の詳細を説明するための図である。図２を参照すると、入力部１２１から出力された学習用データＧ１が示されており、学習用データＧ１には、被写体の例として「犬」が写っている。このとき、学習用データＧ１の正解値は「犬」である場合が想定される。しかし、学習用データＧ１に写る被写体は「犬」に限定されない。重要領域推定部１２２は、重要領域推定ＮＮに学習用データＧ１を入力させ、重みパラメータ１３１を用いて重要領域推定ＮＮから出力される重要領域Ｒ１～Ｒ４それぞれを示す情報（重要領域Ｒ１～Ｒ４それぞれの位置およびサイズ）を得る。

例えば、重要領域推定部１２２は、学習用データＧ１からあらかじめ指定された数の重要領域を推定する。なお、重要領域の数は限定されないが、後に説明するプロトタイプの精度を高めるためには、プロトタイプのチャネル数以上であるのが望ましい。しかし、重要領域の数は、プロトタイプのチャネル数よりも少なくてもよい。なお、一般的にチャネルとは、１つの入力データに対してニューラルネットワークが抽出する特徴量の先頭の次元のことであるが、本明細書においては、１または複数の重要領域に対して、特徴抽出部１２４が抽出する特徴量の先頭の次元をチャネルと呼ぶ。そのため、チャネル数とは１または複数の重要領域の数と一致するものである。

図２には、重要領域推定部１２２によって、学習用データＧ１から、重要領域Ｒ１（耳）、重要領域Ｒ２（目）、重要領域Ｒ３（口）、重要領域Ｒ４（脚）が推定された例が示されている。すなわち、重要領域推定部１２２によって４つの重要領域が推定された例が示されている。しかし、重要領域推定部１２２によって推定される重要領域の数は限定されない。重要領域推定部１２２によって推定される重要領域の種類も、耳、目、口および脚に限定されない。

ここで、学習用データをｘとし、学習用データにおける重要領域の位置をｔとし、重要領域のサイズをｓとし、重要領域推定ＮＮの処理を関数ｇ（）とすると、重要領域の位置ｔと、重要領域のサイズｓと、重要領域推定ＮＮの処理を示す関数ｇ（）との関係は、下記の数式（１）によって表現され得る。

ｓ，ｔ＝ｇ（ｘ）・・・（１）

例えば、学習用データが画像データのように２次元データである場合、かつ、重要領域の形状が長方形である場合には、重要領域の位置ｔは、２次元データにおける長方形の所定点（例えば、長方形の左上の頂点など）の縦軸座標と横軸座標との組み合わせによって表現され得る。重要領域のサイズｓは、２次元データにおける長方形の縦横それぞれの長さによって表現される。しかし、重要領域の形状は、長方形に限定されず、他の形状（例えば、円形など）であってもよい。

重要領域のサイズｓは、固定されていてもよいが、固定されていなくてもよい（可変であってもよい）。重要領域のサイズｓが可変である場合には、重要領域に基づいて後に提示される類似部位の柔軟性が高まることが期待される。一方、重要領域のサイズｓが学習用データと近すぎる場合には、後に重要領域がトリミング処理部１２３によってトリミングされる意味が薄れてしまう。そこで、重要領域のトリミングが有意義に行われるように、重要領域のサイズに対しては、所定の制約が課されていてもよい。

例えば、重要領域のサイズｓが所定の範囲に収まるよう、ｇ（ｘ）に対して値域が所定の範囲に限定される関数（例えば、シグモイド関数など）が乗じられてもよい。例えば、ｇ（ｘ）に定数とシグモイド関数とが乗じられれば、重要領域のサイズｓは、０から定数までに収まるようになる。あるいは、ｇ（ｘ）と定数とのいずれか小さい値が重要領域のサイズｓとして採用されれば、重要領域のサイズｓは、定数以下に収まるようになる。例えば、これらの定数が、学習用データのサイズに対して所定の割合（例えば、半分など）に設定されれば、重要領域のサイズｓは、学習用データのサイズの所定の割合以下のサイズになるように制約を受ける。

あるいは、重要領域のサイズｓ（または重要領域のサイズｓの二乗）が損失関数に足し合わされた上で、更新部１５０によって重要領域推定ＮＮの重みパラメータ１３１が更新されれば、重要領域のサイズｓが小さくなるように学習が行われるようになる。なお、重要領域推定ＮＮの具体的な構成は、特に限定されない。例えば、重要領域推定ＮＮとしては、畳み込みニューラルネットワーク（例えば、上記した非特許文献３に記載されている畳み込みニューラルネットワークなど）が用いられてもよい。

（トリミング処理部１２３）
図１に戻って説明を続ける。トリミング処理部１２３は、入力部１２１から出力された学習用データＧ１と、重要領域推定部１２２から出力された重要領域Ｒ１～Ｒ４それぞれを示す情報とに基づいて、学習用データＧ１の重要領域Ｒ１～Ｒ４に対してトリミングを行って重要領域Ｒ１～Ｒ４を特徴抽出部１２４に出力する。ここで、図３を参照しながら、トリミング処理部１２３の機能についてより詳細に説明する。

図３は、トリミング処理部１２３の機能の詳細を説明するための図である。図３を参照すると、入力部１２１から出力された学習用データＧ１が示され、重要領域推定部１２２によって推定された重要領域Ｒ１～Ｒ４それぞれを示す情報（重要領域Ｒ１～Ｒ４それぞれの位置およびサイズ）が示されている。トリミング処理部１２３は、学習用データＧ１から、重要領域Ｒ１～Ｒ４に対してトリミングを行う。なお、図３に示されたように、重要領域Ｒ１～Ｒ４に対するトリミングは、学習用データＧ１のうち重要領域Ｒ１～Ｒ４以外の領域を除外することを意味し得る。

（特徴抽出部１２４）
図１に戻って説明を続ける。特徴抽出部１２４は、トリミング処理部１２３から出力された重要領域Ｒ１～Ｒ４と特徴抽出ＮＮとに基づいて特徴量を抽出する。より詳細に、特徴抽出部１２４は、特徴抽出ＮＮに重要領域Ｒ１～Ｒ４を入力させたことに基づいて、特徴抽出ＮＮから出力されるデータを特徴量として得る。特徴抽出部１２４は、特徴量を類似度算出部１２５に出力する。ここで、図４を参照しながら、特徴抽出部１２４の機能についてより詳細に説明する。

図４は、特徴抽出部１２４の機能の詳細を説明するための図である。図４を参照すると、トリミング処理部１２３から出力された重要領域Ｒ１～Ｒ４が示されている。特徴抽出部１２４は、特徴抽出ＮＮに重要領域Ｒ１～Ｒ４を入力させ、重みパラメータ１３２を用いて特徴抽出ＮＮから出力される特徴量Ｆ１～Ｆ４を得る。

特徴量Ｆ１～Ｆ４それぞれのサイズは、固定されていてもよいが、固定されていなくてもよい（可変であってもよい）。特徴量Ｆ１～Ｆ４それぞれのサイズが可変である場合には、特徴量Ｆ１～Ｆ４に基づいて後に提示される類似部位の柔軟性が高まることが期待される。なお、特徴量Ｆ１～Ｆ４それぞれは、特徴量のチャネルデータに相当する。すなわち、本発明の実施形態では、特徴量のチャネル数が４である場合を主に想定するが、特徴量のチャネル数は限定されない。

また、特徴抽出ＮＮの具体的な構成は限定されない。例えば、特徴抽出ＮＮとしては、複数の畳み込み層を含んで構成されたニューラルネットワークが用いられてもよい。

（類似度算出部１２５）
図１に戻って説明を続ける。類似度算出部１２５は、特徴抽出部１２４から出力された特徴量Ｆ１～Ｆ４とプロトタイプ１３４との類似度を算出する。特徴抽出部１２４から出力される特徴量Ｆ１～Ｆ４の次元とプロトタイプ１３４の次元とは同じに設定されている。ここでは、特徴量Ｆ１～Ｆ４とプロトタイプ１３４それぞれが、複数チャネルに分かれた二次元データ（すなわち、三次元データ）である場合を想定するが、次元数は限定されない。そして、類似度算出部１２５は、算出した特徴量Ｆ１～Ｆ４とプロトタイプ１３４との類似度を推論部１２６に出力する。ここで、図５を参照しながら、類似度算出部１２５の機能についてより詳細に説明する。

図５は、類似度算出部１２５の機能の詳細を説明するための図である。図５を参照すると、特徴量Ｆ１～Ｆ４とプロトタイプＰ１～Ｐ４とが示されている。プロトタイプＰ１～Ｐ４それぞれは、プロトタイプのチャネルデータに相当する。すなわち、本発明の実施形態では、プロトタイプのチャネル数が４である場合を主に想定するが、プロトタイプのチャネル数は限定されない。

特徴量Ｆ１～Ｆ４のチャネル数とプロトタイプＰ１～Ｐ４のチャネル数とは、同じに設定されている。これによって、類似度算出部１２５によって、特徴量Ｆ１～Ｆ４とプロトタイプＰ１～Ｐ４との類似度がチャネルごとに算出され得る。図５に示された例では、類似度算出部１２５によって、特徴量Ｆ１とプロトタイプＰ１との類似度Ｍ１が算出され、特徴量Ｆ２とプロトタイプＰ２との類似度Ｍ２が算出され、特徴量Ｆ３とプロトタイプＰ３との類似度Ｍ３が算出され、特徴量Ｆ４とプロトタイプＰ４との類似度Ｍ４が算出される。

対応するチャネルにおける特徴量とプロトタイプとの類似度は、どのように算出されてもよい。例えば、類似度算出部１２５は、対応するチャネルにおける特徴量のサイズとプロトタイプのサイズとが同じ場合には、対応するチャネルにおける特徴量とプロトタイプとの類似度を、特徴量とプロトタイプとにおいて対応する要素同士の差分の二乗和（Ｌ２ノルム）を用いて算出することができる。例えば、Ｌ２ノルムの逆数は、要素同士の差分の二乗和が小さいほど（特徴量とプロトタイプとの距離が近いほど）大きくなるため、類似度として好適に用いられ得る。

あるいは、対応するチャネルにおける特徴量のサイズは、プロトタイプのサイズよりも大きくてもよい。かかる場合、特徴抽出部１２４から出力される特徴量のデータ型は、Ｃ（チャネル）×Ｈ（高さ）×Ｗ（幅）と表現され、プロトタイプのデータ型は、Ｃ（チャネル）×Ｈ’（高さ）×Ｗ’（幅）（ただし、Ｈ＞Ｈ’かつＷ＞Ｗ’）と表現される。

このとき、特徴量をｚとし、特徴量ｚからプロトタイプｐのサイズと同じサイズの切り出し可能な部分的な特徴量をｚ’とする。そして、類似度算出部１２５は、特徴量ｚの１または複数個所それぞれの特徴量ｚ’（すなわち、特徴量ｚから切り出し可能な部分的な特徴量ｚ’の全部または一部）とプロトタイプｐとの類似度の中で最も高い類似度Ｍを、当該チャネルに対応する類似度として推論部１２６に出力すればよい。すなわち、類似度Ｍは、類似度算出部１２５によって以下の数式（２）に示されるように算出されてよい。

なお、類似度の算出方法は、かかる例に限定されない。例えば、類似度を算出する関数としては、ニューラルネットワークにおける誤差逆伝播法が適用可能な関数であれば、ニューラルネットワークが解決すべき問題に応じて自由に設定されてよい。類似度算出部１２５によって更新される保存データ１６０については後に説明する。

（推論部１２６）
図１に戻って説明を続ける。推論部１２６は、類似度算出部１２５から出力された類似度Ｍ１～Ｍ４に基づいて推論を行って推論値を得る。そして、推論部１２６は、推論値を評価部１４０に出力する。ここで、図６を参照しながら、推論部１２６の機能についてより詳細に説明する。

図６は、推論部１２６の機能の詳細を説明するための図である。図６を参照すると、類似度算出部１２５から出力された類似度Ｍ１～Ｍ４が示されている。推論部１２６は、推論ＮＮに類似度Ｍ１～Ｍ４を入力させ、重みパラメータ１３３を用いて推論ＮＮから出力される推論値を得る。なお、本明細書においては、ニューラルネットワークへのデータの入力に基づいてニューラルネットワークから出力されるデータを得ることを広く「推論」と言う。そのため、学習段階においても「推論」という用語が使用される。

推論ＮＮの具体的な構成は、特に限定されない。しかし、推論ＮＮの出力の形式は、学習用データに対応する正解値の形式と合わせて設定されているのがよい。例えば、正解値が分類問題のクラスである場合、推論ＮＮの出力は、クラス数分の長さを有するｏｎｅ－ｈｏｔベクトルであるとよい。

（評価部１４０）
図１に戻って説明を続ける。評価部１４０は、入力部１２１によって取得された正解値に基づいて、推論部１２６から出力された推論値を評価して評価結果を得る。そして、評価部１４０は、評価結果を更新部１５０に出力する。ここで、図７を参照しながら、評価部１４０の機能についてより詳細に説明する。

図７は、評価部１４０の機能の詳細を説明するための図である。図７を参照すると、推論部１２６から出力された推論値が示されている。また、図７を参照すると、入力部１２１によって取得された正解値が示されている。本発明の実施形態では、評価部１４０が、正解値と推論値とに応じた損失関数を評価結果として算出する場合を想定する。ここで、本発明の実施形態において用いられる損失関数は特定の関数に限定されず、一般的なニューラルネットワークにおいて用いられる損失関数と同様の損失関数が用いられてよい。例えば、損失関数は、正解値と推論値との差分に基づく平均二乗誤差であってもよい。

（更新部１５０）
図１に戻って説明を続ける。更新部１５０は、評価部１４０から出力された評価結果に基づいて、重要領域推定ＮＮの重みパラメータ１３１と、特徴抽出ＮＮの重みパラメータ１３２と、推論ＮＮの重みパラメータ１３３と、プロトタイプ１３４との更新を行う。これによって、推論部１２６から出力される推論値が正解値に近づくように、重要領域推定ＮＮの重みパラメータ１３１と、特徴抽出ＮＮの重みパラメータ１３２と、推論ＮＮの重みパラメータ１３３と、プロトタイプ１３４とが訓練され得る。ここで、図８を参照しながら、更新部１５０の機能についてより詳細に説明する。

図８は、更新部１５０の機能の詳細を説明するための図である。図８を参照すると、評価部１４０から出力された評価結果が示されている。プロトタイプＰ１～Ｐ４それぞれは、プロトタイプのチャネルデータに相当する。例えば、更新部１５０は、評価部１４０から出力された評価結果に基づく誤差逆伝播法（バックプロパゲーション）によって、重要領域推定ＮＮの重みパラメータ１３１と、特徴抽出ＮＮの重みパラメータ１３２と、推論ＮＮの重みパラメータ１３３と、プロトタイプ１３４とを更新してよい。

本発明の実施形態では、学習装置１０によって、プロトタイプと類似する特徴量（類似特徴量）が抽出された学習用データが検出（探索）される場合を想定する。そして、識別装置２０において、学習装置１０によって検出された学習用データの類似特徴量に対応する領域データが、類似部位として提示される場合を想定する。これによって、類似例全体が提示されるよりも、類似例とテストデータとの類似性が部位ごとに容易に理解されやすくなる。

より詳細に、類似度算出部１２５は、上記したように、複数の学習用データそれぞれに対して特徴量とプロトタイプとの類似度をチャネルごとに算出し、推論部１２６に出力する。そこで、類似度算出部１２５は、所定のタイミングで、推論部１２６に出力した類似度と、当該類似度に対応する当該特徴量とを、チャネルごとに保存データ１６０として保存する。図８には一例として、プロトタイプＰ１に対応するチャネルについて、推論部１２６に出力された複数の類似度（類似度：５０、類似度：１０、・・・、類似度：２０）と、複数の類似度それぞれに対応する特徴量とが保存データ１６０として保存されている例が示されている。しかし、プロトタイプＰ２～Ｐ４それぞれに対応するチャネルの特徴量と類似度も同様に保存される。

なお、本発明の実施形態では、データセット１１０を用いた学習装置１０による学習が何巡か繰り返し実行された後に（例えば、４回繰り返し実行された後など）、次の巡目（例えば、５巡目など）の類似度と特徴量とが保存される場合を想定する。しかし、類似度と特徴量とが保存されるタイミングは限定されない。類似度算出部１２５は、学習装置１０による学習に用いられた複数の学習用データの一部または全部それぞれにおいて、類似度と特徴量とを保存すればよい。

類似度算出部１２５による類似度と特徴量との保存が終わると、更新部１５０は、プロトタイプＰ１と最も類似度が高い特徴量を類似特徴量として保存データ１６０から検出する。図８に示された例では、類似度が「５０」の特徴量が類似特徴量として検出される。更新部１５０は、類似特徴量が抽出された学習用データの当該類似特徴量に対応する領域データを類似部位としてプロトタイプＰ１に対応付ける。なお、更新部１５０は、同様に、領域データを類似部位としてプロトタイプＰ２～Ｐ４にチャネルごとに対応付ける。

なお、プロトタイプ１３４は、学習が終了するまで、重みパラメータ１３１～１３３とともに誤差逆伝播法（バックプロパゲーション）によって更新され続けてもよい。しかし、本発明の実施形態では、更新部１５０が、検出した類似特徴量によってプロトタイプ１３４をチャネルごとに上書きする場合を想定する。これによって、類似度の算出に用いられるプロトタイプ１３４と、提示される類似部位との間の整合性が向上し得る。かかる整合性の観点から、更新部１５０は、学習の途中において、類似特徴量によってプロトタイプ１３４を上書きした場合、プロトタイプ１３４の更新を停止するのがよい。

なお、更新部１５０は、学習用データに基づく更新が終わるたびに、学習の終了条件が満たされたか否かを判断する。学習の終了条件が満たされていないと判断した場合には、入力部１２１によって次の学習用データが取得され、重要領域推定部１２２、トリミング処理部１２３、特徴抽出部１２４、類似度算出部１２５、推論部１２６、評価部１４０および更新部１５０それぞれによって、当該次の入力データに基づく各自の処理が再度実行される。一方、更新部１５０によって、学習の終了条件が満たされたと判断された場合には、学習が終了される。

なお、学習の終了条件は特に限定されず、ニューラルネットワーク１２０の学習がある程度行われたことを示す条件であればよい。具体的に、学習の終了件は、損失関数の値が閾値よりも小さいという条件を含んでもよい。あるいは、学習の終了条件は、損失関数の値の変化が閾値よりも小さいという条件（損失関数の値が収束状態になったという条件）を含んでもよい。あるいは、学習の終了条件は、重みパラメータの更新が所定の回数行われたという条件を含んでもよい。あるいは、評価部１４０によって正解値と推論値とに基づいて精度が算出される場合、学習の終了条件は、精度が所定の割合（例えば、９０％など）を超えるという条件を含んでもよい。

以上、本発明の実施形態に係る学習装置１０の構成例について説明した。

（１－２．学習装置の動作）
続いて、本発明の実施形態に係る学習装置１０の動作例について説明する。図９は、本発明の実施形態に係る学習装置１０の動作例を示すフローチャートである。まず、図９に示されたように、入力部１２１は、データセット１１０から学習用データおよび正解値の組み合わせを取得する。また、重要領域推定部１２２は、重みパラメータ１３１を取得し、特徴抽出部１２４は、重みパラメータ１３２を取得し、推論部１２６は、重みパラメータ１３３を取得し、類似度算出部１２５は、プロトタイプ１３４を取得する（Ｓ１１）。

重要領域推定部１２２は、入力部１２１から出力された学習用データと重要領域推定ＮＮとに基づいて学習用データから１または複数の重要領域を推定する（Ｓ１２）。より詳細に、重要領域推定部１２２は、重要領域推定ＮＮに学習用データを入力させ、重みパラメータ１３１を用いて重要領域推定ＮＮから出力されるデータを１または複数の重要領域それぞれを示す情報（１または複数の重要領域それぞれの位置およびサイズ）として得る。重要領域推定部１２２は、１または複数の重要領域それぞれを示す情報をトリミング処理部１２３に出力する。

トリミング処理部１２３は、入力部１２１から出力された学習用データと、重要領域推定部１２２から出力された１または複数の重要領域それぞれを示す情報とに基づいて、学習用データの１または複数の重要領域に対してトリミングを行う（Ｓ１３）。そして、トリミング処理部１２３は、１または複数の重要領域を特徴抽出部１２４に出力する。

特徴抽出部１２４は、トリミング処理部１２３から出力された１または複数の重要領域と特徴抽出ＮＮとに基づいて特徴量を抽出する（Ｓ１４）。より詳細に、特徴抽出部１２４は、特徴抽出ＮＮに重要領域を入力させ、重みパラメータ１３２を用いて特徴抽出ＮＮから出力される特徴量を得る。特徴抽出部１２４は、特徴量を類似度算出部１２５に出力する。

類似度算出部１２５は、特徴抽出部１２４から出力された特徴量とプロトタイプ１３４との類似度を算出する（Ｓ１５）。推論部１２６は、類似度算出部１２５から出力された類似度に基づいて推論を行って推論値を得る（Ｓ１６）。より詳細に、推論部１２６は、推論ＮＮに類似度を入力させ、重みパラメータ１３３を用いて推論ＮＮから出力される推論値を得る。そして、推論部１２６は、推論値を評価部１４０に出力する。

評価部１４０は、入力部１２１によって取得された正解値に基づいて、推論部１２６から出力された推論値を評価して評価結果を得る（Ｓ１７）。より詳細に、評価部１４０は、正解値と推論値とに応じた損失関数を評価結果として算出する。そして、評価部１４０は、評価結果を更新部１５０に出力する。更新部１５０は、評価部１４０から出力された評価結果に基づいて、重要領域推定ＮＮの重みパラメータ１３１と、特徴抽出ＮＮの重みパラメータ１３２と、推論ＮＮの重みパラメータ１３３と、プロトタイプ１３４との更新を行う（Ｓ１８）。

更新部１５０は、学習用データに基づく更新が終わるたびに、学習の終了条件が満たされたか否かを判断する（Ｓ１９）。学習の終了条件が満たされていないと判断した場合には（Ｓ１９において「ＮＯ」）、Ｓ１１に動作が移行され、入力部１２１によって次の学習用データが取得され、重要領域推定部１２２、トリミング処理部１２３、特徴抽出部１２４、類似度算出部１２５、推論部１２６、評価部１４０および更新部１５０それぞれによって、当該次の入力データに基づく各自の処理が再度実行される。一方、更新部１５０によって、学習の終了条件が満たされたと判断された場合には（Ｓ１９において「ＹＥＳ」）、学習が終了される。

以上、本発明の実施形態に係る学習装置１０の動作例について説明した。

（１－３．識別装置の構成）
続いて、本発明の実施形態に係る識別装置２０の構成例について説明する。図１０は、本発明の実施形態に係る識別装置２０の機能構成例を示す図である。図１０に示されるように、本発明の実施形態に係る識別装置２０は、学習装置１０によって学習された学習済みのニューラルネットワーク１２０を備える。その他、識別装置２０は、表示制御部２２０および表示部２３０を備える。

表示制御部２２０は、演算装置を含み、ＲＯＭにより記憶されているプログラムが演算装置によりＲＡＭに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、これらのブロックは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。演算装置による演算に必要なデータは、図示しない記憶部によって適宜記憶される。

表示部２３０は、ディスプレイによって構成される。テストデータ２１０、重要領域推定ＮＮの重みパラメータ１３１、特徴抽出ＮＮの重みパラメータ１３２、推論ＮＮの重みパラメータ１３３、および、プロトタイプ１３４は、図示しない記憶部によって記憶される。かかる記憶部は、ＲＡＭ、ハードディスクドライブまたはフラッシュメモリなどのメモリによって構成されてよい。

（テストデータ２１０）
テストデータ２１０は、識別用データに相当する。なお、本発明の実施形態では、テストデータ２１０が、学習用データと同様に、画像データである場合（特に、静止画像データである場合）を主に想定する。しかし、テストデータ２１０の種類は特に限定されない。例えば、テストデータ２１０は、学習用データと同様に、複数のフレームを含んだ動画像データであってもよいし、音響データであってもよい。

（入力部１２１～推論部１２６）
入力部１２１は、テストデータ２１０を取得する。入力部１２１は、テストデータ２１０を重要領域推定部１２２およびトリミング処理部１２３それぞれに出力する。重要領域推定部１２２は、入力部１２１から出力されたテストデータ２１０と重要領域推定ＮＮとに基づいてテストデータ２１０から１または複数の重要領域を推定する。テストデータ２１０から１または複数の重要領域を推定する手法は、学習装置１０における重要領域推定部１２２が、学習用データから重要領域を推定する手法と同様である。

トリミング処理部１２３は、入力部１２１から出力されたテストデータと、重要領域推定部１２２から出力された１または複数の重要領域それぞれを示す情報とに基づいて、テストデータの１または複数の重要領域に対してトリミングを行って１または複数の重要領域を特徴抽出部１２４に出力する。テストデータ２１０の１または複数の重要領域に対してトリミングを行う手法は、学習装置１０におけるトリミング処理部１２３が、学習用データの１または複数の重要領域をトリミングする手法と同様である。

特徴抽出部１２４は、トリミング処理部１２３から出力された１または複数の重要領域と特徴抽出ＮＮとに基づいて特徴量を抽出する。特徴抽出部１２４が特徴量を抽出する手法は、学習装置１０における特徴抽出部１２４が特徴量を抽出する手法と同様である。類似度算出部１２５は、特徴抽出部１２４から出力された特徴量とプロトタイプ１３４との類似度を算出する。類似度算出部１２５が類似度を算出する手法は、学習装置１０における類似度算出部１２５が類似度を算出する手法と同様である。

推論部１２６は、類似度算出部１２５から出力された類似度に基づいて推論を行って推論値を得る。推論部１２６が推論を行う手法は、学習装置１０における推論部１２６が推論を行う手法と同様である。例えば、テストデータに、被写体として「犬」が写っている場合、テストデータに対応する推論値として「犬」が出力される場合が想定される。このとき、類似例として「犬」の画像全体が提示されることも考えられる。

しかし、本発明の実施形態では、識別装置２０によって、類似特徴量に対応する領域データが類似部位として提示される場合を想定する。これによって、類似例として「犬」の画像全体が提示されるよりも、類似例とテストデータとの類似性が部位ごとに容易に理解されやすくなる。以下では、類似部位を提示するためのブロックとして、表示制御部２２０および表示部２３０の機能について説明する。

（表示制御部２２０～表示部２３０）
上記したように、プロトタイプと最も類似度が高い特徴量（類似特徴量）が抽出された学習用データの類似特徴量に対応する領域データが類似部位として、チャネルごとにプロトタイプに対応付けられている。そこで、表示制御部２２０は、学習用データのプロトタイプに対応する類似部位がチャネルごとに表示されるように表示部２３０を制御する。以下では、類似部位の提示について、図１１を参照しながら詳細に説明する。

図１１は、類似部位提示画面の例を示す図である。図１１を参照すると、類似部位提示画面Ｄ１が示されている。表示制御部２２０は、類似部位提示画面Ｄ１が表示部２３０によって表示されるように表示部２３０を制御する。類似部位提示画面Ｄ１には、テストデータＧ２が含まれる他、各チャネルに対応する、類似部位Ｒ２１（耳）、類似部位Ｒ２２（目）、類似部位Ｒ２３（口）、類似部位Ｒ２４（脚）が含まれている。

このように、類似部位Ｒ２１～Ｒ２４が提示されることによって、類似例としての「犬」とテストデータＧ２との類似性が部位ごとに容易に理解されやすくなる。例えば、類似部位Ｒ２１～Ｒ２４に着目すれば、類似例とテストデータＧ２とが類似している理由がより理解されやすくなる。なお、図１１に示された例では、類似部位Ｒ２１～Ｒ２４の全部が表示されているが、表示制御部２２０は、類似部位Ｒ２１～Ｒ２４の一部のみ（例えば、類似度の高い順に所定の数だけ）を表示部２３０に表示させてもよい。これによって、推論に対する寄与度が大きいプロトタイプが把握され得る。あるいは、表示制御部２２０は、類似度の低い順に所定の数だけ）を表示部２３０に表示させてもよい。これによって、推論に対する寄与度が小さいプロトタイプが把握され得る。

さらに、表示制御部２２０は、テストデータＧ２の推論部１２６に出力された類似度に応じた値がスコアとしてチャネルごとに表示されるように表示部２３０を制御する。スコアが所定の範囲に収まるよう、類似度（例えば、上記の数式（１））に対して値域が所定の範囲に限定される関数（例えば、シグモイド関数など）が乗じられることによってスコアが得られてもよい。あるいは、類似度が無限大に発散しないよう、類似度の分母に対して０以外の定数が加算されることによってスコアが得られてもよい。あるいは、スコアは、類似度そのものであってもよい。

類似部位提示画面Ｄ１には、類似部位Ｒ２１に対応するスコアとして「５０」が表示され、類似部位Ｒ２２に対応するスコアとして「２０」が表示され、類似部位Ｒ２３に対応するスコアとして「３０」が表示され、類似部位Ｒ２４に対応するスコアとして「７０」が表示されている。このように、スコアが表示されることによって、テストデータＧ２の領域と類似部位Ｒ２１～Ｒ２４とがどの程度類似しているかが理解されるようになる。

また、図１１に示されるように、表示制御部２２０は、テストデータＧ２の推論部１２６に出力された類似度に対応する領域に関する情報（領域の位置およびサイズ）が表示されるように表示部２３０を制御するとよい。これによって、テストデータＧ２のどの領域が類似部位に対応しているかが理解されやすくなる。図１１に示された例では、テストデータＧ２の推論部１２６に出力された４つの類似度に対応する領域に関する情報Ｒ３１～Ｒ３４が表示されている。

以上、本発明の実施形態に係る識別装置２０の構成例について説明した。

（１－４．識別装置の動作）
続いて、本発明の実施形態に係る識別装置２０の動作例について説明する。図１２は、本発明の実施形態に係る識別装置２０の動作例を示すフローチャートである。まず、図１２に示されたように、入力部１２１は、テストデータを取得する。また、重要領域推定部１２２は、重みパラメータ１３１を取得し、特徴抽出部１２４は、重みパラメータ１３２を取得し、推論部１２６は、重みパラメータ１３３を取得し、類似度算出部１２５は、プロトタイプ１３４を取得する（Ｓ３１）。

重要領域推定部１２２は、入力部１２１から出力されたテストデータと重要領域推定ＮＮとに基づいてテストデータから１または複数の重要領域を推定する（Ｓ３２）。より詳細に、重要領域推定部１２２は、重要領域推定ＮＮにテストデータを入力させ、重みパラメータ１３１を用いて重要領域推定ＮＮから出力されるデータを１または複数の重要領域それぞれを示す情報（１または複数の重要領域それぞれの位置およびサイズ）として得る。重要領域推定部１２２は、１または複数の重要領域それぞれを示す情報をトリミング処理部１２３に出力する。

トリミング処理部１２３は、入力部１２１から出力されたテストデータと、重要領域推定部１２２から出力された１または複数の重要領域それぞれを示す情報とに基づいて、学習用データの１または複数の重要領域に対してトリミングを行う（Ｓ３３）。そして、トリミング処理部１２３は、１または複数の重要領域を特徴抽出部１２４に出力する。

特徴抽出部１２４は、トリミング処理部１２３から出力された１または複数の重要領域と特徴抽出ＮＮとに基づいて特徴量を抽出する（Ｓ３４）。より詳細に、特徴抽出部１２４は、特徴抽出ＮＮに重要領域を入力させ、重みパラメータ１３２を用いて特徴抽出ＮＮから出力される特徴量を得る。特徴抽出部１２４は、特徴量を類似度算出部１２５に出力する。

類似度算出部１２５は、特徴抽出部１２４から出力された特徴量とプロトタイプ１３４との類似度を算出する（Ｓ３５）。推論部１２６は、類似度算出部１２５から出力された類似度に基づいて推論を行って推論値を得る（Ｓ３６）。より詳細に、推論部１２６は、推論ＮＮに類似度を入力させ、重みパラメータ１３３を用いて推論ＮＮから出力される推論値を得る。そして、推論部１２６は、推論値を出力する。

さらに、表示制御部２２０は、学習用データのプロトタイプに対応する類似部位がチャネルごとに表示されるように表示部２３０を制御する。また、表示制御部２２０は、テストデータの推論部１２６に出力された類似度に応じた値がスコアとしてチャネルごとに表示されるように表示部２３０を制御する（Ｓ３７）。さらに、表示制御部２２０は、テストデータの推論部１２６に出力された類似度に対応する領域に関する情報（領域の位置およびサイズ）が表示されるように表示部２３０を制御する。

以上、本発明の実施形態に係る識別装置２０の動作例について説明した。

（２．ハードウェア構成例）
続いて、本発明の実施形態に係る学習装置１０のハードウェア構成例について説明する。ただし、本発明の実施形態に係る識別装置２０のハードウェア構成例も同様に実現され得る。

以下では、本発明の実施形態に係る学習装置１０のハードウェア構成例として、情報処理装置９００のハードウェア構成例について説明する。なお、以下に説明する情報処理装置９００のハードウェア構成例は、学習装置１０のハードウェア構成の一例に過ぎない。したがって、学習装置１０のハードウェア構成は、以下に説明する情報処理装置９００のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。

図１３は、本発明の実施形態に係る学習装置１０の例としての情報処理装置９００のハードウェア構成を示す図である。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置９００を操作するユーザは、この入力装置９０８を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

以上、本発明の実施形態に係る学習装置１０のハードウェア構成例について説明した。

（３．まとめ）
以上に説明したように、本発明の実施形態によれば、ニューラルネットワークの判断根拠のより有用な説明材料を提示することを可能とする技術が提供される。より詳細に、本発明の実施形態によれば、重要領域がトリミングされて重要領域以外の領域が除外された上で特徴量が抽出され、特徴量とプロトタイプとの類似度が算出される。これによって、プロトタイプと類似する特徴量（類似特徴量）が抽出された学習用データの類似特徴量に対応する類似部位が提示され得る。したがって、類似例全体が提示されるよりも、類似例とテストデータとの類似性が部位ごとに容易に理解されやすくなる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、上記では、識別装置２０における表示制御部２２０が、類似部位、スコア、テストデータの領域に関する情報を表示部２３０に表示させる場合について主に説明した。しかし、学習装置１０が、識別装置２０と同様に、学習用データのプロトタイプに対応する類似部位、推論部１２６に出力された類似度または類似度に応じた値（スコア）、学習用データの推論部１２６に出力された類似度に対応する領域に関する情報を、チャネルごとに表示部２３０に表示させてもよい。

１０学習装置
１１０データセット
１２０ニューラルネットワーク
１２１入力部
１２２重要領域推定部
１２３トリミング処理部
１２４特徴抽出部
１２５類似度算出部
１２６推論部
１３１～１３３パラメータ
１３４プロトタイプ
１４０評価部
１５０更新部
１６０保存データ
２０識別装置
２２０表示制御部
２３０表示部

Claims

学習用データと正解値とを取得する入力部と、
前記学習用データに基づいて１または複数の重要領域を推定する重要領域推定部と、
前記学習用データと前記１または複数の重要領域それぞれを示す情報とに基づいて前記１または複数の重要領域に対してトリミングを行って前記１または複数の重要領域を出力するトリミング処理部と、
前記１または複数の重要領域と第１のニューラルネットワークとに基づいて特徴量を抽出する特徴抽出部と、
前記特徴量とプロトタイプとの類似度を算出して出力する類似度算出部と、
前記類似度に基づいて推論値を出力する推論部と、
前記正解値に基づいて前記推論値を評価して評価結果を得る評価部と、
前記評価結果に基づいて、前記第１のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行う更新部と、
を備える、学習装置。
前記重要領域推定部は、前記学習用データと第２のニューラルネットワークとに基づいて前記１または複数の重要領域を推定し、
前記更新部は、前記評価結果に基づいて前記第２のニューラルネットワークの重みパラメータの更新を行う、
請求項１に記載の学習装置。
前記推論部は、前記類似度と第３のニューラルネットワークとに基づいて前記推論値を出力し、
前記更新部は、前記評価結果に基づいて前記第３のニューラルネットワークの重みパラメータの更新を行う、
請求項１または２に記載の学習装置。
前記１または複数の重要領域それぞれのサイズは、可変である、
請求項１～３のいずれか一項に記載の学習装置。
前記１または複数の重要領域それぞれのサイズに対して、所定の制約が課されている、
請求項１～４のいずれか一項に記載の学習装置。
前記特徴量のサイズは、可変である、
請求項１～５のいずれか一項に記載の学習装置。
前記特徴量のチャネル数は、前記プロトタイプのチャネル数と同一であり、
前記類似度算出部は、前記特徴量のチャネルデータの１または複数個所それぞれと前記プロトタイプのチャネルデータとの類似度の中で最も高い類似度を、当該チャネルに対応する類似度として前記推論部に出力する、
請求項１～６のいずれか一項に記載の学習装置。
前記類似度算出部は、複数の学習用データの一部または全部それぞれにおいて、前記推論部に出力した類似度と、前記類似度に対応する特徴量とを、チャネルごとに保存データとして保存し、
前記更新部は、前記プロトタイプと最も類似度が高い特徴量を類似特徴量としてチャネルごとに前記保存データから検出し、前記類似特徴量が抽出された学習用データの前記類似特徴量に対応する領域データをチャネルごとに前記プロトタイプに対応付ける、
請求項１～７のいずれか一項に記載の学習装置。
前記更新部は、前記類似特徴量によって前記プロトタイプをチャネルごとに上書きする、
請求項８に記載の学習装置。
前記更新部は、学習の途中において、前記類似特徴量によって前記プロトタイプを上書きした場合、前記プロトタイプの更新を停止する、
請求項９に記載の学習装置。
学習用データと正解値とを取得することと、
前記学習用データに基づいて１または複数の重要領域を推定することと、
前記学習用データと前記１または複数の重要領域それぞれを示す情報とに基づいて前記１または複数の重要領域に対してトリミングを行って前記１または複数の重要領域を出力することと、
前記１または複数の重要領域と第１のニューラルネットワークとに基づいて特徴量を抽出することと、
前記特徴量とプロトタイプとの類似度を算出して出力することと、
前記類似度に基づいて推論値を出力することと、
前記正解値に基づいて前記推論値を評価して評価結果を得ることと、
前記評価結果に基づいて、前記第１のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行うことと、
を含む、学習方法。
コンピュータを、
学習用データと正解値とを取得する入力部と、
前記学習用データに基づいて１または複数の重要領域を推定する重要領域推定部と、
前記学習用データと前記１または複数の重要領域それぞれを示す情報とに基づいて前記１または複数の重要領域に対してトリミングを行って前記１または複数の重要領域を出力するトリミング処理部と、
前記１または複数の重要領域と第１のニューラルネットワークとに基づいて特徴量を抽出する特徴抽出部と、
前記特徴量とプロトタイプとの類似度を算出して出力する類似度算出部と、
前記類似度に基づいて推論値を出力する推論部と、
前記正解値に基づいて前記推論値を評価して評価結果を得る評価部と、
前記評価結果に基づいて、前記第１のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行う更新部と、
を備える学習装置として機能させるための学習プログラム。