JP7210489B2 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP7210489B2
JP7210489B2 JP2020004837A JP2020004837A JP7210489B2 JP 7210489 B2 JP7210489 B2 JP 7210489B2 JP 2020004837 A JP2020004837 A JP 2020004837A JP 2020004837 A JP2020004837 A JP 2020004837A JP 7210489 B2 JP7210489 B2 JP 7210489B2
Authority
JP
Japan
Prior art keywords
unit
learning
similarity
prototype
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020004837A
Other languages
English (en)
Other versions
JP2021111299A (ja
Inventor
恭史 国定
素子 加賀谷
蔵人 前野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2020004837A priority Critical patent/JP7210489B2/ja
Publication of JP2021111299A publication Critical patent/JP2021111299A/ja
Application granted granted Critical
Publication of JP7210489B2 publication Critical patent/JP7210489B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、学習装置、学習方法および学習プログラムに関する。
一般に、今日の画像認識などにおいて高い性能を有する多層ニューラルネットワークは、膨大なパラメータと複雑なモデルとによって構成されている。しかし、この種の機械学習によるシステムは、優れた性能を示す一方、ニューラルネットワークの判断根拠の解釈が難しいという課題があった。この課題を解決するため、ニューラルネットワークの判断根拠の説明材料を提示する手法が幾つか提案されている。例えば、入力データに対する類似例をニューラルネットワークの判断根拠の説明材料の例として提示する手法が知られている。
特許文献1に記載の手法は、主に医用画像の診断において、画像から機械学習によって抽出された画像特徴量に基づいて画像特徴量に対応する症例(類似症例)を症例データベースから検索し、類似症例を提示する手法である。
非特許文献1に記載の手法は、画像の分類において、複数の分類クラスそれぞれの典型例(プロトタイプ)を学習し、推論時に識別用データの特徴量と最も類似度の高いプロトタイプをニューラルネットワークの判断根拠の説明材料の例として提示する手法である。かかる手法では、モデル内部に識別用データの特徴量とプロトタイプとの類似度を計算する層が埋め込まれているため、ニューラルネットワークは類似度に基づいた分類を行うように学習する。
特許文献2に記載の手法は、非特許文献1に記載の手法と同様に、複数の分類クラスそれぞれの典型例(プロトタイプ)を学習する手法である。しかし、特許文献2の手法は、学習したプロトタイプをそのまま提示するのではなく、プロトタイプに最も近い特徴量を持つデータを学習用データの中から探索し、見つかった学習用データを提示する。このとき、見つかった学習用データ(例えば、画像)の全体ではなく、学習用データの一部が類似部位として提示され得る。
特開2019-125240号公報
Oscar Li、他3名、"Deep Learning for Case-Based Reasoning through Prototypes: ANeural Network that Explains Its Predictions"、[online]、[令和1年12月26日検索]、インターネット<https://arxiv.org/abs/1710.04806> Chaofan Chen、他5名、"This LooksLike That: Deep Learning for Interpretable Image Recognition"、[online]、[令和1年12月26日検索]、インターネット<https://arxiv.org/abs/1806.10574> Wei Liu、他6名、"SSD: Single Shot MultiBox Detector"、[online]、[令和1年12月26日検索]、インターネット<https://arxiv.org/abs/1512.02325>
しかしながら、特許文献1に記載の手法、および、非特許文献1に記載の手法においては、ニューラルネットワークに入力されるデータの類似例が画像全体として提示される。したがって、かかる手法においては、類似例として提示された画像全体のうち特にどの部位が、ニューラルネットワークに入力されるデータと類似しているのかを解釈することが困難である。
非特許文献2に記載の手法においては、特徴空間上で計算された入力画像と類似する範囲(類似範囲)を入力画像と同じ大きさにアップサンプリングすることによって、類似範囲に対応する入力画像における部位を提示することが可能である。しかし、特徴空間上での位置と入力画像上の位置との関係は、単なる拡大関係あるいは縮小関係とは異なる。そのため、ニューラルネットワークは、提示された部位以外の箇所も類似部位として判断している可能性がある。すなわち、非特許文献2に記載の手法では、必ずしも正しい類似部位が提示されるとは限らない。
そこで、ニューラルネットワークの判断根拠のより有用な説明材料を提示することを可能とする技術が提供されることが望まれる。
上記問題を解決するために、本発明のある観点によれば、学習用データと正解値とを取得する入力部と、前記学習用データに基づいて1または複数の重要領域を推定する重要領域推定部と、前記学習用データと前記1または複数の重要領域それぞれを示す情報とに基づいて前記1または複数の重要領域に対してトリミングを行って前記1または複数の重要領域を出力するトリミング処理部と、前記1または複数の重要領域と第1のニューラルネットワークとに基づいて特徴量を抽出する特徴抽出部と、前記特徴量とプロトタイプとの類似度を算出して出力する類似度算出部と、前記類似度に基づいて推論値を出力する推論部と、前記正解値に基づいて前記推論値を評価して評価結果を得る評価部と、前記評価結果に基づいて、前記第1のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行う更新部と、を備える、学習装置が提供される。
前記重要領域推定部は、前記学習用データと第2のニューラルネットワークとに基づいて前記1または複数の重要領域を推定し、前記更新部は、前記評価結果に基づいて前記第2のニューラルネットワークの重みパラメータの更新を行ってもよい。
前記推論部は、前記類似度と第3のニューラルネットワークとに基づいて前記推論値を出力し、前記更新部は、前記評価結果に基づいて前記第3のニューラルネットワークの重みパラメータの更新を行ってもよい。
前記1または複数の重要領域それぞれのサイズは、可変であってもよい。
前記1または複数の重要領域それぞれのサイズに対して、所定の制約が課されていてもよい。
前記特徴量のサイズは、可変であってもよい。
前記特徴量のチャネル数は、前記プロトタイプのチャネル数と同一であり、前記類似度算出部は、前記特徴量のチャネルデータの1または複数個所それぞれと前記プロトタイプのチャネルデータとの類似度の中で最も高い類似度を、当該チャネルに対応する類似度として前記推論部に出力してもよい。
前記類似度算出部は、複数の学習用データの一部または全部それぞれにおいて、前記推論部に出力した類似度と、前記類似度に対応する特徴量とを、チャネルごとに保存データとして保存し、前記更新部は、前記プロトタイプと最も類似度が高い特徴量を類似特徴量としてチャネルごとに前記保存データから検出し、前記類似特徴量が抽出された学習用データの前記類似特徴量に対応する領域データをチャネルごとに前記プロトタイプに対応付けてもよい。
前記更新部は、前記類似特徴量によって前記プロトタイプをチャネルごとに上書きしてもよい。
前記更新部は、学習の途中において、前記類似特徴量によって前記プロトタイプを上書きした場合、前記プロトタイプの更新を停止してもよい。
また、本発明の別の観点によれば、学習用データと正解値とを取得することと、前記学習用データに基づいて1または複数の重要領域を推定することと、前記学習用データと前記1または複数の重要領域それぞれを示す情報とに基づいて前記1または複数の重要領域に対してトリミングを行って前記1または複数の重要領域を出力することと、前記1または複数の重要領域と第1のニューラルネットワークとに基づいて特徴量を抽出することと、前記特徴量とプロトタイプとの類似度を算出して出力することと、前記類似度に基づいて推論値を出力することと、前記正解値に基づいて前記推論値を評価して評価結果を得ることと、前記評価結果に基づいて、前記第1のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行うことと、を含む、学習方法が提供される。
また、本発明の別の観点によれば、コンピュータを、学習用データと正解値とを取得する入力部と、前記学習用データに基づいて1または複数の重要領域を推定する重要領域推定部と、前記学習用データと前記1または複数の重要領域それぞれを示す情報とに基づいて前記1または複数の重要領域に対してトリミングを行って前記1または複数の重要領域を出力するトリミング処理部と、前記1または複数の重要領域と第1のニューラルネットワークとに基づいて特徴量を抽出する特徴抽出部と、前記特徴量とプロトタイプとの類似度を算出して出力する類似度算出部と、前記類似度に基づいて推論値を出力する推論部と、前記正解値に基づいて前記推論値を評価して評価結果を得る評価部と、前記評価結果に基づいて、前記第1のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行う更新部と、を備える学習装置として機能させるための学習プログラムが提供される。
以上説明したように本発明によれば、ニューラルネットワークの判断根拠のより有用な説明材料を提示することを可能とする技術が提供される。
本発明の実施形態に係る学習装置の機能構成例を示す図である。 重要領域推定部の機能の詳細を説明するための図である。 トリミング処理部の機能の詳細を説明するための図である。 特徴抽出部の機能の詳細を説明するための図である。 類似度算出部の機能の詳細を説明するための図である。 推論部の機能の詳細を説明するための図である。 評価部の機能の詳細を説明するための図である。 更新部の機能の詳細を説明するための図である。 同実施形態に係る学習装置の動作例を示すフローチャートである。 同実施形態に係る識別装置の機能構成例を示す図である。 類似部位提示画面の例を示す図である。 同実施形態に係る識別装置の動作例を示すフローチャートである。 同実施形態に係る学習装置の例としての情報処理装置のハードウェア構成を示す図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。
(1.実施形態の詳細)
続いて、本発明の実施形態の詳細について説明する。本発明の実施形態では、学習用データと正解値との組み合わせに基づいてニューラルネットワークの学習を行う学習装置10(図1)について説明した後、学習済みのニューラルネットワークと識別用データ(テストデータ)とに基づいて推論値を出力する識別装置20(図10)について説明を行う。
以下では、学習装置10と識別装置20とが同一のコンピュータによって実現される場合を主に想定する。しかし、学習装置10と識別装置20とは、別のコンピュータによって実現されてもよい。かかる場合には、学習装置10によって生成された学習済みのニューラルネットワークが識別装置20に提供される。例えば、学習済みのニューラルネットワークは、学習装置10から識別装置20に記録媒体を介して提供されてもよいし、通信を介して提供されてもよい。
(1-1.学習装置の構成)
まず、本発明の実施形態に係る学習装置10の構成例について説明する。図1は、本発明の実施形態に係る学習装置10の機能構成例を示す図である。図1に示されるように、本発明の実施形態に係る学習装置10は、入力部121と、重要領域推定部122と、トリミング処理部123と、特徴抽出部124と、類似度算出部125と、推論部126と、評価部140と、更新部150とを備える。
本発明の実施形態では、入力部121と、重要領域推定部122と、トリミング処理部123と、特徴抽出部124と、類似度算出部125と、推論部126とが、ニューラルネットワーク120によって構成される場合を主に想定する。以下では、ニューラルネットワークを「NN」とも表記する。
より詳細に、特徴抽出部124は、第1のニューラルネットワーク(以下、「特徴抽出NN」とも表記する。)を含み、重要領域推定部122は、第2のニューラルネットワーク(以下、「重要領域推定NN」とも表記する。)を含み、推論部126は、第3のニューラルネットワーク(以下、「推論NN」とも表記する。)を含む。しかし、入力部121と、重要領域推定部122と、トリミング処理部123と、特徴抽出部124と、類似度算出部125と、推論部126とは、具体的にどのような構成であってもよい。
これらのブロックは、CPU(Central Processing Unit)またはGPU(Graphics Processing Unit)などの演算装置を含み、ROM(Read Only Memory)により記憶されているプログラムが演算装置によりRAMに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、これらのブロックは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。演算装置による演算に必要なデータは、図示しない記憶部によって適宜記憶される。
データセット110、重要領域推定NNの重みパラメータ131、特徴抽出NNの重みパラメータ132、推論NNの重みパラメータ133、プロトタイプ134および保存データ160は、図示しない記憶部によって記憶される。かかる記憶部は、RAM(Random Access Memory)、ハードディスクドライブまたはフラッシュメモリなどのメモリによって構成されてよい。
初期状態において、重要領域推定NNの重みパラメータ131、特徴抽出NNの重みパラメータ132、推論NNの重みパラメータ133、および、プロトタイプ134それぞれには、初期値が設定されている。例えば、これらに設定される初期値は、ランダムな値であってよいが、どのような値であってもよい。例えば、これらに設定される初期値は、あらかじめ学習によって得られた学習済みの値であってもよい。一方、保存データには、初期状態では特に何も設定されていなくてよい。
(データセット110)
データセット110は、複数の学習用データ(入力データ)と当該複数の学習用データそれぞれの正解値とを含んで構成される。なお、本発明の実施形態では、学習用データが画像データである場合(特に、静止画像データである場合)を主に想定する。しかし、学習用データの種類は特に限定されない。例えば、学習用データは、複数のフレームを含んだ動画像データであってもよいし、音響データであってもよい。
(入力部121)
入力部121は、データセット110から学習用データおよび正解値の組み合わせを順次に取得する。入力部121は、学習用データおよび正解値の組み合わせを順次に重要領域推定部122およびトリミング処理部123それぞれに出力する。入力部121よりも後段の各ブロックにおいては、前段のブロックからの入力に基づいて順次に各自の処理が繰り返し実行される。
なお、例えば、入力部121は、データセット110から学習用データおよび正解値の組み合わせを全部取得し終わった場合には、最初から当該組み合わせを取得し直して再度出力する動作を所定の回数繰り返してよい。かかる場合には、入力部121よりも後段のブロックにおいても、前段のブロックからの再度の入力に基づいて順次に各自の処理が繰り返し実行されてよい。
(重要領域推定部122)
重要領域推定部122は、入力部121から出力された学習用データと重要領域推定NNとに基づいて学習用データから1または複数の重要領域を推定する。より詳細に、重要領域推定部122は、重要領域推定NNに学習用データを入力させたことに基づいて、重要領域推定NNから出力されるデータを1または複数の重要領域それぞれを示す情報(1または複数の重要領域それぞれの位置およびサイズ)として得る。重要領域推定部122は、1または複数の重要領域それぞれを示す情報をトリミング処理部123に出力する。ここで、図2を参照しながら、重要領域推定部122の機能についてより詳細に説明する。
図2は、重要領域推定部122の機能の詳細を説明するための図である。図2を参照すると、入力部121から出力された学習用データG1が示されており、学習用データG1には、被写体の例として「犬」が写っている。このとき、学習用データG1の正解値は「犬」である場合が想定される。しかし、学習用データG1に写る被写体は「犬」に限定されない。重要領域推定部122は、重要領域推定NNに学習用データG1を入力させ、重みパラメータ131を用いて重要領域推定NNから出力される重要領域R1~R4それぞれを示す情報(重要領域R1~R4それぞれの位置およびサイズ)を得る。
例えば、重要領域推定部122は、学習用データG1からあらかじめ指定された数の重要領域を推定する。なお、重要領域の数は限定されないが、後に説明するプロトタイプの精度を高めるためには、プロトタイプのチャネル数以上であるのが望ましい。しかし、重要領域の数は、プロトタイプのチャネル数よりも少なくてもよい。なお、一般的にチャネルとは、1つの入力データに対してニューラルネットワークが抽出する特徴量の先頭の次元のことであるが、本明細書においては、1または複数の重要領域に対して、特徴抽出部124が抽出する特徴量の先頭の次元をチャネルと呼ぶ。そのため、チャネル数とは1または複数の重要領域の数と一致するものである。
図2には、重要領域推定部122によって、学習用データG1から、重要領域R1(耳)、重要領域R2(目)、重要領域R3(口)、重要領域R4(脚)が推定された例が示されている。すなわち、重要領域推定部122によって4つの重要領域が推定された例が示されている。しかし、重要領域推定部122によって推定される重要領域の数は限定されない。重要領域推定部122によって推定される重要領域の種類も、耳、目、口および脚に限定されない。
ここで、学習用データをxとし、学習用データにおける重要領域の位置をtとし、重要領域のサイズをsとし、重要領域推定NNの処理を関数g()とすると、重要領域の位置tと、重要領域のサイズsと、重要領域推定NNの処理を示す関数g()との関係は、下記の数式(1)によって表現され得る。
s,t=g(x)・・・(1)
例えば、学習用データが画像データのように2次元データである場合、かつ、重要領域の形状が長方形である場合には、重要領域の位置tは、2次元データにおける長方形の所定点(例えば、長方形の左上の頂点など)の縦軸座標と横軸座標との組み合わせによって表現され得る。重要領域のサイズsは、2次元データにおける長方形の縦横それぞれの長さによって表現される。しかし、重要領域の形状は、長方形に限定されず、他の形状(例えば、円形など)であってもよい。
重要領域のサイズsは、固定されていてもよいが、固定されていなくてもよい(可変であってもよい)。重要領域のサイズsが可変である場合には、重要領域に基づいて後に提示される類似部位の柔軟性が高まることが期待される。一方、重要領域のサイズsが学習用データと近すぎる場合には、後に重要領域がトリミング処理部123によってトリミングされる意味が薄れてしまう。そこで、重要領域のトリミングが有意義に行われるように、重要領域のサイズに対しては、所定の制約が課されていてもよい。
例えば、重要領域のサイズsが所定の範囲に収まるよう、g(x)に対して値域が所定の範囲に限定される関数(例えば、シグモイド関数など)が乗じられてもよい。例えば、g(x)に定数とシグモイド関数とが乗じられれば、重要領域のサイズsは、0から定数までに収まるようになる。あるいは、g(x)と定数とのいずれか小さい値が重要領域のサイズsとして採用されれば、重要領域のサイズsは、定数以下に収まるようになる。例えば、これらの定数が、学習用データのサイズに対して所定の割合(例えば、半分など)に設定されれば、重要領域のサイズsは、学習用データのサイズの所定の割合以下のサイズになるように制約を受ける。
あるいは、重要領域のサイズs(または重要領域のサイズsの二乗)が損失関数に足し合わされた上で、更新部150によって重要領域推定NNの重みパラメータ131が更新されれば、重要領域のサイズsが小さくなるように学習が行われるようになる。なお、重要領域推定NNの具体的な構成は、特に限定されない。例えば、重要領域推定NNとしては、畳み込みニューラルネットワーク(例えば、上記した非特許文献3に記載されている畳み込みニューラルネットワークなど)が用いられてもよい。
(トリミング処理部123)
図1に戻って説明を続ける。トリミング処理部123は、入力部121から出力された学習用データG1と、重要領域推定部122から出力された重要領域R1~R4それぞれを示す情報とに基づいて、学習用データG1の重要領域R1~R4に対してトリミングを行って重要領域R1~R4を特徴抽出部124に出力する。ここで、図3を参照しながら、トリミング処理部123の機能についてより詳細に説明する。
図3は、トリミング処理部123の機能の詳細を説明するための図である。図3を参照すると、入力部121から出力された学習用データG1が示され、重要領域推定部122によって推定された重要領域R1~R4それぞれを示す情報(重要領域R1~R4それぞれの位置およびサイズ)が示されている。トリミング処理部123は、学習用データG1から、重要領域R1~R4に対してトリミングを行う。なお、図3に示されたように、重要領域R1~R4に対するトリミングは、学習用データG1のうち重要領域R1~R4以外の領域を除外することを意味し得る。
(特徴抽出部124)
図1に戻って説明を続ける。特徴抽出部124は、トリミング処理部123から出力された重要領域R1~R4と特徴抽出NNとに基づいて特徴量を抽出する。より詳細に、特徴抽出部124は、特徴抽出NNに重要領域R1~R4を入力させたことに基づいて、特徴抽出NNから出力されるデータを特徴量として得る。特徴抽出部124は、特徴量を類似度算出部125に出力する。ここで、図4を参照しながら、特徴抽出部124の機能についてより詳細に説明する。
図4は、特徴抽出部124の機能の詳細を説明するための図である。図4を参照すると、トリミング処理部123から出力された重要領域R1~R4が示されている。特徴抽出部124は、特徴抽出NNに重要領域R1~R4を入力させ、重みパラメータ132を用いて特徴抽出NNから出力される特徴量F1~F4を得る。
特徴量F1~F4それぞれのサイズは、固定されていてもよいが、固定されていなくてもよい(可変であってもよい)。特徴量F1~F4それぞれのサイズが可変である場合には、特徴量F1~F4に基づいて後に提示される類似部位の柔軟性が高まることが期待される。なお、特徴量F1~F4それぞれは、特徴量のチャネルデータに相当する。すなわち、本発明の実施形態では、特徴量のチャネル数が4である場合を主に想定するが、特徴量のチャネル数は限定されない。
また、特徴抽出NNの具体的な構成は限定されない。例えば、特徴抽出NNとしては、複数の畳み込み層を含んで構成されたニューラルネットワークが用いられてもよい。
(類似度算出部125)
図1に戻って説明を続ける。類似度算出部125は、特徴抽出部124から出力された特徴量F1~F4とプロトタイプ134との類似度を算出する。特徴抽出部124から出力される特徴量F1~F4の次元とプロトタイプ134の次元とは同じに設定されている。ここでは、特徴量F1~F4とプロトタイプ134それぞれが、複数チャネルに分かれた二次元データ(すなわち、三次元データ)である場合を想定するが、次元数は限定されない。そして、類似度算出部125は、算出した特徴量F1~F4とプロトタイプ134との類似度を推論部126に出力する。ここで、図5を参照しながら、類似度算出部125の機能についてより詳細に説明する。
図5は、類似度算出部125の機能の詳細を説明するための図である。図5を参照すると、特徴量F1~F4とプロトタイプP1~P4とが示されている。プロトタイプP1~P4それぞれは、プロトタイプのチャネルデータに相当する。すなわち、本発明の実施形態では、プロトタイプのチャネル数が4である場合を主に想定するが、プロトタイプのチャネル数は限定されない。
特徴量F1~F4のチャネル数とプロトタイプP1~P4のチャネル数とは、同じに設定されている。これによって、類似度算出部125によって、特徴量F1~F4とプロトタイプP1~P4との類似度がチャネルごとに算出され得る。図5に示された例では、類似度算出部125によって、特徴量F1とプロトタイプP1との類似度M1が算出され、特徴量F2とプロトタイプP2との類似度M2が算出され、特徴量F3とプロトタイプP3との類似度M3が算出され、特徴量F4とプロトタイプP4との類似度M4が算出される。
対応するチャネルにおける特徴量とプロトタイプとの類似度は、どのように算出されてもよい。例えば、類似度算出部125は、対応するチャネルにおける特徴量のサイズとプロトタイプのサイズとが同じ場合には、対応するチャネルにおける特徴量とプロトタイプとの類似度を、特徴量とプロトタイプとにおいて対応する要素同士の差分の二乗和(L2ノルム)を用いて算出することができる。例えば、L2ノルムの逆数は、要素同士の差分の二乗和が小さいほど(特徴量とプロトタイプとの距離が近いほど)大きくなるため、類似度として好適に用いられ得る。
あるいは、対応するチャネルにおける特徴量のサイズは、プロトタイプのサイズよりも大きくてもよい。かかる場合、特徴抽出部124から出力される特徴量のデータ型は、C(チャネル)×H(高さ)×W(幅)と表現され、プロトタイプのデータ型は、C(チャネル)×H’(高さ)×W’(幅)(ただし、H>H’かつW>W’)と表現される。
このとき、特徴量をzとし、特徴量zからプロトタイプpのサイズと同じサイズの切り出し可能な部分的な特徴量をz’とする。そして、類似度算出部125は、特徴量zの1または複数個所それぞれの特徴量z’(すなわち、特徴量zから切り出し可能な部分的な特徴量z’の全部または一部)とプロトタイプpとの類似度の中で最も高い類似度Mを、当該チャネルに対応する類似度として推論部126に出力すればよい。すなわち、類似度Mは、類似度算出部125によって以下の数式(2)に示されるように算出されてよい。
Figure 0007210489000001
なお、類似度の算出方法は、かかる例に限定されない。例えば、類似度を算出する関数としては、ニューラルネットワークにおける誤差逆伝播法が適用可能な関数であれば、ニューラルネットワークが解決すべき問題に応じて自由に設定されてよい。類似度算出部125によって更新される保存データ160については後に説明する。
(推論部126)
図1に戻って説明を続ける。推論部126は、類似度算出部125から出力された類似度M1~M4に基づいて推論を行って推論値を得る。そして、推論部126は、推論値を評価部140に出力する。ここで、図6を参照しながら、推論部126の機能についてより詳細に説明する。
図6は、推論部126の機能の詳細を説明するための図である。図6を参照すると、類似度算出部125から出力された類似度M1~M4が示されている。推論部126は、推論NNに類似度M1~M4を入力させ、重みパラメータ133を用いて推論NNから出力される推論値を得る。なお、本明細書においては、ニューラルネットワークへのデータの入力に基づいてニューラルネットワークから出力されるデータを得ることを広く「推論」と言う。そのため、学習段階においても「推論」という用語が使用される。
推論NNの具体的な構成は、特に限定されない。しかし、推論NNの出力の形式は、学習用データに対応する正解値の形式と合わせて設定されているのがよい。例えば、正解値が分類問題のクラスである場合、推論NNの出力は、クラス数分の長さを有するone-hotベクトルであるとよい。
(評価部140)
図1に戻って説明を続ける。評価部140は、入力部121によって取得された正解値に基づいて、推論部126から出力された推論値を評価して評価結果を得る。そして、評価部140は、評価結果を更新部150に出力する。ここで、図7を参照しながら、評価部140の機能についてより詳細に説明する。
図7は、評価部140の機能の詳細を説明するための図である。図7を参照すると、推論部126から出力された推論値が示されている。また、図7を参照すると、入力部121によって取得された正解値が示されている。本発明の実施形態では、評価部140が、正解値と推論値とに応じた損失関数を評価結果として算出する場合を想定する。ここで、本発明の実施形態において用いられる損失関数は特定の関数に限定されず、一般的なニューラルネットワークにおいて用いられる損失関数と同様の損失関数が用いられてよい。例えば、損失関数は、正解値と推論値との差分に基づく平均二乗誤差であってもよい。
(更新部150)
図1に戻って説明を続ける。更新部150は、評価部140から出力された評価結果に基づいて、重要領域推定NNの重みパラメータ131と、特徴抽出NNの重みパラメータ132と、推論NNの重みパラメータ133と、プロトタイプ134との更新を行う。これによって、推論部126から出力される推論値が正解値に近づくように、重要領域推定NNの重みパラメータ131と、特徴抽出NNの重みパラメータ132と、推論NNの重みパラメータ133と、プロトタイプ134とが訓練され得る。ここで、図8を参照しながら、更新部150の機能についてより詳細に説明する。
図8は、更新部150の機能の詳細を説明するための図である。図8を参照すると、評価部140から出力された評価結果が示されている。プロトタイプP1~P4それぞれは、プロトタイプのチャネルデータに相当する。例えば、更新部150は、評価部140から出力された評価結果に基づく誤差逆伝播法(バックプロパゲーション)によって、重要領域推定NNの重みパラメータ131と、特徴抽出NNの重みパラメータ132と、推論NNの重みパラメータ133と、プロトタイプ134とを更新してよい。
本発明の実施形態では、学習装置10によって、プロトタイプと類似する特徴量(類似特徴量)が抽出された学習用データが検出(探索)される場合を想定する。そして、識別装置20において、学習装置10によって検出された学習用データの類似特徴量に対応する領域データが、類似部位として提示される場合を想定する。これによって、類似例全体が提示されるよりも、類似例とテストデータとの類似性が部位ごとに容易に理解されやすくなる。
より詳細に、類似度算出部125は、上記したように、複数の学習用データそれぞれに対して特徴量とプロトタイプとの類似度をチャネルごとに算出し、推論部126に出力する。そこで、類似度算出部125は、所定のタイミングで、推論部126に出力した類似度と、当該類似度に対応する当該特徴量とを、チャネルごとに保存データ160として保存する。図8には一例として、プロトタイプP1に対応するチャネルについて、推論部126に出力された複数の類似度(類似度:50、類似度:10、・・・、類似度:20)と、複数の類似度それぞれに対応する特徴量とが保存データ160として保存されている例が示されている。しかし、プロトタイプP2~P4それぞれに対応するチャネルの特徴量と類似度も同様に保存される。
なお、本発明の実施形態では、データセット110を用いた学習装置10による学習が何巡か繰り返し実行された後に(例えば、4回繰り返し実行された後など)、次の巡目(例えば、5巡目など)の類似度と特徴量とが保存される場合を想定する。しかし、類似度と特徴量とが保存されるタイミングは限定されない。類似度算出部125は、学習装置10による学習に用いられた複数の学習用データの一部または全部それぞれにおいて、類似度と特徴量とを保存すればよい。
類似度算出部125による類似度と特徴量との保存が終わると、更新部150は、プロトタイプP1と最も類似度が高い特徴量を類似特徴量として保存データ160から検出する。図8に示された例では、類似度が「50」の特徴量が類似特徴量として検出される。更新部150は、類似特徴量が抽出された学習用データの当該類似特徴量に対応する領域データを類似部位としてプロトタイプP1に対応付ける。なお、更新部150は、同様に、領域データを類似部位としてプロトタイプP2~P4にチャネルごとに対応付ける。
なお、プロトタイプ134は、学習が終了するまで、重みパラメータ131~133とともに誤差逆伝播法(バックプロパゲーション)によって更新され続けてもよい。しかし、本発明の実施形態では、更新部150が、検出した類似特徴量によってプロトタイプ134をチャネルごとに上書きする場合を想定する。これによって、類似度の算出に用いられるプロトタイプ134と、提示される類似部位との間の整合性が向上し得る。かかる整合性の観点から、更新部150は、学習の途中において、類似特徴量によってプロトタイプ134を上書きした場合、プロトタイプ134の更新を停止するのがよい。
なお、更新部150は、学習用データに基づく更新が終わるたびに、学習の終了条件が満たされたか否かを判断する。学習の終了条件が満たされていないと判断した場合には、入力部121によって次の学習用データが取得され、重要領域推定部122、トリミング処理部123、特徴抽出部124、類似度算出部125、推論部126、評価部140および更新部150それぞれによって、当該次の入力データに基づく各自の処理が再度実行される。一方、更新部150によって、学習の終了条件が満たされたと判断された場合には、学習が終了される。
なお、学習の終了条件は特に限定されず、ニューラルネットワーク120の学習がある程度行われたことを示す条件であればよい。具体的に、学習の終了件は、損失関数の値が閾値よりも小さいという条件を含んでもよい。あるいは、学習の終了条件は、損失関数の値の変化が閾値よりも小さいという条件(損失関数の値が収束状態になったという条件)を含んでもよい。あるいは、学習の終了条件は、重みパラメータの更新が所定の回数行われたという条件を含んでもよい。あるいは、評価部140によって正解値と推論値とに基づいて精度が算出される場合、学習の終了条件は、精度が所定の割合(例えば、90%など)を超えるという条件を含んでもよい。
以上、本発明の実施形態に係る学習装置10の構成例について説明した。
(1-2.学習装置の動作)
続いて、本発明の実施形態に係る学習装置10の動作例について説明する。図9は、本発明の実施形態に係る学習装置10の動作例を示すフローチャートである。まず、図9に示されたように、入力部121は、データセット110から学習用データおよび正解値の組み合わせを取得する。また、重要領域推定部122は、重みパラメータ131を取得し、特徴抽出部124は、重みパラメータ132を取得し、推論部126は、重みパラメータ133を取得し、類似度算出部125は、プロトタイプ134を取得する(S11)。
重要領域推定部122は、入力部121から出力された学習用データと重要領域推定NNとに基づいて学習用データから1または複数の重要領域を推定する(S12)。より詳細に、重要領域推定部122は、重要領域推定NNに学習用データを入力させ、重みパラメータ131を用いて重要領域推定NNから出力されるデータを1または複数の重要領域それぞれを示す情報(1または複数の重要領域それぞれの位置およびサイズ)として得る。重要領域推定部122は、1または複数の重要領域それぞれを示す情報をトリミング処理部123に出力する。
トリミング処理部123は、入力部121から出力された学習用データと、重要領域推定部122から出力された1または複数の重要領域それぞれを示す情報とに基づいて、学習用データの1または複数の重要領域に対してトリミングを行う(S13)。そして、トリミング処理部123は、1または複数の重要領域を特徴抽出部124に出力する。
特徴抽出部124は、トリミング処理部123から出力された1または複数の重要領域と特徴抽出NNとに基づいて特徴量を抽出する(S14)。より詳細に、特徴抽出部124は、特徴抽出NNに重要領域を入力させ、重みパラメータ132を用いて特徴抽出NNから出力される特徴量を得る。特徴抽出部124は、特徴量を類似度算出部125に出力する。
類似度算出部125は、特徴抽出部124から出力された特徴量とプロトタイプ134との類似度を算出する(S15)。推論部126は、類似度算出部125から出力された類似度に基づいて推論を行って推論値を得る(S16)。より詳細に、推論部126は、推論NNに類似度を入力させ、重みパラメータ133を用いて推論NNから出力される推論値を得る。そして、推論部126は、推論値を評価部140に出力する。
評価部140は、入力部121によって取得された正解値に基づいて、推論部126から出力された推論値を評価して評価結果を得る(S17)。より詳細に、評価部140は、正解値と推論値とに応じた損失関数を評価結果として算出する。そして、評価部140は、評価結果を更新部150に出力する。更新部150は、評価部140から出力された評価結果に基づいて、重要領域推定NNの重みパラメータ131と、特徴抽出NNの重みパラメータ132と、推論NNの重みパラメータ133と、プロトタイプ134との更新を行う(S18)。
更新部150は、学習用データに基づく更新が終わるたびに、学習の終了条件が満たされたか否かを判断する(S19)。学習の終了条件が満たされていないと判断した場合には(S19において「NO」)、S11に動作が移行され、入力部121によって次の学習用データが取得され、重要領域推定部122、トリミング処理部123、特徴抽出部124、類似度算出部125、推論部126、評価部140および更新部150それぞれによって、当該次の入力データに基づく各自の処理が再度実行される。一方、更新部150によって、学習の終了条件が満たされたと判断された場合には(S19において「YES」)、学習が終了される。
以上、本発明の実施形態に係る学習装置10の動作例について説明した。
(1-3.識別装置の構成)
続いて、本発明の実施形態に係る識別装置20の構成例について説明する。図10は、本発明の実施形態に係る識別装置20の機能構成例を示す図である。図10に示されるように、本発明の実施形態に係る識別装置20は、学習装置10によって学習された学習済みのニューラルネットワーク120を備える。その他、識別装置20は、表示制御部220および表示部230を備える。
表示制御部220は、演算装置を含み、ROMにより記憶されているプログラムが演算装置によりRAMに展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、これらのブロックは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。演算装置による演算に必要なデータは、図示しない記憶部によって適宜記憶される。
表示部230は、ディスプレイによって構成される。テストデータ210、重要領域推定NNの重みパラメータ131、特徴抽出NNの重みパラメータ132、推論NNの重みパラメータ133、および、プロトタイプ134は、図示しない記憶部によって記憶される。かかる記憶部は、RAM、ハードディスクドライブまたはフラッシュメモリなどのメモリによって構成されてよい。
(テストデータ210)
テストデータ210は、識別用データに相当する。なお、本発明の実施形態では、テストデータ210が、学習用データと同様に、画像データである場合(特に、静止画像データである場合)を主に想定する。しかし、テストデータ210の種類は特に限定されない。例えば、テストデータ210は、学習用データと同様に、複数のフレームを含んだ動画像データであってもよいし、音響データであってもよい。
(入力部121~推論部126)
入力部121は、テストデータ210を取得する。入力部121は、テストデータ210を重要領域推定部122およびトリミング処理部123それぞれに出力する。重要領域推定部122は、入力部121から出力されたテストデータ210と重要領域推定NNとに基づいてテストデータ210から1または複数の重要領域を推定する。テストデータ210から1または複数の重要領域を推定する手法は、学習装置10における重要領域推定部122が、学習用データから重要領域を推定する手法と同様である。
トリミング処理部123は、入力部121から出力されたテストデータと、重要領域推定部122から出力された1または複数の重要領域それぞれを示す情報とに基づいて、テストデータの1または複数の重要領域に対してトリミングを行って1または複数の重要領域を特徴抽出部124に出力する。テストデータ210の1または複数の重要領域に対してトリミングを行う手法は、学習装置10におけるトリミング処理部123が、学習用データの1または複数の重要領域をトリミングする手法と同様である。
特徴抽出部124は、トリミング処理部123から出力された1または複数の重要領域と特徴抽出NNとに基づいて特徴量を抽出する。特徴抽出部124が特徴量を抽出する手法は、学習装置10における特徴抽出部124が特徴量を抽出する手法と同様である。類似度算出部125は、特徴抽出部124から出力された特徴量とプロトタイプ134との類似度を算出する。類似度算出部125が類似度を算出する手法は、学習装置10における類似度算出部125が類似度を算出する手法と同様である。
推論部126は、類似度算出部125から出力された類似度に基づいて推論を行って推論値を得る。推論部126が推論を行う手法は、学習装置10における推論部126が推論を行う手法と同様である。例えば、テストデータに、被写体として「犬」が写っている場合、テストデータに対応する推論値として「犬」が出力される場合が想定される。このとき、類似例として「犬」の画像全体が提示されることも考えられる。
しかし、本発明の実施形態では、識別装置20によって、類似特徴量に対応する領域データが類似部位として提示される場合を想定する。これによって、類似例として「犬」の画像全体が提示されるよりも、類似例とテストデータとの類似性が部位ごとに容易に理解されやすくなる。以下では、類似部位を提示するためのブロックとして、表示制御部220および表示部230の機能について説明する。
(表示制御部220~表示部230)
上記したように、プロトタイプと最も類似度が高い特徴量(類似特徴量)が抽出された学習用データの類似特徴量に対応する領域データが類似部位として、チャネルごとにプロトタイプに対応付けられている。そこで、表示制御部220は、学習用データのプロトタイプに対応する類似部位がチャネルごとに表示されるように表示部230を制御する。以下では、類似部位の提示について、図11を参照しながら詳細に説明する。
図11は、類似部位提示画面の例を示す図である。図11を参照すると、類似部位提示画面D1が示されている。表示制御部220は、類似部位提示画面D1が表示部230によって表示されるように表示部230を制御する。類似部位提示画面D1には、テストデータG2が含まれる他、各チャネルに対応する、類似部位R21(耳)、類似部位R22(目)、類似部位R23(口)、類似部位R24(脚)が含まれている。
このように、類似部位R21~R24が提示されることによって、類似例としての「犬」とテストデータG2との類似性が部位ごとに容易に理解されやすくなる。例えば、類似部位R21~R24に着目すれば、類似例とテストデータG2とが類似している理由がより理解されやすくなる。なお、図11に示された例では、類似部位R21~R24の全部が表示されているが、表示制御部220は、類似部位R21~R24の一部のみ(例えば、類似度の高い順に所定の数だけ)を表示部230に表示させてもよい。これによって、推論に対する寄与度が大きいプロトタイプが把握され得る。あるいは、表示制御部220は、類似度の低い順に所定の数だけ)を表示部230に表示させてもよい。これによって、推論に対する寄与度が小さいプロトタイプが把握され得る。
さらに、表示制御部220は、テストデータG2の推論部126に出力された類似度に応じた値がスコアとしてチャネルごとに表示されるように表示部230を制御する。スコアが所定の範囲に収まるよう、類似度(例えば、上記の数式(1))に対して値域が所定の範囲に限定される関数(例えば、シグモイド関数など)が乗じられることによってスコアが得られてもよい。あるいは、類似度が無限大に発散しないよう、類似度の分母に対して0以外の定数が加算されることによってスコアが得られてもよい。あるいは、スコアは、類似度そのものであってもよい。
類似部位提示画面D1には、類似部位R21に対応するスコアとして「50」が表示され、類似部位R22に対応するスコアとして「20」が表示され、類似部位R23に対応するスコアとして「30」が表示され、類似部位R24に対応するスコアとして「70」が表示されている。このように、スコアが表示されることによって、テストデータG2の領域と類似部位R21~R24とがどの程度類似しているかが理解されるようになる。
また、図11に示されるように、表示制御部220は、テストデータG2の推論部126に出力された類似度に対応する領域に関する情報(領域の位置およびサイズ)が表示されるように表示部230を制御するとよい。これによって、テストデータG2のどの領域が類似部位に対応しているかが理解されやすくなる。図11に示された例では、テストデータG2の推論部126に出力された4つの類似度に対応する領域に関する情報R31~R34が表示されている。
以上、本発明の実施形態に係る識別装置20の構成例について説明した。
(1-4.識別装置の動作)
続いて、本発明の実施形態に係る識別装置20の動作例について説明する。図12は、本発明の実施形態に係る識別装置20の動作例を示すフローチャートである。まず、図12に示されたように、入力部121は、テストデータを取得する。また、重要領域推定部122は、重みパラメータ131を取得し、特徴抽出部124は、重みパラメータ132を取得し、推論部126は、重みパラメータ133を取得し、類似度算出部125は、プロトタイプ134を取得する(S31)。
重要領域推定部122は、入力部121から出力されたテストデータと重要領域推定NNとに基づいてテストデータから1または複数の重要領域を推定する(S32)。より詳細に、重要領域推定部122は、重要領域推定NNにテストデータを入力させ、重みパラメータ131を用いて重要領域推定NNから出力されるデータを1または複数の重要領域それぞれを示す情報(1または複数の重要領域それぞれの位置およびサイズ)として得る。重要領域推定部122は、1または複数の重要領域それぞれを示す情報をトリミング処理部123に出力する。
トリミング処理部123は、入力部121から出力されたテストデータと、重要領域推定部122から出力された1または複数の重要領域それぞれを示す情報とに基づいて、学習用データの1または複数の重要領域に対してトリミングを行う(S33)。そして、トリミング処理部123は、1または複数の重要領域を特徴抽出部124に出力する。
特徴抽出部124は、トリミング処理部123から出力された1または複数の重要領域と特徴抽出NNとに基づいて特徴量を抽出する(S34)。より詳細に、特徴抽出部124は、特徴抽出NNに重要領域を入力させ、重みパラメータ132を用いて特徴抽出NNから出力される特徴量を得る。特徴抽出部124は、特徴量を類似度算出部125に出力する。
類似度算出部125は、特徴抽出部124から出力された特徴量とプロトタイプ134との類似度を算出する(S35)。推論部126は、類似度算出部125から出力された類似度に基づいて推論を行って推論値を得る(S36)。より詳細に、推論部126は、推論NNに類似度を入力させ、重みパラメータ133を用いて推論NNから出力される推論値を得る。そして、推論部126は、推論値を出力する。
さらに、表示制御部220は、学習用データのプロトタイプに対応する類似部位がチャネルごとに表示されるように表示部230を制御する。また、表示制御部220は、テストデータの推論部126に出力された類似度に応じた値がスコアとしてチャネルごとに表示されるように表示部230を制御する(S37)。さらに、表示制御部220は、テストデータの推論部126に出力された類似度に対応する領域に関する情報(領域の位置およびサイズ)が表示されるように表示部230を制御する。
以上、本発明の実施形態に係る識別装置20の動作例について説明した。
(2.ハードウェア構成例)
続いて、本発明の実施形態に係る学習装置10のハードウェア構成例について説明する。ただし、本発明の実施形態に係る識別装置20のハードウェア構成例も同様に実現され得る。
以下では、本発明の実施形態に係る学習装置10のハードウェア構成例として、情報処理装置900のハードウェア構成例について説明する。なお、以下に説明する情報処理装置900のハードウェア構成例は、学習装置10のハードウェア構成の一例に過ぎない。したがって、学習装置10のハードウェア構成は、以下に説明する情報処理装置900のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。
図13は、本発明の実施形態に係る学習装置10の例としての情報処理装置900のハードウェア構成を示す図である。情報処理装置900は、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置910と、通信装置911と、を備える。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置900を操作するユーザは、この入力装置908を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。
ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
通信装置911は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置911は、無線通信または有線通信のどちらに対応してもよい。
以上、本発明の実施形態に係る学習装置10のハードウェア構成例について説明した。
(3.まとめ)
以上に説明したように、本発明の実施形態によれば、ニューラルネットワークの判断根拠のより有用な説明材料を提示することを可能とする技術が提供される。より詳細に、本発明の実施形態によれば、重要領域がトリミングされて重要領域以外の領域が除外された上で特徴量が抽出され、特徴量とプロトタイプとの類似度が算出される。これによって、プロトタイプと類似する特徴量(類似特徴量)が抽出された学習用データの類似特徴量に対応する類似部位が提示され得る。したがって、類似例全体が提示されるよりも、類似例とテストデータとの類似性が部位ごとに容易に理解されやすくなる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、上記では、識別装置20における表示制御部220が、類似部位、スコア、テストデータの領域に関する情報を表示部230に表示させる場合について主に説明した。しかし、学習装置10が、識別装置20と同様に、学習用データのプロトタイプに対応する類似部位、推論部126に出力された類似度または類似度に応じた値(スコア)、学習用データの推論部126に出力された類似度に対応する領域に関する情報を、チャネルごとに表示部230に表示させてもよい。
10 学習装置
110 データセット
120 ニューラルネットワーク
121 入力部
122 重要領域推定部
123 トリミング処理部
124 特徴抽出部
125 類似度算出部
126 推論部
131~133 パラメータ
134 プロトタイプ
140 評価部
150 更新部
160 保存データ
20 識別装置
220 表示制御部
230 表示部

Claims (12)

  1. 学習用データと正解値とを取得する入力部と、
    前記学習用データに基づいて1または複数の重要領域を推定する重要領域推定部と、
    前記学習用データと前記1または複数の重要領域それぞれを示す情報とに基づいて前記1または複数の重要領域に対してトリミングを行って前記1または複数の重要領域を出力するトリミング処理部と、
    前記1または複数の重要領域と第1のニューラルネットワークとに基づいて特徴量を抽出する特徴抽出部と、
    前記特徴量とプロトタイプとの類似度を算出して出力する類似度算出部と、
    前記類似度に基づいて推論値を出力する推論部と、
    前記正解値に基づいて前記推論値を評価して評価結果を得る評価部と、
    前記評価結果に基づいて、前記第1のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行う更新部と、
    を備える、学習装置。
  2. 前記重要領域推定部は、前記学習用データと第2のニューラルネットワークとに基づいて前記1または複数の重要領域を推定し、
    前記更新部は、前記評価結果に基づいて前記第2のニューラルネットワークの重みパラメータの更新を行う、
    請求項1に記載の学習装置。
  3. 前記推論部は、前記類似度と第3のニューラルネットワークとに基づいて前記推論値を出力し、
    前記更新部は、前記評価結果に基づいて前記第3のニューラルネットワークの重みパラメータの更新を行う、
    請求項1または2に記載の学習装置。
  4. 前記1または複数の重要領域それぞれのサイズは、可変である、
    請求項1~3のいずれか一項に記載の学習装置。
  5. 前記1または複数の重要領域それぞれのサイズに対して、所定の制約が課されている、
    請求項1~4のいずれか一項に記載の学習装置。
  6. 前記特徴量のサイズは、可変である、
    請求項1~5のいずれか一項に記載の学習装置。
  7. 前記特徴量のチャネル数は、前記プロトタイプのチャネル数と同一であり、
    前記類似度算出部は、前記特徴量のチャネルデータの1または複数個所それぞれと前記プロトタイプのチャネルデータとの類似度の中で最も高い類似度を、当該チャネルに対応する類似度として前記推論部に出力する、
    請求項1~6のいずれか一項に記載の学習装置。
  8. 前記類似度算出部は、複数の学習用データの一部または全部それぞれにおいて、前記推論部に出力した類似度と、前記類似度に対応する特徴量とを、チャネルごとに保存データとして保存し、
    前記更新部は、前記プロトタイプと最も類似度が高い特徴量を類似特徴量としてチャネルごとに前記保存データから検出し、前記類似特徴量が抽出された学習用データの前記類似特徴量に対応する領域データをチャネルごとに前記プロトタイプに対応付ける、
    請求項1~7のいずれか一項に記載の学習装置。
  9. 前記更新部は、前記類似特徴量によって前記プロトタイプをチャネルごとに上書きする、
    請求項8に記載の学習装置。
  10. 前記更新部は、学習の途中において、前記類似特徴量によって前記プロトタイプを上書きした場合、前記プロトタイプの更新を停止する、
    請求項9に記載の学習装置。
  11. 学習用データと正解値とを取得することと、
    前記学習用データに基づいて1または複数の重要領域を推定することと、
    前記学習用データと前記1または複数の重要領域それぞれを示す情報とに基づいて前記1または複数の重要領域に対してトリミングを行って前記1または複数の重要領域を出力することと、
    前記1または複数の重要領域と第1のニューラルネットワークとに基づいて特徴量を抽出することと、
    前記特徴量とプロトタイプとの類似度を算出して出力することと、
    前記類似度に基づいて推論値を出力することと、
    前記正解値に基づいて前記推論値を評価して評価結果を得ることと、
    前記評価結果に基づいて、前記第1のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行うことと、
    を含む、学習方法。
  12. コンピュータを、
    学習用データと正解値とを取得する入力部と、
    前記学習用データに基づいて1または複数の重要領域を推定する重要領域推定部と、
    前記学習用データと前記1または複数の重要領域それぞれを示す情報とに基づいて前記1または複数の重要領域に対してトリミングを行って前記1または複数の重要領域を出力するトリミング処理部と、
    前記1または複数の重要領域と第1のニューラルネットワークとに基づいて特徴量を抽出する特徴抽出部と、
    前記特徴量とプロトタイプとの類似度を算出して出力する類似度算出部と、
    前記類似度に基づいて推論値を出力する推論部と、
    前記正解値に基づいて前記推論値を評価して評価結果を得る評価部と、
    前記評価結果に基づいて、前記第1のニューラルネットワークの重みパラメータと前記プロトタイプとの更新を行う更新部と、
    を備える学習装置として機能させるための学習プログラム。
JP2020004837A 2020-01-16 2020-01-16 学習装置、学習方法および学習プログラム Active JP7210489B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020004837A JP7210489B2 (ja) 2020-01-16 2020-01-16 学習装置、学習方法および学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020004837A JP7210489B2 (ja) 2020-01-16 2020-01-16 学習装置、学習方法および学習プログラム

Publications (2)

Publication Number Publication Date
JP2021111299A JP2021111299A (ja) 2021-08-02
JP7210489B2 true JP7210489B2 (ja) 2023-01-23

Family

ID=77060048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020004837A Active JP7210489B2 (ja) 2020-01-16 2020-01-16 学習装置、学習方法および学習プログラム

Country Status (1)

Country Link
JP (1) JP7210489B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023148914A1 (ja) * 2022-02-04 2023-08-10 三菱電機株式会社 機械学習装置、機械学習システム、機械学習方法、及び機械学習プログラム
JP7313501B1 (ja) 2022-03-03 2023-07-24 ソフトバンク株式会社 画像認識装置、プログラム、画像認識方法、及び機械学習方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6524475B2 (ja) * 2015-01-16 2019-06-05 株式会社レイトロン 画像認識に使用するウィンドウの配置や組合せを、構成情報に従って変化させることができる画像認識装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chaofan Chen et al.,"This Looks Like That: Deep Learning for Interpretable Image Recognition",arXiv,2019年,https://arxiv.org/pdf/1806.10574.pdf
Ramprasaath R.Selvaraju et al.,"Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization,arXiv,2019年,https://arxiv.org/pdf/1610.02391v4.pdf
久保田智規 外2名、「ディープラーニングによる物体検出において正しく検出できない原因を解析する手法の提案」、電子情報通信学会技術研究報告〔人工知能と知識処理〕、Vol.119、No.317、AI2019-30、2019年11月、1~6頁

Also Published As

Publication number Publication date
JP2021111299A (ja) 2021-08-02

Similar Documents

Publication Publication Date Title
JP6522060B2 (ja) オブジェクト認識装置、分類ツリー学習装置及びその動作方法
Luo et al. End-to-end optimization of scene layout
US11763603B2 (en) Physical activity quantification and monitoring
US20190156204A1 (en) Training a neural network model
CN112614213B (zh) 人脸表情确定方法、表情参数确定模型、介质及设备
Jörg et al. Data-driven finger motion synthesis for gesturing characters
JP7210489B2 (ja) 学習装置、学習方法および学習プログラム
JP2020087103A (ja) 学習方法、コンピュータプログラム、分類器、及び生成器
JP6948851B2 (ja) 情報処理装置、情報処理方法
JP5573443B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20230061175A1 (en) Real-Time Simulation of Elastic Body
JP2023527136A (ja) 診断結果を提供するための方法及び装置(method and apparatus for providing diagnosis result)
KR20230121018A (ko) 신경망 모델을 제공하는 방법 및 이를 수행하는 장치
JP2019045929A (ja) 情報処理装置、情報処理方法、及びプログラム
CN109964229A (zh) 用于人脸对准的形状预测
Ankireddy Assistive diagnostic tool for brain tumor detection using computer vision
US20230186092A1 (en) Learning device, learning method, computer program product, and learning system
JP5162512B2 (ja) 多次元時系列データ分析装置及び多次元時系列データ分析プログラム
Sorour et al. A Deep Learning System for Detecting Cardiomegaly Disease Based on CXR Image
JPWO2019207714A1 (ja) 動作推定システム、動作推定方法および動作推定プログラム
CN110348406B (zh) 参数推断方法及装置
JP7107340B2 (ja) 学習装置、学習方法およびプログラム
CN115023742A (zh) 具有详细褶皱的面部网格变形
JP7092228B1 (ja) 学習装置、学習方法およびプログラム
US20240212228A1 (en) Image generating and retrieving apparatus, image generating and retrieving system, and image generating and retrieving method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210824

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211118

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220510

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220711

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20221129

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20230110

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230111

R150 Certificate of patent or registration of utility model

Ref document number: 7210489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150