JP7086878B2

JP7086878B2 - 学習装置、学習方法、プログラムおよび認識装置

Info

Publication number: JP7086878B2
Application number: JP2019028606A
Authority: JP
Inventors: 修平新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2022-06-20
Anticipated expiration: 2039-02-20
Also published as: JP2020135465A

Description

本発明の実施形態は、学習装置、学習方法、プログラムおよび認識装置に関する。

ニューラルネットワークの過学習を抑制する方法として、中間層のノード値の一部をランダムにゼロにしながら最適化する方法、および、入力データの一部をランダムに遮蔽しながら最適化する方法が提案されている。

国際公開第２０１４／１０５８６６号

T. DeVries and G. W. Taylor, "Improved Regularization of Convolutional Neural Networks with Cutout", in arXiv:1708.04552, 2017. Z. Zhong, L. Zheng, G. Kang, S. Li, and Y. Yang, "Random Erasing Data Augmentation", in arXiv:1708.04896, 2017. B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, A. Torralba, "Learning Deep Features for Discriminative Localization", In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2921-2929, 2016.

しかしながら、従来技術では、学習に使用される訓練データによっては、過学習を抑制できない場合があった。例えば、訓練データの個数が少ない場合、および、訓練データが属するドメインが偏っている場合（例えば屋内で撮影した画像しかない場合など）には、認識対象以外の領域（背景など）を学習する過学習を起こす場合があった。

実施形態の学習装置は、取得部と、生成部と、ロス算出部と、学習部と、を備える。取得部は、入力データと、認識対象を表すラベルと、入力データ内の認識対象が含まれる対象領域と、を取得する。生成部は、入力データおよび対象領域に基づいて認識対象の少なくとも一部を含まない第１データを生成する。ロス算出部は、第１データをニューラルネットワークに入力したときのニューラルネットワークの出力に基づく値と、ラベルと、が一致する度合いが小さいほど値が小さくなる第１ロスを算出する。学習部は、第１ロスに基づいてニューラルネットワークを学習する。

第１の実施形態にかかる学習装置のブロック図。第１の実施形態における学習処理のフローチャート。入力画像の一例を示す図。対象領域の指定方法の一例を示す図。劣化画像の一例を示す図。認識対象の一部を含まない画像の一例を示す図。認識対象の一部を含む画像の一例を示す図。第２の実施形態にかかる学習装置のブロック図。第２の実施形態における学習処理のフローチャート。注目度画像の一例を示す図。第３の実施形態にかかる情報処理システムのブロック図。第１～第３の実施形態にかかる装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる学習装置の好適な実施形態を詳細に説明する。

以下では、２次元画像から認識対象を認識するニューラルネットワークを学習する学習装置を例に説明する。より具体的には、入力された画像（２次元画像）を猫または犬のいずれかに分類する２クラスの画像分類問題を例に説明する。適用可能な処理はこれに限られるものではなく、その他の認識処理（分類処理を含む）にも適用できる。例えば、１クラスの分類処理（異常検出など）、または、３クラス以上の分類処理にも適用できる。また、３次元画像を用いた認識、および、音声データからの認識対象（特定の話者など）の認識などにも適用できる。

（第１の実施形態）
第１の実施形態にかかる学習装置は、訓練データとして、入力画像、認識対象を表すラベル（対象ラベル）、および、対象領域を用意し、入力画像から、認識対象を含まない画像と、認識対象を含む画像を生成する。そして本実施形態にかかる学習装置は、認識対象を含まない画像の認識率が低く、認識対象を含む画像の認識率が高いほど値が小さくなるロス関数により、ニューラルネットワークのパラメータを最適化する。対象領域は、入力画像の領域のうち認識対象が含まれる領域を表す。

このような構成により、入力画像中の対象領域から画像特徴を抽出するように最適化することができ、例えば、対象領域以外の情報を学習する過学習を抑制することが可能となる。また、このように学習されたニューラルネットワークを用いれば、認識率を向上させることができる。

図１は、第１の実施形態にかかる学習装置１００を示すブロック図である。学習装置１００は、取得部１０１と、生成部１０２と、ロス算出部１０３と、学習部１０４と、出力制御部１０５と、記憶部１２１と、を備える。

記憶部１２１は、学習装置１００による各種処理に用いる各種データを記憶する。例えば記憶部１２１は、学習するニューラルネットワークを定めるパラメータ、および、学習のための訓練データを記憶する。ニューラルネットワークを定めるパラメータは、例えば重み係数およびバイアスである。

記憶部１２１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

取得部１０１は、学習装置１００による各種処理で用いる各種情報を取得する。例えば取得部１０１は、入力画像（入力データの一例）、認識対象（例えば猫または犬）を表す対象ラベル、および、対象領域を含む訓練データを取得する。取得部１０１が訓練データを取得する方法はどのような方法であってもよい。取得部１０１は、例えば、記憶部１２１に記憶された訓練データを読み出すことにより取得してもよいし、学習装置１００の外部のサーバ装置などから訓練データを受信することにより取得してもよい。

生成部１０２は、入力画像および対象領域に基づいて、学習に用いる画像を生成する。例えば生成部１０２は、入力画像および対象領域を用いて、認識対象の少なくとも一部を含まない画像（以下、画像Ａともいう）を生成する。また生成部１０２は、入力画像および対象領域を用いて、認識対象の少なくとも一部を含む画像（以下、画像Ｂともいう）を生成する。

ロス算出部１０３は、学習に用いるロスを算出する。学習では、ロスを最小化するように、ニューラルネットワークのパラメータが更新される。ロスは、損失または誤差などとも呼ばれる。例えばロス算出部１０３は、画像Ａをニューラルネットワークに入力したときのニューラルネットワークの出力に基づく値と、対象ラベルと、が一致する度合い（尤度）が小さいほど値が小さくなるロス（以下、ロスＡともいう）を算出する。またロス算出部１０３は、画像Ｂをニューラルネットワークに入力したときのニューラルネットワークの出力と、対象ラベルと、が一致する度合いが大きいほど値が小さくなるロス（以下、ロスＢともいう）を算出する。

画像Ａをニューラルネットワークに入力したときのニューラルネットワークの出力に基づく値は、例えば画像Ａをニューラルネットワークに入力したときのニューラルネットワークの出力自体である。この値は、画像Ａをニューラルネットワークに入力したときのニューラルネットワークの出力に対する、画像Ｂをニューラルネットワークに入力したときのニューラルネットワークの出力の相対値であってもよい。各ロスの算出方法の詳細は後述する。

学習部１０４は、ロス算出部１０３により算出されたロスに基づいてニューラルネットワークを学習する。例えば学習部１０４は、ロスＡおよびロスＢの加重和を用いて、誤差逆伝搬法によりニューラルネットワークのパラメータを更新する。学習方法は誤差逆伝播法に限られるものではなく、どのような学習方法であってもよい。

出力制御部１０５は、学習装置１００からの各種情報の出力を制御する。例えば出力制御部１０５は、学習部１０４により学習されたニューラルネットワークのパラメータを出力する。ニューラルネットワークのパラメータは、例えば、学習されたニューラルネットワークを用いて認識処理を実行する認識装置などに出力される。

上記各部（取得部１０１、生成部１０２、ロス算出部１０３、学習部１０４、および、出力制御部１０５）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

次に、このように構成された第１の実施形態にかかる学習装置１００による学習処理について説明する。図２は、第１の実施形態における学習処理の一例を示すフローチャートである。

まず、取得部１０１は、訓練データである入力画像、対象ラベル、および、対象領域を取得する（ステップＳ１０１）。以下では、入力画像をｘ_ｉ（ｉ＝１、２、・・・、Ｎ）、対象ラベルをｔ_ｉ、対象領域をｍ_ｉと表す。なお、ｉは訓練データを識別する識別情報（通し番号など）を表し、Ｎは訓練データの数を表す。

図３は、入力画像の一例を示す図である。入力画像ｘ_ｉは、例えば横幅Ｗ、縦幅Ｈの画素集合であり、Ｗ×Ｈ次元のベクトルとする。図３に示すように、入力画像は、ｘ_ｉ（ｕ，ｖ）と表される。ｕは水平方向の画素位置を表し、ｖは垂直方向の画素位置を表す。

対象ラベルｔ_ｉは、入力画像ｘ_ｉに含まれる認識対象が猫の場合は（１、０）^Ｔ、犬の場合は（０、１）^Ｔで表される２次元ベクトルとする。

図４は、対象領域の指定方法の一例を示す図である。対象領域ｍ_ｉは、入力画像ｘ_ｉ内で認識対象の少なくとも一部が含まれる領域を示す。図４の例では、対象領域ｍ_ｉは、認識対象が含まれる領域が１であり、それ以外の領域が０であるＷ×Ｈ次元のベクトルとする。このように、対象領域ｍ_ｉは、入力画像と同じ次元のベクトルによるマスク画像の形式で指定することができる。

対象領域の指定方法は、マスク画像に限定されず、どのような方法であってもよい。例えば、対象領域を示す矩形の位置情報により指定してもよい。また、例えば認識対象を特徴づける、認識対象の一部（目など）の領域に限定したマスク画像を用いてもよい。また、認識対象であることの度合い（重要度）を０～１の範囲の実数で指定する画像データでもよい。

入力データが音声データ（時系列データ）の場合、認識対象の音声が出力された時間、音声データを構成する複数のチャネルのうち認識対象の音声が出力されたチャネル、および、認識対象の音声に対応する周波数などを、対象領域として指定してもよい。

図２に戻り、生成部１０２は、入力画像を入力として、認識対象を含まない画像Ａと、認識対象を含む画像Ｂと、を生成する（ステップＳ１０２）。以下では、認識対象を含む、または、認識対象を含まないようにするために用いる画像である劣化画像をｚ、画像Ａをｘ_Ａｉ、画像Ｂをｘ_Ｂｉと表す。図５～図７は、それぞれ、劣化画像ｚ、画像Ａ、および、画像Ｂの一例を示す図である。

図５に示す劣化画像ｚは、対象領域、または、対象領域以外の領域を区別するための画素値を含む画像であり、Ｗ×Ｈ次元のベクトルとする。劣化画像は、例えば、灰色の画素値を含む灰色画像であるがこれに限られるものではない。例えば劣化画像は、データごと、または、画素ごとに乱数を用いて生成した画素値を含む画像でもよい。また劣化画像は、画像ごとの画素値の平均値を含む画像でもよい。

図６および図７は、それぞれ、入力画像と劣化画像とから生成される画像Ａおよび画像Ｂの例を示す。生成部１０２は、例えば、図６および図７の画像の下に示した式に基づいて、画像Ａおよび画像Ｂを生成する。図６および図７の例では、生成部１０２は、入力画像ｘ_ｉおよび劣化画像ｚを、対象領域ｍ_ｉに基づくアルファブレンディングすることにより、画像Ａおよび画像Ｂを生成する。なお丸の中に点を記載した記号は、アダマール積を表す。

生成部１０２は、劣化画像を用いずに画像Ａおよび画像Ｂを生成してもよい。例えば生成部１０２は、入力画像ｘ_ｉの階調を圧縮する、入力画像ｘ_ｉにノイズを重量する、および、入力画像ｘ_ｉを平滑化する、などように、入力画像ｘ_ｉの視認性を低下させる方法により画像Ａおよび画像Ｂを生成してもよい。また生成部１０２は、入力画像を画素単位で劣化させた画素値を算出することにより画像Ａおよび画像Ｂを生成してもよい。

図２に戻り、学習部１０４は、画像ｘ_Ａｉをニューラルネットワークに入力し、この入力に対するニューラルネットワークの出力ｙ_Ａｉを取得する（ステップＳ１０３）。出力ｙ_Ａｉは、以下の（１）式により表される。
ｙ_Ａｉ＝ｆ（ｘ_Ａｉ）・・・（１）

ｆは、ニューラルネットワークによる処理を表す関数である。例えば関数ｆは、畳み込み層、全結合層、正規化層、および、プーリング層などの複数の層の処理を繰り返し、対象ラベルｔ_ｉと同じ次元数の２次元ベクトルを出力する。なお、関数ｆの出力ベクトルは、ソフトマックス処理後の値であって、すべて要素が非負の値であり、かつ、要素の総和が１に正規化されているものとする。

同様に、学習部１０４は、画像ｘ_Ｂｉをニューラルネットワークに入力し、この入力に対するニューラルネットワークの出力ｙ_Ｂｉを取得する（ステップＳ１０４）。出力ｙ_Ｂｉは、以下の（２）式により表される。
ｙ_Ｂｉ＝ｆ（ｘ_Ｂｉ）・・・（２）

次に、ロス算出部１０３は、対象ラベルｔ_ｉと、出力ｙ_Ａｉとに基づいて、対象ラベルｔ_ｉと出力ｙ_Ａｉとが一致する度合いが小さいほど値が小さくなるようにロスＡを算出する（ステップＳ１０５）。例えばロス算出部１０３は、以下の（３）式によりロスＡ（Ｌ_Ａ）を算出する。なお記号「・」はベクトルの内積を表す。
Ｌ_Ａ＝Σｉ（ｔ_ｉ ^Ｔ・ｙ_Ａｉ）・・・（３）

上記のように、ロス算出部１０３は、出力ｙ_Ａｉに対する出力ｙ_Ｂｉの相対値を用いてロスＡを算出してもよい。この場合、ロスＡは、例えば以下の（４）式により算出される。
Ｌ_Ａ＝Σｉ（ｅｘｐ（－（ｔ_ｉ・（ｙ_Ｂｉ－ｙ_Ａｉ））））・・・（４）

また、ロス算出部１０３は、対象ラベルｔ_ｉと、出力ｙ_Ｂｉとに基づいて、対象ラベルｔ_ｉと出力ｙ_Ｂｉとが一致する度合いが大きいほど値が小さくなるようにロスＢ（Ｌ_Ｂ）を算出する（ステップＳ１０６）。例えばロス算出部１０３は、以下の（５）式によりロスＢ（Ｌ_Ｂ）を算出する。
Ｌ_Ｂ＝－Σｉ（ｔ_ｉ ^Ｔｌｎ（ｙ_Ａｉ））・・・（５）

次に、学習部１０４は、ロスＡ（Ｌ_Ａ）、ロスＢ（Ｌ_Ｂ）の加重和を最小化するように、誤差逆伝搬法などの方法によりニューラルネットワークのパラメータ（重み係数、バイアスなど）の値を更新する（ステップＳ１０７）。

次に、学習部１０４は、学習が終了したか否かを判定する（ステップＳ１０８）。学習部１０４は、例えば、すべての訓練データを処理したか、または、学習の回数が上限値に達したか否か、などにより、学習の終了を判定する。

学習が終了していない場合（ステップＳ１０８：Ｎｏ）、ステップＳ１０１に戻り、新たな訓練データに対して処理が繰り返される。学習が終了したと判定された場合（ステップＳ１０８：Ｙｅｓ）、学習処理を終了する。

以上のように、本実施形態では、対象領域が含まれる画像が入力された場合には認識率が上がり、対象領域が含まれない場合に認識率が下がるように学習が実行される。これにより、例えば、猫の訓練データが屋外で撮影された画像のみであり、犬の訓練データが屋内で撮影された画像のみであるといったように、訓練データが属するドメインが偏っている場合でも、背景の特徴を基に推論する過学習などの引き起こすことなく、適切に対象の画像特徴を獲得するようにニューラルネットワークを学習することができる。

（第２の実施形態）
第２の実施形態にかかる学習装置は、ニューラルネットワークによる認識に寄与した領域を示すデータ（注目度データ）を用いて学習を行う。

図８は、第２の実施形態にかかる学習装置１００－２の構成の一例を示すブロック図である。図８に示すように、学習装置１００－２は、取得部１０１と、生成部１０２－２と、ロス算出部１０３－２と、学習部１０４－２と、出力制御部１０５と、記憶部１２１と、を備える。

第２の実施形態では、生成部１０２－２、ロス算出部１０３－２、および、学習部１０４－２の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる学習装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

生成部１０２－２は、入力画像をニューラルネットワークに入力したときの入力画像の認識に寄与した領域を示す注目度画像を生成する。注目度画像は、領域（画素など）ごとの認識時に注目（着眼）した度合い（注目度）を示す画像と解釈することができる。注目度画像は、顕著性マップ（ｓａｌｉｅｎｃｙｍａｐ）などと呼ばれる場合がある。注目度画像の生成方法の詳細は後述する。

ロス算出部１０３－２は、注目度画像と対象領域との誤差が小さいほど値が小さくなるロス（以下、ロスＣともいう）を算出する。また、ロス算出部１０３－２は、入力画像をニューラルネットワークに入力したときのニューラルネットワークの出力と、対象ラベルと、が一致する度合いが大きいほど値が小さくなるロス（以下、ロスＤともいう）を算出する。

学習部１０４－２は、ロス算出部１０３－２により算出されたロスに基づいてニューラルネットワークを学習する。例えば学習部１０４－２は、ロスＣおよびロスＤの加重和を用いて、誤差逆伝搬法などの方法によりニューラルネットワークのパラメータを更新する。

次に、このように構成された第２の実施形態にかかる学習装置１００－２による学習処理について図９を用いて説明する。図９は、第２の実施形態における学習処理の一例を示すフローチャートである。

まず、取得部１０１は、訓練データである入力画像、対象ラベル、および、対象領域を取得する（ステップＳ２０１）。

次に、学習部１０４－２は、入力画像ｘ_ｉをニューラルネットワークに入力し、この入力に対するニューラルネットワークの出力ｙ_Ｄｉを取得する（ステップＳ２０２）。出力ｙ_Ｄｉは、以下の（６）式により表される。
ｙ_Ｄｉ＝ｆ（ｘ_ｉ）・・・（６）

次に、ロス算出部１０３－２は、対象ラベルｔ_ｉと、出力ｙ_Ｄｉに基づいて、対象ラベルｔ_ｉと出力ｙ_Ｄｉとが一致する度合いが大きいほど値が小さくなるようにロスＤ（Ｌ_Ｄ）を算出する（ステップＳ２０３）。例えばロス算出部１０３－２は、以下の（７）式によりロスＤ（Ｌ_Ｄ）を算出する。
Ｌ_Ｄ＝－Σｉ（ｔ_ｉ ^Ｔｌｎ（ｙ_Ｄｉ））・・・（７）

一方、生成部１０２－２は、ニューラルネットワークの中間画像およびパラメータ（重み係数）などに基づいて注目度画像を生成する（ステップＳ２０４）。注目度画像ｓ_ｉは、例えば以下の（８）式により生成される。
ｓ_ｉ＝ｇ（ｗ、ｘ_ｉ、ｔ_ｉ）・・・（８）

ｇは、ニューラルネットワークの重み係数およびバイアスなどのパラメータ集合ｗ、入力画像ｘ_ｉ、および、対象ラベルｔ_ｉに基づいて注目度画像を出力する関数である。注目度画像は、例えば非特許文献３に示されるクラス・アクティベーション・マッピング（Class Activation Mapping）などを用いることができる。クラス・アクティベーション・マッピングを用いる場合は、入力画像ｘ_ｉを推論したときのニューラルネットワークの中間画像を、対象ラベルｔ_ｉに関連する重み係数の値で線形合成する関数が、関数ｇとして使用して生成できる。中間画像は、ニューラルネットワークの中間層の出力に相当する画像である。

図１０は、注目度画像の一例を示す図である。図１０に示す注目度画像は、画素値が白に近いほど、認識時の注目度が大きいことを示す注目度画像の例である。

このように、注目度画像は、入力画像をニューラルネットワークに入力したときの入力画像の認識に寄与した領域を示す画像である。認識に寄与した領域は、例えば、その領域の値が変わることによる認識結果への影響が大きい領域、出力のうち活性がある部分からニューラルネットワークの経路を逆にたどって得られる領域、などを含む。

次に、ロス算出部１０３－２は、対象領域ｍ_ｉと、注目度画像ｓ_ｉとの誤差が小さいほど値が小さくなるようにロスＣ（Ｌ_Ｃ）を算出する（ステップＳ２０５）。例えばロス算出部１０３－２は、以下の（９）式によりロスＣ（Ｌ_Ｃ）を算出する。
Ｌ_Ｃ＝Σｉ（ｄ（ｍ_ｉ、ｓ_ｉ））・・・（９）

ｄは画像間の誤差が小さいほど小さい値を出力する関数であり、例えば、要素の二乗誤差総和、および、正規化相互相関などにより実現できる。

次に、学習部１０４－２は、ロスＣ（Ｌ_Ｃ）およびロスＤ（Ｌ_Ｄ）の加重和を最小化するように、誤差逆伝搬法などの方法によりニューラルネットワークのパラメータ（重み係数、バイアスなど）の値を更新する（ステップＳ２０６）。

ステップＳ２０７は、第１の実施形態のステップＳ１０８と同様であるため説明を省略する。

以上のように、本実施形態では、入力画像に対する認識に寄与した領域（注目度データ）が対象領域と一致するように学習が実行される。これにより、背景の特徴を基に推論する過学習などの引き起こすことなく、適切に対象の画像特徴を獲得するようにニューラルネットワーを学習することができる。

（変形例１）
第１の実施形態で用いるロスは、上記に限られるものではない。例えば、ロスＡのみを用いて学習が実行されてもよい。また、ロスＢの代わりに第２の実施形態で用いたロスＣまたはロスＤを用いてもよい。すなわち、ロスＡとロスＣとの組み合わせ、または、ロスＡとロスＤとの組み合わせを用いて学習が実行されてもよい。さらに、ロスＡ、ロスＢ、および、ロスＣの組み合わせ、ロスＡ、ロスＤ、および、ロスＣの組み合わせ、または、ロスＡ、ロスＢ、ロスＣ、および、ロスＤの組み合わせを用いて学習が実行されてもよい。

（変形例２）
第２の実施形態で用いるロスは、上記に限られるものではない。例えば、ロスＣのみを用いて学習が実行されてもよい。また、ロスＤの代わりに第１の実施形態で用いたロスＢを用いてもよい。すなわち、ロスＣとロスＢとを用いて学習が実行されてもよい。また、ロスＣ、ロスＢ、および、ロスＤの組み合わせを用いて学習が実行されてもよい。

（変形例３）
上記実施形態では、対象領域を含む訓練データを使用する。すべての訓練データについて対象領域を指定できない場合は、一部の訓練データについて対象領域を指定し、対象領域が指定された訓練データのみに対して上記実施形態の手法を適用してもよい。

例えば、入力画像および対象ラベルはすべての訓練データで保持され、対象領域は訓練データの一部で保持される。この場合、ロスＤはすべての訓練データで算出することができる。ロスＡ、ロスＢ、および、ロスＣは、対象領域が付与されている一部の訓練データでのみ算出することができる。

（変形例４）
変形例３のように対象領域が指定されていない訓練データが存在する場合に、対象領域を指定させるための情報を提示する機能を備えるように構成してもよい。例えば学習装置は、ニューラルネットワークの学習を終えた後、対象領域が付与されていない訓練データについて、入力画像、対象ラベル、注目度画像、および、ニューラルネットワークの出力などの情報を学習装置の操作者に提示する。操作者は、提示された情報を参照して、対象領域を指定することができる。学習装置は、このようにして対象領域が新たに指定された訓練データを用いて、再度学習を実行することができる。このような構成により、効率的に訓練データを拡張し、ニューラルネットワークの認識率を向上させることができる。

（第３の実施形態）
第３の実施形態では、第１の実施形態の学習装置１００で学習したニューラルネットワークを用いて認識処理を実行する認識装置を備える情報処理システムについて説明する。

図１１は、第３の実施形態にかかる情報処理システムの構成の一例を示すブロック図である。図１１に示すように、情報処理システムは、学習装置１００と、認識装置２００と、がネットワーク３００により接続された構成となっている。

ネットワーク３００は、インターネットなどであるが、その他のどのような形態のネットワークであってもよい。例えば、ネットワーク３００は、有線ネットワークおよび無線ネットワークのいずれであってもよい。

学習装置１００は、第１の実施形態と同様の機能を備えるため、同一の符号を付し説明を省略する。なお、第１の実施形態の学習装置１００の代わりに、第２の実施形態の学習装置１００－２、または、上記各変形例の学習装置を適用することもできる。

認識装置２００は、通信制御部２０１と、取得部２０２と、認識部２０３と、出力制御部２０４と、記憶部２２１と、を備えている。

記憶部２２１は、認識装置２００で実行される各種処理で用いる各種データを記憶する。例えば記憶部２２１は、学習装置１００から送信されたニューラルネットワークのパラメータを記憶する。記憶部２２１は、フラッシュメモリ、メモリカード、ＲＡＭ、ＨＤＤ、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

通信制御部２０１は、学習装置１００などの外部装置との間の通信を制御する。例えば通信制御部２０１は、学習装置１００から、学習済みのニューラルネットワークを定めるパラメータの情報などを受信する。

取得部２０２は、認識装置２００による各種処理に用いる各種データを取得する。例えば取得部２０２は、認識処理の対象となる入力データ（画像など）を取得する。

認識部２０３は、取得された画像をニューラルネットワークに入力することにより、画像を認識する。

出力制御部２０４は、認識装置２００からの各種情報の出力を制御する。例えば出力制御部２０４は、認識部２０３による認識結果を出力する。出力方法は、どのような方法であってもよいが、例えば、表示装置に表示する方法、外部のサーバ装置などに送信する方法などを用いることができる。

なお、図１１に示す情報処理システムの構成は一例であり、これに限られるものではない。例えば、認識装置２００の各部と学習装置１００の各部とを１つの装置（認識装置）内に備える構成としてもよい。この場合、共通化できる機能（例えば、取得部１０１と取得部２０２、記憶部１２１と記憶部２２１）は共通化してもよい。また認識装置２００は、物理的に１つの装置によって構成されてもよいし、物理的に複数の装置によって構成されてもよい。例えば認識装置２００は、クラウド環境上で構築されてもよい。

認識処理は、どのようなデータを用いて、どのような対象を認識する処理であってもよい。例えば認識処理は、会議室内で集音された音声から、特定の話者の音声を認識する処理であってもよい。また認識処理は、撮像装置（カメラ）により撮影された画像から、撮影した対象物の異常を検出（認識）する処理であってもよい。このような認識処理は、例えば、工場内の機器を画像により外観検査し異常を検出する処理、および、医療用画像から異常（患部）を検出する処理などに適用できる。なお、このように画像から異常を検出（認識）する処理は、異常を示す訓練データを多数準備できない場合がある。本実施形態を適用すれば、訓練データの個数が少ない場合、および、訓練データが属するドメインが偏っている場合などであっても過学習を抑制できる。従って、認識処理の精度を向上させることができる。

以上説明したとおり、第１～第３の実施形態によれば、認識対象を含む対象領域以外の情報を学習する過学習を抑制することが可能となる。

次に、第１～第３の実施形態にかかる各装置（学習装置、認識装置）のハードウェア構成について図１２を用いて説明する。図１２は、第１～第３の実施形態にかかる装置のハードウェア構成例を示す説明図である。

第１～第３の実施形態にかかる装置は、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１～第３の実施形態にかかる装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１～第３の実施形態にかかる装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１～第３の実施形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１～第３の実施形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１～第３の実施形態にかかる装置で実行されるプログラムは、コンピュータを上述した学習装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、１００－２学習装置
１０１取得部
１０２、１０２－２生成部
１０３、１０３－２ロス算出部
１０４、１０４－２学習部
１０５出力制御部
１２１記憶部
２００認識装置
２０１通信制御部
２０２取得部
２０３認識部
２０４出力制御部
２２１記憶部
３００ネットワーク

Claims

入力データと、認識対象を表すラベルと、前記入力データ内の前記認識対象が含まれる対象領域と、を取得する取得部と、
前記入力データおよび前記対象領域に基づいて、前記認識対象の少なくとも一部を含まない第１データを生成する生成部と、
前記第１データをニューラルネットワークに入力したときの前記ニューラルネットワークの出力に基づく値と、前記ラベルと、が一致する度合いが小さいほど値が小さくなる第１ロスを算出するロス算出部と、
前記第１ロスに基づいて前記ニューラルネットワークを学習する学習部と、
を備える学習装置。
前記生成部は、さらに、前記認識対象の少なくとも一部を含み、前記第１データとは異なる第２データを生成し、
前記ロス算出部は、さらに、前記第２データを前記ニューラルネットワークに入力したときの前記ニューラルネットワークの出力と、前記ラベルと、が一致する度合いが大きいほど値が小さくなる第２ロスを算出し、
前記学習部は、前記第１ロスおよび前記第２ロスに基づいて前記ニューラルネットワークを学習する、
請求項１に記載の学習装置。
前記ロス算出部は、前記第１データをニューラルネットワークに入力したときの前記ニューラルネットワークの第１出力に対する、前記第２データを前記ニューラルネットワークに入力したときの前記ニューラルネットワークの第２出力の相対値と、前記ラベルと、が一致する度合いが小さいほど値が小さくなる第１ロスを算出する、
請求項２に記載の学習装置。
前記ロス算出部は、さらに、前記入力データを前記ニューラルネットワークに入力したときの前記ニューラルネットワークの出力と、前記ラベルと、が一致する度合いが大きいほど値が小さくなる第２ロスを算出し、
前記学習部は、前記第１ロスおよび前記第２ロスに基づいて前記ニューラルネットワークを学習する、
請求項１に記載の学習装置。
前記生成部は、さらに、前記入力データをニューラルネットワークに入力したときの前記入力データの認識に寄与した領域を示す注目度データを生成し、
前記ロス算出部は、さらに、前記注目度データと前記対象領域との誤差が小さいほど値が小さくなる第２ロスを算出し、
前記学習部は、前記第１ロスおよび前記第２ロスに基づいて前記ニューラルネットワークを学習する、
請求項１に記載の学習装置。
前記ロス算出部は、さらに、前記入力データを前記ニューラルネットワークに入力したときの前記ニューラルネットワークの出力と、前記ラベルと、が一致する度合いが大きいほど値が小さくなる第３ロスを算出し、
前記学習部は、前記第１ロス、前記第２ロスおよび前記第３ロスに基づいて前記ニューラルネットワークを学習する、
請求項５に記載の学習装置。
前記生成部は、さらに、前記認識対象の少なくとも一部を含む第２データを生成し、
前記ロス算出部は、さらに、前記第２データを前記ニューラルネットワークに入力したときの前記ニューラルネットワークの出力と、前記ラベルと、が一致する度合いが大きいほど値が小さくなる第３ロスを算出し、
前記学習部は、前記第１ロス、前記第２ロスおよび前記第３ロスに基づいて前記ニューラルネットワークを学習する、
請求項５に記載の学習装置。
学習装置が備えるコンピュータで実行される学習方法であって、
前記コンピュータが、入力データと、認識対象を表すラベルと、前記入力データ内の前記認識対象が含まれる対象領域と、を取得する取得ステップと、
前記コンピュータが、前記入力データおよび前記対象領域に基づいて、前記認識対象の少なくとも一部を含まない第１データを生成する生成ステップと、
前記コンピュータが、前記第１データをニューラルネットワークに入力したときの前記ニューラルネットワークの出力に基づく値と、前記ラベルと、が一致する度合いが小さいほど値が小さくなる第１ロスを算出するロス算出ステップと、
前記コンピュータが、前記第１ロスに基づいて前記ニューラルネットワークを学習する学習ステップと、
を含む学習方法。
コンピュータを、
入力データと、認識対象を表すラベルと、前記入力データ内の前記認識対象が含まれる対象領域と、を取得する取得部と、
前記入力データおよび前記対象領域に基づいて、前記認識対象の少なくとも一部を含まない第１データを生成する生成部と、
前記第１データをニューラルネットワークに入力したときの前記ニューラルネットワークの出力に基づく値と、前記ラベルと、が一致する度合いが小さいほど値が小さくなる第１ロスを算出するロス算出部と、
前記第１ロスに基づいて前記ニューラルネットワークを学習する学習部と、
として機能させるためのプログラム。
請求項１に記載の学習装置により学習された前記ニューラルネットワークを用いて、入力データの認識を実行する認識部と、
前記認識部による認識結果を出力する出力制御部と、
を備える認識装置。