JP2020181265A

JP2020181265A - 情報処理装置、システム、情報処理方法及びプログラム

Info

Publication number: JP2020181265A
Application number: JP2019082190A
Authority: JP
Inventors: 貝塚　洋; Hiroshi Kaizuka; 洋貝塚
Original assignee: Texeng Solution Corp; NS Solutions Corp
Current assignee: Texeng Solution Corp; NS Solutions Corp
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2020-11-05

Abstract

【課題】より適切に情報変換器を学習することを目的とする。【解決手段】入力画像と情報変換器とに基づいて、入力画像に設定された複数の領域それぞれについて、情報変換器から出力される出力データに対する影響の度合を取得し、取得された度合のうち、最も小さいものから順に選択された１つ以上の度合であって、合計が設定された閾値未満となる１つ以上の度合それぞれに対応する１つ以上の領域を特定し、入力画像における特定された１つ以上の領域に含まれる領域を、入力画像と異なる画像に置換することで、マスク画像を生成し、入力画像の入力に応じて情報変換器から出力される出力データと、生成されたマスク画像の入力に応じて情報変換器から出力される出力データと、の距離に関する学習指標と、入力画像と、マスク画像と、に基づいて、情報変換器を学習する。【選択図】図４

Description

本発明は、情報処理装置、システム、情報処理方法及びプログラムに関する。

画像分類問題を解決するための認識器の学習を行う場合、その課題に関連する画像群が学習データとして用いられる。その際、画像にラベル（画像が属するクラスを示すデータ）を人手で付与する作業に手間がかかるため、ラベル付きデータに比べて、ラベルなしデータが大量に存在するという状況が起こりうる。そこで、大量に存在するラベルなしデータを活用できるように、ラベルを用いずに学習を行う手法が提案されている。
ラベルを用いずに、学習を行う手法として、ｃｏｎｓｉｓｔｅｎｃｙｒｅｇｕｌａｒｉｚａｔｉｏｎがある。その中の１つの手法として、入力データと入力データに微小な摂動を加えた摂動データとの２つのデータを利用する手法がある。

この手法について説明する。まず、入力データｘに対して、微少量ε（例えば、０．０１）と、ｘの長さ｜｜ｘ｜｜と、単位長さの摂動量ｄと、から求まるε・｜｜ｘ｜｜・ｄなる摂動量を求める。そして、摂動量をｘに加えてｘ＋ε・｜｜ｘ｜｜・ｄなる摂動データｘ’を生成する。この場合、事後確率分布ｐ（ｘ；θ）と事後確率分布ｐ（ｘ’；θ）との距離を示す関数をＤ（ｐ（ｘ；θ）、ｐ（ｘ’；θ））とおくと、Ｄ（ｐ（ｘ；θ）、ｐ（ｘ’；θ））の値は、微小となると仮定できる。微小量の変動を加えても、入力データｘのクラスに変化が生じるとは考えにくいためである。
したがって、処理時点における認識器の重みパラメータを、θ_kとすると、Ｄ（ｐ（ｘ；θ_k）、ｐ（ｘ’；θ_k＋Δθ））の値ができるだけ小さくなるように、Δθを決定する。そして、θ_k＋Δθを、学習された認識器の重みパラメータとして決定する。関数Ｄ（ｐ（ｘ；θ）、ｐ（ｘ’；θ））としては、ユークリッド距離やＫｕｌｌｂａｃｈ−Ｌｅｉｂｌｅｒダイバージェンス等を採用することができる。

非特許文献１には、この手法の一例として、ＶｉｒｔｕａｌＡｄｖｅｒｓａｒｉａｌＴｒａｉｎｉｎｇ（ＶＡＴ）が開示されている。ＶＡＴでは、距離Ｄ（ｐ（ｘ；θ_k）、ｐ（ｘ＋ｄ’；θ_k））が一番変化する方向ｄ’を求め、ｄ’を正規化することで単位長さの摂動量ｄを求める。こうすることで、処理点での情報変換器が出力する事後確率分布が最も変化する摂動データｘ’＝ｘ＋ε・｜｜ｘ｜｜・ｄを生成する。そして、距離Ｄ（ｐ（ｘ；θ_k）、ｐ（ｘ’；θ_k＋Δθ））ができるだけ小さくなるようにΔθを決定することで、認識器が保有する一番の弱点を効率的に修正することができる。この工夫によって、ＶＡＴは、高度な汎化性能を有する情報変換器を実現している。

ＴａｋｅｒｕＭｉｙａｔｏ、Ｓｈｉｎ−ｉｃｈｉＭａｅｄａ、ＭａｓａｎｏｒｉＫｏｙａｍａ、ａｎｄＳｈｉｎＩｓｈｉｉ．Ｖｉｒｔｕａｌａｄｖｅｒｓａｒｉａｌｔｒａｉｎｉｎｇ：ａｒｅｇｕｌａｒｉｚａｔｉｏｎｍｅｔｈｏｄｆｏｒｓｕｐｅｒｖｉｓｅｄａｎｄｓｅｍｉ−ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０４．０３９７６、２０１７．

画像のクラス分類において、入力画像内の背景部分、入力画像内のオブジェクトにおける特徴のない部分等については、クラス分類に対する影響が軽微であるはずである。そのため、画像のクラス分類を行う情報変換器は、このような領域の影響を極力受けない出力データを出力できるようになるのが望ましい。しかし、ＶＡＴ等の従来技術では、そのように情報変換器を学習することができず、情報変換器の学習の精度に限界があった。
そこで、本発明は、より適切に情報変換器を学習することを目的とする。

そこで、本発明の情報処理装置は、入力画像と情報変換器とに基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得手段と、前記取得手段により前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された１つ以上の度合であって、前記１つ以上の度合の合計が設定された閾値未満となる前記１つ以上の度合それぞれに対応する１つ以上の領域を特定する特定手段と、前記入力画像における前記特定手段により特定された前記１つ以上の領域に含まれる領域を、前記入力画像と異なる画像に変換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成手段と、予め定められた第１の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成手段により生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第１の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習手段と、を有する。

本発明によれば、より適切に情報変換器を学習することができる。

図１は、学習対象の認識器の一例を示す図である。図２は、情報処理装置のハードウェア構成の一例を示す図である。図３は、情報処理装置の機能構成の一例を示す図である。図４は、情報処理装置の処理の一例を示すフローチャートである。図５は、マスク画像の一例を説明する図である。

以下、本発明の実施形態について図面に基づいて説明する。
＜実施形態１＞
（本実施形態の処理の概要）
本実施形態における情報処理装置２００は、認識器１００を機械学習する。
図１を用いて、本実施形態の学習対象となる認識器１００について説明する。認識器１００は、入力されたデータが、Ｋ個のクラスそれぞれに属する確率を、事後確率分布として出力する情報変換器である。以下では、このＫ個のクラスを、クラス１〜クラスＫとする。本実施形態では、Ｋは、１以上の整数である。本実施形態では、認識器１００は、画像データを入力データとして受けつける。本実施形態では、クラス１〜クラスＫそれぞれは、入力データが何のオブジェクト（例えば、犬、猫、熊、人、車等）の画像であるかを示すクラスである。何等かのオブジェクトが撮影された画像データと、そのオブジェクトに対応するクラスと、には相関があるとみなすことができる。

認識器１００は、識別器１０１を含む。識別器１０１は、入力された画像データに基づいて、入力データがクラス１〜クラスＫそれぞれに属する確からしさの度合を示す識別量（Ｋ次元ベクトル）を出力する。認識器１００は、ソフトマックス関数を用いて、識別器１０１により出力された識別量を、入力されたデータがクラス１〜クラスＫそれぞれに属する確率を示す事後確率分布に変換し、出力する。本実施形態では、識別器１０１の重みパラメータをθとすると、認識器１００から出力される事後確率分布をｐ（ｘ；θ）と表す。また、ｐ（ｘ；θ）が示に示される事後確率であって、ｘがクラスｎ（ｎ：１以上Ｋ以下の任意の整数）に属する事後確率を、ｐ_n（ｘ；θ）と表す。
情報変換器の学習とは、学習用のデータを用いて、予め定められた指標に基づいて、情報変換器の重みパラメータを更新することである。以下では、認識器１００の学習に用いられるデータを学習データとする。学習データには、ラベル付きデータ、ラベルなしデータがある。本実施形態では、学習データは、それぞれ、何等かのオブジェクトが撮影された画像データであって、サイズがＮｒ×Ｎｃであり、チャネル数がＮｄである画像データであるとする。本実施形態では、Ｎｒ＝Ｎｃ＝３２である。また、本実施形態では、Ｎｄ＝３である。

本実施形態では、情報処理装置２００は、認識器１００に対して半教師あり学習を行う。より具体的には、情報処理装置２００は、学習データのうちラベル付きデータと、そのラベルデータと、を用いて、認識器１００の学習を行い、更に、ラベルデータを用いずに、認識器１００の学習を行う。半教師あり学習とは、ラベル付きデータとラベルなしデータとの双方を用いた学習である。また、教師あり学習とは、ラベル付きデータを用いて、ラベルなしデータを用いない学習である。
以下では、ラベル付きデータに対応付けられたラベルデータを用いた学習を、ラベル有り学習とする。また、以下では、以下では、ラベル付きデータに対応付けられたラベルデータを用いない学習を、ラベルなし学習とする。

本実施形態における情報処理装置２００が行う認識器１００のラベルなし学習の概要を説明する。
情報処理装置２００は、学習データ内に設定された複数の領域それぞれについて、認識器１００の出力データに対する影響の度合を求める。そして、情報処理装置２００は、求めた度合に基づいて、学習データ内におけるクラス分類に対する影響が軽微であるため、画像分類にとっては重要でない領域を特定する。情報処理装置２００は、学習データにおける特定した領域を、学習データと異なる画像に置換し、マスク画像を生成する。そして、情報処理装置２００は、学習データの入力に応じて認識器１００に出力される出力データと、マスク画像の入力に応じて認識器１００から出力される出力データと、の距離が極力小さくなるように、認識器１００を学習する。
以上が、本実施形態の情報処理装置２００が行うラベルなし学習の概要である。このような処理により、情報処理装置２００は、入力データ内の重要でない領域の影響をより受けにくい認識器１００を学習できる。

（情報処理装置の詳細）
図２は、情報処理装置２００のハードウェア構成の一例を示す図である。情報処理装置２００は、例えば、パーソナルコンピュータ（ＰＣ）、サーバ装置、タブレット装置等である。
情報処理装置２００は、ＣＰＵ２０１、主記憶装置２０２、補助記憶装置２０３、入出力Ｉ／Ｆ２０４、ネットワークＩ／Ｆ２０５を含む。各要素は、システムバス２０６を介して相互に通信可能に接続されている。

ＣＰＵ２０１は、情報処理装置２００を制御する中央演算装置である。主記憶装置２０２は、ＣＰＵ２０１のワークエリアやデータの一時的な記憶領域として機能するＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）等の記憶装置である。補助記憶装置２０３は、各種プログラム、各種設定情報、学習データの集合（ラベル付きデータ及びラベルなしデータ）、情報変換器の情報等を記憶する記憶装置である。補助記憶装置２０３は、例えば、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、フラッシュメモリ等である。
以下では、補助記憶装置２０３に記憶された学習データの集合を、学習データ群とする。また、本実施形態では、学習データ群に含まれる学習データそれぞれは、予め定められた前処理（例えば、スムージング、エッジ処理等）が施された画像であるとする。ただし、他の例として、学習データ群に含まれる学習データそれぞれは、前処理が施されていない画像であるとしてもよい。

入出力Ｉ／Ｆ２０４は、マウス、キーボード、タッチパネル等の入力装置やモニタ、タッチパネルの表示部、スピーカ等の出力装置との接続に用いられるインターフェースである。ＣＰＵ２０１は、入出力Ｉ／Ｆ２０４を介して、入力装置を用いて入力される情報を受付ける。また、ＣＰＵ２０１は、入出力Ｉ／Ｆ２０４を介して、出力装置に対して情報を出力する。ネットワークＩ／Ｆ２０５は、ネットワークを介した外部の装置との間の通信に用いられるインターフェースである。ＣＰＵ２０１は、ネットワークＩ／Ｆ２０５を介して、外部の装置との間で通信を行う。
ＣＰＵ２０１が、補助記憶装置２０３に記憶されたプログラムにしたがって処理を実行することで、図３で後述する情報処理装置２００の機能、図４で後述するフローチャートの処理等が実現される。

図３は、情報処理装置２００の機能構成の一例を示す図である。
情報処理装置２００は、取得部３００、特定部３０１、生成部３０２、学習部３０３を含む。
取得部３００は、認識器１００の学習に用いられる学習データ等を取得する。
特定部３０１は、画像である学習データ内において認識器１００からの出力に対して影響が軽微である領域を、マスク対象の領域として特定する。

生成部３０２は、学習データ内における特定部３０１により特定された領域を、学習データと異なる画像で置換することで、マスク画像を生成する。
学習部３０３は、生成部３０２により生成されたマスク画像に基づいて、認識器１００に対してラベルなし学習を行う。また、学習部３０３は、ラベル付きデータと、ラベル付きデータに対応するラベルデータと、を用いて、認識器１００に対してラベルあり学習を行う。

（情報処理装置の処理の詳細）
本実施形態における情報処理装置２００が行う認識器１００の半教師あり学習の処理を説明する。即ち、情報処理装置２００は、補助記憶装置２０３に記憶された学習データ群から、予め定められた数のラベル付きデータとラベルなしデータとをランダムに選択し、選択した学習データを、ミニバッチとして取得する。情報処理装置２００は、取得したミニバッチを用いて、認識器１００に対して半教師あり学習を行う。以下では、１つのミニバッチを用いて行われる学習を、１ステップの学習とする。
以下では、ｋ（１以上の任意の整数）＋１ステップ目の学習の処理について説明する。即ち、前提として、ｋステップ目までの学習が完了している。以下では、ｋステップ目までの学習が完了している場合の認識器１００のパラメータを、θ_kとおく。

ミニバッチの取得処理について説明する。
取得部３００は、認識器１００の１ステップの学習を開始する前に、補助記憶装置２０３に記憶された学習データ群からラベル付きデータとラベルなしデータとをそれぞれ予め定められた数だけランダムに選択し、選択した学習データをミニバッチとして取得する。以下では、取得部３００により取得されたミニバッチに含まれる学習データ全体を、Ｘ^mbとおく。また、以下では、Ｘ^mbに含まれるラベル付きデータ全体を、Ｘ^mb _labelとおく。また、また、以下では、Ｘ^mbに含まれるラベルなしデータ全体を、Ｘ^mb _nolabelとおく。
本実施形態では、取得部３００は、ミニバッチを補助記憶装置２０３に記憶された学習データから取得することとする。ただし、他の例として、取得部３００は、ミニバッチを、他の方法で取得することとしてもよい。例えば、取得部３００は、ネットワークＩ／Ｆ２０５を介して、外部のストレージ装置に記憶された学習データからミニバッチを取得することとしてもよい。

情報処理装置２００は、１ステップの学習において、Ｘ^mb _labelを用いて、認識器１００のラベルあり学習を行い、Ｘ^mb＝Ｘ^mb _label∪Ｘ^mb _nolabelに含まれるデータを用いて認識器１００のラベルなし学習を行う。本実施形態では、情報処理装置２００は、１ステップの学習において、最初にラベルあり学習を行い、次にラベルなし学習を行うこととする。ただし、他の例として、情報処理装置２００は、１ステップの学習において、最初にラベルなし学習を行い、次にラベル有り学習を行うこととしてもよい。
情報処理装置２００が実行する１ステップのラベルあり学習の処理を説明する。学習部３０３は、以下の式１で表される評価関数を最小化するように認識器１００を学習する。

式１のｍ_labelは、Ｘ^mb _labelに含まれる学習データの個数を示す。また、ｔ（ｘ）は、ｘに対応するラベルデータが示す事後確率分布を示す。また、Δθは、パラメータの更新量を示す。学習部３０３は、式１の評価関数を最小化するような、Δθの値を求めて、θ_kに求めたΔθを加えることでθ_kを更新する。更新後のθ_kが、ラベル有り学習の学習結果となる。続いて、情報処理装置２００は、ラベルなし学習を行う。

図４は、情報処理装置２００が実行する１ステップのラベルなし学習の処理の一例を示すフローチャートである。
Ｓ４０１において、取得部３００は、ミニバッチから１つの学習データを選択する。Ｓ４０１で選択された学習データを、選択データとする。また、以下のＳ４０２〜Ｓ４０４の処理では、選択データをｘとおく。選択データｘは、入力画像の一例である。

Ｓ４０２において、特定部３０１は、選択データｘに含まれる要素である各ピクセルに予め定められた摂動が加えられる場合、選択データｘの入力に応じて認識器１００から出力される出力データ（事後確率分布）に生じる変動を特定する。
認識器１００から出力される事後確率分布は、ｐ（ｘ；θ_k）となる。ここで、ｋステップまでの学習におけるラベルあり学習が、認識器１００に対して行われている。それにより、認識器１００は、入力データがクラス１〜クラスＫそれぞれに属する事後確率を、ラベルあり学習が行われていない場合に比べて、精度よく求めることができるようになっていることが期待できる。そのため、認識器１００は、入力データが属するクラスの絞り込みがある程度可能な状態と仮定できる。よって、認識器１００の出力である事後確率ｐ₁（ｘ；θ_k）〜ｐ_K（ｘ；θ_k）のうち、値が大きいものから選択された一部の事後確率に対応するクラスが、ｘの属するクラスの候補とみなすことができる。

そこで、本実施形態では、認識器１００の出力が示す事後確率であるｐ₁（ｘ；θ_k）〜ｐ_K（ｘ；θ_k）のうち、値が最大の物から順に選択された予め定められた数Ｋ’（１＜＝Ｋ’＜＝Ｋ）個について着目する。ｐ₁（ｘ；θ_k）〜ｐ_K（ｘ；θ_k）それぞれは、事後確率分布ｐ（ｘ；θ_k）が示す認識器１００から出力される出力値の一例である。本実施形態では、Ｋ’＝１とする。このＫ’個の確率ｐ_n（ｘ；θ_k）（１＜＝ｎ＜＝Ｋ）に対応するＫ’個のクラスが、ｘの属するクラスの候補となる。以下では、このＫ’個の事後確率ｐ_n（ｘ；θ_k）（１＜＝ｎ＜＝Ｋ）に対応するクラスを、ｘが属するクラスの候補である候補クラスとする。
大きいものから選択されたＫ’個の事後確率は、ｘが候補クラスに属する確率を示す相対的に重要な部分となる。そこで、本実施形態では、特定部３０１は、選択データｘの各ピクセルに摂動が加えられた場合に、選択されたＫ’（＝１）個の事後確率に生じる摂動を特定する。より具体的には、特定部３０１は、以下のような処理を実行する。

特定部３０１は、ｐ₁（ｘ；θ_k）〜ｐ_K（ｘ；θ_k）のうち最大のものからＫ’（＝１）個を、特定する。そして、特定部３０１は、特定した事後確率を、以下の式２のように、ｐ^*（ｘ、θ_k）とおく。

式２のｊは、事後確率を識別するインデックスである。ｐ^*（ｘ、θ_k）は、スカラー値関数である。特定部３０１は、ｘの各ピクセルのｐ^*（ｘ、θ_k）への影響の度合を取得する。以下では、ｘの各ピクセルのｐ^*（ｘ、θ_k）への影響の度合を、３Ｄピクセル感度とする。本実施形態では、特定部３０１は、ｘの各ピクセルに所定の変動がある場合に、ｐ^*（ｘ、θ_k）に生じる変動の度合を、３Ｄピクセル感度として取得する。
より具体的には、特定部３０１は、以下の式３を用いて、３Ｄピクセル感度を求める。

式３の右辺は、ｘに対する変動ｒに関するｐ^*（ｘ、θ_k）の勾配∇_rｐ^*（ｘ＋ｒ；θ_k）｜_r=0を正規化することを示す。
式３のｒ_3D（ｘ）は、３Ｄピクセル感度を示す。また、ｒは、ｘに加えられる変動を示す。ｉ、ｊ、ｋそれぞれは、ｘにおけるピクセルを識別するためのインデックスである。また、｜｜ｖ｜｜₁の記号は、ｎ次元ベクトルｖのＬ¹ノルム（｜ｖ₁｜＋｜ｖ₂｜＋・・・＋｜ｖ_n｜）を示す。式３で求まるｒ_3D（ｘ）は、ｐ^*（ｘ、θ_k）に対するｘに含まれるＮｒＮｃＮｄ個のピクセル値に関する1回微分情報を示す。
特定部３０１は、式３中の∇_rｐ^*（ｘ＋ｒ；θ_k）｜_r=0については、ｂａｃｋ−ｐｒｏｐａｇａｔｉｏｎのアルゴリズムを用いて、求める。これにより、特定部３０１は、より効率的に式３を計算できる。

特定部３０１は、ｘが示す２次元領域（各チャネルに共通のＮ_r×Ｎ_dの領域）に、設定された２以上の整数Ｑ個の領域を設定する。以下では、設定された領域それぞれを、部分領域とする。本実施形態では、特定部３０１は、ｘが示す２次元領域を、Ｑ個に分割することで、Ｑ個の部分領域を設定する。本実施形態では、Ｑ＝６４である。
以下では、ｘが示す２次元領域をΩ_pixelとおく。また、以下では、部分領域それぞれを、Ω₁ ^region〜Ω_Q ^regionとおく。この場合、特定部３０１は、以下の４が成立するように、Ω_pixelを、Ω₁ ^region〜Ω_Q ^regionに分割する。

本実施形態では、３２、×３２の２次元領域であるΩ_pixelを、それぞれが４×４のサイズの６４個の部分領域Ω₁ ^region〜Ω₆₄ ^regionに分割する。
そして、特定部３０１は、求めた３Ｄピクセル感度に基づいて、部分領域Ω₁ ^region〜Ω₆₄ ^regionそれぞれについてのｐ^*（ｘ、θ_k）に対する影響の度合を決定する。以下では、部分領域それぞれについてのｐ^*（ｘ、θ_k）に対する影響の度合を、２Ｄ領域感度とする。本実施形態では、特定部３０１は、以下の式５を用いて、各部分領域について、部分領域内の全ピクセルの３Ｄピクセル感度の絶対値を集計することで、２Ｄ領域感度を決定する。

式５のｒ_2D（ｘ、Ω_m ^region）は、部分領域Ω_m ^regionについての２Ｄ領域感度を示す。また、ｍは、部分領域を識別するためのインデックスを示す。また、ｉ、ｊは、それぞれΩ_pixel上の位置を識別するためのインデックスを示す。また、ｋは、ｘのチャネルを識別するためのインデックスを示す。

Ｓ４０３において、特定部３０１は、各部分領域について式５を用いて求めた２Ｄ領域感度に基づいて、部分領域の中でｐ^*（ｘ、θ_k）に対する影響の度合が軽微である部分領域を、マスクする対象となるマスク領域として特定する。以下でＳ４０３の処理の詳細を説明する。
特定部３０１は、各部分領域について式５を用いて求めた２Ｄ領域感度を、最小のものから昇順に整列させる。以下では、整列された２Ｄ領域感度それぞれに対応する部分領域を、それぞれΩ_q1〜Ω_qQとおく。即ち、ｒ_2D（ｘ、Ω_q1 ^region）＜＝ｒ_2D（ｘ、Ω_q2 ^region）＜＝・・・＜＝ｒ_2D（ｘ、Ω_qQ ^region）となる。

特定部３０１は、最小のものから昇順に整列させた２Ｄ領域感度の中から、最小のものから順に２Ｄ領域感度を選択していく。特定部３０１は、選択した２Ｄ領域感度の合計が設定された閾値λ（例えば、０．５等）未満となるように、１つ以上の２Ｄ領域感度を選択する。本実施形態では、特定部３０１は、選択した２Ｄ領域感度の合計がこの閾値λ未満となる範囲で、最も多くの２Ｄ領域感度を選択する。本実施形態では、この閾値λは、予め補助記憶装置２０３に記憶されているとする。
特定部３０１は、選択した１つ以上の２Ｄ領域感度に対応する１つ以上の部分領域の集合を、マスク領域として特定する。以下では、ここでマスク領域として特定された領域をΩ_λ（ｘ）とおく。

Ｓ４０４において、生成部３０２は、ｘの領域のうち、Ｓ４０３で特定されたマスク領域Ω_λ（ｘ）を、ｘと異なる画像で置換したマスク画像を生成する。以下では、Ω_λ（ｘ）をマスクしたマスク画像を、ｘ_mask（Ω_λ（ｘ））とおく。本実施形態では、生成部３０２は、以下の式６を用いて、マスク画像ｘ_mask（Ω_λ（ｘ））を生成する。

式６のｉ、ｊ、ｋは、それぞれ、ｘ内のピクセルの識別に用いられるインデックスである。ｉ、ｊは、それぞれｘが示す２Ｄ領域内の座標の識別に用いられる。ｋは、ｘのチャネルの識別に用いられる。また、ｘ_mean（ｉ、ｊ、ｋ）は、補助記憶装置２０３に予め記憶されている学習データ群（ラベル付きデータとラベルなしデータとの全て）についての（ｉ、ｊ、ｋ）ピクセルのピクセル値の平均値を示す。また、ｘ_sd（ｉ、ｊ、ｋ）は、補助記憶装置２０３に予め記憶されている学習データ群についての（ｉ、ｊ、ｋ）ピクセルのピクセル値の標準偏差を示す。また、ｎ（ｉ、ｊ、ｋ）は、［−１、１］の範囲の一様乱数を示す。
式６を用いることで、マスク領域がｘと異なる画像に置換されたマスク画像が生成される。本実施形態では、生成部３０２は、式６を用いることで、マスク領域において、４×４のサイズの部分領域ごとではなく、ピクセルごとに、ｘと異なる画像で置換することとした。

選択データｘが、図５（ａ）に示す画像である場合、Ｓ４０４で生成されるマスク画像の一例について、図５（ｂ）に示す。
学習データ群に含まれる画像は、それぞれ認識器１００の学習用に集められた画像である。よって、学習データ群に含まれる画像同士は、状況が類似する傾向にある。そのため、生成部３０２は、マスク領域を、式６が示すように学習データ群に基づいて定まる画像で置換することとすることで、不自然でない画素値の画像でマスクすることができる。
生成部３０２は、生成したマスク画像ｘ_mask（Ω_λ（ｘ））を、選択データｘと対応付けて、補助記憶装置２０３に記憶する。

Ｓ４０５において、生成部３０２は、Ｘ^mbの全ての学習データについて、マスク画像を生成したか否かを判定する。生成部３０２は、Ｘ^mbの全ての学習データについて、マスク画像を生成したと判定した場合、処理をＳ４０６に進める。また、Ｘ^mbの中にマスク画像が生成されていない学習データがあると判定した場合、処理をＳ４０１に進める。
Ｓ４０６において、学習部３０３は、Ｘ^mbの学習データそれぞれと、Ｘ^mbの学習データそれぞれに対応するマスク画像と、を用いて、認識器１００のラベルなし学習を行う。本実施形態では、学習部３０３は、以下の式７で表される評価関数の値を最小化するように、認識器１００を学習する。より具体的には、学習部３０３は、式７の評価関数の値を最小化するようなΔθを求め、θ_kに求めたΔθを加えたパラメータを、ｋ＋１ステップ目のまでの学習が完了した認識器１００のパラメータであるθ_k+1として決定する。式７の評価関数は、第１の学習指標の一例である。

式７のｍは、Ｘ^mbに含まれる学習データの個数を示す。Ｄは、引数である２つの事後確率分布の距離を示す関数であり、本実施形態では、Ｌ²ノルムの２乗を示す関数である。ただし、他の例として、Ｄは、Ｋｕｌｌｂａｃｈ−Ｌｅｉｂｌｅｒダイバージェンスを示す関数であることとしてもよい。式７における関数Ｄの項は、選択データｘの入力に応じて認識器１００が出力する出力データと、マスク画像の入力に応じて認識器１００が出力する出力データと、の距離に関する項である。
式７中の関数ρは、ｋステップ目までの学習が完了した認識器１００の信頼の度合を示す非負の関数であり、以下の式８で表される。

式８のａは、予め設定された１以上の実数を示す。また、Ｌ_EPは、エントロピー関数を示す。
本実施形態では、情報処理装置２００は、ｋステップ目までの学習がされた認識器１００の出力である事後確率分布ｐ（ｘ；θ_k）の最大事後確率（対応するクラスが現時点での分類判定）に対する影響が軽微な領域から順に、マスクし、マスク画像を生成する。学習部３０３は、生成したマスク画像を、認識器１００に入力した際に、認識器１００が出力する事後確率分布が、事後確率分布ｐ（ｘ；θ_k）からなるべく変化しないようにΔθを決定する。

この学習処理は、「認識器１００が出力する事後確率分布の信頼性が一定以上に高い、即ち、最大確率に対応するクラスは、ｘが属するクラスに一致する」という前提の上に行われる。そのため、認識器１００の信頼性の度合を示す関数ρを含む評価関数を用いることで、より適切に認識器１００の学習を行うことができる。
エントロピー関数Ｌ_EP（ｐ（ｘ；θ_k））は、事後確率分布ｐ（ｘ；θ_ｋ）の乱雑さの度合を評価する関数であり、事後確率分布が、１つのクラスに属する確率が１で他のクラスに属する確率が０となる分布に近い程、最小値である０に近づく関数である。そのため、式８に示す関数ρは、事後確率分布ｐ（ｘ；θ_ｋ）の不確かさを評価する１つの指標たりえる。
本実施形態では、関数ρは、式８で示される関数であるとした。ただし、他の例として、関数ρは、以下の式９で示される関数としてもよい。式９のａは、予め設定された正の実数を示す。ここで、０＜＝Ｌ_EP（ｐ（ｘ；θ_k））/ｌｏｇ（Ｋ）＜＝１なので、０＜＝１−Ｌ_EP（ｐ（ｘ；θ_k））/ｌｏｇ（Ｋ）＜＝１となる。

（効果）
以上、本実施形態では、情報処理装置２００は、学習データの領域の中で、認識器１００によるクラス分類処理にとって重要でない領域を特定し、特定した領域をマスクしたマスク画像を生成した。そして、情報処理装置２００は、学習データの入力に応じて認識器１００から出力される事後確率分布と、マスク画像の入力に応じて認識器１００から出力される事後確率分布と、の距離に関する評価関数を最小化するように認識器１００をラベルなし学習した。
これにより、情報処理装置２００は、入力データ内の重要でない領域の影響をより受けにくいように、認識器１００をより適切に学習できる。

（変形例１）
本実施形態では、情報処理装置２００は、１ステップの認識器１００の学習において、Ｘ^mb _labelを用いた認識器１００のラベルあり学習と、Ｘ^mbを用いた図４に示すラベルなし学習と、を行うこととした。ただし、情報処理装置２００は、１ステップの認識器１００の学習において、更に、Ｘ^mbを用いたＶｉｒｔｕａｌＡｄｖｅｒｓａｒｉａｌＴｒａｉｎｉｎｇ（ＶＡＴ）によるラベルなし学習を行うこととしてもよい。
ここで、ｋ＋１ステップ目におけるＶＡＴによる認識器１００の学習について説明する。

情報処理装置２００は認識器１００の出力する事後確率分布を最も毀損し、かつ、微小なサイズとして定められたサイズの摂動を求めて、求めた摂動をデータｘに加えることによって摂動データｘ’を生成する。そして、情報処理装置２００は、事後確率分布ｐ（ｘ’；θ_k＋Δθ））が事後確率分布ｐ（ｘ；θ_ｋ）からできるだけ変化しないように重みパラメータの更新量Δθを決定する。
より具体的には、情報処理装置２００は、ｐ（ｘ’；θ_k＋Δθ）とｐ（ｘ；θ_ｋ）との距離を示す関数Ｄ（ｐ（ｘ’；θ_k＋Δθ））、ｐ（ｘ；θ_ｋ））を評価関数として用いて、この評価関数を最小化するようにΔθを求める。

このように、ＶＡＴは、画像データの中で、現在の分類判定に重要な領域を重点的に乱すことで、認識器１００の汎化性能を強化する学習法であると言える。対して、図４で説明した本実施形態のラベルなし学習の手法は、画像データｘの領域の中で、認識器１００による分類処理に重要でない領域が優先的にマスクされた画像データを生成し、学習に使用する手法である。即ち、ＶＡＴと逆の発想の手法となる。
このため、ＶＡＴと図４で説明した本実施形態のラベルなし学習の手法との両手法は、相互に補完し合う学習を実現することができる。

また、ＶＡＴでは、ｘに加える摂動を求める際に、ｐ（ｘ；θ_ｋ）と、ｐ（ｘ＋ｄ’；θ_ｋ）と、の距離が一番変化する方向ｄ’を求めるために、ｘに含まれるＮｒＮｃＮｄ個のピクセル値に関する２回微分情報を使用する。
なぜならば、ｐ（ｘ；θ_ｋ）とｐ（ｘ＋ｄ’；θ_ｋ）との距離は、非負のスカラー値関数で表され、ｄ’＝０で最小値を取る。そのため、この距離のｘに含まれるＮｒＮｃＮｄ個のピクセル値に関する１回微分情報は、０ベクトルになってしまうからである。

一方で、図４のラベルなし学習では、画像データｘを認識器１００に入力したときに認識器１００が出力する事後確率分布から定まるスカラー値関数の、ｘに含まれるＮｒＮｃＮｄ個のピクセル値に関する１回微分情報が使用される。
１回微分情報は、個々のピクセルのピクセル値に関する感度情報である。一方で、２回微分情報は、相異なる２つのピクセルの２つのピクセル値に関する感度を含む感度情報である。このために、ＶＡＴと本実施形態のラベルなし学習の手法との両手法は、相互に補完し合う学習を実現することができる。

（変形例２）
学習データのラベルなしデータそれぞれについて、属するクラスは不明であるが、必ずこの複数のクラスの何れかに属することが仮定できる場合がある。この場合、情報処理装置２００は、１ステップの認識器１００の学習において、Ｘ^mb _nolabelを用いて、更に、以下のような学習を行うこととしてもよい。
即ち、学習部３０３は、以下の式１０で表される評価関数を最小化するように、認識器１００をラベルなし学習する。式１０で表される評価関数は、第２の学習指標の一例である。

式１０のｍ_nolabelは、Ｘ^mb _nolabelに含まれる学習データの個数を示す。また、Ｌ_EPは、式８と同様にエントロピー関数である。Ｌ_EPは、事後確率分布ｐ（ｘ；θ_k）の乱雑さの度合を示す関数であり、１つのクラスに属する確率が１で他のクラスに属する確率が０となる分布に近い程、最小値である０に近づく関数である。式１０の評価関数は、画像ｘが入力された場合に認識器１００から出力される確率分布に関する指標の一例である。
情報処理装置２００は、更に、このような学習を行うことで、より適切に認識器１００を学習することができる。

（変形例３）
本実施形態では、情報処理装置２００は、認識器１００に対するラベル有り学習とラベルなし学習とを交互に実行することとした。ただし、他の例として、情報処理装置２００は、認識器１００に対するラベル有り学習とラベルなし学習とを同時実行することとしてもよい。
その場合、学習部３０３は、ラベル有り学習で用いられる式１の評価関数と、ラベルなし学習で用いられる式７の評価関数と、を重み付き加算したものを最終的な評価関数として、この最終的な評価関数を最小化するように、認識器１００を学習する。
また、情報処理装置２００は、変形例１で説明したＶＡＴによるラベルなし学習、変形例２で説明したラベルなし学習のうちの１つ以上を更に行う場合、以下のように行うこととしてもよい。即ち、情報処理装置２００は、ＶＡＴによるラベルなし学習で用いられる評価関数と式１０の評価関数とのうちの少なくとも１つ以上と、式１の評価関数と、式７の評価関数と、を重み付き加算したものを最終的な評価関数とする。そして、情報処理装置２００は、この最終的な評価関数を最小化するように、認識器１００を学習することとしてもよい。

（変形例４）
本実施形態では、Ｋ’＝１であることとした。ただし、他の例として、Ｋ’は、２以上の整数であることとしてもよい。
その場合、情報処理装置２００は、例えば、式２に示されるｐ^*（ｘ、θ_k）の代わりに、ｐ₁（ｘ；θ_k）〜ｐ_K（ｘ；θ_k）のうち最大のものから選択したＫ’個の事後確率の平均を示す関数を用いてもよい。
また、情報処理装置２００は、例えば、以下のようにしてもよい。即ち、情報処理装置２００は、ｐ₁（ｘ；θ_k）〜ｐ_K（ｘ；θ_k）のうち最大のものから選択したＫ’個の事後確率のそれぞれを、順次、ｐ^*（ｘ、θ_k）とおき、式３を用いて、３Ｄピクセル感度を求める。そして、情報処理装置２００は、Ｋ’個の事後確率のそれぞれについて求めた３Ｄピクセル感度の平均を、最終的な３Ｄピクセル感度として決定し、以降の処理に用いることとしてもよい。

（変形例５）
本実施形態では、情報処理装置２００は、式３を用いて、３Ｄピクセル感度を求めることとした。ただし、他の例として、情報処理装置２００は、他の方法を用いて、３Ｄピクセル感度を求めることとしてもよい。例えば、情報処理装置２００は、以下の式１１を用いて、３Ｄピクセル感度を求めることとしてもよい。

式１１のｐは、予め定められた２以上の整数である。また、｜｜ｖ｜｜_pの記号は、ｎ次元ベクトルｖのＬ^pノルム（｜ｖ₁｜^p＋｜ｖ₂｜^p＋・・・＋｜ｖ_n｜^p）^1/pを示す。
また、情報処理装置２００は、式１１を用いて、３Ｄピクセル感度を求めた場合、式５ではなく以下の式１２を用いて、各部分領域の２Ｄ領域感度を求めることとしてもよい。

（変形例６）
本実施形態では、Ｓ４０３の処理で用いられる閾値は、予め補助記憶装置２０３に記憶されていることとした。ただし、他の例として、情報処理装置２００は、他の方法で、この閾値の値を求めてもよい。例えば、情報処理装置２００は、入出力Ｉ／Ｆ２０４に接続された入力装置を介したユーザの操作に基づいて、この閾値を決定してもよい。
また、情報処理装置２００は、学習のステップ数に基づいて、この閾値を決定してもよい。例えば、情報処理装置２００は、ｋステップ目の学習において、予め定められた係数にｋを乗じた値を、この閾値として決定してもよい。また、例えば、情報処理装置２００は、ｋステップ目の学習において、ｋの値が予め定められた範囲内の数値である場合、その範囲に対応して予め設定された値を、この閾値として決定してもよい。

（変形例７）
本実施形態では、認識器１００は、識別器１０１の出力データにソフトマックス関数を施し、入力データが複数のクラスそれぞれに属する確率を出力する情報変換器であるとした。しかし、認識器１００は、ソフトマックス関数を用いずに、識別器１０１の出力データを、入力されるデータの特性を示すデータとしてそのまま出力する情報変換器であることとしてもよい。その場合、認識器１００の出力ｐは、事後確率分布ではなく、Ｋ次元のベクトルデータとなる。
その場合、情報処理装置２００は、図４の処理で、事後確率の代わりに、認識器１００の出力ｐの各要素の値を用いる。

（変形例８）
本実施形態では、学習データｘが示す２次元領域が分割された部分領域は、それぞれ４×４のサイズの領域であるとした。ただし、他の例として、部分領域は、他のサイズの領域であるとしてもよい。例えば、部分領域は、それぞれ８×８のサイズの領域であるとしてもよい。また、例えば、部分領域は、円形、楕円形、三角形等の矩形以外の形状であるとしてもよい。また、例えば、部分領域は、入出力Ｉ／Ｆ２０４に接続された入力装置を介してユーザから指定された形状や外部の装置から指定された形状であるとしてもよい。また、例えば、部分領域は、それぞれ１×１のサイズの領域（ピクセル）であるとしてもよい。
ただし、画像においては、複数のピクセルの集合により何等かのオブジェクトが表されることとなる。そのため、画像内における特徴は、ピクセル単位では表れにくい。そこで、より適切に、画像内におけるクラス分類への影響の軽微な領域を特定するためには、部分領域は、１×１のサイズよりも大きなサイズの領域であることが望ましい。

（変形例９）
本実施形態では、情報処理装置２００は、Ｓ４０２で、ｘが示すＮｒ×Ｎｃの２次元領域を、Ｑ個に分割することで、Ｑ個の部分領域を設定することとした。即ち、これらＱ個の部分領域を全て合わせると元のｘが示すＮｒ×Ｎｃの２次元領域となる。ただし、他の例として、情報処理装置２００は、Ｑ個の部分領域を、ｘの示すＮｒ×Ｎｃの２次元領域上に任意に設定してもよい。例えば、情報処理装置２００は、Ｑ個の部分領域全て合わせた領域がｘの示すＮｒ×Ｎｃの２次元領域の一部の領域となるように、Ｑ個の部分領域を設定してもよい。
（変形例１０）
本実施形態では、ラベルなし学習に用いられる評価関数である式７の評価関数は、認識器１００の信頼の度合を示す関数ρを含む関数であるとした。ただし、他の例として、ラベルなし学習に用いられる評価関数は、関数ρを含まない関数としてもよい。例えば、情報処理装置２００は、式７における関数ρの部分を１に代替した評価関数をラベルなし学習に用いることとしてもよい。

（変形例１１）
本実施形態では、Ｓ４０４で、生成部３０２は、Ｓ４０３で特定されたマスク領域の全ての領域を選択データｘと異なる画像で置換することで、マスク画像を生成することとした。ただし、他の例として、生成部３０２は、Ｓ４０３で特定されたマスク領域の一部のみを選択データｘと異なる画像で置換することで、マスク画像を生成することとしてもよい。即ち、生成部３０２は、マスク領域の一部の領域については、ｘのままにしたマスク画像を生成してもよい。
（変形例１２）
本実施形態では、情報処理装置２００は、ラベル付きデータとラベルなしデータとの双方を用いて、認識器１００に対して半教師あり学習を行うこととした。ただし、他の例として、情報処理装置２００は、ラベル付きデータのみを用いて、認識器１００に対して教師あり学習を行うこととしてもよい。その場合、Ｘ^mbには、ラベル付きデータしか含まれない。即ち、Ｘ^mb＝Ｘ^mb _labelとなる。また、式２において、ｐ₁（ｘ；θ_k）〜ｐ_K（ｘ；θ_k）のうちの最大確率ｐ^*（ｘ、θ_k）を採用する代わりに、ｘが属するクラスに対する確率ｐ_{xが属するクラス}（ｘ；θ_k）を採用してもよい。

（変形例１３）
本実施形態では、クラス１〜クラスＫそれぞれは、入力データが何のオブジェクト（例えば、犬、猫、熊、人等）の画像であるかを示すクラスであることとした。ただし、他の例として、クラス１〜クラスＫそれぞれは、他のクラスであることとしてもよい。例えば、画像データとその画像データに撮影された状況とには相関があるとみなすことができるため、クラス１〜クラスＫそれぞれは、入力データがどのような状況の画像であるか（例えば、雨天の屋外、晴天の屋外、室内等）の画像であるかを示すクラスであることとしてもよい。

（変形例１４）
本実施形態では、情報処理装置２００は、認識器１００を学習することとした。情報処理装置２００は、更に、学習した認識器１００を用いて、新たに入力された分類対象の画像のクラスを分類する処理を行うこととしてもよい。また、情報処理装置２００とネットワークを介して接続された外部の情報処理装置が、情報処理装置２００から、学習された認識器１００を受信し、受信した認識器１００を用いて、分類対象の画像のクラスを分類する処理を行うこととしてもよい。

＜その他の実施形態＞
実施形態１では、情報処理装置２００は、単体の情報処理装置であるとした。しかし、情報処理装置２００は、ネットワーク（ＬＡＮやインターネット）を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置２００に含まれる複数の情報処理装置それぞれのＣＰＵが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、図３の機能及び図４のフローチャートの処理等が実現される。
以上、本発明の実施形態の一例について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置２００の機能構成の一部又は全てをハードウェアとして情報処理装置２００に実装してもよい。また、上述した実施形態１と各変形例とを任意に組み合わせる等してもよい。

２００情報処理装置
２０１ＣＰＵ

Claims

入力画像と情報変換器とに基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得手段と、
前記取得手段により前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された１つ以上の度合であって、前記１つ以上の度合の合計が設定された閾値未満となる前記１つ以上の度合それぞれに対応する１つ以上の領域を特定する特定手段と、
前記入力画像における前記特定手段により特定された前記１つ以上の領域に含まれる領域を、前記入力画像と異なる画像に置換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成手段と、
予め定められた第１の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成手段により生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第１の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習手段と、
を有する情報処理装置。
前記学習手段は、更に、ラベルあり画像と前記ラベルあり画像に対応するラベルデータとに基づいて、前記情報変換器を学習する請求項１に記載の情報処理装置。
前記取得手段は、前記入力画像と、前記学習手段により前記ラベルあり画像と前記ラベルデータとに基づいて学習された前記情報変換器と、に基づいて、前記複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する請求項２に記載の情報処理装置。
前記学習手段は、更に、前記入力画像に基づいて、ＶｉｒｔｕａｌＡｄｖｅｒｓａｒｉａｌＴｒａｉｎｉｎｇ（ＶＡＴ）を行うことで、前記情報変換器を学習する請求項１乃至３の何れか１項に記載の情報処理装置。
前記第１の学習指標は、前記情報変換器の信頼性に関する指標を含む請求項１乃至４の何れか１項に記載の情報処理装置。
前記取得手段は、前記入力画像の入力に応じて前記情報変換器から出力される出力データから定まるスカラー値関数に対する前記入力画像の各ピクセル値に関する１回微分情報に基づいて、前記複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する請求項１乃至５の何れか１項に記載の情報処理装置。
前記取得手段は、前記入力画像の入力に応じて前記情報変換器から出力される出力データが示す複数の出力値のうち、最も値の高いものから順に選択された１つ以上の出力値に基づいて、前記複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する請求項１乃至６の何れか１項に記載の情報処理装置。
前記入力画像は、前記情報変換器の学習に用いられる学習データ群に含まれる画像であり、
前記生成手段は、前記入力画像における前記特定手段により特定された前記１つ以上の領域に含まれる領域を、前記入力画像と異なる画像であって、前記学習データ群に含まれる複数の画像の前記領域に基づいて生成された画像に置換することで、前記マスク画像を生成する請求項１乃至７の何れか１項に記載の情報処理装置。
前記情報変換器は、入力されるデータが予め定められた複数のクラスそれぞれに属する確率を示す事後確率分布を出力する情報変換器であり、
前記学習手段は、更に、前記複数のクラスの何れか１つに属するラベルなし画像と、前記ラベルなし画像の入力に応じて前記情報変換器から出力される出力データの乱雑さの度合に関する第２の学習指標と、に基づいて、前記情報変換器を学習する請求項１乃至８の何れか１項に記載の情報処理装置。
前記情報変換器は、入力された画像が属するクラスを分類する情報変換器である請求項１乃至９の何れか１項に記載の情報処理装置。
入力画像と、入力された画像が属するクラスを分類する情報変換器と、に基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得手段と、
前記取得手段により前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された１つ以上の度合であって、前記１つ以上の度合の合計が設定された閾値未満となる前記１つ以上の度合それぞれに対応する１つ以上の領域を特定する特定手段と、
前記入力画像における前記特定手段により特定された前記１つ以上の領域に含まれる領域を、前記入力画像と異なる画像に置換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成手段と、
予め定められた第１の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成手段により生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第１の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習手段と、
前記学習手段により学習された前記情報変換器と、分類対象の画像と、に基づいて、前記画像の属するクラスを分類する分類手段と、
を有するシステム。
情報処理装置が実行する情報処理方法であって、
入力画像と情報変換器とに基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得ステップと、
前記取得ステップで前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された１つ以上の度合であって、前記１つ以上の度合の合計が設定された閾値未満となる前記１つ以上の度合それぞれに対応する１つ以上の領域を特定する特定ステップと、
前記入力画像における前記特定ステップで特定された前記１つ以上の領域に含まれる領域を、前記入力画像と異なる画像に置換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成ステップと、
予め定められた第１の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成ステップで生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第１の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習ステップと、
を含む情報処理方法。
コンピュータを、請求項１乃至１０の何れか１項に記載の情報処理装置の各手段として、機能させるためのプログラム。