JP2020181265A - 情報処理装置、システム、情報処理方法及びプログラム - Google Patents
情報処理装置、システム、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2020181265A JP2020181265A JP2019082190A JP2019082190A JP2020181265A JP 2020181265 A JP2020181265 A JP 2020181265A JP 2019082190 A JP2019082190 A JP 2019082190A JP 2019082190 A JP2019082190 A JP 2019082190A JP 2020181265 A JP2020181265 A JP 2020181265A
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- input
- input image
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 103
- 238000003672 processing method Methods 0.000 title claims description 4
- 230000006870 function Effects 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 32
- 238000009826 distribution Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 21
- 230000035945 sensitivity Effects 0.000 description 30
- 238000011156 evaluation Methods 0.000 description 25
- 238000012986 modification Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
Description
ラベルを用いずに、学習を行う手法として、consistency regularizationがある。その中の1つの手法として、入力データと入力データに微小な摂動を加えた摂動データとの2つのデータを利用する手法がある。
したがって、処理時点における認識器の重みパラメータを、θkとすると、D(p(x;θk)、p(x’;θk+Δθ))の値ができるだけ小さくなるように、Δθを決定する。そして、θk+Δθを、学習された認識器の重みパラメータとして決定する。関数D(p(x;θ)、p(x’;θ))としては、ユークリッド距離やKullbach−Leiblerダイバージェンス等を採用することができる。
そこで、本発明は、より適切に情報変換器を学習することを目的とする。
<実施形態1>
(本実施形態の処理の概要)
本実施形態における情報処理装置200は、認識器100を機械学習する。
図1を用いて、本実施形態の学習対象となる認識器100について説明する。認識器100は、入力されたデータが、K個のクラスそれぞれに属する確率を、事後確率分布として出力する情報変換器である。以下では、このK個のクラスを、クラス1〜クラスKとする。本実施形態では、Kは、1以上の整数である。本実施形態では、認識器100は、画像データを入力データとして受けつける。本実施形態では、クラス1〜クラスKそれぞれは、入力データが何のオブジェクト(例えば、犬、猫、熊、人、車等)の画像であるかを示すクラスである。何等かのオブジェクトが撮影された画像データと、そのオブジェクトに対応するクラスと、には相関があるとみなすことができる。
情報変換器の学習とは、学習用のデータを用いて、予め定められた指標に基づいて、情報変換器の重みパラメータを更新することである。以下では、認識器100の学習に用いられるデータを学習データとする。学習データには、ラベル付きデータ、ラベルなしデータがある。本実施形態では、学習データは、それぞれ、何等かのオブジェクトが撮影された画像データであって、サイズがNr×Ncであり、チャネル数がNdである画像データであるとする。本実施形態では、Nr=Nc=32である。また、本実施形態では、Nd=3である。
以下では、ラベル付きデータに対応付けられたラベルデータを用いた学習を、ラベル有り学習とする。また、以下では、以下では、ラベル付きデータに対応付けられたラベルデータを用いない学習を、ラベルなし学習とする。
情報処理装置200は、学習データ内に設定された複数の領域それぞれについて、認識器100の出力データに対する影響の度合を求める。そして、情報処理装置200は、求めた度合に基づいて、学習データ内におけるクラス分類に対する影響が軽微であるため、画像分類にとっては重要でない領域を特定する。情報処理装置200は、学習データにおける特定した領域を、学習データと異なる画像に置換し、マスク画像を生成する。そして、情報処理装置200は、学習データの入力に応じて認識器100に出力される出力データと、マスク画像の入力に応じて認識器100から出力される出力データと、の距離が極力小さくなるように、認識器100を学習する。
以上が、本実施形態の情報処理装置200が行うラベルなし学習の概要である。このような処理により、情報処理装置200は、入力データ内の重要でない領域の影響をより受けにくい認識器100を学習できる。
図2は、情報処理装置200のハードウェア構成の一例を示す図である。情報処理装置200は、例えば、パーソナルコンピュータ(PC)、サーバ装置、タブレット装置等である。
情報処理装置200は、CPU201、主記憶装置202、補助記憶装置203、入出力I/F204、ネットワークI/F205を含む。各要素は、システムバス206を介して相互に通信可能に接続されている。
以下では、補助記憶装置203に記憶された学習データの集合を、学習データ群とする。また、本実施形態では、学習データ群に含まれる学習データそれぞれは、予め定められた前処理(例えば、スムージング、エッジ処理等)が施された画像であるとする。ただし、他の例として、学習データ群に含まれる学習データそれぞれは、前処理が施されていない画像であるとしてもよい。
CPU201が、補助記憶装置203に記憶されたプログラムにしたがって処理を実行することで、図3で後述する情報処理装置200の機能、図4で後述するフローチャートの処理等が実現される。
情報処理装置200は、取得部300、特定部301、生成部302、学習部303を含む。
取得部300は、認識器100の学習に用いられる学習データ等を取得する。
特定部301は、画像である学習データ内において認識器100からの出力に対して影響が軽微である領域を、マスク対象の領域として特定する。
学習部303は、生成部302により生成されたマスク画像に基づいて、認識器100に対してラベルなし学習を行う。また、学習部303は、ラベル付きデータと、ラベル付きデータに対応するラベルデータと、を用いて、認識器100に対してラベルあり学習を行う。
本実施形態における情報処理装置200が行う認識器100の半教師あり学習の処理を説明する。即ち、情報処理装置200は、補助記憶装置203に記憶された学習データ群から、予め定められた数のラベル付きデータとラベルなしデータとをランダムに選択し、選択した学習データを、ミニバッチとして取得する。情報処理装置200は、取得したミニバッチを用いて、認識器100に対して半教師あり学習を行う。以下では、1つのミニバッチを用いて行われる学習を、1ステップの学習とする。
以下では、k(1以上の任意の整数)+1ステップ目の学習の処理について説明する。即ち、前提として、kステップ目までの学習が完了している。以下では、kステップ目までの学習が完了している場合の認識器100のパラメータを、θkとおく。
取得部300は、認識器100の1ステップの学習を開始する前に、補助記憶装置203に記憶された学習データ群からラベル付きデータとラベルなしデータとをそれぞれ予め定められた数だけランダムに選択し、選択した学習データをミニバッチとして取得する。以下では、取得部300により取得されたミニバッチに含まれる学習データ全体を、Xmbとおく。また、以下では、Xmbに含まれるラベル付きデータ全体を、Xmb labelとおく。また、また、以下では、Xmbに含まれるラベルなしデータ全体を、Xmb nolabelとおく。
本実施形態では、取得部300は、ミニバッチを補助記憶装置203に記憶された学習データから取得することとする。ただし、他の例として、取得部300は、ミニバッチを、他の方法で取得することとしてもよい。例えば、取得部300は、ネットワークI/F205を介して、外部のストレージ装置に記憶された学習データからミニバッチを取得することとしてもよい。
情報処理装置200が実行する1ステップのラベルあり学習の処理を説明する。学習部303は、以下の式1で表される評価関数を最小化するように認識器100を学習する。
S401において、取得部300は、ミニバッチから1つの学習データを選択する。S401で選択された学習データを、選択データとする。また、以下のS402〜S404の処理では、選択データをxとおく。選択データxは、入力画像の一例である。
認識器100から出力される事後確率分布は、p(x;θk)となる。ここで、kステップまでの学習におけるラベルあり学習が、認識器100に対して行われている。それにより、認識器100は、入力データがクラス1〜クラスKそれぞれに属する事後確率を、ラベルあり学習が行われていない場合に比べて、精度よく求めることができるようになっていることが期待できる。そのため、認識器100は、入力データが属するクラスの絞り込みがある程度可能な状態と仮定できる。よって、認識器100の出力である事後確率p1(x;θk)〜pK(x;θk)のうち、値が大きいものから選択された一部の事後確率に対応するクラスが、xの属するクラスの候補とみなすことができる。
大きいものから選択されたK’個の事後確率は、xが候補クラスに属する確率を示す相対的に重要な部分となる。そこで、本実施形態では、特定部301は、選択データxの各ピクセルに摂動が加えられた場合に、選択されたK’(=1)個の事後確率に生じる摂動を特定する。より具体的には、特定部301は、以下のような処理を実行する。
より具体的には、特定部301は、以下の式3を用いて、3Dピクセル感度を求める。
式3のr3D(x)は、3Dピクセル感度を示す。また、rは、xに加えられる変動を示す。i、j、kそれぞれは、xにおけるピクセルを識別するためのインデックスである。また、||v||1の記号は、n次元ベクトルvのL1ノルム(|v1|+|v2|+・・・+|vn|)を示す。式3で求まるr3D(x)は、p*(x、θk)に対するxに含まれるNrNcNd個のピクセル値に関する1回微分情報を示す。
特定部301は、式3中の∇rp*(x+r;θk)|r=0については、back−propagationのアルゴリズムを用いて、求める。これにより、特定部301は、より効率的に式3を計算できる。
以下では、xが示す2次元領域をΩpixelとおく。また、以下では、部分領域それぞれを、Ω1 region〜ΩQ regionとおく。この場合、特定部301は、以下の4が成立するように、Ωpixelを、Ω1 region〜ΩQ regionに分割する。
そして、特定部301は、求めた3Dピクセル感度に基づいて、部分領域Ω1 region〜Ω64 regionそれぞれについてのp*(x、θk)に対する影響の度合を決定する。以下では、部分領域それぞれについてのp*(x、θk)に対する影響の度合を、2D領域感度とする。本実施形態では、特定部301は、以下の式5を用いて、各部分領域について、部分領域内の全ピクセルの3Dピクセル感度の絶対値を集計することで、2D領域感度を決定する。
特定部301は、各部分領域について式5を用いて求めた2D領域感度を、最小のものから昇順に整列させる。以下では、整列された2D領域感度それぞれに対応する部分領域を、それぞれΩq1〜ΩqQとおく。即ち、r2D(x、Ωq1 region)<=r2D(x、Ωq2 region)<=・・・<=r2D(x、ΩqQ region)となる。
特定部301は、選択した1つ以上の2D領域感度に対応する1つ以上の部分領域の集合を、マスク領域として特定する。以下では、ここでマスク領域として特定された領域をΩλ(x)とおく。
式6を用いることで、マスク領域がxと異なる画像に置換されたマスク画像が生成される。本実施形態では、生成部302は、式6を用いることで、マスク領域において、4×4のサイズの部分領域ごとではなく、ピクセルごとに、xと異なる画像で置換することとした。
学習データ群に含まれる画像は、それぞれ認識器100の学習用に集められた画像である。よって、学習データ群に含まれる画像同士は、状況が類似する傾向にある。そのため、生成部302は、マスク領域を、式6が示すように学習データ群に基づいて定まる画像で置換することとすることで、不自然でない画素値の画像でマスクすることができる。
生成部302は、生成したマスク画像xmask(Ωλ(x))を、選択データxと対応付けて、補助記憶装置203に記憶する。
S406において、学習部303は、Xmbの学習データそれぞれと、Xmbの学習データそれぞれに対応するマスク画像と、を用いて、認識器100のラベルなし学習を行う。本実施形態では、学習部303は、以下の式7で表される評価関数の値を最小化するように、認識器100を学習する。より具体的には、学習部303は、式7の評価関数の値を最小化するようなΔθを求め、θkに求めたΔθを加えたパラメータを、k+1ステップ目のまでの学習が完了した認識器100のパラメータであるθk+1として決定する。式7の評価関数は、第1の学習指標の一例である。
式7中の関数ρは、kステップ目までの学習が完了した認識器100の信頼の度合を示す非負の関数であり、以下の式8で表される。
本実施形態では、情報処理装置200は、kステップ目までの学習がされた認識器100の出力である事後確率分布p(x;θk)の最大事後確率(対応するクラスが現時点での分類判定)に対する影響が軽微な領域から順に、マスクし、マスク画像を生成する。学習部303は、生成したマスク画像を、認識器100に入力した際に、認識器100が出力する事後確率分布が、事後確率分布p(x;θk)からなるべく変化しないようにΔθを決定する。
エントロピー関数LEP(p(x;θk))は、事後確率分布p(x;θk)の乱雑さの度合を評価する関数であり、事後確率分布が、1つのクラスに属する確率が1で他のクラスに属する確率が0となる分布に近い程、最小値である0に近づく関数である。そのため、式8に示す関数ρは、事後確率分布p(x;θk)の不確かさを評価する1つの指標たりえる。
本実施形態では、関数ρは、式8で示される関数であるとした。ただし、他の例として、関数ρは、以下の式9で示される関数としてもよい。式9のaは、予め設定された正の実数を示す。ここで、0<=LEP(p(x;θk))/log(K)<=1なので、0<=1−LEP(p(x;θk))/log(K)<=1となる。
以上、本実施形態では、情報処理装置200は、学習データの領域の中で、認識器100によるクラス分類処理にとって重要でない領域を特定し、特定した領域をマスクしたマスク画像を生成した。そして、情報処理装置200は、学習データの入力に応じて認識器100から出力される事後確率分布と、マスク画像の入力に応じて認識器100から出力される事後確率分布と、の距離に関する評価関数を最小化するように認識器100をラベルなし学習した。
これにより、情報処理装置200は、入力データ内の重要でない領域の影響をより受けにくいように、認識器100をより適切に学習できる。
本実施形態では、情報処理装置200は、1ステップの認識器100の学習において、Xmb labelを用いた認識器100のラベルあり学習と、Xmbを用いた図4に示すラベルなし学習と、を行うこととした。ただし、情報処理装置200は、1ステップの認識器100の学習において、更に、Xmbを用いたVirtual Adversarial Training(VAT)によるラベルなし学習を行うこととしてもよい。
ここで、k+1ステップ目におけるVATによる認識器100の学習について説明する。
より具体的には、情報処理装置200は、p(x’;θk+Δθ)とp(x;θk)との距離を示す関数D(p(x’;θk+Δθ))、p(x;θk))を評価関数として用いて、この評価関数を最小化するようにΔθを求める。
このため、VATと図4で説明した本実施形態のラベルなし学習の手法との両手法は、相互に補完し合う学習を実現することができる。
なぜならば、p(x;θk)とp(x+d’;θk)との距離は、非負のスカラー値関数で表され、d’=0で最小値を取る。そのため、この距離のxに含まれるNrNcNd個のピクセル値に関する1回微分情報は、0ベクトルになってしまうからである。
1回微分情報は、個々のピクセルのピクセル値に関する感度情報である。一方で、2回微分情報は、相異なる2つのピクセルの2つのピクセル値に関する感度を含む感度情報である。このために、VATと本実施形態のラベルなし学習の手法との両手法は、相互に補完し合う学習を実現することができる。
学習データのラベルなしデータそれぞれについて、属するクラスは不明であるが、必ずこの複数のクラスの何れかに属することが仮定できる場合がある。この場合、情報処理装置200は、1ステップの認識器100の学習において、Xmb nolabelを用いて、更に、以下のような学習を行うこととしてもよい。
即ち、学習部303は、以下の式10で表される評価関数を最小化するように、認識器100をラベルなし学習する。式10で表される評価関数は、第2の学習指標の一例である。
情報処理装置200は、更に、このような学習を行うことで、より適切に認識器100を学習することができる。
本実施形態では、情報処理装置200は、認識器100に対するラベル有り学習とラベルなし学習とを交互に実行することとした。ただし、他の例として、情報処理装置200は、認識器100に対するラベル有り学習とラベルなし学習とを同時実行することとしてもよい。
その場合、学習部303は、ラベル有り学習で用いられる式1の評価関数と、ラベルなし学習で用いられる式7の評価関数と、を重み付き加算したものを最終的な評価関数として、この最終的な評価関数を最小化するように、認識器100を学習する。
また、情報処理装置200は、変形例1で説明したVATによるラベルなし学習、変形例2で説明したラベルなし学習のうちの1つ以上を更に行う場合、以下のように行うこととしてもよい。即ち、情報処理装置200は、VATによるラベルなし学習で用いられる評価関数と式10の評価関数とのうちの少なくとも1つ以上と、式1の評価関数と、式7の評価関数と、を重み付き加算したものを最終的な評価関数とする。そして、情報処理装置200は、この最終的な評価関数を最小化するように、認識器100を学習することとしてもよい。
本実施形態では、K’=1であることとした。ただし、他の例として、K’は、2以上の整数であることとしてもよい。
その場合、情報処理装置200は、例えば、式2に示されるp*(x、θk)の代わりに、p1(x;θk)〜pK(x;θk)のうち最大のものから選択したK’個の事後確率の平均を示す関数を用いてもよい。
また、情報処理装置200は、例えば、以下のようにしてもよい。即ち、情報処理装置200は、p1(x;θk)〜pK(x;θk)のうち最大のものから選択したK’個の事後確率のそれぞれを、順次、p*(x、θk)とおき、式3を用いて、3Dピクセル感度を求める。そして、情報処理装置200は、K’個の事後確率のそれぞれについて求めた3Dピクセル感度の平均を、最終的な3Dピクセル感度として決定し、以降の処理に用いることとしてもよい。
本実施形態では、情報処理装置200は、式3を用いて、3Dピクセル感度を求めることとした。ただし、他の例として、情報処理装置200は、他の方法を用いて、3Dピクセル感度を求めることとしてもよい。例えば、情報処理装置200は、以下の式11を用いて、3Dピクセル感度を求めることとしてもよい。
また、情報処理装置200は、式11を用いて、3Dピクセル感度を求めた場合、式5ではなく以下の式12を用いて、各部分領域の2D領域感度を求めることとしてもよい。
本実施形態では、S403の処理で用いられる閾値は、予め補助記憶装置203に記憶されていることとした。ただし、他の例として、情報処理装置200は、他の方法で、この閾値の値を求めてもよい。例えば、情報処理装置200は、入出力I/F204に接続された入力装置を介したユーザの操作に基づいて、この閾値を決定してもよい。
また、情報処理装置200は、学習のステップ数に基づいて、この閾値を決定してもよい。例えば、情報処理装置200は、kステップ目の学習において、予め定められた係数にkを乗じた値を、この閾値として決定してもよい。また、例えば、情報処理装置200は、kステップ目の学習において、kの値が予め定められた範囲内の数値である場合、その範囲に対応して予め設定された値を、この閾値として決定してもよい。
本実施形態では、認識器100は、識別器101の出力データにソフトマックス関数を施し、入力データが複数のクラスそれぞれに属する確率を出力する情報変換器であるとした。しかし、認識器100は、ソフトマックス関数を用いずに、識別器101の出力データを、入力されるデータの特性を示すデータとしてそのまま出力する情報変換器であることとしてもよい。その場合、認識器100の出力pは、事後確率分布ではなく、K次元のベクトルデータとなる。
その場合、情報処理装置200は、図4の処理で、事後確率の代わりに、認識器100の出力pの各要素の値を用いる。
本実施形態では、学習データxが示す2次元領域が分割された部分領域は、それぞれ4×4のサイズの領域であるとした。ただし、他の例として、部分領域は、他のサイズの領域であるとしてもよい。例えば、部分領域は、それぞれ8×8のサイズの領域であるとしてもよい。また、例えば、部分領域は、円形、楕円形、三角形等の矩形以外の形状であるとしてもよい。また、例えば、部分領域は、入出力I/F204に接続された入力装置を介してユーザから指定された形状や外部の装置から指定された形状であるとしてもよい。また、例えば、部分領域は、それぞれ1×1のサイズの領域(ピクセル)であるとしてもよい。
ただし、画像においては、複数のピクセルの集合により何等かのオブジェクトが表されることとなる。そのため、画像内における特徴は、ピクセル単位では表れにくい。そこで、より適切に、画像内におけるクラス分類への影響の軽微な領域を特定するためには、部分領域は、1×1のサイズよりも大きなサイズの領域であることが望ましい。
本実施形態では、情報処理装置200は、S402で、xが示すNr×Ncの2次元領域を、Q個に分割することで、Q個の部分領域を設定することとした。即ち、これらQ個の部分領域を全て合わせると元のxが示すNr×Ncの2次元領域となる。ただし、他の例として、情報処理装置200は、Q個の部分領域を、xの示すNr×Ncの2次元領域上に任意に設定してもよい。例えば、情報処理装置200は、Q個の部分領域全て合わせた領域がxの示すNr×Ncの2次元領域の一部の領域となるように、Q個の部分領域を設定してもよい。
(変形例10)
本実施形態では、ラベルなし学習に用いられる評価関数である式7の評価関数は、認識器100の信頼の度合を示す関数ρを含む関数であるとした。ただし、他の例として、ラベルなし学習に用いられる評価関数は、関数ρを含まない関数としてもよい。例えば、情報処理装置200は、式7における関数ρの部分を1に代替した評価関数をラベルなし学習に用いることとしてもよい。
本実施形態では、S404で、生成部302は、S403で特定されたマスク領域の全ての領域を選択データxと異なる画像で置換することで、マスク画像を生成することとした。ただし、他の例として、生成部302は、S403で特定されたマスク領域の一部のみを選択データxと異なる画像で置換することで、マスク画像を生成することとしてもよい。即ち、生成部302は、マスク領域の一部の領域については、xのままにしたマスク画像を生成してもよい。
(変形例12)
本実施形態では、情報処理装置200は、ラベル付きデータとラベルなしデータとの双方を用いて、認識器100に対して半教師あり学習を行うこととした。ただし、他の例として、情報処理装置200は、ラベル付きデータのみを用いて、認識器100に対して教師あり学習を行うこととしてもよい。その場合、Xmbには、ラベル付きデータしか含まれない。即ち、Xmb=Xmb labelとなる。また、式2において、p1(x;θk)〜pK(x;θk)のうちの最大確率p*(x、θk)を採用する代わりに、xが属するクラスに対する確率pxが属するクラス(x;θk)を採用してもよい。
本実施形態では、クラス1〜クラスKそれぞれは、入力データが何のオブジェクト(例えば、犬、猫、熊、人等)の画像であるかを示すクラスであることとした。ただし、他の例として、クラス1〜クラスKそれぞれは、他のクラスであることとしてもよい。例えば、画像データとその画像データに撮影された状況とには相関があるとみなすことができるため、クラス1〜クラスKそれぞれは、入力データがどのような状況の画像であるか(例えば、雨天の屋外、晴天の屋外、室内等)の画像であるかを示すクラスであることとしてもよい。
本実施形態では、情報処理装置200は、認識器100を学習することとした。情報処理装置200は、更に、学習した認識器100を用いて、新たに入力された分類対象の画像のクラスを分類する処理を行うこととしてもよい。また、情報処理装置200とネットワークを介して接続された外部の情報処理装置が、情報処理装置200から、学習された認識器100を受信し、受信した認識器100を用いて、分類対象の画像のクラスを分類する処理を行うこととしてもよい。
実施形態1では、情報処理装置200は、単体の情報処理装置であるとした。しかし、情報処理装置200は、ネットワーク(LANやインターネット)を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置200に含まれる複数の情報処理装置それぞれのCPUが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、図3の機能及び図4のフローチャートの処理等が実現される。
以上、本発明の実施形態の一例について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置200の機能構成の一部又は全てをハードウェアとして情報処理装置200に実装してもよい。また、上述した実施形態1と各変形例とを任意に組み合わせる等してもよい。
201 CPU
Claims (13)
- 入力画像と情報変換器とに基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得手段と、
前記取得手段により前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された1つ以上の度合であって、前記1つ以上の度合の合計が設定された閾値未満となる前記1つ以上の度合それぞれに対応する1つ以上の領域を特定する特定手段と、
前記入力画像における前記特定手段により特定された前記1つ以上の領域に含まれる領域を、前記入力画像と異なる画像に置換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成手段と、
予め定められた第1の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成手段により生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第1の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習手段と、
を有する情報処理装置。 - 前記学習手段は、更に、ラベルあり画像と前記ラベルあり画像に対応するラベルデータとに基づいて、前記情報変換器を学習する請求項1に記載の情報処理装置。
- 前記取得手段は、前記入力画像と、前記学習手段により前記ラベルあり画像と前記ラベルデータとに基づいて学習された前記情報変換器と、に基づいて、前記複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する請求項2に記載の情報処理装置。
- 前記学習手段は、更に、前記入力画像に基づいて、Virtual Adversarial Training(VAT)を行うことで、前記情報変換器を学習する請求項1乃至3の何れか1項に記載の情報処理装置。
- 前記第1の学習指標は、前記情報変換器の信頼性に関する指標を含む請求項1乃至4の何れか1項に記載の情報処理装置。
- 前記取得手段は、前記入力画像の入力に応じて前記情報変換器から出力される出力データから定まるスカラー値関数に対する前記入力画像の各ピクセル値に関する1回微分情報に基づいて、前記複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する請求項1乃至5の何れか1項に記載の情報処理装置。
- 前記取得手段は、前記入力画像の入力に応じて前記情報変換器から出力される出力データが示す複数の出力値のうち、最も値の高いものから順に選択された1つ以上の出力値に基づいて、前記複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する請求項1乃至6の何れか1項に記載の情報処理装置。
- 前記入力画像は、前記情報変換器の学習に用いられる学習データ群に含まれる画像であり、
前記生成手段は、前記入力画像における前記特定手段により特定された前記1つ以上の領域に含まれる領域を、前記入力画像と異なる画像であって、前記学習データ群に含まれる複数の画像の前記領域に基づいて生成された画像に置換することで、前記マスク画像を生成する請求項1乃至7の何れか1項に記載の情報処理装置。 - 前記情報変換器は、入力されるデータが予め定められた複数のクラスそれぞれに属する確率を示す事後確率分布を出力する情報変換器であり、
前記学習手段は、更に、前記複数のクラスの何れか1つに属するラベルなし画像と、前記ラベルなし画像の入力に応じて前記情報変換器から出力される出力データの乱雑さの度合に関する第2の学習指標と、に基づいて、前記情報変換器を学習する請求項1乃至8の何れか1項に記載の情報処理装置。 - 前記情報変換器は、入力された画像が属するクラスを分類する情報変換器である請求項1乃至9の何れか1項に記載の情報処理装置。
- 入力画像と、入力された画像が属するクラスを分類する情報変換器と、に基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得手段と、
前記取得手段により前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された1つ以上の度合であって、前記1つ以上の度合の合計が設定された閾値未満となる前記1つ以上の度合それぞれに対応する1つ以上の領域を特定する特定手段と、
前記入力画像における前記特定手段により特定された前記1つ以上の領域に含まれる領域を、前記入力画像と異なる画像に置換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成手段と、
予め定められた第1の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成手段により生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第1の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習手段と、
前記学習手段により学習された前記情報変換器と、分類対象の画像と、に基づいて、前記画像の属するクラスを分類する分類手段と、
を有するシステム。 - 情報処理装置が実行する情報処理方法であって、
入力画像と情報変換器とに基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得ステップと、
前記取得ステップで前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された1つ以上の度合であって、前記1つ以上の度合の合計が設定された閾値未満となる前記1つ以上の度合それぞれに対応する1つ以上の領域を特定する特定ステップと、
前記入力画像における前記特定ステップで特定された前記1つ以上の領域に含まれる領域を、前記入力画像と異なる画像に置換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成ステップと、
予め定められた第1の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成ステップで生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第1の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習ステップと、
を含む情報処理方法。 - コンピュータを、請求項1乃至10の何れか1項に記載の情報処理装置の各手段として、機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019082190A JP2020181265A (ja) | 2019-04-23 | 2019-04-23 | 情報処理装置、システム、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019082190A JP2020181265A (ja) | 2019-04-23 | 2019-04-23 | 情報処理装置、システム、情報処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020181265A true JP2020181265A (ja) | 2020-11-05 |
Family
ID=73024522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019082190A Ceased JP2020181265A (ja) | 2019-04-23 | 2019-04-23 | 情報処理装置、システム、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020181265A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022118373A1 (ja) * | 2020-12-01 | 2022-06-09 | 日本電信電話株式会社 | 識別器生成装置、識別器生成方法および識別器生成プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1031658A (ja) * | 1996-07-17 | 1998-02-03 | Nippon Telegr & Teleph Corp <Ntt> | ニューラルネットによる事後確率推定のための教師信号生成方法及びニューラルネットによる事後確率推定システム |
JP2008059110A (ja) * | 2006-08-30 | 2008-03-13 | Nec Corp | 物体識別パラメータ学習システム、物体識別パラメータ学習方法および物体識別パラメータ学習用プログラム |
JP2012181855A (ja) * | 2005-08-08 | 2012-09-20 | Toshiba Corp | 辞書作成方法及び識別用辞書を記憶する記憶媒体 |
JP2019046236A (ja) * | 2017-09-04 | 2019-03-22 | 株式会社東芝 | 学習装置、情報処理装置、学習方法およびプログラム |
-
2019
- 2019-04-23 JP JP2019082190A patent/JP2020181265A/ja not_active Ceased
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1031658A (ja) * | 1996-07-17 | 1998-02-03 | Nippon Telegr & Teleph Corp <Ntt> | ニューラルネットによる事後確率推定のための教師信号生成方法及びニューラルネットによる事後確率推定システム |
JP2012181855A (ja) * | 2005-08-08 | 2012-09-20 | Toshiba Corp | 辞書作成方法及び識別用辞書を記憶する記憶媒体 |
JP2008059110A (ja) * | 2006-08-30 | 2008-03-13 | Nec Corp | 物体識別パラメータ学習システム、物体識別パラメータ学習方法および物体識別パラメータ学習用プログラム |
JP2019046236A (ja) * | 2017-09-04 | 2019-03-22 | 株式会社東芝 | 学習装置、情報処理装置、学習方法およびプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022118373A1 (ja) * | 2020-12-01 | 2022-06-09 | 日本電信電話株式会社 | 識別器生成装置、識別器生成方法および識別器生成プログラム |
JP7491404B2 (ja) | 2020-12-01 | 2024-05-28 | 日本電信電話株式会社 | 識別器生成装置、識別器生成方法および識別器生成プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126482B (zh) | 一种基于多分类器级联模型的遥感影像自动分类方法 | |
KR101410489B1 (ko) | 얼굴 식별 방법 및 그 장치 | |
EP3754548A1 (en) | A method for recognizing an object in an image using features vectors of an encoding neural network | |
JP6897749B2 (ja) | 学習方法、学習システム、および学習プログラム | |
CN108520215B (zh) | 基于多尺度联合特征编码器的单样本人脸识别方法 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
US20210142046A1 (en) | Deep face recognition based on clustering over unlabeled face data | |
Tang et al. | Classification for overlapping classes using optimized overlapping region detection and soft decision | |
CN110580499B (zh) | 基于众包重复标签的深度学习目标检测方法及系统 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN113095370A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN112085086A (zh) | 一种基于图卷积神经网络的多源迁移学习方法 | |
KR20210029110A (ko) | 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법 | |
CN114503131A (zh) | 检索装置、检索方法、检索程序和学习模型检索系统 | |
CN116110089A (zh) | 一种基于深度自适应度量学习的面部表情识别方法 | |
Shuai et al. | Multi-source feature fusion and entropy feature lightweight neural network for constrained multi-state heterogeneous iris recognition | |
CN113222002B (zh) | 一种基于生成式鉴别性对比优化的零样本分类方法 | |
CN112529025A (zh) | 一种数据处理方法及装置 | |
CN117371511A (zh) | 图像分类模型的训练方法、装置、设备及存储介质 | |
JP2020181265A (ja) | 情報処理装置、システム、情報処理方法及びプログラム | |
Liu et al. | A weight-incorporated similarity-based clustering ensemble method | |
Parsi et al. | Improving the unsupervised LBG clustering algorithm performance in image segmentation using principal component analysis | |
JP2020204800A (ja) | 学習用データセット生成システム、学習サーバ、及び学習用データセット生成プログラム | |
KR20200124887A (ko) | 데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치 | |
CN115511798A (zh) | 一种基于人工智能技术的肺炎分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190515 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220311 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230227 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230314 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20230725 |