JP2020181265A - 情報処理装置、システム、情報処理方法及びプログラム - Google Patents

情報処理装置、システム、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2020181265A
JP2020181265A JP2019082190A JP2019082190A JP2020181265A JP 2020181265 A JP2020181265 A JP 2020181265A JP 2019082190 A JP2019082190 A JP 2019082190A JP 2019082190 A JP2019082190 A JP 2019082190A JP 2020181265 A JP2020181265 A JP 2020181265A
Authority
JP
Japan
Prior art keywords
image
learning
input
input image
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2019082190A
Other languages
English (en)
Inventor
貝塚 洋
Hiroshi Kaizuka
洋 貝塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texeng Solution Corp
NS Solutions Corp
Original Assignee
Texeng Solution Corp
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texeng Solution Corp, NS Solutions Corp filed Critical Texeng Solution Corp
Priority to JP2019082190A priority Critical patent/JP2020181265A/ja
Publication of JP2020181265A publication Critical patent/JP2020181265A/ja
Ceased legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】より適切に情報変換器を学習することを目的とする。【解決手段】入力画像と情報変換器とに基づいて、入力画像に設定された複数の領域それぞれについて、情報変換器から出力される出力データに対する影響の度合を取得し、取得された度合のうち、最も小さいものから順に選択された1つ以上の度合であって、合計が設定された閾値未満となる1つ以上の度合それぞれに対応する1つ以上の領域を特定し、入力画像における特定された1つ以上の領域に含まれる領域を、入力画像と異なる画像に置換することで、マスク画像を生成し、入力画像の入力に応じて情報変換器から出力される出力データと、生成されたマスク画像の入力に応じて情報変換器から出力される出力データと、の距離に関する学習指標と、入力画像と、マスク画像と、に基づいて、情報変換器を学習する。【選択図】図4

Description

本発明は、情報処理装置、システム、情報処理方法及びプログラムに関する。
画像分類問題を解決するための認識器の学習を行う場合、その課題に関連する画像群が学習データとして用いられる。その際、画像にラベル(画像が属するクラスを示すデータ)を人手で付与する作業に手間がかかるため、ラベル付きデータに比べて、ラベルなしデータが大量に存在するという状況が起こりうる。そこで、大量に存在するラベルなしデータを活用できるように、ラベルを用いずに学習を行う手法が提案されている。
ラベルを用いずに、学習を行う手法として、consistency regularizationがある。その中の1つの手法として、入力データと入力データに微小な摂動を加えた摂動データとの2つのデータを利用する手法がある。
この手法について説明する。まず、入力データxに対して、微少量ε(例えば、0.01)と、xの長さ||x||と、単位長さの摂動量dと、から求まるε・||x||・dなる摂動量を求める。そして、摂動量をxに加えてx+ε・||x||・dなる摂動データx’を生成する。この場合、事後確率分布p(x;θ)と事後確率分布p(x’;θ)との距離を示す関数をD(p(x;θ)、p(x’;θ))とおくと、D(p(x;θ)、p(x’;θ))の値は、微小となると仮定できる。微小量の変動を加えても、入力データxのクラスに変化が生じるとは考えにくいためである。
したがって、処理時点における認識器の重みパラメータを、θkとすると、D(p(x;θk)、p(x’;θk+Δθ))の値ができるだけ小さくなるように、Δθを決定する。そして、θk+Δθを、学習された認識器の重みパラメータとして決定する。関数D(p(x;θ)、p(x’;θ))としては、ユークリッド距離やKullbach−Leiblerダイバージェンス等を採用することができる。
非特許文献1には、この手法の一例として、Virtual Adversarial Training(VAT)が開示されている。VATでは、距離D(p(x;θk)、p(x+d’;θk))が一番変化する方向d’を求め、d’を正規化することで単位長さの摂動量dを求める。こうすることで、処理点での情報変換器が出力する事後確率分布が最も変化する摂動データx’=x+ε・||x||・dを生成する。そして、距離D(p(x;θk)、p(x’;θk+Δθ))ができるだけ小さくなるようにΔθを決定することで、認識器が保有する一番の弱点を効率的に修正することができる。この工夫によって、VATは、高度な汎化性能を有する情報変換器を実現している。
Takeru Miyato、 Shin−ichi Maeda、 Masanori Koyama、 and Shin Ishii. Virtual adversarial training: a regularization method for supervised and semi−supervised learning. arXiv preprintarXiv:1704.03976、 2017.
画像のクラス分類において、入力画像内の背景部分、入力画像内のオブジェクトにおける特徴のない部分等については、クラス分類に対する影響が軽微であるはずである。そのため、画像のクラス分類を行う情報変換器は、このような領域の影響を極力受けない出力データを出力できるようになるのが望ましい。しかし、VAT等の従来技術では、そのように情報変換器を学習することができず、情報変換器の学習の精度に限界があった。
そこで、本発明は、より適切に情報変換器を学習することを目的とする。
そこで、本発明の情報処理装置は、入力画像と情報変換器とに基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得手段と、前記取得手段により前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された1つ以上の度合であって、前記1つ以上の度合の合計が設定された閾値未満となる前記1つ以上の度合それぞれに対応する1つ以上の領域を特定する特定手段と、前記入力画像における前記特定手段により特定された前記1つ以上の領域に含まれる領域を、前記入力画像と異なる画像に変換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成手段と、予め定められた第1の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成手段により生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第1の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習手段と、を有する。
本発明によれば、より適切に情報変換器を学習することができる。
図1は、学習対象の認識器の一例を示す図である。 図2は、情報処理装置のハードウェア構成の一例を示す図である。 図3は、情報処理装置の機能構成の一例を示す図である。 図4は、情報処理装置の処理の一例を示すフローチャートである。 図5は、マスク画像の一例を説明する図である。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
(本実施形態の処理の概要)
本実施形態における情報処理装置200は、認識器100を機械学習する。
図1を用いて、本実施形態の学習対象となる認識器100について説明する。認識器100は、入力されたデータが、K個のクラスそれぞれに属する確率を、事後確率分布として出力する情報変換器である。以下では、このK個のクラスを、クラス1〜クラスKとする。本実施形態では、Kは、1以上の整数である。本実施形態では、認識器100は、画像データを入力データとして受けつける。本実施形態では、クラス1〜クラスKそれぞれは、入力データが何のオブジェクト(例えば、犬、猫、熊、人、車等)の画像であるかを示すクラスである。何等かのオブジェクトが撮影された画像データと、そのオブジェクトに対応するクラスと、には相関があるとみなすことができる。
認識器100は、識別器101を含む。識別器101は、入力された画像データに基づいて、入力データがクラス1〜クラスKそれぞれに属する確からしさの度合を示す識別量(K次元ベクトル)を出力する。認識器100は、ソフトマックス関数を用いて、識別器101により出力された識別量を、入力されたデータがクラス1〜クラスKそれぞれに属する確率を示す事後確率分布に変換し、出力する。本実施形態では、識別器101の重みパラメータをθとすると、認識器100から出力される事後確率分布をp(x;θ)と表す。また、p(x;θ)が示に示される事後確率であって、xがクラスn(n:1以上K以下の任意の整数)に属する事後確率を、pn(x;θ)と表す。
情報変換器の学習とは、学習用のデータを用いて、予め定められた指標に基づいて、情報変換器の重みパラメータを更新することである。以下では、認識器100の学習に用いられるデータを学習データとする。学習データには、ラベル付きデータ、ラベルなしデータがある。本実施形態では、学習データは、それぞれ、何等かのオブジェクトが撮影された画像データであって、サイズがNr×Ncであり、チャネル数がNdである画像データであるとする。本実施形態では、Nr=Nc=32である。また、本実施形態では、Nd=3である。
本実施形態では、情報処理装置200は、認識器100に対して半教師あり学習を行う。より具体的には、情報処理装置200は、学習データのうちラベル付きデータと、そのラベルデータと、を用いて、認識器100の学習を行い、更に、ラベルデータを用いずに、認識器100の学習を行う。半教師あり学習とは、ラベル付きデータとラベルなしデータとの双方を用いた学習である。また、教師あり学習とは、ラベル付きデータを用いて、ラベルなしデータを用いない学習である。
以下では、ラベル付きデータに対応付けられたラベルデータを用いた学習を、ラベル有り学習とする。また、以下では、以下では、ラベル付きデータに対応付けられたラベルデータを用いない学習を、ラベルなし学習とする。
本実施形態における情報処理装置200が行う認識器100のラベルなし学習の概要を説明する。
情報処理装置200は、学習データ内に設定された複数の領域それぞれについて、認識器100の出力データに対する影響の度合を求める。そして、情報処理装置200は、求めた度合に基づいて、学習データ内におけるクラス分類に対する影響が軽微であるため、画像分類にとっては重要でない領域を特定する。情報処理装置200は、学習データにおける特定した領域を、学習データと異なる画像に置換し、マスク画像を生成する。そして、情報処理装置200は、学習データの入力に応じて認識器100に出力される出力データと、マスク画像の入力に応じて認識器100から出力される出力データと、の距離が極力小さくなるように、認識器100を学習する。
以上が、本実施形態の情報処理装置200が行うラベルなし学習の概要である。このような処理により、情報処理装置200は、入力データ内の重要でない領域の影響をより受けにくい認識器100を学習できる。
(情報処理装置の詳細)
図2は、情報処理装置200のハードウェア構成の一例を示す図である。情報処理装置200は、例えば、パーソナルコンピュータ(PC)、サーバ装置、タブレット装置等である。
情報処理装置200は、CPU201、主記憶装置202、補助記憶装置203、入出力I/F204、ネットワークI/F205を含む。各要素は、システムバス206を介して相互に通信可能に接続されている。
CPU201は、情報処理装置200を制御する中央演算装置である。主記憶装置202は、CPU201のワークエリアやデータの一時的な記憶領域として機能するRandom Access Memory(RAM)等の記憶装置である。補助記憶装置203は、各種プログラム、各種設定情報、学習データの集合(ラベル付きデータ及びラベルなしデータ)、情報変換器の情報等を記憶する記憶装置である。補助記憶装置203は、例えば、Read Only Memory(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュメモリ等である。
以下では、補助記憶装置203に記憶された学習データの集合を、学習データ群とする。また、本実施形態では、学習データ群に含まれる学習データそれぞれは、予め定められた前処理(例えば、スムージング、エッジ処理等)が施された画像であるとする。ただし、他の例として、学習データ群に含まれる学習データそれぞれは、前処理が施されていない画像であるとしてもよい。
入出力I/F204は、マウス、キーボード、タッチパネル等の入力装置やモニタ、タッチパネルの表示部、スピーカ等の出力装置との接続に用いられるインターフェースである。CPU201は、入出力I/F204を介して、入力装置を用いて入力される情報を受付ける。また、CPU201は、入出力I/F204を介して、出力装置に対して情報を出力する。ネットワークI/F205は、ネットワークを介した外部の装置との間の通信に用いられるインターフェースである。CPU201は、ネットワークI/F205を介して、外部の装置との間で通信を行う。
CPU201が、補助記憶装置203に記憶されたプログラムにしたがって処理を実行することで、図3で後述する情報処理装置200の機能、図4で後述するフローチャートの処理等が実現される。
図3は、情報処理装置200の機能構成の一例を示す図である。
情報処理装置200は、取得部300、特定部301、生成部302、学習部303を含む。
取得部300は、認識器100の学習に用いられる学習データ等を取得する。
特定部301は、画像である学習データ内において認識器100からの出力に対して影響が軽微である領域を、マスク対象の領域として特定する。
生成部302は、学習データ内における特定部301により特定された領域を、学習データと異なる画像で置換することで、マスク画像を生成する。
学習部303は、生成部302により生成されたマスク画像に基づいて、認識器100に対してラベルなし学習を行う。また、学習部303は、ラベル付きデータと、ラベル付きデータに対応するラベルデータと、を用いて、認識器100に対してラベルあり学習を行う。
(情報処理装置の処理の詳細)
本実施形態における情報処理装置200が行う認識器100の半教師あり学習の処理を説明する。即ち、情報処理装置200は、補助記憶装置203に記憶された学習データ群から、予め定められた数のラベル付きデータとラベルなしデータとをランダムに選択し、選択した学習データを、ミニバッチとして取得する。情報処理装置200は、取得したミニバッチを用いて、認識器100に対して半教師あり学習を行う。以下では、1つのミニバッチを用いて行われる学習を、1ステップの学習とする。
以下では、k(1以上の任意の整数)+1ステップ目の学習の処理について説明する。即ち、前提として、kステップ目までの学習が完了している。以下では、kステップ目までの学習が完了している場合の認識器100のパラメータを、θkとおく。
ミニバッチの取得処理について説明する。
取得部300は、認識器100の1ステップの学習を開始する前に、補助記憶装置203に記憶された学習データ群からラベル付きデータとラベルなしデータとをそれぞれ予め定められた数だけランダムに選択し、選択した学習データをミニバッチとして取得する。以下では、取得部300により取得されたミニバッチに含まれる学習データ全体を、Xmbとおく。また、以下では、Xmbに含まれるラベル付きデータ全体を、Xmb labelとおく。また、また、以下では、Xmbに含まれるラベルなしデータ全体を、Xmb nolabelとおく。
本実施形態では、取得部300は、ミニバッチを補助記憶装置203に記憶された学習データから取得することとする。ただし、他の例として、取得部300は、ミニバッチを、他の方法で取得することとしてもよい。例えば、取得部300は、ネットワークI/F205を介して、外部のストレージ装置に記憶された学習データからミニバッチを取得することとしてもよい。
情報処理装置200は、1ステップの学習において、Xmb labelを用いて、認識器100のラベルあり学習を行い、Xmb=Xmb label∪Xmb nolabelに含まれるデータを用いて認識器100のラベルなし学習を行う。本実施形態では、情報処理装置200は、1ステップの学習において、最初にラベルあり学習を行い、次にラベルなし学習を行うこととする。ただし、他の例として、情報処理装置200は、1ステップの学習において、最初にラベルなし学習を行い、次にラベル有り学習を行うこととしてもよい。
情報処理装置200が実行する1ステップのラベルあり学習の処理を説明する。学習部303は、以下の式1で表される評価関数を最小化するように認識器100を学習する。
式1のmlabelは、Xmb labelに含まれる学習データの個数を示す。また、t(x)は、xに対応するラベルデータが示す事後確率分布を示す。また、Δθは、パラメータの更新量を示す。学習部303は、式1の評価関数を最小化するような、Δθの値を求めて、θkに求めたΔθを加えることでθkを更新する。更新後のθkが、ラベル有り学習の学習結果となる。続いて、情報処理装置200は、ラベルなし学習を行う。
図4は、情報処理装置200が実行する1ステップのラベルなし学習の処理の一例を示すフローチャートである。
S401において、取得部300は、ミニバッチから1つの学習データを選択する。S401で選択された学習データを、選択データとする。また、以下のS402〜S404の処理では、選択データをxとおく。選択データxは、入力画像の一例である。
S402において、特定部301は、選択データxに含まれる要素である各ピクセルに予め定められた摂動が加えられる場合、選択データxの入力に応じて認識器100から出力される出力データ(事後確率分布)に生じる変動を特定する。
認識器100から出力される事後確率分布は、p(x;θk)となる。ここで、kステップまでの学習におけるラベルあり学習が、認識器100に対して行われている。それにより、認識器100は、入力データがクラス1〜クラスKそれぞれに属する事後確率を、ラベルあり学習が行われていない場合に比べて、精度よく求めることができるようになっていることが期待できる。そのため、認識器100は、入力データが属するクラスの絞り込みがある程度可能な状態と仮定できる。よって、認識器100の出力である事後確率p1(x;θk)〜pK(x;θk)のうち、値が大きいものから選択された一部の事後確率に対応するクラスが、xの属するクラスの候補とみなすことができる。
そこで、本実施形態では、認識器100の出力が示す事後確率であるp1(x;θk)〜pK(x;θk)のうち、値が最大の物から順に選択された予め定められた数K’(1<=K’<=K)個について着目する。p1(x;θk)〜pK(x;θk)それぞれは、事後確率分布p(x;θk)が示す認識器100から出力される出力値の一例である。本実施形態では、K’=1とする。このK’個の確率pn(x;θk)(1<=n<=K)に対応するK’個のクラスが、xの属するクラスの候補となる。以下では、このK’個の事後確率pn(x;θk)(1<=n<=K)に対応するクラスを、xが属するクラスの候補である候補クラスとする。
大きいものから選択されたK’個の事後確率は、xが候補クラスに属する確率を示す相対的に重要な部分となる。そこで、本実施形態では、特定部301は、選択データxの各ピクセルに摂動が加えられた場合に、選択されたK’(=1)個の事後確率に生じる摂動を特定する。より具体的には、特定部301は、以下のような処理を実行する。
特定部301は、p1(x;θk)〜pK(x;θk)のうち最大のものからK’(=1)個を、特定する。そして、特定部301は、特定した事後確率を、以下の式2のように、p*(x、θk)とおく。
式2のjは、事後確率を識別するインデックスである。p*(x、θk)は、スカラー値関数である。特定部301は、xの各ピクセルのp*(x、θk)への影響の度合を取得する。以下では、xの各ピクセルのp*(x、θk)への影響の度合を、3Dピクセル感度とする。本実施形態では、特定部301は、xの各ピクセルに所定の変動がある場合に、p*(x、θk)に生じる変動の度合を、3Dピクセル感度として取得する。
より具体的には、特定部301は、以下の式3を用いて、3Dピクセル感度を求める。
式3の右辺は、xに対する変動rに関するp*(x、θk)の勾配∇r*(x+r;θk)|r=0を正規化することを示す。
式3のr3D(x)は、3Dピクセル感度を示す。また、rは、xに加えられる変動を示す。i、j、kそれぞれは、xにおけるピクセルを識別するためのインデックスである。また、||v||1の記号は、n次元ベクトルvのL1ノルム(|v1|+|v2|+・・・+|vn|)を示す。式3で求まるr3D(x)は、p*(x、θk)に対するxに含まれるNrNcNd個のピクセル値に関する1回微分情報を示す。
特定部301は、式3中の∇r*(x+r;θk)|r=0については、back−propagationのアルゴリズムを用いて、求める。これにより、特定部301は、より効率的に式3を計算できる。
特定部301は、xが示す2次元領域(各チャネルに共通のNr×Ndの領域)に、設定された2以上の整数Q個の領域を設定する。以下では、設定された領域それぞれを、部分領域とする。本実施形態では、特定部301は、xが示す2次元領域を、Q個に分割することで、Q個の部分領域を設定する。本実施形態では、Q=64である。
以下では、xが示す2次元領域をΩpixelとおく。また、以下では、部分領域それぞれを、Ω1 region〜ΩQ regionとおく。この場合、特定部301は、以下の4が成立するように、Ωpixelを、Ω1 region〜ΩQ regionに分割する。
本実施形態では、32、×32の2次元領域であるΩpixelを、それぞれが4×4のサイズの64個の部分領域Ω1 region〜Ω64 regionに分割する。
そして、特定部301は、求めた3Dピクセル感度に基づいて、部分領域Ω1 region〜Ω64 regionそれぞれについてのp*(x、θk)に対する影響の度合を決定する。以下では、部分領域それぞれについてのp*(x、θk)に対する影響の度合を、2D領域感度とする。本実施形態では、特定部301は、以下の式5を用いて、各部分領域について、部分領域内の全ピクセルの3Dピクセル感度の絶対値を集計することで、2D領域感度を決定する。
式5のr2D(x、Ωm region)は、部分領域Ωm regionについての2D領域感度を示す。また、mは、部分領域を識別するためのインデックスを示す。また、i、jは、それぞれΩpixel上の位置を識別するためのインデックスを示す。また、kは、xのチャネルを識別するためのインデックスを示す。
S403において、特定部301は、各部分領域について式5を用いて求めた2D領域感度に基づいて、部分領域の中でp*(x、θk)に対する影響の度合が軽微である部分領域を、マスクする対象となるマスク領域として特定する。以下でS403の処理の詳細を説明する。
特定部301は、各部分領域について式5を用いて求めた2D領域感度を、最小のものから昇順に整列させる。以下では、整列された2D領域感度それぞれに対応する部分領域を、それぞれΩq1〜ΩqQとおく。即ち、r2D(x、Ωq1 region)<=r2D(x、Ωq2 region)<=・・・<=r2D(x、ΩqQ region)となる。
特定部301は、最小のものから昇順に整列させた2D領域感度の中から、最小のものから順に2D領域感度を選択していく。特定部301は、選択した2D領域感度の合計が設定された閾値λ(例えば、0.5等)未満となるように、1つ以上の2D領域感度を選択する。本実施形態では、特定部301は、選択した2D領域感度の合計がこの閾値λ未満となる範囲で、最も多くの2D領域感度を選択する。本実施形態では、この閾値λは、予め補助記憶装置203に記憶されているとする。
特定部301は、選択した1つ以上の2D領域感度に対応する1つ以上の部分領域の集合を、マスク領域として特定する。以下では、ここでマスク領域として特定された領域をΩλ(x)とおく。
S404において、生成部302は、xの領域のうち、S403で特定されたマスク領域Ωλ(x)を、xと異なる画像で置換したマスク画像を生成する。以下では、Ωλ(x)をマスクしたマスク画像を、xmask(Ωλ(x))とおく。本実施形態では、生成部302は、以下の式6を用いて、マスク画像xmask(Ωλ(x))を生成する。
式6のi、j、kは、それぞれ、x内のピクセルの識別に用いられるインデックスである。i、jは、それぞれxが示す2D領域内の座標の識別に用いられる。kは、xのチャネルの識別に用いられる。また、xmean(i、j、k)は、補助記憶装置203に予め記憶されている学習データ群(ラベル付きデータとラベルなしデータとの全て)についての(i、j、k)ピクセルのピクセル値の平均値を示す。また、xsd(i、j、k)は、補助記憶装置203に予め記憶されている学習データ群についての(i、j、k)ピクセルのピクセル値の標準偏差を示す。また、n(i、j、k)は、[−1、1]の範囲の一様乱数を示す。
式6を用いることで、マスク領域がxと異なる画像に置換されたマスク画像が生成される。本実施形態では、生成部302は、式6を用いることで、マスク領域において、4×4のサイズの部分領域ごとではなく、ピクセルごとに、xと異なる画像で置換することとした。
選択データxが、図5(a)に示す画像である場合、S404で生成されるマスク画像の一例について、図5(b)に示す。
学習データ群に含まれる画像は、それぞれ認識器100の学習用に集められた画像である。よって、学習データ群に含まれる画像同士は、状況が類似する傾向にある。そのため、生成部302は、マスク領域を、式6が示すように学習データ群に基づいて定まる画像で置換することとすることで、不自然でない画素値の画像でマスクすることができる。
生成部302は、生成したマスク画像xmask(Ωλ(x))を、選択データxと対応付けて、補助記憶装置203に記憶する。
S405において、生成部302は、Xmbの全ての学習データについて、マスク画像を生成したか否かを判定する。生成部302は、Xmbの全ての学習データについて、マスク画像を生成したと判定した場合、処理をS406に進める。また、Xmbの中にマスク画像が生成されていない学習データがあると判定した場合、処理をS401に進める。
S406において、学習部303は、Xmbの学習データそれぞれと、Xmbの学習データそれぞれに対応するマスク画像と、を用いて、認識器100のラベルなし学習を行う。本実施形態では、学習部303は、以下の式7で表される評価関数の値を最小化するように、認識器100を学習する。より具体的には、学習部303は、式7の評価関数の値を最小化するようなΔθを求め、θkに求めたΔθを加えたパラメータを、k+1ステップ目のまでの学習が完了した認識器100のパラメータであるθk+1として決定する。式7の評価関数は、第1の学習指標の一例である。
式7のmは、Xmbに含まれる学習データの個数を示す。Dは、引数である2つの事後確率分布の距離を示す関数であり、本実施形態では、L2ノルムの2乗を示す関数である。ただし、他の例として、Dは、Kullbach−Leiblerダイバージェンスを示す関数であることとしてもよい。式7における関数Dの項は、選択データxの入力に応じて認識器100が出力する出力データと、マスク画像の入力に応じて認識器100が出力する出力データと、の距離に関する項である。
式7中の関数ρは、kステップ目までの学習が完了した認識器100の信頼の度合を示す非負の関数であり、以下の式8で表される。
式8のaは、予め設定された1以上の実数を示す。また、LEPは、エントロピー関数を示す。
本実施形態では、情報処理装置200は、kステップ目までの学習がされた認識器100の出力である事後確率分布p(x;θk)の最大事後確率(対応するクラスが現時点での分類判定)に対する影響が軽微な領域から順に、マスクし、マスク画像を生成する。学習部303は、生成したマスク画像を、認識器100に入力した際に、認識器100が出力する事後確率分布が、事後確率分布p(x;θk)からなるべく変化しないようにΔθを決定する。
この学習処理は、「認識器100が出力する事後確率分布の信頼性が一定以上に高い、即ち、最大確率に対応するクラスは、xが属するクラスに一致する」という前提の上に行われる。そのため、認識器100の信頼性の度合を示す関数ρを含む評価関数を用いることで、より適切に認識器100の学習を行うことができる。
エントロピー関数LEP(p(x;θk))は、事後確率分布p(x;θ)の乱雑さの度合を評価する関数であり、事後確率分布が、1つのクラスに属する確率が1で他のクラスに属する確率が0となる分布に近い程、最小値である0に近づく関数である。そのため、式8に示す関数ρは、事後確率分布p(x;θ)の不確かさを評価する1つの指標たりえる。
本実施形態では、関数ρは、式8で示される関数であるとした。ただし、他の例として、関数ρは、以下の式9で示される関数としてもよい。式9のaは、予め設定された正の実数を示す。ここで、0<=LEP(p(x;θk))/log(K)<=1なので、0<=1−LEP(p(x;θk))/log(K)<=1となる。
(効果)
以上、本実施形態では、情報処理装置200は、学習データの領域の中で、認識器100によるクラス分類処理にとって重要でない領域を特定し、特定した領域をマスクしたマスク画像を生成した。そして、情報処理装置200は、学習データの入力に応じて認識器100から出力される事後確率分布と、マスク画像の入力に応じて認識器100から出力される事後確率分布と、の距離に関する評価関数を最小化するように認識器100をラベルなし学習した。
これにより、情報処理装置200は、入力データ内の重要でない領域の影響をより受けにくいように、認識器100をより適切に学習できる。
(変形例1)
本実施形態では、情報処理装置200は、1ステップの認識器100の学習において、Xmb labelを用いた認識器100のラベルあり学習と、Xmbを用いた図4に示すラベルなし学習と、を行うこととした。ただし、情報処理装置200は、1ステップの認識器100の学習において、更に、Xmbを用いたVirtual Adversarial Training(VAT)によるラベルなし学習を行うこととしてもよい。
ここで、k+1ステップ目におけるVATによる認識器100の学習について説明する。
情報処理装置200は認識器100の出力する事後確率分布を最も毀損し、かつ、微小なサイズとして定められたサイズの摂動を求めて、求めた摂動をデータxに加えることによって摂動データx’を生成する。そして、情報処理装置200は、事後確率分布p(x’;θk+Δθ))が事後確率分布p(x;θ)からできるだけ変化しないように重みパラメータの更新量Δθを決定する。
より具体的には、情報処理装置200は、p(x’;θk+Δθ)とp(x;θ)との距離を示す関数D(p(x’;θk+Δθ))、p(x;θ))を評価関数として用いて、この評価関数を最小化するようにΔθを求める。
このように、VATは、画像データの中で、現在の分類判定に重要な領域を重点的に乱すことで、認識器100の汎化性能を強化する学習法であると言える。対して、図4で説明した本実施形態のラベルなし学習の手法は、画像データxの領域の中で、認識器100による分類処理に重要でない領域が優先的にマスクされた画像データを生成し、学習に使用する手法である。即ち、VATと逆の発想の手法となる。
このため、VATと図4で説明した本実施形態のラベルなし学習の手法との両手法は、相互に補完し合う学習を実現することができる。
また、VATでは、xに加える摂動を求める際に、p(x;θ)と、p(x+d’;θ)と、の距離が一番変化する方向d’を求めるために、xに含まれるNrNcNd個のピクセル値に関する2回微分情報を使用する。
なぜならば、p(x;θ)とp(x+d’;θ)との距離は、非負のスカラー値関数で表され、d’=0で最小値を取る。そのため、この距離のxに含まれるNrNcNd個のピクセル値に関する1回微分情報は、0ベクトルになってしまうからである。
一方で、図4のラベルなし学習では、画像データxを認識器100に入力したときに認識器100が出力する事後確率分布から定まるスカラー値関数の、xに含まれるNrNcNd個のピクセル値に関する1回微分情報が使用される。
1回微分情報は、個々のピクセルのピクセル値に関する感度情報である。一方で、2回微分情報は、相異なる2つのピクセルの2つのピクセル値に関する感度を含む感度情報である。このために、VATと本実施形態のラベルなし学習の手法との両手法は、相互に補完し合う学習を実現することができる。
(変形例2)
学習データのラベルなしデータそれぞれについて、属するクラスは不明であるが、必ずこの複数のクラスの何れかに属することが仮定できる場合がある。この場合、情報処理装置200は、1ステップの認識器100の学習において、Xmb nolabelを用いて、更に、以下のような学習を行うこととしてもよい。
即ち、学習部303は、以下の式10で表される評価関数を最小化するように、認識器100をラベルなし学習する。式10で表される評価関数は、第2の学習指標の一例である。
式10のmnolabelは、Xmb nolabelに含まれる学習データの個数を示す。また、LEPは、式8と同様にエントロピー関数である。LEPは、事後確率分布p(x;θk)の乱雑さの度合を示す関数であり、1つのクラスに属する確率が1で他のクラスに属する確率が0となる分布に近い程、最小値である0に近づく関数である。式10の評価関数は、画像xが入力された場合に認識器100から出力される確率分布に関する指標の一例である。
情報処理装置200は、更に、このような学習を行うことで、より適切に認識器100を学習することができる。
(変形例3)
本実施形態では、情報処理装置200は、認識器100に対するラベル有り学習とラベルなし学習とを交互に実行することとした。ただし、他の例として、情報処理装置200は、認識器100に対するラベル有り学習とラベルなし学習とを同時実行することとしてもよい。
その場合、学習部303は、ラベル有り学習で用いられる式1の評価関数と、ラベルなし学習で用いられる式7の評価関数と、を重み付き加算したものを最終的な評価関数として、この最終的な評価関数を最小化するように、認識器100を学習する。
また、情報処理装置200は、変形例1で説明したVATによるラベルなし学習、変形例2で説明したラベルなし学習のうちの1つ以上を更に行う場合、以下のように行うこととしてもよい。即ち、情報処理装置200は、VATによるラベルなし学習で用いられる評価関数と式10の評価関数とのうちの少なくとも1つ以上と、式1の評価関数と、式7の評価関数と、を重み付き加算したものを最終的な評価関数とする。そして、情報処理装置200は、この最終的な評価関数を最小化するように、認識器100を学習することとしてもよい。
(変形例4)
本実施形態では、K’=1であることとした。ただし、他の例として、K’は、2以上の整数であることとしてもよい。
その場合、情報処理装置200は、例えば、式2に示されるp*(x、θk)の代わりに、p1(x;θk)〜pK(x;θk)のうち最大のものから選択したK’個の事後確率の平均を示す関数を用いてもよい。
また、情報処理装置200は、例えば、以下のようにしてもよい。即ち、情報処理装置200は、p1(x;θk)〜pK(x;θk)のうち最大のものから選択したK’個の事後確率のそれぞれを、順次、p*(x、θk)とおき、式3を用いて、3Dピクセル感度を求める。そして、情報処理装置200は、K’個の事後確率のそれぞれについて求めた3Dピクセル感度の平均を、最終的な3Dピクセル感度として決定し、以降の処理に用いることとしてもよい。
(変形例5)
本実施形態では、情報処理装置200は、式3を用いて、3Dピクセル感度を求めることとした。ただし、他の例として、情報処理装置200は、他の方法を用いて、3Dピクセル感度を求めることとしてもよい。例えば、情報処理装置200は、以下の式11を用いて、3Dピクセル感度を求めることとしてもよい。
式11のpは、予め定められた2以上の整数である。また、||v||pの記号は、n次元ベクトルvのLpノルム(|v1p+|v2p+・・・+|vnp1/pを示す。
また、情報処理装置200は、式11を用いて、3Dピクセル感度を求めた場合、式5ではなく以下の式12を用いて、各部分領域の2D領域感度を求めることとしてもよい。
(変形例6)
本実施形態では、S403の処理で用いられる閾値は、予め補助記憶装置203に記憶されていることとした。ただし、他の例として、情報処理装置200は、他の方法で、この閾値の値を求めてもよい。例えば、情報処理装置200は、入出力I/F204に接続された入力装置を介したユーザの操作に基づいて、この閾値を決定してもよい。
また、情報処理装置200は、学習のステップ数に基づいて、この閾値を決定してもよい。例えば、情報処理装置200は、kステップ目の学習において、予め定められた係数にkを乗じた値を、この閾値として決定してもよい。また、例えば、情報処理装置200は、kステップ目の学習において、kの値が予め定められた範囲内の数値である場合、その範囲に対応して予め設定された値を、この閾値として決定してもよい。
(変形例7)
本実施形態では、認識器100は、識別器101の出力データにソフトマックス関数を施し、入力データが複数のクラスそれぞれに属する確率を出力する情報変換器であるとした。しかし、認識器100は、ソフトマックス関数を用いずに、識別器101の出力データを、入力されるデータの特性を示すデータとしてそのまま出力する情報変換器であることとしてもよい。その場合、認識器100の出力pは、事後確率分布ではなく、K次元のベクトルデータとなる。
その場合、情報処理装置200は、図4の処理で、事後確率の代わりに、認識器100の出力pの各要素の値を用いる。
(変形例8)
本実施形態では、学習データxが示す2次元領域が分割された部分領域は、それぞれ4×4のサイズの領域であるとした。ただし、他の例として、部分領域は、他のサイズの領域であるとしてもよい。例えば、部分領域は、それぞれ8×8のサイズの領域であるとしてもよい。また、例えば、部分領域は、円形、楕円形、三角形等の矩形以外の形状であるとしてもよい。また、例えば、部分領域は、入出力I/F204に接続された入力装置を介してユーザから指定された形状や外部の装置から指定された形状であるとしてもよい。また、例えば、部分領域は、それぞれ1×1のサイズの領域(ピクセル)であるとしてもよい。
ただし、画像においては、複数のピクセルの集合により何等かのオブジェクトが表されることとなる。そのため、画像内における特徴は、ピクセル単位では表れにくい。そこで、より適切に、画像内におけるクラス分類への影響の軽微な領域を特定するためには、部分領域は、1×1のサイズよりも大きなサイズの領域であることが望ましい。
(変形例9)
本実施形態では、情報処理装置200は、S402で、xが示すNr×Ncの2次元領域を、Q個に分割することで、Q個の部分領域を設定することとした。即ち、これらQ個の部分領域を全て合わせると元のxが示すNr×Ncの2次元領域となる。ただし、他の例として、情報処理装置200は、Q個の部分領域を、xの示すNr×Ncの2次元領域上に任意に設定してもよい。例えば、情報処理装置200は、Q個の部分領域全て合わせた領域がxの示すNr×Ncの2次元領域の一部の領域となるように、Q個の部分領域を設定してもよい。
(変形例10)
本実施形態では、ラベルなし学習に用いられる評価関数である式7の評価関数は、認識器100の信頼の度合を示す関数ρを含む関数であるとした。ただし、他の例として、ラベルなし学習に用いられる評価関数は、関数ρを含まない関数としてもよい。例えば、情報処理装置200は、式7における関数ρの部分を1に代替した評価関数をラベルなし学習に用いることとしてもよい。
(変形例11)
本実施形態では、S404で、生成部302は、S403で特定されたマスク領域の全ての領域を選択データxと異なる画像で置換することで、マスク画像を生成することとした。ただし、他の例として、生成部302は、S403で特定されたマスク領域の一部のみを選択データxと異なる画像で置換することで、マスク画像を生成することとしてもよい。即ち、生成部302は、マスク領域の一部の領域については、xのままにしたマスク画像を生成してもよい。
(変形例12)
本実施形態では、情報処理装置200は、ラベル付きデータとラベルなしデータとの双方を用いて、認識器100に対して半教師あり学習を行うこととした。ただし、他の例として、情報処理装置200は、ラベル付きデータのみを用いて、認識器100に対して教師あり学習を行うこととしてもよい。その場合、Xmbには、ラベル付きデータしか含まれない。即ち、Xmb=Xmb labelとなる。また、式2において、p1(x;θk)〜pK(x;θk)のうちの最大確率p*(x、θk)を採用する代わりに、xが属するクラスに対する確率pxが属するクラス(x;θk)を採用してもよい。
(変形例13)
本実施形態では、クラス1〜クラスKそれぞれは、入力データが何のオブジェクト(例えば、犬、猫、熊、人等)の画像であるかを示すクラスであることとした。ただし、他の例として、クラス1〜クラスKそれぞれは、他のクラスであることとしてもよい。例えば、画像データとその画像データに撮影された状況とには相関があるとみなすことができるため、クラス1〜クラスKそれぞれは、入力データがどのような状況の画像であるか(例えば、雨天の屋外、晴天の屋外、室内等)の画像であるかを示すクラスであることとしてもよい。
(変形例14)
本実施形態では、情報処理装置200は、認識器100を学習することとした。情報処理装置200は、更に、学習した認識器100を用いて、新たに入力された分類対象の画像のクラスを分類する処理を行うこととしてもよい。また、情報処理装置200とネットワークを介して接続された外部の情報処理装置が、情報処理装置200から、学習された認識器100を受信し、受信した認識器100を用いて、分類対象の画像のクラスを分類する処理を行うこととしてもよい。
<その他の実施形態>
実施形態1では、情報処理装置200は、単体の情報処理装置であるとした。しかし、情報処理装置200は、ネットワーク(LANやインターネット)を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置200に含まれる複数の情報処理装置それぞれのCPUが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、図3の機能及び図4のフローチャートの処理等が実現される。
以上、本発明の実施形態の一例について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置200の機能構成の一部又は全てをハードウェアとして情報処理装置200に実装してもよい。また、上述した実施形態1と各変形例とを任意に組み合わせる等してもよい。
200 情報処理装置
201 CPU

Claims (13)

  1. 入力画像と情報変換器とに基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得手段と、
    前記取得手段により前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された1つ以上の度合であって、前記1つ以上の度合の合計が設定された閾値未満となる前記1つ以上の度合それぞれに対応する1つ以上の領域を特定する特定手段と、
    前記入力画像における前記特定手段により特定された前記1つ以上の領域に含まれる領域を、前記入力画像と異なる画像に置換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成手段と、
    予め定められた第1の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成手段により生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第1の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習手段と、
    を有する情報処理装置。
  2. 前記学習手段は、更に、ラベルあり画像と前記ラベルあり画像に対応するラベルデータとに基づいて、前記情報変換器を学習する請求項1に記載の情報処理装置。
  3. 前記取得手段は、前記入力画像と、前記学習手段により前記ラベルあり画像と前記ラベルデータとに基づいて学習された前記情報変換器と、に基づいて、前記複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する請求項2に記載の情報処理装置。
  4. 前記学習手段は、更に、前記入力画像に基づいて、Virtual Adversarial Training(VAT)を行うことで、前記情報変換器を学習する請求項1乃至3の何れか1項に記載の情報処理装置。
  5. 前記第1の学習指標は、前記情報変換器の信頼性に関する指標を含む請求項1乃至4の何れか1項に記載の情報処理装置。
  6. 前記取得手段は、前記入力画像の入力に応じて前記情報変換器から出力される出力データから定まるスカラー値関数に対する前記入力画像の各ピクセル値に関する1回微分情報に基づいて、前記複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する請求項1乃至5の何れか1項に記載の情報処理装置。
  7. 前記取得手段は、前記入力画像の入力に応じて前記情報変換器から出力される出力データが示す複数の出力値のうち、最も値の高いものから順に選択された1つ以上の出力値に基づいて、前記複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する請求項1乃至6の何れか1項に記載の情報処理装置。
  8. 前記入力画像は、前記情報変換器の学習に用いられる学習データ群に含まれる画像であり、
    前記生成手段は、前記入力画像における前記特定手段により特定された前記1つ以上の領域に含まれる領域を、前記入力画像と異なる画像であって、前記学習データ群に含まれる複数の画像の前記領域に基づいて生成された画像に置換することで、前記マスク画像を生成する請求項1乃至7の何れか1項に記載の情報処理装置。
  9. 前記情報変換器は、入力されるデータが予め定められた複数のクラスそれぞれに属する確率を示す事後確率分布を出力する情報変換器であり、
    前記学習手段は、更に、前記複数のクラスの何れか1つに属するラベルなし画像と、前記ラベルなし画像の入力に応じて前記情報変換器から出力される出力データの乱雑さの度合に関する第2の学習指標と、に基づいて、前記情報変換器を学習する請求項1乃至8の何れか1項に記載の情報処理装置。
  10. 前記情報変換器は、入力された画像が属するクラスを分類する情報変換器である請求項1乃至9の何れか1項に記載の情報処理装置。
  11. 入力画像と、入力された画像が属するクラスを分類する情報変換器と、に基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得手段と、
    前記取得手段により前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された1つ以上の度合であって、前記1つ以上の度合の合計が設定された閾値未満となる前記1つ以上の度合それぞれに対応する1つ以上の領域を特定する特定手段と、
    前記入力画像における前記特定手段により特定された前記1つ以上の領域に含まれる領域を、前記入力画像と異なる画像に置換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成手段と、
    予め定められた第1の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成手段により生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第1の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習手段と、
    前記学習手段により学習された前記情報変換器と、分類対象の画像と、に基づいて、前記画像の属するクラスを分類する分類手段と、
    を有するシステム。
  12. 情報処理装置が実行する情報処理方法であって、
    入力画像と情報変換器とに基づいて、前記入力画像に設定された複数の領域それぞれについて、前記入力画像の入力に応じて前記情報変換器から出力される出力データに対する影響の度合を取得する取得ステップと、
    前記取得ステップで前記複数の領域それぞれについて取得された度合のうち、最も小さいものから順に選択された1つ以上の度合であって、前記1つ以上の度合の合計が設定された閾値未満となる前記1つ以上の度合それぞれに対応する1つ以上の領域を特定する特定ステップと、
    前記入力画像における前記特定ステップで特定された前記1つ以上の領域に含まれる領域を、前記入力画像と異なる画像に置換することで、前記入力画像における前記領域がマスクされた画像であるマスク画像を生成する生成ステップと、
    予め定められた第1の学習指標であって、前記入力画像の入力に応じて前記情報変換器から出力される出力データと、前記生成ステップで生成された前記マスク画像の入力に応じて前記情報変換器から出力される出力データと、の距離に関する前記第1の学習指標と、前記入力画像と、前記マスク画像と、に基づいて、前記情報変換器を学習する学習ステップと、
    を含む情報処理方法。
  13. コンピュータを、請求項1乃至10の何れか1項に記載の情報処理装置の各手段として、機能させるためのプログラム。
JP2019082190A 2019-04-23 2019-04-23 情報処理装置、システム、情報処理方法及びプログラム Ceased JP2020181265A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019082190A JP2020181265A (ja) 2019-04-23 2019-04-23 情報処理装置、システム、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019082190A JP2020181265A (ja) 2019-04-23 2019-04-23 情報処理装置、システム、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2020181265A true JP2020181265A (ja) 2020-11-05

Family

ID=73024522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019082190A Ceased JP2020181265A (ja) 2019-04-23 2019-04-23 情報処理装置、システム、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2020181265A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022118373A1 (ja) * 2020-12-01 2022-06-09 日本電信電話株式会社 識別器生成装置、識別器生成方法および識別器生成プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031658A (ja) * 1996-07-17 1998-02-03 Nippon Telegr & Teleph Corp <Ntt> ニューラルネットによる事後確率推定のための教師信号生成方法及びニューラルネットによる事後確率推定システム
JP2008059110A (ja) * 2006-08-30 2008-03-13 Nec Corp 物体識別パラメータ学習システム、物体識別パラメータ学習方法および物体識別パラメータ学習用プログラム
JP2012181855A (ja) * 2005-08-08 2012-09-20 Toshiba Corp 辞書作成方法及び識別用辞書を記憶する記憶媒体
JP2019046236A (ja) * 2017-09-04 2019-03-22 株式会社東芝 学習装置、情報処理装置、学習方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031658A (ja) * 1996-07-17 1998-02-03 Nippon Telegr & Teleph Corp <Ntt> ニューラルネットによる事後確率推定のための教師信号生成方法及びニューラルネットによる事後確率推定システム
JP2012181855A (ja) * 2005-08-08 2012-09-20 Toshiba Corp 辞書作成方法及び識別用辞書を記憶する記憶媒体
JP2008059110A (ja) * 2006-08-30 2008-03-13 Nec Corp 物体識別パラメータ学習システム、物体識別パラメータ学習方法および物体識別パラメータ学習用プログラム
JP2019046236A (ja) * 2017-09-04 2019-03-22 株式会社東芝 学習装置、情報処理装置、学習方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022118373A1 (ja) * 2020-12-01 2022-06-09 日本電信電話株式会社 識別器生成装置、識別器生成方法および識別器生成プログラム
JP7491404B2 (ja) 2020-12-01 2024-05-28 日本電信電話株式会社 識別器生成装置、識別器生成方法および識別器生成プログラム

Similar Documents

Publication Publication Date Title
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
KR101410489B1 (ko) 얼굴 식별 방법 및 그 장치
EP3754548A1 (en) A method for recognizing an object in an image using features vectors of an encoding neural network
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
CN108520215B (zh) 基于多尺度联合特征编码器的单样本人脸识别方法
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
US20210142046A1 (en) Deep face recognition based on clustering over unlabeled face data
Tang et al. Classification for overlapping classes using optimized overlapping region detection and soft decision
CN110580499B (zh) 基于众包重复标签的深度学习目标检测方法及系统
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN113095370A (zh) 图像识别方法、装置、电子设备及存储介质
CN112085086A (zh) 一种基于图卷积神经网络的多源迁移学习方法
KR20210029110A (ko) 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
CN114503131A (zh) 检索装置、检索方法、检索程序和学习模型检索系统
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
Shuai et al. Multi-source feature fusion and entropy feature lightweight neural network for constrained multi-state heterogeneous iris recognition
CN113222002B (zh) 一种基于生成式鉴别性对比优化的零样本分类方法
CN112529025A (zh) 一种数据处理方法及装置
CN117371511A (zh) 图像分类模型的训练方法、装置、设备及存储介质
JP2020181265A (ja) 情報処理装置、システム、情報処理方法及びプログラム
Liu et al. A weight-incorporated similarity-based clustering ensemble method
Parsi et al. Improving the unsupervised LBG clustering algorithm performance in image segmentation using principal component analysis
JP2020204800A (ja) 学習用データセット生成システム、学習サーバ、及び学習用データセット生成プログラム
KR20200124887A (ko) 데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치
CN115511798A (zh) 一种基于人工智能技术的肺炎分类方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190515

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230227

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230314

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20230725