JP7086878B2 - 学習装置、学習方法、プログラムおよび認識装置 - Google Patents

学習装置、学習方法、プログラムおよび認識装置 Download PDF

Info

Publication number
JP7086878B2
JP7086878B2 JP2019028606A JP2019028606A JP7086878B2 JP 7086878 B2 JP7086878 B2 JP 7086878B2 JP 2019028606 A JP2019028606 A JP 2019028606A JP 2019028606 A JP2019028606 A JP 2019028606A JP 7086878 B2 JP7086878 B2 JP 7086878B2
Authority
JP
Japan
Prior art keywords
loss
neural network
learning
data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019028606A
Other languages
English (en)
Other versions
JP2020135465A (ja
Inventor
修平 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2019028606A priority Critical patent/JP7086878B2/ja
Publication of JP2020135465A publication Critical patent/JP2020135465A/ja
Application granted granted Critical
Publication of JP7086878B2 publication Critical patent/JP7086878B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明の実施形態は、学習装置、学習方法、プログラムおよび認識装置に関する。
ニューラルネットワークの過学習を抑制する方法として、中間層のノード値の一部をランダムにゼロにしながら最適化する方法、および、入力データの一部をランダムに遮蔽しながら最適化する方法が提案されている。
国際公開第2014/105866号
T. DeVries and G. W. Taylor, "Improved Regularization of Convolutional Neural Networks with Cutout", in arXiv:1708.04552, 2017. Z. Zhong, L. Zheng, G. Kang, S. Li, and Y. Yang, "Random Erasing Data Augmentation", in arXiv:1708.04896, 2017. B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, A. Torralba, "Learning Deep Features for Discriminative Localization", In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2921-2929, 2016.
しかしながら、従来技術では、学習に使用される訓練データによっては、過学習を抑制できない場合があった。例えば、訓練データの個数が少ない場合、および、訓練データが属するドメインが偏っている場合(例えば屋内で撮影した画像しかない場合など)には、認識対象以外の領域(背景など)を学習する過学習を起こす場合があった。
実施形態の学習装置は、取得部と、生成部と、ロス算出部と、学習部と、を備える。取得部は、入力データと、認識対象を表すラベルと、入力データ内の認識対象が含まれる対象領域と、を取得する。生成部は、入力データおよび対象領域に基づいて認識対象の少なくとも一部を含まない第1データを生成する。ロス算出部は、第1データをニューラルネットワークに入力したときのニューラルネットワークの出力に基づく値と、ラベルと、が一致する度合いが小さいほど値が小さくなる第1ロスを算出する。学習部は、第1ロスに基づいてニューラルネットワークを学習する。
第1の実施形態にかかる学習装置のブロック図。 第1の実施形態における学習処理のフローチャート。 入力画像の一例を示す図。 対象領域の指定方法の一例を示す図。 劣化画像の一例を示す図。 認識対象の一部を含まない画像の一例を示す図。 認識対象の一部を含む画像の一例を示す図。 第2の実施形態にかかる学習装置のブロック図。 第2の実施形態における学習処理のフローチャート。 注目度画像の一例を示す図。 第3の実施形態にかかる情報処理システムのブロック図。 第1~第3の実施形態にかかる装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる学習装置の好適な実施形態を詳細に説明する。
以下では、2次元画像から認識対象を認識するニューラルネットワークを学習する学習装置を例に説明する。より具体的には、入力された画像(2次元画像)を猫または犬のいずれかに分類する2クラスの画像分類問題を例に説明する。適用可能な処理はこれに限られるものではなく、その他の認識処理(分類処理を含む)にも適用できる。例えば、1クラスの分類処理(異常検出など)、または、3クラス以上の分類処理にも適用できる。また、3次元画像を用いた認識、および、音声データからの認識対象(特定の話者など)の認識などにも適用できる。
(第1の実施形態)
第1の実施形態にかかる学習装置は、訓練データとして、入力画像、認識対象を表すラベル(対象ラベル)、および、対象領域を用意し、入力画像から、認識対象を含まない画像と、認識対象を含む画像を生成する。そして本実施形態にかかる学習装置は、認識対象を含まない画像の認識率が低く、認識対象を含む画像の認識率が高いほど値が小さくなるロス関数により、ニューラルネットワークのパラメータを最適化する。対象領域は、入力画像の領域のうち認識対象が含まれる領域を表す。
このような構成により、入力画像中の対象領域から画像特徴を抽出するように最適化することができ、例えば、対象領域以外の情報を学習する過学習を抑制することが可能となる。また、このように学習されたニューラルネットワークを用いれば、認識率を向上させることができる。
図1は、第1の実施形態にかかる学習装置100を示すブロック図である。学習装置100は、取得部101と、生成部102と、ロス算出部103と、学習部104と、出力制御部105と、記憶部121と、を備える。
記憶部121は、学習装置100による各種処理に用いる各種データを記憶する。例えば記憶部121は、学習するニューラルネットワークを定めるパラメータ、および、学習のための訓練データを記憶する。ニューラルネットワークを定めるパラメータは、例えば重み係数およびバイアスである。
記憶部121は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
取得部101は、学習装置100による各種処理で用いる各種情報を取得する。例えば取得部101は、入力画像(入力データの一例)、認識対象(例えば猫または犬)を表す対象ラベル、および、対象領域を含む訓練データを取得する。取得部101が訓練データを取得する方法はどのような方法であってもよい。取得部101は、例えば、記憶部121に記憶された訓練データを読み出すことにより取得してもよいし、学習装置100の外部のサーバ装置などから訓練データを受信することにより取得してもよい。
生成部102は、入力画像および対象領域に基づいて、学習に用いる画像を生成する。例えば生成部102は、入力画像および対象領域を用いて、認識対象の少なくとも一部を含まない画像(以下、画像Aともいう)を生成する。また生成部102は、入力画像および対象領域を用いて、認識対象の少なくとも一部を含む画像(以下、画像Bともいう)を生成する。
ロス算出部103は、学習に用いるロスを算出する。学習では、ロスを最小化するように、ニューラルネットワークのパラメータが更新される。ロスは、損失または誤差などとも呼ばれる。例えばロス算出部103は、画像Aをニューラルネットワークに入力したときのニューラルネットワークの出力に基づく値と、対象ラベルと、が一致する度合い(尤度)が小さいほど値が小さくなるロス(以下、ロスAともいう)を算出する。またロス算出部103は、画像Bをニューラルネットワークに入力したときのニューラルネットワークの出力と、対象ラベルと、が一致する度合いが大きいほど値が小さくなるロス(以下、ロスBともいう)を算出する。
画像Aをニューラルネットワークに入力したときのニューラルネットワークの出力に基づく値は、例えば画像Aをニューラルネットワークに入力したときのニューラルネットワークの出力自体である。この値は、画像Aをニューラルネットワークに入力したときのニューラルネットワークの出力に対する、画像Bをニューラルネットワークに入力したときのニューラルネットワークの出力の相対値であってもよい。各ロスの算出方法の詳細は後述する。
学習部104は、ロス算出部103により算出されたロスに基づいてニューラルネットワークを学習する。例えば学習部104は、ロスAおよびロスBの加重和を用いて、誤差逆伝搬法によりニューラルネットワークのパラメータを更新する。学習方法は誤差逆伝播法に限られるものではなく、どのような学習方法であってもよい。
出力制御部105は、学習装置100からの各種情報の出力を制御する。例えば出力制御部105は、学習部104により学習されたニューラルネットワークのパラメータを出力する。ニューラルネットワークのパラメータは、例えば、学習されたニューラルネットワークを用いて認識処理を実行する認識装置などに出力される。
上記各部(取得部101、生成部102、ロス算出部103、学習部104、および、出力制御部105)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
次に、このように構成された第1の実施形態にかかる学習装置100による学習処理について説明する。図2は、第1の実施形態における学習処理の一例を示すフローチャートである。
まず、取得部101は、訓練データである入力画像、対象ラベル、および、対象領域を取得する(ステップS101)。以下では、入力画像をx(i=1、2、・・・、N)、対象ラベルをt、対象領域をmと表す。なお、iは訓練データを識別する識別情報(通し番号など)を表し、Nは訓練データの数を表す。
図3は、入力画像の一例を示す図である。入力画像xは、例えば横幅W、縦幅Hの画素集合であり、W×H次元のベクトルとする。図3に示すように、入力画像は、x(u,v)と表される。uは水平方向の画素位置を表し、vは垂直方向の画素位置を表す。
対象ラベルtは、入力画像xに含まれる認識対象が猫の場合は(1、0)、犬の場合は(0、1)で表される2次元ベクトルとする。
図4は、対象領域の指定方法の一例を示す図である。対象領域mは、入力画像x内で認識対象の少なくとも一部が含まれる領域を示す。図4の例では、対象領域mは、認識対象が含まれる領域が1であり、それ以外の領域が0であるW×H次元のベクトルとする。このように、対象領域mは、入力画像と同じ次元のベクトルによるマスク画像の形式で指定することができる。
対象領域の指定方法は、マスク画像に限定されず、どのような方法であってもよい。例えば、対象領域を示す矩形の位置情報により指定してもよい。また、例えば認識対象を特徴づける、認識対象の一部(目など)の領域に限定したマスク画像を用いてもよい。また、認識対象であることの度合い(重要度)を0~1の範囲の実数で指定する画像データでもよい。
入力データが音声データ(時系列データ)の場合、認識対象の音声が出力された時間、音声データを構成する複数のチャネルのうち認識対象の音声が出力されたチャネル、および、認識対象の音声に対応する周波数などを、対象領域として指定してもよい。
図2に戻り、生成部102は、入力画像を入力として、認識対象を含まない画像Aと、認識対象を含む画像Bと、を生成する(ステップS102)。以下では、認識対象を含む、または、認識対象を含まないようにするために用いる画像である劣化画像をz、画像AをxAi、画像BをxBiと表す。図5~図7は、それぞれ、劣化画像z、画像A、および、画像Bの一例を示す図である。
図5に示す劣化画像zは、対象領域、または、対象領域以外の領域を区別するための画素値を含む画像であり、W×H次元のベクトルとする。劣化画像は、例えば、灰色の画素値を含む灰色画像であるがこれに限られるものではない。例えば劣化画像は、データごと、または、画素ごとに乱数を用いて生成した画素値を含む画像でもよい。また劣化画像は、画像ごとの画素値の平均値を含む画像でもよい。
図6および図7は、それぞれ、入力画像と劣化画像とから生成される画像Aおよび画像Bの例を示す。生成部102は、例えば、図6および図7の画像の下に示した式に基づいて、画像Aおよび画像Bを生成する。図6および図7の例では、生成部102は、入力画像xおよび劣化画像zを、対象領域mに基づくアルファブレンディングすることにより、画像Aおよび画像Bを生成する。なお丸の中に点を記載した記号は、アダマール積を表す。
生成部102は、劣化画像を用いずに画像Aおよび画像Bを生成してもよい。例えば生成部102は、入力画像xの階調を圧縮する、入力画像xにノイズを重量する、および、入力画像xを平滑化する、などように、入力画像xの視認性を低下させる方法により画像Aおよび画像Bを生成してもよい。また生成部102は、入力画像を画素単位で劣化させた画素値を算出することにより画像Aおよび画像Bを生成してもよい。
図2に戻り、学習部104は、画像xAiをニューラルネットワークに入力し、この入力に対するニューラルネットワークの出力yAiを取得する(ステップS103)。出力yAiは、以下の(1)式により表される。
Ai=f(xAi) ・・・(1)
fは、ニューラルネットワークによる処理を表す関数である。例えば関数fは、畳み込み層、全結合層、正規化層、および、プーリング層などの複数の層の処理を繰り返し、対象ラベルtと同じ次元数の2次元ベクトルを出力する。なお、関数fの出力ベクトルは、ソフトマックス処理後の値であって、すべて要素が非負の値であり、かつ、要素の総和が1に正規化されているものとする。
同様に、学習部104は、画像xBiをニューラルネットワークに入力し、この入力に対するニューラルネットワークの出力yBiを取得する(ステップS104)。出力yBiは、以下の(2)式により表される。
Bi=f(xBi) ・・・(2)
次に、ロス算出部103は、対象ラベルtと、出力yAiとに基づいて、対象ラベルtと出力yAiとが一致する度合いが小さいほど値が小さくなるようにロスAを算出する(ステップS105)。例えばロス算出部103は、以下の(3)式によりロスA(L)を算出する。なお記号「・」はベクトルの内積を表す。
=Σi(t ・yAi) ・・・(3)
上記のように、ロス算出部103は、出力yAiに対する出力yBiの相対値を用いてロスAを算出してもよい。この場合、ロスAは、例えば以下の(4)式により算出される。
=Σi(exp(-(t・(yBi-yAi)))) ・・・(4)
また、ロス算出部103は、対象ラベルtと、出力yBiとに基づいて、対象ラベルtと出力yBiとが一致する度合いが大きいほど値が小さくなるようにロスB(L)を算出する(ステップS106)。例えばロス算出部103は、以下の(5)式によりロスB(L)を算出する。
=-Σi(t ln(yAi)) ・・・(5)
次に、学習部104は、ロスA(L)、ロスB(L)の加重和を最小化するように、誤差逆伝搬法などの方法によりニューラルネットワークのパラメータ(重み係数、バイアスなど)の値を更新する(ステップS107)。
次に、学習部104は、学習が終了したか否かを判定する(ステップS108)。学習部104は、例えば、すべての訓練データを処理したか、または、学習の回数が上限値に達したか否か、などにより、学習の終了を判定する。
学習が終了していない場合(ステップS108:No)、ステップS101に戻り、新たな訓練データに対して処理が繰り返される。学習が終了したと判定された場合(ステップS108:Yes)、学習処理を終了する。
以上のように、本実施形態では、対象領域が含まれる画像が入力された場合には認識率が上がり、対象領域が含まれない場合に認識率が下がるように学習が実行される。これにより、例えば、猫の訓練データが屋外で撮影された画像のみであり、犬の訓練データが屋内で撮影された画像のみであるといったように、訓練データが属するドメインが偏っている場合でも、背景の特徴を基に推論する過学習などの引き起こすことなく、適切に対象の画像特徴を獲得するようにニューラルネットワークを学習することができる。
(第2の実施形態)
第2の実施形態にかかる学習装置は、ニューラルネットワークによる認識に寄与した領域を示すデータ(注目度データ)を用いて学習を行う。
図8は、第2の実施形態にかかる学習装置100-2の構成の一例を示すブロック図である。図8に示すように、学習装置100-2は、取得部101と、生成部102-2と、ロス算出部103-2と、学習部104-2と、出力制御部105と、記憶部121と、を備える。
第2の実施形態では、生成部102-2、ロス算出部103-2、および、学習部104-2の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる学習装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
生成部102-2は、入力画像をニューラルネットワークに入力したときの入力画像の認識に寄与した領域を示す注目度画像を生成する。注目度画像は、領域(画素など)ごとの認識時に注目(着眼)した度合い(注目度)を示す画像と解釈することができる。注目度画像は、顕著性マップ(saliency map)などと呼ばれる場合がある。注目度画像の生成方法の詳細は後述する。
ロス算出部103-2は、注目度画像と対象領域との誤差が小さいほど値が小さくなるロス(以下、ロスCともいう)を算出する。また、ロス算出部103-2は、入力画像をニューラルネットワークに入力したときのニューラルネットワークの出力と、対象ラベルと、が一致する度合いが大きいほど値が小さくなるロス(以下、ロスDともいう)を算出する。
学習部104-2は、ロス算出部103-2により算出されたロスに基づいてニューラルネットワークを学習する。例えば学習部104-2は、ロスCおよびロスDの加重和を用いて、誤差逆伝搬法などの方法によりニューラルネットワークのパラメータを更新する。
次に、このように構成された第2の実施形態にかかる学習装置100-2による学習処理について図9を用いて説明する。図9は、第2の実施形態における学習処理の一例を示すフローチャートである。
まず、取得部101は、訓練データである入力画像、対象ラベル、および、対象領域を取得する(ステップS201)。
次に、学習部104-2は、入力画像xをニューラルネットワークに入力し、この入力に対するニューラルネットワークの出力yDiを取得する(ステップS202)。出力yDiは、以下の(6)式により表される。
Di=f(x) ・・・(6)
次に、ロス算出部103-2は、対象ラベルtと、出力yDiに基づいて、対象ラベルtと出力yDiとが一致する度合いが大きいほど値が小さくなるようにロスD(L)を算出する(ステップS203)。例えばロス算出部103-2は、以下の(7)式によりロスD(L)を算出する。
=-Σi(t ln(yDi)) ・・・(7)
一方、生成部102-2は、ニューラルネットワークの中間画像およびパラメータ(重み係数)などに基づいて注目度画像を生成する(ステップS204)。注目度画像sは、例えば以下の(8)式により生成される。
=g(w、x、t) ・・・(8)
gは、ニューラルネットワークの重み係数およびバイアスなどのパラメータ集合w、入力画像x、および、対象ラベルtに基づいて注目度画像を出力する関数である。注目度画像は、例えば非特許文献3に示されるクラス・アクティベーション・マッピング(Class Activation Mapping)などを用いることができる。クラス・アクティベーション・マッピングを用いる場合は、入力画像xを推論したときのニューラルネットワークの中間画像を、対象ラベルtに関連する重み係数の値で線形合成する関数が、関数gとして使用して生成できる。中間画像は、ニューラルネットワークの中間層の出力に相当する画像である。
図10は、注目度画像の一例を示す図である。図10に示す注目度画像は、画素値が白に近いほど、認識時の注目度が大きいことを示す注目度画像の例である。
このように、注目度画像は、入力画像をニューラルネットワークに入力したときの入力画像の認識に寄与した領域を示す画像である。認識に寄与した領域は、例えば、その領域の値が変わることによる認識結果への影響が大きい領域、出力のうち活性がある部分からニューラルネットワークの経路を逆にたどって得られる領域、などを含む。
次に、ロス算出部103-2は、対象領域mと、注目度画像sとの誤差が小さいほど値が小さくなるようにロスC(L)を算出する(ステップS205)。例えばロス算出部103-2は、以下の(9)式によりロスC(L)を算出する。
=Σi(d(m、s)) ・・・(9)
dは画像間の誤差が小さいほど小さい値を出力する関数であり、例えば、要素の二乗誤差総和、および、正規化相互相関などにより実現できる。
次に、学習部104-2は、ロスC(L)およびロスD(L)の加重和を最小化するように、誤差逆伝搬法などの方法によりニューラルネットワークのパラメータ(重み係数、バイアスなど)の値を更新する(ステップS206)。
ステップS207は、第1の実施形態のステップS108と同様であるため説明を省略する。
以上のように、本実施形態では、入力画像に対する認識に寄与した領域(注目度データ)が対象領域と一致するように学習が実行される。これにより、背景の特徴を基に推論する過学習などの引き起こすことなく、適切に対象の画像特徴を獲得するようにニューラルネットワーを学習することができる。
(変形例1)
第1の実施形態で用いるロスは、上記に限られるものではない。例えば、ロスAのみを用いて学習が実行されてもよい。また、ロスBの代わりに第2の実施形態で用いたロスCまたはロスDを用いてもよい。すなわち、ロスAとロスCとの組み合わせ、または、ロスAとロスDとの組み合わせを用いて学習が実行されてもよい。さらに、ロスA、ロスB、および、ロスCの組み合わせ、ロスA、ロスD、および、ロスCの組み合わせ、または、ロスA、ロスB、ロスC、および、ロスDの組み合わせを用いて学習が実行されてもよい。
(変形例2)
第2の実施形態で用いるロスは、上記に限られるものではない。例えば、ロスCのみを用いて学習が実行されてもよい。また、ロスDの代わりに第1の実施形態で用いたロスBを用いてもよい。すなわち、ロスCとロスBとを用いて学習が実行されてもよい。また、ロスC、ロスB、および、ロスDの組み合わせを用いて学習が実行されてもよい。
(変形例3)
上記実施形態では、対象領域を含む訓練データを使用する。すべての訓練データについて対象領域を指定できない場合は、一部の訓練データについて対象領域を指定し、対象領域が指定された訓練データのみに対して上記実施形態の手法を適用してもよい。
例えば、入力画像および対象ラベルはすべての訓練データで保持され、対象領域は訓練データの一部で保持される。この場合、ロスDはすべての訓練データで算出することができる。ロスA、ロスB、および、ロスCは、対象領域が付与されている一部の訓練データでのみ算出することができる。
(変形例4)
変形例3のように対象領域が指定されていない訓練データが存在する場合に、対象領域を指定させるための情報を提示する機能を備えるように構成してもよい。例えば学習装置は、ニューラルネットワークの学習を終えた後、対象領域が付与されていない訓練データについて、入力画像、対象ラベル、注目度画像、および、ニューラルネットワークの出力などの情報を学習装置の操作者に提示する。操作者は、提示された情報を参照して、対象領域を指定することができる。学習装置は、このようにして対象領域が新たに指定された訓練データを用いて、再度学習を実行することができる。このような構成により、効率的に訓練データを拡張し、ニューラルネットワークの認識率を向上させることができる。
(第3の実施形態)
第3の実施形態では、第1の実施形態の学習装置100で学習したニューラルネットワークを用いて認識処理を実行する認識装置を備える情報処理システムについて説明する。
図11は、第3の実施形態にかかる情報処理システムの構成の一例を示すブロック図である。図11に示すように、情報処理システムは、学習装置100と、認識装置200と、がネットワーク300により接続された構成となっている。
ネットワーク300は、インターネットなどであるが、その他のどのような形態のネットワークであってもよい。例えば、ネットワーク300は、有線ネットワークおよび無線ネットワークのいずれであってもよい。
学習装置100は、第1の実施形態と同様の機能を備えるため、同一の符号を付し説明を省略する。なお、第1の実施形態の学習装置100の代わりに、第2の実施形態の学習装置100-2、または、上記各変形例の学習装置を適用することもできる。
認識装置200は、通信制御部201と、取得部202と、認識部203と、出力制御部204と、記憶部221と、を備えている。
記憶部221は、認識装置200で実行される各種処理で用いる各種データを記憶する。例えば記憶部221は、学習装置100から送信されたニューラルネットワークのパラメータを記憶する。記憶部221は、フラッシュメモリ、メモリカード、RAM、HDD、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
通信制御部201は、学習装置100などの外部装置との間の通信を制御する。例えば通信制御部201は、学習装置100から、学習済みのニューラルネットワークを定めるパラメータの情報などを受信する。
取得部202は、認識装置200による各種処理に用いる各種データを取得する。例えば取得部202は、認識処理の対象となる入力データ(画像など)を取得する。
認識部203は、取得された画像をニューラルネットワークに入力することにより、画像を認識する。
出力制御部204は、認識装置200からの各種情報の出力を制御する。例えば出力制御部204は、認識部203による認識結果を出力する。出力方法は、どのような方法であってもよいが、例えば、表示装置に表示する方法、外部のサーバ装置などに送信する方法などを用いることができる。
なお、図11に示す情報処理システムの構成は一例であり、これに限られるものではない。例えば、認識装置200の各部と学習装置100の各部とを1つの装置(認識装置)内に備える構成としてもよい。この場合、共通化できる機能(例えば、取得部101と取得部202、記憶部121と記憶部221)は共通化してもよい。また認識装置200は、物理的に1つの装置によって構成されてもよいし、物理的に複数の装置によって構成されてもよい。例えば認識装置200は、クラウド環境上で構築されてもよい。
認識処理は、どのようなデータを用いて、どのような対象を認識する処理であってもよい。例えば認識処理は、会議室内で集音された音声から、特定の話者の音声を認識する処理であってもよい。また認識処理は、撮像装置(カメラ)により撮影された画像から、撮影した対象物の異常を検出(認識)する処理であってもよい。このような認識処理は、例えば、工場内の機器を画像により外観検査し異常を検出する処理、および、医療用画像から異常(患部)を検出する処理などに適用できる。なお、このように画像から異常を検出(認識)する処理は、異常を示す訓練データを多数準備できない場合がある。本実施形態を適用すれば、訓練データの個数が少ない場合、および、訓練データが属するドメインが偏っている場合などであっても過学習を抑制できる。従って、認識処理の精度を向上させることができる。
以上説明したとおり、第1~第3の実施形態によれば、認識対象を含む対象領域以外の情報を学習する過学習を抑制することが可能となる。
次に、第1~第3の実施形態にかかる各装置(学習装置、認識装置)のハードウェア構成について図12を用いて説明する。図12は、第1~第3の実施形態にかかる装置のハードウェア構成例を示す説明図である。
第1~第3の実施形態にかかる装置は、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1~第3の実施形態にかかる装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1~第3の実施形態にかかる装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1~第3の実施形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1~第3の実施形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1~第3の実施形態にかかる装置で実行されるプログラムは、コンピュータを上述した学習装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、100-2 学習装置
101 取得部
102、102-2 生成部
103、103-2 ロス算出部
104、104-2 学習部
105 出力制御部
121 記憶部
200 認識装置
201 通信制御部
202 取得部
203 認識部
204 出力制御部
221 記憶部
300 ネットワーク

Claims (10)

  1. 入力データと、認識対象を表すラベルと、前記入力データ内の前記認識対象が含まれる対象領域と、を取得する取得部と、
    前記入力データおよび前記対象領域に基づいて、前記認識対象の少なくとも一部を含まない第1データを生成する生成部と、
    前記第1データをニューラルネットワークに入力したときの前記ニューラルネットワークの出力に基づく値と、前記ラベルと、が一致する度合いが小さいほど値が小さくなる第1ロスを算出するロス算出部と、
    前記第1ロスに基づいて前記ニューラルネットワークを学習する学習部と、
    を備える学習装置。
  2. 前記生成部は、さらに、前記認識対象の少なくとも一部を含み、前記第1データとは異なる第2データを生成し、
    前記ロス算出部は、さらに、前記第2データを前記ニューラルネットワークに入力したときの前記ニューラルネットワークの出力と、前記ラベルと、が一致する度合いが大きいほど値が小さくなる第2ロスを算出し、
    前記学習部は、前記第1ロスおよび前記第2ロスに基づいて前記ニューラルネットワークを学習する、
    請求項1に記載の学習装置。
  3. 前記ロス算出部は、前記第1データをニューラルネットワークに入力したときの前記ニューラルネットワークの第1出力に対する、前記第2データを前記ニューラルネットワークに入力したときの前記ニューラルネットワークの第2出力の相対値と、前記ラベルと、が一致する度合いが小さいほど値が小さくなる第1ロスを算出する、
    請求項2に記載の学習装置。
  4. 前記ロス算出部は、さらに、前記入力データを前記ニューラルネットワークに入力したときの前記ニューラルネットワークの出力と、前記ラベルと、が一致する度合いが大きいほど値が小さくなる第2ロスを算出し、
    前記学習部は、前記第1ロスおよび前記第2ロスに基づいて前記ニューラルネットワークを学習する、
    請求項1に記載の学習装置。
  5. 前記生成部は、さらに、前記入力データをニューラルネットワークに入力したときの前記入力データの認識に寄与した領域を示す注目度データを生成し、
    前記ロス算出部は、さらに、前記注目度データと前記対象領域との誤差が小さいほど値が小さくなる第2ロスを算出し、
    前記学習部は、前記第1ロスおよび前記第2ロスに基づいて前記ニューラルネットワークを学習する、
    請求項1に記載の学習装置。
  6. 前記ロス算出部は、さらに、前記入力データを前記ニューラルネットワークに入力したときの前記ニューラルネットワークの出力と、前記ラベルと、が一致する度合いが大きいほど値が小さくなる第3ロスを算出し、
    前記学習部は、前記第1ロス、前記第2ロスおよび前記第3ロスに基づいて前記ニューラルネットワークを学習する、
    請求項5に記載の学習装置。
  7. 前記生成部は、さらに、前記認識対象の少なくとも一部を含む第2データを生成し、
    前記ロス算出部は、さらに、前記第2データを前記ニューラルネットワークに入力したときの前記ニューラルネットワークの出力と、前記ラベルと、が一致する度合いが大きいほど値が小さくなる第3ロスを算出し、
    前記学習部は、前記第1ロス、前記第2ロスおよび前記第3ロスに基づいて前記ニューラルネットワークを学習する、
    請求項5に記載の学習装置。
  8. 学習装置が備えるコンピュータで実行される学習方法であって、
    前記コンピュータが、入力データと、認識対象を表すラベルと、前記入力データ内の前記認識対象が含まれる対象領域と、を取得する取得ステップと、
    前記コンピュータが、前記入力データおよび前記対象領域に基づいて、前記認識対象の少なくとも一部を含まない第1データを生成する生成ステップと、
    前記コンピュータが、前記第1データをニューラルネットワークに入力したときの前記ニューラルネットワークの出力に基づく値と、前記ラベルと、が一致する度合いが小さいほど値が小さくなる第1ロスを算出するロス算出ステップと、
    前記コンピュータが、前記第1ロスに基づいて前記ニューラルネットワークを学習する学習ステップと、
    を含む学習方法。
  9. コンピュータを、
    入力データと、認識対象を表すラベルと、前記入力データ内の前記認識対象が含まれる対象領域と、を取得する取得部と、
    前記入力データおよび前記対象領域に基づいて、前記認識対象の少なくとも一部を含まない第1データを生成する生成部と、
    前記第1データをニューラルネットワークに入力したときの前記ニューラルネットワークの出力に基づく値と、前記ラベルと、が一致する度合いが小さいほど値が小さくなる第1ロスを算出するロス算出部と、
    前記第1ロスに基づいて前記ニューラルネットワークを学習する学習部と、
    として機能させるためのプログラム。
  10. 請求項1に記載の学習装置により学習された前記ニューラルネットワークを用いて、入力データの認識を実行する認識部と、
    前記認識部による認識結果を出力する出力制御部と、
    を備える認識装置。
JP2019028606A 2019-02-20 2019-02-20 学習装置、学習方法、プログラムおよび認識装置 Active JP7086878B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019028606A JP7086878B2 (ja) 2019-02-20 2019-02-20 学習装置、学習方法、プログラムおよび認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019028606A JP7086878B2 (ja) 2019-02-20 2019-02-20 学習装置、学習方法、プログラムおよび認識装置

Publications (2)

Publication Number Publication Date
JP2020135465A JP2020135465A (ja) 2020-08-31
JP7086878B2 true JP7086878B2 (ja) 2022-06-20

Family

ID=72263195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019028606A Active JP7086878B2 (ja) 2019-02-20 2019-02-20 学習装置、学習方法、プログラムおよび認識装置

Country Status (1)

Country Link
JP (1) JP7086878B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7106486B2 (ja) 2019-04-22 2022-07-26 株式会社東芝 学習装置、学習方法、プログラムおよび情報処理システム
JP7055769B2 (ja) 2019-04-23 2022-04-18 株式会社東芝 データ生成装置、データ生成方法およびプログラム
US20220172064A1 (en) * 2020-12-02 2022-06-02 Htc Corporation Machine learning method and machine learning device for eliminating spurious correlation
WO2022185432A1 (ja) * 2021-03-03 2022-09-09 Heroz株式会社 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809704A (zh) 2016-03-30 2016-07-27 北京小米移动软件有限公司 识别图像清晰度的方法及装置
US20180129906A1 (en) 2016-11-07 2018-05-10 Qualcomm Incorporated Deep cross-correlation learning for object tracking
CN108765423A (zh) 2018-06-20 2018-11-06 北京七鑫易维信息技术有限公司 一种卷积神经网络训练方法及装置
JP2018173814A (ja) 2017-03-31 2018-11-08 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
CN109002787A (zh) 2018-07-09 2018-12-14 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
WO2018232388A1 (en) 2017-06-16 2018-12-20 Rensselaer Polytechnic Institute Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809704A (zh) 2016-03-30 2016-07-27 北京小米移动软件有限公司 识别图像清晰度的方法及装置
US20180129906A1 (en) 2016-11-07 2018-05-10 Qualcomm Incorporated Deep cross-correlation learning for object tracking
JP2018173814A (ja) 2017-03-31 2018-11-08 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
WO2018232388A1 (en) 2017-06-16 2018-12-20 Rensselaer Polytechnic Institute Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks
CN108765423A (zh) 2018-06-20 2018-11-06 北京七鑫易维信息技术有限公司 一种卷积神经网络训练方法及装置
CN109002787A (zh) 2018-07-09 2018-12-14 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备

Also Published As

Publication number Publication date
JP2020135465A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
JP7086878B2 (ja) 学習装置、学習方法、プログラムおよび認識装置
JP6807471B2 (ja) セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体
CN110222787B (zh) 多尺度目标检测方法、装置、计算机设备及存储介质
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
KR102521544B1 (ko) 디노이징 네트워크의 학습 방법, 및 이미지 처리 방법 및 그 장치 방법
JP2017059207A (ja) 画像認識方法
JP2012032370A (ja) 欠陥検出方法、欠陥検出装置、学習方法、プログラム、及び記録媒体
JP2017211939A (ja) 生成装置、生成方法、及び生成プログラム
WO2018207334A1 (ja) 画像認識装置、画像認識方法および画像認識プログラム
WO2009152509A1 (en) Method and system for crowd segmentation
JP7055769B2 (ja) データ生成装置、データ生成方法およびプログラム
US11640530B2 (en) Learning device, learning method, computer program product, and recognition device
CN113706558A (zh) 图像分割方法、装置及计算机设备
JP7176616B2 (ja) 画像処理システム、画像処理装置、画像処理方法、及び画像処理プログラム
JP2012234466A (ja) 状態追跡装置、方法、及びプログラム
JP2020080047A (ja) 学習装置、推定装置、学習方法およびプログラム
JP7472471B2 (ja) 推定システム、推定装置および推定方法
JP2018022332A (ja) 判定装置、判定方法、及び判定プログラム
JP2018005405A (ja) 情報処理装置および情報処理方法
JP2023017091A (ja) 推定装置、推定方法及びプログラム
KR20230111010A (ko) 관절 예측을 위한 학습 데이터 생성 방법 및 장치
KR20230049969A (ko) 글로벌 측위 장치 및 방법
US20230196752A1 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
JP2021056928A (ja) 最適解獲得プログラム、最適解獲得方法および情報処理装置
JP7135517B2 (ja) 三次元形状モデル生成装置、三次元モデル生成方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210921

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220608

R151 Written notification of patent or utility model registration

Ref document number: 7086878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151