JP2021018477A

JP2021018477A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2021018477A
Application number: JP2019132051A
Authority: JP
Inventors: 貴之猿田; Takayuki Saruta
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2021-02-15

Abstract

【課題】ロバスト性を高めて識別精度の高いニューラルネットワークを効率よく学習可能にすることを課題とする。【解決手段】情報処理装置は、学習データを生成する学習データ生成パラメータを設定するパラメータ設定手段（９０４）と、学習データ生成パラメータの範囲を設定する範囲設定手段（９１２）と、学習データ生成パラメータを基に生成された学習データと、学習データの教師値とに基づいて、ニューラルネットワークを学習する学習手段（９０１）と、学習データと教師値との誤差を評価する評価手段（９０２）と、評価の結果に基づいて、学習データと教師値との誤差が変動するように、設定された範囲内で学習データ生成パラメータを変換する変換手段（９０３）と、を有する。【選択図】図９

Description

本発明は、ニューラルネットワークを学習等する情報処理技術に関する。

画像・音声などのデータの内容を学習し識別を行う技術が存在する。識別処理の目的をここでは識別タスクと呼ぶ。例えば、画像中から人間の顔の領域を検出する顔識別タスクや、画像中にある物体（被写体）カテゴリを判別する物体カテゴリ識別タスク、シーン（撮影状況）のカテゴリを判別するシーン種別識別タスク、など多様な識別タスクがある。なお画像中の物体カテゴリは例えば人物、猫、車、および建物などのカテゴリが挙げられる。シーンのカテゴリは例えば都市、山間、および海岸などのカテゴリが挙げられる。

前述のような識別タスクを学習および実行する技術としては、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ：ＮＮ）の技術が知られている。また深い（つまり層の数が多い）多層ニューラルネットワークは、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）と呼ばれている。特に、非特許文献１に開示されているような深い畳み込みニューラルネットワークは、ＤＣＮＮ（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）と呼ばれている。ＤＣＮＮは、性能が高いことで近年注目されている。なお、ＤＣＮＮとは、各層において、前層からの出力結果に対して畳み込み処理を行って次層に出力するようなネットワーク構造をもつものである。最終層は、識別結果を表す出力層となる。各層には畳み込み演算用のフィルタ（カーネル）が複数用意される。

ＤＣＮＮの学習フェーズでは、畳み込みフィルタの値や全結合層の結合重み（両者を合わせて学習パラメータと呼ぶ）を、誤差逆伝搬法（バックプロパゲーション：ＢＰ）などの方法を用いて教師付きデータから学習する。識別フェーズでは、学習済ＤＣＮＮにデータが入力され、各層において学習済みの学習パラメータによってデータを順次処理し、出力層から識別結果を得るかもしくは中間層の出力結果を集計して、識別器に入力することで識別結果が得られる。

またＤＣＮＮの学習には大量の学習データが必要であることが知られている。ただし大量の教師付きデータを用意することは難しいため、学習データの教師値に影響がないように学習データを変換することで擬似的に学習データを増やすことがある。特許文献１には、学習画像に対して主成分分析を行って取得された固有値および固有ベクトルの組から、ランダムに所定数選択して学習画像を生成することで、色変換された学習画像を擬似的に増やす技術が開示されている。特許文献２には、学習画像に対して所定の加工処理を施した第２の画像を生成して学習画像として用いる技術が開示されている。

米国特許出願公開第２００４／０１７７９４７号明細書特開２０１１−２２１８４０号公報

Ｋｒｉｚｈｅｖｓｋｙ，Ａ．，Ｓｕｔｓｋｅｖｅｒ，Ｉ．，＆Ｈｉｎｔｏｎ，Ｇ．Ｅ．，"Ｉｍａｇｅｎｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ．"，ＩｎＡｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ（ｐｐ．１０９７−１１０５），２０１２．

上述した従来のニューラルネットワーク、特にＤＣＮＮでは、効率よくニューラルネットワークのパラメータを学習することが必要になる。そして、学習されたＤＣＮＮの精度を評価する基準の一つとしてロバスト性がある。ロバスト性とは、ＤＣＮＮに入力される評価画像の画像変動に対する識別精度の頑健性である。例えば、カメラＡで撮影された学習画像でＤＣＮＮを学習し、カメラＢで同じ対象を撮影した評価画像をＤＣＮＮに入力した場合に識別精度が大きく劣化する場合、学習されたＤＣＮＮのロバスト性は低いことになる。また、同じカメラＡで撮影した評価画像の場合でも、撮影時のパラメータ（絞り値、シャッタースピード、絞り値やＩＳＯ感度など）を変更した場合に識別精度が大きく劣化する場合、ロバスト性は低くなる。
しかしながら、前述の開示されている技術では学習されたニューラルネットワークのロバスト性が十分でない場合があり、識別精度の高いニューラルネットワークを効率よく学習することが難しい。

そこで、本発明は、ロバスト性を高めて識別精度の高いニューラルネットワークを効率よく学習可能にすることを目的とする。

本発明の情報処理装置は、学習データを生成する学習データ生成パラメータを設定するパラメータ設定手段と、前記学習データ生成パラメータの範囲を設定する範囲設定手段と、前記学習データ生成パラメータを基に生成された学習データと、前記学習データの教師値とに基づいて、ニューラルネットワークを学習する学習手段と、前記学習データと前記教師値との誤差を評価する評価手段と、前記評価の結果に基づいて、前記学習データと前記教師値との誤差が変動するように、前記設定された範囲内で前記学習データ生成パラメータを変換する変換手段と、を有することを特徴とする。

本発明によれば、ロバスト性が高く、識別精度の高いニューラルネットワークを効率よく学習可能となる。

実施形態の情報処理装置が適用されるシステム構成の一例を示す図である。画像分類が行われる識別対象画像の一例を示す図である。識別対象物体の一例を示す図である。識別対象画像の領域分割例を示す図である。情報処理装置のハードウェア構成例を示す図である。ＤＣＮＮの構造およびＤＣＮＮを用いた識別処理の一例を示す図である。識別を行う情報処理装置の機能構成例を示す図である。識別時における情報処理の流れを示すフローチャートである。学習装置の機能構成例を示す図である。学習時の情報処理の流れを示すフローチャートである。学習データ生成パラメータに対する評価データの精度例を示す図である。ニューラルネットワークの最終層の一例を示す図である。ニューラルネットの各層の処理内容と出力結果の一例を示す図である。ＮＮ評価処理における評価結果の一例を示す図である。ＮＮ学習処理におけるバッチ処理の流れを示すフローチャートである。

以下、添付の図面を参照して、本発明に係る実施形態について詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
＜第１の実施形態＞
図１は、第１の実施形態の情報処理装置を備えたシステム１００の概略的な構成例を示す図である。図１のシステム１００は、カメラ１０と識別装置２０とが、ネットワーク１５を介して接続されて構成されている。識別装置２０は、本実施形態に係る情報処理の一例である画像識別処理等を実行可能な情報処理装置である。識別装置２０とカメラ１０とは一体に構成されていてもよい。また図１のシステム１００は、識別装置２０と学習装置５０とがネットワーク１５を介して接続されている。学習装置５０は、本実施形態に係る情報処理の一例として多層ニューラルネットワークを学習する情報処理装置である。識別装置２０と学習装置５０は一体に構成されていてもよい。

カメラ１０は、識別装置２０による情報処理の対象となる画像（識別対象画像）を撮影する。図１は、被写体として木３０ａ、自動車３０ｂ、建物３０ｃ、空３０ｄ、道３０ｅ、および人体３０ｆ等が画角（撮影範囲）内に存在するシーン（撮影状況）３０を、カメラ１０が撮影する例を示している。

識別装置２０は、画像識別処理として識別タスクを行う。本実施形態では、画像分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）タスク、物体検出（ｄｅｔｅｃｔｉｏｎ）タスク、および領域分割（ｓｅｇｍｅｎｔａｔｉｏｎ）タスク等を例に挙げる。画像分類タスクは、カメラ１０で撮影（撮像）されたシーン３０の画像内に写っている各被写体を分類するタスクである。物体検出タスクは、各被写体のそれぞれの位置を検出するタスクである。領域分割タスクは、各被写体の領域を抽出するタスクである。本実施形態で挙げたタスクは、一例であり、これらの他に、例えば人物の顔の識別するタスクや、シーン（撮影状況）の種別を分類するタスク、など他のタスクが行われてもよい。

図２（ａ）から図２（ｃ）は、画像分類が行われる識別対象画像の一例を示した図である。図２（ａ）は建物に画像分類される画像の例を、図２（ｂ）は木（林・森）に画像分類される画像の例を、図２（ｃ）は車に画像分類される画像の例を示している。図３は、識別対象画像からの物体検出の一例を示しており、図中の車３１が識別対象物体である場合に物体検出が行われた例を示している。物体検出の結果は矩形の被写体領域３２として抽出される。図４（ａ）と図４（ｂ）は、領域分割の一例を説明する図である。図４（ａ）に示されるような撮影された識別対象画像４００は、画素ごとにクラスの識別が行われる。ここでいうクラスとは、図４（ｂ）に示されるような各画素に対応して振られる「ｓｋｙ」、「ｔｒｅｅ」、「ｃａｒ」、「ｂｕｉｌｄｉｎｇ」、および「ｒｏａｄ」等といった被写体の分類に関するクラスカテゴリー名である。

図５は、識別装置２０と学習装置５０のいずれにも適用可能な情報処理装置のハードウェア構成の一例を示す図であり、例えばパーソナルコンピュータが挙げられる。図５に示す情報処理装置は、ＣＰＵ５０１、ＲＡＭ５０２、ＲＯＭ５０３、ＨＤ５０４、操作部５０５、表示部５０６、およびネットワークＩ／Ｆ５０７を有する。

ＲＯＭ５０３は、リードオンリーメモリであり、本実施形態に係る情報処理プログラムを含む各種プログラム等を格納している。ＨＤ５０４はハードディスクであり、本実施形態に係るプログラムを含む各種プロブラム、閾値に関するデータ等を含む各種のデータ、後述する学習データや教師値、およびカメラ１０で撮影された画像データ等を格納可能な記領域置である。ＲＡＭ５０２は、ランダムアクセスメモリであり、ＲＯＭ５０３あるいはＨＤ５０４から読み出されたプログラムが展開されるワークエリアとして機能し、また画像データ等を一時的に格納する記憶領域である。

ＣＰＵ５０１は、中央処理ユニットであり、本実施形態の識別装置２０または学習装置５０の全体の動作および処理を制御する。ＣＰＵ５０１は、ＲＯＭ５０３またはＨＤ５０４等から読み出されてＲＡＭ５０２に展開されたプログラムを実行することにより、識別装置２０または学習装置５０の後述する機能構成やフローチャートの処理を実現する。
操作部５０５は、ユーザによる入力操作を受け付けて、その入力操作情報をＣＰＵ５０１に出力する。表示部５０６は、識別装置２０が扱う画像等や学習装置５０の情報等を必要に応じて表示する。ネットワークＩ／Ｆ５０７は、識別装置２０または学習装置５０と、外部の機器とを接続する。

まずニューラルネットワーク（ＮＮ）を用いて画像の識別が行われる際の処理について説明する。
本実施形態で説明するニューラルネットワークは、例えばＤＣＮＮ（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）であるとする。ＤＣＮＮは、畳み込み（ｃｏｎｖｏｌｕｔｉｏｎ）演算を多く行うニューラルネットワークである。例えば、非特許文献１には、畳み込み処理と非線形処理との組み合わせで特徴層が実現され、その後、全結合層（ｆｕｌｌｃｏｎｅｃｔ）を経て画像分類結果（各クラスに対する尤度）を出力する技術が開示されている。非線形処理には、ｒｅｌｕ処理やｍａｘｐｏｏｌｉｎｇ処理などがある。ｒｅｌｕ処理は、ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔｒｅｃｔｉｆｉｅｒ（正規化線形関数）処理の略称である。ｍａｘｐｏｏｌｉｎｇ処理は、ｐｏｏｌｉｎｇ層において所定の範囲内で最大値を取得して出力する処理である。

図６（ａ）から図６（ｃ）は、ＤＣＮＮの構造およびＤＣＮＮを用いた識別処理の一例の説明に用いる図である。ここでは入力層の入力画像が「ｉｍｇ」、畳み込み層の処理が「ｃｏｎｖ」、ｒｅｌｕ層の処理が「ｌｅｌｕ」、ｐｏｏｌｉｎｇ層の処理が「ｐｏｏｌ」、全結合層の結合処理が「ｆｃ」、および最終層の出力結果が「Ｏｕｔｐｕｔ」と表されている。
図６（ａ）に示すように、ＤＣＮＮを用いた画像の識別処理では、入力画像のｉｍｇ６００に対し、ｃｏｎｖ６０１、ｒｅｌｕ６０２、ｃｏｎｖ６０３、ｒｅｌｕ６０４、ｐｏｏｌ６０５、・・・の順に各層の処理が行われる。同様に、ｃｏｎｖ６０６、ｒｅｌｕ６０７、ｃｏｎｖ６０８、ｒｅｌｕ６０９、ｐｏｏｌ６１０、・・・の順に各層の処理が行われ、このような各層の処理が所定回数繰り返される。その後、ｆｃ６１１、ｒｅｌｕ６１２、ｆｃ６１３、ｒｅｌｕ６１４、およびｆｃ６１５の順に各層の処理が行われて、最終層の出力結果であるＯｕｔｐｕｔ６５０が得られる。
ここで、非線形処理の一つであるｒｅｌｕ処理は、式（１）のように、前層のｃｏｎｖ層の出力結果のうち、負の値を０とする処理である。

ｘ＝ｍａｘ（０，ｘ）式（１）

前述の例では、非線形処理としてｒｅｌｕ処理を用いたが、シグモイド関数などの他の非線形処理が用いられてもよい。また入力画像のＩｍｇ６００は、ＤＣＮＮに入力する際に、所定画像サイズで画像がクロップもしくはリサイズされた画像であってもよい。
他の例として、識別処理は、参考文献１に開示されているような、ニューラルネットワークの中間層の処理結果を特徴ベクトルとして識別器に入力することによって識別を行う処理であってもよい。
参考文献１：ＪｅｆｆＤｏｎａｈｕｅ，ＹａｎｇｑｉｎｇＪｉａ，ＪｕｄｙＨｏｆｆｍａｎ，ＴｒｅｖｏｒＤａｒｒｅｌｌ，“ＤｅＣＡＦ：ＡＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＡｃｔｉｖａｔｉｏｎＦｅａｔｕｒｅｆｏｒＧｅｎｅｒｉｃＶｉｓｕａｌＲｅｃｏｇｎｉｔｉｏｎ”，ａｒｘｉｖ

図６（ｂ）は、中間層の処理結果を特徴ベクトルとして識別器に入力する場合の例を示した図である。図６（ｂ）では、特徴ベクトルが「ｆｅａｔｕｒｅ」として表されている。識別器は、例えばＳｕｐｐｏｒｔ−Ｖｅｃｔｏｒ−Ｍａｃｈｉｎｅ（ＳＶＭ）であるとする。図６（ｂ）の例では、中間層のｒｅｌｕ６０９の処理結果を、特徴ベクトルのｆｅａｔｕｒｅ６１６としてＳＶＭ６１７に入力することによって識別が行われている。

図６（ｂ）ではｒｅｌｕ６０９の出力結果を特徴ベクトルとして利用する例を挙げたが、例えば、前層のｃｏｎｖ６０８の出力結果、後層のｐｏｏｌ６１０の出力結果、他の中間層の出力結果、またはそれら出力結果の組み合わせが利用されてもよい。また、識別器はＳＶＭとしたが、他の識別器が用いられてもよい。

図６（ｂ）の場合、入力画像に対して識別結果が一意に出力されるが、図４に示したような領域分割された識別対象領域を識別する場合などで、画素や小領域ごとに識別を行う場合には、図６（ｃ）のような構成が用いられてもよい。図６（ｃ）の構成例の場合、リサイズ６１８として表しているように、所定の中間層の出力結果に対してリサイズ処理が行われる。リサイズ処理は、中間層の出力結果を入力画像サイズと同サイズにリサイズする処理である。すなわちＤＣＮＮを用いる場合、中間層の出力結果は入力画像サイズに比べて小さくなるため、中間層の出力結果を入力画像サイズにリサイズする必要がある。リサイズの方法は、最近傍法（Ｎｅａｒｅｓｔ−Ｎｅｉｇｈｂｏｒ−Ａｌｇｏｒｉｔｈｍ）などの補間手法であれば何でもよい。リサイズ処理後の各中間層の各出力結果６５１は、それぞれ同サイズになる。リサイズ処理後は、各出力結果６５１内の注目画素もしくは小領域における所定の中間層の出力結果６１９を、特徴ベクトルとして前述同様にＳＶＭ６２１に入力することで識別が行われる。この例の場合も識別器は、ＳＶＭ以外の識別器でもよい。

図７（ａ）は、第１の実施形態の識別装置２０が実行する処理を、それぞれ機能ブロックとして示した図である。
本実施形態の場合、図７（ａ）に示した各機能部は、例えば図５のＣＰＵ５０１がプログラムを実行することによって実現されるが、各機能部の一部もしくは全部がハードウェア回路によって実現されていてもよい。なお図７（ａ）には、識別装置２０内の各機能部の他に、図１のカメラ１０に相当する撮影装置７００も描かれている。

第１の実施形態の撮影装置７００は、識別対象画像を取得する。本実施形態の識別装置２０は、入力部７０１、出力部７０２、パラメータ保持部７０６を有している。なお、パラメータ保持部７０６は、例えば図５のＨＤ５０４に相当するが、不揮発性の記憶装置として識別装置２０に外部接続等された構成であってもよい。第１の実施形態の識別装置２０が有するこれらの各機能部の詳細は後述する。

図８（ａ）は、図７（ａ）に示した識別装置２０の各機能部において実行される処理の概要を示したフローチャートである。
まずステップＳ８００のＮＮ入力処理として、入力部７０１は、撮影装置７００によって撮像された識別対象画像を入力データとして取得する。ステップＳ８００で取得された識別対象画像は、出力部７０２に送られる。
次にステップＳ８０１のＮＮ出力処理として、出力部７０２は、入力部７０１から送られてきた識別対象画像に対する識別処理を、パラメータ保持部７０６に保持されたニューラルネットワークを用いて行い、その識別結果を出力する。

以下、図８（ａ）に示したフローチャートを参照しつつ、図７（ａ）に示した識別装置２０の各機能部が実行する各処理、つまり図５のＣＰＵ５０１が実行する各処理の、より詳細な内容を説明する。
ステップＳ８００のＮＮ入力処理として、入力部７０１は、図１に示したようなシーン３０を撮影装置７００が撮影した画像データを、図４（ａ）に示したような識別対象画像４００のデータとして取得する。なお、取得される識別対象画像は、不図示の外部装置に格納されている画像であってもよい。その場合、入力部７０１は、外部装置から読み出された画像を識別対象画像として取得する。外部装置に格納されている画像は、例えば撮影装置７００が予め撮影した画像であってもよいし、ネットワーク等を経由するなどの他の方法で取得されてから格納された画像であってもよい。入力部７０１で取得された識別対象画像４００のデータは、出力部７０２に送られる。

次にステップＳ８０１のＮＮ出力処理として、出力部７０２は、ＮＮ入力処理で取得された識別対象画像４００のデータを、予め学習されたニューラルネットワークに入力する。そして、出力部７０２は、そのニューラルネットワークの最終層からの出力結果の情報を、識別結果として出力する。出力部７０２は、先に説明した画像分類タスク、物体検出タスク、およびは領域分割タスクなどのような、複数のタスクに対してそれぞれ識別結果を出力してもよい。また本実施形態において利用するニューラルネットワークは、例えば前述の図６（ａ）に示したような多層ニューラルネットワークであるとする。本実施形態における多層ニューラルネットワークは、後述する学習装置５０によって学習されたものであり、当該多層ニューラルネットワークの構造およびパラメータは予めパラメータ保持部７０６に保持されている。

次に本実施形態において用いられるニューラルネットワークを学習する際の処理について説明する。
図９（ａ）は、第１の実施形態における学習装置５０が実行する処理を、それぞれ機能ブロックとして示した図である。本実施形態の場合、図９（ａ）に示した各機能部は、例えば図５のＣＰＵ５０１がプログラムの実行により実現されるが、各機能部の一部もしくは全部がハードウェア回路によって実現されていてもよい。

第１の実施形態の学習装置５０は、学習部９０１、評価部９０２、変換部９０３、パラメータ設定部９０４、表示部９０５、範囲設定部９１２、パラメータ保持部９０６、学習データ保持部９０７、および評価データ保持部９０８を有している。パラメータ保持部９０６、学習データ保持部９０７、および評価データ保持部９０８は、例えば図５のＨＤ５０４に相当するが、不揮発性の記憶装置として学習装置５０に外部接続等された構成であってもよい。第１の実施形態の学習装置５０が有するこれらの各機能部の詳細は後述する。

本実施形態の学習装置５０は、学習データ保持部９０７が保持しているデータで学習を行った後に、ニューラルネットワークを評価し、その評価結果に基づいて学習データ生成パラメータを変換して新たな学習画像を生成する機能を有する。なお学習装置５０は、予め学習されたニューラルネットワークを保持しておいて、そのニューラルネットワークを評価してもよい。本実施形態の学習装置５０は、評価画像データおよびパラメータを評価データとして評価データ保持部９０８に保持している。本実施形態の学習装置５０は、ニューラルネットワークの精度を評価する基準の一つとしてロバスト性を挙げる。なお、ロバスト性とは、ニューラルネットワークに入力される評価画像の画像変動に対する識別精度の頑健性である。本実施形態の学習装置５０は、学習データ保持部９０７が保持しているデータで学習を行った後、その学習結果と評価データとの比較によってニューラルネットワークを評価し、その評価結果に基づいて学習データ生成パラメータを変換して学習画像を生成する。

以下、本実施形態の学習装置５０において行われる学習処理、ニューラルネットワークの評価処理、評価結果に基づく学習データ生成パラメータの変換処理と学習画像の生成について説明する。
図１０（ａ）は、図９（ａ）に示した学習装置５０の各機能部において実行される処理の概要を示したフローチャートである。
まずステップＳ１００１の学習データ生成パラメータ設定処理として、パラメータ設定部９０４は、ニューラルネットワークの学習に利用される学習データ生成パラメータを設定する。学習データ生成パラメータおよびその具体的な設定方法に関しては後述する。設定された学習データ生成パラメータの情報は、変換部９０３および範囲設定部９１２に送られる。

次にステップＳ１００２の学習データ生成パラメータ範囲設定処理として、範囲設定部９１２は、ステップＳ１００１で設定された学習データ生成パラメータの範囲を設定する。そして、設定された範囲の情報は、変換部９０３に送られる。詳細は後述するが、本実施形態の学習装置５０は、設定した学習データ生成パラメータの範囲内で学習画像を生成して、ニューラルネットワークを学習することでロバスト性の向上を実現している。同じく詳細は後述するが、本実施形態の学習装置５０は、ニューラルネットワークの学習時の学習データと教師値との誤差を利用することで、効率よく学習データ生成パラメータを決定して学習データを生成する。

次にステップＳ１００３のＮＮ学習処理として、学習部９０１は、前述のように設定された学習データ生成パラメータを利用し、学習データ保持部９０７に保持されている学習データを用いることで、ニューラルネットワークを学習する。また学習部９０１は、必要に応じて、設定された学習データ生成パラメータを利用して学習データを生成し、その学習データを用いてニューラルネットワークを学習する。ニューラルネットワークの学習処理の詳細に関しては後述する。そして、学習されたニューラルネットワークのデータは、評価部９０２に送られる。また学習結果の情報は、表示部９０５に送られ、これによりユーザは学習結果を確認することができる。なお、本実施形態において、学習結果とは、学習時において学習データと教師値とから計算される誤差の値、および、学習されたニューラルネットワークのパラメータなどである。

次にステップＳ１００４のＮＮ評価処理として、評価部９０２は、評価データ保持部９０８に保持されている評価データを用いて、ＮＮ学習処理で学習されたニューラルネットワークの評価を行う。ニューラルネットワークの評価方法に関しては後述する。ニューラルネットワークの評価結果の情報は、変換部９０３および表示部９０５に送られる。この時の表示部９０５は評価結果を表示し、これによりユーザは、表示部９０５上で評価結果の内容を確認することができる。なお表示部９０５は、評価結果とともに、前述したニューラルネットワークの学習結果を表示してもよく、この場合のユーザは、評価結果と学習結果の両方を確認することができる。

次にステップＳ１００５において、学習部９０１は、評価部９０２による評価結果に基づいて、ニューラルネットワークの学習を終了するかあるいは継続するかを決定する。学習を終了するか継続するかの決定方法については後述する。そして、学習装置５０は、ステップＳ１００５において学習を終了すると決定した場合には図１０のフローチャートの処理を終了し、一方、学習を継続すると決定した場合には次のステップＳ１００６に処理を進める。

ステップＳ１００６の学習データ生成パラメータ変換処理に進むと、変換部９０３は、ＮＮ評価処理による評価結果に基づいて、ニューラルネットワークの学習データ生成パラメータを変換して学習画像を生成する。本実施形態の場合、変換部９０３は、ＮＮ評価処理による評価結果に基づいて、学習データと当該学習データの教師値との誤差が変動するように、範囲設定部９１２で設定されたパラメータの範囲内で学習データ生成パラメータを変換する。そして、その変換後の学習データ生成パラメータを利用して学習画像を生成する。学習データ生成パラメータ変換および学習画像生成の詳細な処理に関しては後述する。変換された学習データ生成パラメータおよび学習画像のデータは、学習部９０１に送られ、さらに学習部９０１を介して表示部９０５にも送られる。この時の表示部９０５は、変換後の学習データ生成パラメータの内容および学習画像を表示し、これによりユーザは、表示部９０５上で、変換後の学習データ生成パラメータの内容および学習画像と評価結果の内容とを確認することができる。なお、表示部９０５は、変換後の学習データ生成パラメータの内容等とともに、前述したニューラルネットワークの学習結果を表示してもよく、この場合のユーザは、変換後の学習データ生成パラメータの内容と学習結果の両方を確認することができる。

ステップＳ１００６の後、学習装置５０は、ステップＳ１００２に処理を戻し、ステップＳ１００２以降の処理が行われる。これにより、ステップＳ１００３において、学習部９０１は、変換された学習データ生成パラメータによって生成された学習データ（学習画像）を用いて、再度ニューラルネットワークを学習する。これ以降の処理は前述同様である。なお多層ニューラルネットワークを学習する場合には、通常、ミニバッチ学習が行われる。その場合には、後述する図１５に示すようなＮＮ学習処理の中で、ステップＳ１００４のＮＮ評価処理やステップＳ１００６の学習データ生成パラメータ変換処理を行うこともできる。その場合の処理については後述する。

以下、図１０（ａ）のフローチャートにおける学習時の各ステップの処理について、より詳細な内容を説明する。本実施形態において、ニューラルネットワークは、先に説明したＤＣＮＮであるとする。
ステップＳ１００１の学習データ生成パラメータ設定処理において、パラメータ設定部９０４は、ニューラルネットワークが学習する学習データ生成パラメータを設定する。
ここで、設定される学習データ生成パラメータは、層の数、層の処理内容（構造）、フィルタサイズ、および出力チャンネル数などを含む。また本実施形態のように画像の識別のための学習が行われる場合、学習データ生成パラメータは、画像補正パラメータ、画像現像パラメータ、ＣＧ画像の生成ツールが用いるパラメータなどをも含む。画像補正パラメータは、例えばノイズ付加やガンマ補正による画像劣化、および、ぶれやボケに起因する画像劣化などを補正する際に用いられるパラメータである。画像補正パラメータには、ローパスフィルタの設定パラメータが含まれていてもよい。画像現像パラメータは、ＲＡＷ画像を現像する際に使用されるパラメータであり、ガンマ値、色調補正、ホワイトバランス、およびコントラストなどの各設定パラメータが含まれる。ニューラルネットワークの学習には、大量の画像が必要とされるため、学習画像には現像された画像を用いることが多いが、学習画像の一部にＲＡＷ画像が含まれる場合には、画像現像パラメータが学習データ生成パラメータに含められる。ＣＧ画像の生成ツールが用いるパラメータは、学習画像にＣＧ画像が含まれる場合に設定されるパラメータである。学習画像にＣＧ画像が用いられる例については後述する第２の実施形態で説明する。それぞれのパラメータ定義に関しては、ステップＳ１００６の処理内容のところで説明する。

第１の実施形態のパラメータ設定部９０４は、学習されたニューラルネットワークで識別処理を行う際に起き得る画像劣化をシミュレーションする。パラメータ設定部９０４は、そのシミュレーション結果に基づいて、画像補正パラメータや画像現像パラメータなどを画像データ生成パラメータに設定する。そして、パラメータ設定部９０４で設定された学習データ生成パラメータは、変換部９０３と範囲設定部９１２に送られる。

次にステップＳ１００２の学習データ生成パラメータ範囲設定処理において、範囲設定部９１２は、ステップＳ１００１で設定された学習データ生成パラメータの範囲を設定する。学習データ生成パラメータに画像補正パラメータが設定された場合、範囲設定部９１２は、画像劣化におけるノイズ量、ぶれやぼけ量に応じた範囲を設定する。また学習データ生成パラメータに画像現像パラメータが設定された場合、範囲設定部９１２は、ガンマ値、色調補正量、ホワイトバランス係数、およびコントラスト等のパラメータの範囲を設定する。またＲＡＷ画像やＲＡＷ画像を現像した画像データが評価データとして評価データ保持部９０８に保持されている場合、範囲設定部９１２は、それらの評価データを取得して各学習データ生成パラメータの範囲を決定してもよい。なお評価データは、評価データ保持部９０８が保持している場合の他、ネットワークなどを介して別途取得されてもよい。また学習データ生成パラメータの範囲は、例えば図１１に示すように、評価データに対する評価結果に基づいてユーザが設定してもよい。

図１１は、学習データ生成パラメータに対する評価データの精度を示した図である。本実施形態の学習装置５０は、例えば表示部９０５の表示画面１１０２上に図１１に示すような画面を表示する。そしてユーザ１１００が操作部５０５を介してポインタ１１０１を操作して、学習データ生成パラメータの範囲θ１およびθ２を指示すると、学習装置５０は、それら学習データ生成パラメータの範囲θ１およびθ２をユーザにより設定された範囲として取得する。なお範囲設定部９１２は、学習データ生成パラメータに対する精度に関する情報として、学習する際に実際に起き得る確率のデータを保持していてもよい。また範囲設定部９１２は、各パラメータに対してマージンをつけた広い範囲のデータを保持していてもよい。

次にステップＳ１００３のＮＮ学習処理において、学習部９０１は、設定された学習データ生成パラメータを利用してニューラルネットワークを学習する。本実施形態の場合、学習部９０１は、図４（ａ）に示したような画像入力からｃｏｎｖ処理とｒｅｌｕ処理およびｐｏｏｌｉｎｇ処理までが数回行われた後の出力結果に、全結合層（ｆｃ）を三層接続して結果を出力するネットワークを学習する。例えば、画像分類タスクの学習で用いられるＩＬＳＶＲＣの１０００クラス画像分類データを学習する場合には、図１２に示すような処理を行う。

図１２の例では、三層接続された全結合層１２０１、１２０２、および１２０３の最終層（１２０３）の出力ノード１２０５のノード数が１０００個となされ、それぞれの出力結果１２０４が、各画像に割り振られている画像分類クラスにおける尤度となされる。学習部９０１は、学習データ保持部９０７に保持されている学習データに対する各出力結果１２０４と教師値との誤差をニューラルネットワークに対して逆伝播して各畳み込み層のフィルタ値（重み）を確率的勾配降下法などで更新する。確率的勾配降下法は、ＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）法などを用いればよい。これはニューラルネットワークの出力結果と教師値との誤差をニューラルネットワークの出力側から入力側に順々に伝播していく方法である。学習部９０１は、ニューラルネットワークの各パラメータで誤差を偏微分して求められる勾配方向にニューラルネットワークの各パラメータを更新することで、誤差を小さくするようなニューラルネットワークのパラメータを学習する。

図１３（ａ）は、第１の実施形態に係る学習部９０１によって学習されるニューラルネットワークの一例を示した図であり、ニューラルネットワークの各層での処理内容および各層での出力結果を示した図である。図１３（ａ）中のｉｍｇ、ｃｏｎｖ、ｒｅｌｕ、ｐｏｏｌ、ｆｃ、ｏｕｔｐｕｔ等は前述の図６（ａ）で説明したものと同様である。図１３（ａ）の場合、入力画像のｉｍｇ１３００は、変換処理１３０１の後、ｃｏｎｖ１３０２からｒｅｌｕ１３１３の処理を経てｆｃ１３１４に入力される。ｆｃの全結合層の処理に関しては図１３（ａ）に示したように三層で表現されている。

図１３（ａ）には、各層への入力や各層の処理結果も示されている。図１３（ａ）では、入力画像がＩ、変換処理１３０１での学習データ生成パラメータの変換処理後の学習画像がＩ’、ｃｏｎｖ処理、ｒｅｌｕ処理、ｐｏｏｌｉｎｇ処理の各出力結果がａ₁〜ａ₁₆、最終出力結果がｙで示されている。変換処理１３０１は変換部９０３において行われる。変換処理１３０１の処理内容は予め設定されていてもよいし、Ｉ＝Ｉ’になるような恒等写像への変換処理でもよい。

また確率的勾配降下法による学習の場合、各畳み込み処理に用いるカーネルＫの学習は、出力結果ｙとその教師値ｔとの誤差Ｅを用いて、∂Ｅ／∂Ｋで算出される勾配方向にカーネルＫのパラメータを更新することで実現する。カーネルとは、各畳み込み処理に用いられるフィルタ群であり、本実施形態では（フィルタサイズＸ）×（フィルタサイズＹ）×（入力データの次元数）×（出力結果の次元数）のパラメータ数を有するものとする。∂Ｅ／∂Ｋは、連鎖率を用いて式（２）で表される。

∂Ｅ／∂Ｋ＝（∂Ｅ／∂ｙ）×（∂ｙ／∂ａ₁₆）×（∂ａ₁₆／∂ａ₁₅）×（∂ａ₁₅／∂ａ₁₄）×…×（∂ａ_k／∂Ｋ）式（２）

なお式（２）中のｋは更新したカーネル層のインデックスを示している。式（２）の∂Ｅ／∂ｙは、例えば誤差Ｅが出力結果ｙに対して式（３）で表されるとすると、式（４）のように表される。

Ｅ＝（１／２）×（ｙ−ｔ）² 式（３）
∂Ｅ／∂ｙ＝ｙ−ｔ式（４）

ここでは、簡単のため誤差を２乗誤差で説明したが、先に説明した識別タスクでは別の誤差が用いられる。例えば、画像分類タスクの場合にはソフトマックス誤差、物体検出タスクの場合には対象スコアに対してはユークリッド誤差、位置などを推定する場合には回帰誤差などが用いられる。

また各層の入力と出力結果で算出される∂ａ_i／∂ａ_(i-1)は、その層での処理内容によって異なる。畳み込み層はカーネルＫとなるが、ｒｅｌｕ層やｐｏｏｌｉｎｇ層はその入力結果によって異なる。ｒｅｌｕ層では式（５）のようになる。またｐｏｏｌｉｎｇ層では式（６）のようになる。なお、式中のｐ、ｑは各ｐｏｏｌｉｎｇ処理範囲における各点を示している。

ｒｅｌｕ層では入力結果が０より大きい場合のみ誤差が逆伝播される。ｐｏｏｌｉｎｇ層ではｐｏｏｌｉｎｇ処理される範囲内で最大値を有するときのみ誤差が逆伝播される。そして、式（２）で表される∂Ｅ／∂Ｋを用いて、カーネルＫは式（７）で更新される。

Ｋ＝Ｋ−μ（∂Ｅ／∂Ｋ）式（７）

ここで式（７）のμは学習率である。学習部９０１は、式（７）で表される更新式に従って、所定回数カーネルＫの更新を繰り返し、ステップＳ１００３のＮＮ学習処理を完了する。そして、学習されたニューラルネットワークのパラメータは、評価部９０２、表示部９０５、およびパラメータ保持部９０６に送られる。表示部９０５には学習時の誤差Ｅの推移やカーネルＫの値が表示されることで、ユーザはそれらを確認することができる。

次にステップＳ１００４のＮＮ評価処理において、評価部９０２は、ステップＳ１００３のＮＮ学習処理で学習されたニューラルネットワークを評価する。評価部９０２は、評価データ保持部９０８に保持されている評価データを用いて、ニューラルネットワークの評価を行う。本実施形態ではニューラルネットワークの評価に評価データを用いる例を挙げているが、評価部９０２は、学習データの一部を用いてニューラルネットワークの評価を行ってもよい。また、本実施形態の評価部９０２は、学習したニューラルネットワークによる評価データの識別精度だけでなく、ニューラルネットワークに入力される評価画像の画像変動に対する識別精度の安定性を示すロバスト性をも評価する。具体的には、評価部９０２は、ステップＳ１００１で設定されたパラメータを基に、評価データに画像変動分を加えて評価を行うことでロバスト性を評価する。本実施形態において、識別精度は、評価データに対する誤差を用いており、誤差の算出方法は学習時に学習データに対して算出している方法と同様でよい。

ステップＳ１００４のＮＮ評価処理における評価結果は、変換部９０３、表示部９０５に送られる。この時の表示部９０５では、評価結果である評価データに対する識別精度およびロバスト性をユーザが確認できる。ユーザによるロバスト性の確認は、例えば各画像データ生成パラメータの識別精度を表示することにより実現可能である。

図１４（ａ）〜図１４（ｃ）は、学習データ生成パラメータをθとしたときに、各学習データ生成パラメータθの評価データに対する誤差を表した図である。
図１４（ａ）では、各学習データ生成パラメータθでの評価データに対する誤差が、曲線１４０１で表されている。図１４（ａ）に示されているように、評価データに対する誤差は、学習データ生成パラメータの範囲の境界部（θ１，θ２）に近づくにつれて大きくなる。

図１４（ｂ）は、ステップＳ１００６の学習データ生成パラメータ変換処理により学習パラメータを変換し、該変換した学習パラメータを利用した学習処理を繰り返すことで、学習データ生成パラメータに対してロバスト性が向上している例を示した図である。すなわち図１４（ｂ）の場合、曲線１４０２に示すように、学習データ生成パラメータθに対して誤差が小さい範囲が、図１４（ａ）の曲線１４０１の場合よりも広がっており、これはロバスト性が向上していることを意味している。そして、本実施形態の場合、学習部９０１は、設定された学習データ生成パラメータの範囲内で、評価データに対する誤差が所定の閾値より小さい場合には、ロバスト性が向上していると判定する。

したがって学習部９０１は、ステップＳ１００５で学習処理を終了するかどうか決定する際、ステップＳ１００１で設定された学習データ生成パラメータの範囲内で、評価データに対する誤差が所定の閾値未満か否かを判定する。そして学習部９０１は、ステップＳ１００５において、学習データ生成パラメータの範囲内で、評価データに対する誤差が所定の閾値未満である場合に、学習処理を終了と決定する。一方、学習部９０１は評価データに対する誤差が所定の閾値以上である場合には学習処理を終了しないと決定し、学習装置５０の処理は次のステップＳ１００６に進む。

ステップＳ１００６の学習データ生成パラメータ変換処理に進むと、変換部９０３は、ステップＳ１００３のＮＮ学習処理で学習されたニューラルネットワークに対して設定されている学習データ生成パラメータを、必要に応じて変換する。また、ステップＳ１００１において複数の学習データ生成パラメータが設定されている場合、変換部９０３は、ロバスト性の低い学習データ生成パラメータを特定して変換処理を行ってもよい。また学習処理を継続する（繰り返す）と、例えば図１４（ｃ）の曲線１４０３に示すようにロバスト性は高いが、原点（画像変換していない評価データ）の誤差が大きくなる場合がある。逆に、図１４（ｃ）の曲線１４０４に示すように、原点の誤差は小さいが、ロバスト性は低くなる場合もある。このように学習処理が継続されることでロバスト性と原点の誤差が変化していく場合を想定し、本実施形態の変換部９０３は、学習データ生成パラメータ変換処理の選択基準を設けている。本実施形態の場合、変換部９０３は、例えば図１４（ｃ）に示されたパラメータθ１からパラメータθ２までの範囲の誤差の総和が小さくなる方の変換処理を選択する。その他、本実施形態の学習装置５０は、学習データ生成パラメータの変換処理をユーザが選択することも可能となされている。

ここで、本実施形態の場合、変換部９０３は、図１３（ａ）に示した変換処理１３０１においてパラメータを変換して学習画像を生成する。本実施形態では、画像をＩとし、変換処理をｇとし、変換処理ｇがなされる学習データ生成パラメータをθとした場合、変換部９０３による変換処理はｇ（Ｉ，θ）のように表される。

本実施形態では、変換部９０３が、学習データ生成パラメータθを、∂Ｅ／∂θで算出される勾配方向に変換し、さらに、その変換した学習データ生成パラメータθを用いて新たな学習データ（学習画像）を生成して、ニューラルネットワークを学習する。∂Ｅ／∂θは、連鎖率を用いて式（８）のように表される。またパラメータθは、∂Ｅ／∂θを用いて式（９）のように変換処理（つまり更新）される。

∂Ｅ／∂θ＝（∂Ｅ／∂ｙ）×（∂ｙ／∂ａ₁₆）×（∂ａ₁₆／∂ａ₁₅）×（∂ａ₁₅／∂ａ₁₄）×…×（∂ａ₁／∂Ｉ'）×（∂Ｉ'／∂θ）式（８）
θ＝θ＋μ（∂Ｅ／∂θ）式（９）

式（９）のようにパラメータθを変換（更新）することで誤差Ｅは大きくなる。このため、その変換処理後のパラメータθを用いて生成される学習データは、ニューラルネットワークにとって難しい学習データになる。さらに、変換部９０３は、式（９）のμの値を、所定数ごとに小さくする。これにより、学習部９０１では、学習が徐々に難しくなる画像がニューラルネットワークに対して与えられて学習が行われることになる。

すなわち本実施形態では、誤差が大きくなる方向に学習データ生成パラメータを変換することで、ニューラルネットワークにとって難しい学習データを生成してニューラルネットワークを学習することでロバスト性を高めることが可能となる。本実施形態では、誤差が所定の閾値未満の学習データを選択し、誤差が大きくなる方向に学習データ生成パラメータを変換する。本実施形態では、誤差が所定の閾値以上である場合には処理を終了したが、誤差が所定の閾値以上の学習データについては、誤差が小さくなる方向に学習データ生成パラメータを変換してもよい。これにより、ニューラルネットワークのロバスト性と識別精度がさらに高められることになる。なお、パラメータθは学習データごとに保持してもよい。パラメータθを更新する変換処理は、ステップＳ１００４のＮＮ評価処理の評価結果に応じて選択されてもよい。例えばガンマ補正のパラメータに対する変換処理の場合、変換処理ｇ（Ｉ，θ）は式（１０）のように表される。よって、式（８）における∂Ｉ’／∂θは、式（１１）のようになる。

他の例として、ホワイトバランス調整に失敗した場合などに起きる色かぶり（例えばＲＧＢの緑（Ｇ）や青（Ｂ）の最大値が小さく色がつぶれてしまう）場合を再現する例について説明する。この場合の変換処理ｇ（Ｉ，θ）は、式（１２）のように表される。なお、式（１２）におけるθ_rは赤（Ｒ）のチャンネル、θ_gは緑（Ｇ）のチャンネル、およびθ_bは青（Ｂ）のチャンネルのパラメータであることを表している。またＩ_r、はＲチャンネルの画像、Ｉ_gはＧチャンネルの画像、Ｉ_bはＢチャンネルの画像を表している。∂Ｅ／∂θについては、式（１３）に示すようにＩ_r、Ｉ_g、Ｉ_bそれぞれについて算出される。

ｇ（Ｉ，θ）＝ｇ（Ｉ，θ_r，θ_g，θ_b）＝θ_r×Ｉ_r＋θ_g×Ｉ_g＋θ_b×Ｉ_b
式（１２）
∂Ｉ'_r／∂θ＝ｇ'（Ｉ_r，θ）＝Ｉ_r，（∂Ｉ'_g／∂θ）＝ｇ'（Ｉ_g，θ）＝Ｉ_g，（∂Ｉ'_b／∂θ）＝ｇ'（Ｉ_b，θ）＝Ｉ_b 式（１３）

前述の式（９）によって変換された学習データ生成パラメータθは、学習部９０１と表示部９０５に送信される。表示部９０５では変換された学習データ生成パラメータθおよびその生成パラメータθを利用して生成された学習データ（学習画像）が表示され、したがってユーザはそれらを確認することができる。なお、ここではガンマ補正と色調整についてのパラメータ例を説明したが、微小に変動させることができるパラメータであって当該パラメータ変動に対して画像変動が定義できるものであればパラメータは限定されない。例えばノイズもパラメータに含まれる。また、ここでは現像済みの画像に対する変動をパラメータの変換によって与える例を挙げたが、ＲＡＷ画像に対する現像パラメータを変動させてもよい。

ステップＳ１００６の後は、ステップＳ１００２の処理を経てステップＳ１００３の処理に戻り、学習部９０１は、ステップＳ１００６で新たに生成された学習データを用いて、再度ニューラルネットワークの学習を行う。先のステップＳ１００３の学習処理では、図１３（ａ）で説明したように、変換処理１３０１は恒等写像かもしくは予め設定した変換処理を行うが、この場合の変換処理では先のステップＳ１００６で変換した後のパラメータが用いられる。ステップＳ１００３で再度学習されたニューラルネットワークのパラメータは、評価部９０２に送られて評価される。以下、ステップＳ１００４、ステップＳ１００６、ステップＳ１００３の処理を繰り返す。

前述の説明では、ステップＳ１００３のＮＮ学習処理においてニューラルネットワークの学習が完了した後に、その学習されたニューラルネットワークを評価し、その評価結果に基づいて学習データ生成パラメータを変換する例を説明した。
ただし、多層ニューラルネットワークの学習では通常、ミニバッチ学習が行われる。ミニバッチ学習では、全学習データがＮ個あるときに、ｎ（ｎ≦Ｎ）個のデータを用いた学習が行われる。ｎはランダムな値である。ミニバッチ学習時の学習データに対する教師値との損失関数Ｅは、式（１４）のように表される。なお式（１４）では、各学習データをｘ_i、その教師値をｔ_i、ニューラルネットワークによる出力関数をｆ、およびそのニューラルネットワークの重みをｗ、画像データ生成パラメータをθとする。

多層ニューラルネットワークの学習では全学習データのＮ個をシャッフルして、各ｎ個のミニバッチを作成し、すべてのミニバッチを学習することをｄ回繰り返す。ここで、ｄは学習のエポック数を示している。つまり、ニューラルネットワークの重みの更新（学習）数は、式（１５）で表されるインタレーション数ｉｔｒだけ行われる。

ｉｔｒ＝（Ｎ／ｎ）×ｄ式（１５）

ミニバッチ学習時のＮＮ学習処理、ＮＮ評価処理、および学習データ生成パラメータ変換処理の詳細な流れは図１５のフローチャートのようになる。図１５のフローチャートにおけるＮＮ評価処理はステップＳ１５０３〜Ｓ１５０５の各処理を含み、学習データ生成パラメータ変換処理はステップＳ１５０６およびＳ１５０７の処理を含む。そして、図１５のフローチャートにおけるＮＮ学習処理は、それらＮＮ評価処理と学習データ生成パラメータ変換処理、およびステップＳ１５０８〜Ｓ１５１０の各処理からなる。つまり、図１５のフローチャートの場合、ＮＮ評価処理および学習データ生成パラメータ変換処理は、学習部９０１におけるＮＮ学習処理の中で行われる。なお本実施形態において、予め所定のエポック数Ｄおよび各ミニバッチサイズ（ｎ）は定められているとする。図１５のフローチャートのＮＮ学習処理に含まれる各処理はミニバッチごとに行われる。図１５のステップＳ１５０１の学習データ生成パラメータ設定処理と、ステップＳ１５０２の学習データ生成パラメータ範囲設定処理は前述同様であるためその説明は省略する。

図１５のステップ１５０３において、学習部９０１は、ミニバッチ内の各学習データを多層ニューラルネットワークに入力して各出力結果を出力する。以下、この処理のことをｆｏｒｗａｒｄパス処理という。
次にステップＳ１５０４において、学習部９０１は、ステップＳ１５０３で得られた各出力結果と各教師値との誤差ｅを算出する。例えば、画像分類タスクの場合には各クラスに対する尤度が出力されて、それに対する教師値は該当クラスのみが１、その他のクラスが０になっているとする。その場合の誤差ｅは、出力結果と教師値から算出されるものであればよい。例えば、誤差をユーグリッド距離で定義した場合、ミニバッチ内の各学習データｘ_iに対する誤差ｅは式（１６）のように表される。

ｅ（ｔ_i，ｘ_i；ｗ，θ_i）＝｜ｔ_i−ｆ（ｘ_i；ｗ，θ_i）｜² 式（１６）

次にステップＳ１５０５において、学習部９０１は、ステップＳ１５０４で算出された誤差ｅに基づいて、学習データ生成パラメータを変換する学習データを選択する。例えば、学習部９０１は、誤差ｅが所定値未満の学習データを選択し、その学習データの学習データ生成パラメータを変換して、前述同様の学習を行うことで、ロバスト性の高いニューラルネットワークの学習が可能になる。

次にステップＳ１５０６において、学習部９０１は、ステップＳ１５０５で選択された学習データ生成パラメータにおける誤差ｅに対する勾配方向を算出する。算出方法は、式（８）で示した通りであるが、この場合、学習データ生成パラメータをミニバッチ内の各学習データに対してもつ。学習データ生成パラメータをθ_iとした場合、勾配方向は式（１７）のように表される。

∂Ｅ／∂θ_i＝（∂Ｅ／∂ｙ）×（∂ｙ／∂ａ₁₆）×（∂ａ₁₆／∂ａ₁₅）×（∂ａ₁₅／∂ａ₁₄）×…×（∂ａ₁／∂Ｉ'）×（∂Ｉ'／∂θ_i）式（１７）

次にステップＳ１５０７において、学習部９０１は、ステップＳ１５０６で求めた勾配方向に基づいて選択されたデータに対する学習データ生成パラメータを変換する。変換方法は式（９）で示した通りであるが、各学習データ生成パラメータθ_iに対して式（１８）に従い更新される。

θ_i＝θ_i＋μ（∂Ｅ／∂θ_i）式（１８）

なおステップＳ１５０５において選択されなかった学習データに関しては学習データ生成パラメータθ_iの更新は行われない。
次にステップＳ１５０８において、学習部９０１は、選択されたデータに対して再度ｆｏｒｗａｒｄパス処理を行う。
さらにステップＳ１５０９において、学習部９０１は、式（１６）に従いニューラルネットワークの出力結果と教師値との誤差を算出する。
その後ステップＳ１５１０において、学習部９０１は、式（７）に従いニューラルネットワークの各カーネルＫを更新する。以上でミニバッチ処理を完了し、所定回数ミニバッチ処理を繰り返してＮＮ学習処理が完了する。

以上説明したように、第１の実施形態の学習装置５０は、ＮＮ評価処理の評価結果に基づいてニューラルネットワークの学習データ生成パラメータを変換することで、ニューラルネットワークを実際に利用する場面で入力されるデータを学習することができる。また本実施形態の学習装置５０は、学習データ生成パラメータを学習結果に基づいて変換することで、ニューラルネットワークの学習に効率的な学習データを得ることができる。本実施形態の場合、学習装置５０は、学習データ生成パラメータおよびそのパラメータの範囲を設定し、その設定したパラメータ範囲内で学習画像を生成して、ニューラルネットワークを学習することで、ロバスト性の向上を実現している。また本実施形態の学習装置５０は、ニューラルネットワークの学習時の学習データと教師値との誤差を利用することにより、効率よく学習データ生成パラメータを決定して学習データを生成している。
すなわち第１の本実施形態によれば、学習装置５０は、学習データに対するニューラルネットワークの出力結果とその教師値との誤差に基づいて、学習データ生成パラメータを変換する。そして学習装置５０は、その変換された学習データ生成パラメータにより生成された学習データを用いて、再度ニューラルネットワークを学習する。本実施形態によれば、これらの処理により、識別精度が高くロバスト性の高いニューラルネットワークを効率よく学習することができる。

＜第２の実施形態＞
第２の実施形態では、学習データ生成パラメータのうち一部のパラメータを、学習データに対するニューラルネットワークの出力結果と教師値との誤差に基づいて変換した後に、他の学習データ生成パラメータを変更して学習データを生成する例を説明する。
例えばＣＧ画像（コンピュータグラフィック画像）などを用いてニューラルネットワークの学習データを作成する場合、学習データの生成処理は、モデリングとレンダリングの処理に分解される。モデリングはＣＧ空間でＣＧモデルを作成する作業である。その際にＣＧモデルが持つモデリングパラメータが設定される。例えば、人体モデルの場合、モデリングパラメータは、人体の各パーツの位置や姿勢パラメータである。レンダリングは、学習データである２次元画像を生成するためにモデルおよびカメラの条件（パラメータ）を設定して、２次元画像を生成する処理である。モデルにおけるレンダリングパラメータ（以下、モデルパラメータとする）とは、光源、影、物体色、テクスチャ、反射率、屈折率、および透過率などである。カメラにおけるレンダリングパラメータとは、カメラのパラメータ、レンズのパラメータなどである。以下、これらを合わせてカメラパラメータとする。カメラのパラメータには、ＣＧモデルの位置に対するカメラの三次元位置・姿勢などの外部パラメータとカメラの焦点距離などの内部パラメータがある。

第２の実施形態では、モデリングパラメータおよびレンダリングパラメータを学習データ生成パラメータとする。第２の実施形態では、モデリングパラメータおよびレンダリングパラメータのうち、まずレンダリングパラメータがニューラルネットワークの出力結果と教師値に基づいて最適化される。その後、最適化されたレンダリングパレメータを固定して、学習データ生成パラメータの残りのモデリングパラメータのみを変動させて学習画像（学習データ）が生成されて、ニューラルネットワークの学習が行われる。これにより、例えばＣＧモデルが人体モデルの場合、さまざまな姿勢や服装などのバリエーションに対して学習を行うことができる。
第２の実施形態における識別対象画像を識別する際の処理は、第２の実施形態と同様であるためその説明を省略し、以下、学習時の処理についてのみ説明する。

図９（ｂ）は、第２の実施形態における学習装置５０のＣＰＵ５０１が実行する処理をそれぞれ機能ブロックとして示した図である。第２の実施形態の学習装置５０は、第１の実施形態とほぼ同様であるが、学習データ生成部９１１が追加されている。本実施形態において用いられる学習時の処理は、図１０（ｂ）に示されるフローチャートに従って行われる。

図１０（ｂ）のステップＳ１０１１において、パラメータ設定部９０４は、第１の実施形態と同様にして学習データ生成パラメータを設定する。ＣＧデータなどを用いる場合、パラメータ設定部９０４は、ＣＧデータ生成に必要なモデリングパラメータも設定する。そして、設定された学習データ生成パラメータは、学習データ生成部９１１と変換部９０３に送られる。

次にステップＳ１０１２において、範囲設定部９１２は、第１の実施形態と同様にして、学習データ生成パラメータの範囲を設定する。
次にステップＳ１０１３において、学習データ生成部９１１は、ステップＳ１０１１で設定され、さらにステップＳ１０１２で範囲が設定された学習データ生成パラメータを基に学習データを生成する。その生成された学習データは、学習データ保持部９０７に送られて保持され、ニューラルネットワークの学習時にロードされる。また、学習データは表示部９０５に送られ、これによりユーザは学習データを確認することができる。
次のステップＳ１０１４は、第１の実施形態におけるステップＳ１００３と同様であるためその説明は省略する。

ここで用いるニューラルネットワークの構造やパラメータは第１の実施形態と同様に設定すればよいが、ニューラルネットワークのパラメータは予め何等かの方法で既に学習されている方が望ましい。なぜなら、学習データ生成部９１１が生成した学習データによっては、学習がうまく進まない場合があるからである。また本実施形態では、ステップＳ１０１４のＮＮ学習処理を行ってから、ステップＳ１０１５のＮＮ評価処理を行うように説明しているが、学習済みのニューラルネットワークのパラメータをロードし、ステップＳ１０１５のＮＮ評価処理から行ってもよい。

ステップＳ１０１５において、評価部９０２は、ステップＳ１０１４のＮＮ学習処理で学習されたニューラルネットワークを評価する。第１の実施形態ではニューラルネットワークの評価時に評価データに対し識別精度と共にロバスト性も評価したが、第２の実施形態の評価部９０２はまず識別精度を評価する。評価データは、評価データ保持部９０８からロードするが、評価データは予め用意しておく。評価データは、学習データ生成部９１１が生成したものではなく、ユーザが学習されたニューラルネットワークを利用する場面で識別するデータに近いものである方がよい。

次のステップＳ１０１６において、学習部９０１は、第１の実施形態と同様に識別精度が所定値以上か否かにより、学習を継続するか終了するかを判定する。そして、ステップＳ１０１６において、学習装置５０は、識別精度が所定値以上である場合には学習を終了すると判定して処理を終了する。一方、学習装置５０は、識別精度が所定値未満であるため学習を継続すると判定した場合には、ステップＳ１０１７のレンダリングパラメータ学習処理に移動する。

ステップＳ１０１７に進むと、変換部９０３は、レンダリングパラメータのみを変換するレンダリングパラメータ変換処理を行う。
ここで、図１３（ｂ）に示すように、学習データ生成処理の中のレンダリング処理に入力されるＣＧモデルをＭ、レンダリングで出力される画像データをＩとし、レンダリングパラメータをψとする。ニューラルネットワークの各層の出力結果は、前述の図１３（ａ）と同様に各出力結果をａ₁〜ａ₁₆とし、最終出力結果をｙとする。学習部９０１は、式（１９）のように、∂Ｅ／∂ψで算出される勾配方向にレンダリングパラメータψのパラメータを更新（変換）することにより学習を実現する。

∂Ｅ／∂ψ＝（∂Ｅ／∂ｙ）×（∂ｙ／∂ａ₁₆）×（∂ａ₁₆／∂ａ₁₅）×（∂ａ₁₅／∂ａ₁₄）×…×（∂ａ₁／∂Ｉ）×（∂Ｉ／∂ψ）式（１９）

式（１９）の∂Ｅ／∂ψは、レンダリングパラメータを更新した際に生成データがどのように変化するのかを表している。例えば、レンダリングパラメータが、選択式で連続的に変化するパラメータではなく微分できない場合には、複数のレンダリングパラメータでニューラルネットワークの出力結果と教師値との誤差が小さくなるようなレンダリングパラメータが選択される。

次にステップＳ１０１８のモデルパラメータ変換処理において、変換部９０３は、ＣＧモデルのモデリングパラメータを変換する。変換部９０３は、例えば人体モデルの場合には、各関節位置・角度や服装などといった属性情報を変換する。この処理によってバリエーションのある学習データの生成が可能となり、識別精度の高いニューラルネットワークを学習することができる。モデルパラメータ変換処理後の学習データは、学習データ生成部９１１および表示部９０５に送信される。ユーザは、表示部９０５の表示を見ることで、モデルパラメータ変換処理後の学習データを確認することができる。なお、ここではＮＮ学習処理、ＮＮ評価処理、レンダリングパラメータ変換処理、モデルパラメータ変換処理の順に処理を行ったが、ＮＮ学習処理とレンダリングパラメータ変換処理が繰り返されてもよい。

以上のように第２の実施形態の学習装置５０は、学習データ生成パラメータのうち一部のパラメータを学習データに対するニューラルネットワークの出力結果と教師値との誤差を基に変換した後に、他の生成パラメータを変更して学習データを生成する。そして、学習装置５０は、その生成された学習データを用いて再度ニューラルネットワークを学習する。これらの処理により、第２の実施形態によれば、識別精度の高いニューラルネットワークを学習することができる。

＜第３の実施形態＞
第３の実施形態では、第１および第２の実施形態の例のニューラルネットワークとは異なる識別器を学習する。識別器は、例えばＳｕｐｐｏｒｔ−Ｖｅｃｔｏｒ−Ｍａｃｈｉｎｅ（ＳＶＭ）や線形判別器などを利用する。詳細は後述するが、ＳＶＭなどの識別器は、一般的に学習時にはバッチ処理と呼ばれる学習データのすべてを用いて学習を行う。一方、ニューラルネットワークの学習は、通常、ミニバッチ処理と呼ばれる学習データの一部のデータを用いて学習（パラメータの更新）を随時行う。ＳＶＭなどの識別器は、例えば参考文献２に開示されているような技術を用いてオンライン学習することもできるが、本実施形態ではニューラルネットワークを学習後、ニューラルネットワークの出力結果を用いて識別器を学習する例について説明する。

参考文献２：Ｓｈａｉｓｈａｌｅｖ−Ｓｈｗａｒｔｚ，“Ｐｅｇａｓｏｓ：ＰｒｉｍａｌＥｓｔｉｍａｔｅｄｓｕｂ−ＧｒＡｄｉｅｎｔＳＯｌｖｅｒｆｏｒＳＶＭ”，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ２００７．

まず、識別対象画像を識別する際の処理について説明する。
図７（ｂ）は第３の実施形態における識別装置２０のＣＰＵ５０１が実行する処理を、それぞれ機能ブロックとして示した図である。なお、第１および第２の実施形態と同様に、図７（ｂ）には識別装置２０の各機能部の他に、カメラ１０に相当する撮影装置７００も示している。撮影装置７００は識別対象画像を取得する。第３の実施形態の識別装置２０は、入力部７０１、出力部７０２、結果出力部７０３、パラメータ保持部７０６、および識別器保持部７０７を有している。なお、パラメータ保持部７０６と識別器保持部７０７は、不揮発性の記憶装置として識別装置２０と接続された構成としてもよい。識別装置２０が有するこれらの各機能部の詳細については後述する。

図８（ｂ）は、第３の実施形態における識別装置２０の各機能部で実行される処理の概要を示すフローチャートである。
図８（ｂ）のステップＳ８１０のＮＮ入力処理において、入力部７０１は、撮影装置７００によって撮影された識別対象画像を入力データとして取得する。この取得された識別対象画像は、出力部７０２に送られる。

次にステップ８１１のＮＮ出力処理において、出力部７０２は、入力部７０１から送られてきた識別対象画像をパラメータ保持部７０６に保持されたニューラルネットワークを用いて処理し、その結果を出力結果とする。出力結果は、ニューラルネットワークの最終層の出力結果だけでもよいし、その他の中間層からの出力結果が含まれていてもよい。ニューラルネットワークの出力結果は、結果出力部７０３に送られる。
次にステップＳ８１２の識別結果出力処理において、結果出力部７０３は、ステップＳ８１１の処理後のニューラルネットワークの出力結果を識別器に入力し、その識別結果を出力する。識別器は、識別器保持部７０７に保持されており、その学習方法に関しては後述する。

次に、第３の実施形態において用いられる識別器を学習する際の学習処理について説明する。
図９（ｃ）は、第３の実施形態における学習装置５０のＣＰＵ５０１が実行する処理を、それぞれ機能ブロックとして示した図である。
第３の実施形態の学習装置５０は、学習部９０１、評価部９０２、変換部９０３、パラメータ設定部９０４、表示部９０５、識別器学習部９０９、および範囲設定部９１２を有している。さらに、学習装置５０は、パラメータ保持部９０６、学習データ保持部９０７、評価データ保持部９０８、および識別器保持部９１０をも有している。

パラメータ保持部９０６、学習データ保持部９０７、評価データ保持部９０８、および識別器保持部９１０は不揮発性の記憶装置として識別装置２０と接続された構成であってもよい。学習装置５０が有するこれらの各機能の詳細については後述する。

第３の実施形態の場合、学習装置５０は、学習データ保持部９０７に保持されているデータでニューラルネットワークを学習した後に、ニューラルネットワークを評価して学習データ生成パラメータを変換する。なお、学習装置５０は、予め学習されたニューラルネットワークを保持しておいて、そのニューラルネットワークを評価してもよいし、そのニューラルネットワークの出力結果から識別器学習のみを行ってよい。

図１０（ｃ）は、第３の実施形態の学習装置５０の各機能部で実行される処理の概要を示すフローチャートである。この図１０（ｃ）のフローチャートにおいて、ステップ１０２１〜ステップＳ１０２６の処理は、第１の実施形態におけるステップＳ１００１〜ステップＳ１００６の処理と同様であるため、それら各処理の説明は省略する。

第３の実施形態の場合、ステップＳ１０２３のＮＮ学習処理において学習部９０１が学習したニューラルネットワークのパラメータは、識別器学習部９０９にも送られる。また、ステップＳ１０２３で学習するタスクは、ステップＳ１０２７の識別器学習処理と同様でもよいし、別のタスクでもよい。例えば、ステップＳ１０２３のＮＮ学習処理では画像分類タスクで学習が行われ、ステップＳ１０２７の識別器学習処理では領域分割タスクで学習が行われてもよい。

次に、ステップＳ１０２７の識別器学習処理に関して説明する。
ステップＳ１０２７において、識別器学習部９０９は、ステップＳ１０２３で学習されたニューラルネットワークの出力結果を特徴量とする識別器を学習する。識別器学習部９０９は、識別器の学習の際には学習データ保持部９０７に保持されているデータを用いるが、別途用意してもよい。また識別器学習部９０９は、学習データに対して、先のステップＳ１０２６の学習データ生成パラメータ変換処理によって変換された生成パラメータで学習データを生成して利用してもよい。学習された識別器は、識別器保持部９１０に送られて保持される。

本実施形態では、学習されたニューラルネットワークを評価して、識別精度の高いニューラルネットワークの出力結果を用いて識別器を学習する例を挙げた。他の例として、識別器まで学習を行い、識別精度およびロバスト性を評価してから、その結果に基づいてニューラルネットワークおよび識別器の学習が行われてもよい。

また参考文献２に開示されている方法を用いて識別器をオンライン学習する場合には、ニューラルネットワークを学習する際と同様に徐々に学習データ生成パラメータを変化させながら識別器の学習が行われてもよい。

第３の実施形態によれば、学習装置５０は、学習データに対するニューラルネットワークの出力結果とその教師値との誤差に基づいて、学習データ生成パラメータを変換する。そして、学習装置５０は、その変換された学習データ生成パラメータにより生成された学習データを用いて再度ニューラルネットワークを学習する。また、学習装置５０は、学習されたニューラルネットワークの出力結果を特徴量とする識別器を学習する。第３の実施形態に識別装置２０によれば、これらの処理により識別精度の高いニューラルネットワークおよび識別器を学習することができる。

本発明は、各実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
前述の各実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１０：カメラ、２０：識別装置、１５：ネットワーク、５０１：ＣＰＵ、５０２：ＲＡＭ、５０３：ＲＯＭ、５０４：ＨＤ、５０５：操作部、５０６：表示部、５０７：ネットワークＩ／Ｆ、５０：学習装置

Claims

学習データを生成する学習データ生成パラメータを設定するパラメータ設定手段と、
前記学習データ生成パラメータの範囲を設定する範囲設定手段と、
前記学習データ生成パラメータを基に生成された学習データと、前記学習データの教師値とに基づいて、ニューラルネットワークを学習する学習手段と、
前記学習データと前記教師値との誤差を評価する評価手段と、
前記評価の結果に基づいて、前記学習データと前記教師値との誤差が変動するように、前記設定された範囲内で前記学習データ生成パラメータを変換する変換手段と、
を有することを特徴とする情報処理装置。
前記変換手段は、前記変換した学習データ生成パラメータを基に学習データを生成し、
前記学習手段は、前記変換した学習データ生成パラメータを基に生成された学習データを用いて、再度ニューラルネットワークを学習することを特徴とする請求項１に記載の情報処理装置。
前記変換手段は、前記学習データと前記教師値との誤差が大きくなる方向に、前記学習データ生成パラメータを変換することを特徴とする請求項１または２に記載の情報処理装置。
前記変換手段は、前記学習データのうち、前記学習データと前記教師値との誤差が所定値未満の学習データを選択し、前記選択した学習データと前記教師値との誤差が大きくなる方向に、前記選択した学習データの学習データ生成パラメータを変換することを特徴とする請求項１または２に記載の情報処理装置。
前記変換手段は、前記学習データのうち、
前記学習データと前記教師値との誤差が所定値未満の学習データについては、前記学習データと前記教師値との誤差が大きくなる方向に、前記学習データの学習データ生成パラメータを変換し、
前記学習データと前記教師値との誤差が所定値以上の学習データについては、前記学習データと前記教師値との誤差が小さくなる方向に、前記学習データの学習データ生成パラメータを変換することを特徴とする請求項１または２に記載の情報処理装置。
前記変換手段は、前記学習データ生成パラメータのうち、一部のパラメータを前記学習データと前記教師値の誤差が小さくなる方向に変換した後、さらに他のパラメータに対して前記変換を行うことを特徴とする請求項１または２に記載の情報処理装置。
前記一部のパラメータはコンピュータグラフィック画像を生成する際のレンダリングパラメータであり、前記他のパラメータは前記コンピュータグラフィック画像を生成する際のモデリングパラメータであることを特徴とする請求項６に記載の情報処理装置。
表示手段をさらに有し、
前記表示手段は、前記変換された学習データ生成パラメータを用いて生成された学習データを表示することを特徴とする請求項１から７のいずれか１項に記載の情報処理装置。
請求項１から８のいずれか１項に記載の情報処理装置を用いて学習されたニューラルネットワークに、識別対象画像を入力する入力手段と、
前記学習された前記ニューラルネットワークを用いて前記識別対象画像の識別を行った結果を出力する出力手段と、
を有することを特徴とする情報処理装置。
情報処理装置が実行する情報処理方法であって、
学習データを生成する学習データ生成パラメータを設定するパラメータ設定ステップと、
前記学習データ生成パラメータの範囲を設定する範囲設定ステップと、
前記学習データ生成パラメータを基に生成された学習データと、前記学習データの教師値とに基づいて、ニューラルネットワークを学習する学習ステップと、
前記学習データと前記教師値との誤差を評価する評価ステップと、
前記評価の結果に基づいて、前記学習データと前記教師値との誤差が変動するように、前記設定された範囲内で前記学習データ生成パラメータを変換する変換ステップと、
を有することを特徴とする情報処理方法。
請求項１から８のいずれか１項に記載の情報処理装置を用いて学習されたニューラルネットワークに、識別対象画像を入力する入力ステップと、
前記学習された前記ニューラルネットワークを用いて前記識別対象画像の識別を行った結果を出力する出力ステップと、
を有することを特徴とする情報処理方法。
コンピュータを、請求項１から９のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。