JP2021177312A

JP2021177312A - 情報処理装置、情報処理方法

Info

Publication number: JP2021177312A
Application number: JP2020082425A
Authority: JP
Inventors: 浩司浅見; Koji Asami; 貴久山本; Takahisa Yamamoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2021-11-11

Abstract

【課題】従来の学習手法では物体検出モデルの学習時に後段のクラス識別モデルの良否が考慮されないため、識別という最終目的に対してより良い物体領域を検出できなかった。【解決手段】機械学習を用いた学習を、画像中の物体領域を推定する物体検出モデルを学習する物体検出モデルの学習し、物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて物体領域のクラスを識別し、物体検出モデルに推定されクラス識別モデルへ入力される物体領域の位置または大きさを補正する補正手法を探索する物体領域補正をし、補正手法のうちから一つの補正手法を選択する補正手法の選択をし、物体検出モデルの学習では、現在推定している物体領域に対して、選択した補正手法により補正した領域を、物体領域として検出する教師とする領域として更新を行い、物体検出モデルの学習をおこなう。【選択図】図１

Description

本発明は、画像内の物体を識別するための検出モデルに関する技術である。

近年、画像を高度に処理して有用な情報を抽出する技術が多く提案されている。特に、入力された物体画像と、予め登録されている複数の物体画像との比較を行い、入力された物体画像が、登録されている中のどの物体であるかを判定する物体認識に関して、盛んに研究開発されている。顔の映像を使用して個人の識別を行う顔認証もその一例である。

一般に、物体認識の手法は、画像中の物体の位置を検出する物体検出処理と、検出された物体から特徴（特徴ベクトル）を抽出し、抽出した特徴ベクトルを用いてその物体のクラスを識別するクラス識別処理を備える。近年では、物体検出とクラス識別の両方で、機械学習に基づく手法、特にディープラーニングを用いた手法が広く用いられている。

特許第２８７２７７６号

機械学習に基づく物体認識では、一般に次の手順で物体検出モデルとクラス識別モデルを学習する。

まず、画像に物体領域、より具体的には画像中の物体の位置とサイズから構成される教師データ（検出目標領域）を付与することで、物体検出の学習データを作成する。次に、作成した物体検出の学習データを使用して物体検出モデルを学習する。

続いて、学習済の物体検出モデルを使ってクラス識別モデルの学習データ中の物体領域を検出することでクラス識別の学習データを作成する。クラス識別の学習データには、人が目視することで得られるクラスラベルを教師データとして付与する。最後に、得られたクラス識別の学習データを使ってクラス識別モデルを学習する。

このようにして学習されるクラス識別モデルの性能は、物体検出モデルの出力傾向に左右される。例えば、顔認証の場合、検出される物体領域が実際の顔領域に対して広すぎても狭すぎても高い認証精度（クラス識別精度）は得られない。しかしながら、最適な物体領域の範囲は、クラス識別モデルの特性によって変わるため、最適な物体領域の教師データ（検出目標領域）を予め付与することは不可能である。

従来手法では、経験的に定めた基準（特徴点間距離や既存の検出器の出力枠の定数倍など）に基づいて物体領域を定めていた。例えば特許文献１では、顔の器官点を基準に特徴抽出のための領域を定める方法が提案されている。しかし、基準から物体領域を求める方法は人間が一律に定めており、必ずしもクラス識別処理に適した物体領域が得られるとは言えない。

本発明は、上記の課題に鑑み、クラス識別に適した物体領域を検出するモデルを学習し、クラス識別の精度を向上させる情報処理装置を提供することを目的とする。

本発明に係る機械学習を用いた学習を実行する情報処理装置は、以下の構成を備える。画像中の物体領域を推定する物体検出モデルを学習する物体検出モデルの学習手段と、前記物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて前記物体領域のクラスを識別する識別手段と、前記物体検出モデルに推定され前記クラス識別モデルへ入力される前記物体領域の位置または大きさを補正する補正手法を探索する物体領域補正手段と、前記補正手法のうちから一つの補正手法を選択する補正手法の選択手段を備え、前記物体検出モデルの学習手段では、現在推定している物体領域に対して、前記選択手段が選択した補正手法により補正した領域を、前記物体領域として検出する教師とする領域として更新を行い、前記物体検出モデルの学習をおこなうことを特徴とする。

本発明によれば、クラス識別に適した物体領域を物体検出モデルにて学習可能となり、クラス識別の精度を向上させることが可能となる。

実施例１の全体ブロック図実施例１の全体処理フローチャート実施例１の補正手法選択のフローチャート教師データの模式図実施例２の全体ブロック図実施例２の補正手法選択のフローチャート補正後の物体領域の模式図実施例２の全体処理フローチャート装置のハードウェア構成例

［実施例１］
以下、図１、図２を参照して学習装置１００（以下、「情報処理装置」と同義として説明する）を説明する。図１は、学習装置１００の構成を表すブロック図である。図２は、学習装置１００の動作を示すフローチャートである。図１に示す通り、学習装置１００は、物体検出モデル学習部１０１、クラス識別モデル学習部１０２、物体領域補正部１０３、補正手法選択部１０４から構成される。機械学習の一例として、ディープニューラルネットワークを用いる。

物体検出モデル学習部１０１は、画像中から物体を検出する物体検出モデルのパラメータを最適化するものであって、画像と、画像中の物体領域を入力（教師データ）としてパラメータの最適化を行う。例えば、物体検出モデルが畳み込みニューラルネットワークを用いて構成された場合には、物体検出モデル学習部１０１は誤差逆伝播法によって前述の畳み込みニューラルネットワークを最適化するプログラムとなる。物体領域とは、画像中における物体の範囲を示す矩形であり、位置（Ｘ，Ｙ）とサイズ（幅，高さ）の情報を含むものとする。以下、サイズは「大きさ」と同義として説明する。

物体検出モデル学習部１０１からは、学習済（パラメータが決定された）の物体検出モデルが出力される。物体を検出する検出部としての役割も担う。学習済の物体検出モデルを用いれば、画像中における所定の物体の位置やサイズが推定可能である。

クラス識別モデル学習部１０２は、画像中の物体領域に基づいて該物体クラスを判別するクラス識別モデルのパラメータを最適化するものであって、画像と、物体領域と、物体領域が示す物体のクラスを入力（教師データ）としてパラメータの最適化を行う。物体のクラス識別をし、その結果のフィードバックを得て、学習を行う。クラス識別の識別部としての役割も担う。例えば、クラス識別モデルが畳み込みニューラルネットワークを用いて構成された場合、クラス識別モデル学習部１０２は誤差逆伝播法によって前述の畳み込みニューラルネットワークを最適化するプログラムとなる。

クラス識別モデル学習部１０２からは、学習済（パラメータが決定された）のクラス識別モデルが出力される。学習済のクラス識別モデルを用いれば、画像中における所定領域中の物体のクラスが推定可能である。

このクラス識別モデル学習に必要となる物体領域（画像中における物体の範囲を示す矩形であり、位置とサイズの情報）は、物体検出モデル学習部１０１で学習された物体検出モデルを用いて推定した物体領域を用いることができる。物体検出モデルが出力する物体領域を、クラス識別モデルの学習の入力とすることで、両モデルを用いて実際の画像に対して行う推論（画像を入力して物体検出を行い、その物体のクラスを推定する）時と、学習時とで整合性が取れるので好適である。

物体領域補正部１０３には、あらかじめ物体領域の補正手法が設定されている。ここで補正手法とは、物体領域に対する位置とサイズの変更操作の組を示す。すなわち、「位置Ｘ：−２ピクセル、位置Ｙ：＋１ピクセル、幅：１．１倍、高さ：１．１倍」といった操作の組合せが、ひとつの補正手法である。物体領域補正部１０３は、例えば位置（Ｘ，Ｙ）やサイズ（幅，高さ）のそれぞれに対して変更量の候補を設定されており、その全て（あるいは一部）の組合せを探索することで複数の補正手法を生成する。

この物体領域の補正は、物体検出モデルが出力する物体領域に対して行う。補正手法がＮ通りある場合には、物体検出モデルが出力する一つの物体領域に対して、Ｎ通りの補正後物体領域が作成されることになる。

補正手法選択部１０４は、物体領域補正部１０３によって実行された補正手法のそれぞれについて良否を判断し、最良の補正手法を選択する。最良の補正手法の選択は、次のような手順で行われる。

まず、物体領域補正部１０３が作成したＮ通りの補正後物体領域のそれぞれを用いて、クラス識別モデル学習部１０２において、クラス識別モデルを学習する。つまり、Ｎ個のクラス識別モデルの学習を行う。クラス識別モデルの学習方法に関しては、上述のやり方を踏襲すればよい。

続いて、Ｎ個のクラス識別モデルの識別の結果得られるクラス識別精度の測定を行う。クラス識別精度の測定は、例えば、正しいクラスの識別結果（例えば人が目視して入力したような）が付いている画像を用いて、正しくクラス識別された度合いを統計的に測定すればよい。ここでは、クラス識別の指標として一般的なＥＥＲ（ＥｑｕａｌＥｒｒｏｒＲａｔｅ）をクラス識別の精度とする。ＥＥＲとは、正解とは異なるクラスと誤識別してしまう割合である誤識別率と、（正解はあるクラスなのにも関わらず）どのクラスにも属さないと未識別してしまう割合である拒否率とが等しくなるようエラー率のことである。一般的に、誤識別率と拒否率とはトレードオフの関係にあるため、クラス識別の精度を表現する指標としてＥＥＲはよく用いられる。クラス識別モデルで算出される物体クラスごとの特徴ベクトルの代表値と、物体検出モデルが検出した物体領域に基づいて計算された特徴ベクトルとの距離が小さくなるような補正手法が選択されることになる。

また並行して、「補正なし」の物体領域を用いて学習したクラス識別モデルに対するクラス識別精度も測定する。したがって、合計Ｎ＋１個のクラス識別器に対するクラス識別精度が測定されることになる。

その後、Ｎ＋１個のクラス識別精度の比較を行い、最もクラス識別精度の良かった（ＥＥＲが小さかった）クラス識別モデルを特定する。さらに、そのクラス識別モデルを学習するときに使った補正後物体領域の作成に用いた補正手法（「補正なし」を含む）を特定し、その補正手法を最良の補正手法として選択する。様々な補正手法を試行して、その中から補正手法を選択している。

以上のようにして、現在推定している物体領域に対して、物体領域補正部１０３に用意されている複数の補正手法のうちクラス識別モデルにとって最良の物体領域の作成が可能な補正手法を選択することができる。

このとき、選択された補正手法が「補正なし」以外であるということは、物体検出モデルが出力した物体領域をそのままクラス識別の学習に用いるよりも補正を行うことが望ましい。何らかの補正を行った物体領域をクラス識別モデルへの入力領域としてクラス識別の学習を行ったほうが、クラス識別精度のよいクラス識別モデルが作成できることを意味する。したがって、そのような場合には、物体検出モデルからクラス識別モデルへ、そもそもその補正後物体領域を出力する方が望ましいといえる。

従って本実施例では、補正後物体領域を教師とする検出目標領域として更新し、物体検出モデルの再学習を行う。このようにして物体検出モデルの再学習を行うことで、クラス識別モデルに適した物体領域が物体検出モデルから出力されることが可能となる。つまり、物体検出モデルから出力される物体領域に対して、何らの補正を行う必要がなくなり、処理の軽量化が可能となる。

以上が学習装置１００の構成である。また、学習装置１００は、物体領域を補正した後、クラス識別精度が例えば閾値以上になった物体検出モデルで、物体領域を検出し、クラス識別モデルでクラスを識別するという物体の識別を実行する識別装置（情報処理装置）として機能することができる。また、識別装置と学習装置とを異なる装置とすることもできる。

学習装置（情報処理装置）１００のハードウェア構成を学習装置９００として図９に示す。ＣＰＵ９０１は学習装置９００全体を制御するＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔである。ＲＯＭ９０２は変更を必要としないプログラムやパラメータを格納するＲｅａｄＯｎｌｙＭｅｍｏｒｙである。ＲＡＭ９０３は外部装置などから供給されるプログラムやデータを一時記憶するＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙである。外部記憶装置９０４は学習装置９００に固定して設置されたハードディスクやメモリカードなどの記憶装置である。なお、外部記憶装置９０４は、学習装置９００から着脱可能なフレキシブルディスク（ＦＤ）やＣｏｍｐａｃｔＤｉｓｋ（ＣＤ）等の光ディスク、磁気や光カード、ＩＣカード、メモリカードなどを含んでもよい。入力デバイスインターフェイス９０５はユーザの操作を受け、データを入力するポインティングデバイスやキーボードなどの入力デバイス９０９とのインターフェイスである。出力デバイスインターフェイス９０６は学習装置９００の保持するデータや供給されたデータを表示するためのモニタ９１０とのインターフェイスである。通信インターフェイス９０７はインターネットなどのネットワーク回線などに接続するための通信インターフェイスである。システムバス９０８は９０１〜９０７の各ユニットを通信可能に接続する伝送路である。

後述する各動作は、ＲＯＭ９０２等のコンピュータ読み取り可能な記憶媒体に格納されたプログラムをＣＰＵ９０１が実行することにより実行される。ＣＰＵは、各種演算処理、論理判断等、実行プログラムを実行する。ＣＰＵはバスを介してバスに接続された各デバイスを制御する。処理プログラムや入出力データはＲＡＭ上に展開されて処理される。記憶装置には、処理対象となる画像データや処理済みの電子ファイルを記憶する。

尚、ＣＰＵはプログラムを実行することで各種の手段として機能することが可能である。なお、ＣＰＵと協調して動作するＡＳＩＣなどの制御回路がこれらの手段として機能してもよい。また、ＣＰＵと画像処理装置の動作を制御する制御回路との協調によってこれらの手段が実現されてもよい。また、ＣＰＵは単一のものである必要はなく、複数であってもよい。この場合、複数のＣＰＵは分散して処理を実行することが可能である。また、複数のＣＰＵは単一のコンピュータに配置されていてもよいし、物理的に異なる複数のコンピュータに配置されていてもよい。なお、ＣＰＵがプログラムを実行することで実現する手段が専用の回路によって実現されてもよい。

図２は、学習装置１００における処理の全体を示すフローチャートである。この図２を参照しながら、学習装置１００の処理の手順について説明する。

まずＳ２０１では、物体検出モデル学習部１０１において、画像と画像中の物体領域（人が目視で入力した物体の位置、サイズ情報）を教師データとして物体検出モデルの学習を行う。これにより、物体検出モデルは与えられた物体領域を画像から検出するためのパラメータを獲得する。この時点の物体領域は所与の教師データそのものであり、後段のクラス識別に関しては考慮されていない。

次にＳ２０２では、Ｓ２０１にて学習済の物体検出モデルを使って得られる物体領域を用いて、クラス識別モデルの学習を行う。物体検出モデルが出力する物体領域を、クラス識別モデルの学習の入力とすることで、両モデルを用いて実際の画像に対して行う推論時と、学習時とで整合性が取れるので好適である。

続いてＳ２０３では、物体領域補正部１０３において、Ｓ２０１にて学習済の物体検出モデルを使って得られる物体領域に対して、補正処理を行う。前述のように、補正手法がＮ通りある場合には、物体検出モデルが出力する一つの物体領域に対して、Ｎ通りの補正後物体領域が作成されることになる。

さらにＳ２０４では、補正手法選択部１０４において、物体領域補正部１０３によって実行された補正手法のそれぞれについて良否を判断し、最良の補正手法を選択する。

Ｓ２０４における補正手法の選択手順に関しては、図３を用いて後程詳述する。大まかな処理の流れとしては、前述のように、「補正なし」を補正の一手法として含むＮ＋１通りの補正手法で作成された補正後物体領域を用いて、それぞれの補正手法に対応したクラス識別モデルを学習し、その精度を比較する、というものである。

Ｓ２０５では、「補正なし」で学習したクラス識別モデルのクラス識別精度と、それ以外の何らかの補正を行った物体領域を用いて学習したクラス識別モデルのクラス識別精度とを比較する。「補正なし」で学習したとは、物体検出モデルが出力した物体領域をそのままクラス識別の学習に用いたということである。もし、後者のクラス識別精度の方が良好であれば、クラス識別の精度を改良する補正手法がある、と判断して、Ｓ２０１に戻る。

Ｓ２０５において行う精度の比較に関しては、Ｓ２０４の処理途中で算出されているクラス精度を用いて比較することが可能である。この詳細に関しては、図３の説明で後述する。

２回目以降のＳ２０１では、Ｓ２０４、Ｓ２０５で選択された補正手法に従って補正された物体領域を検出目標領域（教師データ）として、物体検出モデルの再学習を行う。このようにして物体検出モデルの再学習を行うことで、クラス識別モデルに適した物体領域が物体検出モデルから出力されるようになる。つまり、物体検出モデルから出力される物体領域に対して、何らの補正を行わなくても、良好なクラス識別精度を実現することが可能となる。

また、物体領域補正部１０３で実行される補正手法として、ありとあらゆるパターンを用意しておくことは処理量の点から現実的ではないことから、現実的には、比較的少数のパターンでＳ２０３、Ｓ２０４を実行することになることが考えられる。ただ、少数のパターンであればあるほど、クラス識別に本当に最適となる補正手法が含まれてない可能性が大きくなる。

このような場合、一度の繰り返しでは、クラス識別に本当に最適な補正が実現できなかったとしても、Ｓ２０１〜Ｓ２０５の処理を繰り返し行うことで、クラス識別に本当に最適な補正に到達できる可能性が上がる。クラス識別に本当に最適な補正に到達できれば、Ｓ２０５でＮｏとなるので、そこで学習を終了すればよい。

続いて、図３を用いて最良の補正手法を選択する手順（Ｓ２０３、Ｓ２０４）の詳細を説明する。

まずＳ３０１において、補正なしの物体領域を使ってクラス識別を実行する。このとき使われるクラス識別モデルは、Ｓ２０２で学習されたものである。つまり図２の最初の繰り返しでは、補正なしの物体領域を使って学習されたクラス識別モデルを用いてクラス識別を実行する。クラス識別を行う対象は、正しいクラスの識別結果（例えば人が目視して入力したような）が付いている画像を用いる。

続いてＳ３０２において、Ｓ３０１で実行したクラス識別の精度を算出する。精度の算出は、前述のように、正しくクラス識別された度合いを統計的に測定すればよい。ここでは、クラス識別の指標として一般的に用いられるＥＥＲ（ＥｑｕａｌＥｒｒｏｒＲａｔｅ）をクラス識別の精度とする。

続いてＳ３０３において、算出されたクラス識別精度と、補正手法（この場合は「補正なし」）をそれぞれ記憶しておく。ここでは、基準値としてクラス識別精度を記憶し、選択補正手法として「補正なし」を記憶しておく。

続いてＳ３０４からＳ３１０までを補正手法のパターンの数（例えばＮ）回繰り返す。

まずＳ３０５では、物体検出モデルを使って得られる物体領域に対して、Ｓ３０４で選択した補正手法を適用し、補正後の物体領域を作成する。

続いてＳ３０６において、その補正後の物体領域を用いてクラス識別モデルの学習を行い、クラス識別を実行する。クラス識別のやり方は、Ｓ３０１と同じである。

続いてＳ３０７において、Ｓ３０６で実行したクラス識別の精度を算出する。精度の算出は、Ｓ３０２と同じである。

続いてＳ３０８において、今回算出されたクラス識別精度と、記憶してあるクラス識別精度とを比較し、今回算出されたクラス識別精度の方が良好であれば、そのクラス識別精度と、補正手法をそれぞれ上書き記憶しておく（Ｓ３０９）。

この処理を補正手法のパターン数回繰り返す（Ｓ３１０）。

以上のような手順により、最良の補正手法（「補正なし」を含む）を選択することができる。

また、Ｓ３０２で算出した補正なしの精度と、Ｓ３０７で算出した何らかの補正ありの精度とをＳ３０８で比較するので、その比較結果を用いてＳ２０５の判断を行えばよい。つまり、Ｓ３０８において一度でもＹｅｓ判定があった場合には、Ｓ２０５でもＹｅｓを選択すればよい。

以上詳細に説明したように、学習装置１００を本実施例のように構成することで、クラス識別に適した物体領域の学習が、物体検出モデルにて学習可能となる。したがって、物体検出モデルとクラス識別モデルを個別に最適化する場合と比較し、補正処理を行う必要がなくなる。また、物体検出モデルの学習と、クラス識別モデルの学習とを連動しながら繰り返し行うことで、高精度なクラス識別を実現することが可能となる。

［実施例２］
実施例１では、ある補正手法を全ての物体領域に適用する場合の例を示した。本実施例では、個別の物体領域ごとに、異なる補正手法を適用する場合の例に関して説明する。

本実施例は、例えば、物体検出モデルを学習するために必要となる教師データ、つまり、画像中の物体領域（人が目視で入力した物体の位置、サイズ情報）の情報の質が悪い（いい加減なものが多い）場合に有効である。

本実施例では、説明をわかりやすくするために、物体検出として顔検出を想定し、クラス識別として顔認証（顔を用いた個人識別）を想定して説明する。

顔検出の場合、教師データである物体領域は、画像上の顔位置や顔サイズと一定のルールで関連があるものが望ましい。例えば、物体領域で規定されている顔のサイズとは、頭頂から顎の先までのサイズあり、同様に顔の位置とは、両面の中点が顔位置である、といったルールになる。

ただ、教師データは人手で作成することが多いため、その質にはどうしてもムラが発生する。教師データを作成する人が複数人であればなおさらである。昨今のディープラーニングを用いたモデル学習は大量の教師データを必要とすることが多く、教師データの質を確保するのは困難になってきている。

図４に質の悪い教師データの例を示す。

符号４０１は、画像を示している。画像４０１中には３人の人物（符号４０２、４０３、４０４）が写っており、それぞれの人物の顔に対して、教師データとなる物体領域（本実施例では顔領域）が破線で図示されている（それぞれ、符号４０５、４０６、４０７）。このとき、比較的小さい顔である４０２、４０３に対して教師データは、顔全体を包含するようなサイズとなっている。それに対して、比較的大きい顔である４０７に対して教師データは、目口を内包する程度のサイズになっている。

このように顔の（見かけ上の）サイズによって、教師データの傾向が変わると、この教師データを用いて作成された顔検出モデルもその傾向を引きずる可能性が高い。その場合、顔認証に投入される物体領域（顔領域）が、画像中の顔サイズによって、顔全体を包含する場合もあれば、目口を内包する程度の大きさである場合もあるということが発生しうる。このようなことになると、顔認証が精度よく実現されるとは考えにくい。例えば、顔認証として、顔の輪郭のような情報も勘案して認証の判断を行っているような場合には、４０２や４０３程度の顔サイズであれば、精度よく顔認証できるが、４０４のような画像中で大きな顔に対しては精度が劣化する、ということが十分発生しうる。

このような場合には、４０７の顔領域だけをもう少し大きく補正するのが望ましいが、実施例１に示したような、ある補正手法を全ての物体領域（顔領域）に適用する手法では十分な効果が期待できない。

図５は、本実施例における学習装置５００の構成を示すブロック図である。

図５において、図１と同じ意味を持つ部品には図１と同じ番号を付与し、その説明は省略する。

符号５０３は物体領域補正部である。実施例１の場合と同じく、物体領域補正部５０３には、あらかじめ物体領域の補正手法が設定されている。この物体領域の補正は、物体検出モデルが出力する物体領域に対して行う。補正手法がＮ通りある場合には、物体検出モデルが出力する一つの物体領域に対して、Ｎ通りの補正後物体領域が作成されることになる。

補正手法選択部５０４は、物体領域補正部５０３によって実行された補正手法のそれぞれについて良否を判断し、最良の補正手法を選択する。実施例１の場合は、全物体領域に共通の補正手法を適用する場合に、どの補正手法が最適なのかを選択するというものであったのに対し、本実施例では、個別の物体領域一つ一つに対して、どの補正手法が最適なのかを選択する。したがって、個別の物体領域ごとに、最適な補正手法が選択されることになる。

以上が学習装置５００の構成である。

図８は、学習装置５００における処理の全体を示すフローチャートである。この図８を参照しながら、学習装置５００の処理の手順について説明する。

図８において、図２と同じ意味を持つ部品には図２と同じ番号を付与し、その説明は省略する。

Ｓ８０３では、物体領域補正部５０３において、Ｓ２０１にて学習済の物体検出モデルを使って得られる物体領域それぞれに対して、複数の補正処理を適用し、その中から最良の補正処理の選択を行う。前述のように本実施例では、個別の物体領域一つ一つに対して、どの補正手法が最適なのかを選択する。

Ｓ８０３における補正手法の選択手順に関しては、図６を用いて後程詳述する。大まかな処理の流れとしては、前述のように、「補正なし」を補正の一手法として含むＮ＋１通りの補正手法を、個別の物体領域ごと適用し、どの補正手法を適用したときに精度が良くなるのかを比較する、というものである。

さらにＳ８０４では、個別の物体領域ごとに選択された補正手法を、それぞれの物体領域に適用した状態で、クラス識別精度を算出する。つまり補正後の物体領域を用いてクラス識別精度を算出する。そのうえで、「補正なし」で学習した（つまり、物体検出モデルが出力した物体領域をそのままクラス識別の学習に用いた）クラス識別モデルのクラス識別精度と比較する。もし、補正後の物体領域を用いた場合のクラス識別精度の方が良好であれば、クラス識別の精度を改良する補正手法がある、と判断して、Ｓ２０１に戻る。

２回目以降のＳ２０１では、Ｓ８０３で選択された補正手法（個別の物体領域ごとに選択された補正手法）に従って補正された物体領域を検出目標領域（教師データ）として、物体検出モデルの再学習を行う。このようにして物体検出モデルの再学習を行うことで、クラス識別モデルに適した物体領域が物体検出モデルから出力されるようになる。つまり、当初は質の良くない教師データ（例えば図４）を用いて行っていた物体検出モデルの学習が、質の良くなった教師データ（例えば図７）を用いた学習へと改良される。このことにより、物体検出モデルの精度が改善すると同時に、推定する物体領域も安定し、ひいてはクラス識別モデルの精度向上も期待できる。

続いて、図６を用いて最良の補正手法を選択する手順（Ｓ８０３）の詳細を説明する。

まずＳ６０１において、補正なしの物体領域を使ってクラス識別を実行する。このとき使われるクラス識別モデルは、実施例１と同じくＳ２０２で学習されたものである。つまり図８の最初の繰り返しでは、補正なしの物体領域を使って学習されたクラス識別モデルを用いてクラス識別を実行する。クラス識別を行う対象は、正解クラスの識別結果（正解ラベル。例えば人が目視して入力する）が付いている画像を用いる。

続いてＳ６０２において、Ｓ６０１で実行したクラス識別の精度を算出する。本実施例では各個別の物体領域ごとに、最適な補正手法を選択するので、クラス識別の精度は個別の物体領域ごとに算出する。本実施例では、クラス識別の精度として、その物体領域に付与された正解ラベルに対する識別スコアを採用する。以下、「クラス識別スコア」を略して「識別スコア」と記載する。識別スコアは、その物体がそのクラスである尤度を示すもので、識別スコアが高いほど、そのクラスに属する蓋然性が高いことを意味する。したがって、正解ラベルに対する識別スコアが高いということは、うまく識別できていることを意味する。

続いてＳ６０３において、個々の物体領域ごとに算出されたクラス識別精度と、補正手法（この場合はどの個別領域に対しても「補正なし」）をそれぞれ記憶しておく。ここでは、各物体領域の基準値として、物体領域ごとに算出された識別スコアを記憶し、各物体領域の選択補正手法として、どの物体領域に対しても「補正なし」を記憶しておく。

続いてＳ６０４からＳ６１２までを、物体検出モデルを使って得られる個々の物体領域の数だけ繰り返し、さらに、Ｓ６０５からＳ６１１までを補正手法のパターンの数（例えばＮ）回繰り返す。

まずＳ６０６では、Ｓ６０４で選ばれた物体領域に対して、Ｓ６０５で選択した補正手法を適用し、補正後の物体領域を作成する。

続いてＳ６０７において、その補正後の物体領域を用いてクラス識別を実行する。クラス識別のやり方は、Ｓ６０１と同じである。

続いてＳ６０８において、Ｓ６０７で実行したクラス識別の精度を算出する。精度の算出は、Ｓ６０２と同じである。

続いてＳ６０９において、今回選択された物体領域に対して算出されたクラス識別精度（識別スコア）と、記憶してある同じ物体領域に対するクラス識別精度（識別スコア）とを比較する。今回算出されたクラス識別精度の方が良好であれば、そのクラス識別精度と、補正手法をそれぞれ上書き記憶しておく（Ｓ６１０）。

この処理を補正手法のパターン数回繰り返し（Ｓ６１１）、さらにその繰り返しを物体領域の数だけ繰り返す（Ｓ６１２）。

以上のような手順により、個々の物体領域ごとに最良の補正手法（「補正なし」を含む）を選択することができる。

このような手順で、物体領域ごとに選択された最良の補正手法を用いれば、図４のような教師データが、図７のようになることが期待できる。図７では図４と同じ意味を持つものには図４と同じ番号を付与し、その説明は省略する。

例えば、前述のように顔認証として、顔の輪郭のような情報も勘案して認証の判断を行っているような場合を考える。このような場合、４０２や４０３程度の顔サイズであれば、精度よく顔認証できるので、物体領域４０５、４０６に対しては、「補正なし」が最良の補正手法として選択される。一方、物体領域４０７に対しては、「拡大する」という補正手法が最良の補正手法として選択され、その結果、補正後の物体領域が７０７のようになることが期待される。

本実施例でも実施例１の場合と同じく、図８に示される繰り返し学習を行う。２回目以降の物体検出の学習では、補正後の物体領域を検出目標領域（教師データ）として学習を行う。図７に示された補正後の物体領域は、図４の教師データに比較して、顔の見かけ上の大きさに左右されず、顔位置や顔サイズと一定のルールで関連づいている。

従って、図７の教師データ（補正後の物体領域）を用いて、物体検出モデル（顔検出モデル）の学習を行えば、顔の見かけ上のサイズに左右されず、安定した物体領域を推定するように学習される可能性が高い。

そのような場合、物体識別モデル（顔認証モデル）にも、安定した物体領域（顔領域）が入力されるので、顔認証精度が向上することが期待できる。

以上詳細に説明したように、学習装置５００を本実施例のように構成することで、クラス識別に適した物体領域の学習が、物体検出モデルにて学習可能となる。特に本実施例では、個別の物体領域ごとに補正が可能となるため、よりきめ細やかな補正が実現可能となる。したがって、全物体領域で一律の補正では対応できないような、教師データの偏りがあったとしても、物体検出モデルの学習と、クラス識別モデルの学習とを連動しながら繰り返し行うことで、高精度なクラス識別を実現すること可能となる。

［実施例３］
これまで説明した実施例では、最良の補正手法を選択する基準として、ＥＥＲや正解ラベルに対する識別スコアの例を示した。しかしながら、本発明の適用範囲はそれに限らない。例えば、ＥＥＲの代わりに、所定の誤識別率における正識別率（顔認証の場合には、所定の誤認証率における正認証率）の大小で、補正手法の選択を行ってもよい。

あるいは、正解ラベルに対する識別スコアの代わりに、補正手法を適用して得られるクラス識別モデルの出力と、真のクラスとの間の交差エントロピーを算出し、それが最小となるような補正手法を選択するのでもよい。クラス識別モデルの出力は、クラスごとにそのクラスである確率の分布を示しているといえるので、交差エントロピーで分布間の差を算出することは、最良の変換手法を選ぶ基準として適切なものといえる。

また、補正手法を適用して得られるクラス識別モデルの出力と、同一クラスの属する他の物体領域をクラス識別モデルに投入したときに算出される特徴ベクトルの代表値との距離が小さくなるような補正手法を選択してもよい。このような選択基準に基づけば、補正前の物体領域が外れ値（例外値）のような場合に、うまく補正されることが期待される。

また、これまでに説明した実施例では、図２および図８に示す繰り返し学習において、クラス識別精度が改善する限り継続する例に関して説明を行った。他にも、繰り返し回数や、繰り返し学習に要している継続時間を基準として、打ち切ることにより、繰り返しをする前に比べて、精度の高いモデルを得ることができる。繰り返し学習の途中打ち切りは、必ずしも最高のクラス識別精度は必要とされないが、ある程度の精度のモデルを手早く獲得したい場合等には有効な手法である。

１００学習装置
１０１物体検出モデル学習部
１０２クラス識別モデル学習部
１０３物体領域補正部
１０４補正手法選択部

Claims

機械学習を用いた学習を実行する情報処理装置であって、
画像中の物体領域を推定する物体検出モデルを学習する物体検出モデルの学習手段と、
前記物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて前記物体領域のクラスを識別する識別手段と、
前記物体検出モデルに推定され前記クラス識別モデルへ入力される前記物体領域の位置または大きさを補正する補正手法を探索する物体領域補正手段と、
前記補正手法のうちから一つの補正手法を選択する補正手法の選択手段を備え、
前記物体検出モデルの学習手段では、
現在推定している物体領域に対して、前記選択手段が選択した補正手法により補正した領域を、前記物体領域として検出する教師とする領域として更新を行い、前記物体検出モデルの学習をおこなうことを特徴とする情報処理装置。
前記物体領域補正手段における該補正手法の探索は、
あらかじめ決められた複数の補正手法を試行して行うことを特徴とする請求項１記載の情報処理装置。
前記補正手法の選択手段では、
前記物体領域補正手段において前記複数の補正手法を試行することで得られる複数の前記クラス識別モデルへの入力領域を前記クラス識別モデルに入力し、その結果得られる補正手法ごとのクラス識別精度に基づいて前記補正手法を選択することを特徴とする請求項１または２に記載の情報処理装置。
前記補正手法の選択手段における前記補正手法の選択は、
あらかじめ決められた所定の基準に基づいて、前記補正手法ごとに得られるクラス識別精度が上がるになる前記補正手法を選択することを特徴とする請求項１乃至３何れか１項に記載の情報処理装置。
前記補正手法の選択手段における前記補正手法の選択は、
前記クラス識別モデルで算出される前記物体クラスごとの特徴ベクトルの代表値と、物体領域に基づいて計算された特徴ベクトルとの距離が小さくなるような補正手法を選択することを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
前記所定の基準とは、ＥＥＲ（ＥｑｕａｌＥｒｒｏｒＲａｔｅ）であることを特徴とする請求項４記載の情報処理装置。
前記所定の基準とは、正解クラスに対するクラス識別スコアであることを特徴とする請求項４記載の情報処理装置。
機械学習を用いた学習を実行する情報処理方法であって、
画像中の物体領域を推定する物体検出モデルを学習する物体検出モデルの学習工程と、
前記物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて前記物体領域のクラスを識別する識別工程と、
前記物体検出モデルに推定され前記クラス識別モデルへ入力される前記物体領域の位置または大きさを補正する補正手法を探索する物体領域補正工程と、
前記補正手法のうちから一つの補正手法を選択する補正手法の選択工程を備え、
前記物体検出モデルの学習工程では、
現在推定している物体領域に対して、前記選択工程で選択した補正手法により補正した領域を、前記物体領域として検出する教師とする領域として更新を行い、前記物体検出モデルの学習をおこなうことを特徴とする情報処理方法。
物体の識別を実行する情報処理装置であって、
画像中の物体領域を推定する物体検出モデルを用いて物体領域を検出する検出手段と、
前記物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて前記物体領域のクラスを識別する識別手段と、を備え、
前記物体検出モデルは、前記物体検出モデルが推定した前記物体領域の位置または大きさを補正する補正手法のうちから選択された補正手法を用いて補正した領域を、前記物体領域として検出する教師とする領域として更新して前記物体検出モデルの学習を行うことにより得られたモデルであることを特徴とする情報処理装置。
物体の識別を実行する情報処理方法であって、
画像中の物体領域を推定する物体検出モデルを用いて物体領域を検出する検出工程と、
前記物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて前記物体領域のクラスを識別する識別工程と、を備え、
前記物体検出モデルは、前記物体検出モデルが推定した前記物体領域の位置または大きさを補正する補正手法のうちから選択された補正手法を用いて補正した領域を、前記物体領域として検出する教師とする領域として更新して前記物体検出モデルの学習を行うことにより得られたモデルであることを特徴とする情報処理方法。