JP2021177312A - 情報処理装置、情報処理方法 - Google Patents

情報処理装置、情報処理方法 Download PDF

Info

Publication number
JP2021177312A
JP2021177312A JP2020082425A JP2020082425A JP2021177312A JP 2021177312 A JP2021177312 A JP 2021177312A JP 2020082425 A JP2020082425 A JP 2020082425A JP 2020082425 A JP2020082425 A JP 2020082425A JP 2021177312 A JP2021177312 A JP 2021177312A
Authority
JP
Japan
Prior art keywords
class
correction method
learning
detection model
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020082425A
Other languages
English (en)
Inventor
浩司 浅見
Koji Asami
貴久 山本
Takahisa Yamamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020082425A priority Critical patent/JP2021177312A/ja
Publication of JP2021177312A publication Critical patent/JP2021177312A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 従来の学習手法では物体検出モデルの学習時に後段のクラス識別モデルの良否が考慮されないため、識別という最終目的に対してより良い物体領域を検出できなかった。【解決手段】 機械学習を用いた学習を、画像中の物体領域を推定する物体検出モデルを学習する物体検出モデルの学習し、物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて物体領域のクラスを識別し、物体検出モデルに推定されクラス識別モデルへ入力される物体領域の位置または大きさを補正する補正手法を探索する物体領域補正をし、補正手法のうちから一つの補正手法を選択する補正手法の選択をし、物体検出モデルの学習では、現在推定している物体領域に対して、選択した補正手法により補正した領域を、物体領域として検出する教師とする領域として更新を行い、物体検出モデルの学習をおこなう。【選択図】 図1

Description

本発明は、画像内の物体を識別するための検出モデルに関する技術である。
近年、画像を高度に処理して有用な情報を抽出する技術が多く提案されている。特に、入力された物体画像と、予め登録されている複数の物体画像との比較を行い、入力された物体画像が、登録されている中のどの物体であるかを判定する物体認識に関して、盛んに研究開発されている。顔の映像を使用して個人の識別を行う顔認証もその一例である。
一般に、物体認識の手法は、画像中の物体の位置を検出する物体検出処理と、検出された物体から特徴(特徴ベクトル)を抽出し、抽出した特徴ベクトルを用いてその物体のクラスを識別するクラス識別処理を備える。近年では、物体検出とクラス識別の両方で、機械学習に基づく手法、特にディープラーニングを用いた手法が広く用いられている。
特許第2872776号
機械学習に基づく物体認識では、一般に次の手順で物体検出モデルとクラス識別モデルを学習する。
まず、画像に物体領域、より具体的には画像中の物体の位置とサイズから構成される教師データ(検出目標領域)を付与することで、物体検出の学習データを作成する。次に、作成した物体検出の学習データを使用して物体検出モデルを学習する。
続いて、学習済の物体検出モデルを使ってクラス識別モデルの学習データ中の物体領域を検出することでクラス識別の学習データを作成する。クラス識別の学習データには、人が目視することで得られるクラスラベルを教師データとして付与する。最後に、得られたクラス識別の学習データを使ってクラス識別モデルを学習する。
このようにして学習されるクラス識別モデルの性能は、物体検出モデルの出力傾向に左右される。例えば、顔認証の場合、検出される物体領域が実際の顔領域に対して広すぎても狭すぎても高い認証精度(クラス識別精度)は得られない。しかしながら、最適な物体領域の範囲は、クラス識別モデルの特性によって変わるため、最適な物体領域の教師データ(検出目標領域)を予め付与することは不可能である。
従来手法では、経験的に定めた基準(特徴点間距離や既存の検出器の出力枠の定数倍など)に基づいて物体領域を定めていた。例えば特許文献1では、顔の器官点を基準に特徴抽出のための領域を定める方法が提案されている。しかし、基準から物体領域を求める方法は人間が一律に定めており、必ずしもクラス識別処理に適した物体領域が得られるとは言えない。
本発明は、上記の課題に鑑み、クラス識別に適した物体領域を検出するモデルを学習し、クラス識別の精度を向上させる情報処理装置を提供することを目的とする。
本発明に係る機械学習を用いた学習を実行する情報処理装置は、以下の構成を備える。画像中の物体領域を推定する物体検出モデルを学習する物体検出モデルの学習手段と、前記物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて前記物体領域のクラスを識別する識別手段と、前記物体検出モデルに推定され前記クラス識別モデルへ入力される前記物体領域の位置または大きさを補正する補正手法を探索する物体領域補正手段と、前記補正手法のうちから一つの補正手法を選択する補正手法の選択手段を備え、前記物体検出モデルの学習手段では、現在推定している物体領域に対して、前記選択手段が選択した補正手法により補正した領域を、前記物体領域として検出する教師とする領域として更新を行い、前記物体検出モデルの学習をおこなうことを特徴とする。
本発明によれば、クラス識別に適した物体領域を物体検出モデルにて学習可能となり、クラス識別の精度を向上させることが可能となる。
実施例1の全体ブロック図 実施例1の全体処理フローチャート 実施例1の補正手法選択のフローチャート 教師データの模式図 実施例2の全体ブロック図 実施例2の補正手法選択のフローチャート 補正後の物体領域の模式図 実施例2の全体処理フローチャート 装置のハードウェア構成例
[実施例1]
以下、図1、図2を参照して学習装置100(以下、「情報処理装置」と同義として説明する)を説明する。図1は、学習装置100の構成を表すブロック図である。図2は、学習装置100の動作を示すフローチャートである。図1に示す通り、学習装置100は、物体検出モデル学習部101、クラス識別モデル学習部102、物体領域補正部103、補正手法選択部104から構成される。機械学習の一例として、ディープニューラルネットワークを用いる。
物体検出モデル学習部101は、画像中から物体を検出する物体検出モデルのパラメータを最適化するものであって、画像と、画像中の物体領域を入力(教師データ)としてパラメータの最適化を行う。例えば、物体検出モデルが畳み込みニューラルネットワークを用いて構成された場合には、物体検出モデル学習部101は誤差逆伝播法によって前述の畳み込みニューラルネットワークを最適化するプログラムとなる。物体領域とは、画像中における物体の範囲を示す矩形であり、位置(X,Y)とサイズ(幅,高さ)の情報を含むものとする。以下、サイズは「大きさ」と同義として説明する。
物体検出モデル学習部101からは、学習済(パラメータが決定された)の物体検出モデルが出力される。物体を検出する検出部としての役割も担う。学習済の物体検出モデルを用いれば、画像中における所定の物体の位置やサイズが推定可能である。
クラス識別モデル学習部102は、画像中の物体領域に基づいて該物体クラスを判別するクラス識別モデルのパラメータを最適化するものであって、画像と、物体領域と、物体領域が示す物体のクラスを入力(教師データ)としてパラメータの最適化を行う。物体のクラス識別をし、その結果のフィードバックを得て、学習を行う。クラス識別の識別部としての役割も担う。例えば、クラス識別モデルが畳み込みニューラルネットワークを用いて構成された場合、クラス識別モデル学習部102は誤差逆伝播法によって前述の畳み込みニューラルネットワークを最適化するプログラムとなる。
クラス識別モデル学習部102からは、学習済(パラメータが決定された)のクラス識別モデルが出力される。学習済のクラス識別モデルを用いれば、画像中における所定領域中の物体のクラスが推定可能である。
このクラス識別モデル学習に必要となる物体領域(画像中における物体の範囲を示す矩形であり、位置とサイズの情報)は、物体検出モデル学習部101で学習された物体検出モデルを用いて推定した物体領域を用いることができる。物体検出モデルが出力する物体領域を、クラス識別モデルの学習の入力とすることで、両モデルを用いて実際の画像に対して行う推論(画像を入力して物体検出を行い、その物体のクラスを推定する)時と、学習時とで整合性が取れるので好適である。
物体領域補正部103には、あらかじめ物体領域の補正手法が設定されている。ここで補正手法とは、物体領域に対する位置とサイズの変更操作の組を示す。すなわち、「位置X:−2ピクセル、位置Y:+1ピクセル、幅:1.1倍、高さ:1.1倍」といった操作の組合せが、ひとつの補正手法である。物体領域補正部103は、例えば位置(X,Y)やサイズ(幅,高さ)のそれぞれに対して変更量の候補を設定されており、その全て(あるいは一部)の組合せを探索することで複数の補正手法を生成する。
この物体領域の補正は、物体検出モデルが出力する物体領域に対して行う。補正手法がN通りある場合には、物体検出モデルが出力する一つの物体領域に対して、N通りの補正後物体領域が作成されることになる。
補正手法選択部104は、物体領域補正部103によって実行された補正手法のそれぞれについて良否を判断し、最良の補正手法を選択する。最良の補正手法の選択は、次のような手順で行われる。
まず、物体領域補正部103が作成したN通りの補正後物体領域のそれぞれを用いて、クラス識別モデル学習部102において、クラス識別モデルを学習する。つまり、N個のクラス識別モデルの学習を行う。クラス識別モデルの学習方法に関しては、上述のやり方を踏襲すればよい。
続いて、N個のクラス識別モデルの識別の結果得られるクラス識別精度の測定を行う。クラス識別精度の測定は、例えば、正しいクラスの識別結果(例えば人が目視して入力したような)が付いている画像を用いて、正しくクラス識別された度合いを統計的に測定すればよい。ここでは、クラス識別の指標として一般的なEER(Equal Error Rate)をクラス識別の精度とする。EERとは、正解とは異なるクラスと誤識別してしまう割合である誤識別率と、(正解はあるクラスなのにも関わらず)どのクラスにも属さないと未識別してしまう割合である拒否率とが等しくなるようエラー率のことである。一般的に、誤識別率と拒否率とはトレードオフの関係にあるため、クラス識別の精度を表現する指標としてEERはよく用いられる。クラス識別モデルで算出される物体クラスごとの特徴ベクトルの代表値と、物体検出モデルが検出した物体領域に基づいて計算された特徴ベクトルとの距離が小さくなるような補正手法が選択されることになる。
また並行して、「補正なし」の物体領域を用いて学習したクラス識別モデルに対するクラス識別精度も測定する。したがって、合計N+1個のクラス識別器に対するクラス識別精度が測定されることになる。
その後、N+1個のクラス識別精度の比較を行い、最もクラス識別精度の良かった(EERが小さかった)クラス識別モデルを特定する。さらに、そのクラス識別モデルを学習するときに使った補正後物体領域の作成に用いた補正手法(「補正なし」を含む)を特定し、その補正手法を最良の補正手法として選択する。様々な補正手法を試行して、その中から補正手法を選択している。
以上のようにして、現在推定している物体領域に対して、物体領域補正部103に用意されている複数の補正手法のうちクラス識別モデルにとって最良の物体領域の作成が可能な補正手法を選択することができる。
このとき、選択された補正手法が「補正なし」以外であるということは、物体検出モデルが出力した物体領域をそのままクラス識別の学習に用いるよりも補正を行うことが望ましい。何らかの補正を行った物体領域をクラス識別モデルへの入力領域としてクラス識別の学習を行ったほうが、クラス識別精度のよいクラス識別モデルが作成できることを意味する。したがって、そのような場合には、物体検出モデルからクラス識別モデルへ、そもそもその補正後物体領域を出力する方が望ましいといえる。
従って本実施例では、補正後物体領域を教師とする検出目標領域として更新し、物体検出モデルの再学習を行う。このようにして物体検出モデルの再学習を行うことで、クラス識別モデルに適した物体領域が物体検出モデルから出力されることが可能となる。つまり、物体検出モデルから出力される物体領域に対して、何らの補正を行う必要がなくなり、処理の軽量化が可能となる。
以上が学習装置100の構成である。また、学習装置100は、物体領域を補正した後、クラス識別精度が例えば閾値以上になった物体検出モデルで、物体領域を検出し、クラス識別モデルでクラスを識別するという物体の識別を実行する識別装置(情報処理装置)として機能することができる。また、識別装置と学習装置とを異なる装置とすることもできる。
学習装置(情報処理装置)100のハードウェア構成を学習装置900として図9に示す。CPU901は学習装置900全体を制御するCentral Processing Unitである。ROM902は変更を必要としないプログラムやパラメータを格納するRead Only Memoryである。RAM903は外部装置などから供給されるプログラムやデータを一時記憶するRandom Access Memoryである。外部記憶装置904は学習装置900に固定して設置されたハードディスクやメモリカードなどの記憶装置である。なお、外部記憶装置904は、学習装置900から着脱可能なフレキシブルディスク(FD)やCompact Disk(CD)等の光ディスク、磁気や光カード、ICカード、メモリカードなどを含んでもよい。入力デバイスインターフェイス905はユーザの操作を受け、データを入力するポインティングデバイスやキーボードなどの入力デバイス909とのインターフェイスである。出力デバイスインターフェイス906は学習装置900の保持するデータや供給されたデータを表示するためのモニタ910とのインターフェイスである。通信インターフェイス907はインターネットなどのネットワーク回線などに接続するための通信インターフェイスである。システムバス908は901〜907の各ユニットを通信可能に接続する伝送路である。
後述する各動作は、ROM902等のコンピュータ読み取り可能な記憶媒体に格納されたプログラムをCPU901が実行することにより実行される。CPUは、各種演算処理、論理判断等、実行プログラムを実行する。CPUはバスを介してバスに接続された各デバイスを制御する。処理プログラムや入出力データはRAM上に展開されて処理される。記憶装置には、処理対象となる画像データや処理済みの電子ファイルを記憶する。
尚、CPUはプログラムを実行することで各種の手段として機能することが可能である。なお、CPUと協調して動作するASICなどの制御回路がこれらの手段として機能してもよい。また、CPUと画像処理装置の動作を制御する制御回路との協調によってこれらの手段が実現されてもよい。また、CPUは単一のものである必要はなく、複数であってもよい。この場合、複数のCPUは分散して処理を実行することが可能である。また、複数のCPUは単一のコンピュータに配置されていてもよいし、物理的に異なる複数のコンピュータに配置されていてもよい。なお、CPUがプログラムを実行することで実現する手段が専用の回路によって実現されてもよい。
図2は、学習装置100における処理の全体を示すフローチャートである。この図2を参照しながら、学習装置100の処理の手順について説明する。
まずS201では、物体検出モデル学習部101において、画像と画像中の物体領域(人が目視で入力した物体の位置、サイズ情報)を教師データとして物体検出モデルの学習を行う。これにより、物体検出モデルは与えられた物体領域を画像から検出するためのパラメータを獲得する。この時点の物体領域は所与の教師データそのものであり、後段のクラス識別に関しては考慮されていない。
次にS202では、S201にて学習済の物体検出モデルを使って得られる物体領域を用いて、クラス識別モデルの学習を行う。物体検出モデルが出力する物体領域を、クラス識別モデルの学習の入力とすることで、両モデルを用いて実際の画像に対して行う推論時と、学習時とで整合性が取れるので好適である。
続いてS203では、物体領域補正部103において、S201にて学習済の物体検出モデルを使って得られる物体領域に対して、補正処理を行う。前述のように、補正手法がN通りある場合には、物体検出モデルが出力する一つの物体領域に対して、N通りの補正後物体領域が作成されることになる。
さらにS204では、補正手法選択部104において、物体領域補正部103によって実行された補正手法のそれぞれについて良否を判断し、最良の補正手法を選択する。
S204における補正手法の選択手順に関しては、図3を用いて後程詳述する。大まかな処理の流れとしては、前述のように、「補正なし」を補正の一手法として含むN+1通りの補正手法で作成された補正後物体領域を用いて、それぞれの補正手法に対応したクラス識別モデルを学習し、その精度を比較する、というものである。
S205では、「補正なし」で学習したクラス識別モデルのクラス識別精度と、それ以外の何らかの補正を行った物体領域を用いて学習したクラス識別モデルのクラス識別精度とを比較する。「補正なし」で学習したとは、物体検出モデルが出力した物体領域をそのままクラス識別の学習に用いたということである。もし、後者のクラス識別精度の方が良好であれば、クラス識別の精度を改良する補正手法がある、と判断して、S201に戻る。
S205において行う精度の比較に関しては、S204の処理途中で算出されているクラス精度を用いて比較することが可能である。この詳細に関しては、図3の説明で後述する。
2回目以降のS201では、S204、S205で選択された補正手法に従って補正された物体領域を検出目標領域(教師データ)として、物体検出モデルの再学習を行う。このようにして物体検出モデルの再学習を行うことで、クラス識別モデルに適した物体領域が物体検出モデルから出力されるようになる。つまり、物体検出モデルから出力される物体領域に対して、何らの補正を行わなくても、良好なクラス識別精度を実現することが可能となる。
また、物体領域補正部103で実行される補正手法として、ありとあらゆるパターンを用意しておくことは処理量の点から現実的ではないことから、現実的には、比較的少数のパターンでS203、S204を実行することになることが考えられる。ただ、少数のパターンであればあるほど、クラス識別に本当に最適となる補正手法が含まれてない可能性が大きくなる。
このような場合、一度の繰り返しでは、クラス識別に本当に最適な補正が実現できなかったとしても、S201〜S205の処理を繰り返し行うことで、クラス識別に本当に最適な補正に到達できる可能性が上がる。クラス識別に本当に最適な補正に到達できれば、S205でNoとなるので、そこで学習を終了すればよい。
続いて、図3を用いて最良の補正手法を選択する手順(S203、S204)の詳細を説明する。
まずS301において、補正なしの物体領域を使ってクラス識別を実行する。このとき使われるクラス識別モデルは、S202で学習されたものである。つまり図2の最初の繰り返しでは、補正なしの物体領域を使って学習されたクラス識別モデルを用いてクラス識別を実行する。クラス識別を行う対象は、正しいクラスの識別結果(例えば人が目視して入力したような)が付いている画像を用いる。
続いてS302において、S301で実行したクラス識別の精度を算出する。精度の算出は、前述のように、正しくクラス識別された度合いを統計的に測定すればよい。ここでは、クラス識別の指標として一般的に用いられるEER(Equal Error Rate)をクラス識別の精度とする。
続いてS303において、算出されたクラス識別精度と、補正手法(この場合は「補正なし」)をそれぞれ記憶しておく。ここでは、基準値としてクラス識別精度を記憶し、選択補正手法として「補正なし」を記憶しておく。
続いてS304からS310までを補正手法のパターンの数(例えばN)回繰り返す。
まずS305では、物体検出モデルを使って得られる物体領域に対して、S304で選択した補正手法を適用し、補正後の物体領域を作成する。
続いてS306において、その補正後の物体領域を用いてクラス識別モデルの学習を行い、クラス識別を実行する。クラス識別のやり方は、S301と同じである。
続いてS307において、S306で実行したクラス識別の精度を算出する。精度の算出は、S302と同じである。
続いてS308において、今回算出されたクラス識別精度と、記憶してあるクラス識別精度とを比較し、今回算出されたクラス識別精度の方が良好であれば、そのクラス識別精度と、補正手法をそれぞれ上書き記憶しておく(S309)。
この処理を補正手法のパターン数回繰り返す(S310)。
以上のような手順により、最良の補正手法(「補正なし」を含む)を選択することができる。
また、S302で算出した補正なしの精度と、S307で算出した何らかの補正ありの精度とをS308で比較するので、その比較結果を用いてS205の判断を行えばよい。つまり、S308において一度でもYes判定があった場合には、S205でもYesを選択すればよい。
以上詳細に説明したように、学習装置100を本実施例のように構成することで、クラス識別に適した物体領域の学習が、物体検出モデルにて学習可能となる。したがって、物体検出モデルとクラス識別モデルを個別に最適化する場合と比較し、補正処理を行う必要がなくなる。また、物体検出モデルの学習と、クラス識別モデルの学習とを連動しながら繰り返し行うことで、高精度なクラス識別を実現することが可能となる。
[実施例2]
実施例1では、ある補正手法を全ての物体領域に適用する場合の例を示した。本実施例では、個別の物体領域ごとに、異なる補正手法を適用する場合の例に関して説明する。
本実施例は、例えば、物体検出モデルを学習するために必要となる教師データ、つまり、画像中の物体領域(人が目視で入力した物体の位置、サイズ情報)の情報の質が悪い(いい加減なものが多い)場合に有効である。
本実施例では、説明をわかりやすくするために、物体検出として顔検出を想定し、クラス識別として顔認証(顔を用いた個人識別)を想定して説明する。
顔検出の場合、教師データである物体領域は、画像上の顔位置や顔サイズと一定のルールで関連があるものが望ましい。例えば、物体領域で規定されている顔のサイズとは、頭頂から顎の先までのサイズあり、同様に顔の位置とは、両面の中点が顔位置である、といったルールになる。
ただ、教師データは人手で作成することが多いため、その質にはどうしてもムラが発生する。教師データを作成する人が複数人であればなおさらである。昨今のディープラーニングを用いたモデル学習は大量の教師データを必要とすることが多く、教師データの質を確保するのは困難になってきている。
図4に質の悪い教師データの例を示す。
符号401は、画像を示している。画像401中には3人の人物(符号402、403、404)が写っており、それぞれの人物の顔に対して、教師データとなる物体領域(本実施例では顔領域)が破線で図示されている(それぞれ、符号405、406、407)。このとき、比較的小さい顔である402、403に対して教師データは、顔全体を包含するようなサイズとなっている。それに対して、比較的大きい顔である407に対して教師データは、目口を内包する程度のサイズになっている。
このように顔の(見かけ上の)サイズによって、教師データの傾向が変わると、この教師データを用いて作成された顔検出モデルもその傾向を引きずる可能性が高い。その場合、顔認証に投入される物体領域(顔領域)が、画像中の顔サイズによって、顔全体を包含する場合もあれば、目口を内包する程度の大きさである場合もあるということが発生しうる。このようなことになると、顔認証が精度よく実現されるとは考えにくい。例えば、顔認証として、顔の輪郭のような情報も勘案して認証の判断を行っているような場合には、402や403程度の顔サイズであれば、精度よく顔認証できるが、404のような画像中で大きな顔に対しては精度が劣化する、ということが十分発生しうる。
このような場合には、407の顔領域だけをもう少し大きく補正するのが望ましいが、実施例1に示したような、ある補正手法を全ての物体領域(顔領域)に適用する手法では十分な効果が期待できない。
図5は、本実施例における学習装置500の構成を示すブロック図である。
図5において、図1と同じ意味を持つ部品には図1と同じ番号を付与し、その説明は省略する。
符号503は物体領域補正部である。実施例1の場合と同じく、物体領域補正部503には、あらかじめ物体領域の補正手法が設定されている。この物体領域の補正は、物体検出モデルが出力する物体領域に対して行う。補正手法がN通りある場合には、物体検出モデルが出力する一つの物体領域に対して、N通りの補正後物体領域が作成されることになる。
補正手法選択部504は、物体領域補正部503によって実行された補正手法のそれぞれについて良否を判断し、最良の補正手法を選択する。実施例1の場合は、全物体領域に共通の補正手法を適用する場合に、どの補正手法が最適なのかを選択するというものであったのに対し、本実施例では、個別の物体領域一つ一つに対して、どの補正手法が最適なのかを選択する。したがって、個別の物体領域ごとに、最適な補正手法が選択されることになる。
以上が学習装置500の構成である。
図8は、学習装置500における処理の全体を示すフローチャートである。この図8を参照しながら、学習装置500の処理の手順について説明する。
図8において、図2と同じ意味を持つ部品には図2と同じ番号を付与し、その説明は省略する。
S803では、物体領域補正部503において、S201にて学習済の物体検出モデルを使って得られる物体領域それぞれに対して、複数の補正処理を適用し、その中から最良の補正処理の選択を行う。前述のように本実施例では、個別の物体領域一つ一つに対して、どの補正手法が最適なのかを選択する。
S803における補正手法の選択手順に関しては、図6を用いて後程詳述する。大まかな処理の流れとしては、前述のように、「補正なし」を補正の一手法として含むN+1通りの補正手法を、個別の物体領域ごと適用し、どの補正手法を適用したときに精度が良くなるのかを比較する、というものである。
さらにS804では、個別の物体領域ごとに選択された補正手法を、それぞれの物体領域に適用した状態で、クラス識別精度を算出する。つまり補正後の物体領域を用いてクラス識別精度を算出する。そのうえで、「補正なし」で学習した(つまり、物体検出モデルが出力した物体領域をそのままクラス識別の学習に用いた)クラス識別モデルのクラス識別精度と比較する。もし、補正後の物体領域を用いた場合のクラス識別精度の方が良好であれば、クラス識別の精度を改良する補正手法がある、と判断して、S201に戻る。
2回目以降のS201では、S803で選択された補正手法(個別の物体領域ごとに選択された補正手法)に従って補正された物体領域を検出目標領域(教師データ)として、物体検出モデルの再学習を行う。このようにして物体検出モデルの再学習を行うことで、クラス識別モデルに適した物体領域が物体検出モデルから出力されるようになる。つまり、当初は質の良くない教師データ(例えば図4)を用いて行っていた物体検出モデルの学習が、質の良くなった教師データ(例えば図7)を用いた学習へと改良される。このことにより、物体検出モデルの精度が改善すると同時に、推定する物体領域も安定し、ひいてはクラス識別モデルの精度向上も期待できる。
続いて、図6を用いて最良の補正手法を選択する手順(S803)の詳細を説明する。
まずS601において、補正なしの物体領域を使ってクラス識別を実行する。このとき使われるクラス識別モデルは、実施例1と同じくS202で学習されたものである。つまり図8の最初の繰り返しでは、補正なしの物体領域を使って学習されたクラス識別モデルを用いてクラス識別を実行する。クラス識別を行う対象は、正解クラスの識別結果(正解ラベル。例えば人が目視して入力する)が付いている画像を用いる。
続いてS602において、S601で実行したクラス識別の精度を算出する。本実施例では各個別の物体領域ごとに、最適な補正手法を選択するので、クラス識別の精度は個別の物体領域ごとに算出する。本実施例では、クラス識別の精度として、その物体領域に付与された正解ラベルに対する識別スコアを採用する。以下、「クラス識別スコア」を略して「識別スコア」と記載する。識別スコアは、その物体がそのクラスである尤度を示すもので、識別スコアが高いほど、そのクラスに属する蓋然性が高いことを意味する。したがって、正解ラベルに対する識別スコアが高いということは、うまく識別できていることを意味する。
続いてS603において、個々の物体領域ごとに算出されたクラス識別精度と、補正手法(この場合はどの個別領域に対しても「補正なし」)をそれぞれ記憶しておく。ここでは、各物体領域の基準値として、物体領域ごとに算出された識別スコアを記憶し、各物体領域の選択補正手法として、どの物体領域に対しても「補正なし」を記憶しておく。
続いてS604からS612までを、物体検出モデルを使って得られる個々の物体領域の数だけ繰り返し、さらに、S605からS611までを補正手法のパターンの数(例えばN)回繰り返す。
まずS606では、S604で選ばれた物体領域に対して、S605で選択した補正手法を適用し、補正後の物体領域を作成する。
続いてS607において、その補正後の物体領域を用いてクラス識別を実行する。クラス識別のやり方は、S601と同じである。
続いてS608において、S607で実行したクラス識別の精度を算出する。精度の算出は、S602と同じである。
続いてS609において、今回選択された物体領域に対して算出されたクラス識別精度(識別スコア)と、記憶してある同じ物体領域に対するクラス識別精度(識別スコア)とを比較する。今回算出されたクラス識別精度の方が良好であれば、そのクラス識別精度と、補正手法をそれぞれ上書き記憶しておく(S610)。
この処理を補正手法のパターン数回繰り返し(S611)、さらにその繰り返しを物体領域の数だけ繰り返す(S612)。
以上のような手順により、個々の物体領域ごとに最良の補正手法(「補正なし」を含む)を選択することができる。
このような手順で、物体領域ごとに選択された最良の補正手法を用いれば、図4のような教師データが、図7のようになることが期待できる。図7では図4と同じ意味を持つものには図4と同じ番号を付与し、その説明は省略する。
例えば、前述のように顔認証として、顔の輪郭のような情報も勘案して認証の判断を行っているような場合を考える。このような場合、402や403程度の顔サイズであれば、精度よく顔認証できるので、物体領域405、406に対しては、「補正なし」が最良の補正手法として選択される。一方、物体領域407に対しては、「拡大する」という補正手法が最良の補正手法として選択され、その結果、補正後の物体領域が707のようになることが期待される。
本実施例でも実施例1の場合と同じく、図8に示される繰り返し学習を行う。2回目以降の物体検出の学習では、補正後の物体領域を検出目標領域(教師データ)として学習を行う。図7に示された補正後の物体領域は、図4の教師データに比較して、顔の見かけ上の大きさに左右されず、顔位置や顔サイズと一定のルールで関連づいている。
従って、図7の教師データ(補正後の物体領域)を用いて、物体検出モデル(顔検出モデル)の学習を行えば、顔の見かけ上のサイズに左右されず、安定した物体領域を推定するように学習される可能性が高い。
そのような場合、物体識別モデル(顔認証モデル)にも、安定した物体領域(顔領域)が入力されるので、顔認証精度が向上することが期待できる。
以上詳細に説明したように、学習装置500を本実施例のように構成することで、クラス識別に適した物体領域の学習が、物体検出モデルにて学習可能となる。特に本実施例では、個別の物体領域ごとに補正が可能となるため、よりきめ細やかな補正が実現可能となる。したがって、全物体領域で一律の補正では対応できないような、教師データの偏りがあったとしても、物体検出モデルの学習と、クラス識別モデルの学習とを連動しながら繰り返し行うことで、高精度なクラス識別を実現すること可能となる。
[実施例3]
これまで説明した実施例では、最良の補正手法を選択する基準として、EERや正解ラベルに対する識別スコアの例を示した。しかしながら、本発明の適用範囲はそれに限らない。例えば、EERの代わりに、所定の誤識別率における正識別率(顔認証の場合には、所定の誤認証率における正認証率)の大小で、補正手法の選択を行ってもよい。
あるいは、正解ラベルに対する識別スコアの代わりに、補正手法を適用して得られるクラス識別モデルの出力と、真のクラスとの間の交差エントロピーを算出し、それが最小となるような補正手法を選択するのでもよい。クラス識別モデルの出力は、クラスごとにそのクラスである確率の分布を示しているといえるので、交差エントロピーで分布間の差を算出することは、最良の変換手法を選ぶ基準として適切なものといえる。
また、補正手法を適用して得られるクラス識別モデルの出力と、同一クラスの属する他の物体領域をクラス識別モデルに投入したときに算出される特徴ベクトルの代表値との距離が小さくなるような補正手法を選択してもよい。このような選択基準に基づけば、補正前の物体領域が外れ値(例外値)のような場合に、うまく補正されることが期待される。
また、これまでに説明した実施例では、図2および図8に示す繰り返し学習において、クラス識別精度が改善する限り継続する例に関して説明を行った。他にも、繰り返し回数や、繰り返し学習に要している継続時間を基準として、打ち切ることにより、繰り返しをする前に比べて、精度の高いモデルを得ることができる。繰り返し学習の途中打ち切りは、必ずしも最高のクラス識別精度は必要とされないが、ある程度の精度のモデルを手早く獲得したい場合等には有効な手法である。
100 学習装置
101 物体検出モデル学習部
102 クラス識別モデル学習部
103 物体領域補正部
104 補正手法選択部

Claims (10)

  1. 機械学習を用いた学習を実行する情報処理装置であって、
    画像中の物体領域を推定する物体検出モデルを学習する物体検出モデルの学習手段と、
    前記物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて前記物体領域のクラスを識別する識別手段と、
    前記物体検出モデルに推定され前記クラス識別モデルへ入力される前記物体領域の位置または大きさを補正する補正手法を探索する物体領域補正手段と、
    前記補正手法のうちから一つの補正手法を選択する補正手法の選択手段を備え、
    前記物体検出モデルの学習手段では、
    現在推定している物体領域に対して、前記選択手段が選択した補正手法により補正した領域を、前記物体領域として検出する教師とする領域として更新を行い、前記物体検出モデルの学習をおこなうことを特徴とする情報処理装置。
  2. 前記物体領域補正手段における該補正手法の探索は、
    あらかじめ決められた複数の補正手法を試行して行うことを特徴とする請求項1記載の情報処理装置。
  3. 前記補正手法の選択手段では、
    前記物体領域補正手段において前記複数の補正手法を試行することで得られる複数の前記クラス識別モデルへの入力領域を前記クラス識別モデルに入力し、その結果得られる補正手法ごとのクラス識別精度に基づいて前記補正手法を選択することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記補正手法の選択手段における前記補正手法の選択は、
    あらかじめ決められた所定の基準に基づいて、前記補正手法ごとに得られるクラス識別精度が上がるになる前記補正手法を選択することを特徴とする請求項1乃至3何れか1項に記載の情報処理装置。
  5. 前記補正手法の選択手段における前記補正手法の選択は、
    前記クラス識別モデルで算出される前記物体クラスごとの特徴ベクトルの代表値と、物体領域に基づいて計算された特徴ベクトルとの距離が小さくなるような補正手法を選択することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
  6. 前記所定の基準とは、EER(Equal Error Rate)であることを特徴とする請求項4記載の情報処理装置。
  7. 前記所定の基準とは、正解クラスに対するクラス識別スコアであることを特徴とする請求項4記載の情報処理装置。
  8. 機械学習を用いた学習を実行する情報処理方法であって、
    画像中の物体領域を推定する物体検出モデルを学習する物体検出モデルの学習工程と、
    前記物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて前記物体領域のクラスを識別する識別工程と、
    前記物体検出モデルに推定され前記クラス識別モデルへ入力される前記物体領域の位置または大きさを補正する補正手法を探索する物体領域補正工程と、
    前記補正手法のうちから一つの補正手法を選択する補正手法の選択工程を備え、
    前記物体検出モデルの学習工程では、
    現在推定している物体領域に対して、前記選択工程で選択した補正手法により補正した領域を、前記物体領域として検出する教師とする領域として更新を行い、前記物体検出モデルの学習をおこなうことを特徴とする情報処理方法。
  9. 物体の識別を実行する情報処理装置であって、
    画像中の物体領域を推定する物体検出モデルを用いて物体領域を検出する検出手段と、
    前記物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて前記物体領域のクラスを識別する識別手段と、を備え、
    前記物体検出モデルは、前記物体検出モデルが推定した前記物体領域の位置または大きさを補正する補正手法のうちから選択された補正手法を用いて補正した領域を、前記物体領域として検出する教師とする領域として更新して前記物体検出モデルの学習を行うことにより得られたモデルであることを特徴とする情報処理装置。
  10. 物体の識別を実行する情報処理方法であって、
    画像中の物体領域を推定する物体検出モデルを用いて物体領域を検出する検出工程と、
    前記物体領域に含まれる物体の特徴ベクトルから、物体クラスを推定するクラス識別モデルを用いて前記物体領域のクラスを識別する識別工程と、を備え、
    前記物体検出モデルは、前記物体検出モデルが推定した前記物体領域の位置または大きさを補正する補正手法のうちから選択された補正手法を用いて補正した領域を、前記物体領域として検出する教師とする領域として更新して前記物体検出モデルの学習を行うことにより得られたモデルであることを特徴とする情報処理方法。
JP2020082425A 2020-05-08 2020-05-08 情報処理装置、情報処理方法 Pending JP2021177312A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020082425A JP2021177312A (ja) 2020-05-08 2020-05-08 情報処理装置、情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020082425A JP2021177312A (ja) 2020-05-08 2020-05-08 情報処理装置、情報処理方法

Publications (1)

Publication Number Publication Date
JP2021177312A true JP2021177312A (ja) 2021-11-11

Family

ID=78409505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020082425A Pending JP2021177312A (ja) 2020-05-08 2020-05-08 情報処理装置、情報処理方法

Country Status (1)

Country Link
JP (1) JP2021177312A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7407901B1 (ja) 2022-12-23 2024-01-04 能美防災株式会社 防災機器の設置補助システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7407901B1 (ja) 2022-12-23 2024-01-04 能美防災株式会社 防災機器の設置補助システム

Similar Documents

Publication Publication Date Title
US20210166383A1 (en) Method and device for detecting and locating lesion in medical image, equipment and storage medium
CN111339990B (zh) 一种基于人脸特征动态更新的人脸识别系统和方法
JP4640155B2 (ja) 画像処理装置および方法、並びにプログラム
JP4757116B2 (ja) パラメータ学習方法及びその装置、パターン識別方法及びその装置、プログラム
US7711156B2 (en) Apparatus and method for generating shape model of object and apparatus and method for automatically searching for feature points of object employing the same
US11341770B2 (en) Facial image identification system, identifier generation device, identification device, image identification system, and identification system
US20080091627A1 (en) Data Learning System for Identifying, Learning Apparatus, Identifying Apparatus and Learning Method
CN109978882A (zh) 一种基于多模态融合的医疗影像目标检测方法
CN111401219B (zh) 一种手掌关键点检测方法和装置
CN109034037A (zh) 基于人工智能的在线学习方法
CN113053395B (zh) 发音纠错学习方法、装置、存储介质及电子设备
US20220222552A1 (en) Data-creation assistance apparatus and data-creation assistance method
US20040131235A1 (en) Image processing method, apparatus and storage medium
JP2021177312A (ja) 情報処理装置、情報処理方法
CN112861742B (zh) 人脸识别方法、装置、电子设备及存储介质
JP2005208850A (ja) 顔画像認識装置及び顔画像認識プログラム
JP7444279B2 (ja) 物体追跡装置、物体追跡方法、及び、プログラム
CN113327212B (zh) 人脸驱动、模型的训练方法、装置、电子设备及存储介质
WO2022190301A1 (ja) 学習装置、学習方法、及びコンピュータ可読媒体
JP7444278B2 (ja) 物体追跡装置、物体追跡方法、及び、プログラム
JP7174382B2 (ja) 学習装置、照合装置、学習方法、照合方法及びプログラム
Singh et al. Sign language to number by neural network
CN113743252B (zh) 一种目标跟踪方法、装置、设备及可读存储介质
WO2023188160A1 (ja) 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体
CN113837930B (zh) 人脸图像合成方法、装置以及计算机可读存储介质

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20200616