JP2012190159A

JP2012190159A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2012190159A
Application number: JP2011051879A
Authority: JP
Inventors: Atsushi Nogami; 敦史野上
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-03-09
Filing date: 2011-03-09
Publication date: 2012-10-04

Abstract

【課題】内容の偏りが少なく、学習に効果的な画像データを収集することを目的とする。
【解決手段】画像から検出対象とする画像領域を検出する複数の検出器と、複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と画像領域の対象物らしさのスコアとの組を出力する統合手段と、学習データの採択率を設定する設定手段と、スコアと設定手段で設定された採択率とに基づいて、画像領域とスコアとの組から学習データを選択する選択手段と、選択手段で選択された学習データを保存する保存手段と、を有することによって課題を解決する。
【選択図】図２

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

画像中の対象物を検出する検出器は、多数の対象物画像データと非対象物画像データを学習することによって作成される。これらの学習画像には、対象物であるか、非対象物であるかを示す教師ラベルを付与する必要がある。
予め人為的にラベルを付与したデータ群を用いて学習を行った検出器を、更に多くのデータで学習する場合に効果的な方法として、能動学習が知られている。能動学習では、ラベルが付与されていない多数のデータの中から、検出器が学習に有効と推測するデータを選択する。選択されたデータに対して、人がラベルを入力することで、新しいラベル付きデータを作成する。このデータを利用して、更に学習を行うことにより、より精度の高い検出器を作成することができる。

能動学習のより具体的な例を、２クラス判別を行う検出器を用いて簡単に説明を行う。まず、人がクラスラベルを付与したデータセットで判別関数を学習する。次に、ラベルが付与されていないデータセットに対して判別処理を行い、ラベルを要求するデータを所定数選択する。ここで、ラベル要求データの選択方法としては、識別空間において２つのクラスを判別する超平面の境界付近のデータを選択する方法が最も簡便な方法である。判別境界付近のデータは検出器にとって、判断が曖昧なデータであるため、このようなデータを選択しラベルを付与することで、ランダムに選択したデータにラベルを付与するよりも効率的な学習を行うことができる。
このような技術は、学習済みの人物検出器を、ユーザー環境に合わせて再学習するような場合にも有効である。製品に搭載された人物検出器は、汎用的な性能となっているため、特定の環境や特定人物を対象とした検出処理において、必ずしも最適な性能となっていない。したがって、実際に人物検出器を利用する環境の画像データを用いて再学習を行うことは、利用環境での検出性能を向上させる上で有効な手段である。しかし、ユーザーに様々な状況（例えば、様々な場所、時刻、対象人物）の画像データとラベルとの準備を要求することは困難である。そこで、能動学習の手法によって学習に効果的な画像データを自動的に収集・選択し、ユーザーには、選択された学習画像のみにラベル付与を要求することで、効率的に利用環境に合わせた検出器を作成することができる。
従来、学習に効果的なデータを自動的に収集する技術について、以下のような技術があった。

特許文献１では、化合物の組成データと活性との関係を複数の予測アルゴリズムで予測し、複数の予測結果のばらつきが大きい（分散が大きい）データを実験候補データとして選び出す。そして、この実験候補データの組成の化合物の実験を行い、実験結果をデータのラベルとして付与することで、少ない回数の実験で予測アルゴリズムの学習を効果的に行う技術が開示されている。

特開２００７−３０４７８２号公報

しかし、特許文献１の技術では、アルゴリズムの予測結果の分散が大きなデータから順にラベルを要求する実験候補データを選択するため、選択されるデータの内容に偏りが生じる。更に、複数の予測アルゴリズムの結果から選択するデータを決定しているが、結果の分散値を利用しているのみで、複数の予測アルゴリズムについて、各予測アルゴリズムの特徴や、予測アルゴリズムの関係性を考慮して実験候補データを選択することは行われていない。特に、画像中の対象物を複数の検出器を統合して検出するような場合に、検出器の特性を考慮して学習データを収集する方法がなかった。

本発明はこのような問題点に鑑みなされたもので、内容の偏りが少なく、学習に効果的な画像データを収集することを目的とする。

そこで、本発明の情報処理装置は、画像から検出対象とする画像領域を検出する複数の検出器と、前記複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と該画像領域の対象物らしさのスコアとの組を出力する統合手段と、学習データの採択率を設定する設定手段と、前記スコアと前記設定手段で設定された採択率とに基づいて、前記画像領域と前記スコアとの組から学習データを選択する選択手段と、を有する。

本発明によれば、内容の偏りが少なく、学習に効果的な画像データを収集することができる。

映像情報処理装置のハードウェア構成の一例を示す図である。映像情報処理装置のソフトウェア構成を説明するための図である。映像情報処理装置の処理フローの一例を示す図である。頭部、顔、胴体、四肢のそれぞれを検出する検出器を統合することにより人物を検出する一例を示す図である。学習候補データについて、第一検出器と第二検出器とのスコアをプロットした一例を示す図である。スコアの一例を示す図である。採択率について説明するための図である。図５の学習候補データから、図７の採択率を用いて選択した学習データの一例を示した図である。収集する学習データ数の上限をＭとした場合のステップＳ２０６での処理フローの一例を示す図である。ユーザー確認部のユーザーインタフェースの一例を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。

＜実施形態１＞
（構成概要）
本実施形態の映像情報処理装置は、画像中から所定の対象物領域を検出する検出器の学習画像を収集する。映像情報処理装置は一つの対象物に対して複数の検出器を備え、その検出結果を統合することで対象物を検出する。複数の検出器は、検出対象物を複数の画像領域に分割して、各々の領域の検出器を作成することで構成される。対象物を複数の領域に分割して検出する方法は、部分的なオクルージョンや、人物等の関節体の姿勢変化への対応方法として有効な手段である。複数の検出器を学習する場合、分割した領域のそれぞれについて、学習のための画像データが必要になる。本実施形態では、予め学習した各領域の検出器を用いて、その検出器のさらなる学習に効果的な画像（学習画像）を収集することを目的としている。なお、映像情報処理装置は、情報処理装置（コンピュータ）の一例である。
以下、実施形態１では、検出対象物を人物とした場合について、説明する。

図１は、映像情報処理装置のハードウェア構成の一例を示す図である。
制御装置１０は、ＣＰＵ等であって、映像情報処理装置１００の全体を制御する。記憶装置１１は、ＲＡＭ及び/又はＲＯＭ及び/又はＨＤＤ等の記憶装置であって、例えば、画像やプログラム等を記憶する。通信装置１２は、映像情報処理装置をネットワーク等に接続する装置である。以下で示す本実施形態では、映像情報処理装置１００は、通信装置１２を介してカメラ等に接続されているものとする。
制御装置１０が、記憶装置１１に記憶されているプログラムに基づき処理を実行することによって、後述する映像情報処理装置１００の機能及びフローチャートに係る処理が実現される。

図２は、映像情報処理装置１００のソフトウェア構成を説明するための図である。
検出器１１１、１１２・・・１１Ｎは、不図示のカメラ等から画像を受け取り、それぞれ人物の異なる部位を検出するＮ個の検出器である。画像から人物の特定部分を検出する方法は公知の技術を用いればよい。これらの複数の検出器は、検出器の対象部位に応じて最適な検出方法を用いて、対象部位ごとに異なるアルゴリズムとしてもよい。例えば、顔を対象部位とする検出器は、隣接領域の平均輝度差を特徴としてブースティングにより学習するアルゴリズムとする（参考文献１）。一方、他の頭部、胴、腕、脚等の部位を検出する検出器は、輝度勾配方向をヒストグラム化した特徴をＳＶＭにより学習するアルゴリズムを用いてもよい（参考文献２）。本実施形態では画像に対して検出器をラスタスキャンして、各スキャン位置で対象部位らしさのスコアを算出する。
［参考文献１］Ｐ．Ｖｉｏｌａ，Ｍ．Ｊｏｎｅｓ，"ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｕｓｉｎｇａＢｏｏｓｔｅｄＣａｓｃａｄｅｏｆＳｉｍｐｌｅＦｅａｔｕｒｅｓ，" ＩｎＰｒｏｃ．ＩＥＥＥＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｋａｕａｉ，ＵＳＡ，ｐｐ．１−９，２００１
［参考文献２］ＮａｖｎｅｅｔＤａｌａｌ，ＢｉｌｌＴｒｉｇｇｓ，"ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓｆｏｒＨｕｍａｎＤｅｔｅｃｔｉｏｎ"，ＣＶＰＲ２００５，ｐｐ．８８６−８９３

次に、検出結果統合部１０２は、検出器１１１〜１１Ｎの結果を統合する処理を行う。統合処理の結果、検出結果統合部１０２は、各検出器について、学習画像の候補となる画像領域（以下、学習候補画像）とその領域の対象物らしさのスコアとを出力する。以下、学習候補画像とその領域のスコアとの組を学習候補データと呼ぶ。画像収集部１０３は、検出結果統合部１０２で得た学習候補データから学習データを選択する。この選択には、各検出器のスコアと採択率設定部１０４で設定された採択率を利用する。採択率設定部１０４では、各検出器の信頼度から採択率を設定する。検出結果統合部１０２、画像収集部１０３、採択率設定部１０４の処理の詳細については後述する。
データ保存部１０５は、画像収集部１０３で選択した学習画像を保存する。ユーザー確認部１０６では、データ保存部１０５に保存された学習画像に対するユーザー操作に応じて、対象物の画像か、非対象物の画像かについてのラベルを付与する。ユーザーが画像を確認し、ラベルを付与するために、ユーザー確認部１０６は、画像を表示する機能と、ユーザーの応答を入力する機能と、を有する。ユーザー確認部１０６で入力されたラベルと学習画像とは、ラベル付き学習画像として再びデータ保存部１０５に保存される。なお、学習に用いる画像は、一般に画像特徴量に変換して学習に利用される。したがって、ユーザー確認部１０６は、ユーザーがラベル付けを行った学習画像を、画像特徴量に変換してデータ保存部１０５に保存することで、保存容量を削減するようにしてもよい。
学習部１０７では、ラベルが付与された学習画像を利用して検出器の再学習を行う。この学習には、本実施形態の方法によって収集した学習画像のみならず、予め準備されたラベル付き学習画像を加えて学習を行ってもよい。この場合、データ保存部１０５に、ラベル付き学習画像を予め保存しておく。
なお、本実施形態は、図１及び図２に示した構成に限定されず、図２をハードウェアとして映像情報処理装置に実装してもよい。

（フローチャートによる説明）
以上、本実施形態の映像情報処理装置１００の構成概要について説明した。以下では、図３のフローチャートを基に、本実施形態の処理についてより具体的に説明を行う。図３は、映像情報処理装置の処理フローチャートの一例を示す図である。
（複数検出器によるラスタスキャン）
映像情報処理装置１００は、まず、画像に対して、複数の検出器１１１〜１１Ｎでラスタスキャンを実行する（ステップＳ２０１）。本実施形態での複数の検出器は、検出対象物である人物を図４に示すように複数の部位に分割したときの各部位３０１〜３０７をそれぞれ検出する。図４は、頭部３０１、顔３０２、胴体３０３、四肢３０４〜３０７のそれぞれを検出する検出器を統合することにより人物を検出する一例を示す図である。各検出器のラスタスキャンの結果、それぞれの検出器のスコアがスキャン位置に記録される。検出器が出力するスコアは、対象物らしさ或いは非対象物らしさを示すスカラー値で、例えば、判別空間における超平面からの距離である。また、超平面からの距離としてスコアを得る場合、対象物方向を正の値、非対象物方向を負の値として出力する。
（複数検出器の統合処理と学習候補データの出力）
次にステップＳ２０２では、検出結果統合部１０２は、複数の検出器の結果を統合する処理を行い、各部位と推定される画像領域（学習候補画像）と、その画像領域のスコアの組である学習候補データと、を得る。検出結果統合部１０２は、各検出器の画像中でのスコアと、位置ずれによるペナルティコストとを用いて、検出器の結果を統合することで、学習候補データを作成する。ここで、検出器の数をＮ、検出器の番号をｉ、画像中での位置をｘとする。ｆ_D（ｘ）は画像位置ｘでのスコアを表し、ｆ_p（ｘ）は位置ｘに対するペナルティコストを表す。それぞれ、各検出器について算出するため、検出器を示す添字ｉを付けて、ｆ_Di（ｘ）を検出器ｉの画像位置ｘでのスコア、ｆ_Pi（ｘ）を位置ｘに対するペナルティコストとすると、検出器を統合した対象物に対するスコアは式１で表される。

位置によるペナルティコストｆ_Pi（ｘ）は、検出結果統合部１０２が、検出器の相対的な位置関係に基づいて設定する。検出結果統合部１０２は、ペナルティコストを、ある一つの検出器を基準とした相対的な基準位置ｐ_iを各検出器に設定し、距離ｐ_i−ｘ_iに応じてペナルティコストが増加するように設計すればよい。例えば、頭部検出器（ｉ＝１）を基準検出器とした場合、顔検出器（ｉ＝２）の基準位置ｐ₂は頭部検出器の検出位置から顔位置の標準的なずれ位置となる。つまり、各検出器の基準位置ｐ_iは、各検出器の標準的な配置を示し、距離ｐ_i−ｘ_iは標準配置からのずれを示す。より具体的なペナルティコストｆ_Pi（ｘ）は、距離ｐ_i−ｘ_iに応じたばねモデルとして表現して、式２のように定式化される。

検出結果統合部１０２は、式１のスコアＳを所定の画像範囲Ｚで探索し、スコアＳが最大となる各検出器の位置ｘ_iのセットＸを統合結果として求める。

得られた位置Ｘの画像に対する各検出器のスコアΛは式５になる。

位置Ｘに対応する画像が学習候補画像であり、位置Ｘの画像とΛの組が学習候補データである。即ち、以下で用いる学習候補データＤは式６のように表される。

但し、位置Ｘは画像中の所定位置の部分画像を示すものとする。例えば、ｉ＝１の検出器が頭部を対象部位とした検出器であるとすると、位置ｘ１の画像は頭部領域と推定した画像となっている。したがって、検出結果統合部１０２は、位置ｘ₁の画像を頭部検出器の学習候補画像とする。また、ｉ＝２の検出器を顔検出器とすると、位置ｘ₂の画像は、位置ｘ１近傍で顔と判断される領域の画像を示す。また、λ₁、λ₂はその画像領域での各検出器のスコアを示す。

対象物を検出する目的であれば、領域Ｚについて最大化したスコアＳに対して、適切な閾値処理を行うことで検出処理を行うことができる。本実施形態でのステップＳ２０２は、未検出領域の画像を学習画像として収集するために、スコアＳの値によらず、位置Ｘの画像とスコアΛとを出力する。
但し、全てのスコアＳのデータを収集して学習候補データとすると、データ数が膨大になるため、検出に利用する閾値よりも低い閾値で閾値処理を行い、学習候補データを適度な数とした上で、学習画像を収集するようにしてもよい。また、本実施形態では、複数の検出器の何れかが、対象部位について確からしいスコアを出力しているデータを用いることが望ましい。したがって、全ての検出器のスコアが低いデータは学習候補データとせずに次ステップ以降の処理は行わず、λ_iの何れかが所定値以上を示すデータのみを学習候補データとして、後段の処理に渡すようにしてもよい。
以上のように検出器のスコアと位置ずれのペナルティコストとを利用して、複数の検出器の統合処理を行い、対象物を検出する従来技術として、参考文献３がある。本実施形態のステップＳ２０２には、参考文献３の方法を用いてもよい。
［参考文献３］Ｐ．Ｆｅｌｚｅｎｓｚｗａｌｂ，Ｄ．ＭｃＡｌｌｅｓｔｅｒ，Ｄ．Ｒａｍａｎａｎ， "ＡＤｉｓｃｒｉｍｉｎａｔｉｖｅｌｙＴｒａｉｎｅｄ，Ｍｕｌｔｉｓｃａｌｅ，ＤｅｆｏｒｍａｂｌｅＰａｒｔＭｏｄｅｌ"，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣＶＰＲ２００８
また、各検出器の位置ｘ_i（の画像）とスコアλ_iを算出する方法は、これまでに説明したようなばねモデルやそれに近い方法に限定することなく、他の手法を用いてもよい。例えば、参考文献４では、複数の検出器（パッチ）を独立に検出し、一般化ハフ変換の考え方に基づき投票を行って複数検出器の結果を統合している。投票結果の位置から、逆に各検出器が対象とする部位を推定して、学習候補画像の位置を取得することができる。
［参考文献４］Ｂ．Ｌｅｉｂｅ，Ａ．Ｌｅｏｎａｒｄｉｓ，ａｎｄＢ．Ｓｃｈｉｅｌｅ， "ＣｏｍｂｉｎｅｄＯｂｊｅｃｔＣａｔｅｇｏｒｉｚａｔｉｏｎａｎｄＳｅｇｍｅｎｔａｔｉｏｎｗｉｔｈａｎＩｍｐｌｉｃｉｔＳｈａｐｅＭｏｄｅｌ"，ＥＣＣＶ'０４ＷｏｒｋｓｈｏｐｏｎＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，Ｍａｙ２００４
以上のステップＳ２０２の処理により、各検出器に対応する画像領域とスコアとが学習候補データとして得られる。複数の検出器の統合処理を行うことで、ある検出器の検出スコアが十分に得られない場合でも、その検出器が対象とする部位の画像を推定して求めることができる。したがって、この画像を学習に用いることで、未検出となるような画像を学習に加えることができるようになる。

（学習データ収集対象の検出器の設定）
ステップＳ２０３では、画像収集部１０３は、学習候補データから学習データを選択する対象となる検出器（以下、第一検出器と呼ぶ）と、第一検出器の学習データを収集するために利用する他の検出器（以下、第二検出器と呼ぶ）と、を設定する。第一検出器は検出器の内の何れか一つであるが、第二検出器は一つでも複数でもよい。複数の検出器について、それぞれの学習データを収集する場合、ステップＳ２０３で画像収集部１０３は、各検出器を第一検出器として順次設定するようにすればよい。例えば全ての検出器（検出器数Ｎ）について画像データを収集する場合、例えば、画像収集部１０３は、以下のステップＳ２０４〜Ｓ２０６を第一検出器に設定する検出器を変えながらＮ回ループさせればよい（ステップＳ２０７）。
以下、ステップＳ２０４〜Ｓ２０６は、第一検出器を頭部検出器（ｉ＝１）、第二検出器を顔検出器（ｉ＝２）に設定した場合を例に説明する。

（採択率の設定）
図３のステップＳ２０４〜Ｓ２０５は、図２の採択率設定部１０４に置ける処理で、第一検出器と第二検出器との関係に基づいて、学習候補データから学習データを選択する採択率を設定するステップである。図２のブロック図では、各検出器１１１〜１１Ｎと採択率設定部１０４が接続しており、検出器の関係から採択率を設定する依存関係を示している。
まず、採択率の設定についての背景を説明する。図５は、学習候補データについて、第一検出器と第二検出器とのスコアをプロットした一例を示す図である。図５は、横軸を第一検出器（頭部検出器）のスコアλ₁、縦軸を第二検出器（顔検出器）のスコアλ₂としたプロットとなっている。また、軸の交点４００は、スコアλ₁及びλ₂がゼロとなる点であるとする。本実施形態の映像情報処理装置１００は、ステップＳ２０２で説明したように、複数の検出器の結果を統合し、統合後のスコアＳで対象物か否かを判断するが、各検出器をそれぞれ単体の検出器として取り扱うこともできる。ここで、本実施形態では、各検出器をそれぞれ単体の検出器として扱った場合に、検出器が出力するスコアλ_iをλ_i＝０で閾値処理することで検出と棄却との判断を行うものとする。スコアλ_iが正の値を示す場合には、対象物である可能性が高いことを示し、スコアλ_iが負の値を示す場合には、非対象物である可能性が高いことを示す。図５のプロットで、λ₁＞０となる領域にあるデータは第一検出器が頭部と判定するデータで、λ₁＜０となる領域にあるデータは頭部以外の領域と判定するデータである。

しかし、実際にはスコアλ_iの値が常に正しく対象物を示しているとは限らず、スコアλ_iの閾値処理の結果からは、誤検出や未検出が発生する。本実施形態では、これらの誤検出結果や未検出結果を収集して学習データを作成することを目的としている。誤検出や未検出となる画像を学習画像として用いることで効率的な学習を行うことができる。そのために、本実施形態の映像情報処理装置１００は、第一検出器と第二検出器とのスコアを用いてデータの選択を行う。ここで、第一検出器と第二検出器とが相反する結果を示す場合、そのどちらかが誤っている可能性が高い。図５では、プロットの左上領域４０１（λ₁＜０、λ₂＞０）と右下領域４０２（λ₁＞０、λ₂＜０）が、第一検出器と第二検出器との結果が相反する領域である。より具体的には、領域４０１は頭部検出器が頭部であることを棄却し、顔検出器は顔が存在すると判定している。また、領域４０２はその逆である。これらの領域を中心に、学習候補データから学習データを選択すると、誤検出又は未検出の画像を収集できる可能性が高い。但し、λ₁とλ₂とのスコアの乖離が大きな順に（図５の左上又は右下から順に）学習データを選択した場合には、得られる学習データに偏りが生じる可能性がある。したがって、本実施形態では、スコアの順に学習データを選択するのではなく、スコアに応じて確率的に学習データを選択する。この選択する確率を第一検出器と第二検出器との関係から設定する。
また、複数の検出器がそれぞれ検出対象とする部位が異なることにより、以下のような問題が生じる。例えば、頭部検出器と顔検出器とを比較すると以下のように性質や検出性能が異なる。まず、顔は人物の向きによっては隠れてしまうという問題がある。例えば、背面を向いている人物では、顔検出器では検出不可能である。しかし、頭部の輪郭を主に対象としている頭部検出器であれば、人物が背面を向いていても検出可能である。逆に、顔が見えている状況であれば、頭部領域は、ほぼ確実に見えていると考えられる。また、顔は目や口等の顔器官という検出対象として比較的わかりやすい特徴を有するのに対して、頭部を検出する場合には、主に頭部の輪郭特徴を対象としている。頭部の輪郭特徴は、背景の影響や髪型の影響を受けることから、顔の特徴に比べて不安定である。したがって、頭部検出器よりも顔検出器の方が一般に検出性能が高い。

ここで、図５の領域４０１、４０２に着目する。先の説明では、図５の領域４０１、４０２共に、それぞれの検出器の結果が相反するため、その領域にプロットされるデータは学習データを収集する対象として適していると説明した。しかし、領域４０２は、顔は存在しない可能性が高い（λ₂＜０）が、頭部が存在する可能性が高い（λ₁＞０）領域であることから、後ろ向きの人物画像から得られたデータが含まれている。後ろ向きの人物画像から得られたデータが、領域４０２にプロットされることは正しい結果であり、誤った結果を学習データとして収集する目的からすると、このデータが学習データとして収集される可能性を低減したい。また、領域４０１のデータは、顔検出器の性能の方が頭部検出器の性能に比べて高く、顔と判定される場合にはその周囲に頭部が見えていることがほぼ確実であることから、頭部検出器が未検出としたデータである可能性が高い。したがって、領域４０１の学習候補データは領域４０２の学習候補データと比べて、高い確率で学習データとして収集することが望ましい。
以上の状況を鑑みて、第一検出器のスコアと第二検出器のスコアとに対して、第一検出器が検出対象とする画像領域が存在する信頼度をそれぞれ求め、この信頼度から採択率を設定する。

まず、図３のステップＳ２０４で、採択率設定部１０４は、第一検出器の対象部位に対する各検出器のスコアの信頼度を設定する。図６は、スコアの一例を示す図である。図６において、λ₁は頭部検出器の出力するスコア、λ₂は顔検出器の出力するスコアである。ｆ_ij（λ_j）は、信頼度を示し、検出器ｊのスコアλ_jに対して、検出器ｉの対象部位が所定の画像領域に存在する確率として表現する。図６（Ａ）のｆ₁₁（λ₁）は、頭部検出器のスコアλ₁が得られたときに、スコアλ₁を得た画像領域に頭部が存在する確率である。ｆ₁₂（λ₂）は、顔検出器のスコアλ₂が得られた時に、スコアλ₂が得られた位置から頭部が存在すると推定される画像領域に、頭部が存在する確率である。第一検出器を顔検出器とし、第二検出器を頭部検出器として、顔領域の学習データを収集する場合を設定する場合には、採択率設定部１０４は、顔領域に対する顔検出器の信頼度ｆ₂₂（λ₂）と顔領域に対する頭部検出器の信頼度ｆ₂₁（λ₁）とを同様に設定する。
ｆ_ij（λ_j）は、予めラベル付けされた画像データを用いて求めることができる。例えば、図６のように、スコアλを複数のビンに分割したヒストグラムとして信頼度を定義する場合、以下のように信頼度を作成する。まず、採択率設定部１０４は、ヒストグラムの各ビンのλ_jを示す結果を収集する。次に、採択率設定部１０４は、そのλ_jを示した画像位置から推定される対象部位ｉの位置に、実際に対象部位ｉが存在するデータ数をカウントする。更に、採択率設定部１０４は、ビンごとの全データ数で正規化することでヒストグラムが得られる。図６（Ａ）では、λ₁が高いスコアを示している場合でも、頭部が得られる確率が１まで達していない。これは、頭部検出器の検出性能が十分ではないため、誤検出が比較的多く発生してしまう状態を示している。一方、図６（Ｂ）でλ₂＞０の高スコアの領域では、頭部が得られる確率が高くなっている。これは、顔検出器の性能が比較的高いことと、顔が写っている画像では、ほぼ確実に頭部が観測できることを示している。また、λ₂＜０の低スコアの領域では、人物の向き（顔の向き）によっては、顔スコアが低いが頭部が観測される状況が起こりえる。したがって、λ₂＜０の領域では、λ₂の値によらず、一定の確率で頭部が存在する（λ₂が非常に低スコア、例えばλ₂→−∞となると、一定の確率に収束する）。

また、信頼度ｆ_ij（λ_j）を、スコアλ_jを変数とした関数により近似して定義してもよい。例えば、図６では、ロジスティック関数を基にした式７の関数によりヒストグラムを近似したプロットを図示している。

Ｋ、Ｃ、ｒ、λ₀はそれぞれパラメータである。近似する関数は式７に限定することなく、どのような関数を用いてもよいが、シグモイド型の関数を用いることが好適である。

以上、頭部領域に対する頭部検出器と顔検出器の信頼度を示すｆ₁₁（λ₁）とｆ₁₂（λ₂）との設定について説明した。信頼度がそれぞれ異なる原因として、検出器自体の性能、対象部位に依存する性能（顔の見えやすさと頭部の見えやすさ）に依存することを説明したが、信頼度をその他の要因も含めて設定してもよい。例えば、対象部位ごとのオクルージョンの発生のしやすさや、見切れやすさ等を考慮して、信頼度を設定してもよい。オクルージョンや見切れに応じた信頼度を設定する場合には、上記のヒストグラムを作成するときに利用するラベル付き画像に、オクルージョンや見切れが発生している画像を含めればよい。オクルージョンや見切れが発生している画像を元にヒストグラムを作成することで、これらの条件を含んだ状況での信頼度を設定できるようになる。以上では、頭部と顔を対象とした検出器を事例に説明したが、他の人物部位でも、同様に各検出器の信頼度を設定することができる。
次に、図３のステップＳ２０５のｆ₁₁（λ₁）とｆ₁₂（λ₂）から、採択率を設定する処理について説明する。採択率Ｐは第一検出器のスコアλ_i、第二検出器のスコアλ_jの関数として以下のように表される。

α、βは定数である。ここで、λ_i・λ_j＜０は、第一検出器と第二検出器とが相反する推定結果を出力する領域を示す（図５の領域４０１及び４０２に相当する）。本実施形態では、スコアλがλ＝０を閾値として対象物を判定することから、採択率設定部１０４は、採択率を定義する範囲をλ_i・λ_j＜０の領域として定めている。この領域の定義方法はこの限りではなく、採択率設定部１０４は、第一検出器と第二検出器とが相反する結果を出力すると考えられるスコア領域を定義し、その領域について採択率を定義するようにしてもよい。式８は、領域４０１、４０２において、信頼度ｆ₁₁（λ₁）とｆ₁₂（λ₂）の差が大きな値を示すほど、採択率Ｐが高い確率として設定されることを意味している。信頼度の差分に応じて採択率を設定することにより、それぞれの検出器が推定する頭部の存在確率の差が大きなデータを優先的に収集することができるようになる。図７には、Ｐ（λ₁，λ₂）を等高線表示している。図中のカラーバー６０１に示すように、画像収集部１０３は、濃い色の領域ほど高確率で学習候補データから学習データを選択する。

なお、頭部検出器の識別境界付近（図７では点線６０２）は、識別が曖昧な領域であるため、採択率設定部１０４は、その付近のデータも学習データとして選択する確率を高くしてもよい。例えば、採択率設定部１０４は、式８に、λ₁にのみ依存し、境界（λ₁＝０）を中心とした正規分布を加えた式によって、採択率Ｐｇを設定するようにしてもよい。

次に、図３のステップＳ２０６では、画像収集部１０３は、採択率に基づいて学習候補データから学習データを選択する。図８は、図５の学習候補データから、図７の採択率を用いて選択した学習データの一例を示した図である。採択率設定部１０４は、図５の各学習候補データが持つスコアλ₁、λ₂から採択率Ｐを決定する。画像収集部１０３は、その採択率によって学習候補データを学習データとして選択する。例えば、画像収集部１０３は、スコアから採択率Ｐが０．５と算出された学習候補データは５０％の確率で学習データとして選択する。選択された学習データのｘ₁の画像が頭部検出器用の学習画像となる。
以上の方法により、採択率設定部１０４が、全ての学習候補データについて採択率を算出し、画像収集部１０３が、学習データとして選択するかの判断を行えばよい。しかし、画像収集部１０３が、採択率が高くなる領域にデータが分布した学習候補データ群から学習データを収集すると、多くのデータが学習データとして選択される。学習データをあまりに多く選択してしまうと、ラベル付けを行う作業の負荷が増加してしまう問題がある。したがって、予め学習データとして選択するデータ数の上限Ｍを定めておき、画像収集部１０３は、選択した学習データがＭに達した時点で、学習データの収集を終了するようにしてもよい。図９は、収集する学習データ数の上限をＭとした場合のステップＳ２０６での処理フローの一例を示す図である。

画像収集部１０３は、学習データを選択する際、図８に示すように頭部検出器のスコアと顔検出器のスコアとの乖離が大きい領域を中心に選択する。しかし、学習データを採択率によって選択しているため、スコアに完全に依存した選択を行っておらず、データの偏りを緩和している。また、顔が見えていなくても頭部は見えている可能性があるという頭部と顔との関係が信頼度を通じて採択率に関係していることから、図８の右下領域４０２は右上領域４０１に比べて、学習データに選択されるデータが少なくなっている。これにより、正しくスコアが算出された後ろ向きの頭部画像が、学習データとして選択される可能性を低減している。以上の処理により、複数の検出器の関係性に基づいて確率的に学習画像を選択できるようになる。画像収集部１０３は、選択した学習画像をデータ保存部１０５に保存する。

（ラベル入力処理）
本実施形態により選択される学習画像は、そのラベルが不明である。但し、図８に示すように、λ₁＞０の領域にある学習データは誤検出データ、λ₁＜０の領域にある学習データは未検出データである可能性が高い。そこで、λ₁＞０の領域から得られた学習画像に「非頭部」の推定ラベルを付け、λ₁＜０の領域から得られた学習画像に「頭部」の推定ラベルを付けてデータ保存部１０５に保存し、そのまま学習部１０７で検出器の再学習を行ってもよい。また、他にラベルを推定可能な手段があれば、その方法を利用して学習データに自動的にラベルを付与してもよい。
しかし、より正確を期すため選択後の学習画像に人手でラベルを付与することが望ましい。人手によるラベル付けは、ユーザー確認部１０６で行う。ここで、ユーザー確認部１０６は、ユーザーに提示する学習画像に上記の推定ラベルを合わせて提示するようにしてもよい。推定ラベルが誤りであった画像は、正確に頭部が検出或いは棄却できていた画像であるため、学習に加える効果は比較的薄い。したがって、ユーザー処理では推定ラベルが合っていた画像のみを学習画像として選択するようにすることで、ユーザー操作を簡便にすることができる。

また、ユーザー確認部１０６は、正事例のラベルを付与する学習画像の位置とサイズとを修正するようにしてもよい。例えば、頭部を学習するための画像データは、画像の中心に頭部が写るように位置とサイズとを正規化することが望ましい。しかし、収集される学習画像は、検出結果統合部１０２で推定した画像領域であるため、学習に最適な画像の正規化が行われていない。したがって、ユーザー確認部１０６は、正事例の学習画像について、画像の位置サイズが所定の基準に従うようにポインティングデバイス等を介した調整を受け付ける機能を有する。
図１０は、ユーザー確認部１０６のユーザーインタフェースの一例を示す図である。ユーザー確認部１０６は、図１０に示されるようなユーザーインタフェースを表示し、入力された情報を受け取る。画面８０１に、学習画像を含む画像８０２の全体と、学習画像８０３と、が表示される。ユーザーは、ユーザーインタフェースを介して表示された学習画像８０３が頭部画像であるか、非頭部画像であるかの入力を行う。ラベル入力部８０４は、この入力を受け付ける。推定ラベルを利用して、ユーザー入力の負担を低減する場合には、ユーザー確認部１０６は、その学習画像の推定ラベルに応じて、ラベル入力部８０４のデフォルト値を変更する。ユーザーは、表示された推定ラベルが画像と合致している学習画像を受け入れる指示を与える。また、図１０の学習画像８０３には、学習画像の基準位置を示すガイドラインが点線で重畳表示されている。このガイドラインの位置に学習画像の位置を合わせるために、ユーザーインタフェースは、スクロールバー８０５を備えている。

以上、実施形態１では、第一検出器の学習データを選択するために利用する第二検出器が１つの検出器（顔検出器）である場合について説明したが、第二検出器に複数の検出器を備える構成にしてもよい。第二検出器に複数の検出器を備える場合、採択率設定部１０４は、第二検出器（ｊ）のスコアに関して、第一検出器（ｉ）の対象部位についての信頼度ｆ_ijをそれぞれ設定し、式１０のように第一検出器と第二検出器の各組み合わせの採択率を足し合わせればよい。

但し、Ｐ（λ_i、λ_j）は式８或いは式９の２つの検出器から求める採択率であり、ｊ≠ｉである。また、Ａは、３つ以上の検出器の結果から算出する採択率Ｐ（λ₁、・・・λ_N）を確率の範囲にするための正規化定数である。式１０では、第一検出器ｉを固定して、第二検出器ｊを順次変更しながら、検出器の組み合わせの採択率を計算し、足し合わせることを示している。式１０では、足し合わせにより採択率を統合したが、採択率設定部１０４は、式１１のように掛け合わせることで採択率を統合してもよい。

実施形態１では、人物を検出対象物として説明したが、本実施形態の検出対象物はこれに限定することはない。他の検出対象物でも、部位に対象を分割して検出を行う場合には、本実施形態を適用することができる。

＜実施形態２＞
実施形態１では、映像情報処理装置１００は、採択率を第一検出器の対象部位に対する各検出器の信頼度に基づいて設定した。スコアに対する採択率は、検出器の再学習を行わない限り変化しないため、映像情報処理装置１００は、学習データを収集する前に予め算出し、ＬＵＴの形式で保存して、ステップＳ２０５で必要に応じて呼び出して利用することができる。
しかし、他の要因を考慮して、映像情報処理装置１００は、採択率を動的に変化させるようにしてもよい。実施形態２では、実施形態１に加えて、映像情報処理装置１００が、学習候補画像の位置に基づいて採択率を動的に変化させる場合について説明する。
実施形態１で説明したように、本実施形態では複数の検出器の結果を統合する。このとき、式２で示すような検出器の位置ずれに対するペナルティコストを利用した。実施形態２では、採択率を設定する場合にも、学習候補画像の基準位置からのずれに応じて採択率を補正する例を説明する。位置ずれを基に採択率を補正する方法として、採択率設定部１０４は、式１２のように第一検出器の基準位置ｐｉと第一検出器の学習候補データの位置ｘ_i（即ち、学習候補画像の位置）との位置ずれ、及び第一検出器のスコアλ_iから式１０の採択率を補正する。

γは係数で、補正項により０≦Ｐ≦１の範囲を超えないようにする。基準位置から離れた画像領域は、対象部位の画像でない可能性が高いと考えることができる。したがって、スコアλ_iが正の場合、基準位置から離れた画像領域は誤検出画像である可能性が高いため、式１２では、採択率Ｐが位置ずれの距離に応じて上昇する。一方、スコアλ_iが負の場合には、対象部位ではないと想定される基準位置から離れた画像領域に対して低スコアを算出しており、正しい結果と予測されるため、採択率は距離に応じて減少する。補正項は、式１２に限らず、基準位置ｐ_iと学習候補データの位置ｘ_iが離れるほど採択率への寄与が大きくなるようにすればよい。

＜実施形態３＞
採択率には、学習候補画像の位置のみではなく、他の要因による補正を加えてもよい。例えば、固定カメラで長時間撮影した映像から学習画像を収集するような場合、連続したフレームの画像や同時刻の画像、背景の同じ場所からの画像が重複して学習画像として選択されることを避けたい。上述した実施形態では、採択率を基に学習画像を選択しているため、同様の画像が重複して得られることを避けているが、映像情報処理装置１００は、更に、時刻や画像位置による採択率の補正を明示的に行ってもよい。
連続したフレームや時間帯の画像が学習データに含まれることを避けるためには、採択率設定部１０４は、選択済みの学習データの時刻と重複する学習候補データの採択率が低下するように、採択率に補正項を加えればよい。選択済みの学習データについて、学習データを取得した時刻をｔ_mとし（ｍは学習データの番号）、学習候補データを取得した時刻をｔとすると、式１０に補正項を加えた採択率は、例えば式１３のようになる。

γは補正項の係数、Ｍはそれまでに選択した学習データ数である。式１３は、ガウス関数により、選択対象の学習候補データの時刻が、それまでに得た学習データの時刻と近いほど採択率を低下させるように定義されている。

また、背景の同じ場所からの画像が重複して学習データに含まれることを避けるためには、採択率設定部１０４は、選択済みの学習データの画像中の位置と重複する学習候補データの採択率が低下するように、採択率に補正項を加えればよい。選択済みの学習データについて、学習データを取得した画像位置をｘ_mとし（ｍは学習データの番号）、学習候補データの画像中の位置（第一検出器の位置の学習候補データの位置）をｘｉとすると、式１３と同様に、補正項を加えた採択率は式１４のようになる。

式１３、１４の補正項は同時に用いてもよい。また、式１２で与えた基準位置に対する学習候補データの位置ずれを更に加えた補正項としてもよい。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

以上、上述した各実施形態によれば、内容の偏りが少なく、学習に効果的な画像データを収集することができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
また、上述した実施形態を任意に組み合わせて実施してもよい。

１０制御装置
１１記憶装置
１２通信装置
１００映像情報処理装置

Claims

画像から検出対象とする画像領域を検出する複数の検出器と、
前記複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と該画像領域の対象物らしさのスコアとの組を出力する統合手段と、
学習データの採択率を設定する設定手段と、
前記スコアと前記設定手段で設定された採択率とに基づいて、前記画像領域と前記スコアとの組から学習データを選択する選択手段と、
を有する情報処理装置。
前記複数の検出器は、画像から各々異なる検出対象とする画像領域を検出する請求項１記載の情報処理装置。
前記設定手段は、前記複数の検出器の信頼度から学習データの採択率を設定する請求項１又は２記載の情報処理装置。
前記設定手段は、前記複数の検出器から学習データを収集する対象とする第一検出器と他の検出器である第二検出器とを設定し、第一検出器のスコアと第二検出器のスコアとに対して、第一検出器が検出対象とする画像領域が存在する信頼度をそれぞれ求め、求めた信頼度から学習データの採択率を設定する請求項３記載の情報処理装置。
前記設定手段は、前記学習画像の候補となる画像領域の基準位置からのずれに応じて前記採択率が上昇するように補正する請求項４記載の情報処理装置。
前記設定手段は、前記選択手段で選択された選択済みの学習データの時刻と重複する学習データの採択率が低下するように前記採択率を補正する請求項４記載の情報処理装置。
前記設定手段は、前記選択手段で選択された選択済みの学習データの位置と重複する学習データの採択率が低下するように前記採択率を補正する請求項４記載の情報処理装置。
前記学習データを利用して検出器の再学習を行う学習手段を更に有する請求項１乃至６何れか１項記載の情報処理装置。
画像から検出対象とする画像領域を検出する複数の検出器を有する情報処理装置が実行する情報処理方法であって、
前記複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と該画像領域の対象物らしさのスコアとの組を出力する統合ステップと、
学習データの採択率を設定する設定ステップと、
前記スコアと前記設定ステップで設定された採択率とに基づいて、前記画像領域と前記スコアとの組から学習データを選択する選択ステップと、
を含む情報処理方法。
画像から検出対象とする画像領域を検出する複数の検出器を有するコンピュータに、
前記複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と該画像領域の対象物らしさのスコアとの組を出力する統合ステップと、
学習データの採択率を設定する設定ステップと、
前記スコアと前記設定ステップで設定された採択率とに基づいて、前記画像領域と前記スコアとの組から学習データを選択する選択ステップと、
を実行させるプログラム。