JP2015215741A

JP2015215741A - 被写体検出装置、被写体検出方法及びプログラム

Info

Publication number: JP2015215741A
Application number: JP2014097871A
Authority: JP
Inventors: 山本　貴久; Takahisa Yamamoto; 貴久山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-05-09
Filing date: 2014-05-09
Publication date: 2015-12-03
Also published as: US9576372B2; US20150324995A1

Abstract

【課題】アプリケーションにとって有用な被写体の検出結果を得ることができるようにする。【解決手段】指定条件決定部１０４は、入力されたアプリケーション情報を基に、主被写体の検出結果として採用しない領域（不適当領域）の条件を指定する。そして、不適当領域特定部１０５は、入力された不適当領域条件に従って不適当領域を特定する。最終領域特定部１０６は、候補領域特定部１０３から出力された顕著主被写体候補領域と、不適当領域特定部１０５から出力された不適当領域とから、最終的な主被写体領域を特定する。【選択図】図１

Description

本発明は、特に、アプリケーションに有用な主被写体を検出するために用いて好適な被写体検出装置、被写体検出方法及びプログラムに関する。

一般に、写真等の画像において、主被写体とは、撮影者が画像内に取り込みたいと意図するオブジェクト（人物、物体等）である。しかしながら、撮影者の意図は、撮影者自身にしか知りえないため、第三者が主被写体を特定するためには、撮影者の意図を推定することが必要になり、撮影者の意図と一致する主被写体を正確に検出することは非常に困難である。

以上のことから、従来は撮影者の意図を推定せずに主被写体を検出する手法として、画像中の顕著領域に基づいて画像中から主被写体を検出する手法が検討されている。これらの手法は、多くの画像において主被写体は顕著であるという経験に基づいた主被写体の検出といえる。

以上のように、主被写体を検出する方法として、画像中の顕著領域に基づいて画像中から主被写体を検出する手法が検討されているが、これらの方法には、以下のような課題がある。

まず、顕著領域を基に主被写体領域を特定する場合には、顕著であっても主被写体でない領域をどのように扱うかという問題がある。前述したように、撮影者が意図する主被写体は撮影者にしかわからないので、主被写体でない領域も撮影者にしかわからない。そこで、顕著具合だけでなく、画像中の位置やサイズ、或いはその顕著領域に何があるのかといった情報を加味して主被写体領域を決定する手法も開示されている（例えば特許文献１参照）。

特開２０００−２０７５６４号公報特開２０１１−３４３１１号公報

一般的に主被写体を検出する目的は、その検出結果を利用して特定のアプリケーションを実現することである場合が多い。例えば、主被写体を検出する機能をデジタルカメラ等で用いることを想定した場合には、次のようなアプリケーションが考えられる。すなわち、主被写体領域にオートフォーカス（ＡＦ）を調節することにより、撮影者の意図を汲んだ写真撮影を可能することが考えられる。或いは、主被写体領域に対して自動追尾を行うことにより、主被写体が移動してもシャッターチャンスを失わないようにする等のアプリケーションが想定できる。

しかしながら、従来技術では、このようなアプリケーションの有用性という観点で主被写体の検出結果を評価するといったことは考慮されていない。さらに、特許文献１に記載の手法の場合は、顕著であっても主被写体でない領域を誤って主被写体として誤検出してしまう可能性もある。

本発明は前述の問題点に鑑み、アプリケーションにとって有用な被写体の検出結果を得ることができるようにすることを目的としている。

本発明の被写体検出装置は、入力画像から被写体の候補領域を特定する特定手段と、前記被写体の情報を用いるアプリケーションに応じて、前記被写体の候補領域から除外すべき条件を決定する決定手段と、前記決定手段によって決定された条件に基づいて、前記入力画像において前記被写体の候補領域として除外すべき領域を設定する設定手段と、前記特定手段によって特定された候補領域と、前記設定手段によって設定された領域とに基づいて、前記被写体の領域を検出する検出手段と、を有することを特徴とする。

本発明によれば、アプリケーションにとって有用な被写体の検出結果を得ることができる。

第１の実施形態に係る主被写体検出装置の機能構成例を示すブロック図である。実施形態に係る顕著領域検出部の詳細な構成例を示すブロック図である。入力画像及びスキャンウインドウの例を示す図である。入力画像を所定のサイズでタイル状に分割した例を示す図である。第１の実施形態における主被写体領域を検出する処理手順の一例を示すフローチャートである。第２の実施形態における主被写体領域を検出する処理手順の一例を示すフローチャートである。第３の実施形態に係る主被写体検出装置の機能構成例を示すブロック図である。主被写体検出装置内による処理結果を模式的に示した図である。

（第１の実施形態）
以下、本発明の第１の実施形態について説明する。本実施形態では、主被写体の誤検出を低減し、特に、主被写体の検出結果を利用するアプリケーションにとって有用でない主被写体の検出結果を採用しないようにする。また、本実施形態では、主被写体の検出装置をデジタルカメラに採用し、撮影者が写真を撮ろうとする際に主被写体の検出が行われる例について説明する。

図１は、本実施形態に係る主被写体検出装置１００の機能構成例を示すブロック図である。
図１において、主被写体検出装置１００には、主被写体を検出する対象となる入力画像及び後述するモード情報が入力される。また、主被写体検出装置１００から、主被写体の検出結果である最終主被写体領域の情報が出力される。さらに、アプリケーション設定部１０１から、主被写体検出装置１００の出力結果を用いて実現したいアプリケーションに関する情報が入力される。

図８は、本実施形態に係る主被写体検出装置１００内による処理結果を模式的に示した図である。以下、図８を参照しながら、図１に示す各ブロックの処理について説明する。

アプリケーション設定部１０１は、主被写体の検出結果を用いて実現したいアプリケーションを設定し、設定したアプリケーションに関する情報を指定条件決定部１０４に出力する。主被写体の検出結果を用いて実現したいアプリケーションの例としては、オートフォーカス（ＡＦ）、自動露出（ＡＥ）、自動追尾等が想定される。ＡＦ及びＡＥの場合には、主被写体の検出結果で特定された主被写体の位置に対してＡＦやＡＥを調節することにより、撮影者の意図を汲んだ写真撮影を可能にする。また、主被写体領域に対して自動追尾を行うことにより、主被写体が移動してもシャッターチャンスを失わないようにすることができる。

ここで、主被写体の検出結果を用いて実現するアプリケーションに応じて、検出したい主被写体の特徴が異なることもある。つまり、撮影者の意図を正確に反映した主被写体の検出結果が得られた場合であっても、アプリケーションによってはその検出結果が不向きである場合もある。例えば、ＡＦの場合には、極めてコントラストの小さい領域が主被写体と検出されたとしても、その領域にＡＦを合わせることは非常に困難であり、ＡＦというアプリケーションにとっては、その検出結果は不適切であるといえる。

以上のことから、撮影者の意図しない主被写体を検出してしまうという誤検出を低減する一方で、主被写体の検出結果を利用するアプリケーションにとって有用でない主被写体の検出結果を得ないようにすることも重要である。つまり、主被写体の検出結果を利用するアプリケーションにとって有用な主被写体の検出結果を得ることが重要であるといえる。

また、主被写体の検出結果を利用するアプリケーションにとっての有用性を考慮する必要があるというのは、主被写体というものが撮影者の意図なしでは、本来的には定義できないものであることにも起因している。このことをわかりやすく説明するために、一般的な検出対象である顔検出と比較する。

画像中の顔は、目、口、鼻等の器官の特徴、及びそれらの配置関係から定義することが可能である。顔検出では、このような器官の特徴や配置関係を含む情報を用いて、画像中から顔の位置やサイズを特定している。したがって、顔検出を用いるアプリケーションにとっても、事前に顔検出結果の特徴を想定することが可能である。つまり、アプリケーションにおいて、顔検出において得られる顔検出結果の領域は所定の特徴をもつ器官が所定の配置関係で存在する領域であると想定できる。よって、この想定を基にして、アプリケーションにとって顔検出結果の有用性を事前に判断することができる。

例えば、顔検出結果にＡＦを合わせるとした場合には、顔検出結果として想定される特徴を鑑みれば、ＡＦするのに十分なコントラストがあるか否かは、顔検出する前に判断できる。したがって例えば、顔検出結果として想定される特徴が、ＡＦするのに十分なコントラストであると判断されれば、画像によらず、常に顔検出結果はＡＦにとって有用であるといえる。

これに対して、主被写体を検出する場合には、前述のように画像から主被写体を正確に定義することはできない。したがって、検出結果の領域がどのような特徴を持っているのかを事前に想定しておくことができない。例えば、ＡＦのアプリケーションの場合、主被写体の検出結果がＡＦにとって有用であるか否かを事前に判断することはできない。つまり、検出対象の画像に依存して、ＡＦにとって有用である場合もあれば、有用でない場合もあるということになる。したがって、主被写体検出の場合には、主被写体の検出結果を用いて実現しようとしているアプリケーションにとって、検出結果が有用か否かを考慮するということがアプリケーションを成立させるうえで極めて重要であるといえる。そこで、本実施形態では、以下のような手法により、有用なアプリケーションの情報を得る。

アプリケーション設定部１０１におけるアプリケーションの設定方法としては、デジタルカメラに設定されている撮影モード等のモード情報を入力して設定する等が考えられる。例えば、オートフォーカスモードではアプリケーション設定部１０１は、ＡＦをアプリケーション情報として出力する。また、自動追尾モードの場合には、自動追尾をアプリケーション情報として出力する等が考えられる。なお、撮影者自身により不図示の操作部が操作され、手動によりアプリケーション情報を決定できるようにしてもよい。

顕著領域検出部１０２は、入力される入力画像に対して、その画像中の顕著領域を検出する処理を行う。ここで、顕著領域検出部１０２における詳細な構成について図２を参照しながら説明する。

図２は、顕著領域検出部１０２の詳細な構成例を示すブロック図である。
図２において、部分画像切り出し部２０２は、入力画像に対してスキャンウインドウを走査させ、あるスキャン位置において切り出した部分画像をデータ群間距離算出部２０３に出力する。

図３は、入力画像及びスキャンウインドウの例を示す図である。図３に示すように、入力画像３０１における矢印方向に、スキャンウインドウ３０２をスキャンさせ、それぞれのスキャン位置で入力画像を切り出してデータ群間距離算出部２０３に出力する。本実施形態では、それぞれのスキャン位置において、スキャンウインドウ３０２の外周側の領域（ドーナツ形状の領域）にある画像を第一のデータ群として出力する。また、スキャンウインドウ３０２の内部領域（円形状の領域）にある画像を第二のデータ群として出力する。したがって、スキャンウインドウ３０２のスキャン位置を移動させるたびに、データ群間距離算出部２０３に対して、２つのデータ群が出力されることになる。

データ群間距離算出部２０３は、入力される２つのデータ群間の距離値を算出する。スキャンウインドウを移動させるたびに部分画像切り出し部２０２からデータが出力されるため、データ群間距離算出部２０３は、そのたびに距離値を算出して顕著度マップ作成部２０４に出力する。データ群間の距離の算出手法については特に限定されず、公知の手法を用いればよい。例えば、入力される２つのデータ群に対して、それぞれヒストグラムを作成し、両ヒストグラムに対してビンごとに差分絶対値和を算出するような方法でもよい。

顕著度マップ作成部２０４は、データ群間距離算出部２０３から入力される距離値をマップ化する。つまり、スキャン位置ごとに距離値が算出されるので、入力画像中のスキャン位置に相当する位置に距離値をマップ化する。このようにして、算出された距離値を顕著度とみなし、画像化したデータ（顕著度マップ）を作成する。図８（ａ）には、顕著度マップ作成部２０４によって作成される顕著度マップを模式的に示している。顕著度マップ８０１では、顕著度の大小をマップ中の等高線で表している。

顕著領域抽出部２０５は、入力された顕著度マップに対して、所定の閾値による２値化処理を行い、閾値を超えた距離値（顕著度）をもつ領域の重心座標、面積、面積当たりの顕著度等を顕著領域情報として出力する。図８（ｂ）には、顕著領域抽出部２０５により抽出された顕著領域情報８０２の一例を示している。領域８１１〜８１４は、顕著度マップ８０１を閾値処理した結果として閾値を超えて残存した顕著領域を示している。これらの顕著領域が、顕著領域抽出部２０５により抽出される。

図１の説明に戻り、候補領域特定部１０３は、顕著領域検出部１０２から出力される顕著領域情報を用いて、顕著度に基づいた主被写体候補領域を特定する。例えば、候補領域特定部１０３では、顕著領域検出部１０２から出力される顕著領域情報を構成する要素（領域の重心座標、面積、面積当たりの顕著度等）に対して、重み付き加算処理を行ってスコアを算出し、スコアの大きいものを主被写体の候補領域とする。このような処理により、顕著度に加えて画像中の位置や大きさも考慮して主被写体の候補領域を特定することが可能となる。そして、このようにして特定した主被写体の候補領域を顕著主被写体候補領域として最終領域特定部１０６に出力する。図８（ｃ）の画像８０３には、候補領域特定部１０３により特定された領域群を示している。図８（ｂ）に示す領域８１１〜８１４のうち、領域８１４以外の領域が顕著主被写体候補領域８２１〜８２３とされている。

指定条件決定部１０４には、アプリケーション設定部１０１から、アプリケーション情報が入力される。そして、指定条件決定部１０４は、入力されたアプリケーション情報を基に、主被写体の検出結果として採用しない領域（不適当領域）の条件を指定する。

ここで、どのようなアプリケーション情報が入力されると、どの領域を不適当領域とするかについては予め設定されている。例えば、主被写体の検出結果を用いるアプリケーションとしてＡＦが設定されている場合には、アプリケーション情報としてＡＦが指定条件決定部１０４に入力される。ＡＦを実現する手法としてコントラスト検出式を採用している場合には、コントラストが弱い領域に対しては、ＡＦが不安定になる場合がある。したがって、「低コントラスト」という条件を不適当領域条件として指定する。

また、例えば、主被写体の検出結果を用いるアプリケーションとして自動追尾が設定されている場合には、アプリケーション情報として自動追尾が、指定条件決定部１０４に入力される。この場合、撮影しようとしている画像が風景画像であった場合には、自動追尾する対象となる動きのある主被写体がない場合が多い。したがって、「風景画像」という条件を不適当領域条件として指定する。また、風景画像以外でも画像全体に壁を撮影するような場合など、画像全体に同一のテクスチャが存在するような場合も自動追尾の対象となる動きのある主被写体がない場合が多い。したがって、「画像全体同一テクスチャ」という条件を不適当領域条件として指定する。以上のように指定条件決定部１０４には、アプリケーション情報に対応する不適当領域条件が予め設定されており、入力されるアプリケーション情報に対応した不適当領域条件を出力する。

不適当領域特定部１０５には、指定条件決定部１０４から出力された不適当領域条件が入力される。そして、不適当領域特定部１０５は、入力された不適当領域条件に従って不適当領域を特定する。図８（ｄ）の画像８０４には、不適当領域８１０が設定された例を示しており、不適当領域特定部１０５により、不適当領域８１０が特定された例を示している。

例えば、不適当領域条件として「低コントラスト」という条件が入力された場合には、入力画像中から低コントラスト領域を検出する。低コントラスト領域の検出手法は特に限定されないが、例えば、ある大きさのスキャンウインドウを画像中で走査し、画像中の各スキャン位置において、そのスキャンウインドウ中のエッジ量（ウインドウ内のエッジ積分値）を算出する。そして、このエッジ積分値が所定値よりも小さい領域を低コントラスト領域としてもよい。このように特定された低コントラスト領域が不適当領域として出力される。

また、例えば、不適当領域条件として「風景画像」という条件が入力された場合には、入力画像が風景画像であるか否かを判定する。風景画像の判定方法についても特に限定されないが、一例として、代表的な風景画像である地平線（水平線）画像の判定手法を用いる。

図４は、入力画像を所定のサイズでタイル状に分割した例を示す図である。図４において、斜線によるハッチング領域４０１は地面領域を表し、ハッチングなし領域４０２は空領域を表しているものとする。地平線（水平線）画像の場合、水平に近い線で地上（海）領域と空領域とに分断されるので、水平方向に並んだタイル間では色や輝度が似ており、垂直方向に並んだタイル間では色や輝度が異なった組み合わせが存在することが予想される。このことを用いて地平線（水平線）画像を判定する。

具体的には、タイル内の輝度平均値やＲＧＢ平均値を算出し、所定のタイル同士の組み合わせに対して、平均値を比較する。例えば、図４に示すように、タイルＡとタイルＢ、タイルＡとタイルＣ、タイルＢとタイルＤ、及びタイルＣとタイルＤという組み合わせでそれぞれ比較する。地平線（水平線）画像である場合には、タイルＡとタイルＢとの比較、或いはタイルＣとタイルＤとの比較では平均値の差異は小さく、タイルＡとタイルＣとの比較、或いはタイルＢとタイルＤとの比較では平均値の差異は大きくなる。このようなタイル対の比較を多数のタイル対に対して行い、地平線（水平線）画像を判定する。

同様に、例えば、不適当領域条件として「画像全体同一テクスチャ」という条件が入力された場合には、入力画像全体が同一テクスチャであるか否かを判定する。同一テクスチャの判定方法については特に限定されないが、地平線（水平線）画像の判定と同様に、タイルに分割して所定のタイル対間で、タイル内の輝度平均値やＲＧＢ平均値を比較する方法が考えられる。また、全体同一テクスチャの場合には、どのタイル対で比較しても差異は小さくなると予想される。このようなタイル対の比較を多数のタイル対に対して行って、画像全体が同一テクスチャの画像であるか否かを判定する。

地平線（水平線）や、同一テクスチャの判定のように、画像全体を用いて不適当領域を判定するような場合は、画像全体を不適当領域とするか否かに関する情報が不適当領域として出力される。つまり、入力画像が地平線（水平線）画像、或いは同一テクスチャの画像と判定された場合には、この画像全体が不適当領域であるとする。また、入力画像が地平線（水平線）画像でもなく、同一テクスチャの画像でもないと判定された場合には、画像中に不適当領域はなしとする。

最終領域特定部１０６は、候補領域特定部１０３から出力された顕著主被写体候補領域と、不適当領域特定部１０５から出力された不適当領域とから、最終的な主被写体領域を特定する。つまり、顕著主被写体候補領域であって、不適当領域とされていない領域を最終主被写体領域として出力する。図８（ｅ）には、画像８０５内で特定された最終主被写体領域８３１を示している。最終領域特定部１０６は、入力される顕著主被写体候補領域８２１〜８２３と、不適当領域８１０とから、最終主被写体領域８３１を特定する。図８に示す例では、顕著主被写体候補領域８２２、８２３は、不適当領域８１０に包含されているため、最終的な主被写体領域から除外されている。

以上のように構成される主被写体検出装置１００により、主被写体検出結果を利用するアプリケーションにとって有用な情報を出力することができる。

図５は、本実施形態における主被写体領域を検出する処理手順の一例を示すフローチャートである。
まず、Ｓ５０１において、アプリケーション設定部１０１は、外部からモード情報を入力し、主被写体検出結果を用いて実現したいアプリケーションを設定する。そして、設定されたアプリケーションをアプリケーション情報として、指定条件決定部１０４に出力する。

続いて、Ｓ５０２において、指定条件決定部１０４は、入力されたアプリケーション情報に従って、主被写体検出結果として採用しない領域（不適当領域）の条件を選択する。そして、選択結果を不適当領域条件として不適当領域特定部１０５に出力する。続いて、Ｓ５０３において、入力画像が主被写体検出装置１００に入力されるまで待機する。

入力画像が主被写体検出装置１００に入力されると、Ｓ５０４において、顕著領域検出部１０２は、入力画像に対して顕著領域情報を生成する。そして、候補領域特定部１０３は、顕著領域情報に基づいて主被写体の候補領域を特定し、顕著主被写体候補領域として最終領域特定部１０６に出力する。さらにＳ５０５においては、不適当領域特定部１０５は、入力される不適当領域条件に従って、不適当領域を特定する。なお、Ｓ５０４及びＳ５０５の処理は互いに独立な処理であるため、どちらの処理を先に行ってもよく、並行して行ってもよい。

続いてＳ５０６において、最終領域特定部１０６は、入力される顕著主被写体候補領域と不適当領域とから、最終的な主被写体領域を特定する。

以上のように本実施形態によれば、不適当領域を除去しつつ、顕著度に基づいた主被写体検出を実現することができる。つまり、主被写体の検出結果を用いて実現しようとしているアプリケーションにとって有用でない領域を除去することが可能となる。したがって、アプリケーションを実現するのに役立つ主被写体検出結果を出力しやすくすることができる。

（第２の実施形態）
本実施形態では、主被写体検出結果を利用して実現したいアプリケーションが複数ある場合に、アプリケーションを切り替えながら、或いは同時に複数のアプリケーションに対して、主被写体領域を検出する場合について述べる。まず、アプリケーションが複数ある場合に、アプリケーションを切り替えながら、主被写体領域を検出する場合について説明する。なお、本実施形態に係る主被写体検出装置の構成については図１と同様であるため、説明は省略する。

図６は、本実施形態における主被写体を検出する処理手順の一例を示すフローチャートである。図６において、図５と重複する処理については図５と同じステップ番号が付されており、ここでの説明は省略する。

Ｓ５０６で最終的な主被写体領域が検出されると、Ｓ６０１において、アプリケーション設定部１０１は、主被写体検出結果を利用するアプリケーションが変更されたか否かを判定する。この判定の結果、アプリケーションが変更された場合には、Ｓ５０１に戻り、アプリケーション設定部１０１は、変更されたアプリケーションを設定する。そして、設定されたアプリケーションをアプリケーション情報として、指定条件決定部１０４に出力する。

このようにすることにより、アプリケーションが複数ある場合に、アプリケーションを切り替えながら主被写体を検出することができる。例えば、当初、主被写体の検出結果を用いるアプリケーションとしてＡＦが設定されている場合には、アプリケーション情報としてＡＦが、アプリケーション設定部１０１から出力される。その後、アプリケーションが自動追尾に変更になった場合には、自動追尾がアプリケーション情報として出力される。さらに、それに応じて指定条件決定部１０４が出力する不適当領域条件も、当初はＡＦに対応した「低コントラスト」から、自動追尾に対応した「風景」（或いは「画像全体同一テクスチャ」）に変更される。

以上のように、複数のアプリケーションのそれぞれで不適当領域指定条件が異なるような場合でも、不適当領域指定条件を切り替えながら主被写体を検出できるため、それぞれのアプリケーションに対して有用な主被写体の検出結果を得ることができる。

続いて、主被写体の検出結果を用いて、同時に複数のアプリケーションを実現するような場合に関して説明する。例えば、主被写体の検出結果である領域に対して、ＡＦを調節しながら自動追尾をするような場合を考える。この場合の処理手順は図５に示したフローチャートの手順と同様になる。このような場合には、アプリケーション設定部１０１は、例えばＡＦ及び自動追尾というように同時に実現したい複数のアプリケーションを設定する。アプリケーション情報としては、複数のアプリケーション情報が出力される。

複数のアプリケーション情報に応じて指定条件決定部１０４が出力する不適当領域条件も、それぞれのアプリケーション情報に対応したものになる。例えば、ＡＦに対応した「低コントラスト」と、自動追尾に対応した「風景」（或いは「画像全体同一テクスチャ」）との２つの不適当領域条件が出力される。そして、不適当領域特定部１０５は、複数の不適当領域条件それぞれに対して不適当領域を特定し、不適当領域条件に対応した不適当領域がそれぞれ出力される。このとき、複数の不適当領域条件に対応した複数の不適当領域がマージされたような不適当領域が出力されるようにしてもよい。

最終領域特定部１０６は、入力される顕著主被写体候補領域と、複数の不適当領域とから、最終的な主被写体領域を特定する。この場合には、主被写体の検出結果を用いて同時に複数のアプリケーションを実現させるため、顕著主被写体候補領域であって、複数の不適当領域のいずれにも属さない領域を最終的な主被写体領域として出力する。

（第３の実施形態）
本実施形態では、第１及び第２の実施形態とは異なる手法により最終的な主被写体領域を決定する例について説明する。

第１及び第２の実施形態では、顕著主被写体候補領域であって、不適当領域に属さない領域を最終的な主被写体領域としていた。つまり、候補領域特定部１０３で特定された顕著主被写体候補領域の信頼度を暗黙に１００％とし、同様に不適当領域特定部１０５で特定された不適当領域の信頼度も暗黙に１００％として、最終的な主被写体領域を判定していた。これに対し本実施形態では、顕著主被写体候補領域の信頼度、並びに不適当領域の信頼度を算出し、これらの信頼度を基に、最終的な主被写体領域を判定する手法について説明する。

図７は、本実施形態に係る主被写体検出装置７００の機能構成例を示すブロック図である。なお、図７において、図１と同じ符号が付されている構成については図１と同様であるため、説明は省略する。図７において、主被写体検出装置７００へ入力される情報は図１の主被写体検出装置１００の場合と同じであるが、出力される情報は、最終的な主被写体領域及びその信頼度（以下、最終スコアと呼ぶ）である。

候補領域特定部７０３は、顕著領域検出部１０２から出力される顕著領域情報を用いて顕著度に基づいた主被写体候補領域を特定するとともに、その特定結果の信頼度（以下、候補スコアと呼ぶ）を算出する。

本実施形態では、顕著度に基づいた主被写体候補領域（顕著主被写体候補領域）を特定するために機械学習を用いる。すなわち、正解主被写体領域が示された多数の学習用画像を用意し、学習画像に対して顕著領域検出部１０２の処理を行い、顕著領域情報（閾値を超えた顕著度をもつ領域の重心座標、面積、面積当たりの顕著度等）を算出する。この顕著領域情報の要素を列挙したものを特徴ベクトルとし、この顕著領域が正解主被写体領域と概ね一致しているものを正事例、顕著領域が正解主被写体領域と概ね一致していないものを負事例として学習させる。学習手法は特に問わないが、Support Vector Machine（ＳＶＭ）やロジスティック回帰等の既知の技術を用いればよい。そして、機械学習の結果としては、顕著主被写体候補領域を特定するための識別器が算出される。なお、主被写体検出が開始される前に機械学習を行い、識別器を用意しておくものとする。

上述のように、機械学習により顕著主被写体候補領域を特定する場合には、正解主被写体領域が示された多数の学習画像が必要となる。ただし、前述したように、本来、正解主被写体領域というのは、画像の撮影者にしかわからない領域である。全ての学習画像に対して、その撮影者に正解主被写体領域を確認してもらうのは困難な場合が多い。そこで、撮影者以外の多数の人に、主被写体領域を推定してもらい、その多数決結果を正解主被写体領域とするような手法をとればよい。また、この正解主被写体領域は、主被写体検出を用いて実現したいアプリケーションとは独立に設定された領域になる。

次に、候補領域特定部７０３により、機械学習結果を用いて顕著主被写体候補領域を特定する方法、並びに候補スコアを算出する方法に関して説明する。顕著主被写体候補領域を特定したい画像の顕著領域情報が入力されると、顕著領域情報を特徴量として、予め用意されている識別器に投入する。そして、投入して得られる識別結果から顕著主被写体候補領域を特定する。また、識別結果を得るための中間値（閾値処理をして正負のクラス分けをする値）を候補スコアとする。具体的な中間値としては、例えば機械学習にＳＶＭを用いる場合には、学習で得られる分離超平面から特徴ベクトルまでの距離を候補スコアとすればよい。また、機械学習にロジスティック回帰を用いる場合には、ロジスティック関数からの出力値を候補スコアとすればよい。

候補領域特定部７０３では、このようにして特定した顕著主被写体候補領域とその候補スコアとを最終領域特定部７０６に出力する。例えば、候補領域特定部７０３により特定された領域が、図８（ｃ）に示すような領域であった場合には、特定された顕著主被写体候補領域８２１〜８２３のそれぞれに対して、候補スコアが対となって出力される。

不適当領域特定部７０５は、指定条件決定部１０４から出力された不適当領域条件に従って、不適当領域を特定するとともに、その特定結果の信頼度（以下、不適当スコアと呼ぶ）を算出する。例えば、不適当領域条件として「低コントラスト」という条件が入力された場合には、エッジ積分値が所定値よりも小さい領域を低コントラスト領域とするとともに、エッジ積分値の逆数を不適当スコアとして出力することが考えられる。不適当スコアとしてエッジ積分値の逆数するとのは、エッジ積分値が小さい領域の方が低コントラスト領域（不適当スコアが高い領域）であるためである。

また、候補領域特定部７０３の場合と同様に、機械学習を用いて、不適当領域を特定したり、不適当スコアを算出したりしてもよい。例えば不適当領域条件として「風景画像」という条件が入力された場合には、所定のタイル同士の組み合わせを特徴量として、学習させ識別器を準備しておくようにしてもよい。機械学習を用いる場合には、候補領域特定部７０３の場合と同様に、識別結果から不適当領域を特定する。また、識別結果を得るための中間値（閾値処理をして正負のクラス分けをする値）を不適当スコアとする。不適当領域特定部７０５では、このようにして特定した不適当領域とその不適当スコアとを出力する。例えば、不適当領域特定部７０５により特定された領域が、図８（ｄ）に示すような例である場合は、特定された不適当領域８１０に対して、不適当スコアが対となって出力される。

最終領域特定部７０６は、候補領域特定部７０３から入力される顕著主被写体候補領域及び候補スコア、並びに不適当領域特定部７０５から入力される不適当領域及び不適当スコアから、最終的な主被写体領域を特定する。第１の実施形態では、顕著主被写体候補領域であって、不適当領域とされていない領域を最終主被写体領域とした。つまり、全ての顕著主被写体候補領域は同一に扱われ、同様に全ての不適当領域も同一に扱われていた。

これに対して本実施形態では、候補スコア及び不適当スコアも考慮するため、同じ顕著主被写体候補領域でも、より主被写体候補として信頼できる領域と、そうでない領域とにレベル分けすることができる。したがって、顕著主被写体候補領域であって、不適当領域とされていない領域であっても、候補スコアが小さく、不適当スコアがある程度大きい場合には、最終主被写体領域とはしない等と判断することができる。同様に、不適当領域とされている領域であっても、候補スコアが大きい顕著主被写体候補領域であれば、最終主被写体領域とする、等の判断もできる。

さらに、最終領域特定部７０６は、最終主被写体領域に対する信頼度（最終スコア）を算出する。最終スコアは、例えば、入力される候補スコアから不適当スコアを引いた値とする。このように最終スコアを算出することにより、候補スコアが高く、かつ不適当スコアが小さい領域が、最終スコアが高くなり、信頼度として合理的である。

以上のように本実施形態の主被写体検出装置７００では、候補スコア及び不適当スコアを用いることにより、最終主被写体領域をより柔軟に判定することができる。また、最終主被写体領域とともに最終スコアを出力することにより、主被写体検出結果を利用するアプリケーションもより柔軟に実現することができる。つまり、アプリケーションでは、最終スコアを参考にしながら最終主被写体領域の結果を用いることができる。したがって、誤検出をできるだけ回避したいようなアプリケーションでは、最終スコアが所定値よりも高い結果のみを用いるといった運用が可能となる。

なお、本実施形態で示した信頼度の算出方法は一例であり、顕著主被写体らしさ、或いは不適当領域らしさを表現するような値であれば、算出方法については特に限定されない。また、主被写体検出の用途として、デジタルカメラで用いられる場合について説明したが、それに限定されるものではない。また、顕著度算出手法は、２領域で得られるデータ群に対して、それぞれヒストグラムを作成し、両ヒストグラムに対してビンごとに差分絶対値和を算出するような方法を例示したが、この方法に限定されるものではない。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１０３候補領域特定部
１０４指定条件決定部
１０５不適当領域特定部
１０６最終領域特定部

Claims

入力画像から被写体の候補領域を特定する特定手段と、
前記被写体の情報を用いるアプリケーションに応じて、前記被写体の候補領域から除外すべき条件を決定する決定手段と、
前記決定手段によって決定された条件に基づいて、前記入力画像において前記被写体の候補領域として除外すべき領域を設定する設定手段と、
前記特定手段によって特定された候補領域と、前記設定手段によって設定された領域とに基づいて、前記被写体の領域を検出する検出手段と、
を有することを特徴とする被写体検出装置。
前記検出手段は、前記特定手段によって特定された候補領域から、前記設定手段によって設定された領域を除外することによって、前記被写体の領域を検出することを特徴とする請求項１に記載の被写体検出装置。
前記特定手段は、前記入力画像の中の各位置における顕著度を算出することによって前記被写体の候補領域を特定することを特徴とする請求項１または２に記載の被写体検出装置。
前記特定手段は、前記入力画像をスキャンすることによって得られた２つの領域のデータ群の距離に基づいて前記顕著度を算出することを特徴とする請求項３に記載の被写体検出装置。
前記特定手段は、前記算出した顕著度を画像化したマップを生成し、前記生成したマップから前記被写体の候補領域を特定することを特徴とする請求項３または４に記載の被写体検出装置。
前記決定手段は、前記アプリケーションが複数ある場合は、それぞれのアプリケーションに応じて、前記被写体の候補領域から除外すべき条件をそれぞれ決定し、
前記検出手段は、アプリケーションごとに前記被写体の領域を検出することを特徴とする請求項１〜５の何れか１項に記載の被写体検出装置。
前記決定手段は、前記アプリケーションが複数ある場合は、それぞれのアプリケーションに応じて、前記被写体の候補領域から除外すべき条件をそれぞれ決定し、
前記検出手段は、前記特定手段によって特定された候補領域から、前記設定手段によってアプリケーションごとに設定された領域をすべて除外することによって、前記被写体の領域を検出することを特徴とする請求項１〜５の何れか１項に記載の被写体検出装置。
前記特定手段は、前記被写体の候補領域を特定するとともに、前記候補領域の信頼度を示す第１のスコアを算出し、
前記設定手段は、前記被写体の候補領域として除外すべき領域を設定するとともに、該領域の信頼度を示す第２のスコアを算出し、
前記検出手段は、さらに前記第１のスコアと前記第２のスコアとに基づいて前記被写体の領域を検出することを特徴とする請求項１〜５の何れか１項に記載の被写体検出装置。
入力画像から被写体の候補領域を特定する特定工程と、
前記被写体の情報を用いるアプリケーションに応じて、前記被写体の候補領域から除外すべき条件を決定する決定工程と、
前記決定工程において決定された条件に基づいて、前記入力画像において前記被写体の候補領域として除外すべき領域を設定する設定工程と、
前記特定工程において特定された候補領域と、前記設定工程において設定された領域とに基づいて、前記被写体の領域を検出する検出工程と、
を有することを特徴とする被写体検出方法。
入力画像から被写体の候補領域を特定する特定工程と、
前記被写体の情報を用いるアプリケーションに応じて、前記被写体の候補領域から除外すべき条件を決定する決定工程と、
前記決定工程において決定された条件に基づいて、前記入力画像において前記被写体の候補領域として除外すべき領域を設定する設定工程と、
前記特定工程において特定された候補領域と、前記設定工程において設定された領域とに基づいて、前記被写体の領域を検出する検出工程と、
をコンピュータに実行させることを特徴とするプログラム。