JP2024056578A

JP2024056578A - 画像処理装置、撮影装置、画像処理装置の制御方法及びプログラム

Info

Publication number: JP2024056578A
Application number: JP2022163584A
Authority: JP
Inventors: 悠今野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2024-04-23

Abstract

【課題】オブジェクトの誤検出を低減する。【解決手段】画像処理装置であって、１つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、前記特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する領域推定手段と、前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、前記カテゴリ尤度に基づいて、前記１つ以上の検出領域から注目領域を選択する選択手段とを備える。【選択図】図３

Description

本発明は、画像処理装置、撮影装置、画像処理装置の制御方法及びプログラムに関する。

近年、深層学習の発達に伴い、様々なカテゴリのオブジェクトの情報を用いて対象物らしさを学習させ、その学習結果を用いて動物や乗り物など、任意のオブジェクトを検出する技術が実現されてきている。

非特許文献１、非特許文献２、および非特許文献３は、いずれも深層学習を用いて画像から様々なカテゴリのオブジェクトを同時に検出するマルチオブジェクト検出に関する技術を開示している。オブジェクト検出では、人物のような特定のオブジェクトだけでなく、人物以外の任意のオブジェクトについても、適切な注目領域を自動的に、あるいは、ユーザの意図通りに設定することが期待されている。

ＲｉｃｈＦｅａｔｕｒｅＨｉｅｒａｒｃｈｉｅｓｆｏｒＡｃｃｕｒａｔｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎａｎｄＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ．，ＲｏｓｓＧｉｒｓｈｉｃｋｅｔａｌ．，２０１４ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＳＳＤ：ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ，ＷｅｉＬｉｕｅｔａｌ．，ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ - ＥＣＣＶ２０１６ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ：Ｕｎｉｆｉｅｄ，Ｒｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ，ＪｏｓｅｐｈＲｅｄｍｏｎｅｔａｌ．，２０１６ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ

しかしながら、従来の技術では、注目オブジェクトではない周囲の別の領域を注目領域として検出してしまう誤検出が生じることがある。誤検出は、検出したいオブジェクトを高いスコアで認識できない時や、周囲に他にも高いスコアを有するオブジェクトがある場合に起こりやすい。例えば、連続するフレーム間で追尾処理を行っている場合、前フレームでの検出情報に基づいて現フレームでのオブジェクト検出を行うため、誤検出によって誤った追尾を行ってしまう可能性がある。

本発明は、上記の課題に鑑みてなされたものであり、オブジェクトの誤検出を低減するための技術を提供することを目的とする。

上記の目的を達成する本発明の一態様による画像処理装置は、
１つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する領域推定手段と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、
前記カテゴリ尤度に基づいて、前記１つ以上の検出領域から注目領域を選択する選択手段と、
を備えることを特徴とする。

本発明によれば、オブジェクトの誤検出を低減することが可能となる。

実施形態１に係るシステム構成の一例を示す図。実施形態１に係る画像処理装置及び撮影装置のハードウェア構成例を示す図。実施形態１に係る画像処理装置及び撮影装置の機能構成例を示す図。実施形態１及び実施形態２に係る処理の流れを示したフローチャート。実施形態１に係るニューラルネットワークのネットワーク構造を説明する図。実施形態１に係る画像処理装置及び撮影装置の構成例を示す図。実施形態１の変形例２に係る学習処理の流れを示したフローチャート。実施形態２に係る画像処理装置及び撮影装置の構成例を示す図。実施形態２の変形例１に係る画像処理装置及び撮影装置の構成例を示す図。実施形態２に係る統合処理の手順を説明する図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

＜実施形態１＞
本実施形態では、動画もしくは連続撮影した静止画フレームから人物またはその人物の部位の領域を枠として検出し、その検出枠を用いて追尾処理を行う例を説明する。本実施形態では、対象を人物として説明するが、対象のカテゴリは人物に限定されず、犬や車など様々な種類を含みうる。

図１は、本実施形態に係るシステム構成を示す図である。撮影装置１００は画像処理装置１１０を含み、学習装置１５０と通信可能に接続されている。撮影装置１００は例えばデジタルカメラである。画像処理装置１１０は、処理対象の画像データを取得して、処理結果を出力する。学習装置１５０は、画像処理装置１１０が処理を行うためのパラメータを学習する。

＜画像処理装置（又は撮影装置）のハードウェア構成＞
図２は、本実施形態に係る画像処理装置及び撮影装置のハードウェア構成例を示す。画像処理装置１１０（又は撮影装置１００）は、演算処理装置１０１、記憶装置１０２、入力装置１０３、及び出力装置１０４を備える。

演算処理装置１０１は、撮影装置１００、画像処理装置１１０および学習装置１５０の動作を制御し、記憶装置１０２に格納されたプログラムの実行等を行う。また演算処理装置１０１は、１つ以上のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及び／又はＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）で構成される。記憶装置１０２は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、演算処理装置１０１の動作に基づいて読み込まれたプログラムや、長時間記憶しなくてはならないデータ等を記憶する１つ以上のメモリを有する。

本実施形態では、演算処理装置１０１が、記憶装置１０２に格納されたプログラムに従って処理を行うことによって、本実施形態に係る画像処理装置１１０（又は撮影装置１００）の機能及び後述するフローチャートに係る処理が実現される。記憶装置１０２は、また、本実施形態に係る画像処理装置１１０（又は撮影装置１００）が処理対象とする画像および処理結果を記憶する。入力装置１０３は、マウス、キーボード、タッチパネルデバイス、ボタン等であり、各種の指示を入力する。入力装置１０３は、撮影部を含んでもよい。出力装置１０４は、液晶パネル、外部モニタ等であり、各種の情報を出力する。

なお、システム全体のハードウェア構成は、上述した構成に限られるものではない。例えば、画像処理装置１１０（又は撮影装置１００）は、各種の装置間で通信を行うためのＩ／Ｏ装置を備えてもよい。例えば、Ｉ／Ｏ装置は、メモリーカード、ＵＳＢケーブル等の入出力部、有線、無線等による送受信部である。

＜画像処理装置及び撮影装置の機能構成＞
図３は、本実施形態に係る画像処理装置及び撮影装置の機能構成を示す図である。撮影装置１００は、画像処理装置１１０と、追尾処理部２６０とを備えている。また、画像処理装置１１０は、画像取得部２１０、特徴抽出部２２０、検出領域推定部２３０、カテゴリ尤度推定部２４０、及び注目領域選択部５０を備える。

画像取得部２１０は、撮影した時系列の動画像から画像を取得する。例えば、画像取得部２１０は、フルＨＤ（１９２０×１２８０画素）の画像データをリアルタイム（６０フレーム毎秒）で取得する。特徴抽出部２２０は、画像取得部２１０で取得した画像を処理して特徴量を抽出し、出力する。

検出領域推定部２３０は、特徴抽出部２２０で抽出された特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する。本実施形態では、検出領域として枠の中心の画像座標値、枠の幅、枠の高さおよびオブジェクト尤度を推定する。カテゴリ尤度推定部２４０は、特徴抽出部２２０で抽出された特徴量に基づいて予め定義した特定カテゴリに対するカテゴリ尤度を推定する。カテゴリ尤度の概念や学習方法については後述する。

注目領域選択部２５０は、検出領域推定部２３０で推定したオブジェクトまたはオブジェクトの部分の枠から、追尾処理を行う枠を選択する。追尾処理部２６０は、注目領域選択部２５０で選択された枠に基づいて追尾処理を実施する。

＜画像処理装置（撮影装置）の処理＞
以下、図４（ａ）のフローチャートを参照して、本実施形態に係る画像処理装置（撮影装置）が、撮影した動画像から注目すべき枠を選択して追尾処理を実施する処理について説明する。ただし、画像処理装置（撮影装置）は当該フローチャートで説明するすべての工程を必ずしも行わなくても良よい。

（Ｓ４０１）
Ｓ４０１において、画像取得部２１０は、撮影した時系列の動画像から画像を取得する。Ｓ４０１で取得される画像は、例えばＲＧＢ８ビットで表現されるビットマップデータである。

（Ｓ４０２）
Ｓ４０２において、特徴抽出部２２０は、画像取得部２１０で取得した画像を処理し、特徴量を抽出して出力する。

本実施形態では、ニューラルネットワークを用いて特徴抽出を行う。ここで、図５は、本実施形態に係るニューラルネットワークを用いたネットワーク構造の一例を示す。特徴抽出部２２０の構成は、例えば、畳み込み層とプーリング層とを繰り返すことにより、認識タスクを行うニューラルネットワークである。例えば、非特許文献１、非特許文献２、非特許文献３に記載されている技術を適用可能である。ここではニューラルネットワークを用いて特徴抽出する例で説明するが、本実施形態における特徴抽出の手法は、ニューラルネットワークに限定されるものではない。例えば、ＳＩＦＴやＨＯＧといった既知の特徴抽出手法などを利用してもよい。

特徴抽出部２２０は、複数の畳み込み層である畳み込み層１、畳み込み層２、畳み込み層３（すなわち畳み込み層５１１、畳み込み層５１３、畳み込み層５１５）と、複数のプーリング層であるプーリング層１、プーリング層２（すなわち、プーリング層５１２、プーリング層５１４）を含んで構成され、入力画像５３０から特徴量を抽出する。

畳み込み層では、入力画像または特徴マップに対して、例えば３×３サイズのフィルタを複数チャネル設定し、注目画素を中心に畳み込み演算を行い、複数チャネルに対応する複数の特徴マップを出力する。図５の例では、畳み込み層１（畳み込み層５１１）は、フィルタサイズが３×３であり４チャネルとなるように構成されている。畳み込み層２（畳み込み層５１３）は、フィルタサイズが３×３であり１２チャネルとなるように構成されている。畳み込み層３（畳み込み層５１５）は、フィルタサイズが３×３であり２４チャネルとなるように構成されている。

プーリング層では、畳み込み層から出力された特徴マップを縮小する。２×２の範囲でプーリングを行う場合、特徴マップは１／４倍に縮小される。ここでは最大値プーリングや平均値プーリングなどの方法を用いることができる。図５例では、プーリング層１（プーリング５１２）及びプーリング層２（プーリング５１４）ともに、２×２の範囲でプーリングを行う。図５の例では、２×２の範囲のプーリング層が２層存在するため、入力画像５３０の解像度が出力層５２０の段階では１／１６倍に縮小される。なお、ニューラルネットワークのネットワーク構造は、図５に示した例に限られない。図５で示した例よりも多層にしても構わないし、チャネル数を変更しても構わない。

（Ｓ４０３）
Ｓ４０３において、検出領域推定部２３０は、特徴抽出部２２０で抽出された特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する。検出領域推定部２３０は、オブジェクトの少なくとも一部を内包する枠情報として検出領域を推定し、オブジェクトの枠、またはオブジェクトの部分の枠の位置、幅、高さ、および、オブジェクト尤度を推定する。本実施形態では、特徴抽出部２２０によって抽出された特徴マップ５（特徴マップ５５５）を全結合層１（全結合層５５６）に通して出力結果を取得し、出力層５２０から、検出枠中心の画像座標値、枠の幅、枠の高さ、及びオブジェクト尤度を出力する。

（Ｓ４０４）
Ｓ４０４において、カテゴリ尤度推定部２４０は、特徴抽出部２２０で抽出された特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する。本実施形態では、特徴抽出部２２０で抽出された特徴マップ５（特徴マップ５５５）に全結合層１（全結合層５５６）を通して、検出枠のカテゴリ尤度を出力する。本実施形態では、検出領域推定部２３０及びカテゴリ尤度推定部２４０は、特徴抽出部２２０と同様にニューラルネットワークで構成する。

本実施形態に係るカテゴリ尤度とは、予め学習した１つ以上のカテゴリのそれぞれに対して注目座標が属する尤度を表している。注目領域が対象のカテゴリに属していない状態を０、対象のカテゴリに属している状態を１と定義する。学習用のＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）ではカテゴリごとに０と１の二値で表現し、推論時は、任意の領域が任意の対象カテゴリに属する尤度を０から１の値で推論する。本実施形態では、カテゴリを３つ準備し、カテゴリ１＝人、カテゴリ２＝鳥、カテゴリ３＝車として定義する。カテゴリ尤度は、領域のこれらのカテゴリに対する尤度の組み合わせで表現する。

（Ｓ４０５）
Ｓ４０５において、注目領域選択部２５０は、不図示の撮影装置制御部からの制御信号に基づいて、追尾処理を実施するか否かを判定する。追尾処理を実施すると判定された場合、Ｓ４０６へ進む。一方、追尾処理を実施しないと判定された場合、Ｓ４０８へ進む。

（Ｓ４０６）
Ｓ４０６において、注目領域選択部２６０は、１つ以上の検出領域（検出枠）から注目領域を選択する処理を実行する。検出枠が追尾処理機能の実行に適しているか否かは、例えば、前フレームにおいて注目領域として用いられた追尾枠と、現フレームにおける１つ以上の検出領域（検出枠）のカテゴリ尤度との類似度を算出し、類似度が閾値以上であるか否かで判定することができる。本実施形態では、カテゴリ尤度の類似度は、前フレームにおける追尾枠と、現フレームにおける検出枠との各カテゴリの尤度に関する二乗誤差の逆数として算出する。この類似度が大きいほど（二乗誤差が小さいほど）、検出枠で得られたオブジェクトは、前フレームの追尾枠におけるオブジェクトと類似した特徴を有するものと判定できる。条件を満たす枠が複数ある場合は、類似度が最も高い枠を選択してもよい。

（Ｓ４０７）
Ｓ４０７において、追尾処理部２６０は、注目領域選択部２５０で選択した注目領域（枠）に基づいて追尾処理を開始する。Ｓ４０５で追尾処理を実施すると判定されなかった場合、Ｓ４０６及びＳ４０７の処理はスキップされる。

（Ｓ４０８）
Ｓ４０８において、撮影装置１００の動作が継続されるか否かを判定する。撮影装置１００の動作が継続する場合、Ｓ４０１に戻って、一連の処理が繰り返される。一方、撮影装置１００の動作が継続されないと判定された場合、一連の処理を終了する。

なお、Ｓ４０６では、注目領域選択部２６０は、前フレームにおいて注目領域として用いられた追尾枠との比較により、現フレームでの注目領域を選択する例を説明したが、この例に限定されない。例えば、注目領域選択部２６０は、前フレームとの比較ではなく、予め指定されたオブジェクトのカテゴリ尤度に類似するカテゴリ尤度を有する検出領域（検出枠）を、注目領域として選択してもよい。

以上説明したように、本実施形態では、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定し、推定したカテゴリ尤度を用いて、１つ以上の検出領域（検出枠）の中から注目領域を選択する。これにより、オブジェクトの誤検出を低減することができる。

＜学習装置の機能構成＞
続いて、図６は、本実施形態に係る画像処理装置におけるニューラルネットワークの学習を行う学習装置の機能構成を示す。学習装置１５０は、学習データ記憶部６０１、学習データ取得部６０２、画像取得部６０３、特徴抽出部６０４、検出領域推定部６０５、カテゴリ尤度推定部６０６、領域誤差算出部６０７、カテゴリ尤度誤差算出部６０８、及びパラメータ学習部６０９を備える。

特徴抽出部６０４、検出領域推定部６０５、カテゴリ尤度推定部６０６は、それぞれ図３に示した特徴抽出部２２０、検出領域推定部２３０、カテゴリ尤度推定部２４０と同一であるため、説明を省略する。

学習データ記憶部６０１は、学習装置１５０が学習を行うための学習データを記憶保持する。学習データは、ｉ）「学習画像」、ｉｉ）「解析対象とする学習画像中のオブジェクトまたはオブジェクトの部分の領域情報と、カテゴリ尤度との組」を含む。学習データ記憶部６０１は、学習に十分な数の学習データを記憶している。

学習データ取得部６０２は、学習データ記憶部６０１に記憶されている学習データを取得する。画像取得部６０３は、学習データ取得部６０２から学習画像を取得する。領域誤差算出部６０７は、検出領域推定部６０５で取得された検出領域の推定値と、学習データの領域情報とに基づいて、領域誤差を算出する。

カテゴリ尤度誤差算出部６０８は、カテゴリ尤度推定部６０６で取得されたカテゴリ尤度の推定値と、学習データのカテゴリ尤度とに基づいて、カテゴリ尤度誤差を算出する。パラメータ学習部６０９は、領域誤差及びカテゴリ尤度度誤差が小さくなるように、特徴抽出部２２０、検出領域推定部２３０、及びカテゴリ尤度推定部２４０のパラメータ更新を行う。

なお、学習装置１５０のハードウェア構成については、図２を参照して説明した構成と同様の構成とすることができる。

＜学習処理＞
以下、図７（ａ）のフローチャートを参照して、本実施形態に係る学習処理の手順を説明する。

（Ｓ７０１）
Ｓ７０１において、学習データ取得部６０２は、学習データ記憶部６０１に記憶されている学習データを取得する。また、画像取得部６０３は、学習データ取得部６０２から、学習データに含まれる学習画像を取得する。学習データは、前述したように学習画像と各学習画像の正解情報とから構成される。正解情報は、学習画像中に撮影されたオブジェクトまたはオブジェクトの部分の領域を示す領域情報と、各領域情報に対して付与された各カテゴリに対する尤度スコアとの組を含む。学習データは事前に準備されているものとする。

（Ｓ７０２）
Ｓ７０２において、特徴抽出部６０４は、画像取得部６０３から取得した学習画像から特徴量を抽出して出力する。

（Ｓ７０３）
Ｓ７０３において、検出領域推定部６０５は、特徴抽出部６０４から取得した特徴量に基づいて、オブジェクトまたはオブジェクトの部分の検出領域の候補を推定する。

（Ｓ７０４）
Ｓ７０４において、カテゴリ尤度推定部６０６は、特徴抽出部６０４から取得した特徴量に基づいて、あらかじめ用意した各カテゴリに対するオブジェクトの尤度を推定する。

（Ｓ７０５）
Ｓ７０５において、領域誤差算出部６０７は、検出領域推定部６０５で取得された検出領域の推定値と、学習データの枠とから、領域誤差を算出する。領域誤差の算出方法は、例えば非特許文献２に記載の方法を用いることができる。例えば、検出領域推定部６０５で推定した検出枠の中心座標およびサイズの、学習データ中の合致する正解枠の中心座標およびサイズに対するずれ量を足し合わせて求めることができる。

（Ｓ７０６）
Ｓ７０６において、カテゴリ尤度誤差算出部６０８は、カテゴリ尤度推定部６０６で取得されたカテゴリ尤度の推定値と、学習データのカテゴリ尤度とから、カテゴリ尤度誤差を算出する。カテゴリ尤度誤差の算出方法として、二乗誤差の逆数を用いることができる。

（Ｓ７０７）
Ｓ７０７において、パラメータ学習部６０９は、Ｓ７０５で算出した領域誤差、及び、Ｓ７０６で算出したカテゴリ尤度誤差が小さくなるようにパラメータ更新を行う。更新するパラメータは、ニューラルネットワークの畳み込み層および全結合層の重み係数である。パラメータの更新は、Ｓ７０５で算出された領域誤差と、Ｓ７０６で算出されたカテゴリ尤度誤差の和を取ることにより損失値を算出し、誤差逆伝搬学習法を用いて行うことができる。

（Ｓ７０８）
Ｓ７０８において、パラメータ学習部６０９は、予め設定した終了条件にしたがって学習が終了したか否かを判定する。終了条件としては、パラメータ更新のための学習データとは別に精度検証用の学習データを用意しておき、前述のＳ７０１からＳ７０７の処理を行って、損失値の総和が所定値以下になったか否かで判定を行う。その他、Ｓ７０１からＳ７０７までのステップの繰り返し回数で判定してもよい。学習が終了していないと判定された場合は、Ｓ７０１に戻って一連の処理を繰り返す。一方、学習が終了したと判定された場合は、一連の処理を終了する。Ｓ７０１からＳ７０８までの各ステップによって、Ｓ７０１で取得した学習データに対する学習が完了する。

以上説明したように、本実施形態では、従来のオブジェクト尤度に基づく検出手法に加えて、新たなパラメータとしてカテゴリ尤度を定義する。これにより、従来の手法では把握できなかった注目オブジェクトのカテゴリ特徴を把握することが可能となる。このカテゴリ尤度を用いることで、他のオブジェクトとの類似度を算出可能になるので、オブジェクトの誤検出を低減することができる。従って、より高精度なオブジェクトの検出を実現することができる。よって、高精度な追尾機能を実現することができる。

[実施形態１の変形例１]
カテゴリ尤度推定部２４０、カテゴリ尤度推定部６０６において用いられるカテゴリは、単一種類のオブジェクトで構成されず、特定の色合いを持ったオブジェクトの集まりのような任意の特徴を持ったオブジェクトの集まりでもよい。その場合、カテゴリ尤度は、指定した特徴をどの程度持っているかという推定尤度とすることができる。実施形態１で説明したような単一種類を一つのカテゴリとみなした分類とは異なる、抽象的な条件によるカテゴリ尤度の算出が可能である。

例えば、彩度を一つのカテゴリとして定義し、赤や青、緑など鮮やかな色で構成されるオブジェクトは高スコアになるように学習を行い、反対に白や黒などの色で構成されるオブジェクトは低スコアになるよう学習を行ったとする。その場合、同じオブジェクトであっても色を基準に区別することが可能になり、追尾機能実行時に追尾対象の角度が変わるなどして形状が大きく変化した場合でも、色情報を用いることで追尾対象を補足し続けられる可能性が高まる。種類に基づいて定義したカテゴリと、特徴に基づいて定義したカテゴリとでは分類基準が異なるため、推論対象によって使い分けや併用することで、精度の向上を図ることが可能となる。

[実施形態１の変形例２]
実施形態１では、オブジェクトまたはオブジェクトの部分の検出領域候補を推定（Ｓ７０３）した後にカテゴリ尤度の推定（Ｓ７０４）を行う例を説明した。しかし、この例に限定されず、カテゴリ尤度の推定を行った後に検出領域候補を推定してもよい。ここで図７（ｂ）は、その一例を示すフローチャートである。図７（ｂ）では、Ｓ７０２の後にＳ７０４のカテゴリ尤度推定処理を先に行い、Ｓ７０３の検出領域推定処理はＳ７０６の後に実行する例が示されている。

＜実施形態２＞
実施形態１では、撮影装置が自動的に検出した複数のオブジェクトに対してカテゴリ尤度を用いた判定を行い、追尾機能を適用する例を説明した。これに対して、実施形態２では、検出を行った際にオブジェクトが分割検出されてしまった際にカテゴリ尤度を用いて領域統合を行うことにより、新たにオブジェクト全体を捉えた領域を生成する例を説明する。

実施形態２に係る各装置のハードウェア構成例は、実施形態１の図２と同一であるため、説明を省略する。

＜機能構成＞
図８は、本実施形態に係る画像処理装置及び撮影装置の機能構成を示す図である。撮影装置８００は、画像処理装置８０１と、追尾処理部８７０と、ＡＦ処理部８８０とを備える。画像処理装置８０１は、画像取得部８１０、特徴抽出部８２０、検出領域推定部８３０、カテゴリ尤度推定部８４０、注目領域選択部８５０、及び領域統合部８６０を備える。

本実施形態の画像処理装置８０１が、実施形態１の画像処理装置１１０と異なるのは、領域統合部８６０をさらに備える点である。

画像取得部８１０、特徴抽出部８２０、検出領域推定部８３０、カテゴリ尤度推定部８４０、注目領域選択部８５０の機能は、それぞれ実施形態１の画像取得部２１０、特徴抽出部２２０、検出領域推定部２３０、カテゴリ尤度推定部２４０、注目領域選択部２５０と同一であるため、説明を省略する。

領域統合部８６０は、注目領域選択部８５０で選択した注目領域と、検出領域推定部８３０で推定した複数のオブジェクトまたはオブジェクトの部分の推定領域（１つ以上の検出領域）のうち注目領域に近いものとが、同じオブジェクトを表しているかを判定する。そして、領域統合部８６０は、同一のオブジェクトであると判定された場合は、それらの枠の統合処理を行う。この際、同一であるかの判定にはカテゴリ尤度を用い、比較を行っている二つの枠のカテゴリ尤度から算出したカテゴリ類似度が所定の閾値以上である場合に、それら二つの枠は同一のオブジェクトであると判定することができる。例えば、２つの近接する検出枠があり、一方の検出枠のカテゴリ尤度が「人：０．１、動物：０．７、車０．１５」であり、もう一方の検出枠のカテゴリ尤度が「人：０．１５、動物：０．６８、車０．１」であるような場合に、これら二つの枠が同一のオブジェクトを示すと判定することができる。

すなわち、注目領域のカテゴリ尤度と、１つ以上の検出領域のうちの注目領域以外の他の検出領域のカテゴリ尤度との類似度が閾値以上である場合に統合処理を実行する。二つの枠のカテゴリ尤度の類似度は、例えば二乗誤差の逆数として算出することができる。領域統合部８６０は、統合処理を行った場合は、統合後の枠を選択する。また、統合処理を行わなかった場合は、注目領域選択部８５０で選択した注目領域の枠を選択する。

追尾処理部８７０は、領域統合部８６０による統合処理を経て選択された枠に基づいて追尾処理を実施する。ＡＦ処理部８８０は、領域統合部８６０による統合処理を経て選択された枠に基づいてＡＦ処理を実施する。

＜処理＞
以下、図４（ｂ）のフローチャートを参照して、本実施形態に係る画像処理装置（撮影装置）が実施する処理について説明する。図４（ｂ）におけるＳ４０１～Ｓ４０８の各処理は、図４（ａ）で説明したＳ４０１～Ｓ４０８の各処理と同一の処理である。図４（ｂ）では、Ｓ４０６とＳ４０７との間に領域統合処理に関するＳ４０９が追加されており、さらに、ＡＦ処理に関連するＳ４１０～Ｓ４１３の処理が追加されている。

（Ｓ４０９）
Ｓ４０９において、領域統合部８６０は、Ｓ４０６の処理によって取得した注目領域情報と、検出領域推定部８３０で推定した領域の情報とに基づいて、枠同士の統合処理を実施する。

ここで、図１０は、本実施形態に係る統合処理の例を示している。状況１０００では、注目領域１００１と、注目領域と同一オブジェクトの部分領域１００２及び部分領域１００３や、別オブジェクト領域１００４～１００６が存在している。統合処理では、注目領域と、その他の検出領域との間で、距離フィルタリング処理１０１０、及びカテゴリ尤度フィルタリング処理１０３０を実施する。

距離フィルタリング処理１０１０では、注目領域とその他の検出領域の各々との距離をそれぞれ算出し、距離があらかじめ設定された所定値を超える検出領域を候補領域から除外する。すなわち、注目領域と、他の検出領域との距離が所定値以下である場合に統合処理を実行する。

図１０の例では、注目領域１００１と、他の検出領域である候補領域１００２～１００６のそれぞれとに対して距離フィルタリング処理１０１０を実施することで、状況１０２０では、状況１０００における候補領域１００６が、候補領域から除外されている。

続いて、カテゴリ尤度フィルタリング処理１０３０では、注目領域と、その他の候補領域の各々とのカテゴリ尤度の類似度をそれぞれ算出し、カテゴリ尤度の類似度があらかじめ設定された閾値以下の領域を候補領域から除外する。図１０の例では、注目領域１０２１と、候補領域１０２２～１０２５の各々に対してカテゴリ尤度フィルタリング処理１０３０を実施することで、状況１０４０では、状況１０２０での候補領域１０２４と候補領域１０２５が候補領域から除外されている。その後、注目領域と、残った候補領域とを用いて枠統合処理１０５０を行い、統合枠１０６１を生成する。その結果、状況１０６０のような統合結果が得られる。なお、本実施形態では、統合枠は、統合対象の領域を全て内包する枠として生成している。

（Ｓ４１０）
Ｓ４１０において、注目領域選択部８５０は、不図示の撮影装置制御部からの制御信号に基づいて、ＡＦ処理を実施するか否かを判定する。追尾処理を実施すると判定された場合、Ｓ４１１へ進む。一方、追尾処理を実施しないと判定された場合、Ｓ４０８へ進む。

（Ｓ４１１）
Ｓ４１１において、注目領域選択部８５０は、注目領域を選択する処理を実行する。

（Ｓ４１２）
Ｓ４１２において、領域統合部８６０は、Ｓ４０９と同様に、Ｓ４１１の処理によって取得した注目領域の情報と、検出領域推定部８３０で推定した検出領域の情報とに基づいて、枠同士の統合処理を実施する。

（Ｓ４１３）
Ｓ４１３において、ＡＦ処理部８８０は、領域統合部８６０で選択した領域（枠）に基づいてＡＦ処理を実行する。

以上説明したように、本実施形態によれば、オブジェクト全体の検出を目的としたオブジェクト検出の際に部分検出が発生した場合に、周囲の検出枠のうち類似のカテゴリ特徴を有する検出枠を統合することで、オブジェクト全体の検出枠を取得することができる。

＜実施形態２の変形例１＞
実施形態２では、画像からオブジェクトの検出を行った際にオブジェクトが分割して検出されてしまった場合に、カテゴリ尤度を用いて領域統合を行うことで新たにオブジェクト全体の領域を取得する例を説明した。これに対して、実施形態２の変形例１では、ユーザが任意で選択したオブジェクトに対して、領域統合処理を行う例を説明する。

実施形態２の変形例１におけるハードウェア構成は実施形態１と同様であるため、説明を省略する。

＜画像処理装置及び撮影装置の機能構成＞
図９は、実施形態２の変形例１に係る画像処理装置及び撮影装置の機能構成を示す図である。

撮影装置９００は、画像処理装置９０１と、追尾処理部９７０と、ＡＦ処理部９８０とを備えている。また、画像処理装置９０１は、画像取得部９１０、特徴抽出部９２０、検出領域推定部９３０、カテゴリ尤度推定部９４０、注目領域選択部９５０、領域統合部９６０、オブジェクト座標入力部９９０及び表示制御部９９１を備える。

実施形態２と特に異なる点は、画像処理装置９０１が、オブジェクト座標入力部９９０をさらに備えること、そして、注目領域選択部９５０の処理内容である。その他に関しては、実施形態２と同様であるため説明を省略する。

オブジェクト座標入力部９９０は、入力装置１０３を用いてユーザがＡＦ機能や追尾機能を適用したい任意のオブジェクトの画像座標値を取得する。実施形態２では、入力装置１０３は、タッチパネルデバイスを利用することができる。タッチパネルデバイスは透過型のデバイスであり、例えば出力装置１０４の液晶パネル上に設置されている。画像取得部９１０で取得された画像は、表示制御部９９１の制御によって出力装置１０４に表示される。ユーザが出力装置１０４に表示された画像上の任意のオブジェクト上の点を押下すると、入力装置１０３であるタッチパネルデバイス上の座標値が取得される。タッチパネルデバイス上の座標値は、オブジェクト座標入力部９９０によって、入力画像の画像座標値に変換され、注目領域選択部９５０へ出力される。

注目領域選択部９５０は、検出領域推定部９３０で推定したオブジェクトから、追尾処理またはＡＦ処理を行う枠を選択する。この際、選択される枠はオブジェクト座標入力部９９０によって入力された座標との距離があらかじめ設定された閾値以下であることを条件とすることができる。あるいは、当該距離が最も短い枠を選択するように構成してもよい。

そして、領域統合部９６０は、カテゴリ尤度に基づいて、注目領域選択部９５０により選択された注目領域の周辺の検出領域（検出枠）の統合処理を実行する。

以上説明したように、実施形態２の変形例１によれば、ユーザが指定した特定のオブジェクトに対して領域統合処理を行うことで、適切な領域を追跡処理又はＡＦ処理することが可能となる。

＜実施形態２の変形例２＞
実施形態２では、画像からオブジェクトの検出を行った際にオブジェクトが分割して検出されてしまった場合に、カテゴリ尤度を用いて領域統合を行うことで新たにオブジェクト全体の領域を取得する例を説明した。これに対して、実施形態２の変形例１では、オブジェクト占有度をさらに推定し、オブジェクト占有度が高い（すなわち、オブジェクト全体を捉えられている）枠を統合対象から除外する例を説明する。

実施形態２の変形例２におけるハードウェア構成および機能構成は実施形態２と同様であるため、説明を省略する。

実施形態２の変形例２に係る検出領域推定部８３０は、検出領域内にオブジェクトが含まれている度合いを示すオブジェクト占有度をさらに推定する。オブジェクト占有度が高いほど、検出領域（検出枠）の中にオブジェクト全体が含まれていることを示す。オブジェクト占有度の推定にもニューラルネットワークを利用することができる。領域統合部８６０は、オブジェクト占有度が閾値以上となる検出領域（検出枠）を統合対象から予め除外した上で統合処理を実行する。

これにより、誤った統合が行われてしまう可能性を低減することができるため、オブジェクトを精度よく検出することが可能となる。

なお、上述の各実施形態では、追尾機能および自動的に焦点を合わせるオートフォーカス機能（ＡＦ機能）を例に説明を行ったが、これらの例に限定されない。例えば、自動的に明るさを調整するオートエクスポージャー機能（ＡＥ機能）、自動的に適切な色に調整するオートホワイトバランス機能（ＡＷＢ機能）など、他の機能の適用時（実行時）にも上述の各実施形態を適用することができる。

上述の各実施形態によれば、様々なカテゴリのオブジェクトを検出可能なマルチカテゴリ検出において、オブジェクトの誤検出を低減し、高精度な検出を実現することができる。

本明細書の開示は、以下の画像処理装置、撮影装置、画像処理装置の制御方法及びプログラムを含む。

（項目１）
１つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する領域推定手段と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、
前記カテゴリ尤度に基づいて、前記１つ以上の検出領域から注目領域を選択する選択手段と、
を備えることを特徴とする画像処理装置。

（項目２）
前記領域推定手段は、オブジェクトの少なくとも一部を内包する枠情報として前記検出領域を推定することを特徴とする項目１に記載の画像処理装置。

（項目３）
前記注目領域と、前記カテゴリ尤度に基づいて、前記１つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合手段をさらに備えることを特徴とする項目１又は２に記載の画像処理装置。

（項目４）
前記統合手段は、前記注目領域のカテゴリ尤度と、前記他の検出領域のカテゴリ尤度との類似度が閾値以上である場合に統合処理を実行することを特徴とする項目３に記載の画像処理装置。

（項目５）
前記統合手段は、前記注目領域と、前記他の検出領域との距離が所定値以下である場合に統合処理を実行することを特徴とする項目３又は４に記載の画像処理装置。

（項目６）
前記領域推定手段は、検出領域内にオブジェクトが含まれている度合いを示すオブジェクト占有度をさらに推定し、
前記統合手段は、前記オブジェクト占有度が閾値以上となる検出領域を統合対象から予め除外した上で統合処理を実行することを特徴とする項目３乃至５の何れか１項目に記載の画像処理装置。

（項目７）
前記選択手段は、前フレームにおける注目領域のカテゴリ尤度と、現フレームにおける前記１つ以上の検出領域のカテゴリ尤度とに基づいて、前記１つ以上の検出領域から注目領域を選択することを特徴とする項目１乃至６の何れか１項目に記載の画像処理装置。

（項目８）
前記カテゴリは、オブジェクトの種類であることを特徴とする項目１乃至７の何れか１項目に記載の画像処理装置。

（項目９）
前記カテゴリは、彩度であることを特徴とする項目１乃至７の何れか１項に記載の画像処理装置。

（項目１０）
１つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する領域推定手段と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、
前記画像を表示手段に表示させる表示制御手段と、
前記表示手段に表示された前記画像上で座標の指定を受け付ける座標入力手段と、
前記座標に基づいて、前記１つ以上の検出領域から注目領域を選択する選択手段と、
前記カテゴリ尤度に基づいて、前記注目領域と、前記１つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合手段と、
を備えることを特徴とする画像処理装置。

（項目１１）
オブジェクトの追尾機能、オートフォーカス機能、オートエクスポージャー機能、オートホワイトバランス機能のうちの少なくとも１つの機能を有する撮影装置であって、
項目１乃至１０の何れか１項目に記載の画像処理装置を備え、
前記選択手段は、前記撮影装置の前記機能の実行時に前記注目領域の選択を行うことを特徴とする撮影装置。

（項目１２）
画像処理装置の制御方法であって、
１つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出工程と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する領域推定工程と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定工程と、
前記カテゴリ尤度に基づいて、前記１つ以上の検出領域から注目領域を選択する選択工程と、
を有することを特徴とする画像処理装置の制御方法。

（項目１３）
画像処理装置の制御方法であって、
１つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出工程と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する領域推定工程と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定工程と、
前記画像を表示手段に表示させる表示制御工程と、
前記表示手段に表示された前記画像上で座標の指定を受け付ける座標入力工程と、
前記座標に基づいて、前記１つ以上の検出領域から注目領域を選択する選択工程と、
前記カテゴリ尤度に基づいて、前記注目領域と、前記１つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合工程と、
を有することを特徴とする画像処理装置の制御方法。

（項目１４）
コンピュータに、項目１２又は１３に記載の画像処理装置の制御方法を実行させるためのプログラム。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：撮影装置、１１０：画像処理装置、２１０：画像取得部、２２０：特徴抽出部、２３０：検出領域推定部、２４０：カテゴリ尤度推定部、２５０：注目領域選択部、２６０：追尾処理部

Claims

１つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する領域推定手段と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、
前記カテゴリ尤度に基づいて、前記１つ以上の検出領域から注目領域を選択する選択手段と、
を備えることを特徴とする画像処理装置。
前記領域推定手段は、オブジェクトの少なくとも一部を内包する枠情報として前記検出領域を推定することを特徴とする請求項１に記載の画像処理装置。
前記注目領域と、前記カテゴリ尤度に基づいて、前記１つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合手段をさらに備えることを特徴とする請求項１に記載の画像処理装置。
前記統合手段は、前記注目領域のカテゴリ尤度と、前記他の検出領域のカテゴリ尤度との類似度が閾値以上である場合に統合処理を実行することを特徴とする請求項３に記載の画像処理装置。
前記統合手段は、前記注目領域と、前記他の検出領域との距離が所定値以下である場合に統合処理を実行することを特徴とする請求項３に記載の画像処理装置。
前記領域推定手段は、検出領域内にオブジェクトが含まれている度合いを示すオブジェクト占有度をさらに推定し、
前記統合手段は、前記オブジェクト占有度が閾値以上となる検出領域を統合対象から予め除外した上で統合処理を実行することを特徴とする請求項３に記載の画像処理装置。
前記選択手段は、前フレームにおける注目領域のカテゴリ尤度と、現フレームにおける前記１つ以上の検出領域のカテゴリ尤度とに基づいて、前記１つ以上の検出領域から注目領域を選択することを特徴とする請求項１に記載の画像処理装置。
前記カテゴリは、オブジェクトの種類であることを特徴とする請求項１に記載の画像処理装置。
前記カテゴリは、彩度であることを特徴とする請求項１に記載の画像処理装置。
１つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する領域推定手段と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、
前記画像を表示手段に表示させる表示制御手段と、
前記表示手段に表示された前記画像上で座標の指定を受け付ける座標入力手段と、
前記座標に基づいて、前記１つ以上の検出領域から注目領域を選択する選択手段と、
前記カテゴリ尤度に基づいて、前記注目領域と、前記１つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合手段と、
を備えることを特徴とする画像処理装置。
オブジェクトの追尾機能、オートフォーカス機能、オートエクスポージャー機能、オートホワイトバランス機能のうちの少なくとも１つの機能を有する撮影装置であって、
請求項１乃至１０の何れか１項に記載の画像処理装置を備え、
前記選択手段は、前記撮影装置の前記機能の実行時に前記注目領域の選択を行うことを特徴とする撮影装置。
画像処理装置の制御方法であって、
１つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出工程と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する領域推定工程と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定工程と、
前記カテゴリ尤度に基づいて、前記１つ以上の検出領域から注目領域を選択する選択工程と、
を有することを特徴とする画像処理装置の制御方法。
画像処理装置の制御方法であって、
１つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出工程と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む１つ以上の検出領域を推定する領域推定工程と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定工程と、
前記画像を表示手段に表示させる表示制御工程と、
前記表示手段に表示された前記画像上で座標の指定を受け付ける座標入力工程と、
前記座標に基づいて、前記１つ以上の検出領域から注目領域を選択する選択工程と、
前記カテゴリ尤度に基づいて、前記注目領域と、前記１つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合工程と、
を有することを特徴とする画像処理装置の制御方法。
コンピュータに、請求項１２又は１３に記載の画像処理装置の制御方法を実行させるためのプログラム。