JP2024056578A - 画像処理装置、撮影装置、画像処理装置の制御方法及びプログラム - Google Patents

画像処理装置、撮影装置、画像処理装置の制御方法及びプログラム Download PDF

Info

Publication number
JP2024056578A
JP2024056578A JP2022163584A JP2022163584A JP2024056578A JP 2024056578 A JP2024056578 A JP 2024056578A JP 2022163584 A JP2022163584 A JP 2022163584A JP 2022163584 A JP2022163584 A JP 2022163584A JP 2024056578 A JP2024056578 A JP 2024056578A
Authority
JP
Japan
Prior art keywords
region
detection
image processing
processing device
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022163584A
Other languages
English (en)
Inventor
悠 今野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2022163584A priority Critical patent/JP2024056578A/ja
Publication of JP2024056578A publication Critical patent/JP2024056578A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】オブジェクトの誤検出を低減する。【解決手段】画像処理装置であって、1つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、前記特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する領域推定手段と、前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、前記カテゴリ尤度に基づいて、前記1つ以上の検出領域から注目領域を選択する選択手段とを備える。【選択図】 図3

Description

本発明は、画像処理装置、撮影装置、画像処理装置の制御方法及びプログラムに関する。
近年、深層学習の発達に伴い、様々なカテゴリのオブジェクトの情報を用いて対象物らしさを学習させ、その学習結果を用いて動物や乗り物など、任意のオブジェクトを検出する技術が実現されてきている。
非特許文献1、非特許文献2、および非特許文献3は、いずれも深層学習を用いて画像から様々なカテゴリのオブジェクトを同時に検出するマルチオブジェクト検出に関する技術を開示している。オブジェクト検出では、人物のような特定のオブジェクトだけでなく、人物以外の任意のオブジェクトについても、適切な注目領域を自動的に、あるいは、ユーザの意図通りに設定することが期待されている。
Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation., Ross Girshick et al.,2014 IEEE Conference on Computer Vision and Pattern Recognition SSD: Single Shot MultiBox Detector, Wei Liu et al., Computer Vision - ECCV 2016 You Only Look Once: Unified, Real-Time Object Detection, Joseph Redmon et al., 2016 IEEE Conference on Computer Vision and Pattern Recognition
しかしながら、従来の技術では、注目オブジェクトではない周囲の別の領域を注目領域として検出してしまう誤検出が生じることがある。誤検出は、検出したいオブジェクトを高いスコアで認識できない時や、周囲に他にも高いスコアを有するオブジェクトがある場合に起こりやすい。例えば、連続するフレーム間で追尾処理を行っている場合、前フレームでの検出情報に基づいて現フレームでのオブジェクト検出を行うため、誤検出によって誤った追尾を行ってしまう可能性がある。
本発明は、上記の課題に鑑みてなされたものであり、オブジェクトの誤検出を低減するための技術を提供することを目的とする。
上記の目的を達成する本発明の一態様による画像処理装置は、
1つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する領域推定手段と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、
前記カテゴリ尤度に基づいて、前記1つ以上の検出領域から注目領域を選択する選択手段と、
を備えることを特徴とする。
本発明によれば、オブジェクトの誤検出を低減することが可能となる。
実施形態1に係るシステム構成の一例を示す図。 実施形態1に係る画像処理装置及び撮影装置のハードウェア構成例を示す図。 実施形態1に係る画像処理装置及び撮影装置の機能構成例を示す図。 実施形態1及び実施形態2に係る処理の流れを示したフローチャート。 実施形態1に係るニューラルネットワークのネットワーク構造を説明する図。 実施形態1に係る画像処理装置及び撮影装置の構成例を示す図。 実施形態1の変形例2に係る学習処理の流れを示したフローチャート。 実施形態2に係る画像処理装置及び撮影装置の構成例を示す図。 実施形態2の変形例1に係る画像処理装置及び撮影装置の構成例を示す図。 実施形態2に係る統合処理の手順を説明する図。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
<実施形態1>
本実施形態では、動画もしくは連続撮影した静止画フレームから人物またはその人物の部位の領域を枠として検出し、その検出枠を用いて追尾処理を行う例を説明する。本実施形態では、対象を人物として説明するが、対象のカテゴリは人物に限定されず、犬や車など様々な種類を含みうる。
図1は、本実施形態に係るシステム構成を示す図である。撮影装置100は画像処理装置110を含み、学習装置150と通信可能に接続されている。撮影装置100は例えばデジタルカメラである。画像処理装置110は、処理対象の画像データを取得して、処理結果を出力する。学習装置150は、画像処理装置110が処理を行うためのパラメータを学習する。
<画像処理装置(又は撮影装置)のハードウェア構成>
図2は、本実施形態に係る画像処理装置及び撮影装置のハードウェア構成例を示す。画像処理装置110(又は撮影装置100)は、演算処理装置101、記憶装置102、入力装置103、及び出力装置104を備える。
演算処理装置101は、撮影装置100、画像処理装置110および学習装置150の動作を制御し、記憶装置102に格納されたプログラムの実行等を行う。また演算処理装置101は、1つ以上のCPU(Central Processing Unit)及び/又はGPU(Graphics Processing Unit)で構成される。記憶装置102は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、演算処理装置101の動作に基づいて読み込まれたプログラムや、長時間記憶しなくてはならないデータ等を記憶する1つ以上のメモリを有する。
本実施形態では、演算処理装置101が、記憶装置102に格納されたプログラムに従って処理を行うことによって、本実施形態に係る画像処理装置110(又は撮影装置100)の機能及び後述するフローチャートに係る処理が実現される。記憶装置102は、また、本実施形態に係る画像処理装置110(又は撮影装置100)が処理対象とする画像および処理結果を記憶する。入力装置103は、マウス、キーボード、タッチパネルデバイス、ボタン等であり、各種の指示を入力する。入力装置103は、撮影部を含んでもよい。出力装置104は、液晶パネル、外部モニタ等であり、各種の情報を出力する。
なお、システム全体のハードウェア構成は、上述した構成に限られるものではない。例えば、画像処理装置110(又は撮影装置100)は、各種の装置間で通信を行うためのI/O装置を備えてもよい。例えば、I/O装置は、メモリーカード、USBケーブル等の入出力部、有線、無線等による送受信部である。
<画像処理装置及び撮影装置の機能構成>
図3は、本実施形態に係る画像処理装置及び撮影装置の機能構成を示す図である。撮影装置100は、画像処理装置110と、追尾処理部260とを備えている。また、画像処理装置110は、画像取得部210、特徴抽出部220、検出領域推定部230、カテゴリ尤度推定部240、及び注目領域選択部50を備える。
画像取得部210は、撮影した時系列の動画像から画像を取得する。例えば、画像取得部210は、フルHD(1920×1280画素)の画像データをリアルタイム(60フレーム毎秒)で取得する。特徴抽出部220は、画像取得部210で取得した画像を処理して特徴量を抽出し、出力する。
検出領域推定部230は、特徴抽出部220で抽出された特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する。本実施形態では、検出領域として枠の中心の画像座標値、枠の幅、枠の高さおよびオブジェクト尤度を推定する。カテゴリ尤度推定部240は、特徴抽出部220で抽出された特徴量に基づいて予め定義した特定カテゴリに対するカテゴリ尤度を推定する。カテゴリ尤度の概念や学習方法については後述する。
注目領域選択部250は、検出領域推定部230で推定したオブジェクトまたはオブジェクトの部分の枠から、追尾処理を行う枠を選択する。追尾処理部260は、注目領域選択部250で選択された枠に基づいて追尾処理を実施する。
<画像処理装置(撮影装置)の処理>
以下、図4(a)のフローチャートを参照して、本実施形態に係る画像処理装置(撮影装置)が、撮影した動画像から注目すべき枠を選択して追尾処理を実施する処理について説明する。ただし、画像処理装置(撮影装置)は当該フローチャートで説明するすべての工程を必ずしも行わなくても良よい。
(S401)
S401において、画像取得部210は、撮影した時系列の動画像から画像を取得する。S401で取得される画像は、例えばRGB8ビットで表現されるビットマップデータである。
(S402)
S402において、特徴抽出部220は、画像取得部210で取得した画像を処理し、特徴量を抽出して出力する。
本実施形態では、ニューラルネットワークを用いて特徴抽出を行う。ここで、図5は、本実施形態に係るニューラルネットワークを用いたネットワーク構造の一例を示す。特徴抽出部220の構成は、例えば、畳み込み層とプーリング層とを繰り返すことにより、認識タスクを行うニューラルネットワークである。例えば、非特許文献1、非特許文献2、非特許文献3に記載されている技術を適用可能である。ここではニューラルネットワークを用いて特徴抽出する例で説明するが、本実施形態における特徴抽出の手法は、ニューラルネットワークに限定されるものではない。例えば、SIFTやHOGといった既知の特徴抽出手法などを利用してもよい。
特徴抽出部220は、複数の畳み込み層である畳み込み層1、畳み込み層2、畳み込み層3(すなわち畳み込み層511、畳み込み層513、畳み込み層515)と、複数のプーリング層であるプーリング層1、プーリング層2(すなわち、プーリング層512、プーリング層514)を含んで構成され、入力画像530から特徴量を抽出する。
畳み込み層では、入力画像または特徴マップに対して、例えば3×3サイズのフィルタを複数チャネル設定し、注目画素を中心に畳み込み演算を行い、複数チャネルに対応する複数の特徴マップを出力する。図5の例では、畳み込み層1(畳み込み層511)は、フィルタサイズが3×3であり4チャネルとなるように構成されている。畳み込み層2(畳み込み層513)は、フィルタサイズが3×3であり12チャネルとなるように構成されている。畳み込み層3(畳み込み層515)は、フィルタサイズが3×3であり24チャネルとなるように構成されている。
プーリング層では、畳み込み層から出力された特徴マップを縮小する。2×2の範囲でプーリングを行う場合、特徴マップは1/4倍に縮小される。ここでは最大値プーリングや平均値プーリングなどの方法を用いることができる。図5例では、プーリング層1(プーリング512)及びプーリング層2(プーリング514)ともに、2×2の範囲でプーリングを行う。図5の例では、2×2の範囲のプーリング層が2層存在するため、入力画像530の解像度が出力層520の段階では1/16倍に縮小される。なお、ニューラルネットワークのネットワーク構造は、図5に示した例に限られない。図5で示した例よりも多層にしても構わないし、チャネル数を変更しても構わない。
(S403)
S403において、検出領域推定部230は、特徴抽出部220で抽出された特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する。検出領域推定部230は、オブジェクトの少なくとも一部を内包する枠情報として検出領域を推定し、オブジェクトの枠、またはオブジェクトの部分の枠の位置、幅、高さ、および、オブジェクト尤度を推定する。本実施形態では、特徴抽出部220によって抽出された特徴マップ5(特徴マップ555)を全結合層1(全結合層556)に通して出力結果を取得し、出力層520から、検出枠中心の画像座標値、枠の幅、枠の高さ、及びオブジェクト尤度を出力する。
(S404)
S404において、カテゴリ尤度推定部240は、特徴抽出部220で抽出された特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する。本実施形態では、特徴抽出部220で抽出された特徴マップ5(特徴マップ555)に全結合層1(全結合層556)を通して、検出枠のカテゴリ尤度を出力する。本実施形態では、検出領域推定部230及びカテゴリ尤度推定部240は、特徴抽出部220と同様にニューラルネットワークで構成する。
本実施形態に係るカテゴリ尤度とは、予め学習した1つ以上のカテゴリのそれぞれに対して注目座標が属する尤度を表している。注目領域が対象のカテゴリに属していない状態を0、対象のカテゴリに属している状態を1と定義する。学習用のGT(Ground Truth)ではカテゴリごとに0と1の二値で表現し、推論時は、任意の領域が任意の対象カテゴリに属する尤度を0から1の値で推論する。本実施形態では、カテゴリを3つ準備し、カテゴリ1=人、カテゴリ2=鳥、カテゴリ3=車として定義する。カテゴリ尤度は、領域のこれらのカテゴリに対する尤度の組み合わせで表現する。
(S405)
S405において、注目領域選択部250は、不図示の撮影装置制御部からの制御信号に基づいて、追尾処理を実施するか否かを判定する。追尾処理を実施すると判定された場合、S406へ進む。一方、追尾処理を実施しないと判定された場合、S408へ進む。
(S406)
S406において、注目領域選択部260は、1つ以上の検出領域(検出枠)から注目領域を選択する処理を実行する。検出枠が追尾処理機能の実行に適しているか否かは、例えば、前フレームにおいて注目領域として用いられた追尾枠と、現フレームにおける1つ以上の検出領域(検出枠)のカテゴリ尤度との類似度を算出し、類似度が閾値以上であるか否かで判定することができる。本実施形態では、カテゴリ尤度の類似度は、前フレームにおける追尾枠と、現フレームにおける検出枠との各カテゴリの尤度に関する二乗誤差の逆数として算出する。この類似度が大きいほど(二乗誤差が小さいほど)、検出枠で得られたオブジェクトは、前フレームの追尾枠におけるオブジェクトと類似した特徴を有するものと判定できる。条件を満たす枠が複数ある場合は、類似度が最も高い枠を選択してもよい。
(S407)
S407において、追尾処理部260は、注目領域選択部250で選択した注目領域(枠)に基づいて追尾処理を開始する。S405で追尾処理を実施すると判定されなかった場合、S406及びS407の処理はスキップされる。
(S408)
S408において、撮影装置100の動作が継続されるか否かを判定する。撮影装置100の動作が継続する場合、S401に戻って、一連の処理が繰り返される。一方、撮影装置100の動作が継続されないと判定された場合、一連の処理を終了する。
なお、S406では、注目領域選択部260は、前フレームにおいて注目領域として用いられた追尾枠との比較により、現フレームでの注目領域を選択する例を説明したが、この例に限定されない。例えば、注目領域選択部260は、前フレームとの比較ではなく、予め指定されたオブジェクトのカテゴリ尤度に類似するカテゴリ尤度を有する検出領域(検出枠)を、注目領域として選択してもよい。
以上説明したように、本実施形態では、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定し、推定したカテゴリ尤度を用いて、1つ以上の検出領域(検出枠)の中から注目領域を選択する。これにより、オブジェクトの誤検出を低減することができる。
<学習装置の機能構成>
続いて、図6は、本実施形態に係る画像処理装置におけるニューラルネットワークの学習を行う学習装置の機能構成を示す。学習装置150は、学習データ記憶部601、学習データ取得部602、画像取得部603、特徴抽出部604、検出領域推定部605、カテゴリ尤度推定部606、領域誤差算出部607、カテゴリ尤度誤差算出部608、及びパラメータ学習部609を備える。
特徴抽出部604、検出領域推定部605、カテゴリ尤度推定部606は、それぞれ図3に示した特徴抽出部220、検出領域推定部230、カテゴリ尤度推定部240と同一であるため、説明を省略する。
学習データ記憶部601は、学習装置150が学習を行うための学習データを記憶保持する。学習データは、i)「学習画像」、ii)「解析対象とする学習画像中のオブジェクトまたはオブジェクトの部分の領域情報と、カテゴリ尤度との組」を含む。学習データ記憶部601は、学習に十分な数の学習データを記憶している。
学習データ取得部602は、学習データ記憶部601に記憶されている学習データを取得する。画像取得部603は、学習データ取得部602から学習画像を取得する。領域誤差算出部607は、検出領域推定部605で取得された検出領域の推定値と、学習データの領域情報とに基づいて、領域誤差を算出する。
カテゴリ尤度誤差算出部608は、カテゴリ尤度推定部606で取得されたカテゴリ尤度の推定値と、学習データのカテゴリ尤度とに基づいて、カテゴリ尤度誤差を算出する。パラメータ学習部609は、領域誤差及びカテゴリ尤度度誤差が小さくなるように、特徴抽出部220、検出領域推定部230、及びカテゴリ尤度推定部240のパラメータ更新を行う。
なお、学習装置150のハードウェア構成については、図2を参照して説明した構成と同様の構成とすることができる。
<学習処理>
以下、図7(a)のフローチャートを参照して、本実施形態に係る学習処理の手順を説明する。
(S701)
S701において、学習データ取得部602は、学習データ記憶部601に記憶されている学習データを取得する。また、画像取得部603は、学習データ取得部602から、学習データに含まれる学習画像を取得する。学習データは、前述したように学習画像と各学習画像の正解情報とから構成される。正解情報は、学習画像中に撮影されたオブジェクトまたはオブジェクトの部分の領域を示す領域情報と、各領域情報に対して付与された各カテゴリに対する尤度スコアとの組を含む。学習データは事前に準備されているものとする。
(S702)
S702において、特徴抽出部604は、画像取得部603から取得した学習画像から特徴量を抽出して出力する。
(S703)
S703において、検出領域推定部605は、特徴抽出部604から取得した特徴量に基づいて、オブジェクトまたはオブジェクトの部分の検出領域の候補を推定する。
(S704)
S704において、カテゴリ尤度推定部606は、特徴抽出部604から取得した特徴量に基づいて、あらかじめ用意した各カテゴリに対するオブジェクトの尤度を推定する。
(S705)
S705において、領域誤差算出部607は、検出領域推定部605で取得された検出領域の推定値と、学習データの枠とから、領域誤差を算出する。領域誤差の算出方法は、例えば非特許文献2に記載の方法を用いることができる。例えば、検出領域推定部605で推定した検出枠の中心座標およびサイズの、学習データ中の合致する正解枠の中心座標およびサイズに対するずれ量を足し合わせて求めることができる。
(S706)
S706において、カテゴリ尤度誤差算出部608は、カテゴリ尤度推定部606で取得されたカテゴリ尤度の推定値と、学習データのカテゴリ尤度とから、カテゴリ尤度誤差を算出する。カテゴリ尤度誤差の算出方法として、二乗誤差の逆数を用いることができる。
(S707)
S707において、パラメータ学習部609は、S705で算出した領域誤差、及び、S706で算出したカテゴリ尤度誤差が小さくなるようにパラメータ更新を行う。更新するパラメータは、ニューラルネットワークの畳み込み層および全結合層の重み係数である。パラメータの更新は、S705で算出された領域誤差と、S706で算出されたカテゴリ尤度誤差の和を取ることにより損失値を算出し、誤差逆伝搬学習法を用いて行うことができる。
(S708)
S708において、パラメータ学習部609は、予め設定した終了条件にしたがって学習が終了したか否かを判定する。終了条件としては、パラメータ更新のための学習データとは別に精度検証用の学習データを用意しておき、前述のS701からS707の処理を行って、損失値の総和が所定値以下になったか否かで判定を行う。その他、S701からS707までのステップの繰り返し回数で判定してもよい。学習が終了していないと判定された場合は、S701に戻って一連の処理を繰り返す。一方、学習が終了したと判定された場合は、一連の処理を終了する。S701からS708までの各ステップによって、S701で取得した学習データに対する学習が完了する。
以上説明したように、本実施形態では、従来のオブジェクト尤度に基づく検出手法に加えて、新たなパラメータとしてカテゴリ尤度を定義する。これにより、従来の手法では把握できなかった注目オブジェクトのカテゴリ特徴を把握することが可能となる。このカテゴリ尤度を用いることで、他のオブジェクトとの類似度を算出可能になるので、オブジェクトの誤検出を低減することができる。従って、より高精度なオブジェクトの検出を実現することができる。よって、高精度な追尾機能を実現することができる。
[実施形態1の変形例1]
カテゴリ尤度推定部240、カテゴリ尤度推定部606において用いられるカテゴリは、単一種類のオブジェクトで構成されず、特定の色合いを持ったオブジェクトの集まりのような任意の特徴を持ったオブジェクトの集まりでもよい。その場合、カテゴリ尤度は、指定した特徴をどの程度持っているかという推定尤度とすることができる。実施形態1で説明したような単一種類を一つのカテゴリとみなした分類とは異なる、抽象的な条件によるカテゴリ尤度の算出が可能である。
例えば、彩度を一つのカテゴリとして定義し、赤や青、緑など鮮やかな色で構成されるオブジェクトは高スコアになるように学習を行い、反対に白や黒などの色で構成されるオブジェクトは低スコアになるよう学習を行ったとする。その場合、同じオブジェクトであっても色を基準に区別することが可能になり、追尾機能実行時に追尾対象の角度が変わるなどして形状が大きく変化した場合でも、色情報を用いることで追尾対象を補足し続けられる可能性が高まる。種類に基づいて定義したカテゴリと、特徴に基づいて定義したカテゴリとでは分類基準が異なるため、推論対象によって使い分けや併用することで、精度の向上を図ることが可能となる。
[実施形態1の変形例2]
実施形態1では、オブジェクトまたはオブジェクトの部分の検出領域候補を推定(S703)した後にカテゴリ尤度の推定(S704)を行う例を説明した。しかし、この例に限定されず、カテゴリ尤度の推定を行った後に検出領域候補を推定してもよい。ここで図7(b)は、その一例を示すフローチャートである。図7(b)では、S702の後にS704のカテゴリ尤度推定処理を先に行い、S703の検出領域推定処理はS706の後に実行する例が示されている。
<実施形態2>
実施形態1では、撮影装置が自動的に検出した複数のオブジェクトに対してカテゴリ尤度を用いた判定を行い、追尾機能を適用する例を説明した。これに対して、実施形態2では、検出を行った際にオブジェクトが分割検出されてしまった際にカテゴリ尤度を用いて領域統合を行うことにより、新たにオブジェクト全体を捉えた領域を生成する例を説明する。
実施形態2に係る各装置のハードウェア構成例は、実施形態1の図2と同一であるため、説明を省略する。
<機能構成>
図8は、本実施形態に係る画像処理装置及び撮影装置の機能構成を示す図である。撮影装置800は、画像処理装置801と、追尾処理部870と、AF処理部880とを備える。画像処理装置801は、画像取得部810、特徴抽出部820、検出領域推定部830、カテゴリ尤度推定部840、注目領域選択部850、及び領域統合部860を備える。
本実施形態の画像処理装置801が、実施形態1の画像処理装置110と異なるのは、領域統合部860をさらに備える点である。
画像取得部810、特徴抽出部820、検出領域推定部830、カテゴリ尤度推定部840、注目領域選択部850の機能は、それぞれ実施形態1の画像取得部210、特徴抽出部220、検出領域推定部230、カテゴリ尤度推定部240、注目領域選択部250と同一であるため、説明を省略する。
領域統合部860は、注目領域選択部850で選択した注目領域と、検出領域推定部830で推定した複数のオブジェクトまたはオブジェクトの部分の推定領域(1つ以上の検出領域)のうち注目領域に近いものとが、同じオブジェクトを表しているかを判定する。そして、領域統合部860は、同一のオブジェクトであると判定された場合は、それらの枠の統合処理を行う。この際、同一であるかの判定にはカテゴリ尤度を用い、比較を行っている二つの枠のカテゴリ尤度から算出したカテゴリ類似度が所定の閾値以上である場合に、それら二つの枠は同一のオブジェクトであると判定することができる。例えば、2つの近接する検出枠があり、一方の検出枠のカテゴリ尤度が「人:0.1、動物:0.7、車0.15」であり、もう一方の検出枠のカテゴリ尤度が「人:0.15、動物:0.68、車0.1」であるような場合に、これら二つの枠が同一のオブジェクトを示すと判定することができる。
すなわち、注目領域のカテゴリ尤度と、1つ以上の検出領域のうちの注目領域以外の他の検出領域のカテゴリ尤度との類似度が閾値以上である場合に統合処理を実行する。二つの枠のカテゴリ尤度の類似度は、例えば二乗誤差の逆数として算出することができる。領域統合部860は、統合処理を行った場合は、統合後の枠を選択する。また、統合処理を行わなかった場合は、注目領域選択部850で選択した注目領域の枠を選択する。
追尾処理部870は、領域統合部860による統合処理を経て選択された枠に基づいて追尾処理を実施する。AF処理部880は、領域統合部860による統合処理を経て選択された枠に基づいてAF処理を実施する。
<処理>
以下、図4(b)のフローチャートを参照して、本実施形態に係る画像処理装置(撮影装置)が実施する処理について説明する。図4(b)におけるS401~S408の各処理は、図4(a)で説明したS401~S408の各処理と同一の処理である。図4(b)では、S406とS407との間に領域統合処理に関するS409が追加されており、さらに、AF処理に関連するS410~S413の処理が追加されている。
(S409)
S409において、領域統合部860は、S406の処理によって取得した注目領域情報と、検出領域推定部830で推定した領域の情報とに基づいて、枠同士の統合処理を実施する。
ここで、図10は、本実施形態に係る統合処理の例を示している。状況1000では、注目領域1001と、注目領域と同一オブジェクトの部分領域1002及び部分領域1003や、別オブジェクト領域1004~1006が存在している。統合処理では、注目領域と、その他の検出領域との間で、距離フィルタリング処理1010、及びカテゴリ尤度フィルタリング処理1030を実施する。
距離フィルタリング処理1010では、注目領域とその他の検出領域の各々との距離をそれぞれ算出し、距離があらかじめ設定された所定値を超える検出領域を候補領域から除外する。すなわち、注目領域と、他の検出領域との距離が所定値以下である場合に統合処理を実行する。
図10の例では、注目領域1001と、他の検出領域である候補領域1002~1006のそれぞれとに対して距離フィルタリング処理1010を実施することで、状況1020では、状況1000における候補領域1006が、候補領域から除外されている。
続いて、カテゴリ尤度フィルタリング処理1030では、注目領域と、その他の候補領域の各々とのカテゴリ尤度の類似度をそれぞれ算出し、カテゴリ尤度の類似度があらかじめ設定された閾値以下の領域を候補領域から除外する。図10の例では、注目領域1021と、候補領域1022~1025の各々に対してカテゴリ尤度フィルタリング処理1030を実施することで、状況1040では、状況1020での候補領域1024と候補領域1025が候補領域から除外されている。その後、注目領域と、残った候補領域とを用いて枠統合処理1050を行い、統合枠1061を生成する。その結果、状況1060のような統合結果が得られる。なお、本実施形態では、統合枠は、統合対象の領域を全て内包する枠として生成している。
(S410)
S410において、注目領域選択部850は、不図示の撮影装置制御部からの制御信号に基づいて、AF処理を実施するか否かを判定する。追尾処理を実施すると判定された場合、S411へ進む。一方、追尾処理を実施しないと判定された場合、S408へ進む。
(S411)
S411において、注目領域選択部850は、注目領域を選択する処理を実行する。
(S412)
S412において、領域統合部860は、S409と同様に、S411の処理によって取得した注目領域の情報と、検出領域推定部830で推定した検出領域の情報とに基づいて、枠同士の統合処理を実施する。
(S413)
S413において、AF処理部880は、領域統合部860で選択した領域(枠)に基づいてAF処理を実行する。
以上説明したように、本実施形態によれば、オブジェクト全体の検出を目的としたオブジェクト検出の際に部分検出が発生した場合に、周囲の検出枠のうち類似のカテゴリ特徴を有する検出枠を統合することで、オブジェクト全体の検出枠を取得することができる。
<実施形態2の変形例1>
実施形態2では、画像からオブジェクトの検出を行った際にオブジェクトが分割して検出されてしまった場合に、カテゴリ尤度を用いて領域統合を行うことで新たにオブジェクト全体の領域を取得する例を説明した。これに対して、実施形態2の変形例1では、ユーザが任意で選択したオブジェクトに対して、領域統合処理を行う例を説明する。
実施形態2の変形例1におけるハードウェア構成は実施形態1と同様であるため、説明を省略する。
<画像処理装置及び撮影装置の機能構成>
図9は、実施形態2の変形例1に係る画像処理装置及び撮影装置の機能構成を示す図である。
撮影装置900は、画像処理装置901と、追尾処理部970と、AF処理部980とを備えている。また、画像処理装置901は、画像取得部910、特徴抽出部920、検出領域推定部930、カテゴリ尤度推定部940、注目領域選択部950、領域統合部960、オブジェクト座標入力部990及び表示制御部991を備える。
実施形態2と特に異なる点は、画像処理装置901が、オブジェクト座標入力部990をさらに備えること、そして、注目領域選択部950の処理内容である。その他に関しては、実施形態2と同様であるため説明を省略する。
オブジェクト座標入力部990は、入力装置103を用いてユーザがAF機能や追尾機能を適用したい任意のオブジェクトの画像座標値を取得する。実施形態2では、入力装置103は、タッチパネルデバイスを利用することができる。タッチパネルデバイスは透過型のデバイスであり、例えば出力装置104の液晶パネル上に設置されている。画像取得部910で取得された画像は、表示制御部991の制御によって出力装置104に表示される。ユーザが出力装置104に表示された画像上の任意のオブジェクト上の点を押下すると、入力装置103であるタッチパネルデバイス上の座標値が取得される。タッチパネルデバイス上の座標値は、オブジェクト座標入力部990によって、入力画像の画像座標値に変換され、注目領域選択部950へ出力される。
注目領域選択部950は、検出領域推定部930で推定したオブジェクトから、追尾処理またはAF処理を行う枠を選択する。この際、選択される枠はオブジェクト座標入力部990によって入力された座標との距離があらかじめ設定された閾値以下であることを条件とすることができる。あるいは、当該距離が最も短い枠を選択するように構成してもよい。
そして、領域統合部960は、カテゴリ尤度に基づいて、注目領域選択部950により選択された注目領域の周辺の検出領域(検出枠)の統合処理を実行する。
以上説明したように、実施形態2の変形例1によれば、ユーザが指定した特定のオブジェクトに対して領域統合処理を行うことで、適切な領域を追跡処理又はAF処理することが可能となる。
<実施形態2の変形例2>
実施形態2では、画像からオブジェクトの検出を行った際にオブジェクトが分割して検出されてしまった場合に、カテゴリ尤度を用いて領域統合を行うことで新たにオブジェクト全体の領域を取得する例を説明した。これに対して、実施形態2の変形例1では、オブジェクト占有度をさらに推定し、オブジェクト占有度が高い(すなわち、オブジェクト全体を捉えられている)枠を統合対象から除外する例を説明する。
実施形態2の変形例2におけるハードウェア構成および機能構成は実施形態2と同様であるため、説明を省略する。
実施形態2の変形例2に係る検出領域推定部830は、検出領域内にオブジェクトが含まれている度合いを示すオブジェクト占有度をさらに推定する。オブジェクト占有度が高いほど、検出領域(検出枠)の中にオブジェクト全体が含まれていることを示す。オブジェクト占有度の推定にもニューラルネットワークを利用することができる。領域統合部860は、オブジェクト占有度が閾値以上となる検出領域(検出枠)を統合対象から予め除外した上で統合処理を実行する。
これにより、誤った統合が行われてしまう可能性を低減することができるため、オブジェクトを精度よく検出することが可能となる。
なお、上述の各実施形態では、追尾機能および自動的に焦点を合わせるオートフォーカス機能(AF機能)を例に説明を行ったが、これらの例に限定されない。例えば、自動的に明るさを調整するオートエクスポージャー機能(AE機能)、自動的に適切な色に調整するオートホワイトバランス機能(AWB機能)など、他の機能の適用時(実行時)にも上述の各実施形態を適用することができる。
上述の各実施形態によれば、様々なカテゴリのオブジェクトを検出可能なマルチカテゴリ検出において、オブジェクトの誤検出を低減し、高精度な検出を実現することができる。
本明細書の開示は、以下の画像処理装置、撮影装置、画像処理装置の制御方法及びプログラムを含む。
(項目1)
1つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する領域推定手段と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、
前記カテゴリ尤度に基づいて、前記1つ以上の検出領域から注目領域を選択する選択手段と、
を備えることを特徴とする画像処理装置。
(項目2)
前記領域推定手段は、オブジェクトの少なくとも一部を内包する枠情報として前記検出領域を推定することを特徴とする項目1に記載の画像処理装置。
(項目3)
前記注目領域と、前記カテゴリ尤度に基づいて、前記1つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合手段をさらに備えることを特徴とする項目1又は2に記載の画像処理装置。
(項目4)
前記統合手段は、前記注目領域のカテゴリ尤度と、前記他の検出領域のカテゴリ尤度との類似度が閾値以上である場合に統合処理を実行することを特徴とする項目3に記載の画像処理装置。
(項目5)
前記統合手段は、前記注目領域と、前記他の検出領域との距離が所定値以下である場合に統合処理を実行することを特徴とする項目3又は4に記載の画像処理装置。
(項目6)
前記領域推定手段は、検出領域内にオブジェクトが含まれている度合いを示すオブジェクト占有度をさらに推定し、
前記統合手段は、前記オブジェクト占有度が閾値以上となる検出領域を統合対象から予め除外した上で統合処理を実行することを特徴とする項目3乃至5の何れか1項目に記載の画像処理装置。
(項目7)
前記選択手段は、前フレームにおける注目領域のカテゴリ尤度と、現フレームにおける前記1つ以上の検出領域のカテゴリ尤度とに基づいて、前記1つ以上の検出領域から注目領域を選択することを特徴とする項目1乃至6の何れか1項目に記載の画像処理装置。
(項目8)
前記カテゴリは、オブジェクトの種類であることを特徴とする項目1乃至7の何れか1項目に記載の画像処理装置。
(項目9)
前記カテゴリは、彩度であることを特徴とする項目1乃至7の何れか1項に記載の画像処理装置。
(項目10)
1つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する領域推定手段と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、
前記画像を表示手段に表示させる表示制御手段と、
前記表示手段に表示された前記画像上で座標の指定を受け付ける座標入力手段と、
前記座標に基づいて、前記1つ以上の検出領域から注目領域を選択する選択手段と、
前記カテゴリ尤度に基づいて、前記注目領域と、前記1つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合手段と、
を備えることを特徴とする画像処理装置。
(項目11)
オブジェクトの追尾機能、オートフォーカス機能、オートエクスポージャー機能、オートホワイトバランス機能のうちの少なくとも1つの機能を有する撮影装置であって、
項目1乃至10の何れか1項目に記載の画像処理装置を備え、
前記選択手段は、前記撮影装置の前記機能の実行時に前記注目領域の選択を行うことを特徴とする撮影装置。
(項目12)
画像処理装置の制御方法であって、
1つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出工程と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する領域推定工程と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定工程と、
前記カテゴリ尤度に基づいて、前記1つ以上の検出領域から注目領域を選択する選択工程と、
を有することを特徴とする画像処理装置の制御方法。
(項目13)
画像処理装置の制御方法であって、
1つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出工程と、
前記特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する領域推定工程と、
前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定工程と、
前記画像を表示手段に表示させる表示制御工程と、
前記表示手段に表示された前記画像上で座標の指定を受け付ける座標入力工程と、
前記座標に基づいて、前記1つ以上の検出領域から注目領域を選択する選択工程と、
前記カテゴリ尤度に基づいて、前記注目領域と、前記1つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合工程と、
を有することを特徴とする画像処理装置の制御方法。
(項目14)
コンピュータに、項目12又は13に記載の画像処理装置の制御方法を実行させるためのプログラム。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100:撮影装置、110:画像処理装置、210:画像取得部、220:特徴抽出部、230:検出領域推定部、240:カテゴリ尤度推定部、250:注目領域選択部、260:追尾処理部

Claims (14)

  1. 1つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、
    前記特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する領域推定手段と、
    前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、
    前記カテゴリ尤度に基づいて、前記1つ以上の検出領域から注目領域を選択する選択手段と、
    を備えることを特徴とする画像処理装置。
  2. 前記領域推定手段は、オブジェクトの少なくとも一部を内包する枠情報として前記検出領域を推定することを特徴とする請求項1に記載の画像処理装置。
  3. 前記注目領域と、前記カテゴリ尤度に基づいて、前記1つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合手段をさらに備えることを特徴とする請求項1に記載の画像処理装置。
  4. 前記統合手段は、前記注目領域のカテゴリ尤度と、前記他の検出領域のカテゴリ尤度との類似度が閾値以上である場合に統合処理を実行することを特徴とする請求項3に記載の画像処理装置。
  5. 前記統合手段は、前記注目領域と、前記他の検出領域との距離が所定値以下である場合に統合処理を実行することを特徴とする請求項3に記載の画像処理装置。
  6. 前記領域推定手段は、検出領域内にオブジェクトが含まれている度合いを示すオブジェクト占有度をさらに推定し、
    前記統合手段は、前記オブジェクト占有度が閾値以上となる検出領域を統合対象から予め除外した上で統合処理を実行することを特徴とする請求項3に記載の画像処理装置。
  7. 前記選択手段は、前フレームにおける注目領域のカテゴリ尤度と、現フレームにおける前記1つ以上の検出領域のカテゴリ尤度とに基づいて、前記1つ以上の検出領域から注目領域を選択することを特徴とする請求項1に記載の画像処理装置。
  8. 前記カテゴリは、オブジェクトの種類であることを特徴とする請求項1に記載の画像処理装置。
  9. 前記カテゴリは、彩度であることを特徴とする請求項1に記載の画像処理装置。
  10. 1つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出手段と、
    前記特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する領域推定手段と、
    前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定手段と、
    前記画像を表示手段に表示させる表示制御手段と、
    前記表示手段に表示された前記画像上で座標の指定を受け付ける座標入力手段と、
    前記座標に基づいて、前記1つ以上の検出領域から注目領域を選択する選択手段と、
    前記カテゴリ尤度に基づいて、前記注目領域と、前記1つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合手段と、
    を備えることを特徴とする画像処理装置。
  11. オブジェクトの追尾機能、オートフォーカス機能、オートエクスポージャー機能、オートホワイトバランス機能のうちの少なくとも1つの機能を有する撮影装置であって、
    請求項1乃至10の何れか1項に記載の画像処理装置を備え、
    前記選択手段は、前記撮影装置の前記機能の実行時に前記注目領域の選択を行うことを特徴とする撮影装置。
  12. 画像処理装置の制御方法であって、
    1つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出工程と、
    前記特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する領域推定工程と、
    前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定工程と、
    前記カテゴリ尤度に基づいて、前記1つ以上の検出領域から注目領域を選択する選択工程と、
    を有することを特徴とする画像処理装置の制御方法。
  13. 画像処理装置の制御方法であって、
    1つ以上のオブジェクトを含む画像から特徴量を抽出する特徴抽出工程と、
    前記特徴量に基づいて、オブジェクトの少なくとも一部を含む1つ以上の検出領域を推定する領域推定工程と、
    前記特徴量に基づいて、各検出領域が複数のカテゴリの各々に属する可能性を示すカテゴリ尤度を推定する尤度推定工程と、
    前記画像を表示手段に表示させる表示制御工程と、
    前記表示手段に表示された前記画像上で座標の指定を受け付ける座標入力工程と、
    前記座標に基づいて、前記1つ以上の検出領域から注目領域を選択する選択工程と、
    前記カテゴリ尤度に基づいて、前記注目領域と、前記1つ以上の検出領域のうちの前記注目領域以外の他の検出領域とを統合する統合工程と、
    を有することを特徴とする画像処理装置の制御方法。
  14. コンピュータに、請求項12又は13に記載の画像処理装置の制御方法を実行させるためのプログラム。
JP2022163584A 2022-10-11 2022-10-11 画像処理装置、撮影装置、画像処理装置の制御方法及びプログラム Pending JP2024056578A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022163584A JP2024056578A (ja) 2022-10-11 2022-10-11 画像処理装置、撮影装置、画像処理装置の制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022163584A JP2024056578A (ja) 2022-10-11 2022-10-11 画像処理装置、撮影装置、画像処理装置の制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2024056578A true JP2024056578A (ja) 2024-04-23

Family

ID=90749079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022163584A Pending JP2024056578A (ja) 2022-10-11 2022-10-11 画像処理装置、撮影装置、画像処理装置の制御方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2024056578A (ja)

Similar Documents

Publication Publication Date Title
KR102574141B1 (ko) 이미지 디스플레이 방법 및 디바이스
US10872262B2 (en) Information processing apparatus and information processing method for detecting position of object
US20200320726A1 (en) Method, device and non-transitory computer storage medium for processing image
CN107944403B (zh) 一种图像中的行人属性检测方法及装置
KR20180065889A (ko) 타겟의 검측 방법 및 장치
CN105930822A (zh) 一种人脸抓拍方法及系统
US11915430B2 (en) Image analysis apparatus, image analysis method, and storage medium to display information representing flow quantity
CN110264493A (zh) 一种针对运动状态下的多目标对象追踪方法和装置
CN112287868B (zh) 一种人体动作识别方法及装置
CN110210474A (zh) 目标检测方法及装置、设备及存储介质
CN106970709B (zh) 一种基于全息成像的3d交互方法和装置
JP2018120283A (ja) 情報処理装置、情報処理方法及びプログラム
CN111814754A (zh) 面向夜间场景的单帧图像行人检测方法和装置
CN111582155A (zh) 活体检测方法、装置、计算机设备和存储介质
JP2015204030A (ja) 認識装置及び認識方法
JP2018113660A (ja) 情報処理装置、情報処理方法、システム
KR20080079443A (ko) 영상으로부터의 객체 검출 방법 및 장치
KR20060121503A (ko) 무인 감시 로봇에서 중요 얼굴 추적 장치 및 방법
CN111611836A (zh) 基于背景消除法的船只检测模型训练及船只跟踪方法
JP6698058B2 (ja) 画像処理装置
CN116051736A (zh) 一种三维重建方法、装置、边缘设备和存储介质
JP2024056578A (ja) 画像処理装置、撮影装置、画像処理装置の制御方法及びプログラム
JP6855175B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP6555940B2 (ja) 被写体追跡装置、撮像装置、及び被写体追跡装置の制御方法
KR20180012638A (ko) 누적 채널 특징점을 이용한 영상 인식에서의 객체 검출 방법 및 장치