JP2023132342A - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP2023132342A
JP2023132342A JP2022037600A JP2022037600A JP2023132342A JP 2023132342 A JP2023132342 A JP 2023132342A JP 2022037600 A JP2022037600 A JP 2022037600A JP 2022037600 A JP2022037600 A JP 2022037600A JP 2023132342 A JP2023132342 A JP 2023132342A
Authority
JP
Japan
Prior art keywords
likelihood
object region
instruction
likelihood map
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022037600A
Other languages
English (en)
Inventor
建志 齋藤
Kenshi Saito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2022037600A priority Critical patent/JP2023132342A/ja
Priority to US18/179,258 priority patent/US20230290106A1/en
Publication of JP2023132342A publication Critical patent/JP2023132342A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 ユーザの意図する被写体領域を検出する。【解決手段】 撮像画像を取得し、取得した撮像画像に対する指示を受け付け、撮像画像における物体の存在尤度を表す尤度マップを取得し、撮像画像における物体の位置と大きさを表す領域を推定し、推定した領域のうち受け付けた指示の位置に基づいて選択した一つ以上の物体領域候補と、尤度マップと、を用いて指示に対応する物体領域を決定し、受け付けた指示の位置と尤度マップとに基づいて決定された物体領域を修正する。【選択図】 図6

Description

本発明は、被写体を検出する画像処理技術に関する。
物体検出はコンピュータビジョン研究の分野の一つであり、これまで広く研究されている。コンピュータビジョンはコンピュータに入力された画像を理解し、その画像の様々な特性を認識する技術である。その中で物体検出は、自然画像内に存在する物体の位置と種類を推定するタスクである。非特許文献1では多層ニューラルネットワークを用いることで物体の中心を示す尤度マップを取得し、尤度マップのピーク点を抽出することにより物体の中心位置を検出する。加えて、中心位置に対応するオフセット量と物体サイズを推論することにより、検出対象物体の枠を取得することができる。
物体検出は撮像装置のオートフォーカス機能に応用することが可能である。特許文献1ではユーザの指定座標を受け取り、画像と共に多層ニューラルネットワークに入力することで、ユーザの意図を踏まえた主被写体を検出し、オートフォーカス機能を実現している。特許文献1では多層ニューラルネット内で尤度マップに加え、指定座標から広がる2次元のガウシアンに基づいて位置マップを生成する。さらに、多層ニューラルネット内で位置マップと尤度マップを統合することで、主被写体の検出を行う。指定座標の近くに尤度マップのピークがある場合、統合処理における位置マップの寄与度を高くし、そうでない場合は低くする。特許文献1ではさらに、電子ズーム率や手振れ量などの撮像情報を用い、指定座標から位置マップを生成する際のガウシアンの広がりを調整している。例えば、撮像情報として手振れ量を取得する場合、手振れ量が多いと被写体の座標指示が困難であると考えられるため、位置マップの広がりを大きくする。
特開2020-173678号公報
Objects as Points, Xingyi Zhou et al., 2019
前述の通り、特許文献1にはユーザの意図を踏まえた主被写体の検出方法が示されている。しかしながら、特許文献1では同一カテゴリの被写体が複数存在する場合にユーザの意図通りの被写体にオートフォーカスを合わせることが困難である。例えば、同一カテゴリの被写体が前後に位置していることを考える。この時、後方の被写体は前方の被写体に重なるようにして一部が隠れているとする。このケースにおいてユーザが後方の被写体を指定していたとすると、後方の被写体について特徴が良く抽出できず、位置マップの信頼度が低くなり、後方の被写体を正しく検出できない恐れがある。もしくは、被写体の特徴が良く抽出できる前方の被写体に対する位置マップの信頼度が高くなり、前方の被写体が主被写体となる恐れがある。また、特許文献1では、主被写体の特徴として犬の顔と犬の体がある場合、それぞれについて反応する主被写体検出部を用意する必要がある。主被写体となりうる物体は無数に存在し、それらすべてについて主被写体検出部をあらかじめ用意しておくことは困難である。
上記のように、同一カテゴリの被写体が前後に位置しているケースに非特許文献1を適用し、指定座標から最も近い検出結果を利用することを考える。中心を示す尤度マップを前方の被写体と後方の被写体で分離して推論することは困難であり、前方の被写体に尤度マップのピークが出現してしまう可能性が高い。
本発明は上記の課題に鑑みてなされたものであり、ユーザが意図する被写体領域を検出可能な画像処理装置を提供することを目的とする。また、その方法及びプログラムを提供することを目的とする。
本発明に係る画像処理装置は以下の構成を備える。即ち、撮像画像を取得する画像取得手段と、前記画像取得手段で取得した撮像画像に対する指示を受け付ける指示受付手段と、前記撮像画像における物体の存在尤度を表す尤度マップ取得手段と、前記撮像画像における物体の位置と大きさを表す領域を推定する推定手段と、前記推定した領域から前記指示受付手段で受け付けた指示の位置に基づいて選択した一つ以上の物体領域候補と、前記尤度マップと、を用いて前記指示に対応する物体領域を決定する決定手段と、前記指示受付手段で受け付けた指示の位置と前記尤度マップとに基づいて前記決定手段で決定された物体領域を修正する修正手段とを備える画像処理装置。
以上の構成からなる本発明によれば、ユーザの意図する被写体領域の検出を可能とする画像処理装置を提供することができる。
画像処理装置の概略構成図 実施形態1の処理フロー図 二つの被写体が写る撮像画像とその尤度マップの例 物体領域候補の例 物体領域候補選択の詳細フロー 物体領域候補統合の例 バイリニア補間の例 補間を用いた物体領域候補選択の例 物体領域修正手段の詳細フロー 物体領域修正の例 第二の尤度マップ取得手段を有する画像処理装置の構成図 第二の尤度マップ取得手段を有する画像処理装置の詳細フロー
以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。
<実施形態1>
図1に本実施形態に係る画像処理装置の概略構成図を示す。図1を用いて、本実施形態の構成を説明する。なお、ここでは概要のみを説明し、詳細については後述する。
撮像装置110は、光学系、撮像素子などを用いて構成され、画像を撮像して、画像取得部101に出力する。例えば、ディジタルカメラや監視カメラといった撮像装置を用いることが考えられる。また、撮像装置110はユーザからの入力を受け付けるインタフェースを持ち、ユーザからの入力を指示受付部104に出力する。例えば、インタフェースとしてタッチディスプレイを搭載し、ユーザからのタッチ操作結果を指示受付部104に出力することが考えられる。
画像処理装置100は、画像取得部101、尤度マップ取得部102、推定部103、指示受付部104、物体領域候補選択部105、物体領域候補統合部106を備える。画像取得部101は、撮影装置110からの画像を受け付ける。画像は尤度マップ取得部102及び推定部103に入力され、それぞれ尤度マップと物体領域候補を取得する。指示受付部104は、撮像装置110からユーザ指示を取得する。具体的にはユーザがタッチ操作により入力した指示座標を1点取得する。物体領域候補選択部105は、尤度マップと指示座標に基づいて、物体領域候補の中から、統合処理対象の一つ以上の物体領域候補を選択する。物体領域候補統合部106は、選択された物体領域候補を統合し、物体領域を一つ取得する。画像処理装置100内の機能構成の一部(例えば、尤度マップ取得部102,推定部103、物体領域候補選択部105、物体領域候補統合部106)をネットワーク上の画像処理装置が備える画像処理システムとすることもできる。また、画像処理装置100は、付図示のCPU、ROM,RAM、各種インターフェースなどのハードウェアで構成されている。
結果出力部120は物体領域を出力し、出力された物体領域は例えば、カメラのオートフォーカス機能に応用される。例えば、物体領域の中から測距点をいくつかサンプリングし、位相差AFに用いることができる。ユーザが意図する物体領域を精度よく検出できると、オートフォーカス精度も良くなる。
図2に本実施形態の画像処理装置100における処理のフローチャートを示す。以下、フローチャートは、CPUが制御プログラムを実行することにより実現されるものとする。なお、ここでは概要のみを説明し、詳細については後述する。
S200で撮像装置110が撮影を開始する。S201では画像処理装置100の画像取得部101が、撮影された画像を所定の解像度に変換する。変換された画像に基づいて、S202で尤度マップ取得部102が尤度マップを、S203で推定部103が物体領域候補を取得する。S204では指示受付部104がユーザからの座標の指示を受け付け、S205で指示の有無を判定し、指示がなかった場合はS210に進み物体領域なしと出力される。指示があった場合、S206に進む。S206では受け付けた指示座標をS201で変換した解像度に対応するように変換する。変換された指示座標に基づいてS207にて物体領域候補選択部105が物体領域候補を選択する。S207の詳細フローは図5を用いて後述する。S207の結果、物体領域候補が選択されているか否かをS208で判定する。選択されていない場合、S210に進み物体領域なしと出力される。選択されている場合、S209にて物体領域候補統合部106が選択された一つ以上の物体領域候補を統合し、S210で結果出力部120が一つの物体領域を出力する。図2では、S207~S209を個々に分けて説明したが、S207~S209は、物体領域を決定する一連のステップである。
<画像変換>
図2のS201に示される画像変換について説明する。本実施形態ではまずS200にて撮影を開始し、撮像画像を取得する。撮像画像は、例えば、幅6000ピクセル、高さ4000ピクセルのRGB画像とする。S201では撮像画像を所定のサイズに変換し、尤度マップや物体領域候補を取得する多層ニューラルネットワークの入力形式に合わせる。本実施形態において、それら多層ニューラルネットワークの入力サイズは幅500ピクセル、高さ400ピクセルのRGB画像とする。本実施形態では撮像画像の左右500ピクセルを切り取り、10分の1に縮小するが、撮像画像の上下に400ピクセルの黒画像をパディングし、12分の1に縮小してもよいし、撮像画像から幅500ピクセル高さ400ピクセルの領域を直接切り取ってもよい。変換された画像は、原点を左上隅の画素に持ち、その座標を(0,0)とする。座標(i,j)はj行i列の座標を示し、右下隅の画素は座標(499,399)となる。以降、変換された画像の座標系を画像座標系と呼ぶ。
<尤度マップの取得>
図1の102及び図2のS202に示される尤度マップの取得について図3を用いて説明する。本実施形態では、非特許文献1のように、尤度マップを多層ニューラルネットワークにより取得する。多層ニューラルネットワークの入力は解像度変換された画像であり、幅500ピクセル、高さ400ピクセル、3チャネルのRGB画像である。多層ニューラルネットワークの出力は列数10、行数8、1チャネルのテンソル(行列)である。取得されたテンソル(行列)を尤度マップと呼ぶ。尤度マップ(の1チャネル目)は、原点を左上隅の画素に持ち、その座標を(0,0)とする。座標(i,j)はj行i列の座標を示し、右下隅の画素は座標(9,7)となる。以降、尤度マップの座標系をマップ座標系と呼ぶ。尤度マップを画像処理装置100内の演算により取得することもできるし、画像処理装置100の外部で尤度マップを算出し、画像処理装置100内の尤度マップ取得部102でその尤度マップを取得することもできる。
尤度マップを取得する多層ニューラルネットワークは、多数の学習データ(画像と尤度マップの組)を用いてあらかじめ学習しておく。詳細は非特許文献1を参照されたい。本実施形態において尤度マップは、あらゆる物体に対して反応する顕著性マップを仮定するが、特定の物体のみに反応するものでもよい。顕著性マップ(Saliency map)とは、人が注視しやすい部分に反応するマップである。
図3(a)に画像変換された撮像画像の例を、図3(b)にそれに対応する尤度マップの例を示す。画像変換された撮像画像300には、後方の被写体301と前方の被写体302の二つの被写体が写っている。尤度マップの各要素はその要素に対応する箇所の物体の存在尤度を示す。存在尤度は0から255までの値をとり、値が大きいほど存在尤度が高いことを示す。図3(b)の各要素は尤度が低いほど白く、尤度が高くなるにつれて黒く示している。尤度マップ304は、特に前方の被写体302に対する尤度が高く取得されており、(6,4)で最大尤度204をとる。
<物体領域候補の取得>
図1の103及び図2のS203に示される物体領域候補の推定について図4を用いて説明する。物体領域候補についても尤度マップと同様に、多層ニューラルネットワークを用いて取得する。多層ニューラルネットワークの入力は尤度マップの取得と同様に、解像度変換された画像であり、幅500ピクセル、高さ400ピクセル、3チャネルのRGB画像である。多層ニューラルネットワークの出力は列数10、行数8、4チャネルのテンソルである。テンソルの1チャネル目は当該要素から物体中心へのx方向のオフセット量、2チャネル目は同様にy方向のオフセット量を示す。テンソルの3チャネル目は当該要素が示す物体の幅を、4チャネル目は同様に高さを示す。以上4チャネルの情報から、物体の中心位置と物体のサイズが取得できる。このテンソルを物体領域候補テンソルと呼ぶ。本実施形態では、物体領域候補テンソルの各チャネルは尤度マップと同じ行数と列数を持ち、それらの座標系もマップ座標系となる。物体領域候補テンソルの各チャネルの列数と行数は尤度マップと異なってもよく、異なる場合は補間(例えばバイリニア補間)により行数と列数を一致させてもよい。物体領域候補を画像処理装置100内の演算で取得することもできるし、画像処理装置100の外部で物体領域候補を算出し、画像処理装置100内の推定部103でその物体領域候補を取得することもできる。
物体領域候補テンソルを取得する多層ニューラルネットワークは、尤度マップの取得と同様に、多数の学習データ(画像とオフセット量及び幅高さの組)を用いてあらかじめ学習しておく。本実施形態では4チャネルの情報を同時に出力する多層ニューラルネットワークを用いたが、1チャネルずつ出力する多層ニューラルネットワークを4つ用意し、その結果を結合してもよい。
図4(a)に画像変換された撮像画像の例を示す。図4(b)から(d)はそれぞれ、物体中心へのx方向のオフセット量マップ、物体中心へのy方向のオフセット量マップ、物体の幅マップ、物体の高さマップを示す。図4(b)から(d)に示される要素の数値は単位をピクセルとする。x方向オフセット量は右方向を正とし、y方向オフセット量は下方向を正とする。
ここで、図3(b)において尤度が最大となった座標(6,4)に注目する。図4(b)から(d)の白黒反転している要素が注目箇所である。図4(a)において、点401に示される点がこの注目箇所に対応する画像上の箇所である。注目箇所におけるx方向オフセット量が-3で、y方向オフセット量が-2である。つまり、物体中心を注目箇所である点401から左上方向、点402の箇所であると取得している。
以下の式1でマップ座標を画像座標に変換することができる。
Figure 2023132342000002
ここで、I、Iはそれぞれ画像変換された撮像画像の幅と高さを表し、M、Mはそれぞれマップの幅と高さを表す。(I,I)は画像座標系の点を、(M,M)はマップ座標系の点を表す。式1によれば、マップ座標の点(6,4)は画像座標に変換すると(325,225)である。即ち、図4の点401の画像座標が(325,225)であり、これにオフセット量を加算した結果の(322,222)が点402の画像座標である。
また、注目箇所における物体の幅と高さは、図4(d)及び(e)よりそれぞれ166と348である。以上より、注目箇所における物体領域候補400は画像座標系において、(322,222)を中心とし、幅166、高さ348の矩形で表現される。
本実施形態では物体領域候補を上下左右のオフセット量と物体の幅高さとしたが、例えば左右端及び上下端への距離としてもよい。
<物体領域候補選択>
図1の105及び図2のS207に示される物体領域候補の選択について図5の詳細フロー図を用いて説明する。まず準備ステップS500にて各変数を初期化する。変数はそれぞれ、n及びmがカウンタ、Nが選択する物体領域候補の数、Tが尤度の閾値、Dが距離の閾値、Lijが尤度、Sijが物体領域候補、(P,P)が指示受付部で取得した座標(指示座標)の座標である。指示座標(P,P)は画像座標系で与えられた指示座標を式1に基づいてマップ座標系に変換したものであり、2次元の実数ベクトルである。S501ですべてのマップ座標の中から指示座標(P,P)にm番目に近いマップ座標(u,v)を選択する。(u,v)は2次元の正の整数ベクトルである。S502で(u,v)が存在し、且つ(P,P)と(u,v)の距離を取得し、距離が閾値D以下なら次のステップS503に進み、そうでなければ処理を終了する。本実施形態では距離関数としてユークリッド距離(式2)を用いるが、他の距離関数を用いてもよい。
Figure 2023132342000003
S503でマップ座標(u,v)に対応する尤度マップLuvを抽出する。S504でLuvと尤度の閾値Tを比較し、LuvがT以上であれば次のステップS505に進む。LuvがT未満の場合、物体領域候補に選ばないように、S508に進みmを1加算してS501に戻る。S505でマップ座標(u,v)に対応する物体領域候補Suvを抽出する。S506で現在の尤度と物体領域候補をそれぞれL、Sとして保存する。S507でnとNを比較し、nがN以上ならば処理を終了する。nがN未満の場合、S508でnを、S509でmを1加算し、S501に戻る。本実施形態では所定の数Nの物体領域候補を選択したが、選択する物体領域候補の個数の決定方法はこれに限らない。例えば、尤度Lの合計が所定の値以上になるように物体領域候補を選択してもよい。
<物体領域候補統合>
図1の106及び図2のS209に示される物体領域候補の統合について図6を用いて説明する。なお、本実施形態ではユーザが後方被写体301を選択する場合を想定するが、前方被写体302を選択する場合でも指示座標のみ異なり同様の処理となる。ユーザが後方被写体301を選択したい場合、ユーザは図6(a)のように後方の被写体301に対応する箇所600を指示する。指示座標は画像座標系の(235,245)であり、式1によりマップ座標系に変換すると(4.2,4.4)である。前述の物体領域候補選択処理を行うと、601に示される斜線部分、即ちマップ座標系で最も近い(4,4)、2番目に近い(4,5)、3番目に近い(5,4)に対応する箇所が選択される。従って尤度L、L、LにはそれぞれL44、L45、L54が、物体領域候補S、S、SにはそれぞれS44、S45、S54が代入される。領域602、603、604はそれぞれS44、S45、S54に対応する物体領域候補を図示したものである。図6(b)の605から609はそれぞれ601に対応する尤度、xオフセット量、yオフセット量、幅、高さを表す。図6(c)に物体領域候補統合の結果を示す。610は統合された物体領域候補の中心位置であり、611はそれに幅及び高さを付け加えた物体領域候補である。
物体領域候補統合について、具体的な計算例を用いて説明する。まず、画像座標系における物体領域候補の中心位置を計算する。図6(b)より、物体領域候補S44のxオフセット量は-1、yオフセット量は-41である。式1より、マップ座標の(4,4)に対応する画像座標は(225,225)である。これに物体領域候補S44(602)のオフセット量を加算し、画像座標系における物体領域候補の中心位置(224,184)を取得する。同様にS45(603)の中心位置(224,172)、S54(604)の中心位置(276,223)を取得することができる。物体領域候補の統合には尤度の加重平均を用いる。尤度の加重平均は以下の式3を用いて計算することができる。
Figure 2023132342000004
は加重平均をとる対象の値であり、xは加重平均をとった結果である。例えば、統合された物体領域の中心位置のx座標を求める場合、Sに対応する物体領域候補の中心位置のx座標をxに代入すればよい。同様にして中心位置のy座標、幅、高さを式3に代入すると、統合された物体領域の中心位置、幅、高さを求めることができる。
尤度Lの初期値に0を代入しておくことで、距離閾値Dの範囲内で尤度閾値Tを超える物体領域候補が所定個数Nに満たない場合も、式3を用いて統合された物体領域を取得することができる。また、すべての尤度Lが0である場合、物体領域なしとする。
以上の実施形態をまとめる。まず撮像画像に対し、尤度マップ取得と物体領域候補取得ができるように画像変換を施す。尤度マップ取得と物体領域候補取得は多層ニューラルネットワークにより実現される。物体領域候補選択部により、指示受付部で取得したユーザの指示座標の近傍に位置する物体領域候補が三つ選択される。選択された物体領域候補は、物体領域候補統合部により尤度を重みとした加重平均が計算され、単一の物体領域に統合される。結果として、図3のように尤度マップが前方の被写体に強く反応している場合においても、図6(c)のようにユーザの意図通りである後方の被写体に対する物体領域611が出力される。
<変形例1>
実施形態1では物体領域候補を統合する際に、尤度マップの値を用いたが、指示受付部で取得した座標(指示座標)と物体領域候補との距離を用いてもよい。変形例1では、指示座標と物体領域候補との距離が短いほど、物体領域候補を統合する際の加重平均に用いる重みを大きくする。具体的には以下に示す式4にあるように、指示座標(P,P)と物体領域候補との距離の逆数を用いて加重平均の重みを算出する。
Figure 2023132342000005
ここで(u,v)は尤度Lに対応するマップ座標である。距離の計算には式2で使用したマップ座標系におけるユークリッド距離を用いる。式3の尤度Lの代わりに式4で求めた重みWを用いて加重平均を計算することで、指定位置からの距離を考慮した物体領域候補の統合が可能になる。
以上の説明では物体領域候補を統合するステップにおいて、加重平均の重みを再計算したが、指示座標からの距離を考慮した尤度マップをあらかじめ算出しておいてもよい。指示座標からの距離を考慮した尤度マップを修正尤度マップと呼ぶ。修正尤度マップKijは以下の式5で算出される。
Figure 2023132342000006
式5では尤度マップLijのすべての要素について、指示座標と該要素との距離で除算する計算を施し、修正尤度マップKijに代入している。
変形例1によれば指定座標により近い物体領域候補をより重視して物体領域候補の統合をすることができる。
<変形例2>
変形例2では、尤度マップ及び物体領域候補テンソルの各チャネルを補間することにより、物体領域候補の選択方法を拡張する例を示す。
まず、図7を用いて補間について説明する。図7は図4(d)に示す物体領域候補の幅マップ(前述の物体領域候補テンソルの3チャネル目)の一部を抜粋したものである。ここでは、マップ座標(4,4)から(5,5)について抜粋した幅マップ700において、座標701が与えられた場合にバイリニア補間を適用する例を示す。補間手法はバイリニア補間に限定されず、最近傍補間やバイキュービック補間に代表される他の補間手法を用いてもよい。また、マップ座標(4,4)から(5,5)以外の範囲についても同様にして補間処理を適用することができる。図7の幅マップ700の各要素に示される()内の値はマップ座標を示し、コロンの右に示される値は当該座標における物体領域候補の幅を示す。
図7に示すように、点701と各マップ座標とのx方向及びy方向への距離をそれぞれx、x、y、yとする。例えば、点701のマップ座標が(4.2,4.4)であれば、x=0.2、x=0.8、y=0.4、y=0.6となる。バイリニア補間は、点701と各マップ座標とのx方向及びy方向への距離を用いて以下の式6のように実現される。
Figure 2023132342000007
ijは補間対象のマップ座標(i,j)における値であり、Sは補間結果である。図7の例でSijはマップ座標(i,j)における物体領域候補の幅である。物体領域候補の高さについても同様の計算をすることによって補間値を算出することができる。物体候補領域へのオフセット量を補間する際には、あらかじめ物体領域候補の中心位置に変換する必要がある。オフセット量を中心位置へ変換する方法については実施形態1の<物体領域候補統合>を参照されたい。また、尤度マップについても同様の手順により補間値を算出することができる。
補間を用いることで、あらゆる座標位置についての尤度及び物体領域候補が取得可能になる。ここでは、補間を用いた物体領域候補の選択について図8を用いて説明する。撮像画像800が与えられ、ユーザが被写体802を選択したい場合、指定座標801が与えられることを考える。801を中心に広がる異なる半径を持つ複数の同心円(例えば803)を考える。それぞれの同心円を所定の数で分割した点(例えば804)を近傍点群と呼ぶ。本実施形態において物体領域候補選択部は、指定座標801と近傍点群において物体領域候補を補間した値を選択する。ただし、マップ座標の範囲外に位置する近傍点群の点は選択しない。
同心円の数をNr、同心円同士の半径の差をdr、同心円同士の分割数の差をdqとする。これらの値はあらかじめ設定しておく。例えば、図8ではNr=3、dr=0.5、dq=4と設定されている。指定座標801からnr番目の同心円を考えると、その半径rnrは式7、分割数qnrは式8から算出される。
Figure 2023132342000008
式7及び式8において、nr=0は指定座標801を示し、その時の半径r=0とし、分割数q=1とする。図8の803は中心から3番目の同心円であり、半径はr=3、分割数はq=12である。
指定座標801及び近傍点群における物体の尤度は、尤度マップを補間することによって取得される。ここで、近傍点を表すインデックスを定義する。nr番目の同心円上の近傍点群を考える。上方向に位置する近傍点を0番目とし、時計回りに番号を付ける。q番目に位置する近傍点のインデックスを(nr,q)とする。0番目の近傍点の一つ左に位置する近傍点のインデックスは(nr,qnr-1)となる。図8の804はインデックス(3,3)で表現される。
上記のインデックスを用いて式3を変形することで、本実施形態における物体領域候補の尤度による加重平均を算出することができる(式9)。
Figure 2023132342000009
ここで、L(nr,q)はインデックス(nr,q)で表現される近傍点における尤度の補間値である。x(nr,q)はインデックス(nr,q)で表現される近傍点における加重平均をとる対象の値であり、xは加重平均をとった結果である。例えば、統合された物体領域の中心位置のx座標を求める場合、インデックス(nr,q)で表現される近傍点に対応する物体領域候補の中心位置のx座標の補間値をx(nr,q)に代入すればよい。同様にして中心位置のy座標、幅、高さを式3に代入すると、統合された物体領域の中心位置、幅、高さを求めることができる。
同心円の半径rnrを用いることで、変形例1に示すように指示座標と物体領域候補との距離を考慮することができる。
Figure 2023132342000010
nrは式7に示されるnr番目の同心円の半径である。式9のL(nr,q)を式10のW(nr,q)に置き換えることで、指示座標と物体領域候補との距離を考慮した物体領域候補の統合が可能になる。
撮像装置に搭載される回路の制限により、多層ニューラルネットワークを軽量にせざるを得ない場合、その出力であるマップ座標の解像度が低くなる。マップ座標の解像度が低いと、指示座標近傍のマップ座標を選択した場合でも、指示座標とマップ座標のずれが大きくなる。変形例2では尤度マップと物体領域候補テンソルの各チャネルを補間することにより、マップ座標の解像度に依存しない物体領域候補の統合を実現することができる。
<変形例3>
実施形態1の物体領域候補統合S209で決定される物体領域の位置は、物体領域候補選択によって決定された物体候補領域の位置から計算される。しかし、尤度マップの精度によっては、物体領域候補統合S209によって得られる物体領域が、ユーザが意図した物体の領域とは異なる可能性がある。
変形例3では、実施形態1の物体領域候補統合S209の結果として得られる物体領域を、指示受付部で取得した座標(指示座標)や尤度マップの値に基づいて修正する。
具体的な修正方法について図10を用いて説明する。
まず、物体領域に関する尤度のみを取得し、修正する手法について説明する。
物体領域候補統合S209によって得られた物体領域1001の存在尤度を表す物体領域尤度を取得する。物体領域1001の画像座標系における中心に相当する位置1002(C,C)と、尤度マップの各点(M,M)を画像座標系に変換した点1003(I,I)のユークリッド距離を式2と同様の距離関数を用いて計算する。そして(C,C)とのユークリッド距離が小さい一つ以上の点に対応する尤度マップの値を用いて物体領域尤度を取得する。物体領域尤度取得方法は例えばユークリッド距離が最も近い点に対応する尤度マップの値でもよいし、ユークリッド距離が近い複数点に対応する尤度マップの値の平均でもよい。こうして得られた物体領域尤度が一定の値以下である場合は、物体の存在確率が低いと推定された物体領域であると考えられる。したがって、ユーザが指示座標1004によって指示した位置とは異なる中心位置1002をもつ物体領域1001を推定している可能性がある。物体領域の中心位置1002を指示座標1004方向へ移動させることによって、直接的にユーザの意図した領域へと修正することができる可能性が高い。物体領域を指示座標方向へ移動させる方法としては、物体領域の中心位置1002を、指示座標1004と入れ替える方法が考えらえる。中心位置に合わせて物体領域もシフトする。その他にも物体領域尤度Lоに応じて、移動量を決定する方法も考えられる。その一例として、尤度マップで出力される最大の値Lmaxと前記物体領域尤度Lо、物体領域の中心位置1002から指定座標へのベクトルD1007を用いて、物体領域の中心位置からの移動ベクトルV1008の各成分Vx、を式11、式12で求める。ベクトルV1008を物体領域の中心位置1002に適用することによって物体領域の位置を修正することができる。
Figure 2023132342000011
また、指示座標付近の尤度マップの値に応じて物体領域を修正する方法も考えられる。まず、指示座標付近に関する物体尤度(指示座標物体尤度)を取得する(S902)。指示座標1004(S,S)と画像座標系に変換した尤度マップの各点1003(I,I)について、ユークリッド距離を計算し、指示座標1004に近い一つ以上の尤度マップ点(I,I)から、指示座標付近に関する指示座標物体尤度を取得する。指示座標物体尤度の取得は例えば、最も近い1点に対応する尤度マップの値でもよいし、指示座標の最近傍N点に対応する尤度マップ値の平均でもよい。これによって取得された指示座標物体尤度が高い場合、指定座標付近に物体が存在する確率が高く推定されていると言える。物体領域の中心位置1002を前記の物体領域尤度に基づいた修正と同様に、指示座標方向へ移動させることでユーザが意図した位置に近い物体領域へと修正することができる。
他にも、物体領域尤度と指示座標物体尤度の両方を取得し、その2つを用いた修正方法も考えられる。図9のフロー図及び図10にしたがって、物体領域尤度と指示座標物体尤度両方を用いた修正方法の流れを説明する。
まず、物体領域尤度と指示座標物体尤度を比較し(S903)、指示座標物体尤度が物体領域尤度よりも高い場合に、物体領域候補統合S209によって得られる物体領域の位置1002と指示座標1004に基づいて修正処理を行う(S904)。一方、指示座標物体尤度が物体領域尤度以下の場合、物体領域統合によって得られた物体領域をそのまま出力する(S905)。
修正する方法を図10の例で説明する。物体領域が矩形1001であるとき、矩形の幅矩形の高さを物体のサイズとし、推定された矩形の中心1002(C,C)を指示座標1004(S,S)と入れ替えた新たな物体領域1005を、修正した物体領域として出力(S905)する。他にも、物体領域1001の物体領域尤度と指示座標1004における指示座標物体尤度の値に応じて、より物体が存在すると推定された方向へと物体領域を移動させる方法も考えられる。指示座標1004から物体領域の中心位置1002へのベクトルをD1007とし、指示座標物体尤度をL、前記物体領域尤度をLоとする。式14及び式15を用いて、それぞれの尤度に応じて物体領域を移動させるためのベクトルVの各成分Vx、を求める。そうして得られたベクトルVを物体領域の中心位置1002に適用した位置を、新たな物体領域の中心位置とすることで、より尤度の高い方向へと物体領域1001を修正することもできる。
Figure 2023132342000012
変形例3に記載の物体領域修正部を用いることで、実施形態1に記載の物体領域統合S209が出力する物体領域よりも、ユーザが意図した物体により近い物体領域へと修正することができる。
限られた計算資源を用いて尤度マップ推定部を実現する場合は、尤度マップ及び物体領域候補の精度が限定的になり、図10における物体領域1001のように物体の位置を捉えられていない可能性がある。指示座標1004が物体の位置を正確に示している場合でも、出力する物体領域がユーザの意図しない物体領域として推定される場合がある。こういった場合に、変形例3では指示座標1004と尤度マップを用いてユーザが意図した被写体1006をより正確にとらえた物体領域1005へと修正することができる。
<変形例4>
上記実施形態の画像処理装置では、一つの尤度マップ取得部を用いて、撮像画像中に含まれる物体の尤度を取得していた。そのため、尤度マップ取得部の精度が前記物体領域候補統合部で得られる物体領域の精度へ直接的に影響する。さらに物体領域の精度を上げるために、本実施形態では第二の尤度マップ取得部を導入する。
本実施形態の画像処理装置における構成を図11で説明する。
画像処理装置1100は、実施形態1と同様の構成を含み、第二の尤度マップ取得部1101及び物体領域修正部1102を備える。画像取得部101及び指示受付部104によって得られた撮像画像および指示座標に基づいて物体領域候補統合部106が物体領域を一つ取得するまでの構成は実施形態1と同様である。画像取得部101で取得した撮像画像を第二の尤度マップ取得部1101が受け取り、第二の尤度マップを出力する。物体領域修正部1102は物体領域、指示座標、尤度マップ、第二の尤度マップを受け取り、一つの物体領域修正結果を結果出力部120によって出力する。
次に、具体的な処理の流れを図12のフロー図を用いて説明する。
まず、撮影開始S200から尤度マップ取得S202までは実施形態1と同様の処理である。次に第二の尤度マップ取得S1201で第二の尤度マップを取得する。第二の尤度マップ取得S1201は実施形態1の尤度マップと異なる尤度マップの出力を行う。例えば、色ヒストグラムやエッジ密度を用いた、尤度マップ取得部でもよいし、実施形態1と異なる学習方法で学習した多層ニューラルネットワークを用いた尤度マップ取得部でもよい。第二の尤度マップ取得S1201に続いて物体領域候補取得S203から、物体領域候補統合S209までは実施例1と同様の流れである。物体領域候補統合S209によって統合された一つの物体領域に対して、指示座標、尤度マップ取得S202で得られた尤度マップと、第二の尤度マップ取得部によって得られた第二の尤度マップに基づいて修正を行う。
修正の方法は例えば、まず指示座標及び尤度マップ取得S202で得られた尤度マップを用いて変形例3に記載の物体修正部と同様の処理で物体領域を修正するためのベクトルV1007を取得する。次に第二の尤度マップの各点を画像座標系に変換した点と、指示座標を画像座標系に変換した点についての距離を取得し、その点が最も近い第二の尤度マップ座標に対応する第二の尤度マップ値を第二の指示座標物体尤度Lsとする。また、前記物体領域の中心に相当する位置(C,C)と第二の尤度マップの各点を画像座標系に変換した点の距離が近い一つ以上の点に対応する第二の尤度マップ値を用いて第二の物体領域尤度Loを取得する。第二の物体領域尤度取得方法は最も(C,C)に近い第二の尤度マップ値でもよいし、(C,C)までの距離が近い複数点に対応する第二の尤度マップ値の平均でもよい。
こうして得られた第二の物体領域尤度Lo2、第二の指定座標物体尤度Ls2、物体領域の中心位置から指示座標へのベクトルD1007を用いて、以下の式16、17で物体領域の位置を修正するための第二のベクトルWの各成分を求める。
Figure 2023132342000013
こうして得られた変形例3にけるベクトルVと第二のベクトルWの平均ベクトルを、物体候補統合部によって出力された物体領域の中心位置に適用することで修正する方法が考えられる。
本実施形態5の物体領域修正部で修正された一つの物体領域を、結果出力S210によって出力する。
上記実施形態での尤度マップ取得部の他に、第二の尤度マップ取得部を用いることで、出力される物体領域をより尤もらしい物体領域を出力することができる。
第二の尤度マップ取得部が色ヒストグラムやエッジ密度から尤度マップを取得することで、上記実施形態の出力する物体領域の妥当性を、尤度マップ取得部とは異なる手法で判断することができる。他にも第二の尤度マップ取得部を、実施形態1の尤度マップ取得部とは異なる学習データで学習した多層ニューラルネットワークとすることで、物体領域の精度を補うこともできる。例えば、第二の尤度マップ取得部を特定の誤検出しやすい物体に反応するように学習し、その情報に基づいて物体領域修正部で修正する方法も考えられる。これによって、物体領域修正を行う際に参照する尤度マップの信頼度を多角的に考慮しながら修正を行うことが可能となる。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
100 画像処理装置
101 画像取得部
102 尤度マップ取得部
103 推定部
104 指示受付部
105 物体領域候補選択部
106 物体領域候補統合部
110 撮像装置
120 結果出力部

Claims (8)

  1. 撮像画像を取得する画像取得手段と
    前記画像取得手段で取得した撮像画像に対する指示を受け付ける指示受付手段と
    前記撮像画像における物体の存在尤度を表す尤度マップ取得手段と
    前記撮像画像における物体の位置と大きさを表す領域を推定する推定手段と
    前記推定した領域から前記指示受付手段で受け付けた指示の位置に基づいて選択した一つ以上の物体領域候補と、前記尤度マップと、を用いて前記指示に対応する物体領域を決定する決定手段と
    前記指示受付手段で受け付けた指示の位置と前記尤度マップとに基づいて前記決定手段で決定された物体領域を修正する修正手段と
    を有することを特徴とする画像処理装置。
  2. 前記補正手段は、前記尤度マップにおける前記決定手段で決定した物体領域の尤度より前記指示の位置の尤度のほうが高い場合に、前記決定手段で決定した物体領域の中心位置を尤度がより高くなる位置にずらした物体領域に修正することを特徴とする請求項1に記載の画像処理装置。
  3. 前記尤度マップを取得した方法とは異なる方法で第二の尤度マップを取得する第二の尤度マップ取得手段を更に備え、
    前記修正手段は、前記指示受付手段で受け付けた指示の位置と前記尤度マップと前記第二の尤度マップとに基づいて前記決定手段で決定された物体領域を修正することを特徴とする請求項1または2に記載の画像処理装置。
  4. 前記第二の尤度マップ取得手段は、色ヒストグラムまたはエッジ密度を用いて前記第二の尤度マップを取得することを特徴とする請求項3に記載の画像処理装置。
  5. 前記第二の尤度マップ取得手段は、ニューラルネットワークを用いて前記第二の尤度マップを取得することを特徴とする請求項3に記載の画像処理装置。
  6. 撮像画像を取得する画像取得手段と
    前記画像取得手段で取得した撮像画像に対する指示を受け付ける指示受付手段と
    前記撮像画像における物体の存在尤度を表す尤度マップ取得手段と、
    前記撮像画像における物体の位置と大きさを表す領域を推定する推定手段と、
    前記推定した領域から前記指示受付手段で受け付けた指示の位置に基づいて選択した一つ以上の物体領域候補と、前記尤度マップと、を用いて前記指示に対応する物体領域を決定する決定手段と、
    前記指示受付手段で受け付けた指示の位置と前記尤度マップとに基づいて前記決定手段で決定された物体領域を修正する修正手段とを有することを特徴とする画像処理システム。
  7. 撮像画像を取得する画像取得工程と
    前記画像取得手段で取得した撮像画像に対する指示を受け付ける指示受付工程と
    前記撮像画像における物体の存在尤度を表す尤度マップ取得工程と、
    前記撮像画像における物体の位置と大きさを表す領域を推定する推定工程と、
    前記推定した領域から前記指示受付手段で受け付けた指示の位置に基づいて選択した一つ以上の物体領域候補と、前記尤度マップと、を用いて前記指示に対応する物体領域を決定する決定工程と、
    前記指示受付手段で受け付けた指示の位置と前記尤度マップとに基づいて前記決定手段で決定された物体領域を修正する修正工程とを有することを特徴とする画像処理システム。
  8. コンピュータを、
    撮像画像を取得する画像取得手段と
    前記画像取得手段で取得した撮像画像に対する指示を受け付ける指示受付手段と
    前記撮像画像における物体の存在尤度を表す尤度マップ取得手段と、
    前記撮像画像における物体の位置と大きさを表す領域を推定する推定手段と、
    前記推定した領域から前記指示受付手段で受け付けた指示の位置に基づいて選択した一つ以上の物体領域候補と、前記尤度マップと、を用いて前記指示に対応する物体領域を決定する決定手段と、
    前記指示受付手段で受け付けた指示の位置と前記尤度マップとに基づいて前記決定手段で決定された物体領域を修正する修正手段として機能させるためのプログラム。
JP2022037600A 2022-03-10 2022-03-10 画像処理装置、画像処理方法及びプログラム Pending JP2023132342A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022037600A JP2023132342A (ja) 2022-03-10 2022-03-10 画像処理装置、画像処理方法及びプログラム
US18/179,258 US20230290106A1 (en) 2022-03-10 2023-03-06 Image processing apparatus, image processing method, image processing system, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022037600A JP2023132342A (ja) 2022-03-10 2022-03-10 画像処理装置、画像処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023132342A true JP2023132342A (ja) 2023-09-22

Family

ID=88064993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022037600A Pending JP2023132342A (ja) 2022-03-10 2022-03-10 画像処理装置、画像処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2023132342A (ja)

Similar Documents

Publication Publication Date Title
JP5500163B2 (ja) 画像処理システム、画像処理方法および画像処理プログラム
JP2010117593A (ja) 距離情報取得装置、撮像装置、及びプログラム
US20160005158A1 (en) Image processing device and image processing method
JP2015036841A (ja) 画像処理装置、距離計測装置、撮像装置、画像処理方法
JP4385077B1 (ja) 動きベクトル検出装置および画像処理装置
JP6494402B2 (ja) 画像処理装置、撮像装置、画像処理方法、プログラム
JP2016164709A (ja) 画像処理装置、撮像装置および画像処理プログラム
US9270883B2 (en) Image processing apparatus, image pickup apparatus, image pickup system, image processing method, and non-transitory computer-readable storage medium
JP7312026B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP2023132342A (ja) 画像処理装置、画像処理方法及びプログラム
JP2023132341A (ja) 画像処理装置、画像処理方法及びプログラム
JP5928465B2 (ja) 劣化復元システム、劣化復元方法およびプログラム
CN111091513B (zh) 图像处理方法、装置、计算机可读存储介质及电子设备
JP2016062447A (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP7009252B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP2011171991A (ja) 画像処理装置、電子機器、画像処理方法、および、画像処理プログラム
JP6717769B2 (ja) 情報処理装置及びプログラム
US20230290106A1 (en) Image processing apparatus, image processing method, image processing system, and storage medium
JP2024034231A (ja) 画像処理装置およびその制御方法
JP2010039968A (ja) オブジェクト検出装置及び検出方法
JP2015220662A (ja) 画像処理装置及びその制御方法、並びにプログラム
JP2019129470A (ja) 画像処理装置
JP6381212B2 (ja) 撮像装置及びその制御方法
US11880991B2 (en) Imaging apparatus including depth information at first or second spatial resolution at different regions in the image
JP2017224169A (ja) 距離画像解像度変換装置、距離画像解像度変換方法及びコンピュータプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20231213