JP2022076369A - 画像処理装置、画像処理方法 - Google Patents
画像処理装置、画像処理方法 Download PDFInfo
- Publication number
- JP2022076369A JP2022076369A JP2020186749A JP2020186749A JP2022076369A JP 2022076369 A JP2022076369 A JP 2022076369A JP 2020186749 A JP2020186749 A JP 2020186749A JP 2020186749 A JP2020186749 A JP 2020186749A JP 2022076369 A JP2022076369 A JP 2022076369A
- Authority
- JP
- Japan
- Prior art keywords
- image
- frame image
- image processing
- subject
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 69
- 238000003672 processing method Methods 0.000 title claims 3
- 238000000034 method Methods 0.000 claims abstract description 88
- 238000001514 detection method Methods 0.000 claims description 90
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 description 28
- 230000005484 gravity Effects 0.000 description 15
- 238000001914 filtration Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 210000001747 pupil Anatomy 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration by the use of local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
【課題】 フレーム画像を取得してから被写体の特定部位を検出するまでの時間を従来よりも減少させるための技術を提供すること。【解決手段】 第1フレーム画像における探索領域から被写体を検出する前に該被写体の特定部位を検出し、該検出の後、第1フレーム画像における被写体の追尾処理を行う。【選択図】 図1
Description
本発明は、被写体の追尾技術に関するものである。
従来から、動画像中のフレーム画像から特定の被写体を検出する技術が知られており、例えば、特定の人物や物体を検出する機能を搭載した監視カメラや、被写体に自動的に焦点を合わせるオートフォーカス(AF)機能を搭載した電子カメラが実現されている。
さらに、被写体の特定部位を検出する技術も知られている。このような技術は例えば、特定の挙動を示す自動車を被写体に定めた後にナンバープレートやフロントガラスなどを検出してズームすることで防犯に利用したり、被写体の人物や動物の瞳にピンポイントでフォーカスを合わせる、といった様々な用途が考えられる。
特許文献1では、被写体が人物であり、特定部位が顔の器官である場合、被写体の顔領域を検出した後に該顔領域を拡大することにより、瞳のような小さく映った特定部位を精度良く検出する技術が提案されている。
しかしながら、特許文献1のように、動画像から被写体の特定部位を精度良く検出しようとすると、最初に被写体を検出してから特定部位を検出するため、フレーム画像を取得してから特定部位を検出するまでに複数回の検出処理を行うことになる。これにより、フレーム画像を取得してから特定部位を検出するまでの時間的な遅延(レイテンシー)が大きくなってしまう。このような状況では、例えば、電子カメラのAF機能において、移動している被写体の特定部位の検出結果と、検出時の実際の位置とのズレが大きくなってしまうため、AFが合わないといった問題が生じる。
本発明は、フレーム画像を取得してから被写体の特定部位を検出するまでの時間を従来よりも減少させるための技術を提供する。
本発明の一様態は、第1フレーム画像における探索領域から被写体を検出する前に該被写体の特定部位を検出する検出手段と、前記検出手段による前記特定部位の検出の後、前記第1フレーム画像における前記被写体の追尾処理を行う処理手段とを備えることを特徴とする。
本発明の構成によれば、フレーム画像を取得してから被写体の特定部位を検出するまでの時間を従来よりも減少させることができる。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
本実施形態では、屋外に設置された監視カメラで撮像された「特定の挙動(例えば走行速度超過)を示す自動車」を被写体として追尾し、追尾中の被写体である自動車のナンバープレートを特定部位として検出する監視カメラシステムについて説明する。
本実施形態では、屋外に設置された監視カメラで撮像された「特定の挙動(例えば走行速度超過)を示す自動車」を被写体として追尾し、追尾中の被写体である自動車のナンバープレートを特定部位として検出する監視カメラシステムについて説明する。
また、以下では、監視カメラによって撮像されるフレーム画像の取得時刻をtで表し、該監視カメラから最初(1番目)に取得されるフレーム画像の取得時刻tは1とする。また、監視カメラから取得した着目フレーム画像の取得時刻tがTであるとすると、該着目フレーム画像の1つ前(先行する)に取得したフレーム画像の取得時刻tは(T-1)と表し、該着目フレーム画像の1つ後(後続する)に取得したフレーム画像の取得時刻tは(T+1)と表す。
まず、本実施形態に係る監視カメラシステムにおいて、監視カメラにより撮像されたフレーム画像中の被写体を追尾する画像処理装置1の機能構成例について、図1のブロック図を用いて説明する。
初期位置検出部101は、取得時刻t=1、2に対応するフレーム画像における被写体および該被写体の特定部位を検出することで、該フレーム画像における被写体の位置および該被写体の特定部位の位置を検出する。また初期位置検出部101は、被写体が監視カメラの視界から消えた後に再び該視界に入ったときには、該被写体がフレーム画像中に再登場するので、該被写体が再登場したフレーム画像(取得時刻t=1のフレーム画像と称する)および該フレーム画像に隣接して後続するフレーム画像(取得時刻t=2のフレーム画像と称する)から被写体および該被写体の特定部位を検出することで、該フレーム画像における被写体の位置および該被写体の特定部位の位置を検出する。
なお、フレーム画像から被写体および該被写体の特定部位を検出する方法としては、例えば、フレーム画像における設定領域を通過する自動車を被写体として検出し、精度の良い公知の物体検知技術で該被写体の特定部位を検出するといった方法が考えられる。
領域抽出部102は、現フレーム画像について領域算出部105が算出した探索領域内の画像をクロップ画像として抽出する。
部位検出部103は、領域抽出部102によって抽出されたクロップ画像から被写体の特定部位を検出する。なお、部位検出部103は、現フレーム画像におけるクロップ画像からの特定部位の検出処理を、現フレーム画像に対する追尾部104の処理結果を待たずに実行する。部位検出部103によるクロップ画像からの特定部位の検出処理について、図3のフローチャートに従って説明する。
ステップS301では、部位検出部103は、領域抽出部102により抽出されたクロップ画像を取得する。図4(a)は現フレーム画像401を示しており、図4(b)は、現フレーム画像401から領域抽出部102が抽出したクロップ画像402を示している。
ステップS302では、部位検出部103は、クロップ画像における特定部位の領域を推定する。クロップ画像における特定部位の領域を推定する技術としては、例えば、機械学習や深層学習、テンプレートマッチング、特徴点マッチングを用いた技術がある。
深層学習を用いた方法では、特定部位を含んだ画像と、画像における特定部位の領域を表すアノテーションデータのペアの集合で構成される学習データを用いて、多層からなるニューラルネットワークを学習させた学習モデルを事前に生成しておく。このような学習モデルを用いることにより、未知の画像に対して特定部位の領域(例えば位置とサイズ(縦サイズおよび横サイズ))を推定することができる。更に、計算負荷を抑えながら比較的高精度に推論を行うため、ニューラルネットワークモデルを軽量化する。
本実施形態では、このようにして事前に生成した学習モデルを用いて、クロップ画像における特定部位の位置とサイズ(縦サイズおよび横サイズ)を推定する。図4(c)は、上記の学習モデルに上記のクロップ画像402を入力することで該学習モデルから得られる尤度マップ403を示している。尤度マップ403における位置(x、y)のブロックには、クロップ画像402における位置(x、y)の領域(該ブロックに対応する領域)における「特定部位が存在する確からしさ(尤度)」が格納されている。図4(c)では、尤度の高低を濃淡で示している。以下では、尤度マップ403における位置(x、y)の尤度をS(x,y)と表す。尤度マップは尤度S(x,y)を適切な変換により画素値に対応付けることで、画像のように取り扱うことができる。以下では、ステップS302で部位検出部103は、クロップ画像から尤度マップを生成したものとして説明する。
次に、ステップS303では、部位検出部103は、尤度マップに対してフィルタリング処理を行う。図4(d)は、尤度マップ403に対してフィルタリング処理を行ったことで得られるフィルタリング処理済み尤度マップ404の一例を示している。このフィルタリング処理について、図5を用いて説明する。
まず、取得時刻t=(T-1)のフレーム画像に対応する尤度マップ501から尤度の重心位置と分散を計算する。そして、該重心位置を中心として該分散に応じたサイズの範囲外をフィルタリングするためのガウシアンフィルタ502を生成する。そして、取得時刻t=Tのフレーム画像に対応する尤度マップ503とガウシアンフィルタ502との積を取ることにより、特定部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップ504を生成する。
ステップS304では、部位検出部103は、ステップS303で求めたフィルタリング処理済み尤度マップ(404,504)に対して、例えば、NMS(Non-maximum Suppression)アルゴリズムを適用して、尤度が高い領域から適切に選び、該選んだ領域に対応するクロップ画像中の領域を「クロップ画像における特定部位の領域」とする。図4(e)は、「クロップ画像における特定部位の領域」に対応する現フレーム画像401における領域405(つまり現フレーム画像401における特定部位の領域)を示している。
ステップS305では、部位検出部103は、ステップS304で特定した「クロップ画像における特定部位の領域」に対応する現フレーム画像中の領域を「特定部位の検出領域」(検出結果)として出力する。
図1に戻って、追尾部104は、現フレーム画像から被写体となる自動車を追尾する追尾処理を行う。なお、「現フレーム画像に対する追尾処理」は、部位検出部103が動作する場合には、現フレーム画像に対する部位検出部103の処理と並行して行われるか、若しくは現フレーム画像に対する部位検出部103の処理よりも後に行われる。
ここで、現フレーム画像から被写体となる自動車を追尾する追尾処理は、例えば、背景差分やオプティカルフローを用いた方法、カルマンフィルタやパーティクルフィルタ等のベイズフィルタを用いた方法、機械学習や深層学習を用いた方法、テンプレートマッチングや特徴点マッチングを用いた方法等、様々な方法を用いて行うことができる。本実施形態では、何れかの公知の方法を用いて自動車を追尾するものとし、詳細については説明を省略する。
そして追尾部104は、現フレームに対する追尾処理の結果として、現フレーム画像中の被写体を囲む矩形領域の位置およびサイズ(縦サイズおよび横サイズ)を出力する。なお、現フレーム画像中の被写体を囲む矩形領域を特定することができる情報であれば、追尾部104は如何なる情報を「追尾処理の結果」として出力しても良い。
なお、追尾部104による追尾処理の結果は、次の取得時刻のフレーム画像における探索領域の決定に用いられることから、次の取得時刻のフレーム画像を取得する前に完了している程度に、該追尾処理の処理負荷は小さいことが望ましい。追尾処理が次の取得時刻のフレーム画像の取得までに間に合わない場合は、例えば、処理を1フレームずつスキップする等で周期的に実行するようにしてもよい。このようにすることで、追尾処理は次の取得時刻でフレーム画像を取得してから検出処理を行うまでの処理時間に影響を与えないで済む。
ここで、部位検出部103と追尾部104の実行順序の一例について、図2のタイムチャートを用いて説明する。なお、図2には以下の説明に関連する部分について図示している。
取得時刻t=1および取得時刻t=2では、被写体および該被写体の特定部位を正確に定める必要があるため、初期位置検出部101は被写体を検出した後に、該被写体の特定部位を検出する。
取得時刻t=3以降のフレーム画像では、被写体の特定部位を検出した後に被写体の追尾処理を行う。これにより、監視カメラであれば、追尾処理の前に特定部位の検出結果を利用したAF処理および/またはズーム処理を行うことができ、それらの処理のレイテンシーを抑制することができる。
よって、部位検出部103は、被写体の特定部位を検出すると、該検出した特定部位もしくは該特定部位の特徴量を監視カメラに送信し、該監視カメラに該特定部位に対するAF処理および/またはズーム処理を行わせても良い。これにより、追尾部104は、特定部位に対するAF処理やズーム処理を行った後のフレーム画像に対して該特定部位に対する追尾処理を行うことができる。
領域算出部105では、現フレーム画像における探索領域もしくは初期位置検出部101が検出した被写体の領域と、追尾部104による追尾処理の結果と、に基づいて「現フレーム画像の取得時刻の次の取得時刻のフレーム画像における探索領域」を算出する。領域算出部105による探索領域の算出について、図6のフローチャートに従って説明する。
ステップS601では、領域算出部105は、追尾部104による追尾処理の結果(現フレーム画像における追尾処理の結果、該現フレーム画像よりも1つ前の取得時刻における追尾処理の結果)を取得する。
ステップS602では、領域算出部105は、現フレーム画像が取得時刻t=2のフレーム画像である場合は、該現フレーム画像について初期位置検出部101が検出した被写体の領域の重心位置(Xc,Yc)を求める。一方、領域算出部105は、現フレーム画像が取得時刻t=3以降の取得時刻のフレーム画像である場合は、該現フレーム画像について領域算出部105が算出した探索領域の重心位置(Xc,Yc)を求める。
ステップS603では、領域算出部105は、フレーム画像間における被写体の動きV(Δx、Δy)を求める。例えば、領域算出部105は、現フレーム画像よりも1つ前の取得時刻における追尾処理の結果(現フレーム画像よりも1つ前の取得時刻におけるフレーム画像における被写体を囲む矩形領域の位置)から、現フレーム画像における追尾処理の結果(現フレーム画像における被写体を囲む矩形領域の位置)への動きベクトルV1をV(Δx、Δy)として求めても良い。また例えば、領域算出部105は、現フレーム画像よりも1つ前の取得時刻におけるフレーム画像における特定部位の重心位置から、現フレーム画像における特定部位の重心位置への動きベクトルV2(Δx、Δy)をV(Δx、Δy)として求めても良い。また例えば、領域算出部105は、動きベクトルV1と動きベクトルV2との平均ベクトルをV(Δx、Δy)として求めても良い。
ステップS604では、領域算出部105は、「現フレーム画像の取得時刻の次の取得時刻のフレーム画像における探索領域」の重心位置を(Xc+Δx,Yc+Δy)として求める。
ステップS605では、領域算出部105は、「現フレーム画像の取得時刻の次の取得時刻のフレーム画像における探索領域」のサイズ(縦サイズおよび横サイズ)を決定する。例えば、領域算出部105は、事前に特定部位を囲む領域の1辺の長さに対して検出率が最大となる探索領域の1辺の長さLを求めておき、「現フレーム画像の取得時刻の次の取得時刻のフレーム画像における探索領域」のサイズを長さLに決定する。なお、「現フレーム画像の取得時刻の次の取得時刻のフレーム画像における探索領域」のサイズ(縦サイズおよび横サイズ)の決定方法は特定の決定方法に限らない。例えば、被写体の特定部位の動きを考慮し、該動きがより大きいほど、探索領域のサイズをより大きくするようにしてもよく、その場合、フレーム画像からの被写体や特定部位のロストを抑制することができる。
このように、本実施形態では、フレーム画像から1度の検出処理で被写体の特定部位を検出し、該検出の後に該被写体の追尾を行う。これにより、従来技術のように、被写体の特定部位を検出するまでに複数回の検出処理または追尾処理の実行を行う場合と比べて、フレーム画像の取得から特定部位の検出結果を用いた別の処理を行うまでのレイテンシーを抑制することができる。このようにすることで、例えば、自動車が監視カメラの視界を通過する前に、特定部位であるナンバープレートへのAFやズームアップを高速に実行でき、特定部位の詳細をより正確に捉えることができるようになる。
[第2の実施形態]
本実施形態を含む以下の各実施形態では、第1の実施形態との差分について説明し、以下で特に触れない限りは、第1の実施形態と同様であるものとする。本実施形態では、電子カメラで撮影される特定の人物を被写体とし、該人物の瞳を特定部位(第1の部位)として検出し、更に、該人物の瞳を内包する顔を第2の部位として検出するようなカメラシステムについて説明する。
本実施形態を含む以下の各実施形態では、第1の実施形態との差分について説明し、以下で特に触れない限りは、第1の実施形態と同様であるものとする。本実施形態では、電子カメラで撮影される特定の人物を被写体とし、該人物の瞳を特定部位(第1の部位)として検出し、更に、該人物の瞳を内包する顔を第2の部位として検出するようなカメラシステムについて説明する。
このようなカメラシステムにも、図1に示した構成を有する画像処理装置1が適用可能であるが、本実施形態では、部位検出部103および領域算出部105の動作が第1の実施形態と異なる。
本実施形態に係る部位検出部103の動作について、図7のフローチャートに従って説明する。
ステップS701では、部位検出部103は、領域抽出部102により抽出されたクロップ画像を取得する。図8(a)は現フレーム画像801を示しており、図8(b)は、現フレーム画像801から領域抽出部102により抽出されたクロップ画像802を示している。
ステップS702では、部位検出部103は、クロップ画像における第1の部位および第2の部位の領域を推定する。本実施形態でも、第1の実施形態と同様に深層学習を用いて学習した学習モデルを用いる。
深層学習を用いた方法では、第1の部位と第2の部位を含んだ画像と各部位の存在領域を表すアノテーションデータのペアの集合を学習データとして用意する。この学習データを用いて、畳み込み層などの多層からなるニューラルネットワークを事前に学習させた学習モデルを生成しておくことにより、未知の画像に対して第1の部位および第2の部位の存在領域(例えば位置とサイズ)を推定することができる。
更に、ここではマルチタスク学習により、第1の部位と第2の部位を1つのニューラルネットワークモデルで学習する。この学習方法では、1つの部位を推定するときと同等の処理速度で複数の部位を推定することができる。
本実施形態では、部位検出部103はステップS702において、このようにして事前に生成した学習モデルを用いて、第1の部位および第2の部位のそれぞれに対応する尤度マップを出力する。図8(c)において尤度マップ803は、上記の学習モデルに上記のクロップ画像802を入力することで該学習モデルから得られる第1の部位の尤度マップである。また、尤度マップ804は、上記の学習モデルに上記のクロップ画像802を入力することで該学習モデルから得られる第2の部位の尤度マップである。
尤度マップ803における位置(x、y)のブロックには、クロップ画像802における位置(x、y)の領域における「第1の部位が存在する確からしさ(尤度)」が格納されている。また尤度マップ804における位置(x、y)のブロックには、クロップ画像802における位置(x、y)の領域における「第2の部位が存在する確からしさ(尤度)」が格納されている。図8(c)では、尤度の高低を濃淡で示している。
ステップS703では、部位検出部103は、第1の部位に対応する尤度マップに対して第1の実施形態と同様のフィルタリング処理を行う。図8(d)は、尤度マップ803に対してフィルタリング処理を行ったことで得られるフィルタリング処理済み尤度マップ805を示している。つまり、取得時刻t=(T-1)のフレーム画像に対応する第2の部位の尤度マップから尤度の重心位置と分散を計算し、該重心位置を中心として該分散に応じたサイズの範囲外をフィルタリングするためのガウシアンフィルタを生成する。そして、取得時刻t=Tのフレーム画像に対応する第1の部位の尤度マップとガウシアンフィルタとの積を取ることにより、第1の部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップを生成する。
このとき、顔の中心と瞳がほぼ同じ位置にあるため、第2の部位に対応する尤度マップからガウシアンフィルタを生成することが有効である。図8(d)は、そのようにしてフィルタリング処理を適用した後の尤度マップ805を示している。
ステップS704では、部位検出部103は、ステップS703で求めたフィルタリング処理済み尤度マップに対して、例えば、NMS(Non-maximum Suppression)アルゴリズムを適用して、最大の尤度の領域から順に最大で2つ選び、該選んだ領域に対応するクロップ画像中の領域を「クロップ画像における第1の部位の領域」として決定する。図8(e)は、クロップ画像802における第1の部位の領域806を示している。
ステップS705では、部位検出部103は、ステップS704で特定した「クロップ画像における第1の部位の領域」を「第1の部位の検出領域」(第1の部位の検出結果)として出力する。したがって、本実施形態においても、第1の実施形態と同等の処理量で、被写体の特定部位を検出することができる。
ステップS706では、部位検出部103は、第2の部位に対応する尤度マップに対して第1の実施形態と同様のフィルタリング処理を行う。図8(f)は、尤度マップ804に対してフィルタリング処理を行ったことで得られるフィルタリング処理済み尤度マップ807を示している。このとき用いるガウシアンフィルタは、ステップS703において用いたガウシアンフィルタと同じである。そして、取得時刻t=Tのフレーム画像に対応する第2の尤度マップとガウシアンフィルタとの積を取ることにより、第2の部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップを生成する。
ステップS707では、部位検出部103は、ステップS706で求めたフィルタリング処理済み尤度マップに対して、例えば、NMS(Non-maximum Suppression)アルゴリズムを適用して、最大の尤度の領域を選び、該選んだ領域に対応するクロップ画像中の領域を「クロップ画像における第2の部位の領域」として決定する。図8(g)は、クロップ画像802における第2の部位の領域808を示している。
ステップS708では、部位検出部103は、ステップS707で特定した「クロップ画像における第2の部位の領域」を「第2の部位の検出領域」(第2の部位の検出結果)として出力する。
なお、ステップS703~S705の一連の処理と、ステップS706~S708の一連の処理と、は並列して行っても良い。これにより、顔の検出も瞳と同様にレイテンシーを抑制して行うことができる。更に、瞳の検出結果よりも先に顔の検出結果が存在する場合は、顔を囲む領域の外側に存在する瞳の検出結果を除去することにより、誤検知を抑制することもできる。
次に、領域算出部105の動作について、図9のフローチャートに従って説明する。図9において、図6に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。
ステップS902では、領域算出部105は、ステップS708で出力された「第2の部位の検出領域」を取得する。そしてステップS903では、領域算出部105は、「第2の部位の検出領域」の重心位置(Xc,Yc)を求める。以降は、図6のフローチャートと同様である。
第2の部位は第1の部位を内包するため、第1の部位よりも精度良く検出しやすく、被写体の追尾結果よりも特定部位の動きが捉えやすいため、その重心や動きの精度が安定する。したがって、次の取得時刻におけるフレーム画像における探索領域は第1の実施形態よりも安定して設定することができ、特定部位の検出精度が上がる。
このように、本実施形態によれば、フレーム画像を取得してすぐに1度の検出処理で被写体の第1の部位および該第1の部位を内包する第2の部位を検出し、その整合性を利用することにより、特定部位の検出率が向上する。これにより、第1の実施形態と同様にフレーム画像を取得してから被写体の特定部位を検出するまでのレイテンシーが抑制されながらも、より精度良く被写体の瞳を検出することができる。
[第3の実施形態]
本実施形態では、第2の実施形態で検出した部位の検出状況に基づき、追尾処理を実行するか否かを判断するシステムについて説明する。本実施形態に係るシステムによれば、全体の検出処理が速くなり、追尾処理に係る計算負荷を軽減することができる。
本実施形態では、第2の実施形態で検出した部位の検出状況に基づき、追尾処理を実行するか否かを判断するシステムについて説明する。本実施形態に係るシステムによれば、全体の検出処理が速くなり、追尾処理に係る計算負荷を軽減することができる。
本実施形態に係るシステムにおける画像処理装置10の機能構成例について、図10のブロック図を用いて説明する。画像処理装置10は、上記の画像処理装置1に判断部1001を加えたものである。判断部1001の動作について、図11のフローチャートに従って説明する。
ステップS1101では、判断部1001は、部位検出部103により検出された「第1の部位の検出領域」と「第2の部位の検出領域」とを取得する。ステップS1102では、判断部1001は、第2の部位の尤度マップから尤度スコアS2を取得する。尤度スコアS2は、例えば、第2の部位の尤度マップにおける最大の尤度であっても良いし、第2の部位の尤度マップにおける「第2の部位の検出領域」の重心位置近傍における尤度の平均値であっても良い。
そして判断部1001は、尤度スコアS2が閾値以上であるか否かを判断する。この判断の結果、尤度スコアS2が閾値以上(第2の部位の尤度マップにおける該第2の部位の確度が高い)であれば、処理はステップS1103に進む。一方、尤度スコアS2が閾値未満(第2の部位の尤度マップにおける該第2の部位の確度が低い)であれば、処理はステップS1105に進む。
ステップS1103では、判断部1001は、第1の部位の尤度マップから尤度スコアS1を取得する。尤度スコアS1は、例えば、第1の部位の尤度マップにおける最大の尤度であっても良いし、第1の部位の尤度マップにおける「第1の部位の検出領域」の重心位置近傍における尤度の平均値であっても良い。
そして判断部1001は、尤度スコアS1が閾値以上であるか否かを判断する。この判断の結果、尤度スコアS1が閾値以上(第1の部位の尤度マップにおける該第1の部位の確度が高い)であれば、処理はステップS1104に進む。一方、尤度スコアS1が閾値未満(第1の部位の尤度マップにおける該第1の部位の確度が低い)であれば、処理はステップS1105に進む。
ステップS1104では、判断部1001は、第2の部位の尤度マップにおいて、第2の部位の重心位置から「一定値以上の尤度を示す位置」までの距離の分散σを求める。この分散σが閾値以下であれば、処理はステップS1106に進み、分散σが閾値よりも大きい場合には、処理はステップS1105に進む。
この判断処理は、尤度マップに複数の被写体が含まれる場合は分散σが大きくなる傾向が見られるため、正しく検出できたとしても次のフレーム画像では他の被写体に誤検知されやすい可能性があることを考慮に入れている。逆に、分散σが小さい場合は周辺に被写体以外が映っていないため、特定部位の検出が容易な状態であると解釈することができる。
ステップS1105では、判断部1001は、追尾処理は必要であると判断し、その旨を追尾部104に通知する。一方、ステップS1106では、判断部1001は、追尾処理は不要と判断し、その旨を追尾部104に通知する。
追尾部104は、判断部1001から追尾処理が必要である旨を受けた場合には追尾処理を行い、追尾処理は不要である旨を受けた場合には追尾処理は行わない。なお、追尾部104が追尾処理を行っていない間は、領域算出部105は、最近に領域抽出部102に出力した探索領域を該領域抽出部102に出力し続ける。
このように、本実施形態によれば、検出結果が不安定になると判断される場合に追尾処理を実行するため、処理速度が向上するとともに、画像処理装置10における計算負荷を軽減することができる。
[第4の実施形態]
図1,10に示した各機能部はハードウェアで実装しても良いし、ソフトウェア(コンピュータプログラム)で実装しても良い。後者の場合、該コンピュータプログラムを実行可能なコンピュータ装置は、上記の画像処理装置1や画像処理装置10に適用可能である。
図1,10に示した各機能部はハードウェアで実装しても良いし、ソフトウェア(コンピュータプログラム)で実装しても良い。後者の場合、該コンピュータプログラムを実行可能なコンピュータ装置は、上記の画像処理装置1や画像処理装置10に適用可能である。
このようなコンピュータ装置のハードウェア構成例について、図12のブロック図を用いて説明する。なお、図12に示したハードウェア構成は、画像処理装置1や画像処理装置10に適用可能なコンピュータ装置のハードウェア構成の一例であり、適宜変形/変更が可能である。
CPU1201は、RAM1202やROM1203に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU1201は、コンピュータ装置全体の動作制御を行うと共に、画像処理装置1や画像処理装置10が行うものとして説明した上記の各処理を実行もしくは制御する。
RAM1202は、ROM1203や記憶装置1206からロードされたコンピュータプログラムやデータを格納するためのエリア、I/F1207を介して外部から受信したデータを格納するためのエリア、を有する。さらにRAM1202は、CPU1201が各種の処理を実行する際に用いるワークエリアを有する。このようにRAM1202は各種のエリアを適宜提供することができる。
ROM1203には、コンピュータ装置の設定データ、コンピュータ装置の起動に係るコンピュータプログラムやデータ、コンピュータ装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。
操作部1204は、キーボード、マウス、タッチパネルなどのユーザインターフェースであり、ユーザが操作することで各種の指示をCPU1201に対して入力することができる。
表示部1205は、液晶画面やタッチパネル画面を有する装置であり、CPU1201による処理結果を画像や文字などでもって表示することができる。例えば、表示部1205には、フレーム画像や、該フレーム画像における被写体や特定部位(第1の部位や第2の部位)を明示的にユーザに通知するための表示アイテムを表示することができる。また、表示部1205は、画像や文字を投影するプロジェクタなどの投影装置であっても良い。
記憶装置1206は、ハードディスクドライブ装置などの不揮発性メモリである。記憶装置1206には、OS、画像処理装置1/10が行うものとして上述した各処理をCPU1201に実行もしくは制御させるためのコンピュータプログラムやデータが保存されている。記憶装置1206に保存されているコンピュータプログラムやデータは、CPU1201による制御に従って適宜RAM1202にロードされ、CPU1201による処理対象となる。
I/F1207は、外部とのデータ通信を行うための通信インターフェースであり、例えば、上記の監視カメラや電子カメラなどの撮像装置によって撮像されたフレーム画像はI/F1207を介してRAM1202や記憶装置1206に格納される。
上記のCPU1201、RAM1202、ROM1203、操作部1204、表示部1205、記憶装置1206、I/F1207は何れもシステムバス1208に接続されている。
なお、上記の各実施形態では、フレーム画像を撮像する撮像装置(監視カメラ、電子カメラなど)と画像処理装置1/10とは別個の装置としていた。しかし、該撮像装置と該画像処理装置1/10とを一体化させて1台の装置(撮像機能付きの画像処理装置)を構成しても良い。
また、領域算出部105は、取得時刻t=1のフレーム画像における追尾処理の結果(被写体を囲む矩形領域)を拡大率Rに従って拡大した拡大領域を「取得時刻t=2のフレーム画像における探索領域」として生成するようにしても良い。拡大率Rは、例えば、被写体の移動速度が高いほど大きくする。そして上記のステップS602では、領域算出部105は、現フレーム画像が取得時刻t=2以降の取得時刻のフレーム画像である場合は、該現フレーム画像について領域算出部105が算出した探索領域の重心位置(Xc,Yc)を求める。
また、上記の各実施形態で使用した数値、処理タイミング、処理順、データ(情報)の送信先/送信元などは、具体的な説明を行うために一例として挙げたものであり、このような一例に限定することを意図したものではない。
また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
1:画像処理装置 101:初期位置検出部 102:領域抽出部 103:部位検出部 104:追尾部 105:領域算出部
Claims (12)
- 第1フレーム画像における探索領域から被写体を検出する前に該被写体の特定部位を検出する検出手段と、
前記検出手段による前記特定部位の検出の後、前記第1フレーム画像における前記被写体の追尾処理を行う処理手段と
を備えることを特徴とする画像処理装置。 - 前記検出手段は、前記第1フレーム画像における探索領域内の画像をクロップ画像として取得し、該クロップ画像における前記特定部位の尤度マップを生成し、該生成した尤度マップに基づいて前記特定部位を検出することを特徴とする請求項1に記載の画像処理装置。
- 前記検出手段は、前記尤度マップにおいて前記特定部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップに基づいて前記特定部位を検出することを特徴とする請求項2に記載の画像処理装置。
- 更に、
前記第1フレーム画像における探索領域と、前記第1フレーム画像に先行するフレーム画像における追尾処理の結果と、前記第1フレーム画像における追尾処理の結果と、に基づいて、前記第1フレーム画像に後続する第2フレーム画像における探索領域を求める手段を備えることを特徴とする請求項1ないし3の何れか1項に記載の画像処理装置。 - 前記特定部位は、第1の部位と、該第1の部位を内包する第2の部位と、を含み、
前記検出手段は、前記第1フレーム画像における探索領域内の画像をクロップ画像として取得し、該クロップ画像における前記第1の部位の尤度マップに基づいて前記第1の部位を検出し、該クロップ画像における前記第2の部位の尤度マップに基づいて前記第2の部位を検出することを特徴とする請求項1に記載の画像処理装置。 - 前記検出手段は、前記第1の部位の尤度マップにおいて該第1の部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップに基づいて前記第1の部位を検出し、前記第2の部位の尤度マップにおいて該第2の部位以外の領域がフィルタリングされたフィルタリング処理済み尤度マップに基づいて前記第2の部位を検出することを特徴とする請求項5に記載の画像処理装置。
- 更に、
前記第1フレーム画像における前記第2の部位の領域と、前記第1フレーム画像に先行するフレーム画像における追尾処理の結果と、前記第1フレーム画像における追尾処理の結果と、に基づいて、前記第1フレーム画像に後続する第2フレーム画像における探索領域を求める手段を備えることを特徴とする請求項5または6に記載の画像処理装置。 - 更に、
前記第1の部位の尤度マップと前記第2の部位の尤度マップとに基づいて前記追尾処理を行うか否かを判断する手段を備えることを特徴とする請求項5ないし7の何れか1項に記載の画像処理装置。 - 更に、
撮像装置により撮像されたフレーム画像を取得する手段を備えることを特徴とする請求項1ないし8の何れか1項に記載の画像処理装置。 - 前記検出手段は、前記第1フレーム画像における探索領域から検出した被写体の特定部位もしくは該特定部位の特徴量を前記撮像装置に送信して該撮像装置に該特定部位に対するAF処理および/またはズーム処理を行わせることを特徴とする請求項9に記載の画像処理装置。
- 画像処理装置が行う画像処理方法であって、
前記画像処理装置の検出手段が、第1フレーム画像における探索領域から被写体を検出する前に該被写体の特定部位を検出する検出工程と、
前記画像処理装置の処理手段が、前記検出工程による前記特定部位の検出の後、前記第1フレーム画像における前記被写体の追尾処理を行う処理工程と
を備えることを特徴とする画像処理方法。 - コンピュータを、請求項1ないし10の何れか1項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020186749A JP2022076369A (ja) | 2020-11-09 | 2020-11-09 | 画像処理装置、画像処理方法 |
PCT/JP2021/038880 WO2022097489A1 (ja) | 2020-11-09 | 2021-10-21 | 画像処理装置、画像処理方法 |
US18/180,166 US20230222672A1 (en) | 2020-11-09 | 2023-03-08 | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020186749A JP2022076369A (ja) | 2020-11-09 | 2020-11-09 | 画像処理装置、画像処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022076369A true JP2022076369A (ja) | 2022-05-19 |
JP2022076369A5 JP2022076369A5 (ja) | 2023-11-16 |
Family
ID=81457889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020186749A Pending JP2022076369A (ja) | 2020-11-09 | 2020-11-09 | 画像処理装置、画像処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230222672A1 (ja) |
JP (1) | JP2022076369A (ja) |
WO (1) | WO2022097489A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5047007B2 (ja) * | 2008-03-03 | 2012-10-10 | 三洋電機株式会社 | 撮像装置 |
JP5759170B2 (ja) * | 2010-12-27 | 2015-08-05 | キヤノン株式会社 | 追尾装置およびその制御方法 |
JP6755713B2 (ja) * | 2016-05-25 | 2020-09-16 | キヤノン株式会社 | 追尾装置、追尾方法及びプログラム |
JP7122916B2 (ja) * | 2018-09-13 | 2022-08-22 | キヤノン株式会社 | 撮像装置およびその制御方法、プログラムならびに記憶媒体 |
-
2020
- 2020-11-09 JP JP2020186749A patent/JP2022076369A/ja active Pending
-
2021
- 2021-10-21 WO PCT/JP2021/038880 patent/WO2022097489A1/ja active Application Filing
-
2023
- 2023-03-08 US US18/180,166 patent/US20230222672A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230222672A1 (en) | 2023-07-13 |
WO2022097489A1 (ja) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11450146B2 (en) | Gesture recognition method, apparatus, and device | |
US11182592B2 (en) | Target object recognition method and apparatus, storage medium, and electronic device | |
AU2016352215B2 (en) | Method and device for tracking location of human face, and electronic equipment | |
JP6141079B2 (ja) | 画像処理システム、画像処理装置、それらの制御方法、及びプログラム | |
JP6617085B2 (ja) | 物体状況推定システム、物体状況推定装置、物体状況推定方法、及び物体状況推定プログラム | |
EP2309454B1 (en) | Apparatus and method for detecting motion | |
JP2018508078A (ja) | オブジェクト追跡のためのシステムおよび方法 | |
KR20160020498A (ko) | 트랙커 보조 이미지 캡쳐 | |
JP2016085487A (ja) | 情報処理装置、情報処理方法及びコンピュータプログラム | |
JP2007323596A (ja) | 移動体の衝突回避システム、プログラムおよび方法 | |
JP2019186955A (ja) | 情報処理システム、情報処理方法及びプログラム | |
JP7438684B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2010140425A (ja) | 画像処理システム | |
JP7104611B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20210256713A1 (en) | Image processing apparatus and image processing method | |
JP6798609B2 (ja) | 映像解析装置、映像解析方法およびプログラム | |
WO2022097489A1 (ja) | 画像処理装置、画像処理方法 | |
US10880457B2 (en) | Image processing apparatus, image capturing apparatus, image processing method, and storage medium | |
JP2007510994A (ja) | ビデオ画像内でのオブジェクトトラッキング | |
JP2010154287A (ja) | 撮像装置及びその追尾方法 | |
JP2018151685A (ja) | 動き量算出プログラム、動き量算出方法、動き量算出装置及び業務支援システム | |
JP6555940B2 (ja) | 被写体追跡装置、撮像装置、及び被写体追跡装置の制御方法 | |
JP2012128693A (ja) | 映像処理装置、映像処理方法およびプログラム | |
JP7364079B2 (ja) | 情報処理装置、情報処理方法およびコンピュータプログラム | |
US11451705B2 (en) | Imaging control apparatus, imaging control method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231107 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231107 |