JP5205561B2 - 適応的に客体を追跡する方法、システム、及びコンピュータ読み取り可能な記録媒体 - Google Patents

適応的に客体を追跡する方法、システム、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP5205561B2
JP5205561B2 JP2012539812A JP2012539812A JP5205561B2 JP 5205561 B2 JP5205561 B2 JP 5205561B2 JP 2012539812 A JP2012539812 A JP 2012539812A JP 2012539812 A JP2012539812 A JP 2012539812A JP 5205561 B2 JP5205561 B2 JP 5205561B2
Authority
JP
Japan
Prior art keywords
frame
block
specific object
area
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012539812A
Other languages
English (en)
Other versions
JP2013512481A (ja
Inventor
ギ チェ、ソン
ビン ホ、チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2013512481A publication Critical patent/JP2013512481A/ja
Application granted granted Critical
Publication of JP5205561B2 publication Critical patent/JP5205561B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Description

本発明は、適応的に客体を追跡する方法、システム、及びコンピュータ読み取り可能な記録媒体に関する。より詳しくは、本発明は、客体検出技術とブロックマッチング技術を選択的に用いて動画フレームに含まれている客体(例えば、人物の顔)を適応的に追跡するアルゴリズムを提供することによって、動画内での客体の追跡がより迅速、かつ、正確に実行され得るようにするための方法、システム及びコンピュータ読み取り可能な記録媒体に関する。
近年、動画を撮影できるデジタルカメラ、携帯用電話機などのカメラ装置の機能が次第に知能化していくにつれ、カメラ装置の人工知能に対するユーザの期待感が高まっており、特に、動画に含まれている人の顔領域を追跡できるようにする顔追跡機能などがカメラ装置の基本機能として搭載されているのが現状である。また、高性能プロセッサが搭載され難いモバイルカメラ装置の制限された演算速度とモバイルカメラ装置で基本的に実行されなければならない他のプロセスによる演算負担を勘案すれば、より効率的な顔追跡技術が求められている状況である。
動画で顔などの客体を追跡するにおいて、フレーム毎の全体領域で客体検出(ObjectDetection)を行う場合、速い実行速度を期待できないため、動画で顔などの客体を効果的に追跡するためには、客体の追跡に適した他の技術が要求される。
まず、従来の客体追跡技術の一例として、基本的に以前フレームで検出された客体の周辺領域でのみ部分的に客体検出を行い(PartialDetection:PD)、顔追跡の正確度を高めるために、時折り一部のフレームに対してのみ全体領域での客体検出を行う(FullDetection:FD)技術がある。前記の従来技術によれば、既存の客体検出アルゴリズムのみを適切に混合して客体追跡の速度を向上させることができるという長所があるものの、客体検出アルゴリズムは本質的に多くの演算量を要求し、実行速度が遅いアルゴリズムであるため、モバイルカメラ装置に適用されるには不適であると問題がある。
他の従来技術としては、ブロックマッチング(Block Matching)アルゴリズム、平均移動(Mean Shift)アルゴリズムなどを用いる技術が挙げられる。前記の従来技術によれば、客体検出アルゴリズムを利用する技術に比べて少ない演算量が要求されるため、実行速度を高められる反面、追跡の対象となる客体の外観、位置などが大きく変化し得る実際的な環境では追跡の成功率がそれほど高くないという問題がある。
従って、客体追跡の正確性を高めると共に、追跡速度を速くしてモバイルカメラ装置上で客体の追跡が途切れず、正確に行われるようにする技術の必要性が浮上している。
本発明の目的は、前述した問題をすべて解決することにある。
また、本発明の他の目的は、所定の臨界値を基準として客体検出技術とブロックマッチング技術を選択的に用いることによって、動画フレームに含まれている客体を適応的に追跡するアルゴリズムを提供できるようにすることにある。
更に、本発明のさらに他の目的は、撮影環境のコントラストを考慮して客体追跡方法の転換の基準となる臨界値を調節し、追跡の対象となる客体の動きを推定してブロックマッチングの際の探索領域を決定し、急激な状況の変化に対応して自動で客体を検出できるようにすることにある。
前記目的を達成するための本発明の代表的な構成は、以下の通りである。
本発明の一態様によれば、 適応的に客体を追跡する方法であって、(a)第1フレームで特定客体に該当する領域を示す第1ブロックと第2フレームに含まれる少なくとも1つのブロックとを比較して、前記第2フレームに含まれる少なくとも1つのブロックのうち、前記第1ブロックとの一致度が最も高いブロックを前記特定客体に該当する領域を示す第2ブロックとして決定するステップ、及び(b)前記第1ブロックと前記第2ブロックとの間の一致度が既に設定されている臨界値未満であれば、客体検出技術を利用して前記第2フレームの少なくとも一部領域から前記特定客体を検出し、前記検出された特定客体に該当する領域を基準として前記第2フレームで前記第2ブロックを再設定するステップを含む方法が提供される。
本発明の他の態様によれば、 適応的に客体を追跡するシステムであって、動画フレームの少なくとも一部領域から特定客体を検出する客体検出部、第1フレームで特定客体に該当する領域を示す第1ブロックと第2フレームとに含まれる少なくとも1つのブロックとを比較して、前記第2フレームに含まれる少なくとも1つのブロックのうち、前記第1ブロックとの一致度が最も高いブロックを前記特定客体に該当する領域を示す第2ブロックとして決定するブロックマッチング部、及び前記第1ブロックと前記第2ブロックとの間の一致度が既に設定されている臨界値未満であれば、前記客体検出部によって前記第2フレームの少なくとも一部領域から検出される前記特定客体に該当する領域を基準として前記第2フレームで前記第2ブロックを再設定する追跡方法決定部を含むシステムが提供される。
この他にも、本発明を実現するための他の方法、システム及び前記方法を実行するためのコンピュータプログラムを記録するためのコンピュータ読み取り可能な記録媒体が更に提供される。
本発明によれば、動画フレームに含まれている客体を適応的に追跡するアルゴリズムを提供することができるので、動画内での客体の追跡(特に、顔の追跡)がより迅速、かつ、正確に行われるようにする効果がある。
また、本発明によれば、撮影環境のコントラスト、客体の動き、客体周辺の状況変化などを勘案した適応的な客体追跡アルゴリズムを提供することができるので、状況の変化に強い客体追跡技術を実現できるようになるという効果がある。
本発明の一実施形態に係る客体追跡システムの内部構成を例示的に示す図である。 本発明の一実施形態に係る客体追跡システムの内部構成を例示的に示す図である。 本発明の一実施形態によってブロックマッチングを行う構成を例示的に示す図である。 本発明の一実施形態によって客体追跡方法を決定する過程を例示的に示す状態図である。
後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施形態を例として示す添付の図面を参照する。これらの実施形態は、当業者が本発明を実施できるのに十分なように詳細に説明される。本発明の多様な実施形態は互いに異なるが、相互排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施形態について本発明の精神及び範囲から逸脱することなく、他の実施形態で実現され得る。また、それぞれの開示された実施形態内の個別構成要素の位置又は配置は、本発明の精神及び範囲から逸脱することなく、変更され得ることが理解されるべきである。従って、後述する詳細な説明は、限定的な意味として取ろうとするものではなく、本発明の範囲は、適切に説明されるのであれば、それらの請求項が主張するものと均等なあらゆる範囲と共に添付された請求項によってのみ限定される。図面において類似する参照符号は、多様な側面にわたって同一であるか、類似する機能を示す。
以下では、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の好適な実施形態について添付された図面を参照して詳細に説明する。
本明細書において、動画フレームから客体を「直接」検出するということは、時間的に隣接する他のフレームを参照しないまま、該当動画フレームのピクセルに含まれている情報のみを用いて該当動画フレームに含まれている客体を探す方法を意味するものであって、時間的に隣接する他の動画フレームを参照して該当動画フレームに含まれている客体を探すブロックマッチング方法と区別されるものと理解されるべきである。
客体追跡システムの構成
以下では、本発明の実現のために重要な機能を行う客体追跡システムの内部構成及び各構成要素の機能について説明する。
本発明の一実施形態によれば、個人用コンピュータ(例えば、デスクトップコンピュータ、ノートブックコンピュータなど)、サーバ、ワークステーション、PDA、ウェブパッド、移動電話機、カメラ装置などのようにメモリ手段を備え、マイクロ・プロセッサを搭載して演算能力を備えた装置であれば、いくらでも本発明の客体追跡システム100として採択されることができる。
図1は、本発明の一実施形態に係る客体追跡システムの内部構成を例示的に示す図である。
図1に示すように、本発明の一実施形態に係る客体追跡システム100は、客体検出部110、ブロックマッチング部120、追跡方法決定部130、状況適応部140、通信部150及び制御部160を含むことができ、状況適応部140は、臨界値調節部141、客体動き推定部142、自動更新部143を含むことができる。本発明の一実施形態によれば、客体検出部110、ブロックマッチング部120、追跡方法決定部130、状況適応部140、通信部150及び制御部160は、そのうちの少なくとも一部が外部システム(図示せず)と通信するプログラムモジュールであり得る。このようなプログラムモジュールは、オペレーティングシステム、応用プログラムモジュール及びその他プログラムモジュールの形態で客体追跡システム100に含まれることができ、物理的には様々な公知となっている記憶装置上に格納されることができる。また、このようなプログラムモジュールは、客体追跡システム100と通信可能な遠隔記憶装置に格納されることもできる。一方、このようなプログラムモジュールは、本発明によって後述する特定の業務を行ったり、特定の抽象データタイプを実行するルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを包括するが、これに制限されるものではない。
まず、本発明の一実施形態によれば、客体検出部110は、所定の客体検出技術を利用して動画を構成するフレームに含まれている客体(例えば、人物の顔)を検出する機能を実行する。より具体的に、本発明の一実施形態に係る客体検出部110は、フレームの全体領域、即ち、フレームを構成するあらゆるピクセルを対象として客体の検出を実行することもでき(FD:Full Detection)、フレームの一部領域、即ち、フレームのうち、探索領域として設定されたピクセルのみを対象として客体を検出することもできる(PD:Partial Detection)。後述するように、客体検出部110により検出された客体が該当フレーム内で占める領域は、ブロックマッチング部120がブロックマッチングを実行する過程において参照ブロックとして活用されることができる。
前記で言及したように、客体検出部110で動画フレームに含まれている客体を検出するためには、所定の客体検出技術を利用しなければならないが、このような客体検出技術として、ChangHUANG外3人が共同で著述し、2005年にICCV(International Conference on Computer Vision)で発表された“Vector Boosting for Rotation InvariantMulti−View Face detection”という論文が参照できる(前記論文の内容は、その全体が本明細書に併合されているものと考慮されるべきである)。前記論文にはイメージに含まれている多様な客体の角度を区別できるvectorboostingアルゴリズムを用いてイメージに含まれている顔が特定の角度でずれていても顔領域を正確に検出する方法について記載されている。もちろん、本発明に適用可能な客体検出技術が前記論文に記載された方法にのみ限定されるものではなく、多様な変形例を適用して本発明を実現することができる。
次に、本発明の一実施形態によれば、ブロックマッチング部120は、所定のブロックマッチング技術を利用して動画に含まれる第1フレームに含まれている客体の位置を参照して該当動画に含まれる第2フレームに含まれている客体の位置を決定する機能を遂行することができる(BM:Block Matching)。
図3は、本発明の一実施形態によってブロックマッチングを実行する構成を例示的に示す図である。図3に示すように、ブロックマッチング部120は、時間的に隣接する2つのフレーム310、320に対してブロックマッチングを実行することで、連続するフレームに含まれている特定の客体を継続的に追跡することができる。以下では、時間的に隣接する第1フレーム310及び第2フレーム320で客体A(317)を追跡する過程について具体的に説明する。参考までに、第1フレーム310と第2フレーム320とは、互いに同一のピクセル配列を有しており、第1フレーム310が第2フレーム320よりも時間的に先行すると仮定することができる。
まず、本発明の一実施形態によれば、第1フレーム310に含まれている客体A(317)を示すM×Nピクセルサイズの第1ブロック315が決定されていることができるが、このような第1ブロックは、前述した客体検出技術などを利用して第1フレーム310から客体A(317)を直接検出することによって得られることができる。
次に、本発明の一実施形態によれば、ブロックマッチング部120は、第2フレーム320で第1フレーム310の第1ブロック315と最も一致(マッチ)するブロックを探すために第2フレーム320の少なくとも一部領域325を探索することができる。ここで、第2フレームのうち、探索の対象となる領域、即ち、探索領域325は、第1フレーム310での第1ブロック310の位置を基準として設定されることができるが、例えば、探索領域325は、第1フレーム310での第1ブロック315の位置を中心とするX×Yピクセルサイズの矩形領域に設定され得ることができる(X>M、Y>N)。即ち、本発明の一実施形態に係るブロックマッチング部120は、第2フレーム320の探索領域325内の可能なM×Nピクセルサイズの全ての又は一部のブロック(即ち、候補ブロック)を第1フレーム310の第1ブロック315と比較して、そのうち、第1ブロック315と最も一致するブロックを第2フレーム320での客体A(317)を示すブロックである第2ブロックとして決定することができる。
一方、候補ブロックが第1ブロック315と一致する程度を算出する方法としては、第1ブロック315から候補ブロックを引くことで(或いは候補ブロックから第1ブロック315を引くことで)求められる誤差エネルギー(residualenergy)(例えば、ピクセル値のSSD(Sum of Squared Distance)が小さいほど該当候補ブロックが第1ブロック315との一致度が高いと判断する方法が適用されることができるが、必ずしもこれに限定されるものではなく、本発明の目的を達成できる範囲内で多様な技術が適切に取捨選択されることができる。
次に、本発明の一実施形態によれば、追跡方法決定部130は、客体検出部110或いはブロックマッチング部120によって行われた客体追跡の結果を参照して動画フレームで客体を追跡するための方法であって、客体検出方法及びブロックマッチング方法のうちの1つを決定する機能を実行する。
より具体的に、本発明の一実施形態に係る追跡方法決定部130は、動画フレームで客体を追跡するにおいて基本的にブロックマッチングによって客体が追跡されるようにすることができ、フレーム毎にブロックマッチングの結果を評価してブロックマッチングの信頼度が所定の臨界値未満である場合には、該当フレームに対する客体追跡方法を速度は遅いが、正確度の高い客体検出方法に転換することができる。
図4は、本発明の一実施形態によって客体追跡方法を決定する過程を例示的に示す状態図である。図4に示すように、本発明の一実施形態に係る客体追跡システム100は、動画フレームで客体を追跡するための方法として、フレームの全体領域、即ち、フレームを構成するあらゆるピクセルを対象として客体の検出を実行する全体検出(FD)方法、フレームの一部領域、即ち、フレームのうち、探索領域として設定されたピクセルのみを対象として客体の検出を実行する部分検出(PD)方法、及び時間的に隣接するフレームに含まれる客体領域を示すブロックを参照して客体を追跡するブロックマッチング(BM)方法を選択的に用いることができる。
以下では、本発明の一実施形態に係る客体追跡過程について具体的に説明する。参考までに、以下の客体追跡過程において追跡の対象となる客体が人物の顔であると仮定したが、必ずしもこれに限定されるものではなく、動画フレーム内でその形状が特定され得る客体であれば、すべて本発明でいう客体追跡の対象となり得る。
まず、本発明の一実施形態に係る客体追跡システム100は、客体の追跡が始まる開始フレームの全体領域に対して全体検出(FD)を行って開始フレームで顔Aに該当する領域を検出することで、顔Aに対する追跡過程を始めることができる(410)。前記のように、開始フレームに対して全体検出(FD)を実行することにより検出された顔A領域は、後続して行われるブロックマッチングの基準となり得る(411)。一方、開始フレームに対して全体検出(FD)を行ったにも拘らず、人物の顔が検出されない場合には、客体追跡過程を終了することもできる(412)。
次に、本発明の一実施形態に係る客体追跡システム100は、時間的に隣接する2つのフレーム(第1及び第2フレーム)に対してブロックマッチングを実行することで、第1フレームにおける顔A領域に該当する第1ブロックを参照して第2フレームにおける顔A領域に該当する第2ブロックを特定することができる(420)。
より具体的に、本発明の一実施形態に係る客体追跡システム100は、第1フレームに含まれているM×Nピクセルサイズの第1ブロックと最も一致する(マッチする)ブロックを第2フレーム内で探すために第2フレームの少なくとも一部領域を探索することができる。ここで、第2フレームのうち、探索の対象となる領域、即ち、探索領域は、第1フレームでの第1ブロックの位置を基準として設定されることができるが、例えば、探索領域は、第1フレームでの第1ブロックの位置を中心とするX×Yピクセルサイズの矩形領域に設定されることができる(X>M、Y>N)。即ち、本発明の一実施形態に係る客体追跡システム100は、第2フレームの探索領域内の可能なM×Nピクセルサイズの全ての又は一部のブロック(即ち、候補ブロック)を第1フレームの第1ブロックと比較して一致度を判断し、そのうち、第1ブロックと最も一致するブロックが既に設定されている臨界値以上の一致度を有する場合、前記第1ブロックと最も一致するブロックを第2フレームでの客体A領域を示すブロックである第2ブロックとして決定することができる。
具体的に、本発明の一実施形態に係る客体追跡システム100は、ブロックマッチングの基準となる第1フレームの第1ブロックと、ブロックマッチングを行った結果から導き出された第2フレームの第2ブロックとの間の一致度が既に設定されている臨界値以上である場合に、ブロックマッチングの結果が信頼できると判断して、第2ブロックが第2フレームでの顔A領域を示すブロックであると確定することができる(421)。逆に、ブロックマッチングの基準となる第1フレームの第1ブロックと、ブロックマッチングを行った結果から導き出された第2フレームの第2ブロックとの間の一致度が既に設定されている臨界値未満である場合には、ブロックマッチングの結果を信頼し難いと判断して、第2ブロックが第2フレームでの顔A領域を示すブロックであると確定する代わりに、第2フレームの探索領域に対して部分検出(PD)を行って第2フレームでの顔A領域を直接検出することができる(422)。参考までに、第1ブロックと第2ブロックとの間の一致度を算出する具体的な方法については、前記で十分に言及されたので、詳細な説明を省略する。
次に、本発明の一実施形態に係る客体追跡システム100は、ブロックマッチングの信頼度(即ち、第1ブロックと第2ブロックとの間の一致度)が既に設定されている臨界値未満である場合に、該当フレームの一部領域、即ち、フレームのうち、探索領域として設定されたピクセルのみを対象に顔A領域を直接検出することができ、これにより客体追跡の信頼度が既に設定されている水準以上に維持されるようにすることができる(430)。
前記のように、探索領域内で部分検出(PD)を行った結果、顔A領域が検出された場合に、部分検出(PD)された顔A領域は、該当フレームでの顔Aを示す領域であると確定されることができ、後続して行われるブロックマッチングの基準となることができる(431)。逆に、探索領域内で部分検出(PD)を行ったにも拘らず、顔A領域が検出されない場合に、客体検出システム100は、該当フレームの全体領域に対して全体検出(FD)を実行することで、顔Aに対する客体追跡過程が継続して続くようにすることもできる(432)。
以上で説明した通り、追跡方法決定部130は、動画フレームに含まれている客体を追跡するにおいて客体検出方法とブロックマッチング方法を適切に混合して用いることで、動画フレームに含まれている客体に対する追跡がより迅速、かつ、正確に実行されるようにすることができる。
次に、本発明の一実施形態によれば、状況適応部140は、客体追跡アルゴリズムが、動画が撮影される状況に応じて(又は、プリビュー状態で映像が入力される状況に応じて)適応的に実行されるようにする機能を実行する。図2に示すように、本発明の一実施形態に係る状況適応部140は、臨界値調節部141、客体動き推定部142及び自動更新部143を含むことができる。以下では、状況適応部140の各構成要素の機能について具体的に説明する。
まず、本発明の一実施形態に係る臨界値調節部141は、撮影環境の明暗と撮影装置との特性によって変わり得る撮影環境のコントラスト(contrast、対照)によって追跡方法決定部130でのブロックマッチング結果の信頼度判断の基準となる既に設定されている臨界値を適応的に調節する機能を行うことができる。
例えば、動画のフレームが明るい所で撮影されて撮影環境のコントラストが高い場合、実際に一致度が高いブロック間にも誤差エネルギー(例えば、ピクセル値のSSD)が大きく示されることができ、逆に、動画フレームが暗い所で撮影されて撮影環境のコントラストが低い場合、実際に一致度が低いブロック間にも誤差エネルギーが小さく示されることができる。従って、ブロックマッチング結果の信頼度判断の基準となる既に設定されている臨界値として固定された値を用いることになれば、動画フレームがコントラストの高い明るい環境で撮影された場合、ブロックマッチングが正確に行われたにも拘らず、誤差エネルギーが大きいものと示され、部分検出或いは全体検出が必要以上にあまりにも頻繁に呼び出されて客体追跡の速度が低下してしまうという問題が発生する恐れがあり、動画フレームがコントラストの低い暗い環境で撮影された場合、ブロックマッチングが正確に行われていないにも拘らず、誤差エネルギーが小さいものと示され、部分検出或いは全体検出に転換されず、不正確な客体の追跡が続くという問題が発生することができる。
そこで、本発明の一実施形態に係る臨界値調節部141は、前記のような問題を解決するために、撮影環境の明暗と撮影装置との特性によって変わり得る撮影環境のコントラストによってブロックマッチング結果の信頼度判断の基準となる既に設定されている臨界値を適応的に調節することができる。即ち、臨界値調節部141は、撮影環境のコントラストが高い場合に、前記一致度に関する既に設定されている臨界値を相対的に低く設定することができ、逆に、撮影環境のコントラストが低い場合には前記一致度に関する既に設定されている臨界値を相対的に高く設定することができる。ここで、撮影環境のコントラストは、ブロックマッチングの基準となるブロックを構成するピクセル値の分散(intensityvariance)によって推定されることができるが、例えば、(比例定数)×(ブロックマッチングの基準となるブロックを構成するピクセル値の分散)により推定されることもできる。ただし。これに限定されるものではなく、本発明の目的を達成できる範囲内で適切に変更されることができる。
次に、本発明の一実施形態に係る客体動き推定部142は、ハンドヘルド(hand held)カメラ装置を用いて動画を撮影するユーザのハンドワークによる客体の動きを考慮してブロックマッチング及び部分検出での探索領域の位置を適応的に設定する機能を行うことができる。
一般に、ユーザのハンドワークなどによって動画フレームに含まれている客体が速い速度又は加速度を有して動く場合が発生し得るが、これを補正するための技術として、Kalmanfilteringなどのような従来技術が紹介されている。しかしながら、探索領域を設定するにおいて客体の推定された動きを加減なくそのまま反映すれば、下記のような問題が発生し得る。例えば、振動、揺れなどによって客体の急激な方向転換がなされる場合に、そのような急激な方向転換によって探索領域を設定すれば、むしろ客体追跡の性能を低下させる恐れがある。これは、客体の推定された動きによってブロックマッチング又は部分検出での探索領域を再設定するとしても、前記再設定された探索領域が実際に反映される時点では既に該当客体が反対方向へ移動することもあり得るためである。
従って、本発明の一実施形態に係る客体動き推定部142は、ブロックマッチング又は部分検出での探索領域を再設定するにおいてkalmanfilteringなどの動き推定技術によって推定された客体の動き(速度、加速度など)の一部のみを反映させることで、前記問題を解決することができる。例えば、動き推定部142は、推定された客体の動きの半分のみを反映してブロックマッチング又は部分検出での探索領域を再設定することができる。これにより、本発明に係る客体追跡システム100は、客体の動きに対する性急な推定により客体の追跡が不正確に行われるのを防止し、客体の動きに、より柔軟に対応可能になる。
次に、本発明の一実施形態に係る自動更新部143は、ブロックマッチング(BM)を用いて客体追跡を実行するにおいて照明の変化、動画フレーム内での客体の大きさ又は姿勢の変化などによって追跡の対象となる客体の外観が急激に変化することに対応して全体検出(FD)又は部分検出(PD)を呼び出すことで、動画フレーム内の該当客体領域を自動に更新することができる。動画フレーム上に表示される客体の外観が急激に変化する場合には、ブロックマッチング方法だけで客体の追跡を正確に実行し難いため、本発明によって全体検出方法又は部分検出方法を用いて外観が急激に変化した客体を自動に検出することで、客体の追跡がより正確に行われることができる。
一方、本発明の一実施形態によれば、データベース(図示せず)には客体追跡の対象となる動画フレームが格納されることができる。本発明において、データベース(図示せず)は、狭義のデータベースだけでなく、コンピュータファイルシステムに基づくデータ記録などを含む広い意味のデータベースまで含む概念であって、単純な演算処理ログの集合であってもこれを検索して所定のデータを抽出できるのであれば、本発明でいうデータベースに含まれ得ることが理解されるべきである。また、本発明の一実施形態に係るデータベース(図示せず)は、本発明を実現する当業者の必要に応じて客体追跡システム100に含まれて構成されてもよく、客体追跡システム100と別個で構成されてもよい。
次に、本発明の一実施形態に係る通信部150は、客体追跡システム100が移動通信サーバ(図示せず)、ウェブサーバ(図示せず)などの外部装置と通信できるようにする機能を実行する。
最後に、本発明の一実施形態に係る制御部160は、客体検出部110、ブロックマッチング部120、追跡方法決定部130、状況適応部140及び通信部150間のデータの流れを制御する機能を実行する。即ち、制御部160は、外部からの又は客体追跡システムの各構成要素間のデータの流れを制御することで、客体検出部110、ブロックマッチング部120、追跡方法決定部130、状況適応部140及び通信部150でそれぞれ固有機能を実行するように制御する。
以上、説明された本発明に係る実施形態は、多様なコンピュータ構成要素を通じて実行され得るプログラム命令語の形態で実現されてコンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独又は組み合わせにより含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され構成されたものであるか、コンピュータソフトウェア分野の当業者に公知されて使用可能なものであり得る。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光気録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納し、実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例としては、コンパイラにより作られるもののような機械語コードだけでなく、インタープリタなどを用いてコンピュータにより実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を行うために、1つ以上のソフトウェアモジュールとして作動するように構成されることができ、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定事項と限定された実施形態及び図面により説明されたが、これは、本発明のより全般的な理解を促進するために提供されるものであるだけで、本発明が前記実施形態に限定されるものではなく、本発明の属する技術分野において通常の知識を有する者であれば、このような記載から多様な修正及び変形を図ることができる。
従って、本発明の思想は、前記説明された実施形態に限定されて定められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等に又は等価的に変形された全てのものは、本発明の思想の範疇に属すると言える。
100 客体追跡システム
110 客体検出部
120 ブロックマッチング部
130 追跡方法決定部
140 状況適応部
141 臨界値調節部
142 客体動き推定部
143 自動更新部
150 通信部
160 制御部

Claims (23)

  1. 適応的に客体を追跡する方法であって、
    (a)第1フレームで特定客体に該当する領域を示す第1ブロックと第2フレームに含まれる少なくとも1つのブロックとを比較して、前記第2フレームに含まれる少なくとも1つのブロックのうち、前記第1ブロックとの一致度が最も高いブロックを前記特定客体に該当する領域を示す第2ブロックとして決定するステップ、及び
    (b)前記第1ブロックと前記第2ブロックとの間の一致度が既に設定されている臨界値未満であれば、客体検出技術を利用して前記第2フレームの少なくとも一部領域から前記特定客体を検出し、前記検出された特定客体に該当する領域を基準として前記第2フレームで前記第2ブロックを再設定するステップ
    を含む方法。
  2. 前記第1及び第2フレームは、時間的に互いに隣接するフレームであることを特徴とする請求項1に記載の方法。
  3. 前記(a)ステップで、
    前記第1ブロックは、客体検出技術によって前記第1フレームの全体領域を対象に検出された前記特定客体を基準として設定されることを特徴とする請求項1に記載の方法。
  4. 前記(a)ステップで、
    前記第2フレームに含まれる少なくとも1つのブロックは、前記第2フレームのうち、前記第1フレームでの前記第1ブロックの位置を基準として設定される探索領域内に存在することを特徴とする請求項1に記載の方法。
  5. 前記一致度は、前記第1ブロックの各ピクセル値と前記第2ブロックの各ピクセル値との間の二乗和を参照して決定されることを特徴とする請求項1に記載の方法。
  6. 前記(b)ステップで、
    前記第2フレームの少なくとも一部領域からの前記特定客体の検出は、前記第2フレームのうち、前記第1フレームでの前記第1ブロックの位置を基準として設定される探索領域に対してのみ行われることを特徴とする請求項1に記載の方法。
  7. 前記(b)ステップで、
    前記第2フレームの前記探索領域から前記特定客体の検出が失敗すれば、前記第2フレームの全体領域から前記特定客体を検出し、前記第2フレームの全体領域から検出された前記特定客体に該当する領域を基準として前記第2フレームで前記第2ブロックを再設定することを特徴とする請求項6に記載の方法。
  8. 前記(b)ステップは、
    (b−1)撮影環境のコントラストによって前記既に設定されている臨界値を適応的に決定するステップ
    を含むことを特徴とする請求項1に記載の方法。
  9. 前記(b−1)ステップで、
    前記コントラストが大きいほど前記既に設定されている臨界値を低く設定することを特徴とする請求項8に記載の方法。
  10. 前記(b)ステップは、
    (b−2)前記第2フレームでブロックマッチング又は客体検出の対象となる領域を設定するにおいて前記特定客体の動きを推定し、前記推定された動きの一部のみを反映して前記領域を設定するステップ
    を含むことを特徴とする請求項1に記載の方法。
  11. 前記(b)ステップは、
    (b−3)前記第1フレームに含まれている前記特定客体の外観と前記第2フレームに含まれている前記特定客体の外観間との間に既に設定されている程度を超える急激な変化が発生すれば、客体検出技術を利用して前記第2フレームの少なくとも一部領域から前記特定客体を検出し、前記検出された特定客体に該当する領域を基準として前記第2フレームで前記第2ブロックを自動で再設定するステップ
    を含むことを特徴とする請求項1に記載の方法。
  12. 適応的に客体を追跡するシステムであって、
    動画フレームの少なくとも一部領域から特定客体を検出する客体検出部、
    第1フレームで特定客体に該当する領域を示す第1ブロックと第2フレームとに含まれる少なくとも1つのブロックとを比較して、前記第2フレームに含まれる少なくとも1つのブロックのうち、前記第1ブロックとの一致度が最も高いブロックを前記特定客体に該当する領域を示す第2ブロックとして決定するブロックマッチング部、及び
    前記第1ブロックと前記第2ブロックとの間の一致度が既に設定されている臨界値未満であれば、前記客体検出部によって前記第2フレームの少なくとも一部領域から検出される前記特定客体に該当する領域を基準として前記第2フレームで前記第2ブロックを再設定する追跡方法決定部
    を含むシステム。
  13. 前記第1及び第2フレームは、時間的に互いに隣接するフレームであることを特徴とする請求項12に記載のシステム。
  14. 前記第1ブロックは、客体検出技術によって前記第1フレームの全体領域を対象に検出された前記特定客体を基準として設定されることを特徴とする請求項12に記載のシステム。
  15. 前記ブロックマッチング部において、
    前記第2フレームに含まれる少なくとも1つのブロックは、前記第2フレームのうち、前記第1フレームでの前記第1ブロックの位置を基準として設定される探索領域内に存在することを特徴とする請求項12に記載のシステム。
  16. 前記一致度は、前記第1ブロックの各ピクセル値と前記第2ブロックの各ピクセル値との間の二乗和を参照して決定されることを特徴とする請求項12に記載のシステム。
  17. 前記追跡方法決定部において、
    前記第2フレームの少なくとも一部領域からの前記特定客体の検出は、前記第2フレームのうち、前記第1フレームでの前記第1ブロックの位置を基準として設定される探索領域に対してのみ行われることを特徴とする請求項12に記載のシステム。
  18. 前記追跡方法決定部は、前記第2フレームの前記探索領域から前記特定客体の検出が失敗すれば、客体検出部によって前記第2フレームの全体領域から検出された前記特定客体に該当する領域を基準として前記第2フレームで前記第2ブロックを再設定することを特徴とする請求項17に記載のシステム。
  19. 撮影環境のコントラストによって前記既に設定されている臨界値を適応的に決定する臨界値調節部
    を更に含むことを特徴とする請求項12に記載のシステム。
  20. 前記臨界値調節部は、前記コントラストが大きいほど前記既に設定されている臨界値を低く設定することを特徴とする請求項19に記載のシステム。
  21. 前記第2フレームでブロックマッチング又は客体検出の対象となる領域を設定するにおいて前記特定客体の動きを推定し、前記推定された動きの一部のみを反映して前記領域を設定する客体動き推定部
    を更に含むことを特徴とする請求項12に記載のシステム。
  22. 前記第1フレームに含まれている前記特定客体の外観と前記第2フレームに含まれている前記特定客体の外観間との間に既に設定されている程度を超える急激な変化が発生すれば、客体検出技術を利用して前記第2フレームの少なくとも一部領域から前記特定客体を検出し、前記検出された特定客体に該当する領域を基準として前記第2フレームで前記第2ブロックを自動で再設定する自動更新部
    を更に含むことを特徴とする請求項12に記載のシステム。
  23. 請求項1ないし11のいずれか1項に記載の方法を実行するためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体。
JP2012539812A 2009-11-23 2010-11-18 適応的に客体を追跡する方法、システム、及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP5205561B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2009-0113560 2009-11-23
KR1020090113560A KR100970119B1 (ko) 2009-11-23 2009-11-23 적응적으로 객체를 추적하는 방법, 시스템, 및 컴퓨터 판독 가능한 기록 매체
PCT/KR2010/008163 WO2011062430A2 (ko) 2009-11-23 2010-11-18 적응적으로 객체를 추적하는 방법, 시스템, 및 컴퓨터 판독 가능한 기록 매체

Publications (2)

Publication Number Publication Date
JP2013512481A JP2013512481A (ja) 2013-04-11
JP5205561B2 true JP5205561B2 (ja) 2013-06-05

Family

ID=42645560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012539812A Expired - Fee Related JP5205561B2 (ja) 2009-11-23 2010-11-18 適応的に客体を追跡する方法、システム、及びコンピュータ読み取り可能な記録媒体

Country Status (5)

Country Link
US (1) US20120093368A1 (ja)
EP (1) EP2506562B1 (ja)
JP (1) JP5205561B2 (ja)
KR (1) KR100970119B1 (ja)
WO (1) WO2011062430A2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101289087B1 (ko) 2011-11-03 2013-08-07 인텔 코오퍼레이션 얼굴 검출 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
JP5939705B2 (ja) * 2012-02-08 2016-06-22 カシオ計算機株式会社 被写体判定装置、被写体判定方法及びプログラム
CN103873755B (zh) * 2012-12-14 2017-06-16 鸿富锦精密工业(深圳)有限公司 跳跃人像拍摄系统及方法
KR102223313B1 (ko) * 2013-02-21 2021-03-08 삼성전자주식회사 전자장치 및 전자장치를 동작하는 방법
EP2833325A1 (en) * 2013-07-30 2015-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for resource-adaptive object detection and tracking
US20160259980A1 (en) * 2015-03-03 2016-09-08 Umm Al-Qura University Systems and methodologies for performing intelligent perception based real-time counting
KR102032459B1 (ko) * 2017-07-03 2019-10-15 한국철도기술연구원 전기철도차량 팬터그래프 모니터링 장치 및 방법

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63216184A (ja) * 1987-03-04 1988-09-08 Nippon Telegr & Teleph Corp <Ntt> 動画像の動き情報抽出方式
DK0973137T3 (da) * 1998-07-06 2003-05-05 Siemens Building Tech Ag Bevægelsesmelder
US6741725B2 (en) * 1999-05-26 2004-05-25 Princeton Video Image, Inc. Motion tracking using image-texture templates
KR100348357B1 (ko) 2000-12-22 2002-08-09 (주)버추얼미디어 하이퍼링크 비디오를 위한 임의 객체의 효과적인 추적 장치 및 방법
KR100470931B1 (ko) * 2001-12-05 2005-02-22 가부시키가이샤 히다치 고쿠사이 덴키 템플레이트 매칭을 이용한 물체추적방법 및 장치
US8159536B2 (en) * 2004-06-14 2012-04-17 Agency For Science, Technology And Research Method for detecting desired objects in a highly dynamic environment by a monitoring system
US8098885B2 (en) * 2005-11-02 2012-01-17 Microsoft Corporation Robust online face tracking
US7835542B2 (en) * 2005-12-29 2010-11-16 Industrial Technology Research Institute Object tracking systems and methods utilizing compressed-domain motion-based segmentation
JP4559375B2 (ja) * 2006-02-28 2010-10-06 日本電信電話株式会社 対象物位置追跡方法、装置、およびプログラム
KR20080073933A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 객체 트래킹 방법 및 장치, 그리고 객체 포즈 정보 산출방법 및 장치
US8064639B2 (en) * 2007-07-19 2011-11-22 Honeywell International Inc. Multi-pose face tracking using multiple appearance models
JP2009053815A (ja) * 2007-08-24 2009-03-12 Nikon Corp 被写体追跡プログラム、および被写体追跡装置
JP5238220B2 (ja) * 2007-10-29 2013-07-17 株式会社東芝 解像度変換装置、方法およびプログラム
JP5024033B2 (ja) * 2007-12-27 2012-09-12 カシオ計算機株式会社 被写対象追跡装置、被写対象追跡プログラム及び被写対象追跡方法
US20090208053A1 (en) * 2008-02-19 2009-08-20 Benjamin Kent Automatic identification and removal of objects in an image, such as wires in a frame of video
JP4507129B2 (ja) * 2008-06-06 2010-07-21 ソニー株式会社 追尾点検出装置および方法、プログラム、並びに記録媒体
TWI366140B (en) * 2008-06-11 2012-06-11 Vatics Inc Method for tracking multiple objects with spatial-color statistical model

Also Published As

Publication number Publication date
WO2011062430A3 (ko) 2011-11-03
KR100970119B1 (ko) 2010-07-15
WO2011062430A2 (ko) 2011-05-26
EP2506562A2 (en) 2012-10-03
US20120093368A1 (en) 2012-04-19
EP2506562A4 (en) 2014-01-22
EP2506562B1 (en) 2018-07-25
JP2013512481A (ja) 2013-04-11

Similar Documents

Publication Publication Date Title
JP5205561B2 (ja) 適応的に客体を追跡する方法、システム、及びコンピュータ読み取り可能な記録媒体
JP7227145B2 (ja) マッチムーブ用のハイブリッド追跡器のシステム及び方法
KR101850586B1 (ko) 향상된 안구 추적을 위한 장면 분석
JP6140278B2 (ja) ビジョン支援慣性カメラポーズ推定とビジョンベースのみのカメラポーズ推定との間の適応的な切替え
JP6162805B2 (ja) 拡張の継続性の維持
US8130277B2 (en) Method and system for intelligent and efficient camera motion estimation for video stabilization
US10021381B2 (en) Camera pose estimation
JP5628293B2 (ja) 動き情報によって支援された3a技術
JP4645223B2 (ja) 顔追跡プログラムおよび顔追跡方法
US10853927B2 (en) Image fusion architecture
JP6007682B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2016514251A (ja) カメラ補助による動き方向および速度推定
JP2013541096A (ja) クラウド支援型拡張現実のための適応可能なフレームワーク
CN111462185A (zh) 跟踪器辅助的图像捕获
KR20100098726A (ko) 이미지 센서를 사용하는 터치 사용자 인터페이스를 위한 장치 및 방법
US10705408B2 (en) Electronic device to autofocus on objects of interest within field-of-view of electronic device
WO2013064891A1 (en) Method and system for luminance adjustment of images in an image sequence
KR20240068636A (ko) 전자 디바이스들을 위한 관심 영역 캡처
Shi et al. Steadiface: Real-time face-centric stabilization on mobile phones
KR101783990B1 (ko) 디지털 영상 처리 장치 및 영상의 대표 움직임 예측 방법
JP2010074315A (ja) 被写体追尾方法及び撮像装置
JP2007510994A (ja) ビデオ画像内でのオブジェクトトラッキング
JP7474849B2 (ja) エネルギー効率の良い自己位置推定のためのセンサのアクティブ化と非アクティブ化の制御
US10708501B2 (en) Prominent region detection in scenes from sequence of image frames
JP2017016592A (ja) 主被写体検出装置、主被写体検出方法及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5205561

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees