JP5205561B2

JP5205561B2 - 適応的に客体を追跡する方法、システム、及びコンピュータ読み取り可能な記録媒体

Info

Publication number: JP5205561B2
Application number: JP2012539812A
Authority: JP
Inventors: ギチェ、ソン; ビンホ、チョン
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2009-11-23
Filing date: 2010-11-18
Publication date: 2013-06-05
Anticipated expiration: 2030-11-18
Also published as: WO2011062430A3; KR100970119B1; WO2011062430A2; EP2506562A2; US20120093368A1; EP2506562A4; EP2506562B1; JP2013512481A

Description

本発明は、適応的に客体を追跡する方法、システム、及びコンピュータ読み取り可能な記録媒体に関する。より詳しくは、本発明は、客体検出技術とブロックマッチング技術を選択的に用いて動画フレームに含まれている客体（例えば、人物の顔）を適応的に追跡するアルゴリズムを提供することによって、動画内での客体の追跡がより迅速、かつ、正確に実行され得るようにするための方法、システム及びコンピュータ読み取り可能な記録媒体に関する。

近年、動画を撮影できるデジタルカメラ、携帯用電話機などのカメラ装置の機能が次第に知能化していくにつれ、カメラ装置の人工知能に対するユーザの期待感が高まっており、特に、動画に含まれている人の顔領域を追跡できるようにする顔追跡機能などがカメラ装置の基本機能として搭載されているのが現状である。また、高性能プロセッサが搭載され難いモバイルカメラ装置の制限された演算速度とモバイルカメラ装置で基本的に実行されなければならない他のプロセスによる演算負担を勘案すれば、より効率的な顔追跡技術が求められている状況である。

動画で顔などの客体を追跡するにおいて、フレーム毎の全体領域で客体検出（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）を行う場合、速い実行速度を期待できないため、動画で顔などの客体を効果的に追跡するためには、客体の追跡に適した他の技術が要求される。

まず、従来の客体追跡技術の一例として、基本的に以前フレームで検出された客体の周辺領域でのみ部分的に客体検出を行い（ＰａｒｔｉａｌＤｅｔｅｃｔｉｏｎ：ＰＤ）、顔追跡の正確度を高めるために、時折り一部のフレームに対してのみ全体領域での客体検出を行う（ＦｕｌｌＤｅｔｅｃｔｉｏｎ：ＦＤ）技術がある。前記の従来技術によれば、既存の客体検出アルゴリズムのみを適切に混合して客体追跡の速度を向上させることができるという長所があるものの、客体検出アルゴリズムは本質的に多くの演算量を要求し、実行速度が遅いアルゴリズムであるため、モバイルカメラ装置に適用されるには不適であると問題がある。

他の従来技術としては、ブロックマッチング（ＢｌｏｃｋＭａｔｃｈｉｎｇ）アルゴリズム、平均移動（ＭｅａｎＳｈｉｆｔ）アルゴリズムなどを用いる技術が挙げられる。前記の従来技術によれば、客体検出アルゴリズムを利用する技術に比べて少ない演算量が要求されるため、実行速度を高められる反面、追跡の対象となる客体の外観、位置などが大きく変化し得る実際的な環境では追跡の成功率がそれほど高くないという問題がある。

従って、客体追跡の正確性を高めると共に、追跡速度を速くしてモバイルカメラ装置上で客体の追跡が途切れず、正確に行われるようにする技術の必要性が浮上している。

本発明の目的は、前述した問題をすべて解決することにある。
また、本発明の他の目的は、所定の臨界値を基準として客体検出技術とブロックマッチング技術を選択的に用いることによって、動画フレームに含まれている客体を適応的に追跡するアルゴリズムを提供できるようにすることにある。

更に、本発明のさらに他の目的は、撮影環境のコントラストを考慮して客体追跡方法の転換の基準となる臨界値を調節し、追跡の対象となる客体の動きを推定してブロックマッチングの際の探索領域を決定し、急激な状況の変化に対応して自動で客体を検出できるようにすることにある。

前記目的を達成するための本発明の代表的な構成は、以下の通りである。
本発明の一態様によれば、適応的に客体を追跡する方法であって、（ａ）第１フレームで特定客体に該当する領域を示す第１ブロックと第２フレームに含まれる少なくとも１つのブロックとを比較して、前記第２フレームに含まれる少なくとも１つのブロックのうち、前記第１ブロックとの一致度が最も高いブロックを前記特定客体に該当する領域を示す第２ブロックとして決定するステップ、及び（ｂ）前記第１ブロックと前記第２ブロックとの間の一致度が既に設定されている臨界値未満であれば、客体検出技術を利用して前記第２フレームの少なくとも一部領域から前記特定客体を検出し、前記検出された特定客体に該当する領域を基準として前記第２フレームで前記第２ブロックを再設定するステップを含む方法が提供される。

本発明の他の態様によれば、適応的に客体を追跡するシステムであって、動画フレームの少なくとも一部領域から特定客体を検出する客体検出部、第１フレームで特定客体に該当する領域を示す第１ブロックと第２フレームとに含まれる少なくとも１つのブロックとを比較して、前記第２フレームに含まれる少なくとも１つのブロックのうち、前記第１ブロックとの一致度が最も高いブロックを前記特定客体に該当する領域を示す第２ブロックとして決定するブロックマッチング部、及び前記第１ブロックと前記第２ブロックとの間の一致度が既に設定されている臨界値未満であれば、前記客体検出部によって前記第２フレームの少なくとも一部領域から検出される前記特定客体に該当する領域を基準として前記第２フレームで前記第２ブロックを再設定する追跡方法決定部を含むシステムが提供される。

この他にも、本発明を実現するための他の方法、システム及び前記方法を実行するためのコンピュータプログラムを記録するためのコンピュータ読み取り可能な記録媒体が更に提供される。

本発明によれば、動画フレームに含まれている客体を適応的に追跡するアルゴリズムを提供することができるので、動画内での客体の追跡（特に、顔の追跡）がより迅速、かつ、正確に行われるようにする効果がある。

また、本発明によれば、撮影環境のコントラスト、客体の動き、客体周辺の状況変化などを勘案した適応的な客体追跡アルゴリズムを提供することができるので、状況の変化に強い客体追跡技術を実現できるようになるという効果がある。

本発明の一実施形態に係る客体追跡システムの内部構成を例示的に示す図である。本発明の一実施形態に係る客体追跡システムの内部構成を例示的に示す図である。本発明の一実施形態によってブロックマッチングを行う構成を例示的に示す図である。本発明の一実施形態によって客体追跡方法を決定する過程を例示的に示す状態図である。

後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施形態を例として示す添付の図面を参照する。これらの実施形態は、当業者が本発明を実施できるのに十分なように詳細に説明される。本発明の多様な実施形態は互いに異なるが、相互排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施形態について本発明の精神及び範囲から逸脱することなく、他の実施形態で実現され得る。また、それぞれの開示された実施形態内の個別構成要素の位置又は配置は、本発明の精神及び範囲から逸脱することなく、変更され得ることが理解されるべきである。従って、後述する詳細な説明は、限定的な意味として取ろうとするものではなく、本発明の範囲は、適切に説明されるのであれば、それらの請求項が主張するものと均等なあらゆる範囲と共に添付された請求項によってのみ限定される。図面において類似する参照符号は、多様な側面にわたって同一であるか、類似する機能を示す。

以下では、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の好適な実施形態について添付された図面を参照して詳細に説明する。

本明細書において、動画フレームから客体を「直接」検出するということは、時間的に隣接する他のフレームを参照しないまま、該当動画フレームのピクセルに含まれている情報のみを用いて該当動画フレームに含まれている客体を探す方法を意味するものであって、時間的に隣接する他の動画フレームを参照して該当動画フレームに含まれている客体を探すブロックマッチング方法と区別されるものと理解されるべきである。
客体追跡システムの構成
以下では、本発明の実現のために重要な機能を行う客体追跡システムの内部構成及び各構成要素の機能について説明する。

本発明の一実施形態によれば、個人用コンピュータ（例えば、デスクトップコンピュータ、ノートブックコンピュータなど）、サーバ、ワークステーション、ＰＤＡ、ウェブパッド、移動電話機、カメラ装置などのようにメモリ手段を備え、マイクロ・プロセッサを搭載して演算能力を備えた装置であれば、いくらでも本発明の客体追跡システム１００として採択されることができる。

図１は、本発明の一実施形態に係る客体追跡システムの内部構成を例示的に示す図である。
図１に示すように、本発明の一実施形態に係る客体追跡システム１００は、客体検出部１１０、ブロックマッチング部１２０、追跡方法決定部１３０、状況適応部１４０、通信部１５０及び制御部１６０を含むことができ、状況適応部１４０は、臨界値調節部１４１、客体動き推定部１４２、自動更新部１４３を含むことができる。本発明の一実施形態によれば、客体検出部１１０、ブロックマッチング部１２０、追跡方法決定部１３０、状況適応部１４０、通信部１５０及び制御部１６０は、そのうちの少なくとも一部が外部システム（図示せず）と通信するプログラムモジュールであり得る。このようなプログラムモジュールは、オペレーティングシステム、応用プログラムモジュール及びその他プログラムモジュールの形態で客体追跡システム１００に含まれることができ、物理的には様々な公知となっている記憶装置上に格納されることができる。また、このようなプログラムモジュールは、客体追跡システム１００と通信可能な遠隔記憶装置に格納されることもできる。一方、このようなプログラムモジュールは、本発明によって後述する特定の業務を行ったり、特定の抽象データタイプを実行するルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを包括するが、これに制限されるものではない。

まず、本発明の一実施形態によれば、客体検出部１１０は、所定の客体検出技術を利用して動画を構成するフレームに含まれている客体（例えば、人物の顔）を検出する機能を実行する。より具体的に、本発明の一実施形態に係る客体検出部１１０は、フレームの全体領域、即ち、フレームを構成するあらゆるピクセルを対象として客体の検出を実行することもでき（ＦＤ：ＦｕｌｌＤｅｔｅｃｔｉｏｎ）、フレームの一部領域、即ち、フレームのうち、探索領域として設定されたピクセルのみを対象として客体を検出することもできる（ＰＤ：ＰａｒｔｉａｌＤｅｔｅｃｔｉｏｎ）。後述するように、客体検出部１１０により検出された客体が該当フレーム内で占める領域は、ブロックマッチング部１２０がブロックマッチングを実行する過程において参照ブロックとして活用されることができる。

前記で言及したように、客体検出部１１０で動画フレームに含まれている客体を検出するためには、所定の客体検出技術を利用しなければならないが、このような客体検出技術として、ＣｈａｎｇＨＵＡＮＧ外３人が共同で著述し、２００５年にＩＣＣＶ（ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）で発表された“ＶｅｃｔｏｒＢｏｏｓｔｉｎｇｆｏｒＲｏｔａｔｉｏｎＩｎｖａｒｉａｎｔＭｕｌｔｉ−ＶｉｅｗＦａｃｅｄｅｔｅｃｔｉｏｎ”という論文が参照できる（前記論文の内容は、その全体が本明細書に併合されているものと考慮されるべきである）。前記論文にはイメージに含まれている多様な客体の角度を区別できるｖｅｃｔｏｒｂｏｏｓｔｉｎｇアルゴリズムを用いてイメージに含まれている顔が特定の角度でずれていても顔領域を正確に検出する方法について記載されている。もちろん、本発明に適用可能な客体検出技術が前記論文に記載された方法にのみ限定されるものではなく、多様な変形例を適用して本発明を実現することができる。

次に、本発明の一実施形態によれば、ブロックマッチング部１２０は、所定のブロックマッチング技術を利用して動画に含まれる第１フレームに含まれている客体の位置を参照して該当動画に含まれる第２フレームに含まれている客体の位置を決定する機能を遂行することができる（ＢＭ：ＢｌｏｃｋＭａｔｃｈｉｎｇ）。

図３は、本発明の一実施形態によってブロックマッチングを実行する構成を例示的に示す図である。図３に示すように、ブロックマッチング部１２０は、時間的に隣接する２つのフレーム３１０、３２０に対してブロックマッチングを実行することで、連続するフレームに含まれている特定の客体を継続的に追跡することができる。以下では、時間的に隣接する第１フレーム３１０及び第２フレーム３２０で客体Ａ（３１７）を追跡する過程について具体的に説明する。参考までに、第１フレーム３１０と第２フレーム３２０とは、互いに同一のピクセル配列を有しており、第１フレーム３１０が第２フレーム３２０よりも時間的に先行すると仮定することができる。

まず、本発明の一実施形態によれば、第１フレーム３１０に含まれている客体Ａ（３１７）を示すＭ×Ｎピクセルサイズの第１ブロック３１５が決定されていることができるが、このような第１ブロックは、前述した客体検出技術などを利用して第１フレーム３１０から客体Ａ（３１７）を直接検出することによって得られることができる。

次に、本発明の一実施形態によれば、ブロックマッチング部１２０は、第２フレーム３２０で第１フレーム３１０の第１ブロック３１５と最も一致（マッチ）するブロックを探すために第２フレーム３２０の少なくとも一部領域３２５を探索することができる。ここで、第２フレームのうち、探索の対象となる領域、即ち、探索領域３２５は、第１フレーム３１０での第１ブロック３１０の位置を基準として設定されることができるが、例えば、探索領域３２５は、第１フレーム３１０での第１ブロック３１５の位置を中心とするＸ×Ｙピクセルサイズの矩形領域に設定され得ることができる（Ｘ＞Ｍ、Ｙ＞Ｎ）。即ち、本発明の一実施形態に係るブロックマッチング部１２０は、第２フレーム３２０の探索領域３２５内の可能なＭ×Ｎピクセルサイズの全ての又は一部のブロック（即ち、候補ブロック）を第１フレーム３１０の第１ブロック３１５と比較して、そのうち、第１ブロック３１５と最も一致するブロックを第２フレーム３２０での客体Ａ（３１７）を示すブロックである第２ブロックとして決定することができる。

一方、候補ブロックが第１ブロック３１５と一致する程度を算出する方法としては、第１ブロック３１５から候補ブロックを引くことで（或いは候補ブロックから第１ブロック３１５を引くことで）求められる誤差エネルギー（ｒｅｓｉｄｕａｌｅｎｅｒｇｙ）（例えば、ピクセル値のＳＳＤ（ＳｕｍｏｆＳｑｕａｒｅｄＤｉｓｔａｎｃｅ）が小さいほど該当候補ブロックが第１ブロック３１５との一致度が高いと判断する方法が適用されることができるが、必ずしもこれに限定されるものではなく、本発明の目的を達成できる範囲内で多様な技術が適切に取捨選択されることができる。

次に、本発明の一実施形態によれば、追跡方法決定部１３０は、客体検出部１１０或いはブロックマッチング部１２０によって行われた客体追跡の結果を参照して動画フレームで客体を追跡するための方法であって、客体検出方法及びブロックマッチング方法のうちの１つを決定する機能を実行する。

より具体的に、本発明の一実施形態に係る追跡方法決定部１３０は、動画フレームで客体を追跡するにおいて基本的にブロックマッチングによって客体が追跡されるようにすることができ、フレーム毎にブロックマッチングの結果を評価してブロックマッチングの信頼度が所定の臨界値未満である場合には、該当フレームに対する客体追跡方法を速度は遅いが、正確度の高い客体検出方法に転換することができる。

図４は、本発明の一実施形態によって客体追跡方法を決定する過程を例示的に示す状態図である。図４に示すように、本発明の一実施形態に係る客体追跡システム１００は、動画フレームで客体を追跡するための方法として、フレームの全体領域、即ち、フレームを構成するあらゆるピクセルを対象として客体の検出を実行する全体検出（ＦＤ）方法、フレームの一部領域、即ち、フレームのうち、探索領域として設定されたピクセルのみを対象として客体の検出を実行する部分検出（ＰＤ）方法、及び時間的に隣接するフレームに含まれる客体領域を示すブロックを参照して客体を追跡するブロックマッチング（ＢＭ）方法を選択的に用いることができる。

以下では、本発明の一実施形態に係る客体追跡過程について具体的に説明する。参考までに、以下の客体追跡過程において追跡の対象となる客体が人物の顔であると仮定したが、必ずしもこれに限定されるものではなく、動画フレーム内でその形状が特定され得る客体であれば、すべて本発明でいう客体追跡の対象となり得る。

まず、本発明の一実施形態に係る客体追跡システム１００は、客体の追跡が始まる開始フレームの全体領域に対して全体検出（ＦＤ）を行って開始フレームで顔Ａに該当する領域を検出することで、顔Ａに対する追跡過程を始めることができる（４１０）。前記のように、開始フレームに対して全体検出（ＦＤ）を実行することにより検出された顔Ａ領域は、後続して行われるブロックマッチングの基準となり得る（４１１）。一方、開始フレームに対して全体検出（ＦＤ）を行ったにも拘らず、人物の顔が検出されない場合には、客体追跡過程を終了することもできる（４１２）。

次に、本発明の一実施形態に係る客体追跡システム１００は、時間的に隣接する２つのフレーム（第１及び第２フレーム）に対してブロックマッチングを実行することで、第１フレームにおける顔Ａ領域に該当する第１ブロックを参照して第２フレームにおける顔Ａ領域に該当する第２ブロックを特定することができる（４２０）。

より具体的に、本発明の一実施形態に係る客体追跡システム１００は、第１フレームに含まれているＭ×Ｎピクセルサイズの第１ブロックと最も一致する（マッチする）ブロックを第２フレーム内で探すために第２フレームの少なくとも一部領域を探索することができる。ここで、第２フレームのうち、探索の対象となる領域、即ち、探索領域は、第１フレームでの第１ブロックの位置を基準として設定されることができるが、例えば、探索領域は、第１フレームでの第１ブロックの位置を中心とするＸ×Ｙピクセルサイズの矩形領域に設定されることができる（Ｘ＞Ｍ、Ｙ＞Ｎ）。即ち、本発明の一実施形態に係る客体追跡システム１００は、第２フレームの探索領域内の可能なＭ×Ｎピクセルサイズの全ての又は一部のブロック（即ち、候補ブロック）を第１フレームの第１ブロックと比較して一致度を判断し、そのうち、第１ブロックと最も一致するブロックが既に設定されている臨界値以上の一致度を有する場合、前記第１ブロックと最も一致するブロックを第２フレームでの客体Ａ領域を示すブロックである第２ブロックとして決定することができる。

具体的に、本発明の一実施形態に係る客体追跡システム１００は、ブロックマッチングの基準となる第１フレームの第１ブロックと、ブロックマッチングを行った結果から導き出された第２フレームの第２ブロックとの間の一致度が既に設定されている臨界値以上である場合に、ブロックマッチングの結果が信頼できると判断して、第２ブロックが第２フレームでの顔Ａ領域を示すブロックであると確定することができる（４２１）。逆に、ブロックマッチングの基準となる第１フレームの第１ブロックと、ブロックマッチングを行った結果から導き出された第２フレームの第２ブロックとの間の一致度が既に設定されている臨界値未満である場合には、ブロックマッチングの結果を信頼し難いと判断して、第２ブロックが第２フレームでの顔Ａ領域を示すブロックであると確定する代わりに、第２フレームの探索領域に対して部分検出（ＰＤ）を行って第２フレームでの顔Ａ領域を直接検出することができる（４２２）。参考までに、第１ブロックと第２ブロックとの間の一致度を算出する具体的な方法については、前記で十分に言及されたので、詳細な説明を省略する。

次に、本発明の一実施形態に係る客体追跡システム１００は、ブロックマッチングの信頼度（即ち、第１ブロックと第２ブロックとの間の一致度）が既に設定されている臨界値未満である場合に、該当フレームの一部領域、即ち、フレームのうち、探索領域として設定されたピクセルのみを対象に顔Ａ領域を直接検出することができ、これにより客体追跡の信頼度が既に設定されている水準以上に維持されるようにすることができる（４３０）。

前記のように、探索領域内で部分検出（ＰＤ）を行った結果、顔Ａ領域が検出された場合に、部分検出（ＰＤ）された顔Ａ領域は、該当フレームでの顔Ａを示す領域であると確定されることができ、後続して行われるブロックマッチングの基準となることができる（４３１）。逆に、探索領域内で部分検出（ＰＤ）を行ったにも拘らず、顔Ａ領域が検出されない場合に、客体検出システム１００は、該当フレームの全体領域に対して全体検出（ＦＤ）を実行することで、顔Ａに対する客体追跡過程が継続して続くようにすることもできる（４３２）。

以上で説明した通り、追跡方法決定部１３０は、動画フレームに含まれている客体を追跡するにおいて客体検出方法とブロックマッチング方法を適切に混合して用いることで、動画フレームに含まれている客体に対する追跡がより迅速、かつ、正確に実行されるようにすることができる。

次に、本発明の一実施形態によれば、状況適応部１４０は、客体追跡アルゴリズムが、動画が撮影される状況に応じて（又は、プリビュー状態で映像が入力される状況に応じて）適応的に実行されるようにする機能を実行する。図２に示すように、本発明の一実施形態に係る状況適応部１４０は、臨界値調節部１４１、客体動き推定部１４２及び自動更新部１４３を含むことができる。以下では、状況適応部１４０の各構成要素の機能について具体的に説明する。

まず、本発明の一実施形態に係る臨界値調節部１４１は、撮影環境の明暗と撮影装置との特性によって変わり得る撮影環境のコントラスト（ｃｏｎｔｒａｓｔ、対照）によって追跡方法決定部１３０でのブロックマッチング結果の信頼度判断の基準となる既に設定されている臨界値を適応的に調節する機能を行うことができる。

例えば、動画のフレームが明るい所で撮影されて撮影環境のコントラストが高い場合、実際に一致度が高いブロック間にも誤差エネルギー（例えば、ピクセル値のＳＳＤ）が大きく示されることができ、逆に、動画フレームが暗い所で撮影されて撮影環境のコントラストが低い場合、実際に一致度が低いブロック間にも誤差エネルギーが小さく示されることができる。従って、ブロックマッチング結果の信頼度判断の基準となる既に設定されている臨界値として固定された値を用いることになれば、動画フレームがコントラストの高い明るい環境で撮影された場合、ブロックマッチングが正確に行われたにも拘らず、誤差エネルギーが大きいものと示され、部分検出或いは全体検出が必要以上にあまりにも頻繁に呼び出されて客体追跡の速度が低下してしまうという問題が発生する恐れがあり、動画フレームがコントラストの低い暗い環境で撮影された場合、ブロックマッチングが正確に行われていないにも拘らず、誤差エネルギーが小さいものと示され、部分検出或いは全体検出に転換されず、不正確な客体の追跡が続くという問題が発生することができる。

そこで、本発明の一実施形態に係る臨界値調節部１４１は、前記のような問題を解決するために、撮影環境の明暗と撮影装置との特性によって変わり得る撮影環境のコントラストによってブロックマッチング結果の信頼度判断の基準となる既に設定されている臨界値を適応的に調節することができる。即ち、臨界値調節部１４１は、撮影環境のコントラストが高い場合に、前記一致度に関する既に設定されている臨界値を相対的に低く設定することができ、逆に、撮影環境のコントラストが低い場合には前記一致度に関する既に設定されている臨界値を相対的に高く設定することができる。ここで、撮影環境のコントラストは、ブロックマッチングの基準となるブロックを構成するピクセル値の分散（ｉｎｔｅｎｓｉｔｙｖａｒｉａｎｃｅ）によって推定されることができるが、例えば、（比例定数）×（ブロックマッチングの基準となるブロックを構成するピクセル値の分散）により推定されることもできる。ただし。これに限定されるものではなく、本発明の目的を達成できる範囲内で適切に変更されることができる。

次に、本発明の一実施形態に係る客体動き推定部１４２は、ハンドヘルド（ｈａｎｄｈｅｌｄ）カメラ装置を用いて動画を撮影するユーザのハンドワークによる客体の動きを考慮してブロックマッチング及び部分検出での探索領域の位置を適応的に設定する機能を行うことができる。

一般に、ユーザのハンドワークなどによって動画フレームに含まれている客体が速い速度又は加速度を有して動く場合が発生し得るが、これを補正するための技術として、Ｋａｌｍａｎｆｉｌｔｅｒｉｎｇなどのような従来技術が紹介されている。しかしながら、探索領域を設定するにおいて客体の推定された動きを加減なくそのまま反映すれば、下記のような問題が発生し得る。例えば、振動、揺れなどによって客体の急激な方向転換がなされる場合に、そのような急激な方向転換によって探索領域を設定すれば、むしろ客体追跡の性能を低下させる恐れがある。これは、客体の推定された動きによってブロックマッチング又は部分検出での探索領域を再設定するとしても、前記再設定された探索領域が実際に反映される時点では既に該当客体が反対方向へ移動することもあり得るためである。

従って、本発明の一実施形態に係る客体動き推定部１４２は、ブロックマッチング又は部分検出での探索領域を再設定するにおいてｋａｌｍａｎｆｉｌｔｅｒｉｎｇなどの動き推定技術によって推定された客体の動き（速度、加速度など）の一部のみを反映させることで、前記問題を解決することができる。例えば、動き推定部１４２は、推定された客体の動きの半分のみを反映してブロックマッチング又は部分検出での探索領域を再設定することができる。これにより、本発明に係る客体追跡システム１００は、客体の動きに対する性急な推定により客体の追跡が不正確に行われるのを防止し、客体の動きに、より柔軟に対応可能になる。

次に、本発明の一実施形態に係る自動更新部１４３は、ブロックマッチング（ＢＭ）を用いて客体追跡を実行するにおいて照明の変化、動画フレーム内での客体の大きさ又は姿勢の変化などによって追跡の対象となる客体の外観が急激に変化することに対応して全体検出（ＦＤ）又は部分検出（ＰＤ）を呼び出すことで、動画フレーム内の該当客体領域を自動に更新することができる。動画フレーム上に表示される客体の外観が急激に変化する場合には、ブロックマッチング方法だけで客体の追跡を正確に実行し難いため、本発明によって全体検出方法又は部分検出方法を用いて外観が急激に変化した客体を自動に検出することで、客体の追跡がより正確に行われることができる。

一方、本発明の一実施形態によれば、データベース（図示せず）には客体追跡の対象となる動画フレームが格納されることができる。本発明において、データベース（図示せず）は、狭義のデータベースだけでなく、コンピュータファイルシステムに基づくデータ記録などを含む広い意味のデータベースまで含む概念であって、単純な演算処理ログの集合であってもこれを検索して所定のデータを抽出できるのであれば、本発明でいうデータベースに含まれ得ることが理解されるべきである。また、本発明の一実施形態に係るデータベース（図示せず）は、本発明を実現する当業者の必要に応じて客体追跡システム１００に含まれて構成されてもよく、客体追跡システム１００と別個で構成されてもよい。

次に、本発明の一実施形態に係る通信部１５０は、客体追跡システム１００が移動通信サーバ（図示せず）、ウェブサーバ（図示せず）などの外部装置と通信できるようにする機能を実行する。

最後に、本発明の一実施形態に係る制御部１６０は、客体検出部１１０、ブロックマッチング部１２０、追跡方法決定部１３０、状況適応部１４０及び通信部１５０間のデータの流れを制御する機能を実行する。即ち、制御部１６０は、外部からの又は客体追跡システムの各構成要素間のデータの流れを制御することで、客体検出部１１０、ブロックマッチング部１２０、追跡方法決定部１３０、状況適応部１４０及び通信部１５０でそれぞれ固有機能を実行するように制御する。

以上、説明された本発明に係る実施形態は、多様なコンピュータ構成要素を通じて実行され得るプログラム命令語の形態で実現されてコンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独又は組み合わせにより含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され構成されたものであるか、コンピュータソフトウェア分野の当業者に公知されて使用可能なものであり得る。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光気録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納し、実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例としては、コンパイラにより作られるもののような機械語コードだけでなく、インタープリタなどを用いてコンピュータにより実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を行うために、１つ以上のソフトウェアモジュールとして作動するように構成されることができ、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施形態及び図面により説明されたが、これは、本発明のより全般的な理解を促進するために提供されるものであるだけで、本発明が前記実施形態に限定されるものではなく、本発明の属する技術分野において通常の知識を有する者であれば、このような記載から多様な修正及び変形を図ることができる。

従って、本発明の思想は、前記説明された実施形態に限定されて定められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等に又は等価的に変形された全てのものは、本発明の思想の範疇に属すると言える。

１００客体追跡システム
１１０客体検出部
１２０ブロックマッチング部
１３０追跡方法決定部
１４０状況適応部
１４１臨界値調節部
１４２客体動き推定部
１４３自動更新部
１５０通信部
１６０制御部

Claims

適応的に客体を追跡する方法であって、
（ａ）第１フレームで特定客体に該当する領域を示す第１ブロックと第２フレームに含まれる少なくとも１つのブロックとを比較して、前記第２フレームに含まれる少なくとも１つのブロックのうち、前記第１ブロックとの一致度が最も高いブロックを前記特定客体に該当する領域を示す第２ブロックとして決定するステップ、及び
（ｂ）前記第１ブロックと前記第２ブロックとの間の一致度が既に設定されている臨界値未満であれば、客体検出技術を利用して前記第２フレームの少なくとも一部領域から前記特定客体を検出し、前記検出された特定客体に該当する領域を基準として前記第２フレームで前記第２ブロックを再設定するステップ
を含む方法。
前記第１及び第２フレームは、時間的に互いに隣接するフレームであることを特徴とする請求項１に記載の方法。
前記（ａ）ステップで、
前記第１ブロックは、客体検出技術によって前記第１フレームの全体領域を対象に検出された前記特定客体を基準として設定されることを特徴とする請求項１に記載の方法。
前記（ａ）ステップで、
前記第２フレームに含まれる少なくとも１つのブロックは、前記第２フレームのうち、前記第１フレームでの前記第１ブロックの位置を基準として設定される探索領域内に存在することを特徴とする請求項１に記載の方法。
前記一致度は、前記第１ブロックの各ピクセル値と前記第２ブロックの各ピクセル値との間の二乗和を参照して決定されることを特徴とする請求項１に記載の方法。
前記（ｂ）ステップで、
前記第２フレームの少なくとも一部領域からの前記特定客体の検出は、前記第２フレームのうち、前記第１フレームでの前記第１ブロックの位置を基準として設定される探索領域に対してのみ行われることを特徴とする請求項１に記載の方法。
前記（ｂ）ステップで、
前記第２フレームの前記探索領域から前記特定客体の検出が失敗すれば、前記第２フレームの全体領域から前記特定客体を検出し、前記第２フレームの全体領域から検出された前記特定客体に該当する領域を基準として前記第２フレームで前記第２ブロックを再設定することを特徴とする請求項６に記載の方法。
前記（ｂ）ステップは、
（ｂ−１）撮影環境のコントラストによって前記既に設定されている臨界値を適応的に決定するステップ
を含むことを特徴とする請求項１に記載の方法。
前記（ｂ−１）ステップで、
前記コントラストが大きいほど前記既に設定されている臨界値を低く設定することを特徴とする請求項８に記載の方法。
前記（ｂ）ステップは、
（ｂ−２）前記第２フレームでブロックマッチング又は客体検出の対象となる領域を設定するにおいて前記特定客体の動きを推定し、前記推定された動きの一部のみを反映して前記領域を設定するステップ
を含むことを特徴とする請求項１に記載の方法。
前記（ｂ）ステップは、
（ｂ−３）前記第１フレームに含まれている前記特定客体の外観と前記第２フレームに含まれている前記特定客体の外観間との間に既に設定されている程度を超える急激な変化が発生すれば、客体検出技術を利用して前記第２フレームの少なくとも一部領域から前記特定客体を検出し、前記検出された特定客体に該当する領域を基準として前記第２フレームで前記第２ブロックを自動で再設定するステップ
を含むことを特徴とする請求項１に記載の方法。
適応的に客体を追跡するシステムであって、
動画フレームの少なくとも一部領域から特定客体を検出する客体検出部、
第１フレームで特定客体に該当する領域を示す第１ブロックと第２フレームとに含まれる少なくとも１つのブロックとを比較して、前記第２フレームに含まれる少なくとも１つのブロックのうち、前記第１ブロックとの一致度が最も高いブロックを前記特定客体に該当する領域を示す第２ブロックとして決定するブロックマッチング部、及び
前記第１ブロックと前記第２ブロックとの間の一致度が既に設定されている臨界値未満であれば、前記客体検出部によって前記第２フレームの少なくとも一部領域から検出される前記特定客体に該当する領域を基準として前記第２フレームで前記第２ブロックを再設定する追跡方法決定部
を含むシステム。
前記第１及び第２フレームは、時間的に互いに隣接するフレームであることを特徴とする請求項１２に記載のシステム。
前記第１ブロックは、客体検出技術によって前記第１フレームの全体領域を対象に検出された前記特定客体を基準として設定されることを特徴とする請求項１２に記載のシステム。
前記ブロックマッチング部において、
前記第２フレームに含まれる少なくとも１つのブロックは、前記第２フレームのうち、前記第１フレームでの前記第１ブロックの位置を基準として設定される探索領域内に存在することを特徴とする請求項１２に記載のシステム。
前記一致度は、前記第１ブロックの各ピクセル値と前記第２ブロックの各ピクセル値との間の二乗和を参照して決定されることを特徴とする請求項１２に記載のシステム。
前記追跡方法決定部において、
前記第２フレームの少なくとも一部領域からの前記特定客体の検出は、前記第２フレームのうち、前記第１フレームでの前記第１ブロックの位置を基準として設定される探索領域に対してのみ行われることを特徴とする請求項１２に記載のシステム。
前記追跡方法決定部は、前記第２フレームの前記探索領域から前記特定客体の検出が失敗すれば、客体検出部によって前記第２フレームの全体領域から検出された前記特定客体に該当する領域を基準として前記第２フレームで前記第２ブロックを再設定することを特徴とする請求項１７に記載のシステム。
撮影環境のコントラストによって前記既に設定されている臨界値を適応的に決定する臨界値調節部
を更に含むことを特徴とする請求項１２に記載のシステム。
前記臨界値調節部は、前記コントラストが大きいほど前記既に設定されている臨界値を低く設定することを特徴とする請求項１９に記載のシステム。
前記第２フレームでブロックマッチング又は客体検出の対象となる領域を設定するにおいて前記特定客体の動きを推定し、前記推定された動きの一部のみを反映して前記領域を設定する客体動き推定部
を更に含むことを特徴とする請求項１２に記載のシステム。
前記第１フレームに含まれている前記特定客体の外観と前記第２フレームに含まれている前記特定客体の外観間との間に既に設定されている程度を超える急激な変化が発生すれば、客体検出技術を利用して前記第２フレームの少なくとも一部領域から前記特定客体を検出し、前記検出された特定客体に該当する領域を基準として前記第２フレームで前記第２ブロックを自動で再設定する自動更新部
を更に含むことを特徴とする請求項１２に記載のシステム。
請求項１ないし１１のいずれか１項に記載の方法を実行するためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体。