JP2008518331A - リアルタイムビデオ動き解析を通じたビデオコンテンツ理解 - Google Patents
リアルタイムビデオ動き解析を通じたビデオコンテンツ理解 Download PDFInfo
- Publication number
- JP2008518331A JP2008518331A JP2007538199A JP2007538199A JP2008518331A JP 2008518331 A JP2008518331 A JP 2008518331A JP 2007538199 A JP2007538199 A JP 2007538199A JP 2007538199 A JP2007538199 A JP 2007538199A JP 2008518331 A JP2008518331 A JP 2008518331A
- Authority
- JP
- Japan
- Prior art keywords
- motion
- video
- block
- camera
- consecutive images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/223—Analysis of motion using block-matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
カメラ動き解析及び移動物体解析のための方法及び統合システム、並びに、ショットを変更することなく、主として、ビデオ及びビデオセグメントにおけるカメラ動きパラメータからセマンティクスを抽出する方法が説明される。このようなビデオの典型例は、デジタルカメラによって撮影されたホームビデオ及び業務用ビデオ又はフィルムのセグメント、すなわちクリップである。抽出されたセマンティクスは、注釈、ブラウジング、編集、フレーム強調、キーフレーム抽出、パノラマ生成、印刷、検索、要約等の複数のビデオ/画像の理解及び管理のアプリケーションに直接使用することができる。また、移動物体のアプリオリな知識に依拠しない、その移動物体の検出及び追跡を行う自動方法も説明される。これらの方法はリアルタイムで実行することができる。
Description
[背景]
カメラ動き解析及び物体動き解析を含むビデオ動き解析は、ビデオコンテンツを理解する重要な部分であり、コンテンツ理解は、パーソナルコンピュータ(PC)、デジタルエンターテイメントシステム、カメラ、さらにはプリンタも含む多くのマルチメディアシステムにおいて、ビデオのブラウジング、検索、編集、印刷等において重要な役割を果たす。
カメラ動き解析及び物体動き解析を含むビデオ動き解析は、ビデオコンテンツを理解する重要な部分であり、コンテンツ理解は、パーソナルコンピュータ(PC)、デジタルエンターテイメントシステム、カメラ、さらにはプリンタも含む多くのマルチメディアシステムにおいて、ビデオのブラウジング、検索、編集、印刷等において重要な役割を果たす。
現在、プリンタは、文書及び画像等の平面(2次元)のメディアコンテンツ(媒体内容)を表現することを得意とするが、ビデオ印刷は、まだ多くの労力を必要とする問題である。その理由は、3次元(3D)信号(すなわち、2つの空間次元及び1つの時間次元)として、ビデオは膨大な量の冗長性を有するはるかに多くの情報を含み、これを用紙等の静的な媒体によって容易に表現することができないからである。
ビデオ印刷の1つの方法は、ビデオクリップからキーフレームを選択して、選択されたフレームを印刷することである。あいにく、セマンティクな意味を最大にするようにキーフレームを選択することは、困難なコンピュータビジョン及び人工知能の問題であるので、キーフレーム抽出タスクを自動化することは簡単なことではない。妥当な個数のキーフレームのみを印刷することは通常容認できるので、解決法は制約を受ける。キーフレームは、色、テクスチャ、動き等の低レベルのコンテンツの特徴を解析することによって抽出することができる。
動き解析及びコンテンツ理解の既存の手法は、すべてのタイプのビデオ(たとえば、ホームビデオ及び業務用ビデオ、短いビデオクリップ記録及び長いビデオ記録等)にとって十分に一般的ではないか、又は、PCのような一般処理システム及びカメラのような組み込みシステムにとってあまりにも低速であるかのいずれかである。既存の手法は、通常、たとえば、(既知の顔のモデルを有する)人又は(所定の車のモデルを有する)車の動きの追跡といった特定のタスク用に設計されており、対応する簡略化が行われており、適用範囲が限られている。
[概要]
一態様では、本発明は、一対の連続した画像間のカメラ動きを推定する方法であって、一対の連続した画像から動きベクトルを求めること、及び動きベクトルに基づいてカメラの動きのアフィンモデルを推定することを含む、一対の連続した画像間のカメラ動きを推定する方法である。動きベクトルを求めることは、一対の連続した画像の一方を複数の画素ブロックにセグメント化すること、画像の少なくとも1つの特徴に対応するブロックを選択すること、選択された各ブロックに対応する輝度値を求めること、輝度値に基づいて、選択されたブロックを、一対の連続した画像の他方の画素ブロックとマッチングすること、及び一対の連続した画像のマッチングされたブロックに関連した動きベクトルを求めることを含む。推定されたアフィンモデルは、一組のカメラ動きパラメータを決定する。
一態様では、本発明は、一対の連続した画像間のカメラ動きを推定する方法であって、一対の連続した画像から動きベクトルを求めること、及び動きベクトルに基づいてカメラの動きのアフィンモデルを推定することを含む、一対の連続した画像間のカメラ動きを推定する方法である。動きベクトルを求めることは、一対の連続した画像の一方を複数の画素ブロックにセグメント化すること、画像の少なくとも1つの特徴に対応するブロックを選択すること、選択された各ブロックに対応する輝度値を求めること、輝度値に基づいて、選択されたブロックを、一対の連続した画像の他方の画素ブロックとマッチングすること、及び一対の連続した画像のマッチングされたブロックに関連した動きベクトルを求めることを含む。推定されたアフィンモデルは、一組のカメラ動きパラメータを決定する。
本発明の別の態様では、カメラ動きパラメータをセマンティクな意味に変換する方法は、カメラによって捕捉された数対の連続した画像から動きベクトルを求めること、動きベクトルに基づいてアフィンモデルを推定することにより、各一組のカメラ動きパラメータを求めること、及びそれら数組のカメラ動きパラメータからセマンティクな意味を生成することを含む。セマンティクな意味は、数組のカメラ動きパラメータを複数の規模及び方向に量子化すること、及び、ほぼ同じ規模及び方向に量子化された連続した数組のカメラ動きパラメータを特定することにより、量子化された数組から少なくとも1つのセンテンスを生成することによって生成される。
本発明のさらに別の態様では、カメラによって捕捉された画像における物体を検出する方法は、数対の連続した画像から動きベクトルを求めること、動きベクトルに基づいてアフィンモデルを推定すること、動きベクトル及びアフィンモデル推定値から数対の連続した画像の各画素ブロックの残差を計算すること、及び残差に基づいて物体を検出することを含む。
本発明のさらに別の態様では、ビデオ動き理解のための装置は、光学フロー解析に輝度画像を使用して、数対の連続した画像の画素ブロックから動きベクトルを生成する光学フロー解析器、及び、動きベクトルに基づいてアフィンモデル推定値を生成するアフィンモデル推定器を含むカメラ動き推定器と、アフィンモデル推定値に基づいてブロックの残差を求め、残差に基づいて外れブロックを削減し、残りのブロックを濾波する物体検出器であって、物体のサイズ及び位置を特定する限界ボックスを生成する、物体検出器とを備える。
添付図面は、本明細書に援用されて、本明細書の一部を構成する。添付図面は、本発明の実施の形態を示し、この記述と共に、本発明を説明するものである。
[詳細な説明]
本発明と一致した実施態様の以下の説明は、添付図面を参照する。異なる図面における同じ参照番号は、同じ要素又は類似の要素を特定する。以下の詳細な説明は、本発明を限定するものではない。その代わり、本発明の範囲は、添付の特許請求の範囲によって規定される。
本発明と一致した実施態様の以下の説明は、添付図面を参照する。異なる図面における同じ参照番号は、同じ要素又は類似の要素を特定する。以下の詳細な説明は、本発明を限定するものではない。その代わり、本発明の範囲は、添付の特許請求の範囲によって規定される。
カメラ動き解析及び移動物体解析のための統合システム、並びに、ショットを変更することなく、主として、ビデオ及びビデオセグメントにおけるカメラ動きパラメータからセマンティクスを抽出する方法を説明する。このようなビデオの典型例は、デジタルカメラによって撮影されたホームビデオ及び業務用ビデオ又はフィルムのセグメント、すなわちクリップである。抽出されたセマンティクスは、注釈、ブラウジング、編集、フレーム強調、キーフレーム抽出、パノラマ生成、印刷、検索、要約等の複数のビデオ/画像の理解及び管理のアプリケーションに直接使用することができる。また、移動物体のアプリオリな知識に依拠しない、その移動物体を検出する完全自動方法も説明する。その上、それらの方法をリアルタイムで実行できるように処理を高速化する手段も説明する。
本発明の一実施の形態によるリアルタイムビデオセマンティクス解析は、コンピュータビジョン及び統計的パターン認識の知識に基づいてビデオコンテンツを理解するための動き情報を使用する。一般に、或る種の解析は、グローバル/カメラ動き推定及び前景/物体動き解析の少なくとも2つの部分を含む。カメラ動き推定は、光学フロー解析と、カメラ動き推定と、カメラ動きの量子化、センテンス生成、及びパラグラフ生成を実施するセマンティクな意味の抽出とを伴う。カメラの動き推定によって、カメラ動きのアフィンモデル表現がセマンティク表現に変換される。物体動き解析は、物体の検出と、物体のアプリオリな知識なしに追跡することとを伴う。高速でローバストな実施のために、カメラ動き推定は、加速されたブロック選択及びブロックマッチングを含むことができ、物体の追跡は、空間情報強化カラーヒストグラム(spatial information enhanced color histogram)を使用することができる。
したがって、フレームの入力シーケンス、すなわち画像の入力シーケンスは、カメラ動き解析に基づいてチャンクに有効に分割され、これらのチャンクには、便利な方法でインデックスすることができる。たとえば、0.1秒から2.0秒までは、カメラが高速ズームイン動作をしており、2.0秒から5.0秒までは、カメラの焦点が固定されていた等である。次に、チャンク(複数可)の物体(複数可)が検出され、その物体の動きが追跡され、その結果、各ビデオフレームは、たとえば移動物体の位置及びサイズといったパラメータよってさらにインデックスされる。従来のシステム及び方法とは対照的に、本発明のシステム及び方法は、容易に入手可能なプロセッサでリアルタイムに動作することができる。
カメラ動き推定
カメラ(グローバル)動きは、ズーム、パニング、回転等のカメラ操作によって誘発される動きを指す。物理的なカメラ動きは、通常、2つの連続フレーム間の適度で且つ時間的に連続した変化である。その影響は、カメラ動きによって定義されたアフィン変換に続くフレーム全般にわたる規則正しい光学フロー変化として観測することができる。実際のビデオでは、この状況は、前景の動き及び他の信号雑音によって多少悪化する。カメラ動き推定によって、観測された雑音のある光学フローアクティビティに基づくカメラ動きのアフィンモデルが見出される。一般に、これは、光学フロー解析及びアフィンモデル推定を含む。
カメラ(グローバル)動きは、ズーム、パニング、回転等のカメラ操作によって誘発される動きを指す。物理的なカメラ動きは、通常、2つの連続フレーム間の適度で且つ時間的に連続した変化である。その影響は、カメラ動きによって定義されたアフィン変換に続くフレーム全般にわたる規則正しい光学フロー変化として観測することができる。実際のビデオでは、この状況は、前景の動き及び他の信号雑音によって多少悪化する。カメラ動き推定によって、観測された雑音のある光学フローアクティビティに基づくカメラ動きのアフィンモデルが見出される。一般に、これは、光学フロー解析及びアフィンモデル推定を含む。
光学フロー解析
光学フロー解析は、フレーム間の動きベクトル、すなわち動き推定を求めることを伴う。動き推定の基本的な方法はブロックマッチングである。図1に示すように、k番目のフレームにおける画素寸法(W,H)を有する位置(m,n)のブロックと、(k−1)番目のフレームにおける動きベクトル(i,j)によってシフトされた当該ブロックとの間の強度差は、
光学フロー解析は、フレーム間の動きベクトル、すなわち動き推定を求めることを伴う。動き推定の基本的な方法はブロックマッチングである。図1に示すように、k番目のフレームにおける画素寸法(W,H)を有する位置(m,n)のブロックと、(k−1)番目のフレームにおける動きベクトル(i,j)によってシフトされた当該ブロックとの間の強度差は、
によって表すことができる。ここで、Iは、通常、画素の輝度である。誤差メトリックE(i,j)は、2乗誤差e(Ik,Ik-1)の合計又は絶対誤差e(Ik,Ik-1)の合計とすることができる。絶対誤差の合計の方が計算コストは少ない。ブロックに関連した動きベクトルは、探索範囲(M,N)内において、以下の式
に従った最小歪みVを与えるベクトルと考えられる。
便利な探索範囲はM=N=8であるが、他の探索範囲、たとえばM=N=16も使用することができる。8×8画素ブロック又は8×8画素アレイに基づいて動きベクトルを求めることは、MPEG−2、MPEG−4、及びWindows(登録商標)Mediaを含む多くの共通のビデオ符号化アルゴリズムの機能である。実際は、これらの符号化アルゴリズム又は他の符号化アルゴリズムによって生成された動きベクトルは、後述するカメラ動き推定及び物体動き解析の他の機能と共に使用することができる。それにもかかわらず、MPEG−2のような圧縮アルゴリズムにおいて動きベクトルを求めることは、カメラ動きを求めるというよりもむしろ、顕著な歪みなしに圧縮を最適化することを目的としていることが十分理解されよう。
一実施の形態では、数式2によって与えられる動きベクトルを見つけるために、探索範囲内の網羅的探索を行って、大域的最適化を提供することができる。このような探索は、あまりにも多くの計算を行うので、プロセッサによってはリアルタイムで行うことができない場合がある。したがって、別の実施の形態では、網羅的探索の代わりに、高速探索アルゴリズムを使用することができる。この高速探索アルゴリズムは、J.R. Jain他著の「Displacement Measurement and Its Application in Interframe Image Coding」(IEEE Trans. on Communications vol. COM-29, pp. 1799-1808 (Dec. 1981))に記載されている2次元(2D)対数探索法、J.Y. Tham他著の「A Novel Unrestricted Center-Biased Diamond Search Algorithm for Block Motion Estimation」(IEEE Trans. on Circuits and Systems for Video Technology vol. 8, pp. 369-377 (Aug. 1998)) に記載されているようなダイヤモンド探索法、それ以外の既知の探索法等である。多くの高速探索アルゴリズムは、探索範囲における歪みVが、小さな極小値を有する単調な凸面であるとの仮定に基づいている。
別の実施の形態では、T. Koga他著の「Motion-Compensated Interframe Coding for Video Conferencing」(Proc. Nat'l Telecommunications Conf. pp. G5.3.1-G5.3.5, New Orleans, LA (Dec. 1981))に記載されているような高速3ステップ探索アルゴリズムを使用することができる。この高速3ステップ探索アルゴリズムは、速度とセマンティクな正確さとをバランスさせることができる。3ステップ探索アルゴリズムを図2に示す。探索範囲を−8から+8とする。第1ステップでは、9つの頂点(ステップ1用に数字1によって示す)を有する16×16画素ィンドウが、一対の連続フレームの一方において探索される。図2に示すように、この一対の連続フレームの他方の原点に第1のウィンドウの中心を置く。数式2による9つの歪み値が、9つの頂点において計算される。この例では、9つの頂点の右上の頂点が、第1のステップで計算された9つの歪み値の最小値を与える。第2のステップでは、最小のコスト関数を与えるものとして第1のステップにより特定された頂点に中心がある5×5ウィンドウがチェックされる。したがって、さらに別の9つの歪み値が、5×5ウィンドウの9つの頂点(数字2によって示す)において計算される。この例では、9つの頂点の右下の頂点が、第2のステップで計算された9つの歪み値の最小値を与える。第3のステップでは、最小のコストを与えるものとして第2のステップにより特定された点に中心がある3×3ウィンドウがチェックされる。したがって、さらに別の9つの歪み値が、3×3ウィンドウの9つの頂点(数字3によって示す)において計算される。3×3ウィンドウに関連した9つの歪み値の最小値(この例では、右下の点)が、最終的な動きベクトルを与える。
数式2の最小歪みに基づいて動きベクトルを求めることは、ビデオ符号化ではうまく機能する。しかしながら、この動きベクトルを求める技法は、ランダムな雑音によって誤った結果を提供する場合がある。このランダムな雑音は、探索範囲全体にわたる歪み分布に非常に小さな変化を与える。このような小さな変化は、フレームの均一な部分のブロック、たとえば雲のない空のブロックについて発生し得る。したがって、本発明の一実施の形態では、動きベクトルは、画像全体にわたる複数のブロックの動きベクトルを求め、次いで、外れ値を除去することによって「濾波」される。この適用において、外れ値は、フレームの残りのブロック又はフレームの一組の複数のブロックの動きベクトルのコンセンサスとはかなり異なる動きベクトルを有するブロックである。このコンセンサスは、以下でより詳細に説明するアフィンモデル推定から好都合に求められ、アフィンモデルを使用した予測動きベクトルと実際の動きベクトルとの間の誤差間の分散に基づいて得られる。外れブロックは、しきい値よりも大きな動きベクトル予測誤差を有するブロックである。このしきい値は、或る標準偏差等の値に設定することができる。
一般に、外れ値は、物体の動きによる外れ値及びブロックのミスマッチングによる外れ値の2つのカテゴリーに分類される。物体の動きによる外れ値は、物体の検出にとって有用な情報を有する。たとえば、前景に河岸線、河上にボート、及び背景に他方の河岸線を含むシーンにおいて、そのボート(すなわち、物体)は、カメラ動きとは異なるそれ自身の動きを有する。外れ値が物体のミスマッチングしたブロックによる別の例である、前景に帽子を被った男性及び背景に斜めのサイディングを有する建物を含むシーンでは、その建物の壁に位置するブロックは、単純な領域テクスチャ(region texture)を有し、その結果、それらの壁は、探索範囲において小さな歪み分布分散を与える。この歪み分布分散によって、より雑音の影響を受けやすい動きベクトルが与えられる。外れ値の他の理由には、突然の輝度の変化、カメラ動きの規模と比較して探索範囲が限られていること、及び、高速探索手法による極小値が含まれる。
外れ値は、アフィンモデル推定に影響を与える可能性があり、したがって、上述したような濾波によって外れブロック及び外れ動きベクトルの個数を削減することが好都合である。外れ値の個数を削減する別の方法は、画像から任意にセグメント化することができるすべてのブロックを単に使用するのではなく、マッチング計算用のブロックを選択することによるものである。マッチング用のブロックを選択する一方法は、特徴選択であり、この特徴選択は、外れ値の個数及びブロックマッチング計算(動きベクトルを求めること)の量を効率的に削減することができる。ブロックマッチングに使用する必要があるブロックは、画像において選択された1つ又は複数の特徴に関連したブロック又はそれら特徴に対応するブロックだけである。これは、もちろん、リアルタイムアプリケーションに好都合となる可能性がある。
画像又はビデオフレームは、空、ボート、建物、人等の一組の物体を含むことが理解されよう。物体は、静止している場合もあるし、動いている場合もあり、色、テクスチャ、形状等が異なる場合がある。信号又は画像若しくはビデオフレームの特徴は、通常、信号/画像/フレームから計算されるものであり、データの特性の或る態様を表す。たとえば、カラーヒストグラム及びカラーレイアウトは、画像の色から導出されるので、画像又はビデオフレームの2つの種類のカラー特徴である。動き推定のためにフレームのすべてのブロックを使用する代わりに、特徴ベースの選択手法を採用することができる。すなわち、画像の1つ又は2つ以上の特徴に基づいてブロックを選択することができる。これらの特徴は、カラー特徴、テクスチャ特徴、エッジ特徴等とすることができる。
特徴選択は、一般に、画素ベース又はブロックベースのいずれかとすることができる。前者は、画素に関する推定に基づいて特徴を選択するものである。この画素に関する推定は、KLT変換又はモラベック作用素(Moravec operator)のいずれかを伴う場合がある。ブロックベースの特徴選択は、ブロック全体の特性に基づいて特徴を選択するものであり、テンポラルテクスチャ解析又は離散コサイン変換(DCT)エネルギー統計値を伴う場合がある。
ブロックベースの特徴選択方法の一タイプは、エッジ検出を使用して、画像のブロックを選択する。ゾーベル(Sobel)アルゴリズム、ラプラスアルゴリズム、キャニー(Canny)アルゴリズム等の多くのエッジ検出方法が存在する。これらの方法は、異なる複雑さ及びエッジ品質を有する。一般に、エッジ検出は、入力画像のエッジマップを計算することによって実行される。入力画像のエッジマップは画像の1つの特徴である。エッジマップは、ブロックを選択するための特徴として使用される。すなわち、十分なエッジを含むブロックのみが選択される。
エッジベースの特徴選択方法の特定の例は、以下の2つの3×3の1Dゾーベル方向性作用素(Sobel directional operator)を使用する。
これらの作用素は、画素ブロックの輝度値に適用され、その結果の絶対値の合計を使用して、エッジ情報を抽出することができる。一実施の形態では、一定の個数のエッジ画素を明らかにしているブロックのみが、動き補償中に選択される。
選択されたブロックの判定しきい値は、好都合なことに、画像の勾配の規模の統計分布に従って動的に調整することができる。キャニー(Canny)エッジ検出は、たとえば、検出されるエッジの最終結果に影響を与える可能性のある2つのしきい値(1つは高く、1つは低い)を伴う。これらのしきい値は、勾配の規模の統計データを使用して決定することができる。
外れ値を特定して削除することに加えて、追加手段を採用して、計算コストをさらに削減し、且つ、速度を増加させ、能力の低いプロセッサによるリアルタイム実行を可能にすることが好都合となる可能性がある。これらの追加手段には、画像解像度ダウンサンプリング、ブロック選択ダウンサンプリング、及び中途終了が含まれ、外れ値を削除することが効率的に濾波することであるのと同様に、これらの追加手段も、濾波と考えることができる。
画像解像度ダウンサンプリングでは、動きベクトルを求めるプロセスは、解像度を低くした画像に対して実行される。たとえば、入力ビデオを320×240画素/フレーム(1/4VGA)にダウンサンプリングすることもできるし、160×120画素/フレームにさえもダウンサンプリングすることもできる。1/4VGAへのダウンサンプリング又はさらに低い解像度へのダウンサンプリングは、計算コストを大幅に削減すると同時にセマンティクな意味の抽出及び移動物体の検出の点で満足な結果を達成することができる。
ブロック選択ダウンサンプリングでは、ブロックが選択されて処理されるが、その後、隣接したブロックは類似の動きの振る舞いを有するとの仮定の下で、選択されたブロックのすぐ隣のブロックのすべては処理されない。
中途終了は、ブロックの補償残差を計算することを伴う。ブロックの画素差を合計することによって生成されたブロックの累積歪みVが、すでに処理されたブロックの現在観測されている最小歪みよりも大きい場合、計算は終了され、そのブロックは省略される。これも、不要な計算を回避することによってコストを削減する。
アフィンモデル推定
カメラ動きCは、4つのパラメータの関数としてモデル化することができる。これら4つのパラメータは、カメラの焦点距離F、及び、空間座標直交軸X、Y、Zのそれぞれを中心とする回転角α、β、γである。このカメラ動きは、C=C(F,α,β,γ)によって表すことができ、図3によって示されている。空間の任意の点P(x,y,z)は、以下のベクトル変換に従って、カメラのビュー平面の点Q(u,v)に投影することができる。
カメラ動きCは、4つのパラメータの関数としてモデル化することができる。これら4つのパラメータは、カメラの焦点距離F、及び、空間座標直交軸X、Y、Zのそれぞれを中心とする回転角α、β、γである。このカメラ動きは、C=C(F,α,β,γ)によって表すことができ、図3によって示されている。空間の任意の点P(x,y,z)は、以下のベクトル変換に従って、カメラのビュー平面の点Q(u,v)に投影することができる。
ここで、zoom(ズーム)、rotation(回転)、panX(パン)、及びpanY(パン)は、カメラ動きCによって決定される4つパラメータである。これらのパラメータ間の関係は、J. Park他著の「Estimation of Camera Parameters from Image Sequence for Model-Based Video Coding」(IEEE Trans. on Circuits and Systems for Video Technology vol. 4, pp. 288-295 (June 1994))に記載されている。非立体的なビデオ信号の場合、奥行きマッピング情報は存在しないので、z=1である。
数式3は、列ベクトル(x,y,z)のアフィン変換として認識されよう。一般に、アフィン変換は、平行移動がその後に続く線形変換であり、たとえば、A(x)=Mx+vである。ここで、A(x)はベクトルxの変換であり、Mは行列であり、vはベクトルである。行列Mに6つのパラメータを有する一般のアフィンモデルと比較して、4つのパラメータを有する数式3のモデルは、より高速に処理することができるので、広範囲のビデオのリアルタイムのセマンティクな意味解析により良く適合することができる。もちろん、4つのパラメータへの簡略化は必須ではないことが十分理解されよう。
アフィンモデルは、以下の行列の式に従って最小2乗誤差(LSE)回帰を使用することにより推定される。
ここで、Nはサンプル数、すなわち、選択された特徴ブロックの個数である。各サンプルは、動きベクトルによって関連付けられた現フレーム及び先行フレームの座標値である観測結果(xi,yi,1)及び出力(ui,vi)を含む。特異値分解を使用してAを解くことができる。LSE回帰によるアフィンモデル推定の態様は、S. Boyd及びL. Vandenberghe著のConvex Optimization, Section 1.2, Cambridge University Press(2004)に記載されている。
アフィンモデルを繰り返すことによって、すなわち、先行する計算(複数可)の結果を使用して数式4を計算することによって、残差がしきい値よりも大きいブロックを外れ値として排除することができる。これも、エッジベースの特徴検出がこのような濾波であるのと同様に、動きベクトルの濾波と考えることができる。しきい値は、あらかじめ定めておくことができ、誤差の標準偏差の関数に基づくことができる。残差Rは、
によって与えることができる。ここで、Pk、
は、動きベクトル(vx,vy)によって関連付けられたブロックである。しきい値が固定されていても、新たな外れ値が、各繰り返しで特定されて排除される場合がある。モデルの繰り返しは、所与の回数の繰り返しの後、又は、アフィンパラメータの組が所望の程度まで安定した時に終了される。起こり得る発散を回避するために、繰り返しの最大数を定義することができる。一実施の形態では、モデルの3回又は4回の繰り返しが実行された後に、ほとんどのフレームのアフィンモデル推定が適しているものとすることができる。
図4は、上述したような2つの画像間のカメラ動きを推定する方法のフローチャートである。ステップ702において、画像の1つが、1つ又は2つ以上のブロックにセグメント化され、ステップ704において、これらのブロックの1つ又は2つ以上が選択されて、さらに処理される。この選択は、好ましくは、画像の1つ又は複数の物体の1つ又は2つ以上のエッジに対応するブロックを見つけることによって実行される。選択されたブロック(複数可)に対応する輝度値が求められ(ステップ706)、次に、選択されたブロックが、2つの画像の他方の画像の対応するブロックとマッチングされる(ステップ708)。動きベクトルが、次に、マッチングされたブロックについて求められ(ステップ710)、一組のカメラ動きパラメータが、画像間のカメラの動きの推定されたアフィンモデルから求められる(ステップ712)。
セマンティクな意味の抽出
アフィンモデル推定によって、各フレームについて一組の動きパラメータが求められる。各組は、特定のフレームが捕捉された瞬間におけるカメラの動きを表している。カメラの対象となる自由な状態に従って、カメラのアフィンモデルを定義する異なる方法が存在することが理解されよう。デジタルカムコーダ又は監視ビデオ等、場合によっては、カメラ動きパラメータを記録して既知とすることができ、したがって、カメラモデルを推定する必要がない。いずれにしても、これらの組は、高レベルのセマンティクな意味を取り出すために要約される。
アフィンモデル推定によって、各フレームについて一組の動きパラメータが求められる。各組は、特定のフレームが捕捉された瞬間におけるカメラの動きを表している。カメラの対象となる自由な状態に従って、カメラのアフィンモデルを定義する異なる方法が存在することが理解されよう。デジタルカムコーダ又は監視ビデオ等、場合によっては、カメラ動きパラメータを記録して既知とすることができ、したがって、カメラモデルを推定する必要がない。いずれにしても、これらの組は、高レベルのセマンティクな意味を取り出すために要約される。
図5は、数フレームのシーケンスのアフィンモデルパラメータzoom、rotation、panX、及びpanYを示している。本発明の一実施の形態によれば、セマンティクな意味は、モデルパラメータから抽象化される。たとえば、図5に示すフレームの場合、このカメラ動きは、より適切には、たとえばシーン又は物体への集中といった「合焦(Focus)」と呼ぶことができる。セマンティクな意味の抽象化のための3つの技法は、以下でより詳細に説明する、カメラ動き量子化、「センテンス」生成、及び「パラグラフ」生成である。所望の抽象レベルに応じて、センテンス生成及びパラグラフ生成の一方又は双方を使用することができる。
カメラ動き量子化では、カメラの動き、すなわち、アフィンモデルパラメータが、最初に、いくつかの規模レベル及び方向に量子化される。図6Aは、カメラのpanパラメータを量子化するための一例示の図式を示している。zoom及びrotation等の他のパラメータも同様に量子化することができる。この図式では、X軸及びY軸等の直交軸に沿ったpanの規模が、合焦、低速、中速、及び高速の4つの領域に分類される。動き方向は、図6Bに示すように量子化される。カメラの振動及び雑音の干渉に対してローバストであるために、好ましくは、図6Cに示すように、ヒステリシスしきい値処理を使用して、遷移が決定される。図6A、図6B、図6Cに示す量子化の代わりに、他の量子化も使用できることが十分理解されよう。
「センテンス」生成では、たとえば数秒といった小さな時間間隔にわたる画像シーケンスが、それら画像のアフィンモデルの類似度に基づいて互いに自然にクラスタリングされて、妥当な個数のセマンティク領域が生成される。換言すれば、量子化された同じカメラ動きパラメータを共有する隣接したフレームは、より長い1つの時間間隔に融合される。このより長い1つの時間間隔は、この出願では「センテンス」と呼ばれる。この融合ステップは、1つのビデオクリップをいくつかのセンテンスに要約する。これらのセンテンス内では、カメラ動きは一致している。すなわち、アフィンモデルパラメータは、同じレベル又は類似のレベルに量子化されている。同時に、平均アフィンモデルが、各センテンスについて計算される。
「パラグラフ」生成は、センテンス生成をさらに拡大するものであり、したがって、パラグラフは、たとえば数十秒といったより長い画像シーケンスの抽象化である。以下でより詳細に説明するように、隣接した(連続した)センテンスの継続期間のヒストグラムが推定される。さらなる融合ステップが実行されて、ビデオが、感度しきい値によって決定された複数のセマンティクパラグラフに要約される。複数のセンテンスは、それらの類似度に基づいて1つ又は2つ以上のパラグラフに融合される。この類似度は、アフィンモデルパラメータ間の距離メトリックに従って測定することができる。適した距離メトリックは、パラメータ間のユークリッド距離である。各パラグラフのセマンティクな意味は、重み付けアフィンモデルを使用して再評価される。
アフィンモデル推定、パラメータ量子化、センテンス生成、及びパラグラフ生成のプロセスを図7に示す。図7は、ビデオの時間軸上の目盛りによって、ビデオクリップのフレームの連続を示している。クリップにはNf個のフレームが存在するものとし、各フレームi(ここで、i=1,2,…,Nf-1,Nfである)は、継続期間tfi、推定されたアフィンモデルAfi、及び量子化されたカメラ動きSfiを有するものとする。センテンス生成によって、NS個のセンテンスが生成され、図7では、各センテンスjは、量子化された各カメラ動きSSj、アフィンモデルASj、及び継続期間tSjによって特定される。ここで、
である。
センテンスが生成された後、継続期間tSjのヒストグラムが生成され、継続期間tSjの分布が評価される。継続期間許容しきい値Tdが使用されて、センテンスがNP個のパラグラフに融合される。Tdよりも大きな継続期間を有するセンテンスは、アンカーセンテンスSAとして機能し、それ以外のセンテンスは、アフィンモデル間の距離測定値(ここで、距離はユークリッド距離とすることができる)に基づいてこれらのアンカに融合される。
各パラグラフkのカメラ動きのセマンティクな意味は、
から評価される。ここで、Q(A)は、アフィンモデルパラメータからセマンティクなカメラ動きへの量子化マッピングであり、Dは選択された距離である。このプロセスにおいて、しきい値Tdは、セマンティクなカメラ動きの変化を検出する感度を設定する。
図8は、上述したようにカメラ動きパラメータをセマンティクな意味に変換する方法のフローチャートである。ステップ102において、動きベクトルが求められるか又は提供され、次に、ステップ104において、カメラ動きパラメータが、動きベクトルから求められる。これらの組の動きパラメータは量子化され(ステップ106)、同様に量子化された組が、センテンスとして特定され、オプションとして、パラグラフとして特定される(ステップ108)。
物体の検出及び追跡
この出願では、ビデオシーケンスにおける移動物体は、一般に、対象となる動きの程度及びセマンティクな意味を有する領域として定義される。移動物体の動きは、ビデオシーケンスの一連のフレームのそれぞれにおいて、その移動物体のロケーション及びサイズを見つけることによって好都合に追跡される。顔の追跡への限定又は所定のモデル(たとえば、車等の対象物体の3次元モデル)等、或る簡略化を伴うことが多い移動物体の検出及び追跡の従来の手法とは異なり、本発明による移動物体の検出は、動き情報にのみ基づいており、アプリオリな知識は必要とされない。
この出願では、ビデオシーケンスにおける移動物体は、一般に、対象となる動きの程度及びセマンティクな意味を有する領域として定義される。移動物体の動きは、ビデオシーケンスの一連のフレームのそれぞれにおいて、その移動物体のロケーション及びサイズを見つけることによって好都合に追跡される。顔の追跡への限定又は所定のモデル(たとえば、車等の対象物体の3次元モデル)等、或る簡略化を伴うことが多い移動物体の検出及び追跡の従来の手法とは異なり、本発明による移動物体の検出は、動き情報にのみ基づいており、アプリオリな知識は必要とされない。
物体の検出
本発明によれば、移動物体の検出は、前景の動き振る舞いが背景の動き振る舞いと異なるという仮定、及び、動き補償残差が
Rk(m,n)=‖Bk(m,n)−A・Bk-1(m+vx,n+vy)‖(数式8)
に従って推定される場合に、移動物体の領域(すなわち、前景又は背景)が外れ値として明らかにされるという仮定に基づいている。ここで、Rk(m,n)は、k番目のフレームのロケーション(m,n)から開始するブロックの残差であり、Bk及びBk-1は、動きベクトル(vx,vy)によって関連付けられたブロックであり、Aはアフィンモデルである。残差Rkのリアルタイム推定には、その推定の計算コストを削減することが必要とされる場合があることに留意されたい。コストを削減する一方法は、アフィンモデル推定中に1つ又は複数の外れ値として特定された1つ又は複数の領域に対してのみ数式8の推定を実行することである。それ以外の領域は、繰り返し中にLSE基準をすでに満たしている、すなわち、動きパラメータがアフィンモデルによって定義された後のブロックについては、残差は小さくなるので、コストは削減される。
本発明によれば、移動物体の検出は、前景の動き振る舞いが背景の動き振る舞いと異なるという仮定、及び、動き補償残差が
Rk(m,n)=‖Bk(m,n)−A・Bk-1(m+vx,n+vy)‖(数式8)
に従って推定される場合に、移動物体の領域(すなわち、前景又は背景)が外れ値として明らかにされるという仮定に基づいている。ここで、Rk(m,n)は、k番目のフレームのロケーション(m,n)から開始するブロックの残差であり、Bk及びBk-1は、動きベクトル(vx,vy)によって関連付けられたブロックであり、Aはアフィンモデルである。残差Rkのリアルタイム推定には、その推定の計算コストを削減することが必要とされる場合があることに留意されたい。コストを削減する一方法は、アフィンモデル推定中に1つ又は複数の外れ値として特定された1つ又は複数の領域に対してのみ数式8の推定を実行することである。それ以外の領域は、繰り返し中にLSE基準をすでに満たしている、すなわち、動きパラメータがアフィンモデルによって定義された後のブロックについては、残差は小さくなるので、コストは削減される。
外れ値は、背景の動き推定の雑音に起因する可能性もあるので、移動物体の領域が外れ値として明らかにされるという仮定は、現実のビデオシーケンスに有効でない場合がある。したがって、動きベースの物体の検出の重要なタスクは、実際の物体を外れ値における背景雑音と区別することである。したがって、本発明によれば、対象となる物体が適度なサイズを有し、且つ、画像の中央に位置する傾向があると仮定することによって、実際の物体は背景雑音と区別される。適度なサイズの仮定の結果、十分な残差が明らかにされ、かなりのセマンティクな意味が提供される。中央にバイアスをかける仮定は、物体のロケーションが中央から離れるにつれて物体への人々の興味が徐々に弱まるという理解を反映している。これらの仮定は、一般に入手可能なプロセッサでリアルタイム動作を容易にする限りにおいては望ましいが、必須ではないことが十分理解されよう。これらの仮定に基づいて、以下でより詳細に説明するような一組の重みパラメータを適用することにより、残差は濾波される。
図9は、入力ビデオシーケンスにおける物体を検出するための装置200のブロック図である。この装置は、とりわけ、説明した動作を実行するように構成されたロジックとして実施することもできるし、1つ又は2つ以上のプログラマブルプロセッサとして実施することもできるし、これらの組み合わせとして実施することもできることが理解されよう。
装置200はデバイス202を含む。このデバイス202は、カメラ動きを推定して、入力シーケンスにおける数対の連続した画像から上述したような動きベクトル及びアフィンモデル推定値を生成する。モデルパラメータは、数式8に従って残差Rkを求めるデバイス204に提供される。残差、すなわち、誤差画像は、フィルタ206に提供される。フィルタ206は、濾波された残差における検出された物体の表示を生成する。フィルタ206は、空間位置フィルタ2061、動き規模フィルタ2063、ブロック領域サイズ/規模フィルタ2065、及び時間フレームフィルタ2067の1つ又は2つ以上を好都合に含む。これらのフィルタは、以下でより詳細に説明する。
空間位置フィルタ2061は、フレームの中央領域の近くに位置するブロックに、より高い重みを割り当てる。一例示のフィルタ関数は、
等の指数関数である。ここで、fs(P)はフィルタの出力であり、Pは濾波されているブロックであり、‖P‖はブロックPと画像の中央との間の距離であり、Mは重みがゼロである場合の所定の値であり、ε及びλは、フィルタ関数を正規化してフィルタ関数を一般の確率関数により似たものとするのに使用されるパラメータである。
動き規模フィルタ2063は、カメラの動きの規模が大きいほど、外れ値が背景雑音によってより大きな影響を受ける傾向にあることから有用である。たとえば、パニングの規模を考える。一例示の動き規模フィルタ関数は、
等のガウスベースのものである。ここで、fm(‖PM‖)はフィルタの出力であり、Pは濾波されているブロックであり、‖PM‖はパニングの規模であり、偏差σは、探索範囲の境界上になるように設定される。
これらの空間位置フィルタと動き規模フィルタとの間の相違は、フレーム境界上におけるそれらフィルタの振る舞いにある。空間位置フィルタは、フレーム境界上においてゼロの重みを割り当て、動き規模フィルタは、探索境界上において非ゼロの重みを与える。これらの2つのフィルタは、重みを計算する計算コストを削減するために参照表によって実施することができる。
空間位置濾波及び動き規模濾波の後、調整された残差
が、
によって与えられる。続く2つのフィルタは、この調整された残差を使用する。
ブロック領域サイズ/規模フィルタ2065を実施するために、外れブロックが、最初に、それらブロックの接続性に基づいて領域にクラスタリングされる。これは、図10Aによって示すような高速フラッディングアルゴリズムで行うことができる。図10Aでは、星印でマーキングされたブロックが接続性探索の開始元である場合、そのすぐ隣のブロックのすべてが所定の順序でチェックされる。この所定の順序は、この図では0〜7の番号によって示されている。チェックされた各ブロックは、それに対応して適切にマーキングされ、後の探索で再びチェックされないようにされる。隣のブロックの中で外れブロックが検出された場合、その外れブロックにフラグが付けられ(この図では、ブロック4のダイヤのマークが外れ値を示す)、開始元は、フラグが付けられたブロックに移動され、探索は、すぐ隣のブロックにおいて同じ所定の探索順序で継続する。事前にチェックされたすべてのブロックは省略され、その結果、この例では、2〜6の番号が付けられたブロックがチェックされることに留意されたい。
フィルタ2065は、この手順を再帰的に繰り返す。これは、外れブロックのすべてを互いに接続するための効率的な方法である。この手順は、P. O. Duda、P. E. Hart、及びD. G. Stork著のPattern Classification, Wiley, New York (2001)に記載されている、サンプルの距離に基づく自然クラスタリングアルゴリズム(natural clustering algorithm)の簡略化された離散バージョンと考えることができる。
外れブロックのすべてが特定の領域に一旦クラスタリングされると、各領域は、限界ボックス(図10Bに示す)及び代表的な残差の規模によって効率的に表される。この代表的な残差の規模は、その領域のすべてのブロックの中で最大の残差として定義することができる。限界ボックスは、検出された物体を示す。一実施の形態では、第1のしきい値よりも小さなサイズ又は第2のしきい値よりも小さな規模を有するどの領域も濾波除去される。第3のしきい値よりも大きなサイズを有する領域が少なくとも1つ存在する場合、このフレームのアフィンモデルは信頼できないものと仮定することができるので、そのフレームは移動物体の検出については省略される。
すべてのフレームが移動物体を検出するのに適しているとは限らないので、時間フレームフィルタ2067が有用な場合がある。たとえば、移動物体のブロックの残差は、背景雑音によって圧倒される場合があり、物体の検出を困難にする。背景雑音からの残差は、複数ある理由の中でもとりわけ、複雑なテクスチャ及び高速なカメラ動きによって大きくなる場合がある。このために、まず第1に、互いに接続されたブロックのすべて又はほぼすべてが、大きな領域に結合される。時間フレームフィルタ2067は、物体を検出する候補として1つの支配的なブロック領域を有するフレームを選択するように動作する。したがって、支配的な残差及び適度なサイズのブロック領域を有するフレームのみが維持される。このようなフレームは、検出された物体を含む。それ以外のフレームは、それ以降の処理から省略することができる。
図11は、上述したような本発明による物体の検出方法のフローチャートである。ステップ402において、動きベクトルが、数対の連続した画像から求められ、これらの動きベクトルは、ステップ404においてアフィンモデルを推定するのに使用される。ステップ406において、残差が、動きベクトル及びアフィンモデルに基づき、数対の画像の各画素ブロックについて計算される。ステップ408において、物体が残差に基づいて検出される。
物体の追跡
移動物体が一旦検出されると、その位置及びサイズ(図10Bに示したのと同様の画素の限界ボックスによって表される)は、以下でより詳細に説明する移動物体追跡器に転送することができる。本発明の移動物体追跡プロセスによれば、考慮する必要があるのは、移動物体のより正確な輪郭の代わりに限界ボックスのみである。限界ボックスは、十分なセマンティクな意味を提供し、物体の正確な輪郭の算出には、広く入手可能な現在のプロセッサによってリアルタイムで容易に行うことができないより複雑な計算が必要とされる。
移動物体が一旦検出されると、その位置及びサイズ(図10Bに示したのと同様の画素の限界ボックスによって表される)は、以下でより詳細に説明する移動物体追跡器に転送することができる。本発明の移動物体追跡プロセスによれば、考慮する必要があるのは、移動物体のより正確な輪郭の代わりに限界ボックスのみである。限界ボックスは、十分なセマンティクな意味を提供し、物体の正確な輪郭の算出には、広く入手可能な現在のプロセッサによってリアルタイムで容易に行うことができないより複雑な計算が必要とされる。
たとえば、移動物体は、ビデオクリップの開始フレームで検出される場合があり、その後、その物体は、ビデオクリップの後続のフレームを通して追跡される場合がある。別の例として、移動物体は、定期的に(たとえば、100フレームごとに1回又は2秒ごとに1回等)検出される場合があり、その後、その移動物体の標的モデルは、更新される場合もあるし、現在の標的に取って代わる、より目立った移動物体が見つけられる場合もある。さらに別の例として、たとえば、現在の移動物体がフレームの外部に移動した時といった一定の基準が満たされた時に、移動物体が検出される場合がある。
検出された移動物体は、その量子化されたカラーヒストグラムによって好都合に表すことができる。この量子化されたカラーヒストグラムは、NR×NG×NBビンを有するR−G−B(赤−緑−青)空間等の便利な色空間において形成することができる。ここで、NR、NG、NBは、それぞれR、G、Bの色チャネルのビンの個数である。R−G−B空間の代わりに、YUV空間及びマゼンタ−イエロー−シアン空間等の他の色空間も使用できることが十分理解されよう。カラーヒストグラムの利点は、物体が、回転、拡大縮小、さらには堅くない曲げ等の複雑な動きを受けている時のそのローバスト性である。
本発明の別の実施の形態では、空間的に強化されたカラーヒストグラムを使用して、検出された移動物体を表すことができる。限界ボックス500は、図12によって示されるように、周縁部502及び中央部504に分割される。この図では、中央部504の(画素での)高さ及び幅は、周辺部502の高さH及び幅Wの2分の1である。各部は、それ自身のヒストグラム統計値を有し、全体のヒストグラムは、これら2つの局部的なヒストグラムを連結したものである。空間情報を有するカラーヒストグラムを区画する他の方法も使用できることが理解されよう。
カラーヒストグラムは、好ましくは、以下のような確率の形状に正規化される。
ここで、σはクロネッカデルタ関数であり、uはヒストグラムインデックスであり、qはヒストグラム確率であり、b(xi)は移動物体領域に位置する画素xiをヒストグラムビンの1つのエントランスにマッピングする関数であり、Nは物体領域の画素数である。ここで、「エントランス」とは、ビンのインデックスを意味する。たとえば、100個のヒストグラムビンが存在する場合、1〜100の番号が、特定のカラービンの位置を突き止めるエントランス(インデックス)である。
一実施の形態では、カラーヒストグラムを直接使用する代わりに、カーネル関数が適用され、中心から遠く離れた画素ほど、より小さな重みが割り当てられる。このようなカーネルベースの追跡(KBT)は、D. Comaniciu、V. Ramesh、P. Meer著の「Real-Time Tracking of Non-Rigid Objects Using Mean Shift」(IEEE Conf. Computer Vision and Pattern Recognition (CVPR '00), Vol. 2, pp. 142-149, Hilton Head Island, SC (2000))、及び、D. Comaniciu、V. Ramesh、P. Meer著の「Kernel-Based Object Tracking」(IEEE Trans. Pattern Analysis Machine Intell., Vol. 25, No. 5 (2003))に記載されている。カーネル選択の原理は、凸状で且つ単調減少するカーネルプロファイルを有するカーネルを選択することである。上記で引用したComaniciu他による論文に記載されたイパネクニコフ(Epanechnikov)カーネル関数が、かなりの計算の簡略化を与えることができる。
カーネル関数では、標的モデル及び標的候補の双方が、重み付けられたカラーヒストグラム確率密度関数(PDF)として表される。次に、標的モデルから最小距離を有する標的候補が見つけられる。詳細には、標的モデル及び標的候補が与えられると、この類似度メトリックは、一実施の形態では、バタチャリア(Bhattacharyya)係数であり、この係数は、直接的な幾何学的解釈を有する発散タイプの尺度である。この係数は、m次元単位ベクトル間の角度のコサインである。標的モデルと候補との間の距離は、バタチャリア係数に基づいており、距離を最小にする標的候補を見つける物体追跡タスクは、バタチャリア係数を最大にする候補を見つけることと等価である。
距離を最小にするために、上記で引用したComaniciuによる論文に記載された勾配ベースの平均値シフトの繰り返しを使用することができる。上述したダイヤモンド探索(DS)アルゴリズム及び3ステップ探索(TSS)アルゴリズムを組み合わせたものを使用することができる。一般に、第1のステップでは、DSアルゴリズム及びTSSアルゴリズムの双方が適用され、(距離最小化の点で)成功したアルゴリズムが処理を続け、他方のアルゴリズムは終了する。第2のステップでは、この残っているアルゴリズムが、最小距離が見つかるまで、自身のルールを使用して探索を続ける。
移動物体の追跡時に、標的モデルは、物体検出段階で検出された物体、すなわちフィルタ206の出力、から得られる。この標的モデルは、オプションとして、物体追跡段階で追跡された物体で更新される。これは、定期的に行うこともできるし、標的モデルと選択された標的候補との間に大きな相違が存在すると判断されるごとに行うこともできる。また、モデルは、メモリの有無にかかわらず更新することができる。
例示のアーキテクチャ
リアルタイムビデオ動き理解のための全体的なシステムアーキテクチャの一例を図13に示す。システム600は、データ準備デバイス610、カメラ動き推定器620、移動物体検出器630、及び移動物体追跡器640を含む。図9と共に上述したように、システム600は、とりわけ、適切に構成されたロジック及び/又は適切にプログラミングされたプロセッサによって実現することができる。
リアルタイムビデオ動き理解のための全体的なシステムアーキテクチャの一例を図13に示す。システム600は、データ準備デバイス610、カメラ動き推定器620、移動物体検出器630、及び移動物体追跡器640を含む。図9と共に上述したように、システム600は、とりわけ、適切に構成されたロジック及び/又は適切にプログラミングされたプロセッサによって実現することができる。
データ準備デバイス610は、入力ビデオ信号を必要に応じて復号して画像シーケンスを生成する復号器612を含むことができる。ダウンサンプラ614は、画像シーケンスを受け取って、低解像度の画像シーケンスを生成することができる。この低解像度の画像シーケンスは、適した遅延デバイス652を通って物体追跡器640に提供することができる。データ準備デバイスは、ダウンサンプリングされた画像シーケンスから輝度情報を抽出するデバイス616をさらに含むことができる。復号、ダウンサンプリング、及び輝度抽出は、上述した理由から常に必要であるとは限らない。
カメラ動き推定器620は、光学フロー解析器622を含むことができる。この光学フロー解析器622は、データ準備デバイス610又は別のデータ源のいずれかからの輝度画像を使用して、光学フロー解析を行う。解析器622は、好ましくは、上述したような画像シーケンスからの現在の画像及びバッファリングされた前の画像に対して解析を実行できるように、適したメモリバッファを含む。その上、解析器622は、減算器654及び適した遅延デバイス656が数対の連続した画像から生成することができる差分画像に対して好都合に動作する。解析器622は、画像シーケンス又は差分画像シーケンスから動きベクトルを生成し、この動きベクトルは、アフィンモデル推定器624に提供される。アフィンモデルは、好ましくは、上述したようなLSEを使用して動きベクトルに基づき推定される。推定されたアフィンモデルは、次に、必要に応じて、セマンティク意味パーサ626に提供することができる。セマンティク意味パーサ626は、上述したようなアフィンモデル推定値の組み合わせに基づいてセンテンスを生成し、オプションとしてパラグラフを生成する。
アフィンモデル推定値は、物体検出器630の残差計算機632に提供される。残差計算機632は、遅延デバイス656によって適切に遅延された画像を受け取る。物体を検出するかどうかは、スイッチ又は他の適した決定デバイス658によって制御することができる。外れ値の残差は、アフィンモデル推定値を使用して求めることができ、外れ値は、上述したように移動物体を検出するために選択される。選択された画素又はブロックは、上述したフィルタ106として動作して物体の領域を突き止めるフィルタ634によって処理される。この情報は、物体ロケータ636に渡される。物体ロケータ636は、物体の位置及びサイズを限界ボックス又は等価な情報として好都合に提供する。物体の位置及びサイズを特定する限界ボックス又は等価な情報は、物体追跡器640に提供される。
追跡器640は、標的モデル及び標的候補PDFを求める標的モデル/確率計算機642及び係数マキシマイザ644を含み、バタチャリア係数は、距離を最小にするために、上述したように最大化される。最後に、追跡された移動物体の表示が出力され、現在のフレームの処理が完了する。追跡された移動物体の表示の性質は、好都合に、物体境界領域のロケーション(たとえば、図10Bにおけるような限界ボックスの場合には、左側、上部、右側、及び下部)とすることができる。
システム600は、1.0GHzプロセッサ及び256Mバイトのランダムアクセスメモリを有するラップトップコンピュータで実施された。システムの一例示の使用では、入力ビデオ信号は、毎秒30フレームの10秒の長さのビデオシーケンスであった。各フレームは、MPEG−1フォーマットに従って符号化された352×240画素を含んでいた。これらのビデオフレームは、4分の1のサイズ、すなわち176×120にダウンサンプリングされた。したがって、システム600は、MPEG−1復号器612を含んでいた。このMPEG−1復号器612は、10秒の入力シーケンスを復号するのに2.016秒を使用した。この10秒の入力シーケンスは、テニスの試合中の一方の選手の一ショットであった。すべてのカメラ動き推定値は、1.089秒で完了し、シーケンス全体の期間中の物体の検出及び追跡は、1.151秒で完了した。したがって、ビデオ動き解析の全時間、すなわちコスト(2.24秒)は、この例の復号コスト(2.016秒)に匹敵し、復号、カメラ動き解析、及び物体動き解析(検出及び追跡)を含むすべての処理は、リアルタイム(10秒)よりも速く終了した。上述したように、符号化されたビデオクリップの代わりに画像シーケンスを使用することによって、復号コストを節約することができ、この例のプロセス全体の速度を2倍にすることができる。さらに、画像シーケンスがY−U−Vフォーマットで提供される場合、色空間変換のコストも節約することができる。
上述したラップトップコンピュータで実施されたシステム600の別の例示の使用では、サンフランシスコの或る波止場の26秒のビデオが、入力ビデオ信号として使用された。このビデオは、MJPEGフォーマットで符号化され、毎秒15フレームを含んでいた。各フレームは、640×480画素を含んでいた。上述したように、入力フレームは、幅が200画素以下となるまで2分の1ずつダウンサンプリングされ、この例では、使用された最終的な画像サイズは160×120であった。したがって、システム600は、MJPEG復号器612を含んでいた。MJPEG復号器612は、26秒の入力シーケンスを復号するのに9.263秒を必要とした。すべてのカメラ動き推定は、2.373秒で完了し、全シーケンスの期間中の物体の検出及び追跡は、1.323秒で完了した。したがって、ビデオ動き解析の全コスト(3.696秒)は、この例の復号コスト(9.263秒)よりもかなり小さく、復号、カメラ動き解析、及び物体動き解析(検出及び追跡)を含むすべての処理は、リアルタイム(26秒)よりも速く終了した。
これらの例から、システム600の使用は、アクションビデオ、コマーシャルビデオ等を含む一般のタイプのビデオに実用的であることが分かる。画像サイズがより大きくなると、復号及びダウンサンプリングのコストが、全計算コストを支配する可能性があるが、この場合も、このコストは、輝度画像シーケンスが入力信号として提供される場合に節約することができる。
本発明は、たとえば、ビデオ印刷のためにビデオシーケンスの特定のフレームを見つけるのに使用することができる。加えて、本発明は、自動ビデオ編集及び知的ビデオブラウジングにも適用でき、ビデオのコンテンツのより良い理解を可能にし、その結果、ビデオのハイライトのより正確な把握を可能にする。本発明の移動物体の検出及び追跡によれば、適切なサイズ及び位置の移動物体を有するビデオフレームを検出することができ、所望でないフレームを無視又は削除することができる。
上述した手順は、必要に応じて繰り返し実行されることが十分理解されよう。理解を容易にするために、本発明の多くの態様が、たとえば、プログラマブルコンピュータシステムのエレメントが実行できる動作シーケンスの点から説明されている。さまざまな動作は、専用回路(たとえば、専用機能を実行するように相互接続されたディスクリート論理ゲート又は特定用途向け集積回路)が実行することもできるし、1つ又は2つ以上のプロセッサによって実行されるプログラム命令が実行することもできるし、双方の組み合わせが実行することもできることが認識されよう。
その上、本発明は、コンピュータベースのシステム、プロセッサを含むシステム、又は媒体から命令をフェッチしてそれら命令を実行できる他のシステム等である、命令実行システム、命令実行装置、若しくは命令実行デバイスによって使用されるか、又は、それら命令実行システム等と共に使用される適切な一組の命令を記憶した任意の形態のコンピュータ可読記憶媒体内に具現化されるものとさらに考えることができる。本明細書で使用されるように、「コンピュータ可読媒体」は、命令実行システム、命令実行装置、若しくは命令実行デバイスにより使用されるプログラム又はそれら命令実行システム等と共に使用されるプログラムの収容、記憶、通信、伝搬、又はトランスポートを行うことができるあらゆる手段とすることができる。コンピュータ可読媒体は、たとえば、電子的な、磁気的な、光学式の、電磁気的な、赤外線の、又は半導体のシステム、装置、デバイス、又は伝搬媒体とすることができるが、これらに限定されるものではない。コンピュータ可読媒体のより具体的な例(網羅的な列挙ではない)には、1つ又は2つ以上のワイヤを有する電気接続、ポータブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、及び光ファイバが含まれる。
このように、本発明は、多くの異なる形態で具現化することができるが、これらのすべてが上述されているとは限らず、このようなすべての形態は、本発明の範囲内にあるように意図されている。本発明のさまざまな態様のそれぞれについて、このようなあらゆる形態は、説明した動作を実行する「ように構成されたロジック」と呼ぶこともできるし、或いは、説明した動作を実行「するロジック」と呼ぶこともできる。
「備える」という用語は、この出願で使用される場合、明言した特徴、完全体、ステップ、又はコンポーネントが存在することを明示しており、1つ又は2つ以上の他の特徴、完全体、ステップ、コンポーネント、又はそれらの群が存在すること又は追加されることを排除するものではないことを強調しておく。
本発明の例示の実施の形態の上記説明は、図解及び説明を提供するが、網羅的であることを目的とするものでもなければ、開示した正確な形態に本発明を限定することを目的とするものでもない。変更及び変形が、上記教示に鑑み可能であるか、又は、本発明の実施から獲得される場合もある。添付の特許請求の範囲及びその均等なものが、本発明の範囲を規定する。
Claims (10)
- 一対の連続した画像間のカメラ動きを推定する方法であって、
前記一対の連続した画像から動きベクトルを求めるステップであって、
前記一対の連続した画像の一方を複数の画素ブロックにセグメント化するステップ(702)と、
前記画像の少なくとも1つの特徴に対応するブロックを選択するステップ(704)と、
選択された各ブロックに対応する輝度値を求めるステップ(706)と、
前記輝度値に基づいて、前記選択されたブロックを、前記一対の連続した画像の他方の画素ブロックとマッチングするステップ(708)と、
前記一対の連続した画像のマッチングされたブロックに関連した動きベクトルを求めるステップ(710)と
によって前記動きベクトルを求めるステップと、
前記動きベクトルに基づいて前記カメラの動きのアフィンモデルを推定するステップ(712)であって、該推定されたアフィンモデルは、一組のカメラ動きパラメータを決定する、推定するステップ(712)と
を含むことを特徴とする、一対の連続した画像間のカメラ動きを推定する方法。 - 各ブロックは8×8画素アレイであることを特徴とする、請求項1に記載の一対の連続した画像間のカメラ動きを推定する方法。
- 動きベクトルは、探索範囲内における歪み値を最小にすることによって求められることを特徴とする、請求項1に記載の一対の連続した画像間のカメラ動きを推定する方法。
- 前記動きベクトルを濾波するステップであって、それによって、外れ値を除去する、濾波するステップをさらに含むことを特徴とする、請求項1に記載の一対の連続した画像間のカメラ動きを推定する方法。
- 前記一対の連続した画像をダウンサンプリングするステップをさらに含み、動きベクトルは、ダウンサンプリングされた画像から求められることを特徴とする、請求項1に記載の一対の連続した画像間のカメラ動きを推定する方法。
- 前記アフィンモデルは、前記カメラの焦点距離及び3つの直交軸を中心とした回転角に基づいていることを特徴とする、請求項1に記載の一対の連続した画像間のカメラ動きを推定する方法。
- 前記推定されたアフィンモデルを繰り返すステップであって、それによって、外れ値を除去する、繰り返すステップをさらに含むことを特徴とする、請求項1に記載の一対の連続した画像間のカメラ動きを推定する方法。
- ビデオ動き理解のための装置(620)であって、
光学フロー解析に輝度画像を使用して、数対の連続した画像の画素ブロックから動きベクトルを生成する光学フロー解析器(622)、及び、該動きベクトルに基づいてアフィンモデル推定値を生成するアフィンモデル推定器(624)を含むカメラ動き推定器(620)と、
前記アフィンモデル推定値に基づいてブロックの残差(632)を求め、該残差に基づいてブロックを選択し、選択されたブロックを濾波(634)する物体検出器(630)であって、物体のサイズ及び位置を特定する限界ボックスを生成する、物体検出器(630)と
を備えることを特徴とする、ビデオ動き理解のための装置。 - データ準備デバイスであって、
入力ビデオ信号を復号して画像シーケンスを生成する復号器と、
前記画像シーケンスを受け取って、より低い解像度の画像シーケンスを生成するダウンサンプラと、
前記ダウンサンプリングされた画像シーケンスから輝度情報を抽出するデバイスと
を備える、デバイス準備デバイスをさらに備えることを特徴とする、請求項8に記載のビデオ動き理解のための装置。 - 前記アフィンモデル推定値の組み合わせに基づいて少なくとも1つのセンテンスを生成するセマンティク意味パーサと、
前記限界ボックスに基づいて標的モデル及び標的候補確率密度関数を求め、追跡された移動物体の表示を生成する標的モデル/確率計算機及び係数マキシマイザを含む移動物体追跡器と
をさらに備えることを特徴とする、請求項8に記載のビデオ動き理解のための装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/972,003 US7447337B2 (en) | 2004-10-25 | 2004-10-25 | Video content understanding through real time video motion analysis |
PCT/US2005/039202 WO2006047769A1 (en) | 2004-10-25 | 2005-10-25 | Video content understanding through real time video motion analysis |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008518331A true JP2008518331A (ja) | 2008-05-29 |
Family
ID=35836992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007538199A Pending JP2008518331A (ja) | 2004-10-25 | 2005-10-25 | リアルタイムビデオ動き解析を通じたビデオコンテンツ理解 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7447337B2 (ja) |
EP (1) | EP1805716A1 (ja) |
JP (1) | JP2008518331A (ja) |
KR (1) | KR100901904B1 (ja) |
CN (1) | CN100538743C (ja) |
WO (1) | WO2006047769A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010225118A (ja) * | 2009-03-25 | 2010-10-07 | Toshiba Corp | 画像処理装置、方法及びプログラム |
JP2013218679A (ja) * | 2012-04-06 | 2013-10-24 | Xerox Corp | 短時間の駐車違反を取り締まるための、ビデオベースの検知装置及び通知装置 |
JP2019505868A (ja) * | 2016-01-29 | 2019-02-28 | グーグル エルエルシー | 画像における動きの検出 |
Families Citing this family (159)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1366627A2 (en) * | 2001-03-07 | 2003-12-03 | PTS Corporation | Local constraints for motion estimation |
US7450735B1 (en) * | 2003-10-16 | 2008-11-11 | University Of Central Florida Research Foundation, Inc. | Tracking across multiple cameras with disjoint views |
US7953152B1 (en) | 2004-06-28 | 2011-05-31 | Google Inc. | Video compression and encoding method |
TWI288353B (en) * | 2004-12-24 | 2007-10-11 | Lite On Semiconductor Corp | Motion detection method |
DE102005008131A1 (de) * | 2005-01-31 | 2006-08-03 | Daimlerchrysler Ag | Objektdetektion auf Bildpunktebene in digitalen Bildsequenzen |
US7471336B2 (en) * | 2005-02-18 | 2008-12-30 | Genesis Microchip Inc. | Global motion adaptive system with motion values correction with respect to luminance level |
US20070009034A1 (en) * | 2005-07-05 | 2007-01-11 | Jarno Tulkki | Apparatuses, computer program product, and method for digital image processing |
US8026945B2 (en) | 2005-07-22 | 2011-09-27 | Cernium Corporation | Directed attention digital video recordation |
US7457825B2 (en) * | 2005-09-21 | 2008-11-25 | Microsoft Corporation | Generating search requests from multimodal queries |
US8130330B2 (en) * | 2005-12-05 | 2012-03-06 | Seiko Epson Corporation | Immersive surround visual fields |
US20070171987A1 (en) * | 2006-01-20 | 2007-07-26 | Nokia Corporation | Method for optical flow field estimation using adaptive Filting |
EP1991934B1 (en) * | 2006-02-27 | 2016-10-26 | Robert Bosch GmbH | Trajectory-based video retrieval system, method and computer program |
EP1997073B1 (en) * | 2006-03-23 | 2009-11-25 | Nds Limited | System for analysis of motion |
US7647331B2 (en) * | 2006-03-28 | 2010-01-12 | Microsoft Corporation | Detecting duplicate images using hash code grouping |
US8666661B2 (en) * | 2006-03-31 | 2014-03-04 | The Boeing Company | Video navigation |
US8379154B2 (en) * | 2006-05-12 | 2013-02-19 | Tong Zhang | Key-frame extraction from video |
US20080019661A1 (en) * | 2006-07-18 | 2008-01-24 | Pere Obrador | Producing output video from multiple media sources including multiple video sources |
US20080019669A1 (en) * | 2006-07-18 | 2008-01-24 | Sahra Reza Girshick | Automatically editing video data |
US8013895B2 (en) * | 2006-08-07 | 2011-09-06 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Optical motion sensing |
US8619149B2 (en) * | 2006-09-11 | 2013-12-31 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Camera with an image sensor that doubles as a motion sensor |
US8331725B2 (en) * | 2007-01-12 | 2012-12-11 | Qualcomm Incorporated | Panoramic imaging techniques |
WO2008091207A1 (en) * | 2007-01-26 | 2008-07-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Border region processing in images |
KR100818289B1 (ko) * | 2007-02-02 | 2008-03-31 | 삼성전자주식회사 | 비디오 영상 트레킹 방법 및 장치 |
KR100851981B1 (ko) * | 2007-02-14 | 2008-08-12 | 삼성전자주식회사 | 비디오 영상에서 실 객체 판별 방법 및 장치 |
JP4821642B2 (ja) * | 2007-02-15 | 2011-11-24 | 株式会社ニコン | 画像処理方法、画像処理装置、ディジタルカメラ及び画像処理プログラム |
US7924316B2 (en) * | 2007-03-14 | 2011-04-12 | Aptina Imaging Corporation | Image feature identification and motion compensation apparatus, systems, and methods |
US8438480B2 (en) * | 2007-03-26 | 2013-05-07 | Avago Technologies General Ip (Singapore) Pte. Ltd. | System and method for tracking an input device using a display screen in captured frames of image data |
US20080244466A1 (en) * | 2007-03-26 | 2008-10-02 | Timothy James Orsley | System and method for interfacing with information on a display screen |
US7920746B2 (en) * | 2007-04-23 | 2011-04-05 | Aptina Imaging Corporation | Compressed domain image summation apparatus, systems, and methods |
EP1988505B1 (en) | 2007-05-03 | 2020-05-06 | Sony Deutschland Gmbh | Method and system for initializing templates of moving objects |
JP5270674B2 (ja) * | 2007-06-29 | 2013-08-21 | トムソン ライセンシング | ウォーターマークデータの挿入のためにデータを処理する方法、データソースに埋め込まれたウォーターマークデータを検出する方法、ウォーターマークデータの埋め込み処理により生成された検出データを使用して、データソースに埋め込まれたウォーターマークデータを検出する方法、データソースに埋め込まれたウォーターマークを検出する装置及びプログラム記憶媒体 |
US7965866B2 (en) * | 2007-07-03 | 2011-06-21 | Shoppertrak Rct Corporation | System and process for detecting, tracking and counting human objects of interest |
US20090174812A1 (en) * | 2007-07-06 | 2009-07-09 | Texas Instruments Incorporated | Motion-compressed temporal interpolation |
JP2010537489A (ja) * | 2007-08-15 | 2010-12-02 | トムソン ライセンシング | 関心のある領域の情報を使用した改善されたビデオ符号化の方法及び装置 |
JP2009077362A (ja) * | 2007-08-24 | 2009-04-09 | Sony Corp | 画像処理装置、動画再生装置、これらにおける処理方法およびプログラム |
WO2009032255A2 (en) * | 2007-09-04 | 2009-03-12 | The Regents Of The University Of California | Hierarchical motion vector processing method, software and devices |
US8526502B2 (en) * | 2007-09-10 | 2013-09-03 | Entropic Communications, Inc. | Method and apparatus for line based vertical motion estimation and compensation |
US8401083B2 (en) * | 2007-09-18 | 2013-03-19 | Ubiquity Holdings, Inc | Extreme video compression over a fixed bandwidth channel |
US8144780B2 (en) * | 2007-09-24 | 2012-03-27 | Microsoft Corporation | Detecting visual gestural patterns |
DE102007058779B4 (de) * | 2007-12-06 | 2021-01-14 | Robert Bosch Gmbh | Einrichtung eines Kraftfahrzeugs zur Erzeugung eines für eine Bildanalyse geeigneten Bildes |
US7489334B1 (en) * | 2007-12-12 | 2009-02-10 | International Business Machines Corporation | Method and system for reducing the cost of sampling a moving image |
DE102007062996A1 (de) * | 2007-12-21 | 2009-06-25 | Robert Bosch Gmbh | Werkzeugmaschinenvorrichtung |
US7970178B2 (en) * | 2007-12-21 | 2011-06-28 | Caterpillar Inc. | Visibility range estimation method and system |
JP4384231B2 (ja) | 2008-03-28 | 2009-12-16 | 株式会社東芝 | 動き予測装置 |
JP4935930B2 (ja) * | 2008-06-10 | 2012-05-23 | 富士通株式会社 | 画像補正装置および画像補正方法 |
US8831101B2 (en) * | 2008-08-02 | 2014-09-09 | Ecole De Technologie Superieure | Method and system for determining a metric for comparing image blocks in motion compensated video coding |
US9215467B2 (en) | 2008-11-17 | 2015-12-15 | Checkvideo Llc | Analytics-modulated coding of surveillance video |
JP4760973B2 (ja) * | 2008-12-16 | 2011-08-31 | カシオ計算機株式会社 | 撮像装置及び画像処理方法 |
KR101199492B1 (ko) * | 2008-12-22 | 2012-11-09 | 한국전자통신연구원 | 광역 이동을 고려한 실시간 카메라 트래킹 장치 및 방법 |
JP4760918B2 (ja) * | 2009-01-23 | 2011-08-31 | カシオ計算機株式会社 | 撮像装置、被写体追従方法、及びプログラム |
EP2237227A1 (en) | 2009-04-01 | 2010-10-06 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Video sequence processing method and system |
CN101872476A (zh) * | 2009-04-24 | 2010-10-27 | 索尼株式会社 | 估计图像中对象姿势视角的方法、设备 |
US8411756B2 (en) * | 2009-05-21 | 2013-04-02 | Ecole De Technologie Superieure | Method and system for generating block mode conversion table for efficient video transcoding |
US9100656B2 (en) | 2009-05-21 | 2015-08-04 | Ecole De Technologie Superieure | Method and system for efficient video transcoding using coding modes, motion vectors and residual information |
EP2443613A4 (en) * | 2009-06-16 | 2016-10-26 | Ericsson Telefon Ab L M | PROCESS AND ARRANGEMENT FOR IMAGE PROCESSING |
TWI390970B (zh) * | 2009-07-22 | 2013-03-21 | Altek Corp | Use motion detection to adjust the digital camera's shooting settings |
US8508605B2 (en) * | 2009-10-14 | 2013-08-13 | Csr Technology Inc. | Method and apparatus for image stabilization |
US8698888B2 (en) * | 2009-10-30 | 2014-04-15 | Medical Motion, Llc | Systems and methods for comprehensive human movement analysis |
EP2339537B1 (en) * | 2009-12-23 | 2016-02-24 | Metaio GmbH | Method of determining reference features for use in an optical object initialization tracking process and object initialization tracking method |
KR101652261B1 (ko) * | 2009-12-24 | 2016-08-30 | 삼성전자주식회사 | 카메라를 이용한 오브젝트 검출 방법 |
US20110169917A1 (en) | 2010-01-11 | 2011-07-14 | Shoppertrak Rct Corporation | System And Process For Detecting, Tracking And Counting Human Objects of Interest |
JP5911809B2 (ja) | 2010-01-22 | 2016-04-27 | トムソン ライセンシングThomson Licensing | サンプリングベースの超解像度ビデオ符号化および復号化方法並びに装置 |
KR101791919B1 (ko) * | 2010-01-22 | 2017-11-02 | 톰슨 라이센싱 | 예시-기반의 초 해상도를 이용하여 비디오 압축을 위한 데이터 프루닝 |
US8594199B2 (en) * | 2010-03-08 | 2013-11-26 | Qualcomm Incorporated | Apparatus and method for motion vector filtering based on local image segmentation and lattice maps |
EP2548174B1 (en) * | 2010-03-15 | 2015-05-27 | Panasonic Corporation | Method and apparatus for trajectory estimation, and method for segmentation |
EP2549755B1 (en) * | 2010-03-18 | 2017-09-27 | Panasonic Intellectual Property Corporation of America | Data processing device and data processing method |
US9131155B1 (en) | 2010-04-07 | 2015-09-08 | Qualcomm Technologies, Inc. | Digital video stabilization for multi-view systems |
US8837592B2 (en) * | 2010-04-14 | 2014-09-16 | Mediatek Inc. | Method for performing local motion vector derivation during video coding of a coding unit, and associated apparatus |
KR20110125153A (ko) * | 2010-05-12 | 2011-11-18 | 에스케이 텔레콤주식회사 | 영상의 필터링 방법 및 장치와 그를 이용한 부호화/복호화를 위한 방법 및 장치 |
US8798131B1 (en) | 2010-05-18 | 2014-08-05 | Google Inc. | Apparatus and method for encoding video using assumed values with intra-prediction |
CN101894369B (zh) * | 2010-06-30 | 2012-05-30 | 清华大学 | 从图像序列中计算摄像机焦距的实时方法 |
KR101663321B1 (ko) * | 2010-07-30 | 2016-10-17 | 삼성전자주식회사 | 파노라마 사진 촬영 방법 |
WO2012033970A1 (en) | 2010-09-10 | 2012-03-15 | Thomson Licensing | Encoding of a picture in a video sequence by example - based data pruning using intra- frame patch similarity |
US9544598B2 (en) | 2010-09-10 | 2017-01-10 | Thomson Licensing | Methods and apparatus for pruning decision optimization in example-based data pruning compression |
CN101964911B (zh) * | 2010-10-09 | 2012-10-17 | 浙江大学 | 一种基于gpu的视频分层方法 |
US8755438B2 (en) * | 2010-11-29 | 2014-06-17 | Ecole De Technologie Superieure | Method and system for selectively performing multiple video transcoding operations |
US8849054B2 (en) | 2010-12-23 | 2014-09-30 | Samsung Electronics Co., Ltd | Digital image stabilization |
TWI444049B (zh) * | 2011-01-18 | 2014-07-01 | Univ Nat Chiao Tung | 畫面估測系統及其估測方法 |
CN104135658B (zh) * | 2011-03-31 | 2016-05-04 | 富士通株式会社 | 在视频中检测摄像机运动类型的方法及装置 |
US8780996B2 (en) | 2011-04-07 | 2014-07-15 | Google, Inc. | System and method for encoding and decoding video data |
US8781004B1 (en) | 2011-04-07 | 2014-07-15 | Google Inc. | System and method for encoding video using variable loop filter |
US8767817B1 (en) | 2011-04-07 | 2014-07-01 | Google Inc. | Apparatus and method for coding using parameterized equation |
US8780971B1 (en) | 2011-04-07 | 2014-07-15 | Google, Inc. | System and method of encoding using selectable loop filters |
JP5780418B2 (ja) * | 2011-05-30 | 2015-09-16 | ソニー株式会社 | 撮影装置および方法、画像再生装置および方法、プログラム、並びに記録媒体 |
US8885706B2 (en) | 2011-09-16 | 2014-11-11 | Google Inc. | Apparatus and methodology for a video codec system with noise reduction capability |
US9177195B2 (en) | 2011-09-23 | 2015-11-03 | Shoppertrak Rct Corporation | System and method for detecting, tracking and counting human objects of interest using a counting system and a data capture device |
US10402631B2 (en) | 2011-09-23 | 2019-09-03 | Shoppertrak Rct Corporation | Techniques for automatically identifying secondary objects in a stereo-optical counting system |
US9124783B2 (en) | 2011-09-30 | 2015-09-01 | Camiolog, Inc. | Method and system for automated labeling at scale of motion-detected events in video surveillance |
US8737728B2 (en) | 2011-09-30 | 2014-05-27 | Ebay Inc. | Complementary item recommendations using image feature data |
KR20130056998A (ko) * | 2011-11-23 | 2013-05-31 | 엘지전자 주식회사 | 디지털 비디오 레코더 및 이를 이용한 객체 추적 방법 |
JP5886616B2 (ja) * | 2011-11-30 | 2016-03-16 | キヤノン株式会社 | 物体検出装置、物体検出装置の制御方法、およびプログラム |
WO2013089662A1 (en) * | 2011-12-12 | 2013-06-20 | Intel Corporation | Scene segmentation using pre-capture image motion |
US8810666B2 (en) * | 2012-01-16 | 2014-08-19 | Google Inc. | Methods and systems for processing a video for stabilization using dynamic crop |
US9131073B1 (en) | 2012-03-02 | 2015-09-08 | Google Inc. | Motion estimation aided noise reduction |
US9516223B2 (en) | 2012-06-06 | 2016-12-06 | Apple Inc. | Motion-based image stitching |
US9659235B2 (en) * | 2012-06-20 | 2017-05-23 | Microsoft Technology Licensing, Llc | Low-dimensional structure from high-dimensional data |
US9344729B1 (en) | 2012-07-11 | 2016-05-17 | Google Inc. | Selective prediction signal filtering |
US9113033B2 (en) * | 2012-08-28 | 2015-08-18 | Microsoft Technology Licensing, Llc | Mobile video conferencing with digital annotation |
US9875220B2 (en) * | 2012-11-09 | 2018-01-23 | The Boeing Company | Panoptic visualization document printing |
KR20150084939A (ko) * | 2012-11-12 | 2015-07-22 | 비헤이버럴 레코그니션 시스템즈, 인코포레이티드 | 비디오 감시 시스템들에 대한 이미지 안정화 기술들 |
TWI512642B (zh) * | 2013-01-25 | 2015-12-11 | Delta Electronics Inc | 快速圖形比對方法 |
US9177245B2 (en) | 2013-02-08 | 2015-11-03 | Qualcomm Technologies Inc. | Spiking network apparatus and method with bimodal spike-timing dependent plasticity |
KR101460317B1 (ko) * | 2013-04-01 | 2014-11-14 | 중앙대학교 산학협력단 | 불안정한 카메라 환경에서의 이동 객체 검출 장치 및 방법 |
US9542585B2 (en) * | 2013-06-06 | 2017-01-10 | Apple Inc. | Efficient machine-readable object detection and tracking |
US20150030208A1 (en) * | 2013-07-29 | 2015-01-29 | Irida Labs S.A. | System and a method for motion estimation based on a series of 2d images |
US9876966B2 (en) * | 2013-10-18 | 2018-01-23 | Pixart Imaging Inc. | System and method for determining image variation tendency and controlling image resolution |
US10311161B2 (en) | 2014-03-13 | 2019-06-04 | Ebay Inc. | Interactive displays based on user interest |
US9652534B1 (en) | 2014-03-26 | 2017-05-16 | Amazon Technologies, Inc. | Video-based search engine |
US10194163B2 (en) * | 2014-05-22 | 2019-01-29 | Brain Corporation | Apparatus and methods for real time estimation of differential motion in live video |
US9939253B2 (en) | 2014-05-22 | 2018-04-10 | Brain Corporation | Apparatus and methods for distance estimation using multiple image sensors |
US9713982B2 (en) | 2014-05-22 | 2017-07-25 | Brain Corporation | Apparatus and methods for robotic operation using video imagery |
US9848112B2 (en) | 2014-07-01 | 2017-12-19 | Brain Corporation | Optical detection apparatus and methods |
US9508026B2 (en) | 2014-07-01 | 2016-11-29 | Irida Labs S.A. | System and a method for camera motion analysis and understanding from a video sequence |
US9170707B1 (en) | 2014-09-30 | 2015-10-27 | Google Inc. | Method and system for generating a smart time-lapse video clip |
US10140827B2 (en) | 2014-07-07 | 2018-11-27 | Google Llc | Method and system for processing motion event notifications |
US9245187B1 (en) * | 2014-07-07 | 2016-01-26 | Geo Semiconductor Inc. | System and method for robust motion detection |
US9501915B1 (en) * | 2014-07-07 | 2016-11-22 | Google Inc. | Systems and methods for analyzing a video stream |
US10057593B2 (en) | 2014-07-08 | 2018-08-21 | Brain Corporation | Apparatus and methods for distance estimation using stereo imagery |
US10055850B2 (en) | 2014-09-19 | 2018-08-21 | Brain Corporation | Salient features tracking apparatus and methods using visual initialization |
US10102613B2 (en) | 2014-09-25 | 2018-10-16 | Google Llc | Frequency-domain denoising |
USD782495S1 (en) | 2014-10-07 | 2017-03-28 | Google Inc. | Display screen or portion thereof with graphical user interface |
US9544615B2 (en) * | 2014-11-14 | 2017-01-10 | Sony Corporation | Method and system for processing video content |
US9361011B1 (en) | 2015-06-14 | 2016-06-07 | Google Inc. | Methods and systems for presenting multiple live video feeds in a user interface |
US9836118B2 (en) | 2015-06-16 | 2017-12-05 | Wilson Steele | Method and system for analyzing a movement of a person |
US10197664B2 (en) | 2015-07-20 | 2019-02-05 | Brain Corporation | Apparatus and methods for detection of objects using broadband signals |
CN107852491B (zh) | 2015-07-31 | 2021-09-14 | 深圳市大疆创新科技有限公司 | 传感器辅助的码率控制方法 |
WO2017020184A1 (en) * | 2015-07-31 | 2017-02-09 | SZ DJI Technology Co., Ltd. | Methods of modifying search areas |
EP3417608B1 (en) * | 2016-02-18 | 2020-05-13 | IMINT Image Intelligence AB | System and method for video processing |
US10147226B1 (en) * | 2016-03-08 | 2018-12-04 | Pixelworks, Inc. | 2D motion vectors from 3D model data |
US10867328B2 (en) | 2016-05-03 | 2020-12-15 | Yembo, Inc. | Systems and methods for providing AI-based cost estimates for services |
AU2017260842A1 (en) | 2016-05-03 | 2018-11-01 | Yembo, Inc. | Systems and methods for providing ai-based cost estimates for services |
US10506237B1 (en) | 2016-05-27 | 2019-12-10 | Google Llc | Methods and devices for dynamic adaptation of encoding bitrate for video streaming |
WO2017206147A1 (en) | 2016-06-02 | 2017-12-07 | Intel Corporation | Recognition of activity in a video image sequence using depth information |
CN106127810B (zh) * | 2016-06-24 | 2019-08-20 | 广东紫旭科技有限公司 | 一种视频宏块角点光流的录播系统图像跟踪方法和装置 |
US10957171B2 (en) | 2016-07-11 | 2021-03-23 | Google Llc | Methods and systems for providing event alerts |
US10380429B2 (en) | 2016-07-11 | 2019-08-13 | Google Llc | Methods and systems for person detection in a video feed |
WO2018022853A1 (en) * | 2016-07-28 | 2018-02-01 | Kodak Alaris Inc. | A method for dynamic creation of collages from mobile video |
CN106504270B (zh) * | 2016-11-08 | 2019-12-20 | 浙江大华技术股份有限公司 | 一种视频中目标物体的展示方法及装置 |
US10410086B2 (en) | 2017-05-30 | 2019-09-10 | Google Llc | Systems and methods of person recognition in video streams |
US11783010B2 (en) | 2017-05-30 | 2023-10-10 | Google Llc | Systems and methods of person recognition in video streams |
CN110019880A (zh) * | 2017-09-04 | 2019-07-16 | 优酷网络技术(北京)有限公司 | 视频剪辑方法和装置 |
US10664688B2 (en) | 2017-09-20 | 2020-05-26 | Google Llc | Systems and methods of detecting and responding to a visitor to a smart home environment |
US11134227B2 (en) | 2017-09-20 | 2021-09-28 | Google Llc | Systems and methods of presenting appropriate actions for responding to a visitor to a smart home environment |
US10827025B2 (en) * | 2017-10-18 | 2020-11-03 | Hewlett Packard Enterprise Development Lp | Allocations of arbitrary workloads among hyperconverged nodes |
KR101961687B1 (ko) * | 2017-10-20 | 2019-03-25 | 한국항공대학교산학협력단 | 장면 흐름 추정을 위한 장면 흐름 학습 방법 및 장면 흐름 추정 방법 |
CN108364305B (zh) * | 2018-02-07 | 2021-05-18 | 福州大学 | 基于改进型dsst的车载摄像视频目标跟踪方法 |
TWI822863B (zh) | 2018-09-27 | 2023-11-21 | 美商Vid衡器股份有限公司 | 360度視訊寫碼樣本導出 |
US10708501B2 (en) | 2018-10-17 | 2020-07-07 | Sony Corporation | Prominent region detection in scenes from sequence of image frames |
US11315256B2 (en) * | 2018-12-06 | 2022-04-26 | Microsoft Technology Licensing, Llc | Detecting motion in video using motion vectors |
CN110084765B (zh) * | 2019-05-05 | 2021-08-06 | Oppo广东移动通信有限公司 | 一种图像处理方法、图像处理装置及终端设备 |
WO2021014643A1 (ja) * | 2019-07-25 | 2021-01-28 | 日本電気株式会社 | 物体追跡装置、物体追跡方法、及び、記録媒体 |
CN110532989B (zh) * | 2019-09-04 | 2022-10-14 | 哈尔滨工业大学 | 一种海上目标自动探测方法 |
US11893795B2 (en) | 2019-12-09 | 2024-02-06 | Google Llc | Interacting with visitors of a connected home environment |
US11350103B2 (en) * | 2020-03-11 | 2022-05-31 | Videomentum Inc. | Methods and systems for automated synchronization and optimization of audio-visual files |
CN111476194B (zh) * | 2020-04-20 | 2024-02-27 | 海信集团有限公司 | 一种感知模组工作状态检测方法及冰箱 |
US11776319B2 (en) * | 2020-07-14 | 2023-10-03 | Fotonation Limited | Methods and systems to predict activity in a sequence of images |
CN112991381B (zh) * | 2021-03-15 | 2022-08-02 | 深圳市慧鲤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN113190710B (zh) * | 2021-04-27 | 2023-05-02 | 南昌虚拟现实研究院股份有限公司 | 语义视频图像的生成方法、播放方法及相关装置 |
US20220358314A1 (en) * | 2021-05-07 | 2022-11-10 | Waymo Llc | Time-line based object tracking annotation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH043595A (ja) * | 1990-04-19 | 1992-01-08 | Nec Corp | 動画像の動き情報検出装置および動画像の動き補償フレーム間予測符号化装置 |
JPH10134193A (ja) * | 1996-10-31 | 1998-05-22 | Oki Electric Ind Co Ltd | 移動ベクトル算出方法及び装置 |
JP2002540516A (ja) * | 1999-03-18 | 2002-11-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ビデオ信号処理 |
JP2004078432A (ja) * | 2002-08-13 | 2004-03-11 | Sony Corp | オブジェクト抽出装置、オブジェクト抽出方法および画像表示装置 |
JP2004152271A (ja) * | 2002-10-28 | 2004-05-27 | Hewlett-Packard Development Co Lp | 画像間の動きを推定するシステムおよび方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735253B1 (en) * | 1997-05-16 | 2004-05-11 | The Trustees Of Columbia University In The City Of New York | Methods and architecture for indexing and editing compressed video over the world wide web |
US6983018B1 (en) * | 1998-11-30 | 2006-01-03 | Microsoft Corporation | Efficient motion vector coding for video compression |
US6643387B1 (en) * | 1999-01-28 | 2003-11-04 | Sarnoff Corporation | Apparatus and method for context-based indexing and retrieval of image sequences |
US6330356B1 (en) * | 1999-09-29 | 2001-12-11 | Rockwell Science Center Llc | Dynamic visual registration of a 3-D object with a graphical model |
EP1153513A1 (de) | 1999-12-17 | 2001-11-14 | Koninklijke Philips Electronics N.V. | Bewegungsschätzung in videobildern |
US7042943B2 (en) * | 2002-11-08 | 2006-05-09 | Apple Computer, Inc. | Method and apparatus for control of rate-distortion tradeoff by mode selection in video encoders |
-
2004
- 2004-10-25 US US10/972,003 patent/US7447337B2/en not_active Expired - Fee Related
-
2005
- 2005-10-25 JP JP2007538199A patent/JP2008518331A/ja active Pending
- 2005-10-25 CN CNB2005800366182A patent/CN100538743C/zh not_active Expired - Fee Related
- 2005-10-25 WO PCT/US2005/039202 patent/WO2006047769A1/en active Application Filing
- 2005-10-25 EP EP05824934A patent/EP1805716A1/en not_active Ceased
- 2005-10-25 KR KR1020077009282A patent/KR100901904B1/ko not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH043595A (ja) * | 1990-04-19 | 1992-01-08 | Nec Corp | 動画像の動き情報検出装置および動画像の動き補償フレーム間予測符号化装置 |
JPH10134193A (ja) * | 1996-10-31 | 1998-05-22 | Oki Electric Ind Co Ltd | 移動ベクトル算出方法及び装置 |
JP2002540516A (ja) * | 1999-03-18 | 2002-11-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ビデオ信号処理 |
JP2004078432A (ja) * | 2002-08-13 | 2004-03-11 | Sony Corp | オブジェクト抽出装置、オブジェクト抽出方法および画像表示装置 |
JP2004152271A (ja) * | 2002-10-28 | 2004-05-27 | Hewlett-Packard Development Co Lp | 画像間の動きを推定するシステムおよび方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010225118A (ja) * | 2009-03-25 | 2010-10-07 | Toshiba Corp | 画像処理装置、方法及びプログラム |
JP2013218679A (ja) * | 2012-04-06 | 2013-10-24 | Xerox Corp | 短時間の駐車違反を取り締まるための、ビデオベースの検知装置及び通知装置 |
JP2019505868A (ja) * | 2016-01-29 | 2019-02-28 | グーグル エルエルシー | 画像における動きの検出 |
US10957054B2 (en) | 2016-01-29 | 2021-03-23 | Google Llc | Detecting motion in images |
US11625840B2 (en) | 2016-01-29 | 2023-04-11 | Google Llc | Detecting motion in images |
Also Published As
Publication number | Publication date |
---|---|
US20060088191A1 (en) | 2006-04-27 |
KR100901904B1 (ko) | 2009-06-10 |
WO2006047769A1 (en) | 2006-05-04 |
KR20070068408A (ko) | 2007-06-29 |
EP1805716A1 (en) | 2007-07-11 |
US7447337B2 (en) | 2008-11-04 |
CN101048799A (zh) | 2007-10-03 |
CN100538743C (zh) | 2009-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7447337B2 (en) | Video content understanding through real time video motion analysis | |
US6400831B2 (en) | Semantic video object segmentation and tracking | |
US8285045B2 (en) | Image analysis method, medium and apparatus and moving image segmentation system | |
Patwardhan et al. | Robust foreground detection in video using pixel layers | |
Salembier et al. | Region-based representations of image and video: segmentation tools for multimedia services | |
EP1147669B1 (en) | Video signal processing method and apparatus by feature points extraction in the compressed domain. | |
US6643387B1 (en) | Apparatus and method for context-based indexing and retrieval of image sequences | |
Kim et al. | Efficient camera motion characterization for MPEG video indexing | |
Karasulu et al. | Moving object detection and tracking in videos | |
EP1932117A2 (en) | Method and apparatus for determining automatically the shot type of an image (close-up shot versus long shot) | |
Funde et al. | Object detection and tracking approaches for video surveillance over camera network | |
Roy et al. | A comprehensive survey on computer vision based approaches for moving object detection | |
Mohanty et al. | A survey on moving object detection using background subtraction methods in video | |
Gao et al. | Shot-based video retrieval with optical flow tensor and HMMs | |
EP2325801A2 (en) | Methods of representing and analysing images | |
KR100566629B1 (ko) | 이동물체 검출 시스템 및 방법 | |
Liu et al. | [Retracted] Mean Shift Fusion Color Histogram Algorithm for Nonrigid Complex Target Tracking in Sports Video | |
Wei | Video content classification based on 3-D eigen analysis | |
Wang et al. | Real time motion analysis toward semantic understanding of video content | |
Ewerth et al. | Segmenting moving objects in MPEG videos in the presence of camera motion | |
Thinh et al. | Depth-aware salient object segmentation | |
Hsia et al. | Single-object-based segmentation and coding technique for video surveillance system | |
EP1752891A2 (en) | Method and apparatus for establishing and browsing a hierarchical video camera motion transition graph. | |
De Roover et al. | An accurate semi-automatic segmentation scheme based on watershed and change detection mask | |
Lu et al. | Video preprocessing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100517 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100615 |