JP4974975B2 - 画像において物体の位置を特定する方法及びシステム - Google Patents

画像において物体の位置を特定する方法及びシステム Download PDF

Info

Publication number
JP4974975B2
JP4974975B2 JP2008183867A JP2008183867A JP4974975B2 JP 4974975 B2 JP4974975 B2 JP 4974975B2 JP 2008183867 A JP2008183867 A JP 2008183867A JP 2008183867 A JP2008183867 A JP 2008183867A JP 4974975 B2 JP4974975 B2 JP 4974975B2
Authority
JP
Japan
Prior art keywords
image
descriptor
transformation
regression function
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008183867A
Other languages
English (en)
Other versions
JP2009087326A (ja
Inventor
ファティー・エム・ポリクリ
オンセル・シー・チュゼル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2009087326A publication Critical patent/JP2009087326A/ja
Application granted granted Critical
Publication of JP4974975B2 publication Critical patent/JP4974975B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、包括的には一連の画像において物体を追跡することに関し、特に、非線形に移動している物体を検出し追跡することに関する。
追跡は、一連の画像において物体の動きを推定するプロセスである。物体追跡方法では、一般に、最初に何らかの初期画像において物体を検出する必要がある。そして、後続する画像においてその物体を追跡することができる。物体検出方法の多様性は数えられないほど大きい。追跡方法を、状態・空間推定方法又はモデル整合方法として分類することができる。
状態・空間推定方法
状態・空間推定方法は、通常、マルコフ過程を使用し、動きパラメータの確率密度関数(pdf)を構築する。たとえば、カルマンフィルタリングは正規分布を使用する。しかしながら、カルマンフィルタリング方法は、多峰(マルチモーダル)分布について述べていない。
モンテカルロ積分方法、たとえば粒子フィルタは、物体の姿勢を含む任意のパラメトリック変動を追跡することができる。しかしながら、それらの方法がランダムサンプリングに依存することによって、特に高次元表現になるほど推定尤度が劣化する傾向にある。さらに、それらの方法の計算要件は、状態変数の数によって指数関数的に増大し、それによってそれらの方法は複雑な姿勢変化を追跡するために不適当となる。
モデル整合方法
モデル整合方法は、物体モデルと画像において見られるような物体との間の差に基づいてコスト関数を定義する。コスト関数は、動きパラメータを最小化することによって解かれる。一例はオプティカルフロー推定であり、そこでは、物体モデルと画像強度との間の二乗差の和が、反復最小二乗問題として最小化される。この方法の主な問題は、各反復に対して画像勾配、ヤコビアン行列及びヘッセ行列の計算が必要であるということであり、それによって方法は低速になる。
他のモデル整合方法は、動き及びコスト関数関係の別の公式化によって問題を克服する。いくつかの方法では、動きは、オフライン過程で学習される画像勾配の線形関数を使用して推定される。その概念は、適合性ベクトルマシン(relevance vector machine)を使用して画像から動きへの非線形マッピングを学習するように拡張される。
しかしながら、それらの方法は、線形化を介して動きパラメータへの加法的更新を推定する。このため、それらの方法は非線形の動きを追跡することができない。
動き推定のためのリー群理論
リー代数を使用して、平均値シフト演算を使用する堅固な動き推定に対し、ユークリッド運動群構造を有する分布のモードを見つけることができる。動きが大きい場合、平均値シフトは失敗する可能性があることが知られている。リー代数に対しベクトル加算演算が定義されることによって、アフィン「スネーク(snake)」を追跡する一連のアフィン動きが組み込まれる。
加法的更新は、テンプレート追跡の場合にリー代数に対して実行される。しかしながら、その手法は、行列乗算の非交換可能性を考慮せず、推定は、物体の初期変換近くでしか有効でない。
一連の画像において非線形に移動している物体を追跡することが望まれる。また、初期画像において物体を検出することも望まれる。さらに、検出及び追跡の基礎となる方法が同じである場合、それは有益である。
本発明の実施の形態は、一連の画像において物体を検出し追跡する方法を提供する。訓練中、回帰関数fが確定される。回帰関数は、物体記述子(object descriptors)を物体の動きに相関させる。好ましい一実施の形態では、記述子は方向ヒストグラムである。方向ヒストグラムは、ピクセル強度の変化に対して比較的影響を受けにくく、大きい物体の動きに対して正確である。物体の動きは、行列リー群構造を有する。動きは、ユークリッド運動、相似変換、アフィン動き及び平面ホモグラフィ等の最も一般的な変換を含む。
動きがユークリッド空間にないため、回帰関数は、誤差関数を最小化することによって基礎となる空間の幾何学形状を確定する。従来技術による方法は動きを線形化し、それによって、暗黙のユークリッド空間仮定を行う。これは、非線形の動きには当てはまらない。したがって、本発明は、物体の動きを記述するために行列リー群構造を使用する。
本発明は、リー代数に対し物体の動きのモデルを構築する。このモデルは、二乗測地線誤差の和に対する一次近似を最小化する。本発明はリッジ回帰を使用して物体モデルを更新し、それによって、画像の訓練セットがわずかな場合であっても物体の動きを正確に学習することが可能になる。本方法は計算効率がよく、リアルタイムで作用する。
物体を、一連の画像の初期ターゲット画像においても検出することができる。物体が検出された後、その物体を追跡することができる。本発明の実施の形態は、同じ回帰関数及びリー代数構造を使用して、物体検出と物体追跡との両方を実行する。
本発明の実施の形態による物体を検出し追跡する方法は、従来の物体追跡に比較して以下の利点を有する。
本方法は、従来の方法で使用されるピクセル強度の代りに、動きを追跡するために方向ヒストグラムを使用する。ヒストグラムは、動きが大きい場合、正確な推定を提供する。方向ヒストグラムはまた、物体の照明及び外観の変化に対しより影響を受けにくい。
本方法は、動き群のリー代数を使用し、それは、非線形の動きをよりよく推定することができる。
本方法は、リッジ回帰を使用して、リアルタイムに動きモデルを更新する。
本方法を、任意の行列リー群構造動きを伴う物体を追跡するために使用することができる。
方法概説
図1は、本発明の一実施形態による、一連の画像I110において移動する物体115を追跡する方法及びシステム100を示す。一連の画像110を、カメラ102によって取得することができる。別法として、一連の画像110を、永久メモリ又は通信インタフェースから方法100に提供してもよい。一般性を失うことなく、方法100を、物体115の非線形の動きに関して説明する。しかしながら、本方法は、いかなるタイプの動きを伴う物体をも追跡することができる。
方法100は、当該技術分野において既知であるようなテレビ、プロジェクタ、再生装置、カメラ又はコンピュータ等の表示装置103に接続されるプロセッサ又はマイクロプロセッサで動作することができる。表示装置を使用して、システムのユーザが物体の動きを見ることができる。コンピュータは、通常、バスによって接続されている、1つ又は複数の処理ユニット及び/又はマイクロコントローラ、メモリ並びに入出力インタフェースを含む。メモリは、後述するように、現画像を格納する揮発性メモリ、たとえばRAMを含んでもよい。プロセッサはまた、永久メモリ、たとえば、一連の画像110を格納するビデオテープ及びDVD等のリムーバブル記憶媒体と共に、セットトップボックス、ネットワークインタフェース等の通信インタフェースにアクセスすることも可能である。本方法は、一連の画像110がリアルタイムで取得される場合も物体を追跡することができる、ということが理解されるべきである。
本発明による方法に対する入力は一連の画像である。物体を含む初期画像を、訓練画像と呼ぶことができる。物体が検出されるか又は追跡される必要のある後続する画像を、ターゲット画像を呼ぶことができる。物体検出に対し、一連の画像を、訓練画像と1つのターゲット画像とに限定することができる。一連の画像110における各現(ターゲット)画像120に対し、位置160における物体記述子130を確定する(200)。位置160は、前に処理した画像における物体115の位置に対応する。後述するように、物体の位置は、画像座標で画像において物体を包囲する追跡領域によって画定される。
次に、物体記述子130に回帰関数f140を適用する(400)。関数及び記述子が行列であるため、適用は、基本的に行列乗算である。回帰関数の適用の出力は、動きΔM150である。動きΔM150は、前の画像から現画像120までの物体115の動きに対応する。
動き150を使用して、現画像における追跡領域の位置を更新する(170)。そして、更新された位置における追跡領域を、一連の画像110の次の(現)画像において物体を追跡するために使用することができる。
追跡方法の公式化
本発明の実施形態を、物体115のパラメトリック動き変換A(2)について説明する。パラメトリック変換は、所与の変数に適用されるパラメータの関数である。変数には、ピクセル特徴、領域特徴、ピクセル座標及び領域座標が含まれる。パラメータは、たとえば、アフィン、透視動き変換、並びに有限数のパラメータによって表すことができる他の線形及び非線形の、剛体運動変換及び非剛体運動変換を含む。本発明はまた、他の動き変換、たとえば相似変換S(2)及びユークリッド運動SE(2)と使用することも可能である。
2次元パラメトリック変換A(2)は、3×3行列によって与えられる。
Figure 0004974975
ここで、Aは回転、スケール及びスキューを表す非特異2×2行列であり、b∈Rである。すべてのパラメトリック変換のセットは、行列リー群構造を形成する。リー群は、可微分多様体である。群に対する操作は、滑らかな構造と適合性がある。リー群は、多様体であるため、微分学で操作することができる。大域的なリー群を、そのリー代数として知られる局所又は線形化バージョンに置き換えることができる。リー代数は、リー群及び可微分多様体等の幾何学的物体に対して操作するために使用することができる代数構造である。
図2は、物体座標及び画像座標における物体115の位置の双方向位置変換M及びM−1を示す。物体座標における物体115の位置は単位正方形201である。画像座標における物体115の位置は、画像202の追跡領域160である。アフィン行列Mは、座標203の原点における単位正方形201を、以下の式(2)によって画像における物体を囲む追跡領域160に変換する。
Figure 0004974975
ここで、下付き文字は、それぞれ物体座標(obj)及び画像座標(img)を示す。逆変換M−1もまたアフィン変換であり、画像座標160における物体を物体座標201における物体に変換する。
Iは入力画像110を示し、tは時間(フレーム)インデックスであるものとする。追跡は、時刻tまでの画像、すなわちI,・・・I及び初期位置変換Mを考慮すると、位置変換行列Mを推定する。初期画像において物体を検出する方法については後述する。
位置変換行列Mは、物体座標において時刻tにおける追跡領域160の位置を定義する。ここでは、位置変換行列を
Figure 0004974975
のようにモデル化し、各時刻(フレーム)tにおける動き変換ΔMを推定する。動き変換ΔMは、物体座標203における時刻t−1から時刻tまでの物体の動きに対応する。
物体座標における画像はI(M−1)である。ここでは、追跡領域160内部のピクセル値を考慮し、記述子、たとえば勾配方向ヒストグラムを用いて領域を表す。記述子(観察値)は、mが記述子o130の次元である場合、o(M−1)∈Rである。
ここで、追跡を、行列値回帰問題として定義する。前に処理された画像Mt−1の位置変換行列によって示されるような物体の前の位置、すなわち追跡領域と、現画像Iとを考慮し、以下の式(4)のように回帰関数140を使用して動き変換ΔM150を推定する。
Figure 0004974975
このように、追跡は、後述するように回帰関数f140を訓練し更新することにまで簡約化される。
物体記述子
図3は、物体115を囲む単位正方形201の表現を示す。単位正方形は、物体座標における単位正方形201内部の規則的な格子において確定されるいくつかの勾配方向ヒストグラムを含む。スケール不変特徴変換(scale invariant feature transform)(SIFT)記述子と同様に、ヒストグラムに対する各ピクセルの寄与は、ピクセルの勾配の大きさに比例する。単位正方形301は、6×6=36のブロック302に分割され、各ブロックに対してヒストグラムが確定される。これについては、参照により本明細書に援用される、D.Lowe著、「Distinctive image features from scale−invariant Keypoints」(Intl.J.of Comp.Vision,60(2):91−110,2004)を参照されたい。
各ヒストグラムにおける方向は、0度と2π度との間でπ/6度で量子化される。したがって、各ヒストグラムは12次元であり、物体記述子oは432次元である。追跡中、追跡領域における周辺ピクセルは、背景によって頻繁に影響を受ける。このため、本発明の一実施形態では、追跡領域の周辺近くに10%境界を残し、単位正方形301内部において物体の記述子を確定する。
回帰関数
図4は、本発明の実施形態による、回帰関数f140を訓練する方法を示す。訓練の結果は、回帰係数Ωの推定値である。回帰係数は、物体記述子oを動き変換ΔMと相関させる。回帰関数が訓練され画像に適用される方法は、物体追跡及び物体検出の場合と同じである。
訓練セット
訓練中、物体115の初期位置は、一連の画像110の初期(訓練)画像I420における初期追跡領域160によって近似される。追跡領域160は、概して、画像座標による物体115の位置を示す。したがって、物体座標における物体115の位置の位置変換行列M460もまた既知である。物体検出のために、訓練に、物体を含む訓練画像が提供される。図7を参照されたい。
ここでは、物体M460の初期位置に基づいて、n個のランダムなパラメトリック動き変換行列{ΔM}i=1...nのセットを生成する(430)。各行列は、初期位置M460からの物体115のあり得る動き、たとえばシフト、回転、スケール、スキュー及びそれらの組合せを記述する。位置M460における物体115は、動き変換ΔM −1によって乗算することによって変換される。新たな記述子は、o =o(ΔM −1.M −1)である。動き変換ΔMは、物体を単位正方形201まで移動させる。各動き変換ΔMは、位置M460における物体115の記述子oに関連する。動き変換は、訓練セット410を確定する。訓練セット410は、{o ,ΔM}のn個のサンプルを含む。
図5は、初期訓練セット410の例501〜504を示す。ここでは、訓練中の動きに対し且つ追跡中の推定動きに対し、表記ΔMを使用する。下付き文字iは、訓練セットにおけるサンプルを指し、時間インデックスtは、追跡中の推定動きを指す。実施形態によっては、現画像120各々を使用して、追跡中に訓練セットが更新される。これによって、回帰関数が、外観及び照明の変化に適応する。
回帰関数
Figure 0004974975
はアフィン行列である。したがって、アフィン行列の構造を考慮する。
線形動き推定のための従来の方法は、動きΔM(p)のパラメータ化と次式(5)に表す初期値周辺の線形化とを使用する。
Figure 0004974975
従来の変換は単位行列周辺であるため、線形化はΔM(p)=Iにおいて実行される。従来の方法は、増分Δpを推定することによって進行する。
従来の方法には2つの主な不都合がある。第1に、近似がパラメータに対するベクトル空間仮定を行う。第2に、パラメータ化は任意であり、動きの構造を考慮しない。
本発明では、リー群代数を使用して、訓練セット410から回帰関数f140を訓練する。動き変換、すなわちΔM150は、記述子o130の線形関数としてリー代数に対してモデル化される。
リー群
d次元多様体は位相空間であり、局所的にユークリッド空間に類似する。多様体上のすべての点が近傍を有し、それに対して同相写像が存在し、それは近傍をRに写像する。
可微分多様体は、滑らかさ制約を満足させる。したがって、多様体上の曲線の導関数を定義することが可能である。多様体の点Mにおける導関数は、その点における正接空間であるベクトル空間にある。リー群は、群演算、乗算及び逆数が可微分写像であるように、可微分多様体の構造を有する群Gである。群の単位要素Iに対する正接空間は、リー代数gを形成する。ここでは、群の点を、大文字で示し、リー代数のベクトルを小文字で示す。
多様体における距離は、点を接続する曲線の長さによって測定され、最短曲線を測地線と呼ぶ。単位要素Iから、ベクトルm∈gで開始する一意の測地線がある。指数写像、exp:g→Gは、ベクトルmをこの測地線が達した点に写像する。exp(m)=Mである場合、測地線の長さはρ(I,M)=‖m‖である。概して、指数写像は、上への写像であるが1対1ではない。したがって、逆写像対数:G→gは、単位要素Iの近傍のあたりでのみ一意に定義される。任意のM∈Gに対し、M=exp(m)であるようにいくつかのm∈gがある場合、log(M)が、最小ノルムを有するベクトルとして選択される。群要素M−1の逆数による左乗算G→Gは、点MをIに、且つMにおける正接空間をリー代数に写像し、それは同形写像である。写像及び測地線定義を使用して、2つの群要素間の距離は、以下の式(6)によって測定される。
Figure 0004974975
アフィン動きA(2)、相似変換S(2)及びユークリッド運動SE(2)等、本発明の実施形態で使用する変換は、3×3非特異正方行列の群である、一般線形群GL(3,R)の閉部分群である。行列の指数写像及びその逆の対数写像は以下の式(7)のように定義される。
Figure 0004974975
一般に、指数写像は、恒等式exp(m)exp(m)=exp(m+m)を満足させない。写像は、以下の式(8)のベイカー・キャンベル・ハウスドルフ(Baker−Campbell−Hausdorff)の公式を通じて、exp(m)exp(m)=exp(BCH(m,m))によって定義される。
Figure 0004974975
ここで、[m,m]=m−mはリーブラケット演算である。アフィン行列の構造は上述した。空間は6次元多様体である。
アフィン群のリー代数は、以下の式(9)の行列のセットである。
Figure 0004974975
ここで、Uは2×2行列であり、v∈Rである。行列mは、正規直交に基づくものとして行列U及びベクトルvのエントリの各々を選択することによって、6次元ベクトルと呼ばれる場合がある。
回帰関数訓練
訓練セット410に基づく訓練480中、回帰係数Ω470が推定される。回帰係数470は、物体記述子oを動き変換ΔMと相関させる。これ説明するために、回帰関数Ω470は、回帰関数140に相当する。
訓練セット410は、上述したように、記述子と動き変換{o ,ΔM}を含む。アフィン動き行列はベクトル空間になく、2つの動きの間の従来のユークリッド距離は有効なメトリックではない。
しかしながら、アフィン動き行列は可微分多様体にある。この場合、意味のある誤差関数は、以下の式(10)で表される回帰推定値f(o )と動き変換ΔMとの間の二乗測地線距離の和である。
Figure 0004974975
及びMは2つの動き行列であるものとし、m=log(M)及びm=log(M)であるものとする。2つの動き行列間の測地線距離に対する一次近似は、式(8)のBCH公式を使用して、以下の式(11)の通りである。
Figure 0004974975
ここで、リー代数に基づいてd正規直交を選択すると、行列ノルムを2つのベクトル間のユークリッド距離として確定することができる。式(8)のBCH公式と、リーブラケット演算の定義とから、近似は、変換が小さいほど優れており、そのため、m及びmはゼロに近づき、言い換えれば、M及びMは単位行列Iに近づく。式(11)を使用して、式(10)の誤差関数は、以下の式(12)を一次項まで最小化することと等価である。
Figure 0004974975
変換は単位行列の小さい近傍内にあるため、近似は十分に正確である。
ここで、回帰関数を以下の式(13)のように定義し、
Figure 0004974975
リー代数に対する正接ベクトル、log(ΔM)を推定する関数
Figure 0004974975
を確定する。ここでは、関数gを、Ωが回帰係数のm×d行列である場合、以下の式(14)のように記述子の線形関数としてモデル化する。
Figure 0004974975
式(15)に示すように、Xは初期記述子のn×m行列であるものとし、Yはリー代数に対する動きの写像のn×d行列であるものとする。
Figure 0004974975
ここでは、log(ΔM)はd次元ベクトル形式で述べる。
式(13)及び(14)を式(12)に代入すると、以下の式(16)が得られる。
Figure 0004974975
ここで、トレース(tr)は、式(12)における和と置き換わる。トレースは、主対角上の要素の合計である。Ωに関して誤差関数Jを微分すると、最小値はΩ=(XX)−1Yである。
リアルタイム追跡の場合、記述子の数は比較的少なく、たとえばn=200である。記述子の数が特徴空間の次元m=432より小さい、すなわちn<mであるため、系は劣決定系であり、XXはランク落ちになる。この場合、推定は訓練誤差をゼロにする。しかしながら、誤差は、将来の予測に対して汎化せず、これを過剰適合(過学習)と呼ぶ。
過剰適合を回避するために、以下の式(17)のように回帰係数のサイズに対し、リッジ回帰である追加の制約を提供する。
Figure 0004974975
リッジ回帰は、よく調整されていない線形回帰問題を解決する場合に有用である。
誤差関数Jの最小値は、Iがm×m単位行列である場合、以下の式(18)の通りである。
Figure 0004974975
正則化係数λは、回帰係数に対する収縮の度合いを確定する。係数λの値が大きいほど動きが安定化し、小さいほど、フレーム間のより大きい動きが可能になる。係数λの最適値は、訓練系列に対する交差検定によって選択され、λは追跡を通して一定のままである。
回帰関数の更新
物体115の外観は時間の経過によって変化する可能性がある。シーンの照明の量もまた変化する可能性がある。これは特に、自然の屋外の設定で物体を追跡する場合に当てはまる。したがって、本発明では、前に処理された画像及び追跡領域に従って訓練セット410を更新する(450)。
本実施形態では、モデル更新450は、回帰関数f、言い換えれば回帰係数Ωを再推定することを言う。追跡ステップ中、上述したように、追跡領域160に対しわずかな、たとえばk=2のランダム記述子を生成する。X及びYは、式(15)において記述されたような行列形式に格納された、更新された記述子及び動き変換であるものとし、Ω’は前のモデルパラメータであるものとする。追跡の各pフレームの後に、以下の式(19)の誤差関数を最小化することによって回帰関数の係数を更新する。
Figure 0004974975
この誤差関数は式(17)に類似する。
回帰係数Ωに関して誤差関数Jを微分する。最小値は以下の式(20)の通りである。
Figure 0004974975
パラメータγは、最後の推定から回帰パラメータに許容される変化の量を制御する。
物体追跡
図6は、本発明による物体追跡方法の擬似コードである。ここでは、回帰関数f140を訓練する。追跡は、式(4)を使用して、画像間の物体の動き150を推定し、式(3)を使用して位置Mを更新する(170)。
追跡を、回帰関数fを用いて動き推定を繰り返すことによって向上させることができる。反復は、推定動きΔMが単位に等しくなるか、又は現推定位置における物体の尤度が、前の位置における物体の尤度を下回った時に終了する。時刻tにおいて位置Mにある物体の尤度は以下の式(21)の通りである。
Figure 0004974975
ここで、前の位置における物体の記述子が、現位置における物体の記述子と比較される。通常、物体を追跡するためには画像毎に1回又は2回の反復で十分である。
物体検出
図7は、本発明の実施形態による、ターゲット画像702において物体領域を検出する方法を示す。訓練領域710に物体を含む(初期)訓練画像701で開始する。ここでは、現実世界の座標に関して、又はターゲット画像における物体の姿勢に関して、物体の相対的な姿勢については既知ではない。ここで姿勢とは、物体の3次元位置及び3次元方向を意味する。たとえば、訓練画像における車の視点は側面からである場合があり、ターゲット画像における同じ車の視点は正面からである場合がある。姿勢が異なる可能性があるため、物体のサイズもまた2つの画像で異なる可能性がある。本発明では、訓練画像701から物体記述子715を生成し、たとえば、記述子は上述したように方向ヒストグラムである。別法として、他の記述子、たとえば外観、統計を使用することも可能である。
本発明では、変換パラメータ730に従って訓練領域710に複数のパラメトリック変換720を適用することによって、変換領域740をもたらす。通常、これらの変換は多数ある。各変換によって、物体の異なる姿勢がもたらされる。変換パラメータ730は、上述したようにリー代数に写像される。
各変換領域740に対して記述子751を確定する(750)。図4に関して上述したように、記述子751及びパラメータ730をリー代数に写像し、回帰関数(RF)761を訓練する(760)。
ターゲット画像702を窓770に分割する。ここでは、ターゲット画像における物体のサイズ及び位置が既知でないため、サイズ及び位置の異なる多くの窓がある。各窓に対し、窓記述子785を確定し、行列乗算によって記述子に対し回帰関数761を適用することによって収束窓を確定する。各収束窓790に対し、窓記述子792を確定する。
ターゲット画像702から取得された各窓記述子と、訓練領域701から取得された物体記述子との間の類似性スコアを測定する(795)。類似性スコアが最も高い窓が、検出物体の位置796に対応する。
他の次元での検出及び追跡
物体の検出及び追跡のための上記方法を、他の次元まで拡張することができる。たとえば、3次元空間において3次元物体を検出し追跡することができる。パラメトリック変換及び記述子は、対応するより高次元か又はより低次元で定義される。たとえば、3次元物体を、サーフェスマップ、ボリュームデータ又は3次元距離によって定義することができる。
本発明を好ましい実施形態の例を用いて説明したが、本発明の精神及び範囲内でさまざまな他の適応及び変更を行ってもよいということが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内にあるこうした変形及び変更のすべてを包含することである。
本発明の一実施形態による、一連の画像において物体を追跡する方法を示すフローチャートである。 本発明の一実施形態による、物体座標における物体と画像座標における物体との間の双方向変換を示す概略図である。 本発明の一実施形態による、方向ヒストグラムを用いた追跡領域の表現を示すブロック図である。 本発明の実施形態による、回帰関数を訓練する方法を示すブロック図である。 本発明の一実施形態による訓練セットの画像を含む図である。 本発明の一実施形態による追跡方法の擬似コードを示すブロック図である。 図4の訓練された回帰関数を使用して画像における物体を検出する方法を示すフローチャートである。

Claims (18)

  1. 画像において物体の位置を特定する方法であって、
    訓練画像における領域にパラメトリック変換のセットを適用するステップであって、変換領域のセットを確定し、前記パラメトリック変換のパラメータがリー代数に写像され、前記領域が物体を含む、適用するステップと、
    各変換領域に対し物体記述子を確定するステップと、
    前記パラメトリック変換のセットと前記物体記述子のセットとから回帰関数を訓練するステップと、
    ターゲット画像から前記物体記述子を確定するステップと、
    前記ターゲット画像における前記物体の位置を確定するために、前記ターゲット画像の前記物体記述子に対し前記回帰関数を適用するステップと、
    を含む、画像において物体の位置を特定する方法。
  2. 移動する物体の一連のターゲット画像の各ターゲット画像に対し前記物体記述子を確定するステップと、
    前記移動する物体の位置を確定するために、各物体記述子に対し前記回帰関数を適用するステップと、
    をさらに含む、請求項1に記載の画像において物体の位置を特定する方法。
  3. 前記移動する物体の位置に従って前記領域の位置を更新するステップをさらに含む、請求項2に記載の画像において物体の位置を特定する方法。
  4. 前記パラメトリック変換はアフィンである、請求項1に記載の画像において物体の位置を特定する方法。
  5. 前記パラメトリック変換は透視である、請求項1に記載の画像において物体の位置を特定する方法。
  6. 前記画像は深度写像に対応する、請求項2に記載の画像において物体の位置を特定する方法。
  7. 各画像はボリュメトリックデータセットであり、前記位置は3次元である、請求項1に記載の画像において物体の位置を特定する方法。
  8. 前記パラメータは、行列対数演算によって前記リー代数に写像される、請求項1に記載の画像において物体の位置を特定する方法。
  9. 前記領域は、前記物体記述子を確定するように単位領域に写像される、請求項1に記載の画像において物体の位置を特定する方法。
  10. 前記物体記述子は方向ヒストグラムである、請求項1に記載の画像において物体の位置を特定する方法。
  11. 前記物体記述子は共分散行列である、請求項1に記載の画像において物体の位置を特定する方法。
  12. 前記移動する物体の位置を確定するために、各物体記述子に対し前記回帰関数を適用するステップは、前記移動する物体の画像において物体の位置を特定する位置の尤度が前記物体の前の位置の尤度を下回るまで繰り返される、請求項2に記載の画像において物体の位置を特定する方法。
  13. 前記物体記述子及び前記回帰関数は行列であり、前記ターゲット画像における前記物体の位置を確定するために、前記ターゲット画像の前記物体記述子に対し前記回帰関数を適用するステップは行列乗算である、請求項1に記載の画像において物体の位置を特定する方法。
  14. 時刻tにおける前記領域の位置は、位置変換行列Mによって記述され、前記時刻tにおける前記物体の動きは、
    Figure 0004974975
    であるように動き変換ΔMによって記述される、請求項2に記載の画像において物体の位置を特定する方法。
  15. 前記回帰関数はfであり、前記物体記述子は、mが前記物体記述子の次元である場合、o(M−1)∈Rであり、前記動き変換は、
    Figure 0004974975
    で表される、請求項14に記載の画像において物体の位置を特定する方法。
  16. 各ターゲット画像に対し前記回帰関数の係数を更新するステップをさらに含む、請求項2に記載の画像において物体の位置を特定する方法。
  17. 前記ターゲット画像を複数の窓に分割するステップと、
    各窓に対し前記物体記述子を確定するステップと、
    各窓に対し収束窓を確定するために、各窓の前記物体記述子に対し前記回帰関数を適用するステップと、
    各収束窓に対し窓記述子を確定するステップと、
    各収束窓に対し類似性スコアを確定するために、前記領域の前記物体記述子を各窓記述子と比較するステップと、
    前記ターゲット画像における前記物体の位置として、スコアが最高である前記収束窓に関連する前記窓を選択するステップと、
    を含む、請求項1に記載の画像において物体の位置を特定する方法。
  18. 画像において物体の位置を特定するシステムであって、
    訓練画像における領域にパラメトリック変換のセットを適用する手段であって、変換領域のセットを確定し、前記パラメトリック変換のパラメータがリー代数に写像され、前記領域が物体を含む、適用する手段と、
    各変換領域に対し物体記述子を確定する手段と、
    前記リー代数に写像される前記パラメトリック変換のセットと前記物体記述子のセットとから回帰関数を訓練する手段と、
    ターゲット画像から前記物体記述子を確定する手段と、
    前記ターゲット画像における前記物体の位置を確定するために、前記ターゲット画像の前記物体記述子に対し前記回帰関数を適用する手段と、
    を具備する、画像において物体の位置を特定するシステム。
JP2008183867A 2007-09-27 2008-07-15 画像において物体の位置を特定する方法及びシステム Expired - Fee Related JP4974975B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/862,554 2007-09-27
US11/862,554 US7961952B2 (en) 2007-09-27 2007-09-27 Method and system for detecting and tracking objects in images

Publications (2)

Publication Number Publication Date
JP2009087326A JP2009087326A (ja) 2009-04-23
JP4974975B2 true JP4974975B2 (ja) 2012-07-11

Family

ID=40508414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008183867A Expired - Fee Related JP4974975B2 (ja) 2007-09-27 2008-07-15 画像において物体の位置を特定する方法及びシステム

Country Status (3)

Country Link
US (1) US7961952B2 (ja)
JP (1) JP4974975B2 (ja)
CN (1) CN101398934B (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401239B2 (en) * 2009-03-30 2013-03-19 Mitsubishi Electric Research Laboratories, Inc. Object tracking with regressing particles
TW201040893A (en) * 2009-05-12 2010-11-16 Ind Tech Res Inst Method and apparatus for recognitizing types of vehicles
KR20100124532A (ko) * 2009-05-19 2010-11-29 삼성전자주식회사 데이터 처리 장치 및 방법
KR101586007B1 (ko) * 2009-06-25 2016-01-21 삼성전자주식회사 데이터 처리 장치 및 방법
DE102010016964B4 (de) * 2010-05-17 2014-05-15 Krauss-Maffei Wegmann Gmbh & Co. Kg Verfahren und Vorrichtung zur Steuerung einer computergenerierten Anzeige eines virtuellen Objekts
US8600106B1 (en) * 2010-08-31 2013-12-03 Adobe Systems Incorporated Method and apparatus for tracking objects within a video frame sequence
CN103814384B (zh) * 2011-06-09 2017-08-18 香港科技大学 基于图像的跟踪
US8675997B2 (en) * 2011-07-29 2014-03-18 Hewlett-Packard Development Company, L.P. Feature based image registration
CN102509309B (zh) * 2011-11-04 2013-12-18 大连海事大学 一种基于图像匹配的目标点定位系统
CN108197631B (zh) * 2012-07-23 2022-06-28 苹果公司 提供图像特征描述符的方法
CN102853793B (zh) * 2012-09-27 2015-03-25 中国科学院高能物理研究所 坐标变换数据处理方法和装置
US9076227B2 (en) * 2012-10-01 2015-07-07 Mitsubishi Electric Research Laboratories, Inc. 3D object tracking in multiple 2D sequences
CN102982556B (zh) * 2012-11-01 2016-06-15 江苏科技大学 基于流形上粒子滤波算法的视频目标跟踪方法
KR20140105103A (ko) * 2013-02-21 2014-09-01 삼성전자주식회사 장기의 움직임을 추적하는 방법, 장치 및 의료 영상 시스템
US20140278235A1 (en) * 2013-03-15 2014-09-18 Board Of Trustees, Southern Illinois University Scalable message passing for ridge regression signal processing
US10983041B2 (en) * 2014-02-12 2021-04-20 New York University Fast feature identification for holographic tracking and characterization of colloidal particles
JP2015206768A (ja) * 2014-04-23 2015-11-19 株式会社東芝 前景領域抽出装置、前景領域抽出方法及びプログラム
US9195903B2 (en) 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
US9245196B2 (en) * 2014-05-09 2016-01-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for tracking people in indoor environments using a visible light camera and a low-frame-rate infrared sensor
US9373058B2 (en) 2014-05-29 2016-06-21 International Business Machines Corporation Scene understanding using a neurosynaptic system
US10115054B2 (en) 2014-07-02 2018-10-30 International Business Machines Corporation Classifying features using a neurosynaptic system
US10445885B1 (en) 2015-10-01 2019-10-15 Intellivision Technologies Corp Methods and systems for tracking objects in videos and images using a cost matrix
CN105488505B (zh) * 2015-12-31 2019-01-11 中国科学院电子学研究所 一种对具有旋转角度的目标进行识别的方法
US10534964B2 (en) * 2017-01-30 2020-01-14 Blackberry Limited Persistent feature descriptors for video
CN107203766B (zh) * 2017-04-19 2019-08-20 杭州泽火科技有限公司 精确定位图像中字符的方法、装置及系统
CN107181976B (zh) * 2017-04-28 2021-01-29 华为技术有限公司 一种弹幕显示方法及电子设备
CN111742191B (zh) * 2018-02-26 2022-01-14 三菱电机株式会社 三维位置推定装置及三维位置推定方法
CN109086734B (zh) * 2018-08-16 2021-04-02 新智数字科技有限公司 一种对人眼图像中瞳孔图像进行定位的方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263107A (en) * 1991-01-31 1993-11-16 Sharp Kabushiki Kaisha Receptive field neural network with shift-invariant pattern recognition
IT1257073B (it) * 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
US5640492A (en) * 1994-06-30 1997-06-17 Lucent Technologies Inc. Soft margin classifier
US6112195A (en) * 1997-03-27 2000-08-29 Lucent Technologies Inc. Eliminating invariances by preprocessing for kernel-based methods
US6134344A (en) * 1997-06-26 2000-10-17 Lucent Technologies Inc. Method and apparatus for improving the efficiency of support vector machines
US7174040B2 (en) * 2002-07-19 2007-02-06 Intel Corporation Fast method for training and evaluating support vector machines with a large set of linear features
JP4144377B2 (ja) * 2003-02-28 2008-09-03 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
US6803933B1 (en) * 2003-06-16 2004-10-12 Hewlett-Packard Development Company, L.P. Systems and methods for dot gain determination and dot gain based printing
US7751643B2 (en) * 2004-08-12 2010-07-06 Semiconductor Insights Inc. Method and apparatus for removing uneven brightness in an image
US7620204B2 (en) * 2006-02-09 2009-11-17 Mitsubishi Electric Research Laboratories, Inc. Method for tracking objects in videos using covariance matrices
US7899253B2 (en) * 2006-09-08 2011-03-01 Mitsubishi Electric Research Laboratories, Inc. Detecting moving objects in video by classifying on riemannian manifolds

Also Published As

Publication number Publication date
CN101398934A (zh) 2009-04-01
JP2009087326A (ja) 2009-04-23
CN101398934B (zh) 2012-06-06
US20090087023A1 (en) 2009-04-02
US7961952B2 (en) 2011-06-14

Similar Documents

Publication Publication Date Title
JP4974975B2 (ja) 画像において物体の位置を特定する方法及びシステム
US8401239B2 (en) Object tracking with regressing particles
CN111780763B (zh) 一种基于视觉地图的视觉定位方法、装置
CN109118564B (zh) 一种基于融合体素的三维点云标记方法和装置
CN111750864B (zh) 一种基于视觉地图的重定位方法和装置
JP4849464B2 (ja) フレームシーケンス中のオブジェクトを追跡するコンピュータ化された方法
US20160379375A1 (en) Camera Tracking Method and Apparatus
US11941831B2 (en) Depth estimation
CN104820996B (zh) 一种基于视频的自适应分块的目标跟踪方法
CN114424250A (zh) 结构建模
GB2520613A (en) Target region fill utilizing transformations
CN109074666B (zh) 用于估计无纹理对象的姿势的系统和方法
Hanek et al. The contracting curve density algorithm: Fitting parametric curve models to images using local self-adapting separation criteria
JP2008544404A (ja) 薄板スプライン変換を用いて非剛体運動をモデル化するための直接的方法
Du et al. New iterative closest point algorithm for isotropic scaling registration of point sets with noise
GB2566443A (en) Cross-source point cloud registration
CN115797419A (zh) 点云配准方法、设备及介质
CN117726747A (zh) 补全弱纹理场景的三维重建方法、装置、存储介质和设备
KR101766823B1 (ko) 불규칙한 조도 변화에 강건한 영상 기반 주행거리 측정 시스템 및 방법
CN115143958A (zh) 一种基于gpu加速的多传感器融合的slam方法
CN113034675A (zh) 一种场景模型构建方法、智能终端及计算机可读存储介质
Singh et al. Kernel based approach for accurate surface estimation
Kaess et al. MCMC-based multiview reconstruction of piecewise smooth subdivision curves with a variable number of control points
WO2020021238A1 (en) Method of model alignment through localisation usage
CN113570667B (zh) 视觉惯导补偿方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120410

R150 Certificate of patent or registration of utility model

Ref document number: 4974975

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees