JP2022502809A

JP2022502809A - ユーザ指定初期化点に基づくオブジェクトトラッキング

Info

Publication number: JP2022502809A
Application number: JP2021543597A
Authority: JP
Inventors: フーマンラストガー
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-11-15
Filing date: 2019-09-18
Publication date: 2022-01-11
Anticipated expiration: 2039-09-18
Also published as: US20200160540A1; KR20210069686A; JP7100306B2; WO2020099951A1; US10839531B2; KR102572986B1; EP3864622A1; CN112771572B; CN112771572A

Abstract

ユーザ指定初期化点に基づくオブジェクトトラッキングのための電子デバイスが提供される。前記電子デバイスは、第１の画像フレーム及び第２の画像フレームを含む一連の画像フレームを記憶する。前記電子デバイスは、前記第１の画像フレーム内の第１の特徴点の組と前記第２の画像フレーム内の第２の特徴点の組との間の特徴対応点の組を推定する。前記電子デバイスは、前記特徴対応点の組のうちの異なる特徴対応点の群について異なる第１の動き推定モデルを生成し、更に、前記異なる特徴対応点の群から、前記第１の画像フレーム及び前記第２の画像フレーム内の前記関心オブジェクトに対応する複数のインライア特徴対応点を推定する。前記電子デバイスは、最適の動き推定モデルとして第２の動き推定モデルを生成し、前記第２の動き推定モデルに基づいて、前記一連の画像フレーム内の前記関心オブジェクトを追跡する。【選択図】図４Ａ

Description

〔関連出願との相互参照／引用による組み入れ〕
[0001] なし

[0002] 本開示の様々な実施形態は、画像処理技術に関する。具体的には、本開示の様々な実施形態は、ユーザ指定初期化点に基づくオブジェクトトラッキングのための電子デバイスに関する。

[0003] 最近のデジタル画像処理の分野の進歩は、ビデオにおいてオブジェクトを追跡するための様々な方法及び技術の開発をもたらしている。従来のオブジェクトトラッキングシステムでは、一連のフレームを通して追跡することができる関心オブジェクトを選択するために、初期化パラメータとして、ユーザ入力が必要とされる場合がある。例えば、ユーザ入力は、関心オブジェクトを表現するパッチの選択に対応することができる。ユーザ入力を提供するために、ユーザは、関心オブジェクトを囲む全体のバウンディングボックスを生成する必要がある。手動の初期化は、第１のフレームに対して実行することができ、囲まれた画像画素を用いて、ターゲットモデルをトレーニングすることができ、次に、ターゲットモデルを用いて、後続のフレームにおいて最適なオブジェクト位置を探索することができる。しかしながら、動画編集又は監視などの多くの現実の用途では、ユーザは、関心オブジェクトの完全なバウンディングボックスを作成する能力を有さない場合がある。というのは、特に、関心オブジェクトが車両などの高速で移動するオブジェクトである場合、ユーザが関心オブジェクトの周囲に矩形のバウンディングボックスを手動で作成することは、骨が折れて面倒であるすなわち実現不可能である場合があるからである。また、いくつかの場合では、関心オブジェクトの完全なバウンディングボックスが見えない場合があるので、完全なバウンディングボックスの作成は、オブジェクトトラッキングシステムを初期化するための実現可能な解決策ではない場合があり、更に、ユーザに不便をかける場合がある。

[0004] 当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的方法の更なる制限及び不利点が明らかになるであろう。

[0006] 少なくとも１つの図に実質的に示し、及び／又はこれらの図に関連して説明し、特許請求の範囲に更に完全に示す、ユーザ指定初期化点に基づくオブジェクトトラッキングのための電子デバイス及び方法を提供する。

[0007] 全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。

本開示の実施形態による、ユーザ指定初期化点に基づいてオブジェクトを追跡する電子デバイスのための例示的な環境を示すブロック図である。本開示の実施形態による、ユーザ指定初期化点に基づくオブジェクトトラッキングのための例示的な電子デバイスのブロック図である。本開示の実施形態による、図２の電子デバイスの実装のための第１の例示的なシナリオを示す図である。本開示の実施形態による、図２の電子デバイスの実装のための第１の例示的なシナリオを示す図である。本開示の実施形態による、ユーザ指定初期化点に基づくオブジェクトトラッキングのための例示的な方法を示すフローチャートである。本開示の実施形態による、ユーザ指定初期化点に基づくオブジェクトトラッキングのための例示的な方法を示すフローチャートである。

[0013] ユーザ指定初期化点に基づくオブジェクトトラッキングのための開示される電子デバイス及び方法では、以下の説明される実装を見出すことができる。本開示の例示的な態様は、ライブビデオフィード又は予め録画されたビデオの一連の画像フレームにおけるオブジェクトのリアルタイム又は近リアルタイムのトラッキングのためのデバイスとして働くことができる電子デバイスを提供することができる。開示される電子デバイスは、シーン内の関心オブジェクトを選択して追跡するために、ユーザ入力が必要であるときはいつも、ユーザのオーバヘッドを低減して、シーン内の関心オブジェクトに十分に注釈をつけるための解決策を提供する。開示される電子デバイスは、デジタル写真撮影におけるオートフォーカス用途、ライブ又は録画ビデオフィードにおける関心オブジェクトの監視、ビデオ編集用途、ビデオへの特殊効果の追加、及びドローンのナビゲーションなどの異なる用途において利用することができる。

[0014] 開示される電子デバイスは、ランダムサンプリング・コンセンサスフレームワークにおけるロバストな推定を介して、関心オブジェクトのサポート領域を動的に見つけるための解決策を提供する。提案されるロバストな推定は、第１の画像フレーム内の関心オブジェクトの最新の既知の位置（又は第１の画像フレームの場合、ユーザクリックの位置）との近接度に加えて、最良の変換モデルを強調することができるロバストなスコアリングモデルを用いることができる。

[0015] 開示される電子デバイスは、更に、ユーザが手動で、第１の画像フレームにおいて矩形のバウンディングボックスで十分に関心オブジェクトに注釈をつける必要を除去する解決策を提供する。従来、このように手動で注釈をつけることは、ユーザにとって困難な問題があった。というのは、マウス又は他のデバイスで、関心オブジェクトの周囲に矩形のバウンディングボックスを描画することは、難題であったからである。したがって、開示される電子デバイスでは、一連の画像フレームにおいて関心オブジェクトのトラッキングを初期化するためには、関心オブジェクトの領域内の任意の点でのユーザクリックで十分であることができる。所望の関心オブジェクトのオブジェクトトラッキングのために、従来の解決策は、トラッキング動作の初期化の遅延を招く複雑な初期化プロセスを有する。開示される電子デバイスは、更に、この問題及びビデオにおいて移動する関心オブジェクトを追跡し続ける必要がある様々なシステムを解決する。

[0016] 図１は、本開示の実施形態による、ユーザ指定初期化点に基づいてオブジェクトを追跡する電子デバイスのための例示的な環境を示すブロック図である。図１を参照すると、電子デバイス１０２と、サーバ１０４と、通信ネットワーク１０６とを含むネットワーク環境１００が示されている。ある実施形態によれば、電子デバイス１０２は、画像取り込み装置とすることができる。このような場合、電子デバイス１０２は、１又は２以上の画像センサ（例えば画像センサ１０８）を含むことができ、画像センサ１０８は、画像センサ１０８の有効視野（ＦｏＶ）内のシーンの一連の画像フレーム１１０を取り込むように構成することができる。

[0017] 電子デバイス１０２は、ビデオからの連続画像などの一連の画像フレーム１１０において１又は２以上の関心オブジェクトを追跡するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。一例として、第１の画像フレーム１１２Ａ及び第２の画像フレーム１１２Ｂにおいて、それぞれ、関心オブジェクト１１４を追跡することができる。電子デバイス１０２は、第１の画像フレーム内のユーザ指定初期化点（例えば、初期化点１１６）に基づいて、一連の画像フレーム１１０のうちの連続画像フレームにおける関心オブジェクトのためのオブジェクトトラッキング動作を初期化するように構成することができる。ユーザ指定初期化点は、ユーザ入力（例えば、マウスクリックイベント又は画面タッチイベント）に対応することができる。電子デバイス１０２の例としては、以下に限定されるわけではないが、撮像装置（例えばデジタルカメラ及びビデオカメラ）、モーションキャプチャシステム、カメラ付き携帯電話、プロジェクタ、コンピュータワークステーション、メインフレームコンピュータ、ハンドヘルドコンピュータ、パーソナルコンピュータ、ラップトップ、タブレット、ヘッドマウントディスプレイ（ＨＭＤ）装置及び/又はウェアラブル装置（例えば、拡張現実／仮想現実／複合現実（ＡＲ／ＶＲ／ＭＲ）装置）、サーバ、セルラ電話／携帯電話、スマート家電、ビデオプレーヤー、スマート家庭用モニタリング装置、交通カメラ、テレビ（例えば、スマートＴＶ）、及び他のコンピュータ装置を挙げることができる。

[0018] サーバ１０４は、録画又はライブメディアコンテンツに関連する一連の画像フレーム１１０を記憶して、ユーザインターフェイス（ＵＩ）（これを介してユーザ入力を受け取ることができる）をディスプレイ画面上に表示するように構成できる好適な回路、インターフェイス及び／又はコードを含むことができる。ユーザ入力は、ディスプレイ画面上に表示されるＵＩから受け取られる、第１の画像フレーム内の関心オブジェクトに関連する初期化点に対応することができる。サーバ１０４は、通信ネットワーク１０６を介して電子デバイス１０２と通信するように構成することができる。サーバ１０４の例としては、以下に限定されるわけではないが、アプリケーションサーバ、クラウドサーバ、ウェブサーバ、データベースサーバ、ファイルサーバ、ゲームサーバ、メインフレームサーバ、又はこれらの組み合わせを挙げることができる。ある実施形態によれば、電子デバイス１０２によって実行される動作の機能及び一部は、サーバ１０４に実装することができる。代替実施形態では、サーバ１０４によって実行される動作の機能及び一部は、電子デバイス１０２に実装することができる。

[0019] 通信ネットワーク１０６は、媒体を含むことができ、これを介して、電子デバイス１０２は、サーバ１０４及び／又は簡潔のために本開示から省略することができる他のコンピュータ装置と通信することができる。通信ネットワーク１０６の例としては、以下に限定されるわけではないが、インターネット、クラウドネットワーク、ロングタームエボリューション（ＬＴＥ）ネットワーク、無線ローカルエリアネットワーク（ＷＬＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、電話回線（ＰＯＴＳ）、及び／又はメトロポリタンエリアネットワーク（ＭＡＮ）を挙げることができる。ネットワーク環境１００内の様々な装置は、様々な有線及び無線通信プロトコルに従って、通信ネットワーク１０６に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定されるわけではないが、伝送制御プロトコル及びインターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、ファイル転送プロトコル（ＦＴＰ）、ＺｉｇＢｅｅ、ＥＤＧＥ、ＩＥＥＥ８０２．１１、ライトフィデリティ（Ｌｉ−Ｆｉ）、８０２．１６、ＩＥＥＥ８０２．１１ｓ、ＩＥＥＥ８０２．１１ｇ、マルチホップ通信、無線アクセスポイント（ＡＰ）、装置間通信、セルラ通信プロトコル、又はＢｌｕｅｔｏｏｔｈ（ＢＴ）通信プロトコル、又はこれらの組み合わせの少なくとも１つを含むことができる。

[0020] 画像センサ１０８は、画像センサ１０８の有効視野（ＦｏＶ）内のシーンの画像フレーム又は一連の画像フレーム１１０（例えば、ビデオからの一連の画像フレーム）を取り込むように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。画像センサ１０８は、取り込まれた一連の画像フレーム１１０を、電子デバイス１０２への入力として通信するように構成することができる。画像センサ１０８は、相補型金属酸化膜半導体（ＣＭＯＳ）センサなどのアクティブ画素センサとして実装することができる。いくつかの実施形態では、画像センサ１０８は、アクティブ画素センサの代わりに、パッシブ画素センサ（例えば、電荷結合素子（ＣＣＤ）センサ、オーバーサンプリングバイナリ画像センサ、平面フーリエキャプチャアレイ（ＰＦＣＡ）、裏面照射型（ＢＳＩ又はＢＩ）センサ等）の１つとして実装することができる。

[0021] 図示しないが、画像センサ１０８は、画像センサ１０８からの画像データに応じて動作するように構成することができる専用マイクロプロセッサ（又はマイクロコントローラ）、フレームバッファに記憶される画像を処理するためのグラフィック処理ユニット（ＧＰＵ）、深度センサ、及び／又は画像センサ１０８と一体化されるメモリを含むこともできる。

[0022] 動作時に、電子デバイス１０２は、メモリ内のローカルストレージ、画像センサ１０８のストレージ及びサーバ１０４などの１又は２以上のソースからシーン（又は複数のシーン）の一連の画像フレーム１１０を検索するように構成することができる。一連の画像フレーム１１０は、実際の環境に関連するシーン（又は複数のシーン）に対応することができる。代替的に、一連の画像フレーム１１０は、アニメーション環境などの仮想現実環境、拡張現実環境、又は複合現実環境から取ることができる。

[0023] ある実施形態によれば、画像センサ１０８は、画像センサ１０８のＦｏＶから一連の画像フレーム１１０を取り込むように構成することができる。このような場合、一連の画像フレーム１１０は、閉回路テレビジョン（ＣＣＴＶ）映像などのライブビデオフィードに対応することができる。ライブビデオフィード（すなわち、一連の画像フレーム１１０を含むもの）は、画像センサ１０８のＦｏＶ内で動いている場合がある複数のオブジェクト（例えば、人間、動物、車両等）を含むことができる。一例として、一連の画像フレーム１１０は、第１の画像フレーム１１２Ａ及び第２の画像フレーム１１２Ｂを含むことができる。

[0024] 特定の実施形態では、電子デバイス１０２は、取り込まれた一連の画像フレーム１１０のライブプレビューを、スマートテレビ、スマートフォン、発光ダイオード（ＬＥＤ画面）、又は液晶表示（ＬＣＤ）画面などの表示装置に表示するように構成することができる。表示装置は、更に、入力／出力（Ｉ／Ｏ）インターフェイスとして働くことができる追加の構成要素、例えば、ジェスチャセンサ、表示装置のディスプレイ画面のためのタッチパネル、音声入力のためのスマートスピーカを含むことができる。表示装置は、電子デバイス１０２と一体化することができるか又は電子デバイス１０２と周辺で結合することができる。

[0025] 電子デバイス１０２は、ユーザから第１の入力を受け取るように構成することができる。第１の入力は、表示されたライブプレビューの１又は２以上の画像フレーム内にあることができる関心オブジェクトに関連する情報を含むことができる。第１の入力は、一連の画像フレーム１１０において関心オブジェクト（例えば、関心オブジェクト１１４）の位置、占める領域又は移動を追跡するように、ユーザの関心を示すことができる。第１の入力は、電子デバイス１０２に内蔵される又は周辺で結合されることができる入力装置を介して受け取ることができる。いくつかのシナリオでは、入力装置は、光学式マウスとすることができ、第１の入力は、一連の画像フレーム１１０の第１の画像フレーム上の特定の点上へのクリック入力とすることができる。特定の点は、一連の画像フレーム１１０内の関心オブジェクトに対応することができるユーザ指定初期化点（例えば、初期化点１１６）とすることができる。他のシナリオでは、入力装置は、表示装置上のタッチ画面又はユーザからのジェスチャ入力を第１の画像フレーム上の特定の点に変換することができるジェスチャセンサとすることができる。このようなシナリオでは、タッチ画面は、第１の入力として、タッチ画面の特定の部分からのタッチ入力を受け取るように構成することができる。タッチ画面の特定の部分は、第１の画像フレーム内の関心オブジェクトに対応することができ、例えば、第１の画像フレーム１１２Ａ内の関心オブジェクト１１４は、表示装置に表示される第１の画像フレーム１１２Ａの一部に対応することができる。

[0026] 電子デバイス１０２は、第１の入力に基づいて、第１の画像フレーム内の初期化点を選択するように構成することができる。初期化点は、ユーザ指定初期化点とすることができる。電子デバイス１０２は、選択された初期化点を基準点として識別して、一連の画像フレーム１１０内の関心オブジェクト（例えば、道を歩いているところが示される人）を追跡するように構成することができる。初期化点（例えば、初期化点１１６）は、第１の画像フレーム（例えば第１の画像フレーム１１２Ａ）の第１の領域内に位置することができ、第１の領域は、第１の画像フレーム内の関心オブジェクトを表現することができる。代替的に、電子デバイス１０２は、一連の画像フレーム１１０の再生時（例えば、ライブプレビュー）に、ユーザ指定初期化点を受け取るように構成することができる。ユーザ指定初期化点は、第１の画像フレーム内の関心オブジェクトの位置に対応することができる。

[0027] 電子デバイス１０２は、第１の画像フレームから第１の特徴点の組（例えば、第１の特徴点の組１１８）を、第２の画像フレームから第２の特徴点の組（例えば、第２の特徴点の組１２０）を抽出するように構成することができる。第１の特徴点の組及び第２の特徴点の組は、第１の入力の受け取りに応答して抽出することができる。例示的な実施形態では、第１の特徴点の組及び第２の特徴点の組は、ＢＲＩＳＫ技術に基づいて、第１の画像フレーム及び第２の画像フレームからそれぞれ抽出されるＢｉｎａｒｙＲｏｂｕｓｔＩｎｖａｒｉａｎｔＳｃａｌａｂｌｅＫｅｙ−ｐｏｉｎｔｓ（ＢＲＩＳＫ）とすることができる。いくつかの実施形態では、第１の特徴点の組及び第２の特徴点の組は、特徴抽出技術に基づいて抽出することができる。異なる特徴抽出技術の例としては、以下に限定されるわけではないが、Ｈａｒｒｉｓコーナー、スケール不変特徴変換（ＳＩＦＴ）、ＯｒｉｅｎｔｅｄＦａｓｔａｎｄＲｏｔａｔｅｄ−Ｂｒｉｅｆ（ＯＲＢ）、及びＳｐｅｅｄｅｄ−ＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ（ＳＵＲＦ）を挙げることができる。特徴抽出技術の詳細は、当業者に周知である場合があるので、説明は、簡潔のために本開示から省略した。

[0028] 第１の特徴点の組及び第２の特徴点の組が、それぞれ、選択された初期化点から第１の閾値距離及び第２の閾値距離内に存在するように、第１の特徴点の組及び第２の特徴点を抽出することができる。第１の画像フレームに対する第１の閾値距離は、第２の画像フレームに対する第２の閾値距離と異なることができる。一例として、第１の特徴点の組及び第２の特徴点の組は、それぞれ、セット（Ｐ₁）及びセット（Ｐ₂）として表すことができる。セット（Ｐ₁）及びセット（Ｐ₂）は、以下のような関係式（１）及び（２）によって与えられることができる。

ここで、

は、一連の画像フレーム１１０のｍ番目のフレーム内のｎ番目の特徴点を表し、例えば、ｍ＝０は、第１の画像フレームを表し、ｍ＝１は、第２の画像フレームを表し、
｜｜．｜｜は、ｘ⁰又はｘ¹とｓとの差分から生じるベクトルのノルムを表し、
ｓは、第１の画像フレーム内の初期化点１１６の位置を表し、
ｄ₁は、第１の閾値距離であり、例えば第１の画像フレームの幅の「２０パーセント」であり、
ｄ₂は、ｄ₁のサイズの２倍（オブジェクトの速度によっては、それ以上）である第２の閾値距離（例えば、第１の画像フレームの幅の「４０パーセント」）である。

[0029] ユーザ指定初期化点は、関心オブジェクト上の点しか表示することができないので、連続画像フレームにおける関心オブジェクトの大きさの知識なしで、連続画像フレームにおいて関心オブジェクト全体を追跡するには不十分である場合がある。また、多くの場合、第１の特徴点の組又は第２の特徴点の組における全ての特徴点が、第１の画像フレーム及び第２の画像フレームにおいてそれぞれ関心オブジェクトに属するとは限らない場合がある。しかしながら、第１の画像フレーム内の特徴点のいくつかは、第２の画像フレーム内の対応する特徴点にマップすることができる。一例として、第１の特徴点の組１１８及び第２の特徴点の組１２０からの特徴点のいくつかのマッピングを点線で示す。

[0030] ＢＲＩＳＫ又はＳＵＲＦなどの異なる特徴比較技術を用いて、第１の特徴点の組と第２の特徴点の組との比較に基づいて、第１の画像フレームの特徴点を、第２の画像フレームの特徴点にマップすることができる。一例として、第１の画像フレーム内の特徴点は、第１の画像フレームから第２の画像フレーム内に再び出現する第２の画像フレーム内の当該特徴点にのみマップすることができる。このような特徴点のためのマッピングの存在は、一連の画像フレーム１１０の連続画像フレームにおける、関心オブジェクトの動き、変形、回転、又はスケールなどの異なる効果に対するロバスト性及び不変性を示すことができる。

[0031] 電子デバイス１０２は、第１の特徴点の組のうちの１又は２以上の特徴点と第２の特徴点の組のうちの１又は２以上の特徴点との間の特徴対応点の組を推定するように構成することができる。特徴対応点の組は、第１の特徴点の組のうちの１又は２以上の特徴点と第２の特徴点の組のうちの１又は２以上の特徴点との間の空間関係、位置ベースの関係、パターンベースの関係、形状ベースの関係、又は特徴ベースの関係などの関係を表現することができる。特徴対応点の組は、ＳＩＦＴベースの特徴点抽出又はＳＵＲＦベースの特徴点抽出などの１又は２以上のコンピュータビジョン技術に基づいて推定することができる。一例として、特徴対応点の組（（Ｌ₁）で示す）は、以下のような式（３）で与えられる、第１の特徴点の組（Ｐ₁）及び第２の特徴点の組（Ｐ₂）からの順序付けられた特徴点のペアの組とすることができる。

[0032] 例えば、第１の画像フレーム１１２Ａの第１の特徴点１１８Ａは、第２の画像フレーム１１２Ｂの第１の特徴点１２０Ａとの対応を持つことができる。同様に、第１の画像フレーム１１２Ａの第２の特徴点１１８Ｂは、第２の画像フレーム１１２Ｂの第２の特徴点１２０Ｂとの対応を持つことができる。

[0033] 一連の画像フレーム１１０のうちの第２の画像フレーム又は連続画像フレーム内の関心オブジェクトの位置を識別するために、電子デバイス１０２は、ランダムサンプリング・コンセンサス（ＲＡＮＳＡＣ）動作を反復的に実行するように構成することができる。ＲＡＮＳＡＣ動作は、推定された特徴対応点の組（例えばＬ₁）に属する順序付けられた特徴点のペアに対して実行することができる。ＲＡＮＳＡＣ動作では、電子デバイス１０２は、更に、異なる特徴対応点の群から確率的に特徴対応点の群を選択するように構成することができる。選択された特徴対応点の群は、推定された特徴対応点の組（例えばＬ₁）からの（ノイズが多い場合がある）データ点のランダムサンプルに対応することができる。特徴対応点の群の選択は、第１の特徴点の組及び第２の特徴点の組からの特徴点の群の選択に対応することができる。異なる特徴対応点の群から選択された各特徴対応点の群は、推定された特徴対応点の組から確率的に選択される２又は３以上の特徴対応点を含むことができる。

[0034] ＲＡＮＳＡＣ動作における各反復では、第１の画像フレーム及び第２の画像フレームにそれぞれ属する特徴点の群の間に、類似度変換を適用することができる。特徴点の群は、確率的に選択された特徴対応点の群に対応することができる。電子デバイス１０２は、異なる特徴対応点の群について異なる第１の動き推定モデルを生成するように構成することができる。異なる第１の動き推定モデルは、異なる特徴点の群に対する類似度変換動作の適用に基づいて生成することができる。一例として、線形回帰、多変量回帰、又はロジスティック回帰などの異なるモデリング及び予測技術を用いて、その後、異なる特徴点の群に対して類似度変換をフィッティングさせることによって、異なる第１の動き推定モデルを生成することができる。特定のシナリオでは、異なる特徴対応点の群の各特徴対応点の群について生成される異なる第１の類似度行列によって、異なる第１の動き推定モデルを表現することができる。

[0035] ＲＡＮＳＡＣ動作では、電子デバイス１０２は、更に、異なる特徴対応点の群から、第１の画像フレーム及び第２の画像フレーム内の関心オブジェクトに対応する複数のインライア特徴対応点を推定するように構成することができる。複数のインライア特徴対応点は、異なる第１の動き推定モデルに基づいて推定することができる。推定された複数のインライア特徴対応点は、第１の画像フレーム及び第２の画像フレーム内の関心オブジェクトの位置の変化を表現することができる特徴点の組を含むことができる。複数のインライア特徴対応点の推定の詳細については、例えば、図２、図３Ａ及び図３Ｂで詳細に説明している。

[0036] 電子デバイス１０２は、更に、推定された複数のインライア特徴対応点に基づいて、異なる第１の動き推定モデルの最適化された動き推定モデルとすることができる第２の動き推定モデルを生成するように構成することができる。線形回帰、多変量回帰、又はロジスティック回帰などの異なるモデリング及び予測技術を用いることによって、推定された複数のインライア特徴対応点に対応する特徴点の組に対して類似度変換をフィッティングさせることによって、第２の動き推定モデルを生成することができる。最適化された動き推定モデル（すなわち、第２の動き推定モデル）は、（単複の）連続画像フレームにおいて全てのインライア点の動きの正確な記述をそれに基づいて予測することができるモデルに対応することができる。電子デバイス１０２は、更に、第２の動き推定モデルに基づいて、一連のフレーム内の関心オブジェクトを追跡するように構成することができる。より具体的には、第１の画像フレーム内の異なるインライア特徴点の位置を用いて、第１の画像フレーム内のインライア特徴点の位置に第２の動き推定モデルを適用することによって、第２の画像フレーム内のインライア特徴点の位置を識別することができる。電子デバイス１０２の動作については、例えば、図２、図３Ａ及び図３Ｂで更に詳細に説明している。

[0037] 図２は、本開示の実施形態による、ユーザ指定初期化点に基づくオブジェクトトラッキングのための例示的な電子デバイスのブロック図である。図２の説明は、図１の要素に関連して行う。図２を参照すると、制御回路２０２を含む電子デバイス１０２のブロック図２００が示されている。電子デバイス１０２は、更に、メモリ２０４と、入力／出力（Ｉ／Ｏ）装置２０６と、ネットワークインターフェイス２０８とを含む。

[0038] 制御回路２０２は、メモリ２０４に記憶される命令セットを実行するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。制御回路２０２は、一連の画像フレーム、例えば、ビデオの連続画像フレームにおいて１又は２以上の関心オブジェクトを追跡するように構成することができる。制御回路２０２は、第１の画像フレーム内のユーザ指定初期化点に基づいて、一連の画像フレームのうちの連続画像フレームにおける関心オブジェクトのためのオブジェクトトラッキング動作を初期化するように構成することができるトラッカー回路とすることができる。ユーザ指定初期化点は、ユーザ入力（例えば、マウスクリックイベント又は画面タッチイベント）に対応することができる。制御回路２０２は、更に、一連の画像フレームのうちの連続画像フレームにおける１又は２以上の関心オブジェクトのトラッキングを管理するように構成することができる。制御回路２０２の実装の例は、Ｘ８６ベースのプロセッサ、グラフィックス処理ユニット（ＧＰＵ）、縮小命令セットコンピュータ（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）プロセッサ、複合命令セットコンピュータ（ＣＩＳＣ）プロセッサ、コプロセッサ、マイクロコントローラ、中央処理装置（ＣＰＵ）、及び／又はその他の制御回路とすることができる。

[0039] メモリ２０４は、制御回路２０２が実行可能な命令セットを記憶するように構成できる好適なロジック、回路、及び／又はインターフェイスを含むことができる。メモリ２０４は、更に、画像センサ１０８によって取り込まれる一連の画像フレームを記憶するように構成することができる。メモリ２０４の実装の例としては、以下に限定されるわけではないが、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、及び／又はセキュアデジタル（ＳＤ）カードを挙げることができる。

[0040] Ｉ／Ｏ装置２０６は、ユーザから複数の入力を受け取るように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。Ｉ／Ｏ装置２０６は、電子デバイス１０２及びサーバ１０４と通信するように構成することができる様々な入出力装置を含むことができる。入力装置の例としては、以下に限定されるわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、マイク、及び／又は画像センサ１０８（図１）を挙げることができる。出力装置の例としては、以下に限定されるわけではないが、ディスプレイ画面（例えば、液晶ディスプレイ（ＬＣＤ）又は発光ダイオード（ＬＥＤ）ディスプレイ）及び／又はスピーカを挙げることができる。

[0041] ネットワークインターフェイス２０８は、通信ネットワーク１０６を介して電子デバイス１０２とサーバ１０４との間の通信を可能にするように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。ネットワークインターフェイス２０８は、通信ネットワーク１０６との有線又は無線通信をサポートするための公知技術を実装することができる。ネットワークインターフェイス２０８としては、以下に限定されるわけではないが、アンテナ、周波数変調（ＦＭ）トランシーバ、無線周波数（ＲＦ）トランシーバ、１又は２以上の増幅器、チューナ、１又は２以上の発振器、デジタルシグナルプロセッサ、コーダ・デコーダ（ＣＯＤＥＣ）チップセット、加入者識別モジュール（ＳＩＭ）カード、及び／又はローカルバッファを挙げることができる。

[0042] ネットワークインターフェイス２０８は、インターネット、イントラネット、及び／又はセルラ電話ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）及び／又はメトロポリタンエリアネットワーク（ＭＡＮ）などの無線ネットワークなどのネットワークと無線通信を介して通信することができる。無線通信は、ロングタームエボリューション（ＬＴＥ）、グローバル・システム・フォー・モバイル・コミュニケーションズ（ＧＳＭ）、拡張データＧＳＭ環境（ＥＤＧＥ）、広帯域符号分割多元接続（Ｗ−ＣＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、時分割多元接続（ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ、無線フィデリティ（Ｗｉ−Ｆｉ）（例えば、ＩＥＥＥ８０２．１１ａ、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ及び／又はＩＥＥＥ８０２．１１ｎ）、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）、Ｗｉ−ＭＡＸ、電子メールプロトコル、インスタントメッセージング、及び／又はショートメッセージサービス（ＳＭＳ）などの複数の通信規格、通信プロトコル及び通信技術のいずれかを使用することができる。

[0043] 動作時に、制御回路２０２は、第１の特徴点の組及び第２の特徴点の組に対してＲＡＮＳＡＣ動作（すなわち、反復ランダムサンプリング）を実行するように構成することができる。ＲＡＮＳＡＣ動作では、制御回路２０２は、異なる特徴対応点の群から確率的に特徴対応点の群を選択するように構成することができる。選択された特徴対応点の群は、推定された特徴対応点の組（例えばＬ₁）からの（ノイズが多い場合がある）データ点のランダムサンプルに対応することができる。換言すれば、制御回路２０２は、更に、第１の特徴点の組及び第２の特徴点の組から特徴点の群を選択するように構成することができる。特徴対応点の群の選択は、第１の特徴点の組及び第２の特徴点の組からの特徴点の群の選択に対応することができる。異なる特徴対応点の群からの各特徴対応点の群は、推定された特徴対応点の組から確率的に選択される２又は３以上の特徴対応点を含むことができる。例えば、式（３）を参照して、以下のような式（４）によって、異なる特徴対応点の群（Ｇ）を与えることができる。

ここで、
Ｇ_iは、ｉが１からＮに変化する場合の異なる特徴対応点の群（Ｇ）からのｉ番目の特徴対応点の群を表し、
（ｘ_j，ｘ_k）及び（ｘ_p，ｘ_q）は、第１の画像フレーム及び第２の画像フレームからの特徴点の群（ｘ_j，ｘ_k，ｘ_p，及びｘ_q）を含む２つの特徴対応点を表す。

[0044] いくつかの実施形態では、各特徴対応点の群について、いくつかの特徴対応点は、関心オブジェクトの動きパラメータに基づいて選択することができる。関心オブジェクトの動きパラメータの例としては、以下に限定されるわけではないが、関心オブジェクトに関連する平行移動パラメータ、回転パラメータ、剪断パラメータ、屈曲パラメータ、変形パラメータ、又は自由度を挙げることができる。

[0045] ＲＡＮＳＡＣ動作では、各反復において、第１の画像フレーム及び第２の画像フレームにそれぞれ属する特徴点の群の間に、類似度変換を適用することができる。制御回路２０２は、異なる特徴対応点の群（すなわち、確率的に選択された異なる特徴対応点の群）について異なる第１の動き推定モデルを生成するように構成することができる。より具体的には、異なる第１の動き推定モデルは、異なる特徴点の群に対する類似度変換動作の適用に基づいて生成することができる。異なる特徴点の群の各々は、異なる特徴対応点の群の１又は２以上に対応することができる。生成された異なる第１の動き推定モデルは、第１の特徴点の組の位置に対する第２の特徴点の組の位置の変化を表現することができる。

[0046] 異なる第１の動き推定モデルは、第１の特徴点の組と第２の特徴点の組との間の類似度の尺度として働くことができる。第１の画像フレーム内の特定の特徴点の類似度の尺度は、第１の画像フレーム内の特定の特徴点の異なる属性、例えば、位置、形状又はサイズが、第２の画像フレーム内の対応する特徴点と異なる程度を示すことができる。

[0047] ある実施形態によれば、異なる第１の動き推定モデルは、異なる特徴対応点の群の確率的に選択された各特徴対応点の群について、制御回路２０２によって生成される異なる類似度行列とすることができる。したがって、異なる類似度行列からの第１の類似度行列は、異なる動き推定モデルのうちの第１の動き推定モデルに対応することができる。また、第１の類似度行列（Ｈで示す）は、確率的に選択された特徴対応点の群に対応する特徴点の群についての類似度の尺度を示すことができる。

[0048] 制御回路２０２は、更に、対応する第１の動き推定モデル（Ｈ）及び対応する特徴対応点の群に対するスコアリングモデルの適用に基づいて、異なる第１の動き推定モデルの各々についてスコアを計算するように構成することができる。換言すれば、スコアは、特徴点の群について生成される各第１の類似度行列に対して計算することができる。一例として、異なる第１の動き推定モデルの各々についてのスコアは、以下のような式（５）によって与えることができるスコアリングモデル（Ｓ（Ｈ，Ｌ₁）で示す）を用いて計算することができる。

ここで、
Ｈは、第１の動き推定モデル、すなわち、生成された第１の類似度行列を表し、
Ｌ₁は、特徴対応点の組を表し、

は、第１の画像フレーム（（ｔ−１）番目のフレーム）からの特徴点の群におけるｉ番目の特徴点を表し、

は、第２の画像フレーム（ｔ番目のフレーム）からの特徴点の群におけるｉ番目の特徴点を表し、
αは、２つの特徴点の間の距離の測定の誤差の強調を示す第１のパラメータであり、
δは、スコアリングモデルの指数成分がどのくらいの速さで減衰するかを制御する第２のパラメータである。

[0049] 計算されたスコアは、対応する第１の動き推定モデルに対する特徴点の群が、ユーザ指定初期化点に近接して、且つ関心オブジェクトの動きの描写においてより低い誤差で出現するべきであることを強調することができる。したがって、異なる第１の動き推定モデルの各第１の動き推定モデルについて計算されたスコアは、ユーザ指定初期化点の近くにあるように特徴点を強調する指数成分（式（４）で与えられる）に依存することができる。異なる第１の動き推定モデルの各第１の動き推定モデルについて計算されたスコアは、更に、選択された特徴点の群に対する線形回帰の適用に基づいて取得される選択された特徴点の群の残差に依存することができる。

[0050] 制御回路２０２は、更に、異なる第１の動き推定モデルの各第１の動き推定モデル（すなわち類似度行列）について位置推定誤差を計算するように構成することができる。各第１の動き推定モデル（すなわち類似度行列）の位置推定誤差は、いくつかの画素の偏差（該偏差だけ、第１の特徴点の組における特徴点の実際の位置が、第２の特徴点の組における同じ特徴点の推定位置からずれる）に対応することができる。一例として、各類似度行列（Ｈ）について、すなわち、各第１の動き推定モデルについて、位置推定誤差

は、以下のような式（６）によって推定することができる。

ここで、
｜｜．｜｜は、ｘ_i ^t-1及びＨｘ_i ^t-1のノルムを表し、

は、第１の画像フレーム（（ｔ−１）で示す）の第１の特徴点の組における特徴点を表し、

は、第２の画像フレーム（ｔで示す）の第２の特徴点の組における特徴点を表し、
Ｈは、類似度行列を表す。

[0051] 各第１の動き推定モデル（すなわち各類似度行列（Ｈ））について、制御回路２０２は、更に、（式（５）からの）位置推定誤差

と画素ベースの閾値（Ｔ）との比較に基づいて、インライア特徴対応点の組（Ｅ（Ｈ））を推定するように構成することができる。したがって、各第１の動き推定モデルについて、インライア特徴対応点の組（Ｅ（Ｈ））は、以下のような式（７）によって推定することができる。

ここで、
Ｔは、画素ベースの閾値を画素の数に換算して表し、

は、位置推定誤差を表す。一例として、式（６）及び式（７）に基づいて、制御回路２０２は、位置推定誤差

が「４」画素の画素ベースの閾値よりも小さいインライア特徴対応点の組を推定するように構成することができる。

[0052] 制御回路２０２は、更に、異なる特徴対応点の群から、第１の画像フレーム及び第２の画像フレーム内の関心オブジェクトに対応する複数のインライア特徴対応点を推定するように構成することができる。制御回路２０２は、更に、異なる第１の動き推定モデルの各々について計算されたスコアの最大を決定するように構成することができる。推定された複数のインライア特徴対応点は、計算されたスコアが最大であるインライア特徴対応点の組における特徴対応点とすることができる。換言すれば、（推定された複数のインライア特徴対応点に関連する）インライア特徴点の組（Ｅ）は、最大の計算されたスコアを有する異なる第１の動き推定モデルからの１又は２以上の第１の動き推定モデルに関連することができる。

[0053] 推定された複数のインライア特徴対応点は、インライア特徴点の組（Ｅ）を含むことができる。インライア特徴点の組（Ｅ）は、第１の画像フレーム及び第２の画像フレーム内の関心オブジェクトの位置の変化を表現することができる。複数のインライア特徴対応点は、異なる第１の動き推定モデルに基づいて推定することができる。複数のインライア特徴対応点の推定は、異なる特徴対応点の群に対応する異なる特徴点の群に対する線形回帰の適用による異なる第１の動き推定モデルのフィッティングに対応することができる。

[0054] 制御回路２０２は、異なる第１の動き推定モデルの最適化された動き推定モデルとすることができる第２の動き推定モデル（Ｈ^t）を生成するように構成することができる。第２の動き推定モデルは、推定された複数のインライア特徴対応点に基づいて生成することができる。第２の動き推定モデルの生成は、推定された複数のインライア特徴対応点に対応するインライア特徴点の組（Ｅ）に基づく最適の類似度行列の生成に対応することができる。（第２の動き推定モデルに対応する）最適の類似度行列は、（単複の）連続画像フレームにおいて全てのインライア点の動きの正確な記述をそれに基づいて予測することができる類似度行列に対応することができる。ある実施形態によれば、第２の動き推定モデル（Ｈ^t）は、推定された複数のインライア特徴対応点におけるインライア特徴点の組（Ｅ）に対する回帰モデル（例えば線形回帰モデル）の適用によって生成することができる。回帰モデルは、第２の動き推定モデル（Ｈ^t）に対する最小二乗（ＬＳ）又は正規化ＬＳの推定を含むことができる。第２の動き推定モデル（Ｈ^t）すなわち再計算された類似度行列は、一連の画像フレームにおける関心オブジェクトの動きを最適に表現することができる。

[0055] 一例として、インライア特徴点の組（Ｅ）について、第２の動き推定モデル（Ｈ^t）すなわち最適の類似度行列は、第１の画像フレーム及び第２の画像フレーム内の特徴点の組（Ｅ）のノルム（例えばＬ²ノルム又はユークリッドノルム）の最小和に基づいて推定することができる。第２の動き推定モデル（Ｈ^t）は、以下のような式（８）によって推定することができる。

ここで、

は、第２の特徴点の組のインライア特徴点を表し、

は、第１の特徴点の組のインライア特徴点を表し、

は、ノルム

の和が最小値を得る引き数を表す。

[0056] ある実施形態によれば、いったん第２の動き推定モデル（Ｈ^t）が推定されると、制御回路２０２は、更に、第２の画像フレームに属する第２の特徴点の組におけるインライア特徴点の位置を更新するように構成することができる。インライア特徴点の位置は、推定された第２の動き推定モデル（Ｈ^t）に基づいて更新することができる。第２の画像フレームのインライア特徴点の更新された位置は、以下のような式（９）によって与えられることができる。

ここで、
Ｓ^t-1は、インライア特徴点の組（Ｅ）におけるインライア特徴点の更新された位置であり、
Ｓ^tは、インライア特徴点の組（Ｅ）におけるインライア特徴点の実際の位置である。

[0057] 制御回路２０２は、更に、第２の動き推定モデル（Ｈ^t）に基づいて、一連の画像フレーム内の関心オブジェクトを追跡するように構成することができる。いくつかの実施形態では、関心オブジェクトの経路は、連続フレームにおいて、全ての連続フレームのペアにおけるインライア特徴点の位置の更新に基づいて追跡することができる。ある実施形態によれば、制御回路２０２は、更に、一連の画像フレームのうちの連続画像フレームにおいて追跡された関心オブジェクト上にオブジェクト情報を重ねるように構成することができる。一例として、重ねられたオブジェクト情報は、オブジェクトラベルと、一連の画像フレーム内の関心オブジェクトが占める領域を囲むバウンディングボックスとを含むことができる。

[0058] 従来のオブジェクトトラッキングの解決策は、ユーザがコンピュータマウスなどのポインティングデバイスを用いて、関心オブジェクトの周囲にバウンディングボックスを描画する必要がある場合がある。従来の解決策とは対照的に、制御回路２０２は、ユーザからユーザ入力として受け取られる単一の初期化点のみに基づくトラッキングのために関心オブジェクトを選択するように構成することができる。

[0059] 他の従来の解決策では、関心オブジェクトを追跡するために、従来のオブジェクトトラッキング装置は、一連の画像フレームのうちの画像フレームから、（関心オブジェクトに対応する）画像領域をセグメント化することができる。従来のオブジェクトトラッキング装置は、顕著性ベースのオブジェクトセグメンテーション又はパターンベースのオブジェクトセグメンテーションなどの様々なオブジェクトセグメンテーション技術を用いて、画像領域をセグメント化することができる。このようなオブジェクトセグメンテーション技術の適用による関心オブジェクトのセグメンテーションは、計算的に資源集約的である場合があり、ライブビデオにおいて関心オブジェクトを追跡するのに適していない場合がある。これに対して、制御回路２０２は、一連の画像フレームのうちの連続画像フレーム内のインライア特徴点及びアウトライア特徴点の識別に基づいて、関心オブジェクトを追跡するように構成することができる。

[0060] 図３Ａ及び図３Ｂは、本開示の実施形態による、図２の電子デバイスの実装のための第１の例示的なシナリオをまとめて示す。図３Ａ及び図３Ｂの説明は、図１及び図２の要素に関連してまとめて行う。制御回路２０２は、画像センサ１０８を用いて一連の画像フレームを取り込み、更に、取り込まれた一連の画像フレームを表示装置上でＩ／Ｏ装置２０６のユーザに表示するように構成することができる。

[0061] ３０２Ａにおいて、表示装置に表示される第１の画像フレーム３０４Ａ上で、第１の入力を受け取ることができる。第１の入力は、制御回路２０２によって、ユーザからＩ／Ｏ装置２０６を介して受け取ることができる。第１の入力は、初期化点３０６に対応することができる。制御回路２０２は、一連の画像フレーム内の関心オブジェクト３０８に対するトラッキング動作の初期化のための基準点として、初期化点３０６を選択するように構成することができる。初期化点３０６は、第１の画像フレーム３０４Ａ内の関心オブジェクト３０８に関連する領域上のインライア点とすることができる。

[0062] ３０２Ｂにおいて、第１の画像フレーム３０４Ａ及び第２の画像フレーム３０４Ｂからそれぞれ第１の特徴点の組３１０及び第２の特徴点の組３１２を抽出することができる。制御回路２０２は、初期化点３０６から第１の画像フレーム３０４Ａ内の第１の特徴点の組３１０までの距離が第１の閾値距離よりも小さい又はそれに等しいように、第１の特徴点の組３１０を抽出するように構成することができる。同様に、制御回路２０２は、初期化点３０６から第２の画像フレーム３０４Ｂ内の第２の特徴点の組３１２までの距離が第２の閾値距離よりも小さい又はそれに等しいように、第２の特徴点の組３１２を抽出するように構成することができる。一例として、第１の閾値距離は、第１の画像フレーム３０４Ａの幅の「２０パーセント」とすることができ、第２の閾値距離は、第１の閾値距離のサイズの２倍（関心オブジェクト３０８の速度によっては、それ以上）、例えば第１の画像フレーム３０４Ａの幅の「４０パーセント」とすることができる。第１の画像フレーム３０４Ａに対する第１の閾値距離は、第２の画像フレーム３０４Ｂに対する第２の閾値距離と異なることができる。

[0063] ３０２Ｃにおいて、第１の特徴点の組３１０と第２の特徴点の組３１２との間の特徴対応点の組（点線３１４で示す）を推定することができる。制御回路２０２は、（図１に記載するように）ＢＲＩＳＫ、ＳＩＦＴ、ＳＵＲＦ、ＯＲＢなどの画像特徴抽出技術の適用に基づいて、特徴対応点の組（すなわち、対応データ点又は順序付けられた特徴点のペア）を推定するように構成することができる。制御回路２０２は、第１の特徴点の組３１０及び第２の特徴点の組３１２に対するＲＡＮＳＡＣ動作に基づいて、第１の画像フレーム３０４Ａ及び第２の画像フレーム３０４Ｂから複数のインライア特徴対応点を推定するように構成することができる。ＲＡＮＳＡＣ動作の詳細については、例えば、図１及び図２で詳細に説明している。制御回路２０２は、第１の画像フレーム３０４Ａ及び第２の画像フレーム３０４Ｂから複数のインライア特徴対応点を識別するように構成することができる。複数のインライア特徴対応点は、第１の画像フレーム３０４Ａ及び第２の画像フレーム３０４Ｂのインライア特徴点の組（点線のボックス３１６内に示す）に対応することができる。制御回路２０２は、更に、インライア特徴点の組にフィットする最適の類似度行列を生成し、更に、最適の類似度行列に基づいて、一連の画像フレーム内の関心オブジェクト３０８を追跡するように構成することができる。いくつかの実施形態では、関心オブジェクト３０８の経路は、連続フレームにおいて、全ての連続フレームのペアにおけるインライア特徴点の位置の更新に基づいて追跡することができる。

[0064] ３０２Ｄにおいて、制御回路２０２は、一連の画像フレームのうちの連続画像フレーム３０４Ｃにおいて追跡された関心オブジェクト３０８上にオブジェクト情報を重ねるように構成することができる。一例として、重ねられたオブジェクト情報は、オブジェクトラベル（例えば「オブジェクトＡ」）と、一連の画像フレーム内の関心オブジェクト３０８が占める領域を囲むバウンディングボックス３１８とを含むことができる。

[0065] 図４Ａ及び図４は、本開示の実施形態による、ユーザ指定初期化点に基づくオブジェクトトラッキングのための例示的な方法を示すフローチャートをまとめて示す。図４Ａ及び図４Ｂを参照すると、フローチャート４００が示されている。フローチャート４００の説明は、図１、図２、図３Ａ及び図３Ｂに関連して行う。方法は、４０２から開始して、４０４に進む。

[0066] ４０４において、画像センサ１０８の有効視野（ＦｏＶ）内のシーンから一連の画像フレームを取り込むことができる。画像センサ１０８は、図１で説明したように、画像センサ１０８の有効視野（ＦｏＶ）内のシーンから一連の画像フレームを取り込むように構成することができる。

[0067] ４０６において、メモリ２０４に、一連の画像フレームを記憶することができる。一例として、一連の画像フレーム１１０は、第１の画像フレーム１１２Ａ及び第２の画像フレーム１１２Ｂを含むことができる。制御回路２０２は、メモリ２０４に一連の画像フレームを記憶するように構成することができる。

[0068] ４０８において、Ｉ／Ｏ装置２０６上に、一連の画像フレームを表示することができる。一連の画像フレーム１１０は、閉回路テレビジョン（ＣＣＴＶ）映像などのライブビデオとすることができる。制御回路２０２は、スマートテレビ、スマートフォン、発光ダイオード（ＬＥＤ画面）又は液晶表示（ＬＣＤ）画面などの表示装置に、一連の画像フレームをライブプレビューとして表示するように構成することができる。

[0069] ４１０において、Ｉ／Ｏ装置２０６を介して、電子デバイス１０２に関連するユーザから第１の入力を受け取ることができる。第１の入力は、第１の画像フレーム１１２Ａ内の初期化点１１６の位置に対応することができる。制御回路２０２は、Ｉ／Ｏ装置２０６を介して、電子デバイス１０２に関連するユーザから第１の入力を受け取るように構成することができる。

[0070] ４１２において、第１の入力に応答して、一連の画像フレームの再生時に、ユーザ指定初期化点を受け取ることができる。ユーザ指定初期化点は、一連の画像フレームのうちの第１の画像フレーム内の関心オブジェクトの位置に対応することができる。制御回路２０２は、第１の入力に応答して、一連の画像フレームの再生時に、ユーザ指定初期化点を受け取るように構成することができる。第１の画像フレーム内のユーザ指定初期化点は、オブジェクトトラッキング動作のための初期化点とすることができる。初期化点は、第１の画像フレームの第１の画像領域内に位置することができ、第１の画像フレーム内の関心オブジェクトを表現する。

[0071] ４１４において、第１の入力に応答して、第１の画像フレーム及び第２の画像フレームから第１の特徴点の組及び第２の特徴点の組を抽出することができる。第１の特徴点の組及び第２の特徴点の組は、ユーザ指定初期化点から第１の閾値距離及び第２の閾値距離内にそれぞれ存在することができる。制御回路２０２は、第１の入力に応答して、第１の画像フレーム及び第２の画像フレームから第１の特徴点の組及び第２の特徴点の組を抽出するように構成することができる。

[0072] ４１６において、第１の特徴点の組と第２の特徴点の組との間の特徴対応点の組を推定することができる。制御回路２０２は、第１の特徴点の組と第２の特徴点の組との間の特徴対応点の組を推定するように構成することができる。

[0073] ４１８において、推定された特徴対応点の組から確率的に特徴対応点の群を選択することができる。制御回路２０２は、図１及び図２で説明したように、推定された特徴対応点の組から確率的に特徴対応点の群を選択するように構成することができる。特徴対応点の群の選択は、第１の特徴点の組及び第２の特徴点の組からの特徴点の群の選択に対応することができる。異なる特徴対応点の群からの各特徴対応点の群は、推定された特徴対応点の組から確率的に選択される２又は３以上の特徴対応点を含むことができる。

[0074] ４２０において、特徴対応点の組のうちの異なる特徴対応点の群について異なる第１の動き推定モデルを生成することができる。制御回路２０２は、特徴対応点の組のうちの異なる特徴対応点の群について異なる第１の動き推定モデルを生成するように構成することができる。異なる第１の動き推定モデルは、第１の特徴点の組と第２の特徴点の組との間の類似度変換に換算して、第１の特徴点の組に対する第２の特徴点の組の位置の変化を表現することができる。各第１の動き推定モデルは、第１の類似度行列によって表現することができる。第１の類似度行列は、異なる特徴対応点の群の各群について生成することができる。

[0075] ４２２において、異なる第１の動き推定モデルに基づいて、複数のインライア特徴対応点を推定することができる。制御回路２０２は、図１及び図２で説明したように、異なる第１の動き推定モデルに基づいて、複数のインライア特徴対応点を推定するように構成することができる。複数のインライア特徴対応点は、第１の画像フレーム及び第２の画像フレーム内の関心オブジェクトに対応することができる。

[0076] ４２４において、推定された複数のインライア特徴対応点に基づいて、第２の動き推定モデルを生成することができる。第２の動き推定モデルは、異なる第１の動き推定モデルの最適化された動き推定モデルとすることができる。制御回路２０２は、推定された複数のインライア特徴対応点に基づいて、第２の動き推定モデルを生成するように構成することができる。

[0077] ４２６において、第２の動き推定モデルに基づいて、一連の画像フレームにおいて関心オブジェクトを追跡することができる。制御回路２０２は、第２の動き推定モデルに基づいて、一連の画像フレーム１１０内の関心オブジェクトを追跡するように構成することができる。制御は終了に進む。

[0078] 本開示の様々な実施形態は、電子デバイス１０２などの機械及び／又はコンピュータが実行できる機械コード及び／又は命令セットを記憶した非一時的コンピュータ可読媒体及び／又は記憶媒体、及び／又は非一時的機械可読媒体及び／又は記憶媒体を提供することができる。電子デバイス１０２において、命令セットは、機械及び／又はコンピュータに、第１の画像フレーム及び第２の画像フレームを含む一連の画像フレームを記憶することを含む動作を実行させることができる。動作は、更に、第１の画像フレーム内の第１の特徴点の組と第２の画像フレーム内の第２の特徴点の組との間の特徴対応点の組を推定することを含むことができる。第１の特徴点の組は、ユーザ指定初期化点から第１の閾値距離内に存在することができる。ユーザ指定初期化点は、一連の画像フレーム内の関心オブジェクトに対応することができる。動作は、更に、推定された特徴対応点の組のうちの異なる特徴対応点の群について異なる第１の動き推定モデルを生成することを含むことができる。異なる第１の動き推定モデルは、第１の特徴点の組と第２の特徴点の組との間の類似度変換に換算して、第１の特徴点の組に対する第２の特徴点の組の位置の変化を表現することができる。動作は、更に、異なる特徴対応点の群から、異なる第１の動き推定モデルに基づいて、第１の画像フレーム及び第２の画像フレーム内の関心オブジェクトに対応する複数のインライア特徴対応点を推定することを含むことができる。動作は、更に、第２の動き推定モデルを生成することを含み、更に、第２の動き推定モデルに基づいて、一連のフレーム内の関心オブジェクトを追跡することができる。第２の動き推定モデルは、推定された複数のインライア特徴対応点に基づいて生成される、異なる第１の動き推定モデルの最適化された動き推定モデルとすることができる。

[0079] ユーザ指定初期化点（例えば初期化点１１６）に基づくオブジェクトトラッキングのための電子デバイス（例えば電子デバイス１０２）において、本開示の様々な実施形態を見出すことができる。電子デバイスは、メモリ（例えばメモリ２０４）と、制御回路（例えば制御回路２０２）とを含むことができる。前記メモリは、第１の画像フレーム（例えば第１の画像フレーム１１２Ａ）及び第２の画像フレーム（例えば第２の画像フレーム１１２Ｂ）を含む一連の画像フレームを記憶するように構成することができる。前記制御回路は、前記第１の画像フレーム内の第１の特徴点の組と前記第２の画像フレーム内の第２の特徴点の組との間の特徴対応点の組を推定するように構成することができる。前記第１の特徴点の組は、ユーザ指定初期化点から第１の閾値距離内に存在することができる。前記ユーザ指定初期化点は、前記一連の画像フレーム内の関心オブジェクトに対応することができる。前記制御回路は、更に、前記推定された特徴対応点の組のうちの異なる特徴対応点の群について異なる第１の動き推定モデルを生成するように構成することができる。前記異なる第１の動き推定モデルは、前記第１の特徴点の組と前記第２の特徴点の組との間の類似度変換に換算して、前記第１の特徴点の組に対する前記第２の特徴点の組の位置の変化を表現することができる。前記制御回路は、更に、前記異なる特徴対応点の群から、前記異なる第１の動き推定モデルに基づいて、前記第１の画像フレーム及び前記第２の画像フレーム内の前記関心オブジェクトに対応する複数のインライア特徴対応点を推定するように構成することができる。前記制御回路は、更に、第２の動き推定モデルを生成し、更に、前記第２の動き推定モデルに基づいて、前記一連の画像フレーム内の前記関心オブジェクトを追跡するように構成することができる。前記第２の動き推定モデルは、前記推定された複数のインライア特徴対応点に基づいて生成される、前記異なる第１の動き推定モデルの最適化された動き推定モデルとすることができる。

[0080] ある実施形態によれば、前記電子デバイスは、更に、画像センサ（例えば画像センサ１０８）を含むことができる。前記画像センサは、前記画像センサの有効視野（ＦｏＶ）内のシーンの一連の画像フレームを取り込むように構成することができる。

[0081] ある実施形態によれば、前記制御回路は、更に、第１の入力に応答して、前記一連の画像フレームの再生時に、前記ユーザ指定初期化点を受け取るように構成することができる。前記ユーザ指定初期化点は、前記一連の画像フレームのうちの前記第１の画像フレーム内の前記関心オブジェクトの位置に対応することができる。前記制御回路は、更に、前記第１の入力に応答して、前記第１の画像フレームから前記第１の特徴点の組を、前記第２の画像フレームから前記第２の特徴点の組を抽出するように構成することができる。前記第２の特徴点の組は、前記ユーザ指定初期化点から第２の閾値距離内に存在することができる。

[0082] ある実施形態によれば、前記制御回路は、更に、前記異なる特徴対応点の群から確率的に特徴対応点の群を選択するように構成することができる。前記特徴対応点の群の選択は、前記第１の特徴点の組及び前記第２の特徴点の組からの特徴点の群の選択に対応する。前記異なる特徴対応点の群における各特徴対応点の群は、前記推定された特徴対応点の組から確率的に選択される２又は３以上の特徴対応点を含むことができる。ある実施形態によれば、各特徴対応点の群におけるいくつかの特徴対応点は、前記関心オブジェクトに関連する動きパラメータに基づいて選択されることができる。前記動きパラメータは、前記関心オブジェクトに関連する平行移動パラメータ、回転パラメータ、剪断パラメータ、屈曲パラメータ、変形パラメータ、又は自由度のうちの少なくとも１つとすることができる。

[0083] ある実施形態によれば、前記制御回路は、更に、前記異なる特徴対応点の群の各特徴対応点の群について第１の類似度行列を生成するように構成することができ、各特徴対応点の群について、前記第１の類似度行列は、前記異なる第１の動き推定モデルのうちの第１の動き推定モデルである。

[0084] ある実施形態によれば、前記制御回路は、更に、対応する第１の動き推定モデル及び対応する特徴対応点の群に対するスコアリングモデルの適用に基づいて、前記異なる第１の動き推定モデルの各々についてスコアを計算するように構成することができる。前記スコアの計算は、前記対応する動き推定モデルに対する特徴点の群と前記ユーザ指定初期化点との近接度に基づいて実行することができる。

[0085] ある実施形態によれば、前記制御回路は、更に、前記異なる第１の動き推定モデルの各第１の動き推定モデルについてインライア特徴対応点の組を推定するように構成することができる。前記インライア特徴対応点の組は、前記異なる第１の動き推定モデルの各第１の動き推定モデルの位置推定誤差と画素ベースの閾値との比較に基づいて推定されることができる。前記異なる第１の動き推定モデルの各第１の動き推定モデルの前記位置推定誤差は、いくつかの画素の偏差（前記偏差だけ、実際の位置が、前記第１の特徴点の組及び前記第２の特徴点の組における各特徴点の推定位置からずれる）に対応することができる。前記制御回路は、更に、前記異なる第１の動き推定モデルの各々についての前記計算されたスコアの最大を決定するように構成することができる。前記推定された複数のインライア特徴対応点は、前記計算されたスコアが前記最大である前記インライア特徴対応点の組における特徴対応点とすることができる。

[0086] ある実施形態によれば、前記第２の動き推定モデルは、前記推定された複数のインライア特徴対応点におけるインライア特徴点の組に対する回帰モデルの適用によって生成されることができる。

[0087] 本開示は、ハードウェアの形で実現することも、又はハードウェアとソフトウェアの組み合わせの形で実現することもできる。本開示は、少なくとも１つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアの形で実現することができる。

[0088] 本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。特定の実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することができると理解するであろう。また、本開示の範囲から逸脱することなく、本開示の教示に特定の状況又は内容を適合させるための多くの変更を行うこともできる。したがって、本開示は、開示した特定の実施形態に限定されるものではなく、特許請求の範囲に該当する全ての実施形態を含むことが意図されている。

１００ネットワーク環境
１０２電子デバイス
１０４サーバ
１０６通信ネットワーク
１０８画像センサ
１１０一連の画像フレーム
１１２Ａ第１の画像フレーム
１１２Ｂ第２の画像フレーム
１１４関心オブジェクト
１１６初期化点
１１８第１の特徴点の組
１１８Ａ第１の特徴点
１１８Ｂ第２の特徴点
１２０第２の特徴点の組
１２０Ａ第１の特徴点
１２０Ｂ第２の特徴点
２００ブロック図
２０２制御回路
２０４メモリ
２０６入力／出力（Ｉ／Ｏ）装置
２０８ネットワークインターフェイス
３０４Ａ第１の画像フレーム
３０６初期化点
３０８関心オブジェクト
３１０第１の特徴点の組
３１２第２の特徴点の組
３１４特徴対応点の組
３１６インライア特徴点の組
３１８バウンディングボックス
４００フローチャート
４０２開始
４０４画像センサの有効視野（ＦｏＶ）内のシーンから一連の画像フレームを取り込む
４０６メモリに一連の画像フレームを記憶
４０８Ｉ／Ｏ装置上に一連の画像フレームを表示
４１０Ｉ／Ｏ装置を介して、電子デバイスに関連するユーザから第１の入力を受け取る
４１２第１の入力に応答して、一連の画像フレームの再生時にユーザ指定初期化点を受け取る
４１４第１の入力に応答して、第１の画像フレーム及び第２の画像フレームから第１の特徴点の組及び第２の特徴点の組を抽出
４１６第１の特徴点の組と第２の特徴点の組との間の特徴対応点の組を推定
４１８推定された特徴対応点の組から確率的に特徴対応点の群を選択
４２０特徴対応点の組のうちの異なる特徴対応点の群について異なる第１の動き推定モデルを生成
４２２異なる第１の動き推定モデルに基づいて、複数のインライア特徴対応点を推定
４２４推定された複数のインライア特徴対応点に基づいて、第２の動き推定モデルを生成
４２６第２の動き推定モデルに基づいて、一連の画像フレームにおいて関心オブジェクトを追跡

Claims

電子デバイスであって、
第１の画像フレーム及び第２の画像フレームを含む一連の画像フレームを記憶するように構成されるメモリと、
制御回路であって、前記制御回路は、
前記第１の画像フレーム内の第１の特徴点の組と前記第２の画像フレーム内の第２の特徴点の組との間の特徴対応点の組を推定し、
前記第１の特徴点の組は、前記一連の画像フレーム内の関心オブジェクトに対応するユーザ指定初期化点から第１の閾値距離内に存在し、
前記推定された特徴対応点の組のうちの異なる特徴対応点の群について異なる第１の動き推定モデルを生成し、
前記異なる第１の動き推定モデルは、前記第１の特徴点の組と前記第２の特徴点の組との間の類似度変換に換算して、前記第１の特徴点の組に対する前記第２の特徴点の組の位置の変化を表現し、
前記異なる特徴対応点の群から、前記異なる第１の動き推定モデルに基づいて、前記第１の画像フレーム及び前記第２の画像フレーム内の前記関心オブジェクトに対応する複数のインライア特徴対応点を推定し、
前記推定された複数のインライア特徴対応点に基づいて、前記異なる第１の動き推定モデルの最適化された動き推定モデルである第２の動き推定モデルを生成し、
前記第２の動き推定モデルに基づいて、前記一連の画像フレーム内の前記関心オブジェクトを追跡する、
ように構成される、制御回路と、
を含むことを特徴とする電子デバイス。
更に、画像センサの有効視野（ＦｏＶ）内のシーンの一連の画像フレームを取り込むように構成される画像センサを含むことを特徴とする、請求項１に記載の電子デバイス。
前記制御回路は、更に、第１の入力に応答して、前記一連の画像フレームの再生時に、前記ユーザ指定初期化点を受け取るように構成され、前記ユーザ指定初期化点は、前記一連の画像フレームのうちの前記第１の画像フレーム内の前記関心オブジェクトの位置に対応することを特徴とする、請求項１に記載の電子デバイス。
前記制御回路は、更に、前記第１の入力に応答して、前記第１の画像フレームから前記第１の特徴点の組を、前記第２の画像フレームから前記第２の特徴点の組を抽出するように構成されることを特徴とする、請求項３に記載の電子デバイス。
前記第２の特徴点の組は、前記ユーザ指定初期化点から第２の閾値距離内に存在することを特徴とする、請求項１に記載の電子デバイス。
前記制御回路は、更に、前記異なる特徴対応点の群から確率的に特徴対応点の群を選択するように構成され、前記特徴対応点の群の選択は、前記第１の特徴点の組及び前記第２の特徴点の組からの特徴点の群の選択に対応することを特徴とする、請求項１に記載の電子デバイス。
前記異なる特徴対応点の群における各特徴対応点の群は、前記推定された特徴対応点の組から確率的に選択される２又は３以上の特徴対応点を含むことを特徴とする、請求項１に記載の電子デバイス。
各特徴対応点の群におけるいくつかの特徴対応点は、前記関心オブジェクトに関連する動きパラメータに基づいて選択されることを特徴とする、請求項７に記載の電子デバイス。
前記動きパラメータは、前記関心オブジェクトに関連する平行移動パラメータ、回転パラメータ、剪断パラメータ、変形パラメータ、又は自由度のうちの少なくとも１つであることを特徴とする、請求項８に記載の電子デバイス。
前記制御回路は、更に、前記異なる特徴対応点の群の各特徴対応点の群について第１の類似度行列を生成し、各特徴対応点の群について、前記第１の類似度行列は、前記異なる第１の動き推定モデルのうちの第１の動き推定モデルに対応することを特徴とする、請求項１に記載の電子デバイス。
前記制御回路は、更に、対応する第１の動き推定モデル及び対応する特徴対応点の群に対するスコアリングモデルの適用に基づいて、前記異なる第１の動き推定モデルの各々についてスコアを計算するように構成されることを特徴とする、請求項１に記載の電子デバイス。
前記スコアの計算は、前記対応する第１の動き推定モデルに対する特徴点の群と前記ユーザ指定初期化点との近接度に基づくことを特徴とする、請求項１１に記載の電子デバイス。
前記制御回路は、更に、前記異なる第１の動き推定モデルの各第１の動き推定モデルについてインライア特徴対応点の組を推定するように構成され、
前記インライア特徴対応点の組は、前記異なる第１の動き推定モデルの各第１の動き推定モデルの位置推定誤差と画素ベースの閾値との比較に基づいて推定される、
ことを特徴とする、請求項１１に記載の電子デバイス。
前記異なる第１の動き推定モデルの各第１の動き推定モデルの前記位置推定誤差は、いくつかの画素の偏差（前記偏差だけ、実際の位置が、前記第１の特徴点の組及び前記第２の特徴点の組における各特徴点の推定位置からずれる）に対応することを特徴とする、請求項１３に記載の電子デバイス。
前記制御回路は、更に、前記異なる第１の動き推定モデルの各々についての前記計算されたスコアの最大を決定するように構成され、
前記推定された複数のインライア特徴対応点は、前記計算されたスコアが前記最大である前記インライア特徴対応点の組における特徴対応点である、
ことを特徴とする、請求項１３に記載の電子デバイス。
前記第２の動き推定モデルは、前記推定された複数のインライア特徴対応点におけるインライア特徴点の組に対する回帰モデルの適用によって生成されることを特徴とする、請求項１に記載の電子デバイス。
方法であって、
電子デバイスにおいて、
一連の画像フレームのうちの第１の画像フレーム内の第１の特徴点の組と前記一連の画像フレームのうちの第２の画像フレーム内の第２の特徴点の組との間の特徴対応点の組を推定するステップであって、
前記第１の特徴点の組は、前記一連の画像フレーム内の関心オブジェクトに対応するユーザ指定初期化点から第１の閾値距離内に存在する、ステップと、
前記推定された特徴対応点の組のうちの異なる特徴対応点の群について異なる第１の動き推定モデルを生成するステップであって、
前記異なる第１の動き推定モデルは、前記第１の特徴点の組と前記第２の特徴点の組との間の類似度変換に換算して、前記第１の特徴点の組に対する前記第２の特徴点の組の位置の変化を表現する、ステップと、
前記異なる特徴対応点の群から、前記異なる第１の動き推定モデルに基づいて、前記第１の画像フレーム及び前記第２の画像フレーム内の前記関心オブジェクトに対応する複数のインライア特徴対応点を推定するステップと、
前記推定された複数のインライア特徴対応点に基づいて、前記異なる第１の動き推定モデルの最適化された動き推定モデルである第２の動き推定モデルを生成するステップと、
前記第２の動き推定モデルに基づいて、前記一連の画像フレーム内の前記関心オブジェクトを追跡するステップと、
を含むことを特徴とする方法。
前記方法は、更に、第１の入力に応答して、前記一連の画像フレームの再生時に、前記ユーザ指定初期化点を受け取るステップを含み、前記ユーザ指定初期化点は、前記一連の画像フレームのうちの前記第１の画像フレーム内の前記関心オブジェクトの位置に対応することを特徴とする、請求項１７に記載の方法。
更に、前記第１の入力に応答して、前記第１の画像フレームから前記第１の特徴点の組を、前記第２の画像フレームから前記第２の特徴点の組を抽出するステップを含むことを特徴とする、請求項１８に記載の方法。
前記第２の特徴点の組は、前記ユーザ指定初期化点から第２の閾値距離内に存在することを特徴とする、請求項１７に記載の方法。