JP2015506516A - オブジェクトの追跡及び処理 - Google Patents

オブジェクトの追跡及び処理 Download PDF

Info

Publication number
JP2015506516A
JP2015506516A JP2014551242A JP2014551242A JP2015506516A JP 2015506516 A JP2015506516 A JP 2015506516A JP 2014551242 A JP2014551242 A JP 2014551242A JP 2014551242 A JP2014551242 A JP 2014551242A JP 2015506516 A JP2015506516 A JP 2015506516A
Authority
JP
Japan
Prior art keywords
text
frames
tracking
frame
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014551242A
Other languages
English (en)
Other versions
JP6030149B2 (ja
JP2015506516A5 (ja
Inventor
コー、ヒュン−イル
ユ、キスン
ビク、ユン−キ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2015506516A publication Critical patent/JP2015506516A/ja
Publication of JP2015506516A5 publication Critical patent/JP2015506516A5/ja
Application granted granted Critical
Publication of JP6030149B2 publication Critical patent/JP6030149B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Character Discrimination (AREA)

Abstract

方法は、追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡することを含む。その方法は、オブジェクト検出器又はオブジェクト認識器のマルチフレームのレーテンシーにより選択された複数のフレームのうちのフレームの部分組のオブジェクト処理を行うことも含む。その方法は、結合された出力を生成するために追跡結果をオブジェクト処理の結果と結合することを含む。

Description

関連出願の相互参照
本出願は、ここにおける引用によってその内容全体がここにおいて組み入れられている米国特許出願第13/567,412号(出願日:2012年8月6日)、及び米国仮特許出願第61/584,062号(出願日:2012年1月6日)に基づくものであり及び米国特許出願第13/567,412号(出願日:2012年8月6日)、及び米国仮特許出願第61/584,062号(出願日:2012年1月6日)の利益を主張するものである。
本開示は、概して、画像処理に関するものである。
技術の進歩の結果、コンピューティングデバイスがますます小型化しかつますます強力になっている。例えば、現在では、小型、軽量で、ユーザによって携帯しやすい様々なポータブルパーソナルコンピューティングデバイスが存在しており、無線コンピューティングデバイス、例えば、ポータブルな無線電話、パーソナルデジタルアシスタント(PDA)、及びページングデバイス、を含む。より具体的には、ポータブルな無線電話、例えば、携帯電話及びインターネットプロトコル(IP)電話、は、無線ネットワークを通じて音声パケット及びデータパケットを通信することができる。さらに、数多くの該無線電話は、そこに組み入れられているその他のタイプのデバイスを含む。例えば、無線電話は、デジタルスチルカメラと、デジタルビデオカメラと、デジタルレコーダと、オーディオファイルプレーヤーとも含むことができる。
コンピューティングデバイス(例えば、無線電話)のカメラによってキャプチャされている画像内のテキストを識別するためにテキストの検出及び認識を該コンピューティングデバイスによって行うことができる。キャプチャされたテキストがカメラに対して動いていることがあり(例えば、動いている車両上のテキスト)、テキストの正確な識別を提供しつつ動いているテキストを追跡することが必要な場合がある。
オブジェクト(object)の処理及び追跡技法は、映像データからオブジェクト(例えば、テキスト)を正確に識別するために及び識別されたオブジェクトの位置を追跡するためにオブジェクト追跡及びオブジェクト処理(例えば、オブジェクト検出、オブジェクト認識、又はそれらの組み合わせ)の両方を行うことができる。追跡及び処理は、時間的に重なり合う又は少なくとも部分的に重なり合うことができ(例えば、追跡又は追跡法の一部分を処理又は処理法の一部分と同時並行して行うことができる)、テキストを処理した結果(例えば、テキストの検出及び/又は認識の結果)を追跡結果と結合してテキストの状態情報を生成することができる。
単一画像におけるテキストの局所化(localization)及び認識を利用する従来のテキスト情報抽出技法と異なり、提案される技法は、ユーザの経験を向上させるために及びオブジェクト追跡及び検出システムの性能を向上させる(例えば、より高いテキスト認識応答率)ために映像ストリーム内でのテキストの局所化及び認識を利用することができる。単一の画像内ではなく、映像ストリームにおいてテキストの局所化及び認識を行うことによって、提案される技法は、リアルタイムの経験をユーザに提供することができ及び偽アラーム率(すなわち、映像ストリーム内での不正確なテキスト検出)を低減させることができる。さらに、提案される技法は、向上したテキスト検出精度を達成するために映像ストリームのフレーム間の時間情報を利用する。
特定の実施形態において、方法は、追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡することを含む。その方法は、オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された複数のフレームのうちのフレームの部分組のオブジェクト処理を行うことも含む。その方法は、結合された出力を生成するために追跡結果をオブジェクト処理の出力と結合することを含む。
他の特定の実施形態において、装置は、追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡するように構成された追跡器(tracker)を含む。その装置は、オブジェクトプロセッサのマルチフレームレーテンシーにより選択された複数のフレームのうちのフレームの部分組内のオブジェクトを処理するように構成されたオブジェクトプロセッサも含む。その装置は、結合された出力を生成するために追跡器の追跡結果をオブジェクトプロセッサの出力と結合するように構成された時間フィルタ(temporal filter)を含む。
開示される実施形態のうちの少なくとも1つによって提供される特定の利点は、オブジェクト検出及び/又は認識技法とともに高いフレームレート及び低いレーテンシーを有する追跡技法を利用することによってオブジェクト追跡及びオブジェクト検出を高い精度で行うことができることを含む。
次の節、すなわち、図面の簡単な説明、発明を実施するための形態、及び請求項を含む本出願全体を検討後に、本開示のその他の態様、利点、及び特徴が明らかになるであろう。
オブジェクトの追跡及び処理を行うためのシステムの特定の実施形態のブロック図である。 オブジェクトの追跡及び検出を行うためのシステムの特定の実施形態のブロック図である。 オブジェクトの追跡及び認識を行うためのシステムの他の特定の実施形態のブロック図である。 図1のシステムによって行うことができるオブジェクトの追跡及び処理の例を示した一般図である。 図1のシステムによって行うことができるオブジェクトの追跡及び処理の他の例を示した一般図である。 図1のシステムによって行うことができるオブジェクトの追跡及び処理の他の例を示した一般図である。 オブジェクトの追跡及び処理を行う方法の流れ図である。 オブジェクトの追跡及び処理を行う他の方法の流れ図である。 オブジェクトの追跡及び処理を行うために動作可能であるプロセッサを含む無線デバイスの特定の実施形態のブロック図である。
テキストの局所化は、複数の映像フレームを含む映像ストリーム内でのオブジェクト(すなわち、テキスト)の追跡及び認識中に行うことができる。テキストの局所化は、入力された映像ストリーム内でテキスト領域を探し出すために行うことができる。映像ストリーム内において、t番目のフレームIを考慮した場合、映像ストリーム内のテキストボックスの組は次のように表すことができる。
Figure 2015506516
ここで、Nは、テキストボックスの数であり、x は、i番目のボックスである。各テキストボックスは、平行四辺形としてモデル化することができる。さらに、各テキストボックスは、次のように表すことができる。
Figure 2015506516
ここで、p、q、r、及びsは、平行四辺形の4つの辺である。さらに、B(x )は、x に対応する映像フレーム内の領域を表すことができる。Xは、観測の結果推定することができるテキストボックスの組の隠れた状態(すなわち、未知の状態又は位置)を表すことができる。従来の単一画像に基づくアルゴリズムでは、単一の画像からの検出結果のみがテキストボックスXの位置を得るために考慮される。単一画像に基づくアルゴリズムでは、検出結果は以下のように表すことができる。
Figure 2015506516
式3の単一画像に基づくアルゴリズムは、テキストボックスの時間情報、等の追加データを利用しない。しかしながら、映像ストリームが与えられた場合、追加情報、例えば、時間情報、を利用することができる。例えば、時間情報は、テキストボックスの一連の観測Z0:tを使用することによってテキストボックスの最適な位置を推定するために利用することができ、ここで、一連の観測Z0:tは、次のように表すことができる。
Figure 2015506516
従って、テキストボックスX(又はテキストボックスの組)の位置は、一連の観測(すなわち、Z、Zt−1、Zt−2、...、Z)から推定することができる。上記の推定は、ベイジアンフィルタリングの枠組で反復的に公式化することができる。
Figure 2015506516
ここで、式5aは、予測ステップであり、式5bは、フィルタリング(又は更新)ステップである。従って、Xは、式5a及び式5bに基づいて推定することができる。Xを推定した(すなわち、テキストボックスの位置を決定した)後は、各テキストボックス内の単語も推定することができる(すなわち、テキストボックス内のテキストを決定することができる)。単語推定ステップは、以下のフィルタリングアルゴリズムを用いて行うことができる。
特定の実施形態において、時間フィルタリングアルゴリズムは、データ関連付け技法とともに複数のカルマン追跡器(Kalman tracker)を利用することを含むことができる。テキストボックスは、一般的には、人間(例えば、スポーツの試合における選手、歩行者)、及び動物(例えば、蟻)のように対話性の高いオブジェクトではないため、従来のマルチオブジェクト検出及び追跡方法は、テキストボックスの位置を推定するのには適さない場合があることが注目されるべきである。従って、映像ストリーム内のテキストボックスに関するマルチオブジェクトの検出及び追跡を行うために時間フィルタリングアルゴリズムを使用することができる。
テキストボックスのダイナミック性は、以下のように表すことができる。
Figure 2015506516
ここで、A t−1(・)は、映像ストリームの隣接フレーム間でのテキストボックスの動き(すなわち、局所的な動き)をモデル化したものであり、n は、共分散Q=σ Iを有するゼロ平均多変量正規分布から導き出される。A t−1(・)を推定する際には、動き履歴(例えば、自動回帰モデル)ではなく画像の特徴を使用することができ、その理由は、テキストボックスの動きは画像の特徴を用いて信頼できる形で推定できるためである。
画像内の対象ポイントを検出するために角検出法を実装することができる。例えば、t−1番目のフレームIt−1における領域B(x t−1)の角を抽出するためにFAST(Features from Accelerated Segment Test)角検出法を使用することができる。従って、領域B(x t−1)において抽出されたFAST角の対応するポイントは、Lucas−Kanadeアルゴリズムを用いてt番目のフレームIにおいて決定することができる。次に、対応するポイントからのテキストボックスに関する変換を、RANSAC(Random Sample Consensus)アルゴリズム及びDLT(Direct Linear Transformation)アルゴリズムを含むロバストな(robust)動き推定技法を用いて推定することができる。特に、テキストボックスの動きは、類似性変換(similarity transform)を用いて近似値を求めることができると推定することができる。B(x t−1)に関する変換は次のように表される。
Figure 2015506516
A∈R2×2及びb∈Rである場合、A t−1(x t−1)は以下のように表すことができる。
Figure 2015506516
ここで、x t−1=[p t−1,q t−1,r t−1,s t−1]。測定式は以下のように表すことができる。
Figure 2015506516
ここで、z jiは、i番目の追跡器に対応する検出結果であり、m は、共分散R=σ Iを有するゼロ平均多変量正規分布から導き出すことができる。
式9において示されるように、観測値z ji(∈Z)をi番目の追跡器に割り当てることはデータ関連付け問題を生じさせることがある。このデータ関連付け問題に対処するために、追跡器と検出結果との間でスカラー値を生み出すためにマッチング関数が開発されている。
Figure 2015506516
式10は、t番目のフレームにおけるオブジェクト(すなわち、テキストボックス)の予測位置であるため、マッチング関数は、i番目の追跡器とj番目の観測されたテキストボックスとの間で、以下のように表される正規化されたオーバーラッピングエリアとして定義することができる。
Figure 2015506516
データ関連付けにおいて、M(i,j)≧0.8を示す対を考慮した場合、観測値は欲ばりな(greedy)方法で追跡器に割り当てられる。
データ関連付けが行われた後は、独立したKalmanフィルタを利用することができる。検出結果が既存の追跡器に対応しないときには、新しいKalmanフィルタを開始することができ、(例えば、インライア(inlier)の数が少ないことに起因して)追跡器の動きが決定されないときには追跡器(すなわち、追跡器の出力)は無視される。しかしながら、動き推定が成功であり(すなわち、A t−1が入手可能であり)、新しい観測値が追跡器に割り当てられるときには、Kalmanフィルタを用いて状態(すなわち、状態情報)を更新することができる。低レベルの画像の特徴に基づく従来の方法とは異なり、検出結果が追跡器に割り当てられないときがある(すなわち、動き推定が不成功であるか又は入手可能でないとき)ことが注目されるべきである。観測値がない場合は、σ=∞に設定し、これは、測定更新がスキップされることを意味する。
上記のデータ関連付け法及びKalmanフィルタリングに基づき、観測値の組に対応して追跡器の組を得ることができる。テキストボックス内の単語(すなわち、実際のテキスト)を決定するために入手可能な観測値に関して光学文字認識(OCR)を行うことができる。各Kalmanフィルタに関するnの最近のOCR結果の中で、最も頻繁な単語が対応する追跡器内の単語であるとみなされる。タイ(tie)である場合は、結果は割り当てられない。
精度を向上させるために(すなわち、偽アラーム数を減らすために)、特定のテキストボックスが最近のnフレームにおいて最低m回検出されたときだけその特定のテキストボックスが示される(又は表示される)。テキストボックスの検出確率をpと仮定すると、この技法は、テキストボックス検出精度を向上させることができる。向上された精度は以下のように表すことができる。
Figure 2015506516
例えば、n=6、m=3、及びp=0.7である場合は、f(p,n,m)は、0.9295になる。従って、時間情報を利用することによって(又は偽アラームを減らすことによって)精度を向上させることができる。さらに、テキストボックスが映像ストリームのフレームにおいて有意な形でオーバーラップするのを防止するために厳しい制約を課すことができる。
特定の実施形態において、より良いユーザ経験、例えば、より高いフレームレート、を提供するために及び計算電力を節約するためにマルチスレッディングを実装することができる。単一のスレッドを使用する従来のテキスト検出技法及び従来のテキスト認識技法は、検出及び認識段階の低いフレームレートに起因して時間がかかることがあり、リアルタイムの経験をユーザに提供することができず、及び、高いフレームレートを生み出すことができない。開示される実施形態は、OCRスレッドと追跡スレッドとを含むマルチスレッド処理を利用する。OCRスレッドは、シーンテキストを処理し及び時間フィルタリングを行うことができる。OCRスレッドと実質上同時並行して、追跡スレッドは、高いフレームレートで(例えば、レビューを生成することによって)時間フィルタリングの結果を更新することができる。追跡段階は、検出及び認識段階(すなわち、OCRスレッド)よりも高いフレームレート(低いレーテンシー)を有することが注目されるべきである。従って、OCRスレッドと追跡スレッドとを含むマルチスレッド実装を用いることによって、単一のスレッドを利用するシステムと比較してより高いフレームレートが達成される。
時間フィルタリングプロセス中において、得られたテキストボックスの座標は、時間フィルタリングプロセスのマルチフレームレーテンシーに起因して現在のフレームのそれでないことがある(例えば、座標は、前フレーム内のテキストボックスの座標系であることができる)。従って、式10において表されるように、t番目のフレーム内の推定されるテキストボックスを現在のフレームIt+k(k≧1)の座標系に変換するのが有利である。開示される実施形態は、図1乃至7を参照してさらに詳細に説明される。
図1を参照し、オブジェクトの追跡及び処理を行うシステムの特定の実施形態が開示され、概して100の指定数字が付される。システム100は、画像処理デバイス104に結合された画像キャプチャデバイス102を含む。画像処理デバイス104は、表示装置106及びメモリ108に結合される。画像処理デバイス104は、表示のためにオブジェクトの更新された状態情報を生成するために、着信した画像データ又は映像データ内でオブジェクト151(例えば、テキストボックス152)を検出し及び追跡し及びオブジェクトのオブジェクト処理を行うように構成される。オブジェクト処理は、オブジェクト検出、オブジェクト認識、又はそれらの組み合わせを含むことができる。
特定の実施形態において、画像キャプチャデバイス102は、テキスト153を含むテキストボックス152を有するシーンの入力画像150を表現する着光を画像センサ112に向けるように構成されたレンズ110を含むことができる。画像センサ112は、検出された着光に基づいて映像データ又は画像データ160を生成するように構成することができる。画像キャプチャデバイス102は、カメラ、映像録画装置、無線デバイス、ポータブル電子デバイス、又はそれらの組み合わせを含むことができる。テキストボックス152は例示目的であり、シーン内には現れないことがある点が注目されるべきである。テキストボックス152は、入力画像150内の対応するオブジェクト151を例示するために使用することができる。図1は、1つのオブジェクト151を例示しているが、画像キャプチャデバイス102によってキャプチャされた入力画像150は、複数のオブジェクトを含むことができる。
特定の実施形態において、画像処理デバイス104は、追跡結果を生成するために着信映像/画像データ160においてオブジェクト151(例えば、テキスト153を含むテキストボックス152)を検出し及び映像データ160の複数のフレームの各々においてオブジェクトを追跡するように構成することができ及び複数のフレームのうちの単一のフレームのオブジェクト処理(例えば、オブジェクト検出及び/又は認識)を行うこともできる。画像処理デバイス104は、結合された出力を生成するために及び結合された出力に基づいてオブジェクトの状態情報を更新するために追跡結果をオブジェクト処理の出力と結合するようにさらに構成することができる。
例示として、追跡器114は、映像データ160の複数のフレームのうちのすべてのフレームに関する追跡結果を生成し及び追跡器114の単一フレームのレーテンシーに起因してフレームごとに(例えば、フレーム1結果、フレーム2結果、フレーム3結果、フレーム4結果、...、フレームn結果)状態情報154を更新することができる。従って、状態情報154は、追跡器114から追跡結果を入手可能なときに(すなわち、すべてのフレームにおいて)更新することができる。対照的に、オブジェクト検出器/認識器124は、オブジェクト検出器/認識器124のマルチフレームレーテンシーに起因して、追跡器114よりも低い頻度でフレーム結果を生成し、従って、追跡器114よりも低い頻度で状態情報を更新することができる。例えば、オブジェクト検出器/認識器124は、幾つかのフレームに関してはフレーム結果を生成することができない(すなわち、幾つかのフレームを“スキップする”)。従って、状態情報154は、フレームの部分組(すなわち、全フレームよりも少ない)に関するオブジェクト検出器/認識器124の出力に基づいて更新することができる。例えば、追跡器114は、フレーム1からフレームnまでのすべてのフレームに関してフレーム結果を生成することができる一方で、図1に示されるように、オブジェクト検出器/認識器124は、フレーム1、5、13、...、及びnのみに関して出力を生成することができる。
更新された状態情報154の出力170は、表示装置106に提供することができる。表示装置106は、更新された状態情報154に基づいて出力画像170を表示することができる。例えば、状態情報154及び後続する更新(すなわち、更新された状態情報)は、オブジェクト151に関する情報、例えば、フレームからフレームまでのオブジェクトの位置、フレームからフレームまでのオブジェクト内に含まれるテキスト、オブジェクトに関連する増強コンテンツ、又はそれらのあらゆる組み合わせ、を含むことができる。
例示として、画像処理デバイス104は、オブジェクト追跡器及び認識器101を含むことができる。オブジェクト追跡器及び認識器101は、追跡器114と、オブジェクト検出器/認識器124と、時間フィルタ134と、を含むことができる。追跡器114は、追跡結果を生成するために映像データ160の複数のフレームの各々においてオブジェクト151を追跡するように構成することができる。特定の実施形態において、追跡器114は、単一フレームのレーテンシーを有することができる。例えば、追跡器114は、複数のフレームの各々に関するフレーム結果(例えば、フレーム1結果、フレーム2結果、...フレームn結果)を生成するために映像データ160の複数のフレームの各々においてオブジェクト151を追跡することができる。オブジェクト検出器/認識器124は、複数のフレームのうちのフレームの部分組においてオブジェクト151を処理する(例えば、オブジェクト154を検出する、オブジェクト154を認識する、又はそれらのあらゆる組み合わせ)ように構成することができる。例えば、オブジェクト検出器/認識器124は、複数のフレームのうちのフレームの部分組においてオブジェクト151を検出及び認識するように構成されたオブジェクト検出器及びオブジェクト認識器であることができる。
特定の実施形態において、オブジェクト検出器/認識器124は、マルチフレームのレーテンシーを有することができる。例えば、オブジェクト検出器/認識器124は、複数のフレームのうちの1つ以上のフレームに関するフレーム結果を生成することができない(すなわち、オブジェクト検出器/認識器124は、追跡器112よりも低い頻度でフレーム結果を生成する)。オブジェクト検出器/認識器124は、図1に示されるように、フレーム1、5、13、...、及びnに関する結果を生成することができるが、フレーム2、3、4、6、7、8、9、10、11、及び12に関する結果は生成できない。
従って、状態情報154を更新時には、1つ以上のフレーム(例えば、フレーム2、3、4、6、7、8、9、10、11、及び12)に関してはオブジェクト処理結果(例えば、オブジェクト検出結果、オブジェクト認識結果、又はそれらのあらゆる組み合わせ)を入手可能でないことがある。例えば、フレーム13処理結果(すなわち、現在のフレーム)に基づいて状態情報154を更新時には、時間フィルタ134は、フレーム5(オブジェクト検出器/認識器124の前フレーム)とフレーム13との間での動きを補償する。特定の実施形態では、時間フィルタ134は、履歴的な動き情報(すなわち、動き履歴)に基づいて現在のフレームと前フレームとの間での動きを補償することができる。例示として、時間フィルタ134は、オブジェクト検出器/認識器124のフレーム5結果とフレーム13結果との間での動き情報を決定するためにフレーム1結果とフレーム5結果(すなわち、履歴的動き情報)との間の動き情報を利用することができる。従って、オブジェクト検出器/認識器124結果が入手可能であるときに、時間フィルタ134は、新しいオブジェクト検出器/認識器124結果、オブジェクト検出器/認識器124の以前の結果、動き履歴、又はそれらのあらゆる組み合わせに基づいて状態情報154を更新することができる。さらに、(すなわち、複数のフレームのすべてのフレームに関して)追跡器114結果が入手可能であるときには、時間フィルタ134は、追跡器114結果に基づいて状態情報154を更新することができる。オブジェクト検出器/認識器124及び追跡器114は、異なる頻度で結果を生成し、従って、時間フィルタ134は、オブジェクト検出器/認識器124及び追跡器114によって非同期的にアクセスすることができる。
時間フィルタ134は、オブジェクト検出器/認識器124からの出力(すなわち、複数のフレームの部分組に対応する出力)よりも高い頻度で追跡器114から追跡結果(すなわち、複数のフレームのうちの各フレームに対応する追跡結果)を受信することができ及び結合された出力144を生成するために及び結合された出力144に基づいてオブジェクト151の状態情報154を更新するために追跡器114の追跡結果をオブジェクト検出器/認識器124の出力と結合するように構成することができる。従って、状態情報154は、結合された出力144と比較して追加情報を含むことができる。追加情報は、動き履歴、再構築された三次元ポイント、ビューポイント、等を含むことができる。特定の実施形態において、オブジェクト151は、テキストボックス(例えば、テキスト153を含むテキストボックス152)及びテキストボックス152の位置に対応することができる。
特定の実施形態において、時間フィルタ134は、図6に関して説明されるようにKalmanフィルタと、最尤推定器と、を含むことができる。Kalmanフィルタは、テキストボックス152の座標を含むテキストボックス152の位置を決定するように構成することができる。例えば、テキストボックス152の位置は、テキスト153を包含するバウンディンボリューム(bounding volume)の二次元(2D)位置(例えば、x及びy座標)を含むことができる。テキスト153を包含するバウンディングボリュームの三次元(3D)位置(例えば、x、y、及びz座標)は、2D位置から推測又は導出することができる。特定の実施形態において、位置処理は、Kalmanフィルタ、パーティクル(粒子)フィルタ、又はExtended Kalmanフィルタのうちの少なくとも1つを用いて行うことができる。特定の実施形態において、最尤推定器又は最大事後推定器のうちの少なくとも1つを用いて識別情報を入手することができる。
最尤推定器は、光学文字認識(OCR)を介して提案されるテキストデータを生成するように及び提案されるテキストデータを検証するために辞書にアクセスするように構成することができる。例えば、最尤推定器は、メモリ108に格納された1つ以上の辞書、例えば、代表的辞書140、にアクセスすることができる。提案されるテキストデータは、複数のテキスト候補144と、複数のテキスト候補144の各々と関連付けられた信頼度データと、を含むことができる。最尤推定器は、辞書140のエントリに対応するテキスト候補と関連付けられた信頼度値によりそのテキスト候補を選択するように構成することができる。例示として、テキスト153は、信頼度値95%の‘車’として、信頼度90%の“猫”として、信頼度値50%の‘運ぶ’として識別することができる。テキスト候補‘車’が最高の信頼度値を有するため、‘車’を最尤推定器によって選択することができる。
特定の実施形態において、オブジェクト検出器/認識器124によるオブジェクト処理(例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ)は、画像処理デバイス104が組み入れられるプロセッサのオブジェクト処理段階中に行うことができる。プロセッサのオブジェクト処理段階は、オブジェクト検出段階、オブジェクト認識段階、又はそれらのあらゆる組み合わせを含むことができる。同様に、追跡器114による追跡は、プロセッサの追跡段階中に行うことができる。プロセッサは、結合段階をさらに含むことができ、追跡段階は、時間フィルタ134及び更新された状態情報154の結合された出力の生成を含む。追跡段階、オブジェクト処理段階(例えば、検出段階、認識段階、又はそれらのあらゆる組み合わせ)、及び結合段階は、図4を参照してさらに詳細に説明される。
特定の実施形態では、表示装置106は、出力画像170を生成するために更新された状態情報154を使用するように構成することができる。例えば、表示装置106は、画像プレビュー画面又はその他の視覚表示装置を含むことができる。表示装置106上に表示された出力画像170は、識別されたテキスト157を含むことができ及びオブジェクト状態に基づく画像コンテンツ158も含むことができる。例えば、画像コンテンツ158は、識別されたテキスト157に基づいて出力画像170内に挿入された増強された特徴を含むことができる。増強された特徴は、テキスト157が埋め込まれた関連するコンテンツを含むことができる。例えば、テキスト157が‘車’である場合は、出力画像170は、テキスト‘車’と、車の画像、‘車’の定義、車の型式、製造、及び/又は車種、その他の情報、例えば、履歴データ、又はそれらのあらゆる組み合わせを含むことができる。従って、出力画像170は、現実の世界の場面から取り出されたテキスト157を含むことができ及びテキスト157に基づいた関連するコンテンツも含むことができる。このようにして出力画像170を生成することによって、画像処理デバイス104は、役に立つ及びおもしろい情報をユーザに提供することができる。
特定の実施形態において、(例えば、追跡器114、オブジェクト検出器/認識器124、時間フィルタ134、又はそれらのあらゆる組み合わせを含む)画像処理デバイス104の少なくとも一部分は、専用回路を介して実装することができる。その他の実施形態では、画像処理デバイス104の少なくとも一部分は、画像処理デバイス104内においてコンピュータによって実行可能なコードを実行するハードウェアプロセッサ(又は複数のプロセッサ)によって実装することができる。例示として、メモリ108は、画像処理デバイス104内の又は画像処理デバイス104に結合されたプロセッサ又は複数のプロセッサによって実行可能であるプログラム命令142を格納する非一時的なコンピュータによって読み取り可能な媒体を含むことができる。プログラム命令142は、映像データ、例えば、映像データ160、の複数のフレームの各々においてオブジェクトを追跡するためのコードと、追跡結果を生成するためのコードと、を含むことができる。プログラム命令142は、複数のフレームのうちのフレームの部分組内のオブジェクトのオブジェクト処理(例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ)を行うためのコードを含むことができ、フレームの部分組は、検出器/認識器124のマルチフレームレーテンシーにより選択される。プログラム命令142は、結合された出力を生成するために追跡結果をオブジェクト処理(例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ)の出力と結合するためのコードと、単一のフレームのオブジェクト処理の完了に応答して、結合された出力に基づいてオブジェクトの状態情報を更新するためのコードと、を含むこともできる。
画像キャプチャデバイスにおいてオブジェクト検出器/認識器のみを利用するシステムは、オブジェクト検出器/認識器のマルチフレームレーテンシーに起因して表示された出力においてちらつきが生じることがある。例えば、第1のフレーム内の第1の位置(例えば、x1、y1)におけるオブジェクトは、オブジェクト検出器/認識器が第1のフレームの検出及び認識を完了するまでに第4のフレーム内の第4の位置(例えば、x4、y4)に移動してしまっており、出力画像の(例えば、失われたフレームに起因して)ジャンプ又はちらつきを引き起こす可能性がある。さらに、追跡器のみを使用するシステムは、画像キャプチャデバイスによってキャプチャされたオブジェクトを正確に識別することができない。図1のシステムは、オブジェクト検出器/認識器(例えば、検出及び認識エンジン)のみ又は追跡器のみを利用する画像処理デバイスと比較してちらつきを低減又は除去し及びレーテンシーを短縮するためにオブジェクト検出器/認識器をオブジェクト追跡器とともに利用することによって図1の画像キャプチャデバイスによってキャプチャされるオブジェクトのより正確な情報および識別をユーザに提供することができる。
図2を参照し、オブジェクトの追跡及び検出を行うためのシステムの特定の実施形態が開示され、概して200の指定数字が付される。システム200は、画像キャプチャデバイス102と、表示装置106と、画像処理デバイス204に結合された図1のメモリ108と、を含む。画像キャプチャデバイス102、表示装置106、及びメモリ108は、図1に関して説明されるように動作するように構成することができる。画像処理デバイス204は、着信画像データ又は映像データ内の入力画像150のオブジェクト151を検出するように及びオブジェクト151を追跡してオブジェクト検出を行い、表示のためにオブジェクト151の更新された状態情報154を生成するように構成することができる。
画像処理デバイス204は、オブジェクト追跡器と検出器201とを含む。オブジェクト追跡器及び検出器201は、追跡器114と、オブジェクト検出器224と、時間フィルタ134と、を含む。追跡器114は、追跡結果を生成するために映像データ160の複数のフレームの各々においてオブジェクト151を追跡するように構成することができる。特定の実施形態では、追跡器114は、単一フレームのレーテンシーを有する。例えば、追跡器114は、複数のフレームの各々に関するフレーム結果(例えば、フレーム1結果、フレーム2結果、...フレームn結果)を生成するために映像データ160の複数のフレームの各々においてオブジェクト151を追跡することができる。オブジェクト検出器124は、複数のフレームのうちのフレームの部分組においてオブジェクト151を検出するように構成することができる。特定の実施形態において、オブジェクト検出器224は、オブジェクト認識を行うようには構成されない。
画像処理デバイス204は、オブジェクト認識を行わずにオブジェクト追跡及びオブジェクト検出を行うことができるため、画像処理デバイスは、オブジェクト追跡、オブジェクト検出、及びオブジェクト認識を行う図1の画像処理デバイス104よりも少ない計算電力を消費する。
図3を参照し、オブジェクトの追跡及び認識を行うためのシステムの他の特定の実施形態が開示され、概して300の指定数字が付される。システム300は、画像キャプチャデバイス102と、表示装置106と、画像処理デバイス304に結合された図1のメモリ108と、を含む。画像キャプチャデバイス102、表示装置106、及びメモリ108は、図1に関して説明されるように動作するように構成することができる。画像処理デバイス304は、着信画像データ又は映像データ内の入力画像150のオブジェクト151を認識するように及びオブジェクト151を追跡してオブジェクト認識を行い、表示のためにオブジェクト151の更新された状態情報154を生成するように構成することができる。
画像処理デバイス304は、オブジェクト追跡器及び認識器301を含む。オブジェクト追跡器及び認識器301は、追跡器114と、オブジェクト認識324と、時間フィルタ134と、を含む。追跡器114は、追跡結果を生成するために映像データ160の複数のフレームの各々においてオブジェクト151を追跡するように構成することができる。特定の実施形態では、追跡器114は、単一フレームのレーテンシーを有する。例えば、追跡器114は、複数のフレームの各々に関するフレーム結果(例えば、フレーム1結果、フレーム2結果、...フレームn結果)を生成するために映像データ160の複数のフレームの各々においてオブジェクト151を追跡することができる。オブジェクト認識器324は、複数のフレームのうちのフレームの部分組においてオブジェクト151を認識するように構成することができる。特定の実施形態において、オブジェクト認識324は、オブジェクト検出を行うようには構成されない。
画像処理デバイス304は、オブジェクト検出を行わずにオブジェクト追跡及びオブジェクト認識を行うことができるため、画像処理デバイス304は、オブジェクト追跡、オブジェクト検出、及びオブジェクト認識を行う図1の画像処理デバイス104よりも少ない計算電力を消費する。
図4を参照し、図1乃至3のシステム100乃至300によって行うことができるオブジェクトの追跡及び処理の例を示した一般図が開示され、概して400の指定数字が付される。図4は、画像処理デバイスの様々な画像処理段階を描く。それらの段階は、オブジェクト処理段階402(例えば、検出段階、認識段階、又はそれらの組み合わせ)と、追跡段階404と、結合段階406と、を含むことができる。
特定の実施形態において、オブジェクトプロセッサ(例えば、図1のオブジェクト検出器/認識器124、図2のオブジェクト検出器224、又は図3のオブジェクト認識器324)によるオブジェクト処理(例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ)は、オブジェクト処理段階402中に行うことができ、追跡器114によるオブジェクト追跡は、追跡段階404中に行うことができ、及び、追跡段階404の結果とオブジェクト処理段階402の出力の結合は、結合段階406中に行うことができる。結合段階406は、オブジェクトの状態情報を更新することも含むことができ及び時間フィルタ134によって行うことができる。
特定の実施形態において、追跡器114は単一のフレームのレーテンシー有することができ、他方オブジェクトプロセッサ(例えば、検出器/認識器124)はマルチフレームのレーテンシーを有することができるため、追跡段階404の結果は、オブジェクト処理段階402の出力よりも頻繁に生成することができる。結合段階406は、時間フィルタ134によって結合された出力を生成し及び状態情報154を更新することができる。追跡段階404及びオブジェクト処理段階402は、時間の点で少なくとも部分的に重なり合う(例えば、同時並行又は同時)場合があることが注目されるべきである。例えば、追跡段階404又は追跡段階404の一部分は、オブジェクト処理段階402又はオブジェクト処理段階402の一部分と同時並行して行うことができる。
動作中に、画像処理デバイス104は、画像キャプチャデバイス102によってキャプチャされた映像データ160を映像データ160の複数のフレームとして受信することができる。画像処理デバイス104は、映像データ160の複数の映像フレームをオブジェクト追跡器及び認識器101に提供することができる。オブジェクト追跡器及び認識器101は、図1の追跡器114と、オブジェクト検出器/認識器124と、時間フィルタ134と、を含むことができる。例示として、追跡段階404及びオブジェクト処理段階402は、複数のフレームのうちの第1のフレーム151aを受信した時点で開始することができ、複数のフレーム151a乃至151cは、画像キャプチャデバイス104によってキャプチャされたテキスト153(すなわち、“車”)を含む。
追跡段階404中に、追跡器114は、複数の映像フレーム151a乃至151cの各々に関して、追跡結果414a乃至414cをそれぞれ生成するために複数の映像フレーム151a乃至151cの各々においてテキスト153を追跡することができる。テキスト153は、画像キャプチャデバイス102に対するシーン内のテキスト153(例えば、動いている車両上のテキスト)又はテキストボックス152の動きに基づいて又はテキスト153に対する又はテキストボックス152に対する画像キャプチャデバイス102の動きに基づいて追跡することができる。追跡段階404は、第1のフレーム151aに対応する第1の追跡結果414a、第2のフレーム151bに対応する第2の追跡結果414b、及び第3のフレーム151cに対応する第3の追跡結果414cを生成することができる。第1の追跡結果414a、第2の追跡結果414b、及び第3の追跡結果414cの各々は、示されるように、第1の追跡出力170a、第2の追跡出力170b、及び第3の出力170cとして提供することができる。
特定の実施形態において、追跡器114は、単一のフレームのレーテンシーを有することができる。従って、追跡器114は、映像データ160の複数の映像フレーム151a乃至151cの各々に関するフレーム結果(例えば、追跡結果)414a乃至414cを生成するために映像データ160の複数の映像フレーム151a乃至151cの各々においてテキスト153の動き(例えば、位置)を追跡するように構成することができる。例えば、追跡器114は、テキスト151が第1の映像フレーム151aでは縦に、第2の映像フレーム151bでは斜めに、第3の映像フレーム151cでは横に配置されている状態でそれを追跡することができる。例示として、追跡器114は、第1の追跡結果414aを生成するために第1の映像フレーム151aの第1の追跡114aを、第2の追跡結果414bを生成するために第2の映像フレーム151bの第2の追跡114bを、及び第3の追跡結果414cを生成するために第3の映像フレーム151cの第3の追跡114cを行うことができる。
図4は、追跡段階404中に3つの映像フレームに関して行われた追跡を例示するが、追跡段階404は、追跡段階404の特定の発生中には3つよりも少ない又は3つよりも多い映像フレームを追跡することを含むことができることが注目されるべきである。さらに、複数の映像フレームの各映像フレームにおいて映像データ160内の複数のオブジェクト(例えば、複数のテキストボックス)を追跡できることが注目されるべきである。
オブジェクト処理段階402中に、オブジェクト検出器/認識器124は、第1の映像フレーム151aにおいてテキスト153を検出(例えば、識別)するのを開始することができる。例えば、検出器/認識器124は、オブジェクト処理段階402中に第1の映像フレーム151aにおいてテキスト153を検出及び認識するように構成することができる。特定の実施形態において、検出器/認識器124は、マルチフレームのレーテンシーを有することができる。従って、オブジェクト処理段階402は、時間の点で複数のフレームのうちの複数のフレームにまたがることができる。例えば、オブジェクト処理段階402は、追跡段階404よりも低い頻度でフレーム結果(すなわち、テキスト153の検出及び認識)を生成することができる。オブジェクト処理段階402中に、検出器/認識器124は、テキスト153が入った第1のフレーム151aを受信するように、第1のフレーム151aにおいてテキスト153を検出するように、及び光学文字認識(OCR)を介して提案されるテキストデータを生成するように構成することができる。従って、オブジェクト処理段階402は、第1のフレーム151a内のテキスト153の周囲の領域を検出すること、第1のフレーム151a内のテキスト153を認識すること(すなわち、識別すること)、又はそれらのあらゆる組み合わせを含むことができる。オブジェクト検出器/認識器124は、提案されるテキストデータを検証するために辞書にアクセスするようにさらに構成することができる。例えば、オブジェクト検出器/認識器124は、図1のメモリ108に格納された1つ以上の辞書、例えば、辞書140、にアクセスすることができる。提案されるテキストデータは、複数のテキスト候補と、複数のテキスト候補と関連付けられた信頼度データと、を含むことができる。検出器/認識器124は、関連付けられた信頼度値により辞書140のエントリ(例えば、エントリ144)に対応するテキスト候補を選択することができる。オブジェクト処理段階402(例えば、検出段階、認識段階、又はそれらのあらゆる組み合わせ)の終了(例えば、完了)時点で、オブジェクト検出器/認識器124の出力を生成することができる。オブジェクト処理段階402からの出力は、時間フィルタ134に提供することができる。
結合段階406は、追跡段階404又はオブジェクト処理段階402によって結果が入手可能であるときにトリガすることができる。オブジェクト処理段階402は、複数の映像フレームにまたがるため、結合段階406は、オブジェクト処理段階402の出力によってよりも追跡段階404からの結果によってのほうが頻繁にトリガすることができる。例えば、追跡段階404及びオブジェクト処理段階402は、両方とも、第1のフレーム151aを受信した時点で開始することができるが、オブジェクト処理段階402が第1のフレーム151aにおいてテキスト153を検出/認識している間に(すなわち、単一フレームでの検出/認識)追跡段階402は第2の映像フレーム151bにおいて及び第3の映像フレーム151cにおいてテキスト153の追跡を続けることができる(すなわち、複数のフレームでの追跡)。
結合段階406中に、時間フィルタ134は、追跡段階404によって生成された追跡器114の追跡結果(例えば、第1の追跡結果414a、第2の追跡結果414b、及び第3の追跡結果414c)を結合するように構成することができ、オブジェクト検出器/認識器124の出力は、オブジェクト処理段階402で生成される。時間フィルタ134は、テキスト153の時間情報を入手するように(すなわち、追跡段階404及びオブジェクト処理段階402に基づいて結合された出力を入手するように)さらに構成することができる。特定の実施形態において、追跡結果をオブジェクト処理(例えば、検出、認識、又はそれらのあらゆる組み合わせ)の出力と結合することは、テキスト153の時間情報を入手するためにオブジェクト処理の出力に関して追跡結果を統合することを含む。フレームのシーケンスに基づいて計算された時間情報は、単一のフレームからの情報(例えば、オブジェクトの検出及び認識のみからの情報)が使用されるときと比較してテキスト153の誤った検出を低減させる又は排除することができる。従って、結合段階406の時間フィルタ134は、連続するフレーム間の動き情報(すなわち、追跡結果)を使用することによって連続するフレームのオブジェクト検出器/認識器124の出力を統合するように構成することができる。
特定の実施形態において、追跡結果をオブジェクトの検出及び認識の出力と統合することは、Kalmanフィルタを最尤推定器とともに使用することを含むことができる。例えば、時間フィルタ134は、統合を行うためのKalmanフィルタと最尤推定器とを含むことができる。Kalmanフィルタは、テキストがある時間にわたって画像キャプチャデバイス102に対して移動するときの、又は画像キャプチャデバイス102がある時間にわたって複数のフレームの各々内のテキスト153に対して移動するときの複数のフレームの各々におけるテキスト153の位置を決定するように構成することができる。最尤推定器は、複数のフレームの各々におけるテキスト153を表現する提案されるテキストデータを(例えば、光学文字認識を介して)生成するように構成することができる。
結合段階406の完了時点で、結合された出力414dを生成することができ、結合された出力414dに基づいてテキスト153の状態情報154を更新することができる。さらに、更新された状態情報154に少なくとも部分的に基づいた出力170dを図1の表示装置106に提供することができる。特定の実施形態において、結合段階406の出力170dは、識別されたテキスト153を含むことができ及び識別されたテキスト153に基づいて出力170d内に挿入された1つ以上の増強されたリアリティに関する特徴を含むこともできる。増強されたリアリティに関する特徴は、テキスト153が埋め込まれた関連コンテンツを含むことができる。例えば、“車”として識別されたテキスト153は、出力170dにおいて示されるように、車の画像も含むことができる。例示として、更新された状態情報154は、連続するフレーム(例えば、フレーム151a乃至151c)間でのテキスト153の移動を含むことができ、図4において示されるように、結合段階406の出力170dをその移動に基づいて変更することができる。時間フィルタ134は、テキスト153の意味、変換、又はその他の態様に基づいて1つ以上の増強されたリアリティに関する特徴を選択することができる。特定の実施形態において、少なくとも1つの増強されたリアリティに関する特徴は、出力170においては三次元オブジェクトとして現れる。
結合段階406の完了時点で、複数のフレームのうちの次のフレーム(例えば、第4の映像フレーム151d)に関してオブジェクト処理段階402を再度開始することができる。さらに、第4の映像フレーム151d及び後続する映像フレーム(例えば、第5の映像フレーム151e...n番目の映像フレームn)に関して追跡を行うことができる。図4は、説明の明確化を目的として第3の映像フレーム151cと第4の映像フレーム151dとの間にギャップを示しているが、フレーム151a乃至151zは、実質的に定期的な間隔で受信及び処理することができる。第4の映像フレーム151dでは、以前“車”(car)として識別されたテキスト153は、“カート”(cart)として再識別することができる。例えば、前フレーム(例えば、第1のフレーム151a)の検出及び/又は認識中に英字‘t’が含められており、“カート”して再識別することができる。追跡段階404は、上述されるように、テキスト153(すなわち、“カート”)の検出及び認識が第4の映像フレーム151dに関して行われている間に、追跡の結果(例えば、第5の追跡結果170e、第6の追跡結果170f...n番目の追跡結果170n)を提供し続けることができる。結合段階は、追跡段階404の終了によってトリガすることができる。従って、結合された出力170zを生成するために、前述されるように、追跡段階404の結果及びオブジェクト処理段階402からの出力を結合段階406中に時間フィルタ134に提供することができる。結合された出力170zは、テキスト153に関連するコンテンツ(すなわち、増強された特徴)を含む補正された/新しいテキスト153(“カート”)を含むことができる。
従って、説明される実施形態は、テキストの時間情報の使用によって映像データ内のテキストの正確な識別を提供することができ(すなわち、同じ領域/テキストボックス内のテキストは、複数のフレームにおいて同じである可能性がある)、単一のフレーム内でのオブジェクト検出の出力は、複数のフレームにまたがるオブジェクト追跡の結果と結合される。説明されるように追跡器と検出器/認識器の結合は、その結果として、画像キャプチャデバイスのユーザに対して相対的に高いフレームレートで及びちらつきが実質的にない状態で正確なテキスト識別を提供することによって向上されたユーザ経験が得られることになる。オブジェクト処理段階402は、図1のオブジェクト検出器/認識器124に関して説明されるが、その他の実施形態では、オブジェクト処理段階402は、図2のオブジェクト検出器224によって行われるオブジェクト検出又は図3のオブジェクト認識器324によって行われるオブジェクト認識を含むことができる。
図5を参照し、一般図500は、図1の追跡器114及びオブジェクト検出器/認識器124、図2のオブジェクト検出器224、及び/又は図3のオブジェクト認識器324が単一フレームのレーテンシーを各々有する図1乃至3のシステム100乃至300によって行うことができるオブジェクト処理(例えば、オブジェクト追跡、オブジェクト認識、又はそれらのあらゆる組み合わせ)の他の例を示す。図5は、複数の映像フレーム510、520、及び530、及び、各映像フレームに関する出力を生成するための図1のシステム100による複数の映像フレーム510乃至530の処理を描く。
動作中に、図1の画像処理デバイス104に第1の映像フレーム510を提供することができる。画像処理デバイス104は、追跡器114と、オブジェクト検出器/認識器124と、時間フィルタ134と、を含むことができる。各フレーム510乃至530に関して、オブジェクト検出器/認識器124は、検出/認識出力を生成するためのテキストの処理(例えば、検出及び/又は認識)を行うことができ、追跡器114は、追跡結果を生成するためのテキストの追跡を行うことができ、時間フィルタ134は、結合された出力を生成するために検出及び/又は認識の出力を追跡結果と結合させることができる。
例示として、オブジェクト検出器/認識器124は、第1のフレーム510内のテキストオブジェクト(又はテキストを含む第1のフレーム510内の領域)を検出するために及びオブジェクト検出器/認識器124の第1の出力(例えば、認識されたテキストデータ)を生成するために第1のフレーム510に関してオブジェクト処理(例えば、オブジェクト検出及び/又はオブジェクト認識)を行うことができ、追跡器114は、第1の追跡結果を生成するために第1のフレーム510内のテキストオブジェクトを追跡することができる。時間フィルタ134は、第1の結合された出力511(例えば、テキスト出力)を生成するために検出器/認識器124の第1の出力を第1の追跡結果と結合することができる。特定の実施形態において、テキスト出力は、認識されたテキストデータ(例えば、“車”)と、テキストデータに関する位置情報(例えば、テキストデータの二次元又は三次元座標)と、を含むことができる。同様に、オブジェクト検出器/認識器124は、検出器/認識器124の第2の出力を生成するために第2のフレーム520に関するテキストオブジェクト処理(例えば、テキストオブジェクト検出及び/又はテキストオブジェクト認識)を行うことができ、追跡器114は、第2の追跡結果を生成するために第2のフレーム520においてテキストオブジェクトを追跡することができる。時間フィルタ134は、第2の結合された出力521を生成するためにオブジェクト検出器/認識器124の第2の出力を第2の追跡結果と結合することができる。プロセスは、複数の結合された出力を生成するために複数のフレーム内の各フレームに関して繰り返すことができる。従って、図5で説明される実施形態は、映像データ内のテキストオブジェクトの識別を提供するためにテキスト処理(例えば、検出及び/又は認識)出力を映像データの複数のフレームのうちの各々に関するテキスト追跡結果と結合することができる。
図6を参照し、図1乃至3のシステム100乃至300の動作例を示した一般図が開示され、概して600の指定数字が付される。特に、図6は、図1のシステム100の制御の流れ及びタイミング図を示す。
カメラ102(すなわち、図1の画像キャプチャデバイス102)は、追跡器114に対して及び検出器/認識器124の検出器622に対して映像データ160を提供することができる。映像データ160は、(例えば、テキスト153を含む)オブジェクト151を含む複数の映像フレームを含むことができる。検出器622は、複数の映像フレームのうちの各々においてテキスト153を検出するように及び時間フィルタ134のKalmanフィルタ632に検出の出力を提供するように構成することができる。さらに、追跡器114は、複数の映像フレームのうちの各々において(例えば、テキストボックス152を追跡することによって)テキスト153を追跡するように(すなわち、連続する映像フレームにおけるテキスト153の動きを検出するように)及びKalmanフィルタ632に追跡の出力を提供するように構成することができる。
Kalmanフィルタ632は、時間フィルタ134の最尤推定器634からの情報にアクセスするように及びKalmanフィルタ632の出力を最尤推定器634に提供するように構成することができる。特定の実施形態において、Kalmanフィルタ632は、テキスト153の座標を含むテキスト153の位置を決定するように構成することができる。例えば、テキスト153の位置は、テキストボックス152の二次元(2D)位置を含むことができる。テキスト153を包含するバウンディングボリュームの三次元(3D)位置(例えば、x、y、及びz座標)は、2D位置から推測することができる。さらに、Kalmanフィルタ632は、連続する映像フレームの処理に基づいてテキスト153の位置(location)(すなわち、位置position)を経時で更新するように構成することができる。
最尤推定器634は、複数の映像フレーム内での検出されたテキスト及びそのテキストの動きに基づいて提案されるテキストデータを生成するように構成することができる。最尤推定器634は、提案されるテキストデータを検証するために辞書にアクセスするように構成することができる。例えば、最尤推定器は、メモリに格納された1つ以上の辞書(例えば、図1の辞書140)にアクセスすることができる。提案されるテキストデータは、複数のテキスト候補と、複数のテキスト候補と関連付けられた信頼度データと、含むことができる。最尤推定器634は、辞書140のエントリに対応するテキスト候補と関連付けられた信頼度値によりそのテキスト候補を選択するように構成することができる。例えば、テキストは辞書140内で最高の対応する信頼度値を有するため最尤推定器634はそのテキストを選択することができる。
検出器/認識器124の認識デバイス624は、複数のフレームのうちの各々内でテキストを認識する(すなわち、識別する)ように構成することができる。認識デバイス624は、光学文字認識(OCR)を含むことができる。認識デバイス624は、テキストピクセルデータを機械によって符号化されるテキストに変換するように構成することができる。複数の映像フレームのうちの各々の中のテキストを機械によって符号化されるテキストに変換することによって、各フレームからのテキストを、格納、表示することができ、及び識別されたテキストの精度を向上させるために最尤推定器624に提供することができる。検出器622及び認識デバイス624は、検出器/認識器124の2つの別個のコンポーネントとして示されているが、検出器622及び認識デバイス624は1つのコンポーネント内に組み入れることができることが注目されるべきである。
(Kalmanフィルタ632と最尤推定器634とを含む)時間フィルタ134の出力は、表示出力650を生成する前にフレーム混合器(blender)640に提供することができる。フレーム混合器640は、内挿器を含むことができ及び表示装置(例えば、図1の表示装置106)でのフレームのより流動的な(fluid)表示を可能にするために既存のフレーム(すなわち、カメラ102によって生成された映像データ160の複数のフレーム)間で中間フレームを生成するように構成することができる。例えば、カメラ102によってキャプチャされた映像データ160のフレームレートが、表示装置106のフレームレートよりも低い場合は、フレーム混合器640は、流動的な出力650(すなわち、表示)を生成するために表示装置106において映像フレームを表示する前に複数の映像のうちの1つ以上を複製する及び/又は中間フレームを生成するように構成することができる。
図6は、図1のシステム100によって行うことができるオブジェクトの追跡及び認識のタイミング図も描く。タイミング図において、複数のフレームのうちの第1のフレームに関する検出/認識610aは、複数のフレームのうちの第1のフレームの追跡620aと時間の点で少なくとも一部分が重なり合う(例えば、同時並行又は同時)。特定の実施形態において、第1のフレームに関して検出/認識が行われている間に複数のフレームのうちの1つ以上のフレームに関して追跡を行うことができる。例えば、示されるように、検出器/認識器124によって検出認識6120aが行われている間に、第1のフレーム620a、第2のフレーム620b、第3のフレーム620c、及び第3の(third)フレーム620dに関して追跡を行うことができる。従って、追跡器114は、単一フレームのレーテンシーを有することができ、検出器/認識器124は、マルチフレームのレーテンシーを有することができる。
さらに、表示装置106において中間的なフレームデータを提供するために、複数のフレームのうちの各々の間(例えば、各追跡7620a乃至620dの間)でフレーム混合器640による混合660を行うことができる。第4のフレームの追跡620dの完了時点で、時間フィルタ134によって状態更新670を行うことができる。時間フィルタは、複数のフレームのうちの各々の追跡620a乃至620d及び単一のフレームの検出/認識610aに基づいて状態情報を更新するように構成することができる。例えば、状態情報及び後続する更新は、フレームからフレームへのテキスト153の位置と、テキスト153(例えば、“車”)の識別と、テキスト153(例えば、3D画像)に関連する増強されたコンテンツと、を含むことができる。状態情報の更新が行われた後は、検出器/認識器124は、次に入手可能なフレームの検出/認識610bを開始することができる。例えば、次のフレームは、第5のフレームであることができる。同様に、追跡器114は、第5のフレームの追跡620e、第6のフレームの追跡620f、第7のフレームの追跡620g、第8のフレームの追跡620h、及び第9のフレームの追跡620iを開始することができる。フレーム混合器640は、中間フレームを生成してフレーム間に挿入することができる(すなわち、混合660)。結合された出力を生成するために及び状態情報を更新する680ために追跡からの追跡結果(620e乃至620i)を検出/認識610bの出力と結合することができる。検出/認識及び追跡は、複数のフレームのうちの全フレームが処理されるまで行い続けることができる。
図7を参照し、オブジェクトの追跡及び処理を行う方法700の流れ図が例示される。例示的な実施形態において、方法700は、図1の画像処理デバイス104において、図2の画像処理デバイス204において、又は図3の画像処理デバイス304において行うことができる。
方法700は、710において、映像データの入力フレームを受信することを含むことができる。例えば、画像処理デバイス104は、画像キャプチャデバイス102から映像データ160を受信することができる。映像データ160は、複数の映像フレームを含むことができる。映像データ160の複数の映像フレームの各々は、テキスト153が入ったオブジェクト151を含むことができる。画像処理デバイス104は、オブジェクト追跡器及び認識器101を含むことができる。オブジェクト追跡器及び認識器101は、追跡器114と、検出器/認識器124と、時間フィルタ134と、を含むことができる。
方法700は、判断要素720において、オブジェクト処理が完了しているかどうかを決定することも含むことができる。例えば、図1のオブジェクト追跡器及び認識器101は、単一のフレーム(例えば、映像データ160の複数のフレームのうちの第1のフレーム)のオブジェクト検出及び/又はオブジェクト認識が検出器/認識器124によって完了されているかどうかを決定するように構成することができる。他の例として、図2のオブジェクト追跡器及び認識器201は、単一のフレームのオブジェクト検出がオブジェクト検出器224によって完了されているかどうかを決定するように構成することができる。他の例として、図3のオブジェクト追跡器及び認識器301は、単一のフレームのオブジェクト認識がオブジェクト認識器324によって完了されているかどうかを決定するように構成することができる。特定の実施形態において、オブジェクト処理は、マルチフレームのレーテンシーを有することができる。
720において、オブジェクト処理が完了していると決定したことに応答して、730において、オブジェクト処理の出力に基づいてオブジェクトの状態情報を更新することができ、及び、740において、映像データの次のフレームに関してオブジェクト処理を開始することができる。例えば、図1の検出器/認識器124が複数のフレームのうちの現在のフレームのオブジェクト検出及び/又はオブジェクト認識を完了している場合は、オブジェクトの状態情報を更新するために検出器/認識器124の現在の出力を使用することができる。例示として、オブジェクト検出器/認識器124は、オブジェクト151を現在のフレーム内のテキスト“カート”(cart)として再識別する(すなわち、検出及び認識する)ことができ(例えば、前フレームにおいて英字‘t’が隠されていてテキストが“車”(car)と識別された)及び、例えば、前回識別されたテキスト“車”の代わりに現在識別されているテキスト“カート”を用いることによってオブジェクトの状態情報を更新することができる。さらに、検出器/認識器124は、映像データの次のフレーム(例えば、第2のフレーム)に関するオブジェクト検出及び/又はオブジェクト認識を開始することができる。
720において、オブジェクト処理(例えば、オブジェクト検出及び/又はオブジェクト認識)が完了していることを検出する前に、750において、特定のフレームと前フレームとの間でのオブジェクトの動きを推定することができ、及び、760において、推定された動きに基づいてオブジェクトの状態情報を更新することができる。例えば、図1の検出器/認識器124が、第1のフレームのオブジェクト処理(例えば、オブジェクト検出及び/又はオブジェクト認識)を完了させていない場合は、追跡器114は、第2のフレームと第1のフレームとの間でのテキスト153の動き推定を行うことができる。例示として、テキスト153は、第1のフレーム内の縦位置から第2のフレーム内の斜めの位置に移動している可能性がある。追跡器114は、第1のフレーム及び第2のフレーム内でテキスト153の動きを追跡するように及びフレームからフレームへのテキスト153の動きを推定するように構成することができる。さらに、処理が完了する前に(すなわち、検出器/認識器124のマルチフレームレーテンシーに起因して)テキスト153の状態情報を更新するために追跡器114による動き推定の追跡結果を使用することができる。例えば、更新された状態情報は、フレームからフレームへのテキスト153の位置変更を含むことができる。例示として、更新された状態情報は、第2のフレーム内のテキスト153の第2の位置(例えば、座標x2、y2)によって更新された第1のフレーム内のテキスト153の第1の位置(例えば、座標x1、y1)を含むことができる。
出力は、770において、オブジェクトの更新された状態情報に基づいて生成することができる。例えば、状態情報及び図1の追跡器114及び検出器/認識器124によって提供される後続する更新は、オブジェクトに関する情報、例えば、フレームからフレームへのオブジェクトの位置、フレームからフレームへのオブジェクトに含まれるテキスト、オブジェクトに関連する増強されたコンテンツ、又はそれらの組み合わせ、を含むことができる。従って、画像処理デバイス104は、表示装置106での表示のために更新された状態情報に基づく出力(例えば、テキスト及び埋め込まれたコンテンツ)を生成することができる。
図8を参照し、オブジェクトの追跡及び認識を行う方法800の他の特定の実施形態の流れ図が例示される。例示的な実施形態において、方法800は、図1の画像処理デバイス104において、図2の画像処理デバイス204において、又は図3の画像処理デバイス304において行うことができる。
方法800は、810において、追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡することを含む。例えば、図1乃至3の追跡器114は、映像データ160の複数のフレームの各々(例えば、第1のフレーム、第2のフレーム、第3のフレーム、等)内のオブジェクト(例えば、テキスト153を含むオブジェクト151)を追跡するように及び複数のフレームの各々に関するフレーム結果(例えば、フレーム1結果、フレーム2結果...フレームN結果)を生成するように構成することができる。
方法800は、オブジェクト検出器又はオブジェクト認識器のマルチフレームのレーテンシーにより選択された複数のフレームのうちのフレームの部分組のオブジェクト処理(例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ)を行うことも含み、820において、オブジェクト処理及び追跡は、時間の点で少なくとも部分的に重なり合う。例えば、図1の検出器/認識器124は、複数のフレームのうちのフレームの部分組(例えば、第1のフレーム、第5のフレーム、第13のフレーム)内でオブジェクト151を検出及び/又は認識するように及び追跡器114によって生成されたすべてのNのフレーム結果に関して単一のフレーム結果(例えば、フレーム5結果)を生成するように構成することができ(例えば、フレーム2乃至4)、ここで、Nは、1よりも大きい整数である。
830において、結合された出力を生成するために追跡結果がオブジェクト処理の出力と結合される。例えば、時間フィルタ134は、結合された出力(例えば、結合された出力144)を生成するために追跡器114の追跡結果(すなわち、追跡器114のフレーム1結果、フレーム2結果、及びフレーム3結果)をオブジェクト処理の結果(例えば、検出器/認識器124のフレーム1結果)と結合するように構成することができる。
840において、オブジェクトの状態情報が、結合された出力に基づいて更新される。例えば、時間フィルタ134は、図6のKalmanフィルタ632と、図6の最尤推定器634と、を含むことができる。さらに、時間フィルタ134は、結合された出力144に基づいてオブジェクトの状態情報154を更新するように構成することができる。例えば、更新された状態情報154は、フレームからフレームへの(すなわち、ある時間にわたっての)オブジェクトに対応する情報を含むアレイ(array)を含むことができる。例示として、更新された状態情報154は、オブジェクトの位置、オブジェクトから識別されたテキスト、テキストに関連するコンテンツ、又はそれらのあらゆる組み合わせを含むことができる。
図9を参照し、オブジェクトの追跡及び処理を行うために動作可能なプロセッサを含む無線デバイスの特定の例示的実施形態のブロック図が描かれ、概して900の指定数字が付される。デバイス900は、メモリ108に結合されたプロセッサ、例えば、プロセッサ910、を含む。プロセッサ900は、オブジェクト追跡器と認識器(例えば、図1のオブジェクト追跡器及び認識器101)とを含むことができる。例として、オブジェクト追跡器及び認識器101は、図4乃至8のうちのいずれか1つ以上、又はそれらの組み合わせにより動作することができる。
特定の実施形態において、オブジェクト追跡器及び認識器101は、プロセッサ910と統合することができ及び図1乃至3に関して説明される機能の少なくとも一部分を実施するための専用回路又はその他のロジックを含むことができる。特定の実施形態において、メモリ108は、図1乃至8のうちのいずれかに関して説明される機能の少なくとも一部分を実行することをプロセッサ910に行わせるためにプロセッサ910によって実行可能である命令142を含む。例えば、命令142は、図7の方法700、図8の方法800、及びそれらのあらゆる組み合わせを実行することをコンピュータ(例えば、プロセッサ910)に行わせるためにコンピュータによって実行可能である命令を含むことができる。
特定の実施形態において、オブジェクト追跡器及び認識器101は、追跡器(例えば、図1の追跡器114)と、検出器/認識器(例えば、図1の検出器/認識器124)と、時間フィルタ(例えば、図1の時間フィルタ134)と、を含むことができる。追跡器114は、追跡結果を生成するために映像データ(例えば、図1の映像データ160)の複数のフレームの各々においてオブジェクト(例えば、図1のオブジェクト151)を追跡するように構成することができる。検出器/認識器124は、複数のフレームのうちの単一のフレームにおいてオブジェクト151を検出及び認識するように構成することができる。時間フィルタ134は、検出器/認識器124によって行われるオブジェクトの検出及び認識の完了に応答することができ及び結合された出力144を生成するために及び結合された出力144に基づいてオブジェクト151の状態情報を更新するために追跡器114の追跡結果を検出器/認識器124のオブジェクトの検出及び認識の出力と結合するように構成することができる。特定の実施形態において、オブジェクト151は、テキストボックス(例えば、テキスト153を含むテキストボックス152)及びテキストボックス152の位置に対応することができる。
図9は、カメラコントローラ960に結合することができるカメラ942であり、カメラ942から受信された映像データ内でのオブジェクト(例えば、テキスト)の追跡を行うために及びオブジェクトの検出及び認識を行うためにオブジェクト追跡器及び認識器101によって処理される画像及び/又は映像データを提供することができるカメラ942を示す。
図9は、プロセッサ910及びディスプレイ928に結合することができるディスプレイコントローラ926も示す。コーダ/デコーダ(CODEC)934(例えば、オーディオ及び/又は音声CODEC)をプロセッサ910に結合することができる。CODEC934にはスピーカー936及びマイク938を結合することができる。図9は、無線コントローラ940をプロセッサ910及び無線アンテナ998に結合できることも示す。
特定の実施形態において、プロセッサ910、カメラコントローラ960、ディスプレイコントローラ926、メモリ108、CODEC934、及び無線コントローラ940は、システム・イン・パッケージ又はシステム・オン・チップデバイス922内に含められる。
特定の実施形態において、入力デバイス930及び電源944は、システム・オン・チップデバイス922に結合される。さらに、特定の実施形態において、図9に例示されるように、ディスプレイ928,カメラ942、入力デバイス930、マイク938、無線アンテナ998、及び電源944は、システム・オン・チップデバイス922の外部に存在する。しかしながら、ディスプレイ928,カメラ942、入力デバイス930、スピーカー936、マイク938、無線アンテナ998、及び電源944の各々は、システム・オン・チップデバイス922のコンポーネント、例えば、インタフェース又はコントローラ、に結合することができる。
図9は、無線通信デバイスを描いているが、プロセッサ910及びメモリ108は、その他のデバイス、例えば、マルチメディアプレーヤー、娯楽ユニット、ナビゲーション装置、パーソナルデジタルアシスタント(PDA)、固定ロケーションデータユニット、又はポータブルコンピュータ(例えば、ラップトップコンピュータ又はタブレットコンピュータ)、に組み入れることもできることが注目されるべきである。さらに、プロセッサ910は、図1のオブジェクト追跡器及び認識器101を含むが、その他の実施形態では、プロセッサ910は、図2のオブジェクト追跡器及び検出器201又は図3のオブジェクト追跡器及び認識器301を含むことができることも注目されるべきである。
説明される実施形態と関連して、追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡するための手段を含む装置が開示される。例えば、追跡するための手段は、図1乃至4の追跡器114、図1乃至3及び9のオブジェクト追跡器及び認識器101、映像データの複数のフレームの各々においてオブジェクトを追跡するように構成された1つ以上のその他のデバイス、又はそれらのあらゆる組み合わせであることができる。
装置は、複数のフレームのうちの単一のフレーム内のオブジェクトを処理するための手段(例えば、検出するための手段、認識するための手段、又はそれらのあらゆる組み合わせ)を含むことができる。例えば、処理するための手段は、図1の検出器/認識器124、図2のオブジェクト検出器224、図3のオブジェクト認識器324、図1のオブジェクト追跡器及び認識器101、図2のオブジェクト追跡器及び検出器201、図3のオブジェクト追跡器及び認識器301、複数のフレームのうちの単一のフレームにおいてオブジェクトを検出及び/又は認識するように構成された1つ以上のその他のデバイス、又はそれらのあらゆる組み合わせであることができる。
装置は、単一のフレームのオブジェクト処理の完了に応答して(例えば、オブジェクトの検出及び/又は認識のための手段)、結合された出力を生成するために追跡のための手段の追跡結果をオブジェクト処理のための手段の出力と結合するための手段を含むことができる。例えば、結合するための手段は、図1乃至6の時間フィルタ134、図1乃至3及び9のオブジェクト追跡器及び認識器101、図6のKalmanフィルタ632、図6の最尤推定器634、結合された出力を生成するために追跡するための手段の出力を検出及び認識するための手段の出力と結合するように構成された1つ以上のその他のデバイス、又はそれらのあらゆる組み合わせであることができる。
ここにおいて開示される実施形態と関係させて説明される様々な例示的な論理ブロック、構成、モジュール、回路、及びアルゴリズムのステップは、電子ハードウェア、コンピュータソフトウェア、又は両方の組み合わせとして実装できることを当業者はさらに評価するであろう。様々な例示的なコンポーネント、ブロック、構成、モジュール、回路、及びステップは、それらの機能の観点で一般的に説明されている。該機能がハードウェアとして又はソフトウェアとして実装されるかは、特定の用途及び全体的システムに対する設計上の制約事項に依存する。当業者は、説明されている機能を各々の特定の用途に合わせて様々な形で実装することができるが、該実装決定は、本開示の適用範囲からの逸脱を生じさせるものであるとは解釈されるべきではない。
ここにおいて開示される実施形態と関係させて説明される方法又はアルゴリズムのステップは、直接ハードウェア内において、ファームウェア内において、プロセッサによって実行されるソフトウェアモジュール内において、又はそれらの組み合わせ内において具現化することが可能である。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読み取り専用メモリ(ROM)、プログラマブル読み取り専用メモリ(PROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、レジスタ、ハードディスク、取り外し可能なディスク、コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタルバーサタイルディスク(DVD)メモリ、フロッピー(登録商標)ディスクメモリ、Blu−ray(登録商標)ディスクメモリ、又は当業において既知であるその他のあらゆる形態の記憶媒体において常駐することができる。典型的な非一時的な(例えば、有形の)記憶媒体は、プロセッサが記憶媒体から情報を読み出すこと及び記憶媒体に情報を書き込むことができるようにプロセッサに結合される。代替においては、記憶媒体は、プロセッサと一体化させることができる。プロセッサ及び記憶媒体は、特定用途向け集積回路(ASIC)内に常駐することができる。ASICは、コンピューティングデバイス又はユーザ端末内に常駐することができる。代替においては、プロセッサ及び記憶媒体は、コンピューティングデバイス又はユーザ端末内において個別コンポーネントとして常駐することができる。代替実施形態においては、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、又はその他の電子ユニットを使用することができる。
開示される実施形態に関する前の説明は、当業者が本開示を製造又は使用することを可能にするために提供される。本開示に対する様々な修正は、当業者にとって容易に明確になるであろう、及びここにおいて定められる一般原理は、本開示の適用範囲を逸脱せずにその他の実施形態に対して適用することができる。以上のように、本開示は、ここにおいて示される実施形態に限定されることが意図されるものではなく、ここにおいて定められる原理及び新規の特徴に一致する限りにおいて最も広範な適用範囲が認められるべきである。
開示される実施形態に関する前の説明は、当業者が本開示を製造又は使用することを可能にするために提供される。本開示に対する様々な修正は、当業者にとって容易に明確になるであろう、及びここにおいて定められる一般原理は、本開示の適用範囲を逸脱せずにその他の実施形態に対して適用することができる。以上のように、本開示は、ここにおいて示される実施形態に限定されることが意図されるものではなく、ここにおいて定められる原理及び新規の特徴に一致する限りにおいて最も広範な適用範囲が認められるべきである。
以下に本願出願当初の特許請求の範囲を付記する。
[C1] 方法であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡することと、
オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組のオブジェクト処理を行うことと、
結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することと、を備える、方法。
[C2] フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト検出器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト検出を行うことを含むC1に記載の方法。
[C3] フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト認識器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト認識を行うことを含むC1に記載の方法。
[C4] 前記結合された出力に基づいて前記オブジェクトの状態情報を更新することをさらに備えるC1に記載の方法。
[C5] 少なくとも前記追跡結果又は前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を更新することをさらに備えるC1に記載の方法。
[C6] 前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を前記更新することは、前記オブジェクト処理の現在の出力、前記オブジェクト処理の以前の出力、前記オブジェクトの動き履歴、又はそれらのあらゆる組み合わせを利用することを備えるC5に記載の方法。
[C7] 前記オブジェクト処理は、オブジェクト処理段階中に行われ、前記追跡は、追跡段階中に行われるC4に記載の方法。
[C8] 前記追跡段階及び前記オブジェクト処理段階は、時間の点で少なくとも部分的に重なり合うC7に記載の方法。
[C9] 結合段階をさらに備え、前記結合段階は、前記結合された出力を生成することと、前記状態情報を更新することと、を含むC7に記載の方法。
[C10] 前記更新された状態情報は、前記オブジェクトの位置を含むC4に記載の方法。
[C11] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストを含むC4に記載の方法。
[C12] 前記画像キャプチャデバイスの表示装置において前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示することをさらに備えるC4に記載の方法。
[C13] 前記追跡結果を前記オブジェクト処理の前記出力と結合することは、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを備えるC1に記載の方法。
[C14] 前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、Kalmanフィルタ、パーティクルフィルタ、又はExtended Kalmanフィルタのうちの少なくとも1つを用いて前記追跡結果に基づいて前記オブジェクトの位置情報を生成することを備えるC13に記載の方法。
[C15] 前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、最尤推定器又は最大事後推定器のうちの少なくとも1つを用いて前記オブジェクト処理の前記出力に基づいて前記オブジェクトのテキストデータを含む識別情報を生成することを備えるC13に記載の方法。
[C16] 前記複数のフレームは、画像キャプチャデバイスによって生成され、前記画像キャプチャデバイスは、カメラ、映像録画装置、無線デバイス、ポータブル電子デバイス、又はそれらのあらゆる組み合わせを備えるC1に記載の方法。
[C17] フレームの前記部分組のうちの第1のフレームの前記オブジェクト処理が完了していることを検出する前に、
フレームの前記部分組のうちの前記第1のフレームと第2のフレームとの間での前記オブジェクトの動きを推定することと、
前記推定された動きに基づいて前記オブジェクトの状態情報を更新することと、
前記オブジェクトの前記更新された状態情報に基づいて出力を生成することと、をさらに備えるC1に記載の方法。
[C18] 前記追跡することは、単一フレームのレーテンシーを有するC1に記載の方法。
[C19] 装置であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するように構成された追跡器と、
オブジェクトプロセッサのマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内でオブジェクトを処理するように構成された前記オブジェクトプロセッサと、
結合された出力を生成するために前記追跡器の前記追跡結果を前記オブジェクトプロセッサの出力と結合するように構成された時間フィルタと、を備える、装置。
[C20] 前記オブジェクトプロセッサは、
フレームの前記部分組内で前記オブジェクトを検出するように構成されたオブジェクト検出器と、
フレームの前記部分組内で前記オブジェクトを認識するように構成されたオブジェクト認識器と、を含むC19に記載の装置。
[C21] 前記時間フィルタは、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するようにさらに構成されるC19に記載の装置。
[C22] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含むC21に記載の装置。
[C23] 前記時間フィルタは、Kalmanフィルタと、最尤推定器と、を含むC22に記載の装置。
[C24] 前記Kalmanフィルタは、前記テキストの前記位置を決定するように構成され、前記テキストの前記位置は、前記テキストボックスの座標を含むC23に記載の装置。
[C25] 前記最尤推定器は、
光学文字認識(OCR)を介して提案されるテキストデータを生成し、及び
前記提案されるテキストデータを検証するために辞書にアクセスするように構成されるC23に記載の装置。
[C26] 前記提案されるテキストデータは、複数のテキスト候補と、前記複数のテキスト候補と関連付けられた信頼度データと、を含み、前記辞書のエントリに対応するテキスト候補が、前記テキスト候補と関連付けられた信頼度値により検証されたテキストとして選択されるC25に記載の装置。
[C27] 装置であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するための手段と、
処理するための手段のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内の前記オブジェクトを処理するための前記手段と、
結合された出力を生成するために追跡するための前記手段の前記追跡結果を処理するための前記手段の出力と結合するための手段と、を備える、装置。
[C28] フレームの前記部分組内の前記オブジェクトを処理するための前記手段は、フレームの前記部分組内で前記オブジェクトを検出するための手段を含むC27に記載の装置。
[C29] フレームの前記部分組内で前記オブジェクトを処理するための前記手段は、フレームの前記部分組内において前記オブジェクトを認識するための手段を含むC27に記載の装置。
[C30] 結合するための前記手段は、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するための手段を含むC27に記載の装置。
[C31] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含むC30に記載の装置。
[C32] 前記複数のフレームを生成するための手段と、前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示するための手段と、をさらに備えるC30に記載の装置。
[C33] 結合するための前記手段は、Kalmanフィルタと、最尤推定器と、を含むC27に記載の装置。
[C34] 非一時的なコンピュータによって読み取り可能な媒体であって、
プロセッサによって実行されたときに、
追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡し、
オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内で前記オブジェクトのオブジェクト処理を行い、及び
結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することを前記プロセッサに行わせるプログラムコードを含む、非一時的なコンピュータによって読み取り可能な媒体。
[C35] 前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト検出器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト検出を行うことを含むC34に記載の非一時的なコンピュータによって読み取り可能な媒体。
[C36] 前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト認識器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト認識を行うことを含むC34に記載の非一時的なコンピュータによって読み取り可能な媒体。
[C37] 前記プロセッサによって実行されたときに、前記結合された出力に基づいて前記オブジェクトの状態情報を更新することを前記プロセッサに行わせるプログラムコードをさらに備えるC34に記載の非一時的なコンピュータによって読み取り可能な媒体。
[C38] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含むC37に記載の非一時的なコンピュータによって読み取り可能な媒体。
[C39] 前記プロセッサによって実行されたときに、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを前記プロセッサに行わせるプログラムコードをさらに備えるC34に記載の非一時的なコンピュータによって読み取り可能な媒体。
[C40] 方法であって、
追跡結果を生成するために映像データの複数のフレームのうちの第1のフレーム内のテキストを含む領域を追跡することと、
認識されたテキストデータを識別するために前記第1のフレームに関するテキスト処理を行うことと、
テキスト出力を生成するために前記追跡結果及び前記認識されたテキストデータを結合することと、を備える、方法。
[C41] 前記第1のフレームに関するテキスト処理を行うことは、前記第1のフレームに関するテキスト検出を行うことを含むC40に記載の方法。
[C42] 前記第1のフレームに関するテキスト処理を行うことは、前記第1のフレームに関するテキスト認識を行うことを含むC40に記載の方法。
[C43] 前記テキスト出力は、前記認識されたテキストデータと、前記テキストデータの位置情報と、を含むC40に記載の方法。
[C44] テキスト検出及び認識を前記行うことは、単一フレームのレーテンシーを有し、前記追跡することは、単一フレームのレーテンシーを有するC40に記載の方法。

Claims (44)

  1. 方法であって、
    追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡することと、
    オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組のオブジェクト処理を行うことと、
    結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することと、を備える、方法。
  2. フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト検出器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト検出を行うことを含む請求項1に記載の方法。
  3. フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト認識器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト認識を行うことを含む請求項1に記載の方法。
  4. 前記結合された出力に基づいて前記オブジェクトの状態情報を更新することをさらに備える請求項1に記載の方法。
  5. 少なくとも前記追跡結果又は前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を更新することをさらに備える請求項1に記載の方法。
  6. 前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を前記更新することは、前記オブジェクト処理の現在の出力、前記オブジェクト処理の以前の出力、前記オブジェクトの動き履歴、又はそれらのあらゆる組み合わせを利用することを備える請求項5に記載の方法。
  7. 前記オブジェクト処理は、オブジェクト処理段階中に行われ、前記追跡は、追跡段階中に行われる請求項4に記載の方法。
  8. 前記追跡段階及び前記オブジェクト処理段階は、時間の点で少なくとも部分的に重なり合う請求項7に記載の方法。
  9. 結合段階をさらに備え、前記結合段階は、前記結合された出力を生成することと、前記状態情報を更新することと、を含む請求項7に記載の方法。
  10. 前記更新された状態情報は、前記オブジェクトの位置を含む請求項4に記載の方法。
  11. 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストを含む請求項4に記載の方法。
  12. 前記画像キャプチャデバイスの表示装置において前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示することをさらに備える請求項4に記載の方法。
  13. 前記追跡結果を前記オブジェクト処理の前記出力と結合することは、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを備える請求項1に記載の方法。
  14. 前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、Kalmanフィルタ、パーティクルフィルタ、又はExtended Kalmanフィルタのうちの少なくとも1つを用いて前記追跡結果に基づいて前記オブジェクトの位置情報を生成することを備える請求項13に記載の方法。
  15. 前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、最尤推定器又は最大事後推定器のうちの少なくとも1つを用いて前記オブジェクト処理の前記出力に基づいて前記オブジェクトのテキストデータを含む識別情報を生成することを備える請求項13に記載の方法。
  16. 前記複数のフレームは、画像キャプチャデバイスによって生成され、前記画像キャプチャデバイスは、カメラ、映像録画装置、無線デバイス、ポータブル電子デバイス、又はそれらのあらゆる組み合わせを備える請求項1に記載の方法。
  17. フレームの前記部分組のうちの第1のフレームの前記オブジェクト処理が完了していることを検出する前に、
    フレームの前記部分組のうちの前記第1のフレームと第2のフレームとの間での前記オブジェクトの動きを推定することと、
    前記推定された動きに基づいて前記オブジェクトの状態情報を更新することと、
    前記オブジェクトの前記更新された状態情報に基づいて出力を生成することと、をさらに備える請求項1に記載の方法。
  18. 前記追跡することは、単一フレームのレーテンシーを有する請求項1に記載の方法。
  19. 装置であって、
    追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するように構成された追跡器と、
    オブジェクトプロセッサのマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内でオブジェクトを処理するように構成された前記オブジェクトプロセッサと、
    結合された出力を生成するために前記追跡器の前記追跡結果を前記オブジェクトプロセッサの出力と結合するように構成された時間フィルタと、を備える、装置。
  20. 前記オブジェクトプロセッサは、
    フレームの前記部分組内で前記オブジェクトを検出するように構成されたオブジェクト検出器と、
    フレームの前記部分組内で前記オブジェクトを認識するように構成されたオブジェクト認識器と、を含む請求項19に記載の装置。
  21. 前記時間フィルタは、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するようにさらに構成される請求項19に記載の装置。
  22. 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含む請求項21に記載の装置。
  23. 前記時間フィルタは、Kalmanフィルタと、最尤推定器と、を含む請求項22に記載の装置。
  24. 前記Kalmanフィルタは、前記テキストの前記位置を決定するように構成され、前記テキストの前記位置は、前記テキストボックスの座標を含む請求項23に記載の装置。
  25. 前記最尤推定器は、
    光学文字認識(OCR)を介して提案されるテキストデータを生成し、及び
    前記提案されるテキストデータを検証するために辞書にアクセスするように構成される請求項23に記載の装置。
  26. 前記提案されるテキストデータは、複数のテキスト候補と、前記複数のテキスト候補と関連付けられた信頼度データと、を含み、前記辞書のエントリに対応するテキスト候補が、前記テキスト候補と関連付けられた信頼度値により検証されたテキストとして選択される請求項25に記載の装置。
  27. 装置であって、
    追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するための手段と、
    処理するための手段のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内の前記オブジェクトを処理するための前記手段と、
    結合された出力を生成するために追跡するための前記手段の前記追跡結果を処理するための前記手段の出力と結合するための手段と、を備える、装置。
  28. フレームの前記部分組内の前記オブジェクトを処理するための前記手段は、フレームの前記部分組内で前記オブジェクトを検出するための手段を含む請求項27に記載の装置。
  29. フレームの前記部分組内で前記オブジェクトを処理するための前記手段は、フレームの前記部分組内において前記オブジェクトを認識するための手段を含む請求項27に記載の装置。
  30. 結合するための前記手段は、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するための手段を含む請求項27に記載の装置。
  31. 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含む請求項30に記載の装置。
  32. 前記複数のフレームを生成するための手段と、前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示するための手段と、をさらに備える請求項30に記載の装置。
  33. 結合するための前記手段は、Kalmanフィルタと、最尤推定器と、を含む請求項27に記載の装置。
  34. 非一時的なコンピュータによって読み取り可能な媒体であって、
    プロセッサによって実行されたときに、
    追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡し、
    オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内で前記オブジェクトのオブジェクト処理を行い、及び
    結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することを前記プロセッサに行わせるプログラムコードを含む、非一時的なコンピュータによって読み取り可能な媒体。
  35. 前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト検出器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト検出を行うことを含む請求項34に記載の非一時的なコンピュータによって読み取り可能な媒体。
  36. 前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト認識器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト認識を行うことを含む請求項34に記載の非一時的なコンピュータによって読み取り可能な媒体。
  37. 前記プロセッサによって実行されたときに、前記結合された出力に基づいて前記オブジェクトの状態情報を更新することを前記プロセッサに行わせるプログラムコードをさらに備える請求項34に記載の非一時的なコンピュータによって読み取り可能な媒体。
  38. 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含む請求項37に記載の非一時的なコンピュータによって読み取り可能な媒体。
  39. 前記プロセッサによって実行されたときに、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを前記プロセッサに行わせるプログラムコードをさらに備える請求項34に記載の非一時的なコンピュータによって読み取り可能な媒体。
  40. 方法であって、
    追跡結果を生成するために映像データの複数のフレームのうちの第1のフレーム内のテキストを含む領域を追跡することと、
    認識されたテキストデータを識別するために前記第1のフレームに関するテキスト処理を行うことと、
    テキスト出力を生成するために前記追跡結果及び前記認識されたテキストデータを結合することと、を備える、方法。
  41. 前記第1のフレームに関するテキスト処理を行うことは、前記第1のフレームに関するテキスト検出を行うことを含む請求項40に記載の方法。
  42. 前記第1のフレームに関するテキスト処理を行うことは、前記第1のフレームに関するテキスト認識を行うことを含む請求項40に記載の方法。
  43. 前記テキスト出力は、前記認識されたテキストデータと、前記テキストデータの位置情報と、を含む請求項40に記載の方法。
  44. テキスト検出及び認識を前記行うことは、単一フレームのレーテンシーを有し、前記追跡することは、単一フレームのレーテンシーを有する請求項40に記載の方法。
JP2014551242A 2012-01-06 2012-11-19 オブジェクトの追跡及び処理 Expired - Fee Related JP6030149B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261584062P 2012-01-06 2012-01-06
US61/584,062 2012-01-06
US13/567,412 2012-08-06
US13/567,412 US9349066B2 (en) 2012-01-06 2012-08-06 Object tracking and processing
PCT/US2012/065887 WO2013103450A1 (en) 2012-01-06 2012-11-19 Object tracking and processing

Publications (3)

Publication Number Publication Date
JP2015506516A true JP2015506516A (ja) 2015-03-02
JP2015506516A5 JP2015506516A5 (ja) 2016-08-25
JP6030149B2 JP6030149B2 (ja) 2016-11-24

Family

ID=48743957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014551242A Expired - Fee Related JP6030149B2 (ja) 2012-01-06 2012-11-19 オブジェクトの追跡及び処理

Country Status (7)

Country Link
US (1) US9349066B2 (ja)
EP (1) EP2801053A1 (ja)
JP (1) JP6030149B2 (ja)
KR (1) KR20140109901A (ja)
CN (1) CN104011740B (ja)
IN (1) IN2014CN04315A (ja)
WO (1) WO2013103450A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017078383A1 (ko) * 2015-11-04 2017-05-11 주식회사 핑거플러스 다중 사용자의 영상 콘텐츠 내 상품 좌표 추적 데이터에 대한 실시간 통합 데이터 매핑 장치 및 방법
KR101772066B1 (ko) * 2017-04-14 2017-09-12 (주)핑거플러스 다중 사용자의 영상 콘텐츠 내 상품 좌표 추적 데이터에 대한 실시간 통합 데이터 매핑 장치 및 방법
KR101879735B1 (ko) * 2017-03-15 2018-07-18 (주)넥셀 자동적인 학습데이터 생성 방법 및 장치와 이를 이용하는 자가 학습 장치 및 방법
JP2021530016A (ja) * 2018-07-06 2021-11-04 フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニーFacebook Technologies, Llc 汎用処理ユニットからハードウェアアクセラレータユニットに画像ベースの追跡オペレーションをオフローディングするためのシステム及び方法

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2507510B (en) * 2012-10-31 2015-06-24 Sony Comp Entertainment Europe Apparatus and method for augmented reality
US20150319510A1 (en) * 2014-04-30 2015-11-05 General Instrument Corporation Interactive viewing experiences by detecting on-screen text
EP2833325A1 (en) * 2013-07-30 2015-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for resource-adaptive object detection and tracking
US20150120035A1 (en) * 2013-10-25 2015-04-30 Infineon Technologies Ag Systems and Methods for Linking Trace Information with Sensor Data
US9122931B2 (en) * 2013-10-25 2015-09-01 TCL Research America Inc. Object identification system and method
RU2595559C2 (ru) * 2014-12-16 2016-08-27 Общество с ограниченной ответственностью "Аби Девелопмент" Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов
GB2536650A (en) 2015-03-24 2016-09-28 Augmedics Ltd Method and system for combining video-based and optic-based augmented reality in a near eye display
US9984315B2 (en) 2015-05-05 2018-05-29 Condurent Business Services, LLC Online domain adaptation for multi-object tracking
US10586102B2 (en) * 2015-08-18 2020-03-10 Qualcomm Incorporated Systems and methods for object tracking
RU2619712C1 (ru) * 2016-05-13 2017-05-17 Общество с ограниченной ответственностью "Аби Девелопмент" Оптическое распознавание символов серии изображений
US10108856B2 (en) 2016-05-13 2018-10-23 Abbyy Development Llc Data entry from series of images of a patterned document
RU2613849C1 (ru) 2016-05-13 2017-03-21 Общество с ограниченной ответственностью "Аби Девелопмент" Оптическое распознавание символов серии изображений
US10990830B2 (en) 2016-09-13 2021-04-27 Genetec Inc. Auto-calibration of tracking systems
US10497143B2 (en) * 2016-11-14 2019-12-03 Nec Corporation Advanced driver-assistance system using accurate object proposals by tracking detections
US10607463B2 (en) * 2016-12-09 2020-03-31 The Boeing Company Automated object and activity tracking in a live video feed
US10832440B2 (en) * 2017-08-31 2020-11-10 Nec Corporation Temporal multi-scale clockwork memory networks for object detection in videos
RU2657181C1 (ru) 2017-09-01 2018-06-08 Общество с ограниченной ответственностью "Аби Продакшн" Способ улучшения качества распознавания отдельного кадра
US10628961B2 (en) * 2017-10-13 2020-04-21 Qualcomm Incorporated Object tracking for neural network systems
RU2673016C1 (ru) 2017-12-19 2018-11-21 Общество с ограниченной ответственностью "Аби Продакшн" Способы и системы оптического распознавания символов серии изображений
US11980507B2 (en) 2018-05-02 2024-05-14 Augmedics Ltd. Registration of a fiducial marker for an augmented reality system
US11244175B2 (en) * 2018-06-01 2022-02-08 Qualcomm Incorporated Techniques for sharing of sensor information
CN110799984A (zh) * 2018-07-27 2020-02-14 深圳市大疆创新科技有限公司 跟踪控制方法、设备、计算机可读存储介质
US11983183B2 (en) * 2018-08-07 2024-05-14 Disney Enterprises, Inc. Techniques for training machine learning models using actor data
US11766296B2 (en) 2018-11-26 2023-09-26 Augmedics Ltd. Tracking system for image-guided surgery
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
US11980506B2 (en) 2019-07-29 2024-05-14 Augmedics Ltd. Fiducial marker
CN110636452B (zh) * 2019-08-28 2021-01-12 福建工程学院 无线传感器网络粒子滤波目标跟踪方法
CN110516620B (zh) 2019-08-29 2023-07-28 腾讯科技(深圳)有限公司 目标跟踪方法、装置、存储介质及电子设备
WO2021061112A1 (en) 2019-09-25 2021-04-01 Google Llc Gain control for face authentication
US10984513B1 (en) 2019-09-30 2021-04-20 Google Llc Automatic generation of all-in-focus images with a mobile camera
CN110942065B (zh) * 2019-11-26 2023-12-12 Oppo广东移动通信有限公司 文本框选方法、装置、终端设备及计算机可读存储介质
US11382712B2 (en) 2019-12-22 2022-07-12 Augmedics Ltd. Mirroring in image guided surgery
US20220103831A1 (en) * 2020-09-30 2022-03-31 Alibaba Group Holding Limited Intelligent computing resources allocation for feature network based on feature propagation
WO2022144543A1 (en) * 2020-12-31 2022-07-07 Darabase Limited Audio synchronisation
US11896445B2 (en) 2021-07-07 2024-02-13 Augmedics Ltd. Iliac pin and adapter
US11869250B2 (en) * 2021-08-24 2024-01-09 GM Global Technology Operations LLC Systems and methods for detecting traffic objects

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008192060A (ja) * 2007-02-07 2008-08-21 Denso Corp 画像処理装置及び画像処理方法
US8037496B1 (en) * 2002-12-27 2011-10-11 At&T Intellectual Property Ii, L.P. System and method for automatically authoring interactive television content

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6608930B1 (en) * 1999-08-09 2003-08-19 Koninklijke Philips Electronics N.V. Method and system for analyzing video content using detected text in video frames
US6782049B1 (en) * 1999-01-29 2004-08-24 Hewlett-Packard Development Company, L.P. System for selecting a keyframe to represent a video
US6754389B1 (en) * 1999-12-01 2004-06-22 Koninklijke Philips Electronics N.V. Program classification using object tracking
US6823084B2 (en) 2000-09-22 2004-11-23 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US20030043172A1 (en) * 2001-08-24 2003-03-06 Huiping Li Extraction of textual and graphic overlays from video
AU2003249663A1 (en) * 2002-05-28 2003-12-12 Yesvideo, Inc. Summarization of a visual recording
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US8379154B2 (en) * 2006-05-12 2013-02-19 Tong Zhang Key-frame extraction from video
CN101021855B (zh) * 2006-10-11 2010-04-07 北京新岸线网络技术有限公司 基于内容的视频检索系统
US7756296B2 (en) * 2007-03-27 2010-07-13 Mitsubishi Electric Research Laboratories, Inc. Method for tracking objects in videos using forward and backward tracking
US8781996B2 (en) * 2007-07-12 2014-07-15 At&T Intellectual Property Ii, L.P. Systems, methods and computer program products for searching within movies (SWiM)
US8009928B1 (en) * 2008-01-23 2011-08-30 A9.Com, Inc. Method and system for detecting and recognizing text in images
US8320674B2 (en) 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR
US8786781B2 (en) 2009-04-09 2014-07-22 Ati Technologies Ulc Detection and enhancement of in-video text
US9424255B2 (en) * 2011-11-04 2016-08-23 Microsoft Technology Licensing, Llc Server-assisted object recognition and tracking for mobile devices

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8037496B1 (en) * 2002-12-27 2011-10-11 At&T Intellectual Property Ii, L.P. System and method for automatically authoring interactive television content
JP2008192060A (ja) * 2007-02-07 2008-08-21 Denso Corp 画像処理装置及び画像処理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017078383A1 (ko) * 2015-11-04 2017-05-11 주식회사 핑거플러스 다중 사용자의 영상 콘텐츠 내 상품 좌표 추적 데이터에 대한 실시간 통합 데이터 매핑 장치 및 방법
US10531162B2 (en) 2015-11-04 2020-01-07 Cj Enm Co., Ltd. Real-time integrated data mapping device and method for product coordinates tracking data in image content of multi-users
KR101879735B1 (ko) * 2017-03-15 2018-07-18 (주)넥셀 자동적인 학습데이터 생성 방법 및 장치와 이를 이용하는 자가 학습 장치 및 방법
KR101772066B1 (ko) * 2017-04-14 2017-09-12 (주)핑거플러스 다중 사용자의 영상 콘텐츠 내 상품 좌표 추적 데이터에 대한 실시간 통합 데이터 매핑 장치 및 방법
JP2021530016A (ja) * 2018-07-06 2021-11-04 フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニーFacebook Technologies, Llc 汎用処理ユニットからハードウェアアクセラレータユニットに画像ベースの追跡オペレーションをオフローディングするためのシステム及び方法

Also Published As

Publication number Publication date
IN2014CN04315A (ja) 2015-09-04
JP6030149B2 (ja) 2016-11-24
CN104011740A (zh) 2014-08-27
US9349066B2 (en) 2016-05-24
US20130177203A1 (en) 2013-07-11
WO2013103450A1 (en) 2013-07-11
KR20140109901A (ko) 2014-09-16
CN104011740B (zh) 2017-06-09
EP2801053A1 (en) 2014-11-12

Similar Documents

Publication Publication Date Title
JP6030149B2 (ja) オブジェクトの追跡及び処理
KR102339323B1 (ko) 타겟 인식 방법, 장치, 저장 매체 및 전자 기기
US10198823B1 (en) Segmentation of object image data from background image data
JP5755664B2 (ja) 複数の特徴検出器の適用に基づいた画像特徴検出
JP6522595B2 (ja) トラッカ補助画像キャプチャ
JP6204659B2 (ja) 映像処理装置及び映像処理方法
WO2019023921A1 (zh) 一种手势识别方法、装置及设备
JP2018523877A (ja) オブジェクト追跡のためのシステムおよび方法
US10620826B2 (en) Object selection based on region of interest fusion
JP2015506516A5 (ja)
US20180082428A1 (en) Use of motion information in video data to track fast moving objects
CN112651292A (zh) 基于视频的人体动作识别方法、装置、介质及电子设备
WO2021196648A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
JP2022546201A (ja) ターゲット検出方法および装置、電子機器並びに記憶媒体
CN110619656A (zh) 基于双目摄像头的人脸检测跟踪方法、装置及电子设备
WO2023155350A1 (zh) 一种人群定位方法及装置、电子设备和存储介质
CN112541418B (zh) 用于图像处理的方法、装置、设备、介质和程序产品
CN115147449A (zh) 一种多目标跟踪方法、电子设备、存储介质及产品
KR101909326B1 (ko) 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템
JP2018005510A (ja) 画像処理装置、画像処理方法およびプログラム
JP2012084056A (ja) 物体検出装置
US9508155B2 (en) Method and apparatus for feature computation and object detection utilizing temporal redundancy between video frames
Wang et al. A fast hand motion detection based on FIFO
Mistree et al. Real time object tracking for high performance system using GPGPU
JP2023178957A (ja) 動作認識装置、方法及び電子機器

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160704

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160704

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160913

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161019

R150 Certificate of patent or registration of utility model

Ref document number: 6030149

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees