JP2015506516A

JP2015506516A - オブジェクトの追跡及び処理

Info

Publication number: JP2015506516A
Application number: JP2014551242A
Authority: JP
Inventors: コー、ヒュン−イル; ユ、キスン; ビク、ユン−キ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-01-06
Filing date: 2012-11-19
Publication date: 2015-03-02
Anticipated expiration: 2032-11-19
Also published as: IN2014CN04315A; JP6030149B2; CN104011740A; US9349066B2; US20130177203A1; WO2013103450A1; KR20140109901A; CN104011740B; EP2801053A1

Abstract

方法は、追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡することを含む。その方法は、オブジェクト検出器又はオブジェクト認識器のマルチフレームのレーテンシーにより選択された複数のフレームのうちのフレームの部分組のオブジェクト処理を行うことも含む。その方法は、結合された出力を生成するために追跡結果をオブジェクト処理の結果と結合することを含む。

Description

関連出願の相互参照
本出願は、ここにおける引用によってその内容全体がここにおいて組み入れられている米国特許出願第１３／５６７，４１２号（出願日：２０１２年８月６日）、及び米国仮特許出願第６１／５８４，０６２号（出願日：２０１２年１月６日）に基づくものであり及び米国特許出願第１３／５６７，４１２号（出願日：２０１２年８月６日）、及び米国仮特許出願第６１／５８４，０６２号（出願日：２０１２年１月６日）の利益を主張するものである。

本開示は、概して、画像処理に関するものである。

技術の進歩の結果、コンピューティングデバイスがますます小型化しかつますます強力になっている。例えば、現在では、小型、軽量で、ユーザによって携帯しやすい様々なポータブルパーソナルコンピューティングデバイスが存在しており、無線コンピューティングデバイス、例えば、ポータブルな無線電話、パーソナルデジタルアシスタント（ＰＤＡ）、及びページングデバイス、を含む。より具体的には、ポータブルな無線電話、例えば、携帯電話及びインターネットプロトコル（ＩＰ）電話、は、無線ネットワークを通じて音声パケット及びデータパケットを通信することができる。さらに、数多くの該無線電話は、そこに組み入れられているその他のタイプのデバイスを含む。例えば、無線電話は、デジタルスチルカメラと、デジタルビデオカメラと、デジタルレコーダと、オーディオファイルプレーヤーとも含むことができる。

コンピューティングデバイス（例えば、無線電話）のカメラによってキャプチャされている画像内のテキストを識別するためにテキストの検出及び認識を該コンピューティングデバイスによって行うことができる。キャプチャされたテキストがカメラに対して動いていることがあり（例えば、動いている車両上のテキスト）、テキストの正確な識別を提供しつつ動いているテキストを追跡することが必要な場合がある。

オブジェクト（ｏｂｊｅｃｔ）の処理及び追跡技法は、映像データからオブジェクト（例えば、テキスト）を正確に識別するために及び識別されたオブジェクトの位置を追跡するためにオブジェクト追跡及びオブジェクト処理（例えば、オブジェクト検出、オブジェクト認識、又はそれらの組み合わせ）の両方を行うことができる。追跡及び処理は、時間的に重なり合う又は少なくとも部分的に重なり合うことができ（例えば、追跡又は追跡法の一部分を処理又は処理法の一部分と同時並行して行うことができる）、テキストを処理した結果（例えば、テキストの検出及び／又は認識の結果）を追跡結果と結合してテキストの状態情報を生成することができる。

単一画像におけるテキストの局所化（ｌｏｃａｌｉｚａｔｉｏｎ）及び認識を利用する従来のテキスト情報抽出技法と異なり、提案される技法は、ユーザの経験を向上させるために及びオブジェクト追跡及び検出システムの性能を向上させる（例えば、より高いテキスト認識応答率）ために映像ストリーム内でのテキストの局所化及び認識を利用することができる。単一の画像内ではなく、映像ストリームにおいてテキストの局所化及び認識を行うことによって、提案される技法は、リアルタイムの経験をユーザに提供することができ及び偽アラーム率（すなわち、映像ストリーム内での不正確なテキスト検出）を低減させることができる。さらに、提案される技法は、向上したテキスト検出精度を達成するために映像ストリームのフレーム間の時間情報を利用する。

特定の実施形態において、方法は、追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡することを含む。その方法は、オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された複数のフレームのうちのフレームの部分組のオブジェクト処理を行うことも含む。その方法は、結合された出力を生成するために追跡結果をオブジェクト処理の出力と結合することを含む。

他の特定の実施形態において、装置は、追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡するように構成された追跡器（ｔｒａｃｋｅｒ）を含む。その装置は、オブジェクトプロセッサのマルチフレームレーテンシーにより選択された複数のフレームのうちのフレームの部分組内のオブジェクトを処理するように構成されたオブジェクトプロセッサも含む。その装置は、結合された出力を生成するために追跡器の追跡結果をオブジェクトプロセッサの出力と結合するように構成された時間フィルタ（ｔｅｍｐｏｒａｌｆｉｌｔｅｒ）を含む。

開示される実施形態のうちの少なくとも１つによって提供される特定の利点は、オブジェクト検出及び／又は認識技法とともに高いフレームレート及び低いレーテンシーを有する追跡技法を利用することによってオブジェクト追跡及びオブジェクト検出を高い精度で行うことができることを含む。

次の節、すなわち、図面の簡単な説明、発明を実施するための形態、及び請求項を含む本出願全体を検討後に、本開示のその他の態様、利点、及び特徴が明らかになるであろう。

オブジェクトの追跡及び処理を行うためのシステムの特定の実施形態のブロック図である。オブジェクトの追跡及び検出を行うためのシステムの特定の実施形態のブロック図である。オブジェクトの追跡及び認識を行うためのシステムの他の特定の実施形態のブロック図である。図１のシステムによって行うことができるオブジェクトの追跡及び処理の例を示した一般図である。図１のシステムによって行うことができるオブジェクトの追跡及び処理の他の例を示した一般図である。図１のシステムによって行うことができるオブジェクトの追跡及び処理の他の例を示した一般図である。オブジェクトの追跡及び処理を行う方法の流れ図である。オブジェクトの追跡及び処理を行う他の方法の流れ図である。オブジェクトの追跡及び処理を行うために動作可能であるプロセッサを含む無線デバイスの特定の実施形態のブロック図である。

テキストの局所化は、複数の映像フレームを含む映像ストリーム内でのオブジェクト（すなわち、テキスト）の追跡及び認識中に行うことができる。テキストの局所化は、入力された映像ストリーム内でテキスト領域を探し出すために行うことができる。映像ストリーム内において、ｔ番目のフレームＩ_ｔを考慮した場合、映像ストリーム内のテキストボックスの組は次のように表すことができる。

ここで、Ｎ_ｔは、テキストボックスの数であり、ｘ_ｔ ^ｉは、ｉ番目のボックスである。各テキストボックスは、平行四辺形としてモデル化することができる。さらに、各テキストボックスは、次のように表すことができる。

ここで、ｐ、ｑ、ｒ、及びｓは、平行四辺形の４つの辺である。さらに、Ｂ（ｘ_ｔ ^ｉ）は、ｘ_ｔ ^ｉに対応する映像フレーム内の領域を表すことができる。Ｘ_ｔは、観測の結果推定することができるテキストボックスの組の隠れた状態（すなわち、未知の状態又は位置）を表すことができる。従来の単一画像に基づくアルゴリズムでは、単一の画像からの検出結果のみがテキストボックスＸ_ｔの位置を得るために考慮される。単一画像に基づくアルゴリズムでは、検出結果は以下のように表すことができる。

式３の単一画像に基づくアルゴリズムは、テキストボックスの時間情報、等の追加データを利用しない。しかしながら、映像ストリームが与えられた場合、追加情報、例えば、時間情報、を利用することができる。例えば、時間情報は、テキストボックスの一連の観測Ｚ_０：ｔを使用することによってテキストボックスの最適な位置を推定するために利用することができ、ここで、一連の観測Ｚ_０：ｔは、次のように表すことができる。

従って、テキストボックスＸ_ｔ（又はテキストボックスの組）の位置は、一連の観測（すなわち、Ｚ_ｔ、Ｚ_ｔ−１、Ｚ_ｔ−２、．．．、Ｚ_０）から推定することができる。上記の推定は、ベイジアンフィルタリングの枠組で反復的に公式化することができる。

ここで、式５ａは、予測ステップであり、式５ｂは、フィルタリング（又は更新）ステップである。従って、Ｘ_ｔは、式５ａ及び式５ｂに基づいて推定することができる。Ｘ_ｔを推定した（すなわち、テキストボックスの位置を決定した）後は、各テキストボックス内の単語も推定することができる（すなわち、テキストボックス内のテキストを決定することができる）。単語推定ステップは、以下のフィルタリングアルゴリズムを用いて行うことができる。

特定の実施形態において、時間フィルタリングアルゴリズムは、データ関連付け技法とともに複数のカルマン追跡器（Ｋａｌｍａｎｔｒａｃｋｅｒ）を利用することを含むことができる。テキストボックスは、一般的には、人間（例えば、スポーツの試合における選手、歩行者）、及び動物（例えば、蟻）のように対話性の高いオブジェクトではないため、従来のマルチオブジェクト検出及び追跡方法は、テキストボックスの位置を推定するのには適さない場合があることが注目されるべきである。従って、映像ストリーム内のテキストボックスに関するマルチオブジェクトの検出及び追跡を行うために時間フィルタリングアルゴリズムを使用することができる。

テキストボックスのダイナミック性は、以下のように表すことができる。

ここで、Ａ^ｉ _ｔ−１（・）は、映像ストリームの隣接フレーム間でのテキストボックスの動き（すなわち、局所的な動き）をモデル化したものであり、ｎ_ｉ ^ｔは、共分散Ｑ_ｔ＝σ_１ ^２Ｉを有するゼロ平均多変量正規分布から導き出される。Ａ^ｉ _ｔ−１（・）を推定する際には、動き履歴（例えば、自動回帰モデル）ではなく画像の特徴を使用することができ、その理由は、テキストボックスの動きは画像の特徴を用いて信頼できる形で推定できるためである。

画像内の対象ポイントを検出するために角検出法を実装することができる。例えば、ｔ−１番目のフレームＩ_ｔ−１における領域Ｂ（ｘ^ｉ _ｔ−１）の角を抽出するためにＦＡＳＴ（ＦｅａｔｕｒｅｓｆｒｏｍＡｃｃｅｌｅｒａｔｅｄＳｅｇｍｅｎｔＴｅｓｔ）角検出法を使用することができる。従って、領域Ｂ（ｘ^ｉ _ｔ−１）において抽出されたＦＡＳＴ角の対応するポイントは、Ｌｕｃａｓ−Ｋａｎａｄｅアルゴリズムを用いてｔ番目のフレームＩ_ｔにおいて決定することができる。次に、対応するポイントからのテキストボックスに関する変換を、ＲＡＮＳＡＣ（ＲａｎｄｏｍＳａｍｐｌｅＣｏｎｓｅｎｓｕｓ）アルゴリズム及びＤＬＴ（ＤｉｒｅｃｔＬｉｎｅａｒＴｒａｎｓｆｏｒｍａｔｉｏｎ）アルゴリズムを含むロバストな（ｒｏｂｕｓｔ）動き推定技法を用いて推定することができる。特に、テキストボックスの動きは、類似性変換（ｓｉｍｉｌａｒｉｔｙｔｒａｎｓｆｏｒｍ）を用いて近似値を求めることができると推定することができる。Ｂ（ｘ^ｉ _ｔ−１）に関する変換は次のように表される。

Ａ∈Ｒ^２×２及びｂ∈Ｒ^２である場合、Ａ^ｉ _ｔ−１（ｘ^ｉ _ｔ−１）は以下のように表すことができる。

ここで、ｘ^ｉ _ｔ−１＝［ｐ^ｉ _ｔ−１，ｑ^ｉ _ｔ−１，ｒ^ｉ _ｔ−１，ｓ^ｉ _ｔ−１］。測定式は以下のように表すことができる。

ここで、ｚ_ｔ ^ｊｉは、ｉ番目の追跡器に対応する検出結果であり、ｍ_ｔ ^ｉは、共分散Ｒ_ｔ＝σ_２ ^２Ｉを有するゼロ平均多変量正規分布から導き出すことができる。

式９において示されるように、観測値ｚ_ｔ ^ｊｉ（∈Ｚ_ｔ）をｉ番目の追跡器に割り当てることはデータ関連付け問題を生じさせることがある。このデータ関連付け問題に対処するために、追跡器と検出結果との間でスカラー値を生み出すためにマッチング関数が開発されている。

式１０は、ｔ番目のフレームにおけるオブジェクト（すなわち、テキストボックス）の予測位置であるため、マッチング関数は、ｉ番目の追跡器とｊ番目の観測されたテキストボックスとの間で、以下のように表される正規化されたオーバーラッピングエリアとして定義することができる。

データ関連付けにおいて、Ｍ（ｉ，ｊ）≧０．８を示す対を考慮した場合、観測値は欲ばりな（ｇｒｅｅｄｙ）方法で追跡器に割り当てられる。

データ関連付けが行われた後は、独立したＫａｌｍａｎフィルタを利用することができる。検出結果が既存の追跡器に対応しないときには、新しいＫａｌｍａｎフィルタを開始することができ、（例えば、インライア（ｉｎｌｉｅｒ）の数が少ないことに起因して）追跡器の動きが決定されないときには追跡器（すなわち、追跡器の出力）は無視される。しかしながら、動き推定が成功であり（すなわち、Ａ^ｉ _ｔ−１が入手可能であり）、新しい観測値が追跡器に割り当てられるときには、Ｋａｌｍａｎフィルタを用いて状態（すなわち、状態情報）を更新することができる。低レベルの画像の特徴に基づく従来の方法とは異なり、検出結果が追跡器に割り当てられないときがある（すなわち、動き推定が不成功であるか又は入手可能でないとき）ことが注目されるべきである。観測値がない場合は、σ_２＝∞に設定し、これは、測定更新がスキップされることを意味する。

上記のデータ関連付け法及びＫａｌｍａｎフィルタリングに基づき、観測値の組に対応して追跡器の組を得ることができる。テキストボックス内の単語（すなわち、実際のテキスト）を決定するために入手可能な観測値に関して光学文字認識（ＯＣＲ）を行うことができる。各Ｋａｌｍａｎフィルタに関するｎの最近のＯＣＲ結果の中で、最も頻繁な単語が対応する追跡器内の単語であるとみなされる。タイ（ｔｉｅ）である場合は、結果は割り当てられない。

精度を向上させるために（すなわち、偽アラーム数を減らすために）、特定のテキストボックスが最近のｎフレームにおいて最低ｍ回検出されたときだけその特定のテキストボックスが示される（又は表示される）。テキストボックスの検出確率をｐと仮定すると、この技法は、テキストボックス検出精度を向上させることができる。向上された精度は以下のように表すことができる。

例えば、ｎ＝６、ｍ＝３、及びｐ＝０．７である場合は、ｆ（ｐ，ｎ，ｍ）は、０．９２９５になる。従って、時間情報を利用することによって（又は偽アラームを減らすことによって）精度を向上させることができる。さらに、テキストボックスが映像ストリームのフレームにおいて有意な形でオーバーラップするのを防止するために厳しい制約を課すことができる。
特定の実施形態において、より良いユーザ経験、例えば、より高いフレームレート、を提供するために及び計算電力を節約するためにマルチスレッディングを実装することができる。単一のスレッドを使用する従来のテキスト検出技法及び従来のテキスト認識技法は、検出及び認識段階の低いフレームレートに起因して時間がかかることがあり、リアルタイムの経験をユーザに提供することができず、及び、高いフレームレートを生み出すことができない。開示される実施形態は、ＯＣＲスレッドと追跡スレッドとを含むマルチスレッド処理を利用する。ＯＣＲスレッドは、シーンテキストを処理し及び時間フィルタリングを行うことができる。ＯＣＲスレッドと実質上同時並行して、追跡スレッドは、高いフレームレートで（例えば、レビューを生成することによって）時間フィルタリングの結果を更新することができる。追跡段階は、検出及び認識段階（すなわち、ＯＣＲスレッド）よりも高いフレームレート（低いレーテンシー）を有することが注目されるべきである。従って、ＯＣＲスレッドと追跡スレッドとを含むマルチスレッド実装を用いることによって、単一のスレッドを利用するシステムと比較してより高いフレームレートが達成される。

時間フィルタリングプロセス中において、得られたテキストボックスの座標は、時間フィルタリングプロセスのマルチフレームレーテンシーに起因して現在のフレームのそれでないことがある（例えば、座標は、前フレーム内のテキストボックスの座標系であることができる）。従って、式１０において表されるように、ｔ番目のフレーム内の推定されるテキストボックスを現在のフレームＩ_ｔ＋ｋ（ｋ≧１）の座標系に変換するのが有利である。開示される実施形態は、図１乃至７を参照してさらに詳細に説明される。

図１を参照し、オブジェクトの追跡及び処理を行うシステムの特定の実施形態が開示され、概して１００の指定数字が付される。システム１００は、画像処理デバイス１０４に結合された画像キャプチャデバイス１０２を含む。画像処理デバイス１０４は、表示装置１０６及びメモリ１０８に結合される。画像処理デバイス１０４は、表示のためにオブジェクトの更新された状態情報を生成するために、着信した画像データ又は映像データ内でオブジェクト１５１（例えば、テキストボックス１５２）を検出し及び追跡し及びオブジェクトのオブジェクト処理を行うように構成される。オブジェクト処理は、オブジェクト検出、オブジェクト認識、又はそれらの組み合わせを含むことができる。
特定の実施形態において、画像キャプチャデバイス１０２は、テキスト１５３を含むテキストボックス１５２を有するシーンの入力画像１５０を表現する着光を画像センサ１１２に向けるように構成されたレンズ１１０を含むことができる。画像センサ１１２は、検出された着光に基づいて映像データ又は画像データ１６０を生成するように構成することができる。画像キャプチャデバイス１０２は、カメラ、映像録画装置、無線デバイス、ポータブル電子デバイス、又はそれらの組み合わせを含むことができる。テキストボックス１５２は例示目的であり、シーン内には現れないことがある点が注目されるべきである。テキストボックス１５２は、入力画像１５０内の対応するオブジェクト１５１を例示するために使用することができる。図１は、１つのオブジェクト１５１を例示しているが、画像キャプチャデバイス１０２によってキャプチャされた入力画像１５０は、複数のオブジェクトを含むことができる。

特定の実施形態において、画像処理デバイス１０４は、追跡結果を生成するために着信映像／画像データ１６０においてオブジェクト１５１（例えば、テキスト１５３を含むテキストボックス１５２）を検出し及び映像データ１６０の複数のフレームの各々においてオブジェクトを追跡するように構成することができ及び複数のフレームのうちの単一のフレームのオブジェクト処理（例えば、オブジェクト検出及び／又は認識）を行うこともできる。画像処理デバイス１０４は、結合された出力を生成するために及び結合された出力に基づいてオブジェクトの状態情報を更新するために追跡結果をオブジェクト処理の出力と結合するようにさらに構成することができる。

例示として、追跡器１１４は、映像データ１６０の複数のフレームのうちのすべてのフレームに関する追跡結果を生成し及び追跡器１１４の単一フレームのレーテンシーに起因してフレームごとに（例えば、フレーム１結果、フレーム２結果、フレーム３結果、フレーム４結果、．．．、フレームｎ結果）状態情報１５４を更新することができる。従って、状態情報１５４は、追跡器１１４から追跡結果を入手可能なときに（すなわち、すべてのフレームにおいて）更新することができる。対照的に、オブジェクト検出器／認識器１２４は、オブジェクト検出器／認識器１２４のマルチフレームレーテンシーに起因して、追跡器１１４よりも低い頻度でフレーム結果を生成し、従って、追跡器１１４よりも低い頻度で状態情報を更新することができる。例えば、オブジェクト検出器／認識器１２４は、幾つかのフレームに関してはフレーム結果を生成することができない（すなわち、幾つかのフレームを“スキップする”）。従って、状態情報１５４は、フレームの部分組（すなわち、全フレームよりも少ない）に関するオブジェクト検出器／認識器１２４の出力に基づいて更新することができる。例えば、追跡器１１４は、フレーム１からフレームｎまでのすべてのフレームに関してフレーム結果を生成することができる一方で、図１に示されるように、オブジェクト検出器／認識器１２４は、フレーム１、５、１３、．．．、及びｎのみに関して出力を生成することができる。
更新された状態情報１５４の出力１７０は、表示装置１０６に提供することができる。表示装置１０６は、更新された状態情報１５４に基づいて出力画像１７０を表示することができる。例えば、状態情報１５４及び後続する更新（すなわち、更新された状態情報）は、オブジェクト１５１に関する情報、例えば、フレームからフレームまでのオブジェクトの位置、フレームからフレームまでのオブジェクト内に含まれるテキスト、オブジェクトに関連する増強コンテンツ、又はそれらのあらゆる組み合わせ、を含むことができる。

例示として、画像処理デバイス１０４は、オブジェクト追跡器及び認識器１０１を含むことができる。オブジェクト追跡器及び認識器１０１は、追跡器１１４と、オブジェクト検出器／認識器１２４と、時間フィルタ１３４と、を含むことができる。追跡器１１４は、追跡結果を生成するために映像データ１６０の複数のフレームの各々においてオブジェクト１５１を追跡するように構成することができる。特定の実施形態において、追跡器１１４は、単一フレームのレーテンシーを有することができる。例えば、追跡器１１４は、複数のフレームの各々に関するフレーム結果（例えば、フレーム１結果、フレーム２結果、．．．フレームｎ結果）を生成するために映像データ１６０の複数のフレームの各々においてオブジェクト１５１を追跡することができる。オブジェクト検出器／認識器１２４は、複数のフレームのうちのフレームの部分組においてオブジェクト１５１を処理する（例えば、オブジェクト１５４を検出する、オブジェクト１５４を認識する、又はそれらのあらゆる組み合わせ）ように構成することができる。例えば、オブジェクト検出器／認識器１２４は、複数のフレームのうちのフレームの部分組においてオブジェクト１５１を検出及び認識するように構成されたオブジェクト検出器及びオブジェクト認識器であることができる。
特定の実施形態において、オブジェクト検出器／認識器１２４は、マルチフレームのレーテンシーを有することができる。例えば、オブジェクト検出器／認識器１２４は、複数のフレームのうちの１つ以上のフレームに関するフレーム結果を生成することができない（すなわち、オブジェクト検出器／認識器１２４は、追跡器１１２よりも低い頻度でフレーム結果を生成する）。オブジェクト検出器／認識器１２４は、図１に示されるように、フレーム１、５、１３、．．．、及びｎに関する結果を生成することができるが、フレーム２、３、４、６、７、８、９、１０、１１、及び１２に関する結果は生成できない。

従って、状態情報１５４を更新時には、１つ以上のフレーム（例えば、フレーム２、３、４、６、７、８、９、１０、１１、及び１２）に関してはオブジェクト処理結果（例えば、オブジェクト検出結果、オブジェクト認識結果、又はそれらのあらゆる組み合わせ）を入手可能でないことがある。例えば、フレーム１３処理結果（すなわち、現在のフレーム）に基づいて状態情報１５４を更新時には、時間フィルタ１３４は、フレーム５（オブジェクト検出器／認識器１２４の前フレーム）とフレーム１３との間での動きを補償する。特定の実施形態では、時間フィルタ１３４は、履歴的な動き情報（すなわち、動き履歴）に基づいて現在のフレームと前フレームとの間での動きを補償することができる。例示として、時間フィルタ１３４は、オブジェクト検出器／認識器１２４のフレーム５結果とフレーム１３結果との間での動き情報を決定するためにフレーム１結果とフレーム５結果（すなわち、履歴的動き情報）との間の動き情報を利用することができる。従って、オブジェクト検出器／認識器１２４結果が入手可能であるときに、時間フィルタ１３４は、新しいオブジェクト検出器／認識器１２４結果、オブジェクト検出器／認識器１２４の以前の結果、動き履歴、又はそれらのあらゆる組み合わせに基づいて状態情報１５４を更新することができる。さらに、（すなわち、複数のフレームのすべてのフレームに関して）追跡器１１４結果が入手可能であるときには、時間フィルタ１３４は、追跡器１１４結果に基づいて状態情報１５４を更新することができる。オブジェクト検出器／認識器１２４及び追跡器１１４は、異なる頻度で結果を生成し、従って、時間フィルタ１３４は、オブジェクト検出器／認識器１２４及び追跡器１１４によって非同期的にアクセスすることができる。

時間フィルタ１３４は、オブジェクト検出器／認識器１２４からの出力（すなわち、複数のフレームの部分組に対応する出力）よりも高い頻度で追跡器１１４から追跡結果（すなわち、複数のフレームのうちの各フレームに対応する追跡結果）を受信することができ及び結合された出力１４４を生成するために及び結合された出力１４４に基づいてオブジェクト１５１の状態情報１５４を更新するために追跡器１１４の追跡結果をオブジェクト検出器／認識器１２４の出力と結合するように構成することができる。従って、状態情報１５４は、結合された出力１４４と比較して追加情報を含むことができる。追加情報は、動き履歴、再構築された三次元ポイント、ビューポイント、等を含むことができる。特定の実施形態において、オブジェクト１５１は、テキストボックス（例えば、テキスト１５３を含むテキストボックス１５２）及びテキストボックス１５２の位置に対応することができる。

特定の実施形態において、時間フィルタ１３４は、図６に関して説明されるようにＫａｌｍａｎフィルタと、最尤推定器と、を含むことができる。Ｋａｌｍａｎフィルタは、テキストボックス１５２の座標を含むテキストボックス１５２の位置を決定するように構成することができる。例えば、テキストボックス１５２の位置は、テキスト１５３を包含するバウンディンボリューム（ｂｏｕｎｄｉｎｇｖｏｌｕｍｅ）の二次元（２Ｄ）位置（例えば、ｘ及びｙ座標）を含むことができる。テキスト１５３を包含するバウンディングボリュームの三次元（３Ｄ）位置（例えば、ｘ、ｙ、及びｚ座標）は、２Ｄ位置から推測又は導出することができる。特定の実施形態において、位置処理は、Ｋａｌｍａｎフィルタ、パーティクル（粒子）フィルタ、又はＥｘｔｅｎｄｅｄＫａｌｍａｎフィルタのうちの少なくとも１つを用いて行うことができる。特定の実施形態において、最尤推定器又は最大事後推定器のうちの少なくとも１つを用いて識別情報を入手することができる。
最尤推定器は、光学文字認識（ＯＣＲ）を介して提案されるテキストデータを生成するように及び提案されるテキストデータを検証するために辞書にアクセスするように構成することができる。例えば、最尤推定器は、メモリ１０８に格納された１つ以上の辞書、例えば、代表的辞書１４０、にアクセスすることができる。提案されるテキストデータは、複数のテキスト候補１４４と、複数のテキスト候補１４４の各々と関連付けられた信頼度データと、を含むことができる。最尤推定器は、辞書１４０のエントリに対応するテキスト候補と関連付けられた信頼度値によりそのテキスト候補を選択するように構成することができる。例示として、テキスト１５３は、信頼度値９５％の‘車’として、信頼度９０％の“猫”として、信頼度値５０％の‘運ぶ’として識別することができる。テキスト候補‘車’が最高の信頼度値を有するため、‘車’を最尤推定器によって選択することができる。

特定の実施形態において、オブジェクト検出器／認識器１２４によるオブジェクト処理（例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ）は、画像処理デバイス１０４が組み入れられるプロセッサのオブジェクト処理段階中に行うことができる。プロセッサのオブジェクト処理段階は、オブジェクト検出段階、オブジェクト認識段階、又はそれらのあらゆる組み合わせを含むことができる。同様に、追跡器１１４による追跡は、プロセッサの追跡段階中に行うことができる。プロセッサは、結合段階をさらに含むことができ、追跡段階は、時間フィルタ１３４及び更新された状態情報１５４の結合された出力の生成を含む。追跡段階、オブジェクト処理段階（例えば、検出段階、認識段階、又はそれらのあらゆる組み合わせ）、及び結合段階は、図４を参照してさらに詳細に説明される。

特定の実施形態では、表示装置１０６は、出力画像１７０を生成するために更新された状態情報１５４を使用するように構成することができる。例えば、表示装置１０６は、画像プレビュー画面又はその他の視覚表示装置を含むことができる。表示装置１０６上に表示された出力画像１７０は、識別されたテキスト１５７を含むことができ及びオブジェクト状態に基づく画像コンテンツ１５８も含むことができる。例えば、画像コンテンツ１５８は、識別されたテキスト１５７に基づいて出力画像１７０内に挿入された増強された特徴を含むことができる。増強された特徴は、テキスト１５７が埋め込まれた関連するコンテンツを含むことができる。例えば、テキスト１５７が‘車’である場合は、出力画像１７０は、テキスト‘車’と、車の画像、‘車’の定義、車の型式、製造、及び／又は車種、その他の情報、例えば、履歴データ、又はそれらのあらゆる組み合わせを含むことができる。従って、出力画像１７０は、現実の世界の場面から取り出されたテキスト１５７を含むことができ及びテキスト１５７に基づいた関連するコンテンツも含むことができる。このようにして出力画像１７０を生成することによって、画像処理デバイス１０４は、役に立つ及びおもしろい情報をユーザに提供することができる。

特定の実施形態において、（例えば、追跡器１１４、オブジェクト検出器／認識器１２４、時間フィルタ１３４、又はそれらのあらゆる組み合わせを含む）画像処理デバイス１０４の少なくとも一部分は、専用回路を介して実装することができる。その他の実施形態では、画像処理デバイス１０４の少なくとも一部分は、画像処理デバイス１０４内においてコンピュータによって実行可能なコードを実行するハードウェアプロセッサ（又は複数のプロセッサ）によって実装することができる。例示として、メモリ１０８は、画像処理デバイス１０４内の又は画像処理デバイス１０４に結合されたプロセッサ又は複数のプロセッサによって実行可能であるプログラム命令１４２を格納する非一時的なコンピュータによって読み取り可能な媒体を含むことができる。プログラム命令１４２は、映像データ、例えば、映像データ１６０、の複数のフレームの各々においてオブジェクトを追跡するためのコードと、追跡結果を生成するためのコードと、を含むことができる。プログラム命令１４２は、複数のフレームのうちのフレームの部分組内のオブジェクトのオブジェクト処理（例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ）を行うためのコードを含むことができ、フレームの部分組は、検出器／認識器１２４のマルチフレームレーテンシーにより選択される。プログラム命令１４２は、結合された出力を生成するために追跡結果をオブジェクト処理（例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ）の出力と結合するためのコードと、単一のフレームのオブジェクト処理の完了に応答して、結合された出力に基づいてオブジェクトの状態情報を更新するためのコードと、を含むこともできる。

画像キャプチャデバイスにおいてオブジェクト検出器／認識器のみを利用するシステムは、オブジェクト検出器／認識器のマルチフレームレーテンシーに起因して表示された出力においてちらつきが生じることがある。例えば、第１のフレーム内の第１の位置（例えば、ｘ１、ｙ１）におけるオブジェクトは、オブジェクト検出器／認識器が第１のフレームの検出及び認識を完了するまでに第４のフレーム内の第４の位置（例えば、ｘ４、ｙ４）に移動してしまっており、出力画像の（例えば、失われたフレームに起因して）ジャンプ又はちらつきを引き起こす可能性がある。さらに、追跡器のみを使用するシステムは、画像キャプチャデバイスによってキャプチャされたオブジェクトを正確に識別することができない。図１のシステムは、オブジェクト検出器／認識器（例えば、検出及び認識エンジン）のみ又は追跡器のみを利用する画像処理デバイスと比較してちらつきを低減又は除去し及びレーテンシーを短縮するためにオブジェクト検出器／認識器をオブジェクト追跡器とともに利用することによって図１の画像キャプチャデバイスによってキャプチャされるオブジェクトのより正確な情報および識別をユーザに提供することができる。
図２を参照し、オブジェクトの追跡及び検出を行うためのシステムの特定の実施形態が開示され、概して２００の指定数字が付される。システム２００は、画像キャプチャデバイス１０２と、表示装置１０６と、画像処理デバイス２０４に結合された図１のメモリ１０８と、を含む。画像キャプチャデバイス１０２、表示装置１０６、及びメモリ１０８は、図１に関して説明されるように動作するように構成することができる。画像処理デバイス２０４は、着信画像データ又は映像データ内の入力画像１５０のオブジェクト１５１を検出するように及びオブジェクト１５１を追跡してオブジェクト検出を行い、表示のためにオブジェクト１５１の更新された状態情報１５４を生成するように構成することができる。

画像処理デバイス２０４は、オブジェクト追跡器と検出器２０１とを含む。オブジェクト追跡器及び検出器２０１は、追跡器１１４と、オブジェクト検出器２２４と、時間フィルタ１３４と、を含む。追跡器１１４は、追跡結果を生成するために映像データ１６０の複数のフレームの各々においてオブジェクト１５１を追跡するように構成することができる。特定の実施形態では、追跡器１１４は、単一フレームのレーテンシーを有する。例えば、追跡器１１４は、複数のフレームの各々に関するフレーム結果（例えば、フレーム１結果、フレーム２結果、．．．フレームｎ結果）を生成するために映像データ１６０の複数のフレームの各々においてオブジェクト１５１を追跡することができる。オブジェクト検出器１２４は、複数のフレームのうちのフレームの部分組においてオブジェクト１５１を検出するように構成することができる。特定の実施形態において、オブジェクト検出器２２４は、オブジェクト認識を行うようには構成されない。

画像処理デバイス２０４は、オブジェクト認識を行わずにオブジェクト追跡及びオブジェクト検出を行うことができるため、画像処理デバイスは、オブジェクト追跡、オブジェクト検出、及びオブジェクト認識を行う図１の画像処理デバイス１０４よりも少ない計算電力を消費する。

図３を参照し、オブジェクトの追跡及び認識を行うためのシステムの他の特定の実施形態が開示され、概して３００の指定数字が付される。システム３００は、画像キャプチャデバイス１０２と、表示装置１０６と、画像処理デバイス３０４に結合された図１のメモリ１０８と、を含む。画像キャプチャデバイス１０２、表示装置１０６、及びメモリ１０８は、図１に関して説明されるように動作するように構成することができる。画像処理デバイス３０４は、着信画像データ又は映像データ内の入力画像１５０のオブジェクト１５１を認識するように及びオブジェクト１５１を追跡してオブジェクト認識を行い、表示のためにオブジェクト１５１の更新された状態情報１５４を生成するように構成することができる。

画像処理デバイス３０４は、オブジェクト追跡器及び認識器３０１を含む。オブジェクト追跡器及び認識器３０１は、追跡器１１４と、オブジェクト認識３２４と、時間フィルタ１３４と、を含む。追跡器１１４は、追跡結果を生成するために映像データ１６０の複数のフレームの各々においてオブジェクト１５１を追跡するように構成することができる。特定の実施形態では、追跡器１１４は、単一フレームのレーテンシーを有する。例えば、追跡器１１４は、複数のフレームの各々に関するフレーム結果（例えば、フレーム１結果、フレーム２結果、．．．フレームｎ結果）を生成するために映像データ１６０の複数のフレームの各々においてオブジェクト１５１を追跡することができる。オブジェクト認識器３２４は、複数のフレームのうちのフレームの部分組においてオブジェクト１５１を認識するように構成することができる。特定の実施形態において、オブジェクト認識３２４は、オブジェクト検出を行うようには構成されない。

画像処理デバイス３０４は、オブジェクト検出を行わずにオブジェクト追跡及びオブジェクト認識を行うことができるため、画像処理デバイス３０４は、オブジェクト追跡、オブジェクト検出、及びオブジェクト認識を行う図１の画像処理デバイス１０４よりも少ない計算電力を消費する。

図４を参照し、図１乃至３のシステム１００乃至３００によって行うことができるオブジェクトの追跡及び処理の例を示した一般図が開示され、概して４００の指定数字が付される。図４は、画像処理デバイスの様々な画像処理段階を描く。それらの段階は、オブジェクト処理段階４０２（例えば、検出段階、認識段階、又はそれらの組み合わせ）と、追跡段階４０４と、結合段階４０６と、を含むことができる。

特定の実施形態において、オブジェクトプロセッサ（例えば、図１のオブジェクト検出器／認識器１２４、図２のオブジェクト検出器２２４、又は図３のオブジェクト認識器３２４）によるオブジェクト処理（例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ）は、オブジェクト処理段階４０２中に行うことができ、追跡器１１４によるオブジェクト追跡は、追跡段階４０４中に行うことができ、及び、追跡段階４０４の結果とオブジェクト処理段階４０２の出力の結合は、結合段階４０６中に行うことができる。結合段階４０６は、オブジェクトの状態情報を更新することも含むことができ及び時間フィルタ１３４によって行うことができる。
特定の実施形態において、追跡器１１４は単一のフレームのレーテンシー有することができ、他方オブジェクトプロセッサ（例えば、検出器／認識器１２４）はマルチフレームのレーテンシーを有することができるため、追跡段階４０４の結果は、オブジェクト処理段階４０２の出力よりも頻繁に生成することができる。結合段階４０６は、時間フィルタ１３４によって結合された出力を生成し及び状態情報１５４を更新することができる。追跡段階４０４及びオブジェクト処理段階４０２は、時間の点で少なくとも部分的に重なり合う（例えば、同時並行又は同時）場合があることが注目されるべきである。例えば、追跡段階４０４又は追跡段階４０４の一部分は、オブジェクト処理段階４０２又はオブジェクト処理段階４０２の一部分と同時並行して行うことができる。
動作中に、画像処理デバイス１０４は、画像キャプチャデバイス１０２によってキャプチャされた映像データ１６０を映像データ１６０の複数のフレームとして受信することができる。画像処理デバイス１０４は、映像データ１６０の複数の映像フレームをオブジェクト追跡器及び認識器１０１に提供することができる。オブジェクト追跡器及び認識器１０１は、図１の追跡器１１４と、オブジェクト検出器／認識器１２４と、時間フィルタ１３４と、を含むことができる。例示として、追跡段階４０４及びオブジェクト処理段階４０２は、複数のフレームのうちの第１のフレーム１５１ａを受信した時点で開始することができ、複数のフレーム１５１ａ乃至１５１ｃは、画像キャプチャデバイス１０４によってキャプチャされたテキスト１５３（すなわち、“車”）を含む。

追跡段階４０４中に、追跡器１１４は、複数の映像フレーム１５１ａ乃至１５１ｃの各々に関して、追跡結果４１４ａ乃至４１４ｃをそれぞれ生成するために複数の映像フレーム１５１ａ乃至１５１ｃの各々においてテキスト１５３を追跡することができる。テキスト１５３は、画像キャプチャデバイス１０２に対するシーン内のテキスト１５３（例えば、動いている車両上のテキスト）又はテキストボックス１５２の動きに基づいて又はテキスト１５３に対する又はテキストボックス１５２に対する画像キャプチャデバイス１０２の動きに基づいて追跡することができる。追跡段階４０４は、第１のフレーム１５１ａに対応する第１の追跡結果４１４ａ、第２のフレーム１５１ｂに対応する第2の追跡結果４１４ｂ、及び第３のフレーム１５１ｃに対応する第３の追跡結果４１４ｃを生成することができる。第１の追跡結果４１４ａ、第2の追跡結果４１４ｂ、及び第３の追跡結果４１４ｃの各々は、示されるように、第１の追跡出力１７０ａ、第2の追跡出力１７０ｂ、及び第３の出力１７０ｃとして提供することができる。

特定の実施形態において、追跡器１１４は、単一のフレームのレーテンシーを有することができる。従って、追跡器１１４は、映像データ１６０の複数の映像フレーム１５１ａ乃至１５１ｃの各々に関するフレーム結果（例えば、追跡結果）４１４ａ乃至４１４ｃを生成するために映像データ１６０の複数の映像フレーム１５１ａ乃至１５１ｃの各々においてテキスト１５３の動き（例えば、位置）を追跡するように構成することができる。例えば、追跡器１１４は、テキスト１５１が第１の映像フレーム１５１ａでは縦に、第２の映像フレーム１５１ｂでは斜めに、第３の映像フレーム１５１ｃでは横に配置されている状態でそれを追跡することができる。例示として、追跡器１１４は、第１の追跡結果４１４ａを生成するために第１の映像フレーム１５１ａの第１の追跡１１４ａを、第２の追跡結果４１４ｂを生成するために第２の映像フレーム１５１ｂの第２の追跡１１４ｂを、及び第３の追跡結果４１４cを生成するために第3の映像フレーム１５１cの第3の追跡１１４cを行うことができる。
図４は、追跡段階４０４中に３つの映像フレームに関して行われた追跡を例示するが、追跡段階４０４は、追跡段階４０４の特定の発生中には３つよりも少ない又は３つよりも多い映像フレームを追跡することを含むことができることが注目されるべきである。さらに、複数の映像フレームの各映像フレームにおいて映像データ１６０内の複数のオブジェクト（例えば、複数のテキストボックス）を追跡できることが注目されるべきである。

オブジェクト処理段階４０２中に、オブジェクト検出器／認識器１２４は、第１の映像フレーム１５１ａにおいてテキスト１５３を検出（例えば、識別）するのを開始することができる。例えば、検出器／認識器１２４は、オブジェクト処理段階４０２中に第１の映像フレーム１５１ａにおいてテキスト１５３を検出及び認識するように構成することができる。特定の実施形態において、検出器／認識器１２４は、マルチフレームのレーテンシーを有することができる。従って、オブジェクト処理段階４０２は、時間の点で複数のフレームのうちの複数のフレームにまたがることができる。例えば、オブジェクト処理段階４０２は、追跡段階４０４よりも低い頻度でフレーム結果（すなわち、テキスト１５３の検出及び認識）を生成することができる。オブジェクト処理段階４０２中に、検出器／認識器１２４は、テキスト１５３が入った第１のフレーム１５１ａを受信するように、第１のフレーム１５１ａにおいてテキスト１５３を検出するように、及び光学文字認識（ＯＣＲ）を介して提案されるテキストデータを生成するように構成することができる。従って、オブジェクト処理段階４０２は、第１のフレーム１５１ａ内のテキスト１５３の周囲の領域を検出すること、第１のフレーム１５１ａ内のテキスト１５３を認識すること（すなわち、識別すること）、又はそれらのあらゆる組み合わせを含むことができる。オブジェクト検出器／認識器１２４は、提案されるテキストデータを検証するために辞書にアクセスするようにさらに構成することができる。例えば、オブジェクト検出器／認識器１２４は、図１のメモリ１０８に格納された１つ以上の辞書、例えば、辞書１４０、にアクセスすることができる。提案されるテキストデータは、複数のテキスト候補と、複数のテキスト候補と関連付けられた信頼度データと、を含むことができる。検出器／認識器１２４は、関連付けられた信頼度値により辞書１４０のエントリ（例えば、エントリ１４４）に対応するテキスト候補を選択することができる。オブジェクト処理段階４０２（例えば、検出段階、認識段階、又はそれらのあらゆる組み合わせ）の終了（例えば、完了）時点で、オブジェクト検出器／認識器１２４の出力を生成することができる。オブジェクト処理段階４０２からの出力は、時間フィルタ１３４に提供することができる。
結合段階４０６は、追跡段階４０４又はオブジェクト処理段階４０２によって結果が入手可能であるときにトリガすることができる。オブジェクト処理段階４０２は、複数の映像フレームにまたがるため、結合段階４０６は、オブジェクト処理段階４０２の出力によってよりも追跡段階４０４からの結果によってのほうが頻繁にトリガすることができる。例えば、追跡段階４０４及びオブジェクト処理段階４０２は、両方とも、第１のフレーム１５１ａを受信した時点で開始することができるが、オブジェクト処理段階４０２が第１のフレーム１５１ａにおいてテキスト１５３を検出／認識している間に（すなわち、単一フレームでの検出／認識）追跡段階４０２は第２の映像フレーム１５１ｂにおいて及び第３の映像フレーム１５１ｃにおいてテキスト１５３の追跡を続けることができる（すなわち、複数のフレームでの追跡）。

結合段階４０６中に、時間フィルタ１３４は、追跡段階４０４によって生成された追跡器１１４の追跡結果（例えば、第１の追跡結果４１４ａ、第2の追跡結果４１４ｂ、及び第３の追跡結果４１４ｃ）を結合するように構成することができ、オブジェクト検出器／認識器１２４の出力は、オブジェクト処理段階４０２で生成される。時間フィルタ１３４は、テキスト１５３の時間情報を入手するように（すなわち、追跡段階４０４及びオブジェクト処理段階４０２に基づいて結合された出力を入手するように）さらに構成することができる。特定の実施形態において、追跡結果をオブジェクト処理（例えば、検出、認識、又はそれらのあらゆる組み合わせ）の出力と結合することは、テキスト１５３の時間情報を入手するためにオブジェクト処理の出力に関して追跡結果を統合することを含む。フレームのシーケンスに基づいて計算された時間情報は、単一のフレームからの情報（例えば、オブジェクトの検出及び認識のみからの情報）が使用されるときと比較してテキスト１５３の誤った検出を低減させる又は排除することができる。従って、結合段階４０６の時間フィルタ１３４は、連続するフレーム間の動き情報（すなわち、追跡結果）を使用することによって連続するフレームのオブジェクト検出器／認識器１２４の出力を統合するように構成することができる。
特定の実施形態において、追跡結果をオブジェクトの検出及び認識の出力と統合することは、Ｋａｌｍａｎフィルタを最尤推定器とともに使用することを含むことができる。例えば、時間フィルタ１３４は、統合を行うためのＫａｌｍａｎフィルタと最尤推定器とを含むことができる。Ｋａｌｍａｎフィルタは、テキストがある時間にわたって画像キャプチャデバイス１０２に対して移動するときの、又は画像キャプチャデバイス１０２がある時間にわたって複数のフレームの各々内のテキスト１５３に対して移動するときの複数のフレームの各々におけるテキスト１５３の位置を決定するように構成することができる。最尤推定器は、複数のフレームの各々におけるテキスト１５３を表現する提案されるテキストデータを（例えば、光学文字認識を介して）生成するように構成することができる。

結合段階４０６の完了時点で、結合された出力４１４ｄを生成することができ、結合された出力４１４ｄに基づいてテキスト１５３の状態情報１５４を更新することができる。さらに、更新された状態情報１５４に少なくとも部分的に基づいた出力１７０ｄを図１の表示装置１０６に提供することができる。特定の実施形態において、結合段階４０６の出力１７０ｄは、識別されたテキスト１５３を含むことができ及び識別されたテキスト１５３に基づいて出力１７０ｄ内に挿入された１つ以上の増強されたリアリティに関する特徴を含むこともできる。増強されたリアリティに関する特徴は、テキスト１５３が埋め込まれた関連コンテンツを含むことができる。例えば、“車”として識別されたテキスト１５３は、出力１７０ｄにおいて示されるように、車の画像も含むことができる。例示として、更新された状態情報１５４は、連続するフレーム（例えば、フレーム１５１ａ乃至１５１ｃ）間でのテキスト１５３の移動を含むことができ、図４において示されるように、結合段階４０６の出力１７０ｄをその移動に基づいて変更することができる。時間フィルタ１３４は、テキスト１５３の意味、変換、又はその他の態様に基づいて１つ以上の増強されたリアリティに関する特徴を選択することができる。特定の実施形態において、少なくとも１つの増強されたリアリティに関する特徴は、出力１７０においては三次元オブジェクトとして現れる。

結合段階４０６の完了時点で、複数のフレームのうちの次のフレーム（例えば、第４の映像フレーム１５１ｄ）に関してオブジェクト処理段階４０２を再度開始することができる。さらに、第４の映像フレーム１５１ｄ及び後続する映像フレーム（例えば、第５の映像フレーム１５１ｅ．．．ｎ番目の映像フレームｎ）に関して追跡を行うことができる。図４は、説明の明確化を目的として第３の映像フレーム１５１ｃと第４の映像フレーム１５１ｄとの間にギャップを示しているが、フレーム１５１ａ乃至１５１ｚは、実質的に定期的な間隔で受信及び処理することができる。第４の映像フレーム１５１ｄでは、以前“車”（ｃａｒ）として識別されたテキスト１５３は、“カート”（ｃａｒｔ）として再識別することができる。例えば、前フレーム（例えば、第１のフレーム１５１ａ）の検出及び／又は認識中に英字‘ｔ’が含められており、“カート”して再識別することができる。追跡段階４０４は、上述されるように、テキスト１５３（すなわち、“カート”）の検出及び認識が第４の映像フレーム１５１ｄに関して行われている間に、追跡の結果（例えば、第５の追跡結果１７０ｅ、第６の追跡結果１７０ｆ．．．ｎ番目の追跡結果１７０ｎ）を提供し続けることができる。結合段階は、追跡段階４０４の終了によってトリガすることができる。従って、結合された出力１７０ｚを生成するために、前述されるように、追跡段階４０４の結果及びオブジェクト処理段階４０２からの出力を結合段階４０６中に時間フィルタ１３４に提供することができる。結合された出力１７０ｚは、テキスト１５３に関連するコンテンツ（すなわち、増強された特徴）を含む補正された／新しいテキスト１５３（“カート”）を含むことができる。

従って、説明される実施形態は、テキストの時間情報の使用によって映像データ内のテキストの正確な識別を提供することができ（すなわち、同じ領域／テキストボックス内のテキストは、複数のフレームにおいて同じである可能性がある）、単一のフレーム内でのオブジェクト検出の出力は、複数のフレームにまたがるオブジェクト追跡の結果と結合される。説明されるように追跡器と検出器／認識器の結合は、その結果として、画像キャプチャデバイスのユーザに対して相対的に高いフレームレートで及びちらつきが実質的にない状態で正確なテキスト識別を提供することによって向上されたユーザ経験が得られることになる。オブジェクト処理段階４０２は、図１のオブジェクト検出器／認識器１２４に関して説明されるが、その他の実施形態では、オブジェクト処理段階４０２は、図２のオブジェクト検出器２２４によって行われるオブジェクト検出又は図３のオブジェクト認識器３２４によって行われるオブジェクト認識を含むことができる。

図５を参照し、一般図５００は、図１の追跡器１１４及びオブジェクト検出器／認識器１２４、図２のオブジェクト検出器２２４、及び／又は図３のオブジェクト認識器３２４が単一フレームのレーテンシーを各々有する図１乃至３のシステム１００乃至３００によって行うことができるオブジェクト処理（例えば、オブジェクト追跡、オブジェクト認識、又はそれらのあらゆる組み合わせ）の他の例を示す。図５は、複数の映像フレーム５１０、５２０、及び５３０、及び、各映像フレームに関する出力を生成するための図１のシステム１００による複数の映像フレーム５１０乃至５３０の処理を描く。

動作中に、図１の画像処理デバイス１０４に第１の映像フレーム５１０を提供することができる。画像処理デバイス１０４は、追跡器１１４と、オブジェクト検出器／認識器１２４と、時間フィルタ１３４と、を含むことができる。各フレーム５１０乃至５３０に関して、オブジェクト検出器／認識器１２４は、検出／認識出力を生成するためのテキストの処理（例えば、検出及び／又は認識）を行うことができ、追跡器１１４は、追跡結果を生成するためのテキストの追跡を行うことができ、時間フィルタ１３４は、結合された出力を生成するために検出及び／又は認識の出力を追跡結果と結合させることができる。

例示として、オブジェクト検出器／認識器１２４は、第１のフレーム５１０内のテキストオブジェクト（又はテキストを含む第１のフレーム５１０内の領域）を検出するために及びオブジェクト検出器／認識器１２４の第１の出力（例えば、認識されたテキストデータ）を生成するために第１のフレーム５１０に関してオブジェクト処理（例えば、オブジェクト検出及び／又はオブジェクト認識）を行うことができ、追跡器１１４は、第１の追跡結果を生成するために第１のフレーム５１０内のテキストオブジェクトを追跡することができる。時間フィルタ１３４は、第１の結合された出力５１１（例えば、テキスト出力）を生成するために検出器／認識器１２４の第１の出力を第１の追跡結果と結合することができる。特定の実施形態において、テキスト出力は、認識されたテキストデータ（例えば、“車”）と、テキストデータに関する位置情報（例えば、テキストデータの二次元又は三次元座標）と、を含むことができる。同様に、オブジェクト検出器／認識器１２４は、検出器／認識器１２４の第２の出力を生成するために第２のフレーム５２０に関するテキストオブジェクト処理（例えば、テキストオブジェクト検出及び／又はテキストオブジェクト認識）を行うことができ、追跡器１１４は、第２の追跡結果を生成するために第２のフレーム５２０においてテキストオブジェクトを追跡することができる。時間フィルタ１３４は、第２の結合された出力５２１を生成するためにオブジェクト検出器／認識器１２４の第２の出力を第２の追跡結果と結合することができる。プロセスは、複数の結合された出力を生成するために複数のフレーム内の各フレームに関して繰り返すことができる。従って、図５で説明される実施形態は、映像データ内のテキストオブジェクトの識別を提供するためにテキスト処理（例えば、検出及び／又は認識）出力を映像データの複数のフレームのうちの各々に関するテキスト追跡結果と結合することができる。
図６を参照し、図１乃至３のシステム１００乃至３００の動作例を示した一般図が開示され、概して６００の指定数字が付される。特に、図６は、図１のシステム１００の制御の流れ及びタイミング図を示す。

カメラ１０２（すなわち、図１の画像キャプチャデバイス１０２）は、追跡器１１４に対して及び検出器／認識器１２４の検出器６２２に対して映像データ１６０を提供することができる。映像データ１６０は、（例えば、テキスト１５３を含む）オブジェクト１５１を含む複数の映像フレームを含むことができる。検出器６２２は、複数の映像フレームのうちの各々においてテキスト１５３を検出するように及び時間フィルタ１３４のＫａｌｍａｎフィルタ６３２に検出の出力を提供するように構成することができる。さらに、追跡器１１４は、複数の映像フレームのうちの各々において（例えば、テキストボックス１５２を追跡することによって）テキスト１５３を追跡するように（すなわち、連続する映像フレームにおけるテキスト１５３の動きを検出するように）及びＫａｌｍａｎフィルタ６３２に追跡の出力を提供するように構成することができる。
Ｋａｌｍａｎフィルタ６３２は、時間フィルタ１３４の最尤推定器６３４からの情報にアクセスするように及びＫａｌｍａｎフィルタ６３２の出力を最尤推定器６３４に提供するように構成することができる。特定の実施形態において、Ｋａｌｍａｎフィルタ６３２は、テキスト１５３の座標を含むテキスト１５３の位置を決定するように構成することができる。例えば、テキスト１５３の位置は、テキストボックス１５２の二次元（２Ｄ）位置を含むことができる。テキスト１５３を包含するバウンディングボリュームの三次元（３Ｄ）位置（例えば、ｘ、ｙ、及びｚ座標）は、２Ｄ位置から推測することができる。さらに、Ｋａｌｍａｎフィルタ６３２は、連続する映像フレームの処理に基づいてテキスト１５３の位置（ｌｏｃａｔｉｏｎ）（すなわち、位置ｐｏｓｉｔｉｏｎ）を経時で更新するように構成することができる。
最尤推定器６３４は、複数の映像フレーム内での検出されたテキスト及びそのテキストの動きに基づいて提案されるテキストデータを生成するように構成することができる。最尤推定器６３４は、提案されるテキストデータを検証するために辞書にアクセスするように構成することができる。例えば、最尤推定器は、メモリに格納された１つ以上の辞書（例えば、図１の辞書１４０）にアクセスすることができる。提案されるテキストデータは、複数のテキスト候補と、複数のテキスト候補と関連付けられた信頼度データと、含むことができる。最尤推定器６３４は、辞書１４０のエントリに対応するテキスト候補と関連付けられた信頼度値によりそのテキスト候補を選択するように構成することができる。例えば、テキストは辞書１４０内で最高の対応する信頼度値を有するため最尤推定器６３４はそのテキストを選択することができる。
検出器／認識器１２４の認識デバイス６２４は、複数のフレームのうちの各々内でテキストを認識する（すなわち、識別する）ように構成することができる。認識デバイス６２４は、光学文字認識（ＯＣＲ）を含むことができる。認識デバイス６２４は、テキストピクセルデータを機械によって符号化されるテキストに変換するように構成することができる。複数の映像フレームのうちの各々の中のテキストを機械によって符号化されるテキストに変換することによって、各フレームからのテキストを、格納、表示することができ、及び識別されたテキストの精度を向上させるために最尤推定器６２４に提供することができる。検出器６２２及び認識デバイス６２４は、検出器／認識器１２４の２つの別個のコンポーネントとして示されているが、検出器６２２及び認識デバイス６２４は１つのコンポーネント内に組み入れることができることが注目されるべきである。

（Ｋａｌｍａｎフィルタ６３２と最尤推定器６３４とを含む）時間フィルタ１３４の出力は、表示出力６５０を生成する前にフレーム混合器（ｂｌｅｎｄｅｒ）６４０に提供することができる。フレーム混合器６４０は、内挿器を含むことができ及び表示装置（例えば、図１の表示装置１０６）でのフレームのより流動的な（ｆｌｕｉｄ）表示を可能にするために既存のフレーム（すなわち、カメラ１０２によって生成された映像データ１６０の複数のフレーム）間で中間フレームを生成するように構成することができる。例えば、カメラ１０２によってキャプチャされた映像データ１６０のフレームレートが、表示装置１０６のフレームレートよりも低い場合は、フレーム混合器６４０は、流動的な出力６５０（すなわち、表示）を生成するために表示装置１０６において映像フレームを表示する前に複数の映像のうちの１つ以上を複製する及び／又は中間フレームを生成するように構成することができる。

図６は、図１のシステム１００によって行うことができるオブジェクトの追跡及び認識のタイミング図も描く。タイミング図において、複数のフレームのうちの第１のフレームに関する検出／認識６１０ａは、複数のフレームのうちの第１のフレームの追跡６２０ａと時間の点で少なくとも一部分が重なり合う（例えば、同時並行又は同時）。特定の実施形態において、第１のフレームに関して検出／認識が行われている間に複数のフレームのうちの１つ以上のフレームに関して追跡を行うことができる。例えば、示されるように、検出器／認識器１２４によって検出認識６１２０ａが行われている間に、第１のフレーム６２０ａ、第２のフレーム６２０ｂ、第３のフレーム６２０ｃ、及び第３の（ｔｈｉｒｄ）フレーム６２０ｄに関して追跡を行うことができる。従って、追跡器１１４は、単一フレームのレーテンシーを有することができ、検出器／認識器１２４は、マルチフレームのレーテンシーを有することができる。

さらに、表示装置１０６において中間的なフレームデータを提供するために、複数のフレームのうちの各々の間（例えば、各追跡７６２０ａ乃至６２０ｄの間）でフレーム混合器６４０による混合６６０を行うことができる。第４のフレームの追跡６２０ｄの完了時点で、時間フィルタ１３４によって状態更新６７０を行うことができる。時間フィルタは、複数のフレームのうちの各々の追跡６２０ａ乃至６２０ｄ及び単一のフレームの検出／認識６１０ａに基づいて状態情報を更新するように構成することができる。例えば、状態情報及び後続する更新は、フレームからフレームへのテキスト１５３の位置と、テキスト１５３（例えば、“車”）の識別と、テキスト１５３（例えば、３Ｄ画像）に関連する増強されたコンテンツと、を含むことができる。状態情報の更新が行われた後は、検出器／認識器１２４は、次に入手可能なフレームの検出／認識６１０ｂを開始することができる。例えば、次のフレームは、第５のフレームであることができる。同様に、追跡器１１４は、第５のフレームの追跡６２０ｅ、第６のフレームの追跡６２０ｆ、第７のフレームの追跡６２０ｇ、第８のフレームの追跡６２０ｈ、及び第９のフレームの追跡６２０ｉを開始することができる。フレーム混合器６４０は、中間フレームを生成してフレーム間に挿入することができる（すなわち、混合６６０）。結合された出力を生成するために及び状態情報を更新する６８０ために追跡からの追跡結果（６２０ｅ乃至６２０ｉ）を検出／認識６１０ｂの出力と結合することができる。検出／認識及び追跡は、複数のフレームのうちの全フレームが処理されるまで行い続けることができる。
図７を参照し、オブジェクトの追跡及び処理を行う方法７００の流れ図が例示される。例示的な実施形態において、方法７００は、図１の画像処理デバイス１０４において、図２の画像処理デバイス２０４において、又は図３の画像処理デバイス３０４において行うことができる。

方法７００は、７１０において、映像データの入力フレームを受信することを含むことができる。例えば、画像処理デバイス１０４は、画像キャプチャデバイス１０２から映像データ１６０を受信することができる。映像データ１６０は、複数の映像フレームを含むことができる。映像データ１６０の複数の映像フレームの各々は、テキスト１５３が入ったオブジェクト１５１を含むことができる。画像処理デバイス１０４は、オブジェクト追跡器及び認識器１０１を含むことができる。オブジェクト追跡器及び認識器１０１は、追跡器１１４と、検出器／認識器１２４と、時間フィルタ１３４と、を含むことができる。
方法７００は、判断要素７２０において、オブジェクト処理が完了しているかどうかを決定することも含むことができる。例えば、図１のオブジェクト追跡器及び認識器１０１は、単一のフレーム（例えば、映像データ１６０の複数のフレームのうちの第１のフレーム）のオブジェクト検出及び／又はオブジェクト認識が検出器／認識器１２４によって完了されているかどうかを決定するように構成することができる。他の例として、図２のオブジェクト追跡器及び認識器２０１は、単一のフレームのオブジェクト検出がオブジェクト検出器２２４によって完了されているかどうかを決定するように構成することができる。他の例として、図３のオブジェクト追跡器及び認識器３０１は、単一のフレームのオブジェクト認識がオブジェクト認識器３２４によって完了されているかどうかを決定するように構成することができる。特定の実施形態において、オブジェクト処理は、マルチフレームのレーテンシーを有することができる。

７２０において、オブジェクト処理が完了していると決定したことに応答して、７３０において、オブジェクト処理の出力に基づいてオブジェクトの状態情報を更新することができ、及び、７４０において、映像データの次のフレームに関してオブジェクト処理を開始することができる。例えば、図１の検出器／認識器１２４が複数のフレームのうちの現在のフレームのオブジェクト検出及び／又はオブジェクト認識を完了している場合は、オブジェクトの状態情報を更新するために検出器／認識器１２４の現在の出力を使用することができる。例示として、オブジェクト検出器／認識器１２４は、オブジェクト１５１を現在のフレーム内のテキスト“カート”（ｃａｒｔ）として再識別する（すなわち、検出及び認識する）ことができ（例えば、前フレームにおいて英字‘ｔ’が隠されていてテキストが“車”（ｃａｒ）と識別された）及び、例えば、前回識別されたテキスト“車”の代わりに現在識別されているテキスト“カート”を用いることによってオブジェクトの状態情報を更新することができる。さらに、検出器／認識器１２４は、映像データの次のフレーム（例えば、第２のフレーム）に関するオブジェクト検出及び／又はオブジェクト認識を開始することができる。
７２０において、オブジェクト処理（例えば、オブジェクト検出及び／又はオブジェクト認識）が完了していることを検出する前に、７５０において、特定のフレームと前フレームとの間でのオブジェクトの動きを推定することができ、及び、７６０において、推定された動きに基づいてオブジェクトの状態情報を更新することができる。例えば、図１の検出器／認識器１２４が、第１のフレームのオブジェクト処理（例えば、オブジェクト検出及び／又はオブジェクト認識）を完了させていない場合は、追跡器１１４は、第２のフレームと第１のフレームとの間でのテキスト１５３の動き推定を行うことができる。例示として、テキスト１５３は、第１のフレーム内の縦位置から第２のフレーム内の斜めの位置に移動している可能性がある。追跡器１１４は、第１のフレーム及び第２のフレーム内でテキスト１５３の動きを追跡するように及びフレームからフレームへのテキスト１５３の動きを推定するように構成することができる。さらに、処理が完了する前に（すなわち、検出器／認識器１２４のマルチフレームレーテンシーに起因して）テキスト１５３の状態情報を更新するために追跡器１１４による動き推定の追跡結果を使用することができる。例えば、更新された状態情報は、フレームからフレームへのテキスト１５３の位置変更を含むことができる。例示として、更新された状態情報は、第２のフレーム内のテキスト１５３の第２の位置（例えば、座標ｘ２、ｙ２）によって更新された第１のフレーム内のテキスト１５３の第１の位置（例えば、座標ｘ１、ｙ１）を含むことができる。
出力は、７７０において、オブジェクトの更新された状態情報に基づいて生成することができる。例えば、状態情報及び図１の追跡器１１４及び検出器／認識器１２４によって提供される後続する更新は、オブジェクトに関する情報、例えば、フレームからフレームへのオブジェクトの位置、フレームからフレームへのオブジェクトに含まれるテキスト、オブジェクトに関連する増強されたコンテンツ、又はそれらの組み合わせ、を含むことができる。従って、画像処理デバイス１０４は、表示装置１０６での表示のために更新された状態情報に基づく出力（例えば、テキスト及び埋め込まれたコンテンツ）を生成することができる。

図８を参照し、オブジェクトの追跡及び認識を行う方法８００の他の特定の実施形態の流れ図が例示される。例示的な実施形態において、方法８００は、図１の画像処理デバイス１０４において、図２の画像処理デバイス２０４において、又は図３の画像処理デバイス３０４において行うことができる。

方法８００は、８１０において、追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡することを含む。例えば、図１乃至３の追跡器１１４は、映像データ１６０の複数のフレームの各々（例えば、第１のフレーム、第2のフレーム、第３のフレーム、等）内のオブジェクト（例えば、テキスト１５３を含むオブジェクト１５１）を追跡するように及び複数のフレームの各々に関するフレーム結果（例えば、フレーム１結果、フレーム２結果．．．フレームＮ結果）を生成するように構成することができる。
方法８００は、オブジェクト検出器又はオブジェクト認識器のマルチフレームのレーテンシーにより選択された複数のフレームのうちのフレームの部分組のオブジェクト処理（例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ）を行うことも含み、８２０において、オブジェクト処理及び追跡は、時間の点で少なくとも部分的に重なり合う。例えば、図１の検出器／認識器１２４は、複数のフレームのうちのフレームの部分組（例えば、第１のフレーム、第５のフレーム、第１３のフレーム）内でオブジェクト１５１を検出及び／又は認識するように及び追跡器１１４によって生成されたすべてのＮのフレーム結果に関して単一のフレーム結果（例えば、フレーム５結果）を生成するように構成することができ（例えば、フレーム２乃至４）、ここで、Ｎは、１よりも大きい整数である。

８３０において、結合された出力を生成するために追跡結果がオブジェクト処理の出力と結合される。例えば、時間フィルタ１３４は、結合された出力（例えば、結合された出力１４４）を生成するために追跡器１１４の追跡結果（すなわち、追跡器１１４のフレーム１結果、フレーム２結果、及びフレーム３結果）をオブジェクト処理の結果（例えば、検出器／認識器１２４のフレーム１結果）と結合するように構成することができる。
８４０において、オブジェクトの状態情報が、結合された出力に基づいて更新される。例えば、時間フィルタ１３４は、図６のＫａｌｍａｎフィルタ６３２と、図６の最尤推定器６３４と、を含むことができる。さらに、時間フィルタ１３４は、結合された出力１４４に基づいてオブジェクトの状態情報１５４を更新するように構成することができる。例えば、更新された状態情報１５４は、フレームからフレームへの（すなわち、ある時間にわたっての）オブジェクトに対応する情報を含むアレイ（ａｒｒａｙ）を含むことができる。例示として、更新された状態情報１５４は、オブジェクトの位置、オブジェクトから識別されたテキスト、テキストに関連するコンテンツ、又はそれらのあらゆる組み合わせを含むことができる。

図９を参照し、オブジェクトの追跡及び処理を行うために動作可能なプロセッサを含む無線デバイスの特定の例示的実施形態のブロック図が描かれ、概して９００の指定数字が付される。デバイス９００は、メモリ１０８に結合されたプロセッサ、例えば、プロセッサ９１０、を含む。プロセッサ９００は、オブジェクト追跡器と認識器（例えば、図１のオブジェクト追跡器及び認識器１０１）とを含むことができる。例として、オブジェクト追跡器及び認識器１０１は、図４乃至８のうちのいずれか１つ以上、又はそれらの組み合わせにより動作することができる。

特定の実施形態において、オブジェクト追跡器及び認識器１０１は、プロセッサ９１０と統合することができ及び図１乃至３に関して説明される機能の少なくとも一部分を実施するための専用回路又はその他のロジックを含むことができる。特定の実施形態において、メモリ１０８は、図１乃至８のうちのいずれかに関して説明される機能の少なくとも一部分を実行することをプロセッサ９１０に行わせるためにプロセッサ９１０によって実行可能である命令１４２を含む。例えば、命令１４２は、図７の方法７００、図８の方法８００、及びそれらのあらゆる組み合わせを実行することをコンピュータ（例えば、プロセッサ９１０）に行わせるためにコンピュータによって実行可能である命令を含むことができる。
特定の実施形態において、オブジェクト追跡器及び認識器１０１は、追跡器（例えば、図１の追跡器１１４）と、検出器／認識器（例えば、図１の検出器／認識器１２４）と、時間フィルタ（例えば、図１の時間フィルタ１３４）と、を含むことができる。追跡器１１４は、追跡結果を生成するために映像データ（例えば、図１の映像データ１６０）の複数のフレームの各々においてオブジェクト（例えば、図１のオブジェクト１５１）を追跡するように構成することができる。検出器／認識器１２４は、複数のフレームのうちの単一のフレームにおいてオブジェクト１５１を検出及び認識するように構成することができる。時間フィルタ１３４は、検出器／認識器１２４によって行われるオブジェクトの検出及び認識の完了に応答することができ及び結合された出力１４４を生成するために及び結合された出力１４４に基づいてオブジェクト１５１の状態情報を更新するために追跡器１１４の追跡結果を検出器／認識器１２４のオブジェクトの検出及び認識の出力と結合するように構成することができる。特定の実施形態において、オブジェクト１５１は、テキストボックス（例えば、テキスト１５３を含むテキストボックス１５２）及びテキストボックス１５２の位置に対応することができる。
図９は、カメラコントローラ９６０に結合することができるカメラ９４２であり、カメラ９４２から受信された映像データ内でのオブジェクト（例えば、テキスト）の追跡を行うために及びオブジェクトの検出及び認識を行うためにオブジェクト追跡器及び認識器１０１によって処理される画像及び／又は映像データを提供することができるカメラ９４２を示す。

図９は、プロセッサ９１０及びディスプレイ９２８に結合することができるディスプレイコントローラ９２６も示す。コーダ／デコーダ（ＣＯＤＥＣ）９３４（例えば、オーディオ及び／又は音声ＣＯＤＥＣ）をプロセッサ９１０に結合することができる。ＣＯＤＥＣ９３４にはスピーカー９３６及びマイク９３８を結合することができる。図９は、無線コントローラ９４０をプロセッサ９１０及び無線アンテナ９９８に結合できることも示す。

特定の実施形態において、プロセッサ９１０、カメラコントローラ９６０、ディスプレイコントローラ９２６、メモリ１０８、ＣＯＤＥＣ９３４、及び無線コントローラ９４０は、システム・イン・パッケージ又はシステム・オン・チップデバイス９２２内に含められる。

特定の実施形態において、入力デバイス９３０及び電源９４４は、システム・オン・チップデバイス９２２に結合される。さらに、特定の実施形態において、図９に例示されるように、ディスプレイ９２８，カメラ９４２、入力デバイス９３０、マイク９３８、無線アンテナ９９８、及び電源９４４は、システム・オン・チップデバイス９２２の外部に存在する。しかしながら、ディスプレイ９２８，カメラ９４２、入力デバイス９３０、スピーカー９３６、マイク９３８、無線アンテナ９９８、及び電源９４４の各々は、システム・オン・チップデバイス９２２のコンポーネント、例えば、インタフェース又はコントローラ、に結合することができる。
図９は、無線通信デバイスを描いているが、プロセッサ９１０及びメモリ１０８は、その他のデバイス、例えば、マルチメディアプレーヤー、娯楽ユニット、ナビゲーション装置、パーソナルデジタルアシスタント（ＰＤＡ）、固定ロケーションデータユニット、又はポータブルコンピュータ（例えば、ラップトップコンピュータ又はタブレットコンピュータ）、に組み入れることもできることが注目されるべきである。さらに、プロセッサ９１０は、図１のオブジェクト追跡器及び認識器１０１を含むが、その他の実施形態では、プロセッサ９１０は、図２のオブジェクト追跡器及び検出器２０１又は図３のオブジェクト追跡器及び認識器３０１を含むことができることも注目されるべきである。

説明される実施形態と関連して、追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡するための手段を含む装置が開示される。例えば、追跡するための手段は、図１乃至４の追跡器１１４、図１乃至３及び９のオブジェクト追跡器及び認識器１０１、映像データの複数のフレームの各々においてオブジェクトを追跡するように構成された１つ以上のその他のデバイス、又はそれらのあらゆる組み合わせであることができる。

装置は、複数のフレームのうちの単一のフレーム内のオブジェクトを処理するための手段（例えば、検出するための手段、認識するための手段、又はそれらのあらゆる組み合わせ）を含むことができる。例えば、処理するための手段は、図１の検出器／認識器１２４、図２のオブジェクト検出器２２４、図３のオブジェクト認識器３２４、図１のオブジェクト追跡器及び認識器１０１、図２のオブジェクト追跡器及び検出器２０１、図３のオブジェクト追跡器及び認識器３０１、複数のフレームのうちの単一のフレームにおいてオブジェクトを検出及び／又は認識するように構成された１つ以上のその他のデバイス、又はそれらのあらゆる組み合わせであることができる。

装置は、単一のフレームのオブジェクト処理の完了に応答して（例えば、オブジェクトの検出及び／又は認識のための手段）、結合された出力を生成するために追跡のための手段の追跡結果をオブジェクト処理のための手段の出力と結合するための手段を含むことができる。例えば、結合するための手段は、図１乃至６の時間フィルタ１３４、図１乃至３及び９のオブジェクト追跡器及び認識器１０１、図６のＫａｌｍａｎフィルタ６３２、図６の最尤推定器６３４、結合された出力を生成するために追跡するための手段の出力を検出及び認識するための手段の出力と結合するように構成された１つ以上のその他のデバイス、又はそれらのあらゆる組み合わせであることができる。

ここにおいて開示される実施形態と関係させて説明される様々な例示的な論理ブロック、構成、モジュール、回路、及びアルゴリズムのステップは、電子ハードウェア、コンピュータソフトウェア、又は両方の組み合わせとして実装できることを当業者はさらに評価するであろう。様々な例示的なコンポーネント、ブロック、構成、モジュール、回路、及びステップは、それらの機能の観点で一般的に説明されている。該機能がハードウェアとして又はソフトウェアとして実装されるかは、特定の用途及び全体的システムに対する設計上の制約事項に依存する。当業者は、説明されている機能を各々の特定の用途に合わせて様々な形で実装することができるが、該実装決定は、本開示の適用範囲からの逸脱を生じさせるものであるとは解釈されるべきではない。

ここにおいて開示される実施形態と関係させて説明される方法又はアルゴリズムのステップは、直接ハードウェア内において、ファームウェア内において、プロセッサによって実行されるソフトウェアモジュール内において、又はそれらの組み合わせ内において具現化することが可能である。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読み取り専用メモリ（ＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、取り外し可能なディスク、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）メモリ、フロッピー（登録商標）ディスクメモリ、Ｂｌｕ−ｒａｙ（登録商標）ディスクメモリ、又は当業において既知であるその他のあらゆる形態の記憶媒体において常駐することができる。典型的な非一時的な（例えば、有形の）記憶媒体は、プロセッサが記憶媒体から情報を読み出すこと及び記憶媒体に情報を書き込むことができるようにプロセッサに結合される。代替においては、記憶媒体は、プロセッサと一体化させることができる。プロセッサ及び記憶媒体は、特定用途向け集積回路（ＡＳＩＣ）内に常駐することができる。ＡＳＩＣは、コンピューティングデバイス又はユーザ端末内に常駐することができる。代替においては、プロセッサ及び記憶媒体は、コンピューティングデバイス又はユーザ端末内において個別コンポーネントとして常駐することができる。代替実施形態においては、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、又はその他の電子ユニットを使用することができる。

開示される実施形態に関する前の説明は、当業者が本開示を製造又は使用することを可能にするために提供される。本開示に対する様々な修正は、当業者にとって容易に明確になるであろう、及びここにおいて定められる一般原理は、本開示の適用範囲を逸脱せずにその他の実施形態に対して適用することができる。以上のように、本開示は、ここにおいて示される実施形態に限定されることが意図されるものではなく、ここにおいて定められる原理及び新規の特徴に一致する限りにおいて最も広範な適用範囲が認められるべきである。

開示される実施形態に関する前の説明は、当業者が本開示を製造又は使用することを可能にするために提供される。本開示に対する様々な修正は、当業者にとって容易に明確になるであろう、及びここにおいて定められる一般原理は、本開示の適用範囲を逸脱せずにその他の実施形態に対して適用することができる。以上のように、本開示は、ここにおいて示される実施形態に限定されることが意図されるものではなく、ここにおいて定められる原理及び新規の特徴に一致する限りにおいて最も広範な適用範囲が認められるべきである。
以下に本願出願当初の特許請求の範囲を付記する。
[Ｃ１] 方法であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡することと、
オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組のオブジェクト処理を行うことと、
結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することと、を備える、方法。
[Ｃ２] フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト検出器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト検出を行うことを含むＣ１に記載の方法。
[Ｃ３] フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト認識器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト認識を行うことを含むＣ１に記載の方法。
[Ｃ４] 前記結合された出力に基づいて前記オブジェクトの状態情報を更新することをさらに備えるＣ１に記載の方法。
[Ｃ５] 少なくとも前記追跡結果又は前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を更新することをさらに備えるＣ１に記載の方法。
[Ｃ６] 前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を前記更新することは、前記オブジェクト処理の現在の出力、前記オブジェクト処理の以前の出力、前記オブジェクトの動き履歴、又はそれらのあらゆる組み合わせを利用することを備えるＣ５に記載の方法。
[Ｃ７] 前記オブジェクト処理は、オブジェクト処理段階中に行われ、前記追跡は、追跡段階中に行われるＣ４に記載の方法。
[Ｃ８] 前記追跡段階及び前記オブジェクト処理段階は、時間の点で少なくとも部分的に重なり合うＣ７に記載の方法。
[Ｃ９] 結合段階をさらに備え、前記結合段階は、前記結合された出力を生成することと、前記状態情報を更新することと、を含むＣ７に記載の方法。
[Ｃ１０] 前記更新された状態情報は、前記オブジェクトの位置を含むＣ４に記載の方法。
[Ｃ１１] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストを含むＣ４に記載の方法。
[Ｃ１２] 前記画像キャプチャデバイスの表示装置において前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示することをさらに備えるＣ４に記載の方法。
[Ｃ１３] 前記追跡結果を前記オブジェクト処理の前記出力と結合することは、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを備えるＣ１に記載の方法。
[Ｃ１４] 前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、Ｋａｌｍａｎフィルタ、パーティクルフィルタ、又はＥｘｔｅｎｄｅｄＫａｌｍａｎフィルタのうちの少なくとも１つを用いて前記追跡結果に基づいて前記オブジェクトの位置情報を生成することを備えるＣ１３に記載の方法。
[Ｃ１５] 前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、最尤推定器又は最大事後推定器のうちの少なくとも１つを用いて前記オブジェクト処理の前記出力に基づいて前記オブジェクトのテキストデータを含む識別情報を生成することを備えるＣ１３に記載の方法。
[Ｃ１６] 前記複数のフレームは、画像キャプチャデバイスによって生成され、前記画像キャプチャデバイスは、カメラ、映像録画装置、無線デバイス、ポータブル電子デバイス、又はそれらのあらゆる組み合わせを備えるＣ１に記載の方法。
[Ｃ１７] フレームの前記部分組のうちの第１のフレームの前記オブジェクト処理が完了していることを検出する前に、
フレームの前記部分組のうちの前記第１のフレームと第２のフレームとの間での前記オブジェクトの動きを推定することと、
前記推定された動きに基づいて前記オブジェクトの状態情報を更新することと、
前記オブジェクトの前記更新された状態情報に基づいて出力を生成することと、をさらに備えるＣ１に記載の方法。
[Ｃ１８] 前記追跡することは、単一フレームのレーテンシーを有するＣ１に記載の方法。
[Ｃ１９] 装置であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するように構成された追跡器と、
オブジェクトプロセッサのマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内でオブジェクトを処理するように構成された前記オブジェクトプロセッサと、
結合された出力を生成するために前記追跡器の前記追跡結果を前記オブジェクトプロセッサの出力と結合するように構成された時間フィルタと、を備える、装置。
[Ｃ２０] 前記オブジェクトプロセッサは、
フレームの前記部分組内で前記オブジェクトを検出するように構成されたオブジェクト検出器と、
フレームの前記部分組内で前記オブジェクトを認識するように構成されたオブジェクト認識器と、を含むＣ１９に記載の装置。
[Ｃ２１] 前記時間フィルタは、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するようにさらに構成されるＣ１９に記載の装置。
[Ｃ２２] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含むＣ２１に記載の装置。
[Ｃ２３] 前記時間フィルタは、Ｋａｌｍａｎフィルタと、最尤推定器と、を含むＣ２２に記載の装置。
[Ｃ２４] 前記Ｋａｌｍａｎフィルタは、前記テキストの前記位置を決定するように構成され、前記テキストの前記位置は、前記テキストボックスの座標を含むＣ２３に記載の装置。
[Ｃ２５] 前記最尤推定器は、
光学文字認識（ＯＣＲ）を介して提案されるテキストデータを生成し、及び
前記提案されるテキストデータを検証するために辞書にアクセスするように構成されるＣ２３に記載の装置。
[Ｃ２６] 前記提案されるテキストデータは、複数のテキスト候補と、前記複数のテキスト候補と関連付けられた信頼度データと、を含み、前記辞書のエントリに対応するテキスト候補が、前記テキスト候補と関連付けられた信頼度値により検証されたテキストとして選択されるＣ２５に記載の装置。
[Ｃ２７] 装置であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するための手段と、
処理するための手段のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内の前記オブジェクトを処理するための前記手段と、
結合された出力を生成するために追跡するための前記手段の前記追跡結果を処理するための前記手段の出力と結合するための手段と、を備える、装置。
[Ｃ２８] フレームの前記部分組内の前記オブジェクトを処理するための前記手段は、フレームの前記部分組内で前記オブジェクトを検出するための手段を含むＣ２７に記載の装置。
[Ｃ２９] フレームの前記部分組内で前記オブジェクトを処理するための前記手段は、フレームの前記部分組内において前記オブジェクトを認識するための手段を含むＣ２７に記載の装置。
[Ｃ３０] 結合するための前記手段は、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するための手段を含むＣ２７に記載の装置。
[Ｃ３１] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含むＣ３０に記載の装置。
[Ｃ３２] 前記複数のフレームを生成するための手段と、前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示するための手段と、をさらに備えるＣ３０に記載の装置。
[Ｃ３３] 結合するための前記手段は、Ｋａｌｍａｎフィルタと、最尤推定器と、を含むＣ２７に記載の装置。
[Ｃ３４] 非一時的なコンピュータによって読み取り可能な媒体であって、
プロセッサによって実行されたときに、
追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡し、
オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内で前記オブジェクトのオブジェクト処理を行い、及び
結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することを前記プロセッサに行わせるプログラムコードを含む、非一時的なコンピュータによって読み取り可能な媒体。
[Ｃ３５] 前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト検出器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト検出を行うことを含むＣ３４に記載の非一時的なコンピュータによって読み取り可能な媒体。
[Ｃ３６] 前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト認識器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト認識を行うことを含むＣ３４に記載の非一時的なコンピュータによって読み取り可能な媒体。
[Ｃ３７] 前記プロセッサによって実行されたときに、前記結合された出力に基づいて前記オブジェクトの状態情報を更新することを前記プロセッサに行わせるプログラムコードをさらに備えるＣ３４に記載の非一時的なコンピュータによって読み取り可能な媒体。
[Ｃ３８] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含むＣ３７に記載の非一時的なコンピュータによって読み取り可能な媒体。
[Ｃ３９] 前記プロセッサによって実行されたときに、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを前記プロセッサに行わせるプログラムコードをさらに備えるＣ３４に記載の非一時的なコンピュータによって読み取り可能な媒体。
[Ｃ４０] 方法であって、
追跡結果を生成するために映像データの複数のフレームのうちの第１のフレーム内のテキストを含む領域を追跡することと、
認識されたテキストデータを識別するために前記第１のフレームに関するテキスト処理を行うことと、
テキスト出力を生成するために前記追跡結果及び前記認識されたテキストデータを結合することと、を備える、方法。
[Ｃ４１] 前記第１のフレームに関するテキスト処理を行うことは、前記第１のフレームに関するテキスト検出を行うことを含むＣ４０に記載の方法。
[Ｃ４２] 前記第１のフレームに関するテキスト処理を行うことは、前記第１のフレームに関するテキスト認識を行うことを含むＣ４０に記載の方法。
[Ｃ４３] 前記テキスト出力は、前記認識されたテキストデータと、前記テキストデータの位置情報と、を含むＣ４０に記載の方法。
[Ｃ４４] テキスト検出及び認識を前記行うことは、単一フレームのレーテンシーを有し、前記追跡することは、単一フレームのレーテンシーを有するＣ４０に記載の方法。

Claims

方法であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡することと、
オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組のオブジェクト処理を行うことと、
結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することと、を備える、方法。
フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト検出器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト検出を行うことを含む請求項１に記載の方法。
フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト認識器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト認識を行うことを含む請求項１に記載の方法。
前記結合された出力に基づいて前記オブジェクトの状態情報を更新することをさらに備える請求項１に記載の方法。
少なくとも前記追跡結果又は前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を更新することをさらに備える請求項１に記載の方法。
前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を前記更新することは、前記オブジェクト処理の現在の出力、前記オブジェクト処理の以前の出力、前記オブジェクトの動き履歴、又はそれらのあらゆる組み合わせを利用することを備える請求項５に記載の方法。
前記オブジェクト処理は、オブジェクト処理段階中に行われ、前記追跡は、追跡段階中に行われる請求項４に記載の方法。
前記追跡段階及び前記オブジェクト処理段階は、時間の点で少なくとも部分的に重なり合う請求項７に記載の方法。
結合段階をさらに備え、前記結合段階は、前記結合された出力を生成することと、前記状態情報を更新することと、を含む請求項７に記載の方法。
前記更新された状態情報は、前記オブジェクトの位置を含む請求項４に記載の方法。
前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストを含む請求項４に記載の方法。
前記画像キャプチャデバイスの表示装置において前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示することをさらに備える請求項４に記載の方法。
前記追跡結果を前記オブジェクト処理の前記出力と結合することは、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを備える請求項１に記載の方法。
前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、Ｋａｌｍａｎフィルタ、パーティクルフィルタ、又はＥｘｔｅｎｄｅｄＫａｌｍａｎフィルタのうちの少なくとも１つを用いて前記追跡結果に基づいて前記オブジェクトの位置情報を生成することを備える請求項１３に記載の方法。
前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、最尤推定器又は最大事後推定器のうちの少なくとも１つを用いて前記オブジェクト処理の前記出力に基づいて前記オブジェクトのテキストデータを含む識別情報を生成することを備える請求項１３に記載の方法。
前記複数のフレームは、画像キャプチャデバイスによって生成され、前記画像キャプチャデバイスは、カメラ、映像録画装置、無線デバイス、ポータブル電子デバイス、又はそれらのあらゆる組み合わせを備える請求項１に記載の方法。
フレームの前記部分組のうちの第１のフレームの前記オブジェクト処理が完了していることを検出する前に、
フレームの前記部分組のうちの前記第１のフレームと第２のフレームとの間での前記オブジェクトの動きを推定することと、
前記推定された動きに基づいて前記オブジェクトの状態情報を更新することと、
前記オブジェクトの前記更新された状態情報に基づいて出力を生成することと、をさらに備える請求項１に記載の方法。
前記追跡することは、単一フレームのレーテンシーを有する請求項１に記載の方法。
装置であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するように構成された追跡器と、
オブジェクトプロセッサのマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内でオブジェクトを処理するように構成された前記オブジェクトプロセッサと、
結合された出力を生成するために前記追跡器の前記追跡結果を前記オブジェクトプロセッサの出力と結合するように構成された時間フィルタと、を備える、装置。
前記オブジェクトプロセッサは、
フレームの前記部分組内で前記オブジェクトを検出するように構成されたオブジェクト検出器と、
フレームの前記部分組内で前記オブジェクトを認識するように構成されたオブジェクト認識器と、を含む請求項１９に記載の装置。
前記時間フィルタは、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するようにさらに構成される請求項１９に記載の装置。
前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含む請求項２１に記載の装置。
前記時間フィルタは、Ｋａｌｍａｎフィルタと、最尤推定器と、を含む請求項２２に記載の装置。
前記Ｋａｌｍａｎフィルタは、前記テキストの前記位置を決定するように構成され、前記テキストの前記位置は、前記テキストボックスの座標を含む請求項２３に記載の装置。
前記最尤推定器は、
光学文字認識（ＯＣＲ）を介して提案されるテキストデータを生成し、及び
前記提案されるテキストデータを検証するために辞書にアクセスするように構成される請求項２３に記載の装置。
前記提案されるテキストデータは、複数のテキスト候補と、前記複数のテキスト候補と関連付けられた信頼度データと、を含み、前記辞書のエントリに対応するテキスト候補が、前記テキスト候補と関連付けられた信頼度値により検証されたテキストとして選択される請求項２５に記載の装置。
装置であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するための手段と、
処理するための手段のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内の前記オブジェクトを処理するための前記手段と、
結合された出力を生成するために追跡するための前記手段の前記追跡結果を処理するための前記手段の出力と結合するための手段と、を備える、装置。
フレームの前記部分組内の前記オブジェクトを処理するための前記手段は、フレームの前記部分組内で前記オブジェクトを検出するための手段を含む請求項２７に記載の装置。
フレームの前記部分組内で前記オブジェクトを処理するための前記手段は、フレームの前記部分組内において前記オブジェクトを認識するための手段を含む請求項２７に記載の装置。
結合するための前記手段は、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するための手段を含む請求項２７に記載の装置。
前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含む請求項３０に記載の装置。
前記複数のフレームを生成するための手段と、前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示するための手段と、をさらに備える請求項３０に記載の装置。
結合するための前記手段は、Ｋａｌｍａｎフィルタと、最尤推定器と、を含む請求項２７に記載の装置。
非一時的なコンピュータによって読み取り可能な媒体であって、
プロセッサによって実行されたときに、
追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡し、
オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内で前記オブジェクトのオブジェクト処理を行い、及び
結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することを前記プロセッサに行わせるプログラムコードを含む、非一時的なコンピュータによって読み取り可能な媒体。
前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト検出器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト検出を行うことを含む請求項３４に記載の非一時的なコンピュータによって読み取り可能な媒体。
前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト認識器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト認識を行うことを含む請求項３４に記載の非一時的なコンピュータによって読み取り可能な媒体。
前記プロセッサによって実行されたときに、前記結合された出力に基づいて前記オブジェクトの状態情報を更新することを前記プロセッサに行わせるプログラムコードをさらに備える請求項３４に記載の非一時的なコンピュータによって読み取り可能な媒体。
前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含む請求項３７に記載の非一時的なコンピュータによって読み取り可能な媒体。
前記プロセッサによって実行されたときに、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを前記プロセッサに行わせるプログラムコードをさらに備える請求項３４に記載の非一時的なコンピュータによって読み取り可能な媒体。
方法であって、
追跡結果を生成するために映像データの複数のフレームのうちの第１のフレーム内のテキストを含む領域を追跡することと、
認識されたテキストデータを識別するために前記第１のフレームに関するテキスト処理を行うことと、
テキスト出力を生成するために前記追跡結果及び前記認識されたテキストデータを結合することと、を備える、方法。
前記第１のフレームに関するテキスト処理を行うことは、前記第１のフレームに関するテキスト検出を行うことを含む請求項４０に記載の方法。
前記第１のフレームに関するテキスト処理を行うことは、前記第１のフレームに関するテキスト認識を行うことを含む請求項４０に記載の方法。
前記テキスト出力は、前記認識されたテキストデータと、前記テキストデータの位置情報と、を含む請求項４０に記載の方法。
テキスト検出及び認識を前記行うことは、単一フレームのレーテンシーを有し、前記追跡することは、単一フレームのレーテンシーを有する請求項４０に記載の方法。