JP2015506516A - オブジェクトの追跡及び処理 - Google Patents
オブジェクトの追跡及び処理 Download PDFInfo
- Publication number
- JP2015506516A JP2015506516A JP2014551242A JP2014551242A JP2015506516A JP 2015506516 A JP2015506516 A JP 2015506516A JP 2014551242 A JP2014551242 A JP 2014551242A JP 2014551242 A JP2014551242 A JP 2014551242A JP 2015506516 A JP2015506516 A JP 2015506516A
- Authority
- JP
- Japan
- Prior art keywords
- text
- frames
- tracking
- frame
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 180
- 238000000034 method Methods 0.000 claims abstract description 96
- 238000001514 detection method Methods 0.000 claims description 84
- 230000033001 locomotion Effects 0.000 claims description 37
- 230000002123 temporal effect Effects 0.000 claims description 29
- 238000007476 Maximum Likelihood Methods 0.000 claims description 28
- 238000012015 optical character recognition Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 239000002245 particle Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 16
- 238000001914 filtration Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 6
- 230000004807 localization Effects 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000257303 Hymenoptera Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
- Character Discrimination (AREA)
Abstract
Description
本出願は、ここにおける引用によってその内容全体がここにおいて組み入れられている米国特許出願第13/567,412号(出願日:2012年8月6日)、及び米国仮特許出願第61/584,062号(出願日:2012年1月6日)に基づくものであり及び米国特許出願第13/567,412号(出願日:2012年8月6日)、及び米国仮特許出願第61/584,062号(出願日:2012年1月6日)の利益を主張するものである。
特定の実施形態において、より良いユーザ経験、例えば、より高いフレームレート、を提供するために及び計算電力を節約するためにマルチスレッディングを実装することができる。単一のスレッドを使用する従来のテキスト検出技法及び従来のテキスト認識技法は、検出及び認識段階の低いフレームレートに起因して時間がかかることがあり、リアルタイムの経験をユーザに提供することができず、及び、高いフレームレートを生み出すことができない。開示される実施形態は、OCRスレッドと追跡スレッドとを含むマルチスレッド処理を利用する。OCRスレッドは、シーンテキストを処理し及び時間フィルタリングを行うことができる。OCRスレッドと実質上同時並行して、追跡スレッドは、高いフレームレートで(例えば、レビューを生成することによって)時間フィルタリングの結果を更新することができる。追跡段階は、検出及び認識段階(すなわち、OCRスレッド)よりも高いフレームレート(低いレーテンシー)を有することが注目されるべきである。従って、OCRスレッドと追跡スレッドとを含むマルチスレッド実装を用いることによって、単一のスレッドを利用するシステムと比較してより高いフレームレートが達成される。
特定の実施形態において、画像キャプチャデバイス102は、テキスト153を含むテキストボックス152を有するシーンの入力画像150を表現する着光を画像センサ112に向けるように構成されたレンズ110を含むことができる。画像センサ112は、検出された着光に基づいて映像データ又は画像データ160を生成するように構成することができる。画像キャプチャデバイス102は、カメラ、映像録画装置、無線デバイス、ポータブル電子デバイス、又はそれらの組み合わせを含むことができる。テキストボックス152は例示目的であり、シーン内には現れないことがある点が注目されるべきである。テキストボックス152は、入力画像150内の対応するオブジェクト151を例示するために使用することができる。図1は、1つのオブジェクト151を例示しているが、画像キャプチャデバイス102によってキャプチャされた入力画像150は、複数のオブジェクトを含むことができる。
更新された状態情報154の出力170は、表示装置106に提供することができる。表示装置106は、更新された状態情報154に基づいて出力画像170を表示することができる。例えば、状態情報154及び後続する更新(すなわち、更新された状態情報)は、オブジェクト151に関する情報、例えば、フレームからフレームまでのオブジェクトの位置、フレームからフレームまでのオブジェクト内に含まれるテキスト、オブジェクトに関連する増強コンテンツ、又はそれらのあらゆる組み合わせ、を含むことができる。
特定の実施形態において、オブジェクト検出器/認識器124は、マルチフレームのレーテンシーを有することができる。例えば、オブジェクト検出器/認識器124は、複数のフレームのうちの1つ以上のフレームに関するフレーム結果を生成することができない(すなわち、オブジェクト検出器/認識器124は、追跡器112よりも低い頻度でフレーム結果を生成する)。オブジェクト検出器/認識器124は、図1に示されるように、フレーム1、5、13、...、及びnに関する結果を生成することができるが、フレーム2、3、4、6、7、8、9、10、11、及び12に関する結果は生成できない。
最尤推定器は、光学文字認識(OCR)を介して提案されるテキストデータを生成するように及び提案されるテキストデータを検証するために辞書にアクセスするように構成することができる。例えば、最尤推定器は、メモリ108に格納された1つ以上の辞書、例えば、代表的辞書140、にアクセスすることができる。提案されるテキストデータは、複数のテキスト候補144と、複数のテキスト候補144の各々と関連付けられた信頼度データと、を含むことができる。最尤推定器は、辞書140のエントリに対応するテキスト候補と関連付けられた信頼度値によりそのテキスト候補を選択するように構成することができる。例示として、テキスト153は、信頼度値95%の‘車’として、信頼度90%の“猫”として、信頼度値50%の‘運ぶ’として識別することができる。テキスト候補‘車’が最高の信頼度値を有するため、‘車’を最尤推定器によって選択することができる。
図2を参照し、オブジェクトの追跡及び検出を行うためのシステムの特定の実施形態が開示され、概して200の指定数字が付される。システム200は、画像キャプチャデバイス102と、表示装置106と、画像処理デバイス204に結合された図1のメモリ108と、を含む。画像キャプチャデバイス102、表示装置106、及びメモリ108は、図1に関して説明されるように動作するように構成することができる。画像処理デバイス204は、着信画像データ又は映像データ内の入力画像150のオブジェクト151を検出するように及びオブジェクト151を追跡してオブジェクト検出を行い、表示のためにオブジェクト151の更新された状態情報154を生成するように構成することができる。
特定の実施形態において、追跡器114は単一のフレームのレーテンシー有することができ、他方オブジェクトプロセッサ(例えば、検出器/認識器124)はマルチフレームのレーテンシーを有することができるため、追跡段階404の結果は、オブジェクト処理段階402の出力よりも頻繁に生成することができる。結合段階406は、時間フィルタ134によって結合された出力を生成し及び状態情報154を更新することができる。追跡段階404及びオブジェクト処理段階402は、時間の点で少なくとも部分的に重なり合う(例えば、同時並行又は同時)場合があることが注目されるべきである。例えば、追跡段階404又は追跡段階404の一部分は、オブジェクト処理段階402又はオブジェクト処理段階402の一部分と同時並行して行うことができる。
動作中に、画像処理デバイス104は、画像キャプチャデバイス102によってキャプチャされた映像データ160を映像データ160の複数のフレームとして受信することができる。画像処理デバイス104は、映像データ160の複数の映像フレームをオブジェクト追跡器及び認識器101に提供することができる。オブジェクト追跡器及び認識器101は、図1の追跡器114と、オブジェクト検出器/認識器124と、時間フィルタ134と、を含むことができる。例示として、追跡段階404及びオブジェクト処理段階402は、複数のフレームのうちの第1のフレーム151aを受信した時点で開始することができ、複数のフレーム151a乃至151cは、画像キャプチャデバイス104によってキャプチャされたテキスト153(すなわち、“車”)を含む。
図4は、追跡段階404中に3つの映像フレームに関して行われた追跡を例示するが、追跡段階404は、追跡段階404の特定の発生中には3つよりも少ない又は3つよりも多い映像フレームを追跡することを含むことができることが注目されるべきである。さらに、複数の映像フレームの各映像フレームにおいて映像データ160内の複数のオブジェクト(例えば、複数のテキストボックス)を追跡できることが注目されるべきである。
結合段階406は、追跡段階404又はオブジェクト処理段階402によって結果が入手可能であるときにトリガすることができる。オブジェクト処理段階402は、複数の映像フレームにまたがるため、結合段階406は、オブジェクト処理段階402の出力によってよりも追跡段階404からの結果によってのほうが頻繁にトリガすることができる。例えば、追跡段階404及びオブジェクト処理段階402は、両方とも、第1のフレーム151aを受信した時点で開始することができるが、オブジェクト処理段階402が第1のフレーム151aにおいてテキスト153を検出/認識している間に(すなわち、単一フレームでの検出/認識)追跡段階402は第2の映像フレーム151bにおいて及び第3の映像フレーム151cにおいてテキスト153の追跡を続けることができる(すなわち、複数のフレームでの追跡)。
特定の実施形態において、追跡結果をオブジェクトの検出及び認識の出力と統合することは、Kalmanフィルタを最尤推定器とともに使用することを含むことができる。例えば、時間フィルタ134は、統合を行うためのKalmanフィルタと最尤推定器とを含むことができる。Kalmanフィルタは、テキストがある時間にわたって画像キャプチャデバイス102に対して移動するときの、又は画像キャプチャデバイス102がある時間にわたって複数のフレームの各々内のテキスト153に対して移動するときの複数のフレームの各々におけるテキスト153の位置を決定するように構成することができる。最尤推定器は、複数のフレームの各々におけるテキスト153を表現する提案されるテキストデータを(例えば、光学文字認識を介して)生成するように構成することができる。
図6を参照し、図1乃至3のシステム100乃至300の動作例を示した一般図が開示され、概して600の指定数字が付される。特に、図6は、図1のシステム100の制御の流れ及びタイミング図を示す。
Kalmanフィルタ632は、時間フィルタ134の最尤推定器634からの情報にアクセスするように及びKalmanフィルタ632の出力を最尤推定器634に提供するように構成することができる。特定の実施形態において、Kalmanフィルタ632は、テキスト153の座標を含むテキスト153の位置を決定するように構成することができる。例えば、テキスト153の位置は、テキストボックス152の二次元(2D)位置を含むことができる。テキスト153を包含するバウンディングボリュームの三次元(3D)位置(例えば、x、y、及びz座標)は、2D位置から推測することができる。さらに、Kalmanフィルタ632は、連続する映像フレームの処理に基づいてテキスト153の位置(location)(すなわち、位置position)を経時で更新するように構成することができる。
最尤推定器634は、複数の映像フレーム内での検出されたテキスト及びそのテキストの動きに基づいて提案されるテキストデータを生成するように構成することができる。最尤推定器634は、提案されるテキストデータを検証するために辞書にアクセスするように構成することができる。例えば、最尤推定器は、メモリに格納された1つ以上の辞書(例えば、図1の辞書140)にアクセスすることができる。提案されるテキストデータは、複数のテキスト候補と、複数のテキスト候補と関連付けられた信頼度データと、含むことができる。最尤推定器634は、辞書140のエントリに対応するテキスト候補と関連付けられた信頼度値によりそのテキスト候補を選択するように構成することができる。例えば、テキストは辞書140内で最高の対応する信頼度値を有するため最尤推定器634はそのテキストを選択することができる。
検出器/認識器124の認識デバイス624は、複数のフレームのうちの各々内でテキストを認識する(すなわち、識別する)ように構成することができる。認識デバイス624は、光学文字認識(OCR)を含むことができる。認識デバイス624は、テキストピクセルデータを機械によって符号化されるテキストに変換するように構成することができる。複数の映像フレームのうちの各々の中のテキストを機械によって符号化されるテキストに変換することによって、各フレームからのテキストを、格納、表示することができ、及び識別されたテキストの精度を向上させるために最尤推定器624に提供することができる。検出器622及び認識デバイス624は、検出器/認識器124の2つの別個のコンポーネントとして示されているが、検出器622及び認識デバイス624は1つのコンポーネント内に組み入れることができることが注目されるべきである。
図7を参照し、オブジェクトの追跡及び処理を行う方法700の流れ図が例示される。例示的な実施形態において、方法700は、図1の画像処理デバイス104において、図2の画像処理デバイス204において、又は図3の画像処理デバイス304において行うことができる。
方法700は、判断要素720において、オブジェクト処理が完了しているかどうかを決定することも含むことができる。例えば、図1のオブジェクト追跡器及び認識器101は、単一のフレーム(例えば、映像データ160の複数のフレームのうちの第1のフレーム)のオブジェクト検出及び/又はオブジェクト認識が検出器/認識器124によって完了されているかどうかを決定するように構成することができる。他の例として、図2のオブジェクト追跡器及び認識器201は、単一のフレームのオブジェクト検出がオブジェクト検出器224によって完了されているかどうかを決定するように構成することができる。他の例として、図3のオブジェクト追跡器及び認識器301は、単一のフレームのオブジェクト認識がオブジェクト認識器324によって完了されているかどうかを決定するように構成することができる。特定の実施形態において、オブジェクト処理は、マルチフレームのレーテンシーを有することができる。
720において、オブジェクト処理(例えば、オブジェクト検出及び/又はオブジェクト認識)が完了していることを検出する前に、750において、特定のフレームと前フレームとの間でのオブジェクトの動きを推定することができ、及び、760において、推定された動きに基づいてオブジェクトの状態情報を更新することができる。例えば、図1の検出器/認識器124が、第1のフレームのオブジェクト処理(例えば、オブジェクト検出及び/又はオブジェクト認識)を完了させていない場合は、追跡器114は、第2のフレームと第1のフレームとの間でのテキスト153の動き推定を行うことができる。例示として、テキスト153は、第1のフレーム内の縦位置から第2のフレーム内の斜めの位置に移動している可能性がある。追跡器114は、第1のフレーム及び第2のフレーム内でテキスト153の動きを追跡するように及びフレームからフレームへのテキスト153の動きを推定するように構成することができる。さらに、処理が完了する前に(すなわち、検出器/認識器124のマルチフレームレーテンシーに起因して)テキスト153の状態情報を更新するために追跡器114による動き推定の追跡結果を使用することができる。例えば、更新された状態情報は、フレームからフレームへのテキスト153の位置変更を含むことができる。例示として、更新された状態情報は、第2のフレーム内のテキスト153の第2の位置(例えば、座標x2、y2)によって更新された第1のフレーム内のテキスト153の第1の位置(例えば、座標x1、y1)を含むことができる。
出力は、770において、オブジェクトの更新された状態情報に基づいて生成することができる。例えば、状態情報及び図1の追跡器114及び検出器/認識器124によって提供される後続する更新は、オブジェクトに関する情報、例えば、フレームからフレームへのオブジェクトの位置、フレームからフレームへのオブジェクトに含まれるテキスト、オブジェクトに関連する増強されたコンテンツ、又はそれらの組み合わせ、を含むことができる。従って、画像処理デバイス104は、表示装置106での表示のために更新された状態情報に基づく出力(例えば、テキスト及び埋め込まれたコンテンツ)を生成することができる。
方法800は、オブジェクト検出器又はオブジェクト認識器のマルチフレームのレーテンシーにより選択された複数のフレームのうちのフレームの部分組のオブジェクト処理(例えば、オブジェクト検出、オブジェクト認識、又はそれらのあらゆる組み合わせ)を行うことも含み、820において、オブジェクト処理及び追跡は、時間の点で少なくとも部分的に重なり合う。例えば、図1の検出器/認識器124は、複数のフレームのうちのフレームの部分組(例えば、第1のフレーム、第5のフレーム、第13のフレーム)内でオブジェクト151を検出及び/又は認識するように及び追跡器114によって生成されたすべてのNのフレーム結果に関して単一のフレーム結果(例えば、フレーム5結果)を生成するように構成することができ(例えば、フレーム2乃至4)、ここで、Nは、1よりも大きい整数である。
840において、オブジェクトの状態情報が、結合された出力に基づいて更新される。例えば、時間フィルタ134は、図6のKalmanフィルタ632と、図6の最尤推定器634と、を含むことができる。さらに、時間フィルタ134は、結合された出力144に基づいてオブジェクトの状態情報154を更新するように構成することができる。例えば、更新された状態情報154は、フレームからフレームへの(すなわち、ある時間にわたっての)オブジェクトに対応する情報を含むアレイ(array)を含むことができる。例示として、更新された状態情報154は、オブジェクトの位置、オブジェクトから識別されたテキスト、テキストに関連するコンテンツ、又はそれらのあらゆる組み合わせを含むことができる。
特定の実施形態において、オブジェクト追跡器及び認識器101は、追跡器(例えば、図1の追跡器114)と、検出器/認識器(例えば、図1の検出器/認識器124)と、時間フィルタ(例えば、図1の時間フィルタ134)と、を含むことができる。追跡器114は、追跡結果を生成するために映像データ(例えば、図1の映像データ160)の複数のフレームの各々においてオブジェクト(例えば、図1のオブジェクト151)を追跡するように構成することができる。検出器/認識器124は、複数のフレームのうちの単一のフレームにおいてオブジェクト151を検出及び認識するように構成することができる。時間フィルタ134は、検出器/認識器124によって行われるオブジェクトの検出及び認識の完了に応答することができ及び結合された出力144を生成するために及び結合された出力144に基づいてオブジェクト151の状態情報を更新するために追跡器114の追跡結果を検出器/認識器124のオブジェクトの検出及び認識の出力と結合するように構成することができる。特定の実施形態において、オブジェクト151は、テキストボックス(例えば、テキスト153を含むテキストボックス152)及びテキストボックス152の位置に対応することができる。
図9は、カメラコントローラ960に結合することができるカメラ942であり、カメラ942から受信された映像データ内でのオブジェクト(例えば、テキスト)の追跡を行うために及びオブジェクトの検出及び認識を行うためにオブジェクト追跡器及び認識器101によって処理される画像及び/又は映像データを提供することができるカメラ942を示す。
図9は、無線通信デバイスを描いているが、プロセッサ910及びメモリ108は、その他のデバイス、例えば、マルチメディアプレーヤー、娯楽ユニット、ナビゲーション装置、パーソナルデジタルアシスタント(PDA)、固定ロケーションデータユニット、又はポータブルコンピュータ(例えば、ラップトップコンピュータ又はタブレットコンピュータ)、に組み入れることもできることが注目されるべきである。さらに、プロセッサ910は、図1のオブジェクト追跡器及び認識器101を含むが、その他の実施形態では、プロセッサ910は、図2のオブジェクト追跡器及び検出器201又は図3のオブジェクト追跡器及び認識器301を含むことができることも注目されるべきである。
以下に本願出願当初の特許請求の範囲を付記する。
[C1] 方法であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡することと、
オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組のオブジェクト処理を行うことと、
結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することと、を備える、方法。
[C2] フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト検出器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト検出を行うことを含むC1に記載の方法。
[C3] フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト認識器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト認識を行うことを含むC1に記載の方法。
[C4] 前記結合された出力に基づいて前記オブジェクトの状態情報を更新することをさらに備えるC1に記載の方法。
[C5] 少なくとも前記追跡結果又は前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を更新することをさらに備えるC1に記載の方法。
[C6] 前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を前記更新することは、前記オブジェクト処理の現在の出力、前記オブジェクト処理の以前の出力、前記オブジェクトの動き履歴、又はそれらのあらゆる組み合わせを利用することを備えるC5に記載の方法。
[C7] 前記オブジェクト処理は、オブジェクト処理段階中に行われ、前記追跡は、追跡段階中に行われるC4に記載の方法。
[C8] 前記追跡段階及び前記オブジェクト処理段階は、時間の点で少なくとも部分的に重なり合うC7に記載の方法。
[C9] 結合段階をさらに備え、前記結合段階は、前記結合された出力を生成することと、前記状態情報を更新することと、を含むC7に記載の方法。
[C10] 前記更新された状態情報は、前記オブジェクトの位置を含むC4に記載の方法。
[C11] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストを含むC4に記載の方法。
[C12] 前記画像キャプチャデバイスの表示装置において前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示することをさらに備えるC4に記載の方法。
[C13] 前記追跡結果を前記オブジェクト処理の前記出力と結合することは、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを備えるC1に記載の方法。
[C14] 前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、Kalmanフィルタ、パーティクルフィルタ、又はExtended Kalmanフィルタのうちの少なくとも1つを用いて前記追跡結果に基づいて前記オブジェクトの位置情報を生成することを備えるC13に記載の方法。
[C15] 前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、最尤推定器又は最大事後推定器のうちの少なくとも1つを用いて前記オブジェクト処理の前記出力に基づいて前記オブジェクトのテキストデータを含む識別情報を生成することを備えるC13に記載の方法。
[C16] 前記複数のフレームは、画像キャプチャデバイスによって生成され、前記画像キャプチャデバイスは、カメラ、映像録画装置、無線デバイス、ポータブル電子デバイス、又はそれらのあらゆる組み合わせを備えるC1に記載の方法。
[C17] フレームの前記部分組のうちの第1のフレームの前記オブジェクト処理が完了していることを検出する前に、
フレームの前記部分組のうちの前記第1のフレームと第2のフレームとの間での前記オブジェクトの動きを推定することと、
前記推定された動きに基づいて前記オブジェクトの状態情報を更新することと、
前記オブジェクトの前記更新された状態情報に基づいて出力を生成することと、をさらに備えるC1に記載の方法。
[C18] 前記追跡することは、単一フレームのレーテンシーを有するC1に記載の方法。
[C19] 装置であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するように構成された追跡器と、
オブジェクトプロセッサのマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内でオブジェクトを処理するように構成された前記オブジェクトプロセッサと、
結合された出力を生成するために前記追跡器の前記追跡結果を前記オブジェクトプロセッサの出力と結合するように構成された時間フィルタと、を備える、装置。
[C20] 前記オブジェクトプロセッサは、
フレームの前記部分組内で前記オブジェクトを検出するように構成されたオブジェクト検出器と、
フレームの前記部分組内で前記オブジェクトを認識するように構成されたオブジェクト認識器と、を含むC19に記載の装置。
[C21] 前記時間フィルタは、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するようにさらに構成されるC19に記載の装置。
[C22] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含むC21に記載の装置。
[C23] 前記時間フィルタは、Kalmanフィルタと、最尤推定器と、を含むC22に記載の装置。
[C24] 前記Kalmanフィルタは、前記テキストの前記位置を決定するように構成され、前記テキストの前記位置は、前記テキストボックスの座標を含むC23に記載の装置。
[C25] 前記最尤推定器は、
光学文字認識(OCR)を介して提案されるテキストデータを生成し、及び
前記提案されるテキストデータを検証するために辞書にアクセスするように構成されるC23に記載の装置。
[C26] 前記提案されるテキストデータは、複数のテキスト候補と、前記複数のテキスト候補と関連付けられた信頼度データと、を含み、前記辞書のエントリに対応するテキスト候補が、前記テキスト候補と関連付けられた信頼度値により検証されたテキストとして選択されるC25に記載の装置。
[C27] 装置であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するための手段と、
処理するための手段のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内の前記オブジェクトを処理するための前記手段と、
結合された出力を生成するために追跡するための前記手段の前記追跡結果を処理するための前記手段の出力と結合するための手段と、を備える、装置。
[C28] フレームの前記部分組内の前記オブジェクトを処理するための前記手段は、フレームの前記部分組内で前記オブジェクトを検出するための手段を含むC27に記載の装置。
[C29] フレームの前記部分組内で前記オブジェクトを処理するための前記手段は、フレームの前記部分組内において前記オブジェクトを認識するための手段を含むC27に記載の装置。
[C30] 結合するための前記手段は、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するための手段を含むC27に記載の装置。
[C31] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含むC30に記載の装置。
[C32] 前記複数のフレームを生成するための手段と、前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示するための手段と、をさらに備えるC30に記載の装置。
[C33] 結合するための前記手段は、Kalmanフィルタと、最尤推定器と、を含むC27に記載の装置。
[C34] 非一時的なコンピュータによって読み取り可能な媒体であって、
プロセッサによって実行されたときに、
追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡し、
オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内で前記オブジェクトのオブジェクト処理を行い、及び
結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することを前記プロセッサに行わせるプログラムコードを含む、非一時的なコンピュータによって読み取り可能な媒体。
[C35] 前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト検出器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト検出を行うことを含むC34に記載の非一時的なコンピュータによって読み取り可能な媒体。
[C36] 前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト認識器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト認識を行うことを含むC34に記載の非一時的なコンピュータによって読み取り可能な媒体。
[C37] 前記プロセッサによって実行されたときに、前記結合された出力に基づいて前記オブジェクトの状態情報を更新することを前記プロセッサに行わせるプログラムコードをさらに備えるC34に記載の非一時的なコンピュータによって読み取り可能な媒体。
[C38] 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含むC37に記載の非一時的なコンピュータによって読み取り可能な媒体。
[C39] 前記プロセッサによって実行されたときに、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを前記プロセッサに行わせるプログラムコードをさらに備えるC34に記載の非一時的なコンピュータによって読み取り可能な媒体。
[C40] 方法であって、
追跡結果を生成するために映像データの複数のフレームのうちの第1のフレーム内のテキストを含む領域を追跡することと、
認識されたテキストデータを識別するために前記第1のフレームに関するテキスト処理を行うことと、
テキスト出力を生成するために前記追跡結果及び前記認識されたテキストデータを結合することと、を備える、方法。
[C41] 前記第1のフレームに関するテキスト処理を行うことは、前記第1のフレームに関するテキスト検出を行うことを含むC40に記載の方法。
[C42] 前記第1のフレームに関するテキスト処理を行うことは、前記第1のフレームに関するテキスト認識を行うことを含むC40に記載の方法。
[C43] 前記テキスト出力は、前記認識されたテキストデータと、前記テキストデータの位置情報と、を含むC40に記載の方法。
[C44] テキスト検出及び認識を前記行うことは、単一フレームのレーテンシーを有し、前記追跡することは、単一フレームのレーテンシーを有するC40に記載の方法。
Claims (44)
- 方法であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡することと、
オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組のオブジェクト処理を行うことと、
結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することと、を備える、方法。 - フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト検出器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト検出を行うことを含む請求項1に記載の方法。
- フレームの前記部分組のオブジェクト処理を行うことは、前記オブジェクト認識器の前記マルチフレームレーテンシーによりフレームの前記部分組のオブジェクト認識を行うことを含む請求項1に記載の方法。
- 前記結合された出力に基づいて前記オブジェクトの状態情報を更新することをさらに備える請求項1に記載の方法。
- 少なくとも前記追跡結果又は前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を更新することをさらに備える請求項1に記載の方法。
- 前記オブジェクト処理の前記出力に基づいて前記オブジェクトの状態情報を前記更新することは、前記オブジェクト処理の現在の出力、前記オブジェクト処理の以前の出力、前記オブジェクトの動き履歴、又はそれらのあらゆる組み合わせを利用することを備える請求項5に記載の方法。
- 前記オブジェクト処理は、オブジェクト処理段階中に行われ、前記追跡は、追跡段階中に行われる請求項4に記載の方法。
- 前記追跡段階及び前記オブジェクト処理段階は、時間の点で少なくとも部分的に重なり合う請求項7に記載の方法。
- 結合段階をさらに備え、前記結合段階は、前記結合された出力を生成することと、前記状態情報を更新することと、を含む請求項7に記載の方法。
- 前記更新された状態情報は、前記オブジェクトの位置を含む請求項4に記載の方法。
- 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストを含む請求項4に記載の方法。
- 前記画像キャプチャデバイスの表示装置において前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示することをさらに備える請求項4に記載の方法。
- 前記追跡結果を前記オブジェクト処理の前記出力と結合することは、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを備える請求項1に記載の方法。
- 前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、Kalmanフィルタ、パーティクルフィルタ、又はExtended Kalmanフィルタのうちの少なくとも1つを用いて前記追跡結果に基づいて前記オブジェクトの位置情報を生成することを備える請求項13に記載の方法。
- 前記オブジェクト処理の前記出力に関して前記追跡結果を統合することは、最尤推定器又は最大事後推定器のうちの少なくとも1つを用いて前記オブジェクト処理の前記出力に基づいて前記オブジェクトのテキストデータを含む識別情報を生成することを備える請求項13に記載の方法。
- 前記複数のフレームは、画像キャプチャデバイスによって生成され、前記画像キャプチャデバイスは、カメラ、映像録画装置、無線デバイス、ポータブル電子デバイス、又はそれらのあらゆる組み合わせを備える請求項1に記載の方法。
- フレームの前記部分組のうちの第1のフレームの前記オブジェクト処理が完了していることを検出する前に、
フレームの前記部分組のうちの前記第1のフレームと第2のフレームとの間での前記オブジェクトの動きを推定することと、
前記推定された動きに基づいて前記オブジェクトの状態情報を更新することと、
前記オブジェクトの前記更新された状態情報に基づいて出力を生成することと、をさらに備える請求項1に記載の方法。 - 前記追跡することは、単一フレームのレーテンシーを有する請求項1に記載の方法。
- 装置であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するように構成された追跡器と、
オブジェクトプロセッサのマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内でオブジェクトを処理するように構成された前記オブジェクトプロセッサと、
結合された出力を生成するために前記追跡器の前記追跡結果を前記オブジェクトプロセッサの出力と結合するように構成された時間フィルタと、を備える、装置。 - 前記オブジェクトプロセッサは、
フレームの前記部分組内で前記オブジェクトを検出するように構成されたオブジェクト検出器と、
フレームの前記部分組内で前記オブジェクトを認識するように構成されたオブジェクト認識器と、を含む請求項19に記載の装置。 - 前記時間フィルタは、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するようにさらに構成される請求項19に記載の装置。
- 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含む請求項21に記載の装置。
- 前記時間フィルタは、Kalmanフィルタと、最尤推定器と、を含む請求項22に記載の装置。
- 前記Kalmanフィルタは、前記テキストの前記位置を決定するように構成され、前記テキストの前記位置は、前記テキストボックスの座標を含む請求項23に記載の装置。
- 前記最尤推定器は、
光学文字認識(OCR)を介して提案されるテキストデータを生成し、及び
前記提案されるテキストデータを検証するために辞書にアクセスするように構成される請求項23に記載の装置。 - 前記提案されるテキストデータは、複数のテキスト候補と、前記複数のテキスト候補と関連付けられた信頼度データと、を含み、前記辞書のエントリに対応するテキスト候補が、前記テキスト候補と関連付けられた信頼度値により検証されたテキストとして選択される請求項25に記載の装置。
- 装置であって、
追跡結果を生成するために映像データの複数のフレームのうちの各々においてオブジェクトを追跡するための手段と、
処理するための手段のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内の前記オブジェクトを処理するための前記手段と、
結合された出力を生成するために追跡するための前記手段の前記追跡結果を処理するための前記手段の出力と結合するための手段と、を備える、装置。 - フレームの前記部分組内の前記オブジェクトを処理するための前記手段は、フレームの前記部分組内で前記オブジェクトを検出するための手段を含む請求項27に記載の装置。
- フレームの前記部分組内で前記オブジェクトを処理するための前記手段は、フレームの前記部分組内において前記オブジェクトを認識するための手段を含む請求項27に記載の装置。
- 結合するための前記手段は、前記結合された出力に基づいて前記オブジェクトの状態情報を更新するための手段を含む請求項27に記載の装置。
- 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含む請求項30に記載の装置。
- 前記複数のフレームを生成するための手段と、前記オブジェクトの前記更新された状態情報に少なくとも部分的に基づいて画像コンテンツを表示するための手段と、をさらに備える請求項30に記載の装置。
- 結合するための前記手段は、Kalmanフィルタと、最尤推定器と、を含む請求項27に記載の装置。
- 非一時的なコンピュータによって読み取り可能な媒体であって、
プロセッサによって実行されたときに、
追跡結果を生成するために映像データの複数のフレームの各々においてオブジェクトを追跡し、
オブジェクト検出器又はオブジェクト認識器のマルチフレームレーテンシーにより選択された前記複数のフレームのうちのフレームの部分組内で前記オブジェクトのオブジェクト処理を行い、及び
結合された出力を生成するために前記追跡結果を前記オブジェクト処理の出力と結合することを前記プロセッサに行わせるプログラムコードを含む、非一時的なコンピュータによって読み取り可能な媒体。 - 前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト検出器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト検出を行うことを含む請求項34に記載の非一時的なコンピュータによって読み取り可能な媒体。
- 前記オブジェクトのオブジェクト処理を行うことは、前記オブジェクト認識器のマルチフレームレーテンシーにより前記オブジェクトのオブジェクト認識を行うことを含む請求項34に記載の非一時的なコンピュータによって読み取り可能な媒体。
- 前記プロセッサによって実行されたときに、前記結合された出力に基づいて前記オブジェクトの状態情報を更新することを前記プロセッサに行わせるプログラムコードをさらに備える請求項34に記載の非一時的なコンピュータによって読み取り可能な媒体。
- 前記オブジェクトは、テキストボックスに対応し、前記更新された状態情報は、前記テキストボックス内の認識されたテキストと、前記テキストボックスの位置と、を含む請求項37に記載の非一時的なコンピュータによって読み取り可能な媒体。
- 前記プロセッサによって実行されたときに、前記オブジェクトの時間情報を入手するために前記オブジェクト処理の前記出力に関して前記追跡結果を統合することを前記プロセッサに行わせるプログラムコードをさらに備える請求項34に記載の非一時的なコンピュータによって読み取り可能な媒体。
- 方法であって、
追跡結果を生成するために映像データの複数のフレームのうちの第1のフレーム内のテキストを含む領域を追跡することと、
認識されたテキストデータを識別するために前記第1のフレームに関するテキスト処理を行うことと、
テキスト出力を生成するために前記追跡結果及び前記認識されたテキストデータを結合することと、を備える、方法。 - 前記第1のフレームに関するテキスト処理を行うことは、前記第1のフレームに関するテキスト検出を行うことを含む請求項40に記載の方法。
- 前記第1のフレームに関するテキスト処理を行うことは、前記第1のフレームに関するテキスト認識を行うことを含む請求項40に記載の方法。
- 前記テキスト出力は、前記認識されたテキストデータと、前記テキストデータの位置情報と、を含む請求項40に記載の方法。
- テキスト検出及び認識を前記行うことは、単一フレームのレーテンシーを有し、前記追跡することは、単一フレームのレーテンシーを有する請求項40に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261584062P | 2012-01-06 | 2012-01-06 | |
US61/584,062 | 2012-01-06 | ||
US13/567,412 | 2012-08-06 | ||
US13/567,412 US9349066B2 (en) | 2012-01-06 | 2012-08-06 | Object tracking and processing |
PCT/US2012/065887 WO2013103450A1 (en) | 2012-01-06 | 2012-11-19 | Object tracking and processing |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015506516A true JP2015506516A (ja) | 2015-03-02 |
JP2015506516A5 JP2015506516A5 (ja) | 2016-08-25 |
JP6030149B2 JP6030149B2 (ja) | 2016-11-24 |
Family
ID=48743957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014551242A Expired - Fee Related JP6030149B2 (ja) | 2012-01-06 | 2012-11-19 | オブジェクトの追跡及び処理 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9349066B2 (ja) |
EP (1) | EP2801053A1 (ja) |
JP (1) | JP6030149B2 (ja) |
KR (1) | KR20140109901A (ja) |
CN (1) | CN104011740B (ja) |
IN (1) | IN2014CN04315A (ja) |
WO (1) | WO2013103450A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017078383A1 (ko) * | 2015-11-04 | 2017-05-11 | 주식회사 핑거플러스 | 다중 사용자의 영상 콘텐츠 내 상품 좌표 추적 데이터에 대한 실시간 통합 데이터 매핑 장치 및 방법 |
KR101772066B1 (ko) * | 2017-04-14 | 2017-09-12 | (주)핑거플러스 | 다중 사용자의 영상 콘텐츠 내 상품 좌표 추적 데이터에 대한 실시간 통합 데이터 매핑 장치 및 방법 |
KR101879735B1 (ko) * | 2017-03-15 | 2018-07-18 | (주)넥셀 | 자동적인 학습데이터 생성 방법 및 장치와 이를 이용하는 자가 학습 장치 및 방법 |
JP2021530016A (ja) * | 2018-07-06 | 2021-11-04 | フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニーFacebook Technologies, Llc | 汎用処理ユニットからハードウェアアクセラレータユニットに画像ベースの追跡オペレーションをオフローディングするためのシステム及び方法 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2507510B (en) * | 2012-10-31 | 2015-06-24 | Sony Comp Entertainment Europe | Apparatus and method for augmented reality |
US20150319510A1 (en) * | 2014-04-30 | 2015-11-05 | General Instrument Corporation | Interactive viewing experiences by detecting on-screen text |
EP2833325A1 (en) * | 2013-07-30 | 2015-02-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for resource-adaptive object detection and tracking |
US20150120035A1 (en) * | 2013-10-25 | 2015-04-30 | Infineon Technologies Ag | Systems and Methods for Linking Trace Information with Sensor Data |
US9122931B2 (en) * | 2013-10-25 | 2015-09-01 | TCL Research America Inc. | Object identification system and method |
RU2595559C2 (ru) * | 2014-12-16 | 2016-08-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов |
GB2536650A (en) | 2015-03-24 | 2016-09-28 | Augmedics Ltd | Method and system for combining video-based and optic-based augmented reality in a near eye display |
US9984315B2 (en) | 2015-05-05 | 2018-05-29 | Condurent Business Services, LLC | Online domain adaptation for multi-object tracking |
US10586102B2 (en) * | 2015-08-18 | 2020-03-10 | Qualcomm Incorporated | Systems and methods for object tracking |
RU2619712C1 (ru) * | 2016-05-13 | 2017-05-17 | Общество с ограниченной ответственностью "Аби Девелопмент" | Оптическое распознавание символов серии изображений |
US10108856B2 (en) | 2016-05-13 | 2018-10-23 | Abbyy Development Llc | Data entry from series of images of a patterned document |
RU2613849C1 (ru) | 2016-05-13 | 2017-03-21 | Общество с ограниченной ответственностью "Аби Девелопмент" | Оптическое распознавание символов серии изображений |
US10990830B2 (en) | 2016-09-13 | 2021-04-27 | Genetec Inc. | Auto-calibration of tracking systems |
US10497143B2 (en) * | 2016-11-14 | 2019-12-03 | Nec Corporation | Advanced driver-assistance system using accurate object proposals by tracking detections |
US10607463B2 (en) * | 2016-12-09 | 2020-03-31 | The Boeing Company | Automated object and activity tracking in a live video feed |
US10832440B2 (en) * | 2017-08-31 | 2020-11-10 | Nec Corporation | Temporal multi-scale clockwork memory networks for object detection in videos |
RU2657181C1 (ru) | 2017-09-01 | 2018-06-08 | Общество с ограниченной ответственностью "Аби Продакшн" | Способ улучшения качества распознавания отдельного кадра |
US10628961B2 (en) * | 2017-10-13 | 2020-04-21 | Qualcomm Incorporated | Object tracking for neural network systems |
RU2673016C1 (ru) | 2017-12-19 | 2018-11-21 | Общество с ограниченной ответственностью "Аби Продакшн" | Способы и системы оптического распознавания символов серии изображений |
US11980507B2 (en) | 2018-05-02 | 2024-05-14 | Augmedics Ltd. | Registration of a fiducial marker for an augmented reality system |
US11244175B2 (en) * | 2018-06-01 | 2022-02-08 | Qualcomm Incorporated | Techniques for sharing of sensor information |
CN110799984A (zh) * | 2018-07-27 | 2020-02-14 | 深圳市大疆创新科技有限公司 | 跟踪控制方法、设备、计算机可读存储介质 |
US11983183B2 (en) * | 2018-08-07 | 2024-05-14 | Disney Enterprises, Inc. | Techniques for training machine learning models using actor data |
US11766296B2 (en) | 2018-11-26 | 2023-09-26 | Augmedics Ltd. | Tracking system for image-guided surgery |
CN111666960B (zh) * | 2019-03-06 | 2024-01-19 | 南京地平线机器人技术有限公司 | 图像识别方法、装置、电子设备及可读存储介质 |
US11980506B2 (en) | 2019-07-29 | 2024-05-14 | Augmedics Ltd. | Fiducial marker |
CN110636452B (zh) * | 2019-08-28 | 2021-01-12 | 福建工程学院 | 无线传感器网络粒子滤波目标跟踪方法 |
CN110516620B (zh) | 2019-08-29 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、存储介质及电子设备 |
WO2021061112A1 (en) | 2019-09-25 | 2021-04-01 | Google Llc | Gain control for face authentication |
US10984513B1 (en) | 2019-09-30 | 2021-04-20 | Google Llc | Automatic generation of all-in-focus images with a mobile camera |
CN110942065B (zh) * | 2019-11-26 | 2023-12-12 | Oppo广东移动通信有限公司 | 文本框选方法、装置、终端设备及计算机可读存储介质 |
US11382712B2 (en) | 2019-12-22 | 2022-07-12 | Augmedics Ltd. | Mirroring in image guided surgery |
US20220103831A1 (en) * | 2020-09-30 | 2022-03-31 | Alibaba Group Holding Limited | Intelligent computing resources allocation for feature network based on feature propagation |
WO2022144543A1 (en) * | 2020-12-31 | 2022-07-07 | Darabase Limited | Audio synchronisation |
US11896445B2 (en) | 2021-07-07 | 2024-02-13 | Augmedics Ltd. | Iliac pin and adapter |
US11869250B2 (en) * | 2021-08-24 | 2024-01-09 | GM Global Technology Operations LLC | Systems and methods for detecting traffic objects |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008192060A (ja) * | 2007-02-07 | 2008-08-21 | Denso Corp | 画像処理装置及び画像処理方法 |
US8037496B1 (en) * | 2002-12-27 | 2011-10-11 | At&T Intellectual Property Ii, L.P. | System and method for automatically authoring interactive television content |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6608930B1 (en) * | 1999-08-09 | 2003-08-19 | Koninklijke Philips Electronics N.V. | Method and system for analyzing video content using detected text in video frames |
US6782049B1 (en) * | 1999-01-29 | 2004-08-24 | Hewlett-Packard Development Company, L.P. | System for selecting a keyframe to represent a video |
US6754389B1 (en) * | 1999-12-01 | 2004-06-22 | Koninklijke Philips Electronics N.V. | Program classification using object tracking |
US6823084B2 (en) | 2000-09-22 | 2004-11-23 | Sri International | Method and apparatus for portably recognizing text in an image sequence of scene imagery |
US7031553B2 (en) * | 2000-09-22 | 2006-04-18 | Sri International | Method and apparatus for recognizing text in an image sequence of scene imagery |
US20030043172A1 (en) * | 2001-08-24 | 2003-03-06 | Huiping Li | Extraction of textual and graphic overlays from video |
AU2003249663A1 (en) * | 2002-05-28 | 2003-12-12 | Yesvideo, Inc. | Summarization of a visual recording |
JP4112968B2 (ja) * | 2002-12-26 | 2008-07-02 | 富士通株式会社 | ビデオテキスト処理装置 |
US8379154B2 (en) * | 2006-05-12 | 2013-02-19 | Tong Zhang | Key-frame extraction from video |
CN101021855B (zh) * | 2006-10-11 | 2010-04-07 | 北京新岸线网络技术有限公司 | 基于内容的视频检索系统 |
US7756296B2 (en) * | 2007-03-27 | 2010-07-13 | Mitsubishi Electric Research Laboratories, Inc. | Method for tracking objects in videos using forward and backward tracking |
US8781996B2 (en) * | 2007-07-12 | 2014-07-15 | At&T Intellectual Property Ii, L.P. | Systems, methods and computer program products for searching within movies (SWiM) |
US8009928B1 (en) * | 2008-01-23 | 2011-08-30 | A9.Com, Inc. | Method and system for detecting and recognizing text in images |
US8320674B2 (en) | 2008-09-03 | 2012-11-27 | Sony Corporation | Text localization for image and video OCR |
US8786781B2 (en) | 2009-04-09 | 2014-07-22 | Ati Technologies Ulc | Detection and enhancement of in-video text |
US9424255B2 (en) * | 2011-11-04 | 2016-08-23 | Microsoft Technology Licensing, Llc | Server-assisted object recognition and tracking for mobile devices |
-
2012
- 2012-08-06 US US13/567,412 patent/US9349066B2/en active Active
- 2012-11-19 WO PCT/US2012/065887 patent/WO2013103450A1/en active Application Filing
- 2012-11-19 KR KR1020147017513A patent/KR20140109901A/ko not_active Application Discontinuation
- 2012-11-19 IN IN4315CHN2014 patent/IN2014CN04315A/en unknown
- 2012-11-19 JP JP2014551242A patent/JP6030149B2/ja not_active Expired - Fee Related
- 2012-11-19 CN CN201280065071.9A patent/CN104011740B/zh not_active Expired - Fee Related
- 2012-11-19 EP EP12814021.7A patent/EP2801053A1/en not_active Ceased
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8037496B1 (en) * | 2002-12-27 | 2011-10-11 | At&T Intellectual Property Ii, L.P. | System and method for automatically authoring interactive television content |
JP2008192060A (ja) * | 2007-02-07 | 2008-08-21 | Denso Corp | 画像処理装置及び画像処理方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017078383A1 (ko) * | 2015-11-04 | 2017-05-11 | 주식회사 핑거플러스 | 다중 사용자의 영상 콘텐츠 내 상품 좌표 추적 데이터에 대한 실시간 통합 데이터 매핑 장치 및 방법 |
US10531162B2 (en) | 2015-11-04 | 2020-01-07 | Cj Enm Co., Ltd. | Real-time integrated data mapping device and method for product coordinates tracking data in image content of multi-users |
KR101879735B1 (ko) * | 2017-03-15 | 2018-07-18 | (주)넥셀 | 자동적인 학습데이터 생성 방법 및 장치와 이를 이용하는 자가 학습 장치 및 방법 |
KR101772066B1 (ko) * | 2017-04-14 | 2017-09-12 | (주)핑거플러스 | 다중 사용자의 영상 콘텐츠 내 상품 좌표 추적 데이터에 대한 실시간 통합 데이터 매핑 장치 및 방법 |
JP2021530016A (ja) * | 2018-07-06 | 2021-11-04 | フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニーFacebook Technologies, Llc | 汎用処理ユニットからハードウェアアクセラレータユニットに画像ベースの追跡オペレーションをオフローディングするためのシステム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
IN2014CN04315A (ja) | 2015-09-04 |
JP6030149B2 (ja) | 2016-11-24 |
CN104011740A (zh) | 2014-08-27 |
US9349066B2 (en) | 2016-05-24 |
US20130177203A1 (en) | 2013-07-11 |
WO2013103450A1 (en) | 2013-07-11 |
KR20140109901A (ko) | 2014-09-16 |
CN104011740B (zh) | 2017-06-09 |
EP2801053A1 (en) | 2014-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6030149B2 (ja) | オブジェクトの追跡及び処理 | |
KR102339323B1 (ko) | 타겟 인식 방법, 장치, 저장 매체 및 전자 기기 | |
US10198823B1 (en) | Segmentation of object image data from background image data | |
JP5755664B2 (ja) | 複数の特徴検出器の適用に基づいた画像特徴検出 | |
JP6522595B2 (ja) | トラッカ補助画像キャプチャ | |
JP6204659B2 (ja) | 映像処理装置及び映像処理方法 | |
WO2019023921A1 (zh) | 一种手势识别方法、装置及设备 | |
JP2018523877A (ja) | オブジェクト追跡のためのシステムおよび方法 | |
US10620826B2 (en) | Object selection based on region of interest fusion | |
JP2015506516A5 (ja) | ||
US20180082428A1 (en) | Use of motion information in video data to track fast moving objects | |
CN112651292A (zh) | 基于视频的人体动作识别方法、装置、介质及电子设备 | |
WO2021196648A1 (zh) | 交互对象的驱动方法、装置、设备以及存储介质 | |
JP2022546201A (ja) | ターゲット検出方法および装置、電子機器並びに記憶媒体 | |
CN110619656A (zh) | 基于双目摄像头的人脸检测跟踪方法、装置及电子设备 | |
WO2023155350A1 (zh) | 一种人群定位方法及装置、电子设备和存储介质 | |
CN112541418B (zh) | 用于图像处理的方法、装置、设备、介质和程序产品 | |
CN115147449A (zh) | 一种多目标跟踪方法、电子设备、存储介质及产品 | |
KR101909326B1 (ko) | 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템 | |
JP2018005510A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2012084056A (ja) | 物体検出装置 | |
US9508155B2 (en) | Method and apparatus for feature computation and object detection utilizing temporal redundancy between video frames | |
Wang et al. | A fast hand motion detection based on FIFO | |
Mistree et al. | Real time object tracking for high performance system using GPGPU | |
JP2023178957A (ja) | 動作認識装置、方法及び電子機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151021 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151021 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160704 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160704 |
|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160913 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6030149 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |