JP7131921B2 - 機械学習を用いたビデオ・フィードにおける自動化されたオブジェクト追跡 - Google Patents

機械学習を用いたビデオ・フィードにおける自動化されたオブジェクト追跡 Download PDF

Info

Publication number
JP7131921B2
JP7131921B2 JP2018020769A JP2018020769A JP7131921B2 JP 7131921 B2 JP7131921 B2 JP 7131921B2 JP 2018020769 A JP2018020769 A JP 2018020769A JP 2018020769 A JP2018020769 A JP 2018020769A JP 7131921 B2 JP7131921 B2 JP 7131921B2
Authority
JP
Japan
Prior art keywords
tracking
frame
machine learning
frames
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018020769A
Other languages
English (en)
Other versions
JP2018173940A (ja
Inventor
ジャン・ウェイ・パン
ヒエウ・タット・グエン
ザカリー・ヨルゲンセン
ユーリ・レヴチュク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boeing Co
Original Assignee
Boeing Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Boeing Co filed Critical Boeing Co
Publication of JP2018173940A publication Critical patent/JP2018173940A/ja
Application granted granted Critical
Publication of JP7131921B2 publication Critical patent/JP7131921B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

本開示は一般にオブジェクト追跡に関し、特に、オブジェクト関連付けを実施すること、および、機械学習を用いてビデオ・フィードにおけるオブジェクトを追跡するためのマッチングに関する。
現在、より洗練されたビデオ追跡システムに対する需要が増えている。この需要は主に、ビデオを使用してセキュリティ能力を高めるだけでなく、ワークフロー分析、交通監視、および群衆およびオブジェクト検出のようなアプリケーションを通じてそれらのビジネス業務を改善するための状況認識を高めようとしている組織により主に求められている。例えば、小売店や顧客対応部署のネットワークオペレータは、ビデオの洞察を利用して、それらの業務を最適化し、顧客の行動をより良く理解することができる。別の例では、空港、鉄道駅、および他の大量輸送オペレータはビデオを監視して人の交通の流れを促進し、業務上の事故を検出し、予測モデルを使用してそれらの業務を最適化する。
ビデオ監視システムの設置の急速な増加に伴い、監視システムのオペレータの既存のチームは、生成される大量のビデオデータを効率的に処理し維持できないため、相当量の見られないビデオ映像が生じ得る。結果として、多くのビデオ監視機器は、事故の後の法医学的、証拠的な目的に使用されるのみである。ビデオ監視映像に関連する洞察を高めるため、不審な行動、オブジェクト認識、交通監視、事故検出、顔照合、安全性警告、異常検出、および群衆計測などのアクティビティに対するビデオを監視するために人間のアナリストが大きく利用されている。しかし、この技術は非効率的でありエラーが発生しやすい。
したがって、上述の問題ならびに他の課題の少なくとも幾つかを考慮するシステムおよび方法を有するのが望ましい。
本開示の例示的な実装は、ビデオ・フィードにおける自動化されたオブジェクト追跡のための改善された装置、方法およびコンピュータ読み取り可能な記憶媒体に関する。幾つかの例示的な実装において、機械学習を用いたビデオ・フィードにおける自動化されたオブジェクト追跡のための方法が提供される。方法は、複数のフレームを含むビデオ・フィードを受信するステップを含む。方法はまた、機械学習技術を使用し、複数のフレームの各フレームを逐次的に処理して、フレーム内の複数のオブジェクトを追跡するステップを含む。複数のオブジェクトの各オブジェクトに対して、方法はオブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡がマップされた共通参照フレームを生成するステップを含む。方法はまた、共通参照フレームおよび複数のオブジェクトのマッピングされた追跡をその上のオーバレイとしてビデオ・フィードを出力するステップを含む。
複数のフレームの各フレームを逐次的に処理するステップは、フレーム内の複数のオブジェクトを検出するステップ、および複数のオブジェクトの各オブジェクトに対して、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるステップを含む。複数のオブジェクトはコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる。各フレームを逐次的に処理するステップはまた、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するステップを含む。さらに複数のフレームの少なくとも幾つかに対して、各フレームを逐次的に処理するステップは、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴および1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴の比較に基づいて、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップを含む。各フレームを逐次的に処理するステップはまた、フレーム内のオブジェクトに対する追跡フラグメントおよび1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡である、より長い追跡フラグメントを形成するステップを含む。
先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップは、運動学的、視覚的、時間的または機械学習ベースの特徴の間の統計的変動および対応する運動学的、視覚的、時間的または機械学習ベースの特徴が予め決定された閾値未満であるインスタンス内の追跡フラグメントを識別するステップを含む。
任意の先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、方法はさらに、フレームでまたはフレーム数の閾値以内の前のフレームで検出された任意のオブジェクトに対する追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、およびフレームでもフレーム数の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持するステップを含む。これらの例示的な実装において、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップは、アクティブな追跡フラグメントのデータベースまたはサスペンドされた追跡フラグメントのデータベースを検索して、維持される追跡フラグメント内のオブジェクトに対する追跡フラグメントを識別するステップを含む。
任意の先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントがサスペンドされた追跡フラグメントのデータベースで識別されるインスタンスにおいて、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップはさらに、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをサスペンドされた追跡フラグメントのデータベースからアクティブな追跡フラグメントのデータベースに移動するステップを含む。フレームでもフレーム数の第2の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントは、サスペンドされた追跡フラグメントのデータベースから削除される。
任意の先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、複数のフレームの各フレームを逐次的に処理するステップはさらに、オブジェクトが検出された第1のインスタンス内のオブジェクトに一意な識別子を割り当てるステップを含む。これらの例示的な実装において、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別するステップは、運動学的、視覚的、時間的または機械学習ベースの特徴を、オブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータ内の一意な識別子に関連付けるステップを含む。さらにこれらの例示的な実装において、ビデオ・フィードを出力するステップは、ワークフロー分析がオブジェクトの一意な識別子に関連付けられる、ビデオ・フィード内のオブジェクトに対する対応するワークフロー分析を生成するステップを含む。
任意の先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、ビデオ・フィードは複数のビデオ・フィードを含み、およびビデオ・フィードを受信するステップおよび複数のビデオフレームの各フレームを逐次的に処理するステップは、ビデオ・フィードを受信するステップおよび少なくとも第1のビデオ・フィードおよび第2のビデオ・フィードの各々に対して複数のビデオフレームの各フレームを逐次的に処理するステップを含む。これらの例示的な実装において、少なくとも1つのオブジェクトが第1のビデオ・フィードのフレームおよび第2のビデオ・フィードのフレーム内で検出されたことに応答して、方法は、第1のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントおよび第2のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントをリンクするステップをさらに含む。
任意の先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、複数のフレームの少なくとも1つのフレームはオクルージョンを含み、フレーム内の複数のオブジェクトを検出するステップは、複数のオブジェクトの少なくとも1つの閉塞されたオブジェクトを検出するステップ、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて閉塞されたオブジェクトを追跡フラグメントに割り当てるステップを含む。
幾つかの例示的な実装において、ライブ・ビデオ・フィードにおける自動化されたオブジェクト追跡のための装置が提供される。装置は、プロセッサと、プロセッサによる実行に応答して、装置に、任意の先行する例示的な実装の方法、または任意のその組合せを実施するように構成された受信機、オブジェクト検出器、およびオブジェクト追跡器のような幾つかのサブシステムを実施させる実行可能命令を格納するメモリとを含む。
幾つかの例示的な実装において、ライブ・ビデオ・フィードにおける自動化されたオブジェクト追跡のためのコンピュータ読み取り可能な記憶媒体が提供される。コンピュータ読み取り可能な記憶媒体は非一時的であり、プロセッサによる実行に応答して、装置に少なくとも任意の先行する例示的な実装の方法、または任意のその組合せを実施させるコンピュータ読み取り可能なプログラムコード部分を格納する。
本開示のこれらのおよび他の特徴、態様、および利点は、以下で簡単に説明される添付図面とともに以下の詳細な説明を読むことで明らかになろう。本開示は、本開示で説明した2つ、3つ、4つまたはそれより多くの特徴または要素の任意の組合せを、かかる特徴または要素が明示的に結合されるかにかかわらず、本明細書で説明されている特定の例示的な実装において実現される。本開示は、本開示の任意の分離可能な特徴または要素が、その態様および例示的な実装の何れかにおいて、本開示の文脈で明確に指示しない限り、結合可能であるとみなされるように、総合的に読まれることを意図している。
本要約は、本開示の幾つかの態様の基本的な理解を提供するために幾つかの例示的な実装を要約する目的のためにのみ提供されることは理解される。したがって、上で説明した例示的な実装は例にすぎず、本開示の範囲と趣旨を決して狭めるものと解釈すべきではないことは理解される。他の例示的な実装、態様および利点は、例として、幾つかの説明された例示的な実装の原理を示す添付図面と関連して捉えた以下の詳細な説明から明らかになろう。
本開示の例示的な実装を一般的な言葉で説明した。次に添付図面を参照する。図面は必ずしも正しい縮尺で描かれていない。
図1は、本開示の例示的な実装に従うビデオ・フィード内の自動化されたオブジェクト追跡のためのシステムの例示である。 図2Aは、幾つかの例示的な実装に従う図1のシステムの適切なオブジェクト追跡器を示す。 図2Bは図2Aの、幾つかの例示的な実装に従うオブジェクト追跡器の適切な特徴識別子を示す。 図3は幾つかの例示的な実装に従う適切なビデオ・フィードおよび対応する追跡オーバレイを示す。 図4Aは、例示的な実装に従う、ビデオ・フィード内の自動化されたオブジェクト追跡のための方法の様々な動作を示すフロー図である。 図4Bは、例示的な実装に従う、ビデオ・フィード内の自動化されたオブジェクト追跡のための方法の様々な動作を示すフロー図である。 図5は幾つかの例示的な実装に従う装置を示す図である。
本開示の幾つかの実装は、本開示の全部ではないが幾つかの実装が示されている添付図面を参照して、以下で本明細書をより完全に説明する。実際、本開示の様々な実装が多数の異なる形で具現化されてもよく、本明細書で説明した実装に限定されるとは解釈されるべきではなく、むしろ、これらの例示的な実装は、本開示が徹底的かつ完全であり、本開示の範囲を完全に当業者に伝達するように提供される。例えば、特に断らない限り、第1の、第2の等として何かを参照することは、特定の順序を示唆すると解釈されるべきではない。また、例えば、本明細書では定量的測定、値、関係等を参照してもよい。特に断らない限り、全てではないにしてもこれらの任意の1つまたは複数が絶対的であってもよく、または、エンジニアリング耐性等に起因するもののような、発生しうる許容可能な変形を説明するために近似してもよい。図面にわたって同じ参照番号は同じ要素を指す。
本開示の例示的な実装は一般にオブジェクトおよびアクティビティ追跡(tracking)に関し、特に、オブジェクト関連付けを実施すること、および、ビデオ・フィード内のオブジェクト追跡のためのマッチングに関する。例示的な実装は主に、ビデオ監視および分析システムに対するアプリケーションと関連して説明される。しかし、例示的な実装を、航空宇宙業界内外の他のアプリケーションのような多数の他のアプリケーションと関連して利用してもよいことは理解されるべきである。
本開示の例示的な実装はさらに、(例えば、ビデオカメラを介して)ビデオ・フィードを受信するように構成され、コンピュータビジョン、自然言語処理、および機械学習モデルの組合せを用いてビデオ・フィードに存在する様々なオブジェクトおよびアクティビティを自動的に認識するようにトレーニングされたシステムに関する。システムはまた、それらの運動学的、視覚的、時間的および機械学習ベースの特徴に基づいてオブジェクトを追跡するように構成される。
図1はビデオ・フィード内の自動化されたオブジェクト追跡のためのシステム100を示す。システム100を本明細書では単に「システム」と称してもよい。システムは、自動的に、直接オペレータコントロールのもとで、またはそれらの幾つかの組合せで幾つかの異なる機能または動作を実施するように構成される。幾つかの例では、システムは、自動的に、即ち、オペレータにより直接制御されることなく、その機能または動作の1つまたは複数を実施するように構成される。さらにまたはあるいは、幾つかの例において、システムは、直接オペレータコントロールのもとでその機能または動作の1つまたは複数を実施するように構成される。
本開示の例示的な実装によれば、システム100は、ビデオ・フィード(例えば、ライブ・ビデオ・フィードまたは記録されたビデオ)内のオブジェクトを追跡するための様々な機能または動作を実施するように構成される。幾つかの例示的な実装において、システムは、複数のフレームを含むビデオ・フィードを受信し、複数のフレームの各フレームを逐次的に処理してその中の複数のオブジェクトを追跡し、ビデオ・フィードを、その上のオーバレイとして複数のオブジェクトの夫々のオブジェクトの追跡にとともに出力するように構成され、追跡が共通参照フレームにマップされる。これらの例示的な実装において、システムは、フレーム内の複数のオブジェクトを検出し、複数のオブジェクトの各オブジェクトに対して、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるように構成される。複数のオブジェクトはコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる。システムはついで、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するように構成される。
さらに複数のフレームの少なくとも幾つかに対して、システムは、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴と1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴との比較に基づいて、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するように構成される。システムはついで、フレーム内のオブジェクトに対する追跡フラグメントおよび1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクしてオブジェクトの追跡であるより長い追跡フラグメントを形成するように構成される。さらに、複数のオブジェクトの各オブジェクトに対して、システムは、オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成するように構成される。システムはついで、ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力するように構成される。
システム100は、1つまたは複数の機能または動作を実施するために互いに接続される幾つかの異なるサブシステム(個々のシステム)の各々の1つまたは複数を含んでもよい。図1に示すように、幾つかの例において、システムは、互いに接続された受信機102、オブジェクト検出器104、およびオブジェクト追跡器106を含む。システムの一部として示されているが、受信機、オブジェクト検出器またはオブジェクト追跡器が、システムと別個であるがそれと通信してもよい。サブシステムの何れかが、サブシステムのその他に関わらず別々のシステムとして機能または動作してもよいことも理解されるべきである。さらに、システムは、図1に示したものに対して1つまたは複数の追加のまたは代替的なサブシステムを含んでもよいことは理解されるべきである。
以下でさらに詳細に説明するように、受信機102、オブジェクト検出器104およびオブジェクト追跡器106は、システム100の夫々の機能または動作を実施するように構成される。幾つかの実装では、受信機は、複数のフレームを含むビデオ・フィードを受信するように構成される。幾つかの実装では、ビデオ・フィードは複数のビデオ・フィードを含む。幾つかの例では、ユーザは、ライブストリームリンクまたはビデオファイルの何れかにより受信するためのビデオのソースを指定する。受信機は、初期処理ユニットとして機能し、ライブ・ビデオストリームまたはビデオファイルを入力として受信し、ビデオを複数の個々の画像フレームに分割する。適切な受信機の例は米国特許出願第15/374、463号で開示されており、参照により本明細書に取り込まれる。
オブジェクト検出器104およびオブジェクト追跡器106は、複数のフレームの各フレームを逐次的に処理するように構成される。オブジェクト検出器はフレーム内のオブジェクトを検出し、およびオブジェクト追跡器は、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てる。ビデオ・フィードが最初に、コンピュータビジョン、自然言語処理および機械学習、および識別可能なオブジェクトのカタログを用いて処理される。即ち、オブジェクトを検出し、コンピュータビジョン、機械学習、および識別可能なオブジェクトのカタログ(例えば、識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログ)を用いて夫々の追跡に割り当ててもよい。拡張された1組の特徴(例えば、運動学的、視覚的、時間的および機械学習ベース特徴)を用いることは、オクルージョン(occlusion)および時々の検出失敗に対する改善された追跡性能をもたらす。例えば、幾つかの例において、複数のフレームの少なくとも1つのフレームはオクルージョンを含み、オブジェクト検出器は、複数のオブジェクトの少なくとも1つの閉塞された(occluded)オブジェクトを検出し、コンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて閉塞されたオブジェクトを追跡フラグメントに割り当てるように構成される。幾つかの例では、ワンタイムトレーニングプロセスが、オブジェクト検出器およびオブジェクト追跡器に、それらが利用される前に適用される。適切なトレーニングプロセスの例は米国特許出願第15/374、463号で開示されており、参照により本明細書に取り込まれる。
図2Aさらには幾つかの例示的な実装に従うオブジェクト追跡器106を示す。示すように、幾つかの実装では、オブジェクト検出器は、ビデオ・フィードを処理し分析するための1つまたは複数の機能または動作を実施するために互いに接続された、特徴識別子202、追跡識別子204、割当てエンジン206、アクティブ・追跡データベース208、およびサスペンドされた追跡・データベース210を含む。
特徴識別子202は、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、および運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するように構成される。幾つかの例では、特徴識別子は、コンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別するように構成される。図2Bに示すように、特徴識別子はコンピュータビジョン特徴識別子202Aおよび機械学習特徴識別子202Bを含んでもよい。幾つかの実装では、コンピュータビジョン特徴識別子202Aは、形状、色等のような従来の特徴を識別するように構成される。幾つかの実装では、機械学習特徴識別子202Bは、オブジェクトの特徴を自動的に検出するために、ディープラーニングニューラル・ネットワークまたは他の適切な方法のような機械学習技術によりトレーニングされる。例えば、ディープラーニングニューラル・ネットワークからの堅牢な検出および分類結果は、エンティティ関連付けおよびマッチングを実施するための、認識された意味的概念および特徴マップのような高レベル特徴を提供する。トレーニングの目的のため、システムは、機械学習を用いて、識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを維持するように構成される。これは、例えば、カタログ内の対応するオブジェクトを、識別可能なオブジェクトの少なくとも幾つかの運動学的、視覚的、時間的または機械学習ベースの特徴で更新するステップを含んでもよい。幾つかの例では、コンピュータビジョンおよび機械学習特徴識別子202A、202Bは、動作可能に接続され、複数の環境(例えば、異なる光環境、天気条件等)内の特徴識別に適応可能な堅牢な分類プロセスを構築するための対応関係および/または転送学習プロセスを用いて、それらの間の特徴をマップするように構成される。
幾つかの例示的な実装において、複数のフレームの各フレームを逐次的に処理するステップにおいて、オブジェクト検出器104はさらに、オブジェクトが検出された第1のインスタンス内のオブジェクトに一意な識別子を割り当てるように構成される。オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別する際、特徴識別子202は、運動学的、視覚的、時間的または機械学習ベースの特徴に、オブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータ内の一意な識別子を関連付けるように構成される。
複数のフレームの少なくとも幾つかに対して、追跡識別子204は、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴および1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴の比較に基づいて、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するように構成される。幾つかの例では、追跡識別子は、運動学的、視覚的、時間的または機械学習ベースの特徴および対応する運動学的、視覚的、時間的または機械学習ベースの特徴の間の統計的変動が予め決定された閾値を下回る事例において、オブジェクトに対する追跡フラグメントを識別するように構成される。
幾つかの例では、オブジェクト追跡器106は、フレームでまたはフレーム数の閾値以内の前のフレームで検出された任意のオブジェクトに対する追跡フラグメントを含むアクティブ・追跡フラグメントのデータベース208、およびフレームでもフレーム数の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベース210を維持するように構成される。これらの例において、追跡識別子204は、アクティブな追跡フラグメントのデータベースまたはサスペンドされた追跡フラグメントのデータベースを検索して、維持される追跡フラグメント内のオブジェクトに対する追跡フラグメントを識別することにより、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するように構成される。
これらの例において、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントがサスペンドされた追跡フラグメントのデータベース210で識別される事例では、追跡識別子204はさらに、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをサスペンドされた追跡フラグメントのデータベース210からアクティブ・追跡フラグメントのデータベース208に移動するように構成される。さらにこれらの例において、フレームでもフレーム数の第2の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントはサスペンドされた追跡フラグメントのデータベース210から削除される。
割当てエンジン206は、フレーム内のオブジェクトに対する追跡フラグメントおよび1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡であるより長い追跡フラグメントを形成するように構成される。幾つかの例では、ビデオ・フィードは複数のビデオ・フィードを含み、およびオブジェクト検出器104およびオブジェクト追跡器106は、少なくとも第1のビデオ・フィードおよび第2のビデオ・フィードの各々に対して複数のビデオフレームの各フレームを逐次的に処理するように構成され、少なくとも1つのオブジェクトが第1のビデオ・フィードのフレームおよび第2のビデオ・フィードのフレームで検出されたとき、割当てエンジンは、第1のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントを第2のビデオ・フィードのフレーム内のオブジェクトにリンクするように構成される。
オブジェクトを追跡した後、オブジェクト追跡器106は、オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成するように構成される。オブジェクト追跡器はまた、ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力するように構成される。幾つかの例では、ビデオ・フィードを出力するステップはまた、ビデオ・フィード内のオブジェクトに対する対応するプロセスおよび/またはワークフロー分析を生成するステップを含む。例えば、幾つかの実装では、オブジェクト追跡器はさらに、追跡されるオブジェクトの静的および/または移動時間に関する情報(例えば、トラフィックフロー、滞在時間、ヒートマップ等)を測定し表示する。幾つかの実装では、ワークフロー分析がオブジェクトの一意な識別子に関連付けられる。
図3は、オブジェクトの追跡304をその上のオーバレイとして有するビデオ・フィード302の例示的なフレームを示す。示すように、ビデオ・フィードは、夫々の一意な識別子306が各オブジェクトとともに表示されるオーバレイとして複数の追跡を有してもよい。例えば、幾つかの実装では、当該追跡は、ビデオのフレームにわたってオブジェクトに沿って移動するオブジェクト上の境界ボックスにより具現化される。
図4Aは、ビデオ・フィード内の自動化されたオブジェクト追跡のための方法400の様々な動作を含む流れ図を示す。ブロック402で示すように、方法は、複数のフレームを含むビデオ・フィードを受信するステップを含む。方法はまた、ブロック404に示されるように、複数のフレームの各フレームを逐次的に処理するステップを含む。ブロック406で示すように、方法はまた、オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成するステップを含む。方法はまた、ブロック408に示されるように、ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力するステップを含む。
図4Bは、幾つかの例示的な実装に従う、複数のフレームの各フレームを逐次的に処理する様々な動作をさらに示す流れ図である(ブロック404)。複数のフレームの各フレームを逐次的に処理するステップは、ブロック410に示されるように、フレーム内のオブジェクトを検出するステップと、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるステップとを含む。複数のオブジェクトはコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる。各フレームを逐次的に処理するステップはまた、ブロック412に示されるように、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するステップを含む。
さらに複数のフレームの少なくとも幾つかに対して、フレームを逐次的に処理するステップは、ブロック414に示されるように、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴および1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴の比較に基づいて、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップを含む。ブロック416に示すように、プロセスは、フレーム内のオブジェクトに対する追跡フラグメントおよび1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡であるより長い追跡フラグメントを形成するステップを含む。
本開示の幾つかの例示的な実装によれば、システム100および受信機102、オブジェクト検出器104およびオブジェクト追跡器106を含むそのサブシステムおよび/またはコンポーネントが様々な手段により実装されてもよい。システム、サブシステムおよびそれらの夫々の要素を実装するための手段はハードウェアを、単体で、または、コンピュータ読み取り可能な記憶媒体からの1つまたは複数のコンピュータプログラムの指示のもとで、含んでもよい。
幾つかの例では、本明細書で示し説明したシステム、サブシステム、ツールおよび夫々の要素として機能しまたはそれらを実装するように構成される1つまたは複数の装置を提供してもよい。複数の装置を含む例では、夫々の装置は、幾つかの異なる方式で、例えば、有線または無線ネットワーク等を介して直接または間接的に、互いと接続されるかまたは通信してもよい。
図5は本開示の幾つかの例示的な実装に従う装置500を示す。一般に、本開示の例示的な実装の装置は、1つまたは複数の固定されたまたはポータブル電子デバイスを含むかまたはそれらで具現化されてもよい。適切な電子デバイスの例は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーションコンピュータ、サーバコンピュータ等を含む。装置は、例えば、メモリ504(例えば、記憶デバイス)に接続されたプロセッサ502(例えば、プロセッサユニット)のような幾つかのコンポーネントの1つまたは複数を含んでもよい。
プロセッサ502は一般に、例えば、データ、コンピュータプログラムおよび/または他の適切な電子情報のような情報を処理できる任意のコンピュータハードウェアである。プロセッサは電子回路の集合から構成され、その幾つかは、集積回路または複数の相互接続された集積回路s(しばしばより一般的に「チップ」と称される集積回路)としてパッケージされうる。プロセッサはコンピュータプログラムを実行するように構成されてもよく、当該プログラムを、プロセッサ上に格納するかまたはそうでなければ(同一のまたは別の装置の)メモリ504に格納してもよい。
プロセッサ502は、特定の実装に応じて、幾つかのプロセッサ、マルチプロセッサコアまたは幾つかの他のタイプのプロセッサであってもよい。さらに、プロセッサが、メインプロセッサが単一のチップ上に1つまたは複数の二次プロセッサとともに存在する幾つかのヘテロジニアス・プロセッサシステムを用いて実装されてもよい。別の例示的な例として、プロセッサは同一のタイプの複数のプロセッサを含む対称マルチプロセッサシステムであってもよい。さらに別の例では、プロセッサが、1つまたは複数の特殊用途向け集積回路(ASIC)、フィールド-プログラム可能ゲートアレイ(FPGA)等として具現化されるかまたはそれらを含んでもよい。したがって、プロセッサはコンピュータプログラムを実行して1つまたは複数の機能を実施できてもよいが、様々な例のプロセッサが、コンピュータプログラムの支援なしに1つまたは複数の機能を実施できてもよい。
メモリ504は一般に、例えば、データ、コンピュータプログラム(例えば、コンピュータ読み取り可能なプログラムコード506)および/または他の適切な情報のような情報を一時的におよび/または永続的に格納できる任意のコンピュータハードウェアである。メモリは揮発性および/または不揮発性メモリを含んでもよく、固定または取外し可能であってもよい。適切なメモリの例は、ランダム・アクセスメモリ(RAM)、読取専用メモリ(ROM)、ハード・ドライブ、フラッシュ・メモリ、サムドライブ、取外し可能コンピュータディスク、光ディスク、磁気テープまたはこれらの幾つかの組合せを含む。光ディスクは、コンパクトディスク-読取専用メモリ(CD-ROM)、コンパクトディスク・リード/ライト(CD-R/W)、DVD等を含んでもよい。様々な事例において、メモリをコンピュータ読み取り可能な記憶媒体と称してもよい。コンピュータ読み取り可能な記憶媒体は情報を格納できる非一時的デバイスであり、情報を或る位置から別の位置に運搬できる電子一時的信号のようなコンピュータ読み取り可能な送信媒体特別される。本明細書で説明したコンピュータ読み取り可能な媒体は一般にコンピュータ読み取り可能な記憶媒体またはコンピュータ読み取り可能な送信媒体を指してもよい。
メモリに加えて、プロセッサはまた、情報を表示、送信、および/または受信するための1つまたは複数のインタフェース508に接続されてもよい。インタフェースは通信インタフェース(例えば、通信ユニット)および/または1つまたは複数のユーザインタフェースを含んでもよい。通信インタフェースは、他の装置(複数可)、ネットワーク(複数可)等と情報を送受信するように構成されてもよい。通信インタフェースは、物理(wired)および/または無線通信リンクにより情報を送受信するように構成されてもよい。適切な通信インタフェースの例はネットワークインタフェースコントローラ(NIC)、無線NIC(WNIC)等を含む。
ユーザインタフェースはディスプレイ510および/または1つまたは複数のユーザ入力インタフェース512(例えば、入出力ユニット)を含んでもよい。ディスプレイは情報をユーザに提供または表示するように構成されてもよく、その適切な例は液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、プラズマ・ディスプレイパネル(PDP)等、を含む。
ユーザ入力インタフェース512は有線または無線であってもよく、処理、記憶および/または表示のためにユーザから情報を装置に受信するように構成されてもよい。ユーザ入力インタフェースの適切な例は、マイクロフォン、画像またはビデオキャプチャデバイス、キーボードまたはキーパッド、ジョイスティック、(タッチスクリーンと別々またはそれに統合された)タッチ-センシティブサーフェス、バイオメトリックセンサ等を含む。ユーザインタフェースはさらに、プリンタ、スキャナ等のような周辺機器と通信するための1つまたは複数のインタフェースを含んでもよい。
上で示したように、プログラムコード命令はメモリに格納され、本明細書で説明したシステム、サブシステムおよびそれらの夫々の要素の機能を実装するためにプロセッサにより実行されてもよい。理解されるように、任意の適切なプログラムコード命令は、特定の機械が本明細書で指定された機能を実装するための手段となるように、コンピュータ読み取り可能な記憶媒体からコンピュータまたは他のプログラム可能装置にロードされて特定の機械を生成してもよい。これらのプログラムコード命令はまた、特定の機械または特定の製品を生成する特定の方式で機能するようにコンピュータ、プロセッサまたは他のプログラム可能装置に指示でき、コンピュータ読み取り可能な記憶媒体に格納しうる。コンピュータ読み取り可能な記憶媒体に格納された命令は製品を生成してもよく、当該製品は本明細書で説明した機能を実装するための手段になる。プログラムコード命令を、コンピュータ読み取り可能な記憶媒体から取り出し、コンピュータ、プロセッサまたは他のプログラム可能装置にロードして、コンピュータ、プロセッサまたは他のプログラム可能装置上でまたはそれらにより実施される動作を実行するようにコンピュータ、プロセッサまたは他のプログラム可能装置を構成してもよい。
プログラムコード命令の取出し、ロードおよび実行は、1つの命令が一度に取り出され、ロードされ、実行されるように逐次的に実施されてもよい。幾つかの例示的な実装において、取出し、ロードおよび/または実行は、複数の命令が一緒に取り出され、ロードされ、および/または実行されるように並列に実施されてもよい。プログラムコード命令の実行は、コンピュータ、プロセッサまたは他のプログラム可能装置により実行される命令が、本明細書で説明した機能を実装するための動作を提供するように、コンピュータ実行型のプロセスを生成してもよい。
プロセッサによる命令の実行、またはコンピュータ読み取り可能な記憶媒体内の命令の格納は、指定された機能を実施するための動作の組合せをサポートする。このように、装置500はプロセッサ502およびプロセッサに接続されたコンピュータ読み取り可能な記憶媒体またはメモリ504を含んでもよい。プロセッサは、メモリに格納されたコンピュータ読み取り可能なプログラムコード506を実行するように構成される。1つまたは複数の機能、および機能の組合せが指定された機能、または特殊目的ハードウェアおよびプログラムコード命令の組合せを実施する特殊目的ハードウェアベースのコンピュータシステムおよび/またはプロセッサにより実装されてもよいことも理解される。
さらに、本開示は以下の項に従う実施形態を含む:
項1.ビデオ・フィード内の自動化されたオブジェクト追跡のための方法であって、
複数のフレームを含むビデオ・フィードを受信するステップと、
少なくとも
フレーム内の複数のオブジェクトを検出するステップ、および複数のオブジェクトの各オブジェクトに対して、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるステップであって、複数のオブジェクトはコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる、ステップ、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するステップ、
さらに複数のフレームの少なくとも幾つかに対して、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴および1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴の比較に基づいて、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップ、
フレーム内のオブジェクトに対する追跡フラグメントおよび1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡であるより長い追跡フラグメントを形成するステップ
を含む、複数のフレームの各フレームを逐次的に処理するステップと、
複数のオブジェクトの各オブジェクトに対して、
オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成するステップと、
ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力するステップと、
を含む、方法。
項2.1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップは、運動学的、視覚的、時間的または機械学習ベースの特徴および対応する運動学的、視覚的、時間的または機械学習ベースの特徴の間の統計的分散が予め決定された閾値未満であるインスタンス内の追跡フラグメントを識別するステップを含む、項1に記載の方法。
項3.フレーム内で又はフレーム数の閾値以内の前のフレーム内でオブジェクトに対する追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、およびフレームでもフレーム数の閾値以内の前のフレームでも検出されないオブジェクトに対する追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持するステップをさらに含み、および
1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップは、アクティブな追跡フラグメントのデータベースまたはサスペンドされた追跡フラグメントのデータベースを検索して、維持される追跡フラグメント内のオブジェクトに対する追跡フラグメントを識別するステップを含む、
項1乃至2の何れか1項に記載の方法。
項4.1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントがサスペンドされた追跡フラグメントのデータベースで識別されるインスタンスにおいて、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップはさらに、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをサスペンドされた追跡フラグメントのデータベースからアクティブな追跡フラグメントのデータベースに移動するステップを含み、フレーム内でもフレーム数の第2の閾値以内の前のフレームでも検出されないオブジェクトに対する追跡フラグメントは、サスペンドされた追跡フラグメントのデータベースから削除される、項3に記載の方法。
項5.複数のフレームの各フレームを逐次的に処理するステップはさらに、オブジェクトが検出された第1のインスタンス内のオブジェクトに一意な識別子を割り当てるステップを含み、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別するステップは、運動学的、視覚的、時間的または機械学習ベースの特徴を、オブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータ内の一意な識別子に関連付けるステップを含み、
ビデオ・フィードを出力するステップはビデオ・フィード内のオブジェクトに対する対応するワークフロー分析を生成するステップを含み、ワークフロー分析はオブジェクトの一意な識別子に関連付けられる、
項1乃至4の何れか1項に記載の方法。
項6.ビデオ・フィードは複数のビデオ・フィードを含み、ビデオ・フィードを受信するステップおよび複数のビデオフレームの各フレームを逐次的に処理するステップは、ビデオ・フィードを受信するステップおよび少なくとも第1のビデオ・フィードおよび第2のビデオ・フィードの各々に対して複数のビデオフレームの各フレームを逐次的に処理するステップを含み、
少なくとも1つのオブジェクトが第1のビデオ・フィードのフレームおよび第2のビデオ・フィードのフレーム内で検出されたことに応答して、方法は、第1のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントおよび第2のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントをリンクするステップをさらに含む、
項1乃至5の何れか1項に記載の方法。
項7.複数のフレームの少なくとも1つのフレームはオクルージョンを含み、フレーム内の複数のオブジェクトを検出するステップは、複数のオブジェクトの少なくとも1つの閉塞されたオブジェクトを検出するステップ、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて閉塞されたオブジェクトを追跡フラグメントに割り当てるステップを含む、項1乃至6の何れか1項に記載の方法。
項8.ビデオ・フィード内の自動化されたオブジェクト追跡のための装置であって、プロセッサと、
プロセッサによる実行に応答して、装置に少なくとも、
複数のフレームを含むビデオ・フィードを受信し、
フレーム内の複数のオブジェクトを検出するステップ、および複数のオブジェクトの各オブジェクトに対して、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるステップであって、複数のオブジェクトは、コンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる、ステップ、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、および運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するステップ、
さらに複数のフレームの少なくとも幾つかに対して、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴と、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴との比較に基づいて、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップ、
フレーム内のオブジェクトに対する追跡フラグメントおよび1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡であるより長い追跡フラグメントを形成するステップ、
を含む、複数のフレームの各フレームを逐次的に処理し、
複数のオブジェクトの各オブジェクトに対して、
オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成し、
ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力する、
ことをさせる実行可能命令を格納するメモリと、
を備える、装置。
項9.装置が1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することは、運動学的、視覚的、時間的または機械学習ベースの特徴および対応する運動学的、視覚的、時間的または機械学習ベースの特徴の間の統計的分散が予め決定された閾値未満であるインスタンス内の追跡フラグメントを識別するステップを含む、項8に記載の装置。
項10.メモリは、プロセッサによる実行に応答して、装置にさらに、フレームでまたはフレーム数の閾値以内の前のフレームで検出された任意のオブジェクトに対する追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、およびフレームでもフレーム数の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持させる実行可能命令を格納し、
装置が1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することは、アクティブな追跡フラグメントのデータベースまたはサスペンドされた追跡フラグメントのデータベースを検索して、維持される追跡フラグメント内のオブジェクトに対する追跡フラグメントを識別するステップを含む、
項8乃至9のうち何れか1項に記載の装置。
項11.1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントがサスペンドされた追跡フラグメントのデータベースで識別されるインスタンスにおいて、装置が1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することはさらに、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをサスペンドされた追跡フラグメントのデータベースからアクティブな追跡フラグメントのデータベースに移動するステップを含み、フレームでもフレーム数の第2の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントはサスペンドされた追跡フラグメントのデータベースから削除される、項10に記載の装置。
項12.装置が複数のフレームの各フレームを逐次的に処理することはさらに、オブジェクトが検出された第1のインスタンス内のオブジェクトに一意な識別子を割り当てるステップを含み、
装置が、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別することは、運動学的、視覚的、時間的または機械学習ベースの特徴を、オブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータ内の一意な識別子に関連付けるステップを含み、
装置がビデオ・フィードを出力することは、ビデオ・フィード内のオブジェクトに対する対応するワークフロー分析を生成するステップを含み、ワークフロー分析はオブジェクトの一意な識別子に関連付けられる、
項8乃至11のうち何れか1項に記載の装置。
項13.ビデオ・フィードは複数のビデオ・フィードを含み、装置がビデオ・フィードを受信し複数のビデオフレームの各フレームを逐次的に処理することは、少なくとも第1のビデオ・フィードおよび第2のビデオ・フィードの各々に対してビデオ・フィードを受信し複数のビデオフレームの各フレームを逐次的に処理するステップを含み、
少なくとも1つのオブジェクトが第1のビデオ・フィードのフレームおよび第2のビデオ・フィードのフレーム内で検出されたことに応答して、装置はさらに、第1のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントおよび第2のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントをリンクする、
項8乃至12のうち何れか1項に記載の装置。
項14.複数のフレームの少なくとも1つのフレームはオクルージョンを含み、装置がフレーム内の複数のオブジェクトを検出することは、複数のオブジェクトの少なくとも1つの閉塞されたオブジェクトを検出するステップ、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて閉塞されたオブジェクトを追跡フラグメントに割り当てるステップを含む、項8乃至13のうち何れか1項に記載の装置。
項15.ビデオ・フィード内の自動化されたオブジェクト追跡のためのコンピュータ読み取り可能な記憶媒体であって、プロセッサによる実行に応答して、装置に少なくとも、
複数のフレームを含むビデオ・フィードを受信することと、
フレーム内の複数のオブジェクトを検出し、複数のオブジェクトの各オブジェクトに対して、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるステップであって、複数のオブジェクトはコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる、ステップと、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、および運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するステップと、および
さらに複数のフレームの少なくとも幾つかに対して、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴および1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴の比較に基づいて、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップと、
フレーム内のオブジェクトに対する追跡フラグメントおよび1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡であるより長い追跡フラグメントを形成するステップと、
を含む、複数のフレームの各フレームを逐次的に処理することと、
複数のオブジェクトの各オブジェクトに対して、
オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成することと、
ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力することと、
をさせるコンピュータ読み取り可能なプログラムコードを格納した、コンピュータ読み取り可能な記憶媒体。
項16.装置が1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することは、運動学的、視覚的、時間的または機械学習ベースの特徴および対応する運動学的、視覚的、時間的または機械学習ベースの特徴の間の統計的分散が予め決定された閾値未満であるインスタンス内の追跡フラグメントを識別するステップを含む、項15に記載のコンピュータ読み取り可能な記憶媒体。
項17.プロセッサによる実行に応答して、装置にさらに、フレーム内で又はフレーム数の閾値以内の前のフレーム内でオブジェクトに対する追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、およびフレームでもフレーム数の閾値以内の前のフレームでも検出されないオブジェクトに対する追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持させるコンピュータ読み取り可能なプログラムコードを格納し、
装置が1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することは、アクティブな追跡フラグメントのデータベースまたはサスペンドされた追跡フラグメントのデータベースを検索して、維持される追跡フラグメント内のオブジェクトに対する追跡フラグメントを識別するステップを含む、項15-16の何れか1項に記載のコンピュータ読み取り可能な記憶媒体。
項18.1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントがサスペンドされた追跡フラグメントのデータベースで識別されるインスタンスにおいて、装置が1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することはさらに、1つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをサスペンドされた追跡フラグメントのデータベースからアクティブな追跡フラグメントのデータベースに移動するステップを含み、フレームでもフレーム数の第2の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントはサスペンドされた追跡フラグメントのデータベースから削除される、項17に記載のコンピュータ読み取り可能な記憶媒体。
項19.装置が複数のフレームの各フレームを逐次的に処理することはさらに、オブジェクトが検出された第1のインスタンス内のオブジェクトに一意な識別子を割り当てるステップを含み、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別するステップは、運動学的、視覚的、時間的または機械学習ベースの特徴を、オブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータ内の一意な識別子に関連付けるステップを含み、
装置がビデオ・フィードを出力することは、オブジェクトに対する対応するワークフロー分析を生成することを含み、ワークフロー分析は一意な識別子に関連付けられる、
項15-18の何れか1項に記載のコンピュータ読み取り可能な記憶媒体。
項20.ビデオ・フィードは複数のビデオ・フィードを含み、装置がビデオ・フィードを受信し複数のビデオフレームの各フレームを逐次的に処理することはビデオ・フィードを受信するステップおよび少なくとも第1のビデオ・フィードおよび第2のビデオ・フィードの各々に対して複数のビデオフレームの各フレームを逐次的に処理するステップを含み、
少なくとも1つのオブジェクトが第1のビデオ・フィードのフレームおよび第2のビデオ・フィードのフレーム内で検出されたことに応答して、装置はさらに、第1のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントおよび第2のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントをリンクする、
項15-19の何れか1項に記載のコンピュータ読み取り可能な記憶媒体。
項21.複数のフレームの少なくとも1つのフレームはオクルージョンを含み、装置がフレーム内の複数のオブジェクトを検出することは、複数のオブジェクトの少なくとも1つの閉塞されたオブジェクトを検出し、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて閉塞されたオブジェクトを追跡フラグメントに割り当てることを含む、項20に記載のコンピュータ読み取り可能な記憶媒体。
本明細書で説明した本開示の多くの修正および他の実装は、以上の説明および関連付けられた図面で提示された教示事項の利益を有する、本開示が関連する当業者には明らかであろう。したがって、本開示は開示された特定の実装には限定されず、修正および他の実装が添付の特許請求の範囲に含まれると意図されていることは理解されるべきである。さらに、以上の説明および添付図面は、例示的な実装を要素および/または機能の特定の例の組合せの文脈で説明するが、要素および/または機能の異なる組合せが添付の特許請求の範囲を逸脱することなく代替的な実装により提供されうることは理解されるべきである。この点、例えば、これらの明示的に上述したものと異なる要素および/または機能の組合せも、添付の特許請求の範囲の幾つかで説明されるように考慮されている。本明細書では特定の用語を使用したが、それらは汎用的かつ記述的な意味でのみ使用され、限定の目的はない。
100 システム
102 受信機
104 オブジェクト検出器
106 オブジェクト追跡器
202 特徴識別子
204 追跡識別子
206 割当てエンジン
208 データベース
210 データベース
210 およびサスペンドされた追跡・データベース
302 ビデオ・フィード
304 オブジェクトの追跡
306 一意な識別子
402 ブロック
404 ブロック
406 ブロック
408 ブロック
410 ブロック
412 ブロック
414 ブロック
416 ブロック
500 装置
502 プロセッサ
504 メモリ
506 コンピュータ読み取り可能なプログラムコード
508 インタフェース
510 ディスプレイ
512 ユーザ入力インタフェース

Claims (14)

  1. ビデオ・フィード内の自動化されたオブジェクト追跡のための方法(400)であって、
    複数のフレームを含むビデオ・フィードを受信するステップ(402)と、
    前記複数のフレームの各フレームを逐次的に処理するステップ(404)であって、
    前記フレーム内の複数のオブジェクトを検出するステップ(410)、および前記複数のオブジェクトの各オブジェクトに対して、前記オブジェクトを前記フレーム内の前記オブジェクトに対する追跡フラグメントに割り当てるステップであって、前記複数のオブジェクトは、コンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出されるとともに割り当てられる、ステップ、
    および
    前記オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別するステップ(412)、および前記運動学的、視覚的、時間的または機械学習ベースの特徴を、前記オブジェクトが割り当てられる前記追跡フラグメントに関連付けられたメタデータに格納するステップ、および
    さらに前記複数のフレームの少なくとも幾つかに対して、
    前記オブジェクトの前記運動学的、視覚的、時間的または機械学習ベースの特徴と、1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントに関連付けられたメタデータ内の、対応する運動学的、視覚的、時間的または機械学習ベースの特徴との比較に基づいて、前記1つ以上前のフレーム内の前記オブジェクトに対する追跡フラグメントを識別するステップ(414)、および
    前記フレーム内の前記オブジェクトに対する前記追跡フラグメントおよび前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントをリンクして、前記オブジェクトの追跡である、より長い追跡フラグメントを形成するステップ(416)、
    を少なくとも含む、ステップと、
    前記複数のオブジェクトの各オブジェクトに対して、
    前記オブジェクトの前記追跡を共通の参照フレームに変換して、マップされた前記複数のオブジェクトの前記追跡を有する共通参照フレームを生成するステップ(406)と、
    前記ビデオ・フィードを、前記共通参照フレームと、その上のオーバレイとして前記複数のオブジェクトの前記マップされた追跡とともに出力するステップ(408)と、
    を具備し、
    前記複数のフレームの各フレームを逐次的に処理するステップ(404)はさらに、前記オブジェクトが検出された第1のインスタンス内の前記オブジェクトに一意な識別子を割り当てるステップを含み、
    前記オブジェクトの前記運動学的、視覚的、時間的または機械学習ベースの特徴を識別するステップ(412)は、特徴識別子(202)によって、前記運動学的、視覚的、時間的または機械学習ベースの特徴を、前記オブジェクトが割り当てられる前記追跡フラグメントに関連付けられた前記メタデータ内の前記一意な識別子に関連付けるステップを含み、
    前記ビデオ・フィードを出力するステップ(408)は、前記ビデオ・フィード内のオブジェクトに対する対応するワークフロー分析を生成するステップを含み、前記ワークフロー分析は、前記オブジェクトの前記一意な識別子に関連付けられ、
    前記特徴識別子(202)は、コンピュータビジョン特徴識別子(202A)及び機械学習特徴識別子(202B)を含み、
    前記コンピュータビジョン特徴識別子(202A)は、形状又は色の少なくとも一方を含む1つ以上の特徴を識別するように構成され、
    前記機械学習特徴識別子(202B)は、機械学習技術によってトレーニングされ、
    前記コンピュータビジョン特徴識別子及び前記機械学習特徴識別子(202A、202B)は、動作可能に結合され、対応関係および/または転送学習プロセスを用いて、それらの間の特徴をマッピングするように構成されている、ことを特徴とする方法。
  2. 前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別する前記ステップは、前記運動学的、視覚的、時間的または機械学習ベースの特徴と前記対応する運動学的、視覚的、時間的または機械学習ベースの特徴との間の統計的分散が予め決定された閾値未満であるインスタンス内の前記追跡フラグメントを識別するステップを含む、請求項1に記載の方法。
  3. 前記フレーム内でまたはフレーム数の閾値以内の前のフレーム内で検出されたオブジェクトに対する前記追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、および前記フレーム内でも前記フレーム数の閾値以内の前のフレーム内でも検出されないオブジェクトに対する前記追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持するステップをさらに含み、
    前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別するステップは、前記アクティブな追跡フラグメントのデータベースまたは前記サスペンドされた追跡フラグメントのデータベースを検索して、維持される前記追跡フラグメント内の前記オブジェクトに対する前記追跡フラグメントを識別するステップを含む、
    請求項1乃至2のうち何れか1項に記載の方法。
  4. 前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントがサスペンドされた追跡フラグメントの前記データベース内で識別されるインスタンスにおいて、前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別するステップは、前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを、サスペンドされた追跡フラグメントの前記データベースからアクティブな追跡フラグメントの前記データベースに移動するステップをさらに含み、前記フレーム内でもフレーム数の第2の閾値以内の前のフレームでも検出されないオブジェクトに対する前記追跡フラグメントは、サスペンドされた追跡フラグメントの前記データベースから削除される、請求項3に記載の方法。
  5. 前記ビデオ・フィードは、複数のビデオ・フィードを含み、前記ビデオ・フィードを受信するステップおよび前記複数のフレームの各フレームを逐次的に処理するステップは、前記ビデオ・フィードを受信するステップおよび少なくとも第1のビデオ・フィードおよび第2のビデオ・フィードの各々に対して前記複数のフレームの各フレームを逐次的に処理するステップを含み、および
    少なくとも1つのオブジェクトが前記第1のビデオ・フィードのフレームおよび前記第2のビデオ・フィードのフレーム内で検出されたことに応答して、前記方法は、前記第1のビデオ・フィードの前記フレーム内の前記オブジェクトに対する前記追跡フラグメントと前記第2のビデオ・フィードの前記フレーム内の前記オブジェクトに対する前記追跡フラグメントをリンクするステップをさらに含む、請求項1乃至のうち何れか1項に記載の方法。
  6. 前記複数のフレームの少なくとも1つのフレームはオクルージョンを含み、前記フレーム内の前記複数のオブジェクトを検出するステップは、前記複数のオブジェクトの少なくとも1つの閉塞されたオブジェクトを検出するステップ、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴の前記カタログを用いて前記閉塞されたオブジェクトを追跡フラグメントに割り当てるステップを含む、請求項1乃至のうち何れか1項に記載の方法。
  7. ビデオ・フィードにおける自動化されたオブジェクト追跡のための装置(500)であって、
    プロセッサ(502)と、前記プロセッサ(502)による実行に応答して、前記装置に少なくとも:
    複数のフレームを含むビデオ・フィードを受信し(402)、
    少なくとも:
    前記フレーム内の複数のオブジェクトを検出し、前記複数のオブジェクトの各オブジェクトに対して、前記オブジェクトを前記フレーム内の前記オブジェクトに対する追跡フラグメントに割り当てることであって、前記複数のオブジェクトは、コンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出されるとともに割り当てられる、追跡フラグメントに割り当てること(410)、および
    前記オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、および前記運動学的、視覚的、時間的または機械学習ベースの特徴を前記オブジェクトが割り当てられる前記追跡フラグメントに関連付けられたメタデータに格納すること(412)、および
    さらに前記複数のフレームの少なくとも幾つかに対して、
    前記オブジェクトの前記運動学的、視覚的、時間的または機械学習ベースの特徴と、1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントに関連付けられたメタデータ内の、対応する運動学的、視覚的、時間的または機械学習ベースの特徴との比較に基づいて、前記1つ以上前のフレーム内の前記オブジェクトに対する追跡フラグメントを識別すること(414)、および
    前記フレーム内の前記オブジェクトに対する前記追跡フラグメントおよび前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントをリンクして、前記オブジェクトの追跡である、より長い追跡フラグメントを形成すること(416)、
    を含む前記複数のフレームの各フレームを逐次的に処理し(404)、
    前記複数のオブジェクトの各オブジェクトに対して、
    前記オブジェクトの前記追跡を共通の参照フレームに変換して、マップされた前記複数のオブジェクトの前記追跡を有する共通参照フレームを生成し(406)、および
    前記ビデオ・フィードを、前記共通参照フレームと、その上のオーバレイとして前記複数のオブジェクトの前記マップされた追跡とともに出力する(408)、
    ことをさせる実行可能命令を格納するメモリ(504)と、
    を備え
    前記装置が前記複数のフレームの各フレームを逐次的に処理することはさらに、前記オブジェクトが検出された第1のインスタンス内の前記オブジェクトに一意な識別子を割り当てるステップを含み、
    前記装置が、前記オブジェクトの前記運動学的、視覚的、時間的または機械学習ベースの特徴を識別することは、特徴識別子(202)によって、前記運動学的、視覚的、時間的または機械学習ベースの特徴を、前記オブジェクトが割り当てられる前記追跡フラグメントに関連付けられた前記メタデータ内の前記一意な識別子に関連付けるステップを含み、
    前記装置が前記ビデオ・フィードを出力することは前記ビデオ・フィード内のオブジェクトに対する対応するワークフロー分析を生成するステップを含み、前記ワークフロー分析は前記オブジェクトの前記一意な識別子に関連付けられ、
    前記特徴識別子(202)は、コンピュータビジョン特徴識別子(202A)及び機械学習特徴識別子(202B)を含み、
    前記コンピュータビジョン特徴識別子(202A)は、形状又は色の少なくとも一方を含む1つ以上の特徴を識別するように構成され、
    前記機械学習特徴識別子(202B)は、機械学習技術によってトレーニングされ、
    前記コンピュータビジョン特徴識別子及び前記機械学習特徴識別子(202A、202B)は、動作可能に結合され、対応付けおよび/または伝達学習プロセスを用いて、その間に特徴をマッピングするように構成されている、装置。
  8. 前記装置が前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別することは、前記運動学的、視覚的、時間的または機械学習ベースの特徴と前記対応する運動学的、視覚的、時間的または機械学習ベースの特徴との間の統計的分散が予め決定された閾値未満であるインスタンス内の前記追跡フラグメントを識別するステップを含む、請求項に記載の装置。
  9. 前記メモリは、前記プロセッサによる実行に応答して、前記装置にさらに、前記フレーム内またはフレーム数の閾値以内の前のフレーム内で検出された任意のオブジェクトに対する前記追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、および前記フレーム内でも前記フレーム数の閾値以内の前のフレーム内でも検出されない任意のオブジェクトに対する前記追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持させる実行可能命令を格納し、および
    前記装置が前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別することは、前記アクティブな追跡フラグメントのデータベースまたは前記サスペンドされた追跡フラグメントのデータベースを検索して、維持される前記追跡フラグメント内の前記オブジェクトに対する前記追跡フラグメントを識別するステップを含む、請求項7又は8に記載の装置。
  10. 前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントが、サスペンドされた追跡フラグメントの前記データベースで識別されるインスタンスにおいて、前記装置が前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別することはさらに、前記1つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを、サスペンドされた追跡フラグメントの前記データベースからアクティブな追跡フラグメントの前記データベースに移動するステップを含み、前記フレーム内でもフレーム数の第2の閾値以内の前のフレーム内でも検出されない任意のオブジェクトに対する前記追跡フラグメントは、サスペンドされた追跡フラグメントの前記データベースから削除される、請求項に記載の装置。
  11. 前記ビデオ・フィードは複数のビデオ・フィードを含み、前記装置が前記ビデオ・フィードを受信し前記複数のフレームの各フレームを逐次的に処理することは、少なくとも、第1のビデオ・フィードおよび第2のビデオ・フィードの各々に対して前記ビデオ・フィードを受信し前記複数のフレームの各フレームを逐次的に処理するステップを含み、
    少なくとも1つのオブジェクトが前記第1のビデオ・フィードのフレーム内および前記第2のビデオ・フィードのフレーム内で検出されたことに応答して、前記装置はさらに、前記第1のビデオ・フィードの前記フレーム内の前記オブジェクトに対する前記追跡フラグメントおよび前記第2のビデオ・フィードの前記フレーム内の前記オブジェクトに対する前記追跡フラグメントをリンクする、請求項乃至10の何れか1項に記載の装置。
  12. 前記複数のフレームの少なくとも1つのフレームはオクルージョンを含み、前記装置が前記フレーム内の前記複数のオブジェクトを検出することは、前記複数のオブジェクトの少なくとも1つの閉塞されたオブジェクトを検出するステップ、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴の前記カタログを用いて前記閉塞されたオブジェクトを追跡フラグメントに割り当てるステップを含む、請求項乃至11の何れか1項に記載の装置。
  13. コンピュータ可読プログラムを格納したコンピュータ可読記憶媒体であって、1つまたは複数のプロセッサにより前記プログラムが実行されると、請求項1から6のいずれか一項に記載の方法を装置に実施させることを特徴とするコンピュータ可読記憶媒体。
  14. ビデオ・フィード内の自動化されたオブジェクト追跡のためのコンピュータプログラムであって、該コンピュータプログラムは、コンピュータ実行可能コードを含み、1つまたは複数のプロセッサにより実行されると、請求項1から6のいずれか1項に記載の方法を装置に実行させることを特徴とするコンピュータプログラム。
JP2018020769A 2017-03-30 2018-02-08 機械学習を用いたビデオ・フィードにおける自動化されたオブジェクト追跡 Active JP7131921B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/474,275 2017-03-30
US15/474,275 US11068721B2 (en) 2017-03-30 2017-03-30 Automated object tracking in a video feed using machine learning

Publications (2)

Publication Number Publication Date
JP2018173940A JP2018173940A (ja) 2018-11-08
JP7131921B2 true JP7131921B2 (ja) 2022-09-06

Family

ID=61226398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018020769A Active JP7131921B2 (ja) 2017-03-30 2018-02-08 機械学習を用いたビデオ・フィードにおける自動化されたオブジェクト追跡

Country Status (4)

Country Link
US (1) US11068721B2 (ja)
EP (1) EP3382643B1 (ja)
JP (1) JP7131921B2 (ja)
KR (1) KR102543508B1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013332A (ja) * 2018-07-18 2020-01-23 トヨタ自動車株式会社 画像認識装置
WO2020075147A1 (en) * 2018-10-13 2020-04-16 Fovea Technology Intelligent vision system and methods
CN110002014A (zh) * 2019-03-21 2019-07-12 武汉大学 一种空间碎片关联方法及介质
US11908340B2 (en) 2019-07-24 2024-02-20 Arris Enterprises Llc Magnification enhancement of video for visually impaired viewers
US10726631B1 (en) * 2019-08-03 2020-07-28 VIRNECT inc. Augmented reality system and method with frame region recording and reproduction technology based on object tracking
US10719993B1 (en) * 2019-08-03 2020-07-21 VIRNECT inc. Augmented reality system and method with space and object recognition
JP2022550548A (ja) * 2019-09-29 2022-12-02 ザックダン カンパニー 機械学習を利用した画像内客体認識方法及び装置
US11403734B2 (en) 2020-01-07 2022-08-02 Ademco Inc. Systems and methods for converting low resolution images into high resolution images
JP7403340B2 (ja) * 2020-02-17 2023-12-22 株式会社日立製作所 物体認識モデルの流用可否を判定するシステム。
US11335112B2 (en) 2020-04-27 2022-05-17 Adernco Inc. Systems and methods for identifying a unified entity from a plurality of discrete parts
US11978328B2 (en) 2020-04-28 2024-05-07 Ademco Inc. Systems and methods for identifying user-customized relevant individuals in an ambient image at a doorbell device
US11649067B2 (en) 2020-06-12 2023-05-16 The Boeing Company Object monitoring system for aircraft
KR102356907B1 (ko) * 2021-06-17 2022-02-08 주식회사 인피닉 인공지능 학습용 데이터의 메타데이터 입력 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102343049B1 (ko) * 2021-06-17 2021-12-24 주식회사 인피닉 인공지능 학습을 위한 이미지 메타데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
US12035201B2 (en) * 2022-01-19 2024-07-09 Qualcomm Incorporated Determining communication nodes for radio frequency (RF) sensing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170711A (ja) 2010-02-19 2011-09-01 Toshiba Corp 移動物体追跡システムおよび移動物体追跡方法
JP2015201005A (ja) 2014-04-07 2015-11-12 パナソニック株式会社 軌跡解析装置および軌跡解析方法
JP2016206995A (ja) 2015-04-23 2016-12-08 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295367B1 (en) * 1997-06-19 2001-09-25 Emtera Corporation System and method for tracking movement of objects in a scene using correspondence graphs
US6263088B1 (en) * 1997-06-19 2001-07-17 Ncr Corporation System and method for tracking movement of objects in a scene
JP4179722B2 (ja) * 1999-12-14 2008-11-12 株式会社ブリヂストン 板金加工方法
US7394916B2 (en) * 2003-02-10 2008-07-01 Activeye, Inc. Linking tracked objects that undergo temporary occlusion
US7127083B2 (en) * 2003-11-17 2006-10-24 Vidient Systems, Inc. Video surveillance system with object detection and probability scoring based on object class
US20050104960A1 (en) * 2003-11-17 2005-05-19 Mei Han Video surveillance system with trajectory hypothesis spawning and local pruning
US7088846B2 (en) * 2003-11-17 2006-08-08 Vidient Systems, Inc. Video surveillance system that detects predefined behaviors based on predetermined patterns of movement through zones
US20050104959A1 (en) * 2003-11-17 2005-05-19 Mei Han Video surveillance system with trajectory hypothesis scoring based on at least one non-spatial parameter
US7148912B2 (en) * 2003-11-17 2006-12-12 Vidient Systems, Inc. Video surveillance system in which trajectory hypothesis spawning allows for trajectory splitting and/or merging
GB2414615A (en) * 2004-05-28 2005-11-30 Sony Uk Ltd Object detection, scanning and labelling
GB2414614A (en) * 2004-05-28 2005-11-30 Sony Uk Ltd Image processing to determine most dissimilar images
WO2007044044A2 (en) * 2004-12-21 2007-04-19 Sarnoff Corporation Method and apparatus for tracking objects over a wide area using a network of stereo sensors
US20070133840A1 (en) 2005-11-04 2007-06-14 Clean Earth Technologies, Llc Tracking Using An Elastic Cluster of Trackers
US20090002489A1 (en) * 2007-06-29 2009-01-01 Fuji Xerox Co., Ltd. Efficient tracking multiple objects through occlusion
GB2455316B (en) * 2007-12-04 2012-08-15 Sony Corp Image processing apparatus and method
US8503727B2 (en) * 2009-07-22 2013-08-06 Omron Corporation Monitoring camera terminal
US8218819B2 (en) * 2009-09-01 2012-07-10 Behavioral Recognition Systems, Inc. Foreground object detection in a video surveillance system
JP5671224B2 (ja) * 2009-10-20 2015-02-18 キヤノン株式会社 画像処理装置、画像処理方法
US8472669B2 (en) * 2010-03-10 2013-06-25 Texas Instruments Incorporated Object localization using tracked object trajectories
US8615254B2 (en) * 2010-08-18 2013-12-24 Nearbuy Systems, Inc. Target localization utilizing wireless and camera sensor fusion
US20120251078A1 (en) * 2011-03-31 2012-10-04 Microsoft Corporation Aggregated Facial Tracking in Video
AU2013205548A1 (en) * 2013-04-30 2014-11-13 Canon Kabushiki Kaisha Method, system and apparatus for tracking objects of a scene
US9904852B2 (en) * 2013-05-23 2018-02-27 Sri International Real-time object detection, tracking and occlusion reasoning
US9852019B2 (en) * 2013-07-01 2017-12-26 Agent Video Intelligence Ltd. System and method for abnormality detection
JP6159179B2 (ja) 2013-07-09 2017-07-05 キヤノン株式会社 画像処理装置、画像処理方法
AU2013242830B2 (en) 2013-10-10 2016-11-24 Canon Kabushiki Kaisha A method for improving tracking in crowded situations using rival compensation
JP6098498B2 (ja) * 2013-12-19 2017-03-22 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
US20150189191A1 (en) * 2013-12-27 2015-07-02 Telemetrio LLC Process and system for video production and tracking of objects
WO2015146113A1 (ja) * 2014-03-28 2015-10-01 日本電気株式会社 識別辞書学習システム、識別辞書学習方法および記録媒体
US9582895B2 (en) * 2015-05-22 2017-02-28 International Business Machines Corporation Real-time object analysis with occlusion handling
US9767378B2 (en) * 2015-08-31 2017-09-19 Sony Corporation Method and system to adaptively track objects
CA2995866A1 (en) * 2015-09-03 2017-03-09 Miovision Technologies Incorporated System and method for detecting and tracking objects
US9734587B2 (en) * 2015-09-30 2017-08-15 Apple Inc. Long term object tracker
US9547883B1 (en) * 2016-08-19 2017-01-17 Intelligent Security Systems Corporation Systems and methods for dewarping images
US10319412B2 (en) * 2016-11-16 2019-06-11 Adobe Inc. Robust tracking of objects in videos

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170711A (ja) 2010-02-19 2011-09-01 Toshiba Corp 移動物体追跡システムおよび移動物体追跡方法
JP2015201005A (ja) 2014-04-07 2015-11-12 パナソニック株式会社 軌跡解析装置および軌跡解析方法
JP2016206995A (ja) 2015-04-23 2016-12-08 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Also Published As

Publication number Publication date
KR20180111630A (ko) 2018-10-11
US11068721B2 (en) 2021-07-20
EP3382643B1 (en) 2021-12-15
JP2018173940A (ja) 2018-11-08
US20180285648A1 (en) 2018-10-04
EP3382643A1 (en) 2018-10-03
KR102543508B1 (ko) 2023-06-13

Similar Documents

Publication Publication Date Title
JP7131921B2 (ja) 機械学習を用いたビデオ・フィードにおける自動化されたオブジェクト追跡
US20190138381A1 (en) Real time anomaly detection systems and methods
US10248726B2 (en) Object search by description
US10438050B2 (en) Image analysis device, image analysis system, and image analysis method
Kim et al. RGB color model based the fire detection algorithm in video sequences on wireless sensor network
US9665798B2 (en) Device and method for detecting specified objects in images using metadata
AU2018324122A1 (en) Identification of individuals in a digital file using media analysis techniques
US20210042509A1 (en) Methods and systems for monitoring potential losses in a retail environment
Khan et al. An efficient algorithm for recognition of human actions
US20120134593A1 (en) Method and system for image-based identification
US10997748B2 (en) Machine learning model development with unsupervised image selection
KR20200112681A (ko) 지능형 비디오 분석
US9442958B2 (en) Product identification via image analysis
US9881023B2 (en) Retrieving/storing images associated with events
US20240176798A1 (en) Generating and presenting a searchable graph based on a graph query
US8712100B2 (en) Profiling activity through video surveillance
US11995055B2 (en) Data management techniques using distributed policy agent
Kulbacki et al. Intelligent video monitoring system with the functionality of online recognition of people’s behavior and interactions between people
CN108780457A (zh) 在稳健的视频搜索和检索机制内执行多个查询
Burghouts et al. Focus-of-attention for human activity recognition from UAVs
US10782947B2 (en) Systems and methods of diagram transformation
CN109034067B (zh) 商品图像翻拍检测方法、系统、设备及存储介质
KR20160091488A (ko) 모델 생성을 이용한 객체 자동 검출 방법 및 시스템
WO2021213339A1 (en) Method and system for extracting and storing image metadata
US20220222941A1 (en) Method for recognizing action, electronic device and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220221

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220825

R150 Certificate of patent or registration of utility model

Ref document number: 7131921

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150