JP7131921B2

JP7131921B2 - 機械学習を用いたビデオ・フィードにおける自動化されたオブジェクト追跡

Info

Publication number: JP7131921B2
Application number: JP2018020769A
Authority: JP
Inventors: ジャン・ウェイ・パン; ヒエウ・タット・グエン; ザカリー・ヨルゲンセン; ユーリ・レヴチュク
Original assignee: Boeing Co
Current assignee: Boeing Co
Priority date: 2017-03-30
Filing date: 2018-02-08
Publication date: 2022-09-06
Anticipated expiration: 2038-02-08
Also published as: EP3382643A1; KR102543508B1; EP3382643B1; US11068721B2; US20180285648A1; JP2018173940A; KR20180111630A

Description

本開示は一般にオブジェクト追跡に関し、特に、オブジェクト関連付けを実施すること、および、機械学習を用いてビデオ・フィードにおけるオブジェクトを追跡するためのマッチングに関する。

現在、より洗練されたビデオ追跡システムに対する需要が増えている。この需要は主に、ビデオを使用してセキュリティ能力を高めるだけでなく、ワークフロー分析、交通監視、および群衆およびオブジェクト検出のようなアプリケーションを通じてそれらのビジネス業務を改善するための状況認識を高めようとしている組織により主に求められている。例えば、小売店や顧客対応部署のネットワークオペレータは、ビデオの洞察を利用して、それらの業務を最適化し、顧客の行動をより良く理解することができる。別の例では、空港、鉄道駅、および他の大量輸送オペレータはビデオを監視して人の交通の流れを促進し、業務上の事故を検出し、予測モデルを使用してそれらの業務を最適化する。

ビデオ監視システムの設置の急速な増加に伴い、監視システムのオペレータの既存のチームは、生成される大量のビデオデータを効率的に処理し維持できないため、相当量の見られないビデオ映像が生じ得る。結果として、多くのビデオ監視機器は、事故の後の法医学的、証拠的な目的に使用されるのみである。ビデオ監視映像に関連する洞察を高めるため、不審な行動、オブジェクト認識、交通監視、事故検出、顔照合、安全性警告、異常検出、および群衆計測などのアクティビティに対するビデオを監視するために人間のアナリストが大きく利用されている。しかし、この技術は非効率的でありエラーが発生しやすい。

したがって、上述の問題ならびに他の課題の少なくとも幾つかを考慮するシステムおよび方法を有するのが望ましい。

本開示の例示的な実装は、ビデオ・フィードにおける自動化されたオブジェクト追跡のための改善された装置、方法およびコンピュータ読み取り可能な記憶媒体に関する。幾つかの例示的な実装において、機械学習を用いたビデオ・フィードにおける自動化されたオブジェクト追跡のための方法が提供される。方法は、複数のフレームを含むビデオ・フィードを受信するステップを含む。方法はまた、機械学習技術を使用し、複数のフレームの各フレームを逐次的に処理して、フレーム内の複数のオブジェクトを追跡するステップを含む。複数のオブジェクトの各オブジェクトに対して、方法はオブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡がマップされた共通参照フレームを生成するステップを含む。方法はまた、共通参照フレームおよび複数のオブジェクトのマッピングされた追跡をその上のオーバレイとしてビデオ・フィードを出力するステップを含む。

複数のフレームの各フレームを逐次的に処理するステップは、フレーム内の複数のオブジェクトを検出するステップ、および複数のオブジェクトの各オブジェクトに対して、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるステップを含む。複数のオブジェクトはコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる。各フレームを逐次的に処理するステップはまた、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するステップを含む。さらに複数のフレームの少なくとも幾つかに対して、各フレームを逐次的に処理するステップは、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴および１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴の比較に基づいて、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップを含む。各フレームを逐次的に処理するステップはまた、フレーム内のオブジェクトに対する追跡フラグメントおよび１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡である、より長い追跡フラグメントを形成するステップを含む。

先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップは、運動学的、視覚的、時間的または機械学習ベースの特徴の間の統計的変動および対応する運動学的、視覚的、時間的または機械学習ベースの特徴が予め決定された閾値未満であるインスタンス内の追跡フラグメントを識別するステップを含む。

任意の先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、方法はさらに、フレームでまたはフレーム数の閾値以内の前のフレームで検出された任意のオブジェクトに対する追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、およびフレームでもフレーム数の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持するステップを含む。これらの例示的な実装において、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップは、アクティブな追跡フラグメントのデータベースまたはサスペンドされた追跡フラグメントのデータベースを検索して、維持される追跡フラグメント内のオブジェクトに対する追跡フラグメントを識別するステップを含む。

任意の先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントがサスペンドされた追跡フラグメントのデータベースで識別されるインスタンスにおいて、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップはさらに、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをサスペンドされた追跡フラグメントのデータベースからアクティブな追跡フラグメントのデータベースに移動するステップを含む。フレームでもフレーム数の第２の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントは、サスペンドされた追跡フラグメントのデータベースから削除される。

任意の先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、複数のフレームの各フレームを逐次的に処理するステップはさらに、オブジェクトが検出された第１のインスタンス内のオブジェクトに一意な識別子を割り当てるステップを含む。これらの例示的な実装において、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別するステップは、運動学的、視覚的、時間的または機械学習ベースの特徴を、オブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータ内の一意な識別子に関連付けるステップを含む。さらにこれらの例示的な実装において、ビデオ・フィードを出力するステップは、ワークフロー分析がオブジェクトの一意な識別子に関連付けられる、ビデオ・フィード内のオブジェクトに対する対応するワークフロー分析を生成するステップを含む。

任意の先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、ビデオ・フィードは複数のビデオ・フィードを含み、およびビデオ・フィードを受信するステップおよび複数のビデオフレームの各フレームを逐次的に処理するステップは、ビデオ・フィードを受信するステップおよび少なくとも第１のビデオ・フィードおよび第２のビデオ・フィードの各々に対して複数のビデオフレームの各フレームを逐次的に処理するステップを含む。これらの例示的な実装において、少なくとも１つのオブジェクトが第１のビデオ・フィードのフレームおよび第２のビデオ・フィードのフレーム内で検出されたことに応答して、方法は、第１のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントおよび第２のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントをリンクするステップをさらに含む。

任意の先行するまたは任意の後続の例示的な実装、または任意のその組合せの方法の幾つかの例示的な実装では、複数のフレームの少なくとも１つのフレームはオクルージョンを含み、フレーム内の複数のオブジェクトを検出するステップは、複数のオブジェクトの少なくとも１つの閉塞されたオブジェクトを検出するステップ、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて閉塞されたオブジェクトを追跡フラグメントに割り当てるステップを含む。

幾つかの例示的な実装において、ライブ・ビデオ・フィードにおける自動化されたオブジェクト追跡のための装置が提供される。装置は、プロセッサと、プロセッサによる実行に応答して、装置に、任意の先行する例示的な実装の方法、または任意のその組合せを実施するように構成された受信機、オブジェクト検出器、およびオブジェクト追跡器のような幾つかのサブシステムを実施させる実行可能命令を格納するメモリとを含む。

幾つかの例示的な実装において、ライブ・ビデオ・フィードにおける自動化されたオブジェクト追跡のためのコンピュータ読み取り可能な記憶媒体が提供される。コンピュータ読み取り可能な記憶媒体は非一時的であり、プロセッサによる実行に応答して、装置に少なくとも任意の先行する例示的な実装の方法、または任意のその組合せを実施させるコンピュータ読み取り可能なプログラムコード部分を格納する。

本開示のこれらのおよび他の特徴、態様、および利点は、以下で簡単に説明される添付図面とともに以下の詳細な説明を読むことで明らかになろう。本開示は、本開示で説明した２つ、３つ、４つまたはそれより多くの特徴または要素の任意の組合せを、かかる特徴または要素が明示的に結合されるかにかかわらず、本明細書で説明されている特定の例示的な実装において実現される。本開示は、本開示の任意の分離可能な特徴または要素が、その態様および例示的な実装の何れかにおいて、本開示の文脈で明確に指示しない限り、結合可能であるとみなされるように、総合的に読まれることを意図している。

本要約は、本開示の幾つかの態様の基本的な理解を提供するために幾つかの例示的な実装を要約する目的のためにのみ提供されることは理解される。したがって、上で説明した例示的な実装は例にすぎず、本開示の範囲と趣旨を決して狭めるものと解釈すべきではないことは理解される。他の例示的な実装、態様および利点は、例として、幾つかの説明された例示的な実装の原理を示す添付図面と関連して捉えた以下の詳細な説明から明らかになろう。

本開示の例示的な実装を一般的な言葉で説明した。次に添付図面を参照する。図面は必ずしも正しい縮尺で描かれていない。

図１は、本開示の例示的な実装に従うビデオ・フィード内の自動化されたオブジェクト追跡のためのシステムの例示である。図２Ａは、幾つかの例示的な実装に従う図１のシステムの適切なオブジェクト追跡器を示す。図２Ｂは図２Ａの、幾つかの例示的な実装に従うオブジェクト追跡器の適切な特徴識別子を示す。図３は幾つかの例示的な実装に従う適切なビデオ・フィードおよび対応する追跡オーバレイを示す。図４Ａは、例示的な実装に従う、ビデオ・フィード内の自動化されたオブジェクト追跡のための方法の様々な動作を示すフロー図である。図４Ｂは、例示的な実装に従う、ビデオ・フィード内の自動化されたオブジェクト追跡のための方法の様々な動作を示すフロー図である。図５は幾つかの例示的な実装に従う装置を示す図である。

本開示の幾つかの実装は、本開示の全部ではないが幾つかの実装が示されている添付図面を参照して、以下で本明細書をより完全に説明する。実際、本開示の様々な実装が多数の異なる形で具現化されてもよく、本明細書で説明した実装に限定されるとは解釈されるべきではなく、むしろ、これらの例示的な実装は、本開示が徹底的かつ完全であり、本開示の範囲を完全に当業者に伝達するように提供される。例えば、特に断らない限り、第１の、第２の等として何かを参照することは、特定の順序を示唆すると解釈されるべきではない。また、例えば、本明細書では定量的測定、値、関係等を参照してもよい。特に断らない限り、全てではないにしてもこれらの任意の１つまたは複数が絶対的であってもよく、または、エンジニアリング耐性等に起因するもののような、発生しうる許容可能な変形を説明するために近似してもよい。図面にわたって同じ参照番号は同じ要素を指す。

本開示の例示的な実装は一般にオブジェクトおよびアクティビティ追跡(tracking)に関し、特に、オブジェクト関連付けを実施すること、および、ビデオ・フィード内のオブジェクト追跡のためのマッチングに関する。例示的な実装は主に、ビデオ監視および分析システムに対するアプリケーションと関連して説明される。しかし、例示的な実装を、航空宇宙業界内外の他のアプリケーションのような多数の他のアプリケーションと関連して利用してもよいことは理解されるべきである。

本開示の例示的な実装はさらに、（例えば、ビデオカメラを介して）ビデオ・フィードを受信するように構成され、コンピュータビジョン、自然言語処理、および機械学習モデルの組合せを用いてビデオ・フィードに存在する様々なオブジェクトおよびアクティビティを自動的に認識するようにトレーニングされたシステムに関する。システムはまた、それらの運動学的、視覚的、時間的および機械学習ベースの特徴に基づいてオブジェクトを追跡するように構成される。

図１はビデオ・フィード内の自動化されたオブジェクト追跡のためのシステム１００を示す。システム１００を本明細書では単に「システム」と称してもよい。システムは、自動的に、直接オペレータコントロールのもとで、またはそれらの幾つかの組合せで幾つかの異なる機能または動作を実施するように構成される。幾つかの例では、システムは、自動的に、即ち、オペレータにより直接制御されることなく、その機能または動作の１つまたは複数を実施するように構成される。さらにまたはあるいは、幾つかの例において、システムは、直接オペレータコントロールのもとでその機能または動作の１つまたは複数を実施するように構成される。

本開示の例示的な実装によれば、システム１００は、ビデオ・フィード（例えば、ライブ・ビデオ・フィードまたは記録されたビデオ）内のオブジェクトを追跡するための様々な機能または動作を実施するように構成される。幾つかの例示的な実装において、システムは、複数のフレームを含むビデオ・フィードを受信し、複数のフレームの各フレームを逐次的に処理してその中の複数のオブジェクトを追跡し、ビデオ・フィードを、その上のオーバレイとして複数のオブジェクトの夫々のオブジェクトの追跡にとともに出力するように構成され、追跡が共通参照フレームにマップされる。これらの例示的な実装において、システムは、フレーム内の複数のオブジェクトを検出し、複数のオブジェクトの各オブジェクトに対して、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるように構成される。複数のオブジェクトはコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる。システムはついで、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するように構成される。

さらに複数のフレームの少なくとも幾つかに対して、システムは、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴と１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴との比較に基づいて、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するように構成される。システムはついで、フレーム内のオブジェクトに対する追跡フラグメントおよび１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクしてオブジェクトの追跡であるより長い追跡フラグメントを形成するように構成される。さらに、複数のオブジェクトの各オブジェクトに対して、システムは、オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成するように構成される。システムはついで、ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力するように構成される。

システム１００は、１つまたは複数の機能または動作を実施するために互いに接続される幾つかの異なるサブシステム（個々のシステム）の各々の１つまたは複数を含んでもよい。図１に示すように、幾つかの例において、システムは、互いに接続された受信機１０２、オブジェクト検出器１０４、およびオブジェクト追跡器１０６を含む。システムの一部として示されているが、受信機、オブジェクト検出器またはオブジェクト追跡器が、システムと別個であるがそれと通信してもよい。サブシステムの何れかが、サブシステムのその他に関わらず別々のシステムとして機能または動作してもよいことも理解されるべきである。さらに、システムは、図１に示したものに対して１つまたは複数の追加のまたは代替的なサブシステムを含んでもよいことは理解されるべきである。

以下でさらに詳細に説明するように、受信機１０２、オブジェクト検出器１０４およびオブジェクト追跡器１０６は、システム１００の夫々の機能または動作を実施するように構成される。幾つかの実装では、受信機は、複数のフレームを含むビデオ・フィードを受信するように構成される。幾つかの実装では、ビデオ・フィードは複数のビデオ・フィードを含む。幾つかの例では、ユーザは、ライブストリームリンクまたはビデオファイルの何れかにより受信するためのビデオのソースを指定する。受信機は、初期処理ユニットとして機能し、ライブ・ビデオストリームまたはビデオファイルを入力として受信し、ビデオを複数の個々の画像フレームに分割する。適切な受信機の例は米国特許出願第１５／３７４、４６３号で開示されており、参照により本明細書に取り込まれる。

オブジェクト検出器１０４およびオブジェクト追跡器１０６は、複数のフレームの各フレームを逐次的に処理するように構成される。オブジェクト検出器はフレーム内のオブジェクトを検出し、およびオブジェクト追跡器は、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てる。ビデオ・フィードが最初に、コンピュータビジョン、自然言語処理および機械学習、および識別可能なオブジェクトのカタログを用いて処理される。即ち、オブジェクトを検出し、コンピュータビジョン、機械学習、および識別可能なオブジェクトのカタログ（例えば、識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログ）を用いて夫々の追跡に割り当ててもよい。拡張された１組の特徴（例えば、運動学的、視覚的、時間的および機械学習ベース特徴）を用いることは、オクルージョン（occlusion）および時々の検出失敗に対する改善された追跡性能をもたらす。例えば、幾つかの例において、複数のフレームの少なくとも１つのフレームはオクルージョンを含み、オブジェクト検出器は、複数のオブジェクトの少なくとも１つの閉塞された(occluded)オブジェクトを検出し、コンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて閉塞されたオブジェクトを追跡フラグメントに割り当てるように構成される。幾つかの例では、ワンタイムトレーニングプロセスが、オブジェクト検出器およびオブジェクト追跡器に、それらが利用される前に適用される。適切なトレーニングプロセスの例は米国特許出願第１５／３７４、４６３号で開示されており、参照により本明細書に取り込まれる。

図２Ａさらには幾つかの例示的な実装に従うオブジェクト追跡器１０６を示す。示すように、幾つかの実装では、オブジェクト検出器は、ビデオ・フィードを処理し分析するための１つまたは複数の機能または動作を実施するために互いに接続された、特徴識別子２０２、追跡識別子２０４、割当てエンジン２０６、アクティブ・追跡データベース２０８、およびサスペンドされた追跡・データベース２１０を含む。

特徴識別子２０２は、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、および運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するように構成される。幾つかの例では、特徴識別子は、コンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別するように構成される。図２Ｂに示すように、特徴識別子はコンピュータビジョン特徴識別子２０２Ａおよび機械学習特徴識別子２０２Ｂを含んでもよい。幾つかの実装では、コンピュータビジョン特徴識別子２０２Ａは、形状、色等のような従来の特徴を識別するように構成される。幾つかの実装では、機械学習特徴識別子２０２Ｂは、オブジェクトの特徴を自動的に検出するために、ディープラーニングニューラル・ネットワークまたは他の適切な方法のような機械学習技術によりトレーニングされる。例えば、ディープラーニングニューラル・ネットワークからの堅牢な検出および分類結果は、エンティティ関連付けおよびマッチングを実施するための、認識された意味的概念および特徴マップのような高レベル特徴を提供する。トレーニングの目的のため、システムは、機械学習を用いて、識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを維持するように構成される。これは、例えば、カタログ内の対応するオブジェクトを、識別可能なオブジェクトの少なくとも幾つかの運動学的、視覚的、時間的または機械学習ベースの特徴で更新するステップを含んでもよい。幾つかの例では、コンピュータビジョンおよび機械学習特徴識別子２０２Ａ、２０２Ｂは、動作可能に接続され、複数の環境（例えば、異なる光環境、天気条件等）内の特徴識別に適応可能な堅牢な分類プロセスを構築するための対応関係および／または転送学習プロセスを用いて、それらの間の特徴をマップするように構成される。

幾つかの例示的な実装において、複数のフレームの各フレームを逐次的に処理するステップにおいて、オブジェクト検出器１０４はさらに、オブジェクトが検出された第１のインスタンス内のオブジェクトに一意な識別子を割り当てるように構成される。オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別する際、特徴識別子２０２は、運動学的、視覚的、時間的または機械学習ベースの特徴に、オブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータ内の一意な識別子を関連付けるように構成される。

複数のフレームの少なくとも幾つかに対して、追跡識別子２０４は、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴および１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴の比較に基づいて、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するように構成される。幾つかの例では、追跡識別子は、運動学的、視覚的、時間的または機械学習ベースの特徴および対応する運動学的、視覚的、時間的または機械学習ベースの特徴の間の統計的変動が予め決定された閾値を下回る事例において、オブジェクトに対する追跡フラグメントを識別するように構成される。

幾つかの例では、オブジェクト追跡器１０６は、フレームでまたはフレーム数の閾値以内の前のフレームで検出された任意のオブジェクトに対する追跡フラグメントを含むアクティブ・追跡フラグメントのデータベース２０８、およびフレームでもフレーム数の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベース２１０を維持するように構成される。これらの例において、追跡識別子２０４は、アクティブな追跡フラグメントのデータベースまたはサスペンドされた追跡フラグメントのデータベースを検索して、維持される追跡フラグメント内のオブジェクトに対する追跡フラグメントを識別することにより、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するように構成される。

これらの例において、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントがサスペンドされた追跡フラグメントのデータベース２１０で識別される事例では、追跡識別子２０４はさらに、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをサスペンドされた追跡フラグメントのデータベース２１０からアクティブ・追跡フラグメントのデータベース２０８に移動するように構成される。さらにこれらの例において、フレームでもフレーム数の第２の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントはサスペンドされた追跡フラグメントのデータベース２１０から削除される。

割当てエンジン２０６は、フレーム内のオブジェクトに対する追跡フラグメントおよび１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡であるより長い追跡フラグメントを形成するように構成される。幾つかの例では、ビデオ・フィードは複数のビデオ・フィードを含み、およびオブジェクト検出器１０４およびオブジェクト追跡器１０６は、少なくとも第１のビデオ・フィードおよび第２のビデオ・フィードの各々に対して複数のビデオフレームの各フレームを逐次的に処理するように構成され、少なくとも１つのオブジェクトが第１のビデオ・フィードのフレームおよび第２のビデオ・フィードのフレームで検出されたとき、割当てエンジンは、第１のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントを第２のビデオ・フィードのフレーム内のオブジェクトにリンクするように構成される。

オブジェクトを追跡した後、オブジェクト追跡器１０６は、オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成するように構成される。オブジェクト追跡器はまた、ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力するように構成される。幾つかの例では、ビデオ・フィードを出力するステップはまた、ビデオ・フィード内のオブジェクトに対する対応するプロセスおよび／またはワークフロー分析を生成するステップを含む。例えば、幾つかの実装では、オブジェクト追跡器はさらに、追跡されるオブジェクトの静的および／または移動時間に関する情報（例えば、トラフィックフロー、滞在時間、ヒートマップ等）を測定し表示する。幾つかの実装では、ワークフロー分析がオブジェクトの一意な識別子に関連付けられる。

図３は、オブジェクトの追跡３０４をその上のオーバレイとして有するビデオ・フィード３０２の例示的なフレームを示す。示すように、ビデオ・フィードは、夫々の一意な識別子３０６が各オブジェクトとともに表示されるオーバレイとして複数の追跡を有してもよい。例えば、幾つかの実装では、当該追跡は、ビデオのフレームにわたってオブジェクトに沿って移動するオブジェクト上の境界ボックスにより具現化される。

図４Ａは、ビデオ・フィード内の自動化されたオブジェクト追跡のための方法４００の様々な動作を含む流れ図を示す。ブロック４０２で示すように、方法は、複数のフレームを含むビデオ・フィードを受信するステップを含む。方法はまた、ブロック４０４に示されるように、複数のフレームの各フレームを逐次的に処理するステップを含む。ブロック４０６で示すように、方法はまた、オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成するステップを含む。方法はまた、ブロック４０８に示されるように、ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力するステップを含む。

図４Ｂは、幾つかの例示的な実装に従う、複数のフレームの各フレームを逐次的に処理する様々な動作をさらに示す流れ図である（ブロック４０４）。複数のフレームの各フレームを逐次的に処理するステップは、ブロック４１０に示されるように、フレーム内のオブジェクトを検出するステップと、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるステップとを含む。複数のオブジェクトはコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる。各フレームを逐次的に処理するステップはまた、ブロック４１２に示されるように、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するステップを含む。

さらに複数のフレームの少なくとも幾つかに対して、フレームを逐次的に処理するステップは、ブロック４１４に示されるように、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴および１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴の比較に基づいて、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップを含む。ブロック４１６に示すように、プロセスは、フレーム内のオブジェクトに対する追跡フラグメントおよび１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡であるより長い追跡フラグメントを形成するステップを含む。

本開示の幾つかの例示的な実装によれば、システム１００および受信機１０２、オブジェクト検出器１０４およびオブジェクト追跡器１０６を含むそのサブシステムおよび／またはコンポーネントが様々な手段により実装されてもよい。システム、サブシステムおよびそれらの夫々の要素を実装するための手段はハードウェアを、単体で、または、コンピュータ読み取り可能な記憶媒体からの１つまたは複数のコンピュータプログラムの指示のもとで、含んでもよい。

幾つかの例では、本明細書で示し説明したシステム、サブシステム、ツールおよび夫々の要素として機能しまたはそれらを実装するように構成される１つまたは複数の装置を提供してもよい。複数の装置を含む例では、夫々の装置は、幾つかの異なる方式で、例えば、有線または無線ネットワーク等を介して直接または間接的に、互いと接続されるかまたは通信してもよい。

図５は本開示の幾つかの例示的な実装に従う装置５００を示す。一般に、本開示の例示的な実装の装置は、１つまたは複数の固定されたまたはポータブル電子デバイスを含むかまたはそれらで具現化されてもよい。適切な電子デバイスの例は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーションコンピュータ、サーバコンピュータ等を含む。装置は、例えば、メモリ５０４（例えば、記憶デバイス）に接続されたプロセッサ５０２（例えば、プロセッサユニット）のような幾つかのコンポーネントの１つまたは複数を含んでもよい。

プロセッサ５０２は一般に、例えば、データ、コンピュータプログラムおよび／または他の適切な電子情報のような情報を処理できる任意のコンピュータハードウェアである。プロセッサは電子回路の集合から構成され、その幾つかは、集積回路または複数の相互接続された集積回路ｓ（しばしばより一般的に「チップ」と称される集積回路）としてパッケージされうる。プロセッサはコンピュータプログラムを実行するように構成されてもよく、当該プログラムを、プロセッサ上に格納するかまたはそうでなければ（同一のまたは別の装置の）メモリ５０４に格納してもよい。

プロセッサ５０２は、特定の実装に応じて、幾つかのプロセッサ、マルチプロセッサコアまたは幾つかの他のタイプのプロセッサであってもよい。さらに、プロセッサが、メインプロセッサが単一のチップ上に１つまたは複数の二次プロセッサとともに存在する幾つかのヘテロジニアス・プロセッサシステムを用いて実装されてもよい。別の例示的な例として、プロセッサは同一のタイプの複数のプロセッサを含む対称マルチプロセッサシステムであってもよい。さらに別の例では、プロセッサが、１つまたは複数の特殊用途向け集積回路（ＡＳＩＣ）、フィールド－プログラム可能ゲートアレイ（ＦＰＧＡ）等として具現化されるかまたはそれらを含んでもよい。したがって、プロセッサはコンピュータプログラムを実行して１つまたは複数の機能を実施できてもよいが、様々な例のプロセッサが、コンピュータプログラムの支援なしに１つまたは複数の機能を実施できてもよい。

メモリ５０４は一般に、例えば、データ、コンピュータプログラム（例えば、コンピュータ読み取り可能なプログラムコード５０６）および／または他の適切な情報のような情報を一時的におよび／または永続的に格納できる任意のコンピュータハードウェアである。メモリは揮発性および／または不揮発性メモリを含んでもよく、固定または取外し可能であってもよい。適切なメモリの例は、ランダム・アクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、ハード・ドライブ、フラッシュ・メモリ、サムドライブ、取外し可能コンピュータディスク、光ディスク、磁気テープまたはこれらの幾つかの組合せを含む。光ディスクは、コンパクトディスク－読取専用メモリ（ＣＤ－ＲＯＭ）、コンパクトディスク・リード／ライト（ＣＤ－Ｒ／Ｗ）、ＤＶＤ等を含んでもよい。様々な事例において、メモリをコンピュータ読み取り可能な記憶媒体と称してもよい。コンピュータ読み取り可能な記憶媒体は情報を格納できる非一時的デバイスであり、情報を或る位置から別の位置に運搬できる電子一時的信号のようなコンピュータ読み取り可能な送信媒体特別される。本明細書で説明したコンピュータ読み取り可能な媒体は一般にコンピュータ読み取り可能な記憶媒体またはコンピュータ読み取り可能な送信媒体を指してもよい。

メモリに加えて、プロセッサはまた、情報を表示、送信、および／または受信するための１つまたは複数のインタフェース５０８に接続されてもよい。インタフェースは通信インタフェース（例えば、通信ユニット）および／または１つまたは複数のユーザインタフェースを含んでもよい。通信インタフェースは、他の装置（複数可）、ネットワーク（複数可）等と情報を送受信するように構成されてもよい。通信インタフェースは、物理（ｗｉｒｅｄ）および／または無線通信リンクにより情報を送受信するように構成されてもよい。適切な通信インタフェースの例はネットワークインタフェースコントローラ（ＮＩＣ）、無線ＮＩＣ（ＷＮＩＣ）等を含む。

ユーザインタフェースはディスプレイ５１０および／または１つまたは複数のユーザ入力インタフェース５１２（例えば、入出力ユニット）を含んでもよい。ディスプレイは情報をユーザに提供または表示するように構成されてもよく、その適切な例は液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、プラズマ・ディスプレイパネル（ＰＤＰ）等、を含む。

ユーザ入力インタフェース５１２は有線または無線であってもよく、処理、記憶および／または表示のためにユーザから情報を装置に受信するように構成されてもよい。ユーザ入力インタフェースの適切な例は、マイクロフォン、画像またはビデオキャプチャデバイス、キーボードまたはキーパッド、ジョイスティック、（タッチスクリーンと別々またはそれに統合された）タッチ－センシティブサーフェス、バイオメトリックセンサ等を含む。ユーザインタフェースはさらに、プリンタ、スキャナ等のような周辺機器と通信するための１つまたは複数のインタフェースを含んでもよい。

上で示したように、プログラムコード命令はメモリに格納され、本明細書で説明したシステム、サブシステムおよびそれらの夫々の要素の機能を実装するためにプロセッサにより実行されてもよい。理解されるように、任意の適切なプログラムコード命令は、特定の機械が本明細書で指定された機能を実装するための手段となるように、コンピュータ読み取り可能な記憶媒体からコンピュータまたは他のプログラム可能装置にロードされて特定の機械を生成してもよい。これらのプログラムコード命令はまた、特定の機械または特定の製品を生成する特定の方式で機能するようにコンピュータ、プロセッサまたは他のプログラム可能装置に指示でき、コンピュータ読み取り可能な記憶媒体に格納しうる。コンピュータ読み取り可能な記憶媒体に格納された命令は製品を生成してもよく、当該製品は本明細書で説明した機能を実装するための手段になる。プログラムコード命令を、コンピュータ読み取り可能な記憶媒体から取り出し、コンピュータ、プロセッサまたは他のプログラム可能装置にロードして、コンピュータ、プロセッサまたは他のプログラム可能装置上でまたはそれらにより実施される動作を実行するようにコンピュータ、プロセッサまたは他のプログラム可能装置を構成してもよい。

プログラムコード命令の取出し、ロードおよび実行は、１つの命令が一度に取り出され、ロードされ、実行されるように逐次的に実施されてもよい。幾つかの例示的な実装において、取出し、ロードおよび／または実行は、複数の命令が一緒に取り出され、ロードされ、および／または実行されるように並列に実施されてもよい。プログラムコード命令の実行は、コンピュータ、プロセッサまたは他のプログラム可能装置により実行される命令が、本明細書で説明した機能を実装するための動作を提供するように、コンピュータ実行型のプロセスを生成してもよい。

プロセッサによる命令の実行、またはコンピュータ読み取り可能な記憶媒体内の命令の格納は、指定された機能を実施するための動作の組合せをサポートする。このように、装置５００はプロセッサ５０２およびプロセッサに接続されたコンピュータ読み取り可能な記憶媒体またはメモリ５０４を含んでもよい。プロセッサは、メモリに格納されたコンピュータ読み取り可能なプログラムコード５０６を実行するように構成される。１つまたは複数の機能、および機能の組合せが指定された機能、または特殊目的ハードウェアおよびプログラムコード命令の組合せを実施する特殊目的ハードウェアベースのコンピュータシステムおよび／またはプロセッサにより実装されてもよいことも理解される。
さらに、本開示は以下の項に従う実施形態を含む：

項１．ビデオ・フィード内の自動化されたオブジェクト追跡のための方法であって、
複数のフレームを含むビデオ・フィードを受信するステップと、
少なくとも
フレーム内の複数のオブジェクトを検出するステップ、および複数のオブジェクトの各オブジェクトに対して、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるステップであって、複数のオブジェクトはコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる、ステップ、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するステップ、
さらに複数のフレームの少なくとも幾つかに対して、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴および１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴の比較に基づいて、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップ、
フレーム内のオブジェクトに対する追跡フラグメントおよび１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡であるより長い追跡フラグメントを形成するステップ
を含む、複数のフレームの各フレームを逐次的に処理するステップと、
複数のオブジェクトの各オブジェクトに対して、
オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成するステップと、
ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力するステップと、
を含む、方法。

項２．１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップは、運動学的、視覚的、時間的または機械学習ベースの特徴および対応する運動学的、視覚的、時間的または機械学習ベースの特徴の間の統計的分散が予め決定された閾値未満であるインスタンス内の追跡フラグメントを識別するステップを含む、項１に記載の方法。

項３．フレーム内で又はフレーム数の閾値以内の前のフレーム内でオブジェクトに対する追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、およびフレームでもフレーム数の閾値以内の前のフレームでも検出されないオブジェクトに対する追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持するステップをさらに含み、および
１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップは、アクティブな追跡フラグメントのデータベースまたはサスペンドされた追跡フラグメントのデータベースを検索して、維持される追跡フラグメント内のオブジェクトに対する追跡フラグメントを識別するステップを含む、
項１乃至２の何れか１項に記載の方法。

項４．１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントがサスペンドされた追跡フラグメントのデータベースで識別されるインスタンスにおいて、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップはさらに、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをサスペンドされた追跡フラグメントのデータベースからアクティブな追跡フラグメントのデータベースに移動するステップを含み、フレーム内でもフレーム数の第２の閾値以内の前のフレームでも検出されないオブジェクトに対する追跡フラグメントは、サスペンドされた追跡フラグメントのデータベースから削除される、項３に記載の方法。

項５．複数のフレームの各フレームを逐次的に処理するステップはさらに、オブジェクトが検出された第１のインスタンス内のオブジェクトに一意な識別子を割り当てるステップを含み、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別するステップは、運動学的、視覚的、時間的または機械学習ベースの特徴を、オブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータ内の一意な識別子に関連付けるステップを含み、
ビデオ・フィードを出力するステップはビデオ・フィード内のオブジェクトに対する対応するワークフロー分析を生成するステップを含み、ワークフロー分析はオブジェクトの一意な識別子に関連付けられる、
項１乃至４の何れか１項に記載の方法。

項６．ビデオ・フィードは複数のビデオ・フィードを含み、ビデオ・フィードを受信するステップおよび複数のビデオフレームの各フレームを逐次的に処理するステップは、ビデオ・フィードを受信するステップおよび少なくとも第１のビデオ・フィードおよび第２のビデオ・フィードの各々に対して複数のビデオフレームの各フレームを逐次的に処理するステップを含み、
少なくとも１つのオブジェクトが第１のビデオ・フィードのフレームおよび第２のビデオ・フィードのフレーム内で検出されたことに応答して、方法は、第１のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントおよび第２のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントをリンクするステップをさらに含む、
項１乃至５の何れか１項に記載の方法。

項７．複数のフレームの少なくとも１つのフレームはオクルージョンを含み、フレーム内の複数のオブジェクトを検出するステップは、複数のオブジェクトの少なくとも１つの閉塞されたオブジェクトを検出するステップ、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて閉塞されたオブジェクトを追跡フラグメントに割り当てるステップを含む、項１乃至６の何れか１項に記載の方法。

項８．ビデオ・フィード内の自動化されたオブジェクト追跡のための装置であって、プロセッサと、
プロセッサによる実行に応答して、装置に少なくとも、
複数のフレームを含むビデオ・フィードを受信し、
フレーム内の複数のオブジェクトを検出するステップ、および複数のオブジェクトの各オブジェクトに対して、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるステップであって、複数のオブジェクトは、コンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる、ステップ、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、および運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するステップ、
さらに複数のフレームの少なくとも幾つかに対して、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴と、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴との比較に基づいて、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップ、
フレーム内のオブジェクトに対する追跡フラグメントおよび１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡であるより長い追跡フラグメントを形成するステップ、
を含む、複数のフレームの各フレームを逐次的に処理し、
複数のオブジェクトの各オブジェクトに対して、
オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成し、
ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力する、
ことをさせる実行可能命令を格納するメモリと、
を備える、装置。

項９．装置が１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することは、運動学的、視覚的、時間的または機械学習ベースの特徴および対応する運動学的、視覚的、時間的または機械学習ベースの特徴の間の統計的分散が予め決定された閾値未満であるインスタンス内の追跡フラグメントを識別するステップを含む、項８に記載の装置。

項１０．メモリは、プロセッサによる実行に応答して、装置にさらに、フレームでまたはフレーム数の閾値以内の前のフレームで検出された任意のオブジェクトに対する追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、およびフレームでもフレーム数の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持させる実行可能命令を格納し、
装置が１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することは、アクティブな追跡フラグメントのデータベースまたはサスペンドされた追跡フラグメントのデータベースを検索して、維持される追跡フラグメント内のオブジェクトに対する追跡フラグメントを識別するステップを含む、
項８乃至９のうち何れか１項に記載の装置。

項１１．１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントがサスペンドされた追跡フラグメントのデータベースで識別されるインスタンスにおいて、装置が１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することはさらに、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをサスペンドされた追跡フラグメントのデータベースからアクティブな追跡フラグメントのデータベースに移動するステップを含み、フレームでもフレーム数の第２の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントはサスペンドされた追跡フラグメントのデータベースから削除される、項１０に記載の装置。

項１２．装置が複数のフレームの各フレームを逐次的に処理することはさらに、オブジェクトが検出された第１のインスタンス内のオブジェクトに一意な識別子を割り当てるステップを含み、
装置が、オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別することは、運動学的、視覚的、時間的または機械学習ベースの特徴を、オブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータ内の一意な識別子に関連付けるステップを含み、
装置がビデオ・フィードを出力することは、ビデオ・フィード内のオブジェクトに対する対応するワークフロー分析を生成するステップを含み、ワークフロー分析はオブジェクトの一意な識別子に関連付けられる、
項８乃至１１のうち何れか１項に記載の装置。

項１３．ビデオ・フィードは複数のビデオ・フィードを含み、装置がビデオ・フィードを受信し複数のビデオフレームの各フレームを逐次的に処理することは、少なくとも第１のビデオ・フィードおよび第２のビデオ・フィードの各々に対してビデオ・フィードを受信し複数のビデオフレームの各フレームを逐次的に処理するステップを含み、
少なくとも１つのオブジェクトが第１のビデオ・フィードのフレームおよび第２のビデオ・フィードのフレーム内で検出されたことに応答して、装置はさらに、第１のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントおよび第２のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントをリンクする、
項８乃至１２のうち何れか１項に記載の装置。

項１４．複数のフレームの少なくとも１つのフレームはオクルージョンを含み、装置がフレーム内の複数のオブジェクトを検出することは、複数のオブジェクトの少なくとも１つの閉塞されたオブジェクトを検出するステップ、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて閉塞されたオブジェクトを追跡フラグメントに割り当てるステップを含む、項８乃至１３のうち何れか１項に記載の装置。

項１５．ビデオ・フィード内の自動化されたオブジェクト追跡のためのコンピュータ読み取り可能な記憶媒体であって、プロセッサによる実行に応答して、装置に少なくとも、
複数のフレームを含むビデオ・フィードを受信することと、
フレーム内の複数のオブジェクトを検出し、複数のオブジェクトの各オブジェクトに対して、オブジェクトをフレーム内のオブジェクトに対する追跡フラグメントに割り当てるステップであって、複数のオブジェクトはコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出され、割り当てられる、ステップと、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、および運動学的、視覚的、時間的または機械学習ベースの特徴をオブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータに格納するステップと、および
さらに複数のフレームの少なくとも幾つかに対して、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴および１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントに関連付けられたメタデータ内の対応する運動学的、視覚的、時間的または機械学習ベースの特徴の比較に基づいて、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別するステップと、
フレーム内のオブジェクトに対する追跡フラグメントおよび１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをリンクして、オブジェクトの追跡であるより長い追跡フラグメントを形成するステップと、
を含む、複数のフレームの各フレームを逐次的に処理することと、
複数のオブジェクトの各オブジェクトに対して、
オブジェクトの追跡を共通の参照フレームに変換して、複数のオブジェクトの追跡をマップした共通参照フレームを生成することと、
ビデオ・フィードを、共通参照フレームと、その上のオーバレイとして複数のオブジェクトのマップされた追跡とともに出力することと、
をさせるコンピュータ読み取り可能なプログラムコードを格納した、コンピュータ読み取り可能な記憶媒体。

項１６．装置が１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することは、運動学的、視覚的、時間的または機械学習ベースの特徴および対応する運動学的、視覚的、時間的または機械学習ベースの特徴の間の統計的分散が予め決定された閾値未満であるインスタンス内の追跡フラグメントを識別するステップを含む、項１５に記載のコンピュータ読み取り可能な記憶媒体。

項１７．プロセッサによる実行に応答して、装置にさらに、フレーム内で又はフレーム数の閾値以内の前のフレーム内でオブジェクトに対する追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、およびフレームでもフレーム数の閾値以内の前のフレームでも検出されないオブジェクトに対する追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持させるコンピュータ読み取り可能なプログラムコードを格納し、
装置が１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することは、アクティブな追跡フラグメントのデータベースまたはサスペンドされた追跡フラグメントのデータベースを検索して、維持される追跡フラグメント内のオブジェクトに対する追跡フラグメントを識別するステップを含む、項１５－１６の何れか１項に記載のコンピュータ読み取り可能な記憶媒体。

項１８．１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントがサスペンドされた追跡フラグメントのデータベースで識別されるインスタンスにおいて、装置が１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントを識別することはさらに、１つ以上前のフレーム内のオブジェクトに対する追跡フラグメントをサスペンドされた追跡フラグメントのデータベースからアクティブな追跡フラグメントのデータベースに移動するステップを含み、フレームでもフレーム数の第２の閾値以内の前のフレームでも検出されない任意のオブジェクトに対する追跡フラグメントはサスペンドされた追跡フラグメントのデータベースから削除される、項１７に記載のコンピュータ読み取り可能な記憶媒体。

項１９．装置が複数のフレームの各フレームを逐次的に処理することはさらに、オブジェクトが検出された第１のインスタンス内のオブジェクトに一意な識別子を割り当てるステップを含み、
オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別するステップは、運動学的、視覚的、時間的または機械学習ベースの特徴を、オブジェクトが割り当てられる追跡フラグメントに関連付けられたメタデータ内の一意な識別子に関連付けるステップを含み、
装置がビデオ・フィードを出力することは、オブジェクトに対する対応するワークフロー分析を生成することを含み、ワークフロー分析は一意な識別子に関連付けられる、
項１５－１８の何れか１項に記載のコンピュータ読み取り可能な記憶媒体。

項２０．ビデオ・フィードは複数のビデオ・フィードを含み、装置がビデオ・フィードを受信し複数のビデオフレームの各フレームを逐次的に処理することはビデオ・フィードを受信するステップおよび少なくとも第１のビデオ・フィードおよび第２のビデオ・フィードの各々に対して複数のビデオフレームの各フレームを逐次的に処理するステップを含み、
少なくとも１つのオブジェクトが第１のビデオ・フィードのフレームおよび第２のビデオ・フィードのフレーム内で検出されたことに応答して、装置はさらに、第１のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントおよび第２のビデオ・フィードのフレーム内のオブジェクトに対する追跡フラグメントをリンクする、
項１５－１９の何れか１項に記載のコンピュータ読み取り可能な記憶媒体。

項２１．複数のフレームの少なくとも１つのフレームはオクルージョンを含み、装置がフレーム内の複数のオブジェクトを検出することは、複数のオブジェクトの少なくとも１つの閉塞されたオブジェクトを検出し、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて閉塞されたオブジェクトを追跡フラグメントに割り当てることを含む、項２０に記載のコンピュータ読み取り可能な記憶媒体。

本明細書で説明した本開示の多くの修正および他の実装は、以上の説明および関連付けられた図面で提示された教示事項の利益を有する、本開示が関連する当業者には明らかであろう。したがって、本開示は開示された特定の実装には限定されず、修正および他の実装が添付の特許請求の範囲に含まれると意図されていることは理解されるべきである。さらに、以上の説明および添付図面は、例示的な実装を要素および／または機能の特定の例の組合せの文脈で説明するが、要素および／または機能の異なる組合せが添付の特許請求の範囲を逸脱することなく代替的な実装により提供されうることは理解されるべきである。この点、例えば、これらの明示的に上述したものと異なる要素および／または機能の組合せも、添付の特許請求の範囲の幾つかで説明されるように考慮されている。本明細書では特定の用語を使用したが、それらは汎用的かつ記述的な意味でのみ使用され、限定の目的はない。

１００システム
１０２受信機
１０４オブジェクト検出器
１０６オブジェクト追跡器
２０２特徴識別子
２０４追跡識別子
２０６割当てエンジン
２０８データベース
２１０データベース
２１０およびサスペンドされた追跡・データベース
３０２ビデオ・フィード
３０４オブジェクトの追跡
３０６一意な識別子
４０２ブロック
４０４ブロック
４０６ブロック
４０８ブロック
４１０ブロック
４１２ブロック
４１４ブロック
４１６ブロック
５００装置
５０２プロセッサ
５０４メモリ
５０６コンピュータ読み取り可能なプログラムコード
５０８インタフェース
５１０ディスプレイ
５１２ユーザ入力インタフェース

Claims

ビデオ・フィード内の自動化されたオブジェクト追跡のための方法（400）であって、
複数のフレームを含むビデオ・フィードを受信するステップ（402）と、
前記複数のフレームの各フレームを逐次的に処理するステップ(404)であって、
前記フレーム内の複数のオブジェクトを検出するステップ(410)、および前記複数のオブジェクトの各オブジェクトに対して、前記オブジェクトを前記フレーム内の前記オブジェクトに対する追跡フラグメントに割り当てるステップであって、前記複数のオブジェクトは、コンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出されるとともに割り当てられる、ステップ、
および
前記オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別するステップ(412)、および前記運動学的、視覚的、時間的または機械学習ベースの特徴を、前記オブジェクトが割り当てられる前記追跡フラグメントに関連付けられたメタデータに格納するステップ、および
さらに前記複数のフレームの少なくとも幾つかに対して、
前記オブジェクトの前記運動学的、視覚的、時間的または機械学習ベースの特徴と、１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントに関連付けられたメタデータ内の、対応する運動学的、視覚的、時間的または機械学習ベースの特徴との比較に基づいて、前記１つ以上前のフレーム内の前記オブジェクトに対する追跡フラグメントを識別するステップ(414)、および
前記フレーム内の前記オブジェクトに対する前記追跡フラグメントおよび前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントをリンクして、前記オブジェクトの追跡である、より長い追跡フラグメントを形成するステップ(416)、
を少なくとも含む、ステップと、
前記複数のオブジェクトの各オブジェクトに対して、
前記オブジェクトの前記追跡を共通の参照フレームに変換して、マップされた前記複数のオブジェクトの前記追跡を有する共通参照フレームを生成するステップ（406）と、
前記ビデオ・フィードを、前記共通参照フレームと、その上のオーバレイとして前記複数のオブジェクトの前記マップされた追跡とともに出力するステップ（408）と、
を具備し、
前記複数のフレームの各フレームを逐次的に処理するステップ(404)はさらに、前記オブジェクトが検出された第１のインスタンス内の前記オブジェクトに一意な識別子を割り当てるステップを含み、
前記オブジェクトの前記運動学的、視覚的、時間的または機械学習ベースの特徴を識別するステップ(412)は、特徴識別子(202)によって、前記運動学的、視覚的、時間的または機械学習ベースの特徴を、前記オブジェクトが割り当てられる前記追跡フラグメントに関連付けられた前記メタデータ内の前記一意な識別子に関連付けるステップを含み、
前記ビデオ・フィードを出力するステップ(408)は、前記ビデオ・フィード内のオブジェクトに対する対応するワークフロー分析を生成するステップを含み、前記ワークフロー分析は、前記オブジェクトの前記一意な識別子に関連付けられ、
前記特徴識別子（202）は、コンピュータビジョン特徴識別子（202A）及び機械学習特徴識別子（202B）を含み、
前記コンピュータビジョン特徴識別子（202A）は、形状又は色の少なくとも一方を含む1つ以上の特徴を識別するように構成され、
前記機械学習特徴識別子（202B）は、機械学習技術によってトレーニングされ、
前記コンピュータビジョン特徴識別子及び前記機械学習特徴識別子（202A、202B）は、動作可能に結合され、対応関係および／または転送学習プロセスを用いて、それらの間の特徴をマッピングするように構成されている、ことを特徴とする方法。
前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別する前記ステップは、前記運動学的、視覚的、時間的または機械学習ベースの特徴と前記対応する運動学的、視覚的、時間的または機械学習ベースの特徴との間の統計的分散が予め決定された閾値未満であるインスタンス内の前記追跡フラグメントを識別するステップを含む、請求項１に記載の方法。
前記フレーム内でまたはフレーム数の閾値以内の前のフレーム内で検出されたオブジェクトに対する前記追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、および前記フレーム内でも前記フレーム数の閾値以内の前のフレーム内でも検出されないオブジェクトに対する前記追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持するステップをさらに含み、
前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別するステップは、前記アクティブな追跡フラグメントのデータベースまたは前記サスペンドされた追跡フラグメントのデータベースを検索して、維持される前記追跡フラグメント内の前記オブジェクトに対する前記追跡フラグメントを識別するステップを含む、
請求項１乃至２のうち何れか１項に記載の方法。
前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントがサスペンドされた追跡フラグメントの前記データベース内で識別されるインスタンスにおいて、前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別するステップは、前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを、サスペンドされた追跡フラグメントの前記データベースからアクティブな追跡フラグメントの前記データベースに移動するステップをさらに含み、前記フレーム内でもフレーム数の第2の閾値以内の前のフレームでも検出されないオブジェクトに対する前記追跡フラグメントは、サスペンドされた追跡フラグメントの前記データベースから削除される、請求項３に記載の方法。
前記ビデオ・フィードは、複数のビデオ・フィードを含み、前記ビデオ・フィードを受信するステップおよび前記複数のフレームの各フレームを逐次的に処理するステップは、前記ビデオ・フィードを受信するステップおよび少なくとも第１のビデオ・フィードおよび第２のビデオ・フィードの各々に対して前記複数のフレームの各フレームを逐次的に処理するステップを含み、および
少なくとも１つのオブジェクトが前記第１のビデオ・フィードのフレームおよび前記第２のビデオ・フィードのフレーム内で検出されたことに応答して、前記方法は、前記第１のビデオ・フィードの前記フレーム内の前記オブジェクトに対する前記追跡フラグメントと前記第２のビデオ・フィードの前記フレーム内の前記オブジェクトに対する前記追跡フラグメントをリンクするステップをさらに含む、請求項１乃至４のうち何れか１項に記載の方法。
前記複数のフレームの少なくとも１つのフレームはオクルージョンを含み、前記フレーム内の前記複数のオブジェクトを検出するステップは、前記複数のオブジェクトの少なくとも１つの閉塞されたオブジェクトを検出するステップ、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴の前記カタログを用いて前記閉塞されたオブジェクトを追跡フラグメントに割り当てるステップを含む、請求項１乃至５のうち何れか１項に記載の方法。
ビデオ・フィードにおける自動化されたオブジェクト追跡のための装置(500)であって、
プロセッサ（502）と、前記プロセッサ（502）による実行に応答して、前記装置に少なくとも：
複数のフレームを含むビデオ・フィードを受信し（402）、
少なくとも：
前記フレーム内の複数のオブジェクトを検出し、前記複数のオブジェクトの各オブジェクトに対して、前記オブジェクトを前記フレーム内の前記オブジェクトに対する追跡フラグメントに割り当てることであって、前記複数のオブジェクトは、コンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴のカタログを用いて検出されるとともに割り当てられる、追跡フラグメントに割り当てること（410）、および
前記オブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴を識別し、および前記運動学的、視覚的、時間的または機械学習ベースの特徴を前記オブジェクトが割り当てられる前記追跡フラグメントに関連付けられたメタデータに格納すること（412）、および
さらに前記複数のフレームの少なくとも幾つかに対して、
前記オブジェクトの前記運動学的、視覚的、時間的または機械学習ベースの特徴と、１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントに関連付けられたメタデータ内の、対応する運動学的、視覚的、時間的または機械学習ベースの特徴との比較に基づいて、前記１つ以上前のフレーム内の前記オブジェクトに対する追跡フラグメントを識別すること（414）、および
前記フレーム内の前記オブジェクトに対する前記追跡フラグメントおよび前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントをリンクして、前記オブジェクトの追跡である、より長い追跡フラグメントを形成すること（416）、
を含む前記複数のフレームの各フレームを逐次的に処理し（404）、
前記複数のオブジェクトの各オブジェクトに対して、
前記オブジェクトの前記追跡を共通の参照フレームに変換して、マップされた前記複数のオブジェクトの前記追跡を有する共通参照フレームを生成し（406）、および
前記ビデオ・フィードを、前記共通参照フレームと、その上のオーバレイとして前記複数のオブジェクトの前記マップされた追跡とともに出力する（408）、
ことをさせる実行可能命令を格納するメモリ（504）と、
を備え、
前記装置が前記複数のフレームの各フレームを逐次的に処理することはさらに、前記オブジェクトが検出された第１のインスタンス内の前記オブジェクトに一意な識別子を割り当てるステップを含み、
前記装置が、前記オブジェクトの前記運動学的、視覚的、時間的または機械学習ベースの特徴を識別することは、特徴識別子（202）によって、前記運動学的、視覚的、時間的または機械学習ベースの特徴を、前記オブジェクトが割り当てられる前記追跡フラグメントに関連付けられた前記メタデータ内の前記一意な識別子に関連付けるステップを含み、
前記装置が前記ビデオ・フィードを出力することは前記ビデオ・フィード内のオブジェクトに対する対応するワークフロー分析を生成するステップを含み、前記ワークフロー分析は前記オブジェクトの前記一意な識別子に関連付けられ、
前記特徴識別子（202）は、コンピュータビジョン特徴識別子（202A）及び機械学習特徴識別子（202B）を含み、
前記コンピュータビジョン特徴識別子（202A）は、形状又は色の少なくとも一方を含む1つ以上の特徴を識別するように構成され、
前記機械学習特徴識別子（202B）は、機械学習技術によってトレーニングされ、
前記コンピュータビジョン特徴識別子及び前記機械学習特徴識別子（202A、202B）は、動作可能に結合され、対応付けおよび／または伝達学習プロセスを用いて、その間に特徴をマッピングするように構成されている、装置。
前記装置が前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別することは、前記運動学的、視覚的、時間的または機械学習ベースの特徴と前記対応する運動学的、視覚的、時間的または機械学習ベースの特徴との間の統計的分散が予め決定された閾値未満であるインスタンス内の前記追跡フラグメントを識別するステップを含む、請求項７に記載の装置。
前記メモリは、前記プロセッサによる実行に応答して、前記装置にさらに、前記フレーム内またはフレーム数の閾値以内の前のフレーム内で検出された任意のオブジェクトに対する前記追跡フラグメントを含むアクティブな追跡フラグメントのデータベース、および前記フレーム内でも前記フレーム数の閾値以内の前のフレーム内でも検出されない任意のオブジェクトに対する前記追跡フラグメントを含むサスペンドされた追跡フラグメントのデータベースを維持させる実行可能命令を格納し、および
前記装置が前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別することは、前記アクティブな追跡フラグメントのデータベースまたは前記サスペンドされた追跡フラグメントのデータベースを検索して、維持される前記追跡フラグメント内の前記オブジェクトに対する前記追跡フラグメントを識別するステップを含む、請求項７又は８に記載の装置。
前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントが、サスペンドされた追跡フラグメントの前記データベースで識別されるインスタンスにおいて、前記装置が前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを識別することはさらに、前記１つ以上前のフレーム内の前記オブジェクトに対する前記追跡フラグメントを、サスペンドされた追跡フラグメントの前記データベースからアクティブな追跡フラグメントの前記データベースに移動するステップを含み、前記フレーム内でもフレーム数の第２の閾値以内の前のフレーム内でも検出されない任意のオブジェクトに対する前記追跡フラグメントは、サスペンドされた追跡フラグメントの前記データベースから削除される、請求項９に記載の装置。
前記ビデオ・フィードは複数のビデオ・フィードを含み、前記装置が前記ビデオ・フィードを受信し前記複数のフレームの各フレームを逐次的に処理することは、少なくとも、第１のビデオ・フィードおよび第２のビデオ・フィードの各々に対して前記ビデオ・フィードを受信し前記複数のフレームの各フレームを逐次的に処理するステップを含み、
少なくとも１つのオブジェクトが前記第１のビデオ・フィードのフレーム内および前記第２のビデオ・フィードのフレーム内で検出されたことに応答して、前記装置はさらに、前記第１のビデオ・フィードの前記フレーム内の前記オブジェクトに対する前記追跡フラグメントおよび前記第２のビデオ・フィードの前記フレーム内の前記オブジェクトに対する前記追跡フラグメントをリンクする、請求項７乃至１０の何れか１項に記載の装置。
前記複数のフレームの少なくとも１つのフレームはオクルージョンを含み、前記装置が前記フレーム内の前記複数のオブジェクトを検出することは、前記複数のオブジェクトの少なくとも１つの閉塞されたオブジェクトを検出するステップ、およびコンピュータビジョン、機械学習、および識別可能なオブジェクトの運動学的、視覚的、時間的または機械学習ベースの特徴の前記カタログを用いて前記閉塞されたオブジェクトを追跡フラグメントに割り当てるステップを含む、請求項７乃至１１の何れか１項に記載の装置。
コンピュータ可読プログラムを格納したコンピュータ可読記憶媒体であって、1つまたは複数のプロセッサにより前記プログラムが実行されると、請求項1から6のいずれか一項に記載の方法を装置に実施させることを特徴とするコンピュータ可読記憶媒体。
ビデオ・フィード内の自動化されたオブジェクト追跡のためのコンピュータプログラムであって、該コンピュータプログラムは、コンピュータ実行可能コードを含み、1つまたは複数のプロセッサにより実行されると、請求項1から6のいずれか1項に記載の方法を装置に実行させることを特徴とするコンピュータプログラム。