JP6875262B2

JP6875262B2 - モーションビデオにおいて事象を識別するための方法

Info

Publication number: JP6875262B2
Application number: JP2017231462A
Authority: JP
Inventors: ヴィクトルエドパルム，; エーリクアンデション，; ソンユアン，
Original assignee: アクシスアーベー
Priority date: 2016-12-21
Filing date: 2017-12-01
Publication date: 2021-05-19
Anticipated expiration: 2037-12-01
Also published as: US20180173956A1; TW201824085A; EP3340103A1; KR102264202B1; CN108229333A; JP2018142299A; KR20180072563A; US10824872B2; CN108229333B; TWI713794B

Description

本発明は、モーションビデオにおいて事象を識別するためのプロセスおよびデバイスに関する。

今日の監視および／またはモニタリングシステムは、動き、侵入、暴力行為、徘徊、置き去りにされた品物、その他などの事象を検出するように、度々構成される。モニターされる場面において発生する事象を、システムに検出させ、認識させることによって、このタイプの監視および／またはモニタリングシステムの動作が促進されるが、それは、多くの同時に調査される場面を有するシステムにおいてモニターするために要する人的資源がより少なくて済むからである。しかしながら、システムに事象を認識させ、検出させることは、多量の処理能力を要する。これについての１つの理由は、検出された、および／または認識される事象を示すために、空間的および時間的両方の、かなりの量の画像データを要することである。

本発明の１つの目的は、減少した量の処理能力および他のコンピューティングリソースを要する事象検出方法を提供することである。

本目的は、請求項１に記載の方法を用いて、かつ請求項１２に記載のシステムを用いて達成される。本発明のさらなる実施形態は、従属請求項に提示されている。

とりわけ、本発明のいくつかの実施形態によれば、モーションビデオカメラによって取り込まれた場面における事象を識別するための方法が、一時的識別プロセスおよび長期的識別プロセスの２つの識別プロセスを備える。一時的識別プロセスは、取り込まれた画像フレームからピクセルデータを分析することによって、取り込まれた場面における事象を識別することと、事象の識別の対象となる各画像フレームに関係するカメラ処理データを登録することと、登録されたカメラ処理データを入力として使用するように構成された事象識別動作に属する重みを調整することとを含み、ここで、重みは、事象識別動作からの結果と、取り込まれた場面の取り込まれた画像フレームからのピクセルの分析に基づいた識別からの結果との相関性を高めるために調整される。長期的識別プロセスは、登録されたカメラ処理データを事象識別動作に入力することによって、取り込まれた場面における事象を識別することを含む。さらに、一時的識別プロセスは、所定の時間期間の間に実行され、長期的識別プロセスは、あらかじめ決められた初期時間が終了した後に実行される。事象識別をカメラ処理データに基づかせる１つの利点は、処理されるデータの量が、画像を表すピクセルデータの場合よりもはるかに低量なので、事象検出のために要する処理能力が減少することである。その上、カメラ処理データは、モーションビデオカメラの周囲状況、およびモーションビデオカメラがどのように設置されているかということ、たとえば、高いところから見下ろしているのか、地上レベルの低さで見上げているのか、人の肩の高さにあるのか、場面における動きの移動方向にあるのか、場面における動きの移動方向に直交するのか、交通監視のためか、人々の動きを追跡するためか、街区にあるのか、駐車場にあるのか、ガレージにあるのか、店舗にあるのか、ショッピングモールにあるのか、道路横にあるのかなどに大いに依存していることがあるので、一時的識別プロセスにおいてそのモーションビデオカメラ用に提供された独自のトレーニングによって、長期的識別プロセスからの結果の品質が著しく高まる。したがって、特定の位置における個別のモーションビデオカメラ用の独自のトレーニングを用いて、減少した量のデータの使用が可能になる。したがって、初期のおよび独自のトレーニングと、次いでトレーニングおよび低データレートのカメラ処理データに基づいた事象識別との２つのステップのプロセスが、事象検出を低い処理能力要件で許容する結果に結びつく。したがって、事象識別は、限定されたコンピューティングリソースしか有さないモニタリングカメラによってもまた使用され得る。

さらに、いくつかの実施形態において、一時的識別プロセスは、モーションビデオカメラが初期にセットアップされるときに開始され、これらの実施形態またはいくつかの他の実施形態において、一時的識別プロセスは、要求により開始される。したがって、カメラ処理データを使用した事象検出動作のトレーニングは、そのカメラの環境用に独自にトレーニングされてよく、異なる環境に動かされた場合は、再トレーニングされてよい。一時的識別プロセスの開始を求める要求は、ユーザによってモーションビデオカメラに入力された命令であってよい。

さらなる実施形態において、一時的識別プロセスは、ネットワークを介してモーションビデオカメラに接続されたデバイスによって実行される。モーションビデオカメラにおけるこのことの利点は、低いコンピューティング容量または処理容量を有するモーションビデオカメラに対して、高いコンピューティング容量または処理容量のデバイス上で、一時的識別プロセスのトレーニングを実行できることである。

いくつかの実施形態において、事象識別動作に属する重みは、一時的識別プロセスの間に、ネットワークを介してモーションビデオカメラに接続されたデバイスに記憶される。これらの実施形態のうちのいくつかにおいて、事象識別動作に属する重みは、ネットワークを介してモーションビデオカメラに転送される。

さらなる実施形態において、カメラ処理データを入力として使用する事象識別動作の重みおよびコードは、長期的識別プロセスで、モーションビデオカメラにおいて実行される。このことの利点は、事象識別プロセスが、事象が識別されたときにのみ、モーションビデオカメラにネットワーク負荷を付与させることを可能にすることである。事象が存在しないとき、たとえば、送らなければならないデータが全くないときには、それに応じてネットワーク負荷を減少させることができ、事象が発生したことを識別するために送られるべき限定された量のデータのみを要するので、事象が検出されたときのネットワーク負荷もまた減少させることができる。

いくつかの実施形態は、長期的識別プロセスにおいて失敗した事象識別に応答して、一時的識別プロセスを再開することをさらに備える。

いくつかの実施形態において、登録されたカメラ処理データを入力として使用するように構成された事象識別動作に属する重みを調整することは、ニューラルネットワークトレーニングセッションの一部である。

他の実施形態において、事象識別動作は、ニューラルネットワークによって実施される。

本発明の別の態様によれば、通信ネットワークを介して通信するように構成されたモーションビデオカメラと処理デバイスとを含むシステムが、上の実施形態のうちのいずれかによる方法を実施するように構成される。上の実施形態に関して提示された利点は、システムに関係した対応する実施形態に適用可能である。

いくつかの実施形態において、処理デバイスは、一時的識別プロセスを実施するように構成される。他の実施形態において、モーションビデオカメラは、長期的識別プロセスを実施するように構成される。さらに他の実施形態において、処理デバイスは、長期的識別プロセスを実施するように構成される。本発明の適用可能性のさらなる範囲は、下で述べる詳細な説明から明らかになるであろう。しかしながら、当業者には、本発明の範囲内でのさまざまな変更および修正がこの詳細な説明から明らかとなるので、詳細な説明および個別の例は、本発明の好ましい実施形態を示すものの、例示のみとして述べられることが理解されるべきである。したがって、そのようなデバイスおよび方法は多様であってよいので、本発明は、説明されるデバイスの特定のコンポーネント部分、または説明される方法のステップには限定されないことを理解されたい。本明細書で使用される専門用語は、特定の実施形態を説明する目的のためのみであり、限定することを意図しないこともまた理解されたい。本明細書および添付の請求項において使用されるとき、冠詞「ａ」、「ａｎ」、「ｔｈｅ」、および「ｓａｉｄ」は、コンテキストが別段明白に指図しない限り、要素のうちの１つまたは複数が存在することを意味するように意図されることに留意しなければならない。よって、たとえば、「ａｓｅｎｓｏｒ」または「ｔｈｅｓｅｎｓｏｒ」への参照は、数個のセンサなどを含むことがある。さらに、単語「ｃｏｍｐｒｉｓｉｎｇ（備える）」は、他の要素またはステップを排除しない。

本発明の他の特徴および利点は、付属の図面を参照して、以下の現時点で好ましい実施形態の詳細な説明から明らかになるであろう。

本発明の実施形態のプロセスの流れ図である。本発明の実施形態を実装するシステムの概略ブロック図である。

さらに、図において、同様の参照文字は、数個の図面の全体を通して、同様のまたは対応する部分を指す。

本発明は、モーションビデオにおける事象の検出に関する。一実施形態によれば、事象の検出および識別は、直接画像データの代わりに、カメラ処理データに基づく。カメラ処理データは、具体例として、カメラによって取り込まれた符号化されたビデオストリームのデータレートを示す値、登録されたカメラ処理データの残りに関係した時間点、オートフォーカス距離を示す値、オートホワイトバランス機能の設定を示す値、オート露出設定、たとえば、絞り、シャッター時間、ゲイン、電子画像安定化データに関係した値、信号対ノイズ比の値、取り込まれたフレームにおけるコントラストを示す値、ネットワークに送られるデータレートを示す値、ＣＰＵ使用量を示す値、メモリ使用量を示す値、ジャイロまたは加速度計からのデータ、カメラに接続されたパンチルトズームヘッドからの位置データ、レーダセンサからのデータ、受動赤外線センサからのデータ、などであってよい。カメラ処理データは、代替として、または上で言及したものに加えて、上で言及した値のシーケンス、すなわち、露出カーブ、時間期間にわたるデータレートの変動を表すカーブ、オートフォーカスによって示される距離の変動を表すカーブなどから形成されてもよい。加えて、カメラの画像処理において実装される個別の画像符号化方式からの、最終的なおよび／または中間的な値の両方のさまざまな値が、カメラ処理データを表していることがある。上のカメラ処理データの例から明白であるように、全体のフレームを表す画像ピクセルデータの代わりにカメラ処理データを使用するとき、処理するためのデータの量を著しく減少させることができる。

カメラ処理データを使用して事象を検出するためのプロセスの設計を促進するために、分類のために設計されたニューラルネットワークが、カメラ処理データを入力として使用して事象を検出するようにトレーニングされる。そのようなニューラルネットワークの例は、分類のために設計されたニューラルネットワーク、分類のために設計された畳み込みニューラルネットワーク、リカレントニューラルネットワーク、リカーシブニューラルネットワーク、ディープビリーフネットワーク、Ｂｏｌｔｚｍａｎｎマシン、などである。

一般的な分類ニューラルネットワークを、さまざまなカメラにおける、または処理に基づいた、事象検出器として使用するようにトレーニングすることの１つの問題は、データのうちのいくつかがすべてのカメラにおいて入手可能ではないこと、およびデータのうちのいくつかが異なるカメラ間で極めて多様であり得ることである。異なるカメラ間でのばらつきの１つの理由は、カメラが、異なる環境において、異なるビュー角度で、異なる光条件などで設置されていること、および／または、カメラが異なるカメラであることである。

本発明の一実施形態によれば、この問題は、２つのステップの事象検出プロセスを実装することによって対処される。初期の一時的識別プロセスの間に、取り込まれたフレームにおけるピクセル情報に基づいて、取り込まれた画像フレームにおける事象を識別するためによく知られた事象識別プロセスが使用され、すなわち、取り込まれた場面において発生する事象を識別するために、画像フレームのシーケンスにおいて取り込まれたピクセルデータが分析される。同時に、この一時的識別プロセスでは、一組のさまざまなカメラ処理データが登録される。登録されたカメラ処理データは、ピクセルデータに基づいて事象を識別するプロセスで識別されたのと同じ識別された事象に達するように、ニューラルネットワークをトレーニングするための入力として使用される。この一時的識別プロセスは、ニューラルネットワークが受け入れ可能な信頼水準に届いたとき、またはオペレータがプロセスに停止するように告げたときに、終了する。一時的識別プロセスが停止したとき、事象識別は、トレーニングされたニューラルネットワークによって続行され、ニューラルネットワークは、長期的識別プロセスにおける入力としてのカメラ処理データを受信している。

本発明のいくつかの実施形態によれば、事象識別プロセスは、図１の流れ図で説明されるように実施される。事象を識別するための方法は、一時的識別プロセス１０２で開始され、このプロセスでは、ステップ１０４で、場面の１つの画像フレーム、または取り込まれた画像フレームのシーケンスのピクセルデータ上で動作させることによって、取り込まれた場面における事象が識別される。さらに、ステップ１０６で、事象を識別するのに使用される取り込まれた１つまたは複数のフレームに対応する時間期間に関係するカメラ処理データが登録される。次いで、ステップ１０８で、登録されたカメラ処理データが、ニューラルネットワークを基にした事象識別動作のトレーニングにおける入力として使用され、ピクセルを基にした事象識別動作から識別された事象が、登録されたカメラ処理データのこの入力から生じた事象の適正な分類として使用される。トレーニング動作は、ニューラルネットワークのノードにおける重みの調整を含むことができる。カメラ処理データの入力から生じた分類が、ピクセルを基にした事象識別動作によって識別された分類に近くなるように、重みが調整される。次いで、ステップ１１０で、一時的識別プロセスのための既定の時間期間が終了するかどうかを確認することによって、プロセスは継続する。一時的識別プロセスのための時間期間が終了していない場合、プロセスは、ステップ１０４に戻り、一時的識別プロセスにおいて継続する。一時的識別プロセスのための時間期間が終了している場合、プロセスは、ステップ１１４で、次の画像フレームを取り込み、ステップ１１６で、その画像フレームの取り込みの時間期間に関係するカメラ処理データを登録することによって、長期的識別プロセスにおいて継続する。次いで、ステップ１１８で、取り込まれた画像フレームの時間期間に関係するカメラ処理データが、ニューラルネットワークを基にした事象識別動作に、入力として送られる。ニューラルネットワークを基にした事象識別動作への入力は、代替として、またはそれに加えて、１つの画像フレームの時間期間よりも長い時間期間に関係するカメラ処理データを含んでもよく、たとえば、より長い時間期間にわたって拡大したカメラ処理データのより多いサンプルを含んでもよい。次いで、ステップ１２０で、プロセスは、追加のトレーニングを求める要求が受信されているかどうかを確認する。追加のトレーニングを求める要求が受信されていない場合、長期的識別プロセス１１２は、プロセス１１４に戻ることによって継続する。追加のトレーニングを求める要求が受信されている場合、プロセスは、一時的識別プロセスのステップ１０４に戻る。

実装されるニューラルネットワークは、具体例として、リカレントニューラルネットワーク（ＲＮＮ）であってよく、そのようなＲＮＮのために使用される学習アルゴリズムは、バックプロパゲーションまたは共役勾配などの学習アルゴリズムであってよい。カメラ処理データは、時系列として見なされてよく、最初にトレーニングされ、後で事象の分類のために処理される。既存のＲＮＮの実装の多くが、一変量の時系列および／または多変量の時系列を処理することができ、すなわち、ＲＮＮは、１つの成分および／または多数の成分を保有するベクトルのシーケンスを処理することができる。たとえば、一変量の時系列の処理は、符号化されたビデオストリームのデータレートを示す値のシーケンスの処理であってよい。多変量の時系列の処理の例はその場合、ベクトルのシーケンスの処理であってよく、ここでは各ベクトルが、符号化されたデータストリームのデータレートを示す値、およびホワイトバランスを示す値を含む。カメラ処理データの任意の組合せが可能であり、組合せは、２つの異なるデータタイプのみを組み合わせることに限定されるべきではなく、複数のデータタイプを非常に首尾よく組み合わせることができる。説明される方法はまた、時系列ではないデータ上で使用されてもよく、そのようなケースでは、方法は、その特定の分類動作のために好適なニューラルネットワークを使用していることがある。

次に図２を参照すると、本発明の実施形態によるシステムが、以下でネットワーク２１４と呼ぶ通信ネットワーク２１４を介して互いに接続された、モーションビデオカメラ２１０と、処理デバイス２１２とを備える。処理デバイス２１２は、具体例として、ＰＣ、ワークステーション、サーバ、またはデータを処理するように可能にする任意の他のタイプのネットワーク接続可能なデバイスであってよい。ネットワーク２１４は、任意のタイプのネットワーク、たとえば、イーサネット、Ｗｉ−Ｆｉ、ＬＡＮ、ＷＡＮ、インターネット、セルラー接続、公衆交換電話ネットワークなどであってよい。２つの識別プロセス、一時的識別プロセス１０２および長期的識別プロセス１１２は、２つのデバイス、すなわち、モーションビデオカメラ２１０および処理デバイス２１２のうちのいずれか１つにおいて実施されるように構成されてよい。モーションビデオカメラが多量の予備処理能力を有するケースでは、モーションビデオカメラが両方のプロセスを実行することができる。この処理能力に関して、モーションビデオカメラがその容量において非常に限定されている実施形態においては、両方のプロセスが処理デバイス２１２において実行されてもよく、処理デバイス２１２はその場合、モーションビデオカメラから、動作させるためのデータを受信している。このケースにおいて、本発明のプロセスを使用する利益は、長期的識別プロセスがいかなる画像データも要さないので、事象識別プロセスが一時的識別プロセスをスイッチオフにしたときに、ネットワーク負荷を減少させることができることであり、そのようなデータは、その段階では必ずしもカメラによって送信されない。

さらに別のシナリオにおいて、ニューラルネットワークの学習段階および全体の画像フレームの分析を含む一時的識別プロセスは、それに応じて、２つの識別プロセスのうち最も多くの処理を要しているプロセスであり、したがって、処理デバイス２１２において実行されるように構成される。一方長期的識別プロセスは、はるかに少ない処理しか要さないので、このプロセスはモーションビデオカメラにおいて実行され、その場合、とりわけ長期において、カメラによってネットワークに送信されるデータの量を非常に減少させることができ、なぜなら、事象が検出されない限り、モーションビデオカメラはデータを送ることを回避してよいからである。

いずれにせよ、モーションビデオカメラは、レンズ２１６と、画像センサ２１８と、画像処理ユニット２２０とを含み、これらはその組合せにおいて、カメラビューの場面において光を取り込み、その光からデジタル画像データを生成するように構成される。多くのモーションビデオカメラにおいて、取り込まれたデジタル画像データの圧縮および符号化は、画像処理デバイスにおいて実施される。さらに、モーションビデオカメラ２１０は、モーションカメラデバイスのより一般的な機能に関係したプログラムを実行するように構成された中央処理ユニット２２２を含む。画像処理は、画像処理デバイスによって処理されるので、中央処理ユニット２２２は、通常、そのような動作には関わらない。モーションビデオカメラはまた、揮発性メモリ２２４と、不揮発性メモリ２２６とを含み、揮発性メモリ２２４は、主として、処理デバイスによる実行中、データおよび／またはプログラムコードの一時的な記憶のための作業メモリとして使用され、不揮発性メモリ２２６は、モーションビデオカメラに長期間記憶されることになるデータおよびコードの記憶のために構成される。さらに、モーションビデオカメラ２１０は、カメラ処理データ登録モジュール２２８と、事象識別動作モジュール２３０と、ネットワークインターフェース２３２とを含む。カメラ処理データ登録モジュール２２８は、カメラ処理データを、モーションビデオカメラにおけるさまざまな物理的および／または論理的インターフェースから取り出す、または受信するように構成される。たとえば、生成された画像ストリームの現在のデータレートは、画像プロセッサ２２０から、またはネットワークインターフェース２３２から取り出すことができ、温度は、カメラにおける温度センサへのインターフェースから受信することができる、などである。事象識別動作モジュール２３０は、処理デバイス２１２上で稼働していてよい一時的識別プロセスが、登録されたカメラ処理データを使用するように構成された事象識別動作を調整することを済ませるまで、たとえば、カメラ処理データを入力として使用して動作するニューラルネットワークを調整することを済ませるまでは、モーションビデオカメラ２１０に存在しなくてもよい。ネットワークインターフェース２３２は、カメラをネットワーク２１４に接続するための、任意の知られたタイプのネットワークインターフェースであってよい。

処理デバイス２１２もまた、ネットワークインターフェース２３４と、不揮発性メモリ２３６と、揮発性メモリ２３８と、中央処理ユニット２４０とを含む。ネットワークインターフェース２３４は、処理デバイスをネットワークに接続するように構成され、ネットワーク２１４を通じたモーションビデオカメラ２１０へのネットワーク通信を達成するために、任意の知られたやり方で実装されてよい。中央処理ユニット２４０、揮発性メモリ２３８、および不揮発性メモリ２３６は、プログラムコードを実行し、一時的なデータおよび／またはプログラムコードを記憶し、長期的なデータおよび／またはプログラムコードを記憶するように構成される。さらに、処理デバイス２１２は、ピクセルを基にした事象識別動作モジュール２４２と、事象識別動作トレーニングモジュール２４４とを含む。ピクセルを基にした事象識別動作モジュール２４２、および事象識別動作トレーニングモジュール２４４は、中央処理ユニット２４０によって、処理デバイス２１２において記憶され、実行されるプログラムコードとして実装されてよい。

ピクセルを基にした事象識別動作は、画像フレームにおけるピクセルおよびピクセルの特性を分析することによって、一度に１つの画像フレーム上で、または一度に画像フレームのシーケンスで動作している、１つまたは複数のよく知られた事象識別動作を含むことができる。画像フレームは、モーションビデオカメラによって取り込まれた画像フレームであり、処理デバイス２１２で一時的プロセスが実施されるシステムにおいては、これらの取り込まれた画像フレームが、ネットワークを通じて処理デバイス２１２に送られる。ピクセルを基にした事象識別動作の例は、場面に到来する乗り物、場面に到来する乗り物のタイプ、場面に到来する乗り物のスピード、場面に到来する乗り物の数などである。ピクセルを基にした事象識別動作はまた、もしくはそれに代えて、場面に到来する人、場面に到来する動物、場面に到来する個別のオブジェクトなどに関係してもよく、上の乗り物について提示したバリエーションもまた含むことができる。さらに、ピクセルを基にした事象識別動作は、モーションが場面に発生したこと、徘徊、大群衆の集まり、交通渋滞、降雪、降雨、煙霧、および筐体の汚れ、ピントが外れたレンズ、異常のせいで劣化した画像などを識別することを含むことができる。

一時的プロセスが処理デバイスにおいて実施される図２に図示されたシステムにおいて、カメラは、少なくとも一時的プロセスの実行の間に、取り込まれた場面の画像フレームを含むビデオストリームと、モーションビデオカメラおよび／またはセットアップに関連したカメラ処理データとを送信する。動作させるためにどのタイプのカメラ処理データを選択するかは、さまざまなカメラ処理データの入手可能性により限定され、特定のカメラにおける上の例を参照されたい。さらに、カメラ処理データのタイプがさらに限定されることもある。しかしながら、特定のカメラについてのカメラ処理データを表す全体の入手可能なデータセットは比較的小さい可能性が高いので、全体のセットをしばしば使用することができる。事象識別動作を表すニューラルネットワークのトレーニングは、トレーニング入力をトリガすると、ピクセルを基にした事象識別動作を使用することによって実行される。すなわち、ある事象がピクセルを基にした事象識別動作によって識別されるとき、入力されたカメラ処理データを、ピクセルを基にした事象識別動作によって検出された事象と同じ事象として、より高い可能性でニューラルネットワークに識別させるために、ニューラルネットワークをトレーニングするプロセスは、トレーニングプロセスに対する識別よりも前の時間期間を表すカメラ処理データを入力として構成し、トレーニングプロセスでニューラルネットワークの重みを調整する。

システムの追加的なトレーニングは、上で説明したように始めることができ、それに応じて、一時的識別プロセスの再開を含むことができる。加えて、または代替として、事象識別動作が事象を分類し、あらかじめ決められた閾値よりも低い個別の分類について事象識別動作によって生成された信頼値をもたらすことに応答して、カメラ処理データを入力として使用するように構成された事象識別動作のさらなるトレーニング、またはさらなる向上を始めることができる。信頼値が低いほど、分類はより不確実である。そのようなさらなるトレーニングは、ピクセルデータと、低い信頼の分類を得る事象についての時間点を含む時間期間に関係するカメラ処理データとを取り出すことによって開始されることになる。これらのデータセットは次いで、事象識別動作を向上させるために、トレーニング動作によって、すなわち、ピクセルを基にした事象識別動作および事象識別動作の重みを調整するプロセスによって、処理されることになる。次いで、向上した事象識別動作が、それ以前の事象識別動作に取って代わるように構成される。

先に言及したように、カメラ処理データに基づいて事象を識別する利点は数多い。そのような利点の理解を促進するために、時間的に圧縮されたビデオの画像ストリームデータレートを本発明におけるカメラ処理データとして使用することを、以下でもう少し詳細に説明することにする。画像ストリームデータレートは、事象検出が所望される場面のモーションビデオを取り込んでいるカメラ２１０の画像処理デバイス２２０において、時間的に圧縮するビデオ符号器によって生成されたデータの量を表す基準である。符号器によって生成されたデータの量は、連続して取り込まれた画像フレーム間での変化量に依存する。たとえば、本質的に動いているオブジェクトを有さない場面の画像シーケンスは、多量の動きを有する場面の画像シーケンスよりも、少ない符号化されたデータをもたらすことになる。したがって、符号化ステップ後のデータの量は、連続して取り込まれた画像における変動に激しく依存する。これはまた、符号器によって生成されている符号化された画像データの量が、場面における動きによって影響される画像センサ上のピクセルの数に依存しているものとして説明することができる。具体例として、カメラに近いオブジェクトまたは場面の中の大きなオブジェクトは、カメラから遠いオブジェクトまたは小さなオブジェクトよりも、画像センサ上の多くのピクセルにインパクトを有することになる。それに応じて、データの量は、画像情報の時間的圧縮の効果となる。

本発明の実施形態によれば、モニターされる場面のモーションビデオを含む、データストリームにおける単位時間あたりのデータ量を表す複数のデータレートが、測定され、順次登録され、カメラ処理データに含まれる。それにより、経時的にデータレートの変動を表すデータセットが登録される。データレートは、システムのさまざまな場所から、測定する、または取り出すことができる。たとえば、データレートは、カメラ２１０の画像処理デバイス２２０における符号器で、カメラのネットワークインターフェース２３２で、ネットワーク２１４におけるスイッチもしくはルータで、またはネットワーク２１４に接続された処理デバイス２１２におけるネットワークインターフェース２３４もしくは復号器で、測定する、または取り出すことができる。データレートは、画像ストリームを表すストリーム上で直接測定することができるが、モーションビデオを送信するネットワークパケットのデータレートを測定することによってもまた測定することができる。データストリームの、または任意のデータ送信のデータレートを測定するプロセスは、当業者によく知られている。経時的にデータレートを表すデータセットは、とりわけモーションビデオストリームを表すのに要するデータと比較して、非常に低いデータの量を使用して表すことができる。たとえば、経時的にデータレートの変動を表すデータセットに、画像ストリームにおける各画像を表すのに使用されるデータの量を表す値またはデータエントリを含めることを考えてみたい。カメラが１０メガピクセルカメラである場合、イントラフレーム、すなわち空間的に符号化されたイントラフレームのサイズは、標準的な符号器のいずれかを使用して、およそ２．５ＭＢとなる。ロスレス符号化方式を使用して１０メガピクセルフレームが符号化されるとしても、１０ＭＢよりもはるかに大きいサイズを有することにはならない。０ＭＢ〜１０ＭＢの間のあらゆるサイズを表す値またはデータエントリを登録するために、必要となるのはほんの３バイトにすぎず、なぜなら３バイトは、１６００万を超える値を表すことができることになるからである。データレートの分解能がそれほど重要ではないケースでは、２または１バイトを使用してデータレートを表すことさえ可能であることがある。ともかく、データセットにおいてデータレートを表すのに必要とされるデータは、１つのイントラフレームを表すために使用されるデータよりも、優にほぼ１００万倍は少なくてよい。ストリーミングビデオにおいて、インターフレームは時間的に符号化されているので、フレームあたりに使用されるデータは当然より少ないことになる。しかしながら、使用されるデータセットは、あらゆるフレームのサイズを含む必要はなくてもよく、所定の時間期間にわたって蓄積されたデータ量を表すことができる。一実施形態において、フレームサイズは、データレートの表現として登録される。フレームサイズは、フレームを符号化するのに必要とされるデータの量を示す。フレームサイズは、４バイト（３２ビット）を使用して登録され、フレームサイズは、フレームごとに登録される。フレームは、１秒あたり３０フレームで取り込まれ、それに応じて、事象の検出のために本発明によって使用されるデータは、本実施形態において、０．１２Ｋｂ／ｓであってよい。これは、通常のモーションビデオストリームの６０００Ｋｂ／ｓのデータレートよりもはるかに低い。

それに応じて、本発明によるシステムが長期的識別プロセスに切り替えたとき、事象を検出するために要するデータの量の極端な減少は、ピクセルを基にした事象検出動作に比べて、事象識別動作の処理能力要件に著しく影響を及ぼすことになる。事象識別動作が追加的な情報のタイプを入力として有するように設計されているとしても、上で言及したように、これらの追加のデータセットは、画像フレームまたは画像フレームのシーケンスを表すのに必要とされるデータ量に比べて、依然として非常に少ないことになる。

１０２一時的識別プロセス
１１２長期的識別プロセス
２１０モーションビデオカメラ
２１２処理デバイス
２１４通信ネットワーク
２１６レンズ
２１８画像センサ
２２０画像処理ユニット、画像プロセッサ、画像処理デバイス
２２２中央処理ユニット
２２４揮発性メモリ
２２６不揮発性メモリ
２２８カメラ処理データ登録モジュール
２３０事象識別動作モジュール
２３２ネットワークインターフェース
２３４ネットワークインターフェース
２３６不揮発性メモリ
２３８揮発性メモリ
２４０中央処理ユニット
２４２ピクセルを基にした事象識別動作モジュール
２４４事象識別動作トレーニングモジュール

Claims

一時的識別プロセスおよび長期的識別プロセスを備える、モーションビデオカメラによって取り込まれた場面における事象を識別するための方法であって、
前記一時的識別プロセスが、
取り込まれた画像フレームからピクセルデータを分析することによって、前記取り込まれた場面における事象を識別することと、
前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録することであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、信号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置（ＣＰＵ）使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム（ＰＴＺ）ヘッドからの位置データのうちの少なくとも１つを含む、カメラ処理データを登録することと、
事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングすることと
を含み、
前記長期的識別プロセスが、
ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録することと、
ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別することと
を含み、
前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、
方法。
前記ニューラルネットワークを基にした事象識別動作を前記トレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項１に記載の方法。
前記重みが、前記一時的識別プロセスの間に、ネットワークを介して前記モーションビデオカメラに接続されたデバイスに記憶される、請求項２に記載の方法。
前記重みが、前記ネットワークを介して前記モーションビデオカメラに転送される、請求項３に記載の方法。
前記一時的識別プロセスが、要求により開始される、請求項１に記載の方法。
前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項５に記載の方法。
前記一時的識別プロセスが、ネットワークを介して前記モーションビデオカメラに接続されたデバイスによって実行される、請求項１に記載の方法。
前記ニューラルネットワークを基にした事象識別動作の重みおよびコードが、前記長期的識別プロセスで、前記モーションビデオカメラにおいて実行される、請求項１に記載の方法。
前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開することをさらに備える、請求項１に記載の方法。
通信ネットワークを介して通信するように構成されたモーションビデオカメラと処理デバイスとを含むシステムであって、
前記処理デバイスは一時的識別プロセスを使用するように構成されており、前記処理デバイスは、
前記処理デバイスの中央処理装置（ＣＰＵ）に動作可能に連結された前記処理デバイスのネットワークインターフェースであって、前記処理デバイスの前記ネットワークインターフェース及び前記処理デバイスの前記ＣＰＵは、取り込まれた画像フレームからピクセルデータを分析することによって、前記モーションビデオカメラによって取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース、及び
前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録するように構成された前記処理デバイスの前記ＣＰＵであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、信号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置（ＣＰＵ）使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム（ＰＴＺ）ヘッドからの位置データのうちの少なくとも１つを含む、前記ＣＰＵ、及び
事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングするように構成された、前記ＣＰＵ
を備え、
前記モーションビデオカメラは長期的識別プロセスを使用するように構成されており、前記モーションビデオカメラは、
ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録するように構成された、前記モーションビデオカメラのＣＰＵ、及び
前記モーションビデオカメラの前記ＣＰＵに動作可能に連結された前記モーションビデオカメラのネットワークインターフェースであって、前記モーションビデオカメラの前記ネットワークインターフェース及び前記モーションビデオカメラの前記ＣＰＵは、ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース
を備え、
前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、システム。
前記ニューラルネットワークを基にした事象識別動作をトレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項１０に記載のシステム。
前記一時的識別プロセスが、要求により開始される、請求項１０に記載のシステム。
前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項１２に記載のシステム。
前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開するように構成された前記処理デバイスをさらに備える、請求項１０に記載のシステム。
モーションビデオカメラであって、
前記モーションビデオカメラは一時的識別プロセスを使用するように構成されており、前記モーションビデオカメラは、
中央処理装置（ＣＰＵ）に動作可能に連結されたネットワークインターフェースであって、前記ネットワークインターフェース及び前記ＣＰＵは、取り込まれた画像フレームからピクセルデータを分析することによって、前記モーションビデオカメラによって取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース、
前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録するように構成された前記ＣＰＵであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、信号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置（ＣＰＵ）使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム（ＰＴＺ）ヘッドからの位置データのうちの少なくとも１つを含む、前記ＣＰＵ、及び
事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングするように構成された、前記ＣＰＵ
を備え、
前記モーションビデオカメラは長期的識別プロセスを使用するように構成されており、前記モーションビデオカメラはさらに、
ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録するように構成された、前記ＣＰＵ、及び
ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別するように構成された、前記ネットワークインターフェース及び前記ＣＰＵ、
を備え、
前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、モーションビデオカメラ。
前記ニューラルネットワークを基にした事象識別動作をトレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項１５に記載のモーションビデオカメラ。
前記一時的識別プロセスが、要求により開始される、請求項１５に記載のモーションビデオカメラ。
前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項１７に記載のモーションビデオカメラ。
さらに、前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開するように構成されている、請求項１５に記載のモーションビデオカメラ。
処理デバイスであって、
前記処理デバイスは一時的識別プロセスを使用するように構成されており、前記処理デバイスは、
中央処理装置（ＣＰＵ）に動作可能に連結されたネットワークインターフェースであって、前記ネットワークインターフェース及び前記ＣＰＵは、取り込まれた画像フレームからピクセルデータを分析することによって、モーションビデオカメラによって取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース、
前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録するように構成された前記ＣＰＵであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、信号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置（ＣＰＵ）使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム（ＰＴＺ）ヘッドからの位置データのうちの少なくとも１つを含む、前記ＣＰＵ、及び
事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングするように構成された、前記ＣＰＵ
を備え、
前記処理デバイスは長期的識別プロセスを使用するように構成されており、前記処理デバイスはさらに、
ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録するように構成された、前記ＣＰＵ、及び
ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別するように構成された、前記ネットワークインターフェース及び前記ＣＰＵ、
を備え、
前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、処理デバイス。
前記ニューラルネットワークを基にした事象識別動作をトレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項２０に記載の処理デバイス。
前記一時的識別プロセスが、要求により開始される、請求項２０に記載の処理デバイス。
前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項２２に記載の処理デバイス。
さらに、前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開するように構成されている、請求項２０に記載の処理デバイス。