JP7654530B2

JP7654530B2 - 画像フレームのストリームを生成するための方法およびシステム

Info

Publication number: JP7654530B2
Application number: JP2021190667A
Authority: JP
Inventors: ニクラスダニエルソン，; シンダニエルソンファン，
Original assignee: アクシスアーベー
Priority date: 2020-12-07
Filing date: 2021-11-25
Publication date: 2025-04-01
Anticipated expiration: 2041-11-25
Also published as: EP4009635C0; EP4009635B1; CN114666591A; KR20220080695A; TWI873391B; KR102844729B1; US20220182625A1; JP2022090619A; EP4009635A1; US11627318B2; TW202231068A

Description

本発明は、ビデオ符号化に関し、より詳細には、帯域幅効率的な様式でビデオのストリームを生成することに関する。

監視カメラなどのカメラが、様々な環境を監視するために、屋内および屋外の両方で、多くの異なる応用において使用される。キャプチャされたシーンを描く画像は、たとえばオペレータまたは警備員によって監視され得る。多くの状況では、キャプチャされた画像中のあるオブジェクトが、オペレータにとって他のものよりも関心のあるものであり得る。たとえば、監視カメラのオペレータは、人間の活動には非常に関心があり得るが、動物、通り過ぎる車両または風で動く木など、画像中の動くかまたは変化するが重要でない他のオブジェクトにはあまり関心がないことがある。

しかしながら、従来のエンコーダは、一般に、オペレータの関心にかかわらず、同じやり方でビデオストリームの画像フレーム全体を符号化する。その結果、画像フレームの「あまり関心を引かない」部位は、しばしば、特に動くオブジェクトによる小さな変化がバックグラウンド中にあるとき、帯域幅の有意な要因となる。これはまた、画像またはビデオストリーム中の最も「関心を引く」情報のみが保たれる場合に必要と考えられるよりも高いストレージ使用につながり得る。そのため、監視カメラによって使用される帯域幅および長期保存のためのストレージ要件をさらに低減する、ビデオ符号化に対する解決策を見つけることは興味深いことであろう。

第１の態様によれば、本発明は、符号化システムにおける、画像フレームのストリームを生成するための方法に関する。方法は、
●画像フレームのストリーム中の画像フレームを、１つまたは複数のバックグラウンドセグメントおよび１つまたは複数のインスタンスセグメントにセグメント化することと、
●１つまたは複数のバックグラウンドセグメントを包含するバックグラウンド画像フレームを作成することと、
●１つまたは複数のインスタンスセグメントのうちの少なくともいくつかを、関心可動オブジェクト、および非関心可動オブジェクトに分類することと、
●バックグラウンド更新期間中に、非関心可動オブジェクトが（さらなる）バックグラウンドエリアをあらわにするように動いたとき、バックグラウンド画像フレーム中に、あらわにされた／さらなるバックグラウンドエリアを含めるようにバックグラウンド画像フレームを更新することと、
●関心可動オブジェクトを包含するフォアグラウンド画像フレームを作成することと、
●更新されたバックグラウンド画像フレームのピクセルのブロックを符号化することと、
●フォアグラウンド画像フレームのピクセルのブロックを符号化することと、
●第１のフレームレートを有する、符号化されたフォアグラウンド画像フレームのストリームを生成することと、
●第１のフレームレートよりも低い第２のフレームレートを有する、符号化された更新されたバックグラウンド画像フレームのストリームを生成することと
を備える。

この方法は、オペレータにとって関心のある情報のみが、高い画像フレームレート、たとえば、毎秒３０画像フレームでストリーミングされるのに対して、オペレータにとってほとんどまたはまったく関心のない情報は、毎分１画像フレームなど、はるかに低いレートでストリーミングされるので、従来の符号化が使用されるときと比較して、ストリーミングビデオのために必要とされるストリーミング帯域幅を低減する。バックグラウンドが低いビットレートでストリーミングされるので、たとえば、夜から昼にかけてのゆっくりとした遷移、または晴れから曇りになること、または街灯が夕方に点灯されたとき、などによる光の変化などの、シーンのゆっくりとした全体的な変化を捕らえることも可能である。これは、完全に固定されたバックグラウンドを有するものと比較して、より良く全体的なシーンをオペレータが理解するのを助け、光の情景が、２つのストリームの間で概ね同じになるように更新されることを保証する。さらに、オペレータが知的に処理する必要がある情報（すなわち、画像データ）の量を低減することによって、オペレータは、サーベイランスの状況の最も重要な面に自分の注意を集中させ、あらゆる潜在的危険または脅威をより正確に検出することができる。またさらに、ビットレートを低減することはまた、節約された帯域幅がインスタンスセグメントを強化するために使用され得るので、考慮中の特定の使用事例に最適な視覚的品質を提供することを可能にする。バックグラウンドセグメントは、バックグラウンドエリアであり得、インスタンスセグメントは、オブジェクト検出によって検出されたオブジェクトであり得る。関心可動オブジェクトは、ユーザにとって関心のある可動オブジェクトであり得、非関心可動オブジェクトは、ユーザにとって関心のない可動オブジェクトであり得る。

一実施形態によれば、画像フレームのセグメント化は、パノラマ的セグメント化を使用して行われ、画像フレーム中のピクセルは、特定のタイプのオブジェクトのグループを含む領域を表すバックグラウンドセグメントに割り当てられるか、または個々のオブジェクトを表すインスタンスセグメントに割り当てられるかのいずれかである。パノラマ的セグメント化は、当業者にとってよく知られている技法であり、インスタンスセグメント化（すなわち、画像中の個々のインスタンスの識別およびセグメント化）と、セマンティックセグメント化（すなわち、画像中のピクセルを（具体的なインスタンスではなく）ピクセルが属するクラスに基づいてセグメント化すること）との組合せとして説明され得る。パノラマ的セグメント化は、それゆえ、画像の一部分（たとえば、バックグラウンド）が、符号化および送信に関して個々のオブジェクト（たとえば、関心オブジェクトおよび／または非関心オブジェクト）とは異なって扱われるべきである、このタイプの応用に特によく役立つ。これは、様々な目的のためにパノラマ的セグメント化をすでに使用し得る既存のシステムとの、本発明の統合を容易にする。

一実施形態によれば、方法は、オブジェクトタイプのリストからのユーザ選択を受け取ることであって、ユーザ選択は、どのタイプのオブジェクトが関心可動オブジェクトと見なされるべきであり、どのタイプのオブジェクトが非関心可動オブジェクトと見なされるべきであるかを示す、ユーザ選択を受け取ることをさらに備える。どのオブジェクトが関心可動オブジェクトであり、どのオブジェクトが非関心可動オブジェクトであるかを選択する能力を有することは、この決定が時刻または週の時間に基づいて変化し得るので、オペレータに大きな汎用性を提供する。たとえば、通常の営業時間中に店先を見るために立ち止まる人物は、オペレータにとって追跡するのにそれほど関心を引かないことがあるのに対して、朝の午前３時に同じ挙動を呈する人物は、オペレータのより周到な注意の根拠となり得る。よって、そのような場合、人間は、（オペレータの関心は時刻に応じて変動し得るが）関心可動オブジェクトとして選択され得る。しかしながら、同じ店先の外に座る犬は、時刻にかかわらず、非関心可動オブジェクトと見なされやすい可能性がある。さらに、考えられるオブジェクトタイプのリストを提供することによって、ユーザは、限られた通覧しやすいオブジェクトの選択を提示され得る。たとえば、ボートを識別することが可能である場合でも、一般に、店先の外でボートを見つける状況はなく、そのため、システムがその能力を有し得ても、ボートは、オペレータが関心可動オブジェクトを選択することができるリスト上に含まれる必要はない。

一実施形態によれば、関心可動オブジェクトは、人間、車両、武器、バッグ、およびフェイスマスクのうちの１つまたは複数を含む。あらゆるサーベイランスの状況は固有であるが、このリストは、一般的なサーベイランスの状況における、より一般的な関心可動オブジェクトのうちのいくつかを表す。これらのオブジェクトのうちのいくつかは、オブジェクトだけでは可動でないことがあるが、人間によって作用されたとき、可動であり得る。たとえば、自転車は、自転車だけでは関心可動オブジェクトでないことがあるが、サーベイランス下にあるエリア中に人によって乗り入れられた自転車は、関心可動オブジェクトと見なされる可能性が非常にある、などである。

一実施形態によれば、非関心可動オブジェクトの動きは、バックグラウンド更新期間中にモーションおよびオブジェクト検出器によって追跡され、バックグラウンド画像フレームは、バックグラウンド更新期間の満了の前に数回更新される。モーションおよびオブジェクト検出は、当業者に知られる様々な深層学習アルゴリズムを使用して成し遂げられ得る。これらの技法の非網羅的リストは、領域ベース畳み込みネットワーク（Ｒ－ＣＮＮ）、ファスト領域ベース畳み込みネットワーク（ＦａｓｔＲｅｇｉｏｎ－ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）（ファストＲ－ＣＮＮ）、ファスター領域ベース畳み込みネットワーク（ＦａｓｔｅｒＲｅｇｉｏｎ－ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）（ファスターＲ－ＣＮＮ）、領域ベース完全畳み込みネットワーク（Ｒｅｇｉｏｎ－ｂａｓｅｄＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）（Ｒ－ＦＣＮ）、ユーオンリールックワンス（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）（ＹＯＬＯ）、シングルショット検出器（Ｓｉｎｇｌｅ－ＳｈｏｔＤｅｔｅｃｔｏｒ）（ＳＳＤ）、ニューラルアーキテクチャ探索ネット（ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈＮｅｔ）（ＮＡＳＮｅｔ）、およびマスク領域ベース畳み込みネットワーク（マスクＲ－ＣＮＮ）を含む。これらの各々の説明は、さらなる詳細なソースへの言及とともに、ｈｔｔｐｓ：／／ｍｅｄｉｕｍ．ｃｏｍ／ｚｙｌａｐｐ／ｒｅｖｉｅｗ－ｏｆ－ｄｅｅｐ－ｌｅａｒｎｉｎｇ－ａｌｇｏｒｉｔｈｍｓ－ｆｏｒ－ｏｂｊｅｃｔ－ｄｅｔｅｃｔｉｏｎ－ｃ１ｆ３ｄ４３７ｂ８５２において見つけられ得る。

たとえば、非関心移動オブジェクトが、壁の前に座っている犬であると仮定する。犬が動いたとき、犬によって以前は隠されていた壁の部位があらわにされ、バックグラウンドフレームがオペレータに送られるとき、犬がいたところに「ぽかりとあいた穴」ではなく壁を示すように埋められる必要がある。バックグラウンド更新期間が１分である場合、たとえば、犬は、数回動き、犬が最新のバックグラウンド更新期間の満了時にいたところと比較して、画像フレームのまったく異なる部分にいることになることがある。これは、オペレータにとってぎこちなく見えることがあり、（特に）その理由のために、バックグラウンド更新期間中に数回バックグラウンドフレームを更新することが有利である。さらに、犬が、更新時間中に、シーンを離れ、バックグラウンド全体をあらわにするほど十分に動いた場合、犬は、レンダリングされる必要がまったくなく、バックグラウンド全体を更新することができる。これは、単一の更新（または数回の更新）で行われ得る。しかしながら、犬が少しずつ動くかまたは方向を変化させた（たとえば、右に部分的に動き、次いで左に部分的に動いた）場合、更新は、単一の更新として行われ得ず、数回増分的に更新することが、バックグラウンド更新期間中に必要とされる。

一実施形態によれば、フォアグラウンド画像フレームを符号化することは、関心可動オブジェクトに対応するピクセルについてのみピクセルデータを符号化することと、フォアグラウンド画像フレームの残りを黒色ピクセルとして符号化することとを含む。関心可動オブジェクトのためのピクセルデータのみを従来のやり方で符号化し、画像フレームの残りを黒色ピクセルとして符号化することで、符号化されたフォアグラウンド画像フレームが送信されるとき、実質的に低減されたビットレート、およびそれにより、低減された／より少ない帯域幅要件につながる。（一般に、ゼロとして符号化される）黒色ピクセルがここでは述べられているが、同じまたは非常に類似した節約が、任意の一貫するピクセル値においても達成され得ることに留意されたい。同じピクセル値（黒色またはそれ以外）を繰り返すことは、任意の新しい情報を実際に加えないので、同じピクセル値は、コンパクトな表現に非常に効率的に圧縮され得る。

概念的に、この技法を使用することを通して達成されるビットレートの節約は、黒色正方形がどのように符号化されるかの考察によってより容易に理解され得る。すべてのピクセルについてバイトを送ることによって黒色正方形中のすべてのピクセルを符号化することは、バイトが同じ値（すなわちゼロ）を常に有するにもかかわらず、メモリの有意な量を必要とする。しかしながら、黒色正方形を表す等価なやり方は、黒色正方形の左上隅の座標および、黒色正方形の幅と高さ、すなわち、４つの値のみを送ることである。大きい黒色正方形の場合、この表現を送るために必要とされるデータは、黒色正方形中のすべてのピクセルについてゼロ値を送ることと比較すれば、ほぼ無である。これにより、この技法を使用するときに必要とされる帯域幅は、関心オブジェクトのみを送るために必要とされる帯域幅と本質的に同じである。もちろん、異なる現実のエンコーダは、異なる符号化方式を使用し、この技法に類似した結果を達成し得る、帯域幅を節約する多くのエンコーダ特有のやり方がある。しかしながら、一般的な原理は同じままであり、すなわち、非関心エリアをブラックアウトすること、または何らかの他の帯域幅節約方法を使用して非関心エリアを符号化することは、画像のこれらの部分がまったく送られない場合と実質的に同様の帯域幅使用につながる。

一実施形態によれば、第１のフレームレートは、毎秒約３０画像フレームであり、第２のフレームレートは、毎分約１画像フレームである。典型的な画像フレーム更新レートよりも実質的に低いバックグラウンド画像フレーム更新レートを有することは、送信されるデータの量、および必要とされる帯域幅を有意に低減する。

一実施形態によれば、方法は、インスタンスセグメントを非関心静的オブジェクトとして分類することと、非関心静的オブジェクトを含むようにバックグラウンド画像を更新することとをさらに備える。たとえば、木、旗、点滅するネオンサインなどは、インスタンスセグメントと識別され得、オブジェクトの一部分は動き得るが、一般に、高速のフレームレートを用いてそのようなオブジェクトを更新する必要はない。代わりに、オブジェクトは、非関心静的オブジェクトとして分類され、バックグラウンド画像フレーム中に含められ、これにより、より低速のフレームレートで更新され、再び、送信されるデータの実質的な節約に寄与し得る。

一実施形態によれば、方法は、バックグラウンド更新期間の終わりに、バックグラウンド画像フレームに対する更新の完全性を検証することと、バックグラウンド画像フレーム更新が不完全であると決定したことに応答して、どの非関心可動オブジェクトが不完全性を引き起こしたかを決定することと、フォアグラウンド画像フレーム中に、不完全性を引き起こした非関心可動オブジェクトを含めることとをさらに備える。犬を用いた上記の例を再び参照すると、犬が、バックグラウンド更新期間の終わりまでに、犬の後ろのバックグラウンドのすべてをあらわにするのに十分には動かなかった場合、より高速のフォアグラウンド画像ストリーム中に犬を含めることによって、その領域について旧来の符号化に戻る。そうでないと、更新情報を包含しないピクセル領域があることになる。これによって、バックグラウンド更新が時間通りに完了することを可能にする。

一実施形態によれば、完全性を検証することは、バックグラウンド画像フレーム全体が更新されたかどうかを決定することを含む。これは、それがたいていのシステムにおいてすでに利用可能である情報を使用するので、完全性を決定する標準的で簡単な方法である。一実装形態では、これは、すべてのピクセル座標について、バックグラウンドピクセルがバックグラウンド更新間隔中に任意の時間に（換言すれば、任意の画像中に）その座標において見られたかどうかを検査することによって行われ得る。もちろん、これがエンコーダにおいてどのように実装されるかについての厳密な機構は、考慮中の特定のエンコーダに依存するが、上記の概念の説明は、異なるタイプのデコーダについて同じままである。

一実施形態によれば、非関心可動オブジェクトがバックグラウンドエリアをあらわにするように動いたとき、バックグラウンド画像フレームを更新することは、非関心可動オブジェクトの動きを、エリア依存しきい値、距離依存しきい値および時間依存しきい値のうちの１つまたは複数と比較することと、非関心可動オブジェクトの動きが少なくとも１つのしきい値を超えたとき、バックグラウンド画像フレームを更新することとを含む。たとえば、動きの最小エリア、動きの最小距離および／または最小期間が、バックグラウンド更新期間中に、バックグラウンド更新がトリガされる前に、非関心可動オブジェクトについて設定され得る。再び、犬を用いた例を使用すると、犬が、数インチのみ動くか、または尻尾を振る場合、そのことは、バックグラウンド画像フレーム更新をトリガするのに十分な量の動きでないことがある。しかしながら、犬が、左に２フィート動くか、または横たわった状態から体を起こした状態に動いた場合など、そのことは、バックグラウンド更新の根拠となるのに十分な動きであり得る。厳密なしきい値は、オブジェクトのタイプおよびシーンにおける特定の状況など、多数の要因に基づいてオペレータによって構成され得る。

一実施形態によれば、しきい値は、たとえば、バックグラウンド画像フレームの更新の頻度が、利用可能なコンピューティングリソースによって受け入れられ得る更新の頻度に制限されるように、利用可能なコンピューティングリソースに基づいて設定される。たとえば、カメラシステムが限られたコンピューティングリソースを有する場合、任意のバックグラウンド画像フレーム更新をできるだけ長く先送りすることを試みることは有利であり得るのに対して、カメラシステムが豊富なコンピューティングリソースを有する場合、より頻繁な更新が行われ得る。

第２の態様によれば、本発明は、画像フレームのストリームを生成するための符号化システムに関する。システムは、モーションおよびオブジェクト検出器とエンコーダとを含む。モーションおよびオブジェクト検出器は、
●画像フレームのストリーム中の画像フレームを、１つまたは複数のバックグラウンドセグメントおよび１つまたは複数のインスタンスセグメントにセグメント化することと、
●１つまたは複数のインスタンスセグメントのうちの少なくともいくつかを、関心可動オブジェクトおよび非関心可動オブジェクトに分類することと
を行うように構成される。

エンコーダは、
●１つまたは複数のバックグラウンドセグメントを包含するバックグラウンド画像フレームを作成することと、
●バックグラウンド更新期間中に、非関心可動オブジェクトが（さらなる）バックグラウンドエリアをあらわにするように動いたとき、バックグラウンド画像フレーム中に、あらわにされた／さらなるバックグラウンドエリアを含めるようにバックグラウンド画像フレームを更新することと、
●関心可動オブジェクトを包含するフォアグラウンド画像フレームを作成することと、
●更新されたバックグラウンド画像フレームのピクセルのブロックを符号化することと、
●フォアグラウンド画像フレームのピクセルのブロックを符号化することと、
●第１のフレームレートを有する、符号化されたフォアグラウンド画像フレームのストリームを生成することと、
●第１のフレームレートよりも低い第２のフレームレートを有する、符号化された更新されたバックグラウンド画像フレームのストリームを生成することと
を行うように構成される。

システムの利点は、方法の利点に対応し、同様に変形され得る。

第３の態様によれば、本発明は、画像フレームのストリームを生成するためのコンピュータプログラム製品に関する。コンピュータプログラムは、
●画像フレームのストリーム中の画像フレームを、１つまたは複数のバックグラウンドセグメントおよび１つまたは複数のインスタンスセグメントにセグメント化することと、
●１つまたは複数のバックグラウンドセグメントを包含するバックグラウンド画像フレームを作成することと、
●１つまたは複数のインスタンスセグメントのうちの少なくともいくつかを、関心可動オブジェクトおよび非関心可動オブジェクトに分類することと、
●バックグラウンド更新期間中に、非関心可動オブジェクトが（さらなる）バックグラウンドエリアをあらわにするように動いたとき、バックグラウンド画像フレーム中に、あらわにされた／さらなるバックグラウンドエリアを含めるようにバックグラウンド画像フレームを更新することと、
●関心可動オブジェクトを包含するフォアグラウンド画像フレームを作成することと、
●更新されたバックグラウンド画像フレームのピクセルのブロックを符号化することと、
●フォアグラウンド画像フレームのピクセルのブロックを符号化することと、
●第１のフレームレートを有する、符号化されたフォアグラウンド画像フレームのストリームを生成することと、
●第１のフレームレートよりも低い第２のフレームレートを有する、符号化された更新されたバックグラウンド画像フレームのストリームを生成することと
のステップに対応する命令を包含する。

コンピュータプログラムは、方法の利点に対応する利点を伴い、同様に変形され得る。

本発明の１つまたは複数の実施形態の詳細が、添付の図面および以下の説明において記載される。本発明の他の特徴および利点が、説明および図面から、ならびに特許請求の範囲から明らかになろう。

本発明の様々な方法およびシステムが適用され得る、一実施形態による、例示的な環境１００を示す概略図である。一実施形態による、図１中に図示されているカメラシステム１０８の詳細図を示すブロック図である。一実施形態による、画像フレームのストリームを処理するための方法を示すフローチャートである。一実施形態による、カメラシステムから受信機に送られるフォアグラウンド画像ビデオストリームおよびバックグラウンド画像ビデオストリームの概略図である。

様々な図面中の同様の参照符号は、同様の要素を示す。

上記で説明されたように、本発明の様々な実施形態の目的は、従来の符号化が使用されるときと比較して、ストリーミングビデオのために必要とされる帯域幅を低減することである。これは、オペレータにとって関心のある情報のみをストリーミングすることと、高いレートでその情報をストリーミングすることとによって成し遂げられる。オペレータにとってほとんどまたはまったく関心のない情報は、有意に低いレートでストリーミングされる。

手短に言えば、本発明の様々な実施形態は、シーンの画像を撮るカメラ、たとえば、固定カメラを備えるカメラシステムに関するものとして説明され得、ここで、オペレータは、たとえば、人間の活動に関心がある。固定カメラは、設置の動作中にカメラの視野を変化させないカメラである。しかしながら、カメラは、カメラの視野をズームインおよびズームアウトするために、パンおよびチルト方向においてカメラの視野を変化させることが可能なパンチルトズーム（ＰＴＺ）カメラであり得る。カメラがＰＴＺカメラである場合、ＰＴＺカメラは、静的ステージまたは静的モードにあるべきである、換言すれば、ＰＴＺカメラは、その画像に対して本発明が適用されるシーンの画像をキャプチャするとき、同一のパン、チルトおよびズーム設定を有するように設定されるべきであることを理解されたい。人間の活動へのオペレータの関心のために、そのような活動に関するあらゆる情報を識別し、カメラから、オペレータが画像を閲覧し人間の活動を監視することができる受信機に頻繁に送ることが望まれる。その画像情報は、関心オブジェクトについての画像情報と呼ばれる。対照的に、シーン中のバックグラウンドは、主に、フォアグラウンドオブジェクトのアクションを理解可能なコンテキストに置くように働き、それゆえ、より少ない頻度で更新され／送られ得る。バックグラウンドは静的であるか、または、モーションがある意味で関心を引かずレンダリングされるべきでないオブジェクトを包含することがあるかのいずれかである。そのようなモーションの一例は、風で揺れる木の枝である。

帯域幅を抑制するためのさらなる手段としては、関心オブジェクト以外の可動オブジェクト（すなわち、自身の地理的ロケーションを変化させることができるオブジェクト）に関する画像情報を、理想的にはまったく送らないことで、これは、帯域幅を節約するだけでなく、オペレータが関心オブジェクトにのみ集中することを可能にする。そのようなオブジェクトは、本明細書では「非関心可動オブジェクト」と呼ばれる。非関心可動オブジェクトの例は、動物である。別の例は、何らかの種類の車両である。たとえば、防犯カメラが、建築物の入口を監視する場合、建築物入口をすばやく走り去る自転車上のまたは車中の人ではなく、ドアのすぐ外を歩いている人の挙動を追うことが一般により関心を引く。また別の例では、非関心オブジェクトと見なされるものは、ロケーションなど、他のルールに基づいて決定され得る。たとえば、サーベイランスエリア外の人を非関心可動オブジェクトとして扱うことを選択し、動物について上記で説明されたようにサーベイランスエリア外の人を扱うことができるのに対して、サーベイランスエリア内の人は、関心オブジェクトとして扱われる。

バックグラウンド更新期間中に、非関心可動オブジェクトの動きが追跡され、バックグラウンド画像は、非関心可動オブジェクトによって遮断され、非関心可動オブジェクトが動いたときにあらわにされた、バックグラウンドの部分を用いて更新される。バックグラウンド画像は、非関心オブジェクトが、バックグラウンド更新期間中に動くので、増分的に更新され得る。バックグラウンド画像は、関心オブジェクトをもつ情報のフレームレートと比較して、より低いフレームレートで送られる。上述のように、非関心オブジェクトは、オペレータに示されない。この目的で、一実施形態は、バックグラウンドフレームおよびフォアグラウンドフレームのうちのいずれかに非関心可動オブジェクトを含めるのを控えることを含む。

一実施形態では、非関心オブジェクトが、バックグラウンド更新期間中にいずれかのバックグラウンド部分をあらわにするほど十分には動かなかった場合、非関心オブジェクトに関する画像情報は、画像に「穴」を入れないように、関心オブジェクトのストリーム中で送られる。受信機は、関心オブジェクト（および場合によっては、非関心オブジェクト）をもつ画像情報の画像と、最新のバックグラウンド画像とを合成し得る。次に、本発明の様々な実施形態が、図面を参照しながら例として説明される。

図１は、本発明の様々な実施形態が実施され得る、例示的な環境１００の概略図を示す。図１中に見られるように、建築物１０６に向かって歩く人１０４がいるシーン１０２が、カメラシステム１０８によってキャプチャされる。シーン１０２の描写は、例示目的のための単純化した図にすぎないことに留意されたい。シーン１０２は、より一般的な意味では、それのサイズおよび形状が、シーンを記録するカメラの視野によって定義される、任意の３次元物理的スペースとして説明され得る。

本発明が適用されるべきである画像フレームをキャプチャするときの、カメラシステム１０８、たとえば、静的モードにある固定カメラシステムまたはＰＴＺカメラシステム、換言すれば、同一の固定ＰＴＺ設定を有するＰＴＺカメラシステムが、図２中により詳細に図示されている。カメラシステム１０８は、シーン１０２をキャプチャし、画像センサー１１２上にシーン１０２を投影するレンズ１１０を有する。ともに、レンズ１１０および画像センサー１１２は、画像キャプチャリングシステム１０９を形成する。画像センサー１１２は、ともにビデオストリームを形成する、一連の画像フレームをキャプチャする。画像キャプチャリングシステム１０９は、それらの両方が以下でさらに詳細に説明される、画像処理パイプライン２０２およびエンコーダ２０４を含む、画像処理および符号化システム２０５に結合される。画像処理および符号化システム２０５は、好ましくは、カメラシステム１０８内に位置決めされるが、カメラシステム１０８の外部にあってもよい。たとえば、モジュラーカメラシステムにおいて、画像キャプチャリングシステム１０９ならびに画像処理および符号化システム２０５は、互いとは別々に配列され、互いと通信して配列され得る。さらに、画像キャプチャリングシステム１０９は可動であり得、画像処理および符号化システム２０５は静的であり得る。

図２中に示されているものなど、いくつかの実施形態では、画像処理および符号化システム２０５は、モーションおよびオブジェクト検出器２０６をさらに含む。エンコーダ２０４ならびにモーションおよびオブジェクト検出器２０６は、符号化システム２１０中に備えられ、符号化システム２１０は、符号化システム２１０が従来の符号化システムと比較して拡張されているので、本開示では時には、拡張型符号化システム２１０と呼ばれる。以下でさらに詳細に説明されるように、画像処理パイプライン２０２は、画像センサー１１２から信号を受信し、様々なタイプの画像処理動作を実施し、その後、拡張型符号化システム２１０は、入出力インターフェース２０８を介したオペレータへのネットワーク上での送信に好適であるフォーマットに、ビデオストリームを符号化する。図１では、符号化ビデオは、ワイヤードネットワーク１１８に、および最終的に、ネットワーク１１８に接続されたクライアント１２０に無線リンク１１６を介してワイヤレスに送信されるが、もちろん、使用され得るワイヤレスおよびワイヤード送信モデルの多くの組合せがある。

クライアント１２０は、オペレータがカメラからの画像ビデオストリームを閲覧することができるディスプレイを有する。一般に、クライアント１２０は、ビデオが記憶されおよび／またはさらに処理され得るサーバにも接続される。しばしば、クライアント１２０は、たとえば、オペレータがクライアント１２０において制御コマンドを発行することによってカメラ１０８を制御するためにも使用される。たとえば、オペレータは、シーン１０２の特定の詳細にズームインするように、または人１０４が木１０６から遠ざかり始めた場合、人１０４を追跡するようにカメラに命令し得る。しかしながら、オペレータがカメラを制御せず、カメラが静的であり、オペレータがクライアント１２０上で閲覧するための画像ストリームを提供するにすぎない状況もある。

図２中に示されているように、カメラシステム１０８は、画像センサー１１２上にシーン１０２を画像化するレンズ１１０と、画像処理パイプライン（ＩＰＰ）２０２と、エンコーダ２０４と、モーションおよびオブジェクト検出器２０６と、他のデバイスとの通信のための入力および出力インターフェース２０８とを含む。ＩＰＰは、画像センサー１１２から受信された画像データに対して様々な各種の動作を実施する。そのような動作は、フィルタ処理、デモザイク処理、色補正、（空間的および／または時間的ノイズをなくすための）ノイズフィルタ処理、（たとえば、たる形ひずみの影響をなくすための）歪み補正、（たとえば、広範囲の彩度を包含するシーンの画像化ができるようにする）グローバルおよび／またはローカルトーンマッピング、変換（たとえば、回転）、（たとえば、けられの影響の削除のための）フラットフィールド補正、オーバーレイ（たとえば、プライバシーマスク、説明的テキストなど）の適用を含み得る。ＩＰＰ２０２は、オブジェクト検出および分類、ならびに以下でさらに詳細に説明される様々な他の機能を実施するために使用される、モーションおよびオブジェクト検出器２０６に関連付けられ得る。いくつかの実施形態では、これらの動作のうちのいくつか（たとえば、たる形ひずみの補正、回転など、変換演算）は、たとえば、ＩＰＰ２０２とエンコーダ２０４との間のユニットにおいてＩＰＰ２０２外の１つまたは複数のサブシステムによって実施され得ることに留意されたい。

画像ＩＰＰ２０２に続いて、画像は、エンコーダ２０４に転送され、エンコーダ２０４において、情報は、符号化プロトコルに従って符号化され、入出力インターフェース２０８を使用してネットワーク１１８を介して受信クライアント１２０に転送される。モーションおよびオブジェクト検出器２０６は、符号化演算を実施するために必要とされる必須の情報をエンコーダ２０４に提供するために、オブジェクト検出および分類、ならびに以下でさらに詳細に説明される様々な他の機能を実施するために使用される。図２中に図示されているカメラシステム１０８は、従来のカメラシステムにおいて一般的であり、それらの目的および動作が当業者によく知られている、プロセッサ、メモリなど、多数の他の構成要素をも含むことに留意されたい。そのような構成要素は、明確にするために、図２の例示および説明から省略されている。いくつかの従来のビデオ符号化フォーマットがある。本発明の様々な実施形態とともに機能するいくつかの一般のビデオ符号化フォーマットは、ほんの数例を挙げると、Ｈ．２６５およびＭＰＥＧ－ＨＰａｒｔ２としても知られるＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ（ＨＥＶＣ）、Ｈ．２６４およびＭＰＥＧ－４Ｐａｒｔ１０としても知られるＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ（ＡＶＣ）、Ｈ．２６６、ＭＰＥＧ－ＩＰａｒｔ３およびＦｕｔｕｒｅＶｉｄｅｏＣｏｄｉｎｇ（ＦＶＣ）としても知られるＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（ＶＶＣ）、ＶＰ９、ＶＰ１０およびＡＯＭｅｄｉａＶｉｄｅｏ１（ＡＶ１）を含む。

図３は、一実施形態による、カメラによってキャプチャされた画像フレームのストリームを処理するための方法を示す。図３中に見られるように、方法は、ステップ３０２において、画像フレームをバックグラウンドセグメントとインスタンスセグメントとにセグメント化することによって開始する。このステップは、モーションおよびオブジェクト検出器２０６によって実施され得る。たとえば、モーションおよびオブジェクト検出器２０６は、エンコーダ２０４からの要求に応答してセグメント化を実施し得る。上述のように、エンコーダ２０４ならびにモーションおよびオブジェクト検出器２０６は、拡張型符号化システム２１０中に備えられる。上記で論じられたように、一実施形態では、セグメント化は、パノラマ的セグメント化を使用して行われる。パノラマ的セグメント化は、関心オブジェクト（たとえば、人々）のインスタンスと、非関心オブジェクト（たとえば、動物）のインスタンスとを作成し、すなわち、各個々のオブジェクトは、識別可能である。パノラマ的セグメント化は、１つまたは複数のバックグラウンドセグメント、すなわち、いかなるインスタンスセグメント化をも包含しない領域（たとえば、木であり、個々の木は、互いから区別されない）をさらに作成する。このセグメント化を有することは、異なる関心オブジェクトを互いから別様に扱うこと、また、関心オブジェクトとは別様にバックグラウンドを扱うことを可能にする。符号化は、特定の実施形態および考慮中のシーンに応じて変動し得ることに留意されたい。たとえば、森は、バックグラウンドセグメントとしてよりよく符号化され得るのに対して、屋内の情景における鉢植えは、（鉢植えが、誰かによって動かされることもあるため）静的であるが可動の非関心オブジェクトとして符号化され得る。これにより、多くの変形形態が、考慮中の特定の状況に応じて、当業者によって想定され得る。

次に、ステップ３０４において、バックグラウンド画像フレームが作成される。このステップは、エンコーダ２０４によって実施され得る。バックグラウンド画像フレームは、ステップ３０２中で識別されたバックグラウンドセグメントを包含する。いくつかの実施形態では、バックグラウンド画像フレームは、以下でさらに詳細に説明されるように、非関心静的オブジェクトをも包含する。他の実施形態では、バックグラウンドは、バックグラウンドセグメントのみを包含する。バックグラウンド画像フレームの作成が、あらゆるフレームについて行われるとは限らないことを理解されたい。さらに、作成されたバックグラウンド画像フレームは、ステップ３１４を参照しながら以下で説明されるように、バックグラウンド更新期間中に、後続の画像フレームからの情報を用いて更新され得ることを理解されたい。

次に、ステップ３０６において、インスタンスセグメントは、それぞれ、関心移動オブジェクトと非関心移動オブジェクトとに分類される。このステップは、モーションおよびオブジェクト検出器２０６によって実施され得る。何が関心移動オブジェクトであると見なされ、何が非関心移動オブジェクトであると見なされるかは、考慮中の特定の使用事例に基づいて決定され得る。たとえば、いくつかの実施形態では、オペレータは、所与の日に、ウシが関心移動オブジェクトであるのに対して、人々が非関心移動オブジェクトであると選択し得る。異なる日に、状況は逆であり得、オペレータは、関心移動オブジェクトとして車をも含み得る、などである。一般に、オペレータは、システムが認識するように事前に訓練されたオブジェクトのカテゴリーのリストから、それぞれ、どのオブジェクトが関心移動オブジェクトと見なされ、どのオブジェクトが非関心移動オブジェクトと見なされるかを選択することができる。この選択を行うことによって、関心移動オブジェクトに関する情報のみが、オペレータに送られ、オペレータは、ビデオストリーム中の「無関係な」情報によって気を散らされない。

いくつかの実施形態では、また別の分類、すなわち、非関心静的オブジェクトがある。これらのオブジェクトは、静的であるにもかかわらず何らかの動きを包含する、インスタンスセグメントである。非関心静的オブジェクトの一例は、木である。木は、パノラマ的セグメント化を使用して識別され得るオブジェクトのインスタンスである。木は、木がロケーションを変化させないという意味において、静的である。木の枝は、風で動き得るが、この動きは、一般的に、たいていの監視状況に関してほとんどまたはまったく関心のないものである。これにより、木は、非関心静的オブジェクトであり、帯域幅を節約するために、木は、まれに更新されるにすぎないバックグラウンド画像フレームに加えられ得る。たいていの実施形態では、オペレータは、どの動きが、バックグラウンド画像フレーム中に非関心静的オブジェクトを含めるために「容認できる」かを定義するためのオプションを提供されるか、またはカメラシステムによってそのような決定を自動的に行うためのあらかじめ定義された基準があり得る。

一般に、非関心可動オブジェクトは、上記で説明されたように、ほとんどまたはまったく関心のないものであるので、符号化されることも、オペレータに送られることもない。しかしながら、静的であるが可動の非関心オブジェクト（たとえば、鉢植え）は、可動であり静的であることが予想されない動物とは対照的に、バックグラウンド中に時には含まれ得る。多くの状況では、静的であるが可動の非関心オブジェクトをバックグラウンドセクションに含めるべきかどうかに関する決定は、オペレータが何を容認できるとするかに依存する。以下でさらに詳細に説明されるように、バックグラウンド画像フレームは、毎分約１画像フレームのレートで受信機およびオペレータに送られ得る。ステップ３０６における分類の後、プロセスは、関心移動オブジェクト、すなわち、フォアグラウンド画像フレームの処理に関係する高速分岐と、バックグラウンド画像の処理に関係する低速分岐とに分かれる。次に、これらの分岐の各々が説明される。

ステップ３０８において、関心可動オブジェクトを包含するフォアグラウンド画像フレームが、作成される。このステップは、エンコーダ２０４によって実施され得る。上記で説明されたように、関心可動オブジェクトのみをフォアグラウンド画像フレームに含めることと、フォアグラウンド画像フレームおよびバックグラウンド画像フレームの両方から非関心可動オブジェクトを除くこととは、シーンを監視するオペレータに、最も関連する情報を提供することを可能にする。例として図１のシーン１０２を使用すると、オペレータが、人間の活動にのみ関心がある場合、人１０４のみが、フォアグラウンド画像フレームに含まれる。上記で記されたように、人は、関心可動オブジェクトの一例にすぎない。他の一般の例は、考慮中の特定のシーンまたはサーベイランスの状況に応じて、車両、武器、バッグ、またはフェイスマスクを含む。

フォアグラウンド画像フレームを作成した後、ステップ３１０において、各フレーム中のピクセルのブロックは、エンコーダ２０４によって符号化される。フォアグラウンド画像フレームについて、エンコーダ２０４は、従来の技法を使用して、関心移動オブジェクト１０４に属するピクセルのブロックを符号化し、フォアグラウンド画像フレームの残りを黒色ピクセルとして符号化する。黒色ピクセル（または任意の他の色）としてピクセルを符号化することは、上記で論じられたように、ピクセルのブロックが、ロケーション座標、幅および高さを有するものとして符号化されることを可能にし、これは、従来の符号化と比較してデータの有意な量を節約する。ステップ３１２において、第１のフレームレートを有する、符号化されたフォアグラウンド画像フレームのストリームが、生成される。これは、エンコーダ２０４によって実施され得る。符号化されたフォアグラウンド画像フレームのストリームは、受信機に第１のフレームレートを用いて送られ得るか、または符号化されたフォアグラウンド画像フレームのストリームは、ストレージに送られ得る。

次にプロセス３００の低速分岐に転じると、ステップ３１４において、バックグラウンド更新期間を定義するタイマーがセットされる。このバックグラウンド更新期間中に、バックグラウンド画像フレームは、非関心可動オブジェクトが非関心可動オブジェクトの位置を変化させたことの結果としてバックグラウンドエリアがあらわにされたとき、更新される。このステップは、エンコーダ２０４がバックグラウンド画像フレームを更新することと、モーションおよびオブジェクト検出器２０６が非関心可動オブジェクトのモーションを決定することとによって実施され得る。これらの更新は、バックグラウンド更新期間の満了時のバックグラウンド中の「穴」の出現を回避するために行われる。バックグラウンド更新期間は、一般に、一般的におよそ１分程度である、バックグラウンド画像フレームのためのフレームレートに関係付けられる。非関心可動オブジェクトの数および動きの量に応じて、バックグラウンド画像フレームは、非関心可動オブジェクトの動きの結果として作成されたあらゆる「空の領域」を埋めるために、バックグラウンド更新期間中に数回更新され得る。

あらゆる非関心可動オブジェクトの動きは、上記で説明されたように、モーションおよびオブジェクト検出器２０６を使用して追跡される。いくつかの実施形態では、モーションおよびオブジェクト検出器２０６は、バックグラウンド画像フレームの更新がいつ必要とされるかを決定するためのトリガとして働く。たとえば、しきい値は、非関心可動オブジェクトがバックグラウンド画像フレーム中の一定数のピクセルを超えて動いた場合、バックグラウンド画像フレームの更新がトリガされるように設定され得る。しきい値は、たとえば、利用可能な計算リソースに基づいて設定され得る。たとえば、限られた計算リソースを有するカメラシステムは、豊富な計算リソースを有するカメラよりも少ない頻度でバックグラウンド画像フレームを更新し得る。

いくつかの実施形態では、バックグラウンド更新期間の終わりに、バックグラウンド画像フレームに対する更新の完全性が、完全なバックグラウンド画像フレームを保証するために検証される。これは、エンコーダ２０４によって実施され得る。このコンテキストにおける「完全性」は、単に、非関心可動オブジェクトの動きから生じ、バックグラウンド更新期間の終わりにバックグラウンドピクセル情報で埋められなかったバックグラウンド画像中の「穴」がないことを保証することを指す。バックグラウンド画像フレームに対する更新が不完全であったと決定された場合、モーションおよびオブジェクト検出器２０６は、どの非関心可動オブジェクトが不完全性を引き起こしたかを決定するために使用され得、そのオブジェクトは、代わりに、上記で説明されたように、関心可動オブジェクトとともにフォアグラウンド画像フレームの一部分として処理され得る。

次に、高速分岐同様に、低速分岐において、ステップ３１６において、更新されたバックグラウンド画像は、エンコーダによって符号化される。バックグラウンド画像フレームが、バックグラウンド更新期間中に数回更新され得る場合でも、バックグラウンド画像フレームの符号化は、１更新期間ごとに、たとえば、各バックグラウンド更新期間の終わりに１回のみ実施されることに留意されたい。バックグラウンド画像の符号化は、従来の符号化技法を使用し得る。

最後に、ステップ３１８において、第２のフレームレートを有する、符号化された更新されたバックグラウンド画像フレームのストリームが、生成される。上述のように、第２のフレームレートは、第１のフレームレートよりも低い。符号化されたバックグラウンド画像フレームのストリームは、フォアグラウンド画像フレームのフレームレートと比較してより低速のフレームレートで受信機に送られ得る。図４は、どのように、カメラシステム１０８から受信機４０２に、符号化されたフォアグラウンド画像フレーム４０４のストリームが第１のフレームレートで送られ、符号化されたバックグラウンド画像フレーム４０６のストリームが第２のより低速のフレームレートで送られるかを概略的に示す。図４中の図示の容易さを目的として、バックグラウンド画像フレームは、３つのフォアグラウンド画像フレームごとに送られるものとして図示されていることに留意されたい。しかしながら、典型的なシナリオでは、フォアグラウンド画像フレームのストリームのためのフレームレートは、一般に、毎秒３０フレームであり、バックグラウンド画像フレームのストリームのためのフレームレートは、一般に、毎分およそ１フレームであり、よって、実世界のシナリオでは、２つのストリームの間の差は、図４中に図示されているものよりも相当に大きい。２つの画像ストリームが、カメラシステムを離れるとき、２つの画像ストリームは、受信機４０２、たとえば、従来のデコーダによって復号され、場合によっては処理され得るフォーマットにある。受信機４０２は、図１中に図示されているクライアント１２０中に備えられ得るか、またはクライアント１２０に接続され得る。

受信機４０２において、２つの画像ストリームは、オペレータが閲覧するための複合画像ストリームを作成するために、ともに融合される。これは、当業者にとってなじみのある広範囲の標準的な技法を使用して行われ得る。たとえば、閲覧体験をオペレータにとってより気持ちの良いものにするための、オブジェクトのエッジに沿った漸進的融合があり得る。当業者にとってなじみのある、この漸進的融合を達成するための多くのやり方がある。たとえば、オブジェクトおよびバックグラウンドピクセルは、加算および平均化され得、重みが、より高い重みがバックグラウンドに与えられるように適用され得、重みを指定するブレンド曲線が使用され得る（アルファブレンディングとも呼ばれる）。
脚注

上記の例は、可視光のコンテキストにおいて説明されたが、異なるフレームレートでバックグラウンドおよびフォアグラウンドフレームを符号化し、送るという同じ一般的な原理が、主に可視光範囲に対して赤外光範囲において動作するカメラにおいて使用される画像センサーの性質による適切な修正が行われた場合、サーマルカメラのコンテキストにおいても適用され得る。

本明細書で開示される、システム、画像処理パイプライン、エンコーダ、モーションおよびオブジェクト検出器などのシステムの部分、ならびに方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組合せとして実装され得る。ハードウェア実装形態では、上記の説明において言及された機能ユニットまたは構成要素の間でのタスクの分割は、物理ユニットへの分割に必ずしも対応するとは限らず、むしろ、１つの物理的構成要素は、複数の機能性を実施することができ、１つのタスクは、共同して数個の物理的構成要素によって行われ得る。

いくつかの構成要素またはすべての構成要素は、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されるか、あるいはハードウェアとしてまたは特定用途向け集積回路として実装され得る。そのようなソフトウェアは、コンピュータ記憶媒体（または非一時的媒体）および通信媒体（または一時的媒体）を備え得る、コンピュータ可読媒体上で分散され得る。当業者によく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなど、情報の記憶のために任意の方法または技術で実装された揮発性および不揮発性の両方の、取外し可能および取外し不能媒体を含む。コンピュータ記憶媒体は、限定はしないが、所望の情報を記憶するために使用され得、コンピュータによってアクセスされ得る、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶デバイス、あるいは任意の他の媒体を含む。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を図示する。この点について、フローチャートまたはブロック図中の各ブロックは、指定された論理的な機能を実装するための１つまたは複数の実行可能な命令を備える、モジュール、セグメント、または命令の部分を表し得る。いくつかの代替実装形態では、ブロック中に記されている機能は、図中に記されている順序外で起こり得る。たとえば、連続して示されている２つのブロックは、事実上、実質的に同時に実行され得るか、またはブロックは、時には、関与する機能性に応じて逆順で実行され得る。また、ブロック図および／またはフローチャート図示の各ブロック、ならびにブロック図および／またはフローチャート図示中のブロックの組合せは、指定された機能または行為を実施するか、または専用ハードウェアとコンピュータ命令との組合せを行う、専用ハードウェアベースシステムによって実装され得ることに留意されたい。

当業者は、上記で説明された実施形態を多くのやり方で修正し、上記の実施形態において示された本発明の利点を依然として使用することができることが諒解されよう。これにより、本発明は、示された実施形態に限定されるべきではなく、添付の特許請求の範囲によってのみ定義されるべきである。追加として、当業者が理解するように、示された実施形態は組み合わせられ得る。

Claims

符号化システムにおける、画像フレームのストリームを生成するための方法であって、
画像フレームのストリーム中の画像フレームを、１つまたは複数のバックグラウンドエリアおよび１つまたは複数のオブジェクトにセグメント化することと、
前記１つまたは複数のバックグラウンドエリアを包含するバックグラウンド画像フレームを作成することと、
前記１つまたは複数のオブジェクトのうちの少なくともいくつかを、関心可動オブジェクトおよび非関心可動オブジェクトに分類することと、
バックグラウンド更新期間中に、非関心可動オブジェクトがさらなるバックグラウンドエリアをあらわにするように動いたとき、前記バックグラウンド画像フレーム中に前記さらなるバックグラウンドエリアを含めるように前記バックグラウンド画像フレームを更新することと、
前記バックグラウンド更新期間の終わりに、前記バックグラウンド画像フレームに対する前記更新の完全性を検証することと、
前記バックグラウンド画像フレームの更新が不完全であると決定したことに応答して、どの非関心可動オブジェクトが不完全性を引き起こしたかを決定することと、
フォアグラウンド画像フレーム中に、不完全性を引き起こした前記非関心可動オブジェクトを含めることと、
前記バックグラウンド画像フレーム全体が更新されたと決定したことに応答して、前記バックグラウンド画像フレームおよび前記フォアグラウンド画像フレームのうちのいずれにも前記非関心可動オブジェクトを含めるのを控えることと、
前記関心可動オブジェクトを包含する前記フォアグラウンド画像フレームを作成することと、
更新された前記バックグラウンド画像フレームのピクセルのブロックを符号化することと、
前記フォアグラウンド画像フレームのピクセルのブロックを符号化することと、
第１のフレームレートを有する、符号化されたフォアグラウンド画像フレームのストリームを生成することと、
前記第１のフレームレートよりも低い第２のフレームレートを有する、符号化された更新されたバックグラウンド画像フレームのストリームを生成することと
を備える、方法。
画像フレームの前記セグメント化が、パノラマ的セグメント化を使用して行われ、前記画像フレーム中のピクセルが、特定のタイプのオブジェクトのグループを含むバックグラウンドエリアに割り当てられるか、または個々のオブジェクトに割り当てられるかのいずれかである、請求項１に記載の方法。
オブジェクトタイプのリストからのユーザ選択を受け取ることをさらに備え、前記ユーザ選択は、どのタイプのオブジェクトが関心可動オブジェクトと見なされるべきであり、どのタイプのオブジェクトが非関心可動オブジェクトと見なされるべきであるかを示す、請求項１に記載の方法。
前記関心可動オブジェクトが、人間、車両、武器、バッグ、およびフェイスマスクのうちの１つまたは複数を含む、請求項１から３のいずれか一項に記載の方法。
前記非関心可動オブジェクトの動きが、前記バックグラウンド更新期間中にモーションおよびオブジェクト検出器によって追跡され、前記バックグラウンド画像フレームが、前記バックグラウンド更新期間の満了の前に数回更新される、請求項１から４のいずれか一項に記載の方法。
前記フォアグラウンド画像フレームを符号化することが、関心可動オブジェクトに対応するピクセルについてのみピクセルデータを符号化することと、前記フォアグラウンド画像フレームの残りを黒色ピクセルとして符号化することとを含む、請求項１から５のいずれか一項に記載の方法。
前記第１のフレームレートが、毎秒３０画像フレームであり、前記第２のフレームレートが、毎分１画像フレームである、請求項１から６のいずれか一項に記載の方法。
オブジェクトを非関心静的オブジェクトとして分類することと、
前記非関心静的オブジェクトを含むように前記バックグラウンド画像フレームを更新することと
をさらに備える、請求項１から７のいずれか一項に記載の方法。
非関心可動オブジェクトがバックグラウンドエリアをあらわにするように動いたとき、前記バックグラウンド画像フレームを更新することが、
前記非関心可動オブジェクトの動きを、エリア依存しきい値、距離依存しきい値および時間依存しきい値のうちの１つまたは複数と比較することと、
前記非関心可動オブジェクトの前記動きが少なくとも１つのしきい値を超えたとき、前記バックグラウンド画像フレームを更新することと
を含む、請求項１から８のいずれか一項に記載の方法。
利用可能なコンピューティングリソースに基づいて、前記しきい値を設定することをさらに備える、請求項９に記載の方法。
前記しきい値を設定することが、前記バックグラウンド画像フレームの前記更新の頻度が、利用可能なコンピューティングリソースによって受け入れられ得る更新の頻度に制限されるように、前記しきい値を設定することを含む、請求項１０に記載の方法。
エンコーダと、モーションおよびオブジェクト検出器とを備える、画像フレームのストリームを生成するための符号化システムであって、
前記モーションおよびオブジェクト検出器が、
画像フレームのストリーム中の画像フレームを、１つまたは複数のバックグラウンドエリアおよび１つまたは複数のオブジェクトにセグメント化することと、
前記１つまたは複数のオブジェクトのうちの少なくともいくつかを、関心可動オブジェクトおよび非関心可動オブジェクトに分類することと
を行うように構成され、
前記エンコーダは、
前記１つまたは複数のバックグラウンドエリアを包含するバックグラウンド画像フレームを作成することと、
バックグラウンド更新期間中に、非関心可動オブジェクトがさらなるバックグラウンドエリアをあらわにするように動いたとき、前記バックグラウンド画像フレーム中に前記さらなるバックグラウンドエリアを含めるように前記バックグラウンド画像フレームを更新することと、
前記バックグラウンド更新期間の終わりに、前記バックグラウンド画像フレームに対する前記更新の完全性を検証することと、
前記バックグラウンド画像フレームの更新が不完全であると決定したことに応答して、どの非関心可動オブジェクトが不完全性を引き起こしたかを決定することと、
フォアグラウンド画像フレーム中に、不完全性を引き起こした前記非関心可動オブジェクトを含めることと、
前記バックグラウンド画像フレーム全体が更新されたと決定したことに応答して、前記バックグラウンド画像フレームおよび前記フォアグラウンド画像フレームのうちのいずれにも前記非関心可動オブジェクトを含めるのを控えることと、
前記関心可動オブジェクトを包含する前記フォアグラウンド画像フレームを作成することと、
更新された前記バックグラウンド画像フレームのピクセルのブロックを符号化することと、
前記フォアグラウンド画像フレームのピクセルのブロックを符号化することと、
第１のフレームレートを有する、符号化されたフォアグラウンド画像フレームのストリームを生成することと、
前記第１のフレームレートよりも低い第２のフレームレートを有する、符号化された更新されたバックグラウンド画像フレームのストリームを生成することと
を行うように構成された、
符号化システム。
画像フレームのストリームを生成するためのプログラム命令を有する非一時的コンピュータ可読記憶媒体であって、前記プログラム命令が、
画像フレームのストリーム中の画像フレームを、１つまたは複数のバックグラウンドエリアおよび１つまたは複数のオブジェクトにセグメント化することと、
前記１つまたは複数のバックグラウンドエリアを包含するバックグラウンド画像フレームを作成することと、
前記１つまたは複数のオブジェクトのうちの少なくともいくつかを、関心可動オブジェクトおよび非関心可動オブジェクトに分類することと、
バックグラウンド更新期間中に、非関心可動オブジェクトがさらなるバックグラウンドエリアをあらわにするように動いたとき、前記バックグラウンド画像フレーム中に前記さらなるバックグラウンドエリアを含めるように前記バックグラウンド画像フレームを更新することと、
前記バックグラウンド更新期間の終わりに、前記バックグラウンド画像フレームに対する前記更新の完全性を検証することと、
前記バックグラウンド画像フレームの更新が不完全であると決定したことに応答して、どの非関心可動オブジェクトが不完全性を引き起こしたかを決定することと、
フォアグラウンド画像フレーム中に、不完全性を引き起こした前記非関心可動オブジェクトを含めることと、
前記バックグラウンド画像フレーム全体が更新されたと決定したことに応答して、前記バックグラウンド画像フレームおよび前記フォアグラウンド画像フレームのうちのいずれにも前記非関心可動オブジェクトを含めるのを控えることと、
前記関心可動オブジェクトを包含する前記フォアグラウンド画像フレームを作成することと、
更新された前記バックグラウンド画像フレームのピクセルのブロックを符号化することと、
前記フォアグラウンド画像フレームのピクセルのブロックを符号化することと、
第１のフレームレートを有する、符号化されたフォアグラウンド画像フレームのストリームを生成することと、
前記第１のフレームレートよりも低い第２のフレームレートを有する、符号化された更新されたバックグラウンド画像フレームのストリームを生成することと
を備える方法を実施するために、
プロセッサによって実行可能である、非一時的コンピュータ可読記憶媒体。