JP2021061580A

JP2021061580A - モニタリングカメラからのビットレートを低減するためにスキップブロックマスクを使用すること

Info

Publication number: JP2021061580A
Application number: JP2020148636A
Authority: JP
Inventors: ヨハンニストレーム，; Nystrom Johan; ファン，シンダニエルソン; Danielsson Fan Xing
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2019-09-19
Filing date: 2020-09-04
Publication date: 2021-04-15
Also published as: US11055976B2; US20210090413A1; CN112532982A; CN112532982B

Abstract

【課題】モニタリングカメラからのビットレートを低減するための技法を実装し使用する、コンピュータプログラム製品を含む方法及び装置を提供する。【解決手段】ビデオシーケンスを取り込むカメラにおいて実装するシステムにおいて、方法は、カメラの視野を表す画像の第１の領域を識別する第１の入力を受信する。第１の領域は、ビットレートに著しく寄与する。ついで、画像の第２の領域を識別する第２の入力を受信する。第２の領域は、モニタリングカメラのユーザにとって視覚的にほとんど関心がないと見なされる情報を含む。ついで、画像の第３の領域を決定する。第３の領域は、第１および第２の領域が少なくとも部分的にオーバーラップする領域である。第３の領域の少なくとも一部におけるスキップブロックを強制するビデオエンコーダ設定が適用され、それにより、第３の領域からのビットレートに対する寄与を低減する。【選択図】なし

Description

本発明は、ビデオエンコーディングに関し、より具体的には、モニタリングカメラによって取り込まれるビデオストリーム内の画像の特定の領域についてビットレートを低減することに関する。

モニタリングカメラは、種々の環境をモニターするために、多くの異なる用途で、室内と室外の両方で使用される。取り込まれるシーンを描写する画像を、例えば、オペレータまたは警備員がモニターすることができる。多くの状況において、取り込まれる画像の特定の部分は、オペレータにとって他の部分よりも関心がある。例えば、モニタリングカメラのオペレータは、建物入口の外で起こる活動に非常に関心がある場合があるが、例えば、建物に対する入口の上の点滅するネオンサインまたは風で動く木などの、移動するまたは変化するが重要でない画像内の他の特徴を見ることにあまり関心がない場合がある。別の例示的な状況において、カメラが、サッカーゲームなどのスポーツイベントを記録するために使用されるとき、カメラのオペレータは、サッカーフィールド上での活動の詳細を見ることに非常に関心がある場合があるが、観衆内で何が起こるかを見ることにあまり関心がない場合がある。一方、監視オペレータの場合、フィールドは、或るシナリオにおいて、観衆より関心が低い場合がある。

しかしながら、しばしば、関心が低いこれらの画像の領域は、移動対象物または点滅する光の形態で、大量の経時的な移動または変化をしばしば含むことによって、モニタリングカメラによって生成されるビットレートに著しく寄与する。そのような動的画像領域は、概して、静的画像領域に比べてエンコードするのにコストがかかる。これは、次いで、画像またはビデオストリーム内の最も「関心がある（ｉｎｔｅｒｅｓｔｉｎｇ）」情報のみが保持された場合に必要であることになるものに比べて、高い帯域幅と高い記憶域（ｓｔｏｒａｇｅ）の両方の使用をもたらす場合がある。したがって、モニタリングカメラによって生成されるビットレートをさらに低減するビデオエンコーディングに対する解決策を見出すことが関心深いことになる。

本出願の譲受人に譲渡された米国特許第１０，１２３，０２０号は、凝視検知（ｇａｚｅｓｅｎｓｉｎｇ）に基づくブロックレベル更新レート制御を記載する。その発明によれば、インターフレーム（ｉｎｔｅｒｆｒａｍｅ）をエンコードするときに、ビデオエンコーダがビデオのフレーム内にスキップブロックを送信するように強制することによって、ビデオエンコーダは画像内のブロックの更新レートを低減する。スキップブロックがビデオの一部分について指示されると、ビデオのその部分について画像データは送信されない。典型的には、これは、モニタリングカメラのオペレータの関心の中心にない画像の領域に適用される。

同様に本出願の譲受人に譲渡された米国特許第９，７５６，３４８号は、融合式デジタルビデオシーケンスを生成するための方法、デバイス、及びシステムを記載する。異なるピクセル密度（したがって、異なるビットレート）の２つのデジタルビデオシーケンスが生成される。適切であると考えられるピクセルブロック（例えば、動きまたは特定のタイプの対象物を含むピクセルブロック）が識別される。適切であると考えられないピクセルブロック（例えば、動きを含まないピクセルブロックまたは画像の背景に属するピクセルブロック）は、スキップブロックを使用してエンコードされ、それにより、カメラについてビットレートの低減をもたらす。

米国特許第９，１３１，１７３号は、スキップモード読み取りのためのデジタル画像撮影装置およびそれを制御する方法を記載する。撮像デバイスの撮像表面は複数の領域に分割される。第１のスキップモードは、目標対象物を含むと予想される領域に適用される。異なる第２のスキップモードは、目標対象物を含むと予想されない領域に適用されるため、異なる分解能を有する画像を、複数の領域から（例えば、目標対象物を含む画像の領域と比較して、目標対象物を含まない低い分解能を有する画像の領域によって）得ることができる。

米国特許第１０，１３６，１３２号は、変換サイズ決定と組み合わせた適応的スキップまたはゼロブロック検出を記載する。ビデオエンコーダは、計算労力を低減し、エンコーディングが実施される速度を上げるために、例えば、ブロックの輝度値の評価に基づいて、スキップモードエンコーディングを使用してピクチャーのブロックをスキップブロックおよび／またはゼロブロックとしてエンコードすることができるか否か、また、エンコーディングプロセスのどの段階でそのようにエンコードすることができるかを判定する。

利用可能な帯域幅および記憶域の効率的な使用を可能にするために、モニタリングカメラからのビットレートを低減するための技法を提供することが本発明の目的である。この目的および他の目的は、請求項１による方法、請求項１１によるシステム、請求項１２によるコンピュータプログラム製品、および請求項１３による記憶媒体によって達成される。

第１の態様によれば、これらの目的及び他の目的は、モニタリングカメラからのビットレートを低減するための、コンピュータシステム内の方法によって完全にまたは少なくとも部分的に達成される。方法は、
・カメラ視野を表す画像の第１の領域を識別する第１の入力を受信することであって、第１の領域はビットレートに著しく寄与する、受信すること、
・画像の第２の領域を識別する第２の入力を受信することであって、第２の領域は、モニタリングカメラのユーザにとって視覚的にほとんど関心がない(ｏｆｌｉｔｔｌｅｖｉｓｕａｌｉｎｔｅｒｅｓｔ)と見なされる情報を含む、受信すること、
・画像の第３の領域を決定することであって、第３の領域は第１および第２の領域が少なくとも部分的にオーバーラップする領域である、決定すること、および、
・第３の領域の少なくとも一部内にスキップブロックを強制するビデオエンコーダ設定を適用することであって、それにより、第３の領域からのビットレートに対する寄与を低減する、適用すること
を含む。

これは、カメラオペレータにとってほとんどまたは全く関心がない領域を、画像全体が従来技法を使用してコード化された場合と比較して、非常に少ないデータを使用しかつビットレートと記憶空間の両方において著しい低減をもたらすようにエンコードする方法を提供する。

１つの実施形態によれば、第１、第２、第３の領域は、カメラによって取り込まれる画像内のピクセルのブロックとして表される。ピクセルブロックに一致する領域を有することは、画像がサブエリアに分割され、サブエリア間の冗長性が解析されるビデオエンコーディングを行う一般的な方法である。したがって、本発明において同様の技法を使用することは、従来のビデオモニタリングシステムとの統合を容易にする。

１つの実施形態によれば、第２の入力はユーザ入力である。すなわち、ユーザは、どの領域が「重要である（ｉｍｐｏｒｔａｎｔ）」または「関心がある（ｏｆｉｎｔｅｒｅｓｔ）」と考えるかに関して決定を行い、そのような情報をエンコーダに提供することができる。これは、エンコーダ自身による「推測（ｇｕｅｓｓｗｏｒｋ）」に依存する必要があるのではなく、どの領域が、関心があるか否かについての決定に対してユーザが完全な制御を有ることを可能にする。

１つの実施形態によれば、第２の入力は、グラフィカルユーザインタフェースまたはアプリケーションプログラミングインタフェースを通してユーザによって生成される。これは、ユーザが画像のどの領域に対して関心があると考えるかについての入力をユーザがエンコーダに提供する好都合かつ直感的な方法を提供する。

１つの実施形態によれば、第２の入力は、画像セグメント化(ｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ)に基づいて自動的に生成される。これは、種々の使用事例について幅広い利点をもたらす。例えば、何百ものカメラを用いる広域現場据え付け(ｌａｒｇｅｓｉｔｅｉｎｓｔａｌｌａｔｉｏｎ)および構成の場合、１つずつ各カメラについてそのエリアをユーザに指定させる代わりに、セグメント化マップをより効率的に生成するためにディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）を使用することができる。

１つの実施形態によれば、第１の入力は、第１の領域をエンコードするためのコストを表す閾値に基づいて、ビデオエンコーダによって生成される。すなわち、閾値はユーザまたはエンコーダ自身によって設定することができ、その閾値は、画像の他の領域と比較して相対ベースでまたは絶対ベースで、どの領域が高ビットレート寄与を有するかを決定するためのカットオフ値として使用することができる。

１つの実施形態によれば、第１の入力は、画像の複雑さに基づいて、画像解析アルゴリズムによって生成される。すなわち、取り込まれる画像は、画像解析アルゴリズムによって解析することができ、画像解析アルゴリズは、画像のどの部分が複雑である（したがって、高ビットレートエンコーディングを必要とする）かを決定し、そのような画像エリアを第１の領域として識別する。

１つの実施形態によれば、ビデオエンコーダ設定を適用する前に、第３の領域の提案であって、ユーザが第３の領域の間で個々の領域を確認または拒否(reject)することを可能にするためのものである、提案を、モニタリングカメラのユーザに提供することができる。すなわち、スキップ領域計算ユニットは、何が適切な第３の領域（すなわち、スキップブロックとしてエンコードされる領域）であることになるかについて「ベストの推測（ｂｅｓｔｇｕｅｓｓ）」を行い、そのような領域の提案をユーザに提供しようとすることができる。ユーザは、その後、スキップ領域計算ユニットからの提案を受け入れるまたは拒否することができる。これは、（ユーザが全ての第２の領域を入力するときと比較して）第３の領域のより迅速な決定をもたらし、その後、そのような入力に基づいて第３の領域をエンコーダに決定させることができる。

１つの実施形態によれば、第３の領域の提案は、画像上のオーバーレイとしてユーザインタフェース上に提供される。すなわち、提案は、オーバーレイとしてユーザに提示することができ、オーバーレイは、提案された領域が、ユーザが心に抱いていた画像領域に対応するか否かをユーザが確かめることを容易にする。オーバーレイはまた、エンコーダによる全てのまたは個々の提案をユーザが受け入れるまたは拒否することを容易にする。

１つの実施形態によれば、方法は、モニタリングカメラからの推定ビットレートを計算すること、修正された第３の領域を決定するために、第１および第２の領域の少なくとも一部を修正すること、および、修正された第３の領域を使用して、モニタリングカメラから修正された推定ビットレートを計算することをさらに含む。これは、異なる「シナリオ（ｓｃｅｎａｒｉｏ）」、すなわち、異なる領域のセットが、ほとんど関心がないとして選択された場合にビットレートにとって何が起こることになるか、または、ビットレートに対する高い寄与であると考えられるべきものについて、異なる基準が設定された場合にビットレートにとって何が起こることになるかをユーザが比較することを可能にする。

１つの実施形態によれば、方法は、第１および第２の入力の一方または両方を修正するために、計算の結果を使用すること、および、修正された第１および第２の入力に従ってビデオエンコーダ設定を適用することをさらに含む。これは、元々の第３の領域のセットを異なる第３の領域のセットにユーザが変更することを可能にする。そのような方法で「実験し（ｅｘｐｅｒｉｍｅｎｔ）」、種々の修正を行う能力を有することは、近い将来に特定の監視状況について必要とされるビットレートおよび記憶空間の最適な低減をユーザが達成することを可能にすることができる。

第２の態様によれば、本発明は、モニタリングカメラからのビットレートを低減するためのシステムに関する。システムは、スキップ領域計算ユニットおよびエンコーダを含む。スキップ領域計算ユニットは、カメラ視野を表す画像の第１の領域であって、ビットレートに対して著しく寄与する、第１の領域を識別する第１の入力を受信し、画像の第２の領域であって、モニタリングカメラのユーザにとって視覚的にほとんど関心がないと見なされる情報を含む、第２の領域を識別する第２の入力を受信し、第１および第２の領域が少なくとも部分的にオーバーラップする領域である画像の第３の領域を決定するように構成される。エンコーダは、第３の領域の少なくとも一部内にスキップブロックを強制するように構成され、それにより、第３の領域からのビットレートに対する寄与を低減する。システムの利点は、方法の利点に対応し、同様に変動する場合がある。

第３の態様によれば、本発明は、モニタリングカメラからのビットレートを低減するためのコンピュータプログラムに関する。コンピュータプログラムは命令を含み、命令は、
・カメラの視野を表す画像の第１の領域を識別する第１の入力を受信するステップであって、第１の領域はビットレートに対して著しく寄与する、受信するステップ、
・画像の第２の領域を識別する第２の入力を受信するステップであって、第２の領域は、モニタリングカメラのユーザにとって視覚的にほとんど関心がないと見なされる情報を含む、受信するステップ、
・画像の第３の領域を決定するステップであって、第３の領域は第１および第２の領域が少なくとも部分的にオーバーラップする領域である、決定するステップ、および、
・第３の領域の少なくとも一部内にスキップブロックを強制するビデオエンコーダ設定を適用するステップであって、それにより、第３の領域からのビットレートに対する寄与を低減する、適用するステップに対応する。

第４の態様によれば、本発明は、そのようなコンピュータプログラムを含むデジタル記憶媒体に関する。コンピュータプログラム及び記憶媒体は、方法の利点に対応する利点を含み、その利点は同様に変動する場合がある。

本発明の１つまたは複数の実施形態の詳細が、添付図面および以下の説明において述べられる。本発明の他の特徴および利点は、説明および図面から、また、特許請求の範囲から明らかになる。

１つの実施形態による、モニタリングカメラからのビットレートを低減するためのシステムを示す図である。カメラによってモニターされるシーンの例を示す図である。図２においてカメラによって取り込まれる画像の主要な構造の例を示す図である。１つの実施形態による、図３の画像のピクセルをエンコーディングユニットにグループ化する例を示す図である。１つの実施形態による、図２においてカメラによって取り込まれる画像を、オーバーレイされたビットレート寄与マップと共に示す図である。本発明の種々の実施形態を実装することができるカメラの概略的な例を示す図である。

種々の図面における同様の参照符号は同様の要素を示す。

上述したように、本発明の種々の実施形態に関する１つの目的は、モニタリングカメラからのビットレートを低減することである。モニタリングカメラのユーザは、「重要でない（ｕｎｉｍｐｏｒｔａｎｔ）」情報を含むが、依然としてビットレートに著しく寄与する画像の領域を指定することができる。これらの領域が指定されると、これらの領域をスキップブロックとしてエンコーダに強制的にエンコードさせるスキップブロックマスクをその領域に適用することができる。スキップブロックは非常に少ないデータ、典型的には１ビットのみを含むため、ビットレートは、おそらく、この技法の使用を通して著しく低減される可能性がある。

本発明の実施形態は、スキップブロックマスクが適用されるべきである領域の選択時にユーザを補助するための種々のツールを含むことができる。例えば、ユーザは、異なる画像の領域からのビットレート寄与を示すオーバーレイを、モニタリングカメラによって取り込まれる画像上に提示されることができる。これらの領域は、本出願の他の部分において、「第１の領域（ｆｉｒｓｔｒｅｇｉｏｎ）」を意味する。ビットレート寄与は、例えば、より高い、例えば、所定の閾値を超えるビットレート寄与用の薄い赤、および、より低い、例えば、特定の閾値未満のビットレート寄与用の薄い緑など、異なる色の典型的には透明なオーバーレイの使用によって示すことができる。ユーザは、その後、スキップブロックマスクが適用されるべきであるこのマップから、例えば、高ビットレート寄与が存在するが、関心のある対象物が現れることが予想されない多数の領域を選択することができる。ユーザは、例えば、グラフィカルユーザインタフェース内でポリゴンを描くまたはそのような領域の座標を入力することによって、「重要でない」、すなわち視覚的にほとんど関心がない全ての領域を描写シーン内で示すことによって開始することができる。視覚的にほとんど関心がない領域は、本出願の他の部分において、「第２の領域（ｓｅｃｏｎｄｒｅｇｉｏｎ）」を意味する。その後、ユーザは、２つのタイプの領域の間のオーバーラップに基づいて、高ビットレートを有すると共に視覚的にほとんど関心がない画像内の多数の領域をスキップブロックマスキングするために選択することができる。スキップブロックマスクが適用される領域は、本出願の他の部分において、「第３の領域（ｔｈｉｒｄｒｅｇｉｏｎ）」を意味する。これらの領域は、高ビットレートの領域と視覚的にほとんど関心がない領域との間のオーバーラップにおいて見出される。

幾つかの実施形態は、どのタイプの対象物および／または領域を、ユーザが典型的に「重要でない」と考えるかを、経時的にまたは構成段階中に学習することができる種々のタイプの機械学習または人工知能ツールを含むことができる。上記で述べたように、そのような領域は、本出願の他の部分において、「第２の領域」を意味する。

「重要でない」領域のための提案を、スキップブロックマスキング決定に対する入力として使用される前に、確認のためにユーザに提示することができる。好都合なオプションとして、ユーザは、ビットレート寄与情報と「重要でない」領域の提案の両方を示すオーバーレイを提示される場合がある。どの領域が重要でないと提案されるかの情報を、パターン付き、例えば、ドット付きまたはストライプ付きとして提示することができる。これは、色をパターンに付加することによってビットレートを示すオーバーレイと好都合に組み合わせることができ、それにより、ユーザが、ソフトウェアからの提案を迅速に把握することを可能にする。１つの例は、提案された「重要でない」領域にストライプ付きパターンを付加し、同様に高ビットレート寄与を有するエリア内でそのようなストライプを赤で色付けすることであることになる。画像のそのようなオーバーレイまたはマーキングは、典型的には、揺動する枝を有する木を描写する画像領域内に現れることになり、ユーザは、その後、グラフィックユーザインタフェース内の領域の上部でポリゴンを描き、ポリゴンがスキップブロックマスクとして設定されるべきであることを示すことによってなどで、ユーザインタフェース内のエリアを選択することによって、スキップブロックマスクをそのエリアに適用しようと決定することができる。そして、その効果は、木がその枝をフレームごとに移動させるにもかかわらず、この画像領域が、残りの画像よりずっとゆっくりしたレートで、例えば、フレームごと、の代わりにＧＯＰについて１回、更新することになるということであろう。明らかに、多くの異なるオプションが、存在し、ユーザに提案をどのように提示するかについてユーザインタフェース設計者に利用可能である。

幾つかの実施形態において、ユーザは、種々のスキップブロックマスクについての提案を提供される場合があり、モニタリングカメラによって取り込まれる画像に特定のスキップブロックマスクが適用されるときに、カメラからのビットレートがどのように変化することになるかを示す「前の（ｂｅｆｏｒｅ）」および「後の（ａｆｔｅｒ）」値を提示される場合がある。ユーザは、その後、この情報に基づいて、好みに合わせてスキップブロックマスクを構成することができる。

本明細書で述べる発明の詳細をよりよく認識するために、種々の実施形態による画像エンコーディングの概要がここで述べられる。モニタリングカメラによって取り込まれる画像は、通常、画像を閲覧および／または記憶することができるコントロールセンタなどのユーザのサイトに送信される。代替的に、画像は、いわゆる「エッジストレージ（ｅｄｇｅｓｔｏｒａｇｅ）」に、すなわち、ＳＤカード上など、カメラに搭載されたカメラのストレージに、または、ＮＡＳ（：ｎｅｔｗｏｒｋａｔｔａｃｈｅｄｓｔｏｒａｇｅ、ネットワークアタッチドストレージ）上など、カメラに接続したカメラのストレージに記憶することができる。送信またはエッジストレージの前に、画像は、帯域幅および記憶空間を節約するために、通常、エンコーダによってエンコードされる。エンコーディングは、多くの異なる方法で、例えば、Ｈ．２６４規格または他のエンコーディング規格に従って実施することができる。

多くのデジタルビデオエンコーディングシステムにおいて、２つの主要なモード：イントラモード（ｉｎｔｒａｍｏｄｅ）およびインターモード（ｉｎｔｅｒｍｏｄｅ）が、ビデオフレームのシーケンスのビデオフレームを圧縮するために使用される。イントラモードにおいて、輝度およびクロミナンスチャネル（または、場合によっては、ＲＧＢまたはベイヤーデータ（Ｂａｙｅｒｄａｔａ））は、予測、変換、エントロピーコーディングによって、単一フレームの所与のチャネル内のピクセルの空間冗長性を利用することによってエンコードされる。エンコードされたフレームは、イントラフレーム（ｉｎｔｒａ−ｆｒａｍｅ）と呼ばれる（「Ｉフレーム（Ｉ−ｆｒａｍｅ）」とも呼ばれる）。Ｉフレーム内で、マクロブロックとも呼ばれるピクセルのブロック内で、コーディングユニットまたはコーディングツリーユニットは、イントラモード内でエンコードされる、すなわち、それらは、同じ画像フレーム内の同様のブロックを参照してエンコードされる、または、参照なしでｒａｗコード化される。

対照的に、インターモードは、別個のフレーム間の時間冗長性を利用し、また、動き補償予測技法に依存する。動き補償予測技法は、選択されたピクセルのブロックについて１つのフレームから別のフレームへのピクセルの動きをエンコードすることによって、１つまたは複数の参照フレームからフレームの所定の部分を予測する。エンコードされたフレームは、インターフレーム、デコーディング順序において直前のフレームを参照することができるＰフレーム（前方予測されるフレーム（ｆｏｒｗａｒｄ−ｐｒｅｄｉｃｔｅｄｆｒａｍｅ））、または、直前にデコードされた２つ以上のフレームを参照することができるＢフレーム（双方向に予測されるフレーム（ｂｉ−ｄｉｒｅｃｔｉｏｎａｌｌｙｐｒｅｄｉｃｔｅｄｆｒａｍｅ））と呼ばれ、予測のために使用されるフレームの任意の表示順序関係を有することができる。インターフレーム内で、ピクセルのブロックは、直前にデコードされた画像内の同様のブロックを参照してピクセルのブロックがエンコードされることを意味するインターモードで、あるいは、ピクセルのブロックが、同じ画像フレーム内の同様のブロックを参照してエンコードされるまたは参照なしでｒａｗコード化されることを意味するイントラモードでエンコードすることができる。スキップブロックは、参照フレーム内のピクセルの対応するブロックであって、その対応するブロックから、画像コンテンツが完全に複製されるべきである、対応するブロックを参照する、ピクセルのインターモードコード化ブロックであり、

エンコードされた画像フレームは、ピクチャー群（ＧＯＰ：ｇｒｏｕｐｏｆｐｉｃｔｕｒｅ）内に配置される。各ＧＯＰは、いずれの他のフレームも参照しないＩフレームで開始し、他のフレームを実際に参照する多数のインターフレーム（すなわち、ＰフレームまたはＢフレーム）が続く。画像フレームは、取り込まれるまたは表示されるのと同じ順序で必ずしもエンコードされデコードされる必要はない。唯一の固有の制限は、参照フレームとして役立つフレームが、それを参照として使用する他のフレームをエンコードすることができる前にデコードされなければならないことである。

上記で述べたように、スキップブロックマスクが作成される画像領域、すなわち、第３の画像領域において、エンコーダは、１つの実施形態において、例えば、Ｉフレームを除くＧＯＰ内の全てのフレームについて、または、さらに長い期間についてスキップブロックを強制する。これは、シーンが非常にしばしば変化しない場合に適する場合がある。別の実施形態において、これらの第３の画像領域を、全ての非Ｉフレームについて整合するスキップマップが存在するように、フレームごとにまたはかなり高いフレームレートで解析することができる。スキップ期間は、ユーザによって選択され、異なる「スキップブロックマスク（ｓｋｉｐｂｌｏｃｋｍａｓｋ）」について異なる可能性がある。Ｉフレームをマスクしないことによって、スキップブロックマスクによってマスクされる領域の単純な「時間経過ビュー（ｔｉｍｅ−ｌａｐｓｅｖｉｅｗ）」を作成することができる（すなわち、再生されると、Ｉフレームのみが見えることになる）ことが留意されるべきである。これは、例えば、小売り環境などの特定のシナリオにおいて有用である場合がある。

当業者によって認識されるように、本発明の態様は、システム、方法、またはコンピュータプログラム製品として具現化することができる。したがって、本発明の態様は、「回路（ｃｉｒｃｕｉｔ）」、「モジュール（ｍｏｄｕｌｅ）」、または「システム（ｓｙｓｔｅｍ）」として本明細書で全てを概して参照することができる、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、または、ソフトウェア態様およびハードウェア態様を組み合わせる実施形態の形態をとることができる。さらに、本発明の態様は、コンピュータ可読プログラムコードがその上で具現化されている１つまたは複数のコンピュータ可読媒体（複数可）において具現化されたコンピュータプログラム製品の形態をとることができる。

１つまたは複数のコンピュータ可読媒体（複数可）の任意の組み合わせを利用することができる。コンピュータ可読媒体はコンピュータ可読信号媒体またはコンピュータ可読記憶媒体とすることができる。コンピュータ可読記憶媒体は、例えば、限定することなく、電子、磁気、光、電磁、赤外、または半導体のシステム、装置、またはデバイス、あるいは上記の任意の適切な組み合わせとすることができる。コンピュータ可読記憶媒体のより特定の例（非網羅的なリスト）は、以下：１つまたは複数のワイヤを有する電気接続、可搬型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、可搬型コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせを含むことになる。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスが使用するためのまたはそれに接続して使用するためのプログラムを含むまたは記憶することができる任意の有形の媒体とすることができる。

コンピュータ可読信号媒体は、例えば、ベースバンドにおけるまたは搬送波の一部としての、内部で具現化されたコンピュータ可読プログラムコードを有する伝搬データ信号を含むことができる。そのような伝搬信号は、限定はしないが、電磁、光、またはその任意の適切な組み合わせを含む種々の形態のうちの任意の形態をとることができる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、装置、またはデバイスが使用するためのまたはそれに接続して使用するためのプログラムを、通信する、伝搬させる、または輸送することができる任意のコンピュータ媒体とすることができる。

コンピュータ可読媒体上で具現化されるプログラムコードは、限定はしないが、無線、有線、光ファイバケーブル、ＲＦなど、または上記の任意の適切な組み合わせを含む任意の適切な媒体を使用して伝送することができる。本発明の態様のための操作を実施するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋、または同様なものなどのオブジェクト指向プログラミング言語、および、「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードを、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にユーザのコンピュータ上で、および、部分的にリモートコンピュータ上であるいは完全にリモートコンピュータまたはサーバ上で実行することができる。後者のシナリオにおいて、リモートコンピュータは、ローカル領域ネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通してユーザのコンピュータに接続することができる、または、接続を、（例えば、インターネットサービスプロバイダを使用するインターネットを通して）外部コンピュータに対して行うことができる。

本発明の態様は、本発明の実施形態による、方法、装置（システム）、およびコンピュータプログラム製品のフローチャート図および／またはブロッダイアグラムを参照して述べられる。フローチャート図および／またはブロッダイアグラムの各ブロックおよびフローチャート図および／またはブロッダイアグラム内のブロックの組み合わせを、コンピュータプログラム命令によって実装することができることが理解されるであろう。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置に提供されて、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行される命令が、フローチャートおよび／またはブロックダイアグラムの１つまたは複数のブロックにおいて指定される機能／動作を実装するための手段を作成するような機械を生成することができる。

コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスが特定の方法で機能するように指示することができるこれらのコンピュータプログラム命令はまた、コンピュータ可読媒体に記憶することができ、それにより、コンピュータ可読媒体に記憶された命令は、フローチャートおよび／またはブロックダイアグラムの１つまたは複数のブロックにおいて指定される機能／動作を実装する命令を含む製造品を生成する。

コンピュータプログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイス上にロードされて、一連の操作ステップがコンピュータ、他のプログラム可能な装置、または他のデバイス上で実施されるようにさせ、それにより、コンピュータまたは他のプログラム可能な装置上で実行される命令が、フローチャートおよび／またはブロックダイアグラムの１つまたは複数のブロックにおいて指定される機能／動作を実装するためのプロセスを提供するようなコンピュータ実装式プロセスを生成することができる。

本発明の種々の実施形態による技法は、ここで、例としてまた図を参照して述べられる。

図１は、種々の実施形態による画像エンコーディング技法を実装することができるシステム１００を示す概略的なブロックダイアグラムである。システム１００は、例えば、シーンの画像（例えば、ビデオシーケンス）を取り込むカメラにおいて実装することができる。システム１００は、画像センサ１０２、スキップ領域計算ユニット１０４、スケーラ１０６、およびエンコーダ１０８を備える。簡潔に言えば、画像センサ１０２はシーンの画像を取り込み、スキップ領域計算ユニット１０４は、第１および第２の領域に基づいて第３の領域を決定し、スケーラ１０６は、画像をダウンスケールすることまたはアップスケールすること、画像を回転させること、種々のタイプのオーバーレイを付加することなどのようなさらなる操作を実施し、エンコーダ１０８は、画像をエンコードし、スキップブロックとしてエンコードされる第３の領域に的を絞る。これらの操作は以下でさらに詳細に述べられるであろう。

カメラによってモニターされるシーンの例は図２に示される。シーン２００において、窓２０４、２１４および出入口２０６を有する家２０２が存在する。車２０８は家の前に駐車され、第１の人２１０は家の外で立っている。第２の人２１２は家の中におり、窓２０４、２１４の一方を通して見ることができる。

カメラ２１６は、カメラ内のシステム１００のセンサ１０２を使用してシーンの画像を取り込む。図３は、センサ１０２によって取り込まれる画像３０２の主要な構造を示す。画像３０２は、画像センサ１０２のピクセルに対応する多数のピクセル３０４で構成される。画像は、例えば、１２８０×７２０ピクセル、１９２０×１０８０ピクセル、または３８４０×２１６０ピクセルで構成することができる。

センサ１０２によって取り込まれる画像は、例えば、ノイズ低減、ローカルトーンマッピング、空間的および時間的フィルタリングなどを含む標準的な画像処理を受ける。画像は、その後、スキップ領域計算ユニット１０４に送信される。本明細書で述べる発明の種々の実施形態のために、スキップ領域計算ユニット１０４によって実施される１つの重要な操作は、図４に示すように、画像３０２のピクセル３０４を、近傍ピクセル３０４のエンコーディングユニット４０２にグループ化することを含む。エンコーディングユニット４０２はまた、ブロック、マクロブロック、ピクセルブロック、コーディングツリーユニット、またはコーディングユニットとも呼ばれる。エンコーディングユニット４０２は、典型的には正方形であり、例えば、８×８、１６×１６、または３２×３２ピクセルで構成される。しかしながら、ピクセル３０４を他のサイズおよび形状のエンコーディングユニット４０２にグループ化することも可能である。図４のエンコーディングユニット４０２のサイズが、例示および説明のために、図３のピクセルのサイズと比較して誇張されていることが留意されるべきである。実際のシナリオにおいて、典型的には、図３のピクセル３０４の数について膨大な数のエンコーディングユニット４０２が存在することになる。ビットレート寄与値は、各エンコーディングユニット４０２について決定される。各エンコーディングユニットについてのビットレート寄与値は、多数の方法で、例えば、エンコーダのコスト関数を使用することによって決定することができる。コストに基づいて、エンコーダは、エンコーディングユニットが、イントラコード化されるべきか、インターコード化されるべきか、またはスキップブロックとしてコード化されるべきかを判定することができる。

図５は、カメラ２１６によって取り込まれた画像５０２を示す。画像を調査することから推察することができるように、木の上の空が、例えば、特に風の強い日に、通過する雲などによって、十分にそうであるように、画像の右側の木は、ビットレートに対する高い寄与を有する場合がある。ユーザは、画像のこれらの部分が監視の観点からそれほど重要でないと決定することができ、したがって、彼女は、スキップブロックマスクを、これらの高ビットレート領域に適用することができることを指示することができる。上記で述べたように、スキップブロックは、典型的には、１ビットのデータを使用するため、モニタリングカメラからのビットレートのかなりの節約を得ることができる。

さらに、幾つかの実施形態において、人工ニューラルネットワークなどの機械学習システムは、どの特徴が、典型的に、１人または複数人のユーザによって重要であると考えられないかを学習するために使用することができる。例えば、システムは、モニタリングカメラの典型的なユーザが、木の画像を記録することに関心がないことを学習することができる。システムは、その後、画像内で、木、空などを自動的に識別し、スキップブロックマスクをエンコーダに提案する。任意選択で、システムはまた、代替のスキップブロックマスクをユーザに提示することができ、ユーザは、情報がエンコーダに渡される前に、異なる代替物の間でどのスキップブロックマスクを使用するかに関して決定する可能性がある。やはり、スキップブロックマスク選択の多くの変形が、当業者に利用可能である。

図６において、図１に示すシステムなどのシステム１００を含むカメラ２１６が示される。カメラ２１６はまた、多数の他の構成要素を有するが、これらは、本発明の一部でないため、示されず、本明細書でさらに論じられないであろう。カメラ２１６は、可視光カメラ、ＩＲカメラ、またはサーマルカメラなどの任意の種類のカメラとすることができる。

図６に関連して述べるように、エンコーディングシステム１００をカメラ２１６に統合することができる。しかしながら、幾つかの部分またはエンコーディングシステム１００全体を別個に配置し、それをカメラに動作可能に接続することも可能である。スキップブロックマスクがない状態で、カメラから、例えばコントロールセンタに画像を送信し、コントロールセンタにおいて、例えば、ＶＭＳ（：ＶｉｄｅｏＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ、ビデオ管理システム）においてスキップブロックマスクを適用することも可能である。そのような場合、エンコーディングシステムは、ＶＭＳ内にまたはそうでなければコントロールセンタ内に配置され、いわゆるトランスコーディングのために使用することができる。トランスコーディングにおいて、エンコードされた画像は、カメラから受信され、デコードされ、その後再エンコードされるが、ここではスキップブロックマスクがある状態である、

本明細書で述べる発明の種々の実施形態は、イントラフレームおよび後続のインターフレームを有するＧＯＰ構造、例えば、それらの全てが当業者によく知られているＨ．２６４、Ｈ．２６５ＭＰＥＧ−４Ｐａｒｔ２、ＶＰ８、またはＶＰ９を使用して任意のエンコーディングスキームと共に使用することができる。

図のフローチャートおよびブロックダイアグラムは、本発明の種々の実施形態による、システム、方法、およびコンピュータプログラム製品の考えられる実装態様のアーキテクチャ、機能、および操作を示す。この点に関して、フローチャートまたはブロックダイアグムの各ブロックは、指定された論理機能（複数可）を実装するための１つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または所定の部分を表すことができる。幾つかの代替の実装態様において、ブロック内で述べる機能は、図で述べる順序から外れて起こる場合がある。たとえば、連続して示す２つのブロックを、実際には、実質的に同時に実行することができる、または、ブロックを、関係する機能に応じて、時として逆順で実行することができる。ブロックダイアグラムおよび／またはフローチャート図の各ブロックならびにブロックダイアグラムおよび／またはフローチャート図のブロックの組み合わせが、指定された機能または動作を実施するあるいは専用ハードウェア命令およびコンピュータ命令の組み合わせを実施する専用ハードウェアベースシステムによって実装することができることも留意されるであろう。

本発明の種々の実施形態の説明は、例示のために提示されたが、網羅的であることまたは開示される実施形態に限定されることを意図されない。多くの修正形態および変形形態は、述べる実施形態の範囲および趣旨から逸脱することなく当業者に明らかになる。例えば、エンコーダは、上述したように、典型的には、コーディングユニットが、イントラコード化されるべきか、インターコード化されるべきか、またはスキップブロックとしてコード化されるべきかを判定するが、ユーザがエンコーディングのタイプを明示的に指定する実施形態も存在する場合がある。これは、例えば、プロセスの始めに、または、エンコーダによって提供される提案をユーザが検討し、確認またはオーバーライドすることによって、ユーザインタフェースを通して手作業で行うことができる。典型的には、ユーザは、単に、どのコーディングユニットがスキップブロックとしてコード化されるべきかを指定し、イントラブロックコーディング対インターブロックコーディングに関するコーディング決定をエンコーダに任せる。こうして、特許請求項の範囲内に入る多くの他の変形形態を、当業者が想定することができる。

本明細書で使用する用語は、実施形態の原理、実際の用途、または市場で見出される技術に勝る技術的改善を最もよく説明するために、または、本明細書で開示される実施形態を当業者が理解することを可能にするために選択された。

Claims

モニタリングカメラからのビットレートを低減するための方法であって、
画像の第２の領域を識別する第２の入力を受信することであって、前記第２の領域は、前記モニタリングカメラのユーザにとって視覚的にほとんど関心がないと見なされる情報を含む、受信すること、
カメラから取り込まれ、カメラの視野を表す画像の第１の領域を識別する第１の入力を受信することであって、前記第１の領域は所定の閾値にわたってビットレート寄与を有する、受信すること、
前記画像の第３の領域を決定することであって、前記第３の領域は前記第１の領域と前記第２の領域がオーバーラップする領域である、決定すること、および、
参照フレーム内のピクセルの対応するブロックであって、対応するブロックから、対応する画像コンテンツが完全に複製される、対応するブロックを参照するピクセルのインターモードコード化ブロックとして前記第３の領域の少なくとも一部をエンコードするビデオエンコーダ設定を適用することであって、それにより、前記第３の領域からのビットレートに対する寄与を低減する、適用すること
を含む、方法。
前記第１の領域、前記第２の領域、前記第３の領域は、前記カメラによって取り込まれる画像内のピクセルのブロックとして表される、請求項１に記載の方法。
前記第２の入力はユーザ入力である、請求項１または２に記載の方法。
前記第２の入力は、グラフィカルユーザインタフェースまたはアプリケーションプログラミングインタフェースを通してユーザによって生成される、請求項３に記載の方法。
前記第２の入力は、画像セグメント化に基づいて自動的に生成される、請求項１または２に記載の方法。
前記第１の入力は、前記第１の領域をエンコードするためのコストを表す閾値に基づいて、前記ビデオエンコーダによって生成される、請求項１から５のいずれか一項に記載の方法。
前記第１の入力は、前記画像の複雑さに基づいて、画像解析アルゴリズムによって生成される、請求項１から５のいずれか一項に記載の方法。
前記ビデオエンコーダ設定を適用する前に、前記第３の領域の提案であって、前記ユーザが前記第３の領域の間で個々の領域を確認または拒否することを可能にする提案を、前記モニタリングカメラのユーザに提供することをさらに含む、請求項１から７のいずれか一項に記載の方法。
前記第３の領域の前記提案は、前記画像上のオーバーレイとしてユーザインタフェース上に提供される、請求項８に記載の方法。
前記モニタリングカメラからの推定ビットレートを計算すること、
修正された第３の領域を決定するために、前記第１の領域および前記第２の領域の少なくとも一部を修正すること、および、
前記修正された第３の領域を使用して、前記モニタリングカメラから、修正された推定ビットレートを計算すること
をさらに含む、請求項１から９のいずれか一項に記載の方法。
前記第１の入力および前記第２の入力の一方または両方を修正するために、前記計算の結果を使用すること、および、
修正された第１の入力および修正された第２の入力に従ってビデオエンコーダ設定を適用すること
をさらに含む、請求項１０に記載の方法。
モニタリングカメラからのビットレートを低減するためのシステムであって、
スキップ領域計算ユニット１０４を備え、前記スキップ領域計算ユニット１０４は、
カメラの視野を表す画像の第１の領域であって、所定の閾値にわたってビットレート寄与を有する、第１の領域を識別する第１の入力を受信し、
前記画像の第２の領域であって、前記モニタリングカメラのユーザにとって視覚的にほとんど関心がないと見なされる情報を含む、第２の領域を識別する第２の入力を受信し、
前記第１の領域および前記第２の領域がオーバーラップする領域である前記画像の第３の領域を決定するように構成され、
エンコーダを備え、前記エンコーダは、参照フレーム内のピクセルの対応するブロックであって、対応するブロックから、対応する画像コンテンツが完全に複製される、対応するブロックを参照するピクセルのインターモードコード化ブロックとして前記第３の領域の少なくとも一部をエンコードするように構成され、それにより、前記第３の領域からのビットレートに対する寄与を低減する、システム。
モニタリングカメラからのビットレートを低減するためのコンピュータプログラムであって、プログラムは命令を含み、前記命令は、
カメラの視野を表す画像の第１の領域を識別する第１の入力を受信するステップであって、前記第１の領域は所定の閾値にわたってビットレート寄与を有する、受信するステップ、
前記画像の第２の領域を識別する第２の入力を受信するステップであって、前記第２の領域は、前記モニタリングカメラのユーザにとって視覚的にほとんど関心がないと見なされる情報を含む、受信するステップ、
前記画像の第３の領域を決定するステップであって、前記第３の領域は前記第１の領域と前記第２の領域がオーバーラップする領域である、決定するステップ、および、
参照フレーム内のピクセルの対応するブロックであって、対応するブロックから、対応する画像コンテンツが完全に複製される、対応するブロックを参照するピクセルのインターモードコード化ブロックとして前記第３の領域の少なくとも一部をエンコードするビデオエンコーダ設定を適用するステップであって、それにより、前記第３の領域からのビットレートに対する寄与を低減する、適用するステップ
に対応する、コンピュータプログラム。
請求項１３に記載のコンピュータプログラムを含むデジタル記憶媒体。