JP7122350B2

JP7122350B2 - トランスコーディングをしないポストマスキング

Info

Publication number: JP7122350B2
Application number: JP2020154217A
Authority: JP
Inventors: ヴィクトルエドパルム，; ソンユアン，
Original assignee: アクシスアーベー
Priority date: 2019-09-20
Filing date: 2020-09-15
Publication date: 2022-08-19
Anticipated expiration: 2040-09-15
Also published as: US11076156B2; EP3796655B1; US20210092387A1; EP3796655A1; JP2021064936A; CN112543327A; CN112543327B

Description

本発明は、ビデオエンコーディングの分野に関する。特に、本発明は、ビデオカメラにより撮像されたビデオストリーム上にプライバシマスキングを提供する方法及びシステムに関する。

ビデオカメラは、様々な環境をモニタリングするために、屋内及び屋外の双方での多くの異なるアプリケーションにて使用される。撮像されたシーンを描く画像は、オペレータ又はガードなどにより監視される場合がある。特定のシチュエーションにおいて、例えば、パーソナルインテグリティの利益のために、画像の一部を除外する必要がある場合など、撮像された画像の一部を、別の部分とは異なって扱わなければならない場合がある。例えば、警察官により装着されるものといった、身体装着式カメラ（ｂｏｄｙｗｏｒｎｃａｍｅｒａ又はＢＷＣ）の場合では、ＢＷＣにより記録されたシーンにおいて、顔やライセンスプレートなどを隠すことが望ましい場合がある。

そのような例では、１つ又はそれ以上のプライバシマスクが、画像のそれらのエリアに適用されてよい。典型的には、プライバシマスクはしばしば、オーバーレイとして画像に適用される。いくつかのプライバシマスクは、不透明なエリア（例えば、均一に黒いエリア）の形態をとる。一方、他のプライバシマスクは、ピクシレーションの形態をとる。ここでは、プライバシマスク内側の画像は、ピクシレーションブロックに分割され、ピクシレーションブロック内のピクセルのすべてには、同じ値、一般的には、ピクシレーションブロック内のピクセルのいくつか又はすべての平均値、が与えられる。これらのアプローチの双方では、しかし、画像の、プライバシマスクエリア内側が、「塊状」に見える。これは、美的な視点から、とても好適なものとは言えない。他のタイプのプライバシマスクもある。例えば、不明瞭化するプライバシマスクは、美的な視点から、より好適なものとなる。しかし、これらの技術は、現在、ＢＷＣなどの特定のデバイス上に実装する際に、過剰な電力を必要とする。したがって、プライバシマスキング技術を改善する必要がある。

上記を鑑み、本発明の目的はしたがって、上記の問題を克服するか、又は少なくとも軽減することである。特に、本発明の目的は、ビデオストリームをトランスコーディングすることを必要とせずに、プライバシマスクをビデオストリーム上に提供する技術を提供することである。この目的及び他の目的は、請求項１に記載の方法と、請求項１０に記載のエンコーダシステムと、請求項１２に記載のコンピュータプログラム製品と、請求項１４に記載のデジタル記憶媒体と、により達成される。

第１の態様によると、この目的及び他の目的は、コンピュータシステムにおける、プライバシマスクをビデオストリーム上に提供する方法により、完全に、又は、少なくとも部分的に、達成される。この方法は、
モニタリングカメラから受信したビデオにおいて、そのビデオ内に、プライバシマスクを適用すべき、少なくとも１つのイメージ領域を選択することと、
少なくとも１つのイメージ領域を含むビデオにおけるいずれのイメージフレームに対して、
イメージフレームに対して、非表示イメージフレームを示すフラグを設定することと、
非表示イメージフレームを参照する、前方予測されたイメージフレームを挿入することであって、前方予測されたイメージフレームにおいて、少なくとも１つのイメージ領域を曖昧にすることにより、少なくとも１つのイメージ領域を表すコーディングユニットが、プライバシマスクをまとめて提供する、非表示イメージフレームを参照する、前方予測されたイメージフレームを挿入することと、を含む。

この方法は、ビデオをトランスコーディングすることを必要としないポストマスキングのための、非常に便利なソリューションを提供する。そのようなソリューションは、例えば、一般データ保護規則（ＧｅｎｅｒａｌＤａｔａＰｒｏｔｅｃｔｉｏｎＲｅｇｕｌａｔｉｏｎ又はＧＤＰＲ）又は同様のものを理由として、顔（又は、ライセンスプレートなど）のすべてを不明瞭にすることが必要な場合があるＢＷＣに特に有益である。

加えて、この方法は、リバーシブルプロセスを提供し、画像のプライバシマスクが適用された部位の「アンマスキング（ｕｎｍａｓｋｉｎｇ）」を、それが必要となる場合に、後に行うことができるようになっている。これは、例えば、法的なことを理由としてあり得る、又は、ある人々が、プライバシマスクが適用されたバージョンのビデオのみを見ることが許され、一方で他の人々が、マスクされていないバージョンのビデオにアクセスすべきシチュエーションの場合がある。

別の利点としては、プライバシマスキングは、カメラ自体にではなく、メインユニットにて行うことができる、ということが挙げられる。これは、カメラが複雑なものとならないようにし、この技術を、ＢＷＣに対して、又は、各種の理由により、小型とする又は複雑でなくする必要があり得る他のカメラに対して、特に有益にする。

この方法を使用することはまた、コストのかかるビデオのトランスコーディングをも回避する。トランスコーディングを回避することはまた、特定のカメラにてビデオが実際に撮像されてエンコードされたことを容易に証明できるという利点がある。これは、ＢＷＣなどの、カメラが容易に携帯可能であり、撮像されたビデオが続いて、法的なコンテキストにおける証拠の目的に使用され得るケースに、特に重要となる場合がある。

１つの実施形態によると、前方予測されたイメージフレームにおいて、少なくとも１つのイメージ領域外のエリアを表すコーディングユニットは、スキップブロックとして設定される。スキップブロックは、ピクセルの、インターモードにてエンコードされたブロックである。これは、参照フレームにおける、ピクセルの対応するブロックを参照する。この対応するブロックから、イメージコンテンツが完全にコピーされるべきである。スキップブロックを使用することはしたがって、いずれのマスクされていないエリアを、オリジナルの画像におけるそれらとまったく同じままにすることができる。加えて、スキップブロックをエンコーディングすることは、必要とするデータが非常に少なく、これは、画像を効率的にエンコードする方法を提供する。

１つの実施形態によると、少なくとも１つのイメージ領域を選択することは、ユーザにより行われる。これは、どの対象がマスクされるべきであるかの正確かつ精密な選択を可能にする。例えば、数人の個人の顔のみがマスクされるべきであり、一方で他の個人の顔は視認可能であるべきシチュエーションがある。そのような選択を人がすることは、イメージアルゴリズムがそのようにすることと比較して、より効率的である。

１つの実施形態によると、少なくとも１つのイメージ領域を選択することは、対象検出技術を使用して自動的に行われる。これは、画像における、駐車場内にあるたくさんの自動車のライセンスプレートのすべて、又は、赤い上着を着用しているいずれの個人など、特定が容易なたくさんの対象を選択する効率的な方法を提供し得る。特定の実施形態では、対象検出技術による自動選択が可能であり、これは続いて、上述するように、人であるオペレータにより検証される。これは、有益なシナジー効果を可能とし得る。

１つの実施形態によると、前方予測されたイメージフレームにおいて、少なくとも１つのイメージ領域を表すコーディングユニットが配置され、コーディングユニットについての人工的な動きベクトルを導入することにより曖昧さを提供し、これにより、少なくとも１つのイメージ領域を不明瞭にさせる。動きベクトルを使用することは、実装がシンプルであり、構成される各種の動きのパターン及び程度のために可能であり、これにより、異なる程度に不明瞭化することを達成する。

１つの実施形態によると、前方予測されたイメージフレームにおいて、少なくとも１つのイメージ領域を表すコーディングユニットが配置され、少なくとも１つのイメージ領域におけるコーディングユニットを取り換えることにより曖昧さを提供する。これは、マスクされている対象を、それを不明瞭化するのではなく、完全に「拭い去る」効果を有する。これは、その「拭い去る」効果が、「不明瞭化する」効果よりも、所望される特定の状況において有益となり得る。

１つの実施形態によると、前方予測されたイメージフレームにおいて、少なくとも１つのイメージ領域を表すコーディングユニットが配置され、コーディングユニットを、非表示イメージフレームから取得されたイメージデータが選択的に不明瞭にされているイントラブロックと取り換えることにより曖昧さを提供し、これにより、少なくとも１つのイメージ領域を不明瞭にさせる。これは、不明瞭化することの、さらに別の代替案であり、マスクされた対象を、会社のロゴ、スマイリーフェイス、漫画のキャラクター、又は、眼前の特定の状況のセットに依存し得る何らかの場合などの他のものと完全に取り換えることが所望される場合に使用できる。

１つの実施形態によると、モニタリングカメラは、身体装着式カメラ（ｂｏｄｙｗｏｒｎｃａｍｅｒａ又はＢＷＣ）である。この方法を使用することは、有する演算能力が限られている、ＢＷＣなどの小型のカメラ、及び、法の執行を理由として、又は、記録したビデオの特定のエリアを「アンマスク（ｕｎｍａｓｋ）」する続いての必要性、のどちらかの、特別なプライバシの懸念があり得る場合に、特に有益である。

１つの実施形態によると、ビデオは、次のフォーマット、すなわち、高効率ビデオコーディング（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）、バーサタイルビデオコーディング（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）、エッセンシャルビデオコーディング（ＥｓｓｅｎｔｉａｌＶｉｄｅｏＣｏｄｉｎｇ）、ＶＰ９、及びＡＶ１、の内の１つにてエンコードできる。つまり、本発明に係る本方法は、幅広い標準エンコーディングフォーマットに適用でき、したがって、デコーディングのためのいずれの特別なカスタム機器を必要としない。

第２の態様によると、本発明は、プライバシマスクをビデオストリーム上に提供するエンコーダシステムに関する。エンコーダシステムは、ドッキングステーションと、エンコーダと、を含む。ドッキングステーションは、モニタリングカメラからビデオを受信するよう構成されている。エンコーダは、
ビデオ内に、プライバシマスクを適用すべき、少なくとも１つのイメージ領域を選択し、
少なくとも１つのイメージ領域を含むビデオにおけるいずれのイメージフレームに対して、
イメージフレームに対して、非表示イメージフレームを示すフラグを設定し、
非表示イメージフレームを参照する、前方予測されたイメージフレームを挿入し、前方予測されたイメージフレームにおいて、少なくとも１つのイメージ領域を曖昧にすることにより、少なくとも１つのイメージ領域を表すコーディングユニットが、プライバシマスクをまとめて提供する、というように構成されている。

第３の態様によると、本発明は、プライバシマスクをビデオストリーム上に提供するコンピュータプログラムに関する。コンピュータプログラムは、
モニタリングカメラから受信したビデオにおいて、そのビデオ内に、プライバシマスクを適用すべき、少なくとも１つのイメージ領域を選択することと、
少なくとも１つのイメージ領域を含むビデオにおけるいずれのイメージフレームに対して、
イメージフレームに対して、非表示イメージフレームを示すフラグを設定することと、
非表示イメージフレームを参照する、前方予測されたイメージフレームを挿入することであって、前方予測されたイメージフレームにおいて、少なくとも１つのイメージ領域を曖昧にすることにより、少なくとも１つのイメージ領域を表すコーディングユニットが、プライバシマスクをまとめて提供する、非表示イメージフレームを参照する、前方予測されたイメージフレームを挿入することと、に対応する命令を含む。

第４の態様によると、本発明は、そのようなコンピュータプログラムを保存するデジタル記憶媒体に関する。

第２、第３、及び第４の態様は一般的に、第１の態様と同じ特徴及び利点を有してよい。本発明は更に、特に明白に言及していない限り、すべての可能な特徴の組み合わせに関連することに留意されたい。

本発明の、上記及び更なる目的、特徴、並びに利点は、添付図面を参照しての、本発明の好適な実施形態の、以下に記載する例示的且つ非限定の詳細説明を通して良好に理解される。ここでは、同様のコンポーネントには同じ参照番号が用いられる。

図１は、１つの実施形態に係る、プライバシマスクをビデオストリーム上に提供する方法１００のフローチャートを示す。図２は、１つの実施形態に係る、図１の方法１００を適用する前の写真のグループ（ｇｒｏｕｐｏｆｐｉｃｔｕｒｅｓ又はＧＯＰ）の概略図を示す。図３は、１つの実施形態に係る、図１の方法１００を適用した後のＧＯＰの概略図を示す。

異なる図面内の同様の参照記号は、同様の要素を示す。

本発明を、添付図面を参照して以下に更に詳細に説明する。ここでは、本発明の実施形態を示す。以下に開示するシステム及びデバイスは、作動中のものとして説明される。

本発明の各種の実施形態は、プライバシマスクをビデオストリーム上に提供する技術に関連する。以下は、実際の実装の一例であり、本発明の一般的な要点を読み手がよく理解できるようにするために提供される。異なる実施形態のさらなる実装の詳細がこれに続く。

この使用例では、ＢＷＣがビデオを撮像し、続いて、ドッキングステーションに置かれ、ドッキングステーションがＢＷＣのビデオをメインユニットにダウンロードすることを想定する。メインユニットは、このビデオをデコードし、分析を行い、マスクされる必要がある対象に対応するイメージエリアを探す。どのようなタイプの対象がマスクされるべきであるかは、例えば、眼前の特定の使用ケースに基づいて判定されるが、典型的には、そのような対象は、顔、ライセンスプレート、及び、他の特定情報を含む場合がある。

そのような対象を含むＩフレームは、例えば、フレームを非表示としてタグ付けするために、フレームのヘッダを変更することや、フラグをフレームに対して設定することにより、非表示に変更される。続いて、非表示Ｉフレームを参照する新たなＰフレームが挿入される。新たなＰフレームは、マスクされるエリア（例えば、顔領域）を除き、スキップブロックを全体に有する。換言すると、ビデオを視聴する際に、そのような新たなＰフレームは、マスクされるエリア内を除き、非表示の、参照されたＩフレームが示すものと同一の画像を示す。

マスクされるエリアについては、いくつかの異なるオプションが利用可能である。１つの代替案としては、動きベクトルを使用して顔を曖昧にすることが挙げられる。動きのパターン及び程度は、不明瞭化を異なるレベルにて達成するよう構成可能とできる。このアプローチの利点は、実装がシンプルであり、必要とするオーバーヘッドが非常に小さいということである。別の代替例としては、マスクされるエリアが選択的に不明瞭にされているＩブロックを挿入することが挙げられる。さらに別の代替案では、ある種の完全に異なるイメージ情報を含むＩブロックを挿入できる。したがって、使用できる多くのバリエーションがあり、それらはすべて、不透明な、又は、画素化されたプライバシマスクを通して現在利用可能なものと比較して、より美的に好適なものと言えるプライバシマスクを提供する。各種の実施形態を、さらに詳細に説明する。しかし、まず、従来のビデオコーディングの概要を説明する。ここでは、各種の実施形態の実装の一般的なコンテキストを提供し、Ｉフレーム及びＰフレームのコンセプトを説明する。

多くのデジタルビデオエンコーディングシステムでは、ビデオフレームのシーケンスの一時的な圧縮に、次の２つの主なモードが使用される：イントラモード及びインターモード。イントラモードでは、輝度チャネル及びクロミナンスチャネル（又は、いくつかの場合では、ＲＧＢ又はバイエル（Ｂａｙｅｒ）データ）が、単一のフレームの所与のチャネルにおけるピクセルの空間的冗長性を、予測、転換、及び、エントロピー符号化を介して利用することにより、エンコードされる。エンコードされたフレームは、イントラフレームと呼ばれる（「Ｉフレーム」とも呼ばれる）。イントラフレームは基本的に、エンコードされるイメージフレームにおける情報のみを使用してエンコードされたイメージフレームである。Ｉフレーム内では、ピクセルのブロック、これらは、Ｉブロック、マクロブロック、コーディングユニット、又は、コーディングツリーユニットとも呼ばれる、は、イントラモードにてエンコードされる。つまり、それらは、同じイメージフレーム内の同様のブロックを参照してエンコードされる、又は、参照するものがまったくない状態で、そのままエンコードされる。エンコードされるイメージフレームに対して取得されたイメージデータのすべてから、イントラフレームが計算されると、それは時にフルフレームとも呼ばれる。

反対に、インターモードは、個別のフレーム間の一時的な冗長性を利用し、動き補正予測技術に依存する。これは、ピクセルの選択されたブロックに対して、１つのフレームから別のフレームへと、ピクセルにおける動きをエンコーディングすることにより、１つ又はそれ以上前のフレームから、フレームの各部分を予測する。エンコードされたフレームは、インターフレーム、差分フレーム、Ｐフレーム（前方予測されたフレーム）と呼ばれ、これらは、前のフレームをデコーディング順に参照できる、又は、Ｂフレーム（双方向に予測されたフレーム）と呼ばれ、これらは、２つ又はそれ以上前にデコードされたフレームを参照でき、予測に使用するフレームの、いずれの任意の表示順関係を有することができる。Ｐフレーム内では、ピクセルのブロックは、インターモードにてエンコードされる、つまり、それらは、先にデコードされた画像における同様のブロックを参照してエンコードされることを意味する、又は、イントラモードにてエンコードされる、つまり、それらは、同じイメージフレーム内の同様のブロックを参照してエンコードされる、若しくは、参照するものがない状態で、そのままエンコードされることを意味する、のどちらかであってよい。別の言い方をすれば、インターフレームには、前の（及び、任意に、後の）イメージフレームにおける一時的な冗長情報の利点がある。

このタイプのコーデック（圧縮標準）を実装するエンコーダは、典型的には、所定の数のインターフレームが続くイントラフレームを生成し、続いて、同じ数のインターフレームが続く新たなイントラフレームを生成する。１つのイントラフレームと多くのインターフレームのセットは、写真のグループ（ｇｒｏｕｐｏｆｐｉｃｔｕｒｅｓ又はＧＯＰ）と呼ばれる。イメージフレームは、典型的には、それらが取得又は表示された順序と同じ順序にてエンコード及びデコードされるが、必ずしもそのようにされる必要はない。唯一の固有の制限としては、参照フレームの用に供するフレームは、それを参照として使用する他のフレームがエンコードされ得る前にデコードされなければならない、ということが挙げられる。監視又はモニタリングのアプリケーションでは、エンコーディングは一般的に、リアルタイムにて行われる。これは、多くの実際のアプローチは、イメージフレームを、それらが取得されて表示された順序と同じ順序にてエンコード及びデコードすることを意味する。なぜなら、それらはさもなければ、所望しないレイテンシーとなるからである。多くのインターフレームが続くイントラフレームのシーケンスの長さはしばしば、写真のグループの長さ（ＧＯＰの長さ）と呼ばれる。Ｈ．２６５などの、いくつかの圧縮標準について、ＧＯＰの長さは、エンコーディング中に調整できる。

図１は、１つの実施形態に係る、プライバシマスクをビデオストリーム上に提供する方法１００のフローチャートを示す。図１に見ることができるように、方法１００は、ステップ１０２にて、カメラにより撮像され、ある種のドッキングステーションなどを通して、メインユニットにダウンロードされたビデオにより開始する。これは、ＢＷＣなどの従来のカメラと、従来のダウンローディング技術と、を使用して行うことができる。これらは当業者によく知られており、したがって、ここではそれらを詳細に説明しない。

次に、ステップ１０４にて、ダウンロードされたビデオストリームに対して画像分析が行われ、マスクされる対象を検出する。上述するように、そのような対象は、例えば、顔、ライセンスプレート、又は、プライバシ（若しくは、他の理由）を目的として隠すべき、他のタイプの特定情報を含んでよい。画像における対象検出のための多くの既知の技術があり、これらをこのコンテキストにおいて適用できる。いくつかは、輝度勾配ヒストグラム（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）、サポーティングベクトルマシン（ＳｕｐｐｏｒｔｉｎｇＶｅｃｔｏｒＭａｃｈｉｎｅ）、ローカルバイナリパターン（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎｓ）などの古典的な方法を含む。モバイルネット（Ｍｏｂｉｌｅｎｅｔ）などの、ニューラルネットワークに基づく方法もまた、利用可能である。他の方法として、差分時間での前景抽出（ｆｏｒｅｇｒｏｕｎｄｅｘｔｒａｃｔｉｏｎｗｉｔｈｄｉｆｆｅｒｅｎｔｉａｔｅｄｔｉｍｅｄｕｒａｔｉｏｎ）が挙げられる。

画像分析は、マスクされるエリアを判定する１つの方法にすぎないことに留意されたい。いくつかの実装では、エリアは、カメラ監視システムの、人であるオペレータにより判定されて（又は、調整されて）よいが、実際の使用シナリオにおいて、これはあまり一般的ではない。

典型的には、マスクされるエリアは、Ｉフレームにおけるコーディングユニットのセットとして特定される。これらのコーディングユニットは、続いて、以下に説明するように、新たなＰフレームを作成する際に使用される。上述するように、新たなＰフレームを作成する際に、プライバシマスクを適用する多くの様々な方法がある。１つの実施形態では、動きベクトルが使用され、マスクされる対象を曖昧にする。動きのパターン及び程度は、不明瞭化を異なる程度にて達成するために、各種の実施形態にて構成可能とできる。動きベクトルは、ランダムに生成できる、イメージコンテンツに基づいて適応的に判定できる、又は、マスクされるエリア内にて、イメージデータのスクランブリングを合理的な程度にて与えることが証明されている、あらかじめ定められたパターンにしたがって生成できる。このアプローチでの利点は、その実装がシンプルであり、本質的にいずれのオーバーヘッドなく行うことができるということである。

別の実施形態では、選択された量の不明瞭化を有するコーディングユニットを挿入できる。これは、マスクされている対象を、それを不明瞭化するのではなく、完全に「拭い去る」効果を有する。これらの動作は、典型的には、ＢＷＣからビデオがダウンロードされて保存される、ドッカーステーションなどのメインユニットにより行われる。

さらに別の実施形態では、マスクを表すコーディングユニットは、完全に異なる画像情報と取り換えることができる。例えば、コーディングユニットは、前の段落にて説明したそれらと同様の技術を使用して、スマイリーフェイス、花、又は、いくつかの他のタイプの任意の画像により、取り換えることができる。実際面での視点から、動きベクトルを挿入することは、演算リソースの観点から、最もコスト効率のよいアプローチであり、典型的には、最も美的に好適な代替案でもある。なぜなら、ビデオは、特定のエリアが不明瞭となっている、「通常の」ビデオのように見えるからである。コードブロック及び任意の画像を挿入することを含む本実施形態は、典型的には、演算リソースの観点から、その実装が幾分、より割高であり、幾分、美的に好適なものとはあまり言えない画像を結果として提供する場合もあるため、実際の実装では、動きベクトルの実施形態が使用される可能性がより高い場合がある。

次に、ステップ１０６にて、マスクされる対象を含むＩフレームが、非表示フレームとなるよう設定される。当業者によく知られているように、Ｈ．２６５エンコーディング標準（及び、ＧｏｏｇｌｅのＶＰ１０などの、他のより新しいエンコーディング標準）内では、例えば、フレームは、「非表示（ｎｏ－ｄｉｓｐｌａｙ）」とタグ付けできる。これは、このフレームが、ユーザに対して表示されないことを意味する。Ｈ．２６５では、例えば、タグ付けは、スライスヘッダにおいてｐｉｃ_ｏｕｔｐｕｔ_ｆｌａｇをフォルス（ｆａｌｓｅ）に設定する、又は、ＳＥＩヘッダにおいてｎｏ_ｄｉｓｐｌａｙフラグをトゥルー（ｔｒｕｅ）に設定することにより、行うことができる。

次に、ステップ１０８にて、プライバシマスクを含む新たなＰフレームがビデオストリームに挿入され、Ｉフレームを先に参照した、ＧＯＰにおけるいずれの既存のＰフレームが、新たに挿入されたＰフレームを参照するよう変更される。つまり、リバイスされたＧＯＰでは、Ｐフレームのすべてが、したがって、マスクが適用された画像を含む。マスクを形成するコーディングユニット外のエリアは、典型的には、非表示Ｉフレームを参照して、スキップブロックとして符号化される。当業者によく知られているように、スキップブロックは、ピクセルの、インターモードにてエンコードされたブロックである。これは、参照フレームにおける、ピクセルの対応するブロックを参照する。この対応するブロックから、イメージコンテンツが完全にコピーされるべきである。つまり、マスクされたエリアを除き、新たなＰフレームのコンテンツは、非表示Ｉフレームのそれと同一である。これにより、プロセス１００が終了する。この技術を使用することの大きな利点は、エンコードされたビデオストリームを、エンコーダにより使用されるビデオコーディングフォーマットをサポートする標準ビデオストリームデコーダによりデコードできることである。なぜなら、上記の方法は、そのようなビデオコーディングフォーマットの標準に準拠しているからである。

さらなる利点は、Ｉフレームのイメージデータは依然としてＧＯＰに含まれているが、非表示フレームとしてタグ付けされているため、もとの取得されたイメージデータのすべてはエンコードされたビデオストリームに含まれており、それらは、必要であれば、カスタムデコーダにより後に取得できることである。いくつかの実施形態では、Ｉフレームに対するフラグを、非表示フレームに以後設定されないように、シンプルに変更することにより、マスクされたデータのすべてを取得できる。他の実施形態では、マスクされたデータのサブセットのみが取得されてよい。例えば、画像が１０人の顔を含み、それらの内の１つのみがマスクされないようにすべきシチュエーションを想定する。そのようなシチュエーションでは、新たに挿入されたＰフレームを、代わりに、１人の顔がマスクされておらず、他の９人の顔がマスクされたままとなっている別のＰフレームと取り換えることができる。

図２及び図３は、本発明の各種の実施形態に係る本方法の概念図を提供する。図２に見ることができるように、カメラにより撮像されたビデオシーケンスの一部であるＧＯＰは、Ｉフレーム２０２を含み、これには、３つのＰフレーム２０４から２０８が続き、これらの３つすべては、Ｉフレーム２０２に戻ってこれを参照する。Ｉフレームは、歩いている人を含む。イメージプロセッシングでは、この歩いている人が、プライバシを理由としてビデオにおいてマスクされるべきであることを判定する。

図３は、図１の方法１００を適用することを通して生成された、結果として変更されたＧＯＰを示す。変更されたＧＯＰでは、Ｉフレーム３０２が、図２のＩフレーム２０２に対応するが、これは現在、非表示フレームとしてタグ付けされている。新たなＰフレーム３０３が挿入されており、このＰフレームでは、この歩いている人が、以後視認できないようにマスクされている。残りのＰフレーム３０４から３０８は、図２のＰフレーム２０４から２０８に対応する。これらは現在、Ｉフレーム３０２の代わりに、新たなＰフレーム３０３を参照する。したがって、この歩いている人はまた、これらのフレームにおいてもマスクされている。ここに見られるように、ＧＯＰ（及び、したがってビデオストリーム）のサイズは、新たなＰフレーム（単一又は複数）の追加により幾分大きくなるが、このサイズの増大は、どちらかといえばわずかであり、ビデオに対する保存要件には、いずれの大きな影響がない。

ここに説明する本発明の各種の実施形態には、イントラフレームと、後続のインターフレームと、を有するＧＯＰ構造を使用する、いずれのエンコーディングスキームを使用できる。このスキームの例としては、高効率ビデオコーディング（ＨＥＶＣ／Ｈ．２６５）、バーサタイルビデオコーディング（ＶＶＣ）、エッセンシャルビデオコーディング（ＥＶＣ）、ＶＰ９、及びＡＶ１が挙げられ、これらのすべては、当業者によく知られている。

エンコーダは、したがって、上述するように、ビデオストリームをエンコードするよう適合されている。エンコーダは、ビデオ撮像デバイスに直接設けられてよい、又は、ビデオストリームのイメージデータを受信するよう、有線又は無線接続を通してビデオ撮像デバイスに接続されてよい。エンコーダは、あらかじめ計算された動きベクトルを取得するメモリを含むことができる、又は、これに接続することができる。エンコーダは、画像変換を計算する、及び／又は、画像変換からサンプルとしての動きベクトルを計算するプロセッシングユニットを含むことができる。代替的に又は追加的に、エンコーダは、そのような画像変換及び／又は動きベクトルを計算又は判定するよう適合された個別の計算ユニットからの画像変換及び／又は動きベクトルを受信するよう適合され得る。

エンコーダは、典型的には、上述するように、受信したイメージデータをエンコーディングする、１つ又はいくつかのプロセッシングユニット（例えば、中央処理ユニット（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ又はＣＰＵ））を含む。ＣＰＵは、例えば、コンピュータ可読記憶媒体からインストールされた、ＣＰＵにより実行されると、上記の実施形態のいずれのエンコーディング方法を実施するよう適合された命令を有するソフトウェアを走らせるよう適合され得る。エンコーダは、さらに、エンコードされたビデオストリームを、無線又は有線にて、エンコードされたビデオストリームをデコードするよう適合されたデコーダに、（例えば、インターネットを介して）送信するよう適合されてよい。

ここに開示するシステム（例えば、エンコーダ）及び方法は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせとして実装できる。ハードウェアの実装では、上記説明にて引用される機能ユニット間又はコンポーネント間でのタスクの分割は、物理ユニットへの分割に必ずしも対応しない。それどころか、１つの物理コンポーネントは、複数の機能を行うことができ、１つのタスクは、いくつかの物理コンポーネントにより共同で実施されてよい。

特定のコンポーネント又はすべてのコンポーネントは、デジタル信号プロセッサ又はマイクロプロセッサにより実行されるソフトウェアとして実装されてよく、又は、ハードウェアとして実装されてよく、若しくは特定用途向け集積回路として実装されてよい。そのようなソフトウェアは、コンピュータ記憶媒体（又は、非一時的媒体）及び通信媒体（又は、一時的媒体）を含んでよい、コンピュータ可読媒体上に配布されてよい。当業者に知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどの情報の保存のためのいずれの方法又は技術にて実装される揮発性及び不揮発性の双方の、リムーバブル及び非リムーバブルの双方の媒体を含む。コンピュータ記憶媒体は、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ又はＲＡＭ）、読み出し専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ又はＲＯＭ）、電気的消去可能・プログラム可能ＲＯＭ（ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅＲＯＭ又はＥＥＰＲＯＭ）、フラッシュメモリ、又は他のメモリ技術、コンパクトディスクＲＯＭ（ｃｏｍｐａｃｔｄｉｓｃ（ＣＤ）－ＲＯＭ）、デジタルバーサタイルディスク（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ又はＤＶＤ）、又は他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気ストレージデバイス、又は、所望する情報の保存に使用でき、コンピュータによりアクセスできるいずれの他の媒体、を含むが、これらに限定しない。

図中のフローチャート及びブロック図は、本発明の様々な実施形態に係る、システム、方法、及び、コンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び、作動を示す。これに関して、フローチャート又はブロック図内のそれぞれのブロックは、規定される論理的機能（単一又は複数）を実施する、１つ又はそれ以上の実行可能命令を含むモジュール、セグメント、又は、命令の部位を表してよい。いくつかの代替的実装では、ブロック内に記される機能は、図に記す順序を外れて実施されてよい。例えば、連続して示す２つのブロックは実際に、実質的に同時に実行されるか、又は、関連する機能によっては、これらのブロックが時に反対の順序にて実行されてよい。なお、ブロック図及び／又はフローチャートの図示のそれぞれのブロック、及び、ブロック図及び／又はフローチャートの図示内のブロックの組み合わせは、規定の機能又は作用を行う、又は、専用ハードウェア及びコンピュータ命令の組み合わせを実現する、専用のハードウェアに基づくシステムによっても実装できる。

当業者であれば、上記の実施形態を多くの方法にて変更でき、上記の実施形態に示すような、本発明の利点を依然として使用できることが理解されるであろう。例えば、補助フレームと、補助フレームを補完するフレームと、をエンコーディングする順序は、いずれの適切な方法にて変更できる。例えば、ＧＯＰ内の補助フレームのすべては、エンコードされたビデオストリームにおいて、エンコードされた補助フレームと組み合わされる補助フレームを参照するインターエンコードされたフレームを含む前に、はじめにエンコードされてよい。本発明は従って、ここに示す実施形態に限定されるべきではなく、特許請求の範囲によってのみ定義されるべきである。更に、当業者が理解するように、ここに示す実施形態は組み合わせることも可能である。

Claims

プライバシマスクをビデオストリーム上に提供する方法であって、
ビデオ内に、プライバシマスクを適用すべき、少なくとも１つのイメージ領域を選択することと、
前記少なくとも１つのイメージ領域を含む前記ビデオにおけるイメージフレームに対して、
Iフレームを非表示イメージフレーム（３０２）として示すように、前記イメージフレームに対してフラグを設定することと、
前記非表示イメージフレーム（３０２）を参照する、前方予測されたイメージフレーム（３０３）を挿入することであって、前記少なくとも１つのイメージ領域を表すコーディングユニットは、前記少なくとも１つのイメージ領域外のエリアを表すコーディングユニットとは異なって処理され、前記少なくとも１つのイメージ領域を表す前記コーディングユニットが曖昧にされて、前記プライバシマスクをまとめて形成し、前記少なくとも１つのイメージ領域外のエリアを表す前記コーディングユニットが、前記非表示イメージフレーム（３０２）を参照するスキップブロックとして設定されるようになっている、前記前方予測されたイメージフレーム（３０３）を挿入することと、
前記非表示イメージフレーム（３０２）及び前記前方予測されたイメージフレーム（３０３）の双方を含むビデオストリームを出力することと、を含む、方法。
前記少なくとも１つのイメージ領域を選択することは、ユーザにより行われる、請求項１に記載の方法。
前記少なくとも１つのイメージ領域を選択することは、対象検出技術を使用して自動的に行われる、請求項１に記載の方法。
前記前方予測されたイメージフレーム（３０３）において、前記少なくとも１つのイメージ領域を表す前記コーディングユニットは、前記コーディングユニットについての人工的な動きベクトルを導入することにより曖昧さを提供し、これにより前記少なくとも１つのイメージ領域を不明瞭にさせるように配置される、請求項１から請求項３のいずれか一項に記載の方法。
前記ビデオは、次のフォーマット、すなわち、高効率ビデオコーディング（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）、バーサタイルビデオコーディング（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）、エッセンシャルビデオコーディング（ＥｓｓｅｎｔｉａｌＶｉｄｅｏＣｏｄｉｎｇ）、ＶＰ９、及びＡＶ１、の内の１つにてエンコードされる、請求項１から請求項４のいずれか一項に記載の方法。
プライバシマスクをビデオストリーム上に提供するエンコーダシステムであって、
ビデオを受信するよう構成されているドッキングステーションと、
エンコーダであって、
前記ビデオ内に、プライバシマスクを適用すべき、少なくとも１つのイメージ領域を選択し、
前記少なくとも１つのイメージ領域を含む前記ビデオにおけるイメージフレームに対して、
Iフレームを非表示イメージフレーム（３０２）として示すように、前記イメージフレームに対してフラグを設定し、
前記非表示イメージフレーム（３０２）を参照する、前方予測されたイメージフレーム（３０３）を挿入し、前記少なくとも１つのイメージ領域を表すコーディングユニットは、前記少なくとも１つのイメージ領域外のエリアを表すコーディングユニットとは異なって処理され、前記少なくとも１つのイメージ領域を表す前記コーディングユニットが曖昧にされて、前記プライバシマスクをまとめて形成し、前記少なくとも１つのイメージ領域外のエリアを表す前記コーディングユニットが、前記非表示イメージフレーム（３０２）を参照するスキップブロックとして設定されるようになっており、
前記非表示イメージフレーム（３０２）及び前記前方予測されたイメージフレーム（３０３）の双方を含むビデオストリームを出力するよう構成されているエンコーダと、を含む、エンコーダシステム。
プライバシマスクをビデオストリーム上に提供するコンピュータプログラムであって、
ビデオ内に、プライバシマスクを適用すべき、少なくとも１つのイメージ領域を選択することと、
前記少なくとも１つのイメージ領域を含む前記ビデオにおけるイメージフレームに対して、
Iフレームを非表示イメージフレーム（３０２）として示すように、前記イメージフレームに対してフラグを設定することと、
前記非表示イメージフレーム（３０２）を参照する、前方予測されたイメージフレーム（３０３）を挿入することであって、前記少なくとも１つのイメージ領域を表すコーディングユニットは、前記少なくとも１つのイメージ領域外のエリアを表すコーディングユニットとは異なって処理され、前記少なくとも１つのイメージ領域を表す前記コーディングユニットが曖昧にされて、前記プライバシマスクをまとめて形成し、前記少なくとも１つのイメージ領域外のエリアを表す前記コーディングユニットが、前記非表示イメージフレーム（３０２）を参照するスキップブロックとして設定されるようになっている、前記前方予測されたイメージフレーム（３０３）を挿入することと、
前記非表示イメージフレーム（３０２）及び前記前方予測されたイメージフレーム（３０３）の双方を含むビデオストリームを出力することと、に対応するプログラム命令を含む、プライバシマスクをビデオストリーム上に提供するコンピュータプログラム。
請求項７に記載のコンピュータプログラムを含む、デジタル記憶媒体。