JP2023120155A

JP2023120155A - オーバレイを含むビデオストリームの符号化

Info

Publication number: JP2023120155A
Application number: JP2023015571A
Authority: JP
Inventors: ヴィクトルエドパルム，; Edpalm Viktor; ソンユアン，; Song Yuan
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2022-02-17
Filing date: 2023-02-03
Publication date: 2023-08-29
Also published as: EP4231638A1; US20230262238A1; TW202337210A; CN116614630A; KR20230123870A

Abstract

【課題】オーバレイを含むビデオストリームを符号化する方法、デバイス、コンピュータプログラムおよびコンピュータプログラム製品を提供する。【解決手段】方法は、第１の画像をキャプチャすることと、第１の画像の第１の位置にオーバレイを追加し、ビデオストリームの第１のフレーム中の第１の画像を符号化することと、場面の第２の画像をキャプチャすることと、第２の画像中におけるオーバレイの所望の位置を決定することと、非表示フレームとしてマークされた第２のフレームの中の第２の画像を符号化することと、所望の位置と第１の位置の間の相違に基づく運動ベクトルを有する第１のフレームを参照するオーバレイの所望の位置に時間的に予測されるマクロブロックを含み、第１のフレームを参照するオーバレイの所望の位置の外側のスキップ－マクロブロックを含む第３のフレームを生成し符号化することと、を含む。【選択図】図２Ａ

Description

本開示はビデオ符号化の分野に関する。より詳細には、本開示は１つまたは複数のオーバレイ（例えば拡張現実感アプリケーションに使用されるようなオーバレイ）を含むビデオストリームの符号化に関する。

拡張現実感（ＡＲ）などの先端技術は、カメラを通して世界を見るときユーザの体験を強化しようと試みる。これには、ユーザが現在見ているものが厳密に何であるかについてより多くの情報をユーザに提供するために、ビデオストリームのキャプチャ画像に例えば文章または他の図形をオーバレイすることを含むことができる。このような技術によって利用可能とされている多くの例のうちの１つとして、例えば街路および様々な建物を描写しているビデオストリームでは、例えば特定の建物の住所および／または例えばその建物の所有者等を示すオーバレイが追加され得る。これは、カメラを使用して街路をユーザが撮影することによって様々な建物について学ぶことができるため、例えば街路を通ろうとするときユーザの助けとなり得る。

オーバレイは、ビデオストリームのキャプチャ画像上で生成され、レンダリングされる。オーバレイは、例えば、ビデオストリームによって現在キャプチャされている場面に映っている特定の建物、人、観光名所または他の対象と関連付けられ得る。現実の状況では、場面をキャプチャするために使用されるカメラが動かされ、かつ／または例えばカメラの視野（ＦＯＶ）が変化すると、ビデオストリームの次のキャプチャ画像が処理される際に、対象が静止している場合、場面自体に対して固定された状態を維持するようにオーバレイが再レンダリングされるように、オーバレイの位置が更新される。オーバレイを移動させる他の理由は、例えば関連付けられた対象が場面の中でそれ自体が非静止である（動いている）ことであり得る。

しかしながら、カメラが他のタスク（対象の検出および追跡、ビデオストリームの符号化、または出力ビデオストリームを生成するために必要な他の処理など）の実施と同時に占有される場合、例えばカメラが変化し、かつ／または対象が移動する毎にオーバレイを生成し、再レンダリングするために必要な処理能力（ＣＰＵ、ＧＰＵおよび／またはメモリに関して）を必ずしも利用することができるとは限らず、したがってビデオストリーム中の次の画像が表示／符号化されることになっている場合、それに間に合うようにオーバレイの再生成および再レンダリングを完了することができない場合がある。オーバレイの再生成および再レンダリングが時間内に完了しない場合、ビデオストリームにおける同期の問題が生じてスタッタリングの原因になり、または例えばオーバレイが消失し、あるフレームと次のフレームの間に再出現する原因になり得る。さらに、例えば文章または他の図形の存在により、オーバレイは鮮明な詳細を含むことが多いため、このようなオーバレイの（再）生成および（再）レンダリングが頻繁すぎると、ビデオストリームを符号化し、例えば生成される出力ビデオストリームのビットレートを制御する役割を担っている回路機構およびソフトウェアのためのオーバヘッドが増加し得る。オーバレイがプライバシマスクである場合、そのプライバシマスクが１つまたは複数のフレームの中で消失する危険が許容されることはさらに全くあり得ない。したがって計算能力バジェットが限られている場合、ビデオストリームにおけるオーバレイの（再）生成および（再）レンダリングをより良好に取り扱う必要がある。

上で言及した問題を少なくとも部分的に克服するために、上で言及した必要性を少なくとも部分的に満足するために、本開示は、添付の独立請求項によって定義されている、オーバレイを含むビデオストリームを符号化する改善された方法、ならびに改善されたデバイス、コンピュータプログラムおよびコンピュータプログラム製品を提供する。改善された方法、デバイス、コンピュータプログラムおよびコンピュータプログラム製品の様々な実施形態は、添付の従属請求項に定義されている。

第１の態様によれば、オーバレイを含むビデオストリームを符号化する方法が提供される。方法は、ａ）場面の第１の画像をキャプチャすることを含む。方法は、ｂ）第１の画像の第１の位置にオーバレイを追加すること、および符号化ビデオストリームの第１のフレームの一部として第１の画像を符号化することを含む。方法は、ｃ）場面の第２の画像をキャプチャすることを含む。方法は、ｄ）第２の画像中におけるオーバレイの所望の位置を決定することであって、第２の画像中におけるオーバレイの所望の位置は、第１の画像中におけるオーバレイの第１の位置とは異なる、所望の位置を決定することを含む。方法は、ｅ）第２のフレームを非表示フレームとしてマークすることを含む、ビデオストリームの第２のフレームの一部として第２の画像を符号化することをさらに含む。方法は、ｆ）オーバレイ（第２の画像中の）の所望の位置における１つまたは複数のマクロブロックが、第１のフレームを参照する時間的に予測されるマクロブロックであることを含み、第１の画像中におけるオーバレイの第１の位置と、第２の画像中におけるオーバレイの所望の位置との間の相違に基づく１つまたは複数の運動ベクトルを有し、オーバレイ（第２の画像中の）の所望の位置の外側の第３のフレームの１つまたは複数のマクロブロックが、ビデオストリームの第２のフレームを参照するスキップ－マクロブロックであることを含む、１つまたは複数のマクロブロックを含むビデオストリームの第３のフレームを生成し（例えばソフトウェアを使用して、場面の対応する第３の画像を受け取ることなく）符号化することをさらに含む。

本明細書において既に考察したように、オーバレイは例えば文章または他の図形を含むことができ、これらの文章または他の図形は、オーバレイが、結果として得られる、画像を符号化するフレームの中に、例えばビデオストリームの中にキャプチャされた場面に映っている対象に関する追加情報を提供することができるよう、画像の上にレンダリングされる。

本明細書において使用されるとき、「時間的に予測されるマクロブロック」は、時間的に予測されるフレームの一部を形成し、そのマクロブロックに対して、ピクセルをレンダリングするために必要な情報がビデオストリームの他のフレーム中の同じピクセル（または他のピクセル）に基づいて見出されるマクロブロック（すなわち画像中のピクセルのブロック、例えば８×８ピクセル、１６×１６ピクセル等のブロックなど）である。このようなフレームは、インターフレーム、予測フレーム、ディファレンシャルフレーム、または例えばフレームが既に符号化済みのフレームのみに対する参照を含んでいるか、もしくは将来のフレームに対する参照をも含んでいるかどうかに応じてＰフレームもしくはＢフレームと呼ぶことも可能である。言い換えれば、「時間的に予測されるマクロブロック」という用語の意味は、ビデオ符号化の既に確立されている規格の意味から逸脱することはなく、このようなマクロブロックを含むフレームが、符号化中、時間的に冗長な情報を使用していることを示す役割を果している（すなわちフレームをレンダリングするために必要な情報を符号化されたフレーム自体に完全に含む必要はなく、その代わりに１つまたは複数の先行するフレーム、さらには将来のフレームの中に見出される情報の中に見出すことができ、またはこの情報から少なくとも近似することができるよう）。本明細書において使用されるとき、「スキップ－マクロブロック」（またはＳＫＩＰマクロブロック、スキップされたマクロブロック等）もそれらの標準化された意味を有しており、先行する（または将来の）フレームから画像データを直接コピーすることができるよう（何らかの運動ベクトルを必要とすることなく）、現在符号化されているフレーム自体の一部として含まれないよう、先行するフレーム（または将来のフレーム）中の同じ位置で見出されるマクロブロックに対する参照を含む任意のマクロブロックとして理解されたい。最後に、「非表示フレーム」は、フレームが復号ビデオストリームの一部としてレンダリングされないように、但し、フレームから情報を得ることができ、表示されることになる１つまたは複数の他のフレーム（すなわち非表示フレームとしてマークされていない）を復号するために使用することができるよう、依然としてフレームを利用することができるように復号器に命じるために何らかの方法でフラグが立てられるフレームとして理解されたい。第１のフレームは、例えば、１つまたは複数の先行する、または将来のフレームに対する何らかの参照に頼ることなく、フレームを復号しレンダリングするために必要なすべてのデータを含むイントラ予測フレームであってもよい。このようなフレームは、イントラフレーム（Ｉフレーム）またはフルフレーム等と呼ぶことも可能である。第１のフレーム、第２のフレームおよび第３のフレームは、例えばいわゆるピクチャグループ（ＧＯＰ：ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）の一部を形成することができ、イントラフレーム（第１のフレーム）には、１つまたは複数の時間的に予測されるフレーム、または１つもしくは他のフレーム（１つまたは複数のスキップ－マクロブロックを含むフレームなど）に対する参照を含むフレームが後続する。第３のフレームがオーバレイを含むエリアに対するその第３のフレームの画像データを得ることができる、第１のフレームに対する何らかの等価物が存在する限り、表示されないが、オーバレイを含まないエリアに対する第３のフレームのための画像データのソースとしてのみ使用される第２のフレームが存在する限り、他のシーケンスも当然可能である。

時間的に予測されるマクロブロック、スキップ－マクロブロック、非表示フレームおよび運動ベクトルの上記概念をサポートする任意のビデオ符号化規格を使用して、開示されている方法を実現することができることが想定されている。このような規格の例には、（必ずしもそれらに限定されないが）高効率ビデオ符号化（ＨＥＶＣ：ＨｉｇｈＥｆｆｉｃｉｅｎｃｙｖｉｄｅｏＣｏｄｉｎｇ）Ｈ．２６５、高度ビデオ符号化（ＡＶＣ：ＡｄｖａｎｃｅｄｖｉｄｅｏＣｏｄｉｎｇ）Ｈ．２６４、ＶＰ８、ＶＰ９、ＡＶ１、および汎用ビデオ符号化（ＶＶＣ：ＶｅｒｓａｔｉｌｅｖｉｄｅｏＣｏｄｉｎｇ）Ｈ．２６６がある。

本開示は、ほとんどオーバヘッドコストが生じることなくオーバレイをレンダリングすることができ、次のフレームが開始される前にフレームのレンダリングを完了することができない危険が低減され、さらには除去される点で、現在利用可能な技術を改善する。この改善は、画像中におけるオーバレイの位置が変化すると、フレームの全再レンダリングを実施せず、その代わりに先行するフレームからのオーバレイに関連する画像データを再使用し、場面の、この目的のために生成された非表示フレームからのオーバレイを含まない部分に関連する画像データを提供することによって達成される。本開示は、既に利用可能で、規格化されているタイプのフレームのみを利用しているため、本開示によれば、符号器は、通常通りに符号化し、ソフトウェアを使用して第３のフレームを構築し、挿入することができる。同様に、場面およびオーバレイのビデオをユーザに首尾よくレンダリングするために何らかの特殊な考慮を必要とすることなく、すべての規格準拠復号器を通常通りに動作させることができる。符号器を使用して運動ベクトルを設定することができ、この設定には、必要な計算時間をさらに短くするためにハードウェア加速を活用することができる。

方法のいくつかの実施形態では、第１の画像中におけるオーバレイの第１の位置と、第２の画像中におけるオーバレイの所望の位置との間の相違は、少なくとも部分的に、第１の画像のキャプチャと第２の画像のキャプチャの間の視野（カメラのＦＯＶ）の変化によるものであってもよい。場面をキャプチャするために使用されるカメラは、例えばいわゆるパン－チルト－ズーム（ＰＴＺ：ｐａｎ－ｔｉｌｔ－ｚｏｏｍ）カメラであってもよく、ＦＯＶは、例えばカメラのズームインまたはズームアウトによって、さらには傾斜または移動（パンニング）によって変化し得る。

方法のいくつかの実施形態では、第１の画像中におけるオーバレイの第１の位置と、第２の画像中におけるオーバレイの所望の位置との間の相違は、少なくとも部分的に、オーバレイが場面の中で関連付けられる対象の位置の変化によるものであってもよい。オーバレイは、例えば場面に映っている人と関連付けられ得、その人が場面の中で動いている場合、本明細書において説明されている方法を使用して、効果的な方法でオーバレイを再レンダリングすることができる。

方法のいくつかの実施形態では、第３のフレームは予測フレーム（それ自身に対する参照、および／または複数のフレームのシーケンスにおける１つまたは複数の先行するフレームに対する参照のみを含むＰフレーム）であってもよく、または二方向予測フレーム（例えばそれ自身に対する参照を含み、かつ／または１つまたは複数の先行するフレームに対する参照を含むが、任意選択で、もしくはその代わりにシーケンスにおける１つまたは複数の将来のフレームに対する参照をも含むＢフレーム）であってもよい。第３のフレームは、第３のフレームが第２のフレームを振り返るよう、符号化ビデオストリームにおける第２のフレームの後に挿入することができる。

方法のいくつかの実施形態では、第３のフレームはＢフレームであってもよく、第３のフレームが第２のフレームを前方参照するよう、符号化ビデオストリームにおける第２のフレームの前に挿入することができる。

方法のいくつかの実施形態では、第１の画像および第２の画像は同じカメラを使用してキャプチャすることができる。他の実施形態では、１つのカメラを使用して第１の画像をキャプチャし、別の第２のカメラを使用して第２の画像をキャプチャすることを想定することができる（例えば場面のパノラマ画像を提供するように構成されたカメラ配置における）。

方法のいくつかの実施形態では、オーバレイは拡張現実感（ＡＲ）オーバレイであってもよい。

方法のいくつかの実施形態では、方法は、第１の画像および／または第２の画像をキャプチャするために使用されるカメラの中で実施することができる。カメラは、例えばモニタリングカメラ（監視カメラ等など）であってもよい。他の実施形態では、方法はこのようなカメラを含むカメラシステムの中で実施することができるが、必ずしもカメラ自体の中である必要はなく、その代わりに例えばビデオ処理サーバ等の中で実施することも可能である。

方法のいくつかの実施形態では、オーバレイは場面に対して固定することができる。例えばオーバレイは、建物、街路または他のタイプの不動静止構造などの動かない場面に映っている対象と関連付けられ得る。

方法のいくつかの実施形態では、方法は、第２の画像および第２のフレームの一部としてオーバレイを（代わりに）レンダリング／追加し符号化するために必要な計算時間を予測することを含むことができる。この必要な計算時間が閾値より短いことが決定されると、方法は、第３のフレームを生成する代わりにこのステップを省略することができ、その代わりに第２の画像の所望の位置にオーバレイを追加することができ、ビデオストリームの第２のフレームの一部として第２の画像を符号化することができる。この方法は、第１のフレームの後に第２のフレームをレンダリングすることができるよう、第２のフレームを非表示フレームとしてマークすることを省略することができる。この実施形態は、十分な計算能力を利用することができる場合（すなわち上記予測が利用可能な計算資源に基づく閾値である場合）、代わりにオーバレイを直接再レンダリングすることができる点で有利である。これは、オーバレイをレンダリングする際に、例えば第１の画像のキャプチャと第２の画像のキャプチャの間の場面の例えば視点の変化も考慮されることになるため、例えば改善された品質を提供することができる。

本開示の第２の態様によれば、オーバレイを含むビデオストリームを符号化するためのデバイスが提供される。デバイスはプロセッサおよびメモリを含む。メモリは命令を記憶し、プロセッサによって命令が実行されると、デバイスは、場面の第１の画像をキャプチャし、第１の画像の第１の位置にオーバレイを追加し符号化ビデオストリームの第１のフレームの一部として第１の画像を符号化し、場面の第２の画像をキャプチャし、第２の画像中におけるオーバレイの所望の位置を決定し、この第２の画像中におけるオーバレイの所望の位置は第１の画像中におけるオーバレイの第１の位置とは異なり、ビデオストリームの第２のフレームの一部として第２の画像を符号化し、この第２の画像の符号化には、第２のフレームを非表示フレームとしてマークすることを含み、ビデオストリームの第３のフレームを生成し符号化することになり（例えばソフトウェアを使用して）、この第３のフレームの生成および符号化では、オーバレイの所望の位置における第３のフレームの１つまたは複数のマクロブロックは、第１のフレームを参照する、オーバレイ（第１の画像中における）の第１の位置とオーバレイ（第２の画像中における）の所望の位置との間の相違に基づく運動ベクトルを有する時間的に予測されるマクロブロックであり、オーバレイ（第２の画像中における）の所望の位置の外側の第３のフレームの１つまたは複数のマクロブロックは、（符号化された）ビデオストリームの第２のフレームを参照するスキップ－マクロブロックである。

したがって第２の態様によるデバイスは、第１の態様の方法の対応するステップを実施するように構成される。

デバイスのいくつかの実施形態では、デバイスは、本明細書において説明されている方法の実施形態のうちの任意の実施形態を実施するようにさらに構成される（すなわち命令は、それらの命令がプロセッサによって実行されると、デバイスが本明細書において説明されている方法の実施形態のうちの任意の実施形態を実施することになるようになっている）。

デバイスのいくつかの実施形態では、デバイスはモニタリングカメラである。このモニタリングカメラは、第１の画像および第２の画像のうちの少なくとも一方をキャプチャするように構成することができる。

本開示の第３の態様によれば、オーバレイを含むビデオストリームを符号化するためのコンピュータプログラムが提供される。コンピュータプログラムは、デバイス（第２の態様によるデバイスなど）のプロセッサによって実行されると、そのデバイスが、場面の第１の画像をキャプチャし、第１の画像の第１の位置にオーバレイを追加し符号化ビデオストリームの第１のフレームの一部として第１の画像を符号化し、場面の第２の画像をキャプチャし、第２の画像中におけるオーバレイの所望の位置を決定し、この第２の画像中におけるオーバレイの所望の位置は第１の画像中におけるオーバレイの第１の位置とは異なり、ビデオストリームの第２のフレームの一部として第２の画像を符号化し、この第２の画像の符号化には、第２のフレームを非表示フレームとしてマークすることを含み、ビデオストリームの第３のフレームを生成し符号化（例えばソフトウェアを使用して）するように構成され、第３のフレームの生成および符号化では、オーバレイの所望の位置における第３のフレームの１つまたは複数のマクロブロックは、第１のフレームを参照する、オーバレイ（第１の画像中における）の第１の位置とオーバレイ（第２の画像中における）の所望の位置との間の相違に基づく運動ベクトルを有する時間的に予測されるマクロブロックであり、オーバレイ（第２の画像中における）の所望の位置の外側の第３のフレームの１つまたは複数のマクロブロックは、（符号化された）ビデオストリームの第２のフレームを参照するスキップ－マクロブロックである。

したがってコンピュータプログラムは、デバイスが、第１の態様による、本明細書において既に説明した方法を実施するように構成される。

いくつかの実施形態では、コンピュータプログラムは、（デバイスのプロセッサによって実行されると）デバイスが本明細書において説明されている方法の任意の実施形態を実施するようにさらに構成される。

第４の態様によれば、コンピュータプログラム製品が提供され、コンピュータプログラム製品は、第３の態様またはその任意の実施形態によるコンピュータプログラムを記憶するコンピュータ可読記憶媒体を含む。コンピュータ可読記憶媒体は、例えば非一時的であってもよく、例えばハードディスクドライブ（ＨＤＤ）、固体状態ドライブ（ＳＤＤ）、ＵＳＢフラッシュドライブ、ＳＤカード、ＣＤ／ＤＶＤとして提供することができ、かつ／またはデータを非一時的に記憶することができる任意の他の記憶媒体として提供することができる。

本開示の他の目的および利点は、以下の詳細な説明、図面および特許請求の範囲から明らかになるであろう。本開示の範囲内で、例えば第１の態様の方法を参照して説明したすべての特徴および利点は、第２の態様のデバイス、第３の態様のコンピュータプログラムおよび／または第４の態様のコンピュータプログラム製品を参照して説明したやはり任意の特徴および利点と関連しており、これらの特徴および利点に適用され、これらの特徴および利点と組み合わせて使用することができること、またその逆に第２の態様のデバイス、第３の態様のコンピュータプログラムおよび／または第４の態様のコンピュータプログラム製品を参照して説明したすべての特徴および利点は、第１の態様の方法を参照して説明したすべての特徴および利点と関連しており、これらの特徴および利点に適用され、これらの特徴および利点と組み合わせて使用することができることが想定されている。

以下、例示的実施形態について、添付の図面を参照して説明する。

オーバレイを含むビデオストリームが本開示による方法を使用してどのように符号化されるかの例を概略的に示す図である。オーバレイを含むビデオストリームが本開示による方法を使用してどのように符号化されるかの例を概略的に示す図である。オーバレイを含むビデオストリームが本開示による方法を使用してどのように符号化されるかの例を概略的に示す図である。オーバレイを含むビデオストリームが本開示による方法を使用してどのように符号化されるかの例を概略的に示す図である。本開示による方法の様々な実施形態のフローチャートである。本開示による方法の様々な実施形態のフローチャートである。オーバレイを含むビデオストリームが本開示による方法を使用してどのように符号化されるかの追加例を概略的に示す図である。オーバレイを含むビデオストリームが本開示による方法を使用してどのように符号化されるかの追加例を概略的に示す図である。オーバレイを含むビデオストリームが本開示による方法を使用してどのように符号化されるかの追加例を概略的に示す図である。本開示によるデバイスの実施形態を概略的に示す図である。

図面では、同様の参照数表示は、特に言及されていない限り、同様の要素に対して使用されている。そうではないことが特に明確に言及されていない限り、図面は、例示的実施形態を示すために必要なこのような要素のみを示しており、一方、他の要素は、明確にするために場合によっては省略され、あるいは単に示唆されることがある。図に示されているように、要素および領域の（絶対または相対）サイズは、例証目的のために場合によってはそれらの真の値と相対して誇張され、あるいは控えめに言及されることがあり、したがって実施形態の一般的な構造を示すために提供されている。

以下、オーバレイを含むビデオストリームが本開示による方法を使用してどのように符号化されるかの様々な例が、図１Ａ～図１Ｄを参照して説明される。このような方法２００のステップＳ２０１～Ｓ２０６のフローチャートを概略的に示す図２Ａも参照される。

図１Ａおよび図１Ｂは、現在開示されている方法を使用することができる状況を概略的に示したものである。図１Ａは、第１のキャプチャ画像１１０を示している。第１の画像１１０は、ここでは街路の光景を含む場面を描写しており、街路に沿っていくつかの建物／家、ならびにこのような環境でしばしば見られる、木、ごみ箱、街灯柱等などの他の対象が存在している。拡張現実感を使用して、場面に映っている特定の建物１２４に関する現在の追加情報に追加されているオーバレイ１２０を含む第１の画像（ビデオストリームの一部として）を見ているユーザに追加情報が提供される。ここでは、この追加情報は、建物１２４の住所（「１２３通り」）を含む。当然、例えば他の建物の住所、街路の名称、羅針方位、所望の場所に到着するためにユーザが移動すべき方向を示す矢印を示す１つまたは複数の追加オーバレイ、および多くの他のタイプのオーバレイを提供することも可能である。第１の画像１１０は、カメラの特定のアライメント（例えば偏揺れ、ピッチおよびロールに関して）および特定のズーム－レベル等を含む特定の視野（ＦＯＶ）を有するカメラを使用してキャプチャされたことが仮定されている。カメラは、例えば、ユーザによって着用されるボディカメラ、スマートフォンもしくはタブレットのカメラ、ユーザが現在運転している車両の中に取り付けられた車載カメラ、または例えば建物に取り付けられた（モニタリングすなわち監視カメラ等など）カメラ（パン－チルト－ズーム（ＰＴＺ）カメラなど）であってもよい。他の代替も当然可能であり、すべて、開示されている方法に使用することができるものとして想定されている。

図１Ｂは、同じ場面の第２のキャプチャ画像１１２を示したものであるが、場面に映っている対象の位置は、第２の画像１１２における位置と第１の画像１１０における位置とではその位置が異なっている。これは、カメラが移動したこと、傾けられたこと、パンされたこと、ズームされたこと等によるものであり得る。例えば、場面の第１の画像１１０のキャプチャと第２の画像１１２のキャプチャの間にカメラが街路に沿って後方に向かって左側へ移動したか、および／またはカメラが場面上でズームアウトしたかのいずれかを仮定することができる。いずれにせよ第２の画像１１２では、特定の建物１２４はここでは異なる位置に映っており、第２の画像１１２中におけるオーバレイ１２０の所望の位置は第１の画像１１０中におけるオーバレイの位置とは異なっていることを意味している（ここではオーバレイ１２０’として示されている）。したがってオーバレイ１２０が場面に対して固定されて出現し、すなわちオーバレイ１２０がそれに関する追加情報を提供することになっている特定の建物１２４の位置を追従するよう、第２の画像１１２の中にオーバレイ１２０を再レンダリングする必要がある。オーバレイの所望の動きは、図１Ｂに矢印１３０によって示されている。

既に考察したように、オーバレイの所望の動きは、カメラ（または第１の画像１１０および第２の画像１１２が一部を形成することになっているビデオストリームを符号化する役割を担っている任意の他のデバイス）が計算資源を占有する１つまたは多くの他のタスクでも占有されるようなものである可能性があり、第２の画像１１２中におけるオーバレイ１２０の再レンダリングのために利用することができる残された資源がこのような再レンダリングを時間内に完了するには十分ではないようなものである可能性がある（すなわち処理の前に、第２の画像１１２の後にキャプチャされた後続する第３の画像等へ移動しなければならない）。そのために同期の問題、スタッタリングがもたらされ、さもなければビデオストリーム中の第２の画像へ円滑に移行できないことになり、および／または例えば時間内に完全にレンダリングされないことによってオーバレイが第２の画像から消失することになり得る。

次に図１Ｃおよび図１Ｄ（および図２Ａ）を参照して説明されるように、本明細書において想定されている方法は、このような問題を克服する方法に対する解決法を提供する。

図１Ｃは、想定されている方法２００による、符号化ビデオストリーム１４０のフレーム１５０、１５２および１５４のシーケンスの生成を概略的に示したものである。

図１Ａを参照して説明したように、方法２００は、最初に、場面の第１の画像１１０をキャプチャするステップ（ステップＳ２０１において）で開始し、次に、（ステップＳ２０２で）第１の画像１１０にオーバレイ１２０を追加し、符号化ビデオストリーム１４０の第１のフレーム１５０の一部として第１の画像１１０（およびオーバレイ１２０）を符号化するステップへ進行する。第１のフレーム１５０では、オーバレイ１２０は、例えば画像座標を使用して測定して、第１の画像１１０内の第１の位置に位置している。第１の画像１１０が第１のフレーム１５０「の一部」として符号化される、ということは、当然、第１の画像１１０から発信された画像情報に加えて、第１のフレーム１５０の中に提供された、例えば追加図形またはテキストオブジェクト等などの他のコンテントも存在し得ることを意味している。

方法２００は、次に、同じ場面の第２の画像１１２をキャプチャするステップ（ステップＳ２０３において）へ進行するが、第１の画像１１０をキャプチャするステップと第２の画像１１２をキャプチャするステップの間に、第２の画像１１２中におけるオーバレイ１２０の所望の位置が、今は第１の画像１１０中におけるオーバレイ１２０の位置とは異なっているよう、カメラが変化している。ステップＳ２０４で、方法２００は、第２の画像１１２中におけるオーバレイ１２０の所望の位置を決定するステップを含み、上で説明したように第２の画像１１２中におけるオーバレイ１２０の所望の位置は第１の画像１１０中におけるオーバレイ１２０の所望の位置とは異なっている。位置の変化は、図１Ｂに矢印１３０によって示されている。第２の画像中の所望の位置は、例えばカメラの動き、カメラのズームの変化等を知ることによって見出すことができる。

第２の画像１１２の上にオーバレイを再レンダリングし、次に第２の画像１１２およびオーバレイ１２０を例えば符号化ビデオストリーム１４０の第２のフレームとしてまとめて符号化することを試行する代わりに、方法２００は、ビデオストリーム１４０の第２のフレーム１５２の一部として、オーバレイ１２０がない第２の画像１１２を符号化するステップ（ステップＳ２０５において）へ進行する（上で説明したように、「の一部として」は、第２の画像１１２のみではなく、第２のフレーム１５２に含まれている他のコンテントも存在し得ることを意味している）。さらに、方法２００は、符号化ビデオストリーム１４０を受け取る復号器によって第２のフレーム１５２が見えるように描写されないことを意味するいわゆる非表示フレームとして第２のフレーム１５２をマークする。しかしながら、第２のフレーム１５２を依然として使用して、次にビデオストリーム１４０中の１つまたは複数の他のフレームによって使用され得る情報を含むことができる。

第２のフレーム１５２の一部として第２の画像１１２を符号化すると、方法２００は、次に、ビデオストリーム１４０の第３のフレーム１５４を生成するステップ（ステップＳ２０６において）へ進行する。第３のフレーム１５４はキャプチャ画像を全く含んでいないが、その代わりに、次に説明されるように、ビデオストリーム１４０中の１つまたは複数の他のフレームに対する参照１７０および１７２を含むようになっている。

第３のフレーム１５４は、第２の画像１１２中におけるオーバレイ１２０の所望の位置に、時間的に予測されるマクロブロックである１つまたは複数のマクロブロック１６０を含む。これは、これらのマクロブロックは第３のフレーム１５４の中に実際の画像データを全く含んでいないが、その代わりにビデオストリーム１４０の第１の画像１１０および第１のフレーム１５０のマクロブロック１６１に対する参照１７０を含んでいることを意味している。第３のフレーム１５４のマクロブロック１６０が参照している第１のフレーム１５０のマクロブロック１６１は、第１の画像１１０中におけるオーバレイ１２０の位置に存在している。第１の画像１１０および第１のフレーム１５０の中のどこで復号器がこれらのマクロブロック１６１を探すことになっているかを知るために、第３のフレーム１５４は、１つまたは複数の運動ベクトル１３２をも含む（例えば符号化する）。運動ベクトル１３２は、第１の画像１１０中におけるオーバレイ１２０の位置と、先行するステップＳ２０５で獲得された第２の画像１１２中におけるオーバレイ１２０の所望の位置との間の相違に基づいている。運動ベクトル１３２は、マクロブロック１６０のための画像データがマクロブロック１６１で、第１の画像１１０中におけるオーバレイ１２０の位置で見出されることになることを復号器が知ることができるよう、例えば図１Ｂに示されている矢印１３０とは方向が逆方向で、長さは矢印１３０の長さである。

第３のフレーム１５４は、第２の画像１１２中におけるオーバレイ１２０の所望の位置には存在しない１つまたは複数のマクロブロック１６２をも含む。これらのマクロブロック１６２はいわゆるスキップ－マクロブロックであり、復号器が第２の画像１１２および第２のフレーム１５２のマクロブロック１６３から直接画像情報をコピーし、この情報を使用して第３のフレーム１５４の対応する部分を生成しなければならないことを復号器が知るよう、第２の画像１１２および第２のフレーム１５２中の同じ位置に存在するマクロブロック１６３に対する１つまたは複数の参照１７２を含む。したがって第３のフレーム１５２は、オーバレイ１２０（オーバレイのためのデータは第１の画像１１０および第１のフレーム１５０から獲得される）と、オーバレイ１２０を含んでいないエリア（データは、第１の画像１１０および第１のフレーム１５０の代わりに、第２の画像１１２および第２のフレーム１５２から獲得される）の両方を示す画像を生成する（ビデオストリーム１４０を復号している間に）のに十分な情報を備えている。復号した後に第３のフレーム１５４を表示する場合、ユーザは、所望の、正しい位置にオーバレイ１２０を含む、場面の更新された光景（カメラの動きのために必要である）を見ることができる。

図１Ｃを参照して説明されている例では、第１のフレーム１５０は、例えば、符号化ビデオストリーム１４０中の１つまたは複数の他のフレームに対して全く参照しないイントラフレームである。第１のフレーム１５０は、例えばいわゆるＩフレームであり、第１のフレーム１５０を復号した後に第１の画像１１０を見るために必要な画像データに関しては自蔵である。また、図１Ｃを参照して説明されている例では、第２の（非表示）フレーム１５２は、第１のフレーム１５０の後であるが、第３のフレーム１５４の前に追加されている。したがって第３のフレーム１５４は、第２のフレーム１５２に時間的に遡った参照１７２を有しており、例えばいわゆるＰフレームである。第１のフレーム１５０は、例えばフレームのＧＯＰシーケンスにおける第１のフレームとして働くことができる。第３のフレーム１５４に引き続いて他のフレームを存在させることができ、および／または第１のフレーム１５０に先立って他のフレームを存在させることができる。

図１Ｄは、方法２００がビデオストリーム１４０およびオーバレイ１２０を符号化するためにどのように動作し得るかの別の可能例を概略的に示したものである。様々なステップＳ２０１～Ｓ２０６は、ここでは、図１Ｃを参照して説明した様々なステップと同じであるが、ソフトウェアによって生成された第２のフレーム１５２が第３のフレーム１５４の後に代わりに追加されている点が異なっている。第３のフレーム１５４は、ここではいわゆるＢフレームであり、このＢフレームは、今は、第３のフレーム１５４が直接コピーすることになっている（第３のフレーム１５４のマクロブロック１６２が第２のフレーム１５２のマクロブロック１６３を参照１７２しているスキップ－マクロブロックであるため）マクロブロックを含む第２のフレーム１５２として、「将来のフレーム」（第２のフレーム１５２）に対する参照を含む。上で説明したように、第３のフレーム１５４は、運動ベクトル１３２と相俟って、第１のフレーム１５０のマクロブロック１６１を適切にコピーし、処理するために、先行する第１のフレーム１５０に対する参照１７０をも含み、オーバレイ１２０は第１の画像１１０の中に見出されている。

次に、本明細書において想定されている方法２００が動作し得る別の状況について、図３Ａ～図３Ｃを参照して説明する。以下の手順は、図１Ａ～図１Ｄを参照して既に説明した手順と同じであるが、場面の種類およびカメラセットアップが異なっている。図３Ａは、静止カメラによってキャプチャされた場面を概略的に示したもので、第１の画像３１０は街路の歩道を描写している。この場面では、オーバレイ３２０が提供されている特定の対象は、非静止の、犬３２４の形態の移動対象である。ここではオーバレイ３２０は、動物のタイプを「犬」として識別しているが、当然、ビデオストリームを通して場面を見ているユーザにとって有用と思われる他の情報を提供することも可能である。犬３２４が歩道に沿って移動し／歩くと、犬３２４の位置がキャプチャされた画像同士の間で変化することになり、オーバレイを対象／犬３２４に対して固定された状態を維持するために、犬３２４の位置の変化に応じてオーバレイを更新しなければならない。

図３Ｂはキャプチャされた第２の画像３１２を示したもので、同じ場面を描写しているが、第１の画像３１０をキャプチャしてからは、矢印３３０によって示されているように犬３２４の位置が変化している。したがって、第２の画像３１２中におけるオーバレイ３２０の所望の位置は、第１の画像３１０中におけるオーバレイ（ここではオーバレイ３２０’によって示されている）の位置とは異なっている。

既に説明したように、方法２００は、ここでは、最初に第１の画像３１０をキャプチャするステップ（ステップＳ２０１において）、（ステップＳ２０２で）オーバレイ３２０をレンダリング／追加し、結果を符号化ビデオストリーム３４０の第１のフレーム３５０の一部として符号化するステップへ進行することができる。方法２００は、次に、場面の第２の画像３１２をキャプチャするステップ（ステップＳ２０３において）へ進行することができ、方法２００は、次に、第２の画像３１２中におけるオーバレイ３２０の所望の位置と、第１の画像３１０中におけるオーバレイ３２０の位置との間の相違を決定することができる（ステップＳ２０４において）。方法２００は、オーバレイ３２０を含まない第２のフレーム３５２（非表示フレームとしてマークされている）の一部としてこの第２の画像３１２を符号化することができ（ステップＳ２０５において）、次に、第２の画像３１２中におけるオーバレイ３２０の所望の位置と、第１の画像３１０中におけるオーバレイ３２０の所望の位置との間の相違に基づく１つまたは複数の運動ベクトル３３２、および図１Ｃおよび図１Ｄを参照してたった今、上で説明した第２の非表示フレーム３５２の１つまたは複数のマクロブロック３６３を参照３７２した１つまたは複数のスキップ－マクロブロック３６２の助けを借りて、第１の画像３１０中におけるオーバレイ３２０の位置における第１のフレーム３５０のマクロブロック３６１を参照３７０した時間的に予測されるマクロブロック３６０を有する第３のフレーム３５４の生成を継続し（例えばソフトウェアを使用して）符号化することができる（ステップＳ２０６において）。したがって方法は、カメラの変化／動きによって画像中におけるオーバレイの所望の位置が変化する（例えばカメラのＦＯＶ変化など）場合、場面に映っている対象（オーバレイが関連付けられている）の動きによって画像中におけるオーバレイの所望の位置が変化する場合の両方で、および／またはカメラの変化と場面における対象の移動の両方の組合せによって所望の位置が変化する場合に、必要に応じて実施することができる。言い換えると、本明細書において開示され、想定されている方法は、オーバレイが場面に対して固定される場合と、例えばオーバレイが場面の中を移動している対象に対して固定される場合との両方で機能することができる。

本明細書においては、方法２００は、例えば場面の画像をキャプチャするために使用されるモニタリングカメラによって、または例えばこのようなモニタリングカメラを含む（モニタリング）カメラシステムの任意の他の適切な構成要素の中で実施することができることが想定されている。方法２００は、当然、キャプチャされた第１の画像および第２の画像を少なくとも受け取り、様々なフレームを生成し、出力としてビデオストリームを符号化する能力を有する任意の他のデバイスの中で実施することも可能である。以下、本明細書において想定されているこのようなデバイスの例について、図４を参照してより詳細に説明する。

図４は、オーバレイを含むビデオストリームを符号化するためのデバイス４００を概略的に示したものである。デバイス４００は、少なくともプロセッサ（または「処理回路機構」）４１０およびメモリ４１２を含む。本明細書において使用されるとき、「プロセッサ」または「処理回路機構」は、例えば、メモリ４１２に記憶されているソフトウェア命令を実行することができる、適切な中央処理装置（ＣＰＵ）、多重プロセッサ、マイクロコントローラ（μＣ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、書替え可能ゲートアレイ（ＦＰＧＡ）、図形処理装置（ＧＰＵ）等のうちの１つまたは複数の任意の組合せであってもよい。メモリ４１２は、プロセッサ４１０の外部であっても、またはプロセッサ４１０の内部であってもよい。本明細書において使用されるとき、「メモリ」は、ランダムアクセスメモリ（ＲＡＭ）およびリードオンリメモリ（ＲＯＭ）、または命令を記憶することができる任意の他の種類のメモリの任意の組合せであってもよい。メモリ４１２は、プロセッサ４１０によって実行されると、デバイス４００が本明細書において説明されている方法（すなわち方法２００またはその任意の実施形態）を実施することになる命令を含む（すなわち記憶する）。デバイス４００は、いくつかの状況において方法を実施するために必要になり得る１つまたは複数の追加アイテム４１４をさらに含むことができる。いくつかの例示的実施形態では、デバイス４００は、例えば上で言及したモニタリングカメラであってもよく、その場合、追加アイテム４１４は、想定されている方法を実施する一環としてモニタリングカメラが場面の画像をキャプチャすることができるよう、例えば画像センサ、および例えば場面からの光を画像センサに集束させるための１つまたは複数のレンズを含むことができる。追加アイテム４１４は、例えば、場面をキャプチャするために必要な、例えば画像センサおよび／またはレンズを必要に応じて適切に動作させるために必要な様々な他の電子工学構成要素をも含むことができる。モニタリングカメラにおける方法の実施は、処理が「縁」へ移動され、すなわち処理およびビデオ符号化をどこか他の場所（もっと集中化された処理サーバ等など）で実施する場合と比較して、実際の場面がキャプチャされる場所のより近くへ移動される点で有用であり得る。デバイス４００は、この方法を実施することによって得られる符号化ビデオストリームをユーザに伝送することができるよう、例えばネットワークに接続することができる。そのためにデバイス４００は、例えば無線ネットワークインタフェース（例えばＩＥＥＥ８０２．１１、または例えばＷｉ－Ｆｉをサポートする後続規格のうちのいずれかで定義されているような）であってもよいネットワークインタフェース４１６、または有線ネットワークインタフェース（例えばＩＥＥＥ８０２．３、または例えばＥｔｈｅｒｎｅｔをサポートする後続規格のうちのいずれかで定義されているような）を含むことができる。ネットワークインタフェース４１６は、例えば、符号化されたビデオを転送することができる、例えばＢｌｕｅｔｏｏｔｈ等などの任意の他の無線規格をもサポートすることができる。これらの様々な構成要素４１０、４１２、４１４および４１６（存在していれば）は、これらの構成要素が互いに通信することができ、必要に応じてデータを交換することができるよう、１つまたは複数の通信バス４２８を介して接続することができる。

デバイス４００は、例えば、建物の上に取り付けられた、または建物の上に取り付けることができる、例えばＰＴＺカメラの形態のモニタリングカメラであっても、もしくは例えば場面のより広い視野を提供することができる魚眼カメラであっても、または任意の他のタイプのモニタリング／監視カメラであってもよい。デバイス４００は、例えば、人、動物および／または様々な車両等への取り付けに適した、ボディカメラ、アクションカメラ、車載カメラ等であってもよい。デバイス４００は、例えば、１つまたは複数のオーバレイからさらなる情報を得るために、ユーザが持ち運んで、興味のある場面を撮影することができるスマートフォンまたはタブレットであってもよい。デバイス４００は、例えば、ビデオストリームを介して場面を観察するためにユーザが着用することができる仮想ヘッドセット等であっても、またはそれらを含むことも可能である。デバイス４００のこのような例のいずれにおいても、デバイス４００は、デバイス４００が本明細書において想定されている方法２００またはその任意の実施形態を依然として実施することができる限り、本明細書において既に説明した構成要素以外の必要なあらゆる構成要素（存在している場合）を含むことができることが想定されている。

本明細書においては、それ以上の詳細な説明は何らなされていないが、デバイス４００（例えばカメラなど）は、例えば、人、建物、街路、車両、動物、観光名所等などの、場面に映っている１つまたは複数の対象を識別し、このような対象のための適切なオーバレイを生成して、有用な情報をユーザに提供する能力をも有することができることが想定されている。対象の識別は、例えば機械学習アルゴリズムおよび／または例えばデバイス４００の中に含まれている（含まれてもよい）ＧＰＳレシーバから得られる例えば位置情報に基づいて実施することができる。

次に、方法２００の別の代替実施形態について、図２Ｂを参照して説明する。図２Ｂは、方法２００のステップＳ２０４の後に続く代替手順を概略的に示したものである。ステップＳ２０７で（必ずしもステップＳ２０４の後に実施する必要はない）、第２の画像／第２のフレームの一部としてオーバレイを代わりに直接追加し／レンダリングするために必要な計算時間が閾値未満であるかどうかが決定される。言い換えると、ステップＳ２０７は、カメラおよび／または場面に映っている対象が移動または変化した後に、いつものように（すなわち従来通りに）オーバレイを再レンダリングすることができるよう、利用可能な十分な計算資源が存在しているかどうかを予測するステップを含む。予測された計算時間が閾値未満である場合（例えば計算資源をほとんど利用することができない場合、閾値はより低く、より多くの計算資源が現在利用可能である場合、閾値はより高い）、方法は（図２Ａを参照して説明したステップＳ２０５およびＳ２０６へ進行する代わりに）ステップＳ２０５’へ進行することができ、オーバレイが第２の画像の所望の位置に（直接）追加され／レンダリングされ、次に、ビデオストリームの第２のフレームの一部として（直接）符号化される。ここでは第２のフレームは非表示フレームとしてマークされず、第１のフレームおよび第２のフレームを参照する第３のフレームの生成は省略することができる。一方、利用可能な計算資源が第２の画像中におけるオーバレイのこのような直接再レンダリングを時間内に実施するためには十分ではないことが決定されると、方法２００は、既に考察したようにステップＳ２０５およびＳ２０６へ進行することができる。

図２Ｂを参照して説明した方法２００の代替例を使用することにより、例えばカメラおよび／または場面に映っている対象が変化した場合のオーバレイの通常の再レンダリングを、必要なときのみ、第２の非表示フレームおよびソフトウェアによって生成され（かつ、挿入された）第３のフレームのみの想定済み利用に置き換えることができる。カメラおよび／または対象が動き／変化した後の通常の再レンダリングは、例えば第１の画像のキャプチャと第２の画像のキャプチャの間に生じる場面のあらゆる視野変化も考慮されるため、一般的により良好な視覚経験をもたらすので、この置換えには、例えば画像品質が改善される利点がある。

上で説明した閾値は、例えば、デバイス（モニタリングカメラなど）に使用されている、符号化ビデオストリームを出力する役割を担っている例えばプロセッサまたは他の処理回路機構の現在の負荷に基づいて連続的に更新することができる。例えばデバイスが他の資源集約タスク（場面に映っている複数の対象の追跡等など）で重く占有されている場合、第２の非表示フレームおよびソフトウェアによって生成され（かつ、挿入された）第３のフレームを利用している想定方法は、オーバレイが例えば場面または場面に映っている特定の対象に対して、許容可能な視覚品質で固定された状態を維持するよう、オーバレイの位置を更新するより速い方法を提供することができる。利用可能な計算資源および負荷のこのようなチェックは、例えば１秒当たり複数回にわたって、または任意の所望のインターバルで実施することができる。したがって想定されている方法は、オーバレイの通常の再レンダリングが不可能である場合のバックアップとして使用することができる。

本明細書において一般的に想定されているように、第２の画像中におけるオーバレイの所望の位置は、例えば第１の画像中におけるオーバレイの位置を知ることによって、例えばカメラが第１の画像のキャプチャと第２の画像のキャプチャの間に、ズーム－レベル、パン、チルト等に対してどのように変化したかをも知ることによって獲得し／決定することができる。したがってカメラからのこのような情報に基づいて、第２の画像中の所望の位置と第１の画像中におけるオーバレイの位置との間の相違を計算することができる。カメラが例えば建物などの静止対象に取り付けられていない場合、カメラの配向および位置がどのように変化したかを決定するためには、追加情報が必要とされ得る。必要に応じて、例えばカメラ自体の上、および／または何でもよいがカメラが取り付けられている非静止対象の上に取り付けられた１つまたは複数の適切なセンサからこのような追加情報を獲得することができることが想定されている。他の実施形態では、例えば対象を検出し、かつ／または追跡するための１つまたは複数の画像／ビデオ解析アルゴリズムなどの例えば１つまたは複数の画像／ビデオ解析アルゴリズムを使用して、第２の画像中におけるオーバレイの正しい場所を識別することにより、第２の画像中の所望の位置（および第１の画像に対する対応する相違、および対応する運動ベクトル）を見出すことが可能であることが想定されている。

本明細書において提示された様々な実施形態を要約すると、本開示は、場面の画像中におけるオーバレイの位置を更新する必要がある符号化ビデオストリームの中にオーバレイを提供する（およびオーバレイの位置を更新する）改善された方法を提供する。想定されている解決法は、個々のこのような時間の間にオーバレイの再レンダリングを完了するために利用することができる不十分な計算資源を潜在的に有する問題を克服する。第２のフレームを非表示フレームとしてマークし、ソフトウェアによって生成される、この第２のフレームを参照する第３のフレームを代わりに挿入することにより、オーバレイが配置されないことになっているエリアにおける場面に関する画像情報を、単純なコピー操作によって第２のフレームから第３のフレームに提供することができる。同様に、第３のフレームから第１のフレームをも参照することにより、オーバレイが適切にレンダリングされた最後のフレームから、すなわち第１のフレームからこの情報をコピーすることによってオーバレイ自体に関する画像情報を第３のフレームに提供することができる（当然、カメラおよび／または場面に映っている対象がどのように変化し／移動したかに基づいて提供される適切な運動ベクトルを使用して）。したがって符号器によって、単に他のフレームにおける既に利用可能な情報を参照することによって第３のフレーム（新しい所望の位置にオーバレイを含む）を生成することができ、したがって第２の画像中におけるその新しい位置でのオーバレイの再レンダリングを全く必要とすることなく、第３のフレームを準備し符号化するために必要な計算時間を短くすることができる。同様に、対応する復号器はこの方法によって左右されず、想定されている方法からの符号化ビデオストリーム出力によって命令されると、いつものように他のフレームからの情報をコピーすることによって進行することができる。言い換えると、運動ベクトル、時間的に予測されるフレーム、非表示フレーム等の概念をサポートしている現在利用可能な符号器を修正することなく使用することができる。第３のフレームは手動で生成することができ（ソフトウェアを使用して）、このような符号器からの出力に単に挿入して（あるいはこのような符号器からの出力と組み合わせて）、本明細書において想定されている符号化ビデオストリームを生成することができるため、方法は、既に利用可能な符号器を使用して、これらの符号器を修正することなく実施することも可能である。

特徴および要素は、上では、場合によっては特定の組合せで説明されているが、個々の特徴または要素は、他の特徴および要素なしに単独で使用することができ、または他の特徴および要素との様々な組合せで、もしくは他の特徴および要素がない様々な組合せで使用することができる。さらに、特許請求される本発明を実践する当業者には、図面、本開示および添付の特許請求の範囲を考察することにより、開示されている実施形態に対する変形形態が理解され、実施され得る。

特許請求の範囲では、「備える」および「含む」という語は他の要素を排他せず、不定冠詞「ａ」または「ａｎ」は複数形の表現を排他しない。特定の特徴が相互に異なる従属請求項に記載されている、という単なる事実は、これらの特徴の組合せを有利に使用することができないことを示すものではない。

１１０、３１０場面の第１の画像
１１２、３１２場面の第２の画像
１２０、３２０オーバレイ
１２０’、３２０’ 第１の画像中におけるオーバレイの位置
１２４、３２４場面に映っている、オーバレイが関連付けられている特定の対象
１３０、３３０オーバレイの位置の動き
１３２、３３２運動ベクトル
１４０、３４０ビデオストリーム
１５０、３５０第１の（画像）フレーム
１５２、３５２第２の（画像）フレーム
１５４、３５４第３の（画像）フレーム
１６０、３６０第３のフレーム中の時間的に予測されるマクロブロック
１６１、３６１第１のフレーム中のソースマクロブロック
１６２、３６２第３のフレーム中のスキップ－マクロブロック
１６３、３６３第２のフレーム中のソースマクロブロック
１７０、３７０第１のフレーム中のソースマクロブロックに対する参照
１７２、３７２第２のフレーム中のソースマクロブロックに対する参照
２００方法（フローチャート）
Ｓ２０１～Ｓ２０６方法ステップ
Ｓ２０５’、Ｓ２０７代替方法ステップ
４００デバイス
４１０プロセッサ／処理回路機構
４１２メモリ
４１４ネットワークインタフェース
４１６追加アイテム
４２８通信バス

Claims

オーバレイを含むビデオストリームを符号化する方法（２００）であって、
ａ）場面の第１の画像（１１０）をキャプチャすること（Ｓ２０１）と、
ｂ）前記第１の画像の第１の位置にオーバレイ（１２０）を追加し、符号化ビデオストリーム（１４０）の第１のフレーム（１５０）の一部として前記第１の画像を符号化すること（Ｓ２０２）と、
ｃ）前記場面の第２の画像（１１２）をキャプチャすること（Ｓ２０３）と、
ｄ）ｉ）前記第１の画像のキャプチャと前記第２の画像のキャプチャの間のカメラ視野の変化に関する情報、ｉｉ）前記第１の画像のキャプチャと前記第２の画像のキャプチャの間のカメラ位置の変化に関する情報、およびｉｉｉ）前記オーバレイが前記第２の画像中の前記場面の中で関連付けられる対象の検出および／または追跡された位置のうちの少なくとも１つに基づいて、前記第２の画像中における前記オーバレイの所望の位置を計算すること（Ｓ２０４）であって、前記第２の画像中における前記オーバレイの前記所望の位置が前記第１の画像中における前記オーバレイの前記第１の位置（１２０’）とは異なる、所望の位置を計算すること（Ｓ２０４）と、
ｅ）第２のフレームを非表示フレームとしてマークすることを含む、前記ビデオストリームの前記第２のフレーム（１５２）の一部として前記第２の画像を符号化すること（Ｓ２０５）と、
ｆ）前記ビデオストリームの第３のフレーム（１５４）を生成し符号化すること（Ｓ２０６）であって、前記オーバレイの前記所望の位置における前記第３のフレームの１つまたは複数のマクロブロック（１６０）が、前記第１のフレームを参照する（１７０）時間的に予測されるマクロブロックであることを含み、前記オーバレイの前記所望の位置の外側の前記第３のフレームの１つまたは複数のマクロブロック（１６２）が、前記ビデオストリームの前記第２のフレームを参照する（１７２）スキップ－マクロブロックであることを含み、前記第１の画像中における前記オーバレイの前記第１の位置と、前記第２の画像中における前記オーバレイの計算された前記所望の位置との間の相違（１３０）に基づいて、１つまたは複数の前記時間的に予測されるマクロブロックの運動ベクトル（１３２）を計算することを含む、前記ビデオストリームの第３のフレーム（１５４）を生成し符号化すること（Ｓ２０６）と
を含む、方法。
前記第３のフレームが、前記符号化ビデオストリーム中の前記第２のフレームの後に挿入される予測フレーム、Ｐフレームまたは二方向予測フレーム、Ｂフレームである、請求項１に記載の方法。
前記第３のフレームが、前記符号化ビデオストリーム中の前記第２のフレームの前に挿入される二方向予測フレーム、Ｂフレームである、請求項１または２に記載の方法。
同じカメラを使用して前記第１の画像および前記第２の画像をキャプチャすることを含む、請求項１から３のいずれか一項に記載の方法。
前記方法が前記第１の画像および／または前記第２の画像をキャプチャするために使用されるカメラの中で実施される、請求項１から４のいずれか一項に記載の方法。
前記オーバレイが前記場面に対して固定される、請求項１から５のいずれか一項に記載の方法。
前記オーバレイを前記第２の画像および前記第２のフレームの一部としてレンダリングし符号化するために必要な計算時間を予測することをさらに含み、予測された前記計算時間が閾値未満であることを決定するとステップａ）～ｄ）を実施して、ステップｅ）およびｆ）は実施せず、その代わりにステップｄ）の後に、
ｅ’）前記オーバレイを前記第２の画像の前記所望の位置に追加し（Ｓ２０５’）、前記第２の画像を前記ビデオストリームの第２のフレーム（１５２）の一部として符号化する、
請求項１から６のいずれか一項に記載の方法。
オーバレイを含むビデオストリームを符号化するためのデバイス（４００）であって、
プロセッサ（４１０）と、
命令を記憶するメモリ（４１２）と
を備え、前記命令は、前記プロセッサによって実行されると、前記デバイスに、
場面の第１の画像（１１０）をキャプチャすること（Ｓ２０１）、
前記第１の画像の第１の位置にオーバレイ（１２０）を追加し、符号化ビデオストリーム（１４０）の第１のフレーム（１５０）の一部として前記第１の画像を符号化すること（Ｓ２０２）、
前記場面の第２の画像（１１２）をキャプチャすること（Ｓ２０３）、
ｉ）前記第１の画像のキャプチャと前記第２の画像のキャプチャの間のカメラ視野の変化に関する情報、ｉｉ）前記第１の画像のキャプチャと前記第２の画像のキャプチャの間のカメラ位置の変化に関する情報、およびｉｉｉ）前記オーバレイが前記第２の画像中の前記場面の中で関連付けられる対象の検出および／または追跡された位置のうちの少なくとも１つに基づいて、前記第２の画像中における前記オーバレイの所望の位置を計算すること（Ｓ２０４）であって、前記第２の画像中における前記オーバレイの前記所望の位置が前記第１の画像中における前記オーバレイの前記第１の位置（１２０’）とは異なる、前記オーバレイの所望の位置を計算すること（Ｓ２０４）、
前記符号化（Ｓ２０５）には、第２のフレームを非表示フレームとしてマークすることを含む、前記ビデオストリームの前記第２のフレーム（１５２）の一部として前記第２の画像を符号化すること（Ｓ２０５）、
前記ビデオストリームの第３のフレーム（１５４）を生成し符号化する（Ｓ２０６）ことであって、前記オーバレイの前記所望の位置における前記第３のフレームの１つまたは複数のマクロブロック（１６０）が、前記第１のフレームを参照する（１７０）時間的に予測されるマクロブロックであり、前記オーバレイの前記所望の位置の外側の前記第３のフレームの１つまたは複数のマクロブロック（１６２）が、前記ビデオストリームの前記第２のフレームを参照する（１７２）スキップ－マクロブロックであり、前記第１の画像中における前記オーバレイの前記第１の位置と、前記第２の画像中における前記オーバレイの計算された前記所望の位置との間の相違（１３０）に基づいて、１つまたは複数の前記時間的に予測されるマクロブロックの運動ベクトル（１３２）を計算することを含む、前記ビデオストリームの第３のフレーム（１５４）を生成し符号化する（Ｓ２０６）こと
を実施させる、デバイス。
前記命令が、前記プロセッサによって実行されると、前記命令が前記デバイスに、請求項２から７のいずれか一項に記載の方法をさらに実施させることになるような命令である、請求項８に記載のデバイス。
前記デバイスが、前記第１の画像および前記第２の画像のうちの少なくとも一方をキャプチャするように構成されたモニタリングカメラである、請求項８または９に記載のデバイス。
オーバレイを含むビデオストリームを符号化するためのコンピュータプログラムであって、デバイスのプロセッサによって実行されると、前記デバイスに、
場面の第１の画像（１１０）をキャプチャすること（Ｓ２０１）、
前記第１の画像の第１の位置にオーバレイ（１２０）を追加し、符号化ビデオストリーム（１４０）の第１のフレーム（１５０）の一部として前記第１の画像を符号化すること（Ｓ２０２）、
前記場面の第２の画像（１１２）をキャプチャすること（Ｓ２０３）、
ｉ）前記第１の画像のキャプチャと前記第２の画像のキャプチャの間のカメラ視野の変化に関する情報、ｉｉ）前記第１の画像のキャプチャと前記第２の画像のキャプチャの間のカメラ位置の変化に関する情報、およびｉｉｉ）前記オーバレイが前記第２の画像中の前記場面の中で関連付けられる対象の検出および／または追跡された位置のうちの少なくとも１つに基づいて、前記第２の画像中における前記オーバレイの所望の位置を計算すること（Ｓ２０４）であって、前記第２の画像中における前記オーバレイの前記所望の位置が前記第１の画像中における前記オーバレイの前記第１の位置（１２０’）とは異なる、前記オーバレイの所望の位置を計算すること（Ｓ２０４）、
符号化（Ｓ２０５）には、第２のフレームを非表示フレームとしてマークすることを含む、前記ビデオストリームの前記第２のフレーム（１５２）の一部として前記第２の画像を符号化すること（Ｓ２０５）、
前記ビデオストリームの第３のフレーム（１５４）を生成し符号化すること（Ｓ２０６）であって、前記オーバレイの前記所望の位置における前記第３のフレームの１つまたは複数のマクロブロック（１６０）が、前記第１のフレームを参照する（１７０）時間的に予測されるマクロブロックであり、前記オーバレイの前記所望の位置の外側の前記第３のフレームの１つまたは複数のマクロブロック（１６２）が、前記ビデオストリームの前記第２のフレームを参照する（１７２）スキップ－マクロブロックであり、前記第１の画像中における前記オーバレイの前記第１の位置と、前記第２の画像中における前記オーバレイの計算された前記所望の位置との間の相違（１３０）に基づいて、１つまたは複数の前記時間的に予測されるマクロブロックのための運動ベクトル（１３２）を計算することを含む、前記ビデオストリームの第２のフレーム（１５２）の一部として前記第２の画像を符号化すること（Ｓ２０５）
を実施させるように構成されているコンピュータプログラム。
前記デバイスに、請求項２から７のいずれか一項に記載の方法を実施させるようにさらに構成されている、請求項１１に記載のコンピュータプログラム。
請求項１１または１２に記載のコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体。