JP6980137B2

JP6980137B2 - マルチセグメントリサンプリングを使用した関心領域高速符号化

Info

Publication number: JP6980137B2
Application number: JP2020568420A
Authority: JP
Inventors: クリシュナン、ラティシュ
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-06-08
Filing date: 2019-06-07
Publication date: 2021-12-15
Anticipated expiration: 2039-06-07
Also published as: US20190379893A1; CN112655210A; EP3804307B1; US10848768B2; WO2019237027A1; JP2021521744A; EP3804307A4; EP3804307A1

Description

本開示の態様は、デジタル画像の符号化及び復号化に関する。具体的には、本開示は、関心領域符号化に関する。

映像処理では、関心領域（ＲＯＩ）符号化は通常、映像フレームの選択部分の視覚的品質を、映像フレームの残りの部分と比較して、向上させるプロセスを指す。ＲＯＩ符号化を使用することで、帯域幅を削減し、ネットワーク輻輳時にシーンの重要な部分の視覚的忠実性を確実に維持することができる。

ＲＯＩ符号化の従来の方法は、符号化プロセス中に量子化パラメータ（ＱＰ）を操作して、ＲＯＩ内の領域には低いＱＰを使用し、残りの領域には高いＱＰを使用することを伴う。これにより、ＲＯＩの外側の領域に対するビットの割り当てが減少し、これに応じて背景の画質は低下する。この手法はビットレートの低下に役立つが、処理されるピクセル数は減らないため、符号化プロセスの高速化には至らない。

画像に不均一なリサンプリングを適用するいくつかの既存の方法は、画像全体に変換関数を利用し、これは、画像及び映像の一般的圧縮規格に適さない非矩形画像を生じ得る。非矩形のピクセル配列を符号化するために、矩形の境界ボックスを使用してピクセルがパディングされ、次にパディングされた矩形画像は、従来の手段を使用して圧縮される。表示されないパディングされたピクセルを符号化器が処理する必要があり得るため、これも最適ではない。

他の手法は、ＲＯＩ用の１つのビットストリームと、背景用の別のビットストリームとの２つの別個のビットストリームを利用し得る。符号化時間を削減するために、背景は低解像度にダウンスケーリングされ得る。最終的な画像は、ＲＯＩを背景に融合することにより生成される。この方法の欠点は、２つのビットストリームを生成するために２つの符号化器インスタンスが必要となることである。表示側では、２つの復号化器インスタンスが必要であり、追加の同期が必要となるため、複雑さが増す。

この状況において、本開示の態様は生じる。

本開示の態様による、符号化のためのマルチセグメントダウンサンプリングの方法のフロー図を示す。本開示の態様による、復号化後のマルチセグメントアップサンプリングの方法のフロー図を示す。本開示の態様による、マルチセグメントダウンサンプリングのためのＲＯＩパラメータ特定の概略図を示す。本開示の態様による、マルチセグメントアップサンプリングのためのＲＯＩパラメータ特定の概略図を示す。本開示の態様による、マルチセグメントダウンサンプリングのためのＲＯＩ及び直線的に間隔のあいたサンプリングポイントを有するデジタル画像の概略図を示す。本開示の態様による、マルチセグメントアップサンプリングのためのＲＯＩ及び直線的に間隔のあいたサンプリングポイントを有するダウンサンプリングされた画像の概略図を示す。本開示の態様による、マルチセグメントダウンサンプリングのためのＲＯＩ及び非直線的に間隔のあいたサンプリングポイントを有するデジタル画像の概略図を示す。本開示の態様による、マルチセグメントアップサンプリングのためのＲＯＩ及び非直線的に間隔のあいたサンプリングポイントを有するダウンサンプリングされた画像の概略図を示す。本開示の態様による、マルチセグメントダウンサンプリングを用いてデジタル画像を符号化するための方法のブロック図を示す。本開示の態様による、ＲＯＩ及びマルチセグメントアップサンプリングでダウンサンプリングされた画像を復号化するための方法のブロック図を示す。本開示の態様の状況での視線追跡を示す概略図である。本開示の態様の状況での視線追跡を示す概略図である。本開示の態様によるシステムを示すブロック図である。

序論
リサンプリングを使用して、ＲＯＩの詳細を損失することなく、入力画像の解像度を低減させる新たなＲＯＩ符号化実施方法が提供される。解像度が低減すると、圧縮されたビットストリームを生成する符号化プロセスは高速化する。圧縮されたビットストリームを復号化した後に、別のリサンプリングプロセスが実行され、画像は元の解像度に再構築される。提案される方法は、符号化を実行するのに必要な時間を短縮しながら、ＲＯＩ符号化を達成する。

提案される解決策には、既存のＲＯＩ符号化技法のうちのいくつかと比べて、いくつかの利点がある。提案される解決策は、ＲＯＩの詳細を損失することなく、入力画像の解像度を低減させ、より高速な符号化を実現する。提案される解決策を使用するＲＯＩ符号化は、既存の主流の圧縮規格を使用して実行することができる。ＱＰを調整してＲＯＩ及び背景の画質を制御することを、回避することができる。提案される解決策を使用するＲＯＩ符号化は、単一の符号化器インスタンスを使用して実施することができる。リサンプリングされた画像は矩形であるため、パディングされたピクセルは不要となり得る。提案される解決策により、映像フレーム間で様々なＲＯＩサイズ及び位置が可能となる。符号化段階及び復号化段階の両方でのリサンプリングは、グラフィックプロセッサユニット（ＧＰＵ）で効率的に実施され得る。提案される解決策により、ＲＯＩと背景との画質の差を制御することも可能となる。提案される解決策により、ＲＯＩと背景との明確な境界が回避され得る。さらに、提案される解決策は、非矩形ＲＯＩ、また同じ画像内の複数のＲＯＩにも、拡張され得る。

方法論
上記のように、現在のＲＯＩ符号化技法は、ビットレートを低下させるが、処理されるピクセル数を削減しない。ダウンサンプリングとも称される画像内のピクセル数の削減は、通常、目に見える品質低下をもたらす。品質低下の量は、ダウンサンプリングの程度による。この品質低下は、ダウンサンプリングされた画像をアップサンプリングで元のサイズに戻しても、回復できない。本開示の態様は、リサンプリングのこの特性を利用して、ＲＯＩの外側の画質を低減させる。同様に、ＲＯＩの詳細を保持するために、リサンプリングの量は最小限に抑える必要がある。提案される方法は、画像の様々なセグメントで選択的にリサンプリングを利用して、ＲＯＩ符号化の特性を再現する。画像の様々なセグメントで異なる程度のリサンプリングを利用するこの選択的リサンプリング方法は、マルチセグメントリサンプリングと称される。

本開示の態様によれば、開示される方法の符号化手順は、図１及び下記のように説明される。１０１にて、ＲＯＩのサイズ、位置、及び形に関するＲＯＩパラメータが特定される。限定ではなく例として、矩形のＲＯＩの場合、これらのパラメータは、矩形画像の各端からＲＯＩ境界までのオフセットを含み得る。１０２にて、より小さい画像に変換するために、入力画像に対しマルチセグメントダウンサンプリングが実行される。言い換えると、画像は、元の画像よりピクセル数が少ない画像に変換される。１０３にて、結果ダウンサンプリングされた画像は、ヘッダまたはメタデータに含まれるＲＯＩパラメータと共に、符号化される。本発明の代替的な実施形態では、符号化されていないＲＯＩパラメータは、例えば符号化されたダウンサンプリング済み画像に含まれ得、限定ではないが、ＲＯＩパラメータは、別個に送信され得る、または符号化されたダウンサンプリング済み画像の符号化されていないラッパーに含まれ得る。１０４にて、結果符号化されたデータが送信または格納される。

図３Ａは、元の画像３１０及びＲＯＩ３１１の両方が矩形である特定の事例における符号化手順の例を示す。パラメータｌ_０、ｔ_０、ｒ_０、及びｂ_０は、元の画像３１０の境界からＲＯＩ３１１までの左側ピクセルオフセット３０７、上側ピクセルオフセット３０８、右側ピクセルオフセット３０６、及び下側ピクセルオフセット３０９を、それぞれ表す。元の画像の幅３０１及び高さ３０２は、ｗ_０及びｈ_０と示され、一方ＲＯＩの幅３０５及び高さ３０４は、ｘ_０及びｙ_０と示される。
ｘ_０＝ｗ_０−ｌ_０−ｒ_０
ｙ_０＝ｈ_０−ｔ_０−ｂ_０

ダウンサンプリングされた画像３４０の寸法（ｗ_１及びｈ_１）は、圧縮された画像の必要ビットレート、及びＲＯＩの外側に必要な品質低下の程度などの要素に基づいて選ばれる。全体的なダウンサンプリング比率は、次のように決定される。
Ｒ_ｗ＝ｗ_０／ｗ_１
Ｒ_ｈ＝ｈ_０／ｈ_１

ＲＯＩ３１１におけるダウンサンプリングを回避するために、理想的には、ｗ_１３１３及びｈ_１３１４は、ｘ０及びｙ０よりそれぞれ適度に大きくなくてはならない。いくつかの実施態様では、ＲＯＩにリサンプリングが必要か否かを判定するために、ｗ_１及びｈ_１は、ｘ_０及びｙ_０の閾値と比較され得る。このような場合、ＲＯＩのリサンプリングは回避され得、ＲＯＩのダウンサンプリング比率は、次の式で与えられる。
Ｒ_ｘ＝ｘ_０／ｘ_１＝１
Ｒ_ｙ＝ｙ_０／ｙ_１＝１

ＲＯＩ３１１のダウンサンプリングが避けられない場合、ＲＯＩが背景よりも高い品質を有するために、ダウンサンプリング比率は次のように選択する必要がある。
Ｒ_ｘ＜Ｒ_ｗ
Ｒ_ｙ＜Ｒ_ｈ

この段階で、ｗ_１３１３、ｈ_１３１４、ｘ_１３０５、及びｙ_１３０４の値は特定されている。次のステップは、パラメータｌ_１３１８及びｒ_１３１９の計算である。これらの値は、次の観測値を使用して計算される。
ｌ_１＋ｒ_１＝ｗ_１−ｘ_１
ｌ_１／ｒ_１＝ｌ_０／ｒ_０

同様の手法を使用して、ｔ_１３１７及びｂ_１３２０の値も特定される。ダウンサンプリングされた画像の全てのパラメータが分かると、ダウンサンプリング方法３１２及びサンプリングポイントを決定するための選択肢が複数存在する。ダウンサンプリング方法３１２は、バイリニア補間、スプライン補間、三次補間などに基づき得る。

ＲＯＩ３１１は、映像ストリームの１つのフレームから次のフレームで、サイズが大幅に増加し得る。これは、検出された眼球動作の突然の増加により、または画像内の要素の動きによる関心領域サイズの予測される増加により、引き起こされ得る。いくつかの実施形態では、ＲＯＩパラメータは閾値と比較され得、パラメータが閾値を超える場合は、システムは、幅ｗ_１３１３及び高さｈ_１３１４の現行の解像度のマルチセグメントダウンサンプリングされた映像ストリームを符号化３２１することを終了し、代わりに、より高い解像度のフレームまたはデジタル画像を有する新たなマルチセグメントダウンサンプリングされた映像ストリームを符号化し得る。いくつかの実施形態では、ＲＯＩパラメータは閾値と比較され得、システムは、より高い解像度のフレームまたはデジタル画像を有するマルチセグメントダウンサンプリングされた映像ストリームを符号化することを終了し、元の値またはより低い値の幅ｗ_１３１３及び高さｈ_１３１４を有する新たなストリームを符号化し始め得る。閾値は、限定ではないが、実際の画面サイズ、品質低下、またはその他のメトリックに基づいて、経験的に決定され得る。代替的実施形態では、システムは、ダウンサンプリング比率が増加するように、ＲＯＩパラメータを変更し得る。限定ではなく例として、ｘ１及びｙ１が縮小され得、その結果、比率Ｒｘ及びＲｙは増加する。同様に、ｘ１及びｙ１を変更することは、ｌ_１、ｒ_１、ｔ_１、及びｂ_１も変更する。いくつかの実施形態では、システムは、ｘ_１及びｙ_１を増加させて、比率Ｒ_ｘ及びＲ_ｙをそれらの元の値またはより低い値に戻し得、結果的に、マルチセグメントダウンサンプリングされた映像ストリームまたはデジタル画像を、それらの元の解像度またはより低い解像度に戻す。

ＲＯＩ交差平面の外側のサンプリングポイントが、Ｘ軸に沿って等距離に及びＹ軸に沿って等距離に配置されている場合、背景の詳細は、各セグメント内で均一に縮小される。直線的間隔を使用した場合のダウンサンプリング段階３１２のサンプリングポイントが、図４Ａに示される。グリッド線の交点は、元の画像のピクセル位置４０３を示し、ドットは、サンプリングポイント４０４、４０５、４０２を示す。いくつかの実施態様では、ＲＯＩが「負の関心領域」、すなわち意図的にぼかされるまたは不明瞭にされる画像部分である場合、ＲＯＩには、より低いサンプル密度が使用され得る。

実施例で使用されるＲＯＩ４０１は、正方形である。この実施例では、ＲＯＩ４０１にリサンプリングは行われず、その結果、サンプリングポイントは、元の画像のピクセル位置上に正確に存在する（４０６）。他のサンプリング位置は、元のピクセル位置上に存在しないが、ピクセル間に存在し得る（４０４）、または一般に、元のピクセルよりまばらに広がる（４０２）。いくつかの実施形態では、サンプル密度は、ＲＯＩを補正するように、Ｘ方向またはＹ方向に変化し得る。図４Ａに見られるように、サンプル４０５及びその隣接サンプルは、Ｘ軸上では元のピクセルと位置が合っているが、Ｙ軸上ではよりまばらに散在する。ダウンサンプリング３１２後に得られる画像３４０は、元の画像よりピクセル数が少なく、このダウンサンプリングされた画像３４０は、符号化３２１され、必要なビットレートに応じてビットストリームが生成される。

表示する前に、ビットストリームは、復号化され、処理される必要がある。提案される方法の復号化及び後処理手順が、図２に示される。２０１に示されるように、復号化器は、符号化されたデータを受信し得る。受信は、広域ネットワーク（ＷＡＮ）接続、またはユニバーサルシリアルバス（ＵＳＢ）方式接続などのローカルデータ接続から、行われ得る。２０２にて、ＲＯＩパラメータと共に受信されたデータが復号化される。いくつかの実施形態では、ＲＯＩパラメータは、符号化された画像データとは別個に受信され得る、または符号化された画像データのラッパー内に存在し得る。２０３にて、ＲＯＩパラメータを使用して、復号化された画像にマルチセグメントアップサンプリングが行われ、画像は元のサイズに再変換される。最後に、２０４にて、元のサイズの復号化された画像が、ディスプレイ上に表示される。

図３Ｂは、復号化手順を示す。最初に符号化された画像は復号化３２２されなければならず、これにより、ダウンサンプリングされた画像３４０が生じる。次に、ダウンサンプリングされた画像３４０は、アップサンプリング３２３され、元のサイズ３５０で画像が生成される。アップサンプリングプロセス３２３は、概念的には、ダウンサンプリングプロセス３１２の逆である。ダウンサンプリング３１２中、背景のサンプリング密度は、ＲＯＩと比べてより低いものであった。アップサンプリング３２３中、背景のサンプリング密度は、ＲＯＩのサンプリング密度より高い。

図４Ｂは、直線的間隔を使用した場合のアップサンプリング段階のサンプリングポイントを示す。ダウンスケーリングに使用されるのと同じサンプリング方法（バイリニア補間など）が、アップスケーリングに利用され得る。あるいは、異なるサンプリング方法が、ダウンスケーリング及びアップスケーリングに使用されてもよい。見てわかるように、ＲＯＩ４１０内の領域は、アップサンプリングされていない、またはＲＯＩパラメータ及びダウンサンプリング中に行われる動作に応じて、最小限にアップサンプリングされている。言い換えると、一般にＲＯＩ４１０内のアップサンプリングポイント４１１は、元のピクセル位置に存在し、交差するグリッド線は、元のピクセル位置を表す。さらに、ダウンサンプリング動作中のサンプリングは、画像の端でまばらであったため、アップサンプリング動作中、４０９などの端のサンプリングは、補正のために密度が高められる。アップサンプリング段階中のサンプリング位置は、少なくともＲＯＩの位置及び実行されるアップサンプリングのタイプに依存し得ることを理解されたい。

提案される解決策を適用することで、人またはテキストを含む画像領域など、ユーザが通常注視する傾向がある画像領域内の詳細が向上され得る。限定ではなく例として、ＲＯＩの自動特定は、パターン認識アルゴリズムを使用して行われ得る、または後の節で論述されるように、見られている領域を識別する視線追跡装置に基づき得る。後者の場合、注視点から遠い画像詳細は注視点に近い領域と比較してより高度に減少し、詳細損失が徐々に増加することが有利であり得る。この効果は、提案される方法を変更して、各軸に沿ってＲＯＩの外側に非直線的に間隔のあいたポイントに基づいてダウンサンプリング及びアップサンプリングを実行することにより、実現され得る。

非直線的間隔を使用したダウンサンプリング段階及びアップサンプリング段階のサンプリングポイントが、図５Ａ及び図５Ｂそれぞれに示される。

非直線的間隔のダウンサンプリングの場合、各軸に沿ってサンプリングポイントを識別する関数が定義される。この関数は、アップサンプリング中に逆関数を使用してサンプリングポイントを特定することができるように、使用される領域に逆関数を有する必要がある。図５Ａ及び図５Ｂに示される実施例では、ダウンサンプリングに二次関数が利用され、その逆の平方根関数がアップサンプリングに利用される。ダウンサンプリングに二次関数を使用する効果としては、５０３などのＲＯＩに近いサンプルは、元のピクセル位置とより密接に結び付けられるが、５０４などのＲＯＩから遠いサンプルは、元のピクセル位置と低密接に位置付けられ、サンプリング密度は、ＲＯＩ５０１から離れた５０５などの端のポイントに向かうにつれ、次第にまばらとなる。５０２などのＲＯＩ内のサンプルポイントは、それらのピクセル位置から最小限に変更される。同様に、アップサンプリング中はこの逆が真となり、遠端のサンプル５１０は密度が高くなり、ＲＯＩ５０１の近くのサンプルポイント５０９のサンプリング密度は低下する。非直線的間隔のサンプリングポイントを使用するＲＯＩ符号化の場合、正しい関数を使用して最終画像を再構築され得るように、追加のＲＯＩパラメータを計算して復号化器に渡す必要がある。

提案される方法は、ＲＯＩ自体を関数として表すことができれば、円などの非矩形のＲＯＩにも拡張することができる。この場合、パラメータｌ０、ｔ０、ｒ０、及びｂ０は、ピクセルの行または列ごとに変わり得る。しかし、リサンプリング比率及びリサンプリングポイントを導出するプロセスは、ＲＯＩを含む各ピクセルの行及び列で変わらない。方法は、ＲＯＩパラメータに識別子ＲＯＩ＿Ｉｄを追加して、パラメータが対応するＲＯＩを指定することにより、複数のＲＯＩに適用することもできる。

符号化
図６に示されるような符号化プロセスは、最初に、前述のダウンサンプリング動作から始まる。システムは、予測アルゴリズム、視線追跡装置、または他のこのような方法またはデバイスを使用して、ＲＯＩパラメータ６１２を決定する。ＲＯＩパラメータ６１２は、デジタル画像６１３の集合と共に使用され、マルチセグメントダウンサンプリング動作６１４が行われる。ＲＯＩパラメータは、保存され符号化６０８され、あるいは符号化された画像６１１に含まれる。デジタル画像の集合内の各フレームまたは画像は、独自のＲＯＩパラメータを有し得、その上、ＲＯＩパラメータは、フレームごとまたは画像ごとに変化し得ることを理解されたい。同様に、いくつかの実施形態では、デジタル画像の集合は、限定ではないが、静止画像であり得る。

ダウンサンプリング動作の後、ダウンサンプリングされたデジタル画像６０１は、通常の手段により符号化される。限定ではなく例として、デジタル画像は、一般的な方法６００に従って符号化され得る。符号化器は、複数のデジタル画像６０１を受信し、各画像を符号化する。デジタル画像６０１の符号化は、セクション単位で進められ得る。セクションごとの符号化プロセスは、任意で、パディング６０２、画像圧縮６０４、及びピクセル再構築６０６を含み得る。イントラ符号化画像及びインター符号化画像の両方の共通プロセスフローを促進するために、現在処理中の画像６０１内の全ての非復号化ピクセルは、６０２で示されるように、一時的ピクセル値でパディングされ、パディングされた画像が生成され得る。パディングは、例えば米国特許第８，７１１，９３３号に上記記載されているように進行されてもよく、当該特許内容は、参照により本明細書に組み込まれるものとする。パディングされた画像は、バッファに格納された参照画像のリスト６０３に追加され得る。６０２にて画像をパディングすることにより、現在処理中の画像を、画像圧縮６０４及びピクセル再構築６０６における後続処理で、参照画像として使用することが促進される。このようなパディングは、本発明の譲受人に譲渡された米国特許第８，２１８，６４１号において詳細に説明され、当該特許内容は、参照により本明細書に組み込まれるものとする。

本明細書で使用されるように、画像圧縮は、デジタル画像に対するデータ圧縮の適用を指す。画像圧縮６０４の目的は、所与の画像６０１の画像データの冗長性を削減することにより、その画像のデータを、効率的な圧縮データの形態で格納または送信することを可能にすることである。画像圧縮６０４は、不可逆であっても可逆であってもよい。可逆圧縮は、図面、図像、またはマンガなどの人工的画像に好ましい場合がある。これは、不可逆圧縮方法は、特に、低ビットレートで使用された場合に、圧縮アーチファクトをもたらすためである。可逆圧縮方法はまた、記録保管目的で作成された医療画像または画像スキャンなどの高価値コンテンツに好ましくあり得る。不可逆方法は、特に、ビットレートの大幅な削減を達成するために、忠実性のわずかな（時に感知不可能な）低下は許容可能である用途の写真などの自然画像に適している。

可逆画像圧縮の方法の例には、ＰＣＸでデフォルトの方法として、及びＢＭＰ、ＴＧＡ、ＴＩＦＦで可能な方法として使用されるランレングス符号化、エントロピー符号化、ＧＩＦ及びＴＩＦＦで使用されるＬＺＷなどの適応辞書アルゴリズム、並びにＰＮＧ、ＭＮＧ、及びＴＩＦＦで使用されるデフレーションが挙げられるが、これらに限定されない。不可逆圧縮の方法の例には、画像６０１の色空間を画像内の最も一般的な色に削減すること、色度サブサンプリング、変換符号化、及びフラクタル圧縮が挙げられる。

色空間削減では、選択された色は、圧縮画像のヘッダ内の色パレットにおいて指定され得る。各ピクセルは単に、色パレット内の色の指標を参照指示する。この方法は、ポスタリゼーションを避けるためにディザリングと組み合わせることができる。色度サブサンプリングは、画像内の色度情報の半分以上を低下させることにより、眼が色よりも鮮明に明度を感知するという事実を活用する。変換符号化は、恐らく最も一般的に使用される画像圧縮方法である。変換符号化は通常、離散コサイン変換（ＤＣＴ）またはウェーブレット変換などのフーリエ関連変換を適用し、その後には量子化及びエントロピー符号化が続く。フラクタル圧縮は、特定の画像内で、画像のある部分が同じ画像の他の部分に類似するという事実に依存する。フラクタルアルゴリズムは、これらの部分を変換し、より正確には、幾何学的形状を「フラクタル符号」と称される数学的データに変換し、これは符号化画像を再構築するのに使用される。

画像圧縮６０４は、画像６０１の特定部分が他の部分よりも高品質に符号化される関心領域符号化を含み得る。これは、スケーラビリティと組み合わせることができ、画像の特定部分を最初に符号化し、他の部分を後に符号化することを伴う。圧縮データは、画像を分類、検索、または閲覧するために使用することができる画像に関する情報（時にメタ情報またはメタデータと称される）を含み得る。このような情報は、色及びテクスチャ統計、小さいプレビュー画像、及び著者／著作権情報を含み得る。

限定ではなく例として、６０４における画像圧縮中に、符号化器は、ピクセルのブロックを圧縮するための最良の方法を検索し得る。符号化器は、現行のパディングされた画像を含む参照画像リスト６０３内の全ての参照画像で、良くマッチングするものを検索し得る。現行の画像（またはサブセクション）がイントラ画像（またはサブセクション）として符号化される場合、パディングされた画像のみが参照リストで利用可能である。６０４における画像圧縮は、動きベクトルＭＶ及び変換係数６０７を生成し、これらはその後、６０６におけるピクセル再構築中に、参照画像（パディングされた画像を含む）のうちの１つ以上と共に使用される。

画像圧縮６０４は一般に、最良インター予測マッチングを行う動き検索ＭＳと、最良イントラ予測マッチングを行うイントラ検索ＩＳと、現行のマクロブロックがインター符号化されるかまたはイントラ符号化されるかを決定するインター／イントラ比較Ｃと、可逆的残差ピクセル６０５を計算するために最良マッチング予測ピクセルを有する符号化対象セクションから元の入力ピクセルを差し引く減算Ｓとを含む。次に、残差ピクセルは、変換係数６０７を生成するために、変換及び量子化ＸＱの処理を受ける。変換は通常、離散コサイン変換（ＤＣＴ）などのフーリエ変換に基づく。

変換は、それぞれが標準的基礎パターンの重み付け値である係数の集合を出力する。組み合わせられると、重み付けされた基礎パターンは、残差サンプルのブロックを再構築する。変換の出力、変換係数のブロックは、量子化され、すなわち各係数は、整数値により除算される。量子化は、量子化パラメータ（ＱＰ）に従って、変換係数の精度を低減させる。通常、係数のほとんどまたは全てがゼロであり、いくつかの非ゼロ係数を有するブロックが生じる。ＱＰを高い値に設定することは、より多くの係数がゼロに設定され、結果、復号化画像が低品質になることを犠牲に、高圧縮が達成されることを意味する。低ＱＰ値の場合、量子化後により多くの非ゼロ係数が残り、結果、復号化画像の品質は良くなるが、低圧縮となる。反対に、高ＱＰ値の場合、量子化後に残る非ゼロ係数は少なくなり、より高い画像圧縮が達成されるが、画質は低くなる。

モード決定とも称されるインター／イントラ比較Ｃは、ＱＰに関連するラグランジュ乗数λとして知られるパラメータを使用する。基本的には、コスト関数Ｊは、ＱＰの値から特定されたλの値を使用して計算される。符号化モードは、インターモード符号化の計算されたコスト関数Ｊが、イントラモード符号化の計算されたコストを上回るかまたは下回るかに基づいて決定される。例として、Ｈ．２６４／ＡＶＣコーデックは、コスト関数ＪＨに対応し、これは、セクションのオーバーヘッド（例えば動きベクトル、タイプ）を符号化するための実ビット消費Ｒと、再構築歪みＤ（例えば元のセクションと再構築されたセクションとの間の絶対値差分の和、ＳＡＤとして測定される）とを計算することにより、最小化される必要がある。このような場合、コスト関数Ｊ_Ｈは、次のように計算される。
Ｊ_Ｈ＝Ｄ＋λ・Ｒ

代替的な実施態様では、歪みＤは、別様に計算され得る。歪みを表す方法はいくつか存在し、例えば、二乗差分の和（ＳＳＤ）、絶対値変換差分の和（ＳＡＴＤ）、平均絶対値差分（ＭＡＤ）などが挙げられる。様々な歪み測定では、コスト関数は適宜変更または再調整される必要があることが、当業者には認識されよう。

いくつかの状況では、不適切な符号化モード決定により、不必要なＩＤＲまたはＩフレーム挿入が引き起こされ得る。オンラインビデオゲーム中のストリーミング映像の例を検討する。符号化器は、ゲームアプリケーションにより生成される映像ストリームの目標ビットレートを満たすように試みる。目標ビットレートは、フレームごとのビット数に関する。ゲームが一時停止されると、映像は基本的に、静止フレームのストリームである。静止フレームでは、レート歪み最適化プロセスにおいてフレームの目標ビットを満たすために、ＱＰは低くなる。ＱＰが低い場合、モード決定は、静止フレーム内のほとんどのセクション（例えばマクロブロック）にイントラ符号化を選択する。フレーム内のイントラ符号化セクションの数が閾値を上回る場合、コーデックは、シーン変更検出を引き起こし、次のフレームは、極めて低いＱＰを有するイントラフレームとして符号化され、これは、符号化に多数のビットを要する。これは、この事例では、極めて低いＱＰの値（例えばＱＰ＝１、２）が可逆的符号化をほぼ意味するという事実に起因する。限定ではなく例として、シーン変更検出を引き起こす閾値は、フレーム内の約６０〜８０％のイントラＭＢであり得る。基本的には同じフレームが繰り返される場合でも、一連の静止フレームは、一連のシーン変更検出を引き起こす。一連のイントラフレームは、帯域幅が制限された通信チャネルにおいて、ビットレート使用率の大きくかつ頻繁なスパイクを生じ得る。

通常、λとＱＰとの関係は、コーデックにより固定され、全ての画像に関して同じである。本開示の態様によれば、λとＱＰとの関係は、画像内のセクションごとのビット数に応じて、画像ごとに調整され得る。

本開示の態様によれば、λとＱＰとの関係は、セクションごとのビット数に基づいて適合され得、これにより、符号化モード決定は、不必要なＩＤＲまたはＩフレーム挿入の可能性を低減させるように構成され得る。

本開示の態様によれば、セクション符号化モード決定が「イントラ」符号化モードの代わりに「インター」符号化モードとなる可能性が高くなるように、λとＱＰとの関係は、符号化中に、例えば映像ストリームの符号化の開始時またはストリーム内の各映像フレームの開始時に、選択的に調整され得る。

いくつかの実施態様では、例えばＨ．２６５では可能であるように、フレーム内に様々なサイズのセクションが存在する場合、セクションごとにλとＱＰとの関係を変更することも可能である。これは、例えば２パス符号化使用事例において有益であり、その理由は、第１のパスが画像セクションのコンテンツに関するさらなる洞察を提供することにより、より良い符号化モード決定を行うことができるからである。

限定ではなく例として、λとＱＰとの関係の調整は、セクション内ビット数（ＮＢＳ）に依存し得、これは一般に、目標ビットレート（例えば毎秒ビット単位）、フレームレート（例えば毎秒フレーム単位）、及びフレーム内のセクション数に依存する。セクション内ビット数ＮＢＳは、目標ビットレートＢＲを、フレームレートＦＲとフレームごとのセクション数（ＮＳＦ）との積で割ることにより、計算され得る。限定ではなく例として、これは次のように表され得る。
ＮＢＳ＝ＢＲ／（ＦＲ・ＮＳＦ）

より一般的には、セクションごとのビット数（ＮＢＳ）は、ＮＢＳ＝（ＢＰＦ）／（ＮＳＦ）と、より広義に表されてもよく、ＢＰＦは、フレームごとの目標ビット数である。

この広義の式により、例えば基礎的なレート制御スキームにより割り当てられた目標ビットに応じて、フレームごとにＮＢＳの値が異なり得る可能性が考慮される。各フレームの目標ビット数が固定されている場合、ＢＰＦは、ＢＲ／ＦＲとなる。

フレームごとのセクション数（例えばＭＢ）は、解像度に依存する。テーブルに対する変更は、解像度、フレームレート、及びビットレートの組み合わせにより、引き起こされ得る。例えば、フレームが９６０×５４０の解像度、３０ｆｐｓのフレームレート、８〜１０Ｍｂｐｓ以上の目標レートを有する場合に、テーブル変更は引き起こされる。所与のビットレート及びフレームレートでは、解像度が増加した場合に、テーブル変更が引き起こされる可能性は低い。所与のビットレート及び解像度では、フレームレートが増加した場合に、テーブル変更が引き起こされる可能性は低い。所与のフレームレート及び解像度では、ビットレートが減少した場合に、テーブル変更が引き起こされる可能性は低い。

λとＱＰとの関係は通常、非線形関係である。一般に、ＱＰが高い時にλは高く、ＱＰが低い時にλは低い。λとＱＰとの関係の例は、米国特許第９，３８６，３１７号に説明され、その全内容は、参照により本明細書に組み込まれるものとする。

ＱＰ値は、目標ビットレートに応じて調整され得る。符号化ではＱＰがビット使用率を制御することから、多くの符号化プログラムが、所望のビットレートを達成するために、ＱＰを調整するレートコントローラを利用する。符号化器は、圧縮されていないソースデータ（例えば入力映像）を受信し、圧縮された出力を生成する。映像符号化方法は通常、映像セクションを符号化するためのビット使用率に影響を与える、従ってビットレートに影響を与えるＱＰ値を使用する。一般に、より低いＱＰは、より高いビットレートをもたらす。レートコントローラは、外部アプリケーションにより指定され得る要求ビットレートに基づいて、ＱＰ値を決定する。符号化器は、レートコントローラにより決定されたＱＰ値を使用して、実際の結果的ビット使用率及びビットレートを特定する。レートコントローラは、実際のビットレートを使用して、フィードバックループにおいてＱＰ値を調整し得る。

ビットレートとＱＰ値との関係は、現行の画像の複雑さに部分的に依存する。ビットレートとＱＰとの関係は、様々なレベルの複雑さに対し様々な曲線を有する曲線の集合を用いて表現され得る。レートコントローラにより実施されるアルゴリズムの核心は、ＱＰと、実ビットレートと、ある複雑度測定値との関係を記述した量的モデルである。関連するビットレート及び複雑度は、一般に、ソースピクセルと予測ピクセルとの差分（多くの場合残差と称される）のみに関係し、その理由は、量子化パラメータＱＰは、変換された残差で伝えられる情報の詳細のみに影響を与え得るからである。

複雑度は、一般に、画像または画像部分内の空間的変化量を指す。局所レベルで、例えばブロックまたはマクロブロックレベルで、空間的変化は、関連セクション内のピクセル値の分散により測定され得る。しかし映像シーケンスの場合、複雑度は、一連の画像のシーンの時間的変化にも関連し得る。例えば、視野にわたりゆっくりと変化する実質的空間変化を有する１つのオブジェクトから構成される映像シーケンスは、時間的予測は単一の参照画像及び一連の動きベクトルを使用して動きを容易に取り込むことができるため、それほど多くのビットを必要とし得ない。計算も容易である包括的な映像複雑度メトリックを定義することは困難であるが、予測誤差（ソースピクセル値と予測ピクセル値との差分）の平均絶対値差分（ＭＡＤ）が、この目的で使用されることは多い。

量子化パラメータＱＰは、ソース画像の画像タイプ、ソース画像の複雑度、推定目標ビット数、及び基礎的レート歪みモデルを含むがこれらに限定されない複数の要素から決定され得ることに、留意されたい。例えば、ＱＰは、現在符号化中の画像のセクションの変化、例えばセクション（例えばＭＢ）分散を使用して、セクション単位で決定され得る。あるいは、現在符号化中のセクションのＱＰは、前のフレームで同一位置のセクション（例えばＭＢ）を符号化した時の実ビットカウントを使用して、決定されてもよい。このようなＱＰレベル計算の実施例は、例えば本発明の譲受人に譲渡された米国特許出願公開第２０１１／００５１８０６号、現在はＨｕｎｇ−ＪｕＬｅｅに譲渡された米国特許第８，８７９，６２３号に説明され、当該特許内容は、参照により本明細書に組み込まれるものとする。

動き検索及び予測は、符号化されている画像のタイプに依存する。図６を再度参照すると、イントラ画像を符号化する場合、動き検索ＭＳ及びインター／イントラ比較Ｃは無効化される。しかし、本発明の実施形態では、パディングされた画像が参照として利用可能であるため、これらの機能は無効化されない。その結果、画像圧縮６０４は、イントラ符号化画像及びインター符号化画像に対して、同じである。

動き検索ＭＳは、インター符号化画像のピクセル再構築の一環として通常行われる動き補正のために、最もマッチングするブロックまたはマクロブロックを画像６０１で検索することにより、動きベクトルＭＶを生成し得る。現行の画像６０１がイントラ符号化画像である場合、対照的に既存のコーデックでは通常、画像にわたり予測を行うことは不可能である。代わりに、イントラ画像（例えばＩフレーム）及び変換係数を生成しピクセル予測を行うことにより符号化される画像に対して、全ての動き補正は通常無効化される。しかし、いくつかの実施態様では、イントラ画像を使用して、現行の画像内のセクションを、同一画像内の別のオフセットセクションとマッチングさせることにより、インター予測を行うことができる。２つのセクション間のオフセットは、６０６にてピクセル再構築に使用され得る動きベクトルＭＶ’として符号化され得る。例として、符号化器は、イントラ画像内のブロックまたはマクロブロックを、同一画像内のある他のオフセットセクションとマッチングさせ、次にその２つの間のオフセットを動きベクトルとして符号化するように試み得る。コーデックによる「インター」画像に対する通常の動きベクトル補正を使用して、次に「イントラ」画像に対し動きベクトル補正が行われ得る。特定の既存のコーデックは、２つのブロックまたはマクロブロック間のオフセットを動きベクトルに変換することができる機能を有し、この機能の後、６０６にてピクセル再構築が行われ得る。しかし、これらの機能は従来、イントラ画像の符号化の場合、無効化されていた。本発明の実施形態では、イントラ画像の符号化の場合でも、このような「インター」画像機能を無効化しないように、コーデックは命令され得る。

本明細書で使用されるように、ピクセル再構築は、参照画像を現在処理中の画像に変換することに関して、画像を記述する技術を指す。一般に、ピクセル再構築６０６は、符号化処理６００を実施する符号化器内でローカル復号化器として機能する。具体的には、ピクセル再構築６０６は、画像圧縮６０４からの動きベクトルＭＶまたはＭＶ’と、参照リスト内の画像からの参照ピクセルとを使用して、予測ピクセルＰＰを得るためのインター予測ＩＰ１及び（任意で）イントラ予測ＩＰ２を含む。画像圧縮６０４からの変換係数６０７を使用した逆量子化及び逆変換ＩＱＸは、不可逆残差ピクセル６０５Ｌを生成し、これは予測ピクセルＰＰに追加されて、復号化ピクセル６０９が生成される。復号化ピクセル６０９は、参照画像に挿入され、現在処理中の画像６０１の後続セクションの画像圧縮６０４及びピクセル再構築６０６において使用可能となる。復号化ピクセルが挿入された後、参照画像内の非復号化ピクセルは、パディング６０２の処理を受け得る。

いくつかの符号化器実施態様では、現行の画像がイントラ符号化される場合、ピクセル再構築に使用できる他の画像は存在しないため、ピクセル再構築６０６のインター予測部分は無効化される。あるいは、特定の画像がインター符号化されるかイントラ符号化されるかに関わらず、全ての画像６０１にピクセル再構築が実行され得る。いくつかの実施態様では、符号化器の実施は、参照画像リスト６０３にパディングされた画像を追加するように変更され得、ピクセル再構築６０６のインター予測部分は、現在処理中の画像がイントラ符号化される場合であっても、無効化されない。その結果、ピクセル再構築６０６の間、インター符号化セクション及びイントラ符号化セクションの両方に関して、プロセスフローは同じである。唯一の大きな違いは、符号化に使用する参照画像の選択である。いくつかの実施態様では、全ての画像に対して動き補正を実行する必要はなく、パディングされた画像を参照画像リストに追加する必要はないことに、留意されたい。

限定ではなく例として、ブロックピクセル再構築（ＢＭＣ）として知られる一種のピクセル再構築では、各画像は、ピクセルのブロック（例えば１６ｘ１６ピクセルのマクロブロック）に分割され得る。各ブロックは、参照フレーム内の同等サイズのブロックから予測される。ブロックは、予測されたブロックの位置に移されることを除き、全く変換されない。この移動は、動きベクトルＭＶで表される。隣接するブロックベクトル間の冗長性を利用するために（例えば単一の動くオブジェクトが複数のブロックを占める場合）、ビットストリーム内の現行の動きベクトルと前の動きベクトルとの差分のみを符号化することが一般的である。この差分プロセスの結果は、パニングが可能な全体的ピクセル再構築と数学的に等しい。符号化伝達経路をさらに進むと、方法６００は、任意で、ゼロベクトルの周りの動きベクトルの結果的統計分布を利用するエントロピー符号化６０８を使用して、出力サイズを削減し得る。いくつかの実施形態では、ＲＯＩパラメータ６１２は、ネットワーク抽象化層（ＮＡＬ）内のネットワークラッパーの一部として、デジタル画像６１１に含まれる。別の実施形態では、ＲＯＩパラメータ６１２は、エントロピー符号化６０８の間に、デジタル画像に含まれ得る。

サブピクセル精度と称される非整数のピクセルにより、ブロックを移動させることが可能である。仲介ピクセルは、隣接するピクセルを補間することにより生成される。一般的に、２分の１ピクセルまたは４分の１ピクセル精度が使用される。サブピクセル精度の計算費用は、補間に要する追加処理が原因ではるかに高くなり、符号化器側では、評価すべき潜在的ソースブロックの数がはるかに多くなる。

ブロックピクセル再構築は、現在符号化中の画像を非重複ブロックに分割し、これらのブロックの参照画像内由来箇所を示すピクセル再構築ベクトルを計算する。参照ブロックは通常、ソースフレーム内で重複する。いくつかの映像圧縮アルゴリズムは、参照画像リスト６０３内のいくつかの異なる参照画像のうちの複数の画像から、現行の画像を構築する。

画像圧縮６０４及びピクセル再構築６０６、並びに（任意で）エントロピー符号化６０８の結果は、便宜上、符号化画像と称されるデータ集合６１１である。動きベクトルＭＶ（及び／またはイントラ予測モード動きベクトルＭＶ’）及び変換係数６０７は、符号化画像６１１に含まれ得る。デジタル画像または他の形態のストリーミングデータは一度符号化されると、符号化データは、送信され、復号化され、その後、ＲＯＩパラメータを使用してアップサンプリングされ得る。

復号化
図７は、本開示の態様と共に使用され得る、ＲＯＩパラメータを有するダウンサンプリングされたストリーミングデータ７０１の復号化のための方法７００の可能なプロセスフローの例を示す。この特定の例は、例えばＡＶＣ（Ｈ．２６４）規格を使用する映像復号化のプロセスフローを示す。符号化されたストリーミングデータ７０１は、最初にバッファに格納され得る。符号化されたストリーミングデータ７０１（例えば映像データビットストリーム）が、ネットワーク、例えばインターネットを介して転送される場合、データ７０１は最初に、７０２で示されるネットワーク抽出層（ＮＡＬ）復号化と称されるプロセスを受け得る。ネットワーク抽出層（ＮＡＬ）は、Ｈ．２６４／ＡＶＣ及びＨＥＶＣ映像符号化規格などのストリーミングデータ規格の一部である。ＮＡＬの主な目的は、「会話型」（例えばビデオ電話）及び「非会話型」（ストレージ、ブロードキャスト、またはストリーミング）アプリケーションのために、「ネットワークフレンドリー」なストリーミングデータの表現を提供することである。ＮＡＬ復号化は、データ７０１から、データ送信を支援するために追加された情報を取り除き得る。「ネットワークラッパー」と称されるこのような情報は、データ７０１を映像データとして識別し得る、あるいはビットストリームの開始もしくは終了、データ整列のためのビット、及び／または映像データ自体に関するメタデータを示し得る。

さらに、例として、ネットワークラッパーは、データ７０１に関する情報を含み得、これには、例えば、解像度、画像表示フォーマット、データを表示するための色パレット変換行列、各画像、スライス、またはマクロブロック内のビット数に関する情報、並びに、低レベル復号化に使用される情報、例えばスライスの開始または終了を示すデータが含まれる。この情報を使用して、単一のセクションにおけるタスクグループのそれぞれに渡すマクロブロックの数が特定され得る。その複雑さのために、ＮＡＬ復号化は通常、画像レベル及びスライスレベルで行われる。ＮＡＬ復号化に使用される最小のＮＡＬバッファは、通常、スライスサイズである。図７に示される例は、マクロブロック及びＡＶＣ（Ｈ．２６４）規格に関して説明される。しかし、これらは、本開示の態様の特徴を限定しない。例えば、最新のＨ．２６５（ＨＥＶＣ）規格では、マクロブロックの概念が存在しない。代わりに、より柔軟な符号化ユニット（ＣＵ）、予測ユニット（ＰＵ）、変換ユニット（ＴＵ）の概念が導入されている。本開示の態様は、このような符号化規格と共に作動し得る。限定ではなく例として、ネットワークラッパーは、ＲＯＩパラメータ７２７を含み得る。あるいは、ＲＯＩパラメータは、別個に受信され得る、または符号化されていない状態であり得る。

いくつかの実施形態では、７０２でのＮＡＬ復号化の後、図７に示される残りの復号化が、映像符号化層（ＶＣＬ）復号化７０４、動きベクトル（ＭＶ）再構築７１０、及び画像再構築７１４と本明細書で称される３つの異なるスレッドグループまたはタスクグループで実施され得る。画像再構築タスクグループ７１４は、ピクセル予測及び再構築７１６と、後処理７２０とを含み得る。本発明のいくつかの実施形態では、各タスクグループが画像（例えばフレームもしくはフィールド）またはセクション内の全てのマクロブロックに対し担当する処理を完了した後に、後続処理の次のタスクグループにマクロブロックが送信され得るように、これらのタスクグループは、データ依存性に基づいて選択され得る。

特定の符号化規格は、空間領域から周波数領域へのピクセル情報変換を含むデータ圧縮形式を使用し得る。数ある中でも、このような１つの変換として、離散コサイン変換（ＤＣＴ）が知られている。このような圧縮データの復号化プロセスは、周波数領域から空間領域へ戻す逆変換を含む。ＤＣＴを使用して圧縮されたデータの場合、逆プロセスは、逆離散コサイン変換（ＩＤＣＴ）が知られている。変換されたデータは、離散変換されたデータ内の数字を表すために使用されるビットの数を削減するために、量子化されることがある。例えば、数字１、２、３は全て２にマッピングされ得、数字４、５、６は全て５にマッピングされ得る。データを解凍するために、逆量子化（ＩＱ）として知られるプロセスが周波数領域から空間領域への逆変換を行う前に使用される。ＶＣＬＩＱ／ＩＤＣＴ復号化プロセス７０４のデータ依存性は、通常、同一スライス内のマクロブロックのマクロブロックレベルである。その結果、ＶＣＬ復号化プロセス７０４により生成された結果は、マクロブロックレベルでバッファリングされ得る。

ＶＣＬ復号化７０４は、多くの場合、エントロピー復号化７０６と称されるプロセスを含み、これはＶＣＬ構文を復号化するために使用される。ＡＶＣ（Ｈ．２６４）などの数多くのコーデックは、エントロピー符号化と称される符号化層を使用する。エントロピー符号化は、符号長が信号確率と合うように、信号に符号を割り当てる符号化スキームである。通常、エントロピー符号化器は、等長符号により表される記号を、確率の負の対数に比例する符号により表される記号で置き換えることにより、データを圧縮するために使用される。ＡＶＣ（Ｈ．２６４）は、コンテキスト適応型可変長符号化（ＣＡＶＬＣ）及びコンテキスト適応型二値算術符号化（ＣＡＢＡＣ）の２つのエントロピースキームに対応する。ＣＡＢＡＣはＣＡＶＬＣより約１０％高い圧縮を提供する傾向があるため、多くの映像符号化器において、ＡＶＣ（Ｈ．２６４）ビットストリームを生成する際、ＣＡＢＡＣが好まれる。ＡＶＣ（Ｈ．２６４）符号化データストリームのエントロピー層を符号化することは、計算負荷が高くあり得、汎用マイクロプロセッサを使用してＡＶＣ（Ｈ．２６４）符号化ビットストリームを復号化するデバイスには、困難であり得る。この理由から、数多くのシステムは、ハードウェアの復号化器加速器を使用する。

エントロピー復号化７０６に加えて、ＶＣＬ復号化プロセス７０４は、７０８に示されるように、逆量子化（ＩＱ）及び／または逆離散コサイン変換（ＩＤＣＴ）を含み得る。これらのプロセスは、マクロブロックからのヘッダ７０９及びデータを復号化し得る。復号化されたヘッダ７０９は、隣接するマクロブロックのＶＣＬ復号化を支援するために使用され得る。ＲＯＩパラメータが符号化された実施形態では、復号化されたヘッダは、ＲＯＩパラメータを含み得る。

ＶＣＬ復号化７０４は、マクロブロックレベルのデータ依存頻度で実施され得る。具体的には、同一スライス内の異なるマクロブロックは、並行してＶＣＬ復号化の処理を受け得、その結果は、さらなる処理のために動きベクトル再構築タスクグループ７１０へ送信され得る。

続いて、画像またはセクション内の全てのマクロブロックは、動きベクトル再構築７１０の処理を受け得る。ＭＶ再構築プロセス７１０は、所与のマクロブロックからのヘッダ７１１及び／または同一位置のマクロブロックのヘッダ７１３を使用する動きベクトル再構築７１２を含み得る。動きベクトルは、画像内の仮現運動を記述する。前の画像のピクセルの知識、及び画像から画像へのこれらのピクセルの相対的動きに基づいて、このような動きベクトルにより、画像（または画像部分）の再構築が可能となる。動きベクトルが一度復元されると、７１６にて、ＶＣＬ復号化プロセス７０４からの残差ピクセル、及びＭＶ再構築プロセス７１０からの動きベクトルに基づいたプロセスを使用して、ピクセルは再構築され得る。ＭＶのデータ依存頻度（及び並行処理レベル）は、ＭＶ再構築プロセス７１０が他の画像の同一位置のマクロブロックを含むか否かに依存する。他の画像の同一位置のＭＢのヘッダを含まないＭＶ再構築では、ＭＶ再構築プロセス７１０は、スライスレベルまたは画像レベルで並行して実施され得る。同一位置のＭＢのヘッダを含むＭＶ再構築では、データ依存頻度は画像レベルであり、ＭＶ再構築プロセス７１０は、スライスレベルの並行処理で実施され得る。

動きベクトル再構築７１０の結果は、画像再構築タスクグループ７１４へ送信され、これは画像周波数レベルで並行化され得る。画像再構築タスクグループ７１４内では、画像またはセクションの全てのマクロブロックは、デブロック化７２０と共に、ピクセル予測及び再構築７１６の処理を受け得る。ピクセル予測及び再構築タスク７１６並びにデブロック化タスク７２０は、復号化の効率を向上させるために、並行化され得る。これらのタスクは、データ依存性に基づいて、マクロブロックレベルで、画像再構築タスクグループ７１４内で並行化され得る。例えば、１つのマクロブロックに対し、ピクセル予測及び再構築７１６が実行され、続いてデブロック化７２０が実行され得る。デブロック化７２０により取得された復号化画像からの参照ピクセルは、後続のマクロブロックに対するピクセル予測及び再構築７１６において使用され得る。ピクセル予測及び再構築７１８は、隣接ピクセルを含む復号化セクション７１９（例えば復号化ブロックまたはマクロブロック）を生成し、隣接ピクセルは、後続のマクロブロックのピクセル予測及び再構築７１８への入力として使用され得る。ピクセル予測及び再構築７１６のデータ依存性により、同一スライス内のマクロブロックのマクロブロックレベルで、ある程度の並行処理が可能となる。

後処理タスクグループ７２０は、デブロック化フィルタ７２２を含み得、これは、ブロック符号化技法が使用された場合にブロック間に形成され得る鮮明な縁を平滑化することにより、視覚的品質及び予測性能を向上させるために、復号化セクション７１９内のブロックに適用される。デブロック化フィルタ７２２は、結果得られるデブロック化セクション７２４の概観を改善するために使用され得る。

復号化セクション７１９またはデブロック化セクション７２４は、隣接マクロブロックをデブロック化する際に使用するための隣接ピクセルを提供し得る。さらに、現在復号化中の画像のセクションを含む復号化セクション７１９は、後続のマクロブロックのピクセル予測及び再構築７１８に対し参照ピクセルを提供し得る。本段階の間は、画像（または画像のサブセクション）がインター符号化されたかイントラ符号化されたかに関わらず、前述のように、現行画像内のピクセルは、その同一の現行画像内のピクセル予測に任意で使用されてもよい。デブロック化７２０は、同一画像内のマクロブロックのマクロブロックレベルで、並行化され得る。

後処理７２０の前に生成された復号化セクション７１９及び後処理が行われたセクション７２４は、関与する特定のコーデックに応じて、同じバッファ、例えば復号化画像バッファ７２５に、格納され得る。Ｈ．２６４では、デブロック化は後処理フィルタであることに留意されたい。その理由は、Ｈ．２６４は、デブロック化前マクロブロックを、隣接するマクロブロックのイントラ予測の参照として使用し、デブロック化後マクロブロックを、今後の画像のマクロブロックのインター予測に使用するからである。デブロック化前ピクセル及びデブロック化後ピクセルの両方が予測に使用されることから、復号化器または符号化器は、デブロック化前マクロブロックと、デブロック化後マクロブロックの両方をバッファリングする必要がある。最も低費用の消費者アプリケーションでは、デブロック化前画像及びデブロック化後画像は、メモリ使用率を低減させるために、同じバッファを共有する。ＭＰＥＧ４パート１０を除くＭＰＥＧ２またはＭＰＥＧ４などのＨ．２６４以前の規格では（注記：Ｈ．２６４はＭＰＥＧ４パート１０とも称される）、後処理前のマクロブロック（例えばデブロック化前マクロブロック）のみ、他のマクロブロック予測の参照として使用される。このようなコーデックでは、フィルタリング前画像は、フィルタリング後画像と同じバッファを共有し得ない。処理後、画像は、ＲＯＩパラメータ７２７を使用して、リサンプリング７２６される。高品質ＲＯＩを有するアップサンプリングされた画像７２８が生成され、表示のために出力画像バッファに格納され得る。

従って、Ｈ．２６４では、ピクセル復号化後、復号化セクション７１９は、復号化画像バッファ７２５に保存される。その後、アップサンプリング７２６の前に、復号化画像バッファ７２５内の復号化セクション７１９は、後処理されたセクション７２４に置き換えられる。Ｈ．２６４ではない場合は、復号化器は、復号化画像バッファ７２５に復号化セクション７１９のみを保存する。アップサンプリング７２６は、表示時に行われ、アップサンプリングされた出力７２８は、復号化画像バッファ７２５と同じバッファを共有し得ない。符号化器／復号化器プログラムに関する情報は、公開出願第２０１８／０００７３６２号を参照することができ、その内容は参照により組み込まれるものとする。

ＲＯＩ検出
視線追跡としても知られている眼追跡には、多数の技法が存在する。視線追跡及び選択的レンダリング圧縮の技法は、公開出願第２０１７／０２８５７３６号に記載されており、その内容は参照により本明細書に組み込まれるものとする。これらの技法のうちのいくつかは、ユーザの眼の瞳孔の向きから、ユーザの視線方向を特定する。いくつかの既知の視線追跡技法は、１つ以上の光源から光を放射することにより眼を照らして、放射された光の角膜からの反射をセンサにより検出することを含む。通常、これは、赤外領域内の不可視光源を使用して、照明された眼の画像データ（例えば画像または映像）を赤外線感知カメラにより取り込むことで達成される。次に、画像処理アルゴリズムを使用して画像データを分析し、視線方向が特定される。

一般に、眼追跡画像分析は、眼からの光の反射のされ方に特有の特性を利用して、画像から視線方向を特定する。例えば、画像を分析して、画像データ内の角膜反射に基づいて眼の位置が特定され得、画像をさらに分析して、画像内の瞳孔の相対的位置に基づいて視線方向が特定され得る。

瞳孔の位置に基づいて視線方向を特定する２つの一般的な視線追跡技法として、明瞳孔追跡法と暗瞳孔追跡法が知られている。明瞳孔追跡法は、カメラの光軸の略直線上に存在する光源で眼を照明することを含み、これにより、放出された光は、網膜に反射され、瞳孔を通してカメラに返される。瞳孔は、従来のフラッシュ撮影中に画像に生じる赤目効果と同様に、瞳孔の位置に識別可能な明るいスポットとして画像に現れる。この視線追跡方法では、瞳孔と虹彩とのコントラストが十分ではない場合、瞳孔自体からの明るい反射は、システムが瞳孔の位置を特定するのに役立つ。

暗瞳孔追跡法は、カメラの光軸の略直線上外に存在する光源で照らすことを含み、これにより、瞳孔を通して向けられる光は、カメラの光軸から離れるように反射され、その結果、画像内の瞳孔の位置に、識別可能な暗いスポットが生じる。代替的な暗瞳孔追跡システムでは、眼に向けられた赤外光源及びカメラにより、角膜反射を調べることができる。このようなカメラベースのシステムは、瞳孔の位置及び角膜反射を追跡し、深度の異なる反射により視差が得られ、精度が向上する。

図８Ａは、本開示の状況で使用され得る暗瞳孔追跡システム８００の例を示す。視線追跡システムは、可視画像が提示される表示画面８０１に対するユーザの眼Ｅの向きを追跡する。図８Ａの例示的なシステムでは表示画面が使用されているが、特定の代替的な実施形態は、ユーザの眼に直接画像を投影することができる画像投影システムを利用し得る。これらの実施形態では、ユーザの眼に投影される画像と相対的に、ユーザの眼Ｅが追跡される。図８Ａの実施例では、眼Ｅは、可変虹彩Ｉを通して画面８０１から光を集め、水晶体Ｌが網膜Ｒに画像を投影する。虹彩の開口部は、瞳孔として知られている。筋肉は、脳からの神経インパルスに応じて、眼Ｅの回転を制御する。上瞼の筋肉ＵＬＭ及び下瞼の筋肉ＬＬＭは、他の神経インパルスに応じて、上瞼ＵＬ及び下瞼ＬＬを、それぞれ制御する。

網膜Ｒ上の感光性細胞は、視神経ＯＮを介してユーザの脳（図示せず）へ送られる電気インパルスを生成する。脳の視覚野は、インパルスを解釈する。網膜Ｒの全部分が、同等の感光性を有するわけではない。具体的には、感光性細胞は、中心窩として知られている領域に集中している。

示される画像追跡システムは、１つ以上の赤外光源８０２、例えば眼Ｅへ不可視光（例えば赤外光）を向ける発光ダイオード（ＬＥＤ）を含む。不可視光の一部は眼の角膜Ｃに反射し、一部は虹彩に反射する。反射した不可視光は、波長選択鏡８０６により、好適なセンサ８０４（例えば赤外線カメラ）へ向けられる。鏡は、画面８０１からの可視光は通すが、眼から反射された不可視光は反射する。

センサ８０４は、画像センサ、例えば、瞳孔の相対的位置から視線方向ＧＤを特定するために分析され得る眼Ｅの画像を生成することができるデジタルカメラであることが好ましい。この画像は、ローカルプロセッサ８２０により生成され得る、または取得された視線追跡データをリモートコンピューティングデバイス８６０に送信することにより生成され得る。ローカルプロセッサ８２０は、例えばシングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサ-コプロセッサ、及びセルプロセッサなどの周知のアーキテクチャに従って構成され得る。画像追跡データは、センサ８０４とリモートコンピューティングデバイス８６０との間で、有線接続（図示せず）を介して、または眼追跡デバイス８１０に含まれる無線送受信器８２５と、リモートコンピューティングデバイス８６０に含まれる第２の無線送受信器８２６との間の無線により、送信され得る。無線送受信器は、ローカルエリアネットワーク（ＬＡＮ）またはパーソナルエリアネットワーク（ＰＡＮ）を、好適なネットワークプロトコル、例えばＰＡＮの場合はブルートゥース（登録商標）を介して、実施するように構成され得る。

視線追跡システム８００はまた、上部センサ８０８と、下部センサ８０９とを含み、これらは、例えば眼Ｅの上と下にそれぞれ配置されるように構成される。センサ８０８及び８０９は、独立した構成要素であってもよく、あるいはユーザの頭部に装着されるコンポーネント８１０の一部であってもよく、コンポーネント８１０は、センサ８０４、ローカルプロセッサ８２０、または後述される慣性センサ８１５の任意の組み合わせを含み得るが、これらに限定されない。図８Ａに示される例示的なシステムでは、センサ８０８及び８０９は、眼Ｅを取り囲む領域から、神経系の電気インパルス並びに／あるいは筋肉系の動き及び／または振動に関するデータを収集することが可能である。このデータには、例えば、上部センサ８０８及び下部センサ８０９により監視される眼Ｅを取り囲む筋肉及び／または神経の電気生理学的情報及び／または振動情報が含まれ得る。センサ８０８及び８０９により収集される電気生理学的情報には、例えば、脳波記録（ＥＥＧ）、筋電図（ＥＭＧ）、または眼Ｅを取り囲む領域（複数可）の神経機能の結果として収集される誘発電位情報が含まれ得る。センサ８０８及び８０９はまた、例えば、眼Ｅを取り囲む筋肉の筋肉振動または痙攣を検出した結果として、筋音図または表面筋電図情報を収集することも可能であり得る。センサ８０８はまた、乗り物酔い反応に関連した情報を収集することも可能であり得、これには、例えば、心拍数データ、心電図（ＥＣＧ）、または電気皮膚反応データが含まれる。センサ８０８及び８０９により収集されたデータは、画像追跡データと共に、前述のようにローカルプロセッサ８２０及び／またはリモートコンピューティングデバイス８６０に伝送され得る。

視線追跡システム８００はまた、ユーザの頭部を追跡することも可能であり得る。頭部追跡は、ユーザの頭部の位置、動き、向き、または向きの変化に応じて、信号を生成することが可能な慣性センサ８１５により実行され得る。このデータは、ローカルプロセッサ８２０に送信され得、及び／またはリモートコンピューティングデバイス８６０に送信され得る。慣性センサ８１５は、独立した構成要素であってもよく、あるいはユーザの頭部に装着されるコンポーネント８１０の一部であってもよく、コンポーネント８１０は、センサ８０４、ローカルプロセッサ８２０、または前述のセンサ８０８及び８０９の任意の組み合わせを含み得るが、これらに限定されない。代替的な実施形態では、頭部追跡は、コンポーネント８１０上の光源の追跡を介して実行され得る。視線追跡システム８００はまた、１つ以上のメモリユニット８７７（例えばランダムアクセスメモリ（ＲＡＭ）、動的ランダムアクセスメモリ（ＤＲＡＭ）、及び読み出し専用メモリ（ＲＯＭ）など）を含み得る。

ローカルプロセッサ８２０は、ネットワーク接続８２５から符号化されたデータを受信するように構成され得る。ローカルプロセッサ８２０は、１つ以上のメモリユニット８７７に動作可能に接続され、メモリユニット８７７に格納されている１つ以上のプログラムを実行するように構成され得る。このようなプログラムは実行されると、リモートコンピューティングデバイス８６０からの映像ストリームを復号化し、ディスプレイ８０１上に表示するために忠実度の高いＲＯＩを有する映像を生成することを、システムに実行させ得る。限定ではなく例として、プログラムには、ブレンダ／変換空間構成プログラム８７９、アップサンプラ／ダウンサンプラプログラム８７６、及び復号化器プログラム８８０が含まれ得る。

リモートコンピューティングデバイス８６０は、本開示の態様に従って視線追跡を実行し照明条件を特定するために、眼追跡デバイス８１０及び表示画面８０１と連携して動作するように構成され得る。コンピューティングデバイス８６０は、例えばシングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサ-コプロセッサ、及びセルプロセッサなどの周知のアーキテクチャに従って構成され得る１つ以上のプロセッサユニット８７０を含み得る。コンピューティングデバイス８６０はまた、１つ以上のメモリユニット８７２（例えばランダムアクセスメモリ（ＲＡＭ）、動的ランダムアクセスメモリ（ＤＲＡＭ）、及び読み出し専用メモリ（ＲＯＭ）など）を含み得る。

プロセッサユニット８７０は、１つ以上のプログラムを実行し得、１つ以上のプログラムの部分は、メモリ８７２に格納され得、プロセッサ８７０は、例えばデータバス８７８を介してメモリにアクセスすることにより、メモリ８７２に動作可能に接続され得る。プログラムは、視線追跡を実行し、システム８００の照明条件を特定するように構成され得る。限定ではなく例として、プログラムには、例えば前述のように、実行されると、システム８００にユーザの視線を追跡させ得る視線追跡プログラム８７３と、映像フレームストリームを、表示デバイスにより提示可能な形式に変換する色空間変換プログラム（ＣＳＣ）８７４と、符号化器プログラム８７５と、実行されると、ディスプレイに送信するための映像フレームのダウンサンプリングされたセクション及び選択された元の解像度のセクションを有する映像フレームのストリームを符号化し、符号化された映像フレームは復号化され、ダウンサンプリングされたセクションは表示前にアップサンプリングされる、映像ストリームアップサンプラ／ダウンサンプラプログラム８７６と、が含まれ得る。

限定ではなく例として、視線追跡プログラム８７３には、光源８０２から光が放出されている間に、画像センサ８０４で集められた眼追跡データ、並びに上部センサ８０８及び下部センサ８０９からそれぞれ集められた眼球動作データに基づいて、システム８００の１つ以上の視線追跡パラメータを特定することを、システム８００に実行させるプロセッサ実行可能命令が含まれ得る。視線追跡プログラム８７３にはまた、照明条件の変化の存在を検出するために、画像センサ８０４で集められた画像を分析する命令が含まれ得る。

図８Ｂに示されるように、ユーザの頭部Ｈを示す画像８８１を分析して、瞳孔の相対的位置から視線方向ＧＤが特定され得る。例えば、画像分析により、画像内の眼Ｅの中心から瞳孔Ｐまでの２次元オフセットが特定され得る。中心に対する瞳孔の位置は、眼球の既知のサイズ及び形状に基づいた三次元ベクトルの直接的な幾何学的計算により、画面８０１に対する視線方向に変換され得る。特定された視線方向ＧＤは、眼Ｅが画面８０１に対して動く時の眼Ｅの回転及び加速を示すことが可能である。

図８Ｂにも示されるように、画像はまた、角膜Ｃ及び水晶体Ｌからの不可視光の反射８８７及び８８８もそれぞれ含み得る。角膜及び水晶体は深度が異なることから、反射間の視差及び屈折率を使用して、視線方向ＧＤ特定の精度を向上させることができる。このタイプの眼追跡システムの例には、デュアルプルキニエ追跡器があり、角膜反射は、第１のプルキニエ画像であり、水晶体反射は、第４のプルキニエ画像である。ユーザが眼鏡をかけている場合、ユーザの眼鏡８９３からの反射８９０も存在し得る。

現在のＨＭＤパネルは、製造業者に応じて９０〜１２０ヘルツ（Ｈｚ）の一定レートでリフレッシュを行う。リフレッシュレートが高いと、パネルの消費電力と、フレーム更新を送信するための送信媒体の帯域幅要件も増加する。中心窩視界及びスケーリングされた符号化による視線追跡デバイスに関する情報は、同時係属中の出願第１５／８４０，８９３号を参照することができ、当該出願の内容は、参照により組み込まれるものとする。

実施態様
図９は、本開示の様々な態様をさらに説明するための例示的なシステム９００を示す。システム９００は、眼追跡表示システム９０１に接続されたコンピューティングデバイス９６０を含み得る。眼追跡表示デバイス９０１は、本開示の態様に従って視線追跡及び／または眼追跡の較正を行うために、ローカルプロセッサ９０３と、ローカルメモリ９１７と、周知のサポート回路９０５と、ネットワークインターフェース９１６と、眼追跡デバイス９０２と、表示デバイス９０４とを備える。表示デバイス９０４は、陰極線管（ＣＲＴ）、フラットパネルスクリーン、タッチスクリーン、またはテキスト、数字、グラフィックシンボル、もしくは他の視覚的オブジェクトを表示する他のデバイスの形態であり得る。ローカルプロセッサ９０３は、例えばシングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサ-コプロセッサ、及びセルプロセッサなどの周知のアーキテクチャに従って構成され得る。眼追跡表示システム９０１はまた、１つ以上のメモリユニット９１７（例えばランダムアクセスメモリ（ＲＡＭ）、動的ランダムアクセスメモリ（ＤＲＡＭ）、及び読み出し専用メモリ（ＲＯＭ）など）を含み得る。

ローカルプロセッサユニット９０３は、１つ以上のプログラムを実行し得、１つ以上のプログラムの部分は、メモリ９１７に格納され得、プロセッサ９０３は、例えばデータバス９１８を介してメモリにアクセスすることにより、メモリ９１７に動作可能に接続され得る。プログラムは、眼追跡表示システム９０１のために、忠実度の高いＲＯＩを有する映像を作成するように構成され得る。限定ではなく例として、プログラムには、ＣＳＣ９１３、映像アップサンプラ／ダウンサンプラプログラム９１４、及び復号化器プログラム９１５が含まれ得る。限定ではなく例として、ＣＳＣ９１３には、前述の方法に従って、アップサンプラ／ダウンサンプラプログラム９１４から受信したアップサンプリングされた映像ストリームをフォーマット化して、表示デバイス９０４に表示するために忠実度の高いＲＯＩを有する映像を作成することを、システム９０１に実行させるプロセッサ実行可能命令が含まれ得る。サンプラ９１４には、実行されると、復号化器９１５から受信された映像ストリームをアップサンプリングすること、または映像ストリーム内の映像フレームのセクションをアップサンプリングすることを、ローカルプロセッサに実行させる命令が含まれ得る。復号化器プログラム９１５には、ローカルプロセッサにより実行されると、ネットワークインターフェース９１６からの符号化映像ストリームデータを受信し復号化することを、システムに実行させる命令が含まれ得る。あるいは、復号化器プログラムは、例えばメインバス９１８によりローカルプロセッサに通信可能に接続された個々の論理ユニット（図示せず）として実施され得る。本開示の態様によれば、眼追跡表示デバイス９０１は、組み込みシステム、携帯電話、パーソナルコンピュータ、タブレットコンピュータ、ポータブルゲームデバイス、ワークステーション、ゲーム機、及びヘッドマウントディスプレイデバイスなどであり得る。さらに、コンピューティングデバイス９６０も、組み込みシステム、携帯電話、パーソナルコンピュータ、タブレットコンピュータ、ポータブルゲームデバイス、ワークステーション、及びゲーム機などであり得る。

眼追跡表示デバイス９０１は、コンピューティングデバイス９６０に接続され得、図８Ａの光源８０２に類似する動的光源９１０を含み得る。限定ではなく例として、光源９１０は、１つ以上の赤外線ＬＥＤの形態の不可視光源であり得、これは、センサ９１２により眼追跡データを集めるために、ユーザの眼を照明するように構成され得る。眼追跡デバイスのセンサ９１２は、光源９１０から放出される光を感知する検出器であり得る。例えば、センサ９１２は、赤外線カメラなどの光源を感知するカメラであり得、カメラ９１２は、光源９１０により照明される領域の画像を取り込むことができるように、眼追跡デバイス及び光源に対し配置され得る。

コンピューティングデバイス９６０は、本開示の態様に従って視線追跡を実行し照明条件を特定するために、眼追跡表示システム９０１と連携して動作するように構成され得る。コンピューティングデバイス９６０は、例えばシングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサ-コプロセッサ、及びセルプロセッサなどの周知のアーキテクチャに従って構成され得る１つ以上のプロセッサユニット９７０を含み得る。コンピューティングデバイス９６０はまた、１つ以上のメモリユニット９７２（例えばランダムアクセスメモリ（ＲＡＭ）、動的ランダムアクセスメモリ（ＤＲＡＭ）、及び読み出し専用メモリ（ＲＯＭ）など）を含み得る。

プロセッサユニット９７０は、１つ以上のプログラムを実行し得、１つ以上のプログラムの部分は、メモリ９７２に格納され得、プロセッサ９７０は、例えばデータバス９７６を介してメモリにアクセスすることにより、メモリ９７２に動作可能に接続され得る。プログラムは、視線追跡を実行し、システム９００の照明条件を特定するように構成され得る。限定ではなく例として、プログラムには、実行されるとシステム９００にユーザの視線を追跡させ得る視線追跡プログラム９７３が含まれ得る。限定ではなく例として、視線追跡プログラム９７３には、動的光源９１０から光が放出されている間にカメラ９１２で集められた眼追跡データから、システム９００の１つ以上の視線追跡パラメータを特定することを、システム９００に実行させるプロセッサ実行可能命令が含まれ得る。視線追跡プログラム９７３にはまた、例えば図８Ｂに関して前述されたように、カメラ９１２で集められた画像を分析する命令が含まれ得る。あるいは、視線追跡プログラムは、例えばメインバス９７６によりローカルプロセッサに通信可能に接続された個々の論理ユニット（図示せず）として実施され得る。

いくつかの実施態様では、視線追跡プログラム９７３は、視線追跡情報を分析して、ユーザの視覚が、例えば瞬きの間など不明瞭になる期間、または例えばサッカードの間など機能しない期間を予測し得る。このような期間の開始の予測を用いることで、不要なレンダリング計算、電力消費、及びネットワーク帯域使用を削減することができる。このような技法の例は、２０１６年３月３１日に出願され、本発明の譲受人に譲渡された米国特許出願第１５／０８６，９５３号に説明され、当該出願の内容全体が、参照により本明細書に組み込まれるものとする。

コンピューティングデバイス９６０及び眼追跡表示デバイス９０１はまた、入力／出力（Ｉ／Ｏ）回路９７９、９０６、電源（Ｐ／Ｓ）９８０、９０９、クロック（ＣＬＫ）９８１、９０８、及びキャッシュ９８２、９０７などの周知のサポート回路９７８、９０５を含み得、これらは、例えばバス９７６、９１８を介して、システムの他の構成要素とそれぞれ通信し得る。コンピューティングデバイス９６０は、ネットワークインターフェース９９０を含み得、ネットワークインターフェース９９０は、眼追跡表示デバイス９０１上の同様に構成されたネットワークインターフェース９１６との通信を促進する。プロセッサユニット９７０、９０３、及びネットワークインターフェース９９０、９１６は、ローカルエリアネットワーク（ＬＡＮ）またはパーソナルエリアネットワーク（ＰＡＮ）を、好適なネットワークプロトコル、例えばＰＡＮの場合はブルートゥース（登録商標）を介して、実施するように構成され得る。コンピューティングデバイス９６０は、任意で、ディスクドライブ、ＣＤ−ＲＯＭドライブ、テープドライブ、またはフラッシュメモリなどの大容量記憶装置９８４を含み得、大容量記憶装置９８４は、プログラム及び／またはデータを格納し得る。コンピューティングデバイス９６０はまた、システム９００とユーザとの対話を促進するためのユーザインターフェース９８８を含み得る。ユーザインターフェース９８８は、キーボード、マウス、ライトペン、ゲームコントロールパッド、タッチインターフェース、または他のデバイスを含み得る。代替的な実施形態では、ユーザインターフェース９８８はまた、表示画面を含み得、コンピューティングデバイス９６０は、符号化器／復号化器（コーデック）９７５に、ネットワークからのデータパケット９９９内の符号化された映像ストリームを復号化させ得、アップサンプラ／ダウンサンプラプログラム９７４は、前述のように、ダウンサンプリングされた映像ストリームを、忠実度の高いＲＯＩを有する映像ストリームにアップサンプリングし得、ＣＳＣプログラム９７１は、アップサンプリングされた映像ストリームを使用して、ユーザインターフェース９８８に接続された表示画面上に表示するように構成し得る。例えば、ＣＳＣは、入力画像を、符号化する前に、ある色形式から別の色形式に（例えばＲＧＢからＹＵＶに、またはその逆に）変換し得る。この実施形態では、頭部追跡器は存在し得ず、ＲＯＩ位置は、前述の予測方法により特定され得る。別の実施形態では、頭部追跡器は存在し得るが、表示画面は、追跡デバイスに接続され得ない。別の実施形態では、符号化器は、符号化された映像ストリームデータ及びＲＯＩパラメータを、ネットワークインターフェース９１６を介して送信し得、これは、復号化器プログラム９１５により受信され処理される。

システム９００はまた、プロセッサユニット９７０により実行されるプログラムとインタラクトするために、眼追跡表示デバイス９０１とインターフェースするコントローラ（図示せず）を含み得る。システム９００はまた、ビデオゲームまたは映像ストリームなどの１つ以上の一般的なコンピュータアプリケーション（図示せず）を実行し得、これは視線追跡の態様を組み込み得、視線追跡は、追跡デバイス９０２により感知され、追跡プログラム９７３、ＣＳＣ９７６、映像フレームデータを表示デバイスが提示できる形式に変換するアップサンプラ／ダウンサンプラ９７４、及び映像ストリーム符号化器９７５により処理される。

コンピューティングデバイス９６０は、Ｗｉ−Ｆｉ、イーサネット（登録商標）ポート、または他の通信方法の使用を可能にするように構成されたネットワークインターフェース９９０を含み得る。ネットワークインターフェース９９０は、電気通信ネットワークを介した通信を促進するために、好適なハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせを組み込み得る。ネットワークインターフェース９９０は、ローカルエリアネットワーク及びインターネットなどの広域ネットワークを介して有線または無線通信を実施するように構成され得る。ネットワークインターフェース９９０はまた、眼追跡デバイス９０２及び表示デバイス９０４との無線通信を促進する前述の無線送受信器を含み得る。コンピューティングデバイス９６０は、ネットワークを通じ１つ以上のデータパケット９９９を介して、データ及び／またはファイル要求を送信及び受信し得る。

上記は、本発明の好ましい実施形態の完全な説明であるが、様々な代替物、変更物、及び均等物を使用することが可能である。従って、本発明の範囲は、前述の説明を参照して特定されるべきではなく、代わりに、添付の特許請求の範囲とその均等物の全範囲とを併せて参照して特定されるべきである。好ましいか否かに関わらず本明細書に説明されるいずれの特徴も、好ましいか否かに関わらず本明細書に説明されるいずれの他の特徴とも、組み合わされてよい。下記の特許請求の範囲では、不定冠詞「Ａ」または「Ａｎ」は、特に別段の明記がない限り、冠詞の後に続く１つ以上の名詞の数量を指す。添付の特許請求の範囲は、所与の請求項で語句「〜するための手段（ｍｅａｎｓｆｏｒ）」を使用してミーンズプラスファンクションの限定が明確に列挙されない限り、ミーンズプラスファンクションの限定を含むものとして解釈されるべきではない。

Claims

映像符号化の方法であって、
ａ）デジタル画像内の関心領域（ＲＯＩ）の１つ以上のパラメータを特定することであって、前記１つ以上のパラメータは、前記ＲＯＩのサイズ、位置、及び形状に関連する、前記特定することと、
ｂ）前記デジタル画像よりもピクセル数の少ないダウンサンプリングされた画像を生成するために、入力画像に対しマルチセグメントダウンサンプリングを実行することであって、前記デジタル画像に対して実行される前記マルチセグメントダウンサンプリングは、前記関心領域の外側の前記デジタル画像の一部とは異なるサンプル密度を前記ＲＯＩに使用し、前記マルチセグメントダウンサンプリングは、前記ＲＯＩからの距離が増加するにつれ前記サンプル密度が次第にまばらとなる二次関数を使用して実行される、前記実行することと、
ｃ）符号化画像データを生成するために、前記ダウンサンプリングされた画像を符号化することと、
ｄ）組み合わされたデータを生成するために、前記符号化画像データと前記１つ以上のパラメータとを組み合わせることと、
ｅ）前記組み合わされたデータを送信または格納することと、
を含む、方法。
前記デジタル画像に対して実行される前記マルチセグメントダウンサンプリングは、前記関心領域の外側の前記デジタル画像の一部よりも高いサンプル密度を前記ＲＯＩに使用する、請求項１に記載の方法。
前記ＲＯＩの前記サンプル密度は、前記デジタル画像の前記サンプル密度である、請求項２に記載の方法。
前記１つ以上のパラメータは、矩形画像の各端からＲＯＩ境界までのオフセットを含む、請求項１に記載の方法。
前記ＲＯＩは矩形である、請求項１に記載の方法。
前記ＲＯＩは略円形である、請求項１に記載の方法。
前記ＲＯＩの前記１つ以上のパラメータは、前記デジタル画像の端からの前記ＲＯＩのオフセットを含む、請求項１に記載の方法。
前記ＲＯＩの前記１つ以上のパラメータは、前記デジタル画像の左端、右端、上端、及び下端からの前記ＲＯＩのオフセットを含む、請求項１に記載の方法。
前記デジタル画像に対して実行される前記マルチセグメントダウンサンプリングは、前記関心領域の外側の前記デジタル画像の一部よりも低いサンプル密度を前記ＲＯＩに使用する、請求項１に記載の方法。
前記マルチセグメントダウンサンプリングは、前記ＲＯＩの外側で非直線的に実行される、請求項１に記載の方法。
前記ＲＯＩの前記１つ以上のパラメータは、視線追跡データから特定される、請求項１に記載の方法。
前記ＲＯＩの前記１つ以上のパラメータは、関心領域予測アルゴリズムから特定される、請求項１に記載の方法。
複数のＲＯＩが存在する、請求項１に記載の方法。
前記ＲＯＩの前記１つ以上のパラメータは、前記パラメータが指すＲＯＩを指定するために識別子を前記パラメータに含む、請求項１３に記載の方法。
ａ）はさらに、前記ＲＯＩの前記１つ以上のパラメータを閾値と比較することを含み、前記ＲＯＩの前記１つ以上のパラメータが前記閾値を満たさないとき、ｂ）は、前記マルチセグメントダウンサンプリング動作を現行の出力解像度で終了することを含み、ｃ）は、前記マルチセグメントダウンサンプリングされたデジタル画像のより高いまたはより低い解像度版を符号化することを含む、請求項１に記載の方法。
映像復号化の方法であって、
ａ）デジタル画像の復号化画像データを生成するために、符号化画像データを復号化することと、
ｂ）前記デジタル画像を１つ以上のパラメータを使用して前記デジタル画像より多くのピクセルを有するアップサンプリングされた画像に変換するために、前記復号化画像データに対してマルチセグメントアップサンプリングを実行することであって、前記１つ以上のパラメータは、前記アップサンプリングされた画像に対する関心領域（ＲＯＩ）の位置、サイズ、及び形状に関連し、前記デジタル画像に対して実行される前記マルチセグメントアップサンプリングは、前記関心領域の外側の前記デジタル画像の一部とは異なるサンプル密度を前記ＲＯＩに使用し、前記マルチセグメントアップサンプリングは、前記ＲＯＩへの距離が増加するにつれ前記サンプル密度が次第に高くなる平方根関数を使用して実行される、前記実行することと、
ｃ）前記アップサンプリングされた画像を表示または格納することと、
を含む、方法。
前記デジタル画像に対して実行される前記マルチセグメントアップサンプリングは、前記関心領域の外側の前記デジタル画像の一部よりも低いサンプル密度を前記ＲＯＩに使用する、請求項１６に記載の方法。
前記マルチセグメントアップサンプリングは、前記ＲＯＩの外側で非直線的に実行される、請求項１６に記載の方法。