JP7257524B2

JP7257524B2 - ビデオエンコーディング／デコーディングシステムにおけるサイド動き精細化

Info

Publication number: JP7257524B2
Application number: JP2021538229A
Authority: JP
Inventors: デュリュウ，; リキャルドショバーリ，; ヤコブストレム，; ルオヤンユー，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2019-01-02
Filing date: 2019-12-09
Publication date: 2023-04-13
Anticipated expiration: 2039-12-09
Also published as: JP2022515875A; US20220124362A1; US11930205B2; CO2021010122A2; CN113302935A; EP3906689A4; EP3906689A1; WO2020141993A1; KR20210094664A; US11252431B2; US20210136401A1

Description

本出願は、ビデオエンコーディングおよびデコーディングのための方法および装置に関する。

ビデオシーケンスは、一連のピクチャを含む。各ピクチャは、シーケンスにおける表示順序を示すピクチャ順序カウント（ＰＯＣ）値を割り当てられる。

シーケンスにおける各ピクチャは、１つまたは複数の成分を含む。各成分は、サンプル値の２次元の長方形配列として説明できる。通常、ビデオシーケンスにおける画像は、次の３つの成分、すなわち、サンプル値がルーマ値である１つのルーマ成分Ｙと、サンプル値がクローマ値である２つのクローマ成分ＣｂおよびＣｒとで構成される。他の例は、Ｙ’ＣｂＣｒ、ＹＵＶ、およびＩＣＴＣＰを含む。ＩＣＴＣＰでは、Ｉは「強度ルーマ」成分である。以下の説明では、任意のルーマ成分Ｙ’、Ｙ、またはＩは、Ｙまたは単にルーマと呼ばれる。通常、クローマ成分の大きさは、各大きさで２分の１だけルーマ成分よりも小さい。たとえば、高密度（ＨＤ）画像のルーマ成分のサイズは１９２０×１０８０であり、クローマ成分はおのおの９６０×５４０の大きさを有する。クローマ成分は、カラー成分と呼ばれることもある。

ビデオコーディングは、ビデオシーケンスを、コード化されたピクチャのシーケンスに圧縮するために使用される。通常、ピクチャは４×４から１２８×１２８の範囲のサイズのブロックに分割される。ブロックはコーディングの基礎としてサーブする。次に、ビデオデコーダは、コード化されたピクチャを、サンプル値を含むピクチャに復号する。

ブロックは、サンプルの２次元配列である。ビデオコーディングでは、各成分がブロックに分割され、コード化されたビデオビットストリームは一連のブロックで構成される。通常、ビデオコーディングでは、画像は、画像の特定の領域をカバーするユニットに分割される。各ユニットは、その特定の領域を構成するすべての成分からのすべてのブロックで構成され、各ブロックは１つのユニットに属する。Ｈ．２６４におけるマクロブロックと、高効率ビデオコーディング（ＨＥＶＣ）におけるコーディングユニット（ＣＵ）は、ユニットの例である。

ドラフトＶＶＣビデオコーディング規格は、クアッドツリープラスバイナリツリープラスターナリツリー（四分木プラスニ分木プラス三分木）ブロック構造（ＱＴＢＴ＋ＴＴ）と呼ばれるブロック構造を使用し、各ピクチャは、最初にコーディングツリーユニット（ＣＴＵ）と呼ばれる正方形ブロックにパーティションされる。すべてのＣＴＵのサイズは同じであり、パーティションは、構文を制御せずに実行される。各ＣＴＵはさらに、正方形または長方形の形状を有することができるコーディングユニット（ＣＵ）にパーティションされる。ＣＴＵは、最初にクアッドツリー構造でパーティションされ、次にバイナリ構造で垂直方向または水平方向に同じサイズのパーティションでさらにパーティションされて、コーディングユニット（ＣＵ）を形成する。したがって、ブロックは正方形または長方形のいずれかの形状をとることができる。クアッドツリーとバイナリツリーの深さは、ビットストリームにおいてエンコーダで設定できる。ＱＴＢＴを使用してＣＴＵを分割する例を図１に示す。特に、図１は、４つのＣＴＵ１４に分割されたピクチャ１２を示す。ＣＴＵはさらに、正方形または長方形のＣＵ１６にパーティションされる。図１は、ピクチャをパーティションするために使用されるＱＴＢＴ＋ＴＴ１８も示す。ターナリツリー（ＴＴ）部分は、ＣＵを２つの同じサイズのパーティションではなく３つのパーティションに分割する可能性を追加する。これにより、ピクチャにおけるコンテンツ構造に、より適したブロック構造を使用する可能性が高まる。

相互予測
時間領域における効率的な圧縮を達成するために、相互予測技法は、ピクチャ間の類似性を調べることを目的とする。相互予測は、以前に復号されたピクチャを使用して、カレントピクチャにおけるブロックを予測する。以前に復号されたピクチャは、カレントピクチャの参照ピクチャと呼ばれる。

ビデオエンコーダでは、動き推定と呼ばれる方法が、通常、参照ピクチャにおける最も類似したブロックを発見するために使用される。カレントブロックとその参照ブロックとの間の変位は、動きベクトル（ＭＶ）である。ＭＶには、ＭＶ．ｘとＭＶ．ｙの２つの成分、つまりｘ方向とｙ方向とがある。図２は、カレントピクチャ２４におけるカレントブロック２２と、参照ピクチャ２８における参照ブロック２６との間のＭＶの例を示す。ＭＶは、ビデオビットストリームでデコーダにシグナルされる。カレントピクチャ２４は、ピクチャ順序カウントＰＯＣ０を有する一方、参照ピクチャ２８は、ピクチャ順序カウントＰＯＣ１を有する。ビデオビットストリームにおけるピクチャは、表示順序から外れて符号化および／または復号される場合があるので、参照ピクチャのＰＯＣは、カレントピクチャのＰＯＣの前または後にある可能性がある（すなわち、カレントピクチャは、ピクチャ順序カウントにおけるカレントピクチャの後に続くピクチャから予測できる）ことに留意されたい。

ビデオデコーダは、ビデオビットストリームからＭＶを復号する。次に、デコーダは、ＭＶを使用して、参照ピクチャにおける対応する参照ブロックを発見する動き補償と呼ばれる方法を適用する。

参照ピクチャにおける少なくとも１つの参照ブロックからブロックが予測される場合、ブロックは相互ブロックと呼ばれる。

双方向性相互予測
参照ブロックの数は１つに限定されない。双方向性動き補償では、２つの参照ブロックを使用して、時間的冗長性をさらに調べることができ、すなわち、カレントブロックは、以前に復号された２つのブロックから予測される。双方向性動き補償を使用するピクチャは、双方向性予測ピクチャ（Ｂ－ピクチャ）と呼ばれる。図３は、それぞれ参照ピクチャ２８、３４における参照ブロック２６、３２に基づく双方向性動き補償を伴うカレントピクチャ２４におけるブロック２２の例を示す。この例では、第１の動きベクトル（ＭＶ０）は、カレントブロックの点Ｃから、第１の参照ブロック２６の点Ａを指す一方、第２の動きベクトル（ＭＶ１）は、カレントブロックの点Ｃから、第２の参照ブロック３２の点Ｂを指す。

動き情報のセットは、ＭＶ（ＭＶ．ｘおよびＭＶ．ｙ）およびＰＯＣ番号を有する参照ピクチャを含む。双方向性動き補償を使用する場合、２つのセットの動き情報、すなわち、図３に示すように、ＭＶ０、ＰＯＣ１、および関連するブロック２６を備えたセット０と、ＭＶ１、ＰＯＣ２、および関連するブロック３２を備えたセット１とがある。

カレントＢ－ピクチャと参照ピクチャとの間の時間的距離は、ピクチャ間の絶対ＰＯＣ差によって表すことができる。たとえば、図３における参照ピクチャ０がＰＯＣ１＝０で、カレントＢ－ピクチャがＰＯＣ０＝８である場合、２つのピクチャ間の絶対時間的距離は、｜ＰＯＣ１－ＰＯＣ０｜＝８である。２つのピクチャ間の符号付き時間的距離は、単純に（ＰＯＣ１－ＰＯＣ０）＝－８である。間の符号付き時間的距離の負の符号は、カレントＢ－ピクチャが、表示シーケンスにおいて、参照ピクチャの後に来ることを示す。

ＭＶ差およびＭＶスケーリング
２つのＭＶ間の類似性を比較する一般的な手法は、絶対ＭＶ差、すなわち、｜ＭＶ０－ＭＶ１｜を計算することである。両ＭＶは点Ｃで発生するため、ＭＶ差（ΔＭＶ）を計算する前に、図４Ａおよび図４Ｂに示すように、動きベクトルの１つを１８０度回転する必要がある（ＭＶ０は、１８０度回転してＭＶ０’になる）。１８０度の回転は、ベクトル成分の値を単純に打ち消す（たとえば、ＭＶ０’．ｘ＝－ＭＶ０．ｘおよびＭＶ０’．ｙ＝－ＭＶ０．ｙ）ことで実現できる。次に、ΔＭＶ＝（ＭＶ１．ｘ－ＭＶ０’．ｘ，ＭＶ１．ｙ－ＭＶ０’．ｙ）の値を取得できる。

カレントピクチャからの２つのＭＶに関連付けられた参照ピクチャの絶対時間的距離が異なる場合、動きベクトル差を計算する前に、動きベクトルのスケーリングが必要とされる。

たとえば、図５Ａを参照すると、ＭＶ０は、ＰＯＣ１＝１０を有する参照ピクチャ２８に関連付けられ、ＭＶ１は、ＰＯＣ２＝１６を有する参照ピクチャ３４に関連付けられる。カレントピクチャ２４は、ＰＯＣ０＝１２を有する。したがって、ΔＰＯＣＮ＝ＰＯＣＮ－ＰＯＣ０と仮定すると、ΔＰＯＣ１＝－２およびΔＰＯＣ２＝４となる。

したがって、ＭＶ０とＭＶ１との間の類似性を比較する場合、ＭＶのうちの１つは、最初に、ΔＰＯＣ２／ΔＰＯＣ１＝－２の比によってスケーリングされる必要がある。

図５Ａに見られるように、１つの態様では、動きベクトルＭＶは、ピクチャの平面内に、ｘ－成分およびｙ－成分（ＭＶ．ｘ，ＭＶ．ｙ）を、ＭＶに関連付けられたΔＰＯＣ１に対応する時間次元に、ｚ－成分を有する３次元ベクトルと見なすことができる。

図５Ｂは、同じｘ－ｙ平面上にプロットされたＭＶ０およびＭＶ１のｘ－成分およびｙ－成分を示す一方、図５Ｃは、２つの動きベクトルに関連付けられたカレントピクチャからの異なる時間的距離を考慮するためのＭＶ０のスケーリングを示す。

ΔＰＯＣが異なる一般的な場合、ＭＶスケーリングは、ＰＯＣ差（ΔＰＯＣ２＝ＰＯＣ２－ＰＯＣ０）および（ΔＰＯＣ１＝ＰＯＣ１－ＰＯＣ０）に依存する。ＭＶ０が、スケーリングされるベクトルであると仮定すると、スケーリングされたベクトルＭＶ０’の成分は、

として計算され得る。

この例では、ΔＰＯＣ２／ΔＰＯＣ１の比が負の符号を有するので、ＭＶ０をスケーリングすることは、ＭＶ０を１８０度回転させる効果も有することに留意されたい。

双方向性オプティカルフロー（ＢＩＯ：ｂｉ－ｄｉｒｅｃｔｉｏｎａｌｏｐｔｉｃａｌｆｌｏｗ）
［１］に説明されているＢＩＯ方法は、双方向性動き補償のために使用される動きベクトルをさらに精細化するためのデコーダサイド技法である。オプティカルフローの概念を使用し、双方向性と組み合わせて、カレントブロックにおけるルーマ値を予測する。ＢＩＯは、従来の双方向性動き補償の後に、ピクセル単位の動き精細化として適用される。

オプティカルフローは、オブジェクトのルミナンスが、特定の動き期間中に変化しないと仮定する。オプティカルフロー式を与える。
Ｉ_ｘｖ_ｘ＋Ｉ_ｙｖ_ｙ＋Ｉ_t＝０，（２）
ここで、Ｉはピクセルのルミナンス、ｖ＿ｘはｘ方向における速度、ｖ＿ｙはｙ方向における速度、

はそれぞれ、ｘ方向、ｙ方向、および時間に関する導関数である。ＢＩＯでは、図６に示すように、動きは安定していると仮定され、参照０における速度（ｖ_ｘ，ｖ_ｙ）は、参照１における速度（－ｖ_ｘ，－ｖ_ｙ）と反対である。

カレントピクセルが、Ｂ－ピクチャにおいて位置［ｉ，ｊ］にあり、Ｉ^（０）［ｉ，ｊ］が参照０の［ｉ，ｊ］におけるルミナンス、Ｉ^（１）［ｉ，ｊ］が参照１の［ｉ，ｊ］におけるルミナンスであるとする。導関数を

として表し、ここで、ｋ＝０，１は参照インデクスである。（２）に基づいて、［１］の著者は、ＢＩＯの誤差を以下の通り定義する。

次に、ＢＩＯは、以下のような最小二乗問題に構成される。

ここで、［ｉ’，ｊ’］∈Ωは、式（４）を解くために使用される［ｉ，ｊ］を含む隣接ピクセルを含むサブブロックである。式（４）の解は、

およびルミナンス差に基づく

を与える。別の解は、［ｉ，ｊ］の周りの移動窓処理を使用して、式（４）の合計を計算することである。しかしながら、サブブロックを使用すると、同じサブブロックに属する２つのピクセルの合計が、同じΩになる。これは、

の計算が、同じサブブロックに属するピクセル間で再利用できることを意味する。

速度が取得されると、次のステップは、２つの参照からカレントピクセルを予測することである。図６に示されるように、カレントピクセルは２つの方向から予測される。［２］の著者は、２つの参照ピクセル間の値を補間するために、以下の３次多項式関数を導入する。
Ｐ（ｔ）＝ａ_０＋ａ_１ｔ＋ａ_２ｔ^２＋ａ_３ｔ^３，（５）
ここで、ｔは時間、ａ０からａ３はパラメータである。参照０を時間０、Ｂ－ピクチャを時間τ_０、参照１をτ_０＋τ_１とする。つまり、図６では、参照０とＢ－ピクチャとの間の時間差はτ_０であり、Ｂ－ピクチャと参照１との間の時間差はτ_１である。４つのパラメータを発見するために、次の４つの式を考慮する。

式（６）は、補間関数Ｐ（ｔ）は、ｔ＝０およびｔ＝τ_０＋τ_１において、ルミナンス値Ｉ^（０）およびＩ^（１）のみならず、導関数と一致する必要があることを示す。４つの式を用いて、ａ０からａ３を解くことができる。

τ_０＝τ_１＝τである一般的な場合において、補間関数は、以下を与える。

の場合、これは、Ｉ^（０）およびＩ^（１）の単なる平均である単純な線形補間とは異なることに留意されたい。式（７）は、Ｉ^（０）およびＩ^（１）の精細化と見なすことができ、この精細化は、補間精度の向上に役立つ。Ｉ_ｔを、オプティカルフロー式Ｉ_ｔ＝－Ｉ_ｘｖ_ｘ－Ｉ_ｙｖ_ｙに置き換えると、式（７）は、以下のように記述できる。

式（８）から、ルミナンス値Ｉ^（０）およびＩ^（１）は既知である。導関数は、隣接するピクセルを使用して勾配から推定できる。速度は、式（４）で解かれる。したがって、予測されるルミナンス値Ｐ（τ_０）を取得できる。

［３］で説明されているＢＩＯの実施では、ＢＩＯを考慮する必要があるか否かを示すために、デコーダで基準がチェックされる。次のすべての条件が当てはまる場合、基準は真に設定され、ａ）予測は双方向性であり、反対方向からのものであり（たとえば、ＰＯＣ１＜ＰＯＣ０およびＰＯＣ２＞ＰＯＣ０）、ｂ）アフィン動きモデルは使用されず、ｃ）高度な時間動き予測（ＡＴＭＶＰ）は使用されない。ａ）からｃ）のいずれかの条件が満たされない場合、基準は偽に設定される。

式（４）に示されるように、ＢＩＯにおける（ｖ_ｘ，ｖ_ｙ）の各ペアは、サブブロックΩを使用して計算される。同じサブブロックに属する２つのピクセルのために、同じ（ｖ_ｘ，ｖ_ｙ）ベクトルが、ＢＩＯ精細化で使用される。実施では、サブブロックは、４×４のサイズを有する。たとえば、ブロックのサイズが１２８×１２８の場合、３２×３２＝１０２４のサブブロックを含み、１０２４ペアの（ｖ_ｘ，ｖ_ｙ）を有する。

ＢＩＯの基準が真である場合、２つの参照ブロック間の絶対差（ＳＡＤ）の合計が計算される。ＳＡＤは、２つの参照ブロック間のすべてのピクセルの絶対差を計算することによって取得される。それに加えて、２つの参照サブブロック（両方ともサイズ４×４）間のＳＡＤ＿ｓｕｂも計算される。次に、ＳＡＤとＳＡＤ＿ｓｕｂがそれぞれ特定のしきい値よりも大きい場合に、ＢＩＯが適用される。これらのしきい値は、ブロックサイズとビット深さによって異なる。一方、ＢＩＯが適用されない場合は、線形平均化を使用して信号を予測する。

デコーダサイド動きベクトル精細化（ＤＭＶＲ：ｄｅｃｏｄｅｒ－ｓｉｄｅｍｏｔｉｏｎｖｅｃｔｏｒｒｅｆｉｎｅｍｅｎｔ）などの他の動きベクトル精細化技法が知られている。ＤＭＶＲでは、バイラテラルテンプレートは、初期動きベクトルに関連付けられた２つの参照ブロックの重み付けされた組合せとして生成される。次に、バイラテラルテンプレートマッチングが実行され、参照ピクチャ内で最も一致するブロックが発見され、更新された動きベクトルが識別される。

実施形態の第１の態様は、ビデオビットストリームのカレントピクチャにおけるカレントブロックを復号するために、デコーダによって実行される方法を定義する。カレントピクチャは、カレントピクチャ順序カウントを有する。方法は、ビデオビットストリームから、第１のピクチャ順序カウントを有する第１の参照ピクチャの第１の参照ブロックに対するカレントブロックの第１の動きベクトルを復号することを含む。方法は、ビデオビットストリームから、第２のピクチャ順序カウントを有する第２の参照ピクチャの第２の参照ブロックに対するカレントブロックの第２の動きベクトルを復号することを含む。方法は、第１の動きベクトルと第２の動きベクトルとの比較に基づいて類似性メトリックを生成することをさらに含む。方法は、類似性メトリックに基づいて第１の動きベクトルを精細化するか否かを判定することをさらに含む。第１の動きベクトルを精細化するか否かの判定に応じて、方法は、第１の動きベクトルから第１の精細化された動きベクトルを生成することをさらに含む。方法は、第１の精細化された動きベクトルを使用して動き補償を実行して、第１の参照ピクチャから第１の参照ブロックを導出することをさらに含む。

実施形態の第２の態様は、いくつかの実施形態にしたがって、通信ネットワークのために、ビデオビットストリームのカレントピクチャにおけるカレントブロックを復号するためのデコーダを定義する。デコーダは、プロセッサ回路と、プロセッサ回路に結合されたメモリとを含む。メモリは、プロセッサ回路によって実行された場合、プロセッサ回路に第１の態様にしたがう動作を実行させる命令を含む。

実施形態の第３の態様は、デコーダのためのコンピュータプログラムを定義する。コンピュータプログラムは、コンピュータ実行可能命令を含む。コンピュータ実行可能命令は、デコーダに含まれるプロセッサ回路において実行されると、デコーダに、第２の態様による動作を実行させるように構成されている。

実施形態の第４の態様は、デコーダの少なくとも１つのプロセッサによって実行されるプログラムコードを含む非一時的記憶媒体を含むコンピュータプログラム製品を定義し、それにより、プログラムコードの実行により、デコーダは、第１の態様のいずれかにしたがって方法を実行する。

実施形態の第５の態様は、ビデオビットストリームのカレントピクチャにおけるカレントブロックのエンコーディングのために、ビデオエンコーダによって実行される方法を定義する。カレントピクチャは、カレントピクチャ順序カウントを有する。方法は、第１のピクチャ順序カウントを有する第１の参照ピクチャの第１の参照ブロックに対するカレントブロックの第１の動きベクトルを生成することを含む。方法は、第２のピクチャ順序カウントを有する第２の参照ピクチャの第２の参照ブロックに対するカレントブロックの第２の動きベクトルを生成することを含む。方法は、第１の動きベクトルと第２の動きベクトルとの比較に基づいて類似性メトリックを生成することをさらに含む。方法は、類似性メトリックに基づいて第１の動きベクトルを精細化するか否かを判定することをさらに含む。第１の動きベクトルを精細化するか否かの判定に応じて、方法は、第１の動きベクトルから、第１の精細化された動きベクトルを生成することをさらに含む。方法は、第１の精細化された動きベクトルを使用して動き補償を実行して、第１の参照ピクチャから、第１の参照ブロックを導出することをさらに含む。

実施形態の第６の態様は、ビデオビットストリームのカレントピクチャにおけるカレントブロックのエンコーディングのためのエンコーダを定義する。エンコーダは、プロセッサ回路と、プロセッサ回路に結合されたメモリとを備え、メモリは、命令を含み、命令は、プロセッサ回路によって実行されると、プロセッサ回路に第４の態様にしたがう動作を実行させる。

実施形態の第７の態様は、エンコーダのためのコンピュータプログラムを定義する。コンピュータプログラムは、コンピュータ実行可能命令を含み、コンピュータ実行可能命令は、エンコーダに含まれるプロセッサ回路において実行されると、エンコーダに第５の態様による動作を実行させるように構成されている。

実施形態の第８の態様は、エンコーダの少なくとも１つのプロセッサによって実行されるプログラムコードを含む非一時的記憶媒体を含むコンピュータプログラム製品を定義し、それにより、プログラムコードの実行により、エンコーダは、第５の態様のいずれかにしたがって方法を実行する。

本発明の概念によって提供され得る１つの潜在的な利点は、ビデオシーケンスのエンコーディングおよび／またはデコーディング中に、ＢＩＯ処理アルゴリズムを使用するなどの動きベクトル精細化を行うべきか否かを判定するための基準の計算の複雑さを低減することを含む。これにより、処理リソースの節約、および／または、ビデオシーケンスの符号化または復号に必要な時間の短縮をし得る。それに加えて、本明細書に説明されているいくつかの実施形態は、圧縮効率に、無視できる影響しか与えずに済む可能性がある。

本開示のさらなる理解を提供するために含まれ、本出願に組み込まれ、その一部を構成する添付の図面は、本発明の概念の特定の非限定的な実施形態を例示している。

ピクチャをコーディングユニットにパーティションすることを示すブロック図である。参照ブロックに基づくブロックのエンコーディング／デコーディングのための動きベクトルの使用例を示すブロック図である。双方向性動き補償の例を示すブロック図である。２つの動きベクトルの比較を示す図である。２つの動きベクトルの比較を示す図である。動きベクトルのスケーリングと、スケーリングされた動きベクトルの比較を示す図である。動きベクトルのスケーリングと、スケーリングされた動きベクトルの比較を示す図である。動きベクトルのスケーリングと、スケーリングされた動きベクトルの比較を示す図である。双方向性オプティカルフロー（bi-directional optical flow）処理の例を示す図である。本発明の概念のいくつかの実施形態にしたがって、エンコーダおよびデコーダが実施され得るシステムの環境の例を示すブロック図である。いくつかの実施形態によるエンコーダを示すブロック図である。いくつかの実施形態によるデコーダを示すブロック図である。本発明の概念のいくつかの実施形態によるデコーダまたはエンコーダの動作を示すフローチャートである。本発明の概念のいくつかの実施形態によるデコーダまたはエンコーダの動作を示すフローチャートである。本発明の概念のいくつかの実施形態によるデコーダまたはエンコーダの動作を示すフローチャートである。本発明の概念のいくつかの実施形態によるデコーダまたはエンコーダの動作を示すフローチャートである。本発明の概念のいくつかの実施形態によるデコーダまたはエンコーダの動作を示すフローチャートである。本発明の概念のいくつかの実施形態によるデコーダまたはエンコーダの動作を示すフローチャートである。

本発明の概念は、本発明の概念の実施形態の例が示される添付の図面を参照して、以下でより完全に説明される。しかしながら、本発明の概念は、多くの異なる形態で具体化することができ、本明細書に記載の実施形態に限定されると解釈されるべきではない。むしろ、これらの実施形態は、本開示が網羅的かつ完全であり、本発明の概念の範囲を当業者に十分に伝えるように提供される。これらの実施形態は相互に排他的ではないことにも留意されたい。１つの実施形態からの構成要素は、別の実施形態に存在する／使用されると暗黙的に想定され得る。

以下の説明は、開示された主題の様々な実施形態を提示する。これらの実施形態は、教示例として提示されており、開示された主題の範囲を限定するものとして解釈されるべきではない。たとえば、説明された実施形態の特定の詳細は、説明された主題の範囲から逸脱することなく、修正、省略、または拡張され得る。

上記のように、ＢＩＯ処理は、ピクセル単位の動きの精細化として、従来の双方向性の動き補償の後に適用され得る。［３］において説明されているように、ＳＡＤおよびＳＡＤ＿ｓｕｂが、特定のしきい値よりも大きい場合、ＢＩＯが有効化される。しかしながら、ＳＡＤを計算することの１つの欠点は、多くの算術演算を必要とすることである。サイズｎ×ｎの２つのブロック間のＳＡＤを計算するには、ｎ^２個の減算、ｎ^２個の絶対値、およびｎ^２－１個の加算が必要である。最悪の場合の例として、ブロックサイズがｎ＝１２８の場合、演算数は、１２８^２＝１６３８４回の減算、１２８^２＝１６３８４の絶対値、および１２８^２－１＝１６３８３回の加算となる。これは、計算の観点においてコストがかかる。

別の欠点は、式（８）で与えられる解が、等しい時間的距離Ｔ＿０＝Ｔ＿１に対してのみ有効であるということである。上記で説明したように、ビデオコーディングでは、Ｂ－ピクチャは異なる時間的距離を有する２つの参照ピクチャ、つまりＴ＿０≠Ｔ＿１または｜ＰＯＣ０－ＰＯＣ１｜≠｜ＰＯＣ０－ＰＯＣ２｜を有することができる。しかしながら、［３］の実施においては、式（８）の解は、ＰＯＣ差に関わらず、すべてのＢＩＯケースに適用される。したがって、理論的な解と、実際の実施との間には矛盾があり、これは、ＢＩＯ方法における非効率性につながる可能性がある。

いくつかの実施形態は、エンコーディングまたはデコーディングプロセスの一部としてＢＩＯまたは他の動きベクトル精細化技法を実行するか否かを判定するための代替基準を提供する。

図７は、本明細書で説明されるようにビットストリームを符号化するために使用され得るエンコーダ８００の動作環境の例を示す。エンコーダ８００は、ネットワーク７０２および／またはストレージ７０４からビデオを受信し、以下に説明するように、ビデオをビットストリームに符号化し、符号化されたビデオを、ネットワーク７０８を介してデコーダ９００に送信する。ストレージデバイス７０４は、ストアまたはストリーミングビデオサービスのストレージリポジトリ、別個のストレージ構成要素、モバイルデバイスの構成要素などのようなマルチチャネルオーディオ信号のストレージデポジトリの一部であり得る。デコーダ９００は、メディアプレーヤ９１２を有するデバイス９１０の一部であり得る。デバイス９１０は、モバイルデバイス、セットトップデバイス、デスクトップコンピュータなどであり得る。

図８は、本発明の概念のいくつかの実施形態にしたがって、ビデオフレームを符号化するように構成されたエンコーダ８００の要素を示すブロック図である。示されるように、エンコーダ８００は、他のデバイス／エンティティ／機能などとの通信を提供するように構成されたネットワークインターフェース回路８０５（ネットワークインターフェースとも呼ばれる）を含み得る。エンコーダ９００はまた、ネットワークインターフェース回路８０５に結合されたプロセッサ回路８０１（プロセッサとも呼ばれる）、およびプロセッサ回路に結合されたメモリ回路８０３（メモリとも呼ばれる）を含み得る。メモリ回路８０３は、プロセッサ回路８０１によって実行された場合、プロセッサ回路に、本明細書に開示される実施形態にしたがって動作を実行させるコンピュータ可読プログラムコードを含み得る。

他の実施形態によれば、プロセッサ回路８０１は、別個のメモリ回路が必要とされないように、メモリを含むように定義され得る。本明細書で論じられるように、エンコーダ８００の動作は、プロセッサ８０１および／またはネットワークインターフェース８０５によって実行され得る。たとえば、プロセッサ８０１は、ネットワークインターフェース８０５を制御して、デコーダ９００に通信を送信し、および／または、他のエンコーダノード、デポジトリサーバなどのような１つまたは複数の他のネットワークノード／エンティティ／サーバからネットワークインターフェース８０２を介して通信を受信し得る。さらに、モジュールはメモリ８０３に格納され得、これらのモジュールは、モジュールの命令がプロセッサ８０１によって実行される場合、プロセッサ８０１がそれぞれの動作を実行するように命令を提供し得る。

図９は、本発明の概念のいくつかの実施形態にしたがって、ビデオフレームを復号するように構成されたデコーダ９００の要素を示すブロック図である。示されるように、デコーダ９００は、他のデバイス／エンティティ／機能などとの通信を提供するように構成されたネットワークインターフェース回路９０５（ネットワークインターフェースとも呼ばれる）を含み得る。デコーダ９００はまた、ネットワークインターフェース回路９０５に結合されたプロセッサ回路９０１（プロセッサとも呼ばれる）、およびプロセッサ回路に結合されたメモリ回路９０３（メモリとも呼ばれる）を含み得る。メモリ回路９０３は、プロセッサ回路９０１によって実行された場合、プロセッサ回路に、本明細書に開示される実施形態にしたがって動作を実行させるコンピュータ可読プログラムコードを含み得る。

他の実施形態によれば、プロセッサ回路９０１は、別個のメモリ回路が必要とされないように、メモリを含むように定義され得る。本明細書で論じられるように、デコーダ９００の動作は、プロセッサ９０１および／またはネットワークインターフェース９０５によって実行され得る。たとえば、プロセッサ９０１は、エンコーダ９００からの通信を受信するようにネットワークインターフェース９０５を制御し得る。さらに、モジュールはメモリ９０３に格納され得、これらのモジュールは、モジュールの命令がプロセッサ９０１によって実行される場合、プロセッサ９０１がそれぞれの動作を実行するように命令を提供し得る。

本発明の概念のいくつかの実施形態は、条件を調整し、ビデオシーケンスのエンコーディングおよび／またはデコーディング中にＢＩＯを可能にするための基準の計算を単純化する。

デコーダ動作
図１０は、いくつかの実施形態にしたがって、ビデオビットストリームを復号するためのデコーダ９００の動作を示す。図１０を参照すると、デコーダ９００は、最初に、処理のために、ＰＯＣｎに等しいＰＯＣを有するカレントピクチャにおけるカレントブロックＫを選択する（ブロック１００２）。カレントピクチャは、復号のために双方向性予測を使用するＢ－ピクチャである。

次に、デコーダ９００は、ビデオビットストリームから、１セットの動き情報ｍＡを復号する。ここで、ｍＡは、ＰＯＣａに等しいＰＯＣを有する動きベクトルｍｖＡおよび第１の参照ピクチャｒｅｆＡを含む（ブロック１００４）。

次に、デコーダ９００は、ビデオビットストリームから、別のセットの動き情報ｍＢを復号する。ここで、ｍＢは、ＰＯＣｂに等しいＰＯＣを有する動きベクトルｍｖＢおよび参照ピクチャｒｅｆＢを含む（ブロック１００６）。

次に、デコーダ９００は、いくつかの基準Ｃに基づいて、ｍｖＡおよび／またはｍｖＢへのさらなる精細化が必要であるか否かを判定する（ブロック１００８）。基準Ｃは、いくつかの実施形態では、それらのｘ－成分、それらのｙ－成分、および／またはそれらのｚ－成分（たとえば、それらのΔＰＯＣ）の比較を含む、動きベクトルｍｖＡ、ｍｖＢの１つまたは複数の成分の比較に基づき得る。他の実施形態では、基準は、動きベクトルに関連付けられた参照ブロックの比較に基づき得る。

基準Ｃが満たされる場合、ｍｖＡおよび／またはｍｖＢに対してさらなる精細化が行われる（ブロック１０１０）。精細化により、２つの新しい動きベクトルｍｖＡ^＊およびｍｖＢ^＊が生成される。次に、これらの動きベクトルｍｖＡ^＊およびｍｖＢ^＊は、動き補償プロセスで使用され、ブロックＫのサンプル値を予測するための対応する参照ブロックを導出する（ブロック１０１２）。

基準Ｃが満たされない場合、ｍｖＡおよびｍｖＢについてそれ以上の精細化は実行されない。ｍｖＡとｍｖＢとの両方が動き補償プロセスで直接使用され、ブロックＫのサンプル値を予測するための対応する参照ブロックを発見する。

最後に、デコーダ９００は、参照ブロックを使用してカレントブロックを復号する（ブロック１０１４）。

いくつかの実施形態では、基準Ｃは、ｍｖＡとｍｖＢとの間の類似性を比較することを含み得る。類似性は、ｍｖＡとｍｖＢとの間の動きベクトル差ΔＭＶを計算することによって上記のように測定することができ、ここで、ＭＶのうちの１つは１８０度回転する。次に、ΔＭＶは、ｘ方向とｙ方向の絶対差をとることによって計算できる。つまり、ΔＭＶ．ｘ＝｜ｍｖＡ．ｘ－ｍｖＢ．ｘ｜、ΔＭＶ．ｙ＝｜ｍｖＡ．ｙ－ｍｖＢ．ｙ｜である。

いくつかの実施形態では、動きベクトルの差を計算する場合、式（１）にしたがう動きベクトルスケーリングが関与し得る。１つのＭＶのみがスケーリングされる場合、｜ΔＭＶ｜は、どのＭＶがスケーリングされるかに応じて異なる。いくつかの実施形態では、スケーリングする動きベクトルの選択は、動きベクトルの相対的な大きさに基づき得る。たとえば、｜ｍｖＡ｜＜｜ｍｖＢ｜の場合、スケーリングにｍｖＡが選択され得るが、またはその逆も可能である。

他の実施形態では、両方の動きベクトルは、以下のようにスケーリングされ得る。
ｍｖＡ’＝ｍｖＡ／ΔＰＯＣａ（９）
ｍｖＢ’＝ｍｖＢ／ΔＰＯＣｂ
ここで、ΔＰＯＣａ＝ＰＯＣａ－ＰＯＣｎおよびΔＰＯＣｂ＝ＰＯＣｂ－ＰＯＣｎである。

このようにスケーリングされた場合、ＭＶが考慮される順序に関係なく、同じしきい値を使用してΔＭＶを評価することができる。さらに、ΔＰＯＣａとΔＰＯＣｂのうちの一方のみが負になるため、式（９）を使用してＭＶをスケーリングする場合、１つのＭＶのみが１８０度回転する。

基準Ｃは、ΔＭＶのΔＭＶ．ｘおよびΔＭＶ．ｙ成分の両方または一方が、第１のしきい値よりも小さいか否か、すなわち、ΔＭＶ．ｘ＜しきい値１および／またはΔＭＶ．ｙ＜しきい値１を判定する。基準Ｃが満たされる場合、精細化が実行される。図１４を簡単に参照されたい。図示されるように、方法は、動きベクトルｍｖＡおよびｍｖＢに基づいて類似性メトリックを生成し得る（ブロック１４０２）。類似性メトリックは、ΔＭＶ．ｘ、ΔＭＶ．ｙ、またはΔＭＶ．ｘとΔＭＶ．ｙとの組合せを含み得る。

いくつかの実施形態では、第２のしきい値は、第２のしきい値が第１のしきい値よりも小さい場合に提供され得る。基準Ｃは、ΔＭＶの成分のうちの一方または両方が第１のしきい値よりも小さく、第２のしきい値よりも大きいか否かを判定し得る。基準Ｃが満たされる場合、精細化が実行される。

いくつかの実施形態では、基準Ｃは、参照ピクチャｒｅｆＡ、カレントピクチャ、および参照ピクチャｒｅｆＢの間の時間的距離ΔＰＯＣを比較することを含み得る。時間的距離は、対応するＰＯＣ値ＰＯＣ０、ＰＯＣａ、およびＰＯＣｂを使用して、上記のように計算できる。

基準Ｃは、絶対的なＰＯＣ差が等しい、すなわち｜ＰＯＣｎ－ＰＯＣａ｜＝｜ＰＯＣｎ－ＰＯＣｂ｜であるか否かを判定することを含み得、基準Ｃが満たされる場合、精細化が実行される。

いくつかの実施形態では、基準Ｃは、以下の２つの条件のうちの少なくとも１つが満たされるか否かを判定することを含み得る。（ａ）｜ＰＯＣｎ－ＰＯＣａ｜≦しきい値＿１；（ｂ）｜ＰＯＣｎ－ＰＯＣｂ｜≦しきい値＿２。２つの条件のうちの一方または両方が満たされる場合、基準Ｃが満たされる。

２つのピクチャ間の時間的距離は、ＰＯＣ差およびフレームレート（通常、フレーム／秒、またはｆｐｓで表される）の両方の関数である。ＰＯＣ差および／またはＭＶ差を評価するために使用されるしきい値は、特定のフレームレートに基づき得る。いくつかの実施形態では、エンコーダは、ビデオビットストリームにおいてデコーダにしきい値を明示的にシグナルし得る。他の実施形態では、デコーダは、ビデオビットストリームのフレームレートに基づいてしきい値をスケーリングし得る。

さらなる実施形態によるデコーダ９００の動作は、図１１に示される。図１１を参照すると、デコーダ９００は、最初に、処理のために、ＰＯＣｎに等しいＰＯＣを有するカレントピクチャにおけるカレントブロックＫを選択する（ブロック１１０２）。カレントピクチャは、復号のために双方向性予測を使用するＢ－ピクチャである。

次に、デコーダ９００は、ビデオビットストリームからの動き情報ｍＡの第１のセットを復号し、ここで、ｍＡは、ＰＯＣａに等しいＰＯＣを有する動きベクトルｍｖＡおよび第１の参照ピクチャｒｅｆＡと、ビデオビットストリームからの動き情報ｍＢの第２のセットを含み、ここで、ｍＢは、ＰＯＣｂに等しいＰＯＣを有する動きベクトルｍｖＢおよび参照ピクチャｒｅｆＢを含む（ブロック１１０４）。

次に、デコーダ９００は、ｍｖＡおよびｍｖＢを使用して動き補償を実行して、それぞれ、参照ピクチャｒｅｆＡおよびｒｅｆＢにおける参照ブロックＲ０およびＲ１を発見する（ブロック１１０６）。

次に、デコーダ９００は、いくつかの基準Ｃに基づいて、参照ブロックＲ０およびＲ１へのさらなる精細化が必要であるか否かを判定する（ブロック１１０８）。基準Ｃは、いくつかの実施形態では、参照ブロックＲ０およびＲ１の比較に基づき得る。

基準Ｃが満たされる場合、ｍｖＡおよび／またはｍｖＢに対してさらなる精細化が実行される（ブロック１１１０）。精細化により、２つの新しい動きベクトルｍｖＡ^＊、ｍｖＢ^＊が生成される。次に、これらの動きベクトルｍｖＡ^＊およびｍｖＢ^＊は、動き補償プロセスで使用されて、カレントブロックＫのサンプル値を予測するための対応する精細化された参照ブロックＲ０^＊およびＲ１^＊を導出する（ブロック１１１２）。

基準Ｃが満たされない場合、それ以上の精細化は行われない。次に、結果として得られる参照ブロックＲ０とＲ１、またはＲ０^＊とＲ１^＊を使用して、カレントブロックＫを復号する（ブロック１１１４）。

図１５を簡単に参照する。図示されるように、方法は、Ｒ０およびＲ１に基づいて類似性メトリックを生成することを含み得る（ブロック１５０２）。類似性メトリックは、完全なＳＡＤを実行するのではなく、Ｒ０とＲ１の限定されたサンプル値のセットのみを比較することによって生成され得る。いくつかの実施形態では、基準は、参照ブロックＲ１およびＲ０のｘ－方向およびｙ－方向それぞれのすべてのｍ番目およびｎ番目のサンプル値を比較し、選択されたサンプルに基づいて参照ブロックの類似性メトリックを計算する。類似性が第１のしきい値よりも小さい場合、精細化が実行され得る。

いくつかの実施形態では、類似性メトリックは、Ｒ０およびＲ１における限定されたサンプルのセットの平均または分散を比較することによって生成され得る。他の実施形態では、限定されたサンプルのセットのＳＡＤが計算され得る。すなわち、類似性値は、ＳＡＤ方法によって、座標のセットに含まれる座標を有するすべての同じ場所に配置されたサンプル値のペアの絶対差の合計として計算され得る。

さらに他の実施形態では、平均二乗誤差（ＭＳＥ）が、Ｒ０およびＲ１の限定されたサンプル値のセットについて計算され得る。

エンコーダ動作
図１２は、いくつかの実施形態にしたがって、ビデオビットストリームを復号するためのエンコーダ９００の動作を示す。図１２を参照すると、エンコーダ９００は、最初に、処理のために、ＰＯＣｎに等しいＰＯＣを有するカレントピクチャにおけるカレントブロックＫを選択する（ブロック１２０２）。カレントピクチャは、復号のために双方向性予測を使用するＢ－ピクチャである。

次に、エンコーダ９００は、ビデオビットストリームから１セットの動き情報ｍＡを生成し、ここで、ｍＡは、ＰＯＣａに等しいＰＯＣを有する動きベクトルｍｖＡおよび第１の参照ピクチャｒｅｆＡを含む（ブロック１２０４）。

次に、エンコーダ９００は、ビデオビットストリームから動き情報ｍＢの別のセットを生成し、ここで、ｍＢは、ＰＯＣｂに等しいＰＯＣを有する動きベクトルｍｖＢおよび参照ピクチャｒｅｆＢを含む（ブロック１２０６）。

次に、エンコーダ９００は、いくつかの基準Ｃに基づいて、ｍｖＡおよび／またはｍｖＢへのさらなる精細化が必要であるか否かを判定する（ブロック１２０８）。基準Ｃは、いくつかの実施形態では、それらのｘ－成分、それらのｙ－成分、および／またはそれらのｚ－成分（たとえば、それらのΔＰＯＣ）の比較を含む、動きベクトルｍｖＡ、ｍｖＢの１つまたは複数の成分の比較に基づき得る。他の実施形態では、基準は、動きベクトルに関連付けられた参照ブロックの比較に基づき得る。

基準Ｃが満たされる場合、ｍｖＡおよび／またはｍｖＢに対してさらなる精細化が実行される（ブロック１２１０）。精細化により、２つの新しい動きベクトルｍｖＡ^＊、ｍｖＢ^＊が生成される。次に、これらの動きベクトルｍｖＡ^＊およびｍｖＢ^＊は、動き補償プロセスで使用されて、ブロックＫのサンプル値を予測するための対応する参照ブロックを導出する（ブロック１２１２）。

基準Ｃが満たされない場合、ｍｖＡおよびｍｖＢについてそれ以上の精細化は行われない。ｍｖＡとｍｖＢの両方が動き補償プロセスで直接使用され、ブロックＫのサンプル値を予測するための対応する参照ブロックを発見する。

最後に、エンコーダ９００は、参照ブロックを使用してカレントブロックを符号化する（ブロック１２１４）。

いくつかの実施形態では、基準Ｃは、ｍｖＡとｍｖＢとの間の類似性を比較することを含み得る。類似性は、ｍｖＡとｍｖＢとの間の動きベクトル差ΔＭＶを計算することによって上記のように測定することができ、ここで、ＭＶのうちの１つは１８０度回転する。

いくつかの実施形態では、動きベクトルの差を計算する場合、式（１）または式（９）による動きベクトルスケーリングが適用され得る。

基準Ｃは、ΔＭＶのΔＭＶ．ｘ成分およびΔＭＶ．ｙ成分の両方または一方が、第１のしきい値よりも小さいか否か、すなわち、ΔＭＶ．ｘ＜しきい値１および／またはΔＭＶ．ｙ＜しきい値１を判定する。基準Ｃが満たされる場合、精細化が実行される。

いくつかの実施形態では、第２のしきい値は、第２のしきい値が第１のしきい値よりも小さい場合に提供され得る。基準Ｃは、ΔＭＶの成分の両方または一方が第１のしきい値よりも小さく、第２のしきい値よりも大きいか否かを判定し得る。基準Ｃが満たされる場合、精細化が実行される。

基準Ｃは、絶対ＰＯＣ差が等しいか否か、すなわち、｜ＰＯＣｎ－ＰＯＣａ｜＝｜ＰＯＣｎ－ＰＯＣｂ｜を判定することを含み得、基準Ｃが満たされる場合、精細化が実行される。

いくつかの実施形態では、基準Ｃは、以下の２つの条件、すなわち、（ａ）｜ＰＯＣｎ－ＰＯＣａ｜≦しきい値＿１、（ｂ）｜ＰＯＣｎ－ＰＯＣｂ｜≦しきい値＿２、のうちの少なくとも１つが満たされるか否かを判定することを含み得る。２つの条件のうちの一方または両方が満たされる場合、基準Ｃが満たされる。

いくつかの実施形態では、エンコーダは、ビデオビットストリームにおいてデコーダにしきい値を明示的にシグナルし得る。他の実施形態では、デコーダは、デコーダがビデオビットストリームのフレームレートに基づいてしきい値をスケーリングするために使用できる、フレームレートまたはスケールファクタを、シグナルし得る。

さらなる実施形態によるエンコーダ９００の動作は、図１３に示される。図１３を参照すると、エンコーダ９００は、最初に、処理のために、ＰＯＣｎに等しいＰＯＣを有するカレントピクチャにおけるカレントブロックＫを選択する（ブロック１３０２）。カレントピクチャは、復号のために双方向性予測を使用するＢ－ピクチャである。

次に、エンコーダ９００は、ビデオビットストリームから動き情報ｍＡの第１のセットを生成し、ここで、ｍＡは、ＰＯＣａに等しいＰＯＣを有する動きベクトルｍｖＡおよび第１の参照ピクチャｒｅｆＡと、ビットストリームからの動き情報ｍＢの第２のセットとを含み、ｍＢは、ＰＯＣｂに等しいＰＯＣを有する動きベクトルｍｖＢおよび参照ピクチャｒｅｆＢを含む（ブロック１３０４）。

次に、エンコーダ９００は、ｍｖＡおよびｍｖＢを使用して動き補償を実行して、参照ピクチャｒｅｆＡおよびｒｅｆＢにおける参照ブロックＲ０およびＲ１をそれぞれ発見する（ブロック１３０６）。

次に、エンコーダ９００は、いくつかの基準Ｃに基づいて、参照ブロックＲ０およびＲ１へのさらなる精細化が必要であるか否かを判定する（ブロック１３０８）。基準Ｃは、いくつかの実施形態では、参照ブロックＲ０およびＲ１の比較に基づき得る。

基準Ｃが満たされる場合、ｍｖＡおよび／またはｍｖＢに対してさらなる精細化が実行される（ブロック１３１０）。精細化により、２つの新しい動きベクトルｍｖＡ^＊、ｍｖＢ^＊が生成される。次に、これらの動きベクトルｍｖＡ^＊およびｍｖＢ^＊は、動き補償プロセスで使用されて、カレントブロックＫのサンプル値を予測するための対応する精細化された参照ブロックＲ０^＊およびＲ１^＊を導出する（ブロック１３１２）。

基準Ｃが満たされない場合、それ以上の精細化は行われない。次に、結果として得られる参照ブロックＲ０とＲ１、またはＲ０^＊とＲ１^＊を使用して、カレントブロックＫを符号化する（ブロック１３１４）。

この実施形態では、基準Ｃは、完全なＳＡＤを実行するのとは対照的に、Ｒ０およびＲ１の限定されたサンプル値のセットのみを比較することを含み得る。いくつかの実施形態では、基準は、参照ブロックＲ１およびＲ０のそれぞれｘ－方向およびｙ－方向のすべてのｍ番目およびｎ番目のサンプル値を比較し、参照ブロックの類似性メトリックを計算する。類似性が第１のしきい値よりも小さい場合、精細化が実行され得る。

いくつかの実施形態では、類似性メトリックは、Ｒ０およびＲ１における限定されたサンプルのセットの平均または分散を比較することによって生成することができる。他の実施形態では、限定されたサンプルのセットのＳＡＤが計算され得る。すなわち、類似性値は、ＳＡＤ方法によって、座標のセットに含まれる座標を有するすべての同じ場所に配置されたサンプル値のペアの絶対差の合計として計算され得る。

さらに他の実施形態では、平均二乗誤差（ＭＳＥ）は、Ｒ０およびＲ１の限定されたサンプル値のセットについて計算され得る。

参考文献：
[1] A. Alshin, and E. Alshina, "Bi-directional optical flow," Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1 /SC29/WG11, JCTVC-C204, Guangzhou, China, 10-15 October, 2010.
[2] A., Alexander, and E. Alshina, "Bi-directional pptical flow for future video codec." In Data Compression Conference (DCC), 2016, pp. 83-90. IEEE, 2016.
[3] X. Xiu, Y. He, Y. Ye, "CE9-related: Complexity reduction and bit-width control for bi-directional optical flow (BIO)", Input document to JVET, document number JVET-L0256.

Claims

ビデオビットストリームのカレントピクチャにおけるカレントブロックを復号するために、デコーダによって実行される方法であって、前記カレントピクチャは、カレントピクチャ順序カウントを有し、前記方法は、
前記ビデオビットストリームから、第１のピクチャ順序カウントを有する第１の参照ピクチャの第１の参照ブロックに対する前記カレントブロックの第１の動きベクトルを復号すること（１００４）と、
前記ビデオビットストリームから、第２のピクチャ順序カウントを有する第２の参照ピクチャの第２の参照ブロックに対する前記カレントブロックの第２の動きベクトルを復号すること（１００６）と、
前記第１の動きベクトルと前記第２の動きベクトルとの比較に基づいて類似性メトリックを生成すること（１４０２）と、
前記類似性メトリックに基づいて前記第１の動きベクトルを精細化するか否かを判定すること（１００８）と、
前記第１の動きベクトルを精細化するか否かの判定に応じて、前記第１の動きベクトルから第１の精細化された動きベクトルを生成すること（１０１０）と、
前記第１の精細化された動きベクトルを使用して動き補償を実行して、前記第１の参照ピクチャから第１の参照ブロックを導出すること（１０１２）と、を含み、
前記第１の精細化された動きベクトルを生成することは、前記第１の動きベクトルに対して双方向性オプティカルフロー（ＢＩＯ：ｂｉ－ｄｉｒｅｃｔｉｏｎａｌｏｐｔｉｃａｌｆｌｏｗ）処理を実行することを含む、方法。
前記第１および第２の動きベクトルはおのおの、前記カレントピクチャの平面におけるｘ－成分、前記カレントピクチャの前記平面におけるｙ－成分、およびｚ－成分を含む３次元動きベクトルを含み、前記第１の動きベクトルの前記ｚ－成分は、前記カレントピクチャ順序カウントと前記第１のピクチャ順序カウントとの間の差を含み、前記第２の動きベクトルの前記ｚ－成分は、前記カレントピクチャ順序カウントと前記第２のピクチャ順序カウントとの間の差を含む、請求項１に記載の方法。
前記類似性メトリックを生成することは、前記第１および第２の動きベクトルの前記ｚ－成分間の差を生成することを含み、前記第１および第２の動きベクトルの前記ｚ－成分間の前記差を生成することは、前記第１の動きベクトルの前記ｚ－成分の絶対値と、前記第２の動きベクトルの前記ｚ－成分の絶対値との間の差を生成することを含む、請求項２に記載の方法。
前記類似性メトリックに基づいて前記第１の動きベクトルを精細化するか否かを判定することは、前記第１および第２の動きベクトルの前記ｚ－成分間の差を、第３のしきい値と比較することと、前記第１および第２の動きベクトルの前記ｚ－成分間の前記差が、前記第３のしきい値未満であることに応じて、前記第１の動きベクトルを精細化することとを含む、請求項２または３に記載の方法。
前記類似性メトリックに基づいて前記第１の動きベクトルを精細化するか否かを判定することはさらに、前記カレントピクチャ順序カウントと前記第１のピクチャ順序カウントとの間の絶対差が、前記カレントピクチャ順序カウントと、前記第２のピクチャ順序カウントとの間の絶対値に等しいか否かを判定することを含む、請求項１から４のいずれか一項に記載の方法。
前記第１のピクチャ順序カウント、前記第２のピクチャ順序カウント、および前記カレントピクチャ順序カウントに基づいて、前記第１の動きベクトルまたは前記第２の動きベクトルをスケーリングすることをさらに含む、請求項２から５のいずれか一項に記載の方法。
前記第１の動きベクトルをスケーリングすることは、以下の式にしたがって実行され、

ここで、ＭＶ０．ｘは、前記第１の動きベクトルの前記ｘ－成分であり、ＭＶ０．ｙは、前記第１の動きベクトルの前記ｙ－成分であり、ＭＶ０’．ｘは、前記第１の動きベクトルのスケーリングされたｘ－成分であり、ＭＶ０’．ｙは、前記第１の動きベクトルのスケーリングされたｙ－成分であり、ＰＯＣ０は、前記カレントピクチャ順序カウントであり、ＰＯＣ１は、前記第１のピクチャ順序カウントであり、ＰＯＣ２は、前記第２のピクチャ順序カウントである、請求項６に記載の方法。
前記第１の動きベクトルおよび前記第２の動きベクトルを、以下の式にしたがってスケーリングすることを含み、

ここで、ＭＶ０．ｘは、前記第１の動きベクトルの前記ｘ－成分であり、ＭＶ０．ｙは、前記第１の動きベクトルの前記ｙ－成分であり、ＭＶ０’．ｘは、前記第１の動きベクトルのスケーリングされたｘ－成分であり、ＭＶ０’．ｙは、前記第１の動きベクトルのスケーリングされたｙ－成分であり、ここで、ＭＶ１．ｘは、前記第２の動きベクトルの前記ｘ－成分であり、ＭＶ１．ｙは、前記第２の動きベクトルの前記ｙ－成分であり、ＭＶ１’．ｘは、前記第２の動きベクトルのスケーリングされたｘ－成分であり、ＭＶ１’．ｙは、前記第２の動きベクトルのスケーリングされたｙ－成分であり、ＰＯＣ０は、前記カレントピクチャ順序カウントであり、ＰＯＣ１は、前記第１のピクチャ順序カウントであり、ＰＯＣ２は、前記第２のピクチャ順序カウントである、請求項６に記載の方法。
ビデオビットストリームのカレントピクチャにおけるカレントブロックを復号するためのデコーダ（９００）であって、前記カレントピクチャは、カレントピクチャ順序カウントを有し、前記デコーダ（９００）は、
プロセッサ回路（９０１）と、
前記プロセッサ回路に結合されたメモリ（９０３）とを備え、
前記メモリは、命令を含み、前記命令は、前記プロセッサ回路によって実行されると、前記プロセッサ回路に、請求項１から８のいずれか一項に記載の動作を実行させる、デコーダ（９００）。
コンピュータ実行可能命令を含むコンピュータプログラムであって、前記コンピュータ実行可能命令は、デコーダに含まれるプロセッサ回路において実行されると、前記デコーダに、請求項１から８のいずれか一項に記載の動作を実行させるように構成されている、コンピュータプログラム。
コンピュータ実行可能命令を含む非一時的コンピュータ可読媒体を含む、コンピュータプログラム製品であって、前記コンピュータ実行可能命令は、デコーダに含まれるプロセッサ回路（９０１）において実行されると、前記デコーダに、請求項１から８のいずれか一項に記載の方法を実行させるように構成されている、コンピュータプログラム製品。