JP7372433B2

JP7372433B2 - オプティカルフローを用いた予測リファインメントに関する方法および装置

Info

Publication number: JP7372433B2
Application number: JP2022203593A
Authority: JP
Inventors: シウ、シアオユイ; チェン、イー－ウェン; ワン、シアンリン; ユイ、ピン
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2022-12-20
Publication date: 2023-10-31
Anticipated expiration: 2040-08-24
Also published as: WO2021041332A1; JP2022536208A; CN114342379A; EP4018667A1; JP2023036776A; JP2023179747A; KR20220044832A; EP4018667A4; US20220182659A1; JP7199598B2; KR20230011479A; MX2022002254A; KR102486982B1; CN116320473A

Description

本開示は、ビデオ符号化および圧縮に関する。より具体的には、本開示は、ＶＶＣ（ｖｅｒｓａｔｉｌｅｖｉｄｅｏｃｏｄｉｎｇ）規格で検討される２つのインター予測ツールに関する方法および装置、すなわち、ＰＲＯＦ（ｐｒｅｄｉｃｔｉｏｎｒｅｆｉｎｅｍｅｎｔｗｉｔｈｏｐｔｉｃａｌｆｌｏｗ）およびＢＤＯＦ（ｂｉ－ｄｉｒｅｃｔｉｏｎａｌｏｐｔｉｃａｌｆｌｏｗ）に関する。

ビデオデータを圧縮するために、様々なビデオ符号化技術を使用することができる。ビデオ符号化は、一つ以上のビデオ符号化標準に従って実行される。例えば、ビデオ符号化規格は、ＶＶＣ（ｖｅｒｓａｔｉｌｅｖｉｄｅｏｃｏｄｉｎｇ）、ＪＥＭ（ｊｏｉｎｔｅｘｐｌｏｒａｔｉｏｎｔｅｓｔｍｏｄｅｌ）、Ｈ．２６５／ＨＥＶＣ（ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｖｉｄｅｏｃｏｄｉｎｇ）、Ｈ．２６４／ＡＶＣ（ａｄｖａｎｃｅｄｖｉｄｅｏｃｏｄｉｎｇ）、ＭＰＥＧ（ｍｏｖｉｎｇｐｉｃｔｕｒｅｅｘｐｅｒｔｇｒｏｕｐ）符号化などを含む。ビデオ符号化は一般に、ビデオ画像またはシーケンスに存在する冗長性を利用する予測方法（例えば、インター予測、イントラ予測など）を利用する。ビデオ符号化技術の重要な目標はビデオ品質の劣化を回避し、または最小限に抑えながら、ビデオデータをより低いビットレートを使用する形式に圧縮することである。

本開示の例は、ＰＲＯＦ（ｐｒｅｄｉｃｔｉｏｎｒｅｆｉｎｅｍｅｎｔｗｉｔｈｏｐｔｉｃａｌｆｌｏｗ）による予測リファインメントのための方法および装置を提供する。

本開示の第１態様によれば、ＰＲＯＦ（ｐｒｅｄｉｃｔｉｏｎｒｅｆｉｎｅｍｅｎｔｗｉｔｈｏｐｔｉｃａｌｆｌｏｗ：オプティカルフローによる予測リファインメント）が提供される。この方法は、アフィンモードによって符号化されるビデオブロックを取得し、ビデオブロックに関連する第１参照ピクチャＩ^（０）および第２参照ピクチャＩ^（１）を取得することを含み得る。この方法は、第１参照ピクチャＩ^（０）、第２参照ピクチャＩ^（１）に関連する第１予測サンプルＩ^（０）（ｉ，ｊ）および第２予測サンプルＩ^（１）（ｉ，ｊ）に基づいて、第１水平勾配値および第２垂直勾配値を取得することも含むことができる。本方法は、第１参照ピクチャＩ^（０）および第２参照ピクチャＩ^（１）に関連付けられたＣＰＭＶ（ｃｏｎｔｒｏｌｐｏｉｎｔｍｏｔｉｏｎｖｅｃｔｏｒｓ：制御点動きベクトル）に基づいて、第１および第２水平および垂直動きリファインメントを得ることを更に含むことができる。本方法は、第１および第２水平および垂直勾配値、ならびに第１および第２水平および垂直動きリファインメントに基づいて、第１および第２予測リファインメントを得ることを含んでもよい。この方法は、第１予測サンプルＩ^（０）（ｉ，ｊ）、第２予測サンプルＩ^（１）（ｉ，ｊ）、ならびに第１および第２予測リファインメントに基づいて、リファインされた第１および第２サンプルを取得することをさらに含むことができる。この方法は、乗算オーバーフローを防止するためにリファインされた第１および第２サンプルおよび予測パラメータを操作することによって、リファインされた第１および第２サンプルに基づいてビデオブロックの最終予測サンプルを取得することを含むことができる。予測パラメータは、ＷＰ（ｗｅｉｇｈｔｅｄｐｒｅｄｉｃｔｉｏｎ：加重予測）のためのパラメータとＢＣＷ（ｂｉｐｒｅｄｉｃｔｉｏｎｗｉｔｈｃｏｄｉｎｇｕｎｉｔ（ＣＵ）－ｌｅｖｅｌｗｅｉｇｈｔ：符号化ユニットＣＵ（ｃｏｄｉｎｇｕｎｉｔ：符号化ユニット）レベル重みによるバイ予測）のためのパラメータを含むことができる。

本開示の第２態様によれば、コンピューティングデバイスが提供される。このコンピューティングデバイスは、１つ以上のプロセッサと、１つ以上のプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読メモリと、を含んでもよい。１つ以上のプロセッサは、アフィンモードによって符号化されるビデオブロックを取得し、ビデオブロックに関連する第１参照ピクチャＩ^（０）および第２参照ピクチャＩ^（１）を取得するように構成され得る。１つ以上のプロセッサはまた、第１参照ピクチャＩ^（０）、第２参照ピクチャＩ^（１）に関連付けられた第１予測サンプルＩ^（０）（ｉ，ｊ）および第２予測サンプルＩ^（１）（ｉ，ｊ）に基づいて、第１水平勾配値および第２垂直勾配値を取得するように構成され得る。１つ以上のプロセッサは、第１参照ピクチャＩ^（０）および第２参照ピクチャＩ^（１）に関連するＣＰＭＶ（ｃｏｎｔｒｏｌｐｏｉｎｔｍｏｔｉｏｎｖｅｃｔｏｒｓ）に基づいて、第１および第２水平および垂直動きリファインメントを取得するように構成され得る。１つ以上のプロセッサは、第１および第２水平および垂直勾配値と、第１および第２水平および垂直動きリファインメントとに基づいて、第１および第２予測リファインメントを取得するようにさらに構成され得る。１つ以上のプロセッサは、第１予測サンプルＩ^（０）（ｉ，ｊ）、第２予測サンプルＩ^（１）（ｉ，ｊ）、ならびに第１および第２予測リファインメントに基づいて、リファインされた第１および第２サンプルを取得するように構成され得る。１つ以上のプロセッサはさらに、乗算オーバーフローを防止するためにリファインされた第１および第２サンプルおよび予測パラメータを操作することによって、リファインされた第１および第２サンプルに基づいてビデオブロックの最終予測サンプルを取得するように構成され得る。予測パラメータは、ＷＰのためのパラメータおよびＢＣＷのためのパラメータを含むことができる。

本開示の第３の態様によれば、命令を格納した非一時的コンピュータ可読記憶媒体が提供される。命令が装置の１つまたは複数のプロセッサによって実行されると、命令は、アフィンモードによって符号化されるビデオブロックを取得し、ビデオブロックに関連する第１参照ピクチャＩ^（０）および第２参照ピクチャＩ^（１）を取得することを装置に実行させ得る。命令は装置に、第１参照ピクチャである第２参照ピクチャに関連する第１予測サンプルおよび第２予測サンプルに基づいて、第１水平勾配値および第２垂直勾配値を取得することを実行させることができる。命令は装置に、第１参照ピクチャＩ^（０）および第２参照ピクチャＩ^（１）に関連するＣＰＭＶ（ｃｏｎｔｒｏｌｐｏｉｎｔｍｏｔｉｏｎｖｅｃｔｏｒｓ）に基づいて、第１および第２水平および垂直動きリファインメントを取得することを実行させることができる。命令は更に、第１および第２水平および垂直勾配値、並びに第１および第２水平および垂直動きリファインメントに基づいて、第１および第２予測リファインメントを、取得することを装置に行わせることができる。命令は、第１予測サンプルＩ^（０）（ｉ，ｊ）、第２予測サンプルＩ^（１）（ｉ，ｊ）、ならびに第１および第２予測リファインメントに基づいて、リファインされた第１および第２サンプルを取得することを、装置にさらに実行させることができる。命令は装置に、乗算オーバーフローを防ぐためにリファインされた第１および第２サンプルおよび予測パラメータを操作することによって、リファインされた第１および第２サンプルに基づいてビデオブロックの最終予測サンプルを取得することを実行させてもよい。予測パラメータは、ＷＰのためのパラメータおよびＢＣＷのためのパラメータを含んでもよい。

本開示の一例によるエンコーダのブロック図である。本開示の一例によるデコーダのブロック図である。本開示の一例による、マルチタイプツリー構造におけるブロック分割を示す図である。本開示の一例による、マルチタイプツリー構造におけるブロック分割を示す図である。本開示の一例による、マルチタイプツリー構造におけるブロック分割を示す図である。本開示の一例による、マルチタイプツリー構造におけるブロック分割を示す図である。本開示の一例による、マルチタイプツリー構造におけるブロック分割を示す図である。本開示の一例による、ＢＤＯＦ（ｂｉ－ｄｉｒｅｃｔｉｏｎａｌｏｐｔｉｃａｌｆｌｏｗ）モデルの図示である。本開示の一例によるアフィンモデルの図である。本開示の一例によるアフィンモデルの図である。本開示の一例によるアフィンモデルの図である。本開示の一例による、ＰＲＯＦ（ｐｒｅｄｉｃｔｉｏｎｒｅｆｉｎｅｍｅｎｔｗｉｔｈｏｐｔｉｃａｌｆｌｏｗ）の説明図である。本開示の一例による、ＢＤＯＦのワークフローである。本開示の一例によるＰＲＯＦのワークフローである。本開示の一例による、ビデオ信号を復号化するためのＢＤＯＦおよびＰＲＯＦの統合方法である。本開示の一例による、ビデオ信号を復号化するためのＢＤＯＦおよびＰＲＯＦの方法である。本開示の一例による、バイ予測のためのＰＲＯＦのワークフローの図である。本開示による、ＢＤＯＦおよびＰＲＯＦプロセスのパイプラインステージの図である。本開示による、ＢＤＯＦの勾配導出方法の図である。本開示による、ＰＲＯＦの勾配導出方法の図である。本開示の一例による、アフィンモードのためのテンプレートサンプルを導出する図である。本開示の一例による、アフィンモードのためのテンプレートサンプルを導出する図である。本開示の一例による、アフィンモードのためにＰＲＯＦおよびＬＩＣを排他的に有効化する図である。本開示の一例による、アフィンモードのためにＰＲＯＦおよびＬＩＣを結合して使用可能にする図である。本開示の一例による、１６×１６ＢＤＯＦＣＵに適用される提案されたパディング方法を示す図である。本開示の一例による、１６×１６ＢＤＯＦＣＵに適用される提案されたパディング方法を示す図である。本開示の一例による、１６×１６ＢＤＯＦＣＵに適用される提案されたパディング方法を示す図である。本開示の一例による、１６×１６ＢＤＯＦＣＵに適用される提案されたパディング方法を示す図である。本開示の一例による、ユーザインターフェースに結合されたコンピューティング環境を示す図である。

上記の一般的な説明および以下の詳細な説明は、例示的かつ説明的なものにすぎず、本開示を限定することを意図するものではないことを理解されたい。

本明細書に組み込まれ、その一部を構成する添付の図面は本開示と一致する例を示し、説明とともに、本開示の原理を説明する役割を果たす。

次に、例示的な実施形態を詳細に参照し、その例を添付の図面に示す。以下の説明は添付の図面を参照し、異なる図面中の同じ符号は、特に示さない限り、同じまたは類似の要素を表す。例示的な実施形態の以下の説明に記載される実装は、本開示と一致するすべての実装を表すわけではない。むしろ、それらは、添付の特許請求の範囲に記載されるような本開示に関連する態様と一致する装置および方法の単なる例である。

本開示で使用される用語は特定の実施形態を説明するためだけのものであり、本開示を限定することを意図するものではない。本開示および添付の特許請求の範囲で使用されるように、単数形「１つ」などは文脈がそうでないことを明確に示さない限り、複数形も含むことが意図される。また、本明細書で使用される「および／または」という用語は関連する列挙された項目のうちの１つまたは複数の任意のまたはすべての可能な組合せを意味し、含むことが意図されることを理解されたい。

「第１」、「第２」、「第３」などの用語は様々な情報を説明するために本明細書で使用され得るが、情報はこれらの用語によって限定されるべきではないことを理解されたい。これらの用語は、情報の１つのカテゴリを別のカテゴリから区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第１情報を第２情報と呼ぶことができ、同様に、第２情報も第１情報と呼ぶことができる。本明細書で使用されるように、用語「もし、～ならば」は、文脈に応じて、「ときに」または「際に」または「判定に応答して」を意味すると理解されてもよい。

ＨＥＶＣ規格の第１バージョンは２０１３年１０月に完成し、これは、従来の世代のビデオ符号化規格Ｈ．２６４／ＭＰＥＧＡＶＣと比較して、約５０％のビットレート節約または同等の知覚品質を提供する。ＨＥＶＣ規格はその先行技術よりも著しい符号化改善を提供するが、ＨＥＶＣよりも優れた符号化効率が追加の符号化ツールを用いて達成され得るという証拠がある。これに基づき、ＶＣＥＧとＭＰＥＧの両方が、将来のビデオ符号化標準化のための新しい符号化技術の探索作業を開始した。ＩＴＵ－ＴＶＥＣＧとＩＳＯ／ＩＥＣＭＰＥＧが２０１５年１０月に１つのＪＶＥＴ（ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ）を結成し、符号化効率の大幅な向上を可能にする高度な技術の研究を開始した。ＪＥＭ（ｊｏｉｎｔｅｘｐｌｏｒａｔｉｏｎｍｏｄｅｌ）と呼ばれる１つの参照ソフトウェアは、ＨＥＶＣ試験モデル（ＨＭ）の上にいくつかの追加の符号化ツールを統合することによって、ＪＶＥＴによって維持された。

２０１７年１０月、ＩＴＵ－ＴおよびＩＳＯ／ＩＥＣは、ＨＥＶＣを超えたビデオ圧縮に関する共同ＣｆＰ（ＣａｌｌｆｏｒＰｒｏｐｏｓａｌｓ）を発表した。２０１８年４月には、第１０回ＪＶＥＴ会議で２３のＣｆＰ回答を得て評価したところ、約４０％のＨＥＶＣを超える圧縮効率の向上が示された。このような評価結果を踏まえ、ＪＶＥＴは、ＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）と呼ばれる新世代ビデオ符号化規格を開発するための新たなプロジェクトを立ち上げた。同月に、ＶＶＣ試験モデル（ＶＴＭ）と呼ばれる１つの参照ソフトウェアコードベースが、ＶＶＣ標準の参照実装を実証するために確立された。

ＨＥＶＣと同様に、ＶＶＣはブロックベースのハイブリッドビデオ符号化フレームワー
クに基づいて構築される。

図１は、ＶＶＣのためのブロックベースのビデオエンコーダの一般的な図を示す。具体的には、図１は典型的なエンコーダ１００を示す。エンコーダ１００は、ビデオ入力１１０、動き補償１１２、動き推定１１４、イントラモード／インターモード決定１１６、ブロック予測子１４０、加算器１２８、変換１３０、量子化１３２、予測関連情報１４２、イントラ予測１１８、ピクチャバッファ１２０、逆量子化１３４、逆変換１３６、加算器１２６、メモリ１２４、インループフィルタ１２２、エントロピー符号化１３８、およびビットストリーム１４４を有する。

エンコーダ１００において、ビデオフレームは、処理のために複数のビデオブロックに分割される。与えられた各ビデオブロックに対して、インター予測アプローチまたはイントラ予測アプローチのいずれかに基づいて予測が形成される。

ビデオ入力１１０の一部である現在のビデオブロックと、ブロック予測子１４０の一部であるその予測子との間の差を表す予測残差は、加算器１２８から変換器１３０に送られる。次に、変換係数はエントロピー低減のために、変換１３０から量子化１３２に送られる。次に、量子化された係数がエントロピー符号化１３８に供給されて、圧縮ビデオビットストリームが生成される。図１に示すように、ビデオブロック分割情報、動きベクトル（ＭＶ）、参照ピクチャインデックス、およびイントラ予測モードなどのイントラ／インターモード決定１１６からの予測関連情報１４２もエントロピー符号化１３８を介して供給され、圧縮ビットストリーム１４４に保存される。圧縮ビットストリーム１４４は、ビデオビットストリームを含む。

エンコーダ１００では、予測の目的でピクセルを再構成するために、デコーダ関連の回路も必要である。まず、逆量子化１３４と逆変換１３６を通して予測残差を再構成する。この再構成された予測残差をブロック予測子１４０と組み合わせて、現在のビデオブロックに対してフィルタ処理されていない再構成ピクセルを生成する。

空間予測（または「イントラ予測」）は、現在のビデオブロックと同じビデオフレーム内の既に符号化された隣接ブロック（参照サンプルと呼ばれる）のサンプルからのピクセルを使用して、現在のビデオブロックを予測する。

時間予測（「インター予測」とも呼ばれる）は、既に符号化されたビデオピクチャからの再構成ピクセルを使用して、現在のビデオブロックを予測する。時間的予測は、ビデオ信号に固有の時間的冗長性を低減する。所与の符号化ユニット（ＣＵ）または符号化ブロックの時間予測信号は、通常、現在のＣＵとその時間基準との間の動きの量および方向を示す１つまたは複数のＭＶによってシグナリングされる。さらに、複数の参照ピクチャがサポートされる場合、１つの参照ピクチャインデックスがさらに送信され、参照ピクチャインデックスは、参照ピクチャストレージ内のどの参照ピクチャから時間予測信号が来るかを識別するために使用される。

動き推定１１４は、ビデオ入力１１０およびピクチャバッファ１２０からの信号を取り込み、動き推定信号である動き補償１１２に出力する。動き補償１１２はビデオ入力１１０、ピクチャバッファ１２０からの信号、および動き推定１１４からの動き推定信号を取り込み、動き補償信号であるイントラモード／インターモード決定１１６に出力する。

空間的および／または時間的予測が実行された後、エンコーダ１００内のイントラ／インターモード決定１１６は例えば、レート歪み最適化法に基づいて、最良の予測モードを選択する。次いで、ブロック予測子１４０は現在のビデオブロックから減算され、結果と
して生じる予測残差は変換１３０および量子化１３２を使用して相関解除される。得られた量子化残差係数は逆量子化１３４によって逆量子化され、逆変換１３６によって逆変換されて再構成された残差を形成し、次いで、予測ブロックに加算されて、ＣＵの再構成された信号を形成する。デブロッキングフィルタ、ＳＡＯ（ｓａｍｐｌｅａｄａｐｔｉｖｅｏｆｆｓｅｔ）、および／またはＡＬＦ（ａｄａｐｔｉｖｅｉｎ－ｌｏｏｐｆｉｌｔｅｒ）などのさらなるインループフィルタリング１２２を、再構成されたＣＵがピクチャバッファ１２０の参照ピクチャストレージに入れられ、将来のビデオブロックを符号化するために使用される前に、再構成されたＣＵに適用することができる。出力ビデオビットストリーム１４４を形成するために、符号化モード（インターまたはイントラ）、予測モード情報、動き情報、および量子化された残差係数はすべて、エントロピー符号化ユニット１３８に送られ、さらに圧縮され、パックされてビットストリームを形成する。

図１は、一般的なブロックベースのハイブリッドビデオ符号化システムのブロック図を示す。入力ビデオ信号は、ブロック毎に処理される（符号化ユニット（ＣＵ）と呼ばれる）。ＶＴＭ－１．０では、ＣＵは１２８×１２８ピクセルまでであることができる。しかしながら、４分木のみに基づいてブロックを分割するＨＥＶＣとは異なり、ＶＶＣでは、１つの符号化ツリーユニット（ＣＴＵ）が４分木／２分木／３分木に基づいて変化するローカル特性に適応するようにＣＵに分割される。さらに、ＨＥＶＣにおける多重分割ユニットタイプの概念は除去され、すなわち、ＣＵ、予測ユニット（ＰＵ）および変換ユニット（ＴＵ）の分離はもはやＶＶＣには存在せず、代わりに、各ＣＵは、さらなる分割なしで、予測および変換の両方のための基本ユニットとして常に使用される。マルチタイプツリー構造では、まず、１つのＣＴＵを４分木構造で分割する。次に、各４分木リーフノードは、２分木構造および３分木構造によってさらに分割することができる。

図３Ａ、図３Ｂ、図３Ｃ、図３Ｄ、および図３Ｅに示すように、５つの分割タイプ、すなわち、４分割、水平２分割、垂直２分割、水平３分割、および垂直３分割がある。

図３Ａは、本開示による、マルチタイプツリー構造におけるブロック４分割を示す図である。

図３Ｂは、本開示による、マルチタイプツリー構造におけるブロック垂直２分割を示す図である。

図３Ｃは、本開示による、マルチタイプツリー構造におけるブロック水平２分割を示す図である。

図３Ｄは、本開示による、マルチタイプツリー構造におけるブロック垂直３分割を示す図である。

図３Ｅは、本開示による、マルチタイプツリー構造におけるブロック水平３分割を示す図である。

図１では、空間予測および／または時間的予測を行ってもよい。空間予測（または「イントラ予測」）は現在のビデオブロックを予測するために、同じビデオピクチャ／スライス内の既に符号化された隣接ブロック（参照サンプルと呼ばれる）のサンプルからのピクセルを使用する。空間予測は、ビデオ信号に固有の空間冗長性を低減する。時間的予測（「インター予測」または「動き補償予測」とも呼ばれる）は、既に符号化されたビデオピクチャからの再構成されたピクセルを使用して、現在のビデオブロックを予測する。時間的予測は、ビデオ信号に固有の時間的冗長性を低減する。所与のＣＵについての時間予測信号は、通常、現在のＣＵとその時間基準との間の動きの量および方向を示す１つまたは
複数の動きベクトル（ＭＶ）によってシグナリングされる。また、複数の参照ピクチャがサポートされている場合、１つの参照ピクチャインデックスがさらに送信され、参照ピクチャインデックスは、参照ピクチャストア内のどの参照ピクチャから時間予測信号が来るかを識別するために使用される。空間的および／または時間的予測の後、エンコーダ内のモード決定ブロックは例えば、レート歪み最適化法に基づいて、最良の予測モードを選択する。次いで、予測ブロックは現在のビデオブロックから減算され、予測残差は変換を用いて相関解除され、量子化される。量子化残差係数を逆量子化し、逆変換して再構成残差を形成し、それを予測ブロックに再加算してＣＵの再構成信号を形成する。デブロッキングフィルタ、ＳＡＯ（ｓａｍｐｌｅａｄａｐｔｉｖｅｏｆｆｓｅｔ）およびＡＬＦ（ａｄａｐｔｉｖｅｉｎ－ｌｏｏｐｆｉｌｔｅｒ）などのさらなるインループフィルタリングを、再構成されたＣＵが参照ピクチャストアに入れられ、将来のビデオブロックを符号化するために使用される前に、再構成されたＣＵに適用することができる。出力ビデオビットストリームを形成するために、符号化モード（インターまたはイントラ）、予測モード情報、動き情報、および量子化された残差係数はすべて、エントロピー符号化ユニットに送られ、さらに圧縮され、パックされてビットストリームを形成する。

図２は、ＶＶＣ用のビデオデコーダの一般的なブロック図を示す。具体的には、図２は典型的なデコーダ２００のブロック図を示す。デコーダ２００は、ビットストリーム２１０、エントロピー復号化２１２、逆量子化２１４、逆変換２１６、加算器２１８、イントラ／インターモード選択２２０、イントラ予測２２２、メモリ２３０、インループフィルタ２２８、動き補償２２４、ピクチャバッファ２２６、予測関連情報２３４、およびビデオ出力２３２を有する。

デコーダ２００は、図１のエンコーダ１００内に存在する再構成関連部分に類似している。デコーダ２００において、入力ビデオビットストリーム２１０は量子化された係数レベルおよび予測関連情報を導出するために、エントロピー復号化２１２を介して最初に復号化される。次いで、量子化された係数レベルは、逆量子化２１４および逆変換２１６を介して処理され、再構成された予測残差を得る。イントラ／インターモードセレクタ２２０で実施されるブロック予測機構は、復号化された予測情報に基づいて、イントラ予測２２２または動き補償２２４のいずれかを実行するように構成される。逆変換２１６からの再構成予測残差とブロック予測機構により生成された予測出力とを加算器２１８を用いて合計することにより、フィルタ処理されない再構成ピクセルの集合が得られる。

再構成されたブロックは参照ピクチャストアとして機能するピクチャバッファ２２６に格納される前に、インループフィルタ２２８をさらに通過することができる。ピクチャバッファ２２６内の再構成されたビデオは、将来のビデオブロックを予測するために使用されるだけでなく、ディスプレイデバイスを駆動するために送信されてもよい。インループフィルタ２２８がオンになっている状況では、最終的な再構成ビデオ出力２３２を導出するために、これらの再構成ピクセルに対してフィルタリング操作が行われる。

図２は、ブロックベースのビデオデコーダの一般的なブロック図を与える。ビデオビットストリームは、最初にエントロピー復号化ユニットでエントロピー復号化される。符号化モードおよび予測情報は予測ブロックを形成するために、空間予測ユニット（イントラ符号化されている場合）または時間予測ユニット（インター符号化されている場合）のいずれかに送られる。残差変換係数は逆量子化ユニットと逆変換ユニットに送られ、残差ブロックを再構成する。次に、予測ブロックと残差ブロックとが加算される。再構成されたブロックは参照ピクチャストアに格納される前に、インループフィルタリングをさらに経ることができる。次に、参照ピクチャストア内の再構成されたビデオは、ディスプレイデバイスを駆動するために送出され、将来のビデオブロックを予測するために使用される。

一般に、ＶＶＣに適用される基本的なインター予測技法は、いくつかのモジュールがさらに拡張および／または強化されることを除いて、ＨＥＶＣと同じに保たれる。特に、全ての先行するビデオ規格について、１つの符号化ブロックは、符号化ブロックが単一予測される場合には１つの単一ＭＶにのみ関連付けられ、符号化ブロックがバイ予測される場合には２つのＭＶに関連付けられる。従来のブロックベース動き補償のこのような制限のために、小さな動きは、動き補償後もなお予測サンプル内にとどまることができ、従って、動き補償の全体効率に負の影響を与える。ＭＶの粒度とリファインメントの両方を改善するために、オプティカルフローに基づく２つのサンプルワイズリファインメント法、即ち、アフィンモードに対するＢＤＯＦ（ｂｉ－ｄｉｒｅｃｔｉｏｎａｌｏｐｔｉｃａｌ
ｆｌｏｗ）とＰＲＯＦ（ｐｒｅｄｉｃｔｉｏｎｒｅｆｉｎｅｍｅｎｔｗｉｔｈｏｐｔｉｃａｌｆｌｏｗ）を、現在、ＶＶＣ規格に対して検討している。以下では、２つのインター符号化ツールの主な技術的側面を簡単に検討する。

双方向オプティカルフロー
ＶＶＣでは、双方向オプティカルフロー（ＢＤＯＦ）を、バイ予測符号化ブロックの予測サンプルをリファインするために適用した。具体的には図４に示すように、ＢＤＯＦはバイ予測が使用されるときにブロックベースの動き補償予測のトップで実行される、サンプルワイズの動きリファインメントである。

図４は、本開示によるＢＤＯＦモデルの図を示す。

各４×４サブブロックの動きリファインメント（ｖ_ｘ，ｖ_ｙ）は、ＢＤＯＦがサブブロックの周りの１つの６×６ウィンドウΩ内で適用された後、Ｌ０予測サンプルとＬ１予測サンプルとの間の差を最小化することによって計算される。具体的には（ｖ_ｘ，ｖ_ｙ）の値は以下のように導出される。

Ｌ字および左右反転したＬ字は、フロア関数である。ｃｌｉｐ３（ｍｉｎ、ｍａｘ、ｘ）は［ｍｉｎ、ｍａｘ］の範囲内の所与の値ｘをクリッピングする関数である。記号＞＞はビットごとの右シフト演算を表し、記号＜＜はビットごとの左シフト演算を表す。ｔｈ_ＢＤＯＦは、不規則な局所的動きによる伝播エラーを防止するための動きリファインメント閾値であり、１＜＜＜ｍａｘ（５、ｂｉｔ－ｄｅｐｔｈ－７）に等しく、ｂｉｔ－ｄｅｐｔｈは、内部ビット深度である。（１）では、以下の通りである。

Ｓ_１，Ｓ_２，Ｓ_３，Ｓ_５，Ｓ_６は以下のように算出される。

ここで、

Ｉ^（ｋ）（ｉ，ｊ）は、リストｋ、ｋ＝０，１の予測信号の座標（ｉ，ｊ）でのサンプル値であり、中レベルの高精度（すなわち、１６ビット）で生成される。∂Ｉ^（ｋ）（ｉ，ｊ）／∂ｘおよび∂Ｉ^（ｋ）（ｉ，ｊ）／∂ｙは、その２つの隣接するサンプル間の差を直接計算することによって得られるサンプルの水平勾配および垂直勾配である。

（１）で導出した動きリファインメントに基づいて、ＣＵの最終バイ予測サンプルは次のように、オプティカルフローモデルに基づいて動き軌道に沿ってＬ０／Ｌ１予測サンプルを補間することによって計算される。

ｓｈｉｆｔおよびο_{ｏｆｆｓｅｔ}は、それぞれ１５－ｂｉｔｄｅｐｔｈおよび１＜＜（１４－ｂｉｔｄｅｐｔｈ）＋２・（１＜＜１３）に等しい、バイ予測のためにＬ０およびＬ１予測信号を結合するために適用される右シフト値およびオフセット値である。上記のビット深度制御方法に基づいて、全ＢＤＯＦプロセスの中間パラメータの最大ビット深度が３２ビットを超えず、乗算への最大入力が１５ビット以内であること、すなわち、１つの１５ビット乗算器がＢＤＯＦ実施に十分であることが保証される。

アフィンモード
ＨＥＶＣでは、動き補償予測のために並進動きモデルのみを適用される。一方、現実世界では、ズームイン／ズームアウト、回転、パースペクティブモーション、および他の不規則な動きなど、多くの種類の動きがある。ＶＶＣでは、アフィン動き補償予測が各インター符号化ブロックに対して１つのフラグをシグナリングすることによって適用され、並進動きモデルまたはアフィン動きモデルがインター予測に適用されるかどうかを示す。現在のＶＶＣ設計では、４パラメータアフィンモードおよび６パラメータアフィンモードを含む２つのアフィンモードが１つのアフィン符号化ブロックに対してサポートされる。

４パラメータアフィンモデルは以下のパラメータ、すなわち、それぞれ水平方向および垂直方向の並進動きのための２つのパラメータと、ズーム動きのための１つのパラメータと、両方向の回転動きのための１つのパラメータとを有する。水平ズームパラメータは、垂直ズームパラメータと同じである。水平回転パラメータは、垂直回転パラメータと等しくなる。動きベクトルおよびアフィンパラメータのより良好な適応を達成するために、ＶＶＣにおいて、これらのアフィンパラメータは、現在のブロックの左上隅および右上隅に位置する２つのＭＶ（制御点動きベクトル（ＣＰＭＶ）とも呼ばれる）に変換される。図５Ａおよび図５Ｂに示すように、ブロックのアフィンモーションフィールドは、２つの制御点ＭＶ（Ｖ_０、Ｖ_１）によって記述される。

図５Ａは、本開示による、４パラメータアフィンモデルの図を示す。

図５Ｂは、本開示による４パラメータアフィンモデルの図を示す。

制御点動きに基づいて、１つのアフィン符号化ブロックのモーションフィールド（ｖ_ｘ，ｖ_ｙ）を以下のように記述する。

６パラメータアフィンモードは、それぞれ水平および垂直方向の並進動きのための２つのパラメータ、ズーム動きのための１つのパラメータおよび水平方向の回転動きのための１つのパラメータ、ズーム動きのための１つのパラメータおよび垂直方向の回転動きのための１つのパラメータを有する。６パラメータアフィン動きモデルは、３つのＣＰＭＶで３つのＭＶで符号化される。

図６は、本開示による６パラメータアフィンモデルの図を示す。

図６に示すように、１つの６パラメータアフィンブロックの３つの制御点は、ブロックの左上、右上、左下隅に位置する。左上の制御点での動きは並進移動動きに関連し、右上の制御点での動きは水平方向の回転とズーム動きに関連し、左下の制御点での動きは垂直方向の回転とズーム動きに関連する。４パラメータアフィンモーションモデルと比較して、６パラメータの水平方向の回転とズーム動きは、垂直方向の動きと同じでないことがある。（Ｖ_０、Ｖ_１、Ｖ_２）を図６の現在のブロックの左上隅、右上隅、左下隅のＭＶであると仮定すると、それぞれのサブブロックの動きベクトル（ｖ_ｘ，ｖ_ｙ）は、以下のように制御点で３つのＭＶを用いて導出される。

アフィンモードのオプティカルフローによる予測リファインメント（ＰＲＯＦ）
アフィン動き補償精度を改善するために、ＰＲＯＦは、現在、オプティカルフローモデルに基づいてサブブロックベースのアフィン動き補償をリファインする現行ＶＶＣで検討されている。具体的には、サブブロックベースのアフィン動き補償を行った後、一つのアフィンブロックの輝度予測サンプルを、オプティカルフロー方程式に基づいて導出された一つのサンプルリファインメント値によって修正する。詳細には、ＰＲＯＦの動作が以下の４つのステップとして要約することができる。

ステップ１：サブブロックベースのアフィン動き補償は、４パラメータアフィンモデルについて（６）で、および６パラメータアフィンモデルについて（７）で導出されるようなサブブロックＭＶを使用してサブブロック予測Ｉ（ｉ，ｊ）を生成するために実行される。

ステップ２：空間勾配ｇ_ｘ（ｉ，ｊ）およびｇ_ｙ（ｉ，ｊ）および各予測サンプルの値は、以下のように計算される。

勾配を計算するために、予測サンプルの１つの追加の行／列が、１つのサブブロックの各サイドで生成される必要がある。メモリ帯域幅および複雑さを低減するために、拡張境界上のサンプルは追加の補間プロセスを回避するために、参照ピクチャ内の最も近い整数ピクセル位置からコピーされる。

ステップ３：輝度予測リファインメント値は、以下によって計算される。

△ｖ（ｉ，ｊ）は、サンプル位置（ｉ，ｊ）に対して計算され、ｖ（ｉ，ｊ）によって表されるピクセルＭＶと、ピクセル（ｉ，ｊ）が位置するサブブロックのサブブロックＭＶとの間の差である。さらに、現在のＰＲＯＦ設計では、予測リファインメントをオリジナル予測サンプルに追加した後、リファインされた予測サンプルの値を１５ビット以内にクリッピングするために、１つのクリッピング動作が実行される。すなわち、以下の通りである。

Ｉ（ｉ，ｊ）およびＩ^ｒ（ｉ，ｊ）は、それぞれ、位置（ｉ，ｊ）におけるオリジナル予測サンプルおよびリファインされた予測サンプルである。

図７は、本開示による、アフィンモードのためのＰＲＯＦプロセスを示す。

アフィンモデルパラメータとサブブロック中心に対するピクセル位置はサブブロックごとに変わらないので、△ｖ（ｉ，ｊ）は、最初のサブブロックに対して計算でき、同じＣＵ内の他のサブブロックに対して再利用できる。サンプル位置（ｉ，ｊ）からサンプルが属するサブブロックの中心までの水平および垂直オフセットを△ｘおよび△ｙとすると、△ｖ（ｉ，ｊ）を以下のように導出することができる。

アフィンサブブロックＭＶ導出方程式（６）および（７）に基づいて、ＭＶ差△ｖ（ｉ，ｊ）を導出することができる。具体的には、４パラメータアフィンモデルでは以下の通りである。

６パラメータアフィンモデルでは、以下の通りである。

（ｖ_０ｘ，ｖ_０ｙ），（ｖ_１ｘ，ｖ_１ｙ），（ｖ_２ｘ，ｖ_２ｙ）は現在の符号化ブロックの左上、右上、および左下の制御点ＭＶであり、ｗおよびｈはブロックの幅および高さである。既存のＰＲＯＦ設計では、ＭＶ差△ｖ_ｘおよび△ｖ_ｙは常に１／３２‐ｐｅｌの精度で導出される。

局所照明補償
局所照明補償（ＬＩＣ）は、時間的に隣接するピクチャ間に存在する局所照明変化の問題に対処するために使用される符号化ツールである。１対の重みおよびオフセットパラメータが参照サンプルに適用されて、１つの現在のブロックの予測サンプルが得られる。一般的な数学モデルは以下のように与えられる。

Ｐ_ｒ［ｘ＋ｖ］は動きベクトルｖによって示される参照ブロックで、［α，β］は参照ブロックの対応する重みとオフセットパラメータの対であり、Ｐ［ｘ］は最終予測ブロックである。重みおよびオフセットパラメータの対は現在のブロックのテンプレート（すなわち、隣接する再構成されたサンプル）およびテンプレートの参照ブロック（現在のブロックの動きベクトルを使用して導出される）に基づいて、ＬＬＭＳＥ（ｌｅａｓｔｌｉｎｅａｒｍｅａｎｓｑｕａｒｅｅｒｒｏｒ）アルゴリズムを使用して推定される。テンプレートサンプルとテンプレートの参照サンプルとの間の平均二乗差を最小化することによって、αおよびβの数学的表現は、以下のように導出することができる。

Ｉはテンプレート中のサンプルの数を表す。Ｐ_ｃ［ｘ_ｉ］は現在のブロックのテンプレートのｉ番目のサンプルであり、Ｐ_ｒ［ｘ_ｉ］は動きベクトルｖに基づくｉ番目のテンプレートサンプルの参照サンプルである。

各予測方向（Ｌ０またはＬ１）に対して多くとも１つの動きベクトルを含む通常のインターブロックに適用されることに加えて、ＬＩＣは、１つの符号化ブロックが複数のより小さいサブブロックにさらに分割され、各サブブロックが異なる動き情報に関連付けられ得るアフィンモード符号化ブロックにも適用される。アフィンモード符号化ブロックのＬ
ＩＣのための参照サンプルを導出するために、図１６Ａおよび１６Ｂ（後述）に示すように、１つのアフィン符号化ブロックの最上位テンプレートの参照サンプルは最上位サブブロック行の各サブブロックの動きベクトルを使用してフェッチされ、一方、左側テンプレートの参照サンプルは左側サブブロック列のサブブロックの動きベクトルを使用してフェッチされる。その後、（１２）と同様のＬＬＭＳＥ導出方法を適用して、合成テンプレートに基づいてＬＩＣパラメータを導出する。

図１６Ａは、本開示による、アフィンモードのためのテンプレートサンプルを導出するための図を示す。図は、ＣｕｒＦｒａｍｅ１６２０およびＣｕｒＣＵ１６２２を含む。ＣｕｒＦｒａｍｅ１６２０は、現在のフレームである。ＣｕｒＣＵ１６２２は、現在の符号化ユニットである。

図１６Ｂは、アフィンモードのためのテンプレートサンプルを導出するための図を示す。図は、ＲｅｆＦｒａｍｅ１６４０、ＣｏｌＣＵ１６４２、ＡＲｅｆ１６４３、Ｂ
Ｒｅｆ１６４４、ＣＲｅｆ１６４５、ＤＲｅｆ１６４６、ＥＲｅｆ１６４７、Ｆ
Ｒｅｆ１６４８、およびＧＲｅｆ１６４９を含む。ＲｅｆＦｒａｍｅ１６４０は参照フレームである。ＣｏｌＣＵ１６４２は、並置された符号化ユニットである。ＡＲｅｆ１６４３、ＢＲｅｆ１６４４、ＣＲｅｆ１６４５、ＤＲｅｆ１６４６、ＥＲｅｆ１６４７、ＦＲｅｆ１６４８、ＧＲｅｆ１６４９は参照サンプルである。

アフィンモードに対するオプティカルフローによる予測リファインメントの非効率性
ＰＲＯＦはアフィンモードの符号化効率を高めることができるが、その設計はまだ更に改善できる。特に、ＰＲＯＦおよびＢＤＯＦの両方がオプティカルフローコンセプトに基づいて構築されることを考えると、ＰＲＯＦがハードウェアの実装を容易にするためにＢＤＯＦの現存するロジックを最大限に活用できるように、ＰＲＯＦおよびＢＤＯＦの設計をできるだけ調和させることが極めて望ましい。このような考察に基づいて、現在のＰＲＯＦ設計とＢＤＯＦ設計との間のインタラクションに関する以下の非効率性が、本開示で識別される。

１．「アフィンモードのオプティカルフローによる予測リファインメント」で説明したように、式（８）において、勾配の精度は内部ビット深度に基づいて決定される。一方、ＭＶ差、すなわち、△ｖ_ｘおよび△ｖ_ｙは、常に１／３２－ｐｅｌの精度で導出される。これに対応して、式（９）に基づいて、導出されたＰＲＯＦリファインメントの精度は内部ビット深度に依存する。しかしながら、ＢＤＯＦと同様に、ＰＲＯＦはより高いＰＲＯＦ導出精度を維持するために、中レベルの高ビット深度（すなわち、１６ビット）で予測サンプル値の上に適用される。したがって、内部符号化ビット深度にかかわらず、ＰＲＯＦによって導出される予測リファインメントの精度は中間予測サンプル、すなわち１６ビットの精度と一致しなければならない。言い換えると、既存のＰＲＯＦ設計におけるＭＶ差分と勾配の表現ビット深度は予測サンプル精度（すなわち１６ビット）と比較して正確な予測リファインメントを導出するために完全に整合していない。一方、式（１）、（４）および（８）の比較に基づいて、既存のＰＲＯＦおよびＢＤＯＦはサンプル勾配およびＭＶ差を表すために異なる精度を使用する。先に指摘したように、このような統一されていない設計は既存のＢＤＯＦロジックを再使用することができないので、ハードウェアにとって望ましくない。

２．「アフィンモードのオプティカルフローによる予測リファインメント」の項で検討したように、一つのカレントアフィンブロックがバイ予測されるとき、ＰＲＯＦをリストＬ０およびＬ１の予測サンプルに別々に適用し、それから、強化されたＬ０およびＬ１予測信号を平均化して最終バイ予測信号を生成する。反対に、各予測方向に対するＰＲＯＦリファインメントを別々に導出する代わりに、ＢＤＯＦは予測リファインメントを一旦導出
し、それは次に、結合Ｌ０およびＬ１予測信号を強化するために適用される。図８および図９（後述）はバイ予測のための現在のＢＤＯＦおよびＰＲＯＦのワークフローを比較する。実際のコーデックハードウェアパイプライン設計では通常、より多くの符号化ブロックを並列に処理できるように、異なる主要な符号化／復号化モジュールを各パイプラインステージに割り当てる。しかしながら、ＢＤＯＦワークフローとＰＲＯＦワークフローとの間の差異のために、ＢＤＯＦとＰＲＯＦとによって共有されることができる１つの同じパイプライン設計を有することを困難にする可能性があり、これは実用的なコーデック実装には不利である。

図８は本開示によるＢＤＯＦのワークフローを示す。ワークフロー８００がＬ０動き補償８１０、Ｌ１動き補償８２０、およびＢＤＯＦ８３０を含む。Ｌ０動き補償８１０は例えば、前の参照ピクチャからの動き補償サンプルのリストであり得る。前の参照ピクチャはビデオブロック内の現在のピクチャから前の参照ピクチャである。例えば、Ｌ１動き補償８２０は次の参照ピクチャからの動き補償サンプルのリストとすることができる。次の参照ピクチャがビデオブロック内の現在のピクチャの後の参照ピクチャである。ＢＤＯＦ８３０が図４に関して上述したように、Ｌ１動き補償８１０およびＬ１動き補償８２０から動き補償サンプルを取り込み、予測サンプルを出力する。

図９は本開示による既存のＰＲＯＦのワークフローを示す。ワークフロー９００がＬ０動き補償９１０、Ｌ１動き補償９２０、Ｌ０ＰＲＯＦ９３０、Ｌ１ＰＲＯＦ９４０、および平均化９６０を含む。Ｌ０動き補償９１０は例えば、前の参照ピクチャからの動き補償サンプルのリストであり得る。前の参照ピクチャはビデオブロック内の現在のピクチャから前の参照ピクチャである。例えば、Ｌ１動き補償９２０は次の参照ピクチャからの動き補償サンプルのリストとすることができる。次の参照ピクチャがビデオブロック内の現在のピクチャの後の参照ピクチャである。Ｌ０ＰＲＯＦ９３０が前述の図７に関して説明したように、Ｌ０動き補償９１０からＬ０動き補償サンプルを取り込み、動きリファインメント値を出力する。Ｌ１ＰＲＯＦ９４０は上述の図７に関して説明したように、Ｌ１動き補償９２０からＬ１動き補償サンプルを取り込み、動きリファインメント値を出力する。平均化９６０はＬ０ＰＲＯＦ９３０およびＬ１ＰＲＯＦ９４０の動きリファインメント値出力を平均化する。

３．ＢＤＯＦおよびＰＲＯＦの両方について、勾配は現在の符号化ブロック内の各サンプルについて計算される必要があり、これはブロックの各サイドで予測サンプルの１つの追加の行／列を生成することを必要とする。サンプル補間の付加的な計算の複雑さを回避するために、ブロックの周りの拡張領域内の予測サンプルは整数位置で（すなわち、補間なしで）参照サンプルから直接コピーされる。しかし、既存の設計ではＢＤＯＦとＰＲＯＦの勾配値を生成するために、異なる位置の整数サンプルが選択されている。具体的にはＢＤＯＦでは予測サンプルの左側（水平勾配の場合）および予測サンプルの上側（垂直勾配の場合）に位置する整数参照サンプルが使用され、ＰＲＯＦでは予測サンプルに最も近い整数参照サンプルが勾配計算に使用される。ビット深度表現問題と同様に、このような統一されていない勾配計算方法はハードウェアコーデックの実装にとっても望ましくない。

４．先に指摘したように、ＰＲＯＦの動機は、各サンプルのＭＶと、サンプルが属するサブブロックの中心で導出されるサブブロックＭＶとの間の小さなＭＶ差を補償することである。現在のＰＲＯＦ設計によれば、ＰＲＯＦは、１つの符号化ブロックがアフィンモードによって予測されるときに常に呼び出される。しかしながら、式（６）および（７）に示すように、１つのアフィンブロックのサブブロックＭＶは、制御点ＭＶから導出される。したがって、制御点ＭＶ間の差が比較的小さい場合、各サンプル位置におけるＭＶは一貫しているべきである。そのような場合、ＰＲＯＦを適用する利点は非常に限定される可能性があるので、性能／複雑さのトレードオフを考慮すると、ＰＲＯＦを行う価値がない
場合がある。

アフィンモードに対するオプティカルフローによる予測リファインメントの改良
本開示では、ハードウェアコーデック実装を容易にするために、既存のＰＲＯＦ設計を改善し、単純化するための方法が提供される。特に、既存のＢＤＯＦロジックをＰＲＯＦと最大限に共有するために、ＢＤＯＦとＰＲＯＦの設計を調和させることに特に注意する。一般に、本開示で提案される技術の主な態様を以下に要約する。

１．１つ以上の統一設計を達成しながらＰＲＯＦの符号化効率を改善するために、ＢＤＯＦおよびＰＲＯＦによって使用されるサンプル勾配とＭＶ差の表現ビット深さを統一する１つの方法を提案する。

２．ハードウェアパイプライン設計を容易にするために、バイ予測のためにＰＲＯＦのワークフローをＢＤＯＦのワークフローと調和させることが提案される。具体的にはＬ０およびＬ１に対して別々に予測リファインメントを導出する既存のＰＲＯＦとは異なり、提案した方法はＬ０およびＬ１の組み合わせ予測信号に適用される予測リファインメントを一旦導出する。

３．ＢＤＯＦおよびＰＲＯＦによって使用される勾配値を計算するために、整数参照サンプルの導出を調和させる２つの方法を提案する。

４．計算量を減らすために、ある条件が満たされたときにアフィン符号化ブロックのためのＰＲＯＦプロセスを適応的に無効にする早期終了法を提案する。

ＰＲＯＦ勾配とＭＶ差のビット深度表現設計の改善
「問題記述」の項で分析したように、ＭＶ差の表現ビット深度と現在のＰＲＯＦ内のサンプル勾配は、正確な予測リファインメントを導き出すために整列されない。さらに、サンプル勾配の表現ビット深度およびＭＶ差はＢＤＯＦとＰＲＯＦとの間で一貫性がなく、これはハードウェアにとって不利である。本節ではＢＤＯＦのビット深度表現法をＰＲＯＦに拡張することにより、１つの改良型ビット深度表現法を提案する。具体的には提案する方法では各サンプル位置における水平および垂直勾配を以下のように計算する。

加えて、１つのサンプル位置からサンプルが属するサブブロックの中心までの１／４－ペル精度で表される水平および垂直オフセット△ｘおよび△ｙであると仮定すると、サンプル位置での対応するＰＲＯＦＭＶ差△ｖ（ｘ，ｙ）は以下のように導出される。

ｄＭｖＢｉｔｓは、ＢＤＯＦプロセスによって使用される勾配値のビット深度であり、ｄＭｖＢｉｔｓ＝ｍａｘ（５，（ｂｉｔ－ｄｅｐｔｈ－７））＋１である。式（１３）および（１４）において、ｃ、ｄ、ｅ、およびｆは、アフィン制御点ＭＶに基づいて導出されるアフィンパラメータである。具体的には、４パラメータアフィンモデルでは以下の通りである。

６パラメータアフィンモデルでは、以下の通りである。

（ｖ_０ｘ，ｖ_０ｙ）（ｖ_１ｘ，ｖ_１ｙ）（ｖ_２ｘ，ｖ_２ｙ）は、１／１６－ｐｅｌ精度で表される現在の符号化ブロックの左上、右上、および左下の制御点ＭＶであり、ｗおよびｈは、ブロックの幅および高さである。

上記の説明では、式（１３）および（１４）に示すように、一対の固定右シフトを適用して、勾配およびＭＶ差の値を計算する。実際には、（１３）および（１４）に異なるビットごとの右シフトを適用して、中間の計算精度と内部ＰＲＯＦ導出プロセスのビット幅との間の異なるトレードオフのために、勾配およびＭＶ差の様々な表現精度を達成することができる。例えば、入力ビデオが多くのノイズを含む場合、導出された勾配は、各サンプルにおける真の局所的な水平／垂直勾配値を表すのに信頼できないことがある。このような場合、勾配よりも多くのビットを使用してＭＶ差を表現する方が意味がある。一方、入力ビデオが定常的な動きを示す場合、アフィンモデルによって導出されるＭＶ差は非常に小さくなければならない。そうであれば、高精度ＭＶ差を使用することで、導出されたＰＲＯＦリファインメントの精度を上げるための追加の有益性を得ることはできない。言い換えると、このような場合、勾配値を表すためにより多くのビットを使用する方が有益である。上記の考察に基づいて、本開示の一実施形態ではＰＲＯＦの勾配およびＭＶ差を計算するために、以下で提案される１つの一般的な方法、具体的には各サンプル位置における水平勾配および垂直勾配を仮定することは隣接する予測サンプルの差にｎ_ａ右シフトを適用することによって計算される。

サンプル位置における対応するＰＲＯＦＭＶ差△ｖ（ｘ，ｙ）は、以下のように計算されるべきである。

△ｘおよび△ｙは、１つのサンプル位置からサンプルが属するサブブロックの中心までの
１／４－ｐｅｌ精度で表される水平および垂直オフセットであり、ｃ、ｄ、ｅ、およびｆは、１／１６－ｐｅｌアフィン制御点ＭＶに基づいて導出されるアフィンパラメータである。最後に、サンプルの最終的なＰＲＯＦリファインメントは、以下のように計算される。

本開示の別の実施形態では、別のＰＲＯＦビット深度制御方法が以下のように提案される。この方法では、各サンプル位置における水平勾配および垂直勾配が隣接する予測サンプルの差分値に右シフトのｎ_ａビットを適用することによって、（１８）のように依然として計算される。サンプル位置における対応するＰＲＯＦＭＶ差△ｖ（ｘ，ｙ）は、以下のように計算されるべきである。

さらに、ＰＲＯＦ導出全体を適切な内部ビット深度に保つために、クリッピングが、以下のように導出されたＭＶ差に適用される。

ｌｉｍｉｔは２のｎ_ｂ乗に等しい閾値であり、ｃｌｉｐ３（ｍｉｎ、ｍａｘ、ｘ）は［ｍｉｎ、ｍａｘ］の範囲内の所与の値ｘをクリッピングする関数である。一例ではｎ_ｂの値は２^{ｍａｘ（５，ｂｉｔｄｅｐｔｈ－７）}であるように設定される。最後に、サンプルのＰＲＯＦリファインメントは、以下のように計算される。

バイ予測のためのＰＲＯＦおよびＢＤＯＦの統合ワークフロー
上述したように、１つのアフィン符号化ブロックがバイ予測される場合、現在のＰＲＯＦは一方向に適用される。より具体的には、ＰＲＯＦサンプルリファインメントが別々に導出され、リストＬ０およびＬ１内の予測サンプルに適用される。その後、リストＬ０およびＬ１からそれぞれリファインされた予測信号が平均化され、ブロックの最終バイ予測信号が生成される。これは、サンプルリファインメントが導出され、バイ予測信号に適用されるＢＤＯＦ設計とは対照的である。ＢＤＯＦとＰＲＯＦのバイ予測ワークフロー間のこのような差は、実用的なコーデックパイプライン設計には不利であり得る。

ハードウェアパイプライン設計を容易にするために、本開示による１つの単純化方法は２つの予測リファインメント方法のワークフローが調和されるように、ＰＲＯＦのバイ予測プロセスを修正することである。具体的には、各予測方向に対するリファインメントを別々に適用する代わりに、提案したＰＲＯＦ法はリストＬ０およびＬ１の制御点ＭＶに基づいて、予測リファインメントを一旦導出する。次に、品質を強化するために、導出した予測リファインメントを、結合されたＬ０およびＬ１予測信号に適用する。具体的には、
式（１４）で導出したＭＶ差に基づいて、１つのアフィン符号化ブロックの最終バイ予測サンプルを、以下のように提案した方法によって計算する。

ｓｈｉｆｔおよびο_{ｏｆｆｓｅｔ}は、（１５－ｂｉｔ－ｄｅｐｔｈ）および１＜＜（１４－ｂｉｔ－ｄｅｐｔｈ）＋（２＜＜１３）に等しく、バイ予測のためのＬ０およびＬ１予測信号を結合するために適用される右シフト値およびオフセット値である。さらに、（１８）に示すように、既存のＰＲＯＦ設計におけるクリッピング動作（（９）に示すように）は、提案した方法で除去される。

図１２は、本開示による、提案されたバイ予測ＰＲＯＦ方法が適用される場合のＰＲＯＦプロセスの図を示す。ＰＲＯＦプロセス１２００は、Ｌ０動き補償１２１０、Ｌ１動き補償１２２０、およびバイ予測ＰＲＯＦ１２３０を含む。例えば、Ｌ０動き補償１２１０は、前の参照ピクチャからの動き補償サンプルのリストであり得る。前の参照ピクチャは、ビデオブロック内の現在のピクチャから前の参照ピクチャである。Ｌ１動き補償１２２０は例えば、次の参照ピクチャからの動き補償サンプルのリストとすることができる。次の参照ピクチャは、ビデオブロック内の現在のピクチャの後の参照ピクチャである。バイ予測ＰＲＯＦ１２３０は上述のように、Ｌ１動き補償１２１０およびＬ１動き補償１２２０から動き補償サンプルを取り込み、バイ予測サンプルを出力する。

図１２は、提案されたバイ予測ＰＲＯＦ法が適用された場合の対応するＰＲＯＦプロセスを示す。ＰＲＯＦプロセス１２００は、Ｌ０動き補償１２１０、Ｌ１動き補償１２２０、およびバイ予測ＰＲＯＦ１２３０を含む。例えば、Ｌ０動き補償１２１０は、前の参照ピクチャからの動き補償サンプルのリストであり得る。前の参照ピクチャは、ビデオブロック内の現在のピクチャから前の参照ピクチャである。Ｌ１動き補償１２２０は例えば、次の参照ピクチャからの動き補償サンプルのリストとすることができる。次の参照ピクチャは、ビデオブロック内の現在のピクチャの後の参照ピクチャである。バイ予測ＰＲＯＦ１２３０は上述のように、Ｌ１動き補償１２１０およびＬ１動き補償１２２０から動き補償サンプルを取り込み、バイ予測サンプルを出力する。

ハードウェアパイプライン設計のための提案した方法の潜在的な利益を実証するために、図１３は、ＢＤＯＦと提案したＰＲＯＦの両方が適用されるときのパイプラインステージを図示するための１つの例を示す。図１３において、１つのインターブロックの復号化処理は、主に３つのステップを含む。

１．符号化ブロックのＭＶを解析／復号化し、参照サンプルをフェッチする。
２．符号化ブロックのＬ０および／またはＬ１予測信号を生成する。
３．符号化ブロックが非アフィンモードによって予測される場合には、ＢＤＯＦに基づいて生成されたバイ予測サンプルのサンプルごとのリファインメントを実行し、符号化ブロックがアフィンモードによって予測される場合には、ＰＲＯＦに基づいて実行する。

図１３は、本開示による、ＢＤＯＦおよび提案されたＰＲＯＦの両方が適用される場合のパイプラインステージの例を示す。図１３は、ハードウェアパイプライン設計のための提案された方法の潜在的な利点を示す。パイプラインステージ１３００は、解析／復号化ＭＶおよびフェッチ参照サンプル１３１０、動き補償１３２０、ＢＤＯＦ／ＰＲＯＦ１３
３０を含む。パイプラインステージ１３００は、ビデオブロックＢＬＫ０、ＢＫＬ１、ＢＫＬ２、ＢＫＬ３、およびＢＬＫ４を符号化する。各ビデオブロックはＭＶの解析／復号化を開始し、参照サンプル１３１０をフェッチし、動き補償１３２０に移動し、次に動き補償１３２０、ＢＤＯＦ／ＰＲＯＦ１３３０に順次移動する。これは、ＢＬＫ０は、ＢＬＫ０が動き補償１３２０に移動するまで、パイプラインステージ１３００の処理を開始しないことを意味する。時間がＴ０からＴ１、Ｔ２、Ｔ３、およびＴ４になるにつれて、すべてのステージおよびビデオブロックについて同じである。

図１３において、１つのインターブロックの復号化処理は、主に３つのステップを含む。
第１に、符号化ブロックのＭＶを解析／復号化し、参照サンプルをフェッチする。
第２に、符号化ブロックのＬ０および／またはＬ１予測信号を生成する。
第３に、符号化ブロックが１つの非アフィンモードによって予測される場合には、ＢＤＯＦに基づいて生成されたバイ予測サンプルのサンプルワイズリファインメントを実行し、符号化ブロックがアフィンモードによって予測される場合にはＰＲＯＦに基づいて実行する。

図１３に示すように、提案された調和方法が適用された後、ＢＤＯＦとＰＲＯＦの両方がバイ予測サンプルに直接適用される。ＢＤＯＦおよびＰＲＯＦが異なるタイプの符号化ブロックに適用される（すなわち、ＢＤＯＦが非アフィンブロックに適用され、ＰＲＯＦがアフィンブロックに適用される）と仮定すると、２つの符号化ツールを同時に呼び出すことはできない。したがって、それらの対応する復号化処理は、同じパイプラインステージを共有することによって行うことができる。これはＢＤＯＦとＰＲＯＦの両方に同じパイプラインステージを割り当てることが困難である既存のＰＲＯＦ設計よりも効率的であり、これはそれらの異なるバイ予測のワークフローによる。

以上では、提案手法はＢＤＯＦとＰＲＯＦのワークフローの調和のみを考慮しているが、既存の設計では２つの符号化ツールの基本演算ユニットも異なるサイズで行われている。たとえば、ＢＤＯＦの場合、１つの符号化ブロックは、サイズがＷ_ｓ×Ｈ_ｓの複数のサブブロックに分割される。ここで、Ｗ_ｓ＝ｍｉｎ（Ｗ、１６）およびＨ_ｓ＝ｍｉｎ（Ｈ、１６）である。ここで、ＷおよびＨは符号化ブロックの幅と高さである。勾配計算およびサンプルリファインメント導出のようなＢＯＤＦ演算は、各サブブロックに対して独立して実行される。一方、前述したように、アフィン符号化ブロックは４×４のサブブロックに分割され、各サブブロックには、４パラメータまたは６パラメータアフィンモデルのいずれかに基づいて導出された１つの個々のＭＶが割り当てられる。ＰＲＯＦはアフィンブロックにのみ適用されるため、その基本演算ユニットは４×４サブブロックである。バイ予測ワークフロー問題と同様に、ＰＲＯＦのためにＢＤＯＦと異なる基本演算ユニットサイズを使用することも、ハードウェア実装にとって不都合であり、ＢＤＯＦおよびＰＲＯＦが復号化プロセス全体の同じパイプラインステージを共有することを困難にする。このような問題を解決するために、一実施形態では、アフィンモードのサブブロックサイズをＢＤＯＦのサブブロックサイズと同じにすることが提案される。

提案手法によれば、１つの符号化ブロックがアフィンモードによって符号化されると、それはＷ_ｓ×Ｈ_ｓのサイズをもつサブブロックに分割される。ここで、Ｗ_ｓ＝ｍｉｎ（Ｗ，１６）およびＨ_ｓ＝ｍｉｎ（Ｈ，１６）である。ここで、ＷおよびＨは符号化ブロックの幅および高さである。各サブブロックには、１つの個別のＭＶが割り当てられ、１つの独立したＰＲＯＦ演算ユニットとみなされる。独立したＰＲＯＦ演算ユニットは、その上のＰＲＯＦ動作が隣接するＰＲＯＦ演算ユニットからの情報を参照することなく実行されることを保証することに言及する価値がある。具体的には１つのサンプル位置におけるＰＲＯＦＭＶ差がサンプル位置におけるＭＶと、サンプルが位置するＰＲＯＦ演算ユニッ
トの中心におけるＭＶとの間の差として計算され、ＰＲＯＦ導出によって使用される勾配は各ＰＲＯＦ演算ユニットに沿ってサンプルをパディングすることによって計算される。

提案された方法の主張された利点は主に、以下の側面を含む。１）動き補償およびＢＤＯＦ／ＰＲＯＦ改良の両方のための統合基本演算ユニットサイズを有する簡略化されたパイプラインアーキテクチャ、２）アフィン動き補償のための拡大されたサブブロックサイズによるメモリ帯域幅使用の低減、３）分数サンプル補間のサンプル当たりの計算複雑さの低減。

提案した方法による計算量の削減（すなわち項目３））のために、アフィン符号化ブロックに対する既存の６タップ補間フィルタ制約を除去できることに言及すべきである。代わりに、非アフィン符号化ブロックのためのデフォルトの８タップ補間は、アフィン符号化ブロックのためにも使用される。この場合の全体的な計算量は、既存のＰＲＯＦ設計（６タップ補間フィルタを持つ４ｘ４サブブロックに基づく）と依然として有利に比較できる。

ＢＤＯＦおよびＰＲＯＦの勾配導出の調和
前述のように、ＢＤＯＦおよびＰＲＯＦの両方は、ブロックの各サイドの予測サンプルの１つの追加の行／列にアクセスする、現在の符号化ブロック内の各サンプルの勾配を計算する。追加の補間の複雑さを回避するために、ブロック境界の周りの拡張領域における必要な予測サンプルは、整数参照サンプルから直接コピーされる。しかし、「問題記述」の項で指摘したように、異なる位置の整数サンプルを使用して、ＢＤＯＦおよびＰＲＯＦの勾配値を計算する。

一様設計を達成するために、ＢＤＯＦおよびＰＲＯＦが用いる勾配導出法を統合するために、次の二つの方法を提案する。第１方法では、ＢＤＯＦと同じになるようにＰＲＯＦの勾配導出法を整列させることを提案する。具体的には、第１方法によって、拡張領域内の予測サンプルを生成するために使用される整数位置は分数サンプル位置をフロアダウンすることによって決定され、すなわち、選択された整数サンプル位置は分数サンプル位置（水平勾配の場合）の左に、かつ分数サンプル位置（垂直勾配の場合）の上に配置される。第２方法ではＢＤＯＦの勾配導出方法をＰＲＯＦと同じにすることが提案されており、より詳細には第２方法が適用される場合、予測サンプルに最も近い整数参照サンプルが勾配計算に使用される。

図１４は、本開示による、ＢＤＯＦの勾配導出方法を使用する例を示す。図１４において、白い円は整数位置における参照サンプルを表し、三角は現在のブロックの分数予測サンプルを表し、グレーの円は現在のブロックの拡張領域を満たすために使用される整数参照サンプルを表す。

図１５は、本開示による、ＰＲＯＦの勾配導出方法を使用する例を示す。図１５において、白い円は整数位置における参照サンプルを表し、三角は現在のブロックの分数予測サンプルを表し、グレーの円は現在のブロックの拡張領域を満たすために使用される整数参照サンプルを表す。

図１４および図１５は第１方法（図１２）および第２方法（図１３）がそれぞれ適用される場合に、ＢＤＯＦおよびＰＲＯＦの勾配の導出に使用される対応する整数サンプル位置を示す。図１４および図１５において、白い円は整数位置における参照サンプルを表し、三角は現在のブロックの分数予測サンプルを表し、パターン化された円は勾配導出のために現在のブロックの拡張領域を満たすために使用される整数参照サンプルを表す。

さらに、既存のＢＤＯＦおよびＰＲＯＦ設計によれば、予測サンプルパディングは、異なる符号化レベルで行われる。具体的にはＢＤＯＦの場合、パディングは各ｓｂＷｉｄｔｈ×ｓｂＨｅｉｇｈｔサブブロックの境界に沿って適用され、ここで、ｓｂＷｉｄｔｈ＝ｍｉｎ（ＣＵＷｉｄｔｈ，１６）およびｓｂＨｅｉｇｈｔ＝ｍｉｎ（ＣＵＨｅｉｇｈｔ，１６）である。ＣＵＷｉｄｔｈおよびＣＵＨｅｉｇｈｔは、ＣＵの幅および高さである。一方、ＰＲＯＦのパディングは、４×４サブブロックレベルで常に適用される。上記の説明ではパディングサブブロックサイズは依然として異なるが、パディング方法のみがＢＤＯＦとＰＲＯＦとの間で統合される。これはまた、ＢＤＯＦおよびＰＲＯＦのパディングプロセスのために異なるモジュールが実装される必要があることを考慮すると、実際のハードウェア実装には使い勝手が良くない。もう１つの統合設計を達成するために、ＢＤＯＦおよびＰＲＯＦのサブブロックパディングサイズを統一することが提案される。本開示の一実施形態では、４×４レベルでＢＤＯＦの予測サンプルパディングを適用することが提案される。具体的にはこの方法によって、ＣＵはまず、複数の４×４サブブロックに分割され、各４×４サブブロックの動き補償の後、上／下および左／右境界に沿った拡張サンプルは対応する整数サンプル位置をコピーすることによってパディングされる。図１８Ａ、１８Ｂ、１８Ｃ、および１８Ｄは提案されたパディング方法が１つの１６ｘ１６ＢＤＯＦＣＵに適用される１つの例を示す。ここで、破線は４ｘ４サブブロック境界を表し、グレーバンドは各４ｘ４サブブロックのパディングされたサンプルを表す。

図１８Ａは本開示による、１６×１６のＢＤＯＦＣＵに適用される提案されたパディング方法を示し、ここで、破線は、左上４×４サブブロック境界１８２０を表す。

図１８Ｂは１６×１６のＢＤＯＦＣＵに適用される提案されたパディング方法を示し、ここで、破線は、本開示による、右上４×４サブブロック境界１８４０を表す。

図１８Ｃは本開示による、１６×１６ＢＤＯＦＣＵに適用される提案されたパディング方法を示し、破線は、左下４×４サブブロック境界１８６０を示す。

図１８Ｄは本開示による、１６×１６のＢＤＯＦＣＵに適用される提案されたパディング方法を示し、破線は、右下４×４サブブロック境界１８８０を示す。

ＢＤＯＦ、ＰＲＯＦ、ＤＭＶＲを有効／無効にするためのハイレベルシグナリング構文
既存のＢＤＯＦおよびＰＲＯＦ設計では、２つの異なるフラグがシーケンスパラメータセット（ＳＰＳ）においてシグナリングされ、２つの符号化ツールの有効化／無効化を別々に制御する。しかしながら、ＢＤＯＦとＰＲＯＦとの間の類似性のために、１つの同じ制御フラグによってＢＤＯＦおよびＰＲＯＦをハイレベルから有効化および／または無効化することがより望ましい。このような考察に基づき、表１に示すように、ＳＰＳではｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇと呼ばれる１つの新しいフラグが導入されている。

表１に示すように、ＢＤＯＦの有効化および無効化はｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇにのみ依存する。フラグが１に等しいとき、ＢＤＯＦは、シーケンスのビデオコンテンツを符号化するために有効になる。それ以外の場合、ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しいとき、ＢＤＯＦは適用されない。一方、ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇに加えて、ＳＰＳレベルのアフィン制御フラグ、すなわちｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇも条件付きでＰＲＯＦを有効化および無効化するために使用される。ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇおよびｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇの両方が１に等しい場合、ＰＲＯＦはアフィンモードで符号化されるすべての符号化ブロックに対して有効化される。フラグｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿
ｆｌａｇが１に等しく、ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しい場合、ＰＲＯＦは無効になる。

表１提案されているＢＤＯＦ／ＰＲＯＦ有効化／無効化フラグを使用したＳＰＳ構文テーブルの変更

ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇは、オプティカルフローによる予測リファインメントおよび双方向オプティカルフローを有効にするかどうかを指定する。ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しい場合、オプティカルフローによる予測リファインメントおよび双方向オプティカルフローの両方が無効化される。ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しく、ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しい場合、オプティカルフローによる予測リファインメントおよび双方向オプティカルフローの両方が有効になる。それ以外の場合（ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しく、ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しい場合）、双方向オプティカルフローが有効になり、オプティカルフローによる予測リファインメントが無効になる。

ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｓｌｉｃｅ＿ｐｒｅｓｅｔ＿ｆｌａｇは、ｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇがスライスレベルでいつシグナリングされるかを指定する。フラグが１に等しい場合、現在のシーケンスパラメータセットを参照するスライスごとに構文ｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇがシグナリングされる。それ以外の場合（ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｓｌｉｃｅ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが０の場合）、構文ｓ
ｌｉｃｅ＿ｄｉｓａｂｌｅｄ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇはスライスレベルでシグナリングされない。フラグがシグナリングされない場合、０であると推測される。

上記のＳＰＳＢＤＯＦ／ＰＲＯＦ構文に加えて、スライスレベルで別の制御フラグを導入することが提案されている。すなわち、ＢＤＯＦ、ＰＲＯＦおよびＤＭＶＲを無効にするためにｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇが導入されている。ＳＰＳフラグｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｓｌｉｃｅ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、ＤＭＶＲまたはＢＤＯＦ／ＰＲＯＦｓｐｓレベル制御フラグのいずれかが真の場合にＳＰＳでシグナリングされ、ｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇの存在を示すために使用される。存在する場合、ｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｄｍｖｒ＿ｆｌａｇが通知される。表２は、提案された構文が適用された後の修正されたスライスヘッダ構文テーブルを示す。

表２提案されているＢＤＯＦ／ＰＲＯＦ有効化／無効化フラグを使用したＳＰＳ構文テーブルの変更

制御点ＭＶ差に基づくＰＲＯＦの早期終了
現在のＰＲＯＦ設計によれば、ＰＲＯＦは、１つの符号化ブロックがアフィンモードによって予測されるときに常に呼び出される。しかしながら、式（６）および（７）に示すように、１つのアフィンブロックのサブブロックＭＶは、制御点ＭＶから導出される。したがって、制御点ＭＶ間の差が比較的小さい場合、各サンプル位置におけるＭＶは一貫しているべきである。このような場合、ＰＲＯＦを適用することの利点は、非常に限定され得る。従って、ＰＲＯＦの平均計算複雑性をさらに低減するために、１つの４×４サブブロック内でサンプルワイズＭＶとサブブロックワイズＭＶの間の最大ＭＶ差に基づいてＰＲＯＦベースのサンプルリファインメントを適応的にスキップすることを提案した。１つの４×４サブブロック内部のサンプルのＰＲＯＦＭＶ差の値はサブブロック中心に対して対称であるため、最大水平および垂直ＰＲＯＦＭＶ差は以下の式（１０）に基づいて計算できる。

本開示によれば、ＭＶ差がＰＲＯＦプロセスをスキップするのに十分小さいかどうかを判定する際に、異なるメトリックを使用することができる。
一例では、式（１９）に基づいて、絶対最大水平ＭＶ差と絶対最大垂直ＭＶ差との和が１つの所定の閾値よりも小さい場合、ＰＲＯＦプロセスをスキップすることができる。即
ち、以下の通りである。

別の例では、｜△ｖ_ｘ ^ｍａｘ｜｜△ｖ_ｙ ^ｍａｘ｜の最大値が閾値以下である場合、ＰＲＯＦプロセスをスキップすることができる。

ＭＡＸ（ａ、ｂ）は、入力値ａとｂとの間の大きい方の値を返す関数である。

上記の２つの例に加えて、本開示の思想は、ＭＶ差がＰＲＯＦプロセスをスキップするのに十分小さいかどうかを判定する際に他のメトリックが使用される場合にも適用可能である。

上記の方法では、ＭＶ差の大きさに基づいてＰＲＯＦをスキップする。一方、ＭＶ差に加えて、ＰＲＯＦサンプルリファインメントも、１つの動き補償ブロック内の各サンプル位置における局所勾配情報に基づいて計算される。高周波数の詳細が少ない予測ブロック（フラットな領域など）では、導出されたサンプルリファインメントの値が小さくなるように、勾配値は小さくなる傾向がある。これを考慮して、本開示の別の実施形態によれば、十分に高い周波数情報を含むブロックの予測サンプルにのみＰＲＯＦを適用することが提案される。

ブロックに対してＰＲＯＦプロセスを呼び出す価値があるように、ブロックが十分に高い周波数の情報を含むかどうかを判定する際に、異なるメトリックを使用することができる。一例では、決定が予測ブロック内のサンプルの勾配の平均の大きさ（すなわち、絶対値）に基づいて行われる。平均の大きさが１つの閾値よりも小さい場合、予測ブロックは平坦領域として分類され、ＰＲＯＦは適用されるべきではなく、そうでない場合、予測ブロックは、ＰＲＯＦが依然として適用可能である十分な高周波詳細を含むと考えられる。別の例では、予測ブロック内のサンプルの勾配の最大の大きさを使用することができる。最大の大きさが１つの閾値より小さい場合、ＰＲＯＦはブロックについてスキップされるべきである。さらに別の例では、予測ブロックの最大サンプル値と最小サンプル値との差分Ｉ_ｍａｘ－Ｉ_ｍｉｎを使用して、ＰＲＯＦがブロックに適用されるかどうかを決定することができる。このような差分値が閾値より小さい場合、ＰＲＯＦはブロックについてスキップされる。本開示の思想は所与のブロックが十分な高周波数情報を含むか否かを決定する際に、いくつかの他のメトリックが使用される場合にも適用可能であることに留意されたい。

アフィンモードのＬＩＣとＰＲＯＦと間のインタラクションの対処
現在のブロックの隣接する再構成されたサンプル（すなわち、テンプレート）は線形モデルパラメータを導出するためにＬＩＣによって使用されるので、１つのＬＩＣ符号化ブロックの復号化はその隣接するサンプルの完全な再構成に依存する。このような相互依存性のために、実際のハードウェア実装では、ＬＩＣが隣接する再構成サンプルがＬＩＣパラメータ導出のために利用可能になる再構成段階で実行される必要がある。ブロック再構成は連続的に（すなわち、１つずつ）実行されなければならないので、スループット（すなわち、単位時間当たりに並列に実行され得る作業量）は、ＬＩＣ符号化ブロックに他の符号化方法を結合して適用するときに考慮すべき１つの重要な問題である。この節では、
ＰＲＯＦとＬＩＣの両方がアフィンモードに対して有効である場合のインタラクションを扱うために、二つの方法を提案した。

本開示の第１実施形態では、１つのアフィン符号化ブロックに対して、ＰＲＯＦモードとＬＩＣモードとを排他的に適用することが提案される。前述のように、既存の設計では、ＰＲＯＦがシグナリングなしにすべてのアフィンブロックに暗黙的に適用され、一方、１つのＬＩＣフラグはＬＩＣモードが１つのアフィンブロックに適用されるかどうかを示すために、符号化ブロックレベルでシグナリングまたは継承される。本発明の方法によれば、１つのアフィンブロックのＬＩＣフラグの値に基づいてＰＲＯＦを条件付きで適用することが提案される。フラグが１に等しい場合、ＬＩＣ重みおよびオフセットに基づいて符号化ブロック全体の予測サンプルを調整することによって、ＬＩＣのみが適用される。そうでない場合（すなわち、ＬＩＣフラグが０に等しい場合）、ＰＲＯＦは、アフィン符号化ブロックに適用され、オプティカルフローモデルに基づいてそれぞれのサブブロックの予測サンプルをリファインする。

図１７Ａは、ＰＲＯＦおよびＬＩＣが同時に適用されることを禁止されている、提案された方法に基づく復号化プロセスの１つの例示的なフローチャートを示す。

図１７Ａは本開示による、ＰＲＯＦおよびＬＩＣが許可されない、提案された方法に基づく復号化プロセスの図を示す。復号化プロセス１７２０は、ＬＩＣフラグがオン？１７２２ステップ、ＬＩＣ１７２４、およびＰＲＯＦ１７２６を含む。ＬＩＣフラグがオン？１７２２はＬＩＣフラグがセットされているか否かを決定し、その決定にしたがって次のステップをとるステップである。ＬＩＣ１７２４は、ＬＩＣフラグがセットされているＬＩＣのアプリケーションである。ＬＩＣフラグがセットされていない場合、ＰＲＯＦ１７２６はＰＲＯＦのアプリケーションである。

本開示の第２実施形態では、１つのアフィンブロックの予測サンプルを生成するために、ＰＲＯＦの後にＬＩＣを適用することが提案される。具体的にはサブブロックベースのアフィン動き補償が行われた後、予測サンプルはＰＲＯＦサンプルリファインメントに基づいてリファインされ、次いで、ＬＩＣはＰＲＯＦ調整された予測サンプルに（テンプレートおよびその参照サンプルから導出されるように）重みおよびオフセットのペアを適用することによって行われ、以下のように、ブロックの最終予測サンプルを取得する。

ここで、Ｐ_ｒ［ｘ＋ｖ］は動きベクトルｖによって示される現在のブロックの参照ブロックであり、αおよびβはＬＩＣ重みおよびオフセットであり、Ｐ［ｘ］は最終予測ブロックであり、△Ｉ［ｘ］は、（１７）で導出されるＰＲＯＦリファインメントである。

図１７Ｂは、本開示による、ＰＲＯＦおよびＬＩＣが適用される復号化プロセスの図を示す。復号化プロセス１７６０は、アフィン動き補償１７６２、ＬＩＣパラメータ導出１７６４、ＰＲＯＦ１７６６、およびＬＩＣサンプル調整１７６８を含む。アフィン動き補償１７６２はアフィン動きを適用し、ＬＩＣパラメータ導出１７６４およびＰＲＯＦ１７６６への入力である。ＬＩＣパラメータ導出１７６４は、ＬＩＣパラメータを導出するために適用される。ＰＲＯＦ１７６６はＰＲＯＦが適用されている。ＬＩＣサンプル調整１７６８は、ＰＲＯＦと組み合わせられているＬＩＣ重みおよびオフセットパラメータである。

図１７Ｂは、第２方法を適用した場合の復号化ワークフローの一例を示す図である。図
１７Ｂに示すように、ＬＩＣはテンプレート（すなわち、隣接する再構成サンプル）を使用してＬＩＣ線形モデルを計算するので、ＬＩＣパラメータは、隣接する再構成サンプルが利用可能になるとすぐに導出することができる。これは、ＰＲＯＦリファインメントとＬＩＣパラメータ導出とを同時に実行することができることを意味する。

ＬＩＣ重みおよびオフセット（すなわち、αおよびβ）ならびにＰＲＯＦリファインメント（すなわち、△ｉ［ｘ］）は、一般に浮動小数点数である。フレンドリなハードウェア実装のために、これらの浮動小数点演算は、通常、１つの整数値と、それに続く右シフト演算と、多数のビットとの乗算として実装される。現行のＬＩＣおよびＰＲＯＦ設計では、２つのツールが別々に設計されているため、２つの異なる右シフトがそれぞれＮ_ＬＩＣビットとＮ_ＰＲＯＦビットによって、２つのステージで適用される。

本開示の第３実施形態によれば、ＰＲＯＦおよびＬＩＣがアフィン符号化ブロックに結合して適用される場合の符号化利得を改善するために、ＬＩＣベースおよびＰＲＯＦベースのサンプル調整を高精度で適用することが提案される。これは、それらの２つの右シフト演算を１つに結合し、それを最後に適用して、現在のブロックの最終予測サンプル（（１２）に示すように）を導出することによって行われる。

ＰＲＯＦと重み付き予測およびＢＣＷ（ｂｉ－ｐｒｅｄｉｃｔｉｏｎｗｉｔｈＣＵ－ｌｅｖｅｌｗｅｉｇｈｔ）とを組み合わせた場合の乗算オーバーフロー問題への対処
ＶＶＣ作業ドラフトにおける現行のＰＲＯＦ設計によれば、ＰＲＯＦはＷＰ（ｗｅｉｇｈｔｅｄｐｒｅｄｉｃｔｉｏｎ）と結合して適用できる。

図１０は、本開示によるビデオ信号を復号化するためのＰＲＯＦ（ｐｒｅｄｉｃｔｉｏｎｒｅｆｉｎｅｍｅｎｔｗｉｔｈｏｐｔｉｃａｌｆｌｏｗ）の方法を示す。この方法は例えば、デコーダに適用することができる。

ステップ１０１０において、デコーダは、ビデオ信号のアフィンモードによって符号化されるビデオブロックに関連する第１参照ピクチャＩ^（０）および第２参照ピクチャＩ^（１）を取得することができる。

ステップ１０１２では、デコーダが第１参照ピクチャＩ^（０）、第２参照ピクチャＩ^（１）に関連付けられた第１予測サンプルＩ^（０）（ｉ，ｊ）および第２予測サンプルＩ^（１）（ｉ，ｊ）に基づいて、第１および第２水平勾配値および垂直勾配値を得ることができる。

ステップ１０１４において、デコーダは、第１参照ピクチャＩ^（０）および第２参照ピクチャＩ^（１）に関連付けられたＣＰＭＶ（ｃｏｎｔｒｏｌｐｏｉｎｔｍｏｔｉｏｎ
ｖｅｃｔｏｒｓ）に基づいて、第１および第２水平および垂直動きリファインメントを取得することができる。

ステップ１０１６では、デコーダが第１および第２水平および垂直勾配値、ならびに第１および第２水平および垂直動きのリファインメントに基づいて、第１および第２予測リファインメントを得ることができる。

ステップ１０１８において、デコーダは、第１予測サンプルＩ^（０）（ｉ，ｊ）、第２予測サンプルＩ^（１）（ｉ，ｊ）、ならびに第１および第２予測リファインメントに基づいて、リファインされた第１および第２サンプルを取得し得る。

ステップ１０２０において、デコーダは乗算オーバーフローを防止するために、リファ
インされた第１および第２サンプルおよび予測パラメータを操作することによって、リファインされた第１および第２サンプルに基づいて、ビデオブロックの最終予測サンプルを取得し得る。予測パラメータは、ＷＰ（ｗｅｉｇｈｔｅｄｐｒｅｄｉｃｔｉｏｎ）のためのパラメータと符号化ユニット（ＣＵ）レベル重み（ＢＣＷ）によるバイ予測のためのパラメータを含むことができる。

具体的には、１つのアフィンＣＵの予測信号を合成する際には以下の手順で生成すればよい。

１．位置（ｘ，ｙ）における各サンプルについて、ＰＲＯＦに基づいてＬ０予測リファインメント△Ｉ_０（ｘ，ｙ）を計算し、リファインメントをオリジナルＬ０予測サンプルＩ_０（ｘ，ｙ）に加える。すなわち、以下の通りである。

Ｉ_０’（ｘ，ｙ）はリファインされたサンプルであり、ｇ_ｈ０（ｘ，ｙ）、ｇ_ｖ０（ｘ，ｙ）、△ｖ_ｘ０（ｘ，ｙ）、△ｖ_ｙ０（ｘ，ｙ）は、位置（ｘ，ｙ）におけるＬ０水平／垂直勾配およびＬ０水平／垂直動きリファインメントである。

２．位置（ｘ，ｙ）における各サンプルについて、ＰＲＯＦに基づいてＬ１予測リファインメント△Ｉ_１（ｘ，ｙ）を計算し、リファインメントをオリジナルＬ１予測サンプルＩ_１（ｘ，ｙ）に加える。すなわち、以下の通りである。

Ｉ_１’（ｘ，ｙ）はリファインされたサンプルであり、ｇ_ｈ１（ｘ，ｙ）、ｇ_ｖ１（ｘ，ｙ）、△ｖ_ｘ１（ｘ，ｙ）、△ｖ_ｙ１（ｘ，ｙ）は位置（ｘ，ｙ）におけるＬ１水平／垂直勾配およびＬ１水平／垂直動きリファインメントである。

３．リファインされたＬ０およびＬ１予測サンプルを結合する。すなわち、以下の通りである。

Ｗ_０およびＷ_１は、ＷＰおよびＢＣＷの重みであり、ｓｈｉｆｔおよびＯｆｆｓｅｔはＷＰおよびＢＣＷのバイ予測のためのＬ０およびＬ１予測信号の重み付け平均に適用されるオフセットおよび右シフトである。ＷＰのパラメータはＷ_０、Ｗ_１、Ｏｆｆｓｅｔを含み、ＢＣＷのパラメータはＷ_０、Ｗ_１、ｓｈｉｆｔを含む。

上記の式から分かるように、サンプルごとのリファインメント、すなわち、△Ｉ_０（ｘ，ｙ）、△Ｉ_１（ｘ，ｙ）によって、ＰＲＯＦの後の予測サンプル（すなわち、Ｉ_０’（ｘ，ｙ）およびＩ_１’（ｘ，ｙ）のダイナミックレンジはオリジナル予測サンプル（すなわち、Ｉ_０（ｘ，ｙ）およびＩ_１（ｘ，ｙ））のダイナミックレンジよりも１つ大きくなる。リファインされた予測サンプルがＷＰおよびＢＣＷ重み係数で乗算されると仮定すると、必要とされる乗算器の長さを増加させる。例えば、現在の設計に基づいて、内部符号
化ビット深度が８～１２ビットの範囲である場合、予測信号Ｉ_０（ｘ，ｙ）およびＩ_１（ｘ，ｙ）のダイナミックレンジは１６ビットである。しかし、ＰＲＯＦの後、予測信号Ｉ_０’（ｘ，ｙ）およびＩ_１’（ｘ，ｙ）のダイナミックレンジは１７ビットである。したがって、ＰＲＯＦが適用されると、１６ビット乗算オーバーフロー問題を引き起こす可能性がある。

図１１は、本開示によるビデオブロックの最終予測サンプルを得ることを示す。この方法は例えば、デコーダに適用することができる。

ステップ１１１２において、デコーダは、第１シフト値だけ右にシフトすることによって、リファインされた第１および第２サンプルを調整することができる。

ステップ１１１４において、デコーダは、リファインされた第１および第２サンプルを結合することによって、結合された予測サンプルを得ることができる。

ステップ１１１６において、デコーダは、結合された予測サンプルを第１シフト値だけ左シフトすることによって、ビデオブロックの最終予測サンプルを得ることができる。

このようなオーバーフロー問題を解決するために、以下に複数の方法が提案される。

１．第１方法では、ＰＲＯＦが１つのアフィンＣＵに適用されるとき、ＷＰおよびＢＣＷを無効にすることが提案される。

２．第２方法では、オリジナル予測サンプルに加算する前に、導出されたサンプルリファインメントに１つのクリッピング操作を適用して、リファインされた予測サンプルＩ_０’（ｘ，ｙ）およびＩ_１’（ｘ，ｙ）のダイナミックレンジがオリジナル予測サンプルＩ_０（ｘ，ｙ）およびＩ_１（ｘ，ｙ）のダイナミックビット深度と同じダイナミックビット深度を有するようにすることが提案される。具体的には、このような方法によって、（２３）および（２４）におけるサンプルリファインメント△Ｉ_０（ｘ，ｙ）および△Ｉ_１（ｘ，ｙ）は以下に示すように、１つのクリッピング操作を導入することによって修正される。

ｄＩ＝ｄＩ_ｂａｓｅ＋ｍａｘ（０，ＢＤ－１２）であり、ＢＤは内部符号化ビット深度、ｄＩ_ｂａｓｅはベースビット深度の値である。一実施形態では、ｄＩ_ｂａｓｅの値を１４に設定することが提案される。別の実施形態では、値を１３に設定することが提案される。

３．第３方法では、リファインされたサンプルがオリジナル予測サンプルのダイナミックレンジと同じイナミックレンジを有するようにサンプルリファインメントをクリッピングする代わりに、リファインされた予測サンプルを直接クリッピングすることが提案される。具体的には第３方法によって、リファインされたＬ０およびＬ１サンプルは以下のよう
になる。

ｄＲ＝１６＋ｍａｘ（０，ＢＤ－１２）（または同等にｍａｘ（１６，ＢＤ＋４））であり、ＢＤは内部符号化ビット深度である。

４．第４方法ではＷＰおよびＢＣＷの前に、リファインされたＬ０およびＬ１予測サンプルに特定の右シフトを適用することが提案され、次いで、最終予測サンプルは追加の左シフトによってオリジナル精度に調整される。具体的には、最終予測サンプルが以下のように導出される。

ｎｂは適用される追加のビットシフトの数であり、ＰＲＯＦサンプルリファインメントの対応するダイナミックレンジに基づいて決定されてもよい。

上記の方法は、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、または他の電子構成要素を含む１つまたは複数の回路を含む装置を使用して実装され得る。装置は上述の方法を実行するために、他のハードウェアまたはソフトウェアコンポーネントと組み合わせて回路を使用することができる。上記で開示された各モジュール、サブモジュール、ユニット、またはサブユニットは、１つまたは複数の回路を使用して少なくとも部分的に実装され得る。

図１９は、ユーザインターフェース１９６０に結合されたコンピューティング環境１９１０を示す。コンピューティング環境１９１０は、データ処理サーバの一部とすることができる。コンピューティング環境１９１０は、プロセッサ１９２０、メモリ１９４０、およびＩ／Ｏインターフェース１９５０を含む。

プロセッサ１９２０は、典型的には表示、データ取得、データ通信、および画像処理に関連する動作のような、コンピューティング環境１９１０の全体的な動作を制御する。プロセッサ１９２０は上述の方法におけるステップのすべてまたは一部を実行する命令を実行するために、１つ以上のプロセッサを含んでもよい。さらに、プロセッサ１９２０は、プロセッサ１９２０と他のコンポーネントとの間のインタラクションを容易にする１つ以上のモジュールを含んでもよい。プロセッサは、セントラルプロセッシングユニット（ＣＰＵ）、マイクロプロセッサ、シングルチップマシン、ＧＰＵなどである。

メモリ１９４０はコンピューティング環境１９１０の動作をサポートするために、様々なタイプのデータを記憶するように構成される。メモリ１９４０は、所定のソフトウェア１９４２を含むことができる。そのようなデータの例は、コンピューティング環境１９１０上で動作する任意のアプリケーションまたは方法のための命令、ビデオデータセット、画像データなどを含む。メモリ１９４０は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、プログラマブルリードオンリメモリ
（ＰＲＯＭ）、リードオンリメモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、任意のタイプの揮発性または不揮発性メモリ装置、またはそれらの組合せを使用することによって実装され得る。

Ｉ／Ｏインターフェース１９５０は、プロセッサ１９２０と、キーボード、クリックホイール、ボタンなどの周辺インターフェースモジュールとの間のインターフェースを提供する。ボタンはホームボタン、スタートスキャンボタン、およびストップスキャンボタンを含むことができるが、これらに限定されない。Ｉ／Ｏインターフェース１９５０は、エンコーダおよびデコーダに結合することができる。

いくつかの実施形態では、上述の方法を実行するために、コンピューティング環境１９１０内のプロセッサ１９２０によって実行可能な、メモリ１９４０に含まれるような複数のプログラムを含む、非一時的コンピュータ可読記憶媒体も提供される。例えば、非一時的コンピュータ可読記憶媒体は、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データストレージ等であってもよい。

非一時的コンピュータ可読記憶媒体は１つ以上のプロセッサを有するコンピューティングデバイスによって実行される複数のプログラムを記憶しており、複数のプログラムは、１つ以上のプロセッサによって実行されると、コンピューティングデバイスに上述の動き予測方法を実行させる。

いくつかの実施形態では、コンピューティング環境１９１０が上記の方法を実行するために、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィカルプロセッシング（ＧＰＵ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、または他の電子構成要素を用いて実装され得る。

本開示の説明は例示の目的で提示されており、網羅的であることも、本開示に限定されることも意図されていない。前述の説明および関連する図面に提示された教示の恩恵を受ける当業者には、多くの修正形態、変形形態、および代替実施形態が明らかになるのであろう。

実施例は本開示の原理を説明し、他の当業者が様々な実施のための本開示を理解し、意図される特定の使用に適した様々な修正を伴う基礎となる原理および様々な実施を最良に利用することを可能にするために選択され、説明された。したがって、本開示の範囲は開示された実装の特定の例に限定されるべきではなく、修正および他の実装は本開示の範囲内に含まれることが意図されることを理解されたい。

Claims

エンコーダが実行する、ＰＲＯＦ（ｐｒｅｄｉｃｔｉｏｎｒｅｆｉｎｅｍｅｎｔｗｉｔｈｏｐｔｉｃａｌｆｌｏｗ）の方法であって、
アフィンモードによって符号化されるビデオブロックを取得し、
前記ビデオブロックに関連付けられた第１参照ピクチャおよび第２参照ピクチャを取得し、
前記第１参照ピクチャおよび前記第２参照ピクチャに関連付けられた第１予測サンプルＩ^（０）（ｉ，ｊ）および第２予測サンプルＩ^（１）（ｉ，ｊ）に基づいて、第１および第２水平および垂直勾配値を取得し、
前記第１参照ピクチャおよび前記第２参照ピクチャに関連付けられたＣＰＭＶ（ｃｏｎｔｒｏｌｐｏｉｎｔｍｏｔｉｏｎｖｅｃｔｏｒ）に基づいて、第
１および第２水平および垂直動きリファインメントを取得し、
前記第１および第２水平および垂直勾配値と、前記第１および第２水平および垂直動きリファインメントとに基づいて、第１および第２予測リファインメントを取得し、
前記第１予測サンプルＩ^（０）（ｉ，ｊ）、第２予測サンプルＩ^（１）（ｉ，ｊ）、および前記第１および第２予測リファインメントに基づいて、リファインされた第１および第２サンプルを取得し、
前記リファインされた第１および第２サンプルおよび予測パラメータに基づいて、前記ビデオブロックの最終予測サンプルを取得し、
前記予測パラメータは、ＷＰ（ｗｅｉｇｈｔｅｄｐｒｅｄｉｃｔｉｏｎ）のためのパラメータまたはＢＣＷ（ｂｉ－ｐｒｅｄｉｃｔｉｏｎｗｉｔｈｃｏｄｉｎｇｕｎｉｔ（ＣＵ）－ｌｅｖｅｌｗｅｉｇｈｔ）のためのパラメータを含む、
ＰＲＯＦ（ｐｒｅｄｉｃｔｉｏｎｒｅｆｉｎｅｍｅｎｔｗｉｔｈｏｐｔｉｃａｌ
ｆｌｏｗ）の方法。
前記第１および第２予測リファインメントを取得することは、
前記第１および第２水平および垂直勾配値および第１および第２水平および垂直動きリファインメントに基づいて前記第１および第２予測リファインメントを取得し、
予測リファインメント閾値に基づいて、前記第１および第２予測リファインメントをクリッピングする、
請求項１に記載の方法。
前記予測リファインメント閾値は符号化ビット深度プラス１または１３のいずれかの最大値に等しい、
請求項２に記載の方法。
リファインされた前記第１および第２サンプルを取得することは、
前記第１予測サンプルＩ^（０）（ｉ，ｊ）、第２予測サンプルＩ^（１）（ｉ，ｊ）、および前記第１および第２予測リファインメントに基づいて、前記リファインされた第１および第２サンプルを取得し、
リファインされたサンプル閾値に基づいて前記リファインされた第１および第２サンプルをクリッピングする、
ことを含む、請求項１に記載の方法。
前記リファインされたサンプル閾値は符号化ビット深度プラス４または１６のいずれかの最大値に等しい、
請求項４に記載の方法。
前記リファインされた第１および第２サンプルおよび前記予測パラメータに基づいて、前記ビデオブロックの最終予測サンプルを取得することは、前記ＷＰのみ、または、前記ＢＣＷのみを適用することを含む、
請求項１に記載の方法。
１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体と、
を含み、
前記１つ以上のプロセッサは、
アフィンモードによって符号化されるビデオブロックを取得し、
前記ビデオブロックに関連付けられた第１参照ピクチャおよび第２参照ピクチャを取得し、
前記第１参照ピクチャおよび前記第２参照ピクチャに関連付けられた第１予測サンプルＩ^（０）（ｉ，ｊ）および第２予測サンプルＩ^（１）（ｉ，ｊ）に基づいて、第１および第２水平および垂直勾配値を取得し、
前記第１参照ピクチャおよび前記第２参照ピクチャに関連付けられたＣＰＭＶ（ｃｏｎｔｒｏｌｐｏｉｎｔｍｏｔｉｏｎｖｅｃｔｏｒ）に基づいて、第１および第２水平および垂直動きリファインメントを取得し、
前記第１および第２水平および垂直勾配値と、前記第１および第２水平および垂直動きリファインメントとに基づいて、第１および第２予測リファインメントを取得し、
前記第１予測サンプルＩ^（０）（ｉ，ｊ）、第２予測サンプルＩ^（１）（ｉ，ｊ）、および前記第１および第２予測リファインメントに基づいて、リファインされた第１および第２サンプルを取得し、
前記リファインされた第１および第２サンプルおよび予測パラメータに基づいて、前記ビデオブロックの最終予測サンプルを取得し、
前記予測パラメータは、ＷＰ（ｗｅｉｇｈｔｅｄｐｒｅｄｉｃｔｉｏｎ）のためのパラメータまたはＢＣＷ（ｂｉ－ｐｒｅｄｉｃｔｉｏｎｗｉｔｈｃｏｄｉｎｇｕｎｉｔ（ＣＵ）－ｌｅｖｅｌｗｅｉｇｈｔ）のためのパラメータを含む、
ように構成されている、
コンピューティングデバイス。
前記１つ以上のプロセッサが前記第１および第２予測リファインメントを取得するように構成されていることは、
前記第１および第２水平および垂直勾配値および第１および第２水平および垂直動きリファインメントに基づいて前記第１および第２予測リファインメントを取得し
予測リファインメント閾値に基づいて、前記第１および第２予測リファインメントをクリッピングする、
ようにさらに構成されている、
請求項７に記載のコンピューティングデバイス。
前記予測リファインメント閾値は符号化ビット深度プラス１または１３のいずれかの最大値に等しい、
請求項８に記載のコンピューティングデバイス。
前記リファインされた前記第１および第２サンプルを取得する前記１つ以上のプロセッサは、
前記第１予測サンプルＩ^（０）（ｉ，ｊ）、第２予測サンプルＩ^（１）（ｉ，ｊ）、および前記第１および第２予測リファインメントに基づいて、前記リファインされた第１および第２サンプルを取得し、
リファインされたサンプル閾値に基づいて前記リファインされた第１および第２サンプルをクリッピングする、
ようにさらに構成されている、請求項７に記載のコンピューティングデバイス。
前記リファインされたサンプル閾値は符号化ビット深度プラス４または１６のいずれかの最大値に等しい、
請求項１０に記載のコンピューティングデバイス。
前記ビデオブロックの最終予測サンプルを取得するように構成されている前記１つ以上のプロセッサは、前記ＷＰのみ、または、前記ＢＣＷのみを適用する、ように、さらに構成されている、
請求項７に記載のコンピューティングデバイス。
１つ以上のプロセッサを含むコンピューティングデバイスによって実行される複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記複数のプログラムは、前記１つ以上のプロセッサによって実行されると、請求項１～請求項６のいずれか１項に記載の方法を前記コンピューティングデバイスに実行させる、非一時的コンピュータ可読記憶媒体。
１つ以上のプロセッサを含むコンピューティングデバイスによって実行されるプログラムであって、前記プログラムは、前記１つ以上のプロセッサによって実行されると、請求項１～請求項６のいずれか１項に記載の方法を前記コンピューティングデバイスに実行させる、プログラム。