JP2023089253A

JP2023089253A - オプティカルフローによる予測洗練化における方法および装置

Info

Publication number: JP2023089253A
Application number: JP2023069637A
Authority: JP
Inventors: シウ、シャオユー; Xiaoyu Xiu; チェン、イ－ウェン; Yi Wen Chen; ワン、シャンリン; Xianglin Wang; ユー、ビン; Bin Yu
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-07-10
Filing date: 2023-04-20
Publication date: 2023-06-27
Also published as: EP3991431A4; MX2022000395A; WO2021007557A1; KR20220025205A; CN114342378A; JP2023159292A; JP2022531629A; JP7313533B2; US20220132138A1; KR20220140047A; EP3991431A1; KR102453806B1; JP2023164968A; CN115002454A; US12132910B2

Abstract

【課題】ビデオ信号を復号する方法及び装置を提供する。【解決手段】方法は、ビデオブロックを複数の重複しないビデオサブブロックに分割し、ビデオブロックを複数の重複しないビデオサブブロックに分割し、第１の参照ピクチャＩ（０）及び第２の参照ピクチャＩ（１）を取得し、第１の予測サンプルＩ（０）（ｉ，ｊ）’ｓを取得し、第２の予測サンプルＩ（１）（ｉ，ｊ）’ｓを取得し、第１の予測サンプルＩ（０）（ｉ，ｊ）’ｓ及び第２の予測サンプルＩ（１）（ｉ，ｊ）’ｓの水平及び垂直勾配値を取得し、ビデオブロックがアフィンモードで符号化されないとき、ＢＤＯＦに基づいてビデオサブブロック内のサンプルのための動き洗練化し、ビデオブロックがアフィンモードで符号化されるとき、ＰＲＯＦに基づいてビデオサブブロック内のサンプルのための動き洗練化し、動き洗練化に基づいてビデオブロックの予測サンプルを取得する。【選択図】図１０

Description

関連出願の相互参照
本出願は、２０１９年７月１０日に出願された仮出願第６２／８７２，７００号、および２０１９年７月１２日に出願された仮出願第６２／８７３，８３７号に基づき、これらの仮出願の優先権を主張するものであり、これらの仮出願の両方の全体は、全ての目的のために参照により本明細書に組み込まれる。

本開示は、ビデオ符号化および圧縮に関する。より具体的には、本開示は、多用途ビデオ符号化（ＶＶＣ）規格において研究されている２つのインター予測ツール、すなわち、オプティカルフローによる予測洗練化（ＰＲＯＦ：ｐｒｅｄｉｃｔｉｏｎｒｅｆｉｎｅｍｅｎｔｗｉｔｈｏｐｔｉｃａｌｆｌｏｗ）および双方向オプティカルフロー（ＢＤＯＦ：ｂｉ－ｄｉｒｅｃｔｉｏｎａｌｏｐｔｉｃａｌｆｌｏｗ）における方法および装置に関する。

様々なビデオ符号化技法は、ビデオデータを圧縮するために使用され得る。ビデオ符号化は、１つまたは複数のビデオ符号化規格に従って実施される。例えば、ビデオ符号化規格は、多用途ビデオ符号化（ＶＶＣ）、共同探索テストモデル（ＪＥＭ）、高効率ビデオ符号化（Ｈ．２６５／ＨＥＶＣ）、アドバンストビデオ符号化（Ｈ．２６４／ＡＶＣ）、ムービングピクチャエキスパートグループ（ＭＰＥＧ）符号化などを含む。ビデオ符号化は一般に、ビデオ画像またはシーケンスに存在する冗長性を活用する予測方法（例えば、インター予測、イントラ予測など）を利用する。ビデオ符号化技法の重要な目標は、ビデオ品質の劣化を回避するかまたは最小限に抑える一方で、ビデオデータをより低いビットレートを使用する形態に圧縮することである。

本開示の例は、ビデオ符号化における動きベクトル予測のための方法および装置を提供する。

本開示の第１の態様によれば、ビデオ信号を復号するための双方向オプティカルフロー（ＢＤＯＦ）およびオプティカルフローによる予測洗練化（ＰＲＯＦ）の統合方法が提供される。デコーダは、ビデオブロックを複数の重複しないビデオサブブロックに分割し得、複数の重複しないビデオサブブロックのうちの少なくとも１つは、２つの動きベクトルに関連付けられ得る。デコーダは、複数の重複しないビデオサブブロックのうちの少なくとも１つの２つの動きベクトルに関連付けられた第１の参照ピクチャＩ^（０）および第２の参照ピクチャＩ^（１）を取得し得る。表示順序において、第１の参照ピクチャＩ^（０）は現在のピクチャの前にあり得、第２の参照ピクチャＩ^（１）は現在のピクチャの後にあり得る。デコーダは、第１の参照ピクチャＩ^（０）内の参照ブロックからビデオサブブロックの第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓを取得し得る。ｉおよびｊは現在のピクチャを有する１つのサンプルの座標を表し得る。デコーダは、第２の参照ピクチャＩ^（１）内の参照ブロックからビデオサブブロックの第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓを取得し得る。デコーダは、第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓおよび第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓの水平および垂直勾配値を取得し得る。デコーダは、ビデオブロックがアフィンモードで符号化されないとき、ＢＤＯＦに基づいてビデオサブブロック内のサンプルのための動き洗練化を取得し得る。デコーダは、ビデオブロックがアフィンモードで符号化されるとき、ＰＲＯＦに基づいてビデオサブブロック内のサンプルのための動き洗練化を取得し得る。次いで、デコーダは、動き洗練化に基づいてビデオブロックの予測サンプルを取得し得る。

本開示の第２の態様によれば、ビデオ信号を復号するためのＢＤＯＦおよびＰＲＯＦの方法が提供される。本方法は、デコーダにおいて、ビデオブロックに関連付けられた第１の参照ピクチャＩ^（０）および第２の参照ピクチャＩ^（１）を取得することを含み得る。表示順序において、第１の参照ピクチャＩ^（０）は現在のピクチャの前にあり得、第２の参照ピクチャＩ^（１）は現在のピクチャの後にあり得る。本方法は、デコーダにおいて、第１の参照ピクチャＩ^（０）内の参照ブロックからビデオブロックの第１の予測サンプルＩ^（０）（ｉ，ｊ）を取得することも含み得る。ｉおよびｊは現在のピクチャを有する１つのサンプルの座標を表す。本方法は、デコーダにおいて、第２の参照ピクチャＩ^（１）内の参照ブロックからビデオブロックの第２の予測サンプルＩ^（１）（ｉ，ｊ）を取得することを含み得る。本方法は、デコーダによって、少なくとも１つのフラグを受信することをさらに含み得る。少なくとも１つのフラグは、シーケンスパラメータセット（ＳＰＳ）においてエンコーダによってシグナリングされ得、現在のビデオブロックに対してＢＤＯＦおよびＰＲＯＦが有効化されるかどうかをシグナリングする。本方法は、デコーダにおいて、少なくとも１つのフラグが有効化されるとき、ビデオブロックがアフィンモードで符号化されないときに第１の予測サンプルＩ^（０）（ｉ，ｊ）および第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいてビデオブロックの動き洗練化を導出するためにＢＤＯＦを適用することを含み得る。本方法は、デコーダにおいて、少なくとも１つのフラグが有効化されるとき、ビデオブロックがアフィンモードで符号化されるときに第１の予測サンプルＩ^（０）（ｉ，ｊ）および第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいてビデオブロックの動き洗練化を導出するためにＰＲＯＦを適用することを追加的に含み得る。本方法は、デコーダにおいて、動き洗練化に基づいてビデオブロックの予測サンプルを取得することも含み得る。

本開示の第３の態様によれば、ビデオ信号を復号するためのコンピューティングデバイスが提供される。コンピューティングデバイスは、１つまたは複数のプロセッサと、１つまたは複数のプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読メモリとを含み得る。１つまたは複数のプロセッサは、ビデオブロックを複数の重複しないビデオサブブロックに分割するように構成され得る。複数の重複しないビデオサブブロックのうちの少なくとも１つは、２つの動きベクトルに関連付けられ得る。１つまたは複数のプロセッサは、複数の重複しないビデオサブブロックのうちの少なくとも１つの２つの動きベクトルに関連付けられた第１の参照ピクチャＩ^（０）および第２の参照ピクチャＩ^（１）を取得するようにさらに構成され得る。表示順序において、第１の参照ピクチャＩ^（０）は現在のピクチャの前にあり得、第２の参照ピクチャＩ^（１）は現在のピクチャの後にあり得る。１つまたは複数のプロセッサは、第１の参照ピクチャＩ^（０）内の参照ブロックからビデオサブブロックの第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓを取得するようにさらに構成され得る。ｉおよびｊは現在のピクチャを有する１つのサンプルの座標を表す。１つまたは複数のプロセッサは、第２の参照ピクチャＩ^（１）内の参照ブロックからビデオサブブロックの第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓを取得するようにさらに構成され得る。１つまたは複数のプロセッサは、第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓおよび第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓの水平および垂直勾配値を取得するようにさらに構成され得る。１つまたは複数のプロセッサは、ビデオブロックがアフィンモードで符号化されないとき、ＢＤＯＦに基づいてビデオサブブロック内のサンプルのための動き洗練化を取得するようにさらに構成され得る。１つまたは複数のプロセッサは、ビデオブロックがアフィンモードで符号化されるとき、ＰＲＯＦに基づいてビデオサブブロック内のサンプルのための動き洗練化を取得するようにさらに構成され得る。１つまたは複数のプロセッサは、動き洗練化に基づいてビデオブロックの予測サンプルを取得するようにさらに構成され得る。

本開示の第４の態様によれば、命令を記憶した非一時的コンピュータ可読記憶媒体が提供される。命令が装置の１つまたは複数のプロセッサによって実行されるとき、命令は、デコーダにおいて、ビデオブロックに関連付けられた第１の参照ピクチャＩ^（０）および第２の参照ピクチャＩ^（１）を取得することを装置に実施させ得る。表示順序において、第１の参照ピクチャＩ^（０）は現在のピクチャの前にあり得、第２の参照ピクチャＩ^（１）は現在のピクチャの後にあり得る。命令は、デコーダにおいて、第１の参照ピクチャＩ^（０）内の参照ブロックからビデオブロックの第１の予測サンプルＩ^（０）（ｉ，ｊ）を取得することを装置にさらに実施させ得る。ｉおよびｊは現在のピクチャを有する１つのサンプルの座標を表す。命令は、デコーダにおいて、第２の参照ピクチャＩ^（１）内の参照ブロックからビデオブロックの第２の予測サンプルＩ^（１）（ｉ，ｊ）を取得することを装置にさらに実施させ得る。命令は、デコーダによって、少なくとも１つのフラグを受信することを装置にさらに実施させ得る。少なくとも１つのフラグは、ＳＰＳにおいてエンコーダによってシグナリングされ得、現在のビデオブロックに対してＢＤＯＦおよびＰＲＯＦが有効化されるかどうかをシグナリングする。命令は、デコーダにおいて、少なくとも１つのフラグが有効化されるとき、ビデオブロックがアフィンモードで符号化されないときに第１の予測サンプルＩ^（０）（ｉ，ｊ）および第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいてビデオブロックの動き洗練化を導出するためにＢＤＯＦを適用することを装置にさらに実施させ得る。命令は、デコーダにおいて、少なくとも１つのフラグが有効化されるとき、ビデオブロックがアフィンモードで符号化されるときに第１の予測サンプルＩ^（０）（ｉ，ｊ）および第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいてビデオブロックの動き洗練化を導出するためにＰＲＯＦを適用することを装置にさらに実施させ得る。命令は、デコーダにおいて、動き洗練化に基づいてビデオブロックの予測サンプルを取得することを装置にさらに実施させ得る。

本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、本開示と一致する例を例示し、説明と共に本開示の原理を説明するのに役立つ。

本開示の一例に係るエンコーダのブロック図である。本開示の一例に係るデコーダのブロック図である。本開示の一例に係るマルチタイプ木構造におけるブロック区分を例示する図である。本開示の一例に係るマルチタイプ木構造におけるブロック区分を例示する図である。本開示の一例に係るマルチタイプ木構造におけるブロック区分を例示する図である。本開示の一例に係るマルチタイプ木構造におけるブロック区分を例示する図である。本開示の一例に係るマルチタイプ木構造におけるブロック区分を例示する図である。本開示の一例に係るＢＤＯＦモデルの図の例示である。本開示の一例に係るアフィンモデルの例示である。本開示の一例に係るアフィンモデルの例示である。本開示の一例に係るアフィンモデルの例示である。本開示の一例に係るＰＲＯＦの例示である。本開示の一例に係るＢＤＯＦのワークフローである。本開示の一例に係るＰＲＯＦのワークフローである。本開示の一例に係るビデオ信号を復号するためのＢＤＯＦおよびＰＲＯＦの統合方法である。本開示の一例に係るビデオ信号を復号するためのＢＤＯＦおよびＰＲＯＦの方法である。本開示の一例に係る双予測のためのＰＲＯＦのワークフローの例示である。本開示に係るＢＤＯＦおよびＰＲＯＦプロセスのパイプライン・ステージの例示である。本開示に係るＢＤＯＦの勾配導出方法の例示である。本開示に係るＰＲＯＦの勾配導出方法の例示である。本開示の一例に係る、アフィンモードのためのテンプレートサンプルを導出する例示である。本開示の一例に係るアフィンモードのためのテンプレートサンプルを導出する例示である。本開示の一例に係るアフィンモードのためのＰＲＯＦおよびＬＩＣを排他的に有効化する例示である。本開示の一例に係るアフィンモードのためのＰＲＯＦおよびＬＩＣを一緒に有効化する例示である。本開示の一例に係る１６×１６ＢＤＯＦＣＵに適用される提案されるパディング方法を例示する図である。本開示の一例に係る１６×１６ＢＤＯＦＣＵに適用される提案されるパディング方法を例示する図である。本開示の一例に係る１６×１６ＢＤＯＦＣＵに適用される提案されるパディング方法を例示する図である。本開示の一例に係る１６×１６ＢＤＯＦＣＵに適用される提案されるパディング方法を例示する図である。本開示の一例に係るユーザインターフェースと結合されたコンピューティング環境を例示する図である。

次に、その例が添付の図面に例示されている例示的な実施形態への参照が詳細に行われる。以下の説明は添付の図面を参照し、添付の図面では、別段に表されない限り、異なる図面における同じ番号は同じまたは同様の要素を表す。例示的な実施形態の以下の説明に記載される実装形態は、本開示と一致する全ての実装形態を表すものではない。その代わりに、これらの実装形態は、添付の特許請求の範囲に列挙されるような本開示に関する態様と一致する装置および方法の例にすぎない。

本開示で使用される用語は、特定の実施形態のみを説明するためのものであり、本開示を限定することは意図されていない。本開示および添付の特許請求の範囲で使用される場合、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈が別段に明確に示さない限り、複数形も含むことが意図されている。本明細書で使用される「および／または」という用語は、関連する列挙された項目のうちの１つまたは複数の任意のまたは全ての可能な組合せを意味し、それらを含むことが意図されていることも理解されるべきである。

「第１の」、「第２の」、「第３の」などの用語は様々な情報を説明するために本明細書で使用され得るが、情報はこれらの用語によって限定されるべきではないことが理解されるべきである。これらの用語は、あるカテゴリの情報を別のカテゴリの情報と区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第１の情報が第２の情報と称されることがあり、同様に、第２の情報が第１の情報と称されることもある。本明細書で使用される場合、「ｉｆ」という用語は、文脈に応じて、「～とき（ｗｈｅｎ）」または「～すると（ｕｐｏｎ）」または「判断に応答して（ｉｎｒｅｓｐｏｎｓｅｔｏａｊｕｄｇｍｅｎｔ）」を意味するものと理解され得る。

前の世代のビデオ符号化規格Ｈ．２６４／ＭＰＥＧＡＶＣと比較して約５０％のビットレート節約または同等の知覚品質を提供するＨＥＶＣ規格の第１のバージョンは、２０１３年１０月に最終決定された。ＨＥＶＣ規格はその前身よりも著しい符号化改善を提供するが、追加の符号化ツールによってＨＥＶＣよりも優れた符号化効率が達成され得るという証拠がある。それに基づいて、ＶＣＥＧとＭＰＥＧの両方が将来のビデオ符号化規格化のための新しい符号化技術の探索作業を開始した。共同ビデオ探索チーム（ＪＶＥＴ）は、符号化効率のかなりの向上を可能にすることができる先端技術の重要な研究を開始するためにＩＴＵ－ＴＶＥＣＧおよびＩＳＯ／ＩＥＣＭＰＥＧによって２０１５年１０月に形成された。共同探索モデル（ＪＥＭ）と呼ばれる１つの参照ソフトウェアは、いくつかの追加の符号化ツールをＨＥＶＣテストモデル（ＨＭ）の上で統合することによってＪＶＥＴによって保守された。

２０１７年１０月に、ＨＥＶＣを超える能力を有するビデオ圧縮に関する共同提案募集（ＣｆＰ：ｃａｌｌｆｏｒｐｒｏｐｏｓａｌ）がＩＴＵ－ＴおよびＩＳＯ／ＩＥＣによって出された。２０１８年４月に、第１０回ＪＶＥＴ会合において２３のＣｆＰ応答が受領および評価され、ＨＥＶＣよりもおよそ４０％上回る圧縮効率利得を実証した。そのような評価結果に基づいて、ＪＶＥＴは、多用途ビデオ符号化（ＶＶＣ）と名付けられた新世代のビデオ符号化規格を開発するための新しいプロジェクトを立ち上げた。同月に、ＶＶＣ規格の参照実装を実証するために、ＶＶＣテストモデル（ＶＴＭ）と呼ばれる１つの参照ソフトウェア・コードベースが確立された。

ＨＥＶＣと同様に、ＶＶＣはブロックベースのハイブリッドビデオ符号化フレームワーク上に構築されている。

図１は、ＶＶＣのためのブロックベースのビデオエンコーダの概略図を示す。具体的には、図１は、典型的なエンコーダ１００を示す。エンコーダ１００は、ビデオ入力１１０、動き補償１１２、動き推定１１４、イントラ／インター・モード決定１１６、ブロック予測子１４０、加算器１２８、変換１３０、量子化１３２、予測関連情報１４２、イントラ予測１１８、ピクチャバッファ１２０、逆量子化１３４、逆変換１３６、加算器１２６、メモリ１２４、ループ内フィルタ１２２、エントロピー符号化１３８、およびビットストリーム１４４を有する。

エンコーダ１００において、ビデオフレームは処理のために複数のビデオブロックに区分される。所与のビデオブロックごとに、インター予測手法またはイントラ予測手法のいずれかに基づいて予測が形成される。

ビデオ入力１１０の一部である現在のビデオブロックとブロック予測子１４０の一部であるその予測子との間の差分を表す予測残差が、加算器１２８から変換１３０に送信される。次いで、変換係数が、エントロピー低減のために変換１３０から量子化１３２に送信される。次いで、量子化された係数が、圧縮されたビデオビットストリームを生成するためにエントロピー符号化１３８に供給される。図１に示されるように、ビデオブロック区分情報、動きベクトル（ＭＶ）、参照ピクチャインデックス、およびイントラ予測モードなどのイントラ／インター・モード決定１１６からの予測関連情報１４２も、エントロピー符号化１３８を通じて供給され、圧縮されたビットストリーム１４４の中に保存される。圧縮されたビットストリーム１４４はビデオビットストリームを含む。

エンコーダ１００において、予測の目的でピクセルを再構成するために、デコーダ関連の回路構成も必要とされる。最初に、逆量子化１３４および逆変換１３６を通じて予測残差が再構成される。この再構成された予測残差は、現在のビデオブロックのためのフィルタリングされていない再構成されたピクセルを生成するためにブロック予測子１４０と組み合わされる。

空間予測（または「イントラ予測」）は、現在のビデオブロックを予測するために、すでに符号化された隣接ブロックのサンプル（参照サンプルと呼ばれる）からのピクセルを現在のビデオブロックと同じビデオフレームにおいて使用する。

時間予測（「インター予測」とも呼ばれる）は、現在のビデオブロックを予測するために、すでに符号化されたビデオピクチャからの再構成されたピクセルを使用する。時間予測は、ビデオ信号に固有の時間冗長性を低減する。所与の符号化ユニット（ＣＵ）または符号化ブロックのための時間予測信号は、通常、現在のＣＵとその時間参照との間の動きの量および方向を示す１つまたは複数のＭＶによってシグナリングされる。さらに、複数の参照ピクチャがサポートされる場合、時間予測信号が参照ピクチャストレージ内のどの参照ピクチャから来ているかを識別するために使用される１つの参照ピクチャインデックスが追加的に送信される。

動き推定１１４は、ビデオ入力１１０とピクチャバッファ１２０からの信号とを取り入れ、動き補償１１２に動き推定信号を出力する。動き補償１１２は、ビデオ入力１１０と、ピクチャバッファ１２０からの信号と、動き推定１１４からの動き推定信号とを取り入れ、イントラ／インター・モード決定１１６に動き補償信号を出力する。

空間予測および／または時間予測が実施された後、エンコーダ１００内のイントラ／インター・モード決定１１６は、例えばレートひずみ最適化方法に基づいて、最良の予測モードを選ぶ。次いで、ブロック予測子１４０は現在のビデオブロックから減算され、結果として生じる予測残差は変換１３０および量子化１３２を使用して脱相関される。結果として生じる量子化された残差係数は、再構成された残差を形成するために、逆量子化１３４によって逆量子化され、逆変換１３６によって逆変換され、次いで、再構成された残差は、ＣＵの再構成された信号を形成するために、予測ブロックに戻って加算される。さらに、デブロッキングフィルタ、サンプル適応オフセット（ＳＡＯ）、および／または適応ループ内フィルタ（ＡＬＦ）などのループ内フィルタリング１２２は、ピクチャバッファ１２０の参照ピクチャストレージに入れられる前に、再構成されたＣＵ上で適用され、将来のビデオブロックを符号化するために使用され得る。出力ビデオビットストリーム１４４を形成するために、符号化モード（インターまたはイントラ）、予測モード情報、動き情報、および量子化された残差係数は全て、ビットストリームを形成するためにエントロピー符号化ユニット１３８に送信されて、さらに圧縮され、パッキングされる。

図１は、一般的なブロックベースのハイブリッドビデオ符号化システムのブロック図を与える。入力ビデオ信号は、（符号化ユニット（ＣＵ）と呼ばれる）ブロックごとに処理される。ＶＴＭ－１．０では、ＣＵは最大１２８×１２８ピクセルであり得る。しかしながら、四分木のみに基づいてブロックを区分するＨＥＶＣとは異なり、ＶＶＣでは、１つの符号化ツリーユニット（ＣＴＵ）は、四分木／二分木／三分木に基づいて、変動する局所特性に適合するようにＣＵにスプリットされる。加えて、ＨＥＶＣにおける複数の区分ユニット・タイプの概念が取り除かれる、すなわち、ＣＵ、予測ユニット（ＰＵ）、および変換ユニット（ＴＵ）の区別はもはやＶＶＣに存在せず、その代わりに、さらなる区分なしに、予測と変換の両方のための基本単位として各ＣＵが常に使用される。マルチタイプ木構造では、１つのＣＴＵは最初に四分木構造によって区分される。次いで、各四分木リーフ・ノードが、二分および三分木構造によってさらに区分され得る。

図３Ａ、図３Ｂ、図３Ｃ、図３Ｄ、および図３Ｅに示されるように、四分区分、水平二分区分、垂直二分区分、水平三分区分、および垂直三分区分という５つのスプリット・タイプがある。

図３Ａは、本開示に係る、マルチタイプ木構造におけるブロック四分区分を例示する図を示す。

図３Ｂは、本開示に係る、マルチタイプ木構造におけるブロック垂直二分区分を例示する図を示す。

図３Ｃは、本開示に係る、マルチタイプ木構造におけるブロック水平二分区分を例示する図を示す。

図３Ｄは、本開示に係る、マルチタイプ木構造におけるブロック垂直三分区分を例示する図を示す。

図３Ｅは、本開示に係る、マルチタイプ木構造におけるブロック水平三分区分を例示する図を示す。

図１では、空間予測および／または時間予測が実施され得る。空間予測（または「イントラ予測」）は、現在のビデオブロックを予測するために、すでに符号化された隣接ブロックのサンプル（参照サンプルと呼ばれる）からのピクセルを同じビデオピクチャ／スライスにおいて使用する。空間予測は、ビデオ信号に固有の空間冗長性を低減する。時間予測（「インター予測」または「動き補償予測」とも呼ばれる）は、現在のビデオブロックを予測するために、すでに符号化されたビデオピクチャからの再構成されたピクセルを使用する。時間予測は、ビデオ信号に固有の時間冗長性を低減する。所与のＣＵのための時間予測信号は、通常、現在のＣＵとその時間参照との間の動きの量および方向を示す１つまたは複数の動きベクトル（ＭＶ）によってシグナリングされる。また、複数の参照ピクチャがサポートされる場合、時間予測信号が参照ピクチャストレージ内のどの参照ピクチャから来ているかを識別するために使用される１つの参照ピクチャインデックスが追加的に送信される。空間予測および／または時間予測の後、エンコーダ内のモード決定ブロックは、例えばレートひずみ最適化方法に基づいて、最良の予測モードを選ぶ。次いで、予測ブロックは現在のビデオブロックから減算され、予測残差は変換および量子化を使用して脱相関される。量子化された残差係数は、再構成された残差を形成するために、逆量子化および逆変換され、次いで、再構成された残差は、ＣＵの再構成された信号を形成するために、予測ブロックに戻って加算される。さらに、デブロッキングフィルタ、サンプル適応オフセット（ＳＡＯ）、および適応ループ内フィルタ（ＡＬＦ）などのループ内フィルタリングは、参照ピクチャストアに入れられる前に、再構成されたＣＵ上で適用され、将来のビデオブロックを符号化するために使用され得る。出力ビデオビットストリームを形成するために、符号化モード（インターまたはイントラ）、予測モード情報、動き情報、および量子化された残差係数は全て、ビットストリームを形成するためにエントロピー符号化ユニットに送信されて、さらに圧縮され、パッキングされる。

図２は、ＶＶＣのためのビデオデコーダの概略ブロック図を示す。具体的には、図２は、典型的なデコーダ２００のブロック図を示す。デコーダ２００は、ビットストリーム２１０、エントロピー復号２１２、逆量子化２１４、逆変換２１６、加算器２１８、イントラ／インター・モード選択２２０、イントラ予測２２２、メモリ２３０、ループ内フィルタ２２８、動き補償２２４、ピクチャバッファ２２６、予測関連情報２３４、およびビデオ出力２３２を有する。

デコーダ２００は、図１のエンコーダ１００にある再構成関連のセクションと同様である。デコーダ２００において、量子化された係数レベルおよび予測関連の情報を導出するために、入ってくるビデオビットストリーム２１０が最初にエントロピー復号２１２を通じて復号される。次いで、再構成された予測残差を取得するために、量子化された係数レベルが逆量子化２１４および逆変換２１６を通じて処理される。イントラ／インター・モード選択器２２０において実装されるブロック予測子機構は、復号された予測情報に基づいて、イントラ予測２２２または動き補償２２４のいずれかを実施するように構成される。フィルタリングされていない再構成されたピクセルのセットは、加算器（ｓｕｍｍｅｒ）２１８を使用して、逆変換２１６からの再構成された予測残差とブロック予測子機構によって生成された予測出力を合計することによって取得される。

再構成されたブロックはさらに、参照ピクチャストアとして機能するピクチャバッファ２２６に記憶される前に、ループ内フィルタ２２８を通過し得る。ピクチャバッファ２２６内の再構成されたビデオは、表示デバイスを駆動するために送信され、ならびに将来のビデオブロックを予測するために使用され得る。ループ内フィルタ２２８がオンにされている状況では、フィルタリング動作は、最終的な再構成されたビデオ出力２３２を導出するために、これらの再構成されたピクセルに対して実施される。

図２は、ブロックベースのビデオデコーダの概略ブロック図を与える。ビデオビットストリームは最初に、エントロピー復号ユニットにおいてエントロピー復号される。符号化モードおよび予測情報は、予測ブロックを形成するために、空間予測ユニット（イントラ符号化される場合）または時間予測ユニット（インター符号化される場合）のいずれかに送信される。残差変換係数は、残差ブロックを再構成するために、逆量子化ユニットおよび逆変換ユニットに送信される。次いで、予測ブロックおよび残差ブロックが合計される。再構成されたブロックはさらに、参照ピクチャストアに記憶される前に、ループ内フィルタリングを通過し得る。次いで、参照ピクチャストア内の再構成されたビデオは、表示デバイスを駆動するために送出され、ならびに将来のビデオブロックを予測するために使用される。

一般に、ＶＶＣにおいて適用される基本的なインター予測技法は、いくつかのモジュールがさらに拡張されるおよび／または強化されることを除いて、ＨＥＶＣのインター予測技法と同じに保たれる。特に、全ての先行するビデオ規格の場合、１つの符号化ブロックは、符号化ブロックが単予測されるときにはたった１つのＭＶのみに、または符号化ブロックが双予測されるときには２つのＭＶのみに関連付けられ得る。従来のブロックベースの動き補償のそのような制限により、小さい動きが動き補償の後の予測サンプル内に依然として残る可能性があり、したがって、動き補償の全体的な効率に悪影響を及ぼす。ＭＶの粒度と精度の両方を改善するために、オプティカルフローに基づく２つのサンプル単位の洗練化方法、すなわち、アフィンモードのための双方向オプティカルフロー（ＢＤＯＦ）およびオプティカルフローによる予測洗練化（ＰＲＯＦ）が、ＶＶＣ規格のために現在研究されている。以下では、２つのインター符号化ツールの主な技術的態様が簡単に検討される。

双方向オプティカルフロー
ＶＶＣでは、ＢＤＯＦは、双予測された符号化ブロックの予測サンプルを洗練するために適用される。具体的には、図４に示されるように、ＢＤＯＦは、双予測が使用されるときにブロックベースの動き補償予測の上で実施されるサンプル単位の動き洗練化である。

図４は、本開示に係る、ＢＤＯＦモデルの例示を示す。

各４×４サブブロックの動き洗練化（ｖ_ｘ，ｖ_ｙ）は、サブブロックの周りの１つの６×６ウィンドウΩ内部でＢＤＯＦが適用された後のＬ０予測サンプルとＬ１予測サンプルとの間の差分を最小限に抑えることによって計算される。具体的には、（ｖ_ｘ，ｖ_ｙ）の値は、

として導出され、ここで、

はフロア関数であり、ｃｌｉｐ３（ｍｉｎ，ｍａｘ，ｘ）は［ｍｉｎ，ｍａｘ］の範囲の内部の所与の値ｘをクリップする関数であり、記号≫はビット単位の右シフト演算を表し、記号≪はビット単位の左シフト演算を表し、ｔｈ_ＢＤＯＦは不規則な局所動きによる伝搬誤差を防止するための動き洗練化しきい値であり、動き洗練化しきい値は１≪ｍａｘ（５，ｂｉｔ－ｄｅｐｔｈ－７）．に等しく、ここで、ｂｉｔ－ｄｅｐｔｈは内部ビット深度である。（１）において、

、

である。

Ｓ_１、Ｓ_２、Ｓ_３、Ｓ_５およびＳ_６の値は、

として計算され、ここで、

であり、ここで、Ｉ^（ｋ）（ｉ，ｊ）は、中間の高精度（すなわち、１６ビット）において生成されるｋ＝０，１であるリストｋ内の予測信号の座標（ｉ，ｊ）におけるサンプル値であり、

および

は、その２つの隣接サンプルの間の差分を直接計算することによって取得されたサンプルの水平勾配および垂直勾配であり、すなわち、

である。

（１）において導出された動き洗練化に基づいて、ＣＵの最終的な双予測サンプルは、

によって示されるように、オプティカルフローモデルに基づいて動き軌道に沿ってＬ０／Ｌ１予測サンプルを補間することによって計算され、ここで、ｓｈｉｆｔおよびｏ_{ｏｆｆｓｅｔ}は、それぞれ１５－ｂｉｔ－ｄｅｐｔｈおよび１≪（１４－ｂｉｔ－ｄｅｐｔｈ）＋２・（１≪１３）に等しい、双予測のためのＬ０予測信号およびＬ１予測信号を組み合わせるために適用される右シフト値およびオフセット値である。上記のビット深度制御方法に基づいて、ＢＤＯＦプロセス全体の中間パラメータの最大ビット深度が３２ビットを超えず、乗算への最も大きい入力が１５ビット以内である、すなわち、１つの１５ビット乗算器がＢＤＯＦ実装には十分であることが保証される。

アフィンモード
ＨＥＶＣでは、動き補償予測に対して並進動きモデルのみが適用される。一方、現実の世界では、多くの種類の動き、例えば、ズームイン／アウト、回転、透視動き（ｐｅｒｓｐｅｃｔｉｖｅｍｏｔｉｏｎ）、および他の不規則な動きがある。ＶＶＣでは、アフィン動き補償予測は、インター予測に対して並進動きモデルが適用されるかまたはアフィン動きモデルが適用されるかを示すためにインター符号化ブロックごとに１つのフラグをシグナリングすることによって適用される。現在のＶＶＣ設計では、４パラメータアフィンモードおよび６パラメータアフィンモードを含む２つのアフィンモードは、１つのアフィン符号化ブロックに対してサポートされている。

４パラメータアフィンモデルは、以下のパラメータ、すなわち、それぞれ水平方向および垂直方向での並進運動のための２つのパラメータと、両方向に対するズーム動きのための１つのパラメータおよび回転動きのための１つのパラメータとを有する。水平ズームパラメータは垂直ズームパラメータに等しい。水平回転パラメータは垂直回転パラメータに等しい。動きベクトルおよびアフィンパラメータのより良い適応を達成するために、ＶＶＣでは、それらのアフィンパラメータは、現在のブロックの左上隅および右上隅にある２つのＭＶ（制御点動きベクトル（ＣＰＭＶ：ｃｏｎｔｒｏｌｐｏｉｎｔｍｏｔｉｏｎｖｅｃｔｏｒ）とも呼ばれる）に変換される。図５Ａおよび図５Ｂに示されるように、ブロックのアフィン動きフィールドは、２つの制御点ＭＶ（Ｖ_０，Ｖ_１）によって記述される。

図５Ａは、本開示に係る、４パラメータアフィンモデルの例示を示す。

図５Ｂは、本開示に係る、４パラメータアフィンモデルの例示を示す。

制御点動きに基づいて、１つのアフィン符号化されたブロックの動きフィールド（ｖ_ｘ，ｖ_ｙ）は、

として記述される。

６パラメータアフィンモードは、以下のパラメータ、すなわち、それぞれ水平方向および垂直方向での並進運動のための２つのパラメータと、水平方向でのズーム動きのための１つのパラメータおよび回転動きのための１つのパラメータと、垂直方向でのズーム動きのための１つのパラメータおよび回転動きのための１つのパラメータとを有する。６パラメータアフィン動きモデルは、３つのＣＰＭＶにおいて３つのＭＶを用いて符号化される。

図６は、本開示に係る、６パラメータアフィンモデルの例示を示す。

図６に示されるように、１つの６パラメータアフィンブロックの３つの制御点は、ブロックの左上隅、右上隅、および左下隅にある。左上の制御点における動きは並進動きに関し、右上の制御点における動きは水平方向での回転動きおよびズーム動きに関し、左下の制御点における動きは垂直方向での回転動きおよびズーム動きに関する。４パラメータアフィン動きモデルと比較して、６パラメータの水平方向での回転動きおよびズーム動きは、垂直方向でのそれらの動きと同じではないことがある。（Ｖ_０，Ｖ_１，Ｖ_２）が図６における現在のブロックの左上隅、右上隅、および左下隅のＭＶであると仮定すると、各サブブロックの動きベクトル（ｖ_ｘ，ｖ_ｙ）は、制御点における３つのＭＶを使用して

として導出される。

アフィンモードのためのオプティカルフローによる予測洗練化
アフィン動き補償精度を改善するために、オプティカルフローモデルに基づいてサブブロックベースのアフィン動き補償を洗練するＰＲＯＦは、現在のＶＶＣにおいて現在研究されている。具体的には、サブブロックベースのアフィン動き補償を実施した後、１つのアフィンブロックのルーマ予測サンプルが、オプティカルフロー方程式に基づいて導出された１つのサンプル洗練化値によって修正される。詳細には、ＰＲＯＦの動作は以下の４つのこととして要約され得る。

こと１：サブブロックベースのアフィン動き補償は、４パラメータアフィンモデルについては（６）および６パラメータアフィンモデルについては（７）において導出されたサブブロックＭＶを使用してサブブロック予測Ｉ（ｉ，ｊ）を生成するために実施される。

こと２：各予測サンプルの空間勾配ｇ_ｘ（ｉ，ｊ）およびｇ_ｙ（ｉ，ｊ）は、

として計算される。

勾配を計算するために、１つのサブブロックの各側に予測サンプルの１つの追加の行／列が生成されることが必要である。メモリ帯域幅および複雑性を低減するために、延長された境界上のサンプルは、追加の補間プロセスを回避するために参照ピクチャ内の最も近い整数ピクセル位置からコピーされる。

こと３：ルーマ予測洗練化値は、

によって計算され、ここで、Δｖ（ｉ，ｊ）は、サンプルロケーション（ｉ，ｊ）について算出され、ｖ（ｉ，ｊ）によって示されるピクセルＭＶと、ピクセル（ｉ，ｊ）があるサブブロックのサブブロックＭＶとの間の差分である。加えて、現在のＰＲＯＦ設計では、予測洗練化を元の予測サンプルに加算した後、洗練された予測サンプルの値を１５ビット以内になるようにクリップするために１つのクリッピング動作が実施され、すなわち、

であり、ここで、Ｉ（ｉ，ｊ）およびＩ^ｒ（ｉ，ｊ）は、それぞれ、ロケーション（ｉ，ｊ）における元の予測サンプルおよび洗練された予測サンプルである。

図７は、本開示に係る、アフィンモードのためのＰＲＯＦプロセスを例示する。

サブブロック中心に対するアフィンモデルパラメータおよびピクセルロケーションはサブブロックによって変化しないので、Δｖ（ｉ，ｊ）は第１のサブブロックについて計算され、同じＣＵ内の他のサブブロックについて再利用され得る。ΔｘおよびΔｙを、サンプルロケーション（ｉ，ｊ）からサンプルが属するサブブロックの中心への水平オフセットおよび垂直オフセットとすると、Δｖ（ｉ，ｊ）は、

として導出され得る。

アフィンサブブロックＭＶ導出方程式（６）および（７）に基づいて、ＭＶ差分Δｖ（ｉ，ｊ）が導出され得る。具体的には、４パラメータアフィンモデルの場合、

である。

６パラメータアフィンモデルの場合、

であり、ここで、（ｖ_０ｘ，ｖ_０ｙ）、（ｖ_１ｘ，ｖ_１ｙ）、（ｖ_２ｘ，ｖ_２ｙ）は現在の符号化ブロックの左上、右上、および左下の制御点ＭＶであり、ｗおよびｈはブロックの幅および高さである。既存のＰＲＯＦ設計では、ＭＶ差分Δｖ_ｘおよびΔｖ_ｙは常に１／３２ペルの精度で導出される。

局所照明補償
局所照明補償（ＬＩＣ：ｌｏｃａｌｉｌｌｕｍｉｎａｔｉｏｎｃｏｍｐｅｎｓａｔｉｏｎ）は、時間隣接ピクチャの間に存在する局所照明変化の問題に対処するために使用される符号化ツールである。重みパラメータとオフセットパラメータのペアは、１つの現在のブロックの予測サンプルを取得するために参照サンプルに適用される。一般的な数学モデルは、

として与えられ、ここで、Ｐ_ｒ［ｘ＋ｖ］は動きベクトルｖによって示される参照ブロックであり、［α，β］は参照ブロックに対する重みパラメータとオフセットパラメータの対応するペアであり、Ｐ［ｘ］は最終的な予測ブロックである。重みパラメータとオフセットパラメータのペアは、現在のブロックのテンプレート（すなわち、隣接する再構成されたサンプル）とテンプレートの参照ブロック（現在のブロックの動きベクトルを使用して導出される）とに基づいて最小線形平均二乗誤差（ＬＬＭＳＥ：ｌｅａｓｔｌｉｎｅａｒｍｅａｎｓｑｕａｒｅｅｒｒｏｒ）アルゴリズムを使用して推定される。テンプレートサンプルとテンプレートの参照サンプルとの間の平均二乗差を最小限に抑えることによって、αおよびβの数学表現は、次のように導出され得る。

ここで、Ｉはテンプレート内のサンプルの数を表す。Ｐ_ｃ［ｘ_ｉ］は現在のブロックのテンプレートのｉ番目のサンプルであり、Ｐ_ｒ［ｘ_ｉ］は動きベクトルｖに基づくｉ番目のテンプレートサンプルの参照サンプルである。

予測方向（Ｌ０またはＬ１）ごとに多くても１つの動きベクトルを含む通常のインターブロックに適用されることに加えて、ＬＩＣはアフィンモード符号化されたブロックにも適用され、ここで、１つの符号化ブロックは複数のより小さいサブブロックにさらにスプリットされ、各サブブロックは異なる動き情報に関連付けられ得る。アフィンモード符号化されたブロックのＬＩＣのための参照サンプルを導出するために、図１６Ａおよび図１６Ｂに示されるように、１つのアフィン符号化ブロックの上のテンプレート内の参照サンプルは、上のサブブロック行内の各サブブロックの動きベクトルを使用してフェッチされるが、左のテンプレート内の参照サンプルは、左のサブブロック列内のサブブロックの動きベクトルを使用してフェッチされる。その後、（１２）に示されるものと同じＬＬＭＳＥ導出方法が、複合テンプレートに基づいてＬＩＣパラメータを導出するために適用される。

図１６Ａは、本開示に係る、アフィンモードのためのテンプレートサンプルを導出するための例示を示す。この例示は、ＣｕｒＦｒａｍｅ１６２０およびＣｕｒＣＵ１６２２を含む。ＣｕｒＦｒａｍｅ１６２０は現在のフレームである。ＣｕｒＣＵ１６２２は現在の符号化ユニットである。

図１６Ｂは、アフィンモードのためのテンプレートサンプルを導出するための例示を示す。この例示は、ＲｅｆＦｒａｍｅ１６４０、ＣｏｌＣＵ１６４２、ＡＲｅｆ１６４３、ＢＲｅｆ１６４４、ＣＲｅｆ１６４５、ＤＲｅｆ１６４，６ＥＲｅｆ１６４７、ＦＲｅｆ１６４８、およびＧＲｅｆ１６４９を含む。ＲｅｆＦｒａｍｅ１６４０は参照フレームである。ＣｏｌＣＵ１６４２はコロケートされた符号化ユニットである。ＡＲｅｆ１６４３、ＢＲｅｆ１６４４、ＣＲｅｆ１６４５、ＤＲｅｆ１６４，６ＥＲｅｆ１６４７、ＦＲｅｆ１６４８、およびＧＲｅｆ１６４９は参照サンプルである。

本開示で使用される用語は、例示的な例のみを説明するためのものであり、本開示を限定することは意図されていない。本開示および添付の特許請求の範囲で使用される場合、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈が別段に明確に示さない限り、複数形も含むことが意図されている。本明細書で使用される「または」および「および／または」という用語は、文脈が別段に明確に示さない限り、関連する列挙された項目のうちの１つまたは複数の任意のまたは全ての可能な組合せを意味し、それらを含むことが意図されていることも理解されるべきである。

本明細書全体を通じた単数形または複数形での「１つの例（ｏｎｅｅｘａｍｐｌｅ）」、「一例（ａｎｅｘａｍｐｌｅ）」、「例示的な例（ｅｘｅｍｐｌａｒｙｅｘａｍｐｌｅ）」などへの言及は、一例に関連して説明される１つまたは複数の特定の特徴、構造、または特性が本開示の少なくとも１つの例に含まれることを意味する。したがって、本明細書全体を通じた様々な場所における単数形または複数形での「１つの例では（ｉｎｏｎｅｅｘａｍｐｌｅ）」または「一例では（ｉｎａｎｅｘａｍｐｌｅ）」、「例示的な例では（ｉｎａｎｅｘｅｍｐｌａｒｙｅｘａｍｐｌｅ）」などの句の出現は、必ずしも全てが同じ例を参照するとは限らない。さらに、１つまたは複数の例における特定の特徴、構造、または特性は、任意の適切なやり方で組み合わされ得る。

現在のＢＤＯＦ、ＰＲＯＦ、およびＬＩＣの設計
ＰＲＯＦはアフィンモードの符号化効率を高めることができるが、その設計は依然としてさらに改善される可能性がある。特に、ＰＲＯＦとＢＤＯＦの両方がオプティカルフローの概念に基づいて構築されるという事実を考慮すると、ＰＲＯＦがハードウェア実装を容易にするためにＢＤＯＦの既存の論理を最大限に活用することができるように、ＰＲＯＦおよびＢＤＯＦの設計をできるだけ調和させることが非常に望ましい。そのような考慮に基づいて、現在のＰＲＯＦ設計とＢＤＯＦ設計との間の相互作用に関する以下の非効率性が本開示において識別される。

「アフィンモードのためのオプティカルフローによる予測洗練化」のセクションにおいて説明されたように、方程式（８）では、勾配の精度は内部ビット深度に基づいて決定される。一方、ＭＶ差分、すなわち、Δｖ_ｘおよびΔｖ_ｙは常に１／３２ペルの精度で導出される。それに対応して、方程式（９）に基づいて、導出されたＰＲＯＦ洗練化の精度は内部ビット深度に依存する。しかしながら、ＢＤＯＦと同様に、より高いＰＲＯＦ導出精度を保つために、ＰＲＯＦは中間の高ビット深度（すなわち、１６ビット）で予測サンプル値の上で適用される。したがって、内部符号化ビット深度にかかわらず、ＰＲＯＦによって導出された予測洗練化の精度は、中間の予測サンプルの精度、すなわち、１６ビットと一致するはずである。言い換えれば、既存のＰＲＯＦ設計におけるＭＶ差分および勾配の表現ビット深度は、予測サンプル精度（すなわち、１６ビット）と比較して、正確な予測洗練化を導出するように完璧に適合しない。一方、方程式（１）、（４）、および（８）の比較に基づいて、既存のＰＲＯＦおよびＢＤＯＦは、サンプル勾配およびＭＶ差分を表すために異なる精度を使用する。前に指摘されたように、既存のＢＤＯＦ論理が再利用され得ないので、そのような非統合設計はハードウェアにとって望ましくない。

「アフィンモードのためのオプティカルフローによる予測洗練化」のセクションにおいて論じられたように、１つの現在のアフィンブロックが双予測されるとき、ＰＲＯＦはリストＬ０およびＬ１における予測サンプルに別々に適用され、次いで、拡張されたＬ０予測信号およびＬ１予測信号は最終的な双予測信号を生成するために平均される。それどころか、予測方向ごとにＰＲＯＦ洗練化を別々に導出する代わりに、ＢＤＯＦは予測洗練化を一度に導出し、次いで、予測洗練化は組み合わされたＬ０およびＬ１予測信号を拡張するために適用される。図８および図９（以下で説明される）は、双予測のための現在のＢＤＯＦおよびＰＲＯＦのワークフローを比較する。実際のコーデック・ハードウェアパイプライン設計では、より多くの符号化ブロックが並行して処理され得るように、通常、異なる主要な符号化／復号モジュールを各パイプライン・ステージに割り当てる。しかしながら、ＢＤＯＦワークフローとＰＲＯＦワークフローとの間の差により、これはＢＤＯＦおよびＰＲＯＦによって共有され得る１つの同じパイプライン設計を有するという困難をもたらすことがあり、このことは実際のコーデック実装にとって好ましくない。

図８は、本開示に係る、ＢＤＯＦのワークフローを示す。ワークフロー８００は、Ｌ０動き補償８１０、Ｌ１動き補償８２０、およびＢＤＯＦ８３０を含む。Ｌ０動き補償８１０は、例えば、前の参照ピクチャからの動き補償サンプルのリストであり得る。前の参照ピクチャは、ビデオブロック内の現在のピクチャの前の参照ピクチャである。Ｌ１動き補償８２０は、例えば、次の参照ピクチャからの動き補償サンプルのリストであり得る。次の参照ピクチャは、ビデオブロック内の現在のピクチャの後の参照ピクチャである。ＢＤＯＦ８３０は、上記で図４に関して説明されたように、Ｌ１動き補償８１０およびＬ１動き補償８２０から動き補償サンプルを取り入れ、予測サンプルを出力する。

図９は、本開示に係る、既存のＰＲＯＦのワークフローを示す。ワークフロー９００は、Ｌ０動き補償９１０、Ｌ１動き補償９２０、Ｌ０ＰＲＯＦ９３０、Ｌ１ＰＲＯＦ９４０、および平均９６０を含む。Ｌ０動き補償９１０は、例えば、前の参照ピクチャからの動き補償サンプルのリストであり得る。前の参照ピクチャは、ビデオブロック内の現在のピクチャの前の参照ピクチャである。Ｌ１動き補償９２０は、例えば、次の参照ピクチャからの動き補償サンプルのリストであり得る。次の参照ピクチャは、ビデオブロック内の現在のピクチャの後の参照ピクチャである。Ｌ０ＰＲＯＦ９３０は、上記で図７に関して説明されたように、Ｌ０動き補償９１０からＬ０動き補償サンプルを取り入れ、動き洗練化値を出力する。Ｌ１ＰＲＯＦ９４０は、上記で図７に関して説明されたように、Ｌ１動き補償９２０からＬ１動き補償サンプルを取り入れ、動き洗練化値を出力する。平均９６０は、Ｌ０ＰＲＯＦ９３０およびＬ１ＰＲＯＦ９４０の動き洗練化値出力を平均する。

１）ＢＤＯＦとＰＲＯＦの両方について、現在の符号化ブロック内部のサンプルごとに勾配が計算される必要があり、このことは、ブロックの各側に予測サンプルの１つの追加の行／列を生成することを必要とする。サンプル補間の追加の算出複雑性を回避するために、ブロックの周りの拡張領域内の予測サンプルは整数位置において（すなわち、補間なしで）参照サンプルから直接コピーされる。しかしながら、既存の設計によれば、異なるロケーションにおける整数サンプルは、ＢＤＯＦおよびＰＲＯＦの勾配値を生成するために選択される。具体的には、勾配計算には、ＢＤＯＦの場合、予測サンプルの左（水平勾配用）および予測サンプルの上方（垂直勾配用）にある整数参照サンプルが使用され、ＰＲＯＦの場合、予測サンプルに最も近い整数参照サンプルが使用される。ビット深度表現問題と同様に、そのような非統合勾配計算方法も、ハードウェアコーデック実装にとって望ましくない。

２）前に指摘されたように、ＰＲＯＦの動機は、各サンプルのＭＶとサンプルが属するサブブロックの中心で導出されたサブブロックＭＶとの間の小さいＭＶ差分を補償することである。現在のＰＲＯＦ設計によれば、ＰＲＯＦは、１つの符号化ブロックがアフィンモードによって予測されるときに常に呼び出される。しかしながら、方程式（６）および（７）に示されるように、１つのアフィンブロックのサブブロックＭＶは制御点ＭＶから導出される。したがって、制御点ＭＶの間の差分が比較的小さいとき、各サンプル位置におけるＭＶは一貫性があるはずである。そのような場合、ＰＲＯＦを適用する利益は非常に限定され得るので、性能／複雑性のトレードオフを考慮すると、ＰＲＯＦを行う価値がないことがある。

ＢＤＯＦ、ＰＲＯＦ、およびＬＩＣの改善
本開示では、ハードウェアコーデック実装を容易にするために既存のＰＲＯＦ設計を改善および簡略化するための方法が提供される。特に、既存のＢＤＯＦ論理をＰＲＯＦと最大限に共有するために、ＢＤＯＦおよびＰＲＯＦの設計を調和させることに特別な注意が払われる。一般に、本開示における提案される技術の主要な態様は、次のように要約される。

１）１つのより統合された設計を達成しながらＰＲＯＦの符号化効率を改善するために、ＢＤＯＦおよびＰＲＯＦによって使用されるサンプル勾配およびＭＶ差分の表現ビット深度を統合するための１つの方法が提案される。

２）ハードウェアパイプライン設計を容易にするために、双予測のためにＰＲＯＦのワークフローをＢＤＯＦのワークフローと調和させることが提案される。具体的には、Ｌ０およびＬ１について予測洗練化を別々に導出する既存のＰＲＯＦとは異なり、提案される方法は、組み合わされたＬ０およびＬ１予測信号に適用される予測洗練化を一度に導出する。

３）ＢＤＯＦおよびＰＲＯＦによって使用される勾配値を計算するために整数参照サンプルの導出を調和させるための２つの方法が提案される。

４）算出複雑性を低減するために、いくつかの条件が満たされたときにアフィン符号化ブロックに対するＰＲＯＦプロセスを適応的に無効化するための早期終了方法が提案される。

ＰＲＯＦ勾配およびＭＶ差分の改善されたビット深度表現設計
「問題の陳述」のセクションにおいて分析されたように、現在のＰＲＯＦにおけるＭＶ差分およびサンプル勾配の表現ビット深度は、正確な予測洗練化を導出するように整合されていない。さらに、サンプル勾配およびＭＶ差分の表現ビット深度はＢＤＯＦとＰＲＯＦとの間で一貫性がなく、このことはハードウェアにとって好ましくない。このセクションでは、ＢＤＯＦのビット深度表現方法をＰＲＯＦに拡張することによって、１つの改善されたビット深度表現方法が提案される。具体的には、提案される方法では、各サンプル位置における水平勾配および垂直勾配は、

として計算される。

加えて、ΔｘおよびΔｙを、１つのサンプルロケーションからサンプルが属するサブブロックの中心への、１／４ペル精度で表される水平オフセットおよび垂直オフセットと仮定すると、サンプル位置における対応するＰＲＯＦＭＶ差分Δｖ（ｘ，ｙ）は、

として導出され、ここで、ｄＭｖＢｉｔｓはＢＤＯＦプロセスによって使用される勾配値のビット深度であり、すなわち、ｄＭｖＢｉｔｓ＝ｍａｘ（５，（ｂｉｔ－ｄｅｐｔｈ－７））＋１である。方程式（１３）および（１４）では、ｃ、ｄ、ｅ、およびｆはアフィン制御点ＭＶに基づいて導出されたアフィンパラメータである。具体的には、４パラメータアフィンモデルの場合、

である。

６パラメータアフィンモデルの場合、

であり、ここで、（ｖ_０ｘ，ｖ_０ｙ）、（ｖ_１ｘ，ｖ_１ｙ）、（ｖ_２ｘ，ｖ_２ｙ）は、１／１６ペル精度で表される、現在の符号化ブロックの左上、右上、および左下の制御点ＭＶであり、ｗおよびｈはブロックの幅および高さである。

上記の議論では、方程式（１３）および（１４）に示されるように、固定された右シフトのペアは、勾配およびＭＶ差分の値を計算するために適用される。実際には、（１３）および（１４）に適用され得る異なるビット単位の右シフトは、中間の算出精度と内部ＰＲＯＦ導出プロセスのビット幅との間の異なるトレードオフに対する勾配およびＭＶ差分の様々な表現精度を達成する。例えば、入力ビデオが多くの雑音を含む場合、導出された勾配は各サンプルにおける真の局所的な水平勾配値／垂直勾配値を表すのに信頼できないものであり得る。そのような場合、勾配よりも多くのビットを使用してＭＶ差分を表すほうが理にかなっている。一方、入力ビデオが安定した動きを示すとき、アフィンモデルによって導出されたＭＶ差分は非常に小さいはずである。そうである場合、高精度のＭＶ差分を使用することは、導出されたＰＲＯＦ洗練化の精度を高めるという追加の利益をもたらすことができない。言い換えれば、そのような場合、勾配値を表すためにより多くのビットを使用することがより有益である。上記の考慮に基づいて、本開示の１つの実施形態では、ＰＲＯＦのための勾配およびＭＶ差分を計算するための１つの一般的な方法が以下で提案される。具体的には、各サンプル位置における水平勾配および垂直勾配がｎ_ａ個の右シフトを隣接予測サンプルの差分に適用することによって計算される、すなわち、

と仮定すると、サンプル位置における対応するＰＲＯＦＭＶ差分Δｖ（ｘ，ｙ）は、

として計算されるはずであり、ここで、ΔｘおよびΔｙは、１つのサンプルロケーションからサンプルが属するサブブロックの中心への、１／４ペル精度で表される水平オフセットおよび垂直オフセットであり、ｃ、ｄ、ｅ、およびｆは、１／１６ペルのアフィン制御点ＭＶに基づいて導出されたアフィンパラメータである。最終的に、サンプルの最終的なＰＲＯＦ洗練化は、

として計算される。

本開示の別の実施形態では、別のＰＲＯＦビット深度制御方法が次のように提案される。この方法では、各サンプル位置における水平勾配および垂直勾配は依然として、右シフトのｎ_ａビットを隣接予測サンプルの差分値に適用することによって（１８）と同様に計算される。サンプル位置における対応するＰＲＯＦＭＶ差分Δｖ（ｘ，ｙ）は、

として計算されるはずである。

加えて、全体的なＰＲＯＦ導出を適切な内部ビット深度に保つために、クリッピングが導出されたＭＶ差分に次のように適用される。

ここで、ｌｉｍｉｔは

に等しいしきい値であり、ｃｌｉｐ３（ｍｉｎ，ｍａｘ，ｘ）は［ｍｉｎ，ｍａｘ］の範囲の内部の所与の値ｘをクリップする関数である。１つの例では、ｎ_ｂの値は２^{ｍａｘ（５，ｂｉｔ－ｄｅｐｔｈ－７）}となるように設定される。最終的に、サンプルのＰＲＯＦ洗練化は、

として計算される。

双予測のためのＢＤＯＦおよびＰＲＯＦの調和されたワークフロー
前に論じられたように、１つのアフィン符号化ブロックが双予測されるとき、現在のＰＲＯＦが一方的に適用される。より具体的には、ＰＲＯＦサンプル洗練化が別々に導出され、リストＬ０およびＬ１内の予測サンプルに適用される。その後、それぞれリストＬ０およびＬ１からの洗練された予測信号は、ブロックの最終的な双予測信号を生成するために平均される。これは、サンプル洗練化が導出され、双予測信号に適用されるＢＤＯＦ設計とは対照的である。ＢＤＯＦおよびＰＲＯＦの双予測ワークフローの間のそのような差は、実際のコーデック・パイプライン設計にとって好ましくないことがある。

ハードウェアパイプライン設計を容易にするために、本開示に係る１つの簡略化方法は、２つの予測洗練化方法のワークフローが調和されるように、ＰＲＯＦの双予測プロセスを修正することである。具体的には、予測方向ごとに洗練化を別々に適用する代わりに、提案されるＰＲＯＦ方法は、リストＬ０およびＬ１の制御点ＭＶに基づいて予測洗練化を一度に導出し、次いで、導出された予測洗練化は、品質を高めるために、組み合わされたＬ０およびＬ１予測信号に適用される。具体的には、方程式（１４）において導出されたＭＶ差分に基づいて、１つのアフィン符号化ブロックの最終的な双予測サンプルは、提案される方法によって、

として計算され、ここで、ｓｈｉｆｔおよびｏ_{ｏｆｆｓｅｔ}は、双予測のためのＬ０予測信号およびＬ１予測信号を組み合わせるために適用される右シフト値およびオフセット値であり、それぞれ、（１５－ｂｉｔ－ｄｅｐｔｈ）および１≪（１４－ｂｉｔ－ｄｅｐｔｈ）＋（２≪１３）に等しい。さらに、（１８）に示されるように、既存のＰＲＯＦ設計における（（９）に示されるような）クリッピング動作は、提案される方法から削除される。

図１２は、本開示に係る、提案される双予測ＰＲＯＦ方法が適用されるときのＰＲＯＦプロセスの例示を示す。ＰＲＯＦプロセス１２００は、Ｌ０動き補償１２１０、Ｌ１動き補償１２２０、および双予測ＰＲＯＦ１２３０を含む。Ｌ０動き補償１２１０は、例えば、前の参照ピクチャからの動き補償サンプルのリストであり得る。前の参照ピクチャは、ビデオブロック内の現在のピクチャの前の参照ピクチャである。Ｌ１動き補償１２２０は、例えば、次の参照ピクチャからの動き補償サンプルのリストであり得る。次の参照ピクチャは、ビデオブロック内の現在のピクチャの後の参照ピクチャである。双予測ＰＲＯＦ１２３０は、上記で説明されたように、Ｌ１動き補償１２１０およびＬ１動き補償１２２０から動き補償サンプルを取り入れ、双予測サンプルを出力する。

図１２は、提案される双予測ＰＲＯＦ方法が適用されるときの対応するＰＲＯＦプロセスを例示する。ＰＲＯＦプロセス１２００は、Ｌ０動き補償１２１０、Ｌ１動き補償１２２０、および双予測ＰＲＯＦ１２３０を含む。Ｌ０動き補償１２１０は、例えば、前の参照ピクチャからの動き補償サンプルのリストであり得る。前の参照ピクチャは、ビデオブロック内の現在のピクチャの前の参照ピクチャである。Ｌ１動き補償１２２０は、例えば、次の参照ピクチャからの動き補償サンプルのリストであり得る。次の参照ピクチャは、ビデオブロック内の現在のピクチャの後の参照ピクチャである。双予測ＰＲＯＦ１２３０は、上記で説明されたように、Ｌ１動き補償１２１０およびＬ１動き補償１２２０から動き補償サンプルを取り入れ、双予測サンプルを出力する。

ハードウェアパイプライン設計のための提案される方法の潜在的な利益を実証するために、図１３は、ＢＤＯＦと提案されるＰＲＯＦの両方が適用されるときのパイプライン・ステージを例示するための１つの例を示す。図１３では、１つのインターブロックの復号プロセスは主に３つのことを含む。

１）符号化ブロックのＭＶを解析／復号し、参照サンプルをフェッチする。

２）符号化ブロックのＬ０予測信号および／またはＬ１予測信号を生成する。

３）符号化ブロックが１つの非アフィンモードによって予測されるときにはＢＤＯＦまたは符号化ブロックがアフィンモードによって予測されるときにはＰＲＯＦに基づいて、生成された双予測サンプルのサンプル単位の洗練化を実施する。

図１３は、本開示に係る、ＢＤＯＦと提案されるＰＲＯＦの両方が適用されるときの例示的なパイプライン・ステージの例示を示す。図１３は、ハードウェアパイプライン設計のための提案される方法の潜在的な利益を実証する。パイプライン・ステージ１３００は、ＭＶを解析／復号し、参照サンプルをフェッチする１３１０、動き補償１３２０、ＢＤＯＦ／ＰＲＯＦ１３３０を含む。パイプライン・ステージ１３００は、ビデオブロックＢＬＫ０、ＢＫＬ１、ＢＫＬ２、ＢＫＬ３、およびＢＬＫ４を符号化する。各ビデオブロックは、ＭＶを解析／復号し、参照サンプルをフェッチする１３１０において開始し、動き補償１３２０、次いで、動き補償１３２０、ＢＤＯＦ／ＰＲＯＦ１３３０に逐次的に移動する。これは、ＢＬＫ０が動き補償１３２０に移動するまで、ＢＬＫ０がパイプライン・ステージ１３００においてプロセスを開始しないことを意味する。時間がＴ０からＴ１、Ｔ２、Ｔ３、およびＴ４に経過するとき、全てのステージおよびビデオブロックについて同じである。

図１３では、１つのインターブロックの復号プロセスは主に３つのことを含む。

第１に、符号化ブロックのＭＶを解析／復号し、参照サンプルをフェッチする。

第２に、符号化ブロックのＬ０予測信号および／またはＬ１予測信号を生成する。

第３に、符号化ブロックが１つの非アフィンモードによって予測されるときにはＢＤＯＦまたは符号化ブロックがアフィンモードによって予測されるときにはＰＲＯＦに基づいて、生成された双予測サンプルのサンプル単位の洗練化を実施する。

図１３に示されるように、提案される調和方法が適用された後、ＢＤＯＦとＰＲＯＦの両方が双予測サンプルに直接適用される。ＢＤＯＦおよびＰＲＯＦが異なるタイプの符号化ブロックに適用される（すなわち、ＢＤＯＦが非アフィンブロックに適用され、ＰＲＯＦがアフィンブロックに適用される）ことを考えると、２つの符号化ツールは同時に呼び出されることができない。したがって、それらの対応する復号プロセスは、同じパイプライン・ステージを共有することによって実施され得る。これは、双予測の異なるワークフローのせいでＢＤＯＦとＰＲＯＦの両方に同じパイプライン・ステージを割り当てることが難しい既存のＰＲＯＦ設計よりも効率的である。

上記の議論では、提案される方法はＢＤＯＦおよびＰＲＯＦのワークフローの調和のみを考慮している。しかしながら、既存の設計によれば、２つの符号化ツールの基本的な動作単位は異なるサイズで実施される。具体的には、ＢＤＯＦの場合、１つの符号化ブロックはＷ_ｓ×Ｈ_ｓのサイズを有する複数のサブブロックにスプリットされ、ただし、Ｗ_ｓ＝ｍｉｎ（Ｗ，１６）およびＨ_ｓ＝ｍｉｎ（Ｈ，１６）であり、ここで、ＷおよびＨは符号化ブロックの幅および高さである。勾配計算およびサンプル洗練化導出などのＢＯＤＦ動作は、サブブロックごとに独立して実施される。一方、前に説明されたように、アフィン符号化ブロックは４×４サブブロックに分割され、各サブブロックは４パラメータアフィンモデルまたは６パラメータアフィンモデルのいずれかに基づいて導出された１つの個々のＭＶを割り当てられる。ＰＲＯＦはアフィンブロックのみに適用されるので、その基本的な動作単位は４×４サブブロックである。双予測ワークフロー問題と同様に、ＢＤＯＦとは異なる基本的な動作単位サイズをＰＲＯＦに使用することも、ハードウェア実装にとって好ましくなく、ＢＤＯＦおよびＰＲＯＦが全体的な復号プロセスの同じパイプライン・ステージを共有することを困難にする。そのような問題を解決するために、１つの実施形態では、アフィンモードのサブブロックサイズをＢＤＯＦのサブブロックサイズと同じになるように調節することが提案される。具体的には、提案される方法によれば、１つの符号化ブロックがアフィンモードによって符号化されるとき、１つの符号化ブロックはＷ_ｓ×Ｈ_ｓのサイズを有するサブブロックにスプリットされ、ただし、Ｗ_ｓ＝ｍｉｎ（Ｗ，１６）およびＨ_ｓ＝ｍｉｎ（Ｈ，１６）であり、ここで、ＷおよびＨは符号化ブロックの幅および高さである。各サブブロックは、１つの個々のＭＶを割り当てられ、１つの独立したＰＲＯＦ動作単位と見なされる。独立したＰＲＯＦ動作単位が、その上でのＰＲＯＦ動作が隣接するＰＲＯＦ動作単位からの情報を参照することなしに実施されることを保証するということは、言及するに値する。具体的には、１つのサンプル位置におけるＰＲＯＦＭＶ差分は、サンプル位置におけるＭＶとサンプルがあるＰＲＯＦ動作単位の中心におけるＭＶとの間の差分として計算され、ＰＲＯＦ導出によって使用される勾配は、各ＰＲＯＦ動作単位に沿ってサンプルをパディングすることによって計算される。提案される方法の断言される利益は、主に以下の態様、すなわち、１）動き補償とＢＤＯＦ／ＰＲＯＦ洗練化の両方のための統合された基本的な動作単位サイズを有する簡略化されたパイプライン・アーキテクチャ、２）アフィン動き補償のための拡大されたサブブロックサイズによる低減されたメモリ帯域幅使用、３）分数サンプル補間の低減されたサンプルごとの算出複雑性を含む。

提案される方法による低減された算出複雑性（すなわち、項目３））により、アフィン符号化ブロックに対する既存の６タップ補間フィルタ制約が取り除かれ得ることも言及されるべきである。その代わりに、非アフィン符号化ブロックに対するデフォルトの８タップ補間がアフィン符号化ブロックにも使用される。この場合の全体的な算出複雑性は、依然として、（６タップ補間フィルタを用いた４×４サブブロックに基づく）既存のＰＲＯＦ設計に比肩することができる。

ＢＤＯＦおよびＰＲＯＦのための勾配導出の調和
前に説明されたように、ＢＤＯＦとＰＲＯＦの両方は現在の符号化ブロック内部の各サンプルの勾配を計算し、このことはブロックの各側の予測サンプルの１つの追加の行／列にアクセスする。追加の補間複雑性を回避するために、ブロック境界の周りの拡張領域内の必要とされる予測サンプルは、整数参照サンプルから直接コピーされる。しかしながら、「問題の陳述」のセクションにおいて指摘されたように、異なるロケーションにおける整数サンプルは、ＢＤＯＦおよびＰＲＯＦの勾配値を計算するために使用される。

１つのより統一的な設計を達成するために、ＢＤＯＦおよびＰＲＯＦによって使用される勾配導出方法を統合するための２つの方法が以下で提案される。第１の方法では、ＰＲＯＦの勾配導出方法をＢＤＯＦの勾配導出方法と同じになるように調節することが提案される。具体的には、第１の方法によって、拡張領域内の予測サンプルを生成するために使用される整数位置は、分数サンプル位置をフロアダウンすることによって決定される、すなわち、選択された整数サンプル位置は、分数サンプル位置の左（水平勾配の場合）かつ分数サンプル位置の上（垂直勾配の場合）にある。

第２の方法では、ＢＤＯＦの勾配導出方法をＰＲＯＦの勾配導出方法と同じになるように調節することが提案される。より詳細には、第２の方法が適用されるとき、予測サンプルに最も近い整数参照サンプルが勾配計算に使用される。

図１４は、本開示に係る、ＢＤＯＦの勾配導出方法を使用する一例を示す。図１４では、空白円は整数位置における参照サンプルを表し、三角は現在のブロックの分数予測サンプルを表し、灰色の円は現在のブロックの拡張領域を満たすために使用した整数参照サンプルを表す。

図１５は、本開示に係る、ＰＲＯＦの勾配導出方法を使用する一例を示す。図１５では、空白円は整数位置における参照サンプルを表し、三角は現在のブロックの分数予測サンプルを表し、灰色の円は現在のブロックの拡張領域を満たすために使用した整数参照サンプルを表す。

図１４および図１５は、それぞれ、第１の方法（図１２）および第２の方法（図１３）が適用されるときのＢＤＯＦおよびＰＲＯＦのための勾配の導出に使用される、対応する整数サンプルロケーションを例示する。図１４および図１５では、空白円は整数位置における参照サンプルを表し、三角は現在のブロックの分数予測サンプルを表し、模様円は勾配導出のために現在のブロックの拡張領域を満たすために使用される整数参照サンプルを表す。

加えて、既存のＢＤＯＦ設計およびＰＲＯＦ設計によれば、予測サンプルパディングは異なる符号化レベルで実施される。具体的には、ＢＤＯＦの場合、パディングはｓｂＷｉｄｔｈ×ｓｂＨｅｉｇｈｔサブブロックの境界に沿って適用され、ただし、ｓｂＷｉｄｔｈ＝ｍｉｎ（ＣＵＷｉｄｔｈ，１６）およびｓｂＨｅｉｇｈｔ＝ｍｉｎ（ＣＵＨｅｉｇｈｔ，１６）である。ＣＵＷｉｄｔｈおよびＣＵＨｅｉｇｈｔは１つのＣＵの幅および高さである。一方、ＰＲＯＦのパディングは常に４×４サブブロックレベルで適用される。上記の議論では、パディング方法のみがＢＤＯＦとＰＲＯＦとの間で統合されるが、パディングサブブロックサイズは依然として異なる。ＢＤＯＦおよびＰＲＯＦのパディングプロセスのために異なるモジュールが実装されることを必要とすることを考えると、これも実際のハードウェア実装にとって好ましくない。１つのより統合された設計を達成するために、ＢＤＯＦおよびＰＲＯＦのサブブロックパディングサイズを統合することが提案される。本開示の１つの実施形態では、４×４レベルでＢＤＯＦの予測サンプルパディングを適用することが提案される。具体的には、この方法によって、ＣＵは最初に複数の４×４サブブロックに分割され、各４×４サブブロックの動き補償の後、上／下および左／右の境界に沿った拡張サンプルは、対応する整数サンプル位置をコピーすることによってパディングされる。

図１８Ａ、図１８Ｂ、図１８Ｃ、および図１８Ｄは、提案されるパディング方法が１つの１６×１６ＢＤＯＦＣＵに適用される１つの例を例示し、ここで、破線は４×４サブブロック境界を表し、灰色の帯は各４×４サブブロックのパディングされたサンプルを表す。

図１８Ａは、本開示に係る１６×１６ＢＤＯＦＣＵに適用される提案されるパディング方法を示し、ここで、破線は左上の４×４サブブロック境界１８２０を表す。

図１８Ｂは、本開示に係る１６×１６ＢＤＯＦＣＵに適用される提案されるパディング方法を示し、ここで、破線は右上の４×４サブブロック境界１８４０を表す。

図１８Ｃは、本開示に係る１６×１６ＢＤＯＦＣＵに適用される提案されるパディング方法を示し、ここで、破線は左下の４×４サブブロック境界１８６０を表す。

図１８Ｄは、本開示に係る、１６×１６ＢＤＯＦＣＵに適用される提案されるパディング方法を示し、ここで、破線は右下の４×４サブブロック境界１８８０を表す。

図１０は、本開示に係る、ビデオ信号を復号するためのＢＤＯＦおよびＰＲＯＦの統合方法を示す。本方法は、例えば、デコーダに適用され得る。

こと１０１０において、デコーダは、ビデオブロックを複数の重複しないビデオサブブロックに分割し得る。複数の重複しないビデオサブブロックのうちの少なくとも１つは、２つの動きベクトルに関連付けられ得る。

こと１０１２において、デコーダは、複数の重複しないビデオサブブロックのうちの少なくとも１つの２つの動きベクトルに関連付けられた第１の参照ピクチャＩ^（０）および第２の参照ピクチャＩ^（１）を取得し得る。表示順序において、第１の参照ピクチャＩ^（０）は現在のピクチャの前にあり、第２の参照ピクチャＩ^（１）は現在のピクチャの後にある。

こと１０１４において、デコーダは、第１の参照ピクチャＩ^（０）内の参照ブロックからビデオサブブロックの第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓを取得し得る。ｉおよびｊは現在のピクチャを有する１つのサンプルの座標を表し得る。

こと１０１６において、デコーダは、第２の参照ピクチャＩ^（１）内の参照ブロックからビデオサブブロックの第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓを取得し得る。

こと１０１８において、デコーダは、第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓおよび第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓの水平および垂直勾配値を取得し得る。

こと１０２０において、デコーダは、ビデオブロックがアフィンモードで符号化されないとき、ＢＤＯＦに基づいてビデオサブブロック内のサンプルのための動き洗練化を取得し得る。

こと１０２２において、デコーダは、ビデオブロックがアフィンモードで符号化されるとき、ＰＲＯＦに基づいてビデオサブブロック内のサンプルのための動き洗練化を取得し得る。

こと１０２４において、デコーダは、動き洗練化に基づいてビデオブロックの予測サンプルを取得し得る。

ＢＤＯＦ、ＰＲＯＦ、およびＤＭＶＲを有効化／無効化するための高レベルシグナリングシンタックス
既存のＢＤＯＦ設計およびＰＲＯＦ設計では、２つの符号化ツールの有効化／無効化を別々に制御するために、ＳＰＳにおいて２つの異なるフラグがシグナリングされる。しかしながら、ＢＤＯＦとＰＲＯＦとの間の類似性により、１つの同じ制御フラグによって高レベルからＢＤＯＦおよびＰＲＯＦを有効化および／または無効化することがより望ましい。そのような考慮に基づいて、テーブル１に示されるように、ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇと呼ばれる１つの新しいフラグがＳＰＳに導入される。テーブル１に示されるように、ＢＤＯＦの有効化および無効化はｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇのみに依存する。フラグが１に等しいとき、シーケンス内のビデオ・コンテンツを符号化するためにＢＤＯＦが有効化される。さもなければ、ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しいとき、ＢＤＯＦは適用されない。一方、ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇに加えて、ＳＰＳレベル・アフィン制御フラグ、すなわち、ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇも、ＰＲＯＦを条件付きで有効化および無効化するために使用される。フラグｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇとｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇの両方が１に等しいとき、アフィンモードで符号化される全ての符号化ブロックに対してＰＲＯＦが有効化される。フラグｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しく、ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しいとき、ＰＲＯＦが無効化される。

図１１は、本開示に係るビデオ信号を復号するためのＢＤＯＦおよびＰＲＯＦの方法を示す。本方法は、例えば、デコーダに適用され得る。

こと１１１０において、デコーダは、ビデオブロックに関連付けられた第１の参照ピクチャＩ^（０）および第２の参照ピクチャＩ^（１）を取得し得る。表示順序において、第１の参照ピクチャＩ^（０）は現在のピクチャの前にあり、第２の参照ピクチャＩ^（１）は現在のピクチャの後にある。

こと１１１２において、デコーダは、第１の参照ピクチャＩ^（０）内の参照ブロックからビデオブロックの第１の予測サンプルＩ^（０）（ｉ，ｊ）を取得し得る。ｉおよびｊは現在のピクチャを有する１つのサンプルの座標を表し得る。

こと１１１４において、デコーダは、第２の参照ピクチャＩ^（１）内の参照ブロックからビデオブロックの第２の予測サンプルＩ^（１）（ｉ，ｊ）を取得し得る。

こと１１１６において、デコーダは、少なくとも１つのフラグを受信し得る。少なくとも１つのフラグは、ＳＰＳにおいてエンコーダによってシグナリングされ、現在のビデオブロックに対してＢＤＯＦおよびＰＲＯＦが有効化されるかどうかをシグナリングする。

こと１１１８において、デコーダは、少なくとも１つのフラグが有効化されるとき、ビデオブロックがアフィンモードで符号化されるときに第１の予測サンプルＩ^（０）（ｉ，ｊ）および第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいてビデオブロックの動き洗練化を導出するためにＰＲＯＦを適用し得る。

こと１１２０において、デコーダは、ＢＤＯＦがビデオブロックに適用されたことに基づいてビデオブロック内のサンプルのための動き洗練化を取得し得る。

こと１１２２において、デコーダは、動き洗練化に基づいてビデオブロックの予測サンプルを取得し得る。

ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇは、双方向オプティカルフローおよびオプティカルフローによる予測洗練化が有効化されるか否かを指定する。ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しいとき、双方向オプティカルフローとオプティカルフローによる予測洗練化の両方が無効化される。ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しく、ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しいとき、双方向オプティカルフローとオプティカルフローによる予測洗練化の両方が有効化される。さもなければ（ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しく、ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しい）、双方向オプティカルフローが有効化され、オプティカルフローによる予測洗練化が無効化される。

ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｓｌｉｃｅ＿ｐｒｅｓｅｔ＿ｆｌａｇは、フラグｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇがスライスレベルでシグナリングされるときを指定する。フラグが１に等しいとき、シンタックスｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇは、現在のシーケンスパラメータセットを参照するスライスごとにシグナリングされる。さもなければ（ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｓｌｉｃｅ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが０に等しいとき）、シンタックスｓｌｉｃｅ＿ｄｉｓａｂｌｅｄ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇはスライスレベルでシグナリングされない。このフラグがシグナリングされないとき、このフラグは０であると推測される。

上記のＳＰＳＢＤＯＦ／ＰＲＯＦシンタックスに加えて、スライスレベルで別の制御フラグを導入することが提案される、すなわち、ＢＤＯＦ、ＰＲＯＦ、およびＤＭＶＲを無効化するためにｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇが導入される。ＤＭＶＲまたはＢＤＯＦ／ＰＲＯＦのｓｐｓレベル制御フラグのいずれかが真であるときにＳＰＳにおいてシグナリングされるＳＰＳフラグｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｓｌｉｃｅ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、ｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇの存在を示すために使用される。存在する場合、ｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｄｍｖｒ＿ｆｌａｇがシグナリングされる。テーブル２は、提案されるシンタックスが適用された後の修正されたスライスヘッダシンタックステーブルを例示する。

制御点ＭＶ差分に基づくＰＲＯＦの早期終了
現在のＰＲＯＦ設計によれば、ＰＲＯＦは、１つの符号化ブロックがアフィンモードによって予測されるときに常に呼び出される。しかしながら、方程式（６）および（７）に示されるように、１つのアフィンブロックのサブブロックＭＶは制御点ＭＶから導出される。したがって、制御点ＭＶの間の差分が比較的小さいとき、各サンプル位置におけるＭＶは一貫性があるはずである。そのような場合、ＰＲＯＦを適用する利益は非常に限定され得る。したがって、ＰＲＯＦの平均的な算出複雑性をさらに低減するために、１つの４×４サブブロック内のサンプル単位のＭＶとサブブロック単位のＭＶとの間の最大ＭＶ差分に基づいてＰＲＯＦベースのサンプル洗練化を適応的にスキップすることが提案される。１つの４×４サブブロック内部のサンプルのＰＲＯＦＭＶ差分の値はサブブロック中心に対して対称であるので、最大の水平および垂直ＰＲＯＦＭＶ差分は方程式（１０）に基づいて

として計算され得る。

本開示によれば、ＭＶ差分がＰＲＯＦプロセスをスキップするのに十分なほど小さいときを決定する際に、異なるメトリックが使用され得る。

１つの例では、方程式（１９）に基づいて、絶対最大水平ＭＶ差分と絶対最大垂直ＭＶ差分の和が１つの事前に定義されたしきい値以下である、すなわち、

であるときにＰＲＯＦプロセスがスキップされ得る。

別の例では、

および

の最大値がしきい値以下であるとき、ＰＲＯＦプロセスがスキップされ得る。

ここで、ＭＡＸ（ａ，ｂ）は、入力値ａと入力値ｂとの間の大きいほうの値を返す関数である。

上記２つの例に加えて、本開示の趣旨は、ＭＶ差分がＰＲＯＦプロセスをスキップするのに十分なほど小さいかどうかを決定する際に他のメトリックが使用される場合にも適用可能である。

上記の方法では、ＰＲＯＦはＭＶ差分の大きさに基づいてスキップされる。一方、ＭＶ差分に加えて、ＰＲＯＦサンプル洗練化も、１つの動き補償ブロック内の各サンプルロケーションにおける局所的な勾配情報に基づいて計算される。あまり高頻度ではない詳細（例えば、平坦なエリア）を含む予測ブロックの場合、勾配値が小さくなる傾向があり、その結果として、導出されたサンプル洗練化の値が小さくなるはずである。これを考慮に入れて、本開示の別の実施形態によれば、ＰＲＯＦを十分な高頻度の情報を含むブロックの予測サンプルのみに適用することが提案される。

ブロックのためにＰＲＯＦプロセスが呼び出される価値があるように、そのブロックが十分な高頻度の情報を含むかどうかを決定する際に、異なるメトリックが使用され得る。１つの例では、予測ブロック内のサンプルの勾配の平均の大きさ（すなわち、絶対値）に基づいて決定が行われる。平均の大きさが１つのしきい値よりも小さいとき、予測ブロックは平坦なエリアに分類され、ＰＲＯＦは適用されるべきではない。さもなければ、予測ブロックは、ＰＲＯＦが依然として適用可能である十分な高頻度の詳細を含むと見なされる。別の例では、予測ブロック内のサンプルの勾配の最大の大きさが使用され得る。最大の大きさが１つのしきい値よりも小さい場合、ブロックに対してＰＲＯＦがスキップされるべきである。さらに別の例では、予測ブロックの最大サンプル値と最小サンプル値との間の差分Ｉ_ｍａｘ－Ｉ_ｍｉｎが、ＰＲＯＦがブロックに適用されるべきであるかどうかを決定するために使用され得る。そのような差分値がしきい値未満である場合、ブロックに対してＰＲＯＦがスキップされるべきである。所与のブロックが十分な高頻度の情報を含むか否かを決定する際に何らかの他のメトリックが使用される場合にも本開示の趣旨が適用可能であることは注目に値する。

アフィンモードのためのＰＲＯＦとＬＩＣとの間の相互作用を処理
現在のブロックの隣接する再構成されたサンプル（すなわち、テンプレート）は線形モデルパラメータを導出するためにＬＩＣによって使用されるので、１つのＬＩＣ符号化ブロックの復号は、その隣接サンプルの完全な再構成に依存する。そのような相互依存性により、実際のハードウェア実装の場合、ＬＩＣは、隣接する再構成されたサンプルがＬＩＣパラメータ導出のために利用可能になる再構成ステージにおいて実施される必要がある。ブロック再構成は逐次的に（すなわち、１つずつ）実施されなければならないので、スループット（すなわち、並行して行われ得る単位時間当たりの作業の量）は、他の符号化方法をＬＩＣ符号化ブロックに一緒に適用するときに考慮すべき１つの重要な問題である。このセクションでは、アフィンモードに対してＰＲＯＦとＬＩＣの両方が有効化されるときの相互作用を処理するための２つの方法が提案される。

本開示の第１の実施形態では、１つのアフィン符号化ブロックに対してＰＲＯＦモードおよびＬＩＣモードを排他的に適用することが提案される。前に論じられたように、既存の設計では、ＬＩＣモードが１つのアフィンブロックに適用されるか否かを示すために１つのＬＩＣフラグが符号化ブロックレベルでシグナリングされるかまたは継承される間に、全てのアフィンブロックに対してＰＲＯＦがシグナリングすることなしに暗黙的に適用される。本開示における方法によれば、１つのアフィンブロックのＬＩＣフラグの値に基づいてＰＲＯＦを条件付きで適用することが提案される。フラグが１に等しいとき、ＬＩＣ重みおよびオフセットに基づいて符号化ブロック全体の予測サンプルを調整することによってＬＩＣのみが適用される。さもなければ（すなわち、ＬＩＣフラグが０に等しい）、オプティカルフローモデルに基づいて各サブブロックの予測サンプルを洗練するために、ＰＲＯＦがアフィン符号化ブロックに適用される。

図１７Ａは、ＰＲＯＦおよびＬＩＣが同時に適用されることが許可されない提案される方法に基づく復号プロセスの１つの例示的なフローチャートを例示する。

図１７Ａは、本開示に係る、ＰＲＯＦおよびＬＩＣが許可されない提案される方法に基づく復号プロセスの例示を示す。復号プロセス１７２０は、ＬＩＣフラグはオンか？１７２２こと、ＬＩＣ１７２４、およびＰＲＯＦ１７２６を含む。ＬＩＣフラグはオンか？１７２２は、ＬＩＣフラグが設定されているかどうかを決定することであり、その決定に従って次のことが取られる。ＬＩＣ１７２４は、ＬＩＣフラグが設定されている場合のＬＩＣの適用である。ＰＲＯＦ１７２６は、ＬＩＣフラグが設定されていない場合のＰＲＯＦの適用である。

本開示の第２の実施形態では、１つのアフィンブロックの予測サンプルを生成するためにＰＲＯＦの後にＬＩＣを適用することが提案される。具体的には、サブブロックベースのアフィン動き補償が行われた後、ＰＲＯＦサンプル洗練化に基づいて予測サンプルが洗練され、次いで、ＬＩＣは、

として例示されるように、ブロックの最終的な予測サンプルを取得するために（テンプレートおよびその参照サンプルから導出された）重みおよびオフセットのペアをＰＲＯＦ調整された予測サンプルに適用することによって実施され、ここで、Ｐ_ｒ［ｘ＋ｖ］は動きベクトルｖによって示される現在のブロックの参照ブロックであり、αおよびβはＬＩＣ重みおよびオフセットであり、Ｐ［ｘ］は最終的な予測ブロックであり、ΔＩ［ｘ］は（１７）において導出されたＰＲＯＦ洗練化である。

図１７Ｂは、本開示に係る、ＰＲＯＦおよびＬＩＣが適用される復号プロセスの例示を示す。復号プロセス１７６０は、アフィン動き補償１７６２、ＬＩＣパラメータ導出１７６４、ＰＲＯＦ１７６６、およびＬＩＣサンプル調整１７６８を含む。アフィン動き補償１７６２はアフィン動きを適用し、ＬＩＣパラメータ導出１７６４およびＰＲＯＦ１７６６への入力である。ＬＩＣパラメータ導出１７６４は、ＬＩＣパラメータを導出するために適用される。ＰＲＯＦ１７６６は、適用されているＰＲＯＦである。ＬＩＣサンプル調整１７６８は、ＰＲＯＦと組み合わされているＬＩＣ重みパラメータおよびオフセットパラメータである。

図１７Ｂは、第２の方法が適用されるときの例示的な復号ワークフローを例示する。図１７Ｂに示されるように、ＬＩＣはＬＩＣ線形モデルを計算するためにテンプレート（すなわち、隣接する再構成されたサンプル）を使用するので、ＬＩＣパラメータは、隣接する再構成されたサンプルが利用可能になるとすぐに導出され得る。これは、ＰＲＯＦ洗練化およびＬＩＣパラメータ導出が同時に実施され得ることを意味する。

ＬＩＣ重みおよびオフセット（すなわち、αおよびβ）ならびにＰＲＯＦ洗練化（すなわち、ΔＩ［ｘ］）は一般に浮動小数点である。好ましいハードウェア実装の場合、それらの浮動小数点演算は通常、いくつかのビットによる右シフト演算が後に続く、１つの整数値との乗算として実装される。既存のＬＩＣおよびＰＲＯＦ設計では、２つのツールが別々に設計されているので、それぞれＮ_ＬＩＣビットおよびＮ_ＰＲＯＦビットによる２つの異なる右シフトは２つのステージにおいて適用される。

本開示の第３の実施形態によれば、ＰＲＯＦおよびＬＩＣがアフィン符号化ブロックに一緒に適用される場合の符号化利得を改善するために、ＬＩＣベースのサンプル調整およびＰＲＯＦベースのサンプル調整を高精度で適用することが提案される。これは、それらの２つの右シフト演算を１つに組み合わせ、それを最後に適用して現在のブロックの（（１２）に示されるような）最終的な予測サンプルを導出することによって行われる。

上記の方法は、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、または他の電子コンポーネントを含む１つまたは複数の回路構成を含む装置を使用して実装され得る。装置は、上記で説明された方法を実施するための他のハードウェア・コンポーネントまたはソフトウェア・コンポーネントと組み合わせて回路構成を使用し得る。上記で開示された各モジュール、サブモジュール、ユニット、またはサブユニットは、１つまたは複数の回路構成を使用して少なくとも部分的に実装され得る。

図１９は、ユーザインターフェース１９６０と結合されたコンピューティング環境１９１０を示す。コンピューティング環境１９１０は、データ処理サーバの一部であり得る。コンピューティング環境１９１０は、プロセッサ１９２０、メモリ１９４０、およびＩ／Ｏインターフェース１９５０を含む。

プロセッサ１９２０は、典型的には、表示、データ獲得、データ通信、および画像処理に関連付けられた動作などの、コンピューティング環境１９１０の全体的な動作を制御する。プロセッサ１９２０は、上記で説明された方法におけることの全部または一部を実施するための命令を実行するための１つまたは複数のプロセッサを含み得る。さらに、プロセッサ１９２０は、プロセッサ１９２０と他のコンポーネントとの間の相互接続を容易にする１つまたは複数のモジュールを含み得る。プロセッサは、中央処理ユニット（ＣＰＵ）、マイクロプロセッサ、シングル・チップ・マシン、ＧＰＵなどであってもよい。

メモリ１９４０は、コンピューティング環境１９１０の動作をサポートするために様々なタイプのデータを記憶するように構成される。メモリ１９４０は、所定のソフトウェア１９４２を含み得る。そのようなデータの例は、コンピューティング環境１９１０上で動作する任意のアプリケーションまたは方法のための命令、ビデオデータセット、画像データなどを含む。メモリ１９４０は、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、読取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュ・メモリ、磁気ディスクまたは光ディスクなどの、任意のタイプの揮発性もしくは不揮発性メモリデバイス、またはそれらの組合せを使用することによって実装され得る。

Ｉ／Ｏインターフェース１９５０は、プロセッサ１９２０と、キーボード、クリック・ホイール、ボタンなどの周辺インターフェース・モジュールとの間のインターフェースを提供する。ボタンは、ホーム・ボタン、走査開始ボタン、および走査停止ボタンを含み得るが、それらに限定されない。Ｉ／Ｏインターフェース１９５０は、エンコーダおよびデコーダと結合され得る。

いくつかの実施形態では、上記で説明された方法を実施するための、コンピューティング環境１９１０内のプロセッサ１９２０によって実行可能な、メモリ１９４０などに含まれる複数のプログラムを含む非一時的コンピュータ可読記憶媒体も提供される。例えば、非一時的コンピュータ可読記憶媒体は、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピー・ディスク、光データ記憶デバイスなどであってもよい。

非一時的コンピュータ可読記憶媒体は、１つまたは複数のプロセッサを有するコンピューティングデバイスによって実行するための複数のプログラムを記憶しており、ここで、複数のプログラムは、１つまたは複数のプロセッサによって実行されると、コンピューティングデバイスに動き予測のための上記で説明された方法を実施させる。

ここで、コンピューティング環境１９１０は、上記の方法を実施するために、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ）、グラフィカル処理ユニット（ＧＰＵ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、または他の電子コンポーネントと共に実装され得る。

本開示の説明は例示の目的で提示されており、網羅的であることも、本開示に限定されることも意図されていない。多くの修正形態、変形形態、および代替実装形態は、前述の説明および関連する図面において提示された教示の利益を有する当業者に明らかであろう。

本開示の原理を説明するために、かつ当業者が様々な実装形態について本開示を理解し、根底にある原理と、企図された特定の用途に適した様々な修正形態を伴う様々な実装形態とを最良に利用することを可能にするために、例が選ばれ、説明された。したがって、本開示の範囲は開示された実装形態の具体的な例に限定されるものではないことと、修正形態および他の実装形態は本開示の範囲内に含まれることが意図されていることとを理解されたい。

Claims

ビデオ信号を復号するための双方向オプティカルフロー（ＢＤＯＦ）およびオプティカルフローによる予測洗練化（ＰＲＯＦ）の統合方法であって、
デコーダにおいて、ビデオブロックを複数の重複しないビデオサブブロックに分割することであって、前記複数の重複しないビデオサブブロックのうちの少なくとも１つが、２つの動きベクトルに関連付けられることと、
前記デコーダにおいて、前記複数の重複しないビデオサブブロックのうちの前記少なくとも１つの前記２つの動きベクトルに関連付けられた第１の参照ピクチャＩ^（０）および第２の参照ピクチャＩ^（１）を取得することであって、表示順序において、前記第１の参照ピクチャＩ^（０）が現在のピクチャの前にあり、前記第２の参照ピクチャＩ^（１）が前記現在のピクチャの後にあることと、
前記デコーダにおいて、前記第１の参照ピクチャＩ^（０）内の参照ブロックから前記ビデオサブブロックの第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓを取得することであって、ｉおよびｊが前記現在のピクチャを有する１つのサンプルの座標を表す、ことと、
前記デコーダにおいて、前記第２の参照ピクチャＩ^（１）内の参照ブロックから前記ビデオサブブロックの第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓを取得することと、
前記デコーダにおいて、前記第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓおよび第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓの水平および垂直勾配値を取得することと、
前記デコーダにおいて、前記ビデオブロックがアフィンモードで符号化されないとき、前記ＢＤＯＦに基づいて前記ビデオサブブロック内のサンプルのための動き洗練化を取得することと、
前記デコーダにおいて、前記ビデオブロックがアフィンモードで符号化されるとき、前記ＰＲＯＦに基づいて前記ビデオサブブロック内のサンプルのための動き洗練化を取得することと、
前記デコーダにおいて、前記動き洗練化に基づいて前記ビデオブロックの予測サンプルを取得することと、
を含む方法。
前記第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓおよび第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓの前記水平および垂直勾配値を取得することが、
前記デコーダにおいて、対応する整数サンプル位置をコピーすることによって、前記ビデオサブブロックの第１の予測ブロックおよび第２の予測ブロックの上の境界、下の境界、左の境界、および右の境界に沿って拡張サンプルをパディングすること、を含む、請求項１に記載の統合方法。
拡張サンプルをパディングすることが、
前記デコーダにおいて、左の整数参照サンプルから分数サンプル位置にコピーすることによって、前記左の境界および右の境界に沿って拡張サンプルをパディングすることと、
前記デコーダにおいて、上の整数参照サンプルから分数サンプル位置にコピーすることによって、前記上の境界および下の境界に沿って拡張サンプルをパディングすることと、を含む、請求項２に記載の統合方法。
拡張サンプルをパディングすることが、
前記デコーダにおいて、水平方向で分数サンプル位置に最も近い整数参照サンプルからコピーすることによって、前記左の境界および右の境界に沿って拡張サンプルをパディングすることと、
前記デコーダにおいて、垂直方向で分数サンプル位置に最も近い前記整数参照サンプルからコピーすることによって、前記上の境界および下の境界に沿って拡張サンプルをパディングすることと、を含む、請求項２に記載の統合方法。
各重複しないビデオサブブロックが、幅で４つのサンプルおよび高さで４つのサンプルを含む、請求項１に記載の統合方法。
ビデオ信号を復号するための双方向オプティカルフロー（ＢＤＯＦ）およびオプティカルフローによる予測洗練化（ＰＲＯＦ）の方法であって、
デコーダにおいて、ビデオブロックに関連付けられた第１の参照ピクチャＩ^（０）および第２の参照ピクチャＩ^（１）を取得することであって、表示順序において、前記第１の参照ピクチャＩ^（０）が現在のピクチャの前にあり、前記第２の参照ピクチャＩ^（１）が前記現在のピクチャの後にあることと、
前記デコーダにおいて、前記第１の参照ピクチャＩ^（０）内の参照ブロックから前記ビデオブロックの第１の予測サンプルＩ^（０）（ｉ，ｊ）を取得することであって、ｉおよびｊが前記現在のピクチャを有する１つのサンプルの座標を表すことと、
前記デコーダにおいて、前記第２の参照ピクチャＩ^（１）内の参照ブロックから前記ビデオブロックの第２の予測サンプルＩ^（１）（ｉ，ｊ）を取得することと、
前記デコーダによって、少なくとも１つのフラグを受信することであって、前記少なくとも１つのフラグがシーケンスパラメータセット（ＳＰＳ）においてエンコーダによってシグナリングされ、現在のビデオブロックに対して前記ＢＤＯＦおよび前記ＰＲＯＦが有効化されるかどうかをシグナリングすることと、
前記デコーダにおいて、前記少なくとも１つのフラグが有効化されるとき、前記ビデオブロックがアフィンモードで符号化されないときに前記第１の予測サンプルＩ^（０）（ｉ，ｊ）および前記第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいて前記ビデオブロックの動き洗練化を導出するためにＢＤＯＦを適用することと、
前記デコーダにおいて、前記少なくとも１つのフラグが有効化されるとき、前記ビデオブロックがアフィンモードで符号化されるときに前記第１の予測サンプルＩ^（０）（ｉ，ｊ）および前記第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいて前記ビデオブロックの前記動き洗練化を導出するためにＰＲＯＦを適用することと、
前記デコーダにおいて、前記動き洗練化に基づいて前記ビデオブロックの予測サンプルを取得することと、
を含む方法。
前記デコーダによって、前記少なくとも１つのフラグを受信することが、
前記デコーダによって、ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグを受信することであって、前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが、前記現在のビデオブロックに対して前記ＢＤＯＦおよびＰＲＯＦが有効化されるかどうかをシグナリングすること、を含む、請求項６に記載の方法。
前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが１に等しく、前記ＢＤＯＦが有効化される、請求項７に記載の方法。
前記デコーダによって、前記少なくとも１つのフラグを受信することが、
前記デコーダによって、ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグを受信することであって、前記ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが、前記現在のビデオブロックに対してアフィンが有効化されるかどうかをシグナリングすること、を含む、請求項７に記載の方法。
前記デコーダにおいて、前記ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグおよび前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが１に等しいとき、前記第１の予測サンプルＩ^（０）（ｉ，ｊ）および前記第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいてＰＲＯＦを前記ビデオブロックに適用することをさらに含む、請求項９に記載の方法。
前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが１に等しく、前記ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが０に等しいと決定したことに応答して、前記ＰＲＯＦを無効化することをさらに含む、請求項９に記載の方法。
前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが０に等しいと決定したことに応答して、前記ＢＤＯＦおよび前記ＰＲＯＦを無効化することをさらに含む、請求項９に記載の方法。
前記デコーダによって、前記少なくとも１つのフラグを受信することが、
前記デコーダによって、前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグまたはｓｐｓ＿ｄｍｖｒ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しいとき、ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｓｌｉｃｅ＿ｐｒｅｓｅｎｔ＿ｆｌａｇフラグを受信することと、
前記デコーダによって、前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｓｌｉｃｅ＿ｐｒｅｓｅｎｔ＿ｆｌａｇフラグが１に等しいとき、前記現在のビデオブロックに対して前記ＢＤＯＦ、ＰＲＯＦ、およびデコーダ側の動きベクトル洗練化（ＤＭＶＲ）を無効化するｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇフラグを受信することと、を含む、請求項９に記載の方法。
コンピューティングデバイスであって、
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体と、を含み、
前記１つまたは複数のプロセッサが、
ビデオブロックを複数の重複しないビデオサブブロックに分割することであって、前記複数の重複しないビデオサブブロックのうちの少なくとも１つが、２つの動きベクトルに関連付けられることと、
前記複数の重複しないビデオサブブロックのうちの前記少なくとも１つの前記２つの動きベクトルに関連付けられた第１の参照ピクチャＩ^（０）および第２の参照ピクチャＩ^（１）を取得することであって、表示順序において、前記第１の参照ピクチャＩ^（０）が現在のピクチャの前にあり、前記第２の参照ピクチャＩ^（１）が前記現在のピクチャの後にあることと、
前記第１の参照ピクチャＩ^（０）内の参照ブロックから前記ビデオサブブロックの第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓを取得することであって、ｉおよびｊが前記現在のピクチャを有する１つのサンプルの座標を表すことと、
前記第２の参照ピクチャＩ^（１）内の参照ブロックから前記ビデオサブブロックの第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓを取得することと、
前記第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓおよび第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓの水平および垂直勾配値を取得することと、
前記ビデオブロックがアフィンモードで符号化されないとき、双方向オプティカルフロー（ＢＤＯＦ）に基づいて前記ビデオサブブロック内のサンプルのための動き洗練化を取得することと、
前記ビデオブロックがアフィンモードで符号化されるとき、オプティカルフローによる予測洗練化（ＰＲＯＦ）に基づいて前記ビデオサブブロック内のサンプルのための動き洗練化を取得することと、
前記動き洗練化に基づいて前記ビデオブロックの予測サンプルを取得すること、を行うように構成される、コンピューティングデバイス。
前記第１の予測サンプルＩ^（０）（ｉ，ｊ）’ｓおよび第２の予測サンプルＩ^（１）（ｉ，ｊ）’ｓの前記水平および垂直勾配値を取得するように構成された前記１つまたは複数のプロセッサが、
対応する整数サンプル位置をコピーすることによって、前記ビデオサブブロックの第１の予測ブロックおよび第２の予測ブロックの上の境界、下の境界、左の境界、および右の境界に沿って拡張サンプルをパディングするようにさらに構成される、請求項１４に記載のコンピューティングデバイス。
拡張サンプルをパディングするように構成された前記１つまたは複数のプロセッサが、
左の整数参照サンプルから分数サンプル位置にコピーすることによって、前記左の境界および右の境界に沿って拡張サンプルをパディングすることと、
上の整数参照サンプルから分数サンプル位置にコピーすることによって、前記上の境界および下の境界に沿って拡張サンプルをパディングすること、を行うようにさらに構成される、請求項１５に記載のコンピューティングデバイス。
拡張サンプルをパディングするように構成された前記１つまたは複数のプロセッサが、
最も近い整数参照サンプルから分数サンプル位置に水平方向でコピーすることによって、前記左の境界および右の境界に沿って拡張サンプルをパディングすることと、
前記最も近い整数参照サンプルから分数サンプル位置に垂直方向でコピーすることによって、前記上の境界および下の境界に沿って拡張サンプルをパディングすること、を行うようにさらに構成される、請求項１５に記載のコンピューティングデバイス。
各重複しないビデオサブブロックが、幅で４つのサンプルおよび高さで４つのサンプルを含む、請求項１４に記載のコンピューティングデバイス。
１つまたは複数のプロセッサを有するコンピューティングデバイスによって実行するための複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記複数のプログラムが、前記１つまたは複数のプロセッサによって実行されるとき、前記コンピューティングデバイスに、
デコーダにおいて、ビデオブロックに関連付けられた第１の参照ピクチャＩ^（０）および第２の参照ピクチャＩ^（１）を取得することであって、表示順序において、前記第１の参照ピクチャＩ^（０）が現在のピクチャの前にあり、前記第２の参照ピクチャＩ^（１）が前記現在のピクチャの後にあることと、
前記デコーダにおいて、前記第１の参照ピクチャＩ^（０）内の参照ブロックから前記ビデオブロックの第１の予測サンプルＩ^（０）（ｉ，ｊ）を取得することであって、ｉおよびｊが前記現在のピクチャを有する１つのサンプルの座標を表すことと、
前記デコーダにおいて、前記第２の参照ピクチャＩ^（１）内の参照ブロックから前記ビデオブロックの第２の予測サンプルＩ^（１）（ｉ，ｊ）を取得することと、
前記デコーダによって、少なくとも１つのフラグを受信することであって、前記少なくとも１つのフラグがシーケンスパラメータセット（ＳＰＳ）においてエンコーダによってシグナリングされ、現在のビデオブロックに対して双方向オプティカルフロー（ＢＤＯＦ）およびオプティカルフローによる予測洗練化（ＰＲＯＦ）が有効化されるかどうかをシグナリングすることと、
前記デコーダにおいて、前記少なくとも１つのフラグが有効化されるとき、前記ビデオブロックがアフィンモードで符号化されないときに前記第１の予測サンプルＩ^（０）（ｉ，ｊ）および前記第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいて前記ビデオブロックの動き洗練化を導出するためにＢＤＯＦを適用することと、
前記デコーダにおいて、前記少なくとも１つのフラグが有効化されるとき、前記ビデオブロックがアフィンモードで符号化されるときに前記第１の予測サンプルＩ^（０）（ｉ，ｊ）および前記第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいて前記ビデオブロックの前記動き洗練化を導出するためにＰＲＯＦを適用することと、
前記デコーダにおいて、前記動き洗練化に基づいて前記ビデオブロックの予測サンプルを取得すること、を含む行為を実施させる、非一時的コンピュータ可読記憶媒体。
前記複数のプログラムが、前記コンピューティングデバイスに、
前記デコーダによって、ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグを受信することであって、前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが、前記現在のビデオブロックに対して前記ＢＤＯＦおよびＰＲＯＦが有効化されるかどうかをシグナリングすること、をさらに実施させる、請求項１９に記載の非一時的コンピュータ可読記憶媒体。
前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが１に等しく、前記ＢＤＯＦが有効化される、請求項２０に記載の非一時的コンピュータ可読記憶媒体。
前記複数のプログラムが、前記コンピューティングデバイスに、
前記デコーダによって、ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグを受信することであって、前記ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが、前記現在のビデオブロックに対してアフィンが有効化されるかどうかをシグナリングすること、をさらに実施させる、請求項２０に記載の非一時的コンピュータ可読記憶媒体。
前記複数のプログラムが、前記コンピューティングデバイスに、
前記デコーダにおいて、前記ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグおよび前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが１に等しいとき、前記第１の予測サンプルＩ^（０）（ｉ，ｊ）および前記第２の予測サンプルＩ^（１）（ｉ，ｊ）に基づいてＰＲＯＦを前記ビデオブロックに適用すること、をさらに実施させる、請求項２２に記載の非一時的コンピュータ可読記憶媒体。
前記複数のプログラムが、前記コンピューティングデバイスに、
前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが１に等しく、前記ｓｐｓ＿ａｆｆｉｎｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが０に等しいと決定したことに応答して、前記ＰＲＯＦを無効化すること、をさらに実施させる、請求項２２に記載の非一時的コンピュータ可読記憶媒体。
前記複数のプログラムが、前記コンピューティングデバイスに、
前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグが０に等しいと決定したことに応答して、前記ＢＤＯＦおよび前記ＰＲＯＦを無効化すること、をさらに実施させる、請求項２２に記載の非一時的コンピュータ可読記憶媒体。
前記複数のプログラムが、前記コンピューティングデバイスに、
前記デコーダによって、前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇフラグまたはｓｐｓ＿ｄｍｖｒ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しいとき、ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｓｌｉｃｅ＿ｐｒｅｓｅｎｔ＿ｆｌａｇフラグを受信することと、
前記デコーダによって、前記ｓｐｓ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｓｌｉｃｅ＿ｐｒｅｓｅｎｔ＿ｆｌａｇフラグが１に等しいとき、前記現在のビデオブロックに対して前記ＢＤＯＦ、ＰＲＯＦ、およびデコーダ側の動きベクトル洗練化（ＤＭＶＲ）を無効化するｓｌｉｃｅ＿ｄｉｓａｂｌｅ＿ｂｄｏｆ＿ｐｒｏｆ＿ｄｍｖｒ＿ｆｌａｇフラグを受信すること、をさらに実施させる、請求項２２に記載の非一時的コンピュータ可読記憶媒体。