JP2023030062A

JP2023030062A - 双方向オプティカルフローに対するビット幅制御

Info

Publication number: JP2023030062A
Application number: JP2022201624A
Authority: JP
Inventors: シウ，シヤオユー; Xiaoyu Xiu; チェン，イー－ウエン; Yiwen Chen; ワーン，シアーンリン; Xianglin Wang
Original assignee: Beijing Dajia Interconnection Information Technology Co Ltd
Current assignee: Beijing Dajia Interconnection Information Technology Co Ltd
Priority date: 2019-01-06
Filing date: 2022-12-16
Publication date: 2023-03-07
Also published as: MX2022008296A; CN117221528A; US20210344952A1; JP2022516751A; EP3891990A1; US20230353780A1; MX2021008157A; CN113261296A; CN116668717A; CN113613019A; CN116708772A; WO2020142762A1; US20230403408A1; EP3891990A4; CN113613019B; JP7474262B2; US11388436B2; CN117221528B; KR102374687B1; KR20220025301A

Abstract

【課題】ビデオ符号化のための双方向オプティカルフロー（ＢＤＯＦ）に対するビット幅を制御する方法、装置および非一時的コンピュータ可読記憶媒体を提供する。【解決手段】第１の参照ピクチャおよび第２の参照ピクチャを復号するステップを含む方法において、第１の参照ピクチャは、現在のピクチャの前に表示され、第２の参照ピクチャは、第１の参照ピクチャとは異なり、現在のピクチャの後に表示される。方法は、第１の予測Ｌ０と第２の予測Ｌ１との間の差を最小化することによって、符号化単位（ＣＵ）の動き補正を計算し、第１の予測Ｌ０に対する第１の勾配値および第２の予測Ｌ１に対する第２の勾配値を計算し、ＣＵの最終的な双方向予測を計算する。【選択図】図５

Description

関連出願の相互参照
本出願は、２０１９年１月６日付け出願の米国仮特許出願第６２／７８８，８９８号の利益を主張する。上記出願の開示全体が、全体として参照により本明細書に組み込まれている。

本開示は、一般に、ビデオデータの符号化（たとえば、コード化および復号）に関する。より詳細には、本開示は、ビデオ符号化のための双方向オプティカルフロー（ＢＤＯＦ）処理方法を改善する方法および装置に関する。特定の例示的な実施形態では、ＢＤＯＦを使用して、現在のピクチャに対して反対の方向に生じる参照ピクチャ（たとえば、現在のピクチャの前の表示順序を有する第１の参照ピクチャ、および現在のピクチャの後の表示順序を有する第２の参照ピクチャ）から、ブロックが双方向に予測される方法が記載される。

本章は、本開示に関係する背景情報を提供する。本章に含まれる情報は、必ずしも従来技術として解釈されるべきであるとは限らない。

ビデオデータを圧縮するために、様々なビデオ符号化技法を使用することができる。ビデオ符号化は、１つまたは複数のビデオ符号化規格に従って実行される。たとえば、ビデオ符号化規格には、多用途ビデオ符号化（ＶＶＣ）、共同探索試験モデル符号化（ＪＥＭ）、高効率ビデオ符号化（Ｈ．２６５／ＨＥＶＣ）、高度ビデオ符号化（Ｈ．２６４／ＡＶＣ）、ムービング・ピクチャ・エキスパート・グループ符号化（ＭＰＥＧ）などが含まれる。ビデオ符号化は概して、ビデオ画像またはシーケンスに存在する冗長性を利用する予測方法（たとえば、インター予測、イントラ予測など）を利用する。ビデオ符号化技法の重要な目標は、ビデオ品質の劣化を回避または最小化しながら、より低いビットレートを使用する形式にビデオデータを圧縮することである。

ＨＥＶＣ規格の最初のバージョンは、２０１３年１０月に完成されたものであり、前の世代のビデオ符号化規格Ｈ．２６４／ＭＰＥＧＡＶＣと比較すると、約５０％のビットレートの節約または同等の知覚品質を提供する。ＨＥＶＣ規格は、その前身に比べて大幅な符号化の改善を提供するが、追加の符号化ツールによって、ＨＥＶＣより優れた符号化効率を実現することができることが証明されている。それに基づいて、ＶＣＥＧおよびＭＰＥＧはどちらも、将来のビデオ符号化の規格化に向けて、新しい符号化技術の探索作業を開始した。２０１５年１０月、符号化効率の実質的な強化を可能にし得る高度な技術の重要な研究を開始するために、ＩＴＵ－ＴＶＥＣＧおよびＩＳＯ／ＩＥＣＭＰＥＧによって、１つの共同ビデオ探索チーム（ＪＶＥＴ）が結成された。ＪＶＥＴは、ＨＥＶＣ試験モデル（ＨＭ）に加えていくつかの追加の符号化ツールを統合することによって、共同探索モデル（ＪＥＭ）と呼ばれる参照ソフトウェアを開発した。

２０１７年１０月、ＩＴＵ－ＴおよびＩＳＯ／ＩＥＣは、ＨＥＶＣを超えた能力を有するビデオ圧縮に関する共同のコール・フォー・プロポーザルズ（ＣｆＰ）を発表した。２０１８年４月、２３件のＣｆＰ応答が受理されて第１０回ＪＶＥＴ会議で評価され、ＨＥＶＣに比べて約４０％の圧縮効率の向上が実証された。そのような評価結果に基づいて、ＪＶＥＴは、多用途ビデオ符号化（ＶＶＣ）と呼ばれる新世代のビデオ符号化規格を開発するための新しいプロジェクトに着手した。同月、ＶＶＣ規格の参照実装を実証するために、ＶＶＣ試験モデル（ＶＴＭ）と呼ばれる１つの参照ソフトウェアコードベースが確立された。

本章は、本開示の概要を提供するものであり、本開示の完全な範囲または本開示のすべての特徴の包括的な開示ではない。

本開示の第１の態様によれば、１つまたは複数のプロセッサと、１つまたは複数のプロセッサによって実行されるべき複数のプログラムを記憶するメモリとを有するコンピューティングデバイスで実行され、ビデオ符号化のための双方向オプティカルフロー（ＢＤＯＦ）に対するビット幅を制御する方法は、第１の参照ピクチャおよび第２の参照ピクチャを復号するステップを含む。第２の参照ピクチャは、第１の参照ピクチャとは異なり、第１の参照ピクチャは、現在のピクチャの前に表示され、第２の参照ピクチャは、現在のピクチャの後に表示される。現在のピクチャの現在のブロックから第１の参照ピクチャの第１の予測Ｌ_０への第１の動きベクトル（ＭＶ_０）が決定される。現在のブロックから第２の参照ピクチャの第２の予測Ｌ_１への第２の動きベクトル（ＭＶ_１）が決定される。現在のピクチャから第１の参照ピクチャへの第１の時間距離（τ_０）が決定され、現在のピクチャから第２の参照ピクチャへの第２の時間距離（τ_１）が決定される。第１の予測Ｌ_０と第２の予測Ｌ_１との間の差を最小化することによって、動き補正が計算される。第１の勾配値および第２の勾配値が計算され、第１の勾配値および第２の勾配値の内部ビット幅を減少させるために、追加の右シフトが導入される。第１の勾配値および第２の勾配値の和が計算され、そのビット幅を減少させるために、この和に追加の右シフトが導入される。第１の予測サンプルＬ_０と第２の予測サンプルＬ_１との間の差が計算され、この差の内部ビット幅を減少させるために、第１の予測サンプルＬ_０および第２の予測サンプルＬ_１に追加の右シフトが導入される。

本開示の第２の態様によれば、コンピューティングデバイスは、１つまたは複数のプロセッサと、１つまたは複数のプロセッサに結合された非一時的記憶装置と、非一時的記憶装置に記憶された複数のプログラムとを含む。複数のプログラムが１つまたは複数のプロセッサによって実行されたとき、コンピューティングデバイスは、第１の参照ピクチャおよび第２の参照ピクチャを復号する。第２の参照ピクチャは、第１の参照ピクチャとは異なり、第１の参照ピクチャは、現在のピクチャの前に表示され、第２の参照ピクチャは、現在のピクチャの後に表示される。現在のピクチャの現在のブロックから第１の参照ピクチャの第１の予測Ｌ_０への第１の動きベクトル（ＭＶ_０）が決定される。現在のブロックから第２の参照ピクチャの第２の予測Ｌ_１への第２の動きベクトル（ＭＶ_１）が決定される。現在のピクチャから第１の参照ピクチャへの第１の時間距離（τ_０）が決定され、現在のピクチャから第２の参照ピクチャへの第２の時間距離（τ_１）が決定される。第１の予測Ｌ_０と第２の予測Ｌ_１との間の差を最小化することによって、動き補正が計算される。第１の勾配値および第２の勾配値が計算され、第１の勾配値および第２の勾配値の内部ビット幅を減少させるために、追加の右シフトが導入される。第１の勾配値および第２の勾配値の和が計算され、そのビット幅を減少させるために、この和に追加の右シフトが導入される。第１の予測サンプルＬ_０と第２の予測サンプルＬ_１との間の差が計算され、この差の内部ビット幅を減少させるために、第１の予測サンプルＬ_０および第２の予測サンプルＬ_１に追加の右シフトが導入される。

本開示の第３の態様によれば、非一時的コンピュータ可読記憶媒体が、１つまたは複数のプロセッサを有するコンピューティングデバイスによる実行のための複数のプログラムを記憶する。複数のプログラムは、１つまたは複数のプロセッサによって実行されたとき、コンピューティングデバイスに、第１の参照ピクチャおよび第２の参照ピクチャを復号させる。第２の参照ピクチャは、第１の参照ピクチャとは異なり、第１の参照ピクチャは、現在のピクチャの前に表示され、第２の参照ピクチャは、現在のピクチャの後に表示される。現在のピクチャの現在のブロックから第１の参照ピクチャの第１の予測Ｌ_０への第１の動きベクトル（ＭＶ_０）が決定される。現在のブロックから第２の参照ピクチャの第２の予測Ｌ_１への第２の動きベクトル（ＭＶ_１）が決定される。現在のピクチャから第１の参照ピクチャへの第１の時間距離（τ_０）が決定され、現在のピクチャから第２の参照ピクチャへの第２の時間距離（τ_１）が決定される。第１の予測Ｌ_０と第２の予測Ｌ_１との間の差を最小化することによって、動き補正が計算される。第１の勾配値および第２の勾配値が計算され、第１の勾配値および第２の勾配値の内部ビット幅を減少させるために、追加の右シフトが導入される。第１の勾配値および第２の勾配値の和が計算され、そのビット幅を減少させるために、この和に追加の右シフトが導入される。第１の予測サンプルＬ_０と第２の予測サンプルＬ_１との間の差が計算され、この差の内部ビット幅を減少させるために、第１の予測サンプルＬ_０および第２の予測サンプルＬ_１に追加の右シフトが導入される。

以下、本開示の数組の例示的な限定されない実施形態について、添付の図面とともに説明する。関連技術の当業者であれば、本明細書に提示する例に基づいて、構造、方法、または機能の変形例を実施することができ、そのような変形例はすべて、本開示の範囲内に含有される。矛盾が存在しない場合、必須ではないが、異なる実施形態の教示を互いに組み合わせることもできる。

図１は、双方向オプティカルフロー（ＢＤＯＦ）方法によって使用するのに好適な例示的なエンコーダを含む例示的な実施形態によるブロックに基づく例示的な混成ビデオコード化システムのブロック図である。図２は、双方向オプティカルフロー（ＢＤＯＦ）方法によって使用するのに好適な例示的な実施形態による例示的なデコーダのブロック図である。図３Ａは、例示的な実施形態による例示的な分配タイプ、すなわち４分割を示す図であり、図３Ｂは、例示的な実施形態による例示的な分配タイプ、すなわち水平２分割を示す図であり、図３Ｃは、例示的な実施形態による例示的な分配タイプ、すなわち垂直２分割を示す図であり、図３Ｄは、例示的な実施形態による例示的な分配タイプ、すなわち水平３分割を示す図であり、図３Ｅは、例示的な実施形態による例示的な分配タイプ、すなわち垂直３分割を示す図である。図４は、例示的な双方向オプティカルフロー（ＢＤＯＦ）モデルを示す図である。図５は、例示的な実施形態によるビデオデータのブロックを予測する例示的な方法のフローチャートである。

本開示で使用される用語は、本開示を限定することではなく、特定の例を示すことを対象とする。他の意味が文脈に明確に包含されない限り、本開示ならびに添付の特許請求の範囲で使用される単数形の「ａ」、「ａｎ」、および「ｔｈｅ」は複数形も指す。本明細書では、「および／または」という用語は、列挙する１つまたは複数の関連物品のあらゆる可能な組合せを指すことを理解されたい。

本明細書では、様々な情報について説明するために、「第１」、「第２」、「第３」などの用語が使用されることがあるが、この情報は、これらの用語によって限定されるものではないことを理解されたい。これらの用語は、ある情報カテゴリを別の情報カテゴリと区別するためだけに使用される。たとえば、本開示の範囲から逸脱することなく、第１の情報を第２の情報と呼ぶことができ、同様に第２の情報を第１の情報と呼ぶこともできる。本明細書では、「～場合（ｉｆ）」という用語は、文脈に応じて、「～とき（ｗｈｅｎ）」または「～とき（ｕｐｏｎ）」または「～に応答して（ｉｎｒｅｓｐｏｎｓｅｔｏ）」を意味することが理解されよう。

本明細書全体にわたって、単数または複数の「一実施形態」、「実施形態」、「別の実施形態」などへの言及は、一実施形態に関連して説明する１つまたは複数の特定の特徴、構造、または特性が、本開示の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体にわたって様々な箇所における単数または複数の「一実施形態では」、「実施形態では」、または「別の実施形態では」などの語句の記載は、必ずしもすべて同じ実施形態を参照するものではない。さらに、１つまたは複数の実施形態における特定の特徴、構造、または特性は、任意の好適な形で組み合わせることができる。

本明細書に記載する方法は、ＢＤＯＦを改善または強化することに関する。動き補償中にＢＤＯＦを適用することができ、ＢＤＯＦは、現在のブロックに対する画素ごとに動きベクトルを修正するために使用され、したがって動きベクトルに適用された対応するオフセット値を使用して、現在のブロックの画素が予測される。例示的な実施形態では、ＢＤＯＦは、動きベクトルを使用して、現在のブロックに対して反対の予測方向における参照ピクチャ内の参照ブロックに対する現在のピクチャのビデオデータのブロックをインター予測するときに使用される。ビデオ符号化方法は、ビデオシーケンスに固有の冗長性を低減または除去するための空間（イントラピクチャ）予測および／または時間（インターピクチャ）予測を含む。ブロックに基づくビデオ符号化の場合、ビデオスライス（たとえば、ビデオフレームまたはビデオフレームの一部分）をビデオブロックに分割することができ、ビデオブロックは、ツリーブロック、符号化単位（ＣＵ）、および／または符号化ノードと呼ぶこともできる。同じピクチャ内の隣接ブロックの参照サンプルに対して空間予測を使用して、ピクチャのイントラ符号化（Ｉ）スライス内のビデオブロックをコード化することができる。ピクチャのインター符号化（ＰまたはＢ）スライスのビデオブロックは、同じピクチャ内の隣接ブロックの参照サンプルに対して空間予測、または他の参照ピクチャ内の参照サンプルに対して時間予測を使用することができる。ピクチャをフレームと呼ぶことができ、参照ピクチャを参照フレームと呼ぶことができる。

空間予測または時間予測の結果、ブロックを符号化するための予測ブロックが得られる。残差データは、符号化するべき元のブロックと予測ブロックとの間の画素差を表す。インター符号化ブロックは、予測ブロックを形成する参照サンプルのブロックを指す動きベクトルと、符号化されたブロックと予測ブロックとの間の差を示す残差データとに従ってコード化される。イントラ符号化ブロックは、イントラ符号化モードおよび残差データに従ってコード化される。さらなる圧縮のために、残差データを画素ドメインから変換ドメインに変換することができ、その結果として残差変換係数が得られ、次いでこれらの残差変換係数を量子化することができる。最初は２次元アレイで配列されていた、量子化された変換係数を走査して、変換係数の１次元ベクトルを生み出すことができ、エントロピー符号化を適用して、さらなる圧縮を実現することができる。

各々のインター予測されたブロックに対して、１組の動き情報が利用可能となり得る。１組の動き情報は、順方向および逆方向の予測方向に対する動き情報を含むことができる。本明細書では、順方向または第１の予測方向および逆方向または第２の予測方向は、双方向予測モードの２つの予測方向であり、「順方向」、「第１」、「逆方向」、および「第２」という用語は、必ずしも幾何学的な意味を有するものではない。逆に、これらの用語は概して、参照ピクチャが現在のピクチャの前に表示されるか（「逆方向」）、それとも現在のピクチャの後に表示されるか（「順方向」）に対応する。例示的な実施形態では、順方向予測方向は、現在のピクチャの参照ピクチャリスト０（ＲｅｆＰｉｃＬｉｓｔ０）に対応することができ、逆方向予測方向は、参照ピクチャリスト１（ＲｅｆＰｉｃＬｉｓｔ１）に対応することができる。

各予測方向に対して、動き情報は、参照索引および動きベクトルを含む。例示的な実施形態では、参照索引は、現在の参照ピクチャリスト（ＲｅｆＰｉｃＬｉｓｔ０またはＲｅｆＰｉｃＬｉｓｔ１）内の参照ピクチャを識別するために使用することができる。動きベクトルは、水平成分（ｘ）および垂直成分（ｙ）を有する。概して、水平成分は、参照ブロックのｘ座標を特定するために、現在のピクチャ内の現在のブロックの位置に対する参照ピクチャ内の水平変位を示し、垂直成分は、参照ブロックのｙ座標を特定するために、現在のブロックの位置に対する参照ピクチャ内の垂直変位を示す。

ビデオ符号化規格では、ピクチャの表示順序を識別するために、ピクチャ順序カウント（ＰＯＣ）値が広く使用されている。いくつかの状況では、１つの符号化されたビデオシーケンス内の２つのピクチャが同じＰＯＣ値を有することもあるが、これは典型的に、符号化されたビデオシーケンス内では生じない。したがって、ピクチャのＰＯＣ値は概して一意であり、したがって対応するピクチャを一意に識別することができる。１つのビットストリーム内に複数の符号化されたビデオシーケンスが存在するとき、同じＰＯＣ値を有するピクチャは、復号順序に関して互いに近い可能性がある。ピクチャのＰＯＣ値は、典型的に、参照ピクチャリストの構成、ＨＥＶＣと同様の参照ピクチャセットの導出、および動きベクトルのスケーリングに使用される。

概念上、背景の章ですでに言及したものを含めて、多くのビデオ符号化規格は類似している。たとえば、事実上すべてのビデオ符号化規格は、ビデオ圧縮を実現するために、ブロックに基づく処理を使用し、類似のビデオ符号化ブロック図を共用する。

ＨＥＶＣと同様に、ＶＶＣは、ブロックに基づく混成ビデオ符号化の枠組みで構成される。図１は、例示的な実施形態による双方向オプティカルフローに対する方法を使用することができる例示的なエンコーダ１００を含むブロックに基づく混成ビデオコード化システムのブロック図である。入力ビデオ信号は、ブロック（ＣＵ）ごとに処理される。ＶＴＭ－１．０において、ＣＵは最大１２８×１２８画素とすることができる。しかし、４分木のみに基づいてブロックを分割するＨＥＶＣとは異なり、ＶＶＣでは、４分木／２分木／３分木に基づいて変動する局所的な特徴に適応するために、１つの符号化ツリー単位（ＣＴＵ）が複数のＣＵに分割される。加えて、ＨＥＶＣにおける複数の分割単位タイプの概念は除去され、すなわちＣＵ、予測単位（ＰＵ）、および変換単位（ＴＵ）の分離はＶＶＣには存在しなくなり、代わりに各ＣＵは常に、さらなる分割なく、予測および変換の両方に対する基本単位として使用される。複数タイプのツリー構造では、１つのＣＴＵが４分木構造によって分割され、次いで各４分木の葉ノードを、２分木および３分木構造によってさらに分割することができる。

図１を参照すると、エンコーダ１００において、ビデオフレームが処理のために複数のビデオブロックに分割される。所与の各ビデオブロックに対して、インター予測手法またはイントラ予測手法に基づいて、予測が形成される。インター予測では、以前に再構成されたフレームからの画素に基づいて、動き推定および動き補償によって、１つまたは複数の予測子が形成される。イントラ予測では、現在のフレーム内の再構成画素に基づいて、予測子が形成される。モード決定によって、現在のブロックを予測するために最善の予測子を選択することができる。

現在のビデオブロックとその予測子との間の差を表す予測残差が、変換回路１０２へ送られる。本明細書では、「回路」という用語は、ハードウェアおよびハードウェアを動作させるためのソフトウェアを含む。変換回路１０２は、離散コサイン変換（ＤＣＴ）または概念的に類似している変換などの変換を残差ブロックに適用し、変換係数値を含むビデオブロックを生み出す。ＤＣＴの代わりに、ウェーブレット変換、整数変換、サブバンド変換、離散サイン変換（ＤＳＴ）、または他のタイプの変換を使用することもできる。変換回路１０２は、残差ブロックに変換を適用して、１群の変換係数を生み出す。変換は、画素ドメインからの残差情報を周波数ドメインなどの変換ドメインへ転換することができる。

次いで、その結果得られる変換係数は、エントロピー低減のために変換回路１０２から量子化回路１０４へ送られる。量子化回路１０４は、ビットレートをさらに低減させるために、変換係数を量子化する。量子化プロセスは、これらの係数のいくつかまたはすべてに関連するビット深さを低減させることができる。量子化度は、量子化パラメータを調整するによって修正することができる。次いで、量子化された係数は、圧縮ビデオビットストリームを生成するために、エントロピー符号化回路１０６へ送出される。エントロピー符号化回路１０６は、量子化された変換係数をエントロピー符号化する。たとえば、エントロピー符号化回路１０６は、コンテキスト適応型可変長符号化（ＣＡＶＬＣ）、コンテキスト適応型２進算術符号化（ＣＡＢＡＣ）、構文に基づくコンテキスト適応型２進算術符号化（ＳＢＡＣ）、確率間隔分割エントロピー（ＰＩＰＥ）符号化、または別のエントロピー符号化技法を実行することができる。コンテキストに基づくエントロピー符号化の場合、コンテキストは隣接ブロックに基づくことができる。エントロピー符号化回路１０６によるエントロピー符号化に続いて、コード化されたビットストリームは、別のデバイス（たとえば、ビデオデコーダ）へ伝送することができ、または後の伝送もしくは検索のために保管することができる。図１に示すように、ビデオブロック分割情報、動きベクトル、参照ピクチャ索引、およびイントラ予測モードなど、インター予測回路および／またはイントラ予測回路１１２からの予測関係情報１１０がまた、エントロピー符号化回路１０６を介して送出され、圧縮ビデオビットストリーム１１４内へ保存される。

エンコーダ１００では、予測の目的で、画素を再構成するためにデコーダ関係回路も必要とされる。第１に、逆量子化回路１１６および逆変換回路１１８によって、予測残差が再構成される。この再構成された予測残差をブロック予測子１２０と組み合わせて、現在のビデオブロックに対するフィルタリングされていない再構成画素を生成する。逆量子化回路１１６および逆変換回路１１８は、逆量子化および逆変換をそれぞれ適用して、画素ドメイン内の残差ブロックを再構成する。特定の実施形態では、加算器が、動き補償回路１２２またはイントラ予測回路１１２によって先に生み出されている動き補償された予測ブロックに、再構成された残差ブロックを加えて、参照ピクチャメモリ内での記憶のために、再構成されたビデオブロックを生み出す。再構成されたビデオブロックは、次のビデオフレーム内のブロックをインター符号化するために、動き推定回路１２４および動き補償回路１２２によって、参照ブロックとして使用することができる。

符号化効率および視覚的品質を改善するために、ループ内フィルタが一般に使用される。たとえば、ＡＶＣおよびＨＥＶＣ、ならびに現在のバージョンのＶＶＣでは、非ブロック化フィルタが利用可能である。ＨＥＶＣでは、符号化効率をさらに改善するために、ＳＡＯ（サンプル適応型オフセット）と呼ばれる追加のループ内フィルタが定義されている。現在のバージョンのＶＶＣ規格では、最終的な規格に組み込むために、ＡＬＦ（適応型ループフィルタ）と呼ばれるさらに別のループ内フィルタが積極的に調査されている。これらのループ内フィルタ演算は任意選択である。これらの演算を実行することで、符号化効率および視覚的品質を改善する手助けをする。これらの演算はまた、計算の複雑さを省くために、エンコーダ１００によって下された決定としてオフにすることもできる。これらのフィルタのオプションがエンコーダ１００によってオンにされた場合、イントラ予測は通常、フィルタリングされていない再構成画素に基づくのに対して、インター予測は、フィルタリングされた再構成画素に基づくことに留意されたい。

図２は、双方向オプティカルフローに対する方法を使用することができる例示的なデコーダ２００のブロック図である。例示的な実施形態では、デコーダ２００は、図１のエンコーダ１００に常駐する再構成に関係する部分に類似している。図２を参照すると、デコーダ２００において、第１に、入ってくるビデオビットストリーム２０１を、エントロピー復号回路２０２によって復号し、量子化された係数レベルおよび予測関係情報を導出する。次いで、量子化された係数レベルを逆量子化回路２０４および逆変換回路２０６によって処理し、再構成された予測残差を得る。逆量子化回路２０４は、ビットストリームに提供されてエントロピー復号回路２０２によって復号されている量子化された変換係数を逆量子化、すなわち量子化解除する。逆量子化プロセスは、ビデオスライス内の各ビデオブロックに対してデコーダ２００によって計算される量子化パラメータＱＰｙを使用して、適用されるべき量子化度、および同様に逆量子化度を決定することを含むことができる。逆変換回路２０６は、逆変換、たとえば逆ＤＣＴ、逆整数変換、または概念的に類似している逆変換プロセスを変換係数に適用して、画素ドメイン内に残差ブロックを生み出す。

イントラ／インターモードセレクタ回路２０８内に実装することができるブロック予測子機構は、イントラ予測プロセスを実行するように構成されたイントラ予測回路２１０、および／または復号された予測情報に基づいて動き補償プロセスを実行するように構成された動き補償回路２１２を含む。加算器２１４を使用して、逆変換回路２０６からの再構成された予測残差と、ブロック予測子機構によって生成された予測出力とを加算することによって、１組のフィルタリングされていない再構成画素が得られる。ループ内フィルタ２１６がオンにされている状況では、これらの再構成画素に対してフィルタリング演算を実行して、出力のための最終的な再構成ビデオを導出する。

ビデオスライスがイントラ符号化（Ｉ）スライスとして符号化されているとき、イントラ予測回路２１０が、現在のフレームまたはピクチャの以前復号されたブロックからの信号送信されたイントラ予測モードおよびデータに基づいて、現在のビデオスライスのビデオブロックに対する予測データを生成することができる。ビデオフレームがインター符号化（すなわち、Ｂ、Ｐ、またはＧＰＢ）スライスとして符号化されているとき、動き補償回路２１２が、エントロピー復号回路２０２から受け取った動きベクトルおよび他の構文要素に基づいて、現在のビデオスライスのビデオブロックに対する予測ブロックを生み出す。予測ブロックは、参照ピクチャリストのうちの１つにおける参照ピクチャのうちの１つから生み出すことができる。デコーダ２００は、デフォルトの構成法を使用して、参照ピクチャメモリ内に記憶されている参照ピクチャに基づいて、参照フレームリストＬｉｓｔ０およびＬｉｓｔ１を構成することができる。

動き補償回路２１２は、動きベクトルおよび他の構文要素を構文解析することによって、現在のビデオスライスのビデオブロックに対する予測情報を決定し、この予測情報を使用して、復号されている現在のビデオブロックに対する予測ブロックを生み出す。たとえば、動き補償回路２１２は、ビデオスライスのビデオブロックを符号化するために使用された予測モード（たとえば、イントラ予測またはインター予測）を決定するために受け取った構文要素、インター予測スライスタイプ（たとえば、Ｂスライス、Ｐスライス、またはＧＰＢスライス）、スライスに対する参照ピクチャリストのうちの１つまたは複数に対する構成情報、スライスのインターコード化された各ビデオブロックに対する動きベクトル、スライスのインター符号化された各ビデオブロックに対するインター予測状態、および現在のビデオスライス内のビデオブロックを復号するための他の情報のうちのいくつかを使用する。

動き補償回路２１２はまた、画素未満の精度のための補間フィルタに基づいて、補間を実行することができる。動き補償回路２１２は、ビデオブロックのコード化中にエンコーダ１００によって使用される補間フィルタを使用して、参照ブロックの整数未満の画素に対する補間された値を計算することができる。例示的な実施形態では、動き補償回路２１２は、受け取った構文要素から、エンコーダ１００によって使用された補間フィルタを決定し、補間フィルタを使用して予測ブロックを生み出す。動き補償回路２１２は、本開示に記載する方法のいずれかまたはすべてを（単独または任意の組合せで）実行するように構成することができる。たとえば、動き補償回路２１２は、本明細書に論じる例示的なＢＤＯＦ方法を実行するように構成することができる。

例示的な実施形態では、動き補償回路２１２は、現在のピクチャより時間的に前の第１の参照ピクチャ（たとえば、参照ピクチャリスト０内）と、現在のピクチャより時間的に後の第２の参照ピクチャ（たとえば、参照ピクチャリスト１内）とを有するブロックに、ＢＤＯＦを適用するように構成される。ブロックにＢＤＯＦを適用することを決定したことに応答して、動き補償回路２１２は、本明細書に論じる方法（たとえば、本明細書に記載する数式に関する）を適用し、ＢＤＯＦに従ってブロックを予測することができる。

図３Ａ～図３Ｅは、５つの例示的な分配タイプ、すなわち４分割（図３Ａ）、水平２分割（図３Ｂ）、垂直２分割（図３Ｃ）、水平３分割（図３Ｄ）、および垂直３分割（図３Ｅ）を示す。

図１を再び参照して、空間予測および／または時間予測を実行することができる。空間予測（または「イントラ予測」）は、同じビデオピクチャまたはスライス内のすでに符号化された隣接ブロックのサンプル（参照サンプルと呼ばれる）からの画素を使用して、現在のビデオブロックを予測する。空間予測は、ビデオ信号に固有の空間的冗長性を低減させる。時間予測（「インター予測」または「動き補償予測」とも呼ばれる）は、すでに符号化されたビデオピクチャからの再構成画素を使用して、現在のビデオブロックを予測する。時間予測は、ビデオ信号に固有の時間的冗長性を低減させる。所与のＣＵに対する時間予測信号は通常、現在のＣＵと現在のＣＵの時間参照との間の動きの量および方向を示す１つまたは複数の動きベクトル（ＭＶ）によって信号送信される。また、複数の参照ピクチャに対応する場合、１つの参照ピクチャ索引がさらに送られ、参照ピクチャストア内のどの参照ピクチャから時間予測信号がくるかを識別するために使用される。空間および／または時間予測後、エンコーダ内のモード決定ブロックが、たとえばレート歪み最適化方法に基づいて、最善の予測モードを選ぶ。次いで、現在のビデオブロックから予測ブロックを引き、変換を使用して予測残差の相関を除去し、量子化する。量子化された残差係数を逆量子化および逆変換して、再構成された残差を形成し、次いで再び予測ブロックに加えて、ＣＵの再構成信号を形成する。たとえばサンプル適応型オフセット（ＳＡＯ）および適応型ループ内フィルタ（ＡＬＦ）などの非ブロック化フィルタを使用して、さらなるループ内のフィルタリングを再構成ＣＵに適用することができ、その後、再構成ＣＵは、参照ピクチャストア内に配置され、将来のビデオブロックを符号化するために使用される。出力ビデオビットストリームを形成するために、符号化モード（インターまたはイントラ）、予測モード情報、動き情報、および量子化された残差係数をすべてエントロピー符号化回路１０６へ送り、さらに圧縮およびパックして、ビットストリームを形成する。

図４は、例示的な双方向オプティカルフロー（ＢＤＯＦ）モデルを示す。図４に示すように、第１の参照ブロックＩ_０内の第１の予測Ｌ_０が、予測が実行されている現在のブロックＣｕｒＢｌｋから第１の時間距離τ_０をあけて位置している。動きベクトル成分（Ｖ_ｘ，Ｖ_ｙ）を有する第１の動きベクトルＡが、第１の参照ブロックＩ_０内で特定される。同様に、第２の参照ブロックＩ_１内の第２の予測Ｌ_１が、現在のブロックから第２の時間距離τ_１をあけて位置している。動きベクトル成分（－Ｖ_ｘ，－Ｖ_ｙ）を有する第２の動きベクトルＢが、第２の参照ブロックＩ_１内で特定される。

双方向オプティカルフロー：ビデオ符号化における従来の双方向予測は、すでに再構成された参照ピクチャから得られる２つの時間予測ブロックの簡単な組合せである。しかし、ブロックに基づく動き補償の制限により、２つの予測ブロックのサンプル間で観察され得るわずかな動きが残ることがあり、したがって動き補償予測の効率が低減される。この問題を解決するために、ＶＶＣでは、１つのブロック内のすべてのサンプルに対するそのような動きの影響を減少させるために、双方向オプティカルフロー（ＢＤＯＦ）が適用される。より具体的には、図４に示すように、ＢＤＯＦは、双方向予測が使用されるときにブロックに基づく動き補償予測に加えて実行されるサンプルごとの動き補正である。各４×４サブブロックの動き補正（ｖ_ｘ，ｖ_ｙ）は、サブブロックの周りの１つの６×６の窓Ω内でＢＤＯＦが適用された後、Ｌ_０予測サンプルとＬ_１予測サンプルとの間の差を最小化することによって計算される。より具体的には、（ｖ_ｘ，ｖ_ｙ）の値は、次式のように導出される。

この式で、

は床関数であり、ｃｌｉｐ３（ｍｉｎ、ｍａｘ、ｘ）は、［ｍｉｎ，ｍａｘ］の範囲内で所与の値ｘをクリッピングする関数であり、記号＞＞は、ビットごとの右シフト演算を表し、記号＜＜は、ビットごとの左シフト演算を表し、ｔｈ_ＢＤＯＦは、不規則な局所的動きによる伝搬誤差を防止するための動き補正閾値であり、２^{１３－ＢＤ}に等しく、ここで、ＢＤは、入力ビデオのビット深さである。式（１）においては、次のとおりである。

Ｓ_１、Ｓ_２、Ｓ_３、Ｓ_５、およびＳ_６の値は、次式のように計算される。

この式で、Ωは、予測Ｌ_０およびＬ_１の１つのサブブロックの周りの１組の隣接予測サンプルであり、また、次式のとおりである。

この式で、Ｉ^（ｋ）（ｉ，ｊ）は、中程度の高い精度（すなわち、１６ビット）で生成されたリストｋ、ｋ＝０，１内の予測信号のサンプル位置（ｉ，ｊ）における予測サンプルであり、

は、その２つの隣接サンプル間の差を直接計算することによって得られるサンプルのそれぞれ水平勾配および垂直勾配である。すなわち、次式のとおりである。

式（１）で導出された動き補正に基づいて、オプティカルフローモデルに基づいた動き軌道に沿ってＬ_０予測およびＬ_１予測を補間することによって、ＣＵの最終的な双方向予測サンプルが、次式（５）に示すように計算される。

この式で、ｓｈｉｆｔおよびο_{ｏｆｆｓｅｔ}は、双方向予測のためにＬ_０予測信号およびＬ_１予測信号を組み合わせるために適用される右シフト値およびオフセット値であり、それぞれ、１５－ＢＤおよび１＜＜（１４－ＢＤ）＋２・（１＜＜１３）に等しい。テーブル１は、ＢＤＯＦプロセスに含まれる中間パラメータの特有のビット幅を示す。テーブル１に示すように、全ＢＤＯＦプロセスの内部ビット幅は、３２ビットを超えない。加えて、式（１）において、考え得る最悪の入力による乗算が、ｖ_ｘＳ_２，ｍの積で生じ、入力ビット幅は、Ｓ_２，ｍおよびｖ_ｘに対してそれぞれ１５ビットおよび４ビットである。したがって、１５ビットの乗算器が、ＢＤＯＦにとって十分である。

ＢＤＯＦは、双方向予測の効率を強化することができるが、ＢＤＯＦの設計をさらに改善する機会がある。より具体的には、中間パラメータのビット幅を制御するためのＶＶＣにおける既存のＢＤＯＦ設計の以下の問題が、本開示で特定されている。

第１に、テーブル１に示すように、パラメータθ（ｉ，ｊ）（すなわち、Ｌ_０予測とＬ_１予測との間の差）、ならびにパラメータψ_ｘ（ｉ，ｊ）およびψ_ｙ（ｉ，ｊ）（すなわち、Ｌ_０およびＬ_１に対する水平勾配値および垂直勾配値の和）が、１１ビットの同じビット幅で表されている。そのような方法は、ＢＤＯＦに対する内部ビット幅の全体的な制御を容易にすることができるが、この方法は、導出される動き補正の精度に関して最適とは言えない可能性がある。これは、式（４）に示すように、これらの勾配値が隣接予測間の差として計算されるからである。そのようなプロセスのハイパス特性により、導出された勾配は、ノイズ、たとえば元のビデオに捕捉されていたノイズおよび符号化プロセス中に生成される符号化ノイズの存在下で、信頼性が低くなる。これは、この方法が高ビット幅で勾配値を表すのに常に有益であるとは限らないことを意味する。

加えて、テーブル１に示すように、全ＢＤＯＦプロセスの最大ビット幅の使用は、垂直動き補正ｖ_ｙの計算によって行われ、第１にＳ_６（２７ビット）が３ビットだけ左シフトされ、次いで、（（ｖ_ｘＳ_２，ｍ）＜＜１２＋ｖ_ｘＳ_２，ｓ）／２（３０ビット）が減算される。したがって、現在の設計の最大ビット幅は、３１ビットに等しい。実際的なハードウェア実装では、通常、１６ビットより大きい最大内部ビット幅による符号化プロセスが、３２ビットの実装によって実施される。したがって、既存の設計は、３２ビット実装の有効ダイナミックレンジを完全に利用しない。これは、ＢＤＯＦによって導出される動き補正の不必要な精度損失を招く可能性がある。

図５に示す例示的な方法など、例示的な実施形態では、例示的なビット幅制御方法が、従来のＢＤＯＦ設計に対するビット幅制御方法の上記の問題に対処する。

第１に、勾配推定誤差の負の影響を克服するために、例示的な実施形態では、式（４）における次の勾配値

を計算するとき、すなわち勾配値の内部ビット幅を減少させるために、追加の右シフトｎ_ｇｒａｄが導入される。より具体的には、次の第１の予測位置

における第１の勾配値、すなわち水平勾配および垂直勾配、ならびに、次の第２の予測位置

における第２の勾配値、すなわち水平勾配および垂直勾配は、次式のように計算される。

さらに、ＢＤＯＦプロセスが適当な内部ビット幅で演算するようにＢＤＯＦプロセス全体を制御するために、変数ψ_ｘ（ｉ，ｊ）、ψ_ｙ（ｉ，ｊ）、およびθ（ｉ，ｊ）の計算に追加のビットシフトｎ_ａｄｊが、次に示すように導入される。

以下のテーブル２は、例示的なビット幅制御方法がＢＤＯＦに適用されるときの各中間パラメータの対応するビット幅を示す。テーブル２は、ＶＶＣにおける従来のＢＤＯＦ設計と比較して、例示的なビット幅制御方法で適用される変化を示す。テーブル２に見ることができるように、例示的なビット幅制御方法を用いると、全ＢＤＯＦプロセスの内部ビット幅は、３２ビットを超えない。加えて、この例示的な方法によって、最大ビット幅はちょうど３２ビットになり、これは、３２ビットのハードウェア実装の利用可能なダイナミックレンジを完全に利用することができる。さらに、テーブル２に示すように、考え得る最悪の入力による乗算が、ｖ_ｘＳ_２，ｍの積で生じ、入力Ｓ_２，ｍは１４ビットであり、入力ｖ_ｘは６ビットである。したがって、従来のＢＤＯＦ方法と同様に、例示的な方法が適用されるときも、１つの１６ビット乗算器は十分に大きい。

テーブル２を参照すると、式（６）および式（７）で適用される右シフトされるビットの数に対する修正により、テーブル１に示す従来のＢＤＯＦ方法と比較して、パラメータψ_ｘ（ｉ，ｊ）、ψ_ｙ（ｉ，ｊ）、およびθ（ｉ，ｊ）のダイナミックレンジが異なり、３つのパラメータは、同じダイナミックレンジ（すなわち、２１ビット）で表される。そのような変化は、内部パラメータＳ_１、Ｓ_２、Ｓ_３、Ｓ_５、およびＳ_６のビット幅を増大させることができ、したがって場合により、内部ＢＤＯＦプロセスの最大ビット幅を３２ビットより大きく増大させることができる。したがって、３２ビット実装を確実にするために、Ｓ_２およびＳ_６の値を計算する際に、２つの追加のクリッピング演算が導入される。より具体的には、例示的な方法において、２つのパラメータの値が、次に示すように計算される。

この式で、Ｂ_２およびＢ_６は、それぞれＳ_２およびＳ_６の出力ダイナミックレンジを制御するためのパラメータである。勾配計算とは異なり、式（８）のクリッピング演算は、１つのＢＤＯＦのＣＵ内の各４×４サブブロックの動き補正を計算するために１度だけ適用され、すなわち４×４単位で呼び出されることに留意されたい。したがって、提案する方法で導入されるクリッピング演算による対応する複雑さの増大は、非常にわずかである。

例示的な実施形態では、ＣＵの最終的な双方向予測は、第１の予測Ｌ_０および第２の予測Ｌ_１、動き補正（ｖ_ｘ，ｖ_ｙ）、ならびに、次の第１の勾配値

と、次の第２の勾配値

とに基づいて計算される。実際には、中間ビット幅と内部ＢＤＯＦ導出の精度との間で異なるトレードオフを実現するために、ｎ_ｇｒａｄ、ｎ_ａｄｊ、Ｂ_２、およびＢ_６の異なる値を適用することもできる。１つの例示的な実施形態では、ｎ_ｇｒａｄおよびｎ_ａｄｊは２に設定され、Ｂ_２は２５に設定され、Ｂ_６は２７に設定される。特定の例示的な実施形態では、たとえば、ｎ_ｃの値は２に等しく設定され、かつ／またはｔｈ_ＢＤＯＦは２に等しく設定される（式（１）参照）。

図５は、例示的な実施形態によるビデオデータのブロックを予測する例示的な方法３００に対するフローチャートである。図５に示す方法について、図１のエンコーダ１００および／または図２のデコーダ２００に関して説明する。しかし、他の例では、図５に示す方法を実行するように、他のデバイスを構成することもできる。

例示的な実施形態では、エンコーダ１００が最初に、参照ピクチャメモリ内に記憶されているピクチャをコード化し、次いで参照ピクチャとして使用するために復号するが、これらのステップは、図５の例示的な方法には示されていない。次いで、エンコーダ１００は、ビデオデータのブロックを受け取る。ブロックは、たとえば、ビデオデータの現在のピクチャ（またはピクチャのスライス）の符号化単位（ＣＵ）の予測単位（ＰＵ）とすることができる。エンコーダ１００は、イントラ予測またはインター予測など、様々な予測モードのうちのどのブロックを予測するために使用するかどうかを判定し、インター予測が判定された場合、単方向インター予測を使用するか、それとも双方向インター予測を使用するかどうかを判定することができる。図５の例示的な方法では、エンコーダ１００は、双方向予測を使用してブロックを予測すると判定する。たとえば、エンコーダ１００は、様々な可能な予測モード（たとえば、１つまたは複数のイントラ予測モード、および参照ピクチャメモリ内に記憶されている様々な復号された参照ピクチャからの単方向または双方向予測）に対するレート歪みメトリクスを計算し、双方向予測がそのブロックに対して最善のレート歪みメトリクスを与えると判定することができる。

エンコーダ１００、たとえば動き推定回路１２４は、双方向予測によって、そのブロックに対する動きベクトルをさらに計算することができる。そのような動きベクトルは、現在のピクチャの前に表示されるべき第１の参照ピクチャと、現在のピクチャの後に表示されるべき第２の参照ピクチャとを指すことができる。たとえば、第１の参照ピクチャは、参照ピクチャリスト０（ＲｅｆＰｉｃＬｉｓｔ０）内で生じることができ、第２の参照ピクチャは、参照ピクチャリスト１（ＲｅｆＰｉｃＬｉｓｔ１）内で生じることができる。

一実施形態では、エンコーダ１００は、第１の動きベクトル（ＭＶ_０）が第１の時間距離τ_０で参照する現在のピクチャに対するＰＯＣ値と第１の参照ピクチャに対するＰＯＣ値との間の第１のＰＯＣ差と、第２の動きベクトル（ＭＶ_１）が第２の時間距離τ_１で参照する現在のピクチャに対するＰＯＣ値と第２の参照ピクチャに対するＰＯＣ値との間の第２のＰＯＣ差とを決定する。ＭＶ_０およびＭＶ_１は、それぞれのｘ成分およびｙ成分を含むことができる。たとえば、ＭＶ_０は、ＭＶ_ｘ０およびＭＶ_ｙ０成分を含むことができ、ここでＭＶ_ｘ０は、第１の参照ピクチャ内の参照ブロックを特定する位置を決定するように、現在のピクチャ内のブロックの位置に対する水平オフセットを示し、ＭＶ_ｙ０は、垂直オフセットを示す。同様に、ＭＶ_１は、ＭＶ_ｘ１およびＭＶ_ｙ１成分を含むことができ、ここでＭＶ_ｘ１は、第２の参照ピクチャ内の参照ブロックを特定する位置を決定するように、現在のピクチャ内のブロックの位置に対する水平オフセットを示し、ＭＶ_ｙ１は、垂直オフセットを示す。

例示的な実施形態では、第１の参照ピクチャおよび第２の参照ピクチャが復号される（３０２）。第２の参照ピクチャは、第１の参照ピクチャとは異なり、第１の参照ピクチャは、現在のピクチャの前に表示され、第２の参照ピクチャは、現在のピクチャの後に表示される。例示的な実施形態では、現在のピクチャの現在のブロックから第１の参照ピクチャの第１の予測Ｌ_０への第１の動きベクトル（ＭＶ_０）が決定され（３０４）、現在のブロックから第２の参照ピクチャの第２の予測Ｌ_１への第２の動きベクトル（ＭＶ_１）が決定される（３０６）。特定の例示的な実施形態では、現在のピクチャから第１の参照ピクチャへの第１の時間距離（τ_０）における現在のピクチャの現在のブロックから第１の参照ピクチャの第１の予測Ｌ_０への第１の動きベクトル（ＭＶ_０）が決定され、現在のピクチャから第２の参照ピクチャへの第２の時間距離（τ_１）における現在のブロックから第２の参照ピクチャの第２の予測Ｌ_１への第２の動きベクトル（ＭＶ_１）が決定される。

次いで、エンコーダ１００は、これらの値を使用して、第１の予測Ｌ_０と第２の予測Ｌ_１との間の差を最小化することによって、符号化単位（ＣＵ）の動き補正（ｖ_ｘ，ｖ_ｙ）を計算する（３０８）。例示的な実施形態では、第１の予測Ｌ_０に対する次の第１の勾配値

ならびに、第２の予測Ｌ_１に対する次の第２の勾配値

が計算される（３１０）。例示的な実施形態では、次いで、式（６）に示すように、追加の右シフトｎ_ｇｒａｄを導入して第１の勾配値および第２の勾配値の内部ビット幅を減少させることによって、第１の勾配値および第２の勾配値を計算することができる。例示的な実施形態では、第１の勾配値および第２の勾配値を計算するステップ（３１０）は、第１の予測の第１の予測位置および第２の予測の第２の予測位置の各々で水平勾配および垂直勾配を計算するステップを含む。式（６）を参照すると、水平勾配は、第１の予測位置および第２の予測位置の各々で計算され、垂直勾配は、第１の予測位置および第２の予測位置の各々で計算される。

例示的な実施形態では、（ｖ_ｘ，ｖ_ｙ）の値は、式（１）を使用して計算され、式（７）に示すように、Ｓ_１、Ｓ_２、Ｓ_３、Ｓ_５、およびＳ_６の値を計算するために、追加のビットシフトｎ_ａｄｊが、複数の変数ψ_ｘ（ｉ，ｊ）、ψ_ｙ（ｉ，ｊ）、およびθ（ｉ，ｊ）の計算に導入される。たとえば、Ｓ_２およびＳ_６の値は、式（８）を使用して計算される。例示的な実施形態では、Ｓ_２およびＳ_６値は、式（８）に示すように、第１のクリッピング演算および第２のクリッピング演算を導入することによって計算され、ここで、Ｂ_２は、Ｓ_２の出力ダイナミックレンジを制御するためのパラメータであり、Ｂ_６は、Ｓ_６の出力ダイナミックレンジを制御するためのパラメータである。次いで、第１の予測Ｌ_０および第２の予測Ｌ_１、動き補正（ｖ_ｘ、ｖ_ｙ）、次の第１の勾配値

ならびに、次の第２の勾配値

に基づいて、ＣＵの最終的な双方向予測を計算することができる（３１２）。特定の例示的な実施形態では、次いで、式（５）に示すように、動き軌道に沿って第１の予測Ｌ_０および／または第２の予測Ｌ_１を補間することによって、動き補正に基づいて、ＣＵの最終的な双方向予測サンプルを計算することができる。例示的な実施形態では、第１の勾配値および第２の勾配値の和が計算され、そのビット幅を減少させるために、この和に追加の右シフトが導入される。第１の予測サンプルＬ_０と第２の予測サンプルＬ_１との間の差が計算され、この差の内部ビット幅を減少させるために、第１の予測サンプルＬ_０および第２の予測サンプルＬ_１に追加の右シフトが導入される。

図５に示す例示的な方法は、ビデオデータをコード化する方法の一例を表し、この方法は、第１の参照ピクチャおよび第２の参照ピクチャを復号するステップであって、第２の参照ピクチャが第１の参照ピクチャとは異なり第１の参照ピクチャが現在のピクチャの前に表示され、第２の参照ピクチャが現在のピクチャの後に表示される、ステップと、現在のピクチャの現在のブロックから第１の参照ピクチャの第１の参照ブロックへの第１の動きベクトル（ＭＶ_０）を決定するステップと、現在のブロックから第２の参照ピクチャの第２の参照ブロックへの第２の動きベクトル（ＭＶ_１）を決定するステップと、双方向オプティカルフロー（ＢＤＯＦ）に従って現在のブロックをコード化するステップとを含む。

１つまたは複数の例では、記載の機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組合せで実施することができる。ソフトウェアで実施された場合、これらの機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体に記憶し、またはコンピュータ可読媒体を介して伝送することができ、ハードウェアに基づく処理単位によって実行することができる。コンピュータ可読媒体は、データ記憶媒体などの有形の媒体に対応するコンピュータ可読記憶媒体、またはたとえば通信プロトコルに従った１つの場所から別の場所へのコンピュータプログラムの伝達を容易にする任意の媒体を含む通信媒体を含むことができる。このようにして、コンピュータ可読媒体は、概して、（１）非一時的な有形のコンピュータ可読記憶媒体、または（２）信号もしくは搬送波などの通信媒体に対応することができる。データ記憶媒体は、本出願に記載する実装例の実装のために命令、コード、および／またはデータ構造を取り出すために、１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセスすることができる利用可能な任意の媒体とすることができる。コンピュータプログラム製品は、コンピュータ可読媒体を含むことができる。

さらに、上記の方法は、１つまたは複数の回路を含む装置を使用して実施することができ、そのような回路には、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、または他の電子構成要素が含まれる。この装置は、上述した方法を実行するために、他のハードウェアまたはソフトウェア構成要素と組み合わせて、これらの回路を使用することができる。上記で開示した各モジュール、サブモジュール、ユニット、またはサブユニットは、１つまたは複数の回路を少なくとも部分的に使用して実施することができる。

本発明の他の実施形態は、本明細書の考察および上記で開示した本発明の実施から、当業者には明らかになる。本出願は、本発明の一般原理に準拠し、当技術分野で周知または通例の慣行範囲に入る本開示からの逸脱を含めて、本発明のあらゆる変形例、使用例、または適用例を包含することが意図される。本明細書および例は、例示としてのみ考慮されるべきであり、本発明の本当の範囲および精神は、以下の特許請求の範囲によって示されることが意図される。

本発明は、上記に説明および添付の図面に図示した厳密な例に限定されるものではなく、本発明の範囲から逸脱することなく、様々な修正および変更を加えることができることが理解されよう。本発明の範囲は、添付の特許請求の範囲によってのみ限定されることが意図される。

Claims

１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサによって実行されるべき複数のプログラムを記憶するメモリとを備えたコンピューティングデバイスで実施され、ビデオ符号化のための双方向オプティカルフロー（ＢＤＯＦ）に対するビット幅を制御する方法であって、
第１の参照ピクチャおよび第２の参照ピクチャを復号するステップであって、前記第２の参照ピクチャが前記第１の参照ピクチャとは異なり、前記第１の参照ピクチャが現在のピクチャの前に表示され、前記第２の参照ピクチャが前記現在のピクチャの後に表示される、ステップと、
前記現在のピクチャの現在のブロックから前記第１の参照ピクチャの第１の予測Ｌ_０への第１の動きベクトル（ＭＶ_０）を決定するステップと、
前記現在のブロックから前記第２の参照ピクチャの第２の予測Ｌ_１への第２の動きベクトル（ＭＶ_１）を決定するステップと、
前記第１の予測Ｌ_０と前記第２の予測Ｌ_１との間の差を最小化することによって、符号化単位（ＣＵ）の動き補正（ｖ_ｘ、ｖ_ｙ）を計算するステップと、
前記第１の予測Ｌ_０に対する第１の勾配値

ならびに、前記第２の予測Ｌ_１に対する第２の勾配値

を計算するステップと、
前記第１の予測Ｌ_０および前記第２の予測Ｌ_１、前記動き補正（ｖ_ｘ、ｖ_ｙ）、前記第１の勾配値

ならびに、前記第２の勾配値

に基づいて、前記ＣＵの最終的な双方向予測を計算するステップとを含む方法。
（ｖ_ｘ、ｖ_ｙ）の値が、次式のように計算される、請求項１に記載の方法。
Ｓ_１、Ｓ_２、Ｓ_３、Ｓ_５、およびＳ_６の値が、

のように計算され、Ωが、前記第１の予測Ｌ_０および前記第２の予測Ｌ_１の１つのサブブロックの周りの１組の隣接予測サンプルである、請求項２に記載の方法。
ｎ_ｃの値が、２に等しく設定される、請求項２に記載の方法。
ｔｈ_ＢＤＯＦの値が、２に等しく設定される、請求項２に記載の方法。
複数の変数ψ_ｘ（ｉ，ｊ）、ψ_ｙ（ｉ，ｊ）、およびθ（ｉ，ｊ）の計算に追加のビットシフトｎ_ａｄｊを導入するステップをさらに含み、

である、請求項２に記載の方法。
ｎ_ａｄｊの値が、２に等しく設定される、請求項６に記載の方法。
第１のクリッピング演算および第２のクリッピング演算を導入することによって、Ｓ_２およびＳ_６の値を計算するステップをさらに含み、前記第１のクリッピング演算が、

のように計算され、
前記第２のクリッピング演算が、

のように計算され、
Ｂ_２が、Ｓ_２の出力ダイナミックレンジを制御するためのパラメータであり、Ｂ_６が、Ｓ_６の出力ダイナミックレンジを制御するためのパラメータである、請求項６に記載の方法。
勾配値

および、勾配値

を計算するステップが、前記第１の予測の第１の予測位置および前記第２の予測の第２の予測位置の各々で水平勾配および垂直勾配を計算するステップをさらに含む、請求項１に記載の方法。
前記水平勾配が、前記第１の予測位置および前記第２の予測位置の各々で、

のように計算され、
前記垂直勾配が、前記第１の予測位置および前記第２の予測位置の各々で、

のように計算される、請求項９に記載の方法。
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサに結合された非一時的記憶装置と、
前記非一時的記憶装置に記憶された複数のプログラムとを備え、
前記複数のプログラムが、前記１つまたは複数のプロセッサによって実行されたとき、
第１の参照ピクチャおよび第２の参照ピクチャを復号するステップであって、前記第２の参照ピクチャが前記第１の参照ピクチャとは異なり、前記第１の参照ピクチャが現在のピクチャの前に表示され、前記第２の参照ピクチャが前記現在のピクチャの後に表示される、ステップと、
前記現在のピクチャの現在のブロックから前記第１の参照ピクチャの第１の予測Ｌ_０への第１の動きベクトル（ＭＶ_０）を決定するステップと、
前記現在のブロックから前記第２の参照ピクチャの第２の予測Ｌ_１への第２の動きベクトル（ＭＶ_１）を決定するステップと、
前記第１の予測Ｌ_０と前記第２の予測Ｌ_１との間の差を最小化することによって、符号化単位（ＣＵ）の動き補正（ｖ_ｘ、ｖ_ｙ）を計算するステップと、
前記第１の予測Ｌ_０に対する第１の勾配値

ならびに、前記第２の予測Ｌ_１に対する第２の勾配値

を計算するステップと、
前記第１の予測Ｌ_０および前記第２の予測Ｌ_１、前記動き補正（ｖ_ｘ、ｖ_ｙ）、前記第１の勾配値

ならびに、前記第２の勾配値

に基づいて、前記ＣＵの最終的な双方向予測を計算するステップとを含む演算を、前記コンピューティングデバイスに実行させる、コンピューティングデバイス。
（ｖ_ｘ、ｖ_ｙ）の値が、次式のように計算される、請求項１１に記載のコンピューティングデバイス。
Ｓ_１、Ｓ_２、Ｓ_３、Ｓ_５、およびＳ_６の値が、

のように計算され、Ωが、前記第１の予測Ｌ_０および前記第２の予測Ｌ_１の１つのサブブロックの周りの１組の隣接予測サンプルである、請求項１２に記載のコンピューティングデバイス。
ｎ_ｃの値が、２に等しく設定される、請求項１２に記載のコンピューティングデバイス。
ｔｈ_ＢＤＯＦの値が、２に等しく設定される、請求項１２に記載のコンピューティングデバイス。
複数の変数ψ_ｘ（ｉ，ｊ）、ψ_ｙ（ｉ，ｊ）、およびθ（ｉ，ｊ）の計算に追加のビットシフトｎ_ａｄｊを導入するステップをさらに含み、

である、請求項１２に記載のコンピューティングデバイス。
ｎ_ａｄｊの値が、２に等しく設定される、請求項１６に記載のコンピューティングデバイス。
第１のクリッピング演算および第２のクリッピング演算を導入することによって、Ｓ_２およびＳ_６の値を計算するステップをさらに含み、前記第１のクリッピング演算が、

のように計算され、
前記第２のクリッピング演算が、

のように計算され、
Ｂ_２が、Ｓ_２の出力ダイナミックレンジを制御するためのパラメータであり、Ｂ_６が、Ｓ_６の出力ダイナミックレンジを制御するためのパラメータである、請求項１６に記載のコンピューティングデバイス。
勾配値

および、勾配値

を計算するステップが、前記第１の予測の第１の予測位置および前記第２の予測の第２の予測位置の各々で水平勾配および垂直勾配を計算するステップをさらに含む、請求項１１に記載のコンピューティングデバイス。
前記水平勾配が、前記第１の予測位置および前記第２の予測位置の各々で、

のように計算され、
前記垂直勾配が、前記第１の予測位置および前記第２の予測位置の各々で、

のように計算される、請求項１３に記載のコンピューティングデバイス。
１つまたは複数のプロセッサを有するコンピューティングデバイスによる実行のための複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記複数のプログラムが、前記１つまたは複数のプロセッサによって実行されたとき、
第１の参照ピクチャおよび第２の参照ピクチャを復号するステップであって、前記第２の参照ピクチャが前記第１の参照ピクチャとは異なり、前記第１の参照ピクチャが現在のピクチャの前に表示され、前記第２の参照ピクチャが前記現在のピクチャの後に表示される、ステップと、
前記現在のピクチャの現在のブロックから前記第１の参照ピクチャの第１の予測Ｌ_０への第１の動きベクトル（ＭＶ_０）を決定するステップと、
前記現在のブロックから前記第２の参照ピクチャの第２の予測Ｌ_１への第２の動きベクトル（ＭＶ_１）を決定するステップと、
前記第１の予測Ｌ_０と前記第２の予測Ｌ_１との間の差を最小化することによって、符号化単位（ＣＵ）の動き補正（ｖ_ｘ、ｖ_ｙ）を計算するステップと、
前記第１の予測Ｌ_０に対する第１の勾配値

ならびに、前記第２の予測Ｌ_１に対する第２の勾配値

を計算するステップと、
前記第１の予測Ｌ_０および前記第２の予測Ｌ_１、前記動き補正（ｖ_ｘ、ｖ_ｙ）、前記第１の勾配値

ならびに、前記第２の勾配値

に基づいて、前記ＣＵの最終的な双方向予測を計算するステップとを含む演算を、前記コンピューティングデバイスに実行させる、非一時的コンピュータ可読記憶媒体。
（ｖ_ｘ、ｖ_ｙ）の値が、次式のように計算される、請求項２１に記載の非一時的コンピュータ可読記憶媒体。
Ｓ_１、Ｓ_２、Ｓ_３、Ｓ_５、およびＳ_６の値が、

のように計算され、Ωが、前記第１の予測Ｌ_０および前記第２の予測Ｌ_１の１つのサブブロックの周りの１組の隣接予測サンプルである、請求項２２に記載の非一時的コンピュータ可読記憶媒体。
複数の変数ψ_ｘ（ｉ，ｊ）、ψ_ｙ（ｉ，ｊ）、およびθ（ｉ，ｊ）の計算に追加のビットシフトｎ_ａｄｊを導入するステップをさらに含み、

である、請求項２２に記載の非一時的コンピュータ可読記憶媒体。
第１のクリッピング演算および第２のクリッピング演算を導入することによって、Ｓ_２およびＳ_６の値を計算するステップをさらに含み、
前記第１のクリッピング演算が、

のように計算され、
前記第２のクリッピング演算が、

のように計算され、
Ｂ_２が、Ｓ_２の出力ダイナミックレンジを制御するためのパラメータであり、Ｂ_６が、Ｓ_６の出力ダイナミックレンジを制御するためのパラメータである、請求項２４に記載の非一時的コンピュータ可読記憶媒体。
勾配値

および、勾配値

を計算するステップが、前記第１の予測の第１の予測位置および前記第２の予測の第２の予測位置の各々で水平勾配および垂直勾配を計算するステップをさらに含む、請求項２１に記載の非一時的コンピュータ可読記憶媒体。
前記水平勾配が、前記第１の予測位置および前記第２の予測位置の各々で、

のように計算され、
前記垂直勾配が、前記第１の予測位置および前記第２の予測位置の各々で、

のように計算される、請求項２６に記載の非一時的コンピュータ可読記憶媒体。