JP7313470B2

JP7313470B2 - ビデオデコーディング方法、及びビデオデコーディングシステム

Info

Publication number: JP7313470B2
Application number: JP2021559924A
Authority: JP
Inventors: ジャオ，リアン; ジャオ，シン; リィウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2019-11-27
Filing date: 2020-11-26
Publication date: 2023-07-24
Anticipated expiration: 2040-11-26
Also published as: US11930211B2; CN113767636B; US20220295096A1; EP4066498A1; KR20210128494A; EP4066498A4; WO2021108734A1; JP2022526839A; US20210160538A1; CN113767636A; US11363295B2

Description

［関連出願の相互参照］
本出願は、２０１９年１１月２７日に出願された米国仮特許出願第６２／９４１，３５０号の優先権を主張した、２０２０年１０月１２日に出願された米国特許出願第１７／０６８，５２２号の優先権を主張し、その内容を全て参照により本明細書に組み込むものとする。

本出願は、ビデオコーディング技術の分野、特にイントラモードコーディングのための方法およびシステムに関する。

ＡＯＭｅｄｉａビデオ１（ＡＶ１）は、インターネットを介したビデオ送信用に設計されたオープンビデオコーディングフォーマットである。それは、半導体企業、ビデオオンデマンドプロバイダー、ビデオコンテンツプロデューサー、ソフトウェア開発会社、およびＷｅｂブラウザーベンダーを含む２０１５年に設立されたコンソーシアムであるＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）よってＶＰ９の後継として開発されたものである。、ＡＶ１プロジェクトのコンポーネントの多くは、Ａｌｌｉａｎｃｅメンバーによる以前の研究に由来している。個々の貢献者は何年も前に実験技術プラットフォームを開始した。Ｘｉｐｈ／ＭｏｚｉｌｌａＤａａｌａは、２０１０年にすでにコードを公開しており、Ｇｏｏｇｌｅの実験的なＶＰ９進化プロジェクトＶＰ１０は、２０１４年９月１２日に発表され、ＣｉｓｃｏのＴｈｏｒは２０１５年８月１１日に公開された。ＶＰ９のコードベースに基づいて構築されたＡＶ１には、追加の手法が組み込まれており、そのいくつかはこれらの実験形式で開発されたものである。ＡＶ１リファレンスコーデックの最初のバージョン０．１．０は、２０１６年４月７日に公開された。アライアンスは、リファレンス、ソフトウェアベースのエンコーダおよびデコーダとともに、２０１８年３月２８日にＡＶ１ビットストリーム仕様のリリースを発表した。２０１８年６月２５日に、仕様の検証済みバージョン１．０．０がリリースされた。２０１９年１月８日に検証済みＥｒｒａｔａ１を使用したバージョン１．０．０仕様がリリースされた。ＡＶ１ビットストリーム仕様には、参照ビデオコーデックが含まれる。

ＩＴＵ－ＴＶＣＥＧ（Ｑ６／１６）およびＩＳＯ／ＩＥＣＭＰＥＧ（ＪＴＣ１／ＳＣ２９／ＷＧ１１）は、２０１３年（バージョン１）、２０１４年（バージョン２）、２０１５年（バージョン３）および２０１６年（バージョン４）にＨ．２６５／ＨＥＶＣ（高効率ビデオコーディング）標準を公開した。２０１５年に、これら２つの標準化団体は、ＨＥＶＣを超えた次のビデオコーディング標準を開発する可能性を探るために、共同でＪＶＥＴ（ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ）を結成した。２０１７年１０月に、それらの標準化団体は、ＨＥＶＣ（ＣｆＰ）を超えた機能を備えたビデオ圧縮に関する共同提案募集（ＣａｐａｂｉｌｉｔｙｂｅｙｏｎｄＨＥＶＣ、ＣｆＰ）を発表した。２０１８年２月１５日までに、全部で、標準ダイナミックレンジ（ＳＤＲ）に関する合計２２個のＣｆＰ回答、高ダイナミックレンジ（ＨＤＲ）に関する１２個のＣｆＰ回答、および３６０のビデオカテゴリに関する１２個のＣｆＰ回答が、それぞれ提出された。２０１８年４月に、受け取られたすべてのＣｆＰ回答は、第１２２回ＭＰＥＧ／第１０回ＪＶＥＴ会議で評価された。この会議の結果、ＪＶＥＴはＨＥＶＣを超えた次世代ビデオコーディングの標準化プロセスを正式に開始した。新しい標準は、多用途ビデオコーディング（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ，ＶＶＣ）と名付けられ、ＪＶＥＴは、ＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔＴｅａｍと改名された。

ＡＶ１では、利用可能なイントラ予測モードの数は６２で、５６個の角度イントラ予測モード、５つのスムーズモード、および１つの、輝度に基づく彩度決定モード（ｃｈｒｏｍａｆｒｏｍｌｕｍａｍｏｄｅ）が含まれる。角度イントラ予測モードは、方向性イントラ予測モードとも呼ばれる。５６個の角度イントラ予測モードについて、そのうちの８つは公称角度と呼ばれ、各公称角度には７つのデルタ角度（デルタ角度が０の公称角度自体を含む）があり、これらはＶＶＣでの角度の定義とは異なっている。さらに、ＡＶ１に基づくビデオコーディングスキームのスムーズモードの数と定義も、ＶＶＣに基づくビデオコーディングスキームとは異なっている。したがって、ＪＶＥＴ－Ｌ０２８０（ＶＶＣプロポーザル）でのイントラモードコーディングをＡＶ１標準に直接適用することできない。

開示された方法およびシステムは、上記の１つ以上の問題および他の問題を解決することを目的とする。

本開示の一態様は、ビデオデコーディング方法を含む。前記方法は、ビデオ入力の現在フレームを取得するステップと、現在ビデオフレームを複数のコーディングブロックに分割するステップと、許容されたイントラ予測モード（ＡＩＰＭ）セットに含まれるイントラ予測モードで各コーディングブロックのシンボルレベルを予測するステップであって、前記ＡＩＰＭセットに含まれる前記イントラ予測モードが、異なるビデオコーディングスキームのビデオコーディングフォーマットでの全ての利用可能なイントラ予測モードのサブセットであり、コーディング効率および圧縮性能に基づいて決定され、前記ＡＩＰＭセットに含まれる前記イントラ予測モードのそれぞれが、インデックス番号によって識別される、ステップと、残差シンボルレベルを変換および量子化するステップと、前記変換および量子化された残差シンボルレベルをエントロピーコーディングするステップと、ビットストリームを出力するステップと、を含む。

本開示の別の態様は、ビデオデコーディングシステムを含む。前記システムは、コンピュータプログラム命令を記憶するメモリと、前記メモリに結合され、前記コンピュータプログラム命令を実行するとき、ビデオ入力の現在フレームを取得するステップと、現在ビデオフレームを複数のコーディングブロックに分割するステップと、許容されたイントラ予測モード（ＡＩＰＭ）セットに含まれるイントラ予測モードで各コーディングブロックのシンボルレベルを予測するステップであって、前記ＡＩＰＭセットに含まれる前記イントラ予測モードが、異なるビデオコーディングスキームのビデオコーディングフォーマットでの全ての利用可能なイントラ予測モードのサブセットであり、コーディング効率および圧縮性能に基づいて決定され、前記ＡＩＰＭセットに含まれる前記イントラ予測モードのそれぞれが、インデックス番号によって識別される、ステップと、残差シンボルレベルを変換および量子化するステップと、前記変換および量子化された残差シンボルレベルをエントロピーコーディングするステップと、ビットストリームを出力するステップと、を実行するように構成されたプロセッサとを含む。

本開示の他の態様は、本開示の説明、特許請求の範囲、および図面に照らして当業者によって理解することができる。

本開示の特定の実施形態を組み込んだ動作環境を示す。本開示の実施形態と一致する電子デバイスを示す。本開示の実施形態と一致するコンピュータシステムを示す。本開示の実施形態と一致するビデオエンコーダを示す。本開示の実施形態と一致する例示的なビデオコーディング方法を示す。ＶＶＣ標準で利用可能なイントラ予測モードを示す。ＡＶ１標準におけるイントラ予測モードの８つの公称角度を示す。本開示の実施形態と一致するＰＡＥＴＨモードの上部、左側、および左上の位置を示す。本開示の実施形態と一致する再帰的イントラフィルタリングモードの例を示す。本開示の実施形態と一致する、許容されたイントラ予測モード（ＡＩＰＭ）セットに含まれるイントラ予測モードを決定するフローチャートを示す。本開示の実施形態と一致する６つのＭＰＭを導出するプロセスにおける５つの隣接コーディングブロックの位置を示す。

以下は、添付の図面を参照して、本発明の実施形態における技術的解決策を説明する。可能な限り、同じまたは同様の部品を参照するために、図面全体で同じ参照番号が使用される。明らかに、記載された実施形態は、本発明の実施形態の一部にすぎず、そのすべてではない。創造的努力なしに本発明の実施形態に基づいて当業者によって得られたすべての他の実施形態は、本発明の保護範囲内に含まれるものとする。本開示で使用される特定の用語は、以下において最初に説明される。

多用途ビデオコーディング（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ，ＶＶＣ）について、ＶＶＣは、ＨＥＶＣ（ＩＴＵ－ＴＨ．２６５とも呼ばれる）を継承するためにＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ（ＪＶＥＴ）によって開発されたビデオデコーディング標準である。ＶＶＣは、そのような標準の前世代の圧縮能力を大幅に超え、幅広いアプリケーションで効果的に使用するための非常に用途の広い圧縮能力を有するビデオコーディング技術を規定する。ＶＶＣ標準は、参照により本明細書に組み込まれる。

ＡＯＭｅｄｉａビデオ１（ＡＶ１）について、ＡＶ１は、インターネットを介したビデオ送信のためにＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）によって開発されたオープンソースのビデオコーディング標準である。ＡＶ１標準は、参照により本明細書に組み込まれる。

許容されたイントラ予測モード（ＡｌｌｏｗｅｄＩｎｔｒａＰｒｅｄｉｃｔｉｏｎＭｏｄｅ，ＡＩＰＭ）は、隣接ブロックのイントラ予測モードに従って導出された現在ブロックのイントラ予測に使用することができるモードを有する１つのモードセットとして定義される。

許容されていないイントラ予測モード（ＤｉｓａｌｌｏｗｅｄＩｎｔｒａＰｒｅｄｉｃｔｉｏｎＭｏｄｅ，ＤＩＰＭ）は、隣接ブロックのイントラ予測モードに従って導出された現在ブロックのイントラ予測にシグナリングすることも使用することもできないモードを有する１つのモードセットとして定義される。

コンテキスト適応型２値算術コーディング（Ｃｏｎｔｅｘｔ-ｂａｓｅｄＡｄａｐｔｉｖｅＢｉｎａｒｙＡｒｉｔｈｍｅｔｉｃＣｏｄｉｎｇ，ＣＡＢＡＣ）について、ＣＡＢＡＣは、さまざまなビデオコーディング標準で使用されるエントロピーコーディングの形式である。

多用途ビデオコーディングテストモデル（ＶｅｒｓａｔｉｌｅｖｉｄｅｏｃｏｄｉｎｇＴｅｓｔＭｏｄｅｌ，ＶＴＭ）について、ＶＴＭは、ＶＶＣアルゴリズムとテスト手順のエンコーダ側の説明を提供する。

Ｂｊｏｎｔｅｇａａｒｄデルタレート（ＢＤＲまたはＢＤレート）について、ＢＤＲは、ビデオ信号の同じピーク信号対雑音比（ＰＳＮＲ）のビットレートの変化を測定することにより、コーディング効率を評価する方法である。

図１は、本開示の特定の実施形態を組み込んだ動作環境１００を示す。図１に示すように、動作環境１００は、ビデオ機能を有する様々なデバイスを含み得る。例えば、動作環境１００は、端末デバイス１０２、カメラデバイス１０４およびモノのインターネット（ＩｏＴ）デバイス１０６を含み得る。他のタイプのデバイスも含み得る。

動作環境１００はまた、サーバ１２２、ヒューマンビジョンアプリケーション１２４、マシンビジョンアプリケーション１２６、および様々なデバイスをサーバ１２２に接続する通信リンク１４０を含み得る。ユーザ１３０は、様々なデバイスのうちの１つ以上を使用、アクセス、または制御することができる。

端末デバイス１０２は、携帯情報端末（ＰＤＡ）、携帯電話、スマートフォン、統合メッセージングデバイス（ＩＭＤ）、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、および他のコンピューティングデバイスなどの任意のユーザ端末を含み得る。カメラデバイス１０４は、デジタルカメラ、ビデオカメラ、セキュリティカメラ、車載カメラ、およびステレオカメラなどの任意の画像またはビデオキャプチャデバイスを含み得る。ＩｏＴデバイス１０６は、デジタルドアベル、自動運転センサ、デジタル音声アシスタント、スマートスピーカー、スマートアプライアンス、および任意の産業用または商用ＩｏＴシステムなどの、カメラ機能を有する任意のタイプのＩｏＴデバイスを含み得る。様々なデバイス１０２、１０４、および１０６のいずれも、移動している個人によって運ばれるとき、静止または移動可能であり、また、車、トラック、タクシー、バス、列車、ボート、飛行機、自転車、オートバイ、または同様の適切な輸送モードの一部として、または輸送モードで配置することもできる。

図２は、様々なデバイス１０２、１０４および／または１０６のいずれかを実装するための電子デバイスを示す。図２に示されるように、電子デバイス２００は、ハードウェアプロセッサ２０２、メモリ２０４、カードリーダ２０６、ディスプレイ２０８、キーボード２１０、無線周波数（ＲＦ）インタフェース２１２、ベースバンド２１４、アンテナ２１６、エンコーダ２２２、デコーダ２２４、カメラ２２６、スピーカー２３２、およびマイクロフォン２３４などを含む。図２に示されるコンポーネントは、例示であり、特定のコンポーネントが省略されてもよく、他のコンポーネントが追加されてもよい。

プロセッサ２０２は、他のコンポーネントとの間でデータを送受信するために、１つ以上のバスまたは他の電気的接続を介して他のコンポーネントに接続され得る。プロセッサ２０２は、１つ以上の処理コア、例えば、４コアプロセッサまたは８コアプロセッサを含み得る。プロセッサ２０２は、少なくとも１つのハードウェア形式のデジタル信号処理（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、およびプログラマブルロジックアレイ（ＰＬＡ）を使用することによって実装され得る。プロセッサ２０２はまた、メインプロセッサおよびコプロセッサを含み得る。メインプロセッサは中央処理ユニット（ＣＰＵ）であり得、コプロセッサは、表示画面が表示する必要のあるコンテンツのレンダリングおよび描画を担当するように構成されたグラフィックス処理ユニット（ＧＰＵ）であり得る。いくつかの実施形態では、プロセッサ２０２は、人工知能（ＡＩ）プロセッサをさらに含み得る。ＡＩプロセッサは、機械学習に関連するコンピューティング操作を処理するように構成される。

メモリ２０４は、高速ランダムアクセスメモリおよび不揮発性メモリ、例えば、１つ以上のディスク記憶デバイスまたはフラッシュ記憶デバイスなどの、１つ以上のコンピュータ可読記憶媒体を含み得る。メモリ２０４は、画像データと音声データの両方の形式でデータを記憶することができ、プロセッサ２０２の命令も記憶することができる。カードリーダ２０６は、スマートカードインタフェース、通信カードインタフェース（例えば、近距離通信（ＮＦＣ）カード）、またはユーザ情報を提供し、ユーザ１３０の認証および許可のための認証情報を提供するのに適している加入者識別子モジュール（ＳＩＭ）カードまたは他のカードインタフェースなどの、任意のタイプのポータブルカードインタフェースを含み得る。

さらに、ディスプレイ２０８は、画像またはビデオを表示するのに適している任意の適切な表示技術であり得る。例えば、ディスプレイ２０８は、液晶ディスプレイ（ＬＤＣ）スクリーン、有機発光ダイオード（ＯＬＥＤ）スクリーンなどを含み得、タッチスクリーンであり得る。キーボード２１０は、ユーザ１３０による情報を入力するための物理的または仮想キーボードを含み得、また、他のタイプの入力／出力デバイスを含み得る。スピーカー２３２およびマイクロフォン２３４は、電子デバイス２００の音声を入力および出力するために使用することができる。

ＲＦインタフェース２１２（アンテナ２１６と共に）は、ＲＦ信号を送受信するためのＲＦ回路を含み得る。ＲＦインタフェース２１２は、電気信号を送信用の電磁信号に変換するか、または受信した電磁信号を受信用の電気信号に変換することができる。ＲＦインタフェース２１２は、少なくとも１つの無線通信プロトコルを介して他の電子デバイスと通信することができる。無線通信プロトコルは、メトロポリタンエリアネットワーク、様々な世代の移動通信ネットワーク（２Ｇ、３Ｇ、４Ｇおよび５Ｇ）、無線ローカルエリアネットワーク（ＬＡＮ）、および／またはワイヤレス・フィデリティ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ，ＷｉＦｉ）ネットワークを含み得る。いくつかの実施形態では、ＲＦインタフェース２１２はまた、近距離通信（ＮＦＣ）に関連する回路を含み得る。ベースバンド２１４は、ＲＦインタフェース２１２との間の信号を処理するための回路を含み得る。

さらに、カメラ２２６は、画像またはビデオを収集するように構成された任意のタイプの画像化またはビデオキャプチャデバイスを含み得る。電子デバイス２００がユーザ１３０によって携帯される携帯デバイスである場合、カメラ２２６は、前面カメラおよび背面カメラを含み得る。前面カメラは、電子デバイスのフロントパネルに配置することができ、背面カメラは、電子デバイスの背面に配置することができる。いくつかの実施形態では、メインカメラと被写界深度カメラを融合させて背景ぼかし機能を実装し、メインカメラと広角カメラを融合させてパノラマ撮影およびバーチャルリアリティ（ＶＲ）撮影機能または他の融合撮影機能を実施するために、少なくとも２つの背面カメラがあり、それぞれがメインカメラ、被写界深度カメラ、広角カメラ、および望遠カメラのいずれか１つである。いくつかの実施形態では、カメラ２２６は、フラッシュをさらに含み得る。

エンコーダ２２２およびデコーダ２２４は、オーディオおよび／またはビデオデータのコーディングおよびデコーディングを実行するのに適した、またはプロセッサ２０２によって実行されるコーディングおよびデコーディングを支援するのに適した電子デバイスのコーデック回路と呼ばれ得る。

図２に示されるような電子デバイス２００は、無線通信システムの移動端末またはユーザ機器の構造と同様の構造を含み得る。しかしながら、エンコードおよびデコード、あるいはビデオまたは画像のエンコードまたはデコードを必要とし得る任意の電子デバイスまたは装置が含まれ得る。

図１に戻り、電子デバイス２００（すなわち、様々なデバイス１０２、１０４および／または１０６のうちの任意の１つ以上）は、様々なデータ（例えば、オーディオデータ、環境／動作データ、画像データおよび／またはビデオデータ）をキャプチャまたは収集し、通信リンク１４０を介してサーバ１２２にデータを送信することができる。電子デバイス２００は、データをサーバ１２２に送信する前にデータを処理または前処理することができ、または未処理のデータをサーバ１２２に送信することができる。

通信リンク１４０は、任意の適切なタイプの通信ネットワークを含み得、無線携帯電話ネットワーク、無線ローカルエリアネットワーク（ＷＬＡＮ）、ブルートゥースパーソナルエリアネットワーク、イーサネットローカルエリアネットワーク、トークンリングローカルエリアネットワーク、ワイドエリアネットワーク、およびインターネットを含むがこれらに限定されない有線または無線ネットワークの任意の組み合わせを含み得る。通信リンク１４０はまた、音声／データ通信のためのプライベートまたはパブリッククラウドコンピューティングプラットフォームを含み得る。インターネットまたは他のタイプのネットワークが含まれる場合、インターネットへの接続には、長距離無線接続、短距離無線接続、および電話回線、ケーブル回線、電力線、および同様の通信経路を含むさまざまな有線接続を含み得る。

サーバ１２２は、任意のタイプのサーバコンピュータシステム、またはサーバクラスタ内に構成されたかまたは異なる位置に分散された複数のコンピュータシステムを含み得る。サーバ１２２はまた、クラウドコンピューティングプラットフォーム上のクラウドサーバを含み得る。図３は、サーバ１２２の特定の態様を実装する例示的なコンピュータシステムを示す。

図３に示されるように、コンピュータシステム３００は、プロセッサ３０２、記憶媒体３０４、モニタ３０６、通信モジュール３０８、データベース３１０、および周辺機器３１２を含み得る。特定のデバイスが省略され、他のデバイスが含まれる場合がある。

プロセッサ３０２は、任意の適切な１つ以上のプロセッサを含み得る。さらに、プロセッサ３０２は、マルチスレッドまたは並列処理のための複数のコアを含み得る。記憶媒体３０４は、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）などのメモリモジュール、フラッシュメモリモジュール、消去可能および書き換え可能メモリ、ならびにＣＤ－ＲＯＭ、Ｕディスク、およびハードディスクなどの大容量記憶装置を含み得る。記憶媒体３０４は、プロセッサ３０２によって実行されると、様々なプロセスを実装するためのコンピュータプログラムを記憶することができる。

さらに、周辺機器３１２は、キーボードおよびマウスなどのＩ／Ｏデバイスを含み得る。通信モジュール３０８は、通信ネットワークを介して接続を確立するためのネットワークデバイスを含み得る。データベース３１０は、特定のデータを記憶し、記憶されたデータに対してデータベース検索などの特定の動作を実行するための１つ以上のデータベースを含み得る。

図２に戻り、エンコーダ２２２は、イントラモードコーディングの方法を実装するエンコーダであり得る。この場合、電子デバイス２００はまた、イントラモードコーディングの方法を実装すると見なされ得る。すなわち、エンコーダ２２２は、電子デバイス２００内のハードウェア回路として実施され得るか、または電子デバイス２００によるソフトウェアプログラムとして実装され得るか、またはハードウェア回路とソフトウェアプログラムの組み合わせとして実装され得る。図４は、本開示の開示された実施形態と一致する例示的なビデオエンコーダを示す。

図４に示されるように、ビデオエンコーダ４００は、ブロック分割ユニット４１０、減算ユニット４２０、予測ユニット４３０、変換／量子化ユニット４４０、逆量子化／逆変換ユニット４５０、加算ユニット４６０、インループフィルタ４７０およびエントロピーエンコーダ４８０を含む。入力ビデオがエンコーダ４００に入力され、それに応答して、エンコーダ４００はビットストリームを出力する。

入力ビデオは、複数のピクチャフレームを含む。各ピクチャフレームは、ブロック分割ユニット４１０によって一連のコーディングツリーユニット（ＣＴＵ）に分割される。３つのサンプルアレイを有するピクチャフレームについて、ＣＴＵは、輝度サンプルのＮｘＮブロックと、２つの対応する彩度サンプルのＮｘＮブロックで構成される。ブロック分割ユニット４１０は、コーディングツリーとして示される四分木構造を使用することによって、ＣＴＵをコーディングユニット（ＣＵ）にさらに分割して様々な局所特性に適応する。インターピクチャ（時間的）またはイントラピクチャ（空間的）予測を使用してピクチャ領域を符号化するか否かの決定は、リーフＣＵレベルで行われる。各リーフＣＵは、ＰＵ分割タイプに応じて、さらに１つ、２つまたは４つの予測ユニット（ＰＵ）に分割できる。１つのＰＵ内で、同じ予測プロセスが適用され、関連情報がＰＵベースでビデオデコーダに送信される。ＰＵ分割タイプに基づく予測プロセスを適用して残余ブロックを取得した後、リーフＣＵは、ＣＵのコーディングツリーと同様の別の四分木構造に従って変換ユニット（ＴＵ）に分割できる。

予測ユニット４３０は、イントラ予測、インター予測、およびインター予測とイントラ予測の組み合わせをサポートする。イントラ予測は、イントラモードコーディングとも呼ばれる。自然なビデオで提示される任意のエッジ方向をキャプチャするために、予測ユニット４３０は、平面（表面フィッティング）イントラ予測モードおよびＤＣ（フラット）イントラ予測モードに加えて、６５の方向（または角度）イントラ予測モードをサポートする。予測ユニット４３０はさらに、動きベクトル、参照ピクチャインデックスおよび参照ピクチャリスト使用インデックス、ならびにビデオコーディング機能に必要な追加の情報を含む動きパラメータに基づくインター予測されたサンプル生成をサポートする。予測ユニット４３０はまた、変換スキップモードまたは変換スキップでコーディングされたＣＵが１つのＰＵに関連付けられ、有意な残差係数、コーディングされた動きベクトルデルタまたは参照ピクチャインデックスを有さない変換スキップモードをサポートする。予測ユニット４３０はまた、現在ＣＵの動きパラメータが、空間的および時間的候補、ならびに追加のスケジュールを含む隣接ＣＵから取得されるマージモードをサポートする。マージモードは、変換スキップモードだけでなく、任意のインター予測されたＣＵに適用できる。予測ユニット４３０はまた、動きパラメータを明示的に送信することによりマージモードの代替をサポートし、動きベクトル、各参照ピクチャリストおよび参照ピクチャリスト使用フラグに対応する参照ピクチャインデックス、および他の必要な情報がＣＵごとに明示的にシグナリングされる。

減算ユニット４２０は、ＣＵとＰＵとの間の差（または残差）を変換／量子化ユニット４４０に出力する。

変換／量子化ユニット４４０は、最大６４ｘ６４サイズの大きなブロックサイズの変換をサポートする。サイズが６４に等しい変換ブロックについて、高周波数の変換係数がゼロにされるため、低周波数の係数のみが保持される。変換スキップモードで大きなブロックを変換する場合、変換／量子化ユニット４４０は、値をゼロにすることなくブロック全体を使用する。変換／量子化ユニット４４０はまた、コア変換のための複数の変換選択（ｍｕｌｔｉｐｌｅｔｒａｎｓｆｏｒｍｓｅｌｅｃｔｉｏｎ，ＭＴＳ）をサポートする。ＭＴＳを制御するために、変換／量子化ユニット４４０は、それぞれ、イントラおよびインター予測のために、シーケンスパラメータセット（ＳＰＳ）レベルで別個の有効化フラグを使用する。ＭＴＳがＳＰＳレベルで有効化される場合、ＭＴＳが適用されているか否かを示すＣＵレベルフラグがシグナリングされる。変換／量子化ユニット４４０はまた、低周波非分離可能変換（Ｌｏｗ－ＦｒｅｑｕｅｎｃｙＮｏｎ－ＳｅｐａｒａｂｌｅＴｒａｎｓｆｏｍｒ，ＬＦＮＳＴ）およびサブブロック変換（Ｓｕｂ－ＢｌｏｃｋＴｒａｎｓｆｏｒｍ，ＳＢＴ）などの、ＶＶＣおよびＡＶ１ドラフト標準に記載されている他の変換機能をサポートする。

さらに、変換／量子化ユニット４４０は、最大６３個の量子化パラメータ（ＱＰ）をサポートする。変換／量子化ユニット４４０はまた、ＳＰＳにおける輝度から彩度へのマッピング関係をシグナリングすることによって、柔軟な輝度から彩度へのＱＰマッピングをサポートする。変換／量子化ユニット４４０はまた、輝度および彩度コンポーネントのデルタＱＰ値を別々にシグナリングできるＣＵレベルのＱＰ適応をサポートする。変換／量子化ユニット４４０はまた、従属量子化など、ＶＶＣおよびＡＶ１標準で説明されている他の量子化機能をサポートする。

変換／量子化ユニット４４０はまた、ＴＵレベルフラグによって示される彩度残差の統合コーディングをサポートする。

コンテキスト適応型２値算術コーディング（ＣＡＢＡＣ）は、エントロピーコーディングアルゴリズムとして説明できる。エントロピーエンコーダ４８０は、変換／量子化ユニット４４０によって出力されたシンタックス要素をエンコードするＣＡＢＡＣコーディングエンジンを含む。ＣＡＢＡＣコーディングエンジンは、ゴロムライスコーディングアルゴリズムなどの算術コーディングアルゴリズムをサポートする。エントロピーエンコーダ４８０は、変換ブロックおよび変換スキップブロックのための別個の残差コーディング構造をサポートする。エントロピーエンコーダ４８０は、重複しない係数グループ（ＣＧまたはサブブロック）を使用することによってコーディングブロックの変換係数をコーディングし、各ＣＧは、可変サイズのコーディングブロックの変換係数を含む。係数グループのサイズは、チャネルタイプに関係なく、変換ブロックサイズのみに基づいて選択される。ＣＧのサイズは、１ｘ１６、２ｘ８、８ｘ２、２ｘ４、４ｘ２および１６ｘ１を含み得る。各コーディングブロック内のＣＧおよび各ＣＧ内の変換係数は、事前定義されたスキャン順序に従ってコーディングされる。

変換ユニット内の各コーディングブロックは、複数のサブブロックに分割され、各サブブロックは複数のピクセルに分割される。複数のサブブロックは、４ｘ４または２ｘ２サブブロックを含む。

算術コーディングアルゴリズムでは、確率モデルは、シンタックス要素の絶対レベルまたは局所近傍のシンタックス要素の部分的に再構築された絶対レベルに応じて、シンタックス要素ごとに動的に選択される。

逆量子化／逆変換ユニット４５０は、変換／量子化ユニット４４０によって実行される量子化プロセスおよび変換プロセスを逆にし、出力を加算ユニット４６０に供給して、ピクチャフレームを再構築する。加算ユニット４６０はまた、予測ユニット４３０の出力を別の入力として受け取る。再構築されたピクチャは、インループフィルタ４７０によってフィルタリングされる。インループフィルタ４７０は、デブロッキングフィルタ、サンプル適応オフセット（ＳＡＯ）フィルタ、および適応ループフィルタ（ＡＬＦ）を含み、これらはこの順序でカスケード接続される。インループフィルタ４７０の出力は、予測ユニット４３０に入力される。

本開示は、ビデオエンコードおよび／またはデコード方法を提供する。図５は、本開示の実施形態と一致する例示的なビデオエンコードおよび／またはデコード方法のフローチャートを示す。図５に示されるように、ビデオエンコードおよび／またはデコード方法は、ビデオ入力の現在フレームを取得するステップを含む（Ｓ５１０）。現在フレームを取得した後、現在フレームを、パーティションツリー構造に従って複数のコーディングブロックに分割できる。

Ｓ５２０で、現在フレームを複数のコーディングブロックに分割する。現在フレームをさまざまな正方形と長方形のパーティションに分割できる。正方形のパーティションをさらに小さなパーティションに分割することができる。しかしながら、長方形のパーティションをさらに分割することはできない。

現在フレームを複数のコーディングブロックに分割した後、シンボルレベルを、イントラ予測モードで各コーディングブロックについて予測する（Ｓ５３０）。イントラ予測モードは、異なるビデオコーディング標準に基づいて異なるビデオコーディングスキームの異なるビデオコーディングフォーマットで異なるように定義されるため、イントラ予測モードを、ＡＶ１標準およびＶＶＣ標準などのビデオコーディング標準に基づいて、異なるビデオコーディングスキームのさまざまなビデオコーディングフォーマットに対応するように決定して、コーディング効率と圧縮性能を向上させる。コーディング効率および圧縮性能に基づいて決定された対応するイントラ予測モードは、対応するビデオコーディングスキームで定義された全ての利用可能なイントラ予測モードのサブセットである。サブセットは、利用可能なイントラ予測モード（ＡＩＰＭ）セットと呼ばれる。ＡＩＰＭセットに含まれるイントラ予測モードは、図４に示されるビデオエンコーダ４００などのビデオコーディングデバイスによってシグナリングされる。ＡＩＰＭセットに含まれるイントラ予測モードの数は、対応するビデオコーディングスキームで定義された全ての利用可能なイントラ予測モードの数より少ないため、ＡＩＰＭセットに含まれるイントラ予測モードをシグナリングするために必要なビットは少なくなる。さらに、シンボルレベルを、イントラ予測モードに加えて、インター予測モードで各コーディングブロックについて予測できる。

シンボルレベルが予測された後、残差シンボルレベルが変換および量子化される。残差シンボルレベルは、現在シンボルレベルと予測されたシンボルレベルとの差である。

１つの平面イントラ予測モード、１つのＤＣイントラ予測モード、および８５個の角度イントラ予測モードは、図６に示されるように、ＶＶＣ標準によって定義される。しかしながら、利用可能なイントラ予測モードの数は、各コーディングブロックについて常に６７である。イントラ予測モードをコーディングするために、サイズが３の最確モード（ｍｏｓｔｐｒｏｂａｂｌｅｍｏｄｅ，ＭＰＭ）リストが、２つの隣接コーディングブロックのイントラ予測モードを使用して構築される。まず、１つのＭＰＭフラグをシグナリングして現在のモードがＭＰＭであるか否かを示す。次に、ＭＰＭフラグが真（ｔｒｕｅ）である場合、トランケーテッドユーナリコードを使用してＭＰＭインデックスをシグナリングし、それ以外の場合には、６ビットの固定長コーディングを使用して残りのモードをシグナリングする。

一方、５６個の角度イントラ予測モード、５つの非角度スムーズイントラ予測モード、１つの彩度のみのイントラ予測モード、およびその他のいくつかのイントラ予測モードは、ＡＶ１標準によって定義される。８つの方向性（または角度）モードは、４５～２０７度の角度に対応する。方向性テクスチャでより多くの種類の空間的冗長性を活用するために、方向性イントラ予測モードは、より細かい粒度で設定された角度に拡張される。８つの方向性モードの角度がわずかに変更され、公称角度として作成され、これらの８つの公称角度は、公称イントラ角度とも呼ばれ、図７に示されるように、９０°、１８０°、４５°、１３５°、１１３°、１５７°、２０３°、および６７°に対応するＶ＿ＰＲＥＤ、Ｈ＿ＰＲＥＤ、Ｄ４５＿ＰＲＥＤ、Ｄ１３５＿ＰＲＥＤ、Ｄ１１３＿ＰＲＥＤ、Ｄ１５７＿ＰＲＥＤ、Ｄ２０３＿ＰＲＥＤ、およびＤ６７＿ＰＲＥＤと呼ばれる。各公称角度は、７つのより細かい角度に拡張される。したがって、合計５６個の方向性のある角度（イントラ角度または予測角度とも呼ばれる）が定義される。各予測角度は、３度のステップサイズに－３～３倍した公称イントラ角度＋角度デルタで表される。一般的な方法で方向性イントラ予測モードを実装するために、５６個の方向性イントラ予測モードはすべて、各ピクセルを参照サブピクセル位置に投影し、２タップの双１次フィルタによって参照ピクセルを補間する統合された方向性予測子を使用して実装される。

イントラ予測モードは、ＤＣ、ＰＡＥＴＨ、ＳＭＯＯＴＨ、ＳＭＯＯＴＨ＿ＶおよびＳＭＯＯＴＨ＿Ｈの５つの非方向性および／またはスムーズイントラ予測モードも含む。ＤＣ予測について、左側と上部の隣接サンプルの平均が、予測されるブロックの予測子として使用される。ＰＡＥＴＨ予測子について、まず、上部、左側、および左上の参照サンプルがフェッチされ、次に、（上部＋左側－左上）に最も近い値が予測されるピクセルの予測子として設定される。図８は、現在ブロック内の１つのピクセルの上部、左側、および左上のサンプルの位置を示す。ＳＭＯＯＴＨ、ＳＭＯＯＴＨ＿Ｖ、およびＳＭＯＯＴＨ＿Ｈモードについて、垂直方向または水平方向の２次補間、または両方向の平均を使用してブロックを予測する。

エッジ上の参照との減衰する空間的相関をキャプチャするために、ＦＩＬＴＥＲＩＮＴＲＡモードは輝度ブロック用に設計される。５つのフィルタイントラモードが定義される。５つのフィルタイントラモードのそれぞれは、４ｘ２パッチのピクセルと７つの近傍する隣接物と間の相関を反映する８つの７タップフィルタのセットによって表される。つまり、７タップフィルタの重み係数は位置に依存する。例えば、８ｘ８ブロックを例として、それは、図９に示されるように、８つの４ｘ２パッチに分割される。これらのパッチは、図９のＢ０、Ｂ１、Ｂ２、Ｂ３、Ｂ４、Ｂ５、Ｂ６、およびＢ７によって示される。各パッチについて、Ｒ０～Ｒ７で示される７つの近傍する隣接物は、現在パッチのピクセルを予測するために使用される。パッチＢ０については、すべての近傍する隣接物がすでに再構築されている。しかしながら、他のパッチについては、すべての近傍する隣接物が再構築されているわけではない。近傍する隣接物の予測された値は、参照として使用される。例えば、パッチＢ７の全ての近傍する隣接物が最構築されていないため、代わりに近傍する隣接物の予測サンプル（つまり、Ｂ５とＢ６）が使用される。

輝度予測に基づく彩度決定（ＣｈｒｏｍａｆｒｏｍＬｕｍａ，ＣｆＬ）は、輝度ピクセルを一致する再構築された彩度ピクセルの線形関数としてモデル化する、輝度のみのイントラ予測子である。ＣｆＬ予測は次のように表される。
Ｌ_ＡＣは、輝度コンポーネントのＡＣ寄与を示し、αは、線形モデルのパラメータを示し、ＤＣは、彩度コンポーネントのＤＣ寄与を示す。具体的には、再構築された輝度ピクセルを彩度解像度にサブサンプリングし、次に平均値を差し引いて、ＡＣ寄与を形成する。ＡＣ寄与から彩度ＡＣコンポーネントを概算するために、デコーダに対してスケーリングパラメータの計算を要求する代わりに、ＣｆＬは、元の彩度ピクセルに基づいてパラメータを決定し、かつパラメータをビットストリームでシグナリングする。このアプローチにより、デコーダの複雑さが軽減され、より正確な予測が可能になる。彩度コンポーネントのＤＣ寄与については、大部分の彩度コンテンツに十分であってかつ成熟した高速実装を有するイントラＤＣモードを使用して計算される。

図５に戻り、Ｓ５４０では、残差シンボルレベルを変換および量子化する。大きなブロックサイズの変換は、最大６４ｘ６４のサイズを含む。サイズが６４に等しい変換ブロックでは、高周波数の変換係数がゼロにされるため、低周波数の係数のみが保持される。変換スキップモードで大きなブロックを変換する場合、値をゼロにすることなくブロック全体が使用される。さらに、コア変換では複数変換選択（ＭＴＳ）がサポートされる。ＭＴＳを制御するために、シーケンスパラメータセット（ＳＰＳ）レベルで、イントラ予測およびインター予測にそれぞれ個別の有効化フラグが使用される。ＭＴＳがＳＰＳレベルで有効化される場合、ＭＴＳが適用されているか否かを示すＣＵレベルフラグがシグナリングされる。低周波非分離可能変換（ＬＦＮＳＴ）およびサブブロック変換（ＳＢＴ）などの他の変換機能がサポートされ得る。

さらに、最大６３の量子化パラメータ（ＱＰ）は、変換および量子化プロセスによってサポートされる。柔軟な輝度から彩度へのＱＰマッピングは、ＳＰＳで輝度から彩度へのマッピング関係をシグナリングすることによってもサポートされる。輝度コンポーネントと彩度コンポーネントのデルタＱＰ値を別々にシグナリングできるＣＵレベルのＱＰ適応もサポートされ得る。従属量子化などの他の量子化機能もサポートされ得る。

図５に示されるように、Ｓ５５０では、変換および量子化された残差シンボルレベルをエントロピーコーディングする。エントロピーコーディングアルゴリズムは、コンテキスト適応型２値算術コーディング（ＣＡＢＡＣ）であり得る。ＣＡＢＡＣコーディングエンジンを使用して、変換および量子化プロセスによって出力されるシンタックス要素をエンコードすることができる。ＣＡＢＡＣコーディングエンジンは、ゴロムライスコーディングアルゴリズムなどの算術コーディングアルゴリズムをサポートする。変換ブロックおよび変換スキップブロックでは、個別の残差コーディング構造がサポートされ得る。重複しない係数グループ（ＣＧまたはサブブロック）を使用することによってコーディングブロックの変換係数がコーディングされ得、各ＣＧは、可変サイズのコーディングブロックの変換係数を含む。係数グループのサイズは、チャネルタイプに関係なく、変換ブロックサイズのみに基づいて選択される。ＣＧのサイズは、１ｘ１６、２ｘ８、８ｘ２、２ｘ４、４ｘ２および１６ｘ１を含み得る。各コーディングブロック内のＣＧおよび各ＣＧ内の変換係数は、事前定義されたスキャン順序に従ってコーディングされる。

図５に示されるように、Ｓ５６０では、ビットストリームを出力する。エントロピーコーディングの結果、ビットストリームが出力される。ビットストリームは、送信および／または記憶され得る。デコーダは、本開示と一致するビデオエンコード方法に対応するビデオデコーディングを実行して元のビデオを復元することができる。

様々なビデオコーディングフォーマットのイントラモードコーディングに対応するために、許容されたイントラ予測モードセット（ＡＩＰＭ）および許容されていないイントラ予測モード（ＤＩＰＭ）セットと呼ばれている２つのイントラ予測モードセットが各コーディングブロックに対して定義され得る。ＡＩＰＭセットは、現在ブロックのイントラ予測に使用することができるモードを有する１つのモードセットとして定義され、ＤＩＰＭセットは、現在ブロックのイントラ予測にシグナリングすることも使用することもできないモードを有する１つのモードセットとして定義される。ＡＩＰＭセット内の各イントラ予測モードは、インデックス番号によって識別される。各ブロックについて、２つのモードセット内のイントラ予測モードは、隣接ブロックのイントラ予測モードに従って導出される。隣接ブロックのイントラ予測モード（つまり、隣接モード）は、ＡＩＰＭセットに含まれるが、ＤＩＰＭセットに含まれない。ＡＩＰＭセットに含まれるモードの数およびＤＩＰＭセットに含まれるモードの数は、すべてのブロックに対して事前定義され、固定される。ＡＩＰＭセットのサイズがＳで、隣接モードから導出されたイントラ予測モードの数がＳ未満の場合、デフォルトモードはＡＩＰＭセットを充填するために使用される。

利用可能なイントラ予測モードの数は６２であり、５６個の角度イントラ予測モード、５つのスムーズモード、および１つのＣｈｒｏｍａｆｒｏｍＬｕｍａ（ＣｆＬ）モードを含む。５６個の角度イントラ予測モードについて、そのうちの８つは公称角度と呼ばれ、各公称角度には７つのデルタ角度（デルタ角度が０の公称角度自体を含む）があり、これらはＶＶＣ標準によって定義された角度と異なる。さらに、スムーズイントラ予測モードは、ＡＶ１標準とＶＶＣ標準で定義が異なる。したがって、ＡＩＰＭセットに含まれるイントラ予測モードは、両方の標準でのビデオコーディングフォーマットに対応するように決定することができる。

したがって、本開示は、ビデオコーディング方法を提供する。この方法には、ＶＶＣ標準およびＡＶ１標準の両方に基づいてビデオコーディングスキームにシームレスに適用することができるイントラモードコーディングを含む。この方法は、別々に使用することも、任意の順序で組み合わせることもできる。本開示では、イントラコーディングモードがスムーズモードではない場合、または所与の予測方向に従って予測サンプルを生成している場合、イントラコーディングモードは角度モードと呼ばれる。さらに、本開示と一致するエンコーダおよびデコーダの実施形態は、非一時的なコンピュータ可読記憶媒体に記憶されたプログラム命令を実行する処理回路（例えば、１つ以上のプロセッサまたは１つ以上の集積回路）によって実装され得る。

イントラモードコーディングを、ＶＶＣ標準およびＡＶ１標準の両方に基づいてビデオコーディングスキームのビデオコーディングフォーマットに適用することができるようにするために、ビデオコーディング方法は、許容されたイントラ予測モード（ＡＩＰＭ）セットに含まれるイントラ予測モードを決定するためのプロセスを提供する。図１０は、本開示の実施形態と一致する、許容されたイントラ予測モード（ＡＩＰＭ）セットに含まれるイントラ予測モードを決定するフローチャートを示す。図１０に示されるように、Ｓ１０１０では、現在のビデオコーディングフォーマットを決定する。現在のビデオコーディングフォーマットは、ＶＶＣ標準、ＡＶ１標準、およびそれらの改訂に基づくビデオコーディングスキームのビデオコーディングフォーマットの１つであり得る。

現在のビデオコーディングフォーマットがＶＶＣ標準に基づくビデオコーディングスキームである場合、ＶＶＣ標準に基づくビデオコーディングスキームについてのＡＩＰＭセットには、各コーディングブロックについて６つのＭＰＭと３２の残りのモードとが含まれる。図１１に示されるように、６つのＭＰＭは、５つの隣接ブロックから導出される。３２個の残りのモードは、ＭＰＭリストの角度隣接モードにオフセット値を付加することによって導出される。オフセット値は、ｏｆｆｓｅｔＬｉｓｔ１＝｛１、２、３、４、６、８｝から選択される。各オフセット値について、各角度隣接モードは、まだ含まれていない場合に、残りのモードとしてそのオフセットを加えられる。導出プロセスが完了した後、残りのモードリストがいっぱいでない場合、デフォルトモードリストを使用する。デフォルトモードリストは、｛０、１、２、５０、１８、３４、６６、１０、２６、４２、５８、６、１４、２２、３０、３８、４６、５４、６２、４、８、１２、１６、２０、２４、２８、３２、３６、４０、４４、４８、５２、５６、６０、６４、１７、１９、４９、５１｝を含む。隣接ＣＵが現在ＣＴＵ行の外側にある場合、それらの隣接モードはＭＰＭ導出プロセスのためにスキップされる。イントラ予測モードをコーディングするために、ＭＰＭフラグをシグナリングする。ＭＰＭフラグが、現在のモードがＭＰＭであることを示す場合、バイパスコーディングをトランケーテッドユーナリコードワードを使用してＭＰＭインデックスをシグナリングする。それ以外の場合は、バイパスコーディングを使用した５ビットの固定長コードワードを使用して、残りのモードのモードインデックスをシグナリングする。ＶＴＭＡＩおよびＲＡ構成では、エンコード時間の増加はほとんどなく、０．４９％のコーディングゲインと１６％のＢＤレートの向上とが達成される。したがって、ＶＶＣ標準に基づいてビデオコーディングスキームのＡＩＰＭセットに含まれるイントラ予測モードの数を低減することにより、コーディング効率と圧縮性能とが向上する。

シミュレーションが、ＡＩおよびＲＡ構成を有するＶＴＭ構成を使用してＬｉｎｕｘクラスタに対して実行されて、表１に示すコーディング性能データが取得される。共通試験条件は、参照により本明細書に組み込まれるＪＶＥＴ共通試験条件およびソフトウェア参照構成（ＪＶＥＴ－Ｋ１０１０）に記載される。

現在のビデオコーディングフォーマットがＶＶＣ標準に基づくビデオコーディングスキームである場合、ＡＶ１標準に基づくビデオコーディングスキームについてのＡＩＰＭセットには、現在ブロックのサイズまたは隣接ブロックのイントラ予測モードに関係なく、８つの公称角度の角度イントラ予測モードが含まれ、８つの公称角度は４５°、６７°、９０°、１１３°、１３５°、１５７°、１８０°、および２０３°である。ＡＶ１ビデオコーディングフォーマットについてのＡＩＰＭセットは、隣接ブロックのイントラ予測モードに関係なく、特定の非方向性および／またはスムーズイントラ予測モードをさらに含む。利用可能な非方向性および／またはスムーズイントラ予測モードは、ＤＣ、ＰＡＥＴＨ、ＳＭＯＯＴＨ、ＳＭＯＯＴＨ＿Ｖ、およびＳＭＯＯＴＨ＿Ｈモードを含む。ＤＣモードについて、左側および上部の隣接サンプルの平均が、予測されるブロックの予測子として使用される。ＰＡＥＴＨモードについて、まず、上部、左側、および左上の参照サンプルがフェッチされ、次に、（上部＋左側－左上）に最も近い値が予測されるピクセルの予測子として設定される。図８は、現在ブロック内の１つのピクセルの上部、左側、および左上のサンプルの位置を示す。ＳＭＯＯＴＨ、ＳＭＯＯＴＨ＿Ｖ、およびＳＭＯＯＴＨ＿Ｈモードについて、垂直方向または水平方向の２次補間、または両方向の平均を使用してブロックを予測する。

ＳＭＯＯＴＨモードは、ＡＩＰＭセットの第１の位置に配置される。ＤＣモードは、ＡＩＰＭセットの第２の位置に配置される。現在ブロックが非正方形ブロックの場合、ＳＭＯＯＴＨ＿ＨモードとＳＭＯＯＴＨ＿Ｖモードの一方のみがＡＩＰＭセットに配置される。現在ブロックが垂直ブロック（ブロックの高さが幅より大きい）の場合、ＳＭＯＯＴＨ＿ＶモードはＡＩＰＭセットに配置され、かつ現在ブロックが水平ブロック（ブロックの幅がブロックの高さより大きい）の場合、ＳＭＯＯＴＨ＿ＨモードはＡＩＰＭセットに配置される。または、現在ブロックが垂直ブロックの場合、ＳＭＯＯＴＨ＿ＨモードはＡＩＰＭセットに配置され、かつ現在ブロックが水平ブロックの場合、ＳＭＯＯＴＨ＿ＶモードはＡＩＰＭセットに配置される。

ＡＩＰＭセットに含まれるイントラ予測モードは、２つまたは３つのレベルに分割できる。各レベルについて、モードの数は、２^Ｌのように２の累乗に等しく、ここで、Ｌは１より大きい正の整数である。例えば、ＡＩＰＭセットにおけるモードの数はＳであり、モードは３つのレベルを含み、Ｓは２^Ｌ＋２^Ｍ＋２^Ｎに等しく、ＡＩＰＭセットにおける２^Ｌより小さいインデックス番号を有するモードは、第１のレベルモードと呼ばれ、２^Ｌ以上であるが２^Ｌ＋２^Ｍより小さいインデックス番号を有するモードは、第２のレベルモードと呼ばれる。

隣接ブロックのイントラ予測モードの少なくとも１つが角度モードである場合、ゼロ以外の角度デルタを有する少なくとも１つの角度モードは、ＡＩＰＭセットの第１のレベルに含まれる。公称角度のすべてのモードはＡＩＰＭセットの第１のレベルに含まれ、すべての非方向性および／またはスムーズモードもＡＩＰＭセットの第１のレベルに含まれる。ゼロ以外の角度デルタを有する追加の角度モードは、ＡＩＰＭセットの第２のレベルおよび第３のレベルに含まれ得る。

ＡＩＰＭセット内のモードが２つのレベルを含む場合、フラグをシグナリングして現在のモードが第１のレベルに属しているか第２のレベルに属しているかを示し、マルチシンボルエントロピーコーディング（または他の適切なエントロピーコーディング方法）を使用して、第１のレベルまたは第２のレベルでの現在のモードのインデックスをシグナリングする。ＡＩＰＭセット内のモードが３つのレベルを含む場合、第１のフラグをシグナリングして現在のモードが第１のレベルに属しているか否かを示す。現在のモードが第１のレベルに属していない場合、第２のフラグをシグナリングして現在のモードがＡＩＰＭセットの第２のレベルに属しているか第３のレベルに属しているかを示す。さらに、インデックス番号をシグナリングして前述のフラグによって示されたレベルで現在のイントラ予測モードを示す。

ＡＩＰＭセットを再構築する複雑さを軽減するために、最大でＰ個の隣接角度モードを使用してＡＩＰＭセット内のモードを導出し、Ｐは１、２、３などの正の整数である。隣接ブロック内の角度モードの数は、コンテキストコーディングされた算術エンコーダを介してイントラ予測モードをシグナリングする場合にコンテキストインジケータとして使用される。

隣接角度モードの数が０に等しい場合、第１のコンテキストを使用する。それ以外の場合、隣接角度モードの数が１に等しい場合、第２のコンテキストを使用する。それ以外の場合、隣接角度モードの数が２に等しい場合、第３のコンテキストを使用する。

あるいは、隣接角度モードの数が０に等しい場合、第１のコンテキストを使用する。それ以外の場合、隣接角度モードの数が１に等しい場合、第２のコンテキストを使用する。それ以外の場合、隣接角度モードの数が２に等しく、かつ２つの角度モードが等しい場合、第３のコンテキストを使用する。それ以外の場合、第４のコンテキストを使用する。

彩度ブロックについて、隣接ブロック内の角度モードの数と、コロケートされる輝度ブロック内の角度モードの数との両方を組み合わせてコンテキストインジケータを形成する。

さらに、輝度コンポーネントのＡＩＰＭセットはＡＩＰＭ＿Ｌｕｍａセットと呼ばれ、彩度コンポーネントのＡＩＰＭセットはＡＩＰＭ＿Ｃｈｒｏｍａセットと呼ばれる。ＡＩＰＭ＿Ｌｕｍａセットは、隣接ブロックの輝度モードを使用して構築され、ＡＩＰＭ＿Ｃｈｒｏｍａセットは、隣接ブロックの彩度モードおよび／またはコロケートされる輝度ブロックの彩度モードを使用して構築される。

輝度コンポーネントおよび彩度コンポーネントが同じＡＩＰＭセットを共有する場合、ＡＩＰＭセットは、隣接ブロックの輝度モードを使用して構築される。彩度コンポーネントは、ｃｈｒｏｍａｆｒｏｍｌｕｍａ（ＣｆＬ）モードなどの追加のクロスコンポーネント線形モデルモードを含む。例えば、輝度コンポーネントの許容されたモードの数がＳの場合、彩度コンポーネントの許容されたモードの数はＳ＋１である。彩度コンポーネントについて、フラグをシグナリングして現在のモードがＣｆＬモードであるか否かを示す。現在のモードがＣｆＬモードでない場合、追加のフラグをシグナリングしてＡＩＰＭセット内の現在のモードのインデックス番号を示す。

代替的または追加的に、彩度コンポーネントの許容されたモードの数は、輝度コンポーネントの許容されたモードの数と同じに保持される。しかしながら、ＡＩＰＭセットで許容されたモードの１つは、ＣｆＬモードに置き換えられる。

代替的または追加的に、ＡＩＰＭ＿Ｌｕｍａセットは、隣接ブロックの輝度モードを使用して構築され、ＡＩＰＭ＿Ｃｈｒｏｍａセットは、ＡＩＰＭ＿Ｌｕｍａセット＋ＣｈｒｏｍａｆｒｏｍＬｕｍａ（ＣｆＬ）モードなどのクロスコンポーネント線形モデルモードのサブセットである。

代替的または追加的に、ＡＩＰＭ＿Ｌｕｍａセットの第１のレベルのモードのみがＡＩＰＭ＿Ｃｈｒｏｍａセットに含まれ、ＡＩＰＭ＿Ｌｕｍａセットの残りのモードはＡＩＰＭ＿Ｃｈｒｏｍａセットに含まれない。

代替的または追加的に、ＡＩＰＭ＿Ｌｕｍａセットは、隣接ブロックの輝度モードを使用して構築され、ＡＩＰＭ＿Ｃｈｒｏｍａセットは、隣接ブロックの彩度モードを使用して構築される。

本開示の実施形態では、ビデオコーディング方法は、ＶＶＣ標準およびＡＶ１標準の両方に基づくビデオコーディングスキームにおけるイントラ予測モードをサポートしてコーディング効率および圧縮性能を向上させる。

本開示の原理および実装は、本明細書の特定の実施形態を使用して説明されているが、実施形態の前述の説明は、本開示の方法および方法の核となるアイデアを理解するのを助けることのみを目的としている。一方、当業者は、本開示のアイデアに従って、特定の実装および適用範囲に変更を加えることができる。結論として、本明細書の内容は、本開示に対する限定として解釈されるべきではない。

Claims

ビデオ入力の現在フレームを取得するステップと、
前記現在フレームを複数のコーディングブロックに分割するステップと、
許容されたイントラ予測モード（ＡＩＰＭ）セットに含まれるイントラ予測モードで各コーディングブロックのシンボルレベルを予測するステップであって、前記ＡＩＰＭセットに含まれる前記イントラ予測モードが、複数の異なるビデオコーディングスキームの各々のビデオコーディングフォーマットでの全ての利用可能なイントラ予測モードのサブセットであり、コーディング効率および圧縮性能に基づいて決定され、前記ＡＩＰＭセットに含まれる前記イントラ予測モードのそれぞれが、インデックス番号によって識別される、前記予測するステップと、
残差シンボルレベルを変換および量子化するステップと、
前記変換および量子化された残差シンボルレベルをエントロピーコーディングするステップと、
ビットストリームを出力するステップと、を含むビデオデコーディング方法。
前記ＡＩＰＭセットに含まれる前記イントラ予測モードは、
前記現在フレームの現在のビデオコーディングフォーマットが、多用途ビデオコーディング（ＶＶＣ）規格に基づくビデオコーディングスキームであるか、ＡＯＭｅｄｉａビデオ１（ＡＶ１）規格に基づくビデオコーディングスキームであるかを決定するステップと、
前記現在のビデオコーディングフォーマットが前記ＶＶＣ規格に基づくビデオコーディングスキームである場合、前記ＡＩＰＭセットに６つの最確モード（ＭＰＭ）および３２個の残りのモードを含めるステップと、
前記現在のビデオコーディングフォーマットが前記ＡＶ１規格に基づくビデオコーディングスキームである場合、現在コーディングブロックのサイズまたは隣接コーディングブロックの前記イントラ予測モードに関係なく、前記ＡＩＰＭセットに８つの公称角度の角度イントラ予測モードおよび非方向性またはスムーズイントラ予測モードを含めるステップとによって決定される、請求項１に記載の方法。
前記現在のビデオコーディングフォーマットが前記ＶＶＣ規格に基づくビデオコーディングスキームである場合、
前記６つのＭＰＭは、５つの隣接コーディングブロックから導出され、
前記３２個の残りのモードは、前記６つのＭＰＭの角度隣接モードにオフセット値を加えることによって導出され、
導出プロセスが３２個未満の残りのモードを生成する場合、前記３２個の残りのモードに達するまで、デフォルトモードリストから追加のモードを選択する、請求項２に記載の方法。
前記オフセット値は、｛１、２、３、４、６、８｝から選択され、
オフセット値毎に、既に生成されていない限り、各角度隣接モードにそのオフセット値を加えて残りのモードを生成し、
前記デフォルトモードリストは、｛０、１、２、５０、１８、３４、６６、１０、２６、４２、５８、６、１４、２２、３０、３８、４６、５４、６２、４、８、１２、２０、２４、２８、３２、３６、４０、４４、４８、５２、５６、６０、６４、１７、１９、４９、５１｝を含む、請求項３に記載の方法。
前記現在のビデオコーディングフォーマットが前記ＡＶ１規格に基づくビデオコーディングスキームである場合、
前記ＡＩＰＭセット内の前記角度イントラ予測モードは、Ｍ個以下の隣接コーディングブロックから導出され、ここで、Ｍは正の整数であり、
前記８つの公称角度は、４５°、６７°、９０°、１１３°、１３５°、１５７°、１８０°、および２０３°であり、
前記非方向性またはスムーズイントラ予測モードは、ＤＣモード、ＰＡＥＴＨモード、ＳＭＯＯＴＨモード、ＳＭＯＯＴＨ＿Ｖモード、およびＳＭＯＯＴＨ＿Ｈモードを含む、請求項２に記載の方法。
前記ＳＭＯＯＴＨモードは、前記ＡＩＰＭセットの第１の位置に配置され、
前記ＤＣモードは、前記ＡＩＰＭセットの第２の位置に配置される、請求項５に記載の方法。
前記現在コーディングブロックの高さが前記現在コーディングブロックの幅以上の場合、前記ＳＭＯＯＴＨ＿Ｖモードは前記ＡＩＰＭセットに含まれ、
前記現在コーディングブロックの幅が前記現在コーディングブロックの高さより大きい場合、前記ＳＭＯＯＴＨ＿Ｈモードは前記ＡＩＰＭセットに含まれる、請求項６に記載の方法。
前記現在コーディングブロックの幅が前記現在コーディングブロックの高さ以上の場合、前記ＳＭＯＯＴＨ＿Ｖモードは前記ＡＩＰＭセットに含まれ、
前記現在コーディングブロックの高さが前記現在コーディングブロックの幅より大きい場合、前記ＳＭＯＯＴＨ＿Ｈモードは前記ＡＩＰＭセットに含まれる、請求項６に記載の方法。
前記ＡＩＰＭセットをＫ個のレベルに分割するステップであって、Ｋが１より大きい整数であり、Ｋ個のレベルのそれぞれが２^Ｌ個のイントラ予測モードを含み、Ｌが１より大きい整数であるステップをさらに含む、請求項５乃至８のいずれか一項に記載の方法。
前記ＡＩＰＭセットのＫ個のレベルのうちの第１のレベルは、前記隣接コーディングブロックの前記イントラ予測モードの１つが角度イントラ予測モードである場合、非公称角度の少なくとも１つの角度イントラ予測モードを含む、請求項９に記載の方法。
前記ＡＩＰＭセットのＫ個のレベルのうちの第１のレベルは、全ての前記公称角度の前記角度イントラ予測モードを含む、請求項９に記載の方法。
前記ＡＩＰＭセットのＫ個のレベルのうちの第１のレベルは、前記非方向性またはスムーズイントラ予測モードを含む、請求項９に記載の方法。
Ｋが２に等しい場合、前記エントロピーコーディングは、現在のイントラ予測モードが第１のレベルにあるかまたは第２のレベルにあるかを示す第１のフラグと、示されたレベルの前記現在のイントラ予測モードの前記インデックス番号をシグナリングする、請求項９に記載の方法。
Ｋが３に等しい場合、前記エントロピーコーディングは、現在のイントラ予測モードが第１レベルにあるか否かを示す第１のフラグと、前記現在のイントラ予測モードが第２のレベルにあるかまたは第３のレベルにあるかを示す第２のフラグと、示されたレベルの前記現在のイントラ予測モードの前記インデックス番号をシグナリングする、請求項９に記載の方法。
前記隣接コーディングブロックの前記角度イントラ予測モードの数は、前記エントロピーコーディングのコンテキストモデリングで前記イントラ予測モードをシグナリングするためのコンテキストインジケータとして使用される、請求項５乃至８のいずれか一項に記載の方法。
前記隣接コーディングブロックの前記角度イントラ予測モードの数が０に等しい場合、第１のコンテキストを使用し、
前記隣接コーディングブロックの前記角度イントラ予測モードの数が１に等しい場合、第２のコンテキストを使用し、
前記隣接コーディングブロックの前記角度イントラ予測モードの数が２に等しい場合、第３のコンテキストを使用する、請求項１５に記載の方法。
前記隣接コーディングブロックの前記角度イントラ予測モードの数が０に等しい場合、第１のコンテキストを使用し、
前記隣接コーディングブロックの前記角度イントラ予測モードの数が１に等しい場合、第２のコンテキストを使用し、
前記隣接コーディングブロックの前記角度イントラ予測モードの数が２に等しく、かつその２つの角度イントラ予測モードが等しい場合、第３のコンテキストを使用し、
前記隣接コーディングブロックの前記角度イントラ予測モードの数が２に等しく、かつその２つの角度イントラ予測モードが等しくない場合、第４のコンテキストを使用する、請求項１５に記載の方法。
現在コーディングブロックが彩度ブロックの場合、前記コンテキストインジケータは、隣接彩度ブロックの前記角度イントラ予測モードの数と、コロケートされる輝度ブロックの前記角度イントラ予測モードの数から導出される、請求項１５に記載の方法。
コンピュータプログラム命令を記憶するメモリと、
前記メモリに結合され、前記コンピュータプログラム命令を実行するとき、
ビデオ入力の現在フレームを取得するステップと、
前記現在フレームを複数のコーディングブロックに分割するステップと、
許容されたイントラ予測モード（ＡＩＰＭ）セットに含まれるイントラ予測モードで各コーディングブロックのシンボルレベルを予測するステップであって、前記ＡＩＰＭセットに含まれる前記イントラ予測モードが、複数の異なるビデオコーディングスキームの各々のビデオコーディングフォーマットでの全ての利用可能なイントラ予測モードのサブセットであり、コーディング効率および圧縮性能に基づいて決定され、前記ＡＩＰＭセットに含まれる前記イントラ予測モードのそれぞれが、インデックス番号によって識別される、前記予測するステップと、
残差シンボルレベルを変換および量子化するステップと、
前記変換および量子化された残差シンボルレベルをエントロピーコーディングするステップと、
ビットストリームを出力するステップと、を実行するように構成された、プロセッサと、を含む、ビデオデコーディングシステム。
前記ＡＩＰＭセットに含まれる前記イントラ予測モードは、
前記現在フレームの現在のビデオコーディングフォーマットが、多用途ビデオコーディング（ＶＶＣ）規格に基づくビデオコーディングスキームであるか、ＡＯＭｅｄｉａビデオ１（ＡＶ１）規格に基づくビデオコーディングスキームであるかを決定するステップと、
前記現在のビデオコーディングフォーマットが前記ＶＶＣ規格に基づくビデオコーディングスキームである場合、前記ＡＩＰＭセットに６つの最確モード（ＭＰＭ）および３２個の残りのモードを含めるステップと、
前記現在のビデオコーディングフォーマットが前記ＡＶ１規格に基づくビデオコーディングスキームである場合、現在コーディングブロックのサイズまたは隣接コーディングブロックの前記イントラ予測モードに関係なく、前記ＡＩＰＭセットに８つの公称角度の角度イントラ予測モード及び非方向性またはスムーズイントラ予測モードを含めるステップとによって決定される、請求項１９に記載のシステム。