[0033] 概して、本開示は、ビデオ圧縮のための算術コーディングのための確率初期化のための技法について説明する。たとえば、ビデオコーダは、バイナリ算術コーダにおいて使用される各コンテキストモデルの初期確率状態を設定し得る。プロセスは、スライスなどの独立して復号可能なユニットをエントロピー符号化または復号する始めに呼び出され得る。
[0034] 初期化を実行するために、ビデオコーダは、ビデオデータのスライスのためのシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちの1つのコンテキストのためのあらかじめ定義された初期化値(たとえば、initValue)を取得し得る。ビデオコーダは、あらかじめ定義された初期化値に基づいて対数領域中で、コンテキストの初期確率状態(たとえば、pStateIdx)を決定し得る。ビデオコーダは、コンテキストの初期確率状態に基づいて、シンタックス要素のための値のビンをエントロピーコーディングし得る。
[0035] いくつかのビデオ規格に従ってビデオデータをコーディングするとき、ビデオコーダは、線形領域中での確率状態を維持し得る。たとえば、以下でさらに詳細に説明するように、汎用ビデオコーディング(VVC)において採用されるコンテキスト適応型バイナリ算術コーダ(CABAC:Context Adaptive Binary Arithmetic Coder)は、線形領域中でのコンテキストの確率状態を維持し得る。初期確率状態が対数領域中で決定される場合、ビデオコーダは、線形領域中での決定された初期確率状態を変換するために様々な動作を実行し得る。たとえば、ビデオコーダは、対数領域から線形領域に初期確率状態を変換するためにルックアップテーブル(LUT:look-up table)を使用し得る。
[0036] 本開示の1つまたは複数の技法によれば、ビデオコーダは、線形領域中での初期確率状態を直接決定し得る。たとえば、ビデオは、あらかじめ定義された初期化値に基づいて、対数領域から線形領域に初期確率状態を変換するためにLUTを使用せずに線形領域中でのコンテキストの初期確率状態(たとえば、pStateIdx)を決定し得る。このようにして、ビデオコーダは、線形領域中での初期確率状態と対数領域中での初期確率状態との間で変換するLUTを記憶することおよび/またはそれにアクセスすることを行う必要を回避し得る。
[0037] 図1は、本開示の技法を実行し得る例示的なビデオ符号化および復号システム100を示すブロック図である。本開示の技法は、概して、ビデオデータをコーディング(符号化および/または復号)することを対象とする。概して、ビデオデータは、ビデオを処理するための何らかのデータを含む。したがって、ビデオデータは、シグナリングデータなどの未加工の、コーディングされていないビデオと、符号化されたビデオと、復号された(たとえば、再構築された)ビデオと、ビデオメタデータとを含み得る。
[0038] 図1に示されているように、システム100は、この例では、宛先デバイス116によって復号および表示されるべき符号化ビデオデータを与えるソースデバイス102を含む。具体的には、ソースデバイス102は、コンピュータ可読媒体110を介してビデオデータを宛先デバイス116に提供する。ソースデバイス102と宛先デバイス116とは、デスクトップコンピュータ、ノートブック(すなわち、ラップトップ)コンピュータ、タブレットコンピュータ、セットトップボックス、スマートフォンなどの電話ハンドセット、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイスなどを含む、広範囲のデバイスのいずれかを備え得る。いくつかの場合には、ソースデバイス102と宛先デバイス116とは、ワイヤレス通信のために装備され得、したがって、ワイヤレス通信デバイスと呼ばれることがある。
[0039] 図1の例では、ソースデバイス102は、ビデオソース104と、メモリ106と、ビデオエンコーダ200と、出力インターフェース108とを含む。宛先デバイス116は、入力インターフェース122と、ビデオデコーダ300と、メモリ120と、ディスプレイデバイス118とを含む。本開示によれば、ソースデバイス102のビデオエンコーダ200と、宛先デバイス116のビデオデコーダ300とは、ビデオ圧縮のための算術コーディングのための確率初期化のための技法を適用するように構成され得る。したがって、ソースデバイス102はビデオ符号化デバイス(video encoding device)の例を表し、宛先デバイス116はビデオ復号デバイス(video decoding device)の例を表す。他の例では、ソースデバイスおよび宛先デバイスは他の構成要素または構成を含み得る。たとえば、ソースデバイス102は、外部カメラなどの外部ビデオソースからビデオデータを受信し得る。同様に、宛先デバイス116は、統合されたディスプレイデバイスを含むのではなく、外部ディスプレイデバイスとインターフェースし得る。
[0040] 図1に示されているシステム100は一例にすぎない。概して、どんなデジタルビデオ符号化および/または復号デバイスも、ビデオ圧縮のための算術コーディングのための確率初期化のための技法を実行し得る。ソースデバイス102および宛先デバイス116は、ソースデバイス102が宛先デバイス116への送信のためにコーディングされたビデオデータを生成するようなコーディングデバイスの例にすぎない。本開示は、データのコーディング(符号化および/または復号)を実行するデバイスとして「コーディング(coding)」デバイスに言及する。したがって、ビデオエンコーダ200およびビデオデコーダ300は、コーディングデバイス、特に、それぞれビデオエンコーダおよびビデオデコーダの例を表す。いくつかの例では、デバイス102、116は、デバイス102、116の各々がビデオ符号化構成要素とビデオ復号構成要素とを含むように、実質的に対称的に動作し得る。したがって、システム100は、たとえば、ビデオストリーミング、ビデオ再生、ビデオブロードキャスト、またはビデオ電話のための、ビデオデバイス102とビデオデバイス116との間の一方向または双方向のビデオ送信をサポートし得る。
[0041] 概して、ビデオソース104は、ビデオデータのソース(すなわち、未加工の、コーディングされていないビデオデータ)を表し、ピクチャのためのデータを符号化するビデオエンコーダ200にビデオデータの連続した一連のピクチャ(「フレーム」とも呼ばれる)を与える。ソースデバイス102のビデオソース104は、ビデオカメラなどのビデオキャプチャデバイス、以前にキャプチャされた未加工のビデオを包含するビデオアーカイブ、および/またはビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェースを含み得る。さらなる代替として、ビデオソース104は、ソースビデオとしてのコンピュータグラフィックスベースのデータ、またはライブビデオとアーカイブされたビデオとコンピュータで生成されたビデオとの組合せを生成し得る。各々の場合において、ビデオエンコーダ200は、キャプチャされたビデオデータ、プリキャプチャされたビデオデータ、またはコンピュータで生成されたビデオデータを符号化する。ビデオエンコーダ200は、ピクチャを、(「表示順序」と呼ばれることがある)受信順序から、コーディングのためのコーディング順序に並べ替え得る。ビデオエンコーダ200は、符号化されたビデオデータを含むビットストリーム(bitstream)を生成し得る。ソースデバイス102は、次いで、たとえば、宛先デバイス116の入力インターフェース122による受信および/または取出しのために、出力インターフェース108を介して符号化されたビデオデータをコンピュータ可読媒体110に出力し得る。
[0042] ソースデバイス102のメモリ106と、宛先デバイス116のメモリ120とは、汎用メモリを表す。いくつかの例では、メモリ106、120は、未加工のビデオデータ、たとえば、ビデオソース104からの未加工のビデオ、およびビデオデコーダ300からの未加工の、復号されたビデオデータを記憶し得る。追加または代替として、メモリ106、120は、たとえば、それぞれ、ビデオエンコーダ200およびビデオデコーダ300によって実行可能なソフトウェア命令を記憶し得る。この例ではビデオエンコーダ200およびビデオデコーダ300とは別々に示されているが、ビデオエンコーダ200およびビデオデコーダ300は、機能的に同等のまたは等価な目的のために内部メモリも含み得ることを理解されたい。さらに、メモリ106、120は、符号化されたビデオデータ、たとえば、ビデオエンコーダ200からの出力、およびビデオデコーダ300への入力を記憶し得る。いくつかの例では、メモリ106、120の部分は、たとえば、未加工の復号および/または符号化されたビデオデータを記憶するために、1つまたは複数のビデオバッファとして割り振られ得る。
[0043] コンピュータ可読媒体110は、ソースデバイス102から宛先デバイス116に符号化ビデオデータを移送することが可能な任意のタイプの媒体またはデバイスを表し得る。一例では、コンピュータ可読媒体110は、ソースデバイス102が、たとえば、無線周波数ネットワークまたはコンピュータベースのネットワークを介して、符号化されたビデオデータを宛先デバイス116にリアルタイムで直接送信することを可能にするための通信媒体を表す。出力インターフェース108は、符号化ビデオデータを含む送信信号を変調し得、入力インターフェース122は、ワイヤレス通信プロトコルなどの通信規格に従って、受信された送信信号を復調し得る。通信媒体は、無線周波数(RF)スペクトルあるいは1つまたは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなどの、パケットベースネットワークの一部を形成し得る。通信媒体は、ルータ、スイッチ、基地局、またはソースデバイス102から宛先デバイス116への通信を可能にするために有用であり得る任意の他の機器を含み得る。
[0044] いくつかの例では、コンピュータ可読媒体110はストレージデバイス112を含み得る。ソースデバイス102は、出力インターフェース108からストレージデバイス112に符号化されたデータを出力し得る。同様に、宛先デバイス116は、入力インターフェース122を介してストレージデバイス112から符号化されたデータにアクセスし得る。記憶デバイス112は、ハードドライブ、Blu-ray(登録商標)ディスク、DVD、CD-ROM、フラッシュメモリ、揮発性または不揮発性メモリ、あるいは符号化ビデオデータを記憶するための任意の他の好適なデジタル記憶媒体など、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のいずれかを含み得る。
[0045] いくつかの例では、コンピュータ可読媒体110は、ソースデバイス102によって生成された符号化されたビデオデータを記憶し得るファイルサーバ114または別の中間ストレージデバイスを含み得る。ソースデバイス102は、ソースデバイス102によって生成された符号化されたビデオデータを記憶し得るファイルサーバ114または別の中間ストレージデバイスに符号化されたビデオデータを出力し得る。宛先デバイス116は、ストリーミングまたはダウンロードを介してファイルサーバ114から記憶されたビデオデータにアクセスし得る。ファイルサーバ114は、符号化されたビデオデータを記憶し、その符号化されたビデオデータを宛先デバイス116に送信することが可能な任意のタイプのサーバデバイスであり得る。ファイルサーバ114は、(たとえば、ウェブサイトのための)ウェブサーバ、ファイル転送プロトコル(FTP)サーバ、コンテンツ配信ネットワークデバイス、またはネットワーク接続ストレージ(NAS)デバイスを表し得る。宛先デバイス116は、インターネット接続を含む任意の標準的なデータ接続を通してファイルサーバ114から符号化されたビデオデータにアクセスし得る。これは、ワイヤレスチャネル(たとえば、Wi-Fi(登録商標)接続)、有線接続(たとえば、DSL、ケーブルモデムなど)、または、ファイルサーバ114に記憶された符号化されたビデオデータにアクセスするのに適した、両方の組合せを含み得る。ファイルサーバ114および入力インターフェース122は、ストリーミング伝送プロトコル、ダウンロード伝送プロトコル、またはそれらの組合せに従って動作するように構成され得る。
[0046] 出力インターフェース108と入力インターフェース122とは、ワイヤレス送信機/受信機、モデム、ワイヤードネットワーキング構成要素(たとえば、イーサネット(登録商標)カード)、様々なIEEE802.11規格のいずれかに従って動作するワイヤレス通信構成要素、または他の物理的構成要素を表し得る。出力インターフェース108および入力インターフェース122がワイヤレス構成要素を備える例では、出力インターフェース108および入力インターフェース122は、4G、4G-LTE(登録商標)(ロングタームエボリューション)、LTEアドバンスト、5Gなどのセルラー通信規格に従って、符号化されたビデオデータなどのデータを転送するように構成され得る。出力インターフェース108がワイヤレス送信機を備えるいくつかの例では、出力インターフェース108と入力インターフェース122とは、IEEE802.11仕様、IEEE802.15仕様(たとえば、ZigBee(登録商標))、Bluetooth(登録商標)規格などの、他のワイヤレス規格に従って、符号化されたビデオデータなどのデータを転送するように構成され得る。いくつかの例では、ソースデバイス102および/または宛先デバイス116は、それぞれのシステムオンチップ(SoC)デバイスを含み得る。たとえば、ソースデバイス102は、ビデオエンコーダ200および/または出力インターフェース108に帰属する機能を実行するためのSoCデバイスを含み得、宛先デバイス116は、ビデオデコーダ300および/または入力インターフェース122に帰属する機能を実行するためのSoCデバイスを含み得る。
[0047] 本開示の技法は、オーバージエアテレビジョン放送、ケーブルテレビジョン送信、衛星テレビジョン送信、動的適応ストリーミングオーバーHTTP(DASH)などのインターネットストリーミングビデオ送信、データ記憶媒体上に符号化されたデジタルビデオ、データ記憶媒体に記憶されたデジタルビデオの復号、または他の適用例など、様々なマルチメディア適用例のいずれかをサポートするビデオコーディング(video coding)に適用され得る。
[0048] 宛先デバイス116の入力インターフェース122は、コンピュータ可読媒体110(たとえば、記憶デバイス112、ファイルサーバ114など)から符号化ビデオビットストリーム(encoded video bitstream)を受信する。符号化されたビデオビットストリームは、ビデオブロックまたは他のコーディングされたユニット(たとえば、スライス、ピクチャ、ピクチャグループ、シーケンスなど)の特性および/または処理を記述する値を有するシンタックス要素など、ビデオデコーダ300によっても使用されるビデオエンコーダ200によって定義された情報をシグナリングすることを含み得る。ディスプレイデバイス118は、ユーザに復号されたビデオデータの復号されたピクチャを表示する。ディスプレイデバイス118は、陰極線管(CRT)、液晶ディスプレイ(LCD)、プラズマディスプレイ、有機発光ダイオード(OLED)ディスプレイ、または別のタイプのディスプレイデバイスなど、様々なディスプレイデバイスのいずれかを表し得る。
[0049] 図1には示されていないが、いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは各々、オーディオエンコーダおよび/またはオーディオデコーダと統合され得、共通のデータストリーム中にオーディオとビデオの両方を含む多重化ストリームを処理するために、適切なMUX-DEMUXユニット、あるいは他のハードウェアおよび/またはソフトウェアを含み得る。適用可能な場合、MUX-DEMUXユニットはITU H.223マルチプレクサプロトコル、またはユーザデータグラムプロトコル(UDP)などの他のプロトコルに準拠し得る。
[0050] ビデオエンコーダ200およびビデオデコーダ300はそれぞれ、1つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアなど、様々な好適なエンコーダ回路および/またはデコーダ回路のいずれか、あるいはそれらの任意の組合せとして実装され得る。本技法が部分的にソフトウェアで実装されるとき、デバイスは、好適な非一時的コンピュータ可読媒体にソフトウェアの命令を記憶し、本開示の技法を実行するために1つまたは複数のプロセッサを使用してその命令をハードウェアで実行し得る。ビデオエンコーダ200とビデオデコーダ300との各々は、1つまたは複数のエンコーダまたはデコーダに含まれ得、両者のいずれかがそれぞれのデバイス中に複合エンコーダ/デコーダ(CODEC)の一部として組み込まれ得る。ビデオエンコーダ200および/またはビデオデコーダ300を含むデバイスは、集積回路、マイクロプロセッサ、および/またはセルラー電話などのワイヤレス通信デバイスを備え得る。
[0051] ビデオエンコーダ200およびビデオデコーダ300は、高効率ビデオコーディング(HEVC)とも呼ばれるITU-T H.265、またはマルチビューおよび/もしくはスケーラブルビデオコーディング拡張などのそれらの拡張などの、ビデオコーディング規格に従って動作し得る。代替として、ビデオエンコーダ200およびビデオデコーダ300は、共同探求テストモデル(JEM)または汎用ビデオコーディング(VVC)とも呼ばれるITU-T H.266などの、他のプロプライエタリ規格または業界規格に従って動作し得る。VVC規格の最近のドラフトは、Brossら「Versatile Video Coding(Draft 4)」、ITU-T SG16 WP3とISO/IEC JTC1/SC29/WG11とのJoint Video Experts Team(JVET)、第13回会合:Marrakech、MA、2019年1月9~18日、JVET-M1001-v6(以下、「VVC Draft 4」)に記載されている。ただし、本開示の技法は、いかなる特定のコーディング規格にも限定されない。
[0052] 概して、ビデオエンコーダ200とビデオデコーダ300とは、ピクチャのブロックベースのコーディングを実行し得る。「ブロック(block)」という用語は、処理されるべき(たとえば、符号化されるべき、復号されるべき、あるいは符号化および/または復号プロセスにおいて他の方法で使用されるべき)データを含む構造を一般に意味する。たとえば、ブロックは、ルミナンスおよび/またはクロミナンスデータのサンプルの2次元行列を含み得る。概して、ビデオエンコーダ200とビデオデコーダ300とは、YUV(たとえば、Y、Cb、Cr)フォーマットで表されるビデオデータをコーディングし得る。すなわち、ピクチャのサンプルのために赤色、緑色、および青色(RGB)データをコーディングするのではなく、ビデオエンコーダ200とビデオデコーダ300とは、ルミナンス成分とクロミナンス成分とをコーディングし得、ここで、クロミナンス成分は、赤色相と青色相の両方のクロミナンス成分を含み得る。いくつかの例では、ビデオエンコーダ200は、符号化より前に、受信されたRGBフォーマットのデータをYUV表現に変換し、ビデオデコーダ300は、YUV表現をRGBフォーマットに変換する。代替的に、前処理および後処理ユニット(図示せず)が、これらの変換を実行し得る。
[0053] 本開示では、概して、ピクチャのデータを符号化または復号するプロセスを含むように、ピクチャのコーディング(たとえば、符号化および復号)に言及することがある。同様に、本開示は、ブロックのデータを符号化または復号するプロセス、たとえば、予測および/または残差コーディングを含むように、ピクチャのブロックのコーディングに言及することがある。符号化ビデオビットストリームは、概して、コーディング決定(たとえば、コーディングモード)とブロックへのピクチャの区分とを表すシンタックス要素の一連の値を含む。したがって、ピクチャまたはブロックをコーディングすることへの言及は、概して、ピクチャまたはブロックを形成しているシンタックス要素の値をコーディングすることとして理解されたい。
[0054] HEVCは、コーディングユニット(CU)、予測ユニット(PU:prediction unit)、および変換ユニット(TU:transform unit)を含む、様々なブロックを定義する。HEVCに従って、(ビデオエンコーダ200などの)ビデオコーダは、4分木構造に従ってコーディングツリーユニット(CTU)をCUに区分する。すなわち、ビデオコーダは、CTUとCUとを4つの等しい、重複しない正方形に区分し、4分木の各ノードは、0個または4つのいずれかの子ノードを有する。子ノードなしのノードは「リーフノード」と呼ばれることがあり、そのようなリーフノードのCUは、1つまたは複数のPUならびに/あるいは1つまたは複数のTUを含み得る。ビデオコーダは、PUとTUとをさらに区分し得る。たとえば、HEVCでは、残差4分木(RQT)は、TUの区分を表す。HEVCでは、PUはインター予測データを表すが、TUは残差データを表す。イントラ予測されるCUは、イントラモード指示などのイントラ予測情報を含む。
[0055] 別の例として、ビデオエンコーダ200とビデオデコーダ300とは、JEMまたはVVCに従って動作するように構成され得る。JEMまたはVVCに従って、(ビデオエンコーダ200などの)ビデオコーダは、ピクチャを複数のコーディングツリーユニット(CTU)に区分する。ビデオエンコーダ200は、4分木2分木(QTBT)構造またはマルチタイプツリー(MTT)構造などの、木構造に従ってCTUを区分し得る。QTBT構造は、HEVCのCUとPUとTUの区別などの、複数の区分タイプの概念を除去する。QTBT構造は、4分木区分に従って区分される第1のレベル、および2分木区分に従って区分される第2のレベルという、2つのレベルを含む。QTBT構造のルートノードはCTUに対応する。2分木のリーフノードは、コーディングユニット(CU)に対応する。
[0056] MTT区分構造では、ブロックは、4分木(QT)区分と、2分木(BT)区分と、1つまたは複数のタイプの3分木(TT)区分とを使用して区分され得る。3分木区分は、ブロックが3つのサブブロックに分割される区分である。いくつかの例では、3分木区分は、中心を通って元のブロックを分割することなく、ブロックを3つのサブブロックに分割する。MTTにおける区分タイプ(たとえば、QT、BT、およびTT)は、対称的または非対称的であり得る。
[0057] いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、ルミナンス成分とクロミナンス成分との各々を表すために単一のQTBTまたはMTT構造を使用し得、他の例では、ビデオエンコーダ200とビデオデコーダ300とは、ルミナンス成分のための1つのQTBT/MTT構造、および両方のクロミナンス成分のための別のQTBT/MTT構造(またはそれぞれのクロミナンス成分のための2つのQTBT/MTT構造)など、2つ以上のQTBTまたはMTT構造を使用し得る。
[0058] ビデオエンコーダ200およびビデオデコーダ300は、HEVCによる4分木区分、QTBT区分、MTT区分、または他の区分構造を使用するように構成され得る。説明の目的で、本開示の技法の説明はQTBT区分に関して提示される。ただし、本開示の技法が、4分木区分、または同様に他のタイプの区分を使用するように構成されたビデオコーダにも適用され得ることを理解されたい。
[0059] 本開示は、垂直および水平次元、たとえば、16×16のサンプルまたは16バイ(by)16のサンプルに関して(CUまたは他のビデオブロックなどの)ブロックのサンプル次元を互換的に言及するために「N×N」および「NバイN」を使用し得る。一般に、16×16のCUは、垂直方向に16個のサンプル(y=16)を有し、水平方向に16個のサンプル(x=16)を有する。同様に、N×NのCUは、概して、垂直方向にN個のサンプルを有し、水平方向にN個のサンプルを有し、ここで、Nは非負整数値を表す。CU中のサンプルは行と列とに配列され得る。さらに、CUは、必ずしも、水平方向において垂直方向と同じ数のサンプルを有する必要があるとは限らない。たとえば、CUはN×Mサンプルを備え得、ここで、Mは必ずしもNに等しいとは限らない。
[0060] ビデオエンコーダ200は、予測および/または残差情報、ならびに他の情報を表すCUのためにビデオデータを符号化する。予測情報(prediction information)は、CUについて予測ブロック(prediction block)を形成するためにCUがどのように予測されるべきかを示す。残差情報(residual information)は、概して、符号化より前のCUのサンプルと予測ブロックとの間のサンプルごとの差分(sample-by-sample differences)を表す。
[0061] CUを予測するために、ビデオエンコーダ200は、概して、インター予測またはイントラ予測を通してCUについて予測ブロックを形成し得る。インター予測は、概して、以前にコーディングされたピクチャのデータからCUを予測することを指し、一方、イントラ予測は、概して、同じピクチャの以前にコーディングされたデータからCUを予測することを指す。インター予測を実施するために、ビデオエンコーダ200は、1つまたは複数の動きベクトルを使用して予測ブロックを生成し得る。ビデオエンコーダ200は、概して、たとえば、CUと参照ブロックとの間の差分に関して、CUにぴったり一致する参照ブロックを識別するために動き探索を実行し得る。ビデオエンコーダ200は、参照ブロックが現在CUにぴったり一致するかどうかを決定するために、絶対差分和(SAD)、2乗差分和(SSD)、平均絶対差(MAD)、平均2乗差(MSD)、または他のそのような差分計算を使用して差分メトリックを計算し得る。いくつかの例では、ビデオエンコーダ200は、単方向予測または双方向予測を使用して現在CUを予測し得る。
[0062] JEMおよびVVCのいくつかの例はまた、インター予測モードと見なされ得るアフィン動き補償モードを提供する。アフィン動き補償モードでは、ビデオエンコーダ200は、ズームインまたはアウト、回転、パースペクティブの動き、あるいは他の変則の動きタイプなど、非並進の動きを表す2つ以上の動きベクトルを決定し得る。
[0063] イントラ予測を実行するために、ビデオエンコーダ200は、予測ブロックを生成するようにイントラ予測モードを選択し得る。JEMとVVCとのいくつかの例は、様々な方向性モード、ならびに平面モードおよびDCモードを含む、67個のイントラ予測モードを提供する。概して、ビデオエンコーダ200は、現在のブロック(たとえば、CUのブロック)のサンプルをそれから予測すべき、現在のブロックに対する隣接サンプルを記述するイントラ予測モードを選択する。そのようなサンプルは、ビデオエンコーダ200がラスタ走査順序で(左から右に、上から下に)CTUとCUとをコーディングすると仮定すると、概して、現在のブロックと同じピクチャ中の現在のブロックの上方、上方および左側、または左側にあり得る。
[0064] ビデオエンコーダ200は、現在のブロックについて予測モードを表すデータを符号化する。たとえば、インター予測モードでは、ビデオエンコーダ200は、様々な利用可能なインター予測モードのうちのどれが使用されるか、ならびに対応するモードの動き情報を表すデータを符号化し得る。たとえば、単方向または双方向インター予測では、ビデオエンコーダ200は、高度動きベクトル予測(AMVP)またはマージモードを使用して動きベクトルを符号化し得る。ビデオエンコーダ200は、アフィン動き補償モードの動きベクトルを符号化するために同様のモードを使用し得る。
[0065] ブロックのイントラ予測またはインター予測などの予測に続いて、ビデオエンコーダ200は、ブロックについて残差データを計算し得る。残差ブロック(residual block)などの残差データは、ブロックと、対応する予測モードを使用して形成された、ブロックについての予測ブロックとの間の、サンプルごとの差分を表す。ビデオエンコーダ200は、サンプル領域ではなく変換領域中に変換データを生成するために、残差ブロックに1つまたは複数の変換を適用し得る。たとえば、ビデオエンコーダ200は、離散コサイン変換(DCT)、整数変換、ウェーブレット変換、または概念的に同様の変換を残差ビデオデータに適用し得る。さらに、ビデオエンコーダ200は、モード依存非分離可能2次変換(MDNSST)、信号依存変換、カルーネンレーベ変換(KLT)など、第1の変換に続いて2次変換を適用し得る。ビデオエンコーダ200は、1つまたは複数の変換の適用に続いて変換係数(transform coefficient)を生成する。
[0066] 上述のように、変換係数を生成するための任意の変換に続いて、ビデオエンコーダ200は、変換係数の量子化を実行し得る。量子化は、一般に、係数を表すために使用されるデータの量をできる限り低減してさらなる圧縮をもたらすように、変換係数が量子化されるプロセスを指す。量子化プロセスを実行することによって、ビデオエンコーダ200は、係数の一部またはすべてと関連付けられるビット深度を低減し得る。たとえば、ビデオエンコーダ200は、量子化の間にnビット値をmビット値に丸めてもよく、nはmより大きい。いくつかの例では、量子化を実行するために、ビデオエンコーダ200は、量子化されるべき値のビットごとの右シフトを実行してもよい。
[0067] 量子化に続いて、ビデオエンコーダ200は、変換係数を走査して、量子化された変換係数を含む2次元行列から1次元ベクトルを生成し得る。走査は、より高いエネルギー(したがって、より低い頻度)の係数をベクトルの前方に配置し、より低いエネルギー(したがって、より高い頻度)の変換係数をベクトルの後方に配置するように設計され得る。いくつかの例では、ビデオエンコーダ200は、量子化された変換係数を走査してシリアル化されたベクトルを生成するためにあらかじめ定義された走査順序を利用し、次いで、ベクトルの量子化された変換係数をエントロピー符号化し得る。他の例では、ビデオエンコーダ200は適応型走査を実行し得る。量子化された変換係数を走査して1次元ベクトルを形成した後に、ビデオエンコーダ200は、たとえば、コンテキスト適応型バイナリ算術コーディング(CABAC:context adaptive binary arithmetic coding)に従って、1次元ベクトルをエントロピー符号化し得る。ビデオエンコーダ200はまた、ビデオデータを復号する際にビデオデコーダ300によって使用するための、符号化されたビデオデータと関連付けられるメタデータを記述するシンタックス要素のための値をエントロピー符号化し得る。
[0068] CABACを実行するために、ビデオエンコーダ200は、コンテキストモデル内のコンテキストを、送信されるべきシンボルに割り当て得る。コンテキストは、たとえば、シンボルの隣接値が0値であるか否かに関係し得る。確率決定は、シンボルに割り当てられたコンテキストに基づき得る。
[0069] ビデオエンコーダ200は、さらに、ブロックベースのシンタックスデータ、ピクチャベースのシンタックスデータ、およびシーケンスベースのシンタックスデータなどのシンタックスデータを、たとえば、ピクチャヘッダ、ブロックヘッダ、スライスヘッダ、あるいはシーケンスパラメータセット(SPS)、ピクチャパラメータセット(PPS)、またはビデオパラメータセット(VPS)などの他のシンタックスデータ中で、ビデオデコーダ300に対して生成し得る。ビデオデコーダ300は、対応するビデオデータをどのように復号すべきかを決定するために、そのようなシンタックスデータを同様に復号し得る。
[0070] このようにして、ビデオエンコーダ200は、符号化されたビデオデータ、たとえば、ブロック(たとえば、CU)へのピクチャの区分ならびにブロックの予測および/または残差情報を記述するシンタックス要素を含むビットストリームを生成し得る。最終的に、ビデオデコーダ300は、ビットストリームを受信し、符号化ビデオデータを復号し得る。
[0071] 以下のセクションは、バイナリ算術コーディング(BAC:binary arithmetic coding)およびCABAC技法についてより詳細に説明する。BACは、概して、再帰的間隔再分割プロシージャである。BACは、H.264/AVCおよびH.265/HEVCビデオコーディング規格におけるCABACプロセスにおいてビンを符号化するために使用される。BACコーダの出力は、最終コード化確率間隔(final coded probability interval)内の確率に対する値またはポインタを表すバイナリストリームである。確率間隔は、範囲(「範囲」)および下端値(「低」)によって指定される。範囲(Range)は確率間隔の拡張である。低(Low)はコーディング/確率間隔の下限である。
[0072] ビデオコーディングへの算術コーディングの適用は、D.Marpe、H.Schwarz、およびT.Wiegand「Context-Based Adaptive Binary Arithmetic Coding in the H.264/AVC Video Compression Standard」、IEEE Trans.Circuits and Systems for Video Technology、vol.13、no.7、2003年7月に記載されている。CABACは、3つの主要な機能、すなわち、2値化(binarization)、コンテキストモデリング、および算術コーディングを伴う。2値化は、シンタックス要素をバイナリシンボル(binary symbol)(あるいは「ビン」)にマッピングする機能を指す。バイナリシンボルは「ビンストリング(bin string)」と呼ばれることもある。コンテキストモデリング(Context modeling)は、様々なビンの確率を推定する機能を指す。算術コーディング(Arithmetic coding)は、推定された確率に基づいて、ビンをビットに圧縮する後続の機能を指す。バイナリ算術コーダなど、様々なデバイスおよび/またはそれらのモジュールは算術コーディングの機能を実行し得る。
[0073] HEVCでは、単項(U:unary)、短縮単項(TU:truncated unary)、k次指数ゴロム(EGk:kth-order Exp-Golomb)、および固定長(FL:fixed length)を含む、いくつかの異なる2値化プロセスが使用される。様々な2値化プロセスの詳細は、V.SzeおよびM.Budagavi、「High throughput CABAC entropy coding in HEVC」、IEEE Transactions on Circuits and Systems for Video Technology(TCSVT)、vol.22、no.12、1778~1791ページ、2012年12月に記載されている。
[0074] CABACにおける各コンテキスト(すなわち、確率モデル)は状態(state)によって表される。各状態(σ)は、特定のシンボル(たとえば、ビン)が劣勢シンボル(LPS:Least Probable Symbol)である確率(pσ)を暗黙的に(implicitly)表す。シンボルはLPSまたは優勢シンボル(MPS:Most Probable Symbol)であり得る。シンボルはバイナリであり、したがって、MPSおよびLPSは0または1であり得る。確率(probability)は、対応するコンテキストについて推定され、算術コーダを使用してシンボルをエントロピーコーディングするために(暗黙的に)使用される。
[0075] BACのプロセスは、コーディングすべきコンテキストとコーディングされているビンの値とに応じて、それの内部値「範囲(range)」および「低(low)」を変更する状態機械によって扱われる。コンテキストの状態(すなわち、それの確率)に応じて、範囲は、範囲MPSσ(状態σにおける優勢シンボルの範囲)と範囲LPSσ(状態σにおける劣勢シンボルの範囲)とに分割される。理論上、確率状態σの範囲LPSσ値は以下の乗算によって導出される。
ここで、pσは、LPSを選択する確率である。もちろん、MPSの確率は1-pσである。等価的に、rangeMPSσは、範囲-rangeLPSσに等しい。BACは、コーディングすべきコンテキストビンの状態と、現在の範囲と、コーディングされているビンの値(すなわち、ビンがLPSに等しいのかMPSに等しいのか)とに応じて、範囲を反復的に更新する。
[0076] 図2Aおよび図2Bは、ビンnにおけるこのプロセスの例を示す。図2Aの例201では、あるコンテキスト状態(σ)を仮定すれば、ビンnにおける範囲は、LPS(pσ)の確率によって与えられるRangeMPSとRangeLPSとを含む。例201は、ビンnの値がMPSに等しいときのビンn+1における範囲の更新を示す。この例では、低は同じままであるが、ビンn+1における範囲の値は、ビンnにおけるRangeMPSの値に低減される。図2Bの例203は、ビンnの値がMPSに等しくない(すなわち、LPSに等しい)ときのビンn+1における範囲の更新を示す。この例では、低は、ビンnにおけるRangeLPSのより低い範囲値に移動される。さらに、ビンn+1における範囲の値は、ビンnにおけるRangeLPSの値に低減される。
[0077] HEVCでは、範囲は9ビットで表され、低は10ビットで表される。範囲値および低値を十分な精度で維持するための再正規化プロセスがある。範囲が256よりも小さいときはいつでも、再正規化が行われる。したがって、範囲は、再正規化の後、常に256以上である。範囲(range)の値と低(low)の値とに応じて、BACは、ビットストリームに「0」または「1」を出力するか、または将来の出力のために保持するために(BO:未解決ビット(bits-outstanding)と呼ばれる)内部変数を更新する。図3は、範囲に応じたBAC出力の例を示す。たとえば、範囲と低とが、あるしきい値(たとえば、512)を上回るとき、ビットストリームに「1」が出力される。範囲と低とが、あるしきい値(たとえば、512)を下回るとき、ビットストリームに「0」が出力される。範囲と下側(lower)とが、あるしきい値間にあるとき、ビットストリームに何も出力されない。代わりに、BO値が増分され、次のビンが符号化される。
[0078] 本開示で説明される技法は、たとえば、ビデオエンコーダ、ビデオデコーダ、または組み合わせられたビデオエンコーダデコーダ(CODEC)内で実行され得る。特に、そのような技法は、ビデオエンコーダのエントロピー符号化ユニットおよび/またはビデオデコーダのエントロピー復号ユニットにおいて実行され得る。技法は、たとえば、CABACプロセス内で実行され得、これは、HEVC規格の態様によるビデオコーディングなどのビデオコーディングをサポートするように構成され得る。エントロピー符号化および復号ユニットは、たとえば、残差ビデオデータに関連する量子化された変換係数、動きベクトル情報、シンタックス要素、ならびにビデオ符号化および/またはビデオ復号プロセスにおいて有用であり得る他のタイプの情報など、様々なビデオデータのうちのいずれかを符号化または復号するために、相反するまたは逆の様式でコーディングプロセスを適用し得る。
[0079] 概して、ビデオデコーダ300は、ビットストリームの符号化ビデオデータを復号するために、ビデオエンコーダ200によって実行されたものの逆プロセスを実行する。たとえば、ビデオデコーダ300は、ビデオエンコーダ200のCABAC符号化プロセスと逆ではあるが、それと実質的に同様の様式でCABACを使用してビットストリームのシンタックス要素の値を復号し得る。シンタックス要素は、CTUのCUを定義するために、CTUへのピクチャの区分情報と、QTBT構造などの対応する区分構造に従う、各CTUの区分とを定義し得る。シンタックス要素は、ビデオデータのブロック(たとえば、CU)のための予測および残差情報をさらに定義し得る。
[0080] 残差情報は、たとえば、量子化された変換係数によって表され得る。ビデオデコーダ300は、ブロックの残差ブロックを再生するために、ブロックの量子化された変換係数を逆量子化し、逆変換し得る。ビデオデコーダ300は、ブロックの予測ブロックを形成するために、シグナリングされた予測モード(イントラまたはインター予測)と、関連する予測情報(たとえば、インター予測のための動き情報)とを使用する。ビデオデコーダ300は、元のブロックを再生するために(サンプルごとに)予測ブロックと残差ブロックとを組み合わせ得る。ビデオデコーダ300は、ブロックの境界に沿って視覚的アーティファクトを低減するためにデブロッキングプロセスを実行することなどの、追加の処理を実行し得る。
[0081] 本開示の技法によれば、ビデオエンコーダ200および/またはビデオデコーダ300は、ビデオデータのスライス中のシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちのコンテキストのためのあらかじめ定義されたスロープインデックス(たとえば、SlopeIdx)とあらかじめ定義されたオフセットインデックス(たとえば、OffsetIdx)とを取得することと、あらかじめ定義されたスロープインデックス(slope index)とあらかじめ定義されたオフセットインデックス(offset index)とに基づいて、線形領域中でのビデオデータのスライスのためのコンテキストの初期確率状態を決定することと、コンテキストの初期確率状態に基づいて、シンタックス要素のための値のビンをエントロピーコーディングすることとを行い得る。
[0082] 本開示では、概して、シンタックス要素などのある情報を「シグナリング(signaling)」することに言及することがある。「シグナリング」という用語は、概して、符号化ビデオデータを復号するために使用される値シンタックス要素および/または他のデータの通信を指すことがある。すなわち、ビデオエンコーダ200は、ビットストリームにおいてシンタックス要素の値をシグナリングし得る。一般に、シグナリングは、ビットストリームの中に値を生成することを指す。上述されたように、ソースデバイス102は、実質的にリアルタイムでビットストリームを宛先デバイス116に移送するか、または、宛先デバイス116による後の取出しのためにシンタックス要素を記憶デバイス112に記憶するときに起こり得るように、非リアルタイムでビットストリームを宛先デバイス116に移送し得る。
[0083] 本開示の技法は、汎用ビデオコーディング(VVC)において採用されるコンテキスト適応型バイナリ算術コーダ(CABAC:Context Adaptive Binary Arithmetic Coder)などの線形領域中での現実の確率を確率状態が表すバイナリ演算コーダ(binary arithmetic coder)に好適である。
[0084] バイナリ算術コーディングでは、ビデオシーケンスは、最初に、空間時間冗長性が除去された状態でデータ要素(またはシンタックス要素)に変換され、シンタックス要素は、次いで、エントロピーコーディングによって2進表現(またはビットストリーム)にロスレス変換される。最近のビデオコーディング規格(たとえば、HEVCおよびVVC)は、エントロピーコーディングを実行するためにバイナリ算術コーディングを利用し得る。
[0085] バイナリ算術コーディングプロセスは、3つの主要なステージ、すなわち、2値化と、適応型確率推定(adaptive probability estimation)と、算術コーディングとを有する。2値化ステージでは、コーディングされるべき各非2値シンタックス要素は、バイナリデータシンボル(またはビン)の文字列に変換される。
[0086] 適応型確率推定ステージでは、各ビンは、それがバイナリシンタックス要素であるのかまたは非2値シンタックス要素から変換されたバイナリ文字列の1つの要素であるのかにかかわらず、それの確率分布(probability distribution)(すなわち、0または1である確率)の推定値を有する。確率分布は、(1)定常で均一な分布(すなわち、常にp=0.5である)と、(2)時間的に変化するまたは非一様の分布との2つのカテゴリに分類され得る。カテゴリ(2)の分布をもつビンには、それの前のビンの値と他のコンテキスト統計値とに基づいてそのビンのリアルタイムの分布を追跡する確率モデル(またはコンテキストモデル)が割り当てられ得る。
[0087] 算術コーディングステージでは、カテゴリ(1)の分布をもつビンは、バイパスモード、低い複雑度の高度に並列処理可能なモードでコーディングされ得、カテゴリ(2)の分布をもつビンは、通常モードでコーディングされ、ここで、ビン値と関連するコンテキストモデルによって推定されたそれの確率とが使用される。
[0088] ビデオコーディングのためにバイナリ算術コーダにおいて使用されるときに、理論的には実数値の、0~1にわたる確率がデジタル化されて、したがって、一般に、確率状態と呼ばれる。たとえば、HEVCでは、確率は、7ビットの精度を有し、128の確率状態に対応する。図9は、確率と確率状態との間のマッピングを示す。わかるように、HEVCにおける確率状態は、対数領域中での現実の確率を表す。別の例では、VVCでは、あるビンの確率推定値は、ビンの関連するコンテキストモデルで追跡され、それぞれ、速い速度と遅い速度とで更新される2つの確率の平均である。速い速度で更新される1つは、10ビットの精度を有し、1024の確率状態に対応し、遅い速度で更新される他方は、14ビットの精度を有し、16384の確率状態に対応する。HEVCとは異なり、VVCは、確率状態と確率との間に線形マッピングを採用した(図10Aおよび図10Bを参照されたい)。
[0089] HEVCおよびVVCでは、ビデオビットストリームは、複数の独立して復号可能なユニット(たとえば、スライス)を備えるかまたはそれらからなり、そのようなユニットの始めに、すべてのコンテキストモデルの確率状態は、いくつかのあらかじめ定義された値にリセットされなければならないことを暗示する。一般に、ソースの統計的性質のいかなる事前知識もない場合、各コンテキストモデルは、均一な分布(p=0.5)を仮定しなければならない。しかしながら、適応型確率推定の学習フェーズを橋渡しし、異なるコーディング条件での前適応を可能にするために、確率モデルごとに等確率状態よりもある程度適切な初期確率状態(初期化プロセス)を与えることが有益であることが分かっている。
[0090] HEVCにおけるCABACは、各スライスの始めに呼び出される量子化パラメータ(QP:quantization parameter)に依存する初期化プロセスを有する。スライスのためのルーマQP、SliceQPYの初期値(initial value)が与えられれば、InitProbStateとして示されるあるコンテキストモデルの初期確率状態は、式(1)~(3)によって生成される。
ここで、SlopeIdxおよびOffsetIdx(いずれも両端値を含む0~15にわたる整数)は、コンテキストモデルごとにあらかじめ定義され記憶された初期化パラメータである。式(3)は、InitProbStateが、約m>>4の勾配とSliceQPY=0における交点nとをもつSliceQPYの線形関数によってモデル化されることを意味する。SlopeIdxから勾配(slope)へのマッピングとOffsetIdxから交点(intersection)へのマッピングとは、それぞれ表1および表2に発見され得る。
言い換えれば、コンテキストモデルは、初期確率状態を直接記憶しないことがあり、代わりに、各スライスの始めに、確率状態を導出するための引数としてSliceQPYを使用する線形関数を一緒に決定する2つの初期化パラメータを記憶する。
[0091] いずれも4ビットの精度を有するSlopeIdxとOffsetIdxとは、単一の8ビットの初期化値にパックされ、その中で、上位ニブル(nibble)および下位ニブルが、それぞれ、SlopeIdxおよびOffsetIdxである。
[0092] 現在のVVCのCABACは、基本的に、式(3)において、クリッピングが0~127までであることを除いてInitProbStateを導出するためにHEVCの場合と同じ方法を使用する。しかしながら、対数領域中での確率を表すInitProbState(図9を参照されたい)を導出した後に、VVC中での初期化プロセスは、VVCの算術コーディングエンジンにおいて使用されるためにInitProbStateを線形領域中での確率を表す確率状態(図10Aおよび図10Bを参照されたい)に変換するためにもう1つのステップを必要とする。図11Aおよび図11Bに示されている変換(またはマッピング)は、以下のようにルックアップテーブル(LUT)(表3を参照されたい)を使用することによって実装される。
1. LUT中の対応するprobability_state値を発見するために探索インデックスとしてInitProbStateを使用する。
2. - ProbabilityStateLとして示されるより低い精度(10ビット)での確率状態が式(4)において導出される。
- ProbabilityStateHとして示されるより高い精度(14ビット)での確率状態が式(5)において導出される。
[0093] 上記で説明されたように、現在のVVCのCABACは、線形領域中での確率を表す確率状態(図10Aおよび図10Bを参照されたい)を採用するが、依然として、HEVCにおけるレガシー初期化プロセスを使用し、その中で、導出される初期確率状態は、対数領域中での確率を表す。初期化プロセスの出力と算術コーディングエンジンの入力とを橋渡しするために、128個のエントリのLUTがマッピングのために使用される。
[0094] 本開示の1つまたは複数の技法によれば、初期化プロセスは、VVCのために修正され得る(たとえば、これらの技法は、VVCにおける初期化プロセスを適切に修正することによってこの表のルックアッププロセスを改善し得る)。修正のための2つの方法が提案される。1つの方法では、出力確率状態InitProbStateは、線形領域中での確率を表す。これを行うことによって、マッピングプロセスは、精度調整目的だけのためにシフト動作に低減される。他の方法では、出力確率状態InitProbStateは、2次領域中での確率を表し、マッピングは、LUTではなく式を使用することによって実現される。
[0095] 勾配および交点の範囲を増加させる。所与のコンテキストモデルのための適切な初期化パラメータを発見するために、ソースの統計分析などいくつかの手段によってそのコンテキストモデルを使用するビンの確率分布の事前知識を収集する必要がある。図12は、Iスライスにおいて使用されるシンタックス要素SaoMergeFlagのビンのための一例を示す。
[0096] HEVCおよび現在のVVCでは、確率の事前知識は、対数領域中での確率状態に変換され(図13Aは図12から変換され)、決定された線形関数が確率状態とSliceQPYとの間の相関を最も良く適合させる最適な初期化パラメータは、力ずくの探索またはいくつかの他のよりスマートな方法によって発見される。同じ例について、SlopeIdxおよびOffsetIdxは、それぞれ、13および6であり(勾配が近似的に1.25であり、交点が32であり)、対応する最良適合線形関数を図13Bにプロットする。
[0097] 本開示の技法によれば、初期確率状態は、算術コーディングエンジンと調和するために線形領域中にある。同じ例について、線形領域中での確率状態によって表される事前知識が図14Aに示されており、これは、単に、図12のスケーリングされたバージョンである。明確化の簡単のために、7ビットの精度が対数状態と線形確率状態との両方のために使用されることに注意されたい。しかしながら、他の例では、他のビット精度が使用され得る。
[0098] 図13Aと図14Aとの比較は、確率状態が、線形領域中で変化するより対数領域中でSliceQPYとともにはるかに穏やかに変化することを示し、これは、対数領域中での確率状態をうまく適合させる平坦な線が、線形領域中ではかなり急になり得ることを意味する。図14Aに示されている確率状態に関して、HEVCおよび現在のVVCにおいて定義されている初期化プロセスを変更することなしに(式(1)~(3)を参照されたい)、力ずくの探索によって発見することができる最良の初期化パラメータは、図14Bに示されているように、15に等しいSlopeIdxおよび4に等しいOffsetIdxであり、それで、最大の有効な勾配1.88が達成される。しかしながら、線は、良好な適合を達成するのにはまだ十分に急でないことがある。勾配と交点との増加した探索範囲を用いて、図14Cに示されているように、より良い適合が発見され得、ここで、勾配は、3.25であり、交点は-23であり、いずれも、HEVCと現在のVVCとが許容する限界を上回る。
[0099] 例(図12~図14C)は例外ではなく典型的であることに注意されたい。ビンの良好な数は、そのような種類の確率分布を有する。したがって、勾配およびオフセットの範囲は、SliceQPYと現在線形領域中にある確率状態との相関を適合させるために線形モデルを使用するために増加されなければならない。
[0100] 一例では、可能な勾配および交点の値の数は変化しない(すなわち、SlopeIdxおよびOffsetIdxは依然として0~15にわたる)が、それらの間のステップサイズが増加し、これは、それぞれ、式(6)における定数aが式(1)における5よりも大きく、式(7)におけるbが式(2)における3よりも大きいことを意味する。
[0101] 別の例では、可能な勾配および交点値の数が増加する。たとえば、SlopeIdxは0~31の範囲にあることができ、32の可能な勾配値をもたらす。上記の2つの例は、一緒に使用され得るか、または独立して使用され得る。
[0102] SliceQPYにおける交点を0に等しくないものとして定義する。勾配およびオフセットの増加した範囲を用いて線形確率状態の要求に応えることのほかに、SliceQPYにおける交点を0に等しくないものとして定義することが代替のまたは追加の方法である。たとえば、図15Aは、Bスライスにおいて使用されるSplitFlagの確率分布を示す。対数領域では、図15Bに示されているように、SliceQPYに関する確率状態は、-0.63に等しい勾配および88に等しい交点(すなわち、HEVCおよび現在のVVCにおいて定義されているSlopeIdx7およびOffsetIdx13)を用いる線形関数によってうまくモデル化され得る。しかしながら、線形領域中では、確率状態は、HEVCおよび現在のVVCにおいて定義されている有効な勾配/交点の組合せによってうまくモデル化されないことがある。図15Cは、力ずくの探索によって発見される最も近接した適合を示し、ここで、勾配は、-0.94に等しく、交点は、104に等しい(すなわち、SlopeIdx6およびOffsetIdx15である)。図15Dに示されているように、別の有効な勾配-1.88(SlopeIdx3)は、より良い適合を達成するが、y軸への投影(すなわち、0に等しいSliceQPYにおける交点)は104の上限をはるかに越えた130である。
[0103] 式(3)に上記で示されているように、いくつかの例では、初期確率状態は、変数mにSliceQPYを乗算することによって部分的に決定され得る。式(3)の例では、確率状態の線形モデルは、SliceQPYが0である点において定義される。
[0104] 本開示の1つまたは複数の技法によれば、ビデオコーダは、確率状態の線形モデルが0以外のSliceQPYの値において定義されるようにオフセットを利用し得る。確率状態が定義される線形モデル上の点は、量子化パラメータアンカーポイント(QPanchor)と呼ばれることがある。たとえば、ビデオコーダは、SliceQPYからオフセットを減算し、結果に変数mを乗算し得る。一例では、これは、以下に示されるように式(3)を式(8)に修正することによって達成され得る。
ここで、QPanchorは、交点が定義されるQP値である。このようにして、交点は、確率状態の有効範囲(この例では1~127)を超えないことがあり、特に勾配が急であるとき、y軸における大きい投影の考慮事項が除去される。図15Dでは、SlopeIdxは3に等しく、QPanchorは32であり、QPanchorにおける交点は72である。QPanchorの他の値は、限定はしないが、8、16、64、128などを含む。
[0105] 線形関数のために代替表現を使用する。上記で説明された例では、SliceQPYを用いて確率状態をモデル化するために使用される線形関数は、HEVCおよび現在のVVCと同じである勾配と交点とのペアによって決定される。このセクションは、線形関数のための代替表現を提案し、ここで、線関数は、2つの異なるQPにおける2つの交点によって決定される。勾配/交点表現と比較して、この二重交点表現により、算術シーケンスの形態にないはるかに多い勾配値が可能になるので、適合により多くの柔軟性を与える。
[0106] 2つの交点と2つの対応するQPとを、それぞれ、int1、int2、QP1およびQP2として示す。QP1およびQP2は、それらが現在のVVCにおいて定義されている有効範囲(0~63)内にある限り任意である。しかしながら、InitProbStateが、下記のように式(9)または式(10)によって計算されるので(明確化の簡単のために中間クリッピングおよびシフト動作はここでは考慮されないことに留意されたい。)、
QP1とQP2との差(difference)は、整数2の累乗であるほうがよく、したがって、式(9)および式(10)における除算は、右シフトによって置き換えられ得る。
[0107] 二重交点表現は、区分的線形関数を決定する複数の交点表現にさらに拡張され得る。1つのそのような一例は、ルーマSigFlagからのビンであり、図16A~図16Cを参照されたく、ここで、転換点は、30または31のあたりのQPにおいて発生し、勾配/交点のペアまたは二重交点によって決定される直線は、適合のために十分に良好ではない(図16Aを参照されたい)。この場合、三重交点表現が提案され、これは、それぞれ、31に等しいQPにおける交点と31よりも小さいおよびそれよりも大きいQPにおける2つの他の交点と(図16Bを参照されたい)の3つの初期化パラメータを使用する。さらにより正確に確率分布を適合させるために、四重交点表現が使用され得、ここで、37に等しいQPにおける交点を表す追加の初期化パラメータが別の小さい転換点を捕捉するために使用される(図16Cを参照されたい)。
[0108] より高い中間精度を保つ。上記の例は、式(1)~(3)に修正を導入し、線形領域中でのInitProbStateを導出する。InitProbStateは、HEVCレガシーにより依然として7ビットの精度(0~127)を有し、式(11)および(12)の場合のように現在のVVCにおいて定義されているProbabilityStateLおよびProbabilityStateHの精度と整合させるために3ビットおよび7ビット左シフトされる必要がある。
[0109] 式(4)および(5)の直前の表ルックアップステップがこの技法では節約されることに注意されたい。
[0110] InitProbState(式(3)を参照されたい)を導出するために右シフトを適用し、その後左シフト(式(11)および(12)を参照されたい)を適用することは、最後のステップに右シフトのすべて(または部分)を移動することよりも多くの情報を確実に紛失することになり、これは、後者がより高い中間精度を維持するためである。以下の2つの例は、最後のステップに右シフトのすべてを移動する。
一例では、
別の例では、
[0111] CE1関連:初期化値ごとに4または6ビットを使用するJVET-O0191の簡略化、JVET-O0946、Gothenburg、Sweden、2019年7月3~12日(以下、「JVET-O0946」)は、初期化のための以下の技法を提案する。
[0112] しかしながら、JVET-O0946で提案される技法は、1つまたは複数の欠点を提示し得る。たとえば、JVET-O0946で提案される技法は、ある程度の中間精度を失い得る。
[0113] 本開示の1つまたは複数の技法によれば、ビデオコーダは、次のように初期化を実行し得る。
[0114] 上記でわかるように、最終ステップ(すなわち、ProbabilityStateLを計算する)まで右シフトを移動することによって、上記の技法は、高い中間精度を可能にする。
[0115] 2次領域中での初期化。上記の例は、初期化プロセスの出力が線形領域中での確率状態を表すシナリオのためのものであり得る。しかしながら、いくつかの入力ソースのために、線形領域中でのエントロピーを表すことに対応する、対数領域中での確率を確率状態に表させることが望ましいことがある。対数領域中での表現を達成するために、本開示は、2次領域中での確率状態を使用することを提案する。図17Aおよび図17Bは、2次領域InitProbStateからVVCの算術コーディングエンジンにおいて使用される線形確率へのマッピングの一例を示し、これは、対数のInitProbStateのためのマッピングのように見える(図11A~図11Bを参照されたい)が、乗算によって実装され得る(ある実装によって選好される場合、すべての可能な乗算結果を記憶するLUTが使用のために前もって生成され得ることに留意されたい)。下記は、一例である、
ここで、initIdは、それぞれ、勾配およびオフセットを表す上位および下位ニブルをもつ初期化値であり、idxは、8ビットの精度をもち、0を中心とする確率状態を意味する。
[0116] このセクション中で提案される方法が、上記で紹介されたより高い中間精度を使用することと組み合わされ得ることに留意されたい。
[0117] 極値確率分布のための初期化。多数のビンは、極値確率分布を有し得、これらのビンがSliceQPYにかかわらず1または0である極めて高い確率を有することを意味する。図18Aおよび図18Bは、極値確率分布の例を示すグラフである。
[0118] そのような極値確率分布をモデル化するために、勾配は、0である必要があり得、初期確率状態は、nのみに依存し得る(式(2)および(7)を参照されたい)。したがって、初期確率状態は、量子化パラメータ(QP)とともに変化しないことがある。nを導出する式は、式(2)または式(7)の場合のように、0および1に接近する確率がいずれも効率的に表されるように設計され得る。以下の例は、確率状態の7ビット表現(0~127)に基づき、他の精度に拡張され得る。
[0119] 式(2)を一例として取る。0~15にわたるOffsetIdxでは、到達され得るnの最大値は、104であり、確率0.8189(すなわち、104/128)を表し、これは、1.0から離れている。
[0120] 「Simplification of the initialization process for context variables」、JVET-N0301、Geneva、CH、2019年3月19~27日では、nは、式(19)の場合のように、0~7にわたるOffsetIdxをもつ10ビットの精度で導出される。
[0121] nのそれの等価な7ビット表現が式(20)に示される。
ここで、それが達することができる0に最も近い確率は、0.0313(0に等しいOffsetIdxおよび4に等しいn、4/128=0.0313)であり、それが達することができる1.0に最も近い確率は、0.9688(6に等しいOffsetIdxおよび124に等しいn、124/128=0.9688)である。しかしながら、そのような近似は、極値確率分布を表すのに十分正確でないことがある。
[0122] 本開示の1つまたは複数の技法によれば、ビデオコーダは、初期化パラメータ(たとえば、n)を導出するために以下の式のうちの1つまたは複数を利用し得る。
1. OffsetIdxが3ビット(0~7)である場合、nは式(21)に示されるように導出され得る。
2. OffsetIdxが4ビット(0~15)である場合、nは式(22)に示されるように導出され得る。
[0123] わかるように、いずれの場合も、nは、1および127に達することができ、0.0078(すなわち、1/128)および0.9922(すなわち、127/128)の確率が到達され得ることを意味する。そのような確率は、それぞれ、0および1に十分に近似し得る。このようにして、本開示の技法は、ビデオコーダが極値確率分布をより正確に初期化することを可能にし、これは、コーディングされたビデオデータのビットレート(bitrate)を低減し得る。
[0124] いくつかの例では、m、n、および/またはinitStateは、以下の式のうちの1つに従って決定され得る。
[0125] 図4Aと図4Bとは、例示的な4分木2分木(QTBT:quadtree binary tree)構造130と、対応するコーディングツリーユニット(CTU:coding tree unit)132とを示す概念図である。実線は4分木分割を表し、点線は2分木分割を示す。2分木の分割された各(すなわち、非リーフ)ノードにおいて、どの分割タイプ(すなわち、水平または垂直)が使用されるのかを示すために1つのフラグがシグナリングされ、ここで、この例では、0は水平分割を示し、1は垂直分割を示す。4分木分割の場合、4分木ノードは、サイズが等しい4つのサブブロックに、水平および垂直にブロックを分割するので、分割タイプを示す必要がない。したがって、QTBT構造130の領域ツリーレベル(すなわち、第1のレベル)(すなわち、実線)についての(分割情報などの)シンタックス要素と、QTBT構造130の予測ツリーレベル(すなわち、第2のレベル)(すなわち、破線)についての(分割情報などの)シンタックス要素とを、ビデオエンコーダ200は符号化し得、ビデオデコーダ300は復号し得る。QTBT構造130の端末リーフノードによって表されるCUについての、予測および変換データなどのビデオデータを、ビデオエンコーダ200は符号化し得、ビデオデコーダ300は復号し得る。
[0126] 概して、図4BのCTU132は、第1および第2のレベルにおいてQTBT構造130のノードに対応するブロックのサイズを定義するパラメータに関連付けられ得る。これらのパラメータは、(サンプル単位でCTU132のサイズを表す)CTUサイズと、最小4分木サイズ(最小許容4分木リーフノードサイズを表す、MinQTSize)と、最大2分木サイズ(最大許容2分木ルートノードサイズを表す、MaxBTSize)と、最大2分木深度(最大許容2分木深度を表す、MaxBTDepth)と、最小2分木サイズ(最小許容2分木リーフノードサイズを表す、MinBTSize)とを含み得る。
[0127] CTUに対応するQTBT構造のルートノードは、QTBT構造の第1のレベルにおいて4つの子ノードを有し得、それらの各々は、4分木区分に従って区分され得る。すなわち、第1のレベルのノードは、(子ノードを有しない)リーフノードであるか、あるいは4つの子ノードを有する。QTBT構造130の例は、ブランチのために実線を有する親ノードと子ノードとを含むようなノードを表す。第1のレベルのノードは、最大許容2分木ルートノードサイズ(MaxBTSize)よりも大きくない場合、それぞれの2分木によってさらに区分され得る。1つのノードの2分木分割は、分割から得られるノードが最小許容2分木リーフノードサイズ(MinBTSize)または最大許容2分木深度(MaxBTDepth)に到達するまで反復され得る。QTBT構造130の例は、ブランチのために破線を有するようなノードを表す。2分木リーフノードは、コーディングユニット(CU)と呼ばれ、コーディングユニット(CU)は、それ以上区分することなく、予測(たとえば、イントラピクチャ予測またはインターピクチャ予測)および変換のために使用される。上記で論じられたように、CUは「ビデオブロック」または「ブロック」と呼ばれることもある。
[0128] QTBT区分構造の一例では、CTUサイズは、128×128(ルーマサンプルおよび2つの対応する64×64クロマサンプル)として設定され、MinQTSizeは16×16として設定され、MaxBTSizeは64×64として設定され、(幅と高さの両方について)MinBTSizeは4として設定され、MaxBTDepthは4として設定される。4分木リーフノードを生成するために、最初に4分木区分がCTUに適用される。4分木リーフノードは、16×16(すなわち、MinQTSize)から128×128(すなわち、CTUサイズ)までのサイズを有し得る。4分木リーフノードは、128×128である場合、サイズがMaxBTSize(すなわち、この例では64×64)を上回るので、2分木によってそれ以上分割されない。そうでない場合、4分木リーフノードは、2分木によってさらに区分される。したがって、4分木リーフノードはまた、2分木のためのルートノードであり、0としての2分木深度を有する。2分木深度がMaxBTDepth(この例では4)に達したとき、さらなる分割は許可されない。2分木ノードがMinBTSize(この例では4)に等しい幅を有するとき、それは、さらなる水平分割が許可されないことを暗示する。同様に、MinBTSizeに等しい高さを有する2分木ノードは、その2分木ノードに対してさらなる垂直分割が許されないことを暗示する。上述のように、2分木のリーフノードはCUと呼ばれ、それ以上区分することなく予測および変換に従ってさらに処理される。
[0129] 図5は、本開示の技法を実行し得る例示的なビデオエンコーダ200を示すブロック図である。図5は、説明のために提供されるものであり、本開示で広く例示され説明される技法を限定するものと見なされるべきではない。説明の目的で、本開示では、HEVCビデオコーディング規格および開発中のH.266ビデオコーディング規格などのビデオコーディング規格のコンテキストにおいて、ビデオエンコーダ200について説明する。しかしながら、本開示の技法は、これらのビデオコーディング規格に限定されず、一般的にビデオ符号化および復号に適用可能である。
[0130] 図5の例では、ビデオエンコーダ200は、ビデオデータメモリ230と、モード選択ユニット202と、残差生成ユニット204と、変換処理ユニット206と、量子化ユニット208と、逆量子化ユニット210と、逆変換処理ユニット212と、再構築ユニット214と、フィルタユニット216と、復号ピクチャバッファ(DPB:decoded picture buffer)218と、エントロピー符号化ユニット220とを含む。ビデオデータメモリ230と、モード選択ユニット202と、残差生成ユニット204と、変換処理ユニット206と、量子化ユニット208と、逆量子化ユニット210と、逆変換処理ユニット212と、再構築ユニット214と、フィルタユニット216と、DPB218と、エントロピー符号化ユニット220とのいずれかまたはすべては、1つまたは複数のプロセッサまたは処理回路において実装され得る。その上、ビデオエンコーダ200は、これらおよび他の機能を実行するための追加または代替のプロセッサまたは処理回路を含み得る。
[0131] ビデオデータメモリ230は、ビデオエンコーダ200の構成要素によって符号化されるべきビデオデータを記憶し得る。ビデオエンコーダ200は、たとえば、ビデオソース104(図1)から、ビデオデータメモリ230に記憶されたビデオデータを受信し得る。DPB218は、ビデオエンコーダ200による後続のビデオデータの予測において使用するための参照ビデオデータを記憶する参照ピクチャメモリとして働き得る。ビデオデータメモリ230およびDPB218は、同期DRAM(SDRAM)を含むダイナミックランダムアクセスメモリ(DRAM)、磁気抵抗RAM(MRAM)、抵抗性RAM(RRAM(登録商標))、または他のタイプのメモリデバイスなどの、様々なメモリデバイスのいずれかによって形成され得る。ビデオデータメモリ230とDPB218とは、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、ビデオデータメモリ230は、図示のように、ビデオエンコーダ200の他の構成要素とともにオンチップであるか、またはそれらの構成要素に対してオフチップであり得る。
[0132] 本開示では、ビデオデータメモリ230への言及は、特にそのように説明されない限り、ビデオエンコーダ200の内部のメモリに限定されるものとして解釈されるべきではなく、または特にそのように説明されない限り、ビデオエンコーダ200の外部のメモリに限定されるものとして解釈されるべきではない。そうではなく、ビデオデータメモリ230への言及は、ビデオエンコーダ200が符号化のために受信するビデオデータ(たとえば、符号化されるべきである現在のブロックのビデオデータ)を記憶する参照メモリとして理解されたい。図1のメモリ106はまた、ビデオエンコーダ200の様々なユニットからの出力の一時的記憶を提供し得る。
[0133] 図5の様々なユニットは、ビデオエンコーダ200によって実行される動作を理解するのを支援するために示されている。ユニットは、固定機能回路、プログラマブル回路、またはそれらの組合せとして実装され得る。固定機能回路は、特定の機能を与える回路を指し、実行され得る動作に関してあらかじめ設定される。プログラマブル回路は、様々なタスクを実行するようにプログラムされ得る回路を指し、実行され得る動作中にフレキシブルな機能を与える。たとえば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義された方式でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、(たとえば、パラメータを受信するかまたはパラメータを出力するための)ソフトウェア命令を実行し得るが、固定機能回路が実行する動作のタイプは、概して不変である。いくつかの例では、ユニットのうちの1つまたは複数は、別個の回路ブロック(固定機能またはプログラマブル)であり得、いくつかの例では、1つまたは複数のユニットは集積回路であり得る。
[0134] ビデオエンコーダ200は、プログラマブル回路から形成される論理演算装置(ALU)、初等関数ユニット(EFU)、デジタル回路、アナログ回路、および/またはプログラマブルコアを含み得る。ビデオエンコーダ200の動作が、プログラマブル回路によって実行されるソフトウェアを使用して実行される例では、メモリ106(図1)は、ビデオエンコーダ200が受信し実行するソフトウェアのオブジェクトコードを記憶し得るか、またはビデオエンコーダ200内の別のメモリ(図示されず)が、そのような命令を記憶し得る。
[0135] ビデオデータメモリ230は、受信されたビデオデータを記憶するように構成される。ビデオエンコーダ200は、ビデオデータメモリ230からビデオデータのピクチャを取り出し、残差生成ユニット204とモード選択ユニット202とにビデオデータを提供し得る。ビデオデータメモリ230中のビデオデータは、符号化されるべきである生のビデオデータであり得る。
[0136] モード選択ユニット202は、動き推定ユニット222と、動き補償ユニット224と、イントラ予測ユニット226とを含む。モード選択ユニット202は、他の予測モードに従ってビデオ予測を実行するための追加の機能ユニットを含み得る。例として、モード選択ユニット202は、パレットユニット、(動き推定ユニット222および/または動き補償ユニット224の一部であり得る)イントラブロックコピーユニット、アフィンユニット、線形モデル(LM)ユニットなどを含み得る。
[0137] モード選択ユニット202は、概して、符号化パラメータの組合せをテストするために複数の符号化パスを協調させ、そのような組合せのためのレートひずみ値を生じる。符号化パラメータは、CUへのCTUの区分、CUのための予測モード、CUの残差データのための変換タイプ、CUの残差データのための量子化パラメータなどを含み得る。モード選択ユニット202は、他のテストされた組合せよりも良好であるレートひずみ値を有する符号化パラメータの組合せを最終的に選択し得る。
[0138] ビデオエンコーダ200は、一連のCTUにビデオデータメモリ230から取り出されたピクチャを区分し、スライス内の1つまたは複数のCTUをカプセル化し得る。モード選択ユニット202は、上で説明されたHEVCのQTBT構造または4分木構造などの木構造に従ってピクチャのCTUを区分し得る。上で説明されたように、ビデオエンコーダ200は、木構造に従ってCTUを区分することから1つまたは複数のCUを形成し得る。そのようなCUは、一般に「ビデオブロック」または「ブロック」と呼ばれることもある。
[0139] 概して、モード選択ユニット202はまた、現在のブロック(たとえば、現在のCUまたはHEVCでは、PUおよびTUの重複部分)のための予測ブロックを生成するためにそれの構成要素(たとえば、動き推定ユニット222、動き補償ユニット224、およびイントラ予測ユニット226)を制御する。現在のブロックのインター予測のために、動き推定ユニット222は、1つまたは複数の参照ピクチャ(たとえば、DPB218に記憶されている1つまたは複数の以前のコーディングされたピクチャ)の中で1つまたは複数の厳密に一致する参照ブロックを特定するために動き探索を実行し得る。特に、動き推定ユニット222は、たとえば、絶対差分和(SAD)、2乗差分和(SSD)、平均絶対差(MAD)、平均2乗差(MSD)などに従って、現在のブロックに対して潜在的な参照ブロックがどのくらい類似しているかを表す値を計算し得る。動き推定ユニット222は、一般に、現在のブロックと考慮されている参照ブロックとの間のサンプルごとの差分を使用してこれらの計算を実行し得る。動き推定ユニット222は、現在のブロックに最も厳密に一致する参照ブロックを示す、これらの計算から得られた最も低い値を有する参照ブロックを識別し得る。
[0140] 動き推定ユニット222は、現在のピクチャ中の現在のブロックの位置に対して参照ピクチャ中の参照ブロックの位置を定義する1つまたは複数の動きベクトル(MV:motion vector)を形成し得る。動き推定ユニット222は、次いで、動きベクトルを動き補償ユニット224に提供し得る。たとえば、単方向インター予測では、動き推定ユニット222は、単一の動きベクトルを提供し得るが、双方向インター予測では、動き推定ユニット222は、2つの動きベクトルを提供し得る。動き補償ユニット224は、次いで、動きベクトルを使用して予測ブロックを生成し得る。たとえば、動き補償ユニット224は、動きベクトルを使用して参照ブロックのデータを取り出し得る。別の例として、動きベクトルが部分サンプル精度を有する場合、動き補償ユニット224は、1つまたは複数の補間フィルタに従って予測ブロックの値を補間し得る。その上、双方向インター予測の場合、動き補償ユニット224は、それぞれの動きベクトルによって特定される2つの参照ブロックのためのデータを取り出し、たとえば、サンプルごとの平均化または重み付け平均化を通じて、取り出されたデータを組み合わせ得る。
[0141] 別の例として、イントラ予測、またはイントラ予測コーディングのために、イントラ予測ユニット226は、現在のブロックに隣接しているサンプルから予測ブロックを生成し得る。たとえば、方向性モードでは、イントラ予測ユニット226は、隣接サンプルの値を概して数学的に組み合わせ、現在のブロックにわたって規定の方向にこれらの計算された値をポピュレートして、予測ブロックを生成し得る。別の例として、DCモードでは、イントラ予測ユニット226は、現在のブロックに対する隣接サンプルの平均を計算し、予測ブロックのサンプルごとにこの得られた平均を含むように予測ブロックを生成し得る。
[0142] モード選択ユニット202は、予測ブロックを残差生成ユニット204に提供する。残差生成ユニット204は、ビデオデータメモリ230から現在のブロックの未加工の、コーディングされていないバージョンを受信し、モード選択ユニット202から予測ブロックを受信する。残差生成ユニット204は、現在のブロックと予測ブロックとの間のサンプルごとの差を計算する。得られたサンプルごとの差分は、現在のブロックのための残差ブロックを定義する。いくつかの例では、残差生成ユニット204はまた、残差差分パルスコード変調(RDPCM:residual differential pulse code modulation)を使用して残差ブロックを生成するために残差ブロック中のサンプル値の間の差を決定し得る。いくつかの例では、残差生成ユニット204は、バイナリ減算を実行する1つまたは複数の減算器回路を使用して形成され得る。
[0143] モード選択ユニット202がCUをPUに区分する例では、各PUは、ルーマ予測ユニットと対応するクロマ予測ユニットとに関連付けられ得る。ビデオエンコーダ200とビデオデコーダ300とは、様々なサイズを有するPUをサポートし得る。上記のように、CUのサイズは、CUのルーマコーディングブロックのサイズを指すことがあり、PUのサイズは、PUのルーマ予測ユニットのサイズを指すことがある。特定のCUのサイズが2N×2Nであると想定すると、ビデオエンコーダ200は、イントラ予測について2N×2NまたはN×NというPUサイズと、インター予測について2N×2N、2N×N、N×2N、N×N、または類似の対称的なPUサイズとをサポートし得る。ビデオエンコーダ200とビデオデコーダ300とはまた、インター予測のための2N×nU、2N×nD、nL×2N、およびnR×2NのPUサイズの非対称的区分をサポートし得る。
[0144] モード選択ユニットがCUをPUにさらに区分しない例では、各CUは、ルーマコーディングブロックと、対応するクロマコーディングブロックとに関連付けられ得る。上記のように、CUのサイズは、CUのルーマコーディングブロックのサイズを指し得る。ビデオエンコーダ200とビデオデコーダ300とは、2N×2N、2N×N、またはN×2NのCUサイズをサポートし得る。
[0145] いくつかの例として、イントラブロックコピーモードコーディング、アフィンモードコーディング、および線形モデル(LM)モードコーディングなどの他のビデオコーディング技法の場合、モード選択ユニット202は、コーディング技法に関連するそれぞれのユニットを介して、符号化されている現在のブロックのための予測ブロックを生成する。パレットモードコーディングなどのいくつかの例では、モード選択ユニット202は、予測ブロックを生成しなくてよく、代わりに、選択されたパレットに基づいてブロックを再構成するための方式を示すシンタックス要素を生成し得る。そのようなモードでは、モード選択ユニット202は、符号化されるべきこれらのシンタックス要素をエントロピー符号化ユニット220に提供し得る。
[0146] 上記で説明したように、残差生成ユニット204は、現在のブロックに対するビデオデータと、対応する予測ブロックとを受信する。残差生成ユニット204は、次いで、現在のブロックに対する残差ブロックを生成する。残差ブロックを生成するために、残差生成ユニット204は、予測ブロックと現在のブロックとの間のサンプルごとの差分を計算する。
[0147] 変換処理ユニット206は、(本明細書では「変換係数ブロック(transform coefficient block)」と呼ぶ)変換係数のブロックを生成するために残差ブロックに1つまたは複数の変換を適用する。変換処理ユニット206は、変換係数ブロックを形成するために、残差ブロックに様々な変換を適用し得る。たとえば、変換処理ユニット206は、離散コサイン変換(DCT)、方向変換、カルーネンレーベ変換(KLT)、または概念的に同様の変換を残差ブロックに適用し得る。いくつかの例では、変換処理ユニット206は、残差ブロックに複数の変換、たとえば、回転変換など1次変換および2次変換を実行し得る。いくつかの例では、変換処理ユニット206は、残差ブロックに変換を適用しない。
[0148] 量子化ユニット208は、量子化変換係数ブロックを生成するために変換係数ブロック中の変換係数を量子化し得る。量子化ユニット208は、現在のブロックと関連付けられる量子化パラメータ(QP)値に従って変換係数ブロックの変換係数を量子化し得る。ビデオエンコーダ200は、(たとえば、モード選択ユニット202を介して)CUに関連するQP値を調整することによって現在のブロックに関連する変換係数ブロックに適用される量子化の程度を調整し得る。量子化は情報の損失をもたらし得、したがって、量子化変換係数は、変換処理ユニット206によって生成された元の変換係数よりも低い精度を有し得る。
[0149] 逆量子化ユニット210および逆変換処理ユニット212は、変換係数ブロックから残差ブロックを再構築するために、それぞれ、量子化変換係数ブロックに逆量子化および逆変換を適用し得る。再構築ユニット214は、再構築された残差ブロックとモード選択ユニット202によって生成された予測ブロックとに基づいて(潜在的にある程度のひずみを伴うが)現在のブロックに対応する再構築されたブロックを生成し得る。たとえば、再構築ユニット214は、再構築されたブロックを生成するために、モード選択ユニット202によって生成された予測ブロックからの対応するサンプルに、再構築された残差ブロックのサンプルを加算し得る。
[0150] フィルタユニット216は、再構築されたブロックに対して1つまたは複数のフィルタ演算を実行し得る。たとえば、フィルタユニット216は、CUのエッジに沿ってブロッキネスアーティファクト(blockiness artifact)を低減するためのデブロッキング動作を実行し得る。フィルタユニット216の動作は、いくつかの例では、スキップされ得る。
[0151] ビデオエンコーダ200は、DPB218中に再構築されたブロックを記憶する。たとえば、フィルタユニット216の動作が必要とされない例において、再構築ユニット214は、再構築されたブロックをDPB218に記憶し得る。フィルタユニット216の動作が必要とされる例では、フィルタユニット216は、フィルタリングされた再構築されたブロックをDPB218に記憶し得る。動き推定ユニット222および動き補償ユニット224は、後で符号化されるピクチャのブロックをインター予測するために、再構築(および潜在的にフィルタリング)されたブロックから形成された参照ピクチャをDPB218から取り出し得る。加えて、イントラ予測ユニット226は、現在のピクチャの中の他のブロックをイントラ予測するために、現在のピクチャのDPB218の中の再構築されたブロックを使用し得る。
[0152] 概して、エントロピー符号化ユニット220は、ビデオエンコーダ200の他の機能構成要素から受信されたシンタックス要素をエントロピー符号化し得る。たとえば、エントロピー符号化ユニット220は、量子化ユニット208からの量子化された変換係数ブロックをエントロピー符号化し得る。別の例として、エントロピー符号化ユニット220は、モード選択ユニット202からの予測シンタックス要素(たとえば、インター予測のための動き情報またはイントラ予測のためのイントラモード情報)をエントロピー符号化し得る。エントロピー符号化ユニット220は、エントロピー符号化されたデータを生成するためにビデオデータの別の例であるシンタックス要素に対して1つまたは複数のエントロピー符号化動作を実行し得る。たとえば、エントロピー符号化ユニット220は、コンテキスト適応型可変長コーディング(CAVLC:context-adaptive variable length coding)動作、CABAC動作、可変対可変(V2V:variable-to-variable)長コーディング動作、シンタックスベースコンテキスト適応型バイナリ算術コーディング(SBAC:syntax-based context-adaptive binary arithmetic coding)動作、確率間隔区分エントロピー(PIPE:Probability Interval Partitioning Entropy)コーディング動作、指数ゴロム符号化動作(Exponential-Golomb encoding operation)、または別のタイプのエントロピー符号化動作をデータに対して実行し得る。いくつかの例では、エントロピー符号化ユニット220は、シンタックス要素がエントロピー符号化されないバイパスモードで動作し得る。
[0153] 図6は、本開示の技法による、CABACを実行するように構成され得る例示的なエントロピー符号化ユニット220のブロック図である。シンタックス要素1180がエントロピー符号化ユニット220に入力される。シンタックス要素がすでにバイナリ値シンタックス要素(たとえば、フラグ、または0および1の値のみを有する他のシンタックス要素)である場合、2値化のステップはスキップされ得る。シンタックス要素が非バイナリ値シンタックス要素(たとえば、1または0以外の値を有し得るシンタックス要素)である場合、非バイナリ値シンタックス要素はバイナライザ(binarizer)1200によって2値化される。バイナライザ1200は、バイナリ決定のシーケンスへの非バイナリ値シンタックス要素のマッピングを実行する。これらのバイナリ決定は、しばしば「ビン」と呼ばれる。たとえば、変換係数レベルでは、レベルの値は連続するビンに分けられ得、各ビンは、係数レベルの絶対値がある値よりも大きいか否かを示す。たとえば、(有意性フラグと呼ばれることがある)ビン0は、変換係数レベルの絶対値が0よりも大きいか否かを示す。ビン1は、変換係数レベルの絶対値が1よりも大きいか否かを示す、などである。各非バイナリ値シンタックス要素について、一意のマッピングが作成され得る。
[0154] バイナライザ1200によって生成された各ビンは、エントロピー符号化ユニット220のバイナリ算術コーディング側に供給される。すなわち、非バイナリ値シンタックス要素の所定のセットについて、各ビンタイプ(たとえば、ビン0)が次のビンタイプ(たとえば、ビン1)の前にコーディングされる。コーディングは、通常モード(regular mode)またはバイパスモード(bypass mode)のいずれかで実行され得る。バイパスモードでは、バイパス符号化エンジン1260が、固定確率モデルを使用して、たとえば、ゴロム-ライスまたは指数ゴロムコーディングを使用して、算術コーディングを実行する。バイパスモードは、概して、より予測可能なシンタックス要素のために使用される。
[0155] 通常モードでのコーディングは、CABACを実行することを伴う。正規モードCABACは、ビンの値の確率が、前にコーディングされたビンの値を与えられれば予測可能である場合に、ビン値をコーディングするためのものである。ビンがLPSである確率がコンテキストモデラ(context modeler)1220によって決定される。コンテキストモデラ1220は、ビン値とコンテキストのための確率状態(たとえば、LPSの値と、LPSが発生する確率とを含む確率状態σ)とを出力する。コンテキストは、一連のビンのための初期コンテキストであり得るか、または前にコーディングされたビンのコード化値に基づいて決定され得る。上記で説明されたように、コンテキストモデラ1220は、受信されたビンがMPSであったのかLPSであったのか否かに基づいて状態を更新し得る。コンテキストおよび確率状態σがコンテキストモデラ1220によって決定された後、通常符号化エンジン1240はビン値に対してBACを実行する。
[0156] 図5に戻ると、ビデオエンコーダ200は、スライスまたはピクチャのブロックを再構築するために必要なエントロピー符号化されたシンタックス要素を含むビットストリームを出力し得る。特に、エントロピー符号化ユニット220がビットストリームを出力し得る。
[0157] 上記で説明された動作について、ブロックに関して説明する。そのような説明は、ルーマコーディングブロックおよび/またはクロマコーディングブロックのための動作であるものとして理解されるべきである。上で説明されたように、いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、CUのルーマ成分およびクロマ成分である。いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、PUのルーマおよびクロマ成分である。
[0158] いくつかの例では、ルーマコーディングブロックに関して実行される動作は、クロマコーディングブロックのために繰り返される必要はない。一例として、ルーマコーディングブロックのための動きベクトル(MV)と参照ピクチャとを識別するための動作は、クロマブロックのためのMVと参照ピクチャとを識別するために繰り返される必要はない。むしろ、ルーマコーディングブロックのためのMVは、クロマブロックのためのMVを決定するためにスケーリングされ得、参照ピクチャは同じであり得る。別の例として、イントラ予測プロセスは、ルーマコーディングブロックとクロマコーディングブロックとに対して同じであり得る。
[0159] ビデオエンコーダ200は、ビデオデータを記憶するように構成されたメモリと、回路中に実装された1つまたは複数の処理ユニットとを含むビデオデータを符号化するように構成されたデバイスの一例を表し、1つまたは複数の処理ユニットは、ビデオデータのスライス中のシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちのコンテキストのためのあらかじめ定義されたスロープインデックス(たとえば、SlopeIdx)とあらかじめ定義されたオフセットインデックス(たとえば、OffsetIdx)とを取得することと、あらかじめ定義されたスロープインデックスとあらかじめ定義されたオフセットインデックスとに基づいて、ビデオデータのスライスのためのコンテキストの初期確率状態を決定することと、コンテキストの初期確率状態に基づいて、シンタックス要素のための値のビンをエントロピー符号化することとを行うように構成される。
[0160] 図7は、本開示の技法を実行し得る例示的なビデオデコーダ300を示すブロック図である。図7は、説明を目的に提供されるものであり、本開示において広く例示され説明される技法を限定するものではない。説明の目的で、本開示では、JEMと、VVCと、HEVCとの技法に従ってビデオデコーダ300について説明する。しかしながら、本開示の技法は、他のビデオコーディング規格に構成されたビデオコーディングデバイスによって実行され得る。
[0161] 図7の例では、ビデオデコーダ300は、コード化ピクチャバッファ(CPB:coded picture buffer)メモリ320と、エントロピー復号ユニット302と、予測処理ユニット304と、逆量子化ユニット306と、逆変換処理ユニット308と、再構築ユニット310と、フィルタユニット312と、復号ピクチャバッファ(DPB)314とを含む。CPBメモリ320と、エントロピー復号ユニット302と、予測処理ユニット304と、逆量子化ユニット306と、逆変換処理ユニット308と、再構築ユニット310と、フィルタユニット312と、DPB314とのいずれかまたはすべては、1つまたは複数のプロセッサまたは処理回路において実装され得る。その上、ビデオデコーダ300は、これらおよび他の機能を実行するために、追加または代替のプロセッサもしくは処理回路を含み得る。
[0162] 予測処理ユニット304は、動き補償ユニット316と、イントラ予測ユニット318とを含む。予測処理ユニット304は、他の予測モードに従って予測を実行するための追加のユニットを含み得る。例として、予測処理ユニット304は、パレットユニット、(動き補償ユニット316の一部を形成し得る)イントラブロックコピーユニット、アフィンユニット、線形モデル(LM)ユニットなどを含み得る。他の例では、ビデオデコーダ300は、より多数の、より少数の、または異なる機能構成要素を含み得る。
[0163] CPBメモリ320は、ビデオデコーダ300の構成要素によって復号されるべき、符号化ビデオビットストリームなどのビデオデータを記憶し得る。CPBメモリ320に記憶されるビデオデータは、たとえば、コンピュータ可読媒体110(図1)から取得され得る。CPBメモリ320は、符号化されたビデオビットストリームからの符号化されたビデオデータ(たとえば、シンタックス要素)を記憶するCPBを含み得る。また、CPBメモリ320は、ビデオデコーダ300の様々なユニットからの出力を表す一時データなど、コーディングされたピクチャのシンタックス要素以外のビデオデータを記憶し得る。DPB314は、一般に、ビデオデコーダ300が符号化されたビデオビットストリームの後続のデータまたはピクチャを復号するときに出力しおよび/または参照ビデオデータとして使用し得る復号されたピクチャを記憶する。CPBメモリ320およびDPB314は、同期DRAM(SDRAM)を含むダイナミックランダムアクセスメモリ(DRAM)、磁気抵抗RAM(MRAM)、抵抗性RAM(RRAM)、または他のタイプのメモリデバイスなどの、様々なメモリデバイスのいずれかによって形成され得る。CPBメモリ320およびDPB314は、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、CPBメモリ320は、ビデオデコーダ300の他の構成要素とともにオンチップであるか、またはそれらの構成要素に対してオフチップであり得る。
[0164] 追加または代替として、いくつかの例では、ビデオデコーダ300は、メモリ120(図1)からコード化ビデオデータを取り出し得る。すなわち、メモリ120は、CPBメモリ320を用いて上記で論じられたデータを記憶し得る。同様に、メモリ120は、ビデオデコーダ300の機能の一部または全部が、ビデオデコーダ300の処理回路によって実行されるべきソフトウェアにおいて実装されたとき、ビデオデコーダ300によって実行されるべき命令を記憶し得る。
[0165] 図7に示されている様々なユニットは、ビデオデコーダ300によって実行される動作を理解するのを支援するために図示されている。ユニットは、固定機能回路、プログラマブル回路、またはそれらの組合せとして実装され得る。図5と同様に、固定機能回路は、特定の機能を与える回路を指し、実行され得る動作にあらかじめ設定される。プログラマブル回路は、様々なタスクを実施するように、および実施され得る動作においてフレキシブルな機能を提供するようにプログラムされ得る回路を指す。たとえば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義される様式でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、(たとえば、パラメータを受信するかまたはパラメータを出力するための)ソフトウェア命令を実行し得るが、固定機能回路が実行する動作のタイプは、概して不変である。いくつかの例では、ユニットのうちの1つまたは複数は、別個の回路ブロック(固定機能またはプログラマブル)であり得、いくつかの例では、1つまたは複数のユニットは集積回路であり得る。
[0166] ビデオデコーダ300は、プログラマブル回路から形成されるALU、EFU、デジタル回路、アナログ回路、および/またはプログラマブルコアを含み得る。ビデオデコーダ300の動作がプログラマブル回路上で実行されるソフトウェアによって実行される例では、オンチップまたはオフチップメモリは、ビデオデコーダ300が受信し、実行するソフトウェアの命令(たとえば、オブジェクトコード)を記憶し得る。
[0167] エントロピー復号ユニット302は、CPBから符号化されたビデオデータを受信し、シンタックス要素を再生するためにビデオデータをエントロピー復号し得る。予測処理ユニット304、逆量子化ユニット306、逆変換処理ユニット308、再構成ユニット310、およびフィルタユニット312は、ビットストリームから抽出されるシンタックス要素に基づいて復号されたビデオデータを生成し得る。
[0168] 図8は、本開示の技法による、CABACを実行するように構成され得る例示的なエントロピー復号ユニット302のブロック図である。図8のエントロピー復号ユニット302は、図6で説明されたエントロピー符号化ユニット220の様式とは逆の様式でCABACを実行する。ビットストリーム2180からのコード化ビットがエントロピー復号ユニット302に入力される。コード化ビットは、それらが通常モードを使用してエントロピーコーディングされたのかまたはバイパスモードを使用してエントロピーコーディングされたのかに基づいてコンテキストモデラ2200またはバイパス復号エンジン2220のいずれかに供給される。コード化ビットがバイパスモードでコーディングされた場合、バイパス復号エンジンは、たとえば、バイナリ値シンタックス要素または非バイナリシンタックス要素のビンを取り出す(retrieve)ために、ゴロム-ライスまたは指数ゴロム復号を使用することになる。
[0169] コード化ビットが通常モードでコーディングされた場合、コンテキストモデラ2200はコード化ビットのための確率モデルを決定し得、通常復号エンジン2240は、非バイナリ値シンタックス要素のビン(または、バイナリ値の場合、シンタックス要素自体)を生成するためにコード化ビットを復号し得る。コンテキストおよび確率状態σがコンテキストモデラ2200によって決定された後、通常復号エンジン2240は、ビン値を復号するためにBACを実行する。言い換えれば、通常復号エンジン2240は、コンテキストの確率状態を決定し、前にコーディングされたビンと現在の範囲とに基づいてビン値を復号し得る。ビンを復号した後、コンテキストモデラ2200は、ウィンドウサイズと復号されたビンの値とに基づいてコンテキストの確率状態を更新し得る。
[0170] 図7に戻ると、概して、ビデオデコーダ300は、ブロックごとにピクチャを再構築する。ビデオデコーダ300は、各ブロックに対して個々に再構築演算を実行し得る(ここで、現在再構築されているブロック、すなわち、現在復号されているブロックは、「現在のブロック(current block)」と呼ばれることがある)。
[0171] エントロピー復号ユニット302は、量子化変換係数ブロックの量子化変換係数を定義するシンタックス要素ならびに量子化パラメータ(QP)および/または変換モード指示などの変換情報をエントロピー復号し得る。逆量子化ユニット306は、量子化の程度を決定するために、また同様に、逆量子化ユニット306が適用すべき逆量子化の程度を決定するために、量子化された変換係数ブロックと関連付けられるQPを使用し得る。逆量子化ユニット306は、たとえば、量子化された変換係数を逆量子化するためにビット単位の左シフト演算を実行し得る。逆量子化ユニット306は、それによって、変換係数を含む変換係数ブロックを形成し得る。
[0172] 逆量子化ユニット306が変換係数ブロックを形成した後に、逆変換処理ユニット308は、現在のブロックに関連する残差ブロックを生成するために変換係数ブロックに1つまたは複数の逆変換を適用し得る。たとえば、逆変換処理ユニット308は、逆DCT、逆整数変換、逆カルーネンレーベ変換(KLT)、逆回転変換、逆方向変換、または別の逆変換を変換係数ブロックに適用し得る。
[0173] さらに、予測処理ユニット304は、エントロピー復号ユニット302によってエントロピー復号された予測情報シンタックス要素に従って予測ブロックを生成する。たとえば、現在のブロックがインター予測されることを予測情報シンタックス要素が示す場合、動き補償ユニット316は予測ブロックを生成し得る。この場合、予測情報シンタックス要素は、参照ブロックを取り出すDPB314中の参照ピクチャ、ならびに現在のピクチャ中の現在のブロックのロケーションに対する参照ピクチャ中の参照ブロックのロケーションを識別する動きベクトルを示し得る。動き補償ユニット316は、概して、動き補償ユニット224(図5)に関して説明された方式と実質的に同様である方式でインター予測プロセスを実行し得る。
[0174] 別の例として、予測情報シンタックス要素が、現在のブロックがイントラ予測されることを示す場合、イントラ予測ユニット318は、予測情報シンタックス要素によって示されるイントラ予測モードに従って予測ブロックを生成し得る。この場合も、イントラ予測ユニット318は、概して、イントラ予測ユニット226(図5)に関して説明されたのと実質的に同様である様式でイントラ予測プロセスを実行し得る。イントラ予測ユニット318は、DPB314から、現在のブロックに対する隣接サンプルのデータを取り出し得る。
[0175] 再構築ユニット310は、予測ブロックと残差ブロックとを使用して現在のブロックを再構築し得る。たとえば、再構築ユニット310は、現在のブロックを再構築するために、予測ブロックの対応するサンプルに残差ブロックのサンプルを加算し得る。
[0176] フィルタユニット312は、再構築されたブロックに対して1つまたは複数のフィルタ動作を実行し得る。たとえば、フィルタユニット312は、再構築されたブロックの端部に沿ってブロッキネスアーティファクトを低減するためにデブロッキング動作を実行し得る。フィルタユニット312の動作は、必ずしもすべての例で実行されるとは限らない。
[0177] ビデオデコーダ300は、DPB314中に再構築されたブロックを記憶し得る。たとえば、フィルタユニット312の動作が実行されない例において、再構築ユニット310は、再構築されたブロックをDPB314に記憶し得る。フィルタユニット312の動作が実行される例では、フィルタユニット312は、フィルタ処理された再構築されたブロックをDPB314に記憶し得る。上記で論じられたように、DPB314は、イントラ予測のための現在のピクチャのサンプルおよび後続の動き補償のための以前に復号されたピクチャなど、参照情報を予測処理ユニット304に提供し得る。その上、ビデオデコーダ300は、DPBからの復号ピクチャを、後続のプレゼンテーションのために、図1のディスプレイデバイス118などのディスプレイデバイス上に出力し得る。
[0178] このようにして、ビデオデコーダ300は、ビデオデータを記憶するように構成されたメモリと、回路中に実装された1つまたは複数の処理ユニットとを含むビデオ復号デバイスの一例を表し、1つまたは複数の処理ユニットは、ビデオデータのスライス中のシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちのコンテキストのためのあらかじめ定義されたスロープインデックス(たとえば、SlopeIdx)とあらかじめ定義されたオフセットインデックス(たとえば、OffsetIdx)とを取得することと、あらかじめ定義されたスロープインデックスとあらかじめ定義されたオフセットインデックスとに基づいて、ビデオデータのスライスのためのコンテキストの初期確率状態を決定することと、コンテキストの初期確率状態に基づいて、シンタックス要素のための値のビンをエントロピー復号することとを行うように構成される。
[0179] 図19は、現在のブロックを符号化するための例示的な方法を示すフローチャートである。現在のブロックは現在のCUを備え得る。ビデオエンコーダ200(図1および図5)に関して説明されるが、他のデバイスが図19の方法と同様の方法を実行するように構成され得ることを理解されたい。
[0180] この例では、ビデオエンコーダ200は、最初に、現在のブロックを予測する(350)。たとえば、ビデオエンコーダ200は、現在のブロックのための予測ブロックを形成し得る。ビデオエンコーダ200は、次いで、現在のブロックのための残差ブロックを計算し得る(352)。残差ブロックを計算するために、ビデオエンコーダ200は、元のコーディングされていないブロックと、現在のブロックのための予測ブロックとの間の差分(difference)を計算し得る。ビデオエンコーダ200は、次いで、残差ブロックの係数を変換および量子化し得る(354)。次に、ビデオエンコーダ200は、残差ブロックの量子化された変換係数を走査する(356)。走査の間、または走査に続いて、ビデオエンコーダ200は、係数をエントロピー符号化し得る(358)。たとえば、ビデオエンコーダ200は、図20を参照しながら上記で説明された確率初期化のための技法を使用してCAVLCまたはCABACを使用して係数および/または他のシンタックス要素を符号化し得る。次いで、ビデオエンコーダ200は、ブロックのエントロピーコーディングされたデータを出力し得る(360)。
[0181] 図20は、本開示の1つまたは複数の技法による、コンテキストベースのエントロピー符号化を実行するための例示的なプロセスを示すフローチャートである。図20の技法は、図1、図5、および図6に示されたビデオエンコーダ200などのビデオエンコーダによって実行され得る。説明の目的で、図20の技法は、図1、図5、および図6のビデオエンコーダ200のコンテキスト内で説明されるが、ビデオエンコーダ200の構成とは異なる構成を有するビデオエンコーダが図20の技法を実行し得る。
[0182] ビデオエンコーダ200は、コンテキストベースのエントロピーコーディング(たとえば、CABAC)を使用して符号化されるべきビンストリング(たとえば、1次元バイナリベクトル(one-dimensional binary vector))を取得し得る(2002)。たとえば、ビデオエンコーダ200のエントロピー符号化ユニット220は、ビデオエンコーダ200のモード選択ユニット202から受信されたシンタックス要素を2値化することによってビンストリングを取得し得る。
[0183] ビデオエンコーダ200は、複数のコンテキストのうちのコンテキストのためのあらかじめ定義された初期化値を取得し得る(2004)。たとえば、ビデオエンコーダ200のエントロピー符号化ユニット220は、6ビットの変数であり得るinitValueの値を取得し得る。
[0184] ビデオエンコーダ200は、あらかじめ定義された初期化値に基づいて、線形領域中でのビデオデータの独立してコード化可能なユニット(たとえば、スライス、タイルなど)のためのコンテキストの初期確率状態を決定し得る(2006)。たとえば、エントロピー符号化ユニット220は、対数領域中でのコンテキストの初期確率状態を中間で決定することなしに線形領域中でのコンテキストの初期確率状態を決定し得る。いくつかの例では、エントロピー符号化ユニット220は、対数領域から線形領域に初期確率状態を変換するためにLUTを使用せずに初期確率状態を決定し得る。
[0185] 初期確率状態を決定するために、エントロピー符号化ユニット220は、独立してコード化可能なユニットに関連する量子化パラメータの初期値(たとえば、SliceQPY)を取得し、0でない量子化パラメータアンカーポイント(quantization parameter anchor point)の値(たとえば、QPanchor)を取得し得る。エントロピー符号化ユニット220は、スライスのための量子化パラメータの初期値と量子化パラメータアンカーポイントの値との間の差に基づいて初期確率状態を決定し得る。たとえば、エントロピー符号化ユニット220は、以下の式に従って初期確率状態を決定し得る
ここで、InitProbStateは、初期確率状態であり、SliceQPYは、量子化パラメータの初期値であり、QPanchorは、量子化パラメータアンカーポイントであり、rshiftは、右シフト値(right shift value)である。
[0186] 上記で説明されたように、いくつかの例では、エントロピー符号化ユニット220は、極値確率分布のための増加した精度で初期化を実行するように構成され得る。たとえば、エントロピー符号化ユニット220は、あらかじめ定義された初期化値に基づいて、スロープインデックス値(slope index value)とオフセットインデックス値(offset index value)とを決定し得る。エントロピー符号化ユニット220は、スロープインデックス値に基づいて、mの値を決定し、オフセットインデックス値に基づいて、nの値を決定し得る。いくつかの例では、エントロピー符号化ユニット220は、式n=(OffsetIdx*18)+1に従ってnの値を決定し得、ここで、OffsetIdxは、オフセットインデックス値である。上記のように、いくつかの例では、エントロピー符号化ユニット220は、mの値とnの値とに基づいて初期確率状態を決定し得る。
[0187] ビデオエンコーダ200は、ビデオビットストリーム中で、コンテキストの初期確率状態に基づいて、ビンストリングのビンを符号化し得る(2008)。たとえば、エントロピー符号化ユニット220は、コンテキストの最終コード化確率間隔内の確率に対する値またはポインタを表すバイナリストリームを出力し得る。
[0188] 図21は、ビデオデータの現在のブロックを復号するための例示的な方法を示すフローチャートである。現在のブロックは現在CUを備え得る。ビデオデコーダ300(図1および図7)に関して説明されるが、他のデバイスが図21の方法と同様の方法を実行するように構成され得ることを理解されたい。
[0189] ビデオデコーダ300は、エントロピーコーディングされた予測情報、および現在のブロックに対応する残差ブロックの係数に対するエントロピーコーディングされたデータなどの、現在のブロックに対するエントロピーコーディングされたデータを受信し得る(370)。ビデオデコーダ300は、現在のブロックに対する予測情報を決定し残差ブロックの係数を再生するために、エントロピーコーディングされたデータをエントロピー復号し得る(372)。たとえば、ビデオデコーダ300は、図22を参照しながら上記で説明された確率初期化のための技法を使用してCAVLCまたはCABACを使用して係数および/または他のシンタックス要素を復号し得る。ビデオデコーダ300は、現在のブロックのための予測ブロックを計算するために、たとえば、現在のブロックのための予測情報によって示されるイントラ予測またはインター予測モードを使用して、現在のブロックを予測し得る(374)。ビデオデコーダ300は、次いで、量子化された変換係数のブロックを作成するために、再生された係数を逆走査し得る(376)。ビデオデコーダ300は、次いで、残差ブロックを生成するために係数を逆量子化し、逆変換し得る(378)。ビデオデコーダ300は、予測ブロックと残差ブロックとを組み合わせることによって、最終的に現在のブロックを復号し得る(380)。
[0190] 図22は、本開示の1つまたは複数の技法による、コンテキストベースのエントロピー復号を実行するための例示的なプロセスを示すフローチャートである。図22の技法は、図1、図7、および図8に示されたビデオデコーダ300などのビデオデコーダによって実行され得る。説明の目的で、図22の技法は、図1、図7、および図8のビデオデコーダ300のコンテキスト内で説明されるが、ビデオデコーダ300の構成とは異なる構成を有するビデオデコーダが図22の技法を実行し得る。
[0191] ビデオデコーダ300は、ビデオビットストリームから、コンテキストベースのエントロピーコーディングを使用して復号されるべきビンストリング(たとえば、1次元バイナリベクトル)を取得し得る(2202)。たとえば、ビデオデコーダ300のエントロピー復号ユニット302は、CPBメモリ320からビンストリングを取得し得る。いくつかの例では、ビンストリングは、コンテキストの最終コード化確率間隔内の確率に対する値またはポインタを表し得る。いくつかの例では、コンテキストベースのエントロピーコーディングはコンテキスト適応型バイナリ算術コーディング(CABAC)を備え得る。
[0192] ビデオデコーダ300は、複数のコンテキストのうちのコンテキストのためのあらかじめ定義された初期化値を取得し得る(2204)。たとえば、ビデオデコーダ300のエントロピー復号ユニット302は、6ビットの変数であり得るinitValueの値を取得し得る。
[0193] ビデオデコーダ300は、あらかじめ定義された初期化値に基づいて、線形領域中でのビデオデータの独立してコード化可能なユニット(たとえば、スライス、タイルなど)のためのコンテキストの初期確率状態を決定し得る(2206)。たとえば、エントロピー復号ユニット302は、対数領域中でのコンテキストの初期確率状態を中間で決定することなしに線形領域中でのコンテキストの初期確率状態を決定し得る。いくつかの例では、エントロピー復号ユニット302は、対数領域から線形領域に初期確率状態を変換するためにLUTを使用せずに初期確率状態を決定し得る。
[0194] 初期確率状態を決定するために、エントロピー復号ユニット302は、独立してコード化可能なユニットのための量子化パラメータの初期値(たとえば、SliceQPY)を取得し、0でない量子化パラメータアンカーポイントの値(たとえば、QPanchor)を取得し得る。エントロピー復号ユニット302は、独立してコード化可能なユニットのための量子化パラメータの初期値と量子化パラメータアンカーポイントの値との間の差に基づいて初期確率状態を決定し得る。たとえば、エントロピー復号ユニット302は、以下の式に従って初期確率状態を決定し得る
ここで、InitProbStateは、初期確率状態であり、SliceQPYは、量子化パラメータの初期値であり、QPanchorは、量子化パラメータアンカーポイントであり、rshiftは、右シフト値である。
[0195] 上記で説明されたように、いくつかの例では、エントロピー復号ユニット302は、極値確率分布のための増加した精度で初期化を実行するように構成され得る。たとえば、エントロピー復号ユニット302は、あらかじめ定義された初期化値に基づいて、スロープインデックス値とオフセットインデックス値とを決定し得る。エントロピー復号ユニット302は、スロープインデックス値に基づいて、mの値を決定し、オフセットインデックス値に基づいて、nの値を決定し得る。いくつかの例では、エントロピー復号ユニット302は、式 n=(OffsetIdx*18)+1に従ってnの値を決定し得、ここで、OffsetIdxは、オフセットインデックス値である。上記のように、いくつかの例では、エントロピー復号ユニット302は、mの値とnの値とに基づいて初期確率状態を決定し得る。
[0196] ビデオデコーダ300は、コンテキストの初期確率状態に基づいて、ビンストリングのビンを復号し得る(2208)。ビデオデコーダ300は、復号されたビンとコンテキストの初期確率状態とに基づいて、コンテキストの更新された確率状態を決定し得る。ビデオデコーダ300は、コンテキストの更新された確率状態に基づいて、別のビンを復号し得る(2206)。
[0197] 以下の番号付けされた例は、本開示の1つまたは複数の態様を示し得る。
[0198] 例1A. ビデオデータのエントロピーコーディングのための方法であって、ビデオデータのスライス中のシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちのコンテキストのためのあらかじめ定義されたスロープインデックスとあらかじめ定義されたオフセットインデックスとを取得することと、あらかじめ定義されたスロープインデックスとあらかじめ定義されたオフセットインデックスとに基づいて、ビデオデータのスライスのためのコンテキストの初期確率状態を決定することと、コンテキストの初期確率状態に基づいて、シンタックス要素のための値のビンをエントロピーコーディングすることとを備える方法。
[0199] 例2A. 初期確率状態が、線形領域中での初期確率(initial probability)を表す、例1Aに記載の方法。
[0200] 例3A. 初期確率状態が、2次領域中での初期確率を表す、例1Aに記載の方法。
[0201] 例4A. 初期確率状態を決定することが、あらかじめ定義されたスロープインデックスと、あらかじめ定義されたオフセットインデックスと、初期確率状態との間をマッピングするためにルックアップテーブル(LUT)を使用せずに実行される、例3Aに記載の方法。
[0202] 例5A. 初期確率状態が、InitProbStateによって表され、スロープインデックスが、SlopeIdxによって表され、オフセットインデックスが、OffsetIdxによって表される、例1A~4Aの任意の組合せに記載の方法。
[0203] 例6A. コンテキスト適応型エントロピーコーディングプロセスが、コンテキスト適応型バイナリ算術コーディング(CABAC)プロセス、またはコンテキスト適応型可変長コーディング(CAVLC)プロセスを備える、例1A~5Aのいずれかに記載の方法。
[0204] 例7A. コーディングすることが復号することを備える、例1A~6Aのいずれかに記載の方法。
[0205] 例8A. コーディングすることが符号化することを備える、例1A~7Aのいずれかに記載の方法。
[0206] 例9A. ビデオデータをコーディングするためのデバイスであって、例1A~8Aのいずれかに記載の方法を実行するための1つまたは複数の手段を備える、デバイス。
[0207] 例10A. 1つまたは複数の手段は、回路中に実装される1つまたは複数のプロセッサを備える、例9Aに記載のデバイス。
[0208] 例11A. ビデオデータを記憶するためのメモリをさらに備える、例9Aおよび10Aのいずれかに記載のデバイス。
[0209] 例12A. 復号されたビデオデータを表示するように構成されたディスプレイをさらに備える、例9A~11Aのいずれかに記載のデバイス。
[0210] 例13A. デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの1つまたは複数を備える、例9A~12Aのいずれかに記載のデバイス。
[0211] 例14A. デバイスがビデオデコーダを備える、例9A~13Aのいずれかに記載のデバイス。
[0212] 例15A. デバイスがビデオエンコーダを備える、例9A~14Aのいずれかに記載のデバイス。
[0213] 例16A. 実行されたとき、例1A~8Aのいずれかに記載の方法を1つまたは複数のプロセッサに実行させる命令を記憶したコンピュータ可読記憶媒体。
[0214] 例1B. ビデオデータのエントロピーコーディングのための方法であって、ビデオデータのスライス中のシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちの1つのコンテキストのためのあらかじめ定義されたオフセットインデックスを取得することと、あらかじめ定義されたオフセットインデックスに基づいて、ビデオデータのスライスのためのコンテキストの初期確率状態を決定することと、コンテキストの初期確率状態に基づいて、シンタックス要素のための値のビンをエントロピーコーディングすることとを備える方法。
[0215] 例2B. 初期確率状態が、線形領域中での初期確率を表す、例1Bに記載の方法。
[0216] 例3B. 初期確率状態が、2次領域中での初期確率を表す、例1Bに記載の方法。
[0217] 例4B. 初期確率状態を決定することが、あらかじめ定義されたオフセットインデックスと初期確率状態との間をマッピングするためにルックアップテーブル(LUT)を使用せずに実行される、例3Bに記載の方法。
[0218] 例5B. 初期確率状態が、InitProbStateによって表され、オフセットインデックスが、OffsetIdxによって表される、例1B~4Bの任意の組合せに記載の方法。
[0219] 例6B. コンテキスト適応型エントロピーコーディングプロセスが、コンテキスト適応型バイナリ算術コーディング(CABAC)プロセス、またはコンテキスト適応型可変長コーディング(CAVLC)プロセスを備える、例1B~5Bのいずれかに記載の方法。
[0220] 例7B. コーディングすることが復号することを備える、例1B~6Bのいずれかに記載の方法。
[0221] 例8B. コーディングすることが符号化することを備える、例1B~7Bのいずれかに記載の方法。
[0222] 例9B. ビデオデータをコーディングするためのデバイスであって、例1B~8Bのいずれかに記載の方法を実行するための1つまたは複数の手段を備える、デバイス。
[0223] 例10B. 1つまたは複数の手段は、回路中に実装される1つまたは複数のプロセッサを備える、例9Bに記載のデバイス。
[0224] 例11B. ビデオデータを記憶するためのメモリをさらに備える、例9Bおよび10Bのいずれかに記載のデバイス。
[0225] 例12B. 復号されたビデオデータを表示するように構成されたディスプレイをさらに備える、例9B~11Bのいずれかに記載のデバイス。
[0226] 例13B. デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの1つまたは複数を備える、例9B~12Bのいずれかに記載のデバイス。
[0227] 例14B. デバイスがビデオデコーダを備える、例9B~13Bのいずれかに記載のデバイス。
[0228] 例15B. デバイスがビデオエンコーダを備える、例9B~14Bのいずれかに記載のデバイス。
[0229] 例16B. 実行されたとき、例1B~8Bのいずれかに記載の方法を1つまたは複数のプロセッサに実行させる命令を記憶したコンピュータ可読記憶媒体。
[0230] 例1C. ビデオデータのエントロピーコーディングのための方法であって、変数の値に基づいて、第1の中間値を決定することと、第1の中間値に基づいて、コンテキストモデルの低精度の確率状態の値を決定することと、ここにおいて、低精度の確率状態の値を決定することは、第1の中間値を右シフトすることを備える、コンテキストモデルの低精度の確率状態の値に基づいて、シンタックス要素の少なくとも1ビットの値をコーディングすることとを備える方法。
[0231] 例2C. 第1の中間値を決定することが、式q=Clip3(18,46,SliceQPY)-16に従って第1の中間値を決定することを備える、ここで、qは、第1の中間値であり、SliceQPYは、変数の値である、例1Cに記載の方法。
[0232] 例3C. コンテキストモデルの低精度の確率状態の値を決定することが、式ProbabilityStateL=16*a+((b-a)*q>>1)+8に従ってコンテキストモデルの低精度の確率状態の値を決定することを備える、ここで、qは、第1の中間値であり、ProbabilityStateLは、コンテキストモデルの低精度の確率状態の値であり、aは、第2の中間値であり、bは、第3の中間値である、例1Cまたは例2Cに記載の方法。
[0233] 例4C. 式a=(initValue>>3)*9 b=(initValue&7)*9に従ってaとbとのための値を決定することをさらに備える、ここで、initValueは、初期化値である、例3Cに記載の方法。
[0234] 例5C. コンテキストモデルの低精度の確率状態の値に基づいて、コンテキストモデルの高精度の確率状態の値を決定することをさらに備える、例1C~4Cのいずれかに記載の方法。
[0235] 例6C. コンテキストモデルの高精度の確率状態の値を決定することが、式ProbabilityStateH=ProbabilityStateL<<4に従ってコンテキストモデルの高精度の確率状態の値を決定することを備える、ここで、ProbabilityStateHは、コンテキストモデルの高精度の確率状態の値であり、ProbabilityStateLは、コンテキストモデルの低精度の確率状態の値である、例5Cに記載の方法。
[0236] 例7C. コンテキスト適応型エントロピーコーディングプロセスが、コンテキスト適応型バイナリ算術コーディング(CABAC)プロセス、またはコンテキスト適応型可変長コーディング(CAVLC)プロセスを備える、例1C~6Cのいずれかに記載の方法。
[0237] 例8C. コーディングすることが復号することを備える、例1C~7Cのいずれかに記載の方法。
[0238] 例9C. コーディングすることが符号化することを備える、例1C~8Cのいずれかに記載の方法。
[0239] 例10C. ビデオデータをコーディングするためのデバイスであって、例1C~9Cのいずれかに記載の方法を実行するための1つまたは複数の手段を備える、デバイス。
[0240] 例11C. 1つまたは複数の手段は、回路中に実装される1つまたは複数のプロセッサを備える、例10Cに記載のデバイス。
[0241] 例12C. ビデオデータを記憶するためのメモリをさらに備える、例10Cおよび11Cのいずれかに記載のデバイス。
[0242] 例13C. 復号されたビデオデータを表示するように構成されたディスプレイをさらに備える、例10C~12Cのいずれかに記載のデバイス。
[0243] 例14C. デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの1つまたは複数を備える、例10C~13Cのいずれかに記載のデバイス。
[0244] 例15C. デバイスがビデオデコーダを備える、例10C~14Cのいずれかに記載のデバイス。
[0245] 例16C. デバイスがビデオエンコーダを備える、例10C~15Cのいずれかに記載のデバイス。
[0246] 例17C. 実行されたとき、例1C~9Cのいずれかに記載の方法を1つまたは複数のプロセッサに実行させる命令を記憶したコンピュータ可読記憶媒体。
[0247] 上記例に応じて、本明細書で説明された技法のいずれかのいくつかの行為またはイベントは、異なるシーケンスで実行され得、追加、マージ、または完全に除外され得る(たとえば、すべての説明された行為またはイベントが本技法の実践のために必要であるとは限らない)ことを認識されたい。その上、いくつかの例では、行為またはイベントは、連続的にではなく、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサを通して同時に実行され得る。
[0248] 1つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、1つまたは複数の命令もしくはコードとして、コンピュータ可読媒体上に記憶され得るか、またはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応する、コンピュータ可読記憶媒体を含み得るか、または、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を促進する任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、一般に、(1)非一時的な有形コンピュータ可読記憶媒体、または(2)信号もしくは搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示において説明された技法の実装のための命令、コードおよび/またはデータ構造を取り出すために、1つまたは複数のコンピュータまたは1つまたは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品はコンピュータ可読媒体を含み得る。
[0249] 限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気ストレージデバイス、フラッシュメモリ、または、命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体が、接続、搬送波、信号、または他の一時的媒体を含むのではなく、非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書において使用されるディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびブルーレイ(登録商標)ディスク(disc)を含み、ここで、ディスク(disk)は通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲に含まれるべきである。
[0250] 命令は、1つまたは複数のデジタルシグナルプロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他の同等の集積された論理回路もしくは個別の論理回路などの、1つまたは複数のプロセッサによって実行され得る。したがって、本明細書において使用される「プロセッサ」および「処理回路」という用語は、前述の構造、または本明細書において説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成された専用ハードウェアおよび/もしくはソフトウェアモジュール内で提供され、または複合コーデックに組み込まれ得る。また、本技法は、1つまたは複数の回路または論理要素において十分に実装され得る。
[0251] 本開示の技法は、ワイヤレスハンドセット、集積回路(IC)またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置に実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットについて説明されたが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。そうではなく、上記で説明されたように、様々なユニットは、好適なソフトウェアおよび/またはファームウェアとともに、上記で説明された1つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わされるか、または相互動作可能なハードウェアユニットの集合によって提供され得る。
[0252] 様々な例を説明した。これらおよび他の例は、以下の特許請求の範囲内に入る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
ビデオデータのエントロピー復号のための方法であって、
ビデオデータの独立してコード化可能なユニットのためのシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちのコンテキストのためのあらかじめ定義された初期化値を、メモリから取り出すことと、
前記あらかじめ定義された初期化値に基づいて、線形領域中で、前記コンテキストの初期確率状態を決定することと、
ビデオビットストリームから、前記コンテキストの前記初期確率状態に基づいて、前記シンタックス要素のための前記値のビンをエントロピー復号することと
を備える方法。
[C2]
前記線形領域中での前記コンテキストの前記初期確率状態を決定することが、前記対数領域中での前記コンテキストの前記初期確率状態を中間で決定することなしに前記線形領域中での前記コンテキストの前記初期確率状態を決定することを備える、C1に記載の方法。
[C3]
前記初期確率状態を決定することは、
前記独立してコード化可能なユニットに関連する量子化パラメータの初期値を取得することと、
0でない量子化パラメータアンカーポイントの値を取得することと、
前記独立してコード化可能なユニットに関連する前記量子化パラメータの前記初期値と前記量子化パラメータアンカーポイントの前記値との間の差に基づいて前記初期確率状態を決定することと
を備える、C1に記載の方法。
[C4]
前記量子化パラメータの前記初期値がSliceQP
Y
である、C3に記載の方法。
[C5]
前記量子化パラメータアンカーポイントの前記値が16である、C3に記載の方法。
[C6]
前記初期確率状態を決定することが、
前記あらかじめ定義された初期化値に基づいて、スロープインデックス値とオフセットインデックス値とを決定することと、
前記スロープインデックス値に基づいて、mの値を決定することと、
前記オフセットインデックス値に基づいて、式 n=(OffsetIdx*18)+1に従ってnの値を決定することと、ここで、OffsetIdxは、前記オフセットインデックス値である、
を備え、
前記初期確率状態を決定することは、mの前記値とnの前記値とに基づいて前記初期確率状態を決定することを備える、C3に記載の方法。
[C7]
前記初期確率状態を決定することは、以下の式に従って前記初期確率状態を決定することを備える、
ここで、InitProbStateは、前記初期確率状態であり、SliceQP
Y
は、前記量子化パラメータの前記初期値であり、QP
anchor
は、前記量子化パラメータアンカーポイントであり、rshiftは、右シフト値である、C6に記載の方法。
[C8]
エントロピー復号することは、コンテキスト適応型バイナリ算術コーディング(CABAC)を使用してエントロピー復号することを備える、C1に記載の方法。
[C9]
ビデオ復号デバイスであって、
ビデオデータを記憶するメモリと、
回路中に実装された1つまたは複数のプロセッサと
を備え、前記1つまたは複数のプロセッサは、
ビデオデータの独立してコード化可能なユニットのためのシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちのコンテキストのためのあらかじめ定義された初期化値を、前記メモリから取り出すことと、
前記あらかじめ定義された初期化値に基づいて、線形領域中で、前記コンテキストの初期確率状態を決定することと、
ビデオビットストリームから、前記コンテキストの前記初期確率状態に基づいて、前記シンタックス要素のための前記値のビンをエントロピー復号することと
を行うように構成された、ビデオ復号デバイス。
[C10]
前記線形領域中での前記コンテキストの前記初期確率状態を決定するために、前記1つまたは複数のプロセッサは、前記対数領域中での前記コンテキストの前記初期確率状態を中間で決定することなしに前記線形領域中での前記コンテキストの前記初期確率状態を決定するように構成された、C9に記載のデバイス。
[C11]
前記初期確率状態を決定するために、前記1つまたは複数のプロセッサは、
前記独立してコード化可能なユニットに関連する量子化パラメータの初期値を取得することと、
0でない量子化パラメータアンカーポイントの値を取得することと、
前記独立してコード化可能なユニットに関連する前記量子化パラメータの前記初期値と前記量子化パラメータアンカーポイントの前記値との間の差に基づいて前記初期確率状態を決定することと
を行うように構成された、C9に記載のデバイス。
[C12]
前記量子化パラメータの前記初期値がSliceQP
Y
である、C11に記載のデバイス。
[C13]
前記量子化パラメータアンカーポイントの前記値が16である、C11に記載のデバイス。
[C14]
前記初期確率状態を決定するために、前記1つまたは複数のプロセッサは、
前記あらかじめ定義された初期化値に基づいて、スロープインデックス値とオフセットインデックス値とを決定することと、
前記スロープインデックス値に基づいて、mの値を決定することと、
前記オフセットインデックス値に基づいて、式 n=(OffsetIdx*18)+1に従ってnの値を決定することと、ここで、OffsetIdxは、前記オフセットインデックス値である、
mの前記値とnの前記値とに基づいて前記初期確率状態を決定することと
を行うように構成された、C11に記載のデバイス。
[C15]
前記初期確率状態を決定するために、前記1つまたは複数のプロセッサは、以下の式に従って前記初期確率状態を決定するように構成され、
ここで、InitProbStateは、前記初期確率状態であり、SliceQP
Y
は、前記量子化パラメータの前記初期値であり、QP
anchor
は、前記量子化パラメータアンカーポイントであり、rshiftは、右シフト値である、C14に記載のデバイス。
[C16]
前記ビンをエントロピー復号するために、前記1つまたは複数のプロセッサは、コンテキスト適応型バイナリ算術コーディング(CABAC)を使用して前記ビンを復号するように構成された、C9に記載のデバイス。
[C17]
ビデオデータのエントロピー符号化のための方法であって、
ビデオデータの独立してコード化可能なユニットのためのシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちのコンテキストのためのあらかじめ定義された初期化値を、メモリから取り出すことと、
前記あらかじめ定義された初期化値に基づいて、線形領域中で、前記コンテキストの初期確率状態を決定することと、
ビデオビットストリーム中で、前記コンテキストの前記初期確率状態に基づいて、前記シンタックス要素のための前記値のビンをエントロピー符号化することと
を備える方法。
[C18]
前記線形領域中での前記コンテキストの前記初期確率状態を決定することが、前記対数領域中での前記コンテキストの前記初期確率状態を中間で決定することなしに前記線形領域中での前記コンテキストの前記初期確率状態を決定することを備える、C17に記載の方法。
[C19]
前記初期確率状態を決定することは、
前記独立してコード化可能なユニットに関連する量子化パラメータの初期値を取得することと、
0でない量子化パラメータアンカーポイントの値を取得することと、
前記独立してコード化可能なユニットに関連する前記量子化パラメータの前記初期値と、前記量子化パラメータアンカーポイントの前記値との間の差に基づいて前記初期確率状態を決定することと
を備える、C17に記載の方法。
[C20]
前記量子化パラメータの前記初期値がSliceQP
Y
である、C19に記載の方法。
[C21]
前記量子化パラメータアンカーポイントの前記値が16である、C19に記載の方法。
[C22]
前記初期確率状態を決定することは、
前記あらかじめ定義された初期化値に基づいて、スロープインデックス値とオフセットインデックス値とを決定することと、
前記スロープインデックス値に基づいて、mの値を決定することと、前記オフセットインデックス値に基づいて、式 n=(OffsetIdx*18)+1に従ってnの値を決定することと、ここで、OffsetIdxは、前記オフセットインデックス値である、
を備え、前記初期確率状態を決定することは、mの前記値とnの前記値とに基づいて前記初期確率状態を決定することを備える、C19に記載の方法。
[C23]
前記初期確率状態を決定することは、以下の式に従って前記初期確率状態を決定することを備える、
ここで、InitProbStateは、前記初期確率状態であり、SliceQP
Y
は、前記量子化パラメータの前記初期値であり、QP
anchor
は、前記量子化パラメータアンカーポイントであり、rshiftは、右シフト値である、C22に記載の方法。
[C24]
ビデオ符号化デバイスであって、
ビデオデータを記憶するメモリと、
回路中に実装された1つまたは複数のプロセッサと
を備え、前記1つまたは複数のプロセッサは、
ビデオデータの独立してコード化可能なユニットのためのシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちのコンテキストのためのあらかじめ定義された初期化値を、前記メモリから取り出すことと、
前記あらかじめ定義された初期化値に基づいて、線形領域中で、前記コンテキストの初期確率状態を決定することと、
ビデオビットストリーム中で、前記コンテキストの前記初期確率状態に基づいて、前記シンタックス要素のための前記値のビンをエントロピー符号化することと
を行うように構成された、ビデオ符号化デバイス。
[C25]
前記線形領域中での前記コンテキストの前記初期確率状態を決定するために、前記1つまたは複数のプロセッサは、前記対数領域中での前記コンテキストの前記初期確率状態を中間で決定することなしに前記線形領域中での前記コンテキストの前記初期確率状態を決定するように構成された、C24に記載のデバイス。
[C26]
前記初期確率状態を決定するために、前記1つまたは複数のプロセッサは、
前記独立してコード化可能なユニットに関連する量子化パラメータの初期値を取得することと、
0でない量子化パラメータアンカーポイントの値を取得することと、
前記独立してコード化可能なユニットに関連する前記量子化パラメータの前記初期値と、前記量子化パラメータアンカーポイントの前記値との間の差に基づいて前記初期確率状態を決定することと
を行うように構成された、C24に記載のデバイス。
[C27]
前記量子化パラメータの前記初期値がSliceQP
Y
である、C26に記載のデバイス。
[C28]
前記量子化パラメータアンカーポイントの前記値が16である、C26に記載のデバイス。
[C29]
前記初期確率状態を決定するために、前記1つまたは複数のプロセッサは、
前記あらかじめ定義された初期化値に基づいて、スロープインデックス値とオフセットインデックス値とを決定することと、
前記スロープインデックス値に基づいて、mの値を決定することと、
前記オフセットインデックス値に基づいて、式 n=(OffsetIdx*18)+1に従ってnの値を決定することと、ここで、OffsetIdxは、前記オフセットインデックス値である、
mの前記値とnの前記値とに基づいて前記初期確率状態を決定することと
を行うように構成された、C26に記載のデバイス。
[C30]
前記初期確率状態を決定するために、前記1つまたは複数のプロセッサは、以下の式に従って前記初期確率状態を決定するように構成され、
ここで、InitProbStateは、前記初期確率状態であり、SliceQP
Y
は、前記量子化パラメータの前記初期値であり、QP
anchor
は、前記量子化パラメータアンカーポイントであり、rshiftは、右シフト値である、C29に記載のデバイス。
[C31]
デバイスであって、
ビデオデータの独立してコード化可能なユニットのためのシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちのコンテキストのためのあらかじめ定義された初期化値を取得するための手段と、
前記あらかじめ定義された初期化値に基づいて線形領域中で、前記コンテキストの初期確率状態を決定するための手段と、
ビットストリームから、前記コンテキストの前記初期確率状態に基づいて、前記シンタックス要素のための前記値のビンをエントロピー復号するための手段と
を備える、デバイス。
[C32]
実行されたとき、ビデオコーダの1つまたは複数のプロセッサに、
ビデオデータの独立してコード化可能なユニットのためのシンタックス要素のための値をエントロピーコーディングするためにコンテキスト適応型エントロピーコーディングプロセスにおいて使用される複数のコンテキストのうちのコンテキストのためのあらかじめ定義された初期化値を取得することと、
前記あらかじめ定義された初期化値に基づいて、線形領域中で、前記コンテキストの初期確率状態を決定することと、
ビットストリーム中で、前記コンテキストの前記初期確率状態に基づいて、前記シンタックス要素のための前記値のビンをエントロピー符号化することと
を行わせる命令を記憶したコンピュータ可読記憶媒体。