JP2023525215A

JP2023525215A - イントラ文字列コピーの方法及び機器

Info

Publication number: JP2023525215A
Application number: JP2022560885A
Authority: JP
Inventors: シュー，シャオゾン; リウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-04-12
Filing date: 2021-10-18
Publication date: 2023-06-15
Anticipated expiration: 2041-10-18
Also published as: US20220329810A1; EP4118829A4; CN115516861A; KR20220153063A; EP4118829A1; WO2022220872A1; JP7458503B2

Abstract

デコーダのビデオ復号化の方法では、シグナリング情報及びシンタックス要素を含む、ブロックのコーディング情報が受信される。シンタックス要素のそれぞれには１つ又は複数のビンが含まれ、ブロックは文字列マッチングモードによってコーディングされる。閾値は、コンテキスト・コーディングモードによってコーディングが許容されるビンの最大数に基づいて決定される。シンタックス要素のうちの第１のシンタックス要素のビンの数が決定される。ブロックは、第１のシンタックス要素の１つ又は複数のビンを使用して文字列マッチングモードで復号化される。ここで、第１のシンタックス要素のビンの数は、コンテキスト・コーディングモードに許容されるビンの最大数を示す閾値によって制限される。

Description

本開示は、２０２１年１０月１４日に出願した、“METHOD AND APPARATUS FOR INTRA STRING COPY”という米国特許出願第１７／４５０，９３５号に対する優先権の利益を主張するものであり、この文献は、２０２１年４月１２日に出願した、“STRING MATCHING WITH REFERENCE LOCATION CONSTRAINTS”という米国仮出願第６３／１７３，９２９号に対する優先権の利益を主張する。先行出願の全開示は、その全体が参照により本明細書に組み込まれる。

本開示は、イントラ文字列（intra string）コピーモードに基づくビデオ内の領域のブロックの符号化／復号化等、一般にビデオコーディングに関連する実施形態について説明する。

本明細書で提供する背景技術の説明は、本開示の文脈を概ね提示することを目的としている。本願の名前が記載された発明者の業績は、この背景技術の段落に記載している範囲で、出願時に先行技術として認められない説明の態様と同様に、明示的又は黙示的に本開示に対する先行技術として認められるものではない。

ビデオ符号化及び復号化は、動き補償を伴うインターピクチャ（inter picture：ピクチャ間）予測を使用して実行することができる。非圧縮デジタルビデオには、一連のピクチャが含まれ得、各ピクチャは、例えば、１９２０×１０８０の輝度サンプル及び関連する色差サンプルの空間次元を有する。一連のピクチャは、例えば１秒あたり６０ピクチャつまり６０Ｈｚの、固定又は可変のピクチャレート（非公式にはフレームレートとも呼ばれる）を有することができる。非圧縮ビデオには特定のビットレート要件がある。例えば、サンプルあたり８ビットの１０８０ｐ６０４：２：０ビデオ（６０Ｈｚフレームレートで１９２０×１０８０輝度サンプル解像度）は、１．５Ｇｂｉｔ／ｓに近い帯域幅を必要とする。このようなビデオを１時間再生するには、６００ＧＢを超えるストレージ容量が必要である。

ビデオ符号化及び復号化の１つの目的は、圧縮によって入力ビデオ信号の冗長性を削減することであり得る。圧縮は、前述の帯域幅及び／又はストレージ容量の要件を、場合によっては２桁以上削減するのに役立ち得る。可逆圧縮と非可逆圧縮との両方、及びそれらの組合せを使用することができる。可逆圧縮とは、圧縮した元の信号から元の信号の正確なコピーを再構成できる技術を指す。非可逆圧縮を使用する場合に、再構成した信号は元の信号と同一ではない可能性があるが、元の信号と再構成した信号との間の歪みは、再構成した信号が意図したアプリケーションに有用なほど十分小さいものである。ビデオの場合に、非可逆圧縮が広く使用されている。許容される歪みの量はアプリケーションによって異なり、例えば、特定の消費者向けストリーミングアプリケーションのユーザは、テレビ配信アプリケーションのユーザよりも高い歪みを許容する場合がある。達成可能な圧縮率は、より高い許容／容認歪みが、より高い圧縮率をもたらす可能性があることを反映している場合がある。

ビデオエンコーダ及びビデオデコーダは、例えば、動き補償、変換、量子化、及びエントロピーコーディングを含む、いくつかの広いカテゴリからの技術を利用することができる。

ビデオコーデック技術は、イントラコーディングとして知られる技術を含むことができる。イントラコーディングでは、サンプル値は、以前に再構成した参照ピクチャからのサンプル又は他のデータを参照せずに表される。一部のビデオコーデックでは、ピクチャは空間的にサンプルのブロックに細分化される。サンプルの全てのブロックがイントラモードでコーディングされる場合に、そのピクチャはイントラピクチャとなり得る。イントラピクチャと独立したデコーダ・リフレッシュピクチャ等の派生物とは、デコーダの状態をリセットするために使用できるため、コーディングしたビデオ・ビットストリーム及びビデオセッションの最初のピクチャとして、又は静止画像として使用できる。イントラブロックのサンプルは、変換を受けることができ、変換係数がエントロピーコーディングの前に量子化され得る。イントラ予測は、変換前のドメインでサンプル値を最小化する技術である。場合によっては、変換後のＤＣ値が小さいほど、またＡＣ係数が小さいほど、所与の量子化ステップサイズでエントロピーコーディング後のブロックを表すために必要なビット数が少なくなる。

例えばＭＰＥＧ－２世代コーディング技術により知られているような従来のイントラコーディングは、イントラ予測を使用しない。ただし、一部の新しいビデオ圧縮技術には、例えば、空間的に隣接し、復号順序で先行するデータのブロックの符号化／復号化中に取得したメタデータ及び／又は周囲のサンプルデータから試行する技術が含まれている。このような技術を、以後「イントラ予測」技術と呼ぶ。少なくともいくつかのケースでは、イントラ予測は、参照ピクチャからではなく、再構成中の現在のピクチャからの参照データのみを使用していることに留意されたい。

イントラ予測には多くの異なる形態があり得る。そのような技術の複数を所与のビデオコーディング技術で使用できる場合に、使用中の技術をイントラ予測モードでコーディングすることができる。場合によっては、モードにサブモード及び／又はパラメータを含めることができ、それらを個別にコーディングするか、又はモード・コードワードに含めることができる。所与のモード、サブモード、及び／又はパラメータの組合せに使用するコードワードは、イントラ予測によるコーディング効率の向上に影響を与える可能性があり、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術も同様であり得る。

イントラ予測の特定のモードが、Ｈ．２６４で導入され、Ｈ．２６５で改良され、ＪＥＭ（joint exploration model）、ＶＶＣ（versatile video
coding）、及びＢＭＳ（benchmark set）等の新しいコーディング技術でさらに改良された。予測子ブロックは、既に利用可能なサンプルに属する隣接するサンプル値を使用して形成できる。隣接するサンプルのサンプル値は、ある方向に従って予測ブロック内にコピーされる。使用中の方向への参照は、ビットストリームでコーディングするか、又はそれ自体を予測することができる。

図１を参照すると、Ｈ．２６５の３３個の可能な予測方向（３５個のイントラモードのうちの３３個の角度モードに対応）から既知の９つの予測方向のサブセットが、図１の右下に示される。矢印が収束するポイント（１０１）は、予測されるサンプルを表す。矢印は、サンプルが予測される方向を表す。例えば、矢印（１０２）は、サンプル（１０１）が、１つ又は複数のサンプルから水平から４５°の角度で右上に予測されることを示す。同様に、矢印（１０３）は、サンプル（１０１）が、１つ又は複数のサンプルから水平から２２．５°の角度でサンプル（１０１）の左下に予測されることを示す。

引き続き図１を参照すると、４×４サンプルの正方形ブロック（１０４）（太い破線で示される）が図１の左上に示される。正方形ブロック（１０４）は１６個のサンプルを含み、それぞれ、「Ｓ」、Ｙ次元におけるその位置（例えば、行インデックス）及びＸ次元におけるその位置（例えば、列インデックス）でラベル付けされる。例えば、サンプルＳ２１は、Ｙ次元で（上から）２番目のサンプルであり、Ｘ次元で（左から）１番目のサンプルである。同様に、サンプルＳ４４は、Ｙ次元とＸ次元との両方でブロック（１０４）の４番目のサンプルである。ブロックのサイズが４×４サンプルであるので、Ｓ４４は右下にある。さらに、同様の番号付けスキームに従う参照サンプルが示される。参照サンプルは、ブロック（１０４）に対するそのＹ位置（例えば、行インデックス）及びＸ位置（列インデックス）にＲでラベル付けされる。Ｈ．２６４とＨ．２６５との両方で、予測サンプルは再構成中のブロックに隣接し、従って、負の値を使用する必要はない。

イントラピクチャ予測は、シグナリングされた予測方向によって適切にされるように、隣接サンプルから参照サンプル値をコピーすることによって機能することができる。例えば、コーディングしたビデオ・ビットストリームが、このブロックについて、矢印（１０２）と一致する予測方向を示すシグナリングを含むと仮定する。つまり、サンプルは、１つ又は複数の予測サンプルから水平から４５°の角度で右上に予測される。その場合に、サンプルＳ４１、Ｓ３２、Ｓ２３、及びＳ１４は、同じ参照サンプルＲ０５から予測される。次に、サンプルＳ４４は参照サンプルＲ０８から予測される。

場合によっては、特に方向が４５°で均等に割り切れない場合に、例えば補間によって複数の基準サンプルの値を組み合わせて、基準サンプルを計算することができる。

ビデオコーディング技術が発展するにつれて、可能な方向の数が増加した。Ｈ．２６４（２００３年）では、９個の異なる方向を表すことができた。Ｈ．２６５（２０１３年）では３３個に増え、ＪＥＭ／ＶＶＣ／ＢＭＳは、公開時点で６５個の方向までサポートすることができる。最も可能性の高い方向を特定するために実験が行われ、エントロピーコーディングの特定の技術を使用して、可能性の低い方向に対して特定のペナルティを受け入れて、可能性のあるそれらの方向を少数のビットで表す。さらに、方向自体は、隣接する既に復号化したブロックで使用される隣接する方向から予測できる場合がある。

図２は、予測方向の数が経時的に増加することを示すＪＥＭによる６５個のイントラ予測方向を示す概略図（２０１）を示している。

方向を表すイントラ予測方向ビットをコーディングしたビデオ・ビットストリームにマッピングすることは、ビデオコーディング技術毎に異なる可能性があり、例えば、予測方向のイントラ予測モードへの単純な直接マッピングから、コードワード、最も可能性の高いモードを含む複雑な適応スキーム、及び同様の技術にまで及ぶ。ただし、全ての場合において、他の特定の方向よりもビデオコンテンツで発生する可能性が統計的に低い特定の方向が存在する可能性がある。ビデオ圧縮の目標が冗長性の削減であるため、適切に機能するビデオコーディング技術では、これらの可能性が低い方向は、可能性が高い方向よりも多くのビット数で表される。

本開示の態様は、イントラ文字列コピーに基づく方法等、ビデオの符号化／復号化のための方法を提供する。

本開示の一態様によれば、デコーダのビデオ復号化の方法が提供される。この方法では、コーディングされる領域内のブロックのコーディング情報を、コーディングしたビデオ・ビットストリームから受信することができる。コーディング情報には、ブロックに関連付けられたシグナリング情報及びシンタックス要素が含まれ得、シンタックス要素のそれぞれには１つ又は複数のビンが含まれ得、ブロックには複数の文字列が含まれ得、ブロックは、文字列マッチングモードによってコーディングされ得る。閾値が、コンテキスト・コーディングモードによってコーディンが許容されるブロックに関連付けられたビンの最大数に基づいて決定され得る。シンタックス要素のうちの第１のシンタックス要素のビンの数が決定され得る。第１のシンタックス要素の１つ又は複数のビンを使用して、文字列マッチングモードのブロックが復号化され得る。ここで、第１のシンタックス要素のビンの数は、コンテキスト・コーディングモードに許容されるビンの最大数を示す閾値によって制限される。

いくつかの実施形態では、第１のシンタックス要素は、（ｉ）第１のシンタックス要素のビンの数が閾値未満であることに応答して、コンテキスト・コーディングモード、及び（ｉｉ）第１のシンタックス要素のビンの数が閾値以上であることに応答して、バイパス・コーディングモードのうちの１つに基づいてコーディングされ得る。

この方法では、複数の文字列のそれぞれには１つ又は複数のサンプルが含まれ得る。一例では、文字列マッチングモードは、イントラ文字列コピー（ＩＳＣ）モードを含むことができる。ＩＳＣモードは、文字列オフセットベクトルによって示されるそれぞれの参照文字列に基づいて、ブロック内の複数の文字列のそれぞれを再構成するように構成され得る。別の例では、文字列マッチングモードは等値文字列（ＥＶＳ）モードを含むことができる。ＥＶＳモードは、参照文字列の値を対応する文字列の上にコピーするか、又は対応する文字列の第１のサンプルの値を用いて対応する文字列内の他のサンプルの値を設定することによって、ブロック内の複数の文字列のそれぞれを再構成するように構成され得る。

一実施形態では、閾値を決定するために、平均閾値が決定され得る。平均閾値は、コンテキスト・コーディングモードによってコーディンが許容される、ブロックのサンプルのそれぞれにおけるビンの平均数を示すことができる。さらに、閾値は、平均閾値とブロック内のサンプルの総数との積となるようように決定することができる。

いくつかの例では、平均閾値は、（ｉ）スライスヘッダ、ピクチャヘッダ、及びシーケンスヘッダのうちの１つにおいてシグナリングされる、コーディング情報のシグナリング情報、及び（ｉｉ）予め規定した値のうちの１つに基づいて決定され得る。

いくつかの例では、平均閾値は１．１２５、１．２５、及び１．７５のうちの１つを含み得る。

いくつかの例では、平均閾値は、ＥＶＳモードでコーディングしたブロックに基づいて、コンテキスト・コーディングモードによってコーディングが許容されるブロックに関連付けられたビンの最大数に基づき得る。

いくつかの例では、平均閾値は、ブロックが、イントラ予測モード、イントラブロックコピーモード、インター予測モードのうちの１つによってコーディングされるときに、コンテキスト・コーディングモードによってコーディングが許容される、ブロックに関連付けられたビンの最大数に基づき得る。

別の実施形態では、閾値を決定するために、カットオフ数が決定され得る。カットオフ数は、（ｉ）スライスヘッダ、ピクチャヘッダ、及びシーケンスヘッダのうちの１つにおいてシグナリングされる、コーディング情報のシグナリング情報、及び（ｉｉ）予め規定した値のうちの１つに基づき得る。閾値は、さらに、（ｉ）平均閾値とブロック内のサンプルの総数との積から（ｉｉ）カットオフ数を引いた値となるように決定され得る。

カットオフ数は、第１のシンタックス要素についてコンテキスト・コーディングモードによってコーディングが許容されるビンの最大数、文字列マッチングモードによってコーディングしたブロックに関連付けられたシンタックス要素の１つについて、文字列マッチングモードによってコーディングが許容されるビンの最大数、定数値と平均閾値との積、及び文字列マッチングモードによってコーディングしたブロックに関連付けられたシンタックス要素のうちの１つについて、コンテキスト・コーディングモードによってコーディングが許容されるビンの最大数の半分のうちの１つに設定され得る。

本開示の別の態様によれば、エンコーダのビデオ符号化の方法が提供される。この方法では、ビデオ内の領域のブロックに関連付けられたシンタックス要素が受け取られ得る。ブロックは文字列マッチングモードでコーディングされ得、シンタックス要素のそれぞれには１つ又は複数のビンが含まれ得、ブロックには複数の文字列が含まれ得る。閾値が、コンテキスト・コーディングモードによってコーディンが許容される、ブロックに関連付けられたビンの最大数に基づいて決定され得る。シンタックス要素のうちの第１のシンタックス要素のビンの数が決定され得る。文字列マッチングモードのブロックは、第１のシンタックス要素の１つ又は複数のビンを使用してコーディングされ得、第１のシンタックス要素のビンの数は、コンテキスト・コーディングモードに許容されるビンの最大数を示す閾値によって制限される。

いくつかの実施形態では、第１のシンタックス要素は、さらに、（ｉ）第１のシンタックス要素のビンの数が閾値未満であることに応答して、コンテキスト・コーディングモード、及び（ｉｉ）第１のシンタックス要素のビンの数が閾値以上であることに応答して、バイパス・コーディングモードのうちの１つに基づいてコーディングされ得る。

この方法では、複数の文字列のそれぞれには１つ又は複数のサンプルが含まれ得る。一例では、文字列マッチングモードはＩＳＣモードを含むことができる。ＩＳＣモードは、文字列オフセットベクトルによって示されるそれぞれの参照文字列に基づいて、ブロック内の複数の文字列のそれぞれを再構成するように構成され得る。別の例では、文字列マッチングモードはＥＶＳモードを含むことができる。ＥＶＳモードは、参照文字列の値を対応する文字列の上にコピーするか、又は対応する文字列の第１のサンプルの値を用いて対応する文字列の他のサンプルの値を設定することによって、ブロック内の複数の文字列のそれぞれを再構成するように構成され得る。

一実施形態では、閾値を決定するために、平均閾値が決定され得る。平均閾値は、コンテキスト・コーディングモードによってコーディンが許容される、ブロックのサンプルのそれぞれにおけるビンの平均数を示し得る。さらに、閾値は、平均閾値とブロック内のサンプルの総数との積となるように決定され得る。

この方法では、シグナリング情報を含むコーディングしたビットストリームが出力され得、シグナリング情報は、スライスヘッダ、ピクチャヘッダ、及びシーケンスヘッダのうちの１つでシグナリングされ、決定した平均閾値を示し得る。

いくつかの例では、平均閾値は、１．１２５、１．２５、及び１．７５のうちの１つを含み得る。

いくつかの例では、平均閾値は、ＥＶＳモードでコーディングしたブロックに基づいて、コンテキスト・コーディングモードによってコーディングが許容される、ブロックに関連付けられたビンの最大数に基づき得る。

別の実施形態では、閾値を決定するために、カットオフ数が決定され得る。閾値は、（ｉ）平均閾値とブロック内のサンプルの総数との積から（ｉｉ）カットオフ数を引いた値となるようにさらに決定され得る。

カットオフ数は、第１のシンタックス要素についてコンテキスト・コーディングモードによってコーディングが許容されるビンの最大数、文字列マッチングモードによってコーディングしたブロックに関連付けられたシンタックス要素のうちの１つについて、コンテキスト・コーディングモードによってコーディングが許容されるビンの最大数、定数値と平均閾値との積、及び文字列マッチングモードによってコーディングしたブロックに関連付けられたシンタックス要素のうちの１つについて、コンテキスト・コーディングモードによってコーディングが許容されるビンの最大数の半分のうちの１つに設定され得る。

開示する主題の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになろう。
イントラ予測モードの例示的なサブセットの概略図である。例示的なイントラ予測方向の図である。一実施形態による通信システム（３００）の簡略ブロック図の概略図である。一実施形態による通信システム（４００）の簡略ブロック図の概略図である。一実施形態によるデコーダの簡略化したブロック図の概略図である。一実施形態によるエンコーダの簡略化したブロック図の概略図である。別の実施形態によるエンコーダのブロック図である。別の実施形態によるデコーダのブロック図である。一実施形態によるイントラピクチャブロック補償の例示的な実施形態を示す図である。イントラピクチャブロック補償の例示的な実施形態を示す図である。イントラピクチャブロック補償の例示的な実施形態を示す図である。イントラピクチャブロック補償の例示的な実施形態を示す図である。イントラピクチャブロック補償の例示的な実施形態を示す図である。一実施形態による空間マージ候補の例示的な位置を示す図である。イントラ文字列コピーの例示的な実施形態を示す図である。本開示のいくつかの実施形態による第１のプロセス例を概説するフローチャートである。本開示のいくつかの実施形態による第２のプロセス例を概説するフローチャートである。一実施形態によるコンピュータシステムの概略図である。

図３は、本開示の一実施形態による通信システム（３００）の簡略ブロック図を示す。通信システム（３００）は、例えばネットワーク（３５０）を介して互いに通信可能な複数の端末装置を含む。例えば、通信システム（３００）は、ネットワーク（３５０）を介して相互接続された第１のペアの端末装置（３１０）及び（３２０）を含む。図３の例では、第１のペアの端末装置（３１０）及び（３２０）は、データの一方向送信を行う。例えば、端末装置（３１０）は、ビデオデータ（例えば、端末装置（３１０）によって取り込まれたビデオピクチャのストリーム）をコーディングして、ネットワーク（３５０）を介して他の端末装置（３２０）に送信することができる。符号化したビデオデータは、１つ又は複数のコーディングしたビデオ・ビットストリームの形式で送信され得る。端末装置（３２０）は、ネットワーク（３５０）からコーディングしたビデオデータを受信し、コーディングしたビデオデータを復号化してビデオピクチャを復元し、復元したビデオデータに従ってビデオピクチャを表示することができる。一方向データ送信は、メディア提供アプリケーション等では一般的であり得る。

別の例では、通信システム（３００）は、例えばテレビ会議中に起こり得るコーディングしたビデオデータの双方向送信を行う第２のペアの端末装置（３３０）及び（３４０）を含む。データの双方向送信の場合に、一例では、端末装置（３３０）及び（３４０）の各端末装置は、ビデオデータ（例えば、端末装置によって取り込まれたビデオピクチャのストリーム）をコーディングして、ネットワーク（３５０）を介して端末装置（３３０）及び（３４０）の他方の端末に送信することができる。端末装置（３３０）及び（３４０）の各端末装置はまた、端末装置（３３０）及び（３４０）の他方の端末装置によって送信されたコーディングしたビデオデータを受信し、コーディングしたビデオデータを復号化してビデオを復元することができ、そして、復元したビデオデータに従って、アクセス可能な表示装置にビデオピクチャを表示することもできる。

図３の例では、端末装置（３１０）、（３２０）、（３３０）、及び（３４０）は、サーバ、パーソナルコンピュータ、及びスマートフォンとして示されるが、本開示の原理はそれに限定されない場合がある。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、及び／又は専用ビデオ会議機器に用途を見出される。ネットワーク（３５０）は、端末装置（３１０）、（３２０）、（３３０）及び（３４０）の間でコーディングしたビデオデータを伝達する、例えば有線（有線接続された）及び／又は無線通信ネットワークを含む任意の数のネットワークを表す。通信ネットワーク（３５０）は、回線交換チャネル及び／又はパケット交換チャネルでデータを交換することができる。代表的なネットワークには、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、及び／又はインターネットが含まれる。本議論の目的のために、ネットワーク（３５０）のアーキテクチャ及びトポロジーは、本明細書で以下に説明しない限り、本開示の動作にとって重要ではないかもしれない。

図４は、開示する主題のアプリケーションの例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示する主題は、例えば、ビデオ会議、デジタルＴＶ、及びＣＤ、ＤＶＤ、メモリスティック等を含むデジタルメディアへの圧縮ビデオの格納等を含む、他のビデオ対応アプリケーションにも同様に適用可能である。

ストリーミングシステムは、ビデオソース（４０１）、例えば圧縮していないビデオピクチャ（４０２）のストリームを作成するデジタルカメラを含むことができる取込みサブシステム（４１３）を含むことができる。一例では、ビデオピクチャ（４０２）のストリームには、デジタルカメラによって撮影されたサンプルが含まれる。符号化したビデオデータ（４０４）（又はコーディングしたビデオ・ビットストリーム）と比較したときにデータ量が多いことを強調するために太線で示されるビデオピクチャ（４０２）のストリームは、ビデオソース（４０１）に結合したビデオエンコーダ（４０３）を含む電子装置（４２０）によって処理され得る。ビデオエンコーダ（４０３）は、以下でより詳細に説明するように、開示する主題の態様を可能にするか又は実現するために、ハードウェア、ソフトウェア、又はそれらの組合せを含むことができる。ビデオピクチャ（４０２）のストリームと比較したときにデータ量が少ないことを強調するために細線で示される符号化したビデオデータ（４０４）（又は符号化したビデオ・ビットストリーム（４０４））は、将来の使用のためにストリーミングサーバ（４０５）に格納され得る。図４のクライアント・サブシステム（４０６）及び（４０８）等の１つ又は複数のストリーミング・クライアント・サブシステムは、ストリーミングサーバ（４０５）にアクセスして、符号化したビデオデータ（４０４）のコピー（４０７）及び（４０９）を取り出すことができる。クライアント・サブシステム（４０６）は、例えば電子装置（４３０）内にビデオデコーダ（４１０）を含むことができる。ビデオデコーダ（４１０）は、符号化したビデオデータの着信コピー（４０７）を復号化し、ディスプレイ（４１２）（例えば、表示画面）又は他のレンダリング装置（図示せず）上にレンダリングされ得るビデオピクチャ（４１１）の発信ストリームを作成する。一部のストリーミングシステムでは、符号化したビデオデータ（４０４）、（４０７）、及び（４０９）（例えば、ビデオ・ビットストリーム）は、特定のビデオコーディング／圧縮規格に従って符号化され得る。これらの規格の例には、ＩＴＵ－Ｔ勧告Ｈ．２６５が含まれる。一例として、開発中のビデオコーディング規格は、多目的ビデオコーディング（ＶＶＣ）として非公式に知られている。開示する主題は、ＶＶＣの文脈で使用され得る。

電子装置（４２０）及び（４３０）は、他のコンポーネント（図示せず）を含むことができることに留意されたい。例えば、電子装置（４２０）はビデオデコーダ（図示せず）を含むことができ、電子装置（４３０）はビデオエンコーダ（図示せず）も含むことができる。

図５は、本開示の一実施形態によるビデオデコーダ（５１０）のブロック図を示す。ビデオデコーダ（５１０）は、電子装置（５３０）に含めることができる。電子装置（５３０）は、受信機（５３１）（例えば、受信回路）を含むことができる。ビデオデコーダ（５１０）は、図４の例のビデオデコーダ（４１０）の代わりに使用することができる。

受信機（５３１）は、ビデオデコーダ（５１０）によって復号化される１つ又は複数のコーディングしたビデオシーケンスを受信することができる。同じ又は別の実施形態では、一度に１つのビデオシーケンスがコーディングされ、各コーディングしたビデオシーケンスの復号化は、他のコーディングしたビデオシーケンスから独立している。コーディングしたビデオシーケンスは、チャネル（５０１）から受信され得、チャネルは、符号化したビデオデータを記憶する記憶装置へのハードウェア／ソフトウェアリンクであり得る。受信機（５３１）は、符号化したビデオデータを他のデータ、例えばコーディングした音声データ及び／又は補助データストリームと共に受信し得、それらはそれぞれの使用エンティティ（図示せず）に転送され得る。受信機（５３１）は、コーディングしたビデオシーケンスを他のデータから分離することができる。ネットワークのジッタに対処するために、バッファメモリ（５１５）が、受信機（５３１）とエントロピーデコーダ／パーサー（５２０）（以後、「パーサー（５２０）」）との間に結合され得る。特定のアプリケーションでは、バッファメモリ（５１５）はビデオデコーダ（５１０）の一部である。他の場合には、そのバッファメモリ（５１５）はビデオデコーダ（５１０）の外部にあってもよい（図示せず）。さらに他の例では、ビデオデコーダ（５１０）の外側にバッファメモリ（図示せず）を設けて、例えばネットワークジッタに対処し、さらに、ビデオデコーダ（５１０）の内部に別のバッファメモリ（５１５）を設けて、プレイアウト（playout）のタイミングを処理する。受信機（５３１）が、十分な帯域幅及び制御可能性の格納装置／転送装置から、又は等同期ネットワークからデータを受信している場合に、バッファメモリ（５１５）は必要ないか、又は小さくてよい。インターネット等のベストエフォート型パケットネットワークで使用する場合に、バッファメモリ（５１５）が必要になる場合があり、バッファメモリ（５１５）は、比較的大きくすることができ、サイズを有利に適応させることができ、ビデオデコーダ（５１０）の外にあるオペレーティングシステム又は同様の要素（図示せず）で少なくとも部分的に実装することができる。

ビデオデコーダ（５１０）は、コーディングしたビデオシーケンスからシンボル（５２１）を再構成するパーサー（５２０）を含み得る。図５に示されるように、これらのシンボルのカテゴリには、ビデオデコーダ（５１０）の動作を管理するために使用される情報と、電子装置（５３０）の必須の部分ではないが電子装置（５３０）に結合され得るレンダリング装置（５１２）（例えば、表示画面）等のレンダリング装置を制御するための潜在的な情報とが含まれる。レンダリング装置の制御情報は、ＳＥＩメッセージ（Supplemental Enhancement Information）又はＶＵＩ（Video
Usability Information）パラメータセット・フラグメント（図示せず）の形式であり得る。パーサー（５２０）は、受信したコーディングしたビデオシーケンスを解析／エントロピー復号化することができる。コーディングされるビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、可変長コーディング、ハフマン・コーディング、コンテキスト依存又はコンテキスト非依存の算術コーディング等を含む様々な原則に従うことができる。パーサー（５２０）は、グループに対応する少なくとも１つのパラメータに基づいて、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも１つに対するサブグループ・パラメータのセットをコーディングしたビデオシーケンスから抽出することができる。サブグループには、ＧＯＰ（Group of Pictures）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ）、ブロック、変換ユニット（ＴＵ）、予測ユニット（ＰＵ）等を含めることができる。パーサー（５２０）はまた、変換係数、量子化パラメータ値、動きベクトル等の情報を、コーディングしたビデオシーケンスから抽出することができる。

パーサー（５２０）は、バッファメモリ（５１５）から受信したビデオシーケンスに対してエントロピー復号化／解析動作を実行して、シンボル（５２１）を作成することができる。

シンボルの再構成（５２１）は、コーディングしたビデオピクチャ又はその部分（インターピクチャ及びイントラピクチャ、インターブロック及びイントラブロック等）のタイプ、及び他の要因に応じて、複数の異なるユニットを含むことができる。どのユニットがどのように関与するかは、パーサー（５２０）がコーディングしたビデオシーケンスから解析したサブグループ制御情報によって制御され得る。パーサー（５２０）と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確にするために図示していない。

既に述べた機能ブロックを超えて、ビデオデコーダ（５１０）は、以下に説明するように、概念的にいくつかの機能ユニットに細分化され得る。商業的な制約の下で動作する実際の実施態様では、これらのユニットの多くは、互いに密接に相互作用し、少なくとも部分的に互いに統合することができる。しかしながら、開示する主題を説明する目的のために、以下の機能ユニットへの概念的な細分化は適切である。

第１のユニットは、スケーラー／逆変換ユニット（５５１）である。スケーラー／逆変換ユニット（５５１）は、量子化した変換係数と、使用する変換、ブロックサイズ、量子化係数、量子化スケーリング・マトリックス等を含む制御情報とを、パーサー（５２０）からシンボル（５２１）として受信する。スケーラー／逆変換ユニット（５５１）は、アグリゲータ（aggregator）（５５５）に入力することができるサンプル値を含むブロックを出力することができる。

場合によっては、スケーラー／逆変換（５５１）の出力サンプルは、イントラコーディングブロック、つまり、以前に再構成したピクチャからの予測情報を使用しないが、現在のピクチャの以前に再構成した部分からの予測情報を使用することができるブロックに関係し得る。そのような予測情報は、イントラピクチャ予測ユニット（５５２）によって提供され得る。場合によっては、イントラピクチャ予測ユニット（５５２）は、現在のピクチャバッファ（５５８）からフェッチされた周囲の再構成済みの情報を使用して、再構成中のブロックと同じサイズ及び形状のブロックを生成する。現在のピクチャバッファ（５５８）は、例えば、部分的に再構成した現在のピクチャ及び／又は完全に再構成した現在のピクチャをバッファリングする。アグリゲータ（５５５）は、場合によっては、サンプル毎に、イントラ予測ユニット（５５２）が生成した予測情報を、スケーラー／逆変換ユニット（５５１）によって提供される出力サンプル情報に追加する。

他の場合では、スケーラー／逆変換ユニット（５５１）の出力サンプルは、インターコーディングされ、潜在的に動き補償されたブロックに関係することができる。そのような場合に、動き補償予測ユニット（５５３）は、参照ピクチャメモリ（５５７）にアクセスして、予測に使用されるサンプルをフェッチすることができる。ブロックに関連するシンボル（５２１）に従ってフェッチされたサンプルを動き補償した後に、これらのサンプルは、アグリゲータ（５５５）によって、スケーラー／逆変換ユニット（５５１）の出力に追加され（この場合、残差サンプル又は残差信号と呼ばれる）、出力サンプル情報を生成することができる。動き補償予測ユニット（５５３）が予測サンプルをフェッチする参照ピクチャメモリ（５５７）内のアドレスは、例えば、Ｘ、Ｙ、及び参照ピクチャ成分を有し得るシンボル（５２１）の形式で動き補償予測ユニット（５５３）に利用可能な動きベクトルによって制御することができる。動き補償は、サブサンプルの正確な動きベクトルが使用される場合に、参照ピクチャメモリ（５５７）からフェッチされたサンプル値の補間、動きベクトル予測メカニズム等も含むことができる。

アグリゲータ（５５５）の出力サンプルは、ループフィルタユニット（５５６）において様々なループフィルタリング技術を受け得る。ビデオ圧縮技術には、コーディングしたビデオシーケンス（コーディングしたビデオ・ビットストリームとも呼ばれる）に含まれるパラメータによって制御され、パーサー（５２０）からのシンボル（５２１）としてループフィルタユニット（５５６）に利用可能にされるが、コーディングしたピクチャ又はコーディングしたビデオシーケンスの以前の（デコード順で）部分の復号化中に取得したメタ情報に応答することも、以前に再構成しループフィルタ処理したサンプル値に応答することもできるインループフィルタ技術を含むことができる。

ループフィルタユニット（５５６）の出力は、レンダリング装置（５１２）に出力することができるとともに、将来のインターピクチャ予測で使用するために参照ピクチャメモリ（５５７）に格納することができるサンプルストリームであり得る。

特定のコーディングしたピクチャは、完全に再構成されると、将来の予測のための参照ピクチャとして使用することができる。例えば、現在のピクチャに対応するコーディングしたピクチャが完全に再構成され、コーディングしたピクチャが（例えば、パーサー（５２０）によって）参照ピクチャとして特定されると、現在のピクチャバッファ（５５８）は参照ピクチャメモリ（５５７）一部になることができ、新しい現在のピクチャバッファは、次のコーディングしたピクチャの再構成を開始する前に再割り当てされ得る。

ビデオデコーダ（５１０）は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５等の規格で所定のビデオ圧縮技術に従って復号化動作を行うことができる。コーディングしたビデオシーケンスは、コーディングしたビデオシーケンスが、ビデオ圧縮技術又は規格のシンタックスと、ビデオ圧縮技術又は規格で文書化されているプロファイルとの両方に準拠しているという意味で、使用しているビデオ圧縮技術又は規格によって指定されたシンタックスに準拠することができる。具体的には、プロファイルは、ビデオ圧縮技術又は規格で利用可能な全てのツールから、そのプロファイルで使用できる唯一のツールとして特定のツールを選択することができる。また、コーディングしたビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルによって規定した範囲内にあることも、コンプライアンスに必要な場合がある。場合によっては、レベルによって、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（例えば、１秒あたりのメガサンプル数で測定される）、最大参照ピクチャサイズ等が制限される。レベルによって設定された制限は、場合によっては、ＨＲＤ（Hypothetical Reference Decoder）仕様と、コーディングしたビデオシーケンスで通知されるＨＲＤバッファ管理のメタデータとによってさらに制限され得る。

一実施形態では、受信機（５３１）は、符号化したビデオと共に追加の（冗長な）データを受信することができる。追加のデータは、コーディングしたビデオシーケンスの一部として含めることができる。追加データは、データを適切にデコードする及び／又は元のビデオデータをより正確に再構成するために、ビデオデコーダ（５１０）によって使用され得る。追加データは、例えば、時間的、空間的、又は信号雑音比（ＳＮＲ）エンハンスメントレイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号等の形態をとることができる。

図６は、本開示の一実施形態によるビデオエンコーダ（６０３）のブロック図を示す。ビデオエンコーダ（６０３）は、電子装置（６２０）内に含まれる。電子装置（６２０）は、送信機（６４０）（例えば、送信回路）を含む。ビデオエンコーダ（６０３）は、図４の例のビデオエンコーダ（４０３）の代わりに使用することができる。

ビデオエンコーダ（６０３）は、ビデオエンコーダ（６０３）によってコーディングされるビデオ画像を取り込むことができるビデオソース（６０１）（図６の例では電子装置（６２０）の一部ではない）からビデオサンプルを受信することができる。別の例では、ビデオソース（６０１）は電子装置（６２０）の一部である。

ビデオソース（６０１）は、ビデオエンコーダ（６０３）によってコーディングされるソース・ビデオシーケンスを、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット等）、任意の色空間（ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ等）、及び適切なサンプリング構造（ＹＣｒＣＢ４：２：０、ＹＣｒＣＢ４：４：４等）であり得るデジタルビデオサンプルストリームの形態で提供することができる。メディア提供システムでは、ビデオソース（６０１）は、以前に準備したビデオを格納する記憶装置であり得る。ビデオ会議システムでは、ビデオソース（６０１）は、ローカル画像情報をビデオシーケンスとして取り込むカメラであり得る。ビデオデータは、連続して見たときに動きを与える複数の個別のピクチャとして提供され得る。ピクチャ自体は、ピクセルの空間アレイとして編成することができ、各ピクセルは、使用中のサンプリング構造、色空間等に応じて、１つ又は複数のサンプルを含むことができる。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。

一実施形態によれば、ビデオエンコーダ（６０３）は、ソース・ビデオシーケンスのピクチャをコーディングして、アプリケーションによって必要とされる任意の他の時間制約の下で、コーディングしたビデオシーケンス（６４３）にリアルタイムで圧縮することができる。適切なコーディング速度を強制することは、コントローラ（６５０）の１つの機能である。いくつかの実施形態では、コントローラ（６５０）は、後述するように他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。明確にするために、結合は描いていない。コントローラ（６５０）によって設定されるパラメータには、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値等）、ピクチャサイズ、ＧＯＰ（group of pictures）レイアウト、最大動きベクトル検索範囲等が含まれ得る。コントローラ（６５０）は、特定のシステム設計のために最適化されたビデオエンコーダ（６０３）に関連する他の適切な機能を有するように構成され得る。

いくつかの実施形態では、ビデオエンコーダ（６０３）は、コーディングループで動作するように構成される。非常に単純化した説明として、例では、コーディングループは、ソースコーダ（６３０）（例えば、コーディングされる入力ピクチャ及び参照ピクチャに基づいて、シンボルストリーム等のシンボルを作成する役割を担う）、及びビデオエンコーダ（６０３）に埋め込まれた（ローカル）デコーダ（６３３）を含むことができる。デコーダ（６３３）は、シンボルを再構成して、（開示する主題で考慮されるビデオ圧縮技術では、シンボルとコーディングしたビデオ・ビットストリームとの間の圧縮は可逆であるため）（リモート）デコーダも作成するのと同様の方法でサンプルデータを作成する。再構成したサンプルストリーム（サンプルデータ）は、参照ピクチャメモリ（６３４）に入力される。シンボルストリームの復号化は、デコーダの位置（ローカル又はリモート）とは無関係にビット単位の正確な結果をもたらすため、参照ピクチャメモリ（６３４）の内容も、ローカルエンコーダとリモートエンコーダとの間でビット単位で正確である。換言すると、エンコーダの予測部分は、デコーダが復号化中に予測を使用するときに「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャ同期のこの基本原理（及び、例えばチャネルエラーのために同期が維持できない場合に生じるドリフト）は、一部の関連技術でも使用されている。

「ローカル」デコーダ（６３３）の動作は、図５に関連して上で既に説明したビデオデコーダ（５１０）等の「リモート」デコーダの動作と同じであり得る。図５についても簡単に参照すると、ただし、シンボルが利用可能であり、エントロピーコーダ（６４５）及びパーサー（５２０）によるコーディングしたビデオシーケンスに対するシンボルの符号化／復号化は可逆であり得るので、バッファメモリ（５１５）を含むビデオデコーダ（５１０）及びパーサー（５２０）のエントロピー復号化部分は、ローカルデコーダ（６３３）に完全には実装されない場合がある。

この時点で観察できることは、デコーダに存在する解析／エントロピー復号化を除く任意のデコーダ技術も、対応するエンコーダにおいて実質的に同一の機能形式で必然的に存在する必要があるということである。このため、開示する主題は、デコーダの動作に焦点を当てている。エンコーダ技術の説明は、包括的に説明しているデコーダ技術の逆であるため、省略できる。特定の領域でのみ、より詳細な説明が必要であり、以下で説明している。

動作中に、いくつかの例では、ソースコーダ（６３０）は、「参照ピクチャ」として指定されたビデオシーケンスからの１つ又は複数の以前にコーディングしたピクチャを参照して入力ピクチャを予測的にコーディングする動き補償予測コーディングを実行することができる。このようにして、コーディングエンジン（６３２）は、入力ピクチャのピクセルブロックと、入力ピクチャに対する予測参照として選択され得る参照ピクチャのピクセルブロックとの間の差分をコーディングする。

ローカルビデオデコーダ（６３３）は、ソースコーダ（６３０）によって作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコーディングしたビデオデータを復号化し得る。コーディングエンジン（６３２）の動作は、不可逆プロセスであることが有利となり得る。コーディングしたビデオデータがビデオデコーダ（図６には図示せず）で復号化され得る場合に、再構成したビデオシーケンスは、典型的に、いくつかのエラーを含むソース・ビデオシーケンスの複製であり得る。ローカルビデオデコーダ（６３３）は、ビデオデコーダが参照ピクチャに対して実行し得、再構成した参照ピクチャを参照ピクチャキャッシュ（６３４）に格納させ得る復号化プロセスを複製する。このようにして、ビデオエンコーダ（６０３）は、ファーエンドビデオデコーダ（不在送信エラー）によって取得される再構成した参照ピクチャと共通の内容を有する再構成参照ピクチャのコピーをローカルに格納することができる。

予測器（predictor）（６３５）は、コーディングエンジン（６３２）の予測検索を実行することができる。すなわち、コーディングされる新しいピクチャについて、予測器（６３５）は、サンプルデータ（候補参照ピクセルブロックとして）又は参照ピクチャ動きベクトル、ブロック形状等の特定のメタデータを求めて参照ピクチャメモリ（６３４）を検索することができ、それは、新しいピクチャの適切な予測参照として機能し得る。予測器（６３５）は、適切な予測参照を見つけるために、サンプルブロック対ピクセルブロック（sample block-by-pixel block）のベースで動作することができる。場合によっては、予測器（６３５）が得た検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ（６３４）に格納された複数の参照ピクチャから引き出された予測参照を有し得る。

コントローラ（６５０）は、例えば、ビデオデータを符号化するために使用したパラメータ及びサブグループ・パラメータの設定を含む、ソースコーダ（６３０）のコーディング動作を管理することができる。

前述の全ての機能ユニットの出力は、エントロピーコーダ（６４５）においてエントロピーコーディングを受け得る。エントロピーコーダ（６４５）は、ハフマン・コーディング、可変長コーディング、算術コーディング等の技術に従ってシンボルを可逆圧縮することにより、様々な機能ユニットによって生成されたシンボルをコーディングされるビデオシーケンスに変換する。

送信機（６４０）は、エントロピーコーダ（６４５）が作成したコーディングしたビデオシーケンスをバッファリングして、（符号化したビデオデータを格納する）ストレージデバイスへのハードウェア／ソフトウェアリンクであり得る通信チャネル（６６０）を介した送信に備えることができる。送信機（６４０）は、ビデオコーダ（６０３）からのコーディングしたビデオデータを、送信すべき他のデータ、例えばコーディングしたオーディオデータ及び／又は補助データストリーム（ソースは図示せず）とマージすることができる。

コントローラ（６５０）は、ビデオエンコーダ（６０３）の動作を管理することができる。コーディング中に、コントローラ（６５０）は、それぞれのピクチャに適用され得るコーディング技術に影響を及ぼし得る特定のコーディングしたピクチャタイプを各コーディングしたピクチャに割り当て得る。例えば、大抵の場合、ピクチャは次のいずれかのピクチャタイプとして割り当てられる。

イントラピクチャ（Ｉピクチャ）は、予測のソースとしてシーケンス内の他のピクチャを使用せずに符号化及び復号化され得るピクチャであり得る。一部のビデオコーデックは、例えば独立デコーダリフレッシュ（ＩＤＲ）ピクチャを含む、様々なタイプのイントラピクチャを許容する。当業者は、Ｉピクチャのそれらの変形、並びにそれらのそれぞれの用途及び特徴を知っている。

予測ピクチャ（Ｐピクチャ）は、各ブロックのサンプル値を予測するために最大１つの動きベクトル及び参照インデックスを使用するイントラ予測又はインター予測を使用して符号化及び復号化され得るピクチャであり得る。

双方向予測ピクチャ（Ｂピクチャ）は、各ブロックのサンプル値を予測するために最大２つの動きベクトル及び参照インデックスを使用するイントラ予測又はインター予測を使用して符号化及び復号化され得るピクチャであり得る。同様に、複数の予測ピクチャは、単一ブロックの再構成のために、３つ以上の参照画像及び関連するメタデータを使用することができる。

ソースピクチャは、一般に、空間的に複数のサンプルブロック（例えば、それぞれ４×４、８×８、４×８、又は１６×１６サンプルのブロック）に細分化され、ブロック毎にコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割当てによって決定されるように、他の（既にコーディングした）ブロックを参照して予測的にコーディングされ得る。例えば、Ｉピクチャのブロックは、非予測的にコーディングしてもよく、又は同じピクチャの既にコーディングしたブロックを参照して予測的にコーディング（空間予測又はイントラ予測）してもよい。Ｐピクチャのピクセルブロックは、空間的予測を介して、又は以前にコーディングした１つの参照ピクチャを参照した時間的予測を介して、予測的にコーディングされ得る。Ｂピクチャのブロックは、空間予測を介して、又は以前にコーディングした1つ又は２つの参照ピクチャを参照して時間的予測を介して、予測的にコーディングされ得る。

ビデオエンコーダ（６０３）は、ＩＴＵ－ＴＲｅｃ．Ｈ．２６５等の所定のビデオコーディング技術又は規格に従ってコーディング動作を実行することができる。その動作において、ビデオエンコーダ（６０３）は、入力ビデオシーケンスにおける時間的及び空間的冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実行することができる。従って、コーディングしたビデオデータは、使用しているビデオコーディング技術又は規格によって指定されたシンタックスに準拠し得る。

一実施形態では、送信機（６４０）は、符号化したビデオと共に追加のデータを送信することができる。ソースコーダ（６３０）は、コーディングしたビデオシーケンスの一部としてそのようなデータを含み得る。追加のデータは、時間／空間／ＳＮＲエンハンスメントレイヤ、冗長ピクチャ及びスライス等の他の形式の冗長データ、ＳＥＩメッセージ、ＶＵＩパラメータセット・フラグメント等を含み得る。

ビデオは、時系列における複数のソースピクチャ（ビデオピクチャ）として取り込まれられ得る。イントラピクチャ予測（大抵の場合、イントラ予測と省略される）は、所与のピクチャの空間相関を利用し、インターピクチャ予測は、ピクチャ同士の間の（時間的又は他の）相関を利用する。一例では、現在のピクチャと呼ばれる符号化／復号化中の特定のピクチャが、ブロックにパーティション分割される。現在のピクチャ内のブロックが、ビデオ内の以前にコーディングし、依然としてバッファリングされている参照ピクチャ内の参照ブロックに類似している場合に、現在のピクチャ内のブロックは、動きベクトルと呼ばれるベクトルによってコーディングされ得る。動きベクトルは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用されている場合に、参照ピクチャを特定する第３の次元を有することができる。

いくつかの実施形態では、双方向予測技術がインターピクチャ予測に使用され得る。双方向予測技術によれば、第１の参照ピクチャ及び第２の参照ピクチャ等の２つの参照ピクチャが使用され、両方の参照ピクチャともビデオ内の現在のピクチャよりもデコード順で前になる（が、表示順でそれぞれ過去及び未来になり得る）。現在のピクチャ内のブロックは、第１の参照ピクチャ内の第１の参照ブロックを指す第１の動きベクトル、及び第２の参照ピクチャ内の第２の参照ブロックを指す第２の動きベクトルによってコーディングされ得る。ブロックは、第１の参照ブロック及び第２の参照ブロックの組合せによって予測され得る。

また、コーディング効率を向上させるために、インターピクチャ予測にマージモード技術を使用することができる。

本開示のいくつかの実施形態によれば、インターピクチャ予測及びイントラピクチャ予測等の予測は、ブロック単位で実行される。例えば、ＨＥＶＣ規格によれば、ビデオピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット（ＣＴＵ）にパーティション分割され、ピクチャ内のＣＴＵは、６４×６４ピクセル、３２×３２ピクセル、又は１６×１６ピクセル等の同じサイズを有する。一般に、ＣＴＵは、１つのルマＣＴＢ及び２つのクロマＣＴＢである３つのコーディングツリーブロック（ＣＴＢ）を含む。各ＣＴＵは、１つ又は複数のコーディングユニット（ＣＵ）に再帰的に四分木分割され得る。例えば、６４×６４ピクセルのＣＴＵは、６４×６４ピクセルの１つのＣＵ、３２×３２ピクセルの４つのＣＵ、又は１６×１６ピクセルの１６個のＣＵに分割され得る。一例では、インター予測タイプ又はイントラ予測タイプ等のＣＵの予測タイプを決定するために、各ＣＵが解析される。ＣＵは、時間的及び／又は空間的な予測可能性に応じて、１つ又は複数の予測単位（ＰＵ）に分割される。一般に、各ＰＵは、ルマ（luma：輝度）予測ブロック（ＰＢ）、及び２つのクロマ（chroma：色差）ＰＢを含む。一実施形態では、コーディング（符号化／復号化）における予測演算は、予測ブロック単位で実行される。予測ブロックの例としてルマ予測ブロックを使用すると、予測ブロックは、８×８ピクセル、１６×１６ピクセル、８×１６ピクセル、１６×８ピクセル等のピクセルの値（例えば、ルマ値）のマトリックスを含む。

図７は、本開示の別の実施形態によるビデオエンコーダ（７０３）の図を示す。ビデオエンコーダ（７０３）は、ビデオピクチャのシーケンスにおける現在のビデオピクチャ内のサンプル値の処理ブロック（例えば、予測ブロック）を受信し、処理ブロックをコーディングしたビデオシーケンスの一部であるコーディングしたピクチャに符号化するように構成される。一例では、ビデオエンコーダ（７０３）は、図４の例のビデオエンコーダ（４０３）の代わりに使用される。

ＨＥＶＣの例では、ビデオエンコーダ（７０３）は、８×８サンプルの予測ブロック等の処理ブロックのサンプル値のマトリックスを受信する。ビデオエンコーダ（７０３）は、例えばレート歪み最適化を使用するイントラモード、インターモード、又は双予測モードを使用して、処理ブロックが最良にコーディングされるかどうかを判定する。処理ブロックがイントラモードでコーディングされる場合に、ビデオエンコーダ（７０３）は、イントラ予測技術を使用して、処理ブロックをコーディングしたピクチャに符号化することができる。処理ブロックがインターモード又は双方向予測モードでコーディングされる場合に、ビデオエンコーダ（７０３）は、インター予測又は双方向予測技術をそれぞれ使用して、処理ブロックをコーディングしたピクチャに符号化することができる。特定のビデオコーディング技術では、マージモードは、動きベクトルが、１つ又は複数の動きベクトル予測子から予測子の外側のコーディングした動きベクトル成分の恩恵を受けずに導出される、インターピクチャ予測サブモードとすることができる。ある他のビデオコーディング技術では、対象ブロックに適用可能な動きベクトル成分が存在し得る。一例では、ビデオエンコーダ（７０３）は、処理ブロックのモードを決定するモード決定モジュール（図示せず）等の他のコンポーネントを含む。

図７の例では、ビデオエンコーダ（７０３）は、図７に示されるように一緒に結合されるインターエンコーダ（７３０）、イントラエンコーダ（７２２）、残差計算器（７２３）、スイッチ（７２６）、残差エンコーダ（７２４）、汎用コントローラ（７２１）、及びエントロピーエンコーダ（７２５）を含む。

インターエンコーダ（７３０）は、現在のブロック（例えば、処理ブロック）のサンプルを受信し、そのブロックを参照ピクチャ内の１つ又は複数の参照ブロック（例えば、以前のピクチャ及び後のピクチャ内のブロック）と比較し、インター予測情報（例えば、インター符号化技術、動きベクトル、マージモード情報による冗長情報の記述）を生成し、任意の適切な技術を使用してインター予測情報に基づいてインター予測結果（例えば、予測ブロック）を計算するように構成される。いくつかの例では、参照ピクチャは、符号化したビデオ情報に基づいて復号化される復号化した参照ピクチャである。

イントラエンコーダ（７２２）は、現在のブロック（例えば、処理ブロック）のサンプルを受け取り、場合によっては、そのブロックを同じピクチャ内で既にコーディングしたブロックと比較し、変換後に量子化した係数を生成し、場合によっては、イントラ予測情報（例えば、１つ又は複数のイントラ符号化技術によるイントラ予測方向情報）も生成する。一例では、イントラエンコーダ（７２２）は、イントラ予測情報及び同じピクチャ内の参照ブロックに基づいて、イントラ予測結果（例えば、予測ブロック）も計算する。

汎用コントローラ（７２１）は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ（７０３）の他のコンポーネントを制御するように構成される。一例では、汎用コントローラ（７２１）は、ブロックのモードを決定し、モードに基づいて制御信号をスイッチ（７２６）に供給する。例えば、モードがイントラモードである場合に、汎用コントローラ（７２１）は、スイッチ（７２６）を制御して、残差計算器（７２３）が使用するイントラモードの結果を選択し、エントロピーエンコーダ（７２５）を制御してイントラ予測情報を選択し、イントラ予測情報をビットストリームに含める。モードがインターモードである場合に、汎用コントローラ（７２１）は、スイッチ（７２６）を制御して、残差計算器（７２３）が使用するインター予測の結果を選択し、エントロピーエンコーダ（７２５）を制御してインター予測情報を選択し、インター予測情報をビットストリームに含める。

残差計算器（７２３）は、受信ブロックと、イントラエンコーダ（７２２）又はインターエンコーダ（７３０）から選択した予測結果との差（残差データ）を計算するように構成される。残差エンコーダ（７２４）は、残差データに基づいて動作し、残差データを符号化して変換係数を生成するように構成される。一例では、残差エンコーダ（７２４）は、残差データを空間ドメインから周波数ドメインに変換し、変換係数を生成するように構成される。次に、変換係数は量子化処理を受け、量子化した変換係数が得られる。様々な実施形態では、ビデオエンコーダ（７０３）は残差デコーダ（７２８）も含む。残差デコーダ（７２８）は、逆変換を実行し、復号化した残差データを生成するように構成される。復号化した残差データは、イントラエンコーダ（７２２）及びインターエンコーダ（７３０）によって適切に使用され得る。例えば、インターエンコーダ（７３０）は、復号化した残差データ及びインター予測情報に基づいて復号化ブロックを生成することができ、イントラエンコーダ（７２２）は、復号化した残差データ及びイントラ予測情報に基づいて復号化ブロックを生成することができる。復号化ブロックは、復号化したピクチャを生成するために適切に処理され、復号化したピクチャは、メモリ回路（図示せず）にバッファリングされ、いくつかの例では参照ピクチャとして使用され得る。

エントロピーエンコーダ（７２５）は、符号化したブロックを含むようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ（７２５）は、ＨＥＶＣ規格等の適切な規格に従って様々な情報を含むように構成される。一例では、エントロピーエンコーダ（７２５）は、汎用制御データ、選択した予測情報（例えば、イントラ予測情報又はインター予測情報）、残差情報、及び他の適切な情報をビットストリームに含めるように構成される。開示する主題によれば、インターモード又は双方向予測モードのいずれかのマージサブモードでブロックをコーディングするときに、残差情報がないことに留意されたい。

図８は、本開示の別の実施形態によるビデオデコーダ（８１０）の図を示す。ビデオデコーダ（８１０）は、コーディングしたビデオシーケンスの一部であるコーディングしたピクチャを受信し、コーディングしたピクチャを復号化して再構成したピクチャを生成するように構成される。一例では、ビデオデコーダ（８１０）は、図４の例のビデオデコーダ（４１０）の代わりに使用される。

図８の例では、ビデオデコーダ（８１０）は、図８に示されるように一緒に結合されるエントロピーデコーダ（８７１）、インターデコーダ（８８０）、残差デコーダ（８７３）、再構成モジュール（８７４）、及びイントラデコーダ（８７２）を含む。

エントロピーデコーダ（８７１）は、コーディングしたピクチャから、コーディングしたピクチャを構成するシンタックス要素を表す特定のシンボルを再構成するように構成され得る。そのようなシンボルは、例えば、ブロックがコーディングされるモード（例えば、イントラモード、インターモード、双方向予測モード、後者の２つのマージサブモード又は別のサブモード等）、イントラデコーダ（８７２）又はインターデコーダ（８８０）が予測にそれぞれ使用する特定のサンプル又はメタデータを特定することができる予測情報（例えば、イントラ予測情報又はインター予測情報）、例えば量子化した変換係数の形式の残差情報等を含むことができる。一例では、予測モードがインター又は双予測モードである場合に、インター予測情報はインターデコーダ（８８０）に提供される。予測タイプがイントラ予測タイプである場合に、イントラ予測情報はイントラデコーダ（８７２）に提供される。残差情報は、逆量子化を受けることができ、残差デコーダ（８７３）に提供される。

インターデコーダ（８８０）は、インター予測情報を受信し、インター予測情報に基づいてインター予測の結果を生成するように構成される。

イントラデコーダ（８７２）は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成される。

残差デコーダ（８７３）は、逆量子化を実行して逆量子化変換係数を抽出し、逆量子化変換係数を処理して、残差を周波数ドメインから空間ドメインに変換するように構成される。残差デコーダ（８７３）はまた、（量子化パラメータ（ＱＰ）を含めるための）特定の制御情報を必要とすることがあり、その情報はエントロピーデコーダ（８７１）によって提供され得る（これは少量の制御情報のみであり得るため、データパスは示していない）。

再構成モジュール（８７４）は、残差デコーダ（８７３）が出力した残差及び（場合によってはインター又はイントラ予測モジュールが出力した）予測結果を空間ドメインで結合して、（再構成したピクチャの一部である可能性のある）再構成したブロックを形成するように構成され、これは再構成したビデオの一部であり得る。視覚的品質を向上させるために、デブロッキング操作等の他の適切な操作を実行できることに留意されたい。

ビデオエンコーダ（４０３）、（６０３）、及び（７０３）、並びにビデオデコーダ（４１０）、（５１０）、及び（８１０）は、任意の適切な技術を使用して実装できることに留意されたい。一実施形態では、ビデオエンコーダ（４０３）、（６０３）、及び（７０３）、並びにビデオデコーダ（４１０）、（５１０）、及び（８１０）は、１つ又は複数の集積回路を使用して実装することができる。別の実施形態では、ビデオエンコーダ（４０３）、（６０３）、及び（６０３）、並びにビデオデコーダ（４１０）、（５１０）、及び（８１０）は、ソフトウェア命令を実行する１つ又は複数のプロセッサを使用して実装することができる。

異なるピクチャからのブロックベースの補償は、動き補償と呼ばれ得る。同様に、同じピクチャ内の以前に再構成した領域からブロックベースの補償を実行することもでき、これは、イントラピクチャブロック補償、現在のピクチャ参照（ＣＰＲ）、又はイントラブロックコピー（ＩＢＣ）と呼ばれ得る。現在ブロックと参照ブロックとの間のオフセットを示す変位ベクトルは、ブロックベクトル（ＢＶ）と呼ばれ得る。任意の値（ｘ方向又はｙ方向のいずれかで正又は負）になり得る動き補償の動きベクトルとは異なり、ブロックベクトルにはいくつかの制約があり得る。例えば、現在のブロックによって参照される（指示される）参照ブロックは、使用可能であり、既に再構成されている必要がある。さらに、並列処理の考慮事項として、タイル境界又は波面ラダー形状境界であるいくつかの参照領域は除外される。

ブロックベクトルは、明示的モード又は暗黙的モードのいずれかによってコーディングされ得る。明示的モード（インターコーディングではＡＭＶＰモードとも呼ばれる）では、ブロックベクトルとブロックベクトルの予測子との間の差が通知され得る。暗示的モード（マージモード）では、ブロックベクトルは、マージ／スキップモードの動きベクトルと同様の方法で、ブロックベクトルの予測子から純粋に復元され得る。いくつかの実施態様では、ブロックベクトルの解像度を整数位置に制限することができる。他のシステム又は実施態様では、解像度が分数位置を指すのを許容することができる。

イントラブロックコピーは、ＩＢＣフラグ等のブロックレベルフラグをシグナリングすることによってブロックレベルで適用され得る。一実施形態では、ＩＢＣフラグは、現在のブロックがマージモードでコーディングされていないときにシグナリングされ得る。別の実施形態では、ＩＢＣフラグは、復号化した現在のピクチャを参照ピクチャとして扱うことができる参照インデックス手法によってシグナリングされ得る。ＨＥＶＣスクリーンコンテンツコーディング（ＳＣＣ）では、そのような参照ピクチャ（例えば、復号化される現在のピクチャ）は、参照ピクチャのリストの最後の位置に置かれ得る。いくつかの実施形態では、そのような特別な参照ピクチャ（例えば、復号化される現在のピクチャ）はまた、復号化ピクチャバッファ（ＤＰＢ）内の他の時間参照ピクチャとともに管理され得る。

いくつかの実施形態では、イントラブロックコピーは、イントラ予測モード又はインター予測モードとは異なる第３のモードとして扱われ得る。従って、マージモード及びＡＭＶＰモードにおけるブロックベクトル予測は、通常のインター予測モードから分離され得る。例えば、イントラブロックコピーモードのマージモードに対して別個のマージ候補リストを規定することができ、マージ候補リスト内のエントリは全てブロックベクトルである。同様に、イントラブロックコピーモードのＡＭＶＰモードのブロックベクトル予測リストには、ブロックベクトルのみを含めることができる。上述した両方のリストに適用される一般的な規則によれば、両方のリストは、候補導出プロセスに関して、インターマージ候補リスト又はＡＭＶＰ予測子リストと同じロジックに従うことができる。例えば、ＨＥＶＣ又はＶＶＣインターマージモードにおける空間的に隣接する５つの位置は、イントラブロックコピーのためのマージ候補リストを導出するために、イントラブロックコピーのためにアクセスされ得る。

イントラブロックコピーの例示的な実施形態が図９に示される。図９に示されるように、ピクチャ（９００）は、第１のＣＴＵ（９０２）及び第２のＣＴＵ（９０４）等の複数のコーディングツリーユニット（ＣＴＵ）を含むことができる。現在のブロック（９０６）が第１のＣＴＵ（９０２）に位置付けされ得、現在のブロック（９０６）の参照ブロック（９０８）が第２のＣＴＵ（９０４）に位置付けされ得る。ブロックベクトル（９１０）を適用して、現在のブロック（９０６）と参照ブロック（９０８）との間のオフセットを示すことができる。

ＣＰＲモード（又はＩＢＣモード）の検索範囲は、例えばＶＶＣで使用されるように、現在のＣＴＵ内にあるように制約され得る。ＣＰＲモードの参照サンプルを格納するための有効なメモリ要件は、１ＣＴＵサイズのサンプルである。再構成したサンプルを現在の６４×６４領域に格納するための既存の参照サンプルメモリを考慮すると、さらに３つの６４×６４サイズの参照サンプルメモリが必要である。上記の事実に基づいて、ＣＰＲモードの有効な検索範囲は、現在のＣＴＵの左側のＣＴＵのいくつかの部分に拡張され得るが、参照ピクセルを格納するための合計メモリ要件（例えば、１ＣＴＵサイズ、合計で４つの６４×６４参照サンプルメモリ）は変更されずに維持され得る。

図１０Ａ～図１０Ｄは、現在のＣＴＵの左側のＣＴＵのいくつかの部分に拡張されるＣＰＲモード（又はＩＢＣモード）の例示的な検索範囲を示すが、参照ピクセルを格納するための総メモリ要件は変更されずに維持され得る。図１０Ａ～図１０Ｂでは、縦縞模様のブロック（例えば、図１０Ａの（１００２））は現在のコーディング領域であり得、灰色の領域内のサンプルはコーディングしたサンプルであり得、線を引いて消された（「Ｘ」でマークした）領域は、線を引いて消された領域が、現在のＣＴＵのコーディング領域によって参照サンプルメモリ内で置き換えられているため、参照に使用できない領域であり得る。典型的に、現在のＣＴＵ内の現在のコーディング領域（６４×６４領域等）が符号化／復号化を開始すると、左側のＣＴＵ内の配置された領域に参照サンプルを格納するメモリ位置を空にして、現在の領域の再構成したサンプルを格納することができる。従って、必要なメモリの合計は１ＣＴＵサイズとして維持することができる。従って、左側のＣＴＵの線を引いて消された領域は、それらの領域がメモリから削除されたためにもはや使用できなくなったことを示し得る。

図１０Ａ～図１０Ｄに示されるように、現在のＣＴＵ（１０００Ａ）は、４つのコーディング領域（１００２）、（１００４）、（１００６）、及び（１００８）を含むことができ、現在のＣＴＵ（１０００Ａ）の左側のＣＴＵ（１０００Ｂ）は、例えば、４つのコーディング領域（１０１０）、（１０１２）、（１０１４）、及び（１０１６）を含むことができる。図１０Ａにおいて、コーディング領域（１００２）は、ＩＢＣモードによって復号化される現在のコーディング領域であり得る。検索範囲は、左側のＣＴＵ（１０００Ｂ）のコーディング領域（１０１２）、（１０１４）、及び（１０１６）を含むことができる。コーディング領域（１０１０）を除外して、参照ピクセルを格納するための合計メモリ要件を１ＣＴＵサイズと４つの６４×６４参照サンプルメモリに抑えることができる。図１０Ｂにおいて、コーディング領域（１００４）は、ＩＢＣモードによって復号化される現在のコーディング領域であり得る。検索範囲は、コーディング領域（１００２）、（１０１４）、及び（１０１６）を含むことができ、コーディング領域（１０１０）及び（１０１２）を除外することができる。図１０Ｃにおいて、コーディング領域（１００６）は、ＩＢＣモードによって復号化される現在のコーディング領域であり得る。検索範囲は、コーディング領域（１００２）、（１００４）、及び（１０１６）を含むことができ、左側のＣＴＵ（１０００Ｂ）内のコーディング領域（１０１０）、（１０１２）、及び（１０１４）を除外することができる。同様に、図１０Ｄにおいて、コーディング領域（１００８）は、ＩＢＣモードによって復号化される現在のコーディング領域であり得る。検索範囲には、コーディング領域（１００２）、（１００４）、及び（１００６）を含めることができ、左側のＣＴＵ（１０００Ｂ）のコーディング領域は全て除外され、合計メモリ要件は変更されずに維持される。

図１１では、ＨＥＶＣ及びＶＶＣ等における現在のブロック（１１０１）の５つの空間マージ候補Ａ０、Ａ１、Ｂ０、Ｂ１、及びＢ２が示される。図１１に示される位置から候補リストを作成する順番は、Ａ０→Ｂ０→Ｂ１→Ａ１→Ｂ２とすることができる。

履歴ベースのＭＶＰ（ＨＭＶＰ）マージ候補は、空間動きベクトル予測（ＭＶＰ）及び時間動きベクトル予測（ＴＭＶＰ）の後にマージリストに追加することができる。以前にコーディングしたブロックの動き情報は、テーブルに格納され、現在のＣＵのＭＶＰとして使用され、例えば、ＨＭＶＰで使用され得る。複数のＨＭＶＰ候補を含むテーブルは、符号化／復号化プロセス中に維持され得る。新しいＣＴＵ行に直面すると、テーブルをリセットする（空にする）ことができる。非サブブロックのインターコーディングしたＣＵに直面すると、関連する動き情報をテーブルの最後のエントリに新しいＨＭＶＰ候補として追加することができる。

ＨＭＶＰテーブルサイズＳは、所定の値に設定され得る。一実施形態では、ＨＭＶＰテーブルサイズＳは６に設定され、これは、例えばＶＴＭ３で使用されるように、６つまでのＨＭＶＰ候補をテーブルに追加できることを示す。新しい動き（モーション）候補がテーブルに挿入されると、制約付き先入れ先出し（ＦＩＦＯ）ルールを使用でき、ここでは、同一のＨＭＶＰがテーブルに存在するかどうかを確認するために最初に冗長性チェックが適用される。同一のＨＭＶＰが見つかった場合に、同一のＨＭＶＰをテーブルから削除し、その後の全てのＨＭＶＰ候補を前方に移動させることができる。

ＨＭＶＰ候補を使用して、マージ候補リストを構築することができる。テーブル内の最新のいくつかのＨＭＶＰ候補を順番にチェックして、ＴＭＶＰ候補の後のマージ候補リストに挿入又は追加することができる。さらに、空間的又は時間的マージ候補に関して、冗長性チェックをＨＭＶＰ候補に適用することができる。

冗長検査操作の数を減らすために、以下の単純化を導入することができる。（ａ）マージリスト生成に使用されるＨＭＶＰ候補の数は、（Ｎ＜＝４）？Ｍ：（８－Ｎ）に設定され得、ここで、ＨＭＶＰ候補の数は、Ｎが４以下である場合にＭに等しく設定され、Ｎが４より大きい場合に８－Ｎに等しく設定される。Ｎはマージ候補リスト内の既存の候補の数を示し、Ｍはテーブル内の使用可能なＨＭＶＰ候補の数を示す。（ｂ）利用可能なマージ候補の総数が、許容されたマージ候補の最大数から１を引いた数に達すると、ＨＭＶＰからのマージ候補リストの構築プロセスを終了することができる。

イントラブロックコピーがインターモードとは別のモードとして実行されるときに、以前に符号化したイントラブロックコピーのブロックベクトルを格納するために、履歴ベースのベクトル予測（ＨＢＶＰ）とも呼ばれる別の履歴バッファを使用することができる。インター予測とは別のモードとして、簡略化したブロックベクトル導出プロセスをイントラブロックコピーモードに適用することができる。同様の履歴ベースのブロックベクトル予測子バッファを使用して、ＢＶ予測を実行することができる。

ＨＢＶＰでは、ＨＢＶＰバッファを確立して、以前にＩＢＣコーディングしたブロックのＢＶ情報を記録することができ、これは、ブロックサイズ、ブロック位置等のいくつかの他のサイド情報を含むことができる。記録した情報に基づいて、各現在のブロックについて、特定の条件を満たすＨＢＶＰのＢＶは、対応するカテゴリに分類され得る。例示的な条件には、（１）クラス０：コーディングしたブロックの領域（例えば、幅×高さ）が閾値（例えば、６４ピクセル）以上である、（２）クラス１：ＢＶの頻度が２等の一定値以上である、（３）クラス２：コーディングしたブロックの座標（例えば、左上隅）が現在のブロックの左側にある、（４）クラス３：コーディングしたブロックの座標（例えば、左上隅）が現在のブロックの上にある、（５）クラス４：コーディングしたブロック座標（例えば、左上隅）が現在のブロックの左上側にある、（６）クラス５：コーディングしたブロックの座標（例えば、左上隅）が現在のブロックの右上側にある、（７）クラス６：コーディングしたブロック座標（例えば、左上隅）が現在のブロックの左下側にあることの１つ又は複数を含むことができる。カテゴリ毎に、最新のコーディングしたブロックのＢＶをＢＶ予測器候補として導出することができる。コーディングしたブロックベクトル予測子（ＣＢＶＰ）リストは、各カテゴリのＢＶ予測子を０～６の順序で追加することによって作成することができる。

コーディングしたブロックは、複数の（例えば、２つ以上の）連続する文字列（つまり、ストリング）に分割することができ、各文字列の後に、規定したスキャン順序に沿って後続の文字列が続くことができる。スキャン順序は、ラスタースキャン又はトラバーススキャンであり得る。文字列毎に、文字列オフセットベクトル（ＳＶ）及び文字列の長さを通知又は推測することができる。ＳＶを使用して、参照文字列が参照領域内のどこから来たのかを示すことができる。長さは、現在の／参照文字列の長さを示すために使用することができる。イントラ文字列マッチング又はイントラ文字列コピー（ＩＳＣ）モードの例が図１２に示され得、ここで、８×８サンプルを含むＣＵ（１２００Ａ）は、ラスタースキャン順序を使用して、第１の文字列（１２０２）及び第２の文字列（１２０４）に分割され得る。第１の文字列（１２０２）は最初の２７個のサンプルを含むことができ、第２の文字列（１２０４）は最後の３６個のサンプルを含むことができる。第１の文字列（１２０２）及び第２の文字列（１２０４）の参照は、それぞれ文字列オフセットベクトル（ＳＶ）（１２０６）及び（１２０８）によって示され得る。図１２の１２００Ｂ等の灰色の領域は、既に再構成した領域であり、参照のために使用することができる。例えば（１２００Ｂ）内の第１の参照領域（１２１０）は、第１の文字列（１２０２）のための参照領域であり得、ＳＶ（１２０６）によって示され得る。（１２００Ｂ）内の第２の参照領域（１２１２）は、第２の文字列（１２０４）のための参照領域であり得、ＳＶ（１２０８）によって示され得る。現在のブロックのサンプルについて参照領域内で一致を見つけることができない場合に、サンプルはエスケープサンプル又は不一致サンプルとして決定され得る。不一致サンプルを通知することができ、不一致サンプルの値を直接コーディングすることができる。図１２に示されるように、サンプル（１２１４）は、参照サンプルによって予測できないサンプル値を有する不一致（又はエスケープ）サンプルであり得る。サンプルのサンプル値（１２１４）は、ビットストリームから直接通知され得る。

ＩＢＣモードで使用される利用可能な参照サンプルを同期させるために、いくつかの方法では、文字列マッチングの参照領域をＩＢＣモードの参照領域と整列させることができる。従って、現在のＣＴＵの再構成した部分に加えて、同じ参照サンプルのロジックが利用可能である左側のＣＴＵの一部の領域は、文字列マッチングにも適用することができる。

文字列マッチングモードに関連するシンタックス要素のいくつかは、コンテキストモデルを使用してコンテキストベースの適応バイナリ算術コーディング（ＣＡＢＡＣ）でコーディングすることができ、シンタックス要素のそれぞれは複数のビンを含むことができる。ＣＡＢＡＣは、コンテキスト・コーディングモード及びバイパス・コーディングモードを含むことができる。コンテキスト・コーディングモードでは、エンコーダによって各ビンに確率モデルを割り当てることができる。次に、ビンの値及び関連する確率モデルをバイナリ算術エンコーダに送信することができる。バイパス・コーディングモードでは、各ビンを直接コーディングするためにバイパスエンコーダに送信することができる。このようなシンタックス要素の例には、isc_match_type（例えば、現在の文字列の一致タイプ）、isc_next_remaining_pixel_in_cu（例えば、現在のコーディングユニットに残っている復号化していないサンプルの数）、isc_pixel_match_type（例えば、現在のピクセルサンプルの一致タイプ）、及びisc_sv_above_flag（現在のＣＵの文字列ベクトルが（０，－１）であるかどうかを示す）等が含まれ得る。複数の文字列又は不一致サンプルがブロックに含まれる場合に、コンテキスト・コーディングしたビンの総数（例えば、コンテキスト・コーディングモードによってコーディングしたビン）が高くなる可能性があり、これは実装の観点からは望ましくない場合がある。本開示では、そのような問題に対処する方法が提供される。

ＥＶＳ（等値文字列）モードと呼ばれる文字列コピーモードの変形では、文字列は、参照位置からの同じ値によって、又はビットストリームから直接の同じ値によって予測することができる。別の例では、文字列は、その上の隣接する文字列（例えば、上のコピー（copy above））から予測することができる。さらに別の例では、不一致サンプルが通知され得る。こうして、図１２に示されるような参照文字列を使用する文字列マッチングは、文字列オフセットベクトル（例えば（１２０６）及び（１２０８））を適用することができる「イントラ文字列コピーの通常のサブモード」と呼ぶことができ、文字列オフセットベクトルは、ＡＭＶＰ又はマージモードを使用してコーディングすることができる。ＥＶＳモードは、ＩＳＣのＥＶＳサブモードと呼ぶことができる。ＥＶＳサブモードでは、例として、参照文字列を文字列の上にコピーすることで文字列を予測することができる。別の例では、文字列内の他の全てのサンプルは、文字列の最初のサンプルと同じ値を有することができる。最初のサンプルの値は、イントラ予測等の適切な予測モードによって取得することができる。コーディングプロセスでは、エンコーダは、文字列がＩＳＣによってコーディングされている場合に、デコーダに通知するための第１の信号を提供し、次に、文字列がＥＶＳサブモードの通常のサブモードによってコーディングされている場合に、デコーダに通知するための第２の信号を提供することができる。ＥＶＳサブモードには文字列オフセットベクトルがないことに留意されたい。

本開示では、文字列マッチングモードでコーディングしたブロックのコンテキスト・コーディングしたビンの数を目標数に制限できるように、文字列マッチングモードに関連するシンタックス要素にいくつかの制約を課す実施形態を提供する。提案する実施形態は、別々に、又は任意の順序で組み合わせて使用することができる。さらに、ブロックという用語は、予測ブロック、コーディングブロック、又はコーディングユニット（ＣＵ）として解釈され得る。

単純化及び明確化のために、本開示の例示的な実施形態は、ＩＳＣの通常のサブモードに基づいて説明することができる。しかしながら、本開示の例示的な実施形態は、ＩＳＣのＥＶＳサブモードにも適用することができる。

本開示では、サンプル当たりのコンテキスト・コーディングしたビン（つまり、コンテキスト・コーディングモードによってコーディングしたビン）の平均数が、予め規定した閾値Th_ave以下になるように、目標を設定することができる。換言すると、ブロック内のコンテキスト・コーディングしたビンの総数が制約され、その総数が、ブロック内のサンプルの総数で乗算した所定の閾値Th_aveを超えないように、目標は設定され得る。一実施形態では、予め規定した閾値Th_aveとブロック内のサンプルの総数との積である目標は、ブロックに設定された許容最大数と呼ばれることもある。

ブロックのコーディングプロセス中に、以前のコーディングしたシンタックス要素内のコンテキスト・コーディングしたビンの総数が、ブロックの目標（つまり、最大許容数セット）に達した（例えば、それ以上になった）場合に、ブロックに関連付けられている他の残りの全てのシンタックス要素は、コンテキストを使用せずにバイパスモードを使用してコーディングされ得る。

一実施形態では、Th_aveは、１．１２５、１．２５、１．７５等の固定定数に設定することができる。

別の実施形態では、Th_aveは、同じサイズであり、ＥＶＳサブモードでコーディングした別のブロックを他のブロック内のサンプル数で除算することができる最大可能数に設定され得る。換言すると、ＩＳＣモードでのコンテキスト・コーディングしたビン（例えば、コンテキスト・コーディングモードによってコーディングしたビン）の数は、ブロックがＥＶＳモードでコーディングされる場合に、その数がコンテキスト・コーディングしたビンの最大可能数を超えないように制限することができる。

別の実施形態では、Th_aveは、スライスヘッダ、ピクチャヘッダ、又はシーケンスヘッダ等のビットストリームでシグナリングすることができる。別の実施形態では、Th_aveを予め規定することができる。

さらに別の実施形態では、Th_aveは、ブロックが任意の他のモード、例えばイントラ予測、インター予測、又はＩＢＣでコーディングされる場合に、ブロック内のコンテキスト・コーディングしたビンの総数が、コンテキスト・コーディングしたビンの最大可能数を超えないように設定され得る。このような制約は、イントラ文字列コピーモードを他のモード（ＩＢＣ、インター予測モード、又はイントラ予測モード等）と比較するときに、イントラ文字列コピーモードが特定のサイズのブロックに対して最大数のコンテキスト・コーディングしたビンを生成するのを防ぐために設定することができる。

上で議論したように、コーディングプロセス中に、シンタックス要素は、複数のコンテキスト・コーディングしたビンを含むことができる。シンタックス要素のビンをコーディングする場合に、コンテキスト・コーディングモードの使用からバイパス・コーディングモードの使用への変更は、シンタックス要素全体をコーディングした後に発生し得る。場合によっては、ブロックのそのようなシンタックス要素をコーディングする前に、ブロック内のコンテキスト・コーディングしたビンの総数（つまり、コンテキスト・コーディングモードによってコーディングしたビンの総数）が、ブロックに設定した最大許容数を依然として下回っている可能性がある。シンタックス要素をコーディングした後に、総数が上限（又は最大許容数セット）を超える場合がある。このような状態を回避するために、cut_numと呼ばれるカットオフ数と呼ばれ得る追加の変数を使用して、最初に割り当てられたコンテキスト・コーディングモードの代わりにバイパスモードを使用してシンタックス要素をコーディングする必要があるかどうかを判定することができる。より具体的には、ブロックに関連付けられたシンタックス要素の場合に、シンタックス要素の前のコンテキスト・コーディングしたビンの総数にcut_numを加えた数が、ブロックに設定された許容最大数よりも大きい場合に、シンタックス要素は、バイパスモードを使用してコーディングされ得る。それ以外の場合に、シンタックス要素の前のコンテキスト・コーディングしたビンの総数にcut_numを加えた数が、ブロックに設定された許容最大数以下である場合に、シンタックス要素は、コンテキスト・コーディングモードに基づいて、コーディングのために最初に割り当てられたコンテキストを適用することができる。

一実施形態では、cut_numを固定値に設定することができる。固定値は、例えば１０又は２０であり得る。

一実施形態では、cut_numは、現在のシンタックス要素のコンテキスト・コーディングしたビンの最大数（つまり、コンテキスト・コーディングモードによってコーディングが許容されるビンの最大数）に設定することができる。

一実施形態では、cut_numは、現在のシンタックス要素とは異なる、ＩＳＣモードでコーディングしたブロック内の別のシンタックス要素について、コンテキスト・コーディングしたビンの最大数に基づいて決定することができる。こうして、cut_numは、イントラ文字列コピーモードでコーディングしたブロック内の任意の他のシンタックス要素について、コンテキスト・コーディングしたビンの最大数に設定することができる。

別の実施形態では、cut_numは、Th_aveに基づいて決定することができる。例えば、cut_numは、Th_aveの分数、Th_aveの１／８、１／１０、又は１／１６等として決定することができる。

一実施形態では、cut_numは、イントラ文字列コピーモードでコーディングしたブロック内の現在のシンタックス要素とは異なる任意の他のシンタックス要素について、コンテキスト・コーディングしたビンの最大数に従って設定することができる。例えば、cut_numは、現在のシンタックス要素とは異なる別のシンタックス要素について、コンテキスト・コーディングしたビンの最大数の半分に設定することができる。

一実施形態では、cut_numをシグナリングすることができる。cut_numは、スライスヘッダ、ピクチャヘッダ、又はシーケンスヘッダ等のビットストリームでシグナリングすることができる。さらに別の実施形態では、cut_numは、予め規定した数であり得る。

図１３は、本開示のいくつかの実施形態による、デコーダのためのビデオ復号化の第１のプロセス（１３００）を概説する例示的なフローチャートを示し、図１４は、エンコーダのためのビデオ符号化の第２のプロセス（１４００）を概説する例示的なフローチャートを示す。様々な実施形態において、第１のプロセス（１３００）及び第２のプロセス（１４００）は、端末装置（３１０）、（３２０）、（３３０）、及び（３４０）内の処理回路、ビデオエンコーダ（４０３）の機能を実行する処理回路、ビデオデコーダ（４１０）の機能を実行する処理回路、ビデオデコーダ（５１０）の機能を実行する処理回路、ビデオエンコーダ（６０３）の機能を実行する処理回路等の処理回路によって実行することができる。いくつかの実施形態では、第１のプロセス（１３００）及び第２のプロセス（１４００）はソフトウェア命令で実施することができ、こうして、処理回路がソフトウェア命令を実行するときに、処理回路は、第１のプロセス（１３００）及び第２のプロセス（１４００）それぞれを実行する。

図１３に示されるように、プロセス（１３００）は、（Ｓ１３０１）で始まり、（Ｓ１３１０）に進む。（Ｓ１３１０）において、コーディングされる領域内のブロックのコーディング情報が、コーディングしたビデオ・ビットストリームから受信され得る。コーディング情報には、ブロックに関連付けられたシグナリング情報及びシンタックス要素が含まれ得、シンタックス要素のそれぞれには１つ又は複数のビンが含まれ得、ブロックには複数の文字列が含まれ得、ブロックは、文字列マッチングコピーモードによってコーディングされ得る。

（Ｓ１３２０）において、閾値は、コンテキスト・コーディングモードによってコーディングが許容される、ブロックに関連付けられたビンの最大数に基づいて決定され得る。

（Ｓ１３３０）において、シンタックス要素のうちの第１のシンタックス要素のビンの数を決定することができる。

（Ｓ１３４０）において、文字列マッチングモードのブロックは、第１のシンタックス要素の１つ又は複数のビンを使用して復号化することができ、第１のシンタックス要素のビンの数は、コンテキスト・コーディングモードに許容されるビンの最大数を示す閾値によって制限される。

プロセス（１３００）において、第１のシンタックス要素は、（ｉ）第１のシンタックス要素のビンの数が閾値未満であることに応答して、コンテキスト・コーディングモード、及び（ｉｉ）第１のシンタックス要素のビンの数が閾値以上であることに応答して、バイパス・コーディングモードのうちの１つに基づいてコーディングされ得る。

プロセス（１３００）において、複数の文字列のそれぞれには１つ又は複数のサンプルが含まれ得る。一例では、文字列マッチングモードは、ＩＳＣモード等の第１のサブモードを含むことができる。ＩＳＣモードは、文字列オフセットベクトルによって示されるそれぞれの参照文字列に基づいて、ブロック内の複数の文字列のそれぞれを再構成するように構成され得る。別の例では、文字列マッチングモードは、ＥＶＳモード等の第２のサブモードを含むことができる。ＥＶＳモードは、参照文字列の少なくとも１つの値を対応する文字列の上にコピーすることによって、ブロック内の複数の文字列のそれぞれを再構成するように構成され得る。例えば、ブロック内の複数の文字列のそれぞれは、参照文字列の値を対応する文字列の上にコピーするか、又は対応する文字列の第１の（first：最初の）サンプルの値を用いて対応する文字列内の他のサンプルの値を設定することによって再構成され得る。

一実施形態では、閾値を決定するために、平均閾値が決定され得る。平均閾値は、コンテキスト・コーディングモードによってコーディンが許容される、ブロックのサンプルのそれぞれ（のサンプル）におけるビンの平均数を示すことができる。さらに、閾値は、平均閾値とブロック内のサンプルの総数との積となるように決定され得る。

いくつかの例では、平均閾値は、（ｉ）スライスヘッダ、ピクチャヘッダ、及びシーケンスヘッダのうちの１つにおいてシグナリングされるコーディング情報のシグナリング情報、及び（ｉｉ）予め規定した値のうちの１つに基づいて決定され得る。

いくつかの例では、平均閾値は、１．１２５、１．２５、及び１．７５のうちの１つを含むことができる。

いくつかの例では、平均閾値は、ＥＶＳモードでコーディングされているブロックに基づいて、コンテキスト・コーディングモードによってコーディングが許容されるブロックに関連付けられたビンの最大数に基づき得る。

いくつかの例では、平均閾値は、ブロックが、イントラ予測モード、イントラ予測ブロックコピーモード、及びインター予測モードのうちの１つによってコーディングされるときに、コンテキスト・コーディングモードによってコーディングが許容される、ブロックに関連付けられたビンの最大数に基づき得る。

別の実施形態では、閾値を決定するために、カットオフ数が決定され得る。カットオフ数は、（ｉ）スライスヘッダ、ピクチャヘッダ、及びシーケンスヘッダのうちの１つにおいてシグナリングされるコーディング情報のシグナリング情報、及び（ｉｉ）予め規定した値のうちの１つに基づき得る。閾値はさらに、（ｉ）平均閾値とブロック内のサンプルの総数との積から（ｉｉ）カットオフ数を引いた値となるように決定され得る。

カットオフ数は、第１のシンタックス要素についてコンテキスト・コーディングモードによってコーディングが許容されるビンの最大数、文字列マッチングモードによってコーディングしたブロックに関連付けられたシンタックス要素のうちの１つについて、モードコンテキスト・コーディングによってコーディングが許容されるビンの最大数、定数値と平均閾値との積、及び文字列マッチングモードによってコーディングしたブロックに関連付けられたシンタックス要素のうちの１つについて、コンテキスト・コーディングモードによってコーディングが許容されるビンの最大数の半分のうちの１つに設定され得る。

図１４に示されるように、プロセス（１４００）は、（Ｓ１４０１）で始まり（Ｓ１４１０）に進む。（Ｓ１４１０）において、ビデオ内の領域のブロックに関連付けられたシンタックス要素が受信され得る。ブロックは文字列マッチングモードでコーディングされ得、シンタックス要素のそれぞれには１つ又は複数のビンが含まれ得、ブロックには複数の文字列が含まれ得る。

（Ｓ１４２０）において、閾値は、コンテキスト・コーディングモードによってコーディングが許容される、ブロックに関連付けられたビンの最大数に基づいて決定され得る。

次に、プロセス（１４００）は（Ｓ１４３０）に進むことができ、ここでシンタックス要素のうちの第１のシンタックス要素のビンの数が決定され得る。

（Ｓ１４４０）において、文字列マッチングモードのブロックは、第１のシンタックス要素の１つ又は複数のビンを使用してコーディングされ得、第１のシンタックス要素のビンの数は、コンテキスト・コーディングモードに許容されるビンの最大数を示す閾値によって制限される。

プロセス（１４００）において、第１のシンタックス要素は、（ｉ）第１のシンタックス要素のビンの数が閾値未満であることに応答して、コンテキスト・コーディングモード、及び（ｉｉ）第１のシンタックス要素のビンの数が閾値以上であることに応答して、バイパス・コーディングモードのうちの１つに基づいてさらにコーディングされ得る。

プロセス（１４００）において、複数の文字列のそれぞれには１つ又は複数のサンプルが含まれ得る。一例では、文字列マッチングモードは、ＩＳＣモード等の第１のサブモードを含むことができる。ＩＳＣモードは、文字列オフセットベクトルによって示されるそれぞれの参照文字列に基づいて、ブロック内の複数の文字列のそれぞれを再構成するように構成され得る。別の例では、文字列マッチングモードは、ＥＶＳモード等の第２のサブモードを含むことができる。ＥＶＳモードは、参照文字列の少なくとも１つの値を対応する文字列の上にコピーすることによって、ブロック内の複数の文字列のそれぞれを再構成するように構成され得る。例えば、ブロック内の複数の文字列のそれぞれは、参照文字列の値を対応する文字列の上にコピーするか、又は対応する文字列の第１の（first：最初の）サンプルの値を用いて対応する文字列の他のサンプルの値を設定することによって再構成され得る。

一実施形態では、閾値を決定するために、平均閾値が決定され得る。平均閾値は、コンテキスト・コーディングモードによってコーディンが許容されるブロックのサンプルのそれぞれにおけるビンの平均数を示すことができる。さらに、閾値は、平均閾値とブロック内のサンプルの総数との積となるように決定され得る。

この方法では、シグナリング情報を含むコーディングしたビットストリームを出力することができ、シグナリング情報は、スライスヘッダ、ピクチャヘッダ、及びシーケンスヘッダのうちの１つでシグナリングされ、決定した平均閾値を示すことができる。

いくつかの例では、平均閾値は、ＥＶＳモードでコーディングされているブロックに基づいて、コンテキスト・コーディングモードによってコーディングが許容される、ブロックに関連付けられたビンの最大数に基づき得る。

いくつかの例では、平均閾値は、ブロックが、イントラ予測モード、イントラブロックコピーモード、及びインター予測モードのうちの１つによってコーディングされるときに、コンテキスト・コーディングモードによってコーディングが許容される、ブロックに関連付けられたビンの最大数に基づき得る。

別の実施形態では、閾値を決定するために、カットオフ数が決定され得る。閾値は、さらに、（ｉ）平均閾値とブロック内のサンプルの総数との積から（ｉｉ）カットオフ数を引いた値となるように決定され得る。

本開示で提供する方法は、別々に使用することも、任意の順序で組み合わせることができることに留意されたい。さらに、方法（又は実施形態）、エンコーダ、及びデコーダのそれぞれは、処理回路（例えば、１つ又は複数のプロセッサ又は１つ又は複数の集積回路）によって実装することができる。一例では、１つ又は複数のプロセッサは、非一時的なコンピュータ可読媒体に格納したプログラムを実行する。さらに、ブロックという用語は、予測ブロック、コーディングブロック、又はコーディングユニット、すなわちＣＵとして解釈され得る。

上で議論した技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装することができ、１つ又は複数のコンピュータ可読媒体に物理的に格納することができる。例えば、図１５は、開示する主題の特定の実施形態を実装するのに適したコンピュータシステム（１８００）を示している。

コンピュータソフトウェアは、任意の適切なマシンコード又はコンピュータ言語を使用してコーディングされ得、そのコーディングは、アセンブリ、コンパイル、リンク、又は同様のメカニズムの対象となり、１つ又は複数のコンピュータ中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）等によって直接又は解釈を通じて命令を含むコード、マイクロコード実行等を作成する。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置等を含む、様々なタイプのコンピュータ又はそのコンポーネント上で実行され得る。

図１５に示されるコンピュータシステム（１８００）のコンポーネントは、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用又は機能の範囲に関していかなる限定も示唆することを意図しない。コンポーネントの構成は、コンピュータシステム（１８００）の例示的実施形態に示されるコンポーネントのいずれか１つ又は組み合わせに関連する依存性又は要件を有するものとして解釈すべきではない。

コンピュータシステム（１８００）は、特定のヒューマン・インターフェイス入力装置を含むことができる。このようなヒューマン・インターフェイス入力装置は、例えば、触覚入力（キーストローク、スワイプ、データグローブの動き等）、音声入力（声、拍手等）、視覚入力（ジェスチャー等）、嗅覚入力（図示せず）を通じて、１人又は複数の人間のユーザによる入力に応答することができる。ヒューマン・インターフェイス装置を使用して、音声（発話、音楽、周囲の音等）、画像（スキャンした画像、静止画カメラから取得した撮影画像）、ビデオ（二次元ビデオ、立体動画を含む三次元ビデオ等）等、人間による意識的な入力に必ずしも直接関係しない特定のメディアを取り込むことができる。

入力ヒューマン・インターフェイス装置は、キーボード（１８０１）、マウス（１８０２）、トラックパッド（１８０３）、タッチスクリーン（１８１０）、データグローブ（図示せず）、ジョイスティック（１８０５）、マイク（１８０６）、スキャナ（１８０７）、カメラ（１８０８）（１つのみを図示している）のうちの１つ又は複数を含むことができる。

コンピュータシステム（１８００）は、特定のヒューマン・インターフェイス出力装置も含み得る。このようなヒューマン・インターフェイス出力装置は、例えば、触覚出力、音、光、及び匂い／味を通じて、１人又は複数の人間のユーザの感覚を刺激し得る。このようなヒューマン・インターフェイス出力装置は、触覚出力装置（例えば、タッチスクリーン（１８１０）、データグローブ（図示せず）、又はジョイスティック（１８０５）による触覚フィードバックであるが、入力装置として機能しない触覚フィードバック装置も存在し得る）、オーディオ出力装置（スピーカ（１８０９）、ヘッドフォン（図示せず）等）、視覚出力装置（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（１８１０）等、それぞれがタッチスクリーン入力機能を含む又は含まない、それぞれが触覚フィードバック機能を含む又は含まないもので、そのいくつかが、立体画像出力等の手段を介して、２次元の視覚出力又は３次元以上の出力を出力できるものもある、仮想現実眼鏡（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず））、及びプリンタ（図示せず）を含み得る。

コンピュータシステム（１８００）はまた、人間がアクセス可能な記憶装置、及びＣＤ／ＤＶＤを含むＣＤ／ＤＶＤＲＯＭ／ＲＷ（１８２０）を含む光学媒体又は同様の媒体（１８２１）、サムドライブ（１８２２）、リムーバブルハードドライブ又はソリッドステートドライブ（１８２３）、テープ及びフロッピーディスク（図示せず）等の従来の磁気メディア、セキュリティドングル（図示せず）等の特殊なＲＯＭ／ＡＳＩＣ／ＰＬＤベースの装置等の関連媒体を含むことができる。

当業者はまた、現在開示している主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、又は他の一時的な信号を含まないことを理解すべきである。

コンピュータシステム（１８００）はまた、１つ又は複数の通信ネットワーク（１８５５）へのインターフェイス（１８５４）を含むことができる。ネットワークは、例えば、無線、有線、光等である。ネットワークはさらに、ローカル、広域、メトロポリタン、車両及び産業用、リアルタイム、遅延耐性等であり得る。ネットワークの例には、イーサネット、ワイヤレスＬＡＮ等のローカルエリアネットワーク、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥ等を含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、及び地上放送ＴＶを含むＴＶ有線又は無線広域デジタルネットワーク、ＣＡＮＢｕｓ等を含む車両及び産業用が含まれる。特定のネットワークは、通常、特定の汎用データポート又は周辺バス（１８４９）（例えば、コンピュータシステムのＵＳＢポート（１８００）等）に接続された外部ネットワーク・インターフェイス・アダプタを必要とする。他のものは、一般に、以下に説明するようにシステムバス（例えば、ＰＣコンピュータシステムへのイーサネットインターフェイス又はスマートフォン・コンピュータシステムへのセルラーネットワークインターフェイス）に接続することによって、コンピュータシステム（１８００）のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム（１８００）は他のエンティティと通信することができる。このような通信は、一方向、受信のみ（例えば、ＴＶ放送）、一方向送信のみ（例えば、ＣＡＮｂｕｓ装置から特定のＣＡＮｂｕｓ装置に）、又は双方向（例えば、ローカル又はワイドエリアデジタルネットワークを使用する他のコンピュータシステムへ）のいずれかである。上記のように、これらのネットワーク及びネットワークインターフェイスのそれぞれで、特定のプロトコル及びプロトコルスタックを使用することができる。

前述のヒューマン・インターフェイス装置、ヒューマン・アクセス可能なストレージデバイス、及びネットワークインターフェイスは、コンピュータ・システム（１８００）のコア（１８４０）に取り付けることができる。

コア（１８４０）は、１つ又は複数の中央処理装置（ＣＰＵ）（１８４１）、グラフィック処理装置（ＧＰＵ）（１８４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（１８４３）の形態の特殊なプログラマブル処理装置、特定のタスクのためのハードウェア・アクセラレータ（１８４４）、グラフィックアダプタ（１８５０）等を含むことができる。これらの装置は、読み取り専用メモリ（ＲＯＭ）（１８４５）、ランダムアクセスメモリ（１８４６）、ユーザがアクセスできない内部ハードドライブ、ＳＳＤ等の内部大容量記憶装置（１８４７）とともに、システムバス（１８４８）を介して接続され得る。一部のコンピュータシステムでは、追加のＣＰＵ、ＧＰＵ等による拡張を可能にするために、システムバス（１８４８）に１つ又は複数の物理プラグの形態でアクセスすることができる。周辺装置は、コアのシステムバス（１８４８）に直接接続するか、周辺バス（１８４９）を介して接続することができる。一例では、ディスプレイ（１８１０）をグラフィックスアダプタ（１８５０）に接続することができる。周辺バスのアーキテクチャには、ＰＣＩ、ＵＳＢ等が含まれる。

ＣＰＵ（１８４１）、ＧＰＵ（１８４２）、ＦＰＧＡ（１８４３）、及びアクセラレータ（１８４４）は、組み合わせて前述のコンピュータコードを構成できる特定の命令を実行できる。そのコンピュータコードは、ＲＯＭ（１８４５）又はＲＡＭ（１８４６）に格納され得る。移行データはＲＡＭ（１８４６）に格納され得るが、永久データは、例えば内部大容量記憶装置（１８４７）に格納され得る。１つ又は複数のＣＰＵ（１８４１）、ＧＰＵ（１８４２）、大容量記憶装置（１８４７）、ＲＯＭ（１８４５）、ＲＡＭ（１８４６）等に密接に関連し得るキャッシュメモリを使用することで、任意のメモリ装置への高速の格納及び取得が可能になる。

コンピュータ可読媒体は、様々なコンピュータで実施される操作を実行するためのコンピュータコードをその上に有することができる。メディア及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであるか、又はコンピュータソフトウェア技術の当業者によく知られており利用可能な種類のものであり得る。

限定ではなく一例として、アーキテクチャ（１８００）を有するコンピュータシステム、具体的にはコア（１８４０）は、１つ又は複数の有形のコンピュータ可読媒体に組み込まれたソフトウェアを実行するプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ等を含む）の結果として機能を提供することができる。このようなコンピュータ可読媒体は、上で紹介したように、ユーザがアクセスできる大容量記憶装置、及びコア内部大容量記憶装置（１８４７）又はＲＯＭ（１８４５）等の非一時的な性質のコア（１８４０）の特定の記憶装置に関連付けられた媒体とすることができる。本開示の様々な実施形態を実施するソフトウェアは、そのような装置に記憶され、コア（１８４０）によって実行され得る。コンピュータ可読媒体は、特定の必要に応じて、１つ又は複数のメモリ装置又はチップを含むことができる。ソフトウェアは、コア（１８４０）、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ等を含む）に、ＲＡＭ（１８４６）に格納したデータ構造を規定すること、及びソフトウェアによって規定したプロセスに従ってそのようなデータ構造を変更することを含む、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。加えて又は代替として、コンピュータシステムは、特定のプロセス又は本明細書に記載の特定のプロセスの特定の部分を実行するソフトウェアの代わりに又はこれと共に動作することができる、回路（例えば、アクセレータ（１８４４）にロジックハードワイヤされた又は他に埋め込まれた結果として機能を提供することができる。ソフトウェアへの言及は、必要に応じてロジックを含む場合があり、その逆も同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを格納する回路（集積回路（ＩＣ）等）、実行のためのロジックを具現化する回路、又はその両方を含むことができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組合せを包含する。

付録Ａ：頭字語
ＪＥＭ：共同探査モデル
ＶＶＣ：多用途ビデオコーディング
ＢＭＳ：ベンチマークセット
ＭＶ：動きベクトル
ＨＥＶＣ：高効率ビデオコーディング
ＳＥＩ：補足拡張情報
ＶＵＩ：ビデオユーザビリティ情報
ＧＯＰ：ピクチャのグループ
ＴＵ：変換ユニット
ＰＵ：予測ユニット
ＣＴＵ：コーディングツリーユニット
ＣＴＢ：コーディングツリーブロック
ＰＢ：予測ブロック
ＨＲＤ：仮想参照デコーダ
ＳＮＲ：信号雑音比
ＣＰＵ：中央処理装置
ＧＰＵ：グラフィック処理装置
ＣＲＴ：陰極線管
ＬＣＤ：液晶ディスプレイ
ＯＬＥＤ：有機発光ダイオード
ＣＤ：コンパクトディスク
ＤＶＤ：デジタルビデオディスク
ＲＯＭ：読み取り専用メモリ
ＲＡＭ：ランダムアクセスメモリ
ＡＳＩＣ：特定用途向け集積回路
ＰＬＤ：プログラマブル論理装置
ＬＡＮ：ローカルエリアネットワーク
ＧＳＭ：モバイル通信用グローバルシステム
ＬＴＥ：ロングタームエボリューション
ＣＡＮＢｕｓ：コントローラエリアネットワークバス
ＵＳＢ：ユニバーサルシリアルバス
ＰＣＩ：周辺コンポーネント相互接続
ＦＰＧＡ：フィールドプログラマブルゲート領域
ＳＳＤ：ソリッドステートドライブ
ＩＣ：集積回路
ＣＵ：コーディングユニット

本開示はいくつかの例示的な実施形態について説明してきたが、本開示の範囲内にある変更、置換、及び様々な代替同等物が存在する。こうして、当業者は、本明細書では明示的に図示又は説明していないが、本開示の原理を具現化し、こうして本開示の精神及び範囲内にある多数のシステム及び方法を想起し得ることを理解されたい。

Claims

デコーダのビデオ復号化の方法であって、当該方法は、
コーディングしたビデオ・ビットストリームからコーディングされる領域内のブロックのコーディング情報を受信するステップであって、該コーディング情報には、前記ブロックに関連付けられたシグナリング情報及びシンタックス要素が含まれ、前記シンタックス要素のそれぞれには１つ又は複数のビンが含まれ、前記ブロックには複数の文字列が含まれ、前記ブロックは、文字列マッチングモードによってコーディングされる、受信するステップと、
コンテキスト・コーディングモードによってコーディングが許容される、前記ブロックに関連付けられたビンの最大数に基づいて閾値を決定するステップと、
前記シンタックス要素のうちの第１のシンタックス要素のビンの数を決定するステップと、
前記第１のシンタックス要素の前記１つ又は複数のビンを使用して、前記ブロックを前記文字列マッチングモードで復号化するステップと、を含み、
前記第１のシンタックス要素の前記ビンの数は、前記コンテキスト・コーディングモードに許容される前記ビンの最大数を示す閾値によって制限される、
方法。
前記第１のシンタックス要素は、（ｉ）前記第１のシンタックス要素の前記ビンの数が前記閾値未満であることに応答して、前記コンテキスト・コーディングモード、及び（ｉｉ）前記第１のシンタックス要素の前記ビンの数が前記閾値以上であることに応答して、バイパス・コーディングモードのうちの１つに基づいてコーディングされる、請求項１に記載の方法。
前記複数の文字列のそれぞれには１つ又は複数のサンプルが含まれ、
前記文字列マッチングモードは、（ｉ）文字列オフセットベクトルによって示されるそれぞれの参照文字列に基づいて、前記ブロック内の前記複数の文字列のそれぞれを再構成するように構成されたイントラ文字列コピー（ＩＳＣ）モード、及び（ｉｉ）参照文字列の値を対応する文字列の上にコピーするか、又は該対応する文字列の第１のサンプルの値を用いて前記対応する文字列内の他のサンプルの値を設定することによって、前記ブロック内の前記複数の文字列のそれぞれを再構成するように構成された等値文字列（ＥＶＳ）モードのうちの１つを含む、請求項１に記載の方法。
前記閾値を決定するステップは、
前記コンテキスト・コーディングモードによってコーディングが許容される、前記ブロックの前記サンプルのそれぞれにおけるビンの平均数を示す平均閾値を決定するステップと、
該平均閾値と前記ブロック内の前記サンプルの総数との積となるように前記閾値を決定するステップと、を含む、請求項３に記載の方法。
前記平均閾値は、（ｉ）スライスヘッダ、ピクチャヘッダ、及びシーケンスヘッダのうちの１つにおいてシグナリングされる、前記コーディング情報のシグナリング情報、及び（ｉｉ）予め規定した値のうちの１つに基づいて決定される、請求項４に記載の方法。
前記平均閾値は、１．１２５、１．２５、及び１．７５のうちの１つを含む、請求項４に記載の方法。
前記平均閾値は、前記ＥＶＳモードでコーディングされる前記ブロックに基づいて、前記コンテキスト・コーディングモードによってコーディングが許容される、前記ブロックに関連付けられたビンの最大数に基づく、請求項４に記載の方法。
前記平均閾値は、前記ブロックが、イントラ予測モード、イントラブロックコピーモード、及びインター予測モードのうちの１つによってコーディングされるときに、前記コンテキスト・コーディングモードによってコーディングが許容される、前記ブロックに関連付けられたビンの最大数に基づく、請求項４に記載の方法。
前記閾値を決定するステップは、
（ｉ）スライスヘッダ、ピクチャヘッダ、及びシーケンスヘッダのうちの１つにおいてシグナリングされる、前記コーディング情報のシグナリング情報、及び（ｉｉ）予め規定した値のうちの１つに基づくカットオフ数を決定するステップと、
（ｉ）前記平均閾値と前記ブロック内の前記サンプルの総数との積から（ｉｉ）前記カットオフ数を引いた値となるように前記閾値を決定するステップと、をさらに含む、請求項４に記載の方法。
前記カットオフ数は、
前記第１のシンタックス要素について前記コンテキスト・コーディングモードによってコーディングが許容されるビンの最大数、
前記文字列マッチングモードによってコーディングされる前記ブロックに関連付けられた前記シンタックス要素のうちの１つについて、前記コンテキスト・コーディングモードによってコーディングが許容されるビンの最大数、
定数値と前記平均閾値との積、及び
前記文字列マッチングモードによってコーディングされる前記ブロックに関連付けられた前記シンタックス要素のうちの１つについて、前記コンテキスト・コーディングモードによってコーディングが許容される前記ビンの最大数の半分のうちの１つに設定される、請求項９に記載の方法。
エンコーダのビデオ符号化の方法であって、当該方法は、
ピクチャ内の領域のブロックに関連付けられたシンタックス要素を受け取るステップであって、前記ブロックは文字列マッチングモードでコーディングされ、前記シンタックス要素のそれぞれには１つ又は複数のビンが含まれ、前記ブロックには複数の文字列が含まれ、
コンテキスト・コーディングモードによってコーディンが許容される、前記ブロックに関連付けられたビンの最大数に基づいて閾値を決定するステップと、
前記シンタックス要素のうちの第１のシンタックス要素のビンの数を決定するステップと、
前記第１のシンタックス要素の前記１つ又は複数のビンを使用して、前記ブロックを文字列マッチングモードでコーディングするステップと、を含み、
前記第１のシンタックス要素の前記ビンの数は、前記コンテキスト・コーディングモードに許容される前記ビンの最大数を示す閾値によって制限される、
方法。
前記第１のシンタックス要素は、（ｉ）前記第１のシンタックス要素の前記ビンの数が前記閾値未満であることに応答して、前記コンテキスト・コーディングモード、及び（ｉｉ）前記第１のシンタックス要素の前記ビンの数が前記閾値以上であることに応答して、バイパス・コーディングモードのうちの１つに基づいてコーディングされる、請求項１１に記載の方法。
複数の文字列のそれぞれには１つ又は複数のサンプルが含まれ、
前記文字列マッチングモードは、（ｉ）文字列オフセットベクトルによって示されるそれぞれの参照文字列に基づいて、前記ブロック内の前記複数の文字列のそれぞれを再構成するように構成されたイントラ文字列コピー（ＩＳＣ）モード、及び（ｉｉ）参照文字列の値を対応する文字列の上にコピーするか、又は該対応する文字列の第１のサンプルの値を用いて前記対応する文字列内の他のサンプルの値を設定することによって、前記ブロック内の前記複数の文字列のそれぞれを再構成するように構成された等値文字列（ＥＶＳ）モードのうちの１つを含む、請求項１１に記載の方法。
前記閾値を決定するステップは、
前記コンテキスト・コーディングモードによってコーディングが許容される、前記ブロックの前記サンプルのそれぞれにおけるビンの平均数を示す平均閾値を決定するステップと、
該平均閾値と前記ブロック内の前記サンプルの総数との積となるように前記閾値を決定するステップと、を含む、請求項１３に記載の方法。
シグナリング情報を含むコーディングしたビットストリームを出力するステップをさらに含み、前記シグナリング情報は、スライスヘッダ、ピクチャヘッダ、及びシーケンスヘッダのうちの１つに含められ、前記決定した平均閾値を示す、請求項１４に記載の方法。
前記平均閾値は、１．１２５、１．２５、及び１．７５のうちの１つを含む、請求項１４に記載の方法。
前記平均閾値は、前記ＥＶＳモードでコーディングされる前記ブロックに基づいて、前記コンテキスト・コーディングモードによってコーディングが許容される前記ブロックに関連付けられたビンの最大数に基づく、請求項１４に記載の方法。
前記平均閾値は、前記ブロックが、イントラ予測モード、イントラブロックコピーモード、インター予測モードのうちの１つによってコーディングされるときに、前記コンテキスト・コーディングモードによってコーディングが許容される、前記ブロックに関連付けられたビンの最大数に基づく、請求項１４に記載の方法。
前記閾値を決定するステップは、
カットオフ数を決定するステップと、
（ｉ）前記平均閾値と前記ブロック内の前記サンプルの総数との積から（ｉｉ）前記カットオフ数を引いた値となるように前記閾値を決定するステップと、をさらに含む、請求項１４に記載の方法。
前記カットオフ数は、
前記第１のシンタックス要素について前記コンテキスト・コーディングモードによってコーディングが許容されるビンの最大数、
前記文字列マッチングモードによってコーディングされる前記ブロックに関連付けられた前記シンタックス要素のうちの１つについて、前記コンテキスト・コーディングモードによってコーディングが許容されるビンの最大数、
定数値と前記平均閾値との積、及び
前記文字列マッチングモードによってコーディングされる前記ブロックに関連付けられた前記シンタックス要素のうちの１つについて、前記コンテキスト・コーディングモードによってコーディングが許容される前記ビンの最大数の半分のうちの１つに設定される、請求項１９に記載の方法。
コンピュータプログラムであって、該コンピュータプログラムがコンピュータのプロセッサによって実行されると、該プロセッサに、請求項１乃至１０のいずれか一項に記載の方法を実行させる、
コンピュータプログラム。
コンピュータプログラムであって、該コンピュータプログラムがコンピュータのプロセッサによって実行されると、該プロセッサに、請求項１１乃至２０のいずれか一項に記載の方法を実行させる、
コンピュータプログラム。