JP7390395B2

JP7390395B2 - 画像及びビデオコード化のための選択的成分間変換（ｉｃｔ）

Info

Publication number: JP7390395B2
Application number: JP2021554725A
Authority: JP
Inventors: ヘルムリッヒ・クリスチャン; ルダット・クリスチャン; ニエン・トゥンホワン; シュヴァルツ・ハイコー; マルペ・デトレフ; ヴィーガンド・トーマス
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2019-03-12
Filing date: 2020-03-11
Publication date: 2023-12-01
Anticipated expiration: 2040-03-11
Also published as: MX2021010909A; JP2022524440A; CN113678450B; EP3939296A1; KR20210139336A; TWI753377B; US20210409708A1; WO2020182907A1; TW202038608A; BR112021018089A2; CN113678450A; TW202243470A; TWI815259B; JP2024032017A

Description

以下の図面の説明は、本発明の実施形態を組み込むことができるコード化フレームワークの例を形成するために、ビデオのピクチャをコード化するためのブロックベースの予測コーデックのエンコーダ及びデコーダの説明の提示から始まる。それぞれのエンコーダ及びデコーダは、図１～図３に関して説明される。以下では、本発明の概念の実施形態の説明を、そのような概念を図１及び図２のエンコーダ及びデコーダにそれぞれどのように組み込むことができるかに関する説明と共に提示するが、後続の図４以降で説明した実施形態は、図１及び図２のエンコーダ及びデコーダの基礎となるコード化フレームワークに従って動作しないエンコーダ及びデコーダを形成するためにも使用され得る。

等しいか同等である要素又は等しいか同等である機能を有する要素は、以下の説明において、異なる図で発生する場合でも、等しいか同等である参照番号で示される。

以下の説明では、本発明の実施形態のより完全な説明を提供するために複数の詳細が示される。しかしながら、当業者には、本発明の実施形態がこれらの特定の詳細なしに実施され得ることは明らかであろう。他の例では、本発明の実施形態を不明瞭にすることを避けるために、周知の構造及び装置は、詳細ではなくブロック図の形態で示す。また、以下に説明する異なる実施形態の特徴は、特記しない限り、互いに組み合わせることができる。

図１は、変換ベースの残差コード化を例示的に使用して、ピクチャ１２をデータストリーム１４に予測的にコード化するための装置を示す。装置又はエンコーダは、参照符号１０を使用して示されている。図２は、対応するデコーダ２０、すなわち、やはり変換ベースの残差復号を使用してデータストリーム１４からピクチャ１２’を予測的に復号するように構成された装置２０を示し、アポストロフィは、デコーダ２０によって再構成されたピクチャ１２’が、予測残差信号の量子化によって導入されるコード化損失の観点から、装置１０によって最初に符号化されたピクチャ１２から逸脱していることを示すために使用されている。図１及び図２は、例示的に、変換ベースの予測残差コード化を使用するが、本出願の実施形態は、この種の予測残差コード化に限定されない。これは、以下に概説されるように、図１及び図２に関して説明される他の詳細にも当てはまる。

エンコーダ１０は、予測残差信号を空間スペクトル変換し、このようにして得られた予測残差信号をデータストリーム１４に符号化するように構成される。同様に、デコーダ２０は、データストリーム１４からの予測残差信号を復号し、このようにして得られた予測残差信号をスペクトル空間変換するように構成される。

内部的に、エンコーダ１０は、元の信号、すなわちピクチャ１２からの予測信号２６の逸脱を測定するために予測残差２４を生成する予測残差信号形成器２２を備えることができる。予測残差信号形成器２２は、例えば、元の信号から、すなわちピクチャ１２から予測信号を減算する減算器であってもよい。次いで、エンコーダ１０は、同じくエンコーダ１０に含まれる量子化器３２によって量子化されるスペクトルドメイン予測残差信号２４’を取得するために、予測残差信号２４を空間スペクトル変換する変換器２８を更に備える。このように量子化された予測残差信号２４’’は、ビットストリーム１４にコード化される。この目的のために、エンコーダ１０は、任意選択的に、データストリーム１４に変換及び量子化される予測残差信号をエントロピコード化するエントロピコーダ３４を備えることができる。予測信号２６は、データストリーム１４に符号化され、データストリームから復号可能な予測残差信号２４’’に基づいて、エンコーダ１０の予測段３６によって生成される。この目的のために、予測段３６は、図１に示すように、量子化損失以外の信号２４’に対応するスペクトルドメイン予測残差信号２４’’を得るように予測残差信号２４’’を逆方向量子化する逆方向量子化器３８と、量子化損失以外の元の予測残差信号２４に対応する予測残差信号２４’’’を取得するために、後者の予測残差信号２４’’を逆方向変換、すなわちスペクトル空間変換する逆方向変換器４０とを内部に備えることができる。次いで、予測段３６のコンバイナ４２は、再構成された信号４６、すなわち元の信号１２の再構成を取得するために、加算などによって予測信号２６及び予測残差信号２４’’’’を再結合する。再構成された信号４６は、信号１２’に対応することができる。次に、予測段３６の予測モジュール４４は、例えば、空間予測、すなわちピクチャ内予測、及び／又は時間予測、すなわちピクチャ間予測を使用して、信号４６に基づいて予測信号２６を生成する。

同様に、図２に示すように、デコーダ２０は、予測段３６に対応する構成要素から内部的に構成され、予測段に対応する方法で相互接続されてもよい。特に、デコーダ２０のエントロピデコーダ５０は、データストリームから量子化されたスペクトルドメイン予測残差信号２４’’をエントロピ復号することができ、その際、逆方向量子化器５２、逆方向変換器５４、コンバイナ５６、及び予測モジュール５８は、予測段３６のモジュールに関して上述した方法で相互接続されて協働し、予測残差信号２４’’に基づいて再構成された信号を回復し、その結果、図２に示すように、コンバイナ５６の出力は再構成された信号、すなわちピクチャ１２’をもたらす。

上記では具体的に説明されていないが、エンコーダ１０は、例えば、いくつかのレート及び歪み関連基準、すなわち符号化コストを最適化する方法などのいくつかの最適化方式に従って、例えば、予測モード、動きパラメータなどを含むいくつかのコード化パラメータを設定することができることは容易に明らかである。例えば、エンコーダ１０及びデコーダ２０ならびに対応するモジュール４４、５８はそれぞれ、イントラコード化モード及びインターコード化モードなどの異なる予測モードをサポートすることができる。エンコーダ及びデコーダがこれらの予測モードタイプを切り替える粒度は、それぞれピクチャ１２及び１２’のコード化セグメント又はコード化ブロックへの副分割に対応し得る。これらのコード化セグメントのユニットで、例えば、ピクチャは、イントラコード化されているブロックとインターコード化されているブロックとに副分割され得る。イントラコード化ブロックは、以下により詳細に概説されるように、それぞれのブロックの空間の既にコード化／復号された近傍に基づいて予測される。いくつかのイントラコード化モードが存在し、方向性又は角度イントラコード化モードを含むそれぞれのイントラコード化セグメントに対して選択されてもよく、方向性又は角度イントラコード化モード従って、それぞれの方向性イントラコード化モードに固有の特定の方向に沿った近傍のサンプル値を、それぞれのイントラコード化セグメントに外挿することによって、それぞれのセグメントが満たされ得る。イントラコード化モードは、例えば、それぞれのイントラコード化されたブロックの予測が、それぞれのイントラコード化セグメント内のすべてのサンプルにＤＣ値を割り当てるＤＣコード化モード、及び／又は平面イントラコード化モードであって、これに沿って、それぞれのブロックの予測が、隣接するサンプルに基づいて２次元線形関数によって定義された平面の駆動傾斜及びオフセットを有するそれぞれのイントラコード化されたブロックのサンプル位置にわたる２次元線形関数によって記述されたサンプル値の空間分布であると近似又は決定される、平面イントラコード化モードなどの１つ又は複数の更なるモードも含むことができる。これと比較して、インターコード化されたブロックは、例えば時間的に予測され得る。インターコード化ブロックの場合、データストリーム内で動きベクトルをシグナリングすることができ、動きベクトルは、ピクチャ１２が属するビデオの以前にコード化されたピクチャの部分の空間変位を示し、以前にコード化／復号されたピクチャは、それぞれのインターコード化ブロックの予測信号を取得するためにサンプリングされる。これは、量子化スペクトル領域予測残差信号２４’’を表すエントロピコード化変換係数レベルなど、データストリーム１４に含まれる残差信号コード化に加えて、データストリーム１４は、コード化モードを様々なブロックに割り当てるためのコード化モードパラメータ、インターコード化セグメントの動きパラメータなど、ブロックのいくつかの予測パラメータ、及びピクチャ１２及び１２’のそれぞれのセグメントへの副分割を制御及びシグナリングするためのパラメータなどの任意選択の更なるパラメータを符号化することができることを意味する。デコーダ２０は、これらのパラメータを使用して、エンコーダが行ったのと同じ方法でピクチャを副分割し、セグメントに同じ予測モードを割り当て、同じ予測を実行して同じ予測信号をもたらす。

図３は、一方では再構成された信号、すなわち再構成されたピクチャ１２’と、他方ではデータストリーム１４でシグナリングされる予測残差信号２４’’’と予測信号２６との組み合わせとの間の関係を示している。既に上述したように、組み合わせは加算であってもよい。予測信号２６は、図３では、ピクチャ領域を、線影を使用して例示的に示されるイントラコード化ブロックと、線影を使用せずに例示的に示されるインターコード化ブロックとに副分割したものとして示されている。副分割は、正方形ブロック又は非正方形ブロックの行及び列へのピクチャエリアの規則的な副分割、又はクワッドツリー副分割などのような、ツリー・ルート・ブロックから様々なサイズの複数のリーフブロックへのピクチャ１２のマルチツリー副分割などの任意の副分割であってもよく、それらの混合が図３に示されており、図３では、ピクチャエリアは、ツリー・ルート・ブロックの行及び列に最初に副分割され、次いで、再帰的マルチツリー副分割に従って１つ又は複数のリーフブロックに更に副分割される。

この場合も、データストリーム１４は、イントラコード化ブロック８０のためにコード化されたイントラコード化モードを有することがあり、これは、サポートされているいくつかのイントラコード化モードのうちの１つを、それぞれのイントラコード化ブロック８０へ割り当てる。インターコード化ブロック８２の場合、データストリーム１４は、コード化された１つ又は複数の動きパラメータを有することができる。一般的に言えば、インターコード化ブロック８２は、時間的にコード化されることに限定されない。あるいは、インターコード化ブロック８２は、ピクチャ１２が属するビデオの以前にコード化されたピクチャ、又はエンコーダ及びデコーダがそれぞれスケーラブルなエンコーダ及びデコーダである場合には、別のビュー又は階層的に下位のレイヤのピクチャなど、現在のピクチャ１２自体を超える、以前に符号化された部分から予測された任意のブロックであってもよい。

図３の予測残差信号２４’’’’も、ピクチャ領域のブロック８４への副分割として示されている。これらのブロックは、コード化ブロック８０および８２と区別するために、変換ブロックと呼ばれる場合がある。実際には、図３は、エンコーダ１０及びデコーダ２０が、ピクチャ１２及びピクチャ１２’のブロックへの２つの異なる副分割、すなわち、コード化ブロック８０及び８２への一方の副分割、及び変換ブロック８４への他方の副分割を使用し得ることを示している。両方の副分割は同じであってもよく、すなわち、各コード化ブロック８０及び８２は同時に変換ブロック８４を形成してもよいが、図３は、例えば、ブロック８０及び８２の２つのブロック間の任意の境界が２つのブロック８４間の境界を覆うように、変換ブロック８４への副分割がコード化ブロック８０、８２への副分割の拡張を形成する、あるいは、各ブロック８０、８２は、変換ブロック８４のうちの１つと一致するか、又は変換ブロック８４のクラスタと一致する場合を示す。しかしながら、変換ブロック８４が代替的にブロック８０、８２間のブロック境界を横切ることができるように、これらの副分割はまた、互いに独立して決定又は選択されてもよい。従って、変換ブロック８４への副分割に関する限り、ブロック８０、８２への副分割に関して提示されたものと同様の記述が真であり、すなわち、ブロック８４は、（行及び列への配置の有無にかかわらず）ブロックへのピクチャエリアの規則的な副分割の結果、ピクチャエリアの再帰的マルチツリー副分割の結果、若しくはそれらの組み合わせ、又は任意の他の種類のブロック化であり得る。なお、ブロック８０、８２、及び８４は、正方形、長方形、又は任意の他の形状に限定されないことに留意されたい。

図３は更に、予測信号２６と予測残差信号２４’’’’との組み合わせが再構成された信号１２’を直接もたらすことを更に示している。しかしながら、代替実施形態によれば、複数の予測信号２６を予測残差信号２４’’’と組み合わせてピクチャ１２’にすることができることに留意されたい。

図３では、変換ブロック８４は以下の重要性を有するものとする。変換器２８及び逆方向変換器５４は、これらの変換ブロック８４のユニットで変換を行う。例えば、多くのコーデックは、すべての変換ブロック８４に対して何らかの種類のＤＳＴ又はＤＣＴを使用する。いくつかのコーデックは、変換ブロック８４のいくつかについて、予測残差信号が空間ドメインにおいて直接コード化されるように、変換をスキップすることを可能にする。しかしながら、後述する実施形態によれば、エンコーダ１０及びデコーダ２０は、それらがいくつかの変換をサポートするように構成される。例えば、エンコーダ１０及びデコーダ２０によってサポートされる変換は以下を含み得る：
・ＤＣＴ－ＩＩ（又はＤＣＴ－ＩＩＩ）、ＤＣＴは離散コサイン変換を表す
・ＤＳＴ－ＩＶ、ＤＳＴは離散サイン変換を表す
・ＤＣＴ－ＩＶ
・ＤＳＴ－ＶＩＩ型
・アイデンティティ変換（ＩＴ）

当然ながら、変換器２８はこれらの変換の順方向変換バージョンのすべてをサポートするが、デコーダ２０又は逆方向変換器５４はその対応する逆方向すなわち逆変換バージョンをサポートする：
・逆方向ＤＣＴ－ＩＩ（又は逆方向ＤＣＴ－ＩＩＩ）
・逆方向ＤＳＴ－ＩＶ
・逆方向ＤＣＴ－ＩＶ
・逆方向ＤＳＴ－ＶＩＩ
・アイデンティティ変換（ＩＴ）

以下の説明は、変換がエンコーダ１０及びデコーダ２０によってサポートされ得ることに関する更なる詳細を提供する。いずれの場合でも、サポートされる変換のセットは、１つのスペクトルから空間への変換又は空間からスペクトルへの変換などの１つの変換のみを含むことができることに留意されたい。

すでに上で概説したように、図１～図３は、本出願によるエンコーダ及びデコーダの特定の例を形成するために、以下で更に説明する本発明の概念を実施することができる例として提示されている。その限りにおいて、図１及び図２のエンコーダ及びデコーダはそれぞれ、本明細書で後述するエンコーダ及びデコーダの可能な実装形態を表すことができる。しかしながら、図１及び図２は単なる例である。しかしながら、本出願の実施形態によるエンコーダは、以下でより詳細に概説される概念を使用して、図１のエンコーダとは異なるピクチャ１２のブロックベースの符号化を実行することができ、例えば、ビデオエンコーダではなく静止ピクチャエンコーダである点、インター予測をサポートしていない点、又はブロック８０への副分割が図３に例示された方法とは異なる方法で実行される点などである。同様に、本出願の実施形態によるデコーダは、以下で更に概説されるコード化概念を使用してデータストリーム１４からピクチャ１２’のブロックベースの復号を実行することができるが、ビデオデコーダではなく静止ピクチャデコーダであるという点で、イントラ予測をサポートしないという点で、又は図３に関して説明したのとは異なる方法でピクチャ１２’をブロックに副分割するという点で、及び／又は変換ドメインではデータストリーム１４から予測残差を導出しないが、例えば空間ドメインでは導出するという点で、例えば図２のデコーダ２０とは異なり得る。

ここで、それぞれのエンコーダ６０_１、６０_２及びそれぞれのデコーダ６５_１、６５_２の機能をそれぞれ示す図４ａ及び図４ｂを少なくとも部分的に参照しながら、本発明の実施形態を説明する。図４ａ及び図４ｂの構成は、本発明の選択された成分間変換６２_１又は６２_２、その逆方向バージョン６２_１’又は６２_２’がそれぞれ適用される順序を考慮して互いにずれている。

１．序論、技術水準
自然な静止及び動画色ピクチャ（以下、単に画像及びビデオと呼ぶ）では、個々の色成分間の相当量の信号相関が一般に観察され得る。これは、ＹＵＶ又はＹＣｂＣｒ（ルーマ－クロマ）又はＲＧＢ（赤－緑－青）ドメインで表されるコンテンツの場合に特に当てはまる。画像又はビデオコード化においてこのような成分間冗長性を効率的に利用するために、いくつかの予測技術が最近提案されている。これらのうち、最も注目すべきは、
・クロス成分線形モデル（ＣＣＬＭ）予測、ブロックレベルで、ある成分の入力信号を別の（通常はルーマ）復号された成分の信号から予測し、誤差、すなわち入力と予測との間の差のみを符号化する線形予測コード化（ＬＰＣ）方法、
・２つのクロマ残差信号（すなわち１回のダウンミックスのみ）間の差のみを符号化し、それぞれＹＵＶ又はＹＣｂＣｒコード化のための単純なサンプル毎のアップミックス規則「Ｖ＝－Ｕ」又は「Ｃｒ＝－Ｃｂ」を使用して、前記２つの彩度信号を復号する手法である、ジョイントクロマコード化（ＪＣＣ）。換言すれば、ＪＣＣアップミックスは、ＪＣＣダウンミックスプロセス中にＶのそれぞれＣｒについての関連する誤差又は残差をコード化することなく、Ｕ又はＣｂのそれぞれからのＶ又はＣｒの予測を表す。

それぞれ［１］及び［２］に詳細に記載されているＣＣＬＭ及びＪＣＣ技術の両方は、単一のフラグによって特定のコード化ブロックにおけるそれらの活性化をデコーダにシグナリングする。更に、両方の方式は、原則として、任意の成分対の間に適用することができ、すなわち、
・ＹＵＶ又はＹＣｂＣｒコード化における、ルーマ信号とクロマ信号との間、又は２つのクロマ信号の間、
・ＲＧＢコード化におけるＲ信号とＧ信号との間、又は、Ｒ信号とＢ信号との間、又は、最終的に、Ｇ信号とＢ信号との間。

上記のリストでは、「信号」という用語は、入力画像又はビデオの特定のドメイン又はブロック内の空間ドメイン入力信号を示すことができ、又は、任意の空間、スペクトル、又は時間予測コード化技術（例えば、角度イントラ予測又は動き補償）を使用して得られた前記空間ドメイン入力信号と空間ドメイン予測信号との間の残差（すなわち、差又は誤差）を表すことができる。

２．技術水準の欠点
上記の解決策は、最新の画像又はビデオコーデックにおけるコード化効率を高めることに成功したが、ＣＣＬＭ及びＪＣＣ手法に関連して２つの欠点を特定することができる：
・２つのクロマチャネル信号間にＣＣＬＭ方法を適用するには、エンコーダ及びデコーダの両方において、考慮中のコード化ブロックの上及び左の隣接サンプルからの特定の予測パラメータ（ＣＣＬＭ重み）の計算的に比較的複雑な導出が必要である。

・ＪＣＣ技術を使用することは、ダウンミックス及びアップミックスのために信号差のみがサポートされるため、比較的柔軟性がないことが分かった。平均して、この手法は、ＹＵＶ又はＹＣｂＣｒコード化コンテンツにはうまく機能するが、ＲＧＢコード化入力、及び顕著な色収差を有するカメラで記録された自然画像又はビデオでは、コード化利得が比較的低いことが分かった。

従って、ＪＣＣ手法の低複雑度を保持する、画像又はビデオのジョイント成分コード化のためのより柔軟な方法及び装置を提供することが望ましい。

３．発明の概要
上記の欠点に対処するために、本発明は以下の態様を含み、シグナリングという用語は、エンコーダからデコーダへのコード化情報の伝送を表す。これらの態様の各々は、別のセクションで詳細に説明される。

１．少なくとも２つの成分間ジョイントコード化／復号方法のうちの１つのブロック又はピクチャ選択的適用（すなわち、アクティブ化）は、（場合によってはエントロピコード化された）オン／オフフラグ、又は非２値インデックスを用いた前記ジョイントコード化／復号の適用の対応するブロック又はピクチャ毎の明示的シグナリングと共に、
２つ以上の成分間方法は、以下のいずれかを表すことができる：
・２つの色チャネルを表す単一のダウンミックスチャネルのコード化、Ｃ’は復号されたダウンミックスチャネルを表し、復号された色チャネルは、Ｃｂ’＝ａＣ’及びＣｒ’＝ｂＣ’によって得られ、ここで、ａ及びｂは特定の混合係数を表す（しばしばａ又はｂのいずれかが１に等しく設定される）、
・２つの混合チャネルのコード化、ここで、Ｃ_１’及びＣ_２’は復号された混合チャネルであり、復号された色成分Ｃｂ’及びＣｒ’は、復号された混合チャネルＣ_１’及びＣ_２’にサイズ２の直交（又はほぼ直交）変換を適用することによって得られる。

両方の方法は、３つ以上の色成分に拡張することができる。混合がＮ＞２個の色成分に適用される場合、Ｍ＜Ｎ（Ｍ＞１を伴う）個の混合チャネルをコード化し、Ｍ＜Ｎ個の復号された混合チャネルが与えられたＮ個の色成分を再構成することも可能である。

２．ジョイントコード化／復号が適用される場合（すなわちアクティブ化）、既存のコード化されたブロックフラグビットストリーム要素による少なくとも２つの成分間方法のうちの適用された１つの暗黙的シグナリング、
３．前記ブロック又はピクチャで適用されるすべての成分間ジョイントコード化／復号方法の復号パラメータ（例えば、アップミックス行列、逆方向変換タイプ、逆方向変換係数、回転角度、又は線形予測係数）のブロック又はピクチャ毎の直接的又は間接的シグナリング、
４．ピクチャ又はブロックレベルで、適用される少なくとも２つの成分間ジョイントコード化／復号方法のうちの１つを選択するときの（網羅的な検索の代わりに）高速エンコーダ側の決定。

３．１．明示的適用シグナリングによるＩＣＴの選択的適用
画像又はビデオ符号化中に、ジョイント残差サンプルコード化のための成分間変換（ＩＣＴ）の任意かつ選択的な適用を可能にすることが提案されている。図１に示すように、このＩＣＴ設計は、コード化中の従来の成分毎の残差変換の前又は後に順方向ジョイント成分変換（ダウンミックス）を適用し、復号中の従来の成分毎の逆方向残差変換の後又は前に対応する逆方向ジョイント成分変換（アップミックス）を適用する。しかしながら、セクション１又はセクション２の従来技術とは異なり、エンコーダには、コード化中に２つ以上のＩＣＴ方法を選択する可能性が与えられ、すなわちＩＣＴコード化を適用しない、又は少なくとも２つのＩＣＴ方法のセットのうちの１つのＩＣＴ方法を適用する。セクション３．３の本発明の態様と組み合わせると、これは従来技術よりも高い柔軟性をもたらす。

少なくとも２つのＩＣＴ方法のうちの特定の１つの選択及び適用（アクティブ化とも呼ばれる）は、各画像、ビデオ、フレーム、タイル、又はスライス（以下では単にピクチャと呼ばれる、より最近のＭＰＥＧ／ＩＴＵコーデックにおけるスライス／タイルも）に対してグローバルに実行することができる。しかしながら、ハイブリッドブロックベースの画像又はビデオコード化／復号では、ブロック適応的に適用されることが好ましい。複数のサポートされるＩＣＴ方法のうちの１つの適用が選択されるブロックは、コード化ツリーユニット、コード化ユニット、予測ユニット、変換ユニット、又は前記画像、ビデオ、フレーム、若しくはスライス内の任意の他のブロックのいずれかを表すことができる。

複数のＩＣＴ方法のいずれが適用されるかどうか、及びこれらの方法のいずれが適用されるかは、ピクチャ、スライス、タイル、又はブロックレベルの１つ又は複数の構文要素を使用してビットストリーム内でシグナリングされる（すなわち、ＩＣＴが適用されるのと同じ粒度で）。一実施形態（セクション３．２に更に記載される）では、本発明のＩＣＴコード化が適用される、又は適用されないという事実は、前記ピクチャの各々又はＩＣＴコード化が適用可能なブロックの各々について、（場合によってはエントロピコード化された）オン／オフフラグを使用して通知される。言い換えれば、（少なくとも２つの）本発明のＩＣＴ方法のアクティブ化は、それぞれのブロックのピクチャ毎の単一ビット又はビン及びブロック（ビンはエントロピコード化されたビットを示し、これは適切なコード化で１ビット未満の平均サイズを消費することができる）によって明示的にシグナリングされる。この実施形態の好ましいバージョンでは、ＩＣＴ方法の適用は２値オン／オフフラグによって通知される。複数のＩＣＴ方法のうちのどれが適用されるかの情報は、追加で送信されるコード化されたブロックフラグ（詳細はセクション３．２に続く）の組み合わせを介してシグナリングされる。別の実施形態では、ＩＣＴ方法及び使用されるＩＣＴ方法の適用は、非２値構文要素を使用してシグナリングされる。

両方の実施形態について、ＩＣＴ方法の使用を示す２値又は非２値構文要素は、（変換ブロックが非ゼロ変換係数を有するかどうかを示す）１つ又は複数のコード化されたブロックフラグが１に等しい場合にのみ（構文内に）存在することができる。ＩＣＴ関連構文要素が存在しない場合、デコーダは、ＩＣＴ方法が使用されていないと推測する。

更に、高レベル構文は、ブロックレベル構文要素の存在ならびにそれらの意味を示す構文要素を含むことができる（セクション３．３を参照）。一方では、そのような高レベルの構文要素は、ＩＣＴ方法のいずれかが現在のピクチャ、スライス、又はタイルに利用可能であるかどうかを示すことができる。一方、高レベル構文は、ピクチャの現在のピクチャ、スライス、又はタイルに対してより大きなＩＣＴ方法のセットのどのサブセットが利用可能であるかを示すことができる。

以下では、成分間変換の特定の変形について説明する。これらの変形は、典型的に使用されるＹＣｂＣｒフォーマットの画像及びビデオ信号のクロマ成分Ｃｂ及びＣｒの例における２つの特定の色成分について記載されている。それにもかかわらず、本発明はこのユースケースに限定されない。本発明は、任意の他の２つの色成分（例えば、ＲＧＢビデオの赤色成分及び青色成分の場合）にも使用することができる。更に、本発明は、３つ以上の色成分（例えば、ＹＣｂＣｒビデオの３つの成分Ｙ、Ｃｂ、及びＣｒ、又はＲＧＢビデオの３つの成分Ｒ、Ｇ、及びＢなど）のコード化にも適用することができる。

ＩＣＴクラス１：変換ベースのコード化
第１のＩＣＴ変形では、２つの色チャネル

及び

を送信することができる。これらの２つの色チャネルは、（少なくともほぼ）直交基底関数を用いた変換の変換成分を表す。再構成された色チャネルを

及び

とする。デコーダ側では、元の色成分の再構成Ｃｂ’及びＣｒ’は、直交基底関数による変換を使用して導出され、直交基底関数は、以下に従って指定することができ、

ここで、

は信号空間における回転角度を表し、

及び

は非ゼロの重み係数を表す。ほとんどの構成では、重み係数は

又は

のいずれかとして選択される。このような変換の利点は、エンコーダでは、２つの送信された色チャネル（すなわち

、又は

）の一方の分散が最小化され、他方の色チャネルの分散が最大化されるように回転角度

を選択できることであり、これは最終的にコード化効率が向上する効果を有する。丸め効果により、実際に適用される変換は、上記の式からわずかに逸脱する可能性がある。重み係数

及び

は、単純化された算術演算を使用して変換を計算できるように選択することができる。一例として、適用された変換は、以下に従って計算することができる：

この上の式では、本発明者らは

及び

を選択し、上の式が１つの特定の構成を表し、同様の単純な再構成規則をもたらす他の構成も可能であることに留意されたい。（一般に）実係数

による乗算は、実乗算を整数乗算及び右へのビットシフト（例えば、

と同様の式を使用する）で近似することによって実施することができる。エンコーダ側では、元の色チャネルＣｂ及びＣｒを実際にコード化された成分

及び

にマッピングする順方向変換は、再構成変換の逆方向（対応する近似を含む）として計算することができる。複数のサポートされているＩＣＴ変換のうちの１つ又は複数は、異なる回転角度

（及び適切に選択された重み係数）、又は代替的に異なるスケーリング係数

を有するそのような直交変換に対応することができる。
上述したように、変換ベースのＩＣＴ方法は、３つ以上の色成分に拡張することができ、その場合、Ｎ＞２個のコード化された色チャネルは、Ｎ個の再構成された色成分に線形にマッピングされる。適用される変換は、複数の回転角度、又はより一般的にはＮｘＮ個の変換行列（少なくともほぼ直交基底関数を有する）によって指定することができる。Ｎ＝２の場合については、整数演算を用いた線形結合により、実際に適用される変換を特定することができる。

ＩＣＴクラス２：色チャネル数を削減したダウンミックスベースのコード化
上述したように、上述の変換ベースのＩＣＴ変形の主な利点は、結果として得られる成分のうちの１つの分散が他の成分の分散と比較して小さくなることである（一定量の相関を有するブロックについて）。多くの場合、これにより、成分の１つが（ブロック全体について）０に量子化される。実装を単純化するために、色変換は、結果として生じる成分（

又は

）の１つが強制的に０に量子化されるように実装することができる。この場合、元の色チャネルＣｂ及びＣｒの両方は、単一の透過成分Ｃによって表され、Ｃ’によって示される色成分の再構成バージョンが与えられると、再構成された色チャネルＣｂ’及びＣｒ’は、以下に従って取得することができる：

ここで、

は回転角度を表し、

はスケーリング係数を表す。上記と同様に、実際の実装は、例えば以下に従って簡略化することができる：

複数のサポートされたＩＣＴ変換のうちの１つ又は複数は、（色成分のうちのどれが送信された成分Ｃと等しく設定されるかの決定と組み合わせて）異なる回転角度

又は異なるスケーリング係数

、

を有するそのようなジョイント成分コード化に対応することができる。エンコーダでは、実際にコード化された色成分Ｃは、いわゆるダウンミックスによって得られ、これは線形結合

として表すことができ、係数

及び

は、例えば、再構成された色成分Ｃｂ’及びＣｒ’の歪みが最小化されるように選択され得る。
上記の変形１と同様に、この第２の変形も３つ以上の色成分に一般化することができる。ここで、複数の構成が可能である。第１の構成では、Ｎ＞２個の元の色チャネルは、単一のジョイント色チャネル（Ｍ＝１個の結果として得られるコード化された成分）によって表される。別の構成では、Ｎ＞２個の元の色チャネルは、Ｍ＜Ｎ個（Ｍ＞１）の結果のチャネル（例えば、Ｍ＝Ｎ－１チャネル）によって表される。両方の構成について、元の色チャネルの再構成は、対応する混合係数（整数乗算及びビットシフトを使用して実装され得る）を有する行列（Ｎ行及びＭ＜Ｎ列を有する）によって表すことができる。

サポートされている２つ以上のＩＣＴ方法は、変換ベースの方法の０以上の変形（回転角度又はスケーリング係数によって指定される）及びダウンミックスベースの方法の０以上の変形（回転角度又はスケーリングファクタによって指定される（場合によっては、どの色成分が送信された成分と等しく設定されるかを指定する追加のフラグを有する））を含むことができる。これは、（ａ）すべてのＩＣＴ方法が変換ベースの変形を表し、（ｂ）すべてのＩＣＴ方法がダウンミックスベースの変形を表し、（ｃ）２つ又はＩＣＴ方法が変換ベースの変形とダウンミックスベースの変形との混合を表す場合を含む。このとき、回転角度又は混合係数はブロック単位で送信されないことを再度指摘しておく必要がある。代わりに、ＩＣＴ方法のセットが事前定義され、エンコーダとデコーダの両方によって知られている。ブロックベースでは、２つ以上のＩＣＴ方法のうちの１つを識別するインデックスのみが（２値フラグ又は非２値構文要素によって）シグナリングされる。ＩＣＴ方法の予め定義されたセットのサブセットは、シーケンス、ピクチャ、タイル、又はスライスベースで選択されてもよく、その場合、ブロックベースでコード化されたインデックスは、対応するサブセットから選択された方法をシグナリングする。

一実施形態によれば、色成分のサンプルのブロックは、変換コード化の概念を使用して送信され、サンプルのブロックを変換係数のブロックにマッピングする２ｄ変換、変換係数の量子化、及び結果として得られる量子化インデックス（変換係数レベルとも呼ばれる）のエントロピコード化からなるか、又は少なくともそれらを含む。デコーダ側では、まずエントロピ復号された変換係数レベルを逆方向量子化して再構成された変換係数を取得し（逆方向量子化は通常、量子化ステップサイズとの乗算からなる）、次いで変換係数に逆方向変換を適用して再構成されたサンプルのブロックを取得することによって、サンプルのブロックが再構成される。更に、変換コード化を使用して送信されるサンプルのブロックは、元の信号と予測信号との間の差を指定する残差信号を表すことが多い。この場合、画像の復号されたブロックは、残差サンプルの再構成されたブロックを予測信号に加算することによって得られる。デコーダ側では、ＩＣＴ方法は以下のように適用することができる：

・再構成された変換係数にＩＣＴ変換が適用される（逆方向量子化後）、次いで、ＩＣＴ変換に続いて、個々の色成分の逆方向２ｄ変換が行われ、適用可能であれば、予測信号の加算が行われ、
・再構成された残差信号にＩＣＴ変換が適用される。これは、コード化された色成分が最初に逆方向量子化され、２ｄ変換によって逆方向変換されることを意味する。得られた残差サンプルのブロック（複数可）はＩＣＴ変換を使用して変換され、ＩＣＴ変換の後に予測信号が追加され得る。

ＩＣＴ及び２ｄ変換の両方が丸めを含まない場合、これらの構成の両方が同じ結果をもたらすことに留意されたい。しかし、実施形態では、丸めを含む整数演算においてすべての変換を指定することができるため、２つの構成は異なる結果をもたらす。なお、逆方向量子化前や予測信号加算後にＩＣＴ変換を適用することも可能である。

上述したように、ＩＣＴ方法の実際の実施態様は、（実際の実施態様を単純化するスケーリング係数の導入により）ユニタリ変換から逸脱する可能性がある。この事実は、それに応じて量子化ステップサイズを変更することによって考慮されるべきである。すなわち、本発明の一実施形態では、特定のＩＣＴ方法の選択は、量子化パラメータ（従って、結果として得られる量子化ステップサイズ）の特定の変更を意味する。量子化パラメータの変更は、デルタ量子化パラメータによって実現されてもよく、デルタ量子化パラメータは、標準量子化パラメータに追加される。デルタ量子化パラメータは、すべてのＩＣＴ方法に対して同じであってもよいし、異なるＩＣＴ方法に対して異なるデルタ量子化パラメータが使用されてもよい。１つ又は複数のＩＣＴ方法に関連して使用されるデルタ量子化パラメータは、ハードコード化されてもよく、又はスライス、ピクチャ、タイル、又はコード化されたビデオシーケンスのための高レベル構文の一部としてシグナリングされてもよい。

３．２．少なくとも２つのＩＣＴ方法のうちの適用された１つの暗黙的シグナリング
セクション３．１で述べたように、少なくとも２つのＩＣＴ方法のうちの本発明の一方のアクティブ化は、復号時に逆方向ＩＣＴ（すなわち、ＩＣＴ処理行列の転置）を適用するようにデコーダに命令するために、オン／オフフラグを使用して、エンコーダからデコーダに明示的にシグナリングされることが好ましい。しかしながら、ＩＣＴコード化（すなわち、順方向ＩＣＴ）及び復号（すなわち、逆方向ＩＣＴ）がアクティブである各ピクチャ又はブロックについて、少なくとも２つのＩＣＴ方法のうちのいずれが手元の処理されたピクチャ又はブロックに適用されるかをデコーダに通知することが依然として必要である。直感的には、特定のＩＣＴ方法（それぞれのブロックのピクチャ毎に１つ又は複数のビット又はビンを使用する）の明示的なシグナリングを使用することができるが、このシグナリングの形態が本発明のＩＣＴ方式のサイド情報オーバヘッドを最小限に抑えることが分かったので、暗黙的なシグナリングが使用されることが好ましい。

適用されるＩＣＴ方法の暗黙的シグナリングには２つの好ましい実施形態がある。両方とも、ＨＥＶＣ及びＶＶＣ［３］のような現代のコーデックにおける既存の「残差ゼロネス」インジケータ、具体的には、各変換ユニットの各色成分に関連付けられたコード化されたブロックフラグ（ＣＢＦ）ビットストリーム要素を利用する。０（偽）のＣＢＦ値は、残差ブロックがコード化されない（すなわちすべての残差サンプルが０に量子化され、従って、量子化された残差係数をビットストリームで伝送する必要はない）ことを意味し、１（真）のＣＢＦ値は、少なくとも１つの残差サンプル（又は変換係数）が所与のブロックの非ゼロ値に量子化され、従って、前記ブロックの量子化残差がビットストリーム内でコード化されることを意味する。

３．２．１．２つのＩＣＴ方法のうちの１つの暗黙的シグナリング
２成分残差信号のジョイントＩＣＴコード化の場合、２つのＣＢＦ要素が暗黙的ＩＣＴ方法シグナリングに利用可能である。２つのＩＣＴダウンミックス／アップミックス方法を提供する場合、好ましい暗黙的シグナリングは以下のとおりである：

３．２．２．３つのＩＣＴ方法のうちの１つの暗黙的シグナリング
サブセクション３．２．１のように、暗黙的なＩＣＴ方法シグナリングに２つのＣＢＦ要素が利用可能であるが、適用のために２つではなく３つのＩＣＴダウンミックス／アップミックス方法が提供される場合、好ましい暗黙的シグナリングは以下のとおりである：

ブロック内の両方の色成分のＣＢＦが０である場合、いずれかの成分のビットストリームに非ゼロ残差サンプルはコード化されず、適用されたＩＣＴ方法に関する情報を伝達することは不要である。

３．３．ＩＣＴ復号パラメータの任意選択の直接又は間接シグナリング
前のセクションでは、ピクチャ又はブロック内のＩＣＴ方法のアクティブ化が（オン／オフフラグを使用して）明示的にシグナルリングされる方法、及び影響を受けた色成分に対して少なくとも２つのＩＣＴ方法のうちの１つの実際の選択が（既存のＣＢＦ「残差ゼロネス」インジケータによって）暗黙的にシグナリングされる方法について説明した。可能な２つ以上のＩＣＴ方法のセットは、サイズ２離散コサイン変換（ＤＣＴ）若しくは離散サイン変換（ＤＳＴ）若しくはＷａｌｓｈ－Ｈａｄａｍａｒｄ変換（ＷＨＴ）若しくはＫａｒｈｕｎｅｎ－Ｌｏｅｖｅ変換（ＫＬＴ、主成分分析、ＰＣＡとしても知られる）インスタンス、又はギブンス回転若しくは線形予測コード化関数の所定の（固定された）若しくは入力依存（適応）パラメータ化を含むことができる。これらのＩＣＴ方法はすべて、順方向形式の２つの入力残差信号を与えられて、１つ又は２つのダウンミックス信号と、逆方向実現の１つ又は２つの（場合によっては量子化された）ダウンミックス信号が与えられて、２つのアップミックス信号とをもたらす。

固定パラメータ化を有する２つ以上のＩＣＴ方法のセットは、例えば、サイズ２変換又は線形予測子関数の回転角度又は係数の特定の事前選択によって特徴付けることができる。このパラメータ化は、エンコーダとデコーダの両方に知られているので、ビットストリームで送信される必要はない。従来技術［２］では、ダウンミックス規則「Ｃ＝（Ｃｂ－Ｃｒ）／２」及びアップミックス規則「Ｃｂ’＝Ｃ、Ｃｒ’＝－Ｃ」をもたらす固定された「－１」パラメータ化が使用される。本手法では、エンコーダによる選択のために２つ以上のＩＣＴ方法が利用可能であり、２つのＩＣＴ方法の固定されたセット（セクション３．２．１を参照）は、

一方、３つのＩＣＴ方法の固定されたセット（サブセクション３．２．２参照）は、２のセットよりも好ましい場合があり、

この固定された３のセットのＩＣＴ設計は、知覚オーディオコード化及び可逆オーディオコード化［４，５］の両方に一般的に適用される合計差コード化技術に類似しており、有意なコード化利得を提供する。しかしながら、この固定された手法は、２つの処理された成分信号にわたって前記コード化利得の比較的不均一な分布をもたらすことが見出された。この問題を補償するために、主成分分析（ＰＣＡ）としても知られるサイズ２のＫＬＴを使用して実現される、より一般的な回転ベースの手法を追求することができる。この場合、ダウンミックス規則は、
Ｃ_１＝Ｃｂ・ｃｏｓα＋Ｃｒ・ｓｉｎα又はＣ_１＝Ｃｂ・ｓｉｎα＋Ｃｒ・ｃｏｓα、
Ｃ_２＝－Ｃｂ・ｓｉｎα＋Ｃｒ・ｃｏｓα又はＣ_２＝Ｃｂ・ｃｏｓα－Ｃｒ・ｓｉｎα、
これは、この場合、２つの成分にわたる順方向ＫＬＴを表し、それぞれのアップミックス規則は、
Ｃｂ’＝Ｃ_１’・ｃｏｓα－Ｃ_２’・ｓｉｎα又はＣｂ’＝Ｃ_１’・ｓｉｎα＋Ｃ_２’・ｃｏｓα、
Ｃｒ’＝Ｃ_１’・ｓｉｎα＋Ｃ_２’・ｃｏｓα又はＣｒ’＝Ｃ_１’・ｃｏｓα－Ｃ_２’・ｓｉｎα、

従って、逆方向ＫＬＴを表し、［６］も参照。なお、回転角度α＝π／４の場合、上式の右辺の表記は、上式の３つのＩＣＴ法の固定されたセットの第３（三次）のＩＣＴ法の直交バージョンを表す。ＫＬＴ／ＰＣＡ手法では、回転角度－π≦α≦πの異なる値を使用して、上記の個々の一次、二次、及び任意選択で三次ＩＣＴ方法をパラメータ化することができる。具体的には、α_１＝－π／８、α_２＝π／８、場合によってはα_３＝－π／４などの固定角度が３つのＩＣＴ方法のセットに対して定義されてもよく、α_１、α_２、α_３はエンコーダとデコーダの両方に知られている。ＫＬＴ／ＰＣＡダウンミックス規則の単一出力成分変形が定義されてもよく、Ｃ_１’＝０又はＣ_２’＝０のいずれかであり、従って、アップミックス規則は簡略化されて、コード化されたＣ_１’のみ又はコード化されたＣ_２’信号のみからＣｂ’及びＣｒ’成分信号を再構成することは注目に値する（セクション３．１参照）。このようにして、サブセットとして上記の２つのセット及び３つのセットの固定されたＩＣＴパラメータ化を含むことができる完全に柔軟で一般化された２つ以上のセットのＩＣＴ方法が構築される。これにより、固定されたパラメータ化の態様が終了する。

画像及びビデオコード化の領域については、通常、ビットストリーム構文及び復号プロセスのみが指定されることに留意されたい。その文脈において、記載されたダウンミックス（順方向ＩＣＴ変換）は、特定のアップミックス規則のためのダウンミックスチャネルを取得するための特定の例として解釈されるべきである。エンコーダにおける実際の実装は、これらの例から逸脱し得る。

いくつかのコード化構成では、入力依存適応方式で回転角度αを決定することが有益である。そのようなシナリオでは、αは、以下のように２つの入力成分信号（ここではＣｂ及びＣｒ残差）から、
α＝１／２・ｔａｎ^－１（２・ＣｂＣｒ／（Ｃｂ^２－Ｃｒ^２））又はα＝１／２・ｔａｎ^－１（２・ＣｂＣｒ／（Ｃｒ^２－Ｃｂ^２））、
ＫＬＴダウンミックス／アップミックス規則の適用される表記に応じて計算され得る（前のページを参照）。αを導出する上記の方法は、相関ベースの（すなわち、最小２乗）手法に基づいている。あるいは、式、
α＝ｓｉｇｎ（ＣｂＣｒ）・ｔａｎ^－１（ｓｑｒｔ（Ｃｒ^２）／ｓｑｒｔ（Ｃｂ^２））又は
α＝ｓｉｇｎ（ＣｂＣｒ）・ｔａｎ^－１（ｓｑｒｔ（Ｃｂ^２）／ｓｑｒｔ（Ｃｒ^２））を、
ここでも、特定のＫＬＴダウンミックス／アップミックス表記に応じて使用することができる。この計算は、強度ベースの原理角度計算を表す。相関に基づく導出方法及び強度に基づく導出方法（自然な画像又はビデオコンテンツに対してほぼ同一の結果をもたらす）の両方は、ドット積を利用し、
ＣｂＣｒ＝ｓｕｍ_ｂ∈Ｂ（Ｃｂ_ｂ・Ｃｒ_ｂ）、Ｃｂ^２＝ｓｕｍ_ｂ∈Ｂ（Ｃｂ_ｂ・Ｃｂ_ｂ）、Ｃｒ^２＝ｓｕｍ_ｂ∈Ｂ（Ｃｒ_ｂ・Ｃｒ_ｂ）、

ここで、Ｂは処理されたコード化ブロック（又はピクチャ）に属するすべてのサンプル位置のセットに等しい。逆正接演算ｔａｎ^－１は、一般に、正しい、すなわち適切な座標象限内にある記号を有するαを得るためにａｔａｎ２プログラミング関数を使用して実施される。導出された－π≦α≦πは、所定の数の角度のうちの１つに量子化（すなわちマッピングされる）され、ＩＣＴオン／オフフラグと共に、ブロック又はピクチャレベルでデコーダに送信され得る。具体的には、以下の送信オプションを使用して、逆方向ＩＣＴ処理中に適用する特定のパラメータ化についてデコーダに通知することができる：

・第１の選択肢：各コード化ブロック及び／又はそのコード化ブロックで使用される各ＩＣＴ方法について、そのＩＣＴ方法の量子化／マッピングされたαを、量子化された角度値として直接、又は所定の角度のルックアップテーブルへのインデックスとして間接的に送信する。ブロックに１つのＩＣＴ方法のみが適用され、各ブロックに対して量子化／マッピングされたαが送信される場合、１つのαのみが送信される。ブロック内でＩＣＴコード化がアクティブでない場合、効率のためにこのブロックに対して量子化／マッピングされたαは送信されない。

・第２の選択肢：量子化／マッピングされたα値をピクチャ又はビデオ（ピクチャのセット）毎に１回、前記ピクチャ又はビデオで適用される、又は適用可能なすべてのＩＣＴ方法に対して送信する。これは、例えば、画像パラメータセットにおいて、又は好ましくはＨＥＶＣ若しくはＶＶＣ［３］のスライスヘッダにおいて、ピクチャ又はビデオの先頭で実行することができる。ピクチャ又はビデオにおいてＩＣＴコード化がアクティブではなく、及び／又はクロマコード化が実行されていない場合（例えば、ルーマのみの入力）、量子化／マッピングされたα値を送信する必要はない。ここでも、各αパラメータは、量子化された角度値として直接的に、又は所定の角度値のルックアップテーブルへのインデックスとして間接的に送信することができる。

両方のオプションは、並列又は順次のいずれかで組み合わせることができる。
適応パラメータ化態様の議論を結論付けるために、上記のパラメータ送信オプションからのわずかな逸脱が容易に実施可能であることは当業者には明らかであることに留意されたい。例えば、エンコーダからデコーダへのピクチャ又はブロック毎のＩＣＴパラメータ送信は、コード化に利用可能な２つ以上のＩＣＴ方法のセットのうちの選択されたＩＣＴ方法、例えば、方法１及び２についてのみ、又は方法３についてのみに対してだけ実行されてもよい。更に、変換サイズが２（すなわち２つの色成分にわたるＩＣＴ）の場合、ＫＬＴは、α＝π／４又はα＝－π／４の場合のＤＣＴ又はＷＨＴと等価であることは明らかである。最後に、ＫＬＴ以外の他の変換又は一般的に言えばダウンミックス／アップミックス規則がＩＣＴとして使用されてもよく、これらは回転角度以外の他のパラメータ化の影響を受けてもよい（最も一般的な場合には、実際のアップミックス重みを量子化／マッピングして送信することができる）。

３．４．応用ＩＣＴ法の加速エンコーダ側選択
最新の画像及びビデオエンコーダでは、複数のサポートされているコード化モードのうちの１つが、通常、ラグランジュのビット割り当て技術に基づいて選択される。すなわち、サポートされる各モードｍ（又はそのサブセット）について、結果として生じる歪みＤ（ｍ）及び結果として生じるビット数Ｒ（ｍ）が計算され、λが固定ラグランジュ乗数であるラグランジュ関数Ｄ（ｍ）＋λ Ｒ（ｍ）を最小化するモードが選択される。歪み項Ｄ（ｍ）及びレート項Ｒ（ｍ）の決定は、典型的には、モード毎に２ｄ順方向変換、（かなり複雑な）量子化、及びテストエントロピコード化を必要とするため、エンコーダの複雑さは、サポートされるモードの数と共に増大する。従って、エンコーダの複雑さはまた、ブロックベースでサポートされるＩＣＴモードの数と共に増加する。
しかしながら、ＩＣＴ方法を評価するためのエンコーダの複雑さを低減する可能性がある。以下では、３つの例を強調する：

・エンコーダでは、（例えば、上記の方法のうちの１つによって）ブロックの色成分の元の（残差サンプル）に基づいて最適な回転角度αを導出することができる。そして、導出された角度が与えられると、この角度に最も近い回転を表すＩＣＴ方法のみが、この方法ｍに必要な実際の歪みＤ（ｍ）及び実際のビット数Ｒ（ｍ）を導出することによって試験される。

・ダウンミックス方法のみがサポートされている場合（すなわち、Ｎ個の色成分がＭ＜Ｎ個の送信チャネルによって表される方法）、ダウンミックスのみに起因する歪みを評価することができる。次に、最小のダウンミックス歪みをもたらす方法ｍのみが、ラグランジュ手法を使用して試験される（すなわち、方法ｍに関連する実際の歪みＤ（ｍ）及び実際のビットレートＲ（ｍ）を導出することによって）。

・２つの混合チャネルＣ_１’及びＣ_２’をコード化する場合、これらのチャネルの両方には、Ｓｅｃ．３．２．２の方法３の場合のように非ゼロのＣＢＦが必要であり、第１の混合チャネル（例えば、Ｃ_１’）の量子化後に、前記第１の混合チャネルの量子化バージョンが少なくとも１つの非ゼロ量子化係数を呈するかどうかを試験することによって、エンコーダの高速化が可能である。そうである場合（すなわち、そのＣＢＦは非ゼロである）、第２の混合チャネル（例えば、Ｃ_２’）を量子化することができ、次いで、ラグランジュ法を使用してこの２チャネル法を試験する。しかしながら、第１の混合チャネルの量子化バージョンがゼロ量子化係数（すなわち、そのＣＢＦは０である）のみを示す場合、第２の混合チャネルの量子化をスキップすることができ、所与の量子化パラメータに対して、２チャネル方法を暗黙的にシグナリングすることができず、従って禁止されるので、２チャネル方法のラグランジュ試験を中止することができる。

３．５．ＩＣＴフラグ及びモードのためのコンテキストモデリング
ＩＣＴ使用のシグナリングは、ＣＢＦ情報に結合され得る。両方のＣＢＦフラグ、すなわち各クロマ成分の各変換ブロック（ＴＢ）のＣＢＦが０に等しい場合、シグナリングは不要である。あるいは、ＩＣＴアプリケーションの構成によっては、ビットストリームでＩＣＴフラグを送信してもよい。内部コンテキストモデリングと外部コンテキストモデリングとの区別は、この文脈において有用であり、すなわち、内部コンテキストモデリングはコンテキスト・モデル・セット内のコンテキストモデルを選択し、外部コンテキストモデリングはコンテキスト・モデル・セットを選択する。内部コンテキストモデリングのための構成は、例えば、上記及び左の隣接物を使用し、それらのＩＣＴフラグ値をチェックする、隣接ＴＢの評価である。値からコンテキスト・モデル・セット内のコンテキストインデックスへのマッピングは、加法的（すなわち、ｃ＿ｉｄｘ＝Ｌ＋Ｂ）、排他的論理和（すなわち、ｃ＿ｉｄｘ＝（Ｌ＜＜１）＋Ａ）、又は能動的（すなわち、ｃ＿ｉｄｘ＝ｍｉｎ（１，Ｌ＋Ｂ））であり得る。外部コンテキストモデリングのために、ＩＣＴフラグのＣＢＦ条件を使用することができる。例えば、ＣＢＦフラグの組み合わせによって区別される３つの変換を使用する構成の場合、ＣＢＦ組み合わせの各々に対して別々のコンテキストセットが採用される。あるいは、外部及び内部コンテキストモデリングの両方は、異なるコンテキストモデル又は異なるコンテキスト・モデル・セットが異なるブロックサイズに使用されるように、ツリー深度及びブロックサイズを考慮に入れることができる。

本発明の好ましい実施形態では、ＩＣＴフラグに単一のコンテキストモデルが使用され、すなわち、コンテキスト・モデル・セット・サイズは１に等しい。

本発明の更に好ましい実施形態では、内部コンテキストモデリングは、隣接する変換ブロックを評価し、コンテキスト・モデル・インデックスを導出する。この場合、加法評価を使用するとき、コンテキスト・モデル・セット・サイズは３に等しい。

本発明の好ましい実施形態では、外部コンテキストモデリングは、各ＣＢＦフラグの組み合わせに対して異なるコンテキスト・モデル・セットを使用し、各ＣＢＦの組み合わせが異なるＩＣＴ変換をもたらすようにＩＣＴが構成されると、３つのコンテキスト・モデル・セットが得られる。

本発明の更に好ましい実施形態では、外部コンテキストモデリングは、両方のＣＢＦフラグが１に等しい場合に専用のコンテキスト・モデル・セットを使用し、他の場合は同じコンテキスト・モデル・セットを使用する。

エンコーダの特徴を参照して本明細書で提供される説明は、エンコーダから直接、例えば、無線若しくは有線ネットワークなどのデータ接続を使用して、又はポータブル媒体若しくはサーバなどの記憶メディアを使用して間接的に、信号若しくはビットストリームを受信するように適合されたそれぞれのデコーダにも適用されるが、これに限定されない。逆に、デコーダに関連して説明された特徴は、一実施形態によるエンコーダの対応する特徴として制限なく実装され得る。これは、他の特徴の中でもとりわけ、情報を直接かつ明確に評価することに依存するデコーダに関連する特徴が、それぞれの情報を生成及び／又は送信するためのエンコーダのそれぞれの特徴を開示することを含む。特に、エンコーダは、特に選択された符号化を試験及び評価するために、特許請求されるデコーダに対応する機能を備えることができる。

いくつかの態様は、装置の文脈で説明されているが、これらの態様は、対応する方法の説明も表しており、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明される態様は、対応するブロック又は対応する装置のアイテム又は特徴の記述も表す。

本発明の符号化された画像又はビデオ信号は、デジタル記憶媒体に記憶することができ、あるいはインターネットなどの無線伝送媒体又は有線伝送媒体などの伝送媒体上で伝送することができる。

特定の実装要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実装することができる。実施形態は、中に格納される電子的に読み取り可能な制御信号を有し、各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働可能な）、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。

本発明によるいくつかの実施形態は、プログラム可能なコンピュータシステムと協働して、本明細書に記載の方法の１つが実行されるような、電子的に読み取り可能な制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するときに、本方法の１つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械読み取り可能なキャリアに格納することができる。

他の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含み、機械読み取り可能なキャリアに格納される。

従って、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

従って、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを含み、そこに記録される、データキャリア（又はデジタル記憶媒体又はコンピュータ可読媒体）である。

従って、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続、例えばインターネットを介して転送されるように構成することができる。

更なる実施形態は、本明細書に記載の方法のうちの１つを実行するように構成された、又は適用される処理手段、例えばコンピュータ又はプログラマブル論理装置を含む。

更なる実施形態は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

いくつかの実施形態では、プログラマブルロジック装置（例えば、フィールド・プログラマブル・ゲート・アレイ）を使用して、本明細書に記載の方法の機能の一部又は全部を実行することができる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書で説明する方法の１つを実行するためにマイクロ処理部と協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。

上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載された構成及び詳細の修正及び変形は、他の当業者には明らかであることが理解される。従って、本明細書の実施形態の説明及び説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図される。

４．参考文献
［１］Ｋ．Ｚｈａｎｇ，Ｊ．Ｃｈｅｎ，Ｌ．Ｚｈａｎｇ，Ｍ．Ｋａｒｃｚｅｗｉｃｚ， “Ｅｎｈａｎｃｅｄｃｒｏｓｓ－ｃｏｍｐｏｎｅｎｔｌｉｎｅａｒｍｏｄｅｌｉｎｔｒａｐｒｅｄｉｃｔｉｏｎ，” ＪＶＥＴ－Ｄ０１１０，２０１６，ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｔ－ｓｕｄｐａｒｉｓ．ｅｕ／ｊｖｅｔ／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｃｕｒｒｅｎｔ＿ｄｏｃｕｍｅｎｔ．ｐｈｐ？ｉｄ＝２８０６

［２］Ｊ．Ｌａｉｎｅｍａ， “ＣＥ７－ｒｅｌ．：Ｊｏｉｎｔｃｏｄｉｎｇｏｆｃｈｒｏｍｉｎａｎｃｅｒｅｓｉｄｕａｌｓ，” ＪＶＥＴ－Ｍ０３０５，Ｍａｒｒａｋｅｃｈ，Ｊａｎ．２０１９．ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｔ－ｓｕｄｐａｒｉｓ．ｅｕ／ｊｖｅｔ／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｃｕｒｒｅｎｔ＿ｄｏｃｕｍｅｎｔ．ｐｈｐ？ｉｄ＝５１１２

［３］Ｂ．Ｂｒｏｓｓ，Ｊ．Ｃｈｅｎ，Ｓ．Ｌｉｕ， “ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（Ｄｒａｆｔ４），” ｖ．４，ＪＶＥＴ－Ｍ１００１，Ｍａｒｒａｋｅｃｈ，Ｆｅｂ．２０１９．ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｔ－ｓｕｄｐａｒｉｓ．ｅｕ／ｊｖｅｔ／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｃｕｒｒｅｎｔ＿ｄｏｃｕｍｅｎｔ．ｐｈｐ？ｉｄ＝５７５５

［４］Ｊ．Ｄ．Ｊｏｈｎｓｔｏｎ， “ＰｅｒｃｅｐｔｕａｌＴｒａｎｓｆｏｒｍＣｏｄｉｎｇｏｆＷｉｄｅｂａｎｄＳｔｅｒｅｏＳｉｇｎａｌｓ，” ｉｎＰｒｏｃ．ＩＥＥＥＩｎｔ．Ｃｏｎｆ．Ａｃｏｕｓｔ．ＳｐｅｅｃｈＳｉｇ．Ｐｒｏｃｅｓｓ．（ＩＣＡＳＳＰ），Ｇｌａｓｇｏｗ，ｖｏｌ．３，ｐｐ．１９９３－１９９６，Ｍａｙ１９８９．

［５］Ｊ．Ｄ．ＪｏｈｎｓｔｏｎａｎｄＡ．Ｊ．Ｓ．Ｆｅｒｒｅｉｒａ， “Ｓｕｍ－ＤｉｆｆｅｒｅｎｃｅＳｔｅｒｅｏＴｒａｎｓｆｏｒｍＣｏｄｉｎｇ，” ｉｎＰｒｏｃ．ＩＥＥＥＩｎｔ．Ｃｏｎｆ．Ａｃｏｕｓｔ．ＳｐｅｅｃｈＳｉｇ．Ｐｒｏｃｅｓｓ．（ＩＣＡＳＳＰ），ＳａｎＦｒａｎｃｉｓｃｏ，ｖｏｌ．２，ｐｐ．５６９－５７２，Ｍａｒ．１９９２．

［６］Ｒ．Ｇ．ｖａｎｄｅｒＷａａｌａｎｄＲ．Ｎ．Ｊ．Ｖｅｌｄｈｕｉｓ， “ＳｕｂｂａｎｄＣｏｄｉｎｇｏｆＳｔｅｒｅｏｐｈｏｎｉｃＤｉｇｉｔａｌＡｕｄｉｏＳｉｇｎａｌｓ，” ｉｎＰｒｏｃ．ＩＥＥＥＩｎｔ．Ｃｏｎｆ．Ａｃｏｕｓｔ．ＳｐｅｅｃｈＳｉｇ．Ｐｒｏｃｅｓｓ．（ＩＣＡＳＳＰ），Ｔｏｒｏｎｔｏ，ｐｐ．３６０１－３６０４，Ａｐｒ．１９９１．ｈｔｔｐｓ：／／ｗｗｗ．ｃｏｍｐｕｔｅｒ．ｏｒｇ／ｃｓｄｌ／ｐｒｏｃｅｅｄｉｎｇｓ／ｉｃａｓｓｐ／１９９１／０００３／００／００１５１０５３．ｐｄｆ

Claims

第１のクロマブロックＣｂと第２のクロマブロックＣｒの残差サンプルをジョイントコード化するブロックベースビデオエンコーダであって、前記第１及び第２のクロマブロックは、対応するピクチャブロックの異なる色成分であり、
前記エンコーダは、
係数の複数の対から係数の対（ａ、ｂ）を選択し、
前記第１のクロマブロック及び前記第２のクロマブロックから、ジョイントコード化ブロックＣを決定し、ここで、符号化されたジョイントコード化ブロックから再構成されたジョイントコード化ブロックＣ’を得ることができ、再構成された第１のクロマブロックＣｂ’及び再構成された第２のクロマブロックＣｒ’を、Ｃｂ’＝ａＣ’及びＣｒ’＝ｂＣ’に従って決定することができ、
前記ジョイントコード化されたブロックを符号化し、
前記係数の複数の対から選択された前記係数の対（ａ、ｂ）を、前記再構成された第１のクロマブロックのコード化ブロックフラグ（ＣＢＦ）と、前記再構成された第２のクロマブロックのＣＢＦとを用いてデコーダにシグナリングし、ここで、前記再構成された第１のクロマブロックのコード化ブロックフラグ（ＣＢＦ）は設定されている場合、前記再構成された第１のクロマブロックの少なくとも１つの残差サンプルが非ゼロであることを示し、前記再構成された第２のクロマブロックのＣＢＦが設定されている場合、前記再構成された第２のクロマブロックの少なくとも１つの残差サンプルが非ゼロであることを示す、
ように構成される、ブロックベースビデオエンコーダ。
２ｄ変換マッピングで、前記ジョイントコード化ブロックを変換係数のブロックに変換し、
変換係数の前記ブロックを量子化し、
前記量子化されたブロックをエントロピー符号化する、
ことによって、前記ジョイントコード化されたブロックを符号化するように構成される、請求項１記載のブロックベースビデオエンコーダ。
係数の前記複数の対に関して、レート歪みコスト関数を最小化することによって、係数の前記対（ａ、ｂ）を選択するように構成される、請求項１に記載のブロックベースビデオエンコーダ。
前記再構成された第１のクロマブロックの前記コード化ブロックフラグ及び前記再構成された第２のクロマブロックのコード化ブロックフラグは、前記第１及び第２のクロマブロックがジョイントコード化されない場合にも使用される既存のビットストリーム要素である、請求項１に記載のブロックベースビデオエンコーダ。
前記第１のクロマブロックと前記第２のクロマブロックとをジョイントコード化するか、又は前記第１のクロマブロックと前記第２のクロマブロックとを別々にコード化するかを決定するように構成された、請求項１に記載のブロックベースビデオエンコーダ。
レート歪みコスト関数を評価することにより、ジョイントコード化するか、又は別々にコード化するかを決定するように構成された、請求項５に記載のブロックベースビデオエンコーダ。
前記第１のクロマブロックと前記第２のクロマブロックがジョイントコード化されているか否かを示す２値フラグをデコーダにシグナリングするように構成された請求項５に記載のブロックベースビデオエンコーダ。
係数の前記複数の対は、係数の３つの対（ａ１，ｂ１）、（ａ２，ｂ２）、及び（ａ３，ｂ３）を含み、前記ブロックベースビデオエンコーダは、下表の規則に基づいて、前記再構成された第１のクロマブロックに関連付けられた前記コード化ブロックフラグ（ＣＢＦ）を使用して、及び前記再構成された第２のクロマブロックに関連付けられた前記ＣＢＦを使用して、前記選択された係数の対をシグナリングするように構成される、請求項１に記載のブロックベースビデオエンコーダ。
ビットストリームから、第１のクロマブロック及び第２のクロマブロックのジョイントコード化された残差サンプルを復号するためのブロックベースビデオデコーダであって、前記第１のクロマブロック及び前記第２のクロマブロックは、対応するピクチャブロックの異なるクロマ色成分であって、
前記デコーダは、
前記ビットストリームから、前記第１のクロマブロックと前記第２のクロマブロックとがジョイントコード化されていることを示す２値フラグを復号し、
前記ビットストリームから、再構成されたジョイントコード化ブロックＣ’を決定し、
前記ビットストリームから、再構成された第１のクロマブロックのコード化ブロックフラグ（ＣＢＦ）、Ｃｂ’、及び再構成された第２のクロマブロックのＣＢＦ、Ｃｒ’を復号し、ここで、前記再構成された第１のクロマブロックのコード化ブロックフラグ（ＣＢＦ）、Ｃｂ’は設定されている場合、前記再構成された第１のクロマブロックの少なくとも１つの残差サンプルが非ゼロであることを示し、再構成された第２のクロマブロックのＣＢＦ、Ｃｒ’が設定されている場合、前記再構成された第２のクロマブロックの少なくとも１つの残差サンプルが非ゼロであることを示し、
前記再構成された第１のクロマブロックの前記ＣＢＦと前記再構成された第２のクロマブロックの前記ＣＢＦとに基づいて、複数の係数の対のうちの係数の対（ａ，ｂ）を決定し、
Ｃｂ’＝ａＣ’、Ｃｒ’＝ｂＣ’に従って、前記再構成された第１のクロマブロックＣｂ’と前記再構成された第２のクロマブロックＣｒ’を決定する
ように構成された、ブロックベースビデオデコーダ。
前記再構成された第１のクロマブロックの前記コード化ブロックフラグ及び前記再構成された第２のクロマブロックの前記コード化ブロックフラグは、前記第１及び第２のクロマブロックがジョイントコード化されない場合にも使用される既存のビットストリーム要素である、請求項９に記載のブロックベースビデオデコーダ。
ａ又はｂのいずれかが１に等しい、請求項９に記載のブロックベースビデオデコーダ。
前記複数の係数の対は、係数の３つの対（ａ１，ｂ１）、（ａ２，ｂ２）、及び（ａ３，ｂ３）を含み、前記ブロックベースビデオデコーダは、下表の規則に基づいて、前記再構成された第１のクロマブロックに関連付けられた前記ＣＢＦを使用して、及び前記再構成された第２のクロマブロックに関連付けられた前記ＣＢＦを使用して、前記係数の対を選択するように構成される、請求項９に記載のブロックベースビデオデコーダ。
前記再構成された第１のクロマブロックの前記ＣＢＦ及び前記再構成された第２のクロマブロックのＣＢＦに基づいて選択されたコンテキストモデルを使用して、前記２値フラグを復号するように構成される、請求項９に記載のブロックベースビデオデコーダ。
第１のクロマブロックＣｂと第２のクロマブロックＣｒの残差サンプルをジョイントコード化するブロックベースビデオ符号化方法であって、前記第１及び第２のクロマブロックは、対応するピクチャブロックの異なる色成分であり、
前記方法は、
複数の係数の対から係数の対（ａ、ｂ）を選択することと、
前記第１のクロマブロック及び前記第２のクロマブロックから、ジョイントコード化ブロックＣを決定することであって、符号化されたジョイントコード化ブロックから再構成されたジョイントコード化ブロックＣ’を得ることができ、再構成された第１のクロマブロックＣｂ’及び再構成された第２のクロマブロックＣｒ’を、Ｃｂ’＝ａＣ’及びＣｒ’＝ｂＣ’に従って決定することができる、決定することと、
前記ジョイントコード化されたブロックを符号化することと、
前記複数の係数の対から選択された前記係数の対（ａ、ｂ）を、前記再構成された第１のクロマブロックのコード化ブロックフラグ（ＣＢＦ）と、前記再構成された第２のクロマブロックのＣＢＦとを用いてデコーダにシグナリングすることであって、前記再構成された第１のクロマブロックのコード化ブロックフラグ（ＣＢＦ）は設定されている場合、前記再構成された第１のクロマブロックの少なくとも１つの残差サンプルが非ゼロであることを示し、前記再構成された第２のクロマブロックのＣＢＦが設定されている場合、前記再構成された第２のクロマブロックの少なくとも１つの残差サンプルが非ゼロであることを示す、シグナリングすることと、
を含む、ブロックベースビデオ符号化方法。
ビットストリームから、第１のクロマブロック及び第２のクロマブロックのジョイントコード化された残差サンプルを復号するためのブロックベースビデオ復号方法であって、前記第１のクロマブロック及び前記第２のクロマブロックは、対応するピクチャブロックの異なるクロマ色成分であって、
前記方法は、
前記ビットストリームから、前記第１のクロマブロックと前記第２のクロマブロックとがジョイントコード化されていることを示す２値フラグを復号することと、
前記ビットストリームから、再構成されたジョイントコード化ブロックＣ’を決定することと、
前記ビットストリームから、再構成された第１のクロマブロックのコード化ブロックフラグ（ＣＢＦ）、Ｃｂ’、及び再構成された第２のクロマブロックのＣＢＦ、Ｃｒ’を復号することであって、前記再構成された第１のクロマブロックのコード化ブロックフラグ（ＣＢＦ）、Ｃｂ’は設定されている場合、前記再構成された第１のクロマブロックの少なくとも１つの残差サンプルが非ゼロであることを示し、再構成された第２のクロマブロックのＣＢＦ、Ｃｒ’が設定されている場合、前記再構成された第２のクロマブロックの少なくとも１つの残差サンプルが非ゼロであることを示す、復号することと、
前記再構成された第１のクロマブロックの前記ＣＢＦと前記再構成された第２のクロマブロックの前記ＣＢＦとに基づいて、複数の係数の対のうちの係数の対（ａ，ｂ）を決定することと、
Ｃｂ’＝ａＣ’、Ｃｒ’＝ｂＣ’に従って、前記再構成された第１のクロマブロックＣｂ’と前記再構成された第２のクロマブロックＣｒ’を決定することと、
を含む、ブロックベースビデオ復号方法。
コンピュータ上で実行されると、請求項１４に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムが記憶された、非一時的コンピュータ可読デジタル記憶媒体。
コンピュータ上で実行されると、請求項１５に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムが記憶された、非一時的コンピュータ可読デジタル記憶媒体。