JP2024019430A - 動画データのイントラ予測コーディングのための方法及び装置 - Google Patents

動画データのイントラ予測コーディングのための方法及び装置 Download PDF

Info

Publication number
JP2024019430A
JP2024019430A JP2023206715A JP2023206715A JP2024019430A JP 2024019430 A JP2024019430 A JP 2024019430A JP 2023206715 A JP2023206715 A JP 2023206715A JP 2023206715 A JP2023206715 A JP 2023206715A JP 2024019430 A JP2024019430 A JP 2024019430A
Authority
JP
Japan
Prior art keywords
current block
block
intra prediction
matrix
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023206715A
Other languages
English (en)
Inventor
ゼ ウォン カン,
Je Won Kang
サン ヒョ パク,
Sang Hyo Park
スン ウク パク,
Seung Wook Park
ファ ピョン イム,
Wha Pyeong Lim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Industry Collaboration Foundation of Ewha University
Kia Corp
Original Assignee
Hyundai Motor Co
Industry Collaboration Foundation of Ewha University
Kia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200077014A external-priority patent/KR20210000282A/ko
Application filed by Hyundai Motor Co, Industry Collaboration Foundation of Ewha University, Kia Corp filed Critical Hyundai Motor Co
Publication of JP2024019430A publication Critical patent/JP2024019430A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】動画データのイントラ予測コーディングのための方法及び装置を提供する。【解決手段】本発明によれば、ビデオデータを復号化する装置は、ビットストリームからビデオデータの現在ブロックのイントラ予測タイプを指示するシンタックスエレメントを復号化する復号部、及び前記シンタックスエレメントが指示する現在ブロックのイントラ予測タイプに基づいて行列ベースのイントラ予測又は正規イントラ予測を選択的に実行し、前記現在ブロックに対する予測ブロックを生成するイントラ予測部を含む。【選択図】図11

Description

本発明は、動画データの符号化及び復号化に関する。
動画データは、音声データや静止画データなどに比べて多くのデータ量を有するため、圧縮のための処理なしにそれ自体を保存又は伝送するためにはメモリを含む多くのハードウェアリソースを必要とする。
したがって、通常、動画データを保存又は伝送する際には、エンコーダを用いて動画データを圧縮して保存又は伝送し、デコーダでは圧縮した動画データを受信して圧縮を解除して再生する。このような動画圧縮技術としては、H.264/AVCをはじめ、H.264/AVCに比べて約40%程度の符号化効率を向上させたHEVC(High Efficiency Video Coding)が存在する。
しかし、ピクチャのサイズ及び解像度、フレームレートが徐々に増加しており、これに伴い符号化すべきデータ量も増加しているため、従来の圧縮技術よりも符号化効率が良く、画質改善効果も高い新たな圧縮技術が求められている。
本発明の目的は、動画データのブロックをイントラ予測コーディングするための改善された技術を提供することにある。
本発明の一態様による方法は、ビデオデータを復号化する方法であって、ビットストリームからビデオデータの現在ブロックのイントラ予測タイプを指示するシンタックスエレメントを復号化するステップであって、前記イントラ予測タイプは行列ベースのイントラ予測(matrix based intra prediction:MIP)と正規イントラ予測(regular intra prediction)を含むステップと、前記シンタックスエレメントが指示する前記現在ブロックのイントラ予測タイプに基づいて行列ベースのイントラ予測又は正規イントラ予測を選択的に実行し、前記現在ブロックに対する予測ブロックを生成するステップと、を含むことを特徴とする。
前記方法は、前記正規イントラ予測を実行して前記現在ブロックに対する予測ブロックを生成するステップの一部であって、前記方法は、前記現在ブロックに隣接する周辺ブロックの正規イントラ予測モードに基づいてMPM(Most Probable Mode)候補を導出して前記現在ブロックに対するMPMリストを構成するステップと、前記MPMリストに基づいて前記現在ブロックに対する正規イントラ予測モードを導出するステップを含む。前記MPM候補を導出する際に、前記周辺ブロックのイントラ予測タイプが行列ベースのイントラ予測である場合に、前記周辺ブロックの正規イントラ予測モードはプラナー(PLANAR)モードに設定される。
前記方法は、前記行列ベースのイントラ予測を実行して前記現在ブロックに対する予測ブロックを生成するステップの一部として、前記ビットストリームから前記現在ブロックに対する行列ベースのイントラ予測モードを指示するシンタックスエレメントを復号化するステップと、現在ブロックのサイズ及び形状に基づいて前記現在ブロックに隣接する周囲サンプルを利用して境界ベクトルを導出するステップと、前記行列ベースのイントラ予測モードに対して予め定義した行列と前記境界ベクトルとの間の行列-ベクトル乗算に基づき、前記現在ブロックに対する予測サンプルを生成するステップ、及び、前記予測サンプルに基づいて前記現在ブロックに対する予測ブロックを導出するステップと、を含む。
本発明の一態様による装置は、ビデオデータを復号化する装置であって、ビットストリームからビデオデータの現在ブロックのイントラ予測タイプを指示するシンタックスエレメントを復号化する復号化部であって、前記イントラ予測タイプは行列ベースのイントラ予測と正規イントラ予測を含む復号化部と、前記シンタックスエレメントが指示する現在ブロックのイントラ予測タイプに基づいて行列ベースのイントラ予測又は正規イントラ予測を選択的に実行して前記現在ブロックに対する予測ブロックを生成するイントラ予測部と、を含むことを特徴とする。
前記イントラ予測部は、前記正規イントラ予測を実行して前記現在ブロックに対する予測ブロックを生成することの一部として、前記現在ブロックに隣接する周辺ブロックの正規イントラ予測モードに基づいてMPM候補を導出して前記現在ブロックに対するMPMリストを構成し、前記MPMリストに基づいて前記現在ブロックに対する正規イントラ予測モードを導出する。前記MPM候補を導出するに際して、前記イントラ予測部は、前記周辺ブロックのイントラ予測タイプが行列ベースのイントラ予測である場合に、前記周辺ブロックの正規イントラ予測モードをプラナー(PLANAR)モードに設定する(みなす)。
前記行列ベースのイントラ予測を実行して前記現在ブロックに対する予測ブロックを生成することの一部として、前記イントラ予測部は、前記ビットストリームから前記現在ブロックに対する行列ベースのイントラ予測モードを指示するシンタックスエレメントを復号化するステップと、前記現在ブロックのサイズ及び形状に基づいて前記現在ブロックに隣接する周囲サンプルを利用して境界ベクトルを導出するステップと、前記行列ベースのイントラ予測モードに対して予め定義した行列と前記境界ベクトルとの間の行列-ベクトル乗算に基づいて前記現在ブロックに対する予測サンプルを生成するステップと、前記予測サンプルに基づいて前記現在ブロックに対する予測ブロックを導出するステップと、を実行する。
本発明によれば、イントラ予測の複雑さを低減し、符号化効率が向上したコーディング技術を提供することができる。
本発明の技術を具現することができる映像符号化装置の例示的なブロック図である。 QTBTTT構造を用いてブロックを分割する方法を説明するための図である。 複数のイントラ予測モードを示す図である。 広角イントラ予測モードを含む複数のイントラ予測モードを示す図である。 本発明の技術を具現できる映像復号化装置の例示的なブロック図である。 本発明の技法で使用されるMIP技術の主要なプロセスを図式化した概念図である。 本発明の一実施例によるMIPベースでブロックを予測する概略的なプロセスを示すフローチャートである。 左隣のサンプルを用いて行列‐ベクトル乗算演算に入力する境界ベクトルを構成する例示的な方法を示す概念図である。 左隣のサンプルを用いて行列‐ベクトル乗算演算に入力する境界ベクトルを構成する例示的な方法を示す概念図である。 左隣のサンプルを用いて行列‐ベクトル乗算演算に入力する境界ベクトルを構成する例示的な方法を示す概念図である。 上隣のサンプルを使用して行列-ベクトル乗算演算に入力する境界ベクトルを構成する例示的な方法を示す概念図である。 上隣のサンプルを使用して行列-ベクトル乗算演算に入力する境界ベクトルを構成する例示的な方法を示す概念図である。 上隣のサンプルを使用して行列-ベクトル乗算演算に入力する境界ベクトルを構成する例示的な方法を示す概念図である。 左隣のサンプル、境界ベクトル、及びそれから予測した予測サンプルを示す。 上隣のサンプル、境界ベクトル、及びそれから予測した予測サンプルを示す。 本発明の一実施例によるビデオデータを復号化する方法を例示するフローチャートである。
以下、本発明の一部の実施例を例示的な図面を通して詳しく説明する。各図面の構成要素に識別符号を付加する際には、同一の構成要素に対しては、たとえ他の図面上に表示されても可能な限り同一の符号を有するようにしている。なお、本発明を説明するにあたり、関連する公知の構成又は機能についての具体的な説明が本発明の要旨を曖昧にすると判断した場合には、その詳しい説明は省く。
図1は、本発明の技術を具現する映像符号化装置の例示的なブロック図である。以下では、図1を参照して映像符号化装置とこの装置の下位構成について説明する。
映像符号化装置は、ピクチャ分割部110、予測部120、減算器130、変換部140、量子化部145、並べ替え部150、エントロピー符号化部155、逆量子化部160、逆変換部165、加算器170、フィルタ部180、及びメモリ190を含んでなる。
映像符号化装置の各構成要素は、ハードウェア又はソフトウェアで具現してもよいし、ハードウェア及びソフトウェアの組み合わせで具現してもよい。さらに、各構成要素の機能がソフトウェアで具現され、マイクロプロセッサが各構成要素に対応するソフトウェアの機能を実行するように具現してもよい。
1つの映像(ビデオ)は複数のピクチャから構成される。各ピクチャは複数の領域に分割され、各領域毎に符号化が行われる。例えば、1つのピクチャは、1つ以上のタイル(Tile)又は/及びスライス(Slice)に分割される。ここで、1つ以上のタイルをタイルグループ(Tile Group)と定義する。各タイル又は/及びスライスは、1つ以上のCTU(Coding Tree Unit)に分割される。そして、各CTUは、ツリー構造によって1つ以上のCU(Coding Unit)に分割される。各CUに適用する情報はCUのシンタックスとして符号化され、1つのCTUに含まれるCUに共通に適用する情報はCTUのシンタックスとして符号化される。また、1つのスライス内の全てのブロックに共通に適用する情報は、スライスヘッダのシンタックスとして符号化され、1つのピクチャを構成する全てのブロックに適用する情報は、ピクチャパラメータセット(PPS、Picture Parameter Set)又はピクチャヘッダに符号化する。さらに、複数のピクチャが共通に参照する情報は、シーケンスパラメータセット(SPS、Sequence Parameter Set)に符号化する。そして、1つ以上のSPSが共通に参照する情報は、ビデオパラメータセット(VPS、Video Parameter Set)に符号化する。さらに、1つのタイル又はタイルグループに共通に適用する情報は、タイル又はタイルグループヘッダのシンタックスとして符号化してもよい。
ピクチャ分割部110は、CTU(Coding Tree Unit)の大きさを決定する。CTUのサイズに関する情報(CTU size)はSPS又はPPSのシンタックスとして符号化し、映像復号化装置に伝達する。
ピクチャ分割部110は、映像を構成する各ピクチャを予め決まった大きさを有する複数のCTU(Coding Tree Unit)に分割した後に、ツリー構造(tree structure)を用いてCTUを繰り返し(recursively)分割する。ツリー構造におけるリーフノード(leaf node)が符号化の基本単位であるCU(coding unit)となる。
ツリー構造としては、上位ノード(あるいは親ノード)が同じサイズの4つの下位ノード(あるいは子ノード)に分割されるクワッドツリー(QuadTree、QT)、又は上位ノードが2つの下位ノードに分割されるバイナリツリー(BinaryTree、BT)、又は上位ノードが1:2:1の比率で3つの下位ノードに分割されるターナリーツリー(TernaryTree、TT)、又はこれらのQT構造、BT構造、及びTT構造のうちの2つ以上を混用した構造であってもよい。例えば、QTBT(QuadTree plus BinaryTree)構造を使用するか、又はQTBTTT(QuadTree plus BinaryTree TernaryTree)構造を使用する。ここで、BTTTを合わせてMTT(Multiple-Type Tree)と呼ぶ。
図2は、QTBTTTT分割ツリー構造を示す。図2に示すように、CTUは最初にQT構造に分割される。クワッドツリー分割は、分割ブロック(splitting block)のサイズがQTで許容されるリーフノードの最小ブロックサイズ(MinQTSize)に達するまで繰り返される。QT構造の各ノードが下位レイヤーの4つのノードに分割されるか否かを指示する第1のフラグ(QT_split_flag)は、エントロピー符号化部155によって符号化され、映像復号化装置でシグナリングされる。QTのリーフノードがBTで許容されるルートノードの最大ブロックサイズ(MaxBTSize)よりも大きくない場合、BT構造又はTT構造のうちのいずれか1つ以上にさらに分割される。BT構造及び/又はTT構造では、複数の分割方向が存在してもよい。例えば、該当ノードのブロックが水平に分割される方向と垂直に分割される方向の2つが存在し得る。図2に示すように、MTT分割を開始すると、ノードを分割したか否かを示す第2のフラグ(MTT_split_flag)と、分割した場合には追加で分割方向(vertical又はhorizontal)を示すフラグ及び/又は分割タイプ(BinaryもしくはTernary)を示すフラグが、エントロピー符号化部155によって符号化され、映像復号化装置にシグナリングされる。対案として、各ノードが下位レイヤーの4つのノードに分割されるか否かを示す第1のフラグ(QT_split_flag)を符号化する前に、そのノードを分割するか否かを指示するCU分割フラグ(split_cu_flag)を符号化してもよい。CU分割フラグ(split_cu_flag)の値が分割しないことを指示する場合、該当ノードのブロックが分割ツリー構造におけるリーフノード(leaf node)となり、符号化の基本単位であるCU(coding unit)となる。CU分割フラグ(split_cu_flag)の値が分割することを指示する場合、映像符号化装置は、上述したように第1のフラグから符号化を開始する。
ツリー構造の他の例としてQTBTを使用する場合、当該ノードのブロックを同一サイズの2つのブロックに横に分割するタイプ(すなわち、symmetric horizontal splitting)と縦に分割するタイプ(すなわち、symmetric vertical splitting)の2つの方法がある。BT構造の各ノードを下位レイヤーのブロックに分割するか否かを指示する分割フラグ(split_flag)及び、分割するタイプを指示する分割タイプ情報がエントロピー符号化部155によって符号化されて映像復号化装置に伝達される。一方、該当ノードのブロックを互いに非対称型の2つのブロックに分割するタイプがさらに存在してもよい。非対称型には、該当ノードのブロックを1:3のサイズ比を有する2つの長方形ブロックに分割する形態を含んでもよく、あるいは、該当ノードのブロックを対角線方向に分割する形態を含んでもよい。
CUは、CTUからのQTBT又はQTBTTT分割によって様々なサイズを有する。以下では、符号化又は復号化するCU(すなわち、QTBTTTTのリーフノード)に該当するブロックを「現在ブロック」と称する。QTBTTT分割の採用によって、現在ブロックの形状は正方形だけでなく長方形でもよい。
予測部120は、現在ブロックを予測して予測ブロックを生成する。予測部120は、イントラ予測部122とインター予測部124を含む。
一般に、ピクチャ内の現在ブロックはそれぞれ予測的にコーディングされる。一般に、現在ブロックの予測は、(現在ブロックを含むピクチャからのデータを使用する)イントラ予測技術、又は(現在ブロックを含むピクチャの前にコーディングしたピクチャからのデータを使用する)インター予測技術を使用して実行される。インター予測は、一方向予測と双方向予測の両方を含む。
イントラ予測部122は、現在ブロックを含む現在ピクチャ内で現在ブロックの周辺に位置するピクセル(参照ピクセル)を用いて現在ブロック内のピクセルを予測する。予測方向によって複数のイントラ予測モードが存在する。例えば、図3aに示すように、複数のイントラ予測モードは、プラナー(planar)モード及びDCモードを含む2つの非方向性モードと、65の方向性モードを含む。各予測モードによって使用する周辺ピクセルと演算式が異なるように定義される。下表は、イントラ予測モードの番号と名称を列挙する。
Figure 2024019430000002
長方形の現在ブロックに対する効率的な方向性予測のために、図3bに点線矢印で示す方向性モード(67~80番、-1~-14番イントラ予測モード)をさらに使用する。これらは「広角イントラ予測モード(wide angle intra-prediction modes)」と称する。図3bで、矢印は、予測に使用した対応する参照サンプルを指すものであり、予測方向を示すものではない。予測方向は矢印が指す方向とは反対である。広角イントラ予測モードは、現在ブロックが長方形のときに追加のビット伝送なしに特定の方向性モードを反対方向に予測するモードである。この場合、広角イントラ予測モードのうち、長方形の現在ブロックの幅と高さの比率によって、現在ブロックに利用可能な一部の広角イントラ予測モードを決定する。例えば、45度よりも小さい角度を有する広角イントラ予測モード(67~80番イントラ予測モード)は、現在ブロックが、高さが幅よりも小さい長方形である場合に利用可能であり、-135度よりも大きい角度を有する広角イントラ予測モード(-1~-14番イントラ予測モード)は、現在ブロックが、高さが幅よりも大きい長方形の形である場合に利用可能である。
イントラ予測部122は、現在ブロックを符号化するために使用するイントラ予測モードを決定する。一部の例では、イントラ予測部122は、いくつかのイントラ予測モードを使用して現在ブロックを符号化し、テストしたモードから使用する適切なイントラ予測モードを選択してもよい。例えば、イントラ予測部122は、いくつかのテストしたイントラ予測モードに対するレート歪み(rate-distortion)分析を用いてレート歪み値を計算し、テストしたモードの中で最良のレート歪み特徴を有するイントラ予測モードを選択してもよい。
イントラ予測部122は、複数のイントラ予測モードの中から1つのイントラ予測モードを選択し、選択したイントラ予測モードによって決定される周辺ピクセル(参照ピクセル)と演算式を用いて現在ブロックを予測する。選択したイントラ予測モードに関する情報は、エントロピー符号化部155によって符号化されて映像復号化装置に伝達される。
また、イントラ予測部122は、後述する行列ベースのイントラ予測(Matrix-based Intra Prediction:MIP)を用いて、現在ブロックに対する予測ブロックを生成してもよい。イントラ予測部122は、現在ブロックの左側に再構成したサンプルと現在ブロックの上側に再構成したサンプルから導出した境界ベクトルと、予め定義した行列、及びオフセットベクトルを用いて現在ブロックに対する予測ブロックを生成してもよい。
インター予測部124は、動き補償過程を通じて現在ブロックに対する予測ブロックを生成する。インター予測部124は、現在ピクチャよりも先に符号化及び復号化した参照ピクチャ内で現在ブロックに最も類似したブロックを探索し、その探索したブロックを用いて現在ブロックに対する予測ブロックを生成する。そして、現在ピクチャ内の現在ブロックと参照ピクチャ内の予測ブロックとの間の変位(displacement)に該当する動きベクトル(motion vector)を生成する。一般に、動き推定は、ルマ(luma)成分に対して行われ、ルマ成分に基づいて計算したモーションベクトルはルマ成分及びクロマ(chroma)成分の両方に対して用られる。現在ブロックを予測するために用いられる参照ピクチャに関する情報及び動きベクトルに関する情報を含む動き情報は、エントロピー符号化部155によって符号化されて映像復号化装置に伝達される。
減算器130は、現在ブロックからイントラ予測部122又はインター予測部124によって生成された予測ブロックを減算して残差ブロックを生成する。
変換部140は、残差ブロックを1つ以上の変換ブロックに分割し、変換を1つ以上の変換ブロックに適用し、変換ブロックの残差値をピクセルドメインから周波数ドメインに変換する。周波数ドメインにおいて、変換されたブロックは、1つ以上の変換係数値を含む係数ブロックと呼ばれる。変換には2次元変換カーネルを使用し、横方向変換と縦方向変換にそれぞれ一次元変換カーネルを使用する。変換カーネルは、離散コサイン変換(DCT)、離散サイン変換(DST)などに基づく。
変換部140は、残差ブロックの全体サイズを変換単位として用いて残差ブロック内の残差信号を変換する。また、変換部140は、残差ブロックを横方向又は縦方向に2つのサブブロックに分割し、変換を2つのサブブロックのうちの1つにのみ行う。したがって、変換ブロックのサイズは、残差ブロックのサイズ(したがって予測ブロックのサイズ)と異なってもよい。変換が実行されないサブブロックには、ノンゼロ残差サンプル値が存在しないか、又は非常に希少である。変換が実行されないサブブロックの残差サンプルはシグナリングされず、画像復号化装置によってすべて「0」と見なされる。分割方向と分割比率によって、複数のパーティションタイプが存在する。変換部140は、残差ブロックのコーディングモード(又は変換モード)に関する情報(例えば、残差ブロックを変換したか、又は残差サブブロックを変換したかを示す情報、残差ブロックをサブブロックに分割するために選択したパーティションタイプを示す情報、変換が行われるサブブロックを識別する情報などを含む情報)をエントロピー符号化部155に提供する。エントロピー符号化部155は、残差ブロックのコーディングモード(あるいは変換モード)に関する情報を符号化する。
量子化部145は、変換部140から出力する変換係数を量子化し、量子化した変換係数をエントロピー符号化部155に出力する。量子化部145は、任意のブロック又はフレームに対し、変換なしに、関連する残差ブロックを直ちに量子化してもよい。
並べ替え部150は、量子化した残差値に対して係数値の並べ替えを行う。並べ替え部150は、係数スキャニング(coefficient scanning)を介して2次元の係数アレイを1次元の係数シーケンスに変更する。例えば、並べ替え部150では、千鳥状スキャン(Zig-Zag Scan)又は対角線スキャン(Diagonal Scan)を用いてDC係数から高周波領域の係数までスキャンして1次元の係数シーケンスを出力する。変換単位のサイズ及びイントラ予測モードによって、千鳥状スキャンの代わりに2次元の係数アレイを列方向にスキャンする縦方向スキャン、2次元のブロック形態係数を行方向にスキャンする横方向スキャンを使用してもよい。すなわち、変換単位のサイズ及びイントラ予測モードによって、千鳥状スキャン、対角線スキャン、縦方向スキャン、及び横方向スキャンの中で使用するスキャン方法を決定してもよい。
エントロピー符号化部155は、CABAC(Context-based Adaptive Binary Arithmetic Code)、指数ゴロム(Exponential Golomb)などの様々な符号化方式を用いて、並べ替え部150から出力された1次元の量子化した変換係数のシーケンスを符号化することによってビットストリームを生成する。
また、エントロピー符号化部155は、ブロック分割に関するCTUサイズ、CU分割フラグ、QT分割フラグ、MTT分割タイプ、MTT分割方向などの情報を符号化し、映像復号化装置が映像符号化装置と同様にブロックを分割できるようにする。また、エントロピー符号化部155は、現在ブロックがイントラ予測によって符号化したのか、それともインター予測によって符号化したのかを指示する予測タイプに関する情報を符号化し、予測タイプに応じたイントラ予測情報(すなわち、イントラ予測モードに関する情報)又はインター予測情報(参照ピクチャ及び動きベクトルに関する情報)を符号化する。
逆量子化部160は、量子化部145から出力される量子化した変換係数を逆量子化して変換係数を生成する。逆変換部165は、逆量子化部160から出力された変換係数を周波数ドメインから空間ドメインに変換して残差ブロックを復元する。
加算部170は、復元された残差ブロックと予測部120によって生成された予測ブロックを加算して現在ブロックを復元する。復元された現在ブロック内のピクセルは、次の順序のブロックをイントラ予測するときの参照ピクセルとして使用される。
フィルタ部180は、ブロックベースの予測及び変換/量子化によって発生するブロッキングアーチファクト(blocking artifacts)、リンギングアーチファクト(ringing artifacts)、ぼかしアーチファクト(blurring artifacts)等を低減するために、復元したピクセルに対するフィルタリングを実行する。フィルタ部180は、デブロッキングフィルタ182とSAO(Sample Adaptive Offset)フィルタ184を含む。
デブロック化フィルタ180は、ブロック単位の符号化/復号化によって発生するブロッキング現象(blocking artifact)を除去するために復元されたブロック間の境界をフィルタリングし、SAOフィルタ184はデブロッキングフィルタリングされた画像に対して追加のフィルタリングを実行する。SAOフィルタ184は、損失符号化(lossy coding)によって発生する復元されたピクセルと元本ピクセルとの間の差を補償するために使用するフィルタである。
デブロックキングフィルタ182及びSAOフィルタ184を介してフィルタリングされた復元ブロックはメモリ190に保存される。1つのピクチャ内のすべてのブロックが復元されると、復元されたピクチャは、後で符号化したいピクチャ内のブロックをインター予測するための参照ピクチャとして使用する。
図4は、本発明の技術を具現する映像復号化装置の例示的な機能ブロック図である。以下では、図4を参照して、映像復号化装置とこの装置の下位構成について説明する。
映像復号化装置は、エントロピー復号化部410、並べ替え部415、逆量子化部420、逆変換部430、予測部440、加算器450、フィルタ部460、及びメモリ470を含んでなる。
図1の映像符号化装置と同様に、映像復号化装置の各構成要素は、ハードウェア又はソフトウェアで具現するか、あるいはハードウェア及びソフトウェアの組み合わせで具現する。さらに、各構成要素の機能がソフトウェアで具現され、マイクロプロセッサが各構成要素に対応するソフトウェアの機能を実行するように具現してもよい。
エントロピー復号化部410は、映像符号化装置によって生成されたビットストリームを復号化してブロック分割に関連する情報を抽出することにより復号化しようとする現在ブロックを決定し、現在ブロックを復元するために必要な予測情報と残差信号に関する情報などを抽出する。
エントロピー復号化部410は、SPS(Sequence Parameter Set)又はPPS(Picture Parameter Set)からCTUサイズに関する情報を抽出してCTUのサイズを決定し、ピクチャを決定したサイズのCTUに分割する。そして、CTUをツリー構造の最上位レイヤー、すなわちルートノードとして決定し、CTUについての分割情報を抽出することにより、ツリー構造を用いてCTUを分割する。
例えば、QTBTTTT構造を用いてCTUを分割する場合、まずQTの分割に関連する第1のフラグ(QT_split_flag)を抽出して各ノードを下位レイヤーの4つのノードに分割する。そして、QTのリーフノードに該当するノードに対しては、MTTの分割に関連する第2のフラグ(MTT_split_flag)及び分割方向(vertical/horizontal)及び/又は分割タイプ(binary/ternary)情報を抽出して当該リーフノードをMTT構造に分割する。これにより、QTのリーフノード以下の各ノードをBT又はTT構造に、繰り返し(recursively)分割する。
また他の例として、QTBTTTT構造を用いてCTUを分割する場合、まずCUを分割するか否かを指示するCU分割フラグ(split_cu_flag)を抽出し、該当ブロックが分割された場合、第1のフラグ(QT_split_flag)を抽出してもよい。分割の過程で、各ノードは、0回以上の繰り返しのQT分割後に0回以上の繰り返しのMTT分割が発生する。例えば、CTUはすぐにMTT分割が発生するか、あるいは逆に複数回のQT分割のみが発生する。
他の例として、QTBT構造を用いてCTUを分割する場合、QTの分割に関連する第1のフラグ(QT_split_flag)を抽出して各ノードを下位レイヤーの4つのノードに分割する。そして、QTのリーフノードに該当するノードに対しては、BTにさらに分割するか否かを指示する分割フラグ(split_flag)及び分割方向情報を抽出する。
一方、エントロピー復号化部410は、ツリー構造の分割を通じて復号化しようとする現在ブロックを決定すると、現在ブロックがイントラ予測したかインター予測したかを指示する予測タイプに関する情報を抽出する。予測タイプ情報がイントラ予測を指示する場合、エントロピー復号化部410は、現在ブロックのイントラ予測情報(イントラ予測モード)についてのシンタックスエレメントを抽出する。予測タイプ情報がインター予測を指示する場合、エントロピー復号化部410は、インター予測情報についてのシンタックスエレメント、すなわち動きベクトル及びその動きベクトルが参照する参照ピクチャを示す情報を抽出する。
一方、エントロピー復号化部410は、残差ブロックのコーディングモードに関する情報(例えば、残差ブロックが符号化したか残差ブロックのサブブロックのみが符号化したかに関する情報、残差ブロックをサブブロックに分割するために選択したパーティションタイプを示す情報、符号化した残差サブブロックを識別する情報、量子化パラメータなど)をビットストリームから抽出する。また、エントロピー復号化部410は、残差信号に関する情報として現在ブロックの量子化した変換係数に関する情報を抽出する。
並べ替え部415は、映像符号化装置により実行した係数スキャニング順序の逆順で、エントロピー復号化部410でエントロピー復号化した1次元の量子化した変換係数のシーケンスを再び2次元の係数アレイ(すなわち、ブロック)に変更する。
逆量子化部420は、量子化した変換係数を逆量子化し、逆変換部430は、残差ブロックのコーディングモードに関する情報に基づいて逆量子化した変換係数を周波数ドメインから空間ドメインへ逆変換して残差信号を復元することによって、現在ブロックに対する復元した残差ブロックを生成する。
逆変換部430は、残差ブロックのコーディングモードに関する情報が映像符号化装置で現在ブロックの残差ブロックが符号化したと指示する場合に、逆量子化した変換係数に対して現在ブロックのサイズ(したがって、復元する残差ブロックのサイズ)を変換単位として使用して逆変換を実行し、現在ブロックに対する復元残差ブロックを生成する。
また、逆変換部430は、残差ブロックのコーディングモードに関する情報が映像符号化装置において残差ブロックの1つのサブブロックのみが符号化されたと指示する場合に、逆量子化した変換係数について、変換したサブブロックのサイズを変換単位として使用して、逆変換を実行して変換したサブブロックの残差信号を復元し、非変換したサブブロックの残差信号を「0」値で埋めることによって、現在ブロックに復元した残差ブロックを作成する。
予測部440は、イントラ予測部442及びインター予測部444を含む。イントラ予測部442は、現在ブロックの予測タイプがイントラ予測であるときに活性化され、インター予測部444は、現在ブロックの予測タイプがインター予測であるときに活性化される。
イントラ予測部442は、エントロピー復号化部410から抽出されたイントラ予測モードに対するシンタックスエレメントに基づいて複数のイントラ予測モードの中から、現在ブロックのイントラ予測モードを決定し、イントラ予測モードによって現在ブロック周囲の参照ピクセルを使用して現在ブロックを予測する。また、イントラ予測部442は、後述する行列ベースのイントラ予測(Matrix-based Intra Prediction:MIP)を用いて、現在ブロックに対する予測ブロックを生成してもよい。イントラ予測部422は、現在ブロックの左側に再構成したサンプルと現在ブロックの上側に再構成したサンプルから導出した境界ベクトルと、予め定義した行列及びオフセットベクトルを用いて現在ブロックに対する予測ブロックを生成してもよい。
インター予測部444は、エントロピー復号化部410から抽出されたイントラ予測モードに対するシンタックスエレメントを用いて現在ブロックの動きベクトルとその動きベクトルが参照する参照ピクチャを決定し、動きベクトルと参照ピクチャを使用して現在ブロックを予測する。
加算器450は、逆変換部から出力される残差ブロックと、インター予測部又はイントラ予測部から出力される予測ブロックとを加算して現在ブロックを復元する。復元した現在ブロック内のピクセルは、後で復号化するブロックをイントラ予測する際の参照ピクセルとして利用する。
フィルタ部460は、デブロッキングフィルタ462及びSAOフィルタ464を含む。デブロッキングフィルタ462は、ブロック単位の復号化によって発生するブロッキング現象(blocking artifact)を除去するために、復元されたブロック間の境界をデブロッキングフィルタリングする。SAOフィルタ464は、損失符号化(lossy coding)によって発生する復元されたピクセルと元本ピクセルとの間の差を補償するために、デブロッキングフィルタリング後の復元されたブロックに対して追加のフィルタリングを実行する。デブロッキングフィルタ462及びSAOフィルタ464を介してフィルタリングされた復元ブロックはメモリ470に保存される。1つのピクチャ内のすべてのブロックが復元されると、復元されたピクチャは、後で符号化したいピクチャ内のブロックをインター予測するための参照ピクチャとして使用される。
本発明の技術は一般にイントラ予測符号化に関連する。以下の説明は、主に復号化技術、すなわちビデオ復号化器の動作に焦点を当てており、符号化技術についての説明は、包括的に説明した復号化技術とは逆であることから、簡略化する。
次世代ビデオコーディング標準(VVC;Versatile Video Coding)についての議論で、HEV(High Efficiency Video Coding)標準と比較してより良いコーディング性能を可能にするいくつかの新しいコーディングツールが導入された。VVCに導入された多重変換選択(Multiple Transform Selection;MTS)技法は、DCT-2、DST-7、及びDCT-8を含む3つの三角関数変換(Trigonometric Transforms)に依存し、ビデオ符号化器は、率‐歪みコスト(rate-distortion cost)を最大化する水平及び垂直変換を選択する。
Figure 2024019430000003
MTSを適用するブロックに対し、横方向と縦方向でどの変換カーネルを使用するかをシグナリングするために、1つあるいはそれ以上のシンタックスエレメントをコーディングする。
一例として、表3のような予め定義したマッピングテーブルと共に、3つのフラグ(MTS_CU_flag、MTS_Hor_flag、MTS_Ver_flag)を使用する。
Figure 2024019430000004
まず、DCT-2が横方向と縦方向の両方に使用されているか否かを示す1つのフラグ(MTS_CU_flag)がシグナリングされる。DCT-2を両方向に適用しない場合は、DST-7とDCT-8のうち、どの変換カーネルを横方向に適用するかを示す1つのフラグ(MTS_Hor_flag)がシグナリングされ、DST-7とDCT-8のうち、どの変換カーネルを縦方向に適用するかを示す1つのフラグ(MTS_Ver_flag)がシグナリングされる。DST-7及びDCT-8は最大32×32のブロックサイズに対して使用され、DCT-2は最大64×64のブロックサイズに対して使用される。したがって、MTS_CU_flagは、ブロックのサイズ(幅及び高さ)が32よりも小さいか同じであり、ブロックが少なくとも1つの非ゼロ残差信号を有する場合にシグナリングされる。MTS_CU_flagが存在しない場合、MTS_CU_flagは0と推論される。
対案として、表4のような予め定義したマッピングテーブルと共に、MTSカーネルインデックスを表すシンタックスエレメント(tu_mts_idx)を使用する。tu_mts_idxは、MTSカーネルインデックスで表され、各インデックス値によって、横方向及び縦方向のカーネルが選択される。表4で、trTypeHorとtrTypeVerは、横方向と縦方向のカーネルの種類を示す。0はDCT-2、1はDST-7、2はDCT-8を意味する。例えば、tu_mts_idx=2の場合、横方向にはDCT-8を、縦方向にはDST-7を用いる。
Figure 2024019430000005
tu_mts_idxは、SPSでsps_explicit_mts_enabled_flagが1のときにのみシグナリングされる。明示的にMTSインデックスをシグナリングするため、これをExplicitMTSという。一方、tu_mts_idxは明示的に示されず、符号化器及び復号化器から暗黙的に導出してもよく、これをImplicitMTSという。ImplicitMTSは、SPSでsps_explicit_mts_enabled_flagが0のときに実行される。ImplicitMTSを使用するとき、変換カーネルの選択は、ブロックに使用するイントラ予測モード、インター予測モード、ブロックサイズなどのような情報に基づいて実行される。たとえば、ブロックの幅が4以上で16以下の場合は、横方向のカーネルとしてDST-7を使用し、そうでない場合はDCT-2を使用する。また、ブロックの高さが4以上で16以下の場合は、縦方向のカーネルとしてDST-7を使用し、そうでない場合はDCT-2を使用する。つまり、ブロックのサイズが小さい場合は、予測残差信号の方向性が大きいため、DST-7を使用し、相対的に大きなブロックの場合、より均一な特性を有する残差信号の特性が強く、DCT-2カーネルを使用する。
表5は、VVCドラフト5で規定している変換ユニットシンタックスの一部を示す。以下のシンタックスで、エレメントの灰色強調は理解を助けるために使用する。
変換ブロックは、変換動作なしにコーディングされ、これは、少なくとも1つの非ゼロ係数を有する変換ブロックに対してシグナリングされたシンタックスエレメントtransform_skip_flagによって指示される。変換ブロックのコーディングモードの上位レベル制御は、SPS(Sequential Parameter Set)などのようなHLS(High-Level Syntax)エレメントtransform_skip_enabled_flag及びlog2_transform_skip_max_size_minus2によって達成される。transform_skip_enabled_flagが1の場合、高さと幅が「1 <<(log2_transform_skip_max_size_minus2+2)」以下の変換ブロックに対してtransform_skip_flagがコーディングされる。transform_skip_flagが1の場合、関連変換ブロックは変換省略モードにコーディングされ、そうでなければ関連変換ブロックにMTSベースの変換を適用する。
一方、行列ベースのイントラ予測(Matrix-based Intra Prediction:MIP)は、VTM5.0に導入された新しいイントラ予測技術である。元のアイデアは、ニューラルネットワークに基づくイントラ予測技術、すなわち隣接する再構成したピクセルに基づいて現在のPUピクセル値を予測するために多層ニューラルネットワークを使用することである。しかしながら、ニューラルネットワークを用いた予測方法の高度な複雑さにより、事前に訓練した行列を用いたアフィン線形変換に基づくイントラ予測技術を導入した。
幅W及び高さHを有する長方形ブロックPUを予測するために、MIPはブロックの左側に再構成したH個のサンプルとブロック上側に再構成したW個のサンプルを入力として受け取る。そして、最後に予測されるピクセルは、平均化(Averaging)、行列‐ベクトル乗算(Matrix-Vector Multiplication)、及び線形補間(Linear Interpolation)などによって得られる。
MIPを適用するブロックのサイズは、次のように3つのカテゴリに分類される。
Figure 2024019430000007
idx(W,H)によって、MIPモードの個数(numModes)、境界サイズ(boundarySize)、予測ブロックのサイズ(predW、predH、predC)を次のように定義する。下表で、MipSizeId=idx(W,H)である。
Figure 2024019430000008
図5は、本発明の技法で使用されるMIP技術の主要なプロセスを図式化した概念図である。
(1)平均演算(Averaging)
このステップの主な目的は、参照サンプルを正規化することである。ブロックサイズ及び形状によって(すなわち、MipSizeIdによって)、4つ又は8つのサンプルが得られる。現在ブロックの幅と高さの両方が4の場合(W=H=4)、左から2つと上から2つを含む合計4つのサンプルが得られる。(boundarySize=2)。残りの場合には、左から4つ、上から4つを含む合計8つのサンプルが得られる(boundarySize=4)。
Figure 2024019430000009
Figure 2024019430000010
上記の式で、bDwnはダウンサンプリングのスケール値(nTbs/boundarySize)であり、refSはオリジナル参照サンプルを指す。
Figure 2024019430000011
ダウンサンプリングした参照サンプルは、長さ4又は8のベクトルにステッチング(stitching)される。ベクトル行列乗算演算に入力する縮小した境界ベクトル
Figure 2024019430000012
は、下記の式のように定義する。例えば、W=H=4でMIPモードが18未満の場合、
Figure 2024019430000013
W=H=4でMIPモードが18以上であれば、
Figure 2024019430000014
下記の式で、「mode」はMIPモードを意味する。
Figure 2024019430000015
(2)行列-ベクトル乗算(Matrix-Vector Multiplication)
Figure 2024019430000016
Figure 2024019430000017
Figure 2024019430000018
行列Aは、Wred*Hredだけの行(row)を有し、W=H=4の場合は4つの列(column)を有し、それ以外は8つの列を有する。オフセットベクトルbは、Wred*Hredサイズのベクトルである。
Figure 2024019430000019
ブロックに使用する行列AとオフセットベクトルbのセットS、S、Sは、ブロックのサイズのカテゴリ別に予め定義される。セットSのインデックス(0、1、2)は、上述のMipSizeId(すなわち、idx(W,H))によって選択され、行列Aとオフセットベクトルbは、セットS、S、Sのうちの1つのセットからの現在ブロックに対して適用するMIPモードによって抽出される。
セットSは、それぞれ16行と4列を有する18個の行列Aと18個の16次元オフセットベクトルbから構成され、4×4のブロックに使用される。セットSは、それぞれ16行と8列を有する10個の行列Aと10個の16次元オフセットベクトルbから構成され、4×8、8×4、及び8×8サイズのブロックに使用される。最後に、セットSは、それぞれ64行と8列を有する6つの行列Aと6つの64次元オフセットベクトルbとから構成され、残りのすべてのブロック形状に使用される。
(3)ピクセル補間(interpolation)
補間はアップサンプリングプロセスである。上述のように、
Figure 2024019430000020
は元のブロックのダウンサンプリングした予測信号である。このとき、サイズpredWとpredHを有するダウンサンプリングした予測ブロックは次のように定義される。
predred[x][y],with x=0..predW 1,y=0..predH‐1
残りの位置での予測信号を各方向に沿って線形補間して生成する元ブロックサイズ(nTbW、nTbH)の予測ブロックは、次のように定義される。
predSamples[x][y],with x=0..nTbW‐1,y=0..nTbH‐1
水平及び垂直アップサンプリングスケールファクタであるupHor(=nTbW/predW)とupVer(=nTbH/predH)に依存して、次のように、
Figure 2024019430000021
からpredSamplesの一部あるいは全てが満たされる。
predSamples[(x+1)* upHor‐1][(y+1)*upVer‐1]=predred [x][y]
upHor=1であれば、
Figure 2024019430000022
からpredSamplesの横方向の全ての位置が満たされ、upVer=1であれば、
Figure 2024019430000023
からpredSamplesの縦方向の全ての位置が満たされる。
この後、バイリニア(bi-linear)補間法により、predSamplesの残りの空きサンプルが満たされる。横方向の補間と縦方向の補間はアップサンプリングプロセスである。predSamples内の左側及び上側のサンプルを補間するために、ダウンサンプリングしたサンプル
Figure 2024019430000024
は、predSamples[x][-1]値に割り当てられ、左側の元の参照サンプル
Figure 2024019430000025
は、predSamples[-1][y]値に割り当てられる。
(4)MIPイントラ予測モードのシグナリング
イントラ予測コーディングする各コーディングユニットCUに対して、行列ベースのイントラ予測モード(すなわち、MIPモード)を適用するか否かを示すフラグが伝送される。VVC5ドラフトでは、MIPモードのシグナリングのために、行列ベースのイントラ予測ではなく既存のイントラ予測モード(以下「正規イントラ予測モード」)と同様に、MPMリストを使用する。例えば、MIPモードのシグナリングのために、intra_mip_mpm_flag、intra_mip_mpm_idx、及びintra_mip_mpm_remainderが使用される。intra_mip_mpm_idxは切り捨てバイナリコード(truncated binary code)にコーディングされ、intra_mip_mpm_remainderは固定長コード(fixed length code)にコーディングされる。
コーディングブロックCUのサイズによって、最大35個のMIPモードがサポートされる。たとえば、max(W,H)<=8、及びW*H<32のCUに対し、35個のモードが利用可能である。そして、それぞれmax(W,H)=8、max(W,H)>8のCUに対し、それぞれ19個及び11個の予測モードが使用される。さらに、一対のモード(2つのモード)は、メモリ要件を減らすために行列及びオフセットベクトルを共有する。具体的な共有モードは次のように計算される。例えば、4×4コーディングブロックに対し、モード19は、モード2に割り当てられた行列の転置行列(transposed matrix)が使用される。
Figure 2024019430000026
行列ベースのイントラ予測(MIP)ではなく正規イントラ予測モードを適用するブロック(以下「正規ブロック」と呼ぶ)の周囲にMIPが適用となるブロックがある場合、正規ブロックのMPM誘導のためにMIPモードと正規モードとの間で定義されたマッピングテーブルを使用する。マッピングテーブルは、隣接MIPを適用するブロックのMIPモードから類似の特性の正規モードを導出するために使用される。このように導出された正規モードは、正規ブロックのMPM導出に使用される。同様に、クロマDM誘導で使用する同一位置の輝度ブロックがMIPを適用する場合にも、マッピングテーブルを用いて正規モードを導出し、クロマDM誘導に使用する。下記の式は、マッピングテーブルを使用した正規モードとMIPモードのマッピングを表現する。
Figure 2024019430000027
以上で説明したように、VVCドラフト5では、ブロックをMIPベースで予測するとき、常にブロック左側の再構成した周辺サンプル
Figure 2024019430000028
とブロック上段の再構成した周辺サンプル
Figure 2024019430000029
が用いられる。このようなアプローチは、ブロックのテクスチャが方向特性を有するブロックの場合に予測性能を阻害し得る。また、VVCドラフト5では、predSamples内の上側サンプルの補間のために、図5に示すように、ダウンサンプリングしたサンプルセット
Figure 2024019430000030
をpredSamples[x][-1]値に割り当てて使用することで、補間プロセスが必要以上に複雑になる。さらに、VVCドラフト5では、MIPモードと正規モードのシグナリングのためにそれぞれMPMリストを使用されるため、MIPモードと正規モードとの間のマッピングなどが要求されるなど、多くの検査と条件によって具現が非常に複雑になり得る。
この観点から、本発明は、MPMコーディングに対するいくつかの改良した技法を提示する。本発明の一側面によると、MIPモードの具現の複雑さを低減し、ブロックのテクスチャが有する方向特性を考慮したアプローチを提示する。
図6は、本発明の一実施例によるMIPベースでブロックを予測する概略プロセスを示すフローチャートである。
1.MIPモードの復号化ステップ(S610)
ビデオ復号化器は、イントラ予測モードでコーディングしたコーディングユニット(CU)に対し、イントラ予測タイプが行列ベースのイントラ予測(MIP)であるかどうかを示すフラグを復号化する。MIPを適用する場合、利用可能な複数のMIPモードのうち、現在のコーディングユニットで用いるMIPモードを指示するシンタックスエレメントを復号化する。
既存のイントラ予測モード(正規イントラ予測モード)とは異なり、MIPモードのシグナリングのためにMPMリストを使用しない場合もある。例えば、複数のMIPモードの中で、現在のコーディングユニットで用いるMIPモードを指示する切捨バイナリコード(truncated binary code)でコーディングされ得る、1つのシンタックスエレメント(例えば、intra_mip_mode)を使用する。
VVC5ドラフトに基づいて提案された例示的な変換ユニットシンタックスの一部を以下に提供する。下記のシンタックスで、エレメントの灰色強調は理解を助けるために用いる。
intra_mip_flag[x0][y0]が1の場合は、現在ブロックのイントラ予測タイプが行列ベースのイントラ予測(MIP)であることを指す。intra_mip_flag[x0][y0]が0の場合は、現在ブロックのイントラ予測タイプが行列ベースのイントラ予測ではなく正規のイントラ予測であることを指す。intra_mip_flag [x0][y0]が存在しない場合は、0に等しいと推論する。intra_mip_mode[x0][y0]は、行列ベースのイントラ予測(MIP)で現在のブロックに対して使用するMIPモードを指定する。
予測信号生成に使用する現在コーディングブロックの隣接サンプルは、MIPモードによって異なるように決定される。一例で、4×4サイズのコーディングブロックに対し、例えば、35個のMIPモードが利用可能であり、モードの範囲によって予測信号生成に使用する隣接サンプルを以下のように決定する。
Figure 2024019430000032
現在のコーディングブロックのピクセルが横方向特性を有する場合、左隣のサンプルを使用して予測信号を生成することが有利である。同様に、現在のコーディングブロックのピクセルが縦方向特性を有する場合、上隣のサンプルを使用して予測信号を生成することが有利である。
ブロックが有する方向特性に適したMIPモードを選択するために、ビデオ符号化器は、イントラ予測モードの正規モードを適用し、各モードによるブロックの歪み値(distortion)を計算する。横方向の予測モード(例えば、INTRA_ANGULAR_14~INTRA_ANGULAR_22)の歪み値が他のモードと比較して少ない場合、横方向は現在のコーディングブロックの主方向として決定される。逆に、縦方向の予測モード(例えば、INTRA_ANGULAR_46~INTRA_ANGULAR_54)の歪み値が他のモードと比較して少ない場合、縦方向は現在のコーディングブロックの主方向として決定される。
横方向が主方向である場合、符号化器は左隣のサンプルのみを使用するMIPモードのうちの1つを現在のコーディングブロックに割り当てる。逆に、縦方向が主方向である場合、符号化器は、上隣のサンプルのみを使用するMIPモードのうちの1つを現在のコーディングブロックに割り当てる。
以下では、説明の便宜のために、左隣のサンプルを用いる場合と上隣のサンプルを用いる場合とを区別し、境界ベクトル及びそれから予測サンプルを決定する方法を説明する。左隣及び上隣のサンプルの両方を使用する場合のプロセスは、図5を参照して説明したものと実質的に同じである。
2-1.境界ベクトルの作成‐左隣のサンプルを使用する(S620)
図7a~図7cは、左隣のサンプルを用いて行列-ベクトル乗算演算に入力する境界ベクトルを構成する例示的な方法を示す概念図である。
一例として、図7aに例示するように、現在のコーディングブロックのサイズ(高さ)と境界ベクトル
Figure 2024019430000033
のサイズが等しい場合、左隣のサンプルセット
Figure 2024019430000034
を使用して同じサイズの境界ベクトル
Figure 2024019430000035
を埋める。例えば、左隣のサンプルのそれぞれを境界ベクトルのエントリに含める。
他の例として、図7bに示すように、左側に隣接する2つの列を使用して各行の2つのピクセル間の平均値を計算することによって境界ベクトル
Figure 2024019430000036
を埋める。
また他の一例として、図7cに示すように、左隣のサンプルセット
Figure 2024019430000037
から得られたダウンサンプリングしたサンプルセット
Figure 2024019430000038
Figure 2024019430000039
Figure 2024019430000040
2-2.境界ベクトルの生成‐上隣のサンプルの利用(S620)
図8a~図8cは、上隣のサンプルを使用して行列‐ベクトル乗算演算に入力する境界ベクトルを構成する例示的な方法を示す概念図である。
一例として、図8aに例示するように、現在のコーディングブロックのサイズ(幅)と境界ベクトル
Figure 2024019430000041
のサイズが等しい場合、上隣のサンプルセット
Figure 2024019430000042
を使用して同じサイズの境界ベクトル
Figure 2024019430000043
を埋める。例えば、上隣のサンプルのそれぞれを境界ベクトルのエントリに含める。
他の例として、図8bに示すように、上部に隣接する2つの行を用いて、各列の2つのピクセル間の平均値を計算することによって、境界ベクトル
Figure 2024019430000044
を埋める。
Figure 2024019430000045
Figure 2024019430000046
Figure 2024019430000047
3.行列‐ベクトル乗算及びオフセット加算(S630)
ビデオ復号化器は、境界ベクトル
Figure 2024019430000048
に対し、行列‐ベクトル積演算を実行し、オフセットベクトルを加算する。行列A及びオフセットベクトルbは、復号化したMIPモードkに従って決定される。
Figure 2024019430000049
Figure 2024019430000050
Figure 2024019430000051
左隣のサンプルを用いて行列-ベクトル乗算演算に入力する境界ベクトルを構成した場合、WredとHredは、コーディングブロックのサイズによって次のように決定される。
Figure 2024019430000052
上隣のサンプルを用いて行列-ベクトル乗算演算に入力する境界ベクトルを構成した場合、WredとHredは、コーディングブロックの大きさによって次のように決定される。
Figure 2024019430000053
生成した
Figure 2024019430000054
のサイズがコーディングブロックのサンプル数より小さい場合、補間が必要である。
4.線形補間(S640)
図9は、左隣のサンプル、境界ベクトル、及びそれから予測した予測サンプルを示す。図9で、現在のコーディングブロックに対する予測ブロックpredSamples[x][y]内に三角形で示したピクセルは、生成した
Figure 2024019430000055
から割り当てられた値である。
図9を参照すると、予測ブロックpredSamples[x][y]内の空のピクセルを決定するために、様々な補間方法を使用する。
Figure 2024019430000056
図10は、上隣のサンプル、境界ベクトル、及びそれから得られた予測サンプルを示す。図10で、現在のコーディングブロックに対する予測ブロックpredSamples[x][y]内に三角形で示したピクセルは、生成した
Figure 2024019430000057
から割り当てられた値である。
図10を参照すると、予測ブロックpredSamples[x][y]内の空のピクセルを決定するために、様々な補間方法を使用する。
Figure 2024019430000058
図9及び図10に例示したものとは異なり、予測ブロックpredSamples[x][y]内の空のピクセルを決定するために、上段のオリジナル参照サンプル
Figure 2024019430000059
がpredSamples[x][-1]値に割り当てられ、左側の元の参照サンプル
Figure 2024019430000060
がpredSamples[-1][y]値に割り当てられてもよい。
以上の実施例は、MIPベースで予測ブロックを生成する際にブロックの方向性が考慮されるように、MIPモードによって現在ブロックの隣接サンプルを選択的に使用する方式を導入した。
本発明の他側面によると、MIPモードによって境界ベクトルを生成するために使用する隣接サンプルセットを変える代わりに、境界ベクトルに対して適用する行列Aとオフセットbの値を修正する方法を使用してもよい。
境界ベクトルに対する行列-ベクトル乗算演算とオフセット加算演算に適用する行列Aとオフセットbを次のように2つの部分に区分する。
Figure 2024019430000061
A2及びb2が有する値をゼロに近似すると、予測信号
Figure 2024019430000062
は主に左隣のピクセル
Figure 2024019430000063
によって影響を受け、これはブロックのテクスチャが横方向性を有するブロックに対して有用である。A1とb1が有する値を0に近似すると、予測信号
Figure 2024019430000064
は主に上隣のピクセル
Figure 2024019430000065
に影響を受け、これは、ブロックのテクスチャが縦方向を有するブロックに対して有用である。
ビデオ符号化器及び復号化器は、現在ブロックのMIPモードによって境界ベクトルに対して適用する行列A及びオフセットbの値を修正して使用する。一例として、4×4サイズのコーディングユニットに対し、例えば、35個のMIPモードが利用可能であり、モードの範囲によって境界ベクトルに適用する行列A及びオフセットbの値を修正して使用する。
Figure 2024019430000066
上述したように、VVCドラフト5は、コーディングブロックCUのサイズ及び形状によって最大35個のMIPモードがサポートする。たとえば、max(W,H)<=8&&W*H<32のCUに対して35個のモードが利用可能で、それぞれmax(W,H)=8、及びmax(W,H)>8のCUに対してそれぞれ19個及び11個の予測モードを使用する。さらに、一対のモード(2つのモード)は、メモリ要件を減らすために行列及びオフセットベクトルを共有する。例えば、4×4コーディングブロックに対し、モード19は、モード2に対して割り当てられた行列の転置行列(transposed matrix)を使用する。
Figure 2024019430000067
複雑さを下げながらも実質的に同等のレベルのコーディング効率を達成する改善したアプローチを使用する。本発明の他側面によると、1つのモードがもう1つのモードが使用する行列を転置して使用する従来の方式の代わりに、
Figure 2024019430000068
この方式によると、利用可能なMIPモードの数は、既存の方式と比較して半分のレベルに減らすことができ、境界ベクトルの生成及びベクトル行列乗算演算のためのコーディング複雑さを低減できる。
一方、表5のシンタックス構造に関連して説明したように、特定条件を満たす変換ユニットについては、毎回変換省略関連シンタックス要素であるtransform_skip_flagをシグナリングし、transform_skip_flagが真でない場合、SPSにおけるフラグ(sps_explicit_mts_inter_enabled_flag、sps_explicit_mts_intra_enabled_flag)によって、多重変換選択関連シンタックス要素であるtu_mts_idxを伝送する必要があるため、ビットストリームで伝送するビット数に負担をかける。
しかしながら、このような多重変換選択及び変換省略は、残差信号の特性と密接に関連しており、したがってブロックに使用する予測モードとは無関係に、変換関連シンタックス要素を常にシグナリングすることは効率的ではない場合もある。本発明者は、平均値演算と補間演算を含む行列ベースのイントラ予測(MIP)技法のプロセスを考慮すると、MIPを適用したブロックの残差信号は、変換ドメインで低周波数成分が優勢な特性を有し、複雑な動きとテクスチャを含むブロックのように、ピクセル間の相関関係が少ないブロックには、MIPが適用されない可能性が高いことに注目する。したがって、MIPを使用したブロックに対しては変換省略(transform skip)が適用されない可能性が高い。
この観点から、ブロックにMIPを適用するか否かにかかわらず、多重変換選択関連シンタックスエレメントであるtu_mts_idxと変換省略関連シンタックスエレメントであるtransform_skip_flagを常にシグナリングするアプローチはそれほど効率的ではない場合がある。
本発明の一側面によると、MIP適用如何によって変換関連シンタックス要素のシグナリングを省略することができ、省略したシンタックス要素はビデオ復号化器によって暗黙的に推論する。
一実施例で、MIPフラグによって多重変換選択(MTS)技法を暗黙的に適用する。下表のように、intra_mip_flagが真でない場合にのみ、transform_skip_flagとtu_mts_idxがコーディングされる。intra_mip_flagが真の場合、transform_skip_flagは0と推論され、tu_mts_idxも0と推論され、implicit MTSを適用すると推論される。したがって、横方向及び縦方向の変換カーネルは、ブロックサイズによって決定される。下記のシンタックスで、エレメントの灰色強調は、シンタックスでの潜在的な変化を示すため又は理解を助けるために用いられる。
他の実施例では、MIPフラグによって多重変換選択(MTS)技法を明示的に適用する。下表のように、intra_mip_flagが真でない場合にのみ、transform_skip_flagとtu_mts_idxがコーディングされる。intra_mip_flagが真の場合、transform_skip_flagは0と推論され、tu_mts_idxは明示的にシグナリングされ、explicit MTSが適用される。下記のシンタックスで、エレメントの灰色強調は、シンタックスでの潜在的な変化を示すため又は理解を助けるために用いられる。
可能な他の実施例で、複雑な動きやテクスチャを含む小さなサイズのブロックのような、ピクセル間の相関関係が少ないブロックにはMIPを明示的に適用しない場合がある。MIPを適用した4×4CUには変換省略(TS)を適用しない場合もある。また、変換省略(TS)を適用した4×4CUにはMIPを適用しない場合もある。さらに、MIPはTSと共に4x4CUに適用しない場合もある。
従来のアプローチでは、MPM(Most Probable Mode)を使用するイントラ予測コーディングが使用される。例えば、HEVCで、3つのMPMのリストは、左及び上のブロックのイントラ予測モードから構成される。このような方法の欠点は、より多くのモード(MPMではなくイントラモード)がより多くのビットでコーディングするべき非MPMに属することである。MPMの数を3つ以上のエントリ(例えば、6つのMPMモード)に拡張するためのいくつかの方法が提案された。ただし、より多くのエントリを含むこのようなMPMリストを構成するには、より多くの検査と条件が必要になることから、これにより具現がより複雑になる。
上述したように、VVCドラフト5では、MIPモードと正規モードのシグナリングのためにそれぞれMPMリストを使用することにより、MIPリストを構成するためにMIPモードと正規モードとの間のマッピングなどが要求されるなど多くの検査と条件によって具現が非常に複雑になる。
MPMリスト構成の複雑さを低く保つために、現在ブロックに隣接する左側ブロック及び上側ブロックのイントラ予測モードを用いて6つのMPM候補を含むMPMリストを構成する。MPM候補は、デフォルトイントラ予測モード(例えば、PLANARモード)、周辺ブロックのイントラ予測モード、周辺ブロックのイントラ予測モードから派生したイントラ予測モードから構成される。周辺ブロックのイントラ予測モードが使用されない場合(例えば、周辺ブロックをインター予測した場合、あるいは周辺ブロックが他のスライス又は他のタイルに位置する場合)、周辺ブロックのイントラ予測モードのイントラ予測モードはプラナー(Planar)に設定される。
左側ブロックのモード(Left)及び上側ブロックのモード(Above)のイントラ予測モードのタイプによって大きく4つの場合に区分され、「Left」と「Above」が互いに異なり、両方のモードが方向性モードの場合、「Left」と「Above」の違いによって、4つのケースでさらに区別してMPMリストを作成する。下表で、「Max」は「Left」と「Above」のうち、大きなモードを指し、「MIN」は「Left」と「Above」のうち、小さなモードを指す。
Figure 2024019430000071
平均値演算と補間演算を含む行列ベースのイントラ予測(MIP)技法の特性上、MIPを適用したブロックの残差信号は変換ドメインで低周波数成分が優勢である。このような残差特性は、プラナーモード又はDCモードを適用したブロックの残差信号と類似することに留意したい。したがって、正規のイントラ予測モードでコーディングするブロックのMPMリストを導出する際に、このような残差信号の類似性を考慮することが有用である。
本発明の一側面によると、正規のイントラ予測モードでコーディングしたブロック(すなわち、正規ブロック)に対してMPMリストを導出する際に、周辺ブロックがMIPモードでコーディングした場合に、周辺ブロックのイントラ予測モードはプラナーモード(又はDCモード)であると見なす。一例として、周辺ブロックにMIPモードを適用した場合、その周辺ブロックのMIPモードの代わりにプラナーモード(又はDCモード)をMPMリストに追加する。
同様に、クロマDM(direct mode)誘導時にも、同一位置のルマブロックにMIPを適用した場合、MIPモードと正規モードとの間のマッピングテーブルを使用する代わりに、そのルマブロックのイントラ予測モードはプラナーモード(又はDCモード)と見なす。したがって、符号化器は、クロマブロックに対するイントラ予測モードを特定するシンタックスエレメントをパージングし、そのシンタックスエレメントによって、クロマブロックのイントラ予測モードが同一位置のルマブロックのイントラ予測モードをそのまま利用することを指示され、その同一位置のルマブロックにMIPを適用した場合、そのルマブロックのイントラ予測モードは、プラナーモード(又はDCモード)と見なす。すなわち、クロマDM(direct mode)で同一位置のルマブロックにMIPを適用した場合に、クロマブロックのイントラ予測モードはプラナーモード(あるいはDCモード)と決定される。
ビデオ符号化器は、現在ブロックのイントラ予測モードがMPMに該当するか否かを示す1ビットフラグ(例えば、mpm_flag)をシグナリングする。典型的には、現在ブロックのイントラ予測モードがMPMに該当する場合、6つのMPMのうちの1つ(すなわち、プラナーモード)を指示するMPMインデックスが追加でシグナリングされる。上表で、プラナーモードが常にMPMリストに含まれることに注意する。したがって、符号化器は、現在ブロックのイントラ予測モードがプラナーモードである場合、現在ブロックのイントラ予測モードがプラナーモードであるか如何を(例えば、1ビットフラグを使用して)明示的にシグナリングし、現在ブロックのイントラ予測モードが残りの5つのMPMのうちの1つと同じである場合、残りの5つのMPMのうちの1つを指示するMPMインデックスを追加でシグナリングすることが効率的である。現在ブロックのイントラ予測モードがMPMに該当しない場合、6つのMPMを除く残りの61個の非MPMのうちの1つを指示するシンタックスエレメントを切捨てたバイナリコード(truncated binary code)を利用して符号化する。
図11は、本発明の一実施例によるビデオデータを復号化する方法を例示するフローチャートである。
ビデオ復号化器は、ビットストリームからビデオデータの現在ブロックのイントラ予測タイプを指示するシンタックスエレメントを復号化する(S1110)。イントラ予測タイプは、行列ベースのイントラ予測(matrix based intra prediction: MIP)と正規イントラ予測(regular intra prediction)を含む。上記シンタックスエレメントは、現在ブロックのサイズ及び形状に対して許容される複数の行列ベースのイントラ予測モードのうちの1つを特定する切捨バイナリコード(truncated binary code)である。
ビデオ復号化器は、現在ブロックのイントラ予測タイプに基づいて行列ベースのイントラ予測又は正規イントラ予測を選択的に実行し、現在ブロックに対する予測ブロックを生成する。
ビデオ復号化器は、正規イントラ予測を実行して現在ブロックに対する予測ブロックを生成することの一部として、次のようなステップ(S1120~S1140)を実行する。ビデオ復号化器は、現在ブロックに隣接する周辺ブロックの正規イントラ予測モードに基づいてMPM(Most Probable Mode)候補を導出して現在ブロックに対するMPMリストを構成し(S1120)、MPMリストに基づいて現在ブロックに対する正規イントラ予測モードを導出する(S1130)。周辺ブロックの正規イントラ予測モードに基づいてMPM候補を導出するにあたり、ビデオ復号化器は、周辺ブロックのイントラ予測タイプが行列ベースのイントラ予測である場合に、周辺ブロックの正規イントラ予測モードはプラナーモードに設定する(みなす)。復号化器は、現在ブロックの正規イントラ予測モードを利用して現在ブロックに対する予測ブロックを生成する(S1140)。
ビデオ復号化器は、行列ベースのイントラ予測を実行して現在ブロックに対する予測ブロックを生成することの一部として、次のようなステップ(S1121~S1151)を実行する。ビデオ復号化器は、現在ブロックに対する行列ベースのイントラ予測モードを決定するために、ビットストリームから現在ブロックに対する行列ベースのイントラ予測モードを指示するシンタックスエレメントを復号化する(S1121)。ビデオ復号化器は、現在ブロックのサイズ及び形状に基づいて現在ブロックに隣接する周辺サンプルを利用して境界ベクトルを導出し(S1131)、現在ブロックに対する行列ベースのイントラ予測モードに対して予め定義した行列と境界ベクトルとの間の行列‐ベクトル乗算に基づき、現在ブロックに対する予測サンプルを生成する(S1141)。ビデオ復号化器は、予測サンプルに基づいて線形補間、クリッピングなどを実行して現在ブロックに対する予測ブロックを導出する(S1151)。
ビデオ復号化器は、現在ブロックに隣接する左側周辺サンプルのセット及び上側周辺サンプルのセットのうち、現在ブロックに対する行列ベースのイントラ予測モードに依存して、選択した1つ又は2つのセットから上記境界ベクトルを導出する。
ビデオ復号化器は、ビットストリームから、現在ブロックに隣接する左側周辺サンプルから導出した境界ベクトルの第1のエントリと現在ブロックに隣接する上側周辺サンプルから導出した境界ベクトルの第2のエントリとの間の接合順序を指示するシンタックスエレメントを復号化する。ビデオ復号化器は、指示された接合順序に従って第1のエントリと第2のエントリを接合して境界ベクトルを生成する。
境界ベクトルのエントリは、現在ブロックの大きさ及び形状によって、現在ブロックに隣接する左側周辺サンプルからダウンサンプリングした値、又は現在ブロックに隣接する左側周辺サンプルで満たされる。
ビデオ復号化器は、予測サンプルに基づいて現在ブロックに対する予測ブロックを導出するために、予測サンプルを予測ブロック内の位置に割り当てる。予測ブロック内の予測サンプルが割り当てられていない位置に対する予測サンプル値を生成するために、予測サンプル、現在ブロックに隣接する左側周辺サンプル、及び現在ブロックに隣接する上側周辺サンプルに対する線形補間を実行する。
以上の説明で例示的な実施例は、多くの他の方式で具現される。1つ以上の例示で説明した機能又は方法は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせで具現される。本明細書で説明する機能的コンポーネントは、それらの具現独立性を特に強調するために「…部(Unit)」とラベル付けした。
一方、本明細書で説明した様々な機能又は方法は、1つ以上のプロセッサによって読み取られ実行される非一時的記録媒体に保存した命令語で具現してもよい。非一時的記録媒体は、例えば、コンピュータシステムによって読み取り可能な形態でデータを保存するあらゆる種類の記録装置を含む。例えば、非一時的な記録媒体は、EPROM(erasable programmable read only memory)、フラッシュドライブ、光学ドライブ、磁気ハードドライブ、ソリッドステートドライブ(SSD)のような記憶媒体を含む。
以上の説明は、本発明の技術的思想によるいくつかの実施例を例示的に説明したものに過ぎず、本発明が属する技術分野で通常の知識を有する者であれば、本発明の本質的な特性から逸脱しない範囲で多様な修正及び変形が可能である。したがって、例示した実施例は、本発明の技術思想を限定するものではなく説明するためのものであり、そのような実施例によって本発明の技術的思想の範囲を限定するものではない。
CROSS-REFERENCE TO RELATED APPLICATION
本特許出願は、本明細書にその全体が参考として含まれる、2019年6月24日付で韓国に出願した特許出願番号第10-2019-0075163号、2019年7月4日付で韓国へ出願した特許出願番号第10-2019-0080749号及び2020年6月24日付で韓国に出願した特許出願番号第10-2020-0077014号に対して優先権を主張する。
110 ピクチャ分割部
120、440 予測部
122、442 イントラ予測部
124、444 インター予測部
130 減算器
140 変換部
145 量子化部
150、415 並べ替え部
155 エントロピー符号化部
160、420 逆量子化部
165、430 逆変換部
170、450 加算器
180、460 フィルタ部
182、462 デブロッキングフィルタ
184、464 SAOフィルタ
190、470 メモリ
410 エントロピー復号化部

Claims (11)

  1. ビデオデータを復号化する方法であって、
    ビットストリームからビデオデータの現在ブロックのイントラ予測タイプを指示するシンタックスエレメントを復号化するステップであって、前記イントラ予測タイプは、行列ベースのイントラ予測(matrix based intra prediction:MIP)と正規イントラ予測(regular intra prediction)を含むステップと、
    前記シンタックスエレメントが指示する前記現在ブロックのイントラ予測タイプに基づいて行列ベースのイントラ予測又は正規イントラ予測を選択的に実行し、前記現在ブロックに対する予測ブロックを生成するステップと、
    を含み、
    前記正規イントラ予測を実行して前記現在ブロックに対する予測ブロックを生成するステップは、
    前記現在ブロックに隣接する周辺ブロックの正規イントラ予測モードに基づいてMPM(Most Probable Mode)候補を導出して前記現在ブロックに対するMPMリストを構成するステップと、
    前記MPMリストに基づいて前記現在ブロックに対する正規イントラ予測モードを導出するステップと、を含み、
    前記行列ベースのイントラ予測を実行して前記現在ブロックに対する予測ブロックを生成するステップは、
    前記ビットストリームから前記現在ブロックに対する行列ベースのイントラ予測モードを指示するシンタックスエレメントを復号化するステップと、
    前記現在ブロックの幅及び高さに基づいて前記現在ブロックに隣接する周囲サンプルを利用して境界ベクトルを導出するステップと、
    前記行列ベースのイントラ予測モードに対して予め定義した行列と前記境界ベクトルとの間の行列‐ベクトル乗算に基づき、前記現在ブロックに対する予測サンプルを生成するステップと、
    前記予測サンプルに基づいて前記現在ブロックに対する前記予測ブロックを導出するステップと、を含み、
    前記現在ブロックに隣接する周囲サンプルを利用して境界ベクトルを導出するステップは、
    前記ビットストリームから前記現在ブロックに隣接する左側周辺サンプルから導出した前記境界ベクトルの第1のエントリと前記現在ブロックに隣接する上側周辺サンプルから導出した前記境界ベクトルの第2のエントリとの間の接合順序を指示するシンタックスエレメントを復号化するステップと、
    前記接合順序に従って前記第1のエントリと前記第2のエントリを接合して前記境界ベクトルを生成するステップと、を含み、
    前記現在ブロックは、ルマ(luma)成分からなるルマブロックであり、前記ルマブロックに前記行列ベースのイントラ予測が行われ、前記ルマブロックに対応するクロマブロックのイントラ予測モードが前記ルマブロックのイントラ予測モードをそのまま利用する場合、前記ルマブロックに対する正規イントラ予測モードはプラナーモードに設定されることを特徴とする方法。
  2. 前記現在ブロックに対する行列ベースのイントラ予測モードを指示するシンタックスエレメントは、
    前記現在ブロックの幅及び高さに対して許容される複数の行列ベースのイントラ予測モードのうちの1つを特定する切捨バイナリコード(truncated binary code)であることを特徴とする請求項1に記載の方法。
  3. 前記現在ブロックに隣接する周辺サンプルを利用して境界ベクトルを導出するステップは、
    前記現在ブロックに隣接する左側周辺サンプルのセット及び上側周辺サンプルのセットのうち、前記現在ブロックに対する行列ベースのイントラ予測モードに依存して、選択された1つあるいは2つのセットから前記境界ベクトルを導出するステップを含むことを特徴とする請求項2に記載の方法。
  4. 前記境界ベクトルのエントリは、
    前記現在ブロックの幅及び高さによって、前記現在ブロックに隣接する左側周辺サンプルからダウンサンプリングした値、又は前記現在ブロックに隣接する左側周辺サンプルで満たされることを特徴とする請求項2に記載の方法。
  5. 前記予測サンプルに基づいて前記現在ブロックに対する予測ブロックを導出するステップは、
    前記予測サンプルを前記予測ブロック内の位置に割り当てるステップと、
    前記予測サンプル、前記現在ブロックに隣接する左側周辺サンプル、及び前記現在ブロックに隣接する上側周辺サンプルに対する線形補間を利用して、前記予測ブロック内の前記予測サンプルが割り当てられていない位置についての予測サンプル値を作成するステップと、を含むことを特徴とする請求項2に記載の方法。
  6. ビデオデータを符号化する方法であって、
    ビットストリームにビデオデータの現在ブロックのイントラ予測タイプを指示するシンタックスエレメントを符号化するステップであって、前記イントラ予測タイプは、行列ベースのイントラ予測と正規イントラ予測を含むステップと、 前記現在ブロックのイントラ予測タイプに基づいて行列ベースのイントラ予測又は正規イントラ予測を選択的に行い、前記現在ブロックに対する予測ブロックを生成するステップと、
    を含み、
    前記正規イントラ予測を実行して前記現在ブロックに対する予測ブロックを生成するステップは、
    前記現在ブロックの正規イントラ予測モードを決定するステップと、
    前記現在ブロックに隣接する周辺ブロックの正規イントラ予測モードに基づいてMPM(Most Probable Mode)候補を導出して前記現在ブロックに対するMPMリストを構成するステップと、
    前記MPMリストに基づいて前記現在ブロックの正規イントラ予測モードを指示する少なくとも1つのシンタックスエレメントを前記ビットストリームに符号化するステップと、を含み、
    前記行列ベースのイントラ予測を実行して前記現在ブロックに対する予測ブロックを生成するステップは、
    前記ビットストリームに前記現在ブロックに対する行列ベースのイントラ予測モードを指示するシンタックスエレメントを符号化するステップと、
    前記現在ブロックの幅及び高さに基づいて前記現在ブロックに隣接する周囲サンプルを利用して境界ベクトルを導出するステップと、
    前記行列ベースのイントラ予測モードに対して予め定義した行列と前記境界ベクトルとの間の行列‐ベクトル乗算に基づき、前記現在ブロックに対する予測サンプルを生成するステップと、
    前記予測サンプルに基づいて前記現在ブロックに対する予測ブロックを導出するステップと、を含み、
    前記現在ブロックに隣接する周辺サンプルを利用して境界ベクトルを導出するステップは、
    前記ビットストリームに前記現在ブロックに隣接する左側周辺サンプルから導出した前記境界ベクトルの第1のエントリと前記現在ブロックに隣接する上側周辺サンプルから導出した前記境界ベクトルの第2のエントリとの間の接合順序を指示するシンタックスエレメントを符号化するステップと、
    前記接合順序に従って前記第1のエントリと前記第2のエントリを接合して前記境界ベクトルを生成するステップと、を含み、
    前記現在ブロックは、ルマ(luma)成分からなるルマブロックであり、前記ルマブロックに前記行列ベースのイントラ予測が行われ、前記ルマブロックに対応するクロマブロックのイントラ予測モードが前記ルマブロックのイントラ予測モードをそのまま利用する場合、前記ルマブロックに対する正規イントラ予測モードはプラナーモードに設定されることを特徴とする、方法。
  7. 前記現在ブロックに対する行列ベースのイントラ予測モードを指示するシンタックスエレメントは、
    前記現在ブロックの幅及び高さに対して許容される複数の行列ベースのイントラ予測モードのうちの1つを特定する切捨バイナリコード(truncated binary code)であることを特徴とする請求項6に記載の方法。
  8. 前記現在ブロックに隣接する周辺サンプルを利用して境界ベクトルを導出するステップは、
    前記現在ブロックに隣接する左側周辺サンプルのセット及び上側周辺サンプルのセットのうち、前記現在ブロックに対する行列ベースのイントラ予測モードに依存して、選択された1つ又は2つのセットから前記境界ベクトルを導出するステップを含むことを特徴とする請求項7に記載の方法。
  9. 前記境界ベクトルのエントリは、
    前記現在ブロックの幅及び高さによって、前記現在ブロックに隣接する左側周囲サンプルからダウンサンプリングした値、又は前記現在ブロックに隣接する左側周囲サンプルで満たされることを特徴とする請求項7に記載の方法。
  10. 前記予測サンプルに基づいて前記現在ブロックに対する予測ブロックを導出するステップは、
    前記予測サンプルを前記予測ブロック内の位置に割り当てるステップと、
    前記予測サンプル、前記現在ブロックに隣接する左側周辺サンプル、及び前記現在ブロックに隣接する上側周辺サンプルに対する線形補間を利用して、前記予測ブロック内の前記予測サンプルが割り当てられていない位置についての予測サンプル値を作成するステップを含むことを特徴とする請求項7に記載の方法。
  11. プロセッサにビデオデータブロックの符号化データを含むビットストリームを送信させるための方法が記憶されたコンピュータ読み取り可能な記録媒体であって、
    前記方法は、
    ビデオデータブロックをビットストリームに符号化するステップと、
    前記ビットストリームをビデオ復号化装置に送信するステップと、
    を含み、
    前記ビデオデータブロックをビットストリームに符号化するステップは、
    前記ビットストリームにビデオデータの現在ブロックのイントラ予測タイプを指示するシンタックスエレメントを符号化するステップであって、前記イントラ予測タイプは、行列ベースのイントラ予測と正規イントラ予測を含むステップと、
    前記現在ブロックのイントラ予測タイプに基づいて行列ベースのイントラ予測又は正規イントラ予測を選択的に行い、前記現在ブロックに対する予測ブロックを生成するステップと、
    を含み、
    前記正規イントラ予測を実行して前記現在ブロックに対する予測ブロックを生成するステップは、
    前記現在ブロックの正規イントラ予測モードを決定するステップと、
    前記現在ブロックに隣接する周辺ブロックの正規イントラ予測モードに基づいてMPM(Most Probable Mode)候補を導出して前記現在ブロックに対するMPMリストを構成するステップと、
    前記MPMリストに基づいて、前記現在ブロックの正規イントラ予測モードを指示する少なくとも1つのシンタックスエレメントを前記ビットストリームに符号化するステップと、を含み、
    前記行列ベースのイントラ予測を実行して前記現在ブロックに対する予測ブロックを生成するステップは、
    前記ビットストリームに前記現在ブロックに対する行列ベースのイントラ予測モードを指示するシンタックスエレメントを符号化するステップと、
    前記現在ブロックの幅及び高さに基づいて前記現在ブロックに隣接する周囲サンプルを利用して境界ベクトルを導出するステップと、
    前記行列ベースのイントラ予測モードに対して予め定義した行列と前記境界ベクトルとの間の行列‐ベクトル乗算に基づき、前記現在ブロックに対する予測サンプルを生成するステップと、
    前記予測サンプルに基づいて前記現在ブロックに対する予測ブロックを導出するステップと、を含み、
    前記現在ブロックに隣接する周辺サンプルを利用して境界ベクトルを導出するステップは、
    前記ビットストリームに前記現在ブロックに隣接する左側周辺サンプルから導出した前記境界ベクトルの第1のエントリと前記現在ブロックに隣接する上側周辺サンプルから導出した前記境界ベクトルの第2のエントリとの間の接合順序を指示するシンタックスエレメントを符号化するステップと、
    前記接合順序に従って前記第1のエントリと前記第2のエントリを接合して前記境界ベクトルを生成するステップと、を含み、
    前記現在ブロックは、ルマ(luma)成分からなるルマブロックであり、前記ルマブロックに前記行列ベースのイントラ予測が行われ、前記ルマブロックに対応するクロマブロックのイントラ予測モードが前記ルマブロックのイントラ予測モードをそのまま利用する場合、前記ルマブロックに対する正規イントラ予測モードはプラナーモードに設定されることを特徴とする、記録媒体。
JP2023206715A 2019-06-24 2023-12-07 動画データのイントラ予測コーディングのための方法及び装置 Pending JP2024019430A (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
KR10-2019-0080749 2019-04-07
KR10-2019-0075163 2019-06-24
KR20190075163 2019-06-24
KR20190080749 2019-07-04
KR10-2020-0077014 2020-06-24
PCT/KR2020/008206 WO2020262951A1 (ko) 2019-06-24 2020-06-24 동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치
JP2021577013A JP7401566B2 (ja) 2019-06-24 2020-06-24 動画データのイントラ予測コーディングのための方法及び記録媒体
KR1020200077014A KR20210000282A (ko) 2019-06-24 2020-06-24 동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021577013A Division JP7401566B2 (ja) 2019-06-24 2020-06-24 動画データのイントラ予測コーディングのための方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2024019430A true JP2024019430A (ja) 2024-02-09

Family

ID=74060264

Family Applications (6)

Application Number Title Priority Date Filing Date
JP2021577013A Active JP7401566B2 (ja) 2019-06-24 2020-06-24 動画データのイントラ予測コーディングのための方法及び記録媒体
JP2023206712A Active JP7560076B2 (ja) 2019-06-24 2023-12-07 動画データのイントラ予測コーディングのための方法及び装置
JP2023206716A Pending JP2024019431A (ja) 2019-06-24 2023-12-07 動画データのイントラ予測コーディングのための方法及び装置
JP2023206713A Active JP7560077B2 (ja) 2019-06-24 2023-12-07 動画データのイントラ予測コーディングのための方法及び装置
JP2023206714A Active JP7560078B2 (ja) 2019-06-24 2023-12-07 動画データのイントラ予測コーディングのための方法及び装置
JP2023206715A Pending JP2024019430A (ja) 2019-06-24 2023-12-07 動画データのイントラ予測コーディングのための方法及び装置

Family Applications Before (5)

Application Number Title Priority Date Filing Date
JP2021577013A Active JP7401566B2 (ja) 2019-06-24 2020-06-24 動画データのイントラ予測コーディングのための方法及び記録媒体
JP2023206712A Active JP7560076B2 (ja) 2019-06-24 2023-12-07 動画データのイントラ予測コーディングのための方法及び装置
JP2023206716A Pending JP2024019431A (ja) 2019-06-24 2023-12-07 動画データのイントラ予測コーディングのための方法及び装置
JP2023206713A Active JP7560077B2 (ja) 2019-06-24 2023-12-07 動画データのイントラ予測コーディングのための方法及び装置
JP2023206714A Active JP7560078B2 (ja) 2019-06-24 2023-12-07 動画データのイントラ予測コーディングのための方法及び装置

Country Status (3)

Country Link
US (6) US11589065B2 (ja)
JP (6) JP7401566B2 (ja)
WO (1) WO2020262951A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020256324A1 (ko) * 2019-06-18 2020-12-24 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
JP7401566B2 (ja) * 2019-06-24 2023-12-19 ヒョンダイ モーター カンパニー 動画データのイントラ予測コーディングのための方法及び記録媒体
WO2021034160A1 (ko) * 2019-08-22 2021-02-25 엘지전자 주식회사 매트릭스 인트라 예측 기반 영상 코딩 장치 및 방법
CN114586354A (zh) * 2019-08-22 2022-06-03 Lg 电子株式会社 基于矩阵的帧内预测设备和方法
EP4169249A1 (en) * 2020-06-18 2023-04-26 InterDigital VC Holdings France, SAS Adapting the transform process to neural network-based intra prediction mode
TW202349956A (zh) * 2022-04-08 2023-12-16 聯發科技股份有限公司 在視訊編解碼系統中使用解碼器導出的幀內預測的方法和裝置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120070479A (ko) 2010-12-21 2012-06-29 한국전자통신연구원 화면 내 예측 방향 정보 부호화/복호화 방법 및 그 장치
CN115134596A (zh) 2015-06-05 2022-09-30 杜比实验室特许公司 用于执行帧间预测的图像编解码方法、比特流存储方法
KR101875762B1 (ko) 2015-06-05 2018-07-06 인텔렉추얼디스커버리 주식회사 화면 내 예측 모드에 대한 부호화/복호화 방법 및 장치
US10326986B2 (en) 2016-08-15 2019-06-18 Qualcomm Incorporated Intra video coding using a decoupled tree structure
KR20180086094A (ko) * 2017-01-20 2018-07-30 세종대학교산학협력단 비디오 신호의 부호화 또는 복호화 방법 및 장치
US11134257B2 (en) * 2019-04-04 2021-09-28 Tencent America LLC Simplified signaling method for affine linear weighted intra prediction mode
WO2020207502A1 (en) * 2019-04-12 2020-10-15 Beijing Bytedance Network Technology Co., Ltd. Most probable mode list construction for matrix-based intra prediction
US11381808B2 (en) * 2019-04-25 2022-07-05 Hfi Innovation Inc. Method and apparatus of matrix based intra prediction in image and video processing
EP3903485A4 (en) 2019-04-27 2022-03-02 Huawei Technologies Co., Ltd. ENCODER, DECODER AND CORRESPONDING INTRA PREDICTION METHODS
US11284093B2 (en) * 2019-05-09 2022-03-22 Qualcomm Incorporated Affine linear weighted intra prediction in video coding
US11277637B2 (en) * 2019-05-09 2022-03-15 Qualcomm Incorporated Reference sampling for matrix intra prediction mode
CN113924775B (zh) * 2019-05-31 2023-11-14 北京字节跳动网络技术有限公司 基于矩阵的帧内预测中的限制的上采样
EP3958571A4 (en) * 2019-06-03 2022-07-27 LG Electronics Inc. MATRIX-BASED INTRA PREDICTION DEVICE AND METHOD
CN118509604A (zh) * 2019-06-03 2024-08-16 Lg电子株式会社 图像解码方法、图像编码方法和数据发送方法
US11128868B2 (en) * 2019-06-11 2021-09-21 Mediatek Inc. Method and apparatus of matrix-based intra prediction for video coding
WO2020251328A1 (ko) * 2019-06-13 2020-12-17 엘지전자 주식회사 인트라 예측 모드 변환에 기반한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020251330A1 (ko) 2019-06-13 2020-12-17 엘지전자 주식회사 단순화된 mpm 리스트 생성 방법을 활용하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
BR112021025335A2 (pt) * 2019-06-14 2022-02-01 Fraunhofer Ges Forschung Aparelho para decodificar ou codificar um bloco predeterminado de uma imagem com o uso de intraprevisão, métodos e fluxo de dados
JP7401566B2 (ja) * 2019-06-24 2023-12-19 ヒョンダイ モーター カンパニー 動画データのイントラ予測コーディングのための方法及び記録媒体

Also Published As

Publication number Publication date
US20220070482A1 (en) 2022-03-03
JP7560077B2 (ja) 2024-10-02
JP2024019427A (ja) 2024-02-09
JP7560078B2 (ja) 2024-10-02
US20230143740A1 (en) 2023-05-11
US11917180B2 (en) 2024-02-27
US20230209076A1 (en) 2023-06-29
JP2022539737A (ja) 2022-09-13
JP7560076B2 (ja) 2024-10-02
US11792418B2 (en) 2023-10-17
JP2024019431A (ja) 2024-02-09
US20230156209A1 (en) 2023-05-18
JP2024019429A (ja) 2024-02-09
US11589065B2 (en) 2023-02-21
US11917181B2 (en) 2024-02-27
WO2020262951A1 (ko) 2020-12-30
JP7401566B2 (ja) 2023-12-19
US20230164339A1 (en) 2023-05-25
US11800127B2 (en) 2023-10-24
US11909994B2 (en) 2024-02-20
JP2024019428A (ja) 2024-02-09
US20230141470A1 (en) 2023-05-11

Similar Documents

Publication Publication Date Title
JP7401566B2 (ja) 動画データのイントラ予測コーディングのための方法及び記録媒体
US20240244247A1 (en) Method and apparatus for efficiently coding residual blocks
CN114270826B (zh) 用于视频数据的帧内预测编码的方法和装置
CN113892268A (zh) 基于预测模式估计的帧内预测装置和方法
KR20210018137A (ko) 동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치
KR20210006305A (ko) 동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치
US12120334B2 (en) Video encoding and decoding method and device
KR20220118334A (ko) 서브블록 분할 기반 인트라 예측을 이용하는 비디오 코딩방법 및 장치
CN113841403A (zh) 影像解码装置中使用的逆量化装置和方法
CN114270842A (zh) 利用差分编码的视频编码和解码
EP3985978A1 (en) Method and apparatus for intra prediction coding of video data
KR20220071128A (ko) 적응적 대체 모드를 이용한 영상 부호화 및 복호화 방법
CN114762328A (zh) 利用差分调制的视频编码和解码
CN113892261A (zh) 利用差分编码的影像解码装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240813