JP7128953B2 - ピクチャの復号のための方法、機器及びコンピュータプログラム - Google Patents

ピクチャの復号のための方法、機器及びコンピュータプログラム Download PDF

Info

Publication number
JP7128953B2
JP7128953B2 JP2021506396A JP2021506396A JP7128953B2 JP 7128953 B2 JP7128953 B2 JP 7128953B2 JP 2021506396 A JP2021506396 A JP 2021506396A JP 2021506396 A JP2021506396 A JP 2021506396A JP 7128953 B2 JP7128953 B2 JP 7128953B2
Authority
JP
Japan
Prior art keywords
segment
prediction
syntax element
decoding
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021506396A
Other languages
English (en)
Other versions
JP2021520173A (ja
Inventor
ウェンジャー,ステファン
リィウ,シャン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2021520173A publication Critical patent/JP2021520173A/ja
Application granted granted Critical
Publication of JP7128953B2 publication Critical patent/JP7128953B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本出願は、2018年9月5日にて提出された米国仮特許出願No. 62/727.381、2018年11月28日にて提出された米国特許出願No. 16/202.949、及び2019年6月27日にて提出された米国特許出願No. 16/454.545の優先権を主張し、前記各出願における全ての開示内容は本明細書に援用される。
(技術分野)
実施形態による方法及び機器は、ビデオ処理に関わるとともに、より具体的にビデオ符号化におけるセグメントのタイプに関わる。
(背景技術)
動き補償を有するフレーム間ピクチャ予測を利用するビデオ符号化及び復号化はもう数十年に続いている。非圧縮のディジタルビデオは一連のピクチャを有し、各ピクチャの空間次元は、例えば1920×1080輝度サンプルと関連する色度サンプルである。該一連のピクチャは、例えば60ピクチャまたは60Hz/秒の固定または可変のピクチャレート(非公式にフレームレートとも呼ばれる)を有してもよい。非圧縮のビデオは高いビットレートの要求を有する。例えば、1サンプル8ビットの1080p60 4:2:0ビデオ(60 Hzフレームレートで、1920×1080の輝度サンプルの解像度)は、約1.5 Gbit/sの帯域幅を必要とする。このような1時間のビデオは、約600 GBの記憶空間を必要とする。
ビデオ符号化及び復号化は、圧縮により、ビデオ信号入力における冗長を減少させることを1つの目的とする。圧縮は、以上に言及された帯域幅または記憶空間に対する需求を減少させることに寄与し、ある状況で、2つまたはより多いオーダーを減少させる。可逆圧縮、非可逆圧縮、及びその組み合わせを利用できる。可逆圧縮は、圧縮された元の信号から元の信号の正確なコピーを再構築する技術を指す。非可逆圧縮を利用する場合、再構築された信号は元の信号と異なるかもしれないが、元の信号と再構築された信号との間の歪みは十分に小さいから、再構築された信号は意図されるアプリケーションに役立つ。ビデオの場合、非可逆圧縮は大幅に適用される。許容の歪み量はアプリケーションに依存し、例えば、テレビ貢献アプリケーションのユーザーより、消費者ストリーミング媒体プリケーションのユーザーが高い歪みを許容する。達する圧縮比は、許可/許容可能な歪みが高いほど、圧縮比が高くなることを反映する。
ビデオ符号器及び復号器は、大幅の種類からの若干の技術を利用でき、例えば、動き補償、変換、量子化及びエントロピー符号化を含み、以下はそのうちのいくつかを紹介する。
符号化されたビデオビットストリームは非圧縮のソースビデオの圧縮表現であるとともに、符号化されたピクチャに分けられてもよい。符号化されたピクチャは1つまたは複数のピクチャセグメントを有する。ピクチャセグメントは、例えば、スライス、タイル、ブロックグループ(a group of blocks、GOB)などであってもよい。ピクチャセグメントは、例えばスライスヘッダ、タイルヘッダ、GOBヘッダなどのようなセグメントヘッダを有してもよく、セグメントヘッダは、セグメントの他の部分を構成し得る1つまたは複数の符号化ユニット(coding units、CU)に関する情報を含む。ある場合、セグメントヘッダにおける情報は、セグメントのうちの第1CUに関してもよいが、CUヘッダにある相応的な更新情報によりカバーされてもよい。他の場合、セグメントヘッダにおける情報は、セグメントのうちの全てのCUに関してもよい。
多くの原因で、ピクチャセグメンテーションはビデオ圧縮技術及び基準に含まれる。MPEG-1でスライスが導入される1つの原因は、最大伝送ユニット(Maximum Transfer Unit、MTU)のサイズマッチングに対する需求である。1つの符号化されたピクチャは、あるパケットネットワークにおけるパケットのMTUより大きい場合、該ピクチャをある程度で独立する復号化可能なユニットとして分けるように望まれることから、スライスを導入する。他の原因は、(圧縮ドメインにあるかもしれない)サブピクチャから符号化されたピクチャへの合成を簡略化するように望まれる。H.26lのブロックグループ(GOB)概念(特にH.261において使用するGOB番号)は、該技術の1つの初期の例であり、H.263の矩形スライスは他の例である。もう1つの原因は、そのうちの複数の符号器/復号器のプロセッサまたはコアが特定のピクチャ部分に対して同時に復号化を行う符号化及び/または復号化を実現することである。
タイルはあるビデオコーデックにおける、符号化されたビデオビットストリームに対してパーティションを行うための1つまたは複数の利用可能なメカニズムである。タイルはピクチャの矩形領域であってもよい。CU(ブロックまたはマクロブロックとも呼ばれる)の走査順序はタイルに位置決めされ、左上から右へ、そして、上から下へになる。ピクチャは複数のタイルに分けられ、そのうちの各CUは、ちょうど1つのタイルの一部であってもよい。タイルを導入することで、各プロセッサまたはコアが、注意力(アテンション)を符号化対象となるピクチャ部分のみに集中するように許可して、並列的な符号化及び復号化を実現し、なぜならば、最終のビットストリームの生成処理以外、他のタイルを担当するプロセッサと通信する必要がないからである。ただし、それらはピクチャ合成の機構として用いられてもよい。
ピクチャセグメンテーション技術の共通点は、セグメント境界が予測メカニズムを中断する場合がある。例えば、あるビデオ符号化技術及び基準において、セグメント境界は動きベクトル予測、フレーム内予測などのようなピクチャ内予測メカニズムを中断する。どんな程度でフレーム間ピクチャ予測メカニズムを許可するか(例えば、セグメント境界の外部のサンプルによって動き補償を行う)ということは、ビデオ符号化技術または基準に依存する。例えば、H.263+において、独立のセグメント復号化モードは、以下の設定を提供し、即ち、セグメント境界に渡る動き補償によってサンプル値を導入することは、許可されていない。H.265において、制約されるタイルセットは類似する目的を有する。
ピクチャセグメンテーション技術はさらに以下の共通点を有してもよく、即ち、特定タイプのセグメントにおいて、あるタイプの符号化ユニットのみを許可する。例えば、あるビデオ符号化技術及び基準において、フレーム内スライスは、フレーム内モードで符号化するCUのみを含み、フレーム間スライスは、フレーム内及びフレーム間モードのCUを含み、双方向予測スライスはフレーム内、フレーム間及び双方向予測モードで符号化するCUを含む。少なくともいくつかのビデオ符号化技術または基準において、セグメントのタイプは、例えば、フレーム内セグメントが最も制限的であり、次はフレーム間セグメントで、そして、双方向予測セグメントであるという階層構造を形成する。
フレーム内セグメントは、(フレーム内セグメントでカバーされる)現在復号化されたピクチャのいくつかの部分に対して、復号器の状態を既知状態にリセットするために使用されることが可能である。
従来のビデオ符号化技術は、フレーム間、フレーム内及び(程度が小さいかもしれない)双方向予測の間で共有するいくつかの似た技術を含む。例えば、H.265のスクリーンコンテンツ符号化(screen content coding、SCC)のプロファイルは、フレーム内ブロックコピー(intra block copy、IBC)として既知になる技術を含み、該技術は、動き補償メカニズムとして特徴付けられることが可能であり、該動き補償メカニズムにおいて、参照サンプル情報は、再構築されているサンプルと同一の復号化されたピクチャの一部である。例えば「HEVC Screen Content Coding Draft Text(HEVCスクリーンコンテンツ符号化ドラフトテキスト)」、ITU-T/ISO/IEC、JCTVC-T1005、2015年を参照されたい。復号化された参照ピクチャにアクセスする必要がなく、これはフレーム内符号化の通常の機能である。ただし、特定のCUの再構築は、CU外部からのサンプル情報を必要とするかもしれず、MPEG-2のような早期のビデオ符号化基準において、伝統的に、フレーム間符号化の機能と見なされる。
フレーム内セグメントとある現代の符号化ツール(例えばIBC)との間のインタラクションは複雑であるかもしれない。その一方、少なくともある場合、IBCは、効果的なツールであり、再構築中のピクチャのフレーム内コーデック領域の符号化効率を向上させることができると証明される。ただし、少なくともある場合(再構築中のピクチャのより多い領域は、参照サンプルとしてIBCに用いられる場合)、IBCはより良好に機能し、そのサンプルは再構築中の現在セグメントの外部のサンプルを含んでもよい。しかし、フレーム内セグメントは、該セグメントの外部のいずれの情報も参照せず、特定の領域を既知状態にリセットするというターゲットに対して、現在セグメントの外部のサンプルをIBCの参照に用いることは、該ターゲットに対して逆効果をもたらす。
あまり進歩していない(または少なくとも古い)ツール(例えばフレーム内予測)に対しても、同様である。
従って、ビデオ圧縮技術または基準は、フレーム内スライスCUの、外部サンプル及びメタ情報に対するいずれの参照も禁止する傾向がある。例えば、セグメント境界の外部のいずれのサンプルといずれのCUも予測に利用不可とマーキングすることで実現される。ただし、少なくとも復号化処理をリセットするフレーム内セグメントのターゲットと関係がない場合、該決定は、符号化の効率を必要以上に低減させる。
実施形態に基づいて、少なくとも1つのプロセッサは符号化されたピクチャを復号化するための方法を実行し、符号化されたピクチャは第1セグメントと第2セグメントとの符号化されたビデオシーケンスを有し、該方法は、少なくとも第1セグメントと第2セグメントに適用される高水準シンタックス構造の第1シンタックス要素に基づき、第1セグメントを復号化するための第1復号化処理を決定するステップを有し、該第1シンタックス要素は第1予測を許可しないように指示し、第1復号化処理は第1予測を許可しない。該方法はさらに、少なくとも高水準シンタックス構造の第2シンタックス要素に基づき、第2セグメントを復号化するための第2復号化処理を決定するステップを有し、該第2シンタックス要素は第2予測を許可しないように指示し、第2予測は前記第1予測と異なり、第2復号化処理は前記第2予測を許可しない。該方法はさらに、第1予測を許可しない第1復号化処理に基づき、第1セグメントを復号化するステップと、第2予測を許可しない第2復号化処理に基づき、第2セグメントを復号化するステップとを有する。
実施形態に基づいて、符号化されたピクチャを復号化するための機器であって、符号化されたピクチャは第1セグメントと第2セグメントとの符号化されたビデオシーケンスを有し、該機器は、コンピュータプログラムコードを記憶するように構成される少なくとも1つのメモリと、少なくとも1つのメモリにアクセスし、コンピュータプログラムコードに基づき操作するように構成される少なくとも1つのプロセッサと、を備える。該コンピュータプログラムコードは、少なくとも1つのプロセッサに少なくとも第1セグメントと第2セグメントに適用される高水準シンタックス構造の第1シンタックス要素に基づき、第1セグメントを復号化するための第1復号化処理を決定させるように構成される第1決定コードを有し、該第1シンタックス要素は第1予測を許可しないように指示するために用いられ、第1復号化処理は第1予測を許可しない。該コンピュータプログラムコードはさらに、少なくとも高水準シンタックス構造の第2シンタックス要素に基づき、第2セグメントを復号化するための第2復号化処理を決定するように構成される第2決定コードを有し、該第2シンタックス要素は第2予測を許可しないように指示するために用いられ、第2予測は前記第1予測と異なり、第2復号化処理は前記第2予測を許可しない。該コンピュータプログラムコードはさらに、少なくとも1つのプロセッサに第1予測を許可しない第1復号化処理に基づき、第1セグメントを復号化させるように構成される第1復号化コードを有する。該コンピュータプログラムコードはさらに、少なくとも1つのプロセッサに、第2予測を許可しない第2復号化処理に基づき、第2セグメントを復号化させるように構成される第2復号化コードを有する。
実施形態に基づいて、非一時的なコンピュータ読み取り可能な記憶媒体は、符号化されたピクチャを復号化するためのプログラムを記憶し、符号化されたピクチャは第1セグメントと第2セグメントとの符号化されたビデオシーケンスを有する。該プログラムは、プロセッサに少なくとも第1セグメントと第2セグメントに適用される高水準シンタックス構造の第1シンタックス要素に基づき、第1セグメントを復号化するための第1復号化処理を決定させる命令を含み、該第1シンタックス要素は第1予測を許可しないように指示するために用いられ、第1復号化処理は第1予測を許可しない。該命令はさらにプロセッサに少なくとも高水準シンタックス構造の第2シンタックス要素に基づき、第2セグメントを復号化するための第2復号化処理を決定させ、該第2シンタックス要素は第2予測を許可しないように指示するために用いられ、第2予測は前記第1予測と異なり、第2復号化処理は前記第2予測を許可しない。命令はさらに、プロセッサに第1予測を許可しない第1復号化処理に基づき、第1セグメントを復号化させ、及び第2予測を許可しない第2復号化処理に基づき、第2セグメントを復号化させる。
実施形態に基づく通信システムの簡略化ブロック図である。 実施形態に基づくビデオ符号器とビデオ復号器とのストリームメディア環境における配置図である。 1つの実施形態に基づくビデオ復号器の機能ブロック図である。 他の実施形態に基づくビデオ符号器の機能ブロック図である。 実施形態に基づくタイル化のピクチャの図面である。 実施形態に基づく、セグメンテーションされたピクチャのための並行復号器システムの図面である。 実施形態に基づく、セグメンテーションされたピクチャのための並行復号器システムの図面である。 実施形態に基づくIPスライスのシンタックス要素のシンタックス及びセマンティックの図面である。 実施形態に基づくPIスライスのシンタックス要素のシンタックス及びセマンティックの図面である。 実施形態に基づくBスライスのシンタックス要素のシンタックス及びセマンティックの図面である。 実施形態に基づくBI、PI及びIPスライスのシンタックス要素のシンタックス及びセマンティックの図面である。 実施形態に基づく境界に渡る予測フラグのシンタックス及びセマンティックの図面である。 実施形態を実現するためのコンピュータシステムの図面である。 実施形態に基づく、第1セグメントと第2セグメントとの符号化されたビデオシーケンスを有する符号化されたピクチャを復号化する方法を示すフロ一チヤ一卜である。 実施形態に基づく、第1セグメントと第2セグメントとの符号化されたビデオシーケンスを有する符号化されたピクチャを復号化するための機器の簡略化ブロック図である。
実施形態はビデオ符号化及び復号化に関わるとともに、より具体的に、符号化されたビデオピクチャを、スライス及びタイルのようなセグメントに分割することに関わり、該セグメントは、既知タイプのフレーム内、フレーム間、双方向予測のスライスまたはタイルに合わないかもしれない。例えば、フレーム内符号化ブロックのみを有するスライスまたはタイルは、再構築中のスライスまたはタイルの外部に由来するが、復号化順序に従うと、同一ピクチャに属するスライスまたはタイルの予測情報を依然として利用するかもしれない。このような場合、該ピクチャは全体的に他のピクチャと独立して復号化できるが、該スライスまたはタイルは、同一ピクチャの他のスライスまたはタイルを利用しないと、成功に復号化することができないおそれがある。
図1は、実施形態に基づく通信システム(100)のブロック図である。通信システム(100)は、ネットワーク(150)を介して互いに接続される少なくとも2つ端末(110-120)を有してもよい。データの一方向伝送に対して、第1端末(110)はローカル位置でビデオデータを符号化することで、ネットワーク(150)を介して他の端末(120)に伝送する。第2端末(120)はネットワーク(150)から他の端末の符号化されたビデオデータを受信し、符号化されたデータを復号化するとともに、回復されたビデオデータを表示する。一方向データ伝送は、メディアサービスアプリケーションなどにおいてよく見られる。
図1は、第2対端末(130、140)を示し、例えば、ビデオ会議期間に発生する可能性がある符号化されたビデオの双方向伝送を支持する。データの双方向伝送に対して、各端末(130、140)はローカル位置で収集されたビデオデータを符号化することで、ネットワーク(150)を介して他の端末に伝送する。各端末(130、140)はさらに、他の端末から伝送され、符号化されたビデオデータを受信し、符号化されたデータを復号化し、ローカル表示機器において回復されたビデオデータを表示できる。
図1において、端末(110-140)はサーバ、パーソナルコンピュータ及びスマートフォンとして図示されているが、実施形態的の原理はこれに限定されない。実施形態はラップトップコンピュータ、タブレット、メディアプレイヤー及び/または専門ビデオ会議機器に適用される。ネットワーク(150)は、端末(110-140)の間で符号化されたビデオデータを伝送するための、例えば有線及び/または無線通信ネットワークを含む任意の数のネットワークを示す。通信ネットワーク(150)は回路交換及び/またはパケット交換チャンネルにおいてデータを交換できる。代表的なネットワークは電信ネットワーク、ローカルエリアネットワーク、広域エリアネットワーク及び/またはインターネットを含む。本論述の目的から見れば、以下で説明しない限り、ネットワーク(150)のアーキテクチャ及びトポロジは本実施形態の動作に対して重要ではない。
図2は、実施形態に基づくビデオ符号器とビデオ復号器とのストリーミング伝送環境における配置の図面である。開示されたテーマは等価的にビデオを支持するための他のアプリケーションに適用でき、例えば、ビデオ会議、デジタルTVを含み、CD、DVD、メモリースティックなどを含むデジタル媒体に圧縮ビデオなどを記憶する。
ストリーミング伝送システムは、キャプチャサブシステム(213)を含み、該キャプチャサブシステムは、例えばデジタルカメラなどのビデオソース(201)を含み、前記ビデオソースは、例えば非圧縮のビデオサンプルストリーム(202)を構築する。符号化されたビデオビットストリームに比べて、サンプルストリーム(202)はデータ量が多いことを強調するように太線として描画され、サンプルストリームはカメラ(201)に連結される符号器(203)によって処理される。符号器(203)はハードウェア、ソフトウェアまたはその組み合わせを含むことで、以下により詳しく記載される開示のテーマの各態様を実現または実施する。サンプルストリームに比べて、符号化されたビデオビットストリーム(204)は、データ量が少ないことを強調するように細線として描画され、符号化されたビデオビットストリームはストリーミング伝送サーバ(205)に記憶されることで、後で使用される。1つまたは複数のストリーミング伝送クライアント(206、208)はストリーミング伝送サーバ(205)にアクセスすることで、符号化されたビデオビットストリーム(204)のコピー(207、209)を検索することができる。クライアント(206)はビデオ復号器(210)を有してもよく、該ビデオ復号器は符号化されたビデオビットストリーム(207)の到来するコピー(207)を復号化し、ディスプレイ(212)または他の表示機器(図示せず)に表示される導出ビデオサンプルストリーム(211)を構築する。あるビデオ符号化/圧縮基準に基づきビデオビットストリーム(204、207、209)を符号化できるストリーミング伝送システムもある。これらの基準の例示はITU-T H.265提案書を含む。開発中のビデオ符号化基準は非公式的にVVCと呼ばれる。開示されたテーマはVVCのコンテキストに適用される
図3は、実施形態に基づくビデオ復号器(210)の機能ブロック図である。
受信機(310)は、復号器(210)によって復号化される1つまたは複数のコーデックビデオシーケンスを受信でき、同一の実施形態または他の実施形態において、1回に1つの符号化されたビデオシーケンスを受信し、各符号化されたビデオシーケンスの復号化は、他の符号化されたビデオシーケンスと独立する。チャンネル(312)から符号化されたビデオシーケンスを受信し、該チャンネルは符号化されたビデオデータを記憶するための記憶機器へのハードウェア/ソフトウェアリンクであってもよい。受信機(310)は符号化されたビデオデータ及び他のデータを受信でき、例えば、それぞれの利用エンティティ(図示せず)に転送される符号化されたオーディオデータ及び/または補助データストリームである。受信機(310)は符号化されたビデオシーケンスと他のデータとを分割できる。ネットワークのジッタを阻止するために、バッファメモリ(315)は受信機(310)とエントロピー復号器/パーサー(320)(以下は「パーサー」と呼ばれる)との間に連結される。受信機(310)は十分な帯域幅及び制御可能性を有する記憶/転送機器、または等時性リアルタイムネットワークからデータを受信する際、バッファ(315)を必要としないか、またはバッファが小さくてもよい。インターネットのようなビジネスパケットネットワークで利用するために、バッファ(315)を必要とするかもしれなく、バッファは相対的に大きく、有利に自己適応のサイズを有してもよい。
ビデオ復号器(210)はパーサー(320)を有することで、エントロピー符号化ビデオシーケンスに基づき、シンボル(321)を再構築する。これらの符号のカテゴリには、復号器(210)の操作を管理するための情報が含まれ、且つディスプレイ(212)のような表示機器を制御するための潜在情報が潜在的に含まれ、図3に示すように、該ディスプレイは復号器の構成部分ではないが、復号器に連結される。(一つ又は複数の)表示機器のための制御情報は、補充強化情報(SEI(Supplementary Enhancement Information、SEI)メッセージ)またはビデオユーザビリティ情報(Video Usability Information、VUI)パラメータセットセグメント(図示せず)という形式であってもよい。パーサー(320)は受信され符号化されたビデオシーケンスに対して解析/エントロピー復号化を行う。符号化されたビデオシーケンスの符号化は、ビデオ符号化技術または基準に基づき行うとともに、可変長符号化、ハフマン符号化(Huffmancoding)、コンテキスト感度を有するかまたは有しない算術符号化などのような、当業者にとって公知である各種原理に従う。パーサー(320)はグループに対応する少なくとも1つのパラメータに基づき、符号化されたビデオシーケンスから、ビデオ復号器における画素のサブグループのうちの少なくとも1つのサブグループのためのサブグループパラメータセットを抽出する。サブグループは、ピクチャグループ(Group of Picture、GOP)、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット(Coding Unit、CU)、ブロック、変換ユニット(Transform Unit、TU)、予測ユニット(Prediction Unit、PU)などを含んでもよい。エントロピー復号器/パーサーはさらに、符号化されたビデオシーケンスから、変換係数、量子化器パラメータ(quantizer parameter、QP)値、動きベクトルなどのような情報を抽出できる。
パーサー(320)は、バッファ(315)から受信されたビデオシーケンスに対してエントロピー復号化/解析動作を実行することで、シンボル(321)を構築する。パーサー(320)は符号化されたデータを受信するとともに、選択的に特定のシンボル(321)を復号化する。また、パーサー(320)は、特定のシンボル(321)が動き補償予測ユニット(353)、スケーラ/逆変換ユニット(351)、フレーム内予測ユニット(352)またはループフィルタユニット(354)に提供されるかどうかを決定できる。
符号化されたビデオピクチャ、または一部の符号化されたビデオピクチャ(例えば、フレーム間ピクチャ、フレーム内ピクチャ、フレーム間ブロック、フレーム内ブロック)のタイプ、及び他の要因に依存し、シンボル(321)の再構築は、複数の異なるユニットに関わる可能性がある。どのユニットに関わるか、及び関わり方式について、パーサー(320)が符号化されたビデオシーケンスに基づき解析したサブグループ制御情報によって制御される。簡潔のために、パーサー(320)と以下の複数ユニットとの間の、このようなサブグループ制御情報ストリームを図示していない。
既に言及された機能ブロック以外、復号器(210)は概念で以下に記載のいくつかの機能ユニットに細分される。商業制約で実行する実際の実現方式において、これらのユニットにおける複数のユニットは互いに密接にインタラクションするとともに、少なくとも部分的に互いに集積されてもよい。ただし、開示されたテーマを記載するという目的から見れば、概念的に以下の機能ユニットに細分されることは適切である。
第1ユニットはスケーラ/逆変換ユニット(351)である。スケーラ/逆変換ユニット(351)はパーサー(320)からシンボル(321)としての量子化変換係数及び制御情報を受信し、どの変換方式を利用するかということ、ブロックのサイズ、量子化因子、量子化スケーリング行列などを含む。スケーラ/逆変換ユニット(351)は、アグリゲーター(455)に入力されるサンプル値が含まれるブロックを出力する。
スケーラ/逆変換(351)の出力サンプルはフレーム内符号化ブロックに属し得て、即ち、前に再構築されたピクチャからの予測的な情報を利用せず、現在ピクチャの前に再構築された部分からの予測的な情報を利用できる。このような予測的な情報はフレーム内ピクチャ予測ユニット(352)から提供される。場合によっては、フレーム内ピクチャ予測ユニット(352)は現在(部分的に再構築された)ピクチャ(356)からフェッチされた周辺の既に再構築された情報を利用して、再構築中のブロック同じサイズ及び形状のブロックを生成する。場合によっては、アグリゲーター(355)は各サンプルに基づき、フレーム内予測ユニット(352)から生成された予測情報を、スケーラ/逆変換ユニット(351)により提供される出力サンプル情報に追加する。
また、スケーラ/逆変換ユニット(351)の出力サンプルはフレーム間符号化ブロックと潜在動き補償ブロックに属してもよい。このような場合、動き補償予測ユニット(353)は参照ピクチャメモリ(357)にアクセスし、予測のためのサンプルを抽出できる。ブロックに属するシンボル(321)に基づき、抽出のサンプルに対して動き補償を行った後、これらのサンプルはアグリゲーター(355)によってスケーラ/逆変換ユニットの出力に追加され(この場合、残差サンプルまたは残差信号と呼ばれる)、出力サンプル情報を生成する。動き補償予測ユニットが予測サンプルを抽出する参照ピクチャメモリ内のアドレスは、動きベクトルによって制御され、動きベクトルはシンボル(321)という形式で、動き補償ユニットに使用され、シンボル(321)は、例えばX、Yおよび参照ピクチャ成分を有してもよい。動き補償はさらに、サブサンプルによって動きベクトルを正確にする際、参照ピクチャメモリから抽出されたサンプル値の補間、動きベクトル予測メカニズムなどを含んでもよい。
アグリゲーター(355)の出力サンプルは、ループフィルタユニット(354)において、各種のループフィルタリング技術に使用される。ビデオ圧縮技術はループ内フィルタ技術を含んでもよく、該ループ内フィルタ技術は、符号化されたビデオビットストリームに含まれるとともに、パーサー(320)からのシンボル(321)として、ループフィルタユニット(354)に用いられるパラメータによって制御されるが、ビデオ圧縮技術はさらに、符号化されたピクチャまたは符号化されたビデオシーケンスの前の(復号化順序に従う)部分を復号化する期間で取得したメタ情報、及び前に構築されループフィルタリングを経たサンプル値に応答できる。
ループフィルタユニット(354)の出力は、サンプルストリームであってもよく、前記サンプルストリームは表示機器(212)に出力され、且つ参照ピクチャメモリ(356)に記憶されることで、将来のピクチャ間予測に適用される。
完全に再構成されると、ある符号化されたピクチャは参照ピクチャとして、後の予測に用いることができる。符号化されたピクチャが完全に再構成され、符号化されたピクチャ(例えばパーサー(320)を介して)が参照ピクチャとして認識されると、現在ピクチャ(356)は参照ピクチャメモリ(357)の一部になり、その後の符号化されたピクチャを再構成する前に、新たな現在ピクチャバッファを改めて割り当てる。
ビデオ復号器(210)は、例えばITU-T H.265提案書の基準における所定ビデオ圧縮技術に基づき、復号化動作を実行することができる。符号化されたビデオシーケンスは、ビデオ圧縮技術文書または基準、特にそのうちのプロファイル文書で指定されているようなビデオ圧縮技術または基準の文法に従うという意味で、符号化されたビデオシーケンスは使用中のビデオ圧縮技術または基準により指定される文法に従うことができる。準拠性について、符号化されたビデオシーケンスの複雑度は、ビデオ圧縮技術または基準のレベルによって限定される範囲内にあるように要求する。ある状況で、レベルは最大ピクチャの大きさ、最大フレームレート、最大再構築サンプリングレート(例えば、兆個サンプル/秒に測定する)、最大参照ピクチャの大きさを制限する。ある状況で、レベルによる配置される制限は、仮想参照復号器(HRD)の仕様、及び符号化されたビデオシーケンスにおいてシグナリングされたHRDバッファの管理のメタデータを介してさらに限定される。
実施形態において、受信器(310)は追加(冗長)データ及び符号化されたビデオを受信できる。追加データは(一つ又は複数の)符号化されたビデオシーケンスの一部として含まれる。追加データはビデオ復号器(210)によって利用されることで、データを適切に復号化し、及び/またはオリジナルビデオデータをより正確に再構築することができる。追加データは、例えば時間、空間または信号対雑音比(SNR)強化層、冗長スライス、冗長ピクチャ、前方誤り訂正符号などの形式であってもよい。
図4は、実施形態に基づくビデオ符号器(203)の機能ブロック図である。
符号器(203)はビデオソース(201)(符号器の一部ではない)からビデオサンプルを受信でき、該ビデオソースは符号器(203)によって符号化される(1つまたは複数の)ビデオ画像をキャプチャできる。
ビデオソース(201)は、ビデオ符号器(203)によって符号化され、デジタルビデオサンプルストリームの形式であるソースビデオシーケンスを提供でき、デジタルビデオサンプルストリームは任意の適切なビット深度(例えば、8ビット、10ビット、12ビット…)、任意の色空間(例えば、BT.601 Y CrCB、RGB……)、及び任意の適切なサンプリング構成(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)を有してもよい。メディアサービスシステムにおいて、ビデオソース(301)は、前に準備されたビデオを記憶するための記憶機器であってもよい。ビデオ会議システムにおいて、ビデオソース(201)は、ビデオシーケンスとして、ロカール画像情報をキャプチャするための撮影装置であってもよい。ビデオデータは、順序に応じて見る際、動きが付与された複数の単独のピクチャとして提供されてもよい。ピクチャそのものは、空間画素アレイとして組織され、使用中のサンプリング構成、色空間などに依存し、各画素には1つ又は複数のサンプルが含まれてもよい。画素とサンプルとの間の関係は、当業者にとって容易に理解できる。以下の記載はサンプルに着目する。
実施形態に基づいて、ビデオ符号器(203)は、リアルタイムまたはアプリケーションの必要な任意の他の時間の制約で、ソースビデオシーケンスのピクチャを符号化するとともに、符号化されたビデオシーケンス(443)として圧縮する。適切的な符号化速度で実行することは、コントローラ(450)の1つの機能である。コントローラは以下に記載の他の機能ユニットを制御するとともに、機能で他の機能ユニットに連結される。簡潔のために、該連結を図示していない。コントローラにより配置されるパラメータは、レート制御に関するパラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のλ値......)、ピクチャの大きさ、ピクチャグループ(GOP)の配置、最大動きベクトルの検索範囲などを含んでもよい。コントローラ(450)は他の適切な機能を有するように配置されてもよく、これらの機能は、あるシステム設計に対して最適化したビデオ符号器(203)に属する。
いくつかの実施例において、ビデオ符号器は符号化ループにおいて動作するように構成される。非常に簡単な記載として、1つの例示において、符号化ループは符号器(430)(以降、ソース符号器と呼ばれる)(例えば、符号化対象となる入力ピクチャと(一つ又は複数の)参照ピクチャに基づき、符号を構築することに担当する)の符号化部分、及びビデオ符号器(203)に埋め込まれる(ローカル)復号器(433)を含む。復号器(433)は、(リモート)復号器がサンプルデータを構築するという方式で、符号を再構築し、サンプルデータを構築する(なぜならば、開示のテーマで考慮されるビデオ圧縮技術において、符号と符号化されたビデオビットストリームとの間の圧縮はいずれも可逆であるからである)。再構築されたサンプルストリーム(サンプルデータ)を参照ピクチャメモリ(434)に入力する。符号ストリームの復号化は、復号器位置(ローカルまたはリモート)と関係がないビット正確な結果を発生させるので、参照ピクチャメモリにおけるコンテンツはローカル符号器とリモート符号器との間でもビット正確である。言い換えれば、符号器の予測部分から「見られる」参照ピクチャサンプルは復号器が復号化期間で予測を利用しようとする際に「見られる」サンプル値と完全に同様である。該参照ピクチャの同期性の基本原理は(及び、例えばチャンネル誤差から、同期性を維持できない場合に発生するドリフト)も関連分野に適用される。
「ローカル」復号器(433)の動作は、例えば、上記の図3に関連して詳しく記載したビデオ復号器(210)の「リモート」復号器の動作と同様であってもよい。ただし、図3を簡単に参照すると、シンボルが利用可能であり、エントロピー符号器(445)及びパーサー(320)によるシンボルの符号化ビデオシーケンスへの符号化/復号化はロスレスであるとすることができるので、チャンネル(312)、受信機(310)、バッファメモリ(315)とパーサー(320)とを含む復号器(210)のエントロピー復号化部分は、ローカル復号器(433)において完全には実装されないかもしれない。
この場合、復号器に存在する解析/エントロピー復号化以外の任意の復号器技術も、必然として、基本的に同じ機能という形式で、対応する符号器に存在する。符号器技術の説明は、包括的に説明された復号器技術の逆であるので、符号器技術に対する説明を省略することが可能である。ある領域においてのみ、より詳しい記載が必要とされ、以下で提供される。
その動作の一部として、ソース符号器(430)は動き補償予測符号化を実行でき、ビデオシーケンスからの1つまたは複数の符号化されたフレーム(「参照フレーム」として指定される)を参照し、予測的に入力フレームを符号化する。該方式で、符号化エンジン(432)は入力フレームの画素ブロックと、入力フレームの(一つ又は複数の)予測的な参照の参照フレームとして選択される画素ブロックとの間の差を符号化する。
ローカルビデオ復号器(433)は、ソース符号器(430)によって構築された符号に基づき、参照ピクチャとして指定できるピクチャの符号化されたビデオデータを復号化することができる。符号化エンジン(432)の動作は好ましくは非可逆処理である。符号化されたビデオデータがビデオ復号器(図3において図示せず)で復号化されてもよい場合、再構築されたビデオシーケンスは、一般的にある程度誤差を有するソースビデオシーケンスのコピーであってもよい。ローカルビデオ復号器(433)はビデオ復号器が参照ピクチャに対して実行する復号化処理をコピーするとともに、再構築された参照ピクチャを参照ピクチャキャッシュ(434)に記憶させる。該方式で、ビデオ符号器(203)は再構築された参照ピクチャのコピーをローカルに記憶し、該コピーは、リモートビデオ復号器によって取得される再構築の参照ピクチャと、共通のコンテンツを有する(伝送誤差がない)。
予測器(435)は、符号化エンジン(432)に対して予測検索を実行することができる。即ち、符号化対象となる新たなフレームに対して、予測器(435)は参照ピクチャメモリ(434)から新たなピクチャとしての適切な予測参照のサンプルデータ(候補参照画素ブロックとして)、またはあるメタデータ例えば参照ピクチャ動きベクトル、ブロック形状などを検索する。予測器(435)はサンプルブロックに基づき、画素ブロックごとに動作することで、適切な予測参照を見つけることができる。ある状況で、予測器(435)によって取得された検索結果に基づき決定されるように、入力ピクチャは参照ピクチャメモリ(434)に記憶された複数の参照ピクチャから取得される予測参照を有してもよい。
コントローラ(450)は、例えば、ビデオデータを符号化するためのパラメータとサブグループパラメータを配置することを含む、ビデオ符号器(430)の符号化動作を管理できる。
前記全ての機能ユニットの出力はエントロピー符号器(445)において、エントロピー符号化されてもよい。エントロピー符号器は、当業者の既知技術(例えばハフマン符号化、可変長符号化、算術符号化等)に基づき、各種機能ユニットから生成された符号に対して可逆圧縮を行うことで、符号を符号化されたビデオシーケンスに変換する。
送信機(440)は、エントロピー符号器(445)によって構築された符号化されたビデオシーケンスをバッファリングすることで、通信チャンネル(460)を介して伝送するように準備し、該通信チャンネルは符号化されたビデオデータを記憶するための記憶機器へのハードウェア/ソフトウェアリンクであってもよい。送信機(440)はビデオ符号器(430)からの符号化されたビデオデータと、伝送対象となる他のデータ、例えば符号化されたオーディオデータ及び/または補助データストリーム(ソースを図示せず)とをマージする。
コントローラ(450)は、ビデオ符号器(203)の動作を管理できる。符号化の間に、コントローラ(450)は各符号化されたピクチャに、特定の符号化されたピクチャのタイプを指定することができ、相応的なピクチャに適用される符号化技術に影響する可能性がある。例えば、一般的に、ピクチャは以下のフレームタイプのうちの1つとして割り当てられる。
フレーム内ピクチャ(Iピクチャ)は、シーケンスにおけるいずれの他のピクチャも予測のソースとして利用せずに、符号化及び復号化されるピクチャであってもよい。例えば独立復号器リフレッシュピクチャが含まれる異なるタイプのフレーム内ピクチャを許容するビデオコーデックもある。当業者は、Iピクチャの変形及びその相応的な適用、特徴を理解できる。
予測性ピクチャ(Pピクチャ)は、多くても1つの動きベクトル及び参照インデックスによって各ブロックのサンプル値を予測する場合、フレーム内予測またはフレーム間予測を利用して符号化及び復号化を行うピクチャであってもよい。
双方向予測性ピクチャ(Bピクチャ)は、多くても2つの動きベクトル及び参照インデックスによって、各ブロックのサンプル値を予測する場合、フレーム内予測またはフレーム間予測を利用して符号化及び復号化を行うピクチャであってもよい。同様に、複数の予測性ピクチャは、2つより多い参照ピクチャと関するメタデータを、単一のブロックの再構築に使用できる。
ソースピクチャは一般的に、空間的で複数のサンプルブロック(例えば、4×4、8×8、4×8または16×16個のサンプルのブロック)に細分できるとともに、ブロックごとに符号化を行う。これらのブロックは、他の(符号化された)ブロックを参照し、予測的に符号化を行って、他のブロックはブロックの相応的なピクチャに適用される符号化割当によって決定される。例えば、Iピクチャのブロックに対して非予測符号化を行うか、またはIピクチャのブロックは、同一のピクチャの符号化されたブロックを参照して、予測性符号化(空間予測またはフレーム内予測)を行う。Pピクチャの画素ブロックは、前に符号化された1つの参照ピクチャを参照し、空間予測または時間予測を介して予測的に符号化を行ってもよい。Bピクチャのブロックは、前に符号化された1つまたは2つの参照ピクチャを参照し、空間予測または時間予測を介して予測的に符号化を行ってもよい。
ビデオ符号器(203)は例えばITU-T H.265提案書の所定のビデオ符号化技術または基準に基づき符号化動作を実行することができる。その動作において、ビデオ符号器(203)は、入力ビデオシーケンスにおける時間と空間冗長を利用した予測性符号化操作を含む各種の圧縮操作を実行できる。従って、符号化されたビデオデータは、使用のビデオ符号化技術または基準が指定する文法に合う。
実施形態において、送信機(440)は追加データ及び符号化されたビデオを伝送することができる。ソース符号器(430)は符号化されたビデオシーケンスの一部として、このようなデータを含んでもよい。追加データは、時間/空間/SNR強化層、冗長ピクチャ及びスライスのような他の形式の冗長データ、補充強化情報(SEI)メッセージ、ビデオユーザビリティ情報(VUI)パラメータセットセグメントなどを含んでもよい。
以下は、符号化されたピクチャセグメントの例示として、タイルを利用して、実施形態を記載する。実施形態は等価的にスライス、GOBなどのような他のセグメントのタイプに適用されてもよい。
図5は、実施形態に基づくタイル化のピクチャの図面である。
図5を参照し、実施形態において、符号化されたピクチャ(501)は、3つのタイルビットストリーム(502、504、506)に分けられ、再構築ピクチャ(508)において、それぞれ3つの空間領域(509、510、511)を示す。該例示において、各タイルはタイルヘッダ(503、505、507)を利用できる。該例示は3つのタイルを利用するが、例示を3つのタイルより多くまたは少なくするようにすることは、当業者にとって容易である。各タイルは、そのヘッダ以外、さらに走査順序に従って配置される1つまたは複数の符号化ユニットCUを有してもよい。つまり、タイルのビットストリーム(502、504または506)のうちの、順序が連続である符号化ユニットに対して、符号化ユニットがカバーする領域は、後続の符号化ユニットを前の符号化ユニットの右側及び底部に位置させるように配置され、原則として、陰極線管(CRT)の線により確立された走査順序に従う。統一サイズと異なるサイズの符号化ユニットに対して、符号化ユニットの走査順序は当業者にとって容易に熟知する。
既知のビデオ符号化技術または基準に基づき、再構築ピクチャ(508)の空間表現に示すように、タイル境界に渡るいくつかの形式の予測のみを許可する。例えば、メタデータに基づく予測(例えばフレーム内予測モード、動きベクトルなど)である、あるいはサンプル予測(例えば、フレーム内予測に使用する予測サンプル、またはIBC予測のためのサンプルデータ)であるように、H.265のタイルは、符号化されたピクチャにおける全ての形式の予測を分断する。H.265の、動きが制限されたタイルセットはさらに、現在タイルセットの外部の参照ピクチャにおける空間領域から動き補償することによるサンプル値の導入を分断する。このような場合、動きが制限されたタイルセットは、独立セグメント復号化モードを有効にするH.263の矩形スライスに相当する。
これらの制限条件セットは歴史的には、いくつかの(限られた)アプリケーションシナリオを認識した後、これらのシナリオ、及びハードウェアの実現に関するいくつかの制約に応答して決定されていた。ただし、新たな符号化ツールの導入、追加符号化効率に対する増加需求、及び追加アプリケーションシナリオに対する認識によって、異なる形式の予測の中断に対して、ブロック境界のセマンティックに対する、より柔軟な定義が望まれる。
図6A及び図6Bは、実施形態に基づく、ピクチャセグメンテーションのための並行復号器システムの図面である。
図5及び図6Aを参照し、システム(600a)を示し、3つの空間領域(509、510、511)はいずれも大きい領域をカバーするため、単一の復号器によって復号化することができない。このような場合、システム(600a)を利用でき、システム(600a)は複数のサブ復号器を有し、各サブ復号器は、単一符号化タイルのコンテンツを代表するためのビデオサンプルストリームを発生させる。パーサー(602)を介して、圧縮ドメインにおいて、到来するタイル状の符号化されたビデオビットストリームは、3つの空間領域(509、510、511)を代表するための符号化されたサブビットストリームに分解されることが可能である。適切なシンタックス(例えば、動きが制限されたタイルセットのH.265シンタックスを有効にする)を利用する場合、分解は、(もしあったとしても)ビットストリーム解析を上回る信号処理をほとんど必要としない相対的に軽量の処理である可能性がある。。圧縮済みの符号化されたビデオビットストリームの(相対的な)低帯域幅性質(再構築サンプルストリームに比べる)は、細線として示される。3つのサブ復号器(603、604、605)は類似する低帯域幅通信リンク(606、607、608)(細線として描画される)を介して復号化を担当する符号化されたサブビットストリームのビットを受信し、各復号器は1つの領域を、再構築タイルに復号化する。3つのサブ復号器(603、604、605)から生成された再構築タイルのサンプルは高帯域幅リンク(609、610、611)を介してステッチャ(612)に伝達される。ステッチャ(612)はタイルを単一のサンプルストリームに重合し、該単一のサンプルストリームは単一の再構築ピクチャストリーム(613)のうちの全ての再構築タイルを示す。このような場合、サブ復号器(603、604、605)は互いに通信関係を有しなくてもよく、互いの間に予測情報もサンプル情報も伝達せず、(最小)制御情報のみを交換できる。従って、このような通信関係を記載していない。
以上に基づき、当業者は相応的な符号化システムを容易に設計できるので、より詳細には描写または説明されない。
システム(600a)にあるように、定義に基づき、復号化システム(600a)のサブ復号器(602、603、604)の間には予測情報の伝達が存在せず、類似する符号器システムにもこのような通信が存在せず、このようなシステムは、独立のサブ復号器またはサブ符号器に適する。ただし、復号器及び/または符号器がサブ復号器/サブ符号器に分配されず、アプリケーション需求に基づくアプリケーションシナリオに対しても、本願は適切であるかもしれない。例えば、(この例示において3つである)空間領域が互いにセマンティック関係を有しないことが既知である場合、領域/タイル境界を超える予測により符号化効率の獲得が実現するチャンスは(あったとしても)ほとんどない。隣接するタイルからのサンプル情報(人為的な形式で)を再構築中のタイルに導入することは回避されるべきである。例えば、1つの空間領域には、1つのカメラソースからのコンテンツが含まれ、他の空間領域には、他のカメラソースからのコンテンツ、人工コンテンツ、360シナリオのうちの他の投影などが含まれると、様々な原因のコンテンツの間の関連性は小さいかまたは存在しない可能性がある。従って、システム設計で予測を利用することが技術面で可能であっても、これらの領域の間で予測を利用することは、実益がないか、またはあったとしてもほとんどない。このような状況は、動きが制限されたタイルセットをH.265に含ませる原因の1つであった。
図6Bは、少し異なるシステム設計(600b)を示す。同じように、該システムはパーサー(602)を有し、該パーサーは入ったタイル化の符号化されたビデオビットストリームを、3つのサブビットストリーム(606、607、608)に分解し、該サブビットストリームは3つのサブ復号器(603、604、605)に供給される。サブ復号器はそれぞれ再構築タイルを構築し、該再構築タイル(609、610、611)はステッチャ(612)に伝送され、該ステッチャはさらに出力再構築ピクチャストリーム(613)を構築する。ただし、該設計において、中帯域幅の適切な通信リンク(614)を介してサブ復号器(603、604、605)の間で量が有限である情報を伝達し、該中帯域幅は大量のサンプル情報を伝達するには十分ではないが、最小より多い制御情報を伝達できる(以下で詳しく記載する)。通信リンクの性質は完全接続、パス、共有メモリまたはいずれかの他の適切な通信技術であってもよい。ここで、中帯域幅通信リンク(614)として記載されたのは、サブ復号器(603、604、605)を接続するためのパスである。
当業者は容易に相応的な符号化システムを設計できる。
復号化システム(600b)は、タイル境界に渡るいくつかのタイプの予測の利用を許可する。どんなタイプの予測の利用を許可するかということは、中帯域幅通信リンク(614)の利用可能な帯域幅に大きく依存する。
第1例示において、リンク(614)は、少量のメタデータ及び極めて有限のサンプルデータ(例えば、復号化対象となる各符号化ユニット(CU)のいくつかのサンプル値)のための十分な帯域幅を有する。このような場合、いくつかのフレーム内予測メカニズムは支持されてもよいが、フレーム内ブロックコピー及び動き補償は支持されなくてもよい。H.265の動きが制限されたタイルセットは、このような状況を考量する。
第2例示において、リンク(614)は、前の復号化順序に従う単一参照ピクチャからの動き補償に関するメタデータとサンプルデータのための十分な帯域幅を有するが、帯域幅または協調能力は、フレーム内ブロックコピーを利用するには十分ではない。H.265の、非動き制限(通常)タイルセットは該状況を想定する。(過去のピクチャ)動き補償に比べると、フレーム内ブロックコピーはいくつかの実現において、より負担となるかもしれず、なぜならば、多くの実装において、フレーム内コピーは、現在ピクチャメモリにおける極近くに隣接するサンプルデータについての準並行アクセスを必要とする可能性があり、これによって、キャッシュの効率の低下を招く可能性がある(特に、IBCに対してキャッシュ設計が最適化されていない場合)。協調能力は概念面の問題をもたらす。タイルの再構築が同一の再構築ピクチャのうちの他のタイルにアクセスする必要がある場合、他のタイルのうちのIBC参照サンプルが利用可能になるまで、所与のタイルの復号化パイプラインは停滞する必要があるかもしれない。ここまで、本明細書の論述はタイルに着目しているが、このような状況に対して、注意すべきは、いくつかの実現において、これらのセグメントがタイルではなく、走査順序に従って直線的に復号化されるスライスであれば、前記協調問題は存在しないが、いつくかの実現でメモリのアクセスの問題が依然として問題になるかもしれないことである。
第3例示において、リンク(614)は十分な帯域幅と協調能力を有することで、Pピクチャタイプの動き補償とIBCという両者に用いられる。このようなシナリオは、現在、H.265のコンテキストで考慮されず、以下に記載の「IPスライス」という概念の基礎である。
最後に、第4例示において、中級ビットレートリンク(614)は十分なビットレート(及び協調能力)を有することで、ビデオ技術または基準で想定された、例えばフレーム内予測、IBC、Pスタイル及びBスタイルのフレーム間予測が含まれる全ての形式の予測を支持する。いくつかの共有メモリとマルチプロセッサアーキテクチャは、このような第4シナリオを許可する。ここで、予測ツールによるタイル(または実際にはセグメント)の境界を跨いで予測ツールを利用することに対する制限は必要とされないかもしれない。
なお、以上の記載は、リンク(614)の帯域幅及び/または協調能力に基づき、利用可能または不可能な予測技術の階層構造が存在すると理解できるが、このような状況は必須ではない。1つの簡単な例示を挙げて、P予測に比べると、IBCのメモリの帯域幅需求は、似たレベルにあり、B予測は2倍の帯域幅を必要とするかもしれない(且つ複数仮説予測は、より多い帯域幅を必要とするかもしれない)。ただし、システム設計のメモリの帯域幅は、双方向予測または複数仮説予測を許可する場合でも、IBCの協調面も、そのタイル境界に渡る使用を阻止するかもしれない。他のアーキテクチャ制約も存在する可能性がある。
以上の例示のハードウェアアーキテクチャは組み合わせて使用されてもよい。例えば、システム(600a)に基づきハードタイル化を行うことで、非常に大きいピクチャ(8k及び以上)を管理可能なサイズのユニットに分割する必要があるかもしれない(例えば、書き込む際、ソフトウェアとハードウェア符号器及び復号器という両者の商業の合理制限で、4kの解像度を実現できる)。これらのハードタイルにおいて(該例示において、4kの解像度である)、さらなるタイル化は有利であるかもしれなく、システム(600b)に関する1つまたは複数の技術案で実現される。
繰り返しになるが、タイル境界(または、より一般的には、セグメント境界)全体で使用される予測メカニズムの選択は、上記のようなハードウェア実装の制約だけでなく、アプリケーションのニーズによっても生じる可能性があることに注意する必要がある。場合によっては、アプリケーションとコーディング効率の観点から、タイルとセグメントの境界を横切る1つ又は複数の形式の予測を防ぐことが有利な場合がある。
従来のビデオ符号化技術及び基準において、中断される予測形式は柔軟ではなく、ほとんどの場合、様々な目的に応じる概念及びシンタックス要素に関する。H.265を例とする(以下のリストは網羅ではない)。
- IBCは特定のプロファイルが有効な場合にのみ許可され、プロファイルに関係なく、スライス/タイルの境界を越えてIBCを予測することはできない。
- 動きが制限されたタイルセットシンタックス要素を配置しない限り、動き補償は、PスライスとBスライス(タイルと関係がない)のみに対して、スライス/タイル境界を超えることを許可される。
- フレーム内予測は、スライス境界を超えることを許可されないが、タイル境界を超えることは可能である。
これらの制限のうちのいくつかのは、H.265の段階的な関与で説明できる。例えば、H.265は、H.265の最初のバージョンが発表された後に追加されており、従ってプロファイルを介して配置される必要がある(その使用をシグナリングする)。しかしながら、特定の設計上の選択が必要になった履歴に関係なく、H.265設計では、特定のセグメント境界を越えた予測メカニズムの特定の組み合わせを許可しない。H.265とその他の現在のビデオ符号化技術および基準のこの欠点は今や解決される。
ビデオ圧縮技術または基準において、セグメント境界に渡るいくつかの予測メカニズムに対する支持を変更することは、2つの影響が発生する可能性があり、この2つの影響はいずれも考量を必要とするかもしれない。
第1の影響は、ある予測メカニズムを利用する際、または利用を許可しないためある予測メカニズムを利用しない際、復号器の動作を指定する必要があることである。多くのビデオ符号化技術及び基準において、参照サンプルまたは参照メタデータの「利用可能性」を適切に定義すること、及びビットストリームにおいて、セグメント境界に渡る予測を暗黙に許可しない際に使用する推定メカニズムを介して実現される。これらのメカニズムは当業者にとって公知であり、本明細書において詳しく記載しない。
第2の影響は、ビットストリームにおいてセグメント境界渡りを許可する予測ツールを指定する必要があることである。以下、H.265における利用可能なシグナリングメカニズムに比べると、変化が最も小さいものからより汎用的なメカニズムへの順序で、該シグナリングメカニズムの選択肢が以下に記載する。
以上、システム(600b)を結合して記載したアーキテクチャに対する制約の4つの例示において、(IBCとP予測という両者を許可する)第3例示は、1つまたは複数の追加スライスタイプを導入することで実現される。
図7は、実施形態に基づくIPスライスのシンタックス要素のシンタックス及びセマンティックの図面である。
同一の実施形態または他の実施形態において、本明細書において、IPスライスと呼ばれる新たなスライスタイプが導入される。IPスライスは、図7に示されるように、slice_typeの(H.265に対して)修正されたセマンティック(703)とともに、slice_segment_header()シンタックス構造(702)のうちのslice_typeシンタックス要素(701)の適切な値を利用してシグナリングされることが可能である。下線付きの文字で修正内容を表示し、追加を指示している。IPスライスタイプとIスライスとは、その全ての属性を共有でき、相違点は、IPスライスタイプはそのスライス境界に渡るIBCを許可することにある。同一の実施形態または他の実施形態において、独立復号器リフレッシュピクチャ(IDRピクチャ)はIスライスとIPスライス(704)とを有してもよい。
図8は、実施形態に基づくPIスライスのシンタックス要素のシンタックス及びセマンティックの図面である。
同一の実施形態または他の実施形態において、本明細書においてPIスライスと呼ばれる新たなスライスタイプが導入される。PIスライスは、図7に示されるように、図8に示されるようなslice_typeの修正されたセマンティック(801)とともに、slice_segment_header()シンタックス構造(702)のうちのslice_typeシンタックス要素(701)の適切な値を利用してシグナリングされることが可能である。PIスライスタイプとPスライスとはその全ての属性を共有し、相違点は、PIスライスはそのスライス境界に渡るIBCを許可することにある。
図9は、実施形態に基づくBスライスのシンタックス要素のシンタックス及びセマンティックの図面である。
同一の実施形態または他の実施形態において、本明細書において、BIスライスと呼ばれる新たなスライスタイプが導入される。BIスライスは、図7に示されるように、図9に示されるslice_typeの修正されたセマンティック(901)とともに、slice_segment_header()シンタックス構造(702)のうちのslice_typeシンタックス要素(701)の適切な値を利用してシグナリングされることが可能である。BIスライスタイプとBスライスとはその全ての属性を共有し、相違点は、BIスライスはそのスライス境界に渡るIBCを許可することにある。
図10は、実施形態に基づくBI、PI及びIPスライスのシンタックス要素のシンタックス及びセマンティックの図面である。
同一の実施形態または他の実施形態において、前記新たなスライスタイプのうちの2つまたはより複数を組み合わせるように指定できる。例示として、図10は、前記全ての3つの新たなスライスタイプが含まれるslice_typeシンタックス要素のセマンティック(1001)を示す。
同一の実施形態または他の実施形態において、伝統のI、B及びPスライスの使用は、使用中のプロファイルに関わらず、スライス境界に渡るIBC予測を許可しないように暗示できる。
図11は、実施形態に基づく、境界に渡る予測フラグのシンタックス及びセマンティックの図面である。
図11を参照し、同一の実施形態または他の実施形態において、新たなシンタックス要素ibc_across_slice_boundaries_allowed_flag(1101)及び/またはibc_across_tile_boundaries_allowed_flagが高水準シンタックス構造に導入されることが可能であり、その構造は例えばスライスセグメントヘッダ(1102)、タイルヘッダ、ピクチャパラメータセット、シーケンスパラメータセット、ピクチャヘッダ、GOPヘッダ、シーケンスヘッダまたは他のいずれかの適切な高水準シンタックス構造である。このようなフラグのセマンティックは図11に示すように、一例としてibc_across_slice_boundaries_allowed_flagにより示されることが可能である。
同一実施形態または他の実施形態において、いくつかの他の予測ツールに似たフラグを導入してもよく、フレーム内予測(intra_pred_across_slice_boundaries_allowed_flag、1104)、Pスタイル動き補償(p-prediction-across-slice-boundaries-allowed-flag、1105)、双方向予測動き補償(b-prediction-across-slice-boundaries-allowed-flag、1106)などが含まれるが、これらに限定されない。セグメントのタイプ、例えばタイル、GOBなどに関する類似のシンタックス要素は、当業者にとって容易に想到し得る。
前記1つまたは複数のフラグの符号化に対して多くの最適化を行うことができる。例えば、定義に基づき、双方向予測はBスライスのみに適用されるように許可されるので、スライスタイプがBスライスである場合、b-prediction-across-slice-slice-boundaries-allowed-flagの存在に対してゲートコントロールを行う。ビデオ符号化技術及び基準において、既に異なる(場合によって、不一致である)方式でこのような解析の依存性は符号化効率の付出に値するかどうかという問題を解決した。2つの形式はいずれも含まれる。
前記セグメント境界に渡る予測のための技術は、コンピュータ読み取り可能な命令を利用して、コンピュータソフトウェアとして実現され、物理的に1つまたは複数のコンピュータ読み取り可能な媒体に記憶される。
図12は、実施形態を実現するためのコンピュータシステム(1200)の図面である。
コンピュータソフトウェアは任意の適切なマシンコードまたはコンピュータ言語によって符号化を行って、マシンコードまたはコンピュータ言語は編集、コンパイル、リンクなどのメカニズムを介して命令が含まれるコードを構築し、該命令は1つ又は複数のコンピュータ中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)などによって直接的に実行されるか、または解釈、マイクロコード実行などによって実行される。
命令は各種タイプのコンピュータまたはその部材で実行でき、例えばパーソナルコンピュータ、タブレット、サーバ、スマートフォン、ゲーム機器、モノのインターネット機器などを含む。
図12に示すコンピュータシステム(1200)の部材は、本開示内容を実現するための実施例のコンピュータソフトウェアの使用範囲または機能に対して限定せず、本質に例示的である。部材の配置も、コンピュータシステム(1200)の例示性の実施例で示した部材におけるいずれかの部材、またはその組み合わせに関する依存性または要求を有するように解釈されるべきではない。
コンピュータシステム(1200)はいくつかのヒューマンマシンインターフェイス入力機器を含んでもよい。このようなヒューマンマシンインターフェイス入力機器は、1つ又は人ユーザーの、例えば触覚入力(例えば:キーストローク、スライド、データグローブ移動)、オーディオ入力(例えば:音声、たたくこと)、視覚入力(例えば:姿勢)、嗅覚入力(図示せず)による入力に応答できる。マンマシンインタフェース機器はさらに、必ずしも人類の意識的な入力に直接的に関していない、ある媒体例えば、オーディオ(例えば:音声、音楽、環境音)、画像(例えば:スキャン画像、静態画像撮影装置から取得された写真画像)、ビデオ(例えば2次元ビデオ、立体ビデオが含まれる3次元ビデオ)をキャプチャできる。
入力マンマシンインタフェース機器は、キーボード(1201)、マウス(1202)、タッチパッド(1203)、タッチパネル(1210)、データグローブ(1204)、ジョイスティック(1205)、マイク(1206)、スキャナ(1207)、撮影装置(1208)のうちの1つ又は複数を有してもよい(記載の各々のうちの1つのみ)。
コンピュータシステム(1200)はさらにマンマシンインタフェース出力機器を有してもよい。このようなマンマシンインタフェース出力機器は、例えば触覚出力、音、光及び匂い/味を介して1つ又は複数の人類ユーザーの感覚を刺激できる。このようなマンマシンインタフェース出力機器は触覚出力機器(例えば、タッチパネル(1210)、データグローブ(1204)またはジョイスティック(1205)による触覚フィードバック、但し入力機器として用いられない触覚フィードバック機器も存在する)、オーディオ出力機器(例えば、スピーカー(1209)、ヘッドフォン(図示せず))、視覚出力機器(例えば、スクリーン(1210)、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含み、各スクリーンはタッチパネル入力能力、触覚フィードバック能力を有してもよく、有してなくてもよく、そのうちのいくつかは、立体画像出力のような手段で、2次元の視覚を出力または3次元以上の出力を行い、バーチャルリアリティ眼鏡(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず)がある)、プリンター(図示せず)を含む。
コンピュータシステム(1200)はさらに人類がアクセスし得る記憶機器及びその関連する媒体を有してもよく、例えば、CD/DVDなどの媒体(1221)を有するCD/DVD ROM/RW(1220)を含む光学媒体、サムドライブ(1222)、取り外し可能なハードドライブまたはソリッドステートドライブ(1223)、磁気テープとフロッピーディスク(図示せず)のような伝統の磁気媒体、専用ROM/ASIC/PLDに基づく機器、例えばドングル(図示せず)などを含む。
当業者は、現在開示のテーマを結合して、使用される用語「コンピュータ読み取り可能な媒体」には伝送媒体、搬送波または他の瞬間信号が含まれないことを理解できる。
コンピュータシステム(1200)は、さらに1つ又は複数の通信ネットワークのインタフェースを有してもよい。ネットワークは、例えば無線、有線、光学であってもよい。ネットワークはさらに、ロカール、広域、都市用、車両用、工業用、リアルタイム、遅延耐性ネットワークなどであってもよい。ネットワークの例示はイーサネットのようなローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどが含まれたセルラーネットワーク、有線テレビ、衛星テレビ及び地上波テレビが含まれるテレビ有線または無線広域デジタルネットワーク、CANBusが含まれる車両及び工業ネットワークなどを含む。あるネットワークは一般的に、ある汎用データポートまたは周辺バス(1249)(例えば、コンピュータシステム(1200)のUSBポート)に連結される外部ネットワークインタフェースアダプタを必要とし、他のネットワークは一般的に、以下に記載のシステムバス(例えば、PCコンピュータシステムへのイーサネットインタフェース、またはスマートフォンコンピュータシステムへのセルラーネットワークインタフェース)に連結されることで、コンピュータシステム(1200)のコアに集積される。これらのネットワークのうちのいずれかのネットワークを介して、コンピュータシステム(1200)は他のエンティティと通信できる。このような通信は一方向で受信だけ(例えば、放送テレビ)、一方向で送信だけ(例えば、あるCANbus機器へのCANbus)、または双方向である(例えば、ローカルエリアまたは広域デジタルネットワークを介して他のコンピュータシステムへ)。以上に記載のこれらのネットワーク及びネットワークインタフェースのうちの各ネットワーク及びネットワークインタフェースに、特定のプロトコル及びプロトコルスタックを利用できる。
以上に言及されたマンマシンインタフェース機器、人類がアクセスし得る記憶機器及びネットワークインターフェースは、コンピュータシステム(1200)のコア(1240)に連結できる。
コア(1240)は1つ又は複数の中央処理ユニット(CPU)(1241)、グラフィック処理ユニット(GPU)(1242)、フィールドプログラム可能なゲートアレイ(FPGA)(1243)という形式の専門プログラム可能な処理ユニット、あるタスクのためのハードウェアアクセラレータ(1244)などを含む。これらの機器は、読み取り専用メモリ(ROM)(1245)、ランダムアクセスメモリ(1246)、内部のユーザーがアクセスできないハードディスクドライブ、SSDなどのような内部大容量記憶装置(1247)とともに、システムバス(1248)を介して接続される。あるコンピュータシステムにおいて、1つ又は複数の物理プラグという形式で、システムバス(1248)にアクセスすることで、別のCPU、GPUなどによって拡張できる。周囲機器は直接的または周辺バス(1249)を介してコアのシステムバス(1248)に連結される。周辺バスのアーキテクチャはPCI、USBなどを含む。
CPU(1241)、GPU(1242)、FPGA(1243)及びアクセラレータ(1244)はいくつかの命令を実行でき、これらの命令を組み合わせて、以上に言及されたコンピュータコードを構成する。該コンピュータコードはROM(1245)またはRAM(1246)に記憶される。移行データはRAM(1246)に記憶され、永久データは、例えば内部大容量記憶装置(1247)に記憶されてもよい。キャッシュメモリによってメモリ機器のうちのいずれかのメモリ機器の快速記憶及び検索を実現でき、該キャッシュメモリは1つ又は複数のCPU(1241)、GPU(1242)、大容量記憶装置(1247)、ROM(1245)、RAM(1246)などに密接に関連できる。
コンピュータ読み取り可能な媒体は、コンピュータが実現する各種操作を実行するためのコンピュータコードを有する。媒体とコンピュータコードとは、本開示内容の目的のために、専門に設計され及び構築された媒体とコンピュータコードであってもよいし、またはコンピュータソフトウェアの当業者にとって、公知且つ利用可能なタイプであってもよい。
限定ではなく例示として、アーキテクチャ(1200)を有するコンピュータシステム、特にコア(1240)は、プロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)が1つ又は複数の有形コンピュータ読み取り可能な媒体に体現されるソフトウェアを実行することで、機能を提供できる。このようなコンピュータ読み取り可能な媒体は、以上に紹介された、ユーザがアクセスし得る大容量記憶装置に関する媒体、及び非一時的なコア(1240)を有する、コア内部大容量記憶装置(1247)またはROM(1245)のような記憶装置であってもよい。本開示内容を実現するための各種実施例のソフトウェアはこのような機器に記憶され、コア(1240)に実行される。特定の需要に応じて、コンピュータ読み取り可能な媒体には1つ又は複数の記憶機器またはチップが含まれてもよい。ソフトウェアはコア(1240)、特にそのうちのプロセッサ(CPU、GPU、FPGAなどが含まれた)に、本明細書に記載の特定プロセスまたは特定プロセスの特定部分を実行させ、RAM(1246)に記憶されるデータ構成を限定すること、及びソフトウェアにより限定されたプロセスに基づき、このようなデータ構成を修正することが含まれる。また或いは代わりとして、コンピュータシステムは、論理的な固定接続または他の方式で回路(例えば、アクセラレータ(1244))に体現されることで機能を提供し、該回路は、ソフトウェアの代わりとして、またはソフトウェアとともに操作することで、本明細書に記載の特定プロセスまたは特定プロセスの特定部分を実行できる。適切な場合、言及のソフトウェアにはロジックが含まれ、逆に、言及ロジックにはソフトウェアが含まれてもよい。適切な場合、言及のコンピュータ読み取り可能な媒体には、実行するためのソフトウェアが記憶される回路(例えば、集積回路(IC))、実行するためのロジックを体現する回路、或いは前記両者が含まれてもよい。本開示内容にはハードウェアとソフトウェアとの任意の適切な組み合わせが含まれる。
図13は、実施形態に基づく、符号化されたピクチャを復号化する方法(1300)のフロ一チヤ一卜である。前記符号化されたピクチャは第1セグメントと第2セグメントとの符号化されたビデオシーケンスを有し、いくつかの実現方式において、図13の1つまたは複数の処理ブロックは復号器(310)によって実行される。いくつかの実現方式において、図13の1つまたは複数の処理ブロックは、復号器(310)と分けられるか、または復号器(310)が含まれる他の機器または1組の機器(例えば、符号器303)によって実行される。
図13を参照し、第1ブロック(1310)において、方法(1300)は、少なくとも第1セグメントと第2セグメントに適用される高水準シンタックス構造の第1シンタックス要素に基づき、第1セグメントを復号化するための第1復号化処理を決定するステップを有し、該第1シンタックス要素は第1予測を許可しないように指示し、第1復号化処理は第1予測を許可しない。
第2ブロック(1320)において、方法(1300)は、少なくとも高水準シンタックス構造の第2シンタックス要素に基づき、第2セグメントを復号化するための第2復号化処理を決定するステップを有し、該第2予測は第1予測と異なり、該第2シンタックス要素は第2予測を許可しないように指示し、第2復号化処理は前記第2予測を許可しない。
第3ブロック(1330)において、方法(1300)は、第1予測を許可しない第1復号化処理に基づき、第1セグメントを復号化するステップを有する。
第4ブロック(1340)において、方法(1300)は、第2予測を許可しない第2復号化処理に基づき、第2セグメントを復号化するステップを有する。
第1セグメントと第2セグメントのうちの少なくとも1つはスライスを有してもよい。
第1セグメントと第2セグメントのうちの少なくとも1つはタイルを有してもよい。
第1セグメントと第2セグメントのうちの少なくとも1つはブロックグループを有してもよい。
第1予測は、セグメント境界に渡るフレーム内ブロックコピー、セグメント境界に渡るフレーム内予測、セグメント境界に渡る予測ピクチャ予測、及びセグメント境界に渡る双予測ピクチャ予測のうちのいずれか1つを含んでもよく、第2予測は、セグメント境界に渡るフレーム内ブロックコピー、前記セグメント境界に渡るフレーム内予測、前記セグメント境界に渡る予測ピクチャ予測、及びセグメント境界に渡る双予測ピクチャ予測のうちのいずれか1つを含んでもよい。
第1シンタックス要素と第2シンタックス要素のうちの各シンタックス要素は、高水準シンタックス構造のフラグであってもよい。
高水準シンタックス構造は第1セグメントと第2セグメントのうちの各セグメントヘッダにあってもよい。
高水準シンタックス構造はピクチャパラメータセットとシーケンスパラメータセットのうちの1つであってもよい。
高水準シンタックス構造は、ピクチャヘッダ、ブロックグループヘッダ及びシーケンスヘッダのうちのいずれか1つであってもよい。
図13は、方法(1300)の例示ブロックを示すが、いくつかの実現において、図13に描画されたこれらのブロックに比べると、方法(1300)は別のブロック、より少ないブロック、異なるブロック、または異なるように配置されるブロックを含んでもよい。追加、または代わりとして、方法(1300)のブロックのうちの2つ、またはより複数を並行に実行できる。
また、提出された方法は、処理回路(例えば、1つまたは複数のプロセッサ、或いは1つまたは複数の集積回路)によって実現される。例示において、1つまたは複数のプロセッサは、非一時的なコンピュータ読み取り可能な媒体に記憶されるプログラムを実行することで、提出された方法のうちの1つまたは複数の方法を実行する。
図14は、実施形態に基づく、符号化されたピクチャを復号化するための機器(1400)の簡略化ブロック図であり、前記符号化されたピクチャは第1セグメントと第2セグメントとの符号化されたビデオシーケンスを有する。
図14を参照し、機器(1400)は第1決定コード(1410)と、第2決定コード(1420)と、第1復号化コード(1430)と、第2復号化コード(1440)とを有する。
図14を参照し、第1決定コード(1410)は、少なくとも第1セグメントと第2セグメントに適用される高水準シンタックス構造の第1シンタックス要素に基づき、第1セグメントを復号化するための第1復号化処理を決定するように配置され、該第1シンタックス要素は第1予測を許可しないように指示する。
第2決定コード(1420)は、少なくとも高水準シンタックス構造の第2シンタックス要素に基づき、第2セグメントを復号化するための第2復号化処理を決定するように配置され、第2予測は第1予測と異なり、該第2シンタックス要素は第2予測を許可しないように指示し、前記第2復号化処理は前記第2予測を許可しない。
第1復号化コード(1430)は、第1予測を許可しない第1復号化処理に基づき、第1セグメントを復号化するように配置される。
第2復号化コード(1440)は、第2予測を許可しない第2復号化処理に基づき、第2セグメントを復号化するように配置される。
第1セグメントと第2セグメントのうちの少なくとも1つはスライスを有してもよい。
第1セグメントと第2セグメントのうちの少なくとも1つはタイルを有してもよい。
第1セグメントと第2セグメントのうちの少なくとも1つはブロックグループを有してもよい。
第1予測は、セグメント境界に渡るフレーム内ブロックコピー、セグメント境界に渡るフレーム内予測、セグメント境界に渡る予測ピクチャ予測、及びセグメント境界に渡る双予測ピクチャ予測のうちのいずれか1つを含み、第2予測は、前記セグメント境界に渡るフレーム内ブロックコピー、前記セグメント境界に渡るフレーム内予測、前記セグメント境界に渡る予測ピクチャ予測、及び前記セグメント境界に渡る双予測ピクチャ予測のうちの異なる1つを含む。
第1シンタックス要素と第2シンタックス要素のうちの各シンタックス要素は、高水準シンタックス構造のフラグであってもよい。
高水準シンタックス構造は第1セグメントと第2セグメントのうちの各々セグメントヘッダにあってもよい。
高水準シンタックス構造はピクチャパラメータセットとシーケンスパラメータセットのうちの1つであってもよい。
高水準シンタックス構造は、ピクチャヘッダ、ブロックグループヘッダ及びシーケンスヘッダのうちのいずれか1つであってもよい。
前記技術はコンピュータ読み取り可能な命令を利用してコンピュータソフトウェアとして実現され、物理的に1つまたは複数のコンピュータ読み取り可能な媒体に記憶されてもよい。
本開示内容には若干の例示性の実施例が記載されているが、本開示内容の範囲内にある変更、置き換え及び様々な置換等価物が存在する。従って、本明細書には明らかに記載されていないが、本開示内容の原理を体現し本開示内容の精神及び範囲内に属する多いシステム及び方法は、当業者にとって想到し得る。

Claims (17)

  1. 符号化されたビデオシーケンスの、符号化されたピクチャを復号する方法であって、前記符号化されたピクチャは、第1セグメントと第2セグメントを含み、前記方法は少なくとも1つのプロセッサにより実行され、前記方法は、
    少なくとも第1シンタックス要素に基づき、前記第1セグメントを復号するための第1復号処理を決定するステップであって、前記第1シンタックス要素第1予測を許可しないように指示している場合、前記第1復号処理は前記第1予測を許可しないステップと、
    少なくとも第2シンタックス要素に基づき、前記第2セグメントを復号するための第2復号処理を決定するステップであって、前記第2シンタックス要素が前記第1予測とは異なる第2予測を許可しないように指示している場合、前記第2復号処理は前記第2予測を許可しないステップと、
    前記第1予測を許可しない前記第1復号処理に基づき、前記第1セグメントを復号するステップと、
    前記第2予測を許可しない前記第2復号処理に基づき、前記第2セグメントを復号するステップとを含み、
    前記第1及び第2シンタックス要素がそれぞれ第1及び第2予測を許可するように指示している場合、前記第1及び前記第2復号処理の協調により、前記第1及び第2セグメントが復号され、
    前記第1予測は、セグメント境界に渡るフレーム内ブロックコピー、セグメント境界に渡るフレーム内予測、セグメント境界に渡る予測ピクチャ予測、及びセグメント境界に渡る双予測ピクチャ予測のうちの何れか1つであり、
    前記第2予測は、前記セグメント境界に渡るフレーム内ブロックコピー、前記セグメント境界に渡るフレーム内予測、前記セグメント境界に渡る予測ピクチャ予測、及び前記セグメント境界に渡る双予測ピクチャ予測のうちの何れか1つである、方法。
  2. 前記第1セグメントと前記第2セグメントの少なくとも1つは、スライスを含む請求項1に記載の方法。
  3. 前記第1セグメントと前記第2セグメントの少なくとも1つは、タイルを含む請求項1に記載の方法。
  4. 前記第1セグメントと前記第2セグメントにおける少なくとも1つは、ブロックグループを含む請求項1に記載の方法。
  5. 前記第1シンタックス要素と前記第2シンタックス要素における各シンタックス要素はフラグである請求項1乃至4のうちの何れか1項に記載の方法。
  6. 前記第1シンタックス要素と前記第2シンタックス要素は、前記第1セグメントと前記第2セグメントの各セグメントヘッダにある請求項1に記載の方法。
  7. 前記第1シンタックス要素と前記第2シンタックス要素は、ピクチャパラメータセットとシーケンスパラメータセットのうちの1つにある請求項1に記載の方法。
  8. 前記第1シンタックス要素と前記第2シンタックス要素は、ピクチャヘッダ、ブロックグループヘッダ及びシーケンスヘッダのうちの1つにある請求項1に記載の方法。
  9. 符号化されたビデオシーケンスの、符号化されたピクチャを復号するための機器であって、前記符号化されたピクチャは第1セグメントと第2セグメントを含み、前記機器は、
    コンピュータプログラムコードを記憶するように構成される少なくとも1つのメモリと、
    前記少なくとも1つのメモリにアクセスするとともに、前記コンピュータプログラムコードに基づき動作するように構成される少なくとも1つのプロセッサとを備え、
    前記コンピュータプログラムコードは、
    前記少なくとも1つのプロセッサに、少なくとも第1シンタックス要素に基づき、前記第1セグメントを復号するための第1復号処理を決定させるように構成される第1決定コードであって、前記第1シンタックス要素第1予測を許可しないように指示している場合、前記第1復号処理は前記第1予測を許可しない第1決定コードと、
    前記少なくとも1つのプロセッサに、少なくとも第2シンタックス要素に基づき、前記第2セグメントを復号するための第2復号処理を決定させるように構成される第2決定コードであって、前記第2シンタックス要素が前記第1予測とは異なる第2予測を許可しないように指示している場合、前記第2復号処理は前記第2予測を許可しない第2決定コードと、
    前記少なくとも1つのプロセッサに、前記第1予測を許可しない前記第1復号処理に基づき、前記第1セグメントを復号させるように構成される第1復号化コードと、
    前記少なくとも1つのプロセッサに、前記第2予測を許可しない前記第2復号処理に基づき、前記第2セグメントを復号させるように構成される第2復号化コードとを備え、
    前記第1及び第2シンタックス要素がそれぞれ第1及び第2予測を許可するように指示している場合、前記第1及び前記第2復号処理の協調により、前記第1及び第2セグメントが復号され、
    前記第1予測は、セグメント境界に渡るフレーム内ブロックコピー、セグメント境界に渡るフレーム内予測、セグメント境界に渡る予測ピクチャ予測、及びセグメント境界に渡る双予測ピクチャ予測のうちの何れか1つであり、
    前記第2予測は、前記セグメント境界に渡るフレーム内ブロックコピー、前記セグメント境界に渡るフレーム内予測、前記セグメント境界に渡る予測ピクチャ予測、及び前記セグメント境界に渡る双予測ピクチャ予測のうちの何れか1つである、機器。
  10. 前記第1セグメントと前記第2セグメントの少なくとも1つは、スライスを含む請求項9に記載の機器。
  11. 前記第1セグメントと前記第2セグメントの少なくとも1つは、タイルを含む請求項9に記載の機器。
  12. 前記第1セグメントと前記第2セグメントにおける少なくとも1つは、ブロックグループを含む請求項9に記載の機器。
  13. 前記第1シンタックス要素と前記第2シンタックス要素における各シンタックス要素はフラグである請求項9乃至12のうちの何れか1項に記載の機器。
  14. 前記第1シンタックス要素と前記第2シンタックス要素は、前記第1セグメントと前記第2セグメントの各セグメントヘッダにある請求項9に記載の機器。
  15. 前記第1シンタックス要素と前記第2シンタックス要素は、ピクチャパラメータセットとシーケンスパラメータセットのうちの1つにある請求項9に記載の機器。
  16. 前記第1シンタックス要素と前記第2シンタックス要素は、ピクチャヘッダ、ブロックグループヘッダ及びシーケンスヘッダのうちの1つにある請求項9に記載の機器。
  17. コンピュータに請求項1~8の何れか一項に記載の方法を実行させるコンピュータプログラム。
JP2021506396A 2018-09-05 2019-08-16 ピクチャの復号のための方法、機器及びコンピュータプログラム Active JP7128953B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862727381P 2018-09-05 2018-09-05
US62/727,381 2018-09-05
US16/202,949 2018-11-28
US16/202,949 US10375416B1 (en) 2018-09-05 2018-11-28 Segment types in video coding
US16/454,545 2019-06-27
US16/454,545 US10694215B2 (en) 2018-09-05 2019-06-27 Segment types in video coding
PCT/US2019/046793 WO2020050962A1 (en) 2018-09-05 2019-08-16 Segment types in video coding

Publications (2)

Publication Number Publication Date
JP2021520173A JP2021520173A (ja) 2021-08-12
JP7128953B2 true JP7128953B2 (ja) 2022-08-31

Family

ID=67477631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021506396A Active JP7128953B2 (ja) 2018-09-05 2019-08-16 ピクチャの復号のための方法、機器及びコンピュータプログラム

Country Status (6)

Country Link
US (2) US10375416B1 (ja)
EP (1) EP3847806A4 (ja)
JP (1) JP7128953B2 (ja)
KR (2) KR20230114325A (ja)
CN (2) CN116567255A (ja)
WO (1) WO2020050962A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113966612A (zh) * 2019-06-16 2022-01-21 北京字节跳动网络技术有限公司 屏幕内容编解码根据与运动信息之间的相互作用
US11758193B2 (en) * 2019-11-04 2023-09-12 Hfi Innovation Inc. Signaling high-level information in video and image coding
US20230137221A1 (en) * 2020-04-02 2023-05-04 Telefonaktiebolaget Lm Ericsson (Publ) Decoding based on bi-directional picture condition
WO2023118309A1 (en) * 2021-12-21 2023-06-29 Interdigital Vc Holdings France, Sas Gdr interaction with template based tools in inter slice
WO2023118280A1 (en) * 2021-12-21 2023-06-29 Interdigital Vc Holdings France, Sas Gdr interaction with template based tools in intra slice
US20230403404A1 (en) * 2022-06-10 2023-12-14 Qualcomm Incorporated Storing misaligned reference pixel tiles
US20240007670A1 (en) * 2022-07-01 2024-01-04 Tencent America LLC Dynamic mesh vertex displacements coding

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130107952A1 (en) 2011-10-26 2013-05-02 Qualcomm Incorporated Unified design for picture partitioning schemes
WO2013150943A1 (ja) 2012-04-06 2013-10-10 ソニー株式会社 復号装置および復号方法、並びに、符号化装置および符号化方法
WO2015098020A1 (ja) 2013-12-27 2015-07-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像符号化方法、画像復号方法、画像符号化装置及び画像復号装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012028863A (ja) * 2010-07-20 2012-02-09 Hitachi Kokusai Electric Inc 動画像符号化装置
US9060174B2 (en) * 2010-12-28 2015-06-16 Fish Dive, Inc. Method and system for selectively breaking prediction in video coding
CN105144720B (zh) * 2013-01-04 2018-12-28 Ge视频压缩有限责任公司 高效可伸缩编码概念
US10021414B2 (en) 2013-01-04 2018-07-10 Qualcomm Incorporated Bitstream constraints and motion vector restriction for inter-view or inter-layer reference pictures
US9648335B2 (en) 2013-07-12 2017-05-09 Qualcomm Incorporated Bitstream restrictions on picture partitions across layers
US20150016503A1 (en) * 2013-07-15 2015-01-15 Qualcomm Incorporated Tiles and wavefront processing in multi-layer context
US10313682B2 (en) * 2013-08-26 2019-06-04 Qualcomm Incorporated Determining regions when performing intra block copying
CN106464893B (zh) * 2014-03-17 2019-12-03 诺基亚技术有限公司 用于视频编码和解码的装置、方法和计算机程序
JP2017525215A (ja) * 2014-06-19 2017-08-31 シャープ株式会社 復号方法
US10327001B2 (en) * 2014-06-19 2019-06-18 Qualcomm Incorporated Systems and methods for intra-block copy
US10404992B2 (en) * 2015-07-27 2019-09-03 Qualcomm Incorporated Methods and systems of restricting bi-prediction in video coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130107952A1 (en) 2011-10-26 2013-05-02 Qualcomm Incorporated Unified design for picture partitioning schemes
WO2013150943A1 (ja) 2012-04-06 2013-10-10 ソニー株式会社 復号装置および復号方法、並びに、符号化装置および符号化方法
WO2015098020A1 (ja) 2013-12-27 2015-07-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像符号化方法、画像復号方法、画像符号化装置及び画像復号装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
High efficiency video coding,Recommendation ITU-T H.265,H.265 (04/2015),ITU-T,2015年04月,pp.44-46,89-94,273,324-327

Also Published As

Publication number Publication date
US20200077119A1 (en) 2020-03-05
KR102558961B1 (ko) 2023-07-25
CN116567255A (zh) 2023-08-08
EP3847806A1 (en) 2021-07-14
WO2020050962A1 (en) 2020-03-12
KR20200125744A (ko) 2020-11-04
CN113273185B (zh) 2023-04-25
US10694215B2 (en) 2020-06-23
CN113273185A (zh) 2021-08-17
EP3847806A4 (en) 2022-06-08
US10375416B1 (en) 2019-08-06
JP2021520173A (ja) 2021-08-12
KR20230114325A (ko) 2023-08-01

Similar Documents

Publication Publication Date Title
JP7164728B2 (ja) 参照画像リサンプリングのためのシグナリング
JP7128953B2 (ja) ピクチャの復号のための方法、機器及びコンピュータプログラム
JP7321286B2 (ja) 様々な色度フォーマットをサポートするビデオコーディングツールのシグナリング
JP7332751B2 (ja) イントラモード符号化のための方法、装置及びコンピュータプログラム
KR20200124736A (ko) 비디오 코딩을 위한 방법 및 장치
KR20200134224A (ko) 비디오 디코딩을 위한 방법, 장치 및 매체
JP2023126928A (ja) マルチラインイントラ予測に対するmpmリスト生成を実現するための方法、装置、及びコンピュータプログラム
AU2023201375B2 (en) Signaling of adaptive picture size in video bitstream
AU2020348846B2 (en) Signaling of inter layer prediction in video bitstream
JP7177179B2 (ja) 簡略化された最確モードリスト生成スキーム
KR20200125733A (ko) 비디오 코딩을 위한 방법 및 장치
CN110784711A (zh) 生成用于视频序列编码或解码的合并候选列表的方法、装置
JP7302044B2 (ja) イントラインター予測を制御する方法、エンコーダ、デコーダ、及びプログラム
CN113424546A (zh) 用于预测模式和已编码块标志(cbf)的进一步改进的上下文设计的方法和装置
AU2020351200B2 (en) Signaling of inter layer prediction in video bitstream
JP7318087B2 (ja) マルチラインイントラ予測のためのモードリストを生成する方法、並びにその装置及びコンピュータプログラム
JP2022525299A (ja) スケーラブルなビデオストリームにおける出力層セット信号伝達のための方法、装置およびプログラム
JP2023165926A (ja) ビデオ符号化のための方法、装置、媒体およびコンピュータ・プログラム
JP7254188B2 (ja) 点群符号化のためのパラメータセット設計の方法並びにその装置及びプログラム
JP7061202B2 (ja) フレキシブルなツリー構造における連結符号化単位
JP2023549185A (ja) ビデオ復号のための方法、装置及びコンピュータプログラム
JP7413532B2 (ja) ルマブロックのための改善されたデルタ角度シグナリング方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220819

R150 Certificate of patent or registration of utility model

Ref document number: 7128953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150