JP2023543587A - 補足強化情報メッセージを再サンプリングするワーピングベースの復号ピクチャ - Google Patents

補足強化情報メッセージを再サンプリングするワーピングベースの復号ピクチャ Download PDF

Info

Publication number
JP2023543587A
JP2023543587A JP2023519385A JP2023519385A JP2023543587A JP 2023543587 A JP2023543587 A JP 2023543587A JP 2023519385 A JP2023519385 A JP 2023519385A JP 2023519385 A JP2023519385 A JP 2023519385A JP 2023543587 A JP2023543587 A JP 2023543587A
Authority
JP
Japan
Prior art keywords
warping
picture
video
current
sei message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023519385A
Other languages
English (en)
Inventor
ビョンドゥ・チェ
ステファン・ヴェンガー
シアン・リ
シャン・リュウ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023543587A publication Critical patent/JP2023543587A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本開示の態様は、ビデオ復号のための方法、装置、および非一時的コンピュータ可読記憶媒体を提供する。装置は、ビットストリームに基づいて現在のピクチャを復号するように構成された処理回路を含む。処理回路は、補足強化情報(SEI)メッセージから、ワーピングプロセスが現在の復号ピクチャに適用されるかどうかを示す第1のフラグを決定することができる。ワーピングプロセスが現在の復号ピクチャに適用されることを示す第1のフラグに基づいて、処理回路は、SEIメッセージに基づいてワーピングプロセスのワーピング情報を決定することができる。処理回路は、ワーピング情報に基づいて、現在の復号ピクチャからワーピングピクチャを決定することができる。

Description

本出願は、2021年6月28日に出願された米国仮出願第63/215,906号「コーディングビデオストリームのためのSEIメッセージを再サンプリングするワーピングベースの復号ピクチャのための技術」に対する優先権の利益を主張する、2022年6月27日に出願された米国特許出願第17/850,641号「補足強化情報メッセージを再サンプリングするワーピングベースの復号ピクチャ」に対する優先権の利益を主張する。先行出願の開示は、その全体が参照により本明細書に組み込まれる。
本開示は、一般に、ビデオコーディングに関係する実施形態を記載する。
本明細書において提供される背景技術の説明は、本開示の文脈を大まかに提示することを目的としている。本発明者らの研究は、この背景技術の項に記載されている限りにおいて、ならびに出願時に先行技術として認められない可能性がある説明の態様は、本開示に対する先行技術として明示的にも暗示的にも認められない。
画像および/またはビデオのコーディングおよび復号は、動き補償を伴うインターピクチャ予測を使用して実行されることが可能である。非圧縮デジタル画像および/またはビデオは一連のピクチャを含むことができ、各ピクチャは、例えば、1920×1080の輝度サンプルおよび関連する彩度サンプルの空間次元を有する。一連のピクチャは、例えば毎秒60ピクチャまたは60Hzの固定または可変のピクチャレート(非公式にはフレームレートとしても知られる)を有することができる。非圧縮画像および/またはビデオは、特定のビットレート要件を有する。例えば、サンプルあたり8ビットの1080p60 4:2:0ビデオ(60Hzのフレームレートで1920×1080の輝度サンプル解像度)は、1.5Gbit/sに近い帯域幅を必要とする。そのようなビデオの1時間は、600ギガバイトを超える記憶空間を必要とする。
画像および/またはビデオのコーディングおよび復号の1つの目的は、圧縮による入力画像および/またはビデオ信号の冗長性の低減であり得る。圧縮は、前述の帯域幅および/または記憶空間要件を、場合によっては2桁以上低減するのに役立ち得る。本明細書の説明は、説明例としてビデオ符号化/復号を使用するが、同じ技術は、本開示の趣旨から逸脱することなく、同様のやり方で画像の符号化/復号に適用されることが可能である。可逆圧縮と非可逆圧縮の両方、およびそれらの組み合わせを採用することが可能である。可逆圧縮とは、元の信号の正確なコピーを圧縮された元の信号から再構成することができる技術を指す。非可逆圧縮を使用すると、再構成された信号は元の信号と同一ではない可能性があるが、元の信号と再構成された信号との間の歪みは、再構成された信号を目的の用途に有用なものにするほど十分小さい。ビデオの場合、非可逆圧縮が広く採用されている。許容される歪みの量は用途に依存し、例えば、特定の消費者ストリーミング用途のユーザは、テレビ配信用途のユーザよりも高い歪みを許容し得る。達成可能な圧縮比は、より高い容認可能/許容可能な歪みが、より高い圧縮比をもたらし得ることを反映し得る。
ビデオエンコーダおよびデコーダは、例えば、動き補償、変換、量子化、およびエントロピーコーディングを含む、いくつかの広範なカテゴリからの技術を利用し得る。
ビデオコーデック技術は、イントラコーディングとして知られる技術を含み得る。イントラコーディングでは、サンプル値は、以前に再構成された参照ピクチャからのサンプルまたは他のデータを参照することなく表される。一部のビデオコーデックでは、ピクチャは空間的にサンプルのブロックに細分化される。サンプルのすべてのブロックがイントラモードでコーディングされるとき、そのピクチャはイントラピクチャであり得る。イントラピクチャ、および独立デコーダリフレッシュピクチャなどのそれらの派生物は、デコーダ状態をリセットするために使用することができ、したがって、コーディングビデオビットストリームおよびビデオセッション内の最初のピクチャとして、または静止画像として使用し得る。イントラブロックのサンプルは変換にさらされる可能性があり、変換係数はエントロピーコーディングの前に量子化され得る。イントラ予測は、変換前領域内のサンプル値を最小化する技術であり得る。場合によっては、変換後のDC値が小さいほど、およびAC係数が小さいほど、エントロピーコーディング後のブロックを表すために所与の量子化ステップのサイズにおいて必要とされるビットは少なくなる。
例えば、MPEG-2生成コーディング技術から知られているような従来のイントラコーディングは、イントラ予測を使用しない。しかしながら、いくつかのより新しいビデオ圧縮技術は、例えば、空間的に隣接し、復号順で先行するデータのブロックの符号化/復号の間に取得される周囲のサンプルデータおよび/またはメタデータから試行する技術を含む。このような技術は、以後「イントラ予測」技術と呼ばれる。少なくともいくつかの場合に、イントラ予測は再構成中の現在のピクチャからの参照データのみを使用し、参照ピクチャからは使用しないことに留意されたい。
イントラ予測には多くの異なる形式があり得る。そのような技術のうちの2つ以上が所与のビデオコーディング技術において使用され得るとき、使用中の技術は、イントラ予測モードでコーディングされ得る。特定の場合には、モードはサブモードおよび/またはパラメータを有することができ、それらを個別にコーディングされ得るか、またはモードコードワードに含まれ得る。所与のモード、サブモード、および/またはパラメータの組合せに、どのコードワードを使用するかは、イントラ予測を介したコーディング効率向上に影響を与える可能性があり、そのため、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術も影響を与える可能性がある。
イントラ予測の特定のモードは、H.264で導入され、H.265において改良され、共同探索モデル(JEM)、多用途ビデオコーディング(VVC)、およびベンチマークセット(BMS)などのより新しいコーディング技術においてさらに改良された。予測器ブロックは、すでに利用可能なサンプルに属する隣接サンプル値を使用して形成することができる。隣接サンプルのサンプル値は、方向にしたがって予測器ブロックにコピーされる。使用中の方向への参照は、ビットストリーム内でコーディングされ得るか、またはそれ自体が予測され得る。
図1Aを参照すると、右下に描写されているのは、H.265の(35個のイントラモードのうちの33個の角度モードに対応する)33個の可能な予測器方向から知られる9つの予測器方向のサブセットである。矢印が収束する点(101)は、予測されているサンプルを表す。矢印は、そこからサンプルが予測されている方向を表す。例えば、矢印(102)は、サンプル(101)が水平から45度の角度で右上にある1つまたは複数のサンプルから予測されることを示す。同様に、矢印(103)は、サンプル(101)が水平から22.5度の角度でサンプル(101)の左下にある1つまたは複数のサンプルから予測されることを示す。
さらに図1Aを参照すると、左上には、(太い破線によって示された)4×4サンプルの正方形ブロック(104)が描写されている。正方形ブロック(104)は16個のサンプルを含み、各々、「S」、Y次元のその位置(例えば、行インデックス)、およびX次元のその位置(例えば、列インデックス)でラベル付けされている。例えば、サンプルS21は、Y次元の(上から)2番目のサンプルであり、X次元の(左から)1番目のサンプルである。同様に、サンプルS44は、ブロック(104)のY次元およびX次元の両方において4番目のサンプルである。ブロックはサイズが4×4サンプルなので、S44は右下にある。同様の番号付け方式に従う参照サンプルがさらに示されている。参照サンプルは、ブロック(104)に対してR、そのY位置(例えば、行インデックス)、およびX位置(列インデックス)でラベル付けされている。H.264およびH.265の両方において、予測サンプルは再構成中のブロックに隣接するので、負の値が使用される必要はない。
イントラピクチャ予測は、シグナリングされた予測方向に応じて、隣接サンプルからの参照サンプル値をコピーすることによって機能することができる。例えば、コーディングビデオビットストリームが、このブロックに関して、矢印(102)と一致する予測方向を示すシグナリングを含む、すなわち、サンプルが水平から45度の角度で右上にある1つまたは複数の予測サンプルから予測されると仮定する。その場合、同じ参照サンプルR05からサンプルS41、S32、S23、およびS14が予測される。次いで、参照サンプルR08からサンプルS44が予測される。
特定の場合には、特に方向が45度で均等に割り切れないときに、参照サンプルを計算するために、複数の参照サンプルの値が、例えば補間によって組み合わされてもよい。
可能な方向の数は、ビデオコーディング技術が発展するにつれて増加している。H.264(2003年)では、9つの異なる方向を表すことができた。それがH.265(2013年)では33に増加し、本開示の時点では、JEM/VVC/BMSは最大65の方向をサポートすることができる。最も可能性が高い方向を識別するための実験が行われており、エントロピーコーディングの特定の技術は、それらの可能性が高い方向を少数のビットで表すために使用され、可能性が低い方向に関しては一定のペナルティを受け入れている。さらに、方向自体は、隣接するすでに復号されたブロックで使用された隣接方向から予測され得る場合もある。
図1Bは、経時的に増加する予測方向の数を示すためにJEMによる65のイントラ予測方向を示す概略図(110)を示す。
方向を表す、コーディングビデオビットストリーム内のイントラ予測方向ビットのマッピングは、ビデオコーディング技術ごとに異なってもよく、例えば、予測方向のイントラ予測モードへの単純な直接マッピングから、コードワード、最も可能性が高いモードを含む複雑な適応方式、および同様の技術まで及ぶ場合がある。しかしながら、すべての場合において、ビデオコンテンツ内で特定の他の方向よりも統計的に発生する可能性が低い特定の方向が存在し得る。ビデオ圧縮の目標は冗長性の低減であるため、これらの可能性の低い方向は、適切に機能しているビデオコーディング技術では、可能性の高い方向よりも多くのビット数で表される。
動き補償は、非可逆圧縮技術であり得、以前に再構成されたピクチャまたはその一部(参照ピクチャ)からのサンプルデータのブロックが、動きベクトル(以下、MV)によって示された方向に空間的にシフトされた後に、新しく再構成されるピクチャまたはピクチャの一部の予測に使用される技術に関し得る。場合によっては、参照ピクチャは、現在再構成中のピクチャと同じであり得る。MVは、2つの次元XおよびY、または3つの次元を有することができ、3番目の次元は使用中の参照ピクチャの表示である(後者は、間接的に時間次元であり得る)。
いくつかのビデオ圧縮技術では、サンプルデータの特定の領域に適用可能なMVは、他のMVから、例えば、再構成中の領域に空間的に隣接し、復号順でそのMVに先行するサンプルデータの別の領域に関連するMVから、予測され得る。そうすることで、MVをコーディングするのに必要なデータの量を大幅に削減することができ、これにより、冗長さを取り除いて圧縮率を向上させることができる。例えば、(ナチュラルビデオとして知られている)カメラから導出された入力ビデオ信号をコーディングするとき、単一のMVが適用可能な領域よりも大きい領域が同様の方向に移動する統計的尤度が存在するので、MV予測は効果的に機能することができ、したがって、場合によっては、隣接する領域のMVから導出された同様の動きベクトルを使用して予測することができる。その結果、所与の領域について検出されたMVは、周囲のMVから予測されたMVと同様または同じであり、エントロピーコーディング後、直接MVをコーディングする場合に使用されるビット数より少ないビット数で表すことができる。場合によっては、MV予測は、元の信号(すなわち、サンプルストリーム)から導出された信号(すなわち、MV)の可逆圧縮の一例であり得る。他の場合には、例えば、いくつかの周囲のMVから予測器を計算するときの丸め誤差のために、MV予測自体は非可逆であり得る。
様々なMV予測メカニズムが、H.265/HEVC(ITU-T Rec.H.265、「High Efficiency Video Coding」、2016年12月)に記載されている。H.265が提供する多くのMV予測メカニズムのうち、本明細書に記載されるのは、以降「空間マージ」と呼ばれる技術である。
図2を参照すると、現在のブロック(201)は、空間的にシフトされた同じサイズの前のブロックから予測可能であるように動き検索プロセス中にエンコーダによって見つけられたサンプルを備える。そのMVを直接コーディングする代わりに、MVは、A0、A1、およびB0、B1、B2(それぞれ、202~206)と表記された5つの周囲サンプルのいずれか1つに関連付けられたMVを使用して、1つ以上の参照ピクチャに関連付けられたメタデータから、例えば、(復号順で)最新の参照ピクチャから導出することができる。H.265では、MV予測は、隣接するブロックが使用している同じ参照ピクチャからの予測器を使用することができる。
本開示の態様は、ビデオ符号化および復号のための方法および装置を提供する。いくつかの例では、ビデオ復号のための装置は処理回路を含む。処理回路は、ビットストリームに基づいて現在のピクチャを復号するように構成されている。処理回路は、補足強化情報(SEI)メッセージから、ワーピングプロセスが現在の復号ピクチャに適用されるかどうかを示す第1のフラグを決定することができる。ワーピングプロセスが現在の復号ピクチャに適用されることを示す第1のフラグに基づいて、処理回路は、SEIメッセージに基づいてワーピングプロセスのワーピング情報を決定することができる。処理回路は、ワーピング情報に基づいて、現在の復号ピクチャからワーピングピクチャを決定することができる。
一実施形態では、SEIメッセージは、ビットストリーム内の表示配向SEIメッセージである。
一実施形態では、SEIメッセージは、ビットストリーム内のワーピングベースの復号ピクチャ再サンプリング(WDPR)SEIメッセージである。
一実施形態では、ワーピング情報は、現在の復号ピクチャのコーナーとワーピングピクチャの対応するコーナーとの間の4つのコーナーベクトルを示す。
一実施形態では、処理回路は、4つのコーナーベクトルに基づいて、現在の復号ピクチャ内のサンプル位置とワーピングピクチャ内の対応する位置との間のベクトルを決定する。
一実施形態では、前のSEIメッセージによって示されたワーピングプロセスがキャンセルされたことを示す第1のフラグに基づいて、ワーピングプロセスは、現在の復号ピクチャに適用されない。
一実施形態では、ワーピング情報は第2のフラグを含む。第1の値を有する第2のフラグに基づいて、SEIメッセージは現在の復号ピクチャにのみ適用される。第2の値を有する第2のフラグに基づいて、SEIメッセージは、条件が満たされるまで、出力順で現在の復号ピクチャおよび現在の層の1つ以上の引き続き復号されたピクチャに適用される。
一例では、第2のフラグは第2の値を有する。処理回路は、出力順で現在のピクチャに続く現在の層の後続のピクチャを復号することができる。処理回路は、ワーピング情報に基づいて、引き続き復号されたピクチャからワーピングピクチャを決定することができる。
一実施形態では、条件は、現在の層の新しいコーディング層ビデオシーケンス(CLVS)を含む。
一実施形態では、ワーピング情報はワーピングモードを示す。処理回路は、ワーピングモードに基づいて、4つのコーナーベクトルを決定することができる。
本開示の態様はまた、ビデオ復号のための方法を実行するために少なくとも1つのプロセッサによって実行可能なプログラムを記憶する非一時的コンピュータ可読記憶媒体も提供する。
開示された主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
イントラ予測モードの例示的なサブセットの概略図である。 例示的なイントラ予測方向の図である。 一実施形態による、現在のブロック(201)および周囲のサンプルを示す図である。 一実施形態による、通信システム(300)の簡略化されたブロック図の概略図である。 一実施形態による、通信システム(400)の簡略化されたブロック図の概略図である。 一実施形態による、デコーダの簡略化されたブロック図の概略図である。 一実施形態による、エンコーダの簡略化されたブロック図の概略図である。 別の実施形態による、エンコーダの簡略化されたブロック図である。 別の実施形態による、デコーダの簡略化されたブロック図である。 本開示の一実施形態による、ワーピングに使用される例示的なベクトルを示す図である。 本開示の一実施形態による、画像安定化における例示的なワーピングプロセスを示す図である。 本開示の一実施形態による、複数の入力ピクチャにおけるグローバル移動を補償するための例示的なワーピングプロセスを示す図である。 本開示の一実施形態による、符号化プロセスを概説するフローチャートである。 本開示の一実施形態による、復号プロセスを概説するフローチャートである。 一実施形態によるコンピュータシステムの概略図である。
図3は、本開示の一実施形態による通信システム(300)の簡略化されたブロック図を示す。通信システム(300)は、例えばネットワーク(350)を介して互いに通信することができる複数の端末デバイスを含む。例えば、通信システム(300)は、ネットワーク(350)を介して相互接続された端末デバイス(310)および(320)の第1のペアを含む。図3の例では、端末デバイス(310)および(320)の第1のペアは、データの単方向送信を実行する。例えば、端末デバイス(310)は、ネットワーク(350)を介して他の端末デバイス(320)に送信するためのビデオデータ(例えば、端末デバイス(310)によってキャプチャされたビデオピクチャのストリーム)をコーディングすることができる。符号化ビデオデータは、1つ以上のコーディングビデオビットストリームの形式で送信することができる。端末デバイス(320)は、ネットワーク(350)からコーディングビデオデータを受信し、ビデオピクチャを復元するためにコーディングビデオデータを復号し、復元されたビデオデータにしたがってビデオピクチャを表示することができる。単方向データ送信は、メディアサービング用途などにおいて一般的であり得る。
別の例では、通信システム(300)は、例えばビデオ会議中に発生する可能性があるコーディングビデオデータの双方向送信を実行する端末デバイス(330)および(340)の第2のペアを含む。データの双方向送信の場合、一例では、端末デバイス(330)および(340)の各端末デバイスは、ネットワーク(350)を介して端末デバイス(330)および(340)のうちの他方の端末デバイスに送信するためのビデオデータ(例えば、端末デバイスによってキャプチャされたビデオピクチャのストリーム)をコーディングすることができる。端末デバイス(330)および(340)の各端末デバイスはまた、端末デバイス(330)および(340)の他方の端末デバイスによって送信されたコーディングビデオデータを受信することができ、ビデオピクチャを復元するためにコーディングビデオデータを復号することができ、復元されたビデオデータにしたがってアクセス可能な表示デバイスにビデオピクチャを表示することができる。
図3の例では、端末デバイス(310)、(320)、(330)、および(340)は、サーバ、パーソナルコンピュータ、およびスマートフォンとして示され得るが、本開示の原理はそのように限定されなくてもよい。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、および/または専用ビデオ会議機器を伴う用途を見出す。ネットワーク(350)は、例えば、電線(有線)および/または無線の通信ネットワークを含む、端末デバイス(310)、(320)、(330)、および(340)の間でコーディングビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク(350)は、回線交換チャネルおよび/またはパケット交換チャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および/またはインターネットを含む。本説明の目的のために、ネットワーク(350)のアーキテクチャおよびトポロジは、本明細書で以下に説明されない限り、本開示の動作に重要ではない場合がある。
図4は、開示された主題についてのアプリケーション用の一例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を示す。開示された主題は、例えば、ビデオ会議、デジタルテレビ、CD、DVD、メモリスティックなどを含むデジタル媒体への圧縮ビデオの記憶などを含む他のビデオ対応アプリケーションに、等しく適用可能であり得る。
ストリーミングシステムは、例えば非圧縮のビデオピクチャのストリーム(402)を生成する、例えばデジタルカメラなどのビデオソース(401)を含むことができるキャプチャサブシステム(413)を含むことができる。一例では、ビデオピクチャのストリーム(402)は、デジタルカメラによって撮影されたサンプルを含む。符号化ビデオデータ(404)(またはコード化ビデオビットストリーム)と比較した場合の高データ量を強調するために太線として描写されたビデオピクチャのストリーム(402)は、ビデオソース(401)に結合されたビデオエンコーダ(403)を含む電子デバイス(420)によって処理することができる。ビデオエンコーダ(403)は、以下でより詳細に記載されるように、開示された主題の態様を可能にするかまたは実装するために、ハードウェア、ソフトウェア、またはそれらの組合せを含むことができる。ビデオピクチャのストリーム(402)と比較してより少ないデータ量を強調するために細い線として描写された符号化ビデオデータ(404)(または符号化ビデオビットストリーム)は、将来の使用のためにストリーミングサーバ(405)に記憶することができる。図4のクライアントサブシステム(406)および(408)などの1つ以上のストリーミングクライアントサブシステムは、符号化ビデオデータ(404)のコピー(407)および(409)を取り出すために、ストリーミングサーバ(405)にアクセスすることができる。クライアントサブシステム(406)は、例えば、電子デバイス(430)内のビデオデコーダ(410)を含むことができる。ビデオデコーダ(410)は、符号化ビデオデータの入力コピー(407)を復号し、ディスプレイ(412)(例えば、表示画面)または他のレンダリングデバイス(描写せず)上でレンダリングすることができるビデオピクチャの出力ストリーム(411)を作成する。いくつかのストリーミングシステムでは、符号化ビデオデータ(404)、(407)、および(409)(例えば、ビデオビットストリーム)は、特定のビデオコーディング/圧縮規格にしたがって符号化することができる。それらの規格の例は、ITU-T勧告H.265を含む。一例では、開発中のビデオコーディング規格は、非公式に多用途ビデオコーディング(VVC:Versatile Video Coding)として知られている。開示された主題は、VVCの文脈で使用され得る。
電子デバイス(420)および(430)は、他の構成要素(図示せず)を含むことができることに留意されたい。例えば、電子デバイス(420)はビデオデコーダ(図示せず)を含むことができ、電子デバイス(430)はビデオエンコーダ(図示せず)も含むことができる。
図5は、本開示の一実施形態によるビデオデコーダ(510)のブロック図を示す。ビデオデコーダ(510)は、電子デバイス(530)に含まれ得る。電子デバイス(530)は、受信機(531)(例えば、受信回路)を含むことができる。ビデオデコーダ(510)は、図4の例のビデオデコーダ(410)の代わりに使用することができる。
受信機(531)は、ビデオデコーダ(510)によって復号される1つ以上のコーディングビデオシーケンスを受信してもよく、同じかまたは別の実施形態では、一度に1つのコーディングビデオシーケンスを受信してもよく、各コーディングビデオシーケンスの復号は、他のコーディングビデオシーケンスから独立している。コーディングビデオシーケンスは、チャネル(501)から受信されてもよく、チャネル(501)は、符号化ビデオデータを記憶するストレージデバイスへのハードウェア/ソフトウェアリンクであってもよい。受信機(531)は、それらのそれぞれの使用エンティティ(描写せず)に転送され得る他のデータ、例えば、コーディングオーディオデータおよび/または補助データストリームとともに符号化ビデオデータを受信することができる。受信機(531)は、コーディングビデオシーケンスを他のデータから分離することができる。ネットワークジッタに対抗するために、バッファメモリ(515)は、受信機(531)とエントロピーデコーダ/パーサ(520)(以下、「パーサ(520)」)との間に結合されてもよい。特定の用途では、バッファメモリ(515)はビデオデコーダ(510)の一部である。他の用途では、バッファメモリ(515)はビデオデコーダ(510)の外部にあってもよい(描写せず)。さらに別の用途では、例えばネットワークジッタに対抗するために、ビデオデコーダ(510)の外側にバッファメモリ(描写せず)があり、加えて、例えばプレイアウトタイミングを処理するために、ビデオデコーダ(510)の内側に別のバッファメモリ(515)があってもよい。受信機(531)が十分な帯域幅および制御可能性の記憶/転送デバイスから、またはアイソシンクロナスネットワークからデータを受信しているとき、バッファメモリ(515)は必要とされない場合があるか、または小さい可能性がある。インターネットなどのベストエフォートパケットネットワークで使用する場合、バッファメモリ(515)は必要な場合があり、比較的大きくすることができ、有利には適応サイズであってもよく、ビデオデコーダ(510)の外部のオペレーティングシステムまたは同様の要素(描写せず)に少なくとも部分的に実装されてもよい。
ビデオデコーダ(510)は、コーディングビデオシーケンスからシンボル(521)を再構成するためにパーサ(520)を含んでもよい。これらのシンボルのカテゴリは、ビデオデコーダ(510)の動作を管理するために使用される情報、および潜在的に、図5に示されるように、電子デバイス(530)の不可欠な部分ではないが、電子デバイス(530)に結合することができるレンダリングデバイス(512)(例えば、表示画面)などのレンダリングデバイスを制御するための情報を含む。(1つまたは複数の)レンダリングデバイスのための制御情報は、補足強化情報(SEI)メッセージまたはビデオユーザビリティ情報(VUI)パラメータセットフラグメント(描写せず)の形式であってもよい。パーサ(520)は、受信されたコーディングビデオシーケンスを解析/エントロピー復号することができる。コーディングビデオシーケンスのコーディングは、ビデオコーディング技術または規格に従うことができ、文脈依存性ありまたはなしの可変長コーディング、ハフマンコーディング、算術コーディングなどを含む様々な原理に従うことができる。パーサ(520)は、グループに対応する少なくとも1つのパラメータに基づいて、コーディングビデオシーケンスから、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも1つのためのサブグループパラメータのセットを抽出することができる。サブグループは、ピクチャグループ(GOP)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含むことができる。パーサ(520)はまた、コーディングビデオシーケンスから、変換係数、量子化パラメータ値、動きベクトルなどの情報もすることができる。
パーサ(520)は、シンボル(521)を作成するために、バッファメモリ(515)から受け取ったビデオシーケンスに対してエントロピー復号/構文解析動作を実行することができる。
シンボル(521)の再構成は、コーディングビデオピクチャまたはその一部のタイプ(インターピクチャおよびイントラピクチャ、インターブロックおよびイントラブロックなど)、ならびに他の要因に応じて、複数の異なるユニットを関与させることができる。どのユニットがどのように関与するかは、パーサ(520)によってコーディングビデオシーケンスから構文解析されたサブグループ制御情報によって制御することができる。パーサ(520)と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確にするために描かれていない。
すでに言及された機能ブロック以外に、ビデオデコーダ(510)は、以下で説明されるようないくつかの機能ユニットに概念的に細分化することができる。商業的制約の下で動作する実際の実装形態では、これらのユニットの多くは、互いに密接に相互作用し、少なくとも部分的には互いに統合することができる。しかしながら、開示された主題を説明する目的のために、以下の機能ユニットへの概念的な細分化が適切である。
第1のユニットはスケーラ/逆変換ユニット(551)である。スケーラ/逆変換ユニット(551)は、量子化変換係数、ならびにどの変換を使用するか、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報を、パーサ(520)から(1つまたは複数の)シンボル(521)として受信する。スケーラ/逆変換ユニット(551)は、アグリゲータ(555)に入力され得るサンプル値を含むブロックを出力することができる。
場合によっては、スケーラ/逆変換(551)の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックに関連する可能性がある。そのような予測情報は、イントラピクチャ予測ユニット(552)によって提供することができる。場合によっては、イントラピクチャ予測ユニット(552)は、現在のピクチャバッファ(558)からフェッチされた周囲のすでに再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。現在のピクチャバッファ(558)は、例えば、部分的に再構成された現在のピクチャおよび/または完全に再構成された現在のピクチャをバッファリングする。アグリゲータ(555)は、場合によっては、イントラ予測ユニット(552)が生成した予測情報を、スケーラ/逆変換ユニット(551)からの出力サンプル情報に、サンプル単位で追加する。
他の場合には、スケーラ/逆変換ユニット(551)の出力サンプルは、インターコーディングされ、潜在的に動き補償されたブロックに関連する可能性がある。このような場合、動き補償予測ユニット(553)は、予測に使用されるサンプルをフェッチするために、参照ピクチャメモリ(557)にアクセスすることができる。ブロックに関連するシンボル(521)にしたがってフェッチされたサンプルを動き補償した後、これらのサンプルは、出力サンプル情報を生成するように、アグリゲータ(555)によってスケーラ/逆変換ユニット(551)の出力に追加することができる(この場合、残差サンプルまたは残差信号と呼ばれる)。動き補償予測ユニット(553)が予測サンプルをフェッチする参照ピクチャメモリ(557)内のアドレスは、例えば、X、Y、および参照ピクチャ成分を有することができるシンボル(521)の形式で動き補償予測ユニット(553)に利用可能な動きベクトルによって制御することができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ(557)からフェッチされたサンプル値の補間、動きベクトル予測機構などを含むことができる。
アグリゲータ(555)の出力サンプルは、ループフィルタユニット(556)における様々なループフィルタリング技術を受けることができる。ビデオ圧縮技術は、コーディングビデオシーケンス(コーディングビデオビットストリームとも呼ばれる)に含まれるパラメータによって制御され、パーサ(520)からのシンボル(521)としてループフィルタユニット(556)に利用可能にされるインループフィルタ技術を含むことができるが、コーディングピクチャまたはコーディングビデオシーケンスの(復号順で)前の部分の復号中に取得されたメタ情報に応答することもでき、以前に再構成されループフィルタリングされたサンプル値に応答することもできる。
ループフィルタユニット(556)の出力は、レンダリングデバイス(512)に出力されるだけでなく、将来のインターピクチャ予測で使用するために参照ピクチャメモリ(557)に記憶することができるサンプルストリームであり得る。
特定のコーディングされたピクチャは、完全に再構成されると、将来の予測のための参照ピクチャとして使用されることが可能である。例えば、現在のピクチャに対応するコーディングピクチャが完全に再構成され、コーディングピクチャが(例えば、パーサ(520)によって)参照ピクチャとして識別されると、現在のピクチャバッファ(558)は参照ピクチャメモリ(557)の一部になることができ、次のコーディングされたピクチャの再構成を開始する前に新しい現在のピクチャバッファを再割り当てすることができる。
ビデオデコーダ(510)は、ITU-T Rec.H.265などの規格における所定のビデオ圧縮技術にしたがって復号動作を実行することができる。コーディングビデオシーケンスがビデオ圧縮技術または規格の構文とビデオ圧縮技術において文書化されたプロファイルの両方に準拠するという意味で、コーディングビデオシーケンスは、使用されているビデオ圧縮技術または規格によって指定された構文に準拠することができる。具体的には、プロファイルは、ビデオ圧縮技術または規格において利用可能なすべてのツールの中から、そのプロファイル下で利用可能な唯一のツールとして、特定のツールを選択することができる。また、順守には、コーディングビデオシーケンスの複雑さが、ビデオ圧縮技術または規格のレベルによって規定された範囲内にあることも必要であり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えば毎秒メガサンプルで測定される)、最大参照ピクチャサイズなどを制限する。レベルによって設定される制限は、場合によっては、仮想参照デコーダ(HRD)仕様およびコーディングビデオシーケンスでシグナリングされたHRDバッファ管理のためのメタデータによってさらに制限され得る。
一実施形態では、受信機(531)は、符号化ビデオとともに追加の(冗長な)データを受信することができる。追加のデータは、(1つまたは複数の)コーディングビデオシーケンスの一部として含まれ得る。追加のデータは、データを適切に復号するために、および/または元のビデオデータをより正確に再構成するために、ビデオデコーダ(510)によって使用され得る。追加のデータは、例えば、時間、空間、または信号対雑音比(SNR)拡張層、冗長スライス、冗長ピクチャ、前方誤り訂正コードなどの形式であり得る。
図6は、本開示の一実施形態による、ビデオエンコーダ(603)のブロック図を示す。ビデオエンコーダ(603)は、電子デバイス(620)に含まれる。電子デバイス(620)は、送信機(640)(例えば、送信回路)を含む。ビデオエンコーダ(603)は、図4の例のビデオエンコーダ(403)の代わりに使用することができる。
ビデオエンコーダ(603)は、ビデオエンコーダ(603)によってコーディングされる(1つまたは複数の)ビデオ画像をキャプチャすることができる(図6の例では電子デバイス(620)の一部ではない)ビデオソース(601)からビデオサンプルを受信することができる。別の例では、ビデオソース(601)は電子デバイス(620)の一部である。
ビデオソース(601)は、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット、…)、任意の色空間(例えば、BT.601 Y CrCB、RGB、…)、および任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)であり得るデジタルビデオサンプルストリームの形式で、ビデオエンコーダ(603)によってコーディングされるソースビデオシーケンスを提供することができる。メディアサービングシステムでは、ビデオソース(601)は、以前に準備されたビデオを記憶するストレージデバイスであってもよい。ビデオ会議システムでは、ビデオソース(601)は、ビデオシーケンスとしてローカル画像情報をキャプチャするカメラであってもよい。ビデオデータは、順番に見たときに動きを伝える複数の個別のピクチャとして提供されてもよい。ピクチャ自体は、ピクセルの空間配列として編成することができ、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、1つ以上のサンプルを含むことができる。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。
一実施形態によれば、ビデオエンコーダ(603)は、リアルタイムで、または用途によって必要とされる任意の他の時間制約の下で、ソースビデオシーケンスのピクチャをコーディングビデオシーケンス(643)にコーディングし、圧縮することができる。適切なコーディング速度を強制することは、コントローラ(650)の1つの機能である。いくつかの実施形態では、コントローラ(650)は、以下に記載される他の機能ユニットを制御し、他の機能ユニットに機能的に結合されている。明確にするために、結合は描かれていない。コントローラ(650)によって設定されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、…)、ピクチャサイズ、ピクチャグループ(GOP)のレイアウト、最大動きベクトル検索範囲などを含むことができる。コントローラ(650)は、特定のシステム設計のために最適化されたビデオエンコーダ(603)に関する他の適切な機能を有するように構成することができる。
いくつかの実施形態では、ビデオエンコーダ(603)は、コーディングループで動作するように構成される。過度に簡略化された説明として、一例では、コーディングループは、ソースコーダ(630)(例えば、コーディングされる入力ピクチャおよび(1つまたは複数の)参照ピクチャに基づいて、シンボルストリームなどのシンボルを作成する役割を担う)と、ビデオエンコーダ(603)に組み込まれた(ローカル)デコーダ(633)とを含むことができる。(開示の主題で考慮されるビデオ圧縮技術においてはシンボルとコーディングビデオビットストリームとの間のいかなる圧縮も可逆であるため)デコーダ(633)は、(リモート)デコーダも作成することになるのと同様のやり方で、サンプルデータを作成するためにシンボルを再構成する。再構成されたサンプルストリーム(サンプルデータ)は、参照ピクチャメモリ(634)に入力される。シンボルストリームの復号は、デコーダの場所(ローカルまたはリモート)に関係なくビットイグザクトな結果につながるので、参照ピクチャメモリ(634)内のコンテンツも、ローカルエンコーダとリモートエンコーダとの間でビットイグザクトである。言い換えれば、エンコーダの予測部分は、復号中に予測を使用するときにデコーダが「見る」のと全く同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性(および、例えばチャネルエラーのために同期性を維持できない場合に生じるドリフト)のこの基本原理は、いくつかの関連技術においても使用される。
「ローカル」デコーダ(633)の動作は、図5と併せて上記で詳細にすでに説明されている、ビデオデコーダ(510)などの「リモート」デコーダの動作と同じであり得る。しかしながら、図5も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ(645)およびパーサ(520)によるコーディングビデオシーケンスへのシンボルの符号化/復号は可逆であり得るので、バッファメモリ(515)を含むビデオデコーダ(510)のエントロピー復号部分、およびパーサ(520)は、ローカルデコーダ(633)に完全に実装されていない可能性がある。
一実施形態では、デコーダに存在する構文解析/エントロピー復号を除くデコーダ技術が、対応するエンコーダに、同一または実質的に同一の機能的形態で存在する。したがって、開示された主題は、デコーダの動作に焦点を当てている。エンコーダ技術の説明は、包括的に記載されたデコーダ技術の逆であるため、省略することができる。特定の領域においてのみ、より詳細な説明が必要とされ、以下に提供される。
動作中、いくつかの例では、ソースコーダ(630)は、「参照ピクチャ」として指定されたビデオシーケンスからの1つ以上の以前にコーディングされたピクチャを参照して入力ピクチャを予測的にコーディングする、動き補償予測コーディングを実行することができる。このようにして、コーディングエンジン(632)は、入力ピクチャのピクセルブロックと、入力ピクチャへの(1つまたは複数の)予測参照として選択され得る(1つまたは複数の)参照ピクチャのピクセルブロックとの間の差分をコーディングする。
ローカルビデオデコーダ(633)は、ソースコーダ(630)によって作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコーディングされたビデオデータを復号することができる。コーディングエンジン(632)の動作は、有利には、非可逆プロセスであってもよい。コーディングビデオデータが(図6には示されていない)ビデオデコーダで復号され得るとき、再構成されたビデオシーケンスは、通常、いくつかの誤差を伴うソースビデオシーケンスの複製であり得る。ローカルビデオデコーダ(633)は、参照ピクチャに対してビデオデコーダによって実行され得る復号プロセスを複製し、再構成された参照ピクチャを参照ピクチャキャッシュ(634)に記憶させ得る。このようにして、ビデオエンコーダ(603)は、(送信エラーがない)遠端ビデオデコーダによって取得される再構成された参照ピクチャとして共通のコンテンツを有する、再構成された参照ピクチャのコピーをローカルに記憶することができる。
予測器(635)は、コーディングエンジン(632)の予測検索を実行することができる。すなわち、コーディングされる新しいピクチャについて、予測器(635)は、(候補参照ピクセルブロックとしての)サンプルデータ、または新しいピクチャのための適切な予測参照として機能し得る、参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータを求めて、参照ピクチャメモリ(634)を検索することができる。予測器(635)は、適切な予測参照を見つけるために、ピクセルブロックごとにサンプルブロックに対して動作し得る。場合によっては、予測器(635)によって取得された検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ(634)に記憶された複数の参照ピクチャから引き出された予測参照を有し得る。
コントローラ(650)は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ(630)のコーディング動作を管理し得る。
前述のすべての機能ユニットの出力は、エントロピーコーダ(645)においてエントロピーコーディングを受けることができる。エントロピーコーダ(645)は、ハフマンコーディング、可変長コーディング、算術コーディングなどの技術にしたがってシンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルをコーディングビデオシーケンスに変換する。
送信機(640)は、エントロピーコーダ(645)によって作成された(1つまたは複数の)コーディングビデオシーケンスを、符号化ビデオデータを記憶することになるストレージデバイスへのハードウェア/ソフトウェアリンクであり得る、通信チャネル(660)を介した送信に備えてバッファリングし得る。送信機(640)は、ビデオエンコーダ(603)からのコーディングビデオデータを、送信される他のデータ、例えば、コーディングオーディオデータおよび/または補助データストリーム(ソースは図示せず)とマージし得る。
コントローラ(650)は、ビデオエンコーダ(603)の動作を管理し得る。コーディング中に、コントローラ(650)は、各コーディングピクチャに特定のコーディングピクチャタイプを割り当てることができ、これは、それぞれのピクチャに適用され得るコーディング技術に影響を及ぼし得る。例えば、ピクチャは、以下のピクチャタイプのうちの1つとして割り当てられることが多い。
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内の任意の他のピクチャを使用することなくコーディングおよび復号され得るものであり得る。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ(「IDR」)ピクチャを含む、異なるタイプのイントラピクチャを可能にする。当業者は、Iピクチャのこれらの変形、ならびにそれらのそれぞれの用途および機能を認識している。
予測ピクチャ(Pピクチャ)は、最大で1つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するイントラ予測またはインター予測を使用してコーディングおよび復号され得るものであり得る。
双方向予測ピクチャ(Bピクチャ)は、最大で2つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するイントラ予測またはインター予測を使用してコーディングおよび復号され得るものであり得る。同様に、複数予測ピクチャは、単一のブロックの再構成のために3つ以上の参照ピクチャおよび関連するメタデータを使用することができる。
ソースピクチャは、一般に、複数のサンプルブロック(例えば、各々、4x4、8x8、4x8、または16x16のブロック)に空間的に細分化され、ブロックごとにコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割り当てによって決定されるように、他の(すでにコーディングされた)ブロックを参照して予測的にコーディングされ得る。例えば、Iピクチャのブロックは、非予測的にコーディングされてもよく、またはこれらは、同じピクチャのすでにコーディングされたブロックを参照して予測的にコーディングされてもよい(空間予測またはイントラ予測)。Pピクチャのピクセルブロックは、以前にコーディングされた1つの参照ピクチャを参照して、空間予測を介して、または時間予測を介して、予測的にコーディングされてもよい。Bピクチャのブロックは、1つまたは2つの以前にコーディングされた参照ピクチャを参照して、空間予測を介して、または時間予測を介して、予測的にコーディングされてもよい。
ビデオエンコーダ(603)は、ITU-T Rec.H.265などの所定のビデオコーディング技術または規格にしたがってコーディング動作を実行することができる。その動作において、ビデオエンコーダ(603)は、入力ビデオシーケンスにおける時間および空間の冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実行することができる。したがって、コーディングビデオデータは、使用されているビデオコーディング技術または規格によって指定された構文に準拠することができる。
一実施形態では、送信機(640)は、符号化ビデオとともに追加のデータを送信することができる。ソースコーダ(630)は、コーディングビデオシーケンスの一部としてそのようなデータを含むことができる。追加のデータは、時間/空間/SNR拡張層、冗長ピクチャおよびスライスなどの他の形態の冗長データ、SEIメッセージ、VUIパラメータセットフラグメントなどを含むことができる。
ビデオは、複数のソースピクチャ(ビデオピクチャ)として時系列でキャプチャされ得る。イントラピクチャ予測(しばしばイントラ予測と略される)は、所与のピクチャにおける空間的相関を利用し、インターピクチャ予測は、ピクチャ間の(時間的または他の)相関を利用する。一例では、現在のピクチャと呼ばれる、符号化/復号中の特定のピクチャがブロックに分割される。現在のピクチャ内のブロックが、以前にコーディングされ、ビデオ内にまだバッファリングされている参照ピクチャ内の参照ブロックに類似しているとき、現在のピクチャ内のブロックは、動きベクトルと呼ばれるベクトルによってコーディングすることができる。動きベクトルは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用されている場合に、参照ピクチャを識別する第3の次元を有することができる。
いくつかの実施形態では、インターピクチャ予測において双予測技術を使用することができる。双予測技術によれば、どちらもビデオ内で復号順で現在のピクチャに先行する(が、表示順では、それぞれ過去と将来とにあり得る)第1の参照ピクチャおよび第2の参照ピクチャなどの2つの参照ピクチャが使用される。現在のピクチャ内のブロックは、第1の参照ピクチャ内の第1の参照ブロックを指す第1の動きベクトル、および第2の参照ピクチャ内の第2の参照ブロックを指す第2の動きベクトルによってコーディングされることが可能である。ブロックは、第1の参照ブロックと第2の参照ブロックとの組み合わせによって予測することができる。
さらに、コーディング効率を改善するために、インターピクチャ予測においてマージモード技術を使用することができる。
本開示のいくつかの実施形態によれば、インターピクチャ予測およびイントラピクチャ予測などの予測は、ブロック単位で実行される。例えば、HEVC規格によれば、ビデオピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット(CTU)に分割され、ピクチャ内のCTUは、64×64ピクセル、32×32ピクセル、または16×16ピクセルなどの同じサイズを有する。一般に、CTUは3つのコーディングツリーブロック(CTB)を含み、これらは1つのルマCTBおよび2つのクロマCTBである。各CTUは、1つまたは複数のコーディングユニット(CU)に再帰的に四分木分割することができる。例えば、64x64ピクセルのCTUは、64x64ピクセルの1つのCU、または32x32ピクセルの4つのCU、または16x16ピクセルの16個のCUに分割することができる。一例では、インター予測タイプまたはイントラ予測タイプなどのCUの予測タイプを決定するために、各CUが分析される。CUは、時間的および/または空間的予測可能性に応じて、1つ以上の予測ユニット(PU)に分割される。一般に、各PUは、1つのルマ予測ブロック(PB)および2つのクロマPBを含む。一実施形態では、コーディング(符号化/復号)における予測動作は、予測ブロック単位で実行される。測ブロックの一例としてルマ予測ブロックを使用すると、予測ブロックは、8×8ピクセル、16×16ピクセル、8×16ピクセル、16×8ピクセルなどのピクセルの値(例えば、ルマ値)の行列を含む。
図7は、本開示の別の実施形態によるビデオエンコーダ(703)の図を示す。ビデオエンコーダ(703)は、ビデオピクチャのシーケンスにおける現在のビデオピクチャ内のサンプル値の処理ブロック(例えば、予測ブロック)を受信し、処理ブロックを、コーディングビデオシーケンスの一部であるコーディングピクチャに符号化するように構成される。一例では、ビデオエンコーダ(703)は、図4の例のビデオエンコーダ(403)の代わりに使用される。
HEVCの例では、ビデオエンコーダ(703)は、例えば8×8サンプルの予測ブロックなどの処理ブロックのためのサンプル値の行列を受信する。ビデオエンコーダ(703)は、処理ブロックが、例えばレート歪み最適化を使用して、イントラモード、インターモード、または双予測モードを使用して最良にコーディングされるかどうかを判定する。処理ブロックがイントラモードでコーディングされるとき、ビデオエンコーダ(703)は、処理ブロックをコーディングピクチャに符号化するためにイントラ予測技術を使用してもよく、また、処理ブロックがインターモードまたは双予測モードでコーディングされるとき、ビデオエンコーダ(703)は、処理ブロックをコーディングピクチャに符号化するためにインター予測技術または双予測技術をそれぞれ使用してもよい。特定のビデオコーディング技術では、マージモードは、予測器の外側のコーディングされた動きベクトル成分の恩恵を受けずに、動きベクトルが1つ以上の動きベクトル予測器から導出されるインターピクチャ予測サブモードであり得る。特定の他のビデオコーディング技術では、対象ブロックに適用可能な動きベクトル成分が存在してもよい。一例では、ビデオエンコーダ(703)は、処理ブロックのモードを決定するためのモード決定モジュール(図示せず)などの他の構成要素を含む。
図7の例では、ビデオエンコーダ(703)は、図7に示されるように互いに結合されたインターエンコーダ(730)、イントラエンコーダ(722)、残差計算器(723)、スイッチ(726)、残差エンコーダ(724)、汎用コントローラ(721)、およびエントロピーエンコーダ(725)を含む。
インターエンコーダ(730)は、現在のブロック(例えば、処理ブロック)のサンプルを受信し、ブロックを参照ピクチャ内の1つ以上の参照ブロック(例えば、前のピクチャおよび後のピクチャ内のブロック)と比較し、インター予測情報(例えば、インターエンコーディング技術による冗長情報、動きベクトル、マージモード情報の記述)を生成し、任意の適切な技術を使用して、インター予測情報に基づいてインター予測結果(例えば、予測ブロック)を計算するように構成される。いくつかの例では、参照ピクチャは、符号化されたビデオ情報に基づいて復号された復号参照ピクチャである。
イントラエンコーダ(722)は、現在のブロック(例えば、処理ブロック)のサンプルを受信し、場合によっては、ブロックを同じピクチャ内のすでにコーディングされたブロックと比較し、変換後に量子化係数を生成し、場合によっては、イントラ予測情報(例えば、1つ以上のイントラ符号化技術によるイントラ予測方向情報)も生成するように構成される。一例では、イントラエンコーダ(722)はまた、イントラ予測情報および同じピクチャ内の参照ブロックに基づいて、イントラ予測結果(例えば、予測ブロック)を計算する。
汎用コントローラ(721)は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ(703)の他の構成要素を制御するように構成される。一例では、汎用コントローラ(721)は、ブロックのモードを決定し、モードに基づいてスイッチ(726)に制御信号を提供する。例えば、モードがイントラモードであるとき、汎用コントローラ(721)は、残差計算器(723)が使用するためのイントラモード結果を選択するようにスイッチ(726)を制御し、イントラ予測情報を選択してイントラ予測情報をビットストリームに含めるようにエントロピーエンコーダ(725)を制御し、モードがインターモードであるとき、汎用コントローラ(721)は、残差計算器(723)が使用するためのインター予測結果を選択するようにスイッチ(726)を制御し、インター予測情報を選択してインター予測情報をビットストリームに含めるようにエントロピーエンコーダ(725)を制御する。
残差計算器(723)は、受信されたブロックと、イントラエンコーダ(722)またはインターエンコーダ(730)から選択された予測結果との差分(残差データ)を計算するように構成される。残差エンコーダ(724)は、変換係数を生成するために残差データを符号化するように、残差データに基づいて動作するように構成される。一例では、残差エンコーダ(724)は、残差データを空間領域から周波数領域に変換し、変換係数を生成するように構成される。次いで、変換係数は、量子化変換係数を取得するために量子化処理を受ける。様々な実施形態では、ビデオエンコーダ(703)は残差デコーダ(728)も含む。残差デコーダ(728)は、逆変換を実行し、復号残差データを生成するように構成される。復号残差データは、イントラエンコーダ(722)およびインターエンコーダ(730)によって適切に使用することができる。例えば、インターエンコーダ(730)は、復号残差データおよびインター予測情報に基づいて復号ブロックを生成することができ、イントラエンコーダ(722)は、復号残差データおよびイントラ予測情報に基づいて復号ブロックを生成することができる。復号ブロックは、復号ピクチャを生成するために適切に処理され、復号ピクチャは、メモリ回路(図示せず)にバッファリングされ、いくつかの例では参照ピクチャとして使用することができる。
エントロピーエンコーダ(725)は、符号化ブロックを含めるようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ(725)は、HEVC規格などの適切な規格にしたがって様々な情報を含めるように構成される。一例では、エントロピーエンコーダ(725)は、ビットストリーム内に汎用制御データ、選択された予測情報(例えば、イントラ予測情報またはインター予測情報)、残差情報、および他の適切な情報を含めるように構成される。開示された主題によれば、インターモードまたは双予測モードのいずれかのマージサブモードでブロックをコーディングするとき、残差情報は存在しないことに留意されたい。
図8は、本開示の別の実施形態によるビデオデコーダ(810)の図を示す。ビデオデコーダ(810)は、コーディングビデオシーケンスの一部であるコーディングピクチャを受信し、再構成されたピクチャを生成するためにコーディングピクチャを復号するように構成される。一例では、ビデオデコーダ(810)は、図4の例のビデオデコーダ(410)の代わりに使用される。
図8の例では、ビデオデコーダ(810)は、図8に示されるように互いに結合されたエントロピーデコーダ(871)、インターデコーダ(880)、残差デコーダ(873)、再構成モジュール(874)、およびイントラデコーダ(872)を含む。
エントロピーデコーダ(871)は、コーディングピクチャから、コーディングピクチャが構成されている構文要素を表す特定のシンボルを再構成するように構成されることが可能である。このようなシンボルは、例えば、(例えば、イントラモード、インターモード、双予測モード、マージサブモードまたは別のサブモードのうちの後者2つなどの)ブロックがコーディングされるモード、それぞれ、イントラデコーダ(872)またはインターデコーダ(880)による予測に使用される特定のサンプルまたはメタデータを識別することができる(例えば、イントラ予測情報またはインター予測情報などの)予測情報、例えば、量子化変換係数の形式の残差情報などを含むことができる。一例では、予測モードがインターモードまたは双予測モードであるとき、インター予測情報はインターデコーダ(880)に提供され、予測タイプがイントラ予測タイプであるとき、イントラ予測情報はイントラデコーダ(872)に提供される。残差情報は逆量子化を受けることができ、残差デコーダ(873)に提供される。
インターデコーダ(880)は、インター予測情報を受信し、インター予測情報に基づいてインター予測結果を生成するように構成される。
イントラデコーダ(872)は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成される。
残差デコーダ(873)は、逆量子化変換係数を抽出するために逆量子化を実行し、残差を周波数領域から空間領域に変換するために逆量子化変換係数を処理するように構成される。残差デコーダ(873)はまた、(量子化パラメータ(QP)を含めるために)特定の制御情報を必要とする場合もあり、その情報は、エントロピーデコーダ(871)によって提供され得る(これは少量の制御情報のみであり得るので、データパスは描かれていない)。
再構成モジュール(874)は、空間領域において、残差デコーダ(873)によって出力される残差と(場合によってはインター予測モジュールまたはイントラ予測モジュールによって出力される)予測結果とを組み合わせて、再構成されたピクチャの一部になり得る再構成ブロックを形成するように構成され、再構成されたピクチャは再構成されたビデオの一部になり得る。視覚的品質を改善するために、デブロッキング操作などの他の適切な操作を実行することができることに留意されたい。
ビデオエンコーダ(403)、(603)、および(703)、ならびにビデオデコーダ(410)、(510)、および(810)は、任意の適切な技術を使用して実装することができることに留意されたい。一実施形態では、ビデオエンコーダ(403)、(603)、および(703)、ならびにビデオデコーダ(410)、(510)、および(810)は、1つ以上の集積回路を使用して実装することができる。別の実施形態では、ビデオエンコーダ(403)、(603)、および(603)、ならびにビデオデコーダ(410)、(510)、および(810)は、ソフトウェア命令を実行する1つ以上のプロセッサを使用して実装することができる。
本開示の一実施形態によれば、ビットストリームは、1つ以上のコーディングビデオシーケンス(CVS)を含むことができる。CVSは、他のCVSから独立してコーディングすることができる。各CVSは1つ以上の層を含むことができ、各層は、特定の品質(例えば、空間解像度)を有するビデオの表現、または例えば深度マップ、透明度マップ、もしくは透視図などの特定の成分解釈特性の表現であり得る。時間次元では、各CVSは、1つ以上のアクセスユニット(AU)を含むことができる。各AUは、同じ時刻に対応する異なる層の1つ以上のピクチャを含むことができる。コーディング層ビデオシーケンス(CLVS)は、同じ層にピクチャユニットのシーケンスを含むことができる層ごとのCVSである。ビットストリームが複数の層を有する場合、ビットストリーム内のCVSは、層ごとに1つ以上のCLVSを有することができる。
一実施形態では、CVSは、AUのシーケンスが、復号順に、イントラランダムアクセスポイント(IRAP)AU、次いでIRAP AUではない0個以上のAUを含む、AUのシーケンスを含む。一例では、0個以上のAUは、IRAP AUである任意の後続のAUまでのすべての後続のAUを含むが、IRAP AUである任意の後続のAUは含まない。一例では、CLVSは、ピクチャのシーケンスと、CVSのベース層の関連する非ビデオコーディング層(VCL)ネットワーク抽象化層(NAL)ユニットとを含む。
(1つまたは複数の)SEIメッセージは、VCL NALユニットからのコーディングピクチャの復号サンプルなど、復号に必要ではない情報を含むことができる。(1つまたは複数の)SEIメッセージは、復号、表示、または他の目的に関連するプロセスで使用することができる。(1つまたは複数の)SEIメッセージは、復号プロセスによってルマまたはクロマサンプルを構成するためのオプションであり得る。(1つまたは複数の)SEIメッセージは、任意選択的に、特定の規格(例えば、HEVC 265またはVVC)への出力順の準拠のためにデコーダを準拠させることによって処理されてもよい。一実施形態では、(1つまたは複数の)SEIメッセージは、ビットストリーム内に存在する。
表1は、本開示の一実施形態による例示的な表示配向SEIメッセージ構文を示す。
表示配向SEIメッセージセマンティクスは、以下のように記述することができる。復号ピクチャが1に等しいピクチャ出力フラグ(例えば、PicOutputFlag)を有するとき、表示配向SEIメッセージは、表示前に、クロップされた復号ピクチャに適用される変換をデコーダに通知することができる。クロップされた復号ピクチャは、クロッピングウィンドウ(例えば、適合クロッピングウィンドウ)に基づいて復号ピクチャをクロップすることによって取得することができる。一例では、クロッピングウィンドウは、対応するコーディングピクチャによって参照されるシーケンスパラメータセット(SPS)において指定される。
ピクチャ出力フラグ(例えば、PicOutputFlag)は、復号ピクチャを出力するかどうかを含むことができる。例えば、ピクチャ出力フラグ(例えば、PicOutputFlag)が1であるとき、復号ピクチャは、出力として復号ピクチャバッファから送信することができる。ピクチャ出力フラグ(例えば、PicOutputFlag)が0であるとき、復号ピクチャは、出力として復号ピクチャバッファから送信されなくてもよい。
display_orientation_cancel_flagが1に等しいことは、表示配向SEIメッセージが出力順で任意の以前の表示配向SEIメッセージの持続性をキャンセルすることを示すことができる。display_orientation_cancel_flagが0に等しいことは、表示配向情報が続くことを示すことができる。表示配向情報は、水平フリップフラグ、垂直フリップフラグ、反時計回り回転、および表示配向持続性フラグを含むことができる。
水平フリップフラグ(例えば、hor_flip)が1に等しいことは、クロップされた復号ピクチャが表示のために水平方向にフリップされることを示すことができる。水平フリップフラグ(例えば、hor_flip)が0に等しいことは、復号ピクチャが水平方向にフリップされないことを示すことができる。
垂直フリップフラグ(例えば、ver_flip)が1に等しいことは、クロップされた復号ピクチャが表示のために(例えば、hor_flipが1に等しいときに水平方向にフリップされるのに加えて)垂直方向にフリップされることを示すことができる。垂直フリップフラグ(例えば、ver_flip)が0に等しいことは、復号ピクチャが垂直にフリップされないことを示すことができる。
反時計回り回転(例えば、anticlockwise_rotation)は、表示の前に(例えば、水平フリップフラグおよび垂直フリップフラグに基づいて水平フリップおよび/または垂直フリップを適用した後に)復号ピクチャの反時計回り回転を指定することができる。
同等の変換は、上述の構文要素を使用して複数の方法で表現することができる。
表示配向持続性フラグ(例えば、display_orientation_persistence_flag)は、現在の層の表示配向SEIメッセージの持続性を指定することができる。表示配向持続性フラグ(例えば、display_orientation_persistence_flag)が0に等しいことは、表示配向SEIメッセージが現在の復号ピクチャのみに適用されることを指定することができる。表示配向持続性フラグ(例えば、display_orientation_persistence_flag)が1に等しいことは、表示配向SEIメッセージが、1つ以上の条件が真になるまで出力順で現在の層について持続できることを指定することができる。1つ以上の条件は、(i)現在の層の新しいCLVSが始まる、(ii)ビットストリームが終了する、および/または(iii)別のピクチャのピクチャ順序カウントのための復号プロセスの呼び出しの直後に、別のピクチャのピクチャ順序カウント(POC)が現在のピクチャのPOCよりも大きい、現在の層に適用可能な表示配向SEIメッセージを含むアクセスユニット内の現在の層の別のピクチャが出力されることを含むことができる。
再サンプリングプロセスまたはワーピングプロセスは、再サンプリングされたピクチャ(またはワーピングピクチャ)を生成するために、ピクチャに適用することができる。ワーピングプロセスは、参照ピクチャ再サンプリング、画像安定化、グローバル移動の補償などにおいて使用することができる。一実施形態では、参照ピクチャ再サンプリングプロセスなどの再サンプリングプロセスは、H.263 Annex Pで使用され、本開示で説明されるような、現在のピクチャを予測する際に使用するためのワーピングピクチャを生成するために、前のピクチャ(例えば、以前に復号された参照ピクチャ)に適用される。一例では、再サンプリング構文は、異なるソースフォーマットを有する前のピクチャに対する現在のピクチャの関係を指定する。参照ピクチャ再サンプリングモードは、符号化中にピクチャの解像度を適応的に変更するために使用され得る。高速アルゴリズムは、双線形補間係数を生成するために使用することができる。一例では、再サンプリング構文は、例えばグローバル移動による、現在のピクチャに対する前のピクチャの形状、サイズ、および位置のグローバル移動ワーピング変更を指定する。
図9は、本開示の一実施形態による、ワーピングに使用される例示的なベクトルを示す。再サンプリングプロセス(例えば、参照ピクチャ再サンプリング)(900)は、現在のピクチャ領域(910)の4つのコーナーA~Dの変位を用いて説明することができる。水平サイズHおよび垂直サイズVを有する現在のピクチャ(910)の輝度フィールドでは、4つのベクトル(例えば、4つの概念的MV)v00、vH0、v0V、vHVは、それぞれピクチャ(910)の左上コーナーA、右上コーナーB、左下コーナーC、および右下コーナーDに対して定義することができる。4つの概念的MV v00、vH0、v0V、vHVは、前の復号ピクチャ(920)の対応するコーナーA’~D’上に4つのコーナーA~Dをマッピングするために、現在のピクチャ(910)の4つのコーナーA~Dをどのように移動させるかを記述することができる。4つのベクトルv00、vH0、v0V、vHVの単位は、参照ピクチャグリッド内の単位と同じであり得る。現在のピクチャ(910)の内部の実数値位置(x,y)におけるベクトルv(x,y)を生成するために、式1のように双線形補間の近似を使用することができる。
再サンプリングプロセスは、ベクトルv(x,y)に基づくことができる。現在のピクチャの水平サイズHおよび垂直サイズV、ならびに参照ピクチャの水平サイズHRおよび垂直サイズVRは、ピクチャヘッダ内に示すことができる。一例では、ピクチャ幅またはピクチャ高さが16で割り切れない場合、再サンプリングプロセスで使用されるのと同じフィルモードを使用して再サンプリングされたピクチャにピクセルを追加することによって、追加領域を生成することができる。
参照ピクチャ再サンプリングに加えて、ワーピングプロセスは、グローバル移動の画像安定化および/または補償に使用することができ、ワーピングパラメータ(例えば、4つのベクトル)を示すワーピング情報をシグナリングすることができる。ワーピングパラメータは、以下に記載されるように、SEIメッセージに含まれ得る。
本開示は、コーディングビデオストリームのためのSEIメッセージ(例えば、ワーピングベースの復号ピクチャ再サンプリング(WDPR)SEIメッセージ)に関するビデオコーディング技術を含む。ワーピングプロセスは、ビデオの意図しない変動運動を低減するために画像安定化で使用されるワーピングパラメータをSEIメッセージ(例えば、WDPR SEIメッセージ)が提供することができる、画像安定化において使用することができる。
ワーピングプロセスは、SEIメッセージ(例えば、WDPR SEIメッセージ)内のワーピングパラメータがより効率的または改善された動き補償予測のために使用され得る、複数の入力ピクチャ内のグローバル移動(または グローバルモーション)を補償するために使用することができる。一実施形態では、ワーピングプロセスは、前処理として複数の入力ピクチャに適用される順方向ワーピングプロセスと、後処理として複数の復号ピクチャに適用される逆方向ワーピングプロセスとを含む。一例では、複数の復号ピクチャは、複数の入力ピクチャに対応する。
SEIメッセージは、WDPR SEIメッセージなどの新しいSEIメッセージとして採用することができる。あるいは、SEIメッセージは、表1を参照して上述された表示配向SEIメッセージなどの別の既存のSEIメッセージと組み合わせることができる。一例では、ワーピングプロセスは、H.263 Annex Pで使用されるような、図9を参照して上述された再サンプリングプロセスに基づいている。
画像安定化は、画像シーケンスにおける望ましくない動きジッタを低減するために、広く使用されている。例えば、動きジッタは、カメラのシャッタを切っている間にカメラが揺れること、または被写体を素早く動かすことによって発生する。不安定な外部ソースまたは環境によって引き起こされる動き異常は、ビデオシーケンスにおける不快な視覚効果をもたらす可能性がある。主観的な視覚的品質を改善するために、復号ピクチャにワーピングプロセスを適用することができる。ワーピング処理は、例えばデコーダ側で、後処理として適用することができる。
図10Aは、本開示の一実施形態による、画像安定化における例示的なワーピングプロセス(1000A)を示す。キャプチャ側デバイスは、カメラジッタおよび他の外部の動きを判定(例えば、検出または感知)することができる。フレームごとまたはピクチャごとの動きは、ワーピング情報(例えば、ワーピングパラメータ)にパラメータ化することができる。図10Aに示される例では、パラメータ化されたワーピング情報は、SEIメッセージ(1051)などを通じて、デコーダ側に送信される。デコーダは、受信したワーピング情報を利用して、復号ピクチャ(1053)にワーピングプロセス(例えば、画像安定化処理)(1000A)を適用することができる。一例では、復号ピクチャ(1053)は、動きジッタ(1005)を有するクロップされた出力ピクチャである。ワーピングピクチャ(1055)は、ワーピングプロセス(1000A)によってクロップされた出力ピクチャ(1053)から生成することができる。クロップされた出力ピクチャ(1053)内の動きジッタ(1005)は、低減された動きジッタ(1006)を有するワーピングピクチャ(1055)などの安定化されたピクチャを生成するために、低減することができる。
上述のように、SEIメッセージ(例えば、WDPR SEIメッセージ)内のワーピングパラメータは、前処理として複数の入力ピクチャに順方向ワーピングプロセスを、後処理として複数の復号ピクチャに逆方向ワーピングプロセスを適用することによって、動き補償予測に使用することができる。図10Bは、本開示の一実施形態による、複数の入力ピクチャにおけるグローバル移動を補償するための例示的なワーピングプロセス(1000B)を示す。一例では、複数の入力ピクチャ(1011)~(1013)は、CLVSの一部である。複数の入力ピクチャ(1011)~(1013)は、ベクトル(1001)によって示される右上方向に向かうシフトなどのグローバル移動を示す。例えば、同じ特徴が、それぞれ複数の入力ピクチャ(1011)~(1013)の異なる位置(1091)~(1093)に位置している。隣接するピクチャ(例えば、(1011)~(1012))内の特徴の位置(例えば、位置(1091)~(1092))間の変位がベクトル(1001)である。エンコーダ側では、グローバル移動(例えば、ベクトル(1001))は、複数の入力ピクチャ(1011)~(1013)に基づいて決定することができる。本開示の一実施形態によれば、ワーピングプロセス(1000B)は、以下のようにコーディング効率を改善するために、複数の入力ピクチャに適用することができる。
図10Bを参照すると、エンコーダ側では、グローバル移動とは反対のシフト操作などの変換は、複数の入力ピクチャ(1011)~(1013)のグローバル移動に基づいて決定することができる。ベクトル(1001)とは反対のベクトル(1002)などの(1つまたは複数の)ワーピングパラメータを決定することができる。ベクトル(1002)に基づく順方向ワーピングプロセスは、グローバル移動を補償するために、複数の入力ピクチャ(1011)~(1013)に適用することができる。例えば、順方向ワーピングピクチャ(1021)~(1023)は、ベクトル(1002)に基づいて対応する入力ピクチャ(1011)~(1013)から生成される。図10Bを参照すると、同様または同一の特徴を有する静的ピクチャ(例えば、(1021)~(1023))は、異なる特徴を有するビデオシーケンス(例えば、入力ピクチャ(1011)~(1013))から生成され、したがって、同様の特徴を有する静的ピクチャをコーディングすることは、異なる特徴を有するビデオシーケンスをコーディングするよりも効率的であり得るので、コーディング効率が改善される。
順方向ワーピングピクチャ(1021)~(1023)は、コーディングピクチャを形成するために、エンコーダ側で符号化することができる。一例では、(1つまたは複数の)ワーピングパラメータ(例えば、ベクトル(1002))またはベクトル(1001))を含むワーピング情報は、SEIメッセージ(例えば、WDPR SEIメッセージ)にパラメータ化およびコーディングされる。一例では、デコーダ側の逆ワーピングプロセスで使用されるワーピング情報(例えば、ベクトル(1001)を含む)は、逆ワーピング情報と表記される。コーディングピクチャおよびSEIメッセージは、デコーダ側に送信することができる。
図10Bを参照すると、デコーダ側では、コーディングピクチャは、それぞれ入力ピクチャ(1011)~(1013)に対応する復号ピクチャ(1031)~(1033)に復号することができる。(1つまたは複数の)ワーピングパラメータ(例えば、ベクトル(1002)またはベクトル(1001))は、符号化されたSEIメッセージ内のワーピング情報に基づいて決定することができる。元の位置(1091)~(1093)を復元するために、逆ワーピングプロセスは、逆ワーピングピクチャ(1041)~(1043)を生成するために復号ピクチャ(1031)~(1033)に適用し、こうして元のグローバル移動を復元することができる。図10Bに示される例では、逆ワーピングプロセスは、ベクトル(1001)に基づく右上方向への復号ピクチャのシフトを含む。
ワーピングプロセス(1000B)は、ピクチャのシーケンスの(1つまたは複数の)形状、(1つまたは複数の)サイズ、および(1つまたは複数の)位置のワーピング変更を含むグローバル移動など、グローバル移動がより複雑であるときに、適切に適合することができる。一例では、グローバル移動は、図9の4つのベクトルによって表され、ワーピングプロセス(1000B)は、図9を参照して記載されるように、4つのベクトルに基づくことができる。
図11は、本開示の一実施形態による、符号化プロセス(1100)を概説するフローチャートを示す。プロセス(1100)は、複数の入力ピクチャを符号化するために使用することができる。一例では、プロセス(1100)は、順方向ワーピングプロセスを実行することを含む。様々な実施形態では、プロセス(1100)は、端末デバイス(310)、(320)、(330)、および(340)内の処理回路、ビデオエンコーダ(例えば、(403)、(603)、(703))の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、プロセス(1100)は、ソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路はプロセス(1100)を実行する。プロセスは(S1101)から始まり、(S1110)に進む。
(S1110)において、複数の入力ピクチャに関連付けられたグローバル移動に基づいて、複数の入力ピクチャのワーピングパラメータを決定することができる。グローバル移動は、複数の入力ピクチャのワーピング変更を含むことができる。ワーピング変更は、複数の入力ピクチャの(1つまたは複数の)形状、(1つまたは複数の)サイズ、および/または(1つまたは複数の)位置に対する(1つまたは複数の)変更を含むことができる。グローバル移動は、複数の入力ピクチャの(1つまたは複数の)並進、(1つまたは複数の)回転、および(1つまたは複数の)形状に対する変更など、任意の移動または移動の組合せを含むことができる。例えば、グローバル移動が(1つまたは複数の)並進(例えば、図10Bのベクトル(1002)または(1001)で表示される並進)よりも多くを含むとき、グローバル移動は、図9に示される4つのベクトルv00、vH0、v0V、vHVなどの複数のベクトルによって表すことができる。ワーピングパラメータは、(i)単一の ベクトル(例えば、(1001)または(1002))もしくは(ii)複数のベクトル(例えば、v00、vH0、v0V、vHV)の(1つまたは複数の)水平成分および(1つまたは複数の)垂直成分を含むことができる。
(S1120)において、ワーピングプロセスは、決定されたワーピングパラメータに基づいて、複数の入力ピクチャに適用することができる。例えば、ワーピングプロセスは、図10Bを参照して記載されたような順方向ワーピングプロセスである。順方向ワーピングピクチャ(例えば、(1021)~(1023))は、順方向ワーピングピクチャのグローバル移動が複数の入力ピクチャ(例えば、(1011)~(1013))のグローバル移動よりも小さい場合に生成することができる。したがって、順方向ワーピングピクチャを符号化することは、複数の入力ピクチャを直接符号化することよりも効率的であり得る。
プロセス(1100)が、図10Aのように、例えば画像安定化など、特定の用途で使用されるとき、ステップ(S1120)は、いくつかの用途において省略することができる。
(S1130)において、順方向ワーピングピクチャは、ビットストリームに符号化することができる。補足強化情報(SEI)メッセージを符号化することができ、SEIメッセージは、ワーピングプロセスが複数の入力ピクチャに適用されることを示す第1のフラグを含むことができる。SEIメッセージは、(S1110)で決定されたワーピングパラメータを示すことができる。一例では、SEIメッセージはビットストリームに含まれる。
本開示の一実施形態によれば、ワーピングプロセスは、図9を参照して記載された再サンプリングプロセスに基づくことができる。SEIメッセージは、WDPR SEIメッセージであり得る。表2は、WDPR SEIメッセージ構文の例示的な構文を示す。
WDPR SEIメッセージセマンティクスは、以下のように記述することができる。WDPR SEIメッセージは、デコーダ側の出力ピクチャ(例えば、復号ピクチャ)の再構成サンプルのワーピングプロセスを可能にするための情報を提供することができる。一例では、出力ピクチャ(例えば、復号ピクチャ)は、現在の層にあり、CLVSの一部である。図10Aを参照すると、WDPR SEIメッセージは、出力ピクチャをより良い視覚体験を提供する動き安定化ピクチャ(例えば、ワーピングピクチャ(1055))に変換するなどの目的で、出力ピクチャ(例えば、復号ピクチャ(1053))の再構成サンプルのワーピングプロセス(1000A)を可能にするための情報を提供することができる。図10Bを参照すると、WDPR SEIメッセージは、元のグローバル移動を復元するために、出力ピクチャ(例えば、復号ピクチャ(1031)~(1033))の再構成サンプルのワーピングプロセス(例えば、図10Bの逆ワーピングプロセス)を可能にするための情報を提供することができる。
第1のフラグ(例えば、warping_based_decoded_picture_resampling_cancel_flag)が真(例えば、1に等しい)であることは、WDPR SEIメッセージが、現在の層に適用される出力順で任意の以前のWDPR SEIメッセージの持続性をキャンセルすることを示すことができる。第1のフラグ(例えば、warping_based_decoded_picture_resampling_cancel_flag)が偽(例えば、0に等しい)であることは、ワーピング情報(例えば、WDPR情報)が続くことを示すことができる。一例では、ワーピング情報は、第1のフラグ(例えば、warping_based_decoded_picture_resampling_cancel_flag)が偽であるときにシグナリングされる。
一例では、第1のフラグ(例えば、warping_based_decoded_picture_resampling_cancel_flag)は、ワーピングプロセスが複数の入力ピクチャに適用されるかどうかを示す。第1のフラグが真(例えば、1に等しい)であることは、複数の入力ピクチャにワーピングプロセスが適用されないことを示すことができる。第1のフラグが偽(例えば、0に等しい)であることは、複数の入力ピクチャにワーピングプロセスが適用されることを示すことができる。
ワーピング情報は、第2のフラグ(例えば、warping_based_decoded_picture_resampling_persistence_flag)、ワーピングモード識別子(例えば、warping_mode_idc)、およびワーピングパラメータを含むことができる。
第2のフラグ(例えば、warping_based_decoded_picture_resampling_persistence_flag)は、WDPR SEIメッセージの持続性を指定することができる。持続性は、例えば、現在の層に対して指定することができる。第2のフラグ(例えば、warping_based_decoded_picture_resampling_persistence_flag)が偽(例えば、0に等しい)であることは、WDPR SEIメッセージが現在の復号ピクチャのみに適用されることを指定することができる。例えば、現在の復号ピクチャは、現在の層の出力ピクチャのうちの1つである。第2のフラグ(例えば、warping_based_decoded_picture_resampling_persistence_flag)が真(例えば、1に等しい)であることは、1つ以上の条件が真になるまでWDPR SEIメッセージが現在の復号ピクチャに適用され、出力順で現在の層のすべての後続のピクチャについて持続することを指定することができる。条件は、(i)現在の層の新しいCLVSが始まる、(ii)ビットストリームが終了する、および(iii)出力順で現在の復号ピクチャに続く、WDPR SEIメッセージ(例えば、現在の復号ピクチャのためのWDPR SEIメッセージとは異なる)に関連付けられたAU内の現在の層のピクチャが出力される、のうちの1つ以上を含むことができる。
ワーピングモード識別子(例えば、warping_mode_idc)は、出力ピクチャ(例えば、クロップされた出力ピクチャ)に適用されるワーピングモードを指定することができる。一例では、ワーピングモード識別子(例えば、warping_mode_idc)が0に等しいことは、8つのパラメータを含む4つのコーナーベクトルを有する図9を参照して上述されたワーピングプロセス(例えば、H.263 Annex Pで使用される)が適用されることを指定する。ワーピングパラメータは、4つのコーナーベクトルまたは8つのパラメータを含むことができる。ワーピングモード識別子(例えば、warping_mode_idc)が0に等しいとき、(corner_vector_x[i],corner_vector_y[i])と表記される4つのコーナーベクトルがSEIメッセージ内に存在する。ワーピングモード識別子の他の値は、他のワーピングモードを示すことができる。一例では、ワーピングモード識別子(例えば、warping_mode_idc)の1より大きい値は、ITU-T|ISO/IECなどによって将来の使用のために確保される。
コーナーベクトルは、変数corner_vector_x[i]およびcorner_vector_y[i]で表記される。図9に戻って参照すると、4つのコーナーベクトルv00、vH0、v0V、vHVの値などのワーピングパラメータは、それぞれ(corner_vector_x[0],corner_vector_y[0])、(corner_vector_x[1],corner_vector_y[1])、(corner_vector_x[2],corner_vector_y[2])、および(corner_vector_x[3],corner_vector_y[3])によって決定することができる。
プロセス(1100)は、(S1199)に進み、終了する。
プロセス(1100)は様々なシナリオに適切に適合することができ、プロセス(1100)内のステップは、それに応じて調整することができる。プロセス(1100)内のステップのうちの1つ以上は、適合、省略、反復、および/または組合せられることが可能である。プロセス(1100)を実施するために、任意の適切な順序を使用することができる。(1つまたは複数の)追加のステップを追加することができる。
一例では、表2を参照して説明されたワーピング情報は、表示配向SEIメッセージなどの別のSEIメッセージに含まれる。例えば、表2の1つ以上の構文要素が、表1の構文要素と組み合わせられる。
一例では、プロセス(1100)は、ステップ(S1120)を必要としない特定の用途で使用される。例えば、用途が画像安定化であれば、(S1120)は省略することができる。SEIメッセージ内のワーピング情報は、ワーピング情報に基づいてワーピングプロセスを実行するために、デコーダ側でデコーダによって使用することができる。(S1130)は、順方向ワーピングピクチャの代わりに複数の入力ピクチャが符号化されるように適合することができる。
一例では、プロセス(1100)はグローバル移動を低減するために使用され、(S1120)は順方向ワーピングプロセスとして実行される。SEIメッセージ内のワーピング情報は、ワーピング情報に基づいて逆ワーピングプロセスを実行するために、デコーダ側でデコーダによって使用することができる。
一例では、複数の入力ピクチャに対してワーピングプロセスを実行するかどうかは、グローバル移動または動きジッタに基づいて決定される。ワーピングプロセスが、エンコーダ側の複数の入力ピクチャおよび/またはデコーダ側の対応する復号ピクチャに対して実行されると決定された場合、本開示に記載されるように、プロセス(1100)の1つ以上のステップを実行することができる。ワーピングプロセスが実行されないと決定された場合、ステップ(S1110)および(S1120)は省略される。(S1130)は、複数の入力ピクチャが符号化されてSEIメッセージが符号化されないように適合することができる。
図12は、本開示の一実施形態による、復号プロセス(1200)を概説するフローチャートを示す。プロセス(1200)は、ビットストリーム内の現在のピクチャを復号し、現在の復号ピクチャに対してワーピングプロセスを実行するために使用することができる。様々な実施形態において、プロセス(1200)は、端末デバイス(310)、(320)、(330)、および(340)内の処理回路、ビデオエンコーダ(403)の機能を実行する処理回路、ビデオデコーダ(410)の機能を実行する処理回路、ビデオデコーダ(510)の機能を実行する処理回路、ビデオエンコーダ(603)の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、プロセス(1200)はソフトウェア命令で実施され、したがって、処理回路がソフトウェア命令を実行すると、処理回路はプロセス(1200)を実行する。プロセスは(S1201)から始まり、(S1210)に進む。
(S1210)において、現在のピクチャは、ビットストリームに基づいて復号することができる。
(S1220)において、ワーピングプロセスが現在の復号ピクチャに適用されるどうかを示す第1の情報(例えば、第1のフラグ)を、SEIメッセージから決定することができる。一例では、SEIメッセージはビットストリーム内の表示配向SEIメッセージであり、表示配向SEIメッセージは、表2に示されるような構文要素(例えば、第1のフラグ、第2のフラグ、ワーピングモード識別子、およびコーナーベクトル)を含む。一例では、SEIメッセージは、表2を参照して説明されたような、ビットストリーム内のWDPR SEIメッセージである。
一例では、第1のフラグは上述のwarping_based_decoded_picture_resampling_cancel_flagとして表記される。第1のフラグが偽(例えば、0に等しい)であることは、ワーピング情報がSEIメッセージに含まれ、ワーピングプロセスが適用されることを示すことができる。第1のフラグ(例えば、warping_based_decoded_picture_resampling_cancel_flag)が真(例えば、1に等しい)であることは、SEIメッセージが、現在の層に適用される出力順で任意の以前のWDPR SEIメッセージの持続性をキャンセルし、ワーピングプロセスが適用されないことを示すことができる。
(S1230)において、ワーピングプロセスが現在の復号ピクチャに適用されることを示す第1の情報(例えば、第1のフラグ)に基づいて、ワーピングプロセスのワーピング情報をSEIメッセージに基づいて決定することができる。
ワーピング情報は、現在の復号ピクチャのコーナーとワーピングピクチャの対応するコーナーとの間の4つのコーナーベクトル(例えば、図9に示されるv00、vH0、v0V、vHV)などのワーピングパラメータを示すことができる。いくつかの例では、ワーピングパラメータは、シフト操作を示すベクトル(例えば、図10Bのベクトル(1001)または(1002))を含む。
一例では、ワーピング情報はワーピングモード(例えば、0のワーピングモード識別子を有するワーピングモード)を示し、ワーピングモードに基づいて4つのコーナーベクトルを決定することができる。
ワーピング情報は、第2の情報(例えば、第2のフラグ)を含むことができる。一例では、第2のフラグは、warping_based_decoded_picture_resampling_persistence_flagとして表記される。第1の値(例えば、0)を有する第2のフラグは、SEIメッセージが現在の復号ピクチャにのみ適用されることを示す。第2の値(例えば、1)を有する第2のフラグは、SEIメッセージが、条件が満たされるまで、出力順で現在の復号ピクチャおよび現在の層の1つ以上の引き続き復号されたピクチャに適用されることを示す。条件は、以下の(i)現在の層の新しいCLVSが始まる、(ii)ビットストリームが終了する、(iii)出力順で現在の復号ピクチャに続く、WDPR SEIメッセージ(例えば、現在の復号ピクチャのためのSEIメッセージとは異なる)に関連付けられたAU内の現在の層のピクチャが出力される、のうちの1つ以上を含むことができる。
(S1240)において、ワーピングピクチャは、ワーピングパラメータなどのワーピング情報に基づいて、現在の復号ピクチャから決定することができる。一例では、ワーピングパラメータは、4つのコーナーベクトル(例えば、図9に示されるv00、vH0、v0V、vHV)を含むことができ、現在の復号ピクチャ内のサンプル位置とワーピングピクチャ内の対応する位置との間のベクトルは、例えば式1を使用して、4つのコーナーベクトルに基づいて決定することができる。
一例では、第2のフラグは、SEIメッセージが、出力順で現在の復号ピクチャおよび現在の層の1つ以上の引き続き復号されたピクチャに適用されることを示す、第2の値を有する。出力順で現在のピクチャに続く現在の層の後続のピクチャが復号され得る。後続のワーピングピクチャは、ワーピング情報に基づいて、引き続き復号されたピクチャから決定することができる。
プロセス(1200)は、(S1299)に進み、終了する。
プロセス(1200)は、様々なシナリオに適切に適合することができ、プロセス(1200)内のステップは、それに応じて調整することができる。プロセス(1200)内のステップのうちの1つ以上は、適合、省略、反復、および/または組合せられることが可能である。プロセス(1200)を実施するために、任意の適切な順序を使用することができる。(1つまたは複数の)追加のステップを追加することができる。
一例では、前のSEIメッセージによって示されたワーピングプロセスがキャンセルされたことを示す第1のフラグに基づいて、ワーピングプロセスは、現在の復号ピクチャに適用されない。したがって、ステップ(S1230)および(S1240)は省略される。
プロセス(1200)は、例えば図10Aに示されるように、画像安定化などの特定の用途で使用することができ、エンコーダ側で対応するワーピングプロセスは実行されない。プロセス(1200)は、対応する順方向ワーピングプロセスがエンコーダ側で実行される図10Bに示されるようにグローバル移動を補償するために、逆ワーピングプロセスとして使用することができる。一例では、SEIメッセージ内のワーピングパラメータは、プロセス(1200)が画像安定化のためのものであるか、グローバル移動を補償するための逆ワーピングプロセスであるかに基づいて、適合される。一例では、画像安定化、またはグローバル移動を補償する際の逆ワーピングプロセスのために使用されるSEIメッセージ内のワーピングパラメータは同一であり、(S1240)は、プロセス(1200)が画像安定化のためのものであるか、グローバル移動を補償するための逆ワーピングプロセスであるかに基づいて、適合することができる。
本開示の実施形態は、別々に使用されてもよく、任意の順序で組み合わされてもよい。さらに、方法(または実施形態)の各々、エンコーダ、およびデコーダは、処理回路(例えば、1つ以上のプロセッサまたは1つ以上の集積回路)によって実装されてもよい。一例では、1つ以上のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。
上記で説明した技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装され、1つ以上のコンピュータ可読媒体に物理的に記憶され得る。例えば、図13は、開示された主題の特定の実施形態を実施するのに適したコンピュータシステム(1300)を示す。
コンピュータソフトウェアは、1つ以上のコンピュータ中央処理装置(CPU)およびグラフィックスプロセッシングユニット(GPU)などによって直接的に、または解釈、マイクロコードの実行などを介して実行することができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、または同様のメカニズムを受け得る、任意の適切な機械コードまたはコンピュータ言語を使用してコーディングすることができる。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、モノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはコンピュータの構成要素上で実行することができる。
コンピュータシステム(1300)について図13に示されている構成要素は、本質的に例示であり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能の範囲に関する限定を示唆することを意図していない。構成要素の構成は、コンピュータシステム(1300)の例示的な実施形態に示された構成要素のいずれか1つまたは組合せに関するいかなる依存性または要件も有すると解釈されるべきでない。
コンピュータシステム(1300)は、特定のヒューマンインターフェース入力デバイスを含んでもよい。このようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、オーディオ入力(音声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力(図示せず)を介した、1人以上の人間ユーザによる入力に応答し得る。ヒューマンインターフェースデバイスは、オーディオ(発話、音楽、環境音など)、画像(走査画像、写真画像は静止画像カメラから取得など)、ビデオ(二次元ビデオ、立体ビデオを含む三次元ビデオなど)といった、必ずしも人間による意識的な入力に直接関連しない特定の媒体をキャプチャするために使用することもできる。
入力ヒューマンインターフェースデバイスは、キーボード(1301)、マウス(1302)、トラックパッド(1303)、タッチスクリーン(1310)、データグローブ(図示せず)、ジョイスティック(1305)、マイクロフォン(1306)、スキャナ(1307)、カメラ(1308)のうちの1つ以上を含み得る(各々の1つのみが描写されている)。
コンピュータシステム(1300)は、特定のヒューマンインターフェース出力デバイスも含み得る。このようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および匂い/味を介して、1人以上の人間のユーザの感覚を刺激し得る。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(1310)、データグローブ(図示せず)、またはジョイスティック(1305)による触覚フィードバック、しかし入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある)、(スピーカ(1309)、ヘッドフォン(描写せず)などの)オーディオ出力デバイス、(CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン(1310)など、各々タッチスクリーン入力機能の有無にかかわらず、各々触覚フィードバック機能の有無にかかわらず、それらのうちのいくつかは、ステレオグラフィック出力、仮想現実眼鏡(描写せず)、ホログラフィックディスプレイおよびスモークタンク(描写せず)などの手段を介して2次元視覚出力または3次元以上の出力を出力することが可能な場合がある)視覚出力デバイス、ならびにプリンタ(描写せず)を含むことができる。
コンピュータシステム(1300)は、CD/DVDまたは同様の媒体(1321)を有するCD/DVD ROM/RW(1320)を含む光学媒体、サムドライブ(1322)、リムーバブルハードドライブまたはソリッドステートドライブ(1323)、テープおよびフロッピーディスクなどのレガシー磁気媒体(描写せず)、セキュリティドングルなどの特殊なROM/ASIC/PLDベースのデバイス(描写せず)などの、人間がアクセス可能なストレージデバイスおよびそれらに関連する媒体を含むこともできる。
当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語が、送信媒体、搬送波、または他の一時的な信号を包含しないことを理解するはずである。
コンピュータシステム(1300)は、1つ以上の通信ネットワーク(1355)へのインターフェース(1354)を含むこともできる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業用、リアルタイム、遅延耐性などとすることができる。ネットワークの例は、イーサネット、無線LANなどのローカルエリアネットワーク、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルテレビ、衛星テレビ、および地上波放送テレビを含むテレビ有線または無線広域デジタルネットワーク、CANBusを含む車両および産業用などを含む。特定のネットワークは通常、特定の汎用データポートまたは周辺バス(1349)(例えば、コンピュータシステム(1300)のUSBポート)に接続された外部ネットワークインターフェースアダプタを必要とし、他のものは一般に、以下に説明するように、システムバスに接続することによってコンピュータシステム(1300)のコアに統合される(例えば、PCコンピュータシステムに対するイーサネットインターフェース、またはスマートフォンコンピュータシステムに対するセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(1300)は他のエンティティと通信することができる。このような通信は、一方向、受信専用(例えば、テレビ放送)、一方向送信専用(例えば、CANbusから特定のCANbusデバイス)または双方向、例えば、ローカルもしくは広域デジタルネットワークを用いた他のコンピュータシステムに対する双方向の通信とすることができる。特定のプロトコルおよびプロトコルスタックは、上述のように、これらのネットワークおよびネットワークインターフェースの各々で使用することができる。
前述のヒューマンインターフェースデバイス、人間がアクセス可能なストレージデバイス、およびネットワークインターフェースは、コンピュータシステム(1300)のコア(1340)に取り付けることができる。
コア(1340)は、1つ以上の中央処理装置(CPU)(1341)、グラフィックスプロセッシングユニット(GPU)(1342)、フィールドプログラマブルゲートエリア(FPGA)(1343)の形態の専用プログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ(1344)、グラフィックスアダプタ(1350)などを含むことができる。これらのデバイスは、読取り専用メモリ(ROM)(1345)、ランダムアクセスメモリ(1346)、内部のユーザアクセス不可能なハードドライブ、SSDなどの内部大容量ストレージ(1347)とともに、システムバス(1348)を通じて接続され得る。一部のコンピュータシステムでは、システムバス(1348)は、追加のCPU、GPUなどによる拡張を可能にするために、1つ以上の物理プラグの形態でアクセス可能とすることができる。周辺デバイスは、コアのシステムバス(1348)に直接取り付けることも、周辺バス(1349)を介して取り付けることもできる。一例では、スクリーン(1310)は、グラフィックスアダプタ(1350)に接続することができる。周辺バスのアーキテクチャは、PCI、USBなどを含む。
CPU(1341)、GPU(1342)、FPGA(1343)およびアクセラレータ(1344)は、組み合わされて、上述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ROM(1345)またはRAM(1346)に記憶することができる。移行データもRAM(1346)に記憶することができるが、永続データは、例えば、内部大容量ストレージ(1347)に記憶することができる。メモリデバイスのいずれかに対する高速の記憶および検索は、1つ以上のCPU(1341)、GPU(1342)、大容量ストレージ(1347)、ROM(1345)、RAM(1346)などと密接に関連付けることができるキャッシュメモリを使用して可能にすることができる。
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであってもよい。
限定ではなく例として、アーキテクチャを有するコンピュータシステム(1300)、具体的にはコア(1340)は、(CPU、GPU、FPGA、アクセラレータなどを含む)(1つまたは複数の)プロセッサが1つ以上の有形のコンピュータ可読媒体において具現化されたソフトウェアを実行した結果として機能を提供することができる。このようなコンピュータ可読媒体は、上述のようなユーザアクセス可能な大容量ストレージ、ならびにコア内部大容量ストレージ(1347)またはROM(1345)などの非一時的な性質のものであるコア(1340)の特定のストレージと関連付けられた媒体とすることができる。本開示の様々な実施形態を実装するソフトウェアは、このようなデバイスに記憶され、コア(1340)によって実行することができる。コンピュータ可読媒体は、特定の必要性に応じて、1つ以上のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア(1340)、および具体的にはその中の(CPU、GPU、FPGAなどを含む)プロセッサに、RAM(1346)に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスにしたがってこのようなデータ構造を修正することを含む、本明細書に記載された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、ソフトウェアの代わりに、またはソフトウェアとともに動作して、本明細書に記載される特定のプロセスまたは特定のプロセスの特定の部分を実行することができる、回路(例えば、アクセラレータ(1344))におけるハードワイヤードの、または他の方法で具現化された論理の結果として機能を提供することもできる。ソフトウェアへの言及は、必要に応じて、論理を包含することができ、その逆も同様である。必要に応じて、コンピュータ可読媒体への言及は、実行のためのソフトウェアを記憶する回路(集積回路(IC)など)、実行のための論理を具現化する回路、またはこれらの両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組合せを包含する。
付記A:頭字語
JEM:共同探索モデル
VVC:多用途ビデオコーディング
BMS:ベンチマークセット
MV:動きベクトル
HEVC:高効率ビデオコーディング
SEI:補足強化情報
VUI:ビデオユーザビリティ情報
GOP:ピクチャグループ
TU:変換ユニット
PU:予測ユニット
CTU:コーディングツリーユニット
CTB:コーディングツリーブロック
PB:予測ブロック
HRD:仮想参照デコーダ
SNR:信号対雑音比
CPU:中央処理装置
GPU:グラフィックスプロセッシングユニット
CRT:陰極線管
LCD:液晶ディスプレイ
OLED:有機発光ダイオード
CD:コンパクトディスク
DVD:デジタルビデオディスク
ROM:読取り専用メモリ
RAM:ランダムアクセスメモリ
ASIC:特定用途向け集積回路
PLD:プログラマブル論理デバイス
LAN:ローカルエリアネットワーク
GSM:グローバル移動体通信システム
LTE:ロングタームエボリューション
CANBus:コントローラエリアネットワークバス
USB:ユニバーサルシリアルバス
PCI:周辺機器相互接続
FPGA:フィールドプログラマブルゲートエリア
SSD:ソリッドステートドライブ
IC:集積回路
CU:コーディングユニット
R-D:レート歪み
本開示はいくつかの例示的な実施形態を説明してきたが、修正例、置換例、および様々な代替均等例があり、それらは本開示の範囲内にある。したがって、当業者は、本明細書に明示的に図示または記載されていないが、本開示の原理を具現化し、したがって、その趣旨および範囲内にある、多数のシステムおよび方法を考案できることが理解されよう。
101 サンプル
102 矢印
103 矢印
104 ブロック
201 現在のブロック
202 周囲サンプル
203 周囲サンプル
204 周囲サンプル
205 周囲サンプル
206 周囲サンプル
300 通信システム
310 端末デバイス
320 端末デバイス
330 端末デバイス
340 端末デバイス
350 ネットワーク
400 通信システム
401 ビデオソース
402 ストリーム
403 ビデオエンコーダ
404 符号化ビデオデータ
405 ストリーミングサーバ
406 クライアントサブシステム
407 コピー
408 クライアントサブシステム
409 コピー
410 ビデオデコーダ
411 出力ストリーム
412 ディスプレイ
413 キャプチャサブシステム
420 電子デバイス
430 電子デバイス
501 チャネル
510 ビデオデコーダ
512 レンダリングデバイス
515 バッファメモリ
520 パーサ
521 シンボル
530 電子デバイス
531 受信機
551 スケーラ/逆変換ユニット
552 イントラピクチャ予測ユニット
553 動き補償予測ユニット
555 アグリゲータ
556 ループフィルタユニット
557 参照ピクチャメモリ
558 現在のピクチャバッファ
601 ビデオソース
603 ビデオエンコーダ
620 電子デバイス
630 ソースコーダ
632 コーディングエンジン
633 ローカルデコーダ
634 参照ピクチャメモリ
635 予測器
640 送信機
643 コーディングビデオシーケンス
645 エントロピーコーダ
650 コントローラ
660 通信チャネル
703 ビデオエンコーダ
721 汎用コントローラ
722 イントラエンコーダ
723 残差計算器
724 残差エンコーダ
725 エントロピーエンコーダ
726 スイッチ
728 残差デコーダ
730 インターエンコーダ
810 ビデオデコーダ
871 エントロピーデコーダ
872 イントラデコーダ
873 残差デコーダ
874 再構成モジュール
880 インターデコーダ
900 再サンプリングプロセス
910 現在のピクチャ領域
920 前の復号ピクチャ
1000A ワーピングプロセス
1000B ワーピングプロセス
1001 ベクトル
1002 ベクトル
1005 動きジッタ
1006 動きジッタ
1011 入力ピクチャ
1012 入力ピクチャ
1013 入力ピクチャ
1021 順方向ワーピングピクチャ
1022 順方向ワーピングピクチャ
1023 順方向ワーピングピクチャ
1031 復号ピクチャ
1032 復号ピクチャ
1033 復号ピクチャ
1041 逆ワーピングピクチャ
1042 逆ワーピングピクチャ
1043 逆ワーピングピクチャ
1051 補足強化情報(SEI)メッセージ
1053 復号ピクチャ
1055 ワーピングピクチャ
1091 位置
1092 位置
1093 位置
1100 符号化プロセス
1200 復号プロセス
1300 コンピュータシステム
1301 キーボード
1302 マウス
1303 トラックパッド
1305 ジョイスティック
1306 マイクロフォン
1307 スキャナ
1308 カメラ
1309 スピーカ
1310 タッチスクリーン
1320 CD/DVD ROM/RW
1321 媒体
1322 サムドライブ
1323 リムーバブルハードドライブまたはソリッドステートドライブ
1340 コア
1341 中央処理装置(CPU)
1342 グラフィックスプロセッシングユニット(GPU)
1343 フィールドプログラマブルゲートエリア(FPGA)
1344 ハードウェアアクセラレータ
1345 読取り専用メモリ(ROM)
1346 ランダムアクセスメモリ
1347 内部大容量ストレージ
1348 システムバス
1349 周辺バス
1350 グラフィックスアダプタ
1354 インターフェース
1355 通信ネットワーク

Claims (20)

  1. ビデオデコーダにおけるビデオ復号のための方法であって、
    ビットストリームに基づいて現在のピクチャを復号するステップと、
    補足強化情報(SEI)メッセージから、ワーピングプロセスが前記現在の復号ピクチャに適用されるかどうかを示す第1のフラグを決定するステップと、
    前記ワーピングプロセスが前記現在の復号ピクチャに適用されることを示す前記第1のフラグに基づいて、前記SEIメッセージに基づいて前記ワーピングプロセスのワーピング情報を決定するステップと、
    前記ワーピング情報に基づいて、前記現在の復号ピクチャからワーピングピクチャを決定するステップとを含む、方法。
  2. 前記SEIメッセージは、前記ビットストリーム内の表示配向SEIメッセージである、
    請求項1に記載の方法。
  3. 前記SEIメッセージは、前記ビットストリーム内のワーピングベースの復号ピクチャ再サンプリング(WDPR)SEIメッセージである、請求項1に記載の方法。
  4. 前記ワーピング情報は、前記現在の復号ピクチャのコーナーと前記ワーピングピクチャの対応するコーナーとの間の4つのコーナーベクトルを示す、請求項1に記載の方法。
  5. 前記ワーピングピクチャを決定する前記ステップは、
    前記4つのコーナーベクトルに基づいて、前記現在の復号ピクチャ内のサンプル位置と前記ワーピングピクチャ内の対応する位置との間のベクトルを決定するステップを含む、請求項4に記載の方法。
  6. 前のSEIメッセージによって示された前記ワーピングプロセスがキャンセルされたことを示す前記第1のフラグに基づいて、前記ワーピングプロセスは、前記現在の復号ピクチャに適用されない、
    請求項1に記載の方法。
  7. 前記ワーピング情報は第2のフラグを含み、
    第1の値を有する前記第2のフラグに基づいて、前記SEIメッセージは前記現在の復号ピクチャのみに適用され、
    第2の値を有する前記第2のフラグに基づいて、前記SEIメッセージは、条件が満たされるまで、出力順で前記現在の復号ピクチャおよび現在の層の1つ以上の引き続き復号されたピクチャに適用される、
    請求項1に記載の方法。
  8. 前記第2のフラグは前記第2の値を有し、
    前記方法は、
    前記出力順で前記現在のピクチャに続く前記現在の層の後続のピクチャを復号するステップと、
    前記ワーピング情報に基づいて、前記引き続き復号されたピクチャからワーピングピクチャを決定するステップとをさらに含む、
    請求項7に記載の方法。
  9. 前記条件は、前記現在の層の新しいコーディング層ビデオシーケンス(CLVS)を含む、請求項7に記載の方法。
  10. 前記ワーピング情報はワーピングモードを含み、
    前記ワーピング情報を決定する前記ステップは、前記ワーピングモードに基づいて前記4つのコーナーベクトルを決定するステップを含む、
    請求項4に記載の方法。
  11. ビデオ復号のための装置であって、
    ビットストリームに基づいて現在のピクチャを復号し、
    補足強化情報(SEI)メッセージから、ワーピングプロセスが前記現在の復号ピクチャに適用されるかどうかを示す第1のフラグを決定し、
    前記ワーピングプロセスが前記現在の復号ピクチャに適用されることを示す前記第1のフラグに基づいて、前記SEIメッセージに基づいて前記ワーピングプロセスのワーピング情報を決定し、
    前記ワーピング情報に基づいて、前記現在の復号ピクチャからワーピングピクチャを決定する、
    ように構成された処理回路を備える、装置。
  12. 前記SEIメッセージは、前記ビットストリーム内の表示配向SEIメッセージである、請求項11に記載の装置。
  13. 前記SEIメッセージは、前記ビットストリーム内のワーピングベースの復号ピクチャ再サンプリング(WDPR)SEIメッセージである、請求項11に記載の装置。
  14. 前記ワーピング情報は、前記現在の復号ピクチャのコーナーと前記ワーピングピクチャの対応するコーナーとの間の4つのコーナーベクトルを示す、請求項11に記載の装置。
  15. 前記処理回路は、
    前記4つのコーナーベクトルに基づいて、前記現在の復号ピクチャ内のサンプル位置と前記ワーピングピクチャ内の対応する位置との間のベクトルを決定する、ように構成されている、請求項14に記載の装置。
  16. 前のSEIメッセージによって示された前記ワーピングプロセスがキャンセルされたことを示す前記第1のフラグに基づいて、前記ワーピングプロセスは、前記現在の復号ピクチャに適用されない、
    請求項11に記載の装置。
  17. 前記ワーピング情報は第2のフラグを含み、
    第1の値を有する前記第2のフラグに基づいて、前記SEIメッセージは前記現在の復号ピクチャのみに適用され、
    第2の値を有する前記第2のフラグに基づいて、前記SEIメッセージは、条件が満たされるまで、出力順で前記現在の復号ピクチャおよび現在の層の1つ以上の引き続き復号されたピクチャに適用される、
    請求項11に記載の装置。
  18. 前記第2のフラグは前記第2の値を有し、
    前記処理回路は、
    前記出力順で前記現在のピクチャに続く前記現在の層の後続のピクチャを復号し、
    前記ワーピング情報に基づいて、前記引き続き復号されたピクチャからワーピングピクチャを決定する、ように構成されている、
    請求項17に記載の装置。
  19. 前記条件は、前記現在の層の新しいコーディング層ビデオシーケンス(CLVS)を含む、請求項17に記載の装置。
  20. ビットストリームに基づいて現在のピクチャを復号するステップと、
    補足強化情報(SEI)メッセージから、ワーピングプロセスが前記現在の復号ピクチャに適用されるかどうかを示す第1のフラグを決定するステップと、
    前記ワーピングプロセスが前記現在の復号ピクチャに適用されることを示す前記第1のフラグに基づいて、前記SEIメッセージに基づいて前記ワーピングプロセスのワーピング情報を決定するステップと、
    前記ワーピング情報に基づいて、前記現在の復号ピクチャからワーピングピクチャを決定するステップと、
    を実行するために、少なくとも1つのプロセッサによって実行可能なプログラムを記憶している非一時的コンピュータ可読記憶媒体。
JP2023519385A 2021-06-28 2022-06-28 補足強化情報メッセージを再サンプリングするワーピングベースの復号ピクチャ Pending JP2023543587A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163215906P 2021-06-28 2021-06-28
US63/215,906 2021-06-28
US17/850,641 US11936913B2 (en) 2021-06-28 2022-06-27 Warping-based decoded picture resampling supplementary enhancement information message
US17/850,641 2022-06-27
PCT/US2022/073242 WO2023279013A1 (en) 2021-06-28 2022-06-28 Warping-based decoded picture resampling supplementary enhancement information message

Publications (1)

Publication Number Publication Date
JP2023543587A true JP2023543587A (ja) 2023-10-17

Family

ID=84360420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023519385A Pending JP2023543587A (ja) 2021-06-28 2022-06-28 補足強化情報メッセージを再サンプリングするワーピングベースの復号ピクチャ

Country Status (6)

Country Link
US (2) US11936913B2 (ja)
EP (1) EP4133735A4 (ja)
JP (1) JP2023543587A (ja)
KR (1) KR20230157478A (ja)
CN (1) CN116325743A (ja)
WO (1) WO2023279013A1 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8363721B2 (en) 2009-03-26 2013-01-29 Cisco Technology, Inc. Reference picture prediction for video coding
US9596448B2 (en) 2013-03-18 2017-03-14 Qualcomm Incorporated Simplifications on disparity vector derivation and motion vector prediction in 3D video coding
US9571812B2 (en) * 2013-04-12 2017-02-14 Disney Enterprises, Inc. Signaling warp maps using a high efficiency video coding (HEVC) extension for 3D video coding
CN106105220B (zh) * 2014-01-07 2019-07-05 诺基亚技术有限公司 用于视频编码和解码的方法和装置
US10880565B2 (en) * 2014-03-24 2020-12-29 Qualcomm Incorporated Use of specific HEVC SEI messages for multi-layer video codecs
US10104361B2 (en) 2014-11-14 2018-10-16 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing
US11310492B2 (en) 2019-09-20 2022-04-19 Tencent America LLC Signaling of inter layer prediction in video bitstream

Also Published As

Publication number Publication date
CN116325743A (zh) 2023-06-23
KR20230157478A (ko) 2023-11-16
WO2023279013A1 (en) 2023-01-05
US11936913B2 (en) 2024-03-19
EP4133735A4 (en) 2023-09-06
US20240179349A1 (en) 2024-05-30
US20230007306A1 (en) 2023-01-05
EP4133735A1 (en) 2023-02-15

Similar Documents

Publication Publication Date Title
JP7443455B2 (ja) 映像復号化のための方法、装置及びコンピュータ・プログラム
JP7241177B2 (ja) アフィン線形加重イントラ予測モードのための簡易シグナリング方法
KR102474158B1 (ko) 스몰 블록에 대한 예측 및 변환을 위한 방법 및 장치
JP7358487B2 (ja) イントラ画像ブロック補償のためのデコードされたブロックベクトルの変換
WO2020027988A1 (en) Constraints on coding unit partition
JP2022510354A (ja) ビデオ符号化における隣接ブロックの利用可能性のための方法および装置
JP2022552381A (ja) ビデオ復号の方法、装置、およびコンピュータプログラム
JP2023164443A (ja) ビデオコーディングのための方法、装置、およびプログラム
JP2023138753A (ja) 統合位置依存予測組み合わせプロセスを使用するデコードのための方法、装置およびコンピュータ・プログラム
JP7236558B2 (ja) ビデオコーディングのための方法および装置
JP2024024054A (ja) ビデオコーディングのための方法および装置
JP7395771B2 (ja) テンプレートマッチングベースのイントラ予測
JP7346566B2 (ja) ビデオ復号方法、ビデオ復号装置、コンピュータプログラム、およびビデオ符号化方法
JP7467675B2 (ja) ビデオコーディングのための方法および装置
JP2023522704A (ja) ビデオコーディングのための方法および装置、およびコンピュータプログラム
JP2023510690A (ja) ビデオコーディングのための方法及び装置
US11936913B2 (en) Warping-based decoded picture resampling supplementary enhancement information message
JPWO2021207026A5 (ja)
JP7423132B2 (ja) ビデオ符号化のための方法および装置
US12010316B2 (en) Modification on fusion of intra prediction
JP7169451B2 (ja) ビデオ復号の方法、装置、及びコンピュータプログラム
US20230108480A1 (en) Modification on fusion of intra prediction
JP2024508459A (ja) ビデオ復号化方法及び装置、並びにビデオ符号化方法
JP2023543590A (ja) 映像復号のための方法、装置、及びコンピュータプログラム
JP2024074919A (ja) ビデオコーディングのための方法および装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240524