JP2022523440A - ビデオコーディングにおけるヌルタイルコーディング - Google Patents

ビデオコーディングにおけるヌルタイルコーディング Download PDF

Info

Publication number
JP2022523440A
JP2022523440A JP2021553367A JP2021553367A JP2022523440A JP 2022523440 A JP2022523440 A JP 2022523440A JP 2021553367 A JP2021553367 A JP 2021553367A JP 2021553367 A JP2021553367 A JP 2021553367A JP 2022523440 A JP2022523440 A JP 2022523440A
Authority
JP
Japan
Prior art keywords
photo
coding
area
bitstream
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021553367A
Other languages
English (en)
Other versions
JP7416820B2 (ja
Inventor
ミン リー,
ピン ウー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2022523440A publication Critical patent/JP2022523440A/ja
Application granted granted Critical
Publication of JP7416820B2 publication Critical patent/JP7416820B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

ビットストリーム処理方法は、ビットストリームを解析し、写真領域フラグをビットストリーム内の写真領域に対応するデータユニットから取得するステップであって、写真領域は、N個の写真ブロックを含み、Nは、整数である、ステップと、写真領域フラグの値に基づいて、写真領域のデコーディングされた表現をビットストリームから選択的に生成するステップとを含み、選択的に生成するステップは、写真領域フラグの値が、第1の値である場合、第1のデコーディング方法を使用して、デコーディングされた表現をビットストリームから生成するステップと、写真領域フラグの値が、第1の値と異なる、第2の値である場合、第1のデコーディング方法と異なる、第2のデコーディング方法を使用して、デコーディングされた表現をビットストリームから生成するステップとを含む。

Description

本特許文書は、概して、ビデオおよび画像エンコーディングおよびデコーディングを対象とする。
ビデオエンコーディングは、圧縮ツールを使用して、2次元ビデオフレームを、ネットワークを経由して記憶またはトランスポートするためにより効率的である、圧縮されたビットストリーム表現にエンコーディングする。エンコーディングするために2次元ビデオフレームを使用する、従来的ビデオコーディング技法は、時として、3次元の視覚的場面の視覚的情報の表現にとって非効率的である。
本特許文書は、とりわけ、いくつかの実施形態では、没入型のビデオをコーディングまたはデコーディングするために使用され得る、ヌルタイルコーディングを使用して、デジタルビデオをエンコーディングおよびデコーディングするための技法を説明する。
本開示は、ビデオ処理および通信に関し、特に、デジタルビデオまたは写真をエンコーディングし、ビットストリームを生成するための方法および装置、ビットストリームをデコーディングし、デジタルビデオまたは写真(視覚的情報)を再構築するための方法および装置、ビットストリームを抽出し、サブビットストリームを形成するための方法および装置に関する。
一例示的側面では、ビットストリーム処理の方法が、開示される。本方法は、ビットストリームを解析し、写真領域フラグをビットストリーム内の写真領域に対応するデータユニットから取得するステップであって、写真領域は、N個の写真ブロックを含み、Nは、整数である、ステップと、写真領域フラグの値に基づいて、写真領域のデコーディングされた表現をビットストリームから選択的に生成するステップを含み、選択的に生成するステップは、写真領域フラグの値が、第1の値である場合、第1のデコーディング方法を使用して、デコーディングされた表現をビットストリームから生成するステップと、写真領域フラグの値が、第1の値と異なる、第2の値である場合、第1のデコーディング方法と異なる、第2のデコーディング方法を使用して、デコーディングされた表現をビットストリームから生成するステップとを含む。
別の側面では、視覚的情報処理の方法が、開示される。本方法は、ビットストリームを解析し、写真領域パラメータをビットストリーム内のパラメータセットデータユニットから取得するステップであって、写真領域パラメータは、1つ以上の写真領域への写真のパーティション化を示す、ステップと、標的写真領域に従って、標的写真領域内に位置する1つ以上の写真領域を決定するステップと、標的写真領域内に位置する1つ以上の写真領域に対応する1つ以上のデータユニットをビットストリームから抽出し、サブビットストリームを形成するステップと、標的写真領域の外側にある、外側写真領域に対応する第1のデータユニットを生成し、第1のデータユニット内の写真領域フラグを、ビットが外側写真領域内のコーディングブロックのためにビットストリーム内でコーディングされないことを示す、第1の値に等しくなるように設定するステップと、第1のデータユニットをサブビットストリーム内に挿入するステップとを含む。
さらに別の例示的側面では、ビデオまたは写真コーディング方法が、開示される。本方法は、写真を1つ以上の写真領域にパーティション化するステップであって、写真領域は、N個の写真ブロックを含有し、Nは、整数である、ステップと、コーディング参照に基づいて、ビットストリームをN個の写真ブロックから選択的に生成するステップを含む。選択的に生成するステップは、コーディング参照が、写真領域をコーディングすることである場合、写真領域に対応する写真領域フラグを第1の値にコーディングし、第1のコーディング方法(186)を使用して、写真領域内の写真ブロックをコーディングするステップと、コーディング参照が、写真領域をコーディングしないことである場合、写真領域に対応する写真領域フラグを第2の値にコーディングし、第1のコーディング方法と異なる、第2のコーディング方法を使用して、写真領域をコーディングするステップとを含む、
別の例示的側面では、ビデオまたは写真の1つ以上のビットストリームを処理するための装置が、開示される。
さらに別の例示的側面では、コンピュータプログラム記憶媒体が、開示される。
コンピュータプログラム記憶媒体は、その上に記憶されたコードを含む。コードは、プロセッサによって実行されると、プロセッサに、説明される方法を実装させる。
これらおよび他の側面が、本書に説明される。
図1Aは、ビットストリーム処理の例示的方法のためのフローチャートである。
図1Bは、視覚的情報処理の例示的方法のためのフローチャートである。
図1Cは、ビデオまたは写真を処理する方法の例示的方法のためのフローチャートである。
図2は、本開示における方法を実装する、例示的ビデオまたは写真エンコーダを図示する、略図である。
図3は、写真をタイルグループにパーティション化する実施例を図示する、略図である。
図4は、写真をタイルグループにパーティション化する実施例を図示する、略図である。
図5は、360度全方向ビデオの視認の実施例を図示する、略図である。
図6は、写真を写真領域にパーティション化する実施例を図示する、略図である。
図7A-7Bは、ビットストリーム内の構文構造の実施例を図示する。 図7A-7Bは、ビットストリーム内の構文構造の実施例を図示する。
図8は、本開示における方法を実装する、例示的ビデオまたは写真デコーダを図示する、略図である。
図9は、本開示における方法を実装する、抽出器の実施例を図示する、略図である。
図10は、少なくとも、本開示に説明される例示的エンコーダを含む、第1の例示的デバイスを図示する、略図である。
図11は、少なくとも、本開示に説明される例示的デコーダを含む、第2の例示的デバイスを図示する、略図である。
図12は、第1の例示的デバイスと、第2の例示的デバイスとを含む、電子システムを図示する、略図である。
図13Aは、ビューポート内へのレンダリングのために使用される、タイルのグループの実施例を示す。
図13Bは、フレームベースの圧縮のためのタイルの再編成の実施例を示す。
図14は、本書に説明される技法を実装するためのハードウェアプラットフォームを示す。
節の見出しは、可読性を改良するためのみに本書で使用され、各節内の開示される実施形態および技法の範囲をその節のみに限定しない。ある特徴は、H.264/AVC(高度ビデオコーディング)、H.265/HEVC(高効率ビデオコーディング)およびH.266多用途ビデオコーディング(VVC)規格の実施例を使用して説明される。しかしながら、開示される技法の可用性は、H.264/AVCまたはH.265/HEVCまたはH.266/VVCシステムのみに限定されない。
本開示は、ビデオ処理および通信に関し、特に、デジタルビデオまたは写真をエンコーディングし、ビットストリームを生成するための方法および装置、ビットストリームをデコーディングし、デジタルビデオまたは写真を再構築するための方法および装置に関する。
簡単な議論
デジタルビデオおよび写真を圧縮するための技法は、ピクセルサンプル間の相関特性を利用して、ビデオおよび写真内の冗長性を除去する。エンコーダは、写真を、いくつかのユニットを含有する、1つ以上の写真領域にパーティション化し得る。そのような写真領域は、同一写真内の別の写真領域のデータを参照せずに、写真領域がデコーディングされ得る、または少なくとも本写真領域に対応する構文要素が正しく解析され得るように、写真内の予測依存性から脱却する。ビデオコーディング規格において導入されるそのような写真領域は、データ損失後の再同期、並列処理、着目コーディングおよびストリーミングの領域、パケット化された伝送、ビューポート依存ストリーミング等を促進する。そのような写真領域の実施例は、H.264/AVC規格におけるスライス/スライスグループ、H.265/HEVC規格におけるスライス/タイル、およびJVET(ITU-T SG16WP3およびISO/IEC JTC1/SC29/WG11のJoint Video Experts Team)によって現在開発中である、H.266/VVC規格におけるタイルグループ/タイルを含む。
360度全方向ビデオは、没入型の知覚体験を視認者に提供する。360度全方向ビデオを使用する典型的サービスは、仮想現実(VR)である。そのようなビデオを使用する他のサービスは、拡張現実(AR)、複合現実(MR)、およびエクステンデッドリアリティ(XR)を含む。例えば、VRサービスを検討する。現在の適用可能ソリューションでは、球状ビデオの形態における360度全方向ビデオは、最初に、矩形写真の通常のビデオで投影され、これは、次いで、通常のエンコーダ(例えば、H.264/AVCまたはH.265/HEVCエンコーダ)を使用してコーディングされ、ネットワークを介して伝送される。宛先では、通常のデコーダが、ディスプレイ(例えば、頭部搭載型デバイス、HMD)によるレンダリングのために、矩形写真を再構築する。最も一般的投影方法は、ERP(等矩形投影)およびキューブマップ投影である。
伝送帯域幅を節約するために、ビューポートベースのストリーミングが、開発されている。宛先では、ユーザデバイス(例えば、HMD)は、視認者によって合焦される、方向をトレースし、現在のビューポート情報を生成し、ビューポート情報をメディアサーバにフィードバックする。メディアサーバは、現在のビューポートの場面をレンダリングするために、1つ以上の写真領域のみを網羅するサブビットストリームを抽出し、本サブビットストリームを宛先におけるユーザデバイスに送信する。ビデオコーディングの観点から、そのようなビューポートベースのストリーミングは、H.264/AVC規格におけるスライス/スライスグループ、H.265/HEVC規格におけるスライス/タイル、およびJVET(ITU-T SG16WP3およびISO/IEC JTC1/SC29/WG11のJoint Video Experts Team)によって現在開発中である、H.266/VVC規格におけるタイルグループ/タイルの助けを借りて行われることができる。
ビューポートベースのストリーミングの一般的実施例は、以下の通りである。360度全方向ビデオが、キューブマップ投影を使用して、通常のビデオに投影される。写真が、エンコーディングする際に、24個のタイルグループまたはタイルにパーティション化される。視認者が、図5に図示されるように、あるフィールド上に合焦している場合、合計24個のタイルグループまたはタイルのうちの12個のタイルグループまたはタイルが、図13Aに示されるように、レンダリングにおいて要求される。図13Aは、MPEG寄与文書m46538から再現されていることに留意されたい。
図13Aにおけるタイルグループまたはタイルは、矩形写真を形成しないため、フレームベースのアプローチが、これらのタイルグループまたはタイルの場所を再配列し、図13Bに図示されるように、矩形写真を形成するために採用される。サーバが、ビューポートをレンダリングするためのタイルグループまたはタイルに対応する、データユニットを抽出し、形成される矩形写真に従って、そのようなデータユニットを編成し、サブビットストリームを生成する。
フレームベースのアプローチを使用するビューポートベースのストリーミングの短所は、以下の通りである。図13Bにおけるオリジナル写真では、タイルグループまたはタイルの場所は、使用されるキューブマップ投影の立方体の面に対応し、これは、レンダリングのための360度全方向ビデオの球体の表面上の領域との明示的幾何学形状マッピング関係を有する。フレームベースのアプローチによる再配列後、そのようなマッピング関係は、全てのタイルグループまたはタイルがキューブマップ投影の立方体面のグリッドに従っているわけではないため、パッキングされた写真において破壊される。ソリューションは、サーバが、再配列場所を規定するメタデータを生成し、メタデータを、サブビットストリームとともに、ユーザデバイスに送信するものである。ユーザデバイスは、パッキングされた写真内のタイルグループまたはタイルの場所をオリジナル写真内の場所に復元し、次いで、領域を視認するための360度全方向ビデオの球体面上にレンダリングする。明らかに、算出複雑性は、サーバおよびユーザデバイスの両方において増加し、メタデータは、余剰伝送帯域幅およびネットワークミドルウェアの算出および記憶リソースを消費する。
実際には、一般的問題は、ビデオビットストリーム内に表されない写真領域、例えば、図13Aまたは13Bにおける暗領域をシグナリングする方法である。
別の用途シナリオは、特に、高解像度ビデオが監視システムにおいて採用されるときのビデオ監視である。背景領域内のコンテンツは、頻繁にまたは常時変化せず、比較的に一定に保たれるため、実際の合焦点は、移動オブジェクトを伴う、1つ以上の写真領域である。したがって、監視ビデオのためのコーディング効率は、コーディングまたはスキップされない写真領域のシグナリングを要求する、背景コンテンツのコーディングをスキップすることによって、大幅に改良されることができる。
本開示の実施形態は、ビデオまたは写真エンコーディングおよびデコーディング方法、エンコーディングおよびデコーディングデバイス、ビットストリームを抽出し、サブビットストリームを形成し、少なくとも、ビットストリーム抽出プロセスおよび抽出器における余剰算出負担の問題を解決するための方法および装置を提供する。
本開示の実施形態のある側面によると、
写真を1つ以上の写真領域にパーティション化するステップであって、写真領域は、1つ以上のコーディングブロックを含有する、ステップと、
写真領域をコーディングするかどうかを決定するステップであって、該当する場合、本写真領域に対応する写真領域フラグを第1の値に等しくなるようにコーディングし、写真領域内のブロックをコーディングするステップと、
そうでなければ、写真領域フラグを第2の値に等しくなるようにコーディングし、写真領域内のコーディングブロックのコーディングをスキップし、参照写真が、存在し、写真領域のタイプが、インター予測を示す場合、写真領域内のピクセルの値を写真領域の参照写真内に共同設置されたピクセルの値に等しくなるように設定するステップ、または参照写真が、存在しない、または写真領域のタイプが、イントラ予測を示す場合、写真領域内のピクセルの値を所定の値の値に等しくなるように設定するステップと、
を含む、ビデオまたは写真を処理するためのエンコーディング方法が、提供される。
本開示の実施形態のある側面によると、
ビットストリームを解析し、写真領域フラグをビットストリーム内の写真領域に対応するデータユニットから取得するステップと、
写真領域フラグが、第1の値に等しい場合、写真領域内の1つ以上のデコーディングブロックをデコーディングするステップと、
そうでなければ、写真領域フラグが、第2の値に等しい場合、参照写真が、存在し、写真領域のタイプが、インター予測を示す場合、写真領域内のピクセルの値を写真領域の参照写真内の共同設置されたピクセルの値に等しくなるように設定するステップ、または、参照写真が、存在しない、または写真領域のタイプが、イントラ予測を示す場合、写真領域内のピクセルの値を所定の値の値に等しくなるように設定するステップと、
を含む、ビットストリームを処理し、ビデオまたは写真を再構築するためのデコーディング方法が、提供される。
本開示の実施形態のある側面によると、
ビットストリームを解析し、写真領域パラメータをビットストリーム内のパラメータセットデータユニットから取得するステップであって、写真領域パラメータは、1つ以上の写真領域への写真のパーティション化を示す、ステップと、
標的写真領域に従って、標的写真領域内に位置する1つ以上の写真領域を決定するステップと、
標的写真領域内に位置する1つ以上の写真領域に対応する1つ以上のデータユニットをビットストリームから抽出し、サブビットストリームを形成するステップと、
標的写真領域の外側にある、写真領域に対応する、第1のデータユニットを生成し、第1のデータユニット内の写真領域フラグを、標的写真領域の外側にある本写真領域内のコーディングブロックのビットが、存在しないことを示す、第1の値に等しくなるように設定するステップと、
第1のデータユニットをサブビットストリーム内に挿入するステップと、
を含む、ビットストリームを処理し、上記に提示されるデコーディング方法を使用してデコーディングされ得る、サブビットストリームを導出するための抽出方法が、提供される。
上記の方法を用いて、関連技術分野におけるビューポートベースのストリーミングの余剰算出負担の問題は、解決され、さらに、コーディングにおいてスキップされる写真領域の効果的コーディングの効果が、達成される。
本開示では、ビデオは、1つ以上の写真のシーケンスから成る。ビデオ基本ストリームとも称される、ビットストリームが、ビデオまたは写真を処理する、エンコーダによって生成される。ビットストリームはまた、システム層プロセスをビデオまたは写真エンコーダによって生成されたビデオ基本ストリーム上で実施することの出力である、トランスポートストリームまたはメディアファイルであることができる。ビットストリームをデコーディングすることは、ビデオまたは写真をもたらす。システム層プロセスは、ビデオ基本ストリームをカプセル化するためのものである。例えば、ビデオ基本ストリームは、トランスポートストリームまたはメディアファイルの中にペイロードとしてパッキングされる。システム層プロセスはまた、トランスポートストリームまたはメディアファイルを伝送のためにストリームの中に、またはペイロードとしての記憶のためにファイルの中にカプセル化する動作を含む。システム層プロセスにおいて生成されたデータユニットは、システム層データユニットと称される。システム層プロセスにおいてペイロードをカプセル化する間、システム層データユニット内に付加される情報は、システム層情報、例えば、システム層データユニットのヘッダと呼ばれる。ビットストリームを抽出することは、ビットストリームのビットの一部を含有する、サブビットストリーム、および抽出プロセスによる構文要素上への1つ以上の必要な修正を取得する。サブビットストリームをデコーディングすることは、ビデオまたは写真をもたらし、これは、ビットストリームをデコーディングすることによって取得される、ビデオまたは写真と比較して、より低い解像度および/またはより低いフレームレートであり得る。サブビットストリームから取得されるビデオまたは写真はまた、ビットストリームから取得されるビデオまたは写真の領域でもあり得る。
実施形態1
図2は、ビデオまたは写真をコーディングする際に本開示における方法を利用する、エンコーダを図示する、略図である。エンコーダの入力は、ビデオであって、出力は、ビットストリームである。ビデオが、写真のシーケンスから成るため、エンコーダは、事前に設定された順序、すなわち、エンコーディング順序において、写真を1つずつ処理する。エンコーダ順序は、エンコーダのための構成ファイル内に規定された予測構造に従って決定される。ビデオ内の写真のエンコーディング順序(デコーダ側における写真のデコーディング順序に対応する)は、写真の表示順序と同じであってもよい、または異なってもよいことに留意されたい。
パーティションユニット201は、エンコーダの構成に従って、入力ビデオ内の写真をパーティション化する。概して、写真は、1つ以上の最大コーディングブロックにパーティション化されることができる。最大コーディングブロックは、エンコーディングプロセスにおいて最大の許容または構成されるブロックであって、通常、写真内の正方形領域である。写真は、1つ以上のタイルにパーティション化されることができ、タイルは、整数の最大コーディングブロックまたは非整数の最大コーディングブロックを含有してもよい。1つのオプションは、タイルが1つ以上のスライスを含有し得ることである。すなわち、タイルはさらに、1つ以上のスライスにパーティション化されることができ、かつ各スライスは、整数の最大コーディングブロックまたは非整数の最大コーディングブロックを含有してもよい。別のオプションは、スライスが1つ以上のタイルを含有する、またはタイルグループが1つ以上のタイルを含有するものである。すなわち、写真内のある順序(例えば、タイルのラスタ走査順序)における1つ以上のタイルが、タイルグループを形成する。加えて、タイルグループはまた、左上タイルおよび右下タイルの場所を用いて表される、写真内の矩形領域を網羅することができる。以下の説明では、「タイルグループ」が、実施例として使用される。パーティションユニット201は、固定パターンを使用して、写真をパーティション化するように構成されることができる。例えば、パーティションユニット201は、写真をタイルグループにパーティション化し、各タイルグループは、最大コーディングブロックの行を含有する、単一タイルを有する。別の実施例は、パーティションユニット201が、写真を複数のタイルにパーティション化し、写真内のラスタ走査順序におけるタイルをタイルグループに形成するものである。代替として、パーティションユニット201はまた、動的パターンを採用し、写真をタイルグループ、タイル、およびブロックにパーティション化することができる。例えば、最大伝送ユニット(MTU)サイズの制限に適合させるために、パーティションユニット201は、動的タイルグループパーティション化方法を採用し、タイルグループ毎のコーディングビットの数がMTU制限を超えないことを確実にする。
図3は、写真をタイルグループにパーティション化する実施例を図示する、略図である。パーティションユニット201は、16×8の最大コーディングブロック(鎖線に描写される)を伴う写真30を8つのタイル300、310、320、330、340、350、360、および370にパーティション化する。パーティションユニット201は、写真30を3つのタイルグループにパーティション化する。タイルグループ3000は、タイル300を含有し、タイルグループ3100は、タイル310、320、330、340、および350を含有し、タイルグループ3200は、タイル360および370を含有する。図3におけるタイルグループは、写真30内にタイルラスタ走査順序で形成される。
図4は、写真をタイルグループにパーティション化する実施例を図示する、略図である。パーティションユニット201は、16×8の最大コーディングブロック(鎖線に描写される)を伴う写真40を8つのタイル400、410、420、430、440、450、460、および470にパーティション化する。パーティションユニット201は、写真40を2つのタイルグループにパーティション化する。タイルグループ4000は、タイル400、410、440、および450を含有し、タイルグループ4100は、タイル420、430、460、および470を含有する。タイルグループ4000は、左上タイル400および右下タイル450として表され、タイルグループ4100は、左上タイル420および右下タイル470として表される。
1つ以上のタイルグループまたはタイルは、写真領域と称され得る。概して、写真を1つ以上のタイルにパーティション化することは、エンコーダ構成ファイルに従って行われる。パーティションユニット201は、パーティション化パラメータを設定し、タイルへの写真のパーティション化様式を示す。例えば、パーティション化様式は、写真を(ほぼ)等サイズのタイルにパーティション化することであり得る。別の実施例は、パーティション化様式は、行および/または列内のタイル境界の場所を示し、フレキシブルなパーティション化を促進することであり得る。
パーティションユニット201の出力パラメータは、写真のパーティション化様式を示す。
予測ユニット202は、写真領域内のコーディングブロックの予測サンプルを決定する。予測ユニット202は、ブロックパーティションユニット203と、ME(運動推定)ユニット204と、MC(運動補償)ユニット205と、イントラ予測ユニット206とを含む。予測ユニット202の入力は、パーティションユニット201によって出力された1つ以上の最大コーディングブロックを含有する、写真領域と、最大コーディングブロックと関連付けられる、属性パラメータ、例えば、写真内および写真領域内の最大コーディングブロックの場所とである。予測ユニット202は、最大コーディングブロックを1つ以上のコーディングブロックにパーティション化し、これはまた、より小さいコーディングブロックにさらにパーティション化されることができる。クワッドツリー、バイナリ分割、およびターナリ分割を含む、1つ以上のパーティション化方法が、適用されることができる。予測ユニット202は、パーティション化において取得されるコーディングブロックのための予測サンプルを決定する。随意に、予測ユニット202はさらに、コーディングブロックを1つ以上の予測ブロックにパーティション化し、予測サンプルを決定することができる。予測ユニット202は、DPB(デコーディングされた写真バッファ)ユニット214内の1つ以上の写真をコーディングブロックのインター予測サンプルを決定する際の参照として採用する。予測ユニット202はまた、加算器212によって出力された写真の再構成された部分をコーディングブロックの予測サンプルを導出する際の参照として採用することができる。予測ユニット202は、コーディングブロックの予測サンプルと、例えば、一般的レート歪み最適化(RDO)法を使用することによる、予測ユニット202の出力パラメータでもある、予測サンプルを導出するための関連付けられるパラメータとを決定する。
予測ユニット202はまた、写真領域のコーディングをスキップするかどうかを決定する。予測ユニット202が、写真領域のコーディングをスキップしないと決定すると、予測ユニット202は、写真領域フラグを第1の値に等しくなるように設定する。そうでなければ、予測ユニット202が、写真領域のコーディングをスキップすると決定すると、予測ユニット202は、写真領域フラグを第2の値に等しくなるように設定し、予測ユニット202、および変換ユニット208、量子化ユニット209、逆量子化ユニット210、および逆変換ユニット211等のエンコーダ内の他の関連ユニットは、写真領域内のコーディングブロックをコーディングするプロセスを呼び出さない。写真領域フラグが、第2の値に等しい場合、予測ユニット202は、参照写真が、存在し、写真領域のタイプが、インター予測を示す場合、写真領域内のピクセルの値を写真領域の参照写真内の共同設置されたピクセルの値に等しくなるように設定する、または参照写真が、存在しない、または写真領域のタイプが、イントラ予測を示す場合、写真領域内のピクセルの値を所定の値の値に等しくなるように設定する。参照写真は、参照写真リスト内の第1の写真、例えば、参照リスト0内の0に等しい参照インデックスによって示される写真であることができる。随意に、参照写真はまた、写真領域を含有する現在のコーディング写真間の最小POC(写真順序カウント)差異を伴う、参照リスト内の写真であることができる。随意に、参照写真は、予測ユニット202によって参照リスト内の写真から選択された写真であることができ(例えば、一般的RDO法を使用して)、予測ユニット202は、エントロピコーディングユニット215によってビットストリーム内でコーディングされるべき参照インデックスを出力する必要がある。所定の値は、エンコーダおよびデコーダの両方内で使われる固定値である、または1<<(bitDepth-1)として計算されることができ、bitDepthは、ピクセルサンプルコンポーネントのビット深度の値であって、「<<」は、算術的左偏移演算子であって、「x<<y」は、x×yバイナリ数字の2つの補完整数表現の算術的左偏移を意味する。随意に、予測ユニット202は、本写真領域のための参照写真が存在するかどうかにかかわらず、写真領域内の値を所定の値に等しくなるように設定することができる。写真領域フラグが、第2の値に等しいとき、写真領域内のコーディングブロックの予測残差は、0に設定される。すなわち、写真領域フラグが、第2の値に等しいとき、写真領域内の再構成されたピクセルの値は、予測ユニット202によって導出されるその予測値に等しくなるように設定される。
予測ユニット202は、一般的RDO法を使用して、写真領域のコーディングをスキップするかどうかを決定することができる。例えば、予測ユニット202が、本写真領域内の全てのコーディングブロックをカウントするRDO内のコスト関数の累積された値が、写真領域のコーディングのスキップをカウントするRDO内のコスト関数の値より大きくないことを見出すとき、予測ユニット202は、写真領域フラグを第1の値であることを決定し、そうでなければ、第2の値を決定する。
随意に、予測ユニット202はまた、エンコーダ構成に従って、写真領域フラグ値を決定することができる。例示的シナリオは、特に、高解像度ビデオが監視システムにおいて採用されるときのビデオ監視である。背景領域内のコンテンツは、頻繁にまたは常時変化せず、比較的に一定に保たれるため、実際の合焦点は、例えば、既存の運動検出方法およびアルゴリズムを使用すると、移動オブジェクトを伴う1つ以上の写真領域である。したがって、写真領域が、場面内に移動オブジェクトの少なくとも一部を含有することが決定されるとき、予測ユニット202は、本写真領域に対応する写真領域フラグを第1の値に等しくなるように設定し、そうでなければ、予測ユニット202は、写真領域フラグを第2の値に等しくなるように設定する。
別の実施例は、360度全方向ビデオ、例えば、ビデオ電話、ビデオ会議、ビデオチャット、遠隔制御等を使用した通信におけるものである。図5は、360度全方向ビデオの視認の実施例を図示する、略図である。図5における視認者は、キューブマップ投影を使用してコーディングされた360度全方向ビデオを視認する。図6は、写真を写真領域にパーティション化する実施例を図示する、略図である。写真60は、24個の写真領域にパーティション化され、写真領域は、タイルグループまたはタイルであることができる。写真領域600、601、606、および607は、キューブマップの第1の表面に対応し、602、603、608、および609は、第2の表面に対応し、604、605、610、および611は、第3の表面に対応し、612、613、618、および619は、第4の表面に対応し、614、615、620、および621は、第5の表面に対応し、616、617、622、および623は、第6の表面に対応する。コンテンツを図5に図示されるビューポートにレンダリングするために、写真領域600、603、606、609、610、611、612、613、614、615、620、および621が、レンダリングするために採用されるであろう一方、他の写真領域(図6では、灰色でマークされる)は、レンダリングのために要求されない。予測ユニット201は、図6における灰色でマークされる写真領域に対応する写真領域フラグを第2の値に等しくなるように設定する。予測ユニット201は、直接、レンダリングするための写真領域に対応する予測領域フラグを第1の値に等しくなるように設定する、または一般的RDO法を呼び出し、予測領域フラグを決定することができる。
予測ユニット202の出力は、写真領域フラグを含む。写真領域内のピクセルの予測値および予測領域フラグと関連付けられる他の必要なパラメータ(例えば、予測サンプルのための参照写真を示す、参照インデックス)もまた、予測ユニット202の出力内にある。
予測ユニット202の内側では、ブロックパーティションユニット203が、コーディングブロックのパーティション化を決定する。ブロックパーティションユニット203は、最大コーディングブロックを1つ以上のコーディングブロックにパーティション化し、これはまた、より小さいコーディングブロックにさらにパーティション化されることができる。クワッドツリー、バイナリ分割、およびターナリ分割を含む、1つ以上のパーティション化方法が、適用されることができる。随意に、ブロックパーティションユニット203はさらに、コーディングブロックを1つ以上の予測ブロックにパーティション化し、予測サンプルを決定することができる。ブロックパーティションユニット203は、コーディングブロックのパーティション化の決定の際にRDO法を採用することができる。ブロックパーティションユニット203の出力パラメータは、コーディングブロックのパーティション化を示す、1つ以上のパラメータを含む。
MEユニット204およびMCユニット205は、DPB214からの1つ以上のデコーディングされた写真を参照写真として利用して、コーディングブロックのインター予測サンプルを決定する。MEユニット204は、1つ以上の参照写真を含有する、1つ以上の参照リストを構築し、コーディングブロックのための参照写真内の1つ以上のマッチングブロックを決定する。MCユニット205は、マッチングブロック内のサンプルを使用して、予測サンプルを導出し、コーディングブロック内のオリジナルサンプルと予測サンプルとの間の差異(すなわち、残差)を計算する。MEユニット204の出力パラメータは、参照リストインデックス、参照インデックス(refIdx)、運動ベクトル(MV)等を含む、マッチングブロックの場所を示し、参照リストインデックスは、その中にマッチングブロックが位置する、参照写真を含有する、参照リストを示し、参照インデックスは、マッチングブロックを含有する、参照リスト内の参照写真を示し、MVは、コーディングブロックの場所と写真内のピクセルの場所を表すための同じ座標内のマッチングブロックとの間の相対的オフセットを示す。MCユニット205の出力パラメータは、コーディングブロックのインター予測サンプル、およびインター予測サンプルを構築するためのパラメータ、例えば、マッチングブロック内のサンプルのための加重パラメータ、マッチングブロック内のサンプルをフィルタリングするためのフィルタタイプおよびパラメータである。概して、RDO法は、レート歪み(RD)の意味における最適マッチングブロックおよび2つのユニットの対応する出力パラメータを得るために、MEユニット204およびMCユニット205にはともに適用されることができる。
特に、かつ随意に、MEユニット204およびMCユニット205は、コーディングブロックを参照として含有する、現在の写真を使用して、コーディングブロックのイントラ予測サンプルを取得することができる。本開示では、イントラ予測とは、コーディングブロックを含有する写真内のデータのみがコーディングブロックの予測サンプルを導出するための参照として採用されることを意味する。この場合、MEユニット204およびMCユニット205は、現在の写真内の再構成された部分を使用し、再構成された部分は、加算器212の出力からのものである。実施例は、エンコーダが、写真バッファを配分し、加算器212の出力データを(一時的に)記憶するものである。エンコーダのための別の方法は、特殊写真バッファをDPB214内に留保し、加算器212からのデータを保つことである。
イントラ予測ユニット206は、コーディングブロックを参照として含有する現在の写真の再構成された部分を使用して、コーディングブロックのイントラ予測サンプルを取得する。イントラ予測ユニット206は、コーディングブロックの再構成された近傍のサンプルをコーディングブロックのイントラ予測サンプルを導出するためのフィルタの入力としてとり、フィルタは、(例えば、角イントラ予測を使用するときに予測サンプルを計算するための)補間フィルタ、(例えば、DC値を計算するための)低域通過フィルタ、またはすでにコーディングされた(色)コンポーネントを使用して、コンポーネントの予測値(色)を導出するためのクロスコンポーネントフィルタであることができる。特に、イントラ予測ユニット206は、検索動作を実施し、現在の写真内の再構成された部分の範囲内のコーディングブロックのマッチングブロックを得て、マッチングブロック内のサンプルをコーディングブロックのイントラ予測サンプルとして設定することができる。イントラ予測ユニット206は、RDO法を呼び出し、イントラ予測モード(すなわち、コーディングブロックのためのイントラ予測サンプルを計算するための方法)および対応する予測サンプルを決定する。イントラ予測サンプルに加え、イントラ予測ユニット206の出力はまた、使用中のイントラ予測モードを示す、1つ以上のパラメータを含む。
加算器207は、オリジナルサンプルとコーディングブロックの予測サンプルとの間に差異を計算するように構成される。加算器207の出力は、コーディングブロックの残差である。残差は、N×M 2次元行列として表され得、NおよびMは、2つの正の整数であって、NおよびMは、等しいまたは異なる値であることができる。
変換ユニット208は、残差をその入力としてとる。変換ユニット208は、1つ以上の変換方法を残差に適用してもよい。信号処理の観点から、変換方法は、変換行列によって表され得る。随意に、変換ユニット208は、残差のための変換ブロックとなるように、コーディングブロックのものと同一形状およびサイズを伴う矩形ブロック(本開示では、正方形ブロックは、矩形ブロックの特殊例である)を使用することを決定してもよい。随意に、変換ユニット208は、残差をいくつかの矩形ブロック(また、矩形ブロックの幅または高さが1つのサンプルである、特殊例を含んでもよい)にパーティション化し、変換動作をいくつかの矩形上で、順次、例えば、デフォルト順序(例えば、ラスタ走査順序)、所定の順序(例えば、予測モードまたは変換方法に対応する順序)、いくつかの候補順序のための選択された順序に従って実施することを決定してもよい。変換ユニット208は、複数の変換を残差上で実施することを決定してもよい。例えば、変換ユニット208は、最初に、コア変換を残差上で実施し、次いで、二次変換をコア変換を終了後に取得された係数上で実施する。変換ユニット208は、RDO法を利用して、変換パラメータを決定し、これは、残差ブロックに適用される変換プロセス、例えば、残差ブロックの変換ブロック、変換行列、複数の変換等へのパーティション化において使用される実行様式を示す。変換パラメータは、変換ユニット208の出力パラメータ内に含まれる。変換ユニット208の出力パラメータは、変換パラメータと、2次元行列によって表され得る、残差を変換後に取得されたデータ(例えば、変換係数)とを含む。
量子化ユニット209は、残差のその変換後、変換ユニット208によって出力されたデータを量子化する。量子化ユニット209内で使用される量子化器は、スカラー量子化器およびベクトル量子化器の一方または両方であることができる。大部分のビデオエンコーダでは、量子化ユニット209は、スカラー量子化器を採用する。スカラー量子化器の量子化ステップは、ビデオエンコーダ内の量子化パラメータ(QP)によって表される。概して、QPと量子化ステップとの間の同じマッピングは、エンコーダおよび対応するデコーダ内で事前に設定または事前に定義される。
QPの値、例えば、写真レベルQPおよび/またはブロックレベルQPは、エンコーダに適用される構成ファイルに従って設定される、またはエンコーダ内のコーダ制御ユニットによって決定されることができる。例えば、コーダ制御ユニットは、レート制御(RC)法を使用して、写真および/またはブロックの量子化ステップを決定し、次いで、QPと量子化ステップとの間のマッピングに従って、量子化ステップをQPに変換する。
量子化ユニット209のための制御パラメータは、QPである。量子化ユニット209の出力は、2次元行列の形態で表される、1つ以上の量子化された変換係数(すなわち、「レベル」として知られる)である。
逆量子化210は、スケーリング動作を量子化209の出力上で実施し、再構成された係数を得る。逆変換ユニット211は、変換ユニット208からの変換パラメータに従って、逆変換を逆量子化210からの再構成された係数上で実施する。逆変換ユニット211の出力は、再構成された残差である。特に、エンコーダが、ブロックをコーディングする際の量子化をスキップすることを決定する(例えば、エンコーダが、RDO法を実装し、量子化をコーディングブロックに適用するかどうかを決定する)とき、エンコーダは、量子化ユニット209および逆量子化210をバイパスすることによって、変換ユニット208の出力データを逆変換ユニット211に誘導する。
加算器212は、再構成された残差および予測ユニット202からのコーディングブロックの予測サンプルを入力としてとり、コーディングブロックの再構成されたサンプルを計算し、再構成されたサンプルをバッファ(例えば、写真バッファ)の中に入れる。例えば、エンコーダは、写真バッファを配分し、加算器212の出力データを(一時的に)記憶する。エンコーダのための別の方法は、特殊写真バッファをDPB214内に留保し、加算器212からのデータを保つことである。
フィルタリングユニット213は、フィルタリング動作をデコーディングされた写真バッファ内の再構成された写真サンプル上で実施し、デコーディングされた写真を出力する。フィルタリングユニット213は、1つのフィルタまたはいくつかのカスケードフィルタから成ってもよい。例えば、H.265/HEVC規格によると、フィルタリングユニットは、2つのカスケードフィルタ、すなわち、非ブロック化フィルタおよびサンプル適応オフセット(SAO)フィルタから成る。フィルタリングユニット213は、適応ループフィルタ(ALF)を含んでもよい。フィルタリングユニット213はまた、ニューラルネットワークフィルタを含んでもよい。フィルタリングユニット213は、写真内の全てのコーディングブロックの再構成されたサンプルがデコーディングされた写真バッファ内に記憶されると、写真の再構成されたサンプルのフィルタリングを開始してもよく、これは、「写真層フィルタリング」と称され得る。随意に、フィルタリングユニット213のための写真層フィルタリングの代替実装(「ブロック層フィルタリングと称される」)は、再構成されたサンプルが写真内の全ての連続コーディングブロックをエンコーディングする際の参照として使用されない場合、写真内のコーディングブロックの再構成されたサンプルのフィルタリングを開始するものである。ブロック層フィルタリングは、フィルタリングユニット213が、写真の全ての再構成されたサンプルが利用可能になるまで、フィルタリング動作を一時停止し、したがって、スレッド間の時間遅延をエンコーダ内に保存することを要求しない。フィルタリングユニット213は、RDO法を呼び出すことによって、フィルタリングパラメータを決定する。フィルタリングユニット213の出力は、写真のデコーディングされたサンプルであって、フィルタリングパラメータは、フィルタのインジケーション情報、フィルタ係数、フィルタ制御パラメータ等を含む。
エンコーダは、フィルタリングユニット213からデコーディングされた写真をDPB214内に記憶する。エンコーダは、例えば、DPB214内の写真記憶の時間長、DPB214からの写真の出力等、DPB214内の写真上での動作を制御するために使用される、DPB214に適用される、1つ以上の命令を決定してもよい。本開示では、そのような命令は、DPB214の出力パラメータとして捉えられる。
エントロピコーディングユニット215は、バイナリ化およびエントロピコーディングを写真の1つ以上のコーディングパラメータ上で実施し、これは、コーディングパラメータの値をバイナリシンボル「0」および「1」から成るコードワードに変換し、仕様または規格に従って、コードワードをビットストリームの中に書き込む。コーディングパラメータは、テクスチャデータおよび非テクスチャとして分類されてもよい。テクスチャデータは、コーディングブロックの変換係数であって、非テクスチャデータは、エンコーダ内のユニットの出力パラメータ、パラメータセット、ヘッダ、補助情報等を含む、テクスチャデータを除く、コーディングパラメータ内の他のデータである。エントロピコーディングユニット215の出力は、仕様または規格に一致する、ビットストリームである。
エントロピコーディングユニット215は、予測ユニット202の出力内の予測領域フラグをコーディングする。エントロピコーディングユニット215は、予測領域フラグをコーディングし、そのコーディングビットを写真領域のヘッダを含有するデータユニット内に書き込む。図7A-7Bは、ビットストリーム内の構文構造の実施例を図示し、図7A-7Bにおける太字内の構文は、ビットストリーム内に存在する1つ以上のビットのストリングによって表される構文要素であって、u(1)およびue(v)は、H.264/AVCおよびH.265/HEVCのように公開された規格内のものと同一機能を伴う、2つのデコーディング方法である。本開示では、写真領域は、タイルグループ、タイル、スライス、またはスライスグループであることができる。エントロピコーディングユニット215は、予測領域フラグ(すなわち、図7A-7Bにおけるpicture_region_not_skip_flag)およびpicture_region_not_skip_flagの値に従ってpicture_region_not_skip_flagによって調整された他の構文要素をコーディングする。また、図7A-7Bでは、picture_region_not_skip_flagの値から独立してコーディングされたいくつかの構文要素が存在することに留意されたい。
図7Aでは、picture_region_layer_rbsp()は、写真領域のコーディングビットを含有する、データユニットである。picture_region_header()は、写真領域のヘッダである。写真領域フラグpicture_region_not_skip_flagは、picture_region_header()内でコーディングされる。picture_region_data()は、写真内のコーディングブロックのコーディングビットを含有する。本実施例では、picture_region_not_skip_flagが、第2の値(例えば、「0」)に等しいとき、picture_region_data()は、picture_region_layer_rbsp()に提示されない。例えば、エンコーダが、picture_region_not_skip_flagの値が、1に等しいと決定すると、エンコーダは、写真領域内のコーディングブロックをコーディングし、エントロピコーディングユニット215は、コーディングブロックの1つ以上のコーディングビットをビットストリームの中に書き込み、そうでなければ、エンコーダが、picture_region_not_skip_flagの値が、0に等しいと決定すると、エンコーダは、写真領域内のコーディングブロックのコーディングをスキップし、エントロピコーディングユニット215は、コーディングブロックのコーディングビットのビットストリームの中への書込をスキップする。
図7Bでは、写真領域ヘッダ内の構文要素の意味論は、以下の通りである。
picture_region_parameter_set_idは、使用中のパラメータセットのためのパラメータセット識別子の値を規定する。
picture_region_address()は、写真領域のアドレスを表す、構文要素を含有する。例えば、picture_region_addressは、写真領域内の第1のコーディングブロックのアドレスであることができる。また、写真領域が、タイルグループである場合、picture_region_addressは、タイルグループの第1のタイルのタイルアドレスであることができる。
picture_region_typeは、写真領域のコーディングタイプを規定する。
例えば、0に等しいpicture_region_typeは、「B」写真領域を示し、1に等しいpicture_region_typeは、「P」写真領域を示し、2に等しいpicture_region_typeは、「I」写真領域を示し、「B」、「P」、および「I」は、H.264/AVCおよびH.265/HEVCにおけるものと同一意味を表す。
picture_region_pic_order_cnt_lsbは、現在の写真のための写真順序カウントモジュロMaxPicOrderCntLsbを規定する。
0に等しいpicture_region_not_skip_flagは、写真領域がスキップされることを規定する。1に等しいpicture_region_not_skip_flagは、写真領域がスキップされないことを規定する。
Picture_region_not_skip_flagが、0に等しいとき、本写真領域内のコーディングブロックのビットは、ビットストリームに提示されない。本写真領域内のコーディングブロックの再構成された値は、予測ユニット202によって導出される対応する予測値に等しくなるように設定される。
reference_picture_list()は、写真領域の参照リストを導出するための構文要素を含有する。
参照写真は、picture_region_not_skip_flagが0に等しいとき、予測ユニット202によって予測値を導出するために使用されてもよい。予測ユニット202が、0に等しいpicture_region_not_skip_flagを伴う写真領域のための予測値が、固定値または所定の値に設定される方法を採用する場合、reference_picture_list()は、picture_not_skip_flagが0に等しいとき、構文構造内に存在しない。
実施形態2
図8は、実施形態1において前述のエンコーダによって生成されたビットストリームをデコーディングする際に本開示における方法を利用する、デコーダを図示する、略図である。デコーダの入力は、ビットストリームであって、デコーダの出力は、ビットストリームをデコーディングすることによって取得される、デコーディングされたビデオまたは写真である。
デコーダ内の解析ユニット801は、入力ビットストリームを解析する。解析ユニット801は、規格内に規定されたエントロピデコーディング方法およびバイナリ化方法を使用して、1つ以上のバイナリシンボル(すなわち、「0」および「1」)から成るビットストリーム内の各コードワードを対応するパラメータの数値に変換する。解析ユニット801はまた、1つ以上の利用可能なパラメータに従って、パラメータ値を導出する。例えば、ビットストリーム内に、デコーディングブロックが写真内の第1のものであることを示すフラグが存在するであろうとき、解析ユニット801は、写真領域の第1のデコーディングブロックのアドレスを示すアドレスパラメータを0となるように設定する。
解析ユニット801の入力ビットストリームでは、写真領域のための構文構造は、図7A-7Bに図示される。
図7A-7Bは、ビットストリーム内の構文構造の実施例を図示する、略図であって、図7A-7Bにおける太字内の構文は、既存のビットストリーム内の1つ以上のビットのストリングによって表される構文要素であって、u(1)およびue(v)は、H.264/AVCおよびH.265/HEVCのように公開された規格内のものと同一機能を伴う、2つのデコーディング方法である。本開示では、写真領域は、タイルグループ、タイル、スライス、またはスライスグループであることができる。解析ユニット801は、予測領域フラグ(すなわち、図7A-7Bにおけるpicture_region_not_skip_flag)およびpicture_region_not_skip_flagの値に従ってpicture_region_not_skip_flagによって調整された他の構文要素を取得する。また、図7A-7Bでは、picture_region_not_skip_flagの値から独立してコーディングされたいくつかの構文要素が存在することに留意されたい。
図7Aでは、picture_region_layer_rbsp()は、写真領域のコーディングビットを含有する、データユニットである。picture_region_header()は、写真領域のヘッダである。写真領域フラグpicture_region_not_skip_flagは、picture_region_header()内にある。picture_region_data()は、写真内のコーディングブロックのコーディングビットを含有する。本実施例では、picture_region_not_skip_flagが、第2の値(例えば、「0」)に等しいとき、picture_region_data()は、picture_region_layer_rbsp()に提示されない。
図7Bでは、写真領域ヘッダ内の構文要素の意味論は、以下の通りである。
picture_region_parameter_set_idは、使用中のパラメータセットのためのパラメータセット識別子の値を規定する。
picture_region_address()は、写真領域のアドレスを表す、構文要素を含有する。例えば、picture_region_addressは、写真領域内の第1のコーディングブロックのアドレスであることができる。また、写真領域が、タイルグループである場合、picture_region_addressは、タイルグループの第1のタイルのタイルアドレスであることができる。
picture_region_typeは、写真領域のコーディングタイプを規定する。
例えば、0に等しいpicture_region_typeは、「B」写真領域を示し、1に等しいpicture_region_typeは、「P」写真領域を示し、2に等しいpicture_region_typeは、「I」写真領域を示し、「B」、「P」、および「I」は、H.264/AVCおよびH.265/HEVCにおけるものと同一意味を表す。
picture_region_pic_order_cnt_lsbは、現在の写真のための写真順序カウントモジュロMaxPicOrderCntLsbを規定する。
0に等しいpicture_region_not_skip_flagは、写真領域がスキップされることを規定する。1に等しいpicture_region_not_skip_flagは、写真領域がスキップされないことを規定する。
Picture_region_not_skip_flagが、0に等しいとき、本写真領域内のコーディングブロックのビットは、ビットストリームに提示されない。本写真領域内のコーディングブロックの再構成された値は、予測ユニット802によって導出される対応する予測値に等しくなるように設定される。
reference_picture_list()は、写真領域の参照リストを導出するための構文要素を含有する。
参照写真は、picture_region_not_skip_flagが0に等しいとき、予測ユニット802によって予測値を導出するために使用されてもよい。予測ユニット802が、0に等しいpicture_region_not_skip_flagを伴う写真領域のための予測値が、固定値または所定の値に設定される方法を採用する場合、reference_picture_list()は、picture_not_skip_flagが0に等しいとき、構文構造内に存在しない。
解析ユニット801は、写真領域の写真領域フラグ(すなわち、picture_region_not_skip_flag)をデコーダ内の他のユニットにパスし、写真領域をデコーディングする。
解析ユニット801は、デコーディングブロックの予測サンプルを導出するための1つ以上の予測パラメータを予測ユニット802にパスする。本開示では、予測パラメータは、前述のエンコーダ内のパーティション化ユニット201および予測ユニット202の出力パラメータを含む。
解析ユニット801は、デコーディングブロックの残差を再構成するための1つ以上の残差パラメータをスケーリングユニット805および変換ユニット806にパスする。本開示では、残差パラメータは、変換ユニット208および量子化ユニット209の出力パラメータおよび前述のエンコーダ内の量子化ユニット209によって出力された1つ以上の量子化された係数(すなわち、「レベル」)を含む。
解析ユニット801は、写真内の再構成されたサンプルをフィルタリングする(例えば、ループ内にフィルタリング)ためのフィルタリングパラメータをフィルタリングユニット808にパスする。
予測ユニット802は、予測パラメータに従って、写真領域内のデコーディングブロックの予測サンプルを導出する。予測ユニット802は、MCユニット803およびイントラ予測ユニット804から成る。予測ユニット802の入力はまた、加算器807から出力された現在のデコーディング写真(フィルタリングユニット808によって処理されていない)の再構成された部分と、DPB809内の1つ以上のデコーディングされた写真とを含んでもよい。写真領域の写真領域フラグ(すなわち、picture_region_not_skip_flag)が、第1の値(すなわち、「1」)に等しいとき、予測ユニット802、およびスケーリングユニット805、変換ユニット806等のデコーダ内の他の関連ユニットは、写真領域内の写真領域内のデコーディングブロックをデコーディングするプロセスを呼び出す。
写真領域の写真領域フラグ(すなわち、picture_region_not_skip_flag)が、第2の値(すなわち、「0」)に等しいとき、予測ユニット802は、参照写真が、存在し、写真領域のタイプが、インター予測を示す場合(すなわち、「B」または「P」に等しいpicture_region_type)、写真領域内のピクセルの値を写真領域の参照写真における共同設置されたピクセルの値に等しくなるように設定する、または参照写真(例えば、デコーディング順序においてコーディングされたビデオシーケンスの第1の写真)が、存在しない、または写真領域のタイプが、イントラ予測(すなわち、「I」に等しいpicture_region_type)を示す場合、写真領域内のピクセルの値を所定の値の値に等しくなるように設定する。参照写真は、参照写真リスト内の第1の写真、例えば、参照リスト0内の0に等しい参照インデックスによって示される写真であることができる。随意に、参照写真はまた、写真領域を含有する現在のコーディング写真間に最小POC(写真順序カウント)差を伴う、参照リスト内の写真であることができる。随意に、参照写真は、参照リスト内の参照インデックスによって示される写真であることができ、参照インデックスは、ビットストリーム内の本写真領域のコーディングビットを含有するデータユニット内のビットを解析することによって、解析ユニット801によって取得される。所定の値は、エンコーダおよびデコーダの両方内で使われる固定値である、または1<<(bitDepth-1)として計算されることができ、bitDepthは、ピクセルサンプルコンポーネントのビット深度の値であって、「<<」は、算術的左偏移演算子であって、「x<<y」は、x×yバイナリ数字の2つの補完整数表現の算術的左偏移を意味する。随意に、予測ユニット802は、本写真領域のための参照写真が存在するかどうかにかかわらず、写真領域内の値を所定の値に等しくなるように設定することができる。写真領域フラグが、第2の値(すなわち、picture_region_not_skip_flag)に等しいとき、写真領域内のコーディングブロックの予測残差は、0に設定される。すなわち、写真領域フラグが、第2の値(すなわち、picture_region_not_skip_flag)に等しいとき、写真領域内の再構成されたピクセルの値は、予測ユニット802によって導出されるその予測値に等しくなるように設定され、スケーリングユニット805、変換ユニット806は、写真領域内のデコーディングブロックをデコーディングするプロセスにおいてデコーダによって呼び出されない。
予測パラメータが、インター予測モードがデコーディングブロックの予測サンプルを導出するために使用されることを示すとき、予測ユニット802は、前述のエンコーダ内のMEユニット204のためのものと同一アプローチを採用し、1つ以上の参照写真リストを構築する。参照リストは、DPB809からの1つ以上の参照写真を含有する。MCユニット803は、参照リストのインジケーション、参照インデックス、および予測パラメータ内のMVに従って、デコーディングブロックのための1つ以上のマッチングブロックを決定し、前述のエンコーダ内のMCユニット205内のもの同一方法と使用して、デコーディングブロックのインター予測サンプルを得る。予測ユニット802は、インター予測サンプルをデコーディングブロックの予測サンプルとして出力する。
特に、随意に、MCユニット803は、デコーディングブロックを含有する現在のデコーディング写真を参照として使用して、デコーディングブロックのイントラ予測サンプルを取得してもよい。本開示では、イントラ予測とは、コーディングブロックを含有する写真内のデータのみがコーディングブロックの予測サンプルを導出するための参照として採用されることを意味する。この場合、MCユニット803は、現在の写真内の再構成された部分を使用し、再構成された部分は、加算器807の出力からのものであって、フィルタリングユニット808によって処理されない。例えば、デコーダは、写真バッファを配分し、加算器807の出力データを(一時的に)記憶する。デコーダのための別の方法は、特殊写真バッファをDPB809内に留保し、加算器807からのデータを保つことである。
予測パラメータが、イントラ予測モードがデコーディングブロックの予測サンプルを導出するために使用されることを示すとき、予測ユニット802は、前述のエンコーダ内のイントラ予測ユニット206内のものと同一アプローチを採用し、イントラ予測ユニット804のための参照サンプルをデコーディングブロックの再構成された近傍のサンプルから決定する。イントラ予測ユニット804は、イントラ予測モード(すなわち、DCモード、平面モード、または角予測モード)を得て、イントラ予測モードの規定されたプロセスに従って、参照サンプルを使用して、デコーディングブロックのイントラ予測サンプルを導出する。イントラ予測モードの同じ導出プロセスは、前述のエンコーダ(すなわち、イントラ予測ユニット206)およびデコーダ(すなわち、イントラ予測ユニット804)内に実装されることに留意されたい。特に、予測パラメータが、デコーディングブロックのための現在のデコーディング写真(デコーディングブロックを含有する)内にマッチングブロック(その場所を含む)を示す場合、イントラ予測ユニット804は、マッチングブロック内のサンプルを使用して、デコーディングブロックのイントラ予測サンプルを導出する。例えば、イントラ予測ユニット804は、イントラ予測サンプルをマッチングブロック内のサンプルに等しくなるように設定する。予測ユニット802は、デコーディングブロックの予測サンプルをイントラ予測ユニット804によって出力されたイントラ予測サンプルに等しくなるように設定する。
デコーダは、逆量子化のプロセスのために、輝度QPおよび彩度QPを含む、QPと、量子化された係数とをスケーリングユニット805にパスし、再構成された係数を出力とし得る。デコーダは、スケーリングユニット805からの再構成された係数と、残差パラメータ内の変換パラメータ(すなわち、前述のエンコーダ内の変換ユニット208の出力内の変換パラメータ)とを変換ユニット806にフィードする。特に、残差パラメータが、ブロックをデコーディングする際にスケーリングをスキップすることを示す場合、デコーダは、スケーリングユニット805をバイパスすることによって、残差パラメータ内の係数を変換ユニット806に誘導する。特に、picture_region_not_skip_flagが、0に等しいとき、デコーダは、スケーリングユニット805をバイパスする。
変換ユニット806は、規格内に規定される変換プロセスに従って、変換動作を入力係数上で実施する。変換ユニット806内で使用される変換行列は、前述のエンコーダ内の逆変換ユニット211内で使用されるものと同一である。変換ユニット806の出力は、デコーディングブロックの再構成された残差である。特に、picture_region_not_skip_flagが、0に等しいとき、デコーダは、スケーリングユニット806をバイパスし、写真領域内のデコーディングブロックの再構成された残差(0に等しいpicture_region_not_skip_flagを伴う)を0に等しくなるように設定する。
概して、デコーディングプロセスのみが、規格内に規定されるため、ビデオコーディング規格の観点から、デコーディングプロセスにおけるプロセスおよび関連行列は、「変換プロセス」および「変換行列」として規格テキスト内に規定される。したがって、本開示では、デコーダに関する説明は、規格と一致するように、規格テキスト内に規定された変換プロセスを実装するユニットを「変換ユニット」と命名する。しかしながら、本ユニットは、エンコーディングの逆プロセスとしてデコーディングプロセスをとることの考慮点に基づいて、常時、「逆変換ユニット」と命名され得る。
加算器807は、変換ユニット806の出力における再構成された残差および予測ユニット802の出力内の予測サンプルを入力データとしてとり、デコーディングブロックの再構成されたサンプルを計算する。加算器807は、再構成されたサンプルを写真バッファの中に記憶する。例えば、デコーダは、写真バッファを配分し、加算器807の出力データを(一時的に)記憶する。デコーダのための別の方法は、特殊写真バッファをDPB809内に留保し、加算器807からのデータを保つことである。
デコーダは、解析ユニット801からのフィルタリングパラメータをフィルタリングユニット808にパスする。フィルタリング808のためのフィルタリングパラメータは、前述のエンコーダ内のフィルタリングユニット213の出力内のフィルタリングパラメータと同じである。フィルタリングパラメータは、使用されるべき1つ以上のフィルタのインジケーション情報、フィルタ係数、およびフィルタリング制御パラメータを含む。フィルタリングユニット808は、フィルタリングパラメータを使用して、フィルタリングプロセスをデコーディングされた写真バッファ内に記憶される写真の再構成されたサンプル上で実施し、デコーディングされた写真を出力する。フィルタリングユニット808は、1つのフィルタまたはいくつかのカスケードフィルタから成ってもよい。例えば、H.265/HEVC規格によると、フィルタリングユニットは、2つのカスケードフィルタ、すなわち、非ブロック化フィルタおよびサンプル適応オフセット(SAO)フィルタから成る。フィルタリングユニット808は、適応ループフィルタ(ALF)を含んでもよい。フィルタリングユニット808はまた、ニューラルネットワークフィルタを含んでもよい。フィルタリングユニット808は、写真内の全てのコーディングブロックの再構成されたサンプルがデコーディングされた写真バッファ内に記憶されると、写真の再構成されたサンプルのフィルタリングを開始してもよく、これは、「写真層フィルタリング」と称され得る。随意に、フィルタリングユニット808のための写真層フィルタリングの代替実装(「ブロック層フィルタリング」と称される)は、再構成されたサンプルが写真内の全ての連続コーディングブロックをデコーディングする際の参照として使用されない場合、写真内のコーディングブロックの再構成されたサンプルのフィルタリングを開始するものである。ブロック層フィルタリングは、フィルタリングユニット808が、写真の全ての再構成されたサンプルが利用可能になるまで、フィルタリング動作を一時停止し、したがって、スレッド間の時間遅延をデコーダ内に保存することを要求しない。
デコーダは、フィルタリングユニット808によって出力されたデコーディングされた写真をDPB809内に記憶する。加えて、デコーダは、例えば、DPB809内の写真記憶の時間長、DPB809からの写真の出力等、解析ユニット801によって出力された1つ以上の命令に従って、1つ以上の制御動作をDPB809内の写真上で実施してもよい。
実施形態3
図9は、本開示における方法を実装する、抽出器の実施例を図示する、略図である。抽出器の入力のうちの1つは、図2における前述のエンコーダによって生成されたビットストリームである。抽出器の別の入力は、アプリケーションデータであって、これは、抽出のための1つ以上の標的写真領域を示す。抽出器の出力は、サブビットストリームであって、これは、図8における前述のデコーダによってデコーディング可能であり得る。本サブビットストリームは、さらに抽出可能である場合、また、抽出器の入力ビットストリームであることができる。
抽出器の基本機能は、サブビットストリームをオリジナルビットストリームから形成するものである。例えば、ユーザが、高解像度ビデオをそのスマートフォン上のある領域に表示するために、本領域を選択し、スマートフォンが、アプリケーションデータを遠隔デバイス(例えば、遠隔サーバ)または内部処理ユニット(例えば、本スマートフォン上にインストールされるソフトウェアプロシージャ)に送信し、選択された領域(すなわち、標的写真領域)に対応するメディアデータを要求する。遠隔デバイスまたは内部処理ユニット上の抽出器(または同等処理ユニット)は、標的写真領域に対応するサブビットストリームをオリジナル高解像度ビデオに対応するビットストリームから抽出する。別の実施例は、HMD(頭部搭載型デバイス)が、視認者の現在のビューポートを検出し、本ビューポートをレンダリングするためのメディアデータを要求するものである。前の実施例と同様に、HMDはまた、検出されたビューポートの最終レンダリング領域(すなわち、標的写真領域)を網羅するビデオ写真内の領域を示す、アプリケーションデータを生成し、アプリケーションデータを遠隔デバイスまたはその内部処理ユニットに送信する。遠隔デバイスまたは内部処理ユニット上の抽出器(または同等処理ユニット)は、標的写真領域に対応するサブビットストリームをレンダリングビューポートを網羅するビデオに対応するビットストリームから抽出する。
本実施形態では、例示的入力ビットストリームは、キューブマップ投影を使用して360度全方向ビデオをエンコーディングすることによって前述のエンコーダによって生成されたビットストリームである。写真領域への投影された写真のパーティション化は、図6に図示される。写真60は、24個の写真領域にパーティション化され、写真領域は、タイルグループまたはタイルであることができる。写真領域600、601、606、および607は、キューブマップの第1の表面に対応し、602、603、608、および609は、第2の表面に対応し、604、605、610、および611は、第3の表面に対応し、612、613、618、および619は、第4の表面に対応し、614、615、620、および621は、第5の表面に対応し、616、617、622、および623は、第6の表面に対応する。
ビューポートベースのストリーミングが、図5に図示されるビューポートにおいてコンテンツをレンダリングするために使用されるとき、写真領域600、603、606、609、610、611、612、613、614、615、620、および621が、レンダリングするために採用されるであろう一方、他の写真領域(図6では、灰色でマークされる)は、レンダリングのために要求されない。
解析ユニット901は、入力ビットストリームを解析し、写真領域パラメータを入力ビットストリーム内の1つ以上のデータユニット(例えば、パラメータセットデータユニット)から取得する。写真領域パラメータは、図6に図示されるような写真領域への写真のパーティション化を示す。解析ユニット901は、写真領域パラメータおよび抽出のための標的写真領域を決定するための他の必要なデータ(例えば、写真幅および高さ)をデータフロー90内に入れ、データフロー90を制御ユニット902に送信する。
本開示におけるデータフローは、ソフトウェア実装内の機能の入力パラメータおよび戻りパラメータ、バス上のデータ伝送、およびハードウェア実装内の記憶ユニット間のデータ共有(また、レジスタ間のデータ共有も含む)を指すことに留意されたい。
解析ユニット901はまた、入力ビットストリームを解析し、必要なとき、サブビットストリームを生成するプロセスにおいて、データフロー91を介して、他のデータを形成ユニット903に転送する。解析ユニット901はまた、入力ビットストリームをデータフロー91内に含む。
制御ユニット802は、標的写真領域を、写真内の標的写真領域の場所およびサイズを含む、そのアプリケーションデータの入力から取得する。制御ユニット902は、写真領域パラメータおよび写真の幅および高さをデータフロー90から取得する。制御ユニット902は、写真領域パラメータに従って、標的写真領域内に位置する写真領域のアドレスおよびサイズを決定する。本実施例では、制御ユニット902は、標的写真領域が、写真領域600、603、606、609、610、611、612、613、614、615、620、および621を含有することを決定する。制御ユニット902は、上記の写真領域を示す標的写真領域パラメータ(例えば、標的写真領域内の写真領域のアドレス)をデータフロー92内に入れる。
形成ユニット903は、データフロー91および92を受信し、標的写真領域内の写真領域に対応するデータユニットをデータフロー91内で転送される入力ビットストリームから抽出する。また、標的写真領域の外側にある写真領域のための新しいデータユニットを生成する。形成ユニット903は、抽出ユニット904と、生成ユニット905とを含む。抽出ユニット904が、標的写真領域内の写真領域のデータユニットを検出する(例えば、写真領域のアドレスに従って)とき、抽出ユニット904は、データユニットを抽出する。例えば、図6を検討する。抽出ユニット904は、写真領域600、603、606、609、610、611、612、613、614、615、620、および621のデータユニットを抽出し、サブビットストリームを形成する。
生成ユニット905は、標的写真領域の外側にある写真領域のための新しいデータユニットを生成し、新しいデータユニットをサブビットストリームの中に挿入する。生成ユニット905は、標的写真領域の外側にある写真領域のための図7Bにおけるpicture_region_not_skip_flagの値を0に等しくなるように設定する。生成ユニット905は、新しいデータユニットを標的写真領域内の写真領域のデータユニットを含有するビットストリーム内の同一アクセスユニット内に挿入する。図7における構文構造に従って、生成ユニット905は、標的写真領域の外側にある写真領域内のコーディングブロックのビットを生成しない。すなわち、標的写真領域の外側にある本写真領域内のコーディングブロックのビットは、サブビットストリーム内には存在しない。
形成ユニット903は、ビデオコーディング規格の規定されたビットストリーム構造に従って、データフロー91内の入力ビットストリーム(および他の関連付けられるデータユニット)からのパラメータセットをサブビットストリームに付加する。形成ユニット903の出力は、サブビットストリームであって、これは、図8における前述のデコーダによってデコーディング可能である。
さらに、サブビットストリームは、本実施例では、1つよりも多い写真領域を含有するため、サブビットストリームは、依然として、抽出可能であって、より小さいビューポートを網羅する標的写真領域セットを伴う、抽出器の入力であることができる。
フレームベースのアプローチを使用するような再配列動作は、本抽出器では必要とされない。投影された写真とレンダリングのための360度全方向ビデオの球体との間の幾何学形状マッピング関係は、抽出後も不変のまま保たれる。本抽出器を含有するサーバは、フレームベースのアプローチのための再配列場所を規定する余剰メタデータの生成および送信を排除し、これは、また、メタデータを送信することによって消費される余剰伝送帯域幅を節約する。ユーザデバイスは、レンダリングのための幾何学形状マッピング関係を得るために、フレームベースのアプローチによって、そのようなメタデータを処理し、パッキングされたフレーム内に写真領域を再マッピングするための能力および余剰記憶リソースを装備する必要がない。
実施形態4
図10は、図2に図示されるように、少なくとも例示的ビデオエンコーダまたは写真エンコーダを含有する、第1の例示的デバイスを図示する、略図である。
入手ユニット1001は、ビデオおよび写真を捕捉する。入手ユニット1001は、自然場面のビデオまたは写真を撮影するために、1つ以上のカメラを装備してもよい。随意に、入手ユニット1001は、深度ビデオまたは深度写真を得るためのカメラとともに実装されてもよい。随意に、入手ユニット1001は、赤外線カメラのコンポーネントを含んでもよい。随意に、入手ユニット1001は、遠隔感知カメラとともに構成されてもよい。入手ユニット1001はまた、放射線を使用してオブジェクトを走査することによってビデオまたは写真を生成する、装置またはデバイスであってもよい。
随意に、入手ユニット1001は、例えば、自動ホワイトバランス、自動焦点化、自動露光、バックライト補償、鮮明化、雑音除去、スティッチング、アップサンプリング/ダウンサンプリング、フレームレート変換、仮想ビュー合成等、前処理をビデオまたは写真上で実施してもよい。
入手ユニット1001はまた、ビデオまたは写真を別のデバイスまたは処理ユニットから受信してもよい。例えば、入手ユニット1001は、トランスコーダ内のコンポーネントユニットであることができる。トランスコーダは、1つ以上のデコーディングされた(または部分的にデコーディングされた)写真を入手ユニット1001にフィードする。別の実施例は、入手ユニット1001は、そのデバイスへのデータリンクを介して、ビデオまたは写真を別のデバイスから得ることである。
入手ユニット1001は、ビデオおよび写真に加え、他のメディア情報、例えば、オーディオ信号を捕捉するために使用されてもよいことに留意されたい。入手ユニット1001はまた、人工情報、例えば、キャラクタ、テキスト、コンピュータ生成ビデオまたは写真等を受信してもよい。
エンコーダ1002は、図2に図示される例示的エンコーダまたは図9におけるソースデバイスの実装である。エンコーダ1002の入力は、入手ユニット1001によって出力されたビデオまたは写真である。エンコーダ1002は、ビデオまたは写真をエンコーディングし、生成されたビデオまたは写真ビットストリームを出力する。
記憶装置/送信ユニット1003は、ビデオまたは写真ビットストリームをエンコーダ1002から受信し、システム層処理をビットストリーム上で実施する。例えば、記憶装置/送信ユニット1003は、トランスポート規格およびメディアファイルフォーマット、例えば、例えば、MPEG-2TS、ISOBMFF、DASH、MMT等に従って、ビットストリームをカプセル化する。記憶装置/送信ユニット1003は、第1の例示的デバイスのメモリまたはディスク内へのカプセル化後に取得されるトランスポートストリームまたはメディアファイルを記憶する、または有線または無線ネットワークを介して、トランスポートストリームまたはメディアファイルを送信する。
エンコーダ1002からのビデオまたは写真ビットストリームに加え、記憶装置/送信ユニット1003の入力はまた、オーディオ、テキスト、画像、グラフィック等を含んでもよいことに留意されたい。記憶装置/送信ユニット1003は、そのような異なるタイプのメディアビットストリームをカプセル化することによって、トランスポートまたはメディアファイルを生成する。
本実施形態に説明される第1の例示的デバイスは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、メディアサーバ、ポータブルモバイル端末、デジタルカメラ、ブロードキャストデバイス、CDN(コンテンツ配信ネットワーク)デバイス、監視カメラ、ビデオ会議デバイス等内でビデオ(または写真)ビットストリームを生成または処理することが可能なデバイスであることができる。
実施形態5
図11は、図8に図示されるように、少なくとも例示的ビデオデコーダまたは写真デコーダを含有する第2の例示的デバイスを図示する、略図である。
受信ユニット1101は、ビットストリームを有線または無線ネットワークから取得することによって、電子デバイス内のメモリまたはディスクを読み取ることによって、またはデータリンクを介して、他のデバイスからのデータをフェッチすることによって、ビデオまたは写真ビットストリームを受信する。
受信ユニット1101の入力はまた、ビデオまたは写真ビットストリームを含有する、トランスポートストリームまたはメディアファイルを含んでもよい。受信ユニット1101は、トランスポートまたはメディアファイルフォーマットの仕様に従って、ビデオまたは写真ビットストリームをトランスポートストリームまたはメディアファイルから抽出する。
受信ユニット1101は、ビデオまたは写真ビットストリームを出力し、デコーダ1102にパスする。ビデオまたは写真ビットストリームに加え、受信ユニット1101の出力はまた、オーディオビットストリーム、キャラクタ、テキスト、画像、グラフィック等を含んでもよいことに留意されたい。受信ユニット1101は、出力を第2の例示的デバイス内の対応する処理ユニットにパスする。例えば、受信ユニット1101は、出力オーディオビットストリームを本デバイス内のオーディオデコーダにパスする。
デコーダ1102は、図8に図示される例示的デコーダの実装である。エンコーダ1102の入力は、受信ユニット1101によって出力されたビデオまたは写真ビットストリームである。デコーダ1102は、ビデオまたは写真ビットストリームをデコーディングし、デコーディングされたビデオまたは写真を出力する。
レンダリングユニット1103は、デコーディングされたビデオまたは写真をデコーダ1102から受信する。レンダリングユニット1103は、デコーディングされたビデオまたは写真を視認者に提示する。レンダリングユニット1103は、第2の例示的デバイスのコンポーネント、例えば、画面であってもよい。レンダリングユニット1103はまた、第2の例示的デバイス、例えば、プロジェクタ、モニタ、TVセット等へのデータリンクを伴う、第2の例示的デバイスと別個のデバイスであってもよい。随意に、レンダリングユニット1103は、例えば、自動ホワイトバランス、自動焦点化、自動露光、バックライト補償、鮮明化、雑音除去、スティッチング、アップサンプリング/ダウンサンプリング、フレームレート変換、仮想ビュー合成等、それを視認者に提示する前に、後処理をデコーディングされたビデオまたは写真上で実施する。
デコーディングされたビデオまたは写真に加え、レンダリングユニット1103の入力は、第2の例示的デバイスの1つ以上のユニットからの他のメディアデータ、例えば、オーディオ、キャラクタ、テキスト、画像、グラフィック等であることができることに留意されたい。レンダリングユニット1103の入力はまた、人工データ、例えば、遠隔教育アプリケーションにおいて注意を誘引するためにスライド上にローカル教師によって描かれる、ラインおよびマークを含んでもよい。レンダリングユニット1103は、異なるタイプのメディアをともに構成し、次いで、構成物を視認者に提示する。
本実施形態に説明される第2の例示的デバイスは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、セットトップボックス、TVセット、HMD、モニタ、メディアサーバ、ポータブルモバイル端末、デジタルカメラ、ブロードキャストデバイス、CDN(コンテンツ配信ネットワーク)デバイス、監視ビデオ会議デバイス等内でビデオ(または写真)ビットストリームをデコーディングまたは処理することが可能なデバイスであることができる。
実施形態6
図12は、図10における第1の例示的デバイスと、図11における第2の例示的デバイスとを含有する、電子システムを図示する、略図である。
サービスデバイス1201は、図10における第1の例示的デバイスである。
記憶媒体/トランスポートネットワーク1202は、デバイスまたは電子システムの内部メモリリソース、データリンクを介してアクセス可能な外部メモリリソース、有線および/または無線ネットワークから成るデータ伝送ネットワークを含んでもよい。記憶媒体/トランスポートネットワーク1202は、サービスデバイス1201内の記憶/送信ユニット1203のための記憶リソースまたはデータ伝送ネットワークを提供する。
宛先デバイス1203は、図11における第2の例示的デバイスである。宛先デバイス1203内の受信ユニット1201は、ビデオまたは写真ビットストリーム、ビデオまたは写真ビットストリームを含有するトランスポートストリーム、またはビデオまたは写真ビットストリームを含有するメディアファイルを記憶媒体/トランスポートネットワーク1202から受信する。
本実施形態に説明される電子システムは、ビデオ通信のアプリケーション、例えば、携帯電話、コンピュータ、IPTVシステム、OTTシステム、インターネット上のマルチメディアシステム、デジタルTVブロードキャストシステム、ビデオ監視システム、ポータブルモバイル端末、デジタルカメラ、ビデオ会議システム等内でビデオ(または写真)ビットストリームを生成、記憶またはトランスポート、およびデコーディングすることが可能なデバイスまたはシステムであることができる。
ある実施形態では、実施形態における具体的実施例が、上記に述べられた実施形態および例示的実装方法に説明される実施例を参照し得るが、実施形態では詳述されないであろう。
明らかに、当業者は、本開示の各モジュールまたは各行為が、汎用コンピューティング装置によって実装されてもよく、モジュールまたは行為が、単一コンピューティング装置上に集中される、または複数のコンピューティング装置によって形成されるネットワーク上に分散されてもよく、随意に、モジュールまたは行為がコンピューティング装置を用いた実行のための記憶装置内に記憶され得る、図示または説明される行為が、いくつかの状況では、図示または本明細書に説明されるものと異なるシーケンスで実行され得る、またはそれぞれ、各集積回路モジュールを形成し得る、または複数のモジュールまたはその中の行為が、実装のために単一集積回路モジュールを形成し得るように、コンピューティング装置のためのプログラムコード実行可能によって実装されてもよい。結果として、本開示は、任意の具体的ハードウェアおよびソフトウェア組み合わせに限定されない。
図1Aは、ビットストリーム処理の例示的方法100のためのフローチャートである。方法100は、ビットストリームを解析し(102)、写真領域フラグをビットストリーム内の写真領域に対応するデータユニットから取得するステップであって、写真領域は、N個の写真ブロックを含み、Nは、整数である、ステップと、写真領域フラグの値に基づいて、写真領域のデコーディングされた表現をビットストリームから選択的に生成するステップ(104)とを含む。選択的に生成するステップは、写真領域フラグの値が、第1の値である場合、第1のデコーディング方法を使用して、デコーディングされた表現をビットストリームから生成するステップ(106)と、写真領域フラグの値が、第1の値と異なる、第2の値である場合、第1のデコーディング方法と異なる、第2のデコーディング方法を使用して、デコーディングされた表現をビットストリームから生成するステップ(108)とを含む。写真ブロックNの数は、1よりも大きくあり得る。例えば、方法100は、複数の写真ブロックを効率的にデコーディングすることが可能であり得る(例えば、コーディングユニットCU)。
方法100は、図11に関して説明されるようなデバイスによって実施されてもよい。そのようなデバイスは、スマートフォン、コンピュータ、タブレット、またはデジタルビデオコンテンツを処理または表示することが可能な任意の他のデバイス等のユーザデバイスの一部として含まれてもよい。
いくつかの実施形態では、写真領域のタイプは、インター予測エンコーディングされた領域であるように示されてもよい。インター予測は、一方向(順方向または予測)予測または双方向予測(順方向および逆方向)を含んでもよい。そのような場合、第2のデコーディング方法は、写真領域内のピクセルの値を写真領域の参照写真内に共同設置されたピクセルの値に等しくなるように設定するステップを含んでもよい。
いくつかの実施形態では、写真領域のタイプは、インター予測を示し、参照写真は、存在せず、第2のデコーディング方法は、写真領域内のピクセルの値を所定の値に等しくなるように設定するステップを含む。
いくつかの実施形態では、写真領域のタイプは、イントラ予測を示し、第2のデコーディング方法は、写真領域内のピクセルの値を所定の値に設定するステップを含む。
いくつかの実施形態では、第1のデコーディング方法は、ビットストリームからの対応するビットのイントラデコーディングまたはインターデコーディングを使用するステップを含む。
いくつかの実施形態では、写真領域は、異なるコーディング技法を使用してコーディングされた写真ブロックを含んでもよい。例えば、写真領域内の第1の写真ブロックは、写真領域内の第2の写真ブロックと異なる、コーディングモードを使用して、コーディングされる。ここでは、コーディングモードは、例えば、インター予測コーディングモードまたはイントラ予測コーディングモードであってもよい。
図1Bでは、視覚的情報処理の方法150のためのフローチャートが、開示される。方法150は、ビットストリームを解析し(152)、写真領域パラメータをビットストリーム内のパラメータセットデータユニットから取得するステップであって、写真領域パラメータは、1つ以上の写真領域への写真のパーティション化を示す、ステップと、標的写真領域に従って、標的写真領域内に位置する1つ以上の写真領域を決定するステップ(154)と、標的写真領域内に位置する1つ以上の写真領域に対応する1つ以上のデータユニットをビットストリームから抽出し(156)、サブビットストリームを形成するステップと、標的写真領域の外側にある、外側写真領域に対応する第1のデータユニットを生成するステップ(158)と、第1のデータユニット内の写真領域フラグを、ビットが外側写真領域内のコーディングブロックのためのビットストリーム内でコーディングされないことを示す、第1の値に等しくなるように設定するステップ(160)と、第1のデータユニットをサブビットストリーム内に挿入するステップ(162)とを含む。
方法150は、図10に関して説明されるようなデバイスによって実装されてもよい。デバイスは、スマートフォン、ラップトップ、コンピュータ、またはビデオをエンコーディングするために使用される別のデバイス内に実装されてもよい。
いくつかの実施形態では、1つ以上の写真領域は、非矩形写真領域を含む。いくつかの実施形態では、標的写真領域は、ユーザビューポートに基づく。いくつかの実施形態では、外側写真領域は、ユーザビューポートに可視のエリアの外側にある、写真エリアに対応する。
方法100、150に関して、パーティションユニット202が、ビットストリームを解析するステップ(102または152)のために使用されてもよい。本書に説明される実施形態3もまた、解析ステップを実装し、写真領域パラメータを抽出し、データユニットをビットストリームから抽出し、第1のデータユニットを生成するために使用されてもよい。
図1Cは、ビデオまたは写真を処理し、対応するエンコーディングまたは圧縮されるドメインビットストリーム表現を生成するための例示的方法180のためのフローチャートである。
方法180は、図10に関して説明されるようなデバイスによって実装されてもよい。デバイスは、スマートフォン、ラップトップ、コンピュータ、またはビデオをエンコーディングするために使用される別のデバイス内に実装されてもよい。
方法180は、写真を1つ以上の写真領域にパーティション化するステップ(182)であって、写真領域は、N個の写真ブロックを含有し、Nは、整数である、ステップと、コーディング参照に基づいて、ビットストリームをN個の写真ブロックから選択的に生成するステップ(184)とを含む。選択的に生成するステップ(184)は、コーディング参照が、写真領域をコーディングすることである場合、写真領域に対応する写真領域フラグを第1の値にコーディングし、第1のコーディング方法を使用して、写真領域内の写真ブロックをコーディングステップ(186)と、コーディング参照が、写真領域をコーディングしないことである場合、写真領域に対応する写真領域フラグを第2の値にコーディングし、第1のコーディング方法と異なる、第2のコーディング方法を使用して、写真領域をコーディングするステップ(188)とを含む。
例えば、パーティションユニット202が、パーティション化ステップ182およびステップ184、186、または188を実施するために使用されてもよい。例えば、エントロピコーディングユニット215が、ビットストリーム内の写真領域フラグをコーディングするために使用されてもよい。
種々の実施形態では、第1および第2のコーディング方法は、イントラコーディングまたは予測コーディング(一方向または双方向)を含んでもよい。いくつかの実施形態では、写真領域は、複数の写真ブロック(例えば、Nは、1よりも大きい)を含んでもよい。図5に関して説明されるように、ユーザの視点が、方法180の実装の間、コーディング方法およびコーディングすべき写真ブロックを決定する際に使用されてもよい。
図1Aおよび1Cでは、ステップ106、108、186、188は、具体的写真領域のエンコーディングまたはデコーディングのためのいくつかの実施形態によると、これらの2つのステップのうちの1つのみのが実装されるであろうため、破線輪郭で示される。一般に、ビデオのコーディングまたはデコーディング動作の間、1つまたは他のステップが、例えば、コンテンツ詳細に応じて実装されるであろう。しかしながら、ビデオまたは画像のいくつかの領域が、図1A-1Cに関して説明されるコーディング技法のいずれも使用せずに、エンコーディングされてもよいこともまた、可能性として考えられる。
いくつかの実施形態では、ビデオエンコーダ装置は、方法180を実装するように構成される、プロセッサを含んでもよい。プロセッサは、図2に関して説明されるもの等の機能を実施するために構成される、特殊目的ビデオエンコーディング回路網を含んでもよい、または制御および使用してもよい。
いくつかの実施形態では、ビデオデコーディングまたはトランスコーディングデバイスが、方法100または150を実装するために使用されてもよい。図8に関して説明されるデバイスが、実装のために使用されてもよい。
本書に説明される技法は、ビデオエンコーダ装置またはビデオデコーダ装置内に組み込まれ、ビデオをエンコーディングする、またはビデオをデコーディングする動作の性能を有意に改良し得ることを理解されたい。例えば、仮想現実体験またはゲーム等のいくつかのビデオアプリケーションは、満足の行くユーザ体験を提供するために、ビデオのリアルタイム(またはリアルタイムより高速の)エンコーディングまたはデコーディングを要求する。開示される技法は、本明細書に説明されるような写真領域ベースのコーディングまたはデコーディング技法を使用することによって、そのようなアプリケーションの性能を改良する。例えば、ユーザの視点に基づくビデオフレームの全て未満の部分のコーディングまたはデコーディングは、ユーザによって視認されるであろうビデオのみを選択的にコーディングすることを可能にする。さらに、矩形ビデオフレーム内に写真領域を作成するための写真ブロックの再編成は、運動検索、変換、および量子化等の標準的矩形フレームベースのビデオコーディングツールの使用を可能にする。
上記は、本開示の好ましい実施形態にすぎず、本開示を限定することを意図するものではない。当業者にとって、本開示は、種々の修正および変形例を有し得る。本開示の原理内で行われる任意の修正、均等物置換、改良、および同等物は、本開示の添付の請求項によって定義された保護の範囲内であるものとする。
産業上の可用性
上記の説明から、関連技術分野におけるビューポートベースのストリーミングの余剰算出負担の問題が、解決され、さらに、コーディングにおいてスキップされる写真領域の効果的コーディングの効果が達成されることが分かり得る。既存の方法における全ての短所は、オリジナルビットストリームを生成するための前述のエンコーダ、サブビットストリームを取得するための本例示的実装における抽出器、およびビットストリーム(およびサブビットストリーム)をデコーディングするための前述のデコーダを使用することによって解決される。
図14は、本書に説明されるエンコーダ側またはデコーダ側技法を実装するために使用され得る、例示的装置1400を示す。装置1400は、エンコーダ側またはデコーダ側技法または両方を実施するように構成され得る、プロセッサ1402を含む。装置1400はまた、プロセッサ実行可能命令を記憶するための、かつビデオビットストリームおよび/またはディスプレイデータを記憶するためのメモリ(図示せず)を含んでもよい。装置1400は、変換回路、算術コーディング/デコーディング回路、ルックアップテーブルベースのデータコーディング技法等、ビデオ処理回路網(図示せず)を含んでもよい。ビデオ処理回路網は、部分的に、プロセッサ内に、および/または部分的に、グラフィックプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)等の他の専用回路網内に含まれてもよい。
装置
本書に説明される、開示されるおよび他の実施形態、モジュール、および機能動作が、デジタル電子回路で、または本書に開示される構造およびそれらの構造均等物を含む、コンピュータソフトウェア、ファームウェア、またはハードウェアで、またはそれらのうちの1つ以上のものの組み合わせで、実装されることができる。開示されるおよび他の実施形態は、1つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のために、またはその動作を制御するために、コンピュータ可読媒体上でエンコードされるコンピュータプログラム命令の1つ以上のモジュールとして、実装されることができる。コンピュータ可読媒体は、機械可読記憶デバイス、機械可読記憶基板、メモリデバイス、機械可読伝搬信号を生じさせる組成物、または1つ以上のそれらの組み合わせであり得る。用語「データ処理装置」は、一例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む、データを処理するための全ての装置、デバイス、および機械を包含する。本装置は、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つ以上のそれらの組み合わせを構成するコードを含むことができる。伝搬信号は、人工的に発生される信号、例えば、好適な受信機装置に伝送するために情報をエンコードするように発生される、機械で発生される電気、光学、または電磁信号である。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知である)が、コンパイラ型またはインタープリタ型言語を含む、任意の形態のプログラミング言語で書かれることができ、独立型プログラムとして、またはコンピューティング環境内の使用のために好適なモジュール、コンポーネント、サブルーチン、または他のユニットとしてを含む、任意の形態で展開されることができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応するわけではない。プログラムは、他のプログラムまたはデータを保持するファイル(例えば、マークアップ言語文書内に記憶された1つ以上のスクリプト)の一部内に、当該プログラム専用の単一のファイル内に、または複数の協調ファイル(例えば、1つ以上のモジュール、サブプログラム、またはコードの一部を記憶するファイル)内に記憶されることができる。コンピュータプログラムは、1つのコンピュータ上で、または1つの地点に位置し、または複数の地点を横断して分散され、通信ネットワークによって相互接続される複数のコンピュータ上で、実行されるように展開されることができる。
本書に説明されるプロセスおよび論理フローは、入力データに作用し、出力を発生させることによって機能を実施するように、1つ以上のコンピュータプログラムを実行する、1つ以上のプログラマブルプロセッサによって、実施されることができる。プロセスおよび論理フローはまた、特殊用途論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって、実施されることもでき、装置もまた、それとして実装されることができる。
コンピュータプログラムの実行のために好適なプロセッサは、一例として、汎用および特殊用途マイクロプロセッサの両方、および任意の種類のデジタルコンピュータのいずれか1つ以上のプロセッサを含む。概して、プロセッサは、読取専用メモリまたはランダムアクセスメモリまたは両方から、命令およびデータを受信するであろう。コンピュータの不可欠な要素は、命令を実施するためのプロセッサ、および命令およびデータを記憶するための1つ以上のメモリデバイスである。概して、コンピュータはまた、データを記憶するための1つ以上の大容量記憶デバイス、例えば、磁気、磁気光学ディスク、または光ディスクを含む、またはそこからデータを受信する、またはそこにデータを転送する、または両方を行うように、動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するために好適なコンピュータ可読媒体は、一例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、磁気光学ディスク、およびCD-ROMおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊用途論理回路によって補完される、またはそれに組み込まれることができる。
本特許文書は、多くの詳細を含有するが、これらは、任意の発明または請求され得るものの範囲への限定としてではなく、むしろ、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。別個の実施形態との関連で本特許文書に説明されるある特徴もまた、単一の実施形態において組み合わせて実装されることができる。逆に、単一の実施形態との関連で説明される種々の特徴もまた、複数の実施形態において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上記に説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、ある場合には、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。
同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で、または連続的順序で実施されること、または全ての図示される動作が実施されることを要求するものとして理解されるべきではない。さらに、本特許文書に説明される実施形態における種々のシステムコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものとして理解されるべきではい。
いくつかの実装および実施例のみが、説明され、他の実装、向上、および変形例も、本特許文書に説明および図示されるものに基づいて成されることができる。
これらおよび他の側面が、本書に説明される。
(項目1)
ビットストリーム処理の方法であって、
ビットストリームを解析し、写真領域フラグを上記ビットストリーム内の写真領域に対応するデータユニットから取得することであって、上記写真領域は、N個の写真ブロックを含み、Nは、整数である、ことと、
上記写真領域フラグの値に基づいて、上記写真領域のデコーディングされた表現を上記ビットストリームから選択的に生成することと
を含み、上記選択的に生成することは、
上記写真領域フラグの値が、第1の値である場合、第1のデコーディング方法を使用して、上記デコーディングされた表現を上記ビットストリームから生成することと、
上記写真領域フラグの値が、上記第1の値と異なる第2の値である場合、上記第1のデコーディング方法と異なる第2のデコーディング方法を使用して、上記デコーディングされた表現を上記ビットストリームから生成することと
を含む、方法。
(項目2)
上記写真領域のタイプは、インター予測を示し、上記第2のデコーディング方法は、上記写真領域内のピクセルの値を上記写真領域の参照写真内に共同設置されたピクセルの値に等しくなるように設定することを含む、項目1に記載の方法。
(項目3)
上記写真領域のタイプは、インター予測を示し、参照写真は、存在せず、上記第2のデコーディング方法は、上記写真領域内のピクセルの値を所定の値に等しくなるように設定することを含む、項目1に記載の方法。
(項目4)
上記写真領域のタイプは、イントラ予測を示し、上記第2のデコーディング方法は、上記写真領域内のピクセルの値を所定の値に設定することを含む、項目1に記載の方法。
(項目5)
上記第1のデコーディング方法は、上記ビットストリームからの対応するビットのイントラデコーディングまたはインターデコーディングを使用することを含む、項目1-4のいずれかに記載の方法。
(項目6)
Nは、1よりも大きい、項目1-5のいずれかに記載の方法。
(項目7)
上記写真領域内の第1の写真ブロックは、上記写真領域内の第2の写真ブロックと異なるコーディングモードを使用して、コーディングされ、上記コーディングモードは、インター予測コーディングモードまたはイントラ予測コーディングモードである、項目6に記載の方法。
(項目8)
視覚的情報処理方法であって、
ビットストリームを解析し、写真領域パラメータを上記ビットストリーム内のパラメータセットデータユニットから取得することであって、上記写真領域パラメータは、1つ以上の写真領域への写真のパーティション化を示す、ことと、
標的写真領域に従って、上記標的写真領域内に位置する1つ以上の写真領域を決定することと、
上記標的写真領域内に位置する1つ以上の写真領域に対応する1つ以上のデータユニットを上記ビットストリームから抽出し、サブビットストリームを形成することと、
上記標的写真領域の外側にある外側写真領域に対応する第1のデータユニットを生成し、上記第1のデータユニット内の写真領域フラグを、ビットが上記外側写真領域内のコーディングブロックのために上記ビットストリーム内でコーディングされないことを示す第1の値に等しくなるように設定することと、
上記第1のデータユニットを上記サブビットストリーム内に挿入することと
を含む、方法。
(項目9)
上記1つ以上の写真領域は、非矩形写真領域を含む、項目8に記載の方法。
(項目10)
上記標的写真領域は、ユーザビューポートに基づく、項目8-9のいずれかに記載の方法。
(項目11)
上記外側写真領域は、ユーザビューポートに可視のエリアの外側にある写真エリアに対応する、項目8-10のいずれかに記載の方法。
(項目12)
ビデオまたは写真を処理するためのエンコーディング方法であって、
写真を1つ以上の写真領域にパーティション化することであって、写真領域は、N個の写真ブロックを含有し、Nは、整数である、ことと、
コーディング参照に基づいて、ビットストリームを上記N個の写真ブロックから選択的に生成することと
を含み、上記選択的に生成することは、
上記コーディング参照が、上記写真領域をコーディングすることである場合、上記写真領域に対応する写真領域フラグを第1の値にコーディングし、第1のコーディング方法を使用して、上記写真領域内の写真ブロックをコーディングすることと、
上記コーディング参照が、上記写真領域をコーディングしないことである場合、上記写真領域に対応する写真領域フラグを第2の値にコーディングし、上記第1のコーディング方法と異なる第2のコーディング方法を使用して、上記写真領域をコーディングすることと
を含む、方法。
(項目13)
上記第1のコーディング方法は、イントラコーディングを含む、項目12に記載の方法。
(項目14)
上記第2のコーディング方法は、予測コーディングを含む、項目12に記載の方法。
(項目15)
上記第1のコーディング方法は、上記N個の写真ブロックをコーディングし、上記N個の写真ブロックのコーディングビットをビットストリームの中に書き込む、項目12に記載の方法。
(項目16)
上記第2のコーディング方法は、上記N個の写真ブロックのコーディングをスキップし、上記N個の写真ブロックのコーディングビットをビットストリームの中に書き込む、項目12に記載の方法。
(項目17)
Nは、1よりも大きい、項目12-16のいずれかに記載の方法。
(項目18)
上記コーディング参照は、上記写真の現在のビューポート情報に依存する、項目12-17のいずれかに記載の方法。
(項目19)
項目12-18のうちの任意の1つ以上のものに記載の方法を実装するように構成されるプロセッサを備える、ビデオエンコーダ装置。
(項目20)
項目1-7のうちの任意の1つ以上のものに記載の方法を実装するように構成されるプロセッサを備える、ビデオデコーダ装置。
(項目21)
項目8-11のうちの任意の1つ以上のものに記載の方法を実装するように構成されるプロセッサを備える、視覚的情報処理装置。
(項目22)
コンピュータプログラム製品であって、上記コンピュータプログラム製品は、その上に記憶されるコードを有し、上記コードは、プロセッサによって実行されると、上記プロセッサに、項目1-18のうちの任意の1つ以上のものに記載の方法を実装させる、コンピュータプログラム製品。

Claims (22)

  1. ビットストリーム処理の方法であって、
    ビットストリームを解析し、写真領域フラグを前記ビットストリーム内の写真領域に対応するデータユニットから取得することであって、前記写真領域は、N個の写真ブロックを含み、Nは、整数である、ことと、
    前記写真領域フラグの値に基づいて、前記写真領域のデコーディングされた表現を前記ビットストリームから選択的に生成することと
    を含み、前記選択的に生成することは、
    前記写真領域フラグの値が、第1の値である場合、第1のデコーディング方法を使用して、前記デコーディングされた表現を前記ビットストリームから生成することと、
    前記写真領域フラグの値が、前記第1の値と異なる第2の値である場合、前記第1のデコーディング方法と異なる第2のデコーディング方法を使用して、前記デコーディングされた表現を前記ビットストリームから生成することと
    を含む、方法。
  2. 前記写真領域のタイプは、インター予測を示し、前記第2のデコーディング方法は、前記写真領域内のピクセルの値を前記写真領域の参照写真内に共同設置されたピクセルの値に等しくなるように設定することを含む、請求項1に記載の方法。
  3. 前記写真領域のタイプは、インター予測を示し、参照写真は、存在せず、前記第2のデコーディング方法は、前記写真領域内のピクセルの値を所定の値に等しくなるように設定することを含む、請求項1に記載の方法。
  4. 前記写真領域のタイプは、イントラ予測を示し、前記第2のデコーディング方法は、前記写真領域内のピクセルの値を所定の値に設定することを含む、請求項1に記載の方法。
  5. 前記第1のデコーディング方法は、前記ビットストリームからの対応するビットのイントラデコーディングまたはインターデコーディングを使用することを含む、請求項1-4のいずれかに記載の方法。
  6. Nは、1よりも大きい、請求項1-5のいずれかに記載の方法。
  7. 前記写真領域内の第1の写真ブロックは、前記写真領域内の第2の写真ブロックと異なるコーディングモードを使用して、コーディングされ、前記コーディングモードは、インター予測コーディングモードまたはイントラ予測コーディングモードである、請求項6に記載の方法。
  8. 視覚的情報処理方法であって、
    ビットストリームを解析し、写真領域パラメータを前記ビットストリーム内のパラメータセットデータユニットから取得することであって、前記写真領域パラメータは、1つ以上の写真領域への写真のパーティション化を示す、ことと、
    標的写真領域に従って、前記標的写真領域内に位置する1つ以上の写真領域を決定することと、
    前記標的写真領域内に位置する1つ以上の写真領域に対応する1つ以上のデータユニットを前記ビットストリームから抽出し、サブビットストリームを形成することと、
    前記標的写真領域の外側にある外側写真領域に対応する第1のデータユニットを生成し、前記第1のデータユニット内の写真領域フラグを、ビットが前記外側写真領域内のコーディングブロックのために前記ビットストリーム内でコーディングされないことを示す第1の値に等しくなるように設定することと、
    前記第1のデータユニットを前記サブビットストリーム内に挿入することと
    を含む、方法。
  9. 前記1つ以上の写真領域は、非矩形写真領域を含む、請求項8に記載の方法。
  10. 前記標的写真領域は、ユーザビューポートに基づく、請求項8-9のいずれかに記載の方法。
  11. 前記外側写真領域は、ユーザビューポートに可視のエリアの外側にある写真エリアに対応する、請求項8-10のいずれかに記載の方法。
  12. ビデオまたは写真を処理するためのエンコーディング方法であって、
    写真を1つ以上の写真領域にパーティション化することであって、写真領域は、N個の写真ブロックを含有し、Nは、整数である、ことと、
    コーディング参照に基づいて、ビットストリームを前記N個の写真ブロックから選択的に生成することと
    を含み、前記選択的に生成することは、
    前記コーディング参照が、前記写真領域をコーディングすることである場合、前記写真領域に対応する写真領域フラグを第1の値にコーディングし、第1のコーディング方法を使用して、前記写真領域内の写真ブロックをコーディングすることと、
    前記コーディング参照が、前記写真領域をコーディングしないことである場合、前記写真領域に対応する写真領域フラグを第2の値にコーディングし、前記第1のコーディング方法と異なる第2のコーディング方法を使用して、前記写真領域をコーディングすることと
    を含む、方法。
  13. 前記第1のコーディング方法は、イントラコーディングを含む、請求項12に記載の方法。
  14. 前記第2のコーディング方法は、予測コーディングを含む、請求項12に記載の方法。
  15. 前記第1のコーディング方法は、前記N個の写真ブロックをコーディングし、前記N個の写真ブロックのコーディングビットをビットストリームの中に書き込む、請求項12に記載の方法。
  16. 前記第2のコーディング方法は、前記N個の写真ブロックのコーディングをスキップし、前記N個の写真ブロックのコーディングビットをビットストリームの中に書き込む、請求項12に記載の方法。
  17. Nは、1よりも大きい、請求項12-16のいずれかに記載の方法。
  18. 前記コーディング参照は、前記写真の現在のビューポート情報に依存する、請求項12-17のいずれかに記載の方法。
  19. 請求項12-18のうちの任意の1つ以上のものに記載の方法を実装するように構成されるプロセッサを備える、ビデオエンコーダ装置。
  20. 請求項1-7のうちの任意の1つ以上のものに記載の方法を実装するように構成されるプロセッサを備える、ビデオデコーダ装置。
  21. 請求項8-11のうちの任意の1つ以上のものに記載の方法を実装するように構成されるプロセッサを備える、視覚的情報処理装置。
  22. コンピュータプログラム製品であって、前記コンピュータプログラム製品は、その上に記憶されるコードを有し、前記コードは、プロセッサによって実行されると、前記プロセッサに、請求項1-18のうちの任意の1つ以上のものに記載の方法を実装させる、コンピュータプログラム製品。
JP2021553367A 2019-03-08 2019-03-08 ビデオコーディングにおけるヌルタイルコーディング Active JP7416820B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/077549 WO2020181435A1 (en) 2019-03-08 2019-03-08 Null tile coding in video coding

Publications (2)

Publication Number Publication Date
JP2022523440A true JP2022523440A (ja) 2022-04-22
JP7416820B2 JP7416820B2 (ja) 2024-01-17

Family

ID=72427184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021553367A Active JP7416820B2 (ja) 2019-03-08 2019-03-08 ビデオコーディングにおけるヌルタイルコーディング

Country Status (6)

Country Link
US (1) US20210400295A1 (ja)
EP (1) EP3935843A4 (ja)
JP (1) JP7416820B2 (ja)
KR (1) KR20210129210A (ja)
CN (1) CN113545060A (ja)
WO (1) WO2020181435A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230119972A1 (en) * 2021-10-01 2023-04-20 Mediatek Inc. Methods and Apparatuses of High Throughput Video Encoder

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150016504A1 (en) * 2013-07-15 2015-01-15 Sony Corporation Extensions of motion-constrained tile sets sei message for interactivity
JP2015073213A (ja) * 2013-10-03 2015-04-16 シャープ株式会社 画像復号装置、画像符号化装置、符号化データ変換装置、および、注目領域表示システム
JP2018056686A (ja) * 2016-09-27 2018-04-05 株式会社ドワンゴ 画像符号化装置、画像符号化方法、及び画像符号化プログラム、並びに、画像復号装置、画像復号方法、及び画像復号プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140002594A1 (en) * 2012-06-29 2014-01-02 Hong Kong Applied Science and Technology Research Institute Company Limited Hybrid skip mode for depth map coding and decoding
US10091519B2 (en) * 2013-10-14 2018-10-02 Electronics And Telecommunications Research Institute Multilayer-based image encoding/decoding method and apparatus
WO2016175550A1 (ko) * 2015-04-27 2016-11-03 엘지전자 주식회사 비디오 신호의 처리 방법 및 이를 위한 장치
EP3383039A4 (en) * 2015-11-23 2019-04-17 Electronics and Telecommunications Research Institute METHOD FOR MULTIPLE VIEW POINT VIDEO ENCODING / DECODING
US10805637B2 (en) * 2016-05-16 2020-10-13 Samsung Electronics Co., Ltd. Video encoding method and apparatus, video decoding method and apparatus
WO2018045108A1 (en) * 2016-09-02 2018-03-08 Vid Scale, Inc. Method and system for signaling of 360-degree video information
JP6769231B2 (ja) * 2016-10-17 2020-10-14 富士通株式会社 動画像符号化装置、動画像符号化方法、動画像復号装置、動画像復号方法、及び動画像符号化用コンピュータプログラムならびに動画像復号用コンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150016504A1 (en) * 2013-07-15 2015-01-15 Sony Corporation Extensions of motion-constrained tile sets sei message for interactivity
JP2016529789A (ja) * 2013-07-15 2016-09-23 ソニー株式会社 インタラクティビティのための動き制約タイルセットseiメッセージの拡張
JP2015073213A (ja) * 2013-10-03 2015-04-16 シャープ株式会社 画像復号装置、画像符号化装置、符号化データ変換装置、および、注目領域表示システム
JP2018056686A (ja) * 2016-09-27 2018-04-05 株式会社ドワンゴ 画像符号化装置、画像符号化方法、及び画像符号化プログラム、並びに、画像復号装置、画像復号方法、及び画像復号プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TOMOYUKI YAMAMOTO, ET AL.: "MV-HEVC/SHVC HLS: Skipped slice and use case", JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSIONS OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/W, vol. JCT3V-F0032, JPN6023003963, 13 January 2014 (2014-01-13), pages 1 - 6, ISSN: 0004979584 *

Also Published As

Publication number Publication date
JP7416820B2 (ja) 2024-01-17
CN113545060A (zh) 2021-10-22
US20210400295A1 (en) 2021-12-23
EP3935843A4 (en) 2022-10-05
EP3935843A1 (en) 2022-01-12
WO2020181435A1 (en) 2020-09-17
KR20210129210A (ko) 2021-10-27

Similar Documents

Publication Publication Date Title
US11589047B2 (en) Video encoding and decoding methods and apparatus
CN113519162B (zh) 数字视频中的参数集信令
US11575942B2 (en) Syntax design method and apparatus for performing coding by using syntax
US20220038721A1 (en) Cross-component quantization in video coding
JP2024019423A (ja) パレットモードに基づく画像またはビデオコーディング
JP7436674B2 (ja) サブピクチャに基づく映像コーディング装置及び方法
CN112567739B (zh) 用于视觉媒体编码和解码的平面预测模式
US20210400295A1 (en) Null tile coding in video coding
CN115699768A (zh) 在视频或图像编码系统中基于poc信息和非参考图片标志的图像编码方法
CN115699775A (zh) 视频或图像编码系统中基于单色颜色格式的色度去块参数信息的图像编码方法
CN114762350A (zh) 基于切片类型的图像/视频编译方法和设备
CN114175644A (zh) 使用色度量化参数表的图像解码方法及其设备
KR20220082082A (ko) 영상 정보를 시그널링하는 방법 및 장치
KR20220137954A (ko) 비디오 또는 영상 코딩 시스템에서의 타일과 관련된 정보 및 슬라이스와 관련된 정보에 기반한 영상 코딩 방법
KR20220083818A (ko) 슬라이스 관련 정보를 시그널링하는 방법 및 장치
KR20220082081A (ko) 픽처 분할 정보를 시그널링 하는 방법 및 장치
KR20220085819A (ko) 영상 디코딩 방법 및 그 장치
CN115152214A (zh) 基于画面划分的图像编码装置和方法
CN115428460A (zh) 图像编码系统中残差编码的图像解码方法及用于其的设备
CN115136608A (zh) 基于虚拟边界的图像编码装置和方法
CN114902681A (zh) 图像/视频编码/解码系统中与切片相关的信令信息的方法和设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230201

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240104

R150 Certificate of patent or registration of utility model

Ref document number: 7416820

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150