JP2022529355A - アクセスユニット境界を識別するための方法、デバイスおよびコンピュータプログラム - Google Patents

アクセスユニット境界を識別するための方法、デバイスおよびコンピュータプログラム Download PDF

Info

Publication number
JP2022529355A
JP2022529355A JP2021561992A JP2021561992A JP2022529355A JP 2022529355 A JP2022529355 A JP 2022529355A JP 2021561992 A JP2021561992 A JP 2021561992A JP 2021561992 A JP2021561992 A JP 2021561992A JP 2022529355 A JP2022529355 A JP 2022529355A
Authority
JP
Japan
Prior art keywords
nal units
nal
headers
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021561992A
Other languages
English (en)
Inventor
ビョンドゥ・チェ
ステファン・ヴェンガー
シュアイ・ジャオ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2022529355A publication Critical patent/JP2022529355A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Abstract

符号化ビデオビットストリームにおけるアクセスユニット(AU)境界を識別するための方法および装置は、少なくとも2つのネットワーク抽象化レイヤ(NAL)ユニットの各々からの少なくとも1つのフィールドからの情報を相関させるステップを含む。

Description

関連出願の相互参照
本出願は、2020年2月24日に出願された米国仮特許出願第62/980,659号および2020年9月21日に出願された米国特許出願第17/026,781号の優先権を主張し、それらの全体は本明細書に組み込まれる。
開示されている主題は、IPネットワークを介してビデオを配信するためのネットワークプロトコルに関し、より具体的には、ビデオペイロードフォーマットのフレームの個別のアクセスをサポートするためのアクセスユニット(フレーム)境界情報のシグナリングに関する。
図1を参照すると、ネットワーク接続システムは、声、ビデオ、および/または他のメディアなどのリアルタイムメディアを使用して、インターネットなどのIPネットワーク(104)を介して互いに通信する1つ以上のエンドポイント(101、102、103)を備えうる。システムは、例えばエンドポイントによって送信されたメディアを、別のエンドポイントに転送する前に操作するように構成された1つ以上のメディア認識ネットワーク要素(105)をさらに備えうる。
特定のそのようなシステム設計では、エンドポイントおよび/またはモバイルアドホックネットワークエミュレータ(MANE:Mobile Ad-hoc Network Emulator)は、例えば別のエンドポイントまたはMANEに配置されたリアルタイムトランスポートプロトコル(RTP:Real-time Transport Protocol)受信機にネットワークを介してRTPパケットを送信するRTPパケット化器を備えうる。場合によっては、送信エンドポイントは、ビデオエンコーダに機能的に結合されたビデオカメラを損なう可能性があり、そしてまたビデオエンコーダは、パケット化器に結合されえ、その結果、ビデオカメラによってキャプチャされたビデオは、RTPパケットを使用して送信エンドポイント、例えばエンドポイント(101)からネットワーク(104)を介して受信エンドポイント、例えば102)に転送されうる。
場合によっては、送信エンドポイントはビデオエンコーダを含まなくてもよい。代わりに、ビデオは、エンドポイント(101)に結合されたハードドライブなど(106)に記憶されたファイルから取得されてもよい。
インターネットおよび他のIPネットワークを介したビデオのための特定のリアルタイム通信技術は、RFC3550に規定されているリアルタイムトランスポートプロトコル(RTP)に依拠しうる。場合によっては、RTPパケットは、IPを介してユーザデータグラムプロトコル(UDP:User Datagram Protocol)を介してあるエンドポイントまたはMANEから別のエンドポイントまたはMANEに転送されてもよい。図2を参照すると、RFC3550に規定されているRTPヘッダ構造が示されている。ここで、各RTPパケットは、RTPパケットヘッダから始まりうる。図2は、RFC3550に規定されているRTPヘッダのフォーマットを示している。
図2に示されているように、バージョン(V)フィールド(201)は、RTPのバージョンを識別しえ、2に等しくありうる。パディング(P)フィールド(202)は、パケットが最後に1つ以上の追加のパディングオクテットを含むかどうかを指定しうる。拡張(X)フィールド(203)は、固定ヘッダの後に正確に1つのヘッダ拡張が続くかどうかを示しうる。CSRCカウント(CC)フィールド(204)は、固定ヘッダの後に続くCSRC識別子の数を含みうる。マーカ(M)フィールド(205)は、パケットストリームにおけるAU境界などの重要なイベントのマーキングを可能にしうる。ペイロードタイプ(PT:Payload Type)フィールドは、ペイロードタイプ(206)、つまり、RFC3984パラメータの特定のセットと共にRTPペイロードフォーマットRFC6184を使用してITU-T勧告H.264に従って符号化されたビデオなどの使用中のメディアのタイプを示しうる。PTは、多くの場合、呼制御プロトコルによって選択されうる。RTPシーケンス番号(207)は、ラップアラウンドまで送信されるRTPパケットごとに1ずつ大きくなりうる。RTPタイムスタンプ(208)は、パケットの最初のサンプルがサンプリングされた時刻(キャプチャ時間)を示しえ、一般にプレゼンテーション時間として使用されうる。少なくとも一部のビデオコーデックのタイムスタンプは90kHzでありうるが、多くの音声コーデックでは、タイムスタンプは8kHz、44.1kHz、または48 kHzなどのサンプリングレートに等しくありうる。同期ソース(209)および貢献ソース(210)は以下で導入される。
RTPは、アプリケーションレイヤフレーミングの一般的な手法に従ってもよく、したがって、特定のビデオ符号化規格に従って指定された符号化ビデオフォーマットなどの特定のペイロードへの適応は、RTPペイロードフォーマットとして知られる主なRTP仕様外の補助仕様によって指定されうる。特定のRTPペイロードフォーマットは、H.264またはH.265などの特定のビデオ符号化規格に存在するようなネットワーク抽象化ヘッダのビットをそれらのペイロードヘッダとして再利用しうる。そのようなRTPペイロードフォーマットおよびビデオ符号化規格では、ネットワーク抽象化レイヤユニット(NALユニットまたはNALU)は、1つの符号化ピクチャまたはその明確に定義された部分、例えばスライス、タイル、およびGOBなどを含む有限サイズのビットストリームでありうる。
ビットストリームは、その始めに、含まれるビットストリームのタイプに関連する最小限の情報および一部のシナリオではレイヤリング情報を含む、例えば8または16ビット長の比較的短いデータ構造を含みうる。
少なくとも一部のビデオ符号化規格は、アクセスユニット(AU:Access Unit)の概念を認めている。単一レイヤの場合、アクセスユニットは、単一の符号化ピクチャから構成されうる。他の場合、特にレイヤ符号化およびマルチビュー符号化に関連する場合、AUは、例えば同じプレゼンテーション時間を有する特定のタイミング情報を共有する複数の符号化ピクチャを含みうる。
RTPヘッダは、いわゆる「マーカ」ビット(Mビット)(205)を含みうる。慣例により、AUの概念を認めている実質的にすべてのRTPペイロードフォーマットにおいて、Mビットは、AUの最後のビットストリームを搬送するRTPパケットに対しては、1に等しいと指定されており、そうでなければ0に設定されうる。受信機は、Mビットが設定されたRTPパケットを受信すると、通常、このRTPパケットがAUの最後のパケットであることを認識し、それに応じてそれを処理しうる。そのような処理のいくつかの詳細は、RTP仕様に見出されうる。
再び図1を簡単に参照すると、送信エンドポイント(101)が記憶デバイス/ハードドライブ(106)からその送信ビデオビットストリームを取得すると仮定すると、そのようなファイルは、例えばビットストリームが、例えば一般に「Annex Bのビットストリーム」として知られるフォーマットで記憶されうるため、アクセスユニット境界に関する容易にアクセス可能なメタ情報を含まない場合がある。そのようなシナリオでは、ビットストリームのビットストリームがAUの最終ビットストリームであることをシグナリングする利用可能な、エンコーダからRTPパケット化器へのアプリケーションプログラマインターフェース(API:Application Programmer’s Interface)情報が存在しない場合がある。代わりに、RTPパケット化器は、エンコーダによって通常取得可能なサイド情報なしでAUの最後を含むビットストリームを識別しなければならない場合がある。
ビデオRTPペイロードフォーマットにおけるアクセスユニット境界のシグナリングおよび識別のための技術が開示される。
開示されている主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになる。
RTPを使用するメディア送信システムの概略図である。 RTPヘッダの概略図である。 ビット境界の実施形態を有するVVCのNALユニットヘッダの概略図である。 簡略化されたブロック図のアクセスユニット境界検出の概略図である。 一実施形態によるコンピュータシステムの概略図である。
解決すべき課題
リアルタイムトランスポートプロトコル(RTP)は、ストリーミングメディアを利用する通信システムで使用されうる。Joint Video Experts Team(JVET)によって開発された、どちらも多用途ビデオ符号化(VVC:Versatile Video Coding)としても知られる符号化規格ITU-T勧告[H.266]およびISO/IEC国際規格[ISO23090-3]に準拠したビデオデータを搬送するためのRTPペイロードフォーマットが近年注目されている。RTPペイロードフォーマットは、各RTPパケットペイロード内の1つ以上のネットワーク抽象化レイヤ(NAL:Network Abstraction Layer)ユニットのパケット化、および複数のRTPパケットへのNALユニットの断片化を可能にする。VVCビデオ符号化は、開始コードを越えるフレーミング情報なしで、1つの長いビットストリームとしてファイルに格納されうる。このバイストリームの実質的にすべての詳細を解析しないと、RTPパケット化器は、RTPおよびRTPペイロード仕様によって要求されるようにMビットを正しく設定することができない。
一実施形態では、マーカビットが1に等しく設定されるとき、それは、現在のパケットが現在のRTPストリーム内のアクセスユニット(AU)の最後のパケットでありうることを示しうる。マーカビットが0に等しく設定されるとき、それは、現在のパケットがアクセスユニットの最後のパケットではありえないことを示しうる。マーカビットのそのような使用は、ビデオ用の実質的にすべての現在指定されているRTPペイロードフォーマットにおけるマーカビットの一般的な使用と一致する。
図3を参照すると、同じまたは別の実施形態において、VVC NALユニットヘッダは、2バイト(16ビット)から構成されうる。ここで、5ビットは、NALユニットタイプ(304)を表す。結果として、最大で32個のタイプのNALユニットが存在しうる。ビデオ符号化レイヤ(VCL:Video Coding Layer)NALユニットは、0から12の数値範囲内のタイプを有しえ、非VCL NALユニットは、13から31の範囲内のタイプを有しうる。forbidden_zero_bit(Fビット、301)は、開始コードエミュレーションを防止するために0に設定される必要がありうる。nuh-reserved-bit(Zビット、302)は、0に設定され、ITUおよびISO/IECによる将来の拡張のために予約される必要がありうる。nuh-layer-id(レイヤID、303)は、空間スケーラブルレイヤまたは品質スケーラブルレイヤなど、NALユニットが属するレイヤを識別するために使用されうる。nal-unit-type(タイプ、304)フィールドは、VVC仕様に基づいてNALタイプおよびセマンティクスを指定しうる。最後のnuh-temporal-id-plus1(TID、305)フィールドは、0のTID値が不正でありうるため、TemporalIdに1を加えた値でありうる。これは、1つのNALがコードエミュレーションのために少なくとも1ビットでなければならないことを保証することである。
同じまたは別の実施形態において、NALユニットのコンテンツは、少なくとも、場合によっては多くの他のNALユニットを解析することなく、NALユニットが復号順でAUの最後のNALユニットであるかどうかを知らせえない。したがって、サイド情報なしでは、パケット化器は、ビデオビットストリームからその情報を単独で簡単に取得しえない例えばリアルタイム符号化の文脈では、RTP送信器の実施態様は、例えばAPIを介してビデオエンコーダまたは他のシステム要素からこの情報を取得しうる。しかしながら、Annex Bのビットストリームがストリーミング前にハードドローブに記憶される上記で言及したシナリオを含めて、そのようなAPIも利用できないシナリオがありうる。この情報がエンコーダまたは他のシステム要素から明示的に取得されえない場合、送信器の実施態様は、NALユニットがアクセスユニットの最後のNALユニットであるかどうかを判定するために、復号においてNALユニットヘッダ(および場合によってはNALユニットのペイロードデータも)を解釈する必要がありうる。そのような情報を取得するために使用されるこのおよび他の新規な技術が以下に説明される。
アクセスユニット境界をシグナリングおよび識別するための技術が、図4に示されている。図4を参照すると、同じまたは別の実施形態において、NALユニットは、それがビットストリームの最後のNALユニットである場合、AUの最後のNALユニットであると判定されうる。
また、図4を参照すると、NALユニットがAUの最後のNALユニットであるかどうかを判定するための実施形態が示されている。ここで、プロセスは、復号キュー(402)に2つのNALユニット、すなわちnalXユニットおよびnalYユニットが存在するときに開始されうる(401)。ここで、目標は、nalXがAUの最後のビットストリームであるかどうか、またはnalYが次のAUの先頭であるかどうかを判断することである。nalXユニットがこのビットストリームの最後のNALユニットである場合(~d03)、nalXは現在のAUの最後のNALユニットであるという結論が下されうる(407)。しかしながら、そうでない場合、以下のプロセスが続けられうる。
具体的には、NALユニットタイプ値が20であり、nalXがAUD_NUTのタイプである場合(404)、nalXが現在のAUの最後のNALユニットであることは確実である。nalXがAUD_NUTのNALタイプではなく、nalYがピクチャヘッダタイプユニットを有し、さらにnalXとnalYとの間のすべてのNALユニットがパラメータセットまたはSEIのNALタイプである場合、nalXは現在のAUの最後のNALユニットであると判定され、そうでない場合、nalXは最後のNALユニットではないと判定される(406)。
以下の条件の両方が真である場合、すなわち、1)復号順序における次のVCL NALユニットnaluYが、1に等しい、そのNALユニットヘッダの後の最初のバイトの上位ビットを有するか、またはnal_unit_type(304)が19に等しい、および2)存在するとき、naluXとnaluYとの間のすべてのNALユニットが、13から17の範囲(両端を含む)内の、20に等しい、23に等しい、または26に等しいnal_unit_type(304)を有する、の両方が真である場合に、NALユニットnaluXはまた、AUの最後のNALユニットであると判定されうる。
同じまたは異なる実施形態において、以下の条件の両方が真である場合、すなわち、1)復号順序における次のVCL NALユニットnaluYが、スライスセグメントヘッダ内に1に等しいpicture_header_in_slice_header_flagを有するか、またはnal_unit_typeがPH_NUTに等しく設定されている、および2)存在するとき、naluXとnaluYとの間のすべてのNALユニットが、DCI_NUT、VPS_NUT、SPS_NUT、PPS_NUT、PREFIX_APS_NUT、AUD_NUT、PREFIX_SEI_NUTに等しく設定されたnal_unit_typeを有する、の両方が真である場合に、NALユニットnaluXはまた、アクセスユニットの最後のNALユニットであると判定されうる。
同じまたは別の実施形態において、NALユニットnaluXはまた、復号順序における次のVCL NALユニットnaluYがAUD_NUTに等しいnal_unit_typeを有する場合に、アクセスユニットの最後のNALユニットであると判定されうる。
上記で説明した、符号化ビデオビットストリームにおけるアクセスユニット(AU)境界を識別するための技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実施されえ、1つ以上のコンピュータ可読媒体に物理的に記憶されうる。例えば、図5は、開示されている主題の特定の実施形態を実施するのに適したコンピュータシステム500を示している。
コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用してコード化されえ、それらは、コンピュータ中央処理装置(CPU:central processing unit)およびグラフィック処理装置(GPU:Graphics Processing Unit)などによって、解釈およびマイクロコード実行などを介してまたは直接実行されうる命令を含むコードを作成するためにアセンブル、コンパイル、またはリンクなどのメカニズムを受けうる。
命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーミングデバイス、およびモノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはそのコンポーネント上で実行されうる。
コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用してコード化されえ、それらは、コンピュータ中央処理装置(CPU:central processing unit)およびグラフィック処理装置(GPU:Graphics Processing Unit)などによって、解釈およびマイクロコード実行などを介してまたは直接実行されうる命令を含むコードを作成するためにアセンブル、コンパイル、またはリンクなどのメカニズムを受けうる。
命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーミングデバイス、およびモノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはそのコンポーネント上で実行されうる。
コンピュータシステム~~500に関して図5に示されているコンポーネントは、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する制限を示唆することを意図していない。コンポーネントの構成も、コンピュータシステム500の例示的な実施形態に示されているコンポーネントのいずれか1つまたは組み合わせに関する依存性または要件を有すると解釈されるべきではない。
コンピュータシステム500は、特定のヒューマンインターフェース入力デバイスを含みうる。そのようなヒューマンインターフェース入力デバイスは、例えば触覚入力(キーストローク、スワイプ、データグローブの動きなど)、音声入力(声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力(図示せず)を用いた1人以上の人間のユーザによる入力に応答しうる。ヒューマンインターフェースデバイスは、音声(会話、音楽、環境音など)、画像(スキャン画像、静止画像カメラから取得される写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、必ずしも人間による意識的な入力に直接関連しない特定のメディアをキャプチャするためにも使用されうる。
入力ヒューマンインターフェースデバイスは、キーボード501、マウス502、トラックパッド503、タッチスクリーン510、データグローブ504、ジョイスティック505、マイクロフォン506、スキャナ507、カメラ508(それぞれ示されているのは1つのみである)のうちの1種類以上を含みうる。
コンピュータシステム500はまた、特定のヒューマンインターフェース出力デバイスを含みうる。そのようなヒューマンインターフェース出力デバイスは、例えば触覚出力、音、光、および臭い/味によって1人以上の人間のユーザの感覚を刺激しうる。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン510、データグローブ504、またはジョイスティック505による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスも存在しうる)、音声出力デバイス(スピーカ509、ヘッドホン(図示せず)など)、視覚出力デバイス(CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーン(それぞれタッチスクリーン入力機能を有するかまたは有さず、それぞれ触覚フィードバック機能を有するかまたは有さず、これらのうちのいくつかは、2次元視覚出力、または立体出力などの手段による3次元以上の出力を出力することができうる)を含むスクリーン510、仮想現実メガネ(図示せず)、ホログラフィックディスプレイ、およびスモークタンク(図示せず)など)、ならびにプリンタ(図示せず)を含みうる。
コンピュータシステム500はまた、CD/DVDなどの媒体521を伴うCD/DVD ROM/RW520を含む光学媒体、サムドライブ522、リムーバブルハードドライブまたはソリッドステートドライブ523、テープおよびフロッピーディスクなどのレガシー磁気媒体(図示せず)、ならびにセキュリティドングルなどの専用ROM/ASIC/PLDベースのデバイス(図示せず)など、人間がアクセス可能な記憶デバイスおよびそれらの関連媒体を含みうる。
当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、送信媒体、搬送波、または他の一時的信号を必ずしも包含しないことを理解すべきである。
コンピュータシステム500はまた、1つ以上の通信ネットワークへのインターフェースを含みうる。ネットワークは、例えば無線、有線、光ネットワークでありうる。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業、リアルタイム、ならびに遅延耐性ネットワークなどでありうる。ネットワークの例は、イーサネット、無線LANなどのローカルエリアネットワーク、GSM、3G、4G、5G、およびLTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、および地上波放送TVを含むTV有線または無線広域デジタルネットワーク、ならびにCANBusを含む車両および産業用などを含む。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス(549)(例えば、コンピュータシステム500のUSBポートなどに取り付けられた外部ネットワークインターフェースアダプタを必要とし、他は、一般に、以下に説明されるようにシステムバスへの取り付けによってコンピュータシステム500のコアに一体化される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム500は他のエンティティと通信しうる。そのような通信は、例えば、ローカルエリアデジタルネットワークまたは広域デジタルネットワークを使用する、他のコンピュータシステムに対する、単方向、受信のみ(例えば、放送TV)、単方向送信のみ(例えば、特定のCANbusデバイスへのCANbus)、または双方向の通信でありうる。特定のプロトコルおよびプロトコルスタックは、上記で説明したように、それらのネットワークおよびネットワークインターフェースの各々で使用されうる。
前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム500のコア540に取り付けられうる。
コア540は、1つ以上の中央処理装置(CPU)541、グラフィック処理装置(GPU)542、フィールドプログラマブルゲートエリア(FPGA:Field Programmable Gate Area)543の形態の専用プログラマブル処理装置、および特定のタスク用のハードウェアアクセラレータ544などを含みうる。これらのデバイスは、読み出し専用メモリ(ROM:Read-only memory)545、ランダムアクセスメモリ546、非ユーザアクセス可能内部ハードドライブおよびSSDなどの内部大容量ストレージ547と共に、システムバス548を介して接続されうる。一部のコンピュータシステムでは、システムバス548は、追加のCPUおよびGPUなどによる拡張を可能にするために、1つ以上の物理プラグの形態でアクセス可能でありうる。周辺デバイスは、コアのシステムバス548に直接取り付けられうるし、または周辺バス549を介して取り付けられうる。周辺バスのアーキテクチャは、PCIおよびUSBなどを含む。
CPU541、GPU542、FPGA543、およびアクセラレータ544は、組み合わさって前述のコンピュータコードを構成しうる特定の命令を実行しうる。そのコンピュータコードは、ROM545またはRAM546に記憶されうる。一時データもまた、RAM546に記憶されえ、一方、永久データは、例えば内部大容量ストレージ547に記憶されうる。メモリデバイスのいずれかへの高速記憶および検索は、1つ以上のCPU541、GPU542、大容量ストレージ547、ROM545、およびRAM546などに密接に関連付けられうるキャッシュメモリの使用によって可能になりうる。
コンピュータ可読媒体は、様々なコンピュータ実施動作を実行するためのコンピュータコードを有しうる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよいし、またはそれらは、コンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであってもよい。
限定としてではなく、一例として、コンピュータシステム500およびコア540は、1つ以上の有形のコンピュータ可読媒体で具体化されたソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、およびアクセラレータなどを含む)の結果として機能を提供しうる。そのようなコンピュータ可読媒体は、コア内部の大容量ストレージ547またはROM545などの、上記で導入したようなユーザアクセス可能な大容量ストレージ、および非一時的な性質の、コア540の特定のストレージに関連付けられる媒体でありうる。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記憶され、コア540によって実行されうる。コンピュータ可読媒体は、特定の必要性に応じて、1つ以上のメモリデバイスまたはチップを含みうる。ソフトウェアは、コア540、特にその中のプロセッサ(CPU、GPU、およびFPGAなどを含む)に、RAM546に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含む、本明細書で説明されている特定のプロセスまたは特定のプロセスの特定の部分を実行させうる。加えてまたは代替として、コンピュータシステムは、本明細書で説明されている特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに、またはソフトウェアと共に動作しうる、回路内のハードワイヤード論理または他の方法で具体化された論理(例えば、アクセラレータ544)の結果として機能を提供しうる。ソフトウェアへの言及は、適切な場合には、論理を包含しえ、逆もまた同様である。コンピュータ可読媒体への言及は、適切な場合には、実行のためのソフトウェアを記憶する回路(集積回路(IC:integrated circuit)など)、実行のための論理を具体化した回路、またはその両方を包含しうる。本開示は、ハードウェアとソフトウェアとの任意の適切な組み合わせを包含する。
本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内にある変更例、置換例、および様々な代替の均等例が存在する。したがって、当業者が、本明細書に明示的に図示または説明されていないが、本開示の原理を具体化し、したがってその精神および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。
101 エンドポイント
102 エンドポイント
103 エンドポイント
104 IPネットワーク
105 メディア認識ネットワーク要素
106 ハードドライブ
201 バージョン(V)フィールド
202 パディング(P)フィールド
203 拡張(X)フィールド
204 CSRCカウント(CC)フィールド
205 マーカ(M)フィールド
206 ペイロードタイプ
207 RTPシーケンス番号
208 RTPタイムスタンプ
209 同期ソース
210 貢献ソース
301 Fビット
302 Zビット
303 レイヤID
304 NALユニットタイプ
305 TID
500 コンピュータシステム
501 キーボード
502 マウス
503 トラックパッド
504 データグローブ
505 ジョイスティック
506 マイクロフォン
507 スキャナ
508 カメラ
509 スピーカ
510 スクリーン/タッチスクリーン
520 CD/DVD ROM/RW
521 媒体
522 サムドライブ
523 リムーバブルハードドライブまたはソリッドステートドライブ
540 コア
541 CPU
542 GPU
543 FPGA
544 アクセラレータ/ハードウェアアクセラレータ
545 ROM
546 ランダムアクセスメモリ
547 内部大容量ストレージ
548 システムバス
549 周辺バス
550 グラフィックアダプタ
554 ネットワークインターフェース

Claims (20)

  1. 符号化ビデオビットストリームにおけるアクセスユニット(AU)境界を識別する方法であって、
    少なくとも2つのネットワーク抽象化レイヤ(NAL)ユニットの各々からの少なくとも1つのフィールドからの情報を相関させるステップ
    を含む方法。
  2. 前記少なくとも2つのNALユニットのピクチャヘッダおよびスライスヘッダのうちの少なくとも1つからの情報を相関させるステップをさらに含む、請求項1に記載の方法。
  3. 前記少なくとも2つのNALユニットの各々からの前記少なくとも1つのフィールドからの情報を相関させる前記ステップの前に、前記少なくとも2つのNALユニットのNALユニットヘッダを解析するステップをさらに含む、請求項1に記載の方法。
  4. 前記少なくとも2つのNALユニットの各々からの前記少なくとも1つのフィールドからの情報を相関させる前記ステップと、前記少なくとも2つのNALユニットの前記ピクチャヘッダおよび前記スライスヘッダのうちの前記少なくとも1つからの情報を相関させる前記ステップとの前に、前記少なくとも2つのNALユニットのNALユニットヘッダを解析するステップをさらに含む、請求項2に記載の方法。
  5. 前記少なくとも2つのNALユニットの各々からの前記少なくとも1つのフィールドからの情報を相関させる前記ステップの前に、前記少なくとも2つのNALユニットのうちの少なくとも1つのピクチャヘッダまたはスライスヘッダのうちの少なくとも1つを解析するステップをさらに含む、請求項1に記載の方法。
  6. 前記少なくともNALユニットの各々からの前記少なくとも1つのフィールドからの情報を相関させる前記ステップと、前記少なくとも2つのNALユニットの前記ピクチャヘッダおよび前記スライスヘッダのうちの前記少なくとも1つからの情報を相関させる前記ステップとの前に、前記少なくとも2つのNALユニットのうちの前記少なくとも1つの前記ピクチャヘッダおよび前記スライスヘッダのうちの前記少なくとも1つを解析するステップをさらに含む、請求項2に記載の方法。
  7. 前記少なくとも2つのNALユニットの各々からの前記少なくとも1つのフィールドからの情報を相関させる前記ステップの前に、前記少なくとも2つのNALユニットのうちの少なくとも1つのピクチャヘッダまたはスライスヘッダのうちの少なくとも1つを解析するステップをさらに含む、請求項3に記載の方法。
  8. 前記少なくとも2つのNALユニットの各々からの前記少なくとも1つのフィールドからの情報を相関させる前記ステップと、前記少なくとも2つのNALユニットの前記ピクチャヘッダおよび前記スライスヘッダのうちの前記少なくとも1つからの情報を相関させる前記ステップとの前に、前記少なくとも2つのNALユニットのうちの前記少なくとも1つの前記ピクチャヘッダおよび前記スライスヘッダのうちの前記少なくとも1つを解析するステップをさらに含む、請求項4に記載の方法。
  9. 前記少なくとも2つのNALユニットは、nalXユニットおよびnalYユニットを含む、請求項1に記載の方法。
  10. 前記nalXユニットが前記符号化ビデオビットストリームにおける最後のNALユニットであるかどうかを判定するステップをさらに含む、請求項9に記載の方法。
  11. 符号化ビデオビットストリームにおけるアクセスユニット(AU)境界を識別するためのデバイスであって、
    プログラムコードを記憶するように構成された少なくとも1つのメモリと、
    前記プログラムコードを読み出し、前記プログラムコードによって命令されるように動作するよう構成された少なくとも1つのプロセッサであって、前記プログラムコードは、
    前記少なくとも1つのプロセッサに、少なくとも2つのネットワーク抽象化レイヤ(NAL)ユニットの各々からの少なくとも1つのフィールドからの情報を相関させるように構成された第1の相関コード
    を含む、少なくとも1つのプロセッサと
    を備えるデバイス。
  12. 前記プログラムコードは、前記少なくとも1つのプロセッサに、前記少なくとも2つのNALユニットのピクチャヘッダおよびスライスヘッダのうちの少なくとも1つからの情報を相関させるように構成された第2の相関コードをさらに含む、請求項11に記載のデバイス。
  13. 前記プログラムコードは、前記少なくとも2つのNALユニットのNALユニットヘッダを解析するように構成された第1の解析コードをさらに含む、請求項11に記載のデバイス。
  14. 前記プログラムコードは、前記少なくとも2つのNALユニットのNALユニットヘッダを解析するように構成された第1の解析コードをさらに含む、請求項12に記載のデバイス。
  15. 前記プログラムコードは、前記少なくとも2つのNALユニットのうちの少なくとも1つのピクチャヘッダまたはスライスヘッダのうちの少なくとも1つを解析するように構成された解析コードをさらに含む、請求項11に記載のデバイス。
  16. 前記プログラムコードは、前記少なくとも2つのNALユニットのうちの前記少なくとも1つの前記ピクチャヘッダおよび前記スライスヘッダのうちの前記少なくとも1つを解析するように構成された解析コードをさらに含む、請求項12に記載のデバイス。
  17. 前記プログラムコードは、前記少なくとも2つのNALユニットのうちの少なくとも1つのピクチャヘッダまたはスライスヘッダのうちの少なくとも1つを解析するように構成された第2の解析コードをさらに含む、請求項13に記載のデバイス。
  18. 前記プログラムコードは、前記少なくとも2つのNALユニットのうちの前記少なくとも1つの前記ピクチャヘッダおよび前記スライスヘッダのうちの前記少なくとも1つを解析するように構成された第2の解析コードをさらに含む、請求項14に記載のデバイス。
  19. 前記少なくとも2つのNALユニットは、nalXユニットおよびnalYユニットを含む、請求項11に記載のデバイス。
  20. 命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は1つ以上の命令を含み、前記1つ以上の命令は、デバイスの1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
    少なくとも2つのネットワーク抽象化レイヤ(NAL)ユニットの各々からの少なくとも1つのフィールドからの情報を相関させる、
    非一時的コンピュータ可読媒体。
JP2021561992A 2020-02-24 2020-10-05 アクセスユニット境界を識別するための方法、デバイスおよびコンピュータプログラム Pending JP2022529355A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202062980659P 2020-02-24 2020-02-24
US62/980,659 2020-02-24
US17/026,781 2020-09-21
US17/026,781 US11792432B2 (en) 2020-02-24 2020-09-21 Techniques for signaling and identifying access unit boundaries
PCT/US2020/054246 WO2021173190A1 (en) 2020-02-24 2020-10-05 Techniques for signaling and identifying access unit boundaries

Publications (1)

Publication Number Publication Date
JP2022529355A true JP2022529355A (ja) 2022-06-21

Family

ID=77367197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021561992A Pending JP2022529355A (ja) 2020-02-24 2020-10-05 アクセスユニット境界を識別するための方法、デバイスおよびコンピュータプログラム

Country Status (6)

Country Link
US (1) US11792432B2 (ja)
EP (1) EP4111682A4 (ja)
JP (1) JP2022529355A (ja)
KR (1) KR20210138074A (ja)
CN (1) CN114009030A (ja)
WO (1) WO2021173190A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023021235A1 (en) * 2021-08-17 2023-02-23 Nokia Technologies Oy A method, an apparatus and a computer program product for video encoding and video decoding

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006295568A (ja) * 2005-04-11 2006-10-26 Toshiba Corp 動画像復号装置及びピクチャ境界判定方法
JP2009171294A (ja) * 2008-01-17 2009-07-30 Hitachi Ltd 映像配信システム、映像中継装置、及び映像中継方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR0312657A (pt) 2002-07-16 2007-06-26 Nokia Corp método para executar uma restauração gradual do conteúdo de imagem com acesso randÈmico em uma seqüência de vìdeo codificada
PL2207182T3 (pl) * 2004-04-28 2012-09-28 Panasonic Corp Urządzenie do generowania strumienia ruchomego obrazu, urządzenie do kodowania ruchomego obrazu, urządzenie do multipleksowania ruchomego obrazu oraz urządzenie do dekodowania ruchomego obrazu
CA2783599C (en) 2006-11-14 2013-06-25 Qualcomm Incorporated Systems and methods for channel switching
WO2008072452A1 (ja) * 2006-12-11 2008-06-19 Panasonic Corporation 動画像復号化装置、半導体装置、映像機器および動画像復号化方法
EP2265026A1 (en) * 2009-06-16 2010-12-22 Canon Kabushiki Kaisha Method and device for deblocking filtering of SVC type video streams during decoding
US9124895B2 (en) 2011-11-04 2015-09-01 Qualcomm Incorporated Video coding with network abstraction layer units that include multiple encoded picture partitions
RU2584501C1 (ru) * 2012-04-16 2016-05-20 Нокиа Текнолоджиз Ой Способ и устройство для видеокодирования
US9723305B2 (en) * 2013-03-29 2017-08-01 Qualcomm Incorporated RTP payload format designs
US20150264404A1 (en) * 2014-03-17 2015-09-17 Nokia Technologies Oy Method and apparatus for video coding and decoding
US9800898B2 (en) * 2014-10-06 2017-10-24 Microsoft Technology Licensing, Llc Syntax structures indicating completion of coded regions
EP3254471A1 (en) * 2015-02-05 2017-12-13 Cisco Technology, Inc. Pvr assist information for hevc bitstreams
US10623755B2 (en) * 2016-05-23 2020-04-14 Qualcomm Incorporated End of sequence and end of bitstream NAL units in separate file tracks
WO2017202527A1 (en) * 2016-05-26 2017-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Broadcast streaming of panoramic video for interactive clients
CN109691103B (zh) 2016-07-14 2023-02-28 皇家Kpn公司 视频编码
JP6244447B2 (ja) * 2016-12-26 2017-12-06 アスモ株式会社 ラバーホルダ及びワイパブレード
ES2895927T3 (es) * 2017-01-05 2022-02-23 Nokia Technologies Oy Un aparato, un método y un programa de ordenador para la codificación y decodificación de vídeo
EP3349467B1 (en) * 2017-01-10 2019-09-04 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
WO2019008174A1 (en) * 2017-07-06 2019-01-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPTS FOR CONTINUOUSLY DISPLAYING VIDEOS CUT INTO PARTS
CN113228588A (zh) * 2018-12-27 2021-08-06 华为技术有限公司 关于视频译码中的帧内随机接入点图像和前置图像

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006295568A (ja) * 2005-04-11 2006-10-26 Toshiba Corp 動画像復号装置及びピクチャ境界判定方法
JP2009171294A (ja) * 2008-01-17 2009-07-30 Hitachi Ltd 映像配信システム、映像中継装置、及び映像中継方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
改訂三版H.264/AVC教科書, vol. 第1版, JPN6022048576, 1 January 2009 (2009-01-01), pages 100 - 101, ISSN: 0005069174 *

Also Published As

Publication number Publication date
KR20210138074A (ko) 2021-11-18
EP4111682A1 (en) 2023-01-04
EP4111682A4 (en) 2024-03-20
CN114009030A (zh) 2022-02-01
US20210266599A1 (en) 2021-08-26
US11792432B2 (en) 2023-10-17
WO2021173190A1 (en) 2021-09-02

Similar Documents

Publication Publication Date Title
TW201714456A (zh) 傳輸經寫碼音訊資料
CN110870282B (zh) 使用网络内容的文件轨处理媒体数据
CN113661692B (zh) 接收媒体数据的方法、装置和非易失性计算机可读存储介质
JP2018509060A5 (ja)
US11490169B2 (en) Events in timed metadata tracks
CN110996160A (zh) 视频处理方法、装置、电子设备及计算机可读取存储介质
US9872062B1 (en) Enforcing synchronization by embedding audio within video frame data
JP2022529355A (ja) アクセスユニット境界を識別するための方法、デバイスおよびコンピュータプログラム
US11539820B2 (en) Signaling and identifying picture boundary in video payload format over IP network
CN113453006B (zh) 一种图片封装方法、设备以及存储介质
US11882170B2 (en) Extended W3C media extensions for processing dash and CMAF inband events
JP7477645B2 (ja) Process@appendおよびprocess@playモードを使用してメディアと共にdashおよびcmafインバンドイベントを処理するためのw3cメディア拡張
JP7395766B2 (ja) Httpを介した動的適応ストリーミングのための方法および装置
US20240129537A1 (en) Method and apparatus for signaling cmaf switching sets in isobmff
US20230336602A1 (en) Addressable resource index events for cmaf and dash multimedia streaming
KR101683384B1 (ko) 실시간 스트림 제어를 위한 시스템 및 방법
KR20230101907A (ko) 미디어 플레이백 동안 프리롤 및 미드롤 콘텐츠를 지원하기 위한 mpeg dash를 위한 방법 및 장치
KR20230154977A (ko) 스택화 속성들을 갖는 프리롤들, 미드롤들 및 엔드롤들을 지원하는 mpeg dash를 위한 보조 mpd들
WO2024015256A1 (en) Method for bandwidth switching by cmaf and dash clients using addressable resource index tracks and events
WO2022207962A1 (en) A method, an apparatus and a computer program product for processing media data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240314

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240325

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240422