JP7444872B2

JP7444872B2 - メディアデータをメディアファイルにカプセル化するための方法、装置、およびコンピュータプログラム

Info

Publication number: JP7444872B2
Application number: JP2021522002A
Authority: JP
Inventors: フランクドゥヌアル，; ナエルウエドラオゴ，; フレデリックマゼ，; フェーブル，ジャンル
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-11-29
Filing date: 2019-11-22
Publication date: 2024-03-06
Anticipated expiration: 2039-11-22
Also published as: US11638066B2; CN113170239A; CN113170239B; JP2022511639A; US20220014827A1; GB2579389A; WO2020109154A1; GB201819501D0; GB2579389B; EP3888375A1

Description

本発明は、メディアデータをカプセル化して送信するための方法および装置に関するものである。

国際標準化機構のベースメディアファイルフォーマット（ＩＳＯＢＭＦＦ、ＩＳＯ／ＩＥＣ１４４９６－１２）は、ローカルストレージまたはネットワーク経由または別のビットストリーム配信メカニズムを介した送信のいずれかのための、符号化された時間指定メディアデータビットストリームを記述する、周知の柔軟かつ拡張可能なフォーマットである。拡張の例としては、様々なＮＡＬ（ネットワーク抽象層）ユニットベースのビデオ符号化フォーマットのためのカプセル化ツールを記述したＩＳＯ／ＩＥＣ１４４９６－１５がある。そのような符号化フォーマットの例は、ＡＶＣ（アドバンスドビデオコーディング）、ＳＶＣ（スケーラブルビデオコーディング）、ＨＥＶＣ（高効率ビデオコーディング）、およびＬ－ＨＥＶＣ（レイヤードＨＥＶＣ）である。また、ファイルフォーマット拡張の他の例には、ＨＥＶＣスチル画像などの静止画や静止画シーケンスのカプセル化ツールを記述したＩＳＯ／ＩＥＣ２３００８－１２がある。また、また、ファイルフォーマット拡張の他の例には、全方向メディアアプリケーションフォーマット（ＯＭＡＦ）を定義したＩＳＯ／ＩＥＣ２３０９０－２がある。ＩＳＯベースメディアファイルフォーマットはオブジェクト指向である。タイミングや構造パラメータなど、符号化された時間指定メディアデータビットストリームのパラメータを定義するボックス（または４文字コードで特徴づけられるデータ構造）と呼ばれるビルディングブロックで構成されている。

ファイルフォーマットでは、全体のプレゼンテーションをムービーと呼ぶ。ムービーは、メディアやプレゼンテーションファイルのトップレベルにあるムービーボックス（４文字コード「ｍｏｏｖ」）によって記述される。このムービーボックスは、プレゼンテーションを記述する様々なボックスのセットを含む初期化情報コンテナを表す。これは、複数のトラックボックス（４文字コード「ｔｒａｋ」）で表される複数のトラックに論理的に分割されている。各トラック（トラック識別子（ｔｒａｃｋ＿ＩＤ）によって一意に識別される）は、プレゼンテーションに属するメディアデータの時間指定シーケンス（例えば、ビデオのフレーム）を表す。各トラックの中で、時間指定されたデータの各ユニットはサンプルと呼ばれ、これはビデオ、オーディオ、または時間指定されたメタデータのフレームである。サンプルには暗黙のうちに連続した番号が付けられている。実際のサンプルデータは、ムービーボックスと同じ階層にあるメディアデータボックス（４文字コード「ｍｄａｔ」）と呼ばれるボックスに格納される。サンプルの説明は、ファイルのメタデータ部分のサンプルテーブルボックスに格納されている。ムービーは、プレゼンテーション全体の情報を格納したムービーボックスの後に、カップルムービーフラグメントとメディアデータボックスのリストが続くように、時間的に組織化することができる。１つのムービーフラグメント（４文字コード「ｍｏｏｆ」のボックス）の中には、１つのムービーフラグメントにつき０個以上のトラックフラグメント（４文字コード「ｔｒａｆ」のボックス）のセットがある。トラックフラグメントには、０個以上のトラックランボックス（「ｔｒｕｎ」）が含まれており、それぞれがそのトラックフラグメントの連続したサンプルを記録している。

ＩＳＯＢＭＦＦファイルは、複数の符号化された時間指定メディアデータのビットストリームや、複数のトラックを形成する符号化された時間指定メディアデータのビットストリームのサブパートを含み得る。サブパートが、時間をかけて撮影ビデオソースの１つまたは連続した空間的な部分に対応している場合（例えば、時間をかけて撮影された少なくとも１つの長方形の領域（「タイル」と呼ばれることもある）、対応する複数のトラックはサブピクチャートラックと呼ばれ得る。ＩＳＯＢＭＦＦとその拡張機能は、トラック、スタティックアイテム、またはサンプルをグループ化するためのいくつかのグループ化メカニズムを備えている。グループは、通常、共通のセマンティックおよび／または特性を共有する。

発明者らは、送信されるメディアデータに関する情報を記述およびシグナリングする際に、特に、あるトラックが別のトラックを参照しているときの複数のトラックについて、いくつかの問題に気づいた。

一例は、特定のパース処理を要求する別のトラックで参照されるデータエンティティのクライアントからのシグナリングであり、これはオーバーヘッドを発生させ、複雑である。

別の例は、合成トラックを形成するためにトラックのグループからコピーされるデータエンティティのシグナリングがあり、特に、合成トラックがこれらのトラックのグループ間の関係のタイプに依存する場合である。

既存のソリューションは、複雑であるか定義が不十分であり、トラックのグループからトラックを合成するための既存のメカニズムに完全には準拠していない。

本発明は、上述の懸念の１つまたは複数に対処するために考え出された。

この文脈において、例えばｈｔｔｐプロトコルを使用してインターネットなどのＩＰネットワーク上でメディアコンテンツ（例えば全方向性メディアコンテンツ）をストリーミングするためのソリューションが提供される。

本発明の第１の側面によれば、メディアデータをメディアファイルにカプセル化する方法が提供され、該方法は、
複数のメディアサンプルを含む第１のトラックを前記メディアファイルに含めることであって、各メディアサンプルは１つまたは複数のＮＡＬユニットのセットを含む、前記含めることと、
抽出器を含む第２のトラックを前記メディアファイルに含めることであって、前記抽出器は前記第１のトラックに含まれる１つのメディアサンプル内のデータエンティティを参照する構造である、前記含めることと、
前記１つのメディアサンプル内に含まれる１つまたは複数のＮＡＬユニットに対して前記参照されたデータエンティティを前記１つのメディアサンプル内で識別するコピーモード属性を前記抽出器に含めることと、
を含む。

特に、前記コピーモード属性は、１つまたは複数のモードのリストのうちの１つに設定される。

一実施形態では、前記モードのリストは、
前記データエンティティが前記サンプルに含まれる全てのＮＡＬユニットのセットを含む第１のモード、
前記データエンティティが前記ＮＡＬユニットのセットの１つのＮＡＬユニットを含む第２のモード、
前記データエンティティが前記ＮＡＬユニットのセットの１つのＮＡＬユニットのペイロードを含む第３のモード、
前記データエンティティが前記ＮＡＬユニットのセット内の指定された位置にある１つのＮＡＬユニットを含む第４のモード、
前記データエンティティが前記ＮＡＬユニットのセット内の指定された位置にある１つのＮＡＬユニットのペイロードを含む第５のモード、
の１つまたは複数を含む。

一実施態様では、前記第２または前記第３のモードにおいて、前記１つのＮＡＬユニットは前記サンプル内の最初のＮＡＬユニットである。

一実施態様では、前記第２または前記第３のモードにおいて、前記１つのＮＡＬユニットは前記サンプル内の最後のＮＡＬユニットである。

本発明の第２の側面によれば、メディアファイルを生成する方法が提供され、該方法は、
メディアコンテンツをメディアデータに符号化することと、
上述のカプセル化する方法に従って、前記メディアデータを複数のトラックにカプセル化することと、
前記カプセル化されたメディアデータを含む少なくとも１つのメディアファイルを生成することと、
を含む。

本発明の第３の側面によれば、メディアファイルを送信する方法が提供され、該方法は、
上述の方法に従ってサーバ機器によってメディアファイルを生成することと、
前記生成されたメディアファイルをクライアント機器に送信することと、
を含む。

本発明の第４の側面によれば、メディアデータを生成するためにメディアファイルをパースする方法が提供され、該方法は、
抽出器を含む第１のトラックを前記メディアファイルから取得することであって、前記抽出器は第２のトラックに含まれる１つのメディアサンプル内のデータエンティティを参照する構造である、前記取得することと、
複数のメディアサンプルを含む前記第２のトラックを前記メディアファイルから取得することであって、各メディアサンプルは１つまたは複数のＮＡＬユニットのセットを含む、前記取得することと、
前記抽出器に含まれるコピーモード属性によって識別される１つのデータエンティティを前記第２のトラックの１つのメディアサンプルから取得することと、
を含み、
前記コピーモード属性は、前記１つのメディアサンプル内に含まれる１つまたは複数のＮＡＬユニットに対して前記参照されたデータエンティティを前記１つのメディアサンプル内で識別する。

本発明の他の側面は、メディアデータをカプセル化しメディアファイルをパースするコンピュータデバイス、および対応するコンピュータプログラムに関する。

本発明のさらなる利点は、図面および詳細な説明を検討することにより、当業者に明らかになるであろう。あらゆる追加の利点が本明細書に組み込まれることが意図されている。

本発明の実施形態は、以下の図面を参照して、例示として以下に説明される。

本発明の実施形態を具現化するように適合されたカプセル化／デカプセル化モジュールを含む例示的なシステムを示す図である。ＮＡＬ（ネットワーク抽象層）ユニットの構造例を示す図である。ＩＳＯベースメディアファイルフォーマットに基づくビデオメディアサンプルの構造例を示す図である。ＩＳＯ／ＩＥＣ１４４９６－１５に準拠した抽出器および集約器の構造例を示す図である。本発明の実施形態によるカプセル化処理を示す図である。本発明の実施形態によるデカプセル化処理を示す図である。本発明の実施形態に基づく、トラックグループからのデータ抽出を伴うメディアデータのカプセル化の例を示す図である。サーバからクライアントへ、独立して符号化されたビットストリームを取り込み、処理し、カプセル化し、送信し、レンダリングするシステム例を示す図である。２Ｄビデオを複数のトラックに符号化する処理を説明する図である。２Ｄの空間的な関係を記述するために、複数のトラックグループを含むサブピクチャートラックカプセル化の例を説明する図である。トラックのセットまたはグループからの明示的な再構成の例を示す図である。トラックのセットまたはグループからの明示的な再構成の例を示す図である。本発明の１つまたは複数の実施形態を実現するためのコンピュータデバイスの概略ブロック図である。

図１は、本発明の実施形態を具現化するために適応された例示的なシステム１９１および１９５を示している。システム１９１は、通信ネットワーク１９９に接続されたカプセル化モジュール１５０を備える。システム１９５は、通信ネットワーク１９９に接続されたデカプセル化モジュール１００を備える。

一実施形態によれば、システム１９１は、コンテンツ（例えば、ビデオおよび／またはオーディオコンテンツ）を、ストリーミングまたはストレージのために処理するためのものである。システム１９１は、オリジナルのシーケンス画像１５１を含むコンテンツを取得／受信し、メディア符号化器（例えばビデオ符号化器）を用いてシーケンス画像をメディアデータ（すなわちビットストリーム）に符号化し、カプセル化モジュール１５０を用いてメディアデータをメディアファイル１０１にカプセル化する。カプセル化モジュール１５０は、メディアデータをカプセル化するライタまたはパッケージャの少なくとも一方を含む。メディア符号化器は、受信したコンテンツを符号化するために、カプセル化モジュール１５０内に実装されていてもよいし、カプセル化モジュール１５０とは別に設けられていてもよい。したがって、カプセル化モジュール１５０は、すでに符号化されたコンテンツ（メディアデータ）をカプセル化するためだけに専用化することができる。

一実施形態によれば、システム１９５は、ユーザに表示／出力するためのメディアデータを処理するためのものである。システム１９５は、通信ネットワーク１９９を介してメディアファイル１０１を取得／受信し、デカプセル化モジュール１００を用いてメディアファイル１０１をデカプセル化してメディアデータを取得し、メディア復号化器を用いてメディアデータをオーディオおよび／またはビデオコンテンツ（信号）に復号する。デカプセル化モジュール１００は、パーサまたはプレーヤの少なくとも一方を含む。メディア復号化器は、メディアデータ（ビットストリーム）を復号化するために、デカプセル化モジュール１００内に実装されていてもよいし、デカプセル化モジュール１００とは別個に設けられていてもよい。

メディアファイル１０１は、いくつかの方法でモジュール１００のパーサまたはプレーヤに伝達されるが、例えば、カプセル化モジュール１５０のライタまたはパッケージャによって事前に生成され、通信ネットワーク１９９内の記憶装置（例えば、サーバまたはクラウドストレージ）にデータとして格納され、ユーザが記憶装置からその中に符号化されたコンテンツを要求するまでの間、格納されていてもよい。コンテンツが要求されると、データは記憶装置からデカプセル化モジュール１００に通信／ストリームされる。

また、システム１９１は、記憶装置に記憶されたコンテンツのコンテンツ情報（例えば、コンテンツのタイトルや、コンテンツを識別、選択、要求するための他のメタ／記憶場所データ）をユーザに提供／ストリーミングするためのコンテンツ提供装置を含んでもよい。また、コンテンツ提供装置は、記憶装置からユーザ端末に配信／ストリーミングされることになるコンテンツに対するユーザ要求を受信し、処理するように適応されてもよい。

あるいは、カプセル化モジュール１５０は、メディアファイル１０１を生成し、ユーザがコンテンツを要求したときに、それを直接、デカプセル化モジュール１００に通信／ストリーミングしてもよい。その後、デカプセル化モジュール１００は、メディアファイル１０１を受信し、本発明の実施形態によるメディアデータのデカプセル化および復号化を実行して、ビデオ信号１０９および／またはオーディオ信号を取得／生成し、これをユーザ端末が使用して、要求されたコンテンツをユーザに提供する。

ユーザは、モジュール１００を構成するユーザ端末、またはモジュール１００と通信する手段を有するユーザ端末のユーザインタフェースを介して、オーディオ／ビデオコンテンツ（信号）にアクセスする。このようなユーザ端末は、コンピュータ、携帯電話、タブレット、またはユーザにコンテンツを提供／表示することができる他のタイプのデバイスであってもよい。

一実施態様によれば、メディアファイル１０１は、ＩＳＯベースメディアファイルフォーマット（ＩＳＯＢＭＦＦ、ＩＳＯ／ＩＥＣ１４４９６－１２およびＩＳＯ／ＩＥＣ１４４９６－１５規格）に従って、メディアデータ（例えば、符号化されたオーディオまたはビデオ）をボックスにカプセル化する。メディアファイル１０１は、１つのメディアファイル（ファイルタイプボックス「ｆｔｙｐ」で示される）、または１つ以上のセグメントファイル（セグメントタイプボックス「ｓｔｙｐ」で示される）に対応することができる。ＩＳＯＢＭＦＦによると、メディアファイル１０１は、メディアデータを含む「メディアデータボックス（ｍｄａｔ）」と、メディアデータの配置やタイミングを定義するメタデータを含む「メタデータボックス」と、の２種類のボックスを含んでいてもよいとされている。

ビデオ符号化器は、ビデオ規格を用いてビデオコンテンツを符号化し、符号化されたビデオビットストリーム（メディアデータ）を生成する。ビデオの符号化／復号化（コーデック）規格は、ＩＴＵ－ＴＨ．２６１（ＩＳＯ／ＩＥＣＭＰＥＧ－１Ｖｉｓｕａｌ）、ＩＴＵ－ＴＨ．２６２（ＩＳＯ／ＩＥＣＭＰＥＧ－２Ｖｉｓｕａｌ）、ＩＴＵ－ＴＨ．２６３（ＩＳＯ／ＩＥＣＭＰＥＧ－４Ｖｉｓｕａｌ）、スケーラブルビデオコーディング（ＳＶＣ）およびマルチビュービデオコーディング（ＭＶＣ）拡張機能を含むＩＴＵ－ＴＨ．２６４（ＩＳＯ／ＩＥＣＭＰＥＧ－４ＡＶＣ）、スケーラブル（ＳＨＶＣ）およびマルチビュー（ＭＶ－ＨＥＶＣ）拡張機能を含むＩＴＵ－ＴＨ．２６５（ＨＥＶＣ）を含む。

本明細書で説明する多くの実施形態は、ＨＥＶＣ規格またはその拡張機能を使用する例を説明している。しかし、本明細書で説明する技術とシステムは、ＡＶＣのような既に利用可能な他の符号化規格や、仕様策定中のＩＴＵ－ＴＨ．２６６（ＶＶＣ）のようなまだ利用可能でないまたは開発されていない符号化規格にも適用可能である。

図２ａは、Ｈ．２６４／ＡＶＣやＨＥＶＣ／Ｈ．２６５などのビデオコーデックで使用されるＮＡＬ（ネットワーク抽象層）ユニット２００の構造例を示している。

ＮＡＬユニットは、ＮＡＬユニットヘッダ２０１とＮＡＬユニットペイロード２０２を含む。ＮＡＬユニットヘッダ２０１は、固定長であり、ＮＡＬユニットの一般的な情報を提供する。例えば、ＨＥＶＣでは、ＮＡＬユニットヘッダ２０１は、各ＮＡＬユニットのタイプ、レイヤの識別子、および時間的なサブレイヤの識別子を示す。ＮＡＬユニット２００には、主にビデオ符号化レイヤＮＡＬユニット（ＶＣＬＮＡＬ）と非ＶＣＬＮＡＬユニットの２種類がある。ＶＣＬＮＡＬユニットは、典型的には、そのペイロードに、符号化されたスライスセグメント２０５を含む。非ＶＣＬＮＡＬユニットは、典型的には、パラメータセット（すなわち、構成情報）または補足的強化情報メッセージを含む。

符号化されたスライスセグメント２０５は、ＨＥＶＣビットストリームにおいて、slice_segment_headerまたは「スライスヘッダ」２０６の後にslice_segment_dataまたは「スライスデータ」２０７が続くように符号化される。スライスセグメントは、整数個の連続した（ラスタースキャン順の）符号化ツリーユニット（すなわちピクチャ内のブロック）を含む。スライスの形状は必ずしも矩形ではない（そのため、空間的なサブパートの表現としてはタイルよりも適切ではない）。ビデオ圧縮フォーマットは、アクセスユニットを、符号化されたピクチャに対応する、復号化順に連続したＮＡＬユニットの集合と定義している。

図２ｂは、ＩＳＯベースメディアファイルフォーマットに基づくメディア（ビデオ）サンプル２１０の構造例を示している。

メディアサンプルとは、１つの時間を持つオーディオ／ビデオデータユニット（例えば、オーディオフレームまたはビデオフレーム）のことである。ＩＳＯ／ＩＥＣ１４４９６－１５によれば、サンプルは、アクセスユニットまたはアクセスユニットの一部に対応する１つまたは複数のＮＡＬユニット２１２のセットである。各ＮＡＬユニット２１２の前には、ＮＡＬユニット長フィールド２１１がある。例えば、単一レイヤービデオの場合、サンプルは、符号化されたピクチャに対応する。レイヤードビデオの場合、サンプルはアクセスユニットの一部、例えばベースレイヤ用のＮＡＬユニットに対応し得る。

サンプルサイズ（バイト単位）は、サンプルサイズボックス「ｓｔｓｚ」または「ｓｔｓｚ２」に記載されている。サンプルサイズとＮＡＬユニットの長さが与えられると、ＩＳＯＢＭＦＦパーサ（例えば、モジュール１００）は、サンプル内のＮＡＬユニットの数を決定することができる。ＩＳＯ／ＩＥＣ１４４９６－１５では、メディアデータ（「ｍｄａｔ」ボックス）内に埋め込まれたＩＳＯＢＭＦＦ構造体である特定のＮＡＬユニット、抽出器、および集約器を定義している。これらは、「インストリーム構造」とも呼ばれる。

図３は、ＩＳＯ／ＩＥＣ１４４９６－１５に準拠した抽出器および集約器の構造の例を示す。

メディアストリーム（例えば、圧縮されたビデオビットストリーム）に対応する第１の（メディア）トラック３００は、メディア（例えば、ビデオ）サンプル３０１から構成され、各メディアサンプルは、図２ｂに例示されるように、１つ以上のＮＡＬユニットのセットを含む。サンプル内のＮＡＬユニットの数は、１つ１つ異なっていてもよい。例えば再構成、合成、参照または抽出トラックと呼ばれる第２のトラック３２０は、矢印３１０で図示されるように、別のトラック、ここでは第１のトラック３００からのデータを参照するために、ＮＡＬユニット３２３および抽出器ＮＡＬユニット３２２を混合するサンプル３２１を含む。現在のトラック３２０からのサンプル３２１は、次に、トラック３００からデータを抽出し、現在のトラック３２０からのデータ３２３と連結することによって再構成され得る。

再構成トラック３２０のいくつかのサンプル３２１は、抽出器のみまたはデータのみを含むことがあることに留意されたい。また、抽出器またはＮＡＬユニットの数は、サンプル３２１ごとに異なっていてもよい。抽出器３２２は、抽出器を含むトラック以外のトラックからＮＡＬユニットを効率的に抽出するための構造である。抽出器ＮＡＬユニットは、特定のＮＡＬユニットタイプ値によって識別される（特定の値は、ＶＬＣおよび非ＶＬＣのＮＡＬユニットに割り当てられたタイプ値と衝突しないように、使用中のコーデックに依存してもよい）。

ＩＳＯ／ＩＥＣ１４４９６－１５では、ＳＶＣ、ＭＶＣ、ＨＥＶＣなどのさまざまな圧縮形式に対応する抽出器が定義されている。ＨＥＶＣでは、抽出器は、参照されるトラック内のデータ（サンプル構築器）または構築器内で直接提供されるデータ（インライン構築器）からサンプルを再構築するための特定の構築器を導入する。既存の抽出器および構築器は、データの抽出またはコピーを、所定のバイト位置から何バイトかのコピーとして指定する。

本発明は、抽出器や構築器におけるデータ抽出やコピーを、バイト範囲ではなく、むしろシンタックス構造で指定することを提案するものである。一つの利点は、シンタックス構造をコピーすることで、ビットストリームのバイトアラインメントを確保できることである。もう１つの利点は、抽出器の記述サイズを小さくできることである。抽出器はサンプルレベルで定義され、時間の経過とともに繰り返されるので、これは貴重である。もう一つの利点は、代替またはグループのトラックから抽出できることである。後者は、抽出操作をバイト範囲で表現する場合には不可能である。なぜなら、あるトラックから別のトラックへのバイト位置は、同じ構文構造に対応しない可能性があるからである。さらに別の利点は、ライタまたはパッケージャが、抽出器またはサンプル構築器のデータオフセットおよびデータ長フィールドのビット数を計算して提供するために、ＮＡＬユニットのＮＡＬユニット長フィールドのバイト単位の長さを気にする必要がないことである。既存の抽出器またはサンプル構築器では、ライタまたはパッケージャが、抽出されたデータをデスティネーショントラックの長さフィールドサイズに合わせて再フォーマットする必要がある場合がある。

図４ａは、本発明の一実施形態によるカプセル化処理を示している。実施形態では、この処理は、メディアデータをカプセル化するために図１に示されたカプセル化モジュール１５０のライタまたはパッケージャによって実行される。

ステップ４００では、メディアデータ（ビットストリーム）を適切に読み取ることができるように、カプセル化モジュールを初期化する。この初期化は、ユーザインタフェースを介してユーザが行うことも、アプリケーションが行うこともできる。初期化には、ビットストリームのシンタックス構造（一般性を考慮してデータエンティティと呼ばれる）の識別と、カプセル化パラメータの設定が含まれる。カプセル化の設定は、例えば、メディアファイル１０１を１つのメディアファイルとして生成するのかあるいは複数のメディアセグメントとして生成するのか；メディアファイルにビデオストリームの１つのトラックを含めるのかあるいは複数のトラックを含めるのか；ビデオトラックをパート、ビュー、またはレイヤに分割する設定などを決定すること、を含み得る。

複数のトラックが含まれる場合、カプセル化モジュールは、ステップ４００の間に、トラック間の参照を設定したり、トラックのグループを定義したりすることができる。したがって、１つまたは複数の他のトラックを参照して構築されたトラックは、これらの１つまたは複数のトラックへのトラック参照を含む。トラック参照は、参照するトラックと参照されるトラックとの間の関係または依存関係の種類を記述するために、異なるタイプのものであってもよい。トラック参照のタイプは、４文字のコードを使用して符号化することができる。例えば、ＩＳＯ／ＩＥＣ１４４９６－１５によると、タイプコード「ｓｃａｌ」は、データが抽出される別のトラックを参照する抽出器を含むトラックを指定する。

カプセル化モジュールが初期化されると、ステップ４０１でビットストリームがＮＡＬユニットごとに読み込まれる。パラメータセットに対応する最初のＮＡＬユニットは、ステップ４００での初期化（インバンドパラメータセットまたはアウトオブバンドパラメータセット）に応じて、復号器構成レコード構造に埋め込まれてもよい。これらのパラメータセットは、ライタまたはパッケージャによって検査され、ビットストリーム分割についての詳細を知ることができる。例えば、時間的動き制約タイルセットのＳＥＩ（補足拡張情報）メッセージや、ピクチャパラメータセットにおけるタイルの存在を確認することで、タイリングされたＨＥＶＣビットストリームであるかどうかを判断することができる。ステップ４０１でＮＡＬユニットが読み込まれると、ライタはステップ４０２でそれが新しいサンプルに対応しているかどうかをチェックする。これは、例えば、ピクチャオーダーカウントを復号化することにより、あるいは、ＮＡＬユニットに対応するスライスがピクチャの最初のスライスであるかどうかをチェックすることにより行うことができる。イエスの場合、ステップ４０３において、サンプル記述のパラメータ（サイズ、メディアデータ内の位置、いくつかのサンプルグループ内のプロパティ．．．）を設定することにより、前のサンプルが確定される。次に、ステップ４０４で、現在のＮＡＬユニットが、トラックのメディア部分に含まれるべきか、他のトラックから参照されるべきか、あるいは、部分的に変更されて参照されるべきかをチェックする。これは、初期化ステップ４００で設定されたトラックの依存関係または関係性から判断される。ＮＡＬユニットが参照されていない場合は、まずメディアデータ「ｍｄａｔ」ボックスにＮＡＬユニットの長さが挿入され、続いてＮＡＬユニットのヘッダとペイロードが挿入される（ステップ４０５）。その後、現在のサンプルのサイズが、これら３つの構造体のバイト数でインクリメントされ、ライタまたはパッケージャは、ステップ４０６でビデオビットストリームから次のＮＡＬユニットをチェックする。これが最後のＮＡＬユニットでない場合、すべてのＮＡＬユニットが処理されるまで、処理はステップ４０１に反復される。

ＮＡＬユニットが参照によりメディアファイルに含まれる場合（テスト４０４で真）、ライタまたはパッケージャは、ステップ４０７で、抽出器を含め、本発明の実施形態に従って抽出器の属性を設定する。特に、このプロセスは、「ｍｄａｔ」ボックス内のバイト単位の抽出器構造体のサイズを有するＮＡＬユニット長フィールドを付加し、抽出器のＮＡＬユニットを作成する。抽出器は、メディアサンプルにおいて、メディアサンプルに含まれる１つ以上のＮＡＬユニットに対して、参照されるデータエンティティを識別するコピーモード属性「ｃｏｐｙ＿ｍｏｄｅ」を含む。コピーモード属性は、ライタまたはパッケージャがステップ４００でどのように初期化されたかに応じて、異なる値を取る可能性がある。

一実施形態では、ステップ４００で実行された初期化の結果、再構成トラックが異なるトラックからのビデオサンプルを合成するために使用される場合、コピーモード属性が「サンプル」モードに設定される。このモードでは、データエンティティは、サンプルに含まれるすべてのＮＡＬユニットのセットを含む。

一実施形態では、ステップ４００で実行された初期化またはビットストリーム検査が、ビデオビットストリームがタイル化されており（例えば、動き制約タイルセットを有するＨＥＶＣ）、ユーザまたはアプリケーションがタイルの再配置を指示したことを示している場合、コピーモード属性は「ＮＡＬＵ」モードに設定される。このモードでは、データエンティティは、サンプルに含まれる１つの所与のＮＡＬユニットを含む。

一実装形態では、ステップ４００で実行された初期化の結果、タイル再配置がビットストリーム内のタイル位置の修正を必要とする場合、ライタは、タイル位置がスライスヘッダ内に符号化されているか、ＮＡＬユニットヘッダ内に符号化されているかに応じて、コピーモード属性を「ｓｌｉｃｅ＿ｄａｔａ」モードまたは「ＮＡＬＵ＿ｐａｙｌｏａｄ」モードに設定したインライン構築器＋抽出器を用いて、書き換え命令を提供することができる。これらのモードでは、データエンティティは、サンプルに含まれる１つの所与のＮＡＬユニットのペイロードまたはスライスデータを含む。これらのモードでは、インライン構築器の命令で上書きされてしまうような無用なデータをコピーしないで済むという利点がある。

メディアデータパート（「ｍｄａｔ」ボックス）に抽出器が書き込まれると、サンプルの説明が更新される（サンプルサイズ、サンプル内の現在のＮＡＬＵインデックスなど）。その後、ライタまたはパッケージャは、ステップ４０６で次のＮＡＬユニットをチェックする。最後のＮＡＬユニットに到達すると、ライタは、ステップ４０８で、例えば、最後のサンプルのサイズ、インデックステーブル、ユーザデータ、またはメディア上の任意のメタデータを書き込むことによって、メディアファイルを確定する。

初期化ステップ４００がセグメントへのカプセル化を示している場合、新しいサンプルを開始する前に、セグメント持続時間に達しているかどうかをチェックするために、追加のテストが実行される（不図示）ことに留意されたい。セグメントの持続時間に達した場合、セグメントは確定され、プレーヤによって使用されるか、または配信ネットワークを介して送信される準備が整う。セグメントの継続時間に達していない場合、ライタやパッケージャは、サンプルとＮＡＬユニットを繰り返す。

図４ｂは、本発明の一実施形態によるデカプセル化処理を示す。一実施形態では、この処理は、メディアデータをデカプセル化するために、図１に図示されたデカプセル化モジュール１００のパーサまたはプレーヤによって実行される。

ステップ４１０において、プレーヤはまず、メディアファイル１０１（１つのファイルとして、または連続したセグメントとして）を受け取る。このファイルは、パーサまたはプレーヤのメモリに格納されていてもよいし、ネットワークソケットから読み込まれてもよい。

まず、ステップ４１１で初期化データ、典型的には「ｍｏｏｖ」ボックスとそのサブボックスがパースされ、メディアファイルのパラメータ／設定（トラック数、トラックの関係と依存関係、サンプルの種類、持続時間、位置とサイズなど）を知る。

ステップ４１１で決定されたトラックのセットから、プレーヤまたはパーサは、ステップ４１２で、レンダリングする１つまたは複数のトラックを選択する。そして、メディアデータボックスをサンプルごとにパースすることで再構築を開始する。相互依存のトラックの場合、メディアデータのパースは、サンプル位置情報を用いて、参照されるトラックから参照するトラックへのトラック参照に従って行われ、例えば、サンプルテーブルボックスで利用可能なサンプルからチャンクボックス「ｓｔｓｃ」およびチャンクオフセットボックス「ｓｔｃｏ」への参照が行われる。

パーサやプレーヤは、ファイルの最後に到達するまで、サンプルを繰り返します（テスト４１３で否）。セグメントの場合、１つのセグメントが完全に読み込まれると、パーサはサンプルごとに次のセグメントを読み込んでいく。

あるサンプルでは、チャンクオフセットボックスで指定された位置からデータを読み込み、そのチャンクでパースされた以前のサンプルの累積サイズを加える。この位置から、パーサはＮＡＬユニット長フィールドを見つける。その後、パーサはＮＡＬユニット長フィールドで指定されたバイト数を読み取り、ＮＡＬユニットのペイロードを得る。ＮＡＬユニットが抽出器に対応する場合（テスト４１５）、パーサは、ステップ４１６で、抽出器のコピーモード属性を読み取る。ＮＡＬユニットが抽出器ではない場合、パーサは、ステップ４１７で、ＮＡＬユニットペイロードに対応するバイトを、復号化のためにメディア復号化器に提供される再構築されたビットストリーム（メディアデータ）に付加する。ステップ４１７の後、処理は、現在のサンプルのサイズに達するまで、次のＮＡＬユニットを反復する（ステップ４１４に進む）。

コピーモード属性の値に応じて、パーサは、参照されるトラックからサンプル、ＮＡＬユニット、ＮＡＬユニットペイロードまたはスライスデータを抽出する。実際、本発明の実施形態によれば、コピーモード属性は、（バイトレンジの代わりに）コピーするシンタックス構造またはデータエンティティを示す。例えば、コピーモードは、サンプルまたはアクセスユニット、ＮＡＬユニット、ＮＡＬユニットペイロードまたはスライスデータをコピーすることを示すことができる。

以下では、本発明の実施形態に従って提案された新しい抽出器を説明するための例を提供する。新しい抽出器は、図４ａおよび図４ｂのカプセル化／デカプセル化処理のステップ４０７および４１５で上述したように、コピーモード属性を実装する。

コピーモード属性の実装は、ＳＶＣ、ＭＶＣ抽出器のような構築器を持たない抽出器と、ＨＥＶＣまたはＬ－ＨＥＶＣ抽出器のような構築器を持つ抽出器の両方に適用可能である。構築器のある抽出器では、以下のように新しい種類の構築器を定義することができる（「constructor_type」で識別される）。

class aligned(8) Extractor () {
NALUnitHeader();
do {
unsigned int(8) constructor_type;
if( constructor_type == 0 )
SampleConstructor();
else if( constructor_type == 2 )
InlineConstructor();
else if ( constructor_type == 3 )
SampleConstructorFromStructure();
} while( !EndOfNALUnit() )
}

新しい構築器の名前「SampleConstructorFromStructure」は、例として提供されている。また、予約済みの「constructor_type」の値「３」も例として挙げられている。新しい構築器は、バイトレンジを示す（「SampleConstructor」）または提供する（「InlineConstructor」）のではなく、構文構造に依存するコピーモードを示す。「constructor_type」の予約名や予約値を使用することができる。新しい構築器は、以下のように定義される。好ましい実施形態では、新しい構築器は、参照されるトラックの時間的に並んだサンプルから抽出を行う。これにより、抽出器のＮＡＬユニットを使用して、各サンプルで”sample_offset”のための８ビットを繰り返す必要がなくなる。

class aligned(8) SampleConstructorFromStructure () {
unsigned int(8) ref_index;
unsigned int(2) copy_mode;
if (copy_mode != 0) {
unsigned int(1) nalu_idc_field_size;
unsigned int(5) reserved;
unsigned int((nalu_idc_field_size+1)*8) nalu_idc;
} else {
unsigned int(6) reserved;
}
}

新しい構築器のパラメータ、フィールド、属性は、以下のような意味を持つ：
－”ref_index”は、データを抽出するＴｒａｃｋ＿ＩＤを見つけるために使用するタイプ「ｓｃａｌ」のトラック参照のインデックスを指定する。ＩＳＯＢＭＦＦの修正により、トラック参照がトラックやトラックグループを参照することができるようになったことに注意する。ｒｅｆ＿ｉｎｄｅｘがｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄに解決された場合、パーサやプレーヤは、ｔｒａｃｋｇｒｏｕｐｉｎｇ＿ｔｙｐｅに応じて、対応するトラックグループ内の最も適切なトラックを選択する。デフォルトの動作は、指定されたｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを持つファイルの最初のトラックを選択することである。
－”copy_mode”は、抽出器を解決する際に実行されるコピー操作（すなわち、コピーモード）を指定する。例えば、以下の値の１つ以上が選択される。
－”０”は、「サンプル」モード、すなわち、サンプルの最初のバイトからサンプルの最後までを含めてコピーすることを示す。サンプルの最初のバイトは、ＳａｍｐｌｅｔｏＣｈｕｎｋＢｏｘおよびＣｈｕｎｋＯｆｆｓｅｔＢｏｘから決定することができます。
－”１”は、「ＮＡＬＵ」モード、すなわちｉ番目のＮＡＬユニットの最初のバイトから同じＮＡＬユニットの最後のバイトまでのコピー（ｉはｎａｌｕ＿ｉｄｃフィールドに対応する）を示す。ＮＡＬユニットに対応するコピーするバイトの長さは、メディアデータボックス「ｍｄａｔ」のＮＡＬユニット２１２の前にある長さフィールド２１１から決定される。
－”２”は、「ＮＡＬＵ＿ｐａｙｌｏａｄ」モード、すなわち、ｉ番目のＮＡＬユニットのペイロードの最初のバイトから、同じＮＡＬユニットの最後のバイトまでのコピーを示す。
－”３”は、「ｓｌｉｃｅ＿ｄａｔａ」モード、すなわち、ｉ番目のｓｌｉｃｅ＿ｄａｔａの最初のバイトからこの同じｓｌｉｃｅの最後のバイトまでのコピー（ｉはｎａｌｕ＿ｉｄｃフィールドに対応する）を示す。パーサやリーダは、例えば、スライスヘッダ長の記述専用のＩＳＯＢＭＦＦ構造体を読み取ることで、コピーする最初のバイトの位置を決定する。これは、サンプルに対してスライスヘッダの長さを提供する専用のサンプルグループや、各ＮＡＬユニットに対してスライスヘッダの長さを提供するインストリーム構造によって示されることがある。
－「ｎａｌｕ＿ｉｄｃ＿ｆｉｅｌｄ＿ｓｉｚｅ」：このフィールドは、ｎａｌｕ＿ｉｄｃパラメータの符号化に使われる１バイトを引いたバイト数を示す。
－「ｎａｌｕ＿ｉｄｃ」：ｃｏｐｙ＿ｍｏｄｅがＮＡＬＵベースの場合（ｃｏｐｙ＿ｍｏｄｅ！＝０）、このフィールドは抽出元となるＮＡＬＵのインデックス（１ベースのインデックス）を示す。値０は予約済みである。

最後の２つのコピーモード（「ＮＡＬＵ＿ｐａｙｌｏａｄ」および「ｓｌｉｃｅ＿ｄａｔａ」モード）は、何らかのヘッダの書き換え（ＮＡＬユニットヘッダまたはスライスヘッダ）が行われた場合に有効であることに留意されたい。このような場合には、ペイロードのみを抽出し、書き換えられたヘッダと結合する必要がある。ヘッダの書き換えは、インライン構築器で処理することができる。

抽出器が集約器を参照する場合、コピーする最初のバイトのオフセットは、ＮＡＬユニット長フィールド値に、ＮＡＬユニット長フィールドサイズと、ｎａｌｕ＿ｉｄｃ－１個のＮＡＬユニットの集約器の場合はａｄｄｉｔｉｏｎａｌ＿ｂｙｔｅｓフィールドを加算して計算される。集約器はコピーモードのサンプルとしては興味があるが、ＮＡＬユニットやスライスレベルで抽出する際には集約器を避けることを推奨する。ｃｏｐｙ＿ｍｏｄｅがＮＡＬユニットまたはスライスベースのコピーに設定された状態で存在する場合、集約器は無視され、ｎａｌｕ＿ｉｄｃパラメータで示されるｉ番目のＮＡＬユニットが処理されるものとする。

上記全てのコピーモードにおいて、ＮＡＬユニット全体をコピーする場合も、ＮＡＬユニットの一部（ペイロード／スライス）をコピーする場合も、サンプルに含まれる１つ以上のＮＡＬユニットに対して、コピーされるデータエンティティは容易に決定される。

上記の定義から、既存の”サンプル構築器”がＮＡＬユニットの長さ（復号化器構成情報の”ｌｅｎｇｔｈＳｉｚｅＭｉｎｕｓＯｎｅ”フィールド）に応じて４～１０バイト要するのに対し、新しい構築器はコピーモードに応じて２～４バイト要することがわかる。コピーモードを”ｓａｍｐｌｅ”モードに設定すると、構築器のサイズが少なくとも２分の１になる。

上記のコピーモードは網羅的なものではなく、より多くのバイトを節約できる他のコピーモードも想定される。例えば、ある実装方法によれば、コピーモード属性を「Ｆｉｒｓｔ＿ＮＡＬＵ」モードに設定し、パーサに現在のサンプルの最初のＮＡＬユニットをコピーするようにシグナリングすることができる。このモードでは、ｎａｌｕ＿ｉｄｃパラメータは必要ない。このモードでは、１バイトまたは２バイトのメモリを節約することができる。別の実装によれば、コピーモードはＮＡＬユニットの範囲を対象とすることができる。例えば、ｃｏｐｙ＿ｍｏｄｅを「ＮＡＬＵ＿ｒａｎｇｅ」モードに設定し、開始ＮＡＬユニットインデックスと終了ＮＡＬユニットインデックスをパラメータとして指定する。

予約ビットを考慮すると、最大１２８のコピーモードが定義できる。パーサがメディアファイルのライタやパッケージャが設定したコピーモードを明確に識別するために、各コピーモードに１つの予約値を用意する。抽出に柔軟性が必要な場合、特に時間的にずれたサンプルからの抽出の場合、新しい構築器はcopy_modeパラメータまたは属性に加えてsample_offsetパラメータを埋め込むことができる。

別の実施形態では、シンタックス構造ベースのコピーモードで動作する新しい抽出器を、既存のバイトベースの抽出器と区別するために、予約されたＮＡＬユニットタイプを持つ新しい抽出器が定義される。例えば、「StructureExtractor」と呼ばれる新しい抽出器は、以下のように定義される。

class aligned(8) StructureExtractor () {
NALUnitHeader();
unsigned int(8) ref_index;
signed int(8) sample_offset;
unsigned int(2) copy_mode;
if (copy_mode !=0 ) { // 0: sample copy mode
unsigned int(1) nalu_idc_field_size;
unsigned int(5) reserved;
unsigned int((nalu_idc_field_size+1)*8) nalu_idc;
} else {
unsigned int(6) reserved;
}
}

上で開示した新しい構築器と同じセマンティクスがある。主な違いは、ここでは特定の「NALUnitHeader」があることである。「NALUnitHeader」は、使用中のビデオ符号化フォーマットに対応するＮＡＬユニットヘッダであるが、使用中のビデオコーディングフォーマットのＶＣＬ、非ＶＣＬのＮＡＬユニット、または既存の抽出器や集約器に対して既に予約されていない予約値を持つ。

別の実施形態では、新しい抽出器は、常に時間に沿ったサンプルで動作するので、「sample_offset」パラメータは、新しい抽出器構造に存在しない。２つの新しい抽出器（時間整列または非時間整列）は、（ＮＡＬユニットヘッダ内の）ｎａｌｕ＿ｔｙｐｅの異なる特定の値によって区別することができる。

別の実施形態では、予約されたビットの１つをサンプルオフセットの有無を示すフラグとして使用する。これにより、１つの抽出器または構築器で、時間に沿ったまたは時間に沿っていない抽出が可能になる。フラグが設定されている場合、ｓａｍｐｌｅ＿ｏｆｆｓｅｔが存在し、既存の抽出器または構築器と同じセマンティクスを持ち、時間に沿っていない抽出が可能になる。フラグが設定されていない場合は、ｓａｍｐｌｅ＿ｏｆｆｓｅｔは存在せず、時間に沿った抽出のみが可能である。以下にその例を示す。同様の実施形態は、ｃｏｐｙ＿ｍｏｄｅを提供する抽出器にも適用できる。

class aligned(8) SampleConstructorFromTrackGroup () {
unsigned int(8) ref_index; // an identifier for a group of tracks
unsigned int(2) copy_mode; // sample, NALU, NALU payload, slice data
unsigned int(1) time_aligned_extraction;
if (time_aligned_extraction == 1) {
signed int(8) sample_offset;
}
if (copy_mode != 0) {
unsigned int(1) nalu_idc_field_size;
unsigned int(4) reserved;
unsigned int((nalu_idc_field_size + 1) * 8) nalu_idc;
} else {
unsigned int(5) reserved;
}
}

好ましい実施形態によれば、新たに定義された抽出器または構築器は、以下に説明するように、グループ、代替物または同等物などの複数のトラックをカプセル化したメディアファイルに有利に使用することができる。

ＩＳＯＢＭＦＦファイルは、複数のトラックをもたらす複数の符号化されたビットストリームまたはビットストリームのサブパートをカプセル化することができる。例えば、ＩＳＯＢＭＦＦファイルには複数のトラックが含まれ、それぞれが所定の品質、解像度、またはビットレートのビデオシーケンスを表し、プレーヤに選択肢を提供するために同じメディアファイルにカプセル化されている。ＩＳＯＢＭＦＦとその拡張機能は、トラック、スタティックアイテム、またはサンプルをグループ化するためのいくつかのグループ化メカニズムを備えている。グループは通常、共通のセマンティックや特性を持っている。ＩＳＯＢＭＦＦは、トラック間の関係を記述するツールも定義している。

例えば、ＩＳＯＢＭＦＦは、エンティティグループメカニズムとトラックグループメカニズムで構成されている。エンティティグループメカニズムは、トラックおよび／またはスタティックアイテムが、示されたグループ化タイプまたはセマンティックに従ってグループ化されていることを示すために使用できる。トラックグループ化メカニズムは、トラックが指示されたグループ化タイプまたはセマンティックに従ってグループ化されることを示すために使用することができる。トラックグループについては、第１のツールとして、ＩＳＯＢＭＦＦは、トラックレベル（すなわち、ＩＳＯＢＭＦＦボックス階層の「ｔｒａｋ」ボックス内）に位置する「ｔｒｇｒ」と示されるボックスを提供し、各グループが特定の特性を共有する、またはグループ内のトラックが特定の関係を有するトラックのグループを記述する。トラックグループは少なくとも、識別子（”ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄ”）とグルーピングタイプ（”ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅ”）を含む。同じｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅとｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの値を持つ「ＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘ」を持つトラックはすべて同じトラックグループの一部である。全方向メディアアプリケーションフォーマット（ＯＭＡＦ、ＩＳＯ／ＩＥＣ２３０９１－２）では、このタイプのトラックグループ内のトラックが、「ｓｃａｌ」または「ｓａｂｔ」のトラック参照のソースとして使用される代替品であることを示すために、新しいグループタイプ「ａｌｔｅ」を検討している。また、トラック参照タイプのセマンティクスを拡張して、「ｔｒｅｆ」ボックス内のトラックまたはトラックグループの両方を参照できるようにする。この最後の点は、メディアパーサまたはプレーヤによる抽出器の解決に影響を与える可能性がある。

トラックのグループ、特に代替トラックのグループを定義する２つ目のツールは、トラックヘッダの「ａｌｔｅｒｎａｔｅ＿ｇｒｏｕｐ」パラメータである。このパラメータは、トラックのグループまたはコレクションを指定する識別子を整数で指定する。「ａｌｔｅｒｎａｔｅ＿ｇｒｏｕｐ」パラメータに同じ値を持つトラックは、お互いに代替データを含む。「ａｌｔｅｒｎａｔｅ＿ｇｒｏｕｐ」識別子に付随して、代替トラックグループ内のトラックを区別するために、メディアファイルには、区別基準として使用できる属性（例えば、ビットレート、フレームレート、コーデック、言語、パケットサイズなど）を含めることができる。

３つ目のツールは、エンティティ、つまりアイテムやトラック（またはその両方）をグループ化する「ＥｎｔｉｔｙＧｒｏｕｐｉｎｇ」である。トラックグループの場合、「ＥｎｔｉｔｙＴｏＧｒｏｕｐ」には、識別子と「ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ」が含まれる。特に、ＩＳＯ／ＩＥＣ１４４９６－１２では、代替を互いにグループ化するためにｇｒｏｕｐｉｎｇ＿ｔｙｐｅ「ａｌｔｒ」を宣言している。

トラック間の関係を記述するもう一つのツールが、トラック参照メカニズムである。これは、トラックレベルで宣言されたトラック参照ボックス「ｔｒｅｆ」に、参照のタイプと、参照される１つ以上のトラックの識別子（ｔｒａｃｋ＿ＩＤ）をそれぞれ提供する１つ以上のトラック参照タイプボックスが含まれている。このメカニズムは、例えば、レイヤービデオやスケーラブルビデオ（「ｓｂａｓ」）、タイルビデオ（「ｔｂａｓ」）において、トラックのセットが同じ「ベーストラック」を共有していることを示すために使用される。代替または同等のトラックは、トラックグループメカニズムを使用する代わりに、特定のトラック参照タイプでトラック参照メカニズムを介してシグナリングすることができる。例えば、「ｅｑｉｖ」トラック参照タイプは、参照しているトラックと参照されているトラック（複数可）が抽出のために透過的に使用できること、すなわち、それらが同じビジュアルコンテンツを表し、対応するビットストリームを組み合わせることができる（それらが同じパラメータセットを有する）ことを示す。トラックのセットが等価であることを示す他のシグナリングがあってもよい。このようなシグナリングにより、トラックのセットまたはグループを一意に識別できるようになれば、トラックグループからの新しい抽出器または構築器が使用できるようになる。

図５は、本発明の実施形態による、トラックグループからのデータの抽出を伴うメディアデータのカプセル化の例を示す。

抽出器トラック５００（ｔｒａｃｋ＿ｉｄ＝１００）は、２つのトラックグループ５２０および５３０（それぞれｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄ＝１１および２２を有する）へのタイプ「ｓｃａｌ」のトラック参照５０１を有する。これらの２つのトラックグループは、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅが「ａｌｔｅ」に設定されていて、それらのトラックが互いに代替物であることを示していてもよいし、あるいは、トラックグループから１つのトラックだけを選択するための決定を常に行うことが可能なセマンティックを有する他のグループ化タイプを有していてもよい。この例では、これらのトラックグループのそれぞれが、２つの代替トラック５２１、５２２および５３１、５３２（それぞれ、ｔｒａｃｋ＿ＩＤ＝１１１、１１２のトラックおよびｔｒａｃｋ＿ＩＤ＝２２１、２２２のトラック）を宣言している。例えば、トラックグループ内のトラックは、同じビデオを記述しているが、異なる品質レベルで符号化されている。この例では、抽出器トラック５００の時刻５０２ｔのサンプルは、第１のトラックグループ５２０の１つのトラックからの時刻ｔのサンプルと、第２のトラックグループ５３０の１つのトラックからの時刻ｔのサンプルとの連結で構成されている。各トラックグループ５２０または５３０について、ライタ１５０は、サンプル５０２の抽出器５０３がトラックグループ５２０の内部の代替トラックのいずれか１つからサンプルを抽出してもよく、サンプル５０２の抽出器５０４がトラックグループ５３０の内部の代替トラックのいずれか１つからサンプルを抽出してもよいことを示している。抽出器５０３及び５０４は、そのｃｏｐｙ＿ｍｏｄｅが「サンプル」のコピーモードに対応する値に設定されている。

トラックグループからのそのような抽出器の解決には、（５５０で表される）パーサまたはプレーヤライク１００による追加のステップが必要である。ステップ４１５（図４ｂ）で抽出器ＮＡＬユニットを特定する際、パーサは、ｒｅｆ＿ｉｎｄｅｘがｔｒａｃｋ＿ＩＤに対応するか、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄに対応するかをチェックしなければならない。これは、構築器またはトラックグループからの抽出器がｒｅｆ＿ｉｎｄｅｘとしてｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄのみを取る場合には、ファイルのブランドによって、抽出器または構築器のタイプによって決定することができる。トラックグループからの構築器または抽出器がｔｒａｃｋ＿ＩＤとｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの両方を受け入れる場合、パーサは、トラックまたはトラックグループに関連することを示すＩＤのリストを維持する。このリストから、パーサは、トラックグループからの抽出器または構築器のｒｅｆ＿ｉｎｄｅｘがｔｒａｃｋ＿ＩＤまたはｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを直接解決するかどうかを判断する。ｒｅｆ＿ｉｎｄｅｘがｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを解決した場合、ｔｒａｃｋｇｒｏｕｐｉｎｇ＿ｔｙｐｅに応じて、対応するトラックグループ内の最も適切なトラックを選択するかどうかは、パーサまたはプレーヤ次第である。デフォルトの動作は、指定されたｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを持つファイルの最初のトラックを選択することである。また、トラック選択ボックスやその他のトラック説明で、代替トラックを区別するパラメータを確認し、アプリケーションやコンテキスト（帯域幅、処理能力）に応じて、トラックグループ内の最も適切なトラックを選択するという動作もある。

復号化アーチファクトを回避するために、パーサは、ランダムアクセスサンプル（例えば、ビデオの場合はイントラフレーム）でのみ、参照トラックグループのトラックの選択を再評価してもよい。パーサは、代替トラックの「ｒａｐ」サンプルグループを検査することで、ランダムアクセスサンプルの位置を決定してもよい。好ましい実施形態では、代替トラックに対応するビットストリームは、そのランダムアクセスポイントが整列しているので、パーサは、１つのトラックサンプルグループを見るだけで、抽出のためのトラック選択を再評価するタイミングを知ることができる。

代替トラックのランダムアクセスポイントの整合性は、特定の「ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅ」、トラック参照タイプ、またはトラックの等価性を記述する任意のシグナリングによって通知されることがある。トラックグループを参照する新しい構築器または抽出器には、トラックグループ内のトラックのランダムアクセスポイントが整列しているかどうかを示す１つのパラメータ（たとえば、予約ビットを再利用して１ビットで符号化されたフラグ）を埋め込むこともできる。整列していれば、パーサはトラックグループ内のトラックの選択を再評価できるサンプルを知ることができる。この新しいパラメータが偽に設定された場合、トラックグループ内のトラック間でランダムアクセスポイントが整列していないことを意味する。次に、トラックグループを参照している抽出器または構築器を解決するときに１つのトラックの選択を再評価する前に、パーサはまず、参照されているトラックグループ内の少なくとも１つのトラックが、現在のサンプル（抽出器を含むもの）のためのランダムアクセスポイントを有することをチェックしなければならない。

別の実施形態では、上記のチェックを回避することができる。この代替実施形態では、トラックグループを参照する抽出器または構築器は、トラック間のランダムアクセスポイントの整列または非整列を示すフラグまたはパラメータと組み合わせたオプションのパラメータを有する。フラグが偽に設定されている場合、新しいオプションのパラメータが存在し、現在のサンプル（抽出器を含むもの）に対してランダムアクセスポイントを持つ、参照されたトラックグループ内のトラックのリストを提供する。トラックのリストは、ｔｒａｃｋ＿ＩＤのリストとして記述される。このリストから、パーサは、所定のサンプルについて、抽出すべきトラックグループ内の可能な候補トラックのリストを決定する。

代替実施形態によれば、抽出器は以下のように規定される：

class aligned(8) StructureExtractor () {
NALUnitHeader();
unsigned int(8) ref_index;
signed int(8) sample_offset;
unsigned int(1) aligned_RAPs
if (aligned_RAPs == 0) {
unsigned int (8) switchable_tracks;
}
unsigned int(2) copy_mode;
if (copy_mode !=0 ) { // 0: sample copy mode
unsigned int(1) nalu_idc_field_size;
unsigned int(4) reserved;
unsigned int((nalu_idc_field_size+1)*8) nalu_idc;
} else {
unsigned int(5) reserved;
}
}

前述の実施形態と同様に、「StructureExtractor」には、（上記の構造のように）「sample_offset」が存在しない時間調整されたバージョンと、「sample_offset」が存在する時間調整されていないバージョンの２つがある。各バージョンには、パーサが抽出器の種類を簡単に識別できるように、特定のＮＡＬユニットタイプがある。「aligned_RAPs」（名称は一例）と呼ばれるパラメータは、（ref_indexを介して）参照されるトラックグループ内のトラックが、整列したランダムアクセスポイントを有するか否かを示すフラグに対応する。「switchable_tracks」（名称は一例）と呼ばれるパラメータは、抽出器の解決のための切り替え可能なトラックのリストを提供するパラメータである。これは、与えられたサンプルのランダムアクセスポイントを提供するトラックグループ内のトラックのインデックスを含む。ライタまたはパッケージャ１５０は、例えば「ｔｒｇｒ」ボックスに記載されているトラックをグループ化する方法に関する指示のような、ステップ４００で得られた初期化情報に応じて、ステップ４０７でこのリストを設定する。

ここで注意したいのは、このパラメータはｔｒａｃｋ＿ＩＤの配列にすることもできるが、説明の効率化のために、リストｔｒａｃｋ＿ＩＤ（各３２ビット）の代わりに、トラックグループ内のトラックのインデックス（各８ビット）を宣言することである。これは１ベースのインデックスである。インデックスは次のように決定される（ライタ側とパーサ側の両方で）：各トラックグループについて、ｔｒａｃｋ＿ＩＤの順序付きリストがメモリに格納される。順番はｔｒａｃｋ＿ＩＤの値が大きい順である。例えば、ｔｒａｃｋ＿ＩＤが１、１２、２３のトラックが同じトラックグループの一部である場合、インデックス１はｔｒａｃｋ＿ＩＤ＝１を、インデックス２はｔｒａｃｋ＿ＩＤ１２を提供し．．．これは、トラックの同等性が特定のトラック参照タイプを介して通知される場合にも機能する。また、インデックスは、特定のトラック参照タイプによって参照されるｔｒａｃｋ＿ＩＤの順序付きリストに基づいている。ランダムなアクセスポイント（イントラ復号化リフレッシュ（ＩＤＲ）フレームなど）を代替トラックの異なる時間帯に配置することで、動的なコンテンツ適応のためのスイッチングポイントを増やし、スイッチングレイテンシーを削減できるシナリオがある。

もちろん、トラックグループを参照する新しい構築器にも、同じパラメータを適用することができる（ここでは、時間に沿ったバージョンの構築器、つまりｓａｍｐｌｅ＿ｏｆｆｓｅｔパラメータを含まないバージョンの構築器）：

class aligned(8) SampleConstructorFromStructure () {
unsigned int(8) ref_index;
unsigned int(2) copy_mode;
unsigned int(1) aligned_RAPs
if (aligned_RAPs == 0) {
unsigned int (8) switchable_tracks;
}
if (copy_mode != 0) {
unsigned int(1) nalu_idc_field_size;
unsigned int(4) reserved;
unsigned int((nalu_idc_field_size+1)*8) nalu_idc;
} else {
unsigned int(5) reserved;
}
}

新しいパラメータ「aligned_RAPs」とオプションの「switchable_tracks」は、上記のStructureExtractorで使用される場合と同じ意味を持つ。上記の名前「SampleConstructorFromStructure」は例として提供されているが、「SampleConstructorFromTrackGroup」または一意で予約された単一のｃｏｎｓｔｒｕｃｔｏｒ＿ｔｙｐｅの値に対応する任意の名前とすることもできる。

コピーモード（汎用ケースまたはトラックグループを参照する）を有する抽出器または構築器の両方について、代替実施形態は、抽出するＮＡＬユニットのインデックスを示す別の方法を提供する（ｃｏｐｙ＿ｍｏｄｅが「サンプル」コピーモードとは異なるモードを示す場合）。この代替実施形態は、以下のような抽出器または構築器の新しい定義をもたらす。

ＨＥＶＣまたはＬ－ＨＥＶＣ抽出器について、ＨＥＶＣおよびＬ－ＨＥＶＣ抽出器（または抽出器内の構築器の概念を再利用する任意の圧縮フォーマット）を拡張し、以下のようにトラックのセットまたはグループから再構築する可能性を持つ、新しいタイプの構築器（ここでは例えばSampleConstructorFromTrackGroupと呼ぶ）を提案する。

class aligned(8) Extractor () {
NALUnitHeader();
do {
unsigned int(8) constructor_type;
if( constructor_type == 0 )
SampleConstructor();
else if( constructor_type == 2 )
InlineConstructor();
else if ( constructor_type == 3
SampleConstructorFromTrackGroup ();
} while( !EndOfNALUnit() )
}

抽出器のconstructor_typeのセマンティクスが次のように更新されている：
「constructor_type」は、後続の構築器を指定する。SampleConstructor、InlineConstructorおよびSampleConstructorFromTrackGroupは、constructor_typeがそれぞれ０、２、および３に対応する。その他のconstructor_typeの値は予約されている。

以下にconstructor_typeが３の場合の例を示す（ただし、使用されていない他の値も使用できる）。：

class aligned(8) SampleConstructorFromTrackGroup () {
unsigned int(8) ref_index;
unsigned int(2) copy_mode;
unsigned int(6) reserved;
if (copy_mode != 0) {
unsigned int(8) nalu_idc; // 1-based index
if (nalu_idc == 0){
unsigned int(8) escape_nalu_idc; // To address from 255 to 511
}
}
}

次のようなセマンティクスを持つ：
－ref_indexは、データを抽出するためのｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを探すのに使用するタイプ「ｓｃａｌ」のトラック参照のインデックスを指定する。ｔｒａｃｋｇｒｏｕｐｉｎｇ＿ｔｙｐｅに応じて、対応するトラックグループの中から最も適切なトラックを選択するのは、パーサやプレイヤーの役目である。デフォルトの動作は、指定されたｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを持つファイルの最初のトラックを選択することであり得る。
－属性”copy_mode”は、抽出器を解決する際に実行されるコピー操作を指定し、特に（どのバイト範囲をコピーするかではなく）どのシンタックス構造またはデータエンティティをコピーするかを指定する。
・ｃｏｐｙ＿ｍｏｄｅを０に設定：サンプルベースのコピーモード、すなわち、サンプルの１バイト目からサンプルの最後までのバイトをコピーする。サンプルの最初のバイトは、サンプルからチャンクボックスとチャンクオフセットボックスから判断できる。
・ｃｏｐｙ＿ｍｏｄｅを１に設定：ＮＡＬユニットベースのコピーモード、すなわち、ｉ番目のＮＡＬユニットの最初のバイトから、同じＮＡＬユニットの最後のバイトまでをコピーする。コピーする最初のバイトのオフセットは、ＮＡＬユニット長フィールドの値に、ＮＡＬユニット長フィールドのサイズと、ｎａｌｕ＿ｉｄｃ－１個のＮＡＬユニットの集約器の場合はａｄｄｉｔｉｏｎａｌ＿ｂｙｔｅｓフィールドの値を加算して計算される。ＮＡＬユニットに対応するコピーするバイトの長さは、メディアデータボックス「ｍｄａｔ」のＮＡＬユニット２１２の前にある長さフィールド２１１から決定される。
・ｃｏｐｙ＿ｍｏｄｅを２に設定：ＮＡＬＵペイロードベースのコピーモード、すなわち、ｉ番目のＮＡＬＵペイロードの最初のバイトからこの同じＮＡＬＵの最後のバイトまでのコピーで、ｉはｎａｌｕ＿ｉｄｃフィールドに対応する。
・ｃｏｐｙ＿ｍｏｄｅを３に設定：ｓｌｉｃｅ＿ｄａｔａベースのコピーモード、すなわち、ｉ番目のｓｌｉｃｅ＿ｄａｔａの最初のバイトからこの同じｓｌｉｃｅの最後のバイトまでのコピー（ｉはｎａｌｕ＿ｉｄｃフィールドに対応する）を行う。パーサやリーダは、スライスヘッダの長さを記述したＩＳＯＢＭＦＦ構造を読むなどして、コピーする最初のバイトの位置を決定する。
－ｎａｌｕ＿ｉｄｃ属性は、ｃｏｐｙ＿ｍｏｄｅがＮＡＬユニットベースまたはｓｌｉｃｅ－ｂａｓｅｄの場合（ｃｏｐｙ＿ｍｏｄｅ！＝０）、ＮＡＬユニットのインデックス（１ベースインデックス、つまり値１から始まる）を指定する。値０は、２５５番目のＮＡＬＵを超えて抽出するためのエスケープｎａｌｕ＿ｉｄｃが存在することを示すために予約されている（ＨＥＶＣレベル６のように、ピクチャごとに最大６００個のスライスセグメントが含まれる場合などの稀なケースのため）。
－ｅｓｃａｐｅ＿ｎａｌｕ＿ｉｄｃ：２５５番目のＮＡＬＵを超えて抽出を開始するためのオフセットを示す。存在しない場合は、０とみなされる。存在する場合、値０は予約されており、５１２番目のＮＡＬユニットからのアドレスへの８ビットの別のエスケープ値（不図示）として必要に応じて使用できる。ＮＡＬユニットはｎａｌｕ＿ｉｄｃ＋ｅｓｃａｐｅ＿ｎａｌｕ＿ｉｄｃで表される。

ＮＡＬＵのペイロードとスライスデータに基づくモードは、ヘッダの書き換えを行う場合に有効である。このような場合、ペイロードのみが抽出され、書き換えられたヘッダと結合される。書き換えにはインライン構築器を使用する。ｓａｍｐｌｅ＿ｏｆｆｓｅｔパラメータは、新しいSampleConstructorFromTrackGroupには表示されず、参照されるトラックグループ内の１つのトラックからの時間に沿ったサンプルから再構築が行われると仮定する。抽出においてより柔軟性を提供する代替の実施形態は、ｓａｍｐｌｅ＿ｏｆｆｓｅｔパラメータをこの新しいSampleConstructorFromTrackGroupに維持することを含む。存在する場合、ｓａｍｐｌｅ＿ｏｆｆｓｅｔは、ＩＳＯ／ＩＥＣ１４４９６－１５と同じ意味を有する。ライタまたはパッケージャ１５０は、特に、初期化ステップ４００が、元のシーケンス１５１の代替的な符号化ビットストリームまたは表現が存在することを示している場合には、カプセル化ステップ４０７において、特定の構築器を有するこのような抽出器を使用することができる。この新しい構築器がファイル／セグメントのカプセル化手段１５０（例えば、ｍｐ４ライタ）とファイル／セグメントのデカプセル化手段１００（例えば、ｍｐ４リーダ）との間で相互運用可能になるように、新しい抽出器を定義する新しいセクションをＩＳＯ／ＩＥＣ１４４９６－１５に含めることが提案されている。このSampleConstructorFromTrackGroupは、ランダムアクセスポイントがトラックグループ内のトラック全体で整列しているかどうかを示すパラメータまたはフラグのような追加のパラメータを埋め込むこともでき、このパラメータまたはフラグが偽に設定されている場合には、切り替え可能なトラックのリストを提供するオプションのパラメータを備える。

ＳＶＣ、３Ｄ－ＡＶＣ、ＭＶＣの抽出器は、バイト範囲ではなく構文構造またはデータエンティティのコピーモードをサポートし、トラックグループから抽出するように拡張することもできる。特定のＮＡＬユニットタイプは、抽出器が構文構造抽出に基づいており（すなわち、ｃｏｐｙ＿ｍｏｄｅを示す属性またはパラメータを含む）、代替または同等のトラックのグループまたはセットを参照することができ、ＮＡＬユニットインデックス表示のためにＮＡＬユニットエスケープモードを使用することを示すために予約される（ここでは、「ｓａｍｐｌｅ＿ｏｆｆｓｅｔ」パラメータの存在によって示されるように、時間に沿っていない抽出モードで説明する）：

class aligned(8) StructureExtractor () {
NALUnitHeader();
unsigned int(8) ref_index;
signed int(8) sample_offset;
unsigned int(2) copy_mode;
unsigned int(6) reserved;
if (copy_mode !=0 ) { // 0: sample copy mode
unsigned int(8) nalu_idc; // a 1-based index;
if (nalu_idc == 0)
unsigned int(8) escape_nalu_idc; // to address from 256 to 511
}
}

セマンティクスは、SampleConstructorFromTrackGroupの説明と同じである。この新しい抽出器は、ランダムアクセスポイントがトラックグループ内のトラック全体で整列しているかどうかを示すパラメータまたはフラグのような追加のパラメータを埋め込むこともでき、このパラメータまたはフラグが偽に設定されている場合には、切り替え可能なトラックのリストを提供するオプションのパラメータを備える。

図６は、カプセル化および送信方法を実施するシステム６０の一例を示す。システム６０は、メディアコンテンツ（例えば２Ｄ画像）をストリーミングすることができる。システム６０は、サーバ機器６０１とクライアント機器６７０とを含み、メディアコンテンツは、サーバ機器６０１からクライアント機器６７０に送信される。図示するように、メディアコンテンツは、カメラシステム６００によって撮影され、クライアント機器６７０に配信されて、例えばユーザによって２Ｄ画面６７５（ＴＶ、タブレット、スマートフォン、ヘッドマウントディスプレイ．．．）に表示されるビデオシーケンス６０１１とすることができる。

ビデオシーケンスを形成する画像６０１１は、好ましい実施形態では、符号化手段６４０によって独立して符号化されるように、分割手段６０１２によって空間パート６０１３に分割される。独立して符号化されるとは、ある空間パートが、差分符号化または予測符号化のための参照として、別の空間パートからのデータを使用しないことを意味する。例えば、符号化手段６４０がＨＥＶＣ（高効率ビデオ符号化）圧縮フォーマットに基づいている場合、空間パート６０１３は独立したタイルとして符号化することができる。代替的な実施形態では、空間パート６０１３は、動き拘束されたタイルとして符号化することができる。符号化手段は、空間パートと同数のビットストリーム、またはＮ個の独立したサブビットストリームを有する１つのビットストリームを提供する（例えば、独立したタイルを符号化するためにＨＥＶＣが使用される場合など）。次に、提供された各ビットストリームまたはサブビットストリームは、ファイル／セグメントカプセル化手段６５０（カプセル化モジュール１５０に対応）によって、複数のサブピクチャトラック６０１４にカプセル化される。サブピクチャトラックは、ピクチャまたは画像のサブ部分、典型的には空間パートまたは矩形領域のデータを埋め込むトラックである。サブピクチャトラックは、他のサブピクチャトラックや、サブピクチャが抽出されたフルピクチャを記述するトラックと関連していてもよい。

例えば、サブピクチャトラックは、タイルトラックとすることができる。また、ＡＶＣトラック、ＨＥＶＣトラック、ＨＥＶＣタイルトラック、またはサンプルのシーケンスとしてカプセル化された任意の圧縮ビデオビットストリームで表現することもできる。同じビデオソースからのサブピクチャートラックは、トラックグループメカニズムを使用してグループ化することができる。例えば、ＯＭＡＦでは、ビデオトラック間の２次元的な関係を表現するために、「２ｄｃｃ」というｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅを検討している。

６５０で使用されるパッケージまたはカプセル化フォーマットは、例えば、ＭＰＥＧ標準化団体によって定義されたＩＳＯベースメディアファイルフォーマットおよびＩＳＯ／ＩＥＣ１４４９６－１５に従うことができる。結果として得られるファイルまたはセグメントファイルは、単一のｍｐ４ファイルまたはｍｐ４セグメントとすることができる。カプセル化の際には、ビデオのビットストリームにオーディオストリームを追加することができる。また、ビデオシーケンスや追加されたオーディオストリームに関する説明的な情報（メタデータ）を提供するメタデータトラックも追加される。

カプセル化されたファイルまたはセグメントファイルは、配信手段６６０を介して、例えばｈｔｔｐ（ハイパーテキスト転送プロトコル）プロトコルを用いてインターネットのようなＩＰネットワーク上で、または例えばディスクやＵＳＢキーのような取り外し可能なデジタル媒体上で、クライアント機器６７０に配信される。例示のために、配信手段６６０は、ＭＰＥＧ標準化委員会のＤＡＳＨ（ＨＴＴＰを介した動的適応ストリーミング）のようなＨＴＴＰ上の適応型ストリーミングを実装している（「ＩＳＯ／ＩＥＣ２３００９－１，ＨＴＴＰを介した動的適応ストリーミング（ＤＡＳＨ），Ｐａｒｔ１：メディアプレゼンテーション記述およびセグメントフォーマット”）。配信手段は、ストリーミングサーバ６６１とストリーミングクライアント６６２とで構成されていてもよい。メディアプレゼンテーション記述は、フル画像を含むビデオシーケンスをカプセル化したトラックに対応するメディアセグメントの記述とＵＲＬを提供してもよいし、サブピクチャートラックのみに対応するメディアセグメントの記述とＵＲＬを提供してもよいし、両方に対応するメディアセグメントの記述とＵＲＬを提供してもよい。メディアプレゼンテーション記述は、サブピクチャートラックの代替グループを提供してもよく、各グループは、カメラ６００によって撮影されたシーンの異なる再構築レベルを可能にする。代替とは、例えば、解像度、品質またはビットレートの観点から、異なる分割（分割手段６０１２に関連する粗いグリッドまたは細かいグリッド）であってもよい。

ストリーミングクライアント６６２による受信時に、カプセル化されたメディアファイルまたはメディアセグメントは、１つまたは複数のデータストリームを抽出するように、ファイル／セグメントデカプセル化手段６７１（デカプセル化モジュール１００に対応）によってパースされる。抽出されたデータストリームは、復号化手段６７２によって復号化される。ファイル／セグメントデカプセル化手段６７１によって受信されたＩＳＯＢＭＦＦファイルまたはセグメントの場合、パースは通常、ｍｐ４リーダまたはｍｐ４パーサによって処理される。パーサは、記述的なメタデータから、カプセル化されたビデオビットストリームおよび／またはビデオサブビットストリームを抽出することができる。

次に、オプションとして、復号化手段６７２によって提供されたビデオシーケンスの復号化された画像またはサブ画像は、レンダリング手段６７４によって、ビデオレンダリングのための結果画像に合成される。レンダリングされたビデオは、スクリーン（ユーザデバイス）のような表示手段６７５に表示される。

動画のレンダリングは、いくつかのパラメータに依存し、その中にはディスプレイサイズやクライアントの処理能力も含まれることに注意する。レンダリングは、パースおよび復号化されたサブピクチャートラックのサブセットのみを表示するように構成されていてもよい。これは、レンダリング手段６７４によって制御されてもよいし、ストリーミングクライアント６６２によるコンテンツ選択で直接制御されてもよい。

ＶＨＤ（超高解像度）ビデオストリームの複数の画像を伝送レンダリングすると、非常に高いビットレートと高解像度のメディアデータストリームになることが確認されています。そのため、システム全体を考慮すると、帯域幅の浪費を避け、クライアントプレーヤの処理能力に準拠するためには、メディアデータへのアクセスを最適化する必要がある。

具体的には、メディアデータストリームは、プロジェクターのアレイのような専用のディスプレイで画像を表示するために使用することができる。また、キャプチャされたビデオ６０１１の中の特定の関心領域を表示するためにも使用することができる。

図７は、２Ｄビデオを（手段６５０によって）複数のトラックにカプセル化するプロセスを示している。ステップ７００で、サーバは、符号化後の入力ビットストリーム（複数可）を、単一のトラックとしてカプセル化するか、複数のトラックとしてカプセル化するかを決定する。単一トラックのカプセル化がオンである場合（テスト７００が「ｙｅｓ」）、ビデオは単一トラックとしてカプセル化され（ステップ７１０）、オプションで、どのＮＡＬユニットがどの領域に対応するかを示すＮＡＬユニットマッピングを伴う。複数のトラックを生成しなければならない場合（テスト７００が「ｎｏ」）、例えば、図６の手段６０１２によって分割が行われる場合、ステップ７２０において、ファイルのコンテンツ作成者は、合成トラックまたは再構成トラックを追加することができる。合成または再構成トラックは、パーサまたはプレーヤのために、エントリーポイントまたは「メイン」または「デフォルト」トラックを提供することを可能にする。例えば、合成トラックや再構成トラックには、有効であることを示すフラグの値がトラックヘッダに設定されており、ムービーで使用され、オプションでプレビューとしても使用される。合成トラックから参照されるトラックは、クライアントやプレーヤやユーザによる選択からこれらのトラックを隠すために、（ｔｒａｃｋ＿ｅｎａｂｌｅフラグ値を除いて）これらのフラグ値が設定されていない場合がある。合成トラックまたは再構成トラックが存在しない場合、ステップ７３０において、符号化後のメディアファイルおよび各ビットストリームまたはサブビットストリームは、それ自身のトラックにカプセル化される。

オプションのステップは、ビットストリームまたはサブビットストリームを集めて、元の分割されたものよりも大きな領域を形成することによって、トラックの数を減らすよう構成されてもよい。カプセル化が合成トラックまたは再構成トラックを提供する場合（テスト７２０が「ｙｅｓ」）、サンプル再構成規則として、メディアファイルにおける暗黙的または明示的な再構成表示という２つのオプションが可能である。

暗黙的な再構成の場合（テスト７４０が「真」、分岐が「はい」）、ステップ７４１において、ＩＳＯ／ＩＥＣ１４４９６－１５で定義されているように、合成または再構成トラックがタイルベーストラック（例えば、「ｈｖｔ１」サンプルエントリを有するトラック）として提供される。次に、各サブピクチャートラックは、ステップ７４３において、ＩＳＯ／ＩＥＣ１４４９６－１５で規定されているように、このタイルベーストラックに応じて、タイルトラックとしてカプセル化される。タイルトラックのための「ｔｒｉｆ」記述子に加えて、各タイルトラックは、２Ｄ空間関係記述のために同じトラックグループの一部として宣言することもできることに注意する。

合成または再構成トラックが、明示的な再構成のための抽出器を有するトラックとして提供される場合（テスト７４０が「偽」、分岐が「いいえ」）、ステップ７４２において、追加のトラックがメディアファイルに作成される。このトラックは、主に、本発明の実施形態による抽出器を含み、すなわち、サンプル、ＮＡＬユニットまたはスライスのようなシンタックス構造（データエンティティ）のコピーを可能にする。このトラックはまた、前の実施形態による新しい抽出器または構築器のような代替または同等のトラックのセットまたはグループからの抽出を可能にしてもよい。作成されたトラックは、ステップ７４４で作成された各サブピクチャートラックを、例えば、「ｓｃａｌ」トラック参照タイプで参照する。合成または再構成トラックが提供されない場合（テスト７２０が「偽」、分岐が「いいえ」）、ステップ７３０において、メディアのビデオ部分がサブピクチャートラックとしてカプセル化される。なお、合成トラックまたは再構成トラックが存在する場合でも、サブピクチャートラックは、トラックグループメカニズムを介してグループ化され得る。

最後に、ステップ７５０で、空間的な構成とサブピクチャートラック間の関係のための記述が生成される。元のビデオソース内の各サブピクチャートラックの相対的な位置とサイズを記述するために、２Ｄ空間関係記述用のトラックグループボックスが各サブピクチャートラックに追加される。

図８は、２Ｄの空間関係を記述するために、いくつかのトラックグループを含むサブピクチャートラックのカプセル化の例を説明している。この例は、２Ｄビデオと全方位ビデオの両方に適用される。

この例では、トラック＃１～＃４は、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１０であり、ｓｏｕｒｃｅ＿ｉｄ８００が１である、タイプ「２ｄｃｃ」のトラックグループ８１に属している。トラック＃５～＃８は、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが２０であり、ｓｏｕｒｃｅ＿ｉｄ８００が１である、タイプ「２ｄｃｃ」の別のトラックグループ８２に属している。また、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄは３０であり、ｓｏｕｒｃｅ＿ｉｄ８０１が２である、タイプ「２ｄｃｃ」の第３のトラックグループ８３が存在する。さらに、いくつかの代替グループ８４～８７がある。同じ代替グループに属するすべてのトラック（すなわち、トラックヘッダボックス「ｔｋｈｄ」内に同じａｌｔｅｒｎａｔｅ＿ｇｒｏｕｐ識別子を有するか、または、すべてが同じｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅおよびｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄを有する「ｔｒｇｒ」ボックスを宣言している）は、代替データを含むトラックのグループまたはコレクションを指定する。代替データには、代替のビットレート、コーデック、言語、パケットサイズなどがある。これらの差別化された属性は、トラック選択ボックスに表示することができる。代替グループ内のトラックは、一度に１つだけ再生またはストリーミングする必要がある。この例では、トラック＃１、＃５、＃９は、識別子が１００である同じ代替グループ８４に属している。例えば、トラック＃１とトラック＃５は、異なる品質を持つ代替トラックであり、トラック＃９は、コーデックの観点からトラック＃１とトラック＃５の代替トラックである。トラック＃２、＃６、＃１０は、識別子が２００である同一の代替グループ８５に属しており、例えば、トラック＃２とトラック＃６は、解像度の異なる代替トラックであり、トラック＃１０は、フレームレートの観点からトラック＃２とトラック＃６の代替トラックである、等々である。

トラックグループ８１と８２は同じｓｏｕｒｃｅ＿ｉｄ８００を持ち、トラックグループ８３は異なるｓｏｕｒｃｅ＿ｉｄ８０１を持つことは、トラックグループ８１と８２に属するサブピクチャートラックを（他の制約条件に関して、つまり代替グループごとにほぼ１つのサブピクチャートラックを）組み合わせることができることを意味する。逆に、トラックグループ８３のサブピクチャートラックは、同じ代替グループに属していても、同じｓｏｕｒｃｅ＿ｉｄを持たないため、トラックグループ８１および８２のサブピクチャートラックと組み合わせることはできない。ｓｏｕｒｃｅ＿ｉｄパラメータは、同じ空間構成の一部となり得るサブピクチャートラックのプレーヤへの指示となる。与えられた空間的位置に対して、あるサブピクチャートラックは、同じ与えられた空間的位置にある別のサブピクチャートラックと視覚的に等価であると考えることができる。これは、メディアコンテンツが複数のトラックに分けて提供されている場合に、（サブピクチャ）トラックの選択に役立つ。さらに、選択されたサブピクチャートラックに応じて、同じ空間構成を表示するために、（品質／ビットレートや解像度を）動的に適合させることができる。図８の構成により、６５０（図６）または１５０（図１）のライタまたはパッケージャが、異なるトラックの空間的な部分を、レンダリングするためのより大きな画像にアレンジするための再構成または構成トラックを構築することができる。本発明の実施形態によれば、再構築または合成トラックは、異なるコピーモードを有する提案された抽出器を使用し、トラックグループを参照することができる。これは、例えば、トラック＃１またはトラック＃５に対応する空間パートが、これらの２つのトラックのいずれかによって再構成される可能性があることを示すのに有用である。これは、１００（８４）に等しい代替グループを参照する抽出器を有するライタまたはパッケージャによって示される。同様に、第２の空間パートのデータは、代替グループ８５の１つのトラックから抽出することができる。この場合も、再構成トラックは、ｃｏｐｙ＿ｍｏｄｅが「ｓａｍｐｌｅ」モードに設定され、トラックグループを参照する抽出器を含む。

図９ａおよび図９ｂは、トラックのセットまたはグループからの明示的な再構成の例を示す。図示の例では、トラックのグループは、サブピクチャートラックの代替セットに対応する。

本発明の実施形態によれば、新しい種類の抽出器は、図９ａの９００または図９ｂの９５０のような抽出器または再構成トラックで使用される。図９ａおよび図９ｂには、「代替による明示的な空間再構成」を示すために、特定のトラック参照タイプ「ｅｓｒａ」９０１または９５１が示されている。代わりにタイプ「ｓｃａｌ」のトラック参照を使用してもよい。ステップ「トラック選択」９０２または９５２は、９０１または９５１によるトラックグループによって参照されるトラックグループ内のトラックを選択するためにパーサによって行われるステップに対応する。図９ａは、図８上の構成と非常に類似しており、すなわち、代替トラックは、タイプ「ａｌｔｅ」のトラックグループ（９０３および９０４）によって示されるが、図９ｂは、例えばサブセット（９５３および９５４）を使用するなど、代替トラックを記述する代替方法を考慮している。サブセットは、特定の代替を有するサンプル構築器（ＩＤ＃１００のトラック９５０）においてｒｅｆ＿ｉｎｄｅｘとしても使用され得る一意の識別子によって識別される。サブセットの識別子は、「２ｄｓｒ」ボックスのパラメータとして宣言できる。ｓｕｂｓｅｔ＿ｉｄｅｎｔｉｆｉｅｒの使用には、サブピクチャートラックごとに４バイトのコストがかかり、「ａｌｔｅ」トラックの宣言にはサブピクチャートラックごとに２４バイトのコストがかかる。

図１０は、本発明の１つまたは複数の実施形態を実施するためのコンピュータデバイス１０００の概略ブロック図である。コンピュータデバイス１０００は、マイクロコンピュータ、ワークステーション、または軽いポータブルデバイスなどのデバイスであってもよい。コンピュータデバイス１０００は、
－マイクロプロセッサのような中央処理装置（ＣＰＵ）１００１；
－マニフェストの読み書きおよび／またはビデオの符号化および／または所定のファイルフォーマットの下でのデータの読み書きに必要な変数およびパラメータを記録するために適合されたレジスタと同様の、本発明の実施形態に係る方法の実行コードを格納するランダムアクセスメモリ（ＲＡＭ）１００２であって、そのメモリ容量は、例えば、拡張ポートに接続されたオプションのＲＡＭによって拡張可能である；
－本発明の実施形態を実現するためのコンピュータプログラムを格納するＲＯＭ（読み取り専用メモリ）１００３；
－典型的には、処理されるべきデジタルデータが送受信される通信ネットワークに接続されるネットワークインタフェース１００４。ネットワークインタフェース１００４は、単一のネットワークインタフェースであってもよいし、異なるネットワークインタフェースのセット（例えば、有線および無線のインタフェース、または、異なる種類の有線または無線のインタフェース）で構成されていてもよい。データは、ＣＰＵ１００１で動作するソフトウェアアプリケーションの制御下で、送信のためにネットワークインタフェースに書き込まれたり、受信のためにネットワークインタフェースから読み込まれたりする；
－ユーザからの入力を受け付けたり、ユーザに情報を表示したりするためのユーザインタフェース（ＵＩ）１００５；
－ハードディスク（ＨＤ）１００６；
－ビデオソースやディスプレイなどの外部機器との間でデータを送受信するためのＩ／Ｏモジュール１００７
に接続された通信バスを備える。

実行コードは、読み取り専用メモリ１００３、ハードディスク１００６、または例えばディスクなどのリムーバブルなデジタル媒体のいずれかに格納され得る。変形例によれば、プログラムの実行可能コードは、実行される前に、ハードディスク１００６などの通信装置１０００の記憶手段の１つに記憶されるために、ネットワークインタフェース１００４を介して、通信ネットワークによって受信することができる。

中央処理装置１００１は、本発明の実施形態によるプログラムまたはプログラムの命令またはソフトウェアコードの一部の実行を制御および指示するように適合されており、これらの命令は前述の記憶手段の１つに格納される。電源投入後、ＣＰＵ１００１は、ソフトウェアアプリケーションに関するメインＲＡＭメモリ１００２からの命令を、それらの命令が例えばプログラムＲＯＭ１００３またはハードディスク（ＨＤ）１００６からロードされた後に実行することができる。このようなソフトウェアアプリケーションは、ＣＰＵ１００１によって実行されると、これまでの図に示したフローチャートのステップを実行させる。

本実施形態では、本装置は、ソフトウェアを使用して本発明を実施するプログラム可能な装置である。しかし、代わりに、本発明をハードウェア（例えば、特定用途向け集積回路（ＡＳＩＣ）の形態）で実施してもよい。

本明細書では、特定の実施形態を参照して本発明を説明してきたが、本発明は特定の実施形態に限定されるものではなく、本発明の範囲内にある変更が当業者には明らかになるであろう。

例えば、本発明は、カメラ、スマートフォン、ヘッドマウントディスプレイ、タブレットのように、テレビやマルチメディアディスプレイのリモコンとして機能するデバイスに組み込まれ、例えば、特定の関心領域にズームインすることができる。また、同じデバイスを使って、特定の関心領域を選択することで、マルチメディアプレゼンテーションの閲覧をカスタマイズすることもできる。また、これらの機器や方法を使って、ユーザが好みのビデオの一部を選択して他の接続された機器と共有することもできる。また、監視カメラが本発明によるデータ提供方法に対応していれば、スマートフォンやタブレットを使って、監視下に置かれた建物の特定のエリアで起こっていることを監視することもできる。

本発明の範囲を限定するものではなく、添付の特許請求の範囲によってのみ決定されるものである。特に、異なる実施形態からの異なる特徴は、適切な場合には、交換することができる。

Claims

メディアデータをメディアファイルにカプセル化する方法であって、該方法は、
それぞれ１つまたは複数のＮＡＬユニットのセットを含む複数のサンプルを含む第１のトラックを前記メディアファイルに含めることと、
前記第１のトラックに含まれるサンプルまたは当該サンプル内に含まれる１つまたは複数のＮＡＬユニットを参照する参照構造を有する抽出器を含む第２のトラックを前記メディアファイルに含めることと、
を含み、
前記抽出器は、前記サンプルまたは当該サンプル内に含まれる１つまたは複数のＮＡＬユニットに含まれるデータエンティティを識別してコピーするモードを、予め定められた複数のモードから指定する情報を含むコピーモード属性を含む
方法。
前記複数のモードは、
前記データエンティティが前記サンプルに含まれる全てのＮＡＬユニットのセットを含む第１のモード、
前記データエンティティが前記ＮＡＬユニットのセットの１つのＮＡＬユニットを含む第２のモード、
前記データエンティティが前記ＮＡＬユニットのセットの１つのＮＡＬユニットのペイロードを含む第３のモード、
前記データエンティティが前記ＮＡＬユニットのセット内の指定された位置にある１つのＮＡＬユニットを含む第４のモード、
前記データエンティティが前記ＮＡＬユニットのセット内の指定された位置にある１つのＮＡＬユニットのペイロードを含む第５のモード、
の１つまたは複数を含む
請求項１に記載の方法。
前記第２または前記第３のモードにおいて、前記１つのＮＡＬユニットは前記サンプル内の最初のＮＡＬユニットである
請求項２に記載の方法。
前記第２または前記第３のモードにおいて、前記１つのＮＡＬユニットは前記サンプル内の最後のＮＡＬユニットである
請求項２に記載の方法。
メディアファイルを生成する方法であって、該方法は、
メディアコンテンツをメディアデータに符号化することと、
請求項１に記載の方法に従って、前記メディアデータを複数のトラックにカプセル化することと、
前記カプセル化されたメディアデータを含む少なくとも１つのメディアファイルを生成することと、
を含む方法。
メディアファイルを送信する方法であって、該方法は、
請求項５に記載の方法に従ってサーバ機器によってメディアファイルを生成することと、
前記生成されたメディアファイルをクライアント機器に送信することと、
を含む方法。
メディアデータを生成するためにメディアファイルをパースする方法であって、該方法は、
第２のトラックに含まれるサンプルまたは当該サンプル内に含まれる１つまたは複数のＮＡＬユニットを参照する参照構造を有する抽出器を含む第１のトラックを前記メディアファイルから取得することと、
それぞれ１つまたは複数のＮＡＬユニットのセットを含む複数のサンプルを含む前記第２のトラックを前記メディアファイルから取得することと、
前記抽出器に含まれるコピーモード属性によって識別されるデータエンティティを前記第２のトラックのサンプルから取得することと、
を含み、
前記コピーモード属性は、前記サンプルまたは当該サンプル内に含まれる１つまたは複数のＮＡＬユニットに含まれるデータエンティティを識別してコピーするモードを、予め定められた複数のモードから指定する情報を含む
方法。
メディアデータをメディアファイルにカプセル化するコンピュータデバイスであって、該コンピュータデバイスは、
それぞれ１つまたは複数のＮＡＬユニットのセットを含む複数のサンプルを含む第１のトラックを前記メディアファイルに含める手段と、
前記第１のトラックに含まれるサンプルまたは当該サンプル内に含まれる１つまたは複数のＮＡＬユニットを参照する参照構造を有する抽出器を含む第２のトラックを前記メディアファイルに含める手段と、
を備え、
前記抽出器は、前記サンプルまたは当該サンプル内に含まれる１つまたは複数のＮＡＬユニットに含まれるデータエンティティを識別してコピーするモードを、予め定められた複数のモードから指定する情報を含むコピーモード属性を含む
ように構成されているコンピュータデバイス。
メディアデータを生成するためにメディアファイルをパースするコンピュータデバイスであって、該コンピュータデバイスは、
第２のトラックに含まれるサンプルまたは当該サンプル内に含まれる１つまたは複数のＮＡＬユニットを参照する参照構造を有する抽出器を含む第１のトラックを前記メディアファイルから取得する手段と、
それぞれ１つまたは複数のＮＡＬユニットのセットを含む複数のサンプルを含む前記第２のトラックを前記メディアファイルから取得する手段と、
前記抽出器に含まれるコピーモード属性によって識別されるデータエンティティを前記第２のトラックのサンプルから取得する手段と、
を備え、
前記コピーモード属性は、前記サンプルまたは当該サンプル内に含まれる１つまたは複数のＮＡＬユニットに含まれるデータエンティティを識別してコピーするモードを、予め定められた複数のモードから指定する情報を含む
ように構成されているコンピュータデバイス。
請求項１乃至７の何れか１項に記載の方法を実施するためのコンピュータプログラムの命令を格納したコンピュータ可読記憶媒体。
実行すると請求項１乃至７の何れか１項に記載の方法を実行させるコンピュータプログラム。