JP2020008864A

JP2020008864A - オーディオスプライシングのコンセプト

Info

Publication number: JP2020008864A
Application number: JP2019149425A
Authority: JP
Inventors: ヘルベルトトーマ; Herbert Thoma; ロバートブライト; Bleidt Robert; シュテファンクレーゲロウ; Kraegeloh Stefan; マクスノイエンドルフ; Max Neuendorf; アヒムクンツ; Kuntz Achim; アンドレーアスニーダーマイアー; Niedermeier Andreas; ミヒャエルクラッシュマー; Michael Kratschmer
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-09-09
Filing date: 2019-08-16
Publication date: 2020-01-16
Anticipated expiration: 2035-09-08
Also published as: ES2969748T3; RU2017111578A3; TW201626803A; EP3192195B1; US10511865B2; US11882323B2; US20170230693A1; AR101783A1; BR112017003288A2; AU2015314286A1; EP3192195C0; KR101997058B1; JP6605025B2; US20240129560A1; US11025968B2; SG11201701516TA; JP2017534898A; EP3192195A1; MX2017002815A; TWI625963B

Abstract

【課題】ストリームスプライサおよび／またはオーディオデコーダでのスプライシングプロセスの手続き上の複雑さの点で、より効率的なオーディオスプライシングの概念を提供する。【解決手段】オーディオスプライシングは、オーディオデータストリーム４０に挿入された１つまたは複数のトランケーションユニットパケット４２を使用することによって、オーディオデコーダに示すために、所定のアクセスユニットＡＵｉに対して、所定のアクセスユニットが関連付けられているオーディオフレーム１４の端部をプレイアウト中に破棄するように構成されている。【選択図】図２

Description

本出願は、オーディオスプライシングに関する。

コード化されたオーディオは、通常、サンプルのチャンク（塊）であり、多くの場合、チャンクあたり１０２４、２０４８、または４０９６個のサンプルが含まれる。ＡＡＣまたはＭＰＥＧ−Ｈ−３ＤオーディオのようなＭＰＥＧオーディオコーデックの場合、これらのチャンク／フレームは、グラニュールと呼ばれ、符号化されたチャンク／フレームは、アクセスユニット（ＡＵ）と呼ばれ、復号化されたチャンクは、コンポジションユニット（ＣＵ）と呼ばれる。トランスポートシステムでは、オーディオ信号は、これらの符号化されたチャンク（アクセスユニット）の粒度において、アクセス可能で、アドレス指定が可能なだけである。しかしながら、最終的な粒度でオーディオデータに対処することができれば好都合であるが、特にストリームスプライシングまたは符号化されたオーディオデータの構成の変更のような目的のために、同期され、例えばビデオストリームのような別のストリームに整列される。

これまでに知られていることは、符号化ユニットのいくつかのサンプルを破棄することである。例えば、ＭＰＥＧ−４ファイルフォーマットは、コーディングされたオーディオファイル／ビットストリームの始めと終わりにオーディオサンプルを破棄する目的で使用できる、いわゆる編集リスト（edit lists）を持っている［３］。不都合なことに、この編集リスト方法（edit list method）は、ＭＰＥＧ−４ファイルフォーマットのみで動作し、すなわちファイルフォーマット特有であり、ＭＰＥＧ−２トランスポートストリームのようなストリームフォーマットでは機能しない。それ以外にも、編集リストはＭＰＥＧ−４ファイルフォーマットに深く組み込まれているため、ストリームスプライシングデバイスで編集リストを簡単に変更することができない。ＡＡＣ［１］では、トランケーション情報を拡張ペイロード（extension payload）の形式でデータストリームに挿入することができる。しかし、符号化されたＡＡＣアクセスユニット内のそのような拡張ペイロードは、トランケーション情報がＡＡＣＡＵに深く埋め込まれており、ストリームスプライシングデバイスによってその場で容易に変更することができないという点で不利である。

したがって、本発明の目的は、例えば、ストリームスプライサおよび／またはオーディオデコーダでのスプライシングプロセスの手続き上の複雑さの点で、より効率的なオーディオスプライシングの概念を提供することである。

この目的は、添付の独立請求項の主題によって達成される。

本出願の発明は、所定のアクセスユニットが関連付けられているオーディオフレームの末尾部分をプレイアウト中に破棄するように、所定のアクセスユニットに対して、オーディオデコーダに示すために、オーディオスプライシングが、オーディオデータストリームに挿入された１つ以上のトランケーションユニットパケットを使用することによってより効果的にレンダーリングされる、という発想に着想を得ている。
本出願の発明は、オーディオスプライシングが、所定のアクセスユニットが関連付けられているオーディオフレームの末尾部分をプレイアウト中に破棄するように、オーディオデータストリームに挿入された１つまたは複数のトランケーションユニットパケットを使用して、オーディオデコーダに所定のアクセスユニットを示すことにより、より効果的にレンダーリングすることができる、という考え方によって示唆されている。

本出願の態様によれば、オーディオデータストリームは、このように提供されたオーディオデータストリームを、オーディオフレーム長より細かい時間的粒度で、所定のアクセスユニットでより容易にスプライス可能にするために、このようなトランケーションユニットパケットが最初に提供される。したがって、１つまたは複数のトランケーションユニットパケットは、それぞれ、オーディオデコーダおよびストリームスプライサにアドレスされる。実施形態によれば、ストリームスプライサは、可能なスプライスポイントの位置を特定するために、そのようなトランケーションユニットパケットを単に検索する。ストリームスプライサは、所定のアクセスユニットが関連付けられているオーディオフレームの端部を示すように、トランケーションユニットパケットをそれに応じて設定し、第１のオーディオデータストリームを所定のアクセスユニットでカットし、オーディオデータストリームを別のオーディオデータストリームとスプライスして所定のアクセスユニットで互いに当接させる。トランケーションユニットパケットは、スプライス可能なオーディオデータストリーム内に既に提供されているので、追加のデータはスプライシングプロセスによって挿入されることはなく、したがって、ビットレート消費量はそれほど変わらない。

また、スプライシングの際にトランケーションユニットパケットを挿入してもよい。最初にオーディオデータストリームにトランケーションユニットパケットを提供するか、スプライシングの際にトランケーションユニットパケットを同じものに提供するかにかかわりなく、スプライスされたオーディオデータストリームは、所定のアクセスユニットがスプライスポイントを先導するオーディオデータストリームの一部である場合には、その末尾部分を終端とし、また、所定のアクセスユニットがスプライスポイントに続くオーディオデータストリームの一部である場合には先端部分とした、そのようなトランケーションユニットパケットがそこに挿入される。

本出願の実施形態の有利な態様は、従属請求項の主題である。特に、本出願の好ましい実施形態を図面に関して以下に説明する。特に、本発明の好ましい実施形態は、添付の図面に関して以下に説明される。

オーディオ信号と、オーディオ信号のオーディオフレーム単位でオーディオ信号がエンコードされたオーディオデータストリームと、一連のフレームからなるビデオと、別のオーディオデータストリームおよびその中で特定のビデオフレームから前方へ最初のオーディオ信号を潜在的に置き換えるものになっている符号化されたオーディオ信号とを、上から下へ模式的に示している。本出願の実施例に従うスプライシング可能なオーディオデータストリーム、すなわち、スプライシング動作を軽減するためのＴＵパケットを備えたオーディオデータストリームの概略図である。一実施例に従うＴＵパケットを示す概略図である。ＴＵパケットが先端部分および後端部分にそれぞれ信号を送ることができる別の実施例に従うＴＵパケットを概略的に示す。一実施例に従うオーディオエンコーダのブロック図を示す。同じものがビデオフレームラスタによる一実施例に従うスプライスインおよびスプライスアウト時間のトリガソースを示す概略図である。図２のオーディオデータストリームを受信し、それに基づいてスプライスされたオーディオデータストリームを出力するものとして、ストリームスプライサをさらに示す図を用いて実施例に従うストリームスプライサの概略ブロック図を示す。一実施例に従って、下位のオーディオデータストリームを上位のオーディオデータストリームにスプライスする際の、図７のストリームスプライサの動作モードのフロー図である。一実施例に従って、下位のオーディオデータストリームから上位のストリームへのスプライシングにおけるストリームスプライサの動作モードのフロー図を示す。図７に示されるスプライスされたオーディオデータストリームを受信するようにオーディオデコーダをさらに例示する実施例に係るオーディオデコーダのブロック図を示す。同一のＩＰＦアクセスユニットおよび／またはＴＵパケットを含むアクセスユニットに依存するアクセスユニットの異なる取扱いを例示するために、図１０のオーディオデコーダの動作モードのフロー図を示す。ＴＵパケットの構文の一例を示す図である。１つのオーディオデータストリームから他のオーディオデータストリームへのスプライス方法の異なる例を示しており、スプライシング時間は、ビデオ、ここでは毎秒５０フレームのビデオと、１０２４のサンプル幅の粒度（グラニュール）で４８ｋＨｚのオーディオデータストリームに符号化されたオーディオ信号と、またはオーディオフレームと、９０ｋＨｚのタイムスタンプタイムベースとを有するので、１つのビデオフレーム持続時間は、１８００タイムベースティックに等しく、１つのオーディオフレームまたはオーディオグラニュールは、１９２０タイムベースティックに等しい。１つのオーディオデータストリームから他のオーディオデータストリームへのスプライス方法の異なる例を示しており、スプライシング時間は、ビデオ、ここでは毎秒５０フレームのビデオと、１０２４のサンプル幅の粒度（グラニュール）で４８ｋＨｚのオーディオデータストリームに符号化されたオーディオ信号と、またはオーディオフレームと、９０ｋＨｚのタイムスタンプタイムベースとを有するので、１つのビデオフレーム持続時間は、１８００タイムベースティックに等しく、１つのオーディオフレームまたはオーディオグラニュールは、１９２０タイムベースティックに等しい。１つのオーディオデータストリームから他のオーディオデータストリームへのスプライス方法の異なる例を示しており、スプライシング時間は、ビデオ、ここでは毎秒５０フレームのビデオと、１０２４のサンプル幅の粒度（グラニュール）で４８ｋＨｚのオーディオデータストリームに符号化されたオーディオ信号と、またはオーディオフレームと、９０ｋＨｚのタイムスタンプタイムベースとを有するので、１つのビデオフレーム持続時間は、１８００タイムベースティックに等しく、１つのオーディオフレームまたはオーディオグラニュールは、１９２０タイムベースティックに等しい。図１３Ａ〜１３Ｃの例示的なフレームおよびサンプルレートを使用してオーディオフレームラスタによって決定されたスプライシング時間で２つのオーディオデータストリームをスプライシングする別の例示的なケースの概略図を示す。一実施例に従う異なる符号化構成の２つのオーディオデータストリームをスプライシングする際のエンコーダー動作を示す概略図である。一実施例に従う異なる符号化構成の２つのオーディオデータストリームをスプライシングする際のエンコーダー動作を示す概略図である。一実施例に従うスプライシングを使用する異なるケースを示す図である。一実施例に従うスプライシングを使用する異なるケースを示す図である。一実施例に従う異なる符号化構成をサポートするオーディオエンコーダーのブロック図を示す。

図１は、それぞれのオーディオデータストリームを別のオーディオデータストリームにスプライスするときに発生する問題を示すために、オーディオデータストリームのために例示的な部分を示す。その限りでは、図１のオーディオデータストリームは、後の図に示されるオーディオデータストリームの一種のベースを形成する。したがって、図１のオーディオデータストリームで説明した内容は、以下でさらに説明するオーディオデータストリームに対しても有効である。

図１のオーディオデータストリームは、一般に符号１０を用いて示されている。オーディオデータストリームは、そこでオーディオ信号１２に符号化される。すなわち、図１に示すように、オーバーラップしておらず、互いに時間的に隣接していてもよいし、あるいは、互いにオーバーラップしていてもよいオーディオ信号１２の時間的部分である。オーディオデータストリーム１０の方法は、オーディオフレーム１４の単位において符号化されたオーディオ信号１２が異なるように選択されてもよく、オーディオフレームをオーディオフレーム１４の単位でデータストリーム１０に符号化するために変換符号化を使用することができる。その場合、１つまたは複数のスペクトル分解変換が、オーディオフレーム１４のオーディオ信号に適用され、１つまたは複数のスペクトル分解変換が、オーディオフレーム１４を時間的にカバーし、その先端および後端を超えて拡張される。スペクトル分解変換係数は、デコーダが逆変換によってそれぞれのフレームを再構成できるように、データストリーム内に含まれる。逆変換された信号合成されたスペクトル合成変換に従ってデコーダ側で所謂オーバーラップ加算プロセスが互いに重なり合って加算され、オーディオ信号１２の再構成を明らかにするために、オーディオフレーム境界を挟んで相互に、そしてさらには、オーディオ信号がスペクトル分解された単位で変換部分をオーバーラップさせ、エンコーダおよび／またはデコーダ側で所謂ウインドウ関数を用いて窓掛けされる。

あるいは、例えば、オーディオデータストリーム１０は線形予測を使用してオーディオフレーム１４の単位で符号化されたオーディオ信号１２を有し、それに基づいて、オーディオフレームは、線形予測係数を使用して符号化され、符号化された予測残差の表現は、次に、ＬＴＰ利得およびＬＴＰ遅延などの長期予測（ＬＴＰ）係数、コードブックインデックス、および／または励起（残差信号）の変換符号化を使用して符号化される。
ここでも、復号化側でのオーディオフレーム１４の再構成は、先行するフレームの符号化に依存してもよく、例えば、あるオーディオフレームから別のオーディオフレームへの時間的予測、または励振信号などを変換符号化するための変換ウインドウの重なりに依存してもよい。これは、以下の説明において役割を果たすため、状況は、ここで言及される。

送信およびネットワーク処理目的のために、オーディオデータストリーム１０は、一連のペイロードパケット１６からなる。ペイロードパケット１６の各々は、オーディオデータストリーム１０がストリームオーダ２０に沿って分割される一連のアクセスユニット１８のそれぞれに属する。各アクセスユニット１８は、図１の両頭の矢印２２で示すように、オーディオフレーム１４のそれぞれの１つに関連付けられている。図１に示すように、オーディオフレーム１４の時間的順序は、データストリーム１０において関連するオーディオフレーム１８の順序と一致してもよい。直ちに別のフレームの後に続くオーディオフレーム１４は、データストリーム１０内の他のオーディオフレームのアクセスユニットの直後に続くデータストリーム１０内のアクセスユニットに関連し得る。

すなわち、図１に示すように、各アクセスユニット１８は、１つ以上のペイロードパケット１６を有することができる。あるアクセスユニット１８の１つまたは複数のペイロードパケット１６は、スペクトル分解変換係数、ＬＰＣ、および／または励起信号の符号化など、関連するフレーム１４を記述する前述の符号化パラメータをその中に符号化している。

オーディオデータストリーム１０は、また、データストリーム１０の各アクセスユニット１８に対して、それぞれのアクセスユニット１８ＡＵｉが関連付けられているオーディオフレームｉがプレイアウトされるべきタイムスタンプｔ_iを示すタイムスタンプ情報２４を含むことができる。タイムスタンプ情報２４は、図１に示すように、関連するオーディオフレームのタイムスタンプを示すように、各アクセスユニット１８の１つ以上のパケット１６の１つに挿入されてもよいが、関連するアクセスユニットＡＵｉの１つまたは複数のパケットのそれぞれにオーディオフレームｉのタイムスタンプ情報ｔ_iを挿入するなど、異なる解決策も実現可能である。

パケット化、アクセスユニット分割、およびタイムスタンプ情報２４のために、オーディオデータストリーム１０は、エンコーダとデコーダとの間でストリーミングされるのに特に適している。すなわち、図１のオーディオデータストリーム１０は、ストリームフォーマットのオーディオデータストリームである。図１のオーディオデータストリームは、例えば、ＭＰＥＧ−Ｈ３ＤオーディオまたはＭＨＡＳ［２］によるオーディオデータストリームであってもよい。

トランスポート／ネットワーク処理を容易にするために、パケット１６は、バイト整列サイズを有してもよく、異なるタイプのパケット１６が区別されてもよい。例えば、いくつかのパケット１６は、第１のオーディオチャネルまたはオーディオチャネルの第１のセットに関連し、それに関連する第１のパケットタイプを有し、一方、それに関連する別のパケットタイプを有するパケットは、そこに符号化された別のオーディオチャネルまたはオーディオ信号１２のオーディオチャネルの別のセットを符号化する。さらにパケットは、構成データ、有効な符号化パラメータ、またはアクセスユニットのシーケンスによって使用されるような、変化の少ないデータを搬送するパケットタイプであってもよい。他のパケット１６は、それらが属するアクセスユニットに対して有効な符号化パラメータを担持するパケットタイプであってもよく、他のペイロードパケットは、サンプル値、変換係数、ＬＰＣ係数などの符号化を伴う。したがって、各パケット１６は、中間ネットワークエンティティおよびデコーダによって、それぞれ、容易にアクセス可能なパケットタイプインジケータをその中に有することができる。以下に説明されるＴＵパケットは、パケットタイプによってペイロードパケットから区別可能であり得る。

オーディオデータストリーム１０がそのまま送信される限り、何ら問題は生じない。しかしながら、オーディオ信号１２は、図１にτで例示的に示されるある時点までのみ復号側でプレイアウトされることを想像する。図１は、例えば、この時点ｔが、ビデオフレームクロックのような何らかの外部クロックによって決定され得ることを示している。例えば、図１は、２６において、オーディオ信号１２に対して時間的に位置合わせされた方法で一連のフレーム２８から構成されたビデオを示している。
例えば、タイムスタンプＴ_frameは、新しいシーン、新しいプログラムなどの最初のピクチャのタイムスタンプであってもよく、したがって、オーディオ信号１２は、その時点ｔ＝Ｔ_frameでカットされ、その時点から、例えば新しいシーンまたはプログラムのトーン信号を表す別のオーディオ信号１２によって置き換えられることが望ましい。
例えば、図１は、オーディオデータストリーム１０と同じように構成された、すなわち１つまたは複数のペイロードパケット１６で構成されるアクセスユニット１８を使用して構築された、既に存在するオーディオデータストリーム３０を示す。そこでは、第1のオーディオフレーム１４はその先端がタイムスタンプＴ_frameと一致するように、すなわち、オーディオ信号３２はタイムスタンプＴ_frameのプレイアウトに登録されたフレーム１４の先端でプレイアウトされるような方法で、オーディオフレーム１４内のタイムスタンプＴ_frameで開始するフレーム２８の一連のピクチャを伴うか、または記述する。

しかしながら、不都合なことに、オーディオデータストリーム１０のフレーム１４のフレームレートは、ビデオ２６のフレームレートから完全に独立している。したがって、オーディオ信号１２τ＝Ｔ_frameのあるフレーム１４内に入る場所は、完全にランダムである。つまり、追加の措置を講ずることなく、τが存在するオーディオフレーム１４、ｊに関連するアクセスユニットＡＵ_jを完全に離脱させることができ、オーディオデータストリーム３０の一連のアクセスユニット１８をオーディオデータストリーム１０の先行するアクセスユニットＡＵ_j-1に付加し、オーディオ信号１２のオーディオフレームｊの先端部３４にミュートを生じさせる。

以下に記載される様々な実施形態は、上記で概説した欠点を克服し、そのようなスプライシング問題の処理を可能にする。

図２は、本発明の一実施形態によるオーディオデータストリームを示す。図２のオーディオデータストリームは、一般に参照符号４０を用いて示されている。主に、オーディオ信号４０の構成は、オーディオデータストリーム１０に関して上述したものと一致する。すなわち、オーディオデータストリーム４０は、一連のペイロードパケット、すなわちオーディオデータストリーム４０は、一連のペイロードパケット、すなわち、データストリーム４０が分割される各アクセスユニット１８についての１つまたは複数のペイロードパケットを含む。各アクセスユニット１８は、オーディオフレーム１４の単位でデータストリーム４０に符号化されたオーディオ信号のオーディオフレームの内の特定の１つに関連付けられる。しかし、これを越えて、オーディオデータストリーム４０は、任意の所定のアクセスユニットが関連付けられているオーディオフレーム内でスプライシングされるように「準備」されている。ここでは、これはアクセスユニットＡＵ_iおよびアクセスユニットＡＵ_jの例である。最初に、アクセスユニットＡＵ_iを参照してみましょう。特に、オーディオデータストリーム４０は、トランケーションユニットパケット４２がその中に挿入されることによって「スプライス可能」とされ、トランケーションユニットパケット４２は、アクセスユニットＡＵ_iに対して、プレイアウト中に破棄されるべき関連オーディオフレームｉの終わり部分を示すように設定可能である。トランケーションユニットパケット４２の利点および効果は、以下で説明される。しかしながら、トランケーションユニットパケット４２の位置付け及びその内容に関して、いくつかの予備的な注意がなされなければならない。例えば、図２は、トランケーションユニットパケット４２がアクセスユニットＡＵ_i内に位置するもの、すなわち、トランケーションユニットパケット４２の終端部分が示すものを示しているが、トランケーションユニットパケット４２は、代わりに、アクセスユニットＡＵ_iに先行する任意のアクセスユニットに配置されてもよい。同様に、トランケーションユニットパケット４２がアクセスユニットＡＵ_i内にあっても、アクセスユニット４２は、図２に例示的に示されているように、それぞれのアクセスユニットＡＵ_i内の最初のパケットである必要はない。

図３に示されている実施形態によれば、トランケーションユニットパケット４２によって示される端部は後端部４４であり、すなわち、フレーム１４の一部は、オーディオフレーム１４内のある時点からフレーム１４の後端まで伸びている。言い換えれば、図３の実施形態によれば、トランケーションユニットパケット４２によって示される終端部分が先端部分または終端部分であるかどうかをシグナリングするシンタックスエレメントは存在しない。しかしながら、図３のトランケーションユニットパケット４２は、パケット４２がトランケーションユニットパケットであることを示すパケットタイプインデックス４６と、トランケーション長さ、すなわち後端部４４の時間的長さΔｔを示すトランケーション長さ要素４８とを含む。トランケーション長さ４８は、個々のオーディオサンプルの単位、または連続するオーディオサンプルのｎタプルで部分４４の長さを測定することができ、ｎは１より大きく、例えば、フレーム１４のサンプル数をＮとすると、Ｎサンプルよりも小さい。

トランケーションユニットパケット４２は、１つ以上のフラグ５０および５２を任意に含むことができることが、後で説明される。例えば、フラグ５０は、トランケーションユニットパケット４２がエンド部４４を示すアクセスユニットＡＵ_iがスプライスアウトポイントとして使用される準備ができていることを示すスプライスアウトフラグであってもよい。フラグ５２は、現在のアクセスユニットＡＵ_iがスプライスアウトポイントとして実際に使用されたかどうかを示すために、デコーダ専用のフラグとすることができる。
しかしながら、フラグ５０および５２は、ちょうど概説したように、単にオプションである。例えば、ＴＵパケット４２自体は、トランケーションユニット４２が属するアクセスユニットがスプライスアウトに適したアクセスユニットであることを、スプライサおよびデコーダをストリーミングする信号とすることができ、トランケーション長さ４８をゼロに設定することは、トランケーションを行わず、スプライスアウトを行わないことをデコーダに指示することになる。

ＴＵパケット４２に関する上記の注釈は、ＴＵパケット５８のような任意のＴＵパケットに対して有効である。

以下でさらに説明するように、アクセスユニットの先端部分の表示も同様に必要とされることがある。この場合、ＴＵパケット５８のような切り捨て単位パケットは、図３に示すような後端部分を示すように設定可能である。このようなＴＵパケット５８は、トランケーションユニットパケットのタイプインデックス４６によって、４２のような先端部分トランケーションユニットパケットと区別することができる。言い換えれば、異なるパケットタイプは、後端部分を示すＴＵパケット４２と、それぞれ先端部分を示すためのＴＵパケットとに関連付けることができる。

完全性のために、図４は、トランケーションユニットパケット４２が、図３に示される構文要素に加えて、トランケーション長さ４８がオーディオフレームｉの前端または後端からオーディオフレームｉの内側に向かって測定されるかどうか、を示す先行／後続インジケータ５４を含む。すなわち、長さがトランケーション長さ４８で示される端部が後端部４４であるか、先端部５６であるかを判定する。ＴＵパケットのパケットタイプは、それと同じになる。

以下により詳細に概説されるように、トランケーションユニットパケット４２は、スプライスアウトに適したアクセスユニットＡＵ_iを提供する。なぜなら、以下でさらに説明するストリームスプライサが、後端部分４４を設定することが可能であるからである。その結果、外部定義されたスプライスアウト時間τ（図１と比較して）がオンになると、オーディオフレームｉのプレイアウトが停止される。その時から、スプライスインオーディオデータストリームのオーディオフレームをプレイアウトすることができる。

しかしながら、図２はまた、オーディオデータストリーム４０に挿入されるさらなるトランケーションユニットパケット５８を示し、このさらなるトランケーションユニットパケット５８は、ｊ＞ｉでアクセスユニットＡＵ_iを示すように設定可能であり、プレイアウト時にその端部が破棄されることになる。
しかしながら、このとき、アクセスユニットＡＵ_i、すなわちアクセスユニットＡＵ_j+1は、その直前のアクセスユニットＡＵ_j-1とは独立した方法で、その関連するオーディオフレームｊを符号化している。すなわち、先行アクセスユニットＡＵ_j-1に依存して予測参照または内部復号レジスタが設定されないという点で、または、オーバラップ−加算プロセスが、アクセスユニットＡＵ_j-1の再構築を、アクセスユニットＡＵ_jを正しく再構成およびプレイアウトするための要件を提供しないようにすることができる。即時のプレイアウトアクセスユニットであるアクセスユニットＡＵ_jと、上記のアクセスユニット相互依存性、例えば、ＡＵ_iを有する他のアクセスユニットとを区別するために、アクセスユニットＡＵ_jがハッチングを用いて強調表示される。

図２は、図２に示された他のアクセスユニットが、それぞれのオーディオフレームの正しい再構成およびプレイアウトが可能であるという意味において、それらの再構成が直前のアクセスユニットに依存するように、先行アクセスユニットからそれぞれのアクセスユニットに向いている小さな矢印６０で示すように、関連するアクセスユニットの基礎は、直前のアクセスユニットにアクセスする場合にのみ実現可能である。アクセスユニットＡＵ_jの場合、アクセスユニットＡＵ_jの即時のプレイアウト能力を示すために、直前のアクセスユニット、すなわち、ＡＵ_j-1からアクセスユニットＡＵ_jを指し示す矢印が交差している。例えば、この即時のプレイアウト能力を提供するために、アクセスユニットＡＵ_jは、そこに符号化された追加データを有し、デコーダの内部レジスタを初期化するための初期化情報、直前の先行アクセスユニットの逆変換の時間的に重なり合った部分などによって、通常提供されるエイリアシングキャンセル情報の推定を可能にするデータなどがある。

アクセスユニットＡＵ_jおよびＡＵ_jの能力は、互いに異なる。アクセスユニットＡＵ_iは、以下に概説するように、トランケーションユニットパケット４２の存在によりスプライスアウトポイントとして適している。言い換えれば、ストリームスプライサは、アクセスユニットＡＵ_iにおいてオーディオデータストリーム４０を切断して、別のオーディオデータストリーム、すなわちスプライスインオーディオデータストリームからのアクセスユニットを付加することができる。

これは、ＴＵパケット５８が後端部分４４を示すことができるという条件で、アクセスユニットＡＵ_jにおいても実現可能である。付加的または代替的に、トランケーションユニットパケット５８は、先端部分を示すように設定可能であり、この場合、アクセスユニットＡＵ_jは、場合によってはスプライス（バック）として機能するのに適している。すなわち、トランケーションユニットパケット５８は、プレイアウトされないオーディオフレームｊの先端部分を示し、その時点まで、すなわち、この終端部分の終端まで、（予備的に）スプライスユニットパケットのオーディオ信号は、オーディオデータストリーム内でプレイアウトすることができる。

例えば、トランケーションユニットパケット４２は、スプライスユニットパケット５８のスプライスアウトフラグ５０がゼロに設定されてもよく、または１に設定されてもよく、スプライスアウトフラグ５０がゼロに設定されてもよい。いくつかの明示的な例は、図１６に関して以下にさらに説明される。

スプライスイン可能アクセスユニットＡＵ_jの存在の必要はないことに留意すべきである。例えば、スプライスインされるオーディオデータストリームは、オーディオデータストリーム４０のプレイアウトを時刻τ以降に完全に置き換えることを意図することができる。すなわち、オーディオデータストリーム４０にスプライス（バック）が生じない。しかし、スプライスインされるオーディオデータストリームがオーディオデータストリーム４０のオーディオ信号を単に予備的に置き換えるものである場合には、オーディオデータストリーム４０へのスプライスインバックが必要であり、この場合、スプライスアウトＴＵパケット４２には、データストリーム順序２０に続くスプライスインＴＵパケット５８が存在するはずである。

図５は、図２のオーディオデータストリーム４０を生成するオーディオエンコーダ７０を示す。オーディオエンコーダ７０は、オーディオ符号化コア７２とトランケーションパケットインサータ７４とを含む。オーディオ符号化コア７２は、オーディオ符号化コア７２に入力されたオーディオ信号１２を、オーディオ信号のオーディオフレームの単位でオーディオデータストリーム４０のペイロードパケットに符号化するように構成され、例えば図１に関して上で説明したやり方で実行される。すなわち、オーディオ符号化コア72は、例えばＭＤＣＴなどの重複変換を使用してオーディオ信号１２を符号化し、次に変換係数を符号化する変換符号化器であってもよく、すなわち、オーディオ符号化コア７２は、例えばＭＤＣＴなどの重複変換を使用してオーディオ信号１２を符号化し、次に変換係数を符号化する変換符号化器であってもよく、ラップされた変換のウィンドウは、上述したように、連続するオーディオフレーム間のフレーム境界を横切ることができ、それにより直ちに連続するオーディオフレームとそれらに関連するアクセスユニットとの相互依存性をもたらす。あるいは、オーディオ符号化コア７２は、オーディオ信号１２をデータストリーム４０に符号化するために、線形予測に基づく符号化を使用してもよい。例えば、オーディオ符号化コア７２は、オーディオ信号１２のスペクトルエンベロープを記述する線形予測係数又は少なくともフレーム毎のプリフィルタリングされたその一部をエンコードし、励起信号を追加的に符号化する。励振信号の符号化に関する予測符号化または重複変換の問題の連続的な更新は、直ちに連続するオーディオフレームとそれらに関連するアクセスユニットとの間の相互依存性をもたらす可能性がある。しかし、他のコーディング原則も想像できる。

トランケーションユニットパケットインサータ７４は、図２の４２および５８のようなトランケーションユニットパケットをオーディオデータストリーム４０に挿入する。図５に示すように、ＴＵパケットインサータ７４は、この目的のために、スプライス位置トリガ７６に応答することができる。例えば、スプライス位置トリガ７６は、シーンまたはプログラムの変化、またはビデオの他の変化、すなわち一連のフレーム内で、それに応じてトランケーションユニットパケットインサータ７４にそのような新しいシーンまたはプログラムの任意の第１のフレームを通知してもよい。オーディオ信号１２は、例えば、ビデオ信号のアコンパニメントが、例えば、ビデオ内の個々のシーンまたはプログラムのいずれも、他のフレームシーケンスなどに置き換えられない。例えば、ビデオがライブサッカーゲームを表し、オーディオ信号１２がそれに関連するトーン信号であると想像する。次に、スプライス位置トリガ７６は、アド、すなわちアドビデオによる潜在的な置換の対象となるサッカーゲームビデオの一時的な部分を識別するように、手動または自動で操作することが可能となり、したがって、トリガ７６は、そのような部分の開始をＴＵパケットインサータ７４に通知し、これにより、ＴＵパケットインサータ７４は、それに応答して、そのような位置にＴＵパケット４２を挿入し、すなわち、ビデオの置き換えられる可能性がある部分の最初のビデオフレームが開始するオーディオフレームに関連付けられたアクセスユニットに関連する。さらに、トリガ７６は、このような部分の端部部分が該当するオーディオフレームに関連するそれぞれのアクセスユニットにＴＵパケット５８を挿入するように、そのように置換される可能性のある部分の末尾にＴＵパケットインサータ７４に通知する。そのようなＴＵパケット５８に関しては、オーディオエンコーディングコア７２は、また、トリガ７６に応答して、上述のように即時にプレイアウトを可能にするように、各オーディオフレームをそのようなアクセスユニットＡＵ_j（図２と比較して）に異なるか例外的にエンコードする。ビデオのそのような潜在的に置き換えられる部分の間で、トリガ７６は、スプライスインポイントまたはスプライスアウトポイントとして機能するために、間欠的にＴＵパケット５８を挿入することができる。具体的な例によれば、トリガ７６は、例えば、オーディオエンコーダ７０に、そのような部分の最初のフレームまたは開始フレームのタイムスタンプと、そのような部分の最後または最後のフレームのタイムスタンプとを通知し、当該エンコーダ７０は、どのＴＵパケットインサータおよび潜在的に即時のプレイアウト符号化が、トリガ７６から受信したタイムスタンプが下降するオーディオフレームを識別することによって行われるべきであるかに関するオーディオフレームおよび関連するアクセスユニットを識別する。
これを説明するために、オーディオ符号化コア７２が動作する固定フレームラスタ、すなわちオーディオ信号１２が属するビデオの固定フレームラスタ８２と共に８０で動作する固定フレームラスタを示す図６を参照する。ビデオ８６の内の部分８４は、波括弧を用いて示されている。この部分８４は、例えば、オペレータによって手動で決定されるか、シーンの検出によって完全にまたは部分的に自動的に決定される。第１および最終フレーム８８および９０は、フレームラスタ８０のオーディオフレームｉおよびｊ内にあるタイムスタンプＴ_bおよびＴ_eと関連している。したがって、これらのオーディオフレーム１４、すなわちｉおよびｊには、オーディオフレームｊに対応するアクセスユニットを生成するために、オーディオ符号化コア７２が即時のプレイアウトモードを使用するＴＵパケットインサータ７４によってＴＵパケットが提供される。

ＴＵパケットインサータ７４は、デフォルト値でＴＵパケット４２および５８を挿入するように構成されてもよいことに留意すべきである。例えば、トランケーション長構文要素４８は、ゼロに設定されてもよい。オプションであるスプライスインフラグ５０に関する限り、図２〜図４に関して上に概説したようにＴＵパケットインサータ７４によって同様に設定され、すなわち、ＴＵパケット４２のスプライスアウト可能性と、最終フレームまたはビデオ８６の画像に登録されたパケット以外のＴＵパケット５８を生成する。これまでスプライスが適用されていないので、スプライスアクティブフラグ５２はゼロに設定される。

図６のオーディオエンコーダに関して、ＴＵパケットの挿入を制御する方法、すなわち図５および図６に関連して説明したように、挿入が実行されるアクセスユニットを選択する方法は例示的なものに過ぎないことに留意されたい。そして、挿入が行われるアクセスユニットを決定する他の方法も同様に可能である。例えば、各アクセスユニット、Ｎ番目（Ｎ＞２）のアクセスユニットまたは各ＩＰＦアクセスユニット毎に、対応するＴＵパケットを提供することができる。

上に明示的に言及していないが、好ましくは、ＴＵパケットは非圧縮形式で符号化され、それぞれのＴＵパケットのビット消費（符号化ビットレート）は、ＴＵパケットの実際の設定から独立している。このことを述べた上で、エンコーダは、符号化オーディオバッファのフィルレベルを記録するように構成されたレート制御（図５には示されていない）をオプションとして含むことができ、符号化オーディオバッファデータストリーム４０が受信されるデコーダの側では、アンダーフローもなく、結果として、ストールやオーバーフローが発生し、パケット１２が失われる。エンコーダは、例えば、いくつかのレート／歪み尺度を最適化してフィルレベル制約に従うために、量子化ステップサイズを制御することができる。具体的には、レート制御は、一定または準一定であってもよく、例えば伝送ネットワークのような外部エンティティによって、予め設定される所定の伝送容量／ビットレートを仮定して、デコーダの符号化オーディオバッファのフィルレベルを推定することができる。データストリーム４０のＴＵパケットの符号化レートは、レート制御によって考慮される。したがって、図２に示された形態、すなわち、エンコーダ７０によって生成されたバージョンにおいて、データストリーム４０は、デコーダの符号化されたオーディオフィルレベルにオーバロードすることなく、オーディオ信号１２がそのレート／歪み比に関して、オーディオ信号１２であれば、変化する符号化の複雑度を補償するために、同じものをディレーティングすることもできない（アンダーフローにつながる）。しかしながら、既に上記で簡単に概説したように、以下でより詳細に説明するが、好ましい実施形態によれば、全てのスプライスアウトアクセスユニットＡＵ_iは、そのオーディオフレームｉの時間的長さよりも短い時間的持続時間だけ、デコーダ側でのプレイアウトに寄与すると考えられる。以下に述べる説明から明らかなように、それぞれのスプライスアウトＡＵにおいて、データストリーム４０でスプライスされたスプライスインオーディオデータストリームの（先端の）アクセスユニットは、スプライスインターフェイスとしてのＡＵ_iのように、スプライスアウトＡＵ'_s（ＡＵ´_s）の後続ＡＵ_sを置き換える。したがって、その時から、エンコーダ７０内で実行されるビットレート制御は、もはや用いられない。それを超えると、先行するＡＵは、即時のプレイアウトを可能にするように自己完結型にコード化されることが好ましく、これにより非ＩＰＦＡＵ_sに比べてより多くの符号化ビットレートを消費する。したがって、一実施形態によれば、エンコーダ７０は、それぞれのスプライスアウトＡＵ'_sの端部、すなわち、その直後の後続ＡＵの境界にあるログされた充填レベルが、次のように仮定するようにレート制御を計画またはスケジュールする。例えば、例えば、１／４のような所定の値、または最大充填レベルの３／４と１／８の間の値とすることができる。
この手段によって、データストリーム４０のスプライスアウトＡＵ_sでデータストリーム４０にスプライスされると想定されるオーディオデータストリームを準備する他のエンコーダは、自身のＡＵ_s（以下では、アポストロフィによって元のものと時々区別されることがある）を受信開始時のデコーダの符号化されたオーディオバッファの充填レベルは、これらの他のエンコーダがそれに応じてレート制御をさらに発展させることができるように、所定の値にある。これまでの説明は、データストリーム４０のスプライスアウトＡＵ_sに集中していたが、所定の推定／ログされた充填レベルへの順応は、スプライスインとスプライスアウトポイントとして、二重の役割を果たしていなくても、ＡＵ_jのように、ＡＵ_sにおけるスプライス（バック）のレート制御によって達成されてもよい。したがって、前記他のエンコーダは、同様に、推定または記録された充填レベルが、それらのデータストリームのＡＵシーケンスの末尾ＡＵで所定の充填レベルをとるように、レート制御を制御することができる。スプライスアウトＡＵ_sに関してエンコーダ７０について述べたのと同じであってもよい。そのような末尾のＡＵ_sは、ＡＵ_jなどのデータストリーム４０のスプライスインＡＵ_sとのスプライスポイントから想定されるスプライスバックＡＵ_sから想定される。したがって、エンコーダ７０のレート制御が、推定／記録された充填レベルがＡＵ_jで（またはより良好に）所定の充填レベルをとるように符号化ビットレートをスケジューリングした場合、このビットレート制御は、データストリーム４０を符号化して出力した後にスプライシングが実行された場合でも、有効なままである。ちょうど言及した所定の充填レベルは、デフォルトでエンコーダに知られることができ、すなわち、それらの間で合意される。あるいは、それぞれのＡＵは、それぞれのスプライスインＡＵまたはスプライスアウトＡＵの直後に想定されるように、推定／記録された充填レベルの明示的なシグナリングを提供することができる。例えば、その値は、それぞれのスプライスインまたはスプライスアウトＡＵのＴＵパケットで送信することができる。これは付加的な付加情報オーバヘッドを必要とするが、エンコーダのレート制御は、スプライスインまたはスプライスアウトＡＵにおける推定／記録された充填レベルをより自由に提供することができる。例えば、それぞれのスプライスインまたはスプライスアウトＡＵの後の推定／記録された充填レベルは、最大充填レベルの３／４、すなわちデコーダの符号化オーディオバッファの最大保証容量のようなある閾値を下回ることで十分である。

データストリーム４０に関して、これは、所定の平均ビットレートの周りで変化するようにレート制御されること、すなわち、平均ビットレートを有することを意味する。スプライシング可能なオーディオデータストリームの実際のビットレートは、パケットのシーケンスにわたって、すなわち、時間的に変化する。所定の平均ビットレートからの（現在の）偏差は時間的に積分されてもよい。この積分偏差は、スプライスインおよびスプライスアウトアクセスユニットにおいて、積分されたビットレート偏差の範囲（最大−最小）よりも１／２幅より小さい所定の間隔内の値を仮定しているか、または固定値、例えば全てのスプライスインＡＵおよびスプライスアウトＡＵ_sに等しい値であり、これは統合されたビットレート偏差の最大値の３／４より小さくてもよい。上述したように、この値はデフォルトで予め設定されていてもよい。あるいは、値は固定ではなく、すべてのスプライスインＡＵ_sとスプライスアウトＡＵ_sで同じではなく、データストリームで通知することもできる。

図７は、一実施形態によるオーディオデータストリームをスプライスするためのストリームスプライサを示す。ストリームスプライサは、参照符号１００を用いて示され、第１のオーディオ入力インタフェース１０２、第２のオーディオ入力インタフェース１０４、スプライスポイントセッター１０６、およびスプライスマルチプレクサ１０８を含む。

インタフェース１０２において、ストリームスプライサは、「スプライス可能な」オーディオデータストリーム、すなわち、１つ以上のＴＵパケットが供給されるオーディオデータストリームを受信することを期待する。図７では、図２のオーディオデータストリーム４０がインタフェース１０２でストリームスプライサ１００に入ることが例示的に示されている。

別のオーディオデータストリーム１１０は、インタフェース１０４で受信されることが期待される。ストリームスプライサ１００の実装に応じて、インタフェース１０４で入力されるオーディオデータストリーム１１０は、図１に関して説明されたものなどの「準備されていない」オーディオデータストリーム、または以下に例示的に示されるような準備されたものであってもよい。

スプライスポイントセッター１０６は、インタフェース１０２で入力されるデータストリームに含まれるトランケーションユニットパケット、すなわち、図７の場合にはデータストリーム４０のＴＵパケット４２および５８を設定し、そして、インタフェース１０４に入る他のデータストリーム１１０のトランケーションユニットパケットが存在する場合、そのような２つのＴＵパケットが図７に例示的に示されている。すなわち、オーディオデータストリーム１１０の先端または第１のアクセスユニットＡＵ'₁内のＴＵパケット１１２と、オーディオデータストリーム１１０の最後または後続のアクセスユニットＡＵ'_K内のＴＵパケット１１４を含む。特に、図７では、オーディオデータストリーム４０のアクセスユニットからオーディオデータストリーム１１０のアクセスユニットを区別するために、アポストロフィが使用されている。さらに、図７に関して概説された例では、オーディオデータストリーム１１０は、予め符号化され、固定長の、すなわちここではＫ個のアクセスユニットの、Ｋ個のオーディオフレームに対応すると仮定され、データストリーム４０に符号化されたオーディオ信号が置換される。図７において、この置き換えられる時間間隔は、アクセスユニットＡＵ_iに対応するオーディオフレームからアクセスユニットＡＵ_jに対応するオーディオフレームに及ぶと仮定する。

特に、スプライスポイントセッター１０６は、以下により詳細に概説される方法で、トランケーションユニットパケットを設定するように構成されている。そのため、実際にトランケーションが行われることが明らかになる。例えば、インタフェース１０２および１０４に入るデータストリームのトランケーションユニット内のトランケーション長４８は、ゼロに設定されてもよいが、スプライスポイントセッター１０６は、ＴＵパケットの変換長４８の設定を非ゼロ値に変更することができる。価値がどのように決定されるかは、以下で説明する主題です。

スプライスマルチプレクサ１０８は、このオーディオデータストリーム４０のペイロードパケットのサブシーケンスを得るために、ＴＵパケット４２を有するアクセスユニットＡＵ_iなどのＴＵパケットを有するアクセスユニットにおいて、インタフェース１０２に入るオーディオデータストリーム４０をカットするように構成される。すなわち、ここでは、図７において、アクセスユニットＡＵ_jに先行するアクセスユニットに対応するペイロードパケットのサブシーケンスを例示し、次に、このサブシーケンスをインタフェース１０４に入力する他のオーディオデータストリーム１１０のペイロードパケットのシーケンスとスプライシングして、互いに直ちに連続し、所定のアクセスユニットで互いに当接する。例えば、スプライスマルチプレクサ１０８は、アクセスユニットＡＵ'₁で始まるオーディオデータストリーム１１０のアクセスユニットＡＵ'を付加して、そのアクセスユニットＡＵ_iに属するペイロードパケットを単に含めるように、アクセスユニットＡＵ_iでオーディオデータストリーム４０を切断する。そのため、アクセスユニットＡＵ_iとＡＵ'₁は、互いに当接する。図７に示すように、スプライスマルチプレクサ１０８は、ＴＵパケット５８を含むアクセスユニットＡＵ_jの場合と同様に動作し、このとき、スプライスマルチプレクサ１０８は、アクセスユニットＡＵ_jに属するペイロードパケットで始まるデータストリーム４０を、アクセスユニットＡＵ'_KがアクセスユニットＡＵ_jに隣接するように、オーディオデータストリーム１１０の終わりに付加する。

したがって、スプライスポイント設定部１０６は、その時点からオーディオデータストリーム１１０に符号化されたオーディオ信号によって、オーディオデータストリーム４０のオーディオ信号が置換されるように、プレイアウト中に破棄される端部が後端部であることを示すために、アクセスユニットＡＵ_iのＴＵパケット４２を設定する。トランケーションユニット５８の場合、状況は異なる。ここでは、スプライスポイント設定部１０６は、プレイアウト中に破棄する端部が、アクセスユニットＡＵ_jを関連付けるオーディオフレームの先端部分であることを示すために、ＴＵパケット５８を設定する。ＴＵパケット５８が先端部分に関連している間に、ＴＵパケット４２が後端部分に関係するという事実は、例えば、一方ではＴＵパケット４２のために、他方ではＴＵパケット５８のために、異なるＴＵパケット識別子を使用することによって、インバウンドオーディオデータストリーム４０から既に導出可能であることを想起されたい。

ストリームスプライサ１００は、このようにして得られたスプライスされたオーディオデータストリームを出力インタフェース１１６に出力し、スプライスされたオーディオデータストリームは、参照符号１２０で示される。

スプライスマルチプレクサ１０８およびスプライスポイントセッター１０６がアクセスユニット上で動作する順序は、図７に示すようなものである必要はないことに留意されたい。すなわち、図７において、スプライスマルチプレクサ１０８の入力は、それぞれ、インタフェース１０２および１０４に接続され、その出力がスプライスポイントセッター１０６を介して出力インタフェース１１６に接続されていることを示唆しているが、スプライスマルチプレクサ１０８とスプライスポイントセッター１０６との間の順序を入れ替えることができる。

動作中、ストリームスプライサ１００は、スプライスイン構文要素がスプライスインアクセスユニットに関連するものとして、それぞれのトランケーションユニットパケットを示すか否かの条件で、切断及びスプライシング動作を実行するように、オーディオデータストリーム４０内のトランケーションユニットパケット５２および５８によって構成されるスプライスイン構文要素５０を検査するように構成されてもよい。これは以下のことを意味する。今まで説明され、以下でより詳細に概説されるスプライスプロセスは、図２に関して説明したように、ＴＵパケット４２によってトリガされ、スプライスインフラグ５０は、１にセットされる。したがって、このフラグを１に設定することは、ストリームスプライサ１００によって検出され、そこで、以下で、より詳細に説明するスプライスイン動作が実行される。

上述したように、スプライスポイントセッター１０６は、ＴＵパケット４２のようなスプライスインＴＵパケットとＴＵパケット５８のようなスプライスアウトＴＵパケットとの間の識別が関係する限り、トランケーションユニットパケット内の設定を変更する必要はない。しかし、スプライスポイント設定部１０６は、プレイアウト中に破棄するそれぞれの端部の時間的長さを設定する。このために、スプライスポイント設定部１０６は、外部クロックに従って、ＴＵパケット４２、５８、１１２、１１４が参照する端部の時間的長さを設定するように構成されてもよい。この外部クロック１２２は、例えば、ビデオフレームクロックから生じる。例えば、オーディオデータストリーム４０に符号化されたオーディオ信号が、ビデオに付随するトーン信号を表し、このビデオが図６のビデオ８６であることを想像する。さらに、フレーム８８に遭遇する、すなわちアドが挿入されるべき時間的部分８４を開始するフレームを想像する。スプライスポイントセッター１０６は、対応するアクセスユニットＡＵ_iがＴＵパケット４２を含むことをすでに検出しているかもしれないが、外部クロック１２２は、このビデオの本来のトーン信号が終了する正確な時間Ｔ_bにスプライスポイントセッター１０６に通知し、オーディオ信号は、データストリーム１１０に符号化される。例えば、このスプライスポイントの時間は、アドビデオによって置き換えられる第１のピクチャまたはフレームに対応する時間であってもよく、これはデータストリーム１１０に符号化されたトーン信号を伴う。

図７のストリームスプライサ１００の動作モードをより詳細に説明するために、ストリームスプライサ１００によって実行されるステップのシーケンスを示す図８を参照する。このプロセスは、重み付けループ１３０で始まる。すなわち、スプライスマルチプレクサ１０８および／またはスプライスポイントセッター１０６のようなストリームスプライサ１００は、スプライスインポイント、すなわちトランケーションユニットパケット４２が属するアクセスユニットについて、オーディオデータストリーム４０をチェックする。図７の場合、アクセスユニットｉは、チェック１３２がイエスでチェックをパスする最初のアクセスユニットであり、チェック１３２がループしてそれ自身に戻るまでである。スプライスインポイントアクセスユニットＡＵ_iが検出されると直ちに、スプライスインポイントアクセスユニットの後端部分（その先端）を外部クロック１２２から導出された時刻に登録するように、そのＴＵパケット、すなわち４２が設定される。
スプライスポイントセッター１０６によるこの設定１３４の後、スプライスマルチプレクサ１０８は、現在のスプライスインアクセスユニットＡＵ_iの後に、データストリーム１１０のアクセスユニットは、オーディオデータストリーム４０の後続のアクセスユニットではなく、出力インタフェース１１６に接続されるように、他のデータストリーム、すなわちオーディオデータストリーム１１０に切り替える。
第１のアクセスユニットＡＵ'₁に関連する第１のオーディオフレームの始まりと共に、このオーディオ信号は登録され、すなわちすぐに開始され、ストリームスプライサ１００は、オーディオデータストリーム１１０に含まれるタイムスタンプ情報を単に適合させるだけであり、その結果、例えば、第１のアクセスユニットＡＵ'₁に関連する先端フレームのタイムスタンプは、スプライスイン時刻と一致し、すなわち、ＡＵ_iの時刻とＡＵ_iに関連付けられたオーディオフレームの時間的長さとステップ１３４で設定された後端部分の時間的長さを足したものに等しい。すなわち、マルチプレクサスイッチング１３６の後、アダプテーション１３８は、データストリーム１１０のアクセスユニットＡＵ’に対して連続的に実行されるタスクである。しかしながら、この時間の間に、次に説明するスプライスアウトルーチンも実行される。

具体的には、ストリームスプライサ１００によって実行されるスプライスアウトルーチンは、待機ループによって開始され、それに従って、オーディオデータストリーム１１０のアクセスユニットは、ＴＵパケット１１４と共に提供されるか、またはオーディオデータストリーム１１０を生成する。このチェック１４２は、一連のアクセスユニットＡＵ'に対して連続的に実行される。スプライスアウトアクセスユニットに遭遇するとすぐに、すなわち図７の場合はＡＵ'_Kである場合、スプライスポイントセッター１０６は、このスプライスアウトアクセス部のＴＵパケット１１４を設定して、プレイアウト中に破棄する末尾部分を登録し、このアクセスユニットＡＵ_Kに対応するオーディオフレームは、ビデオフレームのタイムスタンプ、すなわち、オーディオデータストリーム１１０にコード化されたトーン信号が属するアドの後の最初のタイムスタンプのような外部クロックから取得された時刻を有する。この設定１４４の後、スプライスマルチプレクサ１０８は、データストリーム１１０がインバウンドするその入力から、その他の入力に切り替える。特に、スイッチング１４６は、スプライスされたオーディオデータストリーム１２０において、アクセスユニットＡＵ_jがアクセスユニットＡＵ'_Kの直後に来るように実行される。特に、アクセスユニットＡＵ_jはデータストリーム４０のアクセスユニットであり、そのオーディオフレームは、データストリーム１１０に符号化されたオーディオ信号の時間的長さに対応する時間量だけスプライスインアクセスユニットＡＵ_iに関連するオーディオフレームから時間的に離れているか、またはオーディオデータストリーム４０のアクセスユニットのオーディオフレームの長さまたは半分の長さのような所定の量よりも少ない量だけ、そこから逸脱する。

その後、スプライスポイントセッター１０６は、ステップ１４８において、アクセスユニットＡＵ_jのＴＵパケット５８に、アクセスユニットＡＵ_jのオーディオフレームの終端部分がプレイアウトされる時刻と、Ｋはステップ１４４で登録されていた。この測定によって、アクセスユニットＡＵ_jのオーディオフレームのタイムスタンプは、アクセスユニットＡＵ'_KのオーディオフレームのタイムスタンプにアクセスユニットＡＵ'_Kのオーディオフレームの時間的長さを足したものに等しく、アクセスユニットＡＵ'_Kのオーディオフレームの終端部分とアクセスユニットＡＵ_jのオーディオフレームの始端部分の合計を差し引いたものである。この事実は、以下でさらに提供される例を見ると、より明確になるであろう。

このスプライスインルーチンは、スイッチング１４６の後にも開始される。ピンポンと同様に、所定の部分、すなわちアクセスユニット間の部分を、一方ではＴＵパケットで他方ではＴＵパケット５８で置き換え、再びオーディオストリーム４０に戻すように、ストリームスプライサ１００は、一方では連続オーディオデータストリーム４０と所定長さのオーディオデータストリームとの間を切り換える。

インタフェース１０２から１０４への切替えは、スプライスインルーチンによって行われ、スプライスアウトルーチンは、インタフェース１０４から１０２へと導かれる。

しかしながら、図７に関して提供された例は、説明のために単に選択されたものであることも強調される。すなわち、図７のストリームスプライサ１００は、適切な長さのオーディオ信号が第１のオーディオフレームを有する第１のアクセスユニットで符号化されたオーディオデータストリーム１１０によって１つのオーディオデータストリーム４０から置き換えられる「ブリッジ」部分に限定されないオーディオ信号の先端に登録されてエンコードされて、置き換えられる時間部分に挿入される。むしろ、ストリームスプライサは、例えば、１回のスプライスプロセスのみを実行するためのものであってもよい。
さらに、オーディオデータストリーム１１０は、スプライスインされるべきオーディオ信号の先端に登録された最初のオーディオフレームを有することに限定されない。むしろ、オーディオデータストリーム１１０自体は、オーディオデータストリーム４０の基礎となるオーディオフレームクロックとは独立して動作するそれ自身のオーディオフレームクロックを有する何らかのソースから生じる可能性がある。その場合、オーディオデータストリーム４０からオーディオデータストリーム１１０への切り替えは、図８に示すステップに加えて、ステップ１４８に対応する設定ステップ、すなわちオーディオデータストリーム１１０のＴＵパケットの設定も含む。

ストリームスプライサの動作の上記説明は、ＴＵパケットがプレイアウト中に破棄されるべき先端部分を示すスプライスされたオーディオデータストリーム１２０のＡＵのタイムスタンプに関して変更されてもよいことに留意されたい。ＡＵの元のタイムスタンプを残す代わりに、ストリームマルチプレクサ１０８は、元のタイムスタンプに先行部分の時間的長さを加算して、それによって先端部分の後端を指し示すことによって元のタイムスタンプを修正するように構成することができ、従って、ＡＵのオーディオフレームフラグメントが実際にプレイアウトされる時間までの時間である。この代替案は、後述する図１６のタイムスタンプの例で示されている。

図１０は、本出願の一実施形態によるオーディオデコーダ１６０を示す。例示的に、オーディオデコーダ１６０は、ストリームスプライサ１００によって生成されたスプライスされたオーディオデータストリーム１２０を受信するものとして示されている。しかしながら、ストリームスプライサに関してなされた記述と同様に、図１０のオーディオデコーダ１６０は、図７〜図９に関して説明した種類のスプライスされたオーディオデータストリーム１２０に限定されず、１つのベースオーディオデータストリームは、対応するオーディオ信号長が符号化されている他のオーディオデータストリームによって予備的に置き換えられる。

オーディオデコーダ１６０は、スプライスされたオーディオデータストリームを受信するオーディオデコーダコア１６２と、オーディオトランケータ１６４とを含む。オーディオデコードコア１６２は、インバウンドオーディオデータストリーム１２０のペイロードパケットのシーケンスからオーディオ信号のオーディオフレームの単位でオーディオ信号の再構成を実行する。ここで、上述したように、ペイロードパケットは、スプライスされたオーディオデータストリーム１２０が分割（区画）されているアクセスユニットのシーケンスの１つである。各アクセスユニット１２０がオーディオフレームのそれぞれに関連付けられているので、オーディオデコードコア１６２は、オーディオフレームおよび関連するアクセスユニットごとに再構成されたオーディオサンプルをそれぞれ出力する。上述したように、復号化は、逆スペクトル変換を含むことができ、オーバーラップ／加算プロセスまたはオプションで予測符号化の概念のため、オーディオ復号化コア１６２は、追加の使用中に、すなわち、先行アクセスユニットである。しかし、アクセスユニットＡＵ_jなどの即時のプレイアウトアクセスユニットが到着すると、オーディオ復号化コア１６２は、前のアクセスユニットからのデータを必要とせずに、即時のプレイアウトを可能にするために追加のデータを使用することができる。さらに、上述したように、オーディオ復号化コア１６２は、線形予測復号を用いて動作することができる。すなわち、オーディオ復号化コア１６２は、合成フィルタを形成するために各アクセスユニットに含まれる線形予測係数を使用し、例えば変換復号、すなわち逆変換、テーブルルックアップを含むアクセスユニットからの励起信号を復号することができるこのようにして得られた励起信号を合成フィルタにかけるか、あるいはスペクトル領域の励起信号を、対応するように形成された伝達関数を用いて整形することにより、それぞれのアクセスユニットに含まれるインデックスおよび/または予測符号化または内部状態更新合成フィルタの伝達関数に変換する。オーディオトランケータ１６４は、オーディオデータストリーム１２０に挿入されたトランケーションユニットパケットに応答し、そのようなＴＵパケットを有するあるアクセスユニットに関連するオーディオフレームをトランケーションして、その端部を破棄し、このことは、ＴＵパケットのプレイアウトにおいて破棄されることが示される。

図１１は、図１０のオーディオデコーダ１６０の動作モードを示す。新しいアクセスユニットを検出する１７０と、オーディオデコーダは、このアクセスユニットが即時のプレイアウトモードを使用して符号化されたアクセスユニットであるかどうかをチェックする。現在のアクセスユニットが即時のプレイアウトフレームアクセスユニットである場合、オーディオ復号化コア１６２は、このアクセスユニットを、この現在のアクセスユニットに関連するオーディオフレームを再構成するための自己完結した情報源として扱う。すなわち、上述のように、オーディオ復号化コア１６２は、このアクセスユニットに符号化されたデータに基づいて、現在のアクセスユニットに関連するオーディオフレームを再構成するための内部レジスタを事前充填することができる。追加的または代替的に、オーディオ復号化コア１６２は、非ＩＰＦモードのように、任意の先行アクセスユニットからの予測の使用を控える。追加的または代替的に、オーディオ復号化コア１６２は、現在のアクセスユニットのオーディオフレームの時間的に先端のエイリアシング解除のために、任意の先行アクセスユニットまたはその前のオーディオフレームとのオーバーラップ加算プロセスを実行しない。むしろ、例えば、オーディオ復号化コア１６２は、現在のアクセスユニット自体から時間的エイリアシングキャンセル情報を導出する。したがって、チェック１７２は、現在のアクセスユニットがＩＰＦアクセスユニットであることを明らかにする場合、ＩＰＦデコードモード１７４は、オーディオデコードコア１６２によって実行され、それによって、現在のオーディオフレームの再構成が得られる。あるいは、チェック１７２は、現在のアクセスユニットがＩＰＦではないことを明らかにする場合、オーディオ復号化コア１６２は、通常の非ＩＰＦ復号化モードとして現在のアクセスユニットに適用する。すなわち、前のアクセスユニットを処理した後、オーディオ復号コア１６２の内部レジスタをそのまま採用してもよい。代替的にまたは追加的に、現在のアクセスユニットのオーディオフレームの時間的に後続する端部を再構成するのを助けるために、オーバーラップ加算プロセスを使用することができる。代替的または追加的に、先行アクセスユニットからの予測が使用されてもよい。非ＩＰＦデコーディング１７６はまた、現在のアクセスユニットのオーディオフレームの再構成において終了する。次のチェック１７８は、切り捨てが実行されるべきかどうかをチェックする。チェック１７８は、オーディオトランケータ１６４によって実行される。具体的には、オーディオトランケータ１６４は、現在のアクセスユニットがＴＵパケットを有するかどうか、およびＴＵパケットがプレイアウト中に破棄されるべきエンド部分を示すかどうかをチェックする。例えば、オーディオトランケータ１６４は、ＴＵパケットが現在のアクセスユニットのデータストリームに含まれているかどうか、およびスプライスアクティブフラグ５２がセットされているかどうか、および／またはトランケーション長さ４８がゼロでないかどうかをチェックする。トランケーションが行われない場合、ステップ１７４またはステップ１７６のいずれかから再構成された再構成オーディオフレームは、ステップ１８０において完全にプレイアウトされる。しかし、トランケーションが実行される場合、オーディオトランケータ１６４は、トランケーションを実行し、残りの部分のみがステップ１８２でプレイアウトされる。ＴＵパケットによって示される端部が終端部分である場合、再構成されたオーディオフレームの残りは、そのオーディオフレームに関連付けられたタイムスタンプから開始されてプレイアウトされる。先端部分であるＴＵパケットによってプレイアウト中に破棄された端部が示されている場合には、このオーディオフレームのタイムスタンプに先端部分の時間長を加えたものにオーディオフレームの残りの部分がプレイアウトされる。すなわち、現在のオーディオフレームの残りの部分のプレイアウトは、先端部分の時間的長さによって遅延される。その後、プロセスは、次のアクセスユニットによってさらに遂行される。

図１０の例を参照すると、オーディオ復号化コア１６２は、アクセスユニットＡＵ_i-1およびＡＵ_iに通常の非ＩＰＦ復号化１７６を実行する。しかしながら、後者はＴＵパケット４２を有する。このＴＵパケット４２は、プレイアウト中に破棄されるべき後端部分を示し、したがって、オーディオトランケータ１６４は、アクセスユニットＡＵ_iに関連するオーディオフレーム１４の後端１８４がプレイアウトされることを防止し、すなわち、出力オーディオ信号１８６を形成することに関与しているからである。以下、アクセスユニットＡＵ'₁が到着する。即時のプレイアウトフレームアクセスユニットも同じであり、それに応じてステップ１７４のオーディオ復号化コア１６２によって処理される。オーディオ復号化コア１６２は、例えば、それ自体の２つ以上のインスタンス化を開く能力を含むことができることに留意されたい。すなわち、ＩＰＦ復号化が実行されるときはいつでも、これはオーディオ復号化コア１６２の更なるインスタンス化の開始を伴う。いずれにせよ、アクセスユニットＡＵ'₁がＩＰＦアクセスユニットであるので、そのオーディオ信号が、その前のＡＵ_i-1およびＡＵ_iと比較して完全に新しいオーディオシーンに実際に関連していることは重要ではない。オーディオ復号化コア１６２はそれを気にしない。むしろ、それは自己完結型アクセスユニットとしてアクセスユニットＡＵ'₁を取り、そこからオーディオフレームを再構成する。
先行アクセスユニットＡＵ'₁のオーディオフレームの終端部分の長さは、ストリームスプライサ１００によって、高い確実性で設定されているので、アクセスユニットＡＵ'₁のオーディオフレームの始まりは、アクセスユニットＡＵ_iのオーディオフレームの残りの後端に直ちに接する。すなわち、それらは、アクセスユニットＡＵ_iのオーディオフレームの中間のどこかの遷移時間Ｔ₁に当接する。アクセスユニットＡＵ'_Kに遭遇すると、オーディオ復号化コア１６２は、ステップ１７６でこのアクセスユニットを復号して、このオーディオフレームを表示または再構成し、このオーディオフレームは、そのＴＵパケット１１４による後端部分の表示のために、その後端でトランケーションされる。したがって、後端部分までのアクセスユニットＡＵ'_Kのオーディオフレームの残りのみがプレイアウトされる。そして、アクセスユニットＡＵ_jは、ＩＰＦデコード１７４においてオーディオデコードコア１６２によって、すなわちアクセスユニットＡＵ'_Kとは独立して自己完結的にデコードされ、そこから得られたオーディオフレームは、その先端がトランケーションユニットパケット５８としてトランケートされる先端部分を示す。アクセスユニットＡＵ'_KおよびＡＵ_jのオーディオフレームの残りの部分は、遷移時刻Ｔ₂で互いに当接する。

上述の実施形態は、基本的に、関連するアクセスユニットを復号した後に、あるオーディオフレームのオーディオサンプルを廃棄するべきかどうかを記述するシグナリングを使用する。上述の実施形態は、例えば、ＭＰＥＧ−Ｈ３Ｄオーディオのようなオーディオコーデックを拡張するために適用されてもよい。ＭＰＥＧ−Ｈ３Ｄオーディオ規格は、ＭＨＡＳと呼ばれるＭＰＥＧ−Ｈ３Ｄオーディオデータを変換するための自己完結型ストリームフォーマットを定義している［２］。上述の実施形態に沿って、上述のトランケーションユニットパケットのトランケーションデータは、ＭＨＡＳレベルでシグナリングすることができる。そこでは、容易に検出することができ、図７のストリームスプライサ１００のようなストリームスプライシング装置によって、その場で容易に変更することができる。このような新しいＭＨＡＳパケットタイプは、例えば、PACTYP CUTRUNCATIONでタグ付けすることができる。このパケットタイプのペイロードは、図１２に示す構文を有することができる。図１２の特定のシンタックス例と、図３および図４に関して上述した説明との一致を容易にするために、例えば、図３および図４の参照符号は、図１２の対応する構文要素を識別するため再利用されている。セマンティクスは、以下のようになる。
IsActive：切り捨てメッセージがアクティブな場合、0の場合、デコーダはメッセージを無視する必要がある。
CanSplice：スプライスデバイスがスプライスを開始できることを伝える。
TruncRight：ここに続けなさい。（注：これは基本的には広告開始フラグであるが、スプライシングデバイスはデコーダに情報を持たないため、０にリセットすることができる）。
NTruncSamples：ＡＵの末尾からサンプルをトランケートする場合、１がＡＵの先端からサンプルを切り取る場合。

ＭＨＡＳストリームは、ＭＨＡＳパケットペイロードが常にバイトアライメントされていることを保証するので、トランケーション情報は、即時に容易にアクセス可能であり、例えば、ストリームスプライシング装置によって、容易に挿入することができ、削除または変更することができる。ＭＰＥＧ−Ｈ３Ｄオーディオストリームは、すべてのＡＵについて、またはisActive が０に設定された適切なＡＵのサブセットに対して、PACType PACTYP CUTRUNCATIONを有するＭＨＡＳパケットタイプを含むことができる。次に、ストリームスプライシング装置は、このＭＨＡＳパケットを必要に応じて変更することができる。そうでなければ、ストリームスプライシング装置は、後述するように、有意なビットレートオーバーヘッドを追加することなく、そのようなＭＨＡＳパケットを容易に挿入することができる。ＭＰＥＧ−Ｈ３Ｄオーディオの最大グラニュールサイズは４０９６サンプルです。したがって、nTruncSamplesの１３ビットですべての有意義なトランケーション値を通知するのに十分である。nTruncSamplesと３つの１ビットフラグは、一緒になって、１６ビットまたは２バイトを占め、それ以上のバイトアライメントは必要ない。

図１３Ａ〜図１３Ｃは、ＣＵトランケーションの方法を使用して、サンプル正確なストリームスプライシングを実施する方法を示す。

図１３Ａは、ビデオストリームおよびオーディオストリームを示す。ビデオフレーム番号５では、プログラムは異なるソースに切り替えられる。新しいソースのビデオとオーディオのアライメントは、古いソースのアライメントとは異なる。古いストリームの最後のＣＵの終わりおよび新しいストリームの始めにデコードされたオーディオＰＣＭサンプルのサンプルを正確に切り換えることを可能にするためには、これを除去しなければならない。デコードされたＰＣＭドメインの短期間のクロスフェーディングが、出力ＰＣＭ信号の不具合を避けるために必要となることがある。図１３Ａは、具体的な値の例を示す。何らかの理由でＡＵ_S／ＣＵ_Sのオーバーラップが望ましくない場合、図１３Ｂおよび図１３Ｃに示す２つの可能な解決策が存在する。新しいストリームの最初のＡＵは新しいストリーム用のコンフィギュレーションデータと、新しいコンフィギュレーションでデコーダを初期化するために必要なすべてのプレロールを持っていなければならない。これは、ＭＰＥＧ−Ｈ３Ｄオーディオ規格で定義されている即時のプレイアウトフレーム（ＩＰＦ）を用いて行うことができる。

ＣＵトランケーション方法の別のアプリケーションは、ＭＰＥＧ−Ｈ３Ｄオーディオストリームの構成を変更することである。異なるＭＰＥＧ−Ｈ３Ｄオーディオストリームは、非常に異なる構成を有し得る。例えば、ステレオプログラムの後に、１１．１チャンネルおよび追加のオーディオオブジェクトを含むプログラムを続けることができる。この構成は、通常、オーディオストリームのグラニュールと整列していないビデオフレームの境界で変化する。ＣＵトランケーションの方法は、図１４に示すように、サンプルの正確なオーディオ構成の変更を実装するために使用できる。

図１４は、ビデオストリームおよびオーディオストリームを示す。ビデオフレーム番号５では、プログラムは異なる構成に切り替えられる。新しいオーディオ構成の最初のＣＵは、構成の変更が発生したビデオフレームに合わせられる。サンプルの正確な構成変更を有効にするには、古い構成の最後のＣＵの最後にあるオーディオＰＣＭサンプルを削除する必要がある。新しいコンフィギュレーションを持つ最初のＡＵは、新しいコンフィギュレーションデータと、新しいコンフィギュレーションのデコーダを初期化するために必要なすべてのプリロールを伝送する必要がある。これは、ＭＰＥＧ−Ｈ３Ｄオーディオ規格で定義されている即時のプレイアウトフレーム（ＩＰＦ）を用いて行うことができる。エンコーダは、古い構成のＰＣＭオーディオサンプルを使用して、両方の構成に存在するチャネルの新しい構成のプリロールをエンコードすることができる。例：構成の変更がステレオから１１．１までの場合、新しい１１．１構成の左右のチャネルは、古いステレオ構成の左右のプリロールデータ形式を使用できる。新しい１１．１構成の他のチャネルは、プレロールのためにゼロを使用する。図１５は、この例のエンコーダ動作およびビットストリーム生成を示す。

図１６は、スプライス可能またはスプライスされたオーディオデータストリームのさらなる例を示す。例えば、図１６Ａを参照されたい。図１６Ａは、例示的に７つの連続したアクセスユニットＡＵ₁〜ＡＵ₇を含むスプライス可能なオーディオデータストリームの一部を示す。第２および第６のアクセスユニットは、それぞれＴＵパケットを備えている。フラグ５２をゼロに設定することによって、両方が使用されない、すなわち非アクティブである。アクセスユニットＡＵ₆のＴＵパケットは、ＩＰＦタイプのアクセスユニットによって構成され、すなわち、データストリームへのスプライスを可能にする。Ｂにおいて、図１６は、アドの挿入後のＡのオーディオデータストリームを示す。このアドは、アクセスユニットＡＵ'₁〜ＡＵ'₄のデータストリームにコード化される。ＣおよびＤにおいて、図１６は、ＡおよびＢと比較して修正されたケースを示す。特に、アクセスユニットＡＵ₁．．．のオーディオデータストリームのオーディオエンコーダは、アクセスユニットＡＵ₆のオーディオフレーム内のどこかで符号化設定を変更することを決定している。したがって、Ｃの元のオーディオデータストリームは、タイムスタンプ６．０の２つのアクセスユニット、すなわちＡＵ₆およびＡＵ'₁をそれぞれ含み、それぞれ後端部分および先端部分（前端部分）はプレイアウト中に破棄されるように指示される。ここで、トランケーションのアクティブ化は、オーディオデコーダによって既にプリセットされている。それにもかかわらず、ＡＵ'₁アクセスユニットは依然としてスプライスバックインアクセスユニットとして使用可能であり、この可能性はＤに示されている。

スプライスアウトポイントで符号化設定を変更する例をＥおよびＦに示す。最後に、ＧおよびＨにおいて、図１６のＡおよびＢの例は、アクセスユニットＡＵ₅を提供する別のＴＵパケットによって拡張され、スプライスインまたはコンティニューポイントとして機能することができる。

上述したように、ＴＵパケットによるオーディオデータストリームのアクセスユニットのプリプロビジョニングは、これらのＴＵパケットのビットレート消費をアクセスユニットの非常に早い段階で考慮に入れる能力の点で好ましいがこれは必須ではない。例えば、図７〜図９に関して上述したストリームスプライサは、第１のインタフェース１０２におけるインバウンドオーディオデータストリーム内のＴＵパケットの発生以外の手段によってスプライスインポイントまたはスプライスアウトポイントを識別する点で変更することができる。例えば、スプライスインおよびスプライスアウトポイントの検出に関しても、ストリームスプライサは外部クロック１２２に反応することができる。この代替案によれば、スプライスポイントセッター１０６は、ＴＵパケットを設定するだけでなく、それらをデータストリームに挿入する。但し、オーディオエンコーダは準備作業から解放されないことに注意して下さい。オーディオエンコーダは、スプライスバックインポイントとして機能するアクセスユニットのＩＰＦコーディングモードを選択する必要がある。

最後に、図１７は、良好なスプライス技術が、異なるコーディング構成間で変更可能なオーディオエンコーダ内でも使用され得ることを示す。図１７のオーディオエンコーダ７０は、図５のものと同じ方法で構成されているが、今回は、オーディオエンコーダ７０が構成変更トリガ２００に応答する。すなわち、図１６のケースＣを参照されたい。オーディオ符号化コア７２は、オーディオ信号１２をアクセスユニットＡＵ₁〜ＡＵ₆に連続的に符号化する。アクセスユニットＡＵ₆のオーディオフレーム内のどこかで、構成変更時間がトリガ２００によって示される。
したがって、オーディオ符号化コア７２は、同じオーディオフレームラスタを使用して、アクセスユニットＡＵ₆の現在のオーディオフレームを、より多くの符号化オーディオチャネルなどを含むオーディオ符号化モードなどの新しい構成を使用して符号化する。オーディオ符号化コア72は、ＩＰＦ符号化モードを追加して新たな構成を使用して、オーディオフレームを他の時間に符号化する。これにより、アクセスユニットＡＵ'₁になり、アクセスユニットＡＵ'₁がアクセスユニットの順序にすぐに続く。両方のアクセスユニット、すなわちアクセスユニットＡＵ₆およびアクセスユニットＡＵ'₁には、ＴＵパケットインサータ７４によってＴＵパケットが提供され、前者は後端部分が払い出されるように示され、後者は先端部分が払い出されるように示されている。後者は、ＩＰＦアクセスユニットであるため、スプライスバックインポイントとしても機能する。

上述した実施形態の全てについて、おそらく、スプライスされたオーディオデータストリームのＡＵのサブシーケンスからスプライスアウトＡＵ（例えばＡＵ_i）までの再構成されたオーディオ信号をクロスフェーディングがデコーダで実行されることに留意すべきである。このスプライスアウトＡＵのオーディオフレームの後端部分の先端で実際に終端されるはずであり、一方では、スプライスアウトＡＵ（ＡＵ’₁など）を直ちに続いて起こるＡＵからのスプライスされたオーディオデータストリームのＡＵのサブシーケンスから再構築されたオーディオ信号は、後継ＡＵのオーディオフレームの先端から直ぐに開始されることになっている可能性があり、または後継ＡＵのオーディオフレームの先端部分の後端で開始されるはずである。
すなわち、プレイアウトされるべき直ぐ連続するＡＵの部分が互いに突き当たるタイムスタンプを囲んで横切る時間的な間隔内で、復号器によってスプライスされたオーディオデータストリームからプレイアウトされるように実際にプレイアウトされたオーディオ信号は、直ちに隣接する両方のＡＵのオーディオフレームの組み合わせによって形成することができ、後続のＡＵのオーディオフレームの組合せ寄与は、この時間間隔内で時間的に増加し、スプライスアウトＡＵのオーディオフレームの組合せ寄与は、時間間隔において時間的に減少する。
同様に、クロスフェードは、ＡＵ_jなどのスプライスインＡＵ_Sとその直前のＡＵ（ＡＵ'_Kなど）との間で実行できる。すなわち、その時点を取り囲んで横切る時間間隔内でスプライスインＡＵのーディオフレームと先行ＡＵのオーディオフレームとの組み合わせによって、実際的なプレイアウトされたオーディオ信号を形成し、これでスプライスインＡＵ'_Sのオーディオフレームの先端部分と先行ＡＵ'_Sのオーディオフレームの終端部分とが当接する。

上記の実施形態の別の表現を使用すると、トランスポートストリームによって利用可能な帯域幅を利用する可能性、および使用可能なデコーダＭＨｚ：オーディオスプライスポイントメッセージの一種が、それが置き換えるオーディオフレームとともに送信される。スプライスポイントの周りの出力オーディオおよび入力オーディオの両方がデコードされ、それらの間のクロスフェードが実行されてもよい。オーディオスプライスポイントメッセージは、単にクロスフェードを行う場所をデコーダに指示する。スプライスがＰＣＭドメインに正しく登録されているため、これは本質的に「完全な」スプライスである。

したがって、以上の説明は、特に、以下の側面を明らかにした：
Ａ１．スプライス可能なオーディオデータストリーム４０であって、前記スプライス可能なオーディオデータストリーム４０は、一連のペイロードパケット１６のシーケンスを含み、前記各ペイロードパケットは、前記スプライス可能なオーディオデータストリームが分割される前記一連のアクセスユニット１８のそれぞれの１つに属し、各アクセスユニットは、オーディオフレームの単位で前記スプライス可能なオーディオデータストリームに符号化されるオーディオ信号１２のオーディオフレーム１４のそれぞれの１つの前記オーディオフレーム１４に関連付けられ、そして、
前記スプライス可能なオーディオデータストリーム４０は、所定のアクセスユニットのために、スプライス可能なオーディオデータストリームに挿入され、且つ、示すようにセット可能となっているトランケーションユニットパケット４２；５８と、プレイアウト中に破棄するように、前記所定のアクセスユニットが関連付けられているオーディオフレーム端部４４；５６とを、含む、スプライス可能なオーディオデータストリーム。
Ａ２．態様Ａ１に従属するスプライス可能なオーディオデータストリームであって、オーディオフレームの端部が後端部分４４である。
Ａ３．態様Ａ１または態様Ａ２に従属するスプライス可能なオーディオデータストリームであって、
前記スプライス可能なオーディオデータストリームは、前記スプライス可能なオーディオデータストリームに挿入され、更なる所定のアクセスユニットを示すようにセット可能な更なるトランケーションユニットパケット（５８）と、プレイアウト中に破棄されるように、前記更なる所定のアクセスユニットが関連付けられている更なるオーディオフレームの端部４４；５６とを含む、スプライス可能なオーディオデータストリームである。
Ａ４．態様Ａ３に従属するスプライス可能なオーディオデータストリームであって、さらなるオーディオフレームの端部は、先端部分５６である。
Ａ５．態様Ａ３または態様Ａ４に従属するスプライス可能なオーディオデータストリームであって、前記トランケーションユニットパケット４２およびさらなる前記トランケーションユニットパケット５８は、スプライスアウト構文要素５０を含み、前記スプライスアウト構文要素５０は、それぞれ、前記トランケーションユニットパケットまたは前記さらなるトランケーションユニットパケットのそれぞれ１つが、スプライスアウトアクセスユニットに関連するかどうかを示す。
Ａ６．態様Ａ３〜態様Ａ５のいずれかに従属するスプライス可能なオーディオデータストリームであって、例えばＡＵ_iなどの前記所定のアクセスユニットは、復号化する側での再構成が前記所定のアクセスユニットの直前のアクセスユニットに依存するように、それぞれの関連するオーディオフレームをある方法で符号化し、大部分のアクセスユニットは、復号化する側での再構成がそれぞれの直前のアクセスユニットに依存するように、それぞれの関連するオーディオフレームをある方法で符号化し、前記更なる所定のアクセスユニットＡＵ_jは、復号化する側での再構成が前記さらなる所定のアクセスユニットの直前のアクセスユニットとは独立しているように、それぞれの関連するオーディオフレームをある方法で符号化し、それにより即時のプレイアウトを可能にする。
Ａ７．態様Ａ６に従属するスプライス可能なオーディオデータストリームであって、前記トランケーションユニットパケット４２および前記更なるトランケーションユニットパケット５８は、それぞれ、前記トランケーションユニットパケットまたは前記更なるトランケーションユニットパケットのそれぞれの１つが、前記スプライスアウトアクセスユニットに関連するか否かを示す、スプライスアウト構文要素（５０）を含み、前記トランケーションユニットパケットに含まれる前記スプライスアウト構文要素（５０）は、前記トランケーションユニットパケットがスプライスアウトアクセスユニットに関連することを示し、前記更なるトランケーションユニットパケットに含まれる前記構文要素は、前記更なるトランケーションユニットパケットがスプライスアウトアクセスユニットに関係しないことを示す。
Ａ８．態様Ａ６に従属するスプライス可能なオーディオデータストリームであって、前記トランケーションユニットパケット４２および前記更なるトランケーションユニットパケット５８は、それぞれ、前記トランケーションユニットパケットまたは前記更なるトランケーションユニットパケットのそれぞれの１つが、スプライスアウトアクセスユニットに関連するか否かを示す、スプライスアウト構文要素を含み、前記トランケーションユニットパケットに含まれる前記構文要素５０は、前記トランケーションユニットパケットがスプライスアウトアクセスユニットに関連することを示し、前記更なるトランケーションユニットパケットに含まれる前記スプライスアウト構文要素は、前記更なるトランケーションユニットパケットがスプライスアウトアクセスユニットに関連することを示し、前記更なるトランケーションユニットパケットは、先端／後端のトランケーション構文要素５４およびトランケーション長さ要素４８を含み、先端／後端のトランケーション構文要素は、前記更なるオーディオフレームの端部が、後端部分４４または先端部分５６であるかどうか示すためのものであり、トランケーション長さ要素は、前記更なるオーディオフレームの端部の長さΔｔを示すためのものである。
Ａ９．前記所定のアクセスユニットにおいて、所定の平均ビットレートからの統合されたビットレートの偏差が前提となるために、前記所定の平均ビットレートの周りで変化するようにレート制御される態様Ａ１〜態様Ａ８のいずれかに従属するスプライス可能なオーディオデータストリームであって、前記スプライス可能なオーディオデータストリームは、完全なスプライス可能なオーディオデータストリームにわたって変動する統合されたビットレート偏差の範囲よりも１／２幅未満の所定の間隔内の値をとるようにする。
Ａ１０．前記所定のアクセスユニットにおいて、所定の平均ビットレートからの統合されたビットレートの偏差が前提となるために、前記所定の平均ビットレートの周りで変化するようにレート制御される態様Ａ１〜態様Ａ８のいずれかに従属するスプライス可能なオーディオデータストリームであって、前記スプライス可能なオーディオデータストリームは、前記所定のアクセスユニットにおいて、完全なスプライス可能なオーディオデータストリームにわたって変動する統合されたビットレート偏差の最大値の３／４より小さい固定値を有する。
Ａ１１．前記所定のアクセスユニットにおいて、所定の平均ビットレートからの統合されたビットレートの偏差が前提となるために、前記所定の平均ビットレートの周りで変化するようにレート制御される態様Ａ１〜態様Ａ８のいずれかに従属するスプライス可能なオーディオデータストリームであって、前記スプライス可能なオーディオデータストリームは、前記所定のアクセスユニットと、トランケーションユニットパケットが前記スプライス可能なオーディオデータストリーム内に存在する他のアクセスユニットとの間で、所定の値を有する。
Ｂ１．スプライス可能なオーディオデータストリームであって、前記スプライス可能なオーディオデータストリームは、一連のペイロードパケット１６を含み、前記各ペイロードパケットは、前記スプライス可能なオーディオデータストリームが分割される前記一連のアクセスユニット１８のそれぞれの１つに属し、各アクセスユニットは、オーディオ信号１２のオーディオフレーム１４のそれぞれの１つの前記オーディオフレーム１４に関連付けられ、
そして、前記スプライス可能なオーディオデータストリームは、前記スプライスされたオーディオデータストリームに挿入され、所定のアクセスユニットが関連付けられているオーディオフレームの内のプレイアウト中に破棄されるべきオーディオフレームの端部４４，５６を示すトランケーションユニットパケット４２、５８、１１４を含み、
前記一連のペイロードパケットの第１サブシーケンスのペイロードパケットにおいて、各ペイロードパケットは、前記第１のオーディオ信号のオーディオフレームの単位で第１オーディオ信号を符号化した第１のオーディオデータストリームのアクセスユニットＡＵ_#に属し、前記第１のオーディオデータストリームのアクセスユニットは、前記所定のアクセスユニットを含み、
前記一連のペイロードパケットの第２サブシーケンスのペイロードパケットにおいて、各ペイロードパケットは、前記第２のオーディオデータストリームのオーディオフレームの単位で第２のオーディオ信号を符号化した第２のオーディオデータストリームのアクセスユニットＡＵ’_#に属し、
ペイロードパケットの前記第１および前記第２のサブシーケンスは、互いに直ちに連続し、所定のアクセスユニットにおいて互いに当接し、前記端部は、前記第２のサブシーケンスに先行する前記第１のサブシーケンスの場合には後端部分４４であり、前記第１のサブシーケンスに先行する前記第２のサブシーケンスの場合には先端部分５６である。
Ｂ２．態様Ｂ１に従属するスプライスされたオーディオデータストリームであって、前記第１のサブシーケンスが前記第２のサブシーケンスに先行し、前記端部が後端部分４４として先行する。
Ｂ３．態様Ｂ１または態様Ｂ２に従属するスプライスされたオーディオデータストリームであって、前記スプライスされたオーディオデータストリームは、前記スプライスされたオーディオデータストリームに挿入され、且つ、プレイアウト中に破棄するように、更なる所定のアクセスユニットが関連付けられている更なるオーディオフレームの先端部分５８を示すさらなるトランケーションユニットパケット５８をさらに含み、一連のペイロードパケットの第３のサブシーケンスのペイロードパケットにおいて、各ペイロードパケットは、第３のオーディオ信号が符号化された第３のオーディオデータストリームのアクセスユニットＡＵ’’_#、または前記第１のサブシーケンスのペイロードパケットが属する前記第１のオーディオデータストリームのアクセスユニットに続いて、前記第１のオーディオデータストリームのアクセスユニットＡＵ_#に属し、前記第３のオーディオデータストリームのアクセスユニットは、前記さらなる所定のアクセスユニットを含む。
Ｂ４．態様３に従属するスプライスされたオーディオデータストリームであって、前記所定のアクセスユニットを含む前記スプライスされたオーディオデータストリームのアクセスユニットの大部分は、復号する側での再構成がそれぞれの直前のアクセスユニットに依存するように、それぞれの関連するオーディオフレームを符号化し、例えばＡＵ_i+1などの前記アクセスユニットは、所定のアクセスユニットの直後に位置し、その再構成が例えばＡＵ_iなどの所定のアクセスユニットから独立するように、それぞれの関連するオーディオフレームを符号化した前記第２のオーディオデータストリームのアクセスユニットのオンセットを形成し、それによって即時のプレイアウトが可能となり、そして、前記更なる所定のアクセスユニットＡＵ_jは、その再構成が別の所定のアクセスユニットの直前のアクセスユニットから独立するように、更なるオーディオフレームを符号化して、それによってそれぞれ即時のプレイアウトが可能となっている。
Ｂ５．前記スプライスされたオーディオデータストリームは、前記スプライスされたオーディオデータストリームに挿入され、プレイアウトにおいて破棄されるように、たとえばＡＵ_jなどの前記更なる所定のアクセスユニットの直前のたとえばＡＵ'_Kなどの前記アクセスユニットを関連付ける別のオーディオフレームの後端部分４４を示す更なるトランケーションユニットパケット１１４をさらに含み、
前記スプライスされたオーディオデータストリームは、前記スプライスされたオーディオデータストリームの各アクセスユニットに対して、それぞれのアクセスユニットが関連付けられているオーディオフレームがプレイアウトされるタイムスタンプを示すタイムスタンプ情報２４を含み、
前記更なる所定のアクセスユニットのタイムスタンプは、前記更なる所定のアクセスユニットの直前のアクセスユニットのタイムスタンプに、前記更なる所定のアクセスユニットの直前のアクセスユニットが、更なるオーディオフレームの先端部分の時間的長さと更に別のオーディオフレームの後端部分の合計を差し引いて関連付けられる前記オーディオフレームの時間的長さを加えたものに等しいか、
または前記更なる所定のアクセスユニットの直前のアクセスユニットのタイムスタンプに、前記更なる所定のアクセスユニットの直前のアクセスユニットが関連する前記オーディオフレームの時間的長さを加えたものと等しく、さらに別のオーディオフレームの前記後端部分の前記時間的長さを差し引いたものである。
Ｂ６．態様Ｂ２に従属するスプライシングされたオーディオデータストリームであって、前記スプライスされたオーディオデータストリームは、前記スプライスされたオーディオデータストリームに挿入され、ＡＵ'_K等の前記所定のアクセスユニットの直後のＡＵ_j等の前記アクセスユニットが関連付けられてプレイアウト中に破棄される更なる別のオーディオフレームの先端部分５６を示すさらに更なる別のトランケーションユニットパケット５８をさらに含み、スプライスされたオーディオデータストリームは、それぞれのアクセスユニットが関連付けられているオーディオフレームがプレイアウトされるべき場所でスプライスされたオーディオデータストリームの各アクセスユニットに対して、それぞれのタイムスタンプを示すタイムスタンプ情報２４を含み、
前記所定のアクセスユニットの直後のアクセスユニットのタイムスタンプは、前記所定のアクセスユニットの前記タイムスタンプに、前記所定のアクセスユニットが関連付けられている前記オーディオフレームの前記後端部分の時間的長さと、前記更なる別のアクセスユニットの前端部分との合計を差し引いた前記オーディオフレームの時間長さを加えたものに等しいか、または
前記所定のアクセスユニットの直後のアクセスユニットのタイムスタンプは、前記所定のアクセスユニットのタイムスタンプに、前記所定のアクセスユニットが関連付けられている前記オーディオフレームの前記後端部分の前記時間的長さを差し引いた前記所定のアクセスユニットが関連付けられている前記オーディオフレームの時間的長さを加えたものに等しい。
Ｂ７．態様Ｂ６に従属するスプライスされたオーディオデータストリームであって、前記スプライスされたオーディオデータストリームのアクセスユニットの大部分は、復号側でのその再構成が直前の各アクセスユニットに依存可能な方法で、前記それぞれの関連するオーディオフレームを符号化し、前記所定のアクセスユニットの直後に位置し、前記第２のオーディオデータストリームの前記アクセスユニットのオンセットを形成することは、復号化側での前記再構成は所定のアクセスユニットから独立しており、それにより即時にプレイアウトが可能となる方法で、前記それぞれの関連するオーディオフレームを符号化する。
Ｂ８．態様Ｂ７に従属するスプライシングされたオーディオデータストリームであって、前記第１および第２のオーディオデータストリームは、異なる符号化構成を使用して符号化され、前記アクセスユニットは、前記所定のアクセスユニットの直後に位置し、前記第２のオーディオデータストリームの前記アクセスユニットのオンセットを形成して、デコーダを新たに構成するための構成データcfgを符号化する。
Ｂ９．態様Ｂ４に従属するスプライスされたオーディオデータストリームであって、前記スプライスされたオーディオデータストリームは、前記スプライスされたオーディオデータストリームに挿入され、前記所定のアクセスユニットの直後の前記アクセスユニットが関連付けられてプレイアウト中に破棄される更なる別のオーディオフレームの先端部分を示すさらに更なる別のトランケーションユニットパケット１１２をさらに含み、スプライスされたオーディオデータストリームは、それぞれのアクセスユニットが関連付けられているオーディオフレームがプレイアウトされるべき場所でスプライスされたオーディオデータストリームの各アクセスユニットに対して、それぞれのタイムスタンプを示すタイムスタンプ情報２４を含み、
前記所定のアクセスユニットの直後の前記アクセスユニットのタイムスタンプは、前記所定のアクセスユニットの前記タイムスタンプに、前記更に別のオーディオフレームの前記先端部分の時間的長さと前記所定のアクセスユニットに関連する前記オーディオフレームの前記後端部分の時間的長さとの合計を差し引いた前記所定のアクセスユニットに関連付けられた前記オーディオフレームの時間長を足したものに等しいか、または
前記所定のアクセスユニットの前記タイムスタンプに、前記所定のアクセスユニットに関連付けられた前記オーディオフレームの時間的長さを加えたものから所定のアクセスユニットに関連するオーディオフレームの前記後端部分の時間的長さを差し引いた時間的長さに等しい。
Ｂ１０．態様Ｂ４、Ｂ５またはＢ９に従属するスプライシングされたオーディオデータストリームであって、前記所定のアクセスユニットの直後の前記アクセスユニットのタイムスタンプの時間は、前記所定のアクセスユニットのタイムスタンプに、前記所定のアクセスユニットが関連付けられている前記オーディオフレームの時間的長さを加えたものに等しく、前記所定のアクセスユニットが関連付けられた前記オーディオフレームの前記後端部の時間的長さを差し引いたものである。
Ｃ１．オーディオデータストリームをスプライシングするためのストリームスプライサであって、
第１のオーディオデータストリームが分割された一連のアクセスユニット１８のそれぞれの１つに属し、前記第１のオーディオデータストリームの各アクセスユニットは、第１のオーディオ信号１２のオーディオフレーム１４の単位で前記第１のオーディオデータストリームに符号化される前記第１のオーディオ信号のオーディオフレームのそれぞれ１つに関連し、一連のペイロードパケット１６を含む第１のオーディオデータストリーム４０を受信するための第１のオーディオ入力インタフェース１０２、
第２のオーディオデータストリームが分割された一連のアクセスユニットのそれぞれの１つに属し、前記第２のオーディオデータストリームの各アクセスユニットは、第２のオーディオ信号のオーディオフレームの単位で前記第２のオーディオデータストリームに符号化される前記第２のオーディオ信号のオーディオフレームのそれぞれ１つに関連し、一連のペイロードパケットを含む第２のオーディオデータストリーム１１０を受信するための第２のオーディオ入力インタフェース１０４、
スプライスポイントセッター、および
スプライスマルチプレクサーを含み、
前記第１のオーディオデータストリームは、前記第１のオーディオデータストリームに挿入され、所定のアクセスユニットが関連付けられたオーディオフレームの端部４４；５６が、プレイアウト中に破棄することを所定のアクセスユニットに対して示すように設定可能なトランケーションユニットパケット４２；５８をさらに含み、
前記スプライスポイントセッター１０６は、所定のアクセスユニットが関連付けられており、プレイアウト中に破棄されるように、トランケーションユニットパケットがオーディオフレームの後端部分４４；５６を示すために、トランケーションユニットパケット４２；５８を設定するように構成され、あるいは、前記スプライスポイントセッター１０６は、トランケーションユニットパケット４２；５８を第１のオーディオデータストリームに挿入し、所定のアクセスユニットに対して示すために同じことを設定するように構成され、
所定のアクセスユニットが関連付けられているオーディオフレームの端部４４；５６は、プレイアウト中に廃棄されるように、前記トランケーションユニットパケット４２；５８を設定し、前記トランケーションユニットパケット４２；５８は、プレイアウト中に破棄されるように、前記所定のアクセスユニットが関連付けられたオーディオフレームの端部４４；５６を示しており、そして
前記スプライスマルチプレクサー１０８は、各ペイロードパケットが所定のアクセスユニットを含む第１のオーディオデータストリームのアクセスユニットのランのそれぞれのアクセスユニットに属する状態で第１のオーディオデータストリームのペイロードパケットのサブシーケンスを取得するように、前記所定のアクセスユニットにおいて前記第１のオーディオデータストリームをカットするように構成され、そして、
前記第１のオーディオデータストリームのペイロードパケットのサブシーケンスと前記第２のオーディオデータストリームの一連のペイロードパケットとを、互いに所定のアクセスユニットで互いに直に連続して当接するようにスプライスして、
前記所定のアクセスユニットが関連する前記オーディオフレームの前記端部は、前記第２のオーディオデータストリームの一連のペイロードパケットに先行する前記第１のオーディオデータストリームのペイロードパケットのサブシーケンスの場合には、後端部分４４であり、第１のオーディオデータストリームのペイロードパケットのサブシーケンスの場合には、第２のオーディオデータストリームの一連のペイロードパケットに続く先端部分５６である、ストリームスプライサ。
Ｃ２．態様Ｃ１に従属するストリームスプライサであって、前記第１のオーディオデータストリームの前記ペイロードパケットのサブシーケンスは、前記第２のオーディオデータストリームの一連のペイロードパケットの第２のサブシーケンスと、前記所定のアクセスユニットが関連付けられて後端部分４４となるオーディオフレームの端部とに、先行する。
Ｃ３．態様Ｃ２に従属するストリームスプライサであって、前記ストリームスプライサは、前記トランケーションユニットパケットに含まれるスプライスアウト構文要素５０を検査するように構成され、前記スプライスアウト構文要素５０がスプライスアウトアクセスユニットに関連する前記トランケーションユニットパケットを示すかどうかの条件で切断およびスプライシングを実行することができる。
Ｃ４．態様Ｃ１〜態様Ｃ３のいずれかに従属するストリームスプライサであって、前記スプライスポイント設定部は、外部クロックと一致するように、前記端部の時間的長さを設定する。
Ｃ５．態様Ｃ４に従属するストリームスプライサであって、前記外部クロックは、ビデオフレームクロックである。
Ｃ６．態様Ｃ２に従属するスプライスされたオーディオデータストリームであって、前記第２のオーディオデータストリームは、前記第２のオーディオデータストリーム１１０に挿入された更なるトランケーションユニットパケット１１４を挿入によって生じさせるか、またはスプライスポイントセッター１０６を有し、プレイアウトで廃棄されるように、第２のオーディオデータストリームのたとえばＡＵ’_Kなどの終端アクセスユニット１１０が関連付けられている更なるオーディオフレームの端部を示すために設定可能となって、そして、
前記第１のオーディオデータストリームは、プレイアウト中に破棄されるように関連付けられ、前記第１のオーディオデータストリームに挿入され、プレイアウト中に破棄されるように関連付けられ、たとえばＡＵ_jなどのさらに別の所定のアクセスユニットを有するさらに別のオーディオフレームの端部を示すように設定可能なさらに別のトランケーションユニットパケット５８をさらに含み、
たとえばＡＵ_iなどの前記所定のアクセスユニットの前記オーディオフレームとたとえばＡＵ_jなどの前記更なる別の所定のアクセスユニットの前記更なる別のオーディオフレームとの間の時間的な距離は、たとえばＡＵ_iなどの前記所定のアクセスユニットとたとえばＡＵ’_Kなどの前記後端のアクセスユニットとのスプライシングの後に、たとえばＡＵ’₁などのその先端の／先導するアクセスユニットの間の前記第２のオーディオ信号の時間的な長さと一致し、
前記スプライスポイントセッター１０６は、プレイアウト中に破棄される前記更なるオーディオフレームの後端部分４４を示すように、そして、前記更なるトランケーションユニットパケット５８は、プレイアウト中に破棄されるべき前記更なる別のオーディオフレームの先端部分を示すように、前記更なるトランケーションユニットパケット１１４を設定するように構成され、
前記スプライスマルチプレクサー１０８は、前記第２のオーディオデータストリーム１１０に含まれるタイムスタンプ情報２４に適応させ、各アクセスユニットに対して、前記それぞれのアクセスユニットが関連付けられ、プレイアウトとなる前記オーディオフレームのそれぞれのタイムスタンプを示すように構成され、
前記第２のオーディオデータストリーム１１０の先行するアクセスユニットが関連する先行するオーディオフレームのタイムスタンプは、前記所定のアクセスユニットが関連付けられたオーディオフレームのタイムスタンプと一致するようにし、さらに、前記所定のアクセスユニットが関連付けられている前記オーディオフレームの時間的長さから、前記所定のアクセスユニットが関連付けられている前記オーディオフレームの前記後端部分の時間的長さを差し引いたものであり、
前記更なる別のオーディオフレームのタイムスタンプは、前記更なるオーディオフレームのタイムスタンプに、前記更なるオーディオフレームの時間的長さを加えたものに等しく、前記更なるオーディオフレームの後端部分の時間的長さと前記更なる別のオーディオフレームの前端部分との合計を差し引いたもとなるように、前記スプライスポイントセッター１０６が、前記更なるトランケーションユニットパケット１１４および前記更なる別のトランケーションユニットパケット５８を設定するために構成される。
Ｃ７．態様Ｃ２に従属するスプライスされたオーディオデータストリームであって、前記第２のオーディオデータストリーム１１０は、前記第２のオーディオデータストリームに挿入された更なるトランケーションユニットパケット１１２を挿入によって生じさせるか、またはスプライスポイントセッター１０６を有し、プレイアウトで廃棄されるように、前記第２のオーディオデータストリームのたとえばＡＵ’₁などの先導するアクセスユニットが関連付けられる更なる別のオーディオフレームの端部を示すように設定可能となり、
前記スプライスポイントセッター（１０６）は、前記第２のオーディオデータストリームの先導するアクセスユニットが関連付けられる更なるオーディオフレームの端部を示すように設定可能な前記第２のオーディオデータストリームに挿入された更なるトランケーションユニットパケット（１１２）を挿入によって生じさせるか、またはプレイアウトで廃棄されるように、プレイアウト中に破棄される前記更なるオーディオフレームの先端部分を示すように、前記更なるトランケーションユニットパケット（１１２）を設定するように構成され、
タイムスタンプ情報２４は、前記第１および第２のオーディオデータストリームに含まれ、各アクセスユニットについて、前記オーディオフレームがそれぞれのタイムスタンプを示し、前記第１および第２のオーディオデータストリームの前記それぞれのアクセスユニットが関連付けられ、プレイアウトされるべきであり、時間的に整列され、そして、スプライスポイントセッター１０６は、前記更なるオーディオフレームのタイムスタンプから、たとえばＡＵ_iなどの前記所定のアクセスユニットが関連付けられた前記オーディオフレームの時間的長さを引いた値になるように、前記更なるトランケーションユニットパケットを設定するように構成され、その上、前記先端部分の時間的長さは、前記所定のアクセスユニットが関連する前記オーディオフレームのタイムスタンプと、前記所定のアクセスユニットが関連付けられた前記オーディオフレームの時間的長さから前記後端部分の時間的長さを差し引いたものに等しい。
Ｄ１．前記ペイロードパケットの各々は、前記オーディオデータストリームが分割される一連のアクセスユニット１８のそれぞれの１つに属し、各アクセスユニットは、オーディオフレームのそれぞれの１つに関連付けられるように、オーディオデータストリーム１２０の一連のペイロードパケット１６からオーディオ信号のオーディオフレーム１４の単位でオーディオ信号１２を再構成するように構成されたオーディオデコードコア１６２／オーディオ復号コア１６２、および
その終端部が前記トランケーションユニットパケットによってプレイアウト中に破棄されるように指示される前記オーディオ信号をプレイアウトする際に、前記オーディオデータストリームに挿入されたトランケーションユニットパケット４２；５８；１１４に応答して、所定のアクセスユニットに関連付けられたオーディオフレームをトランケートするように／切り捨てて破棄するように構成されたオーディオトランケーター１６４を含む、オーディオデコーダ。
Ｄ２．態様Ｄ１に従属するオーディオコーダであって、端部は、後端部分４４または先端部分５６である。
Ｄ３．態様Ｄ１または態様Ｄ２に従属するオーディオデコーダであって、前記オーディオデータストリームの前記アクセスユニットの大部分は、その再構成がそれぞれの直前のアクセスユニットに依存するような方法で、前記それぞれの関連するオーディオフレームを符号化しており、前記オーディオデコーディングコア１６２は、多数のアクセスユニットの各々が前記それぞれの直前のアクセスユニットに応じて関連付けられる前記オーディオフレームを再構成するように構成される。
Ｄ４．態様Ｄ３に従属するオーディオデコーダであって、前記所定のアクセスユニットは、その再構成が前記所定のアクセスユニットの直前のアクセスユニットとは独立しているように、前記それぞれの関連するオーディオフレームを符号化し、前記オーディオ復号ユニット１６２は、前記所定のアクセスユニットの直前のアクセスユニットから独立して、前記所定のアクセスユニットが関連付けられる前記オーディオフレームを再構成するように構成される。
Ｄ５．態様Ｄ３または態様Ｄ４に従属するオーディオデコーダであって、前記所定のアクセスユニットが構成データを符号化し、オーディオ復号化ユニット１６２が、構成データに従って構成オプションを構成するために構成データを使用するように構成され、前記所定のアクセスユニットと、前記所定のアクセスユニットの直後に位置するアクセスユニットのランとが関連付けられている前記オーディオフレームを再構成するための前記デコードオプションを適用する。
Ｄ６．態様Ｄ１〜態様Ｄ５のいずれかに従属するオーディオデコーダであって、前記オーディオデータストリームは、前記オーディオデータストリームの各アクセスユニットに対して、前記それぞれのアクセスユニットが関連付けられている前記オーディオフレームでプレイアウトされる各タイムスタンプを示すタイムスタンプ情報２４を含み、前記オーディオデコーダは、前記タイムスタンプ情報に従って前記オーディオフレームの先端部分を時間的に整列させ、前記所定のアクセスユニットが関連付けられた前記オーディオフレームの前記終端部分を放棄して、前記オーディオフレームをプレイアウトするように構成される。
Ｄ７．態様Ｄ１〜態様Ｄ６のいずれかに従属するオーディオ復号器であって、前記オーディオフレームの前記終端部分と残りの部分との接合点でクロスフェードを実行するように構成されたオーディオデコーダ。
Ｅ１．各ペイロードパケットは、オーディオデータストリーム４０が分割されたアクセスユニット１８のそれぞれの１つに属し、各アクセスユニットはオーディオフレームのそれぞれ１つに関連付けられるように、オーディオ信号のオーディオフレーム１４の単位で、前記オーディオデータストリーム４０のペイロードパケット１６にオーディオ信号１２を符号化するように構成されたオーディオ符号化コア７２、および
所定のアクセスユニットが関連付けられ、プレイアウト中に破棄されるように、前記オーディオフレームの終端部を示すように設定可能なトランケーションユニットパケット４４；５８を前記オーディオデータストリームに挿入するトランケーションパケット挿入部７４を含む、オーディオエンコーダ。
Ｅ２．態様Ｅ１に従属するオーディオエンコーダであって、前記オーディオエンコーダは、態様Ａ１〜態様９のいずれかに従属するスプライス可能なオーディオデータストリームを生成するように構成される。
Ｅ３．態様Ｅ１または態様Ｅ２に従属するオーディオエンコーダであって、前記オーディオエンコーダは、外部クロックに応じて前記アクセスユニットの中から前記所定のアクセスユニットを選択するように構成される。
Ｅ４．態様Ｅ３に従属するオーディオエンコーダであって、前記外部クロックは、ビデオフレームクロックである。
Ｅ５．態様Ｅ１〜態様Ｅ５のいずれかに従属するオーディオエンコーダであって、前記所定のアクセスユニットにおいて、所定の平均ビットレートからの統合ビットレート偏差を仮定するために、オーディオデータストリームのビットレートが所定の平均ビットレートの周りで変化し、それに従うようにレート制御を実行するように構成され、これは、完全なスプライス可能なオーディオデータストリームにわたって変動する統合されたビットレート偏差の範囲よりも１／２幅未満の所定の間隔内の値をとる。
Ｅ６．態様Ｅ１〜態様Ｅ５のいずれかに従属するオーディオエンコーダであって、前記所定のアクセスユニットにおいて、所定の平均ビットレートからの統合ビットレート偏差を仮定するために、オーディオデータストリームのビットレートが所定の平均ビットレートの周りで変化し、それに従うようにレート制御を実行するように構成され、これは、完全なスプライス可能なオーディオデータストリームにわたって変動する統合されたビットレート偏差の最大値の３／４より小さい固定値を有する。
Ｅ７．態様Ｅ１〜態様Ｅ５のいずれかに従属するオーディオエンコーダであって、前記所定のアクセスユニットにおいて、所定の平均ビットレートからの統合ビットレート偏差を仮定するために、オーディオデータストリームのビットレートが所定の平均ビットレートの周りで変化し、それに従うようにレート制御を実行するように構成され、前記所定のアクセスユニットの他にトランケーションユニットパケットが前記オーディオデータストリームに挿入される他のアクセスユニットもまた、所定の値をとる。
Ｅ８．態様Ｅ１〜態様Ｅ７のいずれかに従属するオーディオエンコーダであって、ログされたフィル（充填）状態が、前記所定のアクセスユニットにおいて所定の値をとるように符号化されたオーディオデコーダのバッファ充填状態をロギングすることによって、レート制御を実行するように構成される。
Ｅ９．態様Ｅ８に従属するオーディオエンコーダであって、前記所定の値は、トランケーションユニットパケットが前記オーディオデータストリームに挿入されるアクセスユニット間で共通である。
Ｅ１０．態様Ｅ８に従属するオーディオエンコーダであって、前記オーディオデータストリーム内の前記所定の値をシグナリングするように構成される。

いくつかの態様を装置の文脈で説明してきたが、これらの態様は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応する、対応する方法の記述も表すことは明らかである。同様に、方法ステップの文脈で説明される態様は、対応するブロックまたは対応する装置のアイテムまたは特徴の記述も表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって実行されてもよい（または使用されてもよい）。いくつかの実施形態では、最も重要な方法ステップのうちのいくつか１つまたは複数をこのような装置によって実行することができる。

本発明のスプライシングまたはスプライシング可能なオーディオデータストリームは、デジタル記憶媒体に格納することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送することができる。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実装は、その上に、電子的に読み取り可能な制御信号が記憶されたフロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。それらはそれぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、プログラム可能なコンピュータシステムと協働して、本明細書に記載の方法の１つが実行されるように、電子的に読み取り可能な制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するときに、前記方法の１つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械可読キャリアに格納することができる。

他の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含み、機械読み取り可能なキャリアに格納される。

言い換えれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む、データキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録された媒体は、典型的には有形および/または非移行型である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の内の１つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリーム又は信号のシーケンスは、例えば、インターネットを介して、例えば、データ通信接続を介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記載の方法の内の１つを実行するように構成されたまたはそれに適応する処理手段、例えばコンピュータまたはプログラマブル論理装置を含む。

さらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明によるさらなる実施形態は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムを受信機に転送するように構成された装置またはシステムを含む（例えば、電子的にまたは光学的に）。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。

いくつかの実施形態では、プログラマブルロジックデバイス（例えばフィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明する方法の１つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。

本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実装することができる。

本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実施することができる。

上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載された構成および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、差し迫った特許請求の範囲によってのみ限定され、本明細書の実施形態の説明および説明によって示される特定の詳細によっては限定されないことが意図される。

参照

［１］METHOD AND ENCODER AND DECODER FOR SAMPLE-ACCURATE REPRESENTATION OF AN AUDIO SIGNAL, IIS1b-10 F51302 WO-ID, FH110401PID
［２］ISO/IEC 23008-3, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
［３］ISO/IEC DTR 14496-24: Information technology - Coding of audio-visual objects - Part 24: Audio and systems interaction

Claims

スプライス可能なオーディオデータストリーム（４０）であって、
前記スプライス可能なオーディオデータストリーム（４０）は、一連のペイロードパケット（１６）を含み、前記各ペイロードパケットは、前記スプライス可能なオーディオデータストリームが分割される前記一連のアクセスユニット（１８）のそれぞれの１つに属し、各アクセスユニットは、オーディオフレームの単位で前記スプライス可能なオーディオデータストリームに符号化されるオーディオ信号（１２）のオーディオフレーム（１４）のそれぞれの１つの前記オーディオフレーム（１４）に関連付けられ、そして、
前記スプライス可能なオーディオデータストリーム（４０）は、所定のアクセスユニットのために、スプライス可能なオーディオデータストリームに挿入され、且つ、示すようにセット可能となっているトランケーションユニットパケット（４２；５８）と、プレイアウト中に破棄するように、前記所定のアクセスユニットが関連付けられているオーディオフレームの端部（４４；５６）とを、含むことを特徴とする、スプライス可能なオーディオデータストリーム。
前記スプライス可能なオーディオデータストリームは、
前記スプライス可能なオーディオデータストリームに挿入され、更なる所定のアクセスユニットを示すようにセット可能な更なるトランケーションユニットパケット（５８）と、
プレイアウト中に破棄されるように、前記更なる所定のアクセスユニットが関連付けられている更なるオーディオフレームの端部（４４；５６）とを含む、請求項１に記載のスプライス可能なオーディオデータストリーム。
前記所定のアクセスユニットは、復号化する側での再構成が前記所定のアクセスユニットの直前のアクセスユニットに依存するように、それぞれの関連するオーディオフレームをある方法で符号化し、
大部分のアクセスユニットは、復号化する側での再構成がそれぞれの直前のアクセスユニットに依存するように、それぞれの関連するオーディオフレームをある方法で符号化し、
他の所定のアクセスユニットは、復号化する側での再構成が別の所定のアクセスユニットの直前のアクセスユニットとは独立しているように、それぞれの関連するオーディオフレームをある方法で符号化し、それにより即時のプレイアウトを可能にする、請求項２に記載のスプライス可能なオーディオデータストリーム。
前記トランケーションユニットパケット（４２）および更なるトランケーションユニットパケット（５８）は、それぞれ、前記トランケーションユニットパケットまたは前記更なるトランケーションユニットパケットのそれぞれの１つが、前記スプライスアウトアクセスユニットに関連するか否かを示すスプライスアウト構文要素（５０）を含み、
前記トランケーションユニットパケットに含まれる前記スプライスアウト構文要素（５０）は、前記トランケーションユニットパケットがスプライスアウトアクセスユニットに関連することを示し、
前記更なるトランケーションユニットパケットに含まれる前記構文要素は、前記更なるトランケーションユニットパケットがスプライスアウトアクセスユニットに関係しないことを示す、請求項３に記載のスプライス可能なオーディオデータストリーム。
前記トランケーションユニットパケット（４２）および前記更なるトランケーションユニットパケット（５８）は、それぞれ、前記トランケーションユニットパケットまたは前記更なるトランケーションユニットパケットのそれぞれの１つが、スプライスアウトアクセスユニットに関連するか否かを示すスプライスアウト構文要素を含み、
前記トランケーションユニットパケットに含まれる前記構文要素（５０）は、前記トランケーションユニットパケットがスプライスアウトアクセスユニットに関連することを示し、
前記更なるトランケーションユニットパケットに含まれる前記スプライスアウト構文要素は、前記更なるトランケーションユニットパケットがスプライスアウトアクセスユニットに関連することを示し、
前記更なるトランケーションユニットパケットは、先端／後端のトランケーション構文要素（５４）およびトランケーション長さ要素（４８）を含み、
前記先端／後端のトランケーション構文要素は、前記更なるオーディオフレームの端部が、後端部分（４４）または先端部分（５６）であるかどうか示すためのものであり、
前記トランケーション長さ要素は、前記更なるオーディオフレームの端部の長さ（Δｔ）を示すためのものである、請求項３に記載のスプライス可能なオーディオデータストリーム。
スプライスされたオーディオデータストリームであって、
前記スプライスされたオーディオデータストリームは、一連のペイロードパケットのシーケンス（１６）を含み、前記各ペイロードパケットは、前記スプライスされたオーディオデータストリームが分割される前記一連のアクセスユニット（１８）のそれぞれの１つに属し、
各アクセスユニットは、オーディオフレーム（１４）のそれぞれの１つの前記オーディオフレーム（１４）に関連付けられ、そして、
前記スプライスされたオーディオデータストリームは、スプライス可能なオーディオデータストリームに挿入され、且つ、プレイアウト中に破棄するように、所定のアクセスユニットが関連付けられているオーディオフレームの端部（４４；５６）を示すトランケーションユニットパケット（４４；５８；１１４）を含み、
前記一連のペイロードパケットの第１のサブシーケンスのペイロードパケットにおいて、各ペイロードパケットは、前記第１のオーディオ信号のオーディオフレームの単位で第１のオーディオ信号を符号化した第１のオーディオデータストリームのアクセスユニット（ＡＵ_#）に属し、前記第１のオーディオデータストリームのアクセスユニットは、前記所定のアクセスユニットを含み、
前記一連のペイロードパケットの第２のサブシーケンスのペイロードパケットにおいて、各ペイロードパケットは、前記第２のオーディオデータストリームのオーディオフレームの単位で第２のオーディオ信号を符号化した第２のオーディオデータストリームのアクセスユニット（ＡＵ’_#）に属し、
ペイロードパケットの前記第１および前記第２のサブシーケンスは、互いに直ちに連続し、所定のアクセスユニットにおいて互いに当接し、前記端部は、前記第２のサブシーケンスに先行する前記第１のサブシーケンスの場合には後端部分（４４）であり、前記第１のサブシーケンスに先行する前記第２のサブシーケンスの場合には先端部分（５６）である、スプライスされたオーディオデータストリーム。
前記スプライスされたオーディオデータストリームは、前記スプライスされたオーディオデータストリームに挿入され、且つ、プレイアウト中に破棄するように、更なる所定のアクセスユニットが関連付けられている更なるオーディオフレームの先端部分（５８）を示す更なるトランケーションユニットパケット（５８）をさらに含み、
一連のペイロードパケットの第３のサブシーケンスのペイロードパケットにおいて、各ペイロードパケットは、第３のオーディオ信号が符号化された第３のオーディオデータストリームのアクセスユニット（ＡＵ’’_#）、または
前記第１のサブシーケンスのペイロードパケットが属する前記第１のオーディオデータストリームのアクセスユニットに続いて、前記第１のオーディオデータストリームのアクセスユニット（ＡＵ_#）に属し、
前記第２のオーディオデータストリームのアクセスユニットは、前記さらなる所定のアクセスユニットを含む、請求項６に記載のスプライスされたオーディオデータストリーム。
前記所定のアクセスユニットを含む前記スプライスされたオーディオデータストリームのアクセスユニットの大部分は、復号する側での再構成がそれぞれの直前のアクセスユニットに依存するように、それぞれの関連するオーディオフレームを符号化し、
前記アクセスユニットは、所定のアクセスユニットの直後に位置し、その再構成が所定のアクセスユニットから独立するように、それぞれの関連するオーディオフレームを符号化した前記第２のオーディオデータストリームのアクセスユニットのオンセットを形成し、それによって即時のプレイアウトが可能となり、そして
前記さらなる所定のアクセスユニットは、その再構成が別の所定のアクセスユニットの直前のアクセスユニットから独立するように、さらなるオーディオフレームを符号化して、それによってそれぞれ即時のプレイアウトが可能となっている、請求項７に記載のスプライスされたオーディオデータストリーム。
前記スプライスされたオーディオデータストリームは、前記スプライスされたオーディオデータストリームに挿入され、プレイアウトにおいて破棄されるように前記さらなる所定のアクセスユニットの直前のアクセスユニットを関連付ける別のオーディオフレームの後端部分（４４）を示すさらなるトランケーションユニットパケット（１１４）をさらに含み、
前記スプライスされたオーディオデータストリームは、前記スプライスされたオーディオデータストリームの各アクセスユニットに対して、それぞれのアクセスユニットが関連付けられているオーディオフレームがプレイアウトされるタイムスタンプを示すタイムスタンプ情報（２４）を含み、
前記更なる所定のアクセスユニットのタイムスタンプは、前記更なる所定のアクセスユニットの直前のアクセスユニットのタイムスタンプに、前記更なる所定のアクセスユニットの直前のアクセスユニットが、更なるオーディオフレームの先端部分の時間的長さと更に別のオーディオフレームの後端部分の合計を差し引いて関連付けられる前記オーディオフレームの時間的長さを加えたものに等しい、請求項７または請求項８に記載のスプライスされたオーディオデータストリーム。
前記所定のアクセスユニットの直ぐ後続のアクセスユニットの時間的タイムスタンプは、前記所定のアクセスユニットのタイムスタンプに前記オーディオフレームの時間的長さを加えたものに等しく、前記オーディオフレームの時間的長さは、前記所定のアクセスユニットが関連付けられ、前記所定のアクセスユニットが関連付けられる前記オーディオフレームの後端部分の時間的長さを差し引いた長さである、請求項８または請求項９に記載のスプライスされたオーディオデータストリーム。
オーディオデータストリームをスプライシングするためのストリームスプライサであって、
第１のオーディオデータストリームが分割された一連のアクセスユニット（１８）のそれぞれの１つに属し、前記第１のオーディオデータストリームの各アクセスユニットは、第１のオーディオ信号（１２）のオーディオフレーム（１４）の単位で前記第１のオーディオデータストリームに符号化される前記第１のオーディオ信号のオーディオフレームのそれぞれ１つに関連し、一連のペイロードパケット（１６）を含む第１のオーディオデータストリーム（４０）を受信するための第１のオーディオ入力インタフェース（１０２）、
第２のオーディオデータストリームが分割された一連のアクセスユニットのそれぞれの１つに属し、前記第２のオーディオデータストリームの各アクセスユニットは、第２のオーディオ信号のオーディオフレームの単位で前記第２のオーディオデータストリームに符号化される前記第２のオーディオ信号のオーディオフレームのそれぞれ１つに関連し、一連のペイロードパケットを含む第２のオーディオデータストリーム（１１０）を受信するための第２のオーディオ入力インタフェース（１０４）、
スプライスポイントセッター、および
スプライスマルチプレクサーを含み、
前記第１のオーディオデータストリームは、前記第１のオーディオデータストリームに挿入され、所定のアクセスユニットが関連付けられたオーディオフレームの端部（４４；５６）が、プレイアウト中に破棄することを所定のアクセスユニットに対して示すように設定可能なトランケーションユニットパケット（４２；５８）をさらに含み、
前記スプライスポイントセッター（１０６）は、所定のアクセスユニットが関連付けられており、プレイアウト中に破棄されるように、トランケーションユニットパケットがオーディオフレームの後端部分（４４；５６）を示すために、トランケーションユニットパケット（４２；５８）を設定するように構成され、あるいは、前記スプライスポイントセッター（１０６）は、トランケーションユニットパケット（４２；５８）を第１のオーディオデータストリームに挿入し、所定のアクセスユニットに対して示すために同じことを設定するように構成され、
所定のアクセスユニットが関連付けられているオーディオフレームの端部（４４；５６）は、プレイアウト中に廃棄されるように、前記トランケーションユニットパケット（４２；５８）を設定し、前記トランケーションユニットパケット（４２；５８）は、生中に破棄されるように、前記所定のアクセスユニットが関連付けられたオーディオフレームの端部（４４；５６）を示しており、そして
前記スプライスマルチプレクサー（１０８）は、各ペイロードパケットが所定のアクセスユニットを含む第１のオーディオデータストリームのアクセスユニットのランのそれぞれのアクセスユニットに属する状態で第１のオーディオデータストリームのペイロードパケットのサブシーケンスを取得するように、前記所定のアクセスユニットにおいて前記第１のオーディオデータストリームをカットするように構成され、そして、
前記第１のオーディオデータストリームのペイロードパケットのサブシーケンスと前記第２のオーディオデータストリームの一連のペイロードパケットとを、互いに所定のアクセスユニットで互いに直に連続して当接するようにスプライスして、
前記所定のアクセスユニットが関連する前記オーディオフレームの前記端部は、前記第２のオーディオデータストリームの一連のペイロードパケットに先行する前記第１のオーディオデータストリームのペイロードパケットのサブシーケンスの場合には、後端部分（４４）であり、第１のオーディオデータストリームのペイロードパケットのサブシーケンスの場合には、第２のオーディオデータストリームの一連のペイロードパケットに続く先端部分（５６）である、ストリームスプライサ。
前記第１のオーディオデータストリームの前記ペイロードパケットのサブシーケンスは、前記第２のオーディオデータストリームの一連のペイロードパケットの第２のサブシーケンスと、前記所定のアクセスユニットが関連付けられて後端部分（４４）となるオーディオフレームとに先行する、請求項１１に記載のストリームスプライサ。
前記スプライスポイントセッターは、外部クロックと一致するように前記端部の時間的長さを設定することを特徴とする、請求項１１または請求項１２に記載のストリームスプライサ。
前記第２のオーディオデータストリームは、前記第２のオーディオデータストリーム（１１０）に挿入された更なるトランケーションユニットパケット（１１４）を挿入によって生じさせるか、またはスプライスポイントセッター（１０６）を有し、プレイアウトで廃棄されるように、第２のオーディオデータストリームの終端アクセスユニット（１１０）が関連付けられている更なるオーディオフレームの端部を示すために設定可能となって、そして、
前記第１のオーディオデータストリームは、プレイアウト中に破棄されるように関連付けられ、前記第１のオーディオデータストリームに挿入され、プレイアウト中に破棄されるように関連付けられ、さらに別の所定のアクセスユニットを有するさらに別のオーディオフレームの端部を示すように設定可能なさらに別のトランケーションユニットパケット（５８）をさらに含み、
前記所定のアクセスユニットの前記オーディオフレームと前記更なる別の所定のアクセスユニットの前記更なる別のオーディオフレームとの間の時間的な距離は、前記所定のアクセスユニットと前記後続のアクセスユニットとのスプライシングの後に、その先導するアクセスユニットの間の前記第２のオーディオ信号の時間的な長さと一致し、
前記スプライスポイントセッター（１０６）は、プレイアウト中に破棄される前記更なるオーディオフレームの後端部分（４４）を示すように、そして、前記更なるトランケーションユニットパケット（５８）は、プレイアウト中に破棄されるべき前記更なる別のオーディオフレームの先端部分を示すように、前記更なるトランケーションユニットパケット（１１４）を設定するように構成され、
前記スプライスマルチプレクサー（１０８）は、前記第２のオーディオデータストリーム（１１０）に含まれるタイムスタンプ情報（２４）に適応させ、各アクセスユニットに対して、前記それぞれのアクセスユニットが関連付けられ、プレイアウトとなる前記オーディオフレームのそれぞれのタイムスタンプを示すように構成され、
前記第２のオーディオデータストリーム（１１０）の先行するアクセスユニットが関連する先行するオーディオフレームのタイムスタンプは、前記所定のアクセスユニットが関連付けられたオーディオフレームのタイムスタンプと一致するようにし、さらに、前記所定のアクセスユニットが関連付けられている前記オーディオフレームの時間的長さから、前記所定のアクセスユニットが関連付けられている前記オーディオフレームの前記後端部分の時間的長さを差し引いたものであり、
前記更なる別のオーディオフレームのタイムスタンプは、前記更なるオーディオフレームのタイムスタンプに、前記更なるオーディオフレームの時間的長さを加えたものに等しく、前記更なるオーディオフレームの後端部分の時間的長さと前記更なる別のオーディオフレームの先端部分との合計を差し引いたもとなるように、前記スプライスポイントセッター（１０６）が、前記更なるトランケーションユニットパケット（１１４）および前記更なる別のトランケーションユニットパケット（５８）を設定するために構成される、請求項１２に記載のスプライスされたオーディオデータストリーム。
前記第２のオーディオデータストリーム（１１０）は、前記第２のオーディオデータストリームに挿入された更なるトランケーションユニットパケット（１１２）を挿入によって生じさせるか、またはスプライスポイントセッター（１０６）を有し、プレイアウトで廃棄されるように、前記第２のオーディオデータストリームの先導するアクセスユニットが関連付けられる更なる別のオーディオフレームの端部を示すように設定可能となり、
前記スプライスポイントセッター（１０６）は、プレイアウト中に破棄される前記更なるオーディオフレームの先端部分を示すように、前記更なるトランケーションユニットパケット（１１２）を設定するように構成され、
タイムスタンプ情報（２４）は、前記第１および第２のオーディオデータストリームに含まれ、各アクセスユニットについて、前記オーディオフレームがそれぞれのタイムスタンプを示し、前記第１および第２のオーディオデータストリームの前記それぞれのアクセスユニットが関連付けられ、プレイアウトされるべきであり、時間的に整列され、そして、スプライスポイントセッター（１０６）は、前記更なるオーディオフレームのタイムスタンプから、前記所定のアクセスユニットが関連付けられた前記オーディオフレームの時間的長さを引いた値になるように、前記更なるトランケーションユニットパケットを設定するように構成され、その上、前記先端部分の時間的長さは、前記所定のアクセスユニットが関連する前記オーディオフレームのタイムスタンプと、前記所定のアクセスユニットが関連付けられた前記オーディオフレームの時間的長さから前記後端部分の時間的長さを差し引いたものに等しい、請求項１２に記載のスプライスされたオーディオデータストリーム。
前記ペイロードパケットの各々は、前記オーディオデータストリームが分割される一連のアクセスユニット（１８）のそれぞれの１つに属し、各アクセスユニットは、オーディオフレームのそれぞれの１つに関連付けられるように、オーディオデータストリーム（１２０）の一連のペイロードパケット（１６）からオーディオ信号のオーディオフレーム（１４）の単位でオーディオ信号（１２）を再構成するように構成されたオーディオ復号化コア（１６２）、および
その端部が前記トランケーションユニットパケットによってプレイアウト中に破棄されるように指示される前記オーディオ信号をプレイアウトする際に、前記オーディオデータストリームに挿入されたトランケーションユニットパケット（４２；５８；１１４）に応答して、所定のアクセスユニットに関連付けられたオーディオフレームをトランケートするように構成されたオーディオトランケーター（１６４）を含む、オーディオデコーダ。
各ペイロードパケットは、オーディオデータストリーム（４０）が分割されたアクセスユニット（１８）のそれぞれの１つに属し、各アクセスユニットはオーディオフレームのそれぞれ１つに関連付けられるように、オーディオ信号のオーディオフレーム（１４）の単位で、前記オーディオデータストリーム（４０）のペイロードパケット（１６）にオーディオ信号（１２）を符号化するように構成されたオーディオ符号化コア（７２）、および
所定のアクセスユニットが関連付けられ、プレイアウト中に破棄されるように、前記オーディオフレームの端部を示すように設定可能なトランケーションユニットパケット（４４；５８）を前記オーディオデータストリームに挿入するトランケーションパケット挿入部（７４）を含む、オーディオエンコーダ。
オーディオデータストリームをスプライスする方法であって、前記方法は、第１のオーディオデータストリーム（４０）を含み、前記第１のオーディオデータストリーム（４０）は、一連のペイロードパケット（１６）を含み、前記一連のペイロードパケット（１６）は、前記第１のオーディオデータストリームが分割された一連のアクセスユニット（１８）のそれぞれの１つに属し、前記第１のオーディオデータストリームの各アクセスユニットは、第１のオーディオ信号のオーディオフレームの単位で前記第１のオーディオデータストリームに符号化された第１のオーディオ信号（１２）のオーディオフレーム（１４）のそれぞれの１つに関連し、そして、各々が前記第２のオーディオデータストリームが分割された一連のアクセスユニットのそれぞれの１つに属する一連のペイロードパケットを含む第２のオーディオデータストリーム（１１０）であって、前記第２のオーディオデータストリームの各アクセスユニットは、第２のオーディオ信号のオーディオフレームの単位で前記第２のオーディオデータストリームに符号化された前記第２のオーディオ信号のオーディオフレームのそれぞれの１つに関連しており、
前記第１のオーディオデータストリームは、前記第１のオーディオデータストリームに挿入され、所定のアクセスユニットを示すように設定可能なトランケーションユニットパケット（４２；５８）をさらに含み、所定のアクセスユニットが関連付けられたオーディオフレームの端部（４４；５６）がプレイアウト中に破棄されるようにし、そして、前記方法は、前記トランケーションユニットパケット（４２：５８）を設定するステップを含み、前記トランケーションユニットパケットは、前記所定のアクセスユニットが関連付けられた前記オーディオフレームの端部（４４；５６）を示し、プレイアウト中に破棄することが可能となり、あるいは、
前記方法は、前記トランケーションユニットパケット（４２；５８）を前記第１のオーディオデータストリームに挿入するステップを含み、前記トランケーションユニットパケット（４２；５８）を所定のアクセスユニットを示すように設定し、前記所定のアクセスユニットが関連付けられた前記オーディオフレームの端部（４４；５６）は、プレイアウト中に破棄され、前記トランケーションユニットパケット（４２；５８）を設定するように、トランケーションユニットパケットは、所定のアクセスユニットが関連付けられたオーディオフレームの端部（４４；５６）を示し、プレイアウト中に破棄することが可能となり、そして、
前記方法は、
前記第１のオーディオデータストリームのペイロードパケットのサブシーケンスを取得するように、前記所定のアクセスユニットにおいて、各ペイロードパケットが、前記所定のアクセスユニットを含む前記第１のオーディオデータストリームのアクセスユニットのランのそれぞれのアクセスユニットに属する前記第１のオーディオデータストリームを切断するステップ、および
前記第１のオーディオデータストリームの前記ペイロードパケットのサブシーケンスと、前記第２のオーディオデータストリームの前記一連のペイロードパケットとを、互いに前記所定のアクセスユニットにおいて、互いに直に連続して当接するように、スプライシングするステップをさらに含み、
前記所定のアクセスユニットが関連する前記オーディオフレームの前記端部は、前記第２のオーディオデータストリームの一連のペイロードパケットに先行する前記第１のオーディオデータストリームのペイロードパケットのサブシーケンスの場合には、後端部分（４４）であり、そして、前記第１のオーディオデータストリームのペイロードパケットのサブシーケンスの場合には、前記第２のオーディオデータストリームの前記一連のペイロードパケットに続く先端部分（５６）である、オーディオデータストリームをスプライスする方法。
オーディオデータストリーム（１２０）の一連のペイロードパケット（１６）から、オーディオ信号のオーディオフレーム（１４）の単位でオーディオ信号（１２）を再構成するステップを含み、
前記ペイロードパケットの各々は、前記オーディオデータストリームが分割される一連のアクセスユニット（１８）のそれぞれに属し、各アクセスユニットは、前記オーディオフレームのそれぞれの１つに関連付けられ、そして、
前記オーディオデータストリームに挿入されたトランケーションユニットパケット（４２；５８；１１４）に応答して、所定のアクセスユニットに関連するオーディオフレームをトランケーションして破棄することを含む、オーディオ復号方法。
各ペイロードパケットは、オーディオデータストリームが分割されたアクセスユニット（１８）のそれぞれの１つに属し、各アクセスユニットは、オーディオフレームのそれぞれの１つに関連付けられるように、オーディオデータストリーム（４０）のペイロードパケット（１６）に、前記オーディオ信号のオーディオフレーム（１４）の単位でオーディオ信号（１２）を符号化するステップ、および
所定のアクセスユニットが関連付けられたオーディオフレームの端部を示すように設定可能なトランケーションユニットパケット（４４；５８）を前記オーディオデータストリームに挿入してプレイアウト中に破棄するステップを含む、オーディオ符号化方法。
請求項１８〜請求項２０のいずれかに記載の方法をコンピュータ上で実行するときに、プログラムコードを有するコンピュータプログラムを格納したコンピュータ可読デジタル記憶媒体。