JP5719922B2

JP5719922B2 - サンプルごとに正確なオーディオ信号表現のための方法、エンコーダ及びデコーダ

Info

Publication number: JP5719922B2
Application number: JP2013504246A
Authority: JP
Inventors: デーラ、ステファン; スペルシュナイダー、ラルフ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2010-04-13
Filing date: 2011-04-12
Publication date: 2015-05-20
Anticipated expiration: 2031-04-12
Also published as: RU2012148132A; PL2559029T3; KR20130006691A; US20130041672A1; TR201904735T4; CA2796147C; AU2011240024B2; JP2013528825A; EP2559029B1; EP2559029A1; CA2796147A1; MX2012011802A; PT2559029T; AU2011240024A1; KR101364685B1; RU2546602C2; EP3499503A1; BR112012026326A2; WO2011128342A1; CN102971788B

Description

本発明の実施形態はオーディオ信号のソースコーディングの分野に関するものである。詳しくは、本発明の実施形態はオリジナルの有効オーディオデータに関する情報を符号化する方法と、それに対応するデコーダに関する。より詳しくは、本発明の実施形態は、オリジナルの持続期間を有するオーディオデータの再生をもたらすものである。

オーディオエンコーダは、概して、送信や保存のためにオーディオ信号を圧縮するために使用される。使用されたコーダーにより、信号は、ロスレス（完全な再生が可能となる）またはロシー（不完全ではあるが十分な再生のためのもの）として符号化され得る。対応するデコーダは符号化処理を逆転し、完全なまたは不完全なオーディオ信号を生成する。文献でアーチファクトと言った場合、それは一般的に情報損失を意味し、ロシーコーディングのことである。これらは、制限されたオーディオ帯域、エコーとリンギングのアーチファクト、及び他の情報を含み、これらは聞こえるものかもしれないし、あるいは人間の聴覚特性によりマスキングされるものであるかもしれない。

本発明が取り組む課題は別の種類のアーチファクトであり、これらは一般的にはオーディオコーディングの文献で取り扱われていない。つまり、エンコーディングの最初と最後の付加的な無音期間のことである。これらのアーチファクトの解決法は存在する。しばしばギャップレス再生法と呼ばれるものである。これらのアーチファクトの根源は、第１に、符号化オーディオデータの粒度の粗さであり、例えば符号化オーディオデータの一つのユニットは、常に１０２４個のオリジナルの符号化前のオーディオサンプルの情報を含んでいるというようなことである。第２に、デジタル信号処理は、デジタルフィルターや関連するフィルターバンクによる計算遅延なしでは行えないことがしばしばあることである。

多くのアプリケーションはもともとの有効サンプルの再生を必要とはしない。例えばラジオ放送は問題がない。符号化オーディオストリームは継続的であり、別々の符号化の連結が起こらないからである。テレビ放送もまたしばしば静的に構成され、送信の前に一つのエンコーダが使用される。しかし、事前に符号化されたいくつかのストリームが接合される（追加挿入のために使用されるように）場合や、オーディオとビデオの同期が問題となる場合には、余分な無音期間は、デコーディングにおいて、最初と最後の余分なオーディオサンプルは表示されない場合（特にオリジナルの非圧縮オーディオデータのビットごとに正確な再生が要求されるロスレスエンコーディングの場合）の圧縮データの保存と、圧縮領域での編集にとっては問題となる。

多くのユーザーが既にこれらの余分な無音期間に適応しているが、この余分な無音期間に対して不満を持っているユーザーもいる。余分な無音期間は、いくつかの符号化が継ぎ合わされた場合に特に問題であり、元は非圧縮であったギャップレスオーディオデータは、符号化され復号される際に中断される。本発明の目的は、符号化の最初と最後の望ましくない無音期間を除去することができる改良アプローチを提供することである。

異なるコーディング機構を使用した、ＩフレームとＰフレームとＢフレームを使用したビデオコーディングは、最初と最後にいかなる余分なフレームをも導入しない。対照的に、オーディオエンコーダは、概して、付加的な事前保留のサンプルを有する。それらの個数によるが、それらはオーディオとビデオの同期に関して知覚可能なロスにつながる可能性もある。これは、しばしばリップシンク課題と呼ばれており、話し手の口の動きと聞こえる音との間のずれである。多くのアプリケーションは、リップシンクの調整を行うことにより、この問題に取り組んでいるが、このリップシンクの調整は、使用されているコーデックとその設定に応じて非常に変化するので、ユーザーによって行われなければならない。本発明の別の目的は、オーディオとビデオの同期がとれた再生を可能にする改良アプローチを提供することである。

デジタル放送は、これまでに、地域差及び個別のプログラムと広告で、より異種的になってきた。従って、メインの放送ストリームは、その地域固有のまたはユーザー固有の内容に取って代わられるかまたはそれと接合される。その地域固有のまたはユーザー固有の内容は、ライブストリームであっても事前に符号化されたデータであってもかまわない。これらのストリームの接合は主に送信システムによって決まるが、オーディオは、不明な無音期間のために、望まれているような完全な接合ができないことがよくある。オーディオ信号内のこれらのギャップは知覚できるものであるが、現在の方法ではこのような無音期間を信号に残すことが多い。本発明の別の目的は、二つの圧縮オーディオストリームの接合を可能にする改良アプローチを提供することである。

編集は通常非圧縮領域で行われ、その領域での編集は公知である。しかしその原資料が既にロシーエンコーディングされたオーディオ信号である場合には、単純なカット操作さえも完全な新たなエンコーディングを必要とし、これはタンデムなコーディングアーチファクトを生み出す結果となる。従って、タンデムデコーディング及びエンコーディング処理は避けるべきである。本発明の別の目的は、圧縮オーディオデータのカット操作を可能にする改良アプローチを提供することである。

本発明の別の側面は、保護されたデータ経路を必要とするシステム内の無効なオーディオサンプルを消去することである。保護されたメディア経路は、デジタル権利の管理を強化するために、また、システムの構成要素間の暗号化通信を使用することでデータのインテグリティを確実にするために使用される。これらのシステムにおいて、オーディオデータユニットの非連続的な持続期間が可能となった場合にのみ、この条件が満たされる。保護されたメディア経路内の信頼できる要素でしか、オーディオ編集処理を行うことができないからである。これらの信頼できる要素は、概して、デコーダとレンダリング素子だけである。

本発明の実施形態は、符号化オーディオデータの有効性に関する情報を与える方法を提供する。この符号化オーディオデータは、一連の符号化オーディオデータユニットであり、符号化オーディオデータユニットのそれぞれは、有効オーディオデータに関する情報を含み得る。この方法は、
一つのオーディオデータユニットの最初のデータ量が無効であることを示す符号化オーディオデータのレベルに関する情報を提供するか、
一つのオーディオデータユニットの最後のデータ量が無効であることを示す符号化オーディオデータのレベルに関する情報を提供するか、または、
一つのオーディオデータユニットの最初と最後のデータ量のどちらも無効であることを示す符号化オーディオデータのレベルに関する情報を提供することを含む。

本発明の別の実施形態は、データの有効性に関する情報を提供するエンコーダを提供し、このエンコーダは、データの有効性に関する情報を提供する方法を適用するよう構成されている。

本発明のさらに別の実施形態は、データの有効性に関する情報を含む符号化データを受信し、復号出力データを提供する方法を提供し、この方法は、
一つのオーディオデータユニットの最初のデータ量が無効であることを示す符号化オーディオデータのレベルに関する情報か、
一つのオーディオデータユニットの最後のデータ量が無効であることを示す符号化オーディオデータのレベルに関する情報か、または、
一つのオーディオデータユニットの最初と最後のデータ量のどちらも無効であることを示す符号化オーディオデータのレベルに関する情報を有する符号化データを受信することと、
無効であるとは示されていないサンプルのみを含むか、または、
符号化オーディオデータユニットの全てのオーディオサンプルを含ませ、データのどの部分が有効であるかを示す情報をアプリケーションに与えることを含む。

本発明のさらに別の実施形態は、符号化データを受信し、復号出力データを提供するデコーダを提供し、このデコーダは、
複数の符号化オーディオサンプルを含む一連の符号化オーディオデータユニットを受信する入力部であり、いくつかのオーディオデータユニットは、データの有効性に関する情報を含む符号化オーディオデータの受信方法に示されているようなフォーマットであるデータの有効性に関する情報を含むものを受信する入力部と、
入力部と接続され、データの有効性に関する情報を適用するよう構成されているデコーディング部と、
復号オーディオサンプルを提供する出力部であり、有効オーディオサンプルのみを提供するか、または復号オーディオサンプルの有効性に関する情報も提供する出力部を含む。

本発明の実施形態は、本発明の実施形態に係る方法のうちの少なくとも一つを実行するための指示を保存しているコンピュータ読み取り可能な媒体を提供する。

本発明は、オーディオサブシステム外にある現存のアプローチや遅延値とオリジナルデータの持続期間のみを与えるアプローチとは違い、データの有効性に関する情報を与える新規なアプローチを提供する。

本発明の実施形態は、圧縮及び非圧縮データを扱うオーディオエンコーダとデコーダ内で適用可能であるので、有利である。これにより、上述のように、オーディオエンコーダとデコーダ外でのオーディオ信号処理を必要とはせずに、システムが有効データのみを圧縮及び展開することが可能になる。

本発明の実施形態は、ファイルに基づくアプリケーションだけでなく、有効オーディオデータの持続期間が符号化の最初にはわからないストリームに基づくアプリケーションやライブアプリケーションのための有効データの信号伝達を可能にする。

本発明の実施形態によると、符号化ストリームは一つのオーディオデータユニットレベルに関する有効性情報を含み、オーディオデータユニットレベルは、ＭＰＥＧ−４ＡＡＣオーディオアクセスユニットであり得る。既存のデコーダとの互換性を保つために、この情報は、任意のもので、有効性情報を裏付けしないデコーダによっては無視されてもよいアクセスユニットの一部に入れられる。このような部分とは、ＭＰＥＧ−４ＡＡＣオーディオアクセスユニット拡張ペイロードである。本発明は、ＭＰＥＧ−１レイヤー３オーディオ（ＭＰ３）を含むほとんどの既存のオーディオコーディングスキームに適用可能であり、さらに、ブロックごとに動作し、及び／またはアルゴリズム遅延のある未来オーディオコーディングスキームにも適用可能である。

本発明の実施形態は、無効データの排除のための新規なアプローチを提供する。この新規なアプローチは、エンコーダ、デコーダ及びエンコーダまたはデコーダを組み込んでいるシステム層が入手可能な既に存在する情報に基づくものである。

ＨＥＡＡＣデコーダのデュアルレートモードでの動作を示す。システム層のエンティティとオーディオデコーダとの間の情報交換を示す。第１実施形態に係る符号化オーディオデータの有効性に関する情報の提供方法の概略的なフロー図である。ここでの教示の第２実施形態に係る符号化オーディオデータの有効性に関する情報の提供方法の概略的なフロー図である。ここでの教示の第３実施形態に係る符号化オーディオデータの有効性に関する情報の提供方法の概略的なフロー図である。ここでの教示の一実施形態に係るデータの有効性に関する情報を含む符号化データの受信方法の概略的なフロー図である。ここでの教示の別の実施形態に係る符号化データの受信方法の概略的なフロー図である。ここでの教示の一実施形態に係るエンコーダの入力／出力図である。ここでの教示の別の実施形態に係るエンコーダの概略的な入力／出力図である。ここでの教示の一実施形態に係るデコーダの概略ブロック図である。ここでの教示の別の実施形態に係るデコーダの概略ブロック図である。

本発明に係る実施形態を、以下のような添付図面を参照して説明する。

図１は、アクセスユニット（ＡＵ）とそれに関連する合成ユニット（ＣＵ）に関するデコーダの動作を示す。デコーダはデコーダによって生成された出力を受信する「システムズ」と命名されたエンティティに接続されている。一例として、デコーダはＨＥ−ＡＡＣ（高性能高度オーディオコーディング）規格の下で機能すると仮定する。ＨＥ−ＡＡＣデコーダは、基本的に、その後にＳＢＲ（スペクトルバンド減少）「後処理」段階を伴うＡＡＣデコーダである。ＳＢＲツールによってもたらされる付加的な遅延は、ＳＢＲツール内のＱＭＦバンクとデータバッファによるものである。この遅延は以下の式によって導き出され得る。

これは、（入力サンプリングレートつまりＡＡＣの出力サンプリングレートでの）ＳＢＲツールによってもたらされる遅延は、Ｄｅｌａｙ_SBR-TOOL＝３２０−３２＋１＋６×３２＝４８１個のサンプルであることを意味している。
ＳＢＲツールは通常「アップサンプリング」（または「デュアルレート」）モードで動作し、この場合、ＡＡＣサンプリングレートでの４８１個のサンプル遅延はＳＢＲ出力レートにおいては９６２個のサンプル遅延となる。ＳＢＲツールはＡＡＣ出力と同じサンプリングレートでも動作可能であり（「ダウンサンプルＳＢＲモード」と称される）、この場合、付加的な遅延はＳＢＲ出力レートで４８１個のサンプルのみである。ＳＢＲツールが無視され、ＡＡＣ出力がデコーダ出力となる「下位互換性」モードがある。この場合には、付加的な遅延は全くない。

図１は、ＳＢＲツールがアップサンプリングモードで動作し、付加的な遅延が９６２個の出力サンプルである最も一般的な場合のデコーダ動作を示している。この遅延は、アップサンプリングされたＡＡＣフレーム（ＳＢＲ処理後）の長さの約４７％に相当する。Ｔ１は、９６２個のサンプル遅延後のＣＵ１に関するタイムスタンプ、つまりＨＥ−ＡＡＣ出力の最初の有効サンプルのためのタイムスタンプである。ＨＥ−ＡＡＣが「ダウンサンプルＳＢＲモード」または「シングルレート」モードで動作している場合には、遅延は４８１個のサンプル分となるが、シングルレートモードにおいては、ＣＵは半分のサンプル数であり、遅延はなおもＣＵ期間の４７％となるので、タイムスタンプは同じものとなることに留意すべきである。

可能な信号伝達メカニズム（例えば、暗黙的信号伝達、下位互換性明示的信号伝達または階層的明示的信号伝達）の全てにおいて、デコーダがＨＥ−ＡＡＣである場合には、ＳＢＲ処理によって引き起こされた何らかの付加的な遅延をどうしてもシステムにもたらしてしまうか、さもなければ、デコーダからの表示の欠如がデコーダはＡＡＣであるということを示す。従って、システムは、この付加的なＳＢＲ遅延を補うために、タイムスタンプを調整することができる。

変換に基づくオーディオコーデックのためのエンコーダ及びデコーダがどのようにＭＰＥＧシステムと関連し、「コーディングアーチファクト」、特にコーデック拡張部分に存在するコーディングアーチファクトを除いて、エンコーダとデコーダ間を往復した後の信号の識別を確実に行うための付加的なメカニズムをどのように提案するかについて、以下に説明する。以下に説明する技術を用いることにより、システムの観点からの予測的動作が可能となり、通常はエンコーダの動作を説明するのに必要な特許権のある「ギャップのない」信号伝達を追加的に行う必要性を排除することも可能となる。

この明細書において、以下の規格を参考にする。
（１）ＩＳＯ／ＩＥＣＴＲ１４４９６−２４：２００７：情報技術−オーディオ／ビジュアル・オブジェクトのコーディング−パート２４：オーディオとシステムの相互作用
（２）ＩＳＯ／ＩＥＣ１４４９６−３：２００９：情報技術−オーディオ／ビジュアル・オブジェクトのコーディング−パート３：オーディオ
（３）ＩＳＯ／ＩＥＣ１４４９６−１２：２００８：情報技術−オーディオ／ビジュアル・オブジェクトのコーディング−パート１２：ＩＳＯベースメディアファイルフォーマット

ここで、（１）を簡単に説明する。基本的に、ＡＡＣ（改良オーディオコーディング）とその後継機ＨＥ−ＡＡＣ、ＨＥ−ＡＡＣｖ２は、圧縮データと非圧縮データとの間の一対一の対応がないコーデックである。エンコーダは、非圧縮データの最初と最後にオーディオサンプルを追加し、非圧縮のオリジナルデータをカバーするアクセスユニットに加えて、これらの追加サンプルの圧縮データを有するアクセスユニットを生成する。そして、規格対応デコーダは、エンコーダによって追加された付加的なサンプルを含む非圧縮データストリームを生成することになる。

（１）は、（３）のＩＳＯベースメディアファイルフォーマットの現存のツールが、（コーデックアーチファクトに加えて）オリジナルの非圧縮ストリームの再生のために、展開データの有効範囲にマークを付けるのにどのように再使用できるかについて説明している。このマーキングは、デコーディング処理後の有効範囲を含む入力と共に編集リストを使用することによって実行できる。

この解決策は間に合わなかったので、有効期間をマーキングするための特許権のある解決策が今や広く使用されている（例を二つ挙げると、ＡｐｐｌｅｉＴｕｎｅｓとＡｈｅａｄＮｅｒｏである）。（１）で提案されている方法はあまり実用的ではなく、編集リストは元々別の（複雑であるかもしれない）目的のためのものであり、この目的のために、ほんのいくつかの実施態様が可能であるだけである。

さらに、（１）は、データのプリロールがＩＳＯＦＦ（ＩＳＯファイルフォーマット）サンプルグループ（３）を使用することでどのように取り扱われ得るかについて示している。プリロールは、どのデータが有効であるかをマークしているわけではないが、任意の時点でのデコーダ出力の前にいくつのアクセスユニット（またはＩＳＯＦＦの用語体系におけるサンプル）がデコーダされるべきであるかを示している。ＡＡＣの場合には、ＭＤＣＴ領域での重複ウィンドウにより、これは常に先立つ１個のサンプル（つまり一つのアクセスユニット）であり、プリロールの値は全てのアクセスユニットに関して−１である。

本発明の別の側面は、多くのエンコーダの付加的な予見能力に関するものである。付加的な予見能力は、例えばリアルタイム出力を生成しようとするエンコーダ内においては、その内部の信号処理によって決まる。付加的な予見能力を考慮するための一つの選択肢として、編集リストをエンコーダの予見遅延のためにも使用してもよい。

前述したように、編集リストツールの元々の目的はメディア内での元々の有効範囲をマークすることであったかどうかについては疑問である。（１）は、編集リストを使用してファイルをさらに編集することについては何も記載しておらず、従って、（１）の目的のために編集リストを使用することは幾分かの脆弱さをもたらすことになると考えられる。

ちなみに、特許権のある解決策とＭＰ３オーディオのための解決策は全て、前述したＮｅｒｏとｉＴｕｎｅｓに非常によく似た、付加的な端から端までの遅延とオリジナルの非圧縮オーディオデータの長さを規定するものであり、（１）において編集リストが何のために使用されるのかを規定するものであった。

概して、（１）はリアルタイムストリーミングアプリケーションの正しい動作については何も述べてはいない。リアルタイムストリーミングアプリケーションは、ＭＰ４ファイルフォーマットを使用しないが、オーディオとビデオを正確に同期させるためにタイムスタンプが必要であり、しばしば非常に処理能力の低いモードで動作する。そこでは、タイムスタンプが誤って設定されていることがよくあり、全てを同期状態に戻すためにデコーディング装置においてノブが必要となる。

以下、ＭＰＥＧ−４オーディオとＭＰＥＧ−４システムズとの間の相互作用をより詳細に説明する。

システムズのインターフェースからオーディオデコーダに送られた全てのアクセスユニットは、オーディオデコーダからシステムズのインターフェース、つまり合成器に送られた対応する合成ユニットという結果となるべきである。これは、スタートアップ状態とシャットダウン状態、つまりそのアクセスユニットが限りある一連のアクセスユニットのうちの最初または最後のものである場合を含むことになる。

オーディオ合成ユニットに関して、ＩＳＯ／ＩＥＣ１４４９６−１の節７．１．３．５合成タイムスタンプ（ＣＴＳ）は、合成時間は合成ユニット内のｎ番目のオーディオサンプルに当てはまることを述べている。ｎの値は、この説の残りの部分で違うように規定されていなければ、１である。

圧縮データに関して、様々な異なるデコーダ構成により復号され得るＨＥ−ＡＡＣ符号化オーディオと同様に、特別な注意が必要である。この場合、デコーディングは下位互換性のある方法（ＡＡＣのみ）でも改良された方法（ＡＡＣ＋ＳＢＲ）でも可能である。合成タイムスタンプが確実に正確に取り扱われる（オーディオと他のメディアとの同期性が保たれるように）ためには、以下のことが当てはまる。

・圧縮データが、下位互換性デコーディングと改良デコーディングの両方が可能なものであり、デコーダが下位互換性のある方法で動作している場合、デコーダは何の特別な動作もする必要がない。この場合、ｎの値は１である。

・圧縮データが、下位互換性デコーディングと改良デコーディングの両方が可能なものであり、デコーダが何らかの付加的な遅延を導入するような後処理装置（例えばＨＥ−ＡＡＣにおけるＳＢＲ後処理装置）を使用するような改良方法で動作している場合、合成ユニットを示す際に、下位互換性モードと比べて起こるｎの値に相応する付加的な時間遅延を確実に考慮しなければならない。ｎの値は以下の表に規定されている。

オーディオとシステムズとの間のインターフェースの説明は、今日のほとんどの使用例をカバーして、高い信頼性で動作していることを証明している。しかし注意深く見ると、以下の二つの点については何も述べられてはいない。

・多くのシステムにおいては、タイムスタンプの原点は０である。例えばＡＡＣは一つのアクセスユニットという生来の最小限のエンコーダ遅延を有し、タイムスタンプ０のアクセスユニットの前に一つのアクセスユニットが必要であるにもかかわらず、プリロールアクセスユニットの存在を想定していない。ＭＰ４ファイルフォーマットに関して、この問題に対する解決策が（１）で説明されている。

・フレームサイズの期間が整数でない場合がカバーされていない。ＡｕｄｉｏＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）構造は、ＡＡＣのための例えば９６０や１０２４というフィルターバンク長さを説明するわずかなフレームサイズセットの信号伝達を可能にする。しかし、実在のデータは、概して、固定のフレームサイズのグリッドに適合せず、従って、エンコーダは最後のフレームを長くしなければならない。

これら二つの置き去りにされた点は、最近、二つのＡＡＣストリームの接合またはエンコーダとデコーダ間の往復後の有効サンプル範囲の回復（特にＭＰ４ファイルフォーマットがない場合）及び（１）に説明されている方法を必要とする改良マルチメディアアプリケーションの出現とともに、問題となっている。

前述の問題点を解決するためには、プリロール、ポストロールそして他の全ての原因を的確に説明しなければならない。さらに、サンプルごとに正確なオーディオ表現を得るためには、フレームサイズの整数倍ではない倍数のためのメカニズムが必要である。

プリロールは、デコーダがデータを完全に復号するのに、最初に必要なものである。一例として、（１）に記載されているように、重複加算処理の出力サンプルが望ましいオリジナル信号を表すために、ＡＡＣは、一つのアクセスユニットのデコーディングの前に１０２４個のサンプル（１個のアクセスユニット）のプリロールを必要とする。他のオーディオコーデックにも様々なプリロール条件がある。

ポストロールはプリロールと同様のものであるが、一つのアクセスユニットのデコーディング後により多くのデータをデコーダに送らなければならないという違いがある。ポストロールの原因は、上記の表に示されているように、アルゴリズム遅延と引き換えに、コーデックの効率を上げるコーデック拡張部にある。デュアルモードでの動作が望まれることがよくあるので、拡張部のないデコーダが符号化データを十分に利用できるように、プリロールは一定に保たれる。従って、プリロールとタイムスタンプは古いデコーダの能力に関連するものである。オリジナル信号の全体的な表現を再現するためには内在する遅延ラインを洗い流さなければならないので、これらの拡張部を支持するデコーダのためにもポストロールが必要となる。残念なことに、ポストロールはデコーダに依存している。しかし、プリロールとポストロールの値がシステム層にとっても明らかであり、プリロールとポストロールのデコーダの出力をそこで排除できるならば、プリロールとポストロールをデコーダとは関係なく取り扱うことができる。

様々なオーディオフレームサイズに関して、オーディオコーデックは常に一定の個数のサンプルを有するデータブロックを符号化するので、サンプルごとに正確な表現は、システムズのレベルでさらに信号伝達することによってのみ可能となる。サンプルごとに正確なトリミングを扱うことはデコーダにとっては最も簡単であるので、デコーダに信号をカットさせることが望ましいように思える。従って、デコーダによる出力サンプルのトリミングを可能とする任意の拡張メカニズムを提案する。

ベンダー独自のエンコーダ遅延に関して、ＭＰＥＧはデコーダの動作を特定するだけであり、エンコーダには非公式に与えられるだけである。これはＭＰＥＧ技術の利点のうちの一つであり、これにより、エンコーダはそのうちコーデックの能力を十分に利用できるようになる。しかし、エンコーダの設計自由度は遅延相互運用性問題を引き起こした。エンコーダは、一般的に、より高性能なコーディング決定を行うためにはオーディオ信号のプレビューを必要とするので、これは非常にベンダー独自のものである。このエンコーダ遅延の理由は例えばブロック切り換え決定であり、これは、大抵はリアルタイムエンコーダに関連しているウィンドウ重複処理や他の最適化処理を遅延させることが必要となる。

オフラインで入手可能な内容のファイルに基づくエンコーディングでは、リアルタイムデータが符号化される場合にのみ関係するこの遅延を必要とはしないが、それにもかかわらず、ほとんどのエンコーダはオフラインエンコーディングの最初にも無音期間を付け加える。

この問題に対する解決策の一部は、これらの遅延が無関係であり例えば負のタイムスタンプ値を有するように、システムズの層でタイムスタンプを正確に設定することである。これも、（１）で提案されているように、編集リストで達成できる。

この解決策の他の一部は、エンコーダ遅延をフレームの境界部分にそろえることであり、これにより、例えば負のタイムスタンプを有する整数個のアクセスユニットが最初に（プリロールアクセスユニットに加えて）飛ばされる。

ここでの教示は工業基準ＩＳＯ／ＩＥＣ１４４９６−３：２００９第４部、段落４．１．１．２にも関連している。ここでの教示は以下のことを提案している。ポストデコーダトリミングツールが存在している場合には、そのツールが再生されたオーディオ信号の一部を選択し、その結果、二つのストリームが符号化領域で接合され、サンプルごとに正確な再生がオーディオ層内で可能となる。

ポストデコーダトリミングツールへの入力は以下のものである。
・時間領域再生オーディオ信号
・ポストトリミング制御情報
ポストデコーダトリミングツールからの出力は以下のものである。
・時間領域再生オーディオ信号

ポストデコーダトリミングツールが動作していない場合には、時間領域再生オーディオ信号はデコーダの出力側に直接送られる。このツールは、いかなるオーディオコーディングツールの後にでも適用できる。

下記の表に、ここでの教示を実施するために使用できるデータ構造ｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）のシンタックス案を示す。

下記の表に、ここでの教示を実施するために使用できるデータ構造ｔｒｉｍ＿ｉｎｆｏ（）のシンタックス案を示す。

ポストデコーダトリミングに関して以下のように定義する。

ｃｕｓｔｏｍ＿ｒｅｓｏｌｕｔｉｏｎ＿ｐｒｅｓｅｎｔ
ｃｕｓｔｏｍ＿ｒｅｓｏｌｕｔｉｏｎが存在するかどうかについて示すフラグ

ｃｕｓｔｏｍ＿ｒｅｓｏｌｕｔｉｏｎ
トリミング処理に使用されるＨｚに関するカスタム分解能。オーディオ信号のマルチレート処理が可能であり、トリミング処理が最高で適切な分解能で行われる必要がある場合、カスタム分解能に設定することが好ましい。

ｔｒｉｍ＿ｒｅｓｏｌｕｔｉｏｎ
デファルト値は、ＩＳＯ／ＩＥＣ１４４９６−３：２００９の表１でｓｍａｐｌｉｎｇＦｒｅｑｕｅｎｃｙまたはｓｍａｐｌｉｎｇＦｒｅｑｕｅｎｃｙＩｄｘによって示されているような公称サンプリング周波数である。ｃｕｓｔｏｍ＿ｒｅｓｏｌｕｔｉｏｎ＿ｐｒｅｓｅｎｔフラグがセットされている場合は、ポストデコーダトリミングツールの分解能はｃｕｓｔｏｍ＿ｒｅｓｏｌｕｔｉｏｎの値である。

ｔｒｉｍ＿ｆｒｏｍ＿ｂｅｇｉｎｎｉｎｇ（Ｎ_B）
合成ユニットの最初の部分から除去されるべきＰＣＭサンプルの個数。この値は、ｔｒｉｍ＿ｒｅｓｏｌｕｔｉｏｎレートでのオーディオ信号に関してのみ有効である。ｔｒｉｍ＿ｒｅｓｏｌｕｔｉｏｎが時間領域入力サンプルのサンプリング周波数と同じでない場合には、この値は以下の式に基づき適切に増減する必要がある。

Ｎ_B＝下限（Ｎ_B：ｓａｍｐｌｉｎｇ＿ｆｒｅｑｕｅｎｃｙ／ｔｒｉｍ＿ｒｅｓｏｌｕｔｉｏｎ）

ｔｒｉｍ＿ｆｒｏｍ＿ｅｎｄ（Ｎ_E）
合成ユニットの最後の部分から除去されるべきＰＣＭサンプルの個数。ｔｒｉｍ＿ｒｅｓｏｌｕｔｉｏｎが時間領域入力サンプルのサンプリング周波数と同じでない場合には、この値は以下の式に基づき適切に増減する必要がある。

Ｎ_E＝下限（Ｎ_E：ｓａｍｐｌｉｎｇ＿ｆｒｅｑｕｅｎｃｙ／ｔｒｉｍ＿ｒｅｓｏｌｕｔｉｏｎ）

別の可能なストリームミキシングアルゴリズムにおいては、シームレスな（信号断絶の恐れがない）接合を考慮してもよい。この問題は非圧縮ＰＣＭデータにも当てはまり、ここでの教示には関係しない。

カスタム分解能の代わりに、パーセンテージもまた適切であってもよい。あるいは、最も高いサンプリングレートを使用してもよいが、これはデュアルレート処理やトリミングを支持するがデュアルレート処理を支持しないデコーダと矛盾するかもしれない。従ってデコーダの実施態様に依存する解決策が好ましく、カスタムトリミング分解能はふさわしいものであったと思われる。

デコーディング処理に関して、一つのアクセスユニットの全てのデータが処理された後に（例えばＤＲＣ、ＳＢＲ、ＰＳなどの拡張が行われた後に）、ポストデコーダトリミングが行われる。このトリミングはＭＥＰＧ−４システムズの層では行われない。しかし、アクセスユニットのタイムスタンプと期間の値は、トリミングが行われるという仮定に合致したものであるべきである。

処理拡張による追加遅延が全く起こらなかった場合には、トリミングは情報のみを伝えるアクセスユニットに対して行われる。これらの拡張が所定の位置にあり、デコーダ内で使用される場合、トリミング処理の適用は任意の拡張の遅延分だけ遅れる。従って、トリミング情報はデコーダ内に記憶されていなければならず、他のアクセスユニットはシステムズの層によって与えられなければならない。

デコーダが二つ以上のレートで動作可能である場合、最も高いレートでのトリミング処理のためのカスタム分解能を使用することが好ましい。

トリミングにより信号断絶が起こるかもしれず、これは信号歪曲を引き起こす可能性がある。従って、エンコーディング全体の最初または最後に、トリミング情報をビットストリームに入れることだけが必要である。二つのストリームが接合される場合、二つの出力時間領域信号が断絶することなく組み合わされるように、ｔｒｉｍ＿ｆｒｏｍ＿ｅｎｄとｔｒｉｍ＿ｆｒｏｍ＿ｂｉｇｉｎｎｉｎｇの値を注意深く設定するエンコーダを除いては、これらの断絶を避けることはできない。トリミングされたアクセスユニットにより、思いがけない計算要件が必要となるかもしれない。多くの実施態様において、一定の持続期間を有するアクセスユニットに対して一定の処理時間が前提であるが、これは、トリミングにより持続期間が変化するが、アクセスユニットのための計算要件がそのままである場合には、もはや有効ではない。従って、計算資源が制約されているデコーダを前提とすべきであり、従って、トリミングはめったに行われるべきではない。好ましくは、［ＩＳＯ／ＩＥＣ１４４９６−２４：２００７添付書類Ｂ．２．］に説明されているように、トリミングがアクセスユニットの境界部分に位置合わせされるように、そして、エンコーディングの最後の部分のトリミングだけが行われるように、データを符号化すべきである。

ここでの教示はまた工業基準ＩＳＯ／ＩＥＣ１４４９６−２４：２００７に関連する。ここでの教示によると、サンプルごとに正確なアクセスのためのオーディオデコーダインターフェースに関連して、以下のことが提案されている。オーディオデコーダは常に一つのアクセスユニットから一つの合成ユニットを生成する。一つのエンコーダによる一組のアクセスユニットに対するプリロールとポストロールのアクセスユニットの必要数量は一定である。

デコーディング処理が開始されると、デコーダはＡｕｄｕｉｏＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（ＡＳＣ）で初期化される。デコーダがこの構造を処理した後、デコーダから最も関連性のあるパラメータを要求することができる。さらに、システムズの層は、オーディオであろうとビデオであろうとあるいは他のデータであろうと、一般的にストリームの種類とは無関係なパラメータを送信する。これはタイミング情報、プリロール及びポストロールデータを含む。一般的に、デコーダは、要求されたサンプルを含むアクセスユニットの前にｒ_pre（プリロール）アクセスユニットを必要とする。さらに、ｒ_post（ポストロール）アクセスユニットも必要であるが、これはデコーディングモードによって決まる（拡張部をデコーディングするにはポストロールアクセスユニットが必要であるが、基本的なデコーディング処理は、ポストロールアクセスユニットを必要としないと規定されている）。

デコーダのために、各アクセスユニットには、それがプリロールアクセスユニットであるかポストロールアクセスユニットであるかに関するマーキングを施されるべきであり、それぞれのマーキングにより、デコーダは、次のデコーディングのために、内部状況情報を生成するかデコーダ内に残っているデータをきれいにすることができる。

システムズの層とオーディオデコーダとの間の通信を図２に示す。

オーディオデコーダは、ＡｕｄｉｏＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）構造を有するシステムズの層によって初期化され、ＡｕｄｉｏＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）構造は、デコーダのシステムズの層への出力構成となり、サンプル周波数、チャンネル構成（例えばステレオのための２）、フレームサイズｎ（例えばＡＡＣ−ＬＣの場合には１０２４）及びＳＢＲのような明示的に信号伝達されたコーデック拡張部による追加遅延ｄに関する情報を含む。特に、図２は以下のような動作を示している。

１．最初のｒ_pre（プリロール）アクセスユニットがデコーダに与えられ、これはシステムズの層によるデコーディングの後に暗黙のうちに廃棄される。

２．最初のプリロールではないアクセスユニットは、デコーダがａ個のＰＣＭサンプルのみを出力するように、ＥＸＴ＿ＴＲＩＭタイプの拡張ペイロード内にｔｒｉｍ＿ｆｒｏｍ＿ｂｉｇｉｎｎｉｎｇ情報を含んでいてもよい。また、任意のコーデック拡張によって生成された余分なｄ個のＰＣＭサンプルは消去されなければならない。

実施態様に応じて、他の全ての並列的なストリームをｄだけ遅延させるか、あるいは、最初のｄ個のサンプルを無効なものとしてマーキングし、レンダリングの際にまたは好ましくはデコーダ内でそれらの無効サンプルを消去するというような適切な処理を行うことにより、これを実行してもよい。

推奨通り、ｄ個のサンプルの消去がデコーダ内で行われる場合には、システムズの層は、６番目のステップで述べられているように、ｒ_postアクセスユニットの消費後に、ａ個のサンプルを含む最初の合成ユニットのみがデコーダによって与えられ得ることを承知している必要がある。

３．そして一定の持続期間ｎを有する全てのアクセスユニットが復号され、合成ユニットがシステムズの層に与えられる。

４．デコーダがｂ個のＰＣＭサンプルのみを生成するように、ポストロールアクセスユニットの前のアクセスユニットは任意にｔｒｉｍ＿ｆｒｏｍ＿ｅｎｄ情報を含んでいてもよい。

５．足りないｄ個のＰＣＭサンプルを生成できるように、最後のｒ_post（ポストロール）アクセスユニットがオーディオデコーダに与えられる。ｄの値（０であってもよい）により、これは全くサンプルを含まない合成ユニットとなる場合もある。追加遅延ｄの値に関係なく、デコーダが全く初期化しないように、全てのポストロールアクセスユニットをデコーダに与えることが好ましい。

エンコーダは、一貫性のあるタイミング動作をすべきである。ｒ_pre（プリロール）アクセスユニットのデコーディング後に、オリジナルの入力信号が冒頭部分の欠損がなく、先頭部分のサンプルのないものとなるように、エンコーダは入力信号を整列させるべきである。特にファイルに基づくエンコーダ処理の場合には、エンコーダが付加的に先読みしたサンプルと追加挿入された無音サンプルがオーディオフレームサイズの整数倍であり、エンコーダの出力側で廃棄され得ることが必要となる。

このような配列が不可能である場合、例えばリアルタイムのオーディオエンコーディングの場合には、偶然に挿入された先読みサンプルをデコーダがポストデコーダトリミングツールを使用して消去できるように、エンコーダはトリミング情報を挿入すべきである。同様に、エンコーダは最後のサンプルに関してポストデコーダトリミング情報を挿入すべきである。これらは、最後のｒ_post（ポストロール）アクセスユニットの前のアクセスユニット内で信号伝達されるべきである。

エンコーダにセットされるタイミング情報は、ポストデコーダタイミングツールが使用可能であるという仮定で設定されるべきである。

図３は、第１実施形態に係る、符号化オーディオデータの有効性に関する情報を提供する方法の概略的なフロー図である。この方法は３０２での動作を含み、それによると、オーディオデータユニットの最初のデータ量は無効であることを示す情報が提供される。この提供された情報は、懸案の符号化オーディオデータ内に挿入されてもよいしまたはそれと結合されてもよい。そのデータ量は、サンプル数（例えばＰＣＭサンプル数）、マイクロ秒、ミリ秒、またはその符号化オーディオデータユニットによって与えられるオーディオ信号部分の長さに対するパーセンテージとして示されてもよい。

図４は、ここでの教示の第２実施形態に係る、符号化オーディオデータの有効性に関する情報を提供する方法の概略的なフロー図である。この方法は４０２での動作を含み、それによると、オーディオデータユニットの最後のデータ量は無効であることを示す情報が提供される。

図５は、ここでの教示の第３実施形態に係る、符号化オーディオデータの有効性に関する情報を提供する方法の概略的なフロー図である。この方法は５０２での動作を含み、それによると、オーディオデータユニットの最初と最後のどちらのデータ量も無効であることを示す情報が提供される。

図３〜５に示された実施形態において、オーディオデータユニット内のデータ量が無効であることを示す情報は、符号化オーディオデータを生成するエンコーディング処理部から取得してもよい。オーディオデータの符号化の間に、エンコーディングアルゴリズムは、符号化されるべきオーディオ信号の境界部（最初または最後）を越えて拡張したオーディオサンプルの入力範囲を考慮してもよい。一般的なエンコーディング処理において、複数のオーディオサンプルが「ブロック」または「フレーム」にまとめられ、実際のオーディオサンプルで完全に埋められてはいないブロックまたはフレームは、典型的には０の大きさを有する「ダミー」のオーディオサンプルで満たされてもよい。このエンコーディングアルゴリズムに関して、このことは、入力データは常に同じように整理され、そのアルゴリズム内でのデータ処理は、境界部分（最初または最後）を含む処理後のオーディオデータに依存して修正される必要がないという利点をもたらす。換言すれば、入力データは、データの構成と大きさに関して、エンコーディングアルゴリズムの必要条件に合っている。典型的には、入力データの状態を調整すると、本質的に、出力データの構造がそれに対応するものとなる。つまり、出力データは入力データの調整を反映する。従って、出力されたデータはオリジナルの入力データ（調整前の）とは異なってしまう。０の大きさのサンプルがオリジナルの入力データに追加されただけであるので、この違いは一般的には聞こえない。しかし、この状態調整はオリジナルなオーディオデータの持続期間を修正するものであり、典型的には、オリジナルのオーディオデータを無音部分の長さだけ伸長させるものである。

図６は、ここでの教示の一実施形態に係る、データの有効性に関する情報を含む符号化データを受信する方法の概略的なフロー図である。この方法は、符号化データを受信する動作６０２を含む。この符号化データは無効データ量を示す情報を含む。少なくとも三つの場合を区別することができる。つまり、この情報は、オーディオデータユニットの最初のデータ量が無効であること、オーディオデータユニットの最後のデータ量が無効であること、また、オーディオデータユニットの最初と最後のデータ量が無効であることを示し得る。

符号化データの受信方法の６０４の動作で、無効であるとマークされていないサンプルのみを含む復号出力データが与えられる。この符号化データの受信方法を実行する装置の下流での復号出力データの使用者は、シングルサンプルのような出力データの部分ごとの有効性という問題に対応する必要なく、与えられた復号出力データを使用できる。

図７は、ここでの教示の別の一実施形態に係る、データの有効性に関する情報を含む符号化データを受信する方法の概略的なフロー図である。符号化データは７０２の動作で受信される。７０４の動作で、符号化オーディオデータユニットの全てのオーディオサンプルを含む復号出力データが、例えばこの復号出力データを使用する下流のアプリケーションに与えられる。さらに、７０６の動作で、復号出力データのどの部分が有効であるかに関する情報が与えられる。そして、復号出力データを使用するアプリケーションは、例えば、無効データを取り払い、有効データの連続する部分同士を連結させてもよい。このようにして、復号出力データはこのアプリケーションによって人工的な無音部分を含まないように処理され得る。

図８は、ここでの教示の一実施形態に係るエンコーダ８００の入力／出力図である。エンコーダ８００はオーディオデータ、例えばＰＣＭサンプルのストリームを受信する。そしてオーディオデータは、ロスレスエンコーディングアルゴリズムまたはロシーエンコーディングアルゴリズムを使用して符号化される。この実施の間、そのエンコーディングアルゴリズムは、エンコーダ８００の入力部で与えられたオーディオデータを変更しなければならない場合もある。オリジナルのオーディオデータをエンコーディングアルゴリズムの条件に合わせるために、このような変更を行う場合もある。前述したように、オリジナルのオーディオデータの典型的な変更は、オリジナルオーディオデータが整数個のフレームまたはブロック内に収まるように、及び／または最初の本当のオーディオサンプルが処理される前にエンコーディングアルゴリズムが適切に初期化されるように、オーディオサンプルを追加挿入することである。実行された変更に関する情報は、エンコーディングアルゴリズムからまたは入力オーディオデータの状態調整を行うエンコーダ８００の構成要素から得られてもよい。この変更情報から、一つのオーディオデータユニットの最初及び／または最後の情報量が無効であることを示す情報が導き出され得る。エンコーダ８００は、例えば、エンコーディングアルゴリズムまたは入力オーディオデータ状態調整部によって無効であるとマーキングされたサンプルの個数を数えるカウンターを含んでいてもよい。オーディオデータユニットの最初及び／または最後の情報量が無効であることを示す情報は、符号化データと共に、エンコーダ８００の出力側で出力される。

図９は、ここでの教示の別の実施形態に係るエンコーダ９００の概略的な入力／出力図である。図８に示されているエンコーダ８００と比較して、図９のエンコーダ９００の出力は異なるフォーマットのものである。エンコーダ９００によって出力される符号化オーディオデータは、符号化オーディオデータユニット９２２のストリームまたは一連のものとしてフォーマットされる。それぞれの符号化オーディオデータユニット９２２と共に、有効性情報９２４がそのストリームに含まれる。一つの符号化オーディオデータユニット９２２とそれに対応する有効性情報９２４が、改良符号化オーディオデータユニット９２０と見なされ得る。有効性情報９２４を使用して、改良符号化オーディオデータユニット９２０のストリームの受信機はこの符号化オーディオデータユニット９２２を復号してもよく、有効データであるとマークされた部分だけを使用してもよい。「改良符号化オーディオデータユニット」という言葉は、そのフォーマットが非改良符号化オーディオデータユニットとは違っているということを必ずしも示唆しているわけではないことに留意すべきである。例えば、有効性情報は、符号化オーディオデータユニットの現在使用されていないデータ域に記憶されてもよい。

図１０は、ここでの教示の一実施形態に係るデコーダ１０００の概略的なブロック図である。デコーダ１０００は、符号化オーディオデータユニットをデコーディング部１００４に送る入力部１００２で、符号化データを受信する。符号化オーディオデータの有効性に関する情報の提供方法またはそれに相当するエンコーダに関して前に説明したように、符号化データはデータの有効性に関する情報を含む。デコーダ１０００の入力部１００２は、データの有効性に関する情報を受信するよう構成されていてもよい。この特徴は、入力部１００２に向かう点線の矢印で示しているように、任意である。さらに、入力部１００２は、データの有効性に関する情報をデコーディング部１００４に与えるように構成されていてもよい。この特徴もまた任意である。入力部１００２は、単にデータの有効性に関する情報をデコーディング部１００４に送るだけのものであってよいし、あるいは、データの有効性に関する情報を含む符号化データからデータの有効性に関する情報を抽出するものであってよい。データの有効性に関する情報を扱う入力部１００２に代わるものとして、デコーディング部１００４がこの情報を抽出し、無効データをフィルタリングするためにそれを使用してもよい。デコーディング部１００４はデコーダ１０００の出力側１００６に接続されている。有効な復号オーディオサンプルはデコーディング部１００４によって出力部１００６に転送または送信され、出力部１００６は、有効オーディオサンプルを、オーディオレンダラーのような下流にあるその有効オーディオサンプルの使用者のエンティティに与える。下流の使用者のエンティティは、データの有効性に関する情報の処理に関してわかっている。デコーディング部１００４と出力部１００６のうちの少なくとも一つは、無効オーディオサンプルが下流の使用者のエンティティに提供されるべきオーディオサンプルストリームから除去された場合でも、いかなるギャップも起こらないように、有効オーディオサンプルを配列するよう構成されていてもよい。

図１１は、ここでの教示の別の実施形態に係るデコーダ１１００の概略的なブロック図である。デコーダ１１００は入力部１１０２とデコーディング部１１０４と出力部１１０６を含む。入力部１１０２は符号化データを受信し、符号化データユニットをデコーディング部１１０４に送る。図１０に示したデコーダ１０００に関して述べたように、入力部１１０２は任意に有効性情報を別に受信してもよく、この有効性情報はその後デコーディング部１１０４に送られてもよい。デコーディング部１１０４は符号化オーディオデータユニットを復号オ−ディオサンプルに変換し、これらを出力部１１０６へ送る。また、デコーディング部はデータの有効性に関する情報も出力部１１０６へ送る。データの有効性に関する情報が入力部１１０２によってデコーディング部１１０４に与えられなかった場合には、デコーディング部１１０４は自身でデータの有効性に関する情報を決定してもよい。出力部１１０６は復号オーディオサンプルとデータの有効性に関する情報を下流の使用者のエンティティに送る。

下流の使用者のエンティティはその後データの有効性に関する情報そのものを使用してもよい。デコーディング部１１０４によって生成され出力部１１０６によって与えられた復号オーディオサンプルは、概して、全ての復号オーディオサンプル、つまり、有効オーディオサンプルと無効オーディオサンプルを含む。

符号化オーディオデータの有効性に関する情報の提供方法は、無効オーディオデータのデータ量を決定するために、様々な情報を使用してもよい。また、エンコーダもこれらの情報を使用してもよい。以下に、この目的のために使用できるいくつかの種類の情報（プリロールデータ量、エンコーダによって追加された追加人工データ量、オリジナルの非圧縮入力データの長さ及びポストロール量）について説明する。

重要な情報のうちの一つはプリロールデータ量であり、これはオリジナルの非圧縮データの最初に相当する圧縮データユニットの前に復号されなければならない圧縮データの量である。例として、一組の非圧縮データユニットのエンコーディングとデコーディングを説明する。フレームサイズが１０２４個のサンプルであり、プリロール量も１０２４個のサンプルであるとすると、２０００個のサンプルから成る一組のオリジナル非圧縮ＰＣＭオーディオデータは３つの符号化データユニットとして符号化される。最初の符号化データユニットは、１０２４個のサンプル分の持続期間を有するプリロールデータとなる。２番目の符号化データユニットは、（他のいかなるエンコーディングアーチファクトもないと仮定して）ソース信号のオリジナルの１０２４個のサンプルとなる。３番目の符号化データユニットは１０２４個のサンプルであり、これらは、ソース信号の残りの９７６個のサンプルとフレーム粒度によってもたらされる４８個の最後に付随するサンプルから成る。ＭＤＣＴ（修正離散余弦変換）またはＱＭＦ（直交ミラーフィルター）を使用するようなコーディング方法の特性のために、プリロールを回避することはできず、デコーダがオリジナル信号全体を再生するためには不可欠である。従って、このような場合には、一般人が考えるよりも常に一つ多い圧縮データユニットが必要である。プリロールデータ量はコーディングにより異なり、一つのコーディングモードのためには固定であり、経時的に一定である。従って、これは、ランダムにアクセスする圧縮データユニットのためにも必要である。プリロールはまた、非圧縮入力データに相当する復号非圧縮出力データを得るためにも必要である。

別の重要な情報は、エンコーダによって追加された追加人工データ量である。この追加データは、典型的には、ショートフィルターバンクからロングフィルターバンクへの切り換えというような、エンコーディングに関するより良い決定のために、エンコーダ内で未来のサンプルを予見することから生じる。エンコーダだけがこの先読み値をわかっており、この値は、経時的には一定であるが、同じコーディングモードに関してある特定のベンダーのエンコーダ実施態様間で違いがある。デコーダがこの追加データの長さを検知することは難しく、しばしば発見的解決法が使用される。例えば、あるエンコーダが他のいくつかの発見的解決法によって検知される場合には、最初の無音の量が追加エンコーダ遅延またはマジック値であると見なされる。

エンコーダだけが取得可能な次の情報は、オリジナルの非圧縮入力データの長さである。上記の例では、４８個の最後の付随サンプルはオリジナルの入力非圧縮データには存在しなかったが、デコーダによって生成されるものである。その理由はフレーム粒度にあり、これはコーデックによって決まる値である。ＭＰＥＧ−４ＡＡＣの場合の典型的な値は１０２４または９６０であり、従って、エンコーダは、フレームサイズのグリッドに適合させるために常にオリジナルデータを長くする。現存する解決策においては、概して、プリロールと追加人工的データから生じる冒頭の追加サンプルの合計とソースオーディオデータの長さを含むシステムレベルに関するメタデータを追加する。しかし、この方法は、エンコーディングの前に持続期間がわかっているファイルに基づく処理のみで有効である。また、ファイルに対する編集が行われた場合にはメタデータを更新しなければならないという不利な点がある。別のアプローチは、システムレベルでタイムスタンプまたは持続期間を使用することである。しかし悪いことに、これらを使用しても、データのどちらの半分が有効であるのかを明確に規定することができない。さらに、一般的に、トリミングはシステムレベルでは実行できない。

最後に、もう一つ別の情報は次第に重要になってきたものであるが、ポストロール情報量である。ポストロールは、符号化データユニットの後にどれくらいの量のデータがデコーダに与えられるべきかを規定し、デコーダが非圧縮オリジナルデータに相当する非圧縮データを出力できるようにするためのものである。一般的に、ポストロールとプリロールは互いに交換可能である。しかし、ポストロールとプリロールの合計は、全てのデコーダモードで一定であるわけではない。［ＩＳＯ／ＩＥＣ１４４９６−２４：２００７］のような現在の規格では、全てのデコーダモードに対して固定のプリロールを想定しており、ポストロールに関しては何も述べずに、ポストロールと同じ値を有する追加遅延を規定する方を取っている。［ＩＳＯ／ＩＥＣ１４４９６−２４：２００７］の図４に示されてはいるが、最後の符号化データユニット（ＭＰＥＧ用語ではアクセスユニット（ＡＵ））は任意であり、実際、低レートのデコーダのデュアルレート処理と二倍のレートの拡張部のためだけに必要なポストロールアクセスユニットであるということを述べていはいない。ポストロールの存在下で無効データを除去する方法を定義することもまた、本発明の一実施形態である。

上記の情報は、例えばＭＰ４ファイルフォーマット［ＩＳＯ／ＩＥＣ１４４９６−１４］で、ＭＰＥＧ−４ＡＡＣのための［ＩＳＯ／ＩＥＣ１４４９６−２４：２００７］で部分的に使用される。そこでは、いわゆる編集において符号化データに関するオフセットと有効期間を規定することにより、符号化データの有効部分をマークするために、いわゆる編集リストが使用される。また、プリロール量はフレーム粒度に関して規定できる。この解決策の欠点は、オーディオコーディングに特有の問題を解決するために編集リストを使用することである。これは、これまでの、データ変更をしない一般的な非直線的編集を規定するために編集リストを使用することとは矛盾している。従って、オーディオ特有の編集と一般的な編集との区別が難しくあるいは不可能にさえもなる。
適用可能な別の解決策は、ｍｐ３またはｍｐ３Ｐｒｏでオリジナルのファイル長さを回復する方法である。そこでは、コーデック遅延とファイルの全体の期間が最初の符号化オーディオデータユニットに与えられている。これは悪いことに、ファイルに基づく処理、または、ストリームの全体の長さが、エンコーダが最初の符号化オーディオデータユニットを生成する際にすでに分かっている（この情報はそこに含まれるので）場合にのみ、有効であるという問題がある。

これらの現存の解決策の問題点を解決するために、本発明の実施形態においては、符号化オーディオデータ内に、エンコーダから出力されたデータの有効性に関する情報を入れる。この情報は、関連する符号化オーディオデータユニットに添付される。従って、最初の人工的な追加データは無効データとしてマークされ、フレームを埋めるために使用された最後のデータもまた削除されるべき無効データとしてマークされる。本発明の実施形態によると、このマーキングにより、一つの符号化データユニット内の有効データと無効データとの区別が可能になる。これにより、デコーダが無効データを出力する前にその無効データを消去できるようになる。あるいは、他の処理装置で適切な処置が行えるように、デコーダは例えばその符号化データユニット内の表現と同様の方法で、そのデータにマーキングができる。他の関連データ（プリロール及びポストロール）はシステム内で規定され、エンコーダとデコーダの両方が理解しているものであるので、所定のデコーダモードに対するこれらの値は明らかである。

従って、ここでの開示の一側面によると、時間可変データと時間不変データとの区別が可能になる。時間可変データは、最初の部分にのみ存在する人工的な追加データと、フレームを埋めるために使用された最後のデータに関する情報から成る。時間不変データは、プリロールデータとポストロールデータから成り、従って、符号化オーディオデータユニットで送信される必要はないが、帯域外で送信されるべきものである。あるいは、これらのデータは、所定のオーディオコーディングスキームに関するデコーダ構成記録から導き出され得るデコーディングモードで前もってわかるものである。

さらに、符号化オーディオデータユニットが表している情報に基づき、符号化オーディオデータのタイムスタンプを設定することが好ましい。従って、タイムスタンプｔを有するオリジナルの非圧縮オーディオサンプルは、タイムスタンプｔを有する符号化オーディオデータユニットのデコーディング処理によって再生されると推定される。これには、さらに必要とされるプリロールデータユニットとポストロールデータユニットが含まれてはいない。例えば、１５００個のサンプルと値１の初期タイムスタンプを有するオリジナルオーディオ信号は、フレームサイズが１０２４の３個の符号化オーディオデータユニットと、フレームサイズ１０２４のプリロールと、２００個のサンプル分の人工的な追加遅延として符号化される。最初の符号化オーディオデータユニットは、１−１０２４＝−１０２３のタイムスタンプを有し、その全部がプリロールのために使用される。２番目の符号化オーディオデータユニットは１のタイムスタンプを有し、その符号化オーディオデータユニット内に、最初の２００個のサンプルを除去するための情報を含む。そのデコーディング結果は通常１０２４個のサンプルから成るが、最初の２００個のサンプルは出力から除外され、８２４個のサンプルだけが残される。３番目の符号化オーディオデータユニットは８２５のタイムスタンプを有し、その符号化オーディオデータユニット内に、生成されるオーディオ出力サンプルの長さを１０２４から６７６個のサンプル長さにトリミングするための情報を含む。従って、最後の１０２４−６７６＝３４８個のサンプルは無効であるという情報が符号化オーディオデータユニット内に保存される。

例えば１０００個のサンプル分のポストロールがある場合、別の異なるデコーダモードにより、エンコーダの出力は４個の符号化オーディオデータユニットに変更される。最初の３個の符号化オーディオデータユニットに変わりはないが、もう一つの符号化オーディオデータユニットが加えられる。デコーディングの際には、最初のプリロールアクセスユニットに関する処理は上記の例のままである。しかし、２番目のアクセスユニットのデコーディングに関しては、この別のデコーダモードに関する追加遅延を考慮しなければならない。この書類では、追加的なデコーダ遅延を正確に取り扱うための以下の三つの基本的な解決策が提示されている。

１．デコーダ遅延はデコーダからシステムへ伝えられ、システムは、オーディオとビデオの同期性を保つために他の全ての並列的なストリームを遅延させる。

２．デコーダ遅延はデコーダからシステムへ伝えられ、システムは、例えばレンダリング装置などのオーディオ処理装置で無効サンプルを除去することができる。

３．デコーダ遅延はデコーダ内で除去される。これにより、この追加遅延の除去のために最初から小さいサイズの展開データとなるか、または、信号伝達された個数のポストロール符号化データユニットがデコーダに送られるまでデータ出力を遅延させた展開データとなる。後者の方法が好ましく、この書類の以下の部分ではこれを前提にする。

デコーダまたは埋め込みシステム層のどちらかが、プリロール及び／またはポストロール符号化データユニットのためにデコーダによって与えられた出力全体を切り捨てる。トリミング情報を余分に有する符号化オーディオデータユニットに関して、デコーダまたは埋め込み層のどちらかが、追加情報を有するオーディオデコーダの指示のもとにサンプルを除去することができる。このトリミングを正確に行うために、以下の三つの基本的な解決策がある。

１．トリミング情報がデコーダからシステムに送信され、システムは、最初のトリミングのために、オーディオとビデオの同期性を保つために他の全ての並列的なストリーム遅延させる。最後のトリミングはこれには当てはまらない。

２．展開データユニットと共に、トリミング情報がデコーダからシステムに送信され、このトリミング情報は、例えばレンダリング装置などのオーディオ処理装置で、無効サンプルを除去するのに適用される。

３．トリミング情報はデコーダ内で使用され、展開データユニットがシステムに送られる前に、展開データユニットの最初と最後の部分から無効サンプルが除去される。これにより、展開データユニットは、一般的なフレーム持続期間よりも短い期間を有することになる。トリミングとタイムスタンプと持続期間とをシステム内で適用するデコーダは、適用されるべきトリミングを反映すべきであることを前提とすることは、システムにとって好ましいことである。

マルチレートデコーダ処理に関して、トリミング処理の分解能はオリジナルのサンプリング周波数に関連付けられるべきである。オリジナルのサンプリング周波数は、典型的にはより高いレート成分として符号化されている。トリミング処理のためにいくつかの分解能が可能であり、例えば、マイクロ秒での固定の分解能、最も低いサンプリング周波数、または最も高いサンプリング周波数である。オリジナルのサンプリング周波数に一致させるために、本発明の一実施形態によると、トリミング値と共に、カスタム分解能としてトリミング処理の分解能が与えられる。従って、トリミング情報のフォーマットは以下のようなシンタックスとして表記できる。

上記のシンタックスは、トリミング情報がどのようにして符号化オーディオデータユニット内に含まれ得るかについての単なる一例であることに留意すべきである。有効サンプルと無効サンプルとの区別を可能にするものであれば、他の変形例も本発明によってカバーされるものである。

本発明のいくつかの側面を装置に関して説明してきたが、これらの側面はまた相応の方法を説明するものでもあることに留意すべきである。つまり、ブロックや装置は方法ステップや方法ステップの特徴に対応する。同様に、方法ステップに関して説明した側面はまた、相応の装置の対応するブロックやアイテムや特徴を説明するものでもある。

本発明に係る符号化データはデジタル記憶媒体に保存可能であり、また、インターネットのような無線や有線の送信媒体上で送信可能である。

実施条件により、本発明はハードウェアまたはソフトウェアで実施可能である。この実施形態は、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭやＦＬＡＳＨメモリーなどの、電子読み取り制御可能な信号が中に保存されたデジタル記憶媒体を使用して実施することができ、これらの電子読み取り制御可能な信号は、それぞれの方法が実行できるように、プログラム可能なコンピュータシステムと協働する（または協働可能である）。本発明の他の実施形態は、電子読み取り制御可能な信号を有する持続的または実体的なデータキャリアを含み、これらの電子読み取り制御可能な信号は、ここで説明した方法のうちの一つを実行できるように、プログラム可能なコンピュータシステムと協働可能である。

さらに、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実施でき、このプログラム製品がコンピュータで動作した際、このプログラムコードは前述の方法のうちの一つを実行するためのものである。このようなプログラムコードは、例えば機械読み取り可能なキャリアに保存されている。他の実施形態は、ここで説明した方法のうちの一つを実行するためのものであり、機械読み取り可能なキャリアに保存されているコンピュータプログラムを含む。

本発明のさらに別の実施形態は、ここで説明した方法のうちの一つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。このデータストリームまたは一連の信号は、例えばインターネットのようなデータ通信接続を介して送信されるように構成されていてもよい。

さらに別の実施形態は、ここで説明した方法のうちの一つを実行するように構成された、例えばコンピュータやプログラム可能な論理装置のような処理手段を含む。

Claims

エンコーダ遅延またはデータの付け足しによって生じた無効データがトリミングされるように、符号化オーディオデータの有効性に関する情報を提供する方法であり、符号化オーディオデータは一連のフレーム（９２０）であり、それぞれのフレーム（９２０）は有効オーディオデータに関する情報（９２４）を含み得るものであり、該方法は、
フレーム（９２０）の最初の部分のデータ量が無効であることを示すフレームレベルに関するものであり、前記符号化オーディオデータのためのオーディオデコーダによって処理されるべき情報を提供する（３０２）か、
フレーム（９２０）の最後の部分のデータ量が無効であることを示すフレームレベルに関するものであり、前記オーディオデコーダによって処理されるべき情報を提供する（４０２）か、または
フレーム（９２０）の最初の部分と最後の部分のデータ量がどちらも無効であることを示すフレームレベルに関するものであり、前記オーディオデコーダによって処理されるべき情報を提供する（５０２）こと、及び
フレーム（９２０）がプリロールアクセスユニットであるかポストロールアクセスユニットであるかを示すフレームレベルに関するものであり、前記オーディオデコーダとのインターフェースを有するシステム層に、該プリロールまたはポストロールアクセスユニットを該オーディオデコーダに提供させ、復号化の後、該オーディオデコーダからの対応出力を放棄させるようにする情報を提供することを含む。
請求項１に記載の方法であり、符号化オーディオデータの有効性に関する情報（９２４）は、フレーム（９２０）の任意で無視されてもよい部分に入れられている。
請求項１に記載の方法であり、符号化オーディオデータの有効性に関する情報（９２４）は、関連するフレーム（９２０）に添付されている。
請求項１に記載の方法であり、有効オーディオデータは、ストリームに基づくアプリケーションまたはライブアプリケーション由来のものである。
請求項１に記載の方法であり、プリロールデータ量とポストロールデータ量のうちの少なくとも一つを決定することをさらに含む。
請求項１に記載の方法であり、符号化オーディオデータの有効性に関する情報（９２４）は、時間可変データと時間不変データとを含む。
データの有効性に関する情報を提供するエンコーダ（８００，９００）であり、
請求項１に記載のデータの有効性に関する情報の提供方法を適用するよう構成されている。
エンコーダ遅延またはデータの付け足しによって生じた無効データがトリミングされるように、データの有効性に関する情報を含む符号化データを受信し、復号出力データを提供する方法であり、
フレーム（９２０）の最初の部分のデータ量が無効であることを示すフレームレベルに関する情報（９２４）か、
フレーム（９２０）の最後の部分のデータ量が無効であることを示すフレームレベルに関する情報（９２４）か、または
フレーム（９２０）の最初の部分と最後の部分のデータ量がどちらも無効であることを示すフレームレベルに関する情報（９２４）を含む、
符号化データを受信すること（６０２，７０２）と、
フレーム（９２０）がプリロールアクセスユニットであるかポストロールアクセスユニットであるかを示すフレームレベルに関する情報を受信することと、
無効であるとマークされていないサンプルのみを含む復号出力データを、オーディオデコーダ（１０００，１１００）を使用して提供すること（６０４，７０４）か、または
フレーム（９２０）の全てのオーディオサンプルを含ませ、データのどの部分が有効であるかに関する情報をアプリケーションに提供すること（７０６）と、及び
フレーム（９２０）がプリロールアクセスユニットまたはポストロールアクセスユニットである場合、システム層に、該プリロールまたはポストロールアクセスユニットを前記オーディオデコーダ（１０００，１１００）に提供させ、符号化の後、該オーディオデコーダ（１０００，１１００）からの対応出力を放棄するようにさせることを含む。
請求項８に記載の方法であり、
プリロール量とポストロール量のうちの少なくとも一つを決定することと、
オリジナル信号を再生するために、プリロールに属するフレーム（９２０）とポストロールに属するフレーム（９２０）のうちの少なくとも一つを使用することをさらに含む。
請求項８に記載の方法であり、
デコーダ遅延を、デコーダ（１０００，１１００）から、復号出力データを使用するシステムへ送信することと、
オーディオとビデオの同期性を維持するために、システムにより、他の並列的なストリームを遅延させることをさらに含む。
請求項８に記載の方法であり、
デコーダ遅延を、デコーダ（１０００，１１００）から、復号出力データを使用するシステムへ送信することと、
システムにより、オーディオ処理部で無効オーディオサンプルを除去することをさらに含む。
請求項８に記載の方法であり、
デコーダ遅延をデコーダ（１０００，１１００）内で除去することをさらに含む。
請求項８に記載の方法であり、フレーム（９２０）はトリミング情報をさらに含み、該方法は、
トリミング情報を、前記デコーダ（１０００，１１００）から、復号出力データを使用する前記システム層へ送信することと、
システムにより、他の並列的なストリームを遅延させることをさらに含む。
請求項８に記載の方法であり、フレーム（９２０）はトリミング情報をさらに含み、該方法は、
トリミング情報を、復号フレームと共に、デコーダ（１０００，１１００）から、復号オーディオ出力データを使用する前記システム層へ送信することと、
オーディオ処理部で無効サンプルを除去するために、トリミング情報を適用することをさらに含む。
請求項８に記載の方法であり、フレーム（９２０）はトリミング情報をさらに含み、該方法は、
トリミング情報を前記デコーダ（１０００，１１００）内で適用し、トリミングされた復号フレームを得るために、復号フレームの最初または最後の部分から無効サンプルを除去することと、
トリミングされた復号フレームを、復号オーディオ出力データを使用する前記システム層に提供することをさらに含む。
符号化データを受信し、復号出力データを提供するデコーダ（１０００，１１００）であり、
複数の符号化オーディオサンプル（９２２）を含む一連の符号化フレーム（９２０）を受信する入力部（１００２，１１０２）であり、いくつかのフレーム（９２０）は、エンコーダ遅延またはデータの付け足しによって生じた無効データがトリミングされるように、データの有効性に関する情報（９２４）を含み、該情報は、請求項８のデータの有効性に関する情報を含む符号化オーディオデータを受信する方法に記載されているようにフォーマットされたものである入力部と、
入力部（１００２，１１０４）と接続され、データの有効性に関する情報（９２４）を適用するよう構成されたデコーディング部（１００４，１１０４）と、
復号オーディオサンプルを提供する出力部（１００６，１１０６）であり、有効オーディオサンプルのみを提供するか、または復号オーディオサンプルの有効性に関する情報を提供する出力部を含む。
コンピュータで起動された際、エンコーダ遅延またはデータの付け足しによって生じた無効データがトリミングされるように、符号化オーディオデータの有効性に関する情報を提供するためのものであり、符号化オーディオデータは一連の符号化フレーム（９２０）であり、それぞれの符号化フレームは有効オーディオデータに関する情報を含み得るものである方法をコンピュータに実行させるプログラムコードを有するコンピュータプログラ
ムであり、該方法は、
フレーム（９２０）の最初の部分のデータ量が無効であることを示すフレームレベルに関するものであり、前記符号化オーディオデータのためのオーディオデコーダによって処理されるべき情報を提供する（３０２）か、
フレーム（９２０）の最後の部分のデータ量が無効であることを示すフレームレベルに関するものであり、前記オーディオデコーダによって処理されるべき情報を提供する（４０２）か、または
フレーム（９２０）の最初の部分と最後の部分のデータ量がどちらも無効であることを示すフレームレベルに関するものであり、前記オーディオデコーダによって処理されるべき情報を提供すること（５０２）と、及び
フレーム（９２０）がプリロールアクセスユニットであるかポストロールアクセスユニットであるかを示すフレームレベルに関するものであり、前記オーディオデコーダとのインターフェースを有するシステム層に、該プリロールまたはポストロールアクセスユニットを該オーディオデコーダに提供させ、復号化の後、該オーディオデコーダからの対応出力を放棄させるようにする情報を提供することを含む。
コンピュータで起動された際、エンコーダ遅延またはデータの付け足しによって生じた無効データがトリミングされるように、データの有効性に関する情報を含む符号化データを受信し、復号出力データを提供する方法をコンピュータに実行させるプログラムコードを有するコンピュータプログラムであり、該方法は、
フレーム（９２０）の最初の部分のデータ量が無効であることを示すフレームレベルに関する情報（９２４）か、
フレーム（９２０）の最後の部分のデータ量が無効であることを示すフレームレベルに関する情報（９２４）か、または
フレーム（９２０）の最初の部分と最後の部分のデータ量がどちらも無効であることを示すフレームレベルに関する情報（９２４）を含む
符号化データを受信すること（６０２，７０２）と、
フレーム（９２０）がプリロールアクセスユニットであるかポストロールアクセスユニットであるかを示すフレームレベルに関する情報を受信することと、
無効であるとマークされていないサンプルのみを含む復号出力データを、オーディオデコーダ（１０００，１１００）を使用して提供すること（６０４，７０４）か、または
フレーム（９２０）の全てのオーディオサンプルを含ませ、データのどの部分が有効であるかに関する情報をアプリケーションに提供すること（７０６）と、及び
フレーム（９２０）がプリロールアクセスユニットまたはポストロールアクセスユニットである場合、システム層に、該プリロールまたはポストロールアクセスユニットを前記オーディオデコーダ（１０００，１１００）に提供させ、符号化の後、該オーディオデコーダ（１０００，１１００）からの対応出力を放棄するようにさせることを含む。