JP2017532603A

JP2017532603A - オーディオ信号のエンコードおよびデコード

Info

Publication number: JP2017532603A
Application number: JP2017520943A
Authority: JP
Inventors: クヨーリング，クリストファー; グロエシェル，アレクサンダー; プルンハーゲン，ヘイコ; ホーリッヒ，ホルガー; クラウス，クルト
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2014-10-24
Filing date: 2015-10-23
Publication date: 2017-11-02
Anticipated expiration: 2035-10-23
Also published as: KR20170076671A; KR102474541B1; US20170243595A1; BR112017007833A2; RU2017117896A3; ES2709274T3; RU2017117896A; JP6728154B2; EP3210206B1; CN107112024A; EP3210206A1; CN107112024B; RU2708942C2; WO2016062869A1; US10304471B2

Abstract

オーディオ信号が、フレームにセグメント分割されたビットストリーム（B）によって表現される。オーディオ処理システム（５００）は、バッファ（５１０）およびデコード部（５２０）を有する。バッファは、N個のそれぞれのフレーム（F1,F2,…,FN）によって担持されるオーディオ・データの諸集合（D1,D2,…,DN）を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合（D）に結合する。それらのフレームは、フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。前記第一のサンプル数は前記第二のサンプル数のN倍である。デコード部は、前記オーディオ・データのデコード可能な集合を前記オーディオ信号のセグメントにデコードする。これは、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによる。

Description

関連出願への相互参照
本願は2014年10月24日に出願された米国仮特許出願第62/068,187号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。

技術分野
本稿で開示される発明はオーディオ信号のエンコードおよびデコードに関し、詳細には高いフレーム・レートについて有利なスケーリング挙動をもつオーディオ・ビットストリーム・フォーマットに関する。

今日利用可能なたいていの商業的アプリケーションにおいて使われるオーディオおよびビデオ・フレーム・レート（またはフレーム周波数）は、通信する当事者間でオーディオおよびビデオを伝送するための記録および再生ソフトウェア・プロダクト、ハードウェア・コンポーネントならびに合意されたフォーマットの両方において現われる別個の確立された業界標準に従っている。オーディオ・フレーム・レートは典型的には種々の符号化アルゴリズムに固有であり、44.1および48kHzのような特定のオーディオ・サンプリング周波数に関連付けられる。これらはそれぞれの地理的領域におけるビデオ・フレーム・レート29.97fps（NTSC）および25fps（PAL）と同じくらい有名である。さらなる標準的なビデオ・フレーム・レートは23.98、24および30fpsまたはより一般化された形では24、25、30fpsおよび(24,25,30)×1000/1001fpsを含む。オーディオ・フレーム・レートを統一するまたは調和させる試みは、アナログからデジタル頒布へのシフトにもかかわらず、まだうまくいっていない。このことは、オーディオ・フレーム（たとえばネットワークを通じた伝送のために好適なパケットまたは符号化単位）が一般にはオーディオビジュアル・データ・ストリームにおける整数個のビデオ・フレームに対応しないことを含意する。

オーディオビジュアル・データ・ストリームを同期させる必要性は、クロック・ドリフトの結果として、あるいはサーバーにおける共通の処理、編集またはスプライシングのために異なる源からいくつかのストリームが受領されるとき、絶えず生じている。こうした状況は放送局では頻繁に遭遇される。（たとえばスプライシングのためにストリームを整えるために）ストリームの一方におけるビデオ・フレームを複製するまたは脱落させることによって二つのオーディオビジュアル・データ・ストリーム間でビデオからビデオへの同期を改善する試みは、オーディオ・フレームとビデオ・フレームのサイズがマッチしない場合、典型的にはそのオーディオビジュアル・データ・ストリーム内でのオーディオからビデオのラグにつながる。一般に、たとえビデオ編集に対応するオーディオ・フレームが削除または複製されたとしても、（少なくともいくらかの0でない継続時間の）ラグは残る。

さらなる処理を代償として、同期中にオーディオを時間的にデコードして、フレームへの分割とは独立な低レベル・フォーマット、たとえばもとのサンプリング周波数の分解能のベースバンド・フォーマットまたはパルス符号変調（PCM）にすることによって、より大きな工夫の余地を作り出すことができる。しかしながら、そのようなデコードは、メタデータの、特定のオーディオ・セグメントへの厳密なアンカー付けをぼかし、「完璧な」中間フォーマットにデコードすることによっては是正できない情報損失を生じる。一例として、ダイナミックレンジ制御（DRC）は典型的にはモード依存かつ設備依存であり、したがって実際の再生の時点でのみ消費されることができる。オーディオ・パケットを通じてDRCの特性を支配するデータ構造は、同期が行なわれた後で忠実に復元するのは難しい。よって、相続くデコード、同期およびエンコード段を過ぎてこの型のメタデータを保存するタスクは、複雑さの制約条件を受ける場合には、簡単なタスクではない。

一層深刻な困難が、二チャネルPCM信号を担持するよう設計されており、よって符号化された形でしかマルチチャネル・コンテンツを扱えないレガシー・インフラストラクチャーとの関連で生じうる。

所与のフレームにおけるデータが、記録され、符号化されたオーディオビジュアル信号における同じ時間セグメントに正確に対応するという意味でフレーム同期的にオーディオおよびビデオ・データをエンコードすることがより便利であることは確かである。これはオーディオビジュアル・ストリームのフレームごとの操作、すなわち、ストリーム内の一つまたは複数の独立した符号化単位全体の複製または除去のもとで、オーディオからビデオへの同期を保存する。ドルビーE（商標）オーディオ・フォーマットにおいて利用可能なフレーム長はビデオ・フレーム長に一致する。だが、典型的なビットレート448kbpsでは、このフォーマットは、デジタル・ビデオ・カセットのようなハード・メディアを好ましい記憶態様として、主として業務用の制作のために設計された。

出願人の同時係属中の未公開の出願PCT/EP2014/056848では、フレーム同期的なオーディオビジュアル・フォーマットの一部として頒布目的に好適なオーディオ・フォーマットと互換なシステムおよび方法が提案されている。

フレーム同期的なオーディオビジュアル・フォーマットの一部として頒布目的に好適な代替的なオーディオ・フォーマットであって、高フレーム・レートについて改善されたスケーリング挙動をもつものが必要とされている。それと一緒に使うのに好適な符号化および復号設備も必要とされている。

下記において、例示的な実施形態が付属の図面を参照して、より詳細に記述される。
ある例示的実施形態に基づく、オーディオ信号をオーディオ・ビットストリームとして表現するためのオーディオ処理システムの一般化されたブロック図である。ある例示的実施形態に基づく、オーディオ信号をオーディオ・ビットストリームとして表現する方法のフローチャートである。例示的実施形態に基づく、図１に描かれたオーディオ処理システムによって提供されるオーディオ・ビットストリームの例を示す図である。例示的実施形態に基づく、図１に描かれたオーディオ処理システムによって提供されるオーディオ・ビットストリームの例を示す図である。ある例示的実施形態に基づく、ビットストリームによって表現されたオーディオ信号を再構成するためのオーディオ処理システムの一般化されたブロック図である。ある例示的実施形態に基づく、ビットストリームによって表現されたオーディオ信号を再構成する方法のフローチャートである。ある例示的実施形態に基づく、オーディオ信号を表わすオーディオ・ビットストリームをトランスコードするためのオーディオ処理システムの一般化されたブロック図である。すべての図面は概略的であり、一般に本発明を明快にするために必要な部分を示すのみである。他の部分は省略されたり、あるいは単に示唆されたりすることがある。

本稿での用法では、オーディオ信号は、単体のオーディオ信号、オーディオビジュアル信号もしくはマルチメディア信号のオーディオ部分またはこれらのいずれかをメタデータと組み合わせたものでありうる。

〈I.概観――エンコーダ側〉
第一の側面によれば、例示的実施形態は、オーディオ信号をオーディオ・ビットストリームとして表現するためのオーディオ処理システム、方法およびコンピュータ・プログラム・プロダクトを提案する。第一の側面に基づく提案されるシステム、方法およびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を共有しうる。

例示的実施形態によれば、オーディオ信号をオーディオ・ビットストリームとして表現する方法が提供される。本方法は：前記オーディオ信号のセグメントを、オーディオ・データの一つのデコード可能な集合としてエンコードする段階を含む。これは少なくとも、本稿で基本ストライドと称されるストライドをもって前記オーディオ信号の前記セグメントに対して信号解析を実行することによる。前記基本ストライドは前記オーディオ信号の第一のサンプル数に対応する。前記オーディオ・データのデコード可能な集合は第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する。本方法は：前記オーディオ・データのデコード可能な集合をN個の部分に分解し、N≧2であり、それぞれの部分を担持するN個のビットストリーム・フレームを形成することを含む。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。本方法は：形成されたN個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力することを含む。

オーディオビジュアル・データ・ストリームにおいて、オーディオ・フレームおよびビデオ・フレームは同期されていてもよく、等しい継続時間であってもよい。たとえばスプライシングまたはクロック・ドリフトの補償との関連でフレーム脱落やフレーム複製を容易にするためである。より高いビデオ・フレーム・レートについてオーディオビジュアル・データ・ストリームにおけるオーディオ・ビデオ同期を維持するために、オーディオ・フレーム・レートが上げられてもよい。しかしながら、ビデオ・フレーム・レートを高めるビット・レート・コストを低減するために予測符号化が典型的には用いられるところ、予測符号化は、オーディオ・フレームについてはそれほど効率的ではないことがある。ビデオ・コンテンツよりも、オーディオ・コンテンツはより短い時間スケールで変動しうるものであり、連続するフレーム間でのより低い度合いの相関に関連付けられうるからである。本開示の目的のためには、特に断わりのない限り、ビデオ・フレームは一つの完全な画面画像（たとえばシーケンス中のスチール画像）に対応し、一方、オーディオ・フレームは原則として、任意の継続時間をもつオーディオ信号セグメントに対応するオーディオ・データを担持しうる。

本方法が、第一の（より低い）フレーム・レートに関連付けられたオーディオ・データのデコード可能な集合を一緒になって担持する、第二の（より高い）フレーム・レートのN個のビットストリーム・フレームを提供できることが、より高いビデオ・フレーム・レートについてオーディオ・ビジュアル同期を、ビットレート消費における対応する増大なしに、維持することを許容する。より精密には、本方法に従って増大したフレーム・レートで動作することは、典型的には、そのようなより高いフレーム・レートをもつ通常のオーディオ・フレームを使うときに必要とされるよりも低いビットレートにつながる。したがって、本方法は、たとえば、オーディオビジュアル・データ・ストリームのスプライシングを容易にするおよび／またはクロック・ドリフトの補償を容易にすることがありうる。

実際、オーディオ・データのデコード可能な集合は、第一の（より低い）フレーム・レートの通常のオーディオ・フレームによって担持されるデータ量に対応してもよく、たとえN個のビットストリーム・フレームがフレーム・フォーマットに準拠するために必要な追加的な非ペイロード・データを含む必要があったとしても（後述）、エンコーダ側からデコーダ側に伝送されるデータの総量は、第二の（より高い）フレーム・レートをもつ通常のオーディオ・フレームを用いるのに比べて低減されうる。特に、より短いストライド（たとえばオーディオ信号の第二のサンプル数に対応するストライド）ではなく基本ストライドをもって信号解析を実行することが、デコーダ側でオーディオ信号を再び合成するために必要とされるデータの量を減らし、それによりデコーダ側にデータを伝送するために必要とされるビットレートを低減する。

オーディオ・ビットストリームの他のビットストリームとのスプライシングはたとえば、ビットストリーム・フレームによって担持されるオーディオ・データに関わりなく実行されてもよい。換言すれば、スプライシングを実行する装置またはユニットは、オーディオ信号のセグメントを再構成するためにN個のビットストリーム・フレームの全部が必要とされることがありうるという事実を知る必要はなく、たとえば、それらのビットストリーム・フレームを、あたかも独立してデコード可能であるかのうように扱ってもよい。スプライシングされたビットストリームにおいて生じうる欠けているビットストリーム・フレームは、たとえば、デコーダ側で、成功裏のデコードを許容しないかもしれないビットストリーム・フレームを隠蔽することによって対処されうる。

オーディオ・データのデコード可能な集合とは、オーディオ信号のセグメントをデコードするために十分であるオーディオ・データの集合を意味する。オーディオ・データのデコード可能な集合は、オーディオ信号のセグメントのデコードが、オーディオ信号の該セグメントに関係した追加的なデータなしに実行されうるという意味で完全であってもよい（一方、オーバーヘッド・ビット、ヘッダまたはプリアンブルといった非ペイロード・データはたとえば、デコーダ側でオーディオ・データのデコード可能な集合を識別するために用いられてもよい）。

オーディオ信号の第一のサンプル数に対応する基本ストライドをもって信号解析を実行するとは、信号解析がオーディオ信号のある数のサンプルの解析窓内で実行され、オーディオ信号の次のセグメントがエンコードされるときには解析窓は基本ストライドと同じサンプル数だけシフトされることを意味する。信号解析はたとえば、重なり合う解析窓をもって実行されてもよく、その場合、解析窓は基本ストライドより長くてもよい。別の例では、解析窓の長さは基本ストライドと一致してもよい。

オーディオ信号がマルチチャネル信号である場合、基本ストライドは、それぞれのチャネルのサンプルの合計としてではなく、チャネル毎に、オーディオ信号の第一のサンプル数に対応してもよい。

オーディオ信号のセグメントをエンコードする段階は、たとえば、複数のサブステップを含んでいてもよく、その一つまたは複数が基本ストライドでの信号解析を含んでいてもよい。

オーディオ・データのデコード可能な集合は、オーディオ信号の第一のサンプル数に対応するオーディオ信号のセグメントを表わしていてもよい。オーディオ・データのデコード可能な集合は第一のフレーム・レートをもつフレームに対応してもよい。

オーディオ・データのデコード可能な集合を分解することは、たとえば、データのデコード可能な集合をN個の少なくとも近似的に均等サイズの部分、たとえば少なくともほぼ同数のビットを有する部分に分割することを含んでいてもよい。

N部分のそれぞれは、一つの部分は、他の部分へのアクセスなしでは、オーディオ信号のセグメント（またはサブセグメント）をデコードするのに不十分であることがあるという意味で、オーディオ・データの不完全な集合でありうる。

N個のビットストリーム・フレームのそれぞれについて、前記N個のビットストリーム・フレームはたとえば、当該ビットストリーム・フレームを含み、そこからのオーディオ・データが結合されて当該ビットストリーム・フレームによって担持されるデータによって表現されるオーディオ信号のセグメントをデコードしうる、ビットストリーム・フレームの最小の集まりであってもよい。換言すれば、前記N個のビットストリーム・フレームは、同じオーディオ・データのデコード可能な集合にもともと含まれているデータを担持するものであってもよい。

前記ビットストリーム・フレームが第二の（より高い）フレーム・レートに対応するというのは、前記N個のビットストリーム・フレームが一緒になって、第一の（より低い）フレーム・レートに対応するオーディオ・データのデコード可能な集合と同じ、オーディオ信号のセグメントを表現するという意味においてである。

同様に、前記ビットストリーム・フレームがビットストリーム・フレーム当たり第二の（より少ない）サンプル数に対応するというのは、前記N個のビットストリーム・フレームが一緒になって、オーディオ・データのデコード可能な集合によっても表現される第一の（より多い）サンプル数を表わすという意味においてである。

ビットストリーム・フレームはたとえば、オーディオ信号の当該セグメントのスペクトル表現のそれぞれの部分を担持してもよいこと、ビットストリーム・フレームの一つと、オーディオ信号の第二の（より少ない）サンプル数との間には何のつながりもなくてもよいことは理解されるであろう。

前記N個のビットストリーム・フレームはたとえば、それらのビットストリーム・フレームが、エレメンタリー・ストリーム・レベルで、たとえば動画像専門家グループ（MPEG）エレメンタリー・ストリームにおいて提供されるようなオーディオ・フォーマットに準拠しているペイロードおよびメタデータを担持しうるという意味において、オーディオ・フォーマットに準拠していてもよい。この意味でオーディオ・フォーマットに準拠していても、これらのビットストリーム・フレームによって担持される、ペイロードと、メタデータの少なくとも一部とは、たとえば、当技術分野で知られているオーディオ・フレームとは異なる型および／またはフォーマットであってもよい。

前記N個の部分を担持する前記N個のビットストリーム・フレームはたとえば、前記ビットストリームにおいてN個の連続したビットストリーム・フレームとして出力されてもよい。

ある例示的実施形態では、信号解析（signal analysis）を実行することは、基本ストライドをもって：スペクトル解析；エネルギー解析；および／またはエントロピー解析を実行することを含んでいてもよい。基本ストライドを用いたスペクトル解析は、たとえば、オーディオ信号のセグメントを時間領域から周波数領域に変換するために実行されてもよい。基本ストライドを用いたエネルギー解析は、たとえば、オーディオ信号のセグメントを、エネルギー・ベースの符号化技法を用いてエンコードするために実行されてもよい。基本ストライドを用いたエントロピー解析は、たとえば、エントロピー・ベースの符号化技法を用いてオーディオ信号をエンコードするために実行されてもよい。

ある例示的実施形態では、オーディオ信号のセグメントをエンコードすることは：前記基本ストライドを変換ストライドとしてもつ窓掛け変換を適用すること；および／またはダウンミックス信号と、該ダウンミックス信号からの前記オーディオ信号のパラメトリック再構成のためのパラメータとを計算することを含んでいてもよい。ここで、前記パラメータは、前記信号解析に基づいて計算される。

窓掛けされた変換はたとえば、たとえば重複変換窓を用いる、修正離散コサイン変換（MDCT）のような調和変換（harmonic transform）であってもよい。

前記オーディオ信号はたとえば、マルチチャネル・オーディオ信号であってもよく、前記ダウンミックス信号は前記マルチチャネル信号より少数のチャネルをもつ信号であってもよく、たとえば前記マルチチャネル信号のチャネルの線形結合として得られてもよい。前記ダウンミックス信号はたとえば、前記マルチチャネル・オーディオ信号のモノまたはステレオ・ダウンミックスであってもよい。

ある例示的実施形態では、本方法は：前記諸部分を担持する前記N個のビットストリーム・フレームのうちの少なくとも一つにメタデータを含めることを含んでいてもよい。前記メタデータは、オーディオ・データの完全なデコード可能な集合が、前記N個のビットストリーム・フレームによって担持される前記諸部分から取得可能であることを示してもよい。

前記N個のビットストリーム・フレームのそれぞれは、たとえば、そこからオーディオ・データのデコード可能な集合が取得可能なN個のビットストリーム・フレームのあるグループに属するものとして、該ビットストリーム・フレームを同定するメタデータを担持していてもよい。別の例では、それらのビットストリーム・フレームの一つが、前記N個のビットストリーム・フレームのすべてを同定するメタデータを担持していてもよく、一方、そのグループの他のN−1個のビットストリーム・フレームは必ずしもそのようなメタデータを担持しない。ビットストリームはたとえば、そのようなメタデータを担持しない他のビットストリーム・フレームを含んでいてもよい。

前記メタデータは、前記N個のビットストリーム・フレームが、互いに対してあらかじめ決定されていない位置に位置されることを許容しうる。前記メタデータは、前記N個のビットストリーム・フレームの間に他のビットストリーム・フレームを許容しうる。前記メタデータは、前記N個のビットストリーム・フレームの一つまたは複数が前記ビットストリームにおいて、たとえばスプライシングまたはフレーム脱落のために欠けているときを検出することを許容しうる。

ある例示的実施形態では、オーディオ・ビットストリームはビデオ・フレームのストリームに関連付けられていてもよい。本方法はさらに：ビデオ・フレームの前記ストリームがある型のビデオ・フレームを有することに応答して、前記ビデオ・フレームに時間的に関係した前記オーディオ信号のセグメントを、オーディオ・データの第二のデコード可能な集合としてエンコードすることを含んでいてもよい。これは少なくとも、前記ビデオ・フレームに時間的に関係した前記オーディオ信号の前記セグメントに対して、前記オーディオ信号の前記第二のサンプル数に対応する短縮されたストライドを用いて信号解析を実行することによる。オーディオ・データの第二のデコード可能な集合は前記第二のフレーム・レートおよびフレーム当たりの前記オーディオ信号の第二のサンプル数に対応してもよい。本方法は：オーディオ・データの第二のデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含めることを含んでいてもよい。

デコーダ側でのビデオ・フレームのスプライシングされたシーケンスのデコードを容易にするために、ビデオ・フレームのストリームはたとえば、ある型のフレーム、たとえば独立して符号化されたビデオ・フレームに隣接する点においてスプライシングされてもよい。前記ある型のビデオ・フレームに時間的に関係した前記オーディオ信号のセグメントを第二のフレーム・レートに対応するオーディオ・データの第二のデコード可能な集合としてエンコードし、オーディオ・データの第二のデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含めるという手法は、デコーダ側でオーディオ信号のそのセグメントの独立したデコードを許容する。したがって、本例示的実施形態は、たとえば前記オーディオ・ビットストリームおよび前記ビデオ・フレームのストリームを含むオーディオビジュアル・ストリームを一つまたは複数の他のオーディオビジュアル・データ・ストリームとスプライシングした結果として、たとえばデコーダ側でオーディオ・ビットストリームからの先行するまたは後続のビットストリーム・フレームが欠けていることがありうる場合に、オーディオ信号のそのセグメントのデコードを容易にしうる。

前記ある型のビデオ・フレームに時間的に関係している前記オーディオ信号のセグメントは、たとえば、前記ある型のビデオ・フレームがディスプレイ上で再生されることが意図されている時点に対応してもよい。

ビデオ・フレームの前記ストリームはたとえば、独立して符号化されたフレームと、予測された符号化されたフレーム（一方向または双方向の、隣接するフレームへの依存性をもつ）とを含んでいてもよく、前記ある型のビデオ・フレームはたとえば独立して符号化されたビデオ・フレームであってもよい。

本方法はたとえば：ビデオ・フレームの前記ストリームにおいて前記ある型のビデオ・フレームの存在を検出することを含んでいてもよい。前記ある型のビデオ・フレームの存在はたとえば、ビデオ・エンコーダからの信号伝達を介して検出されてもよい。

前記短縮されたストライドをもって信号解析を実行することは、たとえば、前記短縮された信号ストライドを用いて：スペクトル解析；エネルギー解析；および／またはエントロピー解析を実行することを含んでいてもよい。

前記ある型のビデオ・フレームに時間的に関係した前記オーディオ信号のセグメントをエンコードすることは、たとえば：前記短縮されたストライドを変換ストライドとしてもつ窓掛け変換を適用すること；および／またはダウンミックス信号と、該ダウンミックス信号からの前記オーディオ信号のパラメトリック再構成のためのパラメータとを計算することを含んでいてもよい。ここで、前記パラメータは、前記短縮されたストライドを用いた信号解析に基づいて計算される。

ある例示的実施形態では、本方法は：ビデオ・フレームの前記ストリームが前記ある型のビデオ・フレームを有することに応答して、前記オーディオ信号のN個の連続するセグメントを、オーディオ・データのそれぞれのデコード可能な集合としてエンコードすることを含んでいてもよい。これは、前記N個の連続したセグメントのそれぞれについて、少なくとも、前記短縮されたストライドを用いて信号解析を適用することによってであってもよい。前記ビデオ・フレームに時間的に関係した前記セグメントは、前記N個の連続したセグメントのうちの一つであってもよい。本方法は：前記N個の連続したセグメントに関連付けられたオーディオ・データのそれぞれのデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含めることを含んでいてもよい。

前記ビットストリームは、たとえば、一緒にデコード可能なオーディオ・データのそれぞれの部分を担持する、N個の連続したビットストリーム・フレームからなる諸グループを含んでいてもよい。したがって、デコーダ側では、前記ビットストリームのN個のビットストリーム・フレームが一度にデコードされうる。本例示的実施形態では、たとえば前記ビットストリームにおけるN個の連続したビットストリーム・フレームの前記諸グループの位置に対するビデオ・フレームの前記ストリームにおける前記ある型のビデオ・フレームの位置に関わりなく、N個のビットストリーム・フレームの諸グループの構造は、前記ある型のビデオ・フレームがビデオ・フレームの関連付けられたストリームにおいて生起するときにも保存されうる。

例示的実施形態によれば、オーディオ・ビットストリームによってオーディオ信号を表現するためのオーディオ処理システムが提供される。オーディオ処理システムは：前記オーディオ信号のセグメントをオーディオ・データの一つのデコード可能な集合としてエンコードするよう構成されたエンコード部を有する。該エンコードは少なくとも、前記オーディオ信号の第一のサンプル数に対応する基本ストライドをもって前記オーディオ信号の前記セグメントに対して信号解析を実行することによる。前記オーディオ・データのデコード可能な集合は第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する。本オーディオ処理システムは：前記オーディオ・データのデコード可能な集合をN個の部分に分解し、N≧2であり、それぞれの部分を担持するN個のビットストリーム・フレームを形成するよう構成されたフレーム構成し直し〔再フレーミング〕部を有する。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。フレーム構成し直し部は：形成されたN個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力するよう構成される。

例示的実施形態によれば、第一の側面の方法のいずれかを実行するためのコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。

例示的実施形態によれば、N＝2またはN＝4が成り立ってもよい。すなわち、N個のビットストリーム・フレームは二つまたは四つのビットストリーム・フレームであってもよい。

〈II.概観――デコーダ側〉
第二の側面によれば、例示的実施形態は、ビットストリームによって表わされるオーディオ信号を再構成するためのオーディオ処理システムならびに方法およびコンピュータ・プログラム・プロダクトを提案する。第二の側面に基づく提案されるシステム、方法およびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を共有しうる。さらに、第一の側面に基づくシステム、方法およびコンピュータ・プログラム・プロダクトの特徴について上記で呈示した利点は、一般に、第二の側面に基づくシステム、方法およびコンピュータ・プログラム・プロダクトの対応する特徴についても有効でありうる。

例示的実施形態によれば、ビットストリーム・フレームにセグメント分割されたビットストリームによって表わされるオーディオ信号を再構成する方法が提供される。本方法は：N個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合することを含み、N≧2である。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。本方法は：前記オーディオ・データのデコード可能な集合を前記オーディオ信号のセグメントにデコードすることを含む。これは、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する本稿で基本ストライドと称されるストライドをもって、前記データのデコード可能な集合に基づいて信号合成を用いることによる。

オーディオビジュアル・データ・ストリームにおいて、オーディオ・フレームおよびビデオ・フレームは同期されていてもよく、等しい継続時間であってもよい。たとえばスプライシングまたはクロック・ドリフトの補償との関連でフレーム脱落やフレーム複製を容易にするためである。より高いビデオ・フレーム・レートについてオーディオビジュアル・データ・ストリームにおけるオーディオ・ビデオ同期を維持するために、オーディオ・フレーム・レートが上げられてもよい。しかしながら、ビデオ・フレーム・レートを高めるビット・レート・コストを低減するために予測符号化が典型的には用いられるところ、予測符号化は、オーディオ・フレームについてはそれほど効率的ではないことがある。ビデオ・コンテンツよりも、オーディオ・コンテンツはより短い時間スケールで変動しうるものであり、連続するフレーム間でのより低い度合いの相関に関連付けられうるからである。短すぎるオーディオ・フレーム長も、変換ストライドを制限することがあり、ひいては周波数分解能に制限を課すので、避けるべきである。

本方法が：第二の（より高い）フレーム・レートのN個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一の（より低い）フレーム・レートに関連するオーディオ・データの一つのデコード可能な集合に結合できることが、より高いビデオ・フレーム・レートについてオーディオ・ビジュアル同期を、ビットレート消費における対応する増大なしに、維持することを許容する。より精密には、本方法に従って増大したフレーム・レートで動作するときのビットレートは、そのようなより高いフレーム・レートをもつ通常のオーディオ・フレームを使うときに必要とされるよりも低いことがありうる。本方法は、たとえば、オーディオビジュアル・データ・ストリームのスプライシングを容易にするおよび／またはクロック・ドリフトの補償を容易にすることがありうる。

より短いストライド（たとえばオーディオ信号の第二のサンプル数に対応するストライド）をもつ合成ではなく基本ストライドをもつ信号合成を用いることが、オーディオ信号を合成するために必要とされるデータの量を減らし、それによりデータを伝送するための必要とされるビットレートを低減する。

前記オーディオ・データのデコード可能な集合に結合されるデータの各集合は、他の集合へのアクセスなしでは、オーディオ信号のセグメント（またはサブセグメント）をデコードするのに不十分であることがあるという意味で、オーディオ・データの不完全な集合でありうる。

N個のビットストリーム・フレームのそれぞれについて、前記N個のビットストリーム・フレームはたとえば、そのビットストリーム・フレームを含み、そこからのオーディオ・データが結合されてそのビットストリーム・フレームによって担持されるデータによって表現されるオーディオ信号のセグメントをデコードしうる、ビットストリーム・フレームの最小の集まりであってもよい。

オーディオ・データのデコード可能な集合とは、オーディオ信号のセグメントをデコードするために十分であるオーディオ・データの集合を意味する。オーディオ・データのデコード可能な集合は、オーディオ信号のセグメントのデコードが、追加的なオーディオ・データなしに実行されうるという意味で完全であってもよい。

オーディオ・データの諸集合をオーディオ・データのデコード可能な集合に結合することは、たとえば、データのそれぞれの集合を表わすビットを順次配列することなどにより、それらのデータの集合を連結することを含んでいてもよい。

前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもつ信号合成を用いるとは、信号合成が前記オーディオ信号のある数のサンプルに対応する前記オーディオ信号のセグメントについて実行され、前記オーディオ信号の次のセグメントが再構成されるべきときは、信号合成プロセスは、前記基本ストライドと同数のサンプルだけシフトされた範囲についての出力を生成するということを意味する。

基本ストライドでの信号合成（signal synthesis）は、たとえば、オーディオ・データのデコード可能な集合に直接基づいて直接用いられてもよく、あるいはオーディオ・データのデコード可能な集合に間接的に基づいて、たとえばオーディオ・データのデコード可能な集合を処理することによって得られるオーディオ・データまたは信号に基づいて用いられてもよい。

オーディオ・データのデコード可能な集合をデコードする段階は、たとえば、複数のサブステップを含んでいてもよく、その一つまたは複数が基本ストライドでの信号合成を含んでいてもよい。

エンコーダによって提供されるビットストリームはたとえば、デコーダ側に届く前に別のビットストリームとスプライシングされていてもよい。たとえば、前記N個のビットストリーム・フレームの一つまたは複数がたとえば、デコーダ側で受領されたビットストリームにおいて欠けていることがありうる。したがって、いくつかの例示的実施形態では、本オーディオ処理方法は、オーディオ・データの諸集合を結合して完全なデコード可能な集合にするもとになる前記N個のビットストリーム・フレームの一つまたは複数が前記ビットストリームにおいて欠けているかどうかを検出することを含んでいてもよい。本方法はたとえば：前記N個のビットストリーム・フレームの一つまたは複数が前記ビットストリームにおいて欠けていることを検出することに応答して、誤り隠蔽〔エラー・コンシールメント〕を適用することを含んでいてもよい。誤り隠蔽はたとえば、受領されたビットストリーム・フレームの一つまたは複数によって担持されているオーディオ・データを0で置き換え、任意的にフェードアウトおよび／またはフェードインを適用することを含んでいてもよい。

ある例示的実施形態では、オーディオ・データのデコード可能な集合をデコードすることは：前記基本ストライドを変換ストライドとしてもつ窓掛け変換を適用すること；および／またはオーディオ・データのデコード可能な集合から得られるダウンミックス信号および関連するパラメータに基づいて、前記オーディオ信号の前記セグメントの、前記基本ストライドでのパラメトリック再構成を実行することを含んでいてもよい。

窓掛けされた変換はたとえば、逆修正離散コサイン変換（MDCT）のような調和変換（harmonic transform）であってもよい。

前記オーディオ信号はたとえば、マルチチャネル・オーディオ信号であってもよく、前記ダウンミックス信号は前記マルチチャネル信号より少数のチャネルをもつ信号であってもよく、たとえば前記マルチチャネル信号のチャネルの線形結合として得られてもよい。前記ダウンミックス信号はたとえば、前記マルチチャネル・オーディオ信号のモノまたはステレオ・ダウンミックスであってもよい。前記オーディオ・データのデコード可能な集合はたとえば、前記オーディオ信号の前記セグメントのパラメトリック再構成のための前記ダウンミックス信号および前記関連するパラメータを含んでいてもよい。あるいはまた、前記オーディオ・データのデコード可能な集合は、前記ダウンミックス信号および前記関連するパラメータをたとえば量子化された形で含んでいてもよく、それから前記ダウンミックス信号および前記関連するパラメータが導出されてもよい。

ある例示的実施形態では、オーディオ・データの諸集合が結合されてオーディオ・データのデコード可能な集合にされるもとになる前記N個のビットストリーム・フレームは、N個の連続するビットストリーム・フレームであってもよい。オーディオ・データのデコード可能な集合に結合されるオーディオ・データの諸集合を担持するために連続するフレームを用いることは、オーディオ信号のデコードを容易にすることがあり、オーディオ・データのデコード可能な集合に結合されるべきデータを有するビットストリーム・フレームを同定するためのメタデータの必要性を軽減しうる。オーディオ・データのデコード可能な集合に結合されるオーディオ・データの諸集合を担持するために連続するフレームを用いることは、デコードを実行するためのデータをバッファリングする必要性を軽減しうる。

ある例示的実施形態では、ビットストリーム中のビットストリーム・フレームの少なくともいくつかによって担持されるメタデータに基づいて、ビットストリーム・フレームのグループを決定することを含んでいてもよい。該グループから、オーディオ・データの不完全な前記諸集合を結合して、前記オーディオ・データのデコード可能な集合にする。N個のビットストリーム・フレームからなる諸グループを同定するために、メタデータが、たとえば、すべてのビットストリーム・フレームによって担持されていてもよく、あるいはN個のビットストリーム・フレームのグループ毎に一つまたは複数のビットストリーム・フレームによって担持されていてもよい。前記N個のビットストリーム・フレーム自身はそのようなメタデータを担持しなくてもよく、ビットストリームがN個のフレームの諸グループを同定するメタデータを担持する他のフレームを含む実施形態も構想されうる。

ある例示的実施形態では、本方法はさらに：あるビットストリーム・フレームが、前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を担持するかどうかを検出し；前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合を、前記オーディオ信号のセグメントにデコードすることを含んでいてもよい。該デコードは、少なくとも、前記第二のサンプル数に対応する短縮されたストライドをもって、前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによる。

独立してデコード可能なオーディオ・データの諸集合を担持するビットストリーム・フレームが、たとえばスプライシング後および／またはフレーム脱落／複製後にビットストリームのデコードを容易にするために、用いられてもよい。本例示的実施形態での本方法が前記短縮されたストライドを使ってデコードできることは、本方法を、オーディオおよびビデオ・フレームの同期を容易にするビットストリーム・フォーマットと互換にしうる。

前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合をデコードすることは：前記短縮されたストライドを変換ストライドとしてもつ窓掛け変換を適用すること；および／または前記オーディオ・データの第二のデコード可能な集合から得られるダウンミックス信号および関連するパラメータに基づいて、前記オーディオ信号のセグメントの、前記短縮されたストライドでのパラメトリック再構成を実行することを含んでいてもよい。

あるビットストリーム・フレームが、前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を担持するかどうかの検出は、たとえば、前記ビットストリーム・フレームによって担持されるメタデータに基づいていてもよく、あるいは前記ビットストリーム・フレーム内のメタデータの不在もしくは具体的な型に基づいていてもよい。

ある例示的実施形態では、前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合をデコードすることは：遅延を設けることを含んでいてもよい。それにより、前記第二のフレーム・レートでのN個の連続するビットストリーム・フレームのグループのデコードは、あたかも、N個のビットストリーム・フレームのそのグループのビットストリーム・フレームがそれぞれオーディオ・データのデコード可能な集合に結合することを必要とするオーディオ・データの諸集合を担持していたかのように、同時に完了する。本例示的実施形態は、前記基本ストライドを使って再構成された前記オーディオ信号のセグメントと、前記短縮されたストライドを使って再構成された前記オーディオ信号のセグメントとの間のなめらかな遷移を容易にし、聴取者によって知覚される再生品質を改善しうる。

ある例示的実施形態では、前記遅延は、前記第二のフレーム・レートに対応するオーディオ・データの少なくとも一つのデコード可能な集合をバッファリングすることまたは前記オーディオ信号の少なくとも一つのセグメントをバッファリングすることによって提供されてもよい。すなわち、前記遅延は、前記第二のフレーム・レートに対応する一つまたは複数のオーディオ・データのデコード可能な集合をバッファリングすることによって、信号合成を実行する前に、あるいは前記第二のフレーム・レートに対応する一つまたは複数のオーディオ・データのデコード可能な集合から再構成された前記オーディオ信号のセグメントの一つまたは複数をバッファリングすることによって、信号合成を実行した後に、提供されてもよい。

ある例示的実施形態では、前記ビットストリームは、前記第二のフレーム・レートに一致するフレーム・レートをもつビデオ・フレームのストリームに関連付けられていてもよい。本例示的実施形態では、ビットストリーム・フレームのフレーム・レートは、ビデオ・フレームのフレーム・レートに一致していてもよく、このことは前記ビットストリームおよびビデオ・フレームのストリームを含むオーディオビジュアル・データ・ストリームの、他のオーディオ・ビジュアル・データ・ストリームとの、スプライシングおよび／または同期を容易にしうる。

ある例示的実施形態では、前記第一のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて前記オーディオ信号のセグメントをデコードすることは：前記第一のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に対応する量子化されたスペクトル係数を受領する段階と；逆量子化およびそれに続く周波数から時間への変換を実行する段階であって、中間オーディオ信号の表現が得られる段階と；前記中間オーディオ信号に対して周波数領域で少なくとも一つの処理ステップを実行する段階と；処理されたオーディオ信号のサンプリング・レートを目標サンプリング周波数に変更する段階であって、再構成されたオーディオ信号の時間領域表現が得られる、段階とを含んでいてもよい。

目標サンプリング周波数は、あらかじめ定義された量であってもよい。その量は、はいってくるビットストリームの属性（たとえばフレーム・レート）とは独立にユーザーまたはシステム設計者によって構成設定可能である。

逆量子化は、あらかじめ決定された量子化レベル（または再構成レベルまたは再構成点）をもって実行されてもよい。それらの量子化レベルは、音響心理学的考察に基づいてエンコーダ側で、たとえば所与の周波数（または周波数帯）についての量子化ノイズがマスキング閾値を超えないよう、選ばれていてもよい。マスキング閾値は周波数依存なので、経済的な観点から、エンコーダ側に、周波数に対して非一様な量子化レベルを選択させるのが好ましい。結果として、量子化および脱量子化は典型的には、最適な出力が生成される特定の物理的なサンプリング周波数を念頭において行なわれる。

前記少なくとも一つの処理ステップはたとえば、スペクトル帯域複製（SBR）および／またはダイナミックレンジ制御（DRC）に関連していてもよい。

前記少なくとも一つの処理ステップは周波数領域で実行されるので、本方法は：たとえば直交ミラーフィルター（QMF）解析フィルタバンクによって実行される時間から周波数への変換を実行して、前記中間オーディオ信号の周波数表現を得る段階と；たとえばQMF合成フィルタバンクによって実行される追加的な周波数から時間への変換を実行して、処理されたオーディオ信号をもとの時間領域に変換する段階とを含んでいてもよい。

ある例示的実施形態では、本方法は、前記第二のフレーム・レートについての少なくとも二つの異なる値に関連付けられているが、フレーム当たりの前記第二のサンプル数についての共通の値に関連付けられている諸ビットストリームを受け入れてもよい。前記第二のフレーム・レートのそれぞれの値は最大で5%異なっていてもよい。前記周波数から時間の変換は、前記第二のフレーム・レートについての前記少なくとも二つの異なる値について、前記基本ストライドについての共通のあらかじめ定義された値を変換ストライドとしてもつ窓掛け変換を用いるよう構成された機能コンポーネントにおいて実行されてもよい。

データのオーディオビジュアル・ストリームにおいて、たとえばオーディオ・ビデオ同期および／またはスプライシングを容易にするために、オーディオ・フレーム・レートは、ビデオ・フレーム・レートに適合されてもよい（たとえば、一致してもよい）。したがって、本例示的実施形態において、異なるフレーム・レートをもつオーディオ・ビットストリームを受け入れることができることは、オーディオビジュアル・データ・ストリームのオーディオ・ビデオ同期および／またはスプライシングを容易にしうる。

臨界サンプリングされたシステムでは、物理的なサンプリング周波数は、オーディオ・フレームの物理的な継続時間と、それに含まれるスペクトル係数の数との比に対応する。前記逆量子化および前記周波数から時間の変換を実行する機能コンポーネント（単数または複数）は、オーディオ・データのデコード可能な集合における係数の物理的な継続時間を知っている必要はない。係数が同じオーディオ・データのデコード可能な集合に属するということだけでよい。第二のフレーム・レートの値は高々5%異なるので、結果として得られる内部サンプリング周波数は（物理的な単位において）ほとんど変化せず、最終的なサンプリング・レート変換において使われる再サンプリング因子は1に近くなる。よって、内部サンプリング周波数が一定しないことは、典型的には、再構成されたオーディオ信号のいかなる知覚可能な劣化にもつながらない。換言すれば、目標サンプリング周波数とはわずかに異なるサンプリング周波数で最適であるよう生成された中間オーディオ信号のわずかなアップサンプリングまたはダウンサンプリングは、音響心理学的に有意ではない。特に、逆量子化および／または周波数から時間の変換を実行する機能コンポーネント（単数または複数）の意図される物理的なサンプリング周波数とその下流の何らかのコンポーネントがチューニングされる物理的なサンプリング周波数との間のいくらかの不一致は、逸脱が限定的である限り、容認されてもよい。

例示的実施形態によれば、ビットストリーム・フレームにセグメント分割されたビットストリームによって表わされるオーディオ信号を再構成するオーディオ処理システムが提供される。本オーディオ処理システムは：N個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合するよう構成されたバッファを有し、N≧2である。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。本システムは：前記オーディオ・データのデコード可能な集合を前記オーディオ信号のセグメントにデコードするよう構成されたデコード部を有する。該デコードは、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記データのデコード可能な集合に基づいて信号合成を用いることによる。

例示的実施形態によれば、第二の側面の方法のいずれかを実行するためのコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。

〈III.概観――トランスコード〉
第三の側面によれば、例示的実施形態は、オーディオ信号を表わすオーディオ・ビットストリームをトランスコードするためのオーディオ処理システムならびに方法およびコンピュータ・プログラム・プロダクトを提案する。第三の側面に基づく提案されるシステム、方法およびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を共有しうる。さらに、第一および／または第二の側面に基づくシステム、方法およびコンピュータ・プログラム・プロダクトの特徴について上記で呈示した利点は、一般に、第三の側面に基づくシステム、方法およびコンピュータ・プログラム・プロダクトの対応する特徴についても有効でありうる。

例示的実施形態によれば、オーディオ信号を表わすオーディオ・ビットストリームをトランスコードする方法が提供される。ビットストリームは、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データのデコード可能な諸集合のシーケンスを含む。本方法は：前記ビットストリームからオーディオ・データのデコード可能な集合を抽出する段階と；オーディオ・データの前記デコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と；それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階とを含む。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。この後、形成されたN個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームが出力される。任意的に、オーディオ・データの前記デコード可能な集合を処理するステップが、該集合をN個の部分に分解するステップの前に実行される。処理の性質に依存して、これは初期にオーディオ・データを変換表現または波形表現にデコードすることを必要とすることがある。

本方法が、第一の（より低い）フレーム・レートに関連付けられたオーディオ・データのデコード可能な集合を一緒になって担持する、第二の（より高い）フレーム・レートのN個のビットストリーム・フレームを提供できることが、より高いビデオ・フレーム・レートについてオーディオ・ビジュアル同期を、ビットレート消費における対応する増大なしに、維持することを許容する。本方法に従って増大したフレーム・レートで動作するときのビットレートは、そのようなより高いフレーム・レートをもつ通常のオーディオ・フレームを使うときに必要とされるよりも低いことがある。したがって、本方法は、たとえば、オーディオビジュアル・データ・ストリームのスプライシングを容易にするおよび／またはクロック・ドリフトの補償を容易にすることがありうる。

本方法は、たとえば、オーディオ・データの前記デコード可能な集合の処理されたバージョンを、前記N個の部分に分割することを含んでいてもよい。

例示的実施形態によれば、オーディオ信号を表わすオーディオ・ビットストリームをトランスコードするオーディオ処理システムが提供される。ここで、ビットストリームは、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データのデコード可能な諸集合のシーケンスを含む。本オーディオ処理システムは：前記ビットストリームからオーディオ・データのデコード可能な集合を抽出するよう構成された受領部と；オーディオ・データの前記デコード可能な集合を処理するよう構成された任意的な処理部とを有する。本オーディオ処理システムは：オーディオ・データの前記デコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と；それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階とを実行するよう構成されたフレーム構成し直し部を有する。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。フレーム構成し直し部は、形成されたN個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力するよう構成される。

例示的実施形態によれば、第三の側面の方法のいずれかを実行するためのコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。

〈IV.概観――コンピュータ可読媒体〉
第四の側面によれば、例示的実施形態は、オーディオ信号を表わすコンピュータ可読媒体を提案する。第一、第二および／または第三の側面に基づくシステム、方法およびコンピュータ・プログラム・プロダクトの特徴について上記で呈示した利点は、一般に、第四の側面に基づくコンピュータ可読媒体の対応する特徴についても有効でありうる。

例示的実施形態によれば、オーディオ信号を表わし、ビットストリーム・フレームにセグメント分割されたコンピュータ可読媒体が提供される。本コンピュータ可読媒体において、前記ビットストリーム・フレームのN個が、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合できる、オーディオ・データのそれぞれの集合を担持し、N≧2である。前記オーディオ・データのデコード可能な集合は、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードされることができる。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。

第二の（より高い）フレーム・レートのN個のビットストリーム・フレームが一緒になって、第一の（より低い）フレーム・レートに関連するオーディオ・データのデコード可能な集合を担持することが、より高いビデオ・フレーム・レートについてオーディオ・ビジュアル同期を、ビットレート消費における対応する増大なしに、維持することを許容する。より精密には、本コンピュータ可読媒体に基づいて増大したフレーム・レートで動作するときのビットレートは、そのようなより高いフレーム・レートをもつ通常のオーディオ・フレームを使うときに必要とされるよりも低いことがありうる。よって、本コンピュータ可読媒体は、たとえば、オーディオビジュアル・データ・ストリームのスプライシングを容易にするおよび／またはクロック・ドリフトの補償を容易にすることがありうる。

オーディオ・データの一つのデコード可能な集合に結合できる、オーディオ・データのそれぞれの集合を担持する前記N個のビットストリーム・フレームは、たとえば、N個の連続するビットストリーム・フレームであってもよい。

ある例示的実施形態では、前記N個のビットストリーム・フレームの少なくとも一つが、そこからオーディオ・データの諸集合をオーディオ・データのデコード可能な集合に結合するビットストリーム・フレームのグループを指示するメタデータを担持していてもよい。

ある例示的実施形態では、本コンピュータ可読媒体はさらに、オーディオ・データの第二の集合を担持するビットストリーム・フレームを含んでいてもよい。前記オーディオ・データの第二の集合は、少なくとも、前記オーディオ信号の前記第二のサンプル数に対応する短縮されたストライドをもって、オーディオ・データの前記第二の集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードされることができる。

本例示的実施形態に基づく、独立してデコード可能なオーディオ・データの諸集合を担持するビットストリーム・フレームは、たとえば、スプライシング後および／またはフレーム脱落／複製後のビットストリームのデコードを容易にするために、用いられてもよい。

〈V.例示的実施形態〉
図１は、ある例示的実施形態に基づく、オーディオ信号Xをオーディオ・ビットストリームBとして表現するためのオーディオ処理システム１００の一般化されたブロック図である。

オーディオ処理システム１００は、エンコード部１１０およびフレーム構成し直し部１２０を有する。エンコード部１１０はオーディオ信号Xのセグメントをオーディオ・データDの一つのデコード可能な集合としてエンコードする。これは少なくとも、オーディオ信号Xの第一のサンプル数に対応する基本ストライドをもってオーディオ信号Xの該セグメントに対して信号解析を実行することによる。

オーディオ信号Xの第一のサンプル数に対応する基本ストライドをもって信号解析を実行するとは、信号解析がオーディオ信号Xのある数のサンプルの解析窓内で実行され、オーディオ信号Xの次のセグメントがエンコードされるときには解析窓は基本ストライドと同じサンプル数だけシフトされることを意味する。信号解析はたとえば、重なり合う解析窓をもって実行されてもよい。その場合、解析窓は基本ストライドより長くてもよい。別の例では、解析窓の長さは基本ストライドと一致してもよい。

オーディオ信号Xはここではマルチチャネル・オーディオ信号として例示される。本例示的実施形態では、エンコード部１１０は、オーディオ信号Xのそのセグメントの周波数領域表現を与えるために、オーディオ信号Xのそのセグメントに、基本ストライドを変換ストライドとした窓掛け変換、たとえば修正離散コサイン変換（MDCT）を適用する。次いで、周波数領域において、エンコード部１１０はダウンミックス信号（たとえばモノまたはステレオ・ダウンミックス）を、オーディオ信号Xのそれぞれのチャネルの線形結合として計算する。エンコード部１１０はまた、ダウンミックス信号からのマルチチャネル・オーディオ信号Xのパラメトリック再構成のためのパラメータをも決定する。本例示的実施形態では、オーディオ・データのデコード可能な集合Dは、前記ダウンミックス信号およびパラメトリック再構成のための前記パラメータを含む。

前記パラメータは、たとえば、周波数領域表現の信号解析に基づいて決定されてもよい。この信号解析は、基本ストライドを用いてもよい。すなわち、窓掛け変換と同じストライドを用いてもよい。信号解析（signal analysis）はたとえば、マルチチャネル・オーディオ信号Xのチャネルのエネルギーおよび／または共分散の計算を含んでいてもよい。

パラメトリック再構成のためのパラメータが窓掛け変換とは異なるストライドをもつ信号解析に基づいて決定される実施形態も構想されうる。たとえば、窓掛け変換が基本ストライドより短い変換ストライドをもち、パラメトリック再構成のためのパラメータが基本ストライドでの信号解析に基づいて決定される実施形態が構想されてもよい。

オーディオ・データのデコード可能な集合Dは第一のフレーム・レート、たとえば30fpsおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する。すなわち、データのデコード可能な集合Dは、前記オーディオ信号の第一の数のサンプルを表わし、第一のフレーム・レートに従うフレームに対応する。

フレーム構成し直し部１２０は、オーディオ・データのデコード可能な集合DをN個の部分D₁、D₂、…、D_Nに分解する。これはたとえば、オーディオ・データのデコード可能な集合DをN個の少なくともほぼ均等サイズの部分D₁、D₂、…、D_Nに分割することによる。Nはたとえば2または4であってもよく、あるいは2以上の任意の整数であってもよい。

本例示的実施形態では、オーディオ・データのデコード可能な集合Dは前記第一の数のサンプルの周波数領域表現である。よって、オーディオ・データのデコード可能な集合Dが均等サイズの部分D₁、D₂、…、D_Nに分割されるとき、これらの部分D₁、D₂、…、D_Nは周波数領域表現のそれぞれの部分集合を含んでいてもよい。該部分集合は、必ずしも、オーディオ信号の前記第一の数のサンプルのいかなる特定の部分集合にも対応しない。よって、部分D₁、D₂、…、D_Nは、部分D₁、D₂、…、D_NのいずれもN個の部分D₁、D₂、…、D_N全部へのアクセスなしにはデコードできないという意味で、オーディオ・データの不完全な集合である。

フレーム構成し直し部１２０は、それぞれの部分D₁、D₂、…、D_Nを担持するN個のビットストリーム・フレームF₁、F₂、…、F_Nを形成する。N個のビットストリーム・フレームF₁、F₂、…、F_Nはオーディオ・データのデコード可能な一つの集合Dを表わすので、ビットストリーム・フレームF₁、F₂、…、F_Nは、オーディオ・データのデコード可能な集合Dのフレーム・レートのN倍である第二のフレーム・レートを有する。同様に、ビットストリーム・フレームF₁、F₂、…、F_Nはそれ自身ではオーディオ信号Xのいずれかのサンプルを表わすものではないが、N個のビットストリーム・フレームF₁、F₂、…、F_Nはオーディオ・データのデコード可能な集合Dを表わし、よってフレーム当たり第二の数のサンプルに対応する。ここで、フレーム当たりの第一のサンプル数はフレーム当たりの第二のサンプル数のN倍である。

フレーム構成し直し部１２０は、形成されたN個のビットストリーム・フレームF₁、F₂、…、F_NをN個の連続するビットストリーム・フレームとして含む諸ビットストリーム・フレームにセグメント分割されたビットストリームBを出力する。

オーディオ・データの部分D₁、D₂、…、D_Nに加えて、ビットストリーム・フレームF₁、F₂、…、F_Nは、ビットストリーム・フレームF₁、F₂、…、F_Nによって担持される部分D₁、D₂、…、D_Nからオーディオ・データのデコード可能な集合Dが取得可能であることを示すそれぞれのメタデータμ₁、μ₂、…、μ_Nをも含む。ビットストリーム・フレームF₁、F₂、…、F_Nの各ビットストリーム・フレームのメタデータμ₁、μ₂、…、μ_Nはたとえば、オーディオ・データのデコード可能な集合Dのどの部分がそのビットストリーム・フレームによって担持されているかを示してもよく、任意的には、オーディオ・データのデコード可能な集合Dの他のN−1個の部分を担持するビットストリーム・フレームをも指示してもよい。

図３および図４は、例示的実施形態に基づく、図１を参照して述べたオーディオ処理システム１００によって提供されるビットストリームの例を示す。

図１に示されるオーディオ処理システム１００によって出力されるビットストリームBは、ビデオ・フレームのストリームに関連付けられていてもよい。ビットストリームBは図３ではビットストリーム・フレームのストリームA1およびビデオ・フレームのストリームV1によって例示されている。ここで、右向き方向が増大する時間tに対応する。

ビデオ・フレームのストリームV1は、予測された符号化されたビデオ・フレームP（先行フレームのみに依存するフレームおよび／または先行フレームおよび後続フレームの両方に依存するいわゆる双方向フレームを含む）と、独立して符号化されたビデオ・フレームIとを含む。他のオーディオビジュアル・データ・ストリームとのスプライシングおよび／または同期を容易にするために、ビットストリーム・フレームのストリームA1は、ビデオ・フレームと同じフレーム・レートおよび同じ継続時間をもつビットストリーム・フレームを含む。

本例示的実施形態では、N＝4であり、オーディオ処理システム１００は、オーディオ・データのデコード可能な集合のそれぞれの部分を担持する四つのビットストリーム・フレーム３１１、３１２、３１３、３１４のグループ３１０の形でビットストリーム・フレームを提供する。しかしながら、ビデオ・フレームのストリームV1がビデオ・フレームの他のストリームとスプライシングされる場合、スプライシング後のビデオ・フレームのデコードを容易にするため、スプライシングは、独立して符号化されたビデオ・フレームIに隣接する点において実行されてもよい。オーディオ・ビデオ同期を維持するために、ビットストリーム・フレームのストリームA1は、ビデオ・フレームのストリームV1と同じスプライシング点においてスプライシングされてもよい。

別のビットストリーム・フレームのストリームとのスプライシング後のビットストリーム・フレームのデコードを容易にするために、オーディオ処理システム１００は、独立して符号化されたビデオ・フレームIに時間的に関係したオーディオ信号Xのセグメントを、オーディオ・データのデコード可能な集合としてエンコードする。これは、オーディオ信号Xの前記第二のサンプル数に対応する短縮された変換ストライドを用いて信号解析を適用することによる。前記第二のサンプル数はたとえば、独立して符号化されたビデオIフレームの継続時間に対応してもよい。

基本ストライドでの信号解析が用いられるエンコードと同様に、短縮されたストライドでの信号解析を用いるエンコードは、短縮されたストライドを変換ストライドとしてもつ窓掛け変換、たとえばMDCTを適用し、ダウンミックス信号からのオーディオ信号のそのセグメントのパラメトリック再構成のためのパラメータを決定することを含んでいてもよい。ここで、パラメータは、短縮されたストライドでの信号解析に基づいて決定される。短縮されたストライドに関連するオーディオ・データのデコード可能な集合は、ダウンミックス信号およびパラメータを含んでいてもよい。

オーディオ処理システム１００は、オーディオ・データのデコード可能な集合を担持するビットストリーム・フレーム３２１を含む。該デコード可能な集合は、他のビットストリーム・フレームによって担持されるオーディオ・データへのアクセスなしに独立してデコードされうる。ビットストリーム・フレームのストリームA1において、ビットストリーム・フレーム３２１には、オーディオ・データのデコード可能な集合のそれぞれの部分を担持する四つのビットストリーム・フレーム３３１、３３２、３３３、３３４のもう一つのグループ３３０が続く。

オーディオ処理システム１００はたとえば、短縮されたストライドでの信号解析を適用することによってオーディオ信号Xの諸セグメントをエンコードするよう構成された追加的なエンコード部（図１には示さず）を有していてもよい。あるいはまた、エンコード部１１０が、短縮されたストライドを用いるよう動作可能であってもよく、フレーム構成し直し部１２０は、短縮されたストライドに関連するオーディオ・データのデコード可能な集合を担持するビットストリーム・フレーム３２１を、ビットストリームBに含めるよう動作可能であってもよい。

図３を参照して述べた例では、ある種の位置における独立して符号化されたビデオ・フレームIの存在が、短縮された変換ストライドに関連するオーディオ・データのデコード可能な集合を担持するビットストリーム・フレーム３２１を、四つのビットストリーム・フレームのグループ３１０、３３０の間に含めることによって扱われてもよい。しかしながら、少なくともいくつかの例示的なシナリオでは、独立して符号化されたビデオ・フレームIの位置は先験的には知られていないことがあり、および／または独立して符号化されたビデオ・フレームIは、四つのビットストリーム・フレームのグループの間の位置に一致しない位置に現われることがある。そのようなシナリオは図４に示されている。

ビットストリームBおよびビデオ・フレームの関連するストリームは図４では、ビットストリーム・フレームの別のビットストリームA2およびビデオ・フレームの別のストリームV2によって例示されている。ここで、時間tは右向きに伝搬する。

図３を参照して述べた例示的なシナリオと同様に、ビットストリーム・フレームは、オーディオ処理システム１００によって、四つのビットストリーム・フレームのグループ４１０、４３０の形で提供される。しかしながら、ひとたびビデオ・フレームのストリームV2において独立して符号化されたビデオ・フレームIが検出されたら、四つの連続するビットストリーム・フレーム４２１、４２２、４２３、４２４がオーディオ処理システム１００によって、各フレームについて短縮されたストライドを用いて、エンコードされる。ビデオ・フレームのストリームV2における独立して符号化されたビデオ・フレームIの位置に依存して、独立して符号化されたビデオ・フレームIは、短縮された変換ストライドを使って提供される四つのビットストリーム・フレームのグループ４２１、４２２、４２３、４２４のいずれかに対応しうる。今のシナリオでは、独立して符号化されたビットストリーム・フレーム４２３は、基本ストライドを使ってエンコードされたビットストリームA2における四つのビットストリーム・フレームのいずれかのグループに対するビデオ・フレームのストリームV2中での独立して符号化されたビデオ・フレームIの位置に関わりなく、独立して符号化されたビデオIに対応するビットストリームA2中の位置に与えられてもよい。今のシナリオでは、ビデオ・フレームのストリームV2における独立して符号化されたビデオ・フレームIの存在に関わりなく、ビットストリーム・フレームは四つのビットストリーム・フレームのグループの形で編成される。

図２は、ある実施形態に基づく、オーディオ信号をオーディオ・ビットストリームによって表現する方法２００のフローチャートである。方法１１０はここでは、図１を参照して述べたオーディオ・エンコード・システム１００によって実行される方法によって例示される。

方法２００は、ビデオ・フレームのストリームV1の現在フレームが独立して符号化されているかどうかを検出すること２１０を含む。フローチャートにおいてNによって示されるように、現在フレームが独立して符号化されているのでなければ、方法２００は、少なくとも基本ストライドでの信号解析を用いることによって、オーディオ信号Xのセグメントをオーディオ・データのデコード可能な集合Dとしてエンコードし２２０；オーディオ・データのデコード可能な集合DをN個の部分D₁、D₂、…、D_Nに分解し２３０；それぞれの部分D₁、D₂、…、D_Nを担持するN個のビットストリーム・フレームF₁、F₂、…、F_Nを形成し２４０；形成されたビットストリーム・フレームF₁、F₂、…、F_NをビットストリームBの一部として出力する２５０ことによって続けられる。方法２００は次いで、オーディオ信号Xの他のセグメントのエンコードに戻る。

他方、フローチャートにおいてYによって示されるように、ビデオ・フレームのストリームV1の現在フレームが独立して符号化されている場合には、方法２００は、上記の代わりに、少なくとも短縮されたストライドでの信号解析を用いることによって、オーディオ信号Xのセグメントをオーディオ・データのデコード可能な集合Dとしてエンコードし２６０；オーディオ・データの第二のデコード可能な集合を担持するビットストリーム・フレームをビットストリームBに含める２７０ことによって続けられる。方法２００は次いで、オーディオ信号Xの他のセグメントのエンコードに戻る。

図５は、ある例示的実施形態に基づく、ビットストリームによって表現されているオーディオ信号を再構成するためのオーディオ処理システム５００の一般化されたブロック図である。

本例示的実施形態では、ビットストリームは、図１を参照して述べたオーディオ処理システム１００によって出力されるビットストリームBによって例示される。下記では、オーディオ処理システム５００によって受領される前にたとえばフレーム脱落および／またはフレーム複製によって修正されているビットストリームをオーディオ処理システム５００が受領する例示的実施形態も記述される。

オーディオ処理システム５００は、バッファ５１０およびデコード部５２０を有する。バッファ５１０はそれぞれのビットストリーム・フレームF₁、F₂、…、F_Nによって担持されるオーディオ・データの集合D₁、D₂、…、D_Nを、第一のフレーム・レート、たとえば30fpsおよびフレーム当たりオーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合Dに結合する。図１を参照して述べたように、ビットストリーム・フレームF₁、F₂、…、F_Nはビットストリーム・フレーム当たりオーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、第一のサンプル数は第二のサンプル数のN倍である。バッファ５１０は、結合されるべきオーディオ・データの集合D₁、D₂、…、D_Nを担持するフレームF₁、F₂、…、F_Nを識別するために、ビットストリーム・フレームによって担持されるメタデータμ₁、μ₂、…、μ_Nを用いる。

デコード部５２０は、図１を参照して述べた基本ストライド、すなわちオーディオ信号Xの第一のサンプル数に対応する基本ストライドをもってオーディオ・データのデコード可能な集合Dに基づいて信号合成を用いることによって、オーディオ・データのデコード可能な集合Dをオーディオ信号Xのセグメントにデコードする。オーディオ処理システム５００は、オーディオ信号の再構成されたバージョン〔チルダ付きX〕を出力する。

図１を参照して述べたように、オーディオ信号Xはマルチチャネル・オーディオ信号であり、オーディオ・データのデコード可能な集合Dは、ダウンミックス信号と、オーディオ信号Xのパラメトリック再構成のための関連するアップミックス・パラメータとを含む。デコード部５２０は、基本ストライドを用いて、オーディオ信号Xのセグメントの周波数領域表現のパラメトリック再構成を実行する。デコード部５２０は、次いで、オーディオ信号Xのセグメントの時間領域表現を得るために変換ストライドとして基本ストライドをもつ窓掛け変換、たとえば逆MDCTを適用する。

パラメトリック再構成が窓掛け変換とは異なるストライドをもって実行される実施形態も構想されうる。たとえば、窓掛け変換が基本ストライドより短い変換ストライドを用い、パラメトリック再構成が基本ストライドをもって実行される実施形態が構想されてもよい。

図３および図４を参照して述べたように、ビットストリームBはオーディオ・データのデコード可能な集合、すなわち短縮されたストライドを用いることによって互いとは独立してデコード可能なオーディオ・データの諸集合を担持するビットストリーム・フレームを含んでいてもよい。オーディオ処理システム５００はたとえば、短縮されたストライドを用いてオーディオ・データのデコード可能な集合をデコードするよう構成された追加的なデコード部（図５には示さず）を有していてもよい。あるいはまた、デコード部５２０が、短縮されたストライドを使ってオーディオ・デコーダのそのようなデコード可能な集合をデコードするよう動作可能であってもよく、バッファ５１０がオーディオ・データのそのようなデコード可能な集合を、他のビットストリーム・フレームからのオーディオ・データと結合することなく、デコード部５２０に転送するよう動作可能であってもよい。

短縮されたストライドを使ってデコードされたオーディオ信号Xのセグメントと基本ストライドを使ってデコードされたオーディオ信号Xのセグメントとの間のなめらかな切り換えを許容するために、オーディオ処理システム５００はたとえば、遅延を設けてもよい。それにより、前記第二のフレーム・レートでの、すなわち短縮されたストライドを用いてのN個の連続するビットストリーム・フレームのグループのデコードは、あたかも、それらのビットストリーム・フレームがそれぞれオーディオ・データのデコード可能な集合に結合することを必要とするオーディオ・データの諸集合を担持していたかのように、同時に完了する。バッファ５１０は、たとえば、そのような遅延を、オーディオ・データのデコード可能な集合をデコード部５２０への伝送前にバッファリングすることによって提供してもよい。あるいはまた、デコード部５２０が、該遅延を、オーディオ信号Xの再構成されたセグメントを、出力として与える前にバッファリングすることによって提供してもよい。

図１を参照して述べたオーディオ処理システム１００によって出力されるオーディオ・ビットストリームBは、図５を参照して述べるオーディオ処理システム５００によって受領される前に、たとえば他のビットストリームとのスプライシングによって、あるいはフレームのフレーム脱落／複製によって、修正されていてもよい。

図３を参照して述べたように、ビットストリーム・フレームは、ビデオ・フレームの関連するストリームV1における対応するビデオ・フレームと同じ継続時間を有していてもよい。オーディオビジュアル・データ・ストリームにおいてそのような同期されたオーディオ・ストリームA1およびビデオ・ストリームV1を用いることは、オーディオビジュアル・ストリームのスプライシングおよび／または同期を容易にする。

スプライシングを実行する装置またはコンポーネントは、スプライシング前または後にそれぞれの後にどの型のビットストリーム・フレームが配置されるかを考慮に入れる必要がないことがある。その代わり、オーディオ処理システム５００は、オーディオ・データのデコード可能な集合Dのそれぞれの部分D₁、D₂、…、D_Nを担持するグループのN個のビットストリーム・フレームF₁、F₂、…、F_Nのいくつかが、たとえばスプライシングおよび／またはフレーム脱落／複製のために、受領されたビットストリームBにおいて欠けている状況に対処するよう適応されていてもよい。オーディオ処理システム５００は、たとえばそれぞれのビットストリーム・フレームF₁、F₂、…、F_Nによって担持されるメタデータμ₁、μ₂、…、μ_Nに基づいて、ビットストリーム・フレームが欠けていることを検出するよう構成されていてもよい。

ひとたびデコードのために必要とされるビットストリーム・フレームが欠けていることが検出されたら、オーディオ処理システム５００はたとえば、オーディオ信号Xのデコードを続けるために、誤り隠蔽戦略を用いてもよい。隠蔽戦略はたとえば、ビットストリーム・フレームの不完全なグループ、すなわち受領されたビットストリームにおいて一つまたは複数のビットストリーム・フレームが欠けているグループにおいて、ビットストリーム・フレームによって担持されるオーディオ・データを無音によって（たとえばオーディオ信号Xについての周波数領域係数としての0によって）置き換えることを含んでいてもよい。オーディオ信号Xのデコード可能なセグメントとオーディオ信号Xのデコード可能でないセグメントを置換する無音との間の、聴取者によって知覚される、よりなめらかな遷移を与えるために、フェードアウトおよび／またはフェードインがたとえばオーディオ処理システム５００によって用いられてもよい。

いくつかの例示的実施形態では、オーディオ処理システム５００は、第二のフレーム・レートについての少なくとも二つの異なるあらかじめ定義された値に関連付けられているが、フレーム当たりの前記第二のサンプル数についての共通の値に関連付けられているビットストリームを受け入れてもよい。このことは表１において、第二のフレーム・レートについての値59.940fpsおよび60.000fpsならびにフレーム当たりの第二のサンプル数についての共通の値768によって例示されている。そのようなフレーム・レートは、これらのフレーム・レートをもつビデオ・ストリームに関連するオーディオ・ストリームにとって有用であることがありうる。

本例において、第二のフレーム・レートの値の相違は5%未満である。オーディオ処理システム５００は、第二のフレーム・レートのこれら二つの異なる値について基本ストライドについてと同じ値を用いてオーディオ信号Xをデコードするよう適応されてもよい。出願人の同時係属中の未公開の特許出願PCT/EP2014/056848に記載されているように（特に同出願の節〈II.例示的実施形態〉の図１および表１を記述する部分を参照）、第二のフレーム・レートにおける相違によって引き起こされるデコード部５２０の内部サンプリング周波数の変動は典型的にはあまりに小さいことがあり、相変わらず、聴取者によって知覚される再構成されたオーディオ信号Xの受け入れ可能な再生品質がオーディオ処理システム５００によって提供されうる。5%未満異なる第二のフレーム・レートの表１におけるもう一つの例は、第二のフレーム・レートについての値119.880fpsおよび120.000fpsならびにフレーム当たりの第二のサンプル数についての共通の値384によって与えられる。

表１に示されるように、ビデオ・フレーム・レートが60.00fpsである場合、第二のフレーム・レート60.000fpsをもつN＝2個のビットストリーム・フレームが、第一のフレーム・レート30.000fpsをもつオーディオ・データの一つのデコード可能な集合を表わすために用いられうる。同様に、ビデオ・フレーム・レートが59.940fpsである場合、第二のフレーム・レート59.940をもつN＝2個のビットストリーム・フレームが、第一のフレーム・レート29.970fpsをもつオーディオ・データの一つのデコード可能な集合を表わすために用いられうる。表１は、ビデオ・フレーム・レートが120fpsである場合、第二のフレーム・レート120.000をもつN＝4個のビットストリーム・フレームが、第一のフレーム・レート30.000fpsをもつオーディオ・データの一つのデコード可能な集合を表わすために用いられうることも示している。同様に、ビデオ・フレーム・レートが119.880fpsである場合、第二のフレーム・レート119.880fpsをもつN＝4個のビットストリーム・フレームが、第一のフレーム・レート29.970fpsをもつオーディオ・データの一つのデコード可能な集合を表わすために用いられうる。

図６は、ある例示的実施形態に基づく、ビットストリームによって表現されるオーディオ信号を再構成するオーディオ処理方法６００のフローチャートである。方法６００はここでは、図５を参照して述べたオーディオ処理システム５００によって実行される方法によって例示される。

方法６００は、受領されたビットストリーム・フレームが、第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を担持するかどうかを検出する６１０ことを含む。

フローチャートにおいてNによって示されるように、否定的である場合には、方法６００は、N個のそれぞれのビットストリーム・フレームF₁、F₂、…、F_Nによって担持されるオーディオ・データの集合D₁、D₂、…、D_Nを、第一のフレーム・レートおよびフレーム当たりのオーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合Dに結合し６２０；少なくとも、オーディオ信号Xの第一のサンプル数に対応する基本ストライドをもってデータのデコード可能な集合Dに基づいて信号合成を用いることによって、オーディオ・データのデコード可能な集合Dをオーディオ信号Xのセグメントにデコードする６３０ことによって続けられる。次いで、方法６００は、次の受領されたビットストリーム・フレームがオーディオ・データのデコード可能な集合を担持するかどうかを検出する６１０ことに戻る。

フローチャートにおいてYによって示されるように、肯定的である場合には、方法６００は、上記の代わりに、第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を、少なくとも、オーディオ信号Xの第二のサンプル数に対応する短縮されたストライドを用いることによって、オーディオ・データXのセグメントにデコードすること６４０によって続けられる。次いで、方法６００は、次の受領されたビットストリーム・フレームがオーディオ・データのデコード可能な集合を担持するかどうかを検出する６１０ことに戻る。

図７は、ある例示的実施形態に基づく、オーディオ信号を表わすオーディオ・ビットストリームをトランスコードするためのオーディオ処理システム７００の一般化されたブロック図である。

オーディオ処理システム７００は、受領部７１０と、任意的な処理部７２０と、フレーム構成し直し部７３０とを有する。受領部７１０は、たとえば図１を参照して述べた、第一のフレーム・レートおよびフレーム当たりのオーディオ信号の第一のサンプル数に対応するオーディオ・データのデコード可能な諸集合Dのシーケンスを含むビットストリームB1を受領する。受領部７１０は、ビットストリームB1からオーディオ・データのデコード可能な集合Dを抽出する。

（任意的な）処理部７２０は、オーディオ・データのデコード可能な集合Dを処理する。処理の性質に依存して、これは、初期にオーディオ・データを変換表現または波形表現にデコードすることを必要とすることがある；次いで、処理部７２０は信号合成、処理、信号解析というシーケンスを実行してもよい。

フレーム構成し直し部７３０は、オーディオ・データの処理されたデコード可能な集合DをN個の部分D₁、D₂、…、D_Nに分解し、それぞれの部分D₁、D₂、…、D_Nを担持するN個のビットストリーム・フレームF₁、F₂、…、F_Nを形成する。本例示的実施形態では、フレーム構成し直し部７３０は、図１を参照して述べたオーディオ処理システム１００におけるフレーム構成し直し部１２０と同じ動作を実行する。よって、ビットストリーム・フレームF₁、F₂、…、F_Nは、ビットストリーム・フレーム当たりオーディオ信号の第二のサンプル数に対応する第二のフレーム・レートをもち、フレーム構成し直し部７３０は、形成されたビットストリーム・フレームF₁、F₂、…、F_Nを含むビットストリーム・フレームにセグメント分割されたビットストリームB2を出力する。

オーディオ処理システム７００によって出力されるビットストリームB2はたとえば、図１を参照して述べたオーディオ処理システム１００によって出力されるビットストリームBと一致してもよい。オーディオ処理システム７００によって受領されるビットストリームB1はたとえば、当技術分野で既知のオーディオ・エンコーダによって提供される30fpsのオーディオ・ビットストリームであってもよい。

図１および図５を参照して記述したビットストリームBおよび図３を参照して記述したビットストリーム・フレームのビットストリームA1は、例示的実施形態に基づく、オーディオ信号Xを表わし、ビットストリーム・フレームにセグメント分割されているコンピュータ可読媒体の例であることは理解されるであろう。

Nが1より大きな任意の整数でありうることも理解されるであろう。

〈VI.等価物、拡張、代替その他〉
本開示は特定の例示的実施形態を記述し、図示しているが、本発明はそうした特定の例に制約されるものではない。上記の例示的実施形態に対する修正および変形が、付属の請求項によってのみ定義される本発明の範囲から外れることなく、なされることができる。

請求項において、単語「有する／含む」は、他の要素やステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項において記載されているというだけの事実が、それらの施策の組み合わせが有利に使用できないことを示すものではない。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。

上記で開示された装置および方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって分散式に実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル・プロセッサ、信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体（または非一時的な媒体）および通信媒体（または一時的な媒体）を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク（DVD）または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。

Claims

オーディオ信号をオーディオ・ビットストリームとして表現する方法であって：
前記オーディオ信号のセグメントを、少なくとも、前記オーディオ信号の第一のサンプル数に対応する基本ストライドをもって前記オーディオ信号の前記セグメントに対して信号解析を実行することによって、オーディオ・データの一つのデコード可能な集合としてエンコードする段階であって、前記オーディオ・データのデコード可能な集合は第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する、段階と；
前記オーディオ・データのデコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と；
それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階であって、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階と；
前に形成された前記N個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力する段階とを含む、
方法。
前記信号解析を実行することは、前記基本ストライドをもって：
スペクトル解析；
エネルギー解析；
エントロピー解析
からなる群のうちの少なくとも一つを実行することを含む、請求項１記載の方法。
前記オーディオ信号のセグメントをエンコードすることは：
前記基本ストライドを変換ストライドとしてもつ窓掛け変換を適用すること；
ダウンミックス信号と、該ダウンミックス信号からの前記オーディオ信号のパラメトリック再構成のためのパラメータとを計算することであって、前記パラメータは、前記信号解析に基づいて計算される、こと
からなる群のうちの少なくとも一つを含む、請求項１または２記載の方法。
前記諸部分を担持する前記N個のビットストリーム・フレームのうちの少なくとも一つにメタデータを含めることをさらに含み、前記メタデータは、オーディオ・データの完全なデコード可能な集合が、前記N個のビットストリーム・フレームによって担持される前記諸部分から取得可能であることを示す、
請求項１ないし３のうちいずれか一項記載の方法。
前記オーディオ・ビットストリームはビデオ・フレームのストリームに関連付けられており、当該方法はさらに：
ビデオ・フレームの前記ストリームがある型のビデオ・フレームを有することに応答して、前記ビデオ・フレームに時間的に関係した前記オーディオ信号のセグメントを、少なくとも、前記ビデオ・フレームに時間的に関係した前記オーディオ信号の前記セグメントに対して、前記オーディオ信号の前記第二のサンプル数に対応する短縮されたストライドを用いて信号解析を実行することによって、オーディオ・データの第二のデコード可能な集合としてエンコードする段階であって、前記オーディオ・データの第二のデコード可能な集合は前記第二のフレーム・レートおよびフレーム当たりの前記オーディオ信号の前記第二のサンプル数に対応する、段階と；
前記オーディオ・データの第二のデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含める段階とを含む、
請求項１ないし４のうちいずれか一項記載の方法。
ビデオ・フレームの前記ストリームが前記ある型のビデオ・フレームを有することに応答して、前記オーディオ信号のN個の連続するセグメントを、オーディオ・データのそれぞれのデコード可能な集合としてエンコードする段階であって、該エンコードが、前記N個の連続したセグメントのそれぞれについて、少なくとも、前記短縮されたストライドを用いて信号解析を適用することによって行なわれ、前記ビデオ・フレームに時間的に関係した前記セグメントは、前記N個の連続したセグメントのうちの一つである、段階と；
前記N個の連続したセグメントに関連付けられたオーディオ・データのそれぞれのデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含める段階とを含む、
請求項５記載の方法。
オーディオ信号をオーディオ・ビットストリームによって表現するためのオーディオ処理システムであって：
前記オーディオ信号のセグメントを、オーディオ・データの一つのデコード可能な集合としてエンコードするよう構成されたエンコード部であって、該エンコードは少なくとも、前記オーディオ信号の第一のサンプル数に対応する基本ストライドをもって前記オーディオ信号の前記セグメントに対して信号解析を実行することによって行なわれ、前記オーディオ・データのデコード可能な集合は第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する、エンコード部と；
フレーム構成し直し部とを有しており、前記フレーム構成し直し部は：
前記オーディオ・データのデコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と；
それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階であって、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階と；
前に形成された前記N個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力する段階とを実行するよう構成される、
システム。
ビットストリーム・フレームにセグメント分割されたビットストリームによって表わされるオーディオ信号を再構成する方法であって：
N個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合する段階であって、N≧2であり、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階と；
前記オーディオ・データのデコード可能な集合を、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードする段階とを含む、
方法。
前記オーディオ・データのデコード可能な集合をデコードすることは：
前記基本ストライドを変換ストライドとしてもつ窓掛け変換を適用すること；
前記オーディオ・データのデコード可能な集合から得られるダウンミックス信号および関連するパラメータに基づいて、前記オーディオ信号の前記セグメントの、前記基本ストライドでのパラメトリック再構成を実行すること
からなる群のうちの少なくとも一つを含む、
請求項８記載の方法。
オーディオ・データの諸集合が結合されてオーディオ・データのデコード可能な集合にされるもとになる前記N個のビットストリーム・フレームは、N個の連続するビットストリーム・フレームである、請求項８または９記載の方法。
前記ビットストリーム中のビットストリーム・フレームの少なくともいくつかによって担持されるメタデータに基づいて、ビットストリーム・フレームのグループを決定する段階であって、該グループは、該グループから、オーディオ・データの不完全な前記諸集合を結合して、前記オーディオ・データのデコード可能な集合にするためのグループである、
請求項８ないし１０のうちいずれか一項記載の方法。
あるビットストリーム・フレームが、前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を担持するかどうかを検出する段階と；
前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合を、少なくとも、前記第二のサンプル数に対応する短縮されたストライドをもって、前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードする段階とをさらに含む、
請求項８ないし１１のうちいずれか一項記載の方法。
前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合をデコードすることは：遅延を設けることを含み、該遅延は、前記第二のフレーム・レートでのN個の連続するビットストリーム・フレームのグループのデコードは、あたかも、N個のビットストリーム・フレームのそのグループのビットストリーム・フレームがそれぞれオーディオ・データのデコード可能な集合に結合することを必要とするオーディオ・データの諸集合を担持していたかのように、同時に完了するような遅延である、請求項１２記載の方法。
前記遅延は、前記第二のフレーム・レートに対応するオーディオ・データの少なくとも一つのデコード可能な集合をバッファリングすることまたは前記オーディオ信号の少なくとも一つのセグメントをバッファリングすることによって提供される、請求項１３記載の方法。
前記ビットストリームは、前記第二のフレーム・レートに一致するフレーム・レートをもつビデオ・フレームのストリームに関連付けられている、請求項８ないし１４のうちいずれか一項記載の方法。
前記第一のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて前記オーディオ信号のセグメントをデコードすることは：
前記第一のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に対応する量子化されたスペクトル係数を受領する段階と；
逆量子化およびそれに続く周波数から時間への変換を実行する段階であって、それにより中間オーディオ信号の表現が得られる段階と；
前記中間オーディオ信号に対して周波数領域で少なくとも一つの処理ステップを実行する段階と；
処理されたオーディオ信号のサンプリング・レートを目標サンプリング周波数に変える段階であって、それにより再構成されたオーディオ信号の時間領域表現が得られる、段階とを含む、
請求項８ないし１５のうちいずれか一項記載の方法。
前記第二のフレーム・レートについての少なくとも二つの異なる値に関連付けられているが、フレーム当たりの前記第二のサンプル数についての共通の値に関連付けられている複数のビットストリームを受け入れる、請求項１６記載の方法であって、前記第二のフレーム・レートのそれぞれの値は高々5%異なり、前記周波数から時間の変換は、前記第二のフレーム・レートについての前記少なくとも二つの異なる値について、前記基本ストライドについての共通のあらかじめ定義された値を変換ストライドとしてもつ窓掛け変換を用いるよう構成された機能コンポーネントにおいて実行される、方法。
ビットストリーム・フレームにセグメント分割されたビットストリームによって表わされるオーディオ信号を再構成するオーディオ処理システムであって：
N個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合するよう構成されたバッファであって、N≧2であり、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、バッファと；
前記オーディオ・データのデコード可能な集合を前記オーディオ信号のセグメントにデコードするよう構成されたデコード部であって、該デコードは、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記データのデコード可能な集合に基づいて信号合成を用いることによる、デコード部とを有する、
システム。
オーディオ信号を表わすオーディオ・ビットストリームをトランスコードする方法であって、前記ビットストリームは、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データのデコード可能な諸集合のシーケンスを含み、当該方法は：
前記ビットストリームからオーディオ・データのデコード可能な集合を抽出する段階と；
オーディオ・データの前記デコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と；
それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階であって、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階と；
前に形成された前記N個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力する段階とを含む、
方法。
オーディオ信号を表わすオーディオ・ビットストリームをトランスコードするオーディオ処理システムであって、前記ビットストリームは、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データのデコード可能な諸集合のシーケンスを含み、当該オーディオ処理システムは：
前記ビットストリームからオーディオ・データのデコード可能な集合を抽出するよう構成された受領部と；
フレーム構成し直し部とを有し、前記フレーム構成し直し部は：
オーディオ・データの前記デコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と；
それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階であって、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階と；
前に形成された前記N個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力する段階とを実行するよう構成される、
システム。
請求項１ないし６、８ないし１７および１９のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
ビットストリーム・フレームにセグメント分割された、オーディオ信号を表わすコンピュータ可読媒体であって、
前記ビットストリーム・フレームのN個が、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合できる、オーディオ・データのそれぞれの集合を担持し、N≧2であり；
前記オーディオ・データのデコード可能な集合は、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードされることができ；
それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し；
前記第一のサンプル数は前記第二のサンプル数のN倍である、
コンピュータ可読媒体。
前記N個のビットストリーム・フレームの少なくとも一つが、そこからオーディオ・データの諸集合をオーディオ・データのデコード可能な集合に結合するビットストリーム・フレームのグループを指示するメタデータを担持する、請求項２２記載のコンピュータ可読媒体。
オーディオ・データの第二の集合を担持するビットストリーム・フレームをさらに含み、前記オーディオ・データの第二の集合は、少なくとも、前記オーディオ信号の前記第二のサンプル数に対応する短縮されたストライドをもって、オーディオ・データの前記第二の集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードされることができる、請求項２２または２３記載のコンピュータ可読媒体。
N＝2またはN＝4である、請求項１ないし６、８ないし１７および１９のうちいずれか一項記載の方法、請求項７、１８および２０のうちいずれか一項記載のシステム、請求項２１記載のコンピュータ・プログラム・プロダクトまたは請求項２２ないし２４のうちいずれか一項記載のコンピュータ可読媒体。