JP2007501553A

JP2007501553A - オーディオシーンでのオーディオ表現を生成し、保存し、編集するための装置および方法

Info

Publication number: JP2007501553A
Application number: JP2006522307A
Authority: JP
Inventors: フランクメルキオル; ヤンラングハマー; トーマスレダー; カトリーンムエニッヒ; サンドラブリックス
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2003-08-04
Filing date: 2004-08-02
Publication date: 2007-01-25
Anticipated expiration: 2024-08-02
Also published as: EP1652405B1; US7680288B2; WO2005017877A3; ATE390824T1; WO2005017877A2; EP1652405A2; DE10344638A1; CN100508650C; US20050105442A1; CN1849845A; JP4263217B2

Abstract

オーディオシーンでのオーディオ表現を生成し、保存し、または編集する装置は、複数のスピーカ信号を複数の入力チャンネル（１６）から生成するオーディオ処理手段（１２）とともに、オーディオシーンのオブジェクト指向記述を提供する手段（１０）とを含み、オーディオシーンのオブジェクト指向記述は、複数のオーディオオブジェクトを含み、オーディオオブジェクトが、オーディオ信号と開始時刻と終了時刻とに対応付けられている。提供装置はさらに、オーディオシーンのオブジェクト指向記述を複数の入力チャンネルにマッピングするためのマッピング手段（１８）により、それ自体を識別し、時間的に重複するオーディオオブジェクトの並列入力チャンネルへの割り当てを、マッピング手段により実行し、時間的に連続するオーディオオブジェクトが、同じチャンネルに対応付けられている。これにより、オブジェクト指向表現を、チャンネル指向表現にすることにより、オブジェクト指向側ではシーンの最適な表現を用いることができ、チャンネル指向側では、チャンネル指向コンセプトをユーザが用いて操作することができる。

Description

本発明は波面合成の分野にあって、特に、オーディオシーンでのオーディオ表現を生成し、保存し、編集するための装置および方法に関する。

娯楽用電子機器の分野で新規の技術および革新的な製品に対する必要性が高まっている。ここで、最適な機能または性能、それぞれを提供するにあたって、新規のマルチメディアシステムが成功するための重要な前提がある。これを、デジタル技術および特にコンピュータ技術を用いることにより達成する。従って、例としては、音響映像の印象の臨場感を向上させるのに適用するものである。従来技術のオーディオシステムでは、現実そして仮想環境での空間音声再生の品質に重大な弱点がある。

オーディオ信号のマルチチャンネルスピーカ再生方法は周知のものであり、長年の間標準化されてきている。通常の技術はすべて、スピーカの配置および聴取者の位置がともに、すでに伝送フォーマットに固定されているという欠点を有している。スピーカを聴取者に対して間違って配置した場合、オーディオの品質が非常に劣化する。最適なサウンドは、再生空間の非常に狭い範囲、いわゆるスイートスポットだけで可能である。

向上した自然な空間印象とともにオーディオ再生中のより丈夫なスピーカボックスは、新規の技術のサポートより達成することができる。この技術の原理である、いわゆる波面合成（ＷＦＳ）は、デルフト工科大（ＴＵＤｅｌｆｔ）で研究が行われ、１９８０年代後半に初めて発表されたものである（ベルクホウト（Ｂｅｒｋｈｏｕｔ）、Ａ．Ｊ．ドフリース（ｄｅＶｒｉｅｓ）、Ｄ．フォーゲル（Ｖｏｇｅｌ）、Ｐ．：波面合成による音響制御（ＡｃｏｕｓｔｉｃｃｏｎｔｒｏｌｂｙＷａｖｅ‐ｆｉｅｌｄＳｙｎｔｈｅｓｉｓ）ＪＡＳＡ９３，９９３年）。

コンピュータの能力と伝送速度というこの方法が持つ非常に大きな要件のために、波面合成は、これまで実際にはほとんど用いられていなかった。しかし、マイクロプロセッサ技術およびオーディオ符号化分野の進歩により、今日、この技術を特定の適用例に用いることができる。専門分野での第１の製品は、来年期待されている。数年の間に、民生用分野の最初の波面合成適用例が販売されることになっている。

ＷＦＳの基本的な考えは、ホイヘンスの原理の波動説を応用したものに基づいている。

波動で得た各点は、球形または円形の経路において要素波の伝搬する場合の始点である。

音響学に応用する場合、互いに横に配列した非常に数多くののスピーカ（いわゆるスピーカアレイ）により、到来波面の任意の形がそれぞれを再生することができる。最も単純な場合では、１つの点音源を再生し、スピーカを線形配列する場合、個別のスピーカから出力した音場が適切に重畳するように、各スピーカのオーディオ信号を時間遅延および振幅変倍で供給する必要がある。音源をいくつか用いることにより、各スピーカに対する寄与率を音源ごとに別々に算出して、得られる信号を加算する。もし、反射壁面のある室内に再生する音源が存在する場合は、反射についても、追加の音源としてスピーカアレイを介して再生することができる。従って、算出労力は、音源と、録音室の反射特性と、スピーカの数とに非常に依存している。

特に、この技術特有の利点は、再生空間の広い範囲にわたって自然の空間音声インプレッションが可能であることである。周知の技術と対照的に、音源からの方向と距離とを非常に正確に再生する。程度は限られているが、実際のスピーカアレイと聴取者との間にバーチャル音源を配置することもできる。

その特性が周知の環境に対して波面合成は十分機能するが、特性が変わったり、環境の実際の特性に一致しない環境特性に基づいて波面合成を行ったりした場合は、それぞれ不規則性が発生する。

しかしながら、波面合成技術は、対応する空間オーディオ知覚を仮想知覚に追加するために効果的に用いることができる。従来では、バーチャルスタジオでの製作中は、最前面において仮想シーンにおける真の仮想インプレッションの伝達であった。画像と一致した音響インプレッションは通常、いわゆるポストプロダクションと呼ばれるマニュアル操作工程により後からオーディオ信号に組み込まれるものであるが、実現するには非常にコストがかかり、時間がかかると考えられているので、無視されている。これにより、一般的に、個別の感覚印象の間で矛盾が発生してしまい、設計した空間、すなわち、設計したシーンを、本物より劣っているように思ってしまうことになる。

一般に言えば、オーディオ素材、例えば映画は、多数のオーディオオブジェクトから成る。オーディオオブジェクトは、映画の設定における音源である。映画のシーンについて考えると、例えば、２人の人間が、互いに向かい合わせに立って話をしている時に、同時に、例えば馬に乗った人および列車が近づいてくる場合、ある特定の時間では、４つの音源がこのシーンに存在することになる。すなわち、２人の人間と、近づいてくる馬に乗った人と、走ってくる列車とである。話をしている２人の人間が同時に話をやめると仮定すると、ある時刻では、少なくとも２つのオーディオオブジェクトが、少なくともアクティブになっている必要がある。この時刻に２人の人間が黙っている場合では、すなわち、馬に乗った人と列車とである。しかしながら、一方の人間が別の時刻に話をしている場合は、３つのオーディオオブジェクトがアクティブになっている。すなわち、馬に乗った人と、列車と、一方の人間である。２人の人間が実際に同時に話をしている場合では、この時刻では４つのオーディオオブジェクトがアクティブになっている。すなわち、馬に乗った人と、列車、第１の人間と、第２の人間とである。

一般に言えば、オーディオオブジェクトが、ある特定の時刻でアクティブまたは“生きている”、映画の設定における音源を表すというように、オーディオオブジェクトはそれ自体を表現している。オーディオオブジェクトはさらに、開始時刻と終了時刻とにより特徴づけられていることを意味している。前者の例では、馬に乗った人および列車は、例えば、全設定の間アクティブになっている。両方が近づいてくる場合は、聴取者は、馬に乗った人および列車のサウンドが大きくなることでこれを認識する。そして、最適な波面合成設定では、これらの音源の位置についても適応可能であれば、それに応じて変化する。一方、会話をしている２人の話す人は常に、新しいオーディオオブジェクトを生成する。一方の話す人が話をやめると必ず現在のオーディオオブジェクトが終了して、もう一方のスピーカが話し始めると新しいオーディオオブジェクトが開始するからである。これは、もう一方の話す人が話をやめるとやはり終了する。第１の話す人が再び話し始めると、新しいオーディオオブジェクトをやはり開始する。

ある特定の量の入力チャンネルから、すなわち波面合成スピーカアレイのスピーカのそれぞれの位置を知ることから、ある特定の量のスピーカ信号を生成することができる既存の波面合成レンダリング手段がある。

波面合成レンダリング装置は、ある意味波面合成システムの“心臓部”である。これは、振幅および位相が正確になるように、スピーカアレイの多数のスピーカのスピーカ信号を算出するので、ユーザには、最適な視覚的印象ばかりでなく最適な音響的印象も提供する。

６０年代後半になってマルチチャンネルオーディオが映画に導入されるようになり、実際にシーンの中にいるような印象を聴取者に与えることが、常に音響技師の目的となっている。サラウンドチャンネルを再生システムに加えることが、さらに節目となっている。９０年代になって、新しいデジタルシステムが導入され、オーディオチャンネルの数が増加するようになってきた。現在では、５．１または７．１システムが映画再生の標準システムとなっている。

多くの場合、これらのシステムは、映画の印象を創造的にサポートする優れた可能性となり、音響効果、環境音、またはサラウンドミキシング音楽に優れた可能性を与える必要がある。一方、波面合成技術は非常に柔軟性があり、この点で最大の自由が得られる。

しかし、５．１または７．１システムが用いられるようになって、映画サウンドトラックのミキシングを処理するために、“標準化した”やり方が行われるようになった。

再生システムは通常、スピーカの位置が固定されている。５．１の場合では、左チャンネル（“レフト”）、中央チャンネル（“センタ”）、右チャンネル（“ライト”）、サラウンド左チャンネル（“サラウンドレフト”）、およびサラウンド右チャンネル（“サラウンドライト”）である。これらの固定した（数少ない）位置のために、音響技師が求める理想的なサウンドイメージは、少数の座席、いわゆるスイートスポットに限られている。上記の５．１の配置の間に仮想音源を用いると、向上が見られる場合もあるが、必ずしも満足の行く結果になるとは限らない。

映画のサウンドは通常、セリフ、効果音、環境音、および音楽から構成される。５．１および７．１システムの制約を考慮に入れて、これらの要素がそれぞれをミキシングされる。一般に、セリフは中央チャンネル（７．１システムでは、さらにハーフレフトおよびハーフライト位置）でミキシングが行われる。これは、俳優がスクリーンを横切ると、サウンドが追従しないことを意味する。移動するサウンドオブジェクトの効果音は、素早く移動する場合に限って実感できるので、聴取者は、音響伝送一方のスピーカから他方へサウンドが伝わることを認識することができない。

フロントスピーカとサラウンドスピーカとの間の可聴ギャップが大きいために、横方向の音源についても配置することができないので、オブジェクトが後方から前方へ、またはこの逆に、ゆっくりと移動することができない。

また、サラウンドスピーカをスピーカの拡散アレイ内に配置することができないので、聴取者に対してある種の包絡を表すサウンドイメージを生成することになる。従って、このように正確に配置された音源に伴う耳障りな干渉音場を回避するために、聴取者の後ろに正確に配置された音源を省くことになる。

聴取者が認識する音場を構築するための全く新しいやり方である波面合成は、これらの基本的な欠点を克服する。映画館に対する応用の重要性は、オブジェクトの２次元配置に対して制約を受けることなく、正確なサウンドイメージ達成できることである。これにより、映画館向けの設計およびサウンドミキシングを行う際に、多種多様の可能性がもたらされる。波面合成技術により達成される完全なサウンドイメージ再生により、音源を自由に配置できるようになる。また、聴取者の空間内の音源とともに、聴取者の空間の外にある音源についても焦点を合わせて音源を配置できるようになる。

さらに、安定した音源方向および安定した音源位置を、点形成放射（ｐｏｉｎｔ−ｓｈａｐｅｄｒａｄｉａｔｉｎｇ）音源または平面波を用いて生成することもできる。最後に、聴取者の空間の内外または聴取者の空間を介して、音源を自由に移動させることもできる。

これにより、創造的な現実性を提供する大きな可能性をもたらし、そして、スクリーン上の映像に従って、例えば全セリフに対して音源を正確に配置する可能性もたらすことになる。これとともに、実際に、視覚的にも音響的にも聴取者を映画にはめ込むことができるようになる。

歴史的な事情により、サウンド設計、すなわちサウンド録音係の行動は、チャンネルまたはトラックパラダイムに基づいている。符号化フォーマットまたはスピーカの数、すなわち５．１システムまたは７．１システムにより、再生セットアップが決められることを意味している。特に、特定のサウンドシステムは、やはり特定の符号化フォーマットを必要とする。その結果、すべてのミキシングを再び行わなければマスタファイルを少しも変更することができない。例えば、最終的なマスタファイルで選択的にセリフトラックを変更することができない。すなわち、このシーンでの他のサウンドを全て変更しなければ、これを変更することができない。

一方、視聴者／聴取者はチャンネルに無関心である。どのサウンドシステムでサウンドが生成されているか、元々のサウンドの内容がオブジェクト指向で、チャンネル指向で表現されているかどうか等について、無頓着である。聴取者はまた、オーディオ設定のミキシングが行われたか、そしてどのように行われたかについても関心がない。聴取者ついて考慮に入れることは、サウンドインプレッションだけである。すなわち、映画に対するサウンド設定が好きか、あるいはサウンド設定が映画にあった方がいいのかないほうがいいかということである。

一方、新しいコンセプトが、新しいコンセプトで作業する人間に受け入れられることが、本質的なことである。サウンド録音係は、サウンドミキシングを担当している。サウンド録音係は、チャンネル指向パラダイムのためにチャンネル指向で作業するように“調整されている”。彼らにとっては、例えば５．１サウンドシステムの映画館では、実際に６つのチャンネルをミキシングすることが目標となっている。これは、オーディオオブジェクトについてのことではなく、チャンネル指向についてのことである。この場合は、オーディオオブジェクトは一般に、開始時刻も終了時刻も持たない。その代わり、スピーカの信号は、映画の初めの１秒から映画の最終秒までアクティブになっている。これは、一般的な映画館のサウンドシステムの（いくつかの）スピーカのうちの１つを介して、あるサウンドが生成されているという事実によるものである。バックグラウンド音楽だけであっても、特定のスピーカを介した音源が常に存在する必要があるからである。

この理由から、オーディオ信号を対応付けられた情報とともに入力チャンネルに入力する場合には、波面合成スピーカアレイの個別のスピーカまたはスピーカ群のスピーカ信号を生成する、ある特定の量の入力チャンネルを有するように、チャンネル指向で動作するように、既存の波面合成レンダリング装置を用いる。

一方、原則的には、制限のない大量のオーディオオブジェクトが存在して、映画で観察される、すなわちオーディオシーンで観察されるようになるという事に関する限り、波面合成の技術により、オーディオシーンが基本的に“よりトランスペアレント”になる。オーディオシーンにおけるオーディオオブジェクトの量がオーディオ処理手段のデフォルトの最大量の入力チャンネルを一般的に常に越えている場合には、チャンネル指向波面合成レンダリング手段が問題となることもある。さらに、ユーザにとって、すなわちサウンド録音係にとって、例えば、ある特定の時刻では存在するが、別の時刻では存在しなかったりするもの、すなわち、確定した開始と確定した終了時刻とを有する、多数のオーディオオブジェクトといった、オーディオシーンでのオーディオ表現を生成することは、混乱させることであるから、サウンド録音係と波面合成との間にやはり心理的な敷居を作ってしまうこととなる。しかしながら、実際には、サウンド録音係にとって、大きな創造的な可能性を構築することが期待されている。

Ｂｅｒｋｈｏｕｔ，Ａ．Ｊ．、ｄｅ、Ｖｒｉｅｓ，Ｄ．およびＶｏｇｅｌ，Ｐ．著「波面合成による音響制御」（ＡｃｏｕｓｔｉｃｃｏｎｔｒｏｌｂｙＷａｖｅ‐ｆｉｅｌｄＳｙｎｔｈｅｓｉｓ）、ＪＡＳＡ９３、１９９３年

本発明の目的は、対応するツールを求めるユーザに広く受け入れられる、オーディオシーンでのオーディオ表現を生成し、保存し、編集するためのコンセプトを提供することである。

この目的は、請求項１に記載のオーディオシーンでのオーディオ表現を生成し、保存し、編集するための装置、請求項１５に記載のオーディオシーンでのオーディオ表現を生成し、保存し、編集するための方法、または、請求項１６に記載のコンピュータプログラムにより達成される。

本発明は、オーディオオブジェクトについて、一般的な映画設定で発生するように、単にオブジェクト指向記述は、明瞭で効率的なやり方で処理可能であるという知見に基づいている。オーディオ信号を有し、確定した開始時刻と確定した終了時刻とに対応付けられているオブジェクトを有するオーディオシーンのオブジェクト指向記述は、実際の一般的な状況に対応している。サウンドが全時間にわたって存在することは、いずれにしろめったに発生しない。その代わり、例えばセリフでは、セリフの相手が話を始めて話をやめたり、あるいはサウンドは通常、始まりと終わりがあることが一般的である。それに関する限り、実際の各音源をそれ自体が有するオブジェクトに対応付けるオブジェクト指向オーディオシーン記述は、自然な状況に適用するので、透過性、明瞭性、効率性、および理解度に関して最適なものになる。

一方、例えば、オーディオ表現をオーディオシーンから生成したいと考えているサウンド録音係、すなわち彼らの創造的な可能性を滑り込ませて、映画館におけるオーディオシーンでのオーディオ表現を“同期”させたいと考えるサウンド録音係は、特殊音響効果についても考慮に入れる場合がある。チャンネルパラダイムのために、一般にハードウェア実現ミキシングデスクまたはソフトウェア実現ミキシングデスクいずれかと協働して用いられ、これにより、結果的に、チャンネル指向作業方法へ変換が行われる。ハードウェア実現ミキシングデスクまたはソフトウェア実現ミキシングデスクにおいては、各チャンネルがレギュレータ、ボタン等を有し、これにより、このチャンネル内のオーディオ信号を操作する、すなわち“ミキシング”を行う。

本発明によれば、命を吹き込むようなオブジェクト指向オーディオ表現と、サウンド録音係の真価を発揮できるようなチャンネル指向表現との間のバランスを、オーディオシーンのオブジェクト指向記述を波面合成レンダリング装置等のオーディオ処理手段の複数の入力チャンネルにマッピングするために用いられる、マッピング手段により達成する。本発明によれば、マッピング手段を、第１のオーディオオブジェクトを入力チャンネルに割り当てて、その開始時刻が第１のオーディオオブジェクトの終了時刻の後にある第２のオーディオオブジェクトを同じ入力チャンネルに割り当てて、その開始時刻が第１のオーディオオブジェクトの開始時刻の後にあって第１のオーディオオブジェクトの終了時刻の前にある第３のオーディオオブジェクトを複数の入力チャンネルのうちの別のものに割り当てるように構成する。

同時に発生するオーディオオブジェクトを波面合成レンダリング装置の異なる入力チャンネルに割り当てるが、連続して発生するオーディオオブジェクトは同じ入力チャンネルに割り当てるというこの時間的な割り当てが、非常にチャンネルエフィシエントであることがわかった。波面合成レンダリング装置の比較的少ない数の入力チャンネルが平均して占有されることにより、一方では明瞭になり、他方では、演算集約的波面合成レンダリング装置の演算効率にとって都合が良くなることを意味している。同時占有チャンネルが平均して比較的小さな数であるので、ユーザ、すなわち、例えばサウンド録音係は、この瞬間にどのオブジェクトがアクティブになっていて、この瞬間にどのオブジェクトがアクティブでないかという問題を、多数の入力チャンネルから探し求めることなく、ある特定の時刻でのオーディオシーンの複雑性の概要を素早くわかる。他方、ユーザは、自分が用いるチャンネルレギュレータにより、オーディオオブジェクトの操作をオブジェクト指向表現として簡単に行うことができる。

進歩性のあるコンセプトが広く受け入れられるように期待されている点は、ユーザに対して、進歩性のあるコンセプトを、なじみのある作業環境に提供することである。しかしながらこれは、さらに高い革新的な可能性を含んでいる。従って、オブジェクト指向オーディオアプローチをチャンネル指向レンダリングアプローチにマッピングすることに基づく進歩性のあるコンセプトは全ての用件の真価を発揮させることになる。一方、すでに述べたように、オーディオシーンのオブジェクト指向記述は、自然に最適に適用されるので、効率的になり明瞭になる。他方、技術をユーザに合わせたり、またはその逆にしたりするという点で、ユーザのくせや必要性を考慮に入れる。

本発明の好適な実施の形態について、添付の図面を参照して説明する。
図１は、オーディオ表現を生成する進歩性のある装置のブロック回路図である。
図２は、図１に示すコンセプトのためのユーザインターフェースの概略の説明図である。
図３ａは、本発明の一実施の形態による、図２のユーザインターフェースの概略の説明図である。
図３ｂは、本発明の別の実施の形態による、図２のユーザインターフェースの概略の説明図である。
図４は、好適な実施の形態による、進歩性のある装置のブロック回路図である。
図５は、各種のオーディオオブジェクトを有するオーディオシーンの時間図である。
図６は、図５に示すオーディオシーンに対する、本発明によるオブジェクトとチャンネルとの間の１：１変換の比較およびオブジェクトチャンネル割り当てである。

図１は、オーディオシーンでのオーディオ表現を生成する進歩性のある装置のブロック回路図を示す。進歩性のある装置は、オーディオシーンのオブジェクト指向記述を提供する手段１０を含む。オーディオシーンのオブジェクト指向記述は、複数のオーディオオブジェクトを含み、オーディオオブジェクトは、少なくともオーディオ信号と、開始時刻と、終了時刻とに対応付けられている。進歩性のある装置はさらに、複数のスピーカ信号ＬＳｉ１４を生成するオーディオ処理手段１２を含んでいる。これは、チャンネル指向であり、複数のスピーカ信号１４を複数の入力チャンネルＥＫｉから生成する。提供手段１０と、例えば、ＷＦＳレンダリング装置として形成されるチャンネル指向オーディオ信号処理手段との間に、オーディオシーンのオブジェクト指向記述をチャンネル指向オーディオ信号処理手段１２の複数の入力チャンネル１６にマッピングするマッピング手段１８がある。マッピング手段１８は、第１のオーディオオブジェクトをＥＫ１等の入力チャンネルに割り当てて、その開始時刻が第１のオーディオオブジェクトの終了時刻の後にある第２のオーディオオブジェクトを入力チャンネルＥＫ１等の同じ入力チャンネルに割り当てて、その開始時刻が第１のオーディオオブジェクトの開始時刻の後にあって第１のオーディオオブジェクトの終了時刻の前にある第３のオーディオオブジェクトを入力チャンネルＥＫ２等の複数の入力チャンネルの別の入力チャンネルに割り当てるように構成されている。マッピング手段１８は従って、時間的に重複しないオーディオオブジェクトを同じ入力チャンネルに割り当てて、時間的に重複するオーディオオブジェクトを異なる並列入力チャンネルに割り当てるように構成されている。

好適な実施の形態では、チャンネル指向オーディオ信号処理手段１２は、波面合成レンダリング装置を含む。仮想位置に対応付けられるように、オーディオオブジェクトについても指定する。オブジェクトのこの仮想位置は、オブジェクトが生きている間に変更することもできる。これは、例えば、馬に乗った人がシーンの中央に近づいてきて、馬に乗った人のギャロップが次第に大きくなって、特に、聴取者空間に次第に近づいてくるといった場合に対応する。この場合は、オーディオオブジェクトは、このオーディオオブジェクトと開始時刻と終了時刻とに対応付けられているオーディオ信号ばかりでなく、さらに、時間とともに変化する仮想音源の位置や、さらに適応可能な場合には、点音源特性を持たせる必要があるかどうか、または視聴者に対して無限大の距離の仮想位置に対応する平面波を放出する必要があるかどうかといった、オーディオオブジェクトの特性を含むこともできる。技術的には、さらに音源の特性、すなわち、オーディオオブジェクトの特性についてわかっている。これは、図１のチャンネル指向オーディオ信号処理手段１２設備により、考慮に入れても良い。

本発明によれば、装置の構造を階層的に構築する。オーディオオブジェクトを受信するチャンネル指向オーディオ信号処理手段を直接提供手段と接続しないで、マッピング手段を介して接続する。これにより、全オーディオシーンについて情報が得られ、提供手段だけに保存することになり、マッピング手段およびチャンネル指向オーディオ信号処理手段が保存しなければならない全オーディオ設定に関する情報がより少なくなる。その代わり、マッピング手段１８およびオーディオ信号処理手段１２は両方とも、提供手段１０から供給されたオーディオシーンの命令に従って動作する。

本発明の好適な実施の形態では、図１に示す装置はさらに、図２に２０として示すユーザインターフェースを備えている。ユーザインターフェース２０を、入力チャンネル１つに対してユーザインターフェースチャンネルを１つ有するとともに、ユーザインターフェースチャンネル毎に好ましくは操作装置を有するように構成する。入力チャンネルＥＫｍに対するＥＫ１の利用率をユーザインターフェース２０に表示させるので、割り当て情報をマッピング手段から得るために、ユーザインターフェース２０は、そのユーザインターフェース入力２２を介してマッピング手段１８と接続される。出力側では、各ユーザインターフェースチャンネル対して操作装置機能を有している場合は、ユーザインターフェース２０は、提供手段１０に接続される。特に、ユーザインターフェース２０は、元々のバージョンに対して操作したオーディオオブジェクトを提供手段１０に提供するように構成される。従って、変更したオーディオシーンを取得して、次にそれをマッピング手段１８に提供して、それに応じて入力チャンネルに分配して、チャンネル指向オーディオ信号処理手段１２に分配する。

実施例によるが、ユーザインターフェース２０は、図３ａに示すようなユーザインターフェースとして構成される。すなわち、ユーザインターフェースが常に、現在のオブジェクトだけを表すようにする。あるいは、ユーザインターフェース２０が、図３ｂのように構築される。すなわち、入力チャンネルの全オブジェクトを常に表すようにする。図３ａおよび図３ｂではともに、タイムライン３０は、発生順でオブジェクトＡ、Ｂ、Ｃを含むように示されている。オブジェクトＡは、開始時刻３１ａおよび終了時刻３１ｂを含んでいる。ランダムに、図３ａでは、第１のオブジェクトＡの終了時刻３１ｂは、第２のオブジェクトＢの開始時刻と同時に発生する。これは、終了時刻３２ｂを有し、ランダムに、第３のオブジェクトＣの開始時刻とやはり同時に発生する。これもやはり、終了時刻３３ｂを有している。開始時刻３２ａおよび３３ｂは、終了時刻３１ｂおよび３２ｂに対応するが、簡略化のために図３ａ、３ｂには示していない。

図３ａに示すモードでは、現在のオブジェクトだけをユーザインターフェースチャンネルとして表示している。図３ａの右側に、ミキシングデスクチャンネルシンボル３４を示している。これは、スライダ３５とスタイルボタン３６を含んでいる。オブジェクトＢのオーディオ信号の特性または仮想位置等を変更するものである。３７で示される図３ａのタイムマークがオブジェクトＢの終了時刻３２ｂになるとすぐに、スタイルチャンネルイラスト３４はオブジェクトＢではなく、オブジェクトＣを表示する。例えば、オブジェクトＤがオブジェクトＢと同時に発生する場合は、図３ａのユーザインターフェースはさらに、入力チャンネルｉ＋１等のチャンネルを示す。図３ａに示す説明により、ある時刻での並列オーディオオブジェクトの数の概要を分かりやすくサウンド録音係に提供する。すなわち、実際にアクティブチャンネルの数を表示する。アクティブになっていない入力チャンネルは、図３ａに示す図２のユーザインターフェース２０の実施の形態に全く表示されない。

図３ｂに示す実施の形態では、入力チャンネルの全オブジェクトが、隣接して表示される。使用していない入力チャンネルの表示についても行われない。しかしながら、時間的に発生順に割り当てられたチャンネルが属する入力チャンネルｉを、３つの時間で表す。すなわち、ある時間ではオブジェクトチャンネルＡであったものが、別の時間ではオブジェクトチャンネルＢであり、さらに別の時間ではオブジェクトチャンネルＣとなる。本発明によれば、対応するソフトウェアまたはハードウェアレギュレータを通じてこのチャンネルレギュレータまたはチャンネルスイッチを介してオブジェクトのオーディオ信号をさらに操作することを、サウンド録音係が予測できるように、オブジェクトが現在当該チャンネルｉに供給されていて、例えば、複数のオブジェクトを遅かれ早かれこのチャンネルで実行することになるといった概要を、サウンド録音係に明瞭に提供するために、例えば、色または明るさで、オブジェクトＢに対して入力チャンネルｉというように（図３ｂの参照番号３８）チャンネルの強調を好適に行える。従って、図２のユーザインターフェース２０、特に、図３ａおよび図３ｂのその実施の形態は、マッピング手段１８が生成するチャンネル指向オーディオ信号処理手段の入力チャンネルの“占有率”を、所望の場合にはビジュアルイラストで提供するように構成される。

次に、図５を参照すると、図１のマッピング手段１８の機能の簡単な例を示す。図５は、各種のオーディオオブジェクトＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、およびＧを有するオーディオシーンを示す。オブジェクトＡ、Ｂ、Ｃ、およびＤは、時間的に重複することがわかる。言い換えれば、これらのオブジェクトＡ、Ｂ、Ｃ、およびＤはすべて、ある特定の時刻５０でアクティブである。一方、オブジェクトＥは、オブジェクトＡ、Ｂと重複していない。時刻５２からわかるように、オブジェクトＥは、オブジェクトＤおよびＣとだけ重複している。例えば時刻５４からわかるように、オブジェクトＦおよびオブジェクトＤが重複している。同じことが、オブジェクトＦおよびＧに当てはまる。例えば時刻５６で重複しているものの、オブジェクトＧは、オブジェクトＡ、Ｂ、Ｃ、Ｄ、およびＥとは重複していない。

多くの場合都合の悪い、簡単なチャンネル対応付けは、図５の例に示す、各オーディオオブジェクトを入力チャンネルに割り当てることである。図６の表の左側に示す１：１変換が得られることになる。このコンセプトの欠点は、多数の入力チャンネルが必要になったり、映画の場合では非常に早い、多数のオーディオオブジェクトが存在する場合には、波面合成レンダリング装置の入力チャンネルの数により、実際の映画設定における処理可能な仮想音源の数が限られてしまったりするという事実である。技術的な制限により創造的な可能性を妨げてしまってはならないので、もちろん、これは望ましいものではない。一方、この１：１変換は次の点で不確かなものである。一般に、各入力チャンネルがオーディオオブジェクトを取得することもあるが、特定のオーディオシーンについて考えると、一般に、比較的少ない数の入力チャンネルがアクティブになっているが、概要では全オーディオチャンネルが常に提供されているので、しかしながら、ユーザはこれを簡単に行使することができない。

さらに、オーディオオブジェクトをオーディオ処理手段の入力チャンネルに１：１割り当てを行うというこのコンセプトにより、オーディオオブジェクトの数をできるだけ少なくしたり、数の制限がないようにしたりするためには、入力チャンネルの数が非常に多いオーディオ処理手段を提供する必要があるという事実を導くことになる。このことは、ただちに計算量が増えることになり、個別のスピーカ信号を算出するために、オーディオ処理手段の計算能力と記憶容量とを必要とすることになる。これは、直接このようなシステムの価格が高くなってしまうことになる。

本発明によるマッピング手段１８により達成されているように、図５に示す例の、進歩性のある割り当てオブジェクトチャンネルを、図６の表の右側部分に示される。従って、並列オーディオオブジェクトＡ、Ｂ、Ｃ、およびＤを、入力チャンネルＥＫ１、ＥＫ２、ＥＫ３、およびＥＫ４それぞれに連続して割り当てる。オブジェクトＥを図６の左半分に示すように、入力チャンネルＥＫ５に割り当てる必要なないものの、入力チャンネルＥＫ１や、括弧で示すように、入力チャンネルＥＫ２等に、自由にチャンネルに割り当てることもできる。同じことがオブジェクトＦに当てはめられる。これを、原則的には入力チャンネルＥＫ４を除く全チャンネルに割り当てても良い。同じことがオブジェクトＧに当てはめられる。これを、以前にオブジェクトＦを割り当てたチャンネル（この例では入力チャンネルＥＫ１）をのぞき、全チャンネルに割り当てても良い。

本発明の好適な実施の形態では、マッピング手段１８は、元々の数ができるだけ小さいチャンネルを常に占有するように構成される。そして、可能な場合には常に、隣接する入力チャンネルＥＫｉおよびＥＫｉ＋１を占有するように構成する。これにより、ホールがなくなるようにする。他方、この“近傍機能”が本質的なものでない。なぜなら、例えば、レギュレータ３５またはちょうど現在のチャンネルであるミキシングデスクチャンネルイラスト３４のボタン３６により、進歩性のあるユーザインターフェースでこのチャンネルをまさに操作できるかぎりにおいては、オーディオ処理手段の、入力チャンネルの第１番目であるのか、第７番目であるのか、何番目のものを今操作しているのかどうかについて、本発明によるオーディオオーサシステムのユーザにとって意味がないからである。従って、ユーザインターフェースチャンネルｉは、必ずしも入力チャンネルｉに対応する必要はないが、ユーザインターフェースチャンネルｉが、例えば、入力チャンネルＥＫｍに対応して、ユーザインターフェースチャンネルｉ＋１が入力チャンネルｋ等に対応するように、チャンネル割り当てを行うこともできる。

これとともに、ユーザインターフェースチャンネル再マッピングを行うことにより、チャンネルホールの存在を回避する。すなわち、直ちにそして明瞭に互いに隣接して示される現在のユーザインターフェースチャンネルを、サウンド録音係が常にわかるようにする。

もちろん、ユーザインターフェースの進歩性のあるコンセプトは、既存のハードウェアミキシングコンソールに移管することもできる。これは、実際のハードウェアレギュレータおよびハードウェアボタンを含み、サウンド録音係手入力で最適なオーディオミキシングを行うように操作する。本発明の利点は、このようなハードウェアミキシングコンソールであって、これはサウンド録音係とって一般に非常になじみがあって、且つ重要なものであり、まさに現在のチャンネルにより常に用いることもできる。現在のチャンネルを、例えば、一般にミキシングコンソールに存在するＬＥＤ等のインジケータにより、サウンド録音係に明瞭に表示する。

生成用波面合成スピーカセットアップを、例えば映画館での再生セットアップから外すという点で、本発明はさらに柔軟性がある。従って、本発明によれば、オーディオコンテンツは、各種のシステムによりレンダリングすることができるフォーマットで符号化される。このフォーマットはオーディオシーンである。すなわち、オブジェクト指向オーディオ表現であって、スピーカ信号表現ではない。それに関する限り、表示方法は、コンテンツの再生システムへの適用として、理解される。本発明によれば、数本のマスタチャンネルばかりでなく全オブジェクト指向シーンの記述についても、波面合成再生処理で処理される。シーンは、再生毎にレンダリングする。これを、現在の状態に適用するために一般にリアルタイムで処理される。一般に、この適用には、スピーカの数およびそれらの位置や、周波数特性、サウンド差圧レベル等の再生システムの特性、室内の音響的条件、またはさらに映像再生条件を考慮に入れる。

現在のシステムのチャンネルベースのアプローチと比較すると、波面合成ミキシングの大きな違いは、サウンドオブジェクトを自由に配置できることにある。立体音響原理に基づく通常の再生システムでは、音源の位置を想定的に符号化する。このことが、例えば、映画等のビジュアルコンテンツに属するミキシングコンセプトにとって重要であるのは、正確なシステムセットアップにより、映像を参照して音源の配置を近似するようにするからである。

波面合成システムはしかしながら、サウンドオブジェクトに対する絶対位置を必要とする。これは、このオーディオオブジェクトの開始時刻および終了時刻の他に、このオーディオオブジェクトとともにオーディオオブジェクトのオーディオ信号に対する追加情報として提供される。

従来のチャンネル指向アプローチにおいては、基本的な考えは、いくつかのプレミキシング動作におけるトラックの数を減らすことであった。これらのプレミキシング動作は、セリフ、音楽、サウンド、効果音等のカテゴリで整理される。ミキシング処理の間、全ての必要なオーディオ信号が、ミキシングコンソールに供給されて、異なる音響技師により、同時にミキシングが行われる。再生スピーカ当りのトラックが１本になるまで、各プレミキシングによりトラックの数を低減する。これらの最終的なトラックが、最終的なマスタファイル（最終的なマスタ）を構成する。

イコライゼーション、ダイナミック、位置等の、関連するすべてのミキシング作業が、ミキシングデスクまたはさらに専用の装置を用いて実行される。

ポストプロダクション処理のリエンジニアリングの目的は、ユーザのトレーニングを最小限にすることと、新しい進歩性のあるシステムをユーザの既存の知識に統合することとである。本発明の波面合成の適用では、トラックまたは位置が異なるレンダリングするオブジェクトの全てが、従来のプロダクション施設とは対照的にマスタファイル／配信フォーマットが存在し、生成処理の間にトラックの数を低減するように最適化を行う。他方、実際上の理由から、再レコーディングエンジニアに既存のミキシングコンソールを用いて波面合成生成を行う可能性を提供することが必要である。

従って、本発明によれば、現在のミキシングコンソールは、従来のミキシング作業に用いられる。次に、これらのミキシングコンソールの出力が、進歩性のあるシステムに導入されて、空間ミキシングを実行して、オーディオシーンでのオーディオ表現を生成する。本発明による波面合成オーサーツールは、ワークステーションとして実施されて、最終的なミキシングのオーディオ信号を記録して、別の工程で配信フォーマットに変換する能力を有することを意味している。このため、本発明によれば、２つの面を考慮に入れる。第１は、全オーディオオブジェクトまたはトラックがやはり最終的なマスタに存在することである。第２の面は、ミキシングコンソールでは配置を行わないことである。いわゆるオーサリング、すなわちサウンド録音係の後処理は、プロダクションチェーンの最終工程の１つであることを意味している。本発明によれば、本発明によるシステムの波面合成、すなわち、オーディオ表現を生成するための進歩性のある装置は、スタンドアロン型ワークステーションとして実施される。ミキシングデスクからのオーディオ出力をシステムに供給することにより、これを異なるプロダクション環境に組み込んでも良い。それに関する限り、ミキシングデスクは、オーディオシーンでのオーディオ表現を生成するための装置に接続したユーザインターフェースを表す。

本発明の好適な実施の形態による進歩性のあるシステムは、図４に示される。図１または図２と同じ参照番号は、同じ要素を示す。基本のシステム設計は、モジュール性を目的とし、既存のミキシングコンソールをユーザインターフェースとして進歩性のある波面合成オーサシステムに組み込む機能に基づいている。

この理由から、他のモジュールと通信を行う中央制御装置１２０を、オーディオ処理手段１２内部に構成する。これにより、全てものが同じ通信プロトコルを用いている限り、ある特定のモジュールの選択肢を用いることが可能になる。図４に示すシステムをブラックボックスとして考えると、一般に、（提供手段１０からの）多数の入力と多数の出力（スピーカ信号１４）とともに、ユーザインターフェース２０を観察できる。ユーザインターフェースの次にこのブラックボックスに組み込まれているのは、実際のＷＦＳレンダリング装置１２２である。これは、様々な入力情報を用いて、スピーカ信号の実際の波面合成演算を実行する。また、ルームシミュレーションモジュール１２４が備えられている。これは、録音室の室内特性を生成したり、録音室の室内特性を操作したりするのに用いるある特定のルームシミュレーションを行うように構成される。

また、オーディオ録音手段１２６とともに記録再生手段（やはり１２６）を備える。手段１２６は好ましくは、外部入力を備える。この場合は、全オーディオ信号は、もともとオブジェクト指向で、または静止チャンネル指向で、提供し供給される。そのとき、オーディオ信号はシーンプロトコルから来ないで、そのときは、制御タスクに従う。供給されたオーディオデータを次に必要な場合には手段１２６からオブジェクトベースの表現に変換して、次に内部的にマッピング手段１８に供給して、次にオブジェクト／チャンネルマッピングを実行する。

モジュール間のオーディオ接続は全て、マトリックスモジュール１２８により切り換え可能である。中央制御装置１２０の要求により、対応するチャンネルを対応するチャンネルに接続する。好適な実施の形態では、ユーザは、６４個の入力チャンネルで仮想音源の信号をオーディオ処理手段１２供給する機能を有するので、この実施の形態では６４個の入力チャンネルＥＫ１〜ＥＫｍがある。これとともに、既存のコンソールをユーザインターフェースとして用いて、仮想音源信号のプレミキシングを行っても良い。次に、空間ミキシングを、波面合成オーサシステムと、特に心臓部である、ＷＦＳレンダリング装置１２２とにより行う。

完全なシーン記述は、提供手段１０に保存される。これは、シーンプロトコルとも呼ばれる。しかしながらメイン通信または必要なデータトラフィックは、中央制御装置１２０で実行される。シーン記述の変更については、例えば、ユーザインターフェース２０と、特に、ハードウェアミキシングコンソール２００またはソフトウェアＧＵＩ、すなわちソフトウェアグラフィックユーザインターフェース２０２とで行うこともでき、ユーザインターフェース制御装置２０４を介して、変更したシーンプロトコルとして、変更を提供手段１０に供給される。変更したシーンプロトコルを提供することにより、シーンの全論理構造を一意的に表す。

オブジェクト指向ソリューションアプローチを実現するために、各サウンドオブジェクトは、マッピング手段１８により、表示チャンネル（入力チャンネル）に対応付けられている。オブジェクトは、ある特定の時間存在する。通常、図３ａ、３ｂ、および６に従って示されているように、多数のオブジェクトが発生順にある特定のチャンネル上に存在する。進歩性のあるオーサシステムが、このオブジェクト指向をサポートするが、波面合成レンダリング装置自体は、オブジェクトについてわかっていない。オーディオチャンネル内の信号と、これらのチャンネルをレンダリングする方法の記述とをシンプルに受信する。シーンプロトコル、すなわち、オブジェクトおよび対応付けられたチャンネルがわかっている提供手段は、オブジェクト関連メタデータ（例えば音源位置）をチャンネル関連メタデータに変換して、ＷＦＳレンダリング装置１２２に送信しても良い。図４にブロックで機能プロトコル１２９を概略で示すように、他のモジュール間の通信が、他のモジュールが必要な情報だけを含むように、専用プロトコルで実行される。

進歩性のある制御モジュールはまた、シーン記述のハードディスクストレージをサポートする。好ましくは、２つのファイルフォーマットを区別する。一方のファイルフォーマットはオーサフォーマットで、オーディオデータを圧縮ＰＣＭデータとして保存する。また、オーディオオブジェクトすなわち音源のグループ化、レイヤ情報等の、セッション関連情報を用いて、ＸＭＬに基づいて、専用ファイルフォーマットに保存する。

もう一方のタイプは、配信ファイルフォーマットである。このフォーマットでは、オーディオデータを圧縮して保存することもできるし、セッション関連データをさらに保存する必要はない。オーディオオブジェクトはこのフォーマットにおいてやはり存在することと、ＭＰＥＧ−４規格を用いて配信しても良いこととに注意すべきである。本発明によれば、波面合成レンダリングをリアルタイムで常に行うことが好ましい。これにより、プレレンダリングオーディオ情報、すなわちすでに終了したスピーカ信号を、いずれかのファイルフォーマットで保存する必要が無くなる。スピーカ信号はデータの非常に大きな部分を占有するので、このことは、そのかぎりでは大きな長所である。これは、少なくとも波面合成環境で用いる多数のスピーカに起因するものではない。

１つ以上の波面合成レンダリング装置モジュール１２２には通常、仮想音源信号およびチャンネル指向シーン記述が供給される。波面合成レンダリング装置は、各スピーカ、すなわち図４のスピーカ信号１４のスピーカ信号の波面合成理論に従って、駆動信号を算出する。波面合成レンダリング装置はさらに、サブウーファースピーカの信号を算出する。これは、低周波数で波面合成システムをサポートするために必要なものでもある。ルームシミュレーションモジュール１２４からのルームシミュレーション信号を、多数の（通常８から１２）の静止平面波を用いてレンダリングする。このコンセプトに基づいて、異なるソリューションアプローチを統合してルームシミュレーションを行うことが可能になる。ルームシミュレーションモジュール１２４を用いない場合は、波面合成システムはすでに、聴取範囲の音源方向を安定して認識する、許容できるサウンドイメージを生成している。しかしながら、音源深度の認識に関してある特定の欠陥があるのは、通常、初期空間反射または残響をまったく音源信号に加えないからである。本発明によれば、ルームシミュレーションモジュールを用いることが好ましい。これは、壁面反射を再生する。例えば、ミラー音源モデルを用いて初期反射を生成して、これをモデル化する。これらのミラー音源が、シーンプロトコルのオーディオオブジェクトとして再び処理されても良いし、あるいは、実際、オーディオ処理手段それ自体により追加されても良い。録音／再生装置１２６は、有益な補足を表す。空間ミキシングだけを行うように、プレミキシングの間に従来のようにミキシングが終了したサウンドオブジェクトが、従来のミキシングデスクからオーディオオブジェクト再生装置へ供給されても良い。また、ミキシングデスクの出力チャンネルをタイムコード制御で録音して、オーディオデータを再生モジュールに保存する、オーディオ録音モジュールを備えることが好ましい。再生モジュールは、開始タイムコードを受信して、すなわち、表示手段１８から再生装置１２６へ供給した個別の出力チャンネルに関連した、ある特定のオーディオオブジェクトを再生する。録音／再生装置は、オーディオオブジェクトに対応付けられている開始時刻および停止時刻の記述に従って、個別のオーディオオブジェクトの再生を互いに別々に開始して停止することもできる。ミキシング手順が終了するとすぐに、オーディオコンテンツは、再生装置モジュールから取り出されて、配信ファイルフォーマットにエクスポートする。従って、配信ファイルフォーマットは、ミキシングの準備が整ったシーンの終了したシーンプロトコルを含む。進歩性のあるユーザインターフェースコンセプトの目的は、階層構造を実行することである。これは、映画館ミキシング処理作業に適用される。ここで、オーディオオブジェクトは、任意の時間、個別のオーディオオブジェクトの表現として存在する音源として録音される。開始時間および停止／終了時間は、音源、すなわち、オーディオオブジェクトにとって典型的なものである。音源またはオーディオオブジェクトは、オブジェクトまたは音源が“生きている”時間の間は、システムリソースを必要とする。

好ましくは、開始時間および停止時間を別にして、各音源は、メタデータも含む。これらのメタデータは、方向依存音量および方向依存遅延の“タイプ”（ある特定の時刻での平面波または点音源）、“方向”、“ボリューム”、“ミューティング”および“フラグ”である。これらのメタデータをすべて、自動化して用いても良い。

また、オブジェクト指向ソリューションアプローチに関わらず、例えば、全映画を通して、または一般に全シーンを通して“生きている”オブジェクトは、それ自体のチャンネルについても取得するという点で、進歩性のあるオーサシステムを従来のチャンネルコンセプトに用いることは、好ましい。これらのオブジェクトは原則的には、図６に基づいて述べた１：１変換での単純なチャンネルを表すことを意味している。

本発明の好適な実施の形態では、少なくとも２つのオブジェクトをグループ化しても良い。各グループは、どのパラメータでグループ化するか選択することができ、グループのマスタを用いてどのように算出するか、選択することができる。音源グループは、メンバの開始時間および終了時間により確定した任意の時間の間、存在する。

グループのユーティリティの例は、仮想規格サラウンドセットアップに用いることから構成される。これらを、シーンの仮想フェードアウトまたはシーンの仮想ズームインに用いることもできる。あるいは、グループ化は、サラウンド残響を組み込むために、そしてＷＦＳミキシングを録音するために使用される。

また、さらに、論理本質、すなわちレイヤを構成することが好ましい。ミキシングまたはシーンを構築するために、本発明の好適な実施の形態では、グループおよび音源を異なるレイヤに配列する。レイヤを用いることにより、プレダビングは、オーディオワークステーションでシミュレーションされても良い。レイヤを用いて、現在のミキシング対象の異なる部分を表示したり隠したりするといった、オーサ処理の間に表示属性を変更することもできる。

シーンは、任意の継続時間の間、前述の構成要素から成る。この継続時間は、フィルムスプールまたは、例えば、全映画、または例えば、５分間といった、映画の一部のある特定の継続時間だけとすることもできる。シーンはやはり、シーンに属する多数のレイヤ、グループ、および音源から構成される。

好ましくは、完全なユーザインターフェース２０は、ハプティック制御を可能にするためにグラフィックソフトウェア部とハードウェア部とをともに含んでいる。これは好ましいが、しかしながら、コストのために、ユーザインターフェースを完全に、ソフトウェアモジュールとして実施こともできる。

いわゆる“空間”に基づくグラフィックシステムの設計コンセプトを用いる。ユーザインターフェースでは、異なる空間が少し存在する。各空間は、専用編集環境であって、空間に必要な全ツールを利用することができる、異なるアプローチからのプロジェクトを示す。従って、もう各種のウインドウに注意を払う必要はない。環境に必要な全ツールは、対応する空間内にある。

音響技師に任意の時刻での全オーディオ信号の概要を提供するために、図３ａおよび３ｂに基づいてすでに述べた適応ミキシング空間が用いられる。アクティブチャンネルを表示するだけの従来のミキシングデスクと比較することができる。適応ミキシング空間では、単なるチャンネル情報の代わりに、オーディオオブジェクト情報についても提示する。すでに示したように、これらのオブジェクトは、図１のマッピング手段１８により、ＷＦＳレンダリング装置の入力チャンネルに対応付けられている。適応ミキシング空間とは別に、いわゆるタイムライン空間も存在する。これは、全入力チャンネルの概要を提供する。各チャンネルは、その対応するオブジェクトを有するように表される。自動化チャンネル対応付けは、簡素化に好適であるが、ユーザは、オブジェクト対チャンネル対応付けを用いることができる。

別の空間は、配置および編集空間である。これは、３次元ビューにおけるシーンを示す。この空間により、ユーザは、音源オブジェクトの動きを録音したり編集したりすることができる。ジョイスティックあるいは、例えば、グラフィックユーザインターフェースとして周知の他の入力／表示装置を用いて、動きを生成しても良い。

最後に、室内空間が存在する。これは、室内編集機能を提供するために、図４のルームシミュレーションモジュール１２４をサポートしている。各室内は、室内デフォルトライブラリに保存したある特定のパラメータセットにより記述される。室内モデルによるが、様々な種類のパラメータセットとともに、各種のグラフィックユーザインターフェースを用いても良い。

状況に応じて、オーディオ表現を生成するための進歩性のある方法は、ハードウェアまたはソフトウェアで実施されても良い。実施例は、デジタルストレージ媒体、特に、フロッピー（登録商標）ディスクまたは電子的に読取可能な制御信号を有するＣＤで行うこともできる。従って、進歩性のある方法を実行するプログラム可能なコンピュータシステムと協働させても良い。従って、一般に、コンピュータプログラム製品をコンピュータで実行する場合は、本発明はまた、プログラムコードを進歩性のある方法を実行する、機械で読取可能なキャリアに格納したコンピュータプログラム製品からなる。言い換えれば、コンピュータプログラムをコンピュータで実行する場合は、本発明は従って、本方法を実行するプログラムコードを備えるコンピュータプログラムとして実施することができる。

オーディオ表現を生成する進歩性のある装置のブロック回路図である。図１に示すコンセプトのためのユーザインターフェースの概略の説明図である。図３ａは、本発明の一実施の形態による、図２のユーザインターフェースの概略の説明図である。図３ｂは、本発明の別の実施の形態による、図２のユーザインターフェースの概略の説明図である。好適な実施の形態による、進歩性のある装置のブロック回路図である。各種のオーディオオブジェクトを有するオーディオシーンの時間図である。図５に示すオーディオシーンにたいする、本発明によるオブジェクトとチャンネルとの間の１：１変換の比較およびオブジェクトチャンネル割り当てである。

Claims

オーディオシーンでのオーディオ表現を生成し、保存し、編集するための装置であって、
複数のスピーカ信号を複数の入力チャンネル（ＥＫ１、ＥＫ２、．．．、Ｅｋｍ）（１６）から生成するオーディオ処理手段（１２）と、
オーディオシーンのオブジェクト指向記述は、複数のオーディオオブジェクトを含み、オーディオオブジェクトはオーディオ信号と、開始時刻と、終了時刻とに対応付けられている、オーディオシーンのオブジェクト指向記述を提供する手段（１０）と、
第１のオーディオオブジェクトを入力チャンネルに割り当てて、その開始時刻が第１のオーディオオブジェクトの終了時刻の後にある第２のオーディオオブジェクトを同じ入力チャンネルに割り当てて、その開始時刻が第１のオーディオオブジェクトの開始時刻の後にあって第１のオーディオオブジェクトの終了時刻の前にある第３のオーディオオブジェクトを複数の入力チャンネルの別のものに割り当てるように構成した、オーディオシーンのオブジェクト指向記述をオーディオ処理装置の複数の入力チャンネルにマッピングするマッピング手段（１８）とを備える装置。
オーディオ処理手段（１２）が、複数のスピーカの位置がわかっている、スピーカの複数のスピーカ信号を算出するように構成した波面合成手段（１２２）を含む、請求項１に記載の装置。
オーディオオブジェクトはさらに、仮想位置に対応付けられていて、オーディオ処理手段（１２）は、複数のスピーカ信号を生成する際にオーディオオブジェクトの仮想位置を考慮に入れるように構成される、請求項１または２に記載の装置。
オーディオ処理装置は、マッピング装置を介して提供装置のみに接続されて、処理するオーディオオブジェクトデータを受信する、請求項１に記載の装置。
オーディオ処理手段の入力チャンネルの数をあらかじめ設定して、オーディオシーンにおけるオーディオオブジェクトの許容数よりも少なくし、少なくとも２つのオーディオオブジェクトは時間的に重複しないように提示される、請求項１ないし請求項４のいずれかに記載の装置。
ユーザインターフェース（２０）をさらに備え、ユーザインターフェースが多数の個別のユーザインターフェースチャンネルを備え、ユーザインターフェースチャンネルがオーディオ処理装置の入力チャンネルに対応付けられていて、ユーザインターフェース（２０）は、マッピング手段（８０）に接続されて、ある時刻でユーザインターフェースチャンネルにまさに割り当てられたオーディオオブジェクトを識別する、請求項１ないし請求項５のいずれかに記載の装置。
ユーザインターフェース（２０）は、現在１つのオーディオオブジェクトが割り当てられている、オーディオ処理手段の入力チャンネルに対応付けられているユーザインターフェースチャンネルを識別するために構成されている、請求項６に記載の装置。
ユーザインターフェースは、各ユーザインターフェースチャンネルのハードウェア操作手段を有するハードウェアミキシングコンソールとして構成されて、各ハードウェア操作手段が、現在アクティブになっているユーザインターフェースチャンネルを識別するインジケータに対応付けられている、請求項７に記載の装置。
ユーザインターフェースが、電子表示装置上で、現在１つのオーディオオブジェクトが割り当てられているオーディオ処理手段の入力チャンネルに対応付けられているユーザインターフェースチャンネルのみを表示するように構成したグラフィックユーザインターフェースを備える、請求項７に記載の装置。
ユーザインターフェース（２０）がさらに、ユーザインターフェースチャンネルの操作手段を備え、これが、ユーザインターフェースチャンネルに対応する、オーディオ処理手段（１２）の入力チャンネルに割り当てられたオーディオオブジェクトを操作するように構成し、ユーザインターフェースが、提供手段（１０）に接続して、オーディオオブジェクトをその操作したバージョンと置き換えて、マッピング手段（１８）を、オーディオオブジェクトの代わりに、その操作したバージョンをオーディオ処理手段（１２）の入力チャンネルに割り当てるように構成される、請求項６ないし請求項９のいずれかに記載の装置。
操作手段は、オーディオオブジェクトの位置、タイプ、またはオーディオ信号を変更するように構成される、請求項１０に記載の装置。
ユーザインターフェースは、ユーザインターフェースチャンネルの時間的な占有率を示すように構成され、時間的な占有率が、ユーザインターフェースチャンネルに割り当てられたオーディオオブジェクトの時間的なシーケンスを表し、ユーザインターフェースをさらに、時間的な占有率における現在の時刻（３７）を明示するように構成される、請求項６ないし請求項９のいずれかに記載の装置。
ユーザインターフェース（２０）は、時間軸として時間的な占有率を示すように構成され、これは、それらの長さに比例する割り当てられたオーディオオブジェクトとともに、時間の進行とともに動くインジケータ（３７）を備える、請求項１２に記載の装置。
提供手段（１０）は、グループ化したオーディオオブジェクトをグループの帰属に関してグループ情報により明示するように、オーディオオブジェクトのグループ化を行えるように構成され、
マッピング手段（１８）は、グループ特性の操作がオーディオ処理手段のどの入力チャンネルがグループのオーディオオブジェクトに対応付けられているかという事実とは別に、グループの全メンバに影響を及ぼすように、グループ情報を保存するように構成される、請求項１ないし請求項１３のいずれかに記載の装置。
オーディオシーンでのオーディオ表現を生成し、保存し、編集するための方法であって、
複数のスピーカ信号を複数の入力チャンネル（ＥＫ１、ＥＫ２、．．．、Ｅｋｍ）（１６）から生成（１２）し、
オーディオシーンのオブジェクト指向記述が複数のオーディオオブジェクトを含み、オーディオオブジェクトが、オーディオ信号と、開始時刻と、終了時刻とに対応付けられている、オーディオシーンのオブジェクト指向記述を提供（１０）し、
第１のオーディオオブジェクトを入力チャンネルに割り当てて、その開始時刻が第１のオーディオオブジェクトの終了時刻の後にある第２のオーディオオブジェクトを同じ入力チャンネルに割り当てて、その開始時刻が第１のオーディオオブジェクトの開始時刻の後にあって第１のオーディオオブジェクトの終了時刻の前にある第３のオーディオオブジェクトを複数の入力チャンネルのうちの別のものに割り当てることにより、オーディオシーンのオブジェクト指向記述をオーディオ処理手段の複数の入力チャンネルにマッピング（１８）することを含む方法。
プログラムをコンピュータ上で実行する際の、請求項１５に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。