JP2015518182A - レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置 - Google Patents

レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置 Download PDF

Info

Publication number
JP2015518182A
JP2015518182A JP2015507389A JP2015507389A JP2015518182A JP 2015518182 A JP2015518182 A JP 2015518182A JP 2015507389 A JP2015507389 A JP 2015507389A JP 2015507389 A JP2015507389 A JP 2015507389A JP 2015518182 A JP2015518182 A JP 2015518182A
Authority
JP
Japan
Prior art keywords
audio signal
space
channel
input audio
independent representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015507389A
Other languages
English (en)
Other versions
JP5973058B2 (ja
Inventor
バルリエル,ダニエル アルテアガ
バルリエル,ダニエル アルテアガ
アルボ,パウ アルミ
アルボ,パウ アルミ
ソレ,アントニオ マテオス
ソレ,アントニオ マテオス
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2015518182A publication Critical patent/JP2015518182A/ja
Application granted granted Critical
Publication of JP5973058B2 publication Critical patent/JP5973058B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

中間チャネルに依存しない表現の生成に基づき、任意の3次元ラウドスピーカレイアウトにおける後の再生のために、オーディオ信号を符号化する方法は、複数の接続されていない形状を含む複雑な見かけのサイズ及び形状による音響の生成、処理及び再生を可能にする。

Description

本発明は、概して、オーディオ符号化に関し、特に、ラウドスピーカの数及び位置に依存しない任意の3次元ラウドスピーカレイアウトにおけるオーディオ再生に関する。
種々の標準規格が、マルチチャネル音響生成、分配及び再生に関連してコンテンツ産業によって導入されてきた。最初の標準規格は、1つの単一の独立したオーディオチャネルに基づくモノラル音響システムの実施に関するものであった。その後の標準規格は、2つの独立したオーディオチャネルに基づくステレオシステムへ、次いで、夫々6つ及び8つの独立したオーディオチャネルに基づく5.1及び7.1チャネルへ進化した。特に、いわゆる5.1チャネル構成は、映画館の大部分によって導入されており、それは、ホームマーケットにおける著しい発展を目の当たりにしてきた。オーディオチャネルの段階的な付加によって達成されたそれらの標準規格の自然の進化は、一方で、聴取による空間音響認知における連続的な増強をもたらし、他方で、コンテンツクリエイターの創造自由度の高まりをもたらした。
コンテンツクリエイター及びコンテンツ消費者の双方にとってのそのような増強を続けようとする試みにおいて、提案は、THXの創設者であるトムリンソン・ホールマン氏によって提案された10.2システム、及び日本の放送局であるNHKに所属する濱崎公男氏によって提案された22.2システムのような、ますます多くの独立したオーディオチャネルによるマルチチャネルレイアウトに基づく標準規格を導入するよう共存してきた。全てのそのようなシステムは、それらが異なる高さにあるラウドスピーカを含み、現在の5.1又は7.1システムよりも良い経験を届けることができるので、通常は3Dレイアウトと呼ばれる。
しかし、全てのそのような提案は、多数の欠点を共有する。それらは全て、コンテンツが再生されながら様々なとり得る再生フォーマットを考慮しなければならないので、コンテンツ再生フェーズにおいて予め複雑なプロシージャを必要とする。コンテンツ再生は、最も複雑な再生フォーマット及びより簡単な再生フォーマットを満足させるべきである。多数のラウドスピーカによるレイアウトのためのコンテンツ再生において、複雑性は、音響エンジニアが、如何にして特定の所与のオーディオトラックを特定のラウドスピーカ(例えば、中央上部左端のチャネル)へ転送すべきかといった、全体のレイアウトを念頭に置いた対応を要する決定を常にする必要があるので、大きい。このような頭の体操は、再現される音響イメージに関連する美的処理よりもむしろ技術的タスクに焦点を当てることによって、彼らの創造性を制限する。
ラウドスピーカ設置の難しさは、全ての上記の先行技術システムのもう一つの欠点である。全てのそのようなマルチチャネルフォーマットは、専門の映画館であろうと又はホーム環境であろうとも、所与の標準規格に従って、再生場所における各ラウドスピーカの正確な位置付けを必要とする。これは、熟達した音響技術の支援を必要とする複雑且つ時間を要するタスクである。多くの場合に、全てのラウドスピーカの正確な位置付けは、スプリンクラー、柱、天井の低さ、空調パイプ、等のような具体的な会場制約に起因して断じて不可能である。ラウドスピーカレイアウトにおけるこの欠点は、ステレオのような少数のチャネルによるシステムにおいては我慢できる。しかし、チャネルの数が増えるにつれて、それは対処するのが困難となり、従って非現実的となる。
ある開発は、オーディオワークフローを実施することによってそのような問題を解決しようと試みてきた。これにより、コンテンツ生成は、コンテンツ再生から完全に分断される。そのようなワークフローは、製作及びポストプロダクション処理が再生レイアウトの仕様とは完全に無関係である新しいパラダイムに基づく。特に、そのようなワークフローにおいて、ポストプロダクションの出力は、通常はデジタルサポートにおけるサウンドトラックであり、その生成は、意図された再生場所における独立したチャネルの数及び位置に依存しない様々な音響符号化技術に基づく。
そのような符号化技術の早期の例は、高忠実度再生(Ambisonics)及びベクトル方式による振幅パニング(VBAP:Vector Based Amplitude Panning)である。中間チャネルに依存しない符号化方法の他の例は、Jot及びPulkkiによって開示されている。それらの近頃の研究において、時間−周波数ビンにおいてオーディオ記録を分割し、異なるチャネルにわたって相互相関を解析することによって、空間位置が時間−周波数ビンの夫々1つへ割り当てられる。それらの先行技術方法の主たる欠点の1つは、時間−周波数分解が、最終の再生の品質を低下させる可聴なプロセッシングアーティファクトを否応なく生成することである。これは、最高品質の再生しか受け入れられない状況におけるそれらの方法の適用性を制限する。可聴なプロセッシングアーティファクトは、チャネルの数が増えるにつれて、それ自体更に増幅される。従って、複数のチャネルを用いて3D環境において高品位の再生を提供する可能性は、厳しく制限される。
多くの音源は、空間の単一点から発せられず、むしろそれらは、何らかの固有の空間的拡張を有する。例えば、周囲の音響は、しばしば、広い空間範囲にわたって広げられる。他の自明な例は、広い範囲にわたって広がったノイズとして認知される大型トラックの音響である。しかし、チャネル非依存のオーディオ符号化のための全ての方法は、特に、複雑なサイズが意図される場合に、音響の見かけのサイズの割り当て、処理及び再生の制限を示す。特に、複数の接続されていない範囲からなる見かけの音響形状は、不可能でない場合に、現在の既存のオーディオ符号化方法により達成するのが極めて困難である。複数の接続されていない範囲からなるそのような音響形状の例は、異なる通りから聞こえてくる都市騒音、又は横方向の反射音響である。
従って、上記の欠点に対する解消法を提供することが必要である。特に、完全にチャネル非依存であり、従って、あらゆる任意の3Dラウドスピーカレイアウトにおいて再生可能である態様において音響を符号化することが、望ましい。また、如何なる可聴アーティファクトも生成せずにこれを達成することが、望ましい。加えて、複数の接続されていない形状の可能性を含む複雑な見かけサイズによる音響の生成及び処理を容易にすることが、望ましい。
従って、本発明の目的は、上記の問題に対する解決法を提供することである。特に、本発明の目的は、上記の問題の全て又は一部が解消された、3Dラウドスピーカレイアウトを含む任意のラウドスピーカレイアウトにおける後の再生のためにオーディオ信号を処理する新規の符号化及び復号化技術に言及する実施形態を提供することである。
本発明の一実施形態において、解決法は、入力オーディオ信号のチャネル非依存の再生の生成に基づき、複数の接続されていない形状の可能性を含む複雑な見かけサイズによる音響の簡単且つ直観的な生成、処理及び再生を可能にし、更には、如何なる可聴アーティファクトも生成しない。
本発明の実施形態に従って、少なくとも1つの入力オーディオ信号を、少なくとも1つの出力オーディオ信号及び関連するメタデータを有する、任意のラウドスピーカレイアウトに対する再生に適したチャネル非依存表現へと符号化する方法及び装置が提供される。
本発明の他の実施形態に従って、少なくとも1つの出力オーディオ信号及び関連するメタデータを有する、任意のラウドスピーカレイアウトに対する再生に適したチャネル非依存表現を復号する方法及び装置が提供される。
本発明の他の実施形態に従って、少なくとも1つの入力オーディオ信号からチャネル非依存表現を生成し、且つ、チャネル非依存表現から、任意のラウドスピーカレイアウトに対する再生のための少なくとも1つの出力オーディオ信号を生成するシステム及び対応する方法が提供される。
本発明の他の実施形態に従って、本発明の種々の態様及び実施形態の種々の機能を実行するコンピュータプログラム及び該コンピュータプログラムを記録するコンピュータ可読媒体が提供される。
本発明の他の実施形態に従って、システム及び方法は、オーディオ・ポストプロダクション・ワークフローにおいて本発明の種々の態様及び実施形態の種々の機能を組み込むよう提供され、これによって、音響エンジニアは、ポストプロダクション処理の結果として、異なる聴取会場へ提供されるチャネル非依存表現を生成する。
本発明は、本発明の様々な態様、実施形態、及び特徴を実施し、且つ、様々な手段によって実施される方法及び装置を提供する。例えば、それらの技術は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせにおいて実施されてよい。
ハードウェア実施のために、プロセッシングユニットが、1又はそれ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号プロセッシング装置(DSPD)、プログラム可能論理装置(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、ここで記載される機能を実行するよう設計された他の電子ユニット、又はそれらの組み合わせ内で実施されてよい。
ソフトウェア実施のために、様々な手段が、ここで記載される機能を実行するモジュール(例えば、プロシージャ、関数、等)を有してよい。ソフトウェアコードは、メモリにおいて記憶され、プロセッサによって実行されてよい。メモリユニットは、プロセッサ内又はプロセッサ外で実装されてよい。
本発明の様々な態様、構成及び実施形態が記載される。特に、本発明は、以下で記載される本発明の様々な態様、構成及び特徴を実施する方法、装置、システム、プロセッサ、プログラムコード、並びに他の装置及び要素を提供する。
本発明の特徴及び利点は、図面に関連して検討される場合に以下で説明される詳細な説明から、より明らかになるであろう。図面において、同じ参照符号は、異なる図における対応する要素を特定する。対応する要素は、異なる符号を用いて参照されてもよい。
本発明の態様に従う再生空間の種々の抽象的表現を表す。 本発明の態様に従う再生空間の種々の抽象的表現を表す。 本発明の一実施形態に従って、チャネル非依存表現のためのシステムを表す。 本発明の一態様に従って、チャネル非依存表現のためのシステムを表す。 本発明の一態様に従って、チャネル非依存表現のためのシステムを表す。 本発明の実施形態に従うシステムへの前処理段階の組み込みを表す。 本発明の一態様に従う触知性ユーザインターフェースを表す。 本発明の他の態様に従う触知性ユーザインターフェースを表す。 前処理アップミキシング段階が本発明の一実施形態に従って適用される場合に触知性ユーザインターフェースを表す。 前処理アップミキシング段階が本発明の他の態様に従って適用される場合に触知性ユーザインターフェースを表す。 本発明の一実施形態に従って、特定の再生環境に最も良く適した表現Dの選択のための方法表す。 本発明の実施形態に従って、チャネル非依存のアルゴリズムを実施する方法を表す。 空間存在係数Mスケールの3つの例を表す。
以下の記載から、当業者には当然に、本発明のいずれか1つの好ましい態様が、先行技術の装置及び方法の問題の少なくとも一部に対する解決法を提供するが、ここで開示されている複数の態様の組み合わせは、以下で詳細に記載されるように、先行技術に対する付加的な相乗効果を生じさせる。
図1は、本発明の態様に従って、再生空間100の種々の抽象的表現を表す。Dは、オーディオ信号がその聴取のために再生されるべきである、潜在的な聴衆を囲む領域として定義される空間を表す。空間Dは、図1Aに表されるような球形形状110又は長方形形状120を含む如何なる任意の形状も有してよい。長方形空間D120は、コンテンツが、大抵は、映画館又はホームシアターのような長方形の幾何学形状において再生されるところの用途にうまく適合する。他方で、球形空間D110は、プラネタリウムにおいて見られる聴衆席、若しくは屋外の劇場、又は未定義の範囲のような円形の聴衆席により良く適する。他の位相同形の形状が都合につき使用されてよい。空間Dは、K個の部分s、s、・・・sに分けられ、全てのそのような部分の集合は、分割セットSである。図1Bは、異なる分割による同形状の2つの例を表す。分割130は、分割140とは異なる数の部分を有する。当業者に明らかなように、何らかの多角形形状のような、他の形状も可能である。分割セットS内の部分は、異なる形状及び範囲を有することができる。加えて、それらの部分は、必ずしも規則的、又は一様である必要がない。あらゆるユーザが、部分が非線形な境界を有する分割140において表されるように、手動によっても、望むように多くの部分を生成することができる。
記載されるように、本発明の種々の態様は、特定の用途に最も良く適する種々の空間D形状を定義する。本発明の種々の態様において、夫々の空間Dは、用途ニーズに応じて異なる方法において分割されてよい。一態様において、分割110において見られるように、より細かい分割Sは、形状及びサイズにおいてより高い分解能をもたらし、それによって、音響再生のより正確な制御を提供する。他の態様において、分割130において見られるように、より粗い分割Sは、より低い処理能力及び電力しか必要とせず、それによって、より計算量が少ない処理を提供する。更なる他の態様において、分割140において見られるように、分割は、空間Dの特定の領域ではより細かく、空間Dの他の領域ではより粗くすることができる。この場合に、前者においては、必要とされる分解能がより高く、後者においては、必要とされる分解能がより低い。そのような非一様な空間分割は、品質が必要に応じ保証されるが、処理能力が完全に必要とされない場合に節約されるので、リソースの最適化を可能にする。
図2は、本発明の一実施形態に従って、チャネル非依存表現のためのシステム200を表す。システム200は、i=1乃至Nとして、オーディオ信号aの原の組A210を有する。オーディオ信号の組Aは、チャネル非依存エンコーダ220又は符号化手段によって符号化されて、処理された出力オーディオ信号を生じさせる。入力オーディオ信号は、ステレオ、5.1、及び7.1マルチチャネルコンテンツを含むがそれらに限られないマルチチャネルコンテンツの個別的なトラック又はストリームの組を有する。チャネル非依存エンコーダ220はまた、空間D及び関連する分割Sを記述する情報を含む、出力オーディオ信号に関連したメタデータを生成する。結果として得られる、出力オーディオ信号と関連するメタデータとの組み合わせは、あらゆる標準規格に従うあらゆる再生フォーマットにおける及びあらゆるラウドスピーカレイアウトにおける再生に適した被処理信号の組B230をもたらす。
信号組Bがデコーダ240又は復号化手段によって復号されると、結果として得られる信号250は、選択されたラウドスピーカレイアウトへ供給され、それから再生される。デコーダ240が如何なる特定のパラメータによっても設定されない場合は、デフォルトのパラメータセットが、5.1、7.1又は10.1システムのような、ユーザ定義の選好に従って再生されるよう信号Bを復号する。
他方で、デコーダ240はまた、具体的な聴取会場の特定のラウドスピーカレイアウトを詳細に記述するパラメータにより設定されてよい。ユーザは、所望の再生フォーマットとともに、ラウドスピーカレイアウト情報をデコーダに入力することができる。そして、デコーダは、更なる操作又は設計によらずに、意図されたシアター空間のためのチャネル非依存フォーマットを再現する。
チャネル非依存の再生信号の組Bは、空間存在係数mi,kを、原のオーディオ信号の組Aに含まれる各オーディオ信号aに割り当てて処理し、夫々の係数mi,kが、全ての原オーディオ信号aを、潜在的な聴衆を囲む領域を表す空間Dの分割Sの所与の部分sと関連付けるようにすることで、生成される。本発明の一態様において、存在係数mi,kは、時間変化してよい。
入力オーディオと出力オーディオとの間の関係は、式 出力=a・mi,kによって表現可能である。なお、iは、i番目の入力オーディオ信号aを参照するインデックスであり、kは、分割Sの部分sを参照するインデックスであり、mは、空間存在係数である。この式において、チャネル非依存表現は、全てのi及び全てのkについての全ての積a・mi,kの組として生成され、積は、原のオーディオ信号と分割セットSにおける部分との各組み合わせにつき1つである。
同じ実施形態の他の構成において、入力オーディオと出力オーディオとの間の関係は、式 出力=
Figure 2015518182
によって表現可能である。ここで、チャネル非依存表現は、全ての原オーディオ信号にわたるa・mi,kの和の組として生成され、夫々の和は、オーディオ信号の存在に従って重み付けされた分割Sの所与の部分における全ての原オーディオ信号のミキシングに対応する。
図3は、本発明の一態様に従って、チャネル非依存表現のためのシステム300を表す。この態様は、図2の実施形態の更なる詳細を与える。図示されるように、チャネル非依存エンコーダ220は、夫々の入力オーディオ信号Aを分割セットSの特定の部分s、s、・・・、sへマッピングするマッパー310又はマッピング手段と見なされ得る。全ての関連する部分の集合は、空間存在係数、並びに空間D及び関連する分割Sを記述する情報とともに、同じくオーディオ再生のためにデコーダ240へ供給される出力信号Bを構成する。
信号Bは、特定の空間Dを構成する全ての分割セットS、又はそのサブセットを有してよい。特定の空間Dのある範囲又は領域をカバーすることしか必要でない場合に、分割セットSの特定の1つ、又はグループのみが生成されてよい。生成された信号Bに基づき、デコーダ(複数個を含む。)は、特定の再生環境に適した対応するラウドスピーカ信号を供給することができる。一態様において、信号Bは、再生環境の全範囲をカバーする分割Sのサブセットを有する。他の態様において、分割Sのサブセットは、再生環境の全範囲をカバーせず、デコーダは、その環境の残りの部分のための最低限の再生フォーマット、例えば、ステレオ、又は5.1、又は7.1、又は10.1システムを提供するためのデフォルトの分割を使用する。
各要素mi,kは、空間Dの特定のk番目の部分内へのi番目のオーディオ信号の存在の量を表すと理解され得る。本発明の全ての実施形態及び態様の一構成において、存在の量は、0から1の間の実数へのmi,kの制限として表現され、これによって、0は全く存在しないことを表し、1は全て存在することを表す。他の態様において、存在の量は、対数又はデシベルスケールを用いて表現され、このとき、マイナス無限大は全く存在しないことを表し、0は全て存在することを表す。
本発明の他の態様において、要素mi,kは、時間変化してよい。この態様において、時間によるそれらの要素の値の変化は、目的の聴衆への対応するオーディオ信号の動きの感覚を引き起こす。空間存在係数の時間変化する性質は、音響エンジニアによって手動により、又は所定のアルゴリズムに従って自動的に、設定されてよい。本発明の一態様において、存在係数の手動による設定は、特定の聴衆経験への再生音響のライブ適応を可能にする。
この態様の時間変化する性質が有用である1つの例は、コンサートホールにおけるオーディオ再生である。コンサートホールの場合に、音響エンジニアは、一方で、環境及び特定のラウドスピーカに最適に適するよう、予め録音されたオーディオ信号を再生することができる。他方で、継続的な再生を行いながら、音響エンジニア、又はミュージシャンは、創造的な方法において空間Dの異なる領域の空間存在係数を変化させることによって、実体験のように感じるオーディオ経験を作り出すことに加わることができる。これは、聴衆から直接に受け取ったフィードバックを用いて、如何なるレイテンシーも伴わずに異なる楽器チャネルの形状、ボリューム、及び領域を変化させることによって音楽的に聴衆と相互作用すると決定するライブDJに耳を傾ける参加者によって経験されるコンサートを向上させることができる。
この態様の時間変化する性質が有用である他の例は、再生環境が、特定の記録から最良のオーディオ効果を生成するのに特に適さない固定のラウドスピーカレイアウトを有する場合のための技術的補償である。そのような場合に、音響エンジニアは、オーディオ補償範囲が狭い空間Dの範囲を、より高いオーディオ存在度をそれらの範囲において生成し、他方で、ラウドスピーカに直接接する範囲におけるオーディオ存在度を下げて、全体の空間Dにわたる聴取経験を正規化するよう補償することができる。
図6は、本発明の一態様に従うユーザインターフェースビュー600を表し、空間存在係数mi,kの生成及び処理は、触知性インターフェース610を用いて直観的に行われる。インターフェースは、映画館のホールの真下からの映画館の眺めを示す。この特定の構成において、ホールは、複数の分割620に分割された長方形空間Dを介して表される。部分624は、映画館の天井に位置する分割セットSの部分であり、部分621、622、及び623は、映画館の側壁に位置する部分である。映画スクリーン630は、ホールの一端に白色で示されている。
図7は、音響エンジニア又はミュージシャンのようなユーザによって操作されている図6の同ユーザインターフェースを表す。ユーザの手710、従って指は、触知性インターフェースの全体にわたって動くことができ、それによって、異なる値を空間存在係数mに割り当てる。これは、ユーザインターフェースがエンドユーザによる容易な操作を促すという意味において、直観的に行われるが、ユーザは、熟達した音響エンジニアである必要はない。明色において表された、指によって割り当てられる部分720は、特定のオーディオ信号を定義し位置決めし、あるいは、異なるオーディオ信号を異なる部分へ定義し位置決めし、それによって、非常に複雑な見かけの音響サイズ及び形状を生じさせる。形状は、この場合において見られるように、それが2つの接続されない部分からなる場合でさえ、容易に定義され操作される。本発明の一態様において、システムによって実施されるアルゴリズムは、明色において表された、指の接触によって選択される部分へは高い空間存在値を、より暗い色において表された他の部分へは低い値を割り当てる。
1つの特定の態様において、空間存在係数は、中間値を中間の区間にある係数に割り当てることによって生成される。中間の区間は、高い係数値を有する、指により選択された区間と、極めて低い係数値を有する、遠く離れた区間との間の区間として、定義される。この態様において、Sの異なる部分どうしの間の連続性の所望の程度が確かにされ、全体の空間Dにおけるより心地よい聴取経験を補償する。
異なる部分に適用される時間変化する値の種々の可能な組み合わせは、未熟なユーザにさえ、3D環境における極めて複雑なオーディオイメージの再生を容易にする。従って、システムは、ユーザが意識的に又は無意識にmi,kの値を楽々と編集することを可能にする。これはつまり、本発明の種々の実施形態によって実行されるよう、再生レイアウト又はチャネルの数に依存しないあらゆる出力オーディオフォーマットへのあらゆる入力オーディオフォーマットの自動変換を促す。
図4は、本発明の一態様に従って、チャネル非依存表現のためのシステム400を表す。これは、標準の5.1及び7.1コンテンツを3Dへアップミキシングするのに有用である。なお、他の入力フォーマットも、下記の直接的な拡張によって可能である。この図は、入力5.1又は7.1チャネルの原の組を表す。5.1に関し、しばしばレフトL、ライトR、センターC、レフトサラウンドLs及びライトサラウンドRsと呼ばれる、典型的な5.1システムからの最初の5つのチャネルは、原の独立したオーディオ信号と見なされる。同じことが7.1にも当てはまり、2つの余分のチャネルは、しばしばレフトバックLb及びライトバックRbと呼ばれる。追加の低周波効果LFE(low frequency effects)又はサブウーファー信号もしばしば存在する。この例となる場合では、8つの独立したオーディオ信号が考えられる。
夫々の信号は、記載される様々な態様及び実施形態を用いてチャネル非依存表現へと符号化される。係数mi,kの適切な選択は、没入効果を高めるのに役立つ。例えば、5.1に関し、レフトサラウンドチャネルは、図8に表されている概念に従うサイズ及び形状を割り当てられる。図8において、レフトサラウンドチャネルは、分割セット810によって識別され、ライトサラウンドチャネルは、分割セット820によって識別されるサイズ及び形状を割り当てられる。
複雑な形状を生成するための本発明の能力は、可聴なアーティファクトを悪化させ生成する状況を回避するので、この場合に不可欠である。例えば、2つのサラウンドチャネルは、空間において重なり合わない。これは、聴衆を囲む左右の半球を可能な限り無相関のままとすることを可能にし、心地よい自然の音響認知をもたらす。それはまた、不快な櫛形フィルタリングアーティファクトをもたらす両信号のミキシングを回避する。同様に、両方のサラウンドチャネルは、会話の明りょう度の低下のような好ましくない効果を生じさせるので、スクリーン範囲830に達しないようにされる。従って、本発明は、特に、多数のラウドスピーカを必要とする環境において、ステレオシステムからアップミキシングされる場合の音響イメージの品質を改善する。
図4はまた、自動係数生成器410又は係数生成手段の使用において成り立つ任意の増強を示す。自動係数生成器410は、時間変化する空間存在係数mi,kを生成する。生成アルゴリズムは、例えば、予め定義された軌道、又は入力オーディオチャネルの解析の結果に基づく。図9は、没入効果を高める適切な時変係数生成を表す。この態様において、チャネルの幾つかの位置、サイズ及び形状に関連する特性は時間変化し、例えば、2つのサラウンドチャネルをループ軌道910において動かすことによって、マップ係数の予め定義された変化に基づく。他の実施形態において、時間変化は、原のチャネルにおけるオーディオの解析に基づく。第1のステップにおいて、全ての入力チャネルにおいて存在するエネルギの量が決定される。次いで、チャネルは、それらの特性に従って、それらが単純な左/右のステレオチャネル、又は5.1/7.1チャネルの1つであるかどうかを識別される。最後に、空間存在係数について生成された値は、推定されたエネルギの変化の結果に依存するよう設定され得る。
例えば、チャネルがサラウンドチャネルである場合に、残りのチャネルに対してサラウンドチャネルに存在する全部の音響エネルギの相対的比率を推定するよう、決定がなされる。最後に、2つのサラウンドチャネルの再生イメージの動きは、この相対的なエネルギ推定に基づき、空間Dにわたって加速される。これは、聴覚情景動作を、原の5.1/7.1コンテンツに依存して、高められたリアリズム及び壮観さが起こるように、サラウンドレベルと同期させる。入力チャネルの解析から取り出される、エネルギ推定とは異なる他の特徴が、使用されてよい。
図5は、先の実施形態のシステムが、多くのオーディオ再生セットアップに特有である前処理段階500と一体化されるところの本発明の実施形態を表す。多くの記録は2チャネルステレオフォーマット510においてしか存在しないので、アップミキサ520が、ステレオを5.1又は7.1にアップミキシングして、最初にアップミキシングされたマルチチャネル信号の組をもたらすよう組み込まれてよい。この最初のアップミキシングの後、先の実施形態及び態様の同じ上記のオーディオプロセッシング段は、最初にアップミキシングされたマルチチャネル信号をチャネル非依存表現において符号化するよう適用する。
図10は、本発明の一実施形態に従って、特定の用途に最も良く適する表現Dの選択のための方法1000を表す。ステップ1010において、ユーザは、3Dオーディオが実施されるべき特定の再生環境に最も良く適する可能な空間Dの形状及びトポロジのリストからの選択のために、直接に又は情報をプロンプトされる。ユーザは、円形、長方形、正方形、又は何らかの他の多角形を含むリストから選択してよい(1020)。選択されたトポロジに依存して、対応する空間Dの形状が、メモリから取り出され、ユーザの便宜のために触知性ユーザインターフェースにおいて視覚化される(1030)。
選択がユーザによって入力されない場合に、方法はステップ1040へ進み、デフォルトの表現が、未知の用途のための最も良く適した形状として選択される(例えば、球形)。結果として、対応するデフォルトの形状Dがメモリから取り出され、ユーザの便宜のために触知性ユーザインターフェースにおいて視覚化される(1040)。空間Dの取り出し及び視覚化の後、ステップ1050において、ユーザは、夫々異なる調整可能な部分サイズを有する、選択された空間Dの異なる事前に設定された分割を提示される。用途に依存して、ユーザは、極めて小さい個別的な部分を有する非常に細かい分割、又はより大きい個別な部分を有するより粗い分割を選択することができる。次いで、アルゴリズムは、残りの符号化ステップへ進む。
本発明の実施形態に従って、チャネル非依存のアルゴリズムを実施する方法1100を表す。方法1000のステップ1050の後のトポロジ並びに分割選択及び構成に従って、ユーザは、空間プロセッシングが必要とされる区間を選択する入力をディスプレイを介してプロンプトされる(1110)。ユーザは、例えば、指により、又は何らかの他の適切な接触装置若しくは手段により、触知性ユーザインターフェースにタッチすることによって、この入力を供給することができる。接触が検知される分割Sが識別され、選択された区間として分類される(1120)。
選択区間が識別されると、最も良く適した空間存在係数のMスケールが選択される(1130)。このスケールから、係数mの値が取り出される。ステップ1140で、その特定の入力オーディオチャネルのためのmの値が決定される。このプロセスは、全ての入力オーディオチャネルのための全マトリクスMが空間Dの全ての部分及び分割について決定されるまで、繰り返される(1145)。ステップ1120の結果が、ユーザ入力が検出されないというものである場合は、アルゴリズムは、デフォルトによって、空間D内の分割セット又は部分に無関係に全ての入力オーディオチャネルに適用すべき存在係数mの中間値へ続く。
空間存在度を夫々の入力オーディオチャネルに割り当てるプロセスは、単純にユーザが触知性ユーザインターフェースにタッチしながら自身の指を動かすことを可能にし、このようにして、時間変化する空間存在係数を生成し、任意に、オーディオワークフロー及びミキシングコンソールによる音響ポストプロダクションにおいて標準的であるように、イベントの時間軸ストリームにおいて各係数の対応する時間履歴を記録することによって、時間変化することができる。
マトリクスが完全である場合に、ステップ1150で、入力オーディオ信号の組Aと出力オーディオ信号の組Bとの間のマッピングが、記載されるように実行される。このマッピングは、高い値のmを有する選択区間と、低い値のmを有する非選択区間との間の滑らかな遷移を実行することを含む。一態様において、この滑らかな遷移は、ユーザ選択に依存して、同じ選択されたMスケールから、又は異なるMスケールから、mの連続する値を選択することによって、同様に実行されてよい。
最後に、空間Dの全ての分割セット及び部分のマッピングが完了すると、空間D及び分割Sを記述する空間存在係数を含む関連するメタデータが生成される。メタデータは、出力信号とともに、オーディオデコーダによって更に処理されて、特定の会場において存在するラウドスピーカへ供給される(1160)ことができる出力オーディオ信号の完全な組Bをもたらす。次いで、方法は、ユーザ触知入力に関してその情報を更新するために最初のステップ1110へ返り(1165)、それによって、実時間で実行される動的アルゴリズムをもたらす。方法1100は、従って、チャネル非依存表現Bへの入力オーディオ信号Aの時間変化する適応的な符号化にユーザ命令を組み込む反復アルゴリズムであって、先行技術において認識された問題を解消する。
図12は、空間存在係数のスケール1200の3つの例を表す。それらのスケールは、縦軸において、空間存在係数mがとることができる値の範囲を有する。mの最大値は、ユーザ選択に依存して設定され得る。それは、0から1、又は0からその他値(例えば、100又は1000)の間で変化することができる。横軸Xは、没入型音響イメージエンハンスメントのための関連する多数の係数を表すことができるパラメータである。
一態様において、Xは、隣接する被選択区間の数が増えるにつれて値が大きくなる相関パラメータを表す。よって、分離した部分は、部分のグループよりも低い値のmを有する。同様に、部分のグループ内で、中心の部分は、周辺の他の部分に比べて最も高い値のmを割り当てられる。
他の態様において、Xは、空間Dにおける他の点Z、例えば、映画館の前方のスクリーン、側壁、会場のアーキテクチャによって生成される特定のエコー効果を伴う特定の予め定義された範囲、からの被選択部分の距離を表す。よって、割り当てられるmの値は、この点Zからの被選択部分の距離に基づく。
他の態様において、Xは、全ての部分の全ての入力オーディオ信号Aにおいて存在する全エネルギに対する、その被選択部分において存在する相対音響エネルギを表す。従って、より高い値のmが、高い相対エネルギに割り当てられ、それによって、高いエネルギ音響効果を一時的に示す特定のチャネルの空間存在度を高める。
他の態様において、Xは、圧力パラメータを表す。つまり、ユーザが触知接触を行う場合に、及ぼされる圧力の差は、Mスケールの横軸に変換される。この態様において、触知性インターフェースに及ぼされるユーザ圧力は大きいほど、対応する高い値のmへ変換され、それにより、触知性インターフェースにおいて検知される圧力が大きいほど、より高い圧力パラメータが特定の分割S、又は特定の分割Sの部分sへ割り当てられる。従って、より高い空間存在度が、入力オーディオ信号の固有特性と無関係に、その特定の領域において採用される。そのような態様の全ては、従って、直観的且つ楽な方法においてユーザから情報を受け取る。
種々のMスケールの可能性の例として、図12は、記載される種々のとり得るパラメータXに基づきmの決定される値に関連して1つの線形な及び2つの非線形な関数を表す。第1の線形なMスケール1210において、mの値は、パラメータXの値における対応する増大に直接的に比例して増大する。
第2の非線形なMスケール1220において、mの値は、パラメータXの値における対応する増大に対して、対数関数として増大する。ここで、高い値のmは、相対的に高い所定の閾値が超えられると、割り当てられる。この態様において、特定のオーディオ入力の空間存在度は、特定のパラメータが、所定の閾値によって定義されるその最大値に近づく場合にのみ、高められる。
Xが相関的なパラメータを表す場合に、対応する高い値のmは、多数のグループ化された選択を表す閾値が超えられる場合にのみ、被選択部分に割り当てられる。そのような場合に、閾値は、ユーザにより予め定義されるか、又は4本の指を表すデフォルトの4に設定される。従って、4よりも多い指が使用される場合は、特別の意味が被選択区間において意図されると理解され、より高い空間存在度に変わる。Xが距離を表す場合に、対応する高い値のmは、所定の点Zから遠く離れた被選択部分に割り当てられる。これは、例えば、特定の低没入区間が、異なるニーズに持った人々、例えば、子供、又は聴覚感度を有する観客のために定義される場合に、有用である。Xが相対音響エネルギを表す場合に、所定の閾値が超えられると、対応する高い値のmは、高エネルギ入力信号が示している壮観な音響効果を正確に反映するよう割り当てられる。最後に、Xが触圧を表す場合に、圧力がある閾値を超える場合にのみ、高いm値が割り当てられる。これは、異なる強さで押すユーザごとに触知挙動が変化する状況において有用である。従って、それは、問題となっているユーザに適合する。
第3の非線形なMスケール1230において、mの値は、パラメータXの値における対応する増大に対して、対数関数として増大するが、その関係は、先の非線形スケール1220に対して変化する。ここで、高い値のmは、相対的に低い所定の閾値が超えられると、割り当てられる。この態様において、特定のオーディオ入力の空間存在度は、特定のパラメータが、所定の閾値によって定義される相対的に低い値に近づくと直ぐに、高められる。
Xが相関的なパラメータを表す場合に、対応する高い値のmは、少数のグループ化された選択を表す閾値が超えられると直ぐに、被選択部分に割り当てられる。そのような場合に、閾値は、ユーザにより予め定義されるか、又は2本の指を表すデフォルトの2に設定される。従って、2よりも多い指が使用される場合は、特別の意味が被選択区間において意図されると理解され、より高い空間存在度に変わる。この態様はまた、単一の部分よりも多くの部分が指のスワイプ動作を介して選択されることを可能にする。Xが距離を表す場合に、対応する高い値のmは、所定の点Zに近い被選択部分に割り当てられる。これは、例えば、最適なラウドスピーカのホットスポットから遠く離れた区間において没入経験を増幅させるために有用である。Xが相対音響エネルギを表す場合に、所定の閾値が超えられると、対応する高い値のmは、高エネルギ入力信号が示している壮観な音響効果を正確に反映するよう割り当てられる。しかし、この場合に、方法は、対数スケールの低い閾値に起因して、入力エネルギにおける如何なる小さな変動に対しても敏感に反応する。最後に、Xが触圧を表す場合に、圧力が低い閾値を超えると、高いm値が割り当てられる。これは、低圧タッチによる繊細な動作をユーザが実行する必要がある状況において有用である。従って、それは、問題となっているユーザに適合する。
当業者には当然に、本発明の様々な実施形態の開示は、本発明の非制限的な好ましい例として意図され、従って、異なる実施形態の特徴は、記載される全体的な発明概念の適用範囲内で容易に組み合わされてよい。
当然に、ここで記載される実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、又はそれらのあらゆる組み合わせによって実施されてよい。システム及び/又は方法がソフトウェア、ファームウェア、ミドルウェア、又はマイクロコード、プログラムコード若しくはコードセグメント、コンピュータプログラムにおいて実施される場合に、それらは、ストレージコンポーネントのような、マシンにより読出可能な媒体において記憶されてよい。コンピュータプログラム又はコードセグメントは、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、又は命令、データ構造、若しくはプログラム記述のあらゆる組み合わせを表してよい。コードセグメントは、情報、データ、引数、パラメータ、又はメモリコンテンツをパス及び/又は受信することによって、他のコードセグメント又はハードウェア回路へ結合されてよい。情報、引数、パラメータ、データ、等は、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク伝送、等を含むあらゆる適切な手段を用いて、パス、転送、又は送信されてよい。
ソフトウェア実施のために、ここで記載される技術は、ここで記載される機能を実行するモジュール(例えば、プロシージャ、関数、等)により実施されてよい。ソフトウェアコードは、メモリユニットにおいて記憶され、プロセッサによって実行されてよい。メモリユニットは、プロセッサ内又はプロセッサ外に実装されてよく、後者の場合に、それは、当該技術で知られている様々な手段を通じてプロセッサへ通信上結合され得る。更に、少なくとも1つのプロセッサは、ここで記載される機能を実行するよう動作可能な1又はそれ以上のモジュールを含んでよい。
ハードウェア実施のために、ここで開示される実施形態に関連して記載される様々な論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、及び特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他のプログラム可能論理装置、ディスクリートゲート若しくはトランジスタロジック、ディスクリートハードウェア部品、又はここで記載される機能を実行するよう設計されたそれらのあらゆる組み合わせにより実行されるよう実施されてよい。汎用プロセッサは、マイクロプロセッサであってよいが、代替案において、プロセッサは、あらゆる従来のプロセッサ、コントローラ、マイクロコントローラ、又は状態機械であってよい。
記載される方法又はアルゴリズムは、ハードウェアにおいて直接的に、プロセッサによって実行されるソフトウェアモジュールにおいて、又はそれらの組み合わせにおいて、具現されてよい。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能なディスク、CD−ROM、又は当該技術で知られている記憶媒体の何らかの他の形態に存在してよい。
当業者には当然に、1又はそれ以上の実施形態の上記の議論は、本発明を制限せず、添付の図面もそうである。むしろ、本発明は、特許請求の範囲によってのみ制限される。

Claims (25)

  1. マルチチャネルコンテンツの個別的なトラック又はストリームを有する少なくとも1つの入力オーディオ信号を、任意のラウドスピーカレイアウトに対する再生のための少なくとも1つの出力オーディオ信号を有するチャネル非依存表現へと符号化する装置であって、
    標的の聴衆をカバーする空間Dを定義する手段と、
    前記空間Dを複数の部分kに分割する手段と、
    入力オーディオ信号と部分kとの夫々の組み合わせについて少なくとも1つの空間存在係数mを生成し、夫々の空間存在係数mが、前記空間Dの夫々の部分k内への夫々の入力オーディオ信号の存在の程度を定量化する、手段と、
    夫々の空間存在係数mへ割り当てられた値に基づき、当該部分k内での再生のために、前記少なくとも1つの入力オーディオ信号を前記少なくとも1つの出力オーディオ信号へマッピングする手段と
    を有する装置。
  2. 前記チャネル非依存表現は、前記標的の聴衆を囲む前記空間Dと、前記複数の部分kへの前記空間Dの分割とを記述する情報を更に有する、
    請求項1に記載の装置。
  3. 前記空間Dは、任意の形状、球形形状、長方形形状、又は何らかの他の表面を有する空間Dを選択することによって定義される、
    請求項2に記載の装置。
  4. 前記空間Dは、より細かい部分、若しくはより粗い部分、又はより細かい部分とより粗い部分との組み合わせに分割され、前記部分は、規則的な又は不規則な形状であることができる、
    請求項2に記載の装置。
  5. 夫々の空間存在係数mは、手動により又は自動で値を割り当てることによって生成され、夫々の空間存在係数mへ割り当てられる値は、一定であるか、又は時間変化し、該時間変化は、手動により決定されるか、又は予め設定された命令に従うか、又は前記入力オーディオ信号のコンテンツに依存して自動で生成される、
    請求項2に記載の装置。
  6. 前記空間Dの特定の部分は、前記空間又は該空間の部分が表示されている触知性ユーザインターフェースにおける接触を検出することによって、選択される、
    請求項2に記載の装置。
  7. 夫々の選択された部分に対応する前記空間存在係数mは、高い値を割り当てられ、残りの部分は、漸減するより低い値を割り当てられる、
    請求項6に記載の装置。
  8. 残りの部分の夫々の空間存在係数mへ割り当てられる値は、隣接する選択された部分の数に比例して増大する、
    請求項7に記載の装置。
  9. 残りの部分の夫々の空間存在係数mへ割り当てられる値は、選択された部分からの距離に比例して低減する、
    請求項7に記載の装置。
  10. 残りの部分の夫々の空間存在係数mへ割り当てられる値は、選択された部分に存在する相対音響エネルギに比例して増大し、該相対音響エネルギは、全ての部分の全ての入力オーディオ信号における音響エネルギの総量と比較した音響エネルギである、
    請求項7に記載の装置。
  11. 選択された又は残りの部分の夫々の空間存在係数mへ割り当てられる値は、前記触知性ユーザインターフェースの前記選択された部分で検知される触圧に比例して増大する、
    請求項7に記載の装置。
  12. 前記入力オーディオ信号は、ただ2つの個別的なトラック、又はステレオトラックのストリームを有し、当該装置は、前記チャネル非依存表現の生成より前に、2つの前記入力オーディオ信号を4.0、5.1、又は7.1個のオーディオ信号へアップミキシングする前処理手段を更に有する、
    請求項7に記載の装置。
  13. マルチチャネルコンテンツの個別的なトラック又はストリームを有する少なくとも1つの入力オーディオ信号を、任意のラウドスピーカレイアウトに対する再生に適した少なくとも1つの出力オーディオ信号を有するチャネル非依存表現へと符号化する方法であって、
    標的の聴衆をカバーする空間Dを定義するステップと、
    前記空間Dを複数の部分kに分割するステップと、
    入力オーディオ信号と部分kとの夫々の組み合わせについて少なくとも1つの空間存在係数mを生成し、夫々の空間存在係数mが、前記空間Dの夫々の部分k内への夫々の入力オーディオ信号の存在の程度を定量化する、ステップと、
    夫々の空間存在係数mへ割り当てられた値に基づき、当該部分k内での再生のために、前記少なくとも1つの入力オーディオ信号を前記少なくとも1つの出力オーディオ信号へマッピングするステップと
    を有する方法。
  14. 前記チャネル非依存表現は、前記標的の聴衆を囲む前記空間Dと、前記複数の部分kへの前記空間Dの分割とを記述する情報を更に有する、
    請求項13に記載の方法。
  15. 前記入力オーディオ信号は、ただ2つの個別的なトラック、又はステレオトラックのストリームを有し、当該方法は、前記チャネル非依存表現の生成より前に、2つの前記入力オーディオ信号を4.0、5.1、又は7.1個のオーディオ信号へアップミキシングするステップを更に有する、
    請求項13に記載の方法。
  16. 任意のラウドスピーカレイアウトに対する再生のための少なくとも1つの出力オーディオ信号を有するチャネル非依存表現を復号する装置であって、
    少なくとも1つの前記チャネル非依存表現を受け取る手段と、
    前記少なくとも1つのチャネル非依存表現から前記少なくとも1つの出力オーディオ信号を取り出す手段と、
    前記任意のラウドスピーカレイアウトに対して前記少なくとも1つの出力オーディオ信号を再生する手段と
    を有し、
    前記少なくとも1つの出力オーディオ信号は、標的の聴衆をカバーする空間Dの複数の部分kにわたって再生される、装置。
  17. 前記チャネル非依存表現は、前記標的の聴衆を囲む前記空間Dと、前記複数の部分kへの前記空間Dの分割とを記述する情報を更に有する、
    請求項16に記載の装置。
  18. 任意のラウドスピーカレイアウトに対する再生のための少なくとも1つの出力オーディオ信号を有するチャネル非依存表現を復号する方法であって、
    少なくとも1つの前記チャネル非依存表現を受け取るステップと、
    前記少なくとも1つのチャネル非依存表現から前記少なくとも1つの出力オーディオ信号を取り出すステップと、
    前記任意のラウドスピーカレイアウトに対して前記少なくとも1つの出力オーディオ信号を再生するステップと
    を有し、
    前記少なくとも1つの出力オーディオ信号は、標的の聴衆をカバーする空間Dの複数の部分kにわたって再生される、方法。
  19. 前記チャネル非依存表現は、前記標的の聴衆を囲む前記空間Dと、前記複数の部分kへの前記空間Dの分割とを記述する情報を更に有する、
    請求項18に記載の方法。
  20. マルチチャネルコンテンツの個別的なトラック又はストリームを有する少なくとも1つの入力オーディオ信号から、任意のラウドスピーカレイアウトに対する再生に適した少なくとも1つの出力オーディオ信号を有するチャネル非依存表現を生成するシステムであって、
    少なくとも1つの入力オーディオ信号を収集する手段と、
    請求項1乃至12のうちいずれか一項に記載の、前記少なくとも1つの入力オーディオ信号をチャネル非依存表現へと符号化する手段と、
    請求項16又は17に記載の、前記少なくとも1つのチャネル非依存表現を少なくとも1つの出力オーディオ信号へと復号し、前記任意のラウドスピーカレイアウトを介して前記少なくとも1つの出力オーディオ信号を再生する手段と
    を有するシステム。
  21. 前記入力オーディオ信号は、ただ2つの個別的なトラック、又はステレオトラックのストリームを有し、当該システムは、前記チャネル非依存表現の生成より前に、2つの前記入力オーディオ信号を4.0、5.1、又は7.1個のオーディオ信号へアップミキシングする前処理段階を更に有する、
    請求項20に記載のシステム。
  22. マルチチャネルコンテンツの個別的なトラック又はストリームを有する少なくとも1つの入力オーディオ信号から、任意のラウドスピーカレイアウトに対する再生に適した少なくとも1つの出力オーディオ信号を有するチャネル非依存表現を生成する方法であって、
    少なくとも1つの入力オーディオ信号を収集するステップと、
    請求項13乃至15のうちいずれか一項に記載の、前記少なくとも1つの入力オーディオ信号をチャネル非依存表現へと符号化するステップと、
    請求項18又は19に記載の、前記少なくとも1つのチャネル非依存表現を少なくとも1つの出力オーディオ信号へと復号し、前記任意のラウドスピーカレイアウトを介して前記少なくとも1つの出力オーディオ信号を再生するステップと
    を有する方法。
  23. 前記入力オーディオ信号は、ただ2つの個別的なトラック、又はステレオトラックのストリームを有し、当該方法は、前記チャネル非依存表現の生成より前に、2つの前記入力オーディオ信号を4.0、5.1、又は7.1個のオーディオ信号へアップミキシングするステップを更に有する、
    請求項22に記載の方法。
  24. コンピュータマシンで実行される場合に、請求項13乃至15、18乃至19、又は22乃至23のうちいずれか一項に記載の方法のステップを再現するコンピュータプログラム。
  25. マシンで実行される場合に、請求項13乃至15、18乃至19、又は22乃至23のうちいずれか一項に記載の方法のステップを実行する命令を有するコンピュータ可読媒体。
JP2015507389A 2012-05-07 2012-05-07 レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置 Active JP5973058B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/058382 WO2013167164A1 (en) 2012-05-07 2012-05-07 Method and apparatus for layout and format independent 3d audio reproduction

Publications (2)

Publication Number Publication Date
JP2015518182A true JP2015518182A (ja) 2015-06-25
JP5973058B2 JP5973058B2 (ja) 2016-08-23

Family

ID=46147419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015507389A Active JP5973058B2 (ja) 2012-05-07 2012-05-07 レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置

Country Status (5)

Country Link
US (1) US9378747B2 (ja)
EP (1) EP2848009B1 (ja)
JP (1) JP5973058B2 (ja)
CN (1) CN104303522B (ja)
WO (1) WO2013167164A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102201713B1 (ko) 2012-07-19 2021-01-12 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
US10334387B2 (en) 2015-06-25 2019-06-25 Dolby Laboratories Licensing Corporation Audio panning transformation system and method
JP7009389B2 (ja) 2016-05-09 2022-01-25 グラバンゴ コーポレイション 環境内のコンピュータビジョン駆動型アプリケーションのためのシステムおよび方法
WO2018013439A1 (en) 2016-07-09 2018-01-18 Grabango Co. Remote state following devices
US10409548B2 (en) * 2016-09-27 2019-09-10 Grabango Co. System and method for differentially locating and modifying audio sources
US10419866B2 (en) * 2016-10-07 2019-09-17 Microsoft Technology Licensing, Llc Shared three-dimensional audio bed
WO2018148613A1 (en) 2017-02-10 2018-08-16 Grabango Co. A dynamic customer checkout experience within an automated shopping environment
JP7165140B2 (ja) 2017-05-10 2022-11-02 グラバンゴ コーポレイション 効率的配置のための直列構成カメラアレイ
BR112019027120A2 (pt) 2017-06-21 2020-07-07 Grabango Co. método e sistema
US20190079591A1 (en) 2017-09-14 2019-03-14 Grabango Co. System and method for human gesture processing from video input
US11102601B2 (en) * 2017-09-29 2021-08-24 Apple Inc. Spatial audio upmixing
US11128977B2 (en) * 2017-09-29 2021-09-21 Apple Inc. Spatial audio downmixing
US10963704B2 (en) 2017-10-16 2021-03-30 Grabango Co. Multiple-factor verification for vision-based systems
US11481805B2 (en) 2018-01-03 2022-10-25 Grabango Co. Marketing and couponing in a retail environment using computer vision
CA3117918A1 (en) 2018-10-29 2020-05-07 Grabango Co. Commerce automation for a fueling station
US11507933B2 (en) 2019-03-01 2022-11-22 Grabango Co. Cashier interface for linking customers to virtual data
US11832077B2 (en) 2021-06-04 2023-11-28 Apple Inc. Spatial audio controller

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007053624A (ja) * 2005-08-18 2007-03-01 Nippon Hoso Kyokai <Nhk> ダウンミックス装置およびダウンミックスプログラム
JP2011510589A (ja) * 2008-01-23 2011-03-31 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2012049967A (ja) * 2010-08-30 2012-03-08 Nippon Hoso Kyokai <Nhk> 音響信号変換装置およびそのプログラム、ならびに、3次元音響パンニング装置およびそのプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857026A (en) * 1996-03-26 1999-01-05 Scheiber; Peter Space-mapping sound system
US7676047B2 (en) * 2002-12-03 2010-03-09 Bose Corporation Electroacoustical transducing with low frequency augmenting devices
DE10344638A1 (de) * 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
US8369532B2 (en) * 2006-08-10 2013-02-05 Koninklijke Philips Electronics N.V. Device for and a method of processing an audio signal
DE102006053919A1 (de) * 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US8509454B2 (en) 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
KR101567461B1 (ko) * 2009-11-16 2015-11-09 삼성전자주식회사 다채널 사운드 신호 생성 장치
EP2540101B1 (en) * 2010-02-26 2017-09-20 Nokia Technologies Oy Modifying spatial image of a plurality of audio signals
US9020152B2 (en) * 2010-03-05 2015-04-28 Stmicroelectronics Asia Pacific Pte. Ltd. Enabling 3D sound reproduction using a 2D speaker arrangement
EP2373054B1 (de) * 2010-03-09 2016-08-17 Deutsche Telekom AG Wiedergabe in einem beweglichen Zielbeschallungsbereich mittels virtueller Lautsprecher
KR102049602B1 (ko) * 2012-11-20 2019-11-27 한국전자통신연구원 멀티미디어 데이터 생성 장치 및 방법, 멀티미디어 데이터 재생 장치 및 방법
EP2936839B1 (en) * 2012-12-20 2020-04-29 Strubwerks LLC Systems and methods for providing three dimensional enhanced audio
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007053624A (ja) * 2005-08-18 2007-03-01 Nippon Hoso Kyokai <Nhk> ダウンミックス装置およびダウンミックスプログラム
JP2011510589A (ja) * 2008-01-23 2011-03-31 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2012049967A (ja) * 2010-08-30 2012-03-08 Nippon Hoso Kyokai <Nhk> 音響信号変換装置およびそのプログラム、ならびに、3次元音響パンニング装置およびそのプログラム

Also Published As

Publication number Publication date
US9378747B2 (en) 2016-06-28
EP2848009A1 (en) 2015-03-18
US20150124973A1 (en) 2015-05-07
EP2848009B1 (en) 2020-12-02
WO2013167164A1 (en) 2013-11-14
CN104303522A (zh) 2015-01-21
CN104303522B (zh) 2017-04-19
JP5973058B2 (ja) 2016-08-23

Similar Documents

Publication Publication Date Title
JP5973058B2 (ja) レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置
JP6804495B2 (ja) 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
CN112262585B (zh) 环境立体声深度提取
TWI744341B (zh) 使用近場/遠場渲染之距離聲相偏移
JP6732764B2 (ja) 適応オーディオ・コンテンツのためのハイブリッドの優先度に基づくレンダリング・システムおよび方法
JP6186435B2 (ja) ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング
US9712939B2 (en) Panning of audio objects to arbitrary speaker layouts
JP2023164976A (ja) オーディオ信号処理システム及び方法
JP5688030B2 (ja) 三次元音場の符号化および最適な再現の方法および装置
US20230179939A1 (en) Grouping and transport of audio objects
Peteres et al. Current technologies and compositional practices for spatialization: A qualitative and quantitative analysis
US20170098452A1 (en) Method and system for audio processing of dialog, music, effect and height objects
US9489954B2 (en) Encoding and rendering of object based audio indicative of game audio content
US9858932B2 (en) Processing of time-varying metadata for lossless resampling
Tsingos Object-based audio
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
JP7493559B2 (ja) 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
Vilkaitis et al. Ambisonic Sound Design for Theatre with Virtual Reality Demonstration-A Case Study

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160713

R150 Certificate of patent or registration of utility model

Ref document number: 5973058

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250