JP5490118B2 - 空間オーディオストリームをマージするための装置 - Google Patents

空間オーディオストリームをマージするための装置 Download PDF

Info

Publication number
JP5490118B2
JP5490118B2 JP2011522430A JP2011522430A JP5490118B2 JP 5490118 B2 JP5490118 B2 JP 5490118B2 JP 2011522430 A JP2011522430 A JP 2011522430A JP 2011522430 A JP2011522430 A JP 2011522430A JP 5490118 B2 JP5490118 B2 JP 5490118B2
Authority
JP
Japan
Prior art keywords
wave
merged
representation
audio
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011522430A
Other languages
English (en)
Other versions
JP2011530720A (ja
Inventor
ガルド ジョヴァンニ デル
ファビアン キュッヒ
マルクス カリンジャー
ビーレ プルッキ
ミッコ−ヴィレ ライティネン
リヒャルト シュルツ−アムリング
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011530720A publication Critical patent/JP2011530720A/ja
Application granted granted Critical
Publication of JP5490118B2 publication Critical patent/JP5490118B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ処理、特に空間オーディオ処理および複数の空間オーディオストリームマージするための装置に関する
DirAC(DirAC=Directional Audio Coding:方向オーディオコーディング)(V.プルッキ(V.Pulkki)およびC.ファーラー(C.Faller)著,「空間的な音再生およびステレオアップミキシングにおける方向オーディオコーディング(Directional audio coding in spatial sound reproduction and stereo upmixing),AES第28回国際会議,ピーティオ,スウェーデン,2006年6月」およびV.プルッキ(V.Pulkki)著,「マルチチャンネルリスニングにおける自然のまたは修正された空間印象を再生するための方法(A method for reproducing natural or modified spatial impression in Multichannel Listening)」,国際公開2004/077884 A1号公報),2004年9月を参照)は、空間的な音の分析および再生の効果的なアプローチである。DirACは、空間的な音(すなわち、到来方向(DOA=Direction Of Arrival)および周波数サブバンドにおける音場の拡散)の認識に対して関連する特徴に基づいて、音場のパラメータの表現を使用する。実際は、DirACは、音場のDOAが正確に再生される場合、両耳間時間差(ITD=Interaural Time Differences)および両耳間レベル差(ILD=Interaural Level Differences)が正確に知覚され、一方、拡散が正確に再生される場合、両耳間コヒーレンスが正確に知覚されると仮定する。
これらのパラメータ(すなわち、DOAおよび拡散)は、モノラルDirACストリームと呼ばれるモノラル信号を伴うサイド情報を表す。DirACパラメータは、マイクロホン信号の時間−周波数表現から得られる。従って、パラメータは、時間および周波数に依存している。再生側において、この情報は、正確な空間レンダリングを許容する。所望のリスニング位置での空間的な音を再形成するために、複数のスピーカの設備が必要とされる。しかしながら、その配置は、任意である。実際は、DirACパラメータの関数として、スピーカのための信号が決定される。
それらは良く似た処理構造をしているが(ラルス ヴィレモエス(Lars Villemoes)、ユールゲン ヘレ(Juergen Herre)、イェルーン ブレーバールト(Jeroen Breebaart)、ゲラルド ホトー(Gerard Hotho)、サッシャ ディスヒ(Sascha Disch)、ハイコ プルンハーゲン(Heiko Purnhagen)およびクリストファ クジュルリング(Kristofer Kjrlingm)著,「MPEGサラウンド:空間オーディオコーディングのための次回のISO標準(MPEG surround:The forthcoming ISO standard for spatial audio coding)」,AES第28回国際会議,ピーティオ,スウェーデン,2006年6月を参照)、DirACとMPEGサラウンドのようなパラメータのマルチチャネルオーディオコーディングとの間には、根本的な相違点がある。MPEGサラウンドが異なるスピーカチャンネルの時間−周波数分析に基づく一方、DirACは、あるポイントにおける音場を効果的に記載する同軸マイクのチャネルの入力として行う。このように、DirACは、空間オーディオに対する効率的な記録方法も表す。
空間オーディオを取り扱う他の従来のシステムは、現在のISO/MPEGにおける標準化に基づくSAOC(SAOC=Spatial Audio Object Coding:空間オーディオオブジェクトコーディング)(ヨナス エングデガルド(Jonas Engdegard)、バーバラ レッシュ(Barbara Resch)、コーネリア ファルチ(Cornelia Falch)、オリバー ヘルムート(Oliver Hellmuth)、ジョーハン ヒルペアト(Johannes Hilpert)、アンドレーアス ヘルツァー(Andreas Hoelzer)、レオニード テレンチエフ(Leonid Terenetiev)、イェルーン ブレーバールト(Jeroen Breebaart)、イェルーン コッペン(Jeroen Koppens)、エリック シュイヤー(Erik Schijer)およびウェルナー オーメン(Werner Oomen)著,「空間オーディオオブジェクトコーディング(SAOC)オーディオコーディングに基づくパラメータオブジェクトにおける次回のMPEG標準」,第124回AES大会,2008年5月17−20日,アムステルダム,オランダ 2008を参照)である。
それは、MPEGサラウンドのレンダリングエンジンを基にして、オブジェクトとして異なる音源を取り扱う。このオーディオコーディングは、ビットレートに関して非常に高い効率を提供し、再生側での相互作用の前例のない自由を与える。このアプローチは、他の新規なアプリケーションと同様に、レガシーシステムにおいて、新しい説得力のある特徴および機能性を約束する。
国際公開2004/077884 A1号公報
V.プルッキ(V.Pulkki)及びC.ファーラー(C.Faller)著,「空間的な音声再生における方向オーディオコーディングおよびステレオアップミキシング(Directional audio coding in spatial sound reproduction and stereo upmixing),AES第28回国際会議,ピーティオ,スウェーデン,2006年6月 V.プルッキ(V.Pulkki)著,「マルチチャンネルリスニングにおける自然のまたは修正された空間印象を再生するための方法(A method for reproducing natural or modified spatial impression in Multichannel Listening)」,国際公開2004/077884 A1号公報),2004年9月 ラルス ヴィレモエス(Lars Villemoes)、ユールゲン ヘレ(Juergen Herre)、イェルーン ブレーバールト(Jeroen Breebaart)、ゲラルド ホトー(Gerard Hotho)、サッシャ ディスヒ(Sascha Disch)、ハイコ プルンハーゲン(Heiko Purnhagen)及びクリストファ クジュルリング(Kristofer Kjrlingm)著,「MPEGサラウンド:空間オーディオコーディングのための次回のISO標準(MPEG surround:The forthcoming ISO standard for spatial audio coding)」,AES第28回国際会議,ピーティオ,スウェーデン,2006年6月 ヨナス エングデガルド(Jonas Engdegard)、バーバラ レッシュ(Barbara Resch)、コーネリア ファルチ(Cornelia Falch)、オリバー ヘルムート(Oliver Hellmuth)、ジョーハン ヒルペアト(Johannes Hilpert)、アンドレーアス ヘルツァー(Andreas Hoelzer)、レオニード テレンチエフ(Leonid Terenetiev)、イェルーン ブレーバールト(Jeroen Breebaart)、イェルーン コッペン(Jeroen Koppens)、エリック シュイヤー(Erik Schijer)及びウェルナー オーメン(Werner Oomen)著,「空間オーディオオブジェクトコーディング(SAOC)オーディオコーディングに基づくパラメータオブジェクトにおける次回のMPEGサラウンド」,第124回AES大会 2008年5月17−20日
本発明の目的は、空間オーディオ信号をマージするための適格な概念を提供することである。
この目的は、請求項1または請求項1に記載のマージするための装置および請求項13または請求項1に記載のマージするための方法により達成される。
マージすることは、マルチチャネルDirACストリームの場合、すなわち、4つのB−フォーマットのオーディオチャネルが利用された場合において些細なことである点に留意されたい。実際は、異なるソースからの信号が、マージされたストリームのB−フォーマット信号を得るために直接的に合計されうる。しかしながら、これらのチャネルが直接的に利用できない場合、マージすることは問題を含む。
本発明は、空間オーディオ信号が、波表現(例えば、平面波表現)および拡散場表現の合計によって表現されうるという発見に基づく。前者に対しては、それは、方向を割り当てられうる。いくつかのオーディオストリームをマージしている場合、実施形態は、例えば、拡散および方向に関して、マージされたストリームのサイド情報を得ることを可能にする。実施形態は、入力されたオーディオストリームと同様に、波表現からこの情報を得ることができる。波のパートまたは表現および拡散のパートおよび表現によってモデル化されうる全てのいくつかのオーディオストリームをマージしている場合、波のパートまたは成分および拡散のパートまたは成分が別々にマージされうる。波のパートをマージすることは、マージされた波のパートを得る。そのために、マージされた方向は、波のパートの表現の方向に基づいて得られうる。さらに、拡散のパートも、別々にマージされることもでき、すべての拡散パラメータはマージされた拡散のパートから導出されうる。
実施形態は、モノラルDirACストリームとして符号化される2以上の空間オーディオ信号をマージするための方法を提供することができる。結果として得るマージされた信号は、同様に、モノラルDirACストリームとして表現されうる。実施形態において、単一のオーディオチャネルのみが、サイド情報と共に送信されることを必要とする場合、モノラルDirACの符号化は、空間オーディオを記述する簡潔な方法である。
実施形態において、可能なシナリオは、2人以上の関係者を伴う通信会議アプリケーションである。例えば、ユーザAは、2つの別々のモノラルDirACストリームを生成するユーザBおよびCとコンタクトを取る。Aの位置において、実施形態は、従来のDirAC合成技術によって再生されうる単一のモノラルDirACストリームにマージされうるユーザB及びCのストリームを許容する。多点制御装置(MCU=Multipoint Control Unit:多点制御装置)の存在がわかるネットワーク接続状態を利用している実施形態において、マージする操作は、MCUそれ自身によって実行される。その結果、ユーザAは、B及びCの両方からの音声を既に含んでいる単一のモノラルDirACストリームを受信する。明らかに、マージされたDirACストリームは、合成的に生成もされ、適切なサイド情報がモノラルオーディオ信号に追加されうることを意味する。今挙げられる実施例において、ユーザAは、いかなるサイド情報なしにBおよびCから2つのオーディオストリームを受信する可能性がある。そして、特定の方向および拡散を各ストリームに割り当てることは可能であり、従って、サイド情報を追加することは、実施形態によってマージされうるDirACストリームを構成するために必要である。
実施形態における他の可能なシナリオは、マルチプレーヤのオンラインゲームおよび仮想現実のアプリケーションにおいて発見することができる。これらの場合において、いくつかのストリームは、プレーヤまたは仮想オブジェクトのいずれか一方から生成される。各ストリームは、リスナーに関連して、特定の到来方向によって特徴づけられ、したがって、DirACストリームによって表現されうる。実施形態は、異なるストリームを、リスナーの位置において再生される単一のDirACにマージするために使用されうる。
本発明の実施形態は、添付の図を使用して以下に詳述される。
図1aは、マージする装置の実施形態を示す。 図1bは、平面波のためのガウス平面における圧力および粒子速度ベクトルの成分を示す。 図2は、DirACエンコーダの実施形態を示す。 図3は、オーディオストリームの理想的なマージを例示する。 図4は、一般的なDirACマージングの処理ブロックの実施形態の入力および出力を示す。 図5は、実施形態のブロック図を示す。 図6は、マージするための方法の実施形態のフローチャートを示す。
図1aは、マージされたオーディオストリームを得るために、第1の空間オーディオストリームを第2の空間オーディオストリームにマージするための装置100の実施形態を例示する。図1aにおいて例示される実施形態は、2つのオーディオストリームのマージを例示しているが、2つのオーディオストリームに限られず、同様の方法で、複数の空間オーディオストリームがマージされうる。例えば、第1の空間オーディオストリームおよび第2の空間オーディオストリームは、モノラルDirACストリームに対応し、そして、マージされたオーディオストリームは、単一のモノラルDirACのオーディオストリームに対応する。その後、詳述されるように、モノラルDirACストリームは、例えば、全方向性マイクロホンおよびサイド情報によって得られる圧力信号を含みうる。後者は、音の拡散および到来方向の時間−周波数依存量を含みうる。
図1aは、マージされたオーディオストリームを得るために、第1の空間オーディオストリームを第2の空間オーディオストリームにマージするための装置100の実施形態を示し、第1の空間オーディオストリームに対する第1の波方向量および第1の波場量を含む第1の波表現を推定するため、および第2の空間オーディオストリームに対する第2の波方向量および第2の波場量を含む第2の波表現を推定するための推定器120を含み、ここで、第1の空間オーディオストリームは、第1のオーディオ表現および第1の到来方向を有し、第2の空間オーディオストリームは、第2のオーディオ表現および第2の到来方向を有する。実施形態において、第1および/または第2の波表現は、平面波表現に対応しうる。
図1aにおいて示される実施形態において、装置100は、マージされた場量(field measure)およびマージされた到来方向量を含むマージされた波表現を得るために、第1の波表現および第2の波表現を処理するため、およびマージされたオーディオ表現を得るために、第1のオーディオ表現および第2のオーディオ表現を処理するためのプロセッサ130をさらに含み、プロセッサ130は、マージされたオーディオ表現およびマージされた到来方向量を含むマージされたオーディオストリームを提供するために、さらに適応される。
推定器120は、第1の波場振幅に関して第1の波場量を推定するため、第2の波場振幅に関して第2の波場量を推定するため、および第1の波場量と第2の波場量との位相差を推定するために適応されうる。実施形態において、推定器は、第1の波場位相および第2の波場位相を推定するために適応されうる。実施形態において、推定器120は、第1と第2との波表現、第1と第2との波場量それぞれの位相シフトまたは位相差のみを推定することができる。そして、プロセッサ130は、マージされた波場振幅、マージされた波場位相およびマージされた到来方向量を含みうるマージされた波場量を含むマージされた波表現を得るために、第1の波表現および第2の波表現を処理するため、およびマージされたオーディオ表現を得るために、第1のオーディオ表現および第2のオーディオ表現を処理するために適宜に適応されうる。
実施形態において、プロセッサ130は、マージされた波場量、マージされた到来方向量およびマージされた拡散パラメータを含むマージされた波表現を得るために、第1の波表現および第2の波表現を処理するため、およびマージされたオーディオ表現、マージされた到来方向量およびマージされた拡散パラメータを含むマージされたオーディオストリームを提供するために、さらに適応されうる。
換言すれば、実施形態において、拡散パラメータは、マージされたオーディオストリームのための波表現に基づいて決定されうる。拡散パラメータは、例えば、特定の方向のまわりの角度分布として、オーディオストリームの空間的な拡散の量、すなわち、空間的な分布の量を定める。実施形態において、可能なシナリオは、2つのモノラルの合成信号をまさに、方向情報にマージすることである。
プロセッサ130は、マージされた波表現を得るために、第1の波表現および第2の波表現を処理するために適応されうる。ここで、マージされた拡散パラメータは、第1の波方向量および第2の波方向量に基づく。実施形態において、第1および第2の波表現は、到来方向の差を有し、そして、マージされた到来方向は、それらの間に位置されうる。この実施形態において、第1および第2の空間オーディオストリームは、少しも拡散パラメータを提供しえないが、マージされた拡散パラメータは、第1および第2の波表現から、すなわち、第1の波方向量に基づき、および第2の波方向に基づき決定されうる。例えば、2つの平面波が異なる方向から作用する場合、すなわち、第1の波方向量が、第2の波方向量と異なる場合、マージされたオーディオ表現は、第1の波方向量および第2の波方向量を明らかにするために、マージされた到来方向と決して消えないマージされた拡散パラメータとの結合を含みうる。換言すれば、第1および第2のオーディオストリームによって明らかにされる角度分布に基づくとき、2つの集束された空間オーディオストリームは、少しの拡散を有さずまたは提供しない一方、マージされたオーディオストリームは、決して消えない拡散を有する。
Figure 0005490118
他の実施形態において、マージされたオーディオストリームを得るために、第1の空間オーディオストリームと第2の空間オーディオストリームとをマージするための装置100は、第1の空間オーディオストリームのための第1の波方向量および第1の波場量を含む第1の波表現を推定するための推定器120を含みうる。ここで、第1の空間オーディオストリームは、第1のオーディオ表現、第1の到来方向および第1の拡散パラメータを有する。換言すれば、第1のオーディオ表現は、特定の空間の幅を伴うオーディオ信号、または特定の広がりへ拡散することに対応しうる。1つの実施形態において、これは、コンピュータゲームにおけるシナリオに対応しうる。第1のプレイヤが、シナリオに存在し、ここで、第1のオーディオ表現は、例えば、特定の広がりへ拡散音場を生成することによる列車の通過のような音源を表す。そのような実施形態において、列車自身によって引き起こされる音は、拡散し、そして、列車のホーンによって生成された音、すなわち、対応する周波数成分は、拡散ではなくてもよい。
推定器120は、さらに、第2の空間オーディオストリームのための第2の波方向量および第2の波場量を含む第2の波表現を推定するために適用されうる。ここで、第2の空間オーディオストリームは、第2のオーディオ表現、第2の到来方向および第2の拡散パラメータを有する。換言すれば、第2のオーディオ表現は、特定の空間の幅を伴うオーディオ信号、または特定の広がりへ拡散することに対応しうる。また、これは、コンピュータゲームにおけるシナリオに対応しうる。ここで、第2の音源は、例えば、他の鉄道路線による他の列車の通過の背景ノイズのような第2のオーディオストリームによって表される。コンピュータゲームにおける第1のプレイヤのために、両方の音源は、彼が列車の駅に位置する場合、拡散しうる。
実施形態において、プロセッサ130は、マージされた波場量およびマージされた到来方向量を含むマージされた波表現を得るために、第1の波表現および第2の波表現を処理するため、およびマージされたオーディオ表現を得るために、第1のオーディオ表現および第2のオーディオ表現を処理するため、並びにマージされたオーディオ表現およびマージされた到来方向量を含むマージされたオーディオストリームを提供するために適応されうる。換言すれば、プロセッサ130は、マージされた拡散パラメータを決定しなくてもよい。これは、上述したコンピュータゲームにおける第2のプレイヤによって経験される音場に対応しうる。第2のプレイヤは、列車の駅から離れてより遠くに位置されうるので、2つの音源は、第2のプレイヤによって拡散されるように経験されないが、より大きい距離のため、むしろ、集束された音源を表すことができる。
実施形態において、装置100は、さらに、第1の空間オーディオストリームのための第1のオーディオ表現および第1の到来方向を決定するため、および第2の空間オーディオストリームのための第2のオーディオ表現および第2の到来方向を決定するための手段110を含む。実施形態において、決定するための手段110は、直接的なオーディオストリームが提供されうる。すなわち、決定することは、例えば、圧力信号およびDOAに関してオーディオ表現を、そして、サイド情報に関して任意に拡散パラメータを読み込むことに言及する。
推定器120は、第1の拡散パラメータをさらに有する第1のオーディオストリームから第1の波表現を推定するため、および/または第2の拡散パラメータをさらに有する第2の空間オーディオストリームから第2の波表現を推定するために適応され、プロセッサ130は、マージされたオーディオストリームのためのマージされた拡散パラメータを得るために、マージされた波場量、第1および第2のオーディオ表現、および第1および第2の拡散パラメータを処理するために適応され、そして、プロセッサ130は、マージされた拡散パラメータを含むオーディオストリームを提供するために、さらに適応されうる。決定するための手段110は、第1の空間オーディオストリームのための第1の拡散パラメータおよび第2の空間オーディオストリームのための第2の拡散パラメータを決定するために適応されうる。
プロセッサ130は、すなわち、サンプルまたは値のセグメントに関して、空間オーディオストリーム、オーディオ表現、DOAおよび/または拡散パラメータのブロック単位を処理するために適応される。いくつかの実施形態において、セグメントは、空間オーディオストリームの特定の時間における特定の周波数帯の周波数表現に対応する所定の多数のサンプル数を含む。そのようなセグメントは、モノラル表現に対応し、DOAおよび拡散パラメータを関連付ける。
実施形態において、決定するための手段110は、時間−周波数に依存する方法において、第1および第2のオーディオ表現、第1および第2の到来方向、および第1および第2の拡散パラメータを決定するために適応され、および/またはプロセッサ130は、第1および第2の波表現、拡散パラメータ、および/またはDOAを処理するため、および/または時間−周波数に依存する方法において、マージされたオーディオ表現、マージされた到来方向量、および/またはマージされた拡散パラメータを決定するために適応されうる。
実施形態において、第1のオーディオ表現は第1のモノラル表現に対応し、第2のオーディオ表現は第2のモノラル表現に対応し、マージされたオーディオ表現はマージされたモノラル表現に対応しうる。換言すれば、オーディオ表現は単一のオーディオチャネルに対応しうる。
実施形態において、決定するための手段110は、第1および第2のモノラル表現、第1および第2のDOA、および第1および第2の拡散パラメータを決定するために適応され、および/またはプロセッサは、第1および第2のモノラル表現、第1および第2のDOA、および第1および第2の拡散パラメータを処理するために適応され、そして、プロセッサ130は、時間−周波数に依存する方法において、マージされたモノラル表現、マージされたDOA量および/またはマージされた拡散パラメータを提供しうる。実施形態において、第1の空間オーディオストリームは、例えば、DirAC表現に関して、既に提供され、決定するための手段110は、第1および第2のオーディオストリームから、例えば、DirACのサイド情報から抽出されることによって、第1および第2のモノラル表現、第1および第2のDOA、および第1および第2の拡散パラメータをシンプルに決定するために適応されうる。
Figure 0005490118
実施形態において、マージされた到来方向量と同様に第1および第2の波方向量は、例えば、ベクトル、角度、方向等のような、いかなる方向量にも対応し、例えば、強度ベクトル、粒子速度ベクトル等のような、オーディオ成分を表しているいかなる方向量からも導出しうる。マージされた波場量と同様に第1および第2の波場量は、実数値および複素数値であり、圧力信号、粒子速度振幅またはマグニチュード、音の大きさ等に対応するオーディオ成分を記述しているいかなる物理量にも対応しうる。さらに、量(measure)は、時間および/または周波数領域において、考慮されうる。
実施形態は、入力されたストリームの波表現の波場量のための平面波表現の推定に基づいており、それは、図1aにおける推定器120によって実行されうる。換言すれば、波場量は、平面波表現を使用してモデル化されうる。一般に、平面波、または一般的な波のいくつかに対応する包括的な(すなわち、完全な)記述が存在する。以下において、数学的な記述が、異なる成分のための拡散パラメータおよび到来方向または方向量を算出するために導かれる。少量の記述は、例えば、圧力、粒子速度等のような物理量に直接的に関係するのみであるが、場合によっては、波表現を記述するために無限の数の異なる方法が存在するかもしれない。しかしながら、本発明における実施形態にいかなる方法においても制限することを意味しない。
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
複数の音源が存在する場合でも、圧力および粒子速度は、個々の成分の合計として表現される。一般性の喪失なしに、2つの音源のケースが解明されうる。実際には、ソースのより多い数への拡張は、容易である。
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
波が同相であり、同一の方向へ進行する場合、それらは1つの波として明確に解釈されうる。
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
通常、平面波のエネルギー的な記述は、正確にマージすることを実行するのに十分でなくてもよい。マージすることは、直交する波を仮定することによって概算されうる。波(すなわち、波のすべての物理量は既知である)の包括的な記述は、マージするために十分である、一方、すべての実施形態において、必要というわけではない。正確なマージを実行する実施形態において、マージするために、各波の振幅、各波の伝播の方向および波の各組の相対的な位相差が考慮されうる。
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
実施形態において、モノラルDirACオーディオストリーム以外のオーディオストリームがマージされうる。換言すれば、実施形態において、決定するための手段110は、いくつかの他のオーディオストリームを、例えばステレオまたはサラウンドオーディオデータのような第1および第2のオーディオストリームに変換するために適応されうる。実施形態は、モノラル以外のDirACストリームをマージする場合に備えて、それらは、異なるケースと区別することができる。DirACストリームがオーディオ信号としてB−フォーマット信号を伝える場合、その後、粒子速度ベクトルは既知となり、そして、その後詳述されるように、マージすることは些細なこととなる。DirACストリームが、B−フォーマット信号、またはモノラル全方向信号以外のオーディオ信号を伝える場合、決定するための手段110は、最初に、2つのモノラルDirACストリームに変換するために適応され、そして、実施形態は、それに応じて、変換されたストリームをマージすることができる。従って、実施形態において、第1および第2の空間オーディオストリームは、変換されたモノラルDirACストリームを表すことができる。
実施形態は、全方向性受信パターンを概算するために利用可能なオーディオチャネルを結合することができる。例えば、ステレオDirACストリームの場合において、これは、左チャネルLおよび右チャネルRを合計することによって達成されうる。
以下において、複数の音源によって生成される場における物理的過程が解明される。複数の音源が存在する場合、個々の成分の合計として、圧力および粒子速度を表現することが可能である。
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
図5は、推定器120およびプロセッサ130を破線において示す。図5において示される実施形態において、第1の空間オーディオストリームおよび第2の空間オーディオストリームは、潜在的な他のオーディオストリームと同様に、モノラルDirAC表現において提供され、すなわち、モノラル表現、DOAおよび拡散パラメータが、ストリームからまさに分離されると仮定されたとき、決定するための手段110は存在しない。図5において示されるように、プロセッサ130は、推定に基づくマージされたDOAを決定するために適応されうる。
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
Figure 0005490118
図6は、2つ以上のDirACストリームをマージするための方法の実施形態を例示する。実施形態は、マージされたオーディオストリームを得るために、第1の空間オーディオストリームを第2の空間オーディオストリームにマージするための方法を提供することができる。実施形態において、方法は、第1の空間オーディオストリームのための第1のオーディオ表現および第1のDOAを決定するため、同様に第2の空間オーディオストリームのための第2のオーディオ表現および第2のDOAを決定するためのステップを含むことができる。実施形態において、空間オーディオストリームのDirAC表現は、利用可能であり、そして、決定するステップは、シンプルに、オーディオストリームから一致した表現を読み込む。図6において、2以上のDirACストリームが、シンプルにステップ610に従ってオーディオストリームから得られうることが前提とされる。
実施形態において、方法は、第1のオーディオ表現、第1のDOAおよび任意に第1の拡散パラメータに基づく第1の空間オーディオストリームのための第1の波方向量および第1の波場量を含んでいる第1の波表現を推定するステップを含むことができる。それに応じて、方法は、第2のオーディオ表現、第2のDOAおよび任意に第2の拡散パラメータに基づく第2の空間オーディオストリームのための第2の波方向量および第2の波場量を含んでいる第2の波表現を推定するステップを含むことができる。
Figure 0005490118
第1および第2の平面波表現を結合するステップは、ステップ650において実行される。ここで、すべてのストリームの圧力および粒子速度ベクトルが合計されうる。
図6のステップ660において、活動強度ベクトルを算出すること、およびDOAを推定することがマージされた平面波表現に基づいて実行される。
実施形態は、マージされた拡散パラメータを得るために、マージされた場量、第1および第2のモノラル表現、および第1および第2の拡散パラメータを結合または処理するステップを含むことができる。図6において表される実施形態において、拡散を算出することは、例えば、式(29)に基づいて、ステップ670において実行される。
実施形態は、空間オーディオストリームをマージすることが高品質および適度な複雑さによって実行されうるという利点を提供することができる。
本発明に係る方法の特定の実施要求に依存して、本発明に係る方法は、ハードウェアまたはソフトウェアにおいて実現される。実現は、電磁気的に読み込み可能な制御信号を有するデジタル記憶媒体、特に、フラッシュメモリ、ディスク、DVD、CDで成される。デジタル記憶媒体は、発明の方法が実行されるように、プログラム可能コンピュータシステムと協働する。したがって、一般に、本発明は、コンピュータプログラム製品がコンピュータまたはプロセッサ上で稼動するとき、発明の方法を実行するために操作するプログラムコードを、機械読取可能な担持体に保存されたプログラムコードを伴うコンピュータプログラムコードである。換言すれば、本発明の方法は、コンピュータプログラムがコンピュータ上で稼動するとき、発明の方法を少なくとも1つ実行するためのプログラムコードを有しているコンピュータプログラムである。

Claims (15)

  1. Figure 0005490118
  2. 前記推定器(120)は、前記第1の波のマグニチュードに関して、前記第1の波場量を推定するため、および前記第2の波のマグニチュードに関して、前記第2の波場量を推定するため、並びに、前記第1の波場量と前記第2の波場量との間の位相差を推定するため、および/または第1および第2の波場位相を推定するために適応される、請求項1に記載の装置(100)。
  3. 前記第1の空間オーディオストリームのための前記第1のオーディオ表現、前記第1の波方向量および第1の拡散パラメータを決定するため、および前記第2の空間オーディオストリームのための前記第2のオーディオ表現、前記第2の波方向量、および第2の拡散パラメータを決定するための手段(110)を含む、請求項1または請求項2に記載の装置。
  4. 前記プロセッサ(130)は、時間−周波数に依存する方法において、前記マージされたオーディオ表現、前記マージされた到来方向量、および前記マージされた拡散パラメータを決定するために適応される、請求項1ないし請求項3のいずれかに記載の装置。
  5. Figure 0005490118
  6. Figure 0005490118
  7. Figure 0005490118
  8. Figure 0005490118
  9. Figure 0005490118
  10. Figure 0005490118
  11. Figure 0005490118
  12. Figure 0005490118
  13. Figure 0005490118
  14. Figure 0005490118
  15. コンピュータに、請求項14に記載の方法を実行させるためのコンピュータプログラム。
JP2011522430A 2008-08-13 2009-08-11 空間オーディオストリームをマージするための装置 Active JP5490118B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US8852008P 2008-08-13 2008-08-13
US61/088,520 2008-08-13
EP09001397.0 2009-02-02
EP09001397A EP2154910A1 (en) 2008-08-13 2009-02-02 Apparatus for merging spatial audio streams
PCT/EP2009/005827 WO2010017966A1 (en) 2008-08-13 2009-08-11 Apparatus for merging spatial audio streams

Publications (2)

Publication Number Publication Date
JP2011530720A JP2011530720A (ja) 2011-12-22
JP5490118B2 true JP5490118B2 (ja) 2014-05-14

Family

ID=40605771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011522430A Active JP5490118B2 (ja) 2008-08-13 2009-08-11 空間オーディオストリームをマージするための装置

Country Status (15)

Country Link
US (1) US8712059B2 (ja)
EP (2) EP2154910A1 (ja)
JP (1) JP5490118B2 (ja)
KR (1) KR101235543B1 (ja)
CN (1) CN102138342B (ja)
AT (1) ATE546964T1 (ja)
AU (1) AU2009281355B2 (ja)
BR (1) BRPI0912453B1 (ja)
CA (1) CA2734096C (ja)
ES (1) ES2382986T3 (ja)
HK (1) HK1157986A1 (ja)
MX (1) MX2011001653A (ja)
PL (1) PL2324645T3 (ja)
RU (1) RU2504918C2 (ja)
WO (1) WO2010017966A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
EP2375410B1 (en) 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) * 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
TWI489450B (zh) 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
WO2013150341A1 (en) 2012-04-05 2013-10-10 Nokia Corporation Flexible spatial audio capture apparatus
BR112015005456B1 (pt) 2012-09-12 2022-03-29 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
EP2733965A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
EP2997573A4 (en) 2013-05-17 2017-01-18 Nokia Technologies OY Spatial object oriented audio apparatus
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US9693009B2 (en) 2014-09-12 2017-06-27 International Business Machines Corporation Sound source selection for aural interest
CN106716525B (zh) * 2014-09-25 2020-10-23 杜比实验室特许公司 下混音频信号中的声音对象插入
BR112018007276A2 (pt) 2016-03-15 2018-10-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. aparelho, método ou programa de computador para gerar uma descrição de campo de som
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
WO2018064296A1 (en) 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
CA3076703C (en) 2017-10-04 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
CN111656442A (zh) * 2017-11-17 2020-09-11 弗劳恩霍夫应用研究促进协会 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
US11699451B2 (en) * 2018-07-02 2023-07-11 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
CN110517703B (zh) 2019-08-15 2021-12-07 北京小米移动软件有限公司 一种声音采集方法、装置及介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
PL378021A1 (pl) 2002-12-28 2006-02-20 Samsung Electronics Co., Ltd. Sposób i urządzenie do mieszania strumieni akustycznych i nośnik pamięciowy informacji
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
KR101079066B1 (ko) * 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
KR20060122693A (ko) * 2005-05-26 2006-11-30 엘지전자 주식회사 다운믹스된 오디오 신호에 공간 정보 비트스트림을삽입하는 프레임 크기 조절방법
EP1952177A2 (en) * 2005-09-21 2008-08-06 Koninklijke Philips Electronics N.V. Ultrasound imaging system with voice activated controls usiong remotely positioned microphone
JP2007269127A (ja) 2006-03-30 2007-10-18 Mitsubishi Fuso Truck & Bus Corp 後車軸の傾斜角調整構造および調整方法
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
ATE542216T1 (de) * 2006-07-07 2012-02-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zum kombinieren mehrerer parametrisch kodierter audioquellen
EP2595150A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
US8213623B2 (en) * 2007-01-12 2012-07-03 Illusonic Gmbh Method to generate an output audio signal from two or more input audio signals
JP2008184666A (ja) 2007-01-30 2008-08-14 Phyzchemix Corp 成膜装置
EP2128856A4 (en) * 2007-10-16 2011-11-02 Panasonic Corp DEVICE FOR PRODUCING A STREAM AND DECODING DEVICE AND CORRESPONDING METHOD

Also Published As

Publication number Publication date
AU2009281355B2 (en) 2014-01-16
MX2011001653A (es) 2011-03-02
KR101235543B1 (ko) 2013-02-21
CA2734096C (en) 2015-12-01
CN102138342B (zh) 2014-03-12
RU2011106582A (ru) 2012-08-27
BRPI0912453A2 (pt) 2019-11-19
KR20110055622A (ko) 2011-05-25
BRPI0912453B1 (pt) 2020-12-01
CN102138342A (zh) 2011-07-27
WO2010017966A1 (en) 2010-02-18
PL2324645T3 (pl) 2012-07-31
EP2154910A1 (en) 2010-02-17
ATE546964T1 (de) 2012-03-15
US8712059B2 (en) 2014-04-29
JP2011530720A (ja) 2011-12-22
ES2382986T3 (es) 2012-06-15
US20110216908A1 (en) 2011-09-08
CA2734096A1 (en) 2010-02-18
RU2504918C2 (ru) 2014-01-20
HK1157986A1 (en) 2012-07-06
EP2324645B1 (en) 2012-02-22
AU2009281355A1 (en) 2010-02-18
EP2324645A1 (en) 2011-05-25

Similar Documents

Publication Publication Date Title
JP5490118B2 (ja) 空間オーディオストリームをマージするための装置
JP6510021B2 (ja) オーディオ装置及びそのオーディオ提供方法
JP5525527B2 (ja) 変換された空間オーディオ信号を決定するための装置
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
KR101195980B1 (ko) 다채널 오디오 포맷들 사이의 변환 장치 및 방법
EP2082397B1 (en) Apparatus and method for multi -channel parameter transformation
KR101044948B1 (ko) 스테레오 신호 생성 방법 및 장치
CN103811010A (zh) 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序
Takanen et al. Binaural assessment of parametrically coded spatial audio signals
Rumsey Signal processing for 3-D audio

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130218

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140225

R150 Certificate of patent or registration of utility model

Ref document number: 5490118

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250