JP2016502797A - 複数のパラメトリック・オーディオ・ストリームを発生するための装置及び方法、並びに複数のラウドスピーカ信号を発生するための装置及び方法 - Google Patents

複数のパラメトリック・オーディオ・ストリームを発生するための装置及び方法、並びに複数のラウドスピーカ信号を発生するための装置及び方法 Download PDF

Info

Publication number
JP2016502797A
JP2016502797A JP2015542238A JP2015542238A JP2016502797A JP 2016502797 A JP2016502797 A JP 2016502797A JP 2015542238 A JP2015542238 A JP 2015542238A JP 2015542238 A JP2015542238 A JP 2015542238A JP 2016502797 A JP2016502797 A JP 2016502797A
Authority
JP
Japan
Prior art keywords
segment
parametric
audio
signals
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015542238A
Other languages
English (en)
Other versions
JP5995300B2 (ja
Inventor
ファビアン・クエヒ
ギオバンニ・デルガルド
アチム・クンツ
ヴィレ・プルッキ
アルコンティス・ポリティス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technische Universitaet Ilmenau
Original Assignee
Technische Universitaet Ilmenau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universitaet Ilmenau filed Critical Technische Universitaet Ilmenau
Publication of JP2016502797A publication Critical patent/JP2016502797A/ja
Application granted granted Critical
Publication of JP5995300B2 publication Critical patent/JP5995300B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

録音空間内での録音から得られる入力空間オーディオ信号(105)から複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)を発生するための装置(100)は、セグメンタ(110)と発生器(120)とを備えている。セグメンタ(110)は入力空間オーディオ信号(105)から少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)を生成するように構成され、少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)は、録音空間の対応するセグメント(Segi)に関連づけられている。発生器(120)は、複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)を得るために、少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)の各々について、パラメトリック・オーディオ・ストリームを発生するように構成されている。【選択図】図1

Description

本発明は、一般的にはパラメトリック空間オーディオ処理に関し、具体的には複数のパラメトリック・オーディオ・ストリームを発生するための装置及び方法、並びに複数のラウドスピーカ信号を発生するための装置及び方法に関する。本発明のさらなる実施形態は、セクタベースのパラメトリック空間オーディオ処理に関する。
マルチチャネルリスニングにおいて、聴取者は複数のラウドスピーカで包囲される。このような配置ではオーディオを捕捉するための様々な既知方法が存在する。まず、これらの方法で生み出すことができるラウドスピーカシステムおよび空間印象について考察してみたい。一般的な2チャネル式ステレオ設定は、特殊技術なしでは、ラウドスピーカを接続する線上に聴覚事象を作り出すことしかできない。よって、他の方向から発する音は、生成され得ない。論理的には、聴取者の周囲でさらに多いラウドスピーカを用いれば、より多くの方向を包含することができ、よってより自然な空間印象を作り出すことができる。最も広く知られるマルチチャネル・ラウドスピーカ・システムおよびレイアウトは、5.1規格(「ITU−R 775−1」)であるが、これは、受聴位置に対する方位角が0゜、30゜および110゜である5つのラウドスピーカより成る。また、異なる数のラウドスピーカが異なる方向に位置決めされる他のシステムも知られている。
当技術分野では、先に述べたラウドスピーカシステムに関して、録音環境で知覚される通りの空間印象を受聴状況において再生するための幾つかの異なる録音方法が設計されている。選択されたマルチチャネル・ラウドスピーカ・システムで空間音響を録音する理想的な方法は、存在するラウドスピーカと同数のマイクロフォンを用いることであると思われる。このような場合、任意の単一方向からの音が1つ、2つまたは3つのマイクロフォンでのみ録音されるように、マイクロフォンの指向性パターンも、ラウドスピーカの配置に一致すべきである。したがって、使用されるラウドスピーカが多くなるほど、より狭い指向性パターンが必要とされる。しかしながら、このような狭い指向性のマイクロフォンは、比較的高価であり、かつ典型的には、平坦でない周波数応答を有していて望ましくない。さらに、マルチチャネル再生への入力として指向性パターンが広すぎる幾つかのマイクロフォンを用いれば、単一方向から発する音が常に必要以上の数のラウドスピーカによって再生されるという事実に起因して、聴覚が彩色されてぼやける結果となる。故に、現行のマイクロフォンが最も適するものは、周囲の空間印象を目的としない2チャネル式の録音再生である。
別の知られた空間音響録音へのアプローチは、広範な空間エリアにわたって分散された多数のマイクロフォンを録音することである。例えば、ステージ上のオーケストラを録音する場合、各単一楽器を音源の近くに位置合わせされた所謂スポットマイクロフォンによって捉えることができる。正面音響ステージの空間分布は、例えば、従来のステレオマイクロフォンによって捕捉することができる。後期残響に対応する音場成分は、ステージから比較的遠距離に配置された幾つかのマイクロフォンによって捕捉することができる。よって、音響技師は、利用可能な全てのマイクロフォンチャネルの組合せを用いることにより、望ましいマルチチャネル出力をミキシングすることができる。しかしながら、この録音技術は、極めて大規模な録音設定と録音されたチャネルの手作業によって作られるミキシングを伴い、実際には、必ずしも実現可能ではない。
2010年8月31日付けのT. Lokki, J. Merimaa, V. Pulkkiによる「Method for Reproducing Natural or Modified Spatial Impression in Multichannel Listening」と題する米国特許第7,787,638B2号明細書(特許文献1)、およびV. Pulkkiによる「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007(非特許文献1)に記述されているような、方向オーディオコーディング(DirAC:directional audio coding)に基づいて空間オーディオを録音し再生するための従来システムは、音場の単純なグローバルモデルに依存している。したがって、これらは幾つかの体系的な欠点を有し、これにより、実施において達成可能な音質と音響体験が限定される。
既知のソリューションにおける一般的な問題点は、それらが比較的複雑であり、かつ典型的には、空間音質の劣化に関連していることにある。
米国特許第7,787,638B2号明細書
V. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007 V. Pulkki著「Virtual sound source positioning using Vector Base Amplitude Panning」, J. Audio Eng. Soc., Vol. 45, pp. 456-466, 1997 R. Roy, T. Kailath共著「ESPRIT-estimation of signal parameters via rotational invariance techniques」, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 37, no. 7, pp. 984995, July 1989 J. Ahonen, V. Pulkki共著「Diffuseness estimation using temporal variation of intensity vectors」, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2009. WAS-PAA '09. , pp. 285-288, 18-21 Oct. 2009 O. Thiergart, G. Del Galdo, E. A. P. Habets共著「Signal-to-reverberant ratio estimation based on the complex spatial coherence between omnidirectional microphons」, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2012, pp. 309-312, 25-30 March 2012 A. Kuntz著「Wave field analysis using virtual circular microphone arrays」, Dr. Hut, 2009, ISBN: 978-3-86853-006-3 M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuech, D. Mahne, R. Schultz-Amling, O. Thiergart共著「A Spatial Filtering Approach for Directional Audio Coding」, 126th AES Convention, Paper 7653, Munich, Germany, 2009
したがって、本発明の目的は、比較的単純かつコンパクトなマイクロフォン構成を用いてより高い品質、よりリアルな空間音響の録音と再生を可能にする、パラメトリック空間オーディオ処理のための改良された概念を提供することにある。
この目的は、請求項1に記載の装置、請求項13に記載の装置、請求項15に記載の方法、請求項16に記載の方法、請求項17に記載のコンピュータプログラムまたは請求項18に記載のコンピュータプログラムによって達成される。
本発明の一実施形態によれば、録音空間における録音から得られる入力空間オーディオ信号から複数のパラメトリック・オーディオ・ストリームを発生するための装置は、セグメンタと発生器とを備えている。セグメンタは入力空間オーディオ信号から少なくとも2つの入力セグメントオーディオ信号を生成するように構成されている。ここで、少なくとも2つの入力セグメントオーディオ信号は、録音空間の対応するセグメントに関連づけられている。発生器は、複数のパラメトリック・オーディオ・ストリームを得るために、前記少なくとも2つの入力セグメントオーディオ信号の各々についてパラメトリック・オーディオ・ストリームを発生するように構成されている。
本発明の基礎を成す基本的考案は、録音空間の対応するセグメントに関連づけられている少なくとも2つの入力セグメントオーディオ信号が入力空間オーディオ信号から生成されれば、かつ複数のパラメトリック・オーディオ・ストリームを得るために、少なくとも2つの入力セグメントオーディオ信号の各々についてパラメトリック・オーディオ・ストリームが発生されれば、改良されたパラメトリック空間オーディオ処理を達成できる、というものである。これは、比較的単純かつコンパクトなマイクロフォン構成を用いて、より高い品質、よりリアルな空間音響の録音と再生を達成することを可能にする。
さらなる実施形態によれば、セグメンタは、録音空間のセグメントの各々に関する指向性パターンを用いるように構成されている。ここで、指向性パターンは、少なくとも2つの入力セグメントオーディオ信号の指向性を指す。指向性パターンの使用により、特に複雑な音響シーンにおいて、モデルと観測される音場とのより優れた一致を得ることができる。
さらなる実施形態によれば、発生器は、複数のパラメトリック・オーディオ・ストリームを取得するように構成され、複数のパラメトリック・オーディオ・ストリームは各々、少なくとも2つの入力セグメントオーディオ信号の成分と、対応するパラメトリック空間情報とを含む。例えば、各パラメトリック・オーディオ・ストリームのパラメトリック空間情報は、到来方向(DOA:direction-of-arrival)パラメータおよび/または拡散性パラメータを含む。DOAパラメータおよび/または拡散性パラメータを生成することにより、観測される音場をパラメトリック信号表現領域において記述することができる。
さらなる実施形態によれば、録音空間内で録音された入力空間オーディオ信号から導出される複数のパラメトリック・オーディオ・ストリームから複数のラウドスピーカ信号を発生するための装置は、レンダラとコンバイナとを備えている。レンダラは複数のパラメトリック・オーディオ・ストリームから複数の入力セグメントラウドスピーカ信号を生成するように構成されている。ここで、入力セグメントラウドスピーカ信号は、録音空間の対応するセグメントに関連づけられている。コンバイナは、複数のラウドスピーカ信号を得るために、入力セグメントラウドスピーカ信号を結合するように構成されている。
本発明のさらなる実施形態は、複数のパラメトリック・オーディオ・ストリームを発生するための方法と、複数のラウドスピーカ信号を発生するための方法を提供する。
図1は、セグメンタと発生器とを用いて、録音空間内での入力空間オーディオ信号録音から複数のパラメトリック・オーディオ・ストリームを発生するための装置の一実施形態を示すブロック図である。 図2は、ミキシングまたはマトリクシング演算に基づく、図1による装置の実施形態のセグメンタを示す略図である。 図3は、指向性パターンを用いる、図1による装置の実施形態のセグメンタを示す略図である。 図4は、パラメトリック空間解析に基づく、図1による装置の実施形態の発生器を示す略図である。 図5は、複数のパラメトリック・オーディオ・ストリームから複数のラウドスピーカ信号を発生するための、レンダラとコンバイナとを備える装置の一実施形態を示すブロック図である。 図6は録音空間のセグメント例を示す略図であり、各セグメントが二次元(2D)平面内または三次元(3D)空間内の方向の部分集合を表す。 図7は、録音空間の2つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図である。 図8は、二次Bフォーマット入力信号を用いる、録音空間の2つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図である。 図9は、パラメトリック信号表現領域における信号変更を含む、録音空間の2つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図である。 図10は、図1による装置の実施形態のセグメンタにより生成される入力セグメントオーディオ信号の極パターン例を示す略図である。 図11は、音場録音を実行するためのマイクロフォン構成例を示す略図である。 図12は、高次マイクロフォン信号を取得するための全方向性マイクロフォンの円形アレイ例を示す略図である。
以下、添付の図面を参照して、本発明の実施形態を説明する。
図面を用いて本発明をさらに詳細に論じる前に、諸図を通じて、同じ機能または同じ効果を有するエレメントである同等のエレメントには、これらのエレメントに関する記述および異なる実施形態において示されるその機能性が互いに交換可能であるように、または異なる実施形態において互いに適用され得るように、同じ参照数字が付されていることを指摘しておく。
図1は、セグメンタ110と発生器120とを用いて、録音空間内での録音から得られる入力空間オーディオ信号105から複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)を発生するための装置100の一実施形態を示すブロック図である。例えば、入力空間オーディオ信号105は、全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、V(または、X、Y、U、V)を含む。図1に示されているように、装置100はセグメンタ110と発生器120とを備えている。例えば、セグメンタ110は、入力空間オーディオ信号105の全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、Vから、少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)を生成するように構成され、前記少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)は、録音空間の対応するセグメントSegiに関連づけられる。さらに、発生器120は、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)を得るために、少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)の各々についてパラメトリック・オーディオ・ストリームを発生するように構成することができる。
複数のパラメトリック・オーディオ・ストリーム125を発生するための装置100により、空間音質の劣化を回避すること、および比較的複雑なマイクロフォン構成を回避することができる。したがって、図1による装置100の実施形態は、比較的単純かつコンパクトなマイクロフォン構成を用いて、より高い品質、よりリアルな空間音響録音を可能にする。
実施形態において、録音空間のセグメントSegiは、各々、二次元(2D)平面内または三次元(3D)空間内の方向の部分集合を表す。
実施形態において、録音空間のセグメントSegiは、各々、関連の指向性尺度によって特徴づけられている。
実施形態によれば、装置100は、入力空間オーディオ信号105を得るために、音場録音を実行するように構成されている。例えば、セグメンタ110は、目的の全角度範囲を録音空間の複数のセグメントSegiに分割するように構成されている。さらに、録音空間のそれらのセグメントSegiは、各々が目的の全角度範囲に比べて低減された角度範囲にわたることができる。
図2は、ミキシング(またはマトリクシング)演算に基づく、図1による装置100の実施形態のセグメンタ110を示す略図である。図2に好適な例として描かれているように、セグメンタ110は、録音空間のセグメントSegiに依存するミキシングまたはマトリクシング演算を用いて、全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、Vから、少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)を発生するように構成されている。図2に好適な例として示されているセグメンタ110により、予め規定されたミキシングまたはマトリクシング演算を用いて、入力空間オーディオ信号105を構成する全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、Vを少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)へマップすることが可能である。この予め規定されたミキシングまたはマトリクシング演算は、録音空間のセグメントSegiに依存し、かつ入力空間オーディオ信号105から少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)を分岐するために実質的に使用することができる。ミキシングまたはマトリクシング演算に基づく、セグメンタ110による少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)の分岐は、音場の単純なグローバルモデルとは対照的に、先に述べた優位点の達成を実質的に可能にする。
図3は、(所望の、または予め決められた)指向性パターン305、qi(α)を用いる、図1による装置100の実施形態のセグメンタ110を示す略図である。図3に好適な例として描かれているように、セグメンタ110は、録音空間のセグメントSegiの各々について、指向性パターン305、qi(α)を用いるように構成されている。さらに、指向性パターン305、qi(α)は、少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)の指向性を示すことができる。
実施形態において、指向性パターン305、qi(α)は、次式によって与えられる。

i(α)=a+b cos(α+Θi) (1)

但し、aおよびbは所望の指向性パターンを得るために変更することが可能な乗数を示し、αは方位角を示し、Θiは録音空間のi番目のセグメントの好ましい方向を示す。例えば、aは0から1までの範囲内にあり、bは−1から1までの範囲内にある。
乗数a、bの1つの有益な選択肢として、a=0.5およびb=0.5とすることができ、その結果、次のような指向性パターンが得られる。

i(α)=0.5+0.5 cos(α+Θi) (1a)
図3に好適な例として描かれているセグメンタ110により、録音空間の対応するセグメントSegiに関連づけられた少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)を得ることができ、セグメントSegiは各々予め決められた指向性パターン305、qi(α)を有する。ここで、録音空間のセグメントSegiの各々に対する指向性パターン305、qi(α)の使用は、装置100によって得られる空間音質の増強を可能にすることを指摘しておく。
図4は、パラメトリック空間解析に基づく、図1による装置100の実施形態の発生器120を示す略図である。図4に好適な例として描かれているように、発生器120は、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)を得るように構成されている。さらに、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)は、各々、少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)の成分Wiおよび対応するパラメトリック空間情報θi、Ψiを含むことができる。
実施形態において、発生器120は、対応するパラメトリック空間情報θi、Ψiを得るために、少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)の各々に対してパラメトリック空間解析を実行するように構成することができる。
実施形態において、各パラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)のパラメトリック空間情報θi、Ψiは、到来方向(DOA)パラメータθiおよび/または拡散性パラメータΨiを含む。
実施形態において、図4に好適な例として描かれている発生器120により生成される到来方向(DOA)パラメータθiおよび拡散性パラメータΨiは、パラメトリック空間オーディオ信号処理のためのDirACパラメータを構成することができる。例えば、発生器120は、少なくとも2つの入力セグメントオーディオ信号115の時間−周波数表現を用いてDirACパラメータ(例えば、DOAパラメータθiおよび拡散性パラメータΨi)を発生するように構成されている。
図5は、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)から複数のラウドスピーカ信号525(L1,L2,…)を発生するための、レンダラ510とコンバイナ520とを備えた装置500の一実施形態を示すブロック図である。図5の実施形態において、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)は、録音空間において録音された入力空間オーディオ信号(例えば、図1の実施形態に好適な例として描かれている入力空間オーディオ信号105)から導出することができる。図5に示されているように、装置500は、レンダラ510とコンバイナ520とを備えている。例えば、レンダラ510は複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)から複数の入力セグメントラウドスピーカ信号515を生成するように構成され、入力セグメントラウドスピーカ信号515は録音空間の対応するセグメント(Segi)に関連づけられる。さらに、コンバイナ520は、複数のラウドスピーカ信号525(L1,L2,…)を得るために、入力セグメントラウドスピーカ信号515を結合するように構成することができる。
図5の装置500を用いることにより、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)から複数のラウドスピーカ信号525(L1,L2,…)を発生することができ、パラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)は、図1の装置100から送信することができる。さらに、図5の装置500は、比較的単純かつコンパクトなマイクロフォン構成から導出されるパラメトリック・オーディオ・ストリームを用いて、より高い品質、よりリアルな空間音響再生を達成することを可能にする。
実施形態において、レンダラ510は、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)を受信するように構成されている。例えば複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)は、各々、セグメントオーディオ成分Wiおよび対応するパラメトリック空間情報θi、Ψiを含む。さらに、レンダラ510は、複数の入力セグメントラウドスピーカ信号515を得るために、セグメントオーディオ成分Wiの各々を、対応するパラメトリック空間情報505(θi,Ψi)を用いて表現するように構成することができる。
図6は、録音空間のセグメント例Segi(i=1,2,3,4)610、620、630、640を示す略図600である。図6の略図600において、録音空間のセグメント例610、620、630、640は、各々、二次元(2D)平面内の方向の部分集合を表す。さらに、録音空間のセグメントSegiは、各々、三次元(3D)空間内の方向の部分集合を表すことができる。例えば、三次元(3D)空間内の方向の部分集合を表すセグメントSegiは、図6に好適な例として描かれているセグメント610、620、630、640に類似したものとすることができる。図6の略図600によれば、図1の装置100の4つのセグメント例610、620、630、640が好適な例として示されている。しかしながら、異なる数のセグメントSegi(i=1,2,…,n、但し、iは整数の指数であり、nはセグメントの数を示す)を用いることもできる。セグメント例610、620、630、640は、各々、極座標系において表現することができる(例えば図6参照)。同様に、三次元(3D)空間の場合、セグメントSegiは、球座標系において表現することができる。
実施形態において、図1に好適な例として示されているセグメンタ110は、少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)を生成するために、セグメントSegi(例えば、図6のセグメント例610、620、630、640)を用いるように構成することができる。セグメント(または、セクタ)を用いることにより、音場のセグメントベース(または、セクタベース)のパラメトリックモデルを実現することができる。これにより、比較的コンパクトなマイクロフォン構成で、より高い品質の空間オーディオ録音と再生を達成することができる。
図7は、録音空間の2つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図700である。図7の略図700には、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)を発生するための装置100の実施形態、および複数のラウドスピーカ信号525(L1,L2,…)を発生するための装置500の実施形態が好適な例として描かれている。図7の略図700に示されているように、セグメンタ110は、入力空間オーディオ信号105(例えば、マイクロフォン信号)を受信するように構成することができる。さらに、セグメンタ110は、少なくとも2つの入力セグメントオーディオ信号115(例えば、第1のセグメントのセグメントマイクロフォン信号715−1、および第2のセグメントのセグメントマイクロフォン信号715−2)を生成するように構成することができる。発生器120は、第1のパラメトリック空間解析ブロック720−1と、第2のパラメトリック空間解析ブロック720−2とを備えることができる。さらに、発生器120は、少なくとも2つの入力セグメントオーディオ信号115の各々についてパラメトリック・オーディオ・ストリームを発生するように構成することができる。装置100の実施形態の出力では、複数のパラメトリック・オーディオ・ストリーム125が得られる。例えば、第1のパラメトリック空間解析ブロック720−1は、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1を出力し、一方で第2のパラメトリック空間解析ブロック720−2は、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2を出力する。さらに、第1のパラメトリック空間解析ブロック720−1により生成される第1のパラメトリック・オーディオ・ストリーム725−1は、第1のセグメントのパラメトリック空間情報(例えば、θ1、Ψ1)および第1のセグメントの1つまたは複数のセグメントオーディオ信号(例えば、W1)を含むことができ、一方で、第2のパラメトリック空間解析ブロック720−2により生成される第2のパラメトリック・オーディオ・ストリーム725−2は、第2のセグメントのパラメトリック空間情報(例えば、θ2、Ψ2)および第2のセグメントの1つまたは複数のセグメントオーディオ信号(例えば、W2)を含むことができる。装置100の実施形態は、複数のパラメトリック・オーディオ・ストリーム125を送信するように構成することができる。図7の略図700にも示されているように、装置500の実施形態は、装置100の実施形態から複数のパラメトリック・オーディオ・ストリーム125を受信するように構成することができる。レンダラ510は、第1のレンダリングユニット730−1と、第2のレンダリングユニット730−2とを備えることができる。さらに、レンダラ510は、受信した複数のパラメトリック・オーディオ・ストリーム125から複数の入力セグメントラウドスピーカ信号515を生成するように構成することができる。例えば、第1のレンダリングユニット730−1は、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1から第1のセグメントの入力セグメントラウドスピーカ信号735−1を生成するように構成することができ、一方で、第2のレンダリングユニット730−2は、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2から第2のセグメントの入力セグメントラウドスピーカ信号735−2を生成するように構成することができる。さらに、コンバイナ520は、複数のラウドスピーカ信号525(例えば、L1、L2、…)を得るために、入力セグメントラウドスピーカ信号515を結合するように構成することができる。
図7の実施形態は、音場のセグメントベース(または、セクタベース)のパラメトリックモデルを用いた、より高い品質の空間オーディオ録音再生の概念を本質的に表したものであり、これは、比較的コンパクトなマイクロフォン構成で複雑な空間オーディオシーンをも録音することを可能にする。
図8は、二次Bフォーマット入力信号105を用いる、録音空間の2つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図800である。図8に略示されているラウドスピーカ信号の計算例は、図7に略示されているラウドスピーカ信号の計算例に本質的に対応している。図8の略図には、複数のパラメトリック・オーディオ・ストリーム125を発生するための装置100の実施形態、および複数のラウドスピーカ信号525を発生するための装置500の実施形態が好適な例として描かれている。図8に示されているように、装置100の実施形態は、入力空間オーディオ信号105(例えば、[W,X,Y,U,V]等のBフォーマット・マイクロフォン・チャネル)を受信するように構成することができる。ここで、留意すべきことは、図8における信号U、Vが二次Bフォーマット成分であるということである。好適な例として「マトリクシング(matrixing)」と示されているセグメンタ110は、録音空間のセグメントSegiに依存するミキシングまたはマトリクシング演算を用いて、全方向性信号および複数の異なる指向性信号から、少なくとも2つの入力セグメントオーディオ信号115を発生するように構成することができる。例えば、少なくとも2つの入力セグメントオーディオ信号115は、第1のセグメントのセグメントマイクロフォン信号715−1(例えば、[W1,X1,Y1])、および第2のセグメントのセグメントマイクロフォン信号715−2(例えば、[W2,X2、Y2])を含むことができる。さらに、発生器120は、第1の指向性および拡散性解析ブロック720−1と、第2の指向性および拡散性解析ブロック720−2とを備えることができる。図8に好適な例として示されている第1および第2の指向性および拡散性解析ブロック720−1、720−2は、図7に好適な例として示されている第1および第2のパラメトリック空間解析ブロック720−1、720−2に本質的に対応する。発生器120は、複数のパラメトリック・オーディオ・ストリーム125を得るために、前記少なくとも2つの入力セグメントオーディオ信号115の各々についてパラメトリック・オーディオ・ストリームを発生するように構成することができる。例えば、発生器120は、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1を得るために、第1の指向性および拡散性解析ブロック720−1を用いて第1のセグメントのセグメントマイクロフォン信号715−1に対する空間解析を実行し、かつ第1のセグメントのセグメントマイクロフォン信号715−1から第1の成分(例えば、セグメントオーディオ信号W1)を抽出するように構成することができる。さらに、発生器120は、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2を得るために、第2の指向性および拡散性解析ブロック720−2を用いて第2のセグメントのセグメントマイクロフォン信号715−2に対する空間解析を実行し、かつ第2のセグメントのセグメントマイクロフォン信号715−2から第2の成分(例えば、セグメントオーディオ信号W2)を抽出するように構成することができる。例えば、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1は、抽出された第1の成分W1だけでなく第1の到来方向(DOA)パラメータθ1および第1の拡散性パラメータΨ1も含む、第1のセグメントのパラメトリック空間情報を含むことができ、一方で、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2は、抽出された第2の成分W2だけでなく第2の到来方向(DOA)パラメータθ2および第2の拡散性パラメータΨ2も含む、第2のセグメントのパラメトリック空間情報を含むことができる。装置100の実施形態は、複数のパラメトリック・オーディオ・ストリーム125を送信するように構成することができる。
図8の略図800にも示されているように、複数のラウドスピーカ信号525を発生するための装置500の実施形態は、装置100の実施形態から送信される複数のパラメトリック・オーディオ・ストリーム125を受信するように構成することができる。図8の略図800において、レンダラ510は、第1のレンダリングユニット730−1と、第2のレンダリングユニット730−2とを備えている。例えば、第1のレンダリングユニット730−1は、第1の乗算器802と第2の乗算器804とを備えている。第1のレンダリングユニット730−1の第1の乗算器802は、第1のレンダリングユニット730−1によって直接音サブストリーム810を得るために、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1のセグメントオーディオ信号W1へ第1の重み係数803
Figure 2016502797
を印加するように構成することができ、一方で、第1のレンダリングユニット730−1の第2の乗算器804は、第1のレンダリングユニット730−1によって拡散サブストリーム812を得るために、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1のセグメントオーディオ信号W1へ第2の重み係数805
Figure 2016502797
を印加するように構成することができる。さらに、第2のレンダリングユニット730−2は、第1の乗算器806と第2の乗算器808とを備えることができる。例えば、第2のレンダリングユニット730−2の第1の乗算器806は、第2のレンダリングユニット730−2によって直接音ストリーム814を得るために、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2のセグメントオーディオ信号W2へ第1の重み係数807
Figure 2016502797
を印加するように構成することができ、一方で、第2のレンダリングユニット730−2の第2の乗算器808は、第2のレンダリングユニット730−2によって拡散サブストリーム816を得るために、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2のセグメントオーディオ信号W2へ第2の重み係数809
Figure 2016502797
を印加するように構成することができる。実施形態において、第1および第2のレンダリングユニット730−1、730−2の第1および第2の重み係数803、805、807、809は、対応する拡散性パラメータΨiから導出される。実施形態によれば、第1のレンダリングユニット730−1は利得係数乗算器811と脱相関処理ブロック813と結合ユニット832とを備えることができ、第2のレンダリングユニット730−2は利得係数乗算器815と脱相関処理ブロック817と結合ユニット834とを備えることができる。例えば、第1のレンダリングユニット730−1の利得係数乗算器811は、ブロック822によるベクトルベース振幅パンニング(VBAP:vector base amplitude panning)演算から得られる利得係数を、第1のレンダリングユニット730−1の第1の乗算器802により出力される直接音サブストリーム810へ印加するように構成することができる。さらに、第1のレンダリングユニット730−1の脱相関処理ブロック813は、脱相関/利得演算を、第1のレンダリングユニット730−1の第2の乗算器804の出力における拡散サブストリーム812へ適用するように構成することができる。さらに、第1のレンダリングユニット730−1の結合ユニット832は、第1のセグメントのセグメントラウドスピーカ信号735−1を得るために、利得係数乗算器811から得られる信号と脱相関処理ブロック813から得られる信号を結合するように構成することができる。例えば、第2のレンダリングユニット730−2の利得係数乗算器815は、ブロック824によるベクトルベース振幅パンニング(VBAP)演算から得られる利得係数を、第2のレンダリングユニット730−2の第1の乗算器806により出力される直接音サブストリーム814へ印加するように構成することができる。さらに、第2のレンダリングユニット730−2の脱相関処理ブロック817は、脱相関/利得演算を、第2のレンダリングユニット730−2の第2の乗算器808の出力における拡散サブストリーム816へ適用するように構成することができる。さらに、第2のレンダリングユニット730−2の結合ユニット834は、第2のセグメントのセグメントラウドスピーカ信号735−2を得るために、利得係数乗算器815から得られる信号と脱相関処理ブロック817から得られる信号を結合するように構成することができる。
実施形態において、第1および第2のレンダリングユニット730−1、730−2のブロック822、824によるベクトルベース振幅パンニング(VBAP)演算は、対応する到来方向(DOA)パラメータθiに依存する。図8に好適な例として描かれているように、コンバイナ520は、複数のラウドスピーカ信号525(例えば、L1、L2、…)を得るために、入力セグメントラウドスピーカ信号515を結合するように構成することができる。図8に好適な例として描かれているように、コンバイナ520は、第1の合計ユニット842と、第2の合計ユニット844とを備えることができる。例えば、第1の合計ユニット842は、第1のラウドスピーカ信号843を得るために、第1のセグメントのセグメントラウドスピーカ信号735−1のうちの第1のものと、第2のセグメントのセグメントラウドスピーカ信号735−2のうちの第1のものとを合計するように構成される。さらに、第2の合計ユニット844は、第2のラウドスピーカ信号845を得るために、第1のセグメントのセグメントラウドスピーカ信号735−1のうちの第2のものと、第2のセグメントのセグメントラウドスピーカ信号735−2のうちの第2のものとを合計するように構成することができる。第1および第2のラウドスピーカ信号843、845は、複数のラウドスピーカ信号525を構成することができる。図8の実施形態を参照すると、セグメント毎に、潜在的には、全ての再生ラウドスピーカのラウドスピーカ信号を発生することができる点は留意されるべきである。
図9は、パラメトリック信号表現領域における信号変更を含む、録音空間の2つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略図900である。図9の略図900におけるラウドスピーカ信号の計算例は、図7の略図700におけるラウドスピーカ信号の計算例に本質的に対応している。しかしながら、図9の略図900におけるラウドスピーカ信号の計算例は、追加的な信号変更を含む。
図9の略図900において、装置100は、セグメンタ110と、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)を得るための発生器120とを備えている。さらに、装置500は、レンダラ510と、複数のラウドスピーカ信号525を得るためのコンバイナ520とを備えている。
例えば、装置100は、さらに、パラメトリック信号表現領域における複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)を変更するための変更器910を備えることができる。さらに、変更器910は、パラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)のうちの少なくとも1つを、対応する変更制御パラメータ905を用いて変更するように構成することができる。この方法では、第1のセグメントの第1の変更されたパラメトリック・オーディオ・ストリーム916、および第2のセグメントの第2の変更されたパラメトリック・オーディオ・ストリーム918を得ることができる。第1および第2の変更されたパラメトリック・オーディオ・ストリーム916、918は、複数の変更されたパラメトリック・オーディオ・ストリーム915を構成することができる。実施形態において、装置100は、複数の変更されたパラメトリック・オーディオ・ストリーム915を送信するように構成することができる。さらに、装置500は、装置100から送信される複数の変更されたパラメトリック・オーディオ・ストリーム915を受信するように構成することができる。
図9によるラウドスピーカ信号の計算例を用いることにより、より柔軟性のある空間オーディオ録音再生シーンを達成することができる。具体的には、パラメトリック領域において変更を適用すると、より高い品質の出力信号を得ることができる。複数のパラメトリックオーディオ表現(ストリーム)を発生する前に入力信号をセグメント化することにより、捕捉される音場の異なる成分の異なる処理をよりよく可能にする、より高い空間選択性が得られる。
図10は、図1による複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)を発生するための装置100の実施形態のセグメンタ110によって生成される入力セグメントオーディオ信号115(例えば、Wi,Xi,Yi)の極パターン例を示す略図1000である。図10の略図1000では、入力セグメントオーディオ信号例115が二次元(2D)平面の個々の極座標系において視覚化されている。同様に、入力セグメントオーディオ信号例115は、三次元(3D)空間の個々の球座標系において視覚化することができる。図10の略図1000は、第1の入力セグメントオーディオ信号(例えば、全方向性信号Wi)の第1の指向性応答1010、第2の入力セグメントオーディオ信号(例えば、第1の指向性信号Xi)の第2の指向性応答1020および第3の入力セグメントオーディオ信号(例えば、第2の指向性信号Yi)の第3の指向性応答1030を好適な例として描いている。さらに、図10の略図1000には、第2の指向性応答1020とは反対の符号を有する第4の指向性応答1022、および第3の指向性応答1030とは反対の符号を有する第5の指向性応答1032が好適な例として描かれている。したがって、異なる指向性応答1010、1020、1030、1022、1032(極パターン)は、セグメンタ110により、入力セグメントオーディオ信号115用に使用することができる。ここで、入力セグメントオーディオ信号115は、時間および周波数に依存することができること、即ちWi=Wi(m,k)、Xi=Xi(m,k)およびYi=Yi(m,k)であることを指摘しておく。但し、(m,k)は、空間オーディオ信号表現における時間−周波数タイルを示す指数である。
これに関連して、図10は、入力信号の単一集合、即ち1つのセクタiの信号115(例えば、[Wi,Xi,Yi])の極線図を好適な例として描いていることは留意されるべきである。さらに、極線図プロットの正の部分と負の部分は、各々合わせて1つの信号の極線図を表す(例えば、部分1020と部分1022は合わせて信号Xiの極線図を示し、部分1030と部分1032は合わせて信号Yiの極線図を示す)。
図11は、音場録音を実行するためのマイクロフォン構成例1110を示す略図1100である。図11の略図1100において、マイクロフォン構成1110は、指向性マイクロフォンの複数の線形アレイ1112、1114、1116を備えることができる。図11の略図1100は、二次元(2D)観測空間を如何にして録音空間の異なるセグメントまたはセクタ1101、1102、1103(例えば、Segi、i=1,2,3)に分割できるかを好適な例として描いている。ここで、図11のセグメント1101、1102、1103は、図6に好適な例として描かれているセグメントSegiに対応させることができる。同様に、マイクロフォン構成例1110は、三次元(3D)観測空間において使用することもでき、三次元(3D)観測空間は、所定のマイクロフォン構成用のセグメントまたはセクタに分割することができる。実施形態において、図11の略図1100におけるマイクロフォン構成例1110は、図1による装置100の実施形態のための入力空間オーディオ信号105を生成するために使用することができる。例えば、マイクロフォン構成1110の指向性マイクロフォンの複数の線形アレイ1112、1114、1116は、入力空間オーディオ信号105用に異なる指向性信号を生成するように構成することができる。図11のマイクロフォン構成例1110の使用により、音場のセグメントベース(またはセクタベース)のパラメトリックモデルを用いて空間オーディオの録音品質を最適化することができる。
先の実施形態において、装置100および装置500は、時間−周波数領域において動作するように構成することができる。
要約すれば、本発明の実施形態は、空間オーディオの高品質な録音と再生の分野に関する。音場のセグメントベースまたはセクタベースのパラメトリックモデルの使用は、複雑な空間オーディオシーンを比較的コンパクトなマイクロフォン構成で録音することも可能にする。現在の最新技術方法が想定する音場の単純なグローバルモデルとは対照的に、観測空間全体が分割される幾つかのセグメントに関して、パラメトリック情報を決定することができる。したがって、パラメトリック情報ならびに録音されたオーディオチャネルに基づいて、ほぼ任意のラウドスピーカ構成の演奏を実行することができる。
実施形態によれば、平坦な二次元(2D)音場録音の場合、目的の方位角範囲全体を、低減された方位角範囲にわたる複数のセクタまたはセグメントに分割することができる。同様に、3D事例においても、立体角範囲全体(方位角および仰角)を、より小さい角度範囲にわたるセクタまたはセグメントに分割することができる。異なるセクタまたはセグメントは、部分的に重なり合ってもよい。
実施形態によれば、各セクタまたはセグメントは関連の指向性尺度によって特徴づけられ、指向性尺度は対応するセクタまたはセグメントを明示または参照するために使用することができる。指向性尺度は、例えば、セクタまたはセグメントの中心に向かう(または中心からの)ベクトル、または2D事例では方位角、または3D事例では方位角および仰角の集合、であることができる。セグメントまたはセクタは、2D平面内または3D空間内双方の方向の部分集合と称することができる。表現を簡単にするために、これまでの例は、2D事例に関して好適な例として記述されているが、3D構成への拡大適用は容易である。
図6を参照すると、指向性尺度は、セグメントSeg3の場合、原点、即ち座標の中心(0,0)から右へ、即ち極線図における座標(1,0)へ向かうベクトルとして定義することができ、または、図6において角度がx軸(水平軸)から(またはx軸を基準にして)計数されていれば、方位角0゜として定義することができる。
図1の実施形態を参照すると、装置100は、入力として幾つかのマイクロフォン信号(入力空間オーディオ信号105)を受信するように構成することができる。これらのマイクロフォン信号は、例えば、実際の録音から結果的に生じるもの、または仮想環境においてシミュレートされた録音により人工的に発生されるもの、の何れかであることが可能である。これらのマイクロフォン信号から対応するセグメントマイクロフォン信号(入力セグメントオーディオ信号115)を決定することができ、セグメントマイクロフォン信号は対応するセグメント(Segi)に関連づけられる。セグメントマイクロフォン信号は固有の特性を特徴とする。それらのセグメントマイクロフォン信号の指向性ピックアップパターンは、関連の角度セクタ内で、このセクタの外の感度よりも著しく増大された感度を示すことができる。360゜の方位角範囲全体のセグメント化の例と、関連のセグメントマイクロフォン信号のピックアップパターンについては、図6を参照して示されている。図6の例において、セクタに関連づけられたマイクロフォンの指向性は、対応するセクタにより包含される角度範囲に従って回転される心臓型パターンを示す。例えば、0゜に向かうセクタ3(Seg3)に関連づけられたマイクロフォンの指向性は、同じく0゜に向かう。ここで留意すべきことは、図6の極線図において、最大感度の方向は描かれた曲線の半径が最大を含む方向であるということである。したがって、Seg3は、右から到来する音成分に対して最も高い感度を有する。言い替えれば、セグメントSeg3は、(角度がx軸から計数されるものとすれば)方位角0゜にその好ましい方向を有する。
実施形態によれば、各セクタについて、DOAパラメータ(θi)をセクタベースの拡散性パラメータ(Ψi)と共に決定することができる。簡単に実現する場合は、拡散性パラメータ(Ψi)は全てのセクタで同じとすることができる。原則的には、あらゆるDOA推定アルゴリズムを(例えば、発生器120により)適用することができる。例えば、DOAパラメータ(θi)は、考慮されるセクタ内で大部分の音響エネルギーが進行する反対方向を反映するように解釈することができる。したがって、セクタベースの拡散性は、拡散性の音響エネルギーと、考慮されるセクタ内の合計音響エネルギーとの割合に関連する。留意すべきことは、パラメータ推定(発生器120により実行されるもの等)が、時変的に、かつ周波数帯域毎に個々に実行可能であるということである。
実施形態によれば、セクタ毎に、指向性オーディオストリーム(パラメトリック・オーディオ・ストリーム)が、主としてそのセクタにより表される角度範囲内の音場の空間オーディオ特性を記述するセグメントマイクロフォン信号(Wi)およびセクタベースのDOAおよび拡散性パラメータ(θi,Ψi)を包含して構成することができる。例えば、再生用のラウドスピーカ信号525は、パラメトリックな指向性情報(θi,Ψi)および1つまたは複数のセグメントマイクロフォン信号125(例えば、Wi)を用いて決定することができる。これにより、セグメント毎に、セグメントラウドスピーカ信号515の集合を決定することができ、これは、次に、再生用の最終的なラウドスピーカ信号525を形成するために、コンバイナ520等(例えば、合計またはミキシング)によって結合することができる。セクタ内の直接音成分は、例えば、(V. Pulkki著「Virtual sound source positioning using Vector Base Amplitude Panning」, J. Audio Eng. Soc., Vol. 45, pp. 456-466, 1997(非特許文献2)に記述されているように)ベクトルベース振幅パンニング例を適用することにより、ポイント状ソースとして演奏することができるのに対して、拡散音は幾つかのラウドスピーカから同時に再生することができる。
図7におけるブロック図は、2つのセクタの事例に関して先に述べたようなラウドスピーカ信号525の計算を示している。図7において、太字の矢印はオーディオ信号を表すのに対して、細字の矢印はパラメトリック信号または制御信号を表す。図7には、セグメンタ110によるセグメントマイクロフォン信号115の発生、(例えば、発生器120による)セクタ毎のパラメトリック空間信号解析(ブロック720−1、720−1)の適用、レンダラ510によるセグメントラウドスピーカ信号515の発生、およびコンバイナ520によるセグメントラウドスピーカ信号515の結合が略示されている。
実施形態において、セグメンタ110は、マイクロフォン入力信号105の集合からのセグメントマイクロフォン信号115の発生を実行するように構成することができる。さらに、発生器120は、セクタ毎にパラメトリック・オーディオ・ストリーム725−1、725−2が得られるように、セクタ毎にパラメトリック空間信号解析の適用を実行するように構成することができる。例えば、パラメトリック・オーディオ・ストリーム725−1、725−2は各々、関連するパラメトリック情報(例えば、各々DOAパラメータθ1、θ2および拡散性パラメータΨ1、Ψ2)だけでなく、少なくとも1つのセグメントオーディオ信号(例えば、各々W1、W2)からもなるものとすることができる。レンダラ510は、特定のセクタについて発生されたパラメトリック・オーディオ・ストリーム725−1、725−2に基づいて、セクタ毎にセグメントラウドスピーカ信号515の発生を実行するように構成することができる。コンバイナ520は、最終的なラウドスピーカ信号525を得るために、セグメントラウドスピーカ信号515の結合を実行するように構成することができる。
図8におけるブロック図は、二次Bフォーマットマイクロフォン信号の適用例として示される2セクタ事例の場合のラウドスピーカ信号525の計算を示す。図8の実施形態に示されているように、2つ(2集合)のセグメントマイクロフォン信号715−1(例えば、[W1,X1,Y1])および715−2(例えば、[W2,X2,Y2])は、先に述べたように、マイクロフォン入力信号105の集合から(例えば、ブロック110による)ミキシングまたはマトリクシング演算によって発生させることができる。2つのセグメントマイクロフォン信号の各々について、(例えば、ブロック720−1、720−2により)指向性オーディオ解析を実行することができ、第1のセクタおよび第2のセクタについて各々、指向性オーディオストリーム725−1(例えば、θ1、Ψ1、W1)および725−2(例えば、θ2、Ψ2、W2)が生じる。
図8において、セグメントラウドスピーカ信号515は、次のようにして、セクタ毎に別々に発生させることができる。セグメントオーディオ成分Wiは、拡散性パラメータΨiから導出される乗数803、805、807、809による重み付けによって、2つの相補的なサブストリーム810、812、814、816に分割することができる。一方のサブストリームは主として直接音成分を伝送することができるのに対して、もう一方のサブストリームは主として拡散音成分を伝送することができる。直接音のサブストリーム810、814はDOAパラメータθiにより決定されるパンニング利得811、815を用いて表現することができるのに対して、拡散サブストリーム812、816は脱相関処理ブロック813、817を用いて非コヒーレントに表現することができる。
最終ステップ例として、セグメントラウドスピーカ信号515は、ラウドスピーカ再生用の最終的な出力信号525を得るために、(例えば、ブロック520により)結合することができる。
図9の実施形態を参照すると、特筆すべきは、(パラメトリック・オーディオ・ストリーム125内の)推定されるパラメータも、再生用の実際のラウドスピーカ信号525が決定される前に(例えば、変更器910によって)変更できることである。例えば、DOAパラメータθiは、音響シーンの操作を達成するために再マッピングすることができる。他の事例において、所定のセクタのオーディオ信号(例えば、Wi)は、これらのセクタに包含される所定の方向または全方向から到来する音が望まれなければ、ラウドスピーカ信号525を計算する前に減衰させることができる。同様に、主として、または直接音のみが演奏される場合には、拡散音成分を減衰させることができる。図9には、パラメトリック・オーディオ・ストリーム125の変更910を含むこの処理が、2つのセグメントへのセグメント化の例に関連して好適な例として示されている。
以下、先の実施形態で実行された例示的な2D事例におけるセクタベースパラメータ推定の一実施形態について述べる。捕捉用に使用されるマイクロフォン信号は、所謂二次Bフォーマット信号に変換可能であるものとする。二次Bフォーマット信号は、対応するマイクロフォンの指向性パターンの形状によって記述することができる。
W(α)=1 (2)
X(α)=cos(α) (3)
Y(α)=sin(α) (4)
U(α)=cos(2α) (5)
V(α)=sin(2α) (6)
ここで、αは方位角を示す。対応するBフォーマット信号(例えば、図8の入力105)は、W(m,k)、X(m,k)、Y(m,k)、U(m,k)およびV(m,k)で示され、mおよびkは各々、時間および周波数指数を表す。ここで、i番目のセクタに関連づけられたセグメントマイクロフォン信号は、指向性パターンqi(α)を有するものとする。よって次には(例えば、ブロック110によって)、次式で表すことができる指向性パターンを有する追加的なマイクロフォン信号115、Wi(m,k)、Xi(m,k)、Yi(m,k)を決定することができる。
Wi(α)=qi(α) (7)
Xi(α)=qi(α)cos(α) (8)
Yi(α)=qi(α)sin(α) (9)
図10には、例示的な心臓型パターン事例、qi(α)=0.5+0.5cos(α+Θi)における記述するマイクロフォン信号の指向性パターン例が幾つか示されている。i番目のセクタの好ましい方向は方位角Θiに依存する。図10において、破線は、実線で描かれている指向性応答1020、1030とは反対の符号を有する指向性応答1022、1032(極パターン)を示す。
例示的なΘi=0の事例の場合、信号Wi(m,k)、Xi(m,k)、Yi(m,k)は、次式に従って、二次Bフォーマット信号から、入力成分W、X、Y、U、Vをミキシングして決定することができる点に留意されたい。
i(m,k)=0.5W(m,k)+0.5X(m,k) (10)
i(m,k)=0.25W(m,k)+0.5X(m,k)+0.25U(m,k) (11)
i(m,k)=0.5Y(m,k)+0.25V(m,k) (12)
このミキシング演算は、例えば図2においては、構成ブロック110において実行される。qi(α)の選択肢を変えると、二次Bフォーマット信号から成分Wi、Xi、Yiを得るミキシングルールも変わることに留意されたい。
セグメントマイクロフォン信号115、Wi(m,k)、Xi(m,k)、Yi(m,k)からは、次に、(例えば、ブロック120により)セクタベースのアクティブな強度ベクトル、
Figure 2016502797
を計算することによって、i番目のセクタに関連づけられたDOAパラメータθiを決定することができる。ここで、Re{A}は複素数Aの実数部を示し、*は複素共役を示す。さらに、ρ0は空気の密度であり、cは音速である。例えば単位ベクトルei(m、k)によって表される望ましいDOA推定θi(m、k)は、次式によって得ることができる。
Figure 2016502797
さらに、セクタベースの音場エネルギー関連量も決定することができる。
Figure 2016502797
次には、i番目のセクタの望ましい拡散性パラメータΨi(m,k)を次式によって決定することができる。
Figure 2016502797
ここで、gは適切なスケーリング係数を示し、E{ }は期待値演算子であり、|| || はベクトルノルムを示す。拡散性パラメータΨi(m,k)は、平面波のみが存在し、かつこれが純粋な拡散音場の場合における値以下の正の値をとれば、ゼロであることが分かる。一般に、類似の挙動を示す拡散性、即ち直接音のみに対して0を与え、かつ完全な拡散音場に対して1に近似する拡散性に対しては、代替のマッピング関数を定義することができる。
図11の実施形態を参照すると、異なるマイクロフォン構成に対しては、パラメータ推定の代替の実現を用いることができる。図11に好適な例として示されているように、指向性マイクロフォンの複数の線形アレイ1112、1114、1116が使用可能である。図11は、また、与えられたマイクロフォン構成に関して、2D観測空間をどのようにセクタ1101、1102、1103に分割し得るかの一例も示している。セグメントマイクロフォン信号115は、線形マイクロフォンアレイ1112、1114、1116の各々に適用されるフィルタ・アンド・サム・ビームフォーミング(filter and sum beam forming)等のビーム形成技術によって決定することができる。また、ビーム形成は省略してもよく、即ち、セクタ(Segi)毎に望ましい空間選択性を示す指向性マイクロフォンの指向性パターンを、セグメントマイクロフォン信号115を得るための唯一の手段として使用することができる。各セクタ内のDOAパラメータθiは、(R. Roy, T. Kailath共著「ESPRIT-estimation of signal parameters via rotational invariance techniques」, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 37, no. 7, pp. 984995, July 1989(非特許文献3)に記述されているような)「ESPRIT」アルゴリズム等の一般的な推定技術を用いて推定することができる。各セクタの拡散性パラメータΨiは、例えば、(J. Ahonen, V. Pulkki共著「Diffuseness estimation using temporal variation of intensity vectors」, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2009. WAS-PAA '09. , pp. 285-288, 18-21 Oct. 2009(非特許文献4)に記述されているように)DOA推定の時間的変動を評価することによって決定することができる。または、(O. Thiergart, G. Del Galdo, E. A. P. Habets共著「Signal-to-reverberant ratio estimation based on the complex spatial coherence between omnidirectional microphons」, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2012, pp. 309-312, 25-30 March 2012(非特許文献5)に記述されているような)異なるマイクロフォンと直接音対拡散音比との間のコヒーレンスの既知の関係を用いることができる。
図12は、高次マイクロフォン信号(例えば、入力空間オーディオ信号105)を得るための、全方向性マイクロフォンの円形アレイ例1210の略図1200を示す。図12の略図1200において、全方向性マイクロフォンの円形アレイ1210は、例えば、極線図における円(破線)に沿って等距離に配置された5つのマイクロフォンを備えている。実施形態において、全方向性マイクロフォンの円形アレイ1210は、後述するように、より高次(HO:higher order)のマイクロフォン信号を得るために使用することができる。(全方向性マイクロフォン1210により生成される)全方向性のマイクロフォン信号から例示的な二次マイクロフォン信号UおよびVを計算するためには、少なくとも5つの独立したマイクロフォン信号が使用されるべきである。これは、例えば、図12に好適な例として示されているもののような一様円形アレイ(UCA:Uniform Circular Array)を用いて見事に達成することができる。所定の時間および周波数においてマイクロフォン信号から得られるベクトルは、例えば、DFT(離散型フーリエ変換:Discrete Fourier transform)により変換することができる。次に、マイクロフォン信号W、X、Y、UおよびV(即ち、入力空間オーディオ信号105)は、DFT係数の線形結合によって得ることができる。DFT係数は、マイクロフォン信号のベクトルから計算されるフーリエ級数の係数を表すことに留意されたい。
Figure 2016502797
を、指向性パターン、
Figure 2016502797
により定義される一般化されたm次マイクロフォン信号を示すものとする。但し、αは、
Figure 2016502797
であるような方位角を示す。
すると、次式が証明され得る。
Figure 2016502797
但し、
Figure 2016502797
ここで、jは虚数単位、kは波数、rおよびφは極座標系を定義する半径および方位角、Jm(・)は第一種のm次ベッセル関数、
Figure 2016502797
は極座標(r、φ)上で測定される圧力信号のフーリエ級数の係数である。
アレイの設計および(高次の)B−フォーマット信号の計算実装に際しては、ベッセル関数の数値特性に起因する過剰な雑音増幅を回避するように注意しなければならないことに留意されたい。
記述している信号変換に関連する数学的背景および導出は、例えば、A. Kuntz著「Wave field analysis using virtual circular microphone arrays」, Dr. Hut, 2009, ISBN: 978-3-86853-006-3(非特許文献6)に記載されている。
本発明のさらなる実施形態は、録音空間内での録音から得られる入力空間オーディオ信号105から複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)を発生するための方法に関する。例えば、入力空間オーディオ信号105は、全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、Vを含む。本方法は、入力空間オーディオ信号105(例えば、全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、V)から、少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)を生成することを含み、前記少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)は録音空間の対応するセグメントSegiに関連づけられる。さらに、本方法は、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)を得るために、少なくとも2つの入力セグメントオーディオ信号115(Wi,Xi,Yi,Zi)の各々についてパラメトリック・オーディオ・ストリームを発生することを含む。
本発明のさらなる実施形態は、録音空間内で録音された入力空間オーディオ信号105から導出される複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)から複数のラウドスピーカ信号525(L1,L2,…)を発生するための方法に関する。本方法は、複数のパラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)から複数の入力セグメントラウドスピーカ信号515を生成することを含み、入力セグメントラウドスピーカ信号515は録音空間の対応するセグメントSegiに関連づけられる。さらに、本方法は、複数のラウドスピーカ信号525(L1,L2,…)を得るために、入力セグメントラウドスピーカ信号515を結合することを含む。
本発明はブロックが実際または論理上のハードウェアコンポーネントを表すブロック図で記述されているが、本発明はコンピュータ実装方法によっても実装することができる。後者の場合、ブロックは対応する方法ステップを表し、これらのステップは対応する論理的または物理的なハードウェアブロックにより実行される機能を表す。
記述されている実施形態は、本発明の原理を単に例示したものである。当業者である他の者には、本明細書に記述されている配置および詳細の変更および変形が明らかであることが理解されよう。よって、本発明は、添付の特許請求の範囲によってのみ限定されるべきものであり、本明細書における実施形態を記述しかつ説明するものとして提示された特有の詳細によって限定されないことが意図されている。
一部の態様は、装置に関して記述されているが、これらの態様が対応する方法の説明でもあることは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップに関して記述されている態様は、対応する装置の対応するブロック、部材または特徴の説明でもある。方法ステップの幾つかまたは全ては、ハードウェア装置、例えばマイクロプロセッサ、プログラマブルコンピュータまたは電子回路などによって(またはハードウェア装置を用いて)実行することができる。実施形態によっては、最も重要な方法ステップのうちの何れか1つまたはそれ以上がこのような装置によって実行することができる。
パラメトリック・オーディオ・ストリーム125(θi,Ψi,Wi)は、デジタル記憶媒体に格納することができ、または、無線伝送媒体もしくはインターネットのような有線伝送媒体等の伝送媒体で伝送することができる。
所定の実装要件に依存して、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実装することができる。その実装は、電子的に読み出し可能な制御信号を記憶し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。したがって、デジタル記憶媒体は、コンピュータ読取り可能とすることができる。
本発明による一部の実施形態は、本明細書に記述されている方法のうちの1つが実行されるように、プログラマブル・コンピュータ・システムと協働できる電子的に読取り可能な制御信号を有するデータキャリアを含む。
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとして実装することができ、そのプログラムコードは、このコンピュータ・プログラム・プロダクトがコンピュータ上で実行されると方法のうちの1つを実行するように動作する。そのプログラムコードは、例えば、機械読取り可能なキャリアに格納することができる。
他の実施形態は、機械読取り可能キャリア上に格納されて、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
したがって、言い替えれば、本発明の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを記録したデータキャリア(または、デジタル記憶媒体またはコンピュータ読取り可能な媒体)である。データキャリア、デジタル記憶媒体または記録用媒体は、典型的には、有形および/または非移行性である。
したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。そのデータストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するように構成または適合化される処理手段、例えばコンピュータまたはプログラマブル論理デバイス、を含む。
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを受信機へ(例えば、電子的または光学的に)転送するように構成された装置またはシステムを含む。その受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどとすることができる。その装置またはシステムは、例えば、コンピュータプログラムを受信機へ転送するためのファイルサーバを備えることができる。
実施形態によっては、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を、本明細書に記述されている方法の機能のうちの一部または全てを実行するために使用することができる。実施形態によっては、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述されている方法のうちの1つを実行するために、マイクロプロセッサによって動作することができる。概して、これらの方法は、好ましくはあらゆるハードウェア装置によって実行される。
本発明の実施形態は、単純かつコンパクトなマイクロフォン構成を用いて、高品質でリアルな空間音響の録音と再生を提供する。
本発明の実施形態は、(2010年8月31日付けのT. Lokki, J. Merimaa, V. Pulkkiによる「Method for Reproducing Natural or Modified Spatial Impression in Multichannel Listening」と題する米国特許第7,787,638B2号明細書(特許文献1)、およびV. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007(非特許文献1)に記述されているような)方向オーディオコーディング(DirAC)に基づいており、DirACは異なるマイクロフォンシステムで、かつ任意のラウドスピーカ配置で使用することができる。DirACの利点は、マルチチャネル・ラウドスピーカ・システムを用いて、既存の音響環境の空間印象を可能な限り正確に再生することにある。選ばれた環境内部において、レスポンス(連続音またはインパルス応答)は、全方向性マイクロフォン(W)と、音の到来方向(DOA)と音の拡散性を測定できるようにするマイクロフォンセットとで測定することができる。可能な一方法は、対応するデカルト座標軸に沿って配列された3つの8字形マイクロフォン(X、Y、Z)を適用することである。これを行うための一方法は「サウンドフィールド(SoundField)」マイクロフォンを用いることであり、サウンドフィールドマイクロフォンは望ましい全てのレスポンスを直接に生み出す。全方向性マイクロフォンの信号は音圧を表すのに対して、双極子信号は粒子速度ベクトルの対応要素に比例する点に留意することは興味深い。
これらの信号から、DirACパラメータ、即ち音のDOAおよび観測音場の拡散性、を、適切な時間/周波数ラスタにおいて、ヒト聴覚系の分解能に対応する分解能で測定することができる。次に、実際のラウドスピーカ信号を、全方向性マイクロフォン信号から、(V. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007(非特許文献1)に記述されているような)DirACパラメータに基づいて決定することができる。直接音成分は、パンニング技術を用いて少数(例えば、1台または2台)のラウドスピーカのみで再生できるのに対して、拡散音成分は全てのラウドスピーカから同時に再生することができる。
DirACに基づく本発明の実施形態は、コンパクトなマイクロフォン構成による空間音響録音への単純な手法を表している。特に、本発明は、達成可能な音質および音響体験を従来技術における実施において制限している幾つかの体系的欠点を防止する。
従来のDirACとは対照的に、本発明の実施形態はより高い品質のパラメトリック空間オーディオ処理を提供する。従来のDirACは、音場の単純なグローバルモデルに依存していて、観測空間全体で1つのDOAパラメータと1つの拡散性パラメータだけを用いる。これは、音場は、各時間/周波数タイルにつき平面波等の1つの単一直接音成分と1つのグローバルな拡散性パラメータだけで表現することができる、という想定に基づくものである。しかしながら、実際のところ、音場に関するこの簡易な想定は、当てはまらない場合が多いことが分かる。これは、特に、複雑な現実世界の音響において、例えば話者または楽器等の複数の音源が同時に関与している場合にいえることである。一方、本発明の実施形態は、観測される音場とモデルとの不一致を生じさせず、対応するパラメータ推定はより正確である。また、特に直接音成分が拡散的に演奏され、かつラウドスピーカ出力を聴いていて方向を知覚できない場合に、モデルとの不一致が生じることも防止することができる。実施形態では、(V. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007(非特許文献1)に記述されているように)全てのラウドスピーカから再生される無相関な拡散音を発生させるために逆相関器を用いることができる。従来技術では逆相関器によって望ましくない室効果が加わる場合の多いのに対して、本発明では、所定の空間広がりを有する音源をより正確に再生することができる(このような音源を正確に捕捉できないDirACの単純な音場モデルを用いる場合とは対照的である。)。
本発明の実施形態は、想定される信号モデルにおいてより高値の自由度を提供し、複雑な音響シーンにおいてモデルとの一致を一層よくする。
さらに、セクタを発生するために指向性マイクロフォン(または、他の任意の時不変の線形的な、例えば物理的な手段)を用いる場合には、マイクロフォンの増大された固有の指向性を達成することができる。したがって、漠然とした方向、クロストークおよび着色を回避するために時変利得を適用する必要性は少ない。これにより、オーディオ信号経路における非線形処理が少なくなり、結果として品質が高まる。
概して、直接音成分は、より多くを直接音源(点音源/平面波源)として演奏することができる。結果として、非相関アーティファクトの発生は減少し、より多くの(正確に)局在化可能な事象を知覚することができ、かつより正確な空間再生を達成することができる。
本発明の実施形態は、正確なDOAを関連づけられたより多くの割合の合計信号エネルギーが直接音事象に帰属され、かつより多くの情報が利用可能であることから、(M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuech, D. Mahne, R. Schultz-Amling, O. Thiergart共著「A Spatial Filtering Approach for Directional Audio Coding」, 126th AES Convention, Paper 7653, Munich, Germany, 2009(非特許文献7)において記述されているように)パラメトリック領域、例えば指向性フィルタリング、において、単純なグローバルモデルよりも優れた操作性を提供する。より多い(パラメトリックな)情報を準備することにより、例えば、複数の直接音成分を、または異なる方向から入射する初期反射からの直接音成分をも、分離することができる。
具体的には、実施形態は、次のような特徴を提供する。2Dの場合は、全方位角範囲は、低減された方位角範囲にわたるセクタに分割することができる。3Dの場合は、全立体角範囲は、低減された立体角範囲にわたるセクタに分割することができる。各セクタは、好ましい角度範囲に関連づけることができる。セクタ毎に、受信されるマイクロフォン信号から、主としてこの特定のセクタに割り当てられかつこの特定のセクタにより包含される方向から到来する音より成るセグメントマイクロフォン信号を決定することができる。また、これらのマイクロフォン信号は、シミュレートされた仮想録音によって人工的に決定することもできる。セクタ毎に、パラメトリックな音場解析を実行して、DOAおよび拡散性等の方向パラメータを決定することができる。セクタ毎に、パラメトリックな方向情報(DOAおよび拡散性)は、主として、この特定のセクタに関連づけられた音場の角度範囲の空間特性を記述する。再生の際には、セクタ毎に、ラウドスピーカ信号を方向パラメータおよびセグメントマイクロフォン信号に基づいて決定することができる。次に、全セクタの出力を結合することにより、全体出力が得られる。操作の際には、再生用のラウドスピーカ信号を計算する前に、その音響シーンの操作を達成すべく、推定されたパラメータおよび/またはセグメントオーディオ信号を変更することができる。

Claims (18)

  1. 録音空間における録音から得られる入力空間オーディオ信号(105)から複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)を発生するための装置(100)であって、
    前記入力空間オーディオ信号(105)から少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)を生成するためのセグメンタ(110)と、
    前記複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)を得るために、前記少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)の各々についてパラメトリック・オーディオ・ストリームを発生するための発生器(120)と、を備え、
    前記少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)は前記録音空間の対応するセグメント(Segi)に関連づけられている装置(100)。
  2. 前記録音空間の前記セグメント(Segi)は、各々、二次元(2D)平面内または三次元(3D)空間内の方向の部分集合を表す請求項1に記載の装置(100)。
  3. 前記録音空間の前記セグメント(Segi)は、各々、関連の指向性尺度によって特徴づけられている請求項1または2に記載の装置(100)。
  4. 該装置(100)は、前記入力空間オーディオ信号(105)を得るために、音場録音を実行するように構成され、
    前記セグメンタ(110)は、目的の全角度範囲を前記録音空間の前記セグメント(Segi)に分割するように構成され、
    前記録音空間の前記セグメント(Segi)は、各々、前記目的の全角度範囲より少ない角度範囲にわたっている請求項1から3のいずれか一項に記載の装置(100)。
  5. 前記入力空間オーディオ信号(105)は全方向性信号(W)および複数の異なる指向性信号(X,Y,Z,U,V)を含む請求項1から4のいずれか一項に記載の装置(100)。
  6. 前記セグメンタ(110)は、前記録音空間の前記セグメント(Segi)に依存するミキシング演算を用いて、前記全方向性信号(W)および前記複数の異なる指向性信号(X,Y,Z,U,V)から、前記少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)を発生するように構成されている請求項1から5のいずれか一項に記載の装置(100)。
  7. 前記セグメンタ(110)は前記録音空間の前記セグメント(Segi)毎の指向性パターン(305)(qi(α))を用いるように構成され、
    前記指向性パターン(305)(qi(α))は前記少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)の指向性を示す請求項1から6のいずれか一項に記載の装置(100)。
  8. 前記指向性パターン(305)(qi(α))は、
    i(α)=a+b cos(α+Θi
    によって与えられ、
    aおよびbは望ましい指向性パターン(305)(qi(α))を得るために変更される乗数を示し、
    αは方位角を示し、Θは前記録音空間のi番目のセグメントの好ましい方向を示す請求項7に記載の装置(100)。
  9. 前記発生器(120)は前記複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)を得るように構成され、
    前記複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)は各々、前記少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)の成分(Wi)と、対応するパラメトリック空間情報(θi,Ψi)とを含む請求項1から8のいずれか一項に記載の装置(100)。
  10. 前記発生器(120)は、前記対応するパラメトリック空間情報(θi,Ψi)を得るために、前記少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)の各々に対してパラメトリック空間解析を実行するように構成されている請求項9に記載の装置(100)。
  11. 前記パラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)の各々の前記パラメトリック空間情報(θi,Ψi)は、到来方向(DOA)パラメータ(θi)および/または拡散性パラメータ(Ψi)を含んでいる請求項9または10に記載の装置(100)。
  12. パラメトリック信号表現領域における前記複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)を変更するための変更器(910)をさらに備え、
    前記変更器(910)は、前記パラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)のうちの少なくとも1つを、対応する変更制御パラメータ(905)を用いて変更するように構成されている請求項1から11のいずれか一項に記載の装置(100)。
  13. 録音空間において録音された入力空間オーディオ信号(105)から導出される複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)から複数のラウドスピーカ信号(525)(L1,L2,…)を発生するための装置(500)であって、
    前記複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)から複数の入力セグメントラウドスピーカ信号(515)を生成するためのレンダラ(510)と、
    前記複数のラウドスピーカ信号(525)(L1,L2,…)を得るために、前記入力セグメントラウドスピーカ信号(515)を結合するためのコンバイナ(520)と、を備え、
    前記入力セグメントラウドスピーカ信号(515)は前記録音空間の対応するセグメント(Segi)に関連づけられている装置(500)。
  14. 前記レンダラ(510)は前記複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)を受信するように構成され、
    前記複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)は、各々、セグメントオーディオ成分(Wi)および対応するパラメトリック空間情報(θi,Ψi)を含み、
    前記レンダラ(510)は、前記複数の入力セグメントラウドスピーカ信号(515)を得るために、前記セグメントオーディオ成分(Wi)の各々を前記対応するパラメトリック空間情報(505)(θi,Ψi)を用いて表現するように構成されている請求項13に記載の装置(500)。
  15. 録音空間における録音から得られる入力空間オーディオ信号(105)から複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)を発生するための方法であって、
    前記入力空間オーディオ信号(105)から少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)を生成するステップと、
    前記複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)を得るために、前記少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)の各々についてパラメトリック・オーディオ・ストリームを発生するステップと、を含み、
    前記少なくとも2つの入力セグメントオーディオ信号(115)(Wi,Xi,Yi,Zi)は前記録音空間の対応するセグメント(Segi)に関連づけられる方法。
  16. 録音空間において録音された入力空間オーディオ信号(105)から導出される複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)から複数のラウドスピーカ信号(525)(L1,L2,…)を発生するための方法であって、
    前記複数のパラメトリック・オーディオ・ストリーム(125)(θi,Ψi,Wi)から複数の入力セグメントラウドスピーカ信号(515)を生成するステップと、
    前記複数のラウドスピーカ信号(525)(L1,L2,…)を得るために、前記入力セグメントラウドスピーカ信号(515)を結合するステップと、を含み、
    前記入力セグメントラウドスピーカ信号(515)は前記録音空間の対応するセグメント(Segi)に関連づけられる方法。
  17. コンピュータ上でコンピュータプログラムが実行されると請求項15に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
  18. コンピュータ上でコンピュータプログラムが実行されると請求項16に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
JP2015542238A 2012-11-15 2013-11-12 複数のパラメトリック・オーディオ・ストリームを発生するための装置及び方法、並びに複数のラウドスピーカ信号を発生するための装置及び方法 Active JP5995300B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261726887P 2012-11-15 2012-11-15
US61/726,887 2012-11-15
EP13159421.0A EP2733965A1 (en) 2012-11-15 2013-03-15 Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
EP13159421.0 2013-03-15
PCT/EP2013/073574 WO2014076058A1 (en) 2012-11-15 2013-11-12 Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals

Publications (2)

Publication Number Publication Date
JP2016502797A true JP2016502797A (ja) 2016-01-28
JP5995300B2 JP5995300B2 (ja) 2016-09-21

Family

ID=48013737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015542238A Active JP5995300B2 (ja) 2012-11-15 2013-11-12 複数のパラメトリック・オーディオ・ストリームを発生するための装置及び方法、並びに複数のラウドスピーカ信号を発生するための装置及び方法

Country Status (13)

Country Link
US (1) US10313815B2 (ja)
EP (2) EP2733965A1 (ja)
JP (1) JP5995300B2 (ja)
KR (1) KR101715541B1 (ja)
CN (1) CN104904240B (ja)
AR (1) AR093509A1 (ja)
BR (1) BR112015011107B1 (ja)
CA (1) CA2891087C (ja)
ES (1) ES2609054T3 (ja)
MX (1) MX341006B (ja)
RU (1) RU2633134C2 (ja)
TW (1) TWI512720B (ja)
WO (1) WO2014076058A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3018026B1 (fr) * 2014-02-21 2016-03-11 Sonic Emotion Labs Procede et dispositif de restitution d'un signal audio multicanal dans une zone d'ecoute
CN105376691B (zh) 2014-08-29 2019-10-08 杜比实验室特许公司 感知方向的环绕声播放
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
CN107290711A (zh) * 2016-03-30 2017-10-24 芋头科技(杭州)有限公司 一种语音寻向系统及方法
EP3297298B1 (en) 2016-09-19 2020-05-06 A-Volute Method for reproducing spatially distributed sounds
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
GB2559765A (en) * 2017-02-17 2018-08-22 Nokia Technologies Oy Two stage audio focus for spatial audio processing
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US11393483B2 (en) 2018-01-26 2022-07-19 Lg Electronics Inc. Method for transmitting and receiving audio data and apparatus therefor
EP3753263B1 (en) * 2018-03-14 2022-08-24 Huawei Technologies Co., Ltd. Audio encoding device and method
GB2572420A (en) 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
US20190324117A1 (en) * 2018-04-24 2019-10-24 Mediatek Inc. Content aware audio source localization
EP3618464A1 (en) * 2018-08-30 2020-03-04 Nokia Technologies Oy Reproduction of parametric spatial audio using a soundbar
GB201818959D0 (en) 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
GB2611357A (en) * 2021-10-04 2023-04-05 Nokia Technologies Oy Spatial audio filtering within spatial audio capture
CN114023307B (zh) * 2022-01-05 2022-06-14 阿里巴巴达摩院(杭州)科技有限公司 声音信号处理方法、语音识别方法、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04158000A (ja) * 1990-10-22 1992-05-29 Matsushita Electric Ind Co Ltd 音場再生システム
US6021206A (en) * 1996-10-02 2000-02-01 Lake Dsp Pty Ltd Methods and apparatus for processing spatialised audio
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US20110033063A1 (en) * 2008-04-07 2011-02-10 Dolby Laboratories Licensing Corporation Surround sound generation from a microphone array
US20110216908A1 (en) * 2008-08-13 2011-09-08 Giovanni Del Galdo Apparatus for merging spatial audio streams
US20120114126A1 (en) * 2009-05-08 2012-05-10 Oliver Thiergart Audio Format Transcoder
US20120128160A1 (en) * 2010-10-25 2012-05-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US20130016842A1 (en) * 2009-12-17 2013-01-17 Richard Schultz-Amling Apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3412209B2 (ja) 1993-10-22 2003-06-03 日本ビクター株式会社 音響信号処理装置
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
GB2410164A (en) * 2004-01-16 2005-07-20 Anthony John Andrews Sound feature positioner
BRPI0509100B1 (pt) * 2004-04-05 2018-11-06 Koninl Philips Electronics Nv Codificador de multicanal operável para processar sinais de entrada, método paracodificar sinais de entrada em um codificador de multicanal
EP2070392A2 (en) * 2006-09-14 2009-06-17 Koninklijke Philips Electronics N.V. Sweet spot manipulation for a multi-channel signal
CN202153724U (zh) * 2011-06-23 2012-02-29 四川软测技术检测中心有限公司 有源组合扬声器

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04158000A (ja) * 1990-10-22 1992-05-29 Matsushita Electric Ind Co Ltd 音場再生システム
US6021206A (en) * 1996-10-02 2000-02-01 Lake Dsp Pty Ltd Methods and apparatus for processing spatialised audio
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
JP2010521909A (ja) * 2007-03-21 2010-06-24 フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン 音声の再現を高めるための方法および装置
US20110033063A1 (en) * 2008-04-07 2011-02-10 Dolby Laboratories Licensing Corporation Surround sound generation from a microphone array
JP2011517547A (ja) * 2008-04-07 2011-06-09 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション マイクロホン配列からのサラウンド・サウンド生成
US20110216908A1 (en) * 2008-08-13 2011-09-08 Giovanni Del Galdo Apparatus for merging spatial audio streams
JP2011530720A (ja) * 2008-08-13 2011-12-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 空間オーディオストリームをマージするための装置
US20120114126A1 (en) * 2009-05-08 2012-05-10 Oliver Thiergart Audio Format Transcoder
JP2012526296A (ja) * 2009-05-08 2012-10-25 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音声フォーマット・トランスコーダ
US20130016842A1 (en) * 2009-12-17 2013-01-17 Richard Schultz-Amling Apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
JP2013514696A (ja) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
US20120128160A1 (en) * 2010-10-25 2012-05-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
JP2014501064A (ja) * 2010-10-25 2014-01-16 クゥアルコム・インコーポレイテッド マルチマイクロフォンを用いた3次元サウンド獲得及び再生

Also Published As

Publication number Publication date
MX2015006128A (es) 2015-08-05
BR112015011107A2 (pt) 2017-10-24
US20150249899A1 (en) 2015-09-03
KR101715541B1 (ko) 2017-03-22
TWI512720B (zh) 2015-12-11
CN104904240A (zh) 2015-09-09
BR112015011107B1 (pt) 2021-05-18
EP2733965A1 (en) 2014-05-21
CA2891087C (en) 2018-01-23
WO2014076058A1 (en) 2014-05-22
TW201426738A (zh) 2014-07-01
AR093509A1 (es) 2015-06-10
CN104904240B (zh) 2017-06-23
JP5995300B2 (ja) 2016-09-21
KR20150104091A (ko) 2015-09-14
US10313815B2 (en) 2019-06-04
EP2904818B1 (en) 2016-09-28
RU2015122630A (ru) 2017-01-10
RU2633134C2 (ru) 2017-10-11
ES2609054T3 (es) 2017-04-18
EP2904818A1 (en) 2015-08-12
MX341006B (es) 2016-08-03
CA2891087A1 (en) 2014-05-22

Similar Documents

Publication Publication Date Title
JP5995300B2 (ja) 複数のパラメトリック・オーディオ・ストリームを発生するための装置及び方法、並びに複数のラウドスピーカ信号を発生するための装置及び方法
JP7119060B2 (ja) マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
TWI770059B (zh) 用以再生空間分散聲音之方法
US9578439B2 (en) Method, system and article of manufacture for processing spatial audio
US9271081B2 (en) Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2130403B1 (en) Method and apparatus for enhancement of audio reconstruction
US9015051B2 (en) Reconstruction of audio channels with direction parameters indicating direction of origin
JP5449330B2 (ja) 擬似立体音響オーディオ信号を取得するための角度依存動作装置または方法
KR102652670B1 (ko) 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
JP7378575B2 (ja) 空間変換領域における音場表現を処理するための装置、方法、またはコンピュータプログラム
JP2023515968A (ja) 空間メタデータ補間によるオーディオレンダリング
RU2793625C1 (ru) Устройство, способ или компьютерная программа для обработки представления звукового поля в области пространственного преобразования
McCormack Parametric reproduction of microphone array recordings

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160818

R150 Certificate of patent or registration of utility model

Ref document number: 5995300

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250