JP6086923B2 - 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法 - Google Patents

幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法 Download PDF

Info

Publication number
JP6086923B2
JP6086923B2 JP2014543912A JP2014543912A JP6086923B2 JP 6086923 B2 JP6086923 B2 JP 6086923B2 JP 2014543912 A JP2014543912 A JP 2014543912A JP 2014543912 A JP2014543912 A JP 2014543912A JP 6086923 B2 JP6086923 B2 JP 6086923B2
Authority
JP
Japan
Prior art keywords
audio data
sound
layer
data streams
data stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014543912A
Other languages
English (en)
Other versions
JP2015502573A (ja
Inventor
デル・ガルド,ジョバンニ
ティエルガルト,オリバー
ヘルレ,ユルゲン
クェフ,ファビアン
ハーベツ,エマニュエル
クラシウン,アレクサンドラ
クンツ,アヒム
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2015502573A publication Critical patent/JP2015502573A/ja
Application granted granted Critical
Publication of JP6086923B2 publication Critical patent/JP6086923B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明はオーディオ処理に関し、特に、統合オーディオデータストリームを生成する装置および方法が提供される。
オーディオ処理、および特に空間オーディオ符号化は、ますます重要となってきている。従来的な空間音の録音は、再生側で、視聴者が、あたかもその録音場所にいるかのように、サウンドイメージを知覚するような音場を捉えることを目的としている。空間音の録音および再生技術に対する他のアプローチが、チャネル、オブジェクトまたはパラメトリックな表現に基づいた現状技術から知られている。
チャネルに基づく表現は、例えば5.1サラウンドサウンド設定のような、既知の設定において配置されたN個のスピーカによって再生されるN個の独立したオーディオ信号によってサウンドシーンを表す。空間音の録音についてのアプローチは、通常は、離隔された、例えばABステレオ音響では無指向性マイクロフォン、例えばインテンシティステレオ音響ではコインシデント指向性マイクロフォンを採用する。また、例えばAmbisonic方式では、非特許文献1に示されているように、Bフォーマットマイクロフォンのような、より洗練されたマイクロフォンが採用される。
既知の設定に対する所望のスピーカ信号は、録音されたマイクロフォン信号から直接導出され、そして個別に送信または録音される。より効率的な表現が、オーディオ符号化を個別の信号に適用することによって得られ、それは、場合によっては、例えば、5.1用のMPEGサラウンドでは、非特許文献20に示されるように、効率を上げるために異なるチャネルの情報を併せて符号化する。
これらの技術の大きな欠点は、一旦スピーカ信号が演算されると、サウンドシーンを修正できないことである。
オブジェクトに基づく表現が、例えば、非特許文献23に示される空間オーディオ・オブジェクト符号化(Spatial Audio Object Coding:SAOC)で用いられる。
オブジェクトに基づく表現は、サウンドシーンをN個の独立したオーディオ・オブジェクトで表現する。この表現は、例えば、各オブジェクトの位置または音量を変えることによってサウンドシーンを操作できるので、再生側に高い柔軟性を与える。この表現は、例えば、マルチトラック録音から容易に利用可能となるものの、少ないマイクロフォンで録音された複雑なサウンドシーンから得るのは非常に難しい(例えば、非特許文献20参照)。実際に、話者(または他の音放射物)は、まず局所化されてから、混合音から抽出されなければならず、これによってアーティファクトが生じてしまう。
パラメトリック表現はしばしば、空間マイクロフォンを採用して、空間音響を記述する空間サイド情報とともに、1以上のオーディオダウンミックス信号を判定する。一例として、非特許文献27で検討される指向性オーディオ符号化(Directional Audio Coding:DirAC)がある。
用語「空間マイクロフォン」とは、音の到来方向を取得することができる、空間音の取得のための任意の装置(例えば、指向性マイクロフォンの組合せ、マイクロフォンアレイなど)をいう。
用語「非空間マイクロフォン」とは、単一の無指向型または指向性マイクロフォンのような、音の到来方向を取得するようには構成されていない任意の装置をいう。
他の例が、非特許文献4において提案されている。
DirACでは、空間的なキュー情報が、音の到来方向(direction of arrival:DOA)と、時間‐周波数領域において演算される音場の拡散性と、含む。音再生に対しては、オーディオ再生信号が、パラメトリックな記述に基づいて導出される。これらの技術によると、任意のスピーカ設定を採用でき、ダウンミックス・モノ・オーディオ信号とサイド情報を含むことで表現が特に柔軟かつコンパクトであり、ウンドシーンでの容易な修正、例えば、音響ズーミング、指向のフィルタリング、シーン統合などが可能となるので、再生側で大きな柔軟性が得られる。
しかし、これらの技術は、録音される空間的なイメージが、使用される空間マイクロフォンに常に相対する点において、やはり制約がある。したがって、音響的な視点を変えることができず、サウンドシーン内での視聴位置を変えることができない。
仮想マイクロフォンのアプローチが、非特許文献19に提案されている。このアプローチは、環境内で意のままに(すなわち、任意の位置および向きで)、仮想的に配置された任意の空間マイクロフォンの出力信号を演算することを可能とする。仮想マイクロフォン(VM)アプローチを特徴付ける柔軟性によって、後段処理ステップにおいてサウンドシーンを意のままに仮想的に捕捉することが可能となるが、サウンドシーンの効率的な送信、記憶および/または修正に使用できる音場の表現が利用可能となるわけではない。さらに、時間−周波数ビンあたり1つの音源しかアクティブなものとされず、したがって、同じ時間−周波数ビンにおいて2以上の音源がアクティブとなる場合には、サウンドシーンを正しく記述できない。またさらに、仮想マイクロフォン(VM)が受信機側で適用される場合には、全てのマイクロフォン信号がチャネルを介して送信される必要があり、これにより表現が不十分となる。一方、VMが送信機側で適用される場合には、サウンドシーンをさらに操作することができず、モデルは柔軟性を失い、所与のスピーカ設定に制限されることになる。さらに、パラメトリック情報に基づいたサウンドシーンの操作を考慮するものでもない。
非特許文献22に開示された方法では、音源位置推定が、分散配置されたマイクロフォンによって測定される対関係の到来時間差に基づいて行われる。またさらに、受信機は録音法に依存し、合成のために(例えば、スピーカ信号の生成のために)、全てのマイクロフォン信号を必要とする。
非特許文献26に開示された方法は、DirACと同様に、到来方向をパラメータとして使用し、それゆえ、表現をサウンドシーンの特定の視点に制限してしまう。さらに、解析および合成の双方が通信システムの同じ側に適用される必要があるので、サウンドシーンの表現を送信/記憶することの可能性は提案されていない。
他の例として、異なる環境で録音されている参加者達が固有のサウンドシーンにおいて再生されることを必要とするような、テレビ会議アプリケーションがある。マルチポイント・コントロール・ユニット(MCU)は、確実に固有のサウンドシーンが再生されるようにしなければならない。
非特許文献21および特許文献2には、サウンドシーンの2以上のパラメトリックな表現を合成する発想が提案されている。
一方で、2以上のサウンドシーンの表現から効率的な方法で、サウンドシーンを修正するのに充分柔軟な固有のサウンドシーンを作り出すコンセプトが提供されていれば、非常に有益となっているであろう。
US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal. US 20110216908: Apparatus for Merging Spatial Audio Streams.
Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859;871, 1985. V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing" in Proceedings of the AES 28th International Conference, pp. 251−258, Pitea, Sweden, June 30 − July 2, 2006. V. Pulkki, "Spatial sound reproduction with directional audio coding" J. Audio Eng. Soc., vol. 55, no. 6, pp. 503−516, June 2007. C. Faller: "Microphone Front−Ends for Spatial Audio Coders" in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008. M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuech, D. Mahne, R. Schultz−Amling. and O. Thiergart, "A spatial filtering approach for directional audio coding" in Audio Engineering Society Convention 126, Munich, Germany, May 2009. R. Schultz−Amling, F. K;ch, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation" in Audio Engineering Society Convention 128, London UK, May 2010. J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology" in Audio Engineering Society Convention 128, London UK, May 2010. E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999. A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements" in 15th European Signal Processing Conference (EUSIPCO 2007), 2007. A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b−format recordings" in Audio Engiineering Society Convention 128, London UK, May 2010. S. Rickard and Z. Yilmaz, "On the approximate W−disjoint orthogonality of speech" in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1. R. Roy, A. Paulraj, and T. Kailath, "Direction−of−arrival estimation by subspace rotation methods ; ESPRIT" in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986. R. Schmidt, "Multiple emitter location and signal parameter estimation" IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276−280, 1986. J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane" The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548−553. F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989. R. Schultz−Amling, F. K;ch, M. Kallinger, G. Del Galdo, T. Ahonen and V. Pulkki, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding" in Audio Engineering Society Convention 124, Amsterdam, The Netherlands, May 2008. M. Kallinger, F. Kuech, R. Schultz−Amling, G. Del Galdo, T. Ahonen and V. Pulkki, "Enhanced direction estimation using microphone arrays for directional audio coding" in Hands−Free Speech Communication and Microphone Arrays, 2008. HSCMA 2008, May 2008, pp. 45−48. R. K. Furness, "Ambisonics − An overview" in AES 8th International Conference, April 1990, pp. 181−189. Giovanni Del Galdo, Oliver Thiergart, TobiasWeller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands−free Speech Communication and Microphone Arrays (HSCMA ’11), Edinburgh, United Kingdom, May 2011. Juergen Herre, Cornelia Falch, Dirk Mahne, Giovanni Del Galdo, Markus Kallinger, and Oliver Thiergart. Interactive teleconferencing combining spatial audio object coding and DirAC technology. In Audio Engineering Society Convention 128, 5 2010. G. Del Galdo, F.Kuech, M. Kallinger, and R. Schultz−Amling. Efficient merging of multiple audio streams for spatial sound reproduction in directional audio coding. In International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2009), 2009. Emmanuel Gallo and Nicolas Tsingos. Extracting and re−rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007. Jeroen Breebaart, Jonas Engdegard, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroesn Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) − the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008. R. Roy and T. Kailath. ESPRIT−estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37(7):984;995, July 1989. Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006. Svein Merge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151. Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503;516, June 2007. C. Uhle and C. Paul: A supervised learning approach to ambience extraction from mono recordings for blind upmixing in Proc. of the 11th Int. Conference on Digital Audio Effects (DAFx−08), Espoo, Finland, September 1−4, 2008.
本発明の目的は、統合オーディオデータストリーム、例えば、GACストリームを生成するための改善されたコンセプトを提供することにある。
本発明の目的は、請求項1に記載の装置、請求項17に記載の方法および請求項18に記載のコンピュータプログラムによって解決される。
ひとつの態様によると、統合オーディオデータストリームを生成する装置が提供される。その装置は、複数の単層オーディオデータストリームを取得するデマルチプレクサを備え、このデマルチプレクサは1以上の入力オーディオデータストリームを受信する構成であり、各入力オーディオデータストリームは1層以上のレイヤを有し、デマルチプレクサは、1層以上のレイヤを有する入力オーディオデータストリームの各々を1層だけのレイヤを有する2以上の多重分離されたオーディオデータストリームに、2以上の多重分離されたオーディオデータストリームがともに入力オーディオデータストリームの1層以上のレイヤを有するように多重分離して、単層オーディオデータストリームのうちの2以上を得るように構成される。さらに、この装置は、複数の単層オーディオデータストリームに基づいて、例えば、複数の多重分離された単層オーディオデータストリームに基づいて、1層以上のレイヤを有する統合オーディオデータストリームを生成する統合モジュールを備える。入力データオーディオストリーム、多重分離されたオーディオデータストリーム、単層オーディオデータストリームおよび統合オーディオデータストリームの各レイヤは、圧力信号(音圧信号)の圧力値(音圧値)音源の位置を示す位置値および音場の拡散を示す拡散値をオーディオデータとして含む。
さらなる態様では、この装置は、複数の単層オーディオデータストリームを取得するデマルチプレクサを備えることができ、デマルチプレクサは2以上の入力オーディオデータストリームを受信するように構成され、各入力オーディオデータストリームは1層以上のレイヤを有し、デマルチプレクサは、2層以上のレイヤを有する入力オーディオデータストリームの各々を1層のレイヤだけを有する2以上の多重分離されたオーディオデータストリームに、2以上の多重分離されたオーディオデータストリームがともに入力オーディオデータストリームの2層以上のレイヤを有するように多重分離して、単層オーディオデータストリームのうちの2以上を得るように構成される。さらに、この装置は、複数の単層オーディオデータストリームに基づいて、1層以上のレイヤを有する統合オーディオデータストリームを生成するための統合モジュールを備えていてもよい。
ひとつの態様では、この装置は、1層だけのレイヤを有する1以上の受信入力オーディオデータストリームを、それらをデマルチプレクサに入力することなく、統合モジュールに直接入力するように構成される。
単層データストリームおよび統合されたオーディオデータストリームのうちの、多重分離されたオーディオデータストリームの入力データオーディオストリームの各レイヤは、圧力信号の圧力値、位置値および拡散値をオーディオデータとして含み、オーディオデータは、複数の時間−周波数ビンのうちの1つの時間−周波数ビンに対して規定される。
この態様によると、2以上の録音されたサウンドシーンは、2以上のオーディオデータストリーム、例えば、GACストリームを統合することによって、および単一のオーディオデータストリーム、例えば、単一のGACストリームを出力することによって統合される。
サウンドシーンの統合は、例えばテレビ会議アプリケーションで用いることができ、そこでは、異なる環境で録音されている参加者達が、固有のサウンドシーンにおいて再生されることが必要である。したがって、統合は、マルチポイント・コントロール・ユニット(MCU)において行われて、ネットワークのトラフィックを軽減し、または、エンドユーザ達のところで行われて、合成の演算コスト(例えば、スピーカ信号の演算)を低減することができる。
ひとつの態様では、統合モジュールは、コスト値を単層オーディオデータストリームの各々に割り当てるコスト関数モジュールを備えることができ、統合モジュールは、単層オーディオデータストリームに割り当てられたコスト値に基づいて、統合オーディオデータストリームを生成するように構成される。
他の態様によると、コスト関数モジュールは、単層オーディオデータストリームの圧力値または拡散値の少なくとも1つに応じて、単層オーディオデータストリームの各々にコスト値を割り当てるように構成されてもよい。
さらなる態様では、コスト関数モジュールが、数式:
を適用することによって、単層オーディオデータストリームのグループのうちの各オーディオデータストリームにコスト値を割り当てるように構成される。ここで、PおよびΨはそれぞれ、単層オーディオデータストリームのグループのうちのi番目のオーディオデータストリームのレイヤの、例えば各時間−周波数ビンに対する、圧力値および拡散値である。
他の態様によると、統合モジュールは、圧力統合部をさらに備えることができる。この圧力統合部は、複数の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを有する第1のグループを判定し、複数の単層オーディオデータストリームのうちの異なる1以上の単層オーディオデータストリームを有する第2のグループを判定するように構成される。第1のグループの単層オーディオデータストリームの各々のコスト値は、第2のグループの単層オーディオデータストリームの各々のコスト値よりも大きてもよく、第1のグループの単層オーディオデータストリームの各々のコスト値は、第2のグループの単層オーディオデータストリームの各々のコスト値よりも小さくてよい。圧力統合部は、統合オーディオデータストリームの1層以上のレイヤにおける1以上の圧力値を、第1のグループの単層オーディオデータストリームの各々の各圧力値が統合オーディオデータストリームのレイヤのうちの1層における圧力値となるとともに、第2のグループの単層オーディオデータストリームの圧力値の組み合わせが統合オーディオデータストリームのレイヤのうちの1層における圧力値となるように生成するように構成される。
さらなる態様において、統合モジュールは、拡散性統合部をさらに備えることができる。拡散性統合部は、複数の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを有する第3のグループを判定し、複数の単層オーディオデータストリームのうちの異なる1以上の単層オーディオデータストリームを有する第4のグループを判定するように構成される。第3のグループの単層オーディオデータストリームの各々のコスト値は、第4のグループの単層オーディオデータストリームの各々のコスト値よりも大きくてもよく、または、第3のグループの単層オーディオデータストリームの各々のコスト値は、第4のグループの単層オーディオデータストリームの各々のコスト値よりも小さくてもよい。拡散性統合部は、統合オーディオデータストリームの1層以上のレイヤにおける1以上の拡散値を、第3のグループの単層オーディオデータストリームの各々の各拡散値が統合オーディオデータストリームのレイヤのうちの1層における拡散値となるとともに、第4のグループの単層オーディオデータストリームの拡散値の組み合わせが統合オーディオデータストリームのレイヤのうちの1層における拡散値となるように生成するように構成される。
他の態様によると、統合モジュールは位置混合部(1403)をさらに備えることができる。位置混合部(1403)は、複数の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを有する第5のグループを判定するように構成される。第5のグループの単層オーディオデータストリームの各々のコスト値は、複数の単層オーディオデータストリームの第5のグループを有しない単層オーディオデータストリームの各々のコスト値よりも大きくてもよく、または、第5のグループの単層オーディオデータストリームの各々のコスト値は、複数の単層オーディオデータストリームの第5のグループを構成しない単層オーディオデータストリームの各々のコスト値よりも小さくてもよい。位置混合部(1403)は、第5のグループの単層オーディオデータストリームの各々の各位置値が統合オーディオデータストリームのレイヤのうちの1層における位置値となるように、統合オーディオデータストリームの1層以上のレイヤにおける1以上の位置値を生成するように構成される。
他の態様によると、統合モジュールは、複数の単層オーディオデータストリームの単層オーディオデータストリームのうちの1以上の位置値を操作するためのサウンドシーン適応モジュールをさらに備えていてもよい。
さらなる態様によると、サウンドシーン適応モジュールは、位置値の回転、平行移動または非線形転換を適用して複数の単層オーディオデータストリームの単層オーディオデータストリームのうちの1以上の位置値を操作するように構成される。
他の態様によると、デマルチプレクサは複数の多重分離部を備え、これらの多重分離部の各々が、入力オーディオデータストリームの1以上を多重分離するように構成されていてもよい。
さらなる態様によると、装置は、1層だけのレイヤからなる人工データストリームを生成するための人工音源生成器をさらに備えることができる。人工音源生成器は、時間ドメインで表されている圧力情報を受信するとともに、位置情報を受信するように構成される。人工音源生成器は、圧力情報を複製して複数の時間−周波数ビンについて位置情報を生成するように構成されてもよい。人工音源生成器はさらに、圧力情報に基づいて拡散情報を計算するように構成されてもよい。
他の態様によると、人工音源生成器は、時間ドメインで表されている圧力情報を時間−周波数ドメインに変換するように構成されてもよい。
さらなる態様によると、人工音源生成器は、残響を圧力情報に付加するように構成されてもよい。
他の態様では、人工的な音源をサウンドシーンに挿入してもよい。人工的な音源の挿入は、仮想現実およびビデオゲームのようなアプリケーションにおいて特に有用であり、複雑なサウンドシーンを合成音源によって事前設定することができる。テレビ会議のシナリオでは、この挿入は、単一チャネルの、例えば携帯電話を介した、ダイアリングによって通信する参加者達を組み合わせるのに有用である。
本発明の好ましい実施の形態を以下に説明する。
一実施形態による統合オーディオデータストリームを生成する装置を示す図である。 一実施形態による1以上の音源に関するオーディオデータを有するオーディオデータストリームに基づく少なくとも1つのオーディオ出力信号を生成する装置を示す図である。 一実施形態による1以上の音源に関する音源データを有するオーディオデータストリームを生成する装置を示す図である。 一実施形態によるオーディオデータストリームを示す図である。 他の実施形態によるオーディオデータストリームを示す図である。 さらに他の実施形態によるオーディオデータストリームを示す図である。 他の実施形態による1以上の音源に関する音源データを有するオーディオデータストリームを生成する装置を示す図である。 2つの音源および2つの均一な線形マイクロフォンアレイで構成されるサウンドシーンを示す図である。 一実施形態によるオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成する装置600を示す図である。 一実施形態による1以上の音源に関する音源データを有するオーディオデータストリームを生成する装置660を示す図である。 一実施形態による修正モジュールを示す図である。 他の実施形態による修正モジュールを示す図である。 一実施形態による送信機/解析部および受信機/合成部を示す図である。 一実施形態による合成モジュールを示す図である。 一実施形態による第1の合成段部を示す図である。 一実施形態による第2の合成段部を示す図である。 他の実施形態による合成モジュールを示す図である。 一実施形態による仮想マイクロフォンのオーディオ出力信号を生成する装置を示す図である。 一実施形態による仮想マイクロフォンのオーディオ出力信号を生成する装置および方法の入力および出力を示す図である。 サウンドイベント位置推定器および情報演算モジュールを備える一実施形態による仮想マイクロフォンのオーディオ出力信号を生成する装置の基本構造を示す図である。 実際の空間マイクロフォンが、各3個のマイクロフォンの均一線形アレイで図示される例示的シナリオを示す図である。 3D空間における到来方向を推定するための3Dにおける2つの空間マイクロフォンを示す図である。 現在の時間−周波数ビン(k,n)の等方性の点状音源が位置pIPLS(k,n)に位置する幾何学的配置を示す図である。 一実施形態による情報演算モジュールを示す図である。 他の実施形態による情報演算モジュールを示す。 2つの現実の空間マイクロフォン、局在化されたサウンドイベントおよび仮想の空間マイクロフォンの位置を示す図である。 一実施形態によってどのように仮想マイクロフォンに対する到来方向を取得するかを示す図である。 一実施形態による仮想マイクロフォンの視点から音のDOAを導出する可能な方法を示す図である。 一実施形態による拡散性演算部を備える情報演算ブロックを示す図である。 一実施形態による拡散性演算部を示す図である。 サウンドイベントの位置推定が可能でない場合のシナリオを示す図である。 一実施形態による仮想マイクロフォンのデータストリームを生成する装置を示す図である。 他の実施形態によるオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成する装置を示す図である。 他の実施形態による統合オーディオデータストリームを生成する装置の入力および出力を示す図である。 他の実施形態による統合オーディオデータストリームを生成する装置を示す図である。 一実施形態による統合モジュールを示す図である。 可能なサウンドシーンを示す図である。 可能なサウンドシーンを示す図である。 可能なサウンドシーンを示す図である。 実施形態による人工音源生成器を示す図である。 実施形態による人工音源生成器を示す図である。 2つのマイクロフォンアレイが直接音、壁に反射された音および拡散音を受信するシナリオを示す図である。 2つのマイクロフォンアレイが直接音、壁に反射された音および拡散音を受信するシナリオを示す図である。 2つのマイクロフォンアレイが直接音、壁に反射された音および拡散音を受信するシナリオを示す図である。
本発明の実施形態を詳細に説明する前に、仮想マイクロフォンのオーディオ出力信号を生成する装置を説明して、本発明のコンセプトに関する背景情報を提供する。
図12は、ある環境にある構成可能な仮想位置posVmicにおけるマイクロフォンの録音を模擬するためのオーディオ出力信号を生成する装置を示す。装置は、サウンドイベント位置推定器110および情報演算モジュール120を備える。サウンドイベント推定器110は、第1の方向情報di1を第1の現実の空間マイクロフォンから受信し、第2の方向情報di2を第2の現実の空間マイクロフォンから受信する。サウンドイベント位置推定器110は、環境において音波を放射する音源の位置を示す音源位置sspを推定するように構成され、サウンドイベント位置推定器110は、環境における第1の現実マイクロフォン位置pos1micに位置している第1の現実の空間マイクロフォンから供給される第1の方向情報di1に基づいて、および環境における第2の現実マイクロフォン位置に位置している第2の現実の空間マイクロフォンから供給される第2の方向情報di2に基づいて音源位置sspを推定するように構成される。情報演算モジュール120は、第1の現実の空間マイクロフォンによって録音されている第1の録音オーディオ入力信号is1に基づいて、第1の現実のマイクロフォン位置pos1micに基づいて、および仮想マイクロフォンの仮想位置posVmicに基づいてオーディオ出力信号を生成するように構成される。情報演算モジュール120は、第1の録音オーディオ入力信号is1の振幅値、絶対値または位相値を調整することによって、第1の現実の空間マイクロフォンにおいて音源によって放射された音波の到来と仮想マイクロフォンにおける音波の到来との間の第1の遅延または振幅減衰を補償することによって、第1の録音オーディオ入力信号is1を修正してオーディオ出力信号を取得することによって第1の修正オーディオ信号を生成するように構成された伝搬補償器を備える。
図13は、一実施形態による装置および方法の入力および出力を示す。2以上の現実の空間マイクロフォン111、112、・・・、11Nからの情報が装置に入力され/この方法によって処理される。この情報は、現実の空間マイクロフォンからの方向情報、例えば、到来方向(DOA)推定値だけでなく現実の空間マイクロフォンによってピックアップされるオーディオ信号を備える。オーディオ信号および到来方向推定値などの方向情報は、時間−周波数ドメインにおいて表現される。例えば、2D幾何再構成が望まれ、信号の表示について旧来的なSTFT(短時間フーリエ変換)ドメインが選択される場合、DOAをkおよびn、すなわち、周波数インデックスおよび時間インデックスに応じたアジマス角として表現することができる。
実施形態においては、空間におけるサウンドイベントの局在化確認が、仮想マイクロフォンの位置を記載することと同様に、共通の座標系における現実の空間マイクロフォンおよび仮想の空間マイクロフォンの位置および向きに基づいて行われてもよい。この情報を、図13における入力121・・・12Nおよび104によって表すことができる。入力104は、以下に述べるように、仮想の空間マイクロフォンの特性、例えば、その位置およびピックアップパターンを追加的に指定することができる。仮想の空間マイクロフォンが複数の仮想センサを備える場合、それらの位置および対応する異なるピックアップパターンが検討されることになる。
装置または対応の方法の出力は、必要な場合、1以上のサウンド信号105である。このサウンド信号105は、104によって特定されたように定義および配置された空間マイクロフォンによってピックアップされる。さらに、装置(またはむしろ方法)は、仮想の空間マイクロフォンを採用することによって推定できる空間サイド情報106に対応する出力を供給する。
図14は、2つの主処理装置であるサウンドイベント位置推定器201および情報演算モジュール202を備える一実施形態による装置を示す。サウンドイベント位置推定器201は、入力111・・・11Nで構成されるDOAに基づいて、およびDOAが演算された現実の空間マイクロフォンの位置および向きの知識に基づいて、幾何的再構成を実行することができる。サウンドイベント位置推定器205の出力は、サウンドイベントが各時間および周波数ビンについて発生するような音源の(2Dまたは3Dにおける)位置推定値を含む。第2の処理ブロック202は、情報演算モジュールである。図14の実施形態によると、第2の処理ブロック202は、仮想マイクロフォン信号および空間サイド情報を演算する。したがって、これを仮想マイクロフォン信号およびサイド情報演算ブロック202ともいう。仮想マイクロフォン信号およびサイド情報演算ブロック202は、サウンドイベント位置205を用いて、111・・・11Nからなるオーディオ信号を処理して、仮想マイクロフォンオーディオ信号105を出力する。必要であれば、ブロック202が、仮想の空間マイクロフォンに対応する空間サイド情報106を演算するようにしてもよい。以下の実施形態は、ブロック201および202がどのように動作するのかの可能性を示す。
以降において、一実施形態によるサウンドイベント位置推定器の位置推定をより詳細に説明する。
問題の次元(2Dまたは3D)および空間マイクロフォンの数に応じて、位置推定に対するいくつかの解法が可能となる。
2Dにおいて2つの空間マイクロフォンが存在する場合(最も単純な場合)、単純な三角測量が可能となる。図15は、現実の空間マイクロフォンが各3個のマイクロフォンの均一線形アレイ(ULA)によって示される例示的シナリオを示す。アジマス角a1(k,n)およびa2(k,n)で表現されるDOAは、時間−周波数ビン(k,n)について演算される。これは、非特許文献12に示されるESPRITまたは非特許文献13に示される(root)MUSICのような適切なDOA推定器を、時間−周波数ドメインに変換される圧力信号に採用することによって実現される。
図15に、2つの現実の空間マイクロフォン、ここでは2つの現実の空間マイクロフォンアレイ410および420を示す。2つの推定DOAとしてa1(k,n)およびa2(k,n)が2本の線で表され、第1の線430がDOAa1(k,n)を示し、第2の線440がDOAa2(k,n)を示す。三角測量は、各アレイの位置および向きを知る単純な幾何学的検討によって可能となる。
三角測量は、2本の線430、440が完全に平行な場合にはできない。しかし、現実の適用においては、これは非常に稀である。しかし、全ての三角測量の結果が、検討される空間におけるサウンドイベントに対する物理的または可能な位置に対応するわけではない。例えば、サウンドイベントの推定位置が遠すぎるか、さらには前提となる空間外にある場合、DOAは、使用されるモデルで物理的に解釈され得るいずれのサウンドイベントにも対応しないであろう。このような結果は、センサのノイズまたは強すぎる室内残響によってもたらされ得る。したがって、一実施形態によると、そのような望まれない結果には、情報演算モジュール202がそれらを適切に扱うように、フラグが立てられる。
図16は、サウンドイベントの位置が3D空間で推定されるシナリオを示す。適切な空間マイクロフォン、例えば、平板または3Dマイクロフォンアレイが採用される。図16では、第1の空間マイクロフォン510、例えば、第1の3Dマイクロフォンアレイ、および第2の空間マイクロフォン520、例えば、第1の3Dマイクロフォンアレイが示される。3D空間におけるDOAを、例えば、アジマス角および仰角で表現することができる。DOAを表現するのに単位ベクトル530および540を用いることができる。2本の線550および560がDOAに従って発射される。3Dにおいて、非常に信頼性の高い推定値を用いても、DOAに従って発射された2本の線550および560は交差し得ない。しかし、例えば、2本の線を接続する最短距離の中間点を選択することによって、それでも三角測量を実行することができる。
2Dの場合と同様に、三角測量は、方向の所定の組合せに対しては失敗する場合があり、または不能な結果をもたらす場合があり、それらについては、例えば、図14の情報演算モジュール202に対してフラグが立てられてもよい。
3個以上の空間マイクロフォンが存在する場合には、いくつかの解法が可能となる。例えば、上記の三角測量を、現実の空間マイクロフォンの全ての対(N=3の場合、1と2、1と3、および2と3)に対して実行してもよい。そして、得られる位置の平均が(xおよびy、および3Dが検討される場合にはzにも沿って)とられるようにすればよい。
代替的に、より複雑なコンセプトが用いられてもよい。例えば、非特許文献14に記載される確率的アプローチが適用されてもよい。
一実施形態によると、音場を、時間−周波数ドメインにおいて解析することができ、例えば、kおよびnがそれぞれ周波数インデックスkおよび時間インデックスnをそれぞれ示す短時間フーリエ変換(STFT)によって、取得することができる。STFTでは、所定のkおよびnに対する任意の位置pにおける複素圧力P(k,n)が、例えば、
を採用することによって、狭帯域の等方性点状音源によって放射された単一の球面波としてモデル化される。ここで、PIPLS(k,n)は、IPLSによってその位置pIPLS(k,n)において放射された信号である。複素ファクタγ(k,pIPLS,p)は、pIPLS(k,n)からpへの伝搬を表し、例えば、それは適切な位相および絶対値の変位を導入する。ここでは、各時間−周波数ビンにおいて、1つのIPLSのみがアクティブであるという前提が適用される。それでもなお、異なる位置にある多数の狭帯域IPLSが、単一の時間インスタンスにおいてアクティブとなることもある。
各IPLSは、直接音または個別の室内反射をモデル化する。その位置pIPLS(k,n)は、理想的には、室内に位置する実際の音源または外部に位置する鏡像音源にそれぞれ対応するものであればよい。したがって、位置pIPLS(k,n)もサウンドイベントの位置を示すことになる。
なお、「実際の音源」とは、話者または楽器のような、録音環境において物理的に存在する実際の音源をいうものとする。これに対して、「音源」、「サウンドイベント」または「IPLS」を用いる場合、所定の時間インスタンスにおいて、または所定の時間−周波数ビンにおいて、アクティブとなる有効な音源のことをいい、音源は、例えば、現実の音源または鏡像源を表すことになる。
図33a−33bに、音源を局在化するマイクロフォンアレイを示す。局在化された音源は、それらの性質に応じて、異なる物理的解釈を有する。マイクロフォンアレイが直接音を受信する場合、それらは実際の音源(例えば、話者)の位置を局在確認することができる。マイクロフォンアレイが反射を受信する場合、それらは鏡像源の位置を局在確認することができる。鏡像源も音源である。
図33aに、2つのマイクロフォンアレイ151および152が直接音を実際の音源(物理的に存在する音源)153から受信するシナリオを示す。
図33bに、2つのマイクロフォンアレイ161および162が反射音を受信するシナリオを示す。音は、壁によって反射されたものである。この反射のために、マイクロフォンアレイ161および162は、音が来たようにみえる位置であってスピーカ163の位置とは異なる位置を、鏡像源165の位置において局在確認する。
図33aの実際の音源153および鏡像源165の双方が音源となる。
図33cは、2つのマイクロフォンアレイ171および172が拡散音を受信し、音源を局在確認することができないシナリオを示す。
単一波のモデルは、本源がW−disjoint orthogonality(WDO)の条件を満たすこと、すなわち、時間−周波数の重なりが充分に小さいことを考慮すると、適度に反射する環境に対してのみ正確である。これは、例えば非特許文献11に示されるように、会話信号に対して通常は正しい。
一方で、このモデルは、他の環境に対しては良い推定値を与え、したがってそれらの環境には適用可能である。
以降において、一実施形態による位置pIPLS(k,n)の推定を説明する。所定の時間−周波数ビンにおいてアクティブなIPLSの位置pIPLS(k,n)、およびそれゆえ時間−周波数ビンにおけるサウンドイベントの推定は、少なくとも2つの異なる観察点において測定された音の到来方向(DOA)に基づいて三角測量によって推定される。
図17は、現在の時間−周波数スロット(k,n)のIPLSが既知の位置pIPLS(k,n)に位置する場合の幾何状態を示す。必要なDOA情報を判定するために、既知の幾何、位置および向きの2つの現実の空間マイクロフォン、ここでは、位置610および620にそれぞれ配置される2つのマイクロフォンアレイが採用される。ベクトルpおよびpは、位置610および620をそれぞれ指す。アレイの向きは、単位ベクトルcおよびcによって規定される。音のDOAは、例えば、DirAC解析(非特許文献2および非特許文献3参照)によって与えられるDOA推定アルゴリズムを用いて、各(k,n)について位置610および620において判定される。これによって、マイクロフォンアレイの視点に関する第1の視点単位ベクトルe pov(k,n)および第2の視点単位ベクトル2pov(k,n)(双方とも図17には不図示である)が、DirAC解析の出力として与えられる。例えば、2Dで演算する場合、第1の視点単位ベクトルは以下のようになる。
ここで、φ(k,n)は、図17に示すように、第1のマイクロフォンアレイにおいて推定されたDOAのアジマス角を示す。原点におけるグローバル座標系に関して、対応するDOA単位ベクトルe(k,n)およびe(k,n)を、以下の数式を適用することによって演算することができる。
ここで、Rは座標変換行列であり、例えば、2Dにおいて演算する場合、
である。c=[c1、x,c1、yである。例えば、三角測量を実行するために、方向ベクトルd(k,n)およびd(k,n)を以下のように計算することができる。
ここで、d(k,n)=||d(k,n)||およびd(k,n)=||d(k,n)||は、IPLSと2つのマイクロフォンアレイとの未知数の距離である。以下の数式
をd(k,n)について解くことができる。最後に、IPLSの位置pIPLS(k,n)が、
によって得られる。
他の実施形態では、式(6)をd(k,n)について解くことができ、pIPLS(k,n)は同様にd(k,n)を採用することによって演算される。
式(6)は、e(k,n)およびe(k,n)が平行でない限りは、2Dで演算する場合に常に解を与える。しかし、3以上のマイクロフォンアレイを使用する場合、または3Dで演算する場合、方向ベクトルdが交差しない場合には解は得られない。一実施形態によると、この場合、全ての方向ベクトルdに最も近い点が演算され、その結果をIPLSの位置として使用することができる。
一実施形態では、全ての観察点p、p、・・・は、IPLSによって放射された音が同じ時間的ブロックnに入るように配置されるべきである。この要件は、観察点のうちの任意の2点間の距離Δが、
よりも小さい場合に簡単に満たされる。ここで、nFFTはSTFTのウインドウ長であり、0≦R<1のRは連続時間フレーム間の重なりを指定し、fはサンプリング周波数である。例えば、50%の重なり(R=0.5)で48kHzにおける1024ポイントのSTFTについて、上記要件を満たすアレイ間の最大間隔は、Δ=3.65mとなる。
以降において、一実施形態による情報演算モジュール202、例えば、仮想マイクロフォン信号およびサイド情報演算モジュールをより詳細に説明する。
図18に、一実施形態による情報演算モジュール202の概略図を示す。情報演算部は、伝搬補償器500、コンバイナ510およびスペクトル重み付け部520を備える。情報演算モジュール202は、サウンドイベント位置推定器によって推定された音源位置推定値ssp、現実の空間マイクロフォンの1以上によって録音された1以上のオーディオ入力信号、現実の空間マイクロフォンの1以上の位置posRealMic、および仮想マイクロフォンの仮想位置posVmicを受信する。それは、仮想マイクロフォンのオーディオ信号を示すオーディオ出力信号osを出力する。
図19に、他の実施形態による情報演算モジュールを示す。図19の情報演算モジュールは、伝搬補償器500、コンバイナ510およびスペクトル重み付け部520を備える。伝搬補償器500は、伝搬パラメータ演算モジュール501および伝搬補償モジュール504を備える。コンバイナ510は、合成ファクタ演算モジュール502および合成モジュール505を備える。スペクトル重み付け部520は、スペクトル重み付け部503、スペクトル重み付け適用モジュール506および空間サイド情報演算モジュール507を備える。
仮想マイクロフォンのオーディオ信号を演算するために、幾何情報、例えば、現実の空間マイクロフォン121・・・12Nの位置および向き、仮想の空間マイクロフォン104の位置、向きおよび特性並びにサウンドイベント205の位置推定値が情報演算モジュール202に、特に、伝搬補償器500の伝搬パラメータ演算モジュール501に、コンバイナ510の合成ファクタ演算モジュール502に、およびスペクトル重み付け部520のスペクトル重み付け演算部503に入力される。伝搬パラメータ演算モジュール501、合成ファクタ演算モジュール502およびスペクトル重み付け演算部503は、伝搬補償モジュール504、合成モジュール505およびスペクトル重み付け適用モジュール506におけるオーディオ信号111・・・11Nの修正で使用されるパラメータを演算する。
情報演算モジュール202において、オーディオ信号111・・・11Nは、まず、サウンドイベント位置と現実の空間マイクロフォンとの間の異なる伝搬長によって与えられる効果を補償するように修正されることになる。そして、信号は、例えば、信号−ノイズ比(SNR)を改善するように合成されてもよい。最後に、結果として得られる信号は、任意の距離依存ゲイン関数だけでなく、仮想マイクロフォンの指向性ピックアップパターンを考慮に入れるようにスペクトル的に重み付けされてもよい。以下に、これらの3つのステップをより詳細に説明する。
ここで、伝搬補償をより詳細に説明する。図20の上側部分に、2つの現実の空間マイクロフォン(第1のマイクロフォンアレイ910および第2のマイクロフォンアレイ920)、時間−周波数ビン(k,n)についての局在化されたサウンドイベントの位置930および仮想の空間マイクロフォンの位置940を示す。
図20の下側部分は時間軸を示す。サウンドイベントが時刻t0で放射されてから現実および仮想の空間マイクロフォンに伝搬するものとする。振幅だけでなく到来の時間遅延も時間とともに変化するので、伝搬距離が遠くなると、振幅は弱くなり、到来の時間遅延は長くなる。
この2つの現実のアレイにおける信号は、これらの相対遅延Dt12が小さい場合に限り比較可能となる。そうでない場合には、これらの2つの信号の一方が時間的に再整列されて相対遅延Dt12を補償し、おそらくは、拡縮されて異なる減衰を補償する必要がある。
仮想のマイクロフォンにおける到来と現実のマイクロフォンアレイにおける(現実の空間マイクロフォンの一方における)到来との間の遅延を補償することは、サウンドイベントの局在化とは無関係な遅延を変化させ、多くのアプリケーションに対して余計なものとなる。
図19に戻り、伝搬パラメータ演算モジュール501は、遅延を、各現実の空間マイクロフォンについて、および各サウンドイベントについて補正されるように演算するように構成される。所望の場合には、それは異なる振幅減衰を補償することが考慮されるようにゲインファクタも演算する。
伝搬補償モジュール504は、これに従い、この情報を用いてオーディオ信号を修正するように構成される。信号が(フィルタバンクのタイムウインドウと比べて)少量の時間だけシフトされる場合には、単純な位相回転で足りる。遅延が大きい場合には、より複雑な実施構成が必要となる。
伝搬補償モジュール504の出力は、元の時間−周波数ドメインで表現される修正されたオーディオ信号である。
以降において、一実施形態による仮想マイクロフォンに対する伝搬補償の具体的な推定を、第1の現実の空間マイクロフォンの位置610および第2の現実の空間マイクロフォンの位置620を特に示す図17を参照して説明する。
ここに説明する実施形態では、少なくとも第1の録音されたオーディオ入力信号、例えば、現実の空間マイクロフォン(例えば、マイクロフォンアレイ)のうちの少なくとも1つの圧力信号、例えば、第1の現実の空間マイクロフォンの圧力信号が利用可能であるものとする。検討されるマイクロフォンを基準マイクロフォンといい、その位置を基準位置prefといい、その圧力信号を基準圧力信号Pref(k,n)という。しかし、伝搬補償は、1つの圧力信号に対してだけでなく、現実の空間マイクロフォンの複数または全ての圧力信号に対して行われてもよい。
IPLSによって放射される圧力信号PIPLS(k,n)とprefに位置する基準マイクロフォンの基準圧力信号Pref(k,n)との関係は、式(9)によって表現することができる。
一般に、複素ファクタγ(k,p,p)は、球面波のその原点からのpからpへの伝搬によってもたらされる位相回転および振幅減衰を表す。しかし、現実のテストでは、γにおける振幅減衰のみを検討すれば、位相回転も検討する場合と比べて大幅に少ないアーティファクトを持つ仮想マイクロフォン信号で、もっともらしい印象が導かれることが示された。
空間の所定の点において測定され得る音エネルギーは、音源からの、図6では音源の位置pIPLSからの、距離rに大きく依存する。多くの状況において、この依存性は、公知の物理的原理、例えば、点状音源の遠方場における音圧の1/r減衰を用いて充分な精度でモデル化されることができる。基準マイクロフォンの距離、例えば、音源からの第1の現実のマイクロフォンの距離が既知である場合、そして音源からの仮想マイクロフォンの距離も既知である場合には、仮想マイクロフォンの位置における音エネルギーが、基準マイクロフォン、例えば、第1の現実の空間マイクロフォンの信号およびエネルギーから推定されることができる。これは、仮想マイクロフォンの出力信号は、適切なゲインを基準圧力信号に適用することによって得られることを意味する。
第1の現実の空間マイクロフォンが基準マイクロフォンであり、pref=pであるものとする。図17では、仮想マイクロフォンがpに位置する。図17における幾何状態が詳細に把握されているので、基準マイクロフォン(図17では、第1の現実の空間マイクロフォン)とIPLSとの距離d(k,n)=||d(k,n)||は、仮想マイクロフォンとIPLSとの距離s(k,n)=||s(k,n)||、すなわち、
とともに容易に判定される。
仮想マイクロフォンの位置における音圧P(k,n)は、式(1)と式(9)を合成することによって演算され、
となる。
上述したように、いくつかの実施形態では、ファクタγは、伝搬に起因する振幅減衰だけを考慮するものである。音圧が1/rで減少するものとすると、
となる。
式(1)のモデルがあり、例えば、直接音のみが存在する場合には、式(12)が絶対値情報を正確に再構成することができる。しかし、純粋な拡散音領域の場合、例えば、モデルの前提が成り立たない場合、提示された方法は、仮想マイクロフォンをセンサアレイの位置から離したときの信号の内在的な残響抑圧をもたらす。実際に、上述したように、拡散音領域では、ほとんどのIPLSが2つのセンサアレイの近くに局在化されることが予想される。したがって、仮想マイクロフォンをこれらの位置から遠ざけるときに、図17において距離s=||s||を増加気味にする。したがって、式(11)による重み付けを適用する場合、基準圧力の大きさは減少する。これに対応して、仮想マイクロフォンを実際の音源に近づけると、直接音に対応する時間−周波数ビンは、オーディオ信号全体があまり拡散しない状態で知覚されるように増幅される。式(12)における規則を調整することによって、直接音の増幅および拡散音の抑制を意のままに制御することができる。
第1の現実の空間マイクロフォンの録音されたオーディオ入力信号(例えば、圧力信号)に伝搬補償を実行することによって、第1の修正オーディオ信号が得られる。
実施形態においては、第2の現実の空間マイクロフォンの録音された第2のオーディオ入力信号(第2の圧力信号)に伝搬補償を実行することによって、第2の修正オーディオ信号が得られてもよい。
他の実施形態では、さらなる現実の空間マイクロフォンの録音されたさらなるオーディオ入力信号(さらなる圧力信号)に伝搬補償を実行することによって、さらなる修正オーディオ信号が得られてもよい。
ここで、一実施形態による図19におけるブロック502とブロック505内の合成について、より詳細に説明する。異なる伝搬経路を補償して2以上の修正オーディオ信号を得るために、複数の異なる現実の空間マイクロフォンからの2以上のオーディオ信号が修正されたものとする。異なる伝搬経路を補償するために異なる現実の空間マイクロフォンからのオーディオ信号が一旦修正されると、それらが組み合わされてオーディオ品質を向上することができる。そのようにすることで、例えば、SNRが増加され、または残響が低減されることができる。
合成についての可能な解法としては、以下がある:
−重み付け平均、例えば、SNR、仮想マイクロフォンまでの距離、または現実の空間マイクロフォンによって推定された拡散性を考慮して。従来的な解法、例えば、最大比合成(MRC)または等ゲイン合成(EQC)を採用できる。
−合成信号を得るための修正オーディオ信号の一部または全部の線形合成。修正オーディオ信号が線形合成において重み付けされて合成信号を得ることができる。または、
−選択。例えば、SNR、距離または拡散性などに応じて、1つの信号のみが用いられる。
モジュール502の役割は、適用可能であれば、モジュール505で実行される合成のためのパラメータを演算することである。
ここで、実施形態によるスペクトル重み付けを詳細に説明する。これについては、図19のブロック503および506が参照される。この最後のステップにおいて、合成から、または入力オーディオ信号の伝搬補償から得られるオーディオ信号は、入力104によって指定されるような仮想の空間マイクロフォンの空間的特性に応じて、および/または(205において与えられる)再構成された幾何状態に応じて、時間−周波数ドメインにおいて重み付けされる。
各時間−周波数ビンについて、幾何的再構成によって、図21に示すような仮想マイクロフォンに対するDOAを容易に得ることができる。またさらに、仮想マイクロフォンとサウンドイベントの位置との距離も容易に演算できる。
そして、時間−周波数ビンに対する重みが、所望される仮想マイクロフォンのタイプを考慮して演算される。
指向性マイクロフォンの場合、スペクトル重み付けを、予め定義されたピックアップパターンに応じて演算することができる。例えば、一実施形態によると、カージオイドマイクロフォンが、関数g(θ)、
g(θ)=0.5+0.5cos(θ)
によって定義されたピックアップパターンを有していてもよい。なお、θは、仮想の空間マイクロフォンを見る方向と、仮想マイクロフォンの視点からの音のDOAとのなす角である。
他の可能性は芸術的な(非物理的な)減衰関数である。あるアプリケーションでは、仮想マイクロフォンから離れたサウンドイベントを、自由領域伝搬を特徴付けるものよりも大きいファクタで抑制することが望ましいことがある。この目的のため、いくつかの実施形態は、仮想マイクロフォンとサウンドイベントとの距離に依存する追加の重み付け関数を導入する。一実施形態では、仮想マイクロフォンからの所定の距離内(例えば、メートルで)のサウンドイベントのみがピックアップされるべきである。
仮想マイクロフォンの指向性に関して、任意の指向性パターンを仮想マイクロフォンに対して適用できる。そのようにすることで、例えば、ある音源を複雑なサウンドシーンから分離することができる。
音のDOAは、仮想マイクロフォンの位置p内で演算され、
仮想マイクロフォンに対する任意の指向性を実現できる。ここで、cは仮想マイクロフォンの指向を記述する単位ベクトルである。例えば、P(k,n)は合成信号または伝搬補償された修正オーディオ信号を示すものとすると、数式:
は、カージオイド指向性を持つ仮想マイクロフォンの出力を計算する。このように潜在的に生成され得る指向パターンは、位置推定の精度に依存する。
実施形態では、1以上の現実の非空間的なマイクロフォン、例えば、無指向性マイクロフォンまたはカージオイドのような指向性マイクロフォンが、現実の空間マイクロフォンに加えてサウンドシーンに配置されて、図8に示す仮想マイクロフォン信号105のサウンド品質をさらに向上する。これらのマイクロフォンは何らの幾何的情報を収集するためにも使用されず、よりクリーンなオーディオ信号を供給するためだけに使用される。これらのマイクロフォンは、空間マイクロフォンよりも音源の近くに配置される。この場合、一実施形態によると、現実の非空間マイクロフォンのオーディオ信号およびそれらの位置は単に、現実の空間マイクロフォンのオーディオ信号の代わりの処理のために、図19に示す伝搬補償モジュール504に入力される。そして、伝搬補償は、1以上の非空間マイクロフォンの位置に関して、1以上の非空間マイクロフォンの録音されたオーディオ信号に対して実行される。これによって、一実施形態が、追加の非空間マイクロフォンを用いて実現される。
さらなる実施形態では、仮想マイクロフォンの空間サイド情報の演算が実現される。マイクロフォンの空間サイド情報106を演算するために、図19の情報演算モジュール202は、空間サイド情報演算モジュール507を備え、それは、音源の位置205並びに仮想マイクロフォンの位置、指向および特性104を入力として受信するように構成される。ある実施形態では、演算される必要があるサイド情報106に応じて、仮想マイクロフォンのオーディオ信号105を、空間サイド情報演算モジュール507への入力としても考慮することができる。
空間サイド情報演算モジュール507の出力は、仮想マイクロフォンのサイド情報106である。このサイド情報は、例えば、仮想マイクロフォンの視点から各時間−周波数ビン(k,n)について音のDOAまたは拡散性であればよい。他の可能なサイド情報として、例えば、仮想マイクロフォンの位置で測定されたであろうアクティブな音の強度ベクトルIa(k,n)もあり得る。ここで、これらのパラメータがどのように導出されるかを説明する。
一実施形態によると、仮想の空間マイクロフォンに対するDOA推定が実現される。情報演算モジュール120は、仮想マイクロフォンの位置ベクトルに基づいて、および図22に示されるサウンドイベントの位置ベクトルに基づいて、仮想マイクロフォンの到来方向を空間サイド情報として推定するように構成される。
図22は、仮想マイクロフォンの視点から音のDOAを導出する可能な方法を示す。図19におけるブロック205によって与えられるサウンドイベントの位置は、各時間−周波数ビン(k,n)について、サウンドイベントの位置ベクトルである位置ベクトルr(k,n)で記述することができる。同様に、図19における入力104として与えられる仮想マイクロフォンの位置は、仮想マイクロフォンの位置ベクトルである位置ベクトルs(k,n)で記述することができる。仮想マイクロフォンを見る方向はベクトルv(k,n)によって記述することができる。仮想マイクロフォンに対するDOAは、a(k,n)によって与えられる。これは、vと音伝搬経路h(k,n)とのなす角を表す。h(k,n)は、数式:
を用いることによって演算される。
ここで、所望のDOAa(k,n)は、各(k,n)について、例えば、h(k,n)とv(k,n)の内積の定義、すなわち、
によって演算できる。
他の実施形態では、情報演算モジュール120は、仮想マイクロフォンの位置ベクトルに基づいて、および図22に示されるサウンドイベントの位置ベクトルに基づいて、仮想マイクロフォンにおけるアクティブな音の強度を空間サイド情報として推定するように構成されていてもよい。
上記に定義されるDOAa(k,n)から、仮想マイクロフォンの位置におけるアクティブな音の強度Ia(k,n)を導出することができる。これについて、図19における仮想マイクロフォンのオーディオ信号105が無指向性マイクロフォンの出力に対応するとした場合、例えば、仮想マイクロフォンは無指向性マイクロフォンであるものとする。さらに、図22における視る方向vは座標系のx軸に平行であるものとする。所望のアクティブな音の強度ベクトルIa(k,n)は、仮想マイクロフォンの位置を通るエネルギーの総流量を記述するので、Ia(k,n)は、数式:
に従って演算される。なお、[]は転置ベクトルを示し、rhoは空気の密度であり、P(k,n)は仮想の空間マイクロフォンによって測定された音圧であり、例えば、図19におけるブロック506の出力105である。
一般座標系で表現されるがそれでも仮想マイクロフォンの位置においてアクティブな強度ベクトルが算出されるべき場合、以下の数式が適用されてもよい。
音の拡散性は、所与の時間−周波数スロットにおいて音場がどれだけ拡散しているかを表現する(例えば、非特許文献2参照)。拡散性は値Ψによって表現され、ここで、0≦Ψ≦1である。拡散性1は、音場の合計音場エネルギーが完全に拡散していることを示す。この情報は、例えば、空間音の再生において重要である。従来的には、拡散性はマイクロフォンアレイが配置される空間内の特定の点で演算される。
一実施形態によると、拡散性は、サウンドシーンにおける任意の位置に意のままに配置することができる仮想マイクロフォン(VM)に対して生成されたサイド情報に対する追加のパラメータとして演算されてもよい。これにより、仮想マイクロフォンの仮想位置におけるオーディオ信号以外に拡散性も計算する装置は、サウンドシーンにおける任意の点についてDirACストリーム、すなわち、オーディオ信号、到来方向および拡散性を生成できるので、仮想DirACフロントエンドとしてみることができる。DirACストリームは、任意のマルチスピーカ設定においてさらに処理され、記憶され、送信され、および再生されることができる。この場合、視聴者は、あたかも彼または彼女が仮想マイクロフォンによって指定される位置にいるかのように、そしてその指向によって特定される方向を見ているかのようにサウンドシーンを体験する。
図23は、仮想マイクロフォンにおける拡散性を演算するための拡散性演算部801を備える一実施形態による情報演算ブロックを示す。情報演算ブロック202は、図14の入力に加えて、現実の空間マイクロフォンにおける拡散性も含む入力111−11Nを受信するように構成される。Ψ(SM1)−Ψ(SMN)がこれらの値を示すものとする。これらの追加的な入力は情報演算モジュール202に入力される。拡散演算部801の出力103は、仮想マイクロフォンの位置において演算される拡散性パラメータである。
一実施形態の拡散性演算部801を、より詳細な図24において説明する。一実施形態によると、N個の空間マイクロフォンの各々における直接および拡散音のエネルギーが推定される。そして、IPLSの位置についての情報および空間的な仮想マイクロフォンの位置についての情報を用いて、仮想マイクロフォンの位置におけるこれらのエネルギーのN個の推定値が得られる。最後に、推定値が合成されて推定精度を向上することができ、仮想マイクロフォンにおける拡散性パラメータを容易に演算することができる。
dir (SM1)からEdir (SMN)およびEdiff (SM1)からEdiff (SMNは、エネルギー解析部810によって演算されたN個の空間マイクロフォンの直接および拡散音のエネルギーの推定値を示す。i番目の空間マイクロフォンについて、Pが複素圧力信号でありΨが拡散性である場合、エネルギーを、例えば、以下の数式によって演算することができる。
拡散音のエネルギーは、全ての位置で等しくなるべきであり、したがって、仮想マイクロフォンの拡散音エネルギーEdiff (VM)の推定値は、例えば、数式:
に従って、例えば、拡散性合成部820において、単に、Edir (SM1)からEdir (SMN)までの平均をとることによって算出される。
推定値Edir (SM1)からEdir (SMN)までのより効果的な合成は、推定器の分散を考慮することによって、例えば、SNRを考慮することによって、実行される。
直接音のエネルギーは、伝搬に起因して音源までの距離に依存する。したがって、これを考慮に入れて、Edir (SM1)からEdir (SMN)までを修正することができる。これは、例えば、直接音伝搬調整部830によって実行されることができる。例えば、直接音領域のエネルギーが距離の二乗にわたって1減衰するとした場合、i番目の空間マイクロフォンについての仮想マイクロフォンにおける直接音に対する推定値を、数式:
によって計算することができる。
拡散性合成部820と同様に、異なる空間マイクロフォンにおいて得られた直接音エネルギーの推定値を、例えば直接音合成部840によって、合成することができる。結果はEdir (VM)であり、例えば、仮想マイクロフォンの直接音エネルギーに対する推定値となる。仮想マイクロフォンの拡散性Ψ(VM)は、例えば拡散性副計算器850によって、数式:
により演算することができる。
上述したように、場合によっては、例えば、到来方向の誤った推定の場合において、サウンドイベント位置推定器によって実行されるサウンドイベントの位置推定は失敗する。図25はそのようなシナリオを示す。これらの場合、異なる空間マイクロフォンで推定され、入力111−11Nとして受信された拡散性パラメータにかかわらず、仮想マイクロフォンの拡散性103は、空間的にコヒーレントな再生ができないので、1(すなわち、完全に拡散)に設定されてもよい。
さらに、DOA推定値の信頼性をN個の空間マイクロフォンにおいて考慮することができる。これは、例えば、DOA推定器の分散またはSNRの観点で表現され得る。そのような情報を拡散性副計算器850によって考慮することができるので、DOA推定値に信頼性がない場合にVM拡散性103を人工的に増加することができる。実際に、結果として、位置推定値205にも信頼性がなくなる。
図2aは、一実施形態による、1以上の音源に関するオーディオデータを備えるオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成する装置150を示す。
装置150は、オーディオデータを備えるオーディオデータストリームを受信するための受信機160を備える。オーディオデータは、1以上の音源の各々についての1以上の圧力値を含む。さらに、オーディオデータは、音源の各々について、音源の1つの位置を示す1以上の位置値を含む。さらに、装置は、オーディオデータストリームのオーディオデータの1以上の圧力値のうちの少なくとも1つに基づいて、およびオーディオデータストリームのオーディオデータの1以上の位置値のうちの1つに基づいて、少なくとも1つのオーディオ出力信号を生成するための合成モジュール170を備える。オーディオデータは、複数の時間−周波数ビンのうちのある時間−周波数ビンについて定義される。音源の各々について、少なくとも1つの圧力値はオーディオデータで構成され、少なくとも1つの圧力値は、例えば、音源から発生する放射音波に関する圧力値であればよい。圧力値はオーディオ信号の値、例えば、仮想マイクロフォンのオーディオ出力信号を生成する装置によって生成されたオーディオ出力信号の圧力値であればよく、仮想マイクロフォンは音源の位置に配置される。
したがって、図2aは、上記オーディオデータストリームを受信または処理するために採用され得る装置150を示す。すなわち、装置150は、受信機/合成側で採用される。オーディオデータストリームは、複数の音源の各々についての1以上の圧力値および1以上の位置値を備えるオーディオデータを有する。すなわち、圧力値および位置値の各々は、録音されるオーディオシーンの1以上の音源のうちの特定の音源に関連している。これは、位置値が、録音するマイクロフォンではなく音源の位置を示すことを意味する。圧力値について、これは、オーディオデータストリームが音源の各々についての1以上の圧力値を有していること、すなわち、圧力値が、現実の空間マイクロフォンの録音に関係する代わりに音源に関係するオーディオ信号であることを意味する。
一実施形態によると、受信機160はオーディオデータを備えるオーディオデータストリームを受信するように構成されていればよく、オーディオデータは音源の各々についての1以上の拡散値をさらに備える。合成モジュール170は、1以上の拡散値のうちの少なくとも1つに基づいて少なくとも1つのオーディオ出力信号を生成するように構成されていればよい。
図2bは、一実施形態による、1以上の音源に関する音源データを備えるオーディオデータストリームを生成する装置200を示す。オーディオデータストリームを生成する装置200は、少なくとも1つの空間マイクロフォンによって録音される少なくとも1つのオーディオ入力信号に基づいて、および少なくとも2つの空間マイクロフォンによって供給されるオーディオサイド情報に基づいて、音源データを判定するための判定器210を備える。さらに、装置200は、オーディオデータストリームが音源データを備えるようにオーディオデータストリームを生成するためのデータストリーム生成器220を備える。音源データは音源の各々についての1以上の圧力値を含む。また、音源データは、音源の各々についての音源位置を示す1以上の位置値をさらに含む。さらに、音源データは、複数の時間−周波数ビンのうちのある時間−周波数ビンについて定義される。
装置200によって生成されるオーディオデータストリームは、その後、送信される。したがって、装置200は、解析/送信機側で採用されることになる。オーディオデータストリームは、複数の音源の各々についての1以上の圧力値および1以上の位置値を含むオーディオデータを有する。すなわち、圧力値および位置値の各々は、録音されるオーディオシーンの1以上の音源のうちの特定の音源に関係する。これは、位置値に関して、位置値が、録音するマイクロフォンではなく音源の位置を示すことを意味する。
さらなる実施形態では、判定器210は、少なくとも1つの空間マイクロフォンによる拡散性情報に基づいて音源データを判定するように構成される。データストリーム生成器220は、オーディオデータストリームが音源データを備えるようにオーディオデータストリームを生成するように構成されていればよい。音源データは、音源の各々についての1以上の拡散値をさらに含む。
図3aは、一実施形態によるオーディオデータストリームを示す。オーディオデータストリームは、1つの時間−周波数ビンにおいてアクティブとなっている2つの音源に関するオーディオデータを有する。特に、図3aは、時間−周波数ビン(k,n)について送信されるオーディオデータを示し、ここで、kは周波数インデックスを示し、nは時間インデックスを示す。オーディオデータは、第1の音源の圧力値P1、位置値Q1および拡散値Ψ1を含む。位置値Q1は、第1の音源の位置を示す3つの座標値X1、Y1およびZ1を含む。さらに、オーディオデータは、第2の音源の圧力値P2、位置値Q2および拡散値Ψ2を含む。位置値Q2は、第2の音源の位置を示す3つの座標値X2、Y2およびZ2を含む。
図3bは、他の実施形態によるオーディオストリームを示す。ここでも、オーディオデータは、第1の音源の圧力値P1、位置値Q1および拡散値Ψ1を含む。位置値Q1は、第1の音源の位置を示す3つの座標値X1、Y1およびZ1を含む。さらに、オーディオデータは、第2の音源の圧力値P2、位置値Q2および拡散値Ψ2を含む。位置値Q2は、第2の音源の位置を示す3つの座標値X2、Y2およびZ2を含む。
図3cは、オーディオデータストリームの他の説明を提供する。オーディオデータストリームは、幾何に基づく空間オーディオ符号化(GAC)情報を与えるので、これを「幾何に基づく空間オーディオ符号化ストリーム」または「GACストリーム」ともいう。オーディオデータストリームは、1以上の音源、例えば、1以上の等方性点状音源(IPLS)に関する情報を含む。既に上述したように、GACストリームは、検討される時間−周波数ビンの周波数インデックスkおよび時間インデックスnに対して、以下の信号を含む:
・P(k,n):音源、例えば、IPLSの複素圧力。この信号は、潜在的に、直接音(IPLS自体から発生する音)および拡散音を含む。
・Q(k,n):音源、例えば、IPLSの位置(例えば、3Dにおけるカーテシアン座標):位置は、例えば、カーテシアン座標X(k,n)、Y(k,n)、Z(k,n)を含む。
・IPLSの拡散性:Ψ(k,n)。このパラメータは、P(k,n)で構成される拡散音に対する直接音のパワー比に関連する。P(k,n)=Pdir(k,n)+Pdiff(k,n)の場合、拡散性を表現する一つの可能性は、Ψ(k,n)=|Pdiff(k,n)|/|P(k,n)|となる。|P(k,n)|が既知である場合、他の等価な表現、例えば、直接−拡散比(DDR)Γ=|Pdir(k,n)|/|Pdiff(k,n)|が可能となる。
既に述べたように、kおよびnはそれぞれ周波数インデックスおよび時間インデックスを示す。所望の場合でかつ解析によってそれが可能な場合、2以上のIPLSを、所与の時間−周波数スロットで表現することができる。これは、M層の多レイヤとして図3cに示されるので、i番目のレイヤに対する(すなわち、i番目のIPLSに対する)圧力信号は、P(k,n)で示される。便宜上、IPLSの位置は、ベクトルQ(k,n)=[X(k,n),Y(k,n),Z(k,n)]として表すことができる。現状技術とは異なり、GACストリームにおける全てのパラメータは、1以上の音源に対して、例えば、IPLSに対して表されるので、録音位置との独立性を実現できる。図3aおよび3bと同様に図3cにおいても、図における全ての数量が時間−周波数ドメインにおいて検討される。(k,n)の表記は説明の簡略化のため省略され、例えば、PはP(k,n)を意味し、具体的にはP=P(k,n)である。
以降において、一実施形態によるオーディオデータストリームを生成する装置をより詳細に説明する。図2bの装置のように、図4の装置は、判定器210、および判定器210に類似するデータストリーム生成器220を備える。判定器はオーディオ入力データを解析してどのデータストリーム生成器がオーディオデータストリームを生成するのかに基づいて音源を判定するので、判定器およびデータストリーム生成器を併せて、「解析モジュール」ということができる(図4における解析モジュール410参照)。
解析モジュール410は、N個の空間マイクロフォンの録音からGACストリームを演算する。所望のレイヤ数M(例えば、特定の時間−周波数ビンについて情報がオーディオデータストリームで構成されるべき音源の数)、空間マイクロフォンのタイプおよび数Nに応じて、解析のための異なる方法が考えられる。いくつかの例が以降に与えられる。
第1の例として、時間−周波数スロットあたりの、1つの音源、例えば、1つのIPLSに対するパラメータ推定が検討される。M=1の場合、仮想の空間マイクロフォンが音源の位置、例えば、IPLSの位置に配置される、仮想マイクロフォンのオーディオ出力信号を生成する装置について上述したコンセプトによって、GACストリームを容易に得ることができる。これにより、圧力信号を対応の位置推定値および潜在的に拡散性とともにIPLSの位置において計算することが可能となる。これらの3つのパラメータはGACストリームにおいてともにグループ化され、送信または記憶される前に、図8におけるモジュール102によってさらに操作されることができる。
例えば、判定器は、仮想マイクロフォンのオーディオ出力信号を生成する装置のサウンドイベントの位置推定について提案されたコンセプトを採用することによって、音源の位置を判定することができる。さらに、判定器は、オーディオ出力信号を生成する装置を備え、仮想マイクロフォンの位置として判定された音源位置を用いて音源の位置における圧力値(例えば、生成されるオーディオ出力信号の値)および拡散性を算出することができる。
特に、例えば、図4における判定器210は、圧力信号、対応する位置推定値および対応する拡散性を判定するように構成される一方、データストリーム生成器220は、算出された圧力信号、位置推定値および拡散性に基づいてオーディオデータストリームを生成するように構成される。
他の例として、時間−周波数スロットあたりの、2つの音源、例えば、2つのIPLSについてのパラメータ推定値が検討される。解析モジュール410が、時間−周波数ビンあたりの2つの音源を推定する場合、現状技術の推定器に基づいて以下のコンセプトを用いることができる。
図5に、2つの音源および2つの均一線形マイクロフォンアレイで構成されるサウンドシーンを示す。非特許文献24に示されるESPRITを例に説明する。
ESPRIT(非特許文献24)が各アレイに個別に採用されて、各アレイにおいて各時間−周波数ビンについて2つのDOA推定値を得ることができる。対形成の両義性のために、音源の位置について2つの可能な解が生じる。図5から分かるように、2つの可能な解が(1,2)および(1’,2’)で与えられる。この両義性を解消するために、以下の解法を適用することができる。各音源で放射された信号は、推定される音源位置の方向に向けられたビーム形成器を用いて、適切なファクタを適用して伝搬を補償すること(例えば、音波によって経験される減衰の逆数を乗ずること)によって推定される。これは、可能な解の各々について、各アレイにおける各音源に対して実行されることができる。そして、音源(i,j)の各対について、

として推定誤差を定義できる。なお、(i,j)∈{(1,2),(1’,2’)}であり(図5参照)、Pi,jは音源iからアレイrによって見られる補償された信号パワーの略である。誤差は、実際の音源対に対して最小である。対形成の問題が解消され、正しいDOA推定値が演算されると、これらは、対応する圧力信号および拡散性推定値とともにGACストリームにグループ化される。圧力信号および拡散推定値を、1つの音源に対するパラメータ推定について既に上述した同様の方法を用いて得ることができる。
図6aは、一実施形態によるオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成する装置600を示す。装置600は、受信機610および合成モジュール620を備える。受信機610は、少なくとも1つの音源に関して、オーディオデータの圧力値の少なくとも1つ、オーディオデータの位置値の少なくとも1つ、またはオーディオデータの拡散値の少なくとも1つを修正することによって、受信オーディオデータストリームのオーディオデータを修正する修正モジュール630を備える。
図6bは、一実施形態による1以上の音源に関する音源データを備えるオーディオデータストリームを生成する装置660を示す。オーディオデータストリームを生成する装置は、判定器670、データストリーム生成器680、さらには音源の少なくとも1つに関してオーディオデータの圧力値の少なくとも1つ、オーディオデータの位置値の少なくとも1つまたはオーディオデータの拡散値の少なくとも1つを修正することによってデータストリーム生成器によって生成されたオーディオデータストリームを修正する修正モジュール690を備える。
図6aの修正モジュール610は受信機/合成側に採用されるが、図6bの修正モジュール660は、送信機/分析側に採用される。
修正モジュール610および660によって行われたオーディオデータストリームの修正も、音源の修正としてみなすことができる。したがって、修正モジュール610および660を、サウンドシーン操作モジュールともいうものとする。
GACストリームによって与えられる音場表示によって、オーディオデータストリームの異なる種類の修正、すなわち、結果としてサウンドシーンの操作が可能となる。この文脈におけるいくつかの例が以下に挙げられる;
1.サウンドシーンにおいて、空間/容積の任意の部分を拡大する(例えば、点状の音源を、それが視聴者に幅広にみえるようにするために拡大する)
2.サウンドシーンにおいて、空間/容積の選択部分を、空間/容積の他の何らかの任意の部分に変換する(変換された空間/容積は、例えば、新たな場所へ移動される必要がある音源を含む)
3.位置に基づくフィルタリング、ここでは、サウンドシーンの選択領域が強調され、または部分的に/完全に抑制される。
以降において、オーディオデータストリーム、例えば、GACストリームのレイヤは、特定の時間−周波数ビンに関して音源の1つの全てのオーディオデータを備えるものとする。
図7は、一実施形態による修正モジュールを示す。図7の修正部は、デマルチプレクサ401、操作プロセッサ420およびマルチプレクサ405を備える。
デマルチプレクサ401はM層GACストリームの異なるレイヤを分離し、M個の単層レイヤGACストリームを形成するように構成される。さらに、操作プロセッサ420は、処理部402、403および404を備え、これらはGACストリームの各々に個別に適用される。さらに、マルチプレクサ405は、操作された単層レイヤGACストリームから、結果として得られるM層GACストリームを形成するように構成される。
GACストリームからの位置データおよび現実の音源(例えば、話者)の位置についての知識に基づいて、エネルギーは、各時間−周波数ビンについての所定の現実の音源に対応付けられることができる。そして、圧力値Pはそれに従って重み付けされてそれぞれの現実の音源(例えば、話者)の音量を修正する。これは、現実の音源(例えば、話者)の位置の演繹的情報または推定値を必要とする。
いくつかの実施形態では、現実の音源の位置についての知識が利用可能である場合には、GACストリームからの位置データに基づいて、エネルギーを時間−周波数ビンごとに所定の現実の音源に対応付けることができる。
オーディオデータストリーム、例えば、GACストリームの操作は、図6aの少なくとも1つのオーディオ出力信号を生成する装置600の修正モジュール630、すなわち、受信機/合成側で起こり、および/または図6bのオーディオデータストリームを生成する装置660の修正モジュール690、すなわち、送信機/解析側で起こる。
例えば、オーディオデータストリーム、すなわち、GACストリームを、送信に先立って、または送信後の合成の前に修正することができる。
受信機/合成側における図6aの修正モジュール630とは異なり、送信機/解析側における図6bの修正モジュール690は、入力111−11N(録音される信号)および121−12N(空間マイクロフォンの相対位置および向き)からの追加の情報、この情報は送信機側で利用可能となる、を利用することができる。この情報を用いて、図8に示す代替実施形態による修正部を実現することができる。
図9に、システムの模式的概略を示すことによって一実施形態を示し、ここでは、GACストリームが送信機/解析側で生成され、選択的に、GACストリームは送信機/解析側において修正モジュール102によって修正されてもよいし、選択的に、GACストリームは修正モジュール103によって受信機/合成側において修正されてもよく、そして、GACストリームは複数のオーディオ出力信号191・・・19Lを生成するのに使用される。
送信機/解析側において、音場表示(例えば、GACストリーム)は入力111−11N、すなわち、N≧2個の空間マイクロフォンで録音される信号から、および入力121−12N、すなわち、空間マイクロフォンの相対位置および向きから処理部101で演算される。
処理部101の出力は前述の音場表示であり、以降において、幾何に基づく空間的オーディオ符号化(Geometry−based spatial Audio Coding:GAC)ストリームと記す。非特許文献19における提案と同様に、そして、構成可能な仮想位置における仮想マイクロフォンのオーディオ出力信号を生成する装置について説明したように、複雑なサウンドシーンは、短時間フーリエ変換(STFT)によって与えられるもののような時間−周波数表示における特定のスロットにおいてアクティブとなる音源、例えば、等方性の点状音源(IPLS)によってモデル化される。
GACストリームは、操作部ともいわれる選択的な修正モジュール102においてさらに処理されてもよい。修正モジュール102によって多数のアプリケーションが可能となる。そして、GACストリームは、送信され、または記憶される。GACストリームのパラメトリックな性質は、非常に効率的である。合成/受信機側において、もう1つの選択的な修正モジュール(操作部)103を採用してもよい。結果として得られるGACストリームは、スピーカ信号を生成する合成部104に入る。録音処理からの表示の独立性を考慮すると、再生側のエンドユーザは、サウンドシーンを潜在的に操作し、サウンドシーン内で視聴位置および向きを自由に決定することができる。
オーディオデータストリーム、例えば、GACストリームの修正/操作は、図9における修正モジュール102および/または103において、モジュール102の送信に先立って、または合成103の前であって送信の後に、GACストリームを修正することによって行われる。受信機/合成側における修正モジュール103とは異なり、送信機/解析側における修正モジュール102は、入力111−11N(空間マイクロフォンによって与えられるオーディオデータ)および121−12N(空間マイクロフォンの相対位置および向き)からの追加の情報、この情報は送信機側で利用可能となる、を利用することができる。図8は、この情報を用いる修正モジュールの代替実施形態を示す。
GACストリームの操作についての異なるコンセプトの例を、図7および図8を参照して以下に説明する。同じ参照符号が付された処理部は同じ機能を有する。
1.容積の拡張
シーンにおける所定のエネルギーが、容積V内に位置するものとする。容積Vは、ある環境の所定の領域を示すものであればよい。Θは、対応の音源、例えば、IPLSが容積V内で局在化される時間−周波数ビン(k,n)のセットを示す。
容積Vから他の容積V’への拡張が所望される場合、これは、(k,n)∈Θ(決定部403において評価される)である場合には常にGACストリームにおいてランダム項を位置データに追加し、図7および8における処理部404の出力431−43Mが以下となるようにQ(k,n)=[X(k,n),Y(k,n),Z(k,n)](インデックス層は便宜上省いている)を代入することによって達成される。
ここで、Φ、ΦおよびΦは、その範囲が元の容積Vに対する新たな容積V’の幾何状態に依存するランダム変数である。このコンセプトは、例えば、音源が幅広に知覚されるようにするために採用できる。この例では、元の容積Vは極めて小さく、すなわち、音源、例えば、IPLSが全ての(k,n)∈Θについて同じ点Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]に局在化されるべきである。このメカニズムは、位置パラメータQ(k,n)のディザリングの形態で理解される。
一実施形態によると、音源の各々の位置値の各々は少なくとも2つの座標値からなり、修正モジュールは、ある環境の所定エリア内に音源が位置することを座標値が示す場合に、少なくとも1つのランダム数を座標値に加算することによって座標値を修正するように構成される。
2.容積変換
容積拡張に加えて、GACストリームからの位置データを、音場内の空間/容積の部分を再配置するように修正することができる。この場合も、操作されるデータは、局在化されたエネルギーの空間座標からなる。
Vは再配置されるべき容積を示し、Θはエネルギーが容積V内に局在化される全ての時間−周波数ビン(k,n)のセットを示す。ここでも、容積Vは、ある環境の所定エリアを示すものであればよい。
容積再配置は、全ての時間−周波数ビン(k,n)∈Θについて、Q(k,n)が処理部404の出力431−43Mにおけるf(Q(k,n))によって置き換えられるようにGACストリームを修正することによって、達成される。ここで、fは、実行される容積操作を記述する空間座標(X,Y,Z)の関数である。関数fは、回転、平行移動などの簡単な線形変換、または他の任意の複雑な非線形マッピングを示す。この技術は、例えば、音源が容積V内で局在確認された時間−周波数ビンのセットにΘが対応することを確かめることによって、音源をある位置からサウンドシーン内の他の位置に移動させるのに使用することができる。この技術によって、シーン鏡像化、シーン回転、シーン拡大および/または縮小などのような、サウンドシーン全体への他の種々の複雑な操作が可能となる。例えば、容積Vに対して適切な線形マッピングを適用することによって、容積拡張の相補的効果、すなわち、容積縮小が実現され得る。これは、(k,n)∈ΘについてQ(k,n)をf(Q(k,n))∈V’にマッピングすることによってなされる。ここで、V’⊂Vであり、V’はVよりも充分に小さい容積からなる。
一実施形態によると、修正モジュールは、ある環境の所定エリア内の位置に音源が位置することを座標値が示す場合に、座標値に確定的な関数を適用することによって、座標値を修正するように構成される。
3.位置に基づくフィルタリング
幾何に基づくフィルタリング(すなわち、位置に基づくフィルタリング)の概念は、サウンドシーンから空間/容積の部分を強調し、または完全に/部分的に除去する方法を与える。しかし、この場合、容積拡張および変換技術と比べて、適切なスカラー重み付けを適用することによって、GACストリームからの圧力データのみが修正される。
幾何に基づくフィルタリングでは、送信機側102と受信機側の修正モジュール103とは、図8に示すように、前者が、力111−11Nおよび121−12Nを用いて、適切なフィルタ重み付けの演算を補助することにおいて異なる。目的が、空間/容積Vの選択部分から発生するエネルギーの抑制/増強であるとすると、幾何に基づくフィルタリングは、以下のように適用される。
全ての(k,n)∈Θについて、GACストリームにおける複素圧力P(k,n)は、402の出力において、ηP(k,n)に修正される。ここで、ηは、例えば処理部402によって演算される、現実の重み付けファクタである。実施形態によっては、モジュール402を、拡散性に依存する重み付けファクタを演算するように構成することもできる。
幾何に基づくフィルタリングのコンセプトを、信号増強および音源分離のような複数のアプリケーションで使用することができる。アプリケーションのいくつかおよび必要な演繹的情報は以下を備える:
・残響。部屋の幾何状態を把握することによって、空間フィルタを、複数経路の伝搬によってもたらされる部屋境界外で局在確認されたエネルギーを抑制するのに使用することができる。このアプリケーションは、例えば、会議室および車内でのハンドフリー会話に利用できそうである。なお、遅い残響を抑制するためには、高い拡散性が場合、フィルタを閉じれば充分である。一方、早い反射を抑制するためには、位置依存型フィルタがより効果的である。この場合、既に述べたように、部屋の幾何状態が演繹的に把握される必要がある。
・背景ノイズ抑制。同様のコンセプトが背景ノイズを抑制するためにも使用できる。音源が位置し得る候補領域(例えば、会議室における参加者の椅子または車内の座席)が既知である場合には、これらの領域外に位置するエネルギーは背景ノイズに対応付けられ、したがって空間フィルタによって抑制される。このアプリケーションは、GACストリームにおける利用可能なデータに基づいて、音源のおおよその位置の演繹的情報または推定値を必要とする。
・点状干渉の抑制。干渉が空間においてはっきりと局在化される場合、干渉の位置において局在化されるエネルギーを減衰させるのに、拡散よりも、位置に基づくフィルタリングを適用できる。これは、干渉の位置の演繹的情報または推定値を必要とする。
・エコー制御。この場合、抑制されるべき干渉はスピーカの信号である。この目的のため、点状干渉の場合と同様に、スピーカ位置またはその近接位置に局在化されるエネルギーが抑制される。これは、スピーカ位置の演繹的情報または推定値を必要とする。
・増強された音声検出。幾何に基づくフィルタリングの発明に対応付けられる信号増強技術が、例えば、車内における従来的な音声アクティビティ検出システムの前処理ステップとして実施される。残響またはノイズ抑制がアドオンされて、システム性能を向上させることができる。
・調査監視。所定のエリアからのエネルギーのみを維持して残りを抑制することは、調査監視アプリケーションにおいて一般に使用される技術である。これは、対象となるエリアの幾何および位置についての演繹的情報を必要とする。
・音源分離。同時にアクティブとなる複数の音源がある環境において、幾何に基づく空間フィルタリングを音源分離に対して適用できる。音源の位置を中心として適切に設計された空間フィルタを配置することによって、同時にアクティブとなる他の音源の抑制/減衰がもたらされる。この技術革新は、例えば、SAOCにおけるフロントエンドとして使用される。音源位置の演繹的情報または推定値が必要となる。
・位置依存型自動ゲイン制御(AGC)。位置に依存する重み付けが使用されて、例えば、テレビ会議アプリケーションにおける異なる話者の声の大きさを等化することができる。
以降において、実施形態による合成モジュールを説明する。一実施形態によると、合成モジュールは、オーディオデータストリームのオーディオデータの少なくとも1つの圧力値に基づいて、およびオーディオデータストリームのオーディオデータの少なくとも1つの位置値に基づいて、少なくとも1つのオーディオ出力信号を生成するように構成される。少なくとも1つの圧力値は、圧力信号、例えばオーディオ信号の圧力値である。
GAC合成における動作の原理は、非特許文献25で与えられる空間音の知覚についての前提によって動機付けられる。
特に、サウンドシーンの空間イメージを正しく知覚するのに必要な空間キューを、各時間−周波数ビンについての非拡散音の1つの到来方向を正しく再現することによって、得ることができる。したがって、図10aに示すこの合成は2段階に分けられる。
第1の段階は、サウンドシーン内の視聴者の位置および向きを検討し、M個のIPLSのうちのどれが各時間−周波数ビンについて支配的かを判定する。結果として、その圧力信号Pdirおよび到来方向θが演算される。残りの音源および拡散音は、第2の圧力信号Pdiffにまとめられる。
第2の段階は、非特許文献25に記載されるDirAC合成の後半と同じである。非拡散音は点状音源を生成するパン機構で再生される一方、拡散音は、相関分離されてから、全てのスピーカから再生される。
図10aは、GACストリームの合成を示す一実施形態による合成モジュールを示す。
第1段の合成部501は、別個に再生される必要がある圧力信号PdirおよびPdiffを演算する。実際に、Pdirは空間にコヒーレントに再生されなければならない音で構成され、Pdiffは拡散音で構成される。第1段の合成部501の第3の出力は、所望の視聴位置の視点からの到来方向(DOA)θ505、すなわち、到来方向情報である。なお、到来方向(DOA)は、2D空間の場合にはアジマス角として表され、3Dにおいてはアジマスおよび仰角の対によって表される。等価的には、DOAにおいて指し示される単位ノルムベクトルが使用されればよい。DOAは、(所望の視聴位置に対して)どの方向から信号Pdirが来るべきなのかを指定する。第1段の合成部501はGACストリームを入力、すなわち、音場のパラメトリック表示として取得し、入力141によって指定される視聴者の位置および向きに基づいて上記信号を演算する。実際に、エンドユーザは、GACストリームによって記述されるサウンドシーン内で視聴位置および向きを自由に決定できる。
第2段の合成部502は、スピーカ設定131の知識に基づいて、L個のスピーカ信号511−51Lを演算する。処理部502が非特許文献25に記載されるDirAC合成の後半と同じであることを思い出してほしい。
図10bは、一実施形態による第1の合成段部を示す。ブロックに供給される入力は、M層のレイヤで構成されたGACストリームである。第1のステップにおいて、処理部601はM層のレイヤを各1層のM個の並列GACストリームに多重分離する。
i番目のGACストリームは、圧力信号P、拡散性Ψおよび位置ベクトルQ=[X,Y,Zを有する。圧力信号Pは1以上の圧力値を含む。位置ベクトルは位置値である。ここでは、少なくとも1つのオーディオ出力信号が、これらの値に基づいて生成される。
直接音および拡散音に対する圧力信号PdirおよびPdiffは、拡散性Ψから求められる適切なファクタを適用することによって、Pから得られる。直接音を含む圧力信号は伝搬補償ブロック602に入力され、伝搬補償ブロック602は、音源位置、例えば、IPLSの位置、から視聴者の位置への信号伝搬に対応する遅延を演算する。これに加えて、このブロックはまた、異なる大きさの減衰を補償するために必要なゲインファクタを演算する。他の実施形態では、異なる大きさの減衰のみが補償されるが、遅延は補償されない。
保障された圧力信号
はブロック603に入力され、ブロック603は最も強い入力のインデックスimax
を出力する。
このメカニズムの根底にある主たる概念は、検討中の時間−周波数ビンにおいてアクティブとなっているM個のIPLSの中で、(視聴者の位置に対して)最も強いもののみが、コヒーレントに(すなわち、直接音として)再生されることになることである。ブロック604および605は、それらの入力から、imaxで定義されるものを選択する。ブロック607は、視聴者の位置および向き(入力141)に関するimax番目のIPLSの到来方向を演算する。ブロック604の出力
は、ブロック501の出力、すなわち、ブロック502によって直接音として再生されることになる音信号Pdirに対応する。拡散音、すなわち出力504Pdiffは、imax番目を除く、すなわち、∀j≠imaxの全ての直接音信号
と同様に、M個のブランチにおける全ての拡散音の合計からなる。
図10cに、第2の合成段部502を示す。既に述べたように、この段は、非特許文献25において提案されている合成モジュールの後半と同じである。非拡散音Pdir503は、例えば、パンすることによって、ゲインが、到来方向(505)に基づいて、ブロック701において演算される点状音源として再生される。一方、拡散音Pdiffは、L個の個別の相関分離器(711−71L)を通る。L個のスピーカ信号の各々について、直接および拡散音経路が、逆フィルタバンク(703)を通る前に追加される。
図11に、代替実施形態による合成モジュールを示す。図中の全ての数量は、時間−周波数ドメインにおいて検討され、(k,n)の表記は、例えば、P=P(k,n)のように便宜上省かれる。複数の複雑な音源、例えば、同時にアクティブとなる多数の音源の場合の再生におけるオーディオ品質を向上するために、合成モジュール、例えば、合成モジュール104を、例えば、図11に示すように実現することができる。コヒーレントに再生される最も支配的なIPLSを選択するのではなく、図11における合成は、M層の各々の完全な合成を個別に実行する。i層目のレイヤからのL個のスピーカ信号は、ブロック502の出力であり、191−19Lで示される。第1の合成段部501におけるh番目のスピーカ信号19hは、19h−19hの合計である。なお、図10bとは異なり、ブロック607におけるDOA推定ステップは、M層のレイヤの各々について実行される必要はない。
図26に、一実施形態による仮想マイクロフォンのデータストリームを生成する装置950を示す。仮想マイクロフォンのデータストリームを生成する装置950は、上記実施形態の1つによる、例えば、図12による仮想マイクロフォンのオーディオ出力信号を生成する装置960、および上記実施形態の1つによる、例えば、図2bによるオーディオデータストリームを生成する装置970を備える。この装置970によって生成されるオーディオデータストリームは、仮想マイクロフォンのデータストリームである。
仮想マイクロフォンのオーディオ出力信号を生成するための、例えば、図26における装置960は、サウンドイベント位置推定器および図12にあるような情報演算モジュールを備える。サウンドイベント位置推定器は、環境におけるサウンドシーンの位置を示す音源位置を推定するように構成され、環境において第1の現実のマイクロフォン位置に配置される第1の現実の空間マイクロフォンによって与えられる第1の指向情報に基づいて、および環境において第2の現実のマイクロフォン位置に配置される第2の現実の空間マイクロフォンによって与えられる第2の指向情報に基づいて、音源位置を推定するように構成される。情報演算モジュールは、録音されるオーディオ入力信号に基づいて、第1の現実のマイクロフォン位置に基づいて、および計算されたマイクロフォン位置に基づいて、オーディオ出力信号を生成するように構成される。
仮想マイクロフォンのオーディオ出力信号を生成する装置960は、オーディオデータストリームを生成する装置970にオーディオ出力信号を供給するように構成される。オーディオデータストリームを生成する装置970は、判定器、例えば、図2bに関して説明した判定器210を備える。オーディオデータストリームを生成する装置970の判定器は、仮想マイクロフォンのオーディオ出力信号を生成する装置960によって供給されるオーディオ出力信号に基づいて、音源データを判定する。
図27は、上記実施形態の1つによるオーディオデータストリームに基づいて、少なくとも1つのオーディオ出力信号を生成する装置980、例えば、仮想マイクロフォンのデータストリームを生成する装置950、例えば、図26における装置950によって供給されるオーディオデータストリームとして、仮想マイクロフォンのデータストリームに基づいて、オーディオ出力信号を生成するように構成されている請求項1の装置を示す。
仮想マイクロフォンのデータストリームを生成する装置980は、オーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成する装置980に、生成された仮想マイクロフォン信号を入力する。なお、仮想マイクロフォンのデータストリームは、オーディオデータストリームである。オーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成する装置980は、例えば、図2aの装置に関して述べたように、オーディオデータストリームとして、仮想マイクロフォンのデータストリームに基づいて、オーディオ出力信号を生成する。
図1は、一実施形態による統合オーディオ出力信号を生成する装置を示す。
一実施形態では、装置は複数の単層オーディオデータストリームを取得するためのデマルチプレクサ180を備え、デマルチプレクサ180は1以上の入力オーディオデータストリームを受信するように構成され、各入力オーディオデータストリームは1層以上のレイヤを含み、デマルチプレクサ180は、1以上の多重分離されたオーディオデータストリームがともに入力オーディオデータストリームの1層以上のレイヤを含むように、1層以上のレイヤを有する入力オーディオデータストリームの各々を1層だけのレイヤを有する2以上の多重分離オーディオデータストリームに多重分離して、2以上の単層オーディオデータストリームを得るように構成される。
さらなる実施形態では、装置は複数の単層オーディオデータストリームを取得するためのデマルチプレクサ180を備え、デマルチプレクサ180は2以上の入力オーディオデータストリームを受信するように構成され、各入力オーディオデータストリームは1層以上のレイヤを含み、デマルチプレクサ180は、2以上の多重分離されたオーディオデータストリームがともに入力オーディオデータストリームの2層以上のレイヤを含むように、2層以上のレイヤを有する入力オーディオデータストリームの各々を1層だけのレイヤを有する2以上の多重分離オーディオデータストリームに多重分離して、単層オーディオデータストリームの2以上を得るように構成される。
さらに、装置は、複数の単層オーディオデータストリームに基づいて、1層以上のレイヤを有する統合オーディオデータストリームを生成するための統合モジュール190を備える。入力データオーディオストリーム、多重分離されたオーディオデータストリーム、単層データストリームおよび統合オーディオデータストリームの各レイヤは、圧力信号の圧力値、位置値および拡散値をオーディオデータとして備え、オーディオデータは複数の時間−周波数ビンのうちのある時間−周波数ビンについて定義される。
一実施形態では、装置は、1層だけを有する1以上の受信入力オーディオデータストリームをデマルチプレクサに入力せずに統合モジュールに直接入力するように構成されることができる。破線195が参照される。
いくつかの実施形態では、デマルチプレクサ180は、多重分離されたオーディオデータストリームによって表された異なるサウンドシーンのボリューム(例えば、音量)を等化するために、多重分離されたオーディオデータストリームの圧力値を修正するように構成される。例えば、2つのオーディオデータストリームが2つの異なる録音環境から発生し、かつ(例えば、マイクロフォンから離れている音源に起因して、または単に感度が悪い若しくは前段増幅器のゲインが低いマイクロフォンに起因して)第1のものが低いボリュームで特徴付けられる場合、スカラーを第1のオーディオデータストリームの圧力値に乗じることによって第1のオーディオデータストリームのボリュームを増加することが可能である。同様に、第2のオーディオデータストリームのボリュームを同様のやり方で減少させることも可能である。
図28は、他の実施形態による統合オーディオデータストリームを生成する装置の入力および出力を示す。多数のM個のオーディオデータストリーム、例えば、M個のGACストリームおよび、選択的に、挿入される人工的な音源の圧力信号p(t)および位置q(t)が、図28の装置に入力される。他の実施形態では、2以上の人工的な音源(合成音源)が装置に入力される。出力には、オーディオ出力ストリーム、例えば、修正されたサウンドシーンを表すGACストリームが戻される。
同様に、オーディオ出力ストリーム、例えば、GACストリームを、単一の(すなわち、統合されない)音源から直接生成することもできる。
装置への第1の種類の入力1111、1112、・・・、111Mは、オーディオデータストリーム、例えば、M個のGACストリームであり、i番目のストリームは、L層のレイヤ、i∈{1,2・・・,M}を有する。i番目のオーディオデータストリームの各レイヤは、時間−周波数ドメインにおいて、複素圧力信号の1以上の圧力値P、音源の位置Q=[X,Y,Zおよび拡散性Ψを有する。二次元表示が用いられる場合には、音源の位置を、Q=[X,Yとして定義できる。なお、全ての数量は、時間および周波数インデックス(k,n)に依存する。ただし、この数式においては、読みやすい状態とするともに明瞭化のために、時間および周波数の依存性は明示的には言及されない。
サウンドシーンに挿入される人工的な音源の圧力および位置についての入力1120は、選択的な情報であり、時間ドメインで表される。図28の装置の出力1140は、オーディオデータストリーム、例えば、L層のレイヤを有するGACストリームである。
図29は、他の実施形態による統合オーディオデータストリームを生成する装置を示す。図29では、図1のデマルチプレクサが、複数の多重分離部を備える。図29の装置は、多重分離部(DEMUX)1201、(人工的な音源のためのオーディオストリーム、例えば、GACストリームの生成を実現する)人工音源生成器1202、および統合モジュール1203を備える。
多重分離部1201の1つに関して、L層のレイヤを備えるi番目のGACストリーム111iに対する多重分離部は、L層の独立した単層GACストリームを出力する。人工音源生成器1202は、人工的な音源に対して単層GACストリームを生成する。
統合モジュール1203は、統合を実行するものであり、N個の単層GACストリームを受信し、ここで、Nは以下の通りである。
図30は、一実施形態による統合モジュール1203を示す。N個の単層オーディオデータストリーム、例えば、N個の単層GACストリーム1211−121Nが統合されると、Lo≦Nにおいて、音源の組合せに対応するL層のレイヤを有するオーディオデータストリーム、例えば、1つのGACストリーム1140となる。
統合は、特に以下のコンセプトに基づく:各時間−周波数ビンについて、各々がN個のGACストリームの1つによって記述されるN個のIPLSがアクティブとなる。例えば、パワーおよび拡散性を考慮して、Lo個の最も顕著な音源が識別される。第1のLo−1個の音源がそのまま統合オーディオデータストリーム、例えば、出力GACストリームの第1のLo−1層のレイヤに再割り当てられる一方、全ての残りの音源は最後のレイヤ、すなわち、Lo番目のレイヤに追加される。
図30の装置は、コスト関数モジュール1401を備える。コスト関数モジュール1401は、N個の圧力信号およびN個の拡散パラメータを解析する。コスト関数モジュール1401は、各時間−周波数ビンについて最も顕著な音源を判定するように構成される。例えば、i∈[1,N]のi番目のストリームについてのコスト関数fは、例えば、高いパワーかつ低い拡散性の音源、例えば、IPLSがコスト関数の高い値に帰着するように、
として定義される。コスト関数fはコスト値を計算する。
コスト関数モジュール1401の出力は、最も高いfのIPLSのインデックスを備えるサイズLo×1のベクトルrである。さらに、インデックスが最も顕著なIPLSから最も顕著でないものの順にソートされる。この情報は、位置混合部1403、圧力統合部1404および拡散性統合部1405に渡され、各時間−周波数ビンについて結果として得られるGACストリームのパラメータが、それに従って計算される。パラメータをどのように演算するかについての実施形態を、以下に詳細に説明する。
図30の装置は、サウンドシーン適応モジュール1402をさらに備える。サウンドシーン適応モジュール1402によって、統合ステップにわたる追加の制御が可能となり、GAC位置情報が実際の統合に先立って操作される。このように、例えば、個別のシーンにおけるイベントの完全な重なりによる統合、音源を並べて配置することによる統合、重なりの量についての所定の制約による統合など、いくつかの統合手法を達成できる。
図31a、図31bおよび図31cは、可能な音源シナリオを示す。図31aは、各一人の話者を有する2つの音源を示す。ベクトルは極座標系を示す。統合後に、いかなる修正もサウンドシーン適応モジュール1402によって実行されることなく、図31aの下段に図示されるようなサウンドシーンが実現されることになる。これは望ましくないかもしれない。1以上のサウンドシーンの座標系を操作することによって、統合サウンドシーンを意のままに構成することが可能となる。図31bでは、一例として、回転が導入されるので、統合サウンドシーンにおいて話者が分離される。位置QからQに適用される(図31cに示すような)平行移動または非線形変換も可能である。
位置混合部1403、圧力統合部1404および拡散性統合部1405は、N個のパラメータストリームを入力として受信するように構成され、結果として得られるLoGACストリームのパラメータを演算するように構成される。
パラメータの各々は、以下のようにして得られる。
a.位置混合部1403は、出力GACストリームの結果として得られる位置を判定するように構成される。出力ストリームQ’におけるi番目の音源の位置は、コスト関数モジュール1401によって与えられるベクトルrによって示されるi番目の最も顕著な非拡散入力源の位置に対応する。
ここで、rはrのi番目の要素を示す。
ベクトルrによって示されるLo番目の最も顕著な非拡散入力源を判定することによって、位置混合部1403は、1以上の単層オーディオデータストリームを備えるグルー
プを判定する。このグループの単層オーディオデータストリームの各々のコスト値は、このグループを構成しないいずれの単層オーディオデータストリームのコスト値よりも大きくてもよい。位置混合部1403は、グループの単層オーディオデータストリームの各々の各位置値が、統合オーディオデータストリームのレイヤの1層における1つの位置値となるように、統合オーディオデータストリームの1層以上のレイヤにおける1以上の位置値を選択/生成するように構成される。
b.ストリームの各々について結果として得られる圧力が、圧力統合部1404によって計算される。最後の(Lo番目の)GACストリームを除いて、全てについての圧力信号は、入力ベクトルrによる対応の圧力信号に等しい。Lo番目GACストリームの圧力は、例えば、以下のように、N−Lo+1個の残りの圧力信号の各々の圧力の線形合成として与えられる。
ベクトルrによって示されるLo−1番目の最も顕著な非拡散入力源を判定することによって、圧力統合部は、複数の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを含む第1のグループを判定するとともに、複数の単層オーディオデータストリームのうちの1以上の異なる単層オーディオデータストリームを含む第2のグループ(ベクトルrにおける残余の入力源)を判定するように構成され、第1のグループの単層オーディオデータストリームの各々のコスト値は、第2のグループの単層オーディオデータストリームの各々のコスト値よりも大きい。圧力統合部は、第1のグループの単層オーディオデータストリームの各々の各圧力値が、統合オーディオデータストリームのレイヤのうちの1層における圧力値となり、第2のグループの単層オーディオデータストリームの圧力値の合成値が、統合オーディオデータストリームのレイヤのうちの1層における圧力値となるように、統合オーディオデータストリームの1層以上のレイヤにおける1以上の圧力値を生成するように構成される。
c.結果として得られるGACストリームの拡散性が、拡散性統合部1405によって演算される。他のパラメータと同様に、拡散性が入力ストリームから最後のLo番目のGACストリームを除いて全てに複製される。
Lo番目の拡散性パラメータは、1つの位置Q’L0のみが割り当てられるので、例えば、圧力信号P’L0がコヒーレントに再生されない、より多くのIPLSからの直接音を含むことを考慮して演算される。したがって、直接音に対応するP’L0におけるエネルギーの量は、単に、
となる。結果として、拡散性は、
によって得られる。
ベクトルrによって示されるLo−1番目の最も顕著な非拡散入力源を判定することによって、拡散性統合部は、複数の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを含む第1のグループを判定するとともに、複数の単層オーディオデータストリームのうちの1以上の異なる単層オーディオデータストリームを含む第2のグループ(ベクトルrにおける残余の入力源)を判定するように構成され、第1のグループの単層オーディオデータストリームの各々のコスト値は、第2のグループの単層オーディオデータストリームの各々のコスト値よりも大きい。拡散性統合部は、第1のグループの単層オーディオデータストリームの各々の各拡散値が統合オーディオデータストリームのレイヤのうちの1層における拡散値となり、第2のグループの単層オーディオデータストリームの拡散値の合成値が統合オーディオデータストリームのレイヤのうちの1層における拡散値となるように、統合オーディオデータストリームの1層以上のレイヤにおける1以上の圧力値を生成するように構成される。
最後に、結果として得られるLo個の単層GACストリームは、ブロック1406において多重化されてL層のレイヤの最後のGACストリーム(出力1140)を形成する。
以降において、実施形態による人工音源生成器を、図32aおよび図32bを参照してより詳細に説明する。
人工音源生成器は選択的なモジュールであり、人工的な音源の時間ドメインで表現された位置および圧力信号であってサウンドシーンに挿入されるべきものを、入力1120として使用する。そして、出力121Nとして、人工的な音源のGACストリームに戻る。
時間における音源の位置についての情報が、第1の処理ブロック1301に与えられる。音源が移動していない場合、ブロック1301は単に、位置を出力21Nにおける全ての時間−周波数ビンQ(k,n)に複製する。移動する音源について、q(t)における情報は、適切な時間ブロックnに対応する全ての周波数ビンkに複製される。そして、ブロック1301の出力は、ブロック1203に、GACストリームとして直接渡される。挿入される音源1120の圧力信号p(t)は、
a.GACストリームP(k,n)の圧力信号に直接変換され(図32a参照)、
b.まず反響させられてから、GACストリームP(k,n)の圧力信号に変換される(図32b参照)。
図32aに示す実施形態a)によると、信号は、ブロック1302における解析フィルタバンクを用いて周波数ドメインに変換されてから、挿入された音源に対応するGACストリームのパラメータとして渡される。圧力信号p(t)がドライでない場合、信号は、ノイズおよび/または環境が検出される選択的ブロック1303を通過することになる。そして、ノイズおよび環境の情報は、拡散性推定値を演算するブロック1304に渡される。ブロック1303は、これらの目的のために、非特許文献28に記載されるような現状技術のアルゴリズムを実施することができる。
そして、ノイズおよび環境についての情報が、拡散性推定値を演算するブロック1304に渡される。これは、p(t)で構成される環境およびノイズが合成においてコヒーレントに再生されることを回避するのに、特に有用である。したがって、前述のメカニズムは、信号の直接的な部分が低い拡散値に割り当てられる一方で、信号のうちのノイズのある環境的部分が高い拡散性に対応付けられることを保障する。ブロック1303および1304の信号経路に対する代替として、121Nにおける拡散性パラメータを単に一定値に設定することもできる。
図32bに示す実施形態b)では、ある意味で逆の状況がカバーされる。p(t)がドライな信号であるものとすると、残響を加えてp(t)音をより自然なものとすること、すなわち、合成音源の音を、あたかもそれが部屋で録音されたかのようにすることが望ましい場合がある。これは、ブロック1305によって実現される。反響した信号および元の信号の双方が、解析フィルタバンク1302で実行される変換を受けてから、パワー比解析ブロック1306に渡される。ブロック1306は、例えば、直接−残響比(DRR)を演算することによって、どれだけの残響およびどれだけの直接音が所定の時間−周波数ビンに存在するかについての情報を演算する。そして、この情報がブロック1304に渡され、拡散性が演算される。
拡散性パラメータは、高いDRRに対しては低い値に設定される一方、(例えば、遅い残響の余韻において)残響が支配的な場合には高い値に設定される。
以降において、いくつかの特別な場合を説明する。
1.M個の単層GACストリームがL=1個のGACストリームに統合される必要がある場合には、単純化された実施形態を採用できる。結果として得られるGACストリームは以下によって特徴付けられる:
−圧力:圧力は、M個の圧力信号の合計となる
−位置:位置は、最も強い音源、例えば、最も強いIPLSの位置となる
−拡散性:拡散性は式(5)に従って演算される。
2.レイヤ数が入力における合計層数、すなわち、L=Nに等しい場合には、出力ストリームを入力ストリームの連続とみることができる。
いくつかの側面を装置との関連で説明したが、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴にも対応することが分かるように、それらの側面が対応の方法の説明も表すことは明らかである。同様に、方法ステップに関連して、またはそれとして説明した側面はまた、対応の装置の対応するブロック、詳細または特徴の記載も表す。
本発明に係る分解された信号は、デジタル記録媒体に記録するか、もしくはインターネット等の無線伝達媒体または有線伝達媒体などの伝達媒体に送信することができる。
所定の実施要件に応じて、発明の実施形態はハードウェアで、またはソフトウェアで実施されることができる。その実施例は、例えば、そこに記憶された電子的に読み取り可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能コンピュータシステムと協働する(または協働ことができる)フレキシブルディスク、DVD、CD、ROM、PROM、EPROM、EEPROM(登録商標)またはフラッシュメモリといったデジタル記憶媒体を用いて実行することができる。
発明によるいくつかの実施形態は、電子的に読み取り可能な制御信号を有する一時的でないデータキャリアを備え、それらはここに記載された方法の1つが実行されるようにプログラム可能コンピュータシステムと協働することができる。
一般に、本発明の実施形態は、プログラムコードを持つコンピュータプログラム製品として実施でき、プログラムコードはコンピュータ上で稼働したときに方法の1つを実行するよう動作可能である。プログラムコードは、例えば、機械読取可能な担体に記憶される。
他の実施形態は、機械読取可能な担体に記憶され、ここに記載された方法の1つを実行するためのコンピュータプログラムからなる。
言い換えると、発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で稼働したときに、ここに記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、発明の方法のさらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムを、そこに録音されて備えるデータ担体(すなわち、デジタル記憶媒体またはコンピュータ読取可能記録媒体)である。
したがって、発明の方法のさらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネット等のデータ通信接続を介して転送されるように構成されることができる。
さらなる実施形態は、ここに記載された方法の1つを実行するように構成または適合された、例えば、コンピュータまたはプログラマブルロジックデバイスといった処理手段からなる。
さらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムをインストールされた状態で有するコンピュータからなる。
実施形態によっては、プログラム可能論理デバイス(例えば、フィールドプログラマブルゲートアレイ)が、ここに記載された方法の機能の一部または全部を実行するのに使用されてもよい。実施形態によっては、ここに記載された方法の1つを実行するために、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働することができる。一般に、それらの方法は、あらゆるハードウェア装置によって好適に実行される。
上述した実施形態は本発明の原理についての単なる例示である。構成の変形例および拡張例およびここに記載された詳細は当業者に明らかなものとなることが理解される。したがって、それは、ここに挙げた実施形態の説明および解説として示された具体的詳細によってではなく、特許請求の範囲の各請求項に記載された範囲によってのみ限定されることを意図するものである。

Claims (18)

  1. 統合オーディオデータストリームを生成する装置であって、
    各々が1層以上のレイヤを含む1以上の入力オーディオデータストリームを受け取り、各入力オーディオデータストリームを、各々が1層だけのレイヤを有し、全体として多重分離の対象となった入力オーディオデータストリームの1層以上のレイヤを含む2以上の多重分離オーディオデータストリームに多重分離して、2以上の単相オーディオデータストリームを得るデマルチプレクサ(180)と、
    前記2以上の単層オーディオデータストリームに基づいて、1層以上のレイヤを有する統合オーディオデータストリームを生成する統合モジュール(190)と
    を備え、
    前記入力オーディオデータストリーム、前記多重分離オーディオデータストリーム、前記単層オーディオデータストリームおよび前記統合オーディオデータストリームの各レイヤが、音圧信号の音圧値、音源の位置を示す位置値および音場の拡散を示す拡散値をオーディオデータとして含む
    装置。
  2. 請求項1に記載の装置において、前記デマルチプレクサ(180)は、2以上の入力オーディオデータストリームを受け取り、2層以上のレイヤを含む各入力オーディオデータストリームを、各々が1層だけのレイヤを有し、全体として多重分離の対象となった入力オーディオデータストリームの1層以上のレイヤを含む2以上の多重分離オーディオデータストリームに多重分離して、2以上の単相オーディオデータストリームを得る、装置。
  3. 請求項1または2に記載の装置において、前記オーディオデータが、複数の時間−周波数ビンのうちの1つの時間−周波数ビンについて定義される、装置。
  4. 請求項1から3のいずれか1項に記載の装置において、
    前記統合モジュール(190)は、前記単層オーディオデータストリームの各々にサウンド合成の演算コストを示すコスト値を割り当てるコスト関数モジュール(1401)を備え、
    前記統合モジュール(190)は、前記単層オーディオデータストリームに割り当てられた前記コスト値に基づいて、前記統合オーディオデータストリームを生成する、
    装置。
  5. 請求項4に記載の装置において、前記コスト関数モジュール(1401)は、前記単層オーディオデータストリームの各々に、その単層オーディオデータストリームの音圧値または拡散値の少なくとも1つに応じてコスト値を割り当てる、装置。
  6. 請求項5に記載の装置において、前記コスト関数モジュール(1401)は、前記単層オーディオデータストリームの各オーディオデータストリームに対して、そのオーディオデータストリームが前記単層オーディオデータストリームのグループのi番目であるとするとき、そのオーディオデータのレイヤの音圧値Pおよび拡散値Ψ して、数式:
    (Ψ,P)=(1-Ψ)・|P
    を適用することによって、前記コスト値を割り当てる、装置。
  7. 請求項4から6のいずれか1項に記載の装置において、
    前記統合モジュール(190)は圧力統合部(1404)をさらに備え、
    前記圧力統合部(1404)は、前記2以上の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを含む第1のグループを判定し、前記複数の単層オーディオデータストリームのうちの他の1以上の単層オーディオデータストリームを含む第2のグループを判定する構成であり、
    前記第1のグループの単層オーディオデータストリームの各々のコスト値は、前記第2のグループの単層オーディオデータストリームの各々のコスト値よりも大きく、または前記第1のグループの単層オーディオデータストリームの各々のコスト値が、前記第2のグループの単層オーディオデータストリームの各々のコスト値よりも小さく、
    前記圧力統合部(1404)は、前記統合オーディオデータストリームの1層以上のレイヤにおける1以上の音圧値を、前記第1のグループの単層オーディオデータストリームの各々の各音圧値が前記統合オーディオデータストリームのレイヤのうちの1層における音圧値となり、前記第2のグループの単層オーディオデータストリームの音圧値の組み合わせが前記統合オーディオデータストリームのレイヤのうちの1層における音圧値となる
    ように、生成する、
    装置。
  8. 請求項4から7のいずれか1項に記載の装置において、
    前記統合モジュール(190)は拡散性統合部(1405)をさらに備え、
    前記拡散性統合部(1405)は、前記2以上の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを含む第3のグループを判定し、前記複数の単層オーディオデータストリームのうちの他の1以上の単層オーディオデータストリームを含む第4のグループを判定する構成であり、
    前記第3のグループの単層オーディオデータストリームの各々のコスト値が、前記第4のグループの単層オーディオデータストリームの各々のコスト値よりも大きく、または前記第3のグループの単層オーディオデータストリームの各々のコスト値が、前記第4のグループの単層オーディオデータストリームの各々のコスト値よりも小さく、
    前記拡散性統合部(1405)は、前記統合オーディオデータストリームの1層以上のレイヤにおける1以上の拡散値を、前記第3のグループの単層オーディオデータストリームの各々の各拡散値が前記統合オーディオデータストリームのレイヤのうちの1層における拡散値となり、前記第4のグループの単層オーディオデータストリームの拡散値の組み合わせが前記統合オーディオデータストリームのレイヤのうちの1層における拡散値となるように、生成する、
    装置。
  9. 請求項から8のいずれか1項に記載の装置において、
    前記統合モジュール(190)は位置混合部(1403)をさらに備え、
    前記位置混合部(1403)は、前記2以上の単層オーディオデータストリームのうちの1以上の単層オーディオデータストリームを含む第5のグループを判定する構成であり、
    前記第5のグループの単層オーディオデータストリームの各々のコスト値が、前記2以上の単層オーディオデータストリームの前記第5のグループを構成しない単層オーディオデータストリームのコスト値よりも大きく、または前記第5のグループの単層オーディオデータストリームの各々のコスト値が、前記2以上の単層オーディオデータストリームの前記第5のグループを構成しない単層オーディオデータストリームのコスト値よりも小さく、
    前記位置混合部(1403)は、前記第5のグループの単層オーディオデータストリームの各々の各位置値が前記統合オーディオデータストリームのレイヤのうちの1層の位置値となるように、前記統合オーディオデータストリームの1層以上のレイヤにおける1以上の位置値を生成する
    装置。
  10. 請求項3から9のいずれか1項に記載の装置において、前記統合モジュール(190)は、前記2以上の単層オーディオデータストリームの1以上について、その位置値を操作するサウンドシーン適応モジュール(1402)をさらに備える、装置。
  11. 請求項10に記載の装置において、前記サウンドシーン適応モジュール(1402)は、位置値の回転、平行移動または非線形転換を適用して、前記2以上の単層オーディオデータストリームの1以上の位置値を操作する、装置。
  12. 請求項1から11のいずれか1項に記載の装置において、前記デマルチプレクサ(180)は、前記多重分離オーディオデータストリームの1つについて、その音圧値の1つの大きさを、スカラー値を乗ずることによって修正する、装置。
  13. 請求項1から12のいずれか1項に記載の装置において、前記デマルチプレクサ(180)は複数の多重分離部(1201)を備え、この複数の多重分離部(1201)の各々が、1以上の入力オーディオデータストリームを多重分離する、装置。
  14. 請求項1から13のいずれか1項に記載の装置において、
    1層だけのレイヤを含む人工データストリームを生成する人工音源生成器(1202)をさらに備え、
    前記人工音源生成器(1202)は、時間ドメインで表されている音圧情報を受け取るとともに、位置情報を受け取る構成であり、
    前記人工音源生成器(1202)は、前記位置情報を複製して複数の時間−周波数ビンについて位置情報を生成する構成である
    装置。
  15. 請求項14に記載の装置において、前記人工音源生成器(1202)は、時間ドメインで表現されている音圧情報を時間−周波数ドメインに変換する構成である、装置。
  16. 請求項14に記載の装置において、前記人工音源生成器(1202)は、残響を前記音圧情報に加える構成である、装置。
  17. デマルチプレクサが、1層以上のレイヤを含む1以上の入力オーディオデータストリームを受け取り、各入力オーディオデータストリームを、各々が1層だけのレイヤを有し、
    全体として多重分離の対象となった入力オーディオデータストリームの1層以上のレイヤを含む2以上の多重分離オーディオデータストリームに多重分離して、2以上の単相オーディオデータストリームを取得し、
    前記2以上の単層オーディオデータストリームに基づいて、1層以上のレイヤを有する統合オーディオデータストリームを生成し、
    前記入力オーディオデータストリーム、前記多重分離オーディオデータストリーム、前記単層オーディオデータストリームおよび前記統合オーディオデータストリームの各レイヤが、音力信号の音圧値、音源の位置を示す位置値および音場の拡散を示す拡散値をオーディオデータとして含む、
    方法。
  18. コンピュータまたは信号プロセッサで実行されるときに請求項17の方法を実施するコンピュータプログラム。
JP2014543912A 2011-12-02 2012-11-30 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法 Active JP6086923B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP11191816.5A EP2600343A1 (en) 2011-12-02 2011-12-02 Apparatus and method for merging geometry - based spatial audio coding streams
EP11191816.5 2011-12-02
US13/445,585 2012-04-12
US13/445,585 US9484038B2 (en) 2011-12-02 2012-04-12 Apparatus and method for merging geometry-based spatial audio coding streams
PCT/EP2012/074097 WO2013079663A2 (en) 2011-12-02 2012-11-30 Apparatus and method for merging geometry-based spatial audio coding streams

Publications (2)

Publication Number Publication Date
JP2015502573A JP2015502573A (ja) 2015-01-22
JP6086923B2 true JP6086923B2 (ja) 2017-03-01

Family

ID=45047686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014543912A Active JP6086923B2 (ja) 2011-12-02 2012-11-30 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法

Country Status (18)

Country Link
US (1) US9484038B2 (ja)
EP (2) EP2600343A1 (ja)
JP (1) JP6086923B2 (ja)
KR (1) KR101666730B1 (ja)
CN (1) CN104185869B9 (ja)
AR (1) AR089053A1 (ja)
AU (3) AU2012343819C1 (ja)
BR (1) BR112014013336B1 (ja)
CA (1) CA2857614C (ja)
HK (1) HK1202181A1 (ja)
IN (1) IN2014KN01069A (ja)
MX (1) MX342794B (ja)
MY (1) MY167160A (ja)
RU (1) RU2609102C2 (ja)
SG (1) SG11201402777QA (ja)
TW (1) TWI555412B (ja)
WO (1) WO2013079663A2 (ja)
ZA (1) ZA201404823B (ja)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152524B2 (en) * 2012-07-30 2018-12-11 Spatial Digital Systems, Inc. Wavefront muxing and demuxing for cloud data storage and transport
US10154361B2 (en) * 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
US9407992B2 (en) * 2012-12-14 2016-08-02 Conexant Systems, Inc. Estimation of reverberation decay related applications
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
US10499176B2 (en) 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP3028476B1 (en) * 2013-07-30 2019-03-13 Dolby International AB Panning of audio objects to arbitrary speaker layouts
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
US10042037B2 (en) * 2014-02-20 2018-08-07 Nestwave Sas System and method for estimating time of arrival (TOA)
EP2942982A1 (en) * 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering
ES2833424T3 (es) 2014-05-13 2021-06-15 Fraunhofer Ges Forschung Aparato y método para panoramización de amplitud de atenuación de bordes
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
CN111866022B (zh) 2015-02-03 2022-08-30 杜比实验室特许公司 感知质量比会议中原始听到的更高的后会议回放系统
EP3254456B1 (en) 2015-02-03 2020-12-30 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
WO2017004584A1 (en) 2015-07-02 2017-01-05 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
EP3332557B1 (en) 2015-08-07 2019-06-19 Dolby Laboratories Licensing Corporation Processing object-based audio signals
CN105117111B (zh) * 2015-09-23 2019-11-15 小米科技有限责任公司 虚拟现实交互画面的渲染方法和装置
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
CN107710323B (zh) 2016-01-22 2022-07-19 弗劳恩霍夫应用研究促进协会 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US9949052B2 (en) 2016-03-22 2018-04-17 Dolby Laboratories Licensing Corporation Adaptive panner of audio objects
US20170293461A1 (en) * 2016-04-07 2017-10-12 VideoStitch Inc. Graphical placement of immersive audio sources
GB2551780A (en) 2016-06-30 2018-01-03 Nokia Technologies Oy An apparatus, method and computer program for obtaining audio signals
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US10820097B2 (en) * 2016-09-29 2020-10-27 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
WO2018090356A1 (en) * 2016-11-21 2018-05-24 Microsoft Technology Licensing, Llc Automatic dubbing method and apparatus
KR20180090022A (ko) * 2017-02-02 2018-08-10 한국전자통신연구원 다중 전방향 카메라 및 마이크 기반 가상현실 제공 방법 및 가상 현실 제공 방법을 수행하는 음향 신호 처리 장치 및 영상 신호 처리 장치
GB2561595A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Ambience generation for spatial audio mixing featuring use of original and extended signal
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
KR102568365B1 (ko) 2017-07-14 2023-08-18 프라운 호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 깊이-확장형 DirAC 기술 또는 기타 기술을 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
BR112020000759A2 (pt) * 2017-07-14 2020-07-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro
EP3652735A1 (en) * 2017-07-14 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
GB2566992A (en) 2017-09-29 2019-04-03 Nokia Technologies Oy Recording and rendering spatial audio signals
CA3076703C (en) * 2017-10-04 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
TWI690921B (zh) * 2018-08-24 2020-04-11 緯創資通股份有限公司 收音處理裝置及其收音處理方法
WO2021018378A1 (en) 2019-07-29 2021-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for processing a sound field representation in a spatial transform domain
CN110853657B (zh) * 2019-11-18 2022-05-13 北京小米智能科技有限公司 空间划分方法、装置及存储介质
GB2590650A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy The merging of spatial audio parameters
WO2022115803A1 (en) * 2020-11-30 2022-06-02 The Regents Of The University Of California Systems and methods for sound-enhanced meeting platforms
GB2602148A (en) * 2020-12-21 2022-06-22 Nokia Technologies Oy Audio rendering with spatial metadata interpolation and source position information
CN113708868B (zh) * 2021-08-27 2023-06-27 国网安徽省电力有限公司池州供电公司 一种多拾音设备的调度系统及其调度方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0905933A3 (de) * 1997-09-24 2004-03-24 STUDER Professional Audio AG Verfahren und Vorrichtung zum Mischen von Tonsignalen
AUPR989802A0 (en) * 2002-01-09 2002-01-31 Lake Technology Limited Interactive spatialized audiovisual system
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
EP1647010B1 (de) * 2003-07-21 2017-09-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiodateiformatumwandlung
EP1509065B1 (en) * 2003-08-21 2006-04-26 Bernafon Ag Method for processing audio-signals
US7483519B2 (en) * 2003-12-23 2009-01-27 At&T Intellectual Property I, L.P. Caller controlled systems to suppress system to de-activate 911 indicator
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
BRPI0608753B1 (pt) 2005-03-30 2019-12-24 Koninl Philips Electronics Nv codificador de áudio, decodificador de áudio, método para codificar um sinal de áudio de multicanal, método para gerar um sinal de áudio de multicanal, sinal de áudio de multicanal codificado, e meio de armazenamento
KR20070108302A (ko) 2005-10-14 2007-11-09 삼성전자주식회사 오디오 데이터의 확장에 대한 스케러빌러티를 지원하는부호화 방법 및 장치, 그 복호화 방법 및 장치
DE102005057406A1 (de) * 2005-11-30 2007-06-06 Valenzuela, Carlos Alberto, Dr.-Ing. Verfahren zur Aufnahme einer Tonquelle mit zeitlich variabler Richtcharakteristik und zur Wiedergabe sowie System zur Durchführung des Verfahrens
EP2369836B1 (en) 2006-05-19 2014-04-23 Electronics and Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
ES2380059T3 (es) * 2006-07-07 2012-05-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US8131542B2 (en) * 2007-06-08 2012-03-06 Honda Motor Co., Ltd. Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2154910A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
JP5540492B2 (ja) 2008-10-29 2014-07-02 富士通株式会社 通信装置、効果音出力制御プログラム及び効果音出力制御方法
ES2690164T3 (es) 2009-06-25 2018-11-19 Dts Licensing Limited Dispositivo y método para convertir una señal de audio espacial
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US8731923B2 (en) * 2010-08-20 2014-05-20 Adacel Systems, Inc. System and method for merging audio data streams for use in speech recognition applications

Also Published As

Publication number Publication date
MX2014006199A (es) 2014-12-08
BR112014013336B1 (pt) 2021-08-24
CA2857614C (en) 2019-09-24
AU2012343819C1 (en) 2017-11-02
US20130142341A1 (en) 2013-06-06
RU2014126818A (ru) 2016-01-27
JP2015502573A (ja) 2015-01-22
HK1202181A1 (en) 2015-09-18
SG11201402777QA (en) 2014-06-27
AR089053A1 (es) 2014-07-23
CN104185869A (zh) 2014-12-03
EP2786374C0 (en) 2024-05-01
EP2786374B1 (en) 2024-05-01
US9484038B2 (en) 2016-11-01
CA2857614A1 (en) 2013-06-06
BR112014013336A2 (pt) 2021-01-26
WO2013079663A3 (en) 2013-10-24
EP2786374A2 (en) 2014-10-08
WO2013079663A2 (en) 2013-06-06
MX342794B (es) 2016-10-12
AU2012343819B2 (en) 2016-05-12
AU2018200613A1 (en) 2018-02-08
ZA201404823B (en) 2015-11-25
TWI555412B (zh) 2016-10-21
MY167160A (en) 2018-08-13
CN104185869B (zh) 2017-10-17
KR101666730B1 (ko) 2016-10-14
KR20140097555A (ko) 2014-08-06
IN2014KN01069A (ja) 2015-10-09
AU2012343819A1 (en) 2014-07-24
AU2016202604A1 (en) 2016-05-19
RU2609102C2 (ru) 2017-01-30
CN104185869B9 (zh) 2018-01-12
EP2600343A1 (en) 2013-06-05
TW201334580A (zh) 2013-08-16

Similar Documents

Publication Publication Date Title
JP6086923B2 (ja) 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
JP5878549B2 (ja) 幾何ベースの空間オーディオ符号化のための装置および方法
JP5814476B2 (ja) 空間パワー密度に基づくマイクロフォン位置決め装置および方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150616

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150909

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160531

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170131

R150 Certificate of patent or registration of utility model

Ref document number: 6086923

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250