CN103460285A - 用于以几何为基础的空间音频编码的装置及方法 - Google Patents

用于以几何为基础的空间音频编码的装置及方法 Download PDF

Info

Publication number
CN103460285A
CN103460285A CN2011800667950A CN201180066795A CN103460285A CN 103460285 A CN103460285 A CN 103460285A CN 2011800667950 A CN2011800667950 A CN 2011800667950A CN 201180066795 A CN201180066795 A CN 201180066795A CN 103460285 A CN103460285 A CN 103460285A
Authority
CN
China
Prior art keywords
sound source
data stream
sound
audio
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800667950A
Other languages
English (en)
Other versions
CN103460285B (zh
Inventor
乔瓦尼·德尔加尔多
奥利弗·蒂尔加特
于尔根·赫莱
法比安·库奇
埃马努埃尔·哈贝茨
亚历山大拉·克拉琼
阿希姆·昆茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Friedrich Alexander Univeritaet Erlangen Nuernberg FAU filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN103460285A publication Critical patent/CN103460285A/zh
Application granted granted Critical
Publication of CN103460285B publication Critical patent/CN103460285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]

Abstract

本发明提供了一种用于根据包含与一个或多个声源的音频数据相关的音频数据流来产生至少一个音频输出信号的装置。此装置包含用于接收包含音频数据的音频数据流的接收器。音频数据包含各个声源的一个或多个压力值。另外,音频数据针对各个声源包含表明一个声源的位置的一个或多个位置值。另外,此装置包含合成模块,用于根据音频数据流的音频数据的一个或多个压力值中的至少一个及根据音频数据流的音频数据的一个或多个位置值中的至少一个,来产生所述至少一个音频输出信号。

Description

用于以几何为基础的空间音频编码的装置及方法
技术领域
本发明是关于音频处理,尤其是关于用于以几何为基础的空间音频编码的装置及方法。
背景技术
音频处理,更具体地,空间音频编码变得越来越重要。传统空间声音记录旨在捕获声场,以使得在再生侧,收听者如在记录位置一样感知声像。由目前技术水平已知空间声音记录及再生技术的不同方法,这些方法可基于声道、对象或参数表示。
以声道为基础的表示(channel-based representation)通过意味着通过以已知配置排列的N个扬声器(例如5.1环绕声配置)回放的N个离散音频信号表示声音场景。空间声音记录的方法通常使用例如,AB立体声的间隔的全向麦克风,或例如强度立体声的重合定向麦克风。或者,可使用例如Ambisonics的更高级麦克风,诸如B格式麦克风,参见:
[1]Michael A.Gerzon.Ambisonics in multichannel broadcasting andvideo.J.Audio Eng.Soc,33(11):859–871,1985.
直接从记录的麦克风信号中导出已知配置的期望扬声器信号且然后离散地传输或存储。通过将音频编码应用至离散信号获得更有效表示,在一些情况下,该音频编码共同编码不同声道的信息以增加效率,例如在5.1的MPEG环绕中,参见:
[21]J.Herre,K.J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.
Figure BDA00003614417100012
W.Oomen,K.Linzmeier,K.S.Chong:“MPEG Surround–The ISO/MPEG Standard for Efficient andCompatible Multichannel Audio Coding”,122nd AES Convention,Vienna,Austria,2007,Preprint7084.
这些技术的主要缺点为:一旦已计算出扬声器信号,则声音场景不可修改。
例如,在空间音频对象编码(SAOC)中使用以对象为基础的表示(object-based representation),参见:
[25]Jeroen Breebaart,Jonas 
Figure BDA00003614417100021
Cornelia Falch,OliverHellmuth,Johannes Hilpert,Andreas Hoelzer,Jeroens Koppens,WernerOomen,Barbara Resch,Erik Schuijers,and Leonid Terentiev.Spatial audioobject coding(saoc)-the upcoming mpeg standard on parametric object basedaudio coding.In Audio Engineering Society Convention124,52008.
以对象为基础的表示使用N个离散音频对象表示声音场景。由于可通过改变例如各对象的位置及响度,来操控声音场景,故该表示在再生侧赋予出高灵活性(flexibility)。虽然可易于从例如多轨记录中可得该表示,但很难从使用几个麦克风记录的复合声音场景中获得该表示(参见,例如[21])。实际上,通话器(或其它发音对象)必须首先经定位,然后从混合物中提取,这可导致非自然信号(artifact)。
参数表示(parametric representation)常常使用空间麦克风,以决定一个或多个音频降混信号以及描述空间声音的空间边信息。一个例子为定向音频编码(DirAC),在下文中论述:
[29]Ville Pulkki.Spatial sound reproduction with directional audiocoding.J.Audio Eng.Soc,55(6):503–516,June2007。
术语“空间麦克风”指能够重新获得(retrieve,检索)声音的抵达方向的用于获取空间声音的任何装置(例如,定向麦克风的组合、麦克风阵列等)。
术语“非空间麦克风”指不适于重新获得声音的抵达方向的任何装置,诸如单个全向或定向麦克风。
在下文给出另一例子:
[23]C.Faller.Microphone front-ends for spatial audio coders.In Proc.ofthe AES125th International Convention,San Francisco,Oct.2008。
在DirAC中,空间信号信息包含声音的抵达方向(DOA)及以时频域计算的声场的扩散度。对于声音再生,可根据参数描述导出音频回放信号。这些技术在再生侧提供大的灵活性,因为可使用任意扬声器配置,因为表示特别灵活且紧凑,由于该表示包含降混单音频信号及边信息(sideinformation),且因为该表示允许声音场景的易于修改,例如声陡变、定向滤波、场景合并等。
然而,这些技术仍为存在局限,因为所记录空间影像总是与所使用的空间麦克风有关。因此,不可变化声视点且不可改变声音场景内的收听位置。
在下文提供了一种虚拟麦克风方法:
[22]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,and E.A.P.Habets.Generating virtual microphone signals using geometrical informationgathered by distributed arrays.In Third Joint Workshop on Hands-free SpeechCommunication and Microphone Arrays(HSCMA’11),Edinburgh,UnitedKingdom,May2011。
该方法允许计算环境中随意(亦即,任意位置及方位)虚拟放置的任意空间麦克风的输出信号。表征虚拟麦克风(VM)方法的灵活性允许声音场景在后处理步骤中随意虚拟捕获,但是不能获得声场表示,该声场表示可用以有效地传输和/或存储和/或修改声音场景。另外,假设每个时频点仅一个源为有效的,因此,若在相同时频点有两个或更多源为有效的,则不能正确描述声音场景。另外,若在接收器侧应用虚拟麦克风(VM),则需要在声道上发送所有麦克风信号,这使得表示低效,而若在发射器侧应用VM,则不可进一步操控声音场景且模型失去灵活性且变得限于某一扬声器配置。另外,没有考虑根据参数信息操控声音场景。
在下文中:
[24]Emmanuel Gallo and Nicolas Tsingos.Extracting and re-renderingstructured auditory scenes from field recordings.In AES30th InternationalConference on Intelligent Audio Environments,2007,
声源位置估计是基于通过分布式麦克风所测量的成对抵达时差。另外,接收器取决于记录且需要用于合成的所有麦克风信号(例如扬声器信号的产生)。
在下文提供的方法中:
[28]Svein Berge.Device and method for converting spatial audio signal.US patent application,Appl.No.10/547,151
类似于DirAC,使用抵达方向作为参数,因此将表示限于声音场景的特定视点。另外,由于在通讯系统的相同侧需要应用分析及合成两者,故该方法没有提出传输/存储声音场景表示的可能性。
发明内容
本发明的目标为提供用于经由提取几何信息的空间声音获取及描述的改良概念。通过根据权利要求1所述的用于基于音频数据流产生至少一个音频输出信号的装置、根据权利要求10的产生音频数据流的装置、根据权利要求19的系统、根据权利要求20的音频数据流、根据权利要求23的用于产生至少一个音频输出信号的方法、根据权利要求24的用于产生音频数据流的方法及根据权利要求25的计算机程序,来实现本发明的目标。
本发明提供一种用于根据包含与一个或多个声源相关的音频数据的音频数据流产生至少一个音频输出信号的装置。此装置包含用于接收包含音频数据的音频数据流的接收器。音频数据包含各个声源的一个或多个压力值。另外,音频数据针对所述声源中的各个声源包含表明所述声源中的一个的位置的一个或多个位置值。另外,此装置包含合成模块,用于根据音频数据流的音频数据的一个或多个压力值中的至少一个及根据音频数据流的音频数据的一个或多个位置值中的至少一个,产生至少一个音频输出信号。在一实施方式中,一个或多个位置值中的各个位置值可包含至少两个坐标值。
音频数据可针对多个时频点(time-frequency bin)中的一时频点被定义。或者,音频数据可针对多个时刻(time instant)中的一个时刻被定义。在一些实施方式中,可针对多个时刻中的一个时刻定义音频数据的一个或多个压力值,而相应参数(例如位置值)可以在时频域中定义。这很容易通过将以时频不同定义的压力值转换回时域而获得。对于所述声源中的各个声源,至少一个压力值包含在音频数据中,其中至少一个压力值可为与例如从声源的所发出声波相关的压力值。压力值可为音频信号的值,例如,由用于产生虚拟麦克风的音频输出信号的装置产生的音频输出信号的压力值,其中虚拟麦克风放置在声源的位置。
上述实施方式允许计算实际独立于记录位置的声场表示,且提供复合声音场景的有效传输及存储,以及提供在再生系统易于修改及增加的灵活性。
特别地,此技术的重要优点为:在再生侧,收听者可在所记录的声音场景内自由选择该收听者的位置、使用任何扬声器配置、以及根据几何信息额外地操控声音场景,例如以位置为基础的滤波。换言之,使用所提出技术,可变化声视点(acoustic viewpoint)且可改变声音场景内的收听位置。
根据上述实施方式,音频数据流中包含的音频数据包含各个声源的一个或多个压力值。因此,压力值表明与其中一个声源相关且与记录麦克风的位置无关的音频信号,例如源自声源的音频信号。类似地,音频数据流中包含的一个或多个位置值表明声源而非麦克风的位置。
由此,实现了多个优点:举例而言,实现了可使用很少位编码的音频场景的表示。若声音场景仅包含在特别时频点中的单个声源,则仅与该唯一声源相关的单个音频信号的压力值必须与表明该声源的位置的位置值一起编码。相反,传统方法可能必须编码来自多个所记录的麦克风信号的多个压力值,以在接收器处重建音频场景。另外,如下文将描述,上述实施方式允许易于修改发射器以及接收器侧的声音场景。因此,亦可在接收器侧执行场景组成(例如,判定声音场景内的收听位置)。
一些实施方式采用借助于声源(例如点状声源(PLS=点状声源),例如,各向同性点状声源(IPLS))建模复杂声音场景的概念,这些声源在以时频表示的特定槽(slot)中是有效的(active),例如由短时间傅立叶转换(STFT)所提供的时隙。
根据一实施方式,接收器可适于接收包含音频数据的音频数据流,其中音频数据进一步包含针对各个声源的一个或多个扩散度值。合成模块可适于根据一个或多个扩散度值中的至少一个,产生至少一个音频输出信号。
在另一实施方式中,接收器可进一步包含修改模块,该修改模块用于通过修改音频数据的一个或多个压力值中的至少一个、通过修改音频数据的一个或多个位置值中的至少一个或通过修改音频数据的扩散度值中的至少一个,来修改所接收音频数据流的音频数据。合成模块可适于根据经修改的至少一个压力值、根据经修改的至少一个位置值或根据经修改的至少一个扩散度值,来产生至少一个音频输出信号。
在另一实施方式中,所述声源中的各个声源的位置值中的各个位置值可包含至少两个坐标值。另外,修改模块可适于在坐标值表明声源位于环境的预定区域内的位置时,通过将至少一个随机数增加至坐标值,来修改坐标值。
根据另一实施方式中,所述声源中的各个声源的位置值中的各个位置值可包含至少两个坐标值。另外,修改模块适于在坐标值表明声源位于环境的预定区域内的位置时,通过在坐标值上应用确定性函数来修改坐标值。
在另一实施方式中,所述声源中的各个声源的位置值中的各个位置值可包含至少两个坐标值。另外,修改模块可适于在坐标值表明声源位于环境的预定区域内的位置时,修改关于与坐标值相同的声源的音频数据的一个或多个压力值中的选定压力值。
根据一实施方式,合成模块可包含第一阶段合成单元及第二阶段合成单元。第一阶段合成单元可适于根据音频数据流的音频数据的一个或多个压力值中的至少一个、根据音频数据流的音频数据的一个或多个位置值中的至少一个及根据音频数据流的音频数据的一个或多个扩散度值中的至少一个,来产生包含直接声音的直接压力信号、包含扩散声音的扩散压力信号及抵达方向信息。第二阶段合成单元可适于根据直接压力信号、扩散压力信号及抵达方向信息,来产生至少一个音频输出信号。
根据一实施方式,提供了一种用于产生包含关于一个或多个声源的声源数据的音频数据流的装置。用于产生音频数据流的装置包含决定器(determiner),该决定器用于根据由至少一个麦克风记录的至少一个音频输入信号及根据由至少两个空间麦克风提供的音频边信息,来决定声源数据。另外,此装置包含用于产生音频数据流,以使得音频数据流包含声源数据的数据流产生器。声源数据包含各个声源的一个或多个压力值。另外,声源数据进一步包含表明各个声源的声源位置的一个或多个位置值。另外,声源数据针对多个时频点中的一个时频点而被定义。
在另一实施方式中,决定器可适于根据扩散度信息,通过至少一个空间麦克风来决定声源数据。数据流产生器可适于产生音频数据流,以使得音频数据流包含声源数据。声源数据进一步包含各个声源的一个或多个扩散度值。
在另一实施方式中,用于产生音频数据流的装置可进一步包含修改模块,该修改模块用于通过修改与声源中的至少一个相关的音频数据的压力值中的至少一个、音频数据的位置值中的至少一个或音频数据的扩散度值中的至少一个,来修改由数据流产生器产生的音频数据流。
根据另一实施方式,所述声源中的各个声源的位置值中的各个位置值可包含至少两个坐标值(例如笛卡耳坐标系统的两个坐标,或极坐标系统中的方位角及距离)。修改模块可适于在坐标值表明声源位于环境的预定区域内的位置时,通过将至少一个随机数增加至坐标值或通过在坐标值上应用确定性函数来修改坐标值。
根据又一实施方式,提供了一种音频数据流。音频数据流可包含与一个或多个声源相关的音频数据,其中音频数据包含所述声源中的各个声源的一个或多个压力值。音频数据可进一步包含表明各个声源的声源位置的至少一个位置值。在一实施方式中,所述至少一个位置值中的各个位置值可包含至少两个坐标值。音频数据可被定义用于多个时频点中的一个时频点。
在另一实施方式中,音频数据进一步包含各个声源的一个或多个扩散度值。
附图说明
下文将描述本发明的优选实施方式,其中:
图1示出根据一实施方式的用于根据包含与一个或多个声源相关的音频数据的音频数据流产生至少一个音频输出信号的装置,
图2示出根据一实施方式的用于产生包含关于一个或多个声源的声源数据的音频数据流的装置,
图3A至图3C示出根据不同实施方式的音频数据流,
图4示出根据另一实施方式的用于产生包含关于一个或多个声源的声源数据的音频数据流的装置,
图5示出由两个声源及两个均匀线性麦克风阵列组成的声音场景,
图6A示出根据一实施方式,用于根据音频数据流,产生至少一个音频输出信号的装置600,
图6B示出根据一实施方式,用于产生包含关于一个或多个声源的声源数据的音频数据流的装置660,
图7示出根据一实施方式的修改模块,
图8示出根据另一实施方式的修改模块,
图9示出根据一实施方式的发射器/分析单元及接收器/合成单元,
图10A示出根据一实施方式的合成模块,
图10B示出根据一实施方式的第一合成阶段单元,
图10C示出根据一实施方式的第二合成阶段单元,
图11示出根据另一实施方式的合成模块,
图12示出根据一实施方式的用于产生虚拟麦克风的音频输出信号的装置,
图13示出根据一实施方式的用于产生虚拟麦克风的音频输出信号的装置及方法的输入及输出,
图14示出根据一实施方式的包含声音事件位置估计器及信息计算模块、用于产生虚拟麦克风的音频输出信号的装置的基本结构,
图15示出真实空间麦克风描绘为各3个麦克风的均匀线性阵列的示例性情境,
图16示出用于估计3D空间中抵达方向的3D的两个空间麦克风,
图17示出当前时频点(k,n)的各向同性点状声源位于位置pIPLS(k,n)的几何排列,
图18示出根据一实施方式的信息计算模块,
图19示出根据另一实施方式的信息计算模块,
图20示出两个真实空间麦克风、经定位的声音事件、及虚空间麦克风的位置,
图21示出根据一实施方式如何获得关于虚拟麦克风的抵达方向,
图22示出根据一实施方式由虚拟麦克风的视点导出声音的DOA的可能方式,
图23示出根据一实施方式的包含扩散度计算单元的信息计算块,
图24示出根据一实施方式的扩散度计算单元,
图25示出不可能估计声音事件位置的情境,
图26示出根据一实施方式的用于产生虚拟麦克风数据流的装置,
图27示出根据另一实施方式的用于根据音频数据流产生至少一个音频输出信号的装置,以及
图28A至图28C示出两个麦克风阵列接收直接声音、由墙反射的声音及扩散声音的情境。
具体实施方式
在提供本发明的实施方式的详细描述之前,描述一种用于产生虚拟麦克风的音频输出信号的装置,以提供关于本发明的概念的背景信息。
图12示出用于产生音频输出信号以仿真在环境中的可配置虚拟位置posVmic处的麦克风的记录的装置。此装置包含声音事件位置估计器110及信息计算模块120。声音事件位置估计器110接收来自第一真实空间麦克风的第一方向信息di1及来自第二真实空间麦克风的第二方向信息di2。声音事件位置估计器110适于估计表明环境中发出声波的声源的位置的声源位置ssp,其中声音事件位置估计器110适于根据由位于环境中第一真实麦克风位置pos1mic的第一真实空间麦克风提供的第一方向信息di1,及根据由位于环境中第二真实麦克风位置的第二真实空间麦克风提供的第二方向信息di2,估计声源位置ssp。信息计算模块120适于根据由第一真实空间麦克风记录的第一记录音频输入信号is1、根据第一真实麦克风位置pos1mic及根据虚拟麦克风的虚拟位置posVmic,产生音频输出信号。信息计算模块120包含传播补偿器,该传播补偿器适于通过调整第一记录音频输入信号is1的振幅值、量值或相位值,来通过补偿由第一真实空间麦克风处的声源发出的声波的抵达与虚拟麦克风处的声波的抵达之间的第一延迟或振幅衰减,来通过修改第一记录音频输入信号is1,产生第一经修改音频信号。
图13示出根据一实施方式的装置及方法的输入及输出。将来自两个或更多真实空间麦克风111、112、...、11N的信息馈至装置/通过所述方法处理。该信息包含由真实空间麦克风拾取的音频信号以及来自真实空间麦克风的方向信息,例如抵达方向(DOA)估值。可以在时频域中表达音频信号及诸如抵达方向估值的方向信息。例如,若期望2D几何重建且选择传统短时间傅立叶转换(STFT)域用于信号的表示,则DOA可表示为依赖于k及n(即频率和时间索引)的方位角。
在一些实施方式中,可根据常见坐标系统中真实及虚空间麦克风的位置及方位,来实施空间中声音事件定位,以及虚拟麦克风的位置的描述。可以第13图中输入121...12N及输入104来表示该信息。如下文将论述,输入104可额外说明虚空间麦克风的特征,例如,该虚空间麦克风的位置及拾取模式。若虚空间麦克风包含多个虚拟传感器,则可考虑这些虚拟传感器的位置及相应不同拾取模式。
当期望时,装置或相应方法的输出可为可通过按照由104说明进行定义及放置的空间麦克风拾取的一个或多个声音信号105。另外,此装置(或者说方法)可提供可通过使用虚空间麦克风估计的相应空间边信息106作为输出。
图14示出根据一实施方式的装置,该装置包含两个主处理单元:声音事件位置估计器201及信息计算模块202。声音事件位置估计器201可根据输入111...11N中包含的DOA及根据对计算DOA的真实空间麦克风的位置及方位的认识,来执行几何重建。声音事件位置估计器的输出205包含声源的位置估值(在2D或3D中),其中每个时频点发生声音事件。第二处理块202为信息计算模块。根据图14的实施方式,第二处理块202计算虚拟麦克风信号及空间边信息。因此,该第二处理块202亦称为虚拟麦克风信号及边信息计算块202。虚拟麦克风信号及边信息计算块202使用声音事件的位置205,来处理111…11N中包含的音频信号,以输出虚拟麦克风音频信号105。若需要,块202亦可计算对应于虚空间麦克风的空间边信息106。以下一些实施方式示出块201及202可如何操作的可能性。
在下文中,更详细地描述根据一实施方式的声音事件位置估计器的位置估计。
取决于问题的维数(2D或3D)及空间麦克风的数量,可以有若干位置估计方案。
若在2D中存在两个空间麦克风,则(最简单可能的情况)可以进行简单三角测量(triangulation)。图15示出真实空间麦克风描绘为各3个麦克风的均匀线性阵列(ULA)的示例性情境。计算时频点(k,n)的表示为方位角al(k,n)及a2(k,n)的DOA。这通过使用适当DOA估计器来实现,例如ESPRIT,
[13]R.Roy,A.Paulraj,and T.Kailath,“Direction-of-arrival estimationby subspace rotation methods–ESPRIT,”in IEEE International Conferenceon Acoustics,Speech,and Signal Processing(ICASSP),Stanford,CA,USA,April1986,
或(root)MUSIC,参见
[14]R.Schmidt,“Multiple emitter location and signal parameterestimation,”IEEE Transactions on Antennas and Propagation,vol.34,no.3,pp.276-280,1986
至转变成为时频域的压力信号。
在图15中,示出两个真实空间麦克风,此处为两个真实空间麦克风阵列410、420。通过两条线表示两个估计DOA al(k,n)及a2(k,n),第一线430表示DOA al(k,n),而第二线440表示DOA a2(k,n)。经由简单的几何考虑了解的每个阵列的位置及方位,三角测量是可能的。
当两条线430、440完全平行时,三角测量失败。然而,在实际应用中,此状况不太可能。然而,并非所有三角测量结果对应于所考虑空间中声音事件的物理位置或可行位置。举例而言,声音事件的估计位置可离假设空间非常远或甚至位于假设空间外,表明DOA可能不对应于能用所使用的模型物理地解释的任何声音事件。可能由传感器噪声或非常强的房间交混回响造成这些结果。因此,根据一实施方式,标记这些不期望结果,以使得信息计算模块202可适当地处理这些结果。
图16示出在3D空间中估计声音事件的位置的情境。使用了适当空间麦克风,例如,平面或3D麦克风阵列。在图16中,示出第一空间麦克风510(例如,第一3D麦克风阵列),及第二空间麦克风520(例如,第一3D麦克风阵列)。3D空间中的DOA可例如,表示为方位角及仰角。可使用单位向量530、540来表示DOA。根据DOA投影两条线550、560。在3D中,即使有非常可靠估值,根据DOA所投影的两条线550、560也不可能相交。然而,例如,可通过选择连接两条线的最小线段的中点来仍执行三角测量。
类似于2D的情况,三角测量可能失败或可能产生某些方向组合的不可行结果,然后可亦将这些不可行结果标记至例如图14的信息计算模块202。
若存在多于两个空间麦克风,则可以有若干方案。举例而言,可对所有真实空间麦克风对(若N=3,则1与2,1与3,及2与3)执行以上所阐释的三角测量。然后可将所得位置平均(沿x及y,以及若考虑到3D,z)。
或者,可使用更复杂的概念。举例而言,可应用机率方法,如下文中所描述:
[15]J.Michael Steele,“Optimal Triangulation of Random Samples in thePlane”,The Annals of Probability,Vol.10,No.3(Aug.,1982),pp.548-553.
根据一实施方式,可以例如,经由短时间傅立叶转换(STFT)所获得的时频域分析声场,其中k及n分别表示频率索引k及时间索引n。某一k及n的任意位置pv处的复合压力Pv(k,n)通过例如使用以下公式建模为由窄带各向同性点状源发出的单个球面波:
Pv(k,n)=PIPLS(k,n)·γ(k,pIPLS(k,n),pv),    (1)
其中PIPLS(k,n)为由IPLS在该IPLS的位置pIPLS(k,n)处发出的信号。复合因子γ(k,pIPLS,pv)表示从pIPLS(k,n)至pv的传播,例如,该复合因子γ引入合适相位及量值修改。此处,可应用假设:在每个时频点中仅一个IPLS为有效的。然而,在单一时间实体(single time instance)处,位于不同位置的多个窄带IPLS也可为有效的。
每个IPLS建模直接声音或清楚的房间反射。该IPLS的位置pIPLS(k,n)可理想地分别对应于位于房间内部的实际声源,或位于外面的镜像声源。因此,位置pIPLS(k,n)亦可表明声音事件的位置。
请注意,术语“真实声源”表示物理存在于记录环境中的实际声源,诸如通话器或乐器。相反,我们使用“声源”或“声音事件”或“IPLS”指有效声源,这些有效声源在某些时刻或在某些时频点为有效的,其中声源可表示例如真实声源或镜像源。
图28A至图28B示出定位声源的麦克风阵列。定位声源可取决于这些定位声源的性质具有不同的物理解释。当麦克风阵列接收直接声音时,这些麦克风阵列能够定位正确声源(例如,通话器)的位置。当麦克风阵列接收反射时,这些麦克风阵列可定位镜像源的位置。镜像源亦为声源。
图28A示出两个麦克风阵列151及152接收来自实际声源(物理存在声源)153的直接声音的情境。
图28B示出两个麦克风阵列161、162接收反射声音的情境,其中声音由墙反射。由于反射,麦克风阵列161、162将看起来声音来自该处的位置定位在镜像源165的位置,该位置不同于话筒163的位置。
图28A的实际声源153以及镜像源165两者均为声源。
图28C示出两个麦克风阵列171、172接收扩散声音且不能够定位声源的情境。
在源信号满足W分离正交性(WDO)条件的情况下,亦即,时频重迭足够小,而该单波模型只有在柔和交混回响环境中为准确的。这对于语音信号通常为正确的,参见,例如,
[12]S.Rickard and Z.Yilmaz,“On the approximate W-disjointorthogonality of speech,”in Acoustics,Speech and Signal Processing,2002.ICASSP2002.IEEE International Conference on,April2002,vol.1.
然而,此模型亦提供对于其它环境的良好估值且因此也适用于那些环境。
在下文中,阐释了根据一实施方式的位置pIPLS(k,n)的估计。有效IPLS的位置pIPLS(k,n)处于某一时频点,且因此,经由根据在至少两个不同观测点测量的声音的抵达方向(DOA)的三角测量来估计时频点中声音事件的估值。
图17示出几何排列(geometry),其中当前时频槽(time-frequency slot)(k,n)的IPLS被定位于未知位置pIPLS(k,n)。为决定所需DOA信息,使用具有已知几何、位置及方位的两个真实空间麦克风,此处为两个麦克风阵列,该两个真实空间麦克风分别放置在位置610及620。向量p1及p2分别指向位置610、620。通过单位向量c1及c2定义阵列方位。对于每个(k,n),使用例如,如由DirAC分析(参见[2]、[3])所提供的DOA估值算法,来决定位置610及620中声音的DOA。由此,可提供关于麦克风阵列的视点的第一视点单位向量
Figure BDA00003614417100141
及第二视点单位向量
Figure BDA00003614417100142
(两者在图17中均未示出)作为DirAC分析的输出。举例而言,当在2D中操作时,第一视点单位向量得到:
如图17中所示,此处,
Figure BDA00003614417100152
表示第一麦克风阵列处估计的DOA的方位角。当在2D中操作且c1=[c1,x,c1,y]T时,可通过应用以下公式计算关于原点处的整体坐标系统的相应DOA单位向量e1(k,n)及e2(k,n),该公式如下:
e 1 ( k , n ) = R 1 · e 1 POV ( k , n ) ,
e 2 ( k , n ) = R 2 · e 2 POV ( k , n ) , - - - ( 3 )
其中R为坐标变换矩阵,例如,
R 1 = c 1 , x - c 1 , y c 1 , y c 1 , x , - - - ( 4 )
为执行三角测量,方向向量d1(k,n)及d2(k,n)可计算为:
d1(k,n)=d1(k,n)e1(k,n),
d2(k,n)=d2(k,n)e2(k,n),    (5)
其中,d1(k,n)=||d1(k,n)||及d2(k,n)=||d2(k,n)||为IPLS与两个麦克风阵列之间的未知距离。以下等式
p1+d1(k,n)=p2+d2(k,n)     (6)
可求出d1(k,n)。最后,IPLS的位置pIPLS(k,n)由以下等式获得:
pIPLS(k,n)=d1(k,n)e1(k,n)+p1.      (7)
在另一实施方式中,等式(6)可求出d2(k,n)且使用d2(k,n)类似地计算pIPLS(k,n)。
除非e1(k,n)与e2(k,n)平行,否则等式(6)总是提供当在2D中操作时的方案。然而,当使用多于两个麦克风阵列或当在3D中操作时,当方向向量d不相交时,方案不可获得。根据一实施方式,在此情况下,计算出最靠近所有方向向量d的点且该结果可用作IPLS的位置。
在一实施方式中,所有观测点p1、p2…应被定位为使得由IPLS发出的声音落入相同时间块n。当观测点中的任何两者之间的距离Δ小于
Δ max = c n FFT ( 1 - R ) f s , - - - ( 8 )
时,可简单地满足该要求,其中nFFT为STFT时窗长度,0≦R<1指定连续时间帧之间的重迭且fs为取样频率。举例而言,对于48kHz、具有50%重迭(R=0.5)的1024点STFT,满足上述要求的阵列之间的最大间隔为Δ=3.65m。
在下文中,更详细地描述根据一实施方式的信息计算模块202,例如,虚拟麦克风信号及边信息计算模块。
图18示出根据一实施方式的信息计算模块202的示意性总览。信息计算单元包含传播补偿器500、组合器510及频谱加权单元520。信息计算模块202接收由声音事件位置估计器所估计的声源位置估值ssp,通过真实空间麦克风中的一个或多个、真实空间麦克风中的一个或多个的位置posRealMic,及虚拟麦克风的虚拟位置posVmic,来记录一个或多个音频输入信号。该信息计算模块202输出表示虚拟麦克风的音频信号的音频输出信号os。
图19示出根据另一实施方式的信息计算模块。图19图的信息计算模块包含传播补偿器500、组合器510及频谱加权单元520。传播补偿器500包含传播参数计算模块501及传播补偿模块504。组合器510包含组合因子计算模块502及组合模块505。频谱加权单元520包含频谱加权计算单元503、频谱加权应用模块506及空间边信息计算模块507。
为计算虚拟麦克风的音频信号,将几何信息,例如,真实空间麦克风121...12N的位置及方位、虚空间麦克风的位置、方位及特征104,及声音事件的位置估值205馈至信息计算模块202中,特别地,馈至传播补偿器500的传播参数计算模块501中、馈至组合器510的组合因子计算模块502中及馈至频谱加权单元520的频谱加权计算单元503中。传播参数计算模块501、组合因子计算模块502及频谱加权计算单元503计算在传播补偿模块504、组合模块505及频谱加权应用模块506的音频信号111...11N的修改中所使用的参数。
在信息计算模块202中,可首先修改音频信号111...11N,以补偿由声音事件位置与真实空间麦克风之间的不同传播长度造成的效果。然后可将信号组合以改良,例如,信杂比(SNR)。最后,然后可光谱地加权所得信号,以将虚拟麦克风的定向拾取模式,以及任何距离依赖增益函数纳入考虑。下文更详细地论述该三个步骤。
现更详细地阐释传播补偿。在图20的上部部分中,示出出两个真实空间麦克风(第一麦克风阵列910及第二麦克风阵列920)、时频点(k,n)的定位声音事件930的位置、及虚空间麦克风940的位置。
图20的下部部分描绘时间轴。假设声音事件在时间t0处发出,然后传播至真实及虚空间麦克风。抵达时间延迟以及振幅随距离而改变,使得传播长度越远,振幅越弱且抵达时间延迟越长。
只有当两个真实阵列之间的相对延迟Dt12小时,该两个真实阵列的信号才为可比较的。否则,两个信号中的一个必须短暂地重新对准以补偿相对延迟Dt12,且可能需要按比例调整以补偿不同衰减。
补偿虚拟麦克风处的抵达与真实麦克风阵列(真实空间麦克风中的一者)处的抵达之间的延迟,改变独立于声音事件的定位的延迟,进而使得对于大多数应用,该补偿为多余的。
回到图19,传播参数计算模块501适于计算各真实空间麦克风及各声音事件的待校正的延迟。若期望,则该传播参数计算模块501也计算待考虑补偿不同振幅衰减的增益因子。
传播补偿模块504被配置为使用该信息来据此修改音频信号。若欲将信号移位少量时间(与滤波器组的时窗相比),则简单的相位旋转足够。若延迟较大,则需要更复杂地实施。
传播补偿模块504的输出为在初始时频域中表达的修改音频信号。
在下文中,将参照图17描述根据一实施方式的虚拟麦克风的传播补偿的特定估计,图17特别示出第一真实空间麦克风的位置610及第二真实空间麦克风的位置620。
在现在阐释的实施方式中,假设至少一个第一记录音频输入信号,例如,真实空间麦克风(例如,麦克风阵列)中的至少一个的压力信号是可获得的,例如,第一真实空间麦克风的压力信号。我们将把所考虑麦克风称为参考麦克风,把该麦克风的位置称为参考位置pref且把该麦克风的压力信号称为参考压力信号Pref(k,n)。然而,传播补偿不仅可关于仅一个压力信号进行,而且可关于多个或所有真实空间麦克风的压力信号进行。
由IPLS发出的压力信号PIPLS(k,n)与位于Pref的参考麦克风的参考压力信号Pref(k,n)之间的关系可以公式(9)表达:
Pref(k,n)=PIPLS(k,n)·γ(k,pIPLS,pref),    (9)
通常,复合因子γ(k,pa,pb)表示由从pa中球面波的原点至pb的球面波的传播引入的相位旋转及振幅衰减。然而,实践测试表明,与还考虑到相位旋转相比,仅考虑到γ中的振幅衰减导致虚拟麦克风信号具有明显较少非自然信号的看似可信的印象。
可在空间中的某一点处测量的声能强烈依赖于距声源(在图6中距声源的位置pIPLS)的距离r。在许多情况下,可以足够准确度使用熟知物理原理建模该依赖性,例如,在点源的远场中的声压的1/r衰减。当参考麦克风,例如,第一真实麦克风,距声源的距离已知时,且当虚拟麦克风距声源的距离亦已知时,则可由参考麦克风(例如第一真实空间麦克风)的信号及能量来估计虚拟麦克风的位置处的声能。这意味着可通过将适当增益施加至参考压力信号来获得虚拟麦克风的输出信号。
假设第一真实空间麦克风为参考麦克风,则pref=p1。在图17中,虚拟麦克风位于pv。由于详细已知的图17中的几何排列,故可易于决定参考麦克风(图17:第一真实空间麦克风)与IPLS之间的距离d1(k,n)=||d1(k,n)||,以及虚拟麦克风与IPLS之间的距离s(k,n)=||s(k,n)||,即
s(k,n)=||s(k,n)||=||p1+d1(k,n)-pv||.    (10)
通过将公式(1)及(9)组合,计算虚拟麦克风的位置处的声压Pv(k,n),产生
P v ( k , n ) = γ ( k , p IPLS , p v ) γ ( k , p IPLS , p ref ) P ref ( k , n ) . - - - ( 11 )
如上所述,在一些实施方式中,因子γ可仅考虑由于传播造成的振幅衰减。假设,例如,声压以1/r减小,则:
P v ( k , n ) = d 1 ( k , n ) s ( k , n ) P ref ( k , n ) . - - - ( 12 )
当公式(1)中的模型保持时,例如,当仅存在直接声音时,则公式(12)可准确地重建量信息。然而,在纯扩散声场的情况下,例如,当不满足模型假设时,当将虚拟麦克风移动远离传感器阵列的位置时,所提供方法产生信号的隐性去交混回响。实际上,如以上所论述,在扩散声场中,我们预期大多数IPLS被定位接近两个传感器阵列。因此,当将虚拟麦克风移动远离这些位置时,我们可能增加图17中的距离s=||s||。因此,当根据公式(11)应用加权时,参考压力的量值减少。相应地,当将虚拟麦克风移动接近于实际声源时,将放大对应于直接声音的时频点,以使得将较少扩散地感知全部音频信号。通过调整公式(12)中的规则,可随意控制直接声音放大及扩散声音抑制。
通过进行第一真实空间麦克风的记录音频输入信号(例如,压力信号)的传播补偿,获得第一经修改音频信号。
在一些实施方式中,可通过进行第二真实空间麦克风的记录第二音频输入信号(第二压力信号)的传播补偿,获得第二经修改音频信号。
在其它实施方式中,可通过进行另外真实空间麦克风的记录的另外的音频输入信号(另外的压力信号)的传播补偿,获得另外的音频信号。
现更详细地阐释根据一实施方式的图19图中块502与505的组合。假设已修改来自多个不同真实空间麦克风的两个或更多音频信号来补偿不同传播路径,以获得两个或更多经修改音频信号。一旦已修改来自不同真实空间麦克风的音频信号,以补偿不同传播路径,则可将这些音频信号组合以改良音频质量。通过如此做,例如,可增加SNR或可减少交混回响感。
组合的可能方案包含:
-加权平均,例如,考虑SNR,或至虚拟麦克风的距离,或由真实空间麦克风估计的扩散度。传统方案,例如,可使用最大比值组合(MRC)或均等增益组合(EQC),或
-线性组合一些或所有修改音频信号,以获得组合信号。修改音频信号可以线性组合加权,以获得组合信号,或
-选择,例如,取决于例如SNR或距离或扩散度,仅使用一个信号。
模块502的任务为,在适用的情况下,计算用于在模块505中执行的组合的参数。
现更详细地描述根据一些实施方式的频谱加权。为此,参照了图19图的块503及506。在该最后步骤处,根据如由输入104所指定的虚空间麦克风的空间特征和/或根据重建几何排列(在205中给出),将由组合或由输入音频信号的传播补偿所得的音频信号以时频域加权。
如图21所示,对于每个时频点,几何再建允许我们易于获得相关于虚拟麦克风的DOA。另外,亦可易于计算虚拟麦克风与声音事件的位置之间的距离。
然后考虑期望虚拟麦克风的类型,计算时频点的加权。
在定向麦克风的情况下,可根据预定拾取模式计算频谱加权。举例而言,根据一实施方式,心形麦克风可具有由函数g(theta)定义的拾取模式,
g(theta)=0.5+0.5cos(theta),
其中theta为虚空间麦克风的查看方向(look direction)与来自虚拟麦克风的视点的声音的DOA之间的角度。
另一可能性为艺术(非物理)衰减函数。在某些应用中,可期望抑制声音事件远离具有因子大于表征自由场传播的因子的虚拟麦克风。为达此目的,一些实施方式引入依赖于虚拟麦克风与声音事件之间的距离的额外加权函数。在一实施方式中,仅应拾取距虚拟麦克风某一距离(例如,以米计)内的声音事件。
关于虚拟麦克风定向,虚拟麦克风可应用任意定向模式。如此做时,可将源与复合声音场景分开。
由于可以虚拟麦克风的位置pv计算声音的DOA,即
其中cv为描述虚拟麦克风的方位的单位向量,可实现虚拟麦克风的任意定向。举例而言,假设Pv(k,n)表明组合信号或传播补偿的经修改音频信号,则公式:
计算具有心形定向的虚拟麦克风的输出。可潜在地以此方式产生的定向模式依赖于位置估计的准确度。
在一些实施方式中,除真实空间麦克风外,将一个或多个真实、非空间麦克风,例如,全向麦克风或诸如心形的定向麦克风,放置在声音场景中,以进一步改良图8中虚拟麦克风信号105的声音质量。这些麦克风不用以收集任何几何信息,而是仅用以提供更平整的音频信号。可放置这些麦克风比空间麦克风更接近声源。在此情况下,根据一实施方式,将真实、非空间麦克风的音频信号及这些麦克风的位置,而非真实空间麦克风的音频信号,简单地馈至图19图的传播补偿模块504,进行处理。然后关于一个或多个非空间麦克风的位置,进行非空间麦克风的一个或多个记录音频信号的传播补偿。通过此举,使用额外非空间麦克风实现一实施方式。
在另一实施方式中,实现了虚拟麦克风的空间边信息的计算。为计算麦克风的空间边信息106,图19图的信息计算模块202包含空间边信息计算模块507,该空间边信息计算模块507适于接收声源的位置205及虚拟麦克风的位置、方位及特征104作为输入。在某些实施方式中,根据需要计算的边信息106,亦可将虚拟麦克风的音频信号105作为至空间边信息计算模块507的输入纳入考虑。
空间边信息计算模块507的输出为虚拟麦克风的边信息106。该边信息可为,例如,来自虚拟麦克风的视点的每个时频点(k,n)的声音的DOA或扩散度。另一可能边信息可,例如,为已在虚拟麦克风的位置测量的有效声音强度向量Ia(k,n)。现将描述如何导出这些参数。
根据一实施方式,实现了虚空间麦克风的DOA估计。如图22所示,信息计算模块120适于根据虚拟麦克风位置向量及根据声音事件位置向量,估计虚拟麦克风处的抵达方向作为空间边信息。
图22示出从虚拟麦克风的视点导出声音的DOA的可能方式。可使用位置向量r(k,n),即声音事件位置向量来描述每个时频点(k,n)的由图19图中块205所提供的声音事件的位置。类似地,可使用位置向量s(k,n),即虚拟麦克风位置向量,来描述图19图中作为输入104所提供的虚拟麦克风的位置。可通过向量v(k,n)描述虚拟麦克风的查看方向。通过a(k,n)给出关于虚拟麦克风的DOA。a(k,n)表示v与声音传播路径h(k,n)之间的角度。可通过使用以下公式计算h(k,n):
h(k,n)=s(k,n)-r(k,n)。
现可计算各(k,n)的期望DOA a(k,n),例如,经由h(k,n)及v(k,n)的点积的定义,即
a(k,n)=arcos(h(k,n)·v(k,n)/(||h(k,n)||||v(k,n)||)。
如图22图所示,在另一实施方式中,信息计算模块120可适于根据虚拟麦克风位置向量及根据声音事件位置向量,估计虚拟麦克风处的有效声音强度作为空间边信息。
由以上所定义的DOA a(k,n),我们可导出虚拟麦克风的位置处的有效声音强度Ia(k,n)。为此,假设图19中虚拟麦克风音频信号105对应于全向麦克风的输出,例如,我们假设,虚拟麦克风为全向麦克风。另外,假设图22中的查看方向v平行于坐标系统的x轴。由于期望有效声音强度向量Ia(k,n)描述经由虚拟麦克风的位置的能量的净流量,故我们可计算Ia(k,n),例如,根据以下公式:
Ia(k,n)=-(1/2rho)|Pv(k,n)|2*[cos a(k,n),sin a(k,n)]T
其中,[]T表示转置向量,rho为空气密度,且Pv(k,n)为由虚空间麦克风,例如,图19中块506的输出105所测量的声压。
若要计算以一般坐标系统表示,但仍处于虚拟麦克风的位置处的有效强度向量,则可应用以下公式:
Ia(k,n)=(1/2rho)|Pv(k,n)|2h(k,n)/||h(k,n)||。
声音的扩散度表示在给定时频槽中,声场扩散如何(参见,例如[2])。以值ψ表示扩散度,其中0≦ψ≦1。扩散度1表明声场的总声场能量完全扩散。例如,在空间声音的再生中,该信息极其重要。传统地,在放置麦克风阵列的空间中的特定点处计算扩散度。
根据一实施方式,可将扩散度作为可随意放置在声音场景中任意位置处的虚拟麦克风(VM)的所产生边信息的附加参数来计算。通过此举,由于可产生DirAC流,即声音场景中任意点处的音频信号、抵达方向及扩散度,故除计算虚拟麦克风的虚拟位置处的音频信号外,亦计算扩散度的装置可视为虚拟DirAC前端。可在任意多扬声器配置上进一步处理、存储、传输、及回放DirAC流。在此情况下,收听者体验声音场景,犹如他或她在由虚拟麦克风指定的位置且以由虚拟麦克风的方位决定的方向查看。
图23示出根据一实施方式的信息计算块,包含用于计算虚拟麦克风处的扩散度的扩散度计算单元801。信息计算块202适于接收除图14的输入外,亦包括真实空间麦克风处的扩散度的输入111至11N。令ψ(SM1)至ψ(SMN)表示这些值。这些额外输入馈至信息计算模块202。扩散度计算单元801的输出103为在虚拟麦克风的位置处计算的扩散度参数。
在描绘更多细节的图24中示出出一实施方式的扩散度计算单元801。根据一实施方式,估计了N个空间麦克风中的每一个处的直接及扩散声音的能量。然后,使用IPLS的位置处的信息、及空间和虚拟麦克风的位置处的信息,获得虚拟麦克风的位置处的这些能量的N个估值。最后,可将估值组合以改良估计准确度且可易于计算虚拟麦克风处的扩散度参数。
Figure BDA00003614417100231
Figure BDA00003614417100232
Figure BDA00003614417100233
Figure BDA00003614417100234
表示由能量分析单元810计算的N个空间麦克风的直接及扩散声音的能量的估值。若Pi为复合压力信号且ψi为第i空间麦克风的扩散度,则可例如根据以下公式计算能量:
E dir ( SMi ) = ( 1 - Ψ i ) · | P i | 2
E diff ( SMi ) = Ψ i · | P i | 2
在所有位置,扩散声音的能量应相等,因此,虚拟麦克风处的扩散声音能量的估值
Figure BDA00003614417100237
可例如在扩散度组合单元820中,例如,根据以下公式简单地通过将
Figure BDA00003614417100238
Figure BDA00003614417100239
平均来计算:
E diff ( VM ) = 1 N Σ i = 1 N E diff ( SMi )
可通过考虑估计器的差异,例如,通过考虑SNR,来执行估值
Figure BDA00003614417100242
Figure BDA00003614417100243
的更有效组合。
由于传播,直接声音的能量依赖于至源的距离。因此,可修改
Figure BDA00003614417100244
Figure BDA00003614417100245
以将此纳入考虑。这可例如通过直接声音传播调整单元830来执行。举例而言,若假设直接声场的能量随距离平方衰减1,则可根据以下公式计算第i空间麦克风的虚拟麦克风处的直接声音的估值:
Figure BDA00003614417100246
类似于扩散度组合单元820,可例如通过直接声音组合单元840将在不同空间麦克风处所获得的直接声能的估值组合。结果为
Figure BDA00003614417100247
例如,在虚拟麦克风处的直接声能的估值。可例如通过扩散度子计算器850,例如根据以下公式计算虚拟麦克风处的扩散度ψ(VM)
Ψ ( VM ) = E diff ( VM ) E diff ( VM ) + E dir ( VM )
如上所述,在一些情况下,声音事件位置估计器来执行的声音事件位置估计失败,例如,在错误的抵达方向估计的情况下。图25示出该情境。在这些情况下,不管在不同空间麦克风处所估计的扩散度参数且由于接收作为输入111至11N,由于不可能有空间连贯再生,虚拟麦克风的扩散度103可设置为1(亦即,完全扩散)。
另外,可考虑在N个空间麦克风处的DOA估值的可靠性。这可例如按照DOA估计器的差异或SNR来表示。可由扩散度子计算器850将该信息纳入考虑,以便在DOA估值不可靠的情况下,可人为地增加VM扩散度103。实际上,因此,位置估值205亦将是不可靠的。
图1示出根据一实施方式的用于根据包含与一个或多个声源相关的音频数据的音频数据流,产生至少一个音频输出信号的装置150。
装置150包含用于接收包含音频数据的音频数据流的接收器160。音频数据包含一个或多个所述声源中的各个声源的一个或多个压力值。另外,音频数据包含表明所述声源中的各个声源的其中一个声源的位置的一个或多个位置值。另外,此装置包含合成模块170,该合成模块170用于根据音频数据流的音频数据的一个或多个压力值中的至少一个及根据音频数据流的音频数据的一个或多个位置值中的至少一个,产生至少一个音频输出信号。针对多个时频点中一个时频点定义音频数据。对于所述声源中的各个声源,至少一个压力值包含在音频数据中,其中至少一个压力值可为关于例如,源自声源的所发出声波的压力值。压力值可为音频信号的值,例如,由用于产生虚拟麦克风的音频输出信号的装置产生的音频输出信号的压力值,其中虚拟麦克风放置在声源的位置。
因此,图1示出可使用于接收或处理所提及音频数据流的装置150,亦即,可在接收器/合成侧使用的装置150。音频数据流包含音频数据,该音频数据包含多个所述声源中的各个声源的一个或多个压力值及一个或多个位置值,亦即,关于记录的音频场景的一个或多个声源的特定声源的压力值及位置值中的各个位置值。这意味着位置值表明声源而非记录麦克风的位置。关于压力值,这意味着音频数据流包含所述声源中的各个声源的一个或多个压力值,亦即,压力值表明关于声源而非关于真实空间麦克风的记录的音频信号。
根据一实施方式,接收器160可适于接收包含音频数据的音频数据流,其中音频数据进一步包含所述声源中的各个声源的一个或多个扩散度值。合成模块170可适于根据一个或多个扩散度值中的至少一个,产生至少一个音频输出信号。
图2示出根据一实施方式的用于产生包含关于一个或多个声源的声源数据的音频数据流的装置200。用于产生音频数据流的装置200包含决定器210,该决定器210用于根据由至少一个空间麦克风记录的至少一个音频输入信号及根据由至少两个空间麦克风提供的音频边信息,来决定声源数据。另外,装置200包含用于产生音频数据流,以使得音频数据流包含声源数据的数据流产生器220。声源数据包含所述声源中的各个声源的一个或多个压力值。另外,声源数据进一步包含表明所述声源中的各个声源的声源位置的一个或多个位置值。另外,针对多个时频点中的一个时频点定义声源数据。
然后可传输由装置200产生的音频数据流。因此,可在分析/发射器侧使用装置200。音频数据流包含音频数据,该音频数据包含多个所述声源中的各个声源的一个或多个压力值及一个或多个位置值,亦即,关于记录的音频场景的一个或多个声源的特定声源的压力值及位置值中的各个位置值。这意味着关于位置值,位置值表明声源而非记录麦克风的位置。
在另一实施方式中,决定器210可适于根据扩散度信息,通过至少一个空间麦克风决定声源数据。数据流产生器220可适于产生音频数据流,以使得音频数据流包含声源数据。声源数据进一步包含所述声源中的各个声源的一个或多个扩散度值。
图3A示出根据一实施方式的音频数据流。音频数据流包含关于在一时频点为有效的两个声源的音频数据。特别地,第3a示出时频点(k,n)的音频数据传输,其中k表示频率索引(frequency index)且n表示时间索引(time index)。音频数据包含第一声源的压力值P1、位置值Q1及扩散度值ψ1。位置值Q1包含表明第一声源的位置的三个坐标值X1、Y1及Z1。另外,音频数据包含第二声源的压力值P2、位置值Q2及扩散度值ψ2。位置值Q2包含表明第二声源的位置的三个坐标值X2、Y2及Z2。
图3B示出根据另一实施方式的音频流。而且,音频数据包含第一声源的压力值P1、位置值Q1及扩散度值ψ1。位置值Q1包含表明第一声源的位置的三个坐标值X1、Y1及Z1。另外,音频数据包含第二声源的压力值P2、位置值Q2及扩散度值ψ2。位置值Q2包含表明第二声源的位置的三个坐标值X2、Y2及Z2。
图3C提供音频数据流的另一图示。由于音频数据流提供以几何为基础的空间音频编码(GAC)信息,故该音频数据流亦称为“以几何为基础的空间音频编码流”或“GAC流”。音频数据流包含关于一个或多个声源(例如一个或多个各向同性点状源(IPLS))的信息。如以上已阐释的,GAC流可包含以下信号,其中k及n表示所考虑时频点的频率索引及时间索引:
·P(k,n):声源(例如,IPLS)处的复合压力。该信号可包含直接声音(源自IPLS自身的声音)及扩散声音。
·Q(k,n):声源(例如,IPLS)的位置(例如,3D中笛卡儿坐标):例如,位置可包含笛卡儿坐标X(k,n)、Y(k,n)、Z(k,n)。
·IPLS处的扩散度:ψ(k,n)。该参数与P(k,n)中包含的直接扩散声音的功率比有关。若P(k,n)=Pdir(k,n)+Pdiff(k,n),则表示扩散度的一可能性为ψ(k,n)=|Pdiff(k,n)|2/|P(k,n)|2。若已知|P(k,n)|2,则可得其它等效表示,例如,直接扩散比(DDR)Γ=|Pdir(k,n)|2/|Pdiff(k,n)|2
如前所述,k及n分别表示频率索引及时间索引。如果期望并且如果分析允许,可在给定时频槽表示多于一个IPLS。此在图3C中描绘为M多层,以便使用Pi(k,n)表示第i层(亦即,第i IPLS)的压力信号。为方便起见,IPLS的位置可表示为向量Qi(k,n)=[Xi(k,n),Yi(k,n),Zi(k,n)]T。不同于目前技术水平,将GAC流的所有参数关于一个或多个声源,例如,关于IPLS来表示,因此实现了独立于记录位置。在图3C中,以及在图3A及图3B中,所有图中的量在时频域中考虑;为简单起见,省略(k,n)标注,例如,Pi是指Pi(k,n),例如Pi=Pi(k,n)。
在下文中,更详细地阐释根据一实施方式的用于产生音频数据流的装置。如图2的装置一样,图4的装置包含决定器210及可类似于决定器210的数据流产生器220。由于决定器分析音频输入数据,以决定声源数据,数据流产生器根据该声源数据产生音频数据流,故决定器及数据流产生器可共同称为“分析模块”(参见图4的分析模块410)。
分析模块410计算来自N个空间麦克风的记录的GAC流。取决于期望层的数量M(例如,声源的数量,其中对于特定时频点,信息应包含在音频数据流中),可想到空间麦克风的类型及数量N、用于分析的不同方法。在下文给出几个实例。
作为第一实例,考虑每一个时频槽一个声源(例如一个IPLS)的进行参数估计。在M=1的情况下,可使用对于用于产生虚拟麦克风的音频输出信号的装置的以上阐释的概念易于获得GAC流,其中虚空间麦克风可放置在声源的位置,例如,IPLS的位置。此允许计算IPLS的位置处的压力信号,以及相应位置估值,且可计算扩散度。该三个参数在GAC流中分在一组且可在传输或存储之前,通过图8中模块102进一步操控。
举例而言,决定器可通过使用对于用于产生虚拟麦克风的音频输出信号的装置的声音事件位置估计所提出的概念,决定声源的位置。另外,决定器可包含用于产生音频输出信号的装置且可使用声源的决定位置作为虚拟麦克风的位置,以计算声源的位置处的压力值(例如,待产生的音频输出信号的值)及扩散度。
特别地,决定器210(例如,在图4中)被配置为决定压力信号、相应位置估值及相应扩散度,而数据流产生器220被配置为根据所计算的压力信号、位置估值及扩散度,产生音频数据流。
作为另一实例,考虑每个时频槽2个声源(例如2个IPLS)地进行参数估计。若分析模块410估计两个声源每时频点,则可使用以下基于现有估计器的概念。
图5示出由两个声源及两个均匀线性麦克风阵列组成的声音场景。参照ESPRIT,参见
[26]R.Roy and T.Kailath.ESPRIT-estimation of signal parameters viarotational invariance techniques.Acoustics,Speech and Signal Processing,IEEE Transactions on,37(7):984–995,July1989.
可在各阵列处分开使用ESPRIT([26]),以获得各阵列处各时频点的两个DOA估值。由于配对不确定性(pairing ambiguity),这导致源的位置的两个可能方案。由图5可见,通过(1,2)及(1’,2’)给出两个可能方案。为解决该不确定性,可应用以下方案。通过使用以所估计源位置的方向定向的波束形成器并应用适当因子以补偿传播(例如,乘以波所经受的衰减的倒数),来估计各源处发出的信号。对于每个可能方案,各阵列处的各源可执行此估计。我们则可将源的各对(i,j)的估测误差定义为:
Ei,j=|Pi,1-Pi,2|+|Pj,1-Pj,2|,    (1)
其中,(i,j)∈{(1,2),(1’,2’)}(参见图5)且Pi,l代表来自声源i、由阵列r所看到的补偿信号功率。对于正确声源对,错误为最小的。一旦解决了配对问题且计算了正确的DOA估值,则将它们连同对应压力信号及扩散度估值分组为GAC流。可使用对于一声源的参数估计已描述的相同方法,获得压力信号及扩散度估值。
图6A示出根据一实施方式的用于根据音频数据流产生至少一个音频输出信号的装置600。装置600包含接收器610及合成模块620。接收器610包含修改模块630,该修改模块630用于通过修改关于声源中的至少一个的音频数据的压力值中的至少一个、音频数据的位置值中的至少一个或音频数据的扩散度值中的至少一个,修改所接收音频数据流的音频数据。
图6B示出根据一实施方式的用于产生包含关于一个或多个声源的声源数据的音频数据流的装置660。用于产生音频数据流的装置包含决定器670、数据流产生器680及另一修改模块690,该另一修改模块690用于通过修改关于声源中的至少一个的音频数据的压力值中的至少一个、音频数据的位置值中的至少一个或音频数据的扩散度值中的至少一个,来修改由数据流产生器产生的音频数据流。
在接收器/合成侧使用图6A图的修改模块610,而在发射器/分析侧使用图6B图的修改模块660。
由修改模块610、660进行的音频数据流的修改亦可视为声音场景的修改。因此,修改模块610、660亦可称为声音场景操控模块。
由GAC流提供的声场表示允许音频数据流的不同种类的修改,亦即,因此,声音场景的操控。本文中一些实例为:
1.扩展声音场景中空间/体积的任意部分(例如,点状声源的扩展,以使得该点状声源对收听者呈现得较宽);
2.将空间/体积的选定部分转换至声音场景中空间/体积的任何其它任意部分(转换空间/体积可例如包含需要移动至新位置的源);
3.以位置为基础的滤波,其中增强或部分地/完全地抑制声音场景的选定区域。
在下文中,假设音频数据流(例如,GAC流)的层包含关于特定时频点的其中一个声源的所有音频数据。
图7示出根据一实施方式的修改模块。图7图的修改单元包含多路分配器(demultiplexer)401、操控处理器420及多路复用器(multiplexer)405。
多路分配器401被配置为分开M层GAC流的不同层且形成M个单层GAC流。另外,操控处理器420包含单元402、403及404,这些单元在各GAC流上分开应用。另外,多路复用器405被配置为由被操控的单层GAC流形成所得M层GAC流。
根据来自GAC流的位置数据及关于实际声源(例如,通话器)的位置的认识,对于每个时频点,能量可与某一真实声源相关联。压力值P则据此加权,以修改各自真实声源(例如,通话器)的响度。此需要真实声源(例如,通话器)的位置的先验信息或估值。
在一些实施方式中,若可得关于真实声源的位置的认识,则根据来自GAC流的位置数据,对于每个时频点,能量可与某一真实声源相关联。
可在用于产生图6A的至少一个音频输出信号的装置600的修改模块630处,即在用于产生图6B的音频数据流的装置660的接收器/合成侧和/或在修改模块690处,即在发射器/分析侧,发生音频数据流(例如,GAC流)的操控。
举例而言,可在传输之前,或在传输之后合成之前,修改音频数据流,即GAC流。
不同于接收器/合成侧的图6A的修改模块630,由于在发射器侧可得来自输入111至11N(记录的信号)及121至12N(空间麦克风的相对位置及方位)的额外信息,故发射器/分析侧处的图6B的修改模块690可利用该信息。使用该信息,可实现根据替代性实施方式的修改单元,在图8中描绘该修改单元。
图9通过示出系统的示意性总览描绘一实施方式,其中在发射器/分析侧产生GAC流,其中,选择性地,可通过发射器/分析侧处的修改模块102修改GAC流,其中可选择性地通过接收器/合成侧处的修改模块103修改GAC流,且其中GAC流用于产生多个音频输出信号191...19L。
在发射器/分析侧处,在单元101中,由输入111至11N,亦即,使用N≧2个空间麦克风记录的信号,及由输入121至12N,亦即空间麦克风的相对位置及方位,来计算声场表示(例如GAC流)。
单元101的输出为上述声场表示,该输出在下文中表示为以几何为基础的空间音频编码(GAC)流。类似于在下文:
[20]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,and E.A.P.Habets.Generating virtual microphone signals using geometrical informationgathered by distributed arrays.In Third Joint Workshop on Hands-free SpeechCommunication and Microphone Arrays(HSCMA’11),Edinburgh,UnitedKingdom,May2011.
的建议以及如对于用于产生可组配虚拟位置处的虚拟麦克风的音频输出信号的装置的描述,以声源(例如,各向同性点状声源(IPLS))的手段建模复合声音场景,该声源在以时频表示的特定槽为有效的,诸如由短时间傅立叶转换(STFT)所提供的时频表示。
可在也可称为操控单元的任选修改模块102中进一步处理GAC流。修改模块102允许多个应用。然后可传输或存储GAC流。GAC流的参数性质为高效的。在合成/接收器侧处,可使用又一任选修改模块(操控单元)103。所得GAC流进入产生扬声器信号的合成单元104。在表示独立于记录的情况下,再生侧处的终端用户可潜在操控声音场景且在声音场景内自由判断收听位置及方位。
可通过在模块102中在传输之前,或在合成103之前传输之后,据此修改GAC流,来在图9中修改模块102和/或103处发生音频数据流(例如,GAC流)的修改/操控。不同于接收器/合成端处的修改模块103,由于在发射器侧可得来自输入111至11N(由空间麦克风提供的音频数据)及121至12N(空间麦克风的相对位置及方位)的额外信息,故发射器/分析端处的修改模块102可利用该信息。图8示出使用该信息的修改模块的替代性实施方式。
在下文中,参照图7图及图8,描述GAC流的操控的不同概念的实例。具有相同参考信号的单元具有相同功能。
1.体积扩展
假设场景中某一能量定位于体积V内。体积V可表明环境的预定区域。Θ表示时频点(k,n)的集合,其中相应声源,例如,IPLS,定位在体积V内。
若期望体积V扩展至另一体积V’,则这可通过每当(k,n)∈Θ(在判断单元403中评估)且取代Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]T(为简明起见,略去索引层)时,将随机项增加至GAC流中的位置数据来实现,使得图7图及图8中单元404的输出431至43M变成
Q(k,n)=[X(k,n)+Φx(k,n);Y(k,n)+Φy(k,n)Z(k,n)+Φz(k,n)]T     (2)
其中,Φx、Φy及Φz为随机变量,该随机变量的范围取决于新体积V’相对于初始体积V的几何排列。例如,可使用该概念以使得感知声源较宽。在该实例中,初始体积V无穷小,亦即,声源(例如IPLS)应定位在相同点处,对于所有(k,n)∈Θ,Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]T。该机制可视为位置参数Q(k,n)的抖动形式。
根据一实施方式,所述声源中的各个声源的位置值中的各个位置值包含至少两个坐标值,且当坐标值表明声源位于环境的预定区域内的位置时,修改模块适于通过将至少一个随机数增加至坐标值来修改坐标值。
2.体积转换
除体积扩展外,可修改来自GAC流的位置数据,以再设置(relocate)声场内空间/体积的部分。在此情况下,同样,待操控数据包含定位能量(localized energy)的空间坐标。
V再次表示应该再设置的体积,且Θ表示所有时频点(k,n)的集合,其中能量定位于体积V内。此外,体积V可表明环境的预定区域。
可通过修改GAC流来实现体积再设置,以使得对于所有时频点(k,n)∈Θ,在单元404的输出431至43M处以f(Q(k,n))取代Q(k,n),其中f为描述待执行体积操控的空间坐标(X,Y,Z)的函数。函数f可表示简单线性转换,诸如,旋转、移位或任何其它复合非线性映射。此技术可用于,例如,通过确保Θ对应于时频点的设置,在声音场景内将声源从一个位置移动至另一位置,其中声源定位在体积V内。该技术允许整个声音场景的其它复合操控,诸如场景成镜像、场景旋转、场景扩大和/或压缩等。举例而言,通过在体积V上应用合适线性映射,可实现体积扩展的互补效果,亦即,体积收缩。这可通过将(k,n)∈Θ的Q(k,n)映射至f(Q(k,n))∈V’来达成,其中
Figure BDA00003614417100331
且V’包含显著小于V的体积。
根据一实施方式,当坐标值表明声源位于环境的预定区域内的位置时,修改模块适于通过在坐标值上应用确定性函数,来修改坐标值。
3.以位置为基础的滤波
以几何为基础的滤波(或以位置为基础的滤波)观念提供一种从声音场景增强或完全地/部分地移除空间/体积的部分的方法。然而,与体积扩展及转换技术相比,在此情况下,通过应用合适标量加权,仅修改来自GAC流的压力数据。
如图8中所描绘,在以几何为基础的滤波中,在发射器侧102与接收器侧修改模块103之间可制造区别,其中,该发射器侧102可使用输入111至11N及121至12N,以辅助合适滤波器加权的计算。假设目标为抑制/增强源自空间/体积V的选定部分的能量,则可如下应用以几何为基础的滤波:
对于所有(k,n)∈Θ,在402的输出,将GAC流中复合压力P(k,n)修改至ηP(k,n),其中η为通过例如单元402计算出的真实加权因子。在一些实施方式中,模块402亦可适于取决于扩散度,计算加权因子。
可在多个应用中使用以几何为基础的滤波的概念,例如,信号增强及源分离。一些应用及所要求的先验信息包含:
·去交混回响(dereverberation)。通过已知房间几何排列,空间滤波器可用于抑制定位在房间边界外、可由多路径传播引起的能量。本应用例如对于会议室及汽车中的免手持通讯具有好处。注意,为抑制晚期交混回响,在高扩散度的情况下接近滤波器是足够的,而为抑制早期反射,位置依赖性滤波器为更有效的。在此情况下,如已提及,需要先前已知房间的几何排列。
·背景噪声抑制。类似概念亦可用以抑制背景噪声。若已知可设置源的可能区域(例如,会议室中参与者的椅子或汽车中座位),则定位在这些区域外的能量与背景噪声相关联且因此通过空间滤波器抑制。本应用需要根据源的近似位置的GAC流的可得数据的先验信息或估值。
·点状干涉的抑制。若干涉在空间中清楚地定位而非扩散,则可应用以位置为基础的滤波,以弱化定位在干涉的位置的能量。这要求干涉的位置的先验信息或估值。
·回音控制。在此情况下,待抑制干涉为扬声器信号。为达此目的,类似于在点状干涉的情况下,抑制精确定位在扬声器位置或处于扬声器位置的近邻域处的能量。此需要扬声器位置的先验信息或估值。
·增强的语音检测。与以几何为基础的滤波发明相关联的信号增强技术可实施为例如,汽车中,常规语音有效性检测系统的预处理步骤。可使用去交混回响,或噪声抑制作为附加件(add-ons)以改良系统效能。
·监视。仅保留来自某些区域的能量而抑制其余区域的能量是在监视应用中常使用的技术。该技术需要感兴趣区域的几何排列及位置的先验信息。
·源分离。在具有多个同时有效源的环境中,可应用以几何为基础的空间滤波进行源分离。将适当设计的空间滤波器居中放置在源的位置,此导致其它同时有效源的抑制/衰减。可使用该创新例如作为在SAOC中的前端。需要源位置的先验信息或估值。
·位置依赖性自动增益控制(AGC)。在电信会议应用中,可使用位置依赖性加权以例如均衡化不同通话器的响度。
在下文中,描述根据一些实施方式的合成模块。根据一实施方式,合成模块可适于根据音频数据流的音频数据的至少一个压力值及根据音频数据流的音频数据的至少一个位置值,来产生至少一个音频输出信号。至少一个压力值可为压力信号(例如音频信号)的压力值。
GAC合成的操作原理根据对下文中所给出空间声音的感知的假设,
[27]WO2004077884:Tapio Lokki,Juha Merimaa,and Ville Pulkki.Method for reproducing natural or modified spatial impression in multichannellistening,2006.
特别地,可通过正确地再生各时频点的非扩散声音的一个抵达方向,来获得正确感知声音场景的空间影像必需的空间信号。因此将图10A所描绘的合成分成两个阶段。
第一阶段考虑声音场景内收听者的位置及方位,并决定对于各时频点,哪个M IPLS为支配性的。因此,可计算该支配性M IPLS的压力信号Pdir及抵达方向θ。在第二压力信号Pdiff中收集剩余源及扩散声音。
第二阶段与[27]中所描述的DirAC合成的后半部分一致。使用产生点状源的摇摄机制(panning mechanism)再生非扩散声音,而由已经去相关之后的所有扬声器再生扩散声音。
图10A示出根据一实施方式的说明GAC流的合成的合成模块。
第一阶段合成单元501计算需要不同回放的压力信号Pdir及Pdiff。实际上,Pdir包含必须在空间中连贯回放的声音,而Pdiff包含扩散声音。第一阶段合成单元501的第三输出为来自期望收听位置的视点的抵达方向(DOA)θ505,亦即,抵达方向信息。注意,若2D空间,则抵达方向(DOA)可表示为方位角,或在3D中为方位角与仰角对。等效地,可使用指向DOA的单位法线向量。DOA指定信号Pdir会来自哪个方向(关于期望收听位置)。第一阶段合成单元501采取GAC流作为输入,亦即,声场的参数表示,且根据由输入141指定的收听者位置及方位计算上述信号。实际上,终端用户可自由判断由GAC流描述的声音场景内的收听位置及方位。
第二阶段合成单元502根据对扬声器配置131的认识,计算L扬声器信号511至51L。请注意,单元502与[27]中所描述的DirAC合成的后半部分一致。
图10B示出根据一实施方式的第一合成阶段单元。提供至块的输入为由M个层组成的GAC流。在第一步骤中,单元601将M个层多路分配至各个层的M平行GAC流。
第i GAC流包含压力信号Pi、扩散度ψi及位置向量Qi=[Xi,Yi,Zi]T。压力信号Pi包含一个或多个压力值。位置向量为位置值。现根据这些值产生至少一个音频输出信号。
通过应用由扩散度ψi导出的适当因子,由Pi获得直接及扩散声音的压力信号Pdir,i及Pdiff,i。包含直接声音的压力信号进入传播补偿块602,该传播补偿块602计算对应于从声源位置(例如IPLS位置)至收听者位置的信号传播的延迟。除此之外,块亦计算对于补偿不同量衰减所需要的增益因子。在其它实施方式中,仅补偿不同量衰减,而不补偿延迟。
Figure BDA00003614417100361
表示的补偿压力信号进入块603,该块603输出最强输入的索引imax
i max = arg max i | P ‾ dir , i | 2 - - - ( 3 )
该机制的要点为在所研究的时频点有效的M个IPLS中,仅最强者(关于收听者位置)将连贯回放(亦即,作为直接声音)。块604及605从它们的输入选择由imax定义的输入。块607计算第imaxIPLS关于收听者的位置及方位(输入141)的抵达方向。块604的输出对应于块501的输出,即将通过块502回放作为直接声音的声音信号Pdir。扩散声音,即输出504Pdiff,包含M个分支中所有扩散声音的和以及所有直接声音信号
Figure BDA00003614417100364
第imax除外,即 ∀ j ≠ i max .
图10C示出第二合成阶段单元502。如已提及,该阶段与[27]中所提出的合成模块的后半部分一致。通过例如摇摄将非扩散声音Pdir503再生为点状源,在块701中根据抵达方向(505)计算该非扩散声音Pdir503的增益。另一方面,扩散声音,Pdiff,通过L个不同的去相关器(711至71L)。对于各L个扬声器信号,在通过反向滤波器组(703)之前,增加直接及扩散声音路径。
图11示出根据一替代性实施方式的合成模块。以时频域考虑图中的所有量;出于简明考虑,省略(k,n)标注,例如,Pi=Pi(k,n)。为改良再生的音频质量,在特定复合声音场景,例如,若干源同时有效的情况下,可,例如,如图11图所示实现合成模块,例如,合成模块104。代替选择待连贯再生的最支配性的IPLS,图11中的合成分开执行M层中的每一者的完全合成。来自第i层的L个扬声器信号为块502的输出且以191i至19Li表示。第一合成阶段单元501的输出处的第h扬声器信号19h为19h1至19hM的和。请注意,不同于图10B,对于M个层中的各层需要执行块607中的DOA估计步骤。
图26示出根据一实施方式的用于产生虚拟麦克风数据流的装置950。用于产生虚拟麦克风数据流的装置950包含装置960及装置970,该装置960用于根据上述实施方式的一个实施方式,例如,根据图12,产生虚拟麦克风的音频输出信号,且该装置970用于根据上述实施方式的一个实施方式,例如,根据图2,产生音频数据流,其中由用于产生音频数据流的装置970产生的音频数据流为虚拟麦克风数据流。
例如,图26中用于产生虚拟麦克风的音频输出信号的装置960包含如在图12中的声音事件位置估计器及信息计算模块。声音事件位置估计器适于估计表明环境中声源的位置的声源位置,其中声音事件位置估计器适于根据由位于环境中第一真实麦克风位置的第一真实空间麦克风提供的第一方向信息,及根据由位于环境中第二真实麦克风位置的第二真实空间麦克风提供的第二方向信息,来估计声源位置。信息计算模块适于根据记录的音频输入信号,根据第一真实麦克风位置及根据经计算麦克风位置,来产生音频输出信号。
用于产生虚拟麦克风的音频输出信号的装置960被布置为将音频输出信号提供至用于产生音频数据流的装置970。用于产生音频数据流的装置970包含决定器,例如,关于图2描述的决定器210。用于产生音频数据流的装置970的决定器根据由用于产生虚拟麦克风的音频输出信号的装置960提供的音频输出信号,决定声源数据。
图27示出根据上述实施方式中的一个的用于根据音频数据流产生至少一个音频输出信号的装置980,例如,根据权利要求1所述的装置,该装置被配置为根据作为音频数据流的虚拟麦克风数据流,来产生音频输出信号,该虚拟麦克风数据流由用于产生虚拟麦克风数据流的装置950(例如图26中的装置950)提供。
用于产生虚拟麦克风数据流的装置980将所产生的虚拟麦克风信号馈至用于根据音频数据流产生至少一个音频输出信号的装置980中。应注意,虚拟麦克风数据流为音频数据流。用于根据音频数据流产生至少一个音频输出信号的装置980,根据作为音频数据流的虚拟麦克风数据流,产生音频输出信号,例如,如关于图1的装置所描述。
虽然己针对装置描述了一些方面,但是很明显这些方面也表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,已针对方法步骤描述的方面也表示对应单元或项目或对应装置的特征的描述。
可将发明的分解信号存储于数字存储介质上或可传送到诸如无线传输介质的传输介质上或诸如因特网的有线传输介质上。
取决于某些实施要求,本发明的实施方式可以硬件或软件实施。可使用数字存储介质来执行实施方案,数字存储介质例如为软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,数字存储介质上存储有电子可读取控制信号,这些电子可读取控制信号与可编程计算机系统结合(或能够结合),以执行各个方法。
根据本发明的一些实施方式包含具有电子可读取控制信号的非瞬态数据载体,这些电子可读取控制信号能够与可编程计算机系统结合,以执行本文所述方法之一。
通常,本发明的实施方式可作为具有程序代码的计算机程序产品来实施,当计算机程序产品在计算机执行上时,该程序代码可操作用于执行方法之一。程序代码可例如存储于机器可读取载体上。
其它实施方式包含用于执行本文所述方法之一且存储于机器可读取载体上的计算机程序。
换言之,本发明方法的一实施方式因此为具有程序代码的计算机程序,当计算机程序在计算机上执行时,计算机程序用于执行本文所述的方法之一。
因此,本发明方法的又一实施方式为包含用于执行本文所述方法之一的计算机程序,且记录有计算机程序的数据载体(或数字存储介质,或计算机可读取介质)。
因此,本发明方法的又一实施方式为表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可例如被配置为经由数据通讯连接,例如经由因特网来进行转送。
又一实施方式包含被配置为或适于以执行本文所述方法之一的处理装置,例如计算机或可编程逻辑设备。
又一实施方式包含安装有用于执行本文所述方法之一的计算机程序的计算机。
在一些实施方式中,可编程逻辑设备(例如现场可编程门阵列)可用来执行本文所述方法的功能性中的一些或全部。在一些实施方式中,现场可编程门阵列可与微处理器结合以执行本文所述方法之一。通常,这些方法优选由任何硬件装置执行。
上述实施方式仅为说明本发明的原理。应理解,配置的修改及变化及本文所述的细节对于本领域技术人员将是显而易见的。因此,本发明仅受本申请权利要求书的范围限制,而不受以描述及阐释本文实施方式的方式提供的特定细节来限制。
参考文献:
[1]Michael A.Gerzon.Ambisonics in multichannel broadcasting andvideo.J.Audio Eng.Soc,33(11):859–871,1985.
[2]V.Pulkki,“Directional audio coding in spatial sound reproduction andstereo upmixing,”in Proceedings of the AES28th International Conference,pp.251-258,
Figure BDA00003614417100391
Sweden,June30-July2,2006.
[3]V.Pulkki,“Spatial sound reproduction with directional audio coding,”J.Audio Eng.Soc.,vol.55,no.6,pp.503-516,June2007.
[4]C.Faller:“Microphone Front-Ends for Spatial Audio Coders”,inProceedings of the AES125th International Convention,San Francisco,Oct.2008.
[5]M.Kallinger,H.Ochsenfeld,G.Del Galdo,F.Küch,D.Mahne,R.Schultz-Amling.and O.Thiergart,“A spatial filtering approach fordirectional audio coding,”in Audio Engineering Society Convention126,Munich,Germany,May2009.
[6]R.Schultz-Amling,F.Küch,O.Thiergart,and M.Kallinger,“Acoustical zooming based on a parametric sound field representation,”inAudio Engineering Society Convention128,London UK,May2010.
[7]J.Herre,C.Falch,D.Mahne,G.Del Galdo,M.Kallinger,and O.Thiergart,“Interactive teleconferencing combining spatial audio object codingand DirAC technology,”in Audio Engineering Society Convention128,London UK,May2010.
[8]E.G.Williams,Fourier Acoustics:Sound Radiation and NearfieldAcoustical Holography,Academic Press,1999.
[9]A.Kuntz and R.Rabenstein,“Limitations in the extrapolation of wavefields from circular measurements,”in15th European Signal ProcessingConference(EUSIPCO2007),2007.
[10]A.Walther and C.Faller,“Linear simulation of spaced microphonearrays using b-format recordings,”in Audio Engineering Society Convention128,London UK,May2010.
[11]US61/287,596:An Apparatus and a Method for Converting a FirstParametric Spatial Audio Signal into a Second Parametric Spatial AudioSignal.
[12]S.Rickard and Z.Yilmaz,“On the approximate W-disjointorthogonality of speech,”in Acoustics,Speech and Signal Processing,2002.ICASSP2002.IEEE International Conference on,April2002,vol.1.
[13]R.Roy,A.Paulraj,and T.Kailath,“Direction-of-arrival estimationby subspace rotation methods–ESPRIT,”in IEEE International Conference onAcoustics,Speech,and Signal Processing(ICASSP),Stanford,CA,USA,April1986.
[14]R.Schmidt,“Multiple emitter location and signal parameterestimation,”IEEE Transactions on Antennas and Propagation,vol.34,no.3,pp.276-280,1986.
[15]J.Michael Steele,“Optimal Triangulation of Random Samples in thePlane”,The Annals of Probability,Vol.10,No.3(Aug.,1982),pp.548-553.
[16]F.J.Fahy,Sound Intensity,Essex:Elsevier Science Publishers Ltd.,1989.
[17]R.Schultz-Amling,F.Küch,M.Kallinger,G.Del Galdo,T.Ahonenand V.Pulkki,“Planar microphone array processing for the analysis andreproduction of spatial audio using directional audio coding,”in AudioEngineering Society Convention124,Amsterdam,The Netherlands,May2008.
[18]M.Kallinger,F.Küch,R.Schultz-Amling,G.Del Galdo,T.Ahonenand V.Pulkki,“Enhanced direction estimation using microphone arrays fordirectional audio coding;”in Hands-Free Speech Communication andMicrophone Arrays,2008.HSCMA2008,May2008,pp.45-48.
[19]R.K.Furness,“Ambisonics-An overview,”in AES8th InternationalConference,April1990,pp.181-189.
[20]Giovanni Del Galdo,Oliver Thiergart,TobiasWeller,and E.A.P.Habets.Generating virtual microphone signals using geometrical informationgathered by distributed arrays.In Third Joint Workshop on Hands-free SpeechCommunication and Microphone Arrays(HSCMA’11),Edinburgh,UnitedKingdom,May2011.
[21]J.Herre,K.
Figure BDA00003614417100411
,J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.
Figure BDA00003614417100412
W.Oomen,K.Linzmeier,K.S.Chong:“MPEG Surround–The ISO/MPEG Standard for Efficient andCompatible Multichannel Audio Coding”,122nd AES Convention,Vienna,Austria,2007,Preprint7084.
[22]Giovanni Del Galdo,Oliver Thiergart,Tobias Weller,and E.A.P.Habets.Generating virtual microphone signals using geometrical informationgathered by distributed arrays.In Third Joint Workshop on Hands-free SpeechCommunication and Microphone Arrays(HSCMA’11),Edinburgh,UnitedKingdom,May2011.
[23]C.Faller.Microphone front-ends for spatial audio coders.In Proc.ofthe AES125th International Convention,San Francisco,Oct.2008.
[24]Emmanuel Gallo and Nicolas Tsingos.Extracting and re-renderingstructured auditory scenes from field recordings.In AES30th InternationalConference on Intelligent Audio Environments,2007.
[25]Jeroen Breebaart,Jonas 
Figure BDA00003614417100421
,Cornelia Falch,OliverHellmuth,Johannes Hilpert,Andreas Hoelzer,Jeroens Koppens,WernerOomen,Barbara Resch,Erik Schuijers,and Leonid Terentiev.Spatial audioobject coding(saoc)-the upcoming mpeg standard on parametric object basedaudio coding.In Audio Engineering Society Convention124,52008.
[26]R.Roy and T.Kailath.ESPRIT-estimation of signal parameters viarotational invariance techniques.Acoustics,Speech and Signal Processing,IEEE Transactions on,37(7):984–995,July1989.
[27]WO2004077884:Tapio Lokki,Juha Merimaa,and Ville Pulkki.Method for reproducing natural or modified spatial impression in multichannellistening,2006.
[28]Svein Berge.Device and method for converting spatial audio signal.US patent application,Appl.No.10/547,151.

Claims (25)

1.一种用于根据包括与一个或多个声源相关的音频数据的音频数据流产生至少一个音频输出信号的装置(150),其中,所述装置(150)包括:
接收器(160),用于接收包括所述音频数据的所述音频数据流,其中所述音频数据针对所述一个或多个声源中的各个声源包括一个或多个压力值,以及其中,所述音频数据进一步针对所述一个或多个声源中的各个声源包括表明所述声源中的一个声源的位置的一个或多个位置值,其中,所述一个或多个位置值中的各个位置值包括至少两个坐标值;以及
合成模块(170),用于根据所述音频数据流的所述音频数据的所述一个或多个压力值中的至少一个以及根据所述音频数据流的所述音频数据的所述一个或多个位置值中的至少一个来产生所述至少一个音频输出信号。
2.根据权利要求1所述的装置(150),其中,针对多个时频点中的一个时频点定义所述音频数据。
3.根据权利要求1或2所述的装置(150),
其中,所述接收器(160;610)适于接收包括所述音频数据的所述音频数据流,其中所述音频数据还包括所述声源中的各个声源的一个或多个扩散度值,
其中,所述合成模块(170;620)适于根据所述音频数据流的所述音频数据的所述一个或多个扩散度值中的至少一个来产生所述至少一个音频输出信号。
4.根据权利要求3所述的装置(150),
其中,所述接收器(160;610)还包括修改模块(630),所述修改模块用于通过修改所述音频数据的所述一个或多个压力值中的至少一个、通过修改所述音频数据的所述一个或多个位置值中的至少一个或通过修改所述音频数据的所述一个或多个扩散度值中的至少一个来修改所接收的音频数据流的所述音频数据,且
其中,所述合成模块(170;620)适于根据经修改的所述至少一个压力值、根据经修改的所述至少一个位置值或根据经修改的所述至少一个扩散度值来产生所述至少一个音频输出信号。
5.根据权利要求4所述的装置(150),其中,所述声源中的各个声源的所述位置值中的各个位置值包括至少两个坐标值,以及其中,所述修改模块(630)适于在所述坐标值表明声源位于环境的预定区域内的位置时,通过将至少一个随机数增加至所述坐标值来修改所述坐标值。
6.根据权利要求4所述的装置(150),其中,所述声源中的各个声源的所述位置值中的各个位置值包括至少两个坐标值,以及其中,所述修改模块(630)适于在所述坐标值表明声源位于环境的预定区域内的位置时,通过对所述坐标值应用确定性函数来修改所述坐标值。
7.根据权利要求4所述的装置(150),其中,所述声源中的各个声源的所述位置值中的各个位置值包括至少两个坐标值,以及其中,所述修改模块(630)适于在所述坐标值表明声源位于环境的预定区域内的位置时,修改所述音频数据的所述一个或多个压力值中的选定压力值,所述选定压力值与和所述坐标值相同的声源相关。
8.根据权利要求7所述的装置(150),其中,所述修改模块(630)适于在所述坐标值表明所述声源位于环境的所述预定区域内的所述位置时,根据所述一个或多个扩散度值中的一个来修改所述音频数据的所述一个或多个压力值中的所述选定压力值。
9.根据权利要求2至8中任一项所述的装置(150),其中,所述合成模块(630)包括:
第一阶段合成单元(501),用于根据所述音频数据流的所述音频数据的所述一个或多个压力值中的至少一个、根据所述音频数据流的所述音频数据的所述一个或多个位置值中的至少一个以及根据所述音频数据流的所述音频数据的所述一个或多个扩散度值中的至少一个来产生包括直接声音的直接压力信号、包括扩散声音的扩散压力信号及抵达方向信息;以及
第二阶段合成单元(502),用于根据所述直接压力信号、所述扩散压力信号及所述抵达方向信息来产生所述至少一个音频输出信号。
10.一种用于产生包括与一个或多个声源相关的声源数据的音频数据流的装置(200),其中,用于产生音频数据流的所述装置包括:
决定器(210;670),用于根据由至少一个麦克风记录的至少一个音频输入信号及根据由至少两个空间麦克风提供的音频边信息来决定所述声源数据;以及
数据流产生器(220;680),用于产生所述音频数据流使得所述音频数据流包括所述声源数据;
其中,所述声源数据包括所述声源中的各个声源的一个或多个压力值,其中,所述声源数据还包括表明所述声源中的各个声源的声源位置的一个或多个位置值;以及。
11.根据权利要求10所述的装置(200),其中,针对多个时频点中的一个时频点定义所述声源数据。
12.根据权利要求10或11所述的装置(200),其中,所述决定器(210;670)适于通过至少一个空间麦克风根据扩散度信息来决定所述声源数据;以及其中,所述数据流产生器(220;680)适于产生所述音频数据流使得所述音频数据流包括所述声源数据;其中,所述声源数据还包括所述声源中的各个声源的一个或多个扩散度值。
13.根据权利要求12所述的装置(200),其中,所述装置(200)还包括修改模块(690),所述修改模块(690)用于通过修改与所述声源中的至少一个声源相关的所述音频数据的所述压力值中的至少一个压力值、所述音频数据的所述位置值中的至少一个位置值或所述音频数据的所述扩散度值中的至少一个扩散度值来修改由所述数据流产生器产生的所述音频数据流。
14.根据权利要求13所述的装置(200),其中,所述声源中的各个声源的所述位置值中的各个位置值包括至少两个坐标值,以及其中,所述修改模块(690)适于在所述坐标值表明声源位于环境的预定区域内的位置时,通过将至少一个随机数增加至所述坐标值或通过对所述坐标值应用确定性函数来修改所述坐标值。
15.根据权利要求13所述的装置(200),其中,所述声源中的各个声源的所述位置值中的各个位置值包括至少两个坐标值,以及其中,所述修改模块(690)适于在所述坐标值表明声源位于环境的预定区域内的位置时,修改与和所述坐标值相同的所述声源相关的所述音频数据的所述一个或多个压力值中的选定压力值。
16.根据权利要求15所述的装置(200),其中,所述修改模块(690)适于根据所述至少一个音频输入信号中的至少一个来修改所述一个或多个压力值中的所述选定压力值。
17.一种用于产生虚拟麦克风数据流的装置(950),包括:
用于产生虚拟麦克风的音频输出信号的装置(960),及
根据权利要求10至13中任一项所述的装置(970),所述装置(970)用于产生音频数据流作为所述虚拟麦克风数据流,
其中,用于产生虚拟麦克风的音频输出信号的所述装置(960)包括:
声音事件位置估计器(110),用于估计表明所述环境中声源的位置的声源位置,其中,所述声音事件位置估计器(110)适于根据由位于所述环境中第一真实麦克风位置的第一真实空间麦克风所提供的第一方向信息、以及根据由位于所述环境中第二真实麦克风位置的第二真实空间麦克风所提供的第二方向信息来估计所述声源位置;以及
信息计算模块(120),用于根据记录音频输入信号、根据所述第一真实麦克风位置、以及根据计算出的麦克风位置来产生所述音频输出信号,
其中,用于产生虚拟麦克风的音频输出信号的装置(960)被配置为将所述音频输出信号提供至用于产生音频数据流的所述装置(970),
以及其中,用于产生音频数据流的所述装置(970)的所述决定器根据由用于产生虚拟麦克风的音频输出信号的所述装置(960)提供的所述音频输出信号来决定所述声源数据。
18.根据权利要求1至9中任一项所述的装置(980),所述装置(980)被配置为根据由根据权利要求17所述的用于产生虚拟麦克风数据流的装置(950)提供的作为所述音频数据流的虚拟麦克风数据流来产生所述音频输出信号。
19.一种系统,包括:
根据权利要求1至9中任一项或权利要求18所述的装置,及
根据权利要求10至16中任一项所述的装置。
20.一种包括与一个或多个声源相关的音频数据的音频数据流,其中,所述音频数据针对所述一个或多个声源中的各个声源包括一个或多个压力值,且
其中,所述音频数据还针对所述一个或多个声源中的各个声源包括表明声源位置的一个或多个位置值,其中,所述一个或多个位置值中的各个位置值包括至少两个坐标值。
21.根据权利要求20所述的音频数据流,其中,针对多个时频点中的一个时频点定义所述音频数据。
22.根据权利要求20或21所述的音频数据流,其中,所述音频数据还包括所述一个或多个声源中的各个声源的一个或多个扩散度值。
23.一种用于根据包括与一个或多个声源相关的音频数据的音频数据流来产生至少一个音频输出信号的方法,包括:
接收所述音频数据流,其中,所述音频数据流包括所述声源中的各个声源的一个或多个压力值,以及其中,所述音频数据流还包括表明所述声源中的各个声源的声源位置的一个或多个位置值;
决定所述压力值中的至少一部分来从所述音频流获取所获得的压力值以及决定所述位置值中的至少一部分来从所述音频流获取所获得的位置值;以及
根据所述所获得的压力值中的至少一部分及根据所述所获得的位置值中的至少一部分来决定所述至少一个音频输出信号。
24.一种用于产生包括与一个或多个声源相关的音频数据的音频数据流的方法,包括:
接收包括所述声源中的各个声源的至少一个压力值的音频数据,其中,所述音频数据还包括表明所述声源中的各个声源的声源位置的一个或多个位置值;
产生所述音频数据流,使得所述音频数据流包括所述声源中的各个声源的一个或多个压力值,以及使得所述音频数据流还包括表明所述声源中的各个声源的声源位置的一个或多个位置值。
25.一种计算机程序,用于在计算机或处理器上执行时,实施根据权利要求23或24所述的方法。
CN201180066795.0A 2010-12-03 2011-12-02 用于以几何为基础的空间音频编码的装置及方法 Active CN103460285B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US41962310P 2010-12-03 2010-12-03
US61/419,623 2010-12-03
US42009910P 2010-12-06 2010-12-06
US61/420,099 2010-12-06
PCT/EP2011/071644 WO2012072804A1 (en) 2010-12-03 2011-12-02 Apparatus and method for geometry-based spatial audio coding

Publications (2)

Publication Number Publication Date
CN103460285A true CN103460285A (zh) 2013-12-18
CN103460285B CN103460285B (zh) 2018-01-12

Family

ID=45406686

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201180066795.0A Active CN103460285B (zh) 2010-12-03 2011-12-02 用于以几何为基础的空间音频编码的装置及方法
CN201180066792.7A Active CN103583054B (zh) 2010-12-03 2011-12-02 用于产生音频输出信号的装置和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201180066792.7A Active CN103583054B (zh) 2010-12-03 2011-12-02 用于产生音频输出信号的装置和方法

Country Status (16)

Country Link
US (2) US9396731B2 (zh)
EP (2) EP2647005B1 (zh)
JP (2) JP5878549B2 (zh)
KR (2) KR101619578B1 (zh)
CN (2) CN103460285B (zh)
AR (2) AR084091A1 (zh)
AU (2) AU2011334857B2 (zh)
BR (1) BR112013013681B1 (zh)
CA (2) CA2819502C (zh)
ES (2) ES2643163T3 (zh)
HK (1) HK1190490A1 (zh)
MX (2) MX2013006068A (zh)
PL (1) PL2647222T3 (zh)
RU (2) RU2570359C2 (zh)
TW (2) TWI530201B (zh)
WO (2) WO2012072798A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108141665A (zh) * 2015-10-26 2018-06-08 索尼公司 信号处理装置、信号处理方法和程序
CN108605195A (zh) * 2015-11-27 2018-09-28 诺基亚技术有限公司 智能音频呈现
CN111149155A (zh) * 2017-07-14 2020-05-12 弗劳恩霍夫应用研究促进协会 使用多点声场描述生成经增强的声场描述或经修改的声场描述的概念
CN112083379A (zh) * 2020-09-09 2020-12-15 成都极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质
US11863962B2 (en) 2017-07-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
EP2600637A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
WO2013093565A1 (en) * 2011-12-22 2013-06-27 Nokia Corporation Spatial audio processing apparatus
JP2015509212A (ja) * 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
EP2893532B1 (en) * 2012-09-03 2021-03-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
EP2898506B1 (en) * 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US20160210957A1 (en) * 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
FR2998438A1 (fr) * 2012-11-16 2014-05-23 France Telecom Acquisition de donnees sonores spatialisees
EP2747451A1 (en) 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
CN104019885A (zh) 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
WO2014151813A1 (en) 2013-03-15 2014-09-25 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US10075795B2 (en) 2013-04-19 2018-09-11 Electronics And Telecommunications Research Institute Apparatus and method for processing multi-channel audio signal
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
JP6055576B2 (ja) 2013-07-30 2016-12-27 ドルビー・インターナショナル・アーベー 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン
CN104637495B (zh) * 2013-11-08 2019-03-26 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
CN103618986B (zh) * 2013-11-19 2015-09-30 深圳市新一代信息技术研究院有限公司 一种3d空间中音源声像体的提取方法及装置
EP3072315B1 (en) * 2013-11-22 2021-11-03 Apple Inc. Handsfree beam pattern configuration
RU2666248C2 (ru) 2014-05-13 2018-09-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для амплитудного панорамирования с затуханием фронтов
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
WO2016033364A1 (en) * 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
CN110636415B (zh) 2014-08-29 2021-07-23 杜比实验室特许公司 用于处理音频的方法、系统和存储介质
CN104168534A (zh) * 2014-09-01 2014-11-26 北京塞宾科技有限公司 一种全息音频装置及控制方法
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN104378570A (zh) * 2014-09-28 2015-02-25 小米科技有限责任公司 录音方法及装置
JP6604331B2 (ja) * 2014-10-10 2019-11-13 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2016123572A1 (en) * 2015-01-30 2016-08-04 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
US9609436B2 (en) 2015-05-22 2017-03-28 Microsoft Technology Licensing, Llc Systems and methods for audio creation and delivery
US9530426B1 (en) 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US9601131B2 (en) * 2015-06-25 2017-03-21 Htc Corporation Sound processing device and method
US10375472B2 (en) 2015-07-02 2019-08-06 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
US11064291B2 (en) 2015-12-04 2021-07-13 Sennheiser Electronic Gmbh & Co. Kg Microphone array system
US9894434B2 (en) 2015-12-04 2018-02-13 Sennheiser Electronic Gmbh & Co. Kg Conference system with a microphone array system and a method of speech acquisition in a conference system
CN112218211B (zh) 2016-03-15 2022-06-07 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序
US9956910B2 (en) * 2016-07-18 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. Audible notification systems and methods for autonomous vehicles
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
US9986357B2 (en) 2016-09-28 2018-05-29 Nokia Technologies Oy Fitting background ambiance to sound objects
WO2018064296A1 (en) 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US10531220B2 (en) 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
CN106708041B (zh) * 2016-12-12 2020-12-29 西安Tcl软件开发有限公司 智能音箱、智能音箱定向移动方法及装置
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10362393B2 (en) 2017-02-08 2019-07-23 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10229667B2 (en) 2017-02-08 2019-03-12 Logitech Europe S.A. Multi-directional beamforming device for acquiring and processing audible input
US10366700B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Device for acquiring and processing audible input
US10366702B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US10397724B2 (en) 2017-03-27 2019-08-27 Samsung Electronics Co., Ltd. Modifying an apparent elevation of a sound source utilizing second-order filter sections
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US10602296B2 (en) 2017-06-09 2020-03-24 Nokia Technologies Oy Audio object adjustment for phase compensation in 6 degrees of freedom audio
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
GB201710085D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB201710093D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
AR112556A1 (es) 2017-07-14 2019-11-13 Fraunhofer Ges Forschung Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado
US10264354B1 (en) * 2017-09-25 2019-04-16 Cirrus Logic, Inc. Spatial cues from broadside detection
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
CN111201784B (zh) 2017-10-17 2021-09-07 惠普发展公司,有限责任合伙企业 通信系统、用于通信的方法和视频会议系统
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
TWI690921B (zh) * 2018-08-24 2020-04-11 緯創資通股份有限公司 收音處理裝置及其收音處理方法
US11017790B2 (en) * 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences
ES2941268T3 (es) 2018-12-07 2023-05-19 Fraunhofer Ges Forschung Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación difusa
EP3928315A4 (en) * 2019-03-14 2022-11-30 Boomcloud 360, Inc. SPATIALLY SENSITIVE MULTIBAND COMPRESSION SYSTEM WITH PRIORITY
KR102154553B1 (ko) * 2019-09-18 2020-09-10 한국표준과학연구원 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법
EP3963902A4 (en) 2019-09-24 2022-07-13 Samsung Electronics Co., Ltd. METHODS AND SYSTEMS FOR MIXED AUDIO SIGNAL RECORDING AND DIRECTIONAL AUDIO CONTENT REPRODUCTION
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
CN113284504A (zh) 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
US11277689B2 (en) 2020-02-24 2022-03-15 Logitech Europe S.A. Apparatus and method for optimizing sound quality of a generated audible signal
US11425523B2 (en) * 2020-04-10 2022-08-23 Facebook Technologies, Llc Systems and methods for audio adjustment
WO2022162878A1 (ja) * 2021-01-29 2022-08-04 日本電信電話株式会社 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
CN116918350A (zh) * 2021-04-25 2023-10-20 深圳市韶音科技有限公司 声学装置
US20230035531A1 (en) * 2021-07-27 2023-02-02 Qualcomm Incorporated Audio event data processing
DE202022105574U1 (de) 2022-10-01 2022-10-20 Veerendra Dakulagi Ein System zur Klassifizierung mehrerer Signale für die Schätzung der Ankunftsrichtung

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1182643A1 (en) * 2000-08-03 2002-02-27 Sony Corporation Apparatus for and method of processing audio signal
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
CN1714600A (zh) * 2002-10-15 2005-12-28 韩国电子通信研究院 产生和消费具有扩展空间性的声源的三维音频场景的方法
JP2008245984A (ja) * 2007-03-30 2008-10-16 Konami Digital Entertainment:Kk ゲーム音出力装置、音像定位制御方法、および、プログラム
CN101473645A (zh) * 2005-12-08 2009-07-01 韩国电子通信研究院 使用预设音频场景的基于对象的三维音频服务系统
JP2009216473A (ja) * 2008-03-07 2009-09-24 Univ Nihon 音源距離計測装置及びそれを用いた音響情報分離装置

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01109996A (ja) * 1987-10-23 1989-04-26 Sony Corp マイクロホン装置
JPH04181898A (ja) * 1990-11-15 1992-06-29 Ricoh Co Ltd マイクロホン
JPH1063470A (ja) * 1996-06-12 1998-03-06 Nintendo Co Ltd 画像表示に連動する音響発生装置
US6577738B2 (en) * 1996-07-17 2003-06-10 American Technology Corporation Parametric virtual speaker and surround-sound system
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
JP3344647B2 (ja) * 1998-02-18 2002-11-11 富士通株式会社 マイクロホンアレイ装置
JP3863323B2 (ja) 1999-08-03 2006-12-27 富士通株式会社 マイクロホンアレイ装置
CA2406926A1 (en) * 2000-04-19 2001-11-01 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
KR100387238B1 (ko) * 2000-04-21 2003-06-12 삼성전자주식회사 오디오 변조 기능을 갖는 오디오 재생 장치 및 방법, 그장치를 적용한 리믹싱 장치 및 방법
GB2364121B (en) 2000-06-30 2004-11-24 Mitel Corp Method and apparatus for locating a talker
EP1552724A4 (en) * 2002-10-15 2010-10-20 Korea Electronics Telecomm METHOD FOR GENERATING AND USING A 3D AUDIOSCENCE WITH EXTENDED EFFICIENCY OF SOUND SOURCE
EP1562403B1 (en) * 2002-11-15 2012-06-13 Sony Corporation Audio signal processing method and processing device
AU2003285787A1 (en) 2002-12-28 2004-07-22 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
KR20040060718A (ko) 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
JP3639280B2 (ja) * 2003-02-12 2005-04-20 任天堂株式会社 ゲームメッセージ表示方法およびゲームプログラム
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
JP4133559B2 (ja) 2003-05-02 2008-08-13 株式会社コナミデジタルエンタテインメント 音声再生プログラム、音声再生方法及び音声再生装置
US20060104451A1 (en) * 2003-08-07 2006-05-18 Tymphany Corporation Audio reproduction system
MXPA06011397A (es) * 2004-04-05 2006-12-20 Koninkl Philips Electronics Nv Metodo, dispositivo, aparato codificador, aparato decodificador y sistema de audio.
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
KR100586893B1 (ko) 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
WO2006006935A1 (en) 2004-07-08 2006-01-19 Agency For Science, Technology And Research Capturing sound from a target region
US7617501B2 (en) 2004-07-09 2009-11-10 Quest Software, Inc. Apparatus, system, and method for managing policies on a computer having a foreign operating system
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
WO2006105105A2 (en) 2005-03-28 2006-10-05 Sound Id Personal sound system
JP4273343B2 (ja) * 2005-04-18 2009-06-03 ソニー株式会社 再生装置および再生方法
US20070047742A1 (en) 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and system for enhancing regional sensitivity noise discrimination
WO2007046288A1 (ja) * 2005-10-18 2007-04-26 Pioneer Corporation 定位制御装置、定位制御方法、定位制御プログラムおよびコンピュータに読み取り可能な記録媒体
DE602007004451D1 (de) 2006-02-21 2010-03-11 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
GB0604076D0 (en) * 2006-03-01 2006-04-12 Univ Lancaster Method and apparatus for signal presentation
WO2007099318A1 (en) 2006-03-01 2007-09-07 The University Of Lancaster Method and apparatus for signal presentation
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
EP2369836B1 (en) * 2006-05-19 2014-04-23 Electronics and Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
JP4894386B2 (ja) * 2006-07-21 2012-03-14 ソニー株式会社 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US8229754B1 (en) * 2006-10-23 2012-07-24 Adobe Systems Incorporated Selecting features of displayed audio data across time
EP2097895A4 (en) * 2006-12-27 2013-11-13 Korea Electronics Telecomm DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
KR101497644B1 (ko) 2007-04-19 2015-03-02 에포스 디벨롭먼트 리미티드 음성 및 위치 국부화
FR2916078A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US20080298610A1 (en) 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
CN101884065B (zh) * 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
JP5294603B2 (ja) * 2007-10-03 2013-09-18 日本電信電話株式会社 音響信号推定装置、音響信号合成装置、音響信号推定合成装置、音響信号推定方法、音響信号合成方法、音響信号推定合成方法、これらの方法を用いたプログラム、及び記録媒体
KR101415026B1 (ko) 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
WO2009089353A1 (en) 2008-01-10 2009-07-16 Sound Id Personal sound system for display of sound pressure level or other environmental condition
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
JP2009246827A (ja) * 2008-03-31 2009-10-22 Nippon Hoso Kyokai <Nhk> 音源及び仮想音源の位置特定装置、方法及びプログラム
US8457328B2 (en) * 2008-04-22 2013-06-04 Nokia Corporation Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
ES2425814T3 (es) 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
US8023660B2 (en) * 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
JP5520300B2 (ja) * 2008-09-11 2014-06-11 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マイクロホン信号に基づいて一組の空間手がかりを供給する装置、方法およびコンピュータ・プログラムと2チャンネルのオーディオ信号および一組の空間手がかりを供給する装置
EP2374123B1 (fr) * 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
JP5309953B2 (ja) * 2008-12-17 2013-10-09 ヤマハ株式会社 収音装置
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
JP5620689B2 (ja) 2009-02-13 2014-11-05 本田技研工業株式会社 残響抑圧装置及び残響抑圧方法
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
JP5314129B2 (ja) * 2009-03-31 2013-10-16 パナソニック株式会社 音響再生装置及び音響再生方法
KR20120006060A (ko) * 2009-04-21 2012-01-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
KR20120059827A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1182643A1 (en) * 2000-08-03 2002-02-27 Sony Corporation Apparatus for and method of processing audio signal
CN1714600A (zh) * 2002-10-15 2005-12-28 韩国电子通信研究院 产生和消费具有扩展空间性的声源的三维音频场景的方法
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
CN101473645A (zh) * 2005-12-08 2009-07-01 韩国电子通信研究院 使用预设音频场景的基于对象的三维音频服务系统
JP2008245984A (ja) * 2007-03-30 2008-10-16 Konami Digital Entertainment:Kk ゲーム音出力装置、音像定位制御方法、および、プログラム
JP2009216473A (ja) * 2008-03-07 2009-09-24 Univ Nihon 音源距離計測装置及びそれを用いた音響情報分離装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108141665A (zh) * 2015-10-26 2018-06-08 索尼公司 信号处理装置、信号处理方法和程序
CN108605195A (zh) * 2015-11-27 2018-09-28 诺基亚技术有限公司 智能音频呈现
CN111149155A (zh) * 2017-07-14 2020-05-12 弗劳恩霍夫应用研究促进协会 使用多点声场描述生成经增强的声场描述或经修改的声场描述的概念
CN111149155B (zh) * 2017-07-14 2023-10-10 弗劳恩霍夫应用研究促进协会 使用多点声场描述生成经增强的声场描述的装置及方法
US11863962B2 (en) 2017-07-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US11950085B2 (en) 2017-07-14 2024-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
CN112083379A (zh) * 2020-09-09 2020-12-15 成都极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质
CN112083379B (zh) * 2020-09-09 2023-10-20 极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质

Also Published As

Publication number Publication date
EP2647222A1 (en) 2013-10-09
MX338525B (es) 2016-04-20
CN103583054A (zh) 2014-02-12
KR20140045910A (ko) 2014-04-17
AR084091A1 (es) 2013-04-17
AU2011334851B2 (en) 2015-01-22
JP5728094B2 (ja) 2015-06-03
EP2647005B1 (en) 2017-08-16
KR20130111602A (ko) 2013-10-10
MX2013006068A (es) 2013-12-02
CA2819502C (en) 2020-03-10
US20130259243A1 (en) 2013-10-03
RU2556390C2 (ru) 2015-07-10
JP2014502109A (ja) 2014-01-23
AU2011334857A1 (en) 2013-06-27
CA2819394A1 (en) 2012-06-07
TW201237849A (en) 2012-09-16
EP2647005A1 (en) 2013-10-09
JP5878549B2 (ja) 2016-03-08
KR101619578B1 (ko) 2016-05-18
CN103460285B (zh) 2018-01-12
ES2643163T3 (es) 2017-11-21
WO2012072804A1 (en) 2012-06-07
HK1190490A1 (zh) 2014-11-21
RU2013130233A (ru) 2015-01-10
EP2647222B1 (en) 2014-10-29
WO2012072798A1 (en) 2012-06-07
CA2819394C (en) 2016-07-05
AU2011334857B2 (en) 2015-08-13
US20130268280A1 (en) 2013-10-10
US9396731B2 (en) 2016-07-19
TWI530201B (zh) 2016-04-11
CN103583054B (zh) 2016-08-10
TW201234873A (en) 2012-08-16
RU2570359C2 (ru) 2015-12-10
CA2819502A1 (en) 2012-06-07
KR101442446B1 (ko) 2014-09-22
ES2525839T3 (es) 2014-12-30
JP2014501945A (ja) 2014-01-23
MX2013006150A (es) 2014-03-12
TWI489450B (zh) 2015-06-21
BR112013013681A2 (pt) 2017-09-26
RU2013130226A (ru) 2015-01-10
AU2011334851A1 (en) 2013-06-27
BR112013013681B1 (pt) 2020-12-29
AR084160A1 (es) 2013-04-24
PL2647222T3 (pl) 2015-04-30
US10109282B2 (en) 2018-10-23

Similar Documents

Publication Publication Date Title
CN103460285B (zh) 用于以几何为基础的空间音频编码的装置及方法
KR101666730B1 (ko) 기하학 기반 공간 오디오 코딩 스트림들을 병합하기 위한 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: UNIVERSITY OF ERLANGEN-FRIEDRICH-ALEXANDER

Effective date: 20140416

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20140416

Address after: Munich, Germany

Applicant after: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

Address before: Munich, Germany

Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

Applicant before: Friedrich-Alexander-Universitat Erlangen-Nurnberg

CB02 Change of applicant information

Address after: Munich, Germany

Applicant after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant