CN110089134B - 用于再现空间分布声音的方法、系统及计算机可读介质 - Google Patents

用于再现空间分布声音的方法、系统及计算机可读介质 Download PDF

Info

Publication number
CN110089134B
CN110089134B CN201780057585.2A CN201780057585A CN110089134B CN 110089134 B CN110089134 B CN 110089134B CN 201780057585 A CN201780057585 A CN 201780057585A CN 110089134 B CN110089134 B CN 110089134B
Authority
CN
China
Prior art keywords
time
frequency
virtual
direction vector
virtual sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780057585.2A
Other languages
English (en)
Other versions
CN110089134A (zh
Inventor
拉斐尔·尼古拉·格雷夫
洪·崇·图妍·方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Steelcyrus France
Original Assignee
A-VOLUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A-VOLUTE filed Critical A-VOLUTE
Publication of CN110089134A publication Critical patent/CN110089134A/zh
Application granted granted Critical
Publication of CN110089134B publication Critical patent/CN110089134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/008Visual indication of individual signal levels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Otolaryngology (AREA)
  • General Engineering & Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种用于再现多声道音频信号的空间分布声音的方法,包括:接收依赖于时间的输入音频信号并执行时间‑频率变换;对于每个时间‑频率片,根据针对所述时间‑频率片的不同输入声道的时间‑频率表示来确定有功方向矢量(I)和无功方向矢量(II),根据有功方向矢量(I)和无功方向矢量(II)确定虚拟声源(VS1,VS2,VS3)相对于参考收听点(O)的位置,并且确定每个虚拟声源(VS1,VS2,VS3)的频率信号值,以及基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间‑频率信号值分配给电声换能器。
Figure DDA0001999489060000011

Description

用于再现空间分布声音的方法、系统及计算机可读介质
背景技术
本发明涉及一种用于再现多声道音频信号的空间分布声音的方法。
音频是传递任何种类信息(特别是声音方向信息)的重要介质。实际上,对于监视任务来说,人听觉系统比视觉系统更有效。由于多声道音频格式的发展,空间化已经成为以下所有音频领域的共同特征:电影、视频游戏、虚拟现实、音乐等。
通常,这种声音被混合到多个音频声道上,其中每个声道被馈送到专用扬声器。声音到不同声道的分布适于专用回放系统的配置(扬声器的位置);以便再现所述声音的预期方向性。
因此,多声道音频流要求通过合适的扬声器布局来回放。例如,五声道格式化音频信号的每个声道与其五个扬声器阵列内的对应扬声器相关联。图1示出了由国际电信联盟(ITU)推荐的用于5.1环绕声配置的五声道扬声器布局的示例。存在布置在参考收听点O周围的左扬声器L、右扬声器R、中央扬声器C、环绕左扬声器LS和环绕右扬声器RS,参考收听点O是推荐的收听者的位置。以该参考收听点O作为中心,指示了扬声器的中心方向之间的相对角距离。
因此,根据专用于规定空间配置的音频文件格式对多声道音频信号进行编码,其中扬声器被布置距参考收听点的规定位置处。实际上,多声道音频信号的每个依赖于时间的输入音频信号与声道相关联,每个声道对应于扬声器的规定位置。
如果通过适当的声音系统(即具有所需数量的扬声器和它们之间的正确角距离)回放多声道音频,则正常听力收听者能够检测组成多声道音频混合的声源的位置。然而,如果实际的声音系统表现出不适当的特征,诸如扬声器太少或其角距离不准确,则音频内容的方向信息可能未被正确地递送给收听者。
专利申请WO2008/113428公开了一种在任意多声道格式之间进行转换的技术。输入多声道表示被转换成空间音频信号的不同输出多声道表示。导出空间音频信号的中间表示,该中间表示具有指示空间音频信号的一部分的起源方向的方向参数。使用空间音频信号的中间表示生成空间音频信号的输出多声道表示。
发明内容
该方法旨在提供一种用于利用音频系统再现多声道音频信号的空间分布声音的方法,该音频系统包括实际空间配置中的扬声器,该实际空间配置不同于与多声道音频信号的格式相关联的规定空间配置。
根据本发明的第一方面,该目的通过一种用于利用在实际空间配置中相对于参考收听点的实际位置处定位的电声换能器来再现多声道音频信号的空间分布声音的方法来实现,其中多声道音频信号包括依赖于时间的输入音频信号,每个依赖于时间的输入音频信号与输入声道相关联,每个声道对应于电声换能器在规定空间配置中相对于参考收听点的规定位置,所述方法包括以下步骤:
-接收依赖于时间的输入音频信号,
-对所述依赖于时间的输入音频信号执行时间-频率变换,以用于将依赖于时间的输入音频信号中的每个转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示,每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片(time-frequency tile),对于不同的输入声道来说时间-频率片是相同的,
-对于每个时间-频率片,根据所述时间-频率片的不同输入声道的时间-频率表示确定有功方向矢量(active directional vector)和无功方向矢量(reactivedirectional vector),其中,根据复数强度矢量的实部确定有功方向矢量并且根据复数强度矢量的虚部确定无功方向矢量;
-对于每个时间-频率片,根据有功方向矢量和无功方向矢量确定虚拟空间配置中虚拟声源相对于参考收听点的位置,并确定每个虚拟声源的频率信号值,
-基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器,
-基于分配给电声换能器的时间-频率信号值,通过实际空间配置的电声换能器产生声音。
本发明方法的其他优选但非限制性的方面如下、分离的或技术上可行的组合:
-时间-频率片的有功方向矢量表示针对所述时间-频率片的时间帧和频率子带的参考收听点处的声能流,并且其中无功方向矢量表示在参考收听点处相对于声能流的声学扰动;
-每个输入声道与在参考收听点和与所述输入声道相关联的扬声器的规定位置之间定义的声音方向相关联,并且声速矢量被确定为由对应于与所述声音方向相关联的输入声道的时间-频率表示所加权的每个声音方向之和的函数,所述声速矢量被用于确定有功方向矢量和无功方向矢量;
-由不同输入声道的时间-频率表示的总和定义的声压值被用于确定有功方向矢量和无功方向矢量;
-复数强度矢量由时间-频率片的声压值的共轭与所述时间-频率片的声速矢量之间的复数乘积产生;
-为了确定虚拟声源中的每一个的时间-频率信号值,确定虚拟麦克风信号,每个虚拟麦克风信号与虚拟声源相关联并且对应于将获取被布置在参考收听点处并且方向上朝向所述虚拟声源的位置取向的虚拟麦克风的信号;
-通过在与所述虚拟声源相关联的虚拟麦克风信号中抑制来自其他虚拟声源的干扰来确定虚拟声源的时间-频率信号值;
-基于有功方向矢量的方向和无功方向矢量的方向,影响虚拟声源中的每一个的时间-频率信号值;
-虚拟声源被布置在以参考收听点为中心的圆上;
-基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器,包括:
·对于每个时间-频率片,通过对与电声换能器相关联的该输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号,以及
·将时间-频率音频输出声道信号转换成依赖于时间的输出声道信号;
-每个依赖于时间的输出声道信号被馈送到每个对应的电声换能器;
-对于每个时间-频率片存在三个虚拟声源,每个虚拟声源具有相对于参考收听点的位置,其中:
·第一虚拟声源的位置与参考收听点一起定义与来自参考收听点的有功方向矢量的方向共线的方向,
·第二虚拟声源的位置与参考收听点一起定义与具有第一取向的无功方向矢量的方向共线的方向,
·第三虚拟声源的位置与参考收听点一起定义与具有与第一取向相反的第二取向的无功方向矢量的方向共线的方向。
-对于每个时间-频率片存在两个虚拟声源,每个虚拟声源具有相对于参考收听点的位置,并且其中:
·第一虚拟声源的位置与参考收听点一起定义从有功方向矢量和由正因子加权的无功方向矢量之和得到的方向,以及
·第二虚拟声源的位置与参考收听点一起定义从有功方向矢量和由负因子加权的无功方向矢量之和得到的方向。
根据本发明的第二方面,提供了一种非暂时性有形计算机可读介质,其上包含有计算机可执行指令,其在由计算机执行时,执行根据第一方面的方法。
根据本发明的第三方面,提供了一种用于再现多声道音频信号的空间分布声音的系统,所述系统包括:
-用于接收多个输入声道的依赖于时间的输入音频信号的输入端,
-处理器和存储器,用于:
·对所述依赖于时间的输入音频信号执行时间-频率变换,以用于将依赖于时间的输入音频信号中的每个转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示,每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片,对于不同的输入声道来说时间-频率片是相同的,
·对于每个时间-频率片,根据所述时间-频率片的不同输入声道的时间-频率表示确定有功方向矢量和无功方向矢量,其中,根据复数强度矢量的实部确定有功方向矢量并且根据复数强度矢量的虚部确定无功方向矢量,
·对于每个时间-频率片,根据有功方向矢量和无功方向矢量确定虚拟空间配置中虚拟声源相对于参考收听点的位置,并确定每个虚拟声源的时间-频率信号值,
·基于虚拟空间配置中的虚拟声源的位置与实际空间配置中的所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器;以及
-用于将依赖于时间的输出声道信号递送到多个电声换能器的输出端,所述多个电声换能器被定位在实际空间配置中相对于参考收听点的实际位置处。
该系统被配置用于实施根据本发明的方法。
附图说明
通过阅读下面作为非限制性示例给出的其优选实施例的详细描述并参考附图,本发明的其他方面、目的和优点将变得更加显而易见,在附图中:
-已经讨论过的图1示出了在针对多声道音频系统的规定配置中扬声器相对于参考收听点的规定位置的示例;
-图2是示出了该方法的步骤的图;
-图3是示出了该方法中的信号处理阶段的图;
-图4示意性地示出了有功方向矢量和无功方向矢量与虚拟声源的位置之间的关系的示例;
-图5示意性地示出了具有两个虚拟声源和有功方向矢量和无功方向矢量以及两个对应的虚拟麦克风的心形的虚拟空间配置的示例;
-图6示意性地示出了三个电声换能器和图5的两个虚拟声源的实际空间配置的示例;
-图7示意性地示出了具有三个虚拟声源和三个对应虚拟麦克风的心形以及有功方向矢量和无功方向矢量的虚拟空间配置的示例;
-图8示意性地示出了三个电声换能器和图7的三个虚拟声源的实际空间配置的示例。
具体实施方式
该方法可以由用于再现多声道音频信号的空间分布声音的系统来实施,所述系统包括:
-用于接收多个输入声道的依赖于时间的输入音频信号的输入端,
-被配置为实施本发明的方法的处理器和存储器,
-用于将依赖于时间的输出声道信号递送到多个电声换能器的输出端,所述多个电声换能器被定位在实际空间配置中相对于参考收听点的实际位置处。
输入端接收包括多个输入声道的依赖于时间的输入音频信号的多声道音频信号(步骤S01)。每个依赖于时间的输入音频信号与输入声道相关联。每个输入声道对应于电声换能器相对于规定空间配置中的参考收听点的规定位置。例如,在图1所示的规定空间配置中,存在五个输入声道,对于每个扬声器LS、L、C、R、RS一个输入声道。
在平面波模型假设下,声源的位置(例如,每个扬声器的位置)可以仅由声源相对于参考收听点的方向来定义。然后,酉矢量(unitary vector)足以定位声源。因此,规定位置中的每个规定位置定义了表示声音方向并且源自参考收听点且指向每个扬声器的方向的酉矢量
Figure GDA0002804744100000071
。因此,每个输入声道i与在参考收听点和与所述输入声道i相关联的扬声器的规定位置之间定义的声音方向
Figure GDA0002804744100000072
相关联。例如,在图1所示的规定空间配置中,扬声器C的位置由声音矢量
Figure GDA0002804744100000073
定义,该声音矢量
Figure GDA0002804744100000074
源自参考收听点O并且朝向酉圆上的扬声器C的位置。该声音矢量
Figure GDA0002804744100000075
在收听点的前方延伸。以类似的方式,扬声器L的位置由声音矢量
Figure GDA0002804744100000076
定义,该声音矢量
Figure GDA0002804744100000077
源自参考收听点O并且朝向酉圆上的扬声器L的位置。在该示例中,声音矢量
Figure GDA0002804744100000078
的方向和声音矢量
Figure GDA0002804744100000079
的方向成30°角度。
然而,旨在回放多声道音频信号的实际音频系统包括被定位在相对于实际空间配置中的参考收听点的实际位置处的电声换能器。下面参考图2和图3描述用于再现多声道音频信号的空间分布声音的方法。图2示出了该方法的按时间组织的步骤,而图3示出了该方法的数学推理。
频率分析
所接收的依赖于时间的输入音频信号ai(t)可以是模拟的,但它们最好是数字信号。存在与输入声道i一样多的输入音频信号ai(t)。在频率分析期间(步骤S10),通过执行时间-频率转换将依赖于时间的输入音频信号ai(t)转换到频域(步骤S02)。通常,时间-频率转换使用诸如短时傅立叶变换(STFT)的傅立叶相关变换,其被用于在信号随时间变化时确定信号的局部部分的正弦频率和相位内容(phase content)。
更确切地说,每个依赖于时间的输入音频信号ai(t)被转换成与所述依赖于时间的输入音频信号相关联的输入声道i的多个时间-频率表示Ai(k,n)。每个时间-频率表示Ai(k,n)对应于由时间帧和频率子带定义的时间-频率片。转换是在逐帧的基础上进行的。
优选地,帧长度在5ms和80ms之间。优选地,频率子带的宽度在10Hz和200Hz之间。优选地,帧间间隔在帧长度的1/16和一半之间。例如,对于48kHz的采样率和基于FFT的STFT处理框架,帧长度可以是具有46.875Hz的相关频率子带宽度(或仓宽度(bin width))和512个样本的帧间间隔的1024个样本。对于不同的输入声道i,时间-频率片是相同的。
在以下中,k被用作频率子带的频率索引并且n是帧索引,使得时间-频率表示Ai(k,n)指代与输入声道i的信号的第k个频率子带和第n个帧相关联的复数。
然后,时间-频率表示Ai(k,n)和声音方向
Figure GDA0002804744100000081
被用在时间-频率处理(步骤S03)中,其中时间-频率片的数据被处理。
空间分析
根据时间-频率片的时间-频率表示Ai(k,n)和声音方向
Figure GDA0002804744100000082
来执行空间分析(步骤S11)。对于每个时间-频率片,根据针对所述时间-频率片的不同输入声道的时间-频率表示Ai(k,n)来确定有功方向矢量
Figure GDA0002804744100000083
和无功方向矢量
Figure GDA0002804744100000084
(步骤S31)。
时间-频率片的有功方向矢量
Figure GDA0002804744100000085
与有功声强度矢量成比例,该有功声强度矢量表示在参考收听点处的针对所述时间-频率片的时间帧和频率子带的声能流。更具体地,有功方向矢量
Figure GDA0002804744100000086
对应于有功声强矢量,其通过参考收听点O处的声能EP(k,n)和EK(k,n)之和而被标准化(normalized),其中加上负号以便使其从参考收听点O指向酉圆。可以使用不同的标准化或省略负号,在这种情况下,矢量将指向参考收听点O。
无功方向矢量
Figure GDA0002804744100000087
与无功声强度矢量成比例,其表示在参考收听点处的相对于相同时间-频率片的声能流的声学扰动。更具体地,无功方向矢量
Figure GDA0002804744100000088
对应于无功声强度矢量,其通过参考收听点O处的声能EP(k,n)和EK(k,n)之和而被标准化。还加上了负号,但其可以被省略。对于有功方向矢量,可以使用不同的标准化。
从感知角度来看,如果有功方向矢量
Figure GDA0002804744100000091
可以与主方向声场相关,则无功方向矢量
Figure GDA0002804744100000092
与环境扩散声场相关。此外,无功方向矢量
Figure GDA0002804744100000093
的方向信息使得能够处理该环境声场的空间特性,并且因此它不仅可以用于描述完全扩散环境声场而且可以描述部分扩散环境声场。
这种新方法本质上更加稳健,因为它有助于有功方向矢量
Figure GDA0002804744100000094
的可靠性,有功方向矢量是真实声空间线索(与经验感知线索的Gerzon矢量相比),但也利用了声音通过无功方向矢量
Figure GDA0002804744100000095
的扩散。
已经发现的是,有功方向矢量
Figure GDA0002804744100000096
和无功方向矢量
Figure GDA0002804744100000097
的组合可以用于识别声源的位置,如图4所示。在该图4中,声音分布由布置在以参考收听点O为中心的酉圆上的两个虚拟声源VS1和VS2来表示。有功方向矢量
Figure GDA0002804744100000098
源自参考收听点O并且沿主要声流指向。在该示例中,两个不相关的声源VS1、VS2具有相等的能量(对于该时间-频率片)。因此,在参考收听点O处感知的声能流来自两个声源VS1、VS2的中间,并且因此有功方向矢量
Figure GDA0002804744100000099
在两个声源VS1、VS2之间延伸。无功方向矢量
Figure GDA00028047441000000910
在此垂直于有功方向矢量
Figure GDA00028047441000000911
,并且声源VS1、VS2的位置对应于有功方向矢量
Figure GDA00028047441000000912
和无功方向矢量
Figure GDA00028047441000000913
或无功方向矢量
Figure GDA00028047441000000914
的相反矢量之和。
然而,大多数时候,声源VS1、VS2并非完全不相关。已经发现的是,无论两个声源VS1、VS2的确切位置如何,当源信号完全不相关时,无功强度最大。相反,当源信号完全相关时,无功强度最小。以类似的方式,在声源信号完全不相关的情况下,当源方向相对于参考收听点O在空间上负相关(即相反)时,无功强度最大。相反,当源方向相对于参考收听点在空间上相关(即在相同方向上)时,无功强度最小。
为了确定有功方向矢量
Figure GDA00028047441000000915
和无功方向矢量
Figure GDA00028047441000000916
,使用规定空间配置中扬声器相对于参考收听点O的规定位置。如上所述,每个输入声道i与在参考收听点和与所述输入声道i相关联的扬声器的规定位置之间定义的声音方向
Figure GDA0002804744100000104
相关联。
针对相同的时间-频率片,由不同输入声道的时间-频率表示Ai(k,n)之和定义的所述时间-频率片的声压值P(k,n)被确定为:
Figure GDA0002804744100000101
时间-频率片的声速矢量
Figure GDA0002804744100000105
被确定,所述声速矢量
Figure GDA0002804744100000106
与由对应于与所述声音方向
Figure GDA0002804744100000107
相关联的输入声道i的时间-频率表示Ai(k,n)加权的每个声音方向
Figure GDA0002804744100000108
之和成比例:
Figure GDA0002804744100000102
其中
Figure GDA0002804744100000103
其中
Figure GDA0002804744100000109
Figure GDA00028047441000001010
Figure GDA00028047441000001011
是用于虚拟空间配置的参考帧的坐标系的酉矢量,ρ是空气的密度,并且c是声速。例如,20℃下干燥空气中的声速为每秒343.2米,其可以被近似为340m.s-1。在海平面处并且在15℃下,空气密度约为1.225kg/m3,其可以被近似为1.2kg/m3。可以使用其他值。
由时间-频率片的声压值P(k,n)的共轭与所述时间-频率片的声速矢量
Figure GDA00028047441000001012
之间的复数乘积产生的复数强度矢量
Figure GDA0002804744100000114
被确定为:
Figure GDA0002804744100000111
并且被用于确定所述时间-频率片的有功方向矢量
Figure GDA0002804744100000115
和无功方向矢量
Figure GDA0002804744100000116
。更确切地说,有功方向矢量
Figure GDA0002804744100000117
是从复数乘积
Figure GDA0002804744100000118
的实部确定的,并且无功方向矢量
Figure GDA0002804744100000119
是从复数乘积
Figure GDA00028047441000001110
的虚部确定的。
有功方向矢量
Figure GDA00028047441000001111
和无功方向矢量
Figure GDA00028047441000001112
可以如下计算:
Figure GDA0002804744100000112
其中
Figure GDA0002804744100000113
应注意的是,有功方向矢量
Figure GDA00028047441000001113
和无功方向矢量
Figure GDA00028047441000001114
在此通过能量EK(k,n)和EP(k,n)而被标准化,但可以另外方式来计算。应注意的是,负号被加到有功方向矢量
Figure GDA00028047441000001115
和无功方向矢量
Figure GDA00028047441000001116
的表达中,以便使它们从参考收听点O指向酉圆。将可以省略负号,在这种情况下,矢量将指向参考收听点O。
一旦有功方向矢量
Figure GDA00028047441000001117
、无功方向矢量
Figure GDA00028047441000001118
、声压值P(k,n)和声速矢量
Figure GDA00028047441000001119
(或其等价物)已被确定,就可以执行音频源提取(步骤S12)以确定虚拟声源的位置和时间-频率信号值(步骤S32)。
音频源提取
该方法要求确定将在此后被用于确定实际空间配置的电声换能器的信号的虚拟声源的属性(位置和时间-频率信号值)。
对于每个时间-频率片,有功方向矢量
Figure GDA00028047441000001120
和无功方向矢量
Figure GDA00028047441000001121
被用于确定虚拟空间配置中虚拟声源相对于参考收听点的位置(步骤S32)。
所确定的虚拟声源的位置、有功方向矢量
Figure GDA0002804744100000122
、无功方向矢量
Figure GDA0002804744100000123
、声压值P(k,n)和声速矢量
Figure GDA0002804744100000124
被用于确定虚拟一阶方向麦克风信号(步骤S122),该虚拟一阶方向麦克风信号对应于将由被布置在参考收听点O处并指向每个虚拟声源的虚拟麦克风获取的声音。存在与虚拟声源一样多的虚拟麦克风。
虚拟麦克风信号是声压值P(k,n)和可能由空气密度ρ和声速c加权的声速矢量
Figure GDA0002804744100000125
与声源方向上的酉矢量之间的标量乘积之和的函数。例如,与被布置在由
Figure GDA0002804744100000126
定义的方向上的虚拟声源相关联的虚拟心形麦克风信号Mj(k,n)可以如下计算:
Figure GDA0002804744100000121
虚拟麦克风信号突显在参考收听点O处感知的对应虚拟声源的声音,但还包含来自其他虚拟声源的干扰。然而,针对每个虚拟声源定义虚拟麦克风信号允许识别每个虚拟声源的虚拟声源信号。
应注意的是,可以通过修改虚拟声源的位置来执行空间操纵。这种方法比修改定义了规定位置的输入声道数据侧安全得多,这是因为保持了原始的主/环境能量比。
然而,源提取过程的细节根据虚拟声源的数量而改变。音频源提取过程估计虚拟声源的位置和频率信号值,其生成与由规定配置中的依赖于时间的输入音频信号所定义的声场相同的声场特性。需要定义与源相关的声场模型,这是因为不同模型,音频源提取过程可能非常不同。实际上,在基于对声强度的有功分量和无功分量两者的利用进行分析的情况下,两个模型是可靠的,一个模型具有两个声源而一个模型具有三个声源。
“双源”模型处理扩散(并因此利用无功分量)作为声源的感知宽度或局部扩散的指示。两个声源足以模拟较宽的声源,它们的空间和信号相关性定义了这种复合声源的感知宽度。
“三源”模型处理扩散(并因此利用无功分量)作为声音场景内的环境水平或全局扩散的指示。两个相反方向的不相关声源适合于模拟该环境分量。
下面解释如何继续进行两个虚拟声源或三个虚拟声源。
源提取:两个虚拟声源
在以参考收听点O为中心的酉圆的空间配置中,虚拟声源被定位在酉圆上。因此,虚拟声源的位置在酉圆与从参考收听点延伸的方向线的相交处。每个虚拟声源的位置可以由源自参考收听点的酉源方向矢量
Figure GDA0002804744100000131
来定义。这如图5所示。
如上所述,源提取的第一步骤包括确定两个虚拟声源的位置(步骤S121)。如图5所示,每个酉源方向矢量
Figure GDA0002804744100000132
通过有功方向矢量
Figure GDA0002804744100000133
和无功方向矢量
Figure GDA0002804744100000134
.来定义。更准确地说,虚拟声源位于以下的相交处:
-酉圆以及
-与无功方向矢量
Figure GDA0002804744100000135
共线并且穿过源自参考收听点的有功方向矢量
Figure GDA0002804744100000136
的尖端的线。
如果所分析的声场是由两个不相关的声源(不必具有相等的能量)生成的,则该技术使得能够获取这两个声源的确切位置。如果用于生成声场的两个声源倾向于同相(相应地反相),则不再能够获取它们的确切位置。该技术过度估计(相应地低估)两个声源方向之间的空间相关性。然而,信号相关性和空间相关性之间的这种关系在感知上是贯通的。
确定两个虚拟声源VS1、VS2的位置等同于求解线与圆(对于三维声场则是球)的相交的几何问题。求解这个问题等同于求解二阶方程,其解是:
Figure GDA0002804744100000141
其中
Figure GDA0002804744100000142
应注意的是存在:
-第一虚拟声源VS1的位置与参考收听点O一起定义了从有功方向矢量
Figure GDA0002804744100000144
和由正因子加权的无功方向矢量
Figure GDA0002804744100000145
之和得到的方向,以及
-第二虚拟声源VS2的位置与参考收听点O一起定义了从有功方向矢量
Figure GDA0002804744100000146
和由负因子加权的无功方向矢量
Figure GDA0002804744100000147
之和得到的方向。
因此,我们有了第一虚拟声源VS1的源方向矢量
Figure GDA0002804744100000148
,以及第二虚拟声源VS2的源方向矢量
Figure GDA0002804744100000149
。如图5所示,这些源方向矢量
Figure GDA00028047441000001410
Figure GDA00028047441000001411
将虚拟声源VS1、VS2定位在以参考收听点O为中心的酉圆上。
如上所述,在计算两个虚拟声源VS1、VS2的方向之后,可以通过将声压值P(k,n)和声速矢量
Figure GDA00028047441000001413
组合到源方向矢量
Figure GDA00028047441000001414
来创建两个虚拟定向麦克风。如图5所示,两个虚拟定向麦克风可以在源方向矢量
Figure GDA00028047441000001415
的方向上具有心形指向性图案VM1、VM2。然后,可以通过如下定义的虚拟麦克风信号M1(k,n)、M2(k,n)来估计这两个方向上的虚拟麦克风拾取:
Figure GDA0002804744100000143
如上所述,每个虚拟麦克风信号突显在参考收听点O处感知的对应虚拟声源VS1、VS2的声音信号,但是还包含来自其他虚拟声源的干扰:
Figure GDA0002804744100000151
其中
Figure GDA0002804744100000152
其中S1(k,n)是第一虚拟声源VS1的时间-频率信号值,并且S2(k,n)是第二虚拟声源VS2的时间-频率信号值。最后的处理步骤允许通过对来自虚拟麦克风信号的源信号进行解混(unmixing)来提取每个虚拟声源的时间-频率信号值S1(k,n)、S2(k,n)(步骤S123):
Figure GDA0002804744100000153
其中
Figure GDA0002804744100000154
由源方向矢量
Figure GDA0002804744100000155
Figure GDA0002804744100000156
定义的两个虚拟声源VS1、VS2的位置以及它们相应的时间-频率信号值S1(k,n)和S2(k,n)已被确定。
应注意的是,两个虚拟声源VS1、VS2是等效的,在这个意义上它们包含主分量(通过有功方向矢量
Figure GDA0002804744100000157
)和环境分量(通过无功方向矢量
Figure GDA0002804744100000158
)两者。可以执行环境提取处理以实施额外的细化。
音频源提取:三个虚拟声源
如前所述,音频源提取的第一步骤包括通过由有功方向矢量
Figure GDA0002804744100000159
和无功方向矢量
Figure GDA0002804744100000161
定义的酉源方向矢量
Figure GDA0002804744100000162
来确定三个虚拟声源的位置。在以参考收听点O为中心的酉圆的空间配置中,虚拟声源被定位酉圆上。因此,虚拟声源的位置在酉圆与从参考收听点延伸的方向线的相交处。每个虚拟声源的位置可以由源自参考收听点的酉源方向矢量
Figure GDA0002804744100000163
来定义。酉源方向矢量
Figure GDA0002804744100000164
通过有功方向矢量
Figure GDA0002804744100000165
和无功方向矢量
Figure GDA0002804744100000166
来定义。这如图7所示。
如已经解释的,有功方向矢量
Figure GDA0002804744100000167
指示主要感知声音事件方向,无功强度指示“最大感知扩散的方向”。使用三个虚拟声源VS1、VS2、VS3因此出现相关以近似于声场属性:
-一个虚拟声源VS1在有功方向矢量
Figure GDA0002804744100000168
的方向上,以表示主要声学流的重建,以及
-空间上负相关的两个虚拟声源VS2、VS3分别在无功方向矢量
Figure GDA0002804744100000169
的方向上和其相反方向上,以表示声场的声学扰动。
因此,存在:
-第一虚拟声源VS1的位置与参考收听点O一起定义了与来自参考收听点的有功方向矢量
Figure GDA00028047441000001610
的方向共线的方向,
-第二虚拟声源VS2的位置与参考收听点O一起定义了与来自参考收听点的具有第一取向的无功方向矢量
Figure GDA00028047441000001611
的方向共线的方向,
-第三虚拟声源VS3的位置与参考收听点一起定义了与来自参考收听点O的具有与第一取向相反的第二取向的无功方向矢量
Figure GDA00028047441000001612
的方向共线的方向。
实际上,针对三源模型确定虚拟声源VS1、VS2、VS3的位置比针对双源模型来说简单得多,这是因为它们的源方向矢量
Figure GDA00028047441000001613
直接从有功方向矢量
Figure GDA00028047441000001614
和无功方向矢量
Figure GDA00028047441000001615
计算出:
Figure GDA0002804744100000171
其中第一虚拟声源VS1的第一源方向矢量为
Figure GDA0002804744100000173
,第二虚拟声源VS2的第二源方向矢量为
Figure GDA0002804744100000174
,并且第三虚拟声源VS3的第三源方向矢量为
Figure GDA0002804744100000175
。如图7所示,这些源方向矢量将虚拟声源VS1、VS2、VS3定位在以参考收听点O为中心的酉圆上。
如上所述,在计算三虚拟声源VS1、VS2、VS3的方向之后,可以通过将声压值P(k,n)、声速
Figure GDA0002804744100000177
组合到源方向矢量来创建三个虚拟方向麦克风。如图7所示,三虚拟方向麦克风可以在源方向矢量
Figure GDA0002804744100000178
的方向上具有心形指向性图案VM1、VM2、VM3。然后可以通过如下定义的虚拟麦克风信号来估计这三个方向上的虚拟麦克风拾取:
Figure GDA0002804744100000172
如上所述,每个虚拟麦克风信号M1(k,n)、M2(k,n)、M3(k,n)突显在参考收听点O处感知的相应虚拟声源VS1、VS2、VS3的声音,但也包含来自其他虚拟声源VS1、VS2、VS3的干扰。更准确地说,由于第二源方向矢量
Figure GDA0002804744100000179
和第三源方向矢量
Figure GDA00028047441000001710
方向相反,所以第二虚拟声源VS2与第三虚拟声源VS3之间的干扰是可忽略的,而它们两者都干扰第一虚拟声源VS1:
Figure GDA0002804744100000181
其中
Figure GDA0002804744100000182
最后的处理步骤(步骤S123)允许通过对源时间-频率值进行解混来提取每个虚拟声源的时间-频率信号值:
Figure GDA0002804744100000183
与具有两个虚拟声源的模型相反,三个虚拟声源已经被分解在主分量和环境分量之间:
-第一虚拟声源VS1对应于主分量,以及
-第二虚拟声源VS2和第三虚拟声源VS3对应于环境分量。因此,可以在不要求额外环境提取处理的情况下直接实施进一步的细化。
声音合成
一旦已经确定了虚拟声源的属性(位置和时间-频率信号值),就可以执行声音合成(步骤S13)。可以基于虚拟空间配置中的虚拟声源的位置与实际空间配置中的电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值Sj(k,n)分配(步骤S33)给所述电声换能器。这可以被称为空间合成。
为了这样做,使用与每个电声换能器h的实际位置有关的空间数据。空间数据由实际源方向矢量
Figure GDA0002804744100000184
(其中h=1,2,3,...)例示,实际源方向矢量
Figure GDA0002804744100000185
源自参考收听点O并指向每个电声换能器的方向,如图6和图8所示。图6和图8两者都示出了具有被定位在相对于参考收听点O的实际位置处的三个电声换能器AET1、AET2、AET3的相同的实际空间配置。在由第一实际源方向矢量
Figure GDA0002804744100000191
表示的方向上,将第一电声换能器AET1布置在参考收听点O的前方。在由第二实际源方向矢量
Figure GDA0002804744100000192
表示的方向上,将第二电声换能器AET2布置在参考收听点O的左侧上,与第一实际源方向矢量
Figure GDA0002804744100000193
成直角。在由第三实际源方向矢量
Figure GDA0002804744100000194
表示的方向上,将第三电声换能器AET3布置在参考收听点O的右侧上,与第二实际源方向矢量
Figure GDA0002804744100000195
相反。这仅是示例,并且该方法不限于电声换能器的特定空间布局或特定数量的电声换能器。电声换能器可以是扬声器,但也可以是耳机。
对于每个时间-频率片,与虚拟源方向矢量相关联的各种时间-频率信号值Sj(k,n)与实际源方向矢量
Figure GDA0002804744100000196
结合使用以便导出平移(panning)增益Gjh(k,n)。对于时间-频率片(k,n),平移增益Gjh(k,n)定义被馈送到电声换能器h的输出声道内的每个虚拟声源j的声级(以及潜在地相位)。
通过考虑所考虑的虚拟声源的虚拟源方向矢量
Figure GDA0002804744100000197
与电声换能器的实际源方向矢量
Figure GDA0002804744100000198
之间的几何关系来确定平移增益Gjh(k,n)。为简单起见,虚拟源方向矢量
Figure GDA0002804744100000199
以某种方式投影到实际源方向矢量
Figure GDA00028047441000001910
上。例如,在图6中,第二虚拟声源VS2比其他电声换能器AET1、AET3更靠近第二电声换能器AET2。平移增益G22(k,n)将大于G12(k,n)或G23(k,n)。当然,在实践中,可以使用更复杂的三角公式或基于矢量的公式。例如,可以使用基于矢量的幅度平移(VBAP),如Ville Pulkki在“Virtual Sound Source Positioning Using VectorBase Amplitude Panning”,Audio Engineering Society,Inc,1997中所公开的。
应注意的是,还可以实施头部-相关的(head-related)传递函数(HRTF)处理以便合成双耳声音。由于HRTF可以取决于虚拟声源位置,因此可以存储一组预定的HRTF,并且基于虚拟声源的位置来选择要使用的HRTF,如Michael M.Goodwin和Jean-Marc Jot在“Binaural 3D audio rendering based on spatial audio scene coding”,AudioEngineering Society,123rd Convention,New York,NY,2007中所解释的。
对于相同的频率仓,虚拟源方向矢量
Figure GDA0002804744100000203
可以从一帧到下一帧快速变化。因此,平移增益Gjh(k,n)也可以从一帧到下一帧突然变化。可以通过组合相同频率仓的至少两个时间上连续的平移增益Gjh(k,n)来平滑平移增益Gjh(k,n),诸如:
Figure GDA0002804744100000201
其中λ为0到1之间的实数。
对于每个时间-频率片,然后通过对该输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号Bh(k,n):
Figure GDA0002804744100000202
然后将时间-频率音频输出声道信号Bh(k,n)转换回依赖于时间的输出声道信号bh(t)。逆短时傅里叶变换(ISTFT)可被用于该目的。
最后,每个依赖于时间的输出声道信号bh(t)被馈送到每个对应的电声换能器,即所述输出声道的电声换能器。然后,电声换能器从所接收的依赖于时间的输出声道信号bh(t)产生声音(步骤S04)。
如上所述的本发明的方法可以被实现为程序并被存储在非暂时性有形计算机可读介质中,诸如其上包含计算机可执行指令的CD-ROM、ROM、硬盘,所述计算机可执行指令在由计算机执行时,执行根据本发明的方法。
虽然已经关于某些优选实施例描述了本发明,但是对于本领域技术人员来说将显而易见的是,可以在不脱离所附权利要求限定的本发明的范围的情况下进行各种改变和修改。

Claims (13)

1.一种用于利用在实际空间配置中相对于参考收听点(O)的实际位置处被定位的电声换能器(AET1,AET2,AET3)来再现多声道音频信号的空间分布声音的方法,其中,所述多声道音频信号包括依赖于时间的输入音频信号,每个依赖于时间的输入音频信号与输入声道相关联,每个声道对应于电声换能器在规定空间配置中相对于参考收听点(O)的规定位置,由规定配置中的所述依赖于时间的输入音频信号来定义声场,所述方法包括以下步骤:
-接收(S01)所述依赖于时间的输入音频信号,
-对所述依赖于时间的输入音频信号执行时间-频率转换(S02),以用于将所述依赖于时间的输入音频信号中的每个依赖于时间的输入音频信号转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示,每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片,对于不同的输入声道来说时间-频率片是相同的,
-对于每个时间-频率片,根据针对所述时间-频率片的不同输入声道的时间-频率表示来确定(S31)有功方向矢量
Figure FDA0002970216520000011
和无功方向矢量
Figure FDA0002970216520000012
其中,所述有功方向矢量根据复数强度矢量的实部来确定,并且所述无功方向矢量根据所述复数强度矢量的虚部来确定,其中,所述复数强度矢量由针对时间-频率片的声压值的共轭和针对所述时间-频率片的声速矢量之间的复数乘积产生,
-对于每个时间-频率片,根据所述有功方向矢量
Figure FDA0002970216520000013
和所述无功方向矢量
Figure FDA0002970216520000014
确定虚拟声源(VS1,VS2,VS3)在虚拟空间配置中相对于参考收听点(O)的位置,并确定每个虚拟声源(VS1,VS2,VS3)的频率信号值(S32),使得在所述位置的所述虚拟声源生成与由所述规定配置中的所述依赖于时间的输入音频信号所定义的声场相同的声场特性,其中,虚拟声源的位置由酉源方向矢量来定义,所述酉源方向矢量源自所述参考收听点(O)并由所述有功方向矢量
Figure FDA0002970216520000015
和所述无功方向矢量
Figure FDA0002970216520000016
的组合来定义,
-基于所述虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配(S33)给电声换能器,
-基于分配给电声换能器的时间-频率信号值,通过实际空间配置中的电声换能器来产生(S04)声音。
2.根据权利要求1所述的方法,其中,时间-频率片的有功方向矢量
Figure FDA0002970216520000021
表示在针对所述时间-频率片的时间帧和频率子带的参考收听点处的声能流,并且其中,所述无功方向矢量
Figure FDA0002970216520000022
表示在所述参考收听点处相对于所述声能流的声学扰动。
3.根据权利要求1所述的方法,其中,每个输入声道与在所述参考收听点和与所述输入声道相关联的扬声器的规定位置之间定义的声音方向
Figure FDA0002970216520000023
相关联,并且所述声速矢量被确定为由对应于与所述声音方向相关联的输入声道的时间-频率表示所加权的每个声音方向
Figure FDA0002970216520000024
之和的函数。
4.根据权利要求1所述的方法,其中,由不同输入声道的时间-频率表示之和来定义所述声压值。
5.根据权利要求1所述的方法,其中,为了确定所述虚拟声源中的每个虚拟声源的时间-频率信号值,确定虚拟麦克风信号,每个虚拟麦克风信号与虚拟声源相关联并且对应于将获取被布置在所述参考收听点(O)处并且方向上朝向所述虚拟声源的位置定向的虚拟麦克风的信号。
6.根据权利要求5所述的方法,其中,通过在与所述虚拟声源相关联的虚拟麦克风信号中抑制来自其他虚拟声源的干扰来确定虚拟声源的时间-频率信号值。
7.根据权利要求5所述的方法,其中,所述虚拟声源被布置在以所述参考收听点(O)为中心的圆上,并且虚拟麦克风信号对应于将获取具有形状上与以所述参考收听点(O)为中心的圆相切的心形的心形指向性图案(VM1,VM2,VM3)的虚拟心形麦克风的信号。
8.根据权利要求1所述的方法,其中,基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器(AET1,AET2,AET3)的实际位置之间的比较,将所述虚拟声源(VS1,VS2,VS3)的时间-频率信号值分配给所述电声换能器(AET1,AET2,AET3),包括:
-对于每个时间-频率片,通过对与电声换能器相关联的输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号,以及
-将时间-频率音频输出声道信号转换成依赖于时间的输出声道信号。
9.根据权利要求8所述的方法,其中,每个依赖于时间的输出声道信号被馈送到每个对应的电声换能器。
10.根据权利要求1所述的方法,其中,对于每个时间-频率片存在三个虚拟声源,每个虚拟声源具有相对于所述参考收听点的位置,其中:
-第一虚拟声源(VS1)的位置与所述参考收听点(O)一起定义与来自所述参考收听点(O)的有功方向矢量
Figure FDA0002970216520000031
的方向共线的方向
Figure FDA0002970216520000032
-第二虚拟声源(VS2)的位置与所述参考收听点(O)一起定义与具有第一取向的无功方向矢量
Figure FDA0002970216520000033
的方向共线的方向
Figure FDA0002970216520000034
-第三虚拟声源(VS3)的位置与所述参考收听点(O)一起定义与具有与所述第一取向相反的第二取向的无功方向矢量
Figure FDA0002970216520000035
的方向共线的方向
Figure FDA0002970216520000036
11.根据权利要求1所述的方法,其中,对于每个时间-频率片存在两个虚拟声源,每个虚拟声源具有相对于所述参考收听点的位置,并且其中:
-第一虚拟声源(VS1)的位置与所述参考收听点(O)一起定义从所述有功方向矢量
Figure FDA0002970216520000037
和由正因子加权的无功方向矢量
Figure FDA0002970216520000038
之和得到的方向
Figure FDA0002970216520000039
以及
-第二虚拟声源(VS2)的位置与所述参考收听点(O)一起定义从所述有功方向矢量
Figure FDA00029702165200000310
和由负因子加权的无功方向矢量
Figure FDA00029702165200000311
之和得到的方向
Figure FDA00029702165200000312
12.一种非暂时性有形计算机可读介质,其上包含计算机可执行指令,所述计算机可执行指令在由计算机执行时,执行根据权利要求1所述的方法。
13.一种用于再现多声道音频信号的空间分布声音的系统,所述系统包括:
-输出端,用于将依赖于时间的输出声道信号递送到多个在实际空间配置中相对于参考收听点(O)的实际位置处被定位的电声换能器(AET1,AET2,AET3);
-输入端,用于接收多个输入声道的依赖于时间的输入音频信号,其中,所述多声道音频信号包括依赖于时间的输入音频信号,每个依赖于时间的输入音频信号与输入声道相关联,每个声道对应于电声换能器在规定空间配置中相对于参考收听点(O)的规定位置,由规定配置中的所述依赖于时间的输入音频信号来定义声场;
-处理器和存储器,用于:
·对所述依赖于时间的输入音频信号执行时间-频率变换,以用于将所述依赖于时间的输入音频信号中的每个依赖于时间的输入音频信号转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示Ai,每个时间-频率表示Ai对应于由时间帧和频率子带限定的时间-频率片,对于不同的输入声道来说时间-频率片是相同的,
·对于每个时间-频率片,根据针对所述时间-频率片的不同输入声道的时间-频率表示Ai来确定有功方向矢量
Figure FDA0002970216520000041
和无功方向矢量
Figure FDA0002970216520000042
其中,所述有功方向矢量根据复数强度矢量的实部来确定,并且所述无功方向矢量根据所述复数强度矢量的虚部来确定,其中,所述复数强度矢量由针对时间-频率片的声压值的共轭和针对所述时间-频率片的声速矢量之间的复数乘积产生,
·对于每个时间-频率片,根据所述有功方向矢量
Figure FDA0002970216520000043
和所述无功方向矢量
Figure FDA0002970216520000044
确定虚拟声源在虚拟空间配置中相对于参考收听点的位置,并确定针对每个虚拟声源的时间-频率信号值,使得在所述位置的所述虚拟声源生成与由规定配置中的依赖于时间的输入音频信号所定义的声场相同的声场特性,其中虚拟声源的位置由酉源方向矢量来定义,所述酉源方向矢量源自参考收听点(O)并由所述有功方向矢量
Figure FDA0002970216520000045
和所述无功方向矢量
Figure FDA0002970216520000046
的组合来定义,
·基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给所述电声换能器。
CN201780057585.2A 2016-09-19 2017-09-19 用于再现空间分布声音的方法、系统及计算机可读介质 Active CN110089134B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16306190.6A EP3297298B1 (en) 2016-09-19 2016-09-19 Method for reproducing spatially distributed sounds
EP16306190.6 2016-09-19
PCT/EP2017/073565 WO2018050905A1 (en) 2016-09-19 2017-09-19 Method for reproducing spatially distributed sounds

Publications (2)

Publication Number Publication Date
CN110089134A CN110089134A (zh) 2019-08-02
CN110089134B true CN110089134B (zh) 2021-06-22

Family

ID=57130308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780057585.2A Active CN110089134B (zh) 2016-09-19 2017-09-19 用于再现空间分布声音的方法、系统及计算机可读介质

Country Status (5)

Country Link
US (3) US20180084364A1 (zh)
EP (1) EP3297298B1 (zh)
CN (1) CN110089134B (zh)
TW (1) TWI770059B (zh)
WO (1) WO2018050905A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11902769B2 (en) 2019-07-02 2024-02-13 Dolby International Ab Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8930005B2 (en) 2012-08-07 2015-01-06 Sonos, Inc. Acoustic signatures in a playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN111052770B (zh) * 2017-09-29 2021-12-03 苹果公司 空间音频下混频的方法及系统
CN107890673A (zh) * 2017-09-30 2018-04-10 网易(杭州)网络有限公司 补偿声音信息的视觉显示方法及装置、存储介质、设备
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572419A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
CN108854069B (zh) * 2018-05-29 2020-02-07 腾讯科技(深圳)有限公司 音源确定方法和装置、存储介质及电子装置
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
EP3618464A1 (en) * 2018-08-30 2020-03-04 Nokia Technologies Oy Reproduction of parametric spatial audio using a soundbar
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) * 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
CN109036456B (zh) * 2018-09-19 2022-10-14 电子科技大学 用于立体声的源分量环境分量提取方法
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11956616B2 (en) 2019-03-04 2024-04-09 Steelseries France Apparatus and method for audio analysis
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
GB2587196A (en) * 2019-09-13 2021-03-24 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US12010493B1 (en) * 2019-11-13 2024-06-11 EmbodyVR, Inc. Visualizing spatial audio
US11291911B2 (en) 2019-11-15 2022-04-05 Microsoft Technology Licensing, Llc Visualization of sound data extending functionality of applications/services including gaming applications/services
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111372167B (zh) * 2020-02-24 2021-10-26 Oppo广东移动通信有限公司 音效优化方法及装置、电子设备、存储介质
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
DE102020209050B4 (de) * 2020-07-20 2022-05-25 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörsystems, Hörsystem, Hörgerät
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1498035A (zh) * 2002-10-23 2004-05-19 ���µ�����ҵ��ʽ���� 音频信息变换方法、程序和设备
WO2004077884A1 (en) * 2003-02-26 2004-09-10 Helsinki University Of Technology A method for reproducing natural or modified spatial impression in multichannel listening
WO2006006809A1 (en) * 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
WO2008113428A1 (en) * 2007-03-21 2008-09-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for conversion between multi-channel audio formats
CN101410157A (zh) * 2006-03-27 2009-04-15 科乐美数码娱乐株式会社 声音处理装置、声音处理方法、信息记录媒体及程序
CN104919821A (zh) * 2012-09-27 2015-09-16 声摩逊实验室 用于重放音频信号的方法和系统
CN105392102A (zh) * 2015-11-30 2016-03-09 武汉大学 用于非球面扬声器阵列的三维音频信号生成方法及系统

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9417185D0 (en) * 1994-08-25 1994-10-12 Adaptive Audio Ltd Sounds recording and reproduction systems
EP1224037B1 (en) 1999-09-29 2007-10-31 1... Limited Method and apparatus to direct sound using an array of output transducers
CA2899107C (en) 2003-12-30 2017-12-05 The Nielsen Company (Us), Llc Methods and apparatus to distinguish a signal originating from a local device from a broadcast signal
EP1761110A1 (en) 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
WO2007089129A1 (en) 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Apparatus and method for visualization of multichannel audio signals
US9014377B2 (en) * 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8374365B2 (en) 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US8908873B2 (en) 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8841535B2 (en) 2008-12-30 2014-09-23 Karen Collins Method and system for visual representation of sound
EP2285139B1 (en) 2009-06-25 2018-08-08 Harpex Ltd. Device and method for converting spatial audio signal
US8208002B2 (en) 2009-08-27 2012-06-26 Polycom, Inc. Distance learning via instructor immersion into remote classroom
KR101081752B1 (ko) * 2009-11-30 2011-11-09 한국과학기술연구원 인공귀 및 이를 이용한 음원 방향 검지 방법
EP2508011B1 (en) * 2009-11-30 2014-07-30 Nokia Corporation Audio zooming process within an audio scene
ES2656815T3 (es) 2010-03-29 2018-02-28 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica
EP2733965A1 (en) 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
US9232337B2 (en) * 2012-12-20 2016-01-05 A-Volute Method for visualizing the directional sound activity of a multichannel audio signal
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US20150332682A1 (en) 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1498035A (zh) * 2002-10-23 2004-05-19 ���µ�����ҵ��ʽ���� 音频信息变换方法、程序和设备
WO2004077884A1 (en) * 2003-02-26 2004-09-10 Helsinki University Of Technology A method for reproducing natural or modified spatial impression in multichannel listening
WO2006006809A1 (en) * 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
CN101410157A (zh) * 2006-03-27 2009-04-15 科乐美数码娱乐株式会社 声音处理装置、声音处理方法、信息记录媒体及程序
WO2008113428A1 (en) * 2007-03-21 2008-09-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for conversion between multi-channel audio formats
CN104919821A (zh) * 2012-09-27 2015-09-16 声摩逊实验室 用于重放音频信号的方法和系统
CN105392102A (zh) * 2015-11-30 2016-03-09 武汉大学 用于非球面扬声器阵列的三维音频信号生成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
三维音频技术综述;胡瑞敏;《数据采集与处理》;20140930;第29卷(第5期);第661-676页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11902769B2 (en) 2019-07-02 2024-02-13 Dolby International Ab Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data

Also Published As

Publication number Publication date
EP3297298A1 (en) 2018-03-21
US10536793B2 (en) 2020-01-14
US10085108B2 (en) 2018-09-25
US20180084367A1 (en) 2018-03-22
EP3297298B1 (en) 2020-05-06
TW201820898A (zh) 2018-06-01
WO2018050905A1 (en) 2018-03-22
CN110089134A (zh) 2019-08-02
US20180084364A1 (en) 2018-03-22
US20190208349A1 (en) 2019-07-04
TWI770059B (zh) 2022-07-11

Similar Documents

Publication Publication Date Title
CN110089134B (zh) 用于再现空间分布声音的方法、系统及计算机可读介质
US10397722B2 (en) Distributed audio capture and mixing
US10645518B2 (en) Distributed audio capture and mixing
JP5595602B2 (ja) 予め計算された参照曲線を用いて入力信号を分解する装置および方法
US8180062B2 (en) Spatial sound zooming
KR101341523B1 (ko) 스테레오 신호들로부터 멀티 채널 오디오 신호들을생성하는 방법
KR101828138B1 (ko) 상이한 재생 라우드스피커 셋업에 대한 공간 오디오 신호의 세그먼트-와이즈 조정
KR101195980B1 (ko) 다채널 오디오 포맷들 사이의 변환 장치 및 방법
CN104904240B (zh) 用于生成多个参数化音频流的装置和方法以及用于生成多个扬声器信号的装置和方法
JP2023078432A (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
CN117412237A (zh) 合并音频信号与空间元数据
US11350213B2 (en) Spatial audio capture
Pulkki et al. Multichannel audio rendering using amplitude panning [dsp applications]
US20230370777A1 (en) A method of outputting sound and a loudspeaker
KR20240097694A (ko) 임펄스 응답 결정 방법 및 상기 방법을 수행하는 전자 장치
Walther Perception and rendering of three-dimensional surround sound

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: French ASCQ

Patentee after: Steelcyrus France

Address before: Roubaix

Patentee before: A-VOLUTE

CP03 Change of name, title or address