CN102138342B - 用于合并空间音频流的设备 - Google Patents

用于合并空间音频流的设备 Download PDF

Info

Publication number
CN102138342B
CN102138342B CN200980131410.7A CN200980131410A CN102138342B CN 102138342 B CN102138342 B CN 102138342B CN 200980131410 A CN200980131410 A CN 200980131410A CN 102138342 B CN102138342 B CN 102138342B
Authority
CN
China
Prior art keywords
waveform
merging
audio stream
represent
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200980131410.7A
Other languages
English (en)
Other versions
CN102138342A (zh
Inventor
乔瓦尼·德尔加多
法比安·库切
马库斯·卡林格
维利·普尔基
米可-维利·莱迪南
理查德·舒尔茨-阿姆林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN102138342A publication Critical patent/CN102138342A/zh
Application granted granted Critical
Publication of CN102138342B publication Critical patent/CN102138342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种用于合并第一空间音频流和第二空间音频流以获得合并的音频流的设备(100),该设备(100)包括:估计器(120),用于估计第一波形表示,所述第一波形表示包括对于第一空间音频流的第一波形方向测量和第一波形场测量,所述第一空间音频流具有第一音频表示和第一到达方向。所述估计器(120)适于估计第二波形表示,第二波形表示包括对于第二空间音频流的第二波形方向测量和第二波形场测量,所述第二空间音频流具有第二音频表示和第二到达方向。所述设备(100)还包括处理器(130),所述处理器用于处理第一波形表示和第二波形表示以获得合并的波形表示,所述合并的波形表示包括合并的波形场测量和合并的到达方向测量,用于处理第一音频表示和第二音频表示以获得合并的音频表示,和用于提供包括合并的音频表示和合并的到达方向测量的合并的音频流。

Description

用于合并空间音频流的设备
技术领域
本发明涉及音频处理领域,尤其涉及空间音频处理以及多个空间音频流的合并。
背景技术
比照V.Pulkki和C.Faller的“Directional audio coding in spatial sound reproduction andstereo upmixing”(AES 28th International Conference,Pitea,瑞典,2006年6月)以及V.Pulkki的“A method for reproducing natural or modified spatial impression in Multichannel listening”(申请日为2004年9月的专利WO 2004/077884 A1),DirAC(定向音频编码:Directional AudioCoding)是分析和再现空间声音的高效方法。DirAC使用基于特征的声音场的参数表示,该特征与空间声音的感知相关,该参数即到达方向(DOA:Direction Of Arrival)以及声音场在频率子带的扩散。实际上,DirAC假设当正确地再现声音场的DOA时即正确地感知双耳时差(ITD:Interaural Time Difference)和双耳电平差(ILD:Interaural Level Difference),同时假设如果正确地再现扩散的话则正确地感知双耳连贯性(IC:Interaural Coherence)。
这些参数(即DOA和扩散)表示边信息,该边信息伴随着被称为单声道DirAC流中的单声道信号(或者单信号;mono signal)。从麦克风信号的时间-频率表示获得DirAC参数。因而,所述参数依赖于时间和频率。在再现侧,该信息允许准确的空间渲染。为了在期望的收听位置再生空间声音,需要多扬声器设置。然而,其几何结构是任意的。实际上,用于扬声器的信号被确定为DirAC参数的函数。
DirAC和参数化多通道音频编码(例如环绕MPEG)之间存在实质差异,尽管两者具有非常相似的处理结构,参照Lars Villemoes、Juergen Herre、Jeroen Breebaart、Gerard Hotho、Sascha Disch、Heiko Purnhagen和Kristofer Kjrlingm的“MPEG surround:The forthcoming ISOstandard for spatial audio coding”(AES 28th International Conference,Pitea,瑞典,2006年6月)。尽管环绕MPEG基于不同扬声器通道的时间-频率分析,但是DirAC采用同步麦克风的通道作为输入,这有效地在一个点描述声音场。这样,DirAC也表示了用于空间音频的高效记录技术。
处理空间音频的另一个已有系统是SAOC(空间音频对象编码:Spatial Audio ObjectCoding),参照Jonas Engdegard、Barbara Resch、Cornelia Falch、Oliver Hellmuth、JohannesHilpert、Andreas Hoelzer、Leonid Ternetiev、Jeroen Breebaart、Jeroen Koppens、Erik Schuijer和Werner Oomen的“Spatial audio object coding(SAOC)the upcoming MPEG standard onparametric object based audio coding”(124th AES Convention,2008年5月17-20日,Amsterdam,荷兰,2008),目前在ISO/MPEG内进行标准化。
SAOC依赖于环绕MPEG的渲染引擎(rendering engine)并且将不同的声音源作为对象。该音频编码在比特率方面提供非常高的效率并且在再现方面给予了空前的交互自由。该方法保障在原有系统中的新的引人注目的特征和功能性,以及其它一些新的应用。
发明内容
本发明的目的是提供一种用于合并空间音频信号的认可的概念。
通过根据权利要求1或14之一的用于合并的设备以及根据权利要求13或15之一的用于合并的方法来实现该目的。
注意在多通道DirAC流的情况下(即,如果有4B格式音频通道可用),合并是不必要的。实际上,来自不同源的信号能够被直接相加以获得合并的流的B格式信号(B-formatsignal)。然而,如果这些通道不可用,则合并是有问题的。
本发明基于如下的发现:能够通过将波形表示(例如平面波表示)和扩散场表示相加来表示空间音频信号。对于前者可以分配一个方向。当合并多个音频流时,实施例可以允许获得合并的流的边信息(或者边信息;side information;例如扩散和方向)。实施例可以从波形表示以及输入音频流获得该信息。当合并数个音频流(能够通过波形部或表示以及扩散部或表示对这些音频流建模)时,能够单独地合并波形部或分量以及扩散部或分量。合并波形部产生合并的波形部,对于该合并的波形部,可以基于波形部表示的方向获得合并的方向。另外,也能够单独地合并扩散部,并且从合并的扩散部能够推导出整体扩散参数。
实施例可以提供一种方法,所述方法用以合并编码为单声道DirAC流的两个或更多个空间音频信号。所获得的合并的信号也能够被表示作为单声道DirAC流。在实施例中,单声道DirAC编码能够是描述空间音频的紧凑方式,因为仅需要将单个音频通道与边信息一起发送。
在实施例中,可能的情形是具有多于两方的电话会议应用。例如,让用户A和用户B和C通信,这些用户生成两个单独的单声道DirAC流。在A的位置,实施例可以允许用户B和C的流被合并到单个单声道DirAC流,该单个的单音道DirAC流能够使用已有DirAC合成技术将其重现。在利用看到多点控制单元(MCU:multipoint control unit)的网络拓扑的实施例中,MCU本身可以执行合并操作,从而用户A能够接收已经包含来自B和C两者的语音的单个单声道DirAC流。清楚地,将被合并的DirAC流也能够被合成地生成,意味着适当的边信息能够被加入单声道音频信号。在刚才提及的例子中,用户A可以没有任何边信息地从B和C接收两个音频流。然后可以向每个流分配特定的方向和扩散,因而加入需要来构造DirAC流的边信息,该DirAC流然后能够由实施例合并。
在多玩家在线游戏和虚拟现实应用中能够找到实施例中另一个可能的情形。在这些情况下,从玩家或虚拟对象生成数个流。每个流的特征在于与收听者相关的特定到达方向并且因而能够由DirAC流表达。可以使用实施例来将不同的流合并至单个DirAC流,然后在收听者位置重现该单个DirAC流。
附图说明
使用附图详细描述本发明的实施例,其中:
图1a示出了用于合并的设备的实施例;
图1b示出了在用于平面波形的高斯平面中的颗粒速度矢量的压力和分量;
图2示出了DirAC编码器的实施例;
图3说明了音频流的理想合并;
图4示出了通常DirAC合并处理框的实施例的输入和输出;
图5示出了实施例的框图;以及
图6示出了用于合并的方法的实施例的流程图。
具体实施方式
图1a显示了用于第一空间音频流与第二空间音频流合并以获得合并的音频流的设备100的实施例。图1a中所示的实施例显示了两个音频流的合并,然而不应当受限于两个音频流,以相似的方式,可以合并多个空间音频流。例如,第一空间音频流和第二空间音频流可以对应于单声道DirAC流并且合并的音频流也可以对应于单个单声道DirAC音频流。如同接下来将详细说明的,单声道DirAC流可以包括例如由单声道定向麦克风捕捉的压力信号以及边信息。后者可以包括声音依赖于时间-频率的扩散和到达方向的测量。
图1a示出了用于将第一空间音频流与第二空间音频流合并以获得合并的音频流的设备100的实施例,该设备100包括估计器120,用于估计第一波形表示和第二波形表示,该第一波形表示包括用于第一空间音频流的第一波形方向测量和第一波形场测量,所述第一空间音频流具有第一音频表示和第一到达方向,该第二波形表示包括用于第二空间音频流的第二波形方向测量和第二波形场测量,所述第二空间音频流具有第二音频表示和第二到达方向。在实施例中,第一和/或第二波形表示可以对应于平面波形表示。
在图1a所示的实施例中,设备100还包括处理器130,所述处理器130用于处理第一波形表示和第二波形表示以获得合并的波形表示并且用于处理第一音频表示和第二音频表示以获得合并的音频表示,该合并的波形表示包括合并的场测量和合并的到达方向测量,处理器130还适于提供包括合并的音频表示和合并的到达方向测量的合并的音频流。
估计器120可以适于估计以第一波形场幅度而言的第一波形场测量,用于估计以第二波形场幅度而言的第二波形场测量,以及用于估计第一波形场测量和第二波形场测量之间的相位差。在实施例中,该估计器能够适于估计第一波形场相位和第二波形场相位。在实施例中,估计器120可以仅分别估计第一和第二波形表示、第一和第二波形场测量之间的相位偏移或者相位差。然后处理器130可以相应地适于处理第一波形表示和第二波形表示以获得合并的波形表示,该合并的波形表示包括合并的波形场测量,该合并的波形场测量可以包括合并的波形场幅度、合并的波形场相位以及合并的到达方向测量,并且处理器130可以适于处理第一音频表示和第二音频表示以获得合并的音频表示。
在实施例中,处理器130还能够适于处理第一波形表示和第二波形表示以获得合并的波形表示,该合并的波形表示包括合并的波形场测量,合并的到达方向测量以及合并的扩散参数,并且能够适于提供合并的音频流,该合并的音频流包括合并的音频表示、合并的到达方向测量以及合并的扩散参数。
换言之,在实施例中,能够基于用于合并的音频流的波形表示确定扩散参数。扩散参数可以建立音频流的空间扩散的测量,即用于空间分布(例如围绕特定方向的角向分布)的测量。在实施例中,可能的情形可以是仅使用定向信息的两个单声道合成信号的合并。
处理器130可以适于处理第一波形表示和第二波形表示以获得合并的波形表示,其中合并的扩散参数基于第一波形方向测量和第二波形方向测量。在实施例中,第一和第二波形表示可以具有不同的到达方向并且合并的到达方向可以位于这两个方向之间。在该实施例中,尽管第一和第二空间音频流可能不提供任何扩散参数,可以从第一和第二波形表示(即基于第一波形方向测量和第二波形方向测量)确定合并的扩散参数。例如,如果两个平面波形从不同方向冲击,即第一波形方向测量与第二波形方向测量不同,则合并的音频表示可以包括组合的合并的到达方向和非消失合并的扩散参数,以解释第一波形方向测量和第二波形方向测量。换言之,由于两个被关注的空间音频流可能不具有或不提供任何扩散,合并的音频流可以具有非消失扩散(non-vanishing diffuseness),因为其基于由第一和第二音频流建立的角向分布。
实施例可以例如为合并的DirAC流估计扩散参数Ψ。通常,实施例然后可以将各个流的扩散参数设置或假设为固定值,例如0或0.1,或者设置或假设为从音频表示和/或方向表示的分析中得到的变化值。
在其它实施例中,用于将第一空间音频流和第二空间音频流合并以获得合并的音频流的设备100可以包括这样的估计器120,所述估计器120用于估计第一波形表示,该第一波形表示包括用于第一空间音频流的第一波形方向测量和第一波形场测量,第一空间音频流具有第一音频表示、第一到达方向和第一扩散参数。换言之,第一音频表示可以对应于具有特定空间宽度或扩散到特定程度的音频信号。在一个实施例中,这可以对应于计算机游戏中的场景。第一玩家可以在场景中,其中第一音频表示代表音频源,例如经过的火车,产生一定程度的扩散声音场。在这样实施例中,由火车本身诱发的声音可以是扩散的,由火车的喇叭产生的声音(即对应的频率分量)可以不是扩散的。
估计器120可以进一步适于估计第二波形表示,该第二波形表示包括用于第二空间音频流的第二波形方向测量和第二波形场测量,第二空间音频流具有第二音频表示、第二到达方向和第二扩散参数。换言之,第二音频表示可以对应于具有特定空间宽度或扩散到特定程度的音频信号。这也可以对应于计算机游戏中的场景,其中第二声音源可以由第二音频流代表,例如另一列火车在另一个轨道上经过的背景噪声。对于在计算机游戏中的第一玩家,两个声音源都是扩散的,因为他位于火车站位置。
在实施例中,处理器130能够适于处理第一波形表示和第二波形表示以获得包括合并的波形场测量和合并的到达方向测量的合并的波形表示,并且用于处理第一音频表示和第二音频表示以获得合并的音频表示,并且用于提供包括合并的音频表示和合并的到达方向测量的合并的音频流。换言之,处理器130可以不确定合并的扩散参数。这可以对应于由在上述计算机游戏中的第二玩家体验的声音场。第二玩家可以位于远离火车站的位置,从而两个声音源对于第二玩家的体验来说可能不是扩散的,而是代表集中的声音源,这是因为更远的距离所导致。
在实施例中,设备100还可以包括装置110,所述装置110用于为第一空间音频流确定第一音频表示和第一到达方向,并且为第二空间音频流确定第二音频表示和第二到达方向。在实施例中,可以为用于确定的装置110提供直接音频流,即该确定可以仅指的是读取音频表示(例如以压力信号和DOA而言)以及可选地扩散参数(以边信息而言)。
估计器120可以适于从进一步具有第一扩散参数的第一空间音频流估计第一波形表示和/或从进一步具有第二扩散参数的第二空间音频流估计第二波形表示,处理器130可以适于处理合并的波形场测量、第一和第二音频表示以及第一和第二扩散参数,以获得用于合并的音频流的合并的扩散参数,并且处理器130能够还适于提供包括合并的扩散参数的音频流。用于确定的装置110可以适于为第一空间音频流确定第一扩散参数以及为第二空间音频流确定第二扩散参数。
处理器130可以适于分块地(即以样本段或值段)处理空间音频流、音频表示、DOA和/或扩散参数。在一些实施例中,段(segment)可以包括与在空间音频流的特定时间上的特定频带的频率表示相对应的预定数目的样本。这样的段可以对应于单声道表示并且具有相关联的DOA和扩散参数。
在实施例中,用于确定的装置110能够适于以依赖于时间-频率的方式确定第一和第二音频表示、第一和第二到达方向以及第二和第二扩散参数,和/或处理器130能够适于以依赖于时间-频率的方式处理第一和第二波形表示、扩散参数和/或DOA测量和/或适于确定合并的音频表示、合并的到达方向测量和/或合并的扩散参数。
在实施例中,第一音频表示可以对应于第一单声道表示,第二音频表示可以对应于第二单声道表示并且合并的音频表示可以对应于合并的单声道表示。换言之,音频表示可以对应于单个音频通道。
在实施例中,用于确定的装置110能够适于确定,和/或处理器能够适于处理第一和第二单声道表示、第一和第二DOA以及第一和第二扩散参数,并且处理器130可以以依赖于时间-频率的方式提供合并的单声道表示、合并的DOA测量和/或合并的扩散参数。在实施例中,第一空间音频流可以已经由例如DirAC表示的方式提供,用于确定的装置110能够适于仅通过从第一和第二音频流(例如从DirAC边信息)提取的方式确定第一和第二单声道表示、第一和第二DOA以及第一和第二扩散参数。
下面,将详细说明一个实施例,其中将首先介绍标记法和数据模型。在实施例中,用于确定的装置110能够适于确定第一和第二音频表示和/或处理器130能够适于以压力信号p(t)或时间-频率转换压力信号P(k,n)的方式提供合并的单声道表示,其中k表示频率指标,n表示时间指标。
在实施例中,第一和第二波形方向测量以及合并的到达方向测量可以对应于任何定向量,例如矢量、角度、方向等,并且能够从代表音频分量(例如强度矢量、颗粒速度矢量等)的任何定向测量中获取第一和第二波形方向测量以及合并的到达方向测量。第一和第二波形场测量以及合并的波形场测量可以对应于描述音频分量的任何物理量(能够是实数或复数),可以对应于压力信号、颗粒速度幅度或幅值、响度等。此外,可以在时域和/或频考虑测量。
实施例可以基于对于输入流的波形表示的波形场测量的平面波形表示的估计,该估计能够由图1a中的估计器120执行。换言之,可以使用平面波形表示对波形场测量建模。通常,存在对于平面波形或波形的数个等同穷举(即详尽)描述。下面将介绍数学描述来计算对于不同分量的扩散参数和到达方向或方向测量。尽管只有几个描述直接与物理量(例如压力、颗粒速度等)相关,但是潜在地存在无穷种方式来描述波形表示,下面将举一个例子作为示例,但是不以任何方式限制本发明的实施例。
为了进一步详细地说明不同的潜在描述,考虑两个实数a和b。当
c d = Ω a b
时,可以通过给出c和d表示a和b中包含的信息,其中Ω是已知的2x2矩阵。该示例仅考虑线性组合,通常可以考虑任意组合,即也包括非线性组合。
下面标量由小写字母a,b,c表示,而列矢量由黑体小写字母a,b,c表示。上标()T分别表示转置矩阵,而
Figure BPA00001310236500062
和(·)*表示复共轭。复相角标记与时间标记不同。例如,压力p(t)(实数并且能够从其获取可能的波形场测量)能够由相角P表示,该相角P是复数并且能够通过
p(t)=Re{Pejωt}
从P获取另一个可能的波形场测量,其中Re{·}表示实部并且ω=2πf是角频率。另外,下面用于物理量的大写字母表示相角。对于下述介绍性例子并且为了避免混淆,请注意下面具有下标“PW”的所有量指的是平面波形。
对于理想的单色平面波形,颗粒速度矢量UPW可以被标记为
U PW = P PW ρ 0 c e d = U x U y U z ,
其中单位矢量ed指向波形传播的方向,例如对应于方向测量。能够证明
I a = 1 2 ρ 0 c | P PW | 2 e d
E = 1 2 ρ 0 c 2 | P PW | 2
Ψ=0,(a)
其中Ia表示有源强度(active intensity),ρ0表示空气密度,c表示声音的速度,E表示声音场能量并且Ψ表示扩散。
值得感兴趣的是、注意到由于ed的所有分量都是实数,UPW的分量与PPW都同相。图1b说明了在高斯平面的示例性UPW和PPW。如刚才提及的,UPW的所有分量都与PPW的相位相同,即θ。另一方面,它们的幅值限定于
| P PW | c = | U x | 2 + | U y | 2 + | U z | 2 = | | U PW | | .
即使当存在多个声音源时,压力和颗粒速度仍然可以被表示为各个分量的和。不丧失一般性地,能够说明两个声音源的情况。实际上,可以直接扩展到更多数目的声音源。
假设P(1)和P(2)是能够分别为第一和第二源记录的压力,即表示第一和第二波形场测量。相似地,假设U(1)和U(2)是复数颗粒速度矢量。在给出传播现象的线性之后,当源一起作用时,观察到的压力P和颗粒速度U是
P=P(1)+P(2)
U=U(1)+U(2)
因而,有源强度是
I a ( 1 ) = 1 2 Re { P ( 1 ) · U ( 1 ) ‾ }
I a ( 2 ) = 1 2 Re { P ( 2 ) · U ( 2 ) ‾ } .
因而,
I a = I a ( 1 ) + I a ( 2 ) + 1 2 Re { P ( 1 ) · U ( 2 ) ‾ + P ( 2 ) · U ( 1 ) ‾ } .
注意在除了特别情况之下,
I a ≠ I a ( 1 ) + I a ( 2 ) .
当两个波形(例如平面波形)准确同相时(尽管朝向不同的方向前进),
P(2)=γ·P(1)
其中γ是实数。得到
I a ( 1 ) = 1 2 Re { P ( 1 ) · U ( 1 ) ‾ }
I a ( 2 ) = 1 2 Re { P ( 2 ) · U ( 2 ) ‾ }
| | I a ( 2 ) | | = | γ | 2 | | I a ( 1 ) | | ,
以及
I a = ( 1 + γ ) I a ( 1 ) + ( 1 + 1 γ ) I a ( 2 ) .
当波形是同相并且朝向相同方向前进时,它们可以被清楚地解释为一个波形。对于γ=-1以及任意方向,压力消失并且没有能量流,即‖Ia‖=0。当波形完全正交时,
P(2)=γ·ejπ/2P(1)
U(2)=γ·ejπ/2U(1)
Ux (2)=γ·ejπ/2Ux (1)
Uy (2)=γ·ejπ/2Uy (1)
Uz (2)=γ·ejπ/2Uz (1)
其中γ是实数。从中得到
I a ( 1 ) = 1 2 Re { P ( 1 ) · U ( 1 ) ‾ }
I a ( 2 ) = 1 2 Re { P ( 2 ) · U ( 2 ) ‾ }
| | I a ( 2 ) | | = | γ | 2 | | I a ( 1 ) | | ,
以及
I a = I a ( 1 ) + I a ( 2 ) .
使用上述等式能够容易地证明对于平面波形,每个示例量U、P和ed或P和Ia可以表示等同和穷举描述,因为从它们能够获取所有其它物理量,即它们的任意组合能够在实施例中用于代替波形场测量或波形方向测量。例如,在实施例中2-范数(2-norm)有源强度矢量可以用作波形场测量。
可以识别最小描述来执行实施例所限定的合并。第i个平面波形的压力和颗粒速度矢量能够被表示为
P ( i ) = | P ( i ) | e j ∠ P ( i )
U ( i ) = | P ( i ) | ρ 0 c e d ( i ) e j ∠ P ( i )
其中∠P(i)表示P(i)的相位。使用这些变量表示合并的强度矢量,即合并的波形场测量和合并的到达方向测量得到
I a = 1 2 ρ 0 c | P ( 1 ) | 2 e d ( 1 ) + 1 2 ρ 0 c | P ( 2 ) | 2 e d ( 2 ) +
+ 1 2 Re { | P ( 1 ) | e j ∠ P ( 1 ) | P ( 2 ) | ρ 0 c e d ( 2 ) e - j ∠ P ( 2 ) } +
+ 1 2 Re { | P ( 2 ) | e j ∠ P ( 2 ) | P ( 1 ) | ρ 0 c e d ( 1 ) e - j ∠ P ( 1 ) } .
注意前两个被加数是
Figure BPA00001310236500092
等式可以进一步被简化为:
I a = 1 2 ρ 0 c | P ( 1 ) | 2 e d ( 1 ) + 1 2 ρ 0 c | P ( 2 ) | 2 e d ( 2 ) +
+ 1 2 ρ 0 c | P ( 1 ) | · | P ( 2 ) | e d ( 2 ) · cos ( ∠ P ( 1 ) - ∠ P ( 2 ) ) +
+ 1 2 ρ 0 c | P ( 2 ) | · | P ( 1 ) | e d ( 1 ) · cos ( ∠ P ( 2 ) - ∠ P ( 1 ) ) .
引入
Δ(1,2)=|∠P(2)-∠P(1)|
得到
I a = 1 2 ρ 0 c { | P ( 1 ) | 2 e d ( 1 ) + | P ( 2 ) | 2 e d ( 2 ) + | P ( 1 ) | · | P ( 2 ) | cos ( Δ ( 1,2 ) ) · ( e d ( 1 ) + e d ( 2 ) ) } . - - - ( b )
该等式显示计算Ia所需的信息能够被减少至|P(i)|,
Figure BPA00001310236500097
|∠P(2)-∠P(1)|。换言之,对于每个波形(例如平面波形)的表示能够被减少至波形幅度以及传播方向。另外,也可以考虑波形之间的相对相位差。当要合并多于两个的波形时,可以考虑所有波形对之间的相位差。清楚地,存在包含相似信息的数个其它描述。例如,已知强度矢量和相位差是等同的。
通常,平面波形的能量描述可能不足以正确地执行合并。通过假设波形正交来近似合并。波形的穷举描述符(即已知波形的所有物理量)对于合并是足够的,然而不是在所有实施例中都是必须的。在执行正确合并的实施例中,可以考虑每个波形的幅度、每个波形的传播方向以及要被合并的每对波形之间的相对相位差。
用于确定的装置110能够适于提供和/或处理器130能够适于以单位矢量(unity vector)eDOA(k,n)处理第一和第二到达方向和/或提供合并的到达方向测量,eDOA(k,n)=-eI(k,n)和Ia(k,n)=‖Ia(k,n)‖·eI(k,n),使用
I a ( k , n ) = 1 2 Re { P ( k , n ) · U * ( k , n ) } 以及
U(k,n)=[Ux(k,n),Uy(k,n),Uz(k,n)]T
表示时间-频率转换的u(t)=[ux(t),uy(t),uz(t)]T颗粒速度矢量。换言之,假设p(t)和u(t)=[ux(t),uy(t),uz(t)]T分别是对于空间中特定点的压力和颗粒速度矢量,其中[·]T表示转置矩阵。由适当滤波器组(例如由V.Pulkki和C.Faller的“Directional audio coding:Filterbankand STFT-based design”(120th AES Convention,5月20-23日,2006,巴黎,法国,2006年5月)提出的短时傅立叶变换(STFT))能够将这些信号转换为时间-频率域。
假设P(k,n)和U(k,n)=[Ux(k,n),Uy(k,n),uz(k,n)]T表示转换的信号,其中k和n分别是频率(或频带)和时间的指标。有源强度矢量Ia(k,n)能够被限定为
I a ( k , n ) = 1 2 Re { P ( k , n ) · U * ( k , n ) } - - - ( 1 )
其中(·)*表示复共轭并且Re{·}提取实部。有源强度矢量表达作为声音场特征的能量净流量,比照F.J.Fahy的“Sound Intensity”(Essex:Elsevier Science Publishers Ltd.,1989)并且因而可以用作波形场测量。
假设c表示声音在考虑的介质中的速度并且E表示由F.J.Fahy限定的声音场能量
E ( k , n ) = ρ 0 4 | | U ( k , n ) | | 2 + 1 4 ρ 0 c 2 | P ( k , n ) | 2 , - - - ( 2 )
其中‖·‖计算2-范数。下面,将详细说明单声道DirAC流的内容。
单声道DirAC流可以由单声道信号p(t)和边信息组成。该边信息可以包括依赖于时间-频率的到达方向和合依赖于时间-频率的对扩散的测量。前者可以用eDOA(k,n)表示,其是指向声音到达方向的单位矢量。后者,即扩散由Ψ(k,n)表示。
在实施例中,装置110和/或处理器130能够适于以单位矢量(unity vector)eDOA(k,n)提供/处理第一和第二DOA和/或合并的DOA。到达方向能够被获得作为
eDOA(k,n)=-eI(k,n),
其中单位矢量eI(k,n)指示有源强度指向的方向,即
Ia(k,n)=‖Ia(k,n)‖·eI(k,n),
eI(k,n)=Ia(k,n)/‖Ia(k,n)‖。   (3)
可选地,在实施例中,能够以球形坐标系统中的方向角和仰角来表达DOA。例如,如果
Figure BPA00001310236500103
Figure BPA00001310236500104
分别是方向角和仰角,则
Figure BPA00001310236500105
在实施例中,用于确定的装置110和/或处理器130能够适于以依赖于时间-频率的方式通过Ψ(k,n)提供/处理第一和第二扩散参数和/或合并的扩散参数。用于确定的装置110能够适于提供第一和/或第二扩散参数和/或处理器130能够适于以下述方式提供合并的扩散参数:
&Psi; ( k , n ) = 1 - | | < I a ( k , n ) > t | | c < E ( k , n ) > t , - - - ( 5 )
其中<·>t指示时间平均。
在实践中存在多种策略来获得P(k,n)和U(k,n)。一个可能性是使用B-格式麦克风,其传递4个信号,即w(t),x(t),y(t)和z(t)。第一个w(t)对应于全向麦克风的压力读取。后三个是具有指向卡迪尔坐标系统的三个轴的8字型拾取图案的麦克风的压力读取。这些信号也和颗粒速度成正比。因而,在一些实施例中
P(k,n)=W(k,n)
U ( k , n ) = - 1 2 &rho; 0 c [ X ( k , n ) , Y ( k , n ) , Z ( k , n ) ] T - - - ( 6 )
其中W(k,n),X(k,n),Y(k,n)和Z(k,n)是转换的B-格式信号。注意(6)中的因子来自B-格式信号的定义中使用的常规,参照Michael Gerzon的“Surround sound psychoacoustics”(Wireless World,80卷,483-486页,1974年12月)。
可选地,可以通过J.Merimaa的“Applications of a 3-D microphone array”(112th AESConvention,Paper 5501,慕尼黑,2002年5月)提出的全向麦克风阵列来估计P(k,n)和U(k,n)。上述处理步骤也可以图2说明。
图2示出了DirAC编码器200,DirAC编码器200适于从适当的输入信号(例如麦克风信号)计算单声道音频通道和边信息。换言之,图2说明了用于从适当的麦克风信号确定扩散和到达方向的DirAC编码器200。图2示出了包括P/U估计单元210的DirAC编码器200。P/U估计单元将麦克风信号接收为输入信息,P/U估计基于该输入信息。由于所有信息均可获得,根据上述等式P/U估计是直接可得的。能量分析级220使得能够进行合并的流的到达方向和扩散参数估计。
在实施例中,可以合并除了单声道DirAC音频流之外的其它音频流。换言之,在实施例中,用于确定的装置110可以适于将任何其它音频流转换为第一和第二音频流,例如立体声或环绕音频数据。在实施例合并除了单声道之外的DirAC流的情况下,在不同的情况之间可能存在不同。如果DirAC流承载作为音频信号的B-格式信号,则颗粒速度矢量将是已知的并且合并是不必要的,如下面将详细描述的那样。当DirAC流承载除了B-格式信号或单声道全向信号之外的音频信号时,用于确定的装置110可以适于首先转换为两个单声道DirAC流,并且实施例然后可以相应地合并转换的流。在实施例中,第一和第二空间音频流因而能够表示转换的单声道DirAC流。
实施例可以组合可获得的音频通道以近似全向拾取图案。例如,在立体声DirAC流的情况下,通过将左通道L和右通道R加起来来实现。
下面,将说明由多个声音源生成的场中的物理量。当存在多个声音源时,可以将压力和颗粒速度表达为各个分量的和。
如果单独播放,假设P(i)(k,n)和U(i)(k,n)是对于第i个源可能已经记录的压力和颗粒速度。假设传播现象是线性的,当N个源一起播放时,观察到的压力P(k,n)和颗粒速度U(k,n)是
P ( k , n ) = &Sigma; i = 1 N P ( i ) ( k , n ) - - - ( 7 )
以及
U ( k , n ) = &Sigma; i = 1 N U ( i ) ( k , n ) . - - - ( 8 )
前一个等式显示如果压力和颗粒速度都已知的话,获得合并的单声道DirAC流将是直接可得的。在图3中描述了这样的情形。图3说明了执行优化的或可能的理想的多个音频流的合并的实施例。图3假设所有的压力和颗粒速度矢量都是已知的。不幸的是,对于单声道DirAC流来说这样的微不足道的合并是不可能的,因为单声道DirAC流的颗粒速度U(i)(k,n)不是已知的。
图3说明了N个流,对于每个流在框301,302-30N中执行P/U估计。P/U估计框的结果是各个P(i)(k,n)和U(i)(k,n)信号的对应的时间-频率表示,然后能够根据上述等式(7)和(8)将其组合起来,这在两个加法器310和311中说明。一旦获得组合的P(k,n)和U(k,n),能量分析级320能够以直接的方式确定扩散参数Ψ(k,n)和到达方向eDOA(k,n)。
图4说明了用于合并多个单声道DirAC流的实施例。根据上述描述,由图4描述的设备100的实施例来合并N个流。如同图4所描述,N个输入流中的每个可以由依赖于时间-频率的单声道表示P(i)(k,n)、到达方向
Figure BPA00001310236500123
和Ψ(1)(k,n)来表示,其中(1)表示第一个流。在图4中也说明了用于合并的流的对应的表示。
在图4中描述了合并两个或更多个单声道DirAC流的任务。由于如同(7)中能够简单地通过将已知量P(i)(k,n)相加来获得压力P(k,n),合并两个或更多个单声道DirAC流的问题减少至eDOA(k,n)和Ψ(k,n)的确定。下述实施例基于这样的假设:每个源的场由加到扩散场的平面波形组成。因而,对于第i个源的压力和颗粒速度能够被表达为
P ( i ) ( k , n ) = P PW ( i ) ( k , n ) + P diff ( i ) ( k , n ) - - - ( 9 )
U ( i ) ( k , n ) = U PW ( i ) ( k , n ) + U diff ( i ) ( k , n ) , - - - ( 10 )
其中下标“PW”和“diff”分别表示平面波形和扩散场。在下述中,给出具有估计声音的到达方向和扩散的策略的实施例。在图5中描述了对应的处理步骤。
图5说明了用于合并多个音频流的另一装置500,这将在下面详细说明。图5以第一单声道表示P(1)、第一到达方向
Figure BPA00001310236500126
和第一扩散参数Ψ(1)示例性说明第一空间音频流的处理。根据图5,第一空间音频流被分解为近似平面波形表示
Figure BPA00001310236500127
以及第二空间音频流和潜在的其它空间音频流被相应地分解为
Figure BPA00001310236500128
估计由各个公式表示上的帽子(hat)指示。
估计器120能够适于估计N个波形表示
Figure BPA00001310236500131
和扩散场表示
Figure BPA00001310236500132
作为对于N个空间音频流的近似
Figure BPA00001310236500133
其中1≤i≤N。处理器130能够适于基于估计来确定合并的到达方向,
e ^ DOA ( k , n ) = - I ^ a ( k , n ) | | I ^ a ( k , n ) | | , 其中
I ^ a ( k , n ) = 1 2 Re { P ^ PW ( k , n ) &CenterDot; U ^ P * ( k , n ) } ,
P ^ PW ( k , n ) = &Sigma; i = 1 N P ^ PW ( i ) ( k , n ) ,
P ^ PW ( i ) ( k , n ) = &alpha; ( i ) ( k , n ) &CenterDot; P ( i ) ( k , n ) ,
U ^ PW ( k , n ) = &Sigma; i = 1 N U ^ PW ( i ) ( k , n ) ,
U ^ PW ( i ) ( k , n ) = - 1 &rho; 0 c &beta; ( i ) ( k , n ) &CenterDot; P ( i ) ( k , n ) &CenterDot; e DOA ( i ) ( k , n ) ,
其中实数α(i)(k,n),β(i)(k,n)∈{0...1}。
图5以虚线示出了估计器120和处理器130。在图5所示的实施例中,不存在用于确定的装置110,因为假设第一空间音频流和第二空间音频流以及潜在的其它音频流在单声道DirAC表示中提供,即单声道表示、DOA和扩散参数刚从流中分离。如图5所示,处理器130能够适于基于估计确定合并的DOA。
声音的到达方向,即方向测量,能够由
Figure BPA000013102365001310
估计,其被计算作为:
e ^ DOA ( k , n ) = - I ^ a ( k , n ) | | I ^ a ( k , n ) | | , - - - ( 11 )
其中
Figure BPA000013102365001312
是合并的流的有源强度的估计。能够如下获得:
I ^ a ( k , n ) = 1 2 Re { P ^ PW ( k , n ) &CenterDot; U ^ PW * ( k , n ) } , - - - ( 12 )
其中
Figure BPA000013102365001314
Figure BPA000013102365001315
是仅对应于平面波形的压力和颗粒速度的估计,例如作为波形场测量。它们能够被如下限定:
P ^ PW ( k , n ) = &Sigma; i = 1 N P ^ PW ( i ) ( k , n ) , - - - ( 13 )
P ^ PW ( i ) ( k , n ) = &alpha; ( i ) ( k , n ) &CenterDot; P ( i ) ( k , n ) , - - - ( 14 )
U ^ PW ( k , n ) = &Sigma; i = 1 N U ^ PW ( i ) ( k , n ) , - - - ( 15 )
U ^ PW ( i ) ( k , n ) = - 1 &rho; 0 c &beta; ( i ) ( k , n ) &CenterDot; P ( i ) ( k , n ) &CenterDot; e DOA ( i ) ( k , n ) . - - - ( 16 )
因子α(i)(k,n)和β(i)(k,n)通常依赖于频率并且可能与扩散Ψ(i)(k,n)成反比。实际上,当扩散Ψ(i)(k,n)近似为0时,能够假设场由单个平面波形组成,从而
P ^ PW ( i ) ( k , n ) &ap; P ( k , n ) 和      (17)
U ^ PW ( i ) ( k , n ) &ap; - 1 &rho; 0 c P ( i ) ( k , n ) &CenterDot; e DOA ( i ) ( k , n ) , - - - ( 18 )
暗指α(i)(k,n)=β(i)(k,n)=1.
下面,将说明确定α(i)(k,n)和β(i)(k,n)的两个实施例。首先考虑扩散场的能量考虑。在实施例中,估计器120能够适于基于扩散场确定因子α(i)(k,n)和β(i)(k,n)。实施例可以假设场由加到理想扩散场的平面波形组成。在实施例中,估计器120能够适于并且根据下式确定α(i)(k,n)和β(i)(k,n):
α(i)(k,n)=β(i)(k,n)
&beta; ( i ) ( k , n ) = 1 - &Psi; ( i ) ( k , n ) , - - - ( 19 )
通过将空气密度ρ0设置为等于1并且出于简化的目的舍弃函数依赖性,能够将其写为:
&Psi; ( i ) = 1 - < | P PW ( i ) | 2 > t < | P PW ( i ) | 2 > t + 2 c 2 < E diff > t . - - - ( 20 )
在实施例中,处理器130可以适于基于它们的统计特性来近似扩散场,可以通过下式获得近似:
< | P PW ( i ) | 2 > t + 2 c 2 < E diff > t &ap; < | P ( i ) | 2 > t - - - ( 21 )
其中Ediff是扩散场的能量。实施例可以因而估计
< | P PW ( i ) | > t &ap; < | P ^ PW ( i ) | > t = 1 - &Psi; ( i ) < | P ( i ) | > t . - - - ( 22 )
为了计算即时估计(即对于每个时间-频率片)实施例可以移除期望算子,获得
P ^ PW ( i ) ( k , n ) = 1 - &Psi; ( i ) ( k , n ) P ( i ) ( k , n ) . - - - ( 23 )
通过利用平面波形假设,能够直接得到对于颗粒速度的估计
U ^ PW ( i ) ( k , n ) = 1 c &rho; 0 P ^ PW ( i ) ( k , n ) &CenterDot; e I ( i ) ( k , n ) . - - - ( 24 )
在实施例中,可以应用颗粒速度的简化建模。在实施例中,估计器120可以适于基于简化的建模来近似因子α(i)(k,n)和β(i)(k,n)。实施例可以利用可选方案,该可选方案可以通过引入颗粒速度的简化建模来得到
α(i)(k,n)=1
&beta; ( i ) ( k , n ) = 1 - 1 - ( 1 - &Psi; ( i ) ( k , n ) ) 2 1 - &Psi; ( i ) ( k , n ) . - - - ( 25 )
下面给出推导。颗粒速度U(i)(k,n)被建模为
U ( i ) ( k , n ) = &beta; ( i ) ( k , n ) &CenterDot; P ( i ) &rho; 0 c &CenterDot; e I ( i ) ( k , n ) . - - - ( 26 )
通过将(26)代入(5)能够获得因子,得到
&Psi; ( i ) ( k , n ) = 1 - 1 &rho; 0 c | | < | &beta; ( i ) ( k , n ) &CenterDot; P ( i ) ( k , n ) | 2 &CenterDot; e I ( i ) ( k , n ) > t | | c < 1 2 &rho; 0 c 2 | P ( i ) ( k , n ) | 2 &CenterDot; ( &beta; ( i ) 2 ( k , n ) + 1 ) > t . - - - ( 27 )
为了得到即时值,可以去除期望算子并用于求解β(i)(k,n),获得
&beta; ( i ) ( k , n ) = 1 - 1 - ( 1 - &Psi; ( i ) ( k , n ) ) 2 1 - &Psi; ( i ) ( k , n ) . - - - ( 28 )
注意该方法得到与(19)中给出的相似的声音到达方向,然而,由于因子α(i)(k,n)是单一的而具有较低的计算复杂度。
在实施例中,处理器130可以适于估计扩散(例如用于估计合并的扩散参数)。由Ψ(k,n)表示的合并的流的扩散能够直接从已知量Ψ(i)(k,n)和P(i)(k,n)中以及从如上获得的估计中估计。在上节介绍能量考虑之后,实施例可以使用估计器
&Psi; ^ ( k , n ) = 1 - | | < I ^ a ( k , n ) > t | | < | | I ^ a ( k , n ) | | + 1 2 c &Sigma; i = 1 2 &Psi; ( i ) ( k , n ) &CenterDot; | P ( i ) ( k , n ) | 2 > t . - - - ( 29 )
已知会允许使用实施例中等式(b)给出的可选表示。实际上,能够通过
Figure BPA000013102365001511
获得波的方向,而
Figure BPA000013102365001512
给出了第i个波的幅度和相位。从后者,能够计算出所有的相位差Δ(i,j)。通过将等式(b)代入等式(a)、(3)和(5)能够计算合并的流的DirAC参数。
图6显示了用于合并两个或更多个DirAC流的方法的实施例。实施例可以提供用于将第一空间音频流和第二空间音频流合并以获得合并的音频流的方法。在实施例中,该方法可以包括下述步骤:为第一空间音频流确定第一音频表示和第一DOA,以及为第二空间音频流确定第二音频表示和第二DOA。在实施例中,空间音频流的DirAC表示可以是可获得的,然后确定的步骤则简单地从音频流读取相应的表示。在图6中,假设能够根据步骤610简单地从音频流获得两个或更多个DirAC流。
在实施例中,所述方法可以包括下述步骤:基于第一音频表示、第一DOA和可选地第一扩散参数来为第一空间音频流估计包括第一波形方向测量和第一波形场测量的第一波形表示。相应地,方法可以包括下述步骤:基于第二音频表示、第二DOA和可选地第二扩散参数来为第二空间音频流估计包括第二波形方向测量和第二波形场测量的第二波形表示。
所述方法还可以包括下述步骤:组合第一波形表示和第二波形表示以获得合并的波形表示,该合并的波形表示包括合并的场测量和合并的DOA测量,还可以包括下述步骤:对于单声道音频通道,组合第一音频表示和第二音频表示以获得组合的音频表示,该步骤在图6中由步骤620表示。图6描述的实施例包括下述步骤:在步骤640,根据使得能够估计对于平面波形表示的压力和颗粒速度矢量的(19)和(25)计算α(i)(k,n)和β(i)(k,n)。换言之,以平面波形表示为例,在图6中在步骤630和640执行第一和第二平面波形表示的估计步骤。
在步骤650中执行组合第一和第二平面波形表示的步骤,其中能够将所有流的压力和颗粒矢量相加。
在图6的步骤660中,基于合并的平面波形表示执行有源强度矢量的计算和DOC的估计。
实施例可以包括下述步骤:组合和处理合并的场测量、第一和第二单声道表示以及第一和第二扩散参数以获得合并的扩散参数。在图6描述的实施例中,例如基于(29)在步骤670中执行扩散的计算。
实施例可以提供这样的优势:高质量并且适中复杂度地执行空间音频流的合并。
根据本发明方法的特定实现需求,能够以硬件或软件实现本发明方法。可以使用数字存储介质(尤其是具有存储在其上的电子可读控制信号的闪存、磁盘、DVD或CD,其与可编程计算机系统合作使得执行本发明的方法)来执行该实现。通常,因而本发明是具有存储在机器可读载体上的程序代码的计算机程序代码,其中当计算机程序在计算机或处理器上运行时计算机程序代码可操作用于执行本发明方法。换言之,因而本发明方法是具有当计算机程序在计算机上运行时用于执行至少一个本发明方法的程序代码的计算机程序。

Claims (14)

1.一种用于合并第一空间音频流和第二空间音频流以获得合并的音频流的设备(100),包括:
估计器(120),
用于估计第一波形表示,所述第一波形表示包括用于所述第一空间音频流的第一波形方向测量(
Figure FDA0000383915990000011
)和第一波形场测量(
Figure FDA0000383915990000012
),所述第一波形方向测量(
Figure FDA0000383915990000013
)是第一波形的定向量,所述第一空间音频流具有第一音频表示和第一到达方向(
Figure FDA0000383915990000014
),和
用于估计第二波形表示,所述第二波形表示包括用于所述第二空间音频流的第二波形方向测量(
Figure FDA0000383915990000015
)和第二波形场测量(
Figure FDA0000383915990000016
),所述第二波形方向测量(
Figure FDA0000383915990000017
)是第二波形的定向量,所述第二空间音频流具有第二音频表示和第二到达方向(
Figure FDA0000383915990000018
);以及
处理器(130),
用于处理所述第一波形表示和所述第二波形表示以获得合并的波形表示,所述合并的波形表示包括合并的波形场测量()、合并的到达方向测量(
Figure FDA00003839159900000110
)和合并的扩散参数(),
其中所述合并的扩散参数基于所述第一波形方向测量(
Figure FDA00003839159900000112
),和所述第二波形方向测量(
Figure FDA00003839159900000113
),和
其中所述处理器(130)配置成处理所述第一音频表示(P(1))和所述第二音频表示(P(2))以获得合并的音频表示(P),和用于提供所述合并的音频流,所述合并的音频流包括所述合并的音频表示(P)、所述合并的到达方向测量()和所述合并的扩散参数(
Figure FDA00003839159900000115
)。
2.根据权利要求1所述的设备(100),其中所述估计器(120)适于
以估计第一波形场幅度的方式估计所述第一波形场测量,
以估计第二波形场幅度的方式估计所述第二波形场测量,
估计所述第一波形场测量和所述第二波形场测量之间的相位差,和/或
估计第一波形场相位和第二波形场相位。
3.根据权利要求1所述的设备,包括装置(110),所述装置(110)用于
为所述第一空间音频流确定所述第一音频表示、所述第一到达方向测量和第一扩散参数;以及
为所述第二空间音频流确定所述第二音频表示、所述第二到达方向测量和第二扩散参数。
4.根据权利要求1所述的设备,其中所述处理器(130)适于以依赖时间-频率的方式确定所述合并的音频表示、所述合并的到达方向测量以及所述合并的扩散参数。
5.根据权利要求1所述的设备(100),其中所述估计器(120)适于估计所述第一波形表示和/或所述第二波形表示,并且其中所述处理器(130)适于以提供压力信号p(t)或时间-频率转换压力信号P(k,n)的方式提供所述合并的音频表示,其中k表示频率指标并且n表示时间指标。
6.根据权利要求5所述的设备(100),其中所述处理器(130)适于处理所述第一到达方向测量和所述第二到达方向测量和/或以单位矢量eDOA(k,n)的方式提供所述合并的到达方向测量,其中
eDOA(k,n)=-eI(k,n)以及
Ia(k,n)=||Ia(k,n)||·eI(k,n),
其中
I a ( k , n ) = 1 2 Re { P ( k , n ) &CenterDot; U * ( k , n ) }
其中P(k,n)是合并的流的压力并且U(k,n)=[Ux(k,n),Uy(k,n),Uz(k,n)]T表示所述合并的音频流的时间-频率转换的u(t)=[ux(t),uy(t),uz(t)]T颗粒速度矢量,其中Re{·}表示实部。
7.根据权利要求6所述的设备(100),其中所述处理器(130)适于处理第一扩散参数和/或第二扩散参数,和/或以下述方式提供所述合并的扩散参数:
&Psi; ( k , n ) = 1 - | | < I a ( k , n ) > t | | c < E ( k , n ) > t ,
I a ( k , n ) = 1 2 Re { P ( k , n ) &CenterDot; U * ( k , n ) }
并且U(k,n)=[Ux(k,n),Uy(k,n),Uz(k,n)]T表示时间-频率转换的u(t)=[ux(t),uy(t),uz(t)]T颗粒速度矢量,Re{·}表示所述实部,P(k,n)表示时间-频率转换的压力信号p(t),其中k表示频率指标并且n表示时间指标,c是声音的速度并且
E ( k , n ) = &rho; 0 4 | | U ( k , n ) | | 2 + 1 4 &rho; 0 c 2 | P ( k , n ) | 2 表示声音场能量,其中ρ0表示空气密度并且<·>t表示时间平均。
8.根据权利要求7所述的设备(100),其中所述估计器(120)适于估计N个波形表示
Figure FDA0000383915990000024
和扩散场表示作为N个空间音频流
Figure FDA0000383915990000026
的近似,其中1≤i≤N,并且其中处理器(130)适于基于估计确定所述合并的到达方向测量,
e ^ DOA ( k , n ) = - I ^ a ( k , n ) | | I ^ a ( k , n ) | | ,
I ^ a ( k , n ) = 1 2 Re { R ^ PW ( k , n ) &CenterDot; U ^ PW * ( k , n ) } ,
P ^ PW ( k , n ) = &Sigma; i = 1 N P ^ PW ( i ) ( k , n ) ,
P ^ PW ( i ) ( k , n ) = &alpha; ( i ) ( k , n ) &CenterDot; P ( i ) ( k , n ) ,
U ^ PW ( k , n ) = &Sigma; i = 1 N U ^ PW ( i ) ( k , n ) ,
U ^ PW ( i ) ( k , n ) = - 1 &rho; 0 c &beta; ( i ) ( k , n ) &CenterDot; P ( i ) ( k , n ) &CenterDot; e DOA ( i ) ( k , n ) ,
其中实数α(i)(k,n),β(i)(k,n)∈{0...1}并且U(k,n)=[Ux(k,n),Uy(k,n),Uz(k,n)]T表示时间-频率转换的u(t)=[ux(t),uy(t),uz(t)]T颗粒速度矢量,Re{·}表示所述实部,P(i)(k,n)表示时间-频率转换的压力信号p(i)(t),其中k表示频率指标并且n表示时间指标,N是空间音频流的数目,c是声音的速度并且ρ0表示空气密度。
9.根据权利要求8所述的设备(100),其中所述估计器(120)适于根据下式估计α(i)(k,n)和β(i)(k,n):
α(i)(k,n)=β(i)(k,n)
&beta; ( i ) ( k , n ) = 1 - &Psi; ( i ) ( k , n ) .
10.根据权利要求8所述的设备(100),其中所述处理器(130)适于根据下式确定α(i)(k,n)和β(i)(k,n):
α(i)(k,n)=1
&beta; ( i ) ( k , n ) = 1 - 1 - ( 1 - &Psi; ( i ) ( k , n ) ) 2 1 - &Psi; ( i ) ( k , n ) .
11.根据权利要求9所述的设备(100),其中所述处理器(130)适于通过下式确定所述合并的扩散参数:
&Psi; ^ ( k , n ) = 1 - | | < I ^ a ( k , n ) > t | | < | | I ^ a ( k , n ) | | + 1 2 c &Sigma; i = 1 2 &Psi; ( i ) ( k , n ) &CenterDot; | P ( i ) ( k , n ) | 2 > t .
12.根据权利要求1所述的设备(100),其中
所述第一空间音频流还包括第一扩散参数(Ψ(1)),其中所述第二空间音频流还包括第二扩散参数(Ψ(2));和
其中所述处理器(130)配置成基于所述第一扩散参数(Ψ(1))和所述第二扩散参数(Ψ(2))、所述合并的波形场测量、所述第一音频表示和所述第二音频表示计算所述合并的扩散参数(
Figure FDA0000383915990000036
)。
13.一种用于合并第一空间音频流和第二空间音频流以获得合并的音频流的方法,包括:
估计第一波形表示,所述第一波形表示包括用于所述第一空间音频流的第一波形方向测量(
Figure FDA0000383915990000037
)和第一波形场测量(
Figure FDA0000383915990000038
),所述第一波形方向测量(
Figure FDA0000383915990000039
)是第一波形的定向量,所述第一空间音频流具有第一音频表示和第一到达方向(
Figure FDA00003839159900000310
);
估计第二波形表示,所述第二波形表示包括用于所述第二空间音频流的第二波形方向测量(
Figure FDA0000383915990000041
)和第二波形场测量(
Figure FDA0000383915990000042
),所述第二波形方向测量(
Figure FDA0000383915990000043
)是第二波形的定向量,所述第二空间音频流具有第二音频表示和第二到达方向(
Figure FDA0000383915990000044
)
处理所述第一波形表示和所述第二波形表示以获得合并的波形表示,所述合并的波形表示包括合并的波形场测量(
Figure FDA0000383915990000045
)、合并的到达方向测量(
Figure FDA0000383915990000046
)和合并的扩散参数(
Figure FDA0000383915990000047
),其中所述合并的扩散参数(
Figure FDA0000383915990000048
)基于所述第一波形方向测量()和所述第二波形方向测量(
Figure FDA00003839159900000410
);
处理所述第一音频表示(P(1))和所述第二音频表示(P(2))以获得合并的音频表示(P);以及
提供所述合并的音频流,所述合并的音频流包括所述合并的音频表示(P)、所述合并的到达方向测量(
Figure FDA00003839159900000411
)和所述合并的扩散参数(
Figure FDA00003839159900000412
)。
14.根据权利要求13所述的方法,
其中所述第一空间音频流还包括第一扩散参数(Ψ(1)),
其中所述第二空间音频流还包括第二扩散参数(Ψ(2)),和
其中在处理步骤中基于所述第一扩散参数(Ψ(1))和所述第二扩散参数(Ψ(2))、所述合并的波形场测量、所述第一音频表示和所述第二音频表示计算所述合并的扩散参数(
Figure FDA00003839159900000413
)。
CN200980131410.7A 2008-08-13 2009-08-11 用于合并空间音频流的设备 Active CN102138342B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US8852008P 2008-08-13 2008-08-13
US61/088,520 2008-08-13
EP09001397A EP2154910A1 (en) 2008-08-13 2009-02-02 Apparatus for merging spatial audio streams
EP09001397.0 2009-02-02
PCT/EP2009/005827 WO2010017966A1 (en) 2008-08-13 2009-08-11 Apparatus for merging spatial audio streams

Publications (2)

Publication Number Publication Date
CN102138342A CN102138342A (zh) 2011-07-27
CN102138342B true CN102138342B (zh) 2014-03-12

Family

ID=40605771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980131410.7A Active CN102138342B (zh) 2008-08-13 2009-08-11 用于合并空间音频流的设备

Country Status (15)

Country Link
US (1) US8712059B2 (zh)
EP (2) EP2154910A1 (zh)
JP (1) JP5490118B2 (zh)
KR (1) KR101235543B1 (zh)
CN (1) CN102138342B (zh)
AT (1) ATE546964T1 (zh)
AU (1) AU2009281355B2 (zh)
BR (1) BRPI0912453B1 (zh)
CA (1) CA2734096C (zh)
ES (1) ES2382986T3 (zh)
HK (1) HK1157986A1 (zh)
MX (1) MX2011001653A (zh)
PL (1) PL2324645T3 (zh)
RU (1) RU2504918C2 (zh)
WO (1) WO2010017966A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
EP2375410B1 (en) * 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
KR101619578B1 (ko) 2010-12-03 2016-05-18 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
WO2013150341A1 (en) 2012-04-05 2013-10-10 Nokia Corporation Flexible spatial audio capture apparatus
WO2014041067A1 (en) * 2012-09-12 2014-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing enhanced guided downmix capabilities for 3d audio
EP2733965A1 (en) 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
WO2014162171A1 (en) 2013-04-04 2014-10-09 Nokia Corporation Visual audio processing apparatus
WO2014184618A1 (en) 2013-05-17 2014-11-20 Nokia Corporation Spatial object oriented audio apparatus
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US9693009B2 (en) 2014-09-12 2017-06-27 International Business Machines Corporation Sound source selection for aural interest
US9883309B2 (en) 2014-09-25 2018-01-30 Dolby Laboratories Licensing Corporation Insertion of sound objects into a downmixed audio signal
MX2018005090A (es) 2016-03-15 2018-08-15 Fraunhofer Ges Forschung Aparato, metodo o programa de computadora para generar una descripcion de campo de sonido.
GB2549532A (en) 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
WO2018064296A1 (en) 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
CA3076703C (en) * 2017-10-04 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
SG11202004389VA (en) * 2017-11-17 2020-06-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
BR112020016948A2 (pt) * 2018-07-02 2020-12-15 Dolby Laboratories Licensing Corporation Métodos e dispositivos para gerar ou decodificar um fluxo de bits compreendendo sinais de áudio imersivos
CN110517703B (zh) * 2019-08-15 2021-12-07 北京小米移动软件有限公司 一种声音采集方法、装置及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1427987A (zh) * 2000-03-02 2003-07-02 听觉增强有限公司 在数字音频产生过程中用于适应主要内容音频和次要内容剩余音频能力的方法和设备
CN1926607A (zh) * 2004-03-01 2007-03-07 杜比实验室特许公司 多信道音频编码
WO2007034392A2 (en) * 2005-09-21 2007-03-29 Koninklijke Philips Electronics N.V. Ultrasound imaging system with voice activated controls using remotely positioned microphone
CN1954642A (zh) * 2004-06-30 2007-04-25 德商弗朗霍夫应用研究促进学会 多信道合成器及产生多信道输出信号方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
RU2315371C2 (ru) * 2002-12-28 2008-01-20 Самсунг Электроникс Ко., Лтд. Способ и устройство для смешивания аудиопотока и носитель информации
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
KR20060122694A (ko) * 2005-05-26 2006-11-30 엘지전자 주식회사 두 채널 이상의 다운믹스 오디오 신호에 공간 정보비트스트림을 삽입하는 방법
JP2007269127A (ja) 2006-03-30 2007-10-18 Mitsubishi Fuso Truck & Bus Corp 後車軸の傾斜角調整構造および調整方法
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
US8139775B2 (en) * 2006-07-07 2012-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for combining multiple parametrically coded audio sources
EP2595151A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transcoding apparatus
US8213623B2 (en) * 2007-01-12 2012-07-03 Illusonic Gmbh Method to generate an output audio signal from two or more input audio signals
JP2008184666A (ja) 2007-01-30 2008-08-14 Phyzchemix Corp 成膜装置
RU2473139C2 (ru) * 2007-10-16 2013-01-20 Панасоник Корпорэйшн Устройство объединения потоков, модуль и способ декодирования

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1427987A (zh) * 2000-03-02 2003-07-02 听觉增强有限公司 在数字音频产生过程中用于适应主要内容音频和次要内容剩余音频能力的方法和设备
CN1926607A (zh) * 2004-03-01 2007-03-07 杜比实验室特许公司 多信道音频编码
CN1954642A (zh) * 2004-06-30 2007-04-25 德商弗朗霍夫应用研究促进学会 多信道合成器及产生多信道输出信号方法
WO2007034392A2 (en) * 2005-09-21 2007-03-29 Koninklijke Philips Electronics N.V. Ultrasound imaging system with voice activated controls using remotely positioned microphone

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Binaural Synthesis with Multiple Sound Sources Based on Spatial Features of Head-related Transfer Functions;Pinaki Shankar Chanda;《2006 International Joint Conference on Neural Networks》;20060721;全文 *
Pinaki Shankar Chanda.A Binaural Synthesis with Multiple Sound Sources Based on Spatial Features of Head-related Transfer Functions.《2006 International Joint Conference on Neural Networks》.2006,
SPATIAL CODING BASED ON THE EXTRACTION OF MOVING SOUND SOURCES INWAVEFIELD SYNTHESIS;Toshiyuki Kimura;《Acoustics, Speech, and Signal Processing,2005,Proceedings》;20050323;全文 *
Toshiyuki Kimura.SPATIAL CODING BASED ON THE EXTRACTION OF MOVING SOUND SOURCES INWAVEFIELD SYNTHESIS.《Acoustics, Speech, and Signal Processing,2005,Proceedings》.2005,

Also Published As

Publication number Publication date
EP2154910A1 (en) 2010-02-17
MX2011001653A (es) 2011-03-02
JP2011530720A (ja) 2011-12-22
RU2504918C2 (ru) 2014-01-20
US8712059B2 (en) 2014-04-29
US20110216908A1 (en) 2011-09-08
CN102138342A (zh) 2011-07-27
BRPI0912453A2 (pt) 2019-11-19
PL2324645T3 (pl) 2012-07-31
KR20110055622A (ko) 2011-05-25
EP2324645A1 (en) 2011-05-25
CA2734096A1 (en) 2010-02-18
KR101235543B1 (ko) 2013-02-21
EP2324645B1 (en) 2012-02-22
ATE546964T1 (de) 2012-03-15
CA2734096C (en) 2015-12-01
JP5490118B2 (ja) 2014-05-14
HK1157986A1 (en) 2012-07-06
AU2009281355B2 (en) 2014-01-16
ES2382986T3 (es) 2012-06-15
AU2009281355A1 (en) 2010-02-18
WO2010017966A1 (en) 2010-02-18
RU2011106582A (ru) 2012-08-27
BRPI0912453B1 (pt) 2020-12-01

Similar Documents

Publication Publication Date Title
CN102138342B (zh) 用于合并空间音频流的设备
CN102124513B (zh) 用于确定转换的空间音频信号的装置
US10536793B2 (en) Method for reproducing spatially distributed sounds
CN101884065B (zh) 用于双耳再现和格式转换的空间音频分析和合成的方法
CN101263742B (zh) 音频编码
TW200845801A (en) Method and apparatus for conversion between multi-channel audio formats
KR20070091587A (ko) 스테레오 신호 생성 방법 및 장치
CN105578379A (zh) 用于产生具有至少两个输出通道的输出信号的装置和方法
CN104904240A (zh) 用于生成多个参数化音频流的装置和方法以及用于生成多个扬声器信号的装置和方法
CN105009207A (zh) 处理信道信号的编码/解码装置及方法
CN105247893A (zh) 音频信号输出装置和方法、编码装置和方法、解码装置和方法及程序
Kelly Subjective Evaluations of Spatial Room Impulse Response Convolution Techniques in Channel-and Scene-Based Paradigms
CN111711918A (zh) 一种多通道信号的相干声与环境声提取方法及系统
CN104205211A (zh) 多声道音频编码器以及用于对多声道音频信号进行编码的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant