CN102804264B - 用于从下混信号和空间参数信息提取直接/周围信号的装置及方法 - Google Patents

用于从下混信号和空间参数信息提取直接/周围信号的装置及方法 Download PDF

Info

Publication number
CN102804264B
CN102804264B CN201180014038.9A CN201180014038A CN102804264B CN 102804264 B CN102804264 B CN 102804264B CN 201180014038 A CN201180014038 A CN 201180014038A CN 102804264 B CN102804264 B CN 102804264B
Authority
CN
China
Prior art keywords
direct
signal
sound
level information
lower mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180014038.9A
Other languages
English (en)
Other versions
CN102804264A (zh
Inventor
尤哈·维尔卡莫
扬·普洛格斯蒂亚斯
伯恩哈德·诺伊格鲍尔
于尔根·赫莱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN102804264A publication Critical patent/CN102804264A/zh
Application granted granted Critical
Publication of CN102804264B publication Critical patent/CN102804264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种用于从下混信号和空间参数信息提取直接/周围信号的装置,该下混信号及该空间参数信息表示比该下混信号具有更多声道的多声道音频信号,其中,该空间参数信息包含该多声道音频信号的声道间关系式。该装置包含直接/周围估算器及直接/周围提取器。该直接/周围估算器被构造为用于基于该空间参数信息估算该多声道音频信号的直接部分和/或周围部分的电平信息。该直接/周围提取器被构造为用于基于该直接部分或周围部分的电平信息而从该下混信号提取直接信号部分和/或周围信号部分。

Description

用于从下混信号和空间参数信息提取直接/周围信号的装置及方法
技术领域
本发明涉及音频信号处理,并且更明确地,涉及从下混信号和空间参数信息提取直接/周围信号的一种装置及方法。本发明的其他实施例涉及利用直接/周围分离用于提升音频信号的双耳再现。又一些实施例涉及多声道声音的双耳再现,其中,多声道音频表示具有二个或多个声道的音频。具有多声道声音的典型音频内容为电影声轨及多声道音乐记录。
背景技术
人类空间听觉系统倾向于粗略地以两部分处理声音。一方面为可局限化部分或直接部分,而另一方面为非可局限化部分或周围部分。存在许多音频处理应用,诸如双耳声音再现及多声道上混,其中,期望存取这二个音频组分。
在本领域中,已知一种直接/周围分离方法,例如在“用于空间音频编码及增强的一次周围信号分解及基于向量的局限化”,Goodwin,Jot,IEEE国际声学、语音及信号处理会议,2007年4月;“从立体声记录的基于相关性的周围抽取”,Merimaa,Goodwin,Jot,AES第123期刊,纽约2007年;“立体信号的多扬声器回放”,C.Faller,AES会议,2007年10月;“立体音频信号使用复杂相似性指针的一次周围分解”,Goodwin等人,公告号码:US2009/0198356A1,2009年8月;“专利申请案名称:从立体信号产生多声道音频信号之方法”,发明人:ChristofFaller,代理人:FISH&RICHARDSONP.C.,受让人:LG电子公司,源自:美国明尼苏达州明尼波里市,IPC8类别:AH04R500FI,USPC类别:3811;以及“立体信号的周围产生”,Avendanoetal.,发行日期:2009年7月28日,申请号:10/163,158,申请日:2002年6月4日中所描述,这些方法可用于多项应用。现有技术最先进的直接/周围分离算法则基于立体声于频带的频带间信号比较。
此外,在“基于空间音频场景编码的双耳3-D音频呈现”,Goodwin,Jot,AES123届会议,纽约2007年,解决使用周围提取的双耳回放。关联双耳再现的周围提取也在J.Usher及J.Benesty中叙述,“空间声音质量的提升:新颖残响音频上混器”,IEEE音频、语音、语言处理会报,第15期第2141-2150页2007年9月。后述报告聚焦在使用各声道的直接组分的适应性最小均方交叉声道滤波而在立体麦克风记录的周围提取。空间音频编译码器例如MPEG环绕,典型地由一或二声道音频串流组合空间侧边信息组成,其将音频延伸入多个声道,如在ISO/IEC23003-1-MPEG环绕中叙述的那样;及Breebaart,J.,Herre,J.,Villemoes,L,,Jin,C.,Kjorling,K.,Plogsties,J.,Koppens,J.(2006),“多声道进入行动装置:MPEG环绕双耳呈现”,第29届AES会议议事录,韩国首尔。
但现代参数音频编码技术诸如MPEG环绕(MPS)及参数立体声(PS)只提供较少数音频下混声道,在某些情况下,只提供一个声道连同额外空间侧边信息。“原先”输入声道间的比较唯有在首次将声音解码成为期望的输出格式后才有可能。
因此,要求从下混信号及空间参数信息提取直接信号部分或周围信号部分的构想。但使用参数侧边信息作直接/周围提取并非既有的解决之道。
因此本发明的目的是提供一种通过使用空间参数信息而从下混信号提取直接信号部分或周围信号部分的构想。
该目的可通过权利要求1所述的装置、根据权利要求15所述的方法、或根据权利要求16所述的计算机程序来实现。
发明内容
基于本发明的基本观念是当基于该空间参数信息而估算多声道音频信号的直接部分或周围部分的电平信息(levelinformation,电平信息)并基于该估算的电平信息而从下混信号提取直接信号部分或周围信号部分时,可实现前述的直接/周围提取。此处,该下混信号及该空间参数信息表示该具有比下混信号更多声道的多声道音频信号。此种解决办法允许通过使用空间参数侧边信息而从具有一或多个输入声道的下混信号进行直接和/或周围提取。
根据本发明的一实施例,一种用于从下混信号及空间参数信息提取直接和/或周围信号的装置包含直接/周围估算器及直接/周围提取器(direct/ambienceestimator)。该下混信号及该空间参数信息表示比该下混信号具有更多声道的多声道音频信号。此外,该空间参数信息包含该多声道音频信号的声道间关系式。该直接/周围估算器被构造为用于基于该空间参数信息而估算该多声道音频信号的直接部分或周围部分的电平信息。该直接/周围提取器被构造为用于基于该直接部分或该周围部分的该估算得到的电平信息而从该下混信号提取该直接信号部分或该周围信号部分。
根据本发明的另一实施例,一种用于从下混信号及空间参数信息提取直接和/或周围信号的装置包含双耳直接声音呈现装置(binaruraldirectsoundrenderingdevice)、双耳周围声音呈现装置及组合器。该双耳直接声音呈现装置被构造为用于处理该直接信号部分来获得一第一双耳输出信号。该双耳周围声音呈现装置被构造为用于处理该周围信号部分来获得一第二双耳输出信号。该组合器被构造为用于组合该第一双耳输出信号及第二双耳输出信号来获得一经组合的双耳输出信号。因此,可提供一音频信号的双耳再现,其中,该音频信号的直接信号部分及周围信号部分被分开处理。
附图说明
图1示出了用于从下混信号及表示多声道音频信号的空间参数信息提取直接/周围信号的一种装置的一实施例的框图;
图2示出了用于从单声道下混信号及表示参数立体声音频信号的空间参数信息提取直接/周围信号的一种装置的一实施例的框图;
图3a示出了根据本发明的一实施例的多声道音频信号的频谱分解的示意说明图;
图3b示出了用于基于图3a的频谱分解而计算多声道音频信号的声道间关系式的示意说明图;
图4示出了利用估算的电平信息下混的直接/周围提取器的实施例的框图;
图5示出了通过施加增益参数至一下混信号的一直接/周围提取器的又一实施例的框图;
图6示出了基于使用声道交混的最小均方(LMS)解的一直接/周围提取器的又一实施例的框图;
图7a示出了使用立体声周围估算式的一种直接/周围估算器的实施例的框图;
图7b示出了直接对总能比(direct-to-totalenergyratio)相对于声道间相干性的一实例的曲线图;
图8示出了根据本发明的一实施例的编码器/译码器系统的框图;
图9a示出了根据本发明的一实施例的双耳直接声音呈现的纵览的框图;
图9b示出了图9a的双耳直接声音呈现的细节的框图;
图10a示出了根据本发明的一实施例的双耳周围声音呈现的纵览的框图;
图10b示出了图10a的双耳周围声音呈现细节的双耳周围声音呈现细节的框图;
图11示出了多声道音频信号的双耳再现的一实施例的构想框图;
图12示出了包括双耳再现的直接/周围提取的一实施例的总体框图;
图13a示出了用于在滤波器排组域(filterbankdomain)中从单声道下混信号提取一直接/周围信号的一种装置的一实施例的框图;
图13b示出了图13a的直接/周围提取块的一实施例的框图;以及
图14示出了根据本发明的又一实施例的MPEG环绕译码方案的一实例的示意说明图。
具体实施方式
图1示出了用于从下混信号115及空间参数信息105提取直接/周围信号125-1、125-2的装置100的一实施例的框图。如图1所示,下混信号115及空间参数信息105表示比下混信号115具有更多声道Ch1…ChN的多声道音频信号101。空间参数信息105可包含多声道音频信号101的声道间关系式。更明确言之,装置100包含一直接/周围估算器110及一直接/周围提取器120。直接/周围估算器110可被构造为基于空间参数信息105而估算该多声道音频信号101的直接部分或周围部分的电平信息113。直接/周围提取器120可被构造为基于该估算的直接部分或周围部分的电平信息(levelinformation)113,而从该下混信号115提取直接信号部分125-1或周围信号部分125-2。
图2示出了用于从一单声道下混信号215及表示参数立体声音频信号201的空间参数信息105提取直接/周围信号125-1、125-2的装置的一实施例的框图。图2的装置200大致上包含与图1的装置100相同的框。因此,具有相同实现方式和/或功能的相同框系以相同组件符号标示。此外,图2的参数立体声音频信号201可与图1的多声道音频信号101相对应,及图2的单声道下混信号215可与图1的下混信号115相对应。在图2的实施例中,单声道下混信号215及空间参数信息105表示参数立体声音频信号201。参数立体声音频信号可包含以“L”指示的左声道及以“R”指示的右声道。此处,直接/周围提取器120被构造为基于该估算的电平信息113,而从该单声道下混信号215提取直接信号部分125-1或周围信号部分125-2;该电平信息113可通过直接/周围估算器110的使用而从空间参数信息105导算出。
实际上,图1或图2实施例中的空间参数(空间参数信息105)特别是指MPEG环绕(MPS)或参数立体声(PS)侧边信息。该二项技术是现有技术中的低位率立体声或环绕音频编码方法。参考图2,PS提供一个具有空间参数的下混音频声道,并参考图1,MPS提供一个、二个或多个具有空间参数的下混音频声道。
具体地,图1和图2的实施例清晰地示出了空间参数侧边信息105可容易地用在从具有一或多个输入声道的一信号(也即下混信号115;215)进行直接和/或周围提取的领域中。
直接和/或周围电平(电平信息113)的估算基于有关声道间关系或声道间差值的信息,诸如电平差和/或相关性。这些值可从立体声或多声道信号算出。图3a示出了用来计算各个Ch1…ChN的声道间关系的多声道音频信号(Ch1…ChN)的频谱分解300的示意说明图。如图3a可知,多声道音频信号(Ch1…ChN)的受检查的声道Chi或其余声道的线性组合R的频谱分解,分别包含多个子频带301,其中,这些多个子频带301中的各个子频带303沿着具有子频带值305的一横轴(时间轴310)延伸,如时间/频率网格的小框所指示的。此外,子频带303沿纵轴(频率轴320)连续定位而与一滤波器排组的不同频率区域相对应。在图3a中,相应时间/频率片(tile)以虚线指示。此处,指数i表示声道Chi,而R表示其余声道的线性组合,而指数n及k对应于某些滤波器排组时槽(filterbanktimeslot)307和滤波器排组子频带303。基于这些时间/频率片(tile)例如定位在相对于时间/频率轴310、320的相同时间/频率点(t0,f0),如图3b所示,可在步骤330中求出声道间关系式335,诸如所检查的声道Chi的声道间相干性(ICCi)或声道电平差(CLDi)。此处,声道间关系式ICCi及CLDi的计算可通过使用下列关系式进行:
ICC i = < Ch i R * > < Ch i Ch i * > < RR * >
&sigma; i = < Ch i Ch i * > < RR * >
其中,Chi为所检查的声道,及R为其余声道的线性组合,而<…>表示时间平均。其余声道的线性组合R的一例为它们的能量标准化和(energy-normalized)。此外,声道电平差(CLDi)(channelleveldifference)通常为参数σi的分贝值。
参考前述方程式,声道电平差(CLDi)或参数σi可与标准化至其余声道的线性组合R的电平PR的声道Chi的电平Pi相对应。这里,电平Pi或PR可从声道Chi的声道间电平差参数ICLDi及其余声道的声道间电平差参数ICLDj(j不等于i)的线性组合ICLDR中导算出。
这里,ICLDi及ICLDj分别与一参考声道Chref相关。在额外实施例中,声道间电平差参数ICLDi及ICLDj也可与多声道音频信号(Ch1…ChN)的属于参考声道Chref的任何其它声道相关。如此,最终将导致声道电平差(CLDi)及参数σi的相同结果。
根据其它实施例,图3b的声道间关系式335也可通过在多声道音频信号(Ch1…ChN)的不同或全部成对Chi、Chj输入声道上经运算而导算出。此种情况下,可获得成对逐一计算的声道间相干性参数ICCi,j或声道电平差(CLDi,j)或参数σi,j(或ICLDi,j),指数(i,j)分别表示某一对声道Chi及Chj
图4示出了一直接/周围提取器420的一实施例400的框图,其包括估算的电平信息113的下混。图4的实施例大致上包含图1的实施例的相同框。因此,具有类似实现方式和/或功能的相同框以相同的组件符号标示。但对应于图1的直接/周围提取器120的图4的直接/周围提取器420被构造为将多声道音频信号的直接部分或周围部分的估算得的电平信息113下混,以获得该直接部分或周围部分的已下混的电平信息,并基于已下混的电平信息而从下混信号115提取直接信号部分125-1或周围信号部分125-2。如图4所示,空间参数信息105例如可从图1的多声道(Ch1…ChN)音频信号101导算出,并可包含图3b所介绍的Ch1…ChN的声道间关系式335。图4的空间参数信息105还包含将要馈送至直接/周围提取器420的下混信息410。在实施例中,下混信息410可将原先的多声道音频信号(例如图1的多声道音频信号101)的下混特征化为下混信号115。下混例如可使用于任何编码域,例如在时域或频域中运算的下混器(图中未示出)来执行。
根据其它实施例,直接/周围提取器420还被构造为通过组合具有相干性和的直接部分的估算得到的电平信息与具有非相干性和的周围部分的估算得到的电平信息,来执行多声道音频信号101的直接部分或周围部分的估算的电平信息113的下混。
须指出,估算的电平信息可分别表示直接部分或周围部分的能量(energy)电平或功率电平。
更明确言之,估算得到的直接/周围部分的能量(也即电平信息113)的下混可通过假设声道间的完全非相干性(fullincoherence)或完全相干性来执行。在分别基于非相干性和或相干性和进行下混的情况下,可应用如下二个公式。
对于非相干性信号,已下混的能量或已下混的电平信息可由 E DMX = &Sigma; i = 1 N g i 2 E Ch i 计算。
对于相干性信号,已下混的能量或已下混的电平信息可由 E DMX = ( &Sigma; i = 1 N g i E Ch i ) 2 计算。
此处,g为下混增益,其可得自于下混信息,而E(Chi)表示多声道音频信号中的一声道Chi的直接/周围部分的能量。至于非相干性下混的典型例,在下混5.1声道成为二声道的情况下,左下混的能量可为:
EL_DMX=ELeft+ELeft_surround+0.5*ECenter
图5示出了通过将增益参数gD、gA施加至下混信号115的直接/周围提取器520的又一实施例。图5的直接/周围提取器520可对应于图4的直接/周围提取器420。首先,直接部分545-1或周围部分545-2的估算的电平信息可从如前文说明的一直接/周围估算器接收到。接收到的电平信息545-1、545-2可在步骤550中组合/下混以分别获得直接部分555-1或周围部分555-2的下混电平信息。然后在步骤560中,增益参数gD565-1、gA565-2分别可针对直接部分或周围部分而从下混电平信息555-1、555-2导算出。最后,直接/周围提取器520可用来施加导算得出的增益参数565-1、565-3至下混信号115(步骤570),因而将获得直接信号部分125-1或周围部分125-2。
此处,须注意,在图1、图4、图5的实施例中,下混信号115可由分别存在于直接/周围提取器120、420、520的输入端处的多个下混声道(Ch1…ChN)组成。
在其它实施例中,直接/周围提取器520被构造为从直接部分或周围部分的下混电平信息555-1、555-2来测定直接对总(DTT)能比或周围对总(ATT)能比,并使用基于所测得的DTT能比或ATT能比的提取参数作为增益参数565-1、565-2。
在又一些实施例中,直接/周围提取器520被构造为将下混信号115与第一提取参数sqrt(DTT)相乘来获得直接信号部分125-1,并且与第二提取参数sqrt(ATT)相乘来获得周围信号部分125-2。此处,下混信号115可对应于单声道下混信号215,如图2的实施例所示(「单声道下混情况」)。
在单声道下混情况下,周围提取可通过施加sqrt(ATT)及sqrt(DTT)进行。但更明确言之,通过对各个声道Chi施加sqrt(ATTi)及sqrt(DTTi),对多声道下混信号相同办法也有效。
根据其它实施例,在下混信号115包含多个声道的清况下(「单声道下混情况」),直接/周围提取器520可被构造为来施加第一多个提取参数例如sqrt(DTTi)至下混信号115来获得直接信号部分125-1,并施加第二多个提取参数例如sqrt(ATTi)至下混信号115来获得周围信号部分125-2。此处,第一多个提取参数及第二多个提取参数可组成对角线矩阵。
一般而言,直接/周围提取器120、420、520还可被构造为通过施加平方M×M提取矩阵至下混信号115来提取直接信号部分125-1或周围信号部分125-2,其中,平方M×M提取矩阵的大小(M)与下混声道(Ch1…ChN)的数目(M)相对应。
因此,施加周围提取可被描述为施加平方M×M提取矩阵,其中,M为下混声道(Ch1…ChN)的数目。这可包括全部可能的方式来操纵输入信号来获得直接/周围输出,包括基于表示平方M×M提取矩阵(被构造为对角线矩阵)的主要组件的sqrt(ATTi)及sqrt(DTTi)参数的相当简单的办法,或被构造为完整矩阵的LMS交混办法。后者将在后文说明,此处,须注意,前述施加M×M提取矩阵的办法涵盖任何数目的声道,包括一个。
根据其它实施例,提取矩阵可以并非必然为M×M矩阵大小的平方矩阵,原因在于发明人具有较少数目的输出声道。因此,提取矩阵具有减少的行。该一实例可为提取单一直接信号来代替M。
也并非必要经常性取全部M个下混声道作为与具有提取矩阵的M列的输入。更明确言之,可与应用用途相关,此处并非必要具有全部声道作为输入信号。
图6示出了基于使用声道交混的LMS(最小均方)解的直接/周围提取器620的又一实施例600的框图。图6的直接/周围提取器620可对应于图1的直接/周围提取器120。在图6的实施例中,因此具有与图1实施例类似的实现方式和/或功能的相同框以相同的组件符号表示。但对应于图1的下混信号115的图6的下混信号615包含多个617下混声道Ch1…ChN,其中,下混声道的数目(M)小于多声道音频信号101的声道Ch1…ChN的数目(N),也即M<N。更明确言之,直接/周围提取器620被构造为通过使用声道交混的最小均方(LMS)解,来提取直接信号部分125-1或周围信号部分125-2,LMS解并不要求相等周围电平。如下提供此种LMS解,其并不要求相等周围电平,并且也可延伸至任何数目的声道。刚刚前述的LMS解并非强制性,而是表示前述办法的更精准替代之道。
用于直接/周围提取的交混权值的LMS解所使用的组件符号为:
Chi声道i
αi在声道i中的直接声音增益
D及声音的直接部分及其估值
Ai声道i的周围部分及其估值
PX=E[XX*]X的估算得的能量
E[]预期值
X的估算误差
声道i对直接部分的LMS交混权值
声道n对声道i的周围部分的LMS交混权值
在本内文中,须注意,LMS解的导算可基于多声道音频信号的各个声道的频谱表示型态,其表示频带中的每项函数。
信号模型被表示为
Chi=aiD+Ai
导算首先处理a)直接部分,然后,b)周围部分。最后,导算出权值的解,并描述权值的标准化方法。
a)直接部分
权值直接部分的估算为
D ^ = &Sigma; i = 1 N &omega; D ^ i Ch i = &Sigma; i = 1 N &omega; D ^ i ( a i D + A i )
估算误差读取
E D ^ = D - D ^ = D - &Sigma; i = 1 N &omega; &sigma;i ( a i + A i )
为了获得LMS解,发明人要求与输入信号正交
E[EσChi]=0,对于全部k
E [ ( D - &Sigma; i = 1 N w D ^ i ( a i D + A i ) ) ( a k D + A k ) * ] = ( a k - &Sigma; i = 1 N w D ^ i a i a k ) P D - w D ^ k P Ak = 0 &DoubleLeftRightArrow; &Sigma; i = 1 N w D ^ i a i a k P D + w D ^ k P AK = a k P D
呈矩阵形式,前述关系式读成
b)周围部分
发明人从相同的信号模型开始并根据下式来估算权值
A ^ i = &Sigma; n = 1 N w A ^ i , n Ch i = &Sigma; n = 1 N w A ^ i , n ( a i D + A i )
估算误差为
E A ^ i = A i - A ^ i = A i - &Sigma; n = 1 N w A ^ i , n ( a i D + A i )
并且正交性
E [ E A ^ i Ch k ] = 0 , 对于全部k
以矩阵形式,前述关系式读成
权值的解
权值可通过颠倒矩阵A来求解,这对直接部分及周围部分的计算而言是相同的。在立体声情况下,该解为:
w D 1 = a 1 P D P A 2 a 2 a 2 P D P A 1 + a 1 a 1 P D P A 2 + P A 1 P A 2 = a 1 P D P A 2 div
w D 2 = a 2 P D P A 1 div
w A ^ 1,1 = a 2 a 2 P D P A 1 + P A 1 P A 2 div
w A ^ 1 , 2 = a 1 a 2 P D P A 1 div
w A ^ 2 , 1 = a 1 a 2 P D P A 2 div
w A ^ 2,2 = a 1 a 1 P D P A 2 + P A 1 P A 2 div
此处,div为除数a2a2PDPA1+a1a1PDPA2+PA1PA2
权值的标准化
权值用于LMS解,但因能量级(energylevel)须保留,故将权值标准化。这如此也使得上式中由div项进行的除法变成不必要。标准化通过确保输出直接及周围声道为PD及PAi来进行,其中,i为声道指数。
直接假设发明人知晓声道间相干性、混合因子及声道能量。为求简明,发明人关注在二个声道的情况,并且特别为一对权值其为从第一输入声道及第二输入声道产生第一周围声道的增益。步骤如下:
步骤1:计算输出信号能量(其中,相干性部分逐振幅加总,而非相干部分逐能加总)
P A ^ 1 = ( w A 1 ^ , 1 | ICC | &CenterDot; P 1 + sign ( ICC ) w A ^ 1,2 | ICC | &CenterDot; P 2 ) 2 + ( 1 - | ICC | ) P 1 w A ^ 1,1 2 + ( 1 - | ICC | ) P 2 w A ^ 1,2 2
步骤2:计算标准化增益因子
g = P A 1 P A ^ 1
并施加该结果至交混权值因子在步骤1中,ICC的绝对值和符号操作数被包括为也考虑输入声道为负相干的情况。其余权值因子也以相同方式被标准化。
更明确言之,参考前文说明,直接/周围提取器620可被构造为通过假设稳定的多声道信号模型而导算出LMS解,使得LMS解不会限于立体声道下混信号。
图7a示出了直接/周围估算器710的实施例700的框图,该估算器基于立体声周围估算公式。图7a的直接/周围估算器710可对应于图1的直接/周围估算器110。更明确言之,图7a的直接/周围估算器710被构造为针对多声道音频信号101的各声道(Chi)施加使用空间参数信息105的立体声周围估算公式,其中,该立体声周围估算公式可以函数相依性表示为
DTTi=fDTT[σ(Chi,R),ICCi(Chi,R)]
ATTi=1-DTTi
其明确地示出了对声道电平差(CLDi)或声道Chi的参数σi及声道间相干性(ICCi)参数的相依性。如图7a所示,空间参数信息105被馈送至直接/周围估算器710,并可包含各声道Chi的声道间关系式参数ICCi及σi。在通过使用直接/周围估算器710施加此一立体声周围估算公式之后,将分别在其输出715处获得直接对总(DTTi)能比或周围对总(ATTi)能比。须注意,前述用来估算各个DTT能比或ATT能比的立体声周围估算公式并非基于相等周围的条件。
更明确言之,直接/周围比值估算的执行方式为声道直接能量相对于该声道总能的比(DTT)可以公式表示为
这里, &sigma; = < Ch Ch * > < RR * > ICC = < Ch R * > < Ch Ch * > < RR * > , Ch为检查声道,并且R为其余声道的线性组合。<>为时间平均值。当声道及其余声道的线性组合的周围电平假设为相等,并且其相干性为零时遵照此一公式。
图7b示出了DTT(直接对总)能比760实例呈声道间相干性参数ICC770的函数的线图750。在图7b的实施例中,声道电平差(CLD)或参数σ例如设定为1(σ=1),使得声道Chi的电平P(Chi)与其余声道的线性组合R电平P(R)将为相等。在此种情况下,如标示以DTT~ICC的直线775指示,DTT能比760将与ICC参数成线性比例。从图7b可知,在ICC=0的情况下,其可对应于完全解相干性声道间关系式,DTT能比760将为0,其可对应于完全周围情况(情况“R1”)。但在ICC=1的情况下,其可对应于完全相干性声道间关系式,DTT能比760将为1,其可对应于全然直接情况(案例“R2”)。因此,在声道中相对于该声道的总能,在情况R1大致上并无直接能量,而在情况R2大致上并无周围能量。
图8示出了根据本发明的其它实施例的编码器/译码器系统800的框图。在该编码器/译码器系统800的译码器端上,示出了译码器820的实施例,其可与图1的装置100相对应。由于图1与图8实施例的相似性,这二个实施例中具有相似实现方式和/或功能的相同框以相同的组件符号表示。如图8的实施例所示,直接/周围提取器120可在具有多个下混声道Ch1…ChM的下混信号115上操作。图8的直接/周围估算器110进一步被构造为接收下混信号815(选择性)的至少二个下混声道825,使得多声道音频信号110的直接部分或周围部分的电平信息113将基于所接收的至少个二下混声道825的空间参数信息105以外估算。最后,在由直接/周围提取器120提取后,将获得直接信号部分125-1或周围信号部分125-2。
在该编码器/译码器系统800的编码器端上,示出了编码器810的实施例,其可包含下混器815,用来将多声道音频信号(Ch1…ChN)下混成为具有多个下混声道Ch1…ChM的下混信号115,其中,声道数目从N减少成M。下混器815还可被构造为通过根据多声道音频信号101计算声道间关系式来输出空间参数信息105。在图8的编码器/译码器系统800中,下混信号115及空间参数信息105可从编码器810传输至译码器820。这里,编码器810可基于下混信号115和空间参数信息105导算出编码信号用于从编码器端传输至译码器端。此外,空间参数信息105基于多声道音频信号101的声道信息。
另一方面,声道间关系式参数σi(Chi,R)及ICCi(Chi,R)可在编码器810的声道Chi与其余声道的线性组合R间计算,并且在编码信号的内部传输。译码器820又可接收编码信号,并且在所传输的声道间关系式参数σi(Chi,R)和ICCi(Chi,R)上操作。
另一方面,编码器810还可被构造为计算欲传输的成对不同声道(Chi,Chj)间的声道间相干性参数ICCi,j。在这种情况下,编码器810应能够根据所传输的逐对计算的ICCi,j(Chi,Chj)导算出声道Chi与其余声道的线性组合R之间的参数ICCi(Chi,R),使得实现前文已描述的对应实施例。在本上下文中须注意,译码器820无法单独从知晓下混信号115中来重建参数ICCi(Chi,R)。
在实施例中,所传输的空间参数不仅关于逐对声道比较。
举例言之,最典型的MPS情况是具有二个下混声道。MPS译码中的第一空间参数集合使得二个声道变成三个声道:中、左及右。引导此种映射关系的参数集合被称作中心预测系数(CPC)和针对二对三组态具有专一性的ICC参数。
空间参数的第二集合被一分为二:侧声道分成相对应的前声道和后声道,而中心声道被分成中心声道和Lfe声道。这种映射关系与如前文介绍的ICC及CLD参数有关。
对全部下混组态类别及所有种类的空间参数类别皆找出计算规则并不实际。然而,虚拟地遵照下混步骤则是符合实际的。原因在于发明人知晓二声道变成三声道,而三声道变成六声道,最终,发明人找出二输入声道如何安排路径成为六输出声道的输入输出关系式。输出信号只有下混声道的线性组合加上其解相关(decorrelated)版本的线性组合。并非一定实际上译码输出信号并且测量它,而是发明人知晓此一“解码矩阵”,可以在运算上有效地计算参数域中任何声道或声道组合的ICC及CLD参数。
与下混信号组态及多声道信号组态独立无关,译码信号的各个输出为下混信号的线性组合加上其各自的解相关版本的线性组合。
Ch _ out i = &Sigma; k = 1 dmx _ channels ( a k , i Ch _ dmx k + b k , i D [ Ch _ dmx k ] )
其中,操作数D[]对应于解相关器(decorrelator),也即,制成输入信号的不相干复本的处理程序。因子a和b是已知的,原因在于其可从参数侧边信息直接导算出。因从定义上,参数信息指导译码器如何从下混信号形成多声道输出信号。上式可简化成
Ch _ out i = &Sigma; k = 1 dmx _ channels ( a k , i Ch _ dmx k ) + D i
原因在于全部解相关部分可组合用于能量/相干性比较。D的能量是已知的,原因在于因子b在第一式中也是已知的。
根据这一点,须注意,发明人可在输出声道间或在输出声道的不同线性组合间做任一种相干性及能量比较。在二下混声道及一输出声道集合的简单例的情况下,声道号3及5相对彼此作比较,总和计算如下:
&sigma; 3,5 = E [ Ch _ out 3 2 ] E [ Ch _ out 5 2 ]
其中,E[]为预期(实际上:平均)操作数。两项可以公式表示如下
全部前述参数皆是已知的,或从下混信号为可量测。交叉项E[Ch_dmx*D]被定义为零,因而在公式中的较下列。同理,相干性公式为
ICC 3,5 = E [ Ch _ out 3 Ch _ out 5 ] E [ Ch _ out 3 2 ] E [ Ch _ out 5 2 ]
再者,因上式中的全部部分为输入信号加解相关信号的线性组合,故解可直接获得。
如上实例比较二个输出声道,但同理可进行输出声道的线性组合间的比较,诸如使用容后详述的处理程序实例。
综合前述先前实施例,所呈现的技术/构想包含下列步骤:
1.取得可能高于下混声道数目的一“原先”声道集合的声道间关系式(相干性,电平)。
2.估算该“原先”声道集合的周围能量及直接能量。
3.将“原先”声道集合的周围能量及直接能量下混为较少的声道数目。
4.通过施加增益因子或增益矩阵,使用下混能量来提取所提供的下混声道中的直接信号及周围信号。
空间参数侧边信息的使用通过图2的实施例将最佳地得到解释和概括。在图2的实施例中,发明人有一参数立体声串流,其包括单一音频声道及有关其所表示的立体声的声道间差(相干性,电平)的空间侧边信息。现在因发明人知晓声道间差,故可将如上立体声周围估算式施加至该声道间差,并得知原先声道集合的直接能量及周围能量。然后,发明人可通过加总直接能量(使用相干性加法)及周围能量(使用非相干性加法)来“下混”声道能量,并导算出该单一下混声道的直接对总能比及周围对总能比。
参考图2的实施例,空间参数信息大致上包含声道间相干性参数(ICCL,ICCR)及声道电平差参数(CLDL,CLDR),它们分别与参数立体声音频信号的左声道(L)及右声道(R)相对应。此处,须注意,声道间相干性参数ICCL与ICCR是相等的(ICCL=ICCR),而声道电平差参数CLDL与CLDR通过CLDL=–CLDR而相关。相对应地,声道电平差参数CLDL与CLDR典型地分别为参数σL及σR的分贝值,故左(L)及右(R)声道的参数σL及σR通过σL=1/σR而相关。这些声道间差参数可以容易地用来基于立体声周围估算公式,而对二声道(L,R)计算各个直接对总能比(DTTL,DTTR)及周围对总能比(ATTL,ATTR)。在该立体声周围估算公式中,左声道(L)的直接对总能比及周围对总能比(DTTL,ATTL)取决于左声道L的声道间差参数(CLDL,ICCL),而右声道(R)的直接对总能比及周围对总能比(DTTR,ATTR)取决于右声道R的声道间差参数(CLDR,ICCR)。此外,对参数立体声音频信号的二声道L、R的能量(EL,ER)可分别基于左声道(L)及右声道(R)的声道电平差参数(CLDL,CLDR)来导算出。此处,左声道L的能量(EL)可通过施加左声道L的声道电平差参数(CLDL)至该单声道下混信号得知,而右声道R的能(ER)可通过施加右声道R的声道电平差参数(CLDR)至该单声道下混信号得知。然后通过将二声道(L,R)的能量(EL,ER)与相对应的基于DTTL、DTTR、及ATTL、ATTR的参数相乘,可获得对二声道(L,R)的直接能量(EDL,EDR)及周围能量(EAL,EAR)。然后,二声道(L,R)的直接能量(EDL,EDR)可通过使用相干性下混法则组合/相加来获得单声道下混信号的直接部分的下混能量(ED,mono);而二声道(L,R)的周围能量(EAL,EAR)可通过使用非相干性下混法则组合/相加来获得单声道下混信号的周围部分的下混能(EA,mono)。然后,通过找出直接信号部分及周围信号部分的下混能量(ED,mono,EA,mono)与该单声道下混信号的总能量(Emono)的关系式,将得知该单声道下混信号的直接对总能比(DTTmono)及周围对总能比(ATTmono)。最后,基于这些DTTmono能比及ATTmono能比,大致上可从该单声道下混信号提取直接信号部分或周围信号部分。
在音频的再现上,经常需要通过头戴耳机而再现声音。耳机收听具有独特特征,使得其与扬声器收听并且也与任何自然声音环境有极大的不同。音频直接设定给左耳及右耳。再现的音频内容典型地再现给扬声器回放。因此,音频信号并未含有人类听觉系统用在空间声音知觉的性质及提示。除非系统中有导入双耳处理,否则即为此种情况。
基本上,双耳处理可称作为一种处理程序,其取输入声音并对其修正,使得声音只含有知觉上正确的(就人类听觉系统处理空间声音而言)这些耳际性质及单耳性质。双耳处理并非直接工作,根据最先进的既有解决的方法仍然不是最佳的。
存在大量应用,其中,已经包括音频及电影回放的双耳处理,诸如被设计用来将多声道音频信号变换成耳机的双耳对应部分的媒体播放器及处理装置。典型的办法是使用头部相关传递函数(head-relatedtransferfunctions(HRTF))来制作虚拟耳机,并加上室内效果给该信号。理论上,这可相当于在特殊室内使用耳机收听。
然而,实际上重复示出这种办法尚未能一致地满足收听者。似乎需要折衷,使用此种直接方法的良好空间化牺牲了音频质量,诸如音色或音质改变变得不佳、室内效果恼人的知觉、以及动态的丧失。其它问题包括定位不准确(例如,头内定位、前后混淆),缺乏音源的空间距离,并且耳间(inter-aural)不匹配,也即由于耳间提示错误而靠近耳朵的听觉。
不同的收听者对判定的问题有极大差异。灵敏度也依输入材料各异,诸如音乐(就音色而言,质量标准严格)、电影(较不严格)及游戏(甚至更不严格,但定位是重要的)。根据内容也典型地存在不同的设计目的。
因此,后文的细节尽可能成功地处理克服前述问题的办法来最大化平均知觉总体质量。
图9a示出了根据本发明其它实施例的双耳直接声音呈现装置910的概况900的框图。如图9a所示,双耳直接声音呈现装置910被构造为用于处理其可存在于图1实施例的直接/周围提取器120的输出处的直接信号部分125-1,以获得第一双耳输出信号915。第一双耳输出信号915可包含L指示的左声道及R指示的右声道。
此处,双耳直接声音呈现装置910可被构造为通过头部相关传递函数(HRTF)馈送直接信号部分125-1来获得已变换的直接信号部分。此外,双耳直接声音呈现装置910可被构造为施加室内效果给己变换的直接信号部分来最终获得第一双耳输出信号915。
图9b示出了图9a的双耳直接声音呈现装置910的细节905的框图。双耳直接声音呈现装置910可包含框912指示的“HRTF变换器”及框914指示的室内效果处理装置(早期反映的并列混响或模拟)。如图9b所示,HRTF变换器912及室内效果处理装置914可通过并列施加头部相关传递函数(HRTF)及室内效果,而在直接信号部125-1上操作,由此将获得第一双耳输出信号915。
更明确言之,参考图9b,此种室内效果处理还可提供非相干性混响直接信号919,其可通过随后的交混滤波器920处理来使该信号适应扩散声场的耳间相干性。这里,滤波器920及HRTF变换器912组成第一双耳输出信号915。根据其它实施例,室内效果对直接声音的处理也可为早期反映的参数表示型态。
因此,在实施例中,室内效果可以优选地与HRTF并列施加,而非串行施加(也即,通过HRTF馈送信号后施加室内效果)。更明确言之,唯有从来源直接传播的声音通过或由相应的HRTF变换。间接/混响声音可经概略估算也即以统计方式(通过采用相干性控制来代替HRTF)而进入耳朵。这也可通过串行实施,但并列方法是优选的。
图10a示出了根据本发明的其它实施例的双耳周围声音呈现装置1010的概况1000的框图。如图10a所示,双耳周围声音呈现装置1010可被构造为用于处理其可存在于图1实施例的直接/周围提取器120的输出的周围信号部分125-2,以获得第二双耳输出信号1015。第二双耳输出信号1015可包含左声道(L)及右声道(R)。
图10b示出了图10a的双耳周围声音呈现装置1010的细节1005的框图。在图10b中可以看出,双耳周围声音呈现装置1010可被构造为将如标示以“室内效果处理”的框1012指示的室内效果施加给周围信号部分125-2,使得获得非相干性混响周围信号1013。此外,双耳周围声音呈现装置1010可被构造为通过施加滤波器(诸如框1014表示的交混滤波器)而处理非相干性混响周围信号1013,由此将提供第二双耳输出信号1015,第二双耳输出信号1015适用于实际扩散声场的耳间相干性。以“室内效果处理”标示的框1012也可被构造为使得其直接产生实际扩散声场的耳间相干性。在此种情况下,未使用框1014。
根据其它实施例,双耳周围声音呈现装置1010被构造为施加室内效果和/或滤波器至周围信号部分125-2用于提供第二双耳输出信号1015,使得第二双耳输出信号1015将适用于实际扩散声场的耳间相干性。
在前述实施例中,解相关性及相干性控制可以在二个连续步骤中执行,但这不是必要的。也可以以单步骤处理实现相同的结果,而无需经中间非相干性信号的求取公式。两种方法同等有效。
图11示出了多声道音频信号101的双耳再现的实施例1100的构想框图。更明确言之,图11的实施例表示一种用于多声道音频信号101的双耳再现的装置,其包含第一变换器1110(“频率变换”)、分离器1120(“直接-周围分离”)、双耳直接声音呈现装置910(“直接来源呈现”)、双耳周围声音呈现装置1010(“周围声音呈现”)、如“+”指示的组合器1130和第二变换器1140(“反相频率变换”)。更明确言之,第一变换器1110可被构造为用于将多声道音频信号101变换成频谱表示型态1115。分离器1120可被构造为用于从频谱表示型态1115提取直接信号部分125-1或周围信号部分125-2。这里,分离器1120可对应于图1的装置100,特别包括图1的实施例的直接/周围估算器110和直接/周围提取器120。如前文所解释的,双耳直接声音呈现装置910可在直接信号部分125-1上操作来获得第一双耳输出信号915。相对应地,双耳周围声音呈现装置1010可在周围信号部分125-2上操作来获得第二双耳输出信号1015。组合器1130可被构造为用于组合第一双耳输出信号915及第二双耳输出信号1015来获得组合信号1135。最后,第二变换器1140可被构造为用来将组合信号1135变换成时域来获得立体声输出音频信号1150(“用于耳机的立体声输出信号”)。
图11实施例的频率变换操作说明了在频率变换域中的系统功能,其为空间音频的听觉处理中的天然域。若该系统被在已经在频率变换域中发挥功能的系统上用作增上功能(add-on),则系统本身并非一定具有频率变换。
前述直接/周围分离方法可被再划分成二个不同部分。在直接/周围估算部分中,直接周围部分的电平和/或比基于信号模型的组合及音频信号的性质估算。在直接/周围提取部分中,已知的比及输入信号可用来形成周围信号的直接输出。
最后,图12示出了包括双耳再现情况的直接/周围估算/提取的一实施例1200的总体框图。特定言之,图12的实施例1200可对应图11的实施例1100。但在实施例1200中,示出了与图1实施例的框110、120,其包括基于空间参数信息105的估算/提取处理程序,相对应的图11的分离器1120的细节。此外,与图11的实施例1100相反,并无任何不同域间的变换处理程序示出于图12的实施例1200。实施例1200的框也外显地在下混信号115运算,该信号可从多声道音频信号101导算出。
图13a示出了一种用于在滤波器排组域中从单声道下混信号提取直接/周围信号的装置1300实施例的框图。如图13a所示,装置1300包含一分析滤波器排组1310、用于直接部分的一合成滤波器排组1320、及用于周围部分的一合成滤波器排组1322。
更明确言之,装置1300的分析滤波器排组1310可被实施为执行短期傅里叶变换(STFT),或例如可被构造为分析QMF滤波器排组,而装置1300的合成滤波器排组1310可被实施为执行反相短期傅里叶变换(ISTFT),或例如可被构造为合成QMF滤波器排组。
分析滤波器排组1310被构造为用于接收单声道下混信号1315,其可对应于如图2的实施例所示的单声道下混信号215,并将单声道下混信号1315变换成多个滤波器排组子频带1311。如图13a可知,多个1311滤波器排组子频带分别连结至多个直接/周围提取框1350、1352,其中,多个直接/周围提取框1350、1352被构造为施加基于DTTmono参数或ATTmono参数1333、1335至滤波器排组子频带。
如图13b所示,基于DTTmono或ATTmono的参数1333、1335可由DTTmono,ATTmono计算器1330提供。更明确言之,图13b的DTTmono,ATTmono计算器1330可被构造为计算DTTmono,ATTmono能比,或从对应于参数立体声音频信号(例如图2的参数立体声音频信号201)的左声道和右声道(L,R)的所提供的声道间相干性及声道电平差参数(ICCL,CLDL,ICCR,CLDR),而导算出基于DTTmono或ATTmono的参数,已经对应地如前所述。此处,对单一滤波器排组子频带,可使用相对应的参数105和基于DTTmono或ATTmono的参数1333、1335。在本上下文中,指出了这些参数相对于频率并非常数。
由于施加了基于DTTmono或ATTmono的参数1333、1335的结果,分别可获得多个修正滤波器排组子频带1353、1355。随后,多个修正滤波器排组子频带1353、1355分别被馈至合成滤波器排组1320、1322,合成滤波器排组可被构造为合成多个修正滤波器排组子频带1353、1355,由此分别获得单声道下混信号1315的直接信号部分1325-1或周围信号部分1325-2。这里,图13a的直接信号部分1325-1对应于图2的直接信号部分125-1,而图13a的周围信号部分1325-2对应于图2的直接信号部分125-2。
参考图13b,图13a的多个1350、1352直接/周围提取框的直接/周围提取框1380特别包含DTTmono,ATTmono计算器1330和乘法器1360。乘法器1360可被构造为将多个滤波器排组子频带1311的单一滤波器排组(FB)子频带1301乘以相对应的基于DTTmono或ATTmono的参数1333、1335,使得获得多个滤波器排组子频带1353、1355的修正单一滤波器排组子频带1365。更明确言之,在框1380属于多个1350框的情况下,直接/周围提取框1380被构造为施加基于DTTmono的参数;而在框1380属于多个框1352的情况下,其被构造为施加基于ATTmono的参数。此外,修正单一滤波器排组子频带1365可提供直接部分或周围部分的相应的合成滤波器排组1320、1322。
根据实施例,空间参数及导算出的参数根据人类听觉系统的关键频带(例如28频带)而以频率分辨率提供,通常低于滤波器排组的分辨率。
因此,根据图13a的实施例的直接/周围提取大致上基于逐子频带计算得的声道间相干性及声道电平差参数(可与图3b的声道间关系式参数335相对应)而在滤波器排组域的不同子频带上运算。
图14示出了根据本发明的又一实施例的MPEG环绕译码方案1400的实例的示意说明图。更明确言之,图14实施例描述从立体声下混信号1410译码成6个输出声道1420。此处,标示以“res”的信号为残响信号,其为解相关信号的选择性置换(从标示以“D”的框获得)。根据图14实施例,空间参数信息或声道间关系式参数(ICC,CLD)在MPS串流内部从编码器,诸如图8的编码器810,传输至译码器诸如图8的译码器820,分别可用来产生标示以“前置解相关器矩阵M1”及“混合矩阵M2”的解码矩阵1430、1440。图14的实施例所特有的为:通过使用混合矩阵M21440从侧声道(L,R)及中心声道(C)(L,R,C1435)产生输出声道1420(也即上混声道L、LS、R、RS、C、LFE)大致上由空间参数信息1405决定,其可对应于图1的空间参数信息105,包含根据MPS环绕标准的特殊声道间关系式参数(ICC,CLD)。
这里,将左声道(L)划分成对应的输出声道L、LS,将右声道(R)划分成对应的输出声道R、RS,以及将中心声道(C)划分成对应的输出声道C、LFE,这种划分可以由具有相对应的ICC、CLD参数的各个输入信号的一分为二(OTT)的组态表示。
特别地,与“5-2-5组态”相对应的MPEG环绕译码方案1400实例例如可包含下列步骤。在第一步骤中,空间参数或参数侧边信息可调配成译码矩阵1430、1440,其在图14中根据既有的MPEG环绕标准示出。在第二步骤中,解码矩阵1430、1440可用于在参数域中来提供上混声道1420的声道间信息。在第三步骤中,使用如此提供的声道间信息,可计算各个上混声道的直接/周围能量。在第四步骤中,如此所得的直接/周围能量可下混至下混声道1410的数目。在第五步骤中,计算将施加给下混声道1410的权值。
在更进一步之前,须指出,刚刚前述的处理要求量测值为
E[|Ldmx|2],E[|Rdmx|2]。
其为下混声道的平均功率,以及
E [ L dmx R dmx * ]
其可被称作为来自下混声道的交叉频谱。这里,下混声道的平均功率有目的地被称作为能量,原因在于“平均功率”一词并非常用的术语。
由方括号指示的预期操作数在实际应用中可以由时间平均、递归或非递归来置换。能量和交叉频谱从下混信号直接可量测。
也须注意,二声道的线性组合能量可从声道能量、混合因子、及交叉频谱中导出公式(全部皆在参数域中,这里,无需信号运算)。
线性组合
Ch=aLdmx+bRdmx
具有下述能量:
E [ | Ch | 2 ] = E [ | aL dmx + b R dmx | 2 ] = a 2 E [ | L dmx | 2 ] + b 2 E [ | R dmx | 2 ] + ab ( E [ L dmx R dmx * ] + E [ R dmx L dmx * ] ) = a 2 E [ | L dmx | 2 ] + b 2 [ | R dmx | 2 ] + 2 ab ( Re { E [ L dmx R dmx * ] } )
以下说明处理程序(也即译码方案)的各个步骤。
第一步骤(混合矩阵的空间参数)
如前所述,M1和M2矩阵根据MPEG环绕标准形成。M1的第a列、第b行元素为M1(a,b)。
第二步骤(具有下混至上混声道的声道间信息的能量及交叉频谱的混合矩阵)
现在发明人已有混合矩阵M1和M2。发明人需要用公式表达输出声道如何根据左下混声道(Ldmx)及右下混声道(Rdmx)创建。发明人假设使用解相关器(图14,灰色区)。MPS标准的解码/上混基本上最终提供整个处理程序中用于总输入/输出关系式的如下公式:
L=aLLdmx+bLRdmx+cLD1[S1]+dLD2[S2]+eLD3[S3]
前文说明已上混的前左声道实例。其它声道可以以相同方式导出公式。D组件为解相关器,a-e为从M1及M2矩阵条目可求出的权值。
具体地,因子a-e可根据矩阵条目直接以公式表示:
a L = &Sigma; i = 1 3 M 1 i , 1 M 2 1 , i
b L = &Sigma; i = 1 3 M 1 i , 2 M 2 1 , i
cL=M21,4
dL=M21,5
eL=M21,6
及相应地用于其它声道。
S信号为
Sn=M1n+3,1Ldmx+M1n+3,2Rdmx
这些S信号为从图14左侧矩阵至解相关器的输入。该能量
E[|D[Sn]|2]=E[|Sn|2]
可如前文解说的那样计算。解相关器并不影响该能量。
进行多声道周围提取的感性动机方式是通过一声道对全部其它声道之和作比较(注意这仅为多选项中的一个选项)。现在,举例说明考虑声道L的案例,声道的其余部分读成:
X L = &Sigma; Ch = ( REST ) a Ch L dmx + &Sigma; Ch = ( REST ) b Ch R dmx + &Sigma; Ch = ( REST ) c Ch D 1 [ S 1 ] + &Sigma; Ch = ( REST ) d Ch D 2 [ S 2 ] + &Sigma; Ch = ( REST ) e Ch D 3 [ S 3 ]
发明人在此处使用“X”,原因在于对“其余声道”使用“R”可能产生混淆。
然后,声道L的能量为
E [ | L | 2 ] = a L 2 E [ | L dmx | 2 ] + b L 2 E [ | R dmx | 2 ] + c L 2 E [ | S 1 | 2 ] + d L 2 E [ | S 2 | 2 ] + e L 2 E [ | S 3 | 2 ] + 2 abRe { E [ L dmx R dmx * ] }
然后,声道X的能量为
E [ | X L | 2 ] = ( &Sigma; Ch = ( REST ) a Ch ) 2 E [ | L dmx | 2 ] + ( &Sigma; Ch = ( REST ) b Ch ) 2 E [ | R dmx | 2 ] + ( &Sigma; Ch = ( REST ) c Ch ) 2 E [ | S 1 | 2 ] + ( &Sigma; Ch = ( REST ) d Ch ) 2 E [ | S 2 | 2 ] + ( &Sigma; Ch = ( REST ) e Ch ) 2 E [ | S 3 | 2 ] + 2 ( &Sigma; Ch = ( REST ) a Ch &Sigma; Ch = ( REST ) b Ch ) Re { E [ L dmx R dmx * ] }
及交叉频谱为:
E [ LX L * ] = &Sigma; Ch = ( REST ) a Ch a L E [ | L dmx | 2 ] + &Sigma; Ch = ( REST ) b Ch b L E [ | R dmx | 2 ] + &Sigma; Ch = ( REST ) c Ch c L E [ | S 1 | 2 ] + &Sigma; Ch = ( REST ) d Ch d L E [ | S 2 | 2 ] + &Sigma; Ch = ( REST ) e Ch e L E [ | S 3 | 2 ] + &Sigma; Ch = ( REST ) a L b Ch E [ L dmx R dmx * ] + &Sigma; Ch = ( REST ) a Ch b L E [ L dmx R dmx * ] *
现在发明人可将ICC公式化
ICC L = Re { E [ LX L * ] } E [ | L | 2 ] E [ | X L | 2 ]
并求和总和
&sigma; L = E [ | L | 2 ] E [ | X L | 2 ]
第三步骤(上混声道的声道间信息对上混声道的DTT参数)
现在发明人可根据下式计算声道L
DTT L = 1 2 [ ( 1 - 1 &sigma; L ) + ( 1 &sigma; L - 1 ) 2 + 4 ICC L 2 &sigma; L ]
L的直接能量为
E[|DL|2]=DTT·E[|L|2]
L的周围能量为
E[|AL|2]=(1-DTT)·E[|L|2]
第四步骤(下混直接/周围能量)
若使用非相干性下混法则实例,则左下混声道周围能量为
E [ | A Ldmx | 2 ] = E [ | A L | 2 ] + E [ | A Ls | 2 ] + E [ | A C | 2 ] + E [ | A LF | 2 ] 2
,对直接部分及左声道的直接及周围部分也相同。注意前文说明只是一种下混法则。也可有其它下混法则。
第五步骤(计算在下混声道中的周围提取的权值)
左下混DTT比为
DTT Ldmx = 1 - E [ | A Ldmx | 2 ] E [ | L dmx | 2 ]
然后权值因子的计算可如图5的实施例所述(也即使用sqrt(DTT)或sqrt(1-DTT)办法)或如图6的实施例所述(也即使用交混矩阵方法)计算。
基本上,前述处理程序的实例有关在下混声道的中MPS串流对周围比的CPC、ICC、及CLD参数。
根据其它实施例,典型地存在其它手段来达成类似目的及其它情况。举例言之,可存在前文说明者以外的其它法则用于下混、其它扬声器布局、其它译码方法及其它进行多声道周围估算方式,其中,特定声道与其余声道作比较。
尽管本发明已经在框图的背景下进行了描述,但本发明也可通过计算机实施方法来实现,其中,框表示实际或逻辑硬件组件。在后者情况下,框表示对应的方法步骤,其中,这些步骤代表由对应逻辑或实体硬件框执行的功能。
所述实施例仅供举例说明本发明的原理。须了解,此处所述的配置及细节的修正及变化为本领域技术人员显而易见。因此其旨在仅受所附权利要求的范围所限而非受此处实施例的举例说明及解释所呈现的特定细节所限。
根据本发明方法的若干实现要求,本发明方法可于硬件或于软件实施。实作可使用数字储存媒体执行,特别为具有可读取控制信号储存于其上的盘片、DVD或CD,其可与可程序规划计算机系统协力合作因而执行本发明方法。一般而言,本发明因而可作为具有程序代码储存于机器可读取载体上的计算机程序产品实施,当该计算机程序产品于计算机上跑时,该程序代码可运算用于执行本发明方法。换言之,本发明方法因而为具有程序代码的一种计算机程序,当该计算机程序于计算机上运行时该程序代码可用于执行本发明方法中的至少一者。本发明编码音频信号可储存在任一种机器可读取储存媒体,诸如数字储存媒体。
该新颖构想及技术的优点为本案所述前述实施例,也即装置、方法或计算机程序允许借助于参数空间信息而从音频信号估算与提取直接和/或周围组件。更明确言之,本发明的新颖处理在频带中发挥功能,如同典型地在周围提取领域中那样。所呈现的构想与音频信号处理有关,原因在于有多项应用要求直接及周围组件与音频信号分开。
与先前技术的周围提取方法相反,本构想并非仅基于立体输入信号,其也可应用至单声道下混情况。用于单一声道下混,通常并无声道间差异可资运算。但通过考虑空间侧边信息,周围提取在此种情况也变可能。
本发明的优点在于其利用空间参数来估算“原先”信号的周围电平。其基于下述构想:空间参数已经含有有关“原先”立体声或多声道信号的声道间差的相关信息。
一旦估算原先立体声或多声道信号的周围电平,也可在所提供的下混声道导算出直接电平及周围电平。此可由周围部分的周围能量及直接部分的直接能量或振幅的线性组合(也即加权加总)进行。因此,本发明的实施例借助于空间侧边信息来提供周围估算及提取。
从基于侧边信息的处理的此种构想延伸,存在有下列有利性质或优点。
本发明的实施例借助于空间侧边信息及所提供的下混声道而提供周围估算。当连同侧边信息提供多于一个下混声道的情况下,这些及周围估算相当重要。侧边信息及从下混声道量测得的信息可一起用在周围估算。于具有立体声下混的MPEG环绕,此二信息源共同提供原先多声道声音的声道间关系式的完整信息,及周围估算系基于这些关系式。
本发明的实施例也提供直接能量及周围能量的下混。在所述基于侧边信息的周围提取的情况下,有个中间步骤于高于所提供的下混声道的多个声道估算周围。因此,此种周围信息须以有效方式对映至下混音频声道数目。此种处理程序可称作为下混,原因在于其与音频声道的下混相对应。如此可通过如同所提供的下混声道下混的相同方式组合直接能量及周围能量可最直捷地进行。
下混法则不具有一个理想解,反而可能取决于应用用途。例如,于MPEG环绕,由于典型地信号内容不同,故有利地差异处理各声道(中心、前扬声器、后扬声器)。
此外,实施例提供多声道周围估算,其于各个声道相对于其它声道乃独立无关。此种性质/办法允许单纯使用所呈现的立体周围估算式给各声道相对于全部其它声道。借此手段,无需假设全部声道的周围电平相等。所呈现的办法系基于假设有关空间知觉,于各声道的周围组件为该组件于全部其它声道中的部分具有不相干的对应部分。提示此种假设为有效的实例为发出噪声的二声道中的一者(周围)可进一步划分成各自具有半量能的二声道,而未对所接收的声音场景造成显著影响。
就信号处理而言,有利的是,通过施加所呈现的周围估算式至各声道与全部其它声道的线性组合相比较,可进行实际直接/周围比估算。
最后,实施例提供了施加已估算的直接周围能量来提取实际信号。一旦已知下混声道的周围电平,则可应用两种本发明方法来获得周围信号。第一方法基于简单乘法,其中,各个下混声道的直接部分及周围部分可通过该信号乘以sqrt(直接对总能比)及sqrt(周围对总能比)而产生。如此对各个下混声道提供彼此相干的二个信号,但二信号具有直接部分及周围部分经估算得的能量。
第二方法基于带有各声道交混的最小均方解,其中,声道交混(也可能具有负号)允许比前述解,更佳地估算直接周围信号。与在“立体信号的多扬声器回放”,C.Faller,AES会议,2007年10月;及“专利申请案名称:从立体信号产生多声道音频信号的方法”,发明人:ChristofFaller,代理人:FISH&RICHARDSONP.C.,受让人:LG电子公司,源自:美国明尼苏达州明尼波里市,IPC8类别:AH04R500FI,USPC类别:3811所提供的声道的立体声输入及相等周围电平的最小平均解相反,本发明提供了最小均方解,该方法并不要求相等的周围电平,也可延伸至任何数目的声道。
新颖处理的额外性质如下。在双耳呈现的周围处理中,周围可使用滤波器处理,该滤波器具有提供在频带的耳际相干性类似于实际扩散声场的耳际相干性性质,其中,该滤波器也包括室内效果。于双耳呈现的直接部分处理中,直接部分可馈送通过头部相关传递函数(HRTF)可能加上室内效果,诸如早期反射和/或混响。
除此之外,与干/湿控制相对应的“分离电平”控制可在其它实施例实现。更明确言之,在许多应用中可能并不期望全然分离,原因在于可能导致听觉假影缺陷,例如突然改变、调变效应等。因此,所述处理程序的全部相关部分可以“分离电平”控制实施用来控制期望且有用的分离量。至于图11,此种分离电平控制由控制直接/周围分离1120的虚线框和/或双耳呈现装置910、1010的控制输入信号1105指示。此项控制可类似于音频效应处理的干/湿控制发挥效果。
所提供的解的主要效果如下。系统在全部情况下皆有效,也可使用参数立体声及带有单声道下混信号的MPEG环绕,与只依赖于下混信息的先前解不同。此外,比较使用下混声道的单纯声道间分析,系统可利用与音频信号一起在空间音频位串流中传输的空间侧边信息来更准确地估算直接能量及周围能量。因此,许多应用诸如双耳处理可通过施加不同处理用于声音的直接部分及周围部分而获益。
实施例基于下列心理声学假设。人类听觉系统基于时间-频率片(tile)(限于某些频率及时间范围的区域)的耳间提示而定位音源。若有二个或多个时间及频率上重迭的不相干并列音源同时呈现在不同位置,则听觉系统无法觉察音源的所在位置。原因在于这些音源的和并未在收听者产生可靠的耳际提示。如此听觉系统可能作如此描述,从靠近时间-频率片的音频场景(scene)拾取而提供可靠定位信息,但将其余部分视为无法定位。藉此手段表示听觉系统可在复杂的声音环境定位音源。同时相干性音源具有不同效应,形成在相干性音源间的单一音源所可能形成的相同耳际提示。
此点也为实施例所利用的性质。可估算可定位(直接)及不可定位(周围)声音电平,然后提取这些组件。空间化信号处理只应用至可定位/直接部分,而扩散/空间感/包封处理系应用至不可定位/周围部分。如此在双耳处理系统的设计上获得显著效果,原因在于多项处理只能应用至需要之处,而留下其余信号不受影响。全部处理皆系出现在近似人类听觉频率分辨率的频带。
实施例基于信号的分解来最大化知觉质量,但将所察觉的问题最小化。通过使用此种分解,可以分开获得音频信号的直接组分及周围组分。然后二组分经进一步处理来达成期望的效果或表示型态。
更明确言之,本发明的实施例允许在编码域中借助于空间侧边信息做周围估算。
本发明的优点还在于可通过分离直接信号及周围信号中的信号,来减少头戴耳机再现音频信号的典型问题。实施例允许改善施加至用于耳机再现的双耳声音呈现的既有直接/周围提取方法。
基于空间侧边信息的处理的主要用途案例为自然MPEG环绕及参数立体声(以及类似的参数编码技术)。从周围提取可获益的典型应用用途为双耳回放,原因在于其可施加不同室内效果程度至声音的不同部分;以及上混至更多个声道,原因在于可差异地定位及处理声音的不同组分。可能还存在一些应用用途,其中,使用者要求修正直接/周围电平,例如用于智能地增强语音。

Claims (16)

1.一种用于从一下混信号(115)和一空间参数信息(105)提取一直接和/或周围信号(125-1,125-2)的装置(100),所述下混信号(115)和所述空间参数信息(105)表示比所述下混信号(115)具有更多声道(Ch1…ChN)的一多声道音频信号(101),其中,所述空间参数信息(105)包含所述多声道音频信号(101)的声道间关系式,所述装置(100)包含:
一直接/周围估算器(110),用于基于所述空间参数信息(105)估算所述多声道音频信号(101)的一直接部分的一直接电平信息和/或用于估算所述多声道音频信号(101)的一周围部分的一周围电平信息;以及
一直接/周围提取器(420),用于基于所述直接部分的所述估算的直接电平信息或基于所述周围部分的所述估算的周围电平信息而从所述下混信号(115)提取所述直接信号部分(125-1)和/或所述周围信号部分(125-2),
其中,所述直接/周围提取器(420)被构造为下混所述直接部分的所述估算的直接电平信息或所述周围部分的所述估算的周围电平信息来获得所述直接部分或所述周围部分的已下混的电平信息,并基于所述已下混的电平信息而从所述下混信号(115)提取所述直接信号部分(125-1)或所述周围信号部分(125-2)。
2.根据权利要求1所述的装置,其中,所述直接/周围提取器(420)进一步被构造为通过组合具有相干性总和的所述直接部分的所述估算的直接电平信息与具有非相干性总和的所述周围部分的所述估算的周围电平信息,来执行所述直接部分的所述估算的直接电平信息或所述周围部分的所述估算的周围电平信息的下混。
3.根据权利要求1所述的装置,其中,所述直接/周围提取器(420)进一步被构造为从所述直接部分或所述周围部分的所述已下混的电平信息(555-1,555-2)中导算出增益参数(565-1,565-2),并将所述导算出的增益参数(565-1,565-2)施加至所述下混信号(115)来获得所述直接信号部分(125-1)或所述周围信号部分(125-2)。
4.根据权利要求3所述的装置,其中,所述直接/周围提取器(420)进一步被构造为根据所述直接部分或所述周围部分的所述已下混的电平信息(555-1,555-2)来测定一直接对总能比或周围对总能比,并使用基于所测定的直接对总能比或周围对总能比的提取参数作为所述增益参数(565-1,565-2)。
5.根据权利要求1所述的装置,其中,所述直接/周围提取器(420)被构造为通过将一M×M平方提取矩阵施加至所述下混信号(115)来提取所述直接信号部分(125-1)或所述周围信号部分(125-2),其中,所述M×M平方提取矩阵的大小(M)与下混声道(Ch1…ChM)的数目(M)相对应。
6.根据权利要求5所述的装置,其中,所述直接/周围提取器(420)进一步被构造为将一第一多个提取参数施加至所述下混信号(115)来获得所述直接信号部分(125-1),并将一第二多个提取参数施加至所述下混信号(115)来获得所述周围信号部分(125-2),所述第一多个提取参数和所述第二多个提取参数组成一对角线矩阵。
7.根据权利要求1所述的装置,其中,所述直接/周围估算器(110)被构造为基于所述空间参数信息(105)和由所述直接/周围估算器(110)所接收的所述下混信号(115)的至少二个下混声道(825),来估算所述多声道音频信号(101)的所述直接部分的所述直接电平信息或用于估算所述多声道音频信号(101)的所述周围部分的周围电平信息。
8.根据权利要求1所述的装置,其中,所述直接/周围估算器(710)被构造为针对所述多声道音频信号(101)的各声道(Chi)通过使用所述空间参数信息(105)来施加一立体声周围估算式,其中,所述立体声周围估算式由下式给定
DTTi=fDTT[σ(Chi,R),ICCi(Chi,R)]
ATTi=1-DTTi
所述式取决于声道电平差(CLDi)和声道Chi的声道间相干性(ICCi)参数,所述声道电平差为σi的分贝值,其中,R为其余声道的线性组合,并且其中,DTTi和ATTi分别为直接对总能比和周围对总能比,i为声道指数。
9.根据权利要求1所述的装置,其中,所述直接/周围提取器(420)被构造为由使用声道交混的最小均方解来提取所述直接信号部分(125-1)或所述周围信号部分(125-2),所述最小均方解不要求相等的周围电平。
10.根据权利要求8所述的装置,其中,所述直接/周围提取器(420)被构造为通过假设一信号模型导算出最小均方解,使得所述最小均方解不限于一立体声道下混信号。
11.根据权利要求1所述的装置,其中,所述装置还包含:
一双耳直接声音呈现装置(910),用于处理所述直接信号部分(125-1)来获得一第一双耳输出信号(915);
一双耳周围声音呈现装置(1010),用于处理所述周围信号部分(125-2)来获得一第二双耳输出信号(1015);以及
一组合器(1130),用于组合所述第一双耳输出信号(915)和所述第二双耳输出信号(1015)来获得一经组合的双耳输出信号(1135)。
12.根据权利要求11所述的装置,其中,所述双耳周围声音呈现装置(1010)被构造为将一室内效果和/或一滤波器施加至所述周围信号部分(125-2)来提供所述第二双耳输出信号(1015),所述第二双耳输出信号(1015)适用于实际扩散声场的双耳间相干性。
13.根据权利要求11所述的装置,其中,所述双耳直接声音呈现装置(910)被构造为基于头部相关传递函数(HRTF)通过滤波器馈送所述直接信号部分(125-1)来获得所述第一双耳输出信号(915)。
14.一种用于从一下混信号(115)和一空间参数信息(105)提取一直接和/或周围信号(125-1,125-2)的方法(100),所述下混信号(115)和所述空间参数信息(105)表示比所述下混信号(115)具有更多声道(Ch1…ChN)的一多声道音频信号(101),其中,所述空间参数信息(105)包含所述多声道音频信号(101)的声道间关系式,所述方法(100)包含:
基于所述空间参数信息(105)来估算(110)所述多声道音频信号(101)的一直接部分的一直接电平信息和/或估算(110)所述多声道音频信号(101)的一周围部分的一周围电平信息;以及
基于所述直接部分的所述估算的直接电平信息或基于所述周围部分的所述估算的周围电平信息,从所述下混信号(115)提取(420)直接信号部分(125-1)和/或周围信号部分(125-2),
其中,所述提取包括下混所述直接部分的所述估算的直接电平信息或所述周围部分的所述估算的周围电平信息来获得所述直接部分或所述周围部分的已下混的电平信息,并基于所述已下混的电平信息而从所述下混信号(115)提取所述直接信号部分(125-1)或所述周围信号部分(125-2)。
15.一种用于从下混信号(115)和一空间参数信息(105)提取一直接和/或周围信号(125-1,125-2)的装置(100),所述下混信号(115)和所述空间参数信息(105)表示比所述下混信号(115)具有更多声道(Ch1…ChN)的一多声道音频信号(101),其中,所述空间参数信息(105)包含所述多声道音频信号(101)的声道间关系式,所述装置(100)包含:
一直接/周围估算器(110),用于基于所述空间参数信息(105)估算所述多声道音频信号(101)的一直接部分的一直接电平信息和/或用于估算所述多声道音频信号(101)的一周围部分的一周围电平信息;以及
一直接/周围提取器,用于基于所述直接部分的所述估算的直接电平信息或基于所述周围部分的所述估算的周围电平信息而从所述下混信号(115)提取所述直接信号部分(125-1)和/或所述周围信号部分(125-2),
其中,所述直接/周围估算器(110)被构造为基于所述空间参数信息(105)和由所述直接/周围估算器(110)接收的所述下混信号(115)的至少两个下混声道(825)估算所述多声道音频信号(101)的所述直接部分的所述直接电平信息或所述多声道音频信号(101)的所述周围部分的所述周围电平信息。
16.一种用于从一下混信号(115)和一空间参数信息(105)提取一直接和/或周围信号(125-1,125-2)的方法(100),所述下混信号(115)和所述空间参数信息(105)表示比所述下混信号(115)具有更多声道(Ch1…ChN)的一多声道音频信号(101),其中,所述空间参数信息(105)包含所述多声道音频信号(101)的声道间关系式,所述方法(100)包含:
基于所述空间参数信息(105)估算(110)所述多声道音频信号(101)的一直接部分的一直接电平信息和/或估算(110)所述多声道音频信号(101)的一周围部分的一周围电平信息;以及
基于所述直接部分的所述估算的直接电平信息或基于所述周围部分的所述估算的周围电平信息而从所述下混信号(115)提取(120)所述直接信号部分(125-1)和/或所述周围信号部分(125-2),
其中,所述估算(110)包括基于所述空间参数信息(105)和所述下混信号(115)的至少两个下混声道(825)估算所述多声道音频信号(101)的所述直接部分的所述直接电平信息或所述多声道音频信号(101)的所述周围部分的所述周围电平信息。
CN201180014038.9A 2010-01-15 2011-01-11 用于从下混信号和空间参数信息提取直接/周围信号的装置及方法 Active CN102804264B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US29527810P 2010-01-15 2010-01-15
US61/295,278 2010-01-15
EP10174230A EP2360681A1 (en) 2010-01-15 2010-08-26 Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
EP10174230.2 2010-08-26
PCT/EP2011/050265 WO2011086060A1 (en) 2010-01-15 2011-01-11 Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information

Publications (2)

Publication Number Publication Date
CN102804264A CN102804264A (zh) 2012-11-28
CN102804264B true CN102804264B (zh) 2016-03-09

Family

ID=43536672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180014038.9A Active CN102804264B (zh) 2010-01-15 2011-01-11 用于从下混信号和空间参数信息提取直接/周围信号的装置及方法

Country Status (14)

Country Link
US (1) US9093063B2 (zh)
EP (2) EP2360681A1 (zh)
JP (1) JP5820820B2 (zh)
KR (1) KR101491890B1 (zh)
CN (1) CN102804264B (zh)
AR (1) AR079998A1 (zh)
AU (1) AU2011206670B2 (zh)
BR (1) BR112012017551B1 (zh)
CA (1) CA2786943C (zh)
ES (1) ES2587196T3 (zh)
MX (1) MX2012008119A (zh)
RU (1) RU2568926C2 (zh)
TW (1) TWI459376B (zh)
WO (1) WO2011086060A1 (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102696070B (zh) * 2010-01-06 2015-05-20 Lg电子株式会社 处理音频信号的设备及其方法
TWI759223B (zh) * 2010-12-03 2022-03-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9253574B2 (en) 2011-09-13 2016-02-02 Dts, Inc. Direct-diffuse decomposition
IN2014CN03413A (zh) * 2011-11-01 2015-07-03 Koninkl Philips Nv
JP2015534116A (ja) * 2012-09-14 2015-11-26 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
WO2014126689A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
KR101703333B1 (ko) 2013-03-29 2017-02-06 삼성전자주식회사 오디오 장치 및 이의 오디오 제공 방법
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
CN105493182B (zh) * 2013-08-28 2020-01-21 杜比实验室特许公司 混合波形编码和参数编码语音增强
KR101805327B1 (ko) 2013-10-21 2017-12-05 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
ES2755349T3 (es) 2013-10-31 2020-04-22 Dolby Laboratories Licensing Corp Renderización binaural para auriculares utilizando procesamiento de metadatos
CN103700372B (zh) * 2013-12-30 2016-10-05 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法
EP2892250A1 (en) 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels
WO2016066743A1 (en) 2014-10-31 2016-05-06 Dolby International Ab Parametric encoding and decoding of multichannel audio signals
EP3257270B1 (en) * 2015-03-27 2019-02-06 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing stereo signals for reproduction in cars to achieve individual three-dimensional sound by frontal loudspeakers
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
CN105405445B (zh) * 2015-12-10 2019-03-22 北京大学 一种基于声道间传递函数的参数立体声编码、解码方法
PL3338462T3 (pl) 2016-03-15 2020-03-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie, sposób lub program komputerowy do generowania opisu pola dźwięku
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
JP6846822B2 (ja) * 2016-04-27 2021-03-24 国立大学法人富山大学 オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10306391B1 (en) 2017-12-18 2019-05-28 Apple Inc. Stereophonic to monophonic down-mixing
WO2020009350A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 오클루션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치
WO2020008112A1 (en) 2018-07-03 2020-01-09 Nokia Technologies Oy Energy-ratio signalling and synthesis
EP3618464A1 (en) * 2018-08-30 2020-03-04 Nokia Technologies Oy Reproduction of parametric spatial audio using a soundbar
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
GB2578603A (en) * 2018-10-31 2020-05-20 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
FI3874492T3 (fi) 2018-10-31 2024-01-08 Nokia Technologies Oy Spatiaalisten äänten parametrikoodauksen ja siihen liittyvän dekoodauksen määrittäminen
CN114402631B (zh) * 2019-05-15 2024-05-31 苹果公司 用于回放捕获的声音的方法和电子设备
WO2024081957A1 (en) * 2022-10-14 2024-04-18 Virtuel Works Llc Binaural externalization processing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1264264A (zh) * 2000-02-14 2000-08-23 王幼庚 耳前声波记录生成空间声信号的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL129752A (en) * 1999-05-04 2003-01-12 Eci Telecom Ltd Telecommunication method and system for using same
US7567845B1 (en) 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1761110A1 (en) 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
DE602006021347D1 (de) * 2006-03-28 2011-05-26 Fraunhofer Ges Forschung Verbessertes verfahren zur signalformung bei der mehrkanal-audiorekonstruktion
US8103005B2 (en) 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
KR101271972B1 (ko) * 2008-12-11 2013-06-10 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 다채널 오디오 신호를 생성하기 위한 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1264264A (zh) * 2000-02-14 2000-08-23 王幼庚 耳前声波记录生成空间声信号的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-channel goes mobile:MPEG Surround binaural rendering;JEROEN BREEBAART et al;《PROC.29TH AES CONFERENCE,SEOUL,KOREA》;20060904;说明书第5-9页 *

Also Published As

Publication number Publication date
KR101491890B1 (ko) 2015-02-09
RU2568926C2 (ru) 2015-11-20
ES2587196T3 (es) 2016-10-21
BR112012017551A2 (pt) 2017-10-03
EP2360681A1 (en) 2011-08-24
US20120314876A1 (en) 2012-12-13
AU2011206670A1 (en) 2012-08-09
TW201142825A (en) 2011-12-01
RU2012136027A (ru) 2014-02-20
BR112012017551B1 (pt) 2020-12-15
EP2524370A1 (en) 2012-11-21
AR079998A1 (es) 2012-03-07
TWI459376B (zh) 2014-11-01
CN102804264A (zh) 2012-11-28
US9093063B2 (en) 2015-07-28
CA2786943A1 (en) 2011-07-21
CA2786943C (en) 2017-11-07
JP5820820B2 (ja) 2015-11-24
MX2012008119A (es) 2012-10-09
JP2013517518A (ja) 2013-05-16
AU2011206670B2 (en) 2014-01-23
KR20120109627A (ko) 2012-10-08
EP2524370B1 (en) 2016-07-27
WO2011086060A1 (en) 2011-07-21

Similar Documents

Publication Publication Date Title
CN102804264B (zh) 用于从下混信号和空间参数信息提取直接/周围信号的装置及方法
CN101160618B (zh) 用于空间音频参数编码的紧凑辅助信息
RU2409911C2 (ru) Декодирование бинауральных аудиосигналов
US20180359588A1 (en) Compatible multi-channel coding/decoding
US9449603B2 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
EP1817768B1 (en) Parametric coding of spatial audio with cues based on transmitted channels
CN101406074B (zh) 解码器及相应方法、双耳解码器、包括该解码器的接收机或音频播放器及相应方法
CN101553867B (zh) 用于处理音频信号的方法和装置
CN101853660A (zh) 用于双声道提示码编码方案和类似方案的散射声音整形
JP2013251919A (ja) 多チャンネルオーディオ信号処理装置、多チャンネルオーディオ信号処理方法、圧縮効率向上方法及び多チャンネルオーディオ信号処理システム
KR20070091587A (ko) 스테레오 신호 생성 방법 및 장치
He et al. Literature review on spatial audio
CN104205211B (zh) 多声道音频编码器以及用于对多声道音频信号进行编码的方法
MX2008011994A (es) Generacion de mezclas descendentes espaciales a partir de representaciones parametricas de señales de multicanal.
Dubey et al. A Novel Very Low Bit Rate Multi-Channel Audio Coding Scheme Using Accurate Temporal Envelope Coding and Signal Synthesis Tools

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Munich, Germany

Applicant after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant