CN101002505A - 利用听觉场景分析组合音频信号 - Google Patents

利用听觉场景分析组合音频信号 Download PDF

Info

Publication number
CN101002505A
CN101002505A CNA2005800261496A CN200580026149A CN101002505A CN 101002505 A CN101002505 A CN 101002505A CN A2005800261496 A CNA2005800261496 A CN A2005800261496A CN 200580026149 A CN200580026149 A CN 200580026149A CN 101002505 A CN101002505 A CN 101002505A
Authority
CN
China
Prior art keywords
sound channel
channel
sound
channels
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800261496A
Other languages
English (en)
Other versions
CN101002505B (zh
Inventor
迈克尔·J·斯密斯尔思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=35115846&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN101002505(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN101002505A publication Critical patent/CN101002505A/zh
Application granted granted Critical
Publication of CN101002505B publication Critical patent/CN101002505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/16Circuits
    • H04B1/20Circuits for coupling gramophone pick-up, recorder output, or microphone to receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Complex Calculations (AREA)
  • Holo Graphy (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Current Or Voltage (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

本发明提供了一种用于组合音频声道的方法,其组合音频声道以产生组合后的音频声道,并且对声道、对组合后的声道或者对声道和组合后的声道二者动态地应用时间、相位和幅度或功率调整中的一个或多个。至少部分地由一个或多个声道和/或组合后的声道中的听觉事件的量度控制调整中的一个或多个。应用包括在电影院和车辆中呈现多声道音频。不仅包括方法、而且包括相应的计算机程序实现和装置。

Description

利用听觉场景分析组合音频信号
技术领域
本发明涉及改变多声道音频信号中的声道数,其中音频声道中的一些被组合。应用包括在电影院和车辆中呈现多声道音频。本发明不仅包括方法,而且还包括相应的计算机程序实现和装置实现。
背景技术
在过去几十年中,多声道音频资料的生产、销售和呈现已经有不断增加的增长。该增长主要是由其中5.1声道重放系统几乎无处不在的电影行业以及最近由开始生产5.1多声道音乐的音乐行业推动的。
典型地,通过具有与资料相同数量的声道的重放系统呈现这种音频资料。例如,5.1声道电影声带可以在5.1声道电影院中或者通过5.1声道家庭影院音频系统被呈现。但是,越来越多地期望在不具有与音频资料中相同数量的声道的系统上或环境中播放多声道资料—例如,在只有两个或四个重放声道的车辆中重放5.1声道资料,或者在只配备有5.1声道系统的电影院中重放大于5.1声道电影声道。在这种情况下,需要组合或“缩混(downmix)”多声道信号中一些或所有声道用于呈现。
声道的组合可能产生可听人造缺陷(artifact)。例如,一些频率分量可能消除,而其它频率分量增强或变得更高声。最一般地,这是在由于正被组合的两个或更多声道中存在相似或相关音频信号分量。
本发明的目的是最小化或抑制由于组合声道而产生的人造缺陷。其它目的将在阅读和理解本文档时被了解。
应该注意,声道的组合可能被需要用于其它目的,而不只是用于声道数量的减少。例如,可能需要创建作为多声道信号中两个或更多原始信道的某种组合的附加重放声道。这可以被表现为结果比声道原始数量更多的“上混”类型。因此,不管在“缩混”还是在“上混”的情形中,组合声道以创建附加声道都可能导致可听的人造缺陷。
用于最小化混合或声道组合人造缺陷的常见技术包括例如对将被组合的声道、对所得到的组合后的声道或者对二者应用时间、相位和幅度(或功率)调整中的一个或多个。音频信号本身是动态的——即,它们的特性随时间改变。因此,典型地以动态方式计算和应用对音频信号的这种调整。在消除由于组合所导致的一些人造缺陷的同时,这种动态处理可能引发其它人造缺陷。为了最小化这种动态处理人造缺陷,本发明利用听觉场景分析,使得总体上,动态处理调整在听觉场景或事件期间被基本保持恒定,并且这种调整的变化只在听觉场景或事件边界处或附近被允许。
听觉场景分析
将声音分成被感知为隔离开的单元有时被称作“听觉事件分析”或“听觉场景分析”(“ASA”)。Albert S.Bregman在他的书AuditoryScene Analysis-The Perceptual Organization of Sound,Massachusetts Institute of Technology,1991,Fourth printing,2001,Second MIT Press paperback edition中对听觉场景进行了详细讨论。
用于根据听觉场景分析识别听觉事件(包括事件边界)的技术在2003年11月20日提交的Brett G.Crockett的标题为“SegmentingAudio Signals into Auditory Events”、案卷号DOL098US的美国专利申请S.N.10/478,538中给出,该申请是2002年2月2日提交的指定美国的、在2002年12月5日被公开为WO 02/097792的国际申请PCT/US02/05999的相应美国国家申请。所述申请在此通过引用被整体包含。所述Crockett申请的听觉事件识别技术的某些应用在2003年11月20日提交的Brett G.Crockett和Michael J.Smithers的标题为“Comparing Audio Using Characterizations Based on AuditoryEvents”、案卷号DOL092US的美国专利申请S.N.10/478,397以及在2003年11月20日提交的Brett G.Crockett和Michael J.Smithers的标题为“Method for Time Aligning Audio Signals UsingCharacterizations Based on Auditory Events”、在2004年7月29日被公开为US 2004/0148159 A1、案卷号DOL09201US的美国专利申请S.N.10/478,398中给出,上述两个申请分别是由2002年2月22日提交的指定美国的、在2002年12月5日被公开为WO 02/097790的国际申请PCT/US02/05329得到的美国国家申请和由2002年2月25日提交的指定美国的、在2002年12月5日被公开为WO 02/097791的国际申请PCT/US02/05806得到的美国国家申请。所述Crockett和Smithers的申请中每一个也在此通过引用被整体包含。
虽然在所述Crockett和Crockett/Smithers申请中所描述的技术与本发明的方面结合是特别有用的,但是用于识别听觉事件和事件边界的其它技术也可以被利用在本发明的方面中。
发明内容
根据本发明的一个方面,一种用于组合音频声道的过程,包括组合音频声道以产生组合后的音频声道,以及对声道、对组合后的声道或者对声道和组合后的声道两者动态地应用时间、相位和幅度或功率调整中的一个或多个,其中,所述调整中的一个或多个至少部分地由一个或多个声道和/或组合后的声道中听觉事件的量度控制。调整可以被控制,以在听觉事件期间保持基本恒定以及允许在听觉事件边界处或附近的变化。
本发明的主要目的是改善组合后的音频信号的声音质量。这可以例如通过对音频信号不同地进行时间、相位和/或幅度(或功率)校正以及通过至少部分地用听觉场景分析信息的量度控制这种校正来实现。根据本发明的方面,被应用于音频信号的调整一般地可以在听觉事件期间被保持相对恒定并且被允许在听觉事件之间的转变或边界处或附近的变化。当然,这种调整不需要如每个边界那样频繁地出现。这种调整的控制可以响应于每个声道中的听觉事件信息而基于逐个声道地被实现。或者,这种调整中的一些或全部可以响应于已经在所有声道或少于所有的声道上被组合的听觉事件信息被实现。
本发明的其它方面包括用于与上述过程以及本申请中所描述的其它过程的计算机程序实现一起来执行所述过程的装置或设备。
附图说明
图1是本发明一般实施例的功能示意框图。
图2是体现本发明方面的音频信号处理或处理方法的功能示意框图。
图3是更详细地示出图2的时间和相位校正202的功能示意框图。
图4是更详细地示出图2的混合声道206的功能示意框图。
图5a是示出白噪声信号的幅度谱的理想化响应。图5b是示出通过将由白噪声组成的第一声道与第二信号简单组合而得到的幅度谱的理想化响应,其中第二信号是相同的白噪声信号,只是在时间上被延迟大约毫秒的若干分之一。在图5a和5b中,水平轴是单位为赫兹的频率,竖轴是单位为分贝(dB)的相对电平。
图6是根据本发明方面从三声道到二声道的缩混的功能示意框图。
图7a和7b是示出在诸如电影院礼堂的房间中两组音频声道的空间位置的理想化表示。图7a示出了多声道音频信号的“内容”声道的近似空间位置,而图7b示出了在被配备用于播放五声道音频资料的电影院中“重放”的近似空间位置。
图7c是根据本发明方面的十声道到五声道缩混的功能示意框图。
具体实施方式
本发明的一般化实施例在图1中示出,其中音频声道组合器或组合过程100被示出。多个音频输入声道,P个输入声道101-1到101-P被提供给声道组合器或组合功能(“组合声道”)102以及听觉场景分析器或分析功能(“听觉场景分析”)103。可以有两个或更多将被组合的输入声道。声道1到P可以构成一组输入声道的一部分或全部。组合声道102组合被提供给它的声道。虽然这种组合可以是例如线性相加组合,但是组合技术对本发明不重要。除了组合被提供给它的声道之外,组合声道102还对将被组合的声道、对所得到的组合后的声道、或者对将被组合的声道和所得到的组合后的声道两者应用时间、相位和幅度或功率调整中的一个或多个。这种调整可能是通过减少混合或声道组合人造缺陷而为了改善声道组合质量的目的而做出的。具体的调整技术对本发明不重要。用于组合和调整的适当技术的实例在2004年3月1日提交的Mark Franklin Davis的标题为“Low Bit Rate AudioEncoding and Decoding in Which Multiple Channels Are Representedby a Monophonic Channel and Auxiliary Information”、案卷号为DOL11501的美国临时专利申请S.N.60/549,368;2004年6月14日提交的Mark Franklin Davis等人的标题为“Low Bit Rate AudioEncoding and Decoding in Which Multiple Channels Are Representedby a Monophonic Channel and Auxiliary Information”、案卷号为DOL11502的美国临时申请S.N.60/579,974;以及2004年7月14日提交的Mark Franklin Davis等人的标题为“Low Bit Rate AudioEncoding and Decoding in Which Multiple Channels Are Representedby a Monophonic Channel and Auxiliary Information”、案卷号为DOL11503的美国临时申请S.N.60/588,256中给出。Davis和Davis等人的所述三个临时申请中每一个在此通过引用被整体包含。听觉场景分析103例如根据在上述申请中一个或多个中所描述的技术或者通过某种其它合适的听觉场景分析器或分析过程而得到听觉场景信息。应该至少包括听觉事件之间边界位置的这种信息104被提供给组合声道102。所述调整中的一个或多个至少部分地被将被组合的一个或多个声道和/或所得到的组合后的声道中听觉事件的量度控制。
图2示出了体现本发明方面的音频信号处理器或处理方法200的实例。将被组合的来自多个音频声道1到P的信号101-1到101-P,被提供给时间和/或相位校正设备或过程(“时间和相位校正”)202以及听觉场景分析设备或过程(“听觉场景分析”)103,如结合图1所描述的。声道1到P可以构成一组输入声道的一部分或全部。听觉场景分析103得到听觉场景信息104,并将其提供给时间和相位校正202,时间和相位校正202对将被组合的声道中每一个单独应用时间和/或相位校正,如下面结合图3所描述的。校正后的声道205-1到205-P然后被提供给声道混合设备或过程(“混合声道”)206,其组合声道以创建单个输出声道207。可选地,混合声道206还可以由听觉场景分析信息104控制,如下面进一步所描述的。体现如图1和2的实例中的本发明方面的音频信号处理器或处理方法还可以组合声道1到P中不同声道以产生多于一个的输出声道。
听觉场景分析103(图1和2)
听觉场景分析研究已经显示,耳朵使用多个不同的听觉提示(auditory cue)来识别所感知的听觉事件的开始和结束。如上述申请中所教导的那样,最有力的提示之一是音频信号的谱内容变化。对于每个输入声道,听觉场景分析103以限定的时间间隔对每个声道1到P的音频进行谱分析,以创建信号的频率表示序列。以上述申请中所描述的方式,连续表示可以被比较,以找到谱内容中大于阈值的变化。找到这种变化就表示这对连续频率表示之间的听觉事件边界,大约指出一个听觉事件的结尾和另一听觉事件的开头。每个输入声道的听觉事件边界的位置被输出作为听觉场景分析信息104的分量。虽然这可以以在上述申请中所描述的方式实现,但是听觉事件和它们的边界可以通过其它合适的技术被检测。
听觉事件是所感知的、在整个事件过程中具有基本保持恒定的特性的声音单元。如果诸如可以被用在本发明实施例中的时间、相位和/或幅度(或功率)调整在听觉事件内变化很大,则这种调整的效果可能变为可听的,从而构成不期望的人造缺陷。通过将调整在整个事件期间保持为恒定并且只改变充分靠近事件边界的调整,听觉事件的相似性没有被破坏,并且变化可能被隐藏在音频内容中的固有地表示事件边界的更明显的变化中。
理想地,根据本发明的方面,声道组合或“缩混”参数应该被允许只在听觉事件边界处改变,使得在事件内没有动态改变发生。但是,用于检测听觉事件的实际系统典型地在数字域中操作,其中在数字域中,时域中的数字音频采样块被转变成频域,使得听觉事件边界的时间分辨率(time resolution)具有相当粗糙的时间分辨率,该分辨率与数字音频采样的块长度相关。如果该分辨率被选择(以块长度与频率分辨率之间的折中)用于产生对实际事件边界的有用近似,也就是说,如果分辨率产生足够靠近从而错误不会被听者感知到的近似边界,则为了根据本发明的动态缩混的目的,不使用未知的实际边界而使用由块边界所提供的近似就足够了。因此,根据上述Crockett申请中的实例,事件边界可以被确定为在块长度的一半内,或者在利用44.1kHz采样率的系统中对于512采样块长度的实例为大约5.8毫秒。
在本发明方面的一个实际实现中,每个输入声道是离散时域音频信号。该离散信号可以被分为大约10.6毫秒的重叠块,其中重叠为大约5.3毫秒。对于48kHz的音频采样率,这等同于512个采样块中256个采样与前面的块重叠。每一块可以被使用例如汉宁窗而开窗口,并且被利用例如离散傅立叶变换(为了速度被实现为快速傅立叶变换)而转变到频域中。为每个谱值计算单位为分贝(dB)的功率,然后谱被归一化到最大的dB谱值。不重叠或部分重叠的块可以被用于减少计算成本。此外,其它窗函数可能被使用,但是,汉宁窗已经被发现非常适合于本申请。
如上述Crockett的申请中所描述的那样,可以将用于当前块的归一化频谱与来自下一在先块的归一化谱比较,以得到它们差别的量度。具体地,可以通过对当前和下一在先谱的dB谱值的绝对差值求和来计算单个差别量度。
这种差别量度然后可以被与阈值相比教。如果差别量度大于阈值,则表示事件边界在当前和在先块之间,否则表示在当前和在先块之间没有事件边界。已经发现该阈值的合适的值是2500(单位为dB)。这样,可以在大约块的一半的精确度内确定事件边界。
这种阈值方法能够被应用于其中每个子带具有不同差别量度的频率子带。但是,在本发明的上下文中,考虑到人类在任何时刻集中于一个事件的感知能力,基于全带宽音频的单个量度是足够的。
用于每个声道1到P的听觉事件边界信息被输出作为听觉场景分析信息104的分量。
时间和相位校正202(图2)
时间和相位校正202寻找输入声道对之间的高相关性和时间或相位差。图3更详细地示出了时间和相位校正202。如下面解释的,每对中的一个声道是基准声道。一个合适的相关性检测技术在下面描述。其它合适的相关性检测技术可以被利用。当高相关性存在于非基准声道与基准声道之间时,设备或过程试图通过修改非基准声道的相位或时间特性来减小声道对之间的相位或时间差,从而减少或消除否则可能由于该对声道的组合而导致的可听声道组合人造缺陷。这种人造缺陷中的一些可以通过实例的方式描述。图5a示出了白噪声信号的幅度谱。图5b示出了通过将由白噪声组成的第一声道与第二信号简单组合而得到的幅度谱,其中第二信号是相同的白噪声信号,只是在时间上被延迟大约0.21毫秒。白噪声信号的未被延迟和被延迟版本的组合具有共同被称为梳状滤波的抵消和谱整形(spectral shaping),以及对每个输入信号的白噪声非常不同的可听声音。
图3示出了用于消除相位或时间延迟的合适设备或方法300。来自每个输入音频声道的信号101-1到101-P被提供给延迟计算设备或过程(“计算延迟”)301,其输出用于每个声道的延迟指示信号302。可以具有用于每个声道1到P的分量的听觉事件边界信息104被包括临时存储设备或过程(“保持”)303的设备或过程用于有条件地更新分别被每个声道的延迟设备或功能(“延迟”)305-1到305-P使用的延迟信号304-到304-P,以产生输出声道306-1到306-P。
计算延迟301(图3)
计算延迟301测量输入声道对之间的相对延迟。一个优选方法是首先从输入声道中选择基准声道。该基准可以是固定的或者它可以随事件改变。允许基准声道改变就克服了例如无声基准声道(silentreference channel)的问题。如果基准声道变换,则它可能例如由声道响度确定(例如,最响的是基准)。如前面所提到的,用于每个输入声道的输入音频信号可以被分为重叠大约5.3毫秒的长度大约10.6毫秒的重叠块。对于48kHz的音频采样率,这等同于512个采样块中256个采样与前面的块重叠。
可以使用任何合适的交叉相关(cross-correlation)方法计算每一个非基准声道与基准声道之间的延迟。例如,设S1(长度N1)是来自基准声道的采样块,而S2(长度N2)是来自非基准声道中一个的采样块。首先计算交叉相关阵列R1,2
R 1,2 ( 1 ) = Σ n = - ∞ ∞ S 1 ( n ) . S 2 ( n - 1 ) l=0,±1,±2,....    (1)
可以利用基于标准FFT的技术执行交叉相关以减少执行时间。因为S1和S2在长度上是有限的,所以R1,2的非零分量具有N1+N2-1的长度。与R1,2中最大元素相对应的滞后l代表S2相对于S1的延迟。
lpeak=lfor MAX[R1,2(l)]    (2)
该滞后或延迟具有与阵列S1和S2相同的采样单位。
利用一阶无限冲击响应滤波器对当前块的交叉相关结果与来自在先块的交叉相关结果进行时间平滑,以创建平滑后的交叉相关Q1,2。下面的等式示出了滤波器计算,其中m指代当前块,m-1指代在先块。
Q1,2(l,m)=α×R1,2(l)+(1-α)×Q1,2(l,m-1)    l=0,±1,±2,....    (3)
已经发现α的有用值是0.1。对于交叉相关R1,2,与Q1,2中最大元素相对应的滞后l代表S2相对于S1的延迟。每个非基准声道的滞后或延迟被输出作为信号302的信号分量。零值也可以输出作为信号302的分量,代表基准声道的延迟。
可以被测量的延迟范围与音频信号块大小成比例。也就是,块大小越大,可以利用该方法测量的延迟范围就越大。
保持303(图3)
当经由ASA信息104为声道指示事件边界时,保持303将用于该声道的延迟值从302复制到相应的输出声道延迟信号304。当没有事件边界被指示时,保持303维持上一个延迟值304。以这种方式,时间对准变化出现在事件边界处,并且因此更不可能导致可听的人造缺陷。
延迟305-1到305-P(图3)
因为延迟信号304可以是正或负,所以延迟305-1到305-P中每一个缺省地都可以被实现以将每个声道延迟可以由计算延迟301所计算的绝对最大延迟。因此,延迟305-1到305-P每一个中的总采样延迟是各个输入延迟信号304-1到304-P与延迟缺省量的和。这允许信号302和304是正或负,其中负表示声道在时间上比基准声道靠前。
当输入延迟信号304-1到304-P中任何一个改变值时,可能必须消除或复制采样。优选地,以不引发可听人造缺陷的方式执行。这种方法可以包括重叠和平滑转换(crossfading)采样。或者,因为输出信号306-1到306-P可能被提供给滤波器组(见图4),组合延迟和滤波器组使得延迟控制被提供给滤波器组的采样的对准可能是有用的。
或者,更复杂的方法可以测量和校正各个频段或频段组的时间或相位差。在这种更复杂的方法中,计算延迟301和延迟305-1到305-P可以在频域中操作,在这种情况下,延迟305-1到305-P对频带或子带执行相位调整,而不是在时域中的延迟。在这种情况下,信号306-1到306-P已经在频域中,从而不需要随后的滤波器组401(图4,如下面所描述的)。
设备或过程中的一些、诸如计算延迟301和听觉场景分析103可能预先访问音频声道,以提供将被应用到事件内的更精确的事件边界估计和时间或相位校正。
混合声道206(图2)
图2的混合声道206的细节被示为图4中的设备或过程400,图4示出了输入声道可以如何通过功率校正被组合以创建被缩混后的输出声道。除了混合或组合声道之外,该设备或过程可以对没有被图2中的时间和相位校正203完全校正的剩余频率相消进行校正。它还用于保持功率守恒。换句话说,混合声道206试图确保输出缩混信号414(图4)的功率基本上与被时间或相位调整的输入声道205-1到205-P的功率之和相同。而且,它可以试图确保被缩混后的信号的每个频带中的功率基本上是各个被时间或相位调整的输入声道的相应频带的功率之和。过程通过将来自被缩混后的声道的频带功率与来自输入声道的频带功率相比较并且随后计算每个频带的增益校正值来实现这一点。因为时间和频率两者上增益调整的变化可能导致可听的人造缺陷,所以增益优选地在被提供给被缩混后的信号之前被进行时间和频率两者的平滑。该设备或过程代表组合声道的一个可能途径。其它合适的设备或过程可以被利用。具体的组合设备或过程对本发明不重要。
滤波器组(“FB”)401-1到401-P(图4)
每个输入声道的输入音频信号是时域信号,并且可以已经被分成重叠大约5.3毫秒的长度大约10.6毫秒的重叠块,如前面所提到的。对于48kHz的音频采样率,这等同于512个采样块中256个采样与前面的块重叠。采样块可以由滤波器组401-1到401-P(每个输入信号一个滤波器组)被开窗口并被转变到频域。虽然可以使用各种窗口类型中任何一种,但是已经发现汉宁窗是合适的。虽然可以使用各种时域到频域转换器或转换过程中任何一个,但是合适的转换器或转换方法可以使用离散傅立叶变换(为了速度被实现为快速傅立叶变换)。每个滤波器组的输出是各自的复谱值(complex spectral value)阵列402-1到402-P—每个频带(或箱(bin))一个值。
频带(“BND”)功率403-1到403-P(图4)
对于每个声道,频带功率计算器或计算过程(“BND功率”)403-1到403-P分别估算或计算复谱值402-1到402-P的功率,并输出它们作为各个功率谱404-1到404-P。来自每个声道的功率谱值在相加组合器或组合功能415中被相加,以创建新的组合后的功率谱405。来自每个声道的相应复谱值402-1到402-P也在相加组合器或组合功能416中被相加,以创建缩混复谱406。缩混复谱406的功率在另一功率计算器或计算过程(“BND功率”)403中被计算并被输出作为缩混功率谱407。
频带(“BND”)增益408(图4)
频带增益计算器或计算过程(频带增益408)通过缩混功率谱407划分功率谱405,以创建功率增益或功率比率(power ratio)的阵列,每个谱值一个。如果缩混功率谱值为零(使功率增益为无限),则相应的功率增益被设定为“1”。然后计算功率增益的平方根,以创建幅度增益409阵列。
限制、时间和频率平滑410(图4)
限制器和平滑器或者限制和平滑功能(限制、时间和频率平滑)410执行合适的增益限制和时间/频率平滑。上面刚讨论的谱幅度增益可以具有很广的范围。如果增益被保持在有限范围内,则可以获得最佳结果。例如,如果任何增益大于上限阈值,则它被设定为等于上限阈值。同样,例如,如果任何增益小于下限阈值,则它被设定为等于下限阈值。有用的阈值是0.5和2.0(相当于±6dB)。
然后可以利用一阶无限冲击响应(IIR)滤波器对谱增益进行时间平滑。下面的等式示出了滤波器计算,其中b指代谱频带索引,B指代总频带数,n指代当前块,n-1指代在先块,G指代未被平滑的增益,Gs指代时间平滑增益。
Gs(b,n)=δ(b)×G(b)+(1-δ(b))×Gs(b,n-l)    b=0,..,B-l    (4)
已经被发现,除了低于大约200Hz的频带,δ(b)的有用值是0.5。低于该频率,δ(b)趋向在频带b=0或DC处为零的最终值。如果平滑后的增益Gs被初始化成1.0,则DC处的值保持等于1.0。即,DC将永远不被增益调整,并且低于200Hz的频带增益将比其余谱中的频带变化得更慢。这可能对防止更低频率下的可听调制是有用的。这是因为,在低于200Hz的频率下,这种频率的波长接近或超过滤波器组所使用的块大小,从而导致滤波器组精确区分这些频率的能力不精确。这是常见且众所周知的现象。
被时间平滑后的增益进一步在频率上被平滑,以防止相邻频带之间大的增益变化。在优选实现中,利用滑动五频带(或大约470Hz)平均来平滑频带增益。即,每个箱被更新为其本身与频率在其上和其下的两个相邻频带的平均值。在谱的上下边缘处,边缘值(频带0和N-1)被重复使用,使得五频带平均仍旧可以被执行。
被平滑后的频带增益被输出作为信号411,并且在乘法器或乘法功能419中乘以缩混复谱值,以创建校正后的缩混复谱412。可选地,输出信号411可以在ASA信息104的控制下经由临时存储设备或过程(“保持”417)被提供给乘法器或乘法功能419。保持417以与图3的保持303相同的方式操作。例如,增益可以在事件期间被保持为相对恒定并且只在事件边界处被改变。以这种方式,可以防止事件期间可能的可听的动态增益变化。
反向滤波器组(Inv FB)413(图4)
来自乘法器或乘法功能419的缩混谱412被传递经过反向滤波器组或滤波器组功能(“INV FB”)413,以创建输出时间采样块。该滤波器组是输入滤波器组401的逆。相邻块与在先块重叠并被添加到在先块,如众所周知的那样,以创建输出时域信号414。
所描述的布置不排除在前向滤波器组401处将窗口分成两个窗口(一个被用在前向滤波器组,另一个被用在反向滤波器组)的常见实施,其中这两个窗口的增加使得在整个系统中保持一致的信号。
缩混应用
根据本发明方面的缩混的一个应用是在机动车辆中重放5.1声道内容。机动车辆可能只再现5.1声道内容的四个声道,大致对应于这种系统的左、右、左环绕和右环绕声道。每个声道被指向位于被认为适合用于再现与具体声道相关联的定向信息的位置上的一个或多个扬声器。但是,机动车辆通常不具有用于再现这种5.1重放系统中中声道(center channel)的中央扬声器位置。为了适应这种情况,已知削弱中声道信号(例如3dB或6dB)并且将它与左右声道信号中每一个组合以提供虚幻中声道。但是,这种简单的组合导致前面描述的人造缺陷。
代替这种简单的组合,可以应用根据本发明方面的声道组合或缩混。例如,图1的布置或图2的布置可以被应用两次,一次用于组合左和中信号,一次用于组合中和右信号。但是,在将中声道信号与左声道和右声道信号中每一个组合之前将其削弱例如3dB或6dB(在机动车辆内部的近场空间中,6dB可能比3dB更合适)使得来自中声道信号的输出声功率与通过专用中声道扬声器呈现时近似相同可能仍旧有利的。而且,在将中信号与左声道和右声道信号中每一个组合时将中信号指代作为基准声道使得对中声道信号所应用的时间和相位校正103不改变中声道的时间对准或相位而只改变左声道和右声道信号的时间对准或相位可能有利的。因此,中声道信号将不会在两个加法(即,左声道加中声道信号的加法,以及右声道加中声道信号的加法)的每一个中被不同地调整,从而确保虚幻中声道声像(image)保持稳定。
反过来也可以是可应用的。即,只对中声道进行时间或相位调整,同样确保虚幻中声道声像保持稳定。
根据本发明方面的缩混的另一个应用是在电影院中重放多声道音频。为下一代数字电影院系统开发的标准要求高达并且很快将多于16声道音频的传送。大部分所安装的电影院系统只提供5.1重放或“呈现”声道(如所公知的那样,“0.1”代表低频“效果”声道)。因此,在重放系统被升级之前,在巨大开销下,需要将具有多于5.1声道的内容缩混到5.1声道。这种声道的缩混或组合导致上述人造缺陷。
因此,如果P声道将被缩混到Q声道(这里P>Q),则根据本发明方面(例如如图1和2的示例实施例中那样)的缩混可以被应用以获得一个或多个Q输出声道,其中输出声道中的一部分或全部是P输入声道的各个声道中两个或多个的组合。如果输入声道被组合到多于一个输出声道中,则将这种声道指代为基准声道使得图2中的时间和相位校正202对于其被组合到的每个输出声道不会不同地改变这种输入声道的时间对准或相位可能是有利的。
可选方案
如这里描述的时间或相位调整用于使缩混期间频率的完全或部分相消最小化。前面描述了,当输入声道被组合到多于一个输出声道中时,该声道优选地被指代为基准声道,使得它在被混合到多个输出声道时不被不同地时间或相位调整。这在其它声道不具有基本上相同的内容时工作得很好。但是,在两个或更多其它声道具有相同或基本上相同的内容时,问题就可能出现。如果这种声道被组合到多于一个输出声道中,则在收听所得到的输出声道时,公共内容在接收那些输出声道的扬声器的物理位置之间某处的方向上被感知为空间中的虚幻声像。当具有基本上等同的内容的这两个或更多个输入声道在被与其它声道组合以创建输出声道之前被独立地进行相位调整时出现了问题。独立的相位调整可能导致不正确的虚幻声像位置,和/或不确定的声像位置,这两者都可能在听觉上被感知为不自然。
可以设计寻找具有基本上相似的内容的输入声道并且试图以相同或相似的方式对这种声道进行时间或相位调整使得它们的虚幻声像位置不被改变的系统。但是,这种系统变得非常复杂,特别是当输入声道数变得远远大于输出声道数时。在其中基本相似的内容频繁出现在多于一个输入声道中的系统中,免除相位调整而只执行功率校正可能更简单。
这个调整问题可以在前面描述的汽车应用中被进一步说明,其中在所述应用中,中声道信号被与左和右声道中每一个组合,用于分别通过左和右扬声器重放。在5.1声道资料中,左和右输入声道经常包含多个信号(例如,乐器、嗓音、对话和/或效果),其中一些是不同的,而其中一些是相同的。当中声道被与左和右声道中每一个混合时,中声道被指代为基准声道,并且不被时间或相位调整。左声道被时间或相位调整,以在与中声道组合时产生最小的相位相消,类似地,右声道被时间或相位调整,以在被与中声道组合时产生最小的相位相消。因为左和右声道被独立地进行时间或相位调整,所以左和右声道公共的信号可能不再具有左和右扬声器的物理位置之间的虚幻声像。而且,虚幻声像可能不被定位到任何一个方向上,而是可能在整个收听空间中被传播—不自然的非期望效果。
调整问题的解决方法是从这种输入声道中提取对于多于一个输入声道公共的信号,并将它们放到新的分开的输入声道中。虽然这增加了将被缩混的输入声道P的总数量,但是它减少了在输出的被缩混后的声道中假的非期望的虚幻声像。为三个声道被缩混为两个的情况在图6中示出汽车实例设备或过程600。利用任何合适的声道乘法器或乘法过程(“解相关声道”)601、诸如主动矩阵解码器或提取公共信号分量的其它类型的声道乘法器从左和右声道中提取左和右输入声道公共的信号到另一个新的声道中。这种设备可以表现为一种解相关器或解相关功能。已知为Dolby Surround Pro Logic II(杜比定向逻辑环绕II)的一种合适的主动矩阵解码器在2000年3月22日提交的James W.Fosgate的标题为“Method for deriving at least three audiosignals from two input audio signals”、案卷号为DOL07201的美国专利申请S.N.09/532,711以及2003年2月25日提交的James W.Fosgate等人的标题为“Method for apparatus for audio matrix decoding”并于2004年7月1日公开为US 2004/0125960、案卷号为DOL07203US的美国专利申请S.N.10/362,786中描述,其中美国专利申请S.N.10/362,786是于2001年8月30日提交、指定美国并于2002年3月7日公开为WO 02/19768的国际申请PCT/US01/27006的相应美国国家申请。所述Fosgate和Fosgate等人的申请在此通过引用被整体包含。可以被利用的另一种类型的合适的声道乘法器和解相关器在2003年8月5日提交的Mark Franklin Davis的标题为“Audio ChannelTranslation”并于2004年4月1日公开为US 2004/0062401 A1、案卷号为DOL088US的美国专利申请S.N.10/467,213中描述,该申请是由2002年2月7日提交的指定美国并于2003年8月7日公开为WO02/063925的国际申请PCT/US02/03619以及2003年8月6日提交的指定美国、案卷号为DOL08801PCT并于2004年3月4日公开为WO2004/019656的国际申请PCT/US03/24570得到的美国国家申请。所述Davis申请中每一个在此通过引用被全部包含。另一种合适的声道乘法/解相关技术在Mitianoudis和Davies于2002年5月10到13日在德国慕尼黑的第112届年会上发表的Audio Engineering SocietyConvention Paper 5529中的“Intelligent Audio Source Separationusing Independent Component Analysis”被描述。所述论文在此也通过引用被全部包含。结果是四个声道,新的声道CD、原始中声道C和修改后的左和右声道LD和RD
基于图2的布置但是这里具有两个输出声道的设备或过程602组合四个声道,以创建左和右重放声道LP和RP。修改后的声道LD和RD每一个被混合为仅仅一个重放声道,分别是LP和RP。因为它们基本上不包含任何相关的内容,所以已经从其中提取了它们的公共分量CD的修改后的声道LD和RD可以被时间或相位调整,而不影响存在于输入声道L和R中的任何虚幻中声像。为了执行时间和/或相位调整,声道中的一个、诸如声道CD被指代为基准声道。其它声道LD、RD和C然后相对于基准声道被时间和/或相位调整。或者,因为LD和RD声道不可能与C声道相关,并且因为它们通过过程601被从CD声道解相关,所以它们可以被传递给混合通道,而不进行任何时间或相位调整。原始声道C和所得到的中声道CD两者都可以在设备或过程602的混合声道部分中被分别与中间声道LD和RD中每一个混合,以生成重放声道LP和RP。虽然已经发现C和CD的相等比率产生令人满意的结果,但是精确的比例不重要,并且可能是不相等的。因此,被应用于CD和C的任何时间和相位调整将出现在两个重放声道中,因此保持虚幻中声像的方向。可能在中声道中每一个上需要一些削弱(例如3dB),因为这些声道通过两个而不是一个扬声器再现。同样,被混合到输出声道中的中声道C和CD中每一个的量可以由收听者控制。例如,收听者可能期望所有的原始中声道C,而不是所得到的中声道CD上的某种削弱。
解决方法还可以通过电影院音频中实例的方式被说明。图7a和7b示出了两组音频声道的房间或空间位置。图7a示出了以其他方式被指代为“内容声道”的多声道音频信号中所呈现的声道的大致空间位置。图7b示出了被指代为“重放声道”的、可以在配备有播放五声道音频资料的电影院中被再现的声道的大致位置。内容声道中的一些具有相应的重放声道位置;即L、C、R、Rs和Ls声道。其它内容声道不具有相应的重放声道位置,并因此必须被混合到一个或多个重放声道中。典型的方法是将这种内容声道组合到最近的两个重放声道中。
如前面所提到的,简单的相加组合可能导致可听的人造缺陷。如同样提到过的那样,结合图1和2所描述的组合在具有基本上公共的内容的声道被不同地相位或时间调整时也可能导致虚幻声像人造缺陷。解决方法包括从这种声道中提取对于多于一个输入声道所公共的信号,并将它们放到新的分开的声道中。
图7c示出了用于其中通过利用设备或过程(“解相关声道”)701提取对于输入或内容声道的一些组合公共的信息而创建五个附加声道Q1到Q5这种情况的设备或过程700。设备或过程701可以使用诸如上述的合适的声道乘法/解相关技术用于“解相关声道”设备或功能601中。这些附加的中间声道的实际数量和空间位置可以根据内容声道中所包含的音频信号的变化而变化。基于图2的布置但这里具有五个输出声道的设备或过程702组合来自解相关声道701的中间声道,以创建五个重放声道。
对于时间和相位校正,诸如C声道的中间声道中的一个可以被指代为基准声道,并且所有其它中间声道可以相对于该基准被时间和相位调整。或者,可能有利的是,指代多于一个的声道作为基准声道,并因此在比中间声道总数量更少的声道组中执行时间或相位校正。例如,如果声道Q1代表从内容声道L和C中所提取出的公共信号,并且如果Q1和LC正被与中间声道L和C组合以创建重放声道L和C,则声道LC可以被指代为基准声道。中间声道L、C和Q1然后相对于基准中间声道LC被时间或相位调整。每一个更小的中间声道组被相继地执行时间或相位调整,直到所有中间声道已经被时间和相位校正过程考虑。
在创建重放声道中,设备或过程702可以假定内容声道空间位置的先验知识。有关附加中间声道的数量和空间位置的信息可以被假定或者可以被从解相关设备或过程701经由路径703传递到设备或过程702。这使能过程或设备702能够将附加中间声道组合到例如最近的两个重放声道,从而维持到这些附加声道的虚幻声像方向。
实现
本发明可以在硬件或软件或者两者的组合(例如可编程逻辑阵列)中被实现。除非特别指出,否则被包括作为本发明一部分的算法不是固有地与任何具体的计算机或其它装置相关。具体地,各种通用机器可以与根据这里的教导而写的程序一起使用,或者可以更方便地构造更专用的装置(例如集成电路)来执行所需的方法步骤。因此,本发明可以被实现在于一个或多个可编程计算机系统上执行的一个或多个计算机程序中,其中可编程计算机系统每一个都包括至少一个处理器、至少一个数据存储系统(包括易失和非易失性存储器和/或存储单元)、至少一个输入设备或端口、以及至少一个输出设备或端口。程序代码被应用于输入数据,以执行这里描述的功能并产生输出信息。输出信息被以已知方式提供给一个或多个输出设备。
每一个这样的程序可以以任何期望的计算机语言(包括机器、汇编或高级过程、逻辑或面向对象的编程语言)实现,以与计算机系统通信。在任何情况下,语言可能是编译或解释语言。
每一个这样的计算机程序优选地被存储在或者被下载到通用或专用可编程计算机可读的存储介质或设备(例如,固态存储器或介质,或者磁或光学介质)上,用于在存储介质或设备被计算机系统读取时配置和操作计算机以执行这里描述的程序。本发明的系统还可以被考虑被被实现为计算机可读的存储介质,配置有计算机程序,其中被这样配置的存储介质使计算机系统以特定和预定的方式操作以执行这里描述的功能。
本发明的大量实施例已经被描述。然而,应该理解,各种修改可以被做出而不脱离本发明的精神和范围。例如,上面描述的一些步骤可以是顺序独立的,因此可以以不同于所描述的顺序被执行。相应地,其它实施例在下面的权利要求的范围内。

Claims (9)

1、一种用于组合音频声道的方法,包括:
组合音频声道以产生组合后的音频声道,以及
对所述声道、对所述组合后的声道或者对所述声道和所述组合后的声道二者动态地应用时间、相位和幅度或功率调整中的一个或多个,其中至少部分地由一个或多个所述声道和/或所述组合后的声道中的听觉事件的量度控制所述调整中的一个或多个。
2、根据权利要求1的方法,其中所述调整被控制,以在听觉事件期间保持基本恒定,并且允许在听觉事件边界处或附近的变化。
3、一种用于将P个音频声道缩混为Q个音频声道的方法,其中P大于Q,其中通过权利要求1或权利要求2的方法获得所述Q个音频声道中至少一个。
4、一种用于将三个输入音频声道α、β和δ缩混为两个输出音频声道α”和δ”的方法,其中所述三个输入音频声道依次代表连续的空间方向α、β和δ,所述两个输出声道α”和δ”代表非连续的空间方向α和δ,包括
从代表方向α和δ的所述两个输入音频声道中提取公共信号分量,以生成三个中间声道:
声道α’,代表所述方向α的声道α的修改,声道α’包括已经从其中基本去除了对于输入声道α与δ公共的信号分量的声道α的信号分量,
声道δ’,代表所述方向δ的声道δ的修改,声道δ’包括已经从其中基本去除了对于输入声道α与δ公共的信号分量的声道δ的信号分量,以及
声道β’,代表所述方向β的新声道,声道β’包括对于输入声道α与δ公共的信号分量,
组合中间声道α’、中间声道β’和输入声道β,以生成输出声道α”,并且
组合中间声道δ’、中间声道β’和输入声道β,以生成输出声道δ”。
5、根据权利要求4的方法,还包括对所述中间声道α’、β’和δ’以及所述输入声道β中一个或多个和/或所述组合后的输出声道α”和δ”之一或二者动态地应用时间、相位和幅度或功率调整中的一个或多个。
6、根据权利要求5的方法,其中至少部分地由所述输入声道、所述中间声道和/或所述组合后的输出声道中的一个或多个声道中的听觉事件的量度控制所述调整中的一个或多个。
7、根据权利要求6的方法,其中所述调整被控制,以在听觉事件期间保持基本恒定,并且允许在听觉事件边界处或附近的变化。
8、根据权利要求4的方法,其中所述连续的空间方向α、β和δ是下列方向组中的一个:
左、中和右,
左、左中和中,
中、右中和右,
右、右中部和右环绕,
右环绕、中后和左环绕,以及
左环绕、左中部和左。
9、一种用于执行权利要求1到8中任何一个的方法的装置。
10、一种存储在计算机可读介质上用于使计算机执行权利要求1到8中任何一个的方法的计算机程序。
CN2005800261496A 2004-08-03 2005-07-13 利用听觉场景分析组合音频信号的方法和装置 Active CN101002505B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/911,404 2004-08-03
US10/911,404 US7508947B2 (en) 2004-08-03 2004-08-03 Method for combining audio signals using auditory scene analysis
PCT/US2005/024630 WO2006019719A1 (en) 2004-08-03 2005-07-13 Combining audio signals using auditory scene analysis

Publications (2)

Publication Number Publication Date
CN101002505A true CN101002505A (zh) 2007-07-18
CN101002505B CN101002505B (zh) 2011-08-10

Family

ID=35115846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800261496A Active CN101002505B (zh) 2004-08-03 2005-07-13 利用听觉场景分析组合音频信号的方法和装置

Country Status (19)

Country Link
US (1) US7508947B2 (zh)
EP (1) EP1787495B1 (zh)
JP (1) JP4740242B2 (zh)
KR (1) KR101161703B1 (zh)
CN (1) CN101002505B (zh)
AT (1) ATE470322T1 (zh)
AU (1) AU2005275257B2 (zh)
BR (1) BRPI0514059B1 (zh)
CA (1) CA2574834C (zh)
DE (1) DE602005021648D1 (zh)
DK (1) DK1787495T3 (zh)
ES (1) ES2346070T3 (zh)
HK (1) HK1101053A1 (zh)
IL (1) IL180712A (zh)
MX (1) MX2007001262A (zh)
MY (1) MY139731A (zh)
PL (1) PL1787495T3 (zh)
TW (1) TWI374435B (zh)
WO (1) WO2006019719A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102144405A (zh) * 2008-09-04 2011-08-03 Dts(属维尔京群岛)有限公司 耳间时间延迟恢复系统和方法
CN107682529A (zh) * 2017-09-07 2018-02-09 维沃移动通信有限公司 一种音频信号处理方法及移动终端
CN107743713A (zh) * 2015-03-27 2018-02-27 弗劳恩霍夫应用研究促进协会 处理用于在汽车中再现的立体声信号以通过前置扬声器实现单独的三维声音的装置和方法
CN108369809A (zh) * 2015-12-18 2018-08-03 高通股份有限公司 时间偏移估计
CN108495234A (zh) * 2018-04-19 2018-09-04 北京微播视界科技有限公司 多声道音频处理方法、装置和计算机可读存储介质
CN108597527A (zh) * 2018-04-19 2018-09-28 北京微播视界科技有限公司 多声道音频处理方法、装置、计算机可读存储介质和终端

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
RU2391714C2 (ru) * 2004-07-14 2010-06-10 Конинклейке Филипс Электроникс Н.В. Преобразование аудиоканалов
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
BRPI0518278B1 (pt) 2004-10-26 2018-04-24 Dolby Laboratories Licensing Corporation Método e aparelho para controlar uma característica de sonoridade particular de um sinal de áudio
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
AU2006266655B2 (en) * 2005-06-30 2009-08-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
JP2009500656A (ja) * 2005-06-30 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US8073703B2 (en) * 2005-10-07 2011-12-06 Panasonic Corporation Acoustic signal processing apparatus and acoustic signal processing method
TWI489886B (zh) * 2006-04-03 2015-06-21 Lg Electronics Inc 音頻訊號解碼方法及其裝置
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
ATE448638T1 (de) 2006-04-13 2009-11-15 Fraunhofer Ges Forschung Audiosignaldekorrelator
KR101200615B1 (ko) 2006-04-27 2012-11-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어
KR100917843B1 (ko) 2006-09-29 2009-09-18 한국전자통신연구원 다양한 채널로 구성된 다객체 오디오 신호의 부호화 및복호화 장치 및 방법
WO2008051347A2 (en) 2006-10-20 2008-05-02 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
JP2008262021A (ja) * 2007-04-12 2008-10-30 Hiromi Murakami 電気楽器における位相切替装置
DE102007018032B4 (de) * 2007-04-17 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung dekorrelierter Signale
JP5021809B2 (ja) * 2007-06-08 2012-09-12 ドルビー ラボラトリーズ ライセンシング コーポレイション アンビエンス信号成分とマトリックスデコードされた信号成分とを制御可能に結合することによるサラウンドサウンドオーディオチャンネルのハイブリッド導出
JP5192544B2 (ja) 2007-07-13 2013-05-08 ドルビー ラボラトリーズ ライセンシング コーポレイション 聴覚情景分析とスペクトルの歪みを用いた音響処理
JP4471028B2 (ja) * 2007-09-03 2010-06-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
JP5195652B2 (ja) * 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
DE102008056704B4 (de) * 2008-11-11 2010-11-04 Institut für Rundfunktechnik GmbH Verfahren zum Erzeugen eines abwärtskompatiblen Tonformates
JP5163545B2 (ja) * 2009-03-05 2013-03-13 富士通株式会社 オーディオ復号装置及びオーディオ復号方法
CN102307323B (zh) * 2009-04-20 2013-12-18 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法
CN101533641B (zh) * 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
EP2425426B1 (en) 2009-04-30 2013-03-13 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
US20120096353A1 (en) 2009-06-19 2012-04-19 Dolby Laboratories Licensing Corporation User-specific features for an upgradeable media kernel and engine
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
EP2503618B1 (en) * 2011-03-23 2014-01-01 Semiconductor Energy Laboratory Co., Ltd. Composite material, light-emitting element, light-emitting device, electronic device, and lighting device
US8804984B2 (en) * 2011-04-18 2014-08-12 Microsoft Corporation Spectral shaping for audio mixing
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
EP2898510B1 (en) 2012-09-19 2016-07-13 Dolby Laboratories Licensing Corporation Method, system and computer program for adaptive control of gain applied to an audio signal
RU2613731C2 (ru) 2012-12-04 2017-03-21 Самсунг Электроникс Ко., Лтд. Устройство предоставления аудио и способ предоставления аудио
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
EP2811758B1 (en) 2013-06-06 2016-11-02 Harman Becker Automotive Systems GmbH Audio signal mixing
JP6629739B2 (ja) * 2014-09-01 2020-01-15 ソニーセミコンダクタソリューションズ株式会社 音声処理装置
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
CN110741435B (zh) 2017-06-27 2021-04-27 杜比国际公司 音频信号处理的方法、系统和介质
US11363377B2 (en) 2017-10-16 2022-06-14 Sony Europe B.V. Audio processing
US10462599B2 (en) * 2018-03-21 2019-10-29 Sonos, Inc. Systems and methods of adjusting bass levels of multi-channel audio signals
JP7195344B2 (ja) 2018-07-27 2022-12-23 ドルビー ラボラトリーズ ライセンシング コーポレイション パーベイシブ・リステニングのための強制ギャップ挿入
DE102018127071B3 (de) * 2018-10-30 2020-01-09 Harman Becker Automotive Systems Gmbh Audiosignalverarbeitung mit akustischer Echounterdrückung
US11803351B2 (en) 2019-04-03 2023-10-31 Dolby Laboratories Licensing Corporation Scalable voice scene media server

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US586228A (en) * 1897-07-13 Mounting prism-lights
JPS526601B2 (zh) * 1972-03-27 1977-02-23
JPS4935003A (zh) * 1972-08-03 1974-04-01
JPS5510654B2 (zh) * 1974-05-15 1980-03-18
US4624009A (en) 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
US4464784A (en) 1981-04-30 1984-08-07 Eventide Clockworks, Inc. Pitch changer with glitch minimizer
US5040081A (en) 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US5055939A (en) 1987-12-15 1991-10-08 Karamon John J Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track
AU8053691A (en) 1990-06-15 1992-01-07 Auris Corp. Method for eliminating the precedence effect in stereophonic sound systems and recording made with said method
US5235646A (en) 1990-06-15 1993-08-10 Wilde Martin D Method and apparatus for creating de-correlated audio output signals and audio recordings made thereby
WO1991019989A1 (en) 1990-06-21 1991-12-26 Reynolds Software, Inc. Method and apparatus for wave analysis and event recognition
US5583962A (en) 1991-01-08 1996-12-10 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5175769A (en) 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
DE69423922T2 (de) * 1993-01-27 2000-10-05 Koninkl Philips Electronics Nv Tonsignalverarbeitungsanordnung zur Ableitung eines Mittelkanalsignals und audiovisuelles Wiedergabesystem mit solcher Verarbeitungsanordnung
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6430533B1 (en) 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
JPH1074097A (ja) 1996-07-26 1998-03-17 Ind Technol Res Inst オーディオ信号のパラメータを変更する方法及び装置
US6049766A (en) 1996-11-07 2000-04-11 Creative Technology Ltd. Time-domain time/pitch scaling of speech or audio signals with transient handling
US5862228A (en) * 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6211919B1 (en) 1997-03-28 2001-04-03 Tektronix, Inc. Transparent embedment of data in a video signal
US6330672B1 (en) 1997-12-03 2001-12-11 At&T Corp. Method and apparatus for watermarking digital bitstreams
GB2340351B (en) 1998-07-29 2004-06-09 British Broadcasting Corp Data transmission
US6266644B1 (en) 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
SE9903552D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching
US6760448B1 (en) * 1999-02-05 2004-07-06 Dolby Laboratories Licensing Corporation Compatible matrix-encoded surround-sound channels in a discrete digital sound format
FR2802329B1 (fr) 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
CA2418722C (en) 2000-08-16 2012-02-07 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
WO2002019768A2 (en) 2000-08-31 2002-03-07 Dolby Laboratories Licensing Corporation Method for apparatus for audio matrix decoding
KR100904985B1 (ko) 2001-02-07 2009-06-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 채널 변환
WO2004019656A2 (en) 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
JP4152192B2 (ja) 2001-04-13 2008-09-17 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング
DE60225130T2 (de) 2001-05-10 2009-02-26 Dolby Laboratories Licensing Corp., San Francisco Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
MXPA03010749A (es) 2001-05-25 2004-07-01 Dolby Lab Licensing Corp Comparacion de audio usando caracterizaciones basadas en eventos auditivos.
MXPA03010751A (es) 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
TW569551B (en) * 2001-09-25 2004-01-01 Roger Wallace Dressler Method and apparatus for multichannel logic matrix decoding
JP4427937B2 (ja) * 2001-10-05 2010-03-10 オンキヨー株式会社 音響信号処理回路および音響再生装置
US20040037421A1 (en) 2001-12-17 2004-02-26 Truman Michael Mead Parital encryption of assembled bitstreams
KR20040080003A (ko) 2002-02-18 2004-09-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 오디오 코딩
ES2323294T3 (es) 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
WO2003094369A2 (en) * 2002-05-03 2003-11-13 Harman International Industries, Incorporated Multi-channel downmixing device
ES2271654T3 (es) * 2002-08-07 2007-04-16 Dolby Laboratories Licensing Corporation Conversion espacial de canales de audio.
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7676047B2 (en) * 2002-12-03 2010-03-09 Bose Corporation Electroacoustical transducing with low frequency augmenting devices
KR20050097989A (ko) 2003-02-06 2005-10-10 돌비 레버러토리즈 라이쎈싱 코오포레이션 연속 백업 오디오
MXPA05012785A (es) 2003-05-28 2006-02-22 Dolby Lab Licensing Corp Metodo, aparato y programa de computadora para el calculo y ajuste de la sonoridad percibida de una senal de audio.
US7398207B2 (en) 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
WO2005086139A1 (en) 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
FR2872910B1 (fr) 2004-07-07 2006-10-13 Nanoraptor Sa Composant optique pour l'observation d'un echantillon nanometrique, systeme comprenant un tel composant, procede d'analyse mettant en oeuvre ce composant, et leurs applications
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
TWI397903B (zh) 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
TW200638335A (en) 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
CA2610430C (en) 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
KR101200615B1 (ko) 2006-04-27 2012-11-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102144405A (zh) * 2008-09-04 2011-08-03 Dts(属维尔京群岛)有限公司 耳间时间延迟恢复系统和方法
CN102144405B (zh) * 2008-09-04 2014-12-31 Dts(英属维尔京群岛)有限公司 耳间时间延迟恢复系统和方法
CN107743713A (zh) * 2015-03-27 2018-02-27 弗劳恩霍夫应用研究促进协会 处理用于在汽车中再现的立体声信号以通过前置扬声器实现单独的三维声音的装置和方法
US10257634B2 (en) 2015-03-27 2019-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing stereo signals for reproduction in cars to achieve individual three-dimensional sound by frontal loudspeakers
CN107743713B (zh) * 2015-03-27 2019-11-26 弗劳恩霍夫应用研究促进协会 处理用于在汽车中再现的立体声信号以通过前置扬声器实现单独的三维声音的装置和方法
CN108369809A (zh) * 2015-12-18 2018-08-03 高通股份有限公司 时间偏移估计
CN108369809B (zh) * 2015-12-18 2019-08-13 高通股份有限公司 时间偏移估计
CN107682529A (zh) * 2017-09-07 2018-02-09 维沃移动通信有限公司 一种音频信号处理方法及移动终端
CN107682529B (zh) * 2017-09-07 2019-11-26 维沃移动通信有限公司 一种音频信号处理方法及移动终端
CN108495234A (zh) * 2018-04-19 2018-09-04 北京微播视界科技有限公司 多声道音频处理方法、装置和计算机可读存储介质
CN108597527A (zh) * 2018-04-19 2018-09-28 北京微播视界科技有限公司 多声道音频处理方法、装置、计算机可读存储介质和终端
CN108495234B (zh) * 2018-04-19 2020-01-07 北京微播视界科技有限公司 多声道音频处理方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
KR20070049146A (ko) 2007-05-10
MX2007001262A (es) 2007-04-18
US20060029239A1 (en) 2006-02-09
IL180712A (en) 2012-02-29
CN101002505B (zh) 2011-08-10
AU2005275257B2 (en) 2011-02-03
EP1787495B1 (en) 2010-06-02
MY139731A (en) 2009-10-30
KR101161703B1 (ko) 2012-07-03
CA2574834C (en) 2013-07-09
BRPI0514059A (pt) 2008-05-27
ES2346070T3 (es) 2010-10-08
TW200608352A (en) 2006-03-01
JP2008509600A (ja) 2008-03-27
PL1787495T3 (pl) 2010-10-29
WO2006019719A1 (en) 2006-02-23
JP4740242B2 (ja) 2011-08-03
HK1101053A1 (en) 2007-10-05
DE602005021648D1 (de) 2010-07-15
DK1787495T3 (da) 2010-09-06
CA2574834A1 (en) 2006-02-23
TWI374435B (en) 2012-10-11
AU2005275257A1 (en) 2006-02-23
EP1787495A1 (en) 2007-05-23
IL180712A0 (en) 2007-06-03
US7508947B2 (en) 2009-03-24
ATE470322T1 (de) 2010-06-15
BRPI0514059B1 (pt) 2019-11-12

Similar Documents

Publication Publication Date Title
CN101002505B (zh) 利用听觉场景分析组合音频信号的方法和装置
Faller Parametric coding of spatial audio
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
EP2064699B1 (en) Method and apparatus for extracting and changing the reverberant content of an input signal
KR101336237B1 (ko) 멀티 채널 스피커 시스템의 멀티 채널 신호 재생 방법 및장치
US8213622B2 (en) Binaural sound localization using a formant-type cascade of resonators and anti-resonators
US8180062B2 (en) Spatial sound zooming
EP3402222B1 (en) Generating binaural audio in response to multi-channel audio using at least one feedback delay network
US9743215B2 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
WO2007026025A2 (en) Method to generate multi-channel audio signals from stereo signals
JP2005523672A (ja) マルチチャネル・ダウンミキシング装置
KR20160001712A (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR20140036173A (ko) 분해기를 이용하여 출력 신호를 생성하는 장치 및 방법
US8009834B2 (en) Sound reproduction apparatus and method of enhancing low frequency component
Usher A new upmixer for enhancement of reverberance imagery in multichannel loudspeaker audio scenes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant