CN104782145A - 为3d音频提供增强的导引降混性能的装置及方法 - Google Patents

为3d音频提供增强的导引降混性能的装置及方法 Download PDF

Info

Publication number
CN104782145A
CN104782145A CN201380058866.1A CN201380058866A CN104782145A CN 104782145 A CN104782145 A CN 104782145A CN 201380058866 A CN201380058866 A CN 201380058866A CN 104782145 A CN104782145 A CN 104782145A
Authority
CN
China
Prior art keywords
audio input
channel
input channel
audio
audio frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380058866.1A
Other languages
English (en)
Other versions
CN104782145B (zh
Inventor
阿尔内·博尔苏姆
斯特凡·施赖纳
哈拉尔德·富克斯
米夏埃尔·克拉茨
伯恩哈德·格里尔
塞巴斯蒂安·沙勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN104782145A publication Critical patent/CN104782145A/zh
Application granted granted Critical
Publication of CN104782145B publication Critical patent/CN104782145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

提供一种装置(100),用于降混三个或更多音频输入通道以产生两个或更多音频输出通道。装置(100)包含接收接口(110),其用于接收该三个或更多音频输入通道以及用于接收侧边信息。此外,装置(100)包含降混器(120),其用于依据该侧边信息降混该三个或更多音频输入通道以得到该两个或更多音频输出通道。该音频输出通道的数量小于该音频输入通道的数量。该侧边信息是指该三个或更多音频输入通道中的至少一个的特征、或指记录于一个或多个音频输入通道内的一个或多个音波的特征、或指发出记录于一个或多个音频输入通道内的一个或多个音波的一个或多个音源的特征。

Description

为3D音频提供增强的导引降混性能的装置及方法
技术领域
本发明涉及一种音频信号处理,特别是涉及一种装置及方法能实现增强的降混(downmix),特别是用于实现3D音频的增强的导引降混性能。
背景技术
日益增多的扩音器被使用来达到声音的空间再生。当传统的环绕音效再生(如5.1系统)被限制于单一平面时,新的通道格式与升级的扩音器一起已被纳入3D音频再生的领域。
需要再生于扩音器上的信号过去习惯于直接对应于特定的扩音器,并可以离散或参数的方式储存及传送。可以说,对于这种格式而言,该等信号对应于一音效再生系统,该系统已清楚定义扩音器的数量及位置。据此,在传送或储存一音频信号之前,就需要对该再生格式有一定的了解。
然而,已有不在此原则中的一些例外。例如,多通道音频信号(例如5个环绕音效通道或例如,5.1环绕音效通道)必需被降混以在双通道的立体扩音器的设定之上再生,因此也就存在一些规则以将5环绕通道再生于具有双扩音器的立体声系统。
此外,当立体声通道被引入时,就需要一规则以通过单一单声道扩音器再生成两立体声通道的音频内容。
既然格式的数量以及需要设定扩音器位置的机会越来越多,就使得在传送或储存之前考虑再生系统的扩音器设定显得更为不可能。据此,就有需要将输入音频信号适配到实际的扩音器设定。
有不同的方法可用于将环绕音效降混至双通道立体声。仍广泛使用的是通常称作ITU降混的具有静态降混系数的时域降混[5]。其他时域降混技术-部分使用动态调整的降混系数-应用于矩阵环绕技术的编码器(encoders of matrix surround techniques)[6],[7]。
在[3]中,公开了直接音源混合于被降混至双通道立体全景(stereopanorama)的后通道,可能由于屏蔽(masking)或者另外掩蔽的其他音源而无法被分别出来。
在空间音频编码(SAC)技术发展的过程中,频率选择性的降混算法作为编码器之一部分而被介绍[8],[9]。特别的是,当将能量等化(energyequalization)应用于所得到的声音通道时,可降低声音彩色化(soundcolorization)并维持音源定位的声级平衡及稳定性。能量等化也应用于其他降混系统中[9],[10],[12]。
在后通道只包含环境音效(如混响)的情况中,环境影响(如混响、宽敞影响)的减少可在ITU降混中通过减弱多通道信号的后通道得到解决[5]。若后通道也包含直接音效(direct sound),那这样的减弱是不合适的,因为后通道的直接部分也会在降混中被减弱。因此,就需要一种更高级的环境减弱算法。
音频编译码器(如AC-3、HE-AAC)可提供在音频串流上传送所谓的元数据(metadata)的装置(means,手段),其包含用于从5音频通道降混到2音频通道(立体声)的降混系数。在所得到的立体声信号中,被选择音频通道的数量(如中间、后通道)通过传送的增益值来控制。虽然这些系数可能为时间变量,但其通常可在一程序(program,节目)的项目的期间内维持恒定。
应用于“Logic7”矩阵系统中的解决方案是引进一信号调适方法,其在只有后通道被完全认定为环境因素(ambience)的情况下才会减弱后通道,这可以通过比较前通道与后通道的功率而达到。此方法有一假设,即当后通道只包含环境因素时,其功率显著较前通道的功率小。并且当前通道的功率相较于后通道越大时,后通道在降混的过程中被减少的功率越多。上述假设在一些环绕产生(surround productions),特别是带着标准内容(classical content)的情况下可为真,但该假设对于其他信号则为假。
因此,将更容易理解,设想提供一种音频信号处理的改进的概念。
发明内容
本发明之一目的在于提供一种音频信号处理的改进的概念。本发明的目的通过依据权利要求1的一种装置、通过依据权利要求13的一种系统、通过依据权利要求14的一种方法以及通过依据权利要求15的一种计算机程序而达到。
提供一种用于从三个或更多音频输入通道(channel,频道)产生两个或更多音频输出通道的装置。装置包含一接收接口,其用于接收该三个或更多音频输入通道及用于接收侧边信息(side information)。此外,装置包含一降混器,其用于依据侧边信息以将该三个或更多音频输入通道降混而得到该两个或更多音频输出通道。音频输出通道的数量小于音频输入通道的数量。侧边信息是指三个或更多音频输入通道中的至少一个的特征,或指记录于一个或多个音频输入通道内的一个或多个音波的特征,或指发出被记录于一个或多个音频输入通道内的一个或多个音波的的音源的特征。
基于本概念的实施例,一同传送侧边信息与音频信号,以导引格式转换的过程,该格式转换是从输入音频信号的格式转换为再生系统的格式。
根据实施例,降混器可被配置为通过依据侧边信息调整该三个或更多音频输入通道中的至少两个音频输入通道以得到一组调整音频通道,并通过将所述一组调整音频通道中的各调整音频通道进行组合而得到所述音频输出通道,产生该两个或更多音频输出通道中的各音频输出通道。
在一实施例中,降混器可例如被配置为通过依据侧边信息调整该三个或更多音频输入通道中的各音频输入通道以得到一组调整音频通道,并通过将所述一组调整音频通道中的各调整音频通道进行组合而得到所述音频输出通道,产生该两个或更多音频输出通道中的各音频输出通道。
根据实施例,降混器可例如被配置为通过依据一个或多个音频输入通道中的音频输入通道并依据侧边信息而决定一权重并通过将所述权重应用于所述音频输入通道而产生所述一组调整音频通道中的各调整音频通道,以产生该两个或多个音频输出通道中的各音频输出通道。
在一实施例中,侧边信息可指三个或更多音频输入通道中的各音频输入通道的环境因素的量。降混器可被被配置为依据三个或更多音频输入通道中的各音频输入通道的环境因素的量来降混该三个或更多音频输入通道以得到该两个或更多音频输出通道。
根据另一实施例,侧边信息可指三个或更多音频输入通道中的各音频输入通道的扩散性(diffuseness)或三个或更多音频输入通道中的各音频输入通道的方向性(directivity)。降混器可被配置为依据三个或更多音频输入通道中的各音频输入通道的扩散性或三个或更多音频输入通道中的各音频输入通道的方向性而降混该三个或更多音频输入通道以得到该两个或更多音频输出通道。
在又一实施例中,侧边信息可指声音到达的方向。降混器可被配置为依据声音的到达方向来降混该三个或更多音频输入通道以得到该两个或更多音频输出通道。
在一实施例中,两个或更多音频输出通道中的各音频输出通道可为操纵一扩音器用的一扩音器通道。
根据实施例,装置可被配置为将两个或更多音频输出通道中的各音频输出通道馈送至一组两个或更多扩音器中的一扩音器。降混器可被配置为依据一第一组的三个或更多假想扩音器位置中的各假想扩音器位置以及依据一第二组的两个或更多实际扩音器位置中的各实际扩音器位置来降混该三个或更多音频输入通道以得到该两个或更多音频输出通道。第二组两个或更多实际扩音器位置中的各实际扩音器位置可指一组两个或更多扩音器中的扩音器的位置。
在一实施例中,三个或更多音频输入通道中的各音频输入通道可被指分配给第一组三个或更多假想扩音器位置的假想扩音器位置。两个或更多音频输出通道中的各音频输出通道可被分配给第二组两个或更多实际扩音器位置中的一实际扩音器位置。降混器可被配置为依据三个或更多音频输入通道中的至少二个音频输入通道、依据三个或更多音频输入通道中的所述至少二个音频输入通道中的各音频输入通道的假想扩音器位置以及依据所述音频输出通道的实际扩音器位置而产生两个或更多音频输出通道中的各音频输出通道。
根据实施例,三个或更多音频输入通道中的各音频输入通道包含三个或更多音频物体中的音频物体的音频信号。侧边信息包含三个或更多音频物体中的各音频物体的音频物体位置,该音频物体位置是指该音频物体的一位置。降混器被配置为依据三个或更多音频物体中的各音频物体的音频物体位置来降混该三个或更多音频输入通道而得到该两个或更多音频输出通道。
在一实施例中,降混器被配置为依据侧边信息来降混四个或更多音频输入通道而得到三个或更多音频输出通道。
此外,提供一种系统,该系统包含一编码器,用于对三个或更多未处理的音频通道进行编码而得到三个或更多已编码音频通道,并且用于将额外信息编码在该三个或更多未处理音频通道上而得到侧边信息。此外,系统包含根据上述实施方式的装置,该装置用于接收该三个或更多已编码音频通道作为三个或更多音频输入通道,并用于接收侧边信息,并用于依据侧边信息而从该三个或更多音频输入通道产生两个或更多音频输出通道。
另外,提供一种用于从三个或更多音频输入通道产生两个或更多音频输出通道的方法。此方法包含:
-接收三个或更多音频输入通道及接收侧边信息,以及:
-依据侧边信息来降混该三个或更多音频输入通道以得到该两个或更多音频输出通道。
音频输出通道的数量小于音频输入通道的数量。音频输入通道包含一音源所发出的声音的记录,且其中,侧边信息是指该声音的特征或该音源的特征。
此外,提供一种计算机程序,用于当其在一计算机或一信号处理器上执行时,会执行上述方法。
附图说明
在下文中,本发明的实施例将参照附图来详细的描述,其中:
图1为根据实施例的装置,用于降混三个或更多音频输入通道以得到两个或更多音频输出通道。
图2示出根据实施例的降混器。
图3示出根据实施例的场景,其中各音频输出通道依据各音频输入通道而产生。
图4示出根据实施例的另一场景,其中各音频输出通道依据音频输入通道中的恰好两个而产生。
图5示出被传送的空间表现信号(spatial representation signals)映像至实际扩音器位置。
图6示出升高的空间信号映像至其他升高位置。
图7示出一信号源对应不同扩音器位置。
图8示出根据实施例的系统。
图9为根据实施例的系统的另一示意图。
具体实施方式
图1示出根据实施例的一种装置100,用于从三个或更多音频输入通道产生两个或更多音频输出通道。
装置100包含一接收接口110,其用于接收三个或更多音频输入通道以及侧边信息。
装置100还包含一降混器120,用于依据侧边信息降混该三个或更多音频输入通道以得到两个或更多音频输出通道。
音频输出通道的数量小于音频输入通道的数量。侧边信息是指该三个或更多音频输入通道中的至少一个的特征,或指记录于一个或多个音频输入通道内的一个或多个音波的特征,或指发出被记录于一个或多个音频输入通道内的一个或多个音波的一个或多个音源的特征。
图2为另一示意图中的根据实施例的降混器120。图2中示出的导引信息为侧边信息。
图7示出一信号源呈现在不同扩音器位置。呈现转移函数(renderingtransfer functions)可取决于角度(方位角与仰角),例如,表示声波的到达方向,可取决于距离,例如从一音源至一记录麦克风的距离,及/或可取决于扩散性,其中这些参数可例如为频率相关(frequency-dependent)的。
相比于盲降混技术,例如未被导引之降混技术(unguided downmixingapproaches),根据本实施例的控制数据或描述信息可与音频信号一起被传送,以在信号链的接收端影响降混处理。这种侧边信息可在信号链的传送器端/编码器端被计算或是从使用者输入而被提供。侧边信息可例如在一比特流(bitstream)中被传送,例如与一已编码音频信号多路复用。
根据具体实施例,降混器120可被配置为依据侧边信息降混四个或更多音频输入通道而得到三个或更多音频输出通道。
在一实施例中,两个或更多音频输出通道中的各音频输出通道可为一扩音器通道以操纵一扩音器。
例如,在一具体另外实施例中,降混器120可被配置为降混七个音频输入通道而得到三个或更多音频输出通道。在另一具体实施例中,降混器120可被配置为降混九个音频输入通道而得到三个或更多音频输出通道。在一具体又一实施例中,降混器120可被配置为降混二十四个通道而得到三个或更多音频输出通道。
在另一具体实施例中,降混器120可被配置为降混七个或更多音频输入通道而得到精确的五个音频输出通道,例如得到五声道环绕系统的五个音频通道。在另一具体实施例中,降混器120可被配置为降混七个或更多音频输入通道而得到精确的六个音频输出通道,例如得到5.1环绕系统的六个音频通道。
根据实施例,降混器可被配置为通过依据侧边信息调整三个或更多音频输入通道中的至少二个音频输入通道以得到一组调整音频通道,并可通过将所述一组调整音频通道中的各调整音频通道进行组合得到所述音频输出通道,从而产生两个或更多音频输出通道中的各音频输出通道。
在一实施例中,降混器可例如被配置为通过依据侧边信息调整三个或更多音频输入通道中的各音频输入通道以得到一组调整音频通道,并可通过将所述一组调整音频通道中的各调整音频通道进行组合而得到音频输出通道,从而产生两个或更多音频输出通道中的各音频输出通道。
根据实施例,降混器120可例如被配置为通过依据一个或多个音频输入通道中的音频输入通道及依据侧边信息而决定一权重并通过将该权重应用于该音频输入通道而产生该一组调整音频通道中的各调整音频通道以产生两个或更多音频输出通道中的各音频输出通道。
图3示出这种实施例。各音频输出通道AOC1、AOC2、AOC3取决于各音频输入通道AIC1、AIC2、AIC3、AIC4
以下以第一音频输出通道AOC1为例来作说明。
降混器120被配置为依据音频输入通道及依据侧边信息来决定各音频输入通道AIC1、AIC2、AIC3、AIC4的权重g1,1、g1,2、g1,3、g1,4。另外,降混器120被配置为将各权重g1,1、g1,2、g1,3、g1,4应用至其音频输入通道AIC1、AIC2、AIC3、AIC4
举例来说,降混器可被配置为通过使音频输入通道的各时域取样乘上权重而将权重应用至其的音频输入通道(当音频输入通道由一时域表现的情况下)。或者,例如,降混器可通过使音频输入通道的各频谱值乘上权重而将权重应用至其的音频输入通道(当音频输入通道由一频谱域、频域或时间-频率域表现的情况下)。从施加权重g1,1、g1,2、g1,3、g1,4而得到的调整音频通道MAC1,1、MAC1,2、MAC1,3、MAC1,4可再被组合,例如相加,以得到例如音频输出通道AOC1
第二音频输出通道AOC2可通过决定权重g2,1、g2,2、g2,3、g2,4,再将各权重应用至其音频输入通道AIC1、AIC2、AIC3、AIC4,然后再组合所得到的调整音频通道MAC2,1、M第二音频输出通道AOC2
类似的,第三音频输出通道AOC3可通过决定权重g3,1、g3,2、g3,3、g3,4,再将各权重应用至对应的音频输入通道AIC1、AIC2、AIC3、AIC4,然后再组合所得到的调整音频通道MAC3,1、MAC3,2、MAC3,3、MAC3,4,从而以相同的方式得到。
图4示出一实施例,其中各音频输出通道并非通过调整三个或更多音频输入通道中的各音频输入通道而产生,而是通过仅调整音频输入通道中的两个音频输入通道并通过组合此二音频输入通道而产生各音频输出通道。
举例来说,在图4中,四个通道被接收而作为音频输入通道(LS1为左环绕输入通道;L1为左输入通道;R1为右输入通道;RS1为右环绕输入通道)并且三个音频输出通道可通过降混音频输入通道而被产生(L2为左输出通道;R2为右输出通道;C2为中间输出通道)。
在图4中,左输出通道L2是依据左环绕输入通道LS1及左输入通道L1而产生。为达此目的,降混器120依据侧边信息而为左环绕输入通道LS1产生一权重g1,1,并且依据侧边信息而为左输入通道L1产生一权重g1,2,并且将各权重施加于其音频输入通道以得到左输出通道L2
此外,中间输出通道C2依据右输入通道R1及左输入通道L1而产生。为达此目的,降混器120依据侧边信息而为左输入通道L1产生一权重g2,2,并且依据侧边信息而为右输入通道R1产生一权重g2,3,并且将各权重施加于对应的音频输入通道以得到中间输出通道C2
此外,右输出通道R2依据右输入通道R1及右环绕输入通道RS1而产生。为达此目的,降混器120依据侧边信息而为右输入通道R1产生一权重g3,3,并且依据侧边信息而为右环绕输入通道RS1产生一权重g3,4,并且将各权重施加于对应的音频输入通道以得到右输出通道R2
本发明的实施例是由下列发现而发想。
现有技术提供降混系数作为在比特流中的元数据。
扩展现有技术的方法是通过频率选择性的降混系数、额外通道(如原通道配置的音频通道,如高度信息)、及/或使用于目标通道配置的额外格式。换言之,3D音频格式的降混矩阵应该通过输入格式的额外通道,特别是通过3D音频格式的高度通道(height channel)而得到扩展。论到额外格式,许多输出格式应该被3D音频所支持。在5.0或5.1信号的情况下,降混只能对立体声或单音(也许可能)产生影响,当通道配置包含大量的通道时,需要考虑到数个输出格式彼此相关。当配置为22.2通道时,这些通道可能为单音(mono)、立体声、5.1或不同的7.1变体等等。
然而,这些扩展系数的传输的期望比特率将大幅增加。对于特定的格式来说,定义额外降混系数并且用现有降混元数据(请参照给MPEG的7.1提案,输出文件N12980)结合它们是合理的。
在3D音频的领域中,通道配置在传送器端与接收器端的期望组合是有很多的,并且数据量也超过能接受的比特率。然而,冗余缩减编码(例如霍夫曼编码(huffman coding))可将数据量缩减至可接受的量。
此外,如上所述的降混系数可具有参数化的特征。
然而尽管如此,期望比特率在这种方法下仍然是大幅增加的。
根据上述可知,扩展已建立的方法是不实际的,理由之一为数据率会变得不成比例的高。
一个通用的时间域的降混可由下列方程式来叙述:
yn(t)=cnm·xm(t)
其中,y(t)为一降混的输出信号,x(t)为输入信号,n为音频输入通道的索引,m为输出通道的索引。mth输入通道的于nth输出通道的降混系数对应于cnm。以一个已知例子为例,5通道信号与2通道立体声信号的降混可由下表示:
L′(t)=L(t)+cC·C(t)+cR·LS(t)
R′(t)=R(t)+cC·C(t)+cR·RS(t)
降混系数为静态并被应用至音频信号的每一取样(sample)。它们可作为元数据而被增加至音频比特流中。术语“频率选择性的降混系数”是关涉特定频带所使用个别降混系数的可能性。在结合时间变异系数的情况下,译码器端的降混可从编码器来控制。这样,一个音频帧(audio frame)的降混变成:
yn(k,s)=cnm(k)·xm(k,s)
其中,k为频带(如混合QMF频带(hybrid QMF band)),s为一混合QMF频带的子取样(subsamples)。
如上所述,这些系数的传输会导致高比特率。
本发明的实施例提供使用描述性的侧边信息。降混器120被配置为依据此(描述性)侧边信息来降混三个或更多音频输入通道以得到两个或更多音频输出通道。
对音频通道、音频通道的组合或音频物体的描述性信息可提升降混程序的效能,这是由于音频的特征已被考虑进去。
通常,上述的侧边信息是指该三个或更多音频输入通道中的至少一个的特征,或指记录于一个或多个音频输入通道内的一个或多个音波的特征,或指发出被记录于一个或多个音频输入通道内的一个或多个音波的音源的特征。
举例来说,侧边信息可为下列参数中的一个或多个:
-干/湿比例
-环境因素的量
-扩散性
-方向性
-音源宽度
-音源距离
-到达方向
这些参数的定义由本领域的技术人员所熟知。这些参数的定义也可在所附文献([1]-[24])中查找到。例如,在[15]、[16]、[17]、[18]、[19]及、[14]提供了环境因素量的定义。另外,如本领域的技术人员所周知的,干/湿比例的定义可从直接/环境(direct/ambience)的定义直接推导出。术语扩散性及方向性也于[21]中说明,且其也为本领域的技术人员所皆知。
所建议的参数被提供作为侧边信息以导引降混处理,例如从M个输入通道产生N个输出通道,其中N小于M。
作为侧边信息提供的上述参数不一定要为常数,而是上述参数可随时间变化(上述参数为时间变异参数)。
一般而言,侧边信息可包含一些在频率选择性的方法中可使用的参数。
已传送的侧边信息的应用可执行于译码器端的后处理/呈现。参数与其权重的评估依据于目标通道配置以及呈现端的特征。
上述参数可有关于通道、通道组或物体。
在降混器120实行降混的过程中,这些参数可使用于一降混处理以决定一通道或物体的权重。
举例来说,假如一高度通道排外性地包含回响及/或反射,它可能会在降混中对音质产生不良的影响。在此情况下,它在降混所得的音频通道中的分量应该要下降。在控制降混的情况下,“环境因素量”参数的高值会导致此通道有低降混系数。反过来说,假如高度通道包含直接信号,则它应会被大范围地反射至降混所得到的音频通道并因此导致高降混系数(具有较高的权重)。
举例来说,一个3D音频产生的高度通道可包含直接分量以及反射与回响,以为了封包的目的。假如这些高度通道与水平面(horizontal plan)的通道混合,反射与回响将会造成不佳的混合效果,同时直接分量的前景音频内容应会全部被降混。
此信息可使用来调整降混系数(较合适者为频率选择性的方法)。上述标记(this mark)可适用于如上所述的所有参数。频率选择性可使降混达到精细的控制。
举例来说,施加于一音频输入通道以得到一调整音频通道的权重可依据各个侧边信息来决定。
举例来说,假如不是背景通道(如一环绕系统的左环绕通道或右环绕通道),而是前景通道(如一环绕系统的左、中间或右通道)被用作为音频输出通道,则:
-假如侧边信息指出一音频输入通道的环境因素的量为高,则此音频输入通道具有一小权重可被确定用于产生前景音频输出通道。藉此,从该音频输入通道产生的调整音频通道对于产生各个音频输出通道上只占了些许的影响。
-假如侧边信息指出一音频输入通道的环境因素的量为低,则此音频输入通道具有一较大权重可被确定用于产生前景音频输出通道。藉此,从该音频输入通道产生的调整音频通道对于产生各个音频输出通道上占了相对大的影响。
在一实施例中,侧边信息可指三个或更多音频输入通道中的各音频输入通道的环境因素的量。降混器可依据三个或更多音频输入通道中的各音频输入通道的环境因素的量来降混该三个或更多音频输入通道以得到该两个或更多音频输出通道。
举例来说,侧边信息可包含一参数,其定义三个或更多音频输入通道中的各音频输入通道的环境因素的量,例如,各音频输入通道可包含环境信号分量及/或直接信号分量。例如,一音频输入通道的环境因素量可设为一实数ai,其中i系指一三个或更多音频输入通道中的一个音频输入通道,且其中ai的范围可例如为0≤ai≤1。当ai=0时可指各个音频输入通道不包含任何环境信号分量,ai=1可指各个音频输入通道只包含环境信号分量。一般而言,一音频输入通道的一环境因素量可例如指在该音频输入通道内的环境信号分量的量。
例如,请再参照图3,在一实施例中,能够决定环境信号分量总是不被期望的。降混器120可依据下列公式来决定图3中的权重。
gc,i=(1–ai)/4其中c∈{1,2,3};i∈{1,2,3,4};0≤ai≤1
在此实施例中,对于三个或更多音频输出通道来说,所有权重被确定为相同。
然而,在其他实施例中,可以确定,相较于其他音频输出通道,一些音频输出通道对于环境因素的接受度可更高。例如,在图3中,可以确定第一音频输出通道AOC1与第三音频输出通道AOC3可被视为相较于第二音频输出通道AOC2更为可接受环境因素。这样,降混器120可依据下列公式来决定图3中的权重。
g1,i=(1–(ai/2))/4其中i∈{1,2,3,4};0≤ai≤1
g2,i=(1–ai)/4其中i∈{1,2,3,4};0≤ai≤1
g3,i=(1–(ai/2))/4其中i∈{1,2,3,4};0≤ai≤1
在此实施例中,可确定三个或更多音频输出通道中的一个的权重与三个或更多音频输出通道中的另一个的权重不同。
图4中的权重可由参照图3所描述的两个实施例的原则类似地确定,例如,类似于第一实施例,如下:
g1,1=(1–ai)/2;g1,2=(1–ai)/2;g2,2=(1–ai)/2;
g2,3=(1–ai)/2;g3,3=(1–ai)/2;g3,4=(1–ai)/2;
需注意者,图3及图4的权重gc,i可由其他期望合适的方法来决定。
根据另一实施例,侧边信息可指三个或多个音频输入通道的各音频输入通道的一扩散性(diffuseness)或三个或多个音频输入通道的各音频输入通道的一方向性(directivity)。降混器可被配置为依据三个或多个音频输入通道的各音频输入通道的扩散性或三个或多个音频输入通道的各音频输入通道的方向性而降混该三个或更多音频输入通道以得到该两个或更多音频输出通道。
在此实施例中,侧边信息可例如包含一参数,其定义三个或多个音频输入通道的各音频输入通道的扩散性。例如,各音频输入通道可包含扩散信号分量及/或直接信号分量。例如,音频输入通道的扩散性可设为一实数di,其中i指三个或多个音频输入通道的一音频输入通道,di的范围可例如为0≤di≤1。当di=0时可指各个音频输入通道不包含任何扩散信号分量,di=1可指各个音频输入通道只包含扩散信号分量。一般而言,一音频输入通道的一扩散性可例如指在该音频输入通道内的扩散信号分量的量。
如此,在图3中的实施例可确定权重gc,i如下:
gc,i=(1–di)/4其中c∈{1,2,3};i∈{1,2,3,4};0≤di≤1
或是如下:
g1,i=(1–(di/2))/4其中i∈{1,2,3,4};0≤di≤1
g2,i=(1–di)/4其中i∈{1,2,3,4};0≤di≤1
g3,i=(1–(di/2))/4其中i∈{1,2,3,4};0≤di≤1
或者由其他合适的方法来决定。
或者,侧边信息可例如包含一参数,其定义三个或多个音频输入通道的各音频输入通道的的方向性。例如,音频输入通道的方向性可设为一实数di,其中i指三个或多个音频输入通道中的一音频输入通道,且其中di的范围可例如为0≤diri≤1。当diri=0时可指各个音频输入通道的之信号分量具有一低方向性,diri=1可指各个音频输入通道的信号分量具有一高方向性。
如此,在图3中的实施例中可确定权重gc,i如下:
gc,i=diri/4其中c∈{1,2,3};i∈{1,2,3,4};0≤diri≤1
或是如下:
g1,i=0,125+diri/8其中i∈{1,2,3,4};0≤diri≤1
g2,i=diri/4其中i∈{1,2,3,4};0≤diri≤1
g3,i=0,125+diri/8其中i∈{1,2,3,4};0≤diri≤1
或者由其他合适的方法来决定。
在另一实施例中,侧边信息可指声音的一到达方向。降混器可被配置为依据声音的到达方向来降混该三个或多个音频输入通道以得到两个或多个音频输出通道。
举例来说,到达方向,例如是音波的到达方向。被一音频输入通道所记录的一音波的到达方向可设为一角度其中i指三个或多个音频输入通道中的一音频输入通道,其中的范围可例如为例如,当音波的声音分量的到达方向接近90°时,其具有一高权重,且当音波的声音分量的到达方向接近270°时,其具有一低权重或者在音频输出信号上没有任何权重。如此,图3的实施例中可确定权重gc,i如下:
其中c∈{1,2,3};i∈{1,2,3,4};
例如,当音频输出通道AOC1与音频输出通道AOC3被视为相较于音频输出通道AOC2更为可接受到达方向为270°时,权重gc,i可决定如下:
其中i∈{1,2,3,4};
其中i∈{1,2,3,4};
其中i∈{1,2,3,4};
或者由其他合适的方法决定。
为达到通过使用描述性侧边信息来对不同的扩音器设定实现音频的再生,可以使用下面中的一个或多个参数:
-到达方向(水平与垂直)
-收听者的不同
-来源的宽度(如扩散性)
特别是在面向对象的3D音频中,这些参数可被使用以控制一物体至目标格式的扩音器的映像(mapping)。
另外,这些参数例如可用于一频率选择性的方法。
“扩散性”值的范围:点音源-平面波-全向性到达波。需注意,扩散性可能不同于环境因素(例如,迷幻电影中不知来自何处的声音)。
根据实施例中,装置100可被配置为将两个或更多音频输出通道中的各音频输出通道馈送至一组两个或多个扩音器中的一扩音器。降混器120可依据一第一组的假想扩音器位置(三个或更多)中的各假想扩音器位置以及依据一第二组的实际扩音器位置(两个或更多)中的各实际扩音器位置来降混该三个或更多音频输入通道以得到该两个或多个音频输出通道。第二组两个或更多实际扩音器位置的各实际扩音器位置可指一组两个或更多扩音器中的扩音器之位置。
举例来说,一音频输入通道可被分配给一假想扩音器位置。另外,一第一音频输出通道是为位于一第一实际扩音器位置的一第一扩音器而产生,一第二音频输出通道是为位于一第二实际扩音器位置的一第二扩音器而产生。假如第一实际扩音器位置与假想扩音器位置的距离小于第二实际扩音器位置与假想扩音器位置的距离,则音频输入通道对第一音频输出通道的影响大于对第二音频输出通道的影响。
举例来说,一第一权重与一第二权重可被产生。第一权重可依据一第一实际扩音器位置与假想扩音器位置之间的距离,第二权重可依据一第二实际扩音器位置与假想扩音器位置之间的距离。第一权重大于第二权重。为产生第一音频输出通道,第一权重可被施加于音频输入通道以产生一第一调整音频通道。为产生第二音频输出通道,第二权重可被施加于音频输入通道以产生一第二调整音频通道。更多的调整音频通道可用同样原则产生以为了其他音频输出通道及/或其他音频输入通道。两个或更多音频输出通道中的各音频输出通道可通过组合其调整音频通道而产生。
图5示出被传送的空间表现信号映像至实际扩音器位置。假想扩音器位置511、512、513、514、515属于第一组假想扩音器位置。实际扩音器位置521、522、523属于第二组实际扩音器位置。
举例来说,位于一假想扩音器位置512的一假想扩音器的一音频输入通道对位于一第一实际扩音器位置521的一第一实际扩音器的一第一音频输出信号以及对位于一第二实际扩音器位置522的一第二实际扩音器的一第二音频输出信号之影响程度,取决于假想扩音器位置512(或其虚拟位置532)分别与第一实际扩音器位置521及第二实际扩音器位置522的接近程度。当假想扩音器位置越靠近实际扩音器位置时,音频输入通道对于对应的音频输出通道的影响就越大。
在图5中,f是指位于假想扩音器位置512的扩音器的一音频输入通道,g1是指位于第一实际扩音器位置521的第一实际扩音器的一第一音频输出通道,g2是指位于第二实际扩音器位置522的第二实际扩音器的一第二音频输出通道,α是指一方位角,β是指一仰角。其中,方位角α与仰角β例如是指从一实际扩音器位置到一假想扩音器位置的方向或者反之亦可。
在一实施例中,三个或更多音频输入通道中的各音频输入通道可被分配给第一组三个或更多假想扩音器位置的假想扩音器位置。例如,当假定一音频输入通道将通过位于一假想扩音器位置的一扩音器进行回放时,此音频输入通道被分配给该假想扩音器位置。两个或多个音频输出通道中的各音频输出通道可被分配给第二组两个或更多实际扩音器位置中的一实际扩音器位置。例如,当一音频输出通道将通过位于一实际扩音器位置的一扩音器进行回放时,此音频输出通道被分配给该实际扩音器位置。降混器可被配置为依据该三个或更多音频输入通道中的至少二个音频输入通道、依据三个或更多音频输入通道中的所述至少二个音频输入通道中的各音频输入通道的假想扩音器位置、并依据所述音频输出通道的实际扩音器位置而产生两个或多个音频输出通道中的各音频输出通道。
图6示出升高的空间信号映像至其他升高位置。被传送的空间信号(通道)为对应于一升高扩音器平面中的扩音器的通道,或是对应于一未升高扩音器平面中的扩音器的通道。假如所有真实扩音器皆设置于单一扩音器平面(未升高扩音器平面),则位于升高扩音器平面中的扩音器的通道需要被馈入未升高扩音器平面的扩音器。
为达此目的,侧边信息包含位于升高扩音器平面中的扩音器的假想扩音器位置611的信息。在未升高扩音器平面中的一对应的虚拟位置631通过降混器来决定,并且通过调整假想升高扩音器的音频输入通道而产生的调整音频通道是依据实际可用扩音器的实际扩音器位置621、622、623、624来产生。
频率选择性可被使用来使降混得到更佳的控制。在“环境因素量”的例子中,一个高度通道可包含空间分量以及直接分量。具有不同特性的频率分量可据此而被表征。
根据实施例,三个或更多音频输入通道中的各音频输入通道包含三个或更多音频物体中的音频物体的音频信号。侧边信息对三个或更多音频物体中的各音频物体而言,包含一音频物体位置,其表示该音频物体的位置。降混器被配置为依据三个或更多音频物体中的各音频物体的音频物体位置来降混该三个或更多音频输入通道而得到该两个或更多音频输出通道。
举例来说,第一音频输入通道包含一第一音频物体的一音频信号。一第一扩音器可设置于一第一实际扩音器位置。一第二扩音器可设置于一第二实际扩音器位置。其中,第一实际扩音器位置与第一音频物体的位置间的距离小于第二实际扩音器位置与第一音频物体的位置间的距离。这样,第一扩音器的第一音频输出通道以及第二扩音器的第二音频输出通道即可被产生,以致第一音频物体的音频信号对第一音频输出通道的影响大于对第二音频输出通道的影响。
举例来说,一第一权重与一第二权重可被产生。第一权重可依据第一实际扩音器位置与第一音频物体的位置之间的距离。第二权重可依据第二实际扩音器位置与第二音频物体的位置之间的距离。第一权重大于第二权重。为产生第一音频输出通道,第一权重可施加于第一音频物体的音频信号以产生一第一调整音频通道。为产生第二音频输出通道,第二权重可施加于第一音频物体的音频信号以产生一第二调整音频通道。更多的调整音频通道可以类似的原则来产生以为了其他的音频输出通道及/或其他音频物体。两个或更多音频输出通道中的各音频输出通道可通过组合其调整音频通道而产生。
图8示出根据实施例的一系统。
系统包含一编码器810,用于对三个或更多未处理音频通道进行编码而得到三个或更多已编码音频通道,并且用于将额外信息编码在三个或更多未处理音频通道上而得到侧边信息。
此外,系统包含根据上述实施例中一个的装置100,用于接收三个或更多已编码音频通道作为三个或更多音频输入通道,并用于接收侧边信息,并用于依据侧边信息而从三个或更多音频输入通道产生两个或更多音频输出通道。
图9示出根据实施例的一系统的另一示意图。所示出的导引信息即为侧边信息。由编码器810进行编码而产生M个已编码音频通道,该些已编码音频通道被馈入装置100(以“降混器”表示)以产生两个或更多音频输出通道。于此,N个音频输出通道通过对M个已编码音频通道(装置820的音频输入通道)进行降混而产生。在一实施例中,适用N<M。
虽然很多方面已在装置的叙述中被揭露了,但清楚的是,这些方面同样表示对应方法的说明,其中方块或组件与方法步骤或该方法步骤的特征相对应。同样地,在方法的叙述中所揭露之各方面也可代表对应装置的对应方块或组件或特征。
本发明的分解信号可储存于一数字储存介质上或可在一传输介质上传送,例如为一无线传输介质或一有线传输介质,例如因特网。
根据一些实施要求,本发明的实施例可由硬件或软件而实现。上述实现可例如使用一数字储存介质,如一软盘、DVD、CD、ROM、PROM、EPROM、EEPROM、或闪存,其具有电子可读控制信号储存于内,当与一可编程计算机系统合作(或者能够与其合作)时,使得可执行对应的方法。
根据本发明的一些实施例包含非暂存数据载体(non-transitory datacarrier),其具有电子可读控制信号,其能够与一可编程计算机系统合作,使得可执行本文描述的方法之一。
一般而言,本发明的实施例可实现为一计算机程序产品及一程序代码,当计算机程序产品运行于一计算机时,该程序代码可操作用于执行本发明方法之一。程序代码可例如储存于一机器可读载体上。
其他实施例包含计算机程序,该计算机程序用于执行本文所描述的方法之一并储存于一机器可读载体上。
因此,换言之,本发明方法的实施例为具有一程序代码的一计算机程序,当在一计算机上运行计算机程序时,计算机程序用于执行本文所描述的方法之一。
因此,本发明方法的另一实施例为一数据载体(一数字储存介质或一计算机可读介质等等),其包含记录在其上的用于执行本文中所描述的方法之一的计算机程序。
因此,本发明方法的另一实施例为一数据流或一信号序列,其可代表用于执行本文中所描述的方法之一的计算机程序。上述数据流或信号序列可被配置为例如经由数据传输连接(例如经因特网)来传送。
另一实施例包含一处理装置,例如一计算机或一可编程逻辑设备,被配置为或适配于执行本文中所描述的方法。
另一实施例包含一计算机,已在其上安装有用于执行本文中所描述的方法之一的计算机程序。
在一些实施例中,一可编程逻辑设备(例如一现场可编程门阵列)可使用来执行本文所描述的方法的一些或者所有的功能性。在一些实施例中,一现场可编程门阵列可与一微处理器合作以执行本文所描述的方法之一。通常,方法优选地通过任何硬件装置来执行。
以上所述的实施例仅为说明本发明的原理。应当理解,本文所描述的配置的变型和修改以及细节对本领域的技术人员来说是显然的。因此,本发明旨在由所附即将授权专利的权利要求的范围来限定,而非由本文的实施例的以说明和描述的方式所呈现的特定细节来限定。
参考文献
[1]J.M.Eargle:Stereo/Mono Disc Compatibility:A Survey of theProblems,35th AES Convention,October 1968
[2]P.Schreiber:Four Channels and Compatibility,J.Audio Eng.Soc.,Vol.19,Issue 4,April 1971(2)
[3]D.Griesinger:Surround from stereo,Workshop#12,115th AESConvention,2003
[4]E.C,Cherry(1953):Some experiments on the recognition ofspeech,with one and with two ears,Journal of the Acoustical Society ofAmerica 25,975979
[5]ITU-R Recommendation BS.775-1Multi-channel StereophonicSound System with or without Accompanying Picture,InternationalTelecommunications Union,Geneva,Switzerland,1992-1994
[6]D.Griesinger:Progress in 5-2-5Matrix Systems,103rd AESConvention,September 1997
[7]J.Hull:Surround sound past,present,and future,DolbyLaboratories,1999,www.dolby.com/tech/
[8]C.Faller,F.Baumgarte:Binaural Cue Coding Applied to Stereoand Multi-Channel Audio Compression,112th AES Convention,Munich 2002
[9]C.Faller,F.Baumgarte:Binaural Cue Coding Part II:Schemes andApplications,IEEE Trans.Speech and Audio Proc.,vol.11,no.6,pp.520–531,Nov.2003
[10]J.Breebaart,J.Herre,C.Faller,J.Rdn,F.Myburg,S.Disch,H.Purnhagen,G.Hotho,M.Neusinger,K.Kjrling,W.Oomen:MPEG SpatialAudio Coding/MPEG Surround:Overview and Current Status,119th AESConvention,October 2005.
[11]ISO/IEC 14496-3,Chapter 4.5.1.2.2
[12]B.Runow,J.Optimierter Stereo-Downmix von5.1-Mehrkanalproduktionen(An optimized Stereo Downmix of a multichannelaudio production),25.Tonmeistertagung–VDT international convention,November 2008
[13]J.Thompson,A.Warner,B.Sm ith:An Active MultichannelDownmix Enhancement for Minimizing Spatial and Spectral Distortions,127AES Convention,October 2009
[14]C.Faller:Multiple-Loudspeaker Playback of Stereo Signals.JAESVolume 54 Issue 11 pp.1051-1064;November 2006
[15]AVENDANO,Carlos u.JOT,Jean-Marc:Ambience Extraction andSynthesis from Stereo Signals for Multi-Channel Audio Mix-Up.In:Proc.orIEEE Internat.Conf.on Acoustics,Speech and Signal Processing(ICASSP),May 2002
[16]US 7,412,380 B1:Ambience extraction and modification forenhancement and upmix of audio signals
[17]US 7,567,845 B1:Ambience generation for stereo signals
[18]US 2009/0092258 A1:CORRELATION-BASED METHOD FORAMBIENCE EXTRACTION FROM TWO-CHANNEL AUDIO SIGNALS
[19]US 2010/0030563 A1:Uhle,Walther,Herre,Hellmuth,Janssen:APPARATUS AND METHOD FOR GENERATING AN AMBIENT SIGNALFROM AN AUDIO SIGNAL,APPARATUS AND METHOD FORDERIVING A MULTI-CHANNEL AUDIO SIGNAL FROM AN AUDIOSIGNAL AND COMPUTER PROGRAM
[20]J.Herre,H.Purnhagen,J.Breebaart,C.Faller,S.Disch,K.E.Schuijers,J.Hilpert,and F.Myburg,The Reference Model Architecture forMPEG Spatial Audio Coding,presented at the 118th Convention of the AudioEngineering Society,J.Audio Eng.Soc.(Abstracts),vol.53,pp.693,694(2005 July/Aug.),convention paper 6447
[21]Ville Pulkki:Spatial Sound Reproduction with Directional AudioCoding.JAES Volume 55 Issue 6 pp.503-516;June 2007
[22]ETSI TS 101 154,Chapter C
[23]MPEG-4 downmix metadata
[24]DVB downmix metadata

Claims (15)

1.一种用于从三个或更多音频输入通道产生两个或更多音频输出通道的装置(100),其中,所述装置(100)包含:
接收接口(110),用于接收所述三个或更多音频输入通道以及用于接收侧边信息,以及
降混器(120),用于依据所述侧边信息降混所述三个或更多音频输入通道以得到所述两个或更多音频输出通道,
其中,所述音频输出通道的数量小于所述音频输入通道的数量,以及
其中,所述侧边信息是指所述三个或更多音频输入通道中的至少一个的特征、或指记录于一个或多个所述音频输入通道内的一个或多个音波的特征、或指发出被记录于所述一个或多个音频输入通道内的一个或多个音波的一个或多个音源的特征。
2.根据权利要求1所述的装置(100),其中,所述降混器(120)被配置为通过依据所述侧边信息调整所述三个或更多音频输入通道中的至少两个音频输入通道以得到一组调整音频通道,并通过将所述一组调整音频通道中的各调整音频通道进行组合来产生所述两个或更多音频输出通道中的各音频输出通道,从而得到所述音频输出通道。
3.根据权利要求2所述的装置(100),其中,所述降混器(120)被配置为通过依据所述侧边信息调整所述三个或更多音频输入通道中的各音频输入通道以得到所述一组调整音频通道,并通过将所述一组调整音频通道中的各调整音频通道进行组合来产生所述两个或更多音频输出通道中的各音频输出通道,从而得到所述音频输出通道。
4.根据权利要求2或3所述的装置(100),其中,所述降混器(120)被配置为通过依据所述一个或多个音频输入通道中的音频输入通道并依据所述侧边信息来确定一权重并通过将所述权重应用于所述音频输入通道而产生所述一组调整音频通道中的各调整音频通道,以产生所述两个或更多音频输出通道中的各音频输出通道。
5.根据前述权利要求中的任一项所述的装置(100),
其中,所述侧边信息是指所述三个或更多音频输入通道中的各音频输入通道的环境因素的量,并且
其中,所述降混器(120)被配置为依据所述三个或更多音频输入通道中的各音频输入通道的所述环境因素的量来降混所述三个或更多音频输入通道以得到所述两个或更多音频输出通道。
6.根据前述权利要求中的任一项所述的装置(100),
其中,所述侧边信息是指所述三个或更多音频输入通道中的各音频输入通道的扩散性或者所述三个或更多音频输入通道中的各音频输入通道的方向性,并且
其中,所述降混器(120)被配置为依据所述三个或更多音频输入通道中的各音频输入通道的所述扩散性或者依据所述三个或更多音频输入通道中的各音频输入通道的所述方向性来降混所述三个或更多音频输入通道以得到所述两个或更多音频输出通道。
7.根据前述权利要求中的任一项所述的装置(100),
其中,所述侧边信息是指声音的到达方向,并且
其中,所述降混器(120)被配置为依据所述声音的所述到达方向来降混所述三个或更多音频输入通道以得到所述两个或更多音频输出通道。
8.根据前述权利要求中的任一项所述的装置(100),其中,所述两个或更多音频输出通道中的各音频输出通道为操纵扩音器用的扩音器通道。
9.根据权利要求1至7中的任一项所述的装置(100),
其中,所述装置(100)被配置为将所述两个或更多音频输出通道中的各音频输出通道馈送至一组两个或更多扩音器中的扩音器,
其中,所述降混器(120)被配置为依据第一组三个或更多假想扩音器位置中的各假想扩音器位置以及依据第二组两个或更多实际扩音器位置中的各实际扩音器位置来降混所述三个或更多音频输入通道以得到所述两个或更多音频输出通道,并且
其中,所述第二组的两个或更多实际扩音器位置中的各实际扩音器位置是指所述一组两个或更多扩音器中的扩音器的位置。
10.根据权利要求9所述的装置(100),
其中,所述三个或更多音频输入通道中的各音频输入通道被分配给所述第一组三个或更多假想扩音器位置中的假想扩音器位置,
其中,所述两个或更多音频输出通道中的各音频输出通道被分配给所述第二组两个或更多实际扩音器位置中的实际扩音器位置,并且
其中,所述降混器(120)被配置为依据所述三个或更多音频输入通道中的至少两个音频输入通道、依据所述三个或更多音频输入通道中的所述至少两个音频输入通道中的各音频输入通道的所述假想扩音器位置以及依据所述音频输出通道的所述实际扩音器位置而产生所述两个或更多音频输出通道中的各音频输出通道。
11.根据权利要求1至7中的任一项所述的装置(100),
其中,所述三个或更多音频输入通道中的各音频输入通道包含三个或更多音频物体中的音频物体的音频信号,
其中,所述侧边信息包含用于所述三个或更多音频物体中的各音频物体的音频物体位置,所述音频物体位置是指所述音频物体的位置,并且
其中,所述降混器(120)被配置为依据所述三个或更多音频物体中的各音频物体的所述音频物体位置来降混所述三个或更多音频输入通道而得到所述两个或更多音频输出通道。
12.根据前述权利要求中的任一项所述的装置(100),其中,所述降混器(120)被配置为依据所述侧边信息来降混四个或更多音频输入通道而得到三个或更多音频输出通道。
13.一种系统,包含:
编码器(810),用于对三个或更多未处理音频通道进行编码以得到三个或更多已编码音频通道,并且用于将额外信息编码在所述三个或更多未处理音频通道上以得到侧边信息,以及
根据前述权利要求中的任一项所述的装置(100),用于接收所述三个或更多已编码音频通道作为三个或更多音频输入通道,并且用于接收所述侧边信息,并且用于依据所述侧边信息而从所述三个或更多音频输入通道产生两个或更多音频输出通道。
14.一种用于从三个或更多音频输入通道产生两个或更多音频输出通道的方法,其中,所述方法包含:
接收所述三个或更多音频输入通道及接收侧边信息,以及
依据所述侧边信息来降混所述三个或更多音频输入通道以得到所述两个或更多音频输出通道,
其中,所述音频输出通道的数量小于所述音频输入通道的数量,且
其中,所述侧边信息是指所述三个或更多音频输入通道中的至少一个的特征、或指记录于一个或多个所述音频输入通道内的一个或多个音波的特征、或指发出被记录于所述一个或多个音频输入通道内的一个或多个音波的一个或多个音源的特征。
15.一种计算机程序,当在计算机或信号处理器上被执行时用于执行权利要求14所述的方法。
CN201380058866.1A 2012-09-12 2013-09-12 为3d音频提供增强的导引降混性能的装置及方法 Active CN104782145B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261699990P 2012-09-12 2012-09-12
US61/699,990 2012-09-12
PCT/EP2013/068903 WO2014041067A1 (en) 2012-09-12 2013-09-12 Apparatus and method for providing enhanced guided downmix capabilities for 3d audio

Publications (2)

Publication Number Publication Date
CN104782145A true CN104782145A (zh) 2015-07-15
CN104782145B CN104782145B (zh) 2017-10-13

Family

ID=49226131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380058866.1A Active CN104782145B (zh) 2012-09-12 2013-09-12 为3d音频提供增强的导引降混性能的装置及方法

Country Status (20)

Country Link
US (4) US9653084B2 (zh)
EP (1) EP2896221B1 (zh)
JP (1) JP5917777B2 (zh)
KR (1) KR101685408B1 (zh)
CN (1) CN104782145B (zh)
AR (1) AR092540A1 (zh)
AU (1) AU2013314299B2 (zh)
BR (6) BR112015005456B1 (zh)
CA (1) CA2884525C (zh)
ES (1) ES2610223T3 (zh)
HK (1) HK1212537A1 (zh)
MX (1) MX343564B (zh)
MY (1) MY181365A (zh)
PL (1) PL2896221T3 (zh)
PT (1) PT2896221T (zh)
RU (1) RU2635884C2 (zh)
SG (1) SG11201501876VA (zh)
TW (1) TWI545562B (zh)
WO (1) WO2014041067A1 (zh)
ZA (1) ZA201502353B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2635884C2 (ru) * 2012-09-12 2017-11-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио
CN108810793B (zh) * 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
EP2830332A3 (en) 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
KR102160254B1 (ko) 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
KR102343453B1 (ko) * 2014-03-28 2021-12-27 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
RU2656986C1 (ru) 2014-06-26 2018-06-07 Самсунг Электроникс Ко., Лтд. Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи
JP6640849B2 (ja) 2014-10-31 2020-02-05 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
EP3258467B1 (en) * 2015-02-10 2019-09-18 Sony Corporation Transmission and reception of audio streams
GB2540175A (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Spatial audio processing apparatus
US10659904B2 (en) 2016-09-23 2020-05-19 Gaudio Lab, Inc. Method and device for processing binaural audio signal
JP2019533404A (ja) * 2016-09-23 2019-11-14 ガウディオ・ラボ・インコーポレイテッド バイノーラルオーディオ信号処理方法及び装置
GB2572419A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
US11356791B2 (en) 2018-12-27 2022-06-07 Gilberto Torres Ayala Vector audio panning and playback system
JP2022521694A (ja) 2019-02-13 2022-04-12 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオオブジェクトクラスタリングのための適応型音量正規化
BR112021024735A2 (pt) * 2019-06-12 2022-01-18 Fraunhofer Ges Forschung Ocultação de perda de pacote para codificação de áudio espacial com base em dirac
WO2022258876A1 (en) * 2021-06-10 2022-12-15 Nokia Technologies Oy Parametric spatial audio rendering
DE102021122597A1 (de) 2021-09-01 2023-03-02 Synotec Psychoinformatik Gmbh Mobiler, immersiver 3D-Audioraum

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1805010A (zh) * 2005-01-14 2006-07-19 株式会社东芝 音频混合处理设备和音频混合处理方法
US20070269063A1 (en) * 2006-05-17 2007-11-22 Creative Technology Ltd Spatial audio coding based on universal spatial cues
CN101356573A (zh) * 2006-01-09 2009-01-28 诺基亚公司 对双耳音频信号的解码的控制

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0795698A (ja) 1993-09-21 1995-04-07 Sony Corp オーディオ再生装置
US7567845B1 (en) 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
JP3519724B2 (ja) * 2002-10-25 2004-04-19 パイオニア株式会社 情報記録媒体、情報記録装置及び情報記録方法並びに情報再生装置及び情報再生方法
US7412380B1 (en) 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US7490044B2 (en) * 2004-06-08 2009-02-10 Bose Corporation Audio signal processing
US7853022B2 (en) 2004-10-28 2010-12-14 Thompson Jeffrey K Audio spatial environment engine
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US20060262936A1 (en) * 2005-05-13 2006-11-23 Pioneer Corporation Virtual surround decoder apparatus
CN101390443B (zh) 2006-02-21 2010-12-01 皇家飞利浦电子股份有限公司 音频编码和解码
US9014377B2 (en) 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
DE102006050068B4 (de) 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
RU2417549C2 (ru) * 2006-12-07 2011-04-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
CA2670864C (en) * 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
AU2008215231B2 (en) * 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8908873B2 (en) * 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US8107631B2 (en) * 2007-10-04 2012-01-31 Creative Technology Ltd Correlation-based method for ambience extraction from two-channel audio signals
RU2443075C2 (ru) 2007-10-09 2012-02-20 Конинклейке Филипс Электроникс Н.В. Способ и устройство для генерации бинаурального аудиосигнала
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
WO2010091736A1 (en) * 2009-02-13 2010-08-19 Nokia Corporation Ambience coding and decoding for audio applications
KR20120006060A (ko) * 2009-04-21 2012-01-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2489206A1 (fr) * 2009-10-12 2012-08-22 France Telecom Traitement de donnees sonores encodees dans un domaine de sous-bandes
EP2464145A1 (en) * 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a downmixer
US9165558B2 (en) * 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
TWI651005B (zh) * 2011-07-01 2019-02-11 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
US9473870B2 (en) * 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
RU2635884C2 (ru) * 2012-09-12 2017-11-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио
KR102226420B1 (ko) * 2013-10-24 2021-03-11 삼성전자주식회사 다채널 오디오 신호 생성 방법 및 이를 수행하기 위한 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1805010A (zh) * 2005-01-14 2006-07-19 株式会社东芝 音频混合处理设备和音频混合处理方法
CN101356573A (zh) * 2006-01-09 2009-01-28 诺基亚公司 对双耳音频信号的解码的控制
US20070269063A1 (en) * 2006-05-17 2007-11-22 Creative Technology Ltd Spatial audio coding based on universal spatial cues

Also Published As

Publication number Publication date
MY181365A (en) 2020-12-21
US20190287540A1 (en) 2019-09-19
TW201411606A (zh) 2014-03-16
CA2884525A1 (en) 2014-03-20
US10347259B2 (en) 2019-07-09
MX343564B (es) 2016-11-09
CN104782145B (zh) 2017-10-13
AU2013314299A1 (en) 2015-04-02
US20150199973A1 (en) 2015-07-16
US9653084B2 (en) 2017-05-16
JP5917777B2 (ja) 2016-05-18
CA2884525C (en) 2017-12-12
ES2610223T3 (es) 2017-04-26
MX2015003195A (es) 2015-07-14
BR122021021503B1 (pt) 2023-04-11
AR092540A1 (es) 2015-04-22
WO2014041067A1 (en) 2014-03-20
US10950246B2 (en) 2021-03-16
US20170249946A1 (en) 2017-08-31
HK1212537A1 (zh) 2016-06-10
BR122021021506B1 (pt) 2023-01-31
KR20150064079A (ko) 2015-06-10
AU2013314299B2 (en) 2016-05-05
SG11201501876VA (en) 2015-04-29
EP2896221A1 (en) 2015-07-22
PL2896221T3 (pl) 2017-04-28
BR112015005456B1 (pt) 2022-03-29
RU2635884C2 (ru) 2017-11-16
BR112015005456A2 (pt) 2017-07-04
RU2015113161A (ru) 2016-11-10
BR122021021487B1 (pt) 2022-11-22
KR101685408B1 (ko) 2016-12-20
US20210134304A1 (en) 2021-05-06
ZA201502353B (en) 2016-01-27
EP2896221B1 (en) 2016-11-02
PT2896221T (pt) 2017-01-30
BR122021021500B1 (pt) 2022-10-25
TWI545562B (zh) 2016-08-11
BR122021021494B1 (pt) 2022-11-16
JP2015532062A (ja) 2015-11-05

Similar Documents

Publication Publication Date Title
CN104782145A (zh) 为3d音频提供增强的导引降混性能的装置及方法
US11657826B2 (en) Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
JP5563647B2 (ja) マルチチャンネル復号化方法及びマルチチャンネル復号化装置
JP6133422B2 (ja) マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
JP6732739B2 (ja) オーディオ・エンコーダおよびデコーダ
US10638243B2 (en) Multichannel signal processing method, and multichannel signal processing apparatus for performing the method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Munich, Germany

Applicant after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant