CN105934955A - 用于生成多个音频声道的装置和方法 - Google Patents

用于生成多个音频声道的装置和方法 Download PDF

Info

Publication number
CN105934955A
CN105934955A CN201580003783.1A CN201580003783A CN105934955A CN 105934955 A CN105934955 A CN 105934955A CN 201580003783 A CN201580003783 A CN 201580003783A CN 105934955 A CN105934955 A CN 105934955A
Authority
CN
China
Prior art keywords
speaker
imagination
energy distribution
arranges
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580003783.1A
Other languages
English (en)
Other versions
CN105934955B (zh
Inventor
克里斯汀·鲍斯
克里斯汀·厄泰尔
约翰内斯·希尔珀特
亚琴·昆兹
迈克尔·费希尔
弗洛里安·舒
伯恩哈德·格瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN105934955A publication Critical patent/CN105934955A/zh
Application granted granted Critical
Publication of CN105934955B publication Critical patent/CN105934955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种用于生成用于第一扬声器设置的多个音频声道的装置的特征在于假想扬声器确定器、能量分布计算器、处理器和渲染器。假想扬声器确定器被配置为确定未包含在第一扬声器设置中的假想扬声器的位置,以获得包含该假想扬声器的第二扬声器设置。能量分布计算器被配置为计算从假想扬声器到第二扬声器设置中的其他扬声器的能量分布。处理器被配置为重复能量分布,以获得针对从第二扬声器设置到第一扬声器设置的下混频的下混频信息。渲染器被配置为使用下混频信息生成该多个音频声道。

Description

用于生成多个音频声道的装置和方法
技术领域
本发明涉及用于生成用于扬声器设置的多个音频声道的装置和方法。
背景技术
空间音频编解码硬件和软件在本领域中是众所周知的,并例如在MPEG环绕标准中进行了标准化。空间音频系统包括一定数目的扬声器及相应音频声道,例如,左声道、中央声道、右声道、左环绕声道、右环绕声道和低频增强声道。每个声道通常由相应扬声器来再现。输出设置中对扬声器的放置通常是固定的,且例如取决于5.1格式、7.1格式等。根据相应格式来定义扬声器的位置。一些设置将扬声器位置定义在收听者位置之上。该扬声器也被称为上帝之声(VoG)。一些格式还可以定义位置在收听者的扬声器之下。相应地,该扬声器可被称为地狱之声(VoH)。为了生成对扬声器设置中的扬声器的音频信号进行定义的音频声道,可以使用矢量基幅度平移(VBAP)方法。VBAP使用指向扬声器设置的扬声器的一组N个单位矢量l1,...,lN。在扬声器设置被配置为再现三维声学场景的情况下,将该扬声器设置表示为3D扬声器设置。通过这些扬声器矢量的线性组合来定义由Cartesian单位矢量P给出的平移方向。
p=[l1,...,lN][g1,...,gN]T (1)
其中,gn表示应用于ln.的缩放因子。在中,通过3个矢量基来形成矢量空间。因此,如果活跃扬声器的数目且因此非零缩放因子的数目被限制为3,则一般可通过矩阵取逆来求解(1)。实际上,这是通过定义扬声器之间的三角形网格并通过选择针对其间区域的那些三元组来完成的。这可导致关于以下方面要应用的缩放因子的解
[gn1,gn2,gn3]T=[ln1,ln2,ln3]-1p, 2)
其中,{n1,n2,n3}表示活跃的扬声器三元组。最后,归一化(其确保功率归一化的输出信号)导致最终平移增益a1,...,aN
a n = g n | | [ g 1 , ... , g N ] T | | - - - 3 )
MPEG-H解码器中包括的对象渲染器使用VBAP来渲染针对给定扬声器配置的音频对象。如果扬声器设置不包括T0(“上帝之声”)扬声器(如9.1扬声器设置),则其仰角相对于收听者的位置大于35°的对象被限制为35°仰角(上扬声器的缺省仰角角度)。然而作为实际解决方案,该解决方案很明显不是最优的,因为其可能改变所再现的声学场景。
在9.1扬声器设置(即,根据9.1格式的扬声器设置)中,将上半球划分为两个三角形的备选方案将导致不对称,且在收听者正上方的对象会因此由两个相向的扬声器来再现。因此,与音频对象将从左上前方向右上后方移动相比,例如从右上前方向左上后方移动的音频对象听起来将会不同,即使扬声器设置是对称的。该困境的解决方案是使用N向(N-wise)平移,其中,对于上半球中的对象而言,所有的上扬声器都涉及到。将VBAP平移从三个扬声器扩展为N个扬声器称为N向平移。可通过由三角形的边规定的图形给出相邻关系,其例如将会由MPEG解码器计算。可例如通过形成具有N个顶点的一个或多个多面体来获得三角形。可由扬声器形成顶点。可在多面体的外表面之外形成三角形。
VBAP平移方法要求针对所有立体角的正确三角测量。在当前的MPEG-H 3D参考软件中,针对固定数目的扬声器设置来预计算该三角测量并通过表格的形式给出。这在当前将所支持的扬声器设置限制为给定的设置或限制为仅相差较小位移的设置。
对扬声器位置进行定义的音频格式引导用户(例如收听者)将扬声器放置在这些所定义的位置处。例如在将扬声器定义为围绕收听者呈环形或环形路径布置的情况下,这样的要求可能难以满足。一些用户,特别是居住在公寓中的用户,需要适应这样的设置,因为具有扬声器设置的起居室是矩形的而不是圆形的,并且用户更愿意将扬声器放得靠近墙而不是在房间的中间。
因此,例如需要允许更灵活的扬声器设置的音频解码概念。
发明内容
本发明的目标是提供针对更灵活的音频编码装置和方法的概念。
通过独立权利要求的主题来解决该目标。
本发明的其他有利修改是从属权利要求的主题。
本发明的实施例涉及用于生成用于第一扬声器设置的多个音频声道的装置。该装置包括:假想扬声器确定器,用于确定未包含在第一扬声器设置中的假想扬声器的位置。通过确定假想扬声器的位置,获得包含假想扬声器的第二扬声器设置。该装置还包括:能量分布计算器,用于计算从假想扬声器到第二扬声器设置中的其他扬声器的能量分布。该装置还包括:处理器,重复所述能量分布,以获得针对从第二扬声器设置到第一扬声器设置的下混频的下混频信息。该装置的渲染器被配置为使用下混频信息生成该多个音频声道。
发明人已发现,通过确定虚拟(即,假想)扬声器的位置,可以如同真实的设置(第一设置)将会关于扬声器的数目和/或扬声器的位置与所定义的配置匹配一样来处理音频数据(例如针对定义的格式进行格式化的电影的3D音频数据)。为了控制真实扬声器,根据能量分布对假想的第二设置进行下混频,使得可以如同第一设置(真实实现的设置)是第二设置(例如,由格式定义的设置)一样来控制该第一设置。
这使得由相应格式定义的音频声道例如可适应于在收听者的家中实现的真实扬声器设置。
本发明的其他实施例涉及一种装置,其中,处理器被配置为基于能量分布生成能量分布矩阵。能量分布矩阵的元素可以表示假想扬声器到另一扬声器的能量分布。处理器被配置为计算该能量分布矩阵的幂。能量分布矩阵的幂使所获得的矩阵的元素减小或收敛到所定义的阈值,使得对于进一步的处理而言,这些元素可被忽略。因此,可基于能量分布矩阵的幂来获得下混频信息。下混频信息指示如何控制第一扬声器设置中的扬声器模拟第二扬声器设置。
本发明的其他实施例涉及一种还包括能量分布计算器的装置,能量分布计算器包括相邻估计器。相邻估计器被配置为确定作为假想扬声器的相邻扬声器的至少一个扬声器。能量分布计算器被配置为计算假想扬声器到虚扬声器中的所述至少一个相邻扬声器的能量分布。
通过确定假想扬声器的相邻扬声器,相应的假想扬声器可被布置在任何位置,使得第二扬声器设置可被配置为根据预定义设置(例如,某个格式)来实现。另一好处是在重复相邻估计时可针对改变的第一扬声器设置生成该多个音频声道。因此,相同的真实扬声器设置可例如适配为在一个时间再现5.1多声道信号,且在另一时间再现7.1多声道信号。
其他的实施例涉及装置,其中,相邻估计器被配置为确定作为假想扬声器的相邻扬声器的至少两个扬声器,以及能量分布计算器被配置为计算能量分布,使得作为假想扬声器的相邻扬声器的所述至少两个扬声器之间的能量分布在预定义的容限内相等,即均匀分布。预定义容限可例如是与均匀分布值偏差0.1%、1%或10%。
通过计算在相邻扬声器之间均匀分布的能量,可确保能量分布矩阵的幂的收敛,使得可获得下混频信息的唯一结果。
本发明的其他实施例涉及一种装置,其中,相邻估计器被配置为确定作为假想扬声器的相邻扬声器的至少两个扬声器,以及作为假想扬声器的相邻扬声器的所述至少两个扬声器中的至少一个扬声器是假想扬声器。好处是,即使第一扬声器设置有一个以上的扬声器不同于第二扬声器设置,也可以获得下混频信息。
本发明的其他实施例涉及一种装置,其中,该装置是音频解码器的格式变换单元的一部分,使得音频解码器提供的例如用于控制第一扬声器设置的声道的数目从较高音频声道数目或最大音频声道数目(例如,诸如MPEG-H的标准支持的最大数目)下混频为相应地针对于实际存在的扬声器的数目的格式。
其他实施例涉及一种装置,其中,该装置是音频解码器的对象渲染器的一部分,且该装置包括平移器,使得对象渲染器适配为根据第一扬声器设置提供多个音频声道。
其他实施例涉及一种装置,其中,该装置被配置为提供第一扬声器设置的有效性信息。
该实施例的好处是,该装置相应地,有效性信息可指示是否可以向(例如,由用户例如在家中实现的)第一扬声器设置提供适当的音频声道,或例如是否必须重新放置扬声器以与要求(例如,扬声器位置的容限)匹配。
其他实施例涉及一种音频系统,该音频系统包括:用于生成用于扬声器设置的多个音频声道的装置,以及根据由该装置提供的多个音频声道的多个扬声器。
该实施例的好处是可以实现例如用于实现3D声学场景的音频系统。
本发明的其他实施例涉及一种用于生成用于第一扬声器设置的多个音频声道的方法,并涉及一种计算机程序。
附图说明
将参考附图更详细地描述本发明的实施例,在附图中:
图1示出根据本发明的实施例的用于生成用于第一扬声器设置的多个音频声道的装置的示意性框图;
图2示出根据本发明的实施例的示例性第二扬声器设置的示意图,该示例性第二扬声器设置包括假想扬声器和形成第一扬声器设置的真实扬声器;
图3以从上方的透视视角示出图2的第二扬声器投影到二维平面的示意图;
图4a示出根据本发明的实施例的第一扬声器设置14-1相对于位置42的透视图;
图4b示出了图4a的配置的顶视图;
图5a示出根据本发明的实施例的图4a的第一扬声器设置的示意性透视图,其中,附加假想扬声器形成在环形形状上,形成第二扬声器设置;
图5b示出图5a的场景的顶视图,并描绘了环48的圆形形状;
图6示出了第二扬声器设置上的透视图,该第二扬声器设置包括第一扬声器设置和假想扬声器;根据本发明的实施例,假想扬声器的位置位于计算球面处。
图7示出根据本发明的实施例的根据图2的第二扬声器设置的示意图,其中描绘了与平坦层垂直的层,以澄清扬声器的相邻关系;
图8示出了根据本发明的实施例的音频解码器的示意性框图,该音频解码器可被用于解码MP4信号以获得多个音频信号,描述了装置的两个选项;
图9示出了作为图8中的选项1参考的装置的示意性框图;
图10示出了作为图8中的选项2参考的格式变换框1720的示意性框图;以及
图11示出了音频系统的示意性框图。
具体实施方式
在下面的描述中,即使在不同的图中出现,同样的或等同的元素或者具有同样的或等同的功能的元素也由同样的或等同的附图标记来表示。
在以下描述中,阐述了多个细节以提供对本发明的实施例的更透彻的解释。然而,本领域技术人员将清楚的是,可以在没有这些具体细节的情况下实践本发明的实施例。在其他实例中,以框图形式而不是具体地示出了公知的结构和设备,以避免对本发明的实施例造成混淆。此外,除非另外具体指示,否则下文所述的不同实施例的特征可以彼此组合。
图1示出用于生成用于第一扬声器设置14的多个音频声道12的装置10的示意性框图。第一扬声器设置14包括多个扬声器16a-c。扬声器16a-c可例如位于收听房间中,并且可以是再现系统的一部分,例如作为影院或家庭影院应用的一部分。第一扬声器设置14是真实存在的。装置10包括假想扬声器确定器18,用于确定未包含在第一扬声器设置14中的假想扬声器22的位置。假想扬声器确定器18被配置为获得包含假想扬声器22的第二扬声器设置24。第二扬声器设置24包括第一扬声器设置14的一些或全部扬声器16a-c。假想扬声器确定器18可被配置为确定假想扬声器22的位置,使得假想扬声器位于根据格式定义的位置的位置处,扬声器应该位于该根据格式定义的位置处,但实际上并未位于该处。假想扬声器确定器18执行的确定可被控制为使得设置14和24共同拥有或共同位于设置14和24中的扬声器的数目最小化,或使得两个设置14和24中最接近的相邻扬声器之间的平均距离最小,或者可由用户手动控制。
装置10包括能量分布计算器26,用于计算从假想扬声器22到第二扬声器设置中的其他扬声器的能量分布。备选地或附加地,假想扬声器确定器18可被配置为确定假想扬声器22的位置,使得假想扬声器22靠近“被位移的”扬声器16a-c,以使得假想扬声器可以校正由该位移产生的声学效应。
例如,当第一扬声器设置14部分地实现根据诸如5.1、7.1、9.1、11.2等的音频格式的扬声器配置或扬声器设置时,假想扬声器22可以是第一扬声器设置14中关于要实现的格式而缺失的扬声器。
能量分布表示假想扬声器22的被分布到第二扬声器设置24中的其他扬声器的能量的量或份额。换言之,能量分布表示假想扬声器22在第二扬声器设置24中的剩余扬声器之间共享的能量。
装置10还包括处理器28。处理器28被配置为重复框32所指示的能量分布,以如框34中的M所指示的获得下混频信息36。下混频信息可被用于将第二扬声器设置24的音频声道下混频到第一扬声器设置14。换言之,下混频信息36允许控制第一扬声器设置14中的扬声器16a-c,以获得在假想扬声器22将会是真实扬声器时将会至少部分地获得的声学场景。
装置10包括用于使用下混频信息36生成多个音频声道12的渲染器38。渲染器38被配置为将下混频信息38应用到输入信号或输入信号组39,例如与第二扬声器设置24相对应的多个音频声道或专用于由第二扬声器设置24再现的多个音频声道。渲染器38被配置为使用下混频信息36获得从第二扬声器设置24到第一扬声器设置14的下混频36。换言之,渲染器38被配置为通过将假想设置24的(假想)音频声道39下混频为真实的第一设置14的真实音频声道12来确定多个音频声道12。
该实施例的好处是可至少部分地由扬声器16a-c生成声学场景,当扬声器16a-c将与更广泛的设置匹配时,将会获得该声学场景。通过这种方式,即使在真实的第一扬声器设置14中缺失了一个或多个扬声器(例如,环绕扬声器),也可实现具有某一格式(例如,3D格式)的声学场景。
使用装置10要解决的任务可以是例如在任意扬声器设置上对3D音频对象的渲染,即使该任意扬声器设置关于某种格式是无效的3D设置。虽然通过使用假想扬声器,在没有包括真实扬声器的方向之外不产生声音,用于控制扬声器的确定性解决方案也被(例如自动地)交付,该解决方案可被视为合理的解决方案。例如,这在以下情况下是适用的:在环绕左扬声器不存在时,经由左前声道并然后经由右前声道以较大的份额再现环绕左声道。因此,所呈现的装置和方法在回退解决方案方面很好地适于MPEG-H。
备选地或附加地,可根据预定义位置确定第二扬声器设置24中的至少一个其他假想扬声器的数目、和/或假想扬声器22和/或该其他假想扬声器的位置,该预定义位置例如可包含在表格形式或数据库中。备选地或附加地,可确定假想扬声器22和/或该至少一个其他假想扬声器的位置,使得第一扬声器设置14和/或第二扬声器设置24的扬声器之间的距离实质上等距或者对应于音频格式或标准。
换言之,装置10包括以下使用VBAP平移器或类似平移方法的组件:
1.确定缺失和/或所需扬声器位置的组件
2.确定这些假想扬声器的相邻扬声器的组件
3.通过使用“能量分布”方法实现下混频并可选地执行能量归一化的组件
换言之,例如,如果声学场景(例如,存储在如CD的数据存储器上的声学场景)包括6个音频声道且第一扬声器设置包括2个扬声器,则该装置可被配置为确定缺失的扬声器。
“能量分布矩阵”M可被视为实质贡献,并定义到相应相邻扬声器的相应能量的分布。并不要求能量分布矩阵包含具有恒定值的列。作为备选,利用其他值的实现也是可能的。优选地,定义列的值以使得这些值可被合计为值1。能量分布矩阵的基础可例如是如图3中所描绘的能量分布图。
图2示出了示例性扬声器设置24-1的示意图,扬声器设置24-1包括形成第一扬声器设置14-1的扬声器16a和16b。扬声器设置24-1包括4个假想扬声器22a-d。第二扬声器设置24-1可以是假想扬声器确定器(其可以是假想扬声器确定器18)确定的结果,并且可以是用于相对于收听者的位置42再现3D声学场景的可能的扬声器设置。当第一扬声器设置14-1例如可以是立体声配置时(例如,相对于位置42位于前墙处),可将扬声器16a表示为该立体声配置的左扬声器,且将扬声器16b表示为该立体声配置的右扬声器。假想扬声器确定器可被配置为实现预设置(例如,音频格式)。当扬声器16a和16b的位置与音频格式的预定义位置匹配(可能在容限范围内)时,则假想扬声器确定器可被配置为通过将扬声器16a和16b的位置匹配到预定义位置来确定假想扬声器22a-d的位置。可将扬声器16a和16b未占据的位置确定为假想扬声器22a-d的位置。容限可以是绝对值,例如5cm、50cm或5m,或者是相对值,例如第一扬声器设置14-1或第二扬声器设置24-1的空间的1%、10%或30%。
第二扬声器设置24-1可包括假想上扬声器(上帝之声,VoG)22a、位于位置42下方的下扬声器(地狱之声,VoH)22b、假想左环绕(SL)扬声器22c和假想右环绕(SR)扬声器22d。使用“I”来标记假想扬声器22a-d。备选地,第一扬声器设置14-1和/或第二扬声器设置24-1可包括不同数目的真实扬声器16a-b和/或假想扬声器22a-d。真实扬声器和/或假想扬声器可位于与所描绘的不同的位置处。
例如,可将平面环绕设置(例如,没有上帝之声和地狱之声扬声器的设置)定义为所有的扬声器都在平坦层44内。由于环境(如,收听房间的特点或例如其他物体(例如,电视屏幕或窗户)的存在),扬声器16a、16b和/或22c-d也可位于由上层46a和/或下层46b描述的容限内,上层46a和/或下层46b描述了扬声器16a、16b和/或22c-d可位于其中的容限的上边界和/或下边界。层46a和46b可例如通过相对于位置42的、到扬声器16a/16b和/或22c和22d的最大角度来定义。例如,扬声器16a和16b可各自包括小于等于5度、小于等于10度、小于等于20度、或小于等于45度的角度α。扬声器16a和22c被布置在层44中,扬声器16b被布置在层46a中,扬声器22d被布置为层46b中。备选地或附加地,扬声器可被布置在层46a与44之间和/或44与46b之间。换言之,当被称作平面设置时,第一扬声器设置14-1和/或第二扬声器设置24-1也可被布置在不同的层中。
假想扬声器22b(VoH)直接位于位置42下方。假想扬声器22a(VoG)被布置在由位置42上方的空间定义的上半球内。假想扬声器22a相对于前扬声器16a和16b位于位置42前方。换言之,且相对于位置42,假想扬声器22a被布置在几何平面(层44)的第一侧处,且假想扬声器22b沿着与几何平面的第一侧相向的该几何平面的第二侧布置。几何平面可被配置为分隔扬声器的相邻性。例如,扬声器16a、16b、22c和22d是假想扬声器22a和22b的相邻扬声器(且反之亦然)。被包括边界46a和46b的几何平面(层44)所分隔,假想扬声器22a和22b可被描述为“没有相邻扬声器”。
假想扬声器22a-d之间的箭头描绘了从假想扬声器22a-d到第二设置24-1中的临近扬声器的可能能量分布,该临近扬声器是相应扬声器22a-d的相邻扬声器。由能量分布计算器(例如,能量分布计算器26)执行能量分布。换言之,每个假想扬声器22a-d的能量被分布到每个假想扬声器22a-d的相应相邻扬声器,且在每个假想扬声器22a-d的相应相邻扬声器之间分布。在下面的图3中描绘了扬声器投影到二维平面的示意图。
图3以从上方的透视视角示出第二扬声器设置24-1投影到二维平面的示意图,该第二扬声器设置24-1包括第一设置14-1。图3通过经由箭头的连接描绘了每个假想扬声器22a-d的相邻扬声器,箭头指示从每个假想扬声器22a-d到其相邻扬声器的能量分布。可由相邻估计器确定假想扬声器的相邻扬声器,相邻估计器可以是能量分布计算器(例如,能量分布计算器26)的一部分,或例如可以是假想扬声器确定器(例如,假想扬声器确定器18)的一部分。备选地,相邻估计器可以布置在假想扬声器确定器和能量分布计算器之间。
假想环绕左(SL)扬声器22c具有4个相邻扬声器:左前(FL)扬声器16a、VoG扬声器22a、环绕右(SR)扬声器22d和VoH扬声器22b。每个假想扬声器22a-d的能量从假想扬声器22a-d向其相邻扬声器分布,其中,可通过能量分布系数dxy来表示能量分布,x指示所分布能量的源,且y指示所分布能量的接收扬声器。用索引1表示左前扬声器16a,用索引2表示右前扬声器,用索引3表示VoG扬声器22a,用索引4表示VoH扬声器22b,用索引5表示环绕左扬声器22c,且用索引6表示环绕右扬声器22d。
每个能量分布系数dxy可以由能量分布计算器独立确定。根据实施例,根据两个临近扬声器之间的距离来确定或计算能量分布系数。根据备选实施例,将能量分布以及因此的能量分布系数dxy计算为均匀分布。因为在示例性设置内每个假想扬声器22a-d具有4个相邻扬声器,这可导致例如相等的能量分布系数1/4。
换言之,从相邻图开始,可以构建可被表示为能量分布图的加权有向图。权重(即该图中的能量分布系数dxy)描述了被从假想节点(扬声器)22a-d向其相邻扬声器重新分布的该部分声音能量。
能量分布计算器(例如,图1中描绘的能量分布计算器26)可被配置为将能量分布系数排列为能量分布矩阵,例如表示为D。根据以上所述的相邻图,按照FL、FR、VoG、VoH、SL、SR的顺序示例性地排列扬声器。可将所产生的能量分布矩阵D形成为:
D = 1 0 0.25 0.25 0.25 0 0 1 0.25 0.25 0 0.25 0 0 0 0 0.25 0.25 0 0 0 0 0.25 0.25 0 0 0.25 0.25 0 0.25 0 0 0.25 0.25 0.25 0 - - - 4 )
其中,多个列和行对应于索引1-6。通过添加假想扬声器22a-d,可以将在第一扬声器设置14-1中表示的立体声设置转换为有效的3D扬声器设置。
针对该示例,将索引dxy设置为1/4,且因此设置为0.25。关于矩阵D的第三列(其表示作为具有索引1、2、5和6的扬声器16a、16b、22c和22d的相邻扬声器的假想扬声器22a),矩阵D在行1、2、5和6中示出了值0.25。
备选地,可通过可从凸包获得的三角测量的边来定义假想扬声器的相邻扬声器。在完整平面环绕设置的情况下,当假想扬声器的所有相邻扬声器都是现有扬声器时,针对每个相邻扬声器,下混频矩阵的对应列可具有恒定值其中,N表示相邻扬声器的数目。
例如,可使用能量分布来计算如何通过其他扬声器补偿在真实的扬声器设置中不存在的假想扬声器22a-d。
根据实施例的装置的处理器(例如,处理器28)被配置为重复能量分布。处理器被配置为重复能量分布,因为可计算假想扬声器(例如,22c-d)以部分地补偿假想扬声器22a,即,可将假想扬声器22a的能量部分地分配或重新分配给假想扬声器22c-d并分配或重新分配给真实扬声器16a和16b。将分配或重新分配给假想扬声器22c-d的能量例如通过处理器28重新分布到其相邻扬声器,使得通过重复能量分布,将假想扬声器22a-d的能量分配或重新分配给真实扬声器16a和16b。这意味着假想扬声器22c-d从假想扬声器22a“接收”必须要被重新分布的能量。
可例如通过计算矩阵D的幂来执行该重复。处理器28被配置为获得针对从第二扬声器设置24-1到第一扬声器设置14-1的下混频的下混频信息。为了获得下混频信息,处理器可被配置为计算D的第n次幂的平方根(平方根运算),其可被表达为:
M=sqrt(Dn), 5)
其中,D表示以分布权重dxy作为元素的能量分布矩阵,n表示迭代(即,重复)次数,且sqrt(·)表示逐元素(element-wise)平方根,且M表示结果(且可被表示为下混频矩阵)。
例如,在20次迭代(重复)之后,且因此n=20,这可导致以下下混频矩阵:
M = 1 0 0.707 0.707 0.775 0.632 0 1 0.707 0.707 0.632 0.775 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 - - - 6 )
其中,第3、4、5和6行包括值0,该值已经被向下取整。第1行和第2行表示在运算时针对具有索引1(16a)和索引2(16b)的扬声器的信息,使得可模拟假想扬声器22a-d的存在。
换言之,通过将能量分布系数dxy设置为相邻扬声器的数目的倒数,导致能量预留,且同时可确保算法的收敛。
处理器可被配置为针对固定值n确定能量分布矩阵D的第n次幂。备选地,处理器可被配置为迭代地计算D的幂。例如,处理器可被配置为将D与D相乘,并在然后将结果与D相乘,以此类推,以迭代地获得D的迭代地增加的幂,且然后应用平方根运算。在针对固定维度的幂计算能量分布矩阵的幂时,可获得包括所产生的下混频信息的不同第二扬声器设置的再现性。备选地,在迭代地计算能量分布矩阵D的幂时,可将所产生的矩阵的元素或平方根操作的结果与例如某个阈值进行比较,且在各元素低于该某个阈值的情况下,可以将值设置为0。该阈值例如可以是0.05、0.1或0.2,或者任何其他合适的值。这样的方法可导致更短的计算时间和更低的计算量,因为只要获得适当的结果,该方法便可停止。
换言之,可通过应用能量分布n次来实现对能量分布矩阵的第n次幂的计算。平方根将能量值改变为可应用于关于下混频系数的信号值的衰减值。由对能量分布矩阵的幂的计算而实现的迭代可导致与假想扬声器对应的所有的行都被变换为0的结果。
换言之,在每个迭代步骤中,处理器实现的算法适配为根据给定的权重来重新分布这些能量部分。对此进行重复,直到假想节点的能量总量低于给定阈值。对节点的平方根最终产生下混频矩阵M的元素,该节点收集用于现有扬声器的重新分布的能量。渲染器(其可以是渲染器38)可被配置为应用下混频信息(例如,下混频矩阵M和/或下混频信息39),以将较大数目的音频声道下混频为一定数目的真实扬声器。
下混频矩阵的目的可被认为是消除所添加的假想扬声器,并将计算出的增益限制到现有扬声器。例如,如果给定扬声器设置既不包含高位扬声器也不包含后置扬声器,则所添加的在收听者上方的假想扬声器也将会是假想的后置扬声器的相邻扬声器,且反之亦然。
针对所有的平移方向,VBAP要求导致正平移增益的3个独立基矢量。这意味着由该3个矢量生成的坐标系的原点需要在多面体内部,且不能是其表面的一部分。因此,通过检查所有三角形的距离是否高于某个阈值,可执行对给定扬声器设置是否是有效的3D设置的有效性检查。渲染器可被配置为:通过实现这样的有效性检查和用于处理无效扬声器设置的策略,支持具有任意扬声器位置的新扬声器设置。例如,渲染器可指示真实扬声器的重新定位,使得重新定位的扬声器可启用假想扬声器的有效位置。
平面扬声器设置或不具有任何后置扬声器的设置很明显不是有效的3D设置。渲染器可被配置为提供用于通过执行下混频来支持这样的设置的尽力而为方法。通过在图2的设置14-1的顶部和底部添加这样的不存在的假想扬声器,可将平面设置变为有效的3D设置。通过在缺失位置放置这样的不存在的扬声器并通过将其下混频到其相邻扬声器,可获得用于控制第一设置14-1的策略。
图4a示出第一扬声器设置14-1相对于位置42的透视图。下面的图5和图6将说明假想扬声器确定器的用于实现对假想扬声器的位置的确定的可能方法。
图4b示出了图4a的配置的顶视图。
图5a示出了第一扬声器设置14-1的示意性透视图,第一扬声器设置14-1与假想扬声器22b和22d共同形成第二扬声器设置24-2。例如通过形成包括第一扬声器设置14-1中的扬声器16a和16b二者的环48,可由假想扬声器确定器(例如,假想扬声器确定器18)获得假想扬声器22b和22d的位置。因为某些格式(例如,7.1)限定扬声器位置在环(位置42位于该环内)上,这可以是用于定义假想扬声器22b和22d的位置的适合的解决方案。
图5b示出图5a的场景的顶视图,并描绘了环48的圆形形状。例如作为用于渲染要再现的声学场景中的声学对象的对象渲染器的一部分,假想扬声器确定器被配置为除了手动选择的针对给定设置的三角测量还实现三角测量算法。例如,Delaunay三角测量可提供针对该问题的良好解决方案,因为其对应于Voronoi图的对偶图。备选地或附加地,假想扬声器确定器可被配置为:通过考虑22b和22d的相应位置与位置42和/或参考角49(例如,0°)之间的角度β1和/或β2,假想扬声器来确定假想扬声器22b和22d的位置。因此,可实现与中心位置(0°)的例如60°的配置。
图6示出了包括第一扬声器设置14-1、假想扬声器22b、22d和22a的第二扬声器设置24-3的透视图。关于其位置,假想扬声器22b和22d与图5a和图5b中所述的相同。例如可通过基于环48计算球面52来找到假想扬声器22a的位置。例如可通过计算扬声器16a、16b、22c和22d或第一扬声器设置14-1(给定顶点集合)的凸包来计算球面52。可例如通过“QuichHull”算法来确定凸包,如在[1]中所描述的,该算法具有O(N*log(N))的平均计算复杂度和O(N2)的最差复杂度,其中,O表示复杂程度。QuickHull算法适于提供涉及扬声器的相邻扬声器的信息。备选实施例使用其他算法,例如Devide及Conquor算法或Gift Wrap算法。
QuickHull算法相当简单,且由于所有的顶点(即,扬声器)都位于球面上这一事实可进一步简化。简单的算法使得可包括到现有框架(例如,参考软件)中。通过利用三角测量算法,可通过形成所有表面都被细分为三角形(如果有必要)的多面体来获得根据MPEG格式所需的三角形。因为所有顶点(即,扬声器位置)在球面上位于容限之内,可通过计算给定顶点集合的凸包来建立Delaunay方案。
一种根据本发明的实施例的用于生成多个音频声道的装置被配置为确定第一扬声器设置14-1的扬声器的位置的有效性。例如,当第一扬声器设置包括两个以上扬声器时,假想扬声器确定器可被配置为确定所有扬声器是否都被布置在环形路径上的某个容限内,或扬声器是否被布置在关于位置42的一个层中的某个容限内。
换言之,例如,根据Delaunay三角测量的空环特性对于三角测量而言可以是充分条件。该条件要求没有其他顶点(即,扬声器)位于任何三角形的外接圆内。因为顶点位于球面上,违反该条件的顶点将会位于所考虑的表面之外,且在该区域中包(hull)将不会是凸的。因此,凸包算法(如Quickhull算法)满足Delaunay三角测量的“空环”充分条件,Delaunay三角测量可提供与扬声器设置的有效性有关的信息。此外,假想扬声器确定器或例如相邻估计器可被配置为根据Delaunay三角测量或提供凸包的算法来确定假想扬声器的位置或相邻关系。
QuickHull算法可用于例如将N向平移应用于具有或不具有上帝之声的3D设置。通过使用QuickHull算法,可提供用于任意3D扬声器设置的三角测量方法,且可通过使用所提出的能量分布方法来支持任意(且甚至无效的)扬声器设置。
对于上扬声器层上方的音频对象而言,在设置不包括上帝之声的情况下,例如,可使用一个或所有升高的扬声器来替代在参考模型0(RM0)中实现的对高度进行限制。这可通过N向平移来实现。增加的计算复杂度可以小到可忽略。
因此,如果用于渲染声学对象的相应对象渲染器除了手动选择的针对给定设置的三角测量还包括三角测量算法,则可支持任何3D扬声器设置。可通过扬声器设置再现的相应格式来定义该给定设置。
图7示出了根据图2的第二扬声器设置24-1的示意图,其中描绘了与层44垂直的层54。扬声器16a和16b被布置在几何平面54的第一侧处。假想扬声器22b和22d被布置在几何平面54的与该第一侧相向的一侧处。假想扬声器22a沿着几何平面54的第一侧布置。
通过在几何平面54的与扬声器16a和/或16b一侧相向的一侧处布置假想扬声器,可在预定义收听者位置42处再现三维声学场景。简而言之,第二扬声器设置24-1模拟了在收听者前方的扬声器(扬声器16a和16b)、在收听者后方的扬声器(扬声器22b和22d)、在收听者下方的扬声器(扬声器22b)和上方的扬声器(扬声器22a)。
图8示出了音频解码器的示意性框图,该音频解码器可被用于解码MP4信号以获得多个音频信号12-1。
后置处理器1700可被实现为双耳渲染器1710或格式变换器1720。备选地,如1730所示,还可实现数据1205(即,音频声道)的直接输出。因此,优选在解码器中对最高数目的声道(例如,22.2或32)执行处理,以获得灵活性并然后在要求较小格式的情况下进行后置处理。
对象处理器1200可包括SAOC解码器(SAOC=空间音频编码)1800,且SAOC解码器被配置用于对相关联的参数化数据以及核心解码器输出的一个或多个传输通道进行解码,并使用已解压缩的元数据来获得多个已渲染音频对象。为此,OAM输出连接到框1800。
此外,对象处理器1200被配置为渲染核心解码器输出的已解码对象,该已解码对象未被在SAOC传输通道中编码,但在由对象渲染器1210指示的通常单个的通道化元素(channeled element)中被编码。此外,解码器包括与输出1730相对应的输出接口,输出1730用于向扬声器输出混频器的输出。
对象处理器1200可包括空间音频对象编码解码器1800,空间音频对象编码解码器1800用于解码一个或多个传输通道以及对已编码音频对象或已编码音频声道进行表示的相关联的参数化辅助信息,其中,空间音频对象编码解码器被配置为将相关联的参数化信息以及已解压缩元数据转码为可用于直接渲染输出格式(例如,在SAOC的较早版本中定义的输出格式)的已转码参数化辅助信息。后置处理器1700被配置用于使用已解码传输通道和已转码参数化辅助信息计算输出格式的音频声道。后置处理器执行的处理可类似于MPEG环绕处理,或可以是任何其他处理,例如BCC处理等。
对象处理器1200可包括空间音频对象编码解码器1800,空间音频对象编码解码器1800被配置为使用已解码传输通道(由核心解码器解码)和参数化辅助信息对针对输出格式的声道信号直接进行上混频和渲染。
此外,对象处理器1200包括混频器1220,当与声道混频的已预渲染对象存在时,混频器1220直接接收USAC解码器1300输出的数据来作为输入。此外,在没有SAOC解码的情况下,混频器1220从执行对象渲染的对象渲染器接收数据。此外,混频器接收SAOC解码器输出数据,即,SAOC渲染的对象。
混频器1220连接到输出接口1730、双耳渲染器1710和格式变换器1720。双耳渲染器1710被配置用于使用头部相关转移函数或双耳房间脉冲响应(BRIR)将输出声道渲染为两个双耳声道。格式变换器1720被配置用于将输出声道变换为与混频器的输出(数据)声道1205相比具有较低数目的声道的输出格式,且格式变换器1720要求与再现布局(例如,5.1扬声器等)有关的信息。
在选项1中,且在下面的图9中将要描述的,用于生成多个音频声道12-1的装置可例如是对象渲染器1210的一部分。作为选项2,且在下面的图10中将要描述的,用于生成多个音频声道12-2的装置可例如是格式变换框1720的一部分,以例如将该数目的声道1205下混频为多个音频声道12-2。在应用选项1时,可在混频器1220的输出处获得多个音频声道12-1。该输出可例如是可与包括多个扬声器的扬声器系统连接的连接器。
在应用选项2时,可例如在格式变换框1720的输出处获得多个音频声道12-2。可将格式变换框1720实现为例如包括开关的装置,启用应该基于声道1205输出的格式选择,例如,5.1格式。格式变换框1720可与混频器1220连接,使得格式变换框1720的输入可以是标准或格式族(例如MPEG)的最大数目的声道(例如,32个)。
换言之,这使得可通过仅改变解码器内的信号处理来保持比特流语法不变。可通过以下的新特征扩展参考模型0(RM0)。
图9示出了作为图8中的选项1参考的装置10-1的示意性框图。装置10-1被配置为接收涉及声学场景内要再现的对象的数据或信息。装置10-1的平移器56被配置为基于涉及对象的数据来计算平移系数。平移系数的数目可以等于被确定为根据音频标准或格式再现声学场景的扬声器的数目。例如,关于格式5.1,其可以是6个扬声器的数目。换言之,平移系数表示对象所辐射的声音的缩放因子,其中,平移系数适于例如关于声压级来缩放扬声器信号,以实现对象相对于收听者位置的位置或方向。
假想扬声器确定器18-1(其可以是假想扬声器确定器18)被配置为确定一个或多个假想扬声器的位置。例如,在参考图8时,在选择例如由特定格式表示的特定收听体验时,可以获得对要由假想扬声器表示的扬声器的决定。基于此,可考虑连接到混频器或解码器的扬声器的数目。可以选择要根据该格式实现但没有连接到混频器或解码器的每个扬声器来作为假想扬声器。
能量分布计算器26-1(其可以是能量分布计算器26)被配置为计算从假想扬声器或多个假想扬声器到所获得的第二扬声器设置中的其他扬声器的能量分布。处理器28-1(其可以是处理器28)被配置为重复能量分布,以例如通过计算从第二扬声器设置到第一扬声器设置的下混频的下混频矩阵M来获得下混频信息。因此,平移系数的数目可以大于音频声道12-1的数目。处理器28-1被配置为向渲染器38-1(例如,渲染器38)输出加权因子。渲染器38-1被配置为根据该加权因子以及相应对象的声音或噪声生成多个音频声道12-1。声音或噪声信号可例如作为单声道信号提供。因此,渲染器38-1被配置为基于下混频信息和平移系数生成多个音频声道12-1,其中,可通过加权因子来至少部分地表示函数关系。
该实施例的好处是,通过在对象渲染器12-1内实现用于生成多个音频声道12-1的装置,可通过与所实现的硬件设置相匹配的方式获得多个音频声道12-1。在音频声道的最大数目是32且音频声道的所需数目是6时,在处理期间可跳过一定数目的不需要的音频声道(例如26个),使得可降低计算量。
图10示出了图8中描绘的格式变换框1720的示意性框图,格式变换框1720包括用于生成多个音频声道12-2的装置10-2。装置10-2被配置为将一定数目的声道1205下混频为一定数目的音频声道12-2。
该实施例的好处是,可将格式变换框1720附接到或包括到解码器(例如,图8中描绘的解码器),同时使解码器本身不改变,并基于解码器输出的声道1205,根据所需输出格式将已解码音频信号和音频声道进行下混频。
图11示出了音频系统110的示意性框图,音频系统110包括装置112,装置112可以是例如装置10、装置10-1或装置10-2,或者包括例如装置10、装置10-1或装置10-2。音频系统110包括两个扬声器16a和16b。装置112被配置为生成多个音频声道,使得两个扬声器16a和16b的数目在位置42处模拟五个扬声器16a、16b和22a-c的存在。
其他实施例示出了具有不同数目(例如,6个、10个、13个、32个或更多个)的扬声器的音频系统以及用于根据扬声器的数目生成多个扬声器信号(音频声道)的装置。该多个扬声器被配置为接收多个音频声道,并基于该多个音频声道提供多个声学信号。音频声道的数目可等于要控制的扬声器的数目。
这使得还可针对例如包括有效性检查的所定义的扬声器设置且还基于任意的3D设置来渲染对象。例如,这可通过将QuickHull算法集成到例如参考软件(例如,MPEG-H 3D参考模型(RM)0)中来执行。能量分布方法允许基于任意设置渲染对象,该任意设置可以是有效的3D设置,但不一定是有效的3D设置。该方法包括以下步骤:
1.针对具有附加假想扬声器的扩展扬声器设置计算VBAP增益(加权因子)
2.应用在初始化期间计算出的下混频矩阵
3.向已下混频的VBAP增益应用能量归一化
在不存在与应用于给定(任意)设置的格式相对应的规则时,例如作为最后的手段,该流程还可由格式变换器来施加。这可添加以下的有益特性:渲染器能够已针对任何给定设置产生了信号。可例如通过编程语言(例如,C)形式的编程代码来实现该方法。
换言之,装置10可被配置为:根据相应格式,基于可以是无效3D设置的任何扬声器设置的基于对象的MPEG-H数据流,获得适合的音频信号(音频声道)。在参考公式2时,可对一定数目的系数g进行下混频。还可将系数g表示为VBAP系数。
可在容限内确定真实扬声器和假想扬声器的位置,如图2中示例性地描述的。这样的阈值可应用于其他几何平面和/或包(例如凸包)上的地点或位置。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对相应方法的描述,其中,框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方案也表示对相应块或项或者相应装置的特征的描述。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行该实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传递。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)或集成电路可以用于执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
参考文献
Barber,C.Bradford;Dobkin,David P.;Huhdanpaa,H.,“The quickhullalgorithm for convex hulls,”ACM Transactions on Mathematical Software,vol.22,no 4,pp.469-483,1996.

Claims (17)

1.一种用于生成用于第一扬声器设置(14;14-1)的多个音频声道(12;12-1;12-2)的装置,其特征在于:
假想扬声器确定器(18;18-1),用于确定未包含在所述第一扬声器设置(14;14-1)中的假想扬声器(22;22a-d)的位置,以获得包含所述假想扬声器(22;22a-d)的第二扬声器设置(24;24-1;24-2;24-3);
能量分布计算器(26;26-1),用于计算从所述假想扬声器(22;22a-d)到所述第二扬声器设置(24;24-1;24-2;24-3)中的其他扬声器的能量分布;
处理器(28;28-1),重复所述能量分布,以获得针对从所述第二扬声器设置(24;24-1;24-2;24-3)到所述第一扬声器设置(14;14-1)的下混频的下混频信息(36);以及
渲染器(38;38-1),用于使用所述下混频信息(36)生成所述多个音频声道(12;12-1;12-2)。
2.根据权利要求1所述的装置,其中,所述处理器(28;28-1)被配置为基于所述能量分布生成能量分布矩阵(D),所述能量分布矩阵(D)包括表示所述假想扬声器(22;22a-d)到所述第二扬声器设置(24;24-1;24-2;24-3)中的另一扬声器的能量分布的元素(dxy)。
3.根据权利要求2所述的装置,其中,所述处理器(28;28-1)还被配置为计算所述能量分布矩阵(D)的幂(n),所述幂(n)是预定义值,且所述处理器(28;28-1)被配置为基于所述能量分布矩阵(D)的所述幂获得所述下混频信息(36)。
4.根据权利要求2所述的装置,其中,所述处理器(28;28-1)还被配置为对所述能量分布矩阵(D)的幂(n)进行迭代计算,迭代步骤的数目基于所述能量分布矩阵(D)的所述幂(n)的值。
5.根据前述权利要求中任一项所述的装置,其中,所述能量分布计算器(26;26-1)包括:相邻估计器,用于确定所述第二扬声器设置(24;24-1;24-2;24-3)中的作为所述假想扬声器(22;22a-d)的相邻扬声器的至少一个扬声器,以及所述能量分布计算器(26;26-1)被配置为计算所述假想扬声器(22;22a-d)到所述假想扬声器(22;22a-d)的所述至少一个相邻扬声器的能量分布。
6.根据权利要求5所述的装置,其中,所述相邻估计器被配置为确定作为所述假想扬声器(22;22a-d)的相邻扬声器的至少两个扬声器,以及所述能量分布计算器(26;26-1)被配置为计算能量分布,使得作为所述假想扬声器(22;22a-d)的相邻扬声器的所述至少两个扬声器之间的能量分布在预定义的容限内相等。
7.根据权利要求5或6所述的装置,其中,所述相邻估计器被配置为确定作为所述假想扬声器(22;22a-d)的相邻扬声器的至少两个扬声器,以及作为所述假想扬声器(22;22a-d)的相邻扬声器的所述至少两个扬声器中的至少一个扬声器是假想扬声器(22;22a-d)。
8.根据前述权利要求中任一项所述的装置,其中,所述第一扬声器设置(14;14-1)中的扬声器(16a-c)在预定义容限(46a;46b)内被布置在几何平面(44;54)中,以及所述几何平面(44)包括预定义的收听者位置(42),且所述假想扬声器(22;22a-d)被布置在所述几何平面(44)的一侧。
9.根据前述权利要求中任一项所述的装置,其中,所述第一扬声器设置(14;14-1)中的扬声器被布置在所述几何平面(44;54)的第一侧,以及沿着与所述几何平面(44;54)的所述第一侧相向的所述几何平面(44;54)的第二侧布置所述假想扬声器(22;22a-d)。
10.根据前述权利要求中任一项所述的装置,其中,所述装置包括格式变换单元(1720),其中,所述格式变换单元(1720)被配置为基于多个数据声道(1205)输出所述多个音频声道(12;12-1;12-2),以及数据声道(1205)的数目大于所述多个音频声道(12;12-1;12-2)的数目。
11.根据权利要求1至9中任一项所述的装置,其中,所述装置包括平移器(56),所述平移器(56)用于生成针对所述第二扬声器设置(24;24-1;24-2)的平移系数,以及所述渲染器(38;38-1)被配置为基于所述下混频信息(36)和所述平移系数生成所述多个音频声道(12;12-1;12-2)。
12.根据权利要求11所述的装置,其中,所述装置包括对象渲染器(1210),所述对象渲染器(1210)被配置为基于声学对象的位置信息输出所述多个音频声道(12;12-1;12-2),以及平移系数的数目大于所述多个音频声道(12;12-1;12-2)的数目。
13.根据前述权利要求中任一项所述的装置,其中,所述假想扬声器确定器(18;18-1)被配置为基于所述第一扬声器设置(14;14-1)的扬声器(16a-c)的位置计算凸包(52),并根据QuickHull算法确定所述假想扬声器(22;22a-d)的位置,所述假想扬声器(22;22a-d)的位置和所述第一扬声器设置(14;14-1)中的扬声器(16a-c)的位置在预定义阈值内被布置在所述凸包(52)处。
14.根据权利要求13所述的装置,其中,所述装置被配置为提供所述第一扬声器设置(14;14-1)的有效性信息,所述有效性信息指示所述第一扬声器设置(14;14-1)中的每个扬声器(16a-c)的位置在预定义阈值内被布置在所述凸包(52)处,或指示所述第一扬声器设置(14;14-1)中的至少一个扬声器的位置在预定义阈值内被布置在所述凸包(52)外。
15.一种音频系统,包括:
根据权利要求1至14中的一项所述的装置(10;10-1;10-2);以及
根据所述多个音频声道(12;12-1;12-2)的多个扬声器(16a-c);
其中,所述多个扬声器(16a-c)被配置为接收所述多个音频声道(12;12-1;12-2),并基于所述多个音频声道(12;12-1;12-2)提供多个声学信号。
16.一种用于生成用于第一扬声器设置(14;14-1)的多个音频声道(12;12-1;12-2)的方法,包括:
确定未包含在所述第一扬声器设置(14;14-1)中的假想扬声器(22;22a-d)的位置,并获得包含所述假想扬声器(22;22a-d)的第二扬声器设置(24;24-1;24-2;24-3);
计算从所述假想扬声器(22;22a-d)到所述第二扬声器设置(24;24-1;24-2;24-3)中的其他扬声器的能量分布;
重复所述能量分布,并获得针对从所述第二扬声器设置(24;24-1;24-2;24-3)到所述第一扬声器设置(14;14-1)的下混频的下混频信息(36);以及
使用所述下混频信息(36)生成所述多个音频声道(12;12-1;12-2)。
17.一种其上存储有计算机程序的非瞬时性存储介质,所述计算机程序具有程序代码,当在计算机上运行所述程序代码时,所述程序代码用于执行根据权利要求16所述的用于生成用于第一扬声器设置(14;14-1)的多个音频声道(12;12-1;12-2)的方法。
CN201580003783.1A 2014-01-07 2015-01-05 用于生成多个音频声道的装置和方法 Active CN105934955B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14150362.3A EP2892250A1 (en) 2014-01-07 2014-01-07 Apparatus and method for generating a plurality of audio channels
EP14150362.3 2014-01-07
PCT/EP2015/050043 WO2015104237A1 (en) 2014-01-07 2015-01-05 Apparatus and method for generating a plurality of audio channels

Publications (2)

Publication Number Publication Date
CN105934955A true CN105934955A (zh) 2016-09-07
CN105934955B CN105934955B (zh) 2018-01-16

Family

ID=49955911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580003783.1A Active CN105934955B (zh) 2014-01-07 2015-01-05 用于生成多个音频声道的装置和方法

Country Status (18)

Country Link
US (6) US9729995B2 (zh)
EP (4) EP2892250A1 (zh)
JP (1) JP6228689B2 (zh)
KR (1) KR101806060B1 (zh)
CN (1) CN105934955B (zh)
AR (1) AR099037A1 (zh)
AU (1) AU2015205696B2 (zh)
BR (1) BR112016015028B1 (zh)
CA (1) CA2934811C (zh)
ES (2) ES2975074T3 (zh)
MX (1) MX352097B (zh)
MY (1) MY188021A (zh)
PL (1) PL3092823T3 (zh)
PT (1) PT3092823T (zh)
RU (1) RU2676948C2 (zh)
SG (1) SG11201605560UA (zh)
TW (1) TWI558231B (zh)
WO (1) WO2015104237A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115226001A (zh) * 2021-11-24 2022-10-21 广州汽车集团股份有限公司 声能量补偿方法、装置及计算机设备

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2892250A1 (en) 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
US10419866B2 (en) 2016-10-07 2019-09-17 Microsoft Technology Licensing, Llc Shared three-dimensional audio bed
WO2018202642A1 (en) * 2017-05-04 2018-11-08 Dolby International Ab Rendering audio objects having apparent size
EP3619922B1 (en) 2017-05-04 2022-06-29 Dolby International AB Rendering audio objects having apparent size
US20190250878A1 (en) * 2018-02-15 2019-08-15 Disney Enterprises, Inc. Remote control for an audio monitoring system
ES2913426T3 (es) * 2018-03-13 2022-06-02 Nokia Technologies Oy Reproducción de sonido espacial usando sistemas de altavoz de múltiples canales
US10904687B1 (en) * 2020-03-27 2021-01-26 Spatialx Inc. Audio effectiveness heatmap

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006054270A1 (en) * 2004-11-22 2006-05-26 Bang & Olufsen A/S A method and apparatus for multichannel upmixing and downmixing
CN101185118A (zh) * 2005-05-26 2008-05-21 Lg电子株式会社 解码音频信号的方法和装置
WO2013006338A2 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
CN103369453A (zh) * 2012-03-30 2013-10-23 三星电子株式会社 转换音频信号的音频设备及其方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5889867A (en) * 1996-09-18 1999-03-30 Bauck; Jerald L. Stereophonic Reformatter
JP2001028799A (ja) * 1999-05-10 2001-01-30 Sony Corp 車載用音響再生装置
US8054980B2 (en) * 2003-09-05 2011-11-08 Stmicroelectronics Asia Pacific Pte, Ltd. Apparatus and method for rendering audio information to virtualize speakers in an audio system
EP1696702B1 (en) * 2005-02-28 2015-08-26 Sony Ericsson Mobile Communications AB Portable device with enhanced stereo image
JP2007116365A (ja) * 2005-10-19 2007-05-10 Sony Corp マルチチャンネル音響システム及びバーチャルスピーカ音声生成方法
US8515105B2 (en) * 2006-08-29 2013-08-20 The Regents Of The University Of California System and method for sound generation
JP4561785B2 (ja) * 2007-07-03 2010-10-13 ヤマハ株式会社 スピーカアレイ装置
FR2922404B1 (fr) * 2007-10-10 2009-12-18 Goldmund Monaco Sam Methode pour creer un environnement audio avec n haut-parleurs
ES2875416T3 (es) * 2008-12-11 2021-11-10 Fraunhofer Ges Forschung Aparato para generar una señal de audio multicanal
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
JP2011211312A (ja) * 2010-03-29 2011-10-20 Panasonic Corp 音像定位処理装置及び音像定位処理方法
US9377941B2 (en) * 2010-11-09 2016-06-28 Sony Corporation Audio speaker selection for optimization of sound origin
KR102394141B1 (ko) * 2011-07-01 2022-05-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
EP3629605B1 (en) * 2012-07-16 2022-03-02 Dolby International AB Method and device for rendering an audio soundfield representation
US9826328B2 (en) * 2012-08-31 2017-11-21 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
EP2892250A1 (en) 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006054270A1 (en) * 2004-11-22 2006-05-26 Bang & Olufsen A/S A method and apparatus for multichannel upmixing and downmixing
CN101185118A (zh) * 2005-05-26 2008-05-21 Lg电子株式会社 解码音频信号的方法和装置
WO2013006338A2 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
CN103369453A (zh) * 2012-03-30 2013-10-23 三星电子株式会社 转换音频信号的音频设备及其方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115226001A (zh) * 2021-11-24 2022-10-21 广州汽车集团股份有限公司 声能量补偿方法、装置及计算机设备
CN115226001B (zh) * 2021-11-24 2024-05-03 广州汽车集团股份有限公司 声能量补偿方法、装置及计算机设备

Also Published As

Publication number Publication date
US10595153B2 (en) 2020-03-17
PL3092823T3 (pl) 2020-06-01
BR112016015028A2 (pt) 2020-06-09
PT3092823T (pt) 2020-02-25
MY188021A (en) 2021-11-10
AR099037A1 (es) 2016-06-22
MX2016008877A (es) 2016-10-04
SG11201605560UA (en) 2016-08-30
EP3618460B1 (en) 2024-02-28
EP3618460A1 (en) 2020-03-04
US20160316309A1 (en) 2016-10-27
KR20160106148A (ko) 2016-09-09
CA2934811A1 (en) 2015-07-16
TWI558231B (zh) 2016-11-11
US11785414B2 (en) 2023-10-10
RU2676948C2 (ru) 2019-01-11
US9729995B2 (en) 2017-08-08
EP3092823A1 (en) 2016-11-16
RU2016132133A (ru) 2018-02-09
ES2975074T3 (es) 2024-07-03
TW201534144A (zh) 2015-09-01
US20170318408A1 (en) 2017-11-02
JP2017507621A (ja) 2017-03-16
US11438723B2 (en) 2022-09-06
EP2892250A1 (en) 2015-07-08
US10904693B2 (en) 2021-01-26
CN105934955B (zh) 2018-01-16
US20210136511A1 (en) 2021-05-06
US20200204941A1 (en) 2020-06-25
WO2015104237A1 (en) 2015-07-16
EP3618460C0 (en) 2024-02-28
EP3092823B1 (en) 2019-11-27
MX352097B (es) 2017-11-08
EP4351173A2 (en) 2024-04-10
US20190045321A1 (en) 2019-02-07
JP6228689B2 (ja) 2017-11-08
KR101806060B1 (ko) 2017-12-07
ES2773623T3 (es) 2020-07-13
AU2015205696A1 (en) 2016-07-21
AU2015205696B2 (en) 2017-12-14
BR112016015028B1 (pt) 2022-11-29
EP4351173A3 (en) 2024-06-19
CA2934811C (en) 2018-06-26
US20220377493A1 (en) 2022-11-24
US10097945B2 (en) 2018-10-09

Similar Documents

Publication Publication Date Title
CN105934955A (zh) 用于生成多个音频声道的装置和方法
Cuevas-Rodríguez et al. 3D Tune-In Toolkit: An open-source library for real-time binaural spatialisation
Roginska et al. Immersive Sound
US11128976B2 (en) Representing occlusion when rendering for computer-mediated reality systems
TWI538531B (zh) 判定用於球型諧波係數之渲染器
JP2015518182A (ja) レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置
JP6513703B2 (ja) 辺フェージング振幅パンニングのための装置および方法
JP7277475B2 (ja) オブジェクトベースの空間オーディオマスタリングのための装置および方法
TW202332290A (zh) 使用空間擴展音源之呈現器、解碼器、編碼器、方法及位元串流
Kim et al. Immersive virtual reality audio rendering adapted to the listener and the room
Milo et al. Treble Auralizer: a real time Web Audio Engine enabling 3DoF auralization of simulated room acoustics designs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant