CN112154676B - 转换音频对象的对象位置的设备、方法及计算机存储介质 - Google Patents

转换音频对象的对象位置的设备、方法及计算机存储介质 Download PDF

Info

Publication number
CN112154676B
CN112154676B CN201980024318.4A CN201980024318A CN112154676B CN 112154676 B CN112154676 B CN 112154676B CN 201980024318 A CN201980024318 A CN 201980024318A CN 112154676 B CN112154676 B CN 112154676B
Authority
CN
China
Prior art keywords
spherical
representation
triangle
area
radius
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980024318.4A
Other languages
English (en)
Other versions
CN112154676A (zh
Inventor
奥利弗·沃博尔特
阿希姆·昆茨
克里斯蒂安·厄特尔
萨沙·迪克
弗雷德里克·纳格尔
马蒂亚斯·诺伊辛格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN112154676A publication Critical patent/CN112154676A/zh
Application granted granted Critical
Publication of CN112154676B publication Critical patent/CN112154676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

描述一种用于将音频对象的对象位置从笛卡尔表示(110)转换为球面表示(112)的设备(110)。笛卡尔表示的基础区域被细分为多个基础区域三角形(630,532,634,636),且其中多个球面域三角形(660,662,664,666)内接于球面表示的圆中。设备被配置为确定音频对象的对象位置至基底区域中的投影(P)被布置在基础区域三角形中的哪个中;且设备被配置为使用线性变换(T)确定对象位置的投影(P)的映射位置
Figure DDA0002712571190000011
线性变换将基底区域三角形映射至其相关联的球面域三角形上。设备被配置为自映射位置
Figure DDA0002712571190000012
得出方位角
Figure DDA0002712571190000013
及中间半径值
Figure DDA0002712571190000014
设备被配置为取决于中间半径值(rxy,
Figure DDA0002712571190000015
)且取决于对象位置距基底区域的距离(z)而获得球面域半径值(
Figure DDA0002712571190000016
r)及仰角
Figure DDA0002712571190000017
还描述一种用于将音频对象的对象位置从球面表示转换为球面表示的设备、这些设备的应用、方法及计算机程序。

Description

转换音频对象的对象位置的设备、方法及计算机存储介质
技术领域
根据本发明的实施例关于用于将音频对象的对象位置从笛卡尔表示转换为球面表示的设备以及用于将音频对象的对象位置从球面表示转换为笛卡尔表示的设备。
根据本发明的实施例关于一种音频流供应器。
根据本发明的其他实施例关于一种音频内容产生系统。
根据本发明的其他实施例关于一种音频播放设备。
根据本发明的其他实施例关于相应方法。
根据本发明的其他实施例关于计算机程序。
根据本发明的实施例关于一种用于动态对象位置元数据的映射规则。
背景技术
音频对象或扩音器的位置有时以笛卡尔坐标进行描述(空间中心描述),以及有时以球面坐标进行描述(自我中心描述)。
然而,已发现,常常令人期望的是将对象位置或扩音器位置从一个表示转换为另一表示,同时维持良好的听觉印象。还令人期望的是维持所描述的扩音器设定的通用拓朴并维持从所指定的扩音器位置重放的正确对象位置。
鉴于此情境,期望一种允许对象元数据(例如,对象位置数据)的笛卡尔表示与球面表示之间的转换的概念,其提供可达成的听觉印象与计算复杂度之间的良好取舍。
发明内容
根据本发明的实施例建立一种用于将音频对象的对象位置(例如,“对象位置数据”) 从笛卡尔表示(或从笛卡尔坐标系表示)(例如,包含x、y及z坐标)转换为球面表示(或球面坐标系表示)(例如,包含方位角、球面域半径值及仰角)的设备。
笛卡尔表示的基础区域(例如,x-y平面中的正方形区域,例如,具有拐角点(-1;-1; 0)、(1;-1;0)、(1;1;0)及(-1;1;0))被细分为多个基础区域三角形(例如,绿色三角形或具有第一阴影线的三角形、紫色三角形或具有第二阴影线的三角形、红色三角形或具有第三阴影线的三角形及白色三角形或具有第四阴影线的三角形)。举例而言,基础区域三角形可全部具有在基底区域的中心位置处的拐角。此外,多个(例如,对应或相关联的)球面域三角形可内接于球面表示的圆中(其中,例如,球面域三角形中的每一个与基础区域三角形相关联,且其中球面域三角形在与基础区域三角形相比时通常变形,其中存在用于将给定基底区域三角形映射至其相关联的球面域三角形的映射(较佳为线性映射)。举例而言,球面域三角形可全部包含在圆的中心处的拐角。
设备被配置为确定音频对象的对象位置至基底区域的投影布置在基底区域三角形中的哪一个中。此外,设备被配置为使用变换(较佳为线性变换)确定对象位置的投影的映射位置,该变换将基底区域三角形(音频对象的对象位置至基底区域的投影布置在其中)映射至其相关联的球面域三角形。设备还被配置为从映射位置得出方位角及中间半径值(举例而言,例如在零仰角的情况下,例如在球面坐标系的基底平面中的二维半径值)。
举例而言,可使用将内接于圆中的球面域三角形映射至圆区段上的半径调整。举例而言,可使用获得经调整的中间半径rxy的半径调整。举例而言,半径调整可依据方位角
Figure BDA0002712571120000021
缩放之前获得的半径值
Figure BDA0002712571120000022
设备被配置为依据中间半径值(其可是经调整的或未经调整的)且依据对象位置距基底区域的距离而获得球面域半径值及仰角。仰角可被确定为具有直角边为中间半径值及对象位置距基底区域的距离的直角三角形的角度。此外,球面域半径或其经调整的版本可为该直角三角形的斜边长度。
此外,设备可视情况被配置为获得经调整的仰角(例如,使用非线性映射,该非线性映射将第一角区中的角度线性地映射至第一映射角区且将第二角区内的角度线性地映射至第二映射角区,其中在与第一映射角区相比时,第一角区具有不同宽度或范围,且其中,举例而言,由第一角区与第二角区一起覆盖的角度范围与由第一映射角区与第二映射角区一起覆盖的角度范围相同。
此设备基于以下发现:上述处理步骤的组合以相对较小的计算工作量提供音频对象的对象位置从笛卡尔表示至球面表示的转换,同时允许获得合理地良好的音频质量。此外,已发现,所提及的步骤通常以适度工作量可逆,使得有可能例如在音频解码器侧以适度工作量从球面表示返回至笛卡尔表示。
举例而言,通过将笛卡尔表示的基底区域(也被指定为基础区域)细分为基础区域三角形(也被指定为基底区域三角形)且通过将基础角度三角形内的位置映射至球面域三角形内的位置,可进行从笛卡尔表示至球面表示的简单转变,其需要极少计算工作量且容易地可逆。此外,通过适当地选择三角形,可以极少计算工作量确保可避免或至少最小化听觉印象的可听劣化。这是由于以下事实:可以如下方式限定三角形:三角形中的给定一个内的音频源引起类似的听觉印象。
举例而言,以空间中心参数描述且以所提出的转换而被转换为自我中心描述的扩音器设定保持其拓朴。此外,还期望落在确切扩音器位置上的对象位置在转换之后仍位于相同扩音器上。根据本发明的实施例可满足这些要求。
此外,已发现,使用多步骤程序(其中得出方位角及中间半径值(其可为二维半径值) 且其中从中间半径值且依据对象位置距基底区域的距离得出球面域半径值及仰角),映射可被细分为“小”步骤,其可使用相对较小的计算工作量执行且可以容易可逆的方式进行设计。
在较佳实施例中,设备被配置为使用由变换矩阵描述的线性变换确定对象位置的投影的映射位置。设备被配置为依据经确定的基础区域三角形获得变换矩阵。换言之,基于音频对象的对象位置至基底区域的投影布置在哪一基底区域三角形中的确定,可选择变换矩阵(例如,基于多个预计算的变换矩阵)。可替代地,也可由设备例如依据经确定的基底区域三角形及经确定的(相关联的)球面域三角形的拐角的位置而计算变换矩阵。因此,非常容易选择适宜的变换矩阵,且可使用计算上简单的线性运算进行变换。
在较佳实施例中,根据如权利要求中所示的方程式限定变换矩阵。在此情况下,通过经确定的基础区域三角形的(例如,两个)拐角的x坐标及y坐标以及相关联的球面域三角形的(例如,两个)拐角的x坐标及y坐标确定变换矩阵。举例而言,可假定经确定的基础区域三角形的第三拐角和/或相关联的球面域三角形的第三拐角可处于坐标系的原点,这促进变换的计算。
在较佳实施例中,基底区域三角形包含覆盖笛卡尔表示的原点“前方”的区域的第一基底角度三角形。第二基底区域三角形覆盖在笛卡尔表示的原点的左侧的区域。第三基底区域三角形覆盖在笛卡尔表示的原点的右侧的区域。第四基底区域三角形覆盖在笛卡尔表示的原点后方的区域。通过使用此类基底区域三角形,不同基底区域三角形限定导致不同听觉印象的区(若对象置放于此区中)。然而,视情况将有可能区分出甚至更多的不同三角形,以获得更精细的空间分辨率(和/或减少由从笛卡尔表示至球面表示的转换产生的伪声)。
根据一方面,根据基于水平平面/层中的扩音器位置的分段的基底区域三角形的限定为重要特征,见图18至图24及基于水平平面中的5.1扩音器设定的公式。细节也请参考部分 10。
根据实施例,球面域三角形可包含覆盖在球面表示的原点前方的区域的第一球面域三角形、覆盖在球面表示的原点的左侧的区域的第二球面域三角形、覆盖在球面表示的原点的右侧的区域的第三球面域三角形及覆盖在球面表示的原点后方的区域的第四球面域三角形。这四个球面域三角形良好地对应于之前提及的四个基底区域三角形。然而,应注意,球面域三角形可实质上不同于相关联的基底区域三角形,例如其中它们包含不同角度。基底区域三角形较佳地内接于笛卡尔表示的x-y平面中的正方形区域中。相比之下,球面域三角形例如内接于球面表示的零仰角平面中的圆中。可能地,三角形的布置也可包含相对于对称轴的对称性,其中对称轴可例如在与收听者或收听环境的前视图相关联的方向上延伸。
在较佳实施例中,基底区域三角形的拐角的坐标及相关联的球面域三角形的拐角的坐标可如权利要求中所示地限定。已发现,三角形的此类选择引起特别良好的结果。
在较佳实施例中,设备被配置为根据如权利要求中所示的映射规则从映射位置的映射坐标得出方位角。举例而言,映射规则可使用反正切(arctan)函数来将映射位置的坐标映射至方位角,其中可实施对于“特殊情况”(详言之,对于坐标中的一个为零时的情况)的处置。
此类方位角得出也在计算上高效。所描述的计算规则在计算上特别高效且也在数值上稳定,其中不可靠结果被无效。
在较佳实施例中,设备被配置为根据如权利要求中所示的方程式从映射位置的映射坐标得出中间半径值。此类半径计算实施起来特别简单,且提供良好结果。
在较佳实施例中,设备被配置为使用将内接于圆中的球面域三角形映射至圆区段的半径调整,依据中间半径值获得球面域半径值。已发现,可通过评估单一三角函数来进行此类变换,且因此此类变换在计算上非常高效且也容易可逆。此外,已发现可通过使用此类方法来利用球面域中可用的半径值的完全范围。
在较佳实施例中,设备被配置为使用半径调整,依据中间半径值获得球面域半径值,其中半径调整适于依据方位角缩放之前获得的中间半径值。因此,举例而言,可以依据相应球面域三角形所内接于的圆的半径与等边直角三角形的斜边距在由方位角确定的方向上与斜边相对的拐角的距离的比率而增大中间半径值。
在较佳实施例中,设备被配置为使用如权利要求中限定的映射方程式而依据中间半径值获得球面域半径值。已发现,此方法特别良好地适合于5.1+4H扩音器设定。
在较佳实施例中,设备被配置为将仰角获得为具有直角边为中间半径值及对象位置距基底区域的距离的直角三角形的角度。已发现,仰角的此类计算提供特别良好的结果,且还允许以适度工作量逆转坐标变换。
在较佳实施例中,设备被配置为将球面域半径获得为具有直角边为中间半径值及对象位置距基底的距离的直角三角形的斜边长度或其经调整的版本。已发现,此类计算具有低复杂度且可逆。然而,在一些情况下,举例而言,若球面域半径值简单地获得为直角三角形的斜边长度,则半径值可能超过球面域三角形所内接于的圆的半径,从而有利地是进行另一调整,以借此使经调整的球面域半径值处于小于或等于球面域三角形所内接于的圆的半径的数值范围中。
在较佳实施例中,设备被配置为如权利要求中所描述地获得仰角,和/或如权利要求中所描述地获得球面域半径。已发现,此等计算规则引起相对较小的计算工作量,且还通常允许以适度工作量逆转坐标变换。
在较佳实施例中,设备被配置为获得经调整的仰角(例如,使用非线性映射,非线性映射将第一角区中的角度线性地映射至第一映射角区且将第二角区内的角度线性地映射至第二映射角区,其中第一角区在与第一映射角区相比时具有不同宽度,且其中,举例而言,由第一角区与第二角区一起覆盖的角度范围与由第一映射角区与第二映射角区一起覆盖的角度范围相同)。因此,可以使坐标变换适于例如扩音器位置。此外,通过使用此类映射,可视为在听觉印象方面,在笛卡尔表示中的仰角与球面表示中的仰角之间不存在一对一对应性。因此,通过执行此类非线性映射(其可为分段线性映射),可执行仰角的适当调整,其也以适度工作量为可逆的。
在较佳实施例中,设备被配置为使用非线性映射获得经调整的仰角,该非线性映射将第一角区中的角度线性地映射至第一映射角区且将第二角区内的角度线性地映射至第二映射角区,其中第一角区在与第一映射角区相比时具有不同宽度。因此,在执行转换时,在一些区中,仰角被“压缩”,且在其他区中,仰角被“展开”。这有助于获得良好的听觉印象。
在较佳实施例中,由第一角区及第二角区(一起)覆盖的角度范围与由第一映射角区及第二映射角区一起覆盖的角度范围相同。因此,仰角的给定角区(例如,从0°至90°)可映射在相同大小(例如,从0°至90°)的角区上,通过非线性映射,其中一些角区被展开,且其中一些角区被压缩。
在较佳实施例中,设备被配置为根据权利要求中提供的规则而将仰角映射至经调整的仰角。已发现,此类规则提供特别良好的听觉印象。
在较佳实施例中,设备被配置为基于球面域半径获得经调整的球面域半径。已发现,调整球面域半径可有助于避免球面域半径超过球面域三角形所内接于的圆的半径。
在较佳实施例中,设备被配置为执行将笛卡尔系统中的正方形的边界映射至球面坐标系中的圆的映射,以便获得经调整的球面域半径。已发现,此类映射是适当的,从而使球面域半径处于期望数值范围中。
在较佳实施例中,设备被配置为根据权利要求中提供的规则将球面域半径映射至经调整的球面域半径。已发现,此规则良好地适合于使经调整的球面域半径处于期望数值范围中,且所描述的规则也容易地可逆。
另一实施例建立一种用于将音频对象的对象位置(例如,“对象位置数据”)从球面表示(或从球面坐标系表示)(例如,包含方位角、球面域半径值及仰角)转换为笛卡尔表示(或笛卡尔坐标系表示)(例如,包含x、y及z坐标)的设备。
笛卡尔表示的基础区域(例如,x-y平面中的正方形区域,例如具有拐角点(-1;-1;0)、 (1;-1;0)、(1;1;0)及(-1;1;0))被细分为多个基础区域三角形(例如,绿色三角形或使用第一阴影线展示的三角形、紫色三角形或使用第二阴影线展示的三角形、红色三角形或使用第三阴影线展示的三角形及白色三角形或使用第四阴影线展示的三角形)(其中,例如,基础区域三角形可全部具有在基底区域的中心位置处的拐角),且其中多个(对应或相关联的)球面域三角形内接于球面表示的圆中(其中,例如,球面域三角形中的每一个与基础区域三角形相关联,且其中球面域三角形在与基础区域三角形相比时通常变形,且其中较佳地存在用于将给定基底区域三角形映射至其相关联的球面域三角形的线性映射)。举例而言,球面域三角形可全部包含在圆的中心处的拐角)。
设备可视情况被配置为基于仰角获得映射仰角(例如,使用非线性映射,非线性映射将第一角区中的角度线性地映射至第一映射角区且将第二角区内的角度线性地映射至第二映射角区,其中第一角区在与第一映射角区相比时具有不同宽度,且其中,举例而言,由第一角区与第二角区一起覆盖的角度范围与由第一映射角区与第二映射角区一起覆盖的角度范围相同。
设备还可视情况被配置为基于球面域半径获得映射球面域半径。
设备还被配置为基于仰角或映射仰角且基于球面域半径或映射球面域半径而获得描述对象位置距基底区域的距离的值及中间半径(其可例如为二维半径)。设备可视情况被配置为基于中间半径执行半径校正。
设备还被配置为基于中间半径或基于其经校正版本且基于方位角确定内接于圆中的三角形中的一个内的位置。此外,设备被配置为基于内接于圆中的三角形中的一个内的经确定的位置确定对象位置至基底平面的投影的映射位置(例如,使用将经确定的位置所处于的三角形映射至基底平面中的相关联的三角形的线性变换)。举例而言,映射位置及对象位置距基底区域的距离可一起确定音频对象在笛卡尔坐标系中的位置。
应注意,设备基于与用于将音频对象的对象位置从笛卡尔表示转换为球面表示的上述设备类似的考虑。由用于将对象位置从球面表示转换为笛卡尔表示的设备执行的转换可例如反转上文所提及的设备的操作。此外,已发现,由用于将音频对象的对象位置从球面表示转换为笛卡尔表示的设备执行的操作通常在计算上简单,此部分地是因为它们被分裂成低复杂度的分开的独立(或连续)处理步骤。
在较佳实施例中,设备被配置为基于仰角而获得映射仰角。此有助于从良好地适合于球面域渲染的仰角转至良好地适于笛卡尔域渲染的仰角。
在较佳实施例中,设备被配置为使用非线性映射获得映射仰角,该非线性映射将第一角区中的角度线性地映射至第一映射角区且将第二角区内的角度线性地映射至第二映射角区,其中第一角区在与第一映射角区相比时具有不同宽度。已发现,此类分段线性映射(其作为整体为非线性映射)可以在计算上非常高效的方式执行,且通常引起改良的听觉印象。
在较佳实施例中,由第一角度范围区及第二角度范围区一起覆盖的角度范围与由第一映射角度范围区及第二映射角度范围区一起覆盖的角度范围相同。因此,给定角度范围(例如,在0°与90°之间)可映射至对应角度范围(例如,也为从0°至90°),通过非线性(分段线性)映射,其中一些角区被压缩,且其中一些角区被展开。已发现,此类映射有助于获得良好的听觉印象,且在计算上高效。
在较佳实施例中,设备被配置为根据权利要求中提供的规则而将仰角映射至映射仰角上。已发现,此规则为特别有利的实施。
在较佳实施例中,设备被配置为基于球面域半径获得映射球面域半径。应注意,球面域半径(其可例如处于由球面域三角形所内接于的圆的半径确定的数值范围内)为次佳的。出于此原因,施加映射以得出映射球面域半径是有利的。举例而言,可映射球面域半径,使得映射球面域半径的值大于圆的半径。举例而言,可例如使用以下关系对于接近于圆的半径的球面域半径达成此目的:
Figure BDA0002712571120000071
其中球面域半径为r且映射球面域半径为
Figure BDA0002712571120000072
换言之,可例如以使得从映射球面域半径值得出的二维半径值小于或等于所述圆的半径的方式确定映射球面域半径。
在较佳实施例中,设备被配置为依据仰角或依据映射仰角而缩放球面域半径。举例而言,设备可被配置为执行将球面坐标系中的圆映射至笛卡尔系统中的正方形的边界的映射(例如,以得出映射仰角)。通过使用此类映射,可实现映射球面域半径良好地适合于得出二维半径值且也用于获得z坐标值。
在较佳实施例中,设备被配置为根据权利要求中所描述的规则基于球面域半径而获得映射球面域半径。已发现,此类规则特别有效,且引起良好的听觉印象。
在较佳实施例中,设备被配置为根据在权利要求中限定的规则获得描述对象位置距基底区域的距离的值z。替代地或另外,设备可被配置为根据在权利要求中限定的规则获得中间半径。已发现,这些规则特别有效,且实施起来简单。
在较佳实施例中,设备被配置为使用将圆区段映射至内接于圆中的三角形的映射来执行半径校正。举例而言,可独立于方位角而取在零与球面域三角形所内接于的圆的半径之间的值的中间半径可以如下方式映射:映射球面域半径的最大可获得值被限于内接于圆中的三角形的边距圆的中心(例如,在由方位角描述的方向上)的距离。举例而言,使用相应球面域三角形的边的距离(例如,在由方位角描述的方向上)与球面域三角形所内接于的圆的半径之间的方位角相依比率来缩放中间半径。
在较佳实施例中,设备被配置为依据方位角缩放中间半径,以获得经校正的半径。此类缩放通常在计算上简单,且仍适合于将圆的扇区映射至三角形而不造成过度变形。
另一较佳实施例基于由水平平面中的扩音器设定(比如5.1)给定的分段。
在较佳实施例中,设备被配置为根据如权利要求中所限定的规则而基于中间半径获得经校正的半径。已发现,此规则特别有利,且导致特别良好的听觉印象。
在较佳实施例中,设备被配置为根据在权利要求中限定的规则而确定在内接于圆中的三角形中的一个内的位置。此规则仅使用简单的三角函数,且良好地适合于清楚地限定x坐标及y坐标。
在较佳实施例中,设备被配置为使用将经确定的位置所处于的三角形映射至基底平面中的相关联的三角形的线性变换,基于在内接于圆中的三角形中的一个内的经确定的位置,确定对象位置至基底平面的投影的映射位置(例如,x坐标及y坐标)。已发现,此类线性变换为在球面域与笛卡尔域之间进行映射的非常有效(且可逆)的方法。
在较佳实施例中,设备被配置为根据在权利要求中限定的映射规则而确定对象位置至基底平面的投影的映射位置。已发现,此映射规则有效且可逆。
在较佳实施例中,如权利要求中所描述地限定变换矩阵。
在较佳实施例中,基底区域三角形包含第一基底区域三角形、第二基底区域三角形、第三基底区域三角形及第四基底区域三角形,如上文已经提及。
类似地,在较佳实施例中,球面域三角形包含第一球面域三角形、第二球面域三角形、第三球面域三角形及第四球面域三角形,如上文已经提及。
在其他较佳实施例中,如权利要求所提及地限定基底角度三角形的拐角的坐标。基底区域三角形、球面域三角形及所述三角形的拐角的特定选择基于与以上关于用于将对象位置从笛卡尔表示转换为球面表示的设备所提及的相同的考虑。
根据本发明的另一实施例建立一种用于提供音频流的音频流供应器。音频流供应器被配置为接收以笛卡尔表示描述音频对象的位置的输入对象位置信息。音频流供应器还被配置为提供音频流,音频流包含以球面表示描述对象的位置的输出对象位置信息。音频流供应器包含如上文所描述的设备以便将笛卡尔表示转换为球面表示。
根据另一实施例,还可以具有具有球面至笛卡尔变换的音频流供应器。
此类音频流供应器可使用笛卡尔表示处理输入对象位置信息,且仍可提供包含位置的球面表示的音频流。因此,音频流可由需要对象的位置的球面表示的音频解码器使用以便有效地工作。
根据本发明的另一实施例建立一种音频内容产生系统。音频内容产生系统被配置为确定以笛卡尔表示描述音频对象的位置的对象位置信息。音频内容产生系统包含如上文所描述的设备以便将笛卡尔表示转换为球面表示。此外,音频内容产生系统被配置为将球面表示包括至音频流中。
然而,可替代地,球面至笛卡尔也是可能的。
此类音频内容产生系统具有以下优点:最初可以笛卡尔表示确定对象位置,这对于许多使用者而言是方便的且更为直观。然而,音频内容产生系统仍可提供音频流,使得音频流包含最初以笛卡尔表示确定的对象位置的球面表示。因此,音频流可由需要对象的位置的球面表示的音频解码器使用以便有效地工作。
根据本发明的另一实施例建立一种音频播放设备。音频播放设备被配置为接收包含对象位置信息的球面表示的音频流。音频播放设备还包含如前所述的设备,设备被配置为将对象位置信息的球面表示转换为笛卡尔表示(或替代地,反之亦然)。音频播放设备进一步包含渲染器,该渲染器被配置为依据对象位置信息的笛卡尔表示而将音频对象渲染至与声音换能器(例如,扬声器)相关联的多个声道信号。
因此,音频播放设备可处理包含对象位置信息的球面表示的音频流,即使渲染器需要以笛卡尔表示的对象位置信息。换言之,显而易见,用于将对象位置从球面表示转换为笛卡尔表示的设备可有利地用于音频播放设备中。
应注意,所有应用(例如,产生工具或解码器)可以反转(镜像)方式实施,其中从球面坐标至笛卡尔坐标的转换可由从笛卡尔坐标至球面坐标的转换替换,且反之亦然(例如,球面->笛卡尔及笛卡尔->球面)。
根据本发明的其他实施例建立各个方法。
然而,应注意,方法基于与对应设备相同的考虑。此外,方法可通过此处关于设备所描述的特征、功能性及细节中的任一个单独地及组合地加以补充。
此外,根据本发明的实施例建立用于执行方法的计算机程序。
附图说明
随后将参考附图描述根据本申请的实施例,在附图中:
图1展示根据本发明的实施例的用于将音频对象的对象位置从笛卡尔表示转换为球面表示的设备的示意性方块图;
图2展示根据本发明的实施例的用于将对象的对象位置从球面表示转换为笛卡尔表示的设备的示意性方块图;
图3展示对于5.1+4H设定的具有对应扩音器位置的笛卡尔参数空间的示例的示意性表示;
图4展示根据ISO/IEC 23008-3:2015 MPEG-H 3D音频的球面坐标系的示意性表示;
图5展示笛卡尔坐标系及球面坐标系中的扬声器位置的示意性表示;
图6展示笛卡尔坐标系中的三角形至球面坐标系中的对应三角形的映射的图形表示;
图7展示笛卡尔坐标系中的三角形内的点至球面坐标系中的对应三角形内的点的映射的示意性表示;
表1展示笛卡尔坐标系中的三角形的拐角及球面坐标系中的拐角或对应三角形的坐标;
图8展示用于根据本发明的实施例中的半径调整的示意性表示;
图9展示用于根据本发明的实施例中的仰角及球面域半径的得出的示意性表示;
图10展示用于根据本发明的实施例中的半径的校正的示意性表示;
图11展示根据本发明的实施例的音频流供应器的示意性方块图;
图12展示根据本发明的实施例的音频内容产生系统的示意性方块图;
图13展示根据本发明的实施例的音频播放设备的示意性方块图;
图14展示根据本发明的实施例的方法的流程图;
图15展示根据本发明的实施例的方法的流程图;及
图16展示根据本发明的实施例的方法的流程图;
图17展示对于5.1+4H设定的具有对应扩音器位置的笛卡尔参数空间的示例的示意性表示;
图18展示根据ISO/IEC 23008-3:2015 MPEG-H 3D音频的球面坐标系的示意性表示;
图19展示笛卡尔坐标系及球面坐标系中的扬声器位置的示意性表示;
图20展示笛卡尔坐标系中的三角形至球面坐标系中的对应三角形的映射的图形表示;
图21展示笛卡尔坐标系中的三角形内的点至球面坐标系中的对应三角形内的点的映射的示意性表示;
表2展示笛卡尔坐标系中的三角形的拐角及球面坐标系中的拐角或对应三角形的坐标;
图22展示用于根据本发明的实施例中的半径调整的示意性表示;
图23展示用于根据本发明的实施例中的仰角及球面域半径的得出的示意性表示;
图24展示用于根据本发明的实施例中的半径的校正的示意性表示。
具体实施方式
在下文中,将描述不同发明实施例及方面。此外,将通过所附权利要求限定其他实施例。
应注意,如权利要求所限定的任何实施例可通过本文中所描述的细节(特征及功能性) 中的任一个加以补充。此外,本文中所描述的实施例可单独地使用,且也可视情况通过包括于权利要求中的细节(特征及功能性)中的任一个加以补充。
此外,应注意,本文中所描述的各个方面可单独地或组合地使用。因此,可将细节添加至所述各个方面中的每一个,而不将细节添加至所述方面中的另一个。
还应注意,本发明明确地或隐含地描述可用于音频编码器(用于提供输入音频信号的经编码表示的设备)及音频解码器(用于基于经编码表示提供音频信号的经解码表示的设备) 中的特征。因此,本文中所描述的特征中的任一个可用于音频编码器的上下文及音频解码器的上下文中。
此外,本文中所揭示的与方法相关的特征及功能性也可用于设备(被配置为执行此类功能性)中。此外,本文中关于设备所揭示的任何特征及功能性也可用于对应方法中。换言之,本文所揭示的方法可通过关于设备所描述的特征及功能性中的任一个加以补充。
此外,本文中所描述的特征及功能性中的任一个可以硬件或软件实施,或使用硬件与软件的组合实施,如将在部分“实施替代例”中所描述。
1.根据图1的实施例
图1展示用于将音频对象的对象位置从笛卡尔表示转换为球面表示的设备的示意性方块图。
设备100被配置为接收笛卡尔表示110,该笛卡尔表示可例如包含笛卡尔坐标x、y、z。此外,设备100被配置为提供球面表示112,该球面表示可例如包含坐标r、
Figure BDA0002712571120000115
及θ。
设备可基于以下假设:笛卡尔表示的基础区域被细分为多个基础区域三角形(例如,如图6中所示)且多个球面域三角形内接于球面表示的圆中(例如,也如图6中所示)。
设备100包含三角形确定器(或确定)120,三角形确定器被配置为确定音频对象的对象位置至基底区域的投影布置在基底区域三角形中的哪一个中。举例而言,三角形确定器 120可基于对象位置信息的x坐标及y坐标提供三角形标识122。
此外,设备可包含映射位置确定器,映射位置确定器被配置为使用将基底区域三角形(音频对象的对象位置至基底区域的投影布置在其中)映射至其相关联的球面域三角形的线性变换,确定对象位置的投影的映射位置。换言之,映射位置确定器可将第一基底区域三角形内的位置映射至第一球面域三角形内的位置,且可将第二基底区域三角形内的位置映射至第二球面域三角形内的位置。一般而言,第i基底区域三角形内的位置可被映射至第i球面域三角形内的位置(其中第i基底区域三角形的边界可被映射至第i球面域三角形的边界)。因此,映射位置确定器130可基于x坐标及y坐标以及基于由三角形确定器120提供的三角形标识122提供映射位置132。
此外,设备100包含方位角/中间半径值得出器140,该方位角/中间半径值得出器被配置为从映射位置132(其可由两个坐标描述)得出方位角(例如,角度
Figure BDA0002712571120000111
)及中间半径值(例如,中间半径值
Figure BDA0002712571120000112
)。方位角信息以142指定,且中间半径值以144指定。
视情况,设备100包含半径调整器146,该半径调整器接收中间半径值144且基于中间半径值提供经调整的中间半径值148。在下文中,将参考经调整的中间半径值描述进一步处理。然而,在不存在可选半径调整器146的情况下,中间半径值144可取代经调整的中间半径值148。
设备100还包含仰角计算器150,该仰角计算器被配置为依据中间半径值144或依据经调整的中间半径值148以及还依据描述对象位置距基底区域的距离的z坐标,获得仰角152 (例如,以
Figure BDA0002712571120000113
指定)。
此外,设备100包含球面域半径值计算器,该球面域半径值计算器被配置为依据中间半径值144或经调整的中间半径值148以及还依据描述对象位置距基底区域的距离的z坐标,获得球面域半径值。因此,球面域半径值计算器160提供也以
Figure BDA0002712571120000114
指定的球面域半径值162。
视情况,设备100还包含仰角校正器(或调整器)170,该仰角校正器被配置为基于仰角152获得经校正或经调整的仰角172(例如以θ指示)。
此外,设备100还包含球面域半径值校正器(或球面域半径值调整器)180,该球面域半径值校正器被配置为基于球面域半径值162提供经校正或经调整的球面域半径值182。经校正或经调整的球面域半径值182例如以r指示。
应注意,设备100可通过本文中所描述的特征及功能性中的任一个加以补充。此外,应注意,各个区块中的每一个可例如使用下文描述的细节实施,而不需要使用特定细节实施其他区块。
关于设备100的功能性,应注意,设备被配置为执行多个小步骤,其中的每一个在将球面表示转换回至笛卡尔表示的设备侧处为可逆的。
设备的总体功能性基于以下构思:以笛卡尔表示给出的对象位置(其中,例如,有效对象位置可处于以笛卡尔坐标系的原点为中心的立方体内,且与笛卡尔坐标系的轴线对准)可被映射至球面表示(其中,例如,有效对象位置可处于以球面坐标系的原点为中心的球体内),而不使听觉印象显著劣化。举例而言,若扩音器位置限定三角形/分段,则启用直接扩音器映射。对象位置至基底区域(例如,至x-y平面)的投影可被映射至与对象位置至基底区域中的投影所布置于的三角形相关联的球面域三角形内的位置。因此,获得映射位置132,其为球面域三角形所布置于的区域内的二维位置。
使用方位角得出器或方位角得出直接从此映射位置132得出方位角。然而,已发现还可基于可从映射位置132得出的中间半径值144(或基于经调整的中间半径值148)获得仰角 152及球面域半径值162。在简单选项中,可容易地从映射位置132得出的中间半径值144可用来得出球面域半径值162,其中考虑z坐标(球面域半径值计算器160)。此外,可容易地从中间半径值144或从经调整的中间半径值148得出仰角152,其中也考虑z坐标。详言之,由映射位置确定器130执行的映射在与不执行此类映射的方法相比时显著改良结果。
此外,已发现,若由半径调整器146调整中间半径值及若由可选仰角校正器或仰角调整器170调整仰角152且若由球面域半径值校正器或球面域半径值调整器180校正或调整球面域半径值162,则可进一步改良转换的质量。半径调整器146及球面域半径值校正器180可例如用来调整半径的数值范围,使得所得半径值182包含良好地适于笛卡尔表示的数值范围。类似地,仰角校正器170可提供经校正的仰角172,该经校正的仰角引起特别良好的听觉印象,因为将达成以下情况:仰角被较佳地调整至通常用于音频处理领域的球面表示。
此外,应注意,设备100可视情况通过本文中所描述的特征及功能性中的任一个单独地及组合地加以补充。
详言之,设备100可视情况通过关于“产生侧转换”所描述的特征及功能性中的任一个加以补充。
本文中所描述的特征、功能性及细节可视情况单独地或组合地引入至设备100中。
2.根据图2的实施例
图2展示用于将音频对象的对象位置从球面表示转换为笛卡尔表示的设备的示意性方块图。
整体以200指定用于将对象位置从球面表示转换为笛卡尔表示的设备。
设备200接收为球面表示的对象位置信息。球面表示可例如包含球面域半径值r、方位角值(例如,
Figure BDA0002712571120000132
)及仰角值(例如,θ)。
类似于设备100,设备200也基于以下假设:笛卡尔表示的基础区域(例如,x-y平面中的正方形区域,例如具有拐角点(-1;-1;0)、(1;-1;0)、(1;1;0)及(-1;1; 0))被细分为多个基础区域三角形(例如,第一基础区域三角形、第二基础区域三角形、第三基础区域三角形及第四基础区域三角形)。举例而言,基础区域三角形可全部具有在基底区域的中心位置处的拐角。此外,假定存在多个(例如,对应或相关联的)球面域三角形内接于球面表示的圆中(其中,例如,球面域三角形中的每一个与基底区域三角形相关联,其中球面域三角形在与相关联的基础区域三角形相比时通常变形,且其中存在用于将给定基底区域三角形映射至其相关联的球面域三角形的线性映射)。此外,球面域三角形可例如包含在圆的中心处的拐角。
设备200视情况包含仰角映射器220,该仰角映射器接收球面表示210的仰角值。仰角映射器220被配置为基于仰角(例如,以θ指定)获得映射仰角222(例如,以
Figure BDA0002712571120000131
指定)。举例而言,仰角映射器220可被配置为使用非线性映射获得映射仰角222,该非线性映射将第一角区中的角度线性地映射至第一映射角区且将第二角区内的角度线性地映射至第二映射角区,其中第一角区在与第一映射角区相比时具有不同宽度,且其中,举例而言,由第一角区与第二角区一起覆盖的角度范围与由第一映射角区与第二映射角区一起覆盖的角度范围相同。
此外,设备200视情况包含接收球面域半径(例如,r)的球面域半径值映射器230。可选的球面域半径值映射器230可被配置为基于球面域半径(例如,r)获得映射球面域半径232。
此外,设备200包含z坐标计算器240,该z坐标计算器被配置为基于仰角218或基于映射仰角222以及基于球面域半径228或基于映射球面域半径232,获得描述对象位置距基底区域的距离的值(例如,z)。描述对象位置距基底区域的距离的值以242指定,且也可以“z”指定。
此外,设备200包含中间半径计算器250,该中间半径计算器被配置为基于仰角218或基于映射仰角222以及还基于球面域半径228或基于映射球面域半径232,获得中间半径252 (例如,以rxy指定)。
设备200视情况包含半径校正器260,该半径校正器可被配置为接收中间半径252及方位角258并提供经校正(或经调整)的半径值262。
设备200还包含位置确定器270,该位置确定器被配置为基于中间半径252或基于中间半径的经校正版本262且基于方位角值258(例如
Figure BDA0002712571120000141
)确定内接于圆中的三角形(球面域三角形)中的一个内的位置。三角形中的一个内的位置可以272指定,且可例如由两个坐标
Figure BDA0002712571120000142
Figure BDA0002712571120000143
(其为球面域三角形所处于的平面内的笛卡尔坐标)描述。
设备200可视情况包含确定位置272处于球面域三角形中的哪一个中的三角形识别280。由三角形识别280执行的此识别可例如用来选择待由映射器290使用的映射规则。
映射器290被配置为基于内接于圆中的三角形中的一个内的经确定的位置272(例如,使用将经确定的位置所处于的三角形映射至基底平面中的相关联的三角形的变换或线性变换),确定对象位置至基底平面的投影的映射位置292。因此,映射位置292(其可为基底平面内的二维位置)及对象位置距基底区域的距离(例如,z值242)可一起确定在笛卡尔坐标系中的音频对象的位置。
应注意,设备200的功能性可例如与设备100的功能性相逆,使得可以使用设备200将由设备100提供的球面表示112映射回至对象位置的笛卡尔表示(其中以球面表示的对象位置信息210(其可包含仰角218、球面域半径228及方位角258)可等于由设备100提供的球面表示112,或可从球面表示112得出(例如,可为球面表示112的有损编码或经量化版本)。举例而言,通过适当地选择处理,可以达成由设备100执行的转换可由设备200以适度工作量逆转。
此外,应注意,设备200的重要特征为,存在球面域三角形中的一个内的位置至笛卡尔表示的基底平面中的位置的映射,因为此功能性允许以适度复杂度提供良好的听觉印象的映射。
此外,应注意,设备200可视情况通过本文中所描述的特征、功能性及细节中的任一个单独地及组合地加以补充。
3.其他实施例及考虑
在下文中,将描述关于用于对象位置元数据或动态对象位置元数据的映射规则的一些细节。应注意,位置不一定必须为动态的。也可以映射静态对象位置。
根据本发明的实施例关于从产生侧对象元数据的转换,尤其是对象位置数据的转换,在产生侧使用笛卡尔坐标系但在传输格式中以球面坐标描述对象位置元数据的情况下。
已辨识出以下问题:在笛卡尔坐标中,与球面坐标系相比,扩音器并不始终位于数学上的“正确”位置。因此,期望转换确保来自笛卡尔空间的立方体区域正确地投影至球体或半球体。
举例而言,使用音频对象渲染器基于球面坐标系(例如,如MPEG-H 3D音频标准中所描述的渲染器)或使用基于笛卡尔的渲染器以对应转换算法同等地渲染扩音器位置。
已发现,立方体表面应被映射或投影(或有时必须被映射或投影)至扩音器所位于的球体的表面。此外,期望(或有时需要)转换算法具有小计算复杂度。对于从球面至笛卡尔坐标的转换步骤尤其如此。
本发明的示例应用为:使用常常使用笛卡尔参数空间(x,y,z)用于音频对象坐标的现有技术音频对象创作工具,但使用以球面坐标(方位角、仰角、半径)描述音频对象位置的传输格式,诸如例如MPEG-H 3D音频。然而,传输格式可能不为随后应用的渲染器(球面或笛卡尔)所知。
应注意,在下文中,作为示例,针对5.1+4H扩音器设定描述本发明,但本发明可容易地针对所有类型的扩音器设定(例如,7.1+4、22.2,等)或不同笛卡尔参数空间(不同轴线定向或不同轴线缩放,…)进行转用。
坐标系的一般比较
在下文中,将提供坐标系的一般比较。
为此目的,图3展示对于5.1+4H设定的具有对应扩音器位置的笛卡尔参数空间的示例的示意性表示。如可看出,归一化对象位置可例如处于具有拐角在坐标(-1;-1;0)、(1;-1;0)、(1;1;0)、(-1;1;0)、(-1;-1;1)、(1;-1;1)、(1;1;1)及(-1; 1;1)处的立方体内。
作为比较,图4展示根据ISO/IEC 23008-3:2015MPEG-H 3D音频的球面坐标系的示意性表示。如可看出,对象的位置由方位角、仰角及(球面域)半径描述。
然而,应注意,ISO坐标系中的坐标X及Y与上文所描述的笛卡尔坐标系相比以不同方式限定。
然而,应注意,此处展示的坐标系仅应被视为示例。
3.1产生侧转换(笛卡尔至球面)
在下文中,将描述从(例如,对象位置的)笛卡尔表示至(例如,对象位置的)球面表示的转换,其可较佳由设备100执行。
应注意,此处所描述的特征、功能性及细节可视情况单独地及组合地被设备100接管。
然而,此处所描述的“投影侧转换”(其为从笛卡尔表示至球面表示的转换)可被视为根据本发明的实施例,其可原样使用(或结合设备100的特征及功能性中的一个或多个,或结合如由权利要求所限定的特征及功能性中的一个或多个使用)。
此处例如假定扩音器位置以如由例如ITU推荐标准ITU-R BS.2159-7所描述及在MPEG-H规范中描述的球面坐标给出。
以分离方法应用转换。首先,x及y坐标被映射至方位角/xy平面(例如,基底平面)中的方位角
Figure BDA0002712571120000151
及半径rxy。此可例如由设备100的区块120、130、140执行。随后,使用z 坐标计算3D空间中的仰角及半径(常常指定为球面域半径值)。此可例如由区块146(可选的)、150、160、170(可选的)及180(可选的)执行。作为示例(或例示性地),针对5.1+4H扩音器设定描述映射。
特殊情况x=y=0;
应注意,视情况,可针对特殊情况x=y=0作出以下假设。
对于z>0:
Figure BDA0002712571120000161
θ=90°且r=z。
对于z=0:
Figure BDA0002712571120000162
θ=0°且r=0。
1)xy平面中的转换
xy平面中发生的转换可例如包含将在下文中描述的三个步骤。
步骤1:(可选的;可为预备步骤)
在第一步骤中,笛卡尔坐标系中的三角形被映射至球面坐标系中的对应三角形。
举例而言,图6展示图形表示的基础区域三角形及相关联的球面域三角形。举例而言,图形表示610展示四个三角形。举例而言,存在x坐标方向620及y坐标方向622。原点例如在位置624处。举例而言,四个三角形内接于正方形中,该正方形可例如包含归一化坐标 (-1;-1)、(1;-1)、(1;1)及(-1;1)。第一三角形(以绿色或使用第一阴影线展示)以630指定,且包含处于(1;1)、(-1;1)及(0;0)处的拐角。以紫色或使用第二阴影线展示的第二三角形以632指定,且具有处于坐标(-1;1)、(-1;-1)及(0;0) 处的拐角。第三三角形634以红色或使用第三阴影线展示,且具有处于坐标(-1;-1)、(1; -1)及(0;0)处的拐角。第四三角形636以白色或使用第四阴影线展示,且具有处于坐标 (1;-1)、(1;1)及(0;0)处的拐角。
因此,(归一化)单位正方形的整个内部区域填充有四个三角形,其中四个三角形全部使其拐角中的一个处于坐标系的原点处。可设定,第一三角形630在原点“前方”(例如,在假定处于原点的收听者前方),第二三角形632在原点的左侧,第三三角形在原点“后方”,且第四三角形636在原点的右侧。换言之,第一三角形630在从原点看时覆盖第一角度范围,第二三角形632在从原点看时覆盖第二角度范围,第三三角形在从原点看时覆盖第三角度范围,且第四三角形在从原点看时覆盖第四角度范围。应注意,四个可能的扬声器位置与单位正方形的拐角重合,且第五扬声器位置(中心扬声器)可假定处于坐标(0;1)处。
图形表示650展示内接于球面坐标系中的单位圆中的相关联的三角形。
如图形表示650中可见,四个三角形内接于例如处于球面坐标系的基底区域(例如,零仰角)中的单位圆中。第一球面域三角形660以绿色或第一阴影线展示,且与第一基底区域三角形630相关联。第二球面域三角形662以紫色或第二阴影线展示,且与第二基底区域三角形632相关联。第三球面域三角形664以红色或第三阴影线展示,且与第三基底区域三角形634相关联。第四球面域三角形666以白色或第四阴影线展示,且与第四基底区域三角形636相关联。相邻球面域三角形共享共同的三角形边缘。此外,在从原点看时,四个球面域三角形覆盖360°的全范围。举例而言,第一球面域三角形660在从原点看时覆盖第一角度范围,第二球面域三角形662在从原点看时覆盖第二角度范围,第三球面域三角形664在从原点看时覆盖第三角度范围,且第四球面域三角形666在从原点看时覆盖第四角度范围。举例而言,第一球面域三角形660可覆盖在原点前方的角度范围,第二球面域三角形662可覆盖在原点或左侧的角度范围,第三球面域三角形可覆盖在原点后方的角度范围,且第四球面域三角形666可覆盖在原点的右侧的角度范围。此外,四个扬声器位置可布置在圆上的相邻球面域三角形的共同拐角的位置处。另一扬声器位置(例如,中心扬声器的位置)可布置在球面域三角形的外部(例如,在第一球面域三角形“前方”的圆上)。
一般而言,还应注意,由球面域三角形覆盖的角度范围可不同于由相关联的基底区域三角形覆盖的角度范围。举例而言,尽管在从笛卡尔坐标系的原点看时,基底区域三角形中的每一个可例如覆盖90°的角度范围,但第一、第二及第四球面域三角形可覆盖小于90°的角度范围,且第三球面域三角形可覆盖大于90°的角度范围(在从球面坐标系的原点看时)。可替代地,可使用更多的三角形,如在以下具有5个区段的示例中所示。
此外,尽管基底区域三角形630、632、634、636可相同,但球面域三角形可具有不同形状,其中第二球面域三角形666的形状与第四球面域三角形666的形状可相同(但相对于彼此成镜像)。
此外,应注意,可在笛卡尔表示及球面表示两者中均使用较大数量的三角形。
在下文中,作为示例,将针对一个三角形展示笛卡尔坐标系中的三角形至球面坐标系中的对应三角形的映射。
作为示例,图7展示基底区域三角形及相关联的球面域三角形的图形表示。如图形表示 710中可见,可为“第二基底区域三角形”的基底区域三角形包含在笛卡尔坐标系的坐标P1、 P2及原点处的拐角。相关联的球面域三角形(例如,“第二球面域三角形”)可包含在笛卡尔坐标系的坐标
Figure BDA0002712571120000171
及原点处的拐角,如图形表示750中可见。举例而言,第一基底区域三角形632内的点P被映射至相关联的球面域三角形662中的对应点
Figure BDA0002712571120000172
三角形或其中的位置(比如点P)可使用线性变换被投影(或映射)至彼此:
Figure BDA0002712571120000173
可例如使用(相关联的)三角形的拐角的已知位置P1、P2
Figure BDA0002712571120000174
Figure BDA0002712571120000175
来计算(或预先计算)变换矩阵。这些点取决于扩音器设定及扩音器的对应位置以及位置P所位于的三角形。
Figure BDA0002712571120000176
然而,应注意,变换矩阵T可例如预先计算。
举例而言,若使用设备100实施概念,则三角形确定器120可确定待从笛卡尔表示转换为球面表示的位置P位于哪个三角形中(或更明确地,可确定(原始三维)位置至基底平面的(二维)投影P布置在基底区域三角形中的哪一个中,其中假定位置可为由x坐标、y坐标及z坐标描述的三维位置)。根据位置的投影P处于三角形中的哪一个中的确定,适当变换矩阵T可被选择且可被映射位置确定器130应用(例如,应用于投影P)。
因此,获得映射位置
Figure BDA0002712571120000181
在下文中,将描述关于基底区域三角形及球面域三角形的示例。
举例而言,5.1+4H扩音器设定在中间层中含有标准5.1扩音器设定,其为用于在xy平面中投影的基础。在表1中,对于需要投影的四个三角形给出对应点P1、P2
Figure BDA0002712571120000182
Figure BDA0002712571120000183
然而,应注意,如表1中所示的点仅应被视为示例,且该概念也可结合其他扩音器布置应用,其中可自然地以不同方式选择三角形。
步骤2
在第二步骤中,基于映射坐标
Figure BDA0002712571120000184
Figure BDA0002712571120000185
计算半径
Figure BDA0002712571120000186
(其也可指定为中间半径或中间半径值) 及方位角
Figure BDA0002712571120000187
举例而言,此计算由方位角得出器及中间半径值确定器执行,其展示为设备100 中的区块140。举例而言,可执行以下计算或映射:
Figure BDA0002712571120000188
Figure BDA0002712571120000189
步骤3(可选的)
可调整半径(例如,中间半径值
Figure BDA00027125711200001810
),因为与球面坐标系相比,扩音器例如置放在笛卡尔坐标系中的正方形上。在球面坐标系中,扩音器定位在例如圆上。
为调整半径,将笛卡尔扩音器正方形的边界投影至球面坐标系的圆。这意味着弦投影至圆的对应区段。
应注意,此功能性可例如由设备100的半径调整器146执行。
图8示出考虑例如第一球面域三角形的缩放。例如通过中间半径值
Figure BDA00027125711200001811
及方位角
Figure BDA00027125711200001812
描述第一球面域三角形830内的点840。弦上的点可例如通常包含小于圆的半径的(中间)半径值(其中若假定半径被归一化,则圆的半径可为1)。然而,弦上的点的“半径”(或半径坐标或距原点的距离)可取决于方位角,其中弦的端点可具有与圆的半径相同的半径值。然而,对于第一球面域三角形内的点,可通过圆的半径(例如,1)与弦上相应点的半径值(例如,距原点的距离)之间的比率来缩放半径值。因此,可缩放弦上的点的半径值,使得它们等于圆的半径。具有相同方位角的其他点(比如点840)以比例方式缩放。
将在下文中提供半径(更明确地,中间半径值)的此类调整的示例:
对于
Figure BDA0002712571120000191
Figure BDA0002712571120000192
对于
Figure BDA00027125711200001922
Figure BDA0002712571120000194
对于
Figure BDA00027125711200001923
Figure BDA0002712571120000196
2)z分量的转换
举例而言,假定顶部层的仰角在球面坐标系中为30°仰角。
换言之,作为示例,假定升高的扬声器(可认为其构成“顶部层”)以30°仰角布置。
图9作为示例展示球面坐标系中量的限定。如图9中可见,以二维投影视图展示限定。详言之,图9展示(经调整的)中间半径值rxy、笛卡尔表示的z坐标、球面域半径值
Figure BDA0002712571120000197
及仰角
Figure BDA0002712571120000198
在下文中,将描述确定
Figure BDA0002712571120000199
Figure BDA00027125711200001910
或其经校正或经调整版本r、θ的不同步骤。
步骤1:
在示例中,可以基于半径rxy(其可为经调整的中间半径值)及z分量(其可为笛卡尔表示的z值)计算仰角
Figure BDA00027125711200001911
此计算可例如由仰角计算器150执行。此外,该方法还包含基于角度
Figure BDA00027125711200001912
(也指定为仰角)及rxy计算3D半径
Figure BDA00027125711200001913
(也指定为球面域半径值)。举例而言,可使用计算
Figure BDA00027125711200001914
然而,可替代地,可基于半径rxy及z分量计算3D半径
Figure BDA00027125711200001915
此计算可例如由球面域半径值计算器160执行。
举例而言,可根据下式计算
Figure BDA00027125711200001916
Figure BDA00027125711200001917
Figure BDA00027125711200001918
Figure BDA00027125711200001919
步骤2:(可选的)
视情况,可执行由于笛卡尔系统的矩形边界至球面坐标的单位圆的投影的半径
Figure BDA00027125711200001920
的校正。
图10展示此变换的示意性表示
如从图10可看出,球面域半径值
Figure BDA00027125711200001921
可取大于球面坐标系中的单位圆的半径的值。参考先前步骤中提及的上述方程式,假设rxy可取介于0与1之间的值且假设z可取介于0与1之间或介于-1与1之间的值(例如,对于球面坐标系内的单位立方体内的点),
Figure BDA0002712571120000201
可取高达
Figure BDA0002712571120000202
的值。
因此,球面域半径值经校正或经调整,以借此获得经校正的(或经调整的)球面域半径值r。举例而言,可使用以下方程式或映射规则进行校正或调整:
对于
Figure BDA0002712571120000203
Figure BDA0002712571120000204
对于
Figure BDA0002712571120000205
Figure BDA0002712571120000206
此外,应注意,可由球面域半径值校正器180执行球面域半径值的上述调整或校正。
步骤3:(可选的)
视情况,可由于扩音器在笛卡尔
Figure BDA0002712571120000207
及球面(θ=30°)坐标系中的不同置放而执行仰角
Figure BDA0002712571120000208
的校正。
换言之,由于高度扩音器或升高的扩音器例如在笛卡尔坐标系与球面坐标系中以不同仰角布置,可视情况执行
Figure BDA0002712571120000209
至θ的映射。此类映射可有助于改良可在音频解码器侧处达成的听觉印象。举例而言,将根据以下方程序或映射规则执行
Figure BDA00027125711200002010
至θ的映射:
Figure BDA00027125711200002011
然而,可使用更一般的公式,如下文将描述。
举例而言,可由仰角校正器170执行
Figure BDA00027125711200002012
至θ的映射。
总之,已描述关于可在将笛卡尔表示变换为球面表示时使用的功能性的细节。此处所描述的细节可视情况单独地及组合地引入至设备100中。
3.2解码器侧转换(球面至笛卡尔)(实施例)
在解码器侧,可执行逆转换(其可与产生侧执行的过程相逆)。这意味着转换步骤可例如以相反次序反转。
在下文中,将描述一些细节。
1)仰角的转换及半径在xy平面上的投影(z分量的计算)
特殊情况θ=90°:(可选的)
视情况,可在θ=90°的情况下执行特殊处置。举例而言,以下设定可用于此情况:
x=0,y=0且z=r
步骤1:(可选的)
视情况,可执行θ至
Figure BDA00027125711200002013
的映射,其可例如反转上文所提及的
Figure BDA00027125711200002014
至θ(可选的)映射。举例而言,可使用以下映射规则进行θ至
Figure BDA0002712571120000211
的映射:
Figure BDA0002712571120000212
应注意,θ至
Figure BDA0002712571120000213
的映射可例如由仰角映射器220来执行,仰角映射器可视为可选的。
步骤2:(可选的)
视情况,可执行半径校正的逆转。举例而言,由于笛卡尔系统的矩形边界至球面坐标系的单位圆的投影的半径
Figure BDA0002712571120000214
的上述校正可通过类操作反转。
举例而言,可使用以下映射规则执行半径校正的逆转:
Figure BDA0002712571120000215
举例而言,可由球面域半径值映射器230执行半径校正的逆转。
步骤3:
此外,可基于映射球面域半径值
Figure BDA0002712571120000216
及基于映射仰角
Figure BDA0002712571120000217
(或可替代地,基于球面域半径值r 及仰角θ,若省略上述
Figure BDA0002712571120000218
至θ的可选映射及半径校正的上述可选逆转)计算z坐标z及半径值或中间半径值“rxy”。
举例而言,可根据以下映射规则执行z及rxy的计算:
Figure BDA0002712571120000219
Figure BDA00027125711200002110
举例而言,可由z坐标计算器240执行z坐标的计算。rxy的计算可例如由中间半径计算器250执行。
2)x及y分量的计算
在下文中,将描述x分量及y分量的计算。举例而言,基于中间半径rxy且基于方位角
Figure BDA00027125711200002111
确定x分量及y分量。
步骤1:(可选的)
视情况,可执行半径校正的逆转。举例而言,可反转因为扩音器与球面坐标系相比置放在笛卡尔坐标系中的正方形上而进行的可选半径调整。
可例如根据以下映射规则执行半径校正的可选逆转:
Figure BDA0002712571120000221
举例而言,可由半径校正器260执行半径校正的可选逆转。
步骤2:
此外,可执行坐标
Figure BDA0002712571120000222
Figure BDA0002712571120000223
的计算。举例而言,可基于经校正的半径值
Figure BDA0002712571120000224
且基于方位角确定
Figure BDA0002712571120000225
Figure BDA0002712571120000226
举例而言,以下映射规则可用于计算
Figure BDA0002712571120000227
Figure BDA0002712571120000228
Figure BDA0002712571120000229
Figure BDA00027125711200002210
可例如由位置确定器270执行
Figure BDA00027125711200002211
Figure BDA00027125711200002212
的计算。
步骤3:
此外,可执行为笛卡尔表示中的坐标的坐标x及y的计算。
详言之,可使用线性变换T -1。变换矩阵T -1可为上文所提及的变换矩阵T的逆。可例如依据坐标
Figure BDA00027125711200002213
Figure BDA00027125711200002214
布置在球面域三角形中的哪一个中的问题来选择变换矩阵T -1。为此目的,可视情况执行三角形识别280。接着,可选择如上文所提及而限定的适当变换矩阵T -1
举例而言,可根据以下映射规则执行坐标x及y的计算:
Figure BDA00027125711200002215
举例而言,将由映射器290执行x及y的计算,其中依据坐标
Figure BDA00027125711200002216
Figure BDA00027125711200002217
且详言之依据具有坐标
Figure BDA00027125711200002218
Figure BDA00027125711200002219
的点布置在球面域三角形中的哪一个中的问题来选择适当映射矩阵T -1
总之,描述了基于球面坐标r、
Figure BDA00027125711200002220
及θ得出笛卡尔坐标x,y,z。
然而,应提及,可例如通过选择不同的基础区域三角形、球面域三角形或映射规则常数来调适上述计算。此外,可例如通过将基底区域三角形中的一个分裂成两个基底区域三角形及/或通过限定更多球面域三角形来改变三角形的数目。
还应注意,本文中所描述的细节中的任一个可视情况单独地及组合地引入至设备200 中。
3.根据图11的音频流供应器
图11展示根据本发明的实施例的音频流供应器的示意性方块图。
根据图11的音频流供应器整体以1100指定。音频流供应器1100被配置为接收以笛卡尔表示描述音频对象的位置的输入对象位置信息。此外,音频流供应器被配置为提供音频流1112,该音频流包含以球面表示描述音频对象的位置的输出对象位置信息。音频流供应器 1100包含用于将音频对象的对象位置从笛卡尔表示转换为球面表示的设备1130。
设备1130用来将包括于输入对象位置信息中的笛卡尔表示转换为包括至音频流1112中的球面表示。因此,音频流供应器1100能够提供以球面表示描述对象位置的音频流,即使输入对象位置信息仅以笛卡尔表示描述音频对象的位置。因此,音频流1112可由需要对象位置的球面表示的音频解码器使用以恰当地渲染音频内容。因此,音频流供应器1100良好地适合于用在其中对象位置信息可以笛卡尔表示来使用的产生环境中。应注意,许多音频产生环境适于方便地以笛卡尔表示(例如,使用x,y,z坐标)指定音频对象的位置。因此,音频流供应器1100可从此类音频产生设备接收对象位置信息,且提供可由依赖于对象位置信息的球面表示的音频解码器使用的音频流1112。
此外,应注意,音频流供应器1100可视情况包含额外功能性。举例而言,音频流供应器1100可包含音频编码器,该音频编码器接收输入音频信息且基于输入音频信息提供经编码的音频表示。举例而言,音频流供应器可接收单声道输入信号或可接收多声道输入信号,且基于其提供单声道输入音频信号或多声道输入音频信号的经编码表示(其也被包括至音频流1112中)。举例而言,一个或多个输入声道可表示来自“音频对象”(例如,来自特定音频源,如特定乐器或特定其他声源)的音频信号。此音频信号可由包括于音频流供应器中的音频编码器编码,且经编码表示可被包括至音频流中。编码可例如使用频域编码器(如AAC编码器或其改良版本)或线性预测域音频编码器(如基于LPC的音频编码器)。然而,音频对象的位置可例如由输入对象位置信息1110描述,且可由设备1130转换为球面表示,其中输入对象位置信息的球面表示可被包括至音频流中。因此,音频对象的音频内容可与对象位置信息分开编码,此举通常显著改良编码效率。
然而,应注意,音频流供应器可视情况包含额外功能性,如降混功能性(例如,将来自多个音频对象的信号降混为一个或两个或更多个降混信号),且可被配置为将一个或两个或更多个降混信号的经编码表示提供至音频流1112中。
此外,音频流供应器可视情况亦包含获得一些旁侧信息的功能性,该旁侧信息描述来自两个或更多个音频对象的两个或更多个对象信号之间的关系(比如对象间相关、对象间时间差、对象间相位差和/或对象间水平差)。此旁侧信息可例如以经编码版本被音频供应器包括至音频流1112中。
以此方式,信息可例如以经编码版本被音频流供应器包括至音频流1112中。
因此,音频流供应器1100可例如被配置为将经编码的降混信号、经编码的对象关系元数据(旁侧信息)及经编码的对象位置信息包括至音频流中,其中经编码的对象位置信息可以呈球面表示。
然而,音频流供应器1100可视情况通过对本领域技术者关于音频流供应器及音频编码器已知的特征及功能性中的任一个加以补充。
此外,应注意,设备1130可例如对应于上文所描述的设备100,且可视情况包含如本文所描述的额外特征及功能性及细节。
4.根据图12的音频内容产生系统
图12展示根据本发明的实施例的音频内容产生系统1200的示意性方块图。
音频内容产生系统1200可被配置为确定以笛卡尔表示描述音频对象的位置的对象位置信息。举例而言,音频内容产生系统可包含用户接口,其中用户可以笛卡尔表示输入对象位置信息。然而,视情况,音频内容产生系统还可从其他输入信息(例如,从对象位置的测量或从对象移动的仿真,或从任何其他适当功能性)得出笛卡尔表示的对象位置信息。
此外,音频内容产生系统包含如本文所描述的用于将音频对象的对象位置从笛卡尔表示转换为球面表示的设备。用于转换对象位置的设备以1230指定,且可对应于如上文所描述的设备100。此外,设备1230用以将经确定的笛卡尔表示转换为球面表示。
此外,音频内容产生系统被配置为将由设备1230提供的球面表示包括至音频流1212中。
因此,音频内容产生系统可提供包含球面表示的对象位置信息的音频流,即使对象位置信息可能最初系以笛卡尔表示确定(例如,从用户界面或使用任何其他对象位置确定概念)。
自然地,音频内容产生系统还可将例如音频信号的经编码表示及可能的额外元数据信息的其他音频内容信息包括至音频流1212中。举例而言,音频内容产生系统可将关于音频流供应器1110所描述的额外信息包括至音频流1212中。
因此,音频内容产生系统1200可视情况包含提供一个或多个音频信号的经编码表示的音频编码器。音频内容产生系统1200还可视情况包含降混器,该降混器将来自多个音频对象的音频信号降混为一个或两个或更多个降混信号。此外,音频内容产生系统可视情况被配置为得出对象关系信息(比如对象水平差信息或对象间相关值,或对象间时间差值,等),且可将其经编码表示包括至音频流1212中。
概言之,音频内容产生系统1200可提供其中对象位置信息被包括至球面表示中的音频流1212,即使对象位置最初以笛卡尔表示提供。
自然地,用于将对象位置从笛卡尔表示转换为球面表示的设备1230可通过本文中所描述的特征及功能性及细节中的任一个加以补充。
5.根据图13的音频播放设备
图13展示根据本发明的实施例的音频播放设备1300的示意性方块图。
音频播放设备1300被配置为接收包含对象位置信息的球面表示的音频流1310。此外,音频流1310通常也包含经编码的音频数据。
音频播放设备包含如本文所描述的用于将对象位置从球面表示转换为笛卡尔表示的设备1330。用于转换对象位置的设备1330可例如对应于如本文所描述的设备200。因此,用于转换对象位置的设备1330可接收球面表示的对象位置信息,且提供笛卡尔表示的对象位置信息,如附图标记1332处所示。
此外,音频播放设备1300还包含渲染器1340,该渲染器被配置为依据对象位置信息的笛卡尔表示1332而将音频对象渲染至与声音换能器相关联的多个声道信号1350。
视情况,音频播放设备也包含音频解码(或音频解码器)1360,其可例如接收包括于音频流1310中的经编码的音频数据,且基于经编码的音频数据提供经解码的音频信息1362。举例而言,音频解码可将一个或多个声道信号或一个或多个对象信号作为经解码的音频信息 1362提供至渲染器1340。
此外,应注意,渲染器1340可在由对象位置的笛卡尔表示1332确定的位置(在听觉环境内)处渲染音频对象的信号。因此,渲染器1340可使用对象位置的笛卡尔表示1332来确定与音频对象相关联的信号应如何分布至声道信号1350。换言之,渲染器1340基于对象位置信息的笛卡尔表示决定由哪些声音换能器或扬声器来渲染来自音频对象的信号(以及以哪一强度在不同声道信号中渲染信号)。
此提供用于音频播放的有效概念。此外,应注意,可使用若干类型的渲染器,其接收笛卡尔表示的对象位置信息,因为许多渲染器通常难以处置球面表示的对象位置表示(或完全不能处理球面表示的对象位置信息)。
因此,通过使用用于将球面表示的对象位置信息转换为笛卡尔表示的设备1330,音频播放设备可使用最佳地适合于以笛卡尔表示提供的对象位置信息的渲染设备。此外,应注意,设备1330可以相对较小的计算工作量实施,如上文所论述。
此外,应注意,设备1330可通过关于设备200所描述的特征及功能性及细节中的任一个加以补充。
6.根据图14的方法
图14展示用于将音频对象的对象位置从笛卡尔表示转换为球面表示的方法的流程图。
如权利要求14的方法1400包含确定1410音频对象的对象位置至基底区域的投影布置在数个基底区域三角形中的哪一个中。该方法还包含使用线性变换确定1420对象位置的投影的映射位置,该线性变换将基底区域三角形映射至其相关联的球面域三角形。
该方法还包含从映射位置得出1430方位角及中间半径值。该方法还包含依据中间半径值且以及对象位置距基底区域的距离而获得1440球面域半径值及仰角。
此方法基于与用于将对象位置自从笛卡尔表示转换为球面表示的上述设备相同的考虑。因此,方法1400可通过例如本文中关于设备100所描述的特征、功能性及细节中的任一个加以补充。
7.根据图15的方法
图15展示用于将音频对象的对象位置从球面表示转换为笛卡尔表示的方法的流程图。
该方法包含基于仰角或映射仰角且基于球面域半径或映射球面域半径而获得1510描述对象位置距基底区域的距离的值及中间半径。
该方法还包含基于中间半径或其经校正版本且基于方位角而确定1520内接于圆中的多个三角形中的一个内的位置。
该方法还包含基于内接于圆中的三角形中的一个内的经确定的位置而确定1530对象位置至笛卡尔表示的基底平面的投影的映射位置。
此方法基于与上述设备相同的考虑。此外,方法1500可通过本文中所描述的特征、功能性及细节中的任一个加以补充。
详言之,方法1500可通过关于设备200所描述的特征、功能性及细节中的任一个加以补充。
8.根据图16的方法
图16为用于音频播放的方法1600的流程图。
该方法包含接收1610包含对象位置信息的球面表示的音频流。
该方法还包含将球面表示转换1620为对象位置信息的笛卡尔表示。
该方法还包含依据对象位置信息的笛卡尔表示而将音频对象渲染1630至与声音换能器相关联的多个声道信号。
详言之,方法1600可通过本文中所描述的特征、功能性及细节中的任一个加以补充。
9.结论及其他实施例
在下文中,将描述额外实施例,其可单独地使用或结合本文中所描述的特征、功能性及细节而使用。
此外,在下文中描述的特征及功能性及细节可视情况与本文描述的其他实施例中的任一个组合使用。
第一方面建立一种用以在不同坐标空间之间转换音频相关对象元数据的方法。
第二方面建立一种用以将音频相关对象元数据从空间相关坐标转换为收听者相关坐标的方法,以及反之亦然。
第三方面建立一种用以在不同坐标空间之间转换扩音器位置的方法。
第四方面建立一种用以将扩音器位置元数据从空间相关坐标转换为收听者相关坐标的方法,以及反之亦然。
第五方面建立一种用以将音频对象位置元数据从笛卡尔参数空间转换为球面坐标系的方法,其使从xy平面至方位角j的转换与自z分量至仰角q的转换分开。
第六方面建立根据第五方面的将扩音器位置从笛卡尔空间正确地映射至球面坐标系的方法。
第七方面建立根据第五方面的将扩音器所位于的笛卡尔坐标系中的立方体空间的表面投影至球面坐标系中的含有对应扩音器的球体的表面的方法。
第八方面建立根据第一方面至第五方面中的一个的方法,包含以下处理步骤:
-将由xy平面中的2个邻近扩音器位置及立方体的中心形成的三角形投影至球面空间中的对应三角形
-校正半径以将扩音器矩形的外边缘从xy平面映射至在球面坐标系的水平平面中的含有扩音器的对应圆
-基于z分量将仰角应用于半径以确定球面(3D)半径
-基于仰角校正半径以还将高度扬声器映射至球体
-校正仰角以反映高度扬声器在笛卡尔与球面坐标系中的不同仰角
第九方面建立一种执行根据第五方面的逆操作的方法。
第十方面建立一种执行根据第六方面的逆操作的方法。
第十一方面建立一种执行根据第七方面的逆操作的方法。
第十二方面建立一种执行根据第八方面的逆操作的方法。
10.其他实施例
在下文中,将描述根据本发明的其他实施例,其可单独地使用或结合本文中所描述(也在权利要求中描述)的特征、功能性及细节中的任一个而使用。另外,本文描述(也在权利要求中描述)的其他实施例中的任一个可视情况通过在此部分中描述的特征、功能性及细节中的任一个单独地及组合地加以补充。
用于动态对象位置元数据的映射规则:
此部分描述从产生侧对象元数据的转换,尤其是对象位置数据的转换,在产生侧使用笛卡尔坐标系但在传输格式中以球面坐标描述对象位置元数据的情况下。
问题在于,在笛卡尔坐标中,与球面坐标系相比,扩音器并不始终位于在数学上正确的位置。因此,需要转换确保来自笛卡尔空间的立方体区域被正确地投影至球体(或半球体)。举例而言,使用音频对象渲染器基于球面坐标系(例如,如MPEG-H 3D音频标准中所描述的渲染器)或使用基于笛卡尔的渲染器以对应转换算法同等地渲染扩音器位置。立方体表面应或需被映射/投影至扩音器所位于的球体的表面。
此外,需要或要求转换算法具有小计算复杂度,尤其是从球面至笛卡尔坐标的转换步骤。
根据本发明的实施例的示例应用为:使用常常使用笛卡尔参数空间(x,y,z)用于音频对象坐标的现有技术的音频对象创作工具,但使用以球面坐标(方位角、仰角、半径)描述音频对象位置的传输格式,比如MPEG-H 3D音频。然而,传输格式可能(或需要)不为随后应用的渲染器(球面或笛卡尔)所知。
针对5.1+4H扩音器设定例示性地描述转换,但转换可容易地针对所有类型的扩音器设定(例如,7.1+4、22.2,等)或不同笛卡尔参数空间(不同轴线定向或不同轴线缩放,…)进行转用。
坐标系的一般比较
图17中展示用于5.1+4H设定的具有对应扩音器位置的笛卡尔参数空间的示例。
图18中展示根据ISO/IEC 23008-3:2015MPEG-H 3D音频的球面坐标系的示例。
注意,ISO坐标系中的坐标X及Y与上文所描述的笛卡尔坐标系相比以不同方式限定。
产生侧转换(笛卡尔至球面)
扩音器位置以例如由ITU-R推荐标准ITU-R BS.2051-1(用于节目产生的高级声音系统) 描述且描述于MPEG-H规范中的球面坐标给出。以分离方法应用转换。首先,将x及y坐标映射至方位角/xy平面中的方位角
Figure BDA0002712571120000281
及半径rxy。随后,使用z坐标计算3D空间中的仰角及半径。例示性地针对5.1+4H扩音器设定描述映射。
特殊情况x=y=0:
对于z>0:
Figure BDA0002712571120000282
θ=90°且r=z。
对于z=0:
Figure BDA0002712571120000283
θ=0°且r=0。
1)xy平面中的转换
参考图19,其展示笛卡尔坐标系及球面坐标系及扬声器(填充正方形)的示意性表示。
步骤1:
在第一步骤中,笛卡尔坐标系中的三角形被映射至球面坐标系中的对应三角形。
参考图20,其展示内接于笛卡尔坐标系中的正方形及球面坐标系中的圆中的三角形的图形表示。
在下文中,此针对一个三角形例示性地展示。还参考图21。
三角形可使用以下线性变换被投影至彼此:
Figure BDA0002712571120000284
可使用三角形的拐角的已知位置P1、P2
Figure BDA0002712571120000285
Figure BDA0002712571120000286
计算变换矩阵。这些点取决于扩音器设定及扩音器的对应位置以及位置P所位于的三角形。
Figure BDA0002712571120000287
5.1+4H扩音器设定在中间层中含有标准5.1扩音器设定,其为用于在xy平面中投影的基础。在表2中,给出需要投影的5个三角形的对应点P1、P2
Figure BDA0002712571120000288
Figure BDA0002712571120000289
步骤2:
基于映射坐标
Figure BDA00027125711200002810
Figure BDA00027125711200002811
计算半径
Figure BDA00027125711200002812
及方位角
Figure BDA00027125711200002813
Figure BDA00027125711200002814
Figure BDA0002712571120000291
步骤3:
半径需经调整,因为与球面坐标系相比扩音器置放在笛卡尔坐标系中的正方形上。在球面坐标系中,扩音器定位于圆上。
为了调整半径,将笛卡尔扩音器正方形的边界投影在球面坐标系的圆上。这意味着弦被投影在圆的对应区段上。
对于
Figure BDA0002712571120000292
Figure BDA0002712571120000293
2)z分量的转换
假定顶部层的仰角处于球面坐标系中的θTop=30°(或35°)仰角(由ITU-R BS.2051推荐的典型仰角)。
还参考图23。
步骤1:
基于半径rxy及z分量计算仰角
Figure BDA0002712571120000294
此外,基于角度
Figure BDA0002712571120000295
及rxy计算3D半径
Figure BDA0002712571120000296
Figure BDA0002712571120000297
Figure BDA0002712571120000298
步骤2:
由于笛卡尔系统的矩形边界投影在球面坐标系的单位圆上而校正半径
Figure BDA00027125711200002912
还参考图24。
对于
Figure BDA0002712571120000299
Figure BDA00027125711200002910
对于
Figure BDA00027125711200002911
Figure BDA0002712571120000301
步骤3:
由于扩音器在笛卡尔
Figure BDA0002712571120000302
与球面(θTop=30°(或35°))坐标系中的不同置放而校正仰角
Figure BDA0002712571120000303
Figure BDA0002712571120000304
映射至θ:
Figure BDA0002712571120000305
解码器侧转换(球面至笛卡尔)
在解码器侧,需执行对于产生侧的逆转换。这意味着转换步骤以相反次序反转。
仰角的转换及xy平面上的半径的投影(z分量的计算)
特殊情况θ=90°:
x=0,y=0且z=r
步骤1:
将θ映射至
Figure BDA0002712571120000306
其中θTop=30°(或35°)
Figure BDA0002712571120000307
步骤2:
半径校正的逆转:其中
Figure BDA0002712571120000308
Figure BDA0002712571120000309
步骤3:
计算z及rxy
Figure BDA00027125711200003010
Figure BDA00027125711200003011
x及y分量的计算
步骤1:
半径校正的逆转。
Figure BDA0002712571120000311
步骤2:
计算
Figure BDA0002712571120000312
Figure BDA0002712571120000313
Figure BDA0002712571120000314
Figure BDA0002712571120000315
步骤3:
计算x及y。
Figure BDA0002712571120000316
用于展开元数据的映射规则:
编码器(笛卡尔→球面):(注意:不应使用统一展开信令)
Figure BDA0002712571120000317
Figure BDA0002712571120000318
sθ=90°·sz
宽度展度:
Figure BDA0002712571120000319
高度展度:sθ,及距离展度:sd
解码器(球面→笛卡尔)
Figure BDA00027125711200003110
Figure BDA00027125711200003111
Figure BDA0002712571120000321
在比特流中统一展开的情况下,转换为:
Figure BDA0002712571120000322
将sx、sy及sz限于[0,1]之间的范围。
11.进一步批注
作为一般批注,应注意,并无必要使用恰好4个区段或三角形。举例而言,可由扩音器设定的水平平面的扩音器位置限定区段(或三角形,如笛卡尔域三角形及球面域三角形)。举例而言,在5.1+4高度扬声器(升高的扬声器)设定中,区段或三角形可由5.1基底设定限定。因此,在此示例中可限定5个区段(参见例如部分10中的描述)。在7.1+4高度扬声器(升高的扬声器)设定中,可限定7个区段或三角形。此可例如由在部分10中展示的更通用方程式(其并不包含固定角度)表示。此外,高度扬声器(升高的扬声器)的角度可例如因设定不同而不同(例如,30度或35度)。
因此,三角形的数量及角度范围可例如因实施例不同而不同。
12.实施替代方案
本文中所描述的特征及功能性中的任一个可以硬件或软件实施或使用硬件与软件的组合实施,如此部分中将描述。
尽管已在设备的上下文中描述一些方面,但显然,这些方面也表示对应方法的描述,其中区块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中所描述的方面也表示对应区块或项目或对应设备的特征的描述。可由(或使用)硬件设备(比如微处理器、可编程计算机或电子电路)执行方法步骤中的一些或全部。在一些实施例中,可由此装置执行最重要的方法步骤中的一个或多个。
取决于某些实施要求,本发明的实施例可以硬件或软件实施。可使用其上储存有与可编程计算机系统协作(或能够协作)的电子可读控制信号的数字存储介质(例如,软盘、DVD、 Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实施,使得执行各个方法。因此,数字存储介质可为计算机可读的。
根据本发明的一些实施例包含具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,使得执行本文中所描述的方法中的一个。
大体而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当计算机程序产品运行于计算机上时,程序代码操作性地用于执行方法中的一个。程序代码可例如存储于机器可读载体上。
其他实施例包含存储于机器可读载体上,用于执行本文中所描述的方法中的一个的计算机程序。
换言之,本发明方法的实施例因此为计算机程序,其具有用于在计算机程序于计算机上运行时执行本文中所描述的方法中的一个的程序代码。
因此,本发明方法的另一实施例为数据载体(或数字存储介质,或计算机可读介质),其包含记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常是有形的及/或非瞬变的。
因此,本发明的方法的另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可(例如)被配置为经由数据通信连接(例如,经由因特网)而传送。
另一实施例包含处理构件,例如被配置或调适以执行本文中所描述的方法中的一个的计算机或可编程逻辑设备。
另一实施例包含上面安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。
根据本发明的另一实施例包含被配置为(例如,电子地或光学地)传送用于执行本文中所描述的方法中的一个的计算机程序至接收器的设备或系统。接收器可(例如)为计算机、移动装置、内存装置或类似。设备或系统可(例如)包含用于传送计算机程序至接收器的文件服务器。
在一些实施例中,可编程逻辑设备(例如,场可编程门阵列)可用以执行本文中所描述的方法的功能性中的一些或全部。在一些实施例中,场可编程门阵列可与微处理器协作,以便执行本文中所描述的方法中的一个。通常,方法较佳地由任何硬件设备来执行。
本文中所描述的设备可使用硬件设备或使用计算机或使用硬件设备与计算机的组合来实施。
本文中所描述的设备或本文中所描述的设备的任何组件可至少部分地以硬件及/或以软件来实施。
本文中所描述的方法可使用硬件设备或使用计算机或使用硬件设备与计算机的组合来进行。
本文中所描述的方法或本文中所描述的设备的任何组件可至少部分地由硬件及/或由软件来执行。
上述实施例仅说明本发明的原理。应理解,对本文中所描述的布置及细节的修改及变化将对本领域技术人员显而易见。因此,意图为仅受到接下来的权利要求的范围限制,而并非受由本文中的实施例的描述及解释所呈现的特定细节限制。

Claims (69)

1.一种用于将音频对象的对象位置从笛卡尔表示(110)转换为球面表示(112)的设备(100),
其中笛卡尔表示的基础区域被细分为多个基础区域三角形(630,532,634,636),以及其中多个球面域三角形(660,662,664,666)内接于球面表示的圆中,
其中设备被配置为确定音频对象的对象位置至基础区域的投影(P)布置在基础区域三角形中的哪一个中;以及
其中设备被配置为使用线性变换(T)确定对象位置的投影(P)的映射位置
Figure FDA0003362134180000011
线性变换将基础区域三角形映射至其相关联的球面域三角形,
其中设备被配置为从映射位置
Figure FDA0003362134180000012
得出方位角
Figure FDA0003362134180000013
及中间半径值
Figure FDA0003362134180000014
其中设备被配置为依据中间半径值
Figure FDA0003362134180000015
以及依据对象位置距基础区域的距离(z),获得球面域半径值
Figure FDA0003362134180000016
及仰角
Figure FDA0003362134180000017
2.如权利要求1所述的设备,其中设备被配置为使用由变换矩阵T描述的线性变换根据下式确定对象位置的投影P的映射位置
Figure FDA0003362134180000018
Figure FDA0003362134180000019
其中设备被配置为依据经确定的基础区域三角形获得变换矩阵。
3.如权利要求2所述的设备,其中变换矩阵根据下式限定:
Figure FDA00033621341800000110
其中P1,x、P1,y、P2,x、P2,y为经确定的基础区域三角形的两个拐角的x及y坐标;以及
其中
Figure FDA00033621341800000111
为相关联的球面域三角形的两个拐角的x及y坐标。
4.如权利要求1所述的设备,其中基础区域三角形包含:
-第一基础区域三角形,覆盖在笛卡尔表示的原点前方的区域,
-第二基础区域三角形,覆盖在笛卡尔表示的原点的左侧的区域,
-第三基础区域三角形,覆盖在笛卡尔表示的原点的右侧的区域,及
-第四基础区域三角形,覆盖在笛卡尔表示的原点后方的区域。
5.如权利要求1所述的设备,其中球面域三角形包含:
-第一球面域三角形,覆盖在球面表示的原点前方的区域,
-第二球面域三角形,覆盖在球面表示的原点的左侧的区域,
-第三球面域三角形,覆盖在球面表示的原点的右侧的区域,及
-第四球面域三角形,覆盖在球面表示的原点后方的区域。
6.如权利要求1所述的设备,其中基础区域三角形包含:
-第一基础区域三角形,覆盖在笛卡尔表示的原点的右前区中的区域,
-第二基础区域三角形,覆盖在笛卡尔表示的原点的左前区中的区域,
-第三基础区域三角形,覆盖在笛卡尔表示的原点的左侧的区域,
-第四基础区域三角形,覆盖在笛卡尔表示的原点的右侧的区域,及
-第五基础区域三角形,覆盖在笛卡尔表示的原点后方的区域。
7.如权利要求1所述的设备,其中球面域三角形包含:
-第一球面域三角形,覆盖在球面表示的原点的右前区域中的区域,
-第二球面域三角形,覆盖在球面表示的原点的左前区域中的区域,
-第三球面域三角形,覆盖在球面表示的原点的左侧的区域,
-第四球面域三角形,覆盖在球面表示的原点的右侧的区域,及
-第五球面域三角形,覆盖在球面表示的原点后方的区域。
8.如权利要求1所述的设备,其中
基础区域三角形的拐角的坐标P1、P2及相关联的球面域三角形的拐角的坐标
Figure FDA0003362134180000021
Figure FDA0003362134180000022
被限定如下:
Figure FDA0003362134180000023
其中各个三角形的第三拐角处于相应坐标系的原点。
9.如权利要求1所述的设备,其中
基础区域三角形的拐角的坐标P1、P2及相关联的球面域三角形的拐角的坐标
Figure FDA0003362134180000024
Figure FDA0003362134180000025
被限定如下:
Figure FDA0003362134180000026
Figure FDA0003362134180000031
其中各个三角形的第三拐角处于相应坐标系的原点。
10.如权利要求1所述的设备,
其中设备被配置为根据下式从映射位置
Figure FDA0003362134180000032
的映射坐标
Figure FDA0003362134180000033
Figure FDA0003362134180000034
得出方位角
Figure FDA0003362134180000035
Figure FDA0003362134180000036
11.如权利要求1所述的设备,
其中设备被配置为根据下式从映射位置
Figure FDA0003362134180000037
的映射坐标
Figure FDA0003362134180000038
Figure FDA0003362134180000039
得出中间半径值
Figure FDA00033621341800000310
Figure FDA00033621341800000311
12.如权利要求1所述的设备,
其中设备被配置为使用将内接于圆中的球面域三角形映射至圆区段的半径调整,依据中间半径值获得球面域半径值
Figure FDA00033621341800000312
13.如权利要求1所述的设备,
其中设备被配置为使用半径调整,依据中间半径值获得球面域半径值
Figure FDA00033621341800000313
其中半径调整适于依据方位角
Figure FDA00033621341800000314
缩放之前获得的中间半径值
Figure FDA00033621341800000315
14.如权利要求1所述的设备,
其中设备被配置为使用如下形式的映射,依据中间半径值获得球面域半径值
Figure FDA00033621341800000316
对于
Figure FDA00033621341800000317
Figure FDA0003362134180000041
对于
Figure FDA0003362134180000042
Figure FDA0003362134180000043
对于
Figure FDA0003362134180000044
Figure FDA0003362134180000045
其中rxy为中间半径值
Figure FDA0003362134180000046
的半径经调整版本,以及
其中
Figure FDA0003362134180000047
为方位角。
15.如权利要求1所述的设备,
其中设备被配置为使用如下形式的映射,依据中间半径值
Figure FDA0003362134180000048
获得球面域半径值rxy
对于
Figure FDA0003362134180000049
Figure FDA00033621341800000410
其中
Figure FDA00033621341800000411
Figure FDA00033621341800000412
为相应球面域三角形的两个拐角的位置角度。
16.如权利要求1所述的设备,
其中设备被配置为将仰角获得为具有直角边为中间半径值及对象位置距基础区域的距离的直角三角形的角度。
17.如权利要求1所述的设备,
其中设备被配置为将球面域半径获得为具有直角边为中间半径值及对象位置距基础区域的距离的直角三角形的斜边长度
Figure FDA00033621341800000413
或其经调整版本。
18.如权利要求1所述的设备,
其中设备被配置为根据下式获得仰角
Figure FDA00033621341800000414
Figure FDA00033621341800000415
和/或根据下式获得球面域半径
Figure FDA00033621341800000416
Figure FDA00033621341800000417
其中z为对象位置距基础区域的距离,以及
其中rxy为中间半径值或其经调整版本。
19.如权利要求1所述的设备,
其中设备被配置为获得经调整的仰角(θ)。
20.如权利要求19所述的设备,
其中设备被配置为使用非线性映射获得经调整的仰角,非线性映射将第一角区中的角度线性地映射至第一映射角区且将第二角区内的角度线性地映射至第二映射角区,其中第一角区在与第一映射角区相比时具有不同宽度。
21.如权利要求20所述的设备,
其中由第一角区及第二角区一起覆盖的角度范围与由第一映射角区及第二映射角区一起覆盖的角度范围相同。
22.如权利要求19所述的设备,
其中设备被配置为根据下式将仰角
Figure FDA0003362134180000051
映射至经调整的仰角θ:
Figure FDA0003362134180000052
23.如权利要求19所述的设备,
其中设备被配置为根据下式将仰角
Figure FDA0003362134180000053
映射至经调整的仰角θ:
Figure FDA0003362134180000054
其中θTop为笛卡尔坐标系中的高度扩音器的仰角;以及
其中
Figure FDA0003362134180000055
为球面坐标系中的高度扩音器的仰角。
24.如权利要求1所述的设备,
其中设备被配置为基于球面域半径获得经调整的球面域半径。
25.如权利要求24所述的设备,
其中设备被配置为执行将笛卡尔系统中的正方形的边界映射至球面坐标系中的圆的映射,以便获得经调整的球面域半径。
26.如权利要求24所述的设备,
其中设备被配置为根据下式将球面域半径
Figure FDA0003362134180000059
映射至经调整的球面域半径r:
对于
Figure FDA0003362134180000056
Figure FDA0003362134180000057
对于
Figure FDA0003362134180000058
Figure FDA0003362134180000061
其中
Figure FDA0003362134180000062
为仰角。
27.一种用于将音频对象的对象位置从球面表示(218,228,258)转换为笛卡尔表示(242,292)的设备(200),
其中笛卡尔表示的基础区域被细分为多个基础区域三角形,以及其中多个球面域三角形内接于球面表示的圆中,
其中设备被配置为基于仰角(218)或映射仰角(222)以及基于球面域半径(228)或映射球面域半径(232)获得描述对象位置距基础区域的距离的值(z)(242)及中间半径(252,rxy);
其中设备被配置为基于中间半径(252)或其经校正版本(262)以及基于方位角
Figure FDA0003362134180000063
确定内接于圆中的三角形中的一个内的位置
Figure FDA0003362134180000064
以及
其中设备被配置为基于内接于圆中的三角形中的一个内的经确定的位置
Figure FDA0003362134180000065
确定对象位置至基础平面的投影(272,P)的映射位置。
28.如权利要求27所述的设备,
其中设备被配置为基于仰角获得映射仰角
Figure FDA0003362134180000066
29.如权利要求28所述的设备,
其中设备被配置为使用非线性映射获得映射仰角,非线性映射将第一角区中的角度线性地映射至第一映射角区且将第二角区内的角度线性地映射至第二映射角区,其中第一角区在与第一映射角区相比时具有不同宽度。
30.如权利要求29所述的设备,
其中由第一角区及第二角区一起覆盖的角度范围与由第一映射角区及第二映射角区一起覆盖的角度范围相同。
31.如权利要求28所述的设备,
其中设备被配置为根据下式将仰角θ映射至映射仰角
Figure FDA0003362134180000067
Figure FDA0003362134180000068
32.如权利要求28所述的设备,
其中设备被配置为根据下式将仰角θ映射至映射仰角
Figure FDA0003362134180000069
Figure FDA00033621341800000610
其中θTop为笛卡尔坐标系中的高度扩音器的仰角;以及
其中
Figure FDA0003362134180000071
为球面坐标系中的高度扩音器的仰角。
33.如权利要求27所述的设备,
其中设备被配置为基于球面域半径获得映射球面域半径
Figure FDA0003362134180000072
34.如权利要求33的所述设备,
其中设备被配置为依据仰角或依据映射仰角缩放球面域半径,
其中设备被配置为执行将球面坐标系中的圆映射至笛卡尔系统中的正方形的边界的映射。
35.如权利要求33所述的设备,
其中设备被配置为根据下式基于球面域半径r获得映射球面域半径
Figure FDA0003362134180000073
Figure FDA0003362134180000074
其中
Figure FDA0003362134180000075
为仰角或映射仰角。
36.如权利要求33所述的设备,
其中设备被配置为根据下式基于球面域半径r获得映射球面域半径
Figure FDA0003362134180000076
Figure FDA0003362134180000077
其中
Figure FDA0003362134180000078
为仰角或映射仰角,以及
其中
Figure FDA0003362134180000079
为球面坐标系中的高度扩音器的仰角。
37.如权利要求27所述的设备,
其中设备被配置为根据下式获得描述对象位置距基础区域的距离的值z:
Figure FDA00033621341800000710
和/或
其中设备被配置为根据下式获得中间半径rxy
Figure FDA00033621341800000711
其中
Figure FDA00033621341800000712
为球面域半径或映射球面域半径;以及
其中
Figure FDA00033621341800000713
为仰角或映射仰角。
38.如权利要求27所述的设备,
其中设备被配置为使用将圆区段映射至内接于圆中的三角形的映射,执行半径校正。
39.如权利要求27所述的设备,
其中设备被配置为依据方位角缩放中间半径,以获得经校正的半径。
40.如权利要求27所述的设备,
其中设备被配置为根据下式基于中间半径rxy获得经校正的半径
Figure FDA0003362134180000081
Figure FDA0003362134180000082
其中
Figure FDA0003362134180000083
为方位角。
41.如权利要求27所述的设备,
其中设备被配置为根据下式基于中间半径rxy获得经校正的半径
Figure FDA0003362134180000084
Figure FDA0003362134180000085
其中
Figure FDA0003362134180000086
为方位角,以及
其中
Figure FDA0003362134180000087
Figure FDA0003362134180000088
为相应球面域三角形的两个拐角的位置角度。
42.如权利要求27所述的设备,
其中设备被配置为根据下式确定内接于圆中的三角形中的一个内的位置
Figure FDA0003362134180000089
Figure FDA00033621341800000810
Figure FDA00033621341800000811
其中
Figure FDA00033621341800000812
Figure FDA00033621341800000813
为坐标值;
其中
Figure FDA00033621341800000814
为中间半径或经校正的半径;以及
其中
Figure FDA00033621341800000815
为方位角。
43.如权利要求27所述的设备,
其中设备被配置为使用将经确定的位置所处于的三角形映射至基础平面中的相关联的三角形的线性变换,基于内接于圆中的三角形中的一个内的经确定的位置
Figure FDA00033621341800000816
确定对象位置至基础平面的投影(P)的映射位置。
44.如权利要求27所述的设备,
其中设备被配置为根据下式确定对象位置至基础平面的投影P的映射位置:
Figure FDA0003362134180000091
其中T为变换矩阵,以及
其中
Figure FDA0003362134180000092
为表示对象位置至基础平面的投影的向量。
45.如权利要求44所述的设备,其中变换矩阵根据下式限定:
Figure FDA0003362134180000093
其中P1,、P1,、P2,、P2,为经确定的基础区域三角形的两个拐角的x及y坐标;以及
其中
Figure FDA0003362134180000094
为相关联的球面域三角形的两个拐角的x及y坐标。
46.如权利要求27所述的设备,其中基础区域三角形包含:
-第一基础区域三角形,覆盖在笛卡尔表示的原点前方的区域,
-第二基础区域三角形,覆盖在笛卡尔表示的原点的左侧的区域,
-第三基础区域三角形,覆盖在笛卡尔表示的原点的右侧的区域,及
-第四基础区域三角形,覆盖在笛卡尔表示的原点后方的区域。
47.如权利要求27所述的设备,其中球面域三角形包含:
-第一球面域三角形,覆盖在球面表示的原点前方的区域,
-第二球面域三角形,覆盖在球面表示的原点的左侧的区域,
-第三球面域三角形,覆盖在球面表示的原点的右侧的区域,及
-第四球面域三角形,覆盖在球面表示的原点后方的区域。
48.如权利要求27所述的设备,其中基础区域三角形包含:
-第一基础区域三角形,覆盖在笛卡尔表示的原点的右前区中的区域,
-第二基础区域三角形,覆盖在笛卡尔表示的原点的左前区中的区域,
-第三基础区域三角形,覆盖在笛卡尔表示的原点的左侧的区域,
-第四基础区域三角形,覆盖在笛卡尔表示的原点的右侧的区域,及
-第五基础区域三角形,覆盖在笛卡尔表示的原点后方的区域。
49.如权利要求27所述的设备,其中球面域三角形包含:
-第一球面域三角形,覆盖在球面表示的原点的右前区域中的区域,
-第二球面域三角形,覆盖在球面表示的原点的左前区域中的区域,
-第三球面域三角形,覆盖在球面表示的原点的左侧的区域,
-第四球面域三角形,覆盖在球面表示的原点的右侧的区域,及
-第五球面域三角形,覆盖在球面表示的原点后方的区域。
50.如权利要求27所述的设备,其中
基础区域三角形的拐角的坐标P1、P2及相关联的球面域三角形的拐角的坐标
Figure FDA0003362134180000101
Figure FDA0003362134180000102
被限定如下:
Figure FDA0003362134180000103
其中各个三角形的第三拐角处于相应坐标系的原点。
51.一种用于提供音频流的音频流供应器(1100),
其中音频流供应器被配置为接收(1110)以笛卡尔表示描述音频对象的位置的输入对象位置信息,且
提供(1112)音频流,音频流包含以球面表示描述对象的位置的输出对象位置信息,
其中音频流供应器包含如权利要求1所述的设备(100;1130)以将笛卡尔表示转换为球面表示。
52.一种音频内容产生系统(1200),
其中音频内容产生系统被配置为确定以笛卡尔表示描述音频对象的位置的对象位置信息,且
其中音频内容产生系统包含如权利要求1所述的设备(100;1230)以将笛卡尔表示转换为球面表示,以及
其中音频内容产生系统被配置为将球面表示包括至音频流中。
53.一种音频播放设备(1300),
其中音频播放设备被配置为接收包含对象位置信息的球面表示的音频流(1112;1212;1310),以及
其中音频播放设备包含如权利要求27所述的被配置为将球面表示转换为对象位置信息的笛卡尔表示的设备(200;1330),以及
其中音频播放设备包含渲染器(1340),渲染器被配置为依据对象位置信息的笛卡尔表示将音频对象渲染至与声音换能器相关联的多个声道信号(1350)。
54.一种用于提供音频流的音频流供应器(1100),
其中音频流供应器被配置为接收(1110)以球面表示描述音频对象的位置的输入对象位置信息,以及
提供(1112)音频流,音频流包含以笛卡尔表示描述对象的位置的输出对象位置信息,
其中音频流供应器包含如权利要求27所述的设备(100;1130)以将球面表示转换为笛卡尔表示。
55.一种音频内容产生系统(1200),
其中音频内容产生系统被配置为确定以球面表示描述音频对象的位置的对象位置信息,以及
其中音频内容产生系统包含如权利要求27所述的设备(100;1230)以将球面表示转换为笛卡尔表示,以及
其中音频内容产生系统被配置为将笛卡尔表示包括至音频流中。
56.一种音频播放设备(1300),
其中音频播放设备被配置为接收包含对象位置信息的笛卡尔表示的音频流(1112;1212;1310),以及
其中音频播放设备包含如权利要求1所述的被配置为将笛卡尔表示转换为对象位置信息的球面表示的设备(200;1330),以及
其中音频播放设备包含渲染器(1340),渲染器被配置为依据对象位置信息的球面表示将音频对象渲染至与声音换能器相关联的多个声道信号(1350)。
57.一种用于将音频对象的对象位置从笛卡尔表示转换为球面表示的方法(1400),
其中笛卡尔表示的基础区域被细分为多个基础区域三角形,以及其中多个球面域三角形内接于球面表示的圆中,
其中方法包含确定(1410)音频对象的对象位置至基础区域的投影(P)布置在基础区域三角形中的哪一个中;及
其中方法包含使用线性变换(T)确定(1420)对象位置的投影(P)的映射位置
Figure FDA0003362134180000111
线性变换将基础区域三角形映射至其相关联的球面域三角形,
其中方法包含从映射位置
Figure FDA0003362134180000112
得出(1430)方位角
Figure FDA0003362134180000113
及中间半径值
Figure FDA0003362134180000114
其中方法包含依据中间半径值
Figure FDA0003362134180000115
以及依据对象位置距基础区域的距离(z)获得(1440)球面域半径值
Figure FDA0003362134180000116
及仰角
Figure FDA0003362134180000117
58.一种用于将音频对象的对象位置从球面表示转换为笛卡尔表示的方法(1500),
其中笛卡尔表示的基础区域被细分为多个基础区域三角形,以及其中多个球面域三角形内接于球面表示的圆中,
其中方法包含基于仰角或映射仰角以及基于球面域半径或映射球面域半径获得(1510)描述对象位置距基础区域的距离的值(z)及中间半径(rxy);
其中方法包含基于中间半径或其经校正版本以及基于方位角
Figure FDA0003362134180000121
确定(1520)内接于圆中的三角形中的一个内的位置
Figure FDA0003362134180000122
以及
其中方法包含基于内接于圆中的三角形中的一个内的经确定的位置
Figure FDA0003362134180000123
确定(1530)对象位置至基础平面的投影(P)的映射位置。
59.一种用于提供音频流的方法,
其中方法包含接收以笛卡尔表示描述音频对象的位置的输入对象位置信息,及
提供音频流,音频流包含以球面表示描述对象的位置的输出对象位置信息,
其中方法包含使用如权利要求57所述的方法将笛卡尔表示转换为球面表示。
60.一种用于产生音频内容的方法,
其中方法包含确定以笛卡尔表示描述音频对象的位置的对象位置信息,及
其中方法包含使用如权利要求57所述的方法将笛卡尔表示转换为球面表示,及
其中方法包含将球面表示包括至音频流中。
61.一种用于音频播放的方法(1600),
其中方法包含接收包含对象位置信息的球面表示的音频流,及
其中方法包含根据权利要求58将球面表示转换(1620)为对象位置信息的笛卡尔表示,及
其中方法包含依据对象位置信息的笛卡尔表示将音频对象渲染(1630)至与声音换能器相关联的多个声道信号。
62.一种用于提供音频流的方法,
其中方法包含接收以球面表示描述音频对象的位置的输入对象位置信息,及
提供音频流,音频流包含以笛卡尔表示描述对象的位置的输出对象位置信息,
其中方法包含使用如权利要求58所述的方法将球面表示转换为笛卡尔表示。
63.一种用于产生音频内容的方法,
其中方法包含确定以球面表示描述音频对象的位置的对象位置信息,及
其中方法包含使用如权利要求58所述的方法将球面表示转换为笛卡尔表示,及
其中方法包含将笛卡尔表示包括至音频流中。
64.一种用于音频播放的方法(1600),
其中方法包含接收包含对象位置信息的笛卡尔表示的音频流,及
其中方法包含根据权利要求57将笛卡尔表示转换为对象位置信息的球面表示,及
其中方法包含依据对象位置信息的球面表示将音频对象渲染至与声音换能器相关联的多个声道信号。
65.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时执行如权利要求57至64中任一项所述的方法。
66.一种用于将音频对象的对象位置从笛卡尔表示(110)转换为球面表示(112)的设备(100),其中使用方位角、仰角及球面域半径描述对象位置,
其中,举例而言,扩音器置放在与笛卡尔表示相关联的笛卡尔坐标系中的正方形上,以及扩音器置放在与球面表示相关联的球面坐标系中的圆上;
其中笛卡尔表示的基础区域被细分为多个基础区域三角形(630,532,634,636),以及其中多个球面域三角形(660,662,664,666)内接于球面表示的圆中,
其中球面域三角形中的每一个与基础区域三角形相关联;
其中基础区域三角形中的至少一些的拐角的位置对应于笛卡尔坐标系中的扩音器的位置,以及
其中球面域三角形中的至少一些的拐角的位置对应于球面坐标系中的扩音器的位置;
其中设备被配置为确定音频对象的对象位置至基础区域的投影(P)布置在基础区域三角形中的哪一个中;以及
其中设备被配置为使用线性变换(T)确定对象位置的投影(P)的映射位置
Figure FDA0003362134180000131
线性变换将基础区域三角形映射至相关联的球面域三角形,
其中设备被配置为从映射位置
Figure FDA0003362134180000132
得出方位角
Figure FDA0003362134180000133
及中间半径值
Figure FDA0003362134180000134
其中设备被配置为依据中间半径值
Figure FDA0003362134180000135
以及依据对象位置距基础区域的距离(z)获得球面域半径值
Figure FDA0003362134180000136
及仰角
Figure FDA0003362134180000137
67.一种用于将音频对象的对象位置从笛卡尔表示转换为球面表示的方法(1400),其中使用方位角、仰角及球面域半径描述对象位置,
其中,举例而言,扩音器置放在与笛卡尔表示相关联的笛卡尔坐标系中的正方形上,以及扩音器置放在与球面表示相关联的球面坐标系中的圆上;
其中笛卡尔表示的基础区域被细分为多个基础区域三角形,以及其中多个球面域三角形内接于球面表示的圆中,
其中球面域三角形中的每一个与基础区域三角形相关联;
其中基础区域三角形中的至少一些的拐角的位置对应于笛卡尔坐标系中的扩音器的位置,以及
其中球面域三角形中的至少一些的拐角的位置对应于球面坐标系中的扩音器的位置;
其中方法包含确定(1410)音频对象的对象位置至基础区域的投影(P)布置在基础区域三角形中的哪一个中;及
其中方法包含使用线性变换(T)确定(1420)对象位置的投影(P)的映射位置
Figure FDA0003362134180000141
线性变换将基础区域三角形映射至其相关联的球面域三角形,
其中方法包含从映射位置
Figure FDA0003362134180000142
得出(1430)方位角
Figure FDA0003362134180000143
及中间半径值
Figure FDA0003362134180000144
其中方法包含依据中间半径值
Figure FDA0003362134180000145
以及依据对象位置距基础区域的距离(z)获得(1440)球面域半径值
Figure FDA0003362134180000146
及仰角
Figure FDA0003362134180000147
68.一种用于将音频对象的对象位置从球面表示(218,228,258)转换为笛卡尔表示(242,292)的设备(200),其中使用方位角、仰角及球面域半径描述对象位置,
其中,举例而言,扩音器置放在与笛卡尔表示相关联的笛卡尔坐标系中的正方形上,以及扩音器置放在与球面表示相关联的球面坐标系中的圆上;
其中笛卡尔表示的基础区域被细分为多个基础区域三角形,以及其中多个球面域三角形内接于球面表示的圆中,
其中基础区域三角形中的至少一些的拐角的位置对应于笛卡尔坐标系中的扩音器的位置,以及
其中球面域三角形中的至少一些的拐角的位置对应于球面坐标系中的扩音器的位置;
其中设备被配置为基于仰角(218)或映射仰角(222)以及基于球面域半径(228)或映射球面域半径(232)获得描述对象位置距基础区域的距离的值(z)及中间半径(252,rxy);
其中设备被配置为基于中间半径(252)或其经校正版本(262)以及基于方位角
Figure FDA0003362134180000148
确定内接于圆中的三角形中的一个内的位置
Figure FDA0003362134180000149
在经校正版本中,因为与球面坐标系相比扩音器置放在笛卡尔坐标系中的正方形上而进行的半径调整被反转;以及
其中设备被配置为使用将经确定的位置所处于的三角形映射至基础平面中的相关联的三角形的线性变换,基于内接于圆中的三角形中的一个内的经确定的位置
Figure FDA00033621341800001410
确定对象位置至基础平面的投影(272,P)的映射位置(292),
其中描述对象位置距基础区域的距离的值(z)(242)及映射位置(292)以笛卡尔表示描述对象位置。
69.一种用于将音频对象的对象位置从球面表示转换为笛卡尔表示的方法(1500),其中使用方位角、仰角及球面域半径描述对象位置,
其中,举例而言,扩音器置放在与笛卡尔表示相关联的笛卡尔坐标系中的正方形上,以及扩音器置放在与球面表示相关联的球面坐标系中的圆上;
其中笛卡尔表示的基础区域被细分为多个基础区域三角形,以及其中多个球面域三角形内接于球面表示的圆中,
其中基础区域三角形中的至少一些的拐角的位置对应于笛卡尔坐标系中的扩音器的位置,以及
其中球面域三角形中的至少一些的拐角的位置对应于球面坐标系中的扩音器的位置;
其中方法包含基于仰角或映射仰角以及基于球面域半径或映射球面域半径,获得(1510)描述对象位置距基础区域的距离的值(z)及中间半径(rxy);
其中方法包含基于中间半径或其经校正版本以及基于方位角
Figure FDA0003362134180000151
确定(1520)内接于圆中的三角形中的一个内的位置
Figure FDA0003362134180000152
在经校正版本中,因为与球面坐标系相比扩音器置放在笛卡尔坐标系中的正方形上而进行的半径调整被反转;以及
其中方法包含使用将经确定的位置所处于的三角形映射至基础平面中的相关联的三角形的线性变换,基于内接于圆中的三角形中的一个内的经确定的位置
Figure FDA0003362134180000153
确定(1530)对象位置至基础平面的投影(P)的映射位置;
其中描述对象位置距基础区域的距离的值(z)(242)及映射位置(292)以笛卡尔表示描述对象位置。
CN201980024318.4A 2018-01-30 2019-01-29 转换音频对象的对象位置的设备、方法及计算机存储介质 Active CN112154676B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18154307.5 2018-01-30
EP18154307 2018-01-30
PCT/EP2018/025211 WO2019149337A1 (en) 2018-01-30 2018-08-08 Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs
EPPCT/EP2018/025211 2018-08-08
PCT/EP2019/052156 WO2019149710A1 (en) 2018-01-30 2019-01-29 Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs

Publications (2)

Publication Number Publication Date
CN112154676A CN112154676A (zh) 2020-12-29
CN112154676B true CN112154676B (zh) 2022-05-17

Family

ID=61188596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980024318.4A Active CN112154676B (zh) 2018-01-30 2019-01-29 转换音频对象的对象位置的设备、方法及计算机存储介质

Country Status (15)

Country Link
US (1) US11653162B2 (zh)
EP (1) EP3747204B1 (zh)
JP (1) JP7034309B2 (zh)
KR (1) KR102412012B1 (zh)
CN (1) CN112154676B (zh)
AR (2) AR114348A1 (zh)
AU (1) AU2019214298C1 (zh)
BR (1) BR112020015417A2 (zh)
CA (1) CA3090026C (zh)
ES (1) ES2962111T3 (zh)
MX (1) MX2020007998A (zh)
RU (1) RU2751129C1 (zh)
SG (1) SG11202007293UA (zh)
TW (1) TWI716810B (zh)
WO (2) WO2019149337A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020008890A1 (ja) * 2018-07-04 2020-01-09 ソニー株式会社 情報処理装置および方法、並びにプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6684176B2 (en) * 2001-09-25 2004-01-27 Symbol Technologies, Inc. Three dimensional (3-D) object locator system for items or sites using an intuitive sound beacon: system and method of operation
ZA200503594B (en) * 2002-12-02 2006-08-30 Thomson Licensing Sa Method for describing the composition of audio signals
FR2858403B1 (fr) * 2003-07-31 2005-11-18 Remy Henri Denis Bruno Systeme et procede de determination d'une representation d'un champ acoustique
WO2010131431A1 (ja) * 2009-05-11 2010-11-18 パナソニック株式会社 音響再生装置
EP3913931B1 (en) * 2011-07-01 2022-09-21 Dolby Laboratories Licensing Corp. Apparatus for rendering audio, method and storage means therefor.
EP2600637A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
RU2602346C2 (ru) * 2012-08-31 2016-11-20 Долби Лэборетериз Лайсенсинг Корпорейшн Рендеринг отраженного звука для объектно-ориентированной аудиоинформации
US9913064B2 (en) * 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
JP6253031B2 (ja) 2013-02-15 2017-12-27 パナソニックIpマネジメント株式会社 キャリブレーション方法
CN105103569B (zh) * 2013-03-28 2017-05-24 杜比实验室特许公司 使用被组织为任意n边形的网格的扬声器呈现音频
EP2809088B1 (en) * 2013-05-30 2017-12-13 Barco N.V. Audio reproduction system and method for reproducing audio data of at least one audio object
KR102226420B1 (ko) 2013-10-24 2021-03-11 삼성전자주식회사 다채널 오디오 신호 생성 방법 및 이를 수행하기 위한 장치
JP2015179986A (ja) * 2014-03-19 2015-10-08 ヤマハ株式会社 オーディオ定位設定装置、方法、及び、プログラム
EP2925024A1 (en) * 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
US9723419B2 (en) * 2014-09-29 2017-08-01 Bose Corporation Systems and methods for determining metric for sound system evaluation
US9578439B2 (en) * 2015-01-02 2017-02-21 Qualcomm Incorporated Method, system and article of manufacture for processing spatial audio
EP3286930B1 (en) * 2015-04-21 2020-05-20 Dolby Laboratories Licensing Corporation Spatial audio signal manipulation
US10334387B2 (en) * 2015-06-25 2019-06-25 Dolby Laboratories Licensing Corporation Audio panning transformation system and method
EP3332557B1 (en) * 2015-08-07 2019-06-19 Dolby Laboratories Licensing Corporation Processing object-based audio signals
EP4333461A3 (en) * 2015-11-20 2024-04-17 Dolby Laboratories Licensing Corporation Improved rendering of immersive audio content
GB2546504B (en) * 2016-01-19 2020-03-25 Facebook Inc Audio system and method
CN105898668A (zh) * 2016-03-18 2016-08-24 南京青衿信息科技有限公司 一种声场空间的坐标定义方法
US9949052B2 (en) * 2016-03-22 2018-04-17 Dolby Laboratories Licensing Corporation Adaptive panner of audio objects

Also Published As

Publication number Publication date
CN112154676A (zh) 2020-12-29
ES2962111T3 (es) 2024-03-15
JP7034309B2 (ja) 2022-03-11
MX2020007998A (es) 2020-09-21
JP2021513775A (ja) 2021-05-27
TW201937944A (zh) 2019-09-16
CA3090026A1 (en) 2019-08-08
KR20200139670A (ko) 2020-12-14
KR102412012B1 (ko) 2022-06-22
EP3747204C0 (en) 2023-09-27
EP3747204A1 (en) 2020-12-09
WO2019149337A1 (en) 2019-08-08
AU2019214298C1 (en) 2023-07-20
AR127189A2 (es) 2023-12-27
WO2019149710A1 (en) 2019-08-08
TWI716810B (zh) 2021-01-21
AR114348A1 (es) 2020-08-26
CA3090026C (en) 2023-03-21
RU2751129C1 (ru) 2021-07-08
US11653162B2 (en) 2023-05-16
BR112020015417A2 (pt) 2020-12-08
SG11202007293UA (en) 2020-08-28
AU2019214298B2 (en) 2022-04-07
US20200359149A1 (en) 2020-11-12
EP3747204B1 (en) 2023-09-27
AU2019214298A1 (en) 2020-09-17

Similar Documents

Publication Publication Date Title
TWI713866B (zh) 用於生成增強聲場描述的裝置與方法以及其計算機程式與記錄媒體
AU2021225242B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US11882426B2 (en) Methods, apparatus and systems for three degrees of freedom (3DoF+) extension of MPEG-H 3D audio
CN115668985A (zh) 使用提示信息项合成空间扩展声源的设备和方法
US20230110257A1 (en) 6DOF Rendering of Microphone-Array Captured Audio For Locations Outside The Microphone-Arrays
US11375332B2 (en) Methods, apparatus and systems for three degrees of freedom (3DoF+) extension of MPEG-H 3D audio
CN112154676B (zh) 转换音频对象的对象位置的设备、方法及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant