CN106658342B - 用于渲染音频声场表示以供音频回放的方法和设备 - Google Patents

用于渲染音频声场表示以供音频回放的方法和设备 Download PDF

Info

Publication number
CN106658342B
CN106658342B CN201710147809.0A CN201710147809A CN106658342B CN 106658342 B CN106658342 B CN 106658342B CN 201710147809 A CN201710147809 A CN 201710147809A CN 106658342 B CN106658342 B CN 106658342B
Authority
CN
China
Prior art keywords
matrix
decoding
singular value
hoa
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710147809.0A
Other languages
English (en)
Other versions
CN106658342A (zh
Inventor
约翰内斯·伯姆
弗洛里安·凯勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN106658342A publication Critical patent/CN106658342A/zh
Application granted granted Critical
Publication of CN106658342B publication Critical patent/CN106658342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明公开了用于渲染音频声场表示以供音频回放的方法和设备。在针对任意的空间扩音器设置渲染音频声场表示的方法中,通过以下步骤获得用于渲染到目标扩音器的给定布置的解码矩阵(D):获得目标扬声器的数目(L)、它们的位置(I)、球形建模网格的位置(II)以及HOA阶数(N),根据建模网格的位置(II)和扬声器的位置(I)来生成(141)混合矩阵(G),根据球形建模网格的位置(II)和HOA阶来生成(142)模式矩阵(III),根据混合矩阵(G)和模式矩阵(III)计算(143)第一解码矩阵(IV),以及使用平滑和缩放系数来平滑和缩放(144、145)第一解码矩阵(IV)。

Description

用于渲染音频声场表示以供音频回放的方法和设备
本申请是申请号为201380037816.5、申请日为2013年7月16日、发明名称为“用于渲染音频声场表示以供音频回放的方法和设备”的发明专利申请的分案申请。
技术领域
本发明涉及一种用于渲染(render)音频声场表示(具体地,涉及高保真度立体声响复制格式的音频表示)以供音频回放的方法和设备。
背景技术
精确定位是任何空间音频再现系统的关键目标。这种再现系统高度可应用于会议系统、游戏或受益于3D声音的其他虚拟环境。3D中的声音场景可被合成或捕获为自然声场。声场信号(例如,高保真度立体声响复制(Ambisonics))携带期望声场的表示。高保真度立体声响复制格式基于声场的球面谐波分解。虽然基本高保真度立体声响复制格式或B格式使用阶数0和1的球面谐波,所谓的高阶高保真度立体声响复制(HOA)还使用至少2阶的其他球面谐波。需要解码或渲染过程来从这种高保真度立体声响复制格式的信号中获得单独的扩音器信号。在本文中将扩音器的空间布置称为扩音器设置。然而,虽然已知的渲染方案仅适于常规的扩音器设置,任意的扩音器设置更加普遍。如果将这种渲染方案应用于任何扩音器设置,声音方向性受到损伤。
发明内容
本发明描述了一种用于渲染/解码针对于常规和非常规空间扩音器分布的音频声场表示的方法,其中,该渲染/解码提供了高度改进的定位特性并节省了能量。具体地,本发明提供了用于获得(例如HOA格式的)声场数据的解码矩阵的新方式。因为HOA格式描述了不直接涉及扩音器位置的声场,且因为要获得的扩音器信号必然处于基于通道的音频格式,HOA信号的解码与音频信号的渲染始终紧密相关。因此,本发明涉及解码和渲染声场相关的音频格式。
本发明的一个优点是实现节能解码以及非常好的定向特性。术语“节能”指的是在解码之后保留HOA定向信号中的能量,使得例如将以恒定的响度感知恒定幅度定向空间扫描。术语“好的定向特性”指的是通过定向的主波瓣和较小的副波瓣来表征的扬声器方向性,其中,与常规的渲染/解码相比,提高了方向性。
本发明公开了针对任意的扩音器设置渲染声场信号(例如,高阶高保真度立体声响复制(HOA)),其中,该渲染导致高度改进的定位特性,且是节能的。这是通过用于声场数据的新类型的解码矩阵以及用于获得解码矩阵的新方式来获得的。在针对任意的空间扩音器设置渲染音频声场表示的方法中,通过以下步骤获得针对目标扩音器的给定布置进行渲染的解码矩阵:获得目标扬声器的数目及它们的位置、球面建模网格的位置以及HOA阶数,根据建模网格的位置和扬声器的位置来生成混合矩阵,根据球面建模网格的位置和HOA阶数来生成模式矩阵,根据混合矩阵和模式矩阵计算第一解码矩阵,以及使用平滑和缩放系数来平滑和缩放第一解码矩阵,以获得节能的解码矩阵。
在一个实施例中,如权利要求1中所述,本发明涉及一种用于解码和/或渲染音频声场表示以供音频回放的方法。在另一实施例中,如权利要求9中所述,本发明涉及一种用于解码和/或渲染音频声场表示以供音频回放的设备。在又一实施例中,如权利要求15中所述,本发明涉及其上存储可执行指令的计算机可读介质,所述可执行指令使计算机执行一种用于解码和/或渲染音频声场表示以供音频回放的方法。
一般而言,本发明使用以下方案。首先,导出取决于用于回放的扩音器设置的平移(panning)函数。其次,针对扩音器设置中的所有扩音器,根据这些平移函数(或由平移函数所获得的混合矩阵)计算解码矩阵(例如,高保真度立体声响复制解码矩阵)。在第三步骤中,生成解码矩阵并将其处理为是节能的。最后,对解码矩阵滤波,以平滑扩音器平移主波瓣并抑制副波瓣。针对给定的扩音器设置,使用已滤波的解码矩阵来渲染音频信号。副波瓣是渲染的副作用,并在不想要的方向上提供音频信号。因为针对给定的扩音器设置来优化渲染,副波瓣是令人烦恼的。本发明的优点之一是最小化副波瓣,使得扩音器信号的方向性得到改进。
根据本发明一个实施例,一种用于解码和/或渲染音频声场表示以供音频回放的方法包括以下步骤:缓冲接收到的HOA时间采样b(t),其中,形成M个采样的块以及时间索引μ,对系数B(μ)进行滤波以获得已频率滤波的系数
Figure BDA0001244681700000031
使用解码矩阵(D)将所述已频率滤波的系数
Figure BDA0001244681700000032
渲染(33)到空间域,其中,获得空间信号W(μ)。在一个实施例中,其他步骤包括:在延迟线中针对所述L个通道中的每个通道单独延迟所述时间采样w(t),其中,获得L个数字信号,以及对所述L个数字信号进行数模(D/A)变换和放大,其中,获得L个模拟扩音器信号。
用于渲染步骤(即,用来针对目标扬声器的给定布置进行渲染)的解码矩阵D是通过以下步骤获得的:获得目标扬声器的数目和扬声器的位置,确定球面建模网格的位置和HOA阶数,根据球面建模网格的位置和扬声器的位置生成混合矩阵,根据球面建模网格的位置和HOA阶数生成模式矩阵,根据混合矩阵G和模式矩阵计算第一解码矩阵,以及利用平滑和缩放系数对第一解码矩阵进行平滑和缩放,其中,获得解码矩阵。
根据另一方面,一种用于解码和/或渲染音频声场表示以供音频回放的设备包括具有用于获得解码矩阵D的解码矩阵计算单元的渲染处理单元,解码矩阵计算单元包括:用于获得目标扬声器的数目L的装置和用于获得扬声器的位置
Figure BDA0001244681700000034
的装置;用于确定球面建模网格
Figure BDA0001244681700000035
的位置的装置和用于获得HOA阶数N的装置;以及用于根据球面建模网格的位置和扬声器的位置生成混合矩阵G的第一处理单元;用于根据球面建模网格
Figure BDA0001244681700000037
和HOA阶数N生成模式矩阵
Figure BDA0001244681700000038
的第二处理单元;用于根据
Figure BDA0001244681700000039
执行对模式矩阵与厄米特转置混合矩阵G的乘积的紧致奇异值分解的第三处理单元(其中,U、V是根据酉矩阵导出的,以及S是具有奇异值项的对角矩阵);用于根据
Figure BDA00012446817000000311
来由U、V矩阵计算第一解码矩阵的计算装置,其中
Figure BDA0001244681700000042
是单位矩阵或对角矩阵,所述对角矩阵是根据所述具有奇异值项的对角矩阵导出的;以及用于利用平滑系数
Figure BDA0001244681700000043
对第一解码矩阵
Figure BDA0001244681700000044
进行平滑和缩放的平滑及缩放单元,其中,获得解码矩阵D。
根据又一方面,一种计算机可读介质在其上存储有可执行指令,当在计算机上执行该可执行指令时,该可执行指令使计算机执行上述用于解码音频声场表示以供音频回放的方法。
当与附图结合时,根据对以下描述和所附权利要求的考虑,本发明的其他目标、特征和优点将变得显而易见。
附图说明
参考附图对本发明的示例性实施方式进行描述,在附图中:
图1是根据本发明的一个实施例的方法的流程图;
图2是用于构建混合矩阵G的方法的流程图;
图3是渲染器的框图;
图4是解码矩阵生成过程的示意性步骤的流程图;
图5是解码矩阵生成单元的框图;
图6是示例性的16个扬声器的设置,其中,扬声器被示出为连接的节点;
图7是自然视角下的示例性的16个扬声器的设置,其中,节点被示出为扬声器;
图8是示出
Figure BDA0001244681700000045
比率的能量图,该
Figure BDA0001244681700000046
比率针对于利用现有技术[14]获得的解码矩阵的完美节能特征是恒定的,其中,N=3;
图9是针对根据现有技术[14](N=3)设计的解码矩阵的声压图,其中,中心扬声器的平移(panning)波束具有强的副波瓣;
图10是示出
Figure BDA0001244681700000047
比率的能量图,该
Figure BDA0001244681700000048
比率的波动比利用现有技术[2]获得的解码矩阵的4dB大,其中,N=3;
图11是针对根据现有技术[2](N=3)设计的解码矩阵的声压图,其中,中心扬声器的平移波束具有较小的副波瓣;
图12是示出比率的能量图,该比率的波动比通过根据本发明的方法或装置获得的1dB小,其中,利用相等的响度感知到具有恒定幅度的空间平移;
图13是针对利用根据本发明的方法设计的解码矩阵的声压图,其中,中心扬声器具有带有较小副波瓣的平移波束。
具体实施方式
大体上,本发明涉及向扩音器渲染(即,解码)声场格式的音频信号(例如,高阶高保真度立体声响复制(HOA)音频信号),其中,扩音器位于对称或不对称、常规或非常规位置。音频信号可适于馈送比可用扩音器更多的扩音器,例如,HOA系数的数目可以大于扩音器的数目。本发明以非常好的定向特性为解码器提供了节能解码矩阵,即,与利用常规解码矩阵所获得的扬声器方向性波瓣相比,扬声器方向性波瓣大体上包括更强的定向主波瓣和较小的副波瓣。节能指的是在解码之后保留HOA方向性信号中的能量,使得例如以恒定的响度感知恒定幅度定向空间扫描。
图1输出了根据本发明的一个实施例的方法的流程图。在该实施例中,用于渲染(即,解码)HOA音频声场表示以供音频回放的方法使用如下生成的解码矩阵:首先,确定11目标扩音器的数目L、扩音器的位置
Figure BDA0001244681700000053
球面建模网格
Figure BDA0001244681700000054
和阶数N(例如,HOA阶数)。根据扬声器的位置
Figure BDA0001244681700000055
和球面建模网格
Figure BDA0001244681700000056
生成12混合矩阵G,以及根据球面建模网格
Figure BDA0001244681700000057
和HOA阶数N,生成13模式矩阵
Figure BDA0001244681700000058
根据混合矩阵G和模式矩阵计算14第一解码矩阵
Figure BDA00012446817000000510
利用平滑系数
Figure BDA00012446817000000511
平滑15第一解码矩阵
Figure BDA00012446817000000512
其中,获得已平滑解码矩阵
Figure BDA00012446817000000513
以及利用根据已平滑解码矩阵D获得的缩放因子来缩放16已平滑解码矩阵
Figure BDA00012446817000000514
其中,获得解码矩阵D。在一个实施例中,平滑15和缩放16在单个步骤中执行。
在一个实施例中,通过两种不同方法中的一种来获得平滑系数
Figure BDA00012446817000000515
这取决于扩音器的数目L和HOA系数通道的数目O3D=(N+1)2。如果扩音器的数目L低于HOA系数通道的数目O3D,使用用于获得平滑系数的新方法。
在一个实施例中,生成对应于多个不同扩音器布置的多个解码矩阵,并将其存储以供后续使用。不同的扩音器布置可以在以下至少一方面不同:扩音器的数目、一个或多个扩音器的位置、以及输入音频信号的阶数N。因此,在初始化渲染系统时,确定匹配解码矩阵,根据当前需要从存储器获取该匹配解码矩阵,并将其用于解码。
在一个实施例中,通过根据
Figure BDA0001244681700000061
执行对模式矩阵
Figure BDA0001244681700000062
与厄米特转置混合矩阵GH的乘积的紧致奇异值分解(compact singular value decomposition),并根据
Figure BDA0001244681700000063
由矩阵U、V计算第一解码矩阵获得解码矩阵D。U、V是根据酉矩阵导出的,以及S是具有模式矩阵
Figure BDA0001244681700000065
与厄米特转置混合矩阵GH的乘积的紧致奇异值分解的奇异值元素的对角矩阵。根据本实施例获得的解码矩阵通常在数值上比利用下述备选实施例获得的解码矩阵更加稳定。矩阵的厄米特转置是该矩阵的复共轭转置。
在备选实施例中,通过根据
Figure BDA0001244681700000066
执行对厄米特转置模式矩阵
Figure BDA0001244681700000067
与混合矩阵G的乘积的紧致奇异值分解,获得解码矩阵D,其中,通过
Figure BDA0001244681700000068
导出第一解码矩阵。
在一个实施例中,根据
Figure BDA0001244681700000069
对模式矩阵
Figure BDA00012446817000000610
和混合矩阵G执行紧致奇异值分解,其中,通过
Figure BDA00012446817000000611
导出第一解码矩阵,其中,
Figure BDA00012446817000000612
是通过将大于等于阈值thr的所有奇异值替换为1并将小于该阈值thr的元素替换为0,根据奇异值分解矩阵S导出的截断紧致奇异值分解矩阵。阈值thr取决于奇异值分解矩阵的实际值,且示例性地,可以在0.06*S1(S的最大元素)的量级上。
在一个实施例中,根据
Figure BDA00012446817000000613
对模式矩阵
Figure BDA00012446817000000614
和混合矩阵G执行紧致奇异值分解,其中,通过
Figure BDA00012446817000000615
导出第一解码矩阵。
Figure BDA00012446817000000616
和阈值thr如上针对之前实施例所述。阈值thr通常是根据最大奇异值导出的。
在一个实施例中,根据HOA阶数N和目标扬声器的数目L,使用两种不同的方法来计算平滑系数:如果存在比HOA通道少的目标扬声器,即,如果O3D=(N2+1)>L,则平滑和缩放系数
Figure BDA00012446817000000617
对应于常规的max rE系数集合,常规的max rE系数集合是根据阶数N+1的勒让德多项式的零导出的;否则如果存在足够的目标扬声器,即,如果O3D=(N2+1)≤L,则根据
Figure BDA0001244681700000071
由长度等于(2N+1)且宽带等于2N的凯撒窗的元素来构建系数
Figure BDA0001244681700000073
其中,缩放因子为Cf。所使用的凯撒窗的元素开始于仅被使用一次的第(N+1)个元素,并以被重复使用的后续元素继续:第(N+2)个元素被使用3次,等等。
在一个实施例中,根据已平滑的解码矩阵来获得缩放因子。具体地,在一个实施例中,根据以下等式获得缩放因子
下面描述完整的渲染系统。本发明的主要关注点是渲染器的初始化阶段,在该阶段如上所述地生成解码矩阵D。在此,主要的关注点是用于导出一个或多个解码矩阵(例如,用于码本)的技术。为了生成解码矩阵,有多少目标扩音器可用以及它们位于何处(即,它们的位置)是已知的。
图2示出了根据本发明的一个实施例的用于构建混合矩阵G的方法的流程图。在该实施例中,创建21仅具有零的初始混合矩阵,以及针对每个具有角方向Ωs=[θs,φs]T和半径rs的虚拟源,执行下面的步骤。首先,确定22环绕位置的三个扩音器l1、l2、l3,其中,采用单位半径,且构建23矩阵
Figure BDA0001244681700000076
其中
Figure BDA0001244681700000077
根据Lt=spherical_to_cartesian(R),将矩阵R变换24为笛卡尔坐标。然后,根据s=(sinΘscosφs,sinΘs sinφs,cosΘs)T构建25虚拟源位置,且根据g=Lt -1s计算26增益g,其中,
Figure BDA0001244681700000081
根据g=g/||g/||2来归一化27增益,且将G的对应元素Gl,s替换为归一化的增益:
Figure BDA0001244681700000082
下面一节给出对高阶高保真度立体声响复制(HOA)的简要介绍,并定义要处理(即,针对扩音器渲染)的信号。
高阶高保真度立体声响复制(HOA)基于对感兴趣的紧致区域内的声场的描述,该感兴趣的紧致区域被假定为与声源无关。在该情况下,在感兴趣的区域内,在时间t以及位置x=[r,θ,φ]T(球面坐标:半径r,倾角θ,方位角φ)处的声压p(t,x)的时空行为在物理上完全通过均匀波(homogeneous wave)等式来决定。可以示出,可根据[13]将声压相对于时间的傅里叶变换(即,
Figure BDA0001244681700000083
(1),其中,ω表示角频率,且
Figure BDA0001244681700000084
对应于
Figure BDA0001244681700000085
)扩展到球面谐波(SH)序列中:
Figure BDA0001244681700000086
在等式(2)中,Cs表示声音的速度,以及
Figure BDA0001244681700000087
是角波数(angular wavenumber)。此外,jn(·)指示第一类的且阶数为n的球面贝塞尔函数,以及
Figure BDA0001244681700000088
表示阶数为n且度数为m的球面谐波(SH)。与声场有关的完整信息实际上包含在声场系数内。
应该注意到,SH一般是复数取值的函数。然而,通过它们的适当线性组合,可以获得取实数值的函数,并关于这些函数执行扩展。
关于等式(2)中的压力声场,可以将源场定义为:
Figure BDA0001244681700000091
其中,源场或幅度密度[12]D(k cs,Ω)取决于角波数和角度方向Ω=[θ,φ]T。源场可以由远场/近场的离散/连续源组成[1]。通过以下等式,源场系数
Figure BDA0001244681700000092
与声场系数
Figure BDA0001244681700000093
有关[1]:
Figure BDA0001244681700000094
其中,
Figure BDA0001244681700000095
是第二类的球面汉克尔函数,以及rs是相对于原点的源距离。
可以在频域或时域中将HOA域中的信号表示为源场或声场系数的傅里叶逆变换。下面的描述将假设使用有限数目的源场系数的时域表示:
Figure BDA0001244681700000096
:在n=N处截断等式(3)中的无限序列。截断对应于空间带宽限制。
系数(或HOA通道)的数目被给出为:
O3D=(N+1)2 对于3D (6)
或对于仅2D的描述,给出为O2D=2N+1。系数包括用于后续扩音器的再现的一个时间采样t处的音频信息。它们可被存储或发送,并因此经受到数据速率压缩。可通过具有O3D个元素的矢量b(t)来表示系数的单个时间采样t:
Figure BDA0001244681700000098
以及通过矩阵
Figure BDA0001244681700000099
来表示M个时间采样的块
B:=[b(tSTART+1),b(tSTART+2),..,b(tSTART+M)] (8)
可通过利用环形谐波(circular harmonic)的扩展来导出声场的二维表示。这是上述的一般性描述的特殊情况,该特殊情况使用固定倾角
Figure BDA00012446817000000910
不同的系数加权以及精简至O2D个系数的集合(m=±n)。因此,所有下面的考虑也适用于2D表示;术语“球面”从而需要替换为术语“环形”。
在一个实施例中,将元数据与系数数据一起发送,允许明确地识别系数数据。通过所发送的元数据或因为给定的上下文,给出用于导出时间采样系数矢量b(t)的所有必要信息。此外,要注意到的是,HOA阶数N或O3D中的至少一个,且在一个实施例中还包括特殊标记以及用于指示近场记录的rs,在解码器处是已知的。接下来描述向扩音器渲染HOA信号。该节示出了解码以及某些数学特性的基本原理。
基本解码假设:第一,平面波扩音器信号,以及第二,可以忽略从扬声器到原点的距离。可以将针对位于球面方向
Figure BDA0001244681700000101
(l=1,...,L)处的L个扩音器所渲染的HOA系数b的时间采样描述为[10]:
w=Db (9)
其中,
Figure BDA0001244681700000102
表示L个扬声器信号的时间采样,以及解码矩阵
Figure BDA0001244681700000103
可通过以下等式导出解码矩阵
D=Ψ+ (10)
其中,Ψ+是模式矩阵Ψ的伪取逆。模式矩阵Ψ被定义为
Ψ=[y1,…yL] (11)
其中,以及
Figure BDA0001244681700000105
由扬声器方向
Figure BDA0001244681700000106
的球面谐波组成,其中,H表示复共轭转置(也称为厄米特)。
接下来,描述由奇异值分解(SVD)进行的矩阵的伪取逆。导出伪取逆的一种通用方式是首先计算紧致SVD:
Ψ=USVH (12)
其中,
Figure BDA0001244681700000107
是根据旋转矩阵导出的,以及
Figure BDA0001244681700000108
是降序排列的奇异值S1≥S2≥…≥SK的对角矩阵,其中,K>0以及K≤min(O3D,L)。通过以下等式确定伪取逆:
Figure BDA0001244681700000111
其中,
Figure BDA0001244681700000112
对于Sk具有非常小的值的不好的条件矩阵,将对应的逆值
Figure BDA0001244681700000113
替换为0。这被称为截断奇异值分解。通常,选择关于最大奇异值S1的检测阈值来识别要被替换为0的对应逆值。
下面描述节能特性。通过以下等式给出HOA域中的信号能量:
E=bHb (14)
以及通过以下等式给出空间域中的对应能量:
Figure BDA0001244681700000114
节能解码器矩阵的比率
Figure BDA0001244681700000115
是(基本)恒定的。这仅在DHD=cI时可实现,其中,单位矩阵为I,以及常数这要求D的norm-2(范2)条件数cond(D)=1。再次地,这要求D的SVD(奇异值分解)产生相同的奇异值:D=USVH,其中,S=diag(SK,...,SK)。
一般而言,节能渲染器设计是本领域已知的。在[14]中通过以下等式提出了针对L≥O3D的节能解码器矩阵设计:
D=V UH (16)
其中,将来自等式(13)的
Figure BDA0001244681700000117
强制为
Figure BDA0001244681700000118
并因此可以在等式(16)中丢弃
Figure BDA0001244681700000119
乘积DHD=U VHV UH=I,以及比率
Figure BDA00012446817000001110
变为1。该设计方法的好处是能量节省,该能量节省保证了同质空间声印象的,其中,空间平移在感知到的响度上没有波动。该设计的缺陷是:针对不对称的、非常规的扩音器位置(参见图8-9),方向精确度的丢失以及较强的扩音器波束侧波瓣。本发明可以克服该缺陷。
针对非常规位置的扬声器的渲染器设计也是本领域已知的。在[2]中描述了针对L≥O3D和L<O3D的解码器设计方法,该解码器设计方法允许在再现方向性上以较高精确度进行渲染。该设计方法的缺陷是所导出的渲染器不节能(参见图10-11)。
可以将球面卷积用于空间平滑。这是空间滤波过程,或是系数域中的窗口化(windowing)(卷积)。其目的是最小化副波瓣,称为平移波瓣。通过原始HOA系数
Figure BDA0001244681700000121
与带状系数(zonal coefficient)
Figure BDA0001244681700000122
的加权乘积来给出新的系数
Figure BDA0001244681700000123
[5]:
Figure BDA0001244681700000124
这等效于在空间域对S2的左卷积[5]。在[5]中,将这方便地用于在通过对HOA系数B加权来进行渲染/解码之前对扩音器信号的定向特性进行平滑,该加权通过以下等式进行:
Figure BDA0001244681700000125
其中,矢量通常包含取实数值的加权系数和常数因子df。平滑的概念是随着增加的阶数索引n对HOA系数进行衰减。平滑加权系数的已知示例是所谓的max rV、和max rE以及同相系数[4]。第一项提供缺省的幅度波束(不重要的(trivial),
Figure BDA0001244681700000128
长度为O3D的全1矢量),第二项提供均匀分布的角功率以及同相特征全副波瓣抑制。
下面描述所公开解决方案的其他细节和实施例。首先,在初始化、启动行为和处理方面对渲染器架构进行描述。
每次扩音器设置(即,扩音器的数目以及任何扩音器相对于收听位置的位置发生改变),渲染器需要执行初始化过程,以确定针对所支持HOA输入信号具有的任何HOA阶数的解码矩阵组。同样地,根据扬声器与收听位置之间的距离来确定延迟线的单独扬声器延迟dl和扬声器增益
Figure BDA0001244681700000129
下面描述该过程。在一个实施例中,所导出的解码矩阵存储在码本内。每次HOA音频输入特征改变,渲染器控制单元确定当前有效的特征,并从码本选择匹配的解码矩阵。码本关键字可以是HOA阶数N,或等效地,O3D(参见等式(6))。
参考图3解释用于渲染的数据处理的示意性步骤,图3示出了渲染器的处理框的框图。它们是第一缓冲器31、频域滤波单元32、渲染处理单元33、第二缓冲器34、用于L个通道的延迟单元35、以及数模变换器及放大器36。
首先在第一缓冲器31中存储具有时间索引t和O3DHOA系数通道的HOA时间采样b(t),以形成块索引为μ的M个采样的块。在频域滤波单元32中对的系数B(μ)进行频率滤波,以获得已频率滤波的块
Figure BDA0001244681700000131
该技术已知(参见[3])用于补偿球面扩音器源的距离,并用于使得可处理近场记录。在渲染处理单元33中通过以下等式来向空间域渲染已频率滤波的块
Figure BDA0001244681700000132
Figure BDA0001244681700000133
其中,
Figure BDA0001244681700000134
表示具有M个时间采样的块的L个通道中的空间信号。该信号在第二缓冲器34中缓冲,并被串行化,以形成在L个通道中具有时间索引t的单个时间采样,在图3中称之为w(t)。这是馈送到延迟单元35中的L个数字延迟线的串行信号。延迟线补偿收听位置到延迟为dl个采样的单独的扬声器l之间的不同距离。理论上,每个延迟线是FIFO(先进先出存储器)。然后,在数模变换器及放大器36中对已延迟补偿的信号355进行D/A变换并放大,数模变换器及放大器36提供可馈送到L个扩音器的信号365。可以在D/A变换之前或通过在模拟域中采用扬声器通道放大来考虑扬声器增益补偿
Figure BDA0001244681700000135
渲染器初始化如下进行。
首先,需要知道扬声器的数目和位置。初始化的第一步骤是使新的扬声器数目L及相关位置
Figure BDA0001244681700000136
可用,其中,
Figure BDA0001244681700000137
其中,rl是从收听位置到扬声器l的距离,以及
Figure BDA0001244681700000138
Figure BDA0001244681700000139
是相关球面角。可应用各种方法,例如,扬声器位置的手动输入,或使用测试信号的自动初始化。可使用适当的接口(如,已连接的移动设备或集成于设备的用于选择预定义位置集合的用户界面)来进行扬声器位置
Figure BDA0001244681700000141
的手动输入。可利用评估单元,使用麦克风阵列和专用的扬声器测试信号来进行自动初始化,以导出
Figure BDA0001244681700000142
通过rmax=max(r1,...,rL)确定最大距离rmax,通过rmin=min(r1,...,rL)确定最小距离rmin
将L个距离rl和rmax输入到延迟线和增益补偿35。通过以下等式来确定针对每个扬声器通道dl的延迟采样的数目:
Figure BDA0001244681700000143
其中,采样速率为fS,声音速度为c(温度为20摄氏度时,
Figure BDA0001244681700000144
),以及
Figure BDA0001244681700000145
指示向下一个整数取整。为了补偿针对不同rl的扬声器增益,通过
Figure BDA0001244681700000146
确定扩音器增益或使用声学测量来导出扩音器增益
Figure BDA0001244681700000148
如下进行(例如,针对于码本的)解码矩阵的计算。图4示出了在一个实施例中用于生成解码矩阵的方法的示意性步骤。图5示出了在一个实施例中用于生成解码矩阵的对应设备的处理框。输入是扬声器方向
Figure BDA0001244681700000149
球面建模网格
Figure BDA00012446817000001410
和HOA阶数N。
可以将扬声器方向表达为球面角
Figure BDA00012446817000001412
以及通过球面角Ωs=[θs,φs]T来表达球面建模网格将方向的数目选择为大于扬声器的数目(S>L),且大于HOA系数的数目(S>O3D)。网格的方向应该通过非常规则的方式来采样单位球面。在[6]、[9]中讨论了适合的网格,且可在[7]、[8]中找到适合的网格。一次性选择网格
Figure BDA00012446817000001414
作为示例,根据[6],S=324个网格足以用于解码最多HOA阶数N=9的矩阵。针对不同的HOA阶数,可以使用其他网格。递增地选择HOA阶数N,以根据N=1,...,Nmax填充码本,其中,Nmax是所支持的HOA输入内容的最大HOA阶数。
将扬声器方向
Figure BDA0001244681700000151
和球面建模网格
Figure BDA0001244681700000152
输入到构建混合矩阵框41,构建混合矩阵框41生成其混合矩阵G。将球面建模网格
Figure BDA0001244681700000153
和HOA阶数N输入到构建模式矩阵框42,构建模式矩阵框42生成其模式矩阵
Figure BDA0001244681700000154
将混合矩阵G和模式矩阵
Figure BDA0001244681700000155
输入到构建解码矩阵框43,构建解码矩阵框43生成其解码矩阵
Figure BDA0001244681700000156
将该解码矩阵输入到平滑解码矩阵框44,平滑解码矩阵框44平滑并缩放解码矩阵。下面提供其他细节。平滑解码矩阵框44的输出是解码矩阵D,利用相关的关键字N(或备选地O3D)将解码矩阵D存储在码本中。在构建模式矩阵框42中,球面建模网格
Figure BDA0001244681700000157
被用于构建类似于等式(11)的模式矩阵:
Figure BDA0001244681700000158
其中,
Figure BDA0001244681700000159
Figure BDA00012446817000001510
要注意到的是,在[2]中将模式矩阵
Figure BDA00012446817000001511
称为Ξ。
在构建混合矩阵框41中,利用来创建混合矩阵G。要注意到的是,在[2]中将混合矩阵G称为W。混合矩阵G的第l行由从方向
Figure BDA00012446817000001513
到扬声器l的针对混合S虚拟源的混合增益组成。在一个实施例中,矢量基幅度平移(VBAP)[11]被用于导出这些混合增益,[2]中也是如此。用于导出G的算法总结如下:
1利用0值来创建G(即,初始化G)
2针对每个s=1...S
3{
4找到围绕位置的3个扬声器l1,l2,l3,假设单位半径以及构建矩阵
Figure BDA00012446817000001515
其中,
5在笛卡尔坐标中计算Lt=spherical_to_cartesian(R)。
6构建虚拟源位置s=(sinΘs cosφs,sinΘs sinφs,cosΘs)T
7计算g=Lt -1s,其中
Figure BDA0001244681700000161
8归一化增益:g=g/||g||2
9利用g的元素来填充G的相关元素Gl,s
Figure BDA0001244681700000162
10}
在构建解码矩阵框43中,计算对模式矩阵与转置混合矩阵的矩阵乘积的紧致奇异值分解。这是本发明的一个重要方面,可通过各种方式来执行。在一个实施例中,根据以下等式来计算模式矩阵与转置混合矩阵GT的矩阵乘积的紧致奇异值分解S:
在备选实施例中,根据以下等式来计算模式矩阵与伪逆混合矩阵G+的矩阵乘积的紧致奇异值分解S:
Figure BDA0001244681700000166
其中,G+是混合矩阵G的伪取逆。
在一个实施例中,创建对角矩阵,在该对角矩阵中,
Figure BDA0001244681700000167
其中,第一对角元素是S的逆对角元素:
Figure BDA0001244681700000168
以及接下来的对角元素
Figure BDA0001244681700000169
被设置为值1
Figure BDA00012446817000001610
(如果
Figure BDA00012446817000001611
其中,a是阈值),或被设置为值0
Figure BDA00012446817000001612
(如果
Figure BDA00012446817000001613
)。
发现适合的阈值大约是0.06。在例如±0.01的范围内或在±10%的范围内的较小偏差是可接受的。然后,如下计算解码矩阵:
Figure BDA00012446817000001614
在平滑解码矩阵框44中,平滑解码矩阵。替代现有技术中已知的在解码之前向HOA系数应用平滑系数,可以将其与解码矩阵相组合。这节省了一个处理步骤或相应节省了处理框。
Figure BDA00012446817000001615
为了针对用于HOA内容比扩音器具有更多系数(即,O3D>L)的解码器也获得良好的节能特性,根据HOA阶数N(O3D=(N+1)2)来选择所应用的平滑系数
Figure BDA0001244681700000171
与在[4]中一样,针对L≥O3D
Figure BDA0001244681700000172
对应于根据阶数N+1的勒让德多项式的零导出的max rE系数。
针对L<O3D,根据凯撒窗构建的的系数如下所示:
Figure BDA0001244681700000174
其中,len=2N+1,width=2N,其中,
Figure BDA0001244681700000175
是具有2N+1个取实数值的元素的矢量。该元素是通过凯撒窗公式创建的
Figure BDA0001244681700000176
其中,IO()表示第一类的零阶修正贝塞尔函数。矢量
Figure BDA0001244681700000177
是根据以下项构建的:
Figure BDA0001244681700000178
其中,针对HOA阶数索引n=O..N,每个元素
Figure BDA0001244681700000179
具有2n+1个重复,以及cf是用于在不同的HOA阶数节目(program)之间保持相等的响度的恒定缩放因子。亦即,所使用的凯撒窗的元素开始于仅被使用一次的第(N+1)个元素,并以被重复使用的后续元素继续:第(N+2)个元素被使用3次,等等。
在一个实施例中,对已平滑的解码矩阵进行缩放。在一个实施例中,在图4a)中示出的平滑解码矩阵框44中执行缩放。在不同的实施例中,在图4b)中示出的缩放矩阵框45中将缩放作为单独步骤执行。
在一个实施例中,根据解码矩阵来获得恒定缩放因子。具体地,其可根据解码矩阵的所谓弗罗比舍范数来获得:
Figure BDA00012446817000001710
其中,
Figure BDA0001244681700000181
是(已平滑的)矩阵的第l行第q列的矩阵元素。已归一化的矩阵是
Figure BDA0001244681700000183
图5示出了根据本发明的一方面的一种用于解码音频声场表示以供音频回放的设备。该设备包括具有用于获得解码矩阵D的解码矩阵计算单元140的渲染处理单元33,解码矩阵计算单元140包括用于获得目标扬声器的数目L的装置1x和用于获得扬声器的位置
Figure BDA0001244681700000184
的装置,用于确定球面建模网格
Figure BDA0001244681700000185
的位置的装置1y和用于获得HOA阶数N的装置1z,以及用于根据球面建模网格
Figure BDA0001244681700000186
的位置和扬声器的位置生成混合矩阵G的第一处理单元141,用于根据球面建模网格
Figure BDA0001244681700000187
和HOA阶数N生成模式矩阵
Figure BDA0001244681700000188
的第二处理单元142,用于根据
Figure BDA0001244681700000189
执行对模式矩阵
Figure BDA00012446817000001810
与厄米特转置混合矩阵G的乘积的紧致奇异值分解的第三处理单元143(其中,U、V是根据酉矩阵导出的,以及S是具有奇异值元素的对角矩阵),用于根据
Figure BDA00012446817000001811
来由矩阵U、V计算第一解码矩阵
Figure BDA00012446817000001812
的计算装置144,以及用于利用平滑系数
Figure BDA00012446817000001813
对第一解码矩阵
Figure BDA00012446817000001814
进行平滑和缩放的平滑及缩放单元145(其中,获得解码矩阵D)。在一个实施例中,平滑及缩放单元145例如是用于平滑第一解码矩阵
Figure BDA00012446817000001815
的平滑单元1451(其中获得已平滑的解码矩阵
Figure BDA00012446817000001816
)和用于对已平滑的解码矩阵
Figure BDA00012446817000001817
进行缩放的缩放单元1452(其中,获得解码矩阵D)。
图6示出了节点示意图中的示例性的16个扬声器的设置中的扬声器位置,其中,将扬声器示出为已连接节点。前台连接示出为实线,后台连接示出为虚线。图7通过用透视法缩小绘制的视图的形式示出了具有16个扬声器的相同设置。
下面描述利用图5和图6中的扬声器设置获得的示例结果。在2个球面(所有的测试方向)上以dB示出声音信号的能量分布,以及具体地,比率
Figure BDA00012446817000001818
的分布。示出中心扬声器波束(图6中的扬声器7)作为扩音器平移波束的示例。例如,在[14]中设计的解码器矩阵(N=3)产生图8中示出的比率
Figure BDA0001244681700000191
其提供了几乎完美的节能特性,因为比率
Figure BDA0001244681700000192
几乎是恒定的:暗区(对应于较低音量)与亮区(对应于较高音量)之间的差异小于0.01dB。然而,如图9中示出的,中心扬声器的对应平移波束具有较强的副波瓣。特别是对于偏离中心的收听者而言,这妨碍了空间感知。
另一方面,在[2]中设计的解码器矩阵(N=3)产生图9中示出的比率在图10中使用的刻度中,暗区对应于下降到-2dB的较低音量,以及亮区对应于上升到+2dB的较高音量。因此,比率
Figure BDA0001244681700000194
示出了大于4dB的波动,这是不利的,因为以相同的响度不能感知到恒定幅度的例如从顶部到中心扬声器位置的空间平移。然而,如图11中示出的,中心扬声器的对应平移波束具有非常小的副波瓣,这对于偏离中心的收听位置而言是有益的。
图12示出了利用根据本发明的解码器矩阵获得的声音信号的能量分布,为了易于比较,示例性地针对于N=3。(在图12的右侧示出的)比率
Figure BDA0001244681700000195
的刻度范围从3.15到3.45dB。因此,该比率中的波动小于0.31dB,以及声场中的能量分布是非常均匀的。因此,以相同的响度感知到了具有恒定幅度的任何空间平移。如图13中示出的,中心扬声器的平移波束具有非常小的副波瓣。这对于偏离中心的收听位置而言是有益的,在该收听位置处,副波瓣可能是可听到的,并因此将会是令人烦恼的。因此,本发明提供了利用[14]和[2]中的现有技术可获得的组合优点,而无需忍受其相应缺点。
要注意到的是,在本文中只要提及扬声器,表示的是声音发射设备,例如扩音器。
附图中的流程图和/或框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的配置、操作和功能。在这一点上,流程图或框图中的每个框可以表示代码的模块、片段或部分,该代码包括用于实现所指定的逻辑功能的一个或多个可执行指令。
还应该注意到,在一些备选实现中,框中提到的功能可以通过附图中所提到的顺序之外的顺序来发生。例如,取决于所涉及的功能,连续示出的两个框事实上可以实质上同时执行,或有时以相反的顺序来执行该框,或者可以通过备选顺序执行该框。还要注意到的是,框图和/或流程图示意图的每个框,以及框图和/或流程图示意图中的框组合可通过基于专用硬件的系统或者专用硬件和计算机指令的组合来实现,该基于专用硬件的系统执行特定功能或动作。虽然没有明确描述,可以在任何组合或子组合中使用当前实施例。
此外,本领域技术人员应该意识到的是,本原理的各方面可以体现为系统、方法或计算机可读介质。因此,本原理的各方面可以采用以下形式:完全硬件实施例、完全软件实施例(包括固件、驻机软件、微代码等)、或组合了软件和硬件方面(在本文中可全部统称为“电路”、“模块”或“系统”)的实施例。此外,本原理的各方面可以采用计算机可读存储介质的形式。可以利用一个或多个计算机可读存储介质的任何组合。本文中使用的计算机可读存储介质被认为是非暂时存储介质,该非暂时存储介质被给定了在其中存储信息的固有能力以及从其提供对信息的获取的固有能力。
此外,本领域技术人员应该意识到,这里所呈现的框图表示了体现本发明原理的示意性系统组件和/或电路的概念视图。类似地,应该意识到,任何流程图、流程图表、状态转移图、伪代码等表示各种过程,其中可以在计算机可读存储介质中表示这些过程并且由计算机或处理器执行这些过程,不管是否明确示出了这样的计算机或处理器。
所引用的参考文献
[1]T.D.Abhayapala.Generalized framework for spherical microphonearrays:Spatial and frequency decomposition.In Proc.IEEE IntemationalConference on Acoustics,Speech,and Signal Processing(ICASSP),(accepted)Vol.X,pp.,April 2008,Las Vegas,USA.
[2]Johann-Markus Batke,Florian Keiler,and Johannes Boehm.Method anddevice for decoding an audio soundfield representation for audioplayback.International Patent Application WO2011/117399(PD100011).
[3]
Figure BDA0001244681700000211
Daniel,Rozenn Nicol,and Sébastien Moreau.Furtherinvestigations of high order ambisonics and wavefield synthesis forholophonic sound imaging.In AES Convention Paper 5788 Presented at the 114thConvention,March 2003.Paper 4795 presented at the 114th Convention.
[4]
Figure BDA0001244681700000212
Daniel.Représentation de champs acoustiques,application a latransmission et a la reproduction de scenes sonores complexes dans uncontexte multimedia.PhD thesis,Universite Paris 6,2001.
[5]James R.Driscoll and Dennis M.Healy Jr.Computing Fouriertransforms and convolutions on the 2-sphere.Advances in Applied Mathematics,15:202-250,1994.
[6]Jōrg Fliege.Integration nodes for the sphere.
http://www,personal.soton.ac.uk/jf1 w07/nodes/nodes.html,Online,accessed 2012-06-01.
[7]Jōrg Fliege and Ulrike Maier.A two-stage approach for computingcubature formulae for the sphere.Technical Report,Fachbereich Mathematik,
Figure BDA0001244681700000213
Dortmund,1999.
[8]R.H.Hardin and N.J.A.Sloane.Webpage:Spherical designs,spherical t-designs.http://www2.research.att.com/-njas/sphdesigns/.
[9]R.H.Hardin and N.J.A.Sloane.Mclaren′s improved snub cube and othernew spherical designs in three dimensions.Discrete and ComputationalGeometry,15:429-441,1996.
[10]M.A.Poletti.Three-dimensional surround sound systems based onspherical harmonics.J.Audio Eng.Soc.,53(11):1004-1025,November 2005.
[11]Ville Pulkki.Spatia/ Sound Generation and Perception by AmplitudePanning Technk/ues.PhD thesis,Helsinki University of Technology,2001.
[12]Boaz Rafaely.Plane-wave decomposition of the sound field on asphere by spherical convolution.J.Acoust.Soc.Am.,4(116):2149-2157,October2004.
[13]Earl G.Williams.Fourier Acoustics,volume 93 of AppliedMathematica/Sciences.Academic Press,1999.
[14]F.Zotter.H.Pomberger,and M.Noistemig.Energy-preserving ambisonicdecoding.Acta Acustica united with Acustica.98(1):37-47,January/February2012.

Claims (4)

1.一种用于渲染声音或声场的高阶高保真度立体声响复制(HOA)表示的方法,所述方法包括:
接收已平滑解码矩阵
Figure FDA0002195481840000011
所述已平滑解码矩阵
Figure FDA0002195481840000012
是基于通过平滑系数对第一解码矩阵
Figure FDA0002195481840000013
进行平滑和缩放而被确定的,所述平滑系数基于凯撒窗的元素被确定,所述凯撒窗是基于
Figure FDA0002195481840000014
被确定的,其中,len=2N+1,width=2N,其中,
Figure FDA0002195481840000015
是具有基于下式的2N+1个取实数值的元素的矢量:
Figure FDA0002195481840000016
其中,I0()表示第一类的零阶修正贝塞尔函数,并且i=0,...,2N,
其中,所述第一解码矩阵
Figure FDA0002195481840000017
基于矩阵U、V根据
Figure FDA0002195481840000018
被确定,其中,U、V是根据酉矩阵导出的,
其中,基于确定模式矩阵
Figure FDA00021954818400000110
与厄米特转置混合矩阵GH的乘积的紧致奇异值分解矩阵S,
其中,S是具有奇异值元素的对角矩阵,其中,混合矩阵G是基于与HOA阶数N有关的球面建模网格的位置以及L个扬声器被确定的,并且其中,模式矩阵
Figure FDA00021954818400000111
是基于所述球面建模网格和HOA阶数N被确定的;
其中,
Figure FDA00021954818400000112
是矩阵S的截断紧致奇异值分解矩阵,所述截断紧致奇异值分解矩阵是单位矩阵或修正对角矩阵,所述修正对角矩阵是基于具有奇异值元素的对角矩阵通过将大于等于阈值的奇异值元素替换为1并且将小于所述阈值的奇异值元素替换为0而被确定的,并且其中用于每一奇异值元素的阈值的值取决于所述每一奇异值元素的值;以及
基于已平滑解码矩阵
Figure FDA00021954818400000114
将HOA声场表示的系数从频率域渲染到空间域。
2.一种用于渲染声音或声场的高阶高保真度立体声响复制(HOA)表示的设备,所述设备包括:
用于接收已平滑解码矩阵
Figure FDA0002195481840000021
的装置,所述已平滑解码矩阵是基于通过平滑系数对第一解码矩阵
Figure FDA0002195481840000023
进行平滑和缩放而被确定的,所述平滑系数基于凯撒窗的元素被确定,所述凯撒窗是基于
Figure FDA0002195481840000024
被确定的,其中,len=2N+1,width=2N,其中,
Figure FDA0002195481840000025
是具有基于下式的2N+1个取实数值的元素的矢量:
其中,I0()表示第一类的零阶修正贝塞尔函数,并且i=0,...,2N,
其中,所述第一解码矩阵
Figure FDA0002195481840000027
基于矩阵U、V根据
Figure FDA0002195481840000028
被确定,其中,U、V是根据酉矩阵导出的,
-其中,基于
Figure FDA0002195481840000029
确定模式矩阵
Figure FDA00021954818400000210
与厄米特转置混合矩阵GH的乘积的紧致奇异值分解矩阵S,
其中,S是具有奇异值元素的对角矩阵,其中,混合矩阵G是基于与HOA阶数N有关的球面建模网格的位置以及L个扬声器被确定的,并且其中,模式矩阵是基于所述球面建模网格和HOA阶数N被确定的;
其中,
Figure FDA00021954818400000212
是矩阵S的截断紧致奇异值分解矩阵,所述截断紧致奇异值分解矩阵
Figure FDA00021954818400000213
是单位矩阵或修正对角矩阵,所述修正对角矩阵是基于具有奇异值元素的对角矩阵通过将大于等于阈值的奇异值元素替换为1并且将小于所述阈值的奇异值元素替换为0而被确定的,并且其中用于每一奇异值元素的阈值的值取决于所述每一奇异值元素的值;以及
用于基于已平滑解码矩阵将HOA声场表示的系数从频率域渲染到空间域的装置。
3.一种用于渲染声音或声场的高阶高保真度立体声响复制(HOA)表示的装置,所述装置包括:
一个或多个处理器;和
一个或多个存储介质,存储指令,所述指令在由所述一个或多个处理器执行时使得执行根据权利要求1所述的方法。
4.一种计算机可读介质,存储指令,所述指令在由计算机执行时使得执行根据权利要求1所述的方法。
CN201710147809.0A 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备 Active CN106658342B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12305862.0 2012-07-16
EP12305862 2012-07-16
CN201380037816.5A CN104584588B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201380037816.5A Division CN104584588B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备

Publications (2)

Publication Number Publication Date
CN106658342A CN106658342A (zh) 2017-05-10
CN106658342B true CN106658342B (zh) 2020-02-14

Family

ID=48793263

Family Applications (6)

Application Number Title Priority Date Filing Date
CN201380037816.5A Active CN104584588B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备
CN201710149413.XA Active CN106658343B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备
CN201710147809.0A Active CN106658342B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备
CN201710147821.1A Active CN107071687B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备
CN201710147810.3A Active CN107071685B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备
CN201710147812.2A Active CN107071686B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201380037816.5A Active CN104584588B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备
CN201710149413.XA Active CN106658343B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备

Family Applications After (3)

Application Number Title Priority Date Filing Date
CN201710147821.1A Active CN107071687B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备
CN201710147810.3A Active CN107071685B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备
CN201710147812.2A Active CN107071686B (zh) 2012-07-16 2013-07-16 用于渲染音频声场表示以供音频回放的方法和设备

Country Status (9)

Country Link
US (9) US9712938B2 (zh)
EP (4) EP4013072B1 (zh)
JP (7) JP6230602B2 (zh)
KR (6) KR20240108571A (zh)
CN (6) CN104584588B (zh)
AU (5) AU2013292057B2 (zh)
BR (3) BR122020017399B1 (zh)
HK (1) HK1210562A1 (zh)
WO (1) WO2014012945A1 (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US10499176B2 (en) 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
EP2879408A1 (en) * 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
EP2892250A1 (en) * 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
KR102201027B1 (ko) * 2014-03-24 2021-01-11 돌비 인터네셔널 에이비 고차 앰비소닉스 신호에 동적 범위 압축을 적용하는 방법 및 디바이스
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
CA2949108C (en) * 2014-05-30 2019-02-26 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
WO2015184316A1 (en) * 2014-05-30 2015-12-03 Qualcomm Incoprporated Obtaining symmetry information for higher order ambisonic audio renderers
US9922657B2 (en) 2014-06-27 2018-03-20 Dolby Laboratories Licensing Corporation Method for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
CN117636885A (zh) 2014-06-27 2024-03-01 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
US9736606B2 (en) * 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US10516782B2 (en) * 2015-02-03 2019-12-24 Dolby Laboratories Licensing Corporation Conference searching and playback of search results
US10334387B2 (en) 2015-06-25 2019-06-25 Dolby Laboratories Licensing Corporation Audio panning transformation system and method
US12087311B2 (en) 2015-07-30 2024-09-10 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding an HOA representation
EP3329486B1 (en) 2015-07-30 2020-07-29 Dolby International AB Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10070094B2 (en) * 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
FR3052951B1 (fr) * 2016-06-20 2020-02-28 Arkamys Procede et systeme pour l'optimisation du rendu sonore de basses frequences d'un signal audio
US11277705B2 (en) 2017-05-15 2022-03-15 Dolby Laboratories Licensing Corporation Methods, systems and apparatus for conversion of spatial audio format(s) to speaker signals
US10182303B1 (en) * 2017-07-12 2019-01-15 Google Llc Ambisonics sound field navigation using directional decomposition and path distance estimation
US10015618B1 (en) * 2017-08-01 2018-07-03 Google Llc Incoherent idempotent ambisonics rendering
CN107820166B (zh) * 2017-11-01 2020-01-07 江汉大学 一种声音对象的动态渲染方法
US10264386B1 (en) * 2018-02-09 2019-04-16 Google Llc Directional emphasis in ambisonics
US11798569B2 (en) 2018-10-02 2023-10-24 Qualcomm Incorporated Flexible rendering of audio data
WO2021021707A1 (en) * 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Managing playback of multiple streams of audio over multiple speakers
US12120497B2 (en) 2020-06-29 2024-10-15 Qualcomm Incorporated Sound field adjustment
EP4364436A2 (en) * 2021-06-30 2024-05-08 Telefonaktiebolaget LM Ericsson (publ) Adjustment of reverberation level
CN116582803B (zh) * 2023-06-01 2023-10-20 广州市声讯电子科技股份有限公司 扬声器阵列的自适应控制方法、系统、存储介质及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998012896A1 (en) * 1996-09-18 1998-03-26 Bauck Jerald L Transaural stereo device
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
WO2012023864A1 (en) * 2010-08-20 2012-02-23 Industrial Research Limited Surround sound system
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6645261B2 (en) 2000-03-06 2003-11-11 Cargill, Inc. Triacylglycerol-based alternative to paraffin wax
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
EP2094032A1 (en) 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
EP2486561B1 (en) * 2009-10-07 2016-03-30 The University Of Sydney Reconstruction of a recorded sound field
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
WO2011117399A1 (en) 2010-03-26 2011-09-29 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998012896A1 (en) * 1996-09-18 1998-03-26 Bauck Jerald L Transaural stereo device
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
WO2012023864A1 (en) * 2010-08-20 2012-02-23 Industrial Research Limited Surround sound system
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three

Also Published As

Publication number Publication date
US20210258708A1 (en) 2021-08-19
EP3629605B1 (en) 2022-03-02
HK1210562A1 (zh) 2016-04-22
CN107071685A (zh) 2017-08-18
JP7119189B2 (ja) 2022-08-16
BR122020017399B1 (pt) 2022-05-03
US20170289725A1 (en) 2017-10-05
BR112015001128B1 (pt) 2021-09-08
BR112015001128A2 (pt) 2017-06-27
AU2017203820A1 (en) 2017-06-22
KR20230003380A (ko) 2023-01-05
JP2015528248A (ja) 2015-09-24
EP4013072B1 (en) 2023-10-11
US12108236B2 (en) 2024-10-01
US20180206051A1 (en) 2018-07-19
JP6696011B2 (ja) 2020-05-20
JP6230602B2 (ja) 2017-11-15
KR102079680B1 (ko) 2020-02-20
AU2021203484B2 (en) 2023-04-20
CN107071687B (zh) 2020-02-14
JP2019092181A (ja) 2019-06-13
AU2023203838A1 (en) 2023-07-13
CN107071685B (zh) 2020-02-14
JP7368563B2 (ja) 2023-10-24
KR102681514B1 (ko) 2024-07-05
US20200252737A1 (en) 2020-08-06
AU2017203820B2 (en) 2018-12-20
BR122020017389B1 (pt) 2022-05-03
EP4284026A3 (en) 2024-02-21
KR102479737B1 (ko) 2022-12-21
AU2021203484A1 (en) 2021-06-24
EP4013072A1 (en) 2022-06-15
US20180367934A1 (en) 2018-12-20
CN107071687A (zh) 2017-08-18
CN106658342A (zh) 2017-05-10
JP2021185704A (ja) 2021-12-09
US10075799B2 (en) 2018-09-11
JP6472499B2 (ja) 2019-02-20
US20150163615A1 (en) 2015-06-11
BR112015001128A8 (pt) 2017-12-05
US11451920B2 (en) 2022-09-20
JP6934979B2 (ja) 2021-09-15
KR20150036056A (ko) 2015-04-07
US20240040327A1 (en) 2024-02-01
JP2020129811A (ja) 2020-08-27
US10595145B2 (en) 2020-03-17
WO2014012945A1 (en) 2014-01-23
EP4284026A2 (en) 2023-11-29
JP2018038055A (ja) 2018-03-08
US9712938B2 (en) 2017-07-18
JP2024009944A (ja) 2024-01-23
EP3629605A1 (en) 2020-04-01
KR20210005321A (ko) 2021-01-13
KR20200019778A (ko) 2020-02-24
KR20240108571A (ko) 2024-07-09
AU2013292057A1 (en) 2015-03-05
AU2019201900B2 (en) 2021-03-04
CN107071686A (zh) 2017-08-18
CN106658343B (zh) 2018-10-19
AU2013292057B2 (en) 2017-04-13
US20190349700A1 (en) 2019-11-14
KR102201034B1 (ko) 2021-01-11
EP2873253A1 (en) 2015-05-20
CN107071686B (zh) 2020-02-14
AU2019201900A1 (en) 2019-04-11
US10306393B2 (en) 2019-05-28
US11743669B2 (en) 2023-08-29
CN106658343A (zh) 2017-05-10
EP2873253B1 (en) 2019-11-13
KR20230154111A (ko) 2023-11-07
JP2022153613A (ja) 2022-10-12
US10939220B2 (en) 2021-03-02
US20230080860A1 (en) 2023-03-16
US9961470B2 (en) 2018-05-01
CN104584588B (zh) 2017-03-29
CN104584588A (zh) 2015-04-29
KR102597573B1 (ko) 2023-11-02

Similar Documents

Publication Publication Date Title
CN106658342B (zh) 用于渲染音频声场表示以供音频回放的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1234571

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant