CN108174341B - 测量高阶高保真度立体声响复制响度级的方法及设备 - Google Patents

测量高阶高保真度立体声响复制响度级的方法及设备 Download PDF

Info

Publication number
CN108174341B
CN108174341B CN201810250413.3A CN201810250413A CN108174341B CN 108174341 B CN108174341 B CN 108174341B CN 201810250413 A CN201810250413 A CN 201810250413A CN 108174341 B CN108174341 B CN 108174341B
Authority
CN
China
Prior art keywords
hoa
loudness
matrix
rendering
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810250413.3A
Other languages
English (en)
Other versions
CN108174341A (zh
Inventor
J.贝姆
F.凯勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN108174341A publication Critical patent/CN108174341A/zh
Application granted granted Critical
Publication of CN108174341B publication Critical patent/CN108174341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

公开了测量高阶高保真度立体声响复制响度级的方法及设备。本发明涉及高阶高保真度立体声响复制(Higher‑Order Ambisonics,HOA)内容响度级调整。一种用于在发送侧调整HOA音频信号的响度级的方法包括步骤:仅测量HOA音频信号的W声道的响度,并根据所测量的W声道的响度对HOA信号的所有声道的HOA主增益进行级别调整。

Description

测量高阶高保真度立体声响复制响度级的方法及设备
本申请是申请号为201480005125.1,申请日为2014年1月9日,题为“测量高阶高保真度立体声响复制响度级的方法及设备”的中国发明专利申请的分案申请。
技术领域
本发明涉及高阶高保真度立体声响复制(Higher-Order Ambisonics,HOA)的内容的响度级调整。具体地,涉及一种用于测量HOA响度级的方法及一种用于测量HOA响度级的设备。
背景技术
本节旨在向读者介绍本领域的各个方面,其可能与下面描述和/或要求保护的本发明的各个方面有关。相信该讨论有助于为读者提供背景信息以促进对本发明的各个方面的更好理解。因此,应当理解,这些陈述将从这个角度来阅读,而不是作为对现有技术的承认。
诸如例如高保真度立体声响复制的声场信号携带声场的表示。高保真度立体声响复制格式基于声场的球谐函数分解。虽然基本的高保真度立体声响复制格式或B格式使用零阶或一阶的球谐函数,而所谓的高阶高保真度立体声响复制(HOA)还进一步使用至少第二阶的球谐函数。也就是说,HOA信号包含不同N阶的不同部分信号,诸如零阶(W声道,N=0)信号、一个或多个一阶(N=1)信号、一个或多个二阶(N=2)信号等。需要解码过程以获得单个扬声器信号。为了合成音频场景,需要涉及空间扬声器布置的调节函数(panningfunction)以用于获得给定声源的空间定位。
在解码器侧将要被执行的一个任务是设置回放级别。正如现有技术[1]中所描述的以及图1中所示出的,设定每个扬声器馈送的放大器增益Gl,以使得具有-18dBFSrms的数字全频段粉红噪声输入导致78+/-5dBA的声压级(Sound Pressure Level,SPL)。在图1中,单独地对于每个扬声器,粉红噪声测试信号被用于通过调整放大器12中的扬声器增益Gl来对每个扬声器13的声压级进行级别调整(level adjust)。数字粉红噪声测试信号在D/A转换器11中被转换成模拟信号。混音和展示场所中的SPL级别调整以及混音室中内容的响度级调整使得能够在节目或项目之间切换时实现恒定的感知响度。
内容响度级调节
如果混音设备和呈现场所的回放级别以这种方式来设置,则应该可以在不进行进一步级别调整的情况下在项目或节目之间切换。对于基于声道的内容,如果该内容在混音地点被调谐到舒适的响度级,则这是容易实现的。对舒适听音级别的参考可以是整个项目自身的响度或者是锚信号。
如果内容被存储为文件,则使用整个项目自身作为参考对“短形式内容”是有用的。除了通过听音来调整,根据EBU R128[2]的响度单位满量程(Loudness Units FullScale,LUFS)中的响度测量也可以用于内容的响度调整。根据ITU-R BS.1770[3],LUFS的可替换的名称是“相对于满量程的响度、K加权(loudness,K-weighted,relative to FullScale)”(1UFS=1LKFS)。不幸地,[2]中的解决方案仅支持最多5声道环绕的设置的内容。虽然22声道文件的响度测量可与感知的响度相关,其中所有22声道被一个的相等声道权重分解成因子,但不存在彻底列举测试的证据或证明。当使用诸如会话的锚信号作为参考时,相对该信号选择级别。这对诸如电影声音、现场录音和广播的“长形式内容”是有用的。在此,扩展舒适的听音级别的附加要求是说出的词语(spoken word)的可理解性。
而且,除了通过听音进行调整,内容可相对响度测量来归一化,诸如在ATSC A/85[4]中定义的。首先,内容的一部分被识别为锚部分。然后,计算如[3]中定义的测量,或者确定这些信号以及为达到目标响度的增益因子。增益因子用于缩放完整的项目。不幸地,所支持的声道最大数再次被限制为5。
来自ITU-R BS.1770[3]的图2示出了如在EBU R128[2]和ATSC A/85[4]中使用的响度测量。[2]提出将所测量的整个内容项目的响度增益调整为-23dBLKFS。在[4]中,只有锚信号响度被测量而且内容被增益调整,锚部分才能达到目标响度-24dBLKFS。各种输入信号L、R、C、Ls、Rs在K滤波器21中被滤波,各个声道的功率在功率平均器22中被平均,各个声道被加权23,而且加权的信号被加起来24以获得测量的响度值25。
出于艺术上的考虑,内容必须在混音室中调整。这个通过单独听音来完成。自动的响度测量可以当作一种支持,并用于显示不超过指定的响度。
对于必须被重新混合成不同数量或不同位置的扬声器的基于HOA和音频对象(Audio Object,AO)的内容以及基于声道的内容,必须考虑到呈现。呈现器必须满足特殊的特性,而且这样的呈现器必须在混音室以及在消费者的展示场所使用。
发明内容
鉴于上述,一个将要被解决的问题是解码的音频数据的回放应当以相等的响度被感知,特别是在不同音频项目之间切换时或者在向不同的扬声器设置呈现时。本发明至少解决该问题。
原理上,本发明包括仅测量音频信号的W声道(即,声场信号的第0阶的部分信号)的响度,并根据所测量的W声道的响度对信号的所有声道的主增益进行级别调整(即,调整其级别)。
根据本发明的一个实施例,一种用于调整HOA音频信号的响度级的方法包括以下步骤:测量HOA音频信号的W声道的响度,并根据所测量的W声道的响度对HOA信号的所有系数声道的HOA主增益进行级别调整,以获得想要的响度级。
另外,在本发明的一个实施例中,一种用于HOA响度级调整的设备包括:HOA响度测量单元,用于测量HOA信号的W声道的响度;以及HOA主增益单元,用于根据从HOA响度测量单元接收的所测量的W声道的响度对HOA信号的所有系数声道的增益进行调节。
有利地,测量W声道的响度以及级别调整HOA主增益可以在发送侧执行,即在发送或存储HOA格式化的音频信号之前。本发明的其它有利实施例在从属权利要求、以下说明以及附图中公开。
附图说明
本发明的示例性实施例参考附图描述,这些附图中:
图1示出了已知的解决方案,其使用粉红噪声测试信号来级别调整每个扬声器的声压级;
图2示出了在已知系统中使用的ITU-R BS.1770响度测量;
图3示出了根据本发明的一个实施例的用于向特殊给定的扬声器设置进行内容呈现的结构;
图4示出了用于能量保存呈现矩阵的现实示例的空间设置和能量分布;
图5示出了对于呈现阶N=1-6的向22.0声道设置呈现的3个测试项目的双声道响度值;
图6示出了采用根据本发明的呈现向5个不同扬声器设置呈现的测试项目的双声道响度值;
图7示出了与呈现之后的平均响度相比较的HOAW声道信号的响度值;
图8示出了根据本发明的例如可用于HOA现场直播的系统;以及
图9示出了用于基于声道的发送系统的系统。
具体实施方式
图3示出了音频回放设备或其一部分,其中向任意特定的扬声器设置呈现内容。内容格式可以是高阶高保真度立体声响复制(HOA)、音频对象(AO)或基于声道的(然后,向不同设置呈现它)。扬声器馈送w的回放应当以相等的响度被感知,特别是在项目之间切换时或者在向不同扬声器设置呈现时。输入向量b描述在呈现单一时间样本之前的一组信号的单一时间样本。矢量w描述在呈现器31中呈现单一时间样本之后的一组扬声器馈送的单一时间样本。呈现器31的特性在生产侧和消费者侧必须是相同的,或者至少在生产侧必须是已知的。在呈现之后,扬声器馈送w在D/A转换器32中从数字转换为模拟,在放大器33中被放大,然后被馈送到扬声器34。
下面,导出期望的呈现特性,以全部3种内容格式(HOA、AO、基于声道的)开始,然后对HOA详细说明。应当注意到,HOA信号包括不同阶N的不同部分信号,诸如零阶信号(W声道,N=0)、一个或多个一阶信号(N=1)、一个或多个二阶信号(N=2)等。
信号能量和感知响度
为了简化理论分析,我们将集中在τ时间样本块的信号w(图3)的能量上,其定义如下(详细见下面):
Figure BDA0001607644020000051
在此,W是L个扬声器声道和τ个样本的矩阵,Wl,i是矩阵元素,l表示扬声器索引,i表示样本索引。能量Ew给出频率超过200Hz这样的锚信号的感知响度的公平估计,正如从[5]中已知的。因为K滤波器抑制低于200Hz的频率[2],所以Ew近似与响度测量成比例。下面在表1中提供了响度测量和能量测量的直接比较。正如变得清楚的,HOA W声道(列“HOA(W)”)的响度级和信号能量与呈现信号(列“呈现的”)及双声道信号(列“双声道的”)的响度级和信号能量非常接近,基本上相等。这些值示例性地涉及22.0设置(NHK),即采用22个扬声器和4阶HOA信号(L=22,N=4)。
Figure BDA0001607644020000052
表1 HOA以及呈现的HOA响度级
对呈现器的要求
使用以下简化:不失一般性地(即,它不是先决条件),假设无DC测试信号x(t)。假设A是该信号的RMS值,而且EA=A2是它的能量。测试信号是来自Ω=(θ,φ)T方向的单一源信号,其中θ是仰角,φ是方位角。在最佳听音区,所谓的悦耳区应用能量考虑。
测试信号可以表示为基于声道的信号、音频对象(AO)或HOA信号。下表提供了这些表示,其中b是抽象输入矢量,呈现之后基于声道的表示用矢量w表示,呈现之后的能量是EW,而且呈现之后能量(响度)相等的条件是EA=EW。假设D是广义呈现矩阵:
w=Db (2)
在表2中,对定向测试信号(directive test signal)导出能量保存要求EA=EW,该定向测试信号被编码为音频对象(顶行)、HOA信号(中行)或基于声道的表示(底行)。矢量b是呈现之前的编码输入。矢量w是呈现之后的信号(在D/A之前的扬声器信号)。EW是呈现之后的能量。EA=A2是测试信号x(t)的能量,而且ti是时间样本索引。下面进一步地,对HOA情形示例性地导出EW
Figure BDA0001607644020000061
表2能量保存要求
关于音频对象(AO)呈现,对音频对象的考虑导致众所周知的要求,即呈现权重cw的平方的总和等于1:
Figure BDA0001607644020000071
该要求还适用于叠加独立的AO,但对于相关的AO则适用基于声道的考虑。
对呈现基于声道的内容的要求由下式给出:
i=cb TDTDcb (4)其中,矢量cb包含在内容创建内使用的调节权重,而且矩阵D是广义呈现矩阵(也称为解码矩阵)。
两种类型的内容被示例性地考虑:
1.原始内容已经使用调节独立的AO而被混合,而且调节权重的平方的和等于1。然后,呈现要求变成DTD=I(大小为Lb×Lb的单位矩阵)。得到的对呈现矩阵的要求在下面讨论,而且根据本发明的解决方案可以用于这种类型的内容。
2.对于麦克风录音和混合的内容,调节权重的性质还未知,通常当向不同的扬声器设置混合时,无法对所呈现信号的能量做出预测。因此,一般在向下混合(down-mixing)或重新呈现之后预测响度是不可能的,本发明不适用。在此,只有不同的方法似乎是适用的:分离有方向性和无方向性的部分以移除声道之间的任何相关性,并且对有方向性的内容使用与对象有关的呈现方法。然后,以保存有方向性与无方向性的原始的能量比率的方式来添加环境混合(ambient mix)。传统方法已用于创建在混音室里生成新的艺术混合。
对于能量保存HOA呈现器,HOA呈现要求是:
1=yTDTDy (5)在基于HOA的内容内,任意信号被表示为平面波的叠加。平面波信号通过b=yx(ti)被编码为HOA,其中y是包括方向Ω的球谐函数(Spherical Harmonics,SH)的编码矢量。矢量b和y包括(N+1)2个元素,其中N表示HOA阶。由于SH的正交性质,矢量产生yTy=(N+1)2(N3D归一化的SH)。
要求DTD=I在[5]中讨论,其中I是(N+1)2×(N+1)2的单位矩阵。构建这样的“能量保存”解码矩阵的过程是基于奇异值分解(Singular Value Decomposition,SVD)。在[5]中,能量保存由
Figure BDA0001607644020000081
定义。
导出满足能量保存的要求的呈现矩阵Dn的步骤如下:
1.导出能量保存呈现矩阵De。这对于许多扬声器位置都是可能的,只要扬声器的数量L大于或至少等于HOA系数(N+1)2的数量。
2.使能量保存呈现矩阵不依赖于HOA阶。由于De被构建以使得
Figure BDA0001607644020000082
因此要求
Figure BDA0001607644020000083
导致通过以下因子缩放:
Figure BDA0001607644020000084
对于实际的HOA呈现器的构建,以下内容适用。实际中,扬声器的位置通常不是最优的,而且L<(N+1)2。因此,呈现矩阵设计仅能够接近于理论。通常在扬声器密度低的区域中偏差最大,而且如果增加HOA阶,则偏差更大。示例在图4中示出。一个好的呈现矩阵设计的特征在于来自低扬声器密度区域的能量的衰减,即,从这些方向入射的声音应当被感知为不太大声。
图4示出了能量保存呈现矩阵DHOA的现实世界示例。在第一行中,存在对于不同HOA阶的各种扬声器设置,在最后一行中,存在各个方向的能量保存特征。使用等距方向采样球体的6724平面波被编码为HOA,并向22或12声道设置呈现。有方向性的能量保存以灰度示出,并且不同设置以及它们的最小值和最大值如下:
图4a)示出具有HOA阶N=4的22_NHK_45设置:[-0.2dB;0.0dB]
图4b)示出具有HOA阶N=6的22_NHK_45设置:[-1.2dB;0.1dB]
图4c)示出具有HOA阶N=3的12_SwissAudec_110设置:[-1.1dB;0.2dB]
正如可以看到的,对于具有N=4的22声道设置,信号能量被相当平均地分配,使得仅0.2dB的偏差出现。对于具有N=6的22声道设置和具有N=3的12声道设置,信号能量仍然被相当平均地分配,但已经具有1.3dB的偏差(甚至对于没有扬声器可用的方向)。信号能量的平均分配是能量保存呈现的优点。
因为能量保存仅仅在扬声器跨越围绕听音位置的完整凸面外壳时才是可能的,所以呈现构建的步骤变成:
1.构建近似能量保存呈现矩阵D。两种适当的方法在[5]、[6]中描述。能量保存在正面区域中应当是精确的,并且在背面底部或侧面区域中可以是不太精确的。
2.由于Cauchy-Schwarz不等式(见下面),呈现矩阵可以通过下式被归一化:
Figure BDA0001607644020000091
该式代替式(6)以用于近似能量保存矩阵,而且式(6)可以看作是式(7)的特殊情形。另一种选择是使用从中心(Ωc=(0,0)T)入射的单位能量的测试信号来归一化呈现矩阵:
Figure BDA0001607644020000092
其中模式矢量y=(Y0 0c),Y-1 1c),..,Yn mc),..,YN Nc))T,以及方向Ωc的球谐函数Yn mc)。模式矢量y可以是包括方向Ωc的球谐函数的HOA测试信号。
参考HOA内容已在实际研究中被用于使用能量和响度测量来评价上述考虑。通过使用Technicolor的听音室的双声道室脉冲响应(Binaural Room Impulse Responses,BRIRs)以及来自中心扬声器声道的-23LKFS测试信号的校准,对以下进行响度测量:HOA零阶系数声道(W声道)、呈现之后的多声道信号(对于多于5个声道的设置,其具有声道权重1)以及多声道信号的双声道向下混合。并行地,进行能量测量。除了具有寂静片段的项目,能量测量(完整的文件)非常接近地与响度测量相匹配。对于LKFS测量,这些片段被忽略,所以此处值更高。这证明了能量测量可以估计感知响度的假设。下面提供测量数据。数据的某些评价在下面给出。它们通过非正式的听音测试被证实。LKFS测量精度是+/-2dB。
下面涉及在对不同的HOA阶进行呈现时的响度保存。图5示出了在对22.0扬声器声道设置的不同的HOA阶进行呈现时的响度保存。三个测试项目T1、T2、T3的双声道响度测量以根据本发明的方式被呈现给呈现阶N=1..6的22.0声道设置。测试项目阶是N=6,呈现器在为较低阶呈现时忽略较高阶成分。对于第一测试项目T1的测试是N=1阶的t11、N=2阶的t12等,并且相应地对于第二和第三测试项目T2和T3。正如可以看到的,具有不同呈现阶的部分信号(即,各个测试项目的成分)以基本上相同的响度被呈现,不依赖于它们的呈现阶。
下面涉及在对不同扬声器设置进行呈现时的响度保存。图6示出了在将具有N=4(即,第四阶)的14个HOA测试项目LT1,…,LT14呈现给5个不同的扬声器设置时的响度保存。在每一组的5列中,即,每个测试项目,列(从左到右)与所选择的扬声器设置22.0(CfP)、12.0(Auro3D)、9.0(Auro3D)、5.0(ITU)、2.0(+/-30°)相对应。正如可以看到的,每一组5列中的差异非常小。换言之,指定的信号以基本上相同的响度被呈现,不依赖于扬声器设置和扬声器数量。因为理论上能量保存随着扬声器的减少(特别是2D设置)而恶化,所以根据式(7)的呈现矩阵的归一化导致实际可用改善的呈现器。
下面涉及在呈现之后的第1阶HOA W声道和项目响度。使用N3D归一化,第0阶系数声道包含近似相等能量和响度的所呈现输出的非缩放单声道版本。图7示出了来自Technicolor(即与呈现之后的平均响度相比较的HOA W声道信号的响度测量)的、13个N=4测试项目LM1,…,LM13(即,测试信号)的这种相关。单声道LKFS测量(每个测试项目的左侧列)与图6的5个不同扬声器设置的双声道LKFS测量的平均值(每个测试项目的右侧列)进行比较。令人惊奇的观测结果是两者基本上相等。因此,HOAW声道可以被用作呈现之后的整体响度的估计。在使用麦克风阵列或者在内容产物内监控响度时,这个特征可以用于设置现场HOA直播录制的响度级。
根据本发明,如果生产场所的混音设备和消费者场所的展示场所使用相同的扬声器级别校准以及具有特殊能量保存特性的呈现器,则感知的响度可以被归一化。能量保存描述保存来自任意方向的定向源信号的能量的呈现器的特性。这个适用于所有3D音频输出格式,其中至少有音频对象、基于声道的以及HOA。
HOA内容是在混音设备处例如通过听音来进行响度级校准,其中能量保存呈现用于监控。足够的主增益应用于HOA内容上(所有系数声道),其接着被存储以用于分配。另外,能量保存呈现还在展示场所使用。
实际中,HOA呈现器可以被构建以使得能量保存至少在扬声器之间的区域(即,在扬声器位置之间的地点)。导致好的响度保存结果的呈现矩阵的归一化是通过
Figure BDA0001607644020000101
的归一化。
然后,HOA零阶系数声道(W声道)的LKFS响度测量大致与有关的声道表示或他们有关的双声道向下混合的响度测量相匹配。因此,它可用于在内容产物内监控响度,尤其是在广播(具体地,直播)内。不过,它还可以有利于监控录制的内容。
本发明在一个实施例中提供一种用于调整高阶高保真度立体声响复制(HOA)内容的响度级的方法,使得当在不同场所听音和/或采用不同扬声器设置听音时,在声压级校准的3D音频系统上的呈现和回放能够以相等响度被感知。内容的HOA编码需要被指定,而且呈现器需要共享能量保存的共同性质。
在一个实施例中,本发明涉及一种用于监控HOA内容响度的工具,该工具可例如用于直播采用HOA麦克风录制而创建的HOA信号、AO信号或基于声道的信号。
下面描述了一种用于直播的HOA系统。HOA麦克风阵列允许实时地捕获3D音频,不需要工作室中的后期处理。因此,这样的内容捕获系统非常适合于直播事件,例如体育和/或音乐会事件。下面描述设置和监控3D内容的响度的系统。
图8示出了HOA系统80的一个实施例。首先,麦克风(或麦克风阵列)81被放置在距事件的临界距离之内以录制,使得维持模拟设置(例如,适当的前置放大)。麦克风81将它的输出提供给实时的HOA编码器82,该HOA编码器生成编码后的HOA格式化的信号。HOA格式化的信号被提供给HOA响度测量仪83,即,评估HOA零阶声道(HOA W声道)并计算LKFS(LUFS)响度测量的单元。W声道可以在HOA编码器82、HOA响度测量仪83或W声道提取单元(未示出)之内从HOA信号中提取出来。HOA响度测量仪83向HOA主增益单元84提供瞬间、短期和整合的响度测量q83[1]、[2]。在一个实施例中,在被提供给HOA主增益单元84之前,响度测量还可以是在可选的适应/选择单元83x中手动或自动地适应和/或选择。在一个实施例中,HOA响度测量仪83执行有关的能量测量,其用于在HOA主增益单元84中设定增益以及用于调整响度。
可选的第二HOA响度测量单元83m可附接到HOA主增益单元84之后,以用于监控原因,和/或——特别是对于更加复杂的系统——可选的第一HOA响度保存呈现器85可以用于监控。一个好的实际解决方案是使用语音锚测试录音来设置初始主增益。
在发送器发送86(或者在存储单元分别存储之后)以及消费者设备中的接收器接收(或者获取单元分别获取所存储的内容)之后,第二HOA响度保存呈现器87被用于将音频内容呈现给期望的扬声器设置88。可以使用不同的扬声器设置88,诸如例如立体声st、5.1环绕声5.1sur、其它3D声场sf或耳机hp。HOA格式的一个优势是对任何特定的扬声器设置以高质量优化它的呈现是相对简单的。
在原理上说,HOA系统80可以理解为包含至少两个部分:编码部分和解码部分。编码部分包含编码器单元82、响度测量仪83、主增益单元84以及可选的适应/选择单元83x、响度测量单元83m和第一响度保存呈现器85中的一个或多个。接收器中的解码部分至少包含响度保存呈现单元87。如果编码部分和解码部分通过存储设备相连接,则存储设备可以是它们中任一个的一部分,或者也可以是分离的。
图9示出了在一个实施例中用于基于声道的发送或回放的系统90。使用麦克风/麦克风阵列91、HOA编码器92、HOA主增益单元94、HOA响度测量仪93和HOA响度保存呈现器95来捕获HOA信号并如上所述地调整响度。出于监控原因,可选的第二HOA响度测量单元93m可附接到HOA主增益单元94之后。HOA响度保存呈现器95在这个实施例中不再是可选的。在一个实施例中,在被提供给HOA主增益单元94之前,响度测量还可以在可选的适应/选择单元93x中手动或自动地适应和/或选择。
然后,由HOA响度保存呈现器95提供的基于声道的音频在发送单元或存储单元96中被发送或存储。发送设置的扬声器位置和/或指示原始内容格式的标志作为元数据被添加到信号上。因此,发送设置的扬声器位置和/或指示原始内容是HOA的标志作为元数据被包含在发送或存储的信号中。在一个实施例中,在发送/存储以及在消费者侧接收内容之后,能量保存基于声道的呈现器99被用于将数据呈现给消费者的扬声器设置98。在另一个实施例中(未示出),在发送或存储之前,能量保存基于声道的呈现器99被用于将数据呈现给预定义或单独的扬声器设置98。在任一情况下,基于声道的呈现器99根据式(4)而工作。如上所述,不同的扬声器设置是可能的。
可替换地,基于声道的内容可以在第二HOA编码单元(未示出,例如代替基于声道的呈现器99)中使用发送的元数据来重新编码成HOA,其中第二HOA编码单元优选是响度保存HOA呈现器。
现在将说明HOA响度测量仪83、93。作为输入信号,N3D归一化的零阶HOA系数声道被使用。处理类似于[1]、[2],其中处理仅对于单声道来说明。在各种不同实施例中,HOA响度测量仪83、93可以显示瞬间、短期和整合的响度测量中的一个或多个。这些主要随用于响度测量的时间帧而不同。
在使用响度保存呈现器的情况下,这些测量能够作出关于将在消费者的扬声器设置处呈现之后获得的(目标)响度的推论。例如,测量可以用于在不同内容或不同节目之间切换时保持得体的听音级别而没有响度跳跃。采用声压级(SPL)校准的系统,可以实现相等响度。
响度保存呈现器需要(至少近似地)满足以下要求:
-对于基于AO的内容:式(3);
-对于基于声道的内容:式(4);以及
-对于基于HOA的内容:式(5)。
在一个实施例中,HOA呈现器根据式(6)、(7)、(8)使用呈现矩阵归一化。
下面的能量计算导出HOA呈现之后的信号能量EW。测试信号是无DC时间信号x(t),其具有RMS值A,以及从Ω=(θ,φ)T方向入射的能量EA=A2,其中θ是仰角,φ是方位角。
假设x表示τ个样本的矢量,x=(x(t1),..x(ti),..,x(tτ))T
EA=xTx=A2。 (9)
HOA编码由下式指定:
B=yxT, (10)其具有从方向Ω的实值球谐函数组合成的矢量
Figure BDA0001607644020000131
Figure BDA0001607644020000132
具有矩阵元素Bo,i,其中o是阶索引,i是时间样本索引。
HOA域中的能量由矩阵B的Frobenius范数的平方来给出:
Figure BDA0001607644020000133
并且使用上述编码等式后变成:
Figure BDA0001607644020000134
在使用矩阵
Figure BDA0001607644020000141
进行呈现之后,扬声器信号W由下式给出:
W=D B, (13)
其中
Figure BDA0001607644020000142
W根据B的列矢量bi来计算:
W=(Db1,…Dbi,…Dbτ)。 (14)
扬声器信号的能量由矩阵W的Frobenius范数的平方来给出:
Figure BDA0001607644020000143
这个可以使用列的总和以及列bi的Euclidian矢量范数来重写:
Figure BDA0001607644020000144
并且代入||Dy||2=(Dy)TDy:
Figure BDA0001607644020000145
下面说明解码矩阵归一化,即,式(7)和式(6)如何被导出,其中式(6)作为式(7)的特殊情形。对于使用Frobenius范数的任意矩阵,可定义Cauchy-Schwarz不等式:
Figure BDA0001607644020000146
根据这个,对呈现矩阵D的简单归一化遵循:
Figure BDA0001607644020000147
完美的能量保存仅能够在扬声器数量大于或等于HOA系数(L≤(N+1)2)的数量时发生。如果呈现矩阵D被完美地能量保存,则它的奇异值分解变成D=UIV,其中U,V是酉矩阵,I是大小为(N+1)2×(N+1)2的单位矩阵。在这种情况下,Frobenius范数在酉变换和
Figure BDA0001607644020000148
中是不变的。这直接导致了式(6)。
尽管已经示出、描述和指出了正如被施加到本发明的优选实施例上的本发明的基本新颖特征,但将理解的是,本领域技术人员可以在不脱离本发明的精神的情况下,在所描述的装置和方法中、所公开的设备的形式和细节中,以及它们的操作中做出各种省略、替换和变化。应该明确表明的是,那些以基本相同的方式执行基本相同的功能以取得相同结果的元件的所有组合被包含在本发明的范围内。另外,完全意图并考虑将元件从一个所述实施例替换到另一个所述实施例。将理解的是,本发明只不过示例性地描述,可以在不脱离本发明的范围的情况下做出细节的修改。说明书、权利要求书(在适当情况下)和附图中公开的每个特征可独立地提供,或者以任何适当的结合来提供。在适当情况下,特征可以在硬件、软件或两者的结合中实施。在适当情况下,连接可被实施为无线连接或有线(不一定是直接的或专用的)连接。
引用参考文献
[1]ISO/IEC JTC1/SC29/WG11/N13196,“Calibration of 22.2 multichannelsound reproduction”,Audio Subgroup,October 2012,Shanghai,China
[2]EBU Technical Recommendation R128,“Loudness Normalization andPermitted Maximum Level of Audio Signals”,Geneva,2010.
[http://tech.ebu.ch/docs/r/r128.pdf]
[3]ITU-R Recommendation BS.1770-2,“Algorithms to measure audioprogramme loudness and true-peak audio level”,Geneva,2011
[4]ATSC A/85,“Techniques for Establishing and Maintaining AudioLoudness for Digital Television”,Advanced Television Systems Committee,Washington,D.C.,July 25,2011.
[5]F.Zotter,H.Pomberger,M.Noisternig,“Energy-Preserving AmbisonicDecoding”,ACTA ACUSTICA UNITED with ACUSTICA,Vol.98(2012),pages 37-47
[6]F.Zotter,M.Frank,“All-Round Ambisonic Panning and Decoding”,J.Audio End.Soc.,Vol.60,No.1 0,2012 October

Claims (2)

1.一种用于音频再现的设备,包括通过使用呈现矩阵来操作的响度保存高阶高保真度立体声响复制HOA呈现器(87),其特征在于,所述呈现矩阵被归一化,其中,所述呈现矩阵保存了能量,并且其中所述呈现矩阵在归一化单元中根据
Figure FDA0002668583350000011
Figure FDA0002668583350000012
而被归一化,其中D是用于呈现器的解码矩阵,y是包括Ωc方向的球谐函数的HOA测试信号,||D||fro表示矩阵D的Frobenius范数,并且
Figure FDA0002668583350000013
表示矩阵D与信号y的乘积的2范数的平方,或者所述呈现矩阵在归一化单元中根据
Figure FDA0002668583350000014
而被归一化,其中De是能量保存呈现矩阵并且N表示HOA阶。
2.一种用于音频再现的方法,包括通过使用呈现矩阵来呈现高阶高保真度立体声响复制HOA信号,其特征在于,所述呈现矩阵被归一化,其中,所述呈现矩阵保存了能量,并且其中所述呈现矩阵根据
Figure FDA0002668583350000015
Figure FDA0002668583350000016
而被归一化,其中D是用于所述呈现的解码矩阵,y是包括Ωc方向的球谐函数的HOA测试信号,||D||fro表示矩阵D的Frobenius范数,并且
Figure FDA0002668583350000017
表示矩阵D与信号y的乘积的2范数的平方,或者所述呈现矩阵根据
Figure FDA0002668583350000018
而被归一化,其中De是能量保存呈现矩阵并且N表示HOA阶。
CN201810250413.3A 2013-01-16 2014-01-09 测量高阶高保真度立体声响复制响度级的方法及设备 Active CN108174341B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13305047.6 2013-01-16
EP13305047 2013-01-16
CN201480005125.1A CN104937843B (zh) 2013-01-16 2014-01-09 测量高阶高保真度立体声响复制响度级的方法及设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480005125.1A Division CN104937843B (zh) 2013-01-16 2014-01-09 测量高阶高保真度立体声响复制响度级的方法及设备

Publications (2)

Publication Number Publication Date
CN108174341A CN108174341A (zh) 2018-06-15
CN108174341B true CN108174341B (zh) 2021-01-08

Family

ID=47739173

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810250413.3A Active CN108174341B (zh) 2013-01-16 2014-01-09 测量高阶高保真度立体声响复制响度级的方法及设备
CN201480005125.1A Active CN104937843B (zh) 2013-01-16 2014-01-09 测量高阶高保真度立体声响复制响度级的方法及设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201480005125.1A Active CN104937843B (zh) 2013-01-16 2014-01-09 测量高阶高保真度立体声响复制响度级的方法及设备

Country Status (8)

Country Link
US (1) US9832584B2 (zh)
EP (1) EP2946468B1 (zh)
JP (1) JP6271586B2 (zh)
KR (3) KR102143545B1 (zh)
CN (2) CN108174341B (zh)
HK (1) HK1256573A1 (zh)
TW (2) TWI630829B (zh)
WO (1) WO2014111308A2 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US10063207B2 (en) 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US9847088B2 (en) 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
US9875745B2 (en) * 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
US9940937B2 (en) * 2014-10-10 2018-04-10 Qualcomm Incorporated Screen related adaptation of HOA content
WO2016057530A1 (en) 2014-10-10 2016-04-14 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
US10070094B2 (en) * 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
US10182303B1 (en) * 2017-07-12 2019-01-15 Google Llc Ambisonics sound field navigation using directional decomposition and path distance estimation
EP3753105B1 (en) 2018-02-15 2023-01-11 Dolby Laboratories Licensing Corporation Loudness control methods and devices
US10904687B1 (en) 2020-03-27 2021-01-26 Spatialx Inc. Audio effectiveness heatmap

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置
CN102823277A (zh) * 2010-03-26 2012-12-12 汤姆森特许公司 解码用于音频回放的音频声场表示的方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1241135C (zh) * 1999-10-21 2006-02-08 国际商业机器公司 用于排序分类属性以更好地可视化多维数据的系统和方法
FI118247B (fi) * 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
ATE372617T1 (de) * 2003-11-17 2007-09-15 Alcatel Lucent Verfahren und vorrichtung zur durchführung der verbindung und der zugehörigen eingabe- /ausgabeverarbeitungsfunktionen in synchronen, digitalen, hierarchischen transportnoten
JP5018339B2 (ja) 2007-08-23 2012-09-05 ソニー株式会社 信号処理装置、信号処理方法、プログラム
US8238563B2 (en) 2008-03-20 2012-08-07 University of Surrey-H4 System, devices and methods for predicting the perceived spatial quality of sound processing and reproducing equipment
WO2009129008A1 (en) * 2008-04-17 2009-10-22 University Of Utah Research Foundation Multi-channel acoustic echo cancellation system and method
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
PL2285139T3 (pl) * 2009-06-25 2020-03-31 Dts Licensing Limited Urządzenie i sposób konwersji przestrzennego sygnału audio
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
US9031268B2 (en) * 2011-05-09 2015-05-12 Dts, Inc. Room characterization and correction for multi-channel audio
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
US9131298B2 (en) * 2012-11-28 2015-09-08 Qualcomm Incorporated Constrained dynamic amplitude panning in collaborative sound systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102823277A (zh) * 2010-03-26 2012-12-12 汤姆森特许公司 解码用于音频回放的音频声场表示的方法和装置
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Energy-Preserving Ambisonic Decoding;F.Zotter;《ACTA ACUSTICA UNITED ACUSTICA》;20121231;第98卷;第37-47页 *

Also Published As

Publication number Publication date
KR102143545B1 (ko) 2020-08-12
WO2014111308A3 (en) 2014-09-12
JP6271586B2 (ja) 2018-01-31
TWI630829B (zh) 2018-07-21
EP2946468A2 (en) 2015-11-25
WO2014111308A2 (en) 2014-07-24
KR20190119151A (ko) 2019-10-21
TW201824881A (zh) 2018-07-01
CN104937843A (zh) 2015-09-23
KR20200058598A (ko) 2020-05-27
JP2016508343A (ja) 2016-03-17
CN104937843B (zh) 2018-05-18
US9832584B2 (en) 2017-11-28
KR102031826B1 (ko) 2019-10-15
EP2946468B1 (en) 2016-12-21
TW201433185A (zh) 2014-08-16
KR20150107744A (ko) 2015-09-23
CN108174341A (zh) 2018-06-15
TWI679903B (zh) 2019-12-11
US20150373473A1 (en) 2015-12-24
HK1256573A1 (zh) 2019-09-27
KR102115345B1 (ko) 2020-05-26

Similar Documents

Publication Publication Date Title
CN108174341B (zh) 测量高阶高保真度立体声响复制响度级的方法及设备
US10091601B2 (en) Method for rendering multi-channel audio signals for L1 channels to a different number L2 of loudspeaker channels and apparatus for rendering multi-channel audio signals for L1 channels to a different number L2 of loudspeaker channels
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
US9584912B2 (en) Spatial audio rendering and encoding
CN112219236A (zh) 空间音频参数和相关联的空间音频播放
CN112567765B (zh) 空间音频捕获、传输和再现
US20220369061A1 (en) Spatial Audio Representation and Rendering
CN114586381A (zh) 空间音频表示和渲染
Herre et al. MPEG-H 3D audio: Immersive audio coding
JP2023500631A (ja) 方向メタデータを使用するマルチチャネルオーディオ符号化及び復号化

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1256573

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant