CN113366865B - 用于音频对象聚类的自适应响度规范化 - Google Patents

用于音频对象聚类的自适应响度规范化 Download PDF

Info

Publication number
CN113366865B
CN113366865B CN202080010337.4A CN202080010337A CN113366865B CN 113366865 B CN113366865 B CN 113366865B CN 202080010337 A CN202080010337 A CN 202080010337A CN 113366865 B CN113366865 B CN 113366865B
Authority
CN
China
Prior art keywords
cluster
audio
energy
given
audio element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080010337.4A
Other languages
English (en)
Other versions
CN113366865A (zh
Inventor
陈联武
芦烈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN113366865A publication Critical patent/CN113366865A/zh
Application granted granted Critical
Publication of CN113366865B publication Critical patent/CN113366865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种处理包含多个音频元素的音频内容的方法包括:将所述多个音频元素聚类为多个音频元素集群;及针对所述多个集群中的集群:针对所述集群中的每一音频元素,确定所述音频元素贡献于所述集群的能量量度;针对所述集群中的至少一个音频元素,至少部分地基于所述集群中所述音频元素的所述能量量度确定补偿增益;及将所述补偿增益应用到所述集群中的所述至少一个音频元素。

Description

用于音频对象聚类的自适应响度规范化
相关申请案的交叉引用
本申请案要求2019年3月6日申请的第62/814,718号美国临时申请案及2019年3月11日申请的第19161889.1号欧洲专利申请案以及2019年2月13日申请的PCT/CN2019/074915的优先权,所述申请案的全部内容在此通过引用的方式并入本文中。
技术领域
本公开涉及用于处理包含多个音频元素的音频内容的方法及设备,且特定来说涉及用于此类音频内容的自适应响度规范化。
背景技术
新消费型
Figure GDA0003961482890000012
电影系统引入了一种新的音频格式,其包含音频床(声道)及音频对象两者。音频床指的是要在预定的、固定的扬声器位置上重现的音频声道,而音频对象指的是可在限定的持续时间内存在并且还具有描述每一对象的位置、速度及大小的空间信息(例如,作为元数据的一部分)的个别音频元素。在传输期间,床与对象可分开发送,然后由空间重现系统使用,在已知的物理位置使用可变数目的扬声器来重新创建艺术意图。在一些配乐中,可能有多达7个、9个甚至11个床声道。此外,基于创作系统的能力,可能有数十个甚至数百个个别的音频对象,这些对象在呈现期间被组合起来以创建空间多样的沉浸式音频体验。
此类基于对象的内容中存在的大量音频信号针对此类内容的编码及分布提出新的挑战。在一些分布及传输系统中,可能有足够大的可用带宽来传输所有音频床及对象,而很少或没有音频压缩。然而,在一些情况下,例如
Figure GDA0003961482890000011
光盘、广播(有线、卫星及地面)、移动(3G及4G)及超宽带(OTT或internet)分布对以数字方式传输所有床及对象的可用带宽可能有很大限制。虽然音频编码方法(有损或无损)可应用到音频以减少所需的带宽,但音频编码可能不足以减少传输音频所需的带宽,尤其是在非常有限的网络(例如移动3G及4G网络)上。
为了解决这个问题,可通过聚类的方法将输入对象及床的数目减少为更小的一组输出对象/床。一般来说,音频聚类过程包括两个主要阶段:1)确定集群位置及2)确定用于将对象呈现为输出集群的增益,目的是最大限度地减少总空间失真或基于空间掩模假设保持整体空间感知。
一般来说,当对象/床经聚类到相当数目的集群(例如11个)时,聚类可很好地起作用。然而,这通常无法用于“级联音频对象聚类”的用例。此用例在图1中示意性地说明。基于对象的音频内容110(例如,Atmos印霸)在第一聚类阶段120经聚类为第一数目的(例如,11个)(中间或初始)集群。然后,在第二聚类阶段130处,将获得的集群经进一步聚类为更小数目的(例如,5个)(最终或输出)集群。在此用例中,与直接将初始集群(例如,11个)呈现到给定的扬声器布局(例如,5.1.2)相比,当在处理阶段140处将最终集群(例如,5个)呈现到相同的扬声器布局时,可观察到响度增强。这种响度增强显然是不期望的。
类似的(尽管不那么突出)响度增强可能出现在其中对象/床被直接聚类为某一数目(例如,5个)的集群并接着呈现到扬声器布局的用例中。此用例在图2中说明。基于对象的音频内容210在聚类阶段220经聚类为某一数目(例如,5个)的集群,然后在处理阶段230处呈现到扬声器布局。
因此,需要改进对包含多个音频元素的音频内容的处理。尤其需要改进对包含多个音频元素的音频内容的处理,以避免在将音频内容的经聚类版本呈现到扬声器布局时的响度增强。一般来说,需要改进针对此类音频内容的响度的控制。
发明内容
本发明提供一种处理包含多个音频元素的音频内容的方法及对应的设备,其具有相应的独立权利要求的特征。
本公开的一方面涉及处理包含多个音频元素的音频内容的方法。所述音频元素可为局部化音频元素,且可包含例如音频对象、音频床(床声道)及/或(中间)音频对象的集群。所述方法可包含将所述多个音频元素聚类为多个音频元素集群(例如,最终集群或输出集群)。所述集群的每一者可包含空间上接近的音频元素。集群的数目可小于音频元素的数目。所述处理可经应用到每一集群。因此,所述方法可进一步包含针对所述多个集群中的集群:针对所述集群中的每一音频元素,确定所述音频元素贡献于所述集群的能量量度。所述方法可进一步包含针对所述多个集群中的所述集群:针对所述集群中的至少一个音频元素,至少部分地基于所述集群中所述音频元素的所述能量量度确定补偿增益。所述方法还可进一步包含针对所述多个集群中的所述集群:将所述补偿增益应用到所述集群中的所述至少一个音频元素。将所述补偿增益应用到所述至少一个音频元素可减少当呈现到作为所述集群的部分的一组(布局)扬声器时的所述至少一个音频对象与当直接呈现到所述一组扬声器时的所述至少一个音频对象之间的响度差。所述方法可进一步包含将所述多个音频元素的集群呈现到扬声器布局。
用所提出的方式确定补偿增益可大大减轻响度的增强。也就是说,通过将所述集群呈现到目标扬声器布局而产生的每一可感知音频对象或床声道的响度可明显更接近在将所述音频对象或床声道直接呈现到所述目标扬声器布局的情况下产生的相应响度。
在一些实施例中,音频元素贡献于集群c的能量量度可由
Figure GDA0003961482890000031
给出,Eo是所述音频元素的所述能量,goc是针对音频元素o的元素到集群增益(例如,将此音频元素呈现到所述集群的增益)。
在一些实施例中,所述方法可进一步包含针对所述多个集群中的所述集群:基于所述音频元素贡献于所述集群的相应频谱确定所述集群的频谱。所述方法还可进一步包含针对所述多个集群中的所述集群:至少部分地基于所述集群中音频元素的所述能量量度及所述集群的所述频谱,确定所述集群的总补偿增益作为所述集群中每一音频元素的所述补偿增益的至少一部分。
在一些实施例中,所述方法可进一步包含针对所述多个集群中的所述集群:确定所述集群的第一能量量度为所述集群中的所述音频元素贡献于所述集群的能量量度的总和。所述方法可进一步包含针对所述多个集群中的所述集群:基于所述音频元素贡献于所述集群的相应频谱确定所述集群的频谱。所述方法可进一步包含针对所述多个集群中的所述集群:基于所述集群的所述频谱确定所述集群的第二能量量度。所述第一能量量度可被称为所述集群的总能量(总元素能量(例如,总对象能量)或预期能量)。所述第二能量量度可被称为所述集群的实际能量。所述方法还可进一步包含针对所述多个集群中的所述集群:基于所述第一能量量度及所述第二能量量度,确定所述集群的总补偿增益作为所述集群中每一音频元素的所述补偿增益的至少一部分。
将所述总补偿增益应用到所述集群中的所述音频元素将减小所述集群的估计能量与所述实际能量之间的差,从而减轻响度增强并改进感知的声音质量。
在一些实施例中,针对所述集群的所述第一能量量度可由Etot_o=∑o Eoc给出,及/或所述第二能量量度可由
Figure GDA0003961482890000032
给出,指数o指示所述集群中的相应音频元素,Xc=∑ogocXo是所述集群的频谱,Xo是所述相应音频元素的频谱,且Xc *指示Xc的复共轭。
在一些实施例中,所述集群的所述总补偿增益可经确定为所述第一能量量度与所述第二能量量度的比率的平方根。例如,所述集群的所述总补偿增益可由
Figure GDA0003961482890000041
给出。应用此增益可产生总音频元素增益(总音频元素到集群增益)g′oc=goc·g1c
在一些实施例中,所述方法可包含针对所述多个集群中的所述集群中的给定音频元素:确定所述给定音频元素与所述多个音频元素中的任一者之间的相关性量度。所述方法可进一步包含针对所述多个集群中的所述集群中的所述给定音频元素:至少部分地基于所述集群中所述音频元素的能量量度及所述给定音频元素与所述多个音频元素中的任一者之间的相关性量度,确定所述给定音频元素的个别补偿增益作为所述给定音频元素的所述补偿增益的至少一部分。
在一些实施例中,所述方法可包含针对所述多个集群中的所述集群中的给定音频元素:确定所述给定音频元素与所述多个音频元素中的任一者之间的相关性量度。所述方法可进一步包含针对所述多个集群中的所述集群中的所述给定音频元素:确定所述给定音频元素的第三能量量度为所述音频元素贡献于所述集群的能量量度的加权总和。针对所述能量量度的权重可基于所述相应音频元素与所述给定音频元素之间的所述相关性量度。所述方法可进一步包含针对所述多个集群中的所述集群中的所述给定音频元素:确定所述给定音频元素的第四能量量度为所述给定音频元素贡献于所述集群的能量量度及所述多个音频元素中除所述给定音频元素之外的所述音频元素贡献于所述集群的相应能量量度的几何平均值跨所述多个音频元素中除所述给定音频元素之外的任何音频元素的加权总和。针对所述几何平均值的权重可基于所述相应音频元素与所述给定音频元素之间的相应相关性量度。所述方法还可进一步包含针对所述多个集群中的所述集群中的所述给定音频元素:基于所述第三能量量度及所述第四能量量度,确定所述给定音频元素的个别补偿增益作为所述给定音频元素的所述补偿增益的至少一部分。
将所述个别补偿增益应用到所述集群中的所述音频元素将取决于所述音频元素与其它音频元素的相关性来衰减所述音频元素。总体思路如下。如果音频元素与其它音频元素高度相关,那么它可能引入更高的响度增强,因此应用较小的增益可能更合适。由于高度相关的音频元素大力贡献了所述响度增强,这允许音频元素的目标衰减,从而进一步减轻所述响度增强并改进感知的声音质量。
在一些实施例中,所述给定音频元素与所述多个音频元素中的任一者之间的相关性量度可由
Figure GDA0003961482890000042
给出,指数o及u分别指示所述给定音频元素及所述多个音频元素中的所述一者,Xo是所述给定音频元素的频谱,Xu是所述多个音频元素中的所述一者的频谱,Eo是所述给定音频元素的能量,且Eu是所述多个音频元素中的所述一者的能量。此外或替代地,所述第三能量量度可由aoc=∑u|rou|Euc给出。此外或替代地,所述第四能量量度可由
Figure GDA0003961482890000051
给出。
在一些实施例中,所述个别补偿增益g1oc可由
Figure GDA0003961482890000052
给出。也就是说,可将针对所述给定音频元素的所述个别补偿增益确定为所述第三能量量度与针对所述给定音频元素的所述第三及第四能量量度的总和的比率。
在一些实施例中,所述方法可进一步包含针对所述多个集群中的所述集群:确定所述集群中针对每一音频元素的相应的个别补偿增益。所述方法可进一步包含针对所述多个集群中的所述集群:将相应的个别补偿增益应用到所述集群中的所述音频元素以获得经个别补偿音频元素。所述方法可进一步包含针对所述多个集群中的所述集群:基于所述经个别补偿音频元素贡献于所述集群的相应频谱确定所述集群的频谱。所述方法还可进一步包含针对所述多个集群中的所述集群:至少部分地基于所述集群中所述经个别补偿音频元素的能量量度及所述集群的所述频谱,确定所述集群的总补偿增益作为所述集群中每一经个别补偿音频元素的所述补偿增益的至少一部分。
在一些实施例中,所述方法可包含针对所述多个集群中的所述集群:确定所述集群中每一音频元素的相应的个别补偿增益。所述方法可进一步包含针对所述多个集群中的所述集群:将相应的个别补偿增益应用到所述集群中的所述音频元素以获得经个别补偿音频元素。所述方法可进一步包含针对所述多个集群中的所述集群:将所述集群的第五能量量度确定为所述集群中的所述经个别补偿音频元素贡献于所述集群的所述能量量度的总和。所述方法可进一步包含针对所述多个集群中的所述集群:基于所述经个别补偿音频元素贡献于所述集群的相应频谱确定所述集群的频谱。所述方法可进一步包含针对所述多个集群中的所述集群:基于所述集群的所述频谱确定所述集群的第六能量量度。如此,所述第五能量量度可与所述第一能量量度对应,且所述第六能量量度可与所述第二能量量度对应,其区别在于现在考虑所述经个别补偿音频元素。所述方法还可进一步包含针对所述多个集群中的所述集群:基于所述第五能量量度及所述第六能量量度,确定所述集群的总补偿增益(例如,确定为它们的比率的平方根,确定方式与第一及第二能量量度相同)作为所述集群中每一经个别补偿音频元素的所述补偿增益的至少一部分。
通过在应用个别补偿增益之后确定此类总补偿增益,响度增强被进一步减轻且感知的声音质量被进一步改进。
在一些实施例中,所述方法可进一步包含针对呈现所述集群中的至少一者的扬声器:确定所述音频元素贡献于所述扬声器的输出(例如,输出信号)的相应能量量度。所述方法可进一步包含针对呈现所述集群中的至少一者的所述扬声器:基于所述音频元素贡献于所述扬声器的所述输出的相应频谱确定所述扬声器的所述输出的频谱。所述方法还可进一步包含针对呈现所述集群中的至少一者的扬声器:至少部分地基于所述音频元素贡献于所述扬声器的所述输出及所述扬声器的所述输出的所述频谱的能量量度确定所述扬声器的总补偿增益。
在一些实施例中,所述方法可进一步包含针对呈现所述集群中的至少一者的扬声器:确定所述音频元素贡献于所述扬声器的输出(例如,输出信号)的相应能量量度。所述音频元素可为原始音频元素或经个别补偿音频元素。所述方法可进一步包含针对呈现所述集群中的至少一者的所述扬声器:基于所述音频元素贡献于所述扬声器的所述输出的相应能量量度确定所述扬声器的所述输出的第七能量量度。所述方法可进一步包含针对呈现所述集群中的至少一者的所述扬声器:基于所述音频元素贡献于所述扬声器的所述输出的相应频谱确定所述扬声器的所述输出的频谱。所述方法可进一步包含针对呈现所述集群中的至少一者的所述扬声器:基于所述扬声器的所述输出的所述频谱确定所述扬声器的所述输出的第八能量量度。所述方法还可进一步包含针对呈现所述集群中的至少一者的所述扬声器:基于所述第七能量量度及所述第八能量量度确定所述扬声器的总补偿增益。
通过确定此类扬声器相关补偿增益(可能在应用总补偿增益及/或个别补偿增益之后),响度增强被进一步减轻且感知的声音质量被进一步改进。
在一些实施例中,所述第七能量量度可由
Figure GDA0003961482890000061
给出,其具有针对多个音频元素中的音频元素o及扬声器s的元素到扬声器增益gos。另外或替代地,所述扬声器的所述输出的所述频谱可由Xcls→spk=∑cogcsgocXo给出,指数c指示所述集群,Xo指示给定音频元素o的频谱,gcs是针对集群c及所述扬声器s的集群到扬声器增益,且goc是针对集群c及所述集群中的音频元素o的集群到扬声器增益。另外或替代地,所述第八能量量度可由
Figure GDA0003961482890000062
给出。
在一些实施例中,所述扬声器的所述总补偿增益可被确定为所述第七能量量度与所述第八能量量度的比率的平方根。例如,所述扬声器的所述总补偿增益g2oc可由
Figure GDA0003961482890000063
给出。
在一些实施例中,可针对所述音频内容的每一帧或每一组帧确定所述补偿增益。也就是说,可动态地确定所述补偿增益。
在一些实施例中,将所述多个音频元素聚类为所述多个集群可包括将所述多个音频元素聚类为多个中间集群(阶段1聚类)。将所述多个音频元素聚类为所述多个集群可进一步包括将所述多个中间集群聚类为所述多个集群(阶段2聚类)。这种聚类可称为级联音频对象聚类。
在一些实施例中,所述方法可进一步包含在将所述补偿增益应用到相应音频元素之前,将动态范围压缩器或限制器应用到所述确定的补偿增益。
在一些实施例中,所述方法可进一步包含取决于所述相应集群的预期(例如,总)能量与实际能量之间的差是否小于针对所述差的预定阈值,将所述补偿增益设置为一。例如,如果所述差小于所述预定阈值,那么所述补偿增益可设置为一(即,没有额外补偿)。
在一些实施例中,所述方法可进一步包含增加所述多个音频元素中空间大小超过所述大小的预定阈值的音频元素之间的去相关性。额外的去相关性可特别地应用到内部床声道。
在一些实施例中,所述补偿增益可在多个频率子带中的每一者中确定。
在一些实施例中,所述能量量度可为响度量度。也就是说,补偿增益确定可在响度域中执行。
通过这些量度,可进一步细化所述补偿增益的确定。
本公开的另一方面涉及一种设备,所述设备包括处理器及耦合到所述处理器并存储供所述处理器执行的指令的存储器。所述处理器可经配置以执行根据前述方面及其任何实施例所述的方法的方法步骤。
本公开的另一方面涉及一种包含指令的计算机程序,所述指令用于使执行所述指令的处理器执行根据前述第一方面及其任何实施例所述的方法。
本公开的另一方面涉及一种存储根据前述方面所述的计算机程序的计算机可读存储媒体。
虽然在本公开中参考给定集群中的音频元素,但应理解,根据相应的元素到集群增益,给定音频元素可经呈现到超过一个集群。在这个意义上,给定集群中的音频元素可经理解为呈现到所述给定集群的所述音频元素的那部分。将某个补偿增益应用到音频元素的一部分并不排除将不同的补偿增益应用到所述音频元素的另一部分。
附图说明
下面参考附图说明本公开的实例实施例,其中相似参考数字指示相似或类似的元素,且其中
图1示意性地说明用于本公开的实施例的第一用例,
图2示意性地说明用于本公开的实施例的第二用例,
图3是说明根据本公开的实施例的处理音频内容的方法的实例的流程图,及
图4到图11是说明根据本公开的实施例的图3的方法的实施方案的实例的流程图。
具体实施方式
如上面所指示的,本公开中相同或相似的参考数字指示相同或相似的元素,且出于简洁的原因可省略其重复描述。
正如已发现的,响度增强主要是由具有大小的对象(可能还有区域掩模)引起的,这些对象在聚类到集群之前首先被预焙到内部扬声器布局(例如,7.1.4)。当这些内部床经分组为动态集群或者从第一阶段聚类过程获得的集群在第二阶段经进一步分组为更小数目的集群时,来自同一对象的信号被分布到不同的床或集群,在后续的聚类过程中被进一步呈现为同一个聚类,并进行声学总结,从而引入了响度增强。
一般来说,响度增强可为内容相关的、集群相关的及扬声器布局相关的。因此,针对每一对象/集群使用预定的增益来补偿响度增强是不可行的。本公开提出一种自适应响度规范化方法来解决此问题。
如上所提及,根据本公开的实施例的处理适用于至少两种用例:基于对象的内容的级联集群,随后呈现到扬声器布局(第一用例)及将经聚类的音频内容直接呈现到扬声器布局(尤其如果集群数目有限的话;第二用例)。为了共同处理这些用例,术语音频元素将在整个公开中用来表示局部音频元素,例如音频对象、音频床(床声道)及/或音频对象或音频床的(中间)集群。此外,除非另有指示,否则集群应表示旨在用于呈现的那些集群。本身经进一步聚类的集群可指音频元素或中间集群。使用此术语,级联聚类可理解为涉及通过首先将多个音频元素聚类为多个中间集群,随后将多个中间集群聚类为多个集群来聚类多个音频元素。
广义地说,根据本公开的实施例的处理涉及分析每一集群的预期能量及实际能量,计算对应的补偿增益g,并针对给定集群c中的每一音频元素(例如,音频对象、音频床或中间集群)o,在任何原始的元素到集群增益(例如,对象到集群增益)goc的顶部应用经计算增益。
取决于不同的用例,并非所有音频元素都需要补偿增益。根据上述考虑,在一些实施例中,补偿增益可应用到级联聚类中的中间集群(第一用例,图1)及在单级聚类的情况下具有预定(预焙)对象大小的内部床(第二用例,图2)。然而,本公开的实施例的应用领域不限于这些实例,补偿增益也可应用到其它实体。
图3说明处理包含多个音频元素的音频内容的方法300的第一实例。再次,音频元素可涉及音频对象或音频床(例如,在第二用例中),或涉及音频对象或音频床的(中间)集群(例如,在第一用例中)。
步骤S310处,将多个音频元素聚类为多个音频元素集群。此处,集群中的每一者可包含空间上接近的音频元素。集群的数目可小于音频元素的数目。
随后针对多个集群中的(至少一)集群执行步骤S320到S340。不用说,在一些实施例中,所述处理可经应用到多个集群中的每一者。
步骤S320处,针对集群中的每一音频元素,确定(例如,计算)音频元素贡献于集群的能量量度。例如,音频元素o贡献于集群c的能量量度Eoc可由下式给出
Figure GDA0003961482890000091
Eo是(动态)音频元素o的能量,goc是针对音频元素o的元素到集群增益(例如,对象到集群增益)。
步骤S330处,针对集群中的至少一个音频元素,至少部分地基于集群中音频元素的能量量度确定(例如,计算)补偿增益。
步骤S340处,将补偿增益应用到集群中的至少一个音频元素。将补偿增益应用到至少一个音频元素可减小当呈现到作为集群的一部分的一组扬声器时至少一个音频对象与当直接呈现到所述组扬声器时至少一个音频对象之间的响度差。
在一些实施例中,方法300可进一步包含将多个音频元素的集群呈现到扬声器布局。
接下来,将参考图4到图11来描述方法300的更具体实施方案及细节的实例。根据这些实例将清楚,补偿增益(例如,在步骤S330处确定的)可包括给定集群的总补偿增益(其针对给定集群中的所有音频元素相同)、个别补偿增益(其在给定集群中的音频元素之间可不同),及/或扬声器的总补偿增益(其针对呈现到给定扬声器的所有音频元素是相同的)中的任一者。下面描述的方法中的任一者可被视为方法300的步骤S330的实施方案。
图4及图5分别说明返回(并应用)针对每一集群的总补偿增益的方法400及500,即,它们可理解为涉及集群自适应响度规范化。
这些方法的总体思路是,当集群中的每一音频元素(例如,对象)经呈现到集群时,针对集群中的每一音频元素(例如,对象)估计自适应增益(所述增益在整个集群中是均匀的)。针对每一集群,计算所有呈现到集群中的对象贡献于集群的总能量(总元素能量(例如,总对象能量)或预期能量),然后计算集群的实际能量,最后计算补偿增益,以减小总能量与实际能量之间的差。
图4中的方法400可被视为此总体思路的高级实施方案。针对多个集群中的前述集群执行步骤S410及S420。在一些实施例中,可针对多个集群中的每一集群执行这些步骤。
步骤S410处,基于音频元素贡献于集群的相应频谱确定(例如,计算)集群的频谱。
步骤S420处,至少部分地基于集群中音频元素的能量量度及集群的频谱,确定(例如,计算)集群的总补偿增益作为集群中每一音频元素的补偿增益的至少一部分。
图5中的方法500是方法400的具体实施方案。针对多个集群中的前述集群执行步骤S510到S540。在一些实施例中,可针对多个集群中的每一集群执行这些步骤。
步骤S510处,将集群的第一能量量度确定为(例如,计算)集群中的音频元素贡献于集群的能量量度的总和。第一能量量度可指集群的总能量Etot_o,即呈现到集群c的总(对象)能量。然后,针对集群c的第一能量量度可由下式给出
Figure GDA0003961482890000101
此处,指数o指示集群c中的相应音频元素。
步骤S520处,基于音频元素贡献于集群的相应频谱确定(例如,计算)集群的频谱。集群的频谱Xc可由Xc=∑ogocXo给出,Xo是相应(动态)音频元素的频谱。
步骤S530处,基于集群的频谱确定集群的第二能量量度。第二能量量度可指集群的实际能量Ec。然后,第二能量量度可由下式给出,其中Xc *指示Xc的复共轭
Figure GDA0003961482890000102
步骤S540处,基于第一能量量度及第二能量量度,确定(例如,计算)集群的总补偿增益作为集群中每一音频元素的补偿增益的至少一部分。确定此总补偿增益以使在聚类前后的响度类似。为此,集群的总补偿增益可经确定为第一能量量度与第二能量量度的比率的平方根。例如,集群的总补偿增益g1c可由下式给出
Figure GDA0003961482890000111
应用此补偿增益产生总音频元素增益(总音频元素到集群增益)
g′oc=goc·g1c
(等式(5))
一般而言,补偿增益(或其任何部分)可用于相应音频元素增益的顶部。
此处及在本公开的其余部分中,补偿增益可(动态地)在每一帧中确定。也就是说,可针对音频内容的每一帧或每一帧组确定补偿增益。此外,平滑可经应用到按帧(或按组)确定的补偿增益。
图6及图7分别说明将相关性相关的补偿增益返回(并应用)到集群中的个别音频元素的方法600及700,即,它们可理解为涉及相关性相关的元素自适应响度规范化。
方法400及500针对每一集群估计一个增益,并针对呈现到此集群的所有音频元素应用相同的增益。相反,方法600及700确定元素自适应(例如,对象自适应)增益并将不同的增益应用到不同的音频元素。音频元素之间的相关性用于此目的。总体思路如下。如果音频元素与其它音频元素高度相关,那么它可能会引入更高的响度增强,因此应用较小的增益可能更合适。
图6中的方法600可被视为此总体思想的高级实施方案。针对多个集群中的前述集群中的给定音频元素执行步骤S610及S620。在一些实施例中,可针对集群中的每一音频元素及/或针对多个集群中的每一集群执行这些步骤。
步骤S610处,确定(例如,计算)给定音频元素与多个音频元素中的任一者(通常但不一定在相同的集群中)之间的相关性量度。
步骤S620处,至少部分地基于集群中音频元素的能量量度及给定音频元素与多个音频元素中的任一者之间的相关性量度,确定(例如,计算)给定音频元素的个别补偿增益作为给定音频元素的补偿增益的至少一部分。
图7中的方法700是方法600的具体实施方案。针对多个集群中的前述集群中的给定音频元素执行步骤S710到S740。在一些实施例中,可针对集群中的每一音频元素及/或针对多个集群中的每一集群执行这些步骤。
步骤S710处,确定(例如,计算)给定音频元素与多个音频元素中的任一者之间的相关性量度。给定音频元素o与多个音频元素u中的任一者之间的相关性量度rou可由下式给出
Figure GDA0003961482890000121
此处,指数o及u分别指示给定的音频元素及多个音频元素中的一者。Xo指示给定音频元素的频谱,Xu指示多个音频元素中的所述一者的频谱,Eo指示给定音频元素的能量,且Eu指示多个音频元素中的所述一者的能量。
Figure GDA0003961482890000122
指示Xo的复共轭,且
Figure GDA0003961482890000123
指示
Figure GDA0003961482890000124
的真实部分。一般来说,rou是任意两个音频元素o与u之间的相关性量度。
步骤S720处,确定(例如,计算)给定音频元素的第三能量量度为音频元素u贡献于集群c的能量量度Euc的加权总和。其中,能量量度的权重可基于相应音频元素与给定音频元素之间的相关性量度。例如,第三能量量度aoc可由下式给出
Figure GDA0003961482890000125
也就是说,权重可由|rou|给出,即,它们可由相应音频元素与给定音频元素之间的相应相关性量度的量值来给出。此处,Euc可由
Figure GDA0003961482890000126
给出,guc是针对音频元素u及集群c的元素到集群增益。第三能量量度aoc也可指呈现到集群c的给定音频元素o的扩展能量。
步骤S730处,确定(例如,计算)给定音频元素的第四能量量度为给定音频元素贡献于集群的能量量度及多个音频元素中除给定音频元素之外的音频元素贡献于集群的相应能量量度的几何平均值跨多个音频元素中除给定音频元素之外的任何音频元素的加权总和。其中,针对几何平均数的权重可基于相应音频元素与给定音频元素之间的相应相关性量度。例如,第四能量量度boc可由下式给出
Figure GDA0003961482890000127
第四能量量度boc也可指呈现到集群c的音频元素o的交叉元素(例如,交叉对象)能量。
步骤S740处,基于第三能量量度及第四能量量度,确定(例如,计算)给定音频元素的个别补偿增益作为给定音频元素的补偿增益的至少一部分。例如,个别补偿增益g1oc可由下式给出
Figure GDA0003961482890000131
此个别补偿增益有效地给予作为响度增强的主要原因的高度相关对象更多的衰减。
例如,在针对三个音频元素(例如,对象)的相关矩阵为
Figure GDA0003961482890000132
的情况下,前两个音频元素可接收较小的增益(即,可接收更多的衰减)。
此外,在将相应的个别补偿增益g1oc应用到集群c中的音频元素o之后,可以与方法400及500中相同的方式,然而,使用补偿能量Eo及频谱Xo(即,个别补偿增益的应用之后的能量及频谱)确定(例如,计算)针对集群c的总补偿增益g1c以最小化集群c的预期能量与实际能量之间的差。通过依次确定个别补偿增益g1oc、应用个别补偿增益g1oc及确定针对集群c的总补偿增益g1c,集群c中的每一音频元素o的补偿增益g1′oc可经由以下等式确定
g1′oc=g1oc*g1c
(等式(10))
这暗示总元素到集群增益g′oc由下式给出
g′oc=goc*g1′oc
(等式(11))
图8及图9分别说明如上所指示的返回(并应用)补偿增益的方法800及900,其中此补偿增益是在将个别补偿增益应用到给定集群中的音频元素之后确定的。也就是说,方法800及900可理解为涉及相关性相关的元素自适应及集群自适应响度规范化。
图8中的方法800可被视为是前述总增益g1′oc的确定的高级实施方案。针对多个集群中的前述集群执行步骤S810到S840。在一些实施例中,可针对多个集群中的每一集群执行这些步骤。
步骤S810处,确定(例如,计算)集群中每一音频元素的相应的个别补偿增益。例如,这可通过方法600或700进行。
步骤S820处,将相应的个别补偿增益应用到集群中的音频元素以获得经个别补偿音频元素。
步骤S830处,基于经个别补偿音频元素贡献于集群的相应频谱确定(例如,计算)集群的频谱。
步骤S840处,至少部分地基于集群中经个别补偿音频元素的能量量度及集群的频谱,确定(例如,计算)集群的总补偿增益作为集群中每一经个别补偿音频元素的补偿增益的至少一部分。
一般来说,方法800可理解为与在将如方法600/700的个别补偿增益应用到集群中的音频元素之后对集群连续执行方法400/500相对应。
图9中的方法900是方法800的具体实施方案。针对多个集群中的前述集群执行步骤S910到S960。在一些实施例中,可针对多个集群中的每一集群执行这些步骤。
步骤S910处,确定(例如,计算)集群中针对每一音频元素的相应的个别补偿增益。例如,这可通过方法600或700进行。
步骤S920处,将相应的个别补偿增益应用到集群中的音频元素以获得经个别补偿音频元素。
步骤S930处,确定(例如,计算)集群的第五能量量度为集群中的经个别补偿音频元素贡献于集群的能量量度的总和。第五能量量度可与以上描述的第一能量量度对应,不同之处在于考虑的是经个别补偿音频元素(而不是初始的、未补偿的音频元素)。因此,这可与以上描述的步骤S510类似地进行。
步骤S940处,基于经个别补偿音频元素贡献于集群的相应频谱确定(例如,计算)集群的频谱。这可与以上描述的步骤S520类似地进行。
步骤S950处,基于集群的频谱确定(例如,计算)集群的第六能量量度。第六能量量度可与以上描述的第二能量量度对应,不同之处在于考虑的是经个别补偿音频元素(而不是初始的、未补偿的音频元素)。因此,这可与以上描述的步骤S530类似地进行。
最后,在步骤S960处,基于第五能量量度及第六能量量度,确定(例如,计算)集群的总补偿增益作为集群中每一经个别补偿音频元素的补偿增益的至少一部分。这可与以上描述的步骤S540类似地进行。
图10及图11分别说明返回(并应用)针对集群呈现到的(目标)扬声器布局的每一扬声器的总补偿增益的方法1000及1100,即,它们可理解为涉及扬声器自适应响度规范化。所得到的扬声器自适应增益可应用在由以上描述的方法400到900确定的增益的顶部。
总体思路是,在已知回放扬声器布局的情况下,可使用目标扬声器布局来估计适当的增益,以进一步最小化潜在的响度增强。
图10中的方法1000可被视为特定于扬声器的总补偿增益的确定的高级实施方案。针对呈现多个集群中的至少一者的扬声器执行步骤S1010到S1030。在一些实施例中,可针对呈现多个集群中的至少一者的每一扬声器执行这些步骤。此方法中的音频元素可为原始/初始音频元素或由任何前述补偿增益补偿的音频元素(例如,经个别补偿音频元素等)。
步骤S1010处,确定(例如,计算)音频元素贡献于扬声器的输出(例如,输出信号、扬声器声道信号)的相应能量量度。
步骤S1020处,基于音频元素贡献于扬声器的输出的相应频谱确定(例如,计算)扬声器的输出的频谱。
步骤S1030处,至少部分地基于音频元素贡献于扬声器的输出及扬声器的输出的频谱的能量量度确定(例如,计算)扬声器的总补偿增益。
图11中的方法1100是方法1000的具体实施方案。所述方法涉及计算呈现到给定扬声器声道的总元素能量(例如,对象能量),并计算扬声器声道接收/形成的信号的实际频谱及实际能量。然后可相应地计算扬声器相关的补偿增益。
针对呈现多个集群中的至少一者的扬声器执行步骤S1110到S1150。在一些实施例中,可针对呈现多个集群中的至少一者的每一扬声器执行这些步骤。此方法中的音频元素可为原始/初始音频元素或由前述补偿增益的任一者补偿的音频元素(例如,经个别补偿音频元素等)。
步骤S1110处,确定(例如,计算)音频元素贡献于扬声器的输出(例如,输出信号、扬声器声道信号)的相应能量量度。
步骤S1120处,基于音频元素贡献于扬声器的输出的相应能量量度确定(例如,计算)扬声器的输出的第七能量量度。第七能量量度可指假定由扬声器(扬声器声道)s呈现的总元素能量(例如,对象能量)。例如,第七能量量度可由下式给出
Figure GDA0003961482890000151
Figure GDA0003961482890000161
其具有针对多个音频元素中的音频元素o及扬声器s(即,呈现到扬声器(扬声器声道)s的音频元素o的部分)的元素到扬声器增益gos
步骤S1130处,基于音频元素贡献于扬声器的输出的相应频谱确定(例如,计算)扬声器的输出的频谱。扬声器的输出的频谱Xcls→spk可指扬声器(扬声器声道)s接收的实际信号。它可由下式给出
Figure GDA0003961482890000162
指数c指示集群,Xo指示给定音频元素o的频谱,gcs是针对集群c及扬声器s的集群到扬声器增益,且goc是针对集群c及集群中的音频元素o的元素到集群增益。如此,扬声器的输出的频谱Xcls→spk可由两个步骤生成。在第一步骤处,音频元素(例如,对象)经聚类(例如,呈现)到集群,且在第二步骤处,集群经呈现到扬声器。
步骤S1140处,基于扬声器的输出的频谱确定(例如,计算)扬声器的输出的第八能量量度。第八能量量度可指扬声器(扬声器声道)中的(实际)能量。它可由下式给出
Figure GDA0003961482890000163
步骤S1150处,基于第七能量量度及第八能量量度确定(例如,计算)扬声器的总补偿增益。扬声器的总补偿增益可经确定为第七能量量度与第八能量量度的比率的平方根。例如,扬声器的总补偿增益g2oc可由下式给出
Figure GDA0003961482890000164
如上所提及的,总补偿增益g2oc可与在方法400/500、600/700或800/900中获得的补偿增益的任一者组合,并应用在原始元素到集群增益的顶部。也就是说,所产生的元素到集群增益可由下式给出
g′oc=goc*g1c*g2oc
(等式(16))
或者
Figure GDA0003961482890000171
为了使以上描述的补偿增益中的任一者更稳定且更少中断,可将压缩器(例如,动态范围压缩器、限制器)应用到所获得的补偿增益。例如,可限制补偿增益的最小值及最大值。因此,根据本公开的实施例的方法(例如,方法300、400/500、600/700、800/900或1000/1100)可包括在将补偿增益应用到相应音频元素之前,将动态范围压缩器或限制器应用到所确定的补偿增益。例如,增益值可限制在范围(0.25,4)内,即分贝域中的[-6dB,6dB]。
在一些实施例中,可添加松豫参数。如果集群的预期能量(第一或第五能量量度)与实际能量(第二或第六能量量度)之间的差小于容许阈值,例如1dB,那么可接受所述差,且针对所述集群的总补偿增益可设置为1(一)。在这种情况下,仅当差较大时才应用针对集群的总补偿增益。
一般来说,根据本公开的实施例的方法(例如,方法300、400/500、600/700、800/900或1000/1100)可进一步包括取决于相应集群的预期能量与实际能量之间的差是否小于所述差的预定阈值,将补偿增益设置为一。也就是说,如果所述差小于预定阈值,那么补偿增益可设置为一(即,没有额外补偿)。
进一步来说,在根据本公开的一些实施例中,可应用可减轻响度增强的扩展操作。
第一扩展操作涉及增加大小对象上的去相关性的量。传统上,当大小对象被预焙到内部床上时,为了保持音色及声音的自然度,这些床被保守地去相关。然而,这会增加响度增强的可能性,因为相关的信号可在集群中进行声学总结。增加去相关性的量可能会减少响度增强(但是可能以音色改变为代价)。
因此,根据本公开的实施例的方法(例如,方法300、400/500、600/700、800/900或1000/1100)可进一步包括增加多个音频元素中空间大小超过大小的预定阈值的音频元素之间的去相关性。额外的去相关性可特别应用到内部床声道(即,与内部床声道对应的音频元素)。
第二扩展操作涉及子带增益估计。虽然由上述方法(例如,方法300、400/500、600/700、800/900或1000/1100)估计/确定的增益是宽带增益(即,相同的增益应用到所有频率单元),但估计来自子带的增益(例如,基于ERB速率划分)可能是有用的。这是因为不同的子带可能在感知上扮演不同的角色,且子带特定的方法可提供更高的频率分辨率来估计响度差及对象相关性。
因此,在根据本公开的实施例的方法(例如,方法300、400/500、600/700、800/900或1000/1100)中,补偿增益可在多个频率子带中的每一者中确定。
第三扩展操作涉及响度域增益估计。虽然上述方法中的一些在能量域(其与响度相关)中估计增益,但可在响度域中估计/确定增益以更直接地解决响度增强问题。从对象的频谱计算响度是众所周知的。然后,通过简单地用响度Lo及Lc替换能量(例如Eo及Ec)来计算相应的响度增益将是直截了当的。
因此,在根据本公开的实施例的方法(例如,方法300、400/500、600/700、800/900或1000/1100)中,能量量度可为响度量度。
本公开进一步涉及包括处理器及耦合到处理器并存储供处理器执行的指令的存储器的设备。处理器可经配置以执行以上描述的方法中的任一者的步骤。上述关于根据本公开的实施例的方法所作的任何陈述被理解为同样适用于这些设备。
本公开进一步涉及包含指令的计算机程序,所述指令用于使执行指令的处理器执行以上描述的方法中的任一者的步骤。上述关于根据本公开的实施例的方法所作的任何陈述也被理解为同样适用于这些计算机程序。
本公开还进一步涉及存储前述计算机程序的计算机可读存储媒体。上述关于根据本公开的实施例的方法的任何陈述被理解为同样适用于这些计算机可读存储媒体。
如仿真及听力测试结果表明,集群自适应响度规范化可大大减轻响度的增强,且添加目标扬声器布局相关的响度规范化可进一步改进聚类质量。
本发明的各个方面及实施方案可根据以下列举的实例实施例(EEE)理解,这些实例实施例不是权利要求。
EEE1涉及一种处理包含多个音频元素的音频内容的方法,所述方法包括:将所述多个音频元素聚类为多个音频元素集群;及针对所述多个集群中的集群:针对所述集群中的每一音频元素,确定所述音频元素贡献于所述集群的能量量度;针对所述集群中的至少一个音频元素,至少部分地基于所述集群中所述音频元素的所述能量量度确定补偿增益;及将所述补偿增益应用到所述集群中的所述至少一个音频元素。
EEE2涉及根据EEE1所述的方法,其中音频元素贡献于所述集群c的所述能量量度由
Figure GDA0003961482890000181
给出,Eo是所述音频元素的能量,且goc是针对所述音频元素o的元素到集群增益。
EEE3涉及根据EEE1或EEE2所述的方法,针对所述多个集群中的所述集群,其包括:基于所述音频元素贡献于所述集群的相应频谱确定所述集群的频谱;及至少部分地基于所述集群中音频元素的所述能量量度及所述集群的所述频谱,确定所述集群的总补偿增益作为所述集群中每一音频元素的所述补偿增益的至少一部分。
EEE4涉及根据EEE1或EEE2所述的方法,其包括针对所述多个集群中的所述集群:确定所述集群的第一能量量度为所述集群中的所述音频元素贡献于所述集群的能量量度的总和;基于所述音频元素贡献于所述集群的相应频谱确定所述集群的频谱;基于所述集群的所述频谱确定所述集群的第二能量量度;及基于所述第一能量量度及所述第二能量量度,确定所述集群的总补偿增益作为所述集群中每一音频元素的所述补偿增益的至少一部分。
EEE5涉及根据包含EEE2的特征的EEE4所述的方法,其中针对所述集群的第一能量量度由下式给出Etot_o=∑o Eoc,及/或其中所述第二能量量度由下式给出
Figure GDA0003961482890000191
指数o指示所述集群中的相应音频元素,Xc=∑ogocXo是所述集群的频谱,Xo是所述相应音频元素的频谱,且Xc *指示Xc的复共轭。
EEE6涉及根据EEE4或EEE5所述的方法,其中所述集群的所述总补偿增益经确定为所述第一能量量度与所述第二能量量度的比率的平方根。
EEE7涉及根据EEE1或EEE2所述的方法,针对所述多个集群中的所述集群中的给定音频元素,其包括:确定所述给定音频元素与所述多个音频元素中的任一者之间的相关性量度;及至少部分地基于所述集群中所述音频元素的能量量度及所述给定音频元素与所述多个音频元素中的任一者之间的相关性量度,确定所述给定音频元素的个别补偿增益作为所述给定音频元素的所述补偿增益的至少一部分。
EEE8涉及根据EEE1或EEE2所述的方法,其包括针对所述多个集群中的所述集群中的给定音频元素:确定所述给定音频元素与所述多个音频元素中的任一者之间的相关性量度;确定所述给定音频元素的第三能量量度为所述音频元素贡献于所述集群的能量量度的加权总和,其中针对所述能量量度的权重基于所述相应音频元素与所述给定音频元素之间的相应相关性量度;确定所述给定音频元素的第四能量量度为所述给定音频元素贡献于所述集群的能量量度及所述多个音频元素中除所述给定音频元素之外的所述音频元素贡献于所述集群的相应能量量度的几何平均值跨所述多个音频元素中除所述给定音频元素之外的任何音频元素的加权总和;及基于所述第三能量量度及所述第四能量量度,确定所述给定音频元素的个别补偿增益作为所述给定音频元素的所述补偿增益的至少一部分。
EEE9涉及根据包含EEE2的特征的EEE8所述的方法,其中所述给定音频元素与所述多个音频元素中的任一者之间的相关性量度由下式给出
Figure GDA0003961482890000201
指数o及u分别指示所述给定音频元素及所述多个音频元素中的所述一者,Xo是所述给定音频元素的频谱,Xu是所述多个音频元素中的所述一者的频谱,Eo是所述给定音频元素的能量,且Eu是所述多个音频元素中的所述一者的能量;其中所述第三能量量度由下式给出aoc=∑u|rou|Euc,及/或其中所述第四能量量度由下式给出
Figure GDA0003961482890000202
EEE10涉及根据EEE9所述的方法,其中所述个别补偿增益由下式给出
Figure GDA0003961482890000203
Figure GDA0003961482890000204
EEE11涉及根据EEE7到EEE10中任一者所述的方法,其包括针对所述多个集群中的所述集群:确定所述集群中每一音频元素的相应个别补偿增益;将相应个别补偿增益应用到所述集群中的所述音频元素以获得经个别补偿音频元素;基于所述经个别补偿音频元素贡献于所述集群的相应频谱确定所述集群的频谱;及至少部分地基于所述集群中所述经个别补偿音频元素的能量量度及所述集群的所述频谱,确定所述集群的总补偿增益作为所述集群中每一经个别补偿音频元素的所述补偿增益的至少一部分。
EEE12涉及根据EEE7到EEE10中任一者所述的方法,其包括针对所述多个集群中的所述集群:确定所述集群中每一音频元素的相应个别补偿增益;将相应个别补偿增益应用到所述集群中的所述音频元素以获得经个别补偿音频元素;将所述集群的第五能量量度确定为所述集群中的所述经个别补偿音频元素贡献于所述集群的所述能量量度的总和;基于所述经个别补偿音频元素贡献于所述集群的相应频谱确定所述集群的频谱;基于所述集群的所述频谱确定所述集群的第六能量量度;及基于所述第五能量量度及所述第六能量量度,确定所述集群的总补偿增益作为所述集群中每一经个别补偿音频元素的所述补偿增益的至少一部分。
EEE13涉及根据EEE1到EEE12中任一者所述的方法,其进一步包括针对呈现所述集群中的至少一者的扬声器:确定所述音频元素贡献于所述扬声器的输出的相应能量量度;基于所述音频元素贡献于所述扬声器的所述输出的相应频谱确定所述扬声器的所述输出的频谱;及至少部分地基于所述音频元素贡献于所述扬声器的所述输出的能量量度及所述扬声器的所述输出的所述频谱确定所述扬声器的总补偿增益。
EEE14涉及根据EEE1到EEE12中任一者所述的方法,其进一步包括针对呈现所述集群中的至少一者的扬声器:确定所述音频元素贡献于所述扬声器的输出的相应能量量度;基于所述音频元素贡献于所述扬声器的所述输出的相应能量量度确定所述扬声器的所述输出的第七能量量度;基于所述音频元素贡献于所述扬声器的所述输出的相应频谱确定所述扬声器的所述输出的频谱;基于所述扬声器的所述输出的所述频谱确定所述扬声器的所述输出的第八能量量度;及基于所述第七能量量度及所述第八能量量度确定所述扬声器的总补偿增益。
EEE15涉及根据EEE14所述的方法,其中所述第七能量量度由下式给出
Figure GDA0003961482890000211
其具有针对多个音频元素中的音频元素o及扬声器s的元素到扬声器增益gos;其中所述扬声器的所述输出的所述频谱由下式给出Xcls→spk=∑cogcsgocXo,指数c指示所述集群,Xo指示给定音频元素o的频谱,gcs是针对集群c及所述扬声器s的集群到扬声器增益,且goc是针对集群c及所述集群中的音频元素o的集群到扬声器增益;及/或其中所述第八能量量度由下式给出
Figure GDA0003961482890000212
EEE16涉及根据EEE14或EEE15所述的方法,其中所述扬声器的所述总补偿增益经确定为所述第七能量量度与所述第八能量量度的比率的平方根。
EEE17涉及根据EEE1到EEE16中任一者所述的方法,其中针对所述音频内容的每一帧或每一组帧确定所述补偿增益。
EEE18涉及根据EEE1到EEE17中任一者所述的方法,其中将所述多个音频元素聚类为所述多个集群包括:将所述多个音频元素聚类为多个中间集群;及将所述多个中间集群聚类为所述多个集群。
EEE19涉及根据EEE1到EEE18中任一者所述的方法,其进一步包括:在将所述补偿增益应用到相应音频元素之前,将动态范围压缩器或限制器应用到所述确定的补偿增益。
EEE20涉及根据EEE1到EEE19中任一者所述的方法,其进一步包括:取决于所述相应集群的预期能量与实际能量之间的差是否小于针对所述差的预定阈值,将所述补偿增益设置为一。
EEE21涉及根据EEE1到EEE20中任一者所述的方法,其进一步包括:增加所述多个音频元素中空间大小超过所述大小的预定阈值的音频元素之间的去相关性。
EEE22涉及根据EEE1到EEE21中任一者所述的方法,其中所述补偿增益在多个频率子带中的每一者中确定。
EEE23涉及根据EEE1到EEE22中任一者所述的方法,其中所述能量量度为响度量度。
EEE24涉及一种设备,所述设备包括处理器及耦合到所述处理器并存储供所述处理器执行的指令的存储器,其中所述处理器经配置以执行根据EEE1到EEE23中任一者所述的方法的方法步骤。
EEE25涉及一种计算机程序,所述计算机程序包含当由处理器执行时使所述处理器执行根据EEE1到EEE23中任一者所述的处理音频内容的方法的指令。
EEE26涉及存储根据EEE25所述的计算机程序的计算机可读媒体。

Claims (23)

1.一种处理包含多个音频元素的音频内容的方法,所述方法包括:
将所述多个音频元素聚类为音频元素的多个集群;及
针对所述多个集群中的一个集群:
针对所述一个集群中的每一音频元素,确定所述音频元素贡献于所述一个集群的能量量度;
针对所述一个集群中的至少一个音频元素,至少部分地基于所述一个集群中所述音频元素的所述能量量度确定补偿增益;及
将所述补偿增益应用到所述一个集群中的所述至少一个音频元素,
其中相应音频元素贡献于所述一个集群的所述能量量度由
Figure FDA0003961482880000011
给出,其中指数c指示所述一个集群,指数o指示所述相应音频元素,Eo是所述音频元素的能量,且goc是针对所述相应音频元素的元素到集群增益,其中所述元素到集群增益是所述相应音频元素呈现到所述一个集群的增益;以及
针对所述多个集群中的所述一个集群,所述方法进一步包括:
确定所述一个集群的第一能量量度为所述一个集群中的所述音频元素贡献于所述一个集群的所述能量量度的总和;
基于所述音频元素贡献于所述一个集群的相应频谱确定所述一个集群的频谱;
基于所述一个集群的所述频谱确定所述一个集群的第二能量量度;及
基于所述第一能量量度及所述第二能量量度,确定所述一个集群的总补偿增益作为所述一个集群中每一音频元素的所述补偿增益的至少一部分。
2.根据权利要求1所述的方法,其中针对所述一个集群的第一能量量度由下式给出
Etot_o=∑oEoc
及/或其中所述第二能量量度由下式给出
Figure FDA0003961482880000012
其中指数o指示所述一个集群中的相应音频元素,Xc=∑ogocXo是所述一个集群的频谱,Xo是所述相应音频元素的频谱,且
Figure FDA0003961482880000013
指示Xc的复共轭。
3.根据权利要求1或权利要求2所述的方法,其中所述一个集群的所述总补偿增益经确定为所述第一能量量度与所述第二能量量度的比率的平方根。
4.根据权利要求1所述的方法,其包括针对所述多个集群中的所述一个集群中的给定音频元素:
确定所述给定音频元素与所述多个音频元素中的任一者之间的相关性量度;及
至少部分地基于所述一个集群中所述音频元素的所述能量量度及所述给定音频元素与所述多个音频元素中的任一者之间的所述相关性量度,确定所述给定音频元素的个别补偿增益作为所述给定音频元素的所述补偿增益的至少一部分。
5.根据权利要求1所述的方法,其包括针对所述多个集群中的所述一个集群中的给定音频元素:
确定所述给定音频元素与所述多个音频元素中的任一者之间的相关性量度;
确定所述给定音频元素的第三能量量度为所述音频元素贡献于所述一个集群的所述能量量度的加权总和,其中针对所述能量量度的权重基于相应音频元素与所述给定音频元素之间的相应相关性量度;
确定所述给定音频元素的第四能量量度为所述给定音频元素贡献于所述一个集群的所述能量量度及所述多个音频元素中除所述给定音频元素之外的所述音频元素贡献于所述一个集群的相应能量量度的几何平均值跨所述多个音频元素中除所述给定音频元素之外的任何音频元素的加权总和,其中所述几何平均值的权重基于所述相应音频元素与所述给定音频元素之间的相应相关性量度;及
基于所述第三能量量度及所述第四能量量度,确定所述给定音频元素的个别补偿增益作为所述给定音频元素的所述补偿增益的至少一部分。
6.根据权利要求4或权利要求5所述的方法,其中确定所述给定音频元素的所述个别补偿增益,使得所述给定音频元素与所述多个音频元素中的任一者之间的较大相关性量度产生针对所述给定音频元素的较小个别补偿增益。
7.根据权利要求5所述的方法,其中所述给定音频元素与所述多个音频元素中的任一者之间的所述相关性量度由下式给出
Figure FDA0003961482880000021
其中指数o及u分别指示所述给定音频元素及所述多个音频元素中的所述一者,Xo是所述给定音频元素的频谱,Xu是所述多个音频元素中的所述一者的频谱,Eo是所述给定音频元素的能量,Eu是所述多个音频元素中的所述一者的能量,且
Figure FDA0003961482880000031
指示Xo的复共轭;其中所述第三能量量度由下式给出
aoc=∑u|rou|Euc
及/或其中所述第四能量量度由下式给出
Figure FDA0003961482880000032
8.根据权利要求7所述的方法,其中所述个别补偿增益由下式给出
Figure FDA0003961482880000033
9.根据权利要求4、5、7及8中任一权利要求所述的方法,其包括针对所述多个集群中的所述一个集群:
确定所述一个集群中每一音频元素的相应个别补偿增益;
将相应个别补偿增益应用到所述一个集群中的所述音频元素以获得经个别补偿音频元素;
基于所述经个别补偿音频元素贡献于所述一个集群的相应频谱确定所述一个集群的频谱;及
至少部分地基于所述一个集群中所述经个别补偿音频元素的所述能量量度及所述一个集群的所述频谱,确定所述一个集群的总补偿增益作为所述一个集群中每一经个别补偿音频元素的所述补偿增益的至少一部分。
10.根据权利要求4、5、7及8中任一权利要求所述的方法,其包括针对所述多个集群中的所述一个集群:
确定所述一个集群中每一音频元素的相应个别补偿增益;
将相应个别补偿增益应用到所述一个集群中的所述音频元素以获得经个别补偿音频元素;
将所述一个集群的第五能量量度确定为所述一个集群中的所述经个别补偿音频元素贡献于所述一个集群的所述能量量度的总和;
基于所述经个别补偿音频元素贡献于所述一个集群的相应频谱确定所述一个集群的频谱;
基于所述一个集群的所述频谱确定所述一个集群的第六能量量度;及
基于所述第五能量量度及所述第六能量量度,确定所述一个集群的总补偿增益作为所述一个集群中每一经个别补偿音频元素的所述补偿增益的至少一部分。
11.根据权利要求1、2、4、5、7及8中任一权利要求所述的方法,其进一步包括针对呈现所述多个集群中的至少一者的扬声器:
确定所述音频元素贡献于所述扬声器的输出的相应能量量度;
基于所述音频元素贡献于所述扬声器的所述输出的相应频谱确定所述扬声器的所述输出的频谱;及
至少部分地基于所述音频元素贡献于所述扬声器的所述输出的所述能量量度及所述扬声器的所述输出的所述频谱确定所述扬声器的总补偿增益。
12.根据权利要求1、2、4、5、7及8中任一权利要求所述的方法,其进一步包括针对呈现所述多个集群中的至少一者的扬声器:
确定所述音频元素贡献于所述扬声器的输出的相应能量量度;
基于所述音频元素贡献于所述扬声器的所述输出的所述相应能量量度确定所述扬声器的所述输出的第七能量量度;
基于所述音频元素贡献于所述扬声器的所述输出的相应频谱确定所述扬声器的所述输出的频谱;
基于所述扬声器的所述输出的所述频谱确定所述扬声器的所述输出的第八能量量度;及
基于所述第七能量量度及所述第八能量量度确定所述扬声器的总补偿增益。
13.根据权利要求12所述的方法,其中所述第七能量量度由下式给出
Figure FDA0003961482880000041
其具有针对所述多个音频元素中的音频元素o及扬声器s的元素到扬声器增益gos;其中所述扬声器的所述输出的所述频谱由下式给出
Xcls→spk=∑cogcsgocXo
指数c指示所述一个集群,Xo指示给定音频元素o的频谱,gcs是针对集群c及所述扬声器s的集群到扬声器增益,且goc是针对集群c及所述一个集群中的音频元素o的集群到扬声器增益;及/或其中所述第八能量量度由下式给出
Figure FDA0003961482880000051
14.根据权利要求12所述的方法,其中所述扬声器的所述总补偿增益经确定为所述第七能量量度与所述第八能量量度的比率的平方根。
15.根据权利要求1、2、4、5、7及8中任一权利要求所述的方法,其中针对所述音频内容的每一帧或每一组帧确定所述补偿增益。
16.根据权利要求1、2、4、5、7及8中任一权利要求所述的方法,其中将所述多个音频元素聚类为所述多个集群包括:将所述多个音频元素聚类为多个中间集群;及将所述多个中间集群聚类为所述多个集群。
17.根据权利要求1、2、4、5、7及8中任一权利要求所述的方法,其进一步包括:
在将所述补偿增益应用到相应音频元素之前,将动态范围压缩器或限制器应用到所述确定的补偿增益。
18.根据权利要求1、2、4、5、7及8中任一权利要求所述的方法,其进一步包括:
取决于相应集群的预期能量与实际能量之间的差是否小于针对所述差的预定阈值而对所述补偿增益进行设置,其中如果所述差小于所述预定阈值,那么将所述补偿增益设置为一。
19.根据权利要求1、2、4、5、7及8中任一权利要求所述的方法,其进一步包括:
使所述多个音频元素中的空间大小超过预定阈值的音频元素之间的去相关性增加,所述预定阈值针对所述空间大小。
20.根据权利要求1、2、4、5、7及8中任一权利要求所述的方法,其中所述补偿增益在多个频率子带中的每一者中确定。
21.根据权利要求1、2、4、5、7及8中任一权利要求所述的方法,其中所述能量量度为响度量度。
22.一种用于处理音频内容的设备,所述设备包括处理器及耦合到所述处理器并存储供所述处理器执行的指令的存储器,其中所述处理器经配置以执行根据前述权利要求中任一权利要求所述的方法的方法步骤。
23.一种计算机可读媒体,其存储指令,所述指令当由处理器执行时使所述处理器执行根据权利要求1至21中任一权利要求所述的处理音频内容的方法的指令。
CN202080010337.4A 2019-02-13 2020-02-12 用于音频对象聚类的自适应响度规范化 Active CN113366865B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN2019074915 2019-02-13
CNPCT/CN2019/074915 2019-02-13
US201962814718P 2019-03-06 2019-03-06
US62/814,718 2019-03-06
EP19161889.1 2019-03-11
EP19161889 2019-03-11
PCT/US2020/017953 WO2020167966A1 (en) 2019-02-13 2020-02-12 Adaptive loudness normalization for audio object clustering

Publications (2)

Publication Number Publication Date
CN113366865A CN113366865A (zh) 2021-09-07
CN113366865B true CN113366865B (zh) 2023-03-21

Family

ID=69780347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080010337.4A Active CN113366865B (zh) 2019-02-13 2020-02-12 用于音频对象聚类的自适应响度规范化

Country Status (5)

Country Link
US (1) US11930347B2 (zh)
EP (1) EP3925236A1 (zh)
JP (1) JP2022521694A (zh)
CN (1) CN113366865B (zh)
WO (1) WO2020167966A1 (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8143620B1 (en) * 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
CN103199881A (zh) * 2013-04-11 2013-07-10 海能达通信股份有限公司 自动增益控制方法、系统和接收机
WO2018017394A1 (en) * 2016-07-20 2018-01-25 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2002426B1 (en) 2006-04-04 2009-09-02 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US9530421B2 (en) 2011-03-16 2016-12-27 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
US9312829B2 (en) * 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
BR122021021487B1 (pt) 2012-09-12 2022-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
US9247342B2 (en) * 2013-05-14 2016-01-26 James J. Croft, III Loudspeaker enclosure system with signal processor for enhanced perception of low frequency output
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
US9712939B2 (en) 2013-07-30 2017-07-18 Dolby Laboratories Licensing Corporation Panning of audio objects to arbitrary speaker layouts
KR101681529B1 (ko) * 2013-07-31 2016-12-01 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
EP3332557B1 (en) * 2015-08-07 2019-06-19 Dolby Laboratories Licensing Corporation Processing object-based audio signals
US10278000B2 (en) 2015-12-14 2019-04-30 Dolby Laboratories Licensing Corporation Audio object clustering with single channel quality preservation
US10764704B2 (en) * 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8143620B1 (en) * 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
CN103199881A (zh) * 2013-04-11 2013-07-10 海能达通信股份有限公司 自动增益控制方法、系统和接收机
WO2018017394A1 (en) * 2016-07-20 2018-01-25 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference

Also Published As

Publication number Publication date
WO2020167966A1 (en) 2020-08-20
US20220159395A1 (en) 2022-05-19
EP3925236A1 (en) 2021-12-22
JP2022521694A (ja) 2022-04-12
US11930347B2 (en) 2024-03-12
CN113366865A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
US20240018844A1 (en) System for maintaining reversible dynamic range control information associated with parametric audio coders
EP2936485B1 (en) Object clustering for rendering object-based audio content based on perceptual criteria
RU2639952C2 (ru) Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
EP2347556B1 (en) Upstream signal processing for client devices in a small-cell wireless network
US10362426B2 (en) Upmixing of audio signals
US20110164855A1 (en) Upstream quality enhancement signal processing for resource constrained client devices
CN113647120B (zh) 用于控制响度级的音频信号处理装置
US20190334496A1 (en) Audio signal processing method and apparatus for controlling loudness level
KR20210116274A (ko) 메타데이터를 이용하여 오디오 신호의 라우드니스 레벨을 제어 방법 및 이를 이용하는 장치
CN113366865B (zh) 用于音频对象聚类的自适应响度规范化
WO2021014933A1 (ja) 信号処理装置および方法、並びにプログラム
JP2024510205A (ja) ダウンミックスされた信号の適応利得制御を有するオーディオコーデック
KR101296765B1 (ko) 스피커와 청취자 위치를 반영한 능동적 오디오 매트릭스 디코딩 방법 및 장치
CN109479178B (zh) 基于呈现器意识感知差异的音频对象聚集
KR20240014462A (ko) 공간 오디오 객체의 동적 범위 조정

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant