CN117223057A - 空间音频对象的动态范围调整 - Google Patents
空间音频对象的动态范围调整 Download PDFInfo
- Publication number
- CN117223057A CN117223057A CN202280031384.6A CN202280031384A CN117223057A CN 117223057 A CN117223057 A CN 117223057A CN 202280031384 A CN202280031384 A CN 202280031384A CN 117223057 A CN117223057 A CN 117223057A
- Authority
- CN
- China
- Prior art keywords
- presentation
- audio
- gain
- signal level
- time period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000009877 rendering Methods 0.000 claims description 60
- 230000005236 sound signal Effects 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000003111 delayed effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
Abstract
本公开涉及用于执行空间音频对象的动态范围调整的方法和音频处理系统。该方法包括获得(步骤S1)多个空间音频对象(10),获得(步骤S2)空间音频对象(10)的至少一个被渲染的音频呈现,以及确定(步骤S3)与呈现音频通道集合中的每个呈现音频通道相关联的信号电平数据。该方法还包括获得(步骤S31)阈值,并且对于每个时间段,选择(步骤S4)与最高或最低信号电平相关联的被选择呈现音频通道,基于阈值和被选择音频通道的信号电平的表示来确定(步骤S5)增益,并且将每个时间段的增益应用(步骤S6)于空间音频对象的对应时间段。
Description
相关申请的交叉引用
本申请要求2021年5月28日提交的美国临时申请第63/194,359号的优先权,该美国临时申请的全部内容通过引用并入此。
发明技术领域
本发明涉及用于执行空间音频对象的动态范围调整的方法,以及采用上述方法的音频处理系统。
发明背景
在音频母版制作(mastering)领域,母版制作工程师通常接收被渲染的音频呈现,并执行例如均衡化或其他形式的音频处理,使其适合在目标播放系统(例如耳机或家庭影院音频系统)上播放。例如,如果音频呈现是在专业录音室录制的高质量立体声信号,则母版制作工程师可能需要修改高质量立体声信号的动态范围或均衡,以获得更适合低比特率数字化和/或通过简单立体声设备(例如耳塞)进行播放的母版制作立体声信号。
在母版制作过程中,特别是在音乐母版制作中,使用不同形式的限峰器,以确保渲染呈现的音频信号不超过峰值阈值。此外,限峰器的使用是改变渲染呈现的音频信号的动态范围或其他属性的有效工具,这将影响终端用户如何感知母版制作呈现。
以类似的方式,在母版制作过程中使用音频压缩器以实现被渲染的呈现音频信号的向上和/或向下压缩。例如,向下音频压缩器将对信号电平高于预定阈值的音频信号施加衰减,其中所施加的衰减例如随着信号电平超过阈值而线性增大。因此,压缩器通常会确保较高的信号电平导致引入更侵略性(aggressive)的衰减,对于扩展器而言反之亦然。
随着由多个音频对象表示的基于对象的音频内容的引入,可以将相同的基于对象的音频内容渲染为大量的不同呈现,例如立体声呈现或多通道呈现,例如5.1或7.1呈现。虽然这使得能够灵活地将相同的音频内容渲染到不同呈现,同时提供增强的空间音频体验,但这种灵活性给音频母版制作带来了问题。由于基于对象的音频要被渲染为的呈现不是预先确定的,因此不存在可以应用母版处理的限峰器或压缩器的单一呈现。
发明内容
现有提出的用于对基于对象的音频内容进行母版制作的方法的一个缺点在于该过程通常不是无损的,并且可能在除已被母版制作的单个呈现之外的其他呈现处引入不期望的音频伪影。另外,现有提出的用于对基于对象的音频内容进行母版制作的方法不允许母版制作工程师基本上实时地试听母版制作过程的结果,此外,母版制作工程师每次仅能够对基于对象的音频内容的一种预定呈现进行工作。例如,如果母版制作工程师要创建相同空间音频内容的母版立体声呈现和母版5.1呈现,则母版制作工程师将需要对这两种不同呈现中的每一者相继执行两个单独的母版制作过程。
用于执行音频母版制作的现有技术的这些缺点在对基于对象的音频内容进行母版制作时带来了繁琐且重复的工作流程,同时,在除母版制作工程师分析的被选择的少数呈现格式之外,所得到的被母版制作的基于对象的音频内容仍然可能具有不期望的音频伪影。
因此,本公开的一个目的是提供改进的用于执行空间音频对象的动态范围调整的方法和音频处理系统。
根据本发明的第一方面,提供了用于执行空间音频对象的动态范围调整的方法。该方法包括获得多个空间音频对象、获得阈值以及获得空间音频对象的至少一个渲染音频呈现,其中该至少一个渲染音频呈现包括形成呈现音频通道集合的至少一个呈现音频通道。该方法还包括确定与该呈现音频通道集合中的每个呈现音频通道相关联的信号电平数据,其中信号电平数据表示呈现音频通道的多个时间段的信号电平,并且对于每个时间段,选择被选择呈现音频通道,该被选择呈现音频通道是该呈现音频通道集合中的与该呈现音频通道集合中的其它呈现音频通道相比与该时间段的最高信号电平或最低信号电平相关联的呈现音频通道。对于被选择呈现通道,该方法还包括确定增益,该增益是基于阈值和被选择音频通道的信号电平的表示的,并且将每个时间段的增益应用于每个空间音频对象的对应时间段以形成动态范围调整的空间音频对象。
增益指的是信号幅度和/或功率电平的修改。应当理解,修改可以涉及信号幅度和/或功率水平的增大或减小。也就是说,术语“增益”涵盖了放大增益(意味着幅度和/或功率增大)和衰减(意味着幅度和/或功率减小)。为了强调这一点,广义术语“增益”在某些情况下将被称为“衰减和/或增益”或“衰减/增益”。
也就是说,该方法涉及精确确定该呈现通道集合中所有呈现通道上的在每个时间段的最高/最低信号电平,并基于每个时间段的最高/最低信号电平和阈值确定衰减/增益。所确定的衰减/增益被应用于多个空间音频对象中的每一个空间音频对象的对应时间段,以形成动态范围调整的空间音频对象,该动态范围调整的空间音频对象进而可以被渲染为任意呈现格式。
确定衰减/增益可以包括确定衰减/增益以实现以下至少之一:限峰器、限底器(与限峰器相反)、向上压缩器、向下压缩器、向上扩展器、向下扩展器、及其平滑版本。在一些实施方式中,阈值与指示针对高于/低于阈值的信号电平要被应用的衰减/增益量的比率一起被获得。此外,除了最高/最低信号电平之外,衰减/增益还可以基于附加信号电平。
例如,衰减/增益可以基于所有呈现通道的每个时间段或每个时间段中的两个、三个、四个或更多个最高/最低呈现音频通道的信号电平的组合,例如加权平均。在这样的实现中,选择呈现通道的步骤被替换为如下步骤:针对每个时间段,计算该呈现通道集合中所有呈现通道的平均信号电平,其中衰减增益基于该平均信号电平和所获得的阈值。
本公开至少部分地基于以下理解:通过选择最高/最低呈现通道并基于被选择呈现通道的信号电平确定衰减/增益,可以创建动态范围调整的空间音频对象,其将包括对于它们被渲染为的任何呈现格式的动态范围调整。另外,上述方法促进了处理空间音频对象的母版制作工程师的高效工作流程,因为在执行动态范围调整的同时,可以将调整后的空间音频对象渲染为任意数量的呈现格式,从而允许母版制作工程师在母版制作过程中试听该调整并轻松切换呈现格式。
在一些实施方式中,获得至少两个渲染呈现,其中每个渲染音频呈现包括至少一个呈现音频通道。因此,选择呈现通道的步骤可以跨两个或更多个不同呈现的呈现音频通道发生。例如,衰减/增益还可以基于第二被选择呈现通道的信号电平的表示,其中第二被选择呈现通道为与被选择音频通道不同的渲染呈现。如上所述,可以组合多于一个的信号电平,其中两个或更多个信号电平的组合被用于确定衰减增益。
WO2021007246中公开了一种明显不同的实现基于对象的音频内容的母版制作的方法,该方法涉及将音频内容渲染为单个呈现并允许母版制作工程师或母版制作过程对该单个呈现执行音频处理以形成母版呈现。通过将母版呈现与原始呈现进行比较,可以提取母版呈现与原始呈现之间的差异,其中基于所确定的差异对基于对象的音频内容进行母版制作处理。
附图说明
将参照附图更详细地描述本发明,附图示出了本发明当前的优选实施例。
图1是示出根据一些实现的用于执行空间音频对象的动态范围调整的音频处理系统的框图。
图2是示出根据一些实现的用于执行空间音频对象的动态范围调整的方法的流程图。
图3是示出根据一些实现的用于执行空间音频对象的动态范围调整的音频处理系统的框图,该音频处理系统具有三个渲染器,每个渲染器将空间音频对象渲染成不同的渲染呈现。
图4是示出根据一些实现的用于在由分析滤波器组提取的不同子带表示中执行空间音频对象的动态范围调整的音频处理系统的框图。
图5是示出根据一些实现的用于利用在侧链中计算的快增益和慢增益执行空间音频对象的动态范围调整的音频处理系统的框图。
图6是示出根据一些实现的用户操纵输出渲染器参数和/或侧链参数以修改由音频处理系统实施的动态范围调整的框图。
具体实施方式
本公开中公开的系统和方法可以被实现为软件、固件、硬件或其组合。在硬件实现中,任务的划分并不一定对应于物理单元的划分;相反,一个物理组件可以具有多种功能,并且一项任务可以由数个物理组件协作执行。
计算机硬件可以例如是服务器计算机、客户端计算机、个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、智能手机、Web设备、网络路由器、交换机或网桥,或任何能够(顺序或以其他方式)执行指定计算机硬件要采取的操作的指令的机器。此外,本公开应当涉及单独或联合执行指令以执行本文讨论的概念中的任何一者或多者的计算机硬件的任何集合。
某些或所有组件可以由一个或多个处理器来实现,该一个或多个处理器接受包含指令集的计算机可读(也称为机器可读)代码,该指令集在由一个或多个处理器执行时执行本文描述的方法中的至少一者。任何能够(顺序或以其他方式)执行指定要采取的操作的指令集的处理器都包括在内。因此,一个例子就是包括一个或多个处理器的典型处理系统(即,计算机硬件)。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一者或多者。处理系统还可以包括存储器子系统,其包括硬盘驱动器、SSD、RAM和/或ROM。可以包括总线子系统,其用于在组件之间进行通信。软件在由计算机系统执行期间可以驻留在存储器子系统中和/或处理器内。
一个或多个处理器可以作为独立设备操作,或者可以连接(例如联网)到其他(一个或多个)处理器。这样的网络可以建立在各种不同的网络协议上,并且可以是互联网、广域网(WAN)、局域网(LAN)或其任意组合。
软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非瞬态介质)和通信介质(或瞬态介质)。如本领域技术人员所熟知的,术语计算机存储介质包括用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术中实现的易失性和非易失性、可移动和不可移动介质两者。计算机存储介质包括但不限于各种形式的物理(非瞬态)存储介质,例如EEPROM、闪存或其他存储技术、CD-ROM、数字多功能光盘(DVD)或其他光盘存储器、磁盒、磁带、磁盘存储器、或其他磁存储设备、或者可以用于存储所需信息的并且可以由计算机访问的任何其他介质。此外,本领域技术人员公知的,通信介质(瞬态)通常在诸如载波或其他传输机制之类的调制数据信号中体现计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传递介质。
将参考图1和图2讨论根据一些实现的用于动态范围调整的音频处理系统。
多个空间音频对象10包括与(动态)空间位置相关联的多个音频信号。空间位置可以使用与多个音频信号相关联的元数据来表示,其中元数据例如指示音频对象(音频信号)如何在三维空间中移动。空间音频对象10的集合被称为基于对象的音频资产。基于对象的音频资产包括具有由相关联的空间元数据指示的随时间变化的位置的例如2、10、20或更多个空间音频对象,例如50或100个空间音频对象。
在步骤S1,获得空间音频对象10并将其提供给音频处理系统的侧链30,其包括至少一个渲染器31、信号电平分析器32和增益计算器33。在步骤S2,渲染器31将音频对象10渲染为包括形成呈现音频通道集合的至少一个呈现音频通道的预定音频呈现。预定音频呈现可以例如由母版制作工程师设置,或由渲染器31的预设音频呈现设置。在另一示例中,预定音频呈现可以通过空间音频对象10所表示的音频内容的类型(诸如音乐、语音或电影音轨)来设置。
例如,渲染器31将空间音频对象渲染为选自以下组的至少一种呈现,该组包括:单声道呈现(一个通道)、立体声呈现(两个通道)、双耳呈现(两个通道)、5.1呈现(六个通道)、7.1呈现(八个通道)、5.1.2呈现(八个通道)、5.1.4呈现(十个通道)、7.1.2呈现(十个通道)、7.1.4呈现(十二个通道)、9.1.2呈现(十二个通道)、9.1.4呈现(十四个通道)、9.1.6呈现(十六个通道)、以及至少具有三个高度水平的多通道呈现(例如具有二十四个通道以及位于耳朵水平上方、耳朵水平处和耳朵水平下方的三个高度水平的22.2呈现)。应注意,这些呈现仅仅是示例性的,并且渲染器31可以将空间音频对象渲染为具有任意数量的呈现通道的一个或多个任意呈现。
在一些实施方式中,每种呈现包括至少两个呈现音频通道,这意味着渲染器31被配置为将空间音频对象渲染为排除单声道呈现替代方案(一个通道)的、从上文提到的组中选择的呈现。
每个空间音频对象10的(一个或多个)呈现音频通道和音频信号用时间段序列来表示。时间段可以是单独的样本、帧、两个或更多个帧的组、或者音频通道的预定时间部分。此外,时间段可以部分重叠,使得时间段例如是有30%的重叠的10毫秒的帧。
渲染器31接收具有音频对象索引i和时间段索引n的空间音频对象xi[n],并基于对于对象索引i的元数据Mi[n],计算具有呈现索引j和扬声器馈送索引k的呈现通道sj,k[n]。每个呈现包括至少一个呈现音频通道,其预期使用具有相关联的扬声器馈送索引k的扬声器来播放。例如,对于立体声呈现,k=1,2并且第一呈现音频通道(左立体声通道)与具有索引k=1的扬声器馈送信号相关联,并且第二呈现音频通道(右立体声通道)与具有索引k=2的扬声器馈送信号相关联。在一些实现中,仅使用一种呈现,由于仅存在具有k个扬声器馈送(呈现通道)的一种呈现,因此可以省略索引j。渲染器31将(可能随时间变化的)元数据Mi[n]转换为对于每个对象索引i和扬声器馈送索引k的可能随时间变化的渲染增益向量gi,k[n],以根据下式计算呈现通道sj,k[n]
sj,k[n]=∑ixi[n]gi,k[n] (式1)
其中从元数据Mi[n]到渲染增益向量gi,k[n]的转换通常取决于期望的输出呈现格式。一般而言,渲染器31以频率变化的方式执行空间音频对象10(即,xi[n])到呈现通道sj,k[n]的渲染。例如,当将空间音频对象10渲染为具有两个呈现通道的双耳呈现格式时,空间音频对象10到每个相应双耳通道的映射将是频率相关的,例如考虑频率相关的头部相关传递函数(HRTF)。在另一示例中,音频呈现预期使用具有不同属性的扬声器来播放,这意味着渲染器31可以针对某些扬声器馈送(呈现通道)突出一些频率。据调查,对于预期在例如低性能音频设备上播放的呈现,空间音频对象10的高频和/或低频内容可以被抑制。此外,据调查,例如对于5.1呈现,空间音频对象10的低频内容可以被渲染到LFE通道,而对于中心、左和/或右通道则突出高频。然而,在一些简单的情况下,渲染器31以频率不变的方式执行渲染。
在许多情况下,尽管不是所有情况,空间音频对象10的数量大于扬声器馈送k的数量。
在步骤S3,渲染呈现的呈现音频通道被提供给信号电平分析器32,信号电平分析器32首先确定与呈现音频通道集合中的每个呈现音频通道相关联的信号电平数据。信号电平数据指示每个呈现通道的每个时间段的信号电平的至少一种表示或度量,其中信号电平数据例如是以下中的至少之一:时间段的信号电平/功率的RMS表示、时间段的幅度/功率、时间段的最大幅度/功率、以及时间段的平均幅度/功率。可以使用任何适当的方法来确定信号电平数据,并且在每个呈现音频信号被表示为时域波形样本的简单情况下,信号电平数据仅仅是每个样本的幅度(信号)电平。在另一示例中,其中呈现音频通道用一系列(可能重叠的)频域帧来表示,信号电平可以被确定为每个帧的频谱能量的函数。
此外,信号电平分析器32使用信号电平数据来确定呈现音频信号集合中出现的每个时间段的最大或最小信号电平max[n]或min[n]。作为替代,信号电平分析器32确定至少两个呈现通道(例如,所有呈现通道)的平均信号电平avg[n],其中平均信号电平avg[n]可以是加权平均值。应当理解,虽然首先确定信号电平数据并随后使用信号电平数据确定最大、最小或平均信号电平max[n]、min[n]、avg[n],被描述为两个子步骤,但是最大、最小或平均信号电平max[n]、min[n]、avg[n]可以作为单个步骤直接由呈现音频通道确定。
在步骤S4,在呈现音频通道集合中为每个时间段选择呈现音频通道。例如,与最大信号电平max[n]或最小信号电平min[n]相关联的呈现通道由信号电平分析器32选择。作为替代,步骤S4可以包括通过信号电平分析器32确定至少两个呈现音频通道的平均信号电平avg[n]。例如,使用平均信号电平avg[n]可能会导致动态范围调整的空间音频对象被不太侵略性地压缩或扩展(同时可能允许某些呈现通道高于目标高信号电平或低于目标低信号电平)。使用最大信号电平max[n]或最小信号电平min[n]可有效确保没有呈现通道高于目标高信号电平或低于目标低信号电平(而压缩或扩展是侵略性的并且可能导致使用平均信号电平avg[n]时不存在伪影)。
在步骤S5,衰减/增益计算器33基于被选择的呈现信号的信号电平(或者两个或更多个呈现信号的平均信号电平)来确定衰减或增益,并且将指示所确定的衰减或增益的信息输出至衰减/增益应用单元22。
在一些实施方式中,步骤S5涉及增益计算器33将从信号电平分析器32获得的信号电平(例如,max[n]、min[n]或avg[n])与获得的阈值进行比较,并且计算将峰值max[n]减小到该阈值的衰减,或者将最小信号值min[n]增大到该阈值的增益。也就是说,衰减/增益计算器33可以被配置为计算用于执行向上峰值限制和向下峰值限制中的至少一种以调整空间音频对象10的动态范围的增益或衰减。
在另一实施方式中,步骤S5涉及增益计算器33将在步骤S4处获得的min[n]或avg[n]信号电平与所获得的阈值进行比较,并且如果min[n]或avg[n]信号电平低于阈值,则增益计算器33指示该时间段应当被衰减(例如完全静音)。例如,这样的增益计算器可以用于实现向下扩展,例如完全静默具有低于阈值的关联信号电平的任何时间段。
在步骤S6,衰减/增益应用单元22将衰减/增益应用于每个空间音频对象10的相应时间段,以形成动态范围调整的空间音频对象x'i[n]。衰减/增益应用单元22与可选的延迟单元21一起形成主处理链20,其以由侧链30控制的方式处理空间音频对象(例如,应用增益或衰减)。
在一些实施方式中,在S31处获得的阈值伴随有指示对于高于/低于阈值的信号电平要应用的衰减/增益的调整比率系数。因此,由增益计算器33计算的衰减/增益可以充当压缩器或扩展器,其中调整比率是诸如1:2、1:3、1:4或一般的1:x(其中x∈(1,∞))的比率。应当理解,1:∞的调整比率将对应于限峰器或限底器。例如,步骤S31包括获得调整比率系数,并且步骤S5包括利用衰减/增益计算器33确定阈值差,该阈值差是峰值阈值与被选择音频通道的信号电平表示之间的差,并根据利用调整比率系数加权的阈值差来确定限制衰减/增益。阈值和/或调整比率可以基于期望的输入/输出曲线,该曲线例如由用户创建。
通过衰减/增益应用器22应用衰减/增益而创建的动态范围调整的空间音频对象x'i[n]可以被存档、编码、分发或渲染以供直接试听。例如,动态范围调整的空间音频对象x'i[n]可以被提供给存储单元50a或者被发送给至少一个呈现渲染器50b,例如耳机扬声器渲染器(立体声渲染器)或7.1.4扬声器渲染器。任何其他类型的呈现渲染器也可被使用并且在本公开的范围内。
应指出,虽然空间音频对象已由渲染器31渲染为预定标称呈现,但空间音频对象10可渲染为适合于不同扬声器或耳机设置的大量不同呈现。尽管动态范围调整的空间音频对象x'i[n]是通过分析所选择的少量渲染呈现(例如一个渲染呈现)而获得的,但即使当动态范围调整的空间对象x'i[n]被渲染到除分析中使用的所选择少数呈现之外的呈现时,动态范围调整的空间音频对象x'i[n]的动态范围调整仍将完成动态范围调整。
例如,侧链30将空间音频对象渲染为5.1.2呈现,其包括五个耳高扬声器馈送、一个低频效果(LFE)信号、和两个顶置扬声器馈送,信号电平分析器32和增益计算器33对该呈现进行操作。在衰减/增益应用器22中将所得到的时变衰减/增益应用到空间音频对象10的相应时间段,以获得动态范围调整的空间音频对象x'i[n]。动态范围调整的空间音频对象x'i[n]继而可被存储在存储器50a中或由呈现渲染器50b渲染为任何呈现(包括5.1.2呈现),例如2.0呈现或7.1.4呈现,其将表征动态范围调整。
在一些实施方式中,音频处理系统还包括被配置为形成空间音频对象10的延迟版本的延迟单元21。延迟单元21引入的延迟可以是与侧链30的渲染器31、信号电平分析器32和/或增益计算器33引入的延迟相对应的延迟。由渲染器31引入的延迟可以根据由渲染器输出的呈现格式而有很大变化。对于时域渲染器,延迟可能非常短,例如零或数十个样本,而基于变换的渲染器(例如,用于渲染用于耳机的双耳音频信号)可能具有较长的延迟,范围从数百到数千个样本,例如从500到2000个样本。
图3示出了根据一些实现的用于执行空间音频对象10的动态范围调整的音频处理系统。如图所示,音频处理系统的侧链30包括至少两个渲染器,例如三个渲染器31a、31b、31c,其中每个渲染器31a、31b、31c被配置为获得多个空间音频对象10并将空间音频对象渲染为相应的渲染呈现,每个渲染呈现包括形成呈现音频通道集合的至少一个呈现音频通道。因此,信号电平分析器32对多于一个的呈现执行信号电平分析。例如,当确定max[n]、min[n]或avg[n]信号电平时,信号电平分析器32在包括来自两个或更多个渲染呈现的通道的呈现通道集合中的所有呈现通道上确定max[n]、min[n]或avg[n]。
在一些实现中,信号电平分析器32在包括呈现通道集合中的至少两个呈现通道的子集中的所有呈现通道上确定max[n]、min[n]或avg[n]。例如,信号电平分析器32可以选择每个呈现中的最大信号电平max[n]或最小信号电平min[n],并且确定所选择的最大信号电平max[n]或最小信号电平mix[n]的平均值。
例如,渲染器A 31a将空间音频对象10渲染为立体声呈现(sA,k,其中k=1、2),渲染器B 31b将空间音频对象10渲染为5.1呈现(sB,k,其中k=1、2...6)),并且渲染器C 31c将空间音频对象10渲染为7.1.4呈现(sC,k,其中k=1,2...12).在该示例中,信号电平分析器32对于来自三种不同渲染呈现的2+6+12=20个通道执行分析(例如,确定max[n]、min[n]或avg[n])。
虽然图3中描绘的实施例具有三个渲染器31a、31b、31c,但作为三个渲染器31a、31b、31c的替代,可以使用任何数量的渲染器,例如两个渲染器或至少四个渲染器。此外,虽然渲染器31a、31b、31c被描绘为单独的渲染器,但是可以通过被配置为将空间音频对象10渲染为两个或更多个呈现的单个渲染器来获得两个或更多个渲染音频呈现。
衰减/增益计算器33确定每个时间段的衰减/增益,并将所确定的衰减/增益提供给主链20以应用于空间音频对象10的对应时间段。
在一些实施方式中,对于至少两个呈现sA,k,sB,k,sC,k中的每一者使用相同的阈值。在其他实施方式中,针对至少两种呈现中的每一者获得单独的阈值,其中衰减/增益基于每种呈现的阈值以及被选择的呈现音频通道。因此,可以针对所有呈现全局地设置阈值,针对每种呈现单独地设置阈值,或者针对每个呈现子集设置阈值。例如,一个子集可以包括预期使用头戴式耳机或耳塞播放的呈现,而另一子集包括预期使用环绕系统中的扬声器播放的呈现。
例如,增益计算器33基于第一呈现的阈值水平和被选择的呈现音频通道结合第二呈现的阈值水平和被选择的呈现音频通道来计算衰减/增益。组合被选择的呈现音频通道和至少两个呈现音频通道的阈值水平可以例如包括计算针对每种呈现计算的衰减/增益的平均值(或加权平均值)。例如,当计算用于实现向下压缩的衰减时,增益计算器33将被选择的音频通道的信号电平与第一阈值进行比较,并且确定压缩第一呈现所需要的第一衰减A1。类似地,增益计算器33确定压缩第二呈现需要第二衰减A2,由此信号计算器33计算第一和第二衰减A1、A2的组合(例如平均值或加权平均值),其由衰减/增益应用器22应用。
每个呈现的阈值可以通过例如考虑每种呈现中空间音频对象的缩混被从单个获得的阈值来确定。
在一些实现方式(未示出)中,每个渲染器31a、31b、31c与单独的信号电平分析器32和/或单独的增益计算器33相关联。例如,每个渲染器31a、31b、31c与单独的信号电平分析器32相关联,其将信号电平min[n]、max[n]、avg[n]输出到公共的增益计算器33。此外,设想每个渲染器31a、31b、31c与单独的信号电平分析器32和单独的增益计算器33相关联,由此单独的增益计算器33的增益被组合(例如,通过平均、加权平均、最小选择,最大选择),使得组合增益被提供给衰减/增益应用器22。
图4示出了根据一些实现的用于执行空间音频对象10的动态范围调整的音频处理系统。在侧链30中,空间音频对象10被提供给至少一个渲染器31以形成一个或数个渲染音频呈现。每个渲染音频呈现被提供给侧链30中的分析滤波器组41b,其提取每个渲染音频呈现的至少两个子带表示。在所描绘的实施例中,分析滤波器组41b提取由至少一个渲染器31输出的每个渲染呈现的三个子带表示,但是可以以类似的方式使用两个或至少四个子带表示。对于每个子带表示,提供单独的信号电平分析器32a、32b、32c和增益计算器33a、33b、33c以确定要应用于空间音频对象10的对应时间段和子带表示的相应衰减/增益。为此,分析滤波器组41a用于提取空间音频对象10的对应子带表示。
在主链20中,单独的衰减/增益应用器22a、22b、22c(每个子带表示一个衰减/增益应用器)获得空间音频对象的子带表示和由增益计算器33a、33b、33c计算的增益,以形成动态范围调整的空间音频对象的子带表示。最后,合成滤波器组42用于将动态范围调整的空间音频对象的子带表示组合成动态范围调整的空间音频对象的单个集合,其被存储或提供给任意呈现渲染器。
每个子带表示的信号电平分析器32a、32b、32c和增益计算器33a、33b、33c可以等同于本申请的其他部分中描述的信号电平分析器32和增益计算器33。也就是说,对于每个时间段选择最高/最低呈现通道或确定平均信号的步骤对于每个子带表示并行地执行。类似地,针对每个子带表示确定衰减/增益,并且由相应的衰减/增益应用器22a、22b、22c应用该衰减/增益。
此外,对于各子带表示使用相同的阈值,或者可选地,对于每个子带表示获得不同的阈值。另外,结合图6描述的侧链参数和输出渲染器参数可以在所有子带表示中相同,或者针对每个子带表示被单独定义。
应理解,虽然图3的多个渲染器和图4的多个频带分别被描述为单独的音频处理系统,但是它们可以形成同一系统的一部分。例如,包括两个或更多个渲染器31的音频处理系统被认为是一种实现,其中至少两个信号电平分析器32a、32b、32c对每个呈现的不同子带表示进行操作。另外,应理解,主链20可以包括一个或多个延迟单元以引入延迟,用以补偿由侧链30引入的任何延迟。
图5描绘了图1中的音频处理系统的变型。图5中的侧链130包括慢增益和/或快增益的计算和应用。慢增益随时间变化相对缓慢,而快增益随时间变化较快。计算和应用快增益和慢增益两者已被证明是消除数字“溢出(over)”的有效方法,其中数字“溢出”指的是例如高于数字系统可以表示的最大数字音频样本的信号电平。
对于慢增益和快增益两者,(一个或多个)渲染器131接收空间音频对象10并将空间音频对象10渲染为至少一种音频呈现。将至少一种渲染音频呈现提供给信号电平分析器,该信号电平分析器例如是最小值/最大值分析器132,其提取所有呈现音频通道上每个时间段的最小信号电平或最大信号电平。作为替代,用平均信号分析器代替最小值/最大值分析器132,该平均信号分析器提取所有呈现通道上的平均信号电平,或者每个渲染呈现中最高/最低呈现通道的平均信号电平。
在前述示例中,最小值/最大值分析器132将被假设为峰值分析器,其被配置为确定呈现音频通道上的峰值信号值p[n],这使得音频处理系统能够执行空间音频对象的峰值限制和/或向下压缩。然而,这些示例类似地适用于被配置为确定两个或更多个呈现通道上的平均信号电平的最小值/最大值分析器132。附加地或替代地,最小值/最大值分析器132可以被配置为确定与最低信号电平min[n]相关联的呈现通道,这使得音频处理系统能够执行例如向上压缩(例如底部限制)或向下扩展,例如对最小或平均信号电平低于阈值电平的时间段进行静默。
峰值分析器将每个时间段的峰值信号值p[n]确定为
为了计算慢增益gs[n],每个时间段的峰值信号值p[n]被提供给控制信号提取器133,控制信号提取器133被配置为在给定峰值信号值p[n]和阈值T的情况下提取用于每个时间段的控制信号c[n]。在一种实现方式中,控制信号提取器133将控制信号计算为:
这意味着如果没有呈现通道超过阈值T,则控制信号c[n]将为零。慢增益计算器135使用控制信号c[n]来计算要由慢增益应用器122a应用于空间音频对象10的慢增益gs[n]。
可选地,控制信号提取器133之后是起始/释放处理器134,其用于修改控制信号c[n]以保持预定的衰减/增益调整速率(rate)。起始/释放处理器134获得调整速率参数,指示两个相邻时间段之间被应用的衰减/增益的最大变化速率(即导数),并创建修改的控制信号c′[n],该修改的控制信号c′[n]被配置为使得所得的衰减/增益以调整速率参数指示的最大变化速率变化。
在一些实施方式中,调整速率参数为至少第一调整速率参数和第二调整速率参数,其中第一调整速率参数指示起始时间常数ta,并且其中第二调整速率参数指示释放时间常数tr。对于起始时间常数和释放时间常数ta、tr、起始系数α和释放系数β可被如下获得
其中fs是被渲染的音频呈现和/或空间音频对象10的采样速率。随后,修改的控制信号c′[n]由起始/释放处理器134计算为:
现在,慢增益计算器135使用来自起始/释放处理器134的c′[n]将慢增益gs[n]计算为
或者可替代地,如果省略134处的可选的起始/释放处理,则用c[n]代替c′[n]。此外,需要注意的是,虽然控制信号c[n]的提取便于描述慢增益的提取,但是并不必须明确地提取控制信号。从式3中可见,峰值电平p[n]和控制信号c[n]之间存在直接联系,这意味着c[n]可以总是被替换为依赖于p[n]的函数。
慢增益gs[n]被提供给慢增益应用器122a,慢增益应用器122a将慢增益应用于空间音频对象10的对应时间段。在一些实施方式中,慢增益计算器122a获得指示慢增益gs[n]要应用到何种程度的调整控制参数ρ。例如,调整控制参数ρ位于区间0≤ρ≤1内,并且可以是固定的或者由用户(例如母版制作工程师)设置。慢增益计算器122a基于控制信号c[n]或c′[n]以及调节控制参数ρ来计算部分慢增益g′s[n],并且将部分慢增益g′s[n]提供给主链120的慢增益应用器122a,其将该部分慢增益g′s[n]应用于空间音频对象10。例如,部分慢增益g′s[n]被计算为
或者替代地,部分慢增益g′s[n]被计算为:
其中如果在134处的起始/释放处理被省略,则用c[n]代替c′[n]。
在另一个未示出的实施方式中,起始/释放处理器134对已经在没有起始/释放处理的情况下提取的慢增益gs[n]或g′s[n]进行操作,其中与对控制信号c[n]执行起始/释放处理相反,起始释放处理器134被配置为直接对慢增益gs[n]或g′s[n]执行起始/释放处理。
慢增益gs[n]或部分慢增益g′s[n]被提供给慢增益应用器122a,慢增益应用器122a将慢增益gs[n]或部分慢增益g′s[n]应用于空间音频对象的每个对应的时间段(和子带表示),以形成动态范围调整的空间音频对象x’i[n]。
在一些实施方式中,慢增益gs[n]的计算和应用伴随着快增益gf[n]的后续计算和应用。作为替代,仅计算快增益gf[n]和慢增益gs[n]之一并将其应用于空间音频对象的每个时间段。下文更详细地描述快增益gf[n]。
通过由慢增益计算器135计算慢增益gs[n](或修改的慢增益g′s[n]),慢增益gs[n]与阈值T和峰值信号电平p[n]一起被提供给被修改最小值/最大值计算器136。被修改最小值/最大值计算器136计算修改后的峰值电平p′[n],例如通过如下设置或用g′s[n]替换gs[n]。
修改后的峰值电平p′[n]进一步由超前(lookahead)平滑器137处理,该超前平滑器137计算被平滑被修改的峰值电平p″[n],例如通过将修改后的峰值电平p′[n]与具有m个元素的平滑内核w[m]进行卷积。理想情况下,平滑内核w[m]的元素满足单位和约束:
1=∑mw[m] (式11)
例如w[m]=[0.25,0.25,0.25,0.25]。然后,根据被平滑被修改的峰值计算快增益gf[n]为
由此将快增益gf[n]提供给快增益应用器122b,该快增益应用器122b将快增益gf[n]应用于已经用由慢增益应用器122a应用的慢增益gs[n]处理的空间音频对象。
在一些实施方式中,修改后的峰值电平p′[n]被存储在长度为M的第一循环峰值缓冲器b1中
b1[m%M]=p′[n] (式13)
其中%指示整数模运算符。长度为M的第二循环缓冲器b2存储在第一循环峰值缓冲器中观察到的最大峰值电平。因此,第二循环峰值缓冲器b2被获得为
超前平滑器137可以被配置为通过将平滑内核与第二循环缓冲器进行卷积来获得被平滑被修改的峰值电平p″[n]。
即,被平滑被修改的峰值电平p″[n]被获得为
p″[n]=∑mw[m]b2[(n-m)%M] (式15)
并被提供给快增益计算器138,该快增益计算器138根据上述式12计算快增益gf[n]并且将快增益gf[n]提供给快增益应用器122b。
超前量和/或循环缓冲器b1、b2的长度可以由用户设置为侧链参数。类似地,平滑内核w[m]的长度、超前和/或各个元素值可由用户确定为侧链参数,以建立期望的动态范围调整的空间音频对象x'i[n]。
图5中还描绘了主链120的两个延迟单元121a、121b,延迟单元121a、121b被配置为向空间音频对象10引入相应的延迟,使得快增益gf[n]和慢增益gs[n]被应用于对应的时间段。K个时间段(例如,K个样本)的初始延迟被第一延迟单元121a应用于空间音频对象10,以补偿由(一个或多个)渲染器131、最小值/最大值分析器132、控制信号提取器133、起始/释放处理器134以及慢增益计算器135引入的任何渲染延迟或超前。类似地,第二延迟单元121b应用M个时间段(例如,M个样本)的第二延迟,以补偿由被修改最小值/最大值计算器136、超前平滑器137和快增益计算器138引入的任何超前或延迟。由延迟单元121a、122b引入的延迟K和M通常在数十至数千个时间段(样本)的范围内。例如,取决于如上所述(一个或多个)渲染器131输出的(一个或多个)呈现的类型,由第一延迟单元121a引入的延迟K在数十和数千个时间段(样本)之间。主要由于超前平滑器137中的超前量,由第二延迟单元121b引入的延迟M通常为大约1毫秒至5毫秒。例如,对于32kHz采样音频通道的1毫秒超前,延迟M为32个时间段(样本),而对于192kHz采样音频通道的5毫秒超前,延迟M约为1000个时间段(样本)。
在一种特定实现中,(一个或多个)渲染器131是采用轻量级预处理的对象音频渲染器(OAR),并且对于超前,K=512时间段(样本)的延迟和快增益延迟M=64一起使用。如果用空间编码代替轻量级预处理,则延迟K可以增加到例如1536,然而,设想对于不同的和/或未来的预处理方案和OAR渲染技术,延迟K可以减少到1536以下,甚至接近或达到零时间段(样本)的延迟。因此,动态范围调整的空间音频对象x'i[n]可以被获得为
x′i[n]=xi[n-M-K]gf[n-K]gs[n-M-K] 式16)
或可选地,用g′s[n-M-K]替换gs[n-M-K]。
图6示出了诸如母版制作或混音工程师的用户70使用上述音频处理系统对空间音频对象10进行母版制作。(一个或多个)延迟单元21和衰减/增益应用器22形成主链20,并且涉及在一个或多个子带表示中应用快增益gf[n]和慢增益gs[n]中的一者或多者,如上所述。类似地,侧链30是上述不同的侧链实现方式中的任一种。
当对于空间音频对象10进行母版制作时,用户70可以设置或调整侧链参数72,该侧链参数72包括阈值T(其可以是单个值、或针对侧链中的每个子带表示或每个渲染呈现而设置)、调整速率(最大变化速率或起始/释放时间ta、tr)、调整控制参数ρ、侧链30中的渲染器数量、侧链30中的渲染器类型、侧链30中的子带表示的数量和/或频率(截止频率、带宽),以及例如在超前平滑器137中的超前量中的一者或多者。尽管主链20操作具有由(一个或多个)延迟单元21引入的一些延迟,但是用户70对侧链参数72做出的任何改变将在由主链20输出的动态范围调整的空间音频对象x'i[n]中引入对应的改变。动态范围调整的空间音频对象x'i[n]由输出渲染器60渲染为选择的一个或多个音频呈现(例如立体声呈现和/或5.1呈现),其由用户70试听。因此,用户70可以调整侧链参数72,并快速听到调谐的结果,以有利于获得期望的结果(即,被母版制作的空间音频对象)。在一些实现方式中,输出渲染器60将动态范围调整的空间音频对象x'i[n]并行渲染到两个或更多个呈现,允许用户70在调整侧链参数72时在不同渲染呈现之间快速切换。为此,用户可以调整输出渲染器参数60,其影响输出渲染器的数量和类型(以及当前提供给用户70使用的音频系统的呈现)。
侧链30中的(一个或多个)渲染器及其各自的输出呈现可以基于下面强调的不同准则来设置。
侧链30中的(一个或多个)渲染器及其(一个或多个)输出呈现格式可以通过用户70的输入来设置。
侧链30中的(一个或多个)渲染器及其(一个或多个)输出呈现格式可以被选择为涵盖预期为用于空间音频对象10的内容的消费的最常见呈现的一个或多个呈现。例如,如果内容是音乐,则侧链30中的(一个或多个)渲染器被配置为渲染立体声呈现,并且如果内容是电影的音轨,则侧链30中的(一个或多个)渲染器被配置为渲染立体声呈现和5.1呈现。
侧链30中的(一个或多个)渲染器及其(一个或多个)输出呈现格式可以被选择来代表数字溢出风险方面的最坏情况。例如,具有最高峰值电平的(一个或多个)呈现格式是在两个或更多个替代呈现格式中选择的。
侧链30中的(一个或多个)渲染器及其(一个或多个)输出呈现格式可以被选择来表示将在内容消费中使用的数个可能的渲染器和(一个或多个)呈现格式的全部或基本上全部。因此,动态范围调整的空间音频对象x'i[n]确保空间音频对象的呈现不会有任何溢出。
侧链30中的(一个或多个)渲染器及其(一个或多个)输出呈现格式可以基于呈现引入到由主链20输出的动态范围调整的空间音频对象x'i[n]中的声音特性(并且其从输出渲染器60输出的呈现中可以显见)被选择。声音特性包括以下中至少之一:感知冲击量、清晰度、响度、谐波失真或饱和度、互调失真、瞬态挤压或增强或动态增强。例如,用户70循环通过侧链30中的各种呈现格式以确定哪些呈现格式提供了用于分析由侧链30引入的衰减/增益的应用所引入的声音特性的修改的最佳基础。
除非另外具体说明,否则从以下讨论中显而易见,应当理解,在整个公开内容中,使用诸如“处理”、“计算”、“运算”、“确定”、“分析”等术语的讨论是指操纵表示为物理量(例如电子量)的数据和/或将表示为物理量(例如电子量)的数据转换为类似地表示为物理量的其他数据的计算机硬件或计算系统或类似的电子计算设备的动作和/或过程。
应当理解,在本发明的示例性实施例的上述描述中,出于简化本公开内容并有助于理解各种发明方面中的一者或多者的目的,本发明的各种特征有时被一起分组在单个实施例、附图或其描述中。然而,本公开的方法不应被解释为反映了所要求保护的发明需要比每项权利要求中明确记载的特征更多的特征的意图。相反,如所附权利要求所反映的,创造性方面在于少于单个前述公开的实施例的所有特征。因此,具体实施方式之后的权利要求特此明确地并入该具体实施方式中,其中每个权利要求独立地作为本发明的单独实施例。此外,虽然本文描述的一些实施例包括其他实施例中包括的一些特征但不包括其他特征,但是如本领域技术人员将理解的,不同实施例的特征的组合在本发明的范围内,并且形成不同的实施例。例如,在所附权利要求中,任何要求保护的实施例可被以任何组合使用。
此外,一些实施例在本文中被描述为可以由计算机系统的处理器或由执行功能的其他手段来实现的方法或方法的元素的组合。因此,具有用于执行这种方法或方法的元素的必要指令的处理器形成用于执行该方法或方法的要素的手段。注意,当该方法包括多个元素(例如多个步骤)时,除非特别说明,否则并不暗示这些元素的顺序。此外,这里描述的装置实施例的元件是用于执行由该元件出于实行本发明的目的而执行的功能的手段的示例。在本文提供的描述中,阐述了许多具体细节。然而,应当理解的是,在没有这些具体细节的情况下也可以实践本发明的实施例。在其他情况下,未详细示出公知的方法、结构和技术,以免模糊对本描述的理解。
因此,虽然已经描述了本发明的具体实施例,但是本领域技术人员将认识到,在不脱离本发明的精神的情况下可以对其进行其他和进一步的修改,并且旨在要求保护所有这样的改变和修改落入本发明的范围内。例如,结合图5描述的快增益gf[n]和慢增益gs[n]的确定和应用的不同替代方案可以针对两个或更多个子带表示(如上面结合图4所描述的)和/或跨来自两个或更多个渲染呈现的呈现音频通道(如上面结合图3所描述的)被并行地执行。另外,图5中的最小值/最大值分析器132还可被包括在图1、图3和图4的信号电平分析器32、32a、32b、32c中。类似地,图5的控制信号提取器331、起始/释放处理器333、以及慢增益计算器334也可被包括在图1、图3和图4的衰减/增益计算器33、33a、33b、33c中。
从以下列举的示例性实施例(“EEE”)中可以理解各种特征和方面:
EEE1.一种用于动态改变基于对象的输入音频资产的一个或多个基于对象的音频信号的电平的方法,其中该方法包括:接收基于对象的输入音频资产;使用一个或多个音频渲染器将基于对象的输入音频资产渲染为一种或多种呈现;确定该一种或多种呈现的信号水平的一种或多种度量;响应于该一种或多种信号电平度量来计算增益或衰减;将所计算的增益或衰减应用于一个或多个基于对象的音频信号中的至少一者以产生基于对象的输出音频资产。
EEE2.EEE 1的方法,其中将基于对象的输入音频资产渲染为一种或多种呈现包括生成一种或多种扬声器或耳机呈现。
EEE3.EEE 1或2的方法,其中确定信号电平的一种或多种度量包括检测峰值信号电平或平均信号电平。
EEE4.EEE1-3中任一项的方法,其中衰减基于由一个或多个被测量的信号电平确定的控制信号。
EEE5.EEE 1-4中任一项的方法,其中所计算的增益或衰减被配置成降低一个或多个渲染呈现中的峰值电平。
EEE6.EEE 1-5中任一项的方法,其中所计算的增益或衰减基于期望的输入-输出曲线。
EEE7.EEE 1-6中任一项的方法,还包括修改用于渲染基于对象的输入音频资产、用于确定信号电平的一种或多种度量、用于计算增益或衰减、和/或用于实时试听基于对象的输出音频资产的一个或多个参数。
EEE8.EEE 7的方法,当依赖于EEE 4时,还包括修改用于计算控制信号的一个或多个参数。
EEE9.EEE 1-7中任一项的方法,其中使用一个或多个音频渲染器将基于对象的输入音频资产渲染为一种或多种呈现包括:以频率不变的方式将基于对象的输入音频资产转换为一种或多种呈现。
EEE10.EEE 9的方法,其中在基于对象的输入音频资产的两个或更多个频带中应用该转换。
EEE11.EEE 1-10中任一项的方法,其中响应于一种或多种信号电平度量来计算增益或衰减是基于至少一个控制参数的,该一个控制参数包括起始时间常数、释放时间常数、最大幅度、阈值或要应用的增益或衰减的比例中的至少一者。
EEE12.EEE 1-11中任一项的方法,其中响应于一种或多种信号电平度量来计算增益或衰减包括计算快增益和慢增益。
EEE13.EEE 12的方法,其中计算快增益和/或慢增益是基于至少一个控制参数的,该至少一个控制参数包括起始时间常数、释放时间常数、最大幅度、阈值,或要应用的增益或衰减的比例中的至少一者。
EEE 14.EEE 1-13中任一项的方法,其中一个或多个音频渲染器和一个或多个音频渲染器的一个或多个相应输出呈现格式被配置为基于如下准则被选择,该准则包括以下中至少一者:(a)终端用户输入,(b)终端用户偏好,(c)听众消费一个或多个呈现的可能性,(d)两个或多个替代方案上预期峰值电平的最坏情况(e)并行运行一个或多个音频渲染器和/或一个或多个相应的输出呈现格式中的多者,以确保一个或多个相应的输出呈现具有高于阈值的峰值电平,或者(f)用以获得特定声音特征的终端用户在多个选项中的选择。
EEE15.EEE 14的方法,其中多个选项包括以下中至少之一:特定感知冲击量、清晰度、响度、谐波失真或饱和度、互调失真、瞬态挤压或动态增强。
EEE16.一种用于动态改变基于对象的输入音频资产的一个或多个基于对象的音频信号的电平的系统,其中该系统包括:一个或多个渲染器,该一个或多个渲染器被配置为接收基于对象的输入音频资产;将基于对象的输入音频资产渲染为一种或多种呈现;以及峰值分析器,其被配置为确定该一种或多种呈现的信号水平的一种或多种度量;增益分析器,其被配置为响应于该一种或多种信号电平度量来计算增益或衰减;并且其中,所计算的增益或衰减被应用于一个或多个基于对象的音频信号中的至少一者以产生基于对象的输出音频资产。
EEE17.EEE 16的系统,还包括延迟单元,其被配置为补偿由一个或多个渲染器引入的一个或多个时延。
EEE 18.EEE 17的系统,其中一个或多个渲染器包括并行操作的至少两个渲染器。
EEE 19.EEE 18的系统,其中峰值分析器还被配置为计算从并行操作的至少两个渲染器的输出得出的控制信号。
EEE20.EEE 19的系统,其中增益分析器被配置为基于所计算的控制信号响应于该一种或多种信号电平度量来计算增益或衰减。
Claims (20)
1.一种用于执行空间音频对象(10)的动态范围调整的方法,该方法包括:
获得(步骤S1)多个空间音频对象(10);
获得(步骤S2)空间音频对象(10)的至少一个渲染音频呈现,该至少一个渲染音频呈现包括形成呈现音频通道集合的至少一个呈现音频通道;
确定(步骤S3)与所述呈现音频通道集合中的每个呈现音频通道相关联的信号电平数据,其中信号电平数据表示呈现音频通道的多个时间段的信号电平;
获得(步骤S31)阈值;
对于每个时间段:
选择(步骤S4)被选择呈现音频通道,其中被选择呈现音频通道是该呈现音频通道集合中的与所述呈现音频通道集合中的其它呈现音频通道相比与该时间段的最高信号电平或最低信号电平相关联的呈现音频通道,以及
确定(步骤S5)增益,该增益基于该阈值和被选择音频通道的信号电平的表示;以及
将每个时间段的增益应用(步骤S6)于每个空间音频对象的对应时间段,以形成动态范围调整的空间音频对象。
2.根据权利要求1所述的方法,还包括:
获得调整比例系数;并且其中对于每个时间段确定增益包括:
确定阈值差,所述阈值差是该阈值与被选择音频通道的信号电平表示之间的差;并且
基于该阈值差和该调整比例系数确定增益。
3.根据权利要求1所述的方法,其中该增益将被选择呈现通道的信号电平衰减到所述阈值,或者其中所述增益将被选择呈现通道的信号电平放大到所述阈值。
4.根据权利要求3所述的方法,还包括:
获得调整控制参数,其中该调整控制参数指示该增益的缩放因子;以及
将该缩放因子应用于该增益。
5.根据前述权利要求中任一项所述的方法,其中每个时间段的信号电平数据包括呈现音频通道的多个频带的信号电平表示,该方法还包括:
针对每个时间段和频带,选择所述呈现音频通道集合中的呈现音频通道;
确定用于每个时间段和频带的增益,用于每个频带的增益基于该阈值以及被选择呈现音频通道的信号电平的该时间段和频带的表示;
将每个频带和时间段的增益应用于每个空间音频对象的对应时间段和频带,以形成动态范围调整的空间音频对象。
6.根据前述权利要求中任一项所述的方法,其中每个渲染音频呈现包括至少两个呈现音频通道。
7.根据前述权利要求中任一项所述的方法,其中获得至少两个渲染呈现,其中每个渲染音频呈现包括至少一个呈现音频通道。
8.根据权利要求7所述的方法,其中该增益还基于第二被选择音频通道的信号电平的表示,其中第二被选择呈现音频信号是与被选择音频通道的渲染呈现不同的第二渲染呈现的。
9.根据权利要求8所述的方法,还包括:
获得用于所述至少两个渲染呈现中的每一者的第二阈值;
其中该增益进一步基于以下的组合:
被选择音频信号的信号电平表示和阈值,以及
第二被选择音频通道的信号电平表示和第二阈值。
10.根据前述权利要求中任一项所述的方法,还包括:
获得调整速率参数,该调整速率参数指示两个相邻时间段之间增益的最大变化速率,并且
其中,该增益还基于所述调整速率参数,使得该增益以调整速率参数指示的最大变化速率变化。
11.根据权利要求10所述的方法,其中,所述调整速率参数至少为第一调整速率参数和第二调整速率参数,
其中,所述第一调整速率参数指示起始时间常数,
其中,所述第二调整速率参数指示释放时间常数,并且
其中,增益还基于起始时间常数和释放时间常数,使得增益以分别由起始时间常数和释放时间常数指示的最大变化速率变化。
12.根据前述权利要求中任一项所述的方法,还包括:
针对每个时间段确定被修改信号电平表示,其中该被修改信号电平表示基于应用了该增益的被选择呈现音频通道的信号电平表示;
通过将每个时间段的被修改信号电平表示与平滑内核进行卷积来确定每个时间段的被平滑被修改信号电平表示;
对于每个时间段基于被平滑被修改信号电平表示来计算平滑增益;以及
将每个时间段的平滑增益应用于每个动态范围调整的空间音频对象的对应时间段,以形成增强的动态范围调整的空间音频对象。
13.根据权利要求12所述的方法,还包括:
将连续时间段的被修改信号电平表示存储在长度为M的第一循环缓冲器中;
将第一循环缓冲器的最大或最小被修改信号电平表示存储在长度为M的第二循环缓冲器中;
其中确定每个时间段的被平滑被修改信号电平表示包括将第二循环缓冲器与平滑内核进行卷积。
14.根据前述权利要求中任一项所述的方法,其中每个呈现音频通道的每个时间段的所述信号电平表示选自包括以下各项的组:
该时间段的信号电平的RMS表示,
该时间段的幅度,
该时间段的最大幅度,
该时间段的平均幅度,以及
该时间段的最小幅度。
15.根据前述权利要求中任一项所述的方法,其中所述至少一个渲染呈现是选自包括以下各项的组的渲染呈现:
单声道呈现,
立体声呈现,
双耳呈现,
5.1呈现,
7.1呈现,
5.1.2呈现,
5.1.4呈现,
7.1.2呈现,
7.1.4呈现,
9.1.2呈现,
9.1.4呈现,
9.1.6呈现,以及
至少具有三个高度水平的多通道呈现,如22.2。
16.一种用于动态范围调整的音频处理系统,包括:
至少一个渲染器(31、31a、31b、31c),被配置为获得多个空间音频对象(10),并且将所述空间音频对象渲染为渲染呈现,该渲染呈现包括形成渲染呈现音频通道集合的至少一个呈现音频通道;
信号电平分析单元(32、32a、32b、32c),被配置为确定与所述呈现音频通道集合中的每个呈现音频通道相关联的信号电平数据,其中信号电平数据表示呈现音频通道的多个时间段的信号电平;以及
增益计算器(33、33a、33b、33c),被配置为:
获得阈值;
选择呈现音频通道,其中被选择呈现音频通道是该呈现音频通道集合中的与所述呈现音频通道集合中的其它呈现音频通道相比与该时间段的最高信号电平或最低信号电平相关联的呈现音频通道,以及
对于每个时间段确定增益,该增益基于该阈值和被选择音频通道的信号电平表示;以及
增益应用器(22、22a、22b、22c),被配置为将每个时间段的增益应用于每个空间音频对象的对应时间段,以形成动态范围调整的空间音频对象。
17.根据权利要求16所述的音频处理系统,还包括:
延迟单元(21),被配置为获得多个空间音频对象(10)并生成与该空间音频对象对应的延迟空间音频对象,其中,所述延迟单元引入的延迟对应于由至少一个渲染器(31、31a、31b、31c)引入的延迟,并且
其中,增益应用器(22、22a、22b、22c)被配置为将每个时间段的增益应用于每个延迟空间音频对象的对应时间段以形成动态范围调整的空间音频对象。
18.根据权利要求16或17所述的音频处理系统,其中每个渲染呈现包括至少两个呈现音频通道。
19.根据前述权利要求中任一项所述的音频处理系统,包括至少两个渲染器(31、31a、31b、31c),其中每个渲染器(31、31a、31b、31c)被配置为获得多个空间音频对象(10),并将空间音频对象渲染到相应的渲染呈现,每个渲染呈现包括形成呈现音频通道集合的至少一个呈现音频通道。
20.一种计算机程序产品,包括指令,当程序由计算机执行时,所述指令使得所述计算机执行根据权利要求1至15中任一项所述的方法的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163194359P | 2021-05-28 | 2021-05-28 | |
US63/194,359 | 2021-05-28 | ||
PCT/US2022/021696 WO2022250772A1 (en) | 2021-05-28 | 2022-03-24 | Dynamic range adjustment of spatial audio objects |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117223057A true CN117223057A (zh) | 2023-12-12 |
Family
ID=81308360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280031384.6A Pending CN117223057A (zh) | 2021-05-28 | 2022-03-24 | 空间音频对象的动态范围调整 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP4348643A1 (zh) |
KR (1) | KR20240014462A (zh) |
CN (1) | CN117223057A (zh) |
BR (1) | BR112023021544A2 (zh) |
WO (1) | WO2022250772A1 (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW202339510A (zh) * | 2011-07-01 | 2023-10-01 | 美商杜比實驗室特許公司 | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
WO2015041070A1 (ja) * | 2013-09-19 | 2015-03-26 | ソニー株式会社 | 符号化装置および方法、復号化装置および方法、並びにプログラム |
JP7332781B2 (ja) | 2019-07-09 | 2023-08-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオコンテンツのプレゼンテーションに依存しないマスタリング |
-
2022
- 2022-03-24 BR BR112023021544A patent/BR112023021544A2/pt unknown
- 2022-03-24 CN CN202280031384.6A patent/CN117223057A/zh active Pending
- 2022-03-24 EP EP22716662.6A patent/EP4348643A1/en active Pending
- 2022-03-24 WO PCT/US2022/021696 patent/WO2022250772A1/en active Application Filing
- 2022-03-24 KR KR1020237036304A patent/KR20240014462A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
EP4348643A1 (en) | 2024-04-10 |
WO2022250772A1 (en) | 2022-12-01 |
KR20240014462A (ko) | 2024-02-01 |
BR112023021544A2 (pt) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6982604B2 (ja) | 符号化されたオーディオメタデータに基づくラウドネス等化及びdrc中の動的等化 | |
US10276173B2 (en) | Encoded audio extended metadata-based dynamic range control | |
JP7215534B2 (ja) | 復号化装置および方法、並びにプログラム | |
JP5730881B2 (ja) | 録音の適応的ダイナミックレンジ強化 | |
US10109288B2 (en) | Dynamic range and peak control in audio using nonlinear filters | |
EP2898509B1 (en) | Audio coding with gain profile extraction and transmission for speech enhancement at the decoder | |
JP2013521539A (ja) | 単一再生モードにおいてラウドネス測定値を合成するシステム | |
US10979811B2 (en) | Center protection dynamic range control | |
EP3039675A1 (en) | Hybrid waveform-coded and parametric-coded speech enhancement | |
EP3761672A1 (en) | Using metadata to aggregate signal processing operations | |
US20220060824A1 (en) | An Audio Capturing Arrangement | |
US11430463B2 (en) | Dynamic EQ | |
CN117223057A (zh) | 空间音频对象的动态范围调整 | |
US20240163529A1 (en) | Dolby atmos master compressor/limiter | |
US8300835B2 (en) | Audio signal processing apparatus, audio signal processing method, audio signal processing program, and computer-readable recording medium | |
JP2011217139A (ja) | 信号処理装置および方法、並びにプログラム | |
JP2023500631A (ja) | 方向メタデータを使用するマルチチャネルオーディオ符号化及び復号化 | |
EP3997700A1 (en) | Presentation independent mastering of audio content | |
RU2779415C1 (ru) | Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием диффузной компенсации | |
KR20200017969A (ko) | 오디오 장치 및 그 제어방법 | |
Koria | Real-Time Adaptive Audio Mixing System Using Inter-Spectral Dependencies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |