CN109219847B - 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法 - Google Patents

将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法 Download PDF

Info

Publication number
CN109219847B
CN109219847B CN201780033796.2A CN201780033796A CN109219847B CN 109219847 B CN109219847 B CN 109219847B CN 201780033796 A CN201780033796 A CN 201780033796A CN 109219847 B CN109219847 B CN 109219847B
Authority
CN
China
Prior art keywords
audio
channel
channels
audio object
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780033796.2A
Other languages
English (en)
Other versions
CN109219847A (zh
Inventor
G·真加勒
A·马特奥斯·索莱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Priority to CN202310838307.8A priority Critical patent/CN116709161A/zh
Publication of CN109219847A publication Critical patent/CN109219847A/zh
Application granted granted Critical
Publication of CN109219847B publication Critical patent/CN109219847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本发明属于基于对象的音频内容的领域,且更明确来说,本发明涉及将多声道音频内容转换成基于对象的音频内容的领域。本发明进一步涉及用于处理具有空间位置的音频内容的时间帧的方法。

Description

将多声道音频内容转换成基于对象的音频内容的方法及用于 处理具有空间位置的音频内容的方法
技术领域
本发明属于基于对象的音频内容的领域,且更明确来说,本发明涉及将多声道音频内容转换成基于对象的音频内容的领域。本发明进一步涉及用于处理具有空间位置的音频内容的时间帧的方法。
背景技术
近年来,涌现了制作及渲染音频内容的新方式。通过向家庭影院及电影院提供基于对象的音频内容,收听体验得以改善,这是因为声音设计师及艺术家可自由地在3D空间中混合音频,从而通过环绕声道控制了效果且使用高度声道添加了无缝架空维度。传统上,多声道格式(立体声5.1、7.1等等)的音频内容是通过在演播室中混合不同音频信号来创建,或是通过在真实环境中同时记录声学信号来生成。混合音频信号或内容可包含多个不同源。源分离是识别每一源的信息以便例如通过单声道信号及元数据(包含空间信息、频谱信息等等)重建音频内容的任务。
通过提供用于将传统音频内容(即,5.1或7.1内容)变换为基于对象的音频内容的工具,更多电影标题可利用渲染音频的新方式。此类工具通过将源分离应用于传统音频内容而从传统音频内容提取音频对象。
然而,存在将此类对象重新渲染给与传统音频内容的原始布局(例如5.1布局或7.1布局)类似的布局的情况,这将导致明显违反混合器的原始意图,这是因为所重新渲染音频对象是在与传统音频内容的混合器的初始意图不同的声道中渲染。
此外,经过几年的基于对象的格式的内容制作,一些混合技术作为实现利用由这些新格式提供的创造潜力的美学成果的方式而在专业人士当中越来越受欢迎。然而,需要用于提供对具有空间位置的音频内容的改善艺术控制的另外方法以进一步利用此类音频内容的创造潜力。
本发明是在这种背景下形成。
发明内容
一方面,本公开涉及一种用于将多声道音频信号的时间帧转换成输出音频内容的方法,所述输出音频内容包括音频对象、包括每一音频对象的空间位置的元数据,及音床声道,其中所述多声道音频信号包括处于第一配置的多个声道,处于所述第一配置的每一声道具有与扬声器设置有关且在预定坐标系中定义的预定位置,所述方法包括以下步骤:a)接收所述多声道音频信号的所述时间帧,b)从所述多声道音频信号的所述时间帧提取至少一个音频对象,所述音频对象是从所述多个声道中的第一多个声道提取,且对于所述至少一个音频对象中的每一音频对象:c)估计所述音频对象的空间位置,d)基于所述音频对象的所述空间位置,估计处于所述第一配置的所述第一多个声道中的所述音频对象的渲染版本将在具有与从中提取所述对象的所述第一多个声道的所述预定位置不同的预定位置的声道中渲染的风险,e)确定所述风险是否超过阈值,及f)在确定所述风险未超过所述阈值时,将所述音频对象及包括所述音频对象的所述空间位置的元数据包含在所述输出音频内容中。
另一方面,本公开涉及一种计算机可读存储介质,其具有适于在由具有处理能力的装置执行时实行前述方法的指令。
再一方面,本公开涉及一种用于将多声道音频信号的时间帧转换成输出音频内容的装置,所述输出音频内容包括音频对象、包括每一音频对象的空间位置的元数据,及音床声道,其中所述多声道音频信号包括处于第一配置的多个声道,处于所述第一配置的每一声道具有与扬声器设置有关且在预定坐标系中定义的预定位置,所述装置包括:接收级,其经布置用于接收所述多声道音频信号的所述时间帧,对象提取级,其经布置用于从所述多声道音频信号的所述时间帧提取音频对象,其中所述音频对象是从所述多个声道中的第一多个声道提取,空间位置估计级,其经布置用于估计所述音频对象的空间位置,风险估计级,其经布置用于基于所述音频对象的所述空间位置,估计处于所述第一配置的所述第一多个声道中的所述音频对象的渲染版本将在具有与从中提取所述对象的所述第一多个声道的所述预定位置不同的预定位置的声道中渲染的风险,且确定所述风险是否超过阈值,及转换级,其经布置用于响应于所述风险估计级确定所述风险未超过所述阈值,将所述音频对象及包括所述音频对象的所述空间位置的元数据包含在所述输出音频内容中。
附图说明
现在将参考附图描述实例实施例,其中:
图1a展示从具有处于第一配置的声道的多声道音频信号提取对象且将所提取音频对象渲染回给具有处于第一配置的声道的多声道音频信号的第一实例,
图1b展示从具有处于第一配置的声道的多声道音频信号提取对象且将所提取音频对象渲染回给具有处于第一配置的声道的多声道音频信号的第二实例,
图2展示根据本发明的实施例的用于将多声道音频信号的时间帧转换成输出音频内容的装置,输出音频内容包括音频对象、包括每一音频对象的空间位置的元数据,及音床声道,
图3a到b以实例方式展示图2的装置的风险估计级的实施例,
图3c展示由图3的风险估计级用于确定要包含在输出音频对象内容中的所提取对象的一分数的函数,
图4以实例方式展示图2的装置的风险估计级的实施例,
图5以实例方式展示图2到4中任一图的装置的艺术保存级的实施例,
图6以实例方式展示图2到4中任一图的装置的艺术保存级的实施例,
图7到10展示根据本发明的实施例的用于扩散位于屏幕上的对象以将对象映射到包围屏幕的弧的方法,
图11到13展示用于加强位于屏幕外的细微音频对象及音床声道的方法,
图14到15展示用于增加位于房间后部的音频对象的z坐标的方法,
图16展示根据本发明的实施例的用于将多声道音频信号的时间帧转换成包括音频对象的输出音频内容的方法,
图17以实例方式展示本发明中使用的坐标系,
图18以实例方式展示根据本发明的实施例的用于处理音频对象的时间帧的装置。
所有图是示意性的且通常仅展示阐明本发明所必需的部件,而可省略或仅仅建议其它部件。除非另有指示,否则在不同图中类似参考数字是指类似部件。
具体实施方式
鉴于上文,本发明的目的是提供用于将多声道音频信号的时间帧转换成基于对象的音频内容的方法、装置及计算机程序产品,与多声道音频信号的混合器的初始意图相比,这降低了在不同声道中渲染音频对象的风险。
本发明的另外目的是提供用于提供对基于对象的音频内容的改善艺术控制的方法、装置及计算机程序产品。
I.概述—将多声道音频内容转换成基于对象的音频内容
根据第一方面,实例实施例提出用于将多声道音频信号的时间帧转换成包括音频对象的输出音频内容的方法、实施所述方法的装置,及适于实行所述方法的计算机程序产品。所提出的方法、装置及计算机程序产品通常可具有相同特征及优点。
根据实例实施例,提供一种用于将多声道音频信号的时间帧转换成输出音频内容的方法,输出音频内容包括音频对象、包括每一音频对象的空间位置的元数据,及音床声道,其中多声道音频信号包括处于第一配置的多个声道,处于第一配置的每一声道具有与扬声器设置有关且在预定坐标系中定义的预定位置,所述方法包括以下步骤:
a)接收多声道音频信号的时间帧(例如,接收多声道音频信号),
b)从多声道音频信号的时间帧提取至少一个音频对象,其中所述音频对象是从多个声道的特定子组提取,且对于至少一个音频对象中的每一音频对象:
c)估计所提取音频对象的空间位置,
d)基于所提取音频对象的空间位置,估计处于第一配置的声道中的音频对象的渲染版本将在具有与从中提取所述对象的多个声道的特定子组的预定位置不同的预定位置的声道中渲染的风险,
e)确定风险是否超过阈值,
f)在确定风险未超过阈值时,将音频对象及包括音频对象的空间位置的元数据包含在输出音频内容(例如,输出音频对象内容)中。
所述方法可进一步包括:在确定风险超过阈值时,将音频对象的至少一分数(例如,非零分数)渲染给音床声道。
所述方法可进一步包括:在确定风险超过阈值时,处理音频对象及包括音频对象的空间位置的元数据以保存艺术意图(例如,通过将所述音频对象及所述元数据提供给艺术保存级)。
例如,多声道音频信号可经配置为5.1声道设置或7.1声道设置,这意味着每一声道具有与这种配置的扬声器设置有关的预定位置。预定位置是在预定坐标系中定义,即,具有x分量、y分量及z分量的3d坐标系。预定坐标系可对应于x分量、y分量及z分量的可能范围,其是0<=x<=1、0<=y<=1、0<=z<=1。所属领域的技术人员应理解,坐标系的分量的任何其它范围同样是可能的,例如0<=x<=20、0<=y<=54、0<=z<=1或0<=x<=96、0<=y<=48、0<=z<=12等等。可能范围是不相关的,但是为简单起见,本发明中的坐标系归一化到上述范围0<=x<=1、0<=y<=1、0<=z<=1。
音床声道通常是指对应于三维空间(预定坐标系)中的固定位置(总是等于对应规范扬声器设置的输出扬声器中的一者的位置)的音频信号。因此,音床声道可与仅仅指示规范扬声器布局中的对应输出扬声器的预定位置的标签相关联。
例如,可通过由杜比实验室公司(Dolby Laboratories,Inc.)开发的联合对象源分离(JOSS)算法实现对象提取。总之,此类提取可包括对多个声道中的每一者执行音频内容分析(例如,使用主分量分析(PCA))以生成多个分量,多个分量中的每一者包括时频域中的多个时频单元片(tile);使用来自多个分量的时频单元片中的至少一者生成至少一个主导源;及通过基于所述主导源估计空间参数及频谱参数,将所述源与音频内容分离。因此,可使用例如源的空间信息(例如,空间位置)的元数据将多声道音频信号处理成多个单声道音频分量(例如,音频对象)。可使用任何其它合适源分离方式来提取音频对象。
本发明人已认识到,在将传统音频内容(即,基于声道的音频内容)变换为包括音频对象的音频内容(音频内容稍后可渲染回给传统扬声器设置,即,5.1声道设置或7.1声道设置)时,与多声道音频信号的混合器的初始意图相比,可在不同声道中渲染音频对象或音频对象的音频内容。因此,这显然违反混合器的意图,且在许多情况下可导致更糟糕收听体验。
通过估计处于第一配置的声道中的音频对象的渲染版本将在其它声道中且因此在其它扬声器中而非在混合器的初始意图的声道中渲染的风险,且在决定音频对象及其对应元数据是否应包含在输出音频内容中或是否应不同地处理音频对象之前确定风险是否超过阈值,可降低音频对象的错误渲染的风险。此类估计有利地基于音频对象的所估计空间位置来完成,这是因为三维空间中的特定区域或位置常常意味着错误渲染的风险增加(或降低)。
在本说明书的背景中,术语“估计风险”应被理解为这可导致例如二进制值(0表示无风险,1表示有风险)或连续标度值(例如,从0到1或从0到10等等)。在二进制情况下,“确定风险是否超过阈值”的步骤可意味着检查风险是0还是1,且如果风险是1,那么风险超过阈值。在连续情况下,取决于实施方案,阈值可为连续标度中的任何值。
要提取的音频对象的数目可为用户定义的或预定义的,且可为1、2、3或任何其它数目。
根据一些实施例,估计风险的步骤包括以下步骤:比较音频对象的空间位置与预定区域。在这种情况下,如果空间位置在预定区域内,那么确定风险超过阈值。例如,位于沿着或靠近包括多于两个扬声器的墙壁(即,预定坐标系的三维空间中的外边界)的区域中的音频对象可增加音频对象的错误渲染的风险(如果在传统音频系统中重新渲染)。换句话说,沿着或靠近包括多声道音频信号中的声道的多于两个预定位置的墙壁的区域可为此类预定区域。再换句话说,预定区域可包含处于第一配置的多个声道中的至少一些的预定位置。在这种情况下,在这个预定区域内具有其空间位置的每个音频对象可被标记为错误渲染的风险音频对象,且因此不直接与其对应元数据包含在输出音频内容中。上述两个实施例的优点在于其是确定风险是否超过阈值的非常简单且成本有效(在计算复杂性方面)的方式。
根据一些实施例,第一配置对应于5.1声道设置或7.1声道设置,其中预定区域包含处于第一配置的左前声道、右前声道及中央声道的预定位置。因此,接近于屏幕的区域可为风险区域的实例。例如,位于中央声道的顶部的音频对象可从多声道音频信号中的左前声道50%及右前声道50%起始,或从多声道音频信号中的中央声道50%、左前声道25%及右前声道25%起始等等。然而,当稍后在5.1声道设置传统系统或7.1声道设置传统系统中渲染音频对象时,其可能最终仅进入中央声道,这将违反混合器的初始意图且可导致更糟糕收听体验。
根据一些实施例,左前声道、右前声道及中央声道的预定位置在预定义坐标系中共享给定坐标的共同值(例如,y坐标值),其中预定区域包含具有与给定坐标(例如,y坐标)的所述共同值相差高达阈值距离的给定坐标的坐标值(例如,y坐标值)的位置。
如上文所描述,在预定坐标系例如旋转或类似的情况下,左前声道、右前声道及中央声道可共享另一共同坐标值,例如x坐标值或z坐标值。
根据这个实施例,预定区域因此可远离屏幕区域稍微伸展。换句话说,预定区域可在三维空间中远离共同平面稍微伸展,将在共同平面上呈5.1声道扬声器设置或7.1声道扬声器设置渲染左前声道、右前声道及中央声道。以这种方式,在这个预定区域内具有空间位置的音频对象可基于其位置与共同平面的距离而被不同地处理。然而,在任何情况下,预定区域外的音频对象将连同其相应元数据(包括相应音频对象的空间位置)一起包含在输出音频内容中。
根据一些实施例,预定区域包括第一子区域,所述方法进一步包括以下步骤:
-基于空间位置与第一子区域之间的距离确定对应于要包含在输出音频内容(例如,输出音频对象内容)中的音频对象的一分数的分数值,其中所述值是在0与1之间的数。例如,如果确定风险超过阈值(例如,在空间位置位于预定区域内的情况下),那么分数值可小于1。此外,如果空间位置在第一子区域内,那么分数值可为0。
对于这个实施例,如果确定分数值大于0,那么所述方法进一步包括:
-将音频对象与分数值相乘以实现音频对象的一分数,且将音频对象的所述分数及包括音频对象的空间位置的元数据包含在输出音频内容中。
通过计算要包含在输出音频对象内容中的区域内的对象的一分数,实现了不将音频对象及元数据直接包含在输出音频对象内容中与将整个音频对象及元数据包含在输出音频对象内容中之间的更连续过渡。这又可导致例如对在多声道音频信号的时间段期间在预定区域内远离第一子区域移动的对象的更平滑收听体验。根据一些实施例,仅在确定风险超过阈值的情况下(例如,在空间位置位于预定区域内的情况下)才确定分数值。根据其它实施例,在空间位置不位于预定区域内的情况下,分数值将为1。例如,如果空间位置在第一子区域中,那么确定分数值为0,如果空间位置不在预定区域中,那么确定分数值为1,且如果空间位置在预定区域中但不在第一子区域中,那么确定分数值在0与1之间。
第一子区域可例如对应于三维空间中的共同平面,在共同平面上将呈5.1声道扬声器设置或7.1声道扬声器设置渲染左前声道、右前声道及中央声道。这意味着屏幕中提取的音频对象将被静音(不包含在输出音频对象内容中),远离屏幕的对象将保持不变(包含在输出音频对象内容中),且过渡区域中的对象将根据分数值的值或根据取决于分数值的值(例如分数值的平方根)而衰减。后者可用来遵循不同归一化方案,例如保存对象/声道分数的能量总和而非保存对象/声道分数的幅值总和。
根据一些实施例,音频对象的其余部分,即,音频对象乘以1减去分数值,可渲染给声道音床。替代地,其可连同元数据(例如,包括音频对象的空间位置的元数据)及额外元数据(下文所描述)一起包含在输出音频内容中。
根据一些实施例,从多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算第一组能级,每一能级对应于多声道音频信号的多个声道中的特定声道且关于(例如,指示)从特定声道提取的音频对象的音频内容的能级,其中估计风险的步骤包括以下步骤:
-使用音频对象的空间位置,将音频对象渲染给处于第一配置的第二多个声道,且基于所渲染对象计算第二组能级,每一能级对应于处于第一配置的第二多个声道中的特定声道且关于(例如,指示)渲染给第二多个声道中的特定声道的音频对象的音频内容的能级,
-计算第一组能级与第二组能级之间的差值,且基于差值估计风险。
换句话说,在本实施例中,比较多声道音频信号中呈原始格式(例如,5.1/7.1)的所提取音频对象与原始布局(例如,5.1/7.1)中的渲染版本。如果两个版本类似,那么允许按意图提取对象;否则,不同地处置音频对象以降低音频对象的错误渲染的风险。这是确定音频对象是否将错误渲染的灵活且精确的方式,且适用于多声道音频信号的所有配置及所提取音频对象的空间位置。例如,可比较第一组能级中的每一能级与第二组能级当中的对应能级。在能级(或RMS)跨组归一化使得总能级(或RMS)在每一组中为1的情况下,阈值可例如为1。
所计算的第一组能级应解释如下。每一能级或平方平移参数关于从特定声道提取的音频对象的音频内容的能级。例如,如果从呈5.1设置的五个声道中的两者(例如,L声道及C声道)提取音频对象,但是从L声道提取音频对象中的大多数内容,那么平方平移参数可看似L=0.8、C=0.4、R=0等等。
在这种情况下,L声道的平方平移参数(能级)的值(0.8)与C声道的平方平移参数(能级)的值(0.4)的差值意味着从L声道提取的所提取音频对象的音频内容的能级与从C声道提取的音频对象的音频内容相比具有两倍的能级。
根据一些实施例,计算第一组能级与第二组能级之间的差值的步骤包括:使用第一组能级,将音频对象渲染给处于第一配置的第三多个声道,对于第三多个声道及第二多个声道中的每一对对应声道,测量所述对声道中的每一者的均方根RMS值,确定两个RMS值之间的绝对差值,且计算第三多个声道及第二多个声道中的所有对对应声道的绝对差值的总和,其中确定风险是否超过阈值的步骤包括比较总和与阈值。在能级或RMS跨声道归一化使得其总和或RMS的总和为1的情况下,阈值可例如为1。
根据一些实施例,从多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算第一组能级,每一能级对应于多声道音频信号的多个声道中的特定声道且关于(例如,指示)从特定声道提取的音频对象的音频内容的能级,所述方法进一步包括以下步骤:在确定风险超过阈值时,使用第一组能级将音频对象渲染给输出音床声道。
本实施例指定如何处置被确定为在危险区域中的错误渲染的音频对象的实例。通过利用输出音频内容中的音床声道(即,输出音床声道),音频对象的音频内容可以与其在多声道音频信号中接收类似的方式包含在输出音频内容中。换句话说,如果检测到所提取对象违反艺术意图(例如,通过任何上述实施例的方法),那么可以与输入信号相同的格式将内容保持为基于声道的信号,且发送到输出音床声道。所需要的仅是将平移参数(例如,能级)应用于所提取对象,获得对象的多声道版本,且将其添加到输出音床声道。这是确保音频对象的音频内容将按多声道音频信号的混合器的意图渲染的简单方式。
根据一些实施例,所述方法进一步包括以下步骤:将音频对象与1减去分数值相乘以实现音频对象的第二分数,及使用第一组能量级将音频对象的第二分数渲染给输出音床声道。换句话说,如上文所描述不包含在输出音频内容中的音频对象的所述分数的音频内容代替地包含在输出音床声道中。
根据一些实施例,所述方法进一步包括以下步骤:在确定风险超过阈值时,将音频对象、包括音频对象的空间位置的元数据及额外元数据包含在输出音频内容中,其中额外元数据经配置使得其可在渲染阶段用来确保音频对象是在处于第一配置、具有对应于从中提取所述对象的多个声道的特定子组的预定位置的预定位置的声道中渲染。
根据一些实施例,所述方法进一步包括以下步骤:将音频对象、包括音频对象的空间位置的元数据及额外元数据包含在输出音频内容中,其中额外元数据指示来自以下列表的至少一者:
-从中提取对象的多个声道的特定子组,
-多个声道中的至少一个声道,所述至少一个声道不包含在从中提取对象的多个声道的特定子组中,及
-偏差参数。
如果确定音频对象在错误渲染的危险区域中,那么可将其与额外元数据一起作为特殊音频对象包含在输出音频内容中。接着,可由渲染器使用额外元数据以在多声道音频信号的混合器的初始意图的声道中渲染音频对象。例如,额外元数据可包括平移参数或能级,每一能级对应于多声道音频信号的多个声道中的特定声道且关于(例如,指示)从特定声道提取的音频对象的音频内容的能级。
在一些实施例中,仅在确定风险超过阈值时才将额外元数据包含在输出音频内容中。
在其它实施例中,额外元数据包括区域掩码,例如,与多个声道中的至少一个声道(其不包含在从中提取对象的多个声道的特定子组中)有关的数据。在又其它实施例中,额外元数据可包括偏差参数,所述偏差参数例如可定义位于处于第一配置的中央声道的预定位置附近或上的音频对象的多大部分应在中央声道中渲染,且因此隐含地定义多大部分应在左声道及右声道中渲染。
根据一些实施例,从多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算第一组能级,每一能级对应于多声道音频信号的多个声道中的特定声道且关于(例如,指示)从特定声道提取的音频对象的音频内容的能级。在这种情况下,在确定风险超过阈值时,所述方法进一步包括以下步骤:
-使用第一组能级将音频对象渲染给处于第一配置的第二多个声道,
-从第一多个声道的音频分量减去第二多个声道的音频分量,且获得处于第一配置的第三多声道音频信号的时间帧,
-从第三多声道音频信号的时间帧提取至少一个另外音频对象,其中所述另外音频对象是从第三多声道音频信号的多个声道的特定子组提取,
-如上文所描述般对至少一个另外音频对象中的每一另外音频对象执行步骤c)到f)。
接着可如任何上述实施例中所描述般处置每一另外音频对象。
换句话说,在已提取第一音频对象时,可对剩余多声道音频信号反复地执行上文所描述的方法,以提取另外音频对象且检查那些另外音频对象是否应按原样包含在输出音频内容中,或是否应不同地处置那些另外音频对象。
根据一些实施例,反复包括从多声道音频信号提取多个音频对象(例如1、2、3或4)。应理解,在这些情况下,对所提取音频对象中的每一者执行上文所描述的方法。
根据一些实施例,其中如上文所描述般提取又另外音频对象,直到满足以下停止准则列表的至少一个停止准则:
-所提取另外对象的能级小于第一阈值能级,
-所提取对象的总数目超过阈值数目,及
-差值多声道音频信号的所获得时间帧的能级小于第二阈值能级。
换句话说,可反复地执行任何上述方法直到满足这些停止准则中的一者。这可降低提取具有小能级的音频对象的风险,提取具有小能级的音频对象可能不会改善收听体验,这是因为人们在播放例如电影时不会将音频内容感知为独特对象。
在上述实施例中,从直接信号(多声道音频信号)提取个别音频对象或源。不适合于提取为对象的内容留在残留信号中,接着所述残留信号也传递到音床声道。音床声道常常呈与第一配置类似的配置,例如7.1配置或类似配置,其中添加到所述声道的新内容与音床声道的任何原有内容组合。
根据实例实施例,提供一种计算机程序产品,其包括计算机可读存储媒体,计算机可读存储媒体具有适于在由具有处理能力的装置执行时实行第一方面的方法的指令。
根据实例实施例,提供一种用于将多声道音频信号的时间帧转换成输出音频内容的装置,输出音频内容包括音频对象、包括每一音频对象的空间位置的元数据,及音床声道,其中多声道音频信号包括处于第一配置的多个声道,处于第一配置的每一声道具有与扬声器设置有关且在预定坐标系中定义的预定位置,所述装置包括:
-接收级,其经布置用于接收(例如,经配置以接收)多声道音频信号,
-对象提取级,其经布置用于从多声道音频信号的时间帧提取(例如,经配置以提取)音频对象,音频对象是从多个声道的特定子组提取,
-空间位置估计级,其经布置用于估计(例如,经配置以估计)音频对象的空间位置,
-风险估计级,其经布置用于基于音频对象的空间位置,估计(例如,经配置以估计)处于第一配置的声道中的音频对象的渲染版本将在具有与从中提取所述对象的多个声道的特定子组的预定位置不同的预定位置的声道中渲染的风险,且确定风险是否超过阈值,
-转换级,其经布置用于响应于风险估计级确定风险未超过阈值,将音频对象及包括音频对象的空间位置的元数据包含(例如,经配置以包含)在输出音频对象内容中。
II.概述—处理音频对象
根据第二方面,实例实施例提出用于处理具有空间位置的音频内容的时间帧的方法、实施所述方法的装置,及适于实行所述方法的计算机程序产品。所提出的方法、装置及计算机程序产品通常可具有相同特征及优点。
根据实例实施例,提供一种用于处理具有空间位置的音频内容的时间帧的方法,其包括以下步骤:
-确定音频内容的空间位置,
-通过比较音频内容的空间位置与预定区域来确定距离值,其中音频内容的空间位置是具有x分量、y分量及z分量的3D坐标,其中音频内容的空间位置的可能范围是0<=x<=1、0<=y<=1及0<=z<=1,其中预定区域对应于0<=x<=1、y=0及0<=z<=1的范围内的坐标,其中确定距离值的步骤包括使用空间位置的y分量作为距离值,
-至少基于音频内容的空间位置,确定是否应调整音频内容的性质,
-在确定应调整音频内容的性质时,接收控制值,且至少基于距离值及控制值调整空间位置及音频内容的能级中的至少一者。
为便于解释,这个实施例中的坐标系被归一化且因此涵盖任何合适坐标系及坐标系的分量的范围。
期望实现修改具有空间位置的音频内容的性质以对最终混合实现艺术控制的处理链。在许多情况下,每一个别音频对象或声道基于其规范位置(即,具有空间位置的音频内容)的直接操纵是不可行的(对象太不稳定及/或从其它对象泄漏太多,或仅仅太费时)。
本发明人已认识到,将有利的是向混合器提供高级控制,从而控制可随时间变化且可手动控制或预先设置或者基于音频对象的内容的特性自动推断的直观、高级参数。
通过基于音频内容的空间位置及到三维空间内的预定区域的距离调整音频内容的性质,可实现易于使用且直观的控制。调整音频内容的空间位置及/或能级是有利的,这在于此类调整的结果易于预测且因此是直观的。通过也包含控制值,单个参数可控制调整程度,这可与开启混合器板上的旋钮进行比较。因此,如果控制值为0,那么不进行调整。如果控制值处于其最大值(例如,在归一化控制值的情况下为1,但是任何其它范围的控制值是可能的,例如0到10),那么基于距离值进行音频内容的性质/若干性质的完全调整。
因此,根据一些实施例,控制值可为用户定义的。然而,也可通过分析音频内容来自动生成控制值。例如,某些调整可能仅适于音乐内容,而不适于对话内容。在这个实例中,对话检测级及音乐检测级可适于设置控制值,从而在检测到音乐而无对话时增加调整(增加控制值),且在检测到对话时将控制值设置为0,这将导致不进行如上文所描述的调整。
应注意,用于处理音频内容的时间帧的实施例无需应用于例如输入音频内容中的所有音频对象及/或声道。通常,音频对象的子组经历本文中所描述的方法。例如,关于对话的音频对象未经历所述方法,而是保持原样。根据一些实施例,仅输入音频内容中的音频对象(的子组)经历所述方法,而任何基于声道的音频内容(例如,音床声道)保持原样。
根据一些实施例,如果距离值未超过阈值,那么确定调整音频内容的性质,其中在确定应调整音频内容的性质时,至少基于距离值及空间位置的x值调整空间位置。
就这个实施例来说,可基于音频内容是否在屏幕附近且基于音频内容在房间中沿x方向的位置调整音频内容的空间位置。这个实施例可例如用于实现特定区域(例如屏幕)附近的音频对象的扩散效果,这例如可具有屏幕上的其它声音(对话、音效等等)更易懂的效果,这是因为空间掩蔽被降低。
根据一些实施例,调整空间位置的步骤包括基于空间位置的x值调整空间位置的z值,且基于空间位置的x值调整空间位置的y值。就这个实施例来说,例如屏幕上的音频对象及/或音床声道可从左前声道及右前声道映射到包围屏幕的弧。控制值可控制扩散量。如果将控制值设置为0,那么函数不会影响内容。因此,通过修改音频内容位置(例如,音频对象的空间位置或声道的规范位置)来实现效果。
根据一些实施例,其中仅在距离值超过阈值时才确定调整音频内容的性质,其中在确定应调整音频内容的性质时,至少基于距离值及空间位置的z值调整能级。就这个实施例来说,可基于音频对象的空间位置的高度加强(放大等等)例如远离某个区域(例如屏幕)定位的音频对象。通过这个实施例,可实现改善的收听体验,这是因为例如位于天花板内或附近的音频对象/声道的能级增加。控制值可控制所允许的加强量。
根据一些实施例,所述方法包括以下步骤:在确定是否应调整音频内容的性质的步骤之前,确定音频内容的时间帧的当前能级,其中还基于当前能级调整音频内容的能级。例如,细微音频对象可比根据一些实施例根本不应被加强的非细微音频对象更多地被加强。出于这个原因,根据一些实施例,仅在当前能级未超过阈值能级时才确定调整音频内容的性质。
根据一些实施例,所述方法包括接收与音频内容的先前时间帧有关的能量调整参数,其中还基于能量调整参数调整能级。因此,所应用的加强适于先前所应用的加强,以实现音频内容的更平滑加强。
根据一些实施例,仅在距离值超过阈值时才确定调整音频内容的性质,其中基于距离值调整空间位置的z值。因此,可向上移动较远离预定义区域(例如,屏幕)的音频对象/声道,使得其能量的较高分数被感知为来自天花板。例如,当在房间后部的墙壁上(作为三维空间的实例)平移(作为定位的实例)音频对象时,本实施例可朝向天花板提升音频对象。
根据一些实施例,对于第一距离值,将z值调整为第一值,且对于低于第一距离值的第二距离值,将z值调整为低于第一值的第二值。因此,与更接近于屏幕的对象/声道相比,可推动房间中更靠后的音频对象/声道以更接近于天花板。
根据实例实施例,提供一种计算机程序产品,其包括计算机可读存储媒体,计算机可读存储媒体具有适于在由具有处理能力的装置执行时实行根据第二方面的方法的指令。
根据实例实施例,提供一种用于处理音频内容的时间帧的装置,其包括处理器,处理器经布置(例如,经配置)以:
-确定音频内容的空间位置,
-通过比较音频内容的空间位置与预定区域来确定距离值,其中音频内容的空间位置是具有x分量、y分量及z分量的3D坐标,其中音频内容的空间位置的可能范围是0<=x<=1、0<=y<1及0<=z<=1,其中预定区域对应于0<=x<=1、y=0及0<=z<=1的范围内的坐标,其中确定距离值的步骤包括使用空间位置的y分量作为距离值,
-至少基于音频内容的空间位置,确定是否应调整音频内容的性质,
-在确定应调整音频内容的性质时,处理器经布置以接收控制值,且至少基于距离值及控制值调整空间位置及音频内容的能级中的至少一者。
III.实例实施例
在下文中,输出音频内容的格式被例示为杜比全景声(Dolby Atmos)内容。然而,这仅是实例,且可使用任何其它基于对象的声音格式。
而且,在下文中,在具有x分量、y分量及z分量的3D坐标系中例示方法、装置及计算机程序产品,其中x分量、y分量及z分量的可能范围是0<=x<=1、0<=y<=1、0<=z<=1。在此,x分量指示从左到右延伸的维度、y分量指示从前到后延伸的维度,且z分量指示从下到上延伸的维度。图17中展示这个坐标系。然而,本发明涵盖任何3D坐标系。为使此类坐标系适于本发明的坐标系(如图17中所展示),三个坐标的可能范围的归一化是唯一需要的。在图17的实例性坐标系中,附图顶部的表面(即,y=0处的平面)可含有屏幕。
传统到全景声(Legacy-to-Atmos;LTA)是内容创建工具,所述内容创建工具可采取5.1或7.1内容(其可为完全混合或部分混合,例如词干)且将这个传统内容变成由音频对象(音频+元数据)及音床声道组成的全景声内容。在LTA中,通过将源分离应用于信号的直接分量,从原始混合提取对象。上文例示了源分离,且在本发明中将不再进一步论述。LTA仅是实例,且可使用用于将传统内容转换成基于对象的声音格式的任何其它方法。
如图1a到b中所展示,从声道级估计所提取对象112、114的空间位置元数据(例如,呈x、y的形式)。在这些图中,圆圈102到110表示5.1音频信号(其是包括处于第一配置(例如,5.1声道配置)的多个声道的多声道音频信号的实例)的声道,且其暗度表示每一声道的音频级。例如,对于图1a中的音频对象112,大多数音频内容可在左前声道(L)102中找到,一些音频内容可在中央声道(C)104中找到,且少许音频内容可在左后声道108中找到。处于此类配置的所有声道具有与扬声器设置有关且在预定坐标系中定义的预定位置(例如,如图17中所展示)。例如,对于L声道,预定位置是x=0、y=0(及z=0)。对于C声道,预定位置是x=0.5、y=0(及z=0)等等。
然而,在对象提取及元数据估计之后将所提取对象渲染给与原始5.1/7.1布局类似的布局时,可能会出现问题。图1b中展示此类情况,其中可看到明显违反混合器的原始意图。
例如,考虑以下情况。
图1a到b各自展示特定音频对象的多声道音频信号的时间帧。应注意,为便于描述,图1a到b展示简化情况,其中仅一个音频对象包含在多声道音频信号中。
LTA将从已由内容创建工具(例如,用于将多声道音频信号的时间帧转换成输出音频内容的装置)接收的多声道音频信号的时间帧提取音频对象112、114。音频对象112、114是从多个声道的特定子组提取,例如图1a的左前声道102、中央声道104及左后声道108以及图1b中的左前声道102及右前声道(R)的子组。估计每一音频对象112、114的空间位置且在图1a到b中用正方形112、114展示。
然而,在这种情况下,在将LTA的输出(音频对象112、114)渲染给原始5.1布局时,结果不同,如图1a到b的下部中可见。
对于图1a中的情况,对于所渲染音频对象112获得的结果与多声道音频信号的原始所接收时间帧相同(或非常类似)。
对于图1b中的情况,初始意图通过幻像成像(即,通过仅使用左前声道102及右前声道106)位于中央的音频对象114现在完全渲染给中央声道104,而不管混合器的初始艺术意图是否阻止其激活中央扬声器。这是违反原始艺术意图的实例,从而可能导致收听体验明显下降。
在此整个文档中,我们将“艺术意图”定义为使用可用声道的特定子组来渲染对象的决定,及/或不使用可用声道的特定子组来渲染对象的决定。换句话说,在违反了艺术意图时,处于第一配置的声道中的音频对象的渲染版本将在具有与从中提取所述对象的多个声道的特定子组的预定位置不同的预定位置的声道中渲染。例如,如图1b中所展示,艺术意图是将音频对象在位置x=0、y=0处渲染50%且在位置x=1、y=0处渲染50%,而实际结果是在位置x=0.5、y=0处渲染100%。
艺术意图的典型实例是:
-仅使用L声道及R声道(不使用C声道)在屏幕上平移源。
-仅使用L声道及左后环绕(Lrs)声道、R声道及右后环绕(Rrs)声道且不使用左侧环绕(Lss)声道及右侧环绕(Rss)声道在7.1布局中从前到后平移源。
因此,应不同地处置存在错误渲染风险的音频对象以降低此类违反的风险。因而,仅不存在错误渲染风险(或风险低于某个阈值)的音频对象应以正常方式包含在输出音频对象内容中,即,作为音频内容及包括音频对象的空间位置的元数据。
现在将结合图2及16以实例方式描述一种用于将多声道音频信号的时间帧转换成输出音频内容的装置及方法,输出音频内容包括音频对象、包括每一音频对象的空间位置的元数据,及音床声道。
由装置200在所述装置的接收级(未展示)处接收S1602音频流202(即,多声道音频信号)。装置200进一步包括对象提取级204,对象提取级204经布置用于从多声道音频信号的时间帧提取S1604至少一个音频对象206。如上文所描述,在这个级处的所提取对象的数目可为用户定义的或预定义的,且可为在1与任意数目(n)之间的任何数。在实例实施例中,在这个级处提取三个音频对象。然而,为便于解释,在下文描述中,在这个级处仅提取一个音频对象。
在提取音频对象206时,还计算能级的平移参数208(例如,一组能级208,每一能级对应于多声道音频信号202的多个声道中的特定声道且关于(例如,指示)从特定声道提取的音频对象206的音频内容的能级)。由于多声道音频信号中的每一声道在空间中具有预定位置,因此可从所述组能级计算平移参数。将音频对象及平移参数两者发送到空间位置估计级203,空间位置估计级203经布置用于估计S1606音频对象的空间位置。因此,使用平移参数完成这个估计S1606,且从空间位置估计级203输出空间位置(x,y)207连同音频对象206及平移参数208。
风险估计级210经布置用于从空间位置207估计S1608处于第一配置的声道中的音频对象206的渲染版本将在具有与从中提取所述对象的多个声道的特定子组的预定位置不同的预定位置中渲染的风险。风险估计级210经布置以检测艺术意图何时受到威胁,即,通过确定S1610风险是否超过阈值。下文将结合图3a、3b及4进一步描述风险估计级210中使用的算法。
在由风险估计级210确定S1610风险未超过阈值的情况下,将音频对象206及元数据(例如,音频对象206及空间位置207)包含在输出音频内容(例如,输出音频对象内容)中。例如,将音频对象206及空间位置207发送到转换级216,转换级216经布置用于将音频对象206及包括所述音频对象的空间位置207的元数据包含在输出音频对象内容222中,输出音频对象内容222是输出音频内容218的部分。应注意,在本说明书的背景中,输出音频对象=音频信号+元数据,且输出音床声道224=音频信号+声道标签。
可例如以任何以下形式将任何元数据(例如,包括音频对象的空间位置207的元数据)添加到输出音频对象内容:
-单独文件,例如与音频对象文件同名的文本文件
-同一位流的部分
-嵌入到“容器”中,所述容器是包含音频及元数据(及甚至是输出音床声道内容)的文件格式。
还应注意,使用本文中所描述的方法及装置将未提取为音频对象的多声道音频信号的任何音频内容添加到输出音床声道224。然而,这个特征在图中被省略且在本文中不再进一步描述。
在由风险估计级210确定S1610风险超过阈值的情况下,将平移参数208及音频对象206(或如下文将描述的音频对象206的一分数)发送到艺术保存级212。下文结合图5及6描述艺术保存级212的功能及算法。
图3a中展示风险估计级210的第一实例实施例。这个实施例是基于计算所提取对象的位置,且确定应提取多少对象及应保存多少对象。
在图3a中,较小图3b是散置的,其以实例方式在5.1布局上展示所提取音频对象206(根据图17的坐标)。在图3b的布局中,展示了预定区域302。在估计音频对象206的空间位置位于这个预定区域302外的情况下,确定风险未超过阈值,且因此,将音频对象206及包括所述音频对象的空间位置208的元数据包含在输出音频对象内容222中,输出音频对象内容222是输出音频内容218的部分。
根据实施例,预定区域302可包含处于第一配置的多个声道中的至少一些的预定位置。在这个实例中,第一配置对应于5.1声道设置,且预定区域302包含处于第一配置的L、C及R声道的预定位置。7.1布局同样是可能的。如图3b中结合图17所见,L、R及C声道的预定位置在预定义坐标系中共享共同y坐标值(例如,0)。在这种情况下,预定区域包含具有与所述共同y坐标相差高达阈值距离a的y坐标值的位置。而且,在确定空间位置位于预定区域302外(即,更远离共同y坐标(即,在这个实例中为0))的情况下,确定风险未超过阈值。
根据一些实施例,预定区域包括第一子区域304。这个子区域304可等于共同y坐标,即,在3D空间中具有坐标0<=x<=1、y=0及0<=z<=1的平面,但其它子区域同样是可能的。例如,y坐标的范围可为0<=y<=0.05。在这个实施例中,由风险估计级210确定分数值。分数值对应于要包含在输出音频内容中的音频对象的一分数且是基于空间位置206与第一子区域304之间的距离,其中所述值是在0与1之间的数。图3c中展示用于计算分数值的实例函数。如果对象在y=0处,那么根本无需提取对象。如果离屏幕足够远(例如,y>a=0.15),那么执行完全提取。在中间,如图3c中的平滑函数确定要提取的分数。
所述函数可为例如f(y)=min(y2/a2,1),其中a=0.15。a的其它合适函数及值同样是可能的。
将所提取音频对象206乘以要提取的分数。这样,第一子区域中(例如,屏幕中)的对象将被静音,远离第一子区域的音频对象将保持不变,且过渡区域中(在预定区域302中但不在第一子区域304中)的音频对象206将根据函数值而衰减。将音频对象的分数(或完整音频对象)314及包括音频对象206的空间位置207的元数据发送到转换级216,转换级216经布置用于将音频对象的分数(或完整音频对象)314及包括音频对象的空间位置207的元数据包含在输出音频对象内容222中,输出音频对象内容222是输出音频内容218的部分。
结合图3a到c所解释的上述实施例的优点在于其需要低计算成本且易于实施。
应注意,可以类似方式将相同过程应用于房间的其它区域(除在这个实例中为屏幕附近的区域之外)。
并行地,将所提取音频对象乘以1减去分数值(例如,1-f(y)),且将音频对象206的所得分数发送到下文结合图5到6所例示的艺术保存级212。
图4中展示风险估计级210的另一实施例。这个实施例是基于根据下文比较呈原始配置(例如,5.1/7.1布局)的所提取对象与呈相同配置的渲染版本(例如,5.1/7.1)。
对于这个实施例,需要平移参数208。出于这个原因,从多声道音频信号提取音频对象(参见图2,对象提取级或源分离级204)包括计算第一组能级,其中每一能级对应于多声道音频信号的多个声道中的特定声道且关于(例如,指示)从特定声道提取的音频对象的音频内容的能级。因此,由风险估计级210接收平移参数208连同所提取音频对象206及所估计空间位置207。
为估计音频对象的错误渲染的风险,使用音频对象的空间位置将音频对象渲染给处于第一配置的第二多个声道且基于所渲染对象计算第二组能级,每一能级对应于处于第一配置的第二多个声道中的特定声道且关于(例如,指示)渲染给第二多个声道中的特定声道的音频对象的音频内容的能级。接着比较两组能级,且例如使用每一对应能级(例如,每一对对应能级)的绝对差值计算差值。基于这个差值,估计风险。
图4展示基于比较呈原始配置(例如,5.1/7.1布局)的所提取对象与呈相同配置的渲染版本(例如,5.1/7.1)的另外实施例。在这个实施例中,计算第一组能级与第二组能级之间的差值的步骤包括使用第一组能级208,使用渲染器402将音频对象渲染给处于第一配置的第三多个声道406。此外,使用音频对象206的空间位置207,这个实施例包括使用渲染器402将音频对象206渲染给处于第一配置的第二多个声道408。对于第三多个声道及第二多个声道中的每一对对应声道,测量所述对声道中的每一者的均方根RMS值(即,能级),在装置200的比较级404中确定两个RMS值之间的绝对差值,且计算第三多个声道及第二多个声道的所有对对应声道的绝对差值的总和410。接着将总和410再次发送到风险估计级210,其中风险估计级210用于通过比较总和与阈值来确定风险是否超过阈值。
在确定风险低于阈值的情况下,将音频对象206及元数据(例如,包括音频对象206的空间位置207)包含到输出音频内容(例如,输出音频对象内容)中。例如,如上文所描述,将音频对象206及元数据(例如,包括音频对象的空间位置207)发送到转换级216。在风险超过阈值的情况下,将音频对象206及所述组能级208发送到艺术保存级212。现在将结合图5到6描述此类级212的实施例。
根据一些实施例,如果检测到所提取对象违反艺术意图(超过阈值),那么将其呈原始多声道格式(例如,5.1/7.1)的内容保持为残留信号且添加到输出音床声道。图5中展示这个实施例。为在输出音床声道224中渲染音频对象206,需要平移参数或在从多声道音频信号提取音频对象时计算的所述组能级。出于这个原因,将平移参数208及音频对象两者发送到艺术保存级212。在艺术保存级212中,将平移参数208应用于所提取对象206以获得要保存的对象的多声道版本502。接着在转换级216中将多声道版本502添加到输出音床声道224。
应注意,上述实施例也可应用于图3a到c的实施例。因此,根据实施例,由艺术保存级212接收音频对象的第二分数连同音频对象的平移参数208。第二分数是通过将音频对象乘以1减去分数值f(y)(图3c)且使用第一组能级208以经由音频对象的第二分数的多声道版本502将所述对象的第二分数渲染给音床声道来实现,如上文所描述。
图6展示艺术保存级212的另一实例。这个实施例是基于在正常对象提取可能违反艺术意图的情况下计算伴随对象提取的额外元数据。如果检测到所提取对象违反艺术意图(如上文所描述),那么可将其连同额外元数据(例如,描述其如何在原始5.1/7.1布局中平移的平移参数)一起存储为特殊音频对象且包含在输出音频对象内容222中,输出音频对象内容222是输出音频内容218的部分。
这种方法也适用于由图3a到c的实施例产生的部分保存对象(第二分数)。
额外元数据是使用平移参数208来计算,且可用来例如在渲染阶段通过以下方法中的一者保存原始艺术意图:
1)使用原始平移参数将对象渲染给声道
2)应用特定平移规则(例如,偏差、区域掩码等等)以使其成为对象,同时保存原始艺术意图。
即,可在渲染阶段使用额外元数据以确保音频对象是在处于第一配置、具有对应于从中提取所述对象的多个声道的特定子组的预定位置的预定位置的声道中渲染。
换句话说,在这个实施例中,艺术保存级212计算额外元数据602,额外元数据602发送到转换级216且连同音频对象及包括音频对象206的空间位置207的元数据一起添加到输出音频内容218。额外元数据602指示来自以下列表的至少一者:
-从中提取对象的多个声道的特定子组,
-多个声道中的至少一个声道,所述至少一个声道不包含在从中提取对象的多个声道的特定子组中(例如,区域掩码),及
-偏差参数。
例如,额外元数据602可指示在提取音频对象206时计算的平移参数(一组能级)208。
如果检测到所提取对象违反艺术意图,那么使用图5或6的实施例来保存艺术意图将中和对象提取本身。例如,如果要提取的分数为0,那么通过应用图3a到c的实施例,可使所提取对象无信号。在此类情况下,且还在其它情况下,可期望再次执行对象提取,以便提取下一重要分量。为此,可使用以下策略:
1)一旦检测到对象可能违反艺术意图,就通过应用在提取音频对象时计算的平移参数(一组能级)来获得对象的多声道版本。换句话说,使用第一组能级将音频对象渲染给处于第一配置的第二多个声道。
2)从第一多个声道的音频分量减去第二多个声道的音频分量,且获得第三多声道音频信号的时间帧(即,差值信号)。
3)接着,再次对差值信号运行对象提取。换句话说,从第三多声道音频信号的时间帧提取至少一个另外音频对象,其中所述另外音频对象是从第三多声道音频信号的多个声道的特定子组提取。
4)应用上文所描述的任何实施例以检测所提取另外音频对象中的每一者的艺术意图的违反,在这种情况下,应用上文所描述的艺术保存的任何实施例,且从步骤1)重新反复直到满足某个停止准则。
停止准则可为来自以下停止准则列表的至少一个停止准则:
-所提取另外对象的能级小于第一阈值能级,
-所提取对象的总数目超过阈值数目,例如,1、3或6或任何其它数,及
-差值多声道音频信号的所获得时间帧的能级小于第二阈值能级。
本发明现在将转到用于修改例如LTA的输出(处理音频对象的时间帧)以便对最终混合实现艺术控制的方法、装置及计算机程序产品。
所有方法涉及处理具有空间位置的音频内容的时间帧。在下文中,音频内容被例示为音频对象,但是应注意,下文所描述的方法也基于音频声道的规范位置应用于音频声道。而且,为简化描述,有时将音频对象的时间帧称为“音频对象”。
如上文所描述,传统到全景声(LTA)是内容创建工具,所述内容创建工具采取5.1或7.1内容(可为完全混合或部分混合,例如词干)且将其变成由对象(音频+元数据)及音床声道组成的全景声内容。基于对结果提供非常小程度的美学控制的一小组预定义参数,此类过程通常是盲目的。因此,期望实现修改LTA的输出以便对最终混合实现艺术控制的处理链。在许多情况下,由LTA提取的每一个别对象的直接操纵是不可行的(对象太不稳定及/或从其它对象泄漏太多,或仅仅太费时)。在下文,将结合图7到15及18描述混合器的一组高级控制。这些算法由可随时间变化且可手动控制或预先设置或者基于内容的特性自动推断的直观、高级参数控制。这些方法可被称为后处理,这是因为其将全景声内容(即,音频对象及音床声道)视为输入(与LTA相反,其将5.1/7.1视为输入)。例如,使用案例可为那个内容是LTA的输出的情况。
在下文中,描述用于对基于对象的音频内容提供艺术控制的若干方法,所述方法可分为三种子类方法:
-屏幕扩散:在特定区域中(例如,在屏幕附近)扩散对象。根据一些实施例,屏幕扩散效果仅应用于音乐内容,而不应用于对话内容。
-高度加强:增加远离关键区域定位的细微元素(例如,远离屏幕及水平平面的对象)的级。
-天花板吸引力:重新定位元素,例如根据其与屏幕的距离增加其高度。
这些方法中的每一者,单独地或结合一或多种其他方法使用,对基于对象的音频内容提供额外艺术控制。
所述方法中的每一者共享现在将结合图18解释且接着结合图7到15例示的共同特征。
每种方法用于处理音频对象的时间帧。图18中展示实施所述方法的装置1800。所述装置包括处理器,所述处理器经布置以接收音频对象的时间帧1810,且在位置估计级1802中确定音频对象的时间帧1810的空间位置。此类确定可例如使用包括音频对象的空间位置的所接收元数据来完成,且结合接收音频对象的时间帧1810来接收。接着将音频对象的时间帧1810及音频对象的空间位置1812发送到调整确定级1804。
至少基于音频对象的空间位置1812,处理器确定是否应调整音频对象的性质。根据一些实施例,还可基于由调整确定级1804接收的控制值1822进行此类确定。例如,如果控制值1822为0(即,不进行调整),那么可使用所述值以退出调整确定级1804且将音频对象的时间帧1810按原样发送到音频内容制作级1808。换句话说,在确定不应调整性质的情况下,将音频对象的时间帧1810按原样发送到音频内容制作级1808以包含在输出音频内容1820中。然而,在确定应调整音频对象的性质时,将音频对象的时间帧1810及音频对象的空间位置1812发送到距离计算级1804,距离计算级1804经布置以通过比较音频对象的空间位置1812与预定区域来确定距离值1814。如上文所描述,在本发明中,在具有x分量、y分量及z分量的3D坐标系中例示方法、装置及计算机程序产品,其中x分量、y分量及z分量的可能范围是0<=x<=1、0<=y<=1、0<=z<=1。在这个坐标系中,预定区域对应于0<=x<=1、y=0及0<=z<=1的范围内的坐标(例如,房间中的屏幕区域)。使用空间位置的y分量作为距离值来确定距离值。
将距离值1814、音频对象的空间位置1812及时间帧1810发送到性质调整级1806,性质调整级1806还接收控制值1822。至少基于距离值1806及控制值1822调整空间位置及音频对象的能级中的至少一者。在调整空间位置的情况下,将所调整空间位置1816发送到音频内容制作级1808以连同(任选地调整的)音频对象的时间帧1810一起包含在输出音频内容1820中。
图7到10描述用于将声音扩散到前置扬声器(Lw、Rw)且任选地甚至使用第一行天花板扬声器以在屏幕周围创建弧的方法。根据这种方法,如果距离值未超过阈值,即,空间位置接近于屏幕,那么确定调整音频对象的性质。这可使用图8中所展示的函数802(yControl(y))来控制,函数802在屏幕附近具有值1且远离屏幕衰减到0,其中参考数字804表示如上文所描述的阈值。为实现扩散效果,至少基于距离值及空间位置的x值调整空间位置。例如,可基于空间位置的x值调整对象的空间位置的z值,例如如图10中所展示,其中展示空间位置的x值与其对音频对象的空间位置的z值的相应效果之间的两个传递函数1002、1004。替代地或另外,可基于空间位置的x值调整空间位置的y值,如图9中所描述。
根据一些实施例,图7到10中所描述的方法包含:
1)构建在屏幕附近具有值1且远离屏幕衰减到0的函数yControl(y)(例如,图8)。
2)通过根据对象的x坐标将对象的y坐标增加达Δy(x),在屏幕侧朝向y>0移动对象(例如,图9)
3)将扩散量Δy(x)乘以yControl:这确保扩散仅应用于屏幕附近的对象。y_out=y_in+Δy(x_in)*yControl(y_in)。
4)通过根据x增加对象的z坐标来提高屏幕中央附近对象的高度(图10):z_out=min(1,z_in+Δz(x_in))。
5)根据外部控制“扩散量”计算混合原始对象位置及修改对象位置的最终对象位置。Pos_out=spread_amount*(x_in,y_out,z_out)+(1-spread_amount)*(x_in,y_in,z_in)。
应注意,音床声道不具有关联位置元数据;为将处理应用于L、C、R声道,在当前实施方案中,所述声道可变成位于其规范位置的静态对象。因而,还可根据这个实施例修改音床声道的空间位置。
图11到13展示根据另一实施例的用于处理音频对象的时间帧的方法。有时,LTA对原始5.1/7.1多声道音频信号(传统信号)的效果是细微的。这是归因于3D中声音的感知似乎要求增强沉浸感(即,加强细微的屏幕外及天花板声音)的事实。出于这个原因,可能有利的是存在用来在细微(柔和)音频对象及音床声道离开屏幕时加强所述音频对象及音床声道的方法。如上文所描述,音床声道可变成静态对象。根据一些实施例,加强可与z坐标成比例地增加,因此更多地加强了天花板上的对象及Lc/Rc音床声道,而不加强水平平面上的对象。因此,仅在距离值超过阈值时才确定调整音频对象的性质,其中在确定应调整音频对象的性质时,至少基于距离值及空间位置的z值调整总能级。图12展示音频对象的(时间帧的)y坐标与能级(例如,RMS)的最大加强之间的传递函数。如图12中可见,不加强位于y=0附近的对象,在这种情况下其对应于阈值。阈值可为0或0.01或0.1或任何其它合适值。图13展示音频对象的(时间帧的)z坐标与能级的最大加强之间的传递函数。因此,基于距离值及空间位置的z值调整能级。
图11以实例方式展示可如何实现低能量音频对象的加强。图11左侧展示加强低级部分。为避免对柔和信号的过度加强(混合器出于充分原因使其变柔和),添加最大加强极限1104允许我们获得图11右侧的期望曲线。出于这个原因,需要确定音频对象的时间帧的第一能级,例如,音频对象的音频内容的RMS。还基于这个能级但仅在所述能级未超过阈值能级1102时才调整所述能级。
根据一些实施例,加强适于这个音频对象的先前帧处的加强,以实现音频对象的平滑加强。出于这个原因,所述方法可包括接收与音频对象的先前时间帧有关的能量调整参数,其中还基于能量调整参数调整能级。
根据一些实施例,用于调整音频对象的能级的算法可如下:
对于每一音频对象且对于所述音频对象的每一时间帧:
1)获得能级及位置元数据;所述级是当前帧中的对象或音床声道音频的RMS。
2)仅取决于位置计算最大所允许加强。位置相依加强取决于Y(不加强位于屏幕中的对象)及Z(对象/声道越高,所应用的加强越多),且是图12及13中所展示的两个函数的乘积。
3)取决于最大加强极限1104及阈值能级1102计算音频对象的输入能级与输出能级之间的传递函数,如图11右侧中所展示,且计算由输出能级与输入能级之间的差值确定的初始加强值。
4)通过将3)的初始加强值与2)的乘积相乘来计算所期望加强(下文的“加强”)。
5)使加强适于先前帧处的加强:
如果boost>previous_boost
adaptive_boost=alpha_attack*boost+(1-alpha_attack)*previous_boost;
否则
adaptive_boost=alpha_release*boost+(1-alpha_release)*previous_boost;
其中alpha_attack及alpha_release是取决于先前音频帧的级是比当前音频帧更柔和还是更响亮的不同时间常数。
6)在存储器中保持每个音频对象/音床应用的加强,从而更新先前加强的值。
7)将adaptive_boost应用于音频对象的时间帧。
根据一些实施例,将在范围[0,1]内的用户控制“加强量”转换为最大加强极限1104及阈值能级1102,使得值0无效果,而值1实现最大效果。
应注意,虽然当前对于每一个对象独立地评估RMS,但是还预见其中基于总体RMS或属于房间的特定区域的对象及声道的RMS压缩对象的情况。
对于上述实施例(如结合图11到13所描述),考虑以下约束中的至少一些:
-向用户公开尽可能少的参数:理想地,“一个旋钮控制效果”(例如,用户控制“加强量”)。
-加强必须取决于响度及位置。
-“控制效果的一个旋钮”应按以下方式运行:如果变成0,那么我们获得与引入这个特征之前完全相同的结果。
-必须结合适当时间常数应用加强以避免在突然柔和声音的突然响亮瞬变及突然“加速”期间过调。
图14到15展示用于处理音频对象的时间帧的方法的其它实施例。
在将LTA应用于典型电影或音乐内容时,观众的主要预期是听到来自天花板的声音。所提取对象根据其从5.1/7.1音频推断的空间位置(x,y)位于房间中,且z坐标可为空间位置(x,y)的函数,使得随着对象在房间内移动,z值增加。通过设计这个函数,墙壁上的对象将停留在z=0,而房间中央的对象将上升到z=1。然而,事实证明,制作典型5.1/7.1混合的大多数源在墙壁上产生静态音频对象,或其在若干对声道之间动态平移,因此覆盖墙壁上的轨迹。因此,使用LTA,所提取音频对象可能仅停留在水平平面中的墙壁上。图14到15描述用于在房间后部的墙壁上平移对象时将对象推到天花板的方法。所提出的方法包括通过在房间内推动环绕扬声器(Lrs、Rrs)来修改规范5.1/7.1扬声器位置,使得位于墙壁上的音频对象将自然地升高。这导致仅在距离值超过阈值(即,音频对象位于房间后部)时才确定调整音频对象的性质。接着可基于距离值调整空间位置的z值。例如,空间位置在房间越向后,z值将越大。换句话说,对于第一距离值,将z值调整为第一值,且对于低于第一距离值的第二距离值,将z值调整为低于第一值的第二值。
更详细地说,在LTA中,对象位置(x,y)是从5.1/7.1扬声器的增益及其规范位置来计算,基本上通过反转平移定律。如果环绕扬声器从其规范位置朝向房间中央移动,那么在反转平移定律时,实现了对象轨迹的翘曲,从而基本上使其在房间内弯曲,且因此导致z坐标增长。图14绘示Lrs扬声器1404及Rrs扬声器1406朝向房间中央移动的概念,这意味着也移动音频对象1402的位置。扬声器移入房间的程度可取决于范围[0,1]内的参数“重映射量”,其中值0在常规获得的对象位置上不产生变化,而值1达到完全效果。
这种算法的输入是对象的位置(x,y,z)及重映射量(即,控制值)。根据一些实施例,输出是其中保存(x,y)且调整z的新对象位置。
根据一个实施例涉及的步骤是:
1)给定音频对象的空间位置(x,y),将全景声增益计算为7.1布局(即使原始内容为5.1)。换句话说,在源分离之后,确定音频对象的空间位置(x,y)。由于已知现在的空间位置,因此现在可计算音频对象将在7.1布局中产生的增益,即,基于空间位置。通过使用7.1布局,Lss/Rss位置可固定到其原始位置,而非在内部移动,以避免调整房间前半部中的音频对象的z值。
2)给定7.1的规范位置及“重映射量”的值,朝向房间中央移动Lrs 1404及Rrs1406。
3)给定所修改布局及在步骤1处计算的增益,计算音频对象的新对应空间位置(x',y')(参见图14)。
4)给定所调整空间位置(x',y'),通过应用函数z'=f(x',y')来计算所调整z值(z'),所述函数增加朝向房间中央的高度。例如,所述函数可具有金字塔形状,其具有正方形基部(房间侧在z=0)及天花板中间的尖端,例如如图15中所展示,包含所调整x值(x')与所调整z值(z')之间的两个不同传递函数。
5)输出所调整位置(x,y,z')作为新对象位置;应注意,保留原始x值及y值(x,y),尽管如果也期望朝向房间内部移动对象的效果,那么也可能想要使用所修改(x',y')。
如上文所描述,上述效果可通过将声道变成规范位置处的静态对象而应用于声道(例如,音床声道)。
本发明还涉及一种用于存储、存档、渲染或流式处理使用上述方法制作的内容的方法
所述方法是基于以下观察:最终全景声内容在经由上文所描述的LTA及后处理创作时可从仅含在以下项中的信息重新获得:
i)原始5.1/7.1内容,
ii)所有时变LTA+后处理参数(例如,如由混合器调整或基于内容分析自动确定的控制值等等)。
因此,无需存储/存档/渲染/流式处理通过这些方式获得的完整全景声内容。鉴于原始5.1/7.1内容已存在,因此需要仅保留含有时变参数的相对非常小的数据片段。
这种方法的优点是多方面的。在以这种方式存储/存档时,会节省空间(计算机存储器)。在流式处理/广播时,仅需要对标准5.1/7.1内容添加少量带宽,只要接收器能够使用额外参数对5.1/7.1内容运行LTA即可。此外,在语言复制的工作流程中,5.1/7.1词干始终是分布式的。因此,如果LTA版本应被复制,那么全球演播室除了当前所做之外,还需要共享含有如上文所描述的LTA参数的小文件。
应注意,要存储的一组参数包含本发明中所描述的所有那些参数,以及完全确定LTA过程所需的所有其它参数,包含例如上文揭示内容中所揭示、旨在保存创建原始5.1/7.1期间所做的艺术决定的那些参数。
IV.等效、扩展、替代及杂项
在研究上文描述之后,本发明的另外实施例对于所属领域的技术人员将变得显而易见。尽管本说明书及附图揭示实施例及实例,但是本发明不限于这些特定实例。在不脱离本发明的范围的情况下,可进行许多修改及变化。任何参考标记不应被理解为对保护范围的限制。
另外,根据对附图及揭示内容的研究,所属领域的技术人员在实践本发明时可理解及实现对所揭示实施例的变化。在说明书中,词语“包括”不排除其它元件或步骤,且数词“一”或“一个”不排除多个。在相互不同的实施例中陈述某些措施的纯粹事实并不指示无法有利地使用这些措施的组合。
上文中所揭示的系统及方法可被实施为软件、固件、硬件或其组合。在硬件实施方案中,在上文描述中所提及的功能单元或级之间的任务划分不一定对应于划分为物理单元;相反,一个物理组件可具有多个功能,且一个任务可由多个物理组件协同实行。某些组件或所有组件可被实施为由数字信号处理器或微处理器执行的软件,或被实施为硬件或专用集成电路。此类软件可分布在可包括计算机存储媒体(或非暂时性媒体)及通信媒体(或暂时性媒体)的计算机可读媒体上。所属领域的技术人员熟知,术语计算机存储媒体包含以用于存储例如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实施的易失性及非易失性、可卸除及不可卸除媒体。计算机存储媒体包含但不限于RAM、ROM、EEPROM、闪速存储器或其它存储器技术、CD-ROM、数字通用光盘(DVD)或其它光盘存储装置、磁带盒、磁带、磁盘存储装置或其它磁存储装置,或可用来存储所期望信息且可由计算机存取的任何其它媒体。此外,所属领域的技术人员熟知,通信媒体通常以例如载波或其它传输机制的调制数据信号体现计算机可读指令、数据结构、程序模块或其它数据,且包含任何信息递送媒体。
从以下枚举实例实施例(EEE)可明白本发明的各个方面:
EEE 1.一种用于将多声道音频信号的时间帧转换成输出音频内容的方法,所述输出音频内容包括音频对象、包括每一音频对象的空间位置的元数据,及音床声道,其中所述多声道音频信号包括处于第一配置的多个声道,处于所述第一配置的每一声道具有与扬声器设置有关且在预定坐标系中定义的预定位置,所述方法包括以下步骤:
a)接收所述多声道音频信号,
b)从所述多声道音频信号的所述时间帧提取至少一个音频对象,其中所述音频对象是从所述多个声道的特定子组提取,且对于所述至少一个音频对象中的每一音频对象:
c)估计所述音频对象的空间位置,
d)基于所述音频对象的所述空间位置,估计处于所述第一配置的声道中的所述音频对象的渲染版本将在具有与从中提取所述对象的所述多个声道的所述特定子组的所述预定位置不同的预定位置的声道中渲染的风险,
e)确定所述风险是否超过阈值,
f)在确定所述风险未超过所述阈值时,将所述音频对象及包括所述音频对象的所述空间位置的元数据包含在所述输出音频对象内容中。
EEE 2.根据EEE 1所述的方法,其中所述估计风险的步骤包括以下步骤:
比较所述音频对象的所述空间位置与预定区域,
其中如果所述空间位置在所述预定区域内,那么确定所述风险超过所述阈值。
EEE 3.根据EEE 2所述的方法,其中所述预定区域包含处于所述第一配置的所述多个声道中的至少一些的所述预定位置。
EEE 4.根据EEE 3所述的方法,其中所述第一配置对应于5.1声道设置或7.1声道设置,其中所述预定区域包含处于所述第一配置的左前声道、右前声道及中央声道的所述预定位置。
EEE 5.根据EEE 4所述的方法,其中所述左前声道、所述右前声道及所述中央声道的所述预定位置在所述预定义坐标系中共享共同y坐标值,其中所述预定区域包含具有与所述共同y坐标值相差高达阈值距离的y坐标值的位置。
EEE 6.根据EEE 2到5中任一EEE所述的方法,其中所述预定区域包括第一子区域,所述方法进一步包括以下步骤:
基于所述空间位置与所述第一子区域之间的距离确定对应于要包含在所述输出音频对象内容中的所述音频对象的一分数的分数值,其中所述值是在0与1之间的数,
其中如果确定所述分数值大于0,那么所述方法进一步包括:
将所述音频对象与所述分数值相乘以实现所述音频对象的一分数,且将所述音频对象的所述分数及包括所述音频对象的所述空间位置的元数据包含在所述输出音频对象内容中。
EEE 7.根据EEE 1所述的方法,其中所述从所述多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算第一组能级,每一能级对应于所述多声道音频信号的所述多个声道中的特定声道且关于从所述特定声道提取的所述音频对象的音频内容的能级,
其中所述估计风险的步骤包括以下步骤:
使用所述音频对象的所述空间位置,将所述音频对象渲染给处于所述第一配置的第二多个声道,且基于所述所渲染对象计算第二组能级,每一能级对应于处于所述第一配置的所述第二多个声道中的特定声道且关于渲染给所述第二多个声道中的所述特定声道的所述音频对象的音频内容的能级,
计算所述第一组能级与所述第二组能级之间的差值,且基于所述差值估计所述风险。
EEE 8.根据EEE 7所述的方法,其中所述计算所述第一组能级与所述第二组能级之间的差值的步骤包括:
使用所述第一组能级,将所述音频对象渲染给处于所述第一配置的第三多个声道,
对于所述第三多个声道及所述第二多个声道中的每一对对应声道,测量所述对声道中的每一者的均方根RMS值,确定所述两个RMS值之间的绝对差值,且计算所述第三多个声道及所述第二多个声道中的所有对对应声道的绝对差值的总和,
其中所述确定所述风险是否超过阈值的步骤包括比较所述总和与所述阈值。
EEE 9.根据EEE 1到8中任一EEE所述的方法,其中所述从所述多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算第一组能级,每一能级对应于所述多声道音频信号的所述多个声道中的特定声道且关于从所述特定声道提取的所述音频对象的音频内容的能级,所述方法进一步包括以下步骤:
在确定所述风险超过所述阈值时,使用所述第一组能级将所述音频对象渲染给所述输出音床声道。
EEE 10.根据EEE 9所述的方法,当从属于EEE 6时,其进一步包括以下步骤:
将所述音频对象与1减去所述分数值相乘以实现所述音频对象的第二分数,及
使用所述第一组能级将所述音频对象的所述第二分数渲染给所述输出音床声道。
EEE 11.根据EEE 1到8中任一EEE所述的方法,其进一步包括以下步骤:
将以下项包含在所述输出音频对象内容中:所述音频对象、包括所述音频对象的所述空间位置的元数据,及额外元数据,其中所述额外元数据指示来自以下列表的至少一者:
从中提取所述对象的所述多个声道的所述特定子组,
所述多个声道中的至少一个声道,所述至少一个声道不包含在从中提取所述对象的所述多个声道的所述特定子组中,及
偏差参数。
EEE 12.根据EEE 11所述的方法,其中所述从所述多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算第一组能级,每一能级对应于所述多声道音频信号的所述多个声道中的特定声道且关于从所述特定声道提取的所述音频对象的音频内容的能级,其中所述额外元数据包括所述第一组能级。
EEE 13.根据EEE 1到12中任一EEE所述的方法,其中所述从所述多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算所述第一组能级,每一能级对应于所述多声道音频信号的所述多个声道中的特定声道且关于从所述特定声道提取的所述音频对象的音频内容的能级,其中所述方法进一步包括以下步骤:
在确定所述风险超过所述阈值时,
使用所述第一组能级将所述音频对象渲染给处于所述第一配置的第二多个声道,
从所述第一多个声道的音频分量减去所述第二多个声道的音频分量,且获得处于所述第一配置的第三多声道音频信号的时间帧,
从所述第三多声道音频信号的所述时间帧提取至少一个另外音频对象,其中所述另外音频对象是从所述第三多声道音频信号的所述多个声道的特定子组提取,
对所述至少一个另外音频对象中的每一另外音频对象执行步骤c)到f)。
EEE 14.根据EEE 13所述的方法,其中对所述至少一个另外音频对象中的每一另外音频对象执行根据EEE 2到12中任一EEE所述的方法。
EEE 15.根据EEE 13到14中任一EEE所述的方法,其中如EEE 13中所描述般提取又另外至少一个音频对象,直到满足以下停止准则列表的至少一个停止准则:
所提取另外音频对象的能级小于第一阈值能级,
所提取音频对象的总数目超过阈值数目,及
所述差值多声道音频信号的所述所获得时间帧的能级小于第二阈值能级。
EEE 16.一种计算机程序产品,其包括计算机可读存储媒体,所述计算机可读存储媒体具有适于在由具有处理能力的装置执行时实行根据EEE 1到15中任一EEE所述的方法的指令。
EEE 17.一种用于将多声道音频信号的时间帧转换成输出音频内容的装置,所述输出音频内容包括音频对象、包括每一音频对象的空间位置的元数据,及音床声道,其中所述多声道音频信号包括处于第一配置的多个声道,处于所述第一配置的每一声道具有与扬声器设置有关且在预定坐标系中定义的预定位置,所述装置包括:
接收级,其经布置用于接收所述多声道音频信号,
对象提取级,其经布置用于从所述多声道音频信号的所述时间帧提取音频对象,其中所述音频对象是从所述多个声道的特定子组提取,
空间位置估计级,其经布置用于估计所述音频对象的空间位置,
风险估计级,其经布置用于基于所述音频对象的所述空间位置,估计处于所述第一配置的声道中的所述音频对象的渲染版本将在具有与从中提取所述对象的所述多个声道的所述特定子组的所述预定位置不同的预定位置的声道中渲染的风险,且确定所述风险是否超过阈值,
转换级,其经布置用于响应于所述风险估计级确定所述风险未超过所述阈值,将所述音频对象及包括所述音频对象的所述空间位置的元数据包含在所述输出音频对象内容中。
EEE 18.一种用于处理具有空间位置的音频内容的时间帧的方法,其包括以下步骤:
确定所述音频内容的所述空间位置,
通过比较所述音频内容的所述空间位置与预定区域来确定距离值,其中所述音频内容的所述空间位置是具有x分量、y分量及z分量的3D坐标,其中所述音频内容的所述空间位置的可能范围是0<=x<=1、0<=y<=1及0<=z<=1,其中所述预定区域对应于0<=x<=1、y=0及0<=z<=1的范围内的坐标,其中所述确定距离值的步骤包括使用所述空间位置的所述y分量作为所述距离值,
至少基于所述音频内容的所述空间位置,确定是否应调整所述音频内容的性质,
在确定应调整所述音频内容的性质时,接收控制值,且至少基于所述距离值及所述控制值调整所述空间位置及所述音频内容的能级中的至少一者。
EEE 19.根据EEE 18所述的方法,其中如果所述距离值未超过阈值,那么确定调整所述音频内容的所述性质,其中在确定应调整所述音频内容的性质时,至少基于所述距离值及所述空间位置的所述x值调整所述空间位置。
EEE 20.根据EEE 19所述的方法,其中所述调整所述空间位置的步骤包括基于所述空间位置的所述x值调整所述空间位置的所述z值,且基于所述空间位置的所述x值调整所述空间位置的所述y值。
EEE 21.根据EEE 18所述的方法,其中仅在所述距离值超过阈值时才确定调整所述音频内容的所述性质,其中在确定应调整所述音频内容的性质时,至少基于所述距离值及所述空间位置的所述z值调整所述能级。
EEE 22.根据EEE 21所述的方法,其进一步包括以下步骤:在所述确定是否应调整所述音频内容的性质的步骤之前,确定所述音频内容的所述时间帧的当前能级,其中还基于所述当前能级调整所述能级。
EEE 23.根据EEE 22所述的方法,其中仅在所述当前能级未超过阈值能级时才确定调整所述音频内容的所述性质。
EEE 24.根据EEE 21到23中任一EEE所述的方法,其进一步包括接收与所述音频内容的先前时间帧有关的能量调整参数,其中还基于所述能量调整参数调整所述能级。
EEE 25.根据EEE 18所述的方法,其中仅在所述距离值超过阈值时才确定调整所述音频内容的所述性质,其中基于所述距离值调整所述空间位置的所述z值。
EEE 26.根据EEE 25所述的方法,其中对于第一距离值,将所述z值调整为第一值,且对于低于所述第一距离值的第二距离值,将所述z值调整为低于所述第一值的第二值。
EEE 27.一种计算机程序产品,其包括计算机可读存储媒体,所述计算机可读存储媒体具有适于在由具有处理能力的装置执行时实行根据EEE 18到26中任一EEE所述的方法的指令。
EEE 28.一种用于处理音频内容的时间帧的装置,其包括处理器,所述处理器经布置以:
确定所述音频内容的空间位置,
通过比较所述音频内容的所述空间位置与预定区域来确定距离值,其中所述音频内容的所述空间位置是具有x分量、y分量及z分量的3D坐标,其中所述音频内容的所述空间位置的可能范围是0<=x<=1、0<=y<1及0<=z<=1,其中所述预定区域对应于0<=x<=1、y=0及0<=z<=1的范围内的坐标,其中使用所述空间位置的所述y分量作为所述距离值来确定所述距离值,
至少基于所述音频内容的所述空间位置,确定是否应调整所述音频内容的性质,
在确定应调整所述音频内容的性质时,所述处理器经布置以接收控制值,且至少基于所述距离值及所述控制值调整所述空间位置及所述音频内容的能级中的至少一者。

Claims (22)

1.一种用于将多声道音频信号的时间帧转换成输出音频内容的方法,所述输出音频内容包括音频对象、包括每一音频对象的空间位置的元数据,及音床声道,其中所述多声道音频信号包括处于第一配置的多个声道,处于所述第一配置的每一声道具有与扬声器设置有关且在预定坐标系中定义的预定位置,所述方法包括以下步骤:
a)接收所述多声道音频信号的所述时间帧,
b)从所述多声道音频信号的所述时间帧提取至少一个音频对象,所述音频对象是从所述多个声道中的第一多个声道提取,且对于所述至少一个音频对象中的每一音频对象:
c)估计所述音频对象的空间位置,
d)基于所述音频对象的所述空间位置,估计处于所述第一配置的所述第一多个声道中的所述音频对象的渲染版本将在具有与从中提取所述对象的所述第一多个声道的所述预定位置不同的预定位置的声道中渲染的风险,
e)确定所述风险是否超过阈值,及
f)在确定所述风险未超过所述阈值时,将所述音频对象及包括所述音频对象的所述空间位置的元数据包含在所述输出音频内容中。
2.根据权利要求1所述的方法,其进一步包括在确定所述风险超过所述阈值时:
将所述音频对象的至少一分数渲染给所述音床声道。
3.根据权利要求1或2所述的方法,其中所述估计风险的步骤包括以下步骤:
比较所述音频对象的所述空间位置与预定区域,
其中如果所述空间位置在所述预定区域内,那么确定所述风险超过所述阈值。
4.根据权利要求3所述的方法,其中所述预定区域包含处于所述第一配置的所述多个声道中的至少一些的所述预定位置。
5.根据权利要求4所述的方法,其中所述第一配置对应于5.1声道设置或7.1声道设置,且其中所述预定区域包含处于所述第一配置的左前声道、右前声道及中央声道的所述预定位置。
6.根据权利要求5所述的方法,其中所述左前声道、所述右前声道及所述中央声道的所述预定位置在所述预定义坐标系中共享给定坐标的共同值,其中所述预定区域包含具有与所述给定坐标的所述共同值相差高达阈值距离的所述给定坐标的值的位置。
7.根据权利要求3所述的方法,其中所述预定区域包括第一子区域,且所述方法进一步包括以下步骤:
基于所述空间位置与所述第一子区域之间的距离确定对应于要包含在所述输出音频内容中的所述音频对象的一分数的分数值,其中所述分数值是在0与1之间的数,
其中如果确定所述分数值大于0,那么所述方法进一步包括:
将所述音频对象与所述分数值相乘以实现所述音频对象的一分数,且将所述音频对象的所述分数及包括所述音频对象的所述空间位置的元数据包含在所述输出音频内容中。
8.根据权利要求7所述的方法,其中在确定所述风险超过所述阈值时执行所述确定分数值的步骤。
9.根据权利要求7所述的方法,其中如果所述空间位置在所述第一子区域中,那么确定所述分数值为0,如果所述空间位置不在所述预定区域中,那么确定所述分数值为1,且如果所述空间位置在所述预定区域中但不在所述第一子区域中,那么确定所述分数值在0与1之间。
10.根据权利要求1或2所述的方法,其中所述从所述多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算第一组能级,每一能级对应于所述多声道音频信号的所述第一多个声道中的特定声道且指示从所述特定声道提取的所述音频对象的音频内容的能级,
其中所述估计风险的步骤包括以下步骤:
使用所述音频对象的所述空间位置,将所述音频对象渲染给处于所述第一配置的第二多个声道,且基于所述所渲染对象计算第二组能级,每一能级对应于处于所述第一配置的所述第二多个声道中的特定声道且指示渲染给所述第二多个声道中的所述特定声道的所述音频对象的音频内容的能级,
计算所述第一组能级与所述第二组能级之间的差值,且基于所述差值估计所述风险。
11.根据权利要求10所述的方法,其中所述计算所述第一组能级与所述第二组能级之间的差值的步骤包括:
使用所述第一组能级,将所述音频对象渲染给处于所述第一配置的第三多个声道,
对于所述第三多个声道及所述第二多个声道中的每一对对应声道,测量所述一对对应声道中的每一者的均方根RMS值,确定所述两个RMS值之间的绝对差值,且计算所述第三多个声道及所述第二多个声道中的所有对对应声道的绝对差值的总和,
其中所述确定所述风险是否超过阈值的步骤包括比较所述总和与所述阈值。
12.根据权利要求1或2所述的方法,其中所述从所述多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算第一组能级,每一能级对应于所述多声道音频信号的所述第一多个声道中的特定声道且指示从所述特定声道提取的所述音频对象的音频内容的能级,所述方法进一步包括以下步骤:
在确定所述风险超过所述阈值时,使用所述第一组能级将所述音频对象渲染给所述输出音床声道。
13.根据权利要求12所述的方法,其中所述估计风险的步骤包括比较所述音频对象的所述空间位置与预定区域,其中如果所述空间位置在所述预定区域内,那么确定所述风险超过所述阈值,其中所述预定区域包括第一子区域,且所述方法进一步包括以下步骤:
基于所述空间位置与所述第一子区域之间的距离确定对应于要包含在所述输出音频内容中的所述音频对象的一分数的分数值,其中所述分数值是在0与1之间的数,
其中如果确定所述分数值大于0,那么所述方法进一步包括:
将所述音频对象与所述分数值相乘以实现所述音频对象的一分数,且将所述音频对象的所述分数及包括所述音频对象的所述空间位置的元数据包含在所述输出音频内容中;以及
将所述音频对象与1减去所述分数值的结果相乘以实现所述音频对象的第二分数;及
使用所述第一组能级将所述音频对象的所述第二分数渲染给所述输出音床声道。
14.根据权利要求1或2所述的方法,其进一步包括在确定所述风险超过所述阈值时将以下项包含在所述输出音频内容中的步骤:
所述音频对象、包括所述音频对象的所述空间位置的元数据,及额外元数据,其中所述额外元数据经配置使得其能够在渲染阶段用来确保所述音频对象是在处于所述第一配置、具有对应于从中提取所述对象的所述第一多个声道的所述预定位置的预定位置的声道中渲染。
15.根据权利要求1或2所述的方法,其进一步包括以下步骤:
将以下项包含在所述输出音频内容中:所述音频对象、包括所述音频对象的所述空间位置的元数据,及额外元数据,其中所述额外元数据指示来自以下列表的至少一者:
从中提取所述对象的所述第一多个声道,
所述多个声道中的至少一个声道,所述至少一个声道不包含在从中提取所述对象的所述第一多个声道中,及
偏差参数。
16.根据权利要求15所述的方法,其中仅在确定所述风险超过所述阈值时才将所述额外元数据包含在所述输出音频内容中。
17.根据权利要求15所述的方法,其中所述从所述多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算第一组能级,每一能级对应于所述多声道音频信号的所述第一多个声道中的特定声道且指示从所述特定声道提取的所述音频对象的音频内容的能级,其中所述额外元数据包括所述第一组能级。
18.根据权利要求1或2所述的方法,其中所述从所述多声道音频信号提取至少一个音频对象的步骤包括:对于每一所提取音频对象,计算第一组能级,每一能级对应于所述多声道音频信号的所述第一多个声道中的特定声道且指示从所述特定声道提取的所述音频对象的音频内容的能级,其中所述方法进一步包括以下步骤:
在确定所述风险超过所述阈值时,
使用所述第一组能级将所述音频对象渲染给处于所述第一配置的第二多个声道,
从所述第一多个声道的音频分量减去所述第二多个声道的音频分量,且获得处于所述第一配置的第三多声道音频信号的时间帧,
从所述第三多声道音频信号的所述时间帧提取至少一个另外音频对象,其中所述另外音频对象是从所述第三多声道音频信号的所述多个声道的特定子组提取,
对所述至少一个另外音频对象中的每一另外音频对象执行步骤c)到f)。
19.根据权利要求18所述的方法,其中对所述至少一个另外音频对象中的每一另外音频对象执行根据权利要求1到17中任一权利要求所述的方法。
20.根据权利要求18所述的方法,其中提取又另外至少一个音频对象直到满足以下停止准则列表的至少一个停止准则:
所提取另外音频对象的能级小于第一阈值能级,
所提取音频对象的总数目超过阈值数目,及
所述第三多声道音频信号的所获得时间帧的能级小于第二阈值能级。
21.一种计算机可读存储介质,其具有适于在由具有处理能力的装置执行时实行根据权利要求1到20中任一权利要求所述的方法的指令。
22.一种用于将多声道音频信号的时间帧转换成输出音频内容的装置,所述输出音频内容包括音频对象、包括每一音频对象的空间位置的元数据,及音床声道,其中所述多声道音频信号包括处于第一配置的多个声道,处于所述第一配置的每一声道具有与扬声器设置有关且在预定坐标系中定义的预定位置,所述装置包括:
接收级,其经布置用于接收所述多声道音频信号的所述时间帧,
对象提取级,其经布置用于从所述多声道音频信号的所述时间帧提取音频对象,其中所述音频对象是从所述多个声道中的第一多个声道提取,
空间位置估计级,其经布置用于估计所述音频对象的空间位置,
风险估计级,其经布置用于基于所述音频对象的所述空间位置,估计处于所述第一配置的所述第一多个声道中的所述音频对象的渲染版本将在具有与从中提取所述对象的所述第一多个声道的所述预定位置不同的预定位置的声道中渲染的风险,且确定所述风险是否超过阈值,及
转换级,其经布置用于响应于所述风险估计级确定所述风险未超过所述阈值,将所述音频对象及包括所述音频对象的所述空间位置的元数据包含在所述输出音频内容中。
CN201780033796.2A 2016-06-01 2017-05-29 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法 Active CN109219847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310838307.8A CN116709161A (zh) 2016-06-01 2017-05-29 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
ES201630716 2016-06-01
ESP201630716 2016-06-01
EP16182117 2016-08-01
EP16182117.8 2016-08-01
US201662371016P 2016-08-04 2016-08-04
US62/371,016 2016-08-04
PCT/EP2017/062848 WO2017207465A1 (en) 2016-06-01 2017-05-29 A method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310838307.8A Division CN116709161A (zh) 2016-06-01 2017-05-29 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法

Publications (2)

Publication Number Publication Date
CN109219847A CN109219847A (zh) 2019-01-15
CN109219847B true CN109219847B (zh) 2023-07-25

Family

ID=60479173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780033796.2A Active CN109219847B (zh) 2016-06-01 2017-05-29 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法

Country Status (2)

Country Link
CN (1) CN109219847B (zh)
WO (1) WO2017207465A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429340B2 (en) * 2019-07-03 2022-08-30 Qualcomm Incorporated Audio capture and rendering for extended reality experiences
US11937070B2 (en) * 2021-07-01 2024-03-19 Tencent America LLC Layered description of space of interest

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
WO2013186343A2 (en) * 2012-06-14 2013-12-19 Dolby International Ab Smooth configuration switching for multichannel audio
CN105247612A (zh) * 2013-05-28 2016-01-13 高通股份有限公司 相对于球面谐波系数执行空间掩蔽
CN105336335A (zh) * 2014-07-25 2016-02-17 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
CN105531760A (zh) * 2013-09-12 2016-04-27 杜比国际公司 用于联合多声道编码的方法和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9137611B2 (en) * 2011-08-24 2015-09-15 Texas Instruments Incorporation Method, system and computer program product for estimating a level of noise
US9460723B2 (en) * 2012-06-14 2016-10-04 Dolby International Ab Error concealment strategy in a decoding system
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
CN105898667A (zh) * 2014-12-22 2016-08-24 杜比实验室特许公司 从音频内容基于投影提取音频对象

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
WO2013186343A2 (en) * 2012-06-14 2013-12-19 Dolby International Ab Smooth configuration switching for multichannel audio
CN105247612A (zh) * 2013-05-28 2016-01-13 高通股份有限公司 相对于球面谐波系数执行空间掩蔽
CN105531760A (zh) * 2013-09-12 2016-04-27 杜比国际公司 用于联合多声道编码的方法和设备
CN105336335A (zh) * 2014-07-25 2016-02-17 杜比实验室特许公司 利用子带对象概率估计的音频对象提取

Also Published As

Publication number Publication date
WO2017207465A1 (en) 2017-12-07
CN109219847A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN116709161A (zh) 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
US10638246B2 (en) Audio object extraction with sub-band object probability estimation
US20230353970A1 (en) Method, apparatus or systems for processing audio objects
JP6330034B2 (ja) 適応的なオーディオ・コンテンツの生成
US10362426B2 (en) Upmixing of audio signals
US10136240B2 (en) Processing audio data to compensate for partial hearing loss or an adverse hearing environment
EP2848009B1 (en) Method and apparatus for layout and format independent 3d audio reproduction
EP3304936A1 (en) Processing object-based audio signals
US20210329400A1 (en) Spatial Audio Rendering Point Extension
CN109219847B (zh) 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
WO2021007246A1 (en) Presentation independent mastering of audio content
US9653065B2 (en) Audio processing device, method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant