CN115334444A - 用于音频渲染的预渲染信号的方法、设备和系统 - Google Patents

用于音频渲染的预渲染信号的方法、设备和系统 Download PDF

Info

Publication number
CN115334444A
CN115334444A CN202210986583.4A CN202210986583A CN115334444A CN 115334444 A CN115334444 A CN 115334444A CN 202210986583 A CN202210986583 A CN 202210986583A CN 115334444 A CN115334444 A CN 115334444A
Authority
CN
China
Prior art keywords
audio
rendering
elements
active
rendering mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210986583.4A
Other languages
English (en)
Inventor
利昂·特连蒂夫
克里斯托弗·费尔施
丹尼尔·费希尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN115334444A publication Critical patent/CN115334444A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

本申请涉及用于音频渲染的预渲染信号的方法、设备和系统。本公开涉及一种由解码器从位流解码音频场景内容的方法,所述解码器包含具有一或多个渲染工具的音频渲染器。所述方法包括:接收所述位流;解码来自所述位流的对音频场景的描述;从对所述音频场景的所述描述中确定一或多个有效音频元素;从对所述音频场景的所述描述中确定指示所述一或多个有效音频元素的有效音频元素位置的有效音频元素信息;解码来自所述位流的渲染模式指示;以及响应于所述渲染模式指示指示所述一或多个有效音频元素表示从预渲染音频元素获得的声场并且应使用预定渲染模式来渲染,使用所述预定渲染模式来渲染所述一或多个有效音频元素。

Description

用于音频渲染的预渲染信号的方法、设备和系统
分案申请信息
本申请是申请日为2019年4月8日、申请号为201980024258.6、发明名称为“用于音频渲染的预渲染信号的方法、设备和系统”的发明专利申请案的分案申请。
相关申请的交叉引用
本申请要求以下优先权申请的优先权:于2018年4月11日提交的美国临时申请62/656,163(参考:D18040USP1)和于2018年11月05日提交的美国临时申请62/755,957(参考:D18040USP2),所述美国临时申请通过引用并入本文。
技术领域
本公开涉及提供用于音频渲染的设备、系统和方法。
背景技术
图1展示了被配置成处理元数据和音频渲染器扩展的示范性编码器。
在一些情况下,6DoF渲染器不能在虚拟现实/增强现实/混合现实(VR/AR/MR)空间中的一些一或多个位置(区域、轨迹)中再现内容创作者期望的声场,因为存在:
1.描述声源和VR/AR/MR环境的元数据不足;和
2.6DoF渲染器和资源的能力有限。
由于以下原因,某些6DoF渲染器(其仅基于原始音频源信号和VR/AR/MR环境描述创建声场)可能无法在一或多个所期望的位置处再现预期的信号:
1.1)描述VR/AR/MR环境和对应音频信号的参数化信息(元数据)的位率限制;
1.2)用于逆向6DoF渲染的数据不可用(例如,一个或若干个关注点的参考记录可用,但不知道如何通过6DoF渲染器重建此信号以及为此需要什么数据输入);
2.1)可能不同于6DoF渲染器的默认(例如,物理定律一致)输出的艺术意图(例如,类似于“艺术缩混”概念);以及
2.2)对解码器(6DoF渲染器)实施方案的能力限制(例如,位率、复杂度、延迟等限制)。
同时,对于VR/AR/MR空间中的一或多个给定位置,可以要求高音频质量(和/或对预定义参考信号的保真度)音频再现(即,6DoF渲染器输出)。例如,这可能是3DoF/3DoF+兼容性约束或6DoF渲染器的不同处理模式的兼容性要求(例如,在“基线”模式与不考虑VR/AR/MR几何形状影响的“低功率”模式之间)所必需的。
因此,需要改善内容创作者在VR/AR/MR空间中所期望的声场的再现的编码/解码方法以及对应的编码器/解码器。
发明内容
本公开的一方面涉及一种由解码器从位流解码音频场景内容的方法,所述解码器包含具有一或多个渲染工具的音频渲染器。所述方法可以包含接收所述位流。所述方法可以进一步包含解码来自所述位流的对音频场景的描述。所述音频场景可以包含声学环境,例如VR/AR/MR环境。所述方法可以进一步包含从对所述音频场景的所述描述中确定一或多个有效音频元素。所述方法可以进一步包含从对所述音频场景的所述描述中确定指示所述一或多个有效音频元素的有效音频元素位置的有效音频元素信息。所述方法可以进一步包含解码来自所述位流的渲染模式指示。所述渲染模式指示可以指示所述一或多个有效音频元素是否表示从预渲染音频元素获得的声场并且是否应使用预定渲染模式来进行渲染。所述方法可以又进一步包含响应于所述渲染模式指示指示所述一或多个有效音频元素表示从预渲染音频元素获得的声场并且应使用所述预定渲染模式来渲染,使用所述预定渲染模式来渲染所述一或多个有效音频元素。使用所述预定渲染模式来渲染所述一或多个有效音频元素可以考虑所述有效音频元素信息。所述预定渲染模式可以限定用于控制所述音频场景的声学环境对渲染输出的影响的所述渲染工具的预定配置。例如,可以将所述有效音频元素渲染到参考位置。所述预定渲染模式可以启用或禁用某些渲染工具。此外,所述预定渲染模式可以增强所述一或多个有效音频元素的音质(例如,添加人工音质)。
可以说,所述一或多个有效音频元素封装所述音频环境的影响,例如回声、混响和声学闭塞。这使得能够在所述解码器处使用特别简单的渲染模式(即,预定渲染模式)。同时,即使对于低功率解码器,也可以保留艺术意图,并且可以为用户(听者)提供丰富的沉浸式声学体验。此外,可以基于所述渲染模式指示对所述解码器的渲染工具进行单独配置,这提供了对声学效果的另外的控制。封装所述声学环境的影响最终允许对指示所述声学环境的元数据进行有效压缩。
在一些实施例中,所述方法可以进一步包含获得指示听者头部在所述声学环境中的位置的听者位置信息和/或指示所述听者头部在所述声学环境中的朝向的听者朝向信息。对应的解码器可以包含用于接收所述听者位置信息和/或听者朝向信息的接口。然后,使用所述预定渲染模式来渲染所述一或多个有效音频元素可以进一步考虑所述听者位置信息和/或听者朝向信息。通过参考此另外的信息,可以使所述用户的声学体验更加沉浸式且有意义。
在一些实施例中,所述有效音频元素信息可以包含指示所述一或多个有效音频元素的相应声辐射方向图的信息。使用所述预定渲染模式来渲染所述一或多个有效音频元素然后可以进一步考虑指示所述一或多个有效音频元素的所述相应声辐射方向图的所述信息。例如,可以基于相应有效音频元素的所述声辐射方向图以及所述相应有效音频元素与听者位置之间的相对布置来计算衰减因子。通过考虑辐射方向图,可以使所述用户的声学体验更加沉浸式且有意义。
在一些实施例中,使用所述预定渲染模式来渲染所述一或多个有效音频元素可以根据听者位置与所述一或多个有效音频元素的所述有效音频元素位置之间的相应距离应用声衰减建模。也就是说,所述预定渲染模式可以不考虑所述声学环境中的任何声学元素,并且(仅)(在空白空间中)应用声衰减建模。这限定了即使在低功率解码器上也可以应用的简单渲染模式。另外,可以应用声指向性建模,例如基于所述一或多个有效音频元素的声辐射方向图。
在一些实施例中,可以从对所述音频场景的所述描述中确定至少两个有效音频元素。然后,渲染模式指示可以指示所述至少两个有效音频元素中的每一个有效音频元素的相应预定渲染模式。另外地,所述方法可以包含使用所述至少两个有效音频元素的相应预定渲染模式来渲染所述至少两个有效音频元素。使用所述至少两个有效音频元素的相应预定渲染模式来渲染每个有效音频元素可以考虑所述有效音频元素的所述有效音频元素信息。进一步地,所述有效音频元素的所述预定渲染模式可以限定用于控制所述音频场景的声学环境对所述有效音频元素的渲染输出的影响的所述渲染工具的相应预定配置。因此,可以提供对应用于单独的有效音频元素的声学效果的另外的控制,因此使得能够非常接近地匹配内容创作者的艺术意图。
在一些实施例中,所述方法可以进一步包含从对所述音频场景的所述描述中确定一或多个原始音频元素。所述方法可以进一步包含从对所述音频场景的所述描述中确定指示所述一或多个音频元素的音频元素位置的音频元素信息。所述方法可以又进一步包含使用用于所述一或多个音频元素的渲染模式来渲染所述一或多个音频元素,所述渲染模式不同于用于所述一或多个有效音频元素的所述预定渲染模式。使用用于所述一或多个音频元素的所述渲染模式来渲染所述一或多个音频元素可以考虑所述音频元素信息。所述渲染可以进一步考虑所述声学环境对所述渲染输出的影响。因此,可以使用例如所述简单渲染模式来渲染封装所述声学环境的影响的有效音频元素,而可以使用更复杂的例如参考渲染模式来渲染(原始)音频元素。
在一些实施例中,所述方法可以进一步包含获得指示所述预定渲染模式应当使用的听者位置区域的听者位置区域信息。例如,可以将所述听者位置区域信息编码在所述位流中。因此,可以确保所述预定渲染模式仅用于所述有效音频元素为其提供(例如,所述原始音频元素的)原始音频场景的有意义的表示的那些听者位置区域。
在一些实施例中,由所述渲染模式指示所指示的所述预定渲染模式可以取决于所述听者位置。此外,所述方法可以包含使用所述听者位置区域信息指示的所述听者位置区域的所述渲染模式指示所指示的所述预定渲染模式来渲染所述一或多个有效音频元素。也就是说,所述渲染模式指示可以指示不同听者位置区域的不同(预定)渲染模式。
本公开的另一方面涉及一种生成音频场景内容的方法。所述方法可以包含从音频场景中获得表示所捕获信号的一或多个音频元素。所述方法可以进一步包含获得指示要生成的一或多个有效音频元素的有效音频元素位置的有效音频元素信息。所述方法可以又进一步包含根据已经捕获到所述所捕获信号的位置与所述一或多个有效音频元素的所述有效音频元素位置之间的距离,通过应用声衰减建模,从表示所述所捕获信号的所述一或多个音频元素中确定所述一或多个有效音频元素。
通过此方法,可以生成音频场景内容,当渲染到参考位置或捕获位置时,所述音频场景内容产生将源自原始音频场景的声场的感知上接近的近似。另外,然而,可以将所述音频场景内容渲染到不同于所述参考位置或捕获位置的听者位置,从而允许沉浸式声学体验。
本公开的另一方面涉及一种将音频场景内容编码到位流中的方法。所述方法可以包含接收对音频场景的描述。所述音频场景可以包含声学环境和位于相应音频元素位置处的一或多个音频元素。所述方法可以进一步包含从所述一或多个音频元素中确定在相应有效音频元素位置处的一或多个有效音频元素。可以以以下方式执行此确定:使用不考虑所述声学环境对渲染输出的影响的渲染模式将所述一或多个有效音频元素在其相应有效音频元素位置处渲染到参考位置(例如,在空白空间中应用距离衰减建模)会在所述参考位置处产生参考声场的心理声学近似,所述心理声学近似将通过使用考虑所述声学环境对所述渲染输出的影响的参考渲染模式将所述一或多个音频元素在其相应音频元素位置处渲染到所述参考位置而产生。所述方法可以进一步包含生成指示所述一或多个有效音频元素的所述有效音频元素位置的有效音频元素信息。所述方法可以进一步包含生成渲染模式指示,所述渲染模式指示指示所述一或多个有效音频元素表示从预渲染音频元素获得的声场并且应使用预定渲染模式来进行渲染,所述预定渲染模式限定用于控制所述声学环境对解码器处的所述渲染输出的影响的所述解码器的渲染工具的预定配置。所述方法可以又进一步包含将所述一或多个音频元素、所述音频元素位置、所述一或多个有效音频元素、所述有效音频元素信息和所述渲染模式指示编码到所述位流中。
可以说,所述一或多个有效音频元素封装所述音频环境的影响,例如回声、混响和声学闭塞。这使得能够在所述解码器处使用特别简单的渲染模式(即,预定渲染模式)。同时,即使对于低功率解码器,也可以保留艺术意图,并且可以为用户(听者)提供丰富的沉浸式声学体验。此外,可以基于所述渲染模式指示对所述解码器的渲染工具进行单独配置,这提供了对声学效果的另外的控制。封装所述声学环境的影响最终允许对指示所述声学环境的元数据进行有效压缩。
在一些实施例中,所述方法可以进一步包含获得指示听者头部在所述声学环境中的位置的听者位置信息和/或指示所述听者头部在所述声学环境中的朝向的听者朝向信息。所述方法可以又进一步包含将所述听者位置信息和/或听者朝向信息编码到所述位流中。
在一些实施例中,可以生成所述有效音频元素信息以包含指示所述一或多个有效音频元素的相应声辐射方向图的信息。
在一些实施例中,可以生成至少两个有效音频元素并将其编码到所述位流中。然后,渲染模式指示可以指示所述至少两个有效音频元素中的每一个有效音频元素的相应预定渲染模式。
在一些实施例中,所述方法可以进一步包含获得指示所述预定渲染模式应当使用的听者位置区域的听者位置区域信息。所述方法可以又进一步包含将所述听者位置区域信息编码到所述位流中。
在一些实施例中,所述渲染模式指示所指示的所述预定渲染模式可以取决于所述听者位置,使得所述渲染模式指示指示用于多个听者位置中的每一个听者位置的相应预定渲染模式。
本公开的另一方面涉及一种音频解码器,所述音频解码器包含处理器,所述处理器耦接到存储用于所述处理器的指令的存储器。所述处理器可以适用于执行根据上述方面或实施例中的相应方面或实施例所述的方法。
本公开的另一方面涉及一种音频编码器,所述音频编码器包含处理器,所述处理器耦接到存储用于所述处理器的指令的存储器。所述处理器可以适用于执行根据上述方面或实施例中的相应方面或实施例所述的方法。
本公开的另外的方面涉及对应的计算机程序和计算机可读存储媒体。
应当理解的是,方法步骤和设备特征可以以多种方式互换。具体地,如本领域的技术人员将理解的,所公开的方法的细节可以被实施为适用于执行所述方法的步骤中的一些或全部步骤的设备,并且反之亦然。具体地,应当理解的是,关于所述方法做出的相应陈述同样适用于对应的设备,并且反之亦然。
附图说明
以下参考附图解释本公开的示例实施例,其中相似的附图标记指示相似或类似的元素,并且在附图中
图1示意性地展示了编码器/解码器系统的实例,
图2示意性地展示了音频场景的实例,
图3示意性地展示了音频场景的声学环境中的位置的实例,
图4示意性地展示了根据本公开的实施例的编码器/解码器系统的实例,
图5示意性地展示了根据本公开的实施例的编码器/解码器系统的另一个实例,
图6是示意性地展示根据本公开的实施例的编码音频场景内容的方法的实例的流程图,
图7是示意性地展示根据本公开的实施例的解码音频场景内容的方法的实例的流程图,
图8是示意性地展示根据本公开的实施例的生成音频场景内容的方法的实例的流程图,
图9示意性地展示了可以执行图8的方法的环境的实例,
图10示意性地展示了根据本公开的实施例的用于测试解码器输出的环境的实例,
图11A示意性地展示了根据本公开的实施例的位流中传输的数据元素的实例,图11B示意性地展示了位流中传输的数据元素的实例,
图12示意性地展示了参考音频场景的不同渲染模式的实例,
图13参考音频场景示意性地展示了根据本公开的实施例的编码器和解码器处理的实例,
图14示意性地展示了根据本公开的实施例的将有效音频元素渲染到不同听者位置的实例,并且
图15示意性地展示了根据本公开的实施例的声学环境中的音频元素、有效音频元素和听者位置的实例。
具体实施方式
如上所述,本公开中的相同或相似的附图标记指示相同或相似的元素,并且出于简明的原因,可以省略对其的重复描述。
本公开涉及VR/AR/MR渲染器或音频渲染器(例如,渲染与MPEG音频标准兼容的音频渲染器)。本公开进一步涉及艺术预渲染概念,所述艺术预渲染概念在一或多个编码器预定义的3DoF+区域中提供声场的质量和位率高效的表示。
在一个实例中,6DoF音频渲染器可以在一或多个特定位置中输出与参考信号(声场)的匹配。6DoF音频渲染器可以将与VR/AR/MR相关的元数据扩展转换为本机格式,如MPEG-H 3D音频渲染器输入格式。
目的是提供符合标准(例如,符合MPEG标准或符合任何未来的MPEG标准)的音频渲染器,以便在一或多个3DoF位置处产生作为一或多个预定义参考信号的音频输出。
支持这种需求的直接方法将是将一或多个预定义(预渲染)信号直接传输到解码器/渲染器侧。此方法具有以下明显的缺点:
1.位率增加(即,除了原始音频源信号之外,还会发送一或多个预渲染信号);和
2.有限的有效性(即,一或多个预渲染信号仅对一或多个3DoF位置有效)。
广义地说,本公开涉及有效地生成、编码、解码并渲染一或多个这种信号,以便提供6DoF渲染功能。因此,本公开描述了克服前述缺点的方法,所述方法包含:
1.使用一或多个预渲染信号代替(或作为补充)原始音频源信号;和
2.通过保持高水平的声场近似,将针对一或多个预渲染信号的适用性范围(针对6DoF渲染使用)从一或多个3DoF位置增加到3DoF+区域。
图2展示了本公开适用的示范性场景。图2展示了示范性空间,例如电梯和听者。在一个实例中,听者可能站在打开和关闭电梯门的电梯前面。电梯轿厢内有若干个说话的人和环境音乐。听者可以四处走动,但是不能进入电梯轿厢。图2展示了电梯系统的俯视图和前视图。
如此,可以说图2中的电梯和声源(说话的人、环境音乐)限定了音频场景。
通常,在本公开的上下文中,音频场景被理解为意指渲染场景中的声音所需的所有音频元素、声学元素和声学环境,即音频渲染器(例如,MPEG-I音频渲染器)所需的输入数据。在本公开的上下文中,音频元素被理解为意指一或多个音频信号和相关联的元数据。例如,音频元素可以是音频对象、通道或HOA信号。音频对象被理解为意指具有相关联的静态/动态元数据(例如,位置信息)的音频信号,所述元数据含有再现音频源的声音所必需的信息。声学元素被理解为意指空间中的物理对象,所述物理对象与音频元素相互作用,并且基于用户位置和朝向影响音频元素的渲染。声学元素可以与音频对象共享元数据(例如,位置和朝向)。声学环境被理解为意指描述要渲染的虚拟场景(例如,房间或地点)的声学特性的元数据。
对于这种场景(或实际上任何其它音频场景),期望使音频渲染器能够渲染音频场景的声场表示,所述声场表示是至少在参考位置处的原始声场的忠实表示,满足艺术意图,和/或其渲染可以用音频渲染器的(有限的)渲染能力来实现。进一步期望满足从编码器到解码器的音频内容传输中的任何位率限制。
图3示意性地展示了与收听环境相关的音频场景的轮廓。音频场景包括声学环境100。声学环境100又包括在相应位置处的一或多个音频元素102。所述一或多个音频元素可以用于在不一定等同于所述一或多个音频元素的一或多个位置的相应位置处生成一或多个有效音频元素101。例如,对于给定的一组音频元素,可以将有效音频元素的位置设置在音频元素位置的中心(例如,重心)。所生成的有效音频元素可以具有以下特性:用预定渲染功能(例如,仅在空白空间中应用距离衰减的简单渲染功能)将有效音频元素渲染到听者位置区域110中的参考位置111将产生(基本上)感知上等同于参考位置111处的声场的声场,所述声场将通过用包含声学元素(例如,回声、混响、闭塞等)的声学环境的参考渲染功能(例如,考虑特性(例如,影响)的渲染功能)来渲染音频元素102而产生。自然地,一旦生成,也就可以使用预定渲染功能将有效音频元素101渲染到听者位置区域110中的不同于参考位置111的听者位置112。听者位置可以与有效音频元素101的位置相距距离103。以下将更详细地描述用于从音频元素102生成有效音频元素101的一个实例。
在一些实施例中,可以可替代地基于在听者位置区域110中的捕获位置处捕获的一或多个所捕获信号120来确定有效音频元素102。例如,音乐表演的观众中的用户可以捕获从舞台上的音频元素(例如,音乐家)发出的声音。然后,考虑到有效音频元素的期望位置(例如,相对于捕获位置,如通过指定有效音频元素101与捕获位置之间的距离121,可能结合指示有效音频元素101与捕获位置之间的距离矢量的方向的角度),可以基于所捕获信号120生成有效音频元素101。所生成的有效音频元素101可以具有如下特性:用预定渲染函数(例如,仅在空白空间中应用距离衰减的简单渲染函数)将有效音频元素101渲染到参考位置111(不一定等同于捕获位置)将产生(基本上)感知上等同于参考位置111处的声场的声场,所述声场源自原始音频元素102(例如,音乐家)。以下将更详细地描述这种用例的实例。
值得注意的是,在一些情况下,参考位置111可以与捕获位置相同,并且参考信号(即,参考位置111处的信号)可以等同于所捕获信号120。这对于VR/AR/MR应用来说可以是有效假设,其中用户可以使用头像上置式记录选项。在现实世界的应用中,此假设可能是无效的,因为参考接收器是用户的耳朵,而信号捕获装置(例如,移动电话或麦克风)可能离用户的耳朵相当远。
接下来将描述用于解决最初提及的需求的方法和设备。
图4展示了根据本公开的实施例的编码器/解码器系统的实例。编码器210(例如,MPEG-I编码器)输出位流220,解码器230(例如,MPEG-I解码器)可以使用所述位流来生成音频输出240。解码器230可以进一步接收听者信息233。听者信息233不一定包含在位流220中,但是可以源自任何源。例如,听者信息可以由头部跟踪装置生成和输出,并且输入到解码器230的(专用)接口。
解码器230包括音频渲染器250,所述音频渲染器又包括一或多个渲染工具251。在本公开的上下文中,音频渲染器被理解为意指例如MPEG-I的规范音频渲染模块,所述规范音频渲染模块包含渲染工具以及到外部渲染工具的接口和到外部资源的系统层的接口。渲染工具被理解为意指执行渲染的各个方面(例如,房间模型参数化、闭塞、混响、双耳渲染等)的音频渲染器的组件。
渲染器250设置有一或多个有效音频元素、有效音频元素信息231和作为输入的渲染模式指示232。以下将更详细地描述有效音频元素、有效音频元素信息和渲染模式指示232。可以从位流220中导出(例如,确定/解码)有效音频元素信息231和渲染模式指示232。渲染器250使用所述一或多个渲染工具251基于有效音频元素和有效音频元素信息渲染音频场景的表示。其中,渲染模式指示232指示所述一或多个渲染工具251操作的渲染模式。例如,可以根据渲染模式指示232激活或去激活某些渲染工具251。此外,可以根据渲染模式指示232配置某些渲染工具251。例如,可以根据渲染模式指示232选择(例如,设置)某些渲染工具251的控制参数。
在本公开的上下文中,编码器(例如,MPEG-I编码器)具有确定6DoF元数据和控制数据、确定有效音频元素(例如,包含每个有效音频元素的单声道音频信号)、确定有效音频元素的位置(例如,x、y、z)以及确定用于控制渲染工具的数据(例如,启用/禁用标志和配置数据)的任务。用于控制渲染工具的数据可以对应于、包含前述渲染模式指示或被包含在其中。
除了以上之外,根据本公开的实施例的编码器可以最小化输出信号240相对于参考位置111的参考信号R(如果存在的话)的感知差异。也就是说,对于将由解码器使用的渲染工具/渲染函数F()、经处理的信号A以及有效音频元素的位置(x,y,z),编码器可以实施以下优化:
{x,y,z;F}:||输出(reference position)(F(x,y,z)(A))-R||perceptual->min
此外,根据本公开的实施例的编码器可以将经处理的信号A的“直接”部分分配给原始对象102的估计位置。对于解码器,这意味着例如其将能够根据单个所捕获信号120重建若干个有效音频元素101。
在一些实施例中,可以使用由6DoF的简单距离建模扩展的MPEG-H 3D音频渲染器,其中有效音频元素位置以方位角、仰角、半径表示,并且渲染工具F()涉及简单的乘法对象增益修改。音频元素位置和增益可以手动(例如,通过编码器调谐)或自动(例如,通过蛮力优化)获得。
图5示意性地展示了根据本公开的实施例的编码器/解码器系统的另一个实例。
编码器210接收音频场景A的指示(经处理的信号),然后以本公开中描述的方式对所述指示进行编码(例如,MPEG-H编码)。另外,编码器210可以生成包含关于声学环境信息的元数据(例如,6DoF元数据)。编码器可以可能作为元数据的一部分又进一步生成用于配置解码器230的音频渲染器250的渲染工具的渲染模式指示。渲染工具可以包含例如用于有效音频元素的信号修改工具。根据渲染模式指示,可以激活或去激活音频渲染器的特定渲染工具。例如,如果渲染模式指示指示要渲染的有效音频元素,则可以激活信号修改工具,而去激活所有其它渲染工具。解码器230输出音频输出240,可以将所述音频输出与参考信号R进行比较,所述参考信号是通过使用参考渲染函数将原始音频元素渲染到参考位置111而产生的。图10示意性地展示了用于将音频输出240与参考信号R进行比较的布置的实例。
图6是展示根据本公开的实施例的将音频场景内容编码到位流中的方法600的实例的流程图。
步骤S610处,接收对音频场景的描述。所述音频场景包括声学环境和位于相应音频元素位置处的一或多个音频元素。
步骤S620处,从所述一或多个音频元素中确定在相应有效音频元素位置处的一或多个有效音频元素。以以下方式确定所述一或多个有效音频元素:使用不考虑所述声学环境对渲染输出的影响的渲染模式将所述一或多个有效音频元素在其相应有效音频元素位置处渲染到参考位置会在所述参考位置处产生参考声场的心理声学近似,所述心理声学近似是通过使用考虑所述声学环境对所述渲染输出的影响的参考渲染模式将一或多个(原始)音频元素在其相应音频元素位置处渲染到所述参考位置而产生的。声学环境的影响可以包含回声、混响、反射等。不考虑声学环境对渲染输出的影响的渲染模式可以应用距离衰减建模(在空白空间中)。以下将进一步描述确定这种有效音频元素的方法的非限制性实例。
步骤S630处,生成指示所述一或多个有效音频元素的有效音频元素位置的有效音频元素信息。
步骤S640处,生成渲染模式指示,所述渲染模式指示指示所述一或多个有效音频元素表示从预渲染音频元素获得的声场并且应使用预定渲染模式来进行渲染,所述预定渲染模式限定用于控制声学环境对解码器处的渲染输出的影响的解码器的渲染工具的预定配置。
步骤S650处,将所述一或多个音频元素、音频元素位置、所述一或多个有效音频元素、有效音频元素信息和渲染模式指示编码到位流中。
在最简单的情况下,渲染模式指示可以是指示所有音质(即,声学环境的影响)被包含(即,封装)在所述一或多个有效音频元素中的标志。因此,渲染模式指示可以是解码器(或解码器的音频渲染器)使用简单渲染模式的指示,在所述简单渲染模式中,仅应用距离衰减(例如,通过与距离依赖性增益相乘),并且去激活所有其它渲染工具。在更复杂的情况下,渲染模式指示可以包含用于配置渲染工具的一或多个控制值。这可以包含激活和去激活单独的渲染工具,但是也包含对渲染工具的更细粒度的控制。例如,渲染工具可以由渲染模式指示来配置,以在渲染所述一或多个有效音频元素时增强音质。这可以用于例如根据艺术意图(例如,内容创作者的意图)添加(人工)音质(如回声、混响、反射等)。
换句话说,方法600可以涉及对音频数据进行编码的方法,所述音频数据表示在包含一或多个声学元素(例如,物理对象的表示)的声学环境中的相应音频元素位置处的一或多个音频元素。此方法可以包含以以下方式在声学环境中的有效音频元素位置处确定有效音频元素:当使用考虑有效音频元素位置与参考位置之间的距离衰减但不考虑声学环境中的声学元素的渲染函数时将有效音频元素渲染到参考位置会接近参考位置处的参考声场,所述参考声场将由所述一或多个音频元素在其相应音频元素位置处到参考位置的参考渲染产生。然后,可以将有效音频元素和有效音频元素位置编码到位流中。
在上述情况下,确定有效音频元素位置处的有效音频元素可以涉及使用第一渲染函数将所述一或多个音频元素渲染到声学环境中的参考位置,从而获得参考位置处的参考声场,其中第一渲染函数考虑了声学环境中的声学元素以及音频元素位置与参考位置之间的距离衰减,并且基于参考位置处的参考声场以以下方式确定声学环境中的有效音频元素位置处的有效音频元素:使用第二渲染函数将有效音频元素渲染到参考位置将在参考位置处产生接近参考声场的声场,其中第二渲染函数考虑有效音频元素位置与参考位置之间的距离衰减,但不考虑声学环境中的声学元素。
上述方法600可以涉及没有听者数据的0DoF用例。通常,方法600支持“智能”编码器和“简单”解码器的概念。
关于听者数据,在一些实施方案中,方法600可以包括获得指示听者的头部在声学环境中的位置(例如,在听者位置区域中)的听者位置信息。另外地或可替代地,方法600可以包括获得指示听者的头部在声学环境中(例如,在听者位置区域中)的朝向的听者朝向信息。可以然后将听者位置信息和/或听者朝向信息编码到位流中。解码器可以使用听者位置信息和/或听者朝向信息来相应地渲染所述一或多个有效音频元素。例如,解码器可以将所述一或多个有效音频元素渲染到听者的实际位置(与参考位置相对)。同样,特别是对于耳机应用,解码器可以根据听者的头部的朝向来执行所渲染的声场的旋转。
在一些实施方案中,方法600可以生成有效音频元素信息,以包括指示所述一或多个有效音频元素的相应声辐射方向图的信息。然后,解码器可以使用此信息来相应地渲染所述一或多个有效音频元素。例如,当渲染所述一或多个有效音频元素时,解码器可以对所述一或多个有效音频元素中的每一个有效音频元素应用相应的增益。可以基于相应的辐射方向图来确定这些增益。可以基于相应有效音频元素与听者位置(或参考位置,如果执行到参考位置的渲染)之间的距离矢量与指示相应音频元素的辐射方向的辐射方向矢量之间的角度来确定每个增益。对于具有多个辐射方向矢量和对应加权系数的更复杂的辐射方向图,可以基于增益的加权和来确定增益,每个增益是基于距离矢量与相应辐射方向矢量之间的角度来确定的。总和的权重可以对应于加权系数。基于辐射方向图确定的增益可以添加到由预定渲染模式应用的距离衰减增益。
在一些实施方案中,可以生成至少两个有效音频元素并将其编码到所述位流中。然后,渲染模式指示可以指示所述至少两个有效音频元素中的每一个有效音频元素的相应预定渲染模式。所述至少两种预定渲染模式可以是不同的。由此,可以例如根据内容创作者的艺术意图对不同的有效音频元素指示不同量的声学效果。
在一些实施方案中,所述方法600可以进一步包括获得指示预定渲染模式应当使用的听者位置区域的听者位置区域信息。然后,可以将此听者位置区域信息编码到位流中。在解码器处,如果期望渲染到的听者位置在由听者位置区域信息指示的听者位置区域之内,则应当使用预定渲染模式。否则,解码器可以应用其选择的渲染模式,例如默认渲染模式。
另外地,根据期望渲染到的听者位置,可以预见不同的预定渲染模式。因此,所述渲染模式指示所指示的预定渲染模式可以取决于所述听者位置,使得所述渲染模式指示指示用于多个听者位置中的每一个听者位置的相应预定渲染模式。同样,根据期望渲染到的听者位置区域,可以预见不同的预定渲染模式。值得注意的是,对于不同的听者位置(或听者位置区域),可能存在不同的有效音频元素。提供这种渲染模式指示允许控制应用于每个听者位置(或听者位置区域)的(人工)音质,如(人工)回声、混响、反射等。
图7是展示了根据本公开的实施例的由解码器从位流中解码音频场景内容的对应方法700的实例的流程图。解码器可以包含具有一或多个渲染工具的音频渲染器。
步骤S710处,接收位流。在步骤S720处,从位流中解码对音频场景的描述。在 骤S730处,从对音频场景的描述中确定一或多个有效音频元素。
步骤S740处,从对音频场景的描述中确定指示所述一或多个有效音频元素的有效音频元素位置的有效音频元素信息。
步骤S750处,从位流中解码渲染模式指示。所述渲染模式指示指示所述一或多个有效音频元素是否表示从预渲染音频元素获得的声场以及是否应使用预定渲染模式来进行渲染。
步骤S760处,响应于渲染模式指示指示所述一或多个有效音频元素表示从预渲染音频元素获得的声场并且应使用预定渲染模式来进行渲染,使用预定渲染模式来渲染所述一或多个有效音频元素。使用预定渲染模式来渲染所述一或多个有效音频元素考虑了有效音频元素信息。此外,预定渲染模式限定了用于控制音频场景的声学环境对渲染输出的影响的渲染工具的预定配置。
在一些实施方案中,方法700可以包括获得指示听者头部在声学环境中(例如,在听者位置区域中)的位置的听者位置信息和/或指示听者头部在声学环境中(例如,在听者位置区域中)的朝向的听者朝向信息。然后,使用预定渲染模式来渲染所述一或多个有效音频元素可以例如以上文参考方法600所指示的方式进一步考虑听者位置信息和/或听者朝向信息。对应的解码器可以包括用于接收听者位置信息和/或听者朝向信息的接口。
在方法700的一些实施方案中,有效音频元素信息可以包括指示所述一或多个有效音频元素的相应声辐射方向图的信息。然后,使用预定渲染模式来渲染所述一或多个有效音频元素可以例如以上文参考方法600指示的方式进一步考虑指示所述一或多个有效音频元素的相应声辐射方向图的信息。
在方法700的一些实施方案中,使用预定渲染模式来渲染所述一或多个有效音频元素可以根据听者位置与所述一或多个有效音频元素的有效音频元素位置之间的相应距离应用声衰减建模(在空空间中)。这种预定渲染模式将被称为简单渲染模式。应用简单渲染模式(即,仅空空间中的距离衰减)是可能的,因为声学环境的影响“封装(encapsule)”在所述一或多个有效音频元素中。如此,可以将解码器的处理负荷的一部分委派给编码器,从而允许甚至由低功率解码器根据艺术意图渲染沉浸式声场。
在方法700的一些实施方案中,可以从对音频场景的描述中确定至少两个有效音频元素。然后,渲染模式指示可以指示所述至少两个有效音频元素中的每一个有效音频元素的相应预定渲染模式。在这种情况下,方法700可以进一步包括使用所述至少两个有效音频元素的相应预定渲染模式来渲染所述至少两个有效音频元素。使用每个有效音频元素的相应预定渲染模式来渲染每个有效音频元素可以考虑所述有效音频元素的有效音频元素信息,并且所述有效音频元素的渲染模式可以限定用于控制音频场景的声学环境对所述有效音频元素的渲染输出的影响的渲染工具的相应预定配置。所述至少两种预定渲染模式可以是不同的。由此,可以例如根据内容创作者的艺术意图对不同的有效音频元素指示不同量的声学效果。
在一些实施方案中,有效音频元素和(实际/原始)音频元素两者均可以编码在要解码的位流中。然后,方法700可以包括从对音频场景的描述中确定一或多个音频元素,并且从对音频场景的描述中确定指示所述一或多个音频元素的音频元素位置的音频元素信息。然后,使用所述一或多个有效音频元素的与用于所述一或多个有效音频元素的预定渲染模式不同的渲染模式来执行渲染所述一或多个音频元素。使用用于所述一或多个音频元素的所述渲染模式来渲染所述一或多个音频元素可以考虑所述音频元素信息。这允许用例如简单渲染模式来渲染有效音频元素,同时用例如参考渲染模式来渲染(实际/原始)音频元素。此外,预定渲染模式可以与用于音频元素的渲染模式单独配置。更一般地,音频元素和有效音频元素的渲染模式可以隐含所涉及的渲染工具的不同配置。(考虑了声学环境的影响的)声学渲染可以应用于音频元素,而距离衰减建模(在空空间中)可以应用于有效音频元素,可能地,与人工音响效果(其不一定由假设用于编码的声学环境决定)一起应用于有效音频元素。
在一些实施方案中,方法可以700进一步包括获得指示预定渲染模式应当使用的听者位置区域的听者位置区域信息。为了渲染到听者位置区域内由听者位置区域信息指示的收听位置,应使用预定渲染模式。否则,解码器可以应用其选择的渲染模式(其可能取决于实施方案),例如默认渲染模式。
在方法700的一些实施方案中,由渲染模式指示指示的预定渲染模式可以取决于听者位置(或听者位置区域)。然后,解码器可以执行使用听者位置区域信息指示的听者位置区域的渲染模式指示所指示的所述预定渲染模式来渲染所述一或多个有效音频元素。
图8是展示了生成音频场景内容的方法800的实例的流程图。
步骤S810处,从音频场景中获得表示所捕获信号的一或多个音频元素。这可以例如通过声捕获来完成,例如使用麦克风或具有记录能力的移动装置来完成。
步骤S820处,获得指示要生成的一或多个有效音频元素的有效音频元素位置的有效音频元素信息。可以估计有效音频元素位置,或有效音频元素位置可以以用户输入的形式接收。
步骤S830处,根据已经捕获到所捕获信号的位置与所述一或多个有效音频元素的有效音频元素位置之间的距离,通过应用声衰减建模,从表示所捕获信号的所述一或多个音频元素中确定所述一或多个有效音频元素。
方法800使得能够对表示来自离散捕获位置(见图3)的音频元素102的所捕获音频信号120进行真实世界A(/V)记录。根据本公开的方法和设备应使得能够消耗来自听者位置区域110内的参考位置111或其它位置112和朝向(即,在6DoF框架中)的这种资料(例如,使用例如3DoF+、3DoF、0DoF平台,具有尽可能有意义的用户体验)。在图9中示意性地展示了这一点。
接下来将描述用于从音频场景中的(实际/原始)音频元素中确定有效音频元素的一个非限制性实例。
如上所述,本公开的实施例涉及以对应于预定义参考信号(其可能与声传播的物理定律一致或可能不一致)的方式在“3DoF位置”中重建声场。此声场应当基于所有原始“音频源”(音频元素)并且反映对应声学环境(例如,VR/AR/MR环境,即“门”、“墙”等)的复杂(且可能动态变化的)几何结构的影响。例如,参考图2中的实例,声场可以涉及电梯内部的所有声源(音频元素)。
此外,应足够好地重建对应的渲染器(例如,6DoF渲染器)输出声场,以便提供“6DoF空间”的高水平VR/AR/MR沉浸。
因此,本公开的实施例涉及的不是渲染若干个原始音频对象(音频元素)以及考虑复杂声学环境影响,而是引入在编码器处预渲染的一或多个虚拟音频对象(有效音频元素),从而表示整体音频场景(即,考虑音频场景的声学环境的影响)。声学环境的所有效果(例如,声学闭塞、混响、直接反射、回声等)都直接捕获在虚拟对象(有效音频元素)波形中,所述波形被编码并传输到渲染器(例如,6DoF渲染器)。
对于这种对象类型(元素类型),对应的解码器侧渲染器(例如,6DoF渲染器)可以在整个6DoF空间中以“简单渲染模式”(不考虑VR/AR/MR环境)操作。简单渲染模式(作为上述预定渲染模式的实例)可以仅考虑距离衰减(在空空间中),而可以不考虑声学环境(例如,声学环境中的声学元素)的效果,如混响、回声、直接反射、声学闭塞等。
为了扩展预定义参考信号的适用性范围,可以将一或多个虚拟对象(有效音频元素)放置到声学环境(VR/AR/MR空间)中的特定位置(例如,放置在原始音频场景或原始音频元素的声强度中心处)。可以在编码器处通过逆向音频渲染自动确定此位置,或由内容提供者手动指定此位置。在这种情况下,编码器仅传输:
1.b)表示虚拟音频对象的“预渲染类型”的标志(或通常为渲染模式指示);
2.b)从至少预渲染参考(例如,单声道对象)获得的虚拟音频对象信号(有效音频元素);和
3.b)“3DoF位置”的坐标和对“6DoF空间”的描述(例如,包含有效音频元素位置的有效音频元素信息)
常规方法的预定义参考信号与所提出方法的虚拟音频对象信号(2.b)不同。也就是说,虚拟音频对象信号(2.b)的“简单”6DoF渲染应尽可能好地近似给定的“一或多个3DoF位置”的预定义参考信号。
在一个实例中,以下编码方法可以由音频编码器执行:
1.确定期望的“一或多个3DoF位置”和对应的“一或多个3DoF+区域”(例如,期望渲染的听者位置和/或听者位置区域)
2.对这些“一或多个3DoF位置”进行参考渲染(或直接记录)
3.逆向音频渲染;确定一或多个虚拟音频对象(有效音频元素)的产生“一或多个3DoF位置”中的所获得的一或多个参考信号的最佳可能近似的一或多个信号和一或多个位置
4.对所得的一或多个虚拟音频对象(有效音频元素)和其一或多个位置进行编码,以及用信号传输实现6DoF渲染器的“简单渲染模式”的对应6DoF空间(声学环境)和“预渲染对象”属性(例如,渲染模式指示)
逆向音频渲染(见以上第3项)的复杂性与6DoF渲染器的“简单渲染模式”的6DoF处理复杂性直接相关。此外,此处理在假设计算能力限制较少的编码器侧发生。
图11A示意性地展示了需要在位流中传输的数据元素的实例。图11B示意性地展示了在常规编码/解码系统中将在位流中传输的数据元素。
图12展示了直接“简单”和“参考”渲染模式的用例。图12的左侧展示了前述渲染模式的操作,并且右侧示意性地展示了使用任一渲染模式(基于图2的实例)将音频对象渲染到听者位置。
·“简单渲染模式”可以不考虑声学环境(例如,声学VR/AR/MR环境)。也就是说,简单渲染模式可以仅考虑距离衰减(例如,在空空间中)。例如,如图12左侧的上图所示,在简单渲染模式下,Fsimple仅考虑距离衰减,但无法考虑VR/AR/MR环境的效果,如门打开和关闭(参见例如图2)。
·“参考渲染模式”(图12左侧的下图)可以考虑一些或全部VR/AR/MR环境效果。
图13展示了简单渲染模式的示范性编码器/解码器侧处理。左侧的上图展示了编码器处理,并且左侧的下图展示了解码器处理。右侧示意性地展示了将听者位置处的音频信号逆向渲染到有效音频元素的位置。
渲染器(例如,6DoF渲染器)输出可以近似一或多个3DoF位置中的参考音频信号。这种近似可以包含音频核心编码器影响和音频对象聚集的效果(即,由较少数量的虚拟对象(有效音频元素)表示若干个空间上不同的音频源(音频元素))。例如,近似的参考信号可以考虑在6DoF空间中变化的听者位置,并且同样可以基于较少数量的虚拟对象(有效音频元素)表示若干个音频源(音频元素)。在图14中示意性地展示了这一点。
在一个实例中,图15展示了声源/对象信号(音频元素)x101、虚拟对象信号(有效音频元素)xvirtual100、3DoF中的期望渲染输出
Figure BDA0003802160490000171
以及期望渲染的近似
Figure BDA0003802160490000172
另外的术语包含:
-3DoF 一或多个给定参考兼容性位置∈6DoF空间
-6DoF 一或多个任意允许位置∈VR/AR/MR场景
-Freference(x) 编码器确定的参考渲染
-Fsimple(x) 解码器指定的6DoF“简单模式渲染”
-x(NDoF) 3DoF位置/6DoF空间中的声场表示
-
Figure BDA0003802160490000173
一或多个3DoF位置的编码器确定的一或多个参考信号:
-
Figure BDA0003802160490000174
-
Figure BDA0003802160490000175
通用参考渲染输出
-
Figure BDA0003802160490000176
给定(编码器侧):
·一或多个音频源信号x
·一或多个3DoF位置的一或多个参考信号
Figure BDA0003802160490000181
可用(渲染器处):
·一或多个虚拟对象信号xvirtual
·解码器6DoF“简单渲染模式”6DoF的Fsimple
Figure BDA0003802160490000182
问题:定义xvirtual和x(6DoF)以提供:
·3DoF中的期望渲染输出
Figure BDA0003802160490000183
·期望渲染的近似
Figure BDA0003802160490000184
解决方案:
·定义一或多个虚拟对象
Figure BDA0003802160490000185
Figure BDA0003802160490000186
·对一或多个虚拟对象进行6DoF渲染x(6DoF):=6DoF的Fsimple(xvirtual)
可以确定所提出方法的以下主要优势:
·艺术渲染功能性支持:6DoF渲染器的输出可以对应于任意(在编码器侧已知)艺术预渲染参考信号。
·计算复杂性:6DoF音频渲染器(例如,MPEG-I音频渲染器)可以在复杂的声学VR/AR/MR环境中以“简单渲染模式”工作。
·编码效率:对于此方法,一或多个预渲染信号的音频比特率与3DoF位置的数量成比例(更准确地说,与对应虚拟对象的数量成比例),而不与原始音频源的数量成比例。这对于具有大量对象和有限6DoF移动自由度的情况是非常有益的。
·一或多个预定位置处的音频质量控制:对于VR/AR/MR空间中的任何一或多个任意位置和一或多个对应的3DoF+区域,编码器可以明确确保最佳感知音频质量。
本发明支持参考渲染/记录(即“艺术意图”)概念:任何复杂声学环境的效果(或艺术渲染效果)都可以通过一或多个预渲染音频信号进行编码(并在其中传输)。
可以在位流中表示以下信息,以允许参考渲染/记录:
·一或多个预渲染信号类型标志,其启用忽略声学VR/AR/MR环境对一或多个对应虚拟对象的影响的“简单渲染模式”。
·描述一或多个虚拟对象信号渲染的适用区域(即,6DoF空间)的参数化。
在6DoF音频处理(例如,MPEG-I音频处理)期间,可以指定以下:
·6DoF渲染器如何将这种预渲染信号彼此混合以及与常规信号混合。
因此,本发明:
·就解码器指定的“简单模式渲染”功能(即,Fsimple)的定义而言是通用的;其可以是任意复杂的,但是在解码器侧,应存在对应的近似(即,
Figure BDA0003802160490000191
);理想情况下,这种近似应在数学上是“定义明确的”(例如,算法上稳定等)
·是可扩展的并适用于一般声场和声源表示(和其组合):对象、声道、FOA、HOA
·可以考虑音频源指向性方面(除了距离衰减建模之外)
·适用于预渲染信号的多个(甚至重叠的)3DoF位置
·适用于一或多个预渲染信号与常规信号(氛围、对象、FOA、HOA等)混合的场景。
·允许定义并获得一或多个3DoF位置的参考信号
Figure BDA0003802160490000192
作为:
-内容创作者侧应用的任何(任意复杂的)“出品渲染器”的输出
-真实音频信号/现场记录(和其艺术修改)
本公开的一些实施例可以涉及基于以下来确定3DoF位置:
Figure BDA0003802160490000193
本文所描述的方法和系统可以实施为软件、固件和/或硬件。某些组件可以实施为在数字信号处理器或微处理器上运行的软件。其它组件可以实施为硬件和/或专用集成电路。可以将在所描述的方法和系统中遇到的信号存储于如随机存取存储器或光存储媒体等媒体上。所述信号可以通过网络,如无线电网络、卫星网络、无线网络或有线网络,例如,互联网传递。利用本文所描述的方法和系统的典型装置是用于存储和/或渲染音频信号的便携式电子装置或其它消费者设备。
根据本公开的方法和设备的示例实施方案将根据以下列举的示例实施例(EEE)变得显而易见,所述示例实施例不是权利要求。
EEE1涉及一种用于对音频数据进行编码的方法,所述方法包括:对从至少预渲染参考信号中获得的虚拟音频对象信号进行编码;对指示3DoF位置和对6DoF空间的描述的元数据进行编码;以及传输经编码的虚拟音频信号以及所述指示3DoF位置和对6DoF空间的描述的元数据。
EEE2涉及根据EEE1所述的方法,其进一步包括传输指示所述虚拟音频对象的预渲染类型的存在的信号。
EEE3涉及根据EEE1或EEE2所述的方法,其中基于对3DoF位置和对应3DoF+区域的参考渲染确定至少预渲染参考。
EEE4涉及根据EEE1到EEE3中任一项所述的方法,其进一步包括确定所述虚拟音频对象相对于所述6DoF空间的位置。
EEE5涉及根据EEE1到EEE4中任一项所述的方法,其中所述虚拟音频对象的所述位置是基于逆向音频渲染或内容提供者的手动指定中的至少一个来确定的。
EEE6涉及根据EEE1到EEE5中任一项所述的方法,其中所述虚拟音频对象近似所述3DoF位置的预定义参考信号。
EEE7涉及根据EEE1到EEE6中任一项所述的方法,其中所述虚拟对象是基于以下来定义的:
Figure BDA0003802160490000201
其中虚拟对象信号为xvirtual,解码器6DoF“简单渲染模式”
6DoF的Fsimple
Figure BDA0003802160490000202
其中所述虚拟对象被确定为使3DoF位置与所述虚拟对象的简单渲染模式确定之间的绝对差最小化。
EEE8涉及一种用于渲染虚拟音频对象的方法,所述方法包括:基于所述虚拟音频对象渲染6DoF音频场景。
EEE9涉及根据EEE8所述的方法,其中对所述虚拟对象的所述渲染基于:
x(6DoF):=6DoF的Fsimple(xvirtual)
其中xvirtual对应于所述虚拟对象;其中x(6DoF)对应于6DoF中的近似渲染对象;并且Fsimple对应于解码器指定的简单模式渲染功能。
EEE10涉及根据EEE8或EEE9所述的方法,其中对所述虚拟对象的所述渲染是基于表示所述虚拟音频对象的预渲染类型的标志来执行的。
EEE11涉及根据EEE8到EEE10中任一项所述的方法,其进一步包括接收指示预渲染3DoF位置和对6DoF空间的描述的元数据,其中所述渲染基于所述3DoF位置和对所述6DoF空间的所述描述。

Claims (10)

1.一种由解码器从位流解码音频场景内容的方法,所述解码器包含具有一或多个渲染工具的音频渲染器,所述方法包括:
接收所述位流;
解码来自所述位流的对音频场景的描述,所述音频场景包括声学环境,其中所述声学环境包括描述要渲染的所述音频场景的声学特性的元数据;
从对所述音频场景的所述描述中确定一或多个有效音频元素,其中所述一或多个有效音频元素封装所述声学环境的影响并且对应于表示所述音频场景的一或多个虚拟音频对象;
从对所述音频场景的所述描述中确定指示所述一或多个有效音频元素的有效音频元素位置的有效音频元素信息,其中所述有效音频元素信息包括指示所述一或多个有效音频元素的相应声辐射方向图的信息;
解码来自所述位流的渲染模式指示,其中所述渲染模式指示指示所述一或多个有效音频元素是否表示从预渲染音频元素获得的声场并且是否应使用预定渲染模式来进行渲染;以及
响应于所述渲染模式指示指示所述一或多个有效音频元素表示从预渲染音频元素获得的声场并且应使用所述预定渲染模式来渲染,使用所述预定渲染模式来渲染所述一或多个有效音频元素,
其中使用所述预定渲染模式来渲染所述一或多个有效音频元素考虑了所述有效音频元素信息,并且所述信息指示所述一或多个有效音频元素的所述相应声辐射方向图,并且其中所述预定渲染模式限定用于控制所述音频场景的所述声学环境对渲染输出的影响的所述渲染工具的预定配置,
其中使用所述预定渲染模式将所述一或多个有效音频元素渲染到参考位置能够产生感知上等同于所述参考位置处的声场的声场。
2.根据权利要求1所述的方法,其进一步包括:
获得指示听者头部在所述声学环境中的位置的听者位置信息和/或指示所述听者头部在所述声学环境中的朝向的听者朝向信息,
其中使用所述预定渲染模式来渲染所述一或多个有效音频元素进一步考虑了所述听者位置信息和/或听者朝向信息。
3.根据权利要求1或2所述的方法,其中
使用所述预定渲染模式来渲染所述一或多个有效音频元素根据听者位置与所述一或多个有效音频元素的所述有效音频元素位置之间的相应距离来应用声衰减建模。
4.根据权利要求1或2所述的方法,
其中至少两个有效音频元素是从对所述音频场景的所述描述中确定的;
其中所述渲染模式指示指示所述至少两个有效音频元素中的每一个有效音频元素的相应预定渲染模式;
其中所述方法包括使用所述至少两个有效音频元素的相应预定渲染模式来渲染所述至少两个有效音频元素;并且
其中使用所述至少两个有效音频元素的相应预定渲染模式来渲染每个有效音频元素考虑了用于所述有效音频元素的所述有效音频元素信息,并且其中用于所述有效音频元素的所述渲染模式限定用于控制所述音频场景的所述声学环境对用于所述有效音频元素的渲染输出的所述影响的所述渲染工具的相应预定配置。
5.根据权利要求1或2所述的方法,其进一步包括:
从对所述音频场景的所述描述中确定一或多个音频元素;
从对所述音频场景的所述描述中确定指示所述一或多个音频元素的音频元素位置的音频元素信息;以及
使用用于所述一或多个音频元素的渲染模式来渲染所述一或多个音频元素,所述渲染模式不同于用于所述一或多个有效音频元素的所述预定渲染模式,
其中使用用于所述一或多个音频元素的所述渲染模式来渲染所述一或多个音频元素考虑了所述音频元素信息。
6.根据权利要求1或2所述的方法,其进一步包括:
获得指示所述预定渲染模式应当使用的听者位置区域的听者位置区域信息。
7.根据权利要求6所述的方法,
其中由所述渲染模式指示所指示的所述预定渲染模式取决于所述听者位置;并且
其中所述方法包括使用所述听者位置区域信息指示的所述听者位置区域的所述渲染模式指示所指示的所述预定渲染模式来渲染所述一或多个有效音频元素。
8.一种生成音频场景内容的方法,所述方法包括:
从音频场景中获得表示所捕获信号的一或多个音频元素,所述音频场景包括声学环境,其中所述声学环境包括描述要渲染的所述音频场景的声学特性的元数据;
获得指示要生成的一或多个有效音频元素的有效音频元素位置的有效音频元素信息,其中所述一或多个有效音频元素封装所述声学环境的影响并且对应于表示所述音频场景的一或多个虚拟音频对象,并且其中所述有效音频元素信息包括指示所述一或多个有效音频元素的相应声辐射方向图的信息;
获得渲染模式指示,所述渲染模式指示指示所述一或多个有效音频元素表示从预渲染音频元素获得的声场并且应使用预定渲染模式来进行渲染,其中使用所述预定渲染模式将所述一或多个有效音频元素渲染到参考位置能够产生感知上等同于所述参考位置处的声场的声场;以及
根据已经捕获到所述所捕获信号的位置与所述一或多个有效音频元素的所述有效音频元素位置之间的距离,通过应用声衰减建模,从表示所述所捕获信号的所述一或多个音频元素中确定所述一或多个有效音频元素。
9.一种将音频场景内容编码到位流中的方法,所述方法包括:
接收对音频场景的描述,所述音频场景包括声学环境和位于相应音频元素位置处的一或多个音频元素,其中所述声学环境包括描述要渲染的所述音频场景的声学特性的元数据;
从所述一或多个音频元素中确定在相应有效音频元素位置处的一或多个有效音频元素,其中所述一或多个音频元素对应于一或多个原始音频对象,并且其中所述一或多个有效音频元素封装所述声学环境的影响并且对应于表示所述音频场景的一或多个虚拟音频对象;
生成指示所述一或多个有效音频元素的所述有效音频元素位置的有效音频元素信息,其中所述有效音频元素信息被生成以包括指示所述一或多个有效音频元素的相应声辐射方向图的信息;
生成渲染模式指示,所述渲染模式指示指示所述一或多个有效音频元素表示从预渲染音频元素获得的声场并且应使用预定渲染模式来进行渲染,所述预定渲染模式限定用于控制所述声学环境对解码器处的所述渲染输出的影响的所述解码器的渲染工具的预定配置;以及
将所述一或多个音频元素、所述音频元素位置、所述一或多个有效音频元素、所述有效音频元素信息和所述渲染模式指示编码到所述位流中,
其中使用所述预定渲染模式将所述一或多个有效音频元素渲染到参考位置能够产生感知上等同于所述参考位置处的声场的声场。
10.根据权利要求9所述的方法,其进一步包括:
获得指示听者头部在所述声学环境中的位置的听者位置信息和/或指示所述听者头部在所述声学环境中的朝向的听者朝向信息;以及
将所述听者位置信息和/或听者朝向信息编码到所述位流中。
CN202210986583.4A 2018-04-11 2019-04-08 用于音频渲染的预渲染信号的方法、设备和系统 Pending CN115334444A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201862656163P 2018-04-11 2018-04-11
US62/656,163 2018-04-11
US201862755957P 2018-11-05 2018-11-05
US62/755,957 2018-11-05
PCT/EP2019/058833 WO2019197349A1 (en) 2018-04-11 2019-04-08 Methods, apparatus and systems for a pre-rendered signal for audio rendering
CN201980024258.6A CN111955020B (zh) 2018-04-11 2019-04-08 用于音频渲染的预渲染信号的方法、设备和系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201980024258.6A Division CN111955020B (zh) 2018-04-11 2019-04-08 用于音频渲染的预渲染信号的方法、设备和系统

Publications (1)

Publication Number Publication Date
CN115334444A true CN115334444A (zh) 2022-11-11

Family

ID=66165950

Family Applications (4)

Application Number Title Priority Date Filing Date
CN202210986583.4A Pending CN115334444A (zh) 2018-04-11 2019-04-08 用于音频渲染的预渲染信号的方法、设备和系统
CN202210985470.2A Pending CN115346538A (zh) 2018-04-11 2019-04-08 用于音频渲染的预渲染信号的方法、设备和系统
CN202210986571.1A Pending CN115346539A (zh) 2018-04-11 2019-04-08 用于音频渲染的预渲染信号的方法、设备和系统
CN201980024258.6A Active CN111955020B (zh) 2018-04-11 2019-04-08 用于音频渲染的预渲染信号的方法、设备和系统

Family Applications After (3)

Application Number Title Priority Date Filing Date
CN202210985470.2A Pending CN115346538A (zh) 2018-04-11 2019-04-08 用于音频渲染的预渲染信号的方法、设备和系统
CN202210986571.1A Pending CN115346539A (zh) 2018-04-11 2019-04-08 用于音频渲染的预渲染信号的方法、设备和系统
CN201980024258.6A Active CN111955020B (zh) 2018-04-11 2019-04-08 用于音频渲染的预渲染信号的方法、设备和系统

Country Status (7)

Country Link
US (1) US11540079B2 (zh)
EP (1) EP3777245A1 (zh)
JP (2) JP7371003B2 (zh)
KR (2) KR20240033290A (zh)
CN (4) CN115334444A (zh)
BR (1) BR112020019890A2 (zh)
WO (1) WO2019197349A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115334444A (zh) * 2018-04-11 2022-11-11 杜比国际公司 用于音频渲染的预渲染信号的方法、设备和系统
CN113424549B (zh) * 2019-01-24 2024-05-28 交互数字Vc控股公司 用于利用多个细节级别和自由度的自适应空间内容流传输的系统和方法
EP4121960A4 (en) * 2020-03-16 2024-04-17 Nokia Technologies Oy PLAYBACK OF ENCODED 6DOF AUDIO BITSTREAM AND LATE UPDATES
WO2023275218A2 (en) * 2021-06-30 2023-01-05 Telefonaktiebolaget Lm Ericsson (Publ) Adjustment of reverberation level
CN116567516A (zh) * 2022-01-28 2023-08-08 华为技术有限公司 一种音频处理方法和终端

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI317933B (en) * 2005-04-22 2009-12-01 Qualcomm Inc Methods, data storage medium,apparatus of signal processing,and cellular telephone including the same
US8730301B2 (en) * 2010-03-12 2014-05-20 Sony Corporation Service linkage to caption disparity data transport
JP2014506416A (ja) * 2010-12-22 2014-03-13 ジェノーディオ,インコーポレーテッド オーディオ空間化および環境シミュレーション
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
EP3893521B1 (en) * 2011-07-01 2024-06-19 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
KR20140047509A (ko) * 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
MX347100B (es) * 2012-12-04 2017-04-12 Samsung Electronics Co Ltd Aparato de suministro de audio y método de suministro de audio.
ES2931952T3 (es) * 2013-05-16 2023-01-05 Koninklijke Philips Nv Un aparato de procesamiento de audio y el procedimiento para el mismo
US9412385B2 (en) 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
CA2919080C (en) 2013-07-22 2018-06-05 Sascha Disch Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN103701577B (zh) * 2013-12-11 2017-08-11 北京邮电大学 云无线接入网中抑制导频污染的导频分配方法
DE102014211899A1 (de) 2014-06-20 2015-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Kopiergeschützten Erzeugen und Abspielen einer Wellenfeldsynthese-Audiodarstellung
CN104168091A (zh) * 2014-09-01 2014-11-26 东南大学 一种面向多播业务的多天线分组预编码方法
US10567903B2 (en) 2015-06-24 2020-02-18 Sony Corporation Audio processing apparatus and method, and program
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
US9961467B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10046229B2 (en) * 2016-05-02 2018-08-14 Bao Tran Smart device
JP7039494B2 (ja) 2016-06-17 2022-03-22 ディーティーエス・インコーポレイテッド 近/遠距離レンダリングを用いた距離パニング
US10262665B2 (en) 2016-08-30 2019-04-16 Gaudio Lab, Inc. Method and apparatus for processing audio signals using ambisonic signals
WO2018056780A1 (ko) * 2016-09-23 2018-03-29 지오디오랩 인코포레이티드 바이노럴 오디오 신호 처리 방법 및 장치
US10659904B2 (en) * 2016-09-23 2020-05-19 Gaudio Lab, Inc. Method and device for processing binaural audio signal
CN106603134B (zh) * 2016-12-22 2020-10-27 东南大学 一种用于双向无线通信系统的分布式天线选择设计方法
CN115334444A (zh) * 2018-04-11 2022-11-11 杜比国际公司 用于音频渲染的预渲染信号的方法、设备和系统
EP3693846A1 (en) * 2019-02-06 2020-08-12 Nokia Technologies Oy An apparatus, method or computer program for rendering sound scenes defined by spatial audio content to a user

Also Published As

Publication number Publication date
US20210120360A1 (en) 2021-04-22
WO2019197349A1 (en) 2019-10-17
EP3777245A1 (en) 2021-02-17
KR20200140875A (ko) 2020-12-16
KR20240033290A (ko) 2024-03-12
JP2021521681A (ja) 2021-08-26
RU2020132974A (ru) 2022-04-07
US11540079B2 (en) 2022-12-27
CN111955020A (zh) 2020-11-17
CN115346538A (zh) 2022-11-15
JP2024012333A (ja) 2024-01-30
JP7371003B2 (ja) 2023-10-30
KR102643006B1 (ko) 2024-03-05
CN111955020B (zh) 2022-08-23
BR112020019890A2 (pt) 2021-01-05
CN115346539A (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN111955020B (zh) 用于音频渲染的预渲染信号的方法、设备和系统
AU2019409705B2 (en) Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
US20200013426A1 (en) Synchronizing enhanced audio transports with backward compatible audio transports
US10075802B1 (en) Bitrate allocation for higher order ambisonic audio data
CN111183658B (zh) 用于计算机介导现实系统的渲染
US20220377489A1 (en) Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Description for a Spatially Extended Sound Source Using Anchoring Information
US20190392846A1 (en) Demixing data for backward compatible rendering of higher order ambisonic audio
JP2022551535A (ja) オーディオ符号化のための装置及び方法
CN114067810A (zh) 音频信号渲染方法和装置
US11122386B2 (en) Audio rendering for low frequency effects
US11081116B2 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
US20230262407A1 (en) Methods, apparatus and systems for a pre-rendered signal for audio rendering
EP3987515B1 (en) Performing psychoacoustic audio coding based on operating conditions
Peters et al. Scene-based audio implemented with higher order ambisonics (HOA)
US11062713B2 (en) Spatially formatted enhanced audio data for backward compatible audio bitstreams
RU2787581C2 (ru) Способы, устройства и системы для подвергнутого предварительному рендерингу сигнала для рендеринга звука
Herre et al. MPEG-H 3D audio: Immersive audio coding
CN114128312B (zh) 用于低频效果的音频渲染
EP3987824B1 (en) Audio rendering for low frequency effects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination