CN117730368A - 用于处理基于对象的音频和基于声道的音频的方法和装置 - Google Patents

用于处理基于对象的音频和基于声道的音频的方法和装置 Download PDF

Info

Publication number
CN117730368A
CN117730368A CN202280052432.XA CN202280052432A CN117730368A CN 117730368 A CN117730368 A CN 117730368A CN 202280052432 A CN202280052432 A CN 202280052432A CN 117730368 A CN117730368 A CN 117730368A
Authority
CN
China
Prior art keywords
audio
frame
format
channel
oamd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280052432.XA
Other languages
English (en)
Inventor
E·鲁宾
K·佩克尔
D·波瓦兹卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN117730368A publication Critical patent/CN117730368A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本公开涉及一种用于处理基于对象的音频和基于声道的音频的方法和设备。该方法包括接收第一格式的第一音频帧;接收与第一格式不同的第二格式的第二音频帧,第二帧用于在第一帧之后回放;将第一音频帧解码为解码后的第一帧;将第二音频帧解码为解码后的第二帧;以及通过基于解码后的第一帧和解码后的第二帧执行渲染来生成第三格式的多个输出帧。第一格式可以是基于对象的音频格式,并且第二格式是基于声道的音频格式,或是相反情况。

Description

用于处理基于对象的音频和基于声道的音频的方法和装置
相关申请的交叉引用
本申请要求于2021年7月29日提交的美国临时申请号63/227,222(参考号:D21069USP1)的优先权权益,该美国临时申请通过引用以其全文并入本文。
技术领域
本公开总体上涉及处理以不同格式编码的音频。更具体地,本公开的实施例涉及一种通过基于以基于对象的格式编码的音频和以基于声道的格式编码的音频执行渲染来生成多个输出帧的方法。
背景技术
媒体内容可经由一个或多个通信网络(例如,WiFi、蓝牙、LTE、USB)传送到许多不同类型的回放系统/设备(例如,电视、计算机、平板计算机、智能电话、家庭音频系统、流媒体设备、汽车信息娱乐系统、便携式音频系统等),在该回放系统/设备中,由用户使用媒体内容(例如,由媒体回放系统的一个或多个用户观看或听到)。在媒体传送链中,自适应流式传输(自适应比特率或ABR流式传输)允许通过基于网络状况、回放缓冲状态、共享网络容量以及受网络影响的其他因素自适应地选择媒体比特率阶梯来改进资源管理。
在典型的ABR流式传输应用中,随着媒体资产(例如视频或音频文件)回放期间网络状况恶化,回放设备会通过请求较低比特率的内容帧来进行适应(例如,以维持体验质量;避免缓冲等)。在某些流式传输应用中,可以通过传送较低分辨率内容部分(例如,音频帧)或通过以保留带宽的不同格式传送内容来调整比特率(例如,用较低比特率音频文件格式的帧来替代较高比特率格式的帧进行传送)。
发明内容
本公开的目的是提供用于处理基于对象的音频内容和基于声道的音频内容的方法。
根据本公开的一方面,这种方法使得能够在基于对象的音频内容(例如杜比全景声)与基于声道的音频内容(例如5.1或7.1内容)之间进行切换。例如,这在自适应流式传输的背景下是有利的。作为示例,当基于对象的音频内容(例如,杜比全景声内容)被流式传输到兼容的回放系统(例如汽车回放系统或移动设备)时,回放系统可以响应于可用网络带宽的减少而请求并开始接收较低比特率的基于声道的音频帧。相反,当基于声道的音频内容(例如,5.1内容)被流式传输到兼容的回放系统时,回放系统可以响应于可用网络带宽的增加而请求并开始接收基于对象的音频帧。
然而,发明人发现,在没有对转变进行任何特殊处理的情况下,当在基于声道的音频与基于对象的音频之间切换时,可能出现不连续性、不相关声道的混合以及不期望的间隙,反之亦然。例如,当从基于对象的音频(例如,具有杜比全景声内容的杜比数字+(DD+),例如DD+联合对象编码(JOC))转变到基于声道的音频(例如,杜比数字+5.1、7.1等)时,可能发生后方环绕/后方高置信号的硬结束和混合信号的硬开始。同样,当从基于声道的音频(例如,杜比数字+5.1、7.1等)转变到基于对象的音频(例如,具有杜比全景声内容的杜比数字+)时,可能发生5.1扬声器子集中的混合后方环绕/后方高置信号的硬结束以及后方高置/环绕高置扬声器馈送的硬开始。此外,当从基于声道的音频切换到基于对象的音频时,声道可能无法正确排序,从而导致音频在错误的位置被渲染,并在短时间内混合了不相关的声道。
本公开描述了用于缓解当在基于对象的音频与基于声道的音频之间切换时出现的问题的策略,其解决了上述一些问题并提供了若干优点,包括:
·无间隙且平滑的转变(无毛刺和爆音)
·将音频渲染在正确位置
·提高用户的体验质量
·减少CPU和内存需求
·高效使用现有软件和硬件部件
当在基于对象的音频格式与基于声道的音频格式之间切换时,特别是在基于对象的音频的自适应流式传输的背景下,本公开的方法是有利的。然而,本发明不限于自适应流式传输,并且还可以应用于期望在基于对象的音频与基于声道的音频之间进行切换的其他场景。
根据本发明的实施例,提供了一种方法,该方法包括:接收第一格式的第一音频帧以及接收与第一格式不同的第二格式的第二音频帧。第二帧在第一帧之后回放。第一格式是基于对象的音频格式,并且第二格式是基于声道的音频格式,或是相反情况。第一音频帧被解码为解码后的第一帧,并且第二音频帧被解码为解码后的第二帧。通过基于解码后的第一帧和解码后的第二帧执行渲染来生成第三格式的多个输出帧。
本公开进一步涉及一种电子器件设备,包括:一个或多个处理器;以及存储器,该存储器存储有被配置为由该一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本发明的方法的指令。本公开进一步涉及一种包括所述电子设备设备的车辆,如包括所述电子设备的汽车。
附图说明
图1示意性地示出了用于渲染音频以能够在基于声道的输入与基于对象的输入之间切换的模块;
图2a示意性地示出了图1的模块在包括放大器和多个扬声器的回放系统中的实施方式;
图2b示意性地示出了包括图1的模块的回放系统的替代实施方式;
图3示出了用于图示在基于对象的输入与基于声道的输入之间进行切换的时序图;以及
图4示出了图示根据本发明的实施例的方法的流程图。
具体实施方式
以下描述阐述了示例性方法、参数等。然而,应当认识到,这样的描述并不旨在限制本公开的范围,而是作为对示例性实施例的描述而提供。
系统
图1图示了实施本公开的各个方面的功能模块102。图1的模块102可以以硬件和软件两者来实施(例如,如图2a和图2b所示并在对应的描述中讨论的)。模块102包括解码器104(例如,杜比数字+解码器),其接收携带例如基于对象的音频内容(例如,杜比全景声内容(768kbps DD+联合对象编码(JOC)、488kbps DD+JOC等))或基于声道的音频内容(例如采用基于5.1或7.1声道的格式(256kbps DD+5.1等))的输入比特流106(例如,杜比数字+(DD+))。DD+JOC比特流携带向后兼容的基于声道的表示(例如5.1格式)以及用于从所述基于声道的表示重建基于对象的表示(例如杜比全景声)的附加元数据。解码器104取决于接收到的音频将接收到的音频比特流106解码为音频对象108(图示)和/或声道(未图示)。模块102包括耦接到解码器104的输出的渲染器110(对象音频渲染器/OAR)。渲染器110从解码器104的输出生成PCM音频112(例如5.1.2、7.1.4等)。
图2a和图2b图示了在汽车信息娱乐系统中实施的本发明的示例性实施例。在一些实施例中,模块102在同样包括硬件和软件并涉及媒体内容的自适应流式传输的各种其他回放系统/设备(例如,电视、计算机、平板计算机、智能电话、家庭音频系统、流媒体设备、便携式音频系统等)中实施。在一些实施例中,本发明被实施为由回放系统集成使用的软件开发工具包(SDK)的一部分。
在图2a中,设备(例如,实施本发明各个方面的系统)包括主机设备220(例如,媒体源设备、媒体回放设备、媒体流式传输设备、A/V接收器、导航系统、收音机等)和放大器设备230,各自包括各种硬件部件和软件部件。主机220包括各种部件,如用于接收和/或传输数据的多个通信接口222(例如,USB、WiFi、LTE)、一个或多个处理器224(例如,ARM、DSP等)、以及存储操作系统226和应用程序228(例如,如Tidal或Amazon Music等流式传输应用、媒体播放器应用程序等)的存储器(未示出)、以及用于实施本公开的各个方面的其他模块(例如,模块102或其他模块203,例如混合器)。
如图2a所示,放大器设备230经由一个或多个媒体总线接口232(例如,汽车音频总线-A2B、音视频桥接-AVB、媒体导向系统传输-MOST、控制器局域网-CAN等)耦接到主机设备220,以用于在部件之间接收和/或传输数据(例如,主机设备220与一个或多个放大器设备230之间的PCM音频数据)。放大器设备230包括用于处理音频(例如,将音频映射到适当的扬声器配置、均衡、电平匹配、补偿再现环境的各方面(座舱声学、环境噪声)等)的信号处理器(DSP)234。放大器设备230还可以包括用于从经处理的音频(例如,由DSP 234基于从主机设备220接收到的PCM音频生成的音频)生成用于驱动多个扬声器236的信号的硬件和软件。
图2b图示了模块102的替代实施方式。
如图2b所示,模块102位于放大器设备230内,而不是如图2a所示位于主机设备220内。
抑制切换伪影
通过修改音频数据和对象音频元数据(OAMD元数据)两者,在基于对象(全景声)与基于声道的解码/回放之间的切换点发生的伪影减轻。
时序图300(图3)图示了如何在解码器的不同阶段将音频内容划分为帧。
时序图300包括指示输入帧的内容类型的三列:基于对象的内容(第一列和最后一列)或基于声道的内容(中间列)。在该示例中,指示了六个输入帧302,其中输入帧302-1和302-2包括基于对象的内容,输入帧302-3和302-4包括基于声道的内容,并且输入帧302-5和302-6包括基于对象的内容。在该示例中,基于对象的内容包括杜比全景声内容。然而,本发明也可以与其他基于对象的格式一起使用。
输入帧是从一个或多个比特流中提取的。例如,使用支持基于对象的音频格式和基于声道的音频格式的单个比特流,如DD+JOC(杜比数字+联合对象编码)比特流或AC-4比特流。在示例中,根据自适应流式传输协议(如MPEG-DASH、HTTP实时流式传输(HLS)、低延迟HLS)来接收输入帧302。在这种示例中,解码器可以在可用带宽相对较低时请求基于声道的格式的音频,而在可用带宽相对较高时请求基于对象的格式的音频。
解码器基于输入帧302生成输出帧304。图3的示例示出了六个输出帧304-1至304-6。在该示例中,仅示出了输入帧304-1的一部分。
每个输入帧302和输出帧304包括L个样本。在该示例中,L等于1536个样本,对应于杜比数字+(DD+)比特流或DD+JOC比特流中每个输入帧使用的样本数量。然而,本发明不限于该特定数量的样本或特定的比特流格式。
时序图300将解码器延迟指示为D。在图3的示例中,延迟D对应于1473个样本。然而,本发明不限于该特定延迟。例如,解码器延迟D对应于用于对音频帧进行解码的解码过程的时延。
在图300中,输出帧304已相对于其实际时序向左移位D个样本,以更好地图示输入帧302与输出帧304之间的关系。
输出帧304-2的前D个样本是基于输入帧302-1的最后D个样本生成的。输出帧304-2的剩余R个样本是基于输入帧302-2的前R个样本生成的,其中,R=L-D。在该示例中,输出帧304-2是根据基于对象的输入帧302-1和302-2生成的基于对象的输出帧。
对于输出帧304-1,图300仅示出了最后R个样本。输出帧304-1的最后R个样本是根据输入帧302-1的前R个样本生成的。
当解码第一基于声道的帧(帧302-3)时,解码器输出从“OBJ_OUT”切换到“DMX_OUT”。在本申请的上下文中,DMX_OUT指示对应于基于声道的格式(例如5.1或7.1)的输出。DMX OUT可以涉及也可以不涉及解码器处的下混。特别地,“DMX OUT”可以(a)通过在解码器处对基于对象的输入进行下混或(b)直接从基于声道的输入(不在解码器处进行下混)来获得。
解码器使用基于对象的输入帧302-2和基于声道的输入帧302-3来生成输出帧304-3。帧304-3的前D个样本仍然是从基于对象的内容生成的,但是已经渲染到声道(例如5.1或7.1),即通过对基于对象的内容进行下混。输出帧304-3的最后R个样本是直接从基于声道的输入302-3生成的,即没有由解码器下混。
可选地,对象音频渲染器(OAR)用于渲染基于对象的音频(例如帧304-2)和基于声道的音频(例如帧304-3)两者,而不是在OAR与基于专用声道的渲染器之间切换。对基于对象的音频和基于声道的音频两者使用OAR避免了由于在不同渲染器之间切换而产生的伪影。当使用OAR渲染基于声道的内容时,没有可用的对象音频元数据(OAMD)数据,因此解码器创建人工有效载荷(306),其向帧304-3的开头偏移并且没有攀升(攀升长度被设置为零)。人工有效载荷106包括具有反映声道(例如,根据5.1或7.1格式)的位置的位置数据的OAMD。换句话说,解码器生成OAMD,以用于将帧304-3的音频数据映射到基于声道的格式的声道的位置(“声床对象”),例如,标准扬声器位置。在该示例中,DMX_OUT因此可以被认为是包装为基于对象的格式的基于声道的输出,以使得能够使用OAR来渲染基于声道的内容和基于对象的内容两者。用于基于声道的音频的人工有效载荷306通常不同于前述对应于基于对象的音频的OAMD(图3的示例中的“OAMD2”)。可选地,OAR包括限制器。图3中也示出了OAR的输出帧308。限制器延迟由dL指示。出于说明的目的,OAR输出帧308已向左移位dL。另外使用对应的OAMD,分别从解码器输出帧304-2、304-3、304-4、304-5、304-6生成OAR输出帧308-2、308-3、308-4、308-5、308-6。
最后,从OAR输出帧生成PCM输出帧310。在基于对象的音频帧304-2、304-6的情况下,生成PCM输出帧可以包括将基于对象的音频渲染到PCM音频的声道,PCM音频的声道包括用于驱动顶置扬声器的高置声道,如5.1.2PCM音频(8声道)或7.1.4PCM音频(12声道)。
通过将信号与“陷波窗口(notch window)”312相乘,OAMD数据和PCM数据两者中的不连续性至少部分地被隐藏,“陷波窗口”由短淡出和随后在切换点周围的短淡入组成。在该示例中,由于限制器延迟dL,切换点之前的32个样本仍可以从最后的输出308-2获得,因此使用32个样本(33个,包括0)的攀升长度。输出308-2在超过32个样本时淡出,而输出308-3在超过32个样本时淡入。本发明不限于32个样本:可以考虑更短或更长的攀升长度。例如,淡入和淡出可以具有至少32个样本的攀升长度,如在32到64个样本之间或者在32到128个样本之间。
当解码一些基于声道的帧(302-3、302-4)之后的第一个基于对象的帧(帧302-5)时,帧304-5的解码器输出仍然是“DMX_OUT”格式(例如,5.1或7.1)。在该示例中,输出帧304-5的前D个样本是从基于声道的输入帧302-4的最后D个样本生成的,而输出帧304-5的最后R个样本是通过对基于对象的输入帧302-5的前R个样本进行下混来生成的。下一个输出帧304-6是基于对象的格式。304-6的前D个样本是从输入帧302-5的最后D个样本生成的,而最后R个样本是从输入帧302-6的前R个样本生成的。输入帧302-5和302-6两者是基于对象的格式,因此没有应用下混来生成帧304-6。
修改来自比特流的OAMD数据,使得它在下一帧302-6的开始处(偏移D)开始并且指示攀升持续时间0,以使得不会由于朝不兼容的“OBJ_OUT”声道阶跃攀升而发生不需要的串扰。
当生成输出帧310-6时,应用淡入淡出陷波314(类似于淡入淡出陷波312)以便至少部分隐藏信号和元数据中的不连续性。
传送基于对象的音频帧(例如,全景声内容)的比特流中的OAMD包含每个对象在某个时间点的位置数据和增益数据。此外,OAMD包含攀升持续时间,该攀升持续时间向渲染器指示混合器(将输入对象混合到输出声道)应提前多少时间开始从先前的混合系数转变到从(新)OAMD计算得出的混合系数。使OAMD攀升无效是通过操纵来自比特流的OAMD中的攀升持续时间来完成的(例如,将攀升持续时间设置为0(零))。
图4是图示根据本发明的实施例的用于在自适应流式传输应用中的媒体格式之间转变的过程400的流程图。在一些实施例中,过程400可以在如“主机”设备220(例如,如图2a和图2b中所示)的电子设备处执行。可以组合过程400中的一些操作,可以改变一些操作的顺序,并且可以省略一些操作。
在框402处,设备(图2a或图2b的主机220和/或放大器230)接收第一格式的第一音频帧(例如,基于对象的音频,如杜比全景声)。在一些实施例中,该设备是除了主机220和/或放大器230之外还包括附加硬件和软件的系统。
在框404处,设备接收与第一格式不同的第二格式的第二音频帧(例如,基于声道的音频,如5.1或7.1,如DD+5.1),第二帧在所述第一帧之后回放(例如,就预期回放序列而言紧接在第一音频帧之后或邻近第一音频帧、在第一音频帧之后回放、在回放顺序或序列上在后)。在一些实施例中,第一格式是基于对象的音频格式,并且第二格式是基于声道的音频格式。在一些实施例中,第一格式是基于声道的音频格式,并且第二格式是基于对象的音频格式。
在一些实施例中,第一音频帧和第二音频帧由设备在第一比特流(例如,DD+比特流或DD+JOC比特流)中接收。在一些实施例中,第一音频帧和第二音频帧根据自适应流式传输协议(例如,经由由自适应流式传输协议管理的比特流)来传送。在一些实施例中,自适应流式传输协议是MPEG-DASH、HTTP实时流式传输(HLS)、低延迟HLS(LL-HLS)等。
在框406和框408处,设备分别将第一音频帧解码为解码后的第一帧并将第二音频帧解码为解码后的第二帧(例如,使用图1的解码器104,例如杜比数字+解码器)。
在一些实施例中,解码基于对象的音频帧包括修改与所述基于对象的音频帧相关联的对象音频元数据(OAMD)。
在一些实施例中,修改对象音频元数据(OAMD)包括修改与对象位置数据相关联的一个或多个值。例如,当从基于对象切换到基于声道时,即,当第一帧是基于对象的格式并且第二帧是基于声道的格式时,修改OAMD可以包括:提供包括指定基于声道的格式的声道的位置的位置数据的OAMD。换句话说,OAMD指定了声床对象。例如,对于基于对象的格式的下混部分,基于对象的格式的OAMD被指定声床对象的OAMD替换。
在一些实施例中,修改对象音频元数据(OAMD)包括将攀升持续时间设置为零。在OAMD中提供攀升持续时间,以用于指定从先前渲染参数(如混合系数)到当前渲染参数的转变持续时间,其中,先前渲染参数是从先前OAMD得到的,并且当前渲染参数是从所述OAMD得到的。该转变可以例如通过在与攀升持续时间相对应的时间跨度上内插渲染参数来执行。在另一示例中,当从基于声道切换到基于对象时,即,当第一帧是基于声道的格式并且第二帧是基于对象的格式时,将攀升持续时间设置为零。
在一些实施例中,在渲染器维持非复位状态的同时(例如,在避免复位渲染器的同时)执行将与第二音频帧相关联的对象音频元数据(OAMD)攀升持续时间设置为零。
在一些实施例中,修改对象音频元数据(OAMD)包括应用时间偏移(例如,以将相关联的OAMD与帧边界对齐)。例如,时间偏移对应于解码过程的时延。在进一步的示例中,当从基于声道切换到基于对象时,即,当第一帧是基于声道的格式并且第二帧是基于对象的格式时,将偏移应用于OAMD。
在框410处,设备通过基于解码后的第一帧和解码后的第二帧执行渲染(412)(例如,使用图1的音频对象渲染器)来生成第三格式(例如,PCM 5.1.4、PCM 7.1.4等)的多个输出帧。在一些实施例中,第三格式是包括一个或多个高置声道的格式,例如,以用于使用顶置扬声器进行回放。例如,基于对象的音频(可以包括音频对象形式的高置信息)被渲染为5.1.2或7.1.4输出。
在一些实施例中,在渲染之后,设备执行一个或多个淡入淡出操作(例如,淡入和/或淡出)以解决输出不连续性(例如,硬开始、硬结束、爆音、毛刺等)。在一些实施例中,一个或多个淡入淡出操作(例如,淡入和/或淡出)是固定长度(例如,32个样本、少于32个样本、多于32个样本)。在一些实施例中,一个或多个淡入淡出操作在非LFE(低频效果)声道上执行,即,不在LFE声道上执行一个或多个淡入淡出操作。在进一步的实施例中,淡入淡出操作与修改基于对象的音频的OAMD以将攀升持续时间设置为零相结合。
在一些实施例中,生成第三格式的多个输出帧包括对基于对象的音频格式的音频帧进行下混。在一些实施例中,生成第三格式的多个输出帧包括生成包括两个部分的混合输出帧,其中,所述生成混合输出帧包括:通过对基于对象的音频格式的音频帧的一部分进行下混而可选地放弃对基于对象的格式的音频帧的剩余部分进行下混来获得混合输出帧的一部分;以及从基于声道的音频格式的音频帧的一部分获得混合输出帧的另一部分。
在第一示例中,第一帧为基于对象的音频格式并且第二帧为基于声道的格式。换句话说,输入从基于对象切换到基于声道。在这种示例中,混合输出帧以通过对第一(基于对象)帧的最后一部分进行下混生成的一部分开始并且以从第二(基于声道)帧的第一部分获得的一部分结束。在更具体的示例中,混合输出帧、第一帧和第二帧各自包括L个样本。混合输出帧的前D个样本是从第一(基于对象)帧的下混的最后D个样本获得的,而混合输出帧的最后L-D个样本是从第二(基于声道)帧的前L-D个样本获得的。
在第二示例中,第一帧为基于声道的音频格式并且第二帧为基于对象的格式。换句话说,输入从基于声道切换到基于对象。在这种示例中,混合输出帧以从第一(基于声道)帧生成的一部分开始并且以通过对第二(基于对象)帧的第一部分进行下混获得的一部分结束。在更具体的示例中,混合输出帧包括L个样本,其中前D个样本是从第一(基于声道)帧的最后D个样本获得的,而混合输出帧的最后L-D个样本是从第二(基于对象)帧的下混的前L-D个帧获得的。
在一些实施例中,基于对象的格式的音频帧的一部分(即,下混的部分)的持续时间基于相关联的解码过程的时延。例如,在上面的示例中,D可以表示相关联的解码过程的时延或延迟,并且要被下混的部分可以对应于例如D或L-D。
在一些实施例中,多个输出帧包括PCM音频。在一些实施例中,PCM音频随后由设备处理以生成适合于特定再现环境(例如,特定声学空间中的特定扬声器配置)的扬声器信号。例如,用于再现的系统包括用于回放5.1.2格式、7.1.4格式或其他沉浸式音频格式的多个扬声器。用于回放5.1.2格式的扬声器系统可以例如包括左(L)扬声器、中置(C)扬声器和右(R)扬声器、右环绕(Rs)扬声器和左环绕(Ls)扬声器、低音炮(低频效果,LFE)和两个高置扬声器(以左上(TL)扬声器和右上(TR)扬声器的形式)。然而,本公开不限于特定音频系统或特定数量的扬声器或扬声器配置。
应当理解,描述图4中的操作的特定顺序是示例性的,并且不旨在指示所描述的顺序是操作可以被执行的唯一顺序。本领域普通技术人员将认识到对本文描述的操作重新排序以及排除某些操作的各种方式。为了简洁起见,这里不再重复这些细节。
本公开中所描述的方法可以在硬件或软件中实施。在示例中,提供了一种电子设备,该电子设备包括:一个或多个处理器;以及存储器,该存储器存储有被配置为由该一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本公开中所描述的方法中的任一方法的指令。这种电子设备可以用于在车辆(例如汽车)中实施本发明。
在实施例中,车辆可以包括用于回放音频的扩音器系统。例如,扩音器系统包括环绕扩音器和可选的高置扬声器,以用于回放。车辆中实施的电子设备被配置为通过自适应流式传输接收音频流,其中,电子设备在可用带宽相对较低时请求基于声道的格式的音频,而在可用带宽相对较高时请求基于对象的格式的音频。例如,在可用带宽低于第一阈值时,电子设备请求基于声道的格式的音频(例如,5.1音频),而在可用带宽超过第二阈值时,电子设备请求基于对象的格式的音频(例如,DD+JOC)。电子设备实施本公开的用于在基于对象的音频与基于声道的音频之间切换的方法,并且向车辆的扬声器系统提供通过该方法生成的输出帧。输出帧可以直接提供给车辆的扬声器系统,或者可以执行进一步的音频处理步骤。这种进一步的音频处理步骤可以例如包括扬声器映射或座舱调谐,如图2a中所例示的。作为另一示例,在扩音器系统不包括顶置扬声器的情况下,所渲染的音频可以经添加高度提示以提供对声音高度的感知的音频处理方法(如在2021年12月20日提交的US 63/291,598中描述的方法,其通过引用并入本文)处理。
总则
如本文所使用的,除非另有规定,否则使用序数形容词“第一”、“第二”、“第三”等(来描述共同对象)仅指示指代相似对象的不同实例并且不旨在暗示这样描述的对象必须在时间上、在空间上、在排名上或以任何其他方式在给定顺序中。
在所附权利要求和本文的描述中,术语包括、包括有或其包括中的任何一个是开放术语,其意指包括至少随后的元素/特征,但不排除其他元素/特征。因此,当在权利要求中使用术语包括时,该术语不应当被解释为限于在其之后列出的模块或元素或步骤。例如,设备包括A和B这一表述的范围不应限于设备仅由元素A和B组成。如本文所使用的,术语包含、或包含有、或其包含中的任何一个也是开放术语,其也意指包括至少该术语之后的元素/特征,但不排除其他元素/特征。因此,包含)与包括同义并且意指包括。
如本文所使用的,术语“示例性”在提供示例的意义上使用,而不是指示质量。即,“示例性实施例”是作为示例提供的实施例,而不一定是示例性质量的实施例。
应当理解,在以上对本发明的示例性实施例的描述中,有时在单个实施例、图或其描述中将本发明的各种特征组合在一起,以便简化本公开,并且帮助理解各创造性方面中的一个或多个。然而,本公开的方法不应当被解释为反映要求保护的本发明需要比每个权利要求中明确叙述的特征更多的特征的意图。相反,如所附权利要求所反映的,创造性方面在于少于单个前述所公开实施例的所有特征。因此,随具体实施方式附上的权利要求特此明确地并入到具体实施方式中,其中,每个权利要求都独立地作为本发明的单独实施例。
此外,虽然本文所描述的一些实施例包括其他实施例中所包括的一些特征而不包括其他实施例中所包括的其他特征,但是如本领域技术人员将理解的,不同实施例的特征的组合旨在处于本发明的范围内并形成不同实施例。例如,在所附权利要求中,要求保护的实施例中的任一个都可以以任何组合来使用。
此外,本文某些实施例描述为可以由计算机系统的处理器或由执行功能的其他模块实施的方法或方法元素的组合。因此,具有用于执行这种方法或方法元素的必要指令的处理器形成用于执行方法或方法元素的模块。此外,本文所描述的装置实施例的元件是用于执行由元件所执行的功能以便执行本发明的模块的示例。
在本文提供的描述中,阐述了许多具体细节。然而应理解,可以在没有这些具体细节的情况下实践本发明的实施例。在其他实例中,未详细示出众所周知的方法、结构和技术,以便避免模糊对本说明书的理解。
类似地,应当注意,当在权利要求中使用术语“耦接”时,不应将其解释为仅限于直接连接。可以使用术语“耦接”和“连接”及其派生词。应当理解,这些术语并不旨在作为彼此的同义词。因此,设备A耦接到设备B这一表述的范围不应限于设备A的输出直接连接到设备B的输入这种设备或系统。这意味着在A的输出与B的输入之间存在路径,该路径可以是包括其他设备或模块的路径。“耦接”可以意味着两个或更多个元件直接物理接触或电接触,或者两个或更多个元件彼此不直接接触但仍然彼此协作或相互作用。
因此,尽管已经描述了本发明的具体实施例,但是本领域技术人员将认识到,可以在不背离本发明的精神的情况下对其做出其他和进一步的修改,并且旨在要求保护落入本发明的范围内的所有这些改变和修改。例如,上文给出的任何公式仅仅表示可以使用的程序。可以从框图中添加或删除功能,并且可以在功能块当中互换操作。可以向在本发明的范围内描述的方法添加或删除步骤。例如,关于图4描述的多个解码步骤可以同时执行,而不是顺序地执行,或者对第一音频帧的解码(406)可以发生在接收第二音频帧之前。

Claims (15)

1.一种方法,包括:
接收第一格式的第一音频帧;
接收与所述第一格式不同的第二格式的第二音频帧,所述第二帧用于在所述第一帧之后回放;
将所述第一音频帧解码为解码后的第一帧;
将所述第二音频帧解码为解码后的第二帧;以及
通过基于所述解码后的第一帧和所述解码后的第二帧执行渲染来生成第三格式的多个输出帧,
其中,所述第一格式是基于对象的音频格式并且所述第二格式是基于声道的音频格式,或者所述第一格式是基于声道的音频格式并且所述第二格式是基于对象的音频格式。
2.如权利要求1所述的方法,其中,生成第三格式的所述多个输出帧包括对所述基于对象的音频格式的所述音频帧进行下混。
3.如权利要求2所述的方法,其中,生成第三格式的所述多个输出帧包括生成包括两个部分的混合输出帧,所述生成所述混合输出帧包括:
通过对所述基于对象的音频格式的所述音频帧的一部分进行下混来获得所述混合输出帧的一部分;以及
从所述基于声道的音频格式的所述音频帧的一部分获得所述混合输出帧的另一部分。
4.如权利要求3所述的方法,其中,所述基于对象的音频格式的所述音频帧的一部分的持续时间是基于相关联的解码过程的时延的。
5.如权利要求1至4中任一项所述的方法,其中,在第一比特流中接收所述第一音频帧和所述第二音频帧。
6.如权利要求1至5中任一项所述的方法,进一步包括:
在渲染之后,执行一个或多个淡入淡出操作以解决输出不连续性。
7.如权利要求6所述的方法,所述方法进一步包括应用限制器,其中,所述一个或多个淡入淡出操作包括淡入和淡出,其中,所述淡入和所述淡出两者都具有等于所述限制器的延迟的持续时间。
8.如权利要求1至7中任一项所述的方法,其中,对所述基于对象的格式的所述音频帧进行解码包括修改与所述基于对象的格式的所述音频帧相关联的对象音频元数据(OAMD)。
9.如权利要求8所述的方法,其中,当所述第一帧为所述基于声道的格式且所述第二帧为所述基于对象的格式时,修改与所述基于对象的格式的所述音频帧相关联的所述OAMD包括以下中的至少一项:
将与所述解码过程的时延相对应的时间偏移应用于与所述基于对象的格式的所述音频帧相关联的所述OAMD;以及
将所述基于对象的格式的所述音频帧的所述OAMD中指定的攀升持续时间设置为零,其中,所述攀升持续时间指定从先前的OAMD转变到所述基于对象的格式的所述音频帧的所述OAMD的时间。
10.如权利要求8所述的方法,其中,当所述第一帧为所述基于对象的格式且所述第二帧为所述基于声道的格式时,修改与所述基于对象的格式的所述音频帧相关联的所述OAMD包括:
提供包括位置数据的OAMD,所述位置数据指定所述基于声道的格式的声道的位置。
11.如权利要求1至10中任一项所述的方法,其中,所述第一音频帧和所述第二音频帧根据自适应流式传输协议来传送。
12.一种电子设备,包括:
一个或多个处理器;以及
存储器,所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1至11中任一项所述的方法的指令。
13.一种车辆,所述车辆包括如权利要求12所述的电子设备。
14.一种非暂态计算机可读介质,所述非暂态计算机可读介质存储有被配置为由电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1至11中任一项所述的方法的指令。
15.一种计算机程序,所述计算机程序包括用于执行如权利要求1至11中任一项所述的方法的指令。
CN202280052432.XA 2021-07-29 2022-07-21 用于处理基于对象的音频和基于声道的音频的方法和装置 Pending CN117730368A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163227222P 2021-07-29 2021-07-29
US63/227,222 2021-07-29
PCT/EP2022/070530 WO2023006582A1 (en) 2021-07-29 2022-07-21 Methods and apparatus for processing object-based audio and channel-based audio

Publications (1)

Publication Number Publication Date
CN117730368A true CN117730368A (zh) 2024-03-19

Family

ID=82939802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280052432.XA Pending CN117730368A (zh) 2021-07-29 2022-07-21 用于处理基于对象的音频和基于声道的音频的方法和装置

Country Status (4)

Country Link
EP (1) EP4377957A1 (zh)
KR (1) KR20240024247A (zh)
CN (1) CN117730368A (zh)
WO (1) WO2023006582A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102549655B (zh) * 2009-08-14 2014-09-24 Dts有限责任公司 自适应成流音频对象的系统
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
CN106688251B (zh) * 2014-07-31 2019-10-01 杜比实验室特许公司 音频处理系统和方法

Also Published As

Publication number Publication date
WO2023006582A1 (en) 2023-02-02
KR20240024247A (ko) 2024-02-23
EP4377957A1 (en) 2024-06-05

Similar Documents

Publication Publication Date Title
AU2019201701C1 (en) Metadata for ducking control
EP2873254B1 (en) Loudspeaker position compensation with 3d-audio hierarchical coding
US20160192105A1 (en) Processing Spatially Diffuse or Large Audio Objects
EP3311379A1 (en) Loudness control for user interactivity in audio coding systems
WO2012122397A1 (en) System for dynamically creating and rendering audio objects
JP2022551535A (ja) オーディオ符号化のための装置及び方法
US20160066116A1 (en) Using single bitstream to produce tailored audio device mixes
US8615090B2 (en) Method and apparatus of generating sound field effect in frequency domain
CN117730368A (zh) 用于处理基于对象的音频和基于声道的音频的方法和装置
CN111492674A (zh) 在3d音频解码器中处理单声道信号以传送双耳内容
GB2578715A (en) Controlling audio focus for spatial audio processing
US11937063B2 (en) Method and system for maintaining track length for pre-rendered spatial audio
KR20240012519A (ko) 3차원 오디오 신호를 처리하기 위한 방법 및 장치
WO2024074283A1 (en) Method, apparatus, and medium for decoding of audio signals with skippable blocks
CN116489570A (zh) 车载音频混音方法、装置、娱乐设备及存储介质
WO2024076830A1 (en) Method, apparatus, and medium for encoding and decoding of audio bitstreams and associated return channel information
WO2022066426A1 (en) Seamless scalable decoding of channels, objects, and hoa audio content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination