CN116195276A - 控制音频数据的渲染 - Google Patents

控制音频数据的渲染 Download PDF

Info

Publication number
CN116195276A
CN116195276A CN202180065179.7A CN202180065179A CN116195276A CN 116195276 A CN116195276 A CN 116195276A CN 202180065179 A CN202180065179 A CN 202180065179A CN 116195276 A CN116195276 A CN 116195276A
Authority
CN
China
Prior art keywords
renderer
audio data
audio
boundary
clause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180065179.7A
Other languages
English (en)
Inventor
I·G·穆诺茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN116195276A publication Critical patent/CN116195276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/07Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

公开了用于处理音频数据的示例设备、系统和方法。示例设备包括:存储器,其被配置为存储一个或多个扬声器馈送;以及一个或多个处理器,其在电路系统中实现并且通信地耦合到存储器。一个或多个处理器被配置为:确定是否存在将内部区域和外部区域分开的边界;以及基于确定边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小。一个或多个处理器被配置为:获得收听者位置,该收听者位置指示设备相对于内部区域的虚拟位置;以及至少部分地基于边界和收听者位置来获得当前渲染器。一个或多个处理器被配置为:将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送。

Description

控制音频数据的渲染
本申请要求享有于2021年9月8日提交的题为“CONTROLLING RENDERING OF AUDIODATA”的美国申请序列号17/469,421和于2020年9月30日提交的题为“CONTROLLINGRENDERING OF AUDIO DATA”的美国临时申请序列号63/085,437的优先权,上述申请中的每一个的完整内容通过引用并入本文。于2021年9月8日提交的美国申请序列号17/469,421要求享有于2020年9月30日提交的美国临时申请序列号63/085,437的权益。此外,本申请涉及于2020年9月30日提交的题为“CONTROLLING RENDERING OF AUDIO DATA”的美国专利申请序列号17/038,618和于2019年10月1日提交的题为“CONTROLLING RENDERING OF AUDIODATA”的美国临时申请序列号62/909,104。
技术领域
本公开涉及对音频数据的处理。
背景技术
计算机介导现实系统正在开发中,以允许计算设备对用户所经历的现有现实进行增强或添加、移除或减去或一般修改。计算机介导现实系统(也可以称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导现实系统的感知成功通常涉及这种计算机介导现实系统在视频和音频体验这两个方面提供逼真沉浸式体验的能力,其中视频和音频体验以用户期望的方式对齐。虽然人类视觉系统比人类听觉系统更敏感(例如,就场景内各种对象的感知定位而言),但确保充分的听觉体验是确保逼真沉浸式体验的越来越重要的因素,特别是当视频体验改进以允许对视频对象的更好定位时,这使用户能够更好地识别音频内容的来源。
发明内容
本公开总体上涉及用于在音频回放系统处控制音频渲染的技术。该技术可以使音频回放系统能够在复杂度(如由处理器周期、存储器和/或消耗的带宽定义的)方面执行灵活的渲染,同时还允许针对XR体验进行内部和外部渲染,如由将内部区域和外部区域分开的边界定义的。此外,音频回放系统可以利用在表示音频数据的比特流中指定的元数据或其他指示来配置音频渲染器,同时还参考相对于边界的收听者位置来生成用于说明内部区域或外部区域的音频渲染器。该边界在本文中也可以称为范围或空间范围。
因此,该技术可以改进音频回放系统的操作,因为当被配置为执行低复杂度渲染时,音频回放系统可以减少处理器周期、存储器和/或消耗的带宽的数量。当执行高复杂度渲染时,音频回放系统可以提供更沉浸的XR体验,这可以导致音频回放系统的用户更逼真地置于XR体验中。
在一个示例中,该技术针对一种被配置为处理音频数据的设备,该设备包括:存储器,其被配置为存储一个或多个扬声器馈送;以及一个或多个处理器,其在电路系统中实现并且通信地耦合到存储器,一个或多个处理器被配置为:确定是否存在将内部区域和外部区域分开的边界;基于确定边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小;获得收听者位置,该收听者位置指示设备相对于内部区域的虚拟位置;至少部分地基于边界和收听者位置来获得当前渲染器;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送。
在另一示例中,该技术针对一种用于处理音频数据的方法,该方法包括:确定是否存在将内部区域和外部区域分开的边界;基于确定边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小;获得收听者位置,该收听者位置指示设备相对于内部区域的虚拟位置;至少部分地基于边界和收听者位置来获得当前渲染器;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
在另一示例中,该技术针对一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器进行以下操作:确定是否存在将内部区域和外部区域分开的边界;基于确定边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小;获得收听者位置,该收听者位置指示设备相对于内部区域的虚拟位置;至少部分地基于边界和收听者位置来获得当前渲染器;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
在一个示例中,该技术针对一种被配置为处理一个或多个音频流的设备,该设备包括:一个或多个处理器,其被配置为:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值为0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值为0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储器,其耦合到一个或多个处理器,并且被配置为存储一个或多个扬声器馈送。
在一个示例中,该技术针对一种被配置为处理一个或多个音频流的设备,该设备包括:一个或多个处理器,其被配置为:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值大于0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值大于0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器,要么作为内部渲染器和外部渲染器两者;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储器,其耦合到一个或多个处理器,并且被配置为存储一个或多个扬声器馈送。
在另一示例中,该技术针对一种用于处理一个或多个音频流的方法,该方法包括:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值为0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值为0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
在另一示例中,该技术针对一种用于处理一个或多个音频流的方法,该方法包括:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值大于0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值大于0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器,要么作为内部渲染器和外部渲染器两者;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
在另一示例中,该技术针对一种被配置为处理一个或多个音频流的设备,该设备包括:用于确定是否存在将内部区域和外部区域分开的边界的单元;用于基于边界存在来确定过渡距离值的单元,该过渡距离值指示过渡区的大小,其中,该过渡距离值为0;用于获得收听者位置的单元,该收听者位置指示设备相对于内部区域的位置;用于基于边界、收听者位置和过渡距离值为0来获得当前渲染器的单元,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;用于将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送的单元;以及用于存储一个或多个扬声器馈送的单元。
在另一示例中,该技术针对一种被配置为处理一个或多个音频流的设备,该设备包括:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值大于0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值大于0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器,要么作为内部渲染器和外部渲染器两者;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
在另一示例中,该技术针对一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器进行以下操作:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值为0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值为0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
在另一示例中,该技术针对一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器进行以下操作:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值大于0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值大于0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器,要么作为内部渲染器和外部渲染器两者;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
本公开的一个或多个示例的细节在附图和下面的描述中阐述。根据描述和附图以及根据权利要求,技术的各种方面的其他特征、目的和优点将是显而易见的。
附图说明
图1A和图1B是示出可以执行本公开中描述的技术的各种方面的系统的图。
图2是示出根据本公开中描述的技术的各种方面的用于扩展现实(XR)场景的低复杂度渲染的示例的图。
图3是示出根据本公开中描述的技术的各种方面的用于XR场景的包括过渡距离的高复杂度渲染的示例的图。
图4A和图4B是示出VR设备的示例的图。
图5A和图5B是示出可以执行本公开中描述的技术的各种方面的示例系统的图。
图6A-图6G是图1A和图1B的示例中示出的示例音频回放系统在执行本公开中描述的技术的各种方面时的框图。
图7是示出根据本公开中描述的技术的各种方面的用于扩展现实(XR)场景的渲染的示例的图。
图8是示出根据本公开中描述的技术的各种方面的用于扩展现实(XR)场景的渲染的另一示例的图。
图9是示出根据本公开中描述的技术的各种方面的用于扩展现实(XR)场景的渲染的另一示例的图。
图10是示出根据本公开中描述的技术的各种方面的用于扩展现实(XR)场景的渲染的另一示例的图。
图11是根据本公开的示例渲染技术的流程图。
图12示出了根据本公开的方面的支持音频流式传输的无线通信系统的示例。
图13是示出图1A中示出的源设备在执行本公开中描述的技术的各种方面时的示例操作的流程图。
图14是示出图1A中示出的内容消费者设备在执行本公开中描述的技术的各种方面时的示例操作的流程图。
图15是示出根据本公开的各种方面的示例音频处理技术的流程图。
具体实施方式
存在许多不同的方式来表示声场。示例格式包括基于通道的音频格式、基于对象的音频格式和基于场景的音频格式。基于通道的音频格式指代5.1环绕立体声(surroundsound)格式、7.1环绕立体声格式、22.2环绕立体声格式或者任何其他基于通道的格式,这些格式将音频通道定位到收听者周围的特定位置,以便重新创建声场。
基于对象的音频格式可以指代这样的格式:其中音频对象(通常使用脉冲译码调制(PCM)来编码并被称为PCM音频对象)被指定以便表示声场。这样的音频对象可以包括元数据,该元数据识别音频对象相对于收听者的位置或声场中的其他参考点,使得音频对象可以被渲染到一个或多个扬声器通道以供回放,从而努力重新创建声场。本公开中描述的技术可以应用于前述格式中的任一个,包括基于场景的音频格式、基于通道的音频格式、基于对象的音频格式或其任何组合。
基于场景的音频格式可以包括在三维中定义声场的元素的层级集合。元素的层级集合的一个示例是球谐系数(SHC)的集合。下面的表达式展示了使用SHC对声场的描述或表示:
Figure BDA0004140941400000041
该表达式示出了在时间t处,声场的任何点
Figure BDA0004140941400000042
处的压力pi可以由SHC,/>
Figure BDA0004140941400000043
唯一地表示。这里,/>
Figure BDA0004140941400000044
c为声速(~343m/s),/>
Figure BDA0004140941400000045
为参考点(或观察点),jn(·)为n阶球面Bessel函数,并且/>
Figure BDA0004140941400000046
为n阶和m子阶球谐基函数(其也可以称为球面基函数)。可以认识到的是,方括号中的项是信号的频域表示(即,/>
Figure BDA0004140941400000047
它可以用各种时频变换(例如,离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换)来近似。层级集合的其他示例包括小波变换系数集合和多分辨率基函数的其他系数集合。
Figure BDA0004140941400000048
可以通过各种麦克风阵列配置物理地获取(例如,记录),或者可替代地,它们可以从声场的基于通道或基于对象的描述中导出。SHC(也可以称为环绕声系数(ambisonic coefficient))表示基于场景的音频,其中SHC可以被输入到音频编码器以获得经编码的SHC,其可以促进更高效的传输或存储。例如,可以使用涉及(1+4)2(25,因此是四阶)系数的四阶表示。
如上面所指出的,SHC可以从使用麦克风阵列的麦克风记录中导出。在Poletti,M的“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”(J.Audio Eng.Soc.,Vol.53,No.11,2005年11月,第1004-1025页)中描述了如何从麦克风阵列物理地获取SHC的各种示例。
下面的等式可以说明如何从基于对象的描述中导出SHC。对应于单独的音频对象的声场的系数
Figure BDA0004140941400000049
可以表示为:
Figure BDA00041409414000000410
其中,i为
Figure BDA00041409414000000411
为n阶(第二类的)球面Hankel函数,并且/>
Figure BDA00041409414000000412
是对象的位置。已知对象源能量g(ω)是频率的函数(例如,使用时频分析技术,例如对,脉冲译码调制的(PCM)流执行快速傅立叶变换)可以使得能够将每个PCM对象和对应位置转换为
Figure BDA00041409414000000413
此外,(由于上面是线性和正交分解)能够看出每个对象的/>
Figure BDA00041409414000000414
系数是可加的。以这种方式,多个PCM对象可以由/>
Figure BDA00041409414000000415
系数表示(例如,作为单独的对象的系数向量之和)。这些系数可以包含关于声场的信息(根据3D坐标的压力),并且上面表示在观察点/>
Figure BDA0004140941400000051
附近,从单独的对象到整个声场的表示的变换。
计算机介导现实系统(也可以称为“扩展现实系统”或“XR系统”)正在开发中,以利用环绕声系数提供的许多潜在益处。例如,环绕声系数可以以潜在地实现对声源在声场内的准确三维(3D)定位的方式来以三维表示声场。因此,XR设备可以将环绕声系数渲染到扬声器馈送,当经由一个或多个扬声器播放时,该扬声器馈送准确地再现声场。
对于XR使用环绕声系数可以使得能够开发依赖于由环绕声系数提供的更沉浸式声场的多个用例,特别是对于计算机游戏应用和实时视频流式传输应用。在依赖于声场的低延时再现的这些高度动态用例中,XR设备可能更喜欢环绕声系数,而不是更难操纵或涉及复杂渲染的其他表示。关于这些用例的更多信息将在下面关于图1A和图1B提供。
虽然在本公开中针对VR设备进行了描述,但是可以在诸如移动设备之类的其他设备的上下文中执行技术的各种方面。在该实例中,移动设备(例如,所谓的智能电话)可以经由屏幕呈现所显示的世界,该屏幕可以安装到用户的头部或像正常使用移动设备时那样观看。因此,屏幕上的任何信息都可以是移动设备的一部分。移动设备能够提供跟踪信息41,从而允许VR体验(当头戴时)和正常体验两者查看所显示的世界,其中正常体验可以仍然允许用户查看所显示的世界,从而显示VR-lite类型的体验(例如,举起设备并旋转或平移设备以查看所显示的世界的不同部分)。
本公开可以提供不透明度属性和内插(interpolation)距离属性的各种组合,以在6DoF(和其他)用例中渲染内部环绕声声场。此外,本公开讨论了可以由单个二进制位指定的针对内部环绕声声场的低复杂度和高复杂度渲染解决方案的示例。在一个示例编码器输入格式(EIF)中,可以存在指示环绕声声场描述是内部场还是外部场的属性。在内部声场中,声源在由网格或简单几何对象描述的指定边界内,而对于外部声场,声源被描述为在边界外部。用于内部声场的不透明度属性可以指定当收听者在边界外部时,对收听者不具有直接视线的贡献是否有助于针对收听者渲染声场。此外,针对距离的属性可以指定围绕边界的缓冲区域,其中使用针对外部收听者到内部收听者的内部场的渲染之间的内插。如本文所使用的,缓冲区域也可以称为过渡距离。
因此,本文描述的技术的各种方面可以使得能够在VR或其他XR设置中导航时确定用户的收听者位置、确定收听者位置是否位于几何边界内(其中所有声源在几何边界内无阻碍地朝向收听者辐射)、以及确定收听者位置是否位于几何边界外部。当确定收听者位置在几何边界外部时,该技术的各种方面还可以使得能够针对相对于收听者被阻塞的每个声源指派不透明度属性,并且当收听者位置指示收听者在几何边界外部时,基于不透明度属性来执行对几何边界内的声场的内插,并渲染经内插的声场。
图1A和图1B是示出可以执行本公开中描述的技术的各种方面的系统的图。如图1A的示例所示,系统10包括源设备12A和内容消费者设备14A。虽然在源设备12A和内容消费者设备14A的上下文中进行了描述,但是可以在其中对声场的任何层级表示进行编码以形成表示音频数据的比特流的任何上下文中实现这些技术。此外,源设备12A可以表示能够生成声场的层级表示的任何形式的计算设备,并且总体上在本文在作为VR内容创建者设备的上下文中进行描述。同样,内容消费者设备14A可以表示能够实现本公开中描述的音频流内插技术以及音频回放的任何形式的计算设备,并且总体上在本文在作为VR客户端设备的上下文中进行描述。
源设备12A可以由娱乐公司或其他实体操作,该娱乐公司或其他实体可以生成多通道音频内容以供内容消费者设备(例如,内容消费者设备14A)的操作者消费。在许多VR场景中,源设备12A结合视频内容生成音频内容。源设备12A包括内容捕获设备300和内容声场表示生成器302。
内容捕获设备300可以被配置为与一个或多个麦克风5A-5N(“麦克风5”)接合或以其他方式通信。麦克风5可以表示
Figure BDA0004140941400000052
或其他类型的3D音频麦克风,其能够捕获声场并将其表示为对应的基于场景的音频数据11A-11N(其也可以被称为环绕声系数11A-11N或“环绕声系数11”)。在基于场景的音频数据11(这是指代环绕声系数11的另一种方式)的上下文中,麦克风5中的每一个可以表示根据促进生成环绕声系数11的设置几何形状而布置在单个壳体内的麦克风的集群。因此,术语“麦克风”可以指代麦克风的集群(其实际上是几何布置的换能器)或单个麦克风(其可以被称为补点麦克风(spot microphone))。
环绕声系数11可以表示音频流的一个示例。因此,环绕声系数11也可以称为音频流11。尽管主要关于环绕声系数11进行了描述,但是可以关于其他类型的音频流(包括脉冲译码调制(PCM)音频流、基于通道的音频流、基于对象的音频流等)执行这些技术。
在一些示例中,内容捕获设备300可以包括集成到内容捕获设备300的壳体中的集成麦克风。内容捕获设备300可以无线地或经由有线连接与麦克风5接合。与经由麦克风5捕获音频数据或结合捕获音频数据相反,内容捕获设备300可以在经由某种类型的可移除存储装置、无线地和/或经由有线输入过程输入环绕声系数11之后,或者可替代地或结合前述生成或以其他方式创建环绕声系数11(从存储的声音样本,例如,在游戏应用中常见的),来处理环绕声系数11。因此,内容捕获设备300和麦克风5的各种组合是可能的。
内容捕获设备300还可以被配置为与声场表示生成器302接合或以其他方式与其通信。声场表示生成器302可以包括能够与内容捕获设备300接合的任何类型的硬件设备。声场表示生成器302可以使用由内容捕获设备300提供的环绕声系数11来生成由环绕声系数11表示的相同声场的各种表示。
例如,为了使用立体声系数(再次强调,这是音频流的一个示例)生成声场的不同表示,声场表示生成器302可以使用用于声场的立体声表示的译码方案,其称为混合阶环绕声(MOA),如在于2017年8月8日提交的题为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATAFOR COMPUTER-MEDIATED REALITY SYSTEMS”的美国申请序列号15/672,058中更详细地讨论的,该美国申请作为美国专利公布第20190007781号于2019年1月3日公布。
为了生成声场的特定MOA表示,声场表示生成器302可以生成立体声系数的整个集合的部分子集。例如,由声场表示生成器302生成的每个MOA表示可以关于声场的一些区域提供一定精度,但在其他区域中提供较少的精度。在一个示例中,声场的MOA表示可以包括八(8)个未经压缩的立体声系数,而同一声场的三阶立体声表示可以包括十六(16)个未经压缩的立体声系数。因此,作为立体声系数的部分子集生成的声场的每个MOA表示可能与根据环绕声系数生成的相同声场的对应的三阶环绕声表示相比是不那么存储密集且不那么带宽密集的(如果和当作为比特流27的一部分通过所示传输信道传输时)。
尽管关于MOA表示进行了描述,但本公开的技术也可以关于一阶环绕声(FOA)表示来执行,其中与一阶球面基函数和零阶球面基函数相关联的所有环绕声系数都被用于表示声场。换言之,与使用环绕声系数的部分非零子集来表示声场相反,声场表示生成器302可以使用给定阶N的所有环绕声系数来表示声场,从而导致环绕声系数的总数等于(N+1)2
在这方面,环绕声音频数据(这是在MOA表示或全阶表示(例如,上面指出的一阶表示)中指代环绕声系数的另一种方式)可以包括与具有一阶或更少阶的球面基函数相关联的环绕声系数(其可以被称为“一阶环绕声音频数据”)、与具有混合阶和子阶的球面基函数相关联的环绕声系数(其可以被称为上面讨论的“MOA表示”)、或者与具有大于一阶的球面基函数相关联的环绕声系数(上面称为“全阶表示”)。
在一些示例中,内容捕获设备300可以被配置为与声场表示生成器302无线通信。在一些示例中,内容捕获设备300可以经由无线连接或有线连接中的一个或两者与声场表示生成器302通信。经由内容捕获设备300与声场表示生成器302之间的连接,内容捕获设备300可以以各种形式的内容提供内容,出于讨论的目的,这些内容在本文被描述为环绕声系数11的部分。
在一些示例中,内容捕获设备300可以利用声场表示生成器302的各种方面(就声场表示生成器302的硬件或软件能力而言)。例如,声场表示生成器302可以包括被配置为执行心理声学音频编码的专用硬件(或当被执行时使一个或多个处理器执行心理声学音频编码的专用软件),例如,由运动图像专家组(MPEG)阐述的表示为“USAC”的统一语音和音频译码器、MPEG-H 3D音频译码标准、MPEG-I沉浸式音频标准或专有标准,例如,AptXTM(包括AptX的各种版本,例如,增强型AptX-E-AptX、AptX live、AptX stereo和AptX高清-AptX-HD)、高级音频译码(AAC)、音频编解码器3(AC-3)、Apple无损音频编解码器(ALAC)、MPEG-4音频无损流式传输(ALS)、增强型AC-3、免费无损音频编解码器(FLAC)、Monkey’s Audio、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和Windows Media Audio(WMA)。
内容捕获设备300可以不包括心理声学音频编码器专用硬件或专用软件,而是以非心理声学音频译码形式提供内容301的音频方面。声场表示生成器302可以通过至少部分地执行关于内容301的音频方面的心理声学音频编码来协助捕获内容301。
声场表示生成器302还可以通过至少部分地基于根据环绕声系数11生成的音频内容(例如,MOA表示、三阶环绕声表示和/或一阶环绕声表示)生成一个或多个比特流21来协助内容捕获和传输。比特流21可以表示环绕声系数11的压缩版本(和/或用于形成声场的MOA表示的其部分子集)和任何其他不同类型的内容301(例如,球面视频数据、图像数据或文本数据的压缩版本)。
声场表示生成器302可以生成比特流21以供例如跨传输信道传输,该传输信道可以是有线或无线信道、数据存储设备等。比特流21可以表示环绕声系数11的经编码的版本(和/或用于形成声场的MOA表示的其部分子集),并且可以包括主要比特流和另一侧比特流,该侧比特流可以被称为侧信道信息。在一些实例中,表示环绕声系数11的压缩版本的比特流21可以符合根据MPEG-H 3D音频译码标准产生的比特流。
内容消费者设备14A可以由个人操作,并且可以表示VR客户端设备。虽然关于VR客户端设备进行了描述,但内容消费者设备14A可以表示其他类型的设备,例如,增强现实(AR)客户端设备、混合现实(MR)客户端设备(或任何其他类型的头戴式显示设备或扩展现实(XR)设备)、标准计算机、头戴式耳机、耳机、或者能够跟踪操作内容消费者设备14A的个人的头部移动和/或一般平移移动的任何其他设备。如图1A的示例所示,内容消费者设备14A包括音频回放系统16A,其可以指代能够渲染环绕声系数(无论是以一阶、二阶、和/或三阶环绕声表示和/或MOA表示的形式)以作为多通道音频内容进行回放的任何形式的音频回放系统。
内容消费者设备14A可以直接从源设备12A取回比特流21。在一些示例中,内容消费者设备14A可以与包括第五代(5G)蜂窝网络的网络接合,以取回比特流21或以其他方式使源设备12A将比特流21传输到内容消费者设备14A。
虽然在图1A中示出为被直接传输到内容消费者设备14A,但源设备12A可以将比特流21输出到位于源设备12A与内容消费者设备14A之间的中间设备。中间设备可以存储比特流21,以供稍后递送到内容消费者设备14A,该内容消费者设备14A可以请求比特流。中间设备可以包括文件服务器、web服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或者能够存储比特流21以供稍后由音频解码器取回的任何其他设备。中间设备可以驻留在能够将比特流21流式传输(并且可能与发送对应的视频数据比特流相结合)到请求比特流21的订户(例如,内容消费者设备14A)的内容递送网络中。
可替代地,源设备12A可以将比特流21存储到存储介质,例如,压缩盘、数字视频盘、高清视频盘或其他存储介质,其中大多数能够由计算机读取,并且因此可以称为计算机可读存储介质或非暂时性计算机可读存储介质。在该上下文中,传输信道可以指代通过其传输存储到介质的内容的信道(并且可以包括零售店和其他基于商店的递送机制)。在任何情况下,本公开的技术因此不应在这方面限于图1A的示例。
如上面所指出的,内容消费者设备14A包括音频回放系统16A。音频回放系统16A可以表示能够回放多通道音频数据的任何系统。音频回放系统16A可以包括多个不同的音频渲染器22。渲染器22可以各自提供不同形式的音频渲染,其中不同形式的渲染可以包括执行基于向量的振幅平移(VBAP)的各种方式中的一种或多种,和/或执行声场合成的各种方式中的一种或多种。如本文所使用的,“A和/或B”表示“A或B”或“A和B”两者。
音频回放系统16A还可以包括音频解码设备24。音频解码设备24可以表示被配置为解码比特流21以输出经重构的环绕声系数11A’-11N’(其可以形成全一阶、二阶和/或三阶环绕声表示或形成相同声场的MOA表示的其子集或其分解,例如,在MPEG-H 3D音频译码标准和/或MPEG-I沉浸式音频标准中描述的主导音频信号、环境环绕声系数和基于向量的信号)的设备。
因此,环绕声系数11A’-11N’(“环绕声系数11’”)可以类似于环绕声系数11的完整集合或部分子集,但由于有损操作(例如,量化)和/或经由传输信道的传输而不同。音频回放系统16A可以在解码比特流21以获得环绕声系数11’之后,从环绕声系数11’的不同流中获得环绕声音频数据15,并将环绕声音频数据15渲染到输出扬声器馈送25。扬声器馈送25可以驱动一个或多个扬声器(为了便于说明,在图1A的示例中未示出)。声场的环绕声表示可以通过多种方式归一化,包括N3D、SN3D、FuMa、N2D或SN2D。
为了选择合适的渲染器或者在一些实例中生成合适的渲染器,音频回放系统16A可以获得指示扬声器的数量和/或扬声器的空间几何形状的扬声器信息13。在一些实例中,音频回放系统16A可以使用参考麦克风并且输出信号来以经由参考麦克风动态地确定扬声器信息13的方式激活(或者换言之,驱动)扬声器,来获得扬声器信息13。在其他实例中,或者结合扬声器信息13的动态确定,音频回放系统16A可以提示用户与音频回放系统16A交互并输入扬声器信息13。
音频回放系统16A可以基于扬声器信息13来选择一个或多个音频渲染器22中的一个。在一些实例中,当一个或多个音频渲染器22都不在距扬声器信息13中指定的扬声器几何形状的阈值相似性测量(就扬声器几何形状而言)内时,音频回放系统16A可以基于扬声器信息13生成一个或多个音频渲染器22中的一个。在一些实例中,音频回放系统16A可以基于扬声器信息13生成一个或多个音频渲染器22中的一个,而不首先尝试选择一个或多个音频渲染器22中的现有一个。
当将扬声器馈送25输出到耳机时,音频回放系统16A可以利用渲染器22中的一个,该渲染器22使用头部相关传递函数(HRTF)或能够渲染到左和右扬声器馈送25以供耳机扬声器回放的其他功能来提供双耳渲染。术语“扬声器”或“换能器”通常指代任何扬声器,包括喇叭、耳机扬声器等。然后,一个或多个扬声器可以回放所渲染的扬声器馈送25。
虽然被描述为根据环绕声音频数据15渲染扬声器馈送25,但对扬声器馈送25的渲染的引用可以指其他类型的渲染,例如,直接并入到从比特流21对环绕声音频数据15的解码中的渲染。替代渲染的示例可以在MPEG-H 3D音频译码标准的附录G中找到,其中渲染发生在声场合成之前的主导信号形成和背景信号形成期间。因此,对于环绕声音频数据15的渲染的引用应该被理解为指代实际环绕声音频数据15的渲染或者环绕声音频数据15的分解或其表示两者(例如,上面指出的主导音频信号、环境环绕声系数和/或基于向量的信号,其也可以被称为V向量)。
如上面所描述的,内容消费者设备14A可以表示其中人类可穿戴显示器被安装在操作VR设备的用户的眼睛前面的VR设备。图4A和图4B是示出VR设备400A和400B的示例的图。在图4A的示例中,VR设备400A耦合到或以其他方式包括耳机404,该耳机404可以通过扬声器馈送25的回放来再现由环绕声音频数据15(其是指代环绕声系数的另一种方式)表示的声场。扬声器馈送25可以表示能够使耳机404的换能器内的膜片以各种频率振动的模拟或数字信号。这样的过程通常被称为驱动耳机404。
视频、音频和其他感官数据可能在VR体验中扮演重要角色。为了参与VR体验,用户402可以佩戴VR设备400A(其也可以被称为VR耳机400A)或其他可穿戴电子设备。VR客户端设备(例如,VR耳机400A)可以跟踪用户402的头部移动,并调整经由VR耳机400A示出的视频数据以考虑头部移动,从而提供沉浸式体验,其中用户402可以在视觉三维中体验视频数据中示出的虚拟世界。
虽然VR(和其他形式的AR和/或MR,其通常可以称为计算机介导现实设备)可以允许用户402可视地驻留在虚拟世界中,但通常VR耳机400A可能缺乏将用户可听地放置在虚拟世界中的能力。换言之,VR系统(其可以包括负责渲染视频数据和音频数据的计算机(为了便于说明,在图4A的示例中未示出)以及VR耳机400A)可能无法支持听觉上的全三维沉浸。
图4B是示出可以根据本公开中描述的技术的各种方面操作的可穿戴设备400B的示例的图。在各种示例中,可穿戴设备400B可以表示VR耳机(例如,上面描述的VR耳机400A)、AR耳机、MR耳机或任何其他类型的XR耳机。增强现实“AR”可以指代计算机渲染的图像或数据,这些图像或数据覆盖在用户实际所在的现实世界上。混合现实“MR”可以指代计算机渲染的图像或数据,其被世界锁定到真实世界中的特定位置,或者可以指代VR上的变体,其中部分计算机渲染的3D元素和部分拍摄的真实元素被组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示VR、AR和MR的总括术语。关于XR术语的更多信息可以在Jason Peterson于2017年7月7日的题为“Virtual Reality,Augmented Reality,and Mixed Reality Definitions”的文档中找到。
可穿戴设备400B可以表示其他类型的设备,例如,手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、耳机(包括所谓的“无线耳机”和“智能耳机”)、智能服装、智能珠宝等。无论VR设备表示手表、眼镜和/或耳机,可穿戴设备400B都可以经由有线连接或无线连接与支持可穿戴设备400B的计算设备通信。
在一些实例中,支持可穿戴设备400B的计算设备可以集成在可穿戴设备400B内,因此,可穿戴设备400B可以被认为是与支持可穿戴设备400B的计算设备相同的设备。在其他实例中,可穿戴设备400B可以与可以支持可穿戴设备400B的单独的计算设备通信。在这方面,术语“支持”不应被理解为要求单独的专用设备,而是被配置为执行本公开中描述的技术的各种方面的一个或多个处理器可以集成在可穿戴设备400B内或集成在与可穿戴设备400B分离的计算设备内。
例如,当可穿戴设备400B表示VR设备400B的示例时,单独的专用计算设备(例如,包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容,而可穿戴设备400B可以根据本公开中描述的技术的各种方面,基于平移头部移动来确定专用计算设备可以在其上渲染音频内容(作为扬声器馈送)的平移头部移动。作为另一示例,当可穿戴设备400B表示智能眼镜时,可穿戴设备400B可以包括一个或多个处理器,其确定平移头部移动(通过在可穿戴设备400B的一个或多个传感器内接合)并基于确定出的平移头部移动来渲染扬声器馈送。
如所示的,可穿戴设备400B包括一个或多个定向扬声器,以及一个或多个跟踪和/或记录相机。此外,可穿戴设备400B包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼睛跟踪相机、一个或多个高灵敏度音频麦克风和光学/投影硬件。可穿戴设备400B的光学/投影硬件可以包括持久半透明显示技术和硬件。
可穿戴设备400B还包括连通性硬件,其可以表示支持多模连通性(例如,4G通信、5G通信、蓝牙等)的一个或多个网络接口。可穿戴设备400B还包括一个或多个环境光传感器和骨传导换能器。在一些实例中,可穿戴设备400B还可以包括具有鱼眼镜头和/或长焦镜头的一个或多个被动和/或主动相机。虽然图4B中没有示出,但可穿戴设备400B还可以包括一个或多个发光二极管(LED)灯。在一些示例中,LED灯可以被称为“超亮”LED灯。在一些实现方式中,可穿戴设备400B还可以包括一个或多个后置相机。将认识到的是,可穿戴设备400B可以展现各种不同的外形规格。
此外,跟踪和记录相机和其他传感器可以促进确定平移距离。虽然在图4B的示例中未示出,但可穿戴设备400B可以包括用于检测平移距离的其他类型的传感器。
虽然关于可穿戴设备的特定示例(例如,上面关于图4B的示例讨论的VR设备400B和图1A和图1B的示例中阐述的其他设备)进行了描述,但本领域普通技术人员将理解与图1A-图4B相关的描述可以应用于可穿戴设备的其他示例。例如,其他可穿戴设备(例如,智能眼镜)可以包括通过其获得平移头部移动的传感器。作为另一示例,诸如智能手表之类的其他可穿戴设备可以包括通过其获得平移移动的传感器。因此,本公开中描述的技术不应限于特定类型的可穿戴设备,而是任何可穿戴设备都可以被配置为执行本公开中描述的技术。
在任何事件中,VR的音频方面已经被分类为沉浸的三个独立类别。第一类别提供最低级别的沉浸,并且被称为三自由度(3DOF)。3DOF指代考虑头部在三个自由度(偏航、俯仰和滚动)中的移动的音频渲染,从而允许用户在任何方向上自由地看向四周。然而,3DOF不能考虑平移头部移动,其中头部不以声场的光学和声学中心为中心。
第二类别称为3DOF加(3DOF+),其除了有限的空间平移移动(由于头部移动远离声场内的光学中心和声学中心)之外还提供了三个自由度(偏航、俯仰和滚动)。3DOF+可以为诸如运动视差之类的感知效果提供支持,这可能会加强沉浸感。
第三类别称为六自由度(6DOF),其以考虑了头部移动方面的三个自由度(偏航、俯仰和滚动)以及还考虑了用户在空间中的平移(x、y和z平移)的方式渲染音频数据。空间平移可以通过传感器跟踪用户在物理世界中的位置或通过输入控制器来引起。
3DOF渲染是针对VR的音频方面的当前现有技术。因此,VR的音频方面与视频方面相比不那么有沉浸感,从而潜在地减少用户体验的总体沉浸感,并引入定位错误(例如,当听觉回放与视觉场景不匹配或不完全相关时)。
虽然3DOF渲染是当前状态,但是更沉浸式的音频渲染(例如,3DOF+和6DOF渲染)在所消耗的处理器周期、所消耗的存储器和带宽等方面可能导致更高的复杂度。为了降低复杂度,音频回放系统16A可以包括内插设备30(“INT设备30”),其可以选择环绕声系数11’的子集作为环绕声音频数据15。然后,内插设备30可以对所选择的环绕声系数11’的子集进行内插,从而应用各种加权(如由对听觉场景的测量重要性定义的,例如,根据增益分析或其他分析(例如,方向性分析等)),然后对经加权的环绕声系数11’进行求和以形成环绕声音频数据15。内插设备30可以选择环绕声系数的子集,从而减少当渲染环绕声音频数据15时执行的操作的数量(因为增加环绕声系数11’的数量同样增加了被执行以根据环绕声音频数据15渲染扬声器馈送25的操作的数量)。
因此,可能存在其中高复杂度音频渲染在提供沉浸式体验中可能是重要的实例,以及其中低复杂度音频渲染可能足以提供相同沉浸式体验的其他实例。此外,具有提供高复杂度音频渲染的能力同时还支持低复杂度音频渲染可以使具有不同处理能力的设备能够执行音频渲染,从而潜在地加速XR设备的采用,因为低成本设备(与较高主机设备相比,其具有可能较低的处理能力)可以允许更多的人购买和体验XR。
根据本公开中所描述的技术,描述了各种方式,通过这些方式来实现低复杂度音频渲染,同时提供用于高复杂度音频渲染的选项,其具有用于在音频回放系统16A处控制音频渲染的附加元数据或其他指示。这些技术可以使音频回放系统16A能够在复杂度(如由处理器周期、存储器和/或消耗的带宽定义的)方面执行灵活的渲染,同时还允许针对XR体验进行内部和外部渲染,如由将内部区域和外部区域分开的边界定义的。如本文所使用的,“区域”可以指代二维空间、三维空间或体积。此外,音频回放系统16A可以利用表示音频数据的比特流中指定的元数据或其他指示来配置一个或多个音频渲染器22,同时还参考相对于边界的收听者位置17来生成一个或多个音频渲染器22,以考虑内部区域或外部区域。
因此,这些技术可以改进音频回放系统的操作,因为当被配置为执行低复杂度渲染时,音频回放系统16A可以减少处理器周期的数量、存储器和/或消耗的带宽。当执行高复杂度渲染时,音频回放系统16A可以提供更沉浸式的XR体验,这可以导致音频回放系统16A的用户更逼真地置于XR体验中。
如图1A的示例所示,音频回放系统16A可以包括渲染器生成单元32,其表示根据本公开中描述的技术的各种方面被配置为生成或以其他方式获得音频渲染器22中的一个或多个音频渲染器的单元。在一些示例中,渲染器生成单元32可以执行上述过程,以基于收听者位置17和扬声器信息13中的扬声器几何形状来生成一个或多个音频渲染器22。
然而,此外,渲染器生成单元32可从比特流21(其可以由音频解码设备24解析)获得各种指示31(例如,语法元素或其他类型的元数据)。因此,声场表示生成器302可以在将比特流21传输到音频回放系统16A之前指定比特流21中的指示31。作为一个示例,声场表示生成器302可以从内容捕获设备300接收指示31。操作者、编辑者或其他个人可以通过与内容捕获设备300或诸如内容编辑设备之类的某种其他设备的交互来指定指示31。
一个或多个指示31可以包括指示由音频回放系统16A执行的渲染的复杂度的指示、用于渲染在环绕声系数中存在的次要源的不透明度的指示和/或在内部区域周围的缓冲距离的指示(其中在内部渲染与外部渲染之间对渲染进行内插)。指示复杂度的指示可以将复杂度指示为低复杂度或高复杂度(作为布尔值,其中真表示低复杂度,而假表示高复杂度)。指示不透明度的指示可以要么指示不透明,要么指示透明(作为布尔值,其中真指示不透明,假指示透明,尽管不透明度可以被定义为值为0到1的浮点数)。指示过渡距离的指示可以将距离指示为值。
声场表示生成器302还可以在比特流21中指定将内部区域与外部区域分开的边界。如上面所指出的,声场表示生成器302还可以指定针对内部区域和外部区域控制环绕声系数11的渲染的一个或多个指示31。声场表示生成器302可以输出比特流21以供递送(经由网络流式传输等的近实时地递送,或者如上面所描述的用于稍后的递送)。
音频回放系统16A可以获得比特流21,并调用音频解码设备24来解压缩比特流以获得环绕声音频系数11’,以及从比特流21解析指示31。音频解码设备24可以将指示31连同边界的指示一起输出到渲染器生成单元32。音频回放系统16A还可以与跟踪设备306接合以获得收听者位置17,其中边界、收听者位置17和指示31被提供给渲染器生成单元32。
因此,渲染器生成单元32可以获得将内部区域和外部区域分开的边界的指示。渲染器生成单元32还可以获得指示内容消费者设备14A相对于内部区域的虚拟位置的收听者位置17。
渲染器生成单元32然后可以基于边界和收听者位置17来获得一个或多个音频渲染器22中的当前渲染器,当将环绕声音频数据15渲染到一个或多个扬声器馈送25时,要使用该当前渲染器。当前渲染器可以被配置为针对内部区域渲染环绕声音频数据25(并由此作为内部渲染器操作),或者被配置为针对外部区域渲染音频数据(并由此作为外部渲染器操作)。
确定是将当前渲染器配置作为内部渲染还是外部渲染(或者作为在其中的内插或交叉衰落(crossfading))可以取决于内容消费者设备14A相对于XR场景中的边界驻留在哪里。例如,当内容消费者设备14A在XR场景中并且对于每个收听者位置17在由边界定义的内部区域外部时,渲染器生成单元32可以将当前渲染器配置为作为外部渲染器操作。当内容消费者设备14A在XR场景中并且对于每个收听者位置17在由边界定义的内部区域内部时,渲染器生成单元32可以将当前渲染器配置为作为内部渲染器操作。渲染器生成单元32可以输出当前渲染器,其中音频回放系统16A可以将当前渲染器应用于环绕声音频数据15,以获得扬声器馈送25。
关于复杂度的指示、不透明度的指示和过渡距离的指示的更多信息将在下面关于图2和图3的示例进行描述。
图1B是示出被配置为执行本公开中描述的技术的各种方面的另一示例系统100的框图。系统100类似于图1A所示的系统10,除了在内容消费者设备14B的音频回放系统16B中,图1A所示的一个或多个音频渲染器22被替代为双耳渲染器102,该双耳渲染器102能够使用一个或多个HRTF或能够渲染到左和右扬声器馈送103的其他功能来执行双耳渲染。因此,在一些示例中,当前渲染器可以是双耳渲染器。
音频回放系统16B可以将左和右扬声器馈送103输出到耳机104,该耳机104可以表示可穿戴设备的另一示例,并且可以耦合到附加的可穿戴设备(例如,手表、上面指出的VR耳机、智能眼镜、智能服装、智能戒指、智能手镯或任何其他类型的智能珠宝(包括智能项链)等)以促进声场的再现。耳机104可以无线地或经由有线连接耦合到附加的可穿戴设备。
此外,耳机104可以经由有线连接(例如,标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(例如,通过BluetoothTM连接、无线网络连接等的方式)耦合到音频回放系统16。耳机104可以基于左和右扬声器馈送103重新创建由环绕声系数11表示的声场。耳机104可以包括左耳机扬声器和右耳机扬声器,它们由对应的左和右扬声器馈送103供电(或者换言之,驱动)。
图2是示出根据本公开中描述的技术的各种方面的用于扩展现实(XR)场景的低复杂度渲染的示例的图。如图2的示例所示,XR场景200包括操作内容消费者设备14A(为了便于说明,未示出)的操作者202。XR场景200还包括将内部区域206和外部区域208分开的边界204。
虽然在图2的示例中示出了单个边界204,但是XR场景200可以包括将不同的内部区域与外部区域208分开的多个边界。此外,虽然被示为单个边界204,但边界可以存在于其他边界内、与其他边界重叠等。当边界存在于其他边界内时,由较大边界定义的内部区域相对于针对由较外边界内的边界定义的内部区域的渲染可以作为外部边界操作(出于渲染的目的)。
在任何情况下,首先假设操作者202相对于边界204在外部区域208中,(内容消费者设备14A的)渲染器生成单元32可以首先确定复杂度的指示是指示高复杂度还是低复杂度。出于说明的目的,假设复杂度的指示指示低复杂度,渲染器生成单元32可以确定在收听者位置17与内部区域206的中心210之间的第一距离(作为一个示例,该第一距离是基于边界204计算的,该边界204可以表示为形状、点列表、样条或任何其他几何表示)。渲染器生成单元32接下来可以确定在边界204与中心210之间的第二距离。
渲染器生成单元32然后可以将第一距离与第二距离进行比较,以确定操作者202驻留在边界204外部。即,当第一距离大于第二距离时,渲染器生成单元32可以确定操作者202位于边界204外部。对于低复杂度配置,渲染器生成单元32可以生成当前渲染器以针对内部区域206渲染环绕声音频数据15,使得由环绕声音频数据15表示的声场源自内部区域206的中心210。渲染器生成单元32可以将环绕声音频数据15渲染为位于距操作者202所面对的方向theta(θ)度。
使得声场看起来源自单点(例如,在该示例中为中心210)可以降低处理周期、存储器和带宽消耗方面的复杂度,因为它可以导致用于表示声场的较少的扬声器馈送(并且潜在地减少平移、混合和其他音频操作),同时还潜在地保持沉浸式体验。当渲染器生成单元32仅利用环绕声音频数据15的单个环绕声系数(例如,对应于具有零阶的球面基函数的环绕声系数、对应于具有零阶的球面基函数的环绕声系数表示声场的增益,并且不提供太多的空间信息,因此不要求复杂的渲染)而不是处理来自环绕声音频数据15的多个环绕声系数时,可能发生处理器周期、存储器和带宽消耗的进一步减少。
接下来,假设操作者202移动到内部区域206中。渲染器生成单元32可以接收更新后的收听者位置17,并执行与上面描述的相同的过程以确定(因为第一距离小于第二距离)操作者202位于内部区域206中。对于低复杂度指示并且响应于确定操作者202驻留在内部区域中,渲染器生成单元206可以输出被配置为渲染环绕声音频数据15的更新后的当前渲染器,使得由环绕声音频数据15表示的声场在整个内部区域206中出现(这可以被称为完全或正常渲染,因为所有环绕声音频数据15可以被渲染,使得声场内的音频源被精确地放置在操作者202周围)。
以这种方式,当内部场被指定为使用针对低延时应用或出于艺术目的的低复杂度渲染器来渲染时,在生成当前渲染器时不利用针对缓冲区域距离或不透明度的属性。在这种情况下,当收听者202(这是指代操作者202的另一种方式)在内部场区域206(这是指代内部区域206的另一种方式)外部时,从内部场区域206的中心210向收听者202播放W环绕声通道(对应于球谐波的零阶和子阶的音频数据,α00(t))。当收听者202在内部场区域206内时,正常地从所有方向回放环绕声声场。
图3是示出根据本公开中描述的技术的各种方面的用于XR场景的包括过渡距离的高复杂度渲染的示例的图。XR场景220类似于图2的示例中所示的XR场景200,除了其假定复杂度的指示指示高复杂度。响应于指示高复杂度的指示,渲染器生成单元32可以利用导致过渡区224(其也可以称为“内插区224”)的过渡距离222的指示。在一些示例中,过渡距离222可以是可配置的阈值,或者可以被定义为相对于外部区域208或内部区域206的小值,例如,到内部区域206的中心的距离的百分比的20%。
首先假设操作者202驻留在外部区域208中,渲染器生成单元32可以以上面关于图2的示例描述的方式确定操作者202驻留在外部区域208中。响应于确定操作者202驻留在外部区域208中,渲染器生成单元32接下来可以确定复杂度指示指示高复杂度还是低复杂度。出于说明的目的,假设复杂度的指示指示高复杂度,渲染器生成单元32可以确定不透明度的指示是指示不透明还是透明。
当不透明度的指示指示不透明时,渲染器生成单元32可以将当前渲染器配置为丢弃存在于由环绕声音频数据15表示的声场中的次要音频源,该次要音频源不直接在操作者202的视线内。换言之,渲染器生成单元32可以基于收听者位置17和边界204来配置当前渲染器,以排除将次要源添加到收听者位置17指示为不直接在视线内的位置。当不透明度的指示指示透明时,渲染器生成单元32恢复到考虑所有次要源的正常渲染。
当使用高复杂度来配置当前渲染器用于外部渲染时,渲染器生成单元32可以在所有情况下(例如,不透明或透明)配置当前渲染器以渲染环绕声音频数据15,使得由环绕声音频数据15表示的声场取决于在收听者位置17与边界204之间的距离而向外展开。在图3的示例中,向外展开度表示为theta(θ)度。该距离由两条虚线226A和226B示出,从而得到展开度为theta。
当操作者202移动到平移区224中时,渲染器生成单元32可以响应于确定收听者位置17在边界204的过渡距离222内而更新当前渲染器,以在外部渲染器与内部渲染器之间进行内插或交叉衰落。内插的示例可以是(1-a)*internal_rendering+a*external_rendering,其中a是基于收听者202距声场边界204(这是指代边界204的另一种方式)有多近的分数。如果外部渲染器和内部渲染器包括不同阶的环绕声,例如,如果外部渲染器渲染1阶环绕声而内部渲染器渲染4阶环绕声,则当操作者202从外部区域208通过过渡区224朝向内部区域206移动时,当前渲染器可以内插或交叉衰落到2阶环绕声和3阶环绕声。类似地,当操作者202从内部区域206通过过渡区224移动返回到外部区域208时,当前渲染器可以内插或交叉衰落到3阶环绕声和2阶环绕声。
音频回放系统16A然后可以应用更新后的当前渲染器以获得一个或多个更新后的扬声器馈送25。例如,当前渲染器可能会在外部渲染器与内部渲染器之间进行交叉衰落。
当操作者202在内部区域206内完全移动时,渲染器生成单元32可以生成当前渲染器以正常渲染。即,渲染器生成单元32可以使用环绕声音频数据15的所有环绕声系数并以正确地将音频源中的每一个放置在声场中的方式(例如,不将所有源定位在相同位置,例如,图2的示例中所示的内部区域206的中心210)来生成当前渲染器,以完全渲染驻留在内部区域206内的环绕声音频数据15。
换言之,以环绕声格式表示的内部场区域206的内部声场允许边界上的次要源,并且根据惠更斯原理,这些次要源对收听者202处的声音有贡献。当不透明度属性为真时,渲染器生成单元32可以不添加收听者202不具有直接视线的次要源的贡献。
在高复杂度渲染器中,收听者202可以取决于它们距内部声场206的距离,将内部场区域206的内部声场作为向外展开源来听到。当收听者202从外部声场208(这是指代外部区域208的另一种方式)移动到内部声场206(这是指代内部区域206的另一种方式)时,渲染可以改变,并且可以平滑地完成该移位。Buffer_Distance属性指定当执行针对外部到内部收听者202的渲染之间的内插时的距离。一个示例内插方案包括(1-a)*internal_rendering+a*external_rendering。该变量可以表示基于收听者距声场边界204有多近的分数。
例如,管弦乐队可以表示为内部环绕声声场。在这种情况下,收听者202应该具有来自所有乐器的贡献,因此不透明度为假。在内部场表示人群并且意图随着收听者在边界204的外部移动而改变收听体验的情况下,可以将不透明度设置为真。
因此,可以指定添加不透明度属性、内插缓冲距离属性和复杂度属性(这是指代指示31的另一种方式)以支持将内部环绕声声场渲染为MPEG-I编码器输入格式。若干使用场景可以举例说明这些属性的有用性。这些属性可以促进针对6DoF(和其他)用例在收听者位置处对内部声场的渲染的控制。
虽然关于图4A和图4B的示例中所示的VR设备进行了描述,但这些技术可以由其他类型的可穿戴设备(包括手表(例如,所谓的“智能手表”)、眼镜(例如,所谓的“智能眼镜”)、耳机(包括经由无线连接耦合的无线耳机,或经由有线或无线连接耦合的智能耳机)、以及任何其他类型的可穿戴设备)执行。因此,这些技术可以由任何类型的可穿戴设备来执行,通过这些可穿戴设备,用户可以在可穿戴设备被用户穿戴时与可穿戴设备交互。
图5A和图5B是示出可以执行本公开中描述的技术的各种方面的示例系统的图。图5A示出了其中源设备12B还包括相机201的示例。相机201可以被配置为捕获视频数据,并将捕获的原始视频数据提供给内容捕获设备300。内容捕获设备300可以将视频数据提供给源设备12B的另一组件,以进一步处理为视口划分的部分。
在图5A的示例中,内容消费者设备14C还包括可穿戴设备800。将理解,在各种实现方式中,可穿戴设备800可以被包括在内容消费者设备14C中或在外部耦合到内容消费者设备14C。如上面关于图4A和图4B所讨论的,可穿戴设备800包括用于输出视频数据(例如,与各种视口相关联)和用于渲染音频数据的显示硬件和扬声器硬件。
图5B示出了类似于图5A所示的示例,除了图5A中所示的一个或多个音频渲染器22被替代为双耳渲染器102,该双耳渲染器102能够使用一个或多个HRTF或能够渲染到左和右扬声器馈送103的其他功能来执行双耳渲染。音频回放系统16可以将左和右扬声器馈送103输出到耳机104。
耳机104可以经由有线连接(例如,标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其他形式的有线连接)或无线地(例如,通过BluetoothTM连接、无线网络连接等的方式)耦合到音频回放系统16。耳机104可以基于左和右扬声器馈送103重新创建由环绕声系数11表示的声场。耳机104可以包括左耳机扬声器和右耳机扬声器,它们由对应的左和右扬声器馈送103供电(或者换言之,驱动)。
图6A是图1A和图1B的示例中示出的音频回放系统在执行本公开中描述的技术的各种方面时的框图。音频回放系统16C可以表示音频回放系统16A和/或音频回放系统16B的示例。音频回放系统16可以包括与6DOF音频渲染器22A组合的音频解码设备24,该6DOF音频渲染器22A可表示图1A的示例中所示的一个或多个音频渲染器22的一个示例。
音频解码设备24可以包括低延迟解码器900A、音频解码器900B和本地音频缓冲器902。低延迟解码器900A可以处理XR音频比特流21A以获得音频流901A,其中低延迟解码器900A可以执行相对低复杂度的解码(与音频解码器900B相比),以促进音频流901A的低延迟重构。音频解码器900B可以关于音频比特流21B执行相对较高复杂度的解码(与音频解码器900A相比)以获得音频流901B。音频解码器900B可以执行符合MPEG-H 3D音频译码标准的音频解码。本地音频缓冲器902可以表示被配置为缓冲本地音频内容的单元,本地音频缓冲器902可以将该本地音频内容输出为音频流903。
比特流21(包括XR音频比特流21A和/或音频比特流21B中的一个或多个)还可以包括XR元数据905A(其可以包括上面指出的麦克风位置信息)和6DOF元数据905B(其可以指定与6DOF音频渲染相关的各种参数)。6DOF音频渲染器22A可以从缓冲器910和/或903获得音频流901A和/或901B以及XR元数据905A、6DOF元数据905B、收听者位置17和HRTF 23,并且基于收听者位置和麦克风位置来渲染扬声器馈送25和/或103。在图6A的示例中,6DOF音频渲染器22A包括内插设备30A,其可以执行上文更详细描述的音频流选择和/或内插技术的各种方面,以促进6DOF音频渲染。在图6A的示例中,6DOF音频渲染器22A还包括控制器920,该控制器920可以将适当的元数据和音频信号传递到内插设备30A。内插设备30A可以对来自缓冲器910中的两个或更多个源的环绕声系数进行内插,或者对来自音频对象渲染器和/或6DOF音频渲染器22A的双耳化音频进行内插。虽然示出为6DOF的一部分,但在一些示例中,控制器920可以位于音频回放系统16C中的其他地方。在一些示例中,可以在一个或多个处理器中实现低延迟解码器900A、音频解码器900B、本地音频缓冲器902、缓冲器910和6DOF音频渲染器22A中的任何一个。
图6B是图1A和图1B的示例中示出的音频回放系统在执行本公开中描述的技术的各种方面时的框图。图6B的示例音频回放系统16D类似于图6A的音频回放系统16C,但是音频回放系统16D还包括音频对象渲染器912和3DOF音频渲染器914。音频对象渲染器912、3DOF音频渲染器914和6DOF音频渲染器22B中的每一个可以接收收听者位置17和HRTF 23。在该示例中,音频对象渲染器912、3DOF音频渲染器914的输出或6DOF音频渲染器的输出可以被发送到可以执行双耳渲染的双耳化器916。在一些示例中,音频对象渲染器912、3DOF音频渲染器914和6DOF音频渲染器22B中的每一个可以输出环绕声。双耳化器916的输出可以被发送到内插设备30B。内插设备30B可以包括控制器918。虽然示出了来自音频解码设备24的单个输出,但在一些示例中,低延迟解码器900A、音频解码器900B和本地音频缓冲器902可以各自具有到音频对象渲染器912、3DOF音频渲染器914和6DOF音频渲染器22A中的每一个的单独连接。在图6B的示例中,内插设备30B可以对来自双耳化器916的双耳化音频进行内插。在图6B的示例中,内插设备30B还包括控制器918,该控制器918可以控制内插设备30B的功能。尽管被示为内插设备30的一部分,但在一些示例中,控制器918可以位于音频回放系统16D中的其他地方。在一些示例中,可以在一个或多个处理器中实现低延迟解码器900A、音频解码器900B、本地音频缓冲器902、缓冲器910、音频对象渲染器912、3DOF音频渲染器914、6DOF音频渲染器22B、双耳化器916和内插设备30B中的任一个。
图6C是图1A和图1B的示例中示出的音频回放系统在执行本公开中描述的技术的各种方面时的框图。图6C的示例音频回放系统16E类似于图6B的音频回放系统16D,然而,与音频对象渲染器912、3DOF音频渲染器914或6DOF音频渲染器22A将它们的输出发送到双耳化器916相反,音频对象渲染器912、3DOF音频渲染器914或6DOF音频渲染器22A将它们的输出发送到内插设备30B,该内插设备30B进而将输出发送到双耳化器916。在一些示例中,音频对象渲染器912、3DOF音频渲染器914和6DOF音频渲染器22B中的每一个可以输出环绕声。在图6C的示例中,内插设备30B可以对来自音频对象渲染器912、3DOF音频渲染器914或6DOF音频渲染器22B中的两个或更多个的环绕声系数进行内插。在图6C的示例中,内插设备30B还包括控制器918,该控制器918可以控制内插设备30B的功能。尽管被示为内插设备30B的一部分,但在一些示例中,控制器918可以位于音频回放系统16E中的其他地方。在一些示例中,可以在一个或多个处理器中实现低延迟解码器900A、音频解码器900B、本地音频缓冲器902、缓冲器910、音频对象渲染器912、3DOF音频渲染器914、6DOF音频渲染器22B、双耳化器916和内插设备30B中的任一个。
图6D是图1A和图1B的示例中示出的音频回放系统在执行本公开中描述的技术的各种方面时的框图。图6D的示例音频回放系统16F类似于图6C的音频回放系统16E,然而,音频回放系统16F不包括双耳化器916。在一些示例中,音频对象渲染器912、3DOF音频渲染器914和6DOF音频渲染器22B中的每一个可以输出环绕声。在图6D的示例中,内插设备30B可以对来自音频对象渲染器912、3DOF音频渲染器914或6DOF音频渲染器22B中的两个或更多个的环绕声系数进行内插,或者对来自音频对象渲染器912、3DOF音频渲染器914和/或6DOF音频渲染器22B的双耳化音频进行内插。在图6D的示例中,内插设备30B还包括控制器918,该控制器918可以控制内插设备30B的功能。尽管被示为内插设备30的一部分,但在一些示例中,控制器918可以位于音频回放系统16F中的其他地方。在一些示例中,可以在一个或多个处理器中实现低延迟解码器900A、音频解码器900B、本地音频缓冲器902、缓冲器910、音频对象渲染器912、3DOF音频渲染器914、6DOF音频渲染器22B、双耳化器916和内插设备30B中的任一个。
图6E是图1A和图1B的示例中示出的音频回放系统在执行本公开中描述的技术的各种方面时的框图。图6E的示例音频回放系统16G类似于图6D的音频回放系统16F,然而,3DOF音频渲染器914是6DOF音频渲染器22C的一部分,而不是单独的设备。在一些示例中,音频对象渲染器912、3DOF音频渲染器914和6DOF音频渲染器22C中的每一个可以输出环绕声。在图6E的示例中,内插设备30B可以对来自音频对象渲染器912、3DOF音频渲染器914或6DOF音频渲染器22B中的两个或更多个的环绕声系数进行内插,或对来自音频对象渲染器912、3DOF音频渲染器914和/或6DOF音频渲染器22B的双耳化音频进行内插。在图6E的示例中,内插设备30B还包括控制器918,该控制器918可以控制内插设备30B的功能。尽管被示为内插设备30B的一部分,但在一些示例中,控制器918可以位于音频回放系统16G中的其他地方。在一些示例中,可以在一个或多个处理器中实现低延迟解码器900A、音频解码器900B、本地音频缓冲器902、缓冲器910、音频对象渲染器912、6DOF音频渲染器22C和内插设备30B中的任一个。
图6F是图1A和图1B的示例中示出的音频回放系统在执行本公开中描述的技术的各种方面时的框图。图6F的示例音频回放系统16H类似于图6A的音频回放系统16C,然而,音频解码器900C包括音频对象渲染器912、高阶环绕声(HOA)渲染器922和双耳化器916,并且内插设备30C是单独的设备,并且包括控制器918和6DOF音频渲染器22A。如本文所指代的,HOA可以包括大于1阶的环绕声。在图6F的示例中,内插设备30C可以对来自缓冲器910中的两个或更多个源的环绕声系数进行内插,或者对来自双耳化器916的双耳化音频进行内插。在图6F的示例中,内插设备30C还包括控制器918,该控制器918可以控制内插设备30C的功能。尽管被示为内插设备30C的一部分,但在一些示例中,控制器918可以位于音频回放系统16H中的其他地方。虽然音频回放系统的若干示例已经在图6A-图6F中阐述,但包括图6A-图6F的各种元件的其他组合的其他示例可以落入本公开的范围内。在一些示例中,可以在一个或多个处理器中实现低延迟解码器900A、音频解码器900C、本地音频缓冲器902、缓冲器910和内插设备30B中的任一个。
图6G是图1A和图1B的示例中示出的音频回放系统在执行本公开中描述的技术的各种方面时的框图。图6G的示例音频回放系统16I类似于图6F的音频回放系统16H,然而,音频解码器900D包括FOA/MOA渲染器924。FOA/MOA渲染器924可以是FOA渲染器和/或MOA渲染器。在图6G的示例中,内插设备30C可以对来自缓冲器910中的两个或更多个源的环绕声系数(例如,来自HOA渲染器922的4阶环绕声信号和来自FOA/MOA渲染器924的1阶环绕声信号)进行内插,或者对来自双耳化器916的双耳化音频进行内插。在图6G的示例中,内插设备30C还包括控制器918,该控制器918可以控制内插设备30C的功能。尽管被示为内插设备30C的一部分,但在一些示例中,控制器918可以位于音频回放系统16I中的其他地方。虽然音频回放系统的若干示例已经在图6A-图6G中阐述,但包括图6A-图6G的各种元件的其他组合或缺少图6A-图6G的各种元件的其他示例可以落入本公开的范围内。在一些示例中,可以在一个或多个处理器中实现低延迟解码器900A、音频解码器900C、本地音频缓冲器902、缓冲器910和内插设备30B中的任一个。
HOA信号目前在6DOF场景中用于环境声源的回放。声源的起源划定HOA信号的空间范围(本文也称为边界或范围)。当收听者移动到空间范围之外时,旧有的HOA渲染不再有效。
本公开描述了在空间范围内部的HOA渲染与范围外部的基于对象的渲染之间的过渡。在EIF(N19211,MPEG-I 6DoF音频编码器输入格式,在线,2020(下文称为N19211))中,HOA源使用具有定向和位置两者的高阶环绕声信号来声明声音发射源。大多数(如果不是全部)HOA渲染器不使用HOA源的位置进行渲染。因此,在EIF中不清楚如何定义HOA源从而以这样的3DoF方式渲染HOA信号。此外,可能期望在范围内以3DoF渲染HOA信号,而在范围外部以6DoF渲染HOA信号。为了实现这种情况并澄清旧有的HOA渲染,可以将新属性引入HOA源定义以用作指示要渲染的音频信号的复杂度的标志,例如,HOA信号的3DoF或6DoF渲染的指示。
如表1所示,可以引入属性is6DoF以指示音频回放系统(例如,图6C的音频回放系统16E)在HOA信号的3DoF与6DoF渲染之间切换。在该示例中,默认值为“假”,这意味着音频回放系统16E应该使用传统的3DoF HOA渲染(如在MPEG-H解码器中)来渲染HOA信号,其中仅使用收听者的定向,而位置被忽视。例如,音频回放系统16E可以从表示音频数据的比特流(例如,比特流27)获得当前渲染器的复杂度的指示(例如,is6DoF)。音频回放系统16E可以基于边界、收听者位置和复杂度的指示来获得当前渲染器。在其中复杂度的指示为假的示例中,音频回放系统16E可以在边界(本文也称为范围)内部渲染HOA信号,并且渲染器可以自由选择如何在范围外部渲染信号。
当is6DoF被设置为“真”时,音频回放系统16E可以在该范围内以6DoF渲染HOA信号。如果没有定义范围,则音频回放系统16E可以在场景中的任何地方以6DoF渲染HOA信号。将is6DoF设置为“真”还会启用group和refDistance属性,否则将忽视这些属性。
extentTransform和transitionDistance属性依赖于HOA源的范围。为了清楚起见,下面在表1中的这些属性描述中添加了表示依赖关系的文本。表2提供了具有is6DoF和范围属性的不同组合的行为的总结。表3提供了具有范围和范围属性的不同组合的行为的总结。例如,音频回放系统16A可以基于表1-3中所阐述的行为来渲染音频信号。
在N19211中对HOASource定义表的添加显示在<ADD>与</ADD>之间。应该注意的是,在表1中对图的引用是对N19211中的图的引用,而不是对本公开的附图的引用。
Figure BDA0004140941400000171
Figure BDA0004140941400000181
表1
Figure BDA0004140941400000182
表2
Figure BDA0004140941400000183
表3
Figure BDA0004140941400000184
Figure BDA0004140941400000185
Figure BDA0004140941400000191
如果HOA信号是要用作跟随收听者的背景音乐的音乐内容,那么cspace将被设置为“用户”。
在这种情况下,HOA源的定向总是与收听者对齐。
Figure BDA0004140941400000192
下面是具有范围的3DOF HOA的示例。在该示例中,收听者可以探索鸟舍的内部和外部。HOASource包括具有鸟声音的HOA信号和与鸟舍几何形状相同的范围。当收听者在鸟舍内部时,HOASource将被渲染为旧有的3DoF HOA信号。当收听者行进2米的transitionDistance超出范围时,将由渲染器从3DoF过渡到未指定的渲染。当收听者在鸟舍外部(范围外部)时,预期收听者听到的鸟声音如同源自鸟舍内部。
Figure BDA0004140941400000193
通过向HOASource添加is6DoF属性,HOA内容可以明确地被指定为作为旧有的3DoFHOA源或6DoF源被渲染。所提供的示例还示出了如何在有范围和没有范围的情况下渲染3DoF HOA。
为了关于其余图进行讨论,源设备12A(图1A-图1B)或12B(图5A-图5B)中的任一个可以被称为源设备12,内容消费者设备14A(图1A和图5A)或14B(图1B和图5B)中的任一个可以被称为内容消费者设备14,并且音频回放系统16A(图1A和图5A)、16B(图1B和图5B)、16C(图6A)、16D(图6B)、16E(图6C)、16F(图6D)、16G(图6E)或16H(图6F)中的任一个可以被称为音频回放系统16。
图7是示出根据本公开中描述的技术的各种方面的用于扩展现实(XR)场景的渲染的示例的图。在这个示例中,内部区域706表示鸟舍。例如,HOA内容可以由鸟舍中的人例如在内部区域706内使用可穿戴设备(或其他源设备,例如,源设备12)上的麦克风来记录。在鸟舍内部可能存在鸟704A-704C,人们听到它们如同来自周围。例如,另一人(“收听者”)希望收听鸟舍中的人捕获的内容。收听者702可以接收HOA流并具有可穿戴设备,该可穿戴设备具有3DoF HOA渲染器,例如,音频回放系统16。在该示例中,当收听者702在定义内部区域706(本文也称为空间范围或范围)的边界内部时,收听者702听到3DoF HOA渲染。在这种情况下,空间范围可以由球体定义,但空间范围可以是任何三维形状。
图8是示出根据本公开中描述的技术的各种方面的用于扩展现实(XR)场景的渲染的另一示例的图。如果定义了过渡距离710,则存在包围空间范围或内部区域706的包络球体712(或其他三维形状)。当收听者702在由内部区域706(例如,空间范围)的边界和过渡距离710定义的转换区内时,音频回放系统(例如,音频回放系统16)可以在内部渲染器(例如,3DOoF音频渲染器914或6DoF音频渲染器22A)与外部渲染器(例如,基于对象的音频渲染器912)之间进行内插或交叉衰落,或者可以在不同阶的环绕声之间进行内插或交叉衰落(例如,使用HOA渲染器922),如上面关于图3所讨论的。在一些示例中,过渡距离710可以是可配置的阈值,或者可以被定义为相对于外部区域716或内部区域706的小值,例如,到内部区域706的中心的距离的百分比的20%。
图9是示出根据本公开中描述的技术的各种方面的用于扩展现实(XR)场景的渲染的另一示例的图。在一些示例中,对于当收听者702在空间范围(例如,内部区域706)外部时可能发生的HOA信号的基于对象的渲染,可以有两个选项。在一个选项中,音频回放系统16可以采用HOA信号的第一HOA通道,并将其用作用于经由音频对象渲染器912的对象渲染的音频。在HOA信号包括定义的位置的情况下,音频回放系统16可以使用该特定位置作为音频对象的位置,例如,位置714处的鸟。在HOA信号不包括定义的位置的情况下,音频回放系统16可以计算空间范围(例如,内部区域706)的几何中心,并使用该几何中心作为音频对象的位置。
图10是示出根据本公开中描述的技术的各种方面的用于扩展现实(XR)场景的渲染的另一示例的图。在该示例中,音频回放系统16可以将HOA信号渲染到虚拟扬声器720A-720I中,该虚拟扬声器720A-720I可以位于球体(或由空间范围(例如,内部区域706)表示的其他三维形状)周围的点处。音频回放系统16可以使用这些虚拟扬声器720A-720I作为音频对象渲染器912可以渲染的多个对象。在一些示例中,对虚拟扬声器的HOA渲染可以例如由源设备12进行预渲染和编码,以促进对象渲染。例如,如果收听者702在范围外部,则可以仅传输虚拟扬声器。当收听者在范围外部时,这可能会减少对麻烦的HOA渲染和对象渲染的需要。
图11是根据本公开的示例渲染技术的流程图。音频回放系统16可以获取收听者位置(720)。例如,音频回放系统16可以例如通过跟踪设备306来接收收听者位置17。音频回放系统16可以确定收听者位置17是否在范围(例如,内部区域706(722))内。如果收听者位置17在范围内部(来自框722的“是”路径),则音频回放系统16可以以3DoF或6DoF(例如,通过3DoF渲染器914或6DoF渲染器22A(724))来渲染HOA。在一些示例中,音频回放系统16是以3DoF还是6DoF渲染可以基于渲染的复杂度的指示,例如,6DoF标志。
如果收听者位置17不在范围内部(来自框722的“否”路径),则音频回放系统16可以确定是否启用范围变换(726)。例如,音频回放系统16可以解析比特流27中的标志以确定是否启用了范围变换。如果未启用范围变换(来自框726的“否”路径),则音频回放系统16可以停止渲染(728)。例如,音频回放系统16可能根本没有获得任何渲染器作为外部渲染器。如果启用了范围变换(来自框726的“是”路径),则音频回放系统16可以确定过渡距离是否大于零(730)。例如,音频回放系统16可以确定比特流27中的过渡距离的值。如果过渡距离大于零(来自框730的“是”路径),则音频回放系统16可以可选地对内部渲染器和外部渲染器进行交叉衰落(如果收听者位置17在距范围的过渡距离内)(732)。由于交叉衰落是可选的,因此该框以虚线示出。例如,音频回放系统16可以例如通过图9或图10的技术来渲染对象以及HOA,如在框724中,并且如在图3的示例中,对所渲染的信号进行内插或交叉衰落。在一些示例中,音频回放系统16可以渲染多个环绕声阶(例如,使用HOA渲染器724),并在不同环绕声阶之间进行内插或交叉衰落。例如,音频回放系统16的更新后的当前渲染器可以在外部渲染器和内部渲染器的不同环绕声阶之间进行交叉衰落。在一些示例中,当收听者位置从内部区域通过过渡区域朝向外部区域移动时,更新后的当前渲染器从较高的环绕声阶交叉衰落到较低的环绕声阶。如果过渡距离为零(来自框730的“否”路径)(或者如果收听者位置17在距范围的过渡距离外部),则音频回放系统16可以例如通过图9或图10所示的技术来渲染对象(734)。
图12示出了根据本公开的方面的支持音频流式传输的无线通信系统100的示例。无线通信系统100包括基站105、UE 115和核心网络130。在一些示例中,无线通信系统100可以是长期演进(LTE)网络、高级LTE(LTE-A)网络、LTE-A Pro网络或新无线电(NR)网络。在一些情况下,无线通信系统100可以支持增强的宽带通信、超可靠(例如,关键任务)通信、低延时通信或与低成本和低复杂度设备的通信。
基站105可以经由一个或多个基站天线与UE 115无线通信。本文描述的基站105可以包括或可以由本领域技术人员称为收发机基站、无线电基站、接入点、无线电收发机、NodeB、eNodeB(eNB)、下一代NodeB或千兆NodeB(其中任一个可以被称为gNB)、家庭NodeB、家庭eNodeB或某种其他合适的术语。无线通信系统100可以包括不同类型的基站105(例如,宏基站或小型小区基站)。本文描述的UE 115能够与各种类型的基站105和包括宏eNB、小型小区eNB、gNB、中继基站等的网络设备通信。
每个基站105可以与特定地理覆盖区域110相关联,在该特定地理覆盖区域110中支持与各种UE 115的通信。每个基站105可以经由通信链路125针对相应的地理覆盖区域110提供通信覆盖,并且在基站105与UE 115之间的通信链路125可以利用一个或多个载波。无线通信系统100中示出的通信链路125可以包括从UE 115到基站105的上行链路传输,或者从基站105到UE 115的下行链路传输。下行链路传输也可以称为前向链路传输,而上行链路传输也可以称为反向链路传输。
用于基站105的地理覆盖区域110可以被划分为构成地理覆盖区域110的一部分的扇区,并且每个扇区可以与小区相关联。例如,每个基站105可以为宏小区、小型小区、热点或其他类型的小区或其各种组合提供通信覆盖。在一些示例中,基站105可以是可移动的,并因此为移动的地理覆盖区域110提供通信覆盖。在一些示例中,与不同技术相关联的不同地理覆盖区域110可以重叠,并且与不同技术相关联的重叠的地理覆盖区域110可以由相同的基站105或由不同的基站105支持。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-APro或NR网络,其中不同类型的基站105为各种地理覆盖区域110提供覆盖。
UE 115可以分散在整个无线通信系统100中,并且每个UE 115可以是固定的或移动的。UE 115还可以被称为移动设备、无线设备、远程设备、手持设备或订户设备或某种其他合适的术语,其中“设备”还可以被称为单元、站、终端或客户端。UE 115还可以是个人电子设备,例如,蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开的示例中,UE 115可以是本公开中描述的音频源中的任一个,包括VR耳机、XR耳机、AR耳机、车辆、智能电话、麦克风、麦克风阵列或包括麦克风或能够传输捕获的和/或合成的音频流的任何其他设备。在一些示例中,合成的音频流可以是存储在存储器中或先前创建或合成的音频流。在一些示例中,UE 115还可以指代无线本地环路(WLL)站、物联网(IoT)设备、万物互联(IoE)设备或MTC设备等,其可以在诸如电器、车辆、仪表等之类的各种物品中实现。
诸如MTC或IoT设备之类的一些UE 115可以是低成本或低复杂度设备,并且可以提供机器之间的自动通信(例如,经由机器到机器(M2M)通信)。M2M通信或MTC可以指代允许设备在没有人为干预的情况下彼此通信或与基站105通信的数据通信技术。在一些示例中,M2M通信或MTC可以包括来自设备的通信,这些设备交换和/或使用指示隐私限制的音频元数据和/或基于密码的隐私数据以切换、屏蔽和/或空化(null)各种音频流和/或音频源,如下面将更详细描述的。
在一些情况下,UE 115还能够直接地与其他UE 115通信(例如,使用对等(P2P)或设备对设备(D2D)协议)。利用D2D通信的一组UE 115中的一个或多个UE可以在基站105的地理覆盖区域110内。这样的组中的其他UE 115可以在基站105的地理覆盖区域110外部,或者以其他方式无法接收来自基站105的传输。在一些情况下,经由D2D通信进行通信的UE 115的组可以利用一对多(1:M)系统,其中每个UE 115向组中的每一个其他UE 115进行传输。在一些情况下,基站105促进调度用于D2D通信的资源。在其他情况下,在不涉及基站105的情况下,在UE 115之间进行D2D通信。
基站105可以与核心网络130通信并且彼此通信。例如,基站105可以通过回程链路132(例如,经由S1、N2、N3或其他接口)与核心网络130接合。基站105可以通过回程链路134(例如,经由X2、Xn或其他接口)直接地(例如,在基站105之间直接地)或间接地(例如,经由核心网络130)彼此通信。
在一些情况下,无线通信系统100可以利用许可和非许可的无线电频谱带。例如,无线通信系统100可以在诸如5GHZ ISM频带之类的非许可频带中采用许可辅助接入(LAA)、LTE非许可(LTE-U)无线电接入技术或NR技术。当在非许可的无线电频谱带中操作时,诸如基站105和UE 115之类的无线设备可以采用先听后讲(LBT)过程以确保在传输数据之前频率信道是清晰的。在一些情况下,在非许可频带中的操作可以基于结合在许可频带(例如,LAA)中操作的分量载波的载波聚合配置。在非许可频谱中的操作可以包括下行链路传输、上行链路传输、对等传输或这些的组合。非许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或两者的组合。
图13是示出图1A中示出的源设备在执行本公开中描述的技术的各种方面时的示例操作的流程图。源设备12可以以上述方式获得表示基于场景的音频数据11的比特流21(800)。源设备12的声场表示生成器302可以在比特流21中指定将内部区域和外部区域分开的边界(802)。
如上面所指出的,声场表示生成器302还可以指定一个或多个指示31,其控制针对内部区域和外部区域的环绕声系数11的渲染(804)。声场表示生成器302可以输出比特流21以供递送(经由网络流式传输等的近实时地递送,或者如上面所指出的用于稍后的递送)(806)。
图14是示出图1A中示出的内容消费者设备在执行本公开中描述的技术的各种方面时的示例操作的流程图。音频回放系统16可以获得比特流21,并调用音频解码设备24来解压缩比特流以获得环绕声音频系数11’,以及从比特流21解析指示31。音频解码设备24可以将指示31连同边界的指示一起输出到渲染器生成单元32。音频回放系统16A还可以与跟踪设备306接合以获得收听者位置17,其中边界、收听者位置17和指示31被提供给渲染器生成单元32。
因此,渲染器生成单元32可以获得将内部区域和外部区域分开的边界的指示(1000)。渲染器生成单元32还可以获得指示内容消费者设备14相对于内部区域的虚拟位置的收听者位置17(1002)。
渲染器生成单元32然后可以基于边界和收听者位置17来获得当前渲染器,当将环绕声音频数据15渲染到一个或多个扬声器馈送25时,要使用该当前渲染器。当前渲染器可以被配置为针对内部区域渲染环绕声音频数据25(并由此作为内部渲染器操作),或者被配置为针对外部区域渲染音频数据(并由此作为外部渲染器操作)(1004)。渲染器生成单元32可以输出当前渲染器,其中音频回放系统16可以将当前渲染器应用于环绕声音频数据15以获得扬声器馈送25(1006)。
图15是示出根据本公开的各种方面的示例音频处理技术的流程图。音频回放系统16可以确定是否存在将内部区域和外部区域分开的边界(1100)。例如,音频回放系统16可以从比特流21获得将内部区域和外部区域分开的边界的指示。基于确定边界存在,音频回放系统16可以确定过渡距离值,该过渡距离值指示过渡区的大小(1102)。例如,音频回放系统16可以从比特流21获得过渡距离值的指示。
渲染器生成单元32可以获得收听者位置,该收听者位置指示设备(例如,内容消费者设备14)相对于内部区域的虚拟位置(1104)。例如,音频回放系统16可以与跟踪设备306接合以获得收听者位置17,并将收听者位置17提供给渲染器生成单元32。渲染器生成单元32可以至少部分地基于边界和收听者位置来获得当前渲染器(1106)。例如,渲染器生成单元可以至少部分地基于边界和收听者位置来生成当前渲染器。一个或多个音频渲染器22可以将当前渲染器应用于音频数据以获得一个或多个扬声器馈送25(1108)。例如,一个或多个音频渲染器22可以将当前渲染器应用于环绕声音频数据15以获得一个或多个扬声器馈送25。内容消费者设备14可以存储一个或多个扬声器馈送25(1110)。例如,内容消费者设备14可以将一个或多个扬声器馈送25存储在存储器中。
在一些示例中,过渡距离值为0,当前渲染器要么包括被配置为针对内部区域渲染音频数据的内部渲染器,要么包括被配置为针对外部区域渲染音频数据的外部渲染器,并且其中,当前渲染的获得进一步基于过渡距离值为0。
在一些示例中,过渡距离值大于0,当前渲染器要么包括被配置为针对内部区域渲染音频数据的内部渲染器,要么包括被配置为针对外部区域渲染音频数据的外部渲染器,要么包括内部渲染器和外部渲染器两者,并且其中,当前渲染器的获得进一步基于过渡距离大于0。
在这方面,本公开中描述的技术的各种方面可以实现以下条款。
条款1A.一种被配置为处理一个或多个音频流的设备,该设备包括:一个或多个处理器,其被配置为:获得将内部区域和外部区域分开的边界的指示;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界和收听者位置来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;将当前渲染器应用于音频数据以获得一个或多个扬声器馈送;以及存储器,其耦合到一个或多个处理器,并且被配置为存储一个或多个扬声器馈送。
条款2A.条款1A的设备,其中,一个或多个处理器被配置为:确定在收听者位置与内部区域的中心之间的第一距离;确定在边界与内部区域的中心之间的第二距离;以及基于第一距离和第二距离来获得当前渲染器。
条款3A.条款1A和2A的任何组合的设备,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场源自内部区域的中心。
条款4A.条款1A和2A的任何组合的设备,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,以及其中,内部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场在整个内部区域中出现。
条款5A.条款1A和2A的任何组合的设备,其中,音频数据包括表示主要音频源和次要音频源的环绕声音频数据,其中,一个或多个处理器还被配置为:获得次要音频源的不透明度的指示,并且其中,一个或多个处理器被配置为:基于收听者位置、边界和指示来获得当前渲染器。
条款6A.条款5A的设备,其中,一个或多个处理器被配置为:从表示音频数据的比特流中获得次要源的不透明度的指示。
条款7A.条款5A和6A的任何组合的设备,其中,一个或多个处理器还被配置为:当不透明度的指示被启用时,并且基于收听者位置和边界来获得当前渲染器,该当前渲染器排除将次要源添加到收听者位置指示为不直接在视线内的位置。
条款8A.条款5A-7A的任何组合的设备,其中,外部渲染器被配置为:渲染音频数据,使得由音频数据表示的声场取决于在收听者位置与边界之间的距离而向外展开。
条款9A.条款5A-8A的任何组合的设备,其中,一个或多个处理器还被配置为:响应于确定收听者位置在距边界的缓冲距离内而更新当前渲染器,以在外部渲染器与内部渲染器之间进行内插,以便获得更新后的当前渲染器;以及将当前渲染器应用于音频数据,以获得一个或多个更新后的扬声器馈送。
条款10A.条款9A的设备,其中,一个或多个处理器还被配置为:从表示音频数据的比特流中获得缓冲距离的指示。
条款11A.条款1A-10A的任何组合的设备,其中,一个或多个处理器还被配置为:从表示音频数据的比特流中获得当前渲染器的复杂度的指示,并且其中,一个或多个处理器被配置为:基于边界、收听者位置和复杂度的指示,来获得当前渲染器。
条款12A.条款11A的设备,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,并且其中,一个或多个处理器被配置为:当收听者位置在边界外部时,并且当复杂度的指示指示低复杂度时,获得外部渲染器,使得外部渲染器被配置为渲染环绕声音频数据,从而由环绕声音频数据表示的声场源自内部区域的中心。
条款13A.条款11A的设备,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,并且其中,一个或多个处理器被配置为:当收听者位置在边界外部时,并且当复杂度的指示指示低复杂度时,获得外部渲染器,使得外部渲染器被配置为渲染音频数据,从而由音频数据表示的声场取决于收听者位置与边界之间的距离而向外展开。
条款14A、一种用于处理一个或多个音频流的方法,该方法包括:通过一个或多个处理器,获得将内部区域和外部区域分开的边界的指示;通过一个或多个处理器,获得收听者位置,该收听者位置指示设备相对于内部区域的位置;通过一个或多个处理器,基于边界和收听者位置来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;以及通过一个或多个处理器,将当前渲染器应用于音频数据以获得一个或多个扬声器馈送。
条款15A.条款14A的方法,其中,获得当前渲染器包括:确定在收听者位置与内部区域的中心之间的第一距离;确定在边界与内部区域的中心之间的第二距离;以及基于第一距离和第二距离来获得当前渲染器。
条款16A.条款14A和15A的任何组合的方法,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场源自内部区域的中心。
条款17A.条款14A和15A的任何组合的方法,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,以及其中,内部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场在整个内部区域中出现。
条款18A.条款14A和15A的任何组合的方法,其中,音频数据包括表示主要音频源和次要音频源的环绕声音频数据,其中,该方法还包括:获得次要音频源的不透明度的指示,并且其中,获得当前渲染器包括:基于收听者位置、边界和指示来获得当前渲染器。
条款19A.条款18A的方法,其中,获得不透明度的指示包括:从表示音频数据的比特流中获得次要源的不透明度的指示。
条款20A.条款18A和19A的任何组合的方法,还包括:当不透明度的指示被启用时,并且基于收听者位置和边界来获得当前渲染器,该当前渲染器排除将次要源添加到收听者位置指示为不直接在视线内的位置。
条款21A.条款18A-20A的任何组合的方法,其中,外部渲染器被配置为:渲染音频数据,使得由音频数据表示的声场取决于在收听者位置与边界之间的距离而向外展开。
条款22A.条款18A-21A的任何组合的方法,还包括:响应于确定收听者位置在距边界的缓冲距离内而更新当前渲染器,以在外部渲染器与内部渲染器之间进行内插,以便获得更新后的当前渲染器;以及将当前渲染器应用于音频数据,以获得一个或多个更新后的扬声器馈送。
条款23A.条款22A的方法,还包括:从表示音频数据的比特流中获得缓冲距离的指示。
条款24A.条款14A-23A的任何组合的方法,还包括:从表示音频数据的比特流中获得当前渲染器的复杂度的指示,并且其中,获得当前渲染器包括:基于边界、收听者位置和复杂度的指示,来获得当前渲染器。
条款25A.条款24A的方法,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,并且其中,获得当前渲染器包括:当收听者位置在边界外部时,并且当复杂度的指示指示低复杂度时,获得外部渲染器,使得外部渲染器被配置为渲染环绕声音频数据,从而由环绕声音频数据表示的声场源自内部区域的中心。
条款26A.条款24A的方法,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,并且其中,获得当前渲染器包括:当收听者位置在边界外部时,并且当复杂度的指示指示低复杂度时,获得外部渲染器,使得外部渲染器被配置为渲染音频数据,从而由音频数据表示的声场取决于收听者位置与边界之间的距离而向外展开。
条款27A、一种被配置为处理一个或多个音频流的设备,该设备包括:用于获得将内部区域和外部区域分开的边界的指示的单元;用于获得收听者位置的单元,该收听者位置指示设备相对于内部区域的位置;用于基于边界和收听者位置来获得当前渲染器的单元,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;以及用于将当前渲染器应用于音频数据以获得一个或多个扬声器馈送的单元。
条款28A.条款27A的设备,其中,用于获得当前渲染器的单元包括:用于确定在收听者位置与内部区域的中心之间的第一距离的单元;用于确定在边界与内部区域的中心之间的第二距离的单元;以及用于基于第一距离和第二距离来获得当前渲染器的单元。
条款29A.条款27A和28A的任何组合的设备,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场源自内部区域的中心。
条款30A.条款27A和28A的任何组合的设备,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,以及其中,内部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场在整个内部区域中出现。
条款31A.条款27A和28A的任何组合的设备,其中,音频数据包括表示主要音频源和次要音频源的环绕声音频数据,其中,该设备还包括:用于获得次要音频源的不透明度的指示的单元,并且其中,用于获得当前渲染器的单元包括:用于基于收听者位置、边界和指示来获得当前渲染器的单元。
条款32A.条款31A的设备,其中,用于获得不透明度的指示的单元包括:用于从表示音频数据的比特流中获得次要源的不透明度的指示的单元。
条款33A.条款31A和32A的任何组合的设备,还包括:用于当不透明度的指示被启用时,并且基于收听者位置和边界来获得当前渲染器的单元,该当前渲染器排除将次要源添加到收听者位置指示为不直接在视线内的位置。
条款34A.条款31A-33A的任何组合的设备,其中,外部渲染器被配置为:渲染音频数据,使得由音频数据表示的声场取决于在收听者位置与边界之间的距离而向外展开。
条款35A.条款31A-34A的任何组合的设备,还包括:用于响应于确定收听者位置在距边界的缓冲距离内而更新当前渲染器,以在外部渲染器与内部渲染器之间进行内插,以便获得更新后的当前渲染器的单元;以及用于将当前渲染器应用于音频数据,以获得一个或多个更新后的扬声器馈送的单元。
条款36A.条款35A的设备,还包括:用于从表示音频数据的比特流中获得缓冲距离的指示的单元。
条款37A.条款27A-36A的任何组合的设备,还包括:用于从表示音频数据的比特流中获得当前渲染器的复杂度的指示的单元,并且其中,用于获得当前渲染器的单元包括用于基于边界、收听者位置和复杂度的指示来获得当前渲染器的单元。
条款38A.条款37A的设备,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,并且其中,用于获得当前渲染器的单元包括:用于当收听者位置在边界外部时,并且当复杂度的指示指示低复杂度时,获得外部渲染器,使得外部渲染器被配置为渲染环绕声音频数据,从而由环绕声音频数据表示的声场源自内部区域的中心的单元。
条款39A.条款37A的设备,其中,音频数据包括与具有零阶的球面基函数相关联的环绕声音频数据,并且其中,用于获得当前渲染器的单元包括:用于当收听者位置在边界外部时,并且当复杂度的指示指示低复杂度时,获得外部渲染器,使得外部渲染器被配置为渲染音频数据,从而由音频数据表示的声场取决于收听者位置与边界之间的距离而向外展开的单元。
条款40A.一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器进行以下操作:获得将内部区域和外部区域分开的边界的指示;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界和收听者位置来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;以及将当前渲染器应用于音频数据以获得一个或多个扬声器馈送。
条款1B.一种被配置为生成表示音频数据的比特流的设备,该设备包括:存储器,其被配置为存储音频数据;以及一个或多个处理器,其耦合到存储器,并且被配置为:基于音频数据,获得表示音频数据的比特流;在比特流中指定将内部区域和外部区域分开的边界;在比特流中指定一个或多个指示,其控制针对内部区域或外部区域的音频数据的渲染;以及输出比特流。
条款2B.条款1B的设备,其中,一个或多个指示包括指示渲染的复杂度的指示。
条款3B.条款2B的设备,其中,指示复杂度的指示要么指示低复杂度要么指示高复杂度。
条款4B.条款1B-3B的任何组合的设备,其中,一个或多个指示包括指示用于渲染音频数据中存在的次要源的不透明度的指示。
条款5B.条款4B的设备,其中,指示不透明性的指示指示不透明度要么是不透明的要么是透明的。
条款6B.条款1B-5B的任何组合的设备,其中,一个或多个指示包括指示围绕内部区域的缓冲距离的指示,在该内部区域中,在内部渲染与外部渲染之间对渲染进行内插。
条款7B.条款1B-6B的任何组合的设备,其中,音频数据包括环绕声音频数据。
条款8B.一种用于生成表示音频数据的比特流的方法,该设备包括:基于音频数据,获得表示音频数据的比特流;在比特流中指定将内部区域和外部区域分开的边界;在比特流中指定一个或多个指示,其控制针对内部区域或外部区域的音频数据的渲染;以及输出比特流。
条款9B.条款8B的方法,其中,一个或多个指示包括指示渲染的复杂度的指示。
条款10B.条款9B的方法,其中,指示复杂度的指示要么指示低复杂度要么指示高复杂度。
条款11B.条款8B-10B的任何组合的方法,其中,一个或多个指示包括指示用于渲染音频数据中存在的次要源的不透明度的指示。
条款12B.条款11B的方法,其中,指示不透明性的指示指示不透明度要么是不透明的要么是透明的。
条款13B.条款8B-12B的任何组合的设备,其中,一个或多个指示包括指示围绕内部区域的缓冲距离的指示,在该内部区域中,在内部渲染与外部渲染之间对渲染进行内插。
条款14B.条款8B-13B的任何组合的方法,其中,音频数据包括环绕声音频数据。
条款15B.一种被配置为生成表示音频数据的比特流的设备,该设备包括:用于基于音频数据,获得表示音频数据的比特流的单元;用于在比特流中指定将内部区域和外部区域分开的边界的单元;用于在比特流中指定一个或多个指示的单元,该一个或多个指示控制针对内部区域或外部区域的音频数据的渲染;以及用于输出比特流的单元。
条款16B.条款15B的设备,其中,一个或多个指示包括指示渲染的复杂度的指示。
条款17B.条款16B的设备,其中,指示复杂度的指示要么指示低复杂度要么指示高复杂度。
条款18B.条款15B-17B的任何组合的设备,其中,一个或多个指示包括指示用于渲染音频数据中存在的次要源的不透明度的指示。
条款19B.条款18B的设备,其中,指示不透明性的指示指示不透明度要么是不透明的要么是透明的。
条款20B.条款15B-19B的任何组合的设备,其中,一个或多个指示包括指示围绕内部区域的缓冲距离的指示,在该内部区域中,在内部渲染与外部渲染之间对渲染进行内插。
条款21B.条款15B-20B的任何组合的设备,其中,音频数据包括环绕声音频数据。
条款22B.一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时,使得一个或多个处理器进行以下操作:基于音频数据,获得表示音频数据的比特流;在比特流中指定将内部区域和外部区域分开的边界;以及在比特流中指定一个或多个指示,其控制针对内部区域或外部区域的音频数据的渲染;以及输出比特流。
条款1C.一种被配置为处理一个或多个音频流的设备,该设备包括:一个或多个处理器,其被配置为:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值为0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值为0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;将当前渲染器应用于音频数据以获得一个或多个扬声器馈送;以及存储器,其耦合到一个或多个处理器,并且被配置为存储一个或多个扬声器馈送。
条款2C.条款1C的设备,其中,一个或多个处理器被配置为:确定在收听者位置与内部区域的中心之间的第一距离;确定在边界与内部区域的中心之间的第二距离;以及基于第一距离和第二距离来获得当前渲染器。
条款3C.条款1C或条款2C的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为渲染仅包括环绕声音频数据的第一通道的音频对象。
条款4C.条款1C或条款2C的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为将HOA渲染到多个虚拟扬声器。
条款5C.条款1C-4C的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,内部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场在整个内部区域中出现。
条款6C.条款1C-5C中任一项的设备,其中,音频数据包括表示主要音频源和次要音频源的环绕声音频数据,其中,一个或多个处理器还被配置为:获得次要音频源的不透明度的指示,以及其中,一个或多个处理器被配置为:基于收听者位置、边界和指示来获得当前渲染器。
条款7C.条款6C的设备,其中,一个或多个处理器被配置为:从表示音频数据的比特流中获得次要源的不透明度的指示。
条款8C.条款6C或条款7C的设备,其中,一个或多个处理器还被配置为:当不透明度的指示被启用时,并且基于收听者位置和边界来获得当前渲染器,该当前渲染器排除将次要源添加到收听者位置指示为不直接在视线内的位置。
条款9C.条款6C的设备,其中,外部渲染器被配置为:渲染音频数据,使得由音频数据表示的声场取决于在收听者位置与边界之间的距离而向外展开。
条款10C.条款1C-9C中任一项的设备,其中,一个或多个处理器还被配置为:从表示音频数据的比特流中获得过渡距离的指示。
条款11C.条款1C-10C中任一项的设备,其中,一个或多个处理器还被配置为:从表示音频数据的比特流中获得当前渲染器的复杂度的指示;以及其中,一个或多个处理器被配置为:基于边界、收听者位置和复杂度的指示,来获得当前渲染器。
条款12C.条款11C的设备,其中,复杂度的指示包括6DOF标志。
条款13C.条款12C的设备,其中,6DOF标志为假。
条款14C.条款13C的设备,其中,一个或多个处理器被配置为:至少部分地基于6DOF标志为假来获得内部渲染器作为3DOF渲染器。
条款15C.条款14C的设备,其中,一个或多个处理器还被配置为:确定范围变换,该范围变换指示设备是否渲染边界外部的音频源。
条款16C.条款15C的设备,其中,范围变换为真并且收听者位置在边界外部,其中,一个或多个处理器被配置为:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器。
条款17C.条款15C的设备,其中,范围变换为假并且收听者位置在边界外部,其中,一个或多个处理器被配置为:基于范围变换为假并且收听者位置在边界外部来获得外部渲染器作为当前渲染器,其中,外部渲染器是无渲染器。
条款18C.条款12C的设备,其中,6DOF标志为真。
条款19C.条款18C的设备,其中,一个或多个处理器被配置为:至少部分地基于6DOF标志为真来获得内部渲染器作为6DOF渲染器。
条款20C.条款19C的设备,其中,一个或多个处理器还被配置为:确定范围变换,该范围变换指示设备是否渲染边界外部的音频源。
条款21C.条款20C的设备,其中,范围变换为真并且收听者位置在边界外部,其中,一个或多个处理器被配置为:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器。
条款22C.条款20C的设备,其中,范围变换为假并且收听者位置在边界外部,其中,一个或多个处理器被配置为:基于范围变换为假并且收听者位置在边界外部来获得外部渲染器作为当前渲染器,其中,外部渲染器是无渲染器。
条款23C.一种被配置为处理一个或多个音频流的设备,该设备包括:一个或多个处理器,其被配置为:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值大于0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值大于0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器,要么作为内部渲染器和外部渲染器两者;将当前渲染器应用于音频数据以获得一个或多个扬声器馈送;以及存储器,其耦合到一个或多个处理器,并且被配置为存储一个或多个扬声器馈送。
条款24C.条款23C的设备,其中,一个或多个处理器被配置为:确定在收听者位置与内部区域的中心之间的第一距离;确定在边界与内部区域的中心之间的第二距离;以及基于第一距离和第二距离来获得当前渲染器。
条款25C.条款23C或条款24C的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为渲染仅包括环绕声音频数据的第一通道的音频对象。
条款26C.条款23C或条款24C的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为将HOA渲染到多个虚拟扬声器。
条款27C.条款23C-26C中任一项的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,内部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场在整个内部区域中出现。
条款28C.条款23C-27C中任一项的设备,其中,音频数据包括表示主要音频源和次要音频源的环绕声音频数据,其中,一个或多个处理器还被配置为:获得次要音频源的不透明度的指示,以及其中,一个或多个处理器被配置为:基于收听者位置、边界和指示来获得当前渲染器。
条款29C.条款28C的设备,其中,一个或多个处理器被配置为:从表示音频数据的比特流中获得次要源的不透明度的指示。
条款30C.条款28C或条款29C的设备,其中,一个或多个处理器还被配置为:当不透明度的指示被启用时,并且基于收听者位置和边界来获得当前渲染器,该当前渲染器排除将次要源添加到收听者位置指示为不直接在视线内的位置。
条款31C.条款28C的设备,其中,外部渲染器被配置为:渲染音频数据,使得由音频数据表示的声场取决于在收听者位置与边界之间的距离而向外展开。
条款32C.条款23C-31C中任一项的设备,其中,一个或多个处理器还被配置为:从表示音频数据的比特流中获得过渡距离的指示。
条款33C.条款32C的设备,其中,一个或多个处理器还被配置为:响应于确定收听者位置在距边界的过渡距离内而更新当前渲染器,以在外部渲染器与内部渲染器之间进行内插,以便获得更新后的当前渲染器;以及将当前渲染器应用于音频数据,以获得一个或多个更新后的扬声器馈送。
条款34C.条款23C-33C中任一项的设备,其中,一个或多个处理器还被配置为:从表示音频数据的比特流中获得当前渲染器的复杂度的指示;以及其中,一个或多个处理器被配置为:基于边界、收听者位置和复杂度的指示,来获得当前渲染器。
条款35C.条款34C的设备,其中,复杂度的指示包括6DOF标志。
条款36C.条款35C的设备,其中,6DOF标志为假。
条款37C.条款36C的设备,其中,一个或多个处理器被配置为:至少部分地基于6DOF标志为假来获得内部渲染器作为3DOF渲染器。
条款38C.条款37C的设备,其中,一个或多个处理器还被配置为:确定范围变换,该范围变换指示设备是否渲染边界外部的音频源。
条款39C.条款38C的设备,其中,范围变换为真并且收听者位置在边界外部,其中,一个或多个处理器被配置为:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器。
条款40C.条款38C的设备,其中,范围变换为假并且收听者位置在边界外部,其中,一个或多个处理器被配置为:基于范围变换为假并且收听者位置在边界外部来获得外部渲染器作为当前渲染器,其中,外部渲染器是无渲染器。
条款41C.条款35C的设备,其中,6DOF标志为真。
条款42C.条款41C的设备,其中,一个或多个处理器被配置为:至少部分地基于6DOF标志为真来获得内部渲染器作为6DOF渲染器。
条款43C.条款42C的设备,其中,一个或多个处理器还被配置为:确定范围变换,该范围变换指示设备是否渲染边界外部的音频源。
条款44C.条款43C的设备,其中,范围变换为真并且收听者位置在边界外部,其中,一个或多个处理器被配置为:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器。
条款45C.条款43C的设备,其中,范围变换为假并且收听者位置在边界外部,其中,一个或多个处理器被配置为:基于范围变换为假并且收听者位置在边界外部来获得外部渲染器作为当前渲染器,其中,外部渲染器是无渲染器。
条款46C、一种用于处理一个或多个音频流的方法,该方法包括:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值为0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值为0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;将当前渲染器应用于音频数据以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
条款47C.条款46C的方法,还包括:确定在收听者位置与内部区域的中心之间的第一距离;确定在边界与内部区域的中心之间的第二距离;以及基于第一距离和第二距离来获得当前渲染器。
条款48C.条款46C或条款47C的方法,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为渲染仅包括环绕声音频数据的第一通道的音频对象。
条款49C.条款46C或条款47C的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为将HOA渲染到多个虚拟扬声器。
条款50C.条款46C-49C中任一项的方法,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,内部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场在整个内部区域中出现。
条款51C.条款46C-50C中任一项的方法,其中,音频数据包括表示主要音频源和次要音频源的环绕声音频数据,还包括:获得次要音频源的不透明度的指示,以及其中,获得当前渲染器是基于收听者位置、边界和指示的。
条款52C.条款51C的方法,其中,不透明度的指示在比特流内。
条款53C.条款51C或条款52C的方法,还包括:当不透明度的指示被启用时,并且基于收听者位置和边界来获得当前渲染器,该当前渲染器排除将次要源添加到收听者位置指示为不直接在视线内的位置。
条款54C.条款51C的方法,其中,外部渲染器被配置为:渲染音频数据,使得由音频数据表示的声场取决于在收听者位置与边界之间的距离而向外展开。
条款55C.条款46C-51C中任一项的方法,还包括:从表示音频数据的比特流中获得过渡距离的指示。
条款56C.条款46C-52C中任一项的方法,还包括:从表示音频数据的比特流中获得当前渲染器的复杂度的指示;以及其中,获得当前渲染器是基于边界、收听者位置和复杂度的指示的。
条款57C.条款56C的方法,其中,复杂度指示包括6DOF标志。
条款58C.条款57C的方法,其中,6DOF标志为假。
条款59C.条款58C的方法,还包括:至少部分地基于6DOF标志为假来获得内部渲染器作为3DOF渲染器。
条款60C.条款59C的方法,还包括:确定范围变换,该范围变换指示设备是否渲染边界外部的音频源。
条款61C.条款60C的方法,其中,范围变换为真并且收听者位置在边界外部,还包括:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器。
条款62C.条款60C的方法,其中,范围变换为假并且收听者位置在边界外部,还包括:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器,其中,外部渲染器是无渲染器。
条款63C.条款57C的方法,其中,6DOF标志为真。
条款64C.条款63C的方法,还包括:至少部分地基于6DOF标志为真来获得内部渲染器作为6DOF渲染器。
条款65C.条款64C的方法,还包括:确定范围变换,该范围变换指示设备是否渲染边界外部的音频源。
条款66C.条款65C的方法,其中,范围变换为真并且收听者位置在边界外部,还包括:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器。
条款67C.条款65C的方法,其中,范围变换为假并且收听者位置在边界外部,还包括:基于范围变换为假并且收听者位置在边界外部来获得外部渲染器作为当前渲染器,其中,外部渲染器是无渲染器。
条款68C.一种用于处理一个或多个音频流的方法,该方法包括:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值大于0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值大于0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器,要么作为内部渲染器和外部渲染器两者;将当前渲染器应用于音频数据以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
条款69C.条款68C的方法,还包括:确定在收听者位置与内部区域的中心之间的第一距离;确定在边界与内部区域的中心之间的第二距离;以及基于第一距离和第二距离来获得当前渲染器。
条款70C.条款68C或条款69C的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为渲染仅包括环绕声音频数据的第一通道的音频对象。
条款71C.条款68C或条款69C的方法,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为将HOA渲染到多个虚拟扬声器。
条款72C.条款68C-71C中任一项的方法,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,内部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场在整个内部区域中出现。
条款73C.条款68C-72C中任一项的方法,其中,音频数据包括表示主要音频源和次要音频源的环绕声音频数据,还包括:获得次要音频源的不透明度的指示,以及其中,获得当前渲染器是基于收听者位置、边界和指示的。
条款74C.条款73C的方法,还包括:从表示音频数据的比特流中获得次要源的不透明度的指示。
条款75C.条款73C或条款74C的方法,还包括:当不透明度的指示被启用时,并且基于收听者位置和边界来获得当前渲染器,该当前渲染器排除将次要源添加到收听者位置指示为不直接在视线内的位置。
条款76C.条款73C的方法,其中,外部渲染器被配置为:渲染音频数据,使得由音频数据表示的声场取决于在收听者位置与边界之间的距离而向外展开。
条款77C.条款68C-76C中任一项的方法,还包括:从表示音频数据的比特流中获得过渡距离的指示。
条款78C.条款77C的方法,还包括:响应于确定收听者位置在距边界的过渡距离内而更新当前渲染器,以在外部渲染器与内部渲染器之间进行内插,以便获得更新后的当前渲染器;以及将当前渲染器应用于音频数据,以获得一个或多个更新后的扬声器馈送。
条款79C.条款68C-78C中任一项的方法,还包括:从表示音频数据的比特流中获得当前渲染器的复杂度的指示,并且基于边界、收听者位置和复杂度的指示,来获得当前渲染器。
条款80C.条款79C的方法,其中,复杂度的指示包括6DOF标志。
条款81C.条款80C的方法,其中,6DOF标志为假。
条款82C.条款81C的方法,还包括:至少部分地基于6DOF标志为假来获得内部渲染器作为3DOF渲染器。
条款83C.条款82C的方法,还包括:确定范围变换,该范围变换指示设备是否渲染边界外部的音频源。
条款84C.条款83C的方法,其中,范围变换为真并且收听者位置在边界外部,还包括:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器。
条款85C.条款83C的方法,其中,范围变换为假并且收听者位置在边界外部,还包括:基于范围变换为假并且收听者位置在边界外部来获得外部渲染器作为当前渲染器,其中,外部渲染器是无渲染器。
条款86C.条款80C的方法,其中,6DOF标志为真。
条款87C.条款86C的方法,还包括:至少部分地基于6DOF标志为真来获得内部渲染器作为6DOF渲染器。
条款88C.条款87C的方法,还包括:确定范围变换,该范围变换指示设备是否渲染边界外部的音频源。
条款89C.条款88C的方法,其中,范围变换为真并且收听者位置在边界外部,还包括:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器。
条款90C.条款88C的方法,其中,范围变换为假并且收听者位置在边界外部,还包括:基于范围变换为假并且收听者位置在边界外部来获得外部渲染器作为当前渲染器,其中,外部渲染器是无渲染器。
条款91C.一种在其上存储有指令的计算机可读存储介质,该指令在被执行时,使得一个或多个处理器进行以下操作:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值为0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值为0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;将当前渲染器应用于音频数据以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
条款92C.一种其上存储有指令的计算机可读存储介质,该指令在被执行时,使得一个或多个处理器进行以下操作:确定是否存在将内部区域和外部区域分开的边界;基于边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小,其中,该过渡距离值大于0;获得收听者位置,该收听者位置指示设备相对于内部区域的位置;基于边界、收听者位置和过渡距离值大于0来获得当前渲染器,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器,要么作为内部渲染器和外部渲染器两者;将当前渲染器应用于音频数据以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
条款93C.一种用于处理一个或多个音频流的设备,该设备包括:用于确定是否存在将内部区域和外部区域分开的边界的单元;用于基于边界存在来确定过渡距离值的单元,该过渡距离值指示过渡区的大小,其中,该过渡距离值为0;用于获得收听者位置的单元,该收听者位置指示设备相对于内部区域的位置;用于基于边界、收听者位置和过渡距离值为0来获得当前渲染器的单元,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器;用于将当前渲染器应用于音频数据以获得一个或多个扬声器馈送的单元;以及用于存储一个或多个扬声器馈送的单元。
条款94C.一种用于处理一个或多个音频流的设备,该设备包括:用于确定是否存在将内部区域和外部区域分开的边界的单元;用于基于边界存在来确定过渡距离值的单元,该过渡距离值指示过渡区的大小,其中,该过渡距离值大于0;用于获得收听者位置的单元,该收听者位置指示设备相对于内部区域的位置;用于基于边界、收听者位置和过渡距离值大于0来获得当前渲染器的单元,该当前渲染器要么作为被配置为针对内部区域渲染音频数据的内部渲染器,要么作为被配置为针对外部区域渲染音频数据的外部渲染器,要么作为内部渲染器和外部渲染器两者;用于将当前渲染器应用于音频数据以获得一个或多个扬声器馈送的单元;以及用于存储一个或多个扬声器馈送的单元。
条款1D.一种被配置为处理音频数据的设备,该设备包括:存储器,其被配置为存储一个或多个扬声器馈送;以及一个或多个处理器,其在电路系统中实现并且通信地耦合到存储器,该一个或多个处理器被配置为:确定是否存在将内部区域和外部区域分开的边界;基于确定边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小;获得收听者位置,该收听者位置指示设备相对于内部区域的虚拟位置;至少部分地基于边界和收听者位置来获得当前渲染器;以及将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送。
条款2D.条款1D的设备,其中,一个或多个处理器还被配置为:确定在收听者位置与内部区域的中心之间的第一距离;确定在边界与内部区域的中心之间的第二距离;以及基于第一距离和第二距离来获得当前渲染器。
条款3D.条款1D或条款2D的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为渲染仅包括环绕声音频数据的第一通道的音频对象。
条款4D.条款1D或条款2D的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,外部渲染器被配置为将HOA渲染到多个虚拟扬声器。
条款5D.条款1D-4D中任一项的设备,其中,音频数据包括与球面基函数相关联的环绕声音频数据,以及其中,内部渲染器被配置为渲染环绕声音频数据,使得由环绕声音频数据表示的声场在整个内部区域中出现。
条款6D.条款1D-5D中任一项的设备,其中,音频数据包括表示主要音频源和次要音频源的环绕声音频数据,其中,一个或多个处理器还被配置为:获得次要音频源的不透明度的指示,以及基于收听者位置、边界和指示来获得当前渲染器。
条款7D.条款6D的设备,其中,一个或多个处理器被配置为:从表示音频数据的比特流中获得次要源的不透明度的指示。
条款8D.条款6D或条款7D的设备,其中,一个或多个处理器还被配置为:当不透明度的指示被启用时,并且基于收听者位置和边界来获得当前渲染器,该当前渲染器排除将次要源添加到收听者位置指示为不直接在视线内的位置。
条款9D.条款6D的设备,其中,外部渲染器被配置为:渲染音频数据,使得由音频数据表示的声场取决于在收听者位置与边界之间的距离而向外展开。
条款10D.条款1D-9D中任一项的设备,其中,一个或多个处理器还被配置为:从表示音频数据的比特流中获得过渡距离值的指示。
条款11D.条款1D-10D中任一项的设备,其中,一个或多个处理器还被配置为:从表示音频数据的比特流中获得当前渲染器的复杂度的指示;以及基于边界、收听者位置和复杂度的指示,来获得当前渲染器。
条款12D.条款11D的设备,其中,复杂度的指示包括6DOF标志。
条款13D.条款12D的设备,其中,6DOF标志为假。
条款14D.条款13D的设备,其中,一个或多个处理器被配置为:至少部分地基于6DOF标志为假来获得内部渲染器作为3DOF渲染器。
条款15D.条款14D的设备,其中,一个或多个处理器还被配置为:确定范围变换,该范围变换指示设备是否渲染边界外部的音频源。
条款16D.条款15D的设备,其中,范围变换为真并且收听者位置在边界外部,其中,一个或多个处理器还被配置为:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器。
条款17D.条款15D的设备,其中,范围变换为假并且收听者位置在边界外部,其中,一个或多个处理器被配置为:基于范围变换为假并且收听者位置在边界外部来获得外部渲染器作为当前渲染器,其中,外部渲染器是无渲染器。
条款18D.条款12D的设备,其中,6DOF标志为真。
条款19D.条款18D的设备,其中,一个或多个处理器被配置为:至少部分地基于6DOF标志为真来获得内部渲染器作为6DOF渲染器。
条款20D.条款19D的设备,其中,一个或多个处理器还被配置为:确定范围变换,该范围变换指示设备是否渲染边界外部的音频源。
条款21D.条款20D的设备,其中,范围变换为真并且收听者位置在边界外部,其中,一个或多个处理器还被配置为:基于范围变换为真并且收听者位置在边界外部来获得外部渲染器作为当前渲染器。
条款22D.条款20D的设备,其中,范围变换为假并且收听者位置在边界外部,其中,一个或多个处理器被配置为:基于范围变换为假并且收听者位置在边界外部来获得外部渲染器作为当前渲染器,其中,外部渲染器是无渲染器。
条款23D.条款1D-22D中任一项的设备,其中,过渡距离值为0,其中,当前渲染器要么包括被配置为针对内部区域渲染音频数据的内部渲染器,要么包括被配置为针对外部区域渲染音频数据的外部渲染器,并且其中,一个或多个处理器被配置为:进一步基于过渡距离值为0来获得当前渲染器。
条款24D.条款1D-22D中任一项的设备,其中,过渡距离值大于0,其中,当前渲染器要么包括被配置为针对内部区域渲染音频数据的内部渲染器,要么包括被配置为针对外部区域渲染音频数据的外部渲染器,要么包括内部渲染器和外部渲染器两者,并且其中,一个或多个处理器被配置为:进一步基于过渡距离值大于0来获得当前渲染器。
条款25D.条款24D的设备,其中,一个或多个处理器还被配置为:响应于确定收听者位置在距边界的过渡距离值内,更新当前渲染器以在外部渲染器与内部渲染器之间进行内插,以便获得更新后的当前渲染器;以及将更新后的当前渲染器应用于音频数据,以获得一个或多个更新后的扬声器馈送。
条款26D.条款25D的设备,其中,更新后的当前渲染器在外部渲染器与内部渲染器之间进行交叉衰落。
条款27D.条款26D的设备,其中,更新后的当前渲染器在外部渲染器和内部渲染器的不同环绕声阶之间进行交叉衰落。
条款28D.条款27D的设备,其中,当收听者位置从内部区域通过过渡区朝向外部区域移动时,更新后的当前渲染器从较高的环绕声阶交叉衰落到较低的环绕声阶。
条款29D.一种用于处理音频数据的方法,该方法包括:确定是否存在将内部区域和外部区域分开的边界;基于确定边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小;获得收听者位置,该收听者位置指示设备相对于内部区域的虚拟位置;至少部分地基于边界和收听者位置来获得当前渲染器;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
条款30D.条款29D的方法,其中,过渡距离值为0,其中,当前渲染器要么包括被配置为针对内部区域渲染音频数据的内部渲染器,要么包括被配置为针对外部区域渲染音频数据的外部渲染器,并且其中,获得当前渲染器是进一步基于过渡距离值为0的。
条款31D.条款29D的方法,其中,过渡距离值大于0,其中,当前渲染器要么包括被配置为针对内部区域渲染音频数据的内部渲染器,要么包括被配置为针对外部区域渲染音频数据的外部渲染器,要么包括内部渲染器和外部渲染器两者,并且其中,获得当前渲染器是进一步基于过渡距离值大于0的。
条款32D.一种其上存储有指令的计算机可读存储介质,该指令在被执行时使一个或多个处理器进行以下操作:确定是否存在将内部区域和外部区域分开的边界;基于确定边界存在来确定过渡距离值,该过渡距离值指示过渡区的大小;获得收听者位置,该收听者位置指示设备相对于内部区域的虚拟位置;至少部分地基于边界和收听者位置来获得当前渲染器;将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及存储一个或多个扬声器馈送。
条款33D.一种被配置为处理一个或多个音频流的设备,该设备包括:用于确定是否存在将内部区域和外部区域分开的边界的单元;用于基于确定边界存在来确定过渡距离值的单元,该过渡距离值指示过渡区的大小;用于获得收听者位置的单元,该收听者位置指示设备相对于内部区域的虚拟位置;用于至少部分地基于边界和收听者位置来获得当前渲染器的单元;用于将当前渲染器应用于音频数据,以获得一个或多个扬声器馈送的单元;以及用于存储一个或多个扬声器馈送的单元。
应认识到,取决于示例,本文所描述的任何技术的某些动作或事件可以以不同的序列执行、可以被添加、合并或完全省略(例如,并非所有所描述的动作或事件对于实践技术都是必要的)。此外,在某些示例中,动作或事件可以被并发地执行(例如,通过多线程处理、中断处理或多个处理器)而不是顺序地执行。
在一些示例中,VR设备(或流式传输设备)可以使用耦合到VR/流式传输设备的存储器的网络接口向外部设备通信交换消息,其中交换消息与声场的多个可用表示相关联。在一些示例中,VR设备可以使用耦合到网络接口的天线接收无线信号,其包括与声场的多个可用表示相关联的数据分组、音频分组、视频分组或传输协议数据。在一些示例中,一个或多个麦克风阵列可以捕获声场。
在一些示例中,存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶环绕声表示、声场的混合阶环绕声表示、声场的基于对象的表示与声场的高阶环绕声表示的组合、声场的基于对象的表示与声场的混合阶环绕声表示的组合、或者声场的混合阶表示与声场的高阶环绕声表示的组合。
在一些示例中,声场的多个可用表示中的声场表示中的一个或多个可以包括至少一个高分辨率区域和至少一个较低分辨率区域,并且其中基于转向角的所选择的表示相对于至少一个高分辨率区域提供较大的空间精度,而相对于较低分辨率区域提供较小的空间精度。
在一个或多个示例中,所描述的功能可以硬件、软件、固件或其任何组合来实现。如果以软件实现,则功能可以存储在计算机可读介质上或作为一个或多个指令或代码在计算机可读介质上传输,并由基于硬件的处理单元执行。计算机可读介质可以包括:计算机可读存储介质,其对应于诸如数据存储介质之类的有形介质;或者通信介质,其包括例如根据通信协议促进将计算机程序从一个地方传送到另一个地方的任何介质。以这种方式,计算机可读介质通常可以对应于(1)非暂时性的有形的计算机可读存储介质,或(2)诸如信号或载波之类的通信介质。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器访问以取回指令、代码和/或数据结构以实现本公开中描述的技术的任何可用介质。计算机程序产品可以包括计算机可读介质。
通过示例而非限制的方式,这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储设备、闪速存储器或可以用于以指令或数据结构的形式存储所需的程序代码并且可以由计算机访问的任何其他介质。此外,任何连接都被恰当地称为计算机可读介质。例如,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或者诸如红外、无线电和微波之类的无线技术,从网站、服务器或其他远程源传输指令,则同轴电缆、光纤电缆、双绞线、DSL或者诸如红外、无线电和微波之类的无线技术包含于介质的定义中。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时性介质,而是针对非暂时性的有形存储介质。如本文所使用的,磁盘(disk)和光盘(disc)包括压缩光盘(CD)、激光光盘、光盘、数字通用光盘(DVD)、软盘和蓝光光盘,其中磁盘通常磁性地复制数据,而光盘则用激光来光学地复制数据。上述内容的组合也应当包括在计算机可读介质的范围之内。
指令可以由一个或多个处理器执行,该一个或多个处理器包括固定功能处理电路系统和/或可编程处理电路系统,例如,一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他等效的集成或离散逻辑电路系统。因此,本文使用的术语“处理器”可以指代前述结构中的任一个或适合于实现本文描述的技术的任何其他结构。此外,在一些方面,本文描述的功能可以被设置在被配置用于编码和解码的专用硬件和/或软件模块内,或并入组合编解码器中。此外,这些技术可以在一个或多个电路或逻辑元件中完全实现。
本公开的技术可以在包括无线手机、集成电路(IC)或一组IC(例如,芯片组)的各种设备或装置中实现。在本公开中描述了各种组件、模块或单元,以强调被配置为执行所公开的技术的设备的功能方面,但不一定要求由不同的硬件单元实现。而是,如上面所描述的,各种单元可以结合适当的软件和/或固件在编解码器硬件单元中组合或由包括如上面所描述的一个或多个处理器的互操作硬件单元的集合提供。
已经描述了各种示例。这些和其他示例在以下权利要求的范围内。

Claims (30)

1.一种被配置为处理音频数据的设备,所述设备包括:
存储器,其被配置为存储一个或多个扬声器馈送;以及
一个或多个处理器,其在电路系统中实现并且通信地耦合到所述存储器,所述一个或多个处理器被配置为:
确定是否存在将内部区域和外部区域分开的边界;
基于确定所述边界存在来确定过渡距离值,所述过渡距离值指示过渡区的大小;
获得收听者位置,所述收听者位置指示所述设备相对于所述内部区域的虚拟位置;
至少部分地基于所述边界和所述收听者位置来获得当前渲染器;以及
将所述当前渲染器应用于所述音频数据,以获得所述一个或多个扬声器馈送。
2.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为:
确定在所述收听者位置与所述内部区域的中心之间的第一距离;
确定在所述边界与所述内部区域的中心之间的第二距离;以及
基于所述第一距离和所述第二距离来获得所述当前渲染器。
3.根据权利要求1所述的设备,
其中,所述音频数据包括与球面基函数相关联的环绕声音频数据,以及
其中,外部渲染器被配置为渲染仅包括所述环绕声音频数据的第一通道的音频对象。
4.根据权利要求1所述的设备,
其中,所述音频数据包括与球面基函数相关联的环绕声音频数据,以及
其中,外部渲染器被配置为将HOA渲染到多个虚拟扬声器。
5.根据权利要求1所述的设备,
其中,所述音频数据包括与球面基函数相关联的环绕声音频数据,以及
其中,内部渲染器被配置为渲染所述环绕声音频数据,使得由所述环绕声音频数据表示的声场在整个内部区域中出现。
6.根据权利要求1所述的设备,
其中,所述音频数据包括表示主要音频源和次要音频源的环绕声音频数据,
其中,所述一个或多个处理器还被配置为:
获得所述次要音频源的不透明度的指示,以及
基于所述收听者位置、所述边界和所述指示来获得所述当前渲染器。
7.根据权利要求6所述的设备,其中,所述一个或多个处理器被配置为:从表示所述音频数据的比特流中获得所述次要源的不透明度的指示。
8.根据权利要求6所述的设备,其中,所述一个或多个处理器还被配置为:当所述不透明度的指示被启用时,并且基于所述收听者位置和所述边界来获得所述当前渲染器,所述当前渲染器排除将所述次要源添加到所述收听者位置指示为不直接在视线内的位置。
9.根据权利要求6所述的设备,其中,外部渲染器被配置为:渲染所述音频数据,使得由所述音频数据表示的声场取决于在所述收听者位置与所述边界之间的距离而向外展开。
10.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为:从表示所述音频数据的比特流中获得所述过渡距离值的指示。
11.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为:
从表示所述音频数据的比特流中获得所述当前渲染器的复杂度的指示;以及
基于所述边界、所述收听者位置和所述复杂度的指示,来获得所述当前渲染器。
12.根据权利要求11所述的设备,其中,所述复杂度的指示包括6DOF标志。
13.根据权利要求12所述的设备,其中,所述6DOF标志为假。
14.根据权利要求13所述的设备,其中,一个或多个处理器被配置为:至少部分地基于所述6DOF标志为假来获得内部渲染器作为3DOF渲染器。
15.根据权利要求14所述的设备,其中,所述一个或多个处理器还被配置为:确定范围变换,所述范围变换指示所述设备是否渲染所述边界外部的音频源。
16.根据权利要求15所述的设备,其中,所述范围变换为真并且所述收听者位置在所述边界外部,其中,所述一个或多个处理器还被配置为:基于所述范围变换为真并且所述收听者位置在所述边界外部来获得外部渲染器作为所述当前渲染器。
17.根据权利要求15所述的设备,其中,所述范围变换为假并且所述收听者位置在所述边界外部,其中,所述一个或多个处理器被配置为:基于所述范围变换为假并且所述收听者位置在所述边界外部来获得外部渲染器作为所述当前渲染器,其中,所述外部渲染器是无渲染器。
18.根据权利要求12所述的设备,其中,所述6DOF标志为真。
19.根据权利要求18所述的设备,其中,一个或多个处理器被配置为:至少部分地基于所述6DOF标志为真来获得内部渲染器作为6DOF渲染器。
20.根据权利要求19所述的设备,其中,所述一个或多个处理器还被配置为:确定范围变换,所述范围变换指示所述设备是否渲染所述边界外部的音频源。
21.根据权利要求20所述的设备,其中,所述范围变换为真并且所述收听者位置在所述边界外部,其中,所述一个或多个处理器还被配置为:基于所述范围变换为真并且所述收听者位置在所述边界外部来获得外部渲染器作为所述当前渲染器。
22.根据权利要求20所述的设备,其中,所述范围变换为假并且所述收听者位置在所述边界外部,其中,所述一个或多个处理器被配置为:基于所述范围变换为假并且所述收听者位置在所述边界外部来获得外部渲染器作为所述当前渲染器,其中,所述外部渲染器是无渲染器。
23.根据权利要求1所述的设备,其中,所述过渡距离值为0,其中,所述当前渲染器要么包括被配置为针对所述内部区域渲染音频数据的内部渲染器,要么包括被配置为针对所述外部区域渲染所述音频数据的外部渲染器,并且其中,所述一个或多个处理器被配置为:进一步基于所述过渡距离值为0来获得所述当前渲染器。
24.根据权利要求1所述的设备,其中,所述过渡距离值大于0,其中,所述当前渲染器要么包括被配置为针对所述内部区域渲染音频数据的内部渲染器,要么包括被配置为针对所述外部区域渲染所述音频数据的外部渲染器,要么包括所述内部渲染器和所述外部渲染器两者,并且其中,所述一个或多个处理器被配置为:进一步基于所述过渡距离值大于0来获得所述当前渲染器。
25.根据权利要求24所述的设备,其中,所述一个或多个处理器还被配置为:
响应于确定所述收听者位置在距所述边界的所述过渡距离值内,更新所述当前渲染器以在所述外部渲染器与所述内部渲染器之间进行内插,以便获得更新后的当前渲染器;以及
将所述更新后的当前渲染器应用于所述音频数据,以获得一个或多个更新后的扬声器馈送。
26.根据权利要求25所述的设备,其中,所述更新后的当前渲染器在所述外部渲染器与所述内部渲染器之间进行交叉衰落。
27.根据权利要求26所述的设备,其中,所述更新后的当前渲染器在所述外部渲染器和所述内部渲染器的不同环绕声阶之间进行交叉衰落。
28.根据权利要求27所述的设备,其中,当所述收听者位置从所述内部区域通过所述过渡区朝向所述外部区域移动时,所述更新后的当前渲染器从较高的环绕声阶交叉衰落到较低的环绕声阶。
29.一种用于处理音频数据的方法,所述方法包括:
确定是否存在将内部区域和外部区域分开的边界;
基于确定所述边界存在来确定过渡距离值,所述过渡距离值指示过渡区的大小;
获得收听者位置,所述收听者位置指示设备相对于所述内部区域的虚拟位置;
至少部分地基于所述边界和所述收听者位置来获得当前渲染器;
将所述当前渲染器应用于所述音频数据,以获得一个或多个扬声器馈送;以及
存储所述一个或多个扬声器馈送。
30.一种其上存储有指令的计算机可读存储介质,所述指令在被执行时使一个或多个处理器进行以下操作:
确定是否存在将内部区域和外部区域分开的边界;
基于确定所述边界存在来确定过渡距离值,所述过渡距离值指示过渡区的大小;
获得收听者位置,所述收听者位置指示设备相对于所述内部区域的虚拟位置;
至少部分地基于所述边界和所述收听者位置来获得当前渲染器;
将所述当前渲染器应用于音频数据,以获得一个或多个扬声器馈送;以及
存储所述一个或多个扬声器馈送。
CN202180065179.7A 2020-09-30 2021-09-09 控制音频数据的渲染 Pending CN116195276A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063085437P 2020-09-30 2020-09-30
US63/085,437 2020-09-30
US17/469,421 US11750998B2 (en) 2020-09-30 2021-09-08 Controlling rendering of audio data
US17/469,421 2021-09-08
PCT/US2021/049661 WO2022072131A1 (en) 2020-09-30 2021-09-09 Controlling rendering of audio data

Publications (1)

Publication Number Publication Date
CN116195276A true CN116195276A (zh) 2023-05-30

Family

ID=80822046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180065179.7A Pending CN116195276A (zh) 2020-09-30 2021-09-09 控制音频数据的渲染

Country Status (4)

Country Link
US (1) US11750998B2 (zh)
EP (1) EP4222985A1 (zh)
CN (1) CN116195276A (zh)
WO (1) WO2022072131A1 (zh)

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8964994B2 (en) 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
EP2866217A1 (en) 2013-10-25 2015-04-29 GN Store Nord A/S An audio information system based on zones and contexts
US20170188170A1 (en) 2015-12-29 2017-06-29 Koninklijke Kpn N.V. Automated Audio Roaming
WO2018045112A1 (en) 2016-09-01 2018-03-08 Harman International Industries, Incorporated Dynamic augmentation of real-world sounds into a virtual reality sound mix
WO2018053050A1 (en) * 2016-09-13 2018-03-22 VisiSonics Corporation Audio signal processor and generator
US10659906B2 (en) 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
US10264380B2 (en) 2017-05-09 2019-04-16 Microsoft Technology Licensing, Llc Spatial audio for three-dimensional data sets
EP3410747B1 (en) 2017-06-02 2023-12-27 Nokia Technologies Oy Switching rendering mode based on location data
US10405126B2 (en) 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
EP3673240A1 (en) 2017-09-27 2020-07-01 Apple Inc. Spatial audio navigation
EP3495921A1 (en) 2017-12-11 2019-06-12 Nokia Technologies Oy An apparatus and associated methods for presentation of first and second virtual-or-augmented reality content
CN114125691A (zh) 2017-12-18 2022-03-01 杜比国际公司 用于在虚拟现实环境中呈现音频信号的方法和系统
EP3506082B1 (en) 2017-12-27 2022-12-28 Nokia Technologies Oy Audio rendering for augmented reality
KR102580673B1 (ko) 2018-04-09 2023-09-21 돌비 인터네셔널 에이비 Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템
JP7093841B2 (ja) 2018-04-11 2022-06-30 ドルビー・インターナショナル・アーベー 6dofオーディオ・レンダリングのための方法、装置およびシステムならびに6dofオーディオ・レンダリングのためのデータ表現およびビットストリーム構造
WO2020144061A1 (en) * 2019-01-08 2020-07-16 Telefonaktiebolaget Lm Ericsson (Publ) Spatially-bounded audio elements with interior and exterior representations
US11580213B2 (en) 2019-07-03 2023-02-14 Qualcomm Incorporated Password-based authorization for audio rendering
US11140503B2 (en) 2019-07-03 2021-10-05 Qualcomm Incorporated Timer-based access for audio streaming and rendering
US11356793B2 (en) 2019-10-01 2022-06-07 Qualcomm Incorporated Controlling rendering of audio data
US11317236B2 (en) 2019-11-22 2022-04-26 Qualcomm Incorporated Soundfield adaptation for virtual reality audio

Also Published As

Publication number Publication date
EP4222985A1 (en) 2023-08-09
WO2022072131A1 (en) 2022-04-07
US20220103962A1 (en) 2022-03-31
US11750998B2 (en) 2023-09-05

Similar Documents

Publication Publication Date Title
CN112771894B (zh) 针对计算机介导现实系统进行渲染时表示遮挡
US11356793B2 (en) Controlling rendering of audio data
TWI838554B (zh) 具有用於控制擴展實境體驗之音訊呈現之使用者介面之裝置及非暫時性電腦可讀儲存媒體及其方法
US11429340B2 (en) Audio capture and rendering for extended reality experiences
US11140503B2 (en) Timer-based access for audio streaming and rendering
EP4062404B1 (en) Priority-based soundfield coding for virtual reality audio
US11354085B2 (en) Privacy zoning and authorization for audio rendering
US20210006976A1 (en) Privacy restrictions for audio rendering
US11743670B2 (en) Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
WO2021003397A1 (en) Password-based authorization for audio rendering
WO2024081530A1 (en) Scaling audio sources in extended reality systems
US11750998B2 (en) Controlling rendering of audio data
US11601776B2 (en) Smart hybrid rendering for augmented reality/virtual reality audio

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination