CN110832883B9 - 以计算机为中介的现实系统的混阶立体混响(moa)音频数据 - Google Patents

以计算机为中介的现实系统的混阶立体混响(moa)音频数据 Download PDF

Info

Publication number
CN110832883B9
CN110832883B9 CN201880042853.8A CN201880042853A CN110832883B9 CN 110832883 B9 CN110832883 B9 CN 110832883B9 CN 201880042853 A CN201880042853 A CN 201880042853A CN 110832883 B9 CN110832883 B9 CN 110832883B9
Authority
CN
China
Prior art keywords
soundfield
representation
representations
steering angle
sound field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880042853.8A
Other languages
English (en)
Other versions
CN110832883A (zh
CN110832883B (zh
Inventor
尼尔斯·京特·彼得斯
迪帕简·森
托马斯·斯托克哈默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority to CN202110211833.2A priority Critical patent/CN112954510A/zh
Publication of CN110832883A publication Critical patent/CN110832883A/zh
Application granted granted Critical
Publication of CN110832883B publication Critical patent/CN110832883B/zh
Publication of CN110832883B9 publication Critical patent/CN110832883B9/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Otolaryngology (AREA)
  • Optics & Photonics (AREA)
  • Stereophonic System (AREA)

Abstract

实例装置包含存储器装置,以及耦合到所述存储器装置的处理器。所述存储器被配置成存储声场的多个表示。所述处理器被配置成跟踪由与所述装置相关联的一或多个角度提供的导引角度,以及基于所述导引角度,从存储到所述存储器装置的所述多个表示中选择所述声场的表示。

Description

以计算机为中介的现实系统的混阶立体混响(MOA)音频数据
本申请案主张2017年6月30日申请的美国临时申请案第62/527,769号的权益,所 述申请案的全部内容在此以引用的方式并入本文中。
技术领域
本公开涉及例如音频数据等媒体数据的处理。
背景技术
高阶立体混响(HOA)信号(常常由多个球面谐波系数(SHC)或其它分层元素表示)是 声场的三维表示。所述HOA或SHC表示可以与用以播放从SHC信号呈现的多通道音 频信号的局部扬声器几何布置无关的方式来表示声场。SHC信号还可有助于向后兼容 性,这是因为SHC信号可呈现为众所周知的且被高度采用的多通道格式(例如,5.1音频 通道格式或7.1音频通道格式)。因此,SHC表示可实现也适应向后兼容性的对声场的更 好表示。
发明内容
本公开大体上涉及以计算机为中介的现实系统的用户体验的听觉方面,所述以计算 机为中介的现实系统包含虚拟现实(VR)、混合现实(MR)、扩增现实(AR)、计算机视觉和 图形系统。在一些特定实例中,本公开的各方面是针对伴随以计算机为中介的现实系统 的以计算机为中介的感测输入数据的对应视频内容的音频内容的选择、流式传输和重 放。
在一个实例中,一种装置包含被配置成存储声场的多个表示的存储器装置。在此实 例中,所述装置还包含耦合到所述存储器装置的处理器。所述处理器被配置成跟踪由与 所述装置相关联的一或多个角度提供的导引角度,以及基于所述导引角度,从存储到所 述存储器装置的所述多个表示中选择所述声场的表示。
在另一实例中,一种方法包含通过处理器跟踪由与装置相关联的一或多个角度提供 的导引角度。所述方法另外包含通过所述处理器并且基于所述导引角度,从存储到与所 述处理器耦合的存储器装置的声场的多个表示中选择声场的表示。
在另一实例中,一种设备包含用于存储声场的多个表示的装置;用于跟踪由与所述 设备相关联的一或多个角度提供的导引角度的装置;和用于基于所述导引角度,从所述 所存储的多个表示中选择所述声场的表示的装置。
在另一实例中,使用指令编码非暂时性计算机可读存储媒体,所述指令在被执行时 致使装置的处理器跟踪由与所述装置相关联的一或多个角度提供的导引角度;和基于所 述导引角度,从存储到所述非暂时性计算机可读存储媒体的声场的多个表示中选择声场 的表示。
在附图和以下描述中阐明本发明的一或多个实例的细节。其它特征、目标和优势将 从所述描述和图式以及从权利要求书中显而易见。
附图说明
图1是说明具有各种阶数和子阶数的球面谐波基底函数的图式。
图2是说明可执行本公开中描述的技术的各个方面的系统的图式。
图3是说明声场的混阶立体混响表示的不均匀空间分辨率分布的方面的图式。
图4A是说明声场的全三阶HOA表示与相同声场的混阶立体混响表示之间的差异的 图式,在所述混阶立体混响表示中,水平区与其余的区相比具有较高空间分辨率。
图4B是说明可如何根据声场的基于对象的表示在多通道音频数据的前景和背景中 呈现各个音频对象的图式。
图5是说明相同声场的各个混阶立体混响表示的空间分辨率与对应VR导引角度之 间的关系的图式,内容消费者装置14可将每一MOA表示与所述对应VR导引角度相关 联。
图6A和6B说明本公开的内容消费者装置可基于头戴装置的导引角度选择的相同声 场的不同混阶立体混响表示。
图7A和7B是说明流式传输服务器或虚拟现实(VR)装置可响应于从流式传输客户 端接收的请求而提供声场的特定混阶立体混响表示所依据的本公开的各方面的图式。
图8是说明可由图7的音频流选择器执行以便请求基于头戴装置的导引角度的特定 声场表示的流式传输的算法的图式。
图9A和9B是说明用以展现全景视频数据的显示器的模型表示的图式。
图10是说明柱面全景视频数据的实例的图式。
图11是说明划分成区的实例画布的图式。
图12是说明实例画布与对应立方体图视图之间的对应关系的图式。
图13是说明本公开的一或多个以计算机为中介的现实系统可使用的头戴装置的实 例的图式。
图14是说明可执行本公开中描述的技术的各个方面的系统的另一实例的图式。
图15是说明根据本公开的一或多个方面的以计算机为中介的现实装置可执行的实 例过程的流程图。
具体实施方式
一般来说,本公开是针对用于在以计算机为中介的现实系统的用户体验期间选择用 于重放的声场表示的技术。以计算机为中介的现实技术包含各种类型的内容产生和内容 消费系统,例如虚拟现实(VR)、混合现实(MR)、扩增现实(AR)、计算机视觉和图形系统。 虽然为易于论述借助于实例关于虚拟现实系统描述本公开的数个方面,但应了解,本公 开的技术还适用于其它类型的以计算机为中介的现实技术,例如混合现实、扩增现实、 计算机视觉和图形系统。
虚拟现实系统可利用用户的视场(FoV)信息编辑和输出为服务用户的FoV定制的球 面视频数据。球面视频数据是指例如针对虚拟现实应用或其中用户可移动其头部以看见 当将焦点指向画布的单个点处时无法看见的图像画布的不同部分的其它类似情境,部分 或完全环绕观看者的头部的视频数据。具体来说,可当观看者将视觉焦点指向例如部分 或完全包围观看者的头部的三维画布的大画布的特定部分时应用这些技术。可使用屏幕 的组合(例如,一组环绕用户的屏幕)或经由头戴式光学器件提供包围用户的头部的球面 视频数据。
可提供头戴式光学器件的硬件的实例包含VR头戴装置、MR头戴装置、AR头戴装 置和各种其它装置。可使用感测数据和/或测试数据确定用户的的FoV。作为感测数据的 一个实例,与VR头戴装置的定位相关联的一或多个角度形成头戴装置的“导引角度” 并且可指示用户的FoV。作为感测数据的另一实例,用户的注视角度(例如经由虹膜检测 感测到)可指示用户的FoV。
可使用一组特性编码和准备(例如,用于存储和/或发射)球面视频数据和对应音频数 据。关于球面视频数据,可使用例如画布的不同区的空间分辨率、3D画布的不同区的 位速率(可使用各个量化参数达成)等特性编码和准备所述数据。举例来说,可在3D画 布的处于用户的FoV中的一或多个表面处对球面视频数据进行升取样,以增强用户体验 的视觉方面。
然而,现有VR系统不会为了符合用户的FoV而编码对应声场的不同表示。举例来 说,多个“目前最先进的水平”VR系统在整个VR体验中呈现和重放3D声场的全HOA 表示。因而,现有VR系统在整个VR体验中提供全定向3D音频。因此,虽然现有VR 系统在VR用户体验的整个持续时间内提供高质量定向音频重放,但现有VR系统在VR 体验的整个持续时间内可消耗较大计算资源来维持全定向3D音频馈给。此外,现有VR 系统不会在任何时间为了符合用户的FoV而定制音频重放。
本公开是针对用于基于用户的FoV选择声场表示的技术。本公开的系统可存储或以 其它方式存取相同声场的与当前VR体验相关联的多个表示。继而,本公开的系统可检 测用户的FoV并且选择特定声场表示,所述特定声场表示提供与处于用户的FoV中的 视频对象相关联的音频对象的全定向音频数据,并且提供与在用户的FoV外部的视频对 象相关联的音频对象的较低定向性音频数据。
本公开的技术可以结合与在重放媒体数据所在的不同区的各个质量水平下译码的 媒体数据(例如视频数据和音频数据)的传输(例如,发送和/或接收)有关的技术使用。举 例来说,包含全景显示器(例如,部分或完全包围观看者的显示器)和环绕声扬声器的客 户端装置可使用本公开的技术。一般来说,显示器经配置以使得用户的视觉焦点在给定 时间仅指向显示器的一部分。本公开的系统可经由环绕声扬声器呈现和输出音频数据, 使得与显示器上的焦点的当前区域相关联的音频对象与其余的音频对象相比以较大定 向性输出。
图1是说明从零阶(n=0)到四阶(n=4)的球面谐波基底函数的图式。如可见,对于每 一阶,存在子阶数m的扩展,出于易于说明的目的,在图1的实例中展示所述子阶数但 未明确注解。
Figure BDA0002337081490000041
可由各种麦克风阵列配置物理获取(例如,记录),或替代地,可从声场 的基于通道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音 频编码器以获得经编码SHC,所述经编码SHC可促进更高效的传输或存储。举例来说, 可使用涉及(1+4)2个(25,且因此为四阶)系数的四阶表示。
如上文所提到,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导 出SHC的各种实例描述于Poletti,M.的“基于球面谐波的三维环绕声系统 (Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学 协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004到1025页) 中。
为说明可如何从基于对象的描述导出SHC,考虑以下等式。对应于个别音频对象的 声场的系数
Figure BDA0002337081490000051
可表达为:
Figure BDA0002337081490000052
其中i是
Figure BDA0002337081490000053
Figure BDA0002337081490000054
是阶数n的(第二种)球面汉克尔函数,且
Figure BDA0002337081490000055
是对象的方 位。已知随频率而变的对象源能量g(ω)(例如,使用时间-频率分析技术,例如对PCM 流执行快速傅里叶变换)允许将每一PCM对象和对应方位转换成
Figure BDA0002337081490000056
另外,可 展示(由于以上是线性和正交分解)每一对象的
Figure BDA0002337081490000057
系数是可加的。以此方式,可通过
Figure BDA0002337081490000058
系数表示许多PCM对象(例如,个别对象的系数向量的总和)。基本上,所述系数 含有关于声场的信息(随3D坐标而变的压力),且上文表示从个别对象到观察点
Figure BDA0002337081490000059
附近的总声场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述 其余各图。
图2是说明可执行本公开中描述的技术的各个方面的系统10的图式。如图2的实 例中所示,系统10包含源装置12和内容消费者装置14。虽然在源装置12和内容消费 者装置14的上下文中进行描述,但所述技术可实施于其中编码声场的任何分层表示以 形成表示音频数据的位流的任何上下文中。此外,源装置12可表示任何形式的能够产 生声场的分层表示的计算装置,且本文在是VR内容创建者装置的上下文中进行大体描 述。同样地,内容消费者装置14可表示任何形式的能够实施本公开中描述的声场表示 选择技术以及音频重放的计算装置,且本文在是VR客户端装置的上下文中进行大体描 述。
娱乐公司或可产生多通道音频内容以供例如内容消费者装置14的内容消费者装置 的操作者消费的其它实体可操作源装置12。在多个VR情境中,源装置12产生音频内 容以及视频内容。源装置12包含内容捕获装置300和内容捕获辅助装置302。内容捕获 装置300可被配置成与麦克风5介接或以其它方式通信。麦克风5可表示能够捕获声场 并且将其表示为HOA系数11的
Figure BDA00023370814900000510
或其它类型的3D音频麦克风。在一些实例 中,内容捕获装置300可包含集成到内容捕获装置300的壳体中的集成式麦克风5。在 一些实例中,内容捕获装置300可无线地或经由有线连接与麦克风5介接。在其它实例 中,内容捕获装置300可处理在HOA系数11之后经由某一类型的可去除的存储装置输 入的HOA系数11。内容捕获装置300和麦克风5的各个组合根据本公开是可能的。
内容捕获装置300还可以被配置成与声场表示产生器302介接或以其它方式通信。 声场表示产生器302可包含能够与内容捕获装置300介接的任何类型的硬件装置。声场 表示产生器302可使用内容捕获装置300提供的HOA系数11产生由HOA系数11表示 的相同声场的各个表示。举例来说,为使用HOA系数11产生声场的不同表示,声场表 示产生器302可使用用于声场的立体混响表示的译码方案,所述立体混响表示被称为混 阶立体混响(MOA)。
为产生声场的特定MOA表示,声场表示产生器302可产生HOA系数11的全集的 部分子集。举例来说,声场表示产生器302产生的每一MOA表示可提供关于声场的一 些区域的精确度,但在其它区域中的精确度较小。在一个实例中,声场的MOA表示可 包含HOA系数11的八(8)个未经压缩HOA系数,而相同声场的三阶HOA表示可包含 HOA系数11的十六(16)个未经压缩HOA系数。因而,作为HOA系数11的部分子集产 生的声场的每一MOA表示与从HOA系数11产生的相同声场的对应三阶HOA表示相 比可为较小存储密集型且较小带宽密集型(在作为位流21的部分经由所说明的传输通道 传输的情况下)。
声场表示产生器302产生的声场的MOA表示在VR内容产生、传输和消费的上下 文中可能特别适用。举例来说,例如内容消费者装置14的VR客户端装置可提供关于对 应于与用户的FoV的方向对应的视频视口的声场区域的较大精确度。举例来说,内容消 费者装置14可使用VR头戴装置的导引角度确定用户的FoV,且进而确定将以较大精确 度提供的声场内的方位。在本公开的各种实例中,源装置12和/或内容消费者装置14 中的一个或两个可存储如由声场表示产生器302产生的声场的多个MOA表示。
在一些实例中,内容捕获装置300可被配置成与声场表示产生器302无线通信。在 一些实例中,内容捕获装置300可经由无线连接或有线连接中的一个或两个与声场表示 产生器302通信。经由内容捕获装置300和声场表示产生器302之间的连接,内容捕获 装置300可提供呈各种内容形式的内容,所述内容形式出于论述的目的在本文中描述为 HOA系数11的部分。
在一些实例中,内容捕获装置300可利用声场表示产生器302的各个方面(依据声场 表示产生器302的硬件或软件能力)。举例来说,声场表示产生器302可包含专用硬件, 其被配置成(或专门化软件,其在被执行时致使一或多个处理器)执行心理声学音频编码 (例如标示为由动画专家组(MPEG)或MPEG-H 3D音频译码标准阐述的“USAC”的统一 语音和音频译码器)。内容捕获装置300可不包含心理声学音频编码器专用硬件或专门化 软件,且取而代之,以非心理声学音频译码形式提供内容301的音频方面。声场表示产 生器302可通过至少部分地执行关于内容301的音频方面的心理声学音频编码来辅助捕 获内容301。
声场表示产生器302还可通过至少部分地基于从HOA系数11产生的音频内容(例 如,MOA表示和/或三阶HOA表示)产生一或多个位流21来辅助内容捕获和传输。位流 21可表示HOA系数11(和/或其用以形成声场的MOA表示的部分子集)和任何其它不同 类型的内容301(例如球面视频数据、图像数据或文本数据的经压缩版本)的经压缩版本。 作为一个实例,声场表示产生器302可产生位流21以供跨可为有线或无线通道的传输 通道、数据存储装置等进行传输。位流21可表示HOA系数11(和/或其用以形成声场的 MOA表示的部分子集)的经编码版本并且可包含主要位流和另一旁侧位流,所述侧位流 可以被称作旁侧通道信息。
在多个实例中,内容消费者装置14可由个体操作,并且可表示VR客户端装置。内 容消费者装置14可包含音频重放系统16,其可指能够呈现SHC(不考虑呈三阶HOA表 示和/或MOA表示的形式)以供作为多通道音频内容重放的任何形式的音频重放系统。
虽然在图2中展示为直接传输到内容消费者装置14,但源装置12可将位流21输出 到定位于源装置12与内容消费者装置14之间的中间装置。所述中间装置可存储位流21 以用于稍后传递到可能请求所述位流的内容消费者装置14。所述中间装置可包括文件服 务器、网络服务器、台式计算机、手提式计算机、平板计算机、移动电话、智能电话, 或能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻存在能够 将位流21流式传输(且可能结合传输对应视频数据位流)到请求位流21的订户(例如,内 容消费者装置14)的内容递送网络中。
替代地,源装置12可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、 高清视频光盘或其它存储媒体,其大部分能够被计算机读取且因此可以被称作计算机可 读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,传输通道可指传输存储到 媒体的内容所借助的通道(且可包含零售店和其它基于商店的递送机构)。在任何情况下, 本公开的技术不应就此受到图2的实例的限制。
如图2的实例中进一步展示,内容消费者装置14包含音频重放系统16。音频重放 系统16可表示能够重放多通道音频数据的任何音频重放系统。音频重放系统16可包含 多个不同的呈现器(renderer)22。呈现器22可各自提供不同形式的呈现,其中所述不同 形式的呈现可包含执行基于向量的幅度平移(VBAP)的各种方式中的一或多种和/或执行 声场合成的各种方式中的一或多种。如本文所使用,“A和/或B”意味着“A或B”或 “A和B”两者。
音频重放系统16可另外包含音频解码装置24。音频解码装置24可表示被配置成解 码来自位流21的立体混响系数15(其可形成全三阶HOA表示或其子集以形成相同声场 的MOA表示)。因而,立体混响系数15可类似于HOA系数11的全集或部分子集,但 可归因于有损操作(例如,量化)和/或所述传输通道的传输而为不同的。音频重放系统16 可在解码位流21之后以获得立体混响系数15并且呈现立体混响系数15以输出扩音器 馈给25。扩音器馈给25可驱动一或多个扩音器(为易于说明目的在图2的实例中未示出)。 可以包含N3D、SN3D、FuMa、N2D或SN2D的数种方式归一化声场的立体混响表示。
为了选择适当的呈现器或在一些情况下产生适当的呈现器,音频重放系统16可获 得指示扩音器的数目和/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音 频重放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动扩音器 来获得所述扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频重放 系统16可提示用户与音频重放系统16介接并输入扩音器信息13。
音频重放系统16接着可基于扩音器信息13选择音频呈现器22中的一个。在一些 情况下,当没有音频呈现器22在对在扩音器信息13中指定的扩音器几何布置的某一阈 值类似性量度(按照扬声器几何布置)内时,音频重放系统16可基于扩音器信息13产生 音频呈现器22中的一个。在一些情况下,音频重放系统16可基于扩音器信息13产生 音频呈现器22中的一个且无需首先尝试选择音频呈现器22中的现有音频呈现器。一或 多个扬声器接着可重放呈现的扩音器馈给25。
根据本公开的一些实例,内容消费者装置14可存储相同声场的多个MOA表示,使 得每一MOA表示突出不同方位或方位集处的精确度。在本公开的其它实例中,内容消 费者装置14可存取可从内容创建者装置12请求的相同声场的MOA表示的列表。在这 些实例中的任一个中,内容消费者装置14可使用与之配对的VR头戴装置的导引角度选 择符合用户的当前FoV的特定MOA表示。基于可从VR头戴装置获得的最新导引角度 信息,内容消费者装置14可选择或请求符合用户的当前观看取向的特定MOA表示。即, 内容消费者装置14可选择或请求特定MOA表示,其根据对应球面视频数据提供关于具 有在用户的FoV内的方位的音频对象的精确度。导引角度参数的实例包含关于VR头戴 装置的取向的一或多个角度,例如VR头戴装置的定位和取向的俯仰、偏航或横摇角中 的一或多个。
图3是说明声场的MOA表示的不均匀空间分辨率分布的方面的图式。虽然全球面 HOA在所有方向上具有均匀的高空间分辨率,但相同声场的MOA表示具有可变空间分 辨率。在许多情况下,如在图3的实例中,声场的MOA表示在仅水平区中包含高分辨 率空间音频数据,且在声场的其余的区中包含较低分辨率空间音频数据。在图3中说明 的实例中,声场的MOA表示包含水平区(由白色条带指示)的三阶表示,和所有其它区(由 暗阴影部分所示)的一阶表示。即,根据图3的MOA表示,一旦声源离开声场的中纬线, 关于出自声源的音频对象的高质量重构的锐度和面积便快速降低。
图4A是说明声场的全三阶HOA表示与相同声场的MOA表示之间的差异的图式, 在所述MOA表示中,水平区与其余的区相比具有较高空间分辨率。如图4中所示出, 全三阶HOA表示包含表示声场的十六(16)个未经压缩HOA系数。通过关于全三阶HOA 表示的整个3轴曲线图为白色(或看起来是空白的)来展示全HOA表示的均匀空间分辨 率。
相比之下,MOA表示包含关于相同声场的八(8)个未经压缩HOA系数(或系数通道)。 此外,与全三阶HOA表示展现的均匀空间分辨率相反,MOA表示展示不均匀空间分辨 率,其中沿着3D声场的中纬线发生高空间分辨率,而以较低空间分辨率表示声场的其 余的区。图4A中说明的MOA表示描述为“3H1P”MOA表示,其指示MOA表示包 含水平区的三阶表示和声场的其余的区的一阶表示。
图4B是说明可如何根据声场的基于对象的表示在多通道音频数据的前景和背景中 呈现各个音频对象126A-126K的图式。图4B的图式指定展示根据自上而下视角或鸟瞰 视野通常被称作“甜点(sweet spot)”的视图120。所述甜点指代当扩音器恰当地配置成 用于5.1或更高阶环绕声重放时房间中环绕声体验最为理想的方位。图4B说明声场的 各个前景对象和背景对象。一般来说,前景对象比背景对象更突出。本公开的技术利用 MOA表示强调更突出的前景对象,同时减少用于较不突出背景对象的译码和带宽。
在图4B的实例中,将视图120分段成两个部分,标示为前景部分122A和背景部分 122B。在圆圈内,收听者124位于甜点的中间并在分离前景部分122A与背景部分122B 的水平通路上。在多通道音频数据40重放期间,收听者124可在视图120中所呈现的 声场中听到音频对象126A-126K。即,音频对象126A-126D从收听者124的视角看起来 是来源于更遥远的前景。对象关联单元26可能已以上文关于图2B所描述的方式处理了 音频对象126A-126D,结果由于没有任何音频元数据,被辅助的音频呈现单元28A将这 些音频对象作为更为分散的音频对象呈现于远前景中。
音频对象126E-126G从收听者124的视角可看起来如同更聚焦的对象一样来源于更 近前景中。对象关联单元26可能已以上文关于图2A所描述的方式处理了音频对象 126E-126G,结果由于对象关联单元26的提供具有高音频和视频元数据相关性的扩增元 数据的能力,被辅助的音频呈现单元28A将这些音频对象呈现于更聚焦的前景中。
音频对象126A-126G中的一或多个可为以上文关于以计算机为中介的现实系统所 描述的方式(例如关于声场表示产生器302或音频重放系统16描述的功能性)从参考库检 索的参考音频对象。在此意义上,对象关联单元26可识别视频对象32中的那些不匹配 音频对象34中的任一个的视频对象,从而将视频对象32中的这些视频对象作为视频对 象32'传送到扩增现实音频呈现单元28C。扩增现实音频呈现单元28C随后可检索对应 或匹配视频对象32'中的一个的参考音频对象34"'中的一个并基于包含在视频对象32'中 的关联视频对象内的视频元数据呈现参考音频对象34"'中的此参考音频对象。
音频对象126H-126K从收听者124的视角可看起来来源于背景中。对象关联单元 26可能已以上文关于图2C所描述的方式处理了音频对象126H-126K,结果由于对象关 联单元26不能使这些音频对象34"与视频对象32中的任一个相关联,无辅助音频呈现 单元28B将这些音频对象呈现于背景中。即,因为听觉场景分析在定位声音的起源方面 通常不如视觉场景分析精确,所以无辅助音频呈现单元28B可能不能够精确定位音频对 象34"的来源。无辅助音频呈现单元28B可最多基于对应音频元数据54而仅呈现音频对 象34",这可导致音频呈现单元28B将所述音频对象34"作为更扩散对象呈现在背景中。
与在包含音频对象126A-126K的所说明圆形平面(或可包含音频对象126A-126K的 水平面)“上方”收听有关的潜在问题还可在呈现声场的基于对象的表示的情况下出现因 而,本公开的系统还可在以计算机为中介的现实系统也使用声场的基于对象的表示的情 况下改进以计算机为中介的现实系统的用户体验。举例来说,音频重放系统16可使用 与内容消费者装置14配对的VR头戴装置的导引角度,使用声场的视图120中所说明的 各个旋转和取向,以便选择当前导引角度的适当视图。音频对象架构的方面在 https://en.wikipedia.org/wiki/Digital_audio处可得。
图5是说明相同声场的各个MOA表示的空间分辨率与对应VR导引角度之间的关 系的图式,内容消费者装置14可将每一MOA表示与所述对应VR导引角度相关联。如 所示出,内容消费者装置14可使直视的导引角度与在水平区中具有较大空间精确度的 MOA表示相关联。还如图5中说明,内容消费者装置14有效地将高分辨率区从竖直区 (用于向下注视)逐步移动到水平区(用于直视)再逐步移动到竖直区(用于向上注视)。
图6A和6B说明内容消费者装置14可基于头戴装置的导引角度选择的相同声场的 不同MOA表示。头戴装置可表示VR头戴装置、AR头戴装置、MR头戴装置或用于以 计算机为中介的现实系统的其它类型的头戴装置中的任一或多个。图6A说明在VR头 戴装置的导引角度从向下注视转变为直视时,内容消费者装置14可选择或请求的单个 声场的各个MOA表示。图6B说明在VR头戴装置的导引角度从直视转变为向上注视时, 内容消费者装置14可选择或请求的相同声场的各个MOA表示。
如图6A和6B中所示,内容消费者装置14可通过有效地将高分辨率区从竖直区(用 于向下注视)逐步移动到水平区(用于直视)再逐步移动到竖直区(用于向上注视)来迎合导 引角度的转变。如上文所论述,图6A和6B的所有MOA表示可从全HOA声场表示(例 如,通过图2的声场表示产生器302)产生。再次,MOA表示具有匹配或大致映射到可 能的观看方向(FoV)的高分辨率区域和低分辨率区域的不同分布。
图7A和7B是说明流式传输服务器或虚拟现实(VR)装置或其它以计算机为中介的 现实系统可提供呈音频流形式的声场的各个表示所依据的本公开的各方面的图式。在各 种实例中,流式传输服务器可响应于从流式传输客户端接收的请求,在音频流中提供声 场的特定混阶立体混响表示。图7A是说明流式传输服务器可响应于从流式传输客户端 接收的请求而提供声场的特定表示(例如,MOA表示和/或全HOA表示)所依据的本公开 的各方面的图式。图7A的流式传输服务器是图2的源装置12的实例,而图7A的流式 传输客户端是图2的内容消费者装置14的实例。基于用户的头部旋转,流式传输客户 端的音频流选择器可选择可从流式传输服务器获得的特定MOA流。
流式传输服务器还可响应于来自流式传输客户端的这类请求而提供各种类型的流 或流组合。举例来说,可作为由流式传输客户端请求的选项,流式传输服务器还可提供 全阶HOA流式传输。在其它实例中,流式传输服务器可提供以下中的一或多个:声场 的基于对象的表示、声场的高阶立体混响表示、声场的混阶立体混响表示、声场的基于 对象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混阶立 体混响表示的组合,或声场的混阶表示与声场的高阶立体混响表示的组合。
图7A还说明双声道化过程,其可经局部处理以提供或在一些情况下确保VR头戴 装置处的低运动到声音时延。在各种实例中,流式传输服务器可提供音频流作为提供 VR体验、AR体验、MR体验、扩展现实(XR)体验的媒体流的部分。在一些此类实例中, 流式传输服务器可提供与对应流相关联的音频流。在一些实例中,流式传输客户端可使 用网络接口传送来往于流式传输服务器的交换消息,其中所述交换消息与可从流式传输 服务器获得的声场的表示相关联。网络接口可耦合到流式传输客户端的一或多个处理器 和/或耦合到流式传输客户端的一或多个存储器装置。在一些实例中,流式传输客户端可 使用耦合到网络接口的天线接收无线信号,所述无线信号包含与可从流式传输服务器获 得的声场的表示相关联的数据包、音频包、视频包或传输协议数据。在一些实例中,流 式传输服务器可另外包含或耦合到捕获声场的一或多个部分的一或多个麦克风阵列(例 如,通过
Figure BDA0002337081490000111
技术提供)。
图7B说明VR装置可例如借助于与VR头戴装置的直接配对局部存储表情进而提 供声场的特定音频表示(例如,MOA表示和/或全HOA表示)所依据的本公开的各方面。 图7B的VR装置是图2的内容消费者装置14的实例。基于用户的头部旋转,VR装置 的音频流选择器可选择局部可得的特定音频表示(例如特定MOA表示或全HOA表示)。 在一个实例中,VR装置可使用局部可得的音频表示的清单确定局部可得的表示中的一 或多个的可行性,并且接着使用提供于所述清单中的信息选择适当的声场表示。
VR装置可包含一或多个存储器装置,例如随机存取存储器(RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器(EEPROM)、压缩光盘只读存储器(CD-ROM)或其它 光盘存储装置、磁盘存储装置或其它磁性存储装置、闪存存储器,或可用以存储可被计 算装置存取、检索和处理的数据、指令或数据结构的任何其它媒体。VR装置还可包含 处理器(或多个处理器),例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成 电路(ASIC)、现场可编程门阵列(FPGA),或其它等效的集成式或离散逻辑电路。VR装 置的处理器例如经由逻辑和/或物理通道耦合到存储器装置。
因而,图7B的VR装置的处理器可使用与头部旋转信息相关联的一或多个角度, 跟踪导引角度。继而,图7B的VR装置可使用导引角度从存储到VR装置的存储器装 置的VR音频声场的多个表示中选择相同声场的特定表示。VR装置的处理器还可经由 一或多个扩音器(例如头戴装置200的扬声器)使用所选择的表示再现声场。在一些实例 中,VR装置的处理器可使用一或多个传感器和/或相机(例如,头戴装置200的传感器和 /或相机)捕获指示佩戴头戴装置200的用户的注视角度的图像。举例来说,VR装置的处 理器可使用注视角度确定导引角度。VR装置的处理器还可基于导引角度表示观察角度 处的图像序列。举例来说,VR装置的处理器可在符合头戴装置200的当前导引角度的 特定观看角度处,经由头戴装置200的显示器硬件输出图像序列的部分。
VR装置的存储器装置还可响应于由VR装置的处理器执行的音频流选择器做出的 这类选择,局部存储各种类型的表示或其组合。举例来说,如上文所论述,可作为音频 流选择器所选的选项,VR装置的处理器还可提供全阶HOA流式传输。在其它实例中, VR装置的处理器可经由头戴装置200的扬声器硬件,输出以下中的一或多个:声场的 基于对象的表示、声场的高阶立体混响表示、声场的混阶立体混响表示、声场的基于对 象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混阶立体 混响表示的组合,或声场的混阶表示与声场的高阶立体混响表示的组合。在一些实例中, 存储到VR装置的存储器装置的声场表示中的一或多个可包含至少一个高分辨率区和至 少一个较低分辨率区,且其中基于导引角度的所选择的展现提供关于至少一个高分辨率 区的较大空间精确度和关于较低分辨率区的较小空间精确度。图7B还说明双声道化过 程,其可经局部处理以提供或在一些情况下确保VR头戴装置处的低运动到声音时延。
图8是说明可由图7的音频流选择器执行以便请求基于头戴装置的导引角度的特定 声场表示的流式传输的算法的图式。头戴装置可表示VR头戴装置、AR头戴装置、MR 头戴装置或用于以计算机为中介的现实系统的其它类型的头戴装置中的任一或多个。如 所说明,流式传输客户端(例如,VR客户端装置)可存取提供可从流式传输服务器(例如, VR服务器)获得的流的分辨率信息的清单。可得的流可包含各个表示,例如具有集中于 不同区中的精确度的MOA表示,并且可任选地包含声场的全三阶HOA表示和/或基于 对象的表示。继而,音频流选择器可选择可得流,例如声场的特定MOA表示(或全HOA 表示或基于对象的表示),以适应VR头戴装置的最后检测到的导引角度。继而,流式传 输客户端可从流式传输服务器请求所选择的流。举例来说,流式传输客户端可使用可从 清单获得的识别信息识别请求的流。虽然
图9A和9B是说明用以展现全景视频数据的显示器的模型表示的图式。图9A说明 立方体图投影100的实例,而图9B说明等矩形投影110。
在图9A中,立方体104的6个面102A-102F(面102)中的每一个划分成四个拼片 (tile)(总计24个拼片)。可见面(即,面102A、102B和102C)的拼片标记为拼片106A-106L。 具体来说,面102C划分成拼片106A-106D,面102B划分成拼片106E-106H,且面102A 划分成拼片106I-106L。出于可读性的目的在图9A中未标记隐藏面(即,面102D、102E 和102F)的拼片,但应理解,面102D-102F也划分成拼片。“拼片”也可被称作区。图 9A中的立方体面102中的每一个对应于90度乘90度视场(FoV)。球体的任一个任意 90×90度拼片可需要以高分辨率解码全景的1/3。FoV很少跨越大于八个拼片。因此,高 分辨率解码的跨度可以被限制为八个或更少的拼片,以便不会损失视觉质量。
图9B说明画布118,其划分成八个拼片116A-116H。在此实例中,当用户查看球体 的“极点”(例如,北极点112,其中当查看北极点112,用户的视场由灰色阴影区域114 表示时)时,画布118的整个上半部(即,拼片116A-116D)将需要以高分辨率解码。将拼 片116A-116D分解成更多竖直拼片不会有助于解决问题。因此,在这个实例中,将需要 以高分辨率对全景的一半进行解码。这是比图9A的实例中明显更高分辨率的数据。因 此,本公开的技术可以使用立方体图投影模型100来进行显示。
参考上文关于图1论述的其中以包含6k、4k、HD(1080p)和720p的分辨率对视频 数据进行译码的实例,在图9A中,可以6k分辨率对正面四个拼片106A-106D(也称为 “区”)进行解码,可以4k分辨率对相邻八个拼片(例如,拼片106E、106G、106K和106L 以及面102D和102F的与拼片106A、106C和106D相邻的未标记拼片)进行解码,可以 HD(1080p)分辨率对与这八个拼片相邻的八个拼片(即,拼片106F、106H、106I、106J 以及与拼片106A、106C和106D相邻的拼片所邻接的其它未标记拼片)进行解码,并且 可以720p分辨率对背面的四个拼片进行解码。在此实例中,此类视频数据的总带宽要 求是每帧6.5MP。在分辨率上以递减顺序存在8-4-4-8拼片分布的更糟糕的情况下,每 帧将有8.17MP。应了解,上文所描述的视频分辨率/速率是非限制性实例,且其它视频 分辨率/速率也与本公开的各个方面兼容。还应了解,视频分辨率/速率必然会随着技术 和标准演变而改变。
图10是说明柱面全景视频数据120的实例的图式。柱面全景视频数据120分割成 拼片122-130。对于某些用途,位速率减少与解码器复杂性减少相比,如果没有更重要 那可能就是同等重要的。举例来说,一些报告表明美国的平均互联网连接速度为5mbps, 而常规高质量全景视频数据需要30mbps。从全景图中分割出多个小的拼片可能会降低 压缩效率。也就是说,时间预测效率可能会有一些损失。
在图10的实例中,服务器(例如,图1的源装置12或图2的源装置50)可存储12×90 度的拼片122-130(等效于全景的三个副本)。此实例可以用于避开小的拼片,这意味着压 缩效率不会受损。此外,还可以存储12×30度的拼片。任意90度视图将需要最多四个 30度的拼片,其中一个30度拼片和一个90度拼片可以用于构成任意90度视图。
可以使用本公开的技术来实现球面全景视频数据120的位速率优化。折衷存储空间 以节省位速率的想法可以推广到其它情况。举例来说,不必在所有视角处具有相同的拼 片粒度。与柱面全景情况不同,用相同的拼片粒度覆盖所有视点对于球面全景图来说并 不简单。
一般来说,图2的源装置12可以多个拼片粒度保存球面全景视频数据120的副本。 比拼片122-130更大的拼片(未示出)可以在它们之间的一些地方具有重叠的视场以便更 好地覆盖。举例来说,源装置12可编码较大拼片大小处最受关注的视点(如由例如准备 内容的管理员的用户确定)。以此方式,源装置12可以发送多个大小的拼片的组合,例 如针对用户的视觉焦点所指向的区的大拼片(例如,拼片122-130中的一个的拼片大小的 四倍),以及针对其它其余的区的较小拼片(对于图9A的实例,总计21个拼片)。
立方体投影中的实例拼片译码可如下:立方体面可为形成水平环的A、B、C和D, 顶部的E,以及底部的F。最小拼片可为A1、A2、A3、A4、B1、B2、……、F1、F2、 F3和F4(总计24个拼片)。较大拼片可为A、B、C、D、E和F(其中拼片A覆盖拼片 A1、A2、A3和A4跨越的区域,B覆盖拼片B1、B2、B3和B4跨越的区域,且类推到 拼片C-F中的每一个)。在一些实例中,仅那些更可能被观看到的视点在较大拼片大小 处被译码。因此,如果用户不大可能向上看或向下看,那么仅A、B、C和D可经译码 为大拼片。任选地,这些拼片中的每一个可具有立体声视频数据的左右视图。
源装置12可以针对立体声视频情况准备视频数据以改进目的地装置14从低分辨率 流切换到高分辨率流时的时延。本公开的技术可以避免将额外运动引入光子(m2p)时延。 一般来说,在从例如低分辨率到高分辨率(当用户移动其头部时)的转变期间的时延可能 较大。最大时延等于从抬头显示器(HUD)到服务器并返回的时延(例如,目的地装置14 与服务器装置12之间的往返时延)加上GOP结构的长度或直到下一个I帧被解码的时 间。然而,在HUD处可获得不同分辨率的内容(本地存储在文件中或流式传输)的情境导 致网络延迟部分在以上最大时延的计算中为0。
虽然关于图1的源装置12进行大体论述,但应理解,图2的源装置50可执行关于 图10所论述的大体上类似技术。
图11是说明划分成区142A-142F(区142)的实例画布140的图式。出于论述的目的, 将矩形的画布140划分成矩形区142,但是应理解,此论述可适用于类似于图9A所示 的立方体图投影100的立方体图投影。
根据本公开的技术,可提供区142中的每一个的各个视频数据集。在图11的实例 中,提供区142A的视频数据144A,提供区142B的视频数据144B,提供区142C的视 频数据144C,提供区142D的视频数据144D,提供区142E的视频数据144E,并且提 供区142F的视频数据144F。视频数据144A-144F中的每一个可包含以例如空间分辨率 的多个质量水平编码的视频数据。举例来说,视频数据144A-144F中的每一个可包含以 成比例的6K分辨率(即,具有6K分辨率的像素密度)、4K分辨率、1080P分辨率和720P 分辨率编码的视频数据。
在一些实例中,可提供覆盖多个区域142的视频数据。在图11的实例中,提供覆 盖区142A、142B、142D和142E的视频数据146。因此,如果用户的焦点指向包含区 142A、142B、142D和142E的视场,那么目的地装置14可简单地检索视频数据146, 而非从视频数据144A、144B、144D、144E检索各个视频数据集。在一些实例(例如图 11中示出的实例)中,仅提供覆盖多个区的单个质量(例如,空间分辨率),不过在其它实 例中,可提供针对多个区的多个质量。
图12是说明实例画布180与对应立方体图视图182A、182B之间的对应关系的图式。 具体来说,画布180包含以不同方式加阴影的多个拼片,其中不同阴影表示请求的不同 质量水平(例如,空间分辨率)。立方体图视图182A、182B表示其中将显示画布180的 拼片中的每一个。立方体图视图182A示出立方体图的前视图的前透视图,而立方体图 视图182B示出立方体图的后部拼片的剖视前透视图。白色拼片表示最高质量水平(例如, 最高空间分辨率),用对角线加阴影的拼片表示第二高的质量水平,用交叉影线加阴影的 拼片表示第三高的质量水平,且纯黑色阴影拼片表示最低质量水平。所述质量水平也可 被称作“层”。
在一个实例中,为实现较低质量水平,对空间分辨率进行降取样。举例来说,层1 可为全空间分辨率,层2可在空间上沿水平和竖直方向减小二分之一(总计四分之一空间 分辨率),层3可在空间上沿水平和竖直方向减小三分之一(总计九分之一空间分辨率), 且层4可在空间上沿水平和竖直方向减小四分之一(总计十六分之一空间分辨率)。
图13是说明本公开的一或多个以计算机为中介的现实系统可使用的头戴装置200 的实例的图式。在各种实例中,头戴装置200可表示VR头戴装置、AR头戴装置、MR 头戴装置或扩展现实(XR)头戴装置。如所示出,头戴装置200包含后置相机、一或多个 定向扬声器、一或多个跟踪和/或记录相机和一或多个发光二极管(LED)灯。在一些实例 中,LED灯可以被称作“超亮”LED灯。另外,头戴装置200包含一或多个眼睛跟踪相 机、高敏感性音频麦克风,以及光学/投影硬件。头戴装置200的光学/投影硬件可包含 耐久的半透明显示器技术和硬件。
头戴装置200还包含连接性硬件,其可表示支持例如4G通信、5G通信等多模连接 性的一或多个网络接口。头戴装置200还包含环境光传感器,以及骨导换能器。在一些 情况下,头戴装置200还可包含具有鱼眼镜头和/或摄远镜头的一或多个无源和/或有源 相机。根据本公开的各种技术,本公开的各个装置,例如图2的内容消费者装置14可 使用头戴装置200的导引角度选择声场的音频表示经由头戴装置200的定向扬声器输 出。应了解,头戴装置200可展现多种不同的外观尺寸。
图14是说明可执行本公开中描述的技术的各个方面的系统的另一实例的图式。图 14说明其中源装置12另外包含相机200的实例。相机200可被配置成捕获视频数据, 并且将所捕获的原始视频数据提供到内容捕获装置300。内容捕获装置300可将视频数 据提供到源装置12的另一组件(图14中未示出),以用于进一步处理成视口划分的部分, 例如图9B中说明的拼片116。
在图14的实例中,内容消费者装置14还包含头戴装置200。应理解,在各种实施 方案中,头戴装置200可包含在内容消费者装置14中,或在外部耦合到内容消费者装 置14。如上文关于图13所论述,头戴装置200包含显示器硬件和扬声器硬件以用于输 出视频数据(例如,与各个视点相关联)并且用于呈现音频数据。
图15是说明根据本公开的方面的VR装置可执行的实例过程220的流程图。在各种 实例中,图7A的流式传输客户端或图7B的VR装置可执行过程220,而不管其是作为 独立过程还是作为更大过程的部分。过程220可当VR装置跟踪由装置的一或多个角度 提供的导引角度(222)时开始。举例来说,VR装置可跟踪图13中说明的头戴装置200 的导引角度。继而,VR装置可基于跟踪的导引角度从(相同声场的)多个可得表示中选择 声场表示(224)。举例来说,VR装置可选择如图7B中所示局部存储的立体混响(例如, MOA或HOA)表示中的一个。
应认识到,依据实例,本文中所描述的技术中的任一个的某些动作或事件可以按不 同顺序执行,可以添加、合并或完全省略(例如,所描述的动作或事件并非全部都是实践 所述技术所必需的)。此外,在某些实例中,动作或事件可例如通过多线程处理、中断处 理或多个处理器同时执行,而不是依序执行。
在一些实例中,头戴装置200可使用相机硬件捕获包含与佩戴头戴装置200的用户 相关联的注视角度的图像。在一些实例中,VR装置可使用一或多个处理器确定与用户 相关联的注视角度,并且可基于注视角度跟踪导引角度。在一些实例中,头戴装置200 的显示器可表示基于导引角度的观看角度处的图像序列。
在一些实例中,VR装置(或流式传输装置)可使用耦合到VR/流式传输装置的存储器 的网络接口将交换消息传送到外部装置(例如,图7A的流式传输服务器),其中所述交 换消息与声场的多个可得表示相关联。在一些实例中,VR装置可使用耦合到网络接口 的天线接收无线信号,所述无线信号包含与声场的多个可得表示相关联的数据包、音频 包、视频包或传输协议数据。在一些实例中,一或多个麦克风阵列可捕获声场。
在一些实例中,存储到存储器装置的声场的多个可得表示可包含以下多个:声场的 基于对象的表示、声场的高阶立体混响表示、声场的混阶立体混响表示、声场的基于对 象的表示与声场的高阶立体混响表示的组合、声场的基于对象的表示与声场的混阶立体 混响表示的组合,或声场的混阶表示与声场的高阶立体混响表示的组合。
在一些实例中,声场的多个可得表示中的声场表示中的一或多个可包含至少一个高 分辨率区和至少一个较低分辨率区,且其中基于导引角度的所选择的展现提供关于至少 一个高分辨率区的较大空间精确度和关于较低分辨率区的较小空间精确度。
在一或多个实例中,所描述的功能可用硬件、软件、固件或其任何组合来实施。如 果在软件中实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或 传输,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体, 其对应于例如数据存储媒体或通信媒体的有形媒体,通信媒体包含例如根据通信协议有 助于将计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可 对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据 存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本公开中 描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可以包含计算 机可读媒体。
通过举例而非限制的方式,这种计算机可读存储媒体可以包括RAM、ROM、 EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪存存 储器,或可以用于以指令或数据结构的形式存储期望的程序代码并且可以被计算机存取 的任何其它媒体。并且,恰当地将任何连接称作计算机可读媒体。举例来说,如果使用 同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线 技术从网站、服务器或其它远程源传输指令,那么所述同轴电缆、光纤电缆、双绞线、 DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而,应理解,所 述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体, 而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘 (CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘 通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各个的组合也应包 含在计算机可读媒体的范围内。
指令可由一或多个处理器执行,例如一或多个数字信号处理器(DSP)、通用微处理 器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的集成或离散逻辑电 路。因此,如本文中所使用的术语“处理器”可指代上述结构或适合于实施本文中所描 述的技术的任何其它结构中的任一个。此外,在一些方面中,本文中所描述的功能性可 在经配置以用于编码和解码或并入在组合编解码器中的专用硬件和/或软件模块内提供。 并且,所述技术可完全实施于一或多个电路或逻辑元件中。
本公开的技术可实施于多种装置或设备中,包含无线手持机、集成电路(IC)或一组 IC(例如,芯片组)。本公开中描述各种组件、模块或单元是为了强调经配置以执行所公 开的技术的装置的功能方面,但未必需要通过不同硬件单元实现。确切地,如上文所描 述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或由互操作硬件 单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述了各种实例。这些和其它实例在所附权利要求书的范围内。

Claims (23)

1. 一种用于数据处理的装置,其包括:
存储器装置,其被配置成存储声场的多个表示,所述声场的每一相应表示包括表示所述声场的不同立体混响系数集;和
处理器,其耦合到所述存储器装置,所述处理器被配置成:
跟踪由与所述装置的定位相关联的一或多个角度提供的导引角度;和
基于所述导引角度,从存储到所述存储器装置的所述多个表示中选择所述声场的特定表示。
2. 根据权利要求1所述的装置,其另外包括耦合到所述处理器的一或多个扩音器,所述一或多个扩音器被配置成基于从存储到所述存储器装置的所述多个表示选择的所述声场的所述特定表示来再现所述声场。
3. 根据权利要求1所述的装置,其另外包括相机,所述相机被配置成捕获包含与佩戴所述装置的用户相关联的注视角度的图像。
4. 根据权利要求3所述的装置,其中耦合到所述相机的所述处理器被配置成确定与所述用户相关联的所述注视角度,并且基于所述注视角度跟踪所述导引角度。
5. 根据权利要求1所述的装置,其另外包括显示器,所述显示器被配置成表示基于所述导引角度的观看角度处的图像序列。
6. 根据权利要求1所述的装置,其另外包括耦合到所述存储器装置的网络接口,所述网络接口被配置成将交换消息传送到与存储到所述存储器装置的所述声场的所述多个表示相关联的外部装置。
7. 根据权利要求6所述的装置,其另外包括耦合到所述网络接口的天线,所述天线被配置成接收包含与所述声场的所述多个表示相关联的数据包、音频包、视频包或传输协议数据的无线信号。
8. 根据权利要求1所述的装置,其另外包括被配置成捕获所述声场的一或多个麦克风阵列。
9. 根据权利要求1所述的装置,其中存储到所述存储器装置的所述声场的所述多个表示包括以下中的一或多个:所述声场的高阶立体混响表示、所述声场的混阶立体混响表示、或所述声场的混阶表示与所述声场的高阶立体混响表示的组合。
10. 根据权利要求1所述的装置,其中存储到所述存储器装置的所述声场的所述多个所述表示中的一或多个分别包含至少一个高分辨率区和至少一个较低分辨率区,且其中基于所述导引角度选择的所述特定表示提供关于所述至少一个高分辨率区的较大空间精确度和关于所述较低分辨率区的较小空间精确度。
11. 根据权利要求1所述的装置,其中所述装置包括虚拟现实头戴装置、混合现实头戴装置或扩增现实头戴装置中的一个。
12. 一种用于数据处理的方法,其包括:
将声场的多个表示存储到存储器,其中所述声场的每一相应表示包括表示所述声场的不同立体混响系数集;
通过处理器结合所述存储器跟踪由与包含所述存储器和所述处理器的装置的定位相关联的一或多个角度提供的导引角度;和
通过所述处理器并且基于所述导引角度,从存储到所述存储器的所述声场的所述多个表示中选择所述声场的特定表示。
13. 根据权利要求12所述的方法,其另外包括通过耦合到所述处理器的一或多个扩音器基于从存储到所述存储器的所述多个表示中选择的所述声场的所述特定表示来再现所述声场。
14. 根据权利要求12所述的方法,其另外包括通过相机捕获包含与佩戴所述装置的用户相关联的注视角度的图像。
15. 根据权利要求14所述的方法,其另外包括:
通过所述处理器确定与所述用户相关联的所述注视角度;和
通过所述处理器基于所述注视角度跟踪所述导引角度。
16. 根据权利要求12所述的方法,其另外包括通过显示器表示基于所述导引角度的观看角度处的图像序列。
17. 根据权利要求12所述的方法,其另外包括通过耦合到所述存储器的网络接口将交换消息传送到与存储到所述存储器的所述声场的所述多个表示相关联的外部装置。
18. 根据权利要求17所述的方法,其另外包括通过耦合到所述网络接口的天线接收包含与所述声场的所述多个表示相关联的数据包、音频包、视频包或传输协议数据的无线信号。
19. 根据权利要求12所述的方法,其另外包括通过一或多个麦克风阵列捕获所述声场。
20. 根据权利要求12所述的方法,其中存储到所述存储器的所述声场的所述多个表示包括以下中的一或多个:所述声场的高阶立体混响表示、所述声场的混阶立体混响表示或所述声场的混阶表示与所述声场的高阶立体混响表示的组合。
21. 根据权利要求12所述的方法,其中存储到所述存储器的所述声场的所述多个所述表示中的一或多个分别包含至少一个高分辨率区和至少一个较低分辨率区,且其中通过所述处理器基于所述导引角度所选择的所述特定表示提供关于所述至少一个高分辨率区的较大空间精确度和关于所述较低分辨率区的较小空间精确度。
22. 一种用于数据处理的设备,其包括:
用于存储声场的多个表示的装置,所述声场的每一相应表示包括表示所述声场的不同立体混响系数集;
用于跟踪由与所述设备的定位相关联的一或多个角度提供的导引角度的装置;和
用于基于所述导引角度,从所存储的所述多个表示中选择所述声场的特定表示的装置。
23. 一种非暂时性计算机可读存储介质,其上存储有指令,其中所述指令被装置的处理器执行以进行如下步骤:
将声场的多个表示存储到所述非暂时性计算机可读存储媒体,所述声场的每一相应表示包括表示所述声场的不同立体混响系数集;
跟踪由与所述装置的定位相关联的一或多个角度提供的导引角度;和
基于所述导引角度,从存储到所述非暂时性计算机可读存储媒体的所述声场的所述多个表示中选择所述声场的特定表示。
CN201880042853.8A 2017-06-30 2018-05-23 以计算机为中介的现实系统的混阶立体混响(moa)音频数据 Active CN110832883B9 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110211833.2A CN112954510A (zh) 2017-06-30 2018-05-23 以计算机为中介的现实系统的混阶立体混响(moa)音频数据

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762527769P 2017-06-30 2017-06-30
US62/527,769 2017-06-30
US15/672,058 2017-08-08
US15/672,058 US10405126B2 (en) 2017-06-30 2017-08-08 Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
PCT/US2018/034196 WO2019005342A1 (en) 2017-06-30 2018-05-23 MOBILE AMBIROPHONE AUDIO DATA (MOA) FOR COMPUTER-AIDED REALITY SYSTEMS

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110211833.2A Division CN112954510A (zh) 2017-06-30 2018-05-23 以计算机为中介的现实系统的混阶立体混响(moa)音频数据

Publications (3)

Publication Number Publication Date
CN110832883A CN110832883A (zh) 2020-02-21
CN110832883B CN110832883B (zh) 2021-03-16
CN110832883B9 true CN110832883B9 (zh) 2021-04-09

Family

ID=64739260

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110211833.2A Pending CN112954510A (zh) 2017-06-30 2018-05-23 以计算机为中介的现实系统的混阶立体混响(moa)音频数据
CN201880042853.8A Active CN110832883B9 (zh) 2017-06-30 2018-05-23 以计算机为中介的现实系统的混阶立体混响(moa)音频数据

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110211833.2A Pending CN112954510A (zh) 2017-06-30 2018-05-23 以计算机为中介的现实系统的混阶立体混响(moa)音频数据

Country Status (5)

Country Link
US (2) US10405126B2 (zh)
EP (1) EP3646619B1 (zh)
CN (2) CN112954510A (zh)
SG (1) SG11201910908VA (zh)
WO (1) WO2019005342A1 (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
US11062713B2 (en) 2018-06-25 2021-07-13 Qualcomm Incorported Spatially formatted enhanced audio data for backward compatible audio bitstreams
US11081116B2 (en) 2018-07-03 2021-08-03 Qualcomm Incorporated Embedding enhanced audio transports in backward compatible audio bitstreams
US10924876B2 (en) 2018-07-18 2021-02-16 Qualcomm Incorporated Interpolating audio streams
US11128976B2 (en) 2018-10-02 2021-09-21 Qualcomm Incorporated Representing occlusion when rendering for computer-mediated reality systems
US11798569B2 (en) 2018-10-02 2023-10-24 Qualcomm Incorporated Flexible rendering of audio data
US11019449B2 (en) 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
US11184731B2 (en) 2019-03-20 2021-11-23 Qualcomm Incorporated Rendering metadata to control user movement based audio rendering
US10869152B1 (en) * 2019-05-31 2020-12-15 Dts, Inc. Foveated audio rendering
EP3987824A1 (en) * 2019-06-20 2022-04-27 Qualcomm Incorporated Audio rendering for low frequency effects
US11122386B2 (en) 2019-06-20 2021-09-14 Qualcomm Incorporated Audio rendering for low frequency effects
US20200402522A1 (en) 2019-06-24 2020-12-24 Qualcomm Incorporated Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US20200402521A1 (en) 2019-06-24 2020-12-24 Qualcomm Incorporated Performing psychoacoustic audio coding based on operating conditions
US11361776B2 (en) 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US20200402523A1 (en) 2019-06-24 2020-12-24 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data
US11937065B2 (en) 2019-07-03 2024-03-19 Qualcomm Incorporated Adjustment of parameter settings for extended reality experiences
US11432097B2 (en) 2019-07-03 2022-08-30 Qualcomm Incorporated User interface for controlling audio rendering for extended reality experiences
US11429340B2 (en) 2019-07-03 2022-08-30 Qualcomm Incorporated Audio capture and rendering for extended reality experiences
US11140503B2 (en) 2019-07-03 2021-10-05 Qualcomm Incorporated Timer-based access for audio streaming and rendering
US20210006976A1 (en) 2019-07-03 2021-01-07 Qualcomm Incorporated Privacy restrictions for audio rendering
US11354085B2 (en) 2019-07-03 2022-06-07 Qualcomm Incorporated Privacy zoning and authorization for audio rendering
US10972852B2 (en) 2019-07-03 2021-04-06 Qualcomm Incorporated Adapting audio streams for rendering
US11580213B2 (en) 2019-07-03 2023-02-14 Qualcomm Incorporated Password-based authorization for audio rendering
US11356793B2 (en) 2019-10-01 2022-06-07 Qualcomm Incorporated Controlling rendering of audio data
US11356796B2 (en) 2019-11-22 2022-06-07 Qualcomm Incorporated Priority-based soundfield coding for virtual reality audio
US11317236B2 (en) 2019-11-22 2022-04-26 Qualcomm Incorporated Soundfield adaptation for virtual reality audio
US11089428B2 (en) 2019-12-13 2021-08-10 Qualcomm Incorporated Selecting audio streams based on motion
US11967329B2 (en) 2020-02-20 2024-04-23 Qualcomm Incorporated Signaling for rendering tools
US20210409888A1 (en) * 2020-06-29 2021-12-30 Qualcomm Incorporated Sound field adjustment
US11750998B2 (en) 2020-09-30 2023-09-05 Qualcomm Incorporated Controlling rendering of audio data
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
US11601776B2 (en) 2020-12-18 2023-03-07 Qualcomm Incorporated Smart hybrid rendering for augmented reality/virtual reality audio
WO2024073275A1 (en) 2022-09-26 2024-04-04 Qualcomm Incorporated Rendering interface for audio data in extended reality systems
US20240129681A1 (en) 2022-10-12 2024-04-18 Qualcomm Incorporated Scaling audio sources in extended reality systems

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104584079A (zh) * 2012-09-11 2015-04-29 高通股份有限公司 用于增强现实应用程序的装置和方法
CN105940447A (zh) * 2014-01-30 2016-09-14 高通股份有限公司 环境高阶立体混响系数的转变
CN106463127A (zh) * 2014-05-16 2017-02-22 高通股份有限公司 译码从高阶立体混响音频信号分解的向量
CN106714072A (zh) * 2012-03-06 2017-05-24 杜比国际公司 用于回放更高阶立体混响音频信号的方法和设备
CN106796794A (zh) * 2014-10-07 2017-05-31 高通股份有限公司 环境高阶立体混响音频数据的归一化

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995631A (en) * 1996-07-23 1999-11-30 Kabushiki Kaisha Kawai Gakki Seisakusho Sound image localization apparatus, stereophonic sound image enhancement apparatus, and sound image control system
EP1749420A4 (en) * 2004-05-25 2008-10-15 Huonlabs Pty Ltd AUDIO APPARATUS AND METHOD
US20070239295A1 (en) * 2006-02-24 2007-10-11 Thompson Jeffrey K Codec conditioning system and method
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
FR2916079A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
CN101615392B (zh) * 2008-06-25 2011-12-28 中国科学院声学研究所 一种利用随机阵列实现混响声场聚焦的方法
EP2374123B1 (fr) 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
AU2011231565B2 (en) * 2010-03-26 2014-08-28 Dolby International Ab Method and device for decoding an audio soundfield representation for audio playback
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
US9026450B2 (en) * 2011-03-09 2015-05-05 Dts Llc System for dynamically creating and rendering audio objects
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2765791A1 (en) * 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US9143880B2 (en) * 2013-08-23 2015-09-22 Tobii Ab Systems and methods for providing audio to a user based on gaze input
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
US20150264483A1 (en) * 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
US9940937B2 (en) * 2014-10-10 2018-04-10 Qualcomm Incorporated Screen related adaptation of HOA content
US9984693B2 (en) * 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US9584915B2 (en) * 2015-01-19 2017-02-28 Microsoft Technology Licensing, Llc Spatial audio with remote speakers
US9767618B2 (en) 2015-01-28 2017-09-19 Samsung Electronics Co., Ltd. Adaptive ambisonic binaural rendering
US9712936B2 (en) * 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106714072A (zh) * 2012-03-06 2017-05-24 杜比国际公司 用于回放更高阶立体混响音频信号的方法和设备
CN104584079A (zh) * 2012-09-11 2015-04-29 高通股份有限公司 用于增强现实应用程序的装置和方法
CN105940447A (zh) * 2014-01-30 2016-09-14 高通股份有限公司 环境高阶立体混响系数的转变
CN106463127A (zh) * 2014-05-16 2017-02-22 高通股份有限公司 译码从高阶立体混响音频信号分解的向量
CN106796794A (zh) * 2014-10-07 2017-05-31 高通股份有限公司 环境高阶立体混响音频数据的归一化

Also Published As

Publication number Publication date
CN110832883A (zh) 2020-02-21
EP3646619B1 (en) 2024-03-20
EP3646619C0 (en) 2024-03-20
CN110832883B (zh) 2021-03-16
EP3646619A1 (en) 2020-05-06
US20190007781A1 (en) 2019-01-03
US20190387348A1 (en) 2019-12-19
US10405126B2 (en) 2019-09-03
CN112954510A (zh) 2021-06-11
WO2019005342A1 (en) 2019-01-03
SG11201910908VA (en) 2020-01-30

Similar Documents

Publication Publication Date Title
CN110832883B9 (zh) 以计算机为中介的现实系统的混阶立体混响(moa)音频数据
EP3646609B1 (en) Viewport selection based on foreground audio objects
US11792378B2 (en) Suggested viewport indication for panoramic video
KR102545195B1 (ko) 가상 현실 시스템에서 컨텐트 전송 및 재생 방법 및 장치
US11348202B2 (en) Generating virtual reality content based on corrections to stitching errors
KR102371099B1 (ko) 광시야 비디오를 인코딩하기 위한 구면 회전 기법
CN111670583B (zh) 可扩展的统一的音频渲染器
TWI713017B (zh) 用於處理媒介資料之器件及方法與其之非暫時性電腦可讀儲存媒體
CN113891117B (zh) 沉浸媒体的数据处理方法、装置、设备及可读存储介质
TW202024896A (zh) 六自由度及三自由度向後相容性
US20240015197A1 (en) Method, apparatus and device for encapsulating media file, and storage medium
CN114631332A (zh) 比特流中音频效果元数据的信令
US20230360678A1 (en) Data processing method and storage medium
GB2568726A (en) Object prioritisation of virtual content
EP4167600A2 (en) A method and apparatus for low complexity low bitrate 6dof hoa rendering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40014775

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
CI03 Correction of invention patent
CI03 Correction of invention patent

Correction item: Claims

Correct: Claim submitted on February 26, 2021

False: Claim submitted on December 3, 2020

Number: 12-01

Page: ??

Volume: 37