CN111194561B - 预测性的头部跟踪的双耳音频渲染 - Google Patents

预测性的头部跟踪的双耳音频渲染 Download PDF

Info

Publication number
CN111194561B
CN111194561B CN201880063472.8A CN201880063472A CN111194561B CN 111194561 B CN111194561 B CN 111194561B CN 201880063472 A CN201880063472 A CN 201880063472A CN 111194561 B CN111194561 B CN 111194561B
Authority
CN
China
Prior art keywords
audio
head
binaural
rendering
streams
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880063472.8A
Other languages
English (en)
Other versions
CN111194561A (zh
Inventor
J·O·玛丽玛
C·T·尤班克
M·E·约翰逊
S·J·伍德
D·纳塔拉简
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN111194561A publication Critical patent/CN111194561A/zh
Application granted granted Critical
Publication of CN111194561B publication Critical patent/CN111194561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

公开了用于预测性的头部跟踪的双耳音频渲染的方法和装置,其中渲染设备基于从头戴式耳机接收的头部跟踪数据来渲染用于不同的可能头部位置的多个音频流,例如用于最后已知位置和一个或多个所预测或可能的位置的音频流,并且将所述多个音频流传输给头戴式耳机。所述头戴式耳机然后基于当前头部跟踪数据来选择和播放所述音频流中最靠近实际头部位置的一个音频流。如果所述音频流中没有任何一个音频流紧密地匹配实际头部位置,则可混合两个最靠近的音频流。向头戴式耳机传输多个音频流以及在头戴式耳机上选择或混合音频流可减轻或消除感知到的头部跟踪延迟。

Description

预测性的头部跟踪的双耳音频渲染
背景技术
虚拟现实(VR)允许用户体验和/或与沉浸式人工环境进行交互,使得用户感觉他们好像身处于该环境中。例如,虚拟现实系统可向用户显示立体场景以产生深度错觉,并且计算机可实时调整场景内容以提供用户在场景内移动的错觉。当用户通过虚拟现实系统观看图像时,用户可因此感觉他们好像正从第一人称视角在场景内移动。类似地,混合现实(MR)将计算机生成的信息(称为虚拟内容)与真实世界图像或真实世界视图组合,以增强用户的世界视图或向用户的世界视图添加内容,或者另选地将真实世界对象的虚拟表示与三维(3D)虚拟世界的视图组合。因此,虚拟现实的模拟环境和/或混合现实的混合环境可用于为多种应用提供交互式用户体验。
发明内容
本文描述了用于预测性的头部跟踪的双耳音频渲染的方法和装置的各种实施方案。本文描述了音频渲染系统和音频渲染方法的实施方案,其可例如由移动多用途设备诸如智能电话、平板设备和平板电脑设备实施,所述移动多用途设备渲染并经由无线技术(例如,蓝牙)传输头部跟踪的双耳音频给用户所穿戴的双耳音频设备(例如,耳机、耳塞等)。实施方案也可在包括计算设备(称为基站)的VR/AR系统中实施,所述计算设备渲染并经由无线技术将头部跟踪的双耳音频传输给提供双耳音频输出的头戴式显示器 (HMD)或提供给与HMD一起使用的单独的双耳音频设备。用户所穿戴的提供双耳音频输出的设备(例如,HMD、耳机、耳塞等)在本文中可称为“头戴式耳机”。渲染并传输音频给头戴式耳机的设备在本文中可被称为“渲染设备”。头戴式耳机可包括头部跟踪技术(例如,IMU(惯性测量单元)、陀螺仪、姿态传感器、罗盘等)。
头部跟踪的双耳音频渲染是可用于包括但不限于VR/AR应用的应用中来创建虚拟音频源的技术,该虚拟音频源在环境中看起来是稳定的,而与收听者的实际取向/位置无关。头部跟踪的双耳音频渲染方法可将双耳音频流(包括左音频声道和右音频声道)输出给头戴式耳机,使得收听者以空间音频感听到声音。换句话说,收听者听到的声音就好像声音是以精确的距离和方向来自真实世界位置一样。
在对头部运动进行响应时,所感知到的延迟可能在头部跟踪、渲染和回放音频方面是一个问题。当头部跟踪数据和音频在渲染设备和头戴式耳机之间通过无线链路传输时,延迟可能是个特别的问题,可能会增加 300ms或更长的延迟。在实施方案中,为了缓解所感知到的延迟的问题,渲染设备不是基于预测的头部位置生成单个音频流,而是基于头部跟踪数据渲染用于多个不同头部位置的多个音频流,例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且在多个音频流中将用于这些不同位置的音频传输给头戴式耳机。标识不同流的位置的元数据可以与音频流包括在一起。然后头戴式耳机基于当前头部跟踪数据和所述元数据来选择所述音频流中最靠近实际头部位置的一个音频流。选择音频流是一种相对简单且低成本的操作,因此在头戴式耳机上只需要最小的处理能力。在一些实施方案中,如果音频流中没有任何一个音频流与实际头部位置紧密匹配,则头戴式耳机可选择两个最靠近的音频流并混合所述音频流。向头戴式耳机发送多个音频流以及在头戴式耳机上选择(或混合)匹配音频流可缓解或消除感知到的头部跟踪延迟。
在一些实施方案中,如果存在单个虚拟音频源,则渲染设备可基于由头戴式耳机接收的头部跟踪数据所指示的头部位置来渲染单个音频流。在头戴式耳机处,头戴式耳机可基于由当前头部跟踪数据确定的用户的头部的实际位置来改变左音频声道和/或右音频声道以调节虚拟音频源的感知位置,例如通过向左音频声道或右音频声道添加延迟。
在一些实施方案中,当多个音频流被渲染和被传输时,渲染设备可使用多声道音频压缩技术,该技术利用音频信号的相似性来压缩音频信号并因此减少无线带宽使用。
虽然参考通过无线技术连接到用户所穿戴的头戴式耳机或HMD的移动多用途设备或基站来描述实施方案,但实施方案也可在其他系统中实施,例如在家用娱乐系统中实施,家用娱乐系统渲染并经由无线技术将双耳音频传输给用户所穿戴的头戴式耳机。另外,实施方案也可在使用有线技术而不是无线技术来将双耳音频传输给头戴式耳机的系统中实现。更一般地,实施方案可在任何包括双耳音频输出并且提供头部运动和取向跟踪的系统中实施。
附图说明
图1A和图1B例示了可实施本文所述音频渲染方法的实施方案的示例性移动多用途设备的实施方案。
图2A和图2B例示了可实施本文所述音频渲染方法的实施方案的示例性VR/AR系统的实施方案。
图2C例示了与VR/AR系统一起使用以实施本文所述音频渲染方法的实施方案的移动多用途设备。
图3例示了根据一些实施方案的音频渲染系统的部件。
图4为根据一些实施方案的可由图1A至图3所示系统实施的音频渲染方法的流程图。
图5是可由图1A至图3所示系统实施的其中音频流可被混合的音频渲染方法的流程图。
图6A和图6B例示了通过双耳音频设备的传统音频输出。
图6C和图6D例示了根据一些实施方案的预测性的头部跟踪的双耳音频渲染。
图7A和图7B例示了根据一些实施方案的为不同的可能头部位置渲染的多个音频流。
图8例示了根据一些实施方案的在多个维度中提供声音的方向性。
本说明书包括参考“一个实施方案”或“实施方案”。出现短语“在一个实施方案中”或“在实施方案中”并不一定是指同一个实施方案。特定特征、结构或特性可以与本公开一致的任何合适的方式被组合。
“包括”,该术语是开放式的。如在权利要求书中所使用的,该术语不排除附加结构或步骤。考虑以下引用的权利要求:“一种包括一个或多个处理器单元...的装置”此类权利要求不排除该装置包括附加部件(例如,网络接口单元、图形电路等)。
“被配置为”,各种单元、电路或其他部件可被描述为或叙述为“被配置为”执行一项或多项任务。在此类上下文中,“被配置为”用于通过指示单元/电路/部件包括在操作期间执行这一项或多项任务的结构(例如,电路)来暗指该结构。如此,单元/电路/部件据称可被配置为即使在指定的单元/电路/部件当前不可操作(例如,未接通)时也执行该任务。与“被配置为”语言一起使用的单元/电路/部件包括硬件——例如电路、存储可执行以实现操作的程序指令的存储器等。引用单元/电路/部件“被配置为”执行一项或多项任务明确地旨在针对该单元/电路/部件不援引35U.S.C.§112 的第六段。此外,“被配置为”可包括由软件或固件(例如,FPGA或执行软件的通用处理器)操纵的通用结构(例如,通用电路)以能够执行待解决的一项或多项任务的方式操作。“被配置为”还可包括调整制造过程 (例如,半导体制作设施),以制造适用于实现或执行一项或多项任务的设备(例如,集成电路)。
“第一”“第二”等。如本文所用,这些术语充当它们所在之前的名词的标签,并且不暗指任何类型的排序(例如,空间的、时间的、逻辑的等)。例如,缓冲电路在本文中可被描述为执行“第一”值和“第二”值的写入操作。术语“第一”和“第二”未必暗指第一值必须在第二值之前被写入。
“基于”或“取决于”,如本文所用,这些术语用于描述影响确定的一个或多个因素。这些术语不排除可影响确定的附加因素。即,确定可仅基于这些因素或至少部分地基于这些因素。考虑短语“基于B来确定 A”。在这种情况下,B为影响A的确定的因素,此类短语不排除A的确定也可基于C。在其他实例中,可仅基于B来确定A。
“或”,在权利要求书中使用时,术语“或”被用作包含性的或,而不是排他性的或。例如,短语“x、y或z中的至少一个”表示x、y和z中的任何一个以及它们的任何组合。
具体实施方式
本文描述了用于预测性的头部跟踪的双耳音频渲染的方法和装置的各种实施方案。本文描述了音频渲染系统和音频渲染方法的实施方案,其可例如由移动多用途设备诸如智能电话、平板设备和平板电脑设备实施,所述移动多用途设备渲染并经由无线技术(例如,蓝牙)传输头部跟踪的双耳音频给用户所穿戴的双耳音频设备(例如,耳机、耳塞等)。实施方案也可在包括计算设备(称为基站)的VR/AR系统中实施,所述计算设备渲染并经由无线技术将头部跟踪的双耳音频传输给提供双耳音频输出的头戴式显示器 (HMD)或提供给与HMD一起使用的单独的双耳音频设备。用户所穿戴的提供双耳音频输出的设备(例如,HMD、耳机、耳塞等)在本文中可称为“头戴式耳机”。渲染并传输音频给头戴式耳机的设备在本文中可被称为“渲染设备”。头戴式耳机可包括头部跟踪技术(例如,IMU(惯性测量单元)、陀螺仪、姿态传感器、罗盘等)。
头部跟踪的双耳音频渲染是可用于包括但不限于VR/AR应用的应用中来创建虚拟音频源的技术,该虚拟音频源在环境中看起来是稳定的,而与收听者的实际取向/位置无关。头部跟踪的双耳音频渲染方法可渲染并输出双耳音频流(包括左音频声道和右音频声道)给头戴式耳机,使得收听者以空间音频感听到声音。换句话说,收听者听到的声音就好像声音是以精确的距离和方向来自真实世界位置一样。例如,系统可通过头戴式耳机播放声音,使得收听者听到来自在其左方、其右方、正前方、后方或某一角度的虚拟源的声音。左音频声道和右音频声道的各方面(例如,等级、频率、延迟、混响等)可被衰减以影响声音的所感知方向性和距离。
头戴式耳机包括穿戴在用户的左耳中或上的左音频输出部件、以及穿戴在用户的右耳中或上的右音频输出部件。用户所感知的声音的方向性可例如通过渲染双耳音频流的左音频声道和右音频声道以提高由音频输出部件中一者所输出的声音的等级和/或降低由另一音频输出部件所输出的声音的等级来提供。如果这两个部件处于同一等级,则声音可能像是来自用户的前方。如果等级在右部件中接近零并且在左部件中更高,则声音可能像是来自用户的左方。如果等级在左部件中接近零并且在右部件中更高,则声音可能像是来自用户的右方。如果等级在左部件中较高而在右部件中较低,则声音可能像是来自用户左前方的位置。如果等级在右部件中较高而在左部件中较低,则声音可能像是来自用户右前方的位置。此外,由一个或这两个部件输出的声音可被调制,以使得像是声音来自用户的后方。此外,调制一个或这两个部件的声级可提供距离感;在较低等级,声音可能像是来自更远的地方;在较高等级,声音可能像是来自附近。代替或除了调节声音之外,左音频声道和右音频声道的其他方面可被衰减以影响音频的所感知的方向性和距离,包括但不限于频率、延迟和混响。
与常规音频不同,在头部跟踪的双耳音频中,声音的虚拟源不随收听者的头部移动。这可通过跟踪收听者头部的运动、以及在收听者移动其头部时调节双耳音频流的渲染来实现。然而,在对头部运动进行响应时,所感知到的延迟可能在头部跟踪、渲染和回放音频方面是一个问题。例如,在所渲染的音频通过头戴式耳机播放时,用户的头部可能已移动。虚拟音频源可最初与头部一起移动,然后在移动停止时恢复到其正确的虚拟位置。当头部跟踪数据和音频在渲染设备和头戴式耳机之间通过无线链路传输时,延迟可能特别有问题,可能会增加300ms或更长的延迟。在头戴式耳机上执行渲染和回放两者减少延迟,并因此可减轻延迟问题。然而,双耳音频渲染是计算密集型的,从而需要昂贵的硬件(例如,处理器)和电源。使用单独的渲染设备诸如基站或移动多用途设备来执行音频渲染允许更轻的以及更廉价的头戴式耳机,因为重载荷渲染由该渲染设备执行。渲染设备可基于头部跟踪数据来预测未来的头部取向/位置,并且基于所述预测来渲染音频流。然而,这可能导致虚拟音频源在头部运动改变(即,开始、结束、加速)时偏离目标,从而导致实际头部位置与所述预测不同。
在实施方案中,为了缓解所感知到的延迟的问题,渲染设备不是基于已知或预测的头部位置来生成单个音频流,而是基于头部跟踪数据渲染用于多个不同头部位置的多个音频流,例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且在多个音频流中将用于这些不同位置的音频传输给头戴式耳机。标识不同流的位置的元数据可以与音频流包括在一起。然后头戴式耳机基于当前头部跟踪数据和所述元数据来选择所述音频流中最靠近实际头部位置的一个音频流。选择音频流是一种相对简单且低成本的操作,因此在头戴式耳机上只需要最小的处理能力。在一些实施方案中,如果音频流中没有任何一个音频流与实际头部位置紧密匹配,则头戴式耳机可选择两个最靠近的音频流并混合所述音频流。在一些实施方案中,头戴式耳机可选择并混合两个以上音频流。向头戴式耳机发送多个音频流以及在头戴式耳机上选择(或混合)匹配音频流可缓解或消除感知到的头部跟踪延迟。
作为一个非限制性实例,如果渲染设备对从头戴式耳机接收的头部跟踪数据的分析指示用户的头部当前是静止的,则渲染设备可渲染并传输用于已知位置、用于已知位置向左5度的位置、和用于已知位置向右5度的位置的音频流,以防用户在获得头部跟踪信息到渲染设备、渲染音频、以及将所渲染的音频传输到头戴式耳机所花费的时间期间转动其头部。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。
又如,如果渲染设备对从头戴式耳机接收的头部跟踪数据的分析指示用户的头部以已知角速率转动,则渲染设备可渲染和传输在当前已知位置 (假使头部移动停止)、在由已知角速率预测的位置处以及在以已知角速率的两倍预测的位置处的音频流。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。
在一些实施方案中,如果存在单个虚拟音频源,则渲染设备可基于由从头戴式耳机接收的头部跟踪数据所指示的头部位置来渲染单个音频流。在头戴式耳机处,头戴式耳机可基于由当前头部跟踪数据确定的用户的头部的实际位置来改变左音频声道和/或右音频声道以调节虚拟音频源的感知位置,例如通过向左音频声道或右音频声道添加延迟。
在一些实施方案中,当多个音频流被渲染和被传输时,渲染设备可使用多声道音频压缩技术,该技术利用音频信号的相似性来压缩音频信号并因此减少无线带宽使用。
虽然一般性地描述实施方案,其中渲染设备渲染多个音频流并且头戴式耳机选择一个或多个音频流来在一个维度(即,水平维度)中提供声音的方向性,但实施方案可用于在多个维度中提供声音的方向性,例如提供在方位角、仰角处的声音以及指示平移运动的声音。例如,基站可渲染水平维度中多个位置处的音频流,并且还渲染高于和/或低于水平维度的音频流。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置和高度(或倾斜)的音频流,或者另选地,如果头部的实际位置在所述音频流之间某个地方,则混合所述流中的两个流或更多个流。
虽然参考通过无线技术连接到用户所穿戴的头戴式耳机或HMD的移动多用途设备或基站来描述实施方案,但实施方案也可在其他系统中实施,例如在家用娱乐系统中实施,家用娱乐系统渲染并经由无线技术将双耳音频传输给用户所穿戴的头戴式耳机。另外,实施方案也可在使用有线技术而不是无线技术的系统中实施,将双耳音频传输给头戴式耳机。更一般地,实施方案可在任何包括双耳音频输出并且提供头部运动和取向跟踪的系统中实施。
图1A和图1B例示了可实施本文所述空间音频导航系统和方法的实施方案的示例性移动多用途设备的实施方案。如图1A所示,移动设备100诸如智能电话、平板电脑或平板设备可由用户190例如在手中或口袋中携带。用户108可穿戴被称为头戴式耳机108的双耳音频设备(例如,耳机、头戴式耳机、有线或无线耳塞等)。头戴式耳机108可包括右音频110A和左音频110B输出部件(例如耳塞)以及用于检测和跟踪用户190的头部相对于真实世界的运动和取向的一个或多个运动传感器106。运动传感器可包括但不限于IMU(惯性测量单元)、陀螺仪、姿态传感器、罗盘等中的一者或多者。
头戴式耳机108可经由有线或无线连接向设备100传送头部取向和运动信息(头部跟踪数据111)。移动设备100可基于头部跟踪数据111渲染用于多个不同头部位置的多个音频流112(每个流包括右音频声道和左音频声道),例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且经由无线连接将音频流112传输给头戴式耳机108。元数据可以与音频流 112包括在一起,以标识不同流的位置。然后头戴式耳机108的处理器102 可基于当前头部跟踪数据和元数据来选择音频流112中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流112中没有任何一个音频流与实际头部位置紧密匹配,则头戴式耳机108的处理器102可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给头戴式耳机108的右音频110A和左音频110B输出部件。
图3为根据一些实施方案的进一步例示如图1所示系统的部件的框图。移动多用途设备100诸如智能电话、平板电脑或平板设备可包括但不限于一个或多个处理器104、存储器130、一个或多个传感器120、和支持触摸的显示器102。
设备100可包括支持触摸的显示器102,经由显示器102可将内容显示给用户,并且用户经由显示器102可向设备100输入信息和命令。显示器 102可实施各种类型的支持触摸的显示技术中的任一者。
设备100还可包括实施移动多用途设备的功能的一个或多个处理器 104。设备100还可包括存储器130,该存储器存储能够由处理器104执行的软件(代码132)以及当在处理器104上执行时可由代码132使用的数据 134。代码132和数据134可例如包括用于执行设备100的操作系统的代码和数据、以及用于在设备100上实施各种应用的代码和数据。代码132还可包括但不限于能够由控制器104执行的用于实施本文所述预测性的头部跟踪的双耳音频渲染方法的程序指令。数据134还可包括但不限于真实世界标测图信息、音频文件、或可由本文所述预测性的头部跟踪的双耳音频渲染方法使用的其他数据。
在各种实施方案中,处理器104可为包括一个处理器的单处理器系统、或包括若干个处理器(例如,两个、四个、八个或另一合适数量)的多处理器系统。处理器104可包括被配置为实现任何合适的指令集架构的中央处理单元(CPU),并且可被配置为执行在该指令集架构中定义的指令。例如,在各种实施方案中,处理器104可包括实现多种指令集架构(ISA)(诸如x86、PowerPC、SPARC、RISC或MIPS ISA、或任何其他合适的ISA)中的任何指令集架构的通用处理器或嵌入式处理器。在多处理器系统中,每个处理器可共同实现相同的ISA,但不是必需的。处理器 104可采用任何微架构,包括标量、超标量、流水线、超流水线、乱序、有序、推测性、非推测性等,或它们的组合。处理器104可以包括实现微码技术的电路。处理器104可以包括各自被配置为执行指令的一个或多个处理核心。处理器104可以包括一个或多个级别的高速缓存,该高速缓存可以采用任何大小和任何配置(集合关联、直接映射等)。在一些实施方案中,处理器104可包括至少一个音频处理单元(APU),该至少一个音频处理单元(APU)可包括任何合适的音频处理电路。在一些实施方案中,处理器104可包括至少一个图形处理单元(GPU),该至少一个图形处理单元(GPU)可包括任何合适的图形处理电路。通常,GPU可被配置为将待显示对象渲染到帧缓冲区中(例如,包括整个帧的像素数据的帧缓冲区)。GPU可包括一个或多个图形处理器,该图形处理器可执行图形软件以进行部分或全部的图形操作或某些图形操作的硬件加速。在一些实施方案中,处理器104可包括用于处理和渲染视频和/或图像的一个或多个其他部件,例如图像信号处理器(ISP)、编码器/解码器(编解码器)等。在一些实施方案中,处理器104可包括至少一个片上系统(SOC)。
存储器130可包括任何类型的存储器,诸如动态随机存取存储器 (DRAM)、同步DRAM(SDRAM)、双数据速率(DDR、DDR2、DDR3等) SDRAM(包括SDRAM的移动版本,诸如mDDR3等,或SDRAM的低功率版本,诸如LPDDR2等)、RAMBUS DRAM(RDRAM)、静态 RAM(SRAM)等。在一些实施方案中,一个或多个存储器设备可以耦合到电路板上以形成存储器模块,诸如单列直插存储器模块(SIMM)、双列直插存储器模块(DIMM)等。另选地,设备可以与实现系统的集成电路在芯片堆叠构造、封装堆叠构造或者多芯片模块构造中安装。
设备100可包括一个或多个位置传感器120,例如使得能够确定设备 100的真实世界位置的传感器,例如GPS(全球定位系统)技术传感器、dGPS(差分GPS)技术传感器、相机、室内定位技术传感器、SLAM(同时定位和标测)技术传感器等。
用户可穿戴被称为头戴式耳机108的双耳音频设备(例如,耳机、头戴式耳机、有线或无线耳塞等)。头戴式耳机108可包括右音频110A和左音频110B输出部件(例如耳塞)以及用于检测和跟踪用户190的头部相对于真实世界的运动和取向的一个或多个运动传感器106。运动传感器106可包括但不限于IMU(惯性测量单元)、陀螺仪、姿态传感器、罗盘等中的一者或多者。头戴式耳机108还可包括一个或多个处理器102。在一些实施方案中,处理器102可包括至少一个音频处理单元(APU),该至少一个音频处理单元(APU)可包括任何合适的音频处理电路。
头戴式耳机108可经由有线或无线连接向设备100传送头部取向和运动信息(头部跟踪数据111)。移动设备100可基于头部跟踪数据111渲染用于多个不同头部位置的多个音频流112(每个流包括右音频声道和左音频声道),例如用于最后已知头部位置和一个或多个所预测或可能位置的音频流,并且经由无线连接将音频流112传输给头戴式耳机108。元数据可以与音频流112包括在一起,以标识不同流的位置。然后头戴式耳机108的处理器102可基于当前头部跟踪数据和元数据来选择音频流112中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流112中没有任何一个音频流与实际头部位置紧密匹配,则头戴式耳机108的处理器102 可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给头戴式耳机108的右音频110A和左音频110B输出部件。
图2A和图2B例示了可实施本文所述预测性的头部跟踪的双耳音频渲染方法的实施方案的示例性VR/AR系统的实施方案。
图2A例示了根据至少一些实施方案的VR/AR系统。在一些实施方案中,VR/AR系统可以包括可由用户290穿戴的HMD 200诸如头盔、护目镜或眼镜。VR/AR系统还可包括基站260,该基站执行VR/AR系统的至少一些功能(例如,渲染用于显示的虚拟内容和伴随音频)并且经由无线连接与 HMD 200通信。
HMD 200可包括收集关于用户290的环境的信息(视频、深度信息、照明信息等)和关于用户290的信息(例如,用户的表情、眼睛移动、头部运动、注视方向、手势等)的传感器。可至少部分地基于从传感器获得的各种信息来渲染虚拟内容以用于显示给用户290。虚拟内容可由HMD 200显示给用户290以提供虚拟现实视图(在VR应用中)或提供现实的増强视图(在MR应用中)。HMD 200可实施各种类型的显示技术中的任一者。 HMD 200还可包括使得能够确定HMD 200的真实世界位置的一个或多个位置传感器,例如GPS(全球定位系统)技术传感器、dGPS(差分GPS)技术传感器、相机、室内定位技术传感器、SLAM(同时定位和标测)技术传感器等。HMD 200还可包括用于检测和跟踪用户290的头部相对于真实世界的运动和取向的一个或多个运动传感器206。运动传感器206可包括但不限于 IMU(惯性测量单元)、陀螺仪、姿态传感器、罗盘等中的一者或多者。
HMD 200可提供双耳音频输出(例如,经由右音频210A和左音频 210B输出部件)。例如,右音频210A和左音频210B输出部件可为集成在 HMD 200中并且分别定位在用户的右耳和左耳处或上的罩耳式扬声器或受话器。又如,右音频210A和左音频210B输出部件可为通过有线或无线连接耦接到HMD 200的右和左耳塞或耳机。
HMD 200可经由无线连接向基站260传送头部取向和运动信息(头部跟踪数据211)。基站260可基于头部跟踪数据211渲染用于多个不同头部位置的多个音频流212(每个流包括右音频声道和左音频声道),例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且经由无线连接将音频流212传输给HMD 200。元数据可以与音频流212包括在一起,以标识不同流的位置。HMD 200上的包括一个或多个处理器的控制器204然后可基于当前头部跟踪数据和元数据来选择音频流212中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流212中没有任何一个音频流与实际头部位置紧密匹配,则控制器204可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给 HMD 200的右音频210A和左音频210B输出部件。
图2B为根据一些实施方案的进一步例示如图2A所示VR/AR系统的部件的框图。在一些实施方案中,VR/AR系统可包括HMD 200,诸如头戴式耳机、头盔、护目镜或眼镜。VR/AR系统还可包括基站260,该基站执行VR/AR系统的至少一些功能(例如,渲染用于显示的虚拟内容和伴随音频)并且经由无线连接与HMD 200通信。
HMD 200可包括显示器202部件或子系统,虚拟内容可经由其被显示给用户以提供虚拟现实视图(在VR应用中)或提供现实的増强视图(在MR 应用中)。显示器202可实施各种类型的显示技术中的任一者。例如,HMD 200可包括近眼显示系统,该近眼显示系统在用户290的眼睛前面的屏幕上显示左图像和右图像,诸如DLP(数字光处理)、LCD(液晶显示器)和LCoS(硅上液晶)技术显示系统。作为另一示例,HMD 200可以包括将左图像和右图像扫描到受试者的眼睛的投影仪系统。为了扫描图像,左投影仪和右投影仪生成光束,该光束被引导到位于用户290的眼睛的前面的左显示器和右显示器(例如,椭球镜);显示器将光束反射到用户的眼睛。左显示器和右显示器可为透射显示器,其允许来自环境的光透过,使得用户看到以所投影虚拟内容增强的现实的视图。
HMD 200还可包括实施VR/AR系统的HMD侧功能的包括一个或多个处理器的控制器204。HMD 200还可包括存储器230,该存储器存储能够由控制器204执行的软件(代码232)以及当在控制器204上执行时可由代码 232使用的数据234。代码232和数据234可例如包括用于向用户显示虚拟内容的VR和/或AR应用代码和数据。代码232和数据234还可包括但不限于用于实施本文所述预测性的头部跟踪的双耳音频渲染方法的程序指令和数据。
在各种实施方案中,控制器204可为包括一个处理器的单处理器系统、或包括若干个处理器(例如,两个、四个、八个或另一合适数量)的多处理器系统。控制器204可包括被配置为实现任何合适的指令集架构的中央处理单元(CPU),并且可被配置为执行在该指令集架构中定义的指令。例如,在各种实施方案中,控制器204可包括实现多种指令集架构(ISA)(诸如x86、PowerPC、SPARC、RISC或MIPS ISA、或任何其他合适的ISA)中的任何指令集架构的通用处理器或嵌入式处理器。在多处理器系统中,每个处理器可共同实现相同的ISA,但不是必需的。控制器 204可采用任何微架构,包括标量、超标量、流水线、超流水线、乱序、有序、推测性、非推测性等,或它们的组合。控制器204可包括实现微码技术的电路。控制器204可包括各自被配置为执行指令的一个或多个处理核心。控制器204可包括一个或多个级别的高速缓存,该高速缓存可采用任何大小和任何配置(集合关联、直接映射等)。在一些实施方案中,控制器204可包括至少一个音频处理单元(APU),该至少一个音频处理单元(APU)可包括任何合适的音频处理电路。在一些实施方案中,控制器204 可包括至少一个图形处理单元(GPU),该至少一个图形处理单元 (GPU)可包括任何合适的图形处理电路。通常,GPU可被配置为将待显示对象渲染到帧缓冲区中(例如,包括整个帧的像素数据的帧缓冲区)。 GPU可包括一个或多个图形处理器,该图形处理器可执行图形软件以进行部分或全部的图形操作或某些图形操作的硬件加速。在一些实施方案中,控制器204可包括用于处理和/或渲染视频和/或图像的一个或多个其他部件,例如图像信号处理器(ISP)、编码器/解码器(编解码器)等。在一些实施方案中,控制器204可包括至少一个片上系统(SOC)。
存储器230可包括任何类型的存储器,诸如动态随机存取存储器 (DRAM)、同步DRAM(SDRAM)、双数据速率(DDR、DDR2、DDR3等) SDRAM(包括SDRAM的移动版本,诸如mDDR3等,或SDRAM的低功率版本,诸如LPDDR2等)、RAMBUS DRAM(RDRAM)、静态 RAM(SRAM)等。在一些实施方案中,一个或多个存储器设备可以耦合到电路板上以形成存储器模块,诸如单列直插存储器模块(SIMM)、双列直插存储器模块(DIMM)等。另选地,设备可以与实现系统的集成电路在芯片堆叠构造、封装堆叠构造或者多芯片模块构造中安装。
在一些实施方案中,HMD 200可包括收集关于用户的环境的信息(视频、深度信息、照明信息等)和关于用户的信息(例如,用户的表情、眼睛移动、手势等)的传感器。传感器可向HMD 200的控制器204提供所收集的信息。传感器可包括但不限于可见光相机(例如,摄像机)、红外 (IR)相机、具有IR照明源的IR相机、光探测和测距(LIDAR)发射器和接收器/检测器、以及具有激光发射器和接收器/检测器的基于激光的传感器中的一者或多者。传感器数据中的至少一些可被传输给基站260。
HMD 200可包括至少一个运动传感器206,诸如惯性测量单元(IMU),用于检测HMD200的位置、取向和运动,并且因此检测用户的头部相对于真实世界的位置、取向和运动。代替IMU或除了IMU之外,运动传感器 206可包括陀螺仪、姿态传感器、罗盘、或其他用于检测HMD 200的位置、取向和运动并且从而检测用户的头部相对于真实世界的位置、取向和运动的传感器技术。
HMD 200可包括使得能够确定HMD 200的真实世界位置的一个或多个位置传感器,例如GPS(全球定位系统)技术传感器、dGPS(差分GPS)技术传感器、相机、室内定位技术传感器、SLAM(同时定位和标测)技术传感器等。
HMD 200可提供双耳音频输出(例如,经由右音频210A和左音频 210B输出部件)。例如,右音频210A和左音频210B可为集成在HMD 200 中并且分别定位在用户的右耳和左耳处或上的罩耳式扬声器或受话器。又如,右音频210A和左音频210B可为通过有线或无线连接耦接到HMD 200 的右和左耳塞或耳机。HMD可经由有线或无线连接将右音频声道212A和左音频声道212B传输给右音频210A和左音频210B输出部件。
基站260可包括实施VR/AR系统的基站侧功能的一个或多个处理器264。基站260还可包括存储器270,该存储器存储能够由处理器264执行的软件(代码272)以及当在处理器264上执行时可由代码272使用的数据274。代码272和数据274可例如包括用于渲染要显示给用户的虚拟内容的 VR和/或AR应用代码和数据。代码272和数据274还可包括但不限于用于实施本文所述预测性的头部跟踪的双耳音频渲染方法的程序指令和数据。
在各种实施方案中,处理器264可为包括一个处理器的单处理器系统、或包括若干个处理器(例如,两个、四个、八个或另一合适数量)的多处理器系统。处理器264可包括被配置为实现任何合适的指令集架构的中央处理单元(CPU),并且可被配置为执行在该指令集架构中定义的指令。例如,在各种实施方案中,处理器264可包括实现多种指令集架构(ISA)(诸如x86、PowerPC、SPARC、RISC或MIPS ISA、或任何其他合适的ISA)中的任何指令集架构的通用处理器或嵌入式处理器。在多处理器系统中,每个处理器可共同实现相同的ISA,但不是必需的。处理器 264可采用任何微架构,包括标量、超标量、流水线、超流水线、乱序、有序、推测性、非推测性等,或它们的组合。处理器264可以包括实现微码技术的电路。处理器264可以包括各自被配置为执行指令的一个或多个处理核心。处理器264可以包括一个或多个级别的高速缓存,该高速缓存可以采用任何大小和任何配置(集合关联、直接映射等)。在一些实施方案中,处理器264可包括至少一个音频处理单元(APU),该至少一个音频处理单元(APU)可包括任何合适的音频处理电路。在一些实施方案中,处理器264可包括至少一个图形处理单元(GPU),该至少一个图形处理单元(GPU)可包括任何合适的图形处理电路。通常,GPU可被配置为将待显示对象渲染到帧缓冲区中(例如,包括整个帧的像素数据的帧缓冲区)。GPU可包括一个或多个图形处理器,该图形处理器可执行图形软件以进行部分或全部的图形操作或某些图形操作的硬件加速。在一些实施方案中,处理器264可包括用于处理和/或渲染视频和/或图像的一个或多个其他部件,例如图像信号处理器(ISP)、编码器/解码器(编解码器)等。在一些实施方案中,处理器264可包括至少一个片上系统(SOC)。
存储器270可包括任何类型的存储器,诸如动态随机存取存储器 (DRAM)、同步DRAM(SDRAM)、双数据速率(DDR、DDR2、DDR3等) SDRAM(包括SDRAM的移动版本,诸如mDDR3等,或SDRAM的低功率版本,诸如LPDDR2等)、RAMBUS DRAM(RDRAM)、静态 RAM(SRAM)等。在一些实施方案中,一个或多个存储器设备可以耦合到电路板上以形成存储器模块,诸如单列直插存储器模块(SIMM)、双列直插存储器模块(DIMM)等。另选地,设备可以与实现系统的集成电路在芯片堆叠构造、封装堆叠构造或者多芯片模块构造中安装。
HMD 200可经由无线连接向基站260传送头部取向和运动信息(头部跟踪数据211)。基站260可基于头部跟踪数据211渲染用于多个不同头部位置的多个音频流212(每个流包括右音频声道和左音频声道),例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且经由无线连接将音频流212传输给HMD 200。元数据可以与音频流212包括在一起,以标识不同流的位置。控制器204然后可基于当前头部跟踪数据和元数据来选择音频流212中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流212中没有任何一个音频流与实际头部位置紧密匹配,则控制器204可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给HMD 200的右音频210A和左音频 210B输出部件。
图2C例示了与VR/AR系统一起使用以实施本文所述音频渲染方法的实施方案的移动多用途设备。在一些实施方案中,图1和图1B所示的移动多用途设备100可与图2A和图2B所示的HMD一起使用。HMD 200可经由无线连接向设备100传送由运动传感器206收集的头部取向和运动信息 (头部跟踪数据)。设备100可基于头部跟踪数据渲染用于多个不同头部位置的多个音频流(每个流包括右音频声道和左音频声道),例如用于最后已知位置和一个或多个所预测或可能位置的音频流,并且经由无线连接将音频流传输给HMD 200。元数据可以与音频流包括在一起,以标识不同流的位置。HMD 200的控制器204然后可基于当前头部跟踪数据和元数据来选择音频流中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流中没有任何一个音频流与实际头部位置紧密匹配,则控制器204可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给HMD 200的右音频210A和左音频210B输出部件。
图3例示了根据一些实施方案的音频渲染系统的部件。音频渲染系统可由图1A和图1B所示的移动多用途设备100和头戴式耳机108、由图2A 和图2B所示的HMD 200和基站260、或由图2C所示的移动多用途设备100和HMD 200来实现。更一般地,实施方案可在任何渲染双耳音频输出并且提供头部运动和取向跟踪的设备或系统中实施。
在音频渲染系统的实施方案中,头戴式耳机300的头部跟踪部件306 可收集头部跟踪数据。头部跟踪数据可经由无线连接传输给渲染设备360。在渲染设备360处,头部跟踪分析部件362可分析头部跟踪数据以确定用户的头部的位置和运动,并且基于当前位置和运动角速率来生成两个或更多个预测位置364,例如当前头部位置和一个或多个可能位置。渲染设备 360的音频渲染部件366然后可渲染与预测位置364对应的多个音频流。
所述多个音频流通过无线连接被传输给头戴式耳机300。元数据可以与音频流包括在一起,以标识不同流的位置。在一些实施方案中,渲染设备360可使用多声道音频压缩技术,该技术利用音频信号的相似性来压缩音频信号并因此减少无线带宽使用。
在头戴式耳机300处,流选择和混合部件304然后可基于来自头部跟踪部件306的当前头部跟踪数据和所述元数据来选择音频流中最靠近实际头部位置的一个音频流。在一些实施方案中,如果音频流中没有任何一个音频流与实际头部位置紧密匹配,则流选择和混合部件304可选择两个最靠近的音频流并混合所述音频流。然后将所选择(或混合)音频流的右声道和左声道播放给头戴式耳机300的右音频310A和左音频310B输出部件。右音频声道和左音频声道被渲染,使得用户以空间音频感听到声音。换句话说,用户听到的声音就好像声音是以精确的距离和方向来自真实世界位置一样。例如,系统可通过头戴式耳机播放声音,使得用户听到来自其左方、其右方、正前方、后方或某一角度的声音。当用户移动其头部时,本文所述的预测性头部跟踪双耳音频渲染方法使得虚拟声音源在环境中保持稳定,而与用户的头部的取向/位置无关,并且没有常规系统中的感知到延迟问题。
作为一个非限制性实例,如果渲染设备360对从头戴式耳机300接收的头部跟踪数据的分析指示用户的头部当前是静止的,则渲染设备360可渲染并传输用于已知位置、用于已知位置向左5度的位置、和用于已知位置向右5度的位置的音频流,以防用户在获得头部跟踪信息到渲染设备 360、渲染音频、以及将所渲染的音频传输到头戴式耳机300所花费的时间期间转动其头部。在头戴式耳机300处,头戴式耳机300基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。
又如,如果渲染设备360对从头戴式耳机300接收的头部跟踪数据的分析指示用户的头部以已知角速率转动,则渲染设备360可渲染和传输在当前已知位置(假使头部移动停止)处、在由已知角速率预测的位置处以及在以已知角速率的两倍预测的位置处的音频流。在头戴式耳机300处,头戴式耳机300基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。
图4为根据一些实施方案的可由图1A至图3所示系统实施的音频渲染方法的高级流程图。如在400处所示,头戴式耳机跟踪用户的头部的运动并且经由无线连接将头部跟踪数据传输给渲染设备。如在410处所示,渲染设备分析头部跟踪数据以预测用户的头部的多个潜在位置。如在420处所示,渲染设备渲染与用户的头部的多个潜在位置对应的音频流,并且经由无线连接将音频流与元数据一起传输给头戴式耳机。如在430处所示,头戴式耳机选择并播放所述多个音频流中与用户的头部的实际当前位置最匹配的一者。
如图4中的虚线所示,该方法可以是连续过程,其中头戴式耳机连续地收集并发送头部跟踪数据给渲染设备,渲染设备周期性地或非周期性地分析头部跟踪数据以渲染和发送音频流给头戴式耳机,并且头戴式耳机在从渲染设备接收的音频流中选择最佳匹配的音频流来播放。
图5是可由图1A至图3所示系统实施的其中音频流可被混合的音频渲染方法的高级流程图。如在500处所示,头戴式耳机跟踪用户的头部的运动并且经由无线连接将头部跟踪数据传输给渲染设备。如在510处所示,渲染设备分析头部跟踪数据以预测用户的头部的多个潜在位置。如在520 处所示,渲染设备渲染与用户的头部的多个潜在位置的音频流,并且经由无线连接将音频流与元数据一起传输给头戴式耳机。如在530处所示,头戴式耳机检查元数据以定位与用户的头部的实际当前位置匹配的音频流。在540处,如果找到与用户的头部的实际当前位置紧密匹配的音频流,则选择该音频流,如在540处所示。否则,选择并混合两个最靠近的音频流以生成大致在用户的头部的实际当前位置处的音频流,如在560处所示。然后如570处所示,播放所选择或混合的音频流。
如图5中的虚线所示,该方法可以是连续过程,其中头戴式耳机连续地收集并发送头部跟踪数据给渲染设备,渲染设备周期性地或非周期性地分析头部跟踪数据以渲染和发送音频流给头戴式耳机,并且头戴式耳机在从渲染设备接收的音频流中选择最佳匹配的音频流或混合音频流用于播放。
图6A和图6B例示了通过双耳音频设备(右610A和左610B音频设备诸如耳塞或耳机)的常规音频输出。图6A示出了声音可能像是来自用户周围,或者另选地来自用户的右侧和左侧。如图6B所示,当用户转动其头部时,在常规系统中,声音相对于用户的头部保持在相同的相对位置。
图6C和图6D例示了根据一些实施方案的预测性的头部跟踪的双耳音频渲染。如图6C所示,用户正直视前方,并且一个声音在用户看来是在某个距离来自用户的正前方,而另一声音在用户看来是来自用户的右方。在图6D中,用户已将其头部向左转动,但不是如图6B所示与用户的头部一起旋转,声音的方向在环境中保持不变。
图7A和图7B例示了根据一些实施方案的为不同的可能头部位置渲染的多个音频流。在图7A中,作为一个非限制性实例,如果渲染设备对从头戴式耳机接收的头部跟踪数据的分析指示用户的头部当前是静止的,则渲染设备可渲染并传输用于已知位置的音频流700A、用于已知位置向左N (例如5)度的位置的音频流700B、和用于已知位置向右N(例如5)度的位置的音频流700C,以防用户在获得头部跟踪信息到渲染设备、渲染音频、以及将所渲染的音频传输到头戴式耳机所花费的时间期间转动其头部。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。
在图7B中,又如,如果渲染设备对从头戴式耳机接收的头部跟踪数据的分析指示用户的头部以已知角速率转动,则渲染设备360可渲染和传输在当前已知位置(假使头部移动停止)处的音频流700D、在由已知角速率预测的位置处的音频流700E、以及在以已知角速率的两倍预测的位置处的音频流700F。在一些实施方案中,可渲染一个或多个附加音频流700G,所述附加音频流在当前已知位置的后面,以防用户逆转其头部的旋转。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置的音频流,或者另选地,如果头部的实际位置在所述音频流中的两个音频流之间,则混合所述流中的两个流。
虽然一般性地描述实施方案,其中渲染设备渲染多个音频流并且头戴式耳机选择一个或多个音频流来在一个维度(即,水平维度)中提供声音的方向性,但实施方案可用于在多个维度中提供声音的方向性,例如提供在方位角、仰角处的声音以及指示平移运动的声音。例如,基站可渲染水平维度中多个位置处的音频流,并且还渲染高于和/或低于水平维度的音频流。例如,如图8所示,基站可以渲染水平维度中位置A和位置B处的音频流,并且还渲染水平维度上方的音频流C。在头戴式耳机处,头戴式耳机基于最新近的头部跟踪数据来选择和播放最靠近头部实际位置和高度(或倾斜)的音频流,或者另选地,如果头部的实际位置和倾斜在所述音频流之间某个地方,则混合所述流中的两个流或更多个流。例如,头戴式耳机可以选择A、B或C(如果头部位置在那些位置之一处或附近),可以在头部位置在A和B之间的情况下混合A和B,可以在头部位置在A和C之间的情况下混合A和C,可以在头部位置在B和C之间的情况下混合B和 C,或者可以在头部位置在中间某处的情况下混合A、B和C。
在不同的实施方案中,本文所述的方法可以在软件、硬件或它们的组合中实现。此外,可改变方法的框的次序,并且可对各种要素进行添加、重新排序、组合、省略、修改等。对于受益于本公开的本领域的技术人员,显然可做出各种修改和改变。本文所述的各种实施方案旨在为例示的而非限制性的。许多变型、修改、添加和改进是可能的。因此,可为在本文中被描述为单个示例的部件提供多个示例。各种部件、操作和数据存储库之间的界限在一定程度上是任意性的,并且在具体的示例性配置的上下文中示出了特定操作。预期了功能的其他分配,它们可落在所附权利要求的范围内。最后,被呈现为示例性配置中的分立部件的结构和功能可被实现为组合的结构或部件。这些和其他变型、修改、添加和改进可落入如以下权利要求书中所限定的实施方案的范围内。

Claims (17)

1.一种电子系统,包括:
渲染设备,所述渲染设备被配置为通过连接与双耳音频设备通信,所述渲染设备包括:
一个或多个处理器;
一个或多个接收器,所述一个或多个接收器被配置为经由所述连接从所述双耳音频设备接收跟踪数据,其中所述跟踪数据指示所述双耳音频设备的位置;
存储器,所述存储器包括程序指令,所述程序指令能够由所述一个或多个处理器执行以:
分析所述跟踪数据以预测所述双耳音频设备的多个潜在位置;以及
渲染与所述双耳音频设备的所述多个潜在位置对应的多个音频流;和
一个或多个发射器,所述一个或多个发射器被配置为经由所述连接将所述多个音频流传输给所述双耳音频设备;
其中所述双耳音频设备被配置为在确定所述双耳音频设备的实际位置不匹配与所述多个音频流相对应的所述多个潜在位置时,混合最靠近所述实际位置的两个音频流,以生成匹配所述双耳音频设备的所述实际位置的音频流。
2.根据权利要求1所述的电子系统,其中所述连接是无线连接或有线连接中的一者。
3.根据权利要求1所述的电子系统,其中所述双耳音频设备被配置为选择所述多个音频流中最佳地匹配所述双耳音频设备的实际当前位置的一个音频流以用于回放。
4.根据权利要求1所述的电子系统,其中所述双耳音频设备包括一个或多个运动传感器,所述一个或多个运动传感器用于跟踪所述双耳音频设备的运动。
5.根据权利要求1所述的电子系统,其中所述多个音频流各自包括左音频声道和右音频声道,并且其中在渲染与所述双耳音频设备的所述多个潜在位置对应的所述多个音频流时,虚拟声音源相对于所述双耳音频设备的所述潜在位置的方向性和距离是通过衰减所述左音频声道和所述右音频声道的一个或多个方面来控制的。
6.根据权利要求1所述的电子系统,其中所述双耳音频设备是音频头戴式耳机或耳塞,并且其中所述渲染设备是移动多用途设备。
7.根据权利要求1所述的电子系统,其中所述双耳音频设备是虚拟现实或混合现实系统的头戴式显示器(HMD)的部件,并且其中所述渲染设备是所述虚拟现实或混合现实系统的基站。
8.根据权利要求1所述的电子系统,其中所述渲染设备被配置为利用多声道音频压缩技术来压缩所述多个音频流。
9.一种电子系统,包括:
双耳音频设备,所述双耳音频设备包括:
一个或多个运动传感器,所述一个或多个运动传感器用于跟踪所述双耳音频设备的运动;
一个或多个处理器;
一个或多个发射器,所述一个或多个发射器被配置为经由连接将由所述一个或多个运动传感器收集的跟踪数据传输给渲染设备,其中所述跟踪数据指示所述双耳音频设备的位置;
一个或多个接收器,所述一个或多个接收器被配置为经由所述连接从所述渲染设备接收多个音频流,其中所述多个音频流与所述双耳音频设备的多个潜在位置对应;和
存储器,所述存储器包括程序指令,所述程序指令能够由所述一个或多个处理器执行以:
基于来自所述运动传感器的当前跟踪数据来确定所述双耳音频设备的实际位置;
在确定所述双耳音频设备的所述实际位置匹配所述多个音频流中一个音频流的位置时,选择匹配的音频流以用于回放;以及
在确定所述双耳音频设备的所述实际位置不匹配所述多个音频流的位置时,混合最靠近所述实际位置的两个音频流,以生成匹配所述双耳音频设备的所述实际位置的音频流。
10.根据权利要求9所述的电子系统,其中所述连接是无线连接或有线连接中的一者。
11.根据权利要求9所述的电子系统,其中所述渲染设备包括:
一个或多个接收器,所述一个或多个接收器被配置为经由所述连接从所述双耳音频设备接收所述跟踪数据;
一个或多个渲染设备处理器;
渲染设备存储器,所述渲染设备存储器包括程序指令,所述程序指令能够由所述一个或多个渲染设备处理器执行以:
分析所述跟踪数据以预测所述双耳音频设备的所述多个潜在位置;以及
渲染与所述双耳音频设备的所述多个潜在位置对应的所述多个音频流;和
一个或多个发射器,所述一个或多个发射器被配置为经由所述连接将所述多个音频流传输给所述双耳音频设备。
12.根据权利要求9所述的电子系统,其中所述多个音频流各自包括左音频声道和右音频声道,并且其中虚拟声音源相对于所述双耳音频设备的所述潜在位置的方向性和距离是通过衰减所述左音频声道和所述右音频声道的一个或多个方面来进行控制。
13.根据权利要求9所述的电子系统,其中所述双耳音频设备是音频头戴式耳机或耳塞,并且其中所述渲染设备是移动多用途设备。
14.根据权利要求9所述的电子系统,其中所述双耳音频设备是虚拟现实或混合现实系统的头戴式显示器(HMD)的部件,并且其中所述渲染设备是所述虚拟现实或混合现实系统的基站。
15.一种音频渲染方法,包括:
由包括一个或多个处理器的渲染设备执行:
经由连接从双耳音频设备接收头部跟踪数据;
分析所述头部跟踪数据以预测用户的头部的多个潜在位置;
渲染与所述用户的头部的所述多个潜在位置对应的多个音频流;以及
经由所述连接将所述多个音频流传输给所述双耳音频设备;
在确定所述用户的头部的实际位置不匹配所述多个音频流的位置时,混合所述多个音频流中的两个音频流,以生成匹配所述用户的头部的所述实际位置的音频流。
16.根据权利要求15所述的方法,还包括由所述双耳音频设备执行:
经由所述连接将由一个或多个运动传感器收集的所述头部跟踪数据传输给所述渲染设备;
经由所述连接从所述渲染设备接收与所述用户的头部的所述多个潜在位置对应的所述多个音频流;
基于来自所述运动传感器的当前头部跟踪数据来确定所述用户的头部的实际位置;以及
在确定所述用户的头部的所述实际位置匹配所述多个音频流中一个音频流的位置时,选择并播放匹配的音频流。
17.根据权利要求15所述的方法,还包括在所述传输之前压缩所述多个音频流。
CN201880063472.8A 2017-09-27 2018-09-25 预测性的头部跟踪的双耳音频渲染 Active CN111194561B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762564195P 2017-09-27 2017-09-27
US62/564,195 2017-09-27
PCT/US2018/052646 WO2019067445A1 (en) 2017-09-27 2018-09-25 BINAURAL AUDIO RENDER FOLLOWING PREDICTIVE HEAD

Publications (2)

Publication Number Publication Date
CN111194561A CN111194561A (zh) 2020-05-22
CN111194561B true CN111194561B (zh) 2021-10-29

Family

ID=63841074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880063472.8A Active CN111194561B (zh) 2017-09-27 2018-09-25 预测性的头部跟踪的双耳音频渲染

Country Status (3)

Country Link
US (1) US11202164B2 (zh)
CN (1) CN111194561B (zh)
WO (1) WO2019067445A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108346432B (zh) 2017-01-25 2022-09-09 北京三星通信技术研究有限公司 虚拟现实vr音频的处理方法及相应设备
US11429340B2 (en) 2019-07-03 2022-08-30 Qualcomm Incorporated Audio capture and rendering for extended reality experiences
US20210006976A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Privacy restrictions for audio rendering
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
CN110989831B (zh) * 2019-11-15 2021-04-27 歌尔股份有限公司 音频设备的控制方法、音频设备及存储介质
EP3833057B1 (en) 2019-12-04 2024-02-21 Roland Corporation Headphone
CN111918176A (zh) * 2020-07-31 2020-11-10 北京全景声信息科技有限公司 音频处理方法、装置、无线耳机以及存储介质
CN111918177A (zh) * 2020-07-31 2020-11-10 北京全景声信息科技有限公司 音频处理方法、装置、系统以及存储介质
CN112380989B (zh) * 2020-11-13 2023-01-24 歌尔科技有限公司 一种头戴显示设备及其数据获取方法、装置和主机
GB2601805A (en) * 2020-12-11 2022-06-15 Nokia Technologies Oy Apparatus, Methods and Computer Programs for Providing Spatial Audio
US20220385748A1 (en) * 2021-05-27 2022-12-01 Qualcomm Incorporated Conveying motion data via media packets
CN115834757A (zh) * 2021-09-17 2023-03-21 北京小米移动软件有限公司 数据传输方法、电子设备、通信系统及可读存储介质
FR3128285B1 (fr) * 2021-10-15 2023-11-10 Runblind Système de guidage d’un utilisateur par un signal sonore, et procédé de guidage correspondant
GB2612586A (en) * 2021-11-03 2023-05-10 Nokia Technologies Oy Spatial audio
EP4210351A1 (en) * 2022-01-05 2023-07-12 Nokia Technologies Oy Spatial audio service
WO2023220024A1 (en) * 2022-05-10 2023-11-16 Dolby Laboratories Licensing Corporation Distributed interactive binaural rendering
US20240089687A1 (en) * 2022-09-12 2024-03-14 Qualcomm Incorporated Spatial audio adjustment for an audio device
CN115604642B (zh) * 2022-12-12 2023-03-31 杭州兆华电子股份有限公司 一种空间音效的测试方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101816192A (zh) * 2007-10-03 2010-08-25 皇家飞利浦电子股份有限公司 用于头戴耳机再现的方法、头戴耳机再现系统、计算机程序产品
CN107211226A (zh) * 2015-01-19 2017-09-26 微软技术许可有限责任公司 具有远程扬声器的空间音频
CN109074238A (zh) * 2016-04-08 2018-12-21 高通股份有限公司 基于预测位置数据的空间化音频输出

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101438389B1 (ko) 2007-11-15 2014-09-05 삼성전자주식회사 오디오 매트릭스 디코딩 방법 및 장치
US10585472B2 (en) * 2011-08-12 2020-03-10 Sony Interactive Entertainment Inc. Wireless head mounted display with differential rendering and sound localization
US9794691B2 (en) * 2015-12-28 2017-10-17 Facebook, Inc. Using bone transducers to imply positioning of audio data relative to a user

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101816192A (zh) * 2007-10-03 2010-08-25 皇家飞利浦电子股份有限公司 用于头戴耳机再现的方法、头戴耳机再现系统、计算机程序产品
CN107211226A (zh) * 2015-01-19 2017-09-26 微软技术许可有限责任公司 具有远程扬声器的空间音频
CN109074238A (zh) * 2016-04-08 2018-12-21 高通股份有限公司 基于预测位置数据的空间化音频输出

Also Published As

Publication number Publication date
US20200236489A1 (en) 2020-07-23
US11202164B2 (en) 2021-12-14
WO2019067445A1 (en) 2019-04-04
CN111194561A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111194561B (zh) 预测性的头部跟踪的双耳音频渲染
US20230332914A1 (en) Spatial Audio Navigation
US10739599B2 (en) Predictive, foveated virtual reality system
CN108351691B (zh) 用于虚拟图像的远程渲染
WO2017110632A1 (ja) 情報処理装置および操作受付方法
JP6764490B2 (ja) 媒介現実
KR20210031796A (ko) 공간화 오디오를 갖는 가상 현실, 증강 현실 및 혼합 현실 시스템들
US11647354B2 (en) Method and apparatus for providing audio content in immersive reality
US11443487B2 (en) Methods, apparatus, systems, computer programs for enabling consumption of virtual content for mediated reality
GB2566006A (en) Three-dimensional video processing
US10869156B2 (en) Audio processing
US20220036075A1 (en) A system for controlling audio-capable connected devices in mixed reality environments
US11856042B2 (en) Efficient delivery of multi-camera interactive content
CN112272817B (zh) 用于在沉浸式现实中提供音频内容的方法和装置
US20220095123A1 (en) Connection assessment system
WO2024020258A1 (en) Late stage occlusion based rendering for extended reality (xr)
CN115512087A (zh) 使用在预定距离处的遮挡表面生成和修改人工现实环境

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant