CN116157766A - 具有基于观看者位置的音频的视觉内容呈现 - Google Patents

具有基于观看者位置的音频的视觉内容呈现 Download PDF

Info

Publication number
CN116157766A
CN116157766A CN202180055270.0A CN202180055270A CN116157766A CN 116157766 A CN116157766 A CN 116157766A CN 202180055270 A CN202180055270 A CN 202180055270A CN 116157766 A CN116157766 A CN 116157766A
Authority
CN
China
Prior art keywords
visual content
audio
viewer
determining
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180055270.0A
Other languages
English (en)
Inventor
S·梅辛格·朗
A·达维格
S·H·拉
S·德利凯瑞斯·马尼亚斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN116157766A publication Critical patent/CN116157766A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本文所公开的各种具体实施包括显示视觉内容作为3D环境的一部分并且添加对应于该视觉内容的音频的设备、系统和方法。该音频可被空间化以来自该3D环境内的一个或多个音频源位置。例如,视频可呈现在扩展现实(XR)环境内的虚拟表面上,同时与该视频相关联的音频被空间化以听起来如同它是从对应于该虚拟表面的音频源位置产生的。如何提供该音频可基于该观看者(例如,该用户或他/她的设备)相对于所呈现的视觉内容的该位置来确定。

Description

具有基于观看者位置的音频的视觉内容呈现
技术领域
本公开整体涉及用于提供视觉和音频内容的技术。
背景技术
电子设备以不同方式呈现诸如图像和视频的视觉内容以及相关联音频。例如,可在设备的显示屏上显示视频内容,同时从设备上的一个或多个扬声器播放相关联音频。可改善提供视觉和音频内容的用户体验。
发明内容
期望实现改善的用户内容体验。本文所公开的各种具体实施包括显示视觉内容作为3D环境的一部分并且添加对应于该视觉内容的音频的设备、系统和方法。该音频可被空间化以来自该3D环境内的一个或多个音频源位置。例如,视频可呈现在扩展现实(XR)环境内的虚拟表面上,同时与该视频相关联的音频被空间化以听起来如同它是从对应于该虚拟表面的音频源位置产生的。如何提供该音频可基于该观看者(例如,该用户或他/她的设备)相对于所呈现的视觉内容的该位置来确定。例如,视频可被呈现在作为球体的一部分的表面上,并且当从球体的外部观看时,声音可如同从球体的外表面上的点源提供。然而,当观看者在球体内移动他或她的头部时,观看者可沉浸在音频中,该音频可能在围绕用户的球体上被空间化。
在一些具体实施中,一种方法由执行指令的处理器执行。该方法可涉及确定三维(3D)环境中的用于显示视觉内容的位置。位置可在虚拟形状的内表面或外表面上,诸如在虚拟球体的一部分上。视觉内容可以是视频或扭曲视频,诸如可从鱼眼相机获得或基于透镜特性获得。可在非线性形状上呈现视觉内容,从而在没有扭曲的情况下显示该内容。该方法可涉及确定观看者(用户的头部或设备)相对于3D环境中的视觉内容的位置关系(例如,距离、取向等)。位置关系可在与视觉内容相距的阈值距离之内或之外、在其上显示视觉内容的球体或其他形状之内等。该方法还可涉及基于位置关系来确定音频模式。作为示例,音频模式可为点源音频模式、立体声音频模式、多声道音频模式或空间化声音等。音频模式可限定如何呈现来自不同3D位置的音频内容。在一个示例中,当观看者与视觉内容相距的距离大于阈值距离时,使用点源音频模式。在此示例中,当观看者在与视觉内容相距的阈值距离内但在其上呈现视觉内容的球体或其他虚拟形状外时,使用多声道音频模式。在该示例中,当观看者在球体或在其上呈现视觉内容的其他虚拟形状内时,使用空间化音频模式。在一些具体实施中,视觉内容显示模式和音频模式两者都取决于观看者与视觉内容(例如,在其上显示视觉内容的虚拟对象)之间的位置关系并且因此可基于该位置关系而变化。
附图说明
因此,本公开可被本领域的普通技术人员理解,更详细的描述可参考一些例示性具体实施的方面,其中一些具体实施在附图中示出。
图1示出了根据一些具体实施的在物理环境中操作的示例性电子设备。
图2示出了基于图1的物理环境来生成的示例性三维环境。
图3是根据一些具体实施的示例性设备的框图。
图4是示出根据一些具体实施的用于进行具有基于观看者位置的音频的视觉内容呈现的方法的流程图。
图5A至图5B示出了根据一些具体实施的根据基于观看者位置选择的音频模式提供音频。
图6A至图6B示出了根据一些具体实施的根据基于观看者位置选择的另一个音频模式提供音频。
图7示出了根据一些具体实施的根据基于观看者位置选择的另一个音频模式提供音频。
图8示出了根据一些具体实施的根据基于观看者位置选择的另一个音频模式提供音频。
图9示出了根据一些具体实施的基于观看者位置提供视频和音频。
根据通常的做法,附图中示出的各种特征部可能未按比例绘制。因此,为了清楚起见,可以任意地扩展或减小各种特征部的尺寸。另外,一些附图可能未描绘给定的系统、方法或设备的所有部件。最后,在整个说明书和附图中,类似的附图标号可用于表示类似的特征部。
具体实施方式
描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而,附图仅示出了本公开的一些示例方面,因此不应被视为限制。本领域的普通技术人员将理解,其他有效方面和/或变体不包括本文所述的所有具体细节。此外,没有详尽地描述众所周知的系统、方法、部件、设备和电路,以免模糊本文所述的示例性具体实施的更多相关方面。
图1示出了根据一些具体实施的在物理环境100中操作的示例性电子设备120。物理环境100包括门150、窗160和壁挂170。电子设备120包括可用于捕获或生成门150、窗160、壁挂170和物理环境100的其他对象的表示的一个或多个相机或其他传感器。
图2示出了基于图1的物理环境100来生成的示例性三维3D环境200。3D环境200包括物理环境100的门150、窗160和壁挂170的相应的表示250、260、270。3D环境200还包括显示在虚拟形状280(例如,3D虚拟形状)的表面上的视觉内容285。电子设备120提供3D环境200的视图,其包括来自观看者位置220的3D环境的描绘,该观看者位置在本示例中是基于电子设备120在物理环境100中的位置来确定的。因此,当用户相对于物理环境100移动电子设备120时,对应于电子设备120位置的观看者位置220相对于3D环境200移动。由电子设备提供的3D环境的视图基于观看者位置220相对于3D环境200的改变而改变。在一些具体实施中,3D环境200不包括物理环境100的表示,例如仅包括对应于虚拟现实环境的虚拟内容。
在图1和图2的示例中,电子设备120被示出为单个手持式设备。电子设备120可以是移动电话、平板电脑、膝上型计算机等等。在一些具体实施中,电子设备120由用户穿戴。例如,电子设备120可以是手表、头盔式设备(HMD)、头戴式设备(眼镜)、耳机、耳挂式设备等。在一些具体实施中,设备120的功能通过两个或更多个设备来实现,例如移动设备和基站或头戴式显示器和耳挂式设备。各种功能可以分布在多个设备中,包括但不限于功率功能、CPU功能、GPU功能、存储功能、存储器功能、视觉内容显示功能、音频内容生产功能等。可以用于实现电子设备120的功能的多个设备可以通过有线或无线通信彼此通信。
根据一些具体实施,电子设备120生成扩展现实(XR)环境并向一个或多个用户呈现该XR环境。扩展现实(XR)环境是指某人可使用电子设备与其交互和/或对其进行感测的完全或部分模拟的环境。例如,XR环境可包括虚拟现实(VR)内容、增强现实(AR)内容、混合现实(MR)内容等。使用XR系统,可跟踪人的身体运动的一部分或其表示。作为响应,可调整在XR环境中模拟的虚拟对象的一个或多个特征,使得其依附于一个或多个物理定律。例如,XR系统可检测用户的头部运动,并且作为响应,以与视图和声音将在物理环境中变化的方式类似的方式调整呈现给用户的图形和听觉内容。在另一示例中,XR系统可检测呈现XR环境的电子设备(例如膝上型电脑、移动电话、平板电脑等)的移动,并且作为响应,以与视图和声音将在物理环境中改变的方式类似的方式调整呈现给用户的图形和听觉内容。在一些情形中,XR系统可响应于物理运动的表示(例如语音命令)而调整XR环境中的图形内容的一个或多个特征。
各种电子系统使得某人能够与XR环境交互和/或感测XR环境。例如,可使用基于投影的系统、头戴式系统、平视显示器(HUD)、具有集成显示器的窗户、具有集成显示器的车辆挡风玻璃、被设计成放置在用户的眼睛上的显示器(例如类似于接触透镜)、扬声器阵列、头戴式耳机/听筒、输入系统(例如具有或不具有触觉反馈的可穿戴或手持式控制器)、平板电脑、智能电话和台式/膝上型电脑。一种头戴式系统可包括集成式不透明显示器和一个或多个扬声器。在其他示例中,头戴式系统可接受具有不透明显示器(例如智能电话)的外部设备。头戴式系统可包括一个或多个图像传感器和/或一个或多个麦克风以捕获物理环境的图像或视频和/或音频。在其他示例中,头戴式系统可包括透明或半透明显示器。表示图像的光被引导穿过的介质可包括在透明或半透明显示器内。显示器可利用OLED、LED、uLED、数字光投影、激光扫描光源、硅基液晶或这些技术的任何组合。介质可以是全息图介质、光学组合器、光学波导、光学反射器或它们的组合。在一些示例中,透明或半透明显示器可被配置成选择性地变得不透明。基于投影的系统可使用视网膜投影技术以将图形图像投影到用户的视网膜上。投影系统也可被配置成将虚拟对象投影到物理环境中,例如在物理表面上或作为全息图。
图3是示例性设备300的框图。设备300示出了电子设备120的示例性设备配置。尽管示出了一些具体特征,但本领域的技术人员将从本公开中认识到,为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面,未示出各种其他特征。为此,作为非限制性示例,在一些具体实施中,设备300包括一个或多个处理单元302(例如,微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备和传感器306、一个或多个通信接口308(例如,USB、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE、SPI、I2C和/或相似类型的接口)、一个或多个编程(例如,I/O)接口310、一个或多个输出设备312、一个或多个面向内部和/或面向外部的图像传感器系统314、存储器320以及用于互连这些部件和各种其他部件的一条或多条通信总线304。
在一些具体实施中,一条或多条通信总线304包括互连和控制系统部件之间的通信的电路。在一些具体实施中,所述一个或多个I/O设备及传感器306包括以下项中的至少一个:惯性测量单元(IMU)、加速度计、磁力计、陀螺仪、温度计、一个或多个生理传感器(例如,血压监测仪、心率监测仪、血氧传感器、血糖传感器等)、一个或多个麦克风、一个或多个扬声器、触觉引擎以及/或者一个或多个深度传感器(例如,结构光、飞行时间等)等。
在一些具体实施中,一个或多个输出设备312包括一个或多个显示器,该一个或多个显示器被配置为向用户呈现3D环境的视图。在一些具体实施中,一个或多个显示器312对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射器显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)和/或类似显示器类型。在一些具体实施中,一个或多个显示器对应于衍射、反射、偏振、全息等波导显示器。在一个示例中,设备300包括单个显示器。在另一个示例中,设备300包括针对用户的每只眼睛的显示器。
在一些具体实施中,该一个或多个输出设备312包括一个或多个音频产生设备。在一些具体实施中,该一个或多个输出设备312包括一个或多个扬声器、环绕声扬声器、扬声器阵列或用于产生空间化声音(例如,3D音频效应)的耳机。此类设备可虚拟地将声源放置在3D环境中,包括一个或多个听者的后面、上方或下方。生成空间化声音可涉及变换声波(例如,使用头部相关的传传输函数(HRTF)、混响或消除技术)来模拟自然声波(包括来自墙壁和地板的反射),该自然声波从3D环境中的一个或多个点发出。空间化的声音可以诱使听者的大脑将声音解释成如同该声音发生在3D环境中的一个或多个点处(例如,来自一个或多个特定声源),即使实际声音可能由其它位置中的扬声器产生。
在一些具体实施中,该一个或多个图像传感器系统314被配置为获得对应于物理环境100的至少一部分的图像数据。例如,该一个或多个图像传感器系统314可包括一个或多个RGB相机(例如,具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、单色相机、IR相机、深度相机、基于事件的相机等。在各种具体实施中,该一个或多个图像传感器系统314还包括发射光的照明源,诸如闪光灯。在各种具体实施中,该一个或多个图像传感器系统314还包括相机上图像信号处理器(ISP),该ISP被配置为对图像数据执行多个处理操作。
存储器320包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中,存储器320包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器320任选地包括远离所述一个或多个处理单元302定位的一个或多个存储设备。存储器320包括非暂态计算机可读存储介质。
在一些具体实施中,存储器320或存储器320的非暂态计算机可读存储介质存储任选的操作系统330和一个或多个指令集340。操作系统330包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些具体实施中,指令集340包括由以电荷形式存储的二进制信息限定的可执行软件。在一些具体实施中,指令集340是能够由一个或多个处理单元302执行以实施本文所述技术中的一种或多种的软件。
指令集340包括视觉内容指令集342、音频内容指令集344和位置跟踪指令集346。指令集340可被体现为单个软件可执行文件或多个软件可执行文件。
视觉内容指令集342可由处理单元302执行以提供诸如一个或多个图像、视频、动画等的视觉内容。在一些具体实施中,执行视觉内容指令集342以生成3D环境,在3D环境中包括视觉内容,并且提供包括基于观看者位置的视觉内容的3D环境的视图。观看者位置可根据位置跟踪指令集346来确定并且可基于物理环境中的观看者(例如,用户或设备)位置和移动。在一些具体实施中,执行视觉内容指令集342以在3D环境中包括真实或虚拟表面上的视觉内容,并且提供包括基于观看者位置的表面上的视觉内容的3D环境的视图。真实或虚拟表面可对应于形状,例如,平坦平面、球体的一部分、对应于从中创建视觉内容的图像内容的形状等。
音频内容指令集344可由处理单元302执行以提供与根据视觉内容指令集342提供的视觉内容相对应的音频内容。在一些具体实施中,执行视觉内容指令集342以确定如何基于观看者位置来呈现音频内容。观看者位置可根据位置跟踪指令集346来确定并且可基于物理环境中的观看者(例如,用户或设备)位置和移动。在一些具体实施中,执行音频内容指令集344以基于观看者位置(例如,相对于在3D环境内显示视觉内容的位置的观看者位置)来确定音频内容模式(例如,单点源、多点源、音频源位置等)。在一些具体实施中,以取决于观看者位置是否在视觉内容的预定距离内或者在对应于虚拟内容的虚拟形状内的模式提供音频内容。在本文中参考图4至图7讨论了基于观看者位置来提供音频内容的附加技术和示例。
位置跟踪指令集346可由处理单元302执行以跟踪观看者(例如,用户或他/她的设备)相对于3D环境的位置。这可涉及跟踪观看者在物理环境中的位置或移动。可基于来自I/O设备和传感器306或图像传感器314的信息来跟踪位置(包括2D或3D坐标信息或取向)。在一些具体实施中,执行位置跟踪指令集346以评估物理环境的图像,识别物理环境中的对象,并且确定相对于物理环境中的对象的观看者位置。在一些具体实施中,附加地或另选地使用惯性测量单元(IMU)、加速计、磁力计或陀螺仪来跟踪观看者位置。在一些具体实施中,应用视觉惯性测程(VIO)技术或同时定位和标测(SLAM)技术以跟踪观看者位置。在一些具体实施中,位置跟踪指令集346实现使用图像数据或传感器数据来跟踪观看者位置的机器学习模型。
尽管指令集340被示出为驻留在单个设备上,但应当理解,在其他具体实施中,元件的任何组合可位于单独的计算设备中。此外,图3更多地用作存在于特定具体实施中的各种特征部的功能描述,与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的,单独显示的项目可以组合,并且一些项目可以分开。指令集的实际数量以及如何在其中分配特征将根据具体实施而变化,并且可以部分地取决于为特定具体实施选择的硬件、软件和/或固件的特定组合。
图4是示出示例性方法400的流程图。在一些具体实施中,诸如电子设备120(图1)的设备执行方法400的技术以呈现具有基于观看者位置的音频的视觉内容。在一些具体实施中,在移动设备、台式电脑、膝上型电脑、HMD、耳挂式设备或服务器设备上执行方法400的技术。在一些具体实施中,方法400由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中,在执行存储在非暂态计算机可读介质(例如,存储器)中的代码的处理器上执行方法400。
在框402处,方法400确定3D环境中的用于显示视觉内容的位置。视觉内容可以是一个或多个图像、视频、动画或记录或创建的其他视觉内容。视觉内容可包括2D或3D内容。视觉内容可以是从相机(诸如具有鱼眼透镜的相机)捕获的非线性内容。此类相机可捕获对应于透镜形状的非线性内容而不使内容变平,并且此非线性内容可定位在3D环境中,例如,定位在对应非线性表面上而不进行调整。例如,内容可显示在近似球形形状(其可以是不可见的)的内部或外部的一部分上。可捕获和显示非线性视觉内容,而没有本来将用于在平面表面上呈现该内容的扭曲或调整。3D环境可以是包括XR环境的任何类型的环境,该XR环境包括真实或虚拟对象的表示。
在框404处,方法400确定观看者(例如,用户的头部或设备)相对于3D环境中的视觉内容的位置关系(例如,距离、取向等)。在一些具体实施中,确定位置关系涉及确定观看者在视觉内容的预定距离内。在一些具体实施中,确定位置关系涉及确定观看者在与视觉内容相关联的区域内。位置关系可在与视觉内容相距的阈值距离之内或之外、在基于视觉内容确定的球体内等。在一些具体实施中,当在3D环境中呈现视觉内容时,随时间推移跟踪观看者的位置。因此,当观看者在环境内移动或视觉内容在环境内移动时,跟踪观看者与视觉内容之间的相对定位,例如,在每一帧或时间瞬间、每5帧或时间瞬间等。
在框406处,方法400基于位置关系来确定音频模式,并且在框408处,方法400根据音频模式呈现音频内容与视觉内容。音频模式可指定特定位置处(例如,视觉内容的中心处)的单个点源、特定位置处的多个点源、3D环境中的一个或多个点源处的空间化声音、识别用于不同音频声道的点源的多声道音频模式等。在一个示例中,从不同点源位置提供不同音频声道。音频模式可涉及从在其上显示视觉内容的形状上的多个位置呈现音频。音频模式可以是基于音频内容与特定视觉内容项的关联来呈现来自不同3D位置的不同音频内容。在一个示例中,从不同点源位置提供不同声音。例如,视觉内容可包括鸟和时钟,并且音频模式可指定如同从所显示的对象中的每一者在3D环境内出现的位置(例如,视觉内容所呈现在的表面上的相应点处)提供与这些不同对象中的每一者相关联的不同声音。当鸟看起来飞越该形状(例如,鸟的图像在视频内移动)时,与鸟相关联的声音被相应地定位(例如,在图像上的与在移动期间的不同时间点处的鸟当前位置相对应的位置处)。
音频内容可与视觉内容同时被记录或创建。音频内容可与它所关联的视觉内容一起存储(例如,在相同的介质或文件或项目上)。可基于明确的或推断的关联来确定音频内容之间的关联,该明确的或推断的关联基于何时和在何处创建内容、如何存储内容、用于关联内容的标识符、手动关联确定或以其他方式确定。在一些具体实施中,元数据将特定音频内容项与视觉内容的特定部分相关联。例如,视觉内容可被语义地分割以识别不同部分(例如,像素)的语义标签,并且音频内容可被语义地标记以识别不同音频部分的语义标签。语义标记可用于提供在对应于特定视觉内容项的位置处的空间化音频,例如在鸟的位置处的鸟声、在水的位置处的水声等。
音频模式可指定空间化的量或水平。在一个示例中,空间化的量或水平取决于观看者与视觉内容的位置关系。例如,音频空间化可基于检测到观看者接近视觉内容而增加。当远离视觉内容时,可如同从单个源提供所有声音,但是当用户接近时,源的数量可随着距离减少而递增地增加。
图5A示出了根据基于观看者位置选择的音频模式提供音频。在该示例中,视觉内容285定位在虚拟形状280的表面上。确定观看者位置220与视觉内容285之间的位置关系。在该示例中,观看者位置220被确定为与视觉内容285相距大于阈值距离并且在虚拟形状280之外。基于该位置关系,选择单点源音频模式,例如,选择从中提供与视觉内容相关联的声音的虚拟形状280的外表面上的点500。例如,可使用空间化音频技术从该点提供声音。虽然在图5中被示为在虚拟形状280的表面上,但在其他示例中,点500可位于虚拟形状280内(例如,在虚拟形状280的中心处)或者与视觉内容285位于相同表面上。
如图5A所示,视觉内容285被定位在虚拟形状280的远离观看者位置220的部分的内表面上。然而,应当理解,在其他示例中,如图5B所示,视觉内容285可被定位在虚拟形状280的朝向观看者位置220的部分的外表面上。在一些示例中,由视觉内容285占据的表面的量可取决于由视觉内容285(例如,正在示出的图像、视频或动画的视场)表示的视觉内容(例如,图像、视频、动画等)的量。
在一些示例中,音频点源可具有非全向方向性。在这些示例中,音频点源可基于点500的位置从虚拟形状280向内或向外(例如,从虚拟形状280的中心向外)引导。例如,当点500位于虚拟形状280内或位于虚拟形状280的朝向用户的表面上时,音频点源可向外引导,但当位于虚拟形状280的远离用户的表面上时,音频点源可向内引导。在其他示例中,当观看者位置220在由虚拟形状280限定的区域或体积之外时,音频点源可向外引导。
图6A示出了根据基于观看者位置选择的另一个音频模式提供音频。在该示例中,视觉内容285定位在虚拟形状280的表面上,并且确定观看者位置220与视觉内容285之间的不同位置关系。在该示例中,观看者位置220被确定为在由虚拟形状280限定的区域之外但在视觉内容285的阈值距离之内。基于该位置关系,选择多点(例如,两点)源音频模式,例如,选择从中提供与视觉内容相关联的声音的虚拟形状280的表面上的两个点600a-b。例如,可使用空间化音频技术从这些点提供声音。虽然在图6中被示为在虚拟形状280的表面上,但在其他示例中,点500可位于虚拟形状280内(例如,在虚拟形状280的中心处)或者与视觉内容285位于不同表面上。
如以上相对于图5A提及并且如图6A所示的,视觉内容285被定位在虚拟形状280的远离观看者位置220的部分的内表面上。然而,应当理解,在其他示例中,如图6B所示,视觉内容285可被定位在虚拟形状280的朝向观看者位置220的部分的外表面上。在虚拟形状280的表面上选择的两个点600a-b可对应于视觉内容285在虚拟形状280上的定位。在一些示例中,由视觉内容285占据的表面的量可取决于由视觉内容285(例如,正在示出的图像、视频或动画的视场)表示的视觉内容(例如,图像、视频、动画等)的量。
在一些示例中,音频点源可具有非全向方向性。在这些示例中,音频点源可基于点500的位置从虚拟形状280向内或向外(例如,从虚拟形状280的中心向外)引导。例如,当点500位于虚拟形状280内或位于虚拟形状280的朝向用户的表面上时,音频点源可向外引导,但当位于虚拟形状280的远离用户的表面上时,音频点源可向内引导。在其他示例中,当观看者位置220在由虚拟形状280限定的区域或体积之外时,音频点源可向外引导。
图7示出了根据基于观看者位置选择的另一个音频模式提供音频。在该示例中,视觉内容285定位在虚拟形状280的表面上,并且确定观看者位置220与视觉内容285之间的不同位置关系。在该示例中,观看者位置220被确定为在由虚拟形状280限定的区域或体积内。基于该位置关系,选择多点源音频模式,例如,选择从中提供与视觉内容相关联的声音的虚拟形状280的表面上的多个点700a-e。例如,可使用空间化音频技术从这些点提供声音。
在其中当观看者位置220在由虚拟形状280限定的区域或体积之外时,视觉内容285先前被显示在虚拟形状280的外表面上的一些示例中,当观看者位置220进入由虚拟形状280限定的区域或体积时,视觉内容285可被转变到虚拟形状280的内表面。在一些示例中,虚拟形状280的在其上呈现视觉内容285的部分可基于观看者位置220是否在由虚拟形状280限定的区域或体积内而改变。例如,当观看者位置220在虚拟形状280之外时,视觉内容285可呈现在虚拟形状285的前部的朝向观看者位置220的外表面上。然而,当观看者位置220转变到由虚拟形状280限定的区域或体积时,视觉内容285可呈现在虚拟形状285的后部的远离先前观看者位置的内表面上(或虚拟形状285的与先前呈现部分相对的部分的内表面上)。在一些示例中,由视觉内容285占据的表面的量可取决于由视觉内容285(例如,正在示出的图像、视频或动画的视场)表示的视觉内容(例如,图像、视频、动画等)的量。
在一些示例中,音频点源可具有非全向方向性。在这些示例中,当观看者位置220在由虚拟形状280限定的区域或体积内时,音频点源可向内引导。
图8示出了根据基于观看者位置选择的另一个音频模式提供音频。在该示例中,观看者位置220被确定为在由虚拟形状280限定的区域或体积内。基于该位置关系,选择环绕音频模式,例如在虚拟形状280的表面上选择多个点800a-800g,其中一些点不位于在其上显示视觉内容的表面的部分上,从该点中提供与视觉内容相关联的声音。
类似于图7,在其中当观看者位置220在由虚拟形状280限定的区域或体积之外时,视觉内容285先前被显示在虚拟形状280的外表面上的一些示例中,当观看者位置220进入由虚拟形状280限定的区域或体积时,视觉内容285可被转变到虚拟形状280的内表面。在一些示例中,虚拟形状280的在其上呈现视觉内容285的部分可基于观看者位置220是否在由虚拟形状280限定的区域或体积内而改变。例如,当观看者位置220在虚拟形状280之外时,视觉内容285可呈现在虚拟形状285的前部的朝向观看者位置220的外表面上。然而,当观看者位置220转变到由虚拟形状280限定的区域或体积时,视觉内容285可呈现在虚拟形状285的后部的远离先前观看者位置的内表面上(或虚拟形状285的与先前呈现部分相对的部分的内表面上)。在一些示例中,由视觉内容285占据的表面的量可取决于由视觉内容285(例如,正在示出的图像、视频或动画的视场)表示的视觉内容(例如,图像、视频、动画等)的量。
在一些示例中,音频点源可具有非全向方向性。在这些示例中,当观看者位置220在由虚拟形状280限定的区域或体积内时,音频点源可向内引导。
图9示出了根据一些具体实施的基于观看者位置提供视频和音频。在该示例中,观看者位置220被确定为在由虚拟形状280限定的区域内。基于该位置关系,选择环绕视听模式,例如,在用户的视图中提供扩展的视觉内容985并且选择从中提供与视觉内容相关联的声音的虚拟形状280的表面上的多个点900a-900k。如该示例所示,视觉内容可根据基于观看者位置的视觉内容模式而改变。例如,基于观看者位置220在由虚拟形状280限定的区域内,视觉内容可扩展以占据虚拟形状280的附加部分或全部,例如围绕或包封观看者。
类似于图7和图8,在其中当观看者位置220在由虚拟形状280限定的区域或体积之外时,视觉内容285先前被显示在虚拟形状280的外表面上的一些示例中,当观看者位置220进入由虚拟形状280限定的区域或体积时,视觉内容285可被转变到虚拟形状280的内表面。在一些示例中,虚拟形状280的在其上呈现视觉内容285的部分可基于观看者位置220是否在由虚拟形状280限定的区域或体积内而改变。例如,当观看者位置220在虚拟形状280之外时,视觉内容285可呈现在虚拟形状285的前部的朝向观看者位置220的外表面上。然而,当观看者位置220转变到由虚拟形状280限定的区域或体积时,视觉内容285可呈现在虚拟形状285的后部的远离先前观看者位置的内表面上(或虚拟形状285的与先前呈现部分相对的部分的内表面上)。
在一些示例中,音频点源可具有非全向方向性。在这些示例中,当观看者位置220在由虚拟形状280限定的区域或体积内时,音频点源可向内引导。
本文阐述了许多具体细节以提供对要求保护的主题的全面理解。然而,本领域的技术人员将理解,可以在没有这些具体细节的情况下实践要求保护的主题。在其他实例中,没有详细地介绍普通技术人员已知的方法、装置或系统,以便不使要求保护的主题晦涩难懂。
除非另外特别说明,否则应当理解,在整个说明书中,利用诸如“处理”、“计算”、“计算出”、“确定”和“识别”等术语的论述是指计算设备的动作或过程,诸如一个或多个计算机或类似的电子计算设备,其操纵或转换表示为计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备内的物理电子量或磁量的数据。
本文论述的一个或多个系统不限于任何特定的硬件架构或配置。计算设备可以包括部件的提供以一个或多个输入为条件的结果的任何合适的布置。合适的计算设备包括基于多用途微处理器的计算机系统,其访问存储的软件,该软件将计算系统从通用计算设备编程或配置为实现本发明主题的一种或多种具体实施的专用计算设备。可以使用任何合适的编程、脚本或其他类型的语言或语言的组合来在用于编程或配置计算设备的软件中实现本文包含的教导内容。
本文所公开的方法的具体实施可以在这样的计算设备的操作中执行。上述示例中呈现的框的顺序可以变化,例如,可以将框重新排序、组合和/或分成子块。某些框或过程可以并行执行。
本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言,其不排除适用于或被配置为执行额外任务或步骤的设备。另外,“基于”的使用意味着开放和包容性,因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。本文包括的标题、列表和编号仅是为了便于解释而并非旨在为限制性的。
还将理解的是,虽然术语“第一”、“第二”等可能在本文中用于描述各种元素,但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如,第一节点可以被称为第二节点,并且类似地,第二节点可以被称为第一节点,其改变描述的含义,只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点,但它们不是同一个节点。
本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样,单数形式的“一个”和“该”旨在也涵盖复数形式,除非上下文清楚地另有指示。还将理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件,和/或其分组。
如本文所使用的,术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真,具体取决于上下文。类似地,短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真,具体取决于上下文。
本发明的前述描述和概述应被理解为在每个方面都是例示性和示例性的,而非限制性的,并且本文所公开的本发明的范围不仅由例示性具体实施的详细描述来确定,而是根据专利法允许的全部广度。应当理解,本文所示和所述的具体实施仅是对本发明原理的说明,并且本领域的技术人员可以在不脱离本发明的范围和实质的情况下实现各种修改。

Claims (25)

1.一种方法,包括:
在具有处理器的设备处:
确定三维(3D)环境中的用于显示视觉内容的位置;
确定观看者相对于所述3D环境中的所述视觉内容的位置关系;
基于所述位置关系来确定音频模式;以及
根据所述音频模式呈现音频内容与所述视觉内容。
2.根据权利要求1所述的方法,其中确定所述位置关系包括确定所述观看者在所述视觉内容的预定距离内。
3.根据权利要求1所述的方法,其中确定所述位置关系包括确定所述观看者在与所述视觉内容相关联的区域内。
4.根据权利要求3所述的方法,其中在虚拟形状的一部分上显示视觉内容并且基于所述形状来限定所述区域。
5.根据权利要求1至4中任一项所述的方法,其中所述音频模式是单点源音频模式。
6.根据权利要求5所述的方法,其中基于所述视觉内容的所述位置来确定所述点源的位置。
7.根据权利要求5所述的方法,其中所述位置关系包括所述观看者与所述视觉内容相距的距离,其中基于所述距离超过阈值来选择所述单点源音频模式。
8.根据权利要求5所述的方法,其中所述位置关系包括所述观看者位于与所述视觉内容相关联的形状之外,其中基于所述观看者位于所述形状之外来选择所述单点源音频模式。
9.根据权利要求1至4中任一项所述的方法,其中所述音频模式是多声道音频模式。
10.根据权利要求9所述的方法,其中所述位置关系包括所述观看者与所述视觉内容相距的距离,其中基于所述距离小于阈值来选择所述多声道音频模式。
11.根据权利要求9所述的方法,其中所述位置关系包括所述观看者位于与所述视觉内容相关联的形状之外,其中基于所述观看者位于所述形状之外来选择所述多声道音频模式。
12.根据权利要求1至4中任一项所述的方法,其中所述音频模式是空间化音频模式。
13.根据权利要求12所述的方法,其中所述位置关系包括所述观看者位于与所述视觉内容相关联的形状内,其中基于观看者位于所述形状内来选择所述空间化音频模式。
14.根据权利要求1至4中任一项所述的方法,其中所述音频模式包括从在其上显示所述视觉内容的形状上的多个位置呈现音频。
15.根据权利要求14所述的方法,还包括:
确定所述音频内容的第一音频内容项与所述视觉内容的第一视觉内容项相关联;以及
基于所述第一视觉内容项的位置来选择所述第一音频内容项的位置。
16.根据权利要求1至15中任一项所述的方法,还包括基于检测到所述观看者接近所述视觉内容来增加音频空间化。
17.一种系统,包括:
非暂态计算机可读存储介质;以及
一个或多个处理器,所述一个或多个处理器耦接到所述非暂态计算机可读存储介质,其中所述非暂态计算机可读存储介质包括程序指令,所述程序指令在所述一个或多个处理器上执行时,使所述系统执行包括以下操作的操作:
确定三维(3D)环境中的用于显示视觉内容的位置;
确定观看者相对于所述3D环境中的所述视觉内容的位置关系;
基于所述位置关系来确定音频模式;以及
根据所述音频模式呈现音频内容与所述视觉内容。
18.根据权利要求17所述的系统,其中确定所述位置关系包括:
确定所述观看者在与所述视觉内容相关联的区域内,
其中在虚拟形状的一部分上显示视觉内容并且基于所述形状来限定所述区域。
19.根据权利要求17至18中任一项所述的系统,其中所述音频模式是单点源音频模式,其中基于所述视觉内容的所述位置来确定所述点源的位置;
多声道音频模式;或者
空间化音频模式;或者
从在其上显示所述视觉内容的形状上的多个位置呈现音频的模式。
20.根据权利要求17至18中任一项所述的系统,其中所述音频模式是从在其上显示所述视觉内容的形状上的多个位置呈现音频的模式。
21.根据权利要求17至20中任一项所述的系统,其中呈现所述音频内容包括:
确定所述音频内容的第一音频内容项与所述视觉内容的第一视觉内容项相关联;以及
基于所述第一视觉内容项的位置来选择所述第一音频内容项的位置。
22.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储能够在设备上执行以执行操作的程序指令,所述操作包括:
确定三维(3D)环境中的用于显示视觉内容的位置;
确定观看者相对于所述3D环境中的所述视觉内容的位置关系;
基于所述位置关系来确定音频模式;以及
根据所述音频模式呈现音频内容与所述视觉内容。
23.根据权利要求22所述的非暂态计算机可读存储介质,其中确定所述位置关系包括:
确定所述观看者在与所述视觉内容相关联的区域内,
其中在虚拟形状的一部分上显示视觉内容并且基于所述形状来限定所述区域。
24.根据权利要求22至23中任一项所述的非暂态计算机可读存储介质,其中所述音频模式是
单点源音频模式,其中基于所述视觉内容的所述位置来确定所述点源的位置;
多声道音频模式;或者
空间化音频模式;或者
从在其上显示所述视觉内容的形状上的多个位置呈现音频的模式。
25.根据权利要求22至24中任一项所述的非暂态计算机可读存储介质,其中所述音频模式是从在其上显示所述视觉内容的形状上的多个位置呈现音频的模式。
CN202180055270.0A 2020-06-15 2021-06-03 具有基于观看者位置的音频的视觉内容呈现 Pending CN116157766A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063038961P 2020-06-15 2020-06-15
US63/038,961 2020-06-15
PCT/US2021/035573 WO2021257282A1 (en) 2020-06-15 2021-06-03 Visual content presentation with viewer position-based audio

Publications (1)

Publication Number Publication Date
CN116157766A true CN116157766A (zh) 2023-05-23

Family

ID=76695835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180055270.0A Pending CN116157766A (zh) 2020-06-15 2021-06-03 具有基于观看者位置的音频的视觉内容呈现

Country Status (4)

Country Link
US (1) US20230262406A1 (zh)
CN (1) CN116157766A (zh)
DE (1) DE112021003266T5 (zh)
WO (1) WO2021257282A1 (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264380B2 (en) * 2017-05-09 2019-04-16 Microsoft Technology Licensing, Llc Spatial audio for three-dimensional data sets

Also Published As

Publication number Publication date
DE112021003266T5 (de) 2023-05-17
WO2021257282A1 (en) 2021-12-23
US20230262406A1 (en) 2023-08-17

Similar Documents

Publication Publication Date Title
US20200349735A1 (en) Multiple user simultaneous localization and mapping (slam)
US20220076496A1 (en) Tangibility visualization of virtual objects within a computer-generated reality environment
US11132546B2 (en) Plane detection using semantic segmentation
KR20200016798A (ko) 2d/3d 혼합 콘텐츠의 검출 및 디스플레이
JP2020042802A (ja) 3次元コンテンツ内の場所に基づく仮想要素モダリティ
US11972607B2 (en) Plane detection using semantic segmentation
US11100720B2 (en) Depth map generation
CN112116716A (zh) 基于检测到的对象来定位的虚拟内容
US11727675B2 (en) Object detection with instance detection and general scene understanding
US11238616B1 (en) Estimation of spatial relationships between sensors of a multi-sensor device
US11636656B1 (en) Depth rate up-conversion
CN114514493A (zh) 增强设备
US11354867B2 (en) Environment application model
US11321926B2 (en) Method and device for content placement
US20210073429A1 (en) Object Relationship Estimation From A 3D Semantic Mesh
US10891922B1 (en) Attention diversion control
US11783552B2 (en) Identity-based inclusion/exclusion in a computer-generated reality experience
US11468611B1 (en) Method and device for supplementing a virtual environment
US20230262406A1 (en) Visual content presentation with viewer position-based audio
US20230419593A1 (en) Context-based object viewing within 3d environments
US12033240B2 (en) Method and device for resolving focal conflict
US11468627B1 (en) View dependent content updated rates
US11301035B1 (en) Method and device for video presentation
US10964056B1 (en) Dense-based object tracking using multiple reference images
US20210097729A1 (en) Method and device for resolving focal conflict

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination