CN111164990A - 基于级别的音频对象交互 - Google Patents

基于级别的音频对象交互 Download PDF

Info

Publication number
CN111164990A
CN111164990A CN201880062626.1A CN201880062626A CN111164990A CN 111164990 A CN111164990 A CN 111164990A CN 201880062626 A CN201880062626 A CN 201880062626A CN 111164990 A CN111164990 A CN 111164990A
Authority
CN
China
Prior art keywords
audio
rendering
listening position
interaction
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880062626.1A
Other languages
English (en)
Other versions
CN111164990B (zh
Inventor
L·拉克索南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN111164990A publication Critical patent/CN111164990A/zh
Application granted granted Critical
Publication of CN111164990B publication Critical patent/CN111164990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种方法,包括获得与用户相关联的收听位置以及获得与在收听位置处的渲染对应的音频和元数据。该方法还包括获得收听环境以及确定收听环境对在收听位置处的渲染的影响。该方法还包括通过将音频渲染级别与对应的级别阈值相比较来检测在收听位置处的音频交互,以及由处理设备根据音频交互检测应用音频修改。基于所应用的音频修改,在收听位置处音频被渲染。

Description

基于级别的音频对象交互
技术领域
示例性和非限制性实施例通常涉及使用空间渲染引擎来渲染自由视点音频以呈现给用户。
背景技术
现有发展的简要说明
自由视点音频通常允许用户在音频(或者通常视听或介导现实)空间中移动,并且以正确对应于他在音频空间中的位置和定向的方式体验该音频空间。这可以实现各种虚拟现实(VR)和增强现实(AR)使用实例。空间音频例如可以包括基于声道的床和音频对象、仅音频对象、或者任何等效的空间音频表示。在空间中移动时,用户可与音频对象接触,用户可使自己与其它对象保持相当大的距离,并且还会出现新的对象。因此,收听/渲染点可以适应用户的移动,并且用户可以与音频对象交互,和/或音频内容亦可以由于相对于渲染点或用户动作的改变而进化。
发明内容
以下概述仅仅旨在示例。本发明内容并非旨在限制权利要求的范围。
根据一个方面,一种示例性方法包括:获得音频空间中的收听位置;获得与在收听位置处的渲染对应的音频和元数据;获得收听环境并确定收听环境对在收听位置处的渲染的影响;通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互;由处理设备根据音频交互检测,应用音频修改;以及基于所应用的音频修改,在收听位置处渲染音频。
根据另一个方面,一种示例性装置包括至少一个处理器;包括计算机程序代码的至少一个非暂时性存储器,至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置:获得音频空间中的收听位置;获得与在收听位置处的渲染对应的音频和元数据;获得收听环境并确定收听环境对在收听位置处的渲染的影响;通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互;根据音频交互检测,应用音频修改;以及基于所应用的音频修改,在收听位置处渲染音频。
根据另一个方面,一种示例性装置包括一种机器可读的非暂时性程序存储设备,有形地体现机器可执行的指令程序以执行操作,该操作包括:获得与用户相关联的收听位置;获得与在收听位置处的渲染对应的音频和元数据;获得收听环境并确定收听环境对在收听位置处的渲染的影响;通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互;根据音频交互检测,应用音频修改;以及基于所应用的音频修改,在收听位置处渲染音频。
附图说明
结合附图,在以下描述中说明了前述各方面和其它特征,其中:
图1是示出包括示例性实施例的特征的现实系统的示意图;
图2是示出图1中所示的系统的一些组件的示意图;
图3a和图3b是示出自由视点内容消费的特性的示意图;
图4a和图4b是示出VR用户在开放空间(图4a)和具有强反射的空间(图4b)中收听相同的音频源的示意图;
图5是交互检测和音频对象修改的示例性高级框图;
图6是示出基于级别的音频对象渲染系统的示例性框图;
图7是实现了基于级别的音频对象交互的交互检测和音频对象修改的示例性高级框图;
图8示出根据示例性实施例的可由装置执行的方法。
具体实施方式
参考图1,示出了包含示例性实施例的特征的现实系统100的示意图。用户可以将现实系统100用于例如包含自由视点音频的增强现实(AR)、虚拟现实(VR)、或存在捕获(PC)体验和内容消费。虽然将参考附图中示出的示例性实施例来描述特征,但是应当理解,这些特征可以采用实施例的多个替代形式来体现。
系统100通常包括视觉系统110、音频系统120、相对位置系统130以及基于级别的音频对象渲染系统140。视觉系统110被配置为向用户提供视觉图像。例如,视觉系统12可以包括虚拟现实(VR)耳机、护目镜或眼镜。音频系统120被配置为向用户提供音频声音,诸如通过例如一个或多个扬声器、VR耳机、或耳塞。相对位置系统130被配置为感测用户(诸如用户的头部)的位置,并确定用户在现实内容消费空间的领域中的位置。现实内容消费空间中的移动可以基于实际的用户移动、用户控制的移动、和/或一些其它外部控制的移动或预定移动、或这些的任意组合。用户能够在自由视点的内容消费空间中移动和转动他们的头部。相对位置系统130可能够基于用户在现实世界中的移动来改变用户看到和听到的内容;该现实世界移动改变了用户在自由视点渲染中看到和听到的内容。
用户的移动、与音频对象的交互以及用户所看到和听到的东西可以由包括有效距离参数和可逆性参数的预定参数来定义。有效距离参数可以是定义与针对当前音频对象考虑交互的用户的距离的核心参数。在一些实施例中,有效距离参数也可以被视为修改调整参数,其可被应用于交互的修改,如在2016年10月14日提交的美国专利NO.15/293,607中所描述的,其内容通过引用并入本文中。可逆性参数也可以被视为核心参数,并且可以定义交互响应的可逆性。可逆性参数也可以被视为修改调整参数。虽然为了便于说明和简洁明了而在本文中描述了音频对象交互的特定模式,但是应当理解,本文描述的方法可被应用于其它类型的音频对象交互。
用户可以虚拟地位于自由视点内容空间中,或者换句话说,接收与自由视点渲染中的位置对应的渲染。音频对象可以在该用户位置处被渲染给用户。所选择的收听点周围的区域可以基于用户输入、基于使用实例或内容特定设置、和/或基于音频渲染的特定实现来定义。此外,在一些实施例中,该区域可以至少部分地基于间接用户或者诸如系统的整体输出级别(例如,当输出处的声压级别被降低时,一些声音可能听不到)的系统设置来定义。在这种实例中,输入到应用的输出级别可能会导致特定声音没有被渲染,因为与这些音频对象相关联的声音级别可被认为是从收听点无法感知的。在其它实例中,具有更高输出级别的远距离声音(例如,爆炸或类似的大声音事件)可以免除要求(换句话说,这些声音可被渲染)。如果在区域定义中考虑了音频输出级别,则诸如动态范围控制的过程也可能会影响渲染,并且因此影响该区域。
基于级别的音频对象渲染系统140被配置为经由跟踪针对音频渲染音量级别的收听位置来实现参数化的音频对象交互检测和渲染控制。通过考虑在收听位置处的音频的声压级别,空间音频环境的贡献被自动考虑。基于级别的音频对象渲染系统140还可以经由跟踪针对音频渲染音量级别的收听位置来确定用于参数化的音频对象交互检测和渲染控制的元数据。
音频对象交互可被定义为由于至少基于空间音频场景中与音频对象位置重叠的用户位置的触发而引起的用于呈现给用户的音频对象渲染的修改。在一些系统或示例性实施例中,虽然该位置冲突异常可以基于至少规定了用户与音频对象之间的第一距离的元数据参数来定义,但是基于级别的音频对象渲染系统140可以不需要距离元数据来确定重叠或音频对象交互。相反,基于级别的音频对象渲染系统140可以使用与音频的感知相关的元数据(例如,每个频率间隔(frequency bin)的音量或级别)来确定重叠。因此,基于级别的音频对象渲染系统140可以自动考虑单独的音频对象的室内声学贡献以用于它的交互控制。通常可以针对每个频率间隔进行级别估计,进而可以例如采用包含心理声学的方式将这些测量合并为单个测量。
考虑到上述情况,基于级别的音频对象渲染系统140可以允许以下两者:1)与基于距离的系统明显不同的用于音频对象交互的替代实现;以及2)在提供针对声压和空间环境进行调整的能力方面对基于距离的系统的改进。
还参考图2,现实系统100通常包括一个或多个控制器210、一个或多个输入220以及一个或多个输出230。输入220例如可以包括相对位置系统130和基于级别的音频对象渲染系统140的位置传感器、用于基于级别的音频对象渲染系统140的渲染信息、来自另一个设备(诸如通过因特网)的现实信息、或者用于向系统100中输入信息的任何其它合适的设备。输出230例如可以包括视觉系统110的VR耳机上的显示器、音频系统120的扬声器、以及用于向另一个设备传送信息的通信输出。控制器210可以包括一个或多个处理器240以及具有软件260(或机器可读指令)的一个或多个存储器250。
还参考图3a和图3b,其示出了自由视点内容消费的特性的示意图300,350。
图3a示出了用户310围绕视听自由视点VR体验300进行导航。用户310被自然场景包围,其中,用户310例如听到用户310周围的鸟叫声320和在用户前面的一定距离处的蜂鸣声330。在用户310向前移动(图3b)时,用户310可能会与蜂箱340接触,蜂箱340根据音频(或在音频方面)例如可以包括单个音频对象。这是一个示例性使用实例,其中,沉浸式自由视点音频体验需要针对用户与音频对象之间的交互的定义。
在通过麦克风(以类似于通过耳朵的方式)检测到声音的实例中,声音基于声压而被确定。在声学方面,已知从点源辐射的球面波前的声压会随着距离的加倍而降低6.02dB。这对应于声压降低50%或减半。因此,声压降低为1/r,而声强降低为1/r2。这可以在用户310在他们在视听自由视点VR体验300中移动时体验的声音中反映出来。
还参考图4a和图4b,其示出了VR用户在开放空间(4a)和具有强反射的空间(4b)中收听相同的音频源的示意图。
图4a和图4b呈现了用户410正在收听6DoF自由视点音频内容,在这个实例中示出为来自音频源420(示出为恐龙)发出的声音。在开放空间(图4a)中,用户410主要听到来自声源420的直接声音分量430。然而,当将相同的声源被放置在诸如房间或洞穴的混响空间440(图4b)中时,用户410可越来越多地接收(和听到)附加反射450以及直接声音430。环境的特性以及用户410和声源420的相对位置可以确定如何组合这些分量以及(直接声音和反射的)和460将听起来像什么。本文描述的实施例考虑空间音频环境之间的差异并根据基于级别的音频对象渲染系统140提供了用于沉浸式6DoF使用实例的功能。
返回参考图4a和图4b,可以确定不包含反射的影响的音频对象交互系统的实现,相同的固有音频对象交互用于图4a和图4b的两个实例。然而,基于级别的音频对象渲染系统140可以确定(例如,观察)(图4b中的)反射有助于1)由我们的耳朵在现实世界中听到的所接收的声压,或者2)在虚拟6DOF自由视点世界中通过耳机的呈现级别,并且可以调整以补偿两个实例对用户感知之间的差异。在差异没有得到补偿的实例中,可能由于两个原因以及其它原因而出现问题。首先,图4b的实例中的感知可能更大声。由于音频对象交互可能会导致播放音量的增加,因此,由环境引起的额外响度可能会变得令人不安。其次,音频对象交互可能导致音频渲染修改,例如,增加的混响(例如,可能产生增加的混响或回声)。空间音频环境可以类似地向感知增加混响。这两个不同的修改组件可能以不会产生所需的输出感知的方式进行交互。例如,音量可能会随时间变化很大,或者混响可能变得非常强烈或嘈杂。
基于级别的音频对象渲染系统140可以为空间音频环境中的音频对象交互过程提供支持。基于级别的音频对象渲染系统140可以处理交互,以使得对于音频对象的两个实例,诸如图4a和图4b中所示的那些,其行为将有所不同,因为它们的渲染指令(元数据)不同并且基于对象到用户的距离的交互定义将环境考虑在内。基于级别的音频对象渲染系统140可以实现克服了对纠正空间环境中的差异的特别方法的责任(例如,诸如通过内容创建者的人工工作(具有附加元数据的支持)而使音频对象适应不同的已知环境的特别方法)的过程。基于级别的音频对象渲染系统140可以提供调适也可在消费期间被修改的高度交互的视听空间中的渲染的能力。因此,响应于在内容消费期间空间的声学和/或“物理”特性的变化,基于级别的音频对象渲染系统140可以提供在渲染中考虑了这些变化的控制。例如,可以打开建筑物的屋顶或墙壁,或者可以将音频对象例如从很大的房间移动到非常小的房间。这样的一个示例是将内容从第一空间共享到第二空间中的多用户使用实例。基于级别的音频对象渲染系统140可以提供工具以直接的方式解决这些变化。
基于级别的音频对象渲染系统140可以考虑用于音频对象交互的空间音频环境。基于级别的音频对象渲染系统140可以在渲染时考虑环境因素,以便为用户提供最沉浸式的用户体验。基于级别的音频对象渲染系统140可以提供与视听环境本身的动态性质对应的过程,并且减少或消除通过单独的参数来人工控制空间音频环境的必要性,这可能会是耗费时间和/或资源的任务。基于级别的音频对象渲染系统140可以允许创建(或被并入)更有效的内容创建工具。
基于跟踪针对音频渲染音量级别的收听位置,基于级别的音频对象渲染系统140可以实现参数化的音频对象交互检测和渲染控制系统。音频空间中的收听位置可以与用户相关联,并且在一些示例性实施例中可以是自由视点,而在其它示例性实施例中是3DoFAR/VR。音频空间可以是指由一个或多个音频源填充的AR/VR空间。用户可以在该空间中具有收听位置,并且该收听位置(其可包括用户的头部旋转)会影响渲染。通过考虑在音频空间中的收听位置处的音频的声压或音量级别,基于级别的音频对象渲染系统140可以自动考虑空间音频环境的贡献。这是因为环境通过反射等直接影响收听位置声压。在基于级别的音频对象渲染系统140仅考虑直接声音的实例中(例如,出于复杂性原因),基于级别的音频对象交互渲染系统140可以具有与仅基于距离信息来确定跟踪的系统类似的行为(例如,以类似的方式确定音频对象交互)。基于级别的音频对象渲染系统140可以跟踪收听位置与音频对象之间的距离。声学空间可能对此距离没有影响。基于级别的音频对象渲染系统140可以检测和测量环境对音频对象交互的影响。
收听环境可以是指音频空间中的可能会影响(例如,通过几何学建模等)至少正在考虑(例如,音频交互)的音频源在音频空间中的用户的收听位置处的渲染的部分。在一些实例中,收听环境可以是指用户的物理空间,但未必对应于物理空间。例如,关于VR使用实例,当系统尝试将用户从现实世界中移除时,收听环境可能不对应于物理空间。在AR的实例中,物理空间实际上可以是收听环境。然而,在示例性高级AR使用实例中,渲染可以考虑用户周围的物理空间以及音频空间的虚拟(增强)元素。
在一些示例性实施例中,诸如混响的空间音频环境影响可以与直接声压分开地评估并且用于音频对象交互检测和控制。
基于级别的音频对象渲染系统140可以提高内容创建者考虑6DoF音频环境和体验的各个方面的能力,从而允许改进用户体验。在一些实例中,内容创建者可以提供指令,以使空间音频环境不对音频对象交互产生影响,例如,通过定义覆盖该功能的元数据标志。因此,根据使用实例,基于级别的音频对象渲染系统140可以允许内容创建者实现1)不考虑空间环境因素的音频对象交互,或2)考虑空间环境因素的音频对象交互。
基于级别的音频对象渲染系统140可以在独立的音频交互渲染系统中实现,也可以与基于(例如,仅基于)距离元数据来确定音频对象交互的渲染的系统结合使用。例如,基于级别的音频对象渲染系统140可以通过定义一组作为音频对象元数据而被存储和发送的参数来实现。可替代地,这种元数据可以是指声道、音轨、或者例如一组定向音频子带分量或参数。基于级别的音频对象渲染系统140可以采用空间音频渲染软件产品以及采用允许6DoF沉浸式音频体验的任何硬件产品来实现。
基于级别的音频对象渲染系统140可以实现直观的音频对象交互,其可以自动考虑室内声学特性以提供改进的真实感和沉浸感。
还参考图5,其示出了交互检测和音频对象修改的高级框图的示例性图示500。
图5示出了基于距离参数的交互检测和音频对象修改。在一些示例性实施例中,图5中所示的过程可以与用于基于级别的音频对象渲染的系统一起实现。
如图5中所示,在步骤510,基于距离元数据来确定音频对象交互的渲染的系统(未示出,例如,诸如在2016年10月14日提交的美国专利申请NO.15/293,607中进一步描述的系统,其内容通过引用并入本文中)可以监视和检测音频对象交互。该系统可以确定是否已经检测到交互的变化520。如果没有检测到交互的变化530,则系统可以继续监视交互510。
在检测到交互减少(步骤540)的实例中,系统可以基于可逆性来应用调整570,并且向音频对象空间渲染引擎发送修改信息580。在检测到音频对象交互增加(步骤550)的实例中,系统可以基于有效距离来应用调整560,并且向音频对象空间渲染引擎发送修改信息580。音频对象空间修改引擎可以负责应用音频对象的修改以用于渲染/呈现给用户。
还参考图6,其示出了基于级别的音频对象渲染系统140的示例性框图。基于级别的音频对象渲染系统140包括音频对象默认渲染组件610、音频对象交互调整组件620、以及音频对象空间渲染引擎630。
基于级别的音频对象渲染系统140可以应用过程,以使得由修改引擎执行的单个音频对象的音频对象交互修改在开放空间与封闭空间之间在声学上不同。基于级别的音频对象渲染系统140可以向内容创建者提供直观且有效的工具,以在设计总体用户体验时考虑开放空间与封闭空间之间的差异的要求。基于级别的音频对象渲染系统140可以提供交互检测的替代方法,以向在2016年10月14日提交的美国专利申请NO.15/293,607中提出的框架添加参数。
基于跟踪至少一个对象到用户的距离,音频对象默认渲染组件610可以基于音频对象交互范例来确定默认音频渲染。由于音频源与收听者之间的距离也与声压的变化有关,因此,音频对象默认渲染组件610可以使用在收听位置处观察到的音频对象的声压作为用于确定音频对象交互的触发和强度的基础。
音频对象默认渲染组件610可以(至少在一定程度上)根据音量级别(或声压)定义空间音频环境对收听者感知的影响。进一步地,为了控制由于空间音频环境而引起的用户的感知的进一步变化,诸如混响,音频对象交互调整组件620还可以考虑与这种影响有关的测量或参数。
音频对象默认渲染组件610可以在用户的收听位置(例如,渲染位置)处至少观察当前空间音频环境中每个音频对象的渲染。音频对象默认渲染组件610可以将在没有任何音频交互的情况下音频对象在用户收听位置处的渲染定义为“默认渲染”。
音频对象交互调整组件620可以在正在进行的音频对象交互中获得(例如,至少也在一些实施例中)对应的渲染。由此,音频对象交互调整组件620可以考虑例如由于音频对象交互而导致的音频对象的位置改变。
在一些示例性实施例中,默认渲染可以包括空间音频环境的影响,这意味着可影响直接声音的反射或者甚至障碍物(在一些示例性实施例中可以包括其它用户)。在一些示例性实施例中,默认渲染可以不包括与环境有关的这些影响。在这些实例中,音频对象交互调整组件620可以提供其中不使用显式距离元数据的音频对象交互的实现。
音频对象交互调整组件620可以将默认渲染与至少一个阈值相比较,内容创建者可以向系统提供指令以一般地定义至少一个阈值(例如,经由作为内容下载的一部分的元数据字段的条目)。这可以是基于直接音频对象时域信号的相对测量,其中,音频源与用户的收听点之间的行进时间已经得到补偿。因此,根据该实现,测量可以是单一值,或者它例如可以是时变阈值包络。该阈值可以是声压的测量或与声压有关的测量。该阈值例如可以是以分贝(dB)表示的值。该时变阈值包络可以允许在不同时间的不同的交互响应强度。交互响应可根据音频的播放时间、完整体验的播放时间、或者提供的基于特定时间的输入而变化。
音频对象交互调整组件620可以以单独的方式来确定正在进行的音频对象交互的情况和新的音频对象交互的检测。这有两个原因。首先,音频对象交互调整组件620可以实现用于触发音频对象交互和维持一个音频对象交互的单独的阈值。
举例来说,在图5中,音频对象交互调整组件620可以采用与实现第一距离参数有效距离和其它修改参数可逆性类似的方式来实现这些不同的阈值。然而,有效距离和可逆性参数不允许直接考虑音频对象交互调整组件620可实现的空间音频环境。进一步地,音频对象交互调整组件620可以提供在音频对象交互结束时允许不同的一组修改参数生效的能力。音频对象默认渲染和交互可以由音频对象空间渲染引擎630实现。
基于级别的音频对象渲染系统140可以用诸如空间音频渲染点扩展(例如,使用诸如在2017年1月23日提交的美国专利申请NO.15/412,561中描述的系统,其内容通过引用并入本文中)和平滑渲染重叠的音频对象交互(例如,使用诸如在2017年3月20日提交的美国专利申请NO.15/463,513中描述的系统,其内容通过引用并入本文中)的其它音频对象交互系统来实现。可以结合可基于感知的级别来提供音频对象交互检测的基于级别的音频对象渲染系统140来利用这些系统。
图7是交互检测和音频对象修改的示例性高级框图700。
图7示出了音频对象的音频对象交互检测和交互修改的高级框图,其可以由基于级别的音频对象渲染系统140例如使用如本文上面关于图6所述的过程来实现。
如图7中所示,在框705处,系统可以获得音频对象默认渲染。
在步骤710,系统可以确定音频对象渲染是否先前被交互。如果音频对象渲染先前被交互(715,是),则系统可以将声压测量(例如,与渲染的交互有关)与活动阈值相比较720,并确定声压测量是否等于或超过阈值725。如果声压测量等于或超过阈值(是,高于,735),则系统可以应用音频对象交互调整740,并向音频对象空间渲染引擎630发送修改信息。如果声压测量低于阈值(否,770),则系统可以逐步停止交互,并向音频对象空间渲染引擎630发送对应的信息(步骤750)。
在步骤710处,如果音频对象渲染先前没有被交互725(否),则系统可以将声压测量与触发阈值730相比较,并确定声压测量是否等于或超过阈值755。如果声压测量等于或超过触发阈值(是,高于,760),则系统可以应用音频对象交互调整740,并向音频对象空间渲染引擎630发送修改信息。如果声压测量低于触发阈值(否,775),则系统可以向音频对象空间渲染引擎630发送默认信息(步骤765)。
在一些示例性实施例中,步骤765(例如,向音频对象空间渲染引擎630发送默认信息)和步骤750(例如,逐步停止交互,并向音频对象空间渲染引擎发送对应的信息)可以相同。至少在一些示例性实施例中,可以使用与默认渲染和音频对象交互渲染两者不同的一组特定修改参数来逐步停止音频对象交互。内容创建者例如可以提供使用户清楚音频对象交互刚刚已经结束的指令。内容创建者例如可以基于根据存储在内容流中的元数据设置而渲染的音频效果/处理来定义响应。这例如可以通过使用特定的(例如,特定的视觉、触觉和/或听觉)效果来实现。可以根据设置的元数据向用户呈现音频。用户可以体验到该效果,从而了解渲染的改变,交互已经结束。
声压测量和(活动和触发)阈值与可用于系统(或由系统渲染)的音频对象音频有关。因此,系统可能不需要其它校准或参考音量级别。然而,在一些示例性实施例中,可以具有至少一个校准级别或其它参考(诸如参考信号),其例如可以用于动态范围控制(DRC)的目的。
在一些示例性实施例中,系统可以将直接声音和反射的声音分开比较。可以这样做例如以便不复制混响效果。例如,如果用户在高度混响的空间中与音频对象进行交互,并且与音频源或对象相关联的交互元数据(包括由内容提供的指令,反映了内容创建者对交互影响的选择)也包含混响效果,则可能会发生这种复制。因此,在这种实例中,音频对象空间修改引擎630可以忽略特定的音频对象交互修改(诸如混响效果),并且至少在一些示例性实施例中该效果可以用另一个效果来代替。在一些示例性实施例中,内容创建者可以使用元数据条目来传送次要效果。
图8示出了根据示例性实施例的可由装置执行的方法。图8示出了根据示例性实施例的过程的概述。虽然一些示例性实施例可以具体考虑基于对象的音频,但是本文描述的其它实施例可以更一般地解决6DoF音频。
在框810处,系统可以获得收听位置(虚拟用户位置)。这可以包括与用户相关联的收听位置和旋转。
在框820处,基于该收听位置,系统进而可以获得针对该位置要渲染给用户的音频(诸如音频对象)。至少在一些示例性实施例中,在这些步骤中可能已经考虑了用户旋转。
在框830处,系统可以获得收听环境描述或环境的模型。该模型可以规定在收听位置处环境如何修改音频渲染。这可以包括反射,各种材料的阻尼,并且在一些示例性实施例中可以包括诸如其它用户的影响的主动场景理解。
在一些示例性实施例中,收听环境可以包括用户的VR模型或真实AR空间。AR实现(例如,针对不同的使用实例)可以处理为VR使用实例的扩展,其中,AR消费中的捕获设备可以(至少)获得真实室内声学的基本模型,然后使用与针对VR使用实例类似的步骤。
收听环境对感知的影响可以基于特定实现的准确性。例如,简单的示例性实现可以只考虑直接声音和单个反射,或者基于模型而导出的具有混响效果的直接声音。另一方面,复杂的示例性实现可以考虑大量反射或实际室内脉冲响应(RIR)。
因此,音频的(默认)渲染可用于空间音频渲染系统630。在更高级的系统中,空间音频环境的任何效果类似地可用于渲染器。
系统(在框840处)可以通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的交互。例如,在已经定义和提供与至少一个声压阈值相关的元数据之后,系统可以将音频渲染的声压(在一些示例性实施例中,包括空间音频环境影响)与至少一个阈值相比较。这允许检测音频交互以及对其范围的控制。
在框850处,系统可以根据音频交互检测结果,对音频应用修改。
在框860处,可以在收听位置处渲染音频并将其呈现给用户。至少在该步骤中,还可以考虑用户的头部的旋转,以便正确呈现空间音频方向。
不以任何方式限制在下面出现的权利要求的范围、解释、或应用,本文公开的一个或多个示例性实施例的技术效果是该系统实现了直观的音频对象交互,其可以自动考虑室内声学特性以提供改进的真实感和沉浸感。该系统的另一个优点是当满足特定条件时,系统可以使用修改参数,诸如位置、比例、旋转、放大、均衡、定向(例如、声音传播的方向)、以及时移。另外,可以使用诸如空间范围和混响的进一步的修改参数。
此外,应注意,在一些示例性实现中,可以一起考虑基于音量的(例如,如由基于级别的音频对象渲染系统140实现的)和基于距离的方面。例如,特定内容可以仅支持这些方法中的一个。进而,渲染器实现可以使用在给定可用元数据的情况下为用户实现预期体验的一组过程。在另一个示例性实施例中,内容创建者可以提供指令以区分依赖于空间音频环境的第一组音频对象交互和不依赖于空间音频环境的第二组音频对象交互。这可以经由使用专用元数据标志来实现。
示例性实施例可以提供允许内容创建者尽可能地定义他们的内容的渲染(例如,具有与物理音频环境更大的对应)的工具。考虑空间音频环境的影响实现了这一点。另外,元数据标志可以允许在用于每个音频对象的两个操作模式之间进行切换(并且在一些实例中,该标志可以随时间变化),这大大增强了内容创建者的创意选择。由于6DoF AR/VR的关键区别之一是用户的漫游场景的能力,并且使场景对用户产生反应并允许用户直接与各种对象进行交互,因此,这提高了表示的准确性。
根据示例,一种方法可以包括:获得与用户相关联的收听位置;获得与在收听位置处的渲染对应的音频和元数据;获得收听环境,并确定所述收听环境对在收听位置处的渲染的影响;通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互;由处理设备根据音频交互检测,应用音频修改;以及基于所应用的音频修改,在收听位置处渲染音频。
根据另一个示例,其中,通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互还包括:确定在收听位置处的音频是否先前被交互;响应于确定在收听位置处的音频先前被交互,将在收听位置处的音频与活动阈值相比较;以及响应于确定音频高于活动阈值,应用音频交互调整,并向音频对象空间渲染引擎发送修改信息。
根据另一个示例,响应于确定音频低于活动阈值,逐步停止音频交互,并向音频对象空间渲染引擎发送对应的信息。
根据另一个示例,提供特定效果以向用户通知音频对象交互已经结束。
根据另一个示例,其中,通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互还包括:确定在收听位置处的音频是否先前被交互;响应于确定在收听位置处的音频先前没有被交互,将在收听位置处的音频与触发阈值相比较;以及响应于确定音频高于触发阈值,应用音频交互调整,并向音频对象空间渲染引擎发送修改信息。
根据另一个示例,响应于确定音频低于触发阈值,向音频对象空间渲染引擎发送默认信息。
根据另一个示例,其中,音频渲染级别包括声压级别和音量级别中的至少一个。
根据另一个示例,其中,通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互还包括:将直接声音和反射的声音分开比较;以及如果检测到混响效果,则忽略混响效果。
根据另一个示例,用次要效果代替混响效果。
根据另一个示例,检查元数据标志以确定是否要应用音频修改。
根据另一个示例,其中,音频和元数据还包括:至少一个音轨、至少一个声道、以及一组定向子带分量中的一个或多个。
根据另一个示例,一种示例性装置可以包括至少一个处理器;以及包括计算机程序代码的至少一个非暂时性存储器,至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置:获得与用户相关联的收听位置;获得与在收听位置处的渲染对应的音频和元数据;获得收听环境,并确定所述收听环境对在收听位置处的渲染的影响;通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互;根据音频交互检测,应用音频修改;以及基于所应用的音频修改,在收听位置处渲染音频。
根据另一个示例,一种示例性装置可以包括机器可读的非暂时性程序存储设备,有形地体现机器可执行的指令程序以执行操作,该操作包括:获得与用户相关联的收听位置;获得与在收听位置处的渲染对应的音频和元数据;获得收听环境,并确定所述收听环境对在收听位置处的渲染的影响;通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互;根据音频交互检测,应用音频修改;以及基于所应用的音频修改,在收听位置处渲染音频。
根据另一个示例,一种示例装置包括:用于获得与用户相关联的收听位置的装置;用于获得与在收听位置处的渲染对应的音频和元数据的装置;用于获得收听环境并确定所述收听环境对在收听位置处的渲染的影响的装置;用于通过将音频渲染级别与对应的级别阈值元数据相比较来检测在收听位置处的音频交互的装置;用于根据音频交互检测,应用音频修改的装置;以及用于基于所应用的音频修改,在收听位置处渲染音频的装置。
一个或多个计算机可读介质的任意组合可被用作存储器。计算机可读介质可以是计算机可读信号介质或非暂时性计算机可读存储介质。非暂时性计算机可读存储介质不包括传播信号,并且例如可以是但不限于电子、磁、光、电磁、红外、或半导体系统、装置、或设备、或前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下内容:具有一个或多个线路的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁存储设备、或前述的任何合适的组合。
应当理解,以上描述仅仅是示例性的。本领域技术人员可以设计出各种替代和修改。例如,各从属权利要求中所述的特征可以采用任何合适的组合彼此进行组合。另外,可以将来自上述不同实施例的特征选择性地组合成新的实施例。因此,说明书旨在涵盖落入所附权利要求的范围内的所有此类替代、修改和变形。

Claims (20)

1.一种方法,包括:
获得音频空间中的收听位置;
获得与在所述收听位置处的渲染对应的音频和元数据;
获得收听环境的至少一个特性,并确定所述收听环境对在所述收听位置处的所述渲染的影响,其中,所述收听环境包括所述音频空间的影响至少一个音频源在所述收听位置处的渲染的部分;
通过将音频渲染级别与对应的级别阈值相比较来检测在所述收听位置处的音频交互;
由处理设备根据所述音频交互检测,应用音频修改;以及
基于所应用的音频修改,在所述收听位置处渲染音频。
2.根据权利要求1所述的方法,其中,通过将所述音频渲染级别与所述对应的级别阈值相比较来检测在所述收听位置处的所述音频交互还包括:
确定在所述收听位置处的所述音频是否先前被交互;
响应于确定在所述收听位置处的所述音频先前被交互,将在所述收听位置处的所述音频与活动阈值相比较;以及
响应于确定所述音频高于所述活动阈值,应用音频交互调整,并向音频对象空间渲染引擎发送修改信息。
3.根据权利要求2所述的方法,还包括:
响应于确定所述音频低于所述活动阈值,逐步停止所述音频交互,并向所述音频对象空间渲染引擎发送对应的信息。
4.根据权利要求3所述的方法,还包括:
提供特定效果以向用户通知音频对象交互已经结束。
5.根据权利要求1所述的方法,其中,通过将所述音频渲染级别与所述对应的级别阈值相比较来检测在所述收听位置处的所述音频交互还包括:
确定在所述收听位置处的所述音频是否先前被交互;
响应于确定在所述收听位置处的所述音频先前没有被交互,将在所述收听位置处的所述音频与触发阈值相比较;以及
响应于确定所述音频高于所述触发阈值,应用音频交互调整,并向音频对象空间渲染引擎发送修改信息。
6.根据权利要求5所述的方法,还包括:
响应于确定所述音频低于所述触发阈值,向所述音频对象空间渲染引擎发送默认信息。
7.根据权利要求1所述的方法,其中,所述音频渲染级别包括声压级别和音量级别中的至少一个。
8.根据权利要求1所述的方法,其中,通过将所述音频渲染级别与所述对应的级别阈值相比较来检测在所述收听位置处的所述音频交互还包括:
将直接声音和反射的声音分开比较;以及
如果使用了混响效果,则忽略所述混响效果。
9.根据权利要求8所述的方法,还包括:
用次要效果代替所述混响效果。
10.根据权利要求1所述的方法,还包括:
检查元数据标志以确定是否要应用所述音频修改。
11.根据权利要求1所述的方法,其中,所述音频和所述元数据还包括:
至少一个音轨、至少一个声道、以及一组定向子带分量中的一个或多个。
12.根据权利要求1所述的方法,其中,所述对应的级别阈值包括单一值和时变阈值包络中的一个。
13.根据权利要求1所述的方法,其中,基于所应用的音频修改在所述收听位置处渲染所述音频还包括:
基于所述用户的旋转,渲染所述音频。
14.一种装置,包括:
至少一个处理器;以及
包括计算机程序代码的至少一个非暂时性存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置:
获得音频空间中的收听位置;
获得与在所述收听位置处的渲染对应的音频和元数据;
获得收听环境的至少一个特性,并确定所述收听环境对在所述收听位置处的所述渲染的影响,其中,所述收听环境包括所述音频空间的影响至少一个音频源在所述收听位置处的渲染的部分;
通过将音频渲染级别与对应的级别阈值相比较来检测在所述收听位置处的音频交互;
根据所述音频交互检测,应用音频修改;以及
基于所应用的音频修改,在所述收听位置处渲染音频。
15.根据权利要求14所述的装置,其中,当通过将所述音频渲染级别与所述对应的级别阈值相比较来检测在所述收听位置处的所述音频交互时,所述至少一个非暂时性存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置:
确定在所述收听位置处的所述音频是否先前被交互;
响应于确定在所述收听位置处的所述音频先前被交互,将所述收听位置处的所述音频与活动阈值相比较;以及
响应于确定所述音频高于所述活动阈值,应用音频交互调整,并向音频对象空间渲染引擎发送修改信息。
16.根据权利要求15所述的装置,其中,响应于确定所述音频低于所述活动阈值,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置:
逐步停止所述音频交互,并向所述音频对象空间渲染引擎发送对应的信息。
17.根据权利要求16所述的装置,其中,所述至少一个非暂时性存储器和所述计算机程序代码进一步被配置为与所述至少一个处理器一起使所述装置:
提供特定效果以向用户通知音频对象交互已经结束。
18.根据权利要求14所述的装置,其中,当通过将所述音频渲染级别与所述对应的级别阈值相比较来检测在所述收听位置处的所述音频交互时,所述至少一个非暂时性存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置:
确定在所述收听位置处的所述音频是否先前被交互;
响应于确定在所述收听位置处的所述音频先前没有被交互,将所述收听位置处的所述音频与触发阈值相比较;以及
响应于确定所述音频高于所述触发阈值,应用音频交互调整,并向音频对象空间渲染引擎发送修改信息。
19.根据权利要求14所述的装置,其中,所述音频渲染级别包括声压级别和音量级别中的至少一个。
20.一种机器可读的非暂时性程序存储设备,有形地体现所述机器可执行的指令程序以执行操作,所述操作包括:
获得音频空间中的收听位置;
获得与在所述收听位置处的渲染对应的音频和元数据;
获得收听环境的至少一个特性,并确定所述收听环境对在所述收听位置处的所述渲染的影响,其中,所述收听环境包括所述音频空间的影响至少一个音频源在所述收听位置处的渲染的部分;
通过将音频渲染级别与对应的级别阈值相比较来检测在所述收听位置处的音频交互;
根据所述音频交互检测,应用音频修改;以及
基于所应用的音频修改,在所述收听位置处渲染音频。
CN201880062626.1A 2017-09-29 2018-09-14 基于级别的音频对象交互 Active CN111164990B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/720,417 US11395087B2 (en) 2017-09-29 2017-09-29 Level-based audio-object interactions
US15/720,417 2017-09-29
PCT/FI2018/050667 WO2019063876A1 (en) 2017-09-29 2018-09-14 AUDIO-OBJECT INTERACTIONS BASED ON THE LEVEL

Publications (2)

Publication Number Publication Date
CN111164990A true CN111164990A (zh) 2020-05-15
CN111164990B CN111164990B (zh) 2022-10-04

Family

ID=65897054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880062626.1A Active CN111164990B (zh) 2017-09-29 2018-09-14 基于级别的音频对象交互

Country Status (4)

Country Link
US (1) US11395087B2 (zh)
EP (1) EP3689003A4 (zh)
CN (1) CN111164990B (zh)
WO (1) WO2019063876A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023051708A1 (zh) * 2021-09-29 2023-04-06 北京字跳网络技术有限公司 用于空间音频渲染的系统、方法和电子设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102527336B1 (ko) * 2018-03-16 2023-05-03 한국전자통신연구원 가상 공간에서 사용자의 이동에 따른 오디오 신호 재생 방법 및 장치
GB2600433B (en) 2020-10-28 2023-08-09 Sony Interactive Entertainment Inc Audio processing
WO2023083888A2 (en) * 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for rendering a virtual audio scene employing information on a default acoustic environment

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020150257A1 (en) * 2001-01-29 2002-10-17 Lawrence Wilcock Audio user interface with cylindrical audio field organisation
US20020150254A1 (en) * 2001-01-29 2002-10-17 Lawrence Wilcock Audio user interface with selective audio field expansion
US20060025216A1 (en) * 2004-07-29 2006-02-02 Nintendo Of America Inc. Video game voice chat with amplitude-based virtual ranging
CN1857027A (zh) * 2003-09-25 2006-11-01 雅马哈株式会社 指向性扬声器控制系统
US20090016540A1 (en) * 2006-01-25 2009-01-15 Tc Electronics A/S Auditory perception controlling device and method
EP2030660A1 (en) * 2006-06-16 2009-03-04 Konami Digital Entertainment Co., Ltd. Game sound output device, game sound control method, information recording medium, and program
WO2009128859A1 (en) * 2008-04-18 2009-10-22 Sony Ericsson Mobile Communications Ab Augmented reality enhanced audio
CN102668374A (zh) * 2009-10-09 2012-09-12 Dts(英属维尔京群岛)有限公司 音频录音的自适应动态范围增强
CN104010265A (zh) * 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
CN104041081A (zh) * 2012-01-11 2014-09-10 索尼公司 声场控制装置、声场控制方法、程序、声场控制系统和服务器
US20140328505A1 (en) * 2013-05-02 2014-11-06 Microsoft Corporation Sound field adaptation based upon user tracking
CN104737557A (zh) * 2012-08-16 2015-06-24 乌龟海岸公司 多维参数音频系统和方法
US20160182944A1 (en) * 2014-04-30 2016-06-23 Boe Technology Group Co., Ltd. Television volume control method and system
US20170208415A1 (en) * 2014-07-23 2017-07-20 Pcms Holdings, Inc. System and method for determining audio context in augmented-reality applications
US20170223478A1 (en) * 2016-02-02 2017-08-03 Jean-Marc Jot Augmented reality headphone environment rendering

Family Cites Families (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3306600B2 (ja) * 1992-08-05 2002-07-24 三菱電機株式会社 自動音量調整装置
US5633993A (en) 1993-02-10 1997-05-27 The Walt Disney Company Method and apparatus for providing a virtual world sound system
US5758257A (en) 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US6330486B1 (en) 1997-07-16 2001-12-11 Silicon Graphics, Inc. Acoustic perspective in a virtual three-dimensional environment
US6151020A (en) 1997-10-24 2000-11-21 Compaq Computer Corporation Real time bit map capture and sharing for collaborative tools
US7099482B1 (en) 2001-03-09 2006-08-29 Creative Technology Ltd Method and apparatus for the simulation of complex audio environments
US7492915B2 (en) 2004-02-13 2009-02-17 Texas Instruments Incorporated Dynamic sound source and listener position based audio rendering
US20080144864A1 (en) 2004-05-25 2008-06-19 Huonlabs Pty Ltd Audio Apparatus And Method
DE102005008366A1 (de) 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
EP1946606B1 (en) 2005-09-30 2010-11-03 Squarehead Technology AS Directional audio capturing
KR100733965B1 (ko) 2005-11-01 2007-06-29 한국전자통신연구원 객체기반 오디오 전송/수신 시스템 및 그 방법
JP3949701B1 (ja) 2006-03-27 2007-07-25 株式会社コナミデジタルエンタテインメント 音声処理装置、音声処理方法、ならびに、プログラム
US7840668B1 (en) 2007-05-24 2010-11-23 Avaya Inc. Method and apparatus for managing communication between participants in a virtual environment
DE102007059597A1 (de) 2007-09-19 2009-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Eine Vorrichtung und ein Verfahren zur Ermittlung eines Komponentensignals in hoher Genauigkeit
US8509454B2 (en) 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
CN103369391B (zh) 2007-11-21 2016-12-28 高通股份有限公司 基于媒体偏好控制电子设备的方法和系统
KR20110002005A (ko) 2008-01-17 2011-01-06 비복스 인크. 아바타별 렌더링 환경을 이용하는 가상 현실 시스템에서 실시간 아바타별 스트리밍 데이터를 제공하기 위한 확장가능한 기술들
US8411880B2 (en) 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
EP2250821A1 (en) 2008-03-03 2010-11-17 Nokia Corporation Apparatus for capturing and rendering a plurality of audio channels
US9258337B2 (en) 2008-03-18 2016-02-09 Avaya Inc. Inclusion of web content in a virtual environment
US20090253512A1 (en) 2008-04-07 2009-10-08 Palo Alto Research Center Incorporated System And Method For Providing Adjustable Attenuation Of Location-Based Communication In An Online Game
GB0815362D0 (en) 2008-08-22 2008-10-01 Queen Mary & Westfield College Music collection navigation
US8391500B2 (en) 2008-10-17 2013-03-05 University Of Kentucky Research Foundation Method and system for creating three-dimensional spatial audio
US8861739B2 (en) 2008-11-10 2014-10-14 Nokia Corporation Apparatus and method for generating a multichannel signal
US20100169796A1 (en) 2008-12-28 2010-07-01 Nortel Networks Limited Visual Indication of Audio Context in a Computer-Generated Virtual Environment
EP2465114B1 (en) 2009-08-14 2020-04-08 Dts Llc System for adaptively streaming audio objects
WO2011054860A2 (en) 2009-11-04 2011-05-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for calculating driving coefficients for loudspeakers of a loudspeaker arrangement and apparatus and method for providing drive signals for loudspeakers of a loudspeaker arrangement based on an audio signal associated with a virtual source
US8989401B2 (en) 2009-11-30 2015-03-24 Nokia Corporation Audio zooming process within an audio scene
US9210503B2 (en) 2009-12-02 2015-12-08 Audience, Inc. Audio zoom
CN102713664B (zh) 2010-01-12 2016-03-16 诺基亚技术有限公司 协作式位置/方位估计
DE102010030534A1 (de) 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
KR101285391B1 (ko) 2010-07-28 2013-07-10 주식회사 팬택 음향 객체 정보 융합 장치 및 방법
ES2922639T3 (es) 2010-08-27 2022-09-19 Sennheiser Electronic Gmbh & Co Kg Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente
US8767968B2 (en) 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
EP2647005B1 (en) 2010-12-03 2017-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for geometry-based spatial audio coding
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
US8836771B2 (en) 2011-04-26 2014-09-16 Echostar Technologies L.L.C. Apparatus, systems and methods for shared viewing experience using head mounted displays
JP5895050B2 (ja) 2011-06-24 2016-03-30 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 符号化された多チャンネルオーディオ信号を処理するオーディオ信号プロセッサ及びその方法
CN102855133B (zh) 2011-07-01 2016-06-08 云联(北京)信息技术有限公司 一种计算机处理单元交互式系统
US9554229B2 (en) 2011-10-31 2017-01-24 Sony Corporation Amplifying audio-visual data based on user's head orientation
WO2013064943A1 (en) 2011-11-01 2013-05-10 Koninklijke Philips Electronics N.V. Spatial sound rendering system and method
JP5685177B2 (ja) 2011-12-12 2015-03-18 本田技研工業株式会社 情報伝達システム
US8831255B2 (en) 2012-03-08 2014-09-09 Disney Enterprises, Inc. Augmented reality (AR) audio with position and action triggered virtual sound effects
US10051400B2 (en) 2012-03-23 2018-08-14 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
CN103472909B (zh) 2012-04-10 2017-04-12 微软技术许可有限责任公司 用于头戴式、增强现实显示器的逼真遮挡
WO2013181272A2 (en) 2012-05-31 2013-12-05 Dts Llc Object-based audio system using vector base amplitude panning
US9846960B2 (en) 2012-05-31 2017-12-19 Microsoft Technology Licensing, Llc Automated camera array calibration
EP2862370B1 (en) 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
EP2688318B1 (en) 2012-07-17 2018-12-12 Alcatel Lucent Conditional interaction control for a virtual object
EP4207817A1 (en) 2012-08-31 2023-07-05 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
US9179232B2 (en) 2012-09-17 2015-11-03 Nokia Technologies Oy Method and apparatus for associating audio objects with content and geo-location
US9215539B2 (en) 2012-11-19 2015-12-15 Adobe Systems Incorporated Sound data identification
US20140153753A1 (en) 2012-12-04 2014-06-05 Dolby Laboratories Licensing Corporation Object Based Audio Rendering Using Visual Tracking of at Least One Listener
CN105073073B (zh) 2013-01-25 2018-12-07 胡海 用于声音可视化及声源定位的设备与方法
US10038957B2 (en) 2013-03-19 2018-07-31 Nokia Technologies Oy Audio mixing based upon playing device location
JP2016518067A (ja) 2013-04-05 2016-06-20 トムソン ライセンシングThomson Licensing 没入型オーディオの残響音場を管理する方法
US9367136B2 (en) 2013-04-12 2016-06-14 Microsoft Technology Licensing, Llc Holographic object feedback
EP2809088B1 (en) 2013-05-30 2017-12-13 Barco N.V. Audio reproduction system and method for reproducing audio data of at least one audio object
US10204614B2 (en) 2013-05-31 2019-02-12 Nokia Technologies Oy Audio scene apparatus
US10019057B2 (en) 2013-06-07 2018-07-10 Sony Interactive Entertainment Inc. Switching mode of operation in a head mounted display
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
US9348421B2 (en) 2013-06-26 2016-05-24 Float Hybrid Entertainment Inc. Gesture and touch-based interactivity with objects using 3D zones in an interactive system
US9942685B2 (en) 2013-06-28 2018-04-10 Microsoft Technology Licensing, Llc Navigation with three dimensional audio effects
KR101681529B1 (ko) 2013-07-31 2016-12-01 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
US9451162B2 (en) 2013-08-21 2016-09-20 Jaunt Inc. Camera array including camera modules
EP2842529A1 (en) 2013-08-30 2015-03-04 GN Store Nord A/S Audio rendering system categorising geospatial objects
US20150116316A1 (en) 2013-10-28 2015-04-30 Brown University Virtual reality methods and systems
CN109040946B (zh) * 2013-10-31 2021-09-14 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
CN103702072A (zh) 2013-12-11 2014-04-02 乐视致新电子科技(天津)有限公司 一种基于可视终端的监护方法和可视终端
US10063207B2 (en) 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
WO2015152661A1 (ko) 2014-04-02 2015-10-08 삼성전자 주식회사 오디오 오브젝트를 렌더링하는 방법 및 장치
US20150302651A1 (en) 2014-04-18 2015-10-22 Sam Shpigelman System and method for augmented or virtual reality entertainment experience
US20150362733A1 (en) 2014-06-13 2015-12-17 Zambala Lllp Wearable head-mounted display and camera system with multiple modes
WO2016004258A1 (en) 2014-07-03 2016-01-07 Gopro, Inc. Automatic generation of video and directional audio from spherical content
US20160084937A1 (en) 2014-09-22 2016-03-24 Invensense Inc. Systems and methods for determining position information using acoustic sensing
US20160150345A1 (en) 2014-11-24 2016-05-26 Electronics And Telecommunications Research Institute Method and apparatus for controlling sound using multipole sound object
US9544679B2 (en) 2014-12-08 2017-01-10 Harman International Industries, Inc. Adjusting speakers using facial recognition
US9787846B2 (en) 2015-01-21 2017-10-10 Microsoft Technology Licensing, Llc Spatial audio signal processing for objects with associated audio content
EP3251116A4 (en) 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
KR101627652B1 (ko) 2015-01-30 2016-06-07 가우디오디오랩 주식회사 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
CN106162500B (zh) 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
US9690374B2 (en) 2015-04-27 2017-06-27 Google Inc. Virtual/augmented reality transition system and method
GB2540175A (en) 2015-07-08 2017-01-11 Nokia Technologies Oy Spatial audio processing apparatus
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
US9937422B2 (en) 2015-12-09 2018-04-10 Microsoft Technology Licensing, Llc Voxel-based, real-time acoustic adjustment
US20170169613A1 (en) 2015-12-15 2017-06-15 Lenovo (Singapore) Pte. Ltd. Displaying an object with modified render parameters
CN105611481B (zh) 2015-12-30 2018-04-17 北京时代拓灵科技有限公司 一种基于空间声的人机交互方法和系统
WO2017120681A1 (en) 2016-01-15 2017-07-20 Michael Godfrey Method and system for automatically determining a positional three dimensional output of audio information based on a user's orientation within an artificial immersive environment
CN114189793B (zh) 2016-02-04 2024-03-19 奇跃公司 增强现实系统中定向音频的技术
US10057532B2 (en) * 2016-04-01 2018-08-21 Comcast Cable Communications, Llc Methods and systems for environmental noise compensation
US10979843B2 (en) 2016-04-08 2021-04-13 Qualcomm Incorporated Spatialized audio output based on predicted position data
EP3472832A4 (en) 2016-06-17 2020-03-11 DTS, Inc. DISTANCE-BASED PANORAMIC USING NEAR / FAR FIELD RENDERING
WO2018005671A1 (en) 2016-06-28 2018-01-04 Against Gravity Corp. Systems and methods for transferring object authority in a shared virtual environment

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020150257A1 (en) * 2001-01-29 2002-10-17 Lawrence Wilcock Audio user interface with cylindrical audio field organisation
US20020150254A1 (en) * 2001-01-29 2002-10-17 Lawrence Wilcock Audio user interface with selective audio field expansion
CN1857027A (zh) * 2003-09-25 2006-11-01 雅马哈株式会社 指向性扬声器控制系统
US20060025216A1 (en) * 2004-07-29 2006-02-02 Nintendo Of America Inc. Video game voice chat with amplitude-based virtual ranging
US20090016540A1 (en) * 2006-01-25 2009-01-15 Tc Electronics A/S Auditory perception controlling device and method
EP2030660A1 (en) * 2006-06-16 2009-03-04 Konami Digital Entertainment Co., Ltd. Game sound output device, game sound control method, information recording medium, and program
WO2009128859A1 (en) * 2008-04-18 2009-10-22 Sony Ericsson Mobile Communications Ab Augmented reality enhanced audio
CN101999067A (zh) * 2008-04-18 2011-03-30 索尼爱立信移动通讯有限公司 增强现实改善音频
CN102668374A (zh) * 2009-10-09 2012-09-12 Dts(英属维尔京群岛)有限公司 音频录音的自适应动态范围增强
CN104041081A (zh) * 2012-01-11 2014-09-10 索尼公司 声场控制装置、声场控制方法、程序、声场控制系统和服务器
CN104737557A (zh) * 2012-08-16 2015-06-24 乌龟海岸公司 多维参数音频系统和方法
CN104010265A (zh) * 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
US20140328505A1 (en) * 2013-05-02 2014-11-06 Microsoft Corporation Sound field adaptation based upon user tracking
US20160182944A1 (en) * 2014-04-30 2016-06-23 Boe Technology Group Co., Ltd. Television volume control method and system
US20170208415A1 (en) * 2014-07-23 2017-07-20 Pcms Holdings, Inc. System and method for determining audio context in augmented-reality applications
US20170223478A1 (en) * 2016-02-02 2017-08-03 Jean-Marc Jot Augmented reality headphone environment rendering

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023051708A1 (zh) * 2021-09-29 2023-04-06 北京字跳网络技术有限公司 用于空间音频渲染的系统、方法和电子设备

Also Published As

Publication number Publication date
EP3689003A1 (en) 2020-08-05
US20190104375A1 (en) 2019-04-04
US11395087B2 (en) 2022-07-19
CN111164990B (zh) 2022-10-04
EP3689003A4 (en) 2021-05-26
WO2019063876A1 (en) 2019-04-04

Similar Documents

Publication Publication Date Title
CN111164990B (zh) 基于级别的音频对象交互
US10911882B2 (en) Methods and systems for generating spatialized audio
EP3443762B1 (en) Spatial audio processing emphasizing sound sources close to a focal distance
US11617050B2 (en) Systems and methods for sound source virtualization
EP3095254B1 (en) Enhanced spatial impression for home audio
CN107018460B (zh) 具有头部跟踪的双耳头戴式耳机呈现
US20210329400A1 (en) Spatial Audio Rendering Point Extension
US20140328505A1 (en) Sound field adaptation based upon user tracking
KR20100021387A (ko) 가상 현실 시스템에서 사운드 처리를 수행하기 위한 장치 및 방법
US11044570B2 (en) Overlapping audio-object interactions
US11604624B2 (en) Metadata-free audio-object interactions
EP2741523A1 (en) Object based audio rendering using visual tracking of at least one listener
WO2022214270A1 (en) Audio apparatus and method therefor
US10516961B2 (en) Preferential rendering of multi-user free-viewpoint audio for improved coverage of interest
US20240205632A1 (en) Adaptive spatial audio processing
WO2024078809A1 (en) Spatial audio rendering
KR20240095358A (ko) 후기 잔향 거리 감쇠
CN114816316A (zh) 音频回放的责任的指示

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant