CN116391171A - 动态改变音频特性 - Google Patents

动态改变音频特性 Download PDF

Info

Publication number
CN116391171A
CN116391171A CN202180074120.4A CN202180074120A CN116391171A CN 116391171 A CN116391171 A CN 116391171A CN 202180074120 A CN202180074120 A CN 202180074120A CN 116391171 A CN116391171 A CN 116391171A
Authority
CN
China
Prior art keywords
audio
size
application
model
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180074120.4A
Other languages
English (en)
Inventor
S·梅辛格·朗
S·E·平托
K·科斯科夫斯基
M·S·康诺利
C·T·尤班克
J·比安
D·E·朗布隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN116391171A publication Critical patent/CN116391171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Abstract

对象可表示播放音频的计算机应用程序。与该音频相关联的音频参数可基于该对象的大小来确定,使得当该对象大时,该音频听起来像它源自一个或多个大声源。当该对象小时,这些音频参数被确定成使得该音频听起来像它源自小声源。也描述了其他方面。

Description

动态改变音频特性
交叉引用
本申请要求2020年9月1日提交的美国临时申请号63/073,175和2021年4月9日提交的美国临时申请号63/172,963的权益。
技术领域
本公开的一个方面涉及动态地改变与应用程序相关联的音频特性。
背景技术
包括移动设备或其他电子系统的计算机系统可运行向用户播放音频的一个或多个应用程序。例如,计算机可启动在运行时间期间向用户播放来自电影的声音的电影播放器应用程序。诸如视频呼叫、电话呼叫、警报等的其他应用程序可与音频回放相关联。
操作系统可向用户呈现向用户示出一个或多个对象的用户接口或显示器,其中该对象(例如,图标、窗口、图片、动画图形等)表示应用程序。例如,电影播放器应用程序可在允许用户观看和控制回放的“窗口”中播放。操作系统可在给定时间管理多个应用程序。
发明内容
可实施系统级规则以基于对象的大小来调整应用程序的音频参数。该对象(例如,图标、窗口、图片、动画图形等)可表示底层应用程序。该对象可呈现在2D显示器上,或者作为虚拟对象呈现在扩展现实(XR)环境中。
此外,与该应用程序相关联的音频可进行空间渲染,使得该对象表示一个或多个声源。例如,如果示出电影的媒体播放器窗口被呈现给用户,并且该媒体播放器窗口被示出为小窗口,那么这些音频参数可被确定成使得与该媒体播放器窗口相关联的音频(例如,电影音轨)被渲染以便被感知为源自小源。如果用户将该媒体播放器窗口的大小调整为更大,那么动态地调整音频参数以反映该窗口的大小。在这种情况下,该电影音频可听起来像它源自更大、更复杂或雄伟的声源。基于对象大小来确定的音频参数可包括例如动态范围、指向性图案、频率响应、声音功率和/或其他音频参数。
在一些方面,描述了一种方法、执行该方法的系统或计算设备。该方法包括保持与一个或多个应用程序相关联的元数据。该元数据指定与该应用程序相关联的对象(例如,图标、窗口、图片、计算机生成的图形、动画和/或其他对象)的大小。该对象例如在显示器上被呈现给用户。基于该对象的大小,确定或修改一个或多个音频参数。音频参数可包括以下项中的至少一项:动态范围、指向性图案、频率响应、声音功率、频率范围、音高、音色、输出音频通道的数目和回响。
该音频参数可应用于渲染和/或混合与该应用程序相关联的音频。以此方式,向用户示出的看似大的对象也可听起来好像它们是大的(例如,多个声源、大动态范围、低音等)。相反,向用户示出的微小的对象可听起来微小(例如,单点源、小动态范围等)。通过实施这些规则,模仿对象的真实世界声学行为来保持似真性。用户还可重新设定对象的大小以使它们听起来“更大”或“更小”。这些系统级规则可在操作系统级实施。在一些方面,这些规则可同时在多个应用程序上实施。
以上概述不包括本公开的所有方面的详尽列表。可预期的是,本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书部分特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。
附图说明
本公开的各方面以举例的方式进行说明,而不仅限于各个附图的图示,在附图中类似的附图标号指示类似的元件。应当指出的是,在本公开中提到“一”或“一个”方面未必是同一方面,并且其意指至少一个。另外,为了简洁以及减少附图的总数,可使用给定附图示出本公开的不止一个方面的特征部,并且对于给定方面,可能并非需要该附图中的所有元件。
图1示出了根据一些方面的用于利用动态音频参数渲染音频的方法。
图2示出了根据一些方面的用于利用动态音频参数渲染音频的操作系统工作流程。
图3和图4示出了根据一些方面的基于对象的大小的音频调整。
图5示出了根据一些方面的显示器上的表示应用程序和声源的对象的示例。
图6示出了指向性图案的示例。
图7示出了动态范围的示例。
图8示出了频率控制的示例。
图9示出了根据一些方面的示例性音频处理系统。
图10示出了根据一些方面的基于声源的模型来生成声音的示例。
具体实施方式
现在将参考所附附图来解释本公开的各方面。每当所描述的部件的形状、相对位置和其它方面未明确限定时,本发明的范围并不仅局限于所示出的部件,所示出的部件仅用于例证的目的。另外,虽然阐述了许多细节,但应当理解,本公开的一些方面可在没有这些细节的情况下被实施。在其他情况下,未详细示出熟知的电路、算法、结构和技术,以免模糊对该描述的理解。
人可以在不借助于电子设备的情况下与物理环境或物理世界交互以及/或者感知物理环境或物理世界。物理环境可包括物理特征,诸如物理对象或表面。物理环境的示例是包括物理植物和动物的物理森林。人可以通过各种手段(诸如听觉、视觉、味觉、触觉和嗅觉)直接感知物理环境以及/或者与物理环境交互。相比之下,人可以使用电子设备与完全或部分模拟的扩展现实(XR)环境交互以及/或者感知该扩展现实环境。该XR环境可以包括混合现实(MR)内容、增强现实(AR)内容、虚拟现实(VR)内容等等。利用XR系统,人的物理运动或其表示的一些可被跟踪,并且作为响应,能够以符合至少一个物理定律的方式调节在XR环境中模拟的虚拟对象的特征。例如,该XR系统可以检测用户头部的移动,并调节呈现给用户的图形内容和听觉内容(类似于此类视图和声音在物理环境中是如何改变的)。又如,该XR系统可以检测呈现XR环境的电子设备(例如,移动电话、平板电脑、膝上型电脑等)的移动,并调节呈现给用户的图形内容和听觉内容(类似于此类视图和声音在物理环境中是如何改变的)。在一些情形中,该XR系统可以响应于诸如物理运动的表示的其他输入(例如,语音命令)而调节图形内容的特征。
许多不同类型的电子系统可以使用户能够与XR环境交互和/或感知XR环境。示例的非排他性列表包括抬头显示器(HUD)、头戴式系统、基于投影的系统、具有集成显示能力的窗户或车辆挡风玻璃、形成为放置于用户眼睛上的透镜的显示器(例如,接触镜片)、头戴式受话器/耳机、具有触觉反馈或不具有触觉反馈的输入系统(例如,可穿戴或手持式控制器)、扬声器阵列、智能电话、平板电脑和台式计算机/膝上型计算机。头戴式系统可具有不透明显示器和一个或多个扬声器。其它头戴式系统可被配置为接受不透明外部显示器(例如,智能电话)。头戴式系统可包括用于捕获物理环境的图像或视频的一个或多个图像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可具有透明或半透明显示器,而不是不透明显示器。透明或半透明显示器可具有媒介,光通过该媒介被引导到用户的眼睛。显示器可利用各种显示技术,例如uLED、OLED、LED、硅基液晶、激光扫描光源、数字光投影或其组合。光波导、光学反射器、全息图媒介、光学组合器及其组合或其它类似技术可用于媒介。在一些具体实施中,透明或半透明显示器可被选择性地控制而变得不透明。基于投影的系统可利用将图形图像投影到用户的视网膜上的视网膜投影技术。投影系统也可以将虚拟对象投影到物理环境中(例如,作为全息图或投影到物理表面上)。
描述了与各种XR技术相关的电子系统和使用此类系统的技术的各种示例。
参考图1,示出了用于基于对象的大小来调整音频参数的方法。该方法可由装置(例如,计算设备)执行。在一些方面,该方法由计算设备的操作系统执行。操作系统可管理在计算设备上运行的一个或多个应用程序。在一些方面,操作系统管理每个应用程序的音频处理,音频处理可包括空间渲染、下混、上混、滤波等。
操作系统可管理向用户示出的对象(例如,用户接口元素)。对象中的每个对象可与对应的应用程序相关联或表示对应的应用程序。在一些方面,对象表示活动地运行的应用程序(例如,打开的媒体播放器窗口)而非在被选择时致使操作系统启动应用程序的可选择图标。
在操作10处,该方法包括保持与在计算设备上运行的应用程序相关联的元数据,元数据包括与应用程序相关联的对象(例如,用户接口对象)的大小。例如,元数据可包括正在向用户示出的媒体播放器窗口的尺寸。在一些方面,元数据可包括对象相对于显示器坐标的位置,该位置可从一个显示器环境变化至另一个显示器环境。
在操作12处,该方法包括呈现与应用程序相关联的对象。在一些方面,对象通过二维显示器诸如例如计算机监视器、电视、平板计算机的显示器、移动电话或其他二维显示器来呈现。在一些方面,对象呈现在支持三维XR的设备诸如例如头戴式显示器、平视显示器或其他等效技术上。在一些方面,相对于对象跟踪用户位置或用户头部位置,并且基于所跟踪的位置来渲染空间音频。
在操作14处,该方法包括基于对象的大小来确定音频参数。音频参数应用于渲染与应用程序相关联的音频。在一些情况下,音频参数包括以下项中的至少一项:动态范围、指向性图案、频率响应、声音功率、频率范围、音高、音色、输出音频通道的数目(或通道布局)和回响。在一些方面,如下文相对于图10更详细地描述,音频参数包括用于渲染应用程序或声源的模型或使用该模型从声学模拟导出的一个或多个音频滤波器(filter)的一个或多个参数。
在一些方面,在操作14处,该方法包括基于对象的大小来确定至少两个音频参数,其中至少两个音频参数中的一个音频参数是声音功率,并且至少两个音频参数中的至少一个其他音频参数包括动态范围、指向性图案、频率响应、频率范围、音高、音色、输出音频通道的数目和回响。声音功率和至少一个其他音频参数的确定(或调整)可增强对象的大小和与对象相关联的音频之间的感知关系。
在一些方面,可连续执行该方法以在对象的大小被修改的情况下动态地确定或修改多个音频参数中的一个或多个音频参数。在一些方面,可通过用户输入来修改对象的大小。可从输入设备诸如触摸屏显示器、鼠标输入、XR用户输入传感器(例如,利用计算机视觉和/或2D或3D图像传感器技术来识别手势)或输入设备接收用户输入。在一些方面,可(例如,基于活动“窗口”的自动重新布置)自动修改对象的大小。该方法可由管理一个或多个应用程序的操作系统执行。
如图2所示,操作系统44可存在于计算设备上以管理计算任务和一个或多个应用程序24。操作系统可包括管理表示应用程序(例如,活动应用程序)的一个或多个对象的窗口管理器20。这些对象可在用户接口28上示出,如所描述的,该用户接口可包括二维显示器或可结合用户的物理环境中的元素的XR显示器。用户接口可包括一个或多个输入设备,诸如鼠标、计算机键盘、触摸屏显示器、相机、图像传感器以及允许用户提供输入诸如与重新设定一个或多个对象的大小有关的输入的其他技术。
窗口管理器可管理应用程序中的每个应用程序的元数据,元数据可包括表示应用程序的对象的大小。基于对象的大小(例如,活动窗口的大小),空间音频控制器22可确定如其他部分中所描述的一个或多个音频参数,该一个或多个音频参数应用于应用程序的音频内容。
例如,如图3所示,如果表示应用程序的对象42具有大的大小或者增大,则可增大声音功率。如果对象42减小或者具有小的大小,则可减小声音功率。在一些方面,如图4所示,对象的大小可增大声音功率以及声音输出的方式,诸如动态范围、指向性图案、频率响应、频率范围、音高、音色、输出音频通道的数目和回响。
重新参考图2,空间音频混合引擎26可将这些音频参数应用于音频内容并且为一个音频应用程序或者在多个应用程序正在操作系统上运行的情况下为多个应用程序执行音频混合。空间音频混合引擎可生成用于驱动扬声器30的一个或多个输出音频通道。输出音频通道可具有各种输出音频格式,例如,双耳音频(具有左通道和右通道)、5.1、7.2、Atmos或其他音频格式。扬声器可以是与头戴式显示器集成的头戴式受话器装置的扬声器、一个或多个扩音器、一个或多个扬声器阵列或其他扬声器布置。
在一些方面,这些音频参数与影响音频参数的其他控制无关。例如,用户级控制可允许音量的增大和减小,或者对低音、高音的修改等。这可与基于对象的大小来确定的音频参数无关。
此外,应用程序音频可具有描述经配置的音频设置诸如动态范围、响度、频率范围、通道布局等的元数据。该应用程序级元数据也可与基于对象大小来确定的音频参数无关。
在一些方面,如果在用户层级控制、基于对象大小的音频参数或应用程序级元数据之间存在冲突,那么操作系统进行判优以基于竞争的音频参数来确定如何渲染音频。该判优可应用能够基于常规测试和实验来确定和调整的一个或多个算法或逻辑。
图5示出根据一些方面的表示应用程序的对象的示例。显示器50上示出各种对象,该显示器可以是本公开中讨论的显示器中的任何显示器。应用程序及其相关联的元数据由操作系统管理。操作系统可访问包括与应用程序相关联的对象的大小的元数据。操作系统可监测与每个应用程序相关联的每个对象的大小并且基于每个对象的大小来确定或修改音频参数。每个对象可具有与该对象(以及底层应用程序)配对的专用音频参数。换句话说,应用程序A可具有基于对象A的大小来确定的其自身的音频参数。独立地,应用程序B可具有基于对象B的大小来确定的其自身的音频参数。
例如,对象A可表示作为媒体播放器的应用程序A的音频。在同一显示器上,对象B可表示作为音乐播放器的应用程序B。对象C可表示作为网络浏览器的应用程序C。这些应用程序中的每个应用程序都可活动地运行并且由操作系统管理。与应用程序中的一个或多个应用程序相关联的音频可通过扬声器播放。基于电影播放器窗口、音乐播放器和网络浏览器的大小,可确定它们对应的音频参数。
如果电影播放器的大小是小的,则与电影播放器相关联的音频内容的音频参数可以是“小”的发声。如果电影播放器的大小是大的,则与电影播放器相关联的音频内容可具有“大的”声音。对象的大小可(例如,由操作系统自动地,或通过用户输入)改变。音频参数可基于对象的更新的大小来相应地调整。因此,如果对象大小增大,则可调整音频参数,使得相关联的音频听起来更大。相反,如果对象大小减小,则可调整音频参数,使得音频听起来更小。应用程序中的每个应用程序的音频输出可被单独渲染,然后被组合以形成用于驱动输出扬声器产生声音的输出音频通道。
如所讨论的,基于与应用程序音频相关联的对象的大小来确定音频参数。这些音频参数可包括以下项中的一者或多者:动态范围、指向性图案、频率响应(例如,在轴(on-axis)频率响应)、声音功率、频率范围、音高、音色、输出音频通道的数目和回响。
图6示出了声源的指向性图案(也称为离轴频率响应、场图案或极性图案)的示例。该示例性指向性图案在Leo Beranek和Tim Mellow的“Acoustics:Sound Fields andTransducers”中示出。声源的感知声音可相对于自声源的方向和距声源的距离而变化。对象的指向性图案限定声源的频率响应以离轴角度变化的方式。在该示例中,示出了对象的指向性图案,其中频率在归一化标度上绘制,并且ka(k是波数并且a是源的特征尺寸,诸如半径)可由2πa/λ、2πfa/c(其是圆周除以波长)表示。示出了每个指向性图案的指向性指数,指向性指数是在自源的给定方向上测量的声压级的声压级和被建模为全向源的声源的平均声压级之间的差值(例如,以分贝测量)。应当理解,示出图6的示例性指向性图案以图示声源的指向性图案而非将本公开的各方面限于特定指向性图案。在不脱离本公开的范围的情况下,指向性图案可例如基于内容或应用程序而变化。
在一些方面,基于对象的大小来确定与应用程序的音频相关联的指向性图案。例如,如果对象是小的虚拟吉他,则指向性图案可具有减少数目的波瓣或者是全向的。在全向指向性图案的情况下,与虚拟吉他相关联的音频可在围绕虚拟吉他的所有方向上等同地进行空间渲染。然而,如果虚拟吉他是大的,那么指向性图案可具有增加数目的波瓣或方差,从而在相对于虚拟吉他的不同方向上给予经空间渲染的音频更多方差。在XR的情况下,指向性图案可模仿物理吉他的指向性图案。
在一些方面,指向性图案随着对象的大小增大而变得更具指向性(例如,在一个或多个方向上更窄或更集中),并且随着对象的大小减小而变得更为全向的(例如,圆形的或在所有方向上等同)。对于单个选定的频率,对于低频在声学上较小的物理对象可对于高频在声学上较大。而且,对于低频在声学上较大的对象也可对于高频在声学上较大。在声学上较小的对象可被定义为其大小与辐射的声波的波长相比较小的对象。如果对象在声学上较小,则它对于波是“不可见的”—反射和衍射的效果可被忽略,声源的形状和存在不影响辐射图案,并且该源可被视为单极(全向)。这样,在声学上较小的对象可表示在非常小的频率下的大源,或者在高频率下的微小源。在声学上较大的对象是其大小远大于辐射的声波的波长的对象。对象及其几何形状对于波变得可见(例如,渐近地大的对象将被视为接近反射声音的无限大的壁),并且对从对象发出的声音的辐射图案具有影响。在这种情况下,源可变得更具指向性。这种关系可被想象为源的主体朝向源的后部投射阴影,从而不使声学能量朝向后部,并且将声学能量的较大部分辐射到前部。
对于通常称为“低频”的波(例如,100Hz的频率,其波长等于3.43米(空气、正常条件下)),尺寸比其波长值小得多的对象(例如,立方体扩音器,其在一个壁上具有驱动器,边缘长度为几十厘米)将在声学上较小(不可见),因此产生全向图案。如果考虑“高频”波(例如,8kHz的频率,波长等于4.3厘米),则相同的示例性立方体扩音器将在声学上较大,从而产生更具指向性的图案。如果相同的示例性立方形扩音器变得更大,则在某一点处它将对于低频在声学上变大。在这种情况下,图案将不再是全向的,并且高频图案将变得比以前更具指向性。
波数k(k=2*Pi*频率/声速)与源“a”的特征尺寸(例如,包围物理资产的球体的半径或源的膜的半径)的相乘可确定对象是在声学上较小还是在声学上较大。当对象的ka值较小时,对象在声学上较小。当ka值较大时,对象在声学上较大。ka值越小,源越为全向的。ka值越大,源越具指向性。
图7示出了动态范围的示例。动态范围、动态范围压缩或压缩是指声源可具有的响度范围。音频信号的响度可随时间推移而变化。可对音频信号应用一个或多个增益以放大或压缩信号的最大声级和最小声级,使得音频可在最大级和最小级两者下以舒适级被听到。
在一些方面,如果对象的大小是小的,那么动态范围具有减小的范围。如果对象的大小是大的,那么动态范围具有增大的范围。以这种方式,如果对象大小增大,则可听到声音的包络更大(意味着与对象相关联的音频可变得更响亮且更安静)。相反,如果对象是小的,那么与对象相关联的音频将被限制到较小范围。附加地或另选地,动态范围可基于对象的大小而偏移(例如,升高或降低)。例如,声音的偏移升高,使得音频的最大级和最小级两者当对象大时较高和/或当对象小时降低。
在一些方面,基于对象大小来确定与对象相关联的音频的频率响应(例如,在轴频率响应)。频率响应可以是系统或设备响应于刺激的输出频谱的定量量度,并且用于表征系统的动态特性。与系统的音频输入相比,频率响应可表示为根据频率的系统的音频输出的振幅和相位的量度。在轴频率是指声源在声源轴上(例如,在其原点处)的频率响应,与可根据方向和频率而变化的声源的离轴频率响应相反。当对象大时,可确定频率响应以模仿大声源的频率响应。相反,当对象小时,可确定频率响应以模仿小声源的频率响应。
在一些方面,在对象的大小被修改的情况下改变频率响应(例如,在轴频率响应),使得在对象的大小减小的情况下升高音频的低频截止值,并且在对象的大小增大的情况下降低音频的低频截止值。这有效地截止了低于频率截止值的更多频率。远场中的在轴声压(其可称为源的级)取决于由扩音器的振动膜片生成的音量速度。在膜片来回振荡(假设正弦位移)时,这两个量取决于膜片位移的幅度(以米为单位)以及膜片实现该位移所花费的时间。频率中的每个频率由其周期(频率值的倒数)来表征。该周期的一半是膜片必须从其最小位移移动到其最大位移的时间。对于高频,该周期非常短。在这种情况下,为了实现高速度,膜片的位移不必较大。对于低频,该周期非常长。在这种情况下,为了实现高速度,膜片的位移必须较大。音量速度是将膜片的表面面积和其速度相乘而得到的值。远场中的声压与音量速度成比例。
大源具有大的膜片表面面积,大的膜片表面面积与它们的促进较大位移的物理构造相结合允许它们成为良好的低频辐射器。小源具有小的膜片表面面积。为了生成足够量的低频能量,膜片的位移将必须非常大,这对于微小对象而言在物理上是困难的。例如,具有几厘米边缘并且具有来回移动几十厘米的膜片的小立方体将是不自然的并且在结构上是不真实的。因此,系统可以模拟小源不能生成低频能量的情况。源越小,其截止频率越高(在该截止频率以下没有声音)。
如所讨论的,可基于对象大小来确定音频的声音功率(也称为声学功率)。声音功率是指从声源发出的声学能量的功率,与声源的环境(例如,房间)无关,声源的环境可对测量环境中的声音功率的声压级具有影响。声音功率可作为每单位时间发出(或在一些情况下,反射、发射或接收)声音能量的速率来测量。如果对象是小的,则与对象相关联的音频的声音功率可被确定为是小的。如果对象是大的,则音频对象的声音功率可被确定为是大的。
在一些方面,可基于对象大小来确定音频的频率范围。例如,如图8所示,对于与大的对象相关联的音频,可确定大的频率范围。相反地,对于与小的对象相关联的音频,可确定小的频率范围。频率范围可表示音频的最大频率和最小频率。可预期较大声源在音频频率中具有较大范围(例如,较多低音、较多高音),而较小声源可具有较小范围并且听起来较平。因此,增加对象大小可增加与对象相关联的音频的频率范围,并且减小对象大小可减小音频的频率范围。
在一些方面,基于对象大小来确定音频的音高。音高是指声音有多高或多低的感知到的质量,并且与声音的频率相关。声音的频率越高,音高越高。在一些方面,音高被确定为对于较小的对象较高,并且对于较大的对象较低。在一些方面,基于对象大小来确定音频的低音。例如,当对象大时,可引入或强调较低频率(例如,在低音范围中),并且当对象小时,可不再强调较低频率。
在一些方面,基于对象的大小来确定与音频相关联的输出音频通道的数目或通道布局。例如,如果对象是小的,则输出音频通道可以是单个音频通道(例如,单声道)。如果对象大小是大的或增大,则输出音频通道可包括具有在左音频通道和右音频通道中呈现的空间化声音的双耳音频。在一些方面,可基于对象的大小来确定声源的数目。例如,如果窗口播放器是小的,则窗口播放器可表示用户感知音频从其发出的单个声源。然而,如果窗口播放器是大的,那么与电影播放器相关联的音频中的多个声音可在不同的虚拟位置处呈现。
例如,如果电影场景有两个人在场景的相对侧处说话,那么当电影播放器窗口大时,可在分开的虚拟位置处呈现每个人的语音。如果电影播放器窗口是小的,那么电影的音频被呈现为单个声源。在一些方面,基于对象大小来确定通道的数目或布局。例如,基于大的对象大小,通道布局可被确定为环绕声布局(例如,5.1、7.2等)。对于小的对象,通道布局可以是单声道或立体声的。
在一些方面,基于对象大小来确定音频的回响。大的对象可具有更大的回响,并且小的对象可具有很少回响或没有回响。如果对象大小增大,则可增大与对象相关联的音频的回响(例如,与音频对象的大小成比例)。如果对象大小减小,那么可减小与对象相关联的音频的回响。
在一些方面,基于对象大小来确定音频的音色(也称为音质)。音色可主要由声音的谐波含量和声音的动态特征诸如声音的颤音和冲击衰减包络、频谱和包络来确定。音色特征可基于对象的大小来变化,使得大的对象具有增强的音质。
应当理解,与音频应用程序相关联的对象可表示空间音频环境中和/或XR环境中的声源。因此,在对象大小增大时,利用音频参数修改与对象相关联的音频,以使得对象声音更大或更小。可对音频进行空间化,使得其看起来源自向用户示出的对象或在该对象附近。例如,向用户示出的与电影播放器(对象)相关联的音频将听起来好像该音频是从电影播放器发出的。在一些方面,对象可表示多个声源,例如在应用程序的音频包含多于一个声源(例如,两个人说话)的情况下。
应当理解,术语小和大可基于应用程序(例如,根据显示器是双显示器还是XR显示器,或显示器有多大)来变化。在一些方面,可与对象的大小成比例地确定音频参数。在这种情况下,对象大小是从小到大的梯度。在一些方面,阈值可用于以离散方式确定对象是否为小、中、大、超大等。例如,如果对象具有小于阈值x的尺寸(例如,面积、高度、宽度、长度、直径等),则对象被认为是小的。如果对象具有大于阈值y的尺寸,则对象被认为是大的。如果对象具有大于阈值z的尺寸,则对象被认为是超大的,诸如此类。一个或多个阈值可基于测试和实验来确定,并且可从一个对象变化至另一个对象。
在一些方面,可对应用程序进行分类,并且这些类别可影响相对于对象处理这些应用程序的音频参数的方式。在一些方面,基于对象的大小来确定或修改音频参数可视应用程序的分类而定。类别可包括例如媒体或多媒体类别(例如,电影播放器、音乐播放器、视频游戏)、通信类别(例如,用于电话呼叫或视频聊天)、和/或实用(例如,闹钟、相机、日历等)类别。在一些方面,归入媒体的应用程序的音频参数基于对象大小来动态地确定,而其他类别(例如,实用或通信)中的应用程序不使其相应音频参数基于对象大小来动态地确定。
图9示出了在一个方面可与所描述的方面中的任何方面一起使用的音频处理系统硬件的框图。该音频处理系统150可表示通用计算机系统或专用计算机系统。需注意,虽然示出了可被结合到头戴式受话器、扬声器系统、麦克风阵列和娱乐系统中的音频处理系统的各种部件,但这仅是特定具体实施的一个示例并且仅是为了示出可存在于音频处理系统中的部件的类型。该系统并不旨在表示使这些部件互连的任何特定架构或方式,因为此类细节与本文所述的各方面并无密切关系。还应理解,还可使用具有比所示的更少或更多的部件的其他类型的音频处理系统。因此,本文所述的过程不限于与所示硬件和软件一起使用。
音频处理系统(例如,膝上型计算机、台式计算机、移动电话、智能电话、平板电脑、智能扬声器、头戴式显示器(HMD)、头戴式受话器装置,或者用于汽车或其他车辆的信息娱乐系统)包括用于将系统的各种部件互连的一条或多条总线162。如本领域中所公知地,一个或多个处理器152耦接到总线162。一个或多个处理器可以是微处理器或专用处理器、片上系统(SOC)、中央处理单元、图形处理单元、通过专用集成电路(ASIC)创建的处理器或它们的组合。存储器151可包括使用本领域已知的技术耦接到总线的只读存储器(ROM)、易失性存储器和非易失性存储器或它们的组合。头部跟踪单元158可包括IMU(例如,陀螺仪和/或加速度计)和/或相机(例如,RGB相机、RGBD相机、深度相机等)以及应用于感测的数据以确定用户的位置或定位的跟踪算法。音频处理系统还可包括显示器160(例如,HMD、HUD、计算机监视器、电视或触摸屏显示器)。
存储器151可连接到总线并且可包括DRAM、硬盘驱动器或闪存存储器,或磁性光驱或磁性存储器,或光驱或者是甚至在系统断电之后仍维护数据的其他类型的存储器系统。在一个方面,处理器152检索存储在机器可读存储介质(存储器)中的计算机程序指令并执行这些指令以执行本文所述的操作。
尽管未示出,但音频硬件可耦接到一条或多条总线162,以便接收待由扬声器156处理并输出的音频信号。音频硬件可包括数模转换器和/或模数转换器。音频硬件还可包括音频放大器和滤波器。音频硬件还可与麦克风154(例如,麦克风阵列)连接以接收音频信号(无论是模拟的还是数字的),在必要时将其数字化,并且将该信号传送到总线162。
通信模块164可与远程设备和网络通信。例如,通信模块164可通过已知的技术诸如Wi-Fi、3G、4G、5G、蓝牙、ZigBee或其他等效技术进行通信。通信模块可包括可与联网设备诸如服务器(例如,云端)和/或其他设备诸如远程扬声器和远程麦克风通信(例如,接收和发送数据)的有线或无线发射器和接收器。
应当理解,本文所公开的方面可利用远离系统的存储器,诸如通过网络接口诸如调制解调器或以太网接口耦接到音频处理系统的网络存储设备。如本领域所熟知的,总线162可通过各种网桥、控制器和/或适配器彼此连接。在一个方面,一个或多个网络设备可耦接到总线162。一个或多个网络设备可为有线网络设备(例如,以太网)或无线网络设备(例如,WI-FI、蓝牙)。在一些方面,所述的各个方面(例如,模拟、分析、估计、建模、对象检测等)可由与捕获设备通信的联网服务器执行。
图10示出根据一些方面的可在操作14处执行的基于声源的模型来生成声音的示例。声源180的模型可通过限定模型的形状诸如例如球形、圆锥形、立方形、圆柱形、棱锥形、正方形、圆形或不规则形状来确定。在一些方面,限定模型的一个或多个部分184,该一个或多个部分诸如以指向性图案182的形式辐射声学能量。例如,球形模型上的帽可辐射声学能量。
可基于a)模型和/或b)辐射声学能量的一个或多个部分的几何形状和/或大小来确定指向性图案的形状,该指向性图案的形状可包括指向性图案的波瓣的形状、方向和/或数目。可通过虚拟环境(例如,房间)中的声源180的声学模拟来确定指向性图案。例如,声源的模型越大,指向性图案就可变得越复杂(例如,具有增加的指向性和/或更大量的波瓣)。
不同的声源可被不同地建模。此外,一些模型可具有产生声音的多个部分。例如,如果声源是人,则模型可具有以第一频率振动的第一部分(例如,近似嘴)和以较低频率振动的第二部分(例如,近似咽喉)。在其他示例中,诸如车辆的声源可被建模为具有像引擎那样振动的第一部分和像排气管那样振动的第二部分。因此,模型可具有不同地产生声音的一个或多个部分。
从使用模型的声学模拟,可提取音频滤波器190并将其应用于一个或多个音频信号以产生具有指向性图案182的输出音频。在一些方面,音频滤波器包括:a)第一滤波器,其与直接声音相关联(以对从源直接行进到收听者的声音进行建模),b)第二滤波器,其与早期反射相关联(以对在到达收听者之前通常从一个或两个表面反射的声音进行建模),以及c)第三滤波器,其与回响相关联(以对从表面多次反弹之后(通常在距声音的原点100ms之后)到达收听者的声音进行建模)。滤波器可限定相对于收听者在不同方向的不同频率的频率响应(例如,振幅和相位)。
在一些方面,可被描述为“物理模型”的声源模型与对象190相关联。对象可以是模型正在建模的声源的视觉表示。例如,对象可以是图形、视频、动画、化身等。声源可以是任何声源,诸如扩音器、人、动物、电影、计算机应用程序、视频游戏、车辆等。如所描述的,对象可在ER设置中和/或在传统的二维显示器上呈现。
声源的模型可基于对象来确定和/或修改。例如,根据对象的取向、大小或类型,可确定模型的几何形状或大小。如果对象的取向或大小(例如,基于来自用户的输入或操作系统所采取的自动动作)改变,那么可相应地修改模型,从而产生另一个(例如,第二或所修改的)音频滤波器集合。模型的调整可尝试逼真地沿循表示声源的对象的调整。对象大小的减小可导致模型大小的减小。类似地,对象大小的增大可导致模型大小的增大。例如,声源或对象的大小的50%的增大或减小可导致物理模型的大小的50%的增大或减小。模型可与对象的变化成比例地改变。在一些实施方案中,可限定模型和对象之间的映射(例如,在用户设置中),从而允许用户在艺术上限定模型和对象之间的关系。
在一些方面,模型的几何属性可暴露于用户。例如,用户可配置限定模型的大小、形状或方向的设置。在一些方面,用户可配置模型的辐射声学能量的部分,诸如其大小、形状、数量和/或在模型上的位置。可基于所修改的几何属性来生成音频滤波器。这样,用户可根据品味或应用程序调整模型。
因此,基于模型(或与模型相关联的对象)的大小或几何形状,确定音频滤波器190。这些音频滤波器可应用于渲染与声源相关联的音频。例如,参考图2,空间音频控制器22可对声源建模并且产生音频滤波器。然后空间音频混合引擎26可将那些音频滤波器应用于音频内容以产生空间音频内容(例如,双耳音频等)。空间音频内容的音频通道可用于驱动扬声器30。
类似于其他部分中的讨论,声源的建模可与由OS管理的应用程序相关联。因此,应用程序可具有在视觉上表示应用程序以及应用程序的声音的对象。应用程序的声音可被建模以自动产生可根据模型的几何形状和/或大小而变化的音频滤波器,模型的几何形状和/或大小可基于对象的几何形状、类型或大小来确定。因此,由OS管理的不同应用程序可各自具有对应的模型。电影应用程序可具有与会议应用程序不同的模型。此外,在一些方面,一些声源和/或应用程序的音频是使用模型产生的,而其他音频是在不使用模型的情况下“艺术地”(如在其他部分中所述)产生的。在一些方面,一些声源和/或应用程序的音频可使用如相对于图10所述的模型以及艺术地(如在其他部分中所述)利用所选择的音频参数来产生。例如,虚拟角色的大小的变化可引起用于渲染该角色的声音的物理模型的对应变化,从而导致该角色的语音的回响特性的变化。另外,可基于虚拟角色的所改变的大小(例如,基于来自用户的输入或设置)来选择音频参数,从而导致角色的语音的音高的变化。应当理解,表示声源的对象(例如,虚拟角色、应用程序窗口等)的“大小”的变化包括对象的几何形状的变化(例如,长度、宽度或形状的变化)。
本文所述的各个方面可至少部分地在软件中体现。也就是说,响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(例如DRAM或闪存存储器))中包含的指令序列而可在音频处理系统中实施这些技术。在各个方面中,可将硬连线电路与软件指令结合地使用来实现本文所述的技术。因此,这些技术不限于硬件电路与软件的任何指定组合,也不限于由音频处理系统执行的指令的任何特定源。
在本说明书中,某些术语用于描述各个方面的特征。例如,在某些情况下,术语“管理器”、“应用程序”、“引擎”、“控制器”、“模块”、“处理器”、“单元”、“渲染器”、“系统”、“设备”、“滤波器”、“定位器”和“部件”表示被配置为执行一个或多个过程或功能的硬件和/或软件。例如,“硬件”的示例包括但不限于集成电路诸如处理器(例如,数字信号处理器、微处理器、专用集成电路、微控制器等)。因此,如本领域的技术人员所理解的,可以实现硬件和/或软件的不同组合以执行由上述术语描述的过程或功能。当然,硬件可另选地实现为有限状态机或甚至组合逻辑部件。“软件”的示例包括应用程序、小应用程序、例程甚至一系列指令形式的可执行代码。如上所述,软件可存储在任何类型的机器可读介质中。
已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是音频处理领域技术人员所用的方法,而这些方法也能最有效地将他们的工作实质传达给该领域其他技术人员。算法在这里并通常是指导致所希望的结果的操作的自相一致的序列。这些操作是需要对物理量进行物理操纵的那些操作。然而,应当谨记,所有这些以及类似的术语都与适当的物理量相关联,并且只是应用于这些量的方便标签。除非另外特别说明,否则从上述讨论中显而易见的是,可以理解在整个说明书中,使用诸如那些在下文权利要求书中给出的术语的讨论涉及音频处理系统或类似电子设备的动作和过程,其操纵在系统的寄存器和存储器中被表示为物理(电子)量的数据以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被表示为物理量的其他数据。
本文所述的过程和块不限于所述的特定示例,并且不限于在本文中作为示例使用的特定次序。相反,可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执行,以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行,以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如,FPGA(现场可编程门阵列)和/或ASIC(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外,过程可在任何组合硬件设备和软件部件中实现。
虽然已经在附图中描述和示出了某些方面,但是应当理解,这些方面仅仅是对本发明的说明而非限制,并且本发明不限于所示出和所描述的具体结构和布置,因为本领域的普通技术人员可以想到各种其他修改型式。
为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书,申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35U.S.C.112(f),除非在特定权利要求中明确使用字词“用于......的装置”或“用于......的步骤”。
众所周知,使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地,应管理和处理个人可识别信息数据,以使无意或未经授权的访问或使用的风险最小化,并应当向用户明确说明授权使用的性质。

Claims (75)

1.一种由计算设备执行的方法,包括:
保持与在所述计算设备上运行的应用程序相关联的元数据,所述元数据包括与所述应用程序相关联的对象的大小;
呈现与所述应用程序相关联的所述对象;以及
基于所述对象的所述大小,确定应用于渲染与所述应用程序相关联的音频的一个或多个音频参数,所述一个或多个音频参数包括动态范围。
2.根据权利要求1所述的方法,还包括:在所述对象的所述大小增大的情况下增大所述动态范围,以及在所述对象的所述大小减小的情况下减小所述动态范围。
3.根据权利要求1-2中任一项所述的方法,其中确定所述动态范围包括:基于与所述对象相关联的声源的模型来生成音频滤波器。
4.根据权利要求3所述的方法,其中所述模型的大小或几何形状基于所述对象的大小或几何形状来确定。
5.根据权利要求3-4中任一项所述的方法,还包括:响应于所述对象的所述大小或所述几何形状的变化来修改所述模型的所述大小或所述几何形状。
6.根据权利要求3-5中任一项所述的方法,其中所述模型的一个或多个部分在确定所述动态范围的模拟中辐射声学能量,所述音频滤波器是从所述声学能量生成的。
7.根据权利要求3-6中任一项所述的方法,其中所述音频滤波器包括与直接声音相关联的第一滤波器、与早期反射相关联的第二滤波器和与回响相关联的第三滤波器,所述第一滤波器、所述第二滤波器和所述第三滤波器应用于所述音频以渲染所述音频。
8.根据权利要求3-7中任一项所述的方法,包括:基于用户输入来修改所述模型的几何属性,从而导致基于所述模型的所修改的几何属性来生成第二音频滤波器。
9.根据权利要求1-8中任一项所述的方法,其中所述一个或多个音频参数还包括以下项中的至少一项:指向性图案、频率响应、声音功率、频率范围、音高、音色、输出音频通道的数目和回响。
10.根据权利要求9所述的方法,还包括:在所述对象的所述大小被修改的情况下修改所述一个或多个音频参数中的至少一个音频参数。
11.根据权利要求1-10中任一项所述的方法,其中所述对象通过增强现实、混合现实或虚拟现实显示器来呈现。
12.根据权利要求1-10中任一项所述的方法,其中所述对象通过二维显示器来呈现。
13.根据权利要求1-12中任一项所述的方法,其中所述动态范围的应用与用于渲染与所述应用程序相关联的音频的用户控制的音频设置无关。
14.根据权利要求1-13中任一项所述的方法,其中所述方法由所述计算设备的操作系统(OS)执行,并且所述应用程序是由所述OS管理的多个应用程序中的一个应用程序,所述多个应用程序中的每个应用程序与包括对应对象的对应大小的对应元数据相关联。
15.根据权利要求14所述的方法,其中基于所述对应对象的所述对应大小,与所述多个应用程序中的对应应用程序相关联的音频参数被确定并且应用于渲染与所述多个应用程序中的所述对应应用程序相关联的音频。
16.根据权利要求1-15中任一项所述的方法,其中基于所述对象的所述大小来确定或修改所述动态范围或其他音频参数视所述应用程序的分类而定,所述分类包括以下项中的至少一项:媒体、通信和实用。
17.一种由计算设备执行的方法,包括:
保持与在所述计算设备上运行的应用程序相关联的元数据,所述元数据包括与所述应用程序相关联的对象的大小;
呈现与所述应用程序相关联的所述对象;以及
基于所述对象的所述大小,确定应用于渲染与所述应用程序相关联的音频的一个或多个音频参数,所述一个或多个音频参数包括指向性图案。
18.根据权利要求17所述的方法,还包括:在所述对象的所述大小被修改的情况下改变所述指向性图案的形状,包括在所述对象的所述大小增大的情况下增大所述指向性图案的指向性,以及在所述对象的所述大小减小的情况下减小所述指向性图案的所述指向性。
19.根据权利要求17-18中任一项所述的方法,其中确定所述指向性图案包括:基于与所述对象相关联的声源的模型来生成音频滤波器。
20.根据权利要求19所述的方法,其中所述模型的大小或几何形状基于所述对象的大小或几何形状来确定。
21.根据权利要求19-20中任一项所述的方法,还包括:响应于所述对象的所述大小或所述几何形状的变化来修改所述模型的所述大小或所述几何形状。
22.根据权利要求19-21中任一项所述的方法,其中所述模型的一个或多个部分辐射声学能量以形成所述指向性图案,所述音频滤波器是从所述指向性图案生成的。
23.根据权利要求19-22中任一项所述的方法,其中所述音频滤波器包括与直接声音相关联的第一滤波器、与早期反射相关联的第二滤波器和与回响相关联的第三滤波器,所述第一滤波器、所述第二滤波器和所述第三滤波器应用于所述音频以渲染所述音频。
24.根据权利要求19-23中任一项所述的方法,包括:基于用户输入来修改所述模型的几何属性,从而导致基于所述模型的所修改的几何属性来生成第二音频滤波器。
25.根据权利要求17-24中任一项所述的方法,其中所述一个或多个音频参数还包括以下项中的至少一项:动态范围、频率响应、声音功率、频率范围、音高、音色、输出音频通道的数目和回响。
26.根据权利要求25所述的方法,还包括:在所述对象的所述大小被修改的情况下修改所述一个或多个音频参数中的至少一个音频参数。
27.根据权利要求17-26中任一项所述的方法,其中所述对象通过增强现实、混合现实或虚拟现实显示器来呈现。
28.根据权利要求17-26中任一项所述的方法,其中所述对象通过二维显示器来呈现。
29.根据权利要求17-28中任一项所述的方法,其中所述指向性图案的应用与用于渲染与所述应用程序相关联的音频的用户控制的音频设置无关。
30.根据权利要求17-29中任一项所述的方法,其中所述方法由所述计算设备的操作系统(OS)执行,并且所述应用程序是由所述OS管理的多个应用程序中的一个应用程序,所述多个应用程序中的每个应用程序与包括对应对象的对应大小的对应元数据相关联。
31.根据权利要求30所述的方法,其中基于所述对应对象的所述对应大小,与所述多个应用程序中的对应应用程序相关联的音频参数被确定并且应用于渲染与所述多个应用程序中的所述对应应用程序相关联的音频。
32.根据权利要求17-31中任一项所述的方法,其中基于所述对象的所述大小来确定或修改所述指向性图案或其他音频参数视所述应用程序的分类而定,所述分类包括以下项中的至少一项:媒体、通信和实用。
33.一种由计算设备执行的方法,包括:
保持与在所述计算设备上运行的应用程序相关联的元数据,所述元数据包括与所述应用程序相关联的对象的大小;
呈现与所述应用程序相关联的所述对象;以及
基于所述对象的所述大小,确定应用于渲染与所述应用程序相关联的音频的多个音频参数中的至少一个音频参数,所述至少一个音频参数包括频率响应。
34.根据权利要求33所述的方法,还包括:在所述对象的所述大小被修改的情况下改变所述频率响应,使得在所述对象的所述大小减小的情况下升高所述音频的低频截止值,并且在所述对象的所述大小增大的情况下降低所述音频的所述低频截止值。
35.根据权利要求33-34中任一项所述的方法,其中确定所述频率响应包括基于与所述对象相关联的声源的模型来生成音频滤波器。
36.根据权利要求35所述的方法,其中所述模型的大小或几何形状基于所述对象的大小或几何形状来确定。
37.根据权利要求35-36中任一项所述的方法,还包括:响应于所述对象的所述大小或所述几何形状的变化来修改所述模型的所述大小或所述几何形状。
38.根据权利要求35-37中任一项所述的方法,其中所述模型的一个或多个部分在确定所述频率响应的模拟中辐射声学能量,所述音频滤波器是从所述声学能量生成的。
39.根据权利要求35-38中任一项所述的方法,其中所述音频滤波器包括与直接声音相关联的第一滤波器、与早期反射相关联的第二滤波器和与回响相关联的第三滤波器,所述第一滤波器、所述第二滤波器和所述第三滤波器应用于所述音频以渲染所述音频。
40.根据权利要求35-39中任一项所述的方法,包括:基于用户输入来修改所述模型的几何属性,从而导致基于所述模型的所修改的几何属性来生成第二音频滤波器。
41.根据权利要求33-40所述的方法,其中所述多个音频参数还包括以下项中的至少一项:动态范围、指向性图案、声音功率、频率范围、音高、音色、输出音频通道的数目和回响。
42.根据权利要求41所述的方法,还包括:在所述对象的所述大小被修改的情况下修改所述多个音频参数中的一个或多个音频参数。
43.根据权利要求33-42中任一项所述的方法,其中所述对象通过增强现实、混合现实或虚拟现实显示器来呈现。
44.根据权利要求33-42中任一项所述的方法,其中所述对象通过二维显示器来呈现。
45.根据权利要求33-44中任一项所述的方法,其中所述频率响应的应用与用于渲染与所述应用程序相关联的音频的用户控制的音频设置无关。
46.根据权利要求33-45中任一项所述的方法,其中所述方法由所述计算设备的操作系统(OS)执行,并且所述应用程序是由所述OS管理的多个应用程序中的一个应用程序,所述多个应用程序中的每个应用程序与包括对应对象的对应大小的对应元数据相关联。
47.根据权利要求46所述的方法,其中基于所述对应对象的所述对应大小,与所述多个应用程序中的对应应用程序相关联的音频参数被确定并且应用于渲染与所述多个应用程序中的所述对应应用程序相关联的音频。
48.根据权利要求33-47中任一项所述的方法,其中基于所述对象的所述大小来确定或修改所述频率响应或其他音频参数视所述应用程序的分类而定,所述分类包括以下项中的至少一项:媒体、通信和实用。
49.一种由计算设备执行的方法,包括:
保持与在所述计算设备上运行的应用程序相关联的元数据,所述元数据包括与所述应用程序相关联的对象的大小;
呈现与所述应用程序相关联的所述对象;以及
基于所述对象的所述大小,确定应用于渲染与所述应用程序相关联的音频的多个音频参数中的至少一个音频参数,所述至少一个音频参数包括声音功率。
50.根据权利要求49所述的方法,还包括:在所述对象的所述大小增大的情况下增大所述声音功率,以及在所述对象的所述大小减小的情况下减小所述声音功率。
51.根据权利要求49-50中任一项所述的方法,其中确定所述声音功率包括基于与所述对象相关联的声源的模型来生成音频滤波器。
52.根据权利要求51所述的方法,其中所述模型的大小或几何形状基于所述对象的大小或几何形状来确定。
53.根据权利要求51-52中任一项所述的方法,还包括:响应于所述对象的所述大小或所述几何形状的变化来修改所述模型的所述大小或所述几何形状。
54.根据权利要求51-53中任一项所述的方法,其中所述模型的一个或多个部分在确定所述声音功率的模拟中辐射声学能量,所述音频滤波器是从所述声学能量生成的。
55.根据权利要求51-54中任一项所述的方法,其中所述音频滤波器包括与直接声音相关联的第一滤波器、与早期反射相关联的第二滤波器和与回响相关联的第三滤波器,所述第一滤波器、所述第二滤波器和所述第三滤波器应用于所述音频以渲染所述音频。
56.根据权利要求51-55中任一项所述的方法,包括:基于用户输入来修改所述模型的几何属性,从而导致基于所述模型的所修改的几何属性来生成第二音频滤波器。
57.根据权利要求49-56所述的方法,其中所述多个音频参数还包括以下项中的至少一项:动态范围、指向性图案、频率响应、频率范围、音高、音色、输出音频通道的数目和回响。
58.根据权利要求57所述的方法,还包括:在所述对象的所述大小被修改的情况下修改所述多个音频参数中的一个或多个音频参数。
59.根据权利要求49-58中任一项所述的方法,其中所述对象通过增强现实、混合现实或虚拟现实显示器来呈现。
60.根据权利要求49-58中任一项所述的方法,其中所述对象通过二维显示器来呈现。
61.根据权利要求49-60中任一项所述的方法,其中所述声音功率的应用与用于渲染与所述应用程序相关联的音频的用户控制的音频设置无关。
62.根据权利要求49-61中任一项所述的方法,其中所述方法由所述计算设备的操作系统(OS)执行,并且所述应用程序是由所述OS管理的多个应用程序中的一个应用程序,所述多个应用程序中的每个应用程序与包括对应对象的对应大小的对应元数据相关联。
63.根据权利要求62所述的方法,其中基于所述对应对象的所述对应大小,与所述多个应用程序中的对应应用程序相关联的音频参数被确定并且应用于渲染与所述多个应用程序中的所述对应应用程序相关联的音频。
64.根据权利要求49-63中任一项所述的方法,其中基于所述对象的所述大小来确定或修改所述声音功率或其他音频参数视所述应用程序的分类而定,所述分类包括以下项中的至少一项:媒体、通信和实用。
65.一种由计算设备执行的方法,包括:
确定与对象相关联的声源的模型;
在视觉上呈现表示所述声源的对象;以及
基于所述模型的大小或几何形状,确定应用于渲染与所述声源相关联的音频的音频滤波器或音频参数。
66.根据权利要求65所述的方法,其中所述音频滤波器包括与直接声音相关联的第一滤波器、与早期反射相关联的第二滤波器和与回响相关联的第三滤波器。
67.根据权利要求65-66中任一项所述的方法,包括:基于用户输入来修改所述模型的所述大小或所述几何形状,从而导致基于所述模型的所修改的几何属性来生成第二音频滤波器。
68.根据权利要求65-67中任一项所述的方法,其中所述模型的大小或几何形状基于所述对象的大小或几何形状来确定。
69.根据权利要求65-68中任一项所述的方法,还包括:响应于所述对象的大小或几何形状的变化来修改所述模型的大小或几何形状,从而导致生成应用于渲染与所述声源相关联的所述音频的第二音频滤波器。
70.根据权利要求65-69中任一项所述的方法,其中所述对象通过增强现实、混合现实或虚拟现实显示器来呈现。
71.根据权利要求65-69中任一项所述的方法,其中所述对象通过二维显示器来呈现。
72.根据权利要求65-71中任一项所述的方法,其中所述音频参数包括以下项中的至少一项:动态范围、指向性图案、频率响应、频率范围、声音功率、音高、音色、输出音频通道的数目和回响。
73.根据权利要求65-71中任一项所述的方法,其中所述方法由所述计算设备的操作系统(OS)执行,并且所述声源与作为由所述OS管理的多个应用程序中的一个应用程序的应用程序相关联。
74.一种计算设备,包括:处理器和存储指令的计算机可读存储器,所述指令在由所述处理器执行时致使所述计算设备执行权利要求1-72中的任一项。
75.一种存储指令的计算机可读介质,所述指令在由处理器执行时致使执行权利要求1-72中的任一项。
CN202180074120.4A 2020-09-01 2021-08-13 动态改变音频特性 Pending CN116391171A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063073175P 2020-09-01 2020-09-01
US63/073,175 2020-09-01
US202163172963P 2021-04-09 2021-04-09
US63/172,963 2021-04-09
PCT/US2021/045969 WO2022051076A1 (en) 2020-09-01 2021-08-13 Dynamically changing audio properties

Publications (1)

Publication Number Publication Date
CN116391171A true CN116391171A (zh) 2023-07-04

Family

ID=77655677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180074120.4A Pending CN116391171A (zh) 2020-09-01 2021-08-13 动态改变音频特性

Country Status (3)

Country Link
US (1) US20230274756A1 (zh)
CN (1) CN116391171A (zh)
WO (1) WO2022051076A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6490359B1 (en) * 1992-04-27 2002-12-03 David A. Gibson Method and apparatus for using visual images to mix sound
US20100293468A1 (en) * 2009-05-12 2010-11-18 Sony Ericsson Mobile Communications Ab Audio control based on window settings

Also Published As

Publication number Publication date
US20230274756A1 (en) 2023-08-31
WO2022051076A1 (en) 2022-03-10

Similar Documents

Publication Publication Date Title
US11800174B2 (en) Mixed reality virtual reverberation
JP2023153358A (ja) 双方向オーディオ環境のための空間オーディオ
CN113597777B (zh) 音频处理
US11832086B2 (en) Spatial audio downmixing
CN111095952B (zh) 使用体积音频渲染和脚本化音频细节级别的3d音频渲染
JP6670361B2 (ja) レンダリングする音響オブジェクトをユーザが選択するためのユーザインタフェース、および/またはレンダリングする音響オブジェクトをユーザが選択するためのユーザインタフェースをレンダリングする方法
US11651762B2 (en) Reverberation gain normalization
Murphy et al. Spatial sound for computer games and virtual reality
EP3506080B1 (en) Audio scene processing
US11417347B2 (en) Binaural room impulse response for spatial audio reproduction
US11070933B1 (en) Real-time acoustic simulation of edge diffraction
US20230274756A1 (en) Dynamically changing audio properties
US20230413003A1 (en) Audio processing in a virtual environment
US20240007820A1 (en) System and method of providing faded audio experience during transition between environments
WO2022178194A1 (en) Decorrelating objects based on attention
WO2024084950A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
US20240098442A1 (en) Spatial Blending of Audio

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination