CN110089135A - 用于生成音频映象的系统和方法 - Google Patents

用于生成音频映象的系统和方法 Download PDF

Info

Publication number
CN110089135A
CN110089135A CN201780078834.6A CN201780078834A CN110089135A CN 110089135 A CN110089135 A CN 110089135A CN 201780078834 A CN201780078834 A CN 201780078834A CN 110089135 A CN110089135 A CN 110089135A
Authority
CN
China
Prior art keywords
impulse response
audio
audio stream
place
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780078834.6A
Other languages
English (en)
Inventor
马修·博埃鲁姆
布赖恩·马丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ottibley Reality Co Ltd
Original Assignee
Ottibley Reality Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ottibley Reality Co Ltd filed Critical Ottibley Reality Co Ltd
Publication of CN110089135A publication Critical patent/CN110089135A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Abstract

一种用于生成在呈现音频时使用的音频映象的系统和方法。方法包括访问音频流;访问位置信息,该位置信息包括第一位置、第二位置和第三位置;以及生成音频映象。在一些实施方式中,生成音频映象包括:基于音频流生成要被听者感知为从第一位置发出的第一虚拟波前;基于音频流生成要被听者感知为从第二位置发出的第二虚拟波前;以及基于音频流生成要被听者感知为从第三位置发出的第三虚拟波前。

Description

用于生成音频映象的系统和方法
相关技术的交叉引用
本PCT申请要求于2016年10月19日提交的美国临时专利申请第62/410,132号的优先权,其全部公开内容在允许通过引用并入的那些法律管辖权下通过引用并入本文中。
技术领域
本技术涉及生成音频映象的系统和方法。具体地,系统和方法允许生成用于在向听者呈现音频时使用的音频映象。
背景技术
尽管人类只有两个听力,但是仍可以三维地定位声音。脑、内耳和外耳一起工作以推断音频源的位置。为了使听者能够三维地定位声音,声音必须在感知上从特定的方位角、仰角和距离到达。听者的脑通过基于到达时间、强度和光谱差异比较由第一耳朵感知的第一线索和由第二耳朵感知的第二线索得到差异线索以估计音频源的源位置。然后,脑可以依据差异线索来定位音频源的特定方位角、仰角和距离。
根据爱迪生开发的和美国专利200,521中描述的留声机到最近在空间音频上的发展,音频专业人员和工程师已经投入了巨大的努力来尝试再现现实,如同我们在现实生活中听到它并感受到它。随着最近在虚拟和增强现实中的发展,该目标变得更加普遍,因为音频在向用户提供沉浸式体验中起着关键作用。因此,空间音频领域在过去几年中受到了很多关注。空间音频的最新发展主要集中在改进如何捕获和/或再现音频源的源位置。这样的发展通常涉及在虚拟三维空间中包括在听者后方、前方、侧方、上方和/或下方的任何地方虚拟地定位和/或移位音频源。
最近在音频源的定位和移动的感知方面的发展的示例包括以下技术,例如(1)来自杜比实验室的杜比全景声(Dolby),主要用于商业和/或家庭影院,以及(2)来自脸书(Facebook)的(two big)(也称为Facebook 360),主要用于创建要在头戴式耳机和/或扬声器上重放的音频内容。作为第一示例,技术允许多个音频轨道与空间音频描述元数据(例如定位和/或全景自动化数据)相关联,并且允许将其分发到影院以基于影院功能向扬声器进行最佳的动态呈现。作为第二示例,技术包括用于设计360视频和/或虚拟现实(VR)和/或增强现实(AR)内容的空间音频的软件套件(诸如Facebook 360空间工作站)。然后,可以在头戴式耳机或VR/AR耳机上动态地呈现360视频和/或VR和/或AR内容。
现有技术通常依赖于使用头部相关变换函数(HRTF)的声波的空间域卷积来变换声波以便模仿从三维空间的点发出的自然声波。即使音频流仅由两个扬声器(例如头戴式耳机或扬声器)产生,这样的技术也允许一定限度内在听到音频流时使听者的脑产生在不同的三维位置中放置不同的声音源的错觉。使用HRTF的空间音频增强的系统和方法的示例可以在创意科技有限公司的美国专利公布第2014/0270281号、杜比实验室公司的国际专利公布WO 2014/159376和杜比实验室许可公司的国际专利公布WO 2015/134658中找到。
尽管当前的技术(例如上面详述的技术)可以允许将听者带到更接近沉浸式体验的阶段,但是它们仍然存在至少某些缺陷。首先,当前技术可能在使听者的脑来产生在三维位置中放置和移位不同声音源的错觉时存在某些限制。与听者在现实生活中的体验相比,这些限制导致更低的沉浸式体验和/或更低的音频质量。其次,至少一些当前技术需要复杂的软件和/或硬件部件来操作传统的HRTF仿真软件。随着音频内容越来越多地通过移动设备(例如,智能手机、平板电脑、膝上型计算机、头戴式耳机、VR耳机、AR耳机)重放,复杂的软件和/或硬件部件由于需要移动设备可能不具备的大量的处理能力可能并不总是合适的,由于这样的移动设备通常是轻巧、紧凑和低功率的。
因此可能需要进行改进。
背景技术部分中讨论的主题不应仅仅因为在背景技术部分中提及而被认为是现有技术。类似地,不应假设在背景技术部分中提到的或与背景技术部分的主题相关的问题先前已在现有技术中被认识到。背景技术部分中的主题仅代表不同的方法。
发明内容
已经基于开发人员对与现有技术相关联的缺点的理解来开发本技术的实施方式。
具体地,这样的缺点可以包括(1)有限的沉浸式体验的质量,(2)用于向听者自然地呈现音频内容的有限能力和/或(3)用于给听者产生空间音频内容和/或回放空间音频内容的设备的所需的处理功率。
在一方面,本技术的各种实现方式提供了一种生成用于在呈现音频时使用的音频映象(image)的方法,该方法包括:
访问音频流;
访问第一位置脉冲响应,第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,第三位置脉冲响应与第三位置相关联;
通过执行以下步骤来生成音频映象:
基于音频流和第一位置脉冲响应生成要被听者感知为从第一位置发出的第一虚拟波前;
基于音频流和第二位置脉冲响应生成要被听者感知为从第二位置发出的第二虚拟波前;以及
基于音频流和第三位置脉冲响应生成要被听者感知为从第三位置发出的第三虚拟波前。
在另一方面,本技术的各种实现方式提供了一种生成用于在呈现音频时使用的音频映象的方法,该方法包括:
访问音频流;
访问位置信息,位置信息包括第一位置、第二位置和第三位置;
通过执行以下操作来生成音频映象:
基于音频流生成要被听者感知为从第一位置发出的第一虚拟波前;
基于音频流生成要被听者感知为从第二位置发出的第二虚拟波前;以及
基于音频流生成要被听者感知为从第三位置发出的第三虚拟波前。
在又一方面,本技术的各种实现方式提供了一种生成用于在呈现音频时使用的体积音频映象(volumetric audio image)的方法,该方法包括:
访问音频流;
访问第一位置脉冲响应;
访问第二位置脉冲响应;
访问第三位置脉冲响应;
访问控制数据,控制数据包括第一位置、第二位置和第三位置;
将第一位置脉冲响应与第一位置相关联,将第二位置脉冲响应与第二位置相关联以及将第三位置脉冲响应与第三位置相关联;
通过并行执行以下步骤来生成体积音频映象:
通过将音频流与第一位置脉冲响应进行卷积来生成从第一位置发出的第一虚拟波前;
通过将音频流与第二位置脉冲响应进行卷积来生成从第二位置发出的第二虚拟波前;
通过将音频流与第三位置脉冲响应进行卷积来生成从第三位置发出的第三虚拟波前;以及
混合第一虚拟波前、第二虚拟波前和第三虚拟波前以呈现体积音频映象。
在另一方面,本技术的各种实现方式提供了一种生成用于在呈现音频时使用的音频映象的方法,该方法包括:
访问音频流;
访问第一位置脉冲响应,第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,第三位置脉冲响应与第三位置相关联;
通过并行执行以下操作来生成音频映象:
通过将音频流与第一位置脉冲响应进行卷积来生成第一虚拟波前;
通过将音频流与第二位置脉冲响应进行卷积来生成第二虚拟波前;以及
通过将音频流与第三位置脉冲响应进行卷积来生成第三虚拟波前。
在又一方面,本技术的各种实施方式提供了一种用于呈现音频输出的系统,该系统包括:
声场定位器,声场定位器被配置成:
访问位置脉冲响应和控制数据,控制数据包括与位置脉冲响应相关联的位置;
音频映象呈现器,音频映象呈现器被配置成:
访问音频流;
生成包括从位置发出的虚拟波前的音频映象,虚拟波前中的每一个基于音频流和位置脉冲响应中的不同的一个来生成;以及
混合虚拟波前并且输出m通道音频输出以便呈现音频映象。
在另一方面,本技术的各种实施方式提供了一种用于生成音频映象文件的系统,该系统包括:
输入接口,输入接口被配置成:
接收音频流;
访问控制数据,控制数据包括要与脉冲响应相关联的位置;
编码器,编码器被配置成对音频流和控制数据进行编码以允许音频映象呈现器生成包括从位置发出的虚拟波前的音频映象,虚拟波前中的每一个基于音频流和位置脉冲响应中的不同的一个来生成。
在又一方面,本技术的各种实现方式提供了一种对音频流进行滤波的方法,该方法包括:
访问音频流;
访问与空间有关的维度信息;
确定声音在空间内从波动声学转换到射线声学的频率;以及
基于频率将音频流划分为第一音频子流和第二音频子流。
在另一方面,本技术的各种实施方式提供了一种用于生成音频映象的系统,该系统包括:
处理器;
非暂时性计算机可读介质,非暂时性计算机可读介质包括控制逻辑,所述控制逻辑在由处理器执行时使得:
访问音频流;
访问第一位置脉冲响应,第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,第三位置脉冲响应与第三位置相关联;
通过执行以下操作来生成音频映象:
基于音频流和第一位置脉冲响应生成要被听者感知为从第一位置发出的第一虚拟波前;
基于音频流和第二位置脉冲响应生成要被听者感知为从第二位置发出的第二虚拟波前;以及
基于音频流和第三位置脉冲响应生成要被听者感知为从第三位置发出的第三虚拟波前。
在又一方面,本技术的各种实施方式提供了一种用于生成音频映象的系统,该系统包括:
处理器;
非暂时性计算机可读介质,非暂时性计算机可读介质包括控制逻辑,所述控制逻辑在由处理器执行时使得:
访问音频流;
访问位置信息,位置信息包括第一位置、第二位置和第三位置;
通过并行执行以下操作来生成音频映象:
基于音频流生成要被听者感知为从第一位置发出的第一虚拟波前;
基于音频流生成要被听者感知为从第二位置发出的第二虚拟波前;以及
基于音频流生成要被听者感知为从第三位置发出的第三虚拟波前。
在另一方面,本技术的各种实施方式提供了一种用于生成体积音频映象的系统,该系统包括:
处理器;
非暂时性计算机可读介质,非暂时性计算机可读介质包括控制逻辑,所述控制逻辑在由处理器执行时使得:
访问音频流;
访问第一位置脉冲响应;
访问第二位置脉冲响应;
访问第三位置脉冲响应;
访问控制数据,控制数据包括第一位置、第二位置和第三位置;
将第一位置脉冲响应与第一位置相关联、将第二位置脉冲响应与第二位置相关联以及将第三位置脉冲响应与第三位置相关联;
通过并行执行以下步骤来生成体积音频映象:
通过将音频流与第一位置脉冲响应进行卷积来生成从第一位置发出的第一虚拟波前;
通过将音频流与第二位置脉冲响应进行卷积来生成从第二位置发出的第二虚拟波前;
通过将音频流与第三位置脉冲响应进行卷积来生成从第三位置发出的第三虚拟波前;以及
混合第一虚拟波前、第二虚拟波前和第三虚拟波前以呈现体积音频映象。
在又一方面,本技术的各种实施方式提供了一种用于生成音频映象的系统,该系统包括:
处理器;
非暂时性计算机可读介质,非暂时性计算机可读介质包括控制逻辑,所述控制逻辑在由处理器执行时使得:
访问音频流;
访问第一位置脉冲响应,第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,第三位置脉冲响应与第三位置相关联;
通过并行执行以下操作来生成音频映象:
通过将音频流与第一位置脉冲响应进行卷积来生成第一虚拟波前;
通过将音频流与第二位置脉冲响应进行卷积来生成第二虚拟波前;以及
通过将音频流与第三位置脉冲响应进行卷积来生成第三虚拟波前。
在另一方面,本技术的各种实施方式提供了一种用于对音频流进行滤波的系统,该系统包括:
处理器;
非暂时性计算机可读介质,非暂时性计算机可读介质包括控制逻辑,所述控制逻辑在由处理器执行时使得:
访问音频流;
访问与空间有关的维度信息;
确定声音在空间内从波动声学转换到射线声学的频率;以及
基于频率将音频流划分为第一音频子流和第二音频子流。
在又一方面,本发明的各种实现方式提供了一种包括控制逻辑的非暂时性计算机可读介质,所述控制逻辑在由处理器执行时使得:
访问音频流;
访问第一位置脉冲响应,第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,第三位置脉冲响应与第三位置相关联;
通过执行以下操作来生成音频映象:
基于音频流和第一位置脉冲响应生成要被听者感知为从第一位置发出的第一虚拟波前;
基于音频流和第二位置脉冲响应生成要被听者感知为从第二位置发出的第二虚拟波前;以及
基于音频流和第三位置脉冲响应生成要被听者感知为从第三位置发出的第三虚拟波前。
在另一方面,本技术的各种实现方式提供了一种生成用于在呈现音频时使用的音频映象的方法,该方法包括:
访问音频流;
访问第一位置脉冲响应,第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,第三位置脉冲响应与第三位置相关联;
通过执行以下操作来生成音频映象:
将音频流与第一位置脉冲响应进行卷积;
将音频流与第二位置脉冲响应进行卷积;以及
将音频流与第三位置脉冲响应进行卷积。
在其他方面,并行执行将音频流与第一位置脉冲响应进行卷积、将音频流与第二位置脉冲响应进行卷积以及将音频流与第三位置脉冲响应进行卷积。
在其他方面,本技术的各种实现方式提供了一种存储用于生成音频映象的程序指令的非暂时性计算机可读介质,所述程序指令可由基于计算机的系统的处理器执行以执行上述方法中的一个或更多个。
在其他方面,本技术的各种实现方式提供了一种基于计算机的系统,例如但不限于,包括至少一个处理器和存储用于生成音频映象的程序指令的存储器的电子设备,所述程序指令可由电子设备中的至少一个处理器执行以执行上述方法中的一个或更多个。
在本说明书的上下文中,除非另有明确提及,否则计算机系统可以参考但不限于“电子设备”、“移动设备”、“音频处理设备”、“头戴式耳机”、“耳机”、“VR耳机设备”、“AR耳机设备”、“系统”、“基于计算机的系统”和/或适合于手头相关任务的其任何组合。
在本说明书的上下文中,除非另有明确提及,否则表述“计算机可读介质”和“存储器”旨在包括任何性质和种类的介质,其非限制性示例包括RAM、ROM、盘(CD-ROM、DVD、软盘、硬盘驱动器等)、USB密钥、闪速存储器卡、固态硬盘和磁带机。仍然在本说明书的上下文中,“一种”计算机可读介质和“该”计算机可读介质不应被解释为是同一计算机可读介质。相反,并且在适当的时候,“一种”计算机可读介质和“该”计算机可读介质也可以被解释为第一计算机可读介质和第二计算机可读介质。
在本说明书的上下文中,除非另有明确提及,否则词语“第一”、“第二”、“第三”等用作形容词仅出于允许区分它们相互修饰的名词的目的,而不是出于描述那些名词之间的任何特定关系的目的。
本技术的实现方式各自具有上述目的和/或方面中的至少一个,但不一定具有所有这些方面。应当理解,由于试图获得上述目的而导致的本技术的一些方面可能不满足该目的和/或可能满足本文未具体叙述的其他目。
本技术的实现方式的附加和/或替选特征、方面和优点将根据以下描述、附图和所附权利要求变得明显。
附图说明
为了更好地理解本技术以及本技术的其他方面和附加的特征,参考以下结合附图使用的描述,在附图中:
图1是根据本公开内容的实施方式的计算环境的图;
图2是根据本公开内容的实施方式的创建和呈现音频映象的图;
图3是根据本技术的实施方式的将位置脉冲响应与位置相关联的对应表的图;
图4是根据本技术的实施方式的位置脉冲响应和三维空间的表示;
图5是根据本技术的实施方式的音频呈现系统的图;
图6是根据本技术的实施方式的音频呈现系统的各种部件的图;
图7是根据本技术的实施方式的呈现音频映象的音频呈现系统的各种部件的图;
图8是根据本技术的实施方式的呈现另一音频映象的音频呈现系统的各种部件的图;
图9是根据本技术的音频映象呈现器的实施方式的图;
图10是根据本技术的音频映象呈现器的另一实施方式的图;
图11和图12是根据本技术的音频映象呈现器的另一实施方式的图;
图13和图14是根据本技术的音频映象呈现器的又一实施方式的图;
图15是根据本技术的实施方式的三维空间和虚拟波前的表示的图;
图16至图18是体验根据本技术呈现的音频映象的听者的表示;
图19至图21是体验根据本技术呈现的音频映象的听者的表示;
图22是根据本技术的音频映象呈现器的另一实施方式的图;
图23和图24是根据本公开内容的实施方式的音频滤波器和与音频滤波器有关的信息的图;
图25是示出实现本技术的实施方式的第一计算机实现的方法的流程图的图;
图26是示出实现本技术的实施方式的第二计算机实现的方法的流程图的图;
图27是示出实现本技术的实施方式的第三计算机实现的方法的流程图的图;以及
图28是示出实现本技术的实施方式的第四计算机实现的方法的流程图的图。
还应当注意,除非本文另有明确规定,否则附图未按比例绘制。
具体实施方式
本文中叙述的示例和条件语言主要旨在帮助阅读者理解本技术的原理,而不是将其范围限制于这样具体叙述的示例和条件。将理解的是,尽管未在本文中明确描述或示出,但是本领域技术人员可以设计出体现本技术的原理并且被包括在本技术的精神和范围内的各种布置。
此外,为了帮助理解,以下描述可以描述本技术的相对简化的实现方式。如本领域技术人员将理解的,本技术的各种实现方式可以具有更大的复杂性。
在一些情况下,还可以阐述被认为是对本技术进行修改的有用示例。这仅仅是为了帮助理解,并且同样不是为了限定本技术的范围或阐述本技术范围。这些修改不是穷举的列表,并且本领域技术人员可以进行其他修改,但是仍然在本技术的范围内。此外,在没有提出修改的示例的情况下,不应当解释为不修改是可能的和/或所描述的是实现本技术的该元件的唯一方式。
此外,本文中叙述本技术的原理、方面和实现方式的所有陈述以及其具体示例旨在包括其结构和功能两者的等同物,无论它们当前是已知的还是将来开发的。因此,例如,本领域技术人员应当理解,本文中的任何框图表示体现本技术的原理的说明性电路的概念图。类似地,应当理解,任何流程图表、流程图、状态转换图、伪代码等表示可以在计算机可读介质中基本上表示并且因此由计算机或处理器执行的各种过程,无论这样的计算机或处理器是否被明确示出。
图中所示的各种元件的功能,包括被标记为“处理器”、“控制器”、“编码器”、“声场定位器”、“呈现器”、“解码器”、“滤波器”、“定位卷积引擎”、“混合器”或“动态处理器”的任何功能块可以通过使用专用硬件以及能够执行与适当软件相关联的软件的硬件来提供。当由处理器提供时,功能可以由单个专用处理器、单个共享处理器或其中的一些可以被共享的多个单独的处理器来提供。在本技术的一些实施方式中,处理器可以是通用处理器,例如中央处理单元(CPU)或专用于特定目的的处理器,例如数字信号处理器(DSP)。此外,明确使用术语“处理器”、“控制器”、“编码器”、“声场定位器”、“呈现器”、“解码器”、“滤波器”、“定位卷积引擎”、“混合器”或“动态处理器”不应被解释为专指能够执行软件的硬件,并且可以隐含地包括但不限于:专用集成电路(ASIC)、现场可编程门阵列(FPGA)、用于存储软件的只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储装置。传统和/或定制的其他硬件也可以被包括在内。
软件模块,或被暗示为软件的简单模块在本文中可以表示为流程图要素或指示过程步骤和/或文本描述的执行的其他要素的任何组合。这样的模块可以由明确地或隐含地示出的硬件来执行。此外,应当理解,模块可以包括例如但不限于,提供所需能力的计算机程序逻辑、计算机程序指令、软件、堆栈、固件、硬件电路或其组合。
在整个本公开内容中,参考音频映象、音频流、位置脉冲响应和虚拟波前。应当理解,这样的参考是出于说明的目的而进行的并且旨在作为本技术的示例。
音频映象:其为以下面这样的方式生成的音频信号或音频信号的组合,在被听者听到时,重新创建与听者在现实生活中体验的体积音频包络的感知类似的体积音频包络的感知。传统的音频系统(例如头戴式耳机)递送仅限于在听者的耳朵之间感知的音频体验,然而在被呈现给听者时的音频映象可以被感知为被扩展到听者的头部外部和/或围绕听者的头部的声音体验。这导致听者更加生动、引人注目和逼真的体验。在一些实施方式中,音频映象可以被称为全息音频映象和/或三维音频映象以便传达要由听者所体验的体积包络的概念。在一些实施方式中,音频映象可以由至少三个虚拟波前的组合来限定。在一些实施方式中,音频映象可以由从音频流生成的至少三个虚拟波前的组合来限定。
音频流:可以包括一个或更多个音频通道的音频信息流。可以将音频流嵌入为数字音频信号或模拟音频信号。在一些实施方式中,音频流可以采用预定大小(例如,持续时间)的计算机音频文件或音频信息的连续流(例如,从音频源流传输的连续流)的形式。作为示例,音频流可以采用未压缩音频文件(例如,“.wav”文件)或压缩音频文件(例如,“.mp3”文件)的形式。在一些实施方式中,音频流可以包括单个音频通道(即,单声道音频流)。在一些其他实施方式中,音频流可以包括两个音频通道(即,立体声音频流)或多于两个音频通道(例如,5.1.音频格式、7.1音频格式、MPEG多通道等)。
位置脉冲响应:动态系统当呈现有短暂输入信号(即,脉冲)时的输出。在一些实施方式中,脉冲响应描述系统(例如,声学空间)响应于一些外部变化的反应。在一些实施方式中,脉冲响应使得能够捕获声学空间的一个或更多个特性。在本技术的一些实施方式中,脉冲响应与声学空间的对应位置相关联,因此名称“位置脉冲响应”也可以称为“PIR”。这样的声学空间可以是现实生活空间(例如,小型录音室、大型音乐厅)或虚拟空间(例如,要在听者的头部周围“重新创建”的声学球体)。位置脉冲响应可以限定限定声学空间的声学特性的一系列或一组位置脉冲响应。在一些实施方式中,位置脉冲响应与传递信号的设备相关联。位置脉冲响应的数目可以变化并且不是限制性的。位置脉冲响应可以采用多种形式,例如但不限于,时域中的信号或频域中的信号。在一些实施方式中,可以实时地(例如,基于实时控制器的命令)或根据预定设置(例如,嵌入在控制数据中的设置)来修改位置脉冲响应中的每一个的位置。在一些实施方式中,位置脉冲响应可以用于与音频信号和/或音频流进行卷积。
虚拟波前:虚拟波前可以被限定为表示一致振动的波的对应点的虚拟表面。当具有共同原点的相同波通过均匀介质行进时,任何时刻处的对应波峰和波谷都是同相的;即,它们已经完成它们的周期运动的相同部分,并且通过相同相位的所有点绘制的任何表面将构成波前。图15中提供了虚拟波前的示例性表示。在一些实施方式中,虚拟表面被嵌入要向听者呈现的音频信号或音频信号的组合中。在一些实施方式中,虚拟表面的组合限定了音频映象,该音频映象在被呈现给听者时被感知为被扩展到听者的头部外部和/或围绕听者的头部的声音体验。在一些实施方式中,参考“虚拟”波前以说明波前是“人工地”创建的使得在被呈现给听者时,它们以与在真实的声学环境中的“真实”波前相似的方式被感知。在一些实施方式中,虚拟波前可以被称为“VWF”。在一些实施方式中,其中虚拟波前将在立体声设置(例如,头戴式耳机或两个扬声器)上呈现,虚拟波前可以包括左侧分量(即,左虚拟波前或VWF L)和右侧分量(即,右虚拟波前或VWF R)。
适当利用这些基本原理,我们现在将考虑一些非限制性示例来说明本技术的各方面的各种实现方式。
图1示出了显示根据本技术的实施方式的计算环境100的图。在一些实施方式中,计算环境100可以由呈现器230实现,例如但不限于,其中呈现器230包括如图2所示的声场定位器232和/或音频映象呈现器234的实施方式。在一些实施方式中,计算环境100包括各种硬件部件,包括由处理器110共同表示的一个或更多个单核或多核处理器、固态驱动器120、随机存取存储器130和输入/输出接口150。计算环境100可以是专门设计用于安装到电子设备中的计算机。在一些替选实施方式中,计算环境100可以是适于满足某些要求例如但不限于性能要求的通用计算机系统。计算环境100可以是“电子设备”、“控制器”、“移动设备”、“音频处理设备”、“头戴式耳机”、“耳机”、“VR耳机设备”、“AR耳机设备”、“系统”、“基于计算机的系统”、“控制器”、“编码器”、“声场定位器”、“呈现器”、“解码器”、“滤波器”、“定位卷积引擎”、“混合器”、“动态处理器”和/或适合于手头相关任务的其任何组合。在一些实施方式中,计算环境100还可以是上面列出的系统中之一的子系统。在一些其他实施方式中,计算环境100可以是“现成的”通用计算机系统。在一些实施方式中,计算环境100还可以分布在多个系统中。计算环境100还可以专门用于实现本技术。如本技术领域的技术人员可以理解的,可以设想关于如何实现计算环境100的多种变型而不脱离本技术的范围。
计算环境100的各种部件之间的通信可以由各种硬件部件电耦接的一个或更多个内部和/或外部总线160(例如,PCI总线、通用串行总线、IEEE 1394“Firewire”总线、SCSI总线、串行ATA总线、ARINC总线等)实现。
输入/输出接口150可以被耦接至,例如但不限于,头戴式耳机、耳塞、一组扬声器、耳机、VR耳机、AR耳机和/或音频处理单元(例如,记录器、混合器)。
根据本技术的实现方式,固态驱动器120存储适合于被加载到随机存取存储器130中并且由处理器110执行以生成音频映象的程序指令。例如,程序指令可以是库或应用程序的一部分。
在一些实施方式中,计算环境100可以被配置成根据以下段落中描述的本技术生成音频映象。在一些其他实施方式中,计算环境100可以被配置为充当“编码器”、“声场定位器”、“呈现器”、“解码器”、“控制器”、“实时控制器”、“滤波器”、“定位卷积引擎”、“混合器”、“动态处理器”中的一个或更多个和/或适合于手头相关任务的其任何组合。
参照图2,示出了用于创建和呈现音频映象的音频系统200。音频系统200包括用于创建音频映象文件220的创作工具210、用于经由扬声器262、264和/或头戴式耳机270(其也可以称为VR耳机270和/或AR耳机270)将音频映象文件呈现给听者的与实时控制器240相关联的呈现器230。
在一些实施方式中,创作工具210包括编码器。在一些实施方式中,创建工具210也可以称为编码器。在所示实施方式中,音频映象文件220由创作工具210创建并且包括多个位置脉冲响应222(PIR)、控制数据224和一个或更多个音频流226。PIR中的每一个称为PIRn,其中n是整数。一个或更多个音频流226中的每一个可以称为音频流x,其中x是整数。在一些实施方式中,PIR 222包括三个PIR,即PIR1、PIR2和PIR3。在一些其他实施方式中,PIR 222包括多于三个PIR。
在一些实施方式中,创作工具210允许创建诸如音频映象文件220的音频映象文件。一旦被创建,音频映象文件可以随后被存储和/或传送到设备以用于实时或将来的呈现。在一些实施方式中,创作工具210包括输入接口,该输入接口被配置成访问一个或更多个音频流和控制数据。控制数据可以包括脉冲响应的位置,该位置允许在三维空间(例如但不限于球体)中定位脉冲响应。在一些实施方式中,创作工具210包括编码器,该编码器被配置成例如以预定文件格式对一个或更多个音频流和控制数据进行编码,使得音频映象呈现器(例如但不限于,音频映象呈现器230)可以对音频映象文件进行解码以基于一个或更多个音频流和位置脉冲响应生成音频映象,位置脉冲响应的位置由音频映象文件的控制数据来限定。
呈现器230可以被配置成访问和/或接收音频映象文件,例如音频映象文件220。在其他实施方式中,呈现器230可以独立地访问一个或更多个音频流、控制数据和位置脉冲响应。在一些实施方式中,呈现器230可以访问控制数据和/或位置脉冲响应的存储库并且接收仅包括一个或更多个音频流的音频映象文件。反之,呈现器230可以访问一个或更多个音频流并且从外部源(例如但不限于,远程服务器)接收控制数据和/或位置脉冲响应。在所示实施方式中,呈现器230包括声场定位器232和音频映象呈现器234。在一些实施方式中,呈现器230还可以称为解码器。
声场定位器232可以由实时控制器240控制。即使参考实时控制器240,也应当理解,声场定位器232的控制不需要实时发生。这样,在本技术的各种实施方式中,声场定位器232可以由无论是否是实时的各种类型的控制器控制。在位置脉冲响应的位置和它们各自的位置限定球体的一些实施方式中,声场定位器232可以称为球形声场定位器。在一些实施方式中,如下面结合图3的描述将进一步详述的,声场定位器232允许将位置脉冲响应与位置相关联并且控制这样的位置脉冲响应的位置。
音频映象呈现器234可以对诸如音频映象文件220的音频映象文件进行解码以呈现音频映象。在一些实施方式中,音频映象呈现器234还可以称为三维音频体验呈现器。在一些实施方式中,基于音频流和位置脉冲响应来呈现音频映象,所述位置脉冲响应的位置由声场定位器232确定和/或控制。在一些实施方式中,通过组合多个虚拟波前来生成音频映象,多个虚拟波前中的每一个由音频映象呈现器234生成。在一些实施方式中,如下面结合图7至图14的描述将进一步详述的,基于音频流和位置脉冲响应来生成多个虚拟波前。在一些替选实施方式中,基于声学呈现和/或双耳(也称为感知)呈现来生成多个虚拟波前。在一些实施方式中,音频映象呈现器234可以被配置成用于声学呈现和/或双耳(也称为感知)呈现。在一些实施方式中,声学呈现可以包括呈现直接声音、呈现早期反射和/或后期反射/混响。声学呈现和/或双耳呈现的示例在本文的其他段落中进一步讨论。
在一些实施方式中,音频映象呈现器234混合虚拟波前并且输出m通道音频输出以便将音频映象呈现给听者。在图2所示的实施方式中,输出通道是双通道音频输出(即,立体声音频输出)。在一些实施方式中,输出的通道是双通道音频输出,其也可以被称为呈现的3D体验双通道音频输出。
图2还示出了根据本技术可以用于对音频映象文件进行编码或解码的一个或更多个设备250。一个或更多个设备250可以是例如但不限于,音频系统、移动设备、智能电话、平板电脑、计算机、专用系统、耳机、头戴式耳机、通信系统、VR耳机和AR耳机。为了举例说明本技术的实施方式提供了这些实施例,并且因此这些实施例不应被解释为限制性的。在一些实施方式中,一个或更多个设备250可以包括与图1处描绘的计算环境100的部件类似的部件。在一些实施方式中,一个或更多个设备250中的每一个可以包括创作工具210、呈现器230和/或实时控制器240。在一些其他实施方式中,第一设备可以包括用于生成音频映象文件220的创作工具210。然后可以将音频映象文件220(例如,经由通信网络)发送到包括呈现器230(以及可选地包括实时控制器240)的第二设备。然后,第二设备的呈现器230可以基于接收的音频映象文件220输出音频映象。如本技术领域的技术人员将理解的,其上实施创作工具210、呈现器230和实时控制器240的设备不是限制性的并且可以在不脱离本技术的范围的情况下设想多种变型。
如图2所示,经由扬声器262、264和/或头戴式耳机270将音频映象呈现给听者。扬声器262、264和/或头戴式耳机270可以连接至设备(例如,一个或更多个设备250中的一个)。在一些实施方式中,扬声器262、264和/或头戴式耳机270可以是并非专门针对呈现空间音频设计的传统扬声器和/或头戴式耳机。扬声器可以包括根据各种配置设置的两个或更多个扬声器。头戴式耳机可以包括微型扬声器(也称为驱动器和换能器)。在一些实施方式中,头戴式耳机可以包括两个驱动器,第一驱动器与左耳部相关联并且第二驱动器与右耳部相关联。在一些实施方式中,头戴式耳机可以包括多于两个的驱动器,例如,与左耳部相关联的两个左驱动器和与右耳部相关联的两个右驱动器。在一些实施方式中,头戴式耳机可以完全或部分地覆盖听者的耳部。在一些实施方式中,头戴式耳机可以放置在听者耳部内(例如,耳塞或入耳式头戴式耳机)。在一些实施方式中,除了扬声器(例如,耳机)之外,头戴式耳机还可以包括麦克风。在一些实施方式中,头戴式耳机可以是更复杂系统的一部分,例如VR耳机和/或AR耳机。在一些替选实施方式中,扬声器和/或头戴式耳机可以专门设计用于空间音频再现。在这样的实施方式中,扬声器和/或头戴式耳机可以包括每个耳部处的3D音频算法、头部跟踪、解剖学校准和/或多个驱动器中的一个或更多个。在一些实施方式中,扬声器和/或头戴式耳机还可以包括类似于图1的计算环境的计算环境,图1的计算环境允许扬声器和/或头戴式耳机执行创作工具210、呈现器230和实时控制器240中的一个或更多个而不需要任何附加设备。
现在参照图3和图4,声场定位器232被示为具有将位置脉冲响应与位置相关联的对应表。在一些实施方式中,从一组位置脉冲响应(例如PIR 222)中访问位置脉冲响应。在一些实施方式中,从控制数据(例如控制数据224)访问位置。如图2所示,可以从音频映象文件(例如音频映象文件220)访问PIR 222和控制数据224。在一些实施方式中,声场定位器232可以将位置_1至位置_n中的每一个与位置脉冲响应PIR_1至PIR_n中的每一个相关联。在其他实施方式中,位置_1至位置_n中的每一个先前已经与位置脉冲响应PIR_1至PIR_n中的相应一个相关联。可以由声场定位器232从控制数据224访问位置和位置脉冲响应的这样的关联。
如图4所示,位置脉冲响应PIR_1至PIR_n表示为简短信号,其也可以称为脉冲或脉动。如本技术领域的技术人员可以理解的,PIR_1至PIR_n中的每一个可以与不同的脉冲相关联,不同的脉冲中的每一个表示给定位置处的声学特性。在所示实施方式中,控制数据222和位置脉冲响应224允许对表示为球体400的三维空间400的声学特性进行建模。球体400包括由多个位置脉冲响应限定的网格。位置脉冲响应中的每一个表示为球体402上的点。这样的点的示例是由其在球体上的定位由对应的位置确定的位置脉冲响应410表示的点410。在一些实施方式中,控制数据222允许将位置脉冲响应410定位在球体上。在一些实施方式中,位置可以保持固定,而在其他实施方式中可以经由控制器(例如,实时控制器240)(实时或非实时)修改位置。
在一些实施方式中,多个位置脉冲响应可以组合在一起以限定多边形位置脉冲响应。这样的多边形位置脉冲响应由第一多边形位置脉冲响应420和第二多边形位置脉冲响应430示出。
第一多边形位置脉冲响应420包括第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响应。第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响应中的每一个与相应的位置相关联。因此,所有三个位置的组合限定第一多边形位置脉冲响应420的几何形状,在当前情况下为三角形。在一些实施方式中,可以经由控制器(例如,实时控制器240)(实时或非实时)修改几何形状,并且可以限定任何形状(例如,三个位置可以限定线)。
第二多边形位置脉冲响应430包括第四位置脉冲响应、第五位置脉冲响应、第六位置脉冲响应和第七位置脉冲响应。第四位置脉冲响应、第五位置脉冲响应和第六位置脉冲响应和第七位置脉冲响应中的每一个与相应的位置相关联。因此,所有四个位置的组合限定第二多边形位置脉冲响应430的几何形状,在当前情况下为四边形。在一些实施方式中,可以经由控制器(例如,实时控制器240)(实时或非实时地)修改几何形状。
在一些实施方式中,如下面结合图7至图15的描述将进一步描述的,可以依据于第一多边形位置脉冲响应420和第二多边形位置脉冲响应430来生成一个或更多个音频映象。
尽管图4的示例示出了限定球体的多个位置脉冲响应的组合,但是应当理解位置脉冲响应的数目、位置脉冲响应中的每一个的相应位置以及三维空间的几何形状可以变化并且因此不应被解释为限制性的。例如但不限于,三维空间的几何形状可以限定立方体或任何其他几何形状。在一些实施方式中,三维空间的几何形状可以表示虚拟空间(例如,球体)和/或真实声学空间。
现在参照图5,描绘了音频呈现系统500。在一些实施方式中,音频呈现系统500可以在类似于图1中描述的计算环境的计算环境上实现。例如但不限于,音频呈现系统500可以是图2所示的一个或更多个设备250中的一个。音频呈现系统500包括声学测定频带(ADBF)滤波器502、增益滤波器504、延迟滤波器506、声场定位器532、音频映象呈现器534和n-m通道混合器510。在一些实施方式中,声场定位器532类似于图2中描绘的声场定位器232并且音频映象呈现器534类似于音频映象呈现器234。在一些实施方式中,音频映象呈现器534可以被称为呈现器和/或解码器。在一些实施方式中,音频映象呈现器534可以包括ADBF滤波器502、声场定位器532、增益滤波器504、延迟滤波器506和/或n-m通道混合器510。如本技术领域的技术人员可以理解的,ADBF滤波器502、声场定位器532、增益滤波器504、延迟滤波器506和/或n-m通道混合器510的许多组合可以被设想为限定呈现器(或者,对于本示例,设想为限定音频映象呈现器534)。
在图5的示例中,例如但不限于,由呈现器从音频映象文件访问音频流526、位置脉冲响应(PIR)522和控制数据524。音频映象文件可以类似于图2的音频映象文件220。在一些实施方式中,由声场定位器532访问控制数据524和PIR 522。还可以由音频映象呈现器534访问和/或依据控制数据524。在一些实施方式中,例如图6处所示的实施方式,也可以由n-m通道混合器510访问和/或依据控制数据524。
在所示实施方式中,音频流526在由音频映象呈现器524处理之前由ADBF滤波器502进行滤波。如先前结合图2的描述所讨论的,应当理解即使示出了单个音频流,也设想多个音频流的处理。ADBF滤波器502被配置成通过施加高通滤波(HPF)生成第一音频子流以及通过施加低通滤波(LPF)生成第二音频子流来划分音频流526。第一音频子流被发送至音频映象呈现器534以进行进一步处理。第二音频子流被发送至增益滤波器504和延迟滤波器506使得增益和/或延迟可以被施加到第二音频子流。然后将第二音频子流发送至n-m通道混合器510,在n-m通道混合器510中将第二音频子流与由音频映象呈现器524输出的信号混合。在一些替选实施方式中,音频流526可以由音频映象呈现器534直接访问而不必预先由ADBF滤波器502进行滤波。
如本技术领域的技术人员可以理解的,n-m通道混合器510可以采用2个或更多个通道作为输入和输出2个或更多个通道。在所示示例中,n-m通道混合器510获得由延迟滤波器506发送的第二音频子流和由音频映象呈现器524输出的信号并且将它们混合以生成音频映象输出。在其中要输出2个通道的一些实施方式中,n-m通道混合器510采用(1)与由延迟滤波器506发送的左通道相关联的第二音频子流和与由音频映象呈现器524输出的左通道相关联的信号和(2)与由延迟滤波器506发送的右通道相关联的第二音频子流和与由音频映象呈现器524输出的右通道相关联的信号以生成要呈现给听者的左通道和右通道。在一些替选实施方式中,n-m通道混合器510可以输出多于2个通道,例如,对于在多于两个扬声器上呈现音频映象的情况。这样的情况包括但不限于,在具有与每个耳部相关联的两个或更多个驱动器的头戴式耳机上呈现音频映象的情况和/或在多于两个扬声器上呈现音频映象的情况(例如,5.1、7.1、来自杜比实验室公司设置的Dolby)。
现在转向图6,示出了声场定位器632、音频映象呈现器634和n-m通道混合器660。在一些实施方式中,声场定位器632可以类似于声场定位器532,音频映象呈现器634可以类似于音频映象呈现器534,并且n-m通道混合器660可以类似于n-m通道混合器510。在所示实施方式中,音频映象呈现器634包括定位卷积引擎610和位置脉冲响应(PIR)动态处理器620。在所示实施方式中,声场定位器632访问第一位置脉冲响应(PIR_1)602、第二位置脉冲响应(PIR_2)604和第三位置脉冲响应(PIR_3)606。声场定位器632还访问控制数据608。在所示实施方式中,控制数据608也由音频映象呈现器634访问,使得定位卷积引擎610和PIR动态处理器620可以依据控制数据。控制数据608也由n-m通道混合器660访问。如可以理解的,在这样的实施方式中,控制数据608可以包括与声场定位器632、定位卷积引擎610、PIR动态处理器620和/或n-m通道混合器660的配置有关的指令和/或数据(例如,与PIR_1 602、PIR_2 604和/或PIR_3 606相关联的位置或要与PIR_1 602、PIR_2 604和/或PIR_3 606相关联的位置)。
在图6处所示的实施方式中,定位卷积引擎610被输入有音频流、控制数据608、PIR_1 602、PIR_2 604和PIR_3 606。在所示实施方式中,输入到定位卷积引擎610的音频流是滤波后的音频流,在该示例中,是使用高通滤波对音频流进行滤波。在一些替选实施方式中,输入到定位卷积引擎610的音频流是未被滤波的音频流。定位卷积引擎610允许基于音频流和PIR_1 602生成第一虚拟波前(VWF1)、基于音频流和PIR_2604生成第二虚拟波前(VWF2))以及基于音频流和PIR_3 606生成第三虚拟波前(VWF3)。在所示实施方式中,生成VWF1包括将音频流与PIR_1 602进行卷积,生成VWF2包括将音频流与PIR_2 604进行卷积以及生成VWF3包括将音频流与PIR_3 606进行卷积。在一些实施方式中,卷积基于傅里叶变换算法,例如但不限于,快速傅里叶变换(FFT)算法。在不脱离本技术的范围的情况下,还可以设想用于卷积的算法的其他示例。在一些实施方式中,由定位卷积引擎610并行且同步地执行生成VWF1、VWF2和VWF3,以便限定用于呈现给听者的音频映象。在所示实施方式中,由PIR动态处理器620通过向VWF1、VWF2和VWF3中的每一个施加增益滤波、延迟滤波和附加滤波(例如,由均衡器进行的滤波)来进一步并行处理VWF1、VWF2和VWF3。然后将滤波后的VWF1、VWF2和VWF3输入到n-m通道混合器660进行混合来生成多个通道,即通道1(Ch.1)、通道2(Ch.2)、通道3(Ch.3)和通道m(Ch.m)。在所示的实施方式中,将滤波后的VWF1、VWF2和VWF3与对其已施加低通滤波的音频流进行混合。如上面先前详述,在一些实施方式中,音频流可以不需要在被输入到音频映象呈现器634之前被滤波。因此,在这样的实施方式中,VWF1、VWF2和VWF3可以通过n-m通道混合器660混合在一起而不需要将对其已施加低通滤波的音频流输入到n-m通道混合器660。另外,在一些实施方式中,n-m通道混合器660可以单独输出两个通道,例如用于要在头戴式耳机上呈现音频映象的情况。因此,可以设想许多变型而不脱离本技术的范围。
图7描绘了由图6的音频映象呈现器634和n-m通道混合器660呈现的音频映象700。如上面结合图6的描述先前详述的,音频映象呈现器634的定位卷积引擎610并行进行以下操作:执行音频流与PIR_1 602的卷积以生成VWF1、执行音频流与PIR_2 604的卷积以生成VWF2以及执行音频流与PIR_3 606的卷积。如图7中可以看到的,听者将VWF1感知为从第一位置710发出,听者将VWF2感知为从第二位置720发出,以及听者将VWF3感知为从第三位置730发出。在一些实施方式中,第一位置710与PIR_1 602相关联。第二位置720与PIR_2 604相关联。第三位置730与PIR_3 606相关联。第一位置710、第二位置720和/或第三位置730可以由声场定位器(例如,声场定位器632)确定和/或控制,并且第一位置710、第二位置720和/或第三位置730可以但不一定基于控制数据(例如,控制数据608)。
如图7中可以理解的,音频映象700由VWF1、VWF2和VWF3的组合限定。因此,类似于听者在现实生活中所体验的,音频映象700在被呈现给听者时可以被听者感知为沉浸式音频体积(volume)。在一些实施方式中,沉浸式音频体积可以称为虚拟沉浸式音频体积,因为音频映象允许“虚拟地”再现现实体验。在一些实施方式中,音频映象可以称为3D体验音频映象。
图8示出了音频映象呈现器如何可以用作映象扩展工具的示例。在该示例中,音频流包括单源音频对象810。在一些实施方式中,单源音频对象810还可以称为点源音频对象。在该实施方式中,单源音频对象810是小提琴850的单通道录音。在该示例中,处理音频流以生成位于第一位置810、第二位置820和第三位置830的VWF1、VWF2和VWF3。第一位置810、第二位置820和第三位置830限定声学空间860的多边形部分,其允许小提琴850的单通道录音被扩展以便被听者感知为小提琴850的体积音频映象800。因此,在单通道录音上记录的小提琴850可以由音频映象呈现器634扩展以便以与假如在听者旁边正在演奏小提琴850而在现实生活中已被感知的类似的方式被感知。在所示示例中,体积音频映象800由VWF1、VWF2和VWF3的组合来限定。在一些实施方式中,体积音频映象800还可以称为3D体验音频对象。
图9示出了还包括混合器/路由器910的音频映象呈现器634的实施方式。在该实施方式中,混合器/路由器910允许复制和/或合并音频通道使得定位卷积引擎610被输入有适当数目的通道。在一些实施方式中,混合器/路由器910可以是两个不同的模块(即,混合器部件和路由器部件)。在一些实施方式中,混合器部件和路由器部件被组合成单个部件。
作为示例,音频流可以是单通道流,然后将其复制成三个信号使得三个信号中的每一个可以与PIR_1 602、PIR_2 604和PIR_3 606中的每一个进行卷积。如关于图9可以理解的,n-m通道混合器660输出多个通道,即通道1(Ch.1)、通道2(Ch.2)、通道3(Ch.3)、通道4(Ch.4)和通道m(Ch.m)。在一些实施方式中,其中n-m通道混合器660输出三个通道(例如,通道1(Ch.1)、通道2(Ch.2)和通道3(Ch.3)),三个通道中的每一个可以与VWF1、VWF2和VWF3中的不同的一个相关联。在一些替选实施方式中,在输出三个通道之前,可以通过n-m通道混合器660混合VWF1、VWF2和VWF3。在又一些其他实施方式中,在n-m通道混合器660可以处理多于三个的虚拟波前并且输出小于由定位卷积引擎610生成的虚拟波前的数目的数个通道的情况下,可以生成多于三个的虚拟波前。反之,由定位卷积引擎610生成的虚拟波前的数目可以小于由n-m通道混合器660输出的通道数目。因此可以设想多种变型而不脱离本技术的范围。
图10示出了其中音频流包括多个通道,即通道1(Ch.1)、通道2(Ch.2)、通道3(Ch.3)、通道4(Ch.4)和通道x(Ch.x)的实施方式。在该示例中,多个通道由混合器/路由器910混合以便生成适当数目的信号以由定位卷积引擎610进行卷积。在该示例中,混合器/路由器910输出三个信号,然后由定位卷积引擎610将三个信号中的每一个与PIR_1602、PIR_2604和PIR_3 606中的每一个进行卷积。如关于图10可以理解的,n-m通道混合器660输出多个通道,即通道1(Ch.1)、通道2(Ch.2)、通道3(Ch.3)、通道4(Ch.4)和通道m(Ch.m)。
现在转向图11和图12,示出了音频映象呈现器634的实施方式,其中n-m通道混合器660输出用于在两个扬声器(例如,头戴式耳机或扬声器组)上呈现的双通道信号。在该实施方式中,要呈现的音频映象可以称为双耳音频映象。在该实施方式中,位置脉冲响应中的每一个包括左分量和右分量。在该示例中,PIR_1 602包括左分量PIR_1L和右分量PIR_1R,PIR_2 604包括左分量PIR_2L和右分量PIR_2R,并且PIR_3606包括左分量PIR_3L和右分量PIR_3R。在该实施方式中,音频映象呈现器634并行处理左通道和右通道。音频映象呈现器634通过并行地将音频流与左分量PIR_1L(也称为第一左位置脉冲响应)进行卷积以生成第一虚拟波前的左分量VWF1L、将音频流与左分量PIR_2L(也称为第二左位置脉冲响应)进行卷积以生成第二虚拟波前的左分量VWF2 L以及将音频流与左分量PIR_3 L(也称为第三左位置脉冲响应)进行卷积以生成第三虚拟波前的左分量VWF3 L来生成左通道。
音频映象呈现器634通过并行地将音频流与右分量PIR_1 R(也称为第一右位置脉冲响应)进行卷积以生成第一虚拟波前的右分量VWF1 R、将音频流与右分量PIR_2 R(也称为第二右位置脉冲响应)进行卷积以生成第二虚拟波前的右分量VWF2 R以及将音频流与右分量PIR_3 R(也称为第三右位置脉冲响应)进行卷积以生成第三虚拟波前的右分量VWF3 R来生成右通道。
然后,n-m通道混合器660混合VWF1 L、VWF2 L、VWF3 L来生成左通道并且混合VWF1R、VWF2 R和VWF3 R来生成右通道。然后可以将左通道和右通道呈现给听者使得他/她可以在常规立体声设置(例如,头戴式耳机或扬声器组)上体验双耳音频映象。
现在转到图13和图14,其为音频映象呈现器634的实施方式,其中应用于左通道的音频流的三个卷积和应用于右通道的音频流的三个卷积被用于左通道的单个卷积和用于右通道的单个卷积替换。在该实施方式中,左分量PIR_1 L、左分量PIR_2 L和左分量PIR_3L被求和以生成总计的左位置脉冲响应。并行地,右分量PIR_1 R、右分量PIR_2 R和右分量PIR_3 R被求和以生成总计的右位置脉冲响应。然后,定位卷积引擎610并行地执行将音频流与总计的左位置脉冲响应进行卷积以生成左通道以及将音频流与总计的右位置脉冲响应进行卷积以生成右通道。在该实施方式中,VWF1 L、VWF2 L和VWF3 L被呈现在左通道上,并且VWF1 R、VWF2 R和VWF3 R被呈现在右通道上使得听者可以感知到VWF1、VWF2和VWF3。除了其他益处之外,该实施方式可以减少生成VWF1、VWF2和VWF3所需的卷积次数,从而降低从其上运行音频映象呈现器634的设备所需的处理能力。
图15示出了三维空间1500和虚拟波前1560的表示的另一示例。三维空间1500类似于图4的三维空间400。球体1500包括由多个位置脉冲响应限定的网格。位置脉冲响应中的每一个被表示为球体1502上的点。这样的点的示例是表示其在球体上的定位由对应的位置确定的位置脉冲响应1510的点1510。如前解释的,多个位置脉冲响应可以组合在一起以限定多边形位置脉冲响应。这种多边形位置脉冲响应由第一多边形位置脉冲响应1520和第二多边形位置脉冲响应1530示出。
第一多边形位置脉冲响应1520包括第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响应。第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响应中的每一个与相应的位置相关联。因此,所有三个位置的组合限定第一多边形位置脉冲响应1520的几何形状,在当前情况下为三角形。在一些实施方式中,可以经由控制器(例如,实时控制器240)(实时或非实时)修改几何形状。
第二多边形位置脉冲响应1530包括第四位置脉冲响应、第五位置脉冲响应、第六位置脉冲响应和第七位置脉冲响应。第四位置脉冲响应、第五位置脉冲响应和第六位置脉冲响应和第七位置脉冲响应中的每一个与相应的位置相关联。因此,所有四个位置的组合限定第二多边形位置脉冲响应1530的几何形状,在当前情况下为四边形。在一些实施方式中,可以经由控制器(例如,实时控制器240)(实时或非实时地)修改几何形状。
在所示实施方式中,基于第一多边形位置脉冲响应1520(例如,基于第一音频流和限定第一多边形位置脉冲响应1520的位置脉冲响应中的每一个)生成第一音频映象1540。基于第二多边形位置脉冲响应1550(例如,基于第二音频流和限定第二多边形位置脉冲响应1530的位置脉冲响应中的每一个)生成第二音频映象1550。在一些实施方式中,第一音频流和第二音频流可以是相同的音频流。在一些实施方式中,第一音频映象1540和第二音频映象1550的组合限定复合音频映象。如可以理解的,可以通过控制与第一多边形位置脉冲响应1520和第二多边形位置脉冲响应1530相关联的位置来动态地变形(morph)复合音频映象。作为示例,第一音频映象1540可以是第一乐器(例如,小提琴)的体积音频映象,并且第二音频映象1550可以是第二乐器(例如,吉他)的体积音频映象。在第一音频映象1540和第二音频映象1550被呈现时,其被听者感知为不仅是点源音频对象还是体积音频对象,就像听者在现实生活中站在第一乐器和第二乐器旁边。这些示例不应被解释为限制性的并且可以设想多种变型和应用而不脱离本技术的范围。
虚拟波前1560的表示旨在举例说明声波的波前。如本技术领域的技术人员可以理解的,表示1560可以取自从点源展开的声波的球面波前。取决于遇到的源、介质和/或障碍物,用于纵波和横波的波前可以是任何配置的表面。如图15所示,从点A延伸至点B的第一波前1562可以包括具有相同相位的一组点1564。第二波前1566从点C延伸至点D。在本技术的一些实施方式中,虚拟波前可以被定义为波前的感知编码。当适当地(例如,通过耳机或扬声器组)再现时,听者可以将虚拟波前感知为表示一致振动的波的对应点的表面。波前的该说明不应被解释为限制性的并且可以设想多种变型和应用而不脱离本技术的范围。
现在转向图16和图17,描绘了听者1610基于音频流体验根据本技术生成的音频映象的表示。如先前所详述,音频流由音频映象呈现器处理以便生成由听者1610感知为从第一位置1620发出的第一虚拟波前、由听者1610感知为从第二位置1630发出的第二虚拟波前和由听者1610感知为从第三位置1640发出的第三虚拟波前。在一些实施方式中,例如,在三维空间内例如由球体1602限定的体积内可以动态地修改距第一虚拟波前、第二虚拟波前和第三波前中的每一个的位置。在一些实施方式中,第一虚拟波前、第二虚拟波前和第三波前被听者1610感知为同步的使得听者1610的大脑可以感知到作为限定体积音频映象的第一虚拟波前、第二虚拟波前和第三波前的组合,如在现实生活中将感知的一样。
在一些实施方式中,人类听觉系统可以经由与体积音频映象有关的中值和/或横向信息来感知体积音频映象。在一些实施方式中,中值平面中的感知可以是频率依赖的和/或可以涉及耳间水平差异(ILD)包络线索。在一些实施方式中,横向感知可以取决于波前的相对差异和/或两个耳部输入信号之间的不相似性。横向不相似性可以包括耳间时间差异(ITD)和/或耳间水平差异(ILD)。ITD可以是与信号发生时或信号的特定分量发生时有关的两个耳部输入信号之间的不相似性。这些不相似性可以通过耳间相位差b(f)的频率图来描述。在ITD包络线索的感知中,定时信息可以用于更高的频率,因为可以检测幅度包络中的定时差异。ITD包络线索可以基于由听力系统提取的幅度包络的开始的定时差异而不是包络内的波形的定时。ILD可以是在与两个耳部输入信号的平均声压级有关的两个耳部输入信号之间的不相似性。可以根据耳间变换函数|A(f)|和/或声压级差20log|A(f)|的幅度差来描述该不相似性。
图18示出了其中由音频映象呈现器基于音频流生成第四虚拟波前以便被听者感知为从第四位置1650发出的替选实施方式。如本技术领域的技术人员可以理解的,还可以生成更多的虚拟波前以便被感知为从更多不同的位置发出的。因此,可以设想许多变型而不脱离本技术的范围。
图19示出了图16至图18的听者1610在由球体1902的一部分限定的三维空间中体验根据本技术生成的音频映象的另一表示。在图19中,球体1902的一部分还包括沿着听者1610的头部的纵向轴延伸的平面1904。
图20示出了本技术的另一实施方式,其中在虚拟空间内生成包括多个音频映象的复合音频映象。在所示实施方式中,几何对象中的每一个(即,由球体限定的体积、由圆柱体限定的体积、弯曲的平面区段)表示可以根据本技术生成的不同的音频映象。如前所述,与音频流相关联的多个点源音频对象可以用于生成可以位于虚拟空间内的音频映象以限定复合音频映象。
图21示出了其中虚拟空间由图19的球体1902的一部分限定的图20的实施方式。
图22示出了其中音频映象呈现器2210包括3D体验呈现器2220的本技术的替选实施方式。在一些实施方式中,3D体验呈现器2220允许基于音频流(音频流可以被滤波或未滤波)生成要被听者感知为从第一位置发出的第一虚拟波前、要被听者感知为从第二位置发出的第二虚拟波前以及要被听者感知为从第三位置发出的第三虚波波前。在一些实施方式中,3D体验呈现器2220包括声学呈现器和/或双耳呈现器(其也可以称为感知呈现器)。
在一些实施方式中,声学呈现器包括直接声音呈现器、早期反射呈现器和/或后期反射呈现器。在一些实施方式中,声学呈现器是基于双耳房间模拟、基于DSP算法的声学呈现、基于脉冲响应的声学呈现、基于B-格式的声学呈现、基于球谐函数的声学呈现、基于环境上下文模拟的声学呈现、基于与脉冲响应的卷积的声学呈现、基于与脉冲响应的卷积和HRTF处理的声学呈现、基于可听化的声学呈现、基于合成房间脉冲响应的声学呈现、基于高保真度立体声响复制和双耳呈现的声学呈现、基于高阶高保真度立体声响复制(HOA)和双耳呈现的声学呈现、基于射线跟踪的声学呈现和/或基于映象建模的声学呈现。
在一些实施方式中,双耳呈现器是基于双耳信号处理、基于HRTF建模的双耳呈现、基于HRTF测量的双耳呈现、基于DSP算法的双耳呈现、基于脉冲响应的双耳呈现、基于用于HRTF的数字滤波器的双耳呈现和/或基于HRTF集的计算的双耳呈现。
对于图6所示的实施方式,然后可以由PIR动态处理器620处理第一虚拟波前(VWF1)、第二虚拟波前(VWF2)和第三虚拟波前(VWF3)并且然后通过n-m通道混合器510将第一虚拟波前(VWF1)、第二虚拟波前(VWF2)和第三虚拟波前(VWF3)混合来生成多个通道以便将音频映象呈现给听者。
现在转到图23和图24,图5的ADBF滤波器502被表示以附加细节,特别是频率范围(scale)2302。如前所述,ADBF滤波器502可以用于将音频流526作为输入并且对其施加高通滤波以生成第一子音频流以及对其施加低通滤波以生成第二子音频流。在一些实施方式中,第一子音频流被输入到音频映象呈现器,而第二子音频流被直接输入到混合器而不被音频映象呈现器处理。在一些实施方式中,可以基于控制数据524动态地控制ADBF滤波器502。在一些实施方式中,ADBF滤波器502被配置成访问与测量位置脉冲响应所在的空间有关的维度信息。如图24所例示,位置脉冲响应2406、2408和2410在维度由h、l和d限定的空间2402中被测量。在所示示例中,经由设备2404测量位置脉冲响应2406、2408和2410。然后依据空间2402的维度来确定声音在空间2402内从波动声学转换到射线声学所在的频率。在一些实施方式中,频率是截止频率(f2)和/或交叉频率(f)。在所示实施方式中,基于截止频率(f2)和/或交叉频率(f)来限定由ADBF滤波器502施加的高通滤波和/或低通滤波。在一些实施方式中,ADBF滤波器502从控制数据524访问截止频率(f2)和/或交叉频率(f)。在ADBF滤波器502处理音频流之前可以生成截止频率(f2)和/或交叉频率(f)。因此,在一些实施方式中,ADBF滤波器不必生成截止频率(f2)和/或交叉频率(f),而是从可能已经计算出它们并将其存储到控制数据2420中的远程源来访问它们。
在一些实施方式中,可以基于以下等式来限定截止频率(f2)和/或交叉频率(f):
F3≈4F2
如图24上可以看出,频率范围2302限定由以下四个区域组成的可听频率范围:区域A、区域B、区域C和区域D。区域A、B、C和D由频率F1、F2和F3来限定。如对于本技术领域的技术人员来说显而易见地,在区域D中,镜面反射和射线声学占优势。在区域B中,空间模式占主导地位。区域C是衍射和漫射占主导的过渡区。区域A中的声音不存在模态增强。
在一些实施方式中,F1是区域A的上边界并且是基于空间L的最大轴向维度确定的。区域B限定空间维度与声音频率的波长(即,波动声学)相当的区域。F2限定以Hz为单位的截止频率或交叉频率。RT60对应于以秒为单位的房间的混响时间。在一些实施方式中,RT60可以被限定为从生成的测试信号突然结束的时刻开始测量的声压降低60dB所花费的时间。V对应于空间的体积。区域C限定漫射和衍射占主导的区域,区域B(波动声学适用)与区域D(射线声学适用)之间的过渡。
现在转到图25,说明了示出生成音频映象的计算机实现的方法2500的流程图。尽管通常参考生成音频映象的方法,但是应当理解,在本上下文中,方法2500也可以称为将音频映象呈现给听者的方法。在一些实施方式中,计算机实现的方法2500可以(完全或部分地)被实现在类似于计算环境100的计算环境(例如但不限于一个或更多个设备250)上。
方法2500在步骤2502处通过访问音频流开始。在一些实施方式中,音频流是第一音频流并且方法2500还包括访问第二音频流。在一些实施方式中,音频流是音频通道。在一些实施方式中,音频流是单声道音频流、立体声音频流和多通道音频流中之一。
在步骤2504处,方法2500访问第一位置脉冲响应,第一位置脉冲响应与第一位置相关联。在步骤2506处,方法2500访问第二位置脉冲响应,第二位置脉冲响应与第二位置相关联。在步骤2508处,方法2500访问第三位置脉冲响应,第三位置脉冲响应与第三位置相关联。
然后,方法2500通过执行步骤2510、2512和2514来生成音频映象。在一些实施方式中,并行执行步骤2510、2512和2514。在一些实施方式中,步骤2510包括基于音频流和第一位置脉冲响应生成要被听者感知为从第一位置发出的第一虚拟波前。步骤2512包括基于音频流和第二位置脉冲响应生成要被听者感知为从第二位置发出的第二虚拟波前。步骤2514包括基于音频流和第三位置脉冲响应生成要被听者感知为从第三位置发出的第三虚拟波前。
在一些实施方式中,方法2500还包括步骤2516。步骤2516包括将第一虚拟波前、第二虚拟波前和第三虚拟波前进行混合。
在一些实施方式中,生成第一虚拟波前包括将音频流与第一位置脉冲响应进行卷积;生成第二虚拟波前包括将音频流与第二位置脉冲响应进行卷积;以及生成第三虚拟波前包括将音频流与第三位置脉冲响应进行卷积。
在一些实施方式中,第一位置脉冲响应包括与第一位置相关联的第一左位置脉冲响应和与第一位置相关联的第一右位置脉冲响应;第二位置脉冲响应包括与第二位置相关联的第二左位置脉冲响应和与第二位置相关联的第二右位置脉冲响应;以及第三位置脉冲响应包括与第三位置相关联的第三左位置脉冲响应和与第三位置相关联的第三右位置脉冲响应。
在一些实施方式中,生成第一虚拟波前、第二虚拟波前和第三虚拟波前包括:
通过对第一左位置脉冲响应、第二左位置脉冲响应和第三左位置脉冲响应求和来生成总计的左位置脉冲响应;
通过对第一右位置脉冲响应、第二右位置脉冲响应和第三右位置脉冲响应求和来生成总计的右位置脉冲响应;
将音频流与总计的左位置脉冲响应进行卷积;以及
将音频流与总计的右位置脉冲响应进行卷积。
在一些实施方式中,将音频流与总计的左位置脉冲响应进行卷积包括生成左通道信号;将音频流与总计的右位置脉冲响应进行卷积包括生成右通道信号;以及将左通道信号和右通道信号呈现给听者。
在一些实施方式中,生成第一虚拟波前、第二虚拟波前和第三虚拟波前包括:
将音频流与第一左位置脉冲响应进行卷积;
将音频流与第一右位置脉冲响应进行卷积;
将音频流与第二左位置脉冲响应进行卷积;
将音频流与第二右位置脉冲响应进行卷积;
将音频流与第三左位置脉冲响应进行卷积;以及
将音频流与第三右位置脉冲响应进行卷积。
在一些实施方式中,方法2500还包括:
通过混合与第一左位置脉冲响应卷积的音频流、与第二左位置脉冲响应卷积的音频流和与第三左位置脉冲响应卷积的音频流来生成左通道信号;
通过混合与第一右位置脉冲响应卷积的音频流、与第二右位置脉冲响应卷积的音频流和与第三右位置脉冲响应卷积的音频流来生成右通道信号;以及
将左通道信号和右通道信号呈现给听者。
在一些实施方式中,并行执行生成第一虚拟波前、生成第二虚拟波前以及生成第三虚拟波前。
在一些实施方式中,在将音频映象呈现给听者时,第一虚拟波前被听者感知为从位于第一位置处的第一虚拟扬声器发出,第二虚拟波前被听者感知为从位于第二位置处的第二虚拟扬声器发出;以及第三虚拟波前被听者感知为从位于第三位置处的第三虚拟扬声器发出。
在一些实施方式中,同步地执行生成第一虚拟波前、生成第二虚拟波前以及生成第三虚拟波前。
在一些实施方式中,在生成音频映象之前,方法包括:
访问控制数据,控制数据包括第一位置、第二位置和第三位置;以及
将第一位置脉冲响应与第一位置相关联、将第二位置脉冲响应与第二位置相关联以及将第三位置脉冲响应与第三位置相关联。
在一些实施方式中,音频流是第一音频流并且方法还包括访问第二音频流。
在一些实施方式中,音频流是第一音频流并且方法还包括:
通过执行以下步骤来生成第二音频映象:
基于第二音频流和第一位置脉冲响应生成要被听者感知为从第一位置发出的第四虚拟波前;
基于第二音频流和第二位置脉冲响应生成要被听者感知为从第二位置发出的第五虚拟波前;以及
基于第二音频流和第三位置脉冲响应生成要被听者感知为从第三位置发出的第六虚拟波前。
在一些实施方式中,由第一虚拟波前、第二虚拟波前和第三虚拟波前的组合限定音频映象。
在一些实施方式中,音频映象被听者感知为由第一虚拟波前、第二虚拟波前和第三虚拟波前的组合限定的虚拟沉浸式音频体积。
在一些实施方式中,方法2500还包括访问第四位置脉冲响应,第四位置脉冲响应与第四位置相关联。
在一些实施方式中,基于音频流和第四位置脉冲响应生成要被听者感知为从第四位置发出的第四虚拟波前。
在一些实施方式中,第一位置、第二位置和第三位置对应于与第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响应相关联的声学空间的位置。
在一些实施方式中,第一位置、第二位置和第三位置限定球形网格的一部分。
在一些实施方式中,第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响应限定多边形位置脉冲响应。
在一些实施方式中,音频流是第一音频映象并且其中方法还包括:
访问第四位置脉冲响应,第四位置脉冲响应与第四位置相关联;
访问第五位置脉冲响应,第五位置脉冲响应与第五位置相关联;
访问第六位置脉冲响应,第六位置脉冲响应与第六位置相关联;
通过并行执行以下步骤来生成第二音频映象:
基于音频流和第四位置脉冲响应生成要被听者感知为从第四位置发出的第四虚拟波前;
基于音频流和第五位置脉冲响应生成要被听者感知为从第五位置发出的第五虚拟波前;以及
基于音频流和第六位置脉冲响应生成要被听者感知为从第六位置发出的第六虚拟波前。
在一些实施方式中,第一音频映象和第二音频映象限定复合音频映象。
在一些实施方式中,音频流包括点源音频流并且音频映象被听者感知为由第一虚拟波前、第二虚拟波前和第三虚拟波前的组合限定的点源音频流的体积音频对象。
在一些实施方式中,点源音频流包括单声道音频流。
在一些实施方式中,从音频映象文件访问第一位置脉冲响应、第二位置脉冲响应、第三位置脉冲响应以及音频流。
在一些实施方式中,第一位置、第二位置和第三位置与控制数据相关联,控制数据是从音频映象文件访问的。
在一些实施方式中,音频流是第一音频流并且音频映象文件包括第二音频流。
在一些实施方式中,音频映象文件已由编码器生成。
在一些实施方式中,第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响由声场定位器访问并且音频映象由音频映象呈现器生成。
在一些实施方式中,声场定位器和音频映象呈现器限定解码器。
在一些实施方式中,在生成音频映象之前,通过声学测定带通滤波器对音频流进行滤波。
在一些实施方式中,通过声学测定带通滤波器将音频流划分为第一音频子流和第二音频子流。
在一些实施方式中,将音频流与第一位置脉冲响应卷积包括将第一音频子流与第一位置脉冲响应进行卷积,将音频流与第二位置脉冲响应进行卷积包括将第一音频子流与第二位置脉冲响应进行卷积,以及将音频流与第三位置脉冲响应进行卷积包括将第一音频子流与第三位置脉冲响应进行卷积。
在一些实施方式中,第一虚拟波前、第二虚波前和第三虚波前与第二音频子流混合以生成音频映象。
在一些实施方式中,声学测定带通滤波器通过施加高通滤波(HPF)生成第一音频子流以及通过施加低通滤波(LPF)生成第二音频子流。
在一些实施方式中,将增益和延迟中的至少一个施加到第二音频子流。
在一些实施方式中,基于截止频率(f2)和交叉频率(f)中的至少一个来限定HPF和LPF中的至少一个。
在一些实施方式中,截止频率和交叉频率中的至少一个基于声音在与第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响应中的至少一个相关联的空间内从波动声学转换到射线声学的频率。
在一些实施方式中,截止频率(f2)和交叉频率(f)中的至少一个与控制数据相关联。
在一些实施方式中,方法2500还包括基于音频映象输出m通道音频输出。
在一些实施方式中,音频映象经由头戴式耳机组和一组扬声器中的至少一个被传递给用户。
在一些实施方式中,将音频流与第一位置脉冲响应进行卷积、将音频流与第二位置脉冲响应进行卷积以及将音频流与第三位置脉冲响应进行卷积中的至少一个包括对音频流施加傅里叶变换。
在一些实施方式中,将第一虚拟波前、第二虚拟波前以及第三虚拟波前混合在一起。
在一些实施方式中,将增益、延迟和滤波/均衡中的至少一个施加到第一虚拟波前、第二虚拟波前和第三虚拟波前中的至少一个。
在一些实施方式中,将增益、延迟和滤波/均衡中的至少一个施加到第一虚拟波前,第二虚波前和第三虚波前中的至少一个是基于控制数据的。
在一些实施方式中,音频流是第一音频流并且方法还包括访问多个音频流。
在一些实施方式中,在生成音频映象之前将第一音频流和多个音频流混合在一起。
在一些实施方式中,第一位置、第二位置和第三位置是可实时控制的以便变形音频映象。
现在转到图26,图26为说明了示出生成音频映象的计算机实现的方法2600的流程图。尽管通常参考生成音频映象的方法,但是应当理解在本上下文中,方法2600还可以称为将音频映象呈现给听者的方法。在一些实施方式中,计算机实现的方法2600可以(完全或部分地)在类似于计算环境100的计算环境(例如但不限于一个或更多个设备250)上实现。
方法2600在步骤2602处通过访问音频流开始。然后,在步骤2604处,方法2600访问位置信息,位置信息包括第一位置、第二位置和第三位置。
然后,方法2600执行步骤2610、2612和2614以生成音频映象。在一些实施方式中,并行执行步骤2610、2612和2614。步骤2610包括基于音频流生成要被听者感知为从第一位置发出的第一虚拟波前。步骤2612包括基于音频流生成要被听者感知为从第二位置发出的第二虚拟波前。步骤2614包括基于音频流生成要被听者感知为从第三位置发出的第三虚拟波前。
在一些实施方式中,在将音频映象呈现给听者时,第一虚拟波前被听者感知为从位于第一位置处的第一虚拟扬声器发出,第二虚拟波前被听者感知为从位于第二位置处的第二虚拟扬声器发出;以及第三虚拟波前被听者感知为从位于第三位置处的第三虚拟扬声器发出。
在一些实施方式中,生成第一虚拟波前、生成第二虚拟波前以及生成第三虚拟波前中的至少一个包括声学呈现和双耳呈现中的至少一个。
在一些实施方式中,声学呈现包括至少一个直接声音呈现、早期反射呈现和/或后期反射呈现。
在一些实施方式中,声学呈现包括以下中的至少一个:双耳房间模拟、基于DSP算法的声学呈现、基于脉冲响应的声学呈现、基于B-格式的声学呈现、基于球谐函数的声学呈现、基于环境上下文模拟的声学呈现、基于与脉冲响应的卷积的声学呈现、基于与脉冲响应的卷积和HRTF处理的声学呈现、基于可听化的声学呈现、基于合成房间脉冲响应的声学呈现、基于高保真度立体声响复制和双耳呈现的声学呈现、基于高阶高保真度立体声响复制(HOA)和双耳呈现的声学呈现、基于射线跟踪的声学呈现和基于映象建模的声学呈现。
在一些实施方式中,双耳呈现包括以下中的至少一个:双耳信号处理、基于HRTF建模的双耳呈现、基于HRTF测量的双耳呈现、基于DSP算法的双耳呈现、基于脉冲响应的双耳呈现、基于用于HRTF的数字滤波器的双耳呈现和基于HRTF集的计算的双耳呈现。
在一些实施方式中,同步地执行生成第一虚拟波前、生成第二虚拟波前以及生成第三虚拟波前。
在一些实施方式中,在生成音频映象之前,方法包括:
访问与第一位置相关联的第一位置脉冲响应;
访问与第二位置相关联的第二位置脉冲响应;以及
访问与第三位置相关联的第三位置脉冲响应。
在一些实施方式中,生成第一虚拟波前包括将音频流与第一位置脉冲响应进行卷积;生成第二虚拟波前包括将音频流与第二位置脉冲响应进行卷积;以及生成第三虚拟波前包括将音频流与第三位置脉冲响应进行卷积。
在一些实施方式中,在生成音频映象之前,方法2600包括:
访问与第一位置相关联的第一左位置脉冲响应;
访问与第一位置相关联的第一右位置脉冲响应;
访问与第二位置相关联的第二左位置脉冲响应;
访问与第二位置相关联的第二右位置脉冲响应;
访问与第三位置相关联的第三左位置脉冲响应;以及
访问与第三位置相关联的第三右位置脉冲响应。
在一些实施方式中,生成第一虚拟波前、第二虚拟波前和第三虚拟波前包括:
通过对第一左位置脉冲响应、第二左位置脉冲响应和第三左位置脉冲响应求和来生成总计的左位置脉冲响应;
通过对第一右位置脉冲响应、第二右位置脉冲响应和第三右位置脉冲响应求和来生成总计的右位置脉冲响应;
将音频流与总计的左位置脉冲响应进行卷积;以及
将音频流与总计的右位置脉冲响应进行卷积。
在一些实施方式中,将音频流与总计的左位置脉冲响应进行卷积包括生成左通道;将音频流与总计的右位置脉冲响应进行卷积包括生成右通道;以及将左通道和右通道呈现给听者。
在一些实施方式中,由第一虚拟波前、第二虚拟波前和第三虚拟波前的组合限定音频映象。
在一些实施方式中,方法2600还包括步骤2616,步骤2616包括将第一虚拟波前、第二虚拟波前和第三虚拟波前进行混合。
现在转到图27,图27为说明了示出生成体积音频映象的计算机实现的方法2700的流程图。尽管通常参考生成体积音频映象的方法,但是应当理解在本上下文中,方法2700还可以称为将体积音频映象呈现给听者的方法。在一些实施方式中,计算机实现的方法2700可以(完全或部分地)被实现在类似于计算环境100的计算环境(例如但不限于一个或更多个设备250)上。
方法2700在步骤2702处通过访问音频流开始。然后,在步骤2704处,方法2700访问第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响应。
然后,在步骤2706处,方法2700访问控制数据,控制数据包括第一位置、第二位置和第三位置。在步骤2708处,方法2700将第一位置脉冲响应与第一位置相关联、将第二位置脉冲响应与第二位置相关联以及将第三位置脉冲响应与第三位置相关联。
方法2700然后通过执行步骤2710、2712和2714来生成体积音频映象。在一些实施方式中,步骤2710、2712和2714并行执行。步骤2710包括通过将音频流与第一位置脉冲响应进行卷积来生成从第一位置发出的第一虚拟波前。步骤2712包括通过将音频流与第二位置脉冲响应进行卷积来生成从第二位置发出的第二虚拟波前。步骤2714包括通过将音频流与第三位置脉冲响应进行卷积来生成从第三位置发出的第三虚拟波前。
在一些实施方式中,方法2700还包括其包括将第一虚拟波前、第二虚拟波前和第三虚拟波前混合的步骤2716。
现在转到图28,图28为说明了示出对音频流进行滤波的计算机实现的方法2800的流程图。在一些实施方式中,计算机实现的方法2800可以(完全或部分地)在类似于计算环境100的计算环境(例如但不限于一个或更多个设备250)上实现。
方法2800在步骤2802处通过访问音频流开始。然后,在步骤2804处,方法2800访问与空间有关的维度信息。然后方法2800在步骤2806处确定声音在空间内从波动声学转换到射线声学的频率。在步骤2808处,方法2800基于该频率将音频流划分为第一音频子流和第二音频子流。
在一些实施方式中,划分音频流包括通过施加高通滤波(HPF)生成第一音频子流以及通过施加低通滤波(LPF)生成第二音频子流。在一些实施方式中,将增益和延迟中的至少一个施加到第二音频子流。在一些实施方式中,频率是截止频率(f2)和交叉频率(f)之一。在一些实施方式中,基于截止频率(f2)和交叉频率(f)中的至少一个来限定HPF和LPF中的至少一个。
在一些实施方式中,截止频率(f2)和交叉频率(f)中的至少一个与控制数据相关联。在一些实施方式中,空间与第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响应中的至少一个相关联。
虽然已经参考以特定顺序执行的特定步骤描述和示出上述实现方式,但是应当理解,可以在不脱离本发明的教导的情况下将这些步骤组合、细分或重新排序。可以并行或串行执行步骤中的至少一些步骤。因此,步骤的顺序和分组并非是对本技术的限制。
应当清楚地理解,并非在本技术的每个和每一个实施方式中都需要体验本文中提到的所有技术效果。例如,可以在用户和/或听者并未体验这些技术效果中的一些技术效果的情况下实现本技术的实施方式,而且可以在用户享受其他技术效果或根本未享受其他技术效果的情况下实现其他实施方式。
本技术的上述实现方式的修改和改进可以对本领域技术人员变得明显。上述描述旨在是示例性的而不是限制性的。因此,本技术的范围旨在仅由随附权利要求的范围限制。

Claims (88)

1.一种生成用于在呈现音频时使用的音频映象的方法,所述方法包括:
访问音频流;
访问第一位置脉冲响应,所述第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,所述第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,所述第三位置脉冲响应与第三位置相关联;
通过执行以下操作生成所述音频映象:
基于所述音频流和所述第一位置脉冲响应生成要被听者感知为从所述第一位置发出的第一虚拟波前;
基于所述音频流和所述第二位置脉冲响应生成要被所述听者感知为从所述第二位置发出的第二虚拟波前;以及
基于所述音频流和所述第三位置脉冲响应生成要被所述听者感知为从所述第三位置发出的第三虚拟波前。
2.根据权利要求1所述的方法,其中:
生成所述第一虚拟波前包括将所述音频流与所述第一位置脉冲响应进行卷积;
生成所述第二虚拟波前包括将所述音频流与所述第二位置脉冲响应进行卷积;以及
生成所述第三虚拟波前包括将所述音频流与所述第三位置脉冲响应进行卷积。
3.根据权利要求1中任一项所述的方法,其中:
所述第一位置脉冲响应包括与所述第一位置相关联的第一左位置脉冲响应和与所述第一位置相关联的第一右位置脉冲响应;
所述第二位置脉冲响应包括与所述第二位置相关联的第二左位置脉冲响应和与所述第二位置相关联的第二右位置脉冲响应;以及
所述第三位置脉冲响应包括与所述第三位置相关联的第三左位置脉冲响应和与所述第三位置相关联的第三右位置脉冲响应。
4.根据权利要求3所述的方法,其中,生成所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前包括:
通过对所述第一左位置脉冲响应、所述第二左位置脉冲响应和所述第三左位置脉冲响应求和来生成总计的左位置脉冲响应;
通过对所述第一右位置脉冲响应、所述第二右位置脉冲响应和所述第三右位置脉冲响应求和来生成总计的右位置脉冲响应;
将所述音频流与所述总计的左位置脉冲响应进行卷积;以及
将所述音频流与所述总计的右位置脉冲响应进行卷积。
5.根据权利要求4所述的方法,其中:
将所述音频流与所述总计的左位置脉冲响应进行卷积包括生成左通道信号;
将所述音频流与所述总计的右位置脉冲响应进行卷积包括生成右通道信号;以及
将所述左通道信号和所述右通道信号呈现给听者。
6.根据权利要求3所述的方法,其中,生成所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前包括:
将所述音频流与所述第一左位置脉冲响应进行卷积;
将所述音频流与所述第一右位置脉冲响应进行卷积;
将所述音频流与所述第二左位置脉冲响应进行卷积;
将所述音频流与所述第二右位置脉冲响应进行卷积;
将所述音频流与所述第三左位置脉冲响应进行卷积;以及
将所述音频流与所述第三右位置脉冲响应进行卷积。
7.根据权利要求6所述的方法,还包括:
通过将与所述第一左位置脉冲响应卷积的音频流、与所述第二左位置脉冲响应卷积的音频流和与所述第三左位置脉冲响应卷积的音频流进行混合来生成左通道信号;
通过将与所述第一右位置脉冲响应卷积的音频流、与所述第二右位置脉冲响应卷积的音频流和与所述第三右位置脉冲响应卷积的音频流进行混合来生成右通道信号;以及
将所述左通道信号和所述右通道信号呈现给听者。
8.根据权利要求1至7中任一项所述的方法,其中,并行执行生成所述第一虚拟波前、生成所述第二虚拟波前和生成所述第三虚拟波前。
9.根据权利要求1至8中任一项所述的方法,其中,在将所述音频映象呈现给听者时,所述第一虚拟波前被所述听者感知为从位于所述第一位置处的第一虚拟扬声器发出,所述第二虚拟波前被所述听者感知为从位于所述第二位置处的第二虚拟扬声器发出;以及所述第三虚拟波前被所述听者感知为从位于所述第三位置处的第三虚拟扬声器发出。
10.根据权利要求1至9中任一项所述的方法,其中,同步地执行生成所述第一虚拟波前、生成所述第二虚拟波前和生成所述第三虚拟波前的步骤。
11.根据权利要求1至10中任一项所述的方法,其中,在生成所述音频映象之前,所述方法包括:
访问控制数据,所述控制数据包括所述第一位置、所述第二位置和所述第三位置;以及
将所述第一位置脉冲响应与所述第一位置相关联、将所述第二位置脉冲响应与所述第二位置相关联以及将所述第三位置脉冲响应与所述第三位置相关联。
12.根据权利要求1至11中任一项所述的方法,其中,所述音频流是第一音频流并且所述方法还包括访问第二音频流。
13.根据权利要求12所述的方法,其中,所述音频映象是第一音频映象并且所述方法还包括:
通过执行以下步骤来生成第二音频映象:
基于所述第二音频流和所述第一位置脉冲响应生成要被所述听者感知为从所述第一位置发出的第四虚拟波前;
基于所述第二音频流和所述第二位置脉冲响应生成要被所述听者感知为从所述第二位置发出的第五虚拟波前;以及
基于所述第二音频流和所述第三位置脉冲响应生成要被所述听者感知为从所述第三位置发出的第六虚拟波前。
14.根据权利要求1至13中任一项所述的方法,其中,所述音频流是音频通道。
15.根据权利要求1至14中任一项所述的方法,其中,所述音频流是单声道音频流、立体声音频流和多通道音频流之一。
16.根据权利要求1至15中任一项所述的方法,其中,所述音频映象由所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前的组合来限定。
17.根据权利要求1至16中任一项所述的方法,其中,所述音频映象被听者感知为由所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前的组合限定的虚拟沉浸式音频体积。
18.根据权利要求1至17中任一项所述的方法,其中,所述方法还包括访问第四位置脉冲响应,所述第四位置脉冲响应与第四位置相关联。
19.根据权利要求18所述的方法,其中,基于所述音频流和所述第四位置脉冲响应生成要被所述听者感知为从所述第四位置发出的第四虚拟波前。
20.根据权利要求1至19中任一项所述的方法,其中,所述第一位置、所述第二位置和所述第三位置对应于与所述第一位置脉冲响应、所述第二位置脉冲响应和所述第三位置脉冲响应相关联的声学空间的位置。
21.根据权利要求1至20中任一项所述的方法,其中,所述第一位置、所述第二位置和所述第三位置限定球形网格的一部分。
22.根据权利要求1至21中任一项所述的方法,其中,所述第一位置脉冲响应、所述第二位置脉冲响应和所述第三位置脉冲响应限定多边形位置脉冲响应。
23.根据权利要求1至22所述的方法,其中,所述音频映象是第一音频映象并且其中所述方法还包括:
访问第四位置脉冲响应,所述第四位置脉冲响应与第四位置相关联;
访问第五位置脉冲响应,所述第五位置脉冲响应与第五位置相关联;
访问第六位置脉冲响应,所述第六位置脉冲响应与第六位置相关联;
通过并行执行以下步骤来生成第二音频映象:
基于所述音频流和所述第四位置脉冲响应生成要被所述听者感知为从所述第四位置发出的第四虚拟波前;
基于所述音频流和所述第五位置脉冲响应生成要被所述听者感知为从所述第五位置发出的第五虚拟波前;以及
基于所述音频流和所述第六位置脉冲响应生成要被所述听者感知为从所述第六位置发出的第六虚拟波前。
24.根据权利要求23所述的方法,其中,所述第一音频映象和所述第二音频映象限定复合音频映象。
25.根据权利要求1至24中任一项所述的方法,其中,所述音频流包括点源音频流并且所述音频映象被用户感知为由所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前的组合限定的所述点源音频流的体积音频对象。
26.根据权利要求25所述的方法,其中,所述点源音频流包括单声道音频流。
27.根据权利要求1至26中任一项所述的方法,其中,从音频映象文件访问所述第一位置脉冲响应、所述第二位置脉冲响应、所述第三位置脉冲响应和所述音频流。
28.根据权利要求27所述的方法,其中,所述第一位置、所述第二位置和所述第三位置与控制数据相关联,从所述音频映象文件访问所述控制数据。
29.根据权利要求27所述的方法,其中,所述音频流是第一音频流并且所述音频映象文件还包括第二音频流。
30.根据权利要求27所述的方法,其中,所述音频映象文件已经由编码器生成。
31.根据权利要求1至30中任一项所述的方法,其中,由声场定位器访问所述第一位置脉冲响应、所述第二位置脉冲响应和所述第三位置脉冲响,并且所述音频映象由音频映象呈现器生成。
32.根据权利要求31所述的方法,其中,所述声场定位器和所述音频映象呈现器限定解码器。
33.根据权利要求2至32中任一项所述的方法,其中,在生成所述音频映象之前,通过声学测定带通滤波器对所述音频流进行滤波。
34.根据权利要求33所述的方法,其中,通过所述声学测定带通滤波器将所述音频流划分为第一音频子流和第二音频子流。
35.根据权利要求34所述的方法,其中,将所述音频流与所述第一位置脉冲响应进行卷积包括将所述第一音频子流与所述第一位置脉冲响应进行卷积,将所述音频流与所述第二位置脉冲响应进行卷积包括将所述第一音频子流与所述第二位置脉冲响应进行卷积,并且将所述音频流与所述第三位置脉冲响应进行卷积包括将所述第一音频子流与所述第三位置脉冲响应进行卷积。
36.根据权利要求35所述的方法,其中,将所述第一虚拟波前、所述第二虚波前和所述第三虚波前与所述第二音频子流混合以生成所述音频映象。
37.根据权利要求33所述的方法,其中,所述声学测定带通滤波器通过施加高通滤波HPF生成所述第一音频子流并且通过施加低通滤波LPF生成所述第二音频子流。
38.根据权利要求33所述的方法,其中,将增益和延迟中的至少一个施加到所述第二音频子流。
39.根据权利要求37所述的方法,其中,基于截止频率(f2)和交叉频率(f)中的至少一个来限定所述HPF和所述LPF中的至少一个。
40.根据权利要求39所述的方法,其中,所述截止频率和所述交叉频率中的至少一个基于声音在与所述第一位置脉冲响应、所述第二位置脉冲响应和所述第三位置脉冲响应中的至少一个相关联的空间内从波动声学转换到射线声学所处的频率。
41.根据权利要求39所述的方法,其中,所述截止频率(f2)和所述交叉频率(f)中的至少一个与控制数据相关联。
42.根据权利要求1至41中任一项所述的方法,还包括:
基于所述音频映象输出m通道音频输出。
43.根据权利要求1至42中任一项所述的方法,其中,经由头戴式耳机组和一组扬声器中的至少一个将所述音频映象传递给用户。
44.根据权利要求2至43中任一项所述的方法,其中,将所述音频流与所述第一位置脉冲响应进行卷积、将所述音频流与所述第二位置脉冲响应进行卷积以及将所述音频流与所述第三位置脉冲响应进行卷积中的至少一个包括对所述音频流施加傅里叶变换。
45.根据权利要求2至44中任一项所述的方法,其中,将所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前混合在一起。
46.根据权利要求1至45中任一项所述的方法,其中,将增益、延迟和滤波/均衡中的至少一个施加到所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前中的至少一个。
47.根据权利要求46所述的方法,其中,基于控制数据将所述增益、所述延迟和所述滤波/均衡中的至少一个施加到所述第一虚拟波前、所述第二虚波前和所述第三虚波前中的至少一个。
48.根据权利要求1至47中任一项所述的方法,其中,所述音频流是第一音频流并且所述方法还包括访问多个音频流。
49.根据权利要求48所述的方法,其中,在生成所述音频映象之前将所述第一音频流和所述多个音频流混合在一起。
50.根据权利要求1至49中任一项所述的方法,其中,所述第一位置、所述第二位置和所述第三位置是能够实时控制的以便使所述音频映象变形。
51.一种生成用于在呈现音频时使用的音频映象的方法,所述方法包括:
访问音频流;
访问位置信息,所述位置信息包括第一位置、第二位置和第三位置;
通过执行以下操作生成所述音频映象:
基于所述音频流生成要被听者感知为从所述第一位置发出的第一虚拟波前;
基于所述音频流生成要被所述听者感知为从所述第二位置发出的第二虚拟波前;以及
基于所述音频流生成要被所述听者感知为从所述第三位置发出的第三虚拟波前。
52.根据权利要求51所述的方法,其中,在将所述音频映象呈现给所述听者时,所述第一虚拟波前被所述听者感知为从位于所述第一位置处的第一虚拟扬声器发出,所述第二虚拟波前被所述听者感知为从位于所述第二位置处的第二虚拟扬声器发出;以及所述第三虚拟波前被所述听者感知为从位于所述第三位置处的第三虚拟扬声器发出。
53.根据权利要求52所述的方法,其中,生成所述第一虚拟波前、生成所述第二虚拟波前以及生成所述第三虚拟波前中的至少一个包括声学呈现和双耳呈现中的至少一个。
54.根据权利要求53所述的方法,其中,所述声学呈现包括直接声音呈现、早期反射呈现和后期反射呈现中的至少一个。
55.根据权利要求53所述的方法,其中,所述声学呈现包括以下中的至少一个:双耳房间模拟、基于DSP算法的声学呈现、基于脉冲响应的声学呈现、基于B-格式的声学呈现、基于球谐函数的声学呈现、基于环境上下文模拟的声学呈现、基于与脉冲响应的卷积的声学呈现、基于与脉冲响应的卷积和HRTF处理的声学呈现、基于可听化的声学呈现、基于合成房间脉冲响应的声学呈现、基于高保真度立体声响复制和双耳呈现的声学呈现、基于高阶高保真度立体声响复制HOA和双耳呈现的声学呈现、基于射线跟踪的声学呈现和基于映象建模的声学呈现。
56.根据权利要求53所述的方法,其中,所述双耳呈现包括以下中的至少一个:双耳信号处理、基于HRTF建模的双耳呈现、基于HRTF测量的双耳呈现、基于DSP算法的双耳呈现、基于脉冲响应的双耳呈现、基于用于HRTF的数字滤波器的双耳呈现和基于HRTF集的计算的双耳呈现。
57.根据权利要求51至56中任一项所述的方法,其中,同步地执行生成所述第一虚拟波前、生成所述第二虚拟波前和生成第三虚拟波前的步骤。
58.根据权利要求51至57中任一项所述的方法,其中,在生成所述音频映象之前,所述方法包括:
访问与所述第一位置相关联的第一位置脉冲响应;
访问与所述第二位置相关联的第二位置脉冲响应;以及
访问与所述第三位置相关联的第三位置脉冲响应。
59.根据权利要求58所述的方法,其中,
生成所述第一虚拟波前包括将所述音频流与所述第一位置脉冲响应进行卷积;
生成所述第二虚拟波前包括将所述音频流与所述第二位置脉冲响应进行卷积;以及
生成所述第三虚拟波前包括将所述音频流与所述第三位置脉冲响应进行卷积。
60.根据权利要求51至57中任一项所述的方法,其中,在生成所述音频映象之前,所述方法包括:
访问与所述第一位置相关联的第一左位置脉冲响应;
访问与所述第一位置相关联的第一右位置脉冲响应;
访问与所述第二位置相关联的第二左位置脉冲响应;
访问与所述第二位置相关联的第二右位置脉冲响应;
访问与所述第三位置相关联的第三左位置脉冲响应;以及
访问与所述第三位置相关联的第三右位置脉冲响应。
61.根据权利要求60所述的方法,其中,生成所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前包括:
通过对所述第一左位置脉冲响应、所述第二左位置脉冲响应和所述第三左位置脉冲响应求和来生成总计的左位置脉冲响应;
通过对所述第一右位置脉冲响应、所述第二右位置脉冲响应和所述第三右位置脉冲响应求和来生成总计的右位置脉冲响应;
将所述音频流与所述总计的左位置脉冲响应进行卷积;以及
将所述音频流与所述总计的右位置脉冲响应进行卷积。
62.根据权利要求61所述的方法,其中:
将所述音频流与所述总计的左位置脉冲响应进行卷积包括生成左通道;
将所述音频流与所述总计的右位置脉冲响应进行卷积包括生成右通道;以及
将所述左通道和所述右通道呈现给听者。
63.根据权利要求51至62中任一项所述的方法,其中,所述音频映象由所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前的组合限定。
64.一种生成用于在呈现音频时使用的体积音频映象的方法,所述方法包括:
访问音频流;
访问第一位置脉冲响应;
访问第二位置脉冲响应;
访问第三位置脉冲响应;
访问控制数据,所述控制数据包括第一位置、第二位置和第三位置;
将所述第一位置脉冲响应与所述第一位置相关联、将所述第二位置脉冲响应与所述第二位置相关联以及将所述第三位置脉冲响应与所述第三位置相关联;
通过并行执行以下步骤来生成所述体积音频映象:
通过将所述音频流与所述第一位置脉冲响应进行卷积来生成从所述第一位置发出的第一虚拟波前;
通过将所述音频流与所述第二位置脉冲响应进行卷积来生成从所述第二位置发出的第二虚拟波前;
通过将所述音频流与所述第三位置脉冲响应进行卷积来生成从所述第三位置发出的第三虚拟波前;以及
将所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前混合以呈现所述体积音频映象。
65.一种生成用于在呈现音频时使用的音频映象的方法,所述方法包括:
访问音频流;
访问第一位置脉冲响应,所述第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,所述第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,所述第三位置脉冲响应与第三位置相关联;
通过并行执行以下操作来生成所述音频映象:
通过将所述音频流与所述第一位置脉冲响应进行卷积来生成第一虚拟波前;
通过将所述音频流与所述第二位置脉冲响应进行卷积来生成第二虚拟波前;以及
通过将所述音频流与所述第三位置脉冲响应进行卷积来生成第三虚拟波前。
66.一种用于呈现音频输出的系统,所述系统包括:
声场定位器,所述声场定位器被配置成:
访问位置脉冲响应和控制数据,所述控制数据包括与所述位置脉冲响应相关联的位置;
音频映象呈现器,所述音频映象呈现器被配置成:
访问音频流;
生成包括从所述位置发出的虚拟波前的音频映象,基于所述音频流和所述位置脉冲响应中的不同的一个位置脉冲响应生成所述虚拟波前中的每一个;以及
混合所述虚拟波前并且输出m通道音频输出以呈现所述音频映象。
67.根据权利要求66所述的系统,其中,生成所述虚拟波前中的每一个包括通过将所述音频流与所述位置脉冲响应中的不同的一个位置脉冲响应进行卷积。
68.一种用于生成音频映象文件的系统,所述系统包括:
输入接口,所述输入接口被配置成:
接收音频流;
访问控制数据,所述控制数据包括要与脉冲响应相关联的位置;
编码器,所述编码器被配置成对所述音频流和所述控制数据进行编码以允许音频映象呈现器生成包括从所述位置发出的虚拟波前的音频映象,基于所述音频流和所述位置脉冲响应中的不同的一个位置脉冲响应生成所述虚拟波前中的每一个虚拟波前。
69.根据权利要求66所述的系统,其中,生成所述虚拟波前中的每一个包括通过将所述音频流与所述位置脉冲响应中的不同的一个位置脉冲响应进行卷积。
70.根据权利要求68和69中任一项所述的系统,其中,所述输入接口还被配置成访问所述位置脉冲响应并且所述编码器还被配置成对所述音频流、所述控制数据和所述位置脉冲响应进行编码。
71.一种对音频流进行滤波的方法,所述方法包括:
访问所述音频流;
访问与空间有关的维度信息;
确定声音在所述空间内从波动声学转换到射线声学所处的频率;以及
基于所述频率将所述音频流划分为第一音频子流和第二音频子流。
72.根据权利要求71所述的方法,其中,划分所述音频流包括通过施加高通滤波HPF生成第一音频子流以及通过施加低通滤波LPF生成第二音频子流。
73.根据权利要求71所述的方法,其中,将增益和延迟中的至少一个施加到所述第二音频子流。
74.根据权利要求72所述的方法,其中,所述频率是截止频率(f2)和交叉频率(f)之一。
75.根据权利要求74所述的方法,其中,基于所述截止频率(f2)和所述交叉频率(f)中的至少一个来限定所述HPF和所述LPF中的至少一个。
76.根据权利要求74所述的方法,其中,所述截止频率(f2)和所述交叉频率(f)中的至少一个与控制数据相关联。
77.根据权利要求71所述的方法,其中,所述空间与第一位置脉冲响应、第二位置脉冲响应和第三位置脉冲响应中的至少一个相关联。
78.一种用于生成音频映象的系统,所述系统包括:
处理器;
非暂时性计算机可读介质,所述非暂时性计算机可读介质包括控制逻辑,所述控制逻辑在由所述处理器执行时使得:
访问音频流;
访问第一位置脉冲响应,所述第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,所述第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,所述第三位置脉冲响应与第三位置相关联;
通过执行以下操作来生成所述音频映象:
基于所述音频流和所述第一位置脉冲响应生成要被听者感知为从所述第一位置发出的第一虚拟波前;
基于所述音频流和所述第二位置脉冲响应生成要被所述听者感知为从所述第二位置发出的第二虚拟波前;以及
基于所述音频流和所述第三位置脉冲响应生成要被所述听者感知为从所述第三位置发出的第三虚拟波前。
79.一种用于生成音频映象的系统,所述系统包括:
处理器;
非暂时性计算机可读介质,所述非暂时性计算机可读介质包括控制逻辑,所述控制逻辑在由所述处理器执行时使得:
访问音频流;
访问位置信息,所述位置信息包括第一位置、第二位置和第三位置;
通过并行执行以下操作生成所述音频映象:
基于所述音频流生成要被听者感知为从所述第一位置发出的第一虚拟波前;
基于所述音频流生成要被所述听者感知为从所述第二位置发出的第二虚拟波前;以及
基于所述音频流生成要被所述听者感知为从所述第三位置发出的第三虚拟波前。
80.一种用于生成体积音频映象的系统,所述系统包括:
处理器;
非暂时性计算机可读介质,所述非暂时性计算机可读介质包括控制逻辑,所述控制逻辑在由所述处理器执行时使得:
访问音频流;
访问第一位置脉冲响应;
访问第二位置脉冲响应;
访问第三位置脉冲响应;
访问控制数据,所述控制数据包括第一位置、第二位置和第三位置;
将所述第一位置脉冲响应与所述第一位置相关联、将所述第二位置脉冲响应与所述第二位置相关联以及将所述第三位置脉冲响应与所述第三位置相关联;
通过并行执行以下步骤来生成所述体积音频映象:
通过将所述音频流与所述第一位置脉冲响应进行卷积来生成从所述第一位置发出的第一虚拟波前;
通过将所述音频流与所述第二位置脉冲响应进行卷积来生成从所述第二位置发出的第二虚拟波前;
通过将所述音频流与所述第三位置脉冲响应进行卷积来生成从所述第三位置发出的第三虚拟波前;以及
将所述第一虚拟波前、所述第二虚拟波前和所述第三虚拟波前混合以呈现所述体积音频映象。
81.一种用于生成音频映象的系统,所述系统包括:
处理器;
非暂时性计算机可读介质,所述非暂时性计算机可读介质包括控制逻辑,所述控制逻辑在由所述处理器执行时使得:
访问音频流;
访问第一位置脉冲响应,所述第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,所述第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,所述第三位置脉冲响应与第三位置相关联;
通过并行执行以下操作生成所述音频映象:
通过将所述音频流与所述第一位置脉冲响应进行卷积来生成第一虚拟波前;
通过将所述音频流与所述第二位置脉冲响应进行卷积来生成第二虚拟波前;以及
通过将所述音频流与所述第三位置脉冲响应进行卷积来生成第三虚拟波前。
82.一种用于对音频流进行滤波的系统,所述系统包括:
处理器;
非暂时性计算机可读介质,所述非暂时性计算机可读介质包括控制逻辑,所述控制逻辑在由所述处理器执行时使得:
访问所述音频流;
访问与空间有关的维度信息;
确定声音在所述空间内从波动声学转换到射线声学所处的频率;以及
基于所述频率将所述音频流划分为第一音频子流和第二音频子流。
83.一种包括控制逻辑的非暂时性计算机可读介质,所述控制逻辑在由处理器执行时使得:
访问音频流;
访问第一位置脉冲响应,所述第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,所述第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,所述第三位置脉冲响应与第三位置相关联;
通过执行以下操作生成所述音频映象:
基于所述音频流和所述第一位置脉冲响应生成要被听者感知为从所述第一位置发出的第一虚拟波前;
基于所述音频流和所述第二位置脉冲响应生成要被所述听者感知为从所述第二位置发出的第二虚拟波前;以及
基于所述音频流和所述第三位置脉冲响应生成要被所述听者感知为从所述第三位置发出的第三虚拟波前。
84.一种生成用于在呈现音频时使用的音频映象的方法,所述方法包括:
访问音频流;
访问第一位置脉冲响应,所述第一位置脉冲响应与第一位置相关联;
访问第二位置脉冲响应,所述第二位置脉冲响应与第二位置相关联;
访问第三位置脉冲响应,所述第三位置脉冲响应与第三位置相关联;
通过执行以下操作生成所述音频映象:
将所述音频流与所述第一位置脉冲响应进行卷积;
将所述音频流与所述第二位置脉冲响应进行卷积;以及
将所述音频流与所述第三位置脉冲响应进行卷积。
85.根据权利要求84所述的方法,其中,并行执行将所述音频流与所述第一位置脉冲响应进行卷积、将所述音频流与所述第二位置脉冲响应进行卷积以及将所述音频流与所述第三位置脉冲响应进行卷积。
86.一种计算机实现的系统,所述计算机实现的系统被配置成执行根据权利要求1至65、71至77以及84至85中任一项所述的方法。
87.一种包括计算机实现的系统的设备,所述计算机实现的系统被配置成执行根据权利要求1至65、71至77以及84至85中任一项所述的方法。
88.一种包括计算机可执行指令的非暂时性计算机可读介质,所述计算机可执行指令使得系统执行根据权利要求1至65、71至77以及84至85中任一项所述的方法。
CN201780078834.6A 2016-10-19 2017-10-18 用于生成音频映象的系统和方法 Pending CN110089135A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662410132P 2016-10-19 2016-10-19
US62/410,132 2016-10-19
PCT/IB2017/056471 WO2018073759A1 (en) 2016-10-19 2017-10-18 System for and method of generating an audio image

Publications (1)

Publication Number Publication Date
CN110089135A true CN110089135A (zh) 2019-08-02

Family

ID=62018282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780078834.6A Pending CN110089135A (zh) 2016-10-19 2017-10-18 用于生成音频映象的系统和方法

Country Status (6)

Country Link
US (3) US10820135B2 (zh)
EP (1) EP3530007A1 (zh)
KR (1) KR20190091445A (zh)
CN (1) CN110089135A (zh)
CA (1) CA3043444A1 (zh)
WO (1) WO2018073759A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109195062A (zh) * 2018-09-21 2019-01-11 歌尔科技有限公司 一种扩大音频设备的声场的方法、系统及音频设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110089135A (zh) * 2016-10-19 2019-08-02 奥蒂布莱现实有限公司 用于生成音频映象的系统和方法
JP2018101452A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 出力制御装置、コンテンツ記憶装置、出力制御方法、コンテンツ記憶方法、プログラム及びデータ構造
US11606663B2 (en) 2018-08-29 2023-03-14 Audible Reality Inc. System for and method of controlling a three-dimensional audio engine
US10705790B2 (en) * 2018-11-07 2020-07-07 Nvidia Corporation Application of geometric acoustics for immersive virtual reality (VR)
US10757528B1 (en) * 2019-10-11 2020-08-25 Verizon Patent And Licensing Inc. Methods and systems for simulating spatially-varying acoustics of an extended reality world
US11269589B2 (en) 2019-12-23 2022-03-08 Dolby Laboratories Licensing Corporation Inter-channel audio feature measurement and usages
KR102500157B1 (ko) 2020-07-09 2023-02-15 한국전자통신연구원 오디오 신호의 바이노럴 렌더링 방법 및 장치
US11632647B1 (en) * 2021-11-08 2023-04-18 Agora Lab, Inc. System and method for rendering real-time spatial audio in virtual environment

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
CN102694764A (zh) * 2011-08-17 2012-09-26 国家广播电影电视总局广播科学研究院 数字音频广播系统中的数字音频信号发送和接收方法和装置
US20140219455A1 (en) * 2013-02-07 2014-08-07 Qualcomm Incorporated Mapping virtual speakers to physical speakers
CN104021373A (zh) * 2014-05-27 2014-09-03 江苏大学 一种半监督语音特征可变因素分解方法
WO2015147619A1 (ko) * 2014-03-28 2015-10-01 삼성전자 주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US9172901B2 (en) * 2010-03-23 2015-10-27 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1072089B1 (en) * 1998-03-25 2011-03-09 Dolby Laboratories Licensing Corp. Audio signal processing method and apparatus
US6027428A (en) * 1998-04-29 2000-02-22 Thomas; Mark Automated method and apparatus for providing real time personal physical fitness instruction
JP3985234B2 (ja) * 2004-06-29 2007-10-03 ソニー株式会社 音像定位装置
US8619998B2 (en) 2006-08-07 2013-12-31 Creative Technology Ltd Spatial audio enhancement processing method and apparatus
JP2014506416A (ja) * 2010-12-22 2014-03-13 ジェノーディオ,インコーポレーテッド オーディオ空間化および環境シミュレーション
JP5893129B2 (ja) * 2011-04-18 2016-03-23 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオをアップミックスして3dオーディオを生成する方法とシステム
EP2530956A1 (en) * 2011-06-01 2012-12-05 Tom Van Achte Method for generating a surround audio signal from a mono/stereo audio signal
FR2976759B1 (fr) 2011-06-16 2013-08-09 Jean Luc Haurais Procede de traitement d'un signal audio pour une restitution amelioree.
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
AU2012394979B2 (en) * 2012-11-22 2016-07-14 Razer (Asia-Pacific) Pte. Ltd. Method for outputting a modified audio signal and graphical user interfaces produced by an application program
EP2974384B1 (en) 2013-03-12 2017-08-30 Dolby Laboratories Licensing Corporation Method of rendering one or more captured audio soundfields to a listener
US9420393B2 (en) * 2013-05-29 2016-08-16 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients
WO2015134658A1 (en) 2014-03-06 2015-09-11 Dolby Laboratories Licensing Corporation Structural modeling of the head related impulse response
CN109076305B (zh) * 2016-02-02 2021-03-23 Dts(英属维尔京群岛)有限公司 增强现实耳机环境渲染
CN110089135A (zh) * 2016-10-19 2019-08-02 奥蒂布莱现实有限公司 用于生成音频映象的系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
US9172901B2 (en) * 2010-03-23 2015-10-27 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
CN102694764A (zh) * 2011-08-17 2012-09-26 国家广播电影电视总局广播科学研究院 数字音频广播系统中的数字音频信号发送和接收方法和装置
US20140219455A1 (en) * 2013-02-07 2014-08-07 Qualcomm Incorporated Mapping virtual speakers to physical speakers
WO2015147619A1 (ko) * 2014-03-28 2015-10-01 삼성전자 주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN104021373A (zh) * 2014-05-27 2014-09-03 江苏大学 一种半监督语音特征可变因素分解方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109195062A (zh) * 2018-09-21 2019-01-11 歌尔科技有限公司 一种扩大音频设备的声场的方法、系统及音频设备
CN109195062B (zh) * 2018-09-21 2020-10-02 歌尔科技有限公司 一种扩大音频设备的声场的方法、系统及音频设备

Also Published As

Publication number Publication date
US20190261124A1 (en) 2019-08-22
US20230050329A1 (en) 2023-02-16
EP3530007A4 (en) 2019-08-28
CA3043444A1 (en) 2018-04-26
WO2018073759A1 (en) 2018-04-26
EP3530007A1 (en) 2019-08-28
US10820135B2 (en) 2020-10-27
KR20190091445A (ko) 2019-08-06
US11516616B2 (en) 2022-11-29
US20200413214A1 (en) 2020-12-31

Similar Documents

Publication Publication Date Title
CN110089135A (zh) 用于生成音频映象的系统和方法
JP4263217B2 (ja) オーディオシーンでのオーディオ表現を生成し、保存し、編集するための装置および方法
CN104520924B (zh) 指示游戏音频内容的基于对象的音频的编码和呈现
EP2205007A1 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
JP6246922B2 (ja) 音響信号処理方法
TW202022594A (zh) 當表達電腦調解之實境系統時表示閉塞
US20240022870A1 (en) System for and method of controlling a three-dimensional audio engine
US10321252B2 (en) Transaural synthesis method for sound spatialization
CN105594227A (zh) 利用恒定功率成对平移的矩阵解码器
Barrett Spatial music composition
Llewellyn et al. Towards 6DOF: 3D audio for virtual, augmented, and mixed realities
Paterson et al. Producing 3-D audio
Baxter Immersive Sound Production Using Ambisonics and Advance Audio Practices
Edwards Signal Processing Supports a New Wave of Audio Research: Spatial and Immersive Audio Mimics Real-World Sound Environments [Special Reports]
Nuora Introduction to sound design for virtual reality games: a look into 3D sound, spatializer plugins and their implementation in Unity game engine
Väänänen Parametrization, auralization, and authoring of room acoustics for virtual reality applications
Sumner The Digital Ears: A Binaural Spatialization Plugin
Rumori Space and body in sound art: Artistic explorations in binaural audio augmented environments
De Sotgiu et al. Tools for Immersive Music in Binaural Format
France Immersive Audio Production: Providing structure to research and development in an emerging production format
MAGLIOZZI An ambisonics based VST plug in for 3D music production
CN115842984A (zh) 确定虚拟聆听环境
Costerton A systematic review of the most appropriate methods of achieving spatially enhanced audio for headphone use
KR20080018409A (ko) 웹 기반의 2채널 출력을 위한 입체 음향 편집 시스템
Koutsivitis et al. Reproduction of audiovisual interactive events in virtual ancient Greek spaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190802