CN110999328B - 装置以及相关联的方法 - Google Patents
装置以及相关联的方法 Download PDFInfo
- Publication number
- CN110999328B CN110999328B CN201880051725.XA CN201880051725A CN110999328B CN 110999328 B CN110999328 B CN 110999328B CN 201880051725 A CN201880051725 A CN 201880051725A CN 110999328 B CN110999328 B CN 110999328B
- Authority
- CN
- China
- Prior art keywords
- spatial audio
- scene
- user
- audio
- captured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Abstract
一种装置,被配置为使用捕获的空间音频内容,该捕获的空间音频内容由可旋转空间音频捕获麦克风阵列所捕获,捕获的空间音频内容定义场景中音频的三维布置,听觉场景相对于在音频捕获时麦克风阵列的定向而被定义,并且使用捕获的方向数据,该捕获的方向数据表示在所述空间音频内容被捕获期间的时间内该麦克风阵列的参考方向相对于场景的方向,以生成经修改的空间音频内容,其中,通过使用捕获的方向数据来修改听觉场景的定向,听觉场景从在捕获空间音频内容期间发生的可旋转空间音频捕获麦克风阵列的任何旋转被解耦,以用于相对于接收方用户所位于的空间来向接收方用户进行呈现。
Description
技术领域
本公开涉及虚拟现实领域,并且具体地涉及在虚拟或增强现实视场中用以捕获虚拟现实内容的属性的修改的再检查领域、相关联的方法、计算机程序和装置。
背景技术
随着虚拟现实内容生产方生产实况和录制的虚拟现实内容,捕获虚拟现实内容变得越来越普遍。确保这样的虚拟现实内容具有很高的生产价值非常重要。虚拟现实内容的捕获可能需要修改捕获属性,以改进或修改虚拟现实内容,诸如以允许内容生产方创建品质内容和/或在所得的虚拟现实内容中实现期望的风格效果。
先前公布的文档及任何背景技术在本说明书中的列出或讨论不应被视为承认该文档和背景技术是现有技术的一部分或是公知常识。本公开的一个或多个方面/示例可以或可以不解决一个或多个背景技术问题。
发明内容
在第一示例方面,提供了一种装置,包括:
至少一个处理器;以及
至少一个存储器,该至少一个存储器包括计算机程序代码,
该至少一个存储器和该计算机程序代码被配置为与至少一个处理器一起,使该装置至少执行以下:
使用:
捕获的空间音频内容,该捕获的空间音频内容由可旋转空间音频捕获麦克风阵列所捕获,捕获的空间音频内容定义听觉场景,该听觉场景包括围绕围绕空间音频捕获麦克风阵列场景的音频,空间音频捕获麦克风阵列被定义使得场景中音频的三维布置可听地呈现给接收方用户,在音频捕获时,听觉场景的定向相对于可旋转空间音频捕获麦克风阵列被定义,以及
捕获的方向数据,该捕获的方向数据与空间音频内容相关联,并且表示在所述空间音频内容的参考方向在空间音频内容被捕获的时间内相对于所述场景的方向;
以生成经修改的空间音频内容,其中通过使用捕获的方向数据来修改听觉场景的定向,听觉场景从在捕获空间音频内容期间发生的可旋转空间音频捕获麦克风阵列的任何旋转被解耦,以用于相对于接收方用户所位于的空间来向接收方用户进行呈现。
在一个或多个示例中,由于经修改的空间音频内容的听觉场景的定向相对于接收方用户所位于的空间被定义,因此应当理解,该装置可以被使得基于接收方用户头部相对于空间的定向来提供经修改的空间音频的呈现,使得不论接收方用户头部的移动,音频被感知为源自空间中的相同方向。相应地,当接收方用户移动其头部环顾四周时,从空间中特定点听到的音频将保持在空间中的该点。
在一个或多个实施例中,该装置被使得向接收方用户提供经修改的空间音频内容的呈现作为空间音频,并且基于在空间音频内容被捕获时的参考方向提供将空间局部化音频效果应用于听觉场景的音频,以指示当捕获的空间音频内容被捕获时在听觉场景中参考方向指向何处,局部化音频效果被配置为:相对于被呈现给接收方用户的音频的其余部分,引起以下中的一项或多项:
i)响度增加;
ii)改变一个或多个频率分量的响度;以及
iii)修改一个或多个频率分量的频率;
在一个或多个实施例中,提供空间局部化音频效果还基于在参考方向与当前用户观看方向之间存在高于未对准阈值的未对准,该当前用户观看方向包括接收方用户相对于被呈现给其作为空间音频的听觉场景而正在查看的当前方向。
在一个或多个实施例中,该装置被使得基于捕获的方向数据和当前用户观看方向来向接收方用户提供经修改的空间音频内容的呈现作为空间音频,该当前用户观看方向包括接收方用户相对于被呈现给其作为空间音频的听觉场景而正在查看的当前方向,并且其中当前用户观看方向当前在阈值距离内与参考方向被对准;
向接收方用户提供观看方向对准指示符的呈现,观看方向对准指示符的呈现因此指示接收方用户相对于听觉场景、在与空间音频内容被捕获时空间音频捕获麦克风阵列相对于场景的参考方向相同的方向上进行查看。
在一个或多个实施例中,所述空间音频捕获麦克风阵列相对于场景的参考方向包括,位于所述场景中的用户(称为捕获用户)在捕获所述捕获的空间音频内容时的观看方向,该用户被称为捕获用户,空间音频捕获麦克风阵列根据捕获用户的观看方向可旋转。
在一个或多个实施例中,至少可旋转空间音频捕获麦克风阵列被配置为安装到捕获用户的头部。
在一或多个实施例中,空间音频内容被实况地呈现给接收方用户。
在一个或多个实施例中,该装置被使得向接收方用户提供经修改的空间音频内容的呈现作为空间音频,并且所述空间音频捕获麦克风阵列相对于场景的参考方向包括位于所述场景中的用户(称为捕获用户)在捕获所述捕获的空间音频内容时的观看方向,并且空间音频内容被实况地呈现给接收方用户;以及
基于捕获用户相对于场景的观看方向与接收方用户相对于听觉场景的当前用户观看方向在阈值内对准,使得捕获用户和接收方用户相对于场景和听觉场景分别具有基本相同的定向;
提供针对与捕获用户和接收方用户的设备之间的通信信道的开启,以实现其间的直接音频通信。
在一个或多个实施例中,基于通信信道的开启,该装置被使得提供一个或多个通信信道开启指示符的呈现,以向接收方用户和捕获用户中的一者或两者通知开启通信信道。
在一个或多个示例中,通信信道开启指示符包括以下中的一项或多项:
i)被提供给由接收方用户和捕获用户中的一者或两者可查看的相应显示器的图形指示符;
ii)被提供给对于接收方用户和捕获用户中的一个或两者可听的相应扬声器的听觉指示符;
iii)被提供给与接收方用户和捕获用户中的一者或两者相关联的相应触觉反馈模块的触觉指示符。
在一个或多个实施例中,捕获的空间音频内容包括来自多个可旋转空间音频捕获麦克风阵列的空间音频内容,每个阵列与多个捕获用户中的相应一个捕获用户相关联,多个捕获用户可选地位于相同场景,以及被呈现给接收方用户的听觉场景是由多个可旋转空间音频捕获麦克风阵列所捕获的听觉场景的组合,其中:
基于多个捕获用户中任一个捕获用户相对于场景的观看方向与接收方用户的当前用户观看方向在阈值内对准,当前用户观看方向包括当前方向,其中接收方用户相对于听觉场景在该当前方向上进行查看,使得所述一个捕获用户和接收方用户在他们面前听到相同的音频;
在多个捕获用户中的任何一个捕获用户与接收方用户之间提供通信信道的开启,以实现其间的直接音频通信。
在一个或多个实施例中,提供空间局部化音频效果还基于场景配置数据,该场景配置数据通过位于场景中的传感器而被捕获,并且表示至少在空间音频捕获麦克风阵列与场景中的一个或多个音频源之间的场景的物理配置,以指示空间音频捕获麦克风阵列是否具有一个或多个音频源的有遮挡或无遮挡的视图;并且其中;
装置被使得基于在空间音频被捕获时的参考方向、以及如果基于场景配置数据,一个或多个音频源是无遮挡的,来提供将第一空间局部化音频效果应用于捕获的经修改的空间音频的听觉场景的音频;以及
装置被使得基于在空间音频被捕获时的参考方向、以及如果基于场景配置数据,一个或多个音频源是有遮挡的,来提供将第二空间局部化音频效果应用于捕获的经修改的空间音频的听觉场景的音频,第二空间局部化音频效果与第一空间局部化音频效果不同。
在一个或多个实施例中,空间音频捕获麦克风阵列在场景中是可旋转的并且可平移的,使得阵列在所述场景中具有六个自由度,并且基于定义在空间音频内容捕获期间在场景中阵列的平移移动的捕获位置数据,该装置被使得生成经修改的空间音频内容,通过使用捕获的方向数据来修改听觉场景的定向,听觉场景从在捕获空间音频内容期间发生的可旋转空间音频捕获麦克风阵列的任何旋转被解耦,以用于相对于接收方用户所位于的空间来向接收方用户进行呈现。
在一个或多个实施例中,该装置被使得向接收方用户提供将经修改的空间音频内容的呈现作为空间音频。
在另外的方面,提供了一种方法,该方法包括:
基于由可旋转空间音频捕获麦克风阵列所捕获的捕获的空间音频内容,捕获的空间音频内容定义听觉场景,该听觉场景包括围绕空间音频捕获麦克风阵列场景的音频,该空间音频捕获麦克风阵列被定义使得场景中音频的三维布置可听地呈现给接收方用户,在音频捕获时,听觉场景的定向相对于在音频捕获时可旋转空间音频捕获麦克风阵列被定义,以及
基于捕获的方向数据,该捕获的方向数据与空间音频内容相关联,并且表示空间音频捕获麦克风阵列的参考方向在空间音频内容被捕获的时间内相对于所述场景的方向;
生成经修改的空间音频内容,其中通过使用捕获的方向数据来修改听觉场景的定向,听觉场景从在捕获空间音频内容期间发生的可旋转空间音频捕获麦克风阵列的任何旋转被解耦,以用于相对于接收方用户所位于的空间来向接收方用户进行呈现。
在另外的方面,提供了一种计算机可读介质,该计算机可读介质包括存储在其上的计算机程序代码,该计算机可读介质和计算机程序代码被配置为当在至少一个处理器上运行时,执行以下方法:
基于由可旋转空间音频捕获麦克风阵列所捕获的捕获的空间音频内容,捕获的空间音频内容定义听觉场景,该听觉场景包括围绕空间音频捕获麦克风阵列的场景的音频,该空间音频捕获麦克风阵列被定义使得场景中音频的三维布置可听地呈现给接收方用户的,听觉场景的定向相对于在音频捕获时可旋转空间音频捕获麦克风阵列被定义,以及
基于捕获的方向数据,该捕获的方向数据与空间音频内容相关联,并且表示空间音频捕获麦克风阵列的参考方向在空间音频内容被捕获的时间内相对于所述场景的方向;
生成经修改的空间音频内容,其中通过使用捕获的方向数据来修改听觉场景的定向,听觉场景从在捕获空间音频内容期间发生的可旋转空间音频捕获麦克风阵列的任何旋转被解耦,以用于相对于接收方用户所位于的空间来向接收方用户进行呈现。
在另外的方面,提供了一种装置,该装置包括配置为如下的部件:
使用由可旋转空间音频捕获麦克风阵列所捕获的捕获的空间音频内容,捕获的空间音频内容定义听觉场景,该听觉场景包括围绕空间音频捕获麦克风阵列的场景的音频,该空间音频捕获麦克风阵列被定义使得场景中音频的三维布置可听地呈现给接收方用户,在音频捕获时,听觉场景的定向相对于在音频捕获时可旋转空间音频捕获麦克风阵列被定义,以及
捕获的方向数据,该捕获的方向数据与空间音频内容相关联,并且表示空间音频捕获麦克风阵列的参考方向在空间音频内容被捕获的时间内相对于所述场景的方向;
以生成经修改的空间音频内容,其中通过使用捕获的方向数据来修改听觉场景的定向,听觉场景从在捕获空间音频内容期间发生的可旋转空间音频捕获麦克风阵列的任何旋转被解耦,以用于相对于接收方用户所位于的空间来向接收方用户进行呈现。
本公开包括单独或各种组合形式的一个或多个对应的方面,示例或特征,无论是否以该组合或单独的形式被具体陈述(包括要求保护)。用于执行一个或多个所讨论功能的对应部件和对应的功能单元(例如,功能使能器、空间音频呈现器、空间音频修改器、移动跟踪器、显示设备)也在本公开之内。
用于实现所公开的一种或多种方法的对应计算机程序也在本公开之内,并由一个或多个所描述的示例所涵盖。
上述发明内容旨在于仅仅示例而非限制。
附图说明
现在仅通过示例的方式参考附图进行描述,在附图中:
图1图示了用于提供由在捕获期间可以旋转的空间音频捕获麦克风阵列所捕获的空间音频的可听呈现的示例装置,以及用于生成与阵列的移动解耦的空间音频内容的示例装置;
图2示出了用于在捕获期间可以旋转的空间音频捕获麦克风阵列的空间音频呈现的问题的示例。
图3示出了装置可以如何被配置为基于捕获用户和接收方用户的移动来呈现空间音频的第一示例;
图4示出了装置可以如何被配置为基于捕获用户和接收方用户的移动来呈现空间音频的第二示例;
图5示出了空间音频的捕获和空间音频的呈现的数据流概述图。
图6示出了图示示例方法的流程图;以及
图7示出了计算机可读介质。
具体实施方式
虚拟现实(VR)可以使用包括头盔的VR显示器,诸如眼镜或护目镜或虚拟视网膜显示器,或围绕用户以向用户提供沉浸式虚拟体验的一个或多个显示屏幕。虚拟现实装置(可以包括或不包括VR显示器)可以向用户提供表示虚拟现实场景的多媒体VR内容的呈现,以模拟用户存在于虚拟现实场景内。相应地,在一个或多个示例中,VR装置可以向VR显示器提供信号传输以用于向用户显示VR内容,而在一个或多个其他示例中,VR装置可以是VR显示器的一部分,例如,头盔的一部分。因此,虚拟现实场景可以包括在三维虚拟现实空间内所显示的VR内容,使得用户感觉沉浸在场景中,就像其在场一样,并且可以环顾VR空间来注视其周围所显示的VR内容。在一个或多个示例中,VR装置可以向扬声器或耳机提供信令以用于呈现包括空间音频的VR内容。因此,虚拟现实场景可以包括可听地呈现的VR内容,使得用户感觉沉浸在音频场景中,就像其在场一样,并且可以环顾四周并且听到其周围呈现的音频。虚拟现实场景可以复制现实世界场景以模拟用户物理地存在于现实世界位置,或虚拟现实场景可以是计算机生成的,或是计算机生成及现实世界多媒体内容的组合。因此,VR内容可以被认为包括图像(例如,静态或视频图像)、音频和/或随附数据,虚拟现实场景可以从其被生成以用于显示。因此,VR装置可以通过生成在其中显示VR内容的虚拟三维VR空间来提供VR场景。虚拟现实场景可以由全景视频(诸如全景直播)提供,全景视频包括具有宽视野或360°视野(或更多,诸如水平定向的视野的上方和/或下方)的视频。全景视频可以具有宽的视野,因为其具有比用户的视野大的空间范围或具有比全景视频预计利用其将被显示的视野大的空间范围。
例如,被提供给用户的VR内容可以包括由VR内容捕获设备捕获的现实世界的实况画面的或所记录的画面。示例VR内容捕获设备包括诺基亚技术公司OZO设备。由于VR场景通常大于用户可以利用VR显示器观看的部分,因此VR装置可向用户提供VR场景的虚拟现实视图以用于在VR显示器上显示,该VR视图仅示出在任意一个时间可以观看的VR内容的空间部分。VR装置可以基于用户的头部和/或眼睛的移动来在VR场景中提供VR视图的环绕平移。VR内容捕获设备可以被配置为捕获VR内容以向一个或多个用户显示。VR内容捕获设备可以包括一个或多个相机以及包括一个或多个(诸如,方向性)麦克风(诸如麦克风阵列),其被配置为从捕获视点捕获周围的视觉和听觉场景。这样,音乐表演可以使用VR内容捕获设备被捕获(和记录),该VR内容捕获设备可以放置在舞台上,表演者在其周围移动,或从观众成员的视点被捕获。在每种情况下,VR内容的消费者可以能够使用VR装置的VR显示器环视四周,以便在捕获位置处体验表演,就好像他们在场一样。在一个或多个示例中,VR内容捕获设备的一个或多个相机可以是可选的,并且(多个)麦克风或麦克风阵列可以捕获场景的音频。
增强现实(AR)可以使用AR显示器(诸如眼镜或护目镜或虚拟视网膜显示器)以利用计算机生成的内容来增强现实世界的视场(诸如通过眼镜或护目镜所看到的)。增强现实装置(可以包括或可以不包括AR显示器)可以提供多媒体AR内容的呈现,该多媒体AR内容被配置为被重叠在用户的现实世界视场上。因此,增强现实的用户可以能够查看其周围的现实世界环境,该现实世界环境利用由增强现实装置所提供的内容被增强或补充,该内容可以被重叠在其现实世界视图上和/或在听觉上被重叠在其可以听见的听觉现实世界场景上。内容可以包括多媒体内容,诸如图片、照片、视频、示图、文本信息、听觉内容等。因此,尽管增强现实可以利用计算机生成的图形和/或音频内容的添加来提供对现实世界的直接观看,但是虚拟现实的用户实质上可以仅能够看到虚拟现实装置的VR显示器上所呈现的内容,而无法直接观看现实世界。
除了从VR内容捕获设备的(多个)麦克风接收的音频外,还可以提供每个都与不同音频源相关联的麦克风。在一个或多个示例中,VR内容捕获设备可以不具有麦克风,并且听觉场景可以由远离VR内容捕获设备的麦克风捕获。因此,麦克风可以在由VR内容捕获设备所捕获的现实世界场景内的一个或多个位置处提供,每个麦克风被配置为捕获来自不同音频源的音频。例如,使用音乐表演示例,音乐表演者或演示者可以具有个人麦克风,诸如特写或领夹式麦克风。每个不同音频源的位置的知识可以通过使用发射器/接收器或标识标签来获得,以跟踪在由VR内容捕获设备所捕获的场景中音频源诸如相对于VR内容捕获设备的位置。因此,VR内容可以包括由一个或多个VR内容捕获设备所捕获的视觉图像以及由一个或多个VR内容捕获设备以及可选地/备选地一个或多个另外的麦克风所捕获的音频。另外的麦克风的位置可以被提供以用于提供空间音频。
空间音频包括以这样的方式被呈现给用户的音频,即其被感知为起源于特定位置,就好像音频源位于该特定位置一样。因此,虚拟现实内容可以被提供有具有方向性的空间音频,使得音频被感知为源自VR空间中的点,其可以被关联到VR内容的图像。增强现实可以被提供空间音频,使得空间音频被感知为源自用户可见的现实世界对象和/或源自覆盖在用户视图上的增强现实图形。
空间音频可以独立于视觉虚拟现实或视觉增强现实内容来呈现。然而,在一些示例中,空间音频可以被认为是增强现实内容,因为其增强了用户感知的听觉场景。作为空间音频的独立呈现的示例,用户可以戴着耳机,并且当其探索现实世界时,其可以被呈现空间音频,使得音频好像起源于与现实世界对象或位置相关联的特定位置。例如,城市游览可以由跟踪用户在城市中的位置并且将描述兴趣点的音频呈现为空间音频的设备提供,使得音频好像起源于用户位置周围的兴趣点。作为另一示例,多方之间的电话会议可以被呈现为空间音频,使得每一方的语音(即音频)被感知为源自空间中的不同特定位置。作为另外的示例,两方之间的虚拟现实通信呼叫可以由第一用户佩戴的空间麦克风阵列捕获,并且被传输给第二用户的耳机设备。这样的虚拟现实通信呼叫可以是对称的,即,可以在两个方向上使用相同的设置,从而基于其他端处的捕获为两个用户提供虚拟现实的音频体验,或其可以是不对称的,即该体验可以仅被提供给用户中的一个用户,而其他方向可以是例如传统语音呼叫(单声道音频的一个声道)。针对虚拟现实通信呼叫,用户中的一者或两者可以被呈现空间音频,使得其以指向场景中音频源的对应感知方向来体验到其他用户所听到的音频场景。
空间音频的空间定位可以通过被呈现给多声道音频布置的每个声道的音频的角度以及3D音频效果被提供,诸如利用头部相关传递函数来创建音频可以被定位于其中以用于呈现给用户的空间音频空间的那些3D音频效果。空间音频可以通过使用头部相关传递函数(HRTF)过滤技术的耳机来呈现,或针对扬声器,通过使用矢量基振幅平移技术来定位音频内容的感知听觉源。耳机的位置可以被头部跟踪,使得用户头部的移动可以在空间音频的呈现中被考虑,使得音频从适当的方向被听到。
空间音频的捕获可以由空间音频捕获麦克风阵列提供,该空间音频捕获麦克风阵列可以在音频捕获期间自由旋转,诸如安装到“捕获用户”的耳机等的阵列。在其他示例中,空间音频捕获麦克风阵列可以被附接到吊杆或机械臂,其可以在捕获空间音频期间引起阵列的旋转。应当理解,对于可旋转空间音频捕获麦克风阵列,朝向来自场景的音频相对于阵列的方向将随着阵列的旋转而改变。当所述空间音频被呈现给接收方用户时,这可能导致在可能听到音频的方向上产生混淆的空间音频与可以被感知为随机变化(在捕获期间由阵列的旋转所引起)的空间音频。相应地,空间音频当从可旋转空间音频捕获麦克风阵列(诸如头戴式阵列)被捕获时,呈现空间音频可能是具有挑战性的。
所捕获的空间音频内容可以定义听觉场景,使得场景中的音频布置可以被捕获(作为听觉场景),并且然后被呈现以再现在该场景中的三维可听体验。因此,听觉场景可以被视为表示三维音频环境,在该三维音频环境中,音频被感知为在三维音频环境中从不同方向被听到。通常,由空间音频捕获麦克风阵列所捕获的捕获的空间音频包括围绕空间音频捕获麦克风阵列的场景的音频,该空间音频捕获麦克风阵列被定义为使得场景中音频的三维布置可听地呈现给接收方用户。
捕获的空间音频内容可以以许多不同的方式被捕获和/或编码。在一个或多个示例中,捕获的空间音频可以被认为包括由在音频场景中具有相关联的位置的音频对象所定义的听觉场景。音频对象可以表示正在被捕获的场景中的音频源,也可以是计算机生成的。相应地,当被呈现给用户时,音频对象的位置被用于绘制(render)空间音频,使得用户感知到音频对象在听觉场景中的布置。在一个或多个示例中,捕获的空间音频可以被认为包括使用立体声处理技术编码的听觉场景。立体声处理可以不定义从中听到音频的特定方向,但是可以被捕获,使得以捕获音频的方式来捕获表示音频的三维定位的信息。例如,立体声音频捕获使用包括多个麦克风振膜的“立体声麦克风”来完成。在一阶立体声情况下,麦克风被用于捕获四个信号W(全向)、X、Y和Z。例如,在通过扬声器阵列回放期间,从每个扬声器绘制的信号是上述信号的线性组合,其可以重现听觉场景。在一个或多个示例中,捕获的空间音频可以被认为包括通过空间音频编码定义的听觉场景。例如,场景的音频利用麦克风阵列被记录。针对每个预定的时间帧(例如10毫秒),麦克风信号被分割为多个频带。针对每个频带,方向(即,该频带处的声音的方向)被确定。因此,基于空间音频编码,音频与方向信息相关联。例如,在绘制期间,对应于不同频率的音频可以使用矢量基振幅平移(VBAP)从确定的方向被播放。
在一个或多个示例中,所捕获的空间音频内容的听觉场景可以被认为包括表示使用间隔开的麦克风的麦克风阵列102所获得的音频源的方向朝向/位置的信息。阵列102可以包括一个或多个麦克风(图1中未示出),诸如三个或更多个。可以使用空间音频捕获技术来处理由麦克风捕获的音频,以获得音频本身和指示从中捕获音频的方向的信息。例如,在不同的麦克风处对应的音频的接收之间的时序差异可以被用于得出捕获音频的方向。在其他示例中,场景中音频源的位置可以使用标签等被跟踪,相应地,朝向音频源的方向可以基于位置信息并且与来自音频源的音频相关联。如上所述,应当理解,可以使用用于捕获空间音频的其他技术。
通过定义或编码听觉场景的任何一种技术,接收方用户都可以听到听觉场景,该听觉场景根据音频和所述音频的感知的空间三维位置在听觉上复制了原始场景,就像用户处于空间音频内容被捕获时的原始场景中一样。
参考图1的示例,我们公开了一种装置101,其基于由场景103中的可旋转空间音频捕获麦克风阵列102所捕获的空间音频内容,来提供从空间音频内容生成经修改的空间音频内容可听呈现并且可选地提供经修改的空间音频内容的可听呈现,使得其中的听觉场景和音频(诸如音频源105)感知方向相对于空间106被定义或“固定”,在该空间106中,当空间音频被捕获时,无论可旋转空间音频捕获麦克风阵列102的任何旋转,听到经修改的内容的“接收方”用户107都存在。因此,为了进一步解释,空间音频内容可以包括场景103的音频,在图1的示例中,该场景103包含至少一个音频源104。空间音频被捕获以定义在场景中包括音频的三维布置的听觉场景。场景中的音频。因此,场景的音频,尤其是来自至少一个音频源104的音频,可以以从其捕获的方向被呈现。应当理解,定义了听觉场景的捕获的空间音频可以使用空间音频呈现技术(例如,HRTF、VBA)被呈现给接收方用户,以在空间106中的场景103中再现听觉体验。
空间音频捕获麦克风阵列102可以被用于捕获所述空间音频以定义场景103中的听觉场景。应当理解,听觉场景中的音频移动可以由场景103中的音频源的物理移动以及音频麦克风捕获阵列102的移动所引起。
然后捕获的空间音频可以被提供以用于经修改的空间音频内容的生成。经修改的空间音频内容的生成需要捕获的方向数据。当空间音频被捕获时,捕获的方向数据可以被认为表示空间音频麦克风捕获阵列102的旋转(以及可选地总体上的移动)。
经修改的空间音频内容可以根据由捕获的方向数据修改的听觉场景而被提供给接收方用户107以用于可听呈现。相应地,根据由听觉场景定义的由捕获的方向数据所修改的三维布置,至少一个音频源104的音频被感知为源自空间106中的特定方向(即,朝向音频源105的表示)。
因此,装置101还可以与空间音频内容一起接收捕获的方向数据。捕获的方向数据表示在所述空间音频内容被捕获期间的时间内,所述空间音频捕获麦克风阵列102的参考方向108相对于场景103的方向。参考方向108可以被用作对在捕获期间表征阵列102的旋转的参考,并且因此可以包括相对于阵列固定的任何方向。在该示例中,参考方向108被示为直线方向。因此,捕获的方向数据可以被认为指示阵列102在捕获空间音频时,其在场景103中指向的方向。因此,捕获的方向数据可以使用全局坐标系来表示相对于地球或局部地相对于场景103中标识的一个或多个固定标记点的旋转。捕获的方向数据允许在由听觉场景定义的场景中音频的三维布置,允许相对于阵列102定义的听觉场景的定向在捕获期间与阵列102的任何旋转解耦。因此,经修改的空间音频可以被呈现给接收方用户107,而不会出现在捕获期间由阵列102的旋转所引起的空间音频定向的不稳定变化。
在该示例中,空间音频捕获麦克风阵列102由于其被安装在捕获用户114的头部上并且尤其是被安装到捕获用户114的耳机115而可旋转。通常,空间音频捕获麦克风阵列102包括捕获用户114使用的设备。阵列102可以是捕获用户使用的设备的一部分,并且可以是提供耳机115的同一设备的一部分。因此,当捕获用户114环顾场景103周围时,阵列102将至少旋转。应当理解,捕获用户103也可以在场景103周围移动,并且这种运动可以包括平移运动。在捕获空间音频期间,捕获用户的头部或身体的旋转和/或场景中的平移运动可以由传感器跟踪,并且被提供给装置101、150作为捕获的方向数据。传感器可以是包括阵列102和/或耳机115的设备的一部分,或可以与其分离。在该示例中,所述空间音频捕获麦克风阵列102相对于场景103的参考方向108包括位于所述场景103中的用户114的观看方向。应当理解,参考方向108不必与捕获用户114的观看方向对准。捕获用户114的观看方向。然而,考虑到捕获用户114的观看方向是在实现向接收方用户107呈现空间音频中的功能时要知道的理想信息,因此方便进行对应。应当理解,在一些实施例中,参考方向108与捕获用户114的观看方向之间的偏移的知识也可以被用于从捕获的方向数据中确定捕获用户的观看方向。
装置101和/或装置150(稍后描述)可以包括或被连接到处理器101A、150A和存储器101B和150B,该处理器101A、150A和存储器101B和150B被配置为执行计算机程序代码。装置101和/或装置150可以仅具有一个处理器101A、150A和一个存储器101B、150B,但是应当理解,其他实施例可以利用多于一个处理器和/或多于一个存储器(例如相同或不同的处理器/存储器类型)。此外,装置101、150可以是专用集成电路(ASIC)。应当理解,就其硬件配置而言,装置101和150彼此独立。
处理器101A、150A可以是通用处理器,其专用于根据在存储器中以计算机程序代码的形式存储的指令来执行/处理从其他组件(诸如从内容存储库110和相应装置101/150)接收的信息。由处理器的此类操作生成的输出的信号传输被向前提供给另外的组件,诸如VR显示设备,诸如接收方用户107的耳机111,或从装置150到装置101。
存储器101B、150B(不必是单个存储器单元)是存储计算机程序的计算机可读介质(在该示例中为固态存储器,但可以是诸如硬盘驱动器、ROM、RAM、闪存等的其他类型的存储器)。计算机程序代码存储指令,当程序代码在处理器上运行时,该指令能够由处理器执行。在一个或多个示例实施例中,存储器和处理器之间的内部连接可以被理解为在处理器和存储器之间提供有源耦合,以允许处理器访问被存储在存储器上的计算机程序代码。
在该示例中,相应处理器和存储器在内部彼此电连接以实现各个组件之间的电通信。在该示例中,组件都位于彼此相邻的位置,以便共同组成为ASIC,换言之,以便共同集成为可以被安装到电子设备中的单个芯片/电路。在一些示例中,组件中的一个或多个或全部可以位于彼此分离的位置。
如以上简要描述的,图1的示例示出了由场景103中的空间音频捕获麦克风阵列102对空间音频内容的捕获。空间音频内容可以被存储在内容存储库110中,使得其可以在稍后的时间被呈现给接收方用户107,以重新产生空间106中的场景103的音频。应当理解,为简单起见,在图1中示出了装置101与内容存储库110之间的直接连接的表示,并且空间音频内容可以通过网络或任何数目的其他内容存储库或服务器(未示出)在去往装置101的途中传递。在一个或多个示例中,当空间音频内容被捕获时,其被实况地呈现给接收方用户107,例如,提供以用于在捕获到接收方用户107之后立即或瞬间显示,以节省任何处理或传输时延。相应地,在一个或多个示例中,内容存储库110可以表示在空间音频被传递到装置101之前,空间音频的瞬态存储,诸如在缓冲区处。空间音频内容可以与场景103的捕获的视觉内容相关联,诸如增强现实内容或虚拟现实内容,以用于适当地作为增强现实或虚拟现实呈现给接收方用户。
在该示例中,装置101形成用于经由耳机111至少呈现空间音频内容的增强现实装置112的一部分。在一个或多个其他示例中,装置101可以形成VR装置的一部分。在一个或多个示例中,装置100可以独立于AR或VR装置,并且可以与AR或VR装置通信以用于提供空间音频的呈现。在该示例中,处理器101A和存储器101B由AR装置112和装置101共享,但是在其他示例中,它们可以具有其自己的处理器和/或存储器。增强现实装置可以利用空间音频以及可选地利用经由诸如AR眼镜(未示出)的AR视觉呈现设备所呈现的一个或多个图形来增强用户对空间106的理解。
装置101和/或AR装置112可以被配置为利用空间音频呈现技术向用户的耳机111呈现空间音频。装置101和/或AR装置112可以从头部跟踪器113接收接收方用户头部跟踪信息。头部跟踪器可以被配置为确定接收方用户的头部相对于空间106的定向。头部跟踪信息可以被用于通过装置101和/或AR装置112,来修改空间音频的呈现或将修改应用于HRTF或VBA,以考虑接收方用户107的头部移动,使得听觉场景的定向保持相对于空间106定向,而不管接收方用户107的头部移动。
图2的示例示出了针对来自在捕获期间可以旋转的麦克风阵列102的捕获的空间音频的空间音频的呈现问题。图2示出了如果装置101不被用于生成经修改的空间音频内容的情形。
图2的示例呈现了捕获用户114戴着其上安装了空间音频捕获麦克风阵列102的耳机115,类似于图1中所示。阵列102包括头部跟踪能力,或者这种能力可以由位于与阵列102一起或与阵列102分离或远离阵列102的不同模块提供。阵列102可以包括至少三个麦克风201、202、203,它们以捕获场景103的空间音频的方式被间隔或放置,尽管不同的设置或不同数目的麦克风可以被提供。在一个或多个示例中,第四麦克风可以提供根据方位角和仰角确定到音频源的方向。
尽管这些示例(包括确实使用装置101的示例)将捕获用户114及其阵列102本质上描述为接收方用户107的空间音频内容的创建方,但它们也可以自己消费第二空间音频内容,诸如来自另一用户,诸如接收方用户107。在这样的示例中,用户107、114都可以捕获空间音频内容以用于相互呈现。并入装置101和用于向一个或两个用户呈现空间音频内容的装置的系统100(图1中所示)可以被认为是基于空间音频的单向或双向通信系统。
在图2中标记为(a)的部分中,阵列102正在捕获场景103的空间音频。在此示例中,为简单起见,场景103包括一个音频源104,因此,捕获的空间音频内容的听觉场景表示来自音频源104的音频及其在场景中的布置、方向或位置(取决于听觉场景如何被定义或编码)。相应地,听觉场景能够表示来自音频源104的音频及其在场景中(即方向200)的布置。为了易于理解,音频源104的音频被描述为好像其与场景103中的方向相关联,尽管如上所述,但应当理解,听觉场景可以以不同的方式被定义,而无需明确说明指向音频源的方向。在此示例中,当参考方向108与方向200对准时,音频源104被给定方向为0度。
关于接收方用户107,其被呈现有空间音频内容以复制在场景103中经历的音频。当最初向接收方用户107呈现空间音频内容时,听觉场景的初始定向,即,在空间音频中呈现的音频源相对于接收方用户107的位置在一些实施例中可以被任意选择。然而,在该示例中,捕获用户114相对于音频源的观看方向被用于初始地定向听觉场景以用于呈现给接收方用户106,使得接收方用户被呈现来自同一方向(例如,在其前面)来自音频源104的音频。换言之,在与呈现给接收方用户107的空间音频内容的时间开始相对应的捕获期间的时间点处,捕获用户的观看方向被用于相对于接收方用户107的观看方向初始地定向听觉场景。相应地,捕获用户114和接收方用户107至少最初在分别相对于场景103中的音频和由听觉场景表示的音频的相同方向上看。
在一个或多个示例中,捕获用户和接收方用户中的一者或两者可以提供对听觉场景的初始定向的设置或定向的后续修改。
图2的部分(a)示出了场景103中的音频源104,其恰好在捕获用户114的前面。同样,音频源105在呈现给接收方用户107的空间音频内容中的表示也被感知为源自接收方用户107前面的位置。
图2的部分(b)示出了在捕获用户114将其头部向右转的情况下,如果经修改的空间音频内容未被生成,则对空间音频内容的影响。在这种情况下,朝向音频源104的方向200现在位于参考方向108的左侧90度。在捕获的空间音频内容中定义的听觉场景的定向由于捕获用户头部的移动而偏移了90度。在不具有装置101的情况下,这可能对被呈现给接收方用户107的空间音频产生混乱的影响。因此,如图2的(b)所示,当收听空间音频内容时,朝向音频源105的表示的感知方向201相对于接收方用户的头部向左摆动。就接收方用户而言,并且取决于捕获用户的运动频率和程度,作为空间音频呈现给其的听觉场景可能出现混乱,因为捕获用户在捕获空间音频内容期间碰巧旋转了其头部。例如,接收方用户可能发现很难区分声源104的移动和捕获阵列102的旋转。
图2的部分(c)示出了基于来自头部跟踪器113(图1中所示)的信息的装置101或AR装置112的功能。如上所述,头部跟踪器113确定接收方用户107的移动,特别是确定其头部的定向。利用该头部跟踪信息,听觉场景的定向可以被修改,使得听觉场景相对于空间106是静止的。因此,如部分(c)所示,在捕获时捕获用户没有任何移动的情况下,当接收方用户的头部向左移动时,朝向音频源105的表示的感知方向被配置为保持在空间106中的相同位置。装置101或AR设备112对空间音频内容的呈现以通过各种方式来实现:空间音频内容的修改、基于头部跟踪信息的感知方向修改功能的应用或对HRTF或VBA技术的修改,如本领域技术人员应当理解的。这种技术对于空间音频的表示可能是典型的。综合考虑捕获用户114(如图2的部分(b)所示)和接收方用户107(如图2的部分(c)所示)的各种头部旋转,针对接收方用户107来说,理解似乎补偿其自身旋转的空间音频绘制在有时似乎无法补偿其时变得越来越混乱,并且此外有时由于捕获用户的头部移动而变化非常迅速。
图3示出了装置101的操作的第一示例,在图2中未提供该示例。
图3的部分(a)与图2的部分(a)相同。空间音频麦克风阵列102正在捕获场景103的空间音频。在此示例中,场景103包括一个音频源104,因此捕获的空间音频内容的听觉场景表示来自音频源104的音频及其在场景中的布置、方向或位置(取决于听觉场景如何被定义或编码)。因此,听觉场景能够表示来自音频源104的音频及其在场景中的布置,即在方向200上。在该示例中,听觉场景被编码,以在0度方向200上表示来自音频源104的音频。
装置101或AR装置112可以被配置为生成并且呈现经修改的空间音频内容,使得听觉场景的定向以及因此呈现给接收方用户107的音频源105的表示也被感知为源自接收方用户107前面的位置。
捕获方向信息不指示参考方向108的任何旋转或移动,因此,当生成经修改的空间音频内容并将其呈现给接收方用户107时,不需要修改。针对记录的空间音频内容,应当理解,装置被配置为基于在其向接收方用户呈现期间的经过时间,即在相对于空间音频内容的等效时间,在通过空间音频内容的等效经过时间点考虑捕获方向信息。针对被捕获并直接呈现给接收方用户107的实况空间音频内容(取决于处理和传输延时),捕获方向信息基本上对应于阵列102的当前定向。
图3的部分(b)示出了装置101在向接收方用户107呈现空间音频内容时考虑捕获方向信息的操作。在部分(b)中,捕获用户114向右转头。在这种情况下,朝向音频源104的方向200现在位于参考方向108的左侧90度。
然而,装置101被配置为提供经修改的空间音频内容的可听呈现,使得对于至少一个音频源105的表示的感知方向301相对于空间106而被定义或“固定”。相应地,被呈现给接收方用户107的听觉场景是稳定的,而与空间音频被捕获时阵列102的旋转无关。装置101因此可以提供技术效果,即相对于空间106朝向音频源105的表示的方向301与捕获用户的移动解耦。
因此,捕获用户的头部的旋转可以通过在捕获的方向数据中的特定时间沿参考方向108的方向的+90度偏移来表示。装置101可以被配置为当向接收方用户107提供经修改的空间音频内容的生成和呈现时,通过对听觉场景的定向施加+90度的偏移来生成经修改的空间音频内容。由装置101或AR装置112在装置101的指令下提供的经修改的空间音频内容的呈现可以以各种方式实现该偏移。例如,装置可以通过以下来非排他地提供对由空间音频内容中的听觉场景表示的音频源的方向的修改:通过应用基于捕获的方向数据的感知方向修改功能来修改在处理空间音频内容以用于呈现时如何呈现空间音频的方向;或通过修改HRTF或VBA空间音频呈现技术的参数。
图3的部分(c)图示了基于来自头部跟踪器113的信息的装置101或AR装置112的相同功能,如图2中的部分(c)所示。如上所述,头部跟踪器113确定接收方用户107的移动,特别是确定其头部的定向。利用该头部跟踪信息,听觉场景的定向可以被修改,使得朝向音频源的表示的方向以与头部跟踪信息中指示的接收方用户107的至少旋转移动相同或相反的方向移动。这具有以下效果:听觉场景被感知为相对于空间106是静止的。因此,在向接收方用户提供空间音频的呈现时,装置101可以补偿阵列102在捕获空间音频内容期间的旋转(或更一般地移动),以及补偿接收方用户在被呈现所述空间音频内容时的旋转(或更一般地移动)。
相应地,如部分(c)中所示,在捕获时捕获用户没有任何移动的情况下,在接收方用户的头部向其左侧移动时,朝向音频源105的表示的感知方向可以由装置101修改,以保持在空间106中的相同位置。装置101或AR装置112对空间音频内容的呈现可以以各种方式被实现:空间音频内容的修改、基于头部跟踪信息的感知方向修改功能的应用或对HRTF或VBA技术的修改,如本领域技术人员应当理解的。
图4的示例示出了装置101可以如何被配置为基于捕获用户114(或更一般地,阵列102)的移动和/或接收方用户107的移动来呈现经修改的空间音频的第二示例。
图4图示了基于空间音频捕获阵列的定向并且特别是基于捕获用户114的观看方向来提供听觉聚焦的示例方式。聚焦可以通过使用空间局部化音频效果来实现。这可以被用于向接收方用户107指示在场景103中的何处,并且例如,当空间音频内容被捕获时,捕获用户114正朝向哪个音频源。空间局部化音频效果可以被应用于与聚焦方向相关联的经修改的空间音频内容的听觉场景的音频的子集。聚焦方向可以基于的是捕获用户在空间音频内容被捕获时所看的方向,因此可以等同于参考方向108。聚焦方向可以包括狭窄的特定方向或较宽较大范围的方向,诸如连续范围的方向。空间局部化音频效果在特定方向上被应用于声音场景的特定区域的音频,还是被应用于来自特定音频源的音频,可以取决于空间音频内容是如何被构造和/或由听觉场景提供的详细程度(如记录在空间音频内容中的)。例如,在立体声表示的情况下,如本领域技术人员应当理解的,高阶立体声(HOA)的次序将确定用户感知的空间方向性的准确性。
图4的部分(a)中图示了包含第一音频源401和第二音频源402的场景103。场景103的音频被空间音频捕获麦克风阵列102捕获为空间音频,该空间音频捕获麦克风阵列102再次被头部安装在捕获用户114上。阵列102的参考方向108与用户的观看方向403对准或具有已知关系。因此,通过捕获的方向数据,装置101知道捕获用户114的观看方向。
在场景103中,第一和第二音频源401的响度基本上类似于具有两个“杠”的声波图标403、404所示。现在看正在被呈现经修改的空间音频内容以再现场景103的音频的接收方用户107,第一音频源405的表示被呈现为具有特定的响度,由“双杠”图标406所示。然鹅,由于装置101基于捕获的方向数据已知捕获用户114的观看方向朝向第二音频源407,所以第二音频源407被呈现为具有较大响度,由“三杠”图标表示。因此,表示捕获用户114在相对于空间音频内容的等效经过时间的聚焦或观看方向的信息可以使用空间局部化音频效果而被传送给接收方用户107。如果空间音频内容被实况呈现,则空间局部化音频效果指示捕获用户114的当前聚焦或观看方向。
相应地,装置101可以被使得基于在空间音频被捕获时的参考方向,来将空间局部化音频效果应用于经修改的空间音频内容的音频的空间定义选择。
局部化音频效果可以被配置为引起接收方用户107对捕获用户114所聚焦的音频源的关注。在一个或多个示例中,局部化音频效果被配置为引起以下中的一项或多项:(相对于呈现给接收方用户107的音频的其余部分的音频的空间定义的选择的)
i)响度增加;
ii)改变一个或多个频率分量的响度;和
iii)修改一个或多个频率分量的频率;
局部化音频效果可以是以下示例中的任何示例,或不同的其他示例。在一个或多个示例中,可通过应用空间局部化音频效果来增加或减小局部化区域中音频的低音、中音或高音。在一个或多个示例中,可通过应用空间局部化音频效果来增大或减小局部化区域中的音频的音调。随时间变化的局部化音频效果可以被应用,其可以包括脉冲效应或在局部化区域中音频在时间上连续或不连续的变化。
相对于部分(a),图4部分(b)示出了捕获用户的定向变化。与图3(b)类似,图4的部分(b)示出了在向接收方用户107提供听觉场景的呈现时,捕获用户114的头部从聚焦于第二音频源402旋转到聚焦于第一音频源401如何由装置101通过生成经修改的空间音频内容来补偿。因此,第二音频源407的表示被呈现,使得其被感知为保持在接收方用户107的前方,并且第一音频源405的表示被呈现,使得其被感知为保持在接收方用户107的右边。
然而,在图4(b)中,基于在空间音频的捕获期间阵列的参考方向108的变化,在该头戴式阵列102的实施例中,该变化指示捕获用户114的观看方向的变化,装置可以被配置为根据参考方向的变化来提供对应用于经修改的空间音频内容的局部化音频效果的重新定位。因此,局部化音频效果从第二音频源407的表示中被移除,并且被应用于第一音频源405的表示的音频。相应地,与来自音频源401、402的音频的响度的任何变化无关,声波图标408图示了来自第二音频源407的表示的音频的响度降低,并且声波图标406图示了借助于局部化音频效果的重新定位,来自第一音频源405的表示的音频的响度增加。因此,使用基于阵列的参考方向的局部化音频效果,特别是,捕获用户114(其音频场景被捕获的用户)的观看方向可以基于捕获用户的动作向接收方用户107提供在听觉场景中可能感兴趣的内容的方便和直观指示。如果AR装置112(或在一些实施例中的VR装置)被配置为示出视觉图像以及空间音频内容,则由装置101提供的局部化音频效果可以向接收方用户114提供听觉提示以在其可能看到并听到一些有趣的东西的同时,向局部化音频效果被应用的方向看。
图4的部分(c)示出了基于来自如图3的部分(c)所示的头部跟踪器113的信息的装置101或AR装置112的相同功能。如上所述,头部跟踪器113确定接收方用户107的移动,特别是其头部的定向。利用该头部跟踪信息,听觉场景的定向可以被修改,使得朝向音频源的表示的方向头部以跟踪信息中所指示的接收方用户107的至少旋转移动相同或相反的方向移动。这具有这样的效果,即听觉场景被感知为相对于空间106是静止的。
在一个或多个示例中,空间局部化音频效果的应用可以基于所捕获的方向数据(表示捕获用户114的移动)和头部跟踪信息(表示接收方用户107的移动)。如上所述,局部化音频效果可以具有以下效应:将接收方用户107的注意力吸引到当空间音频内容被捕获时由捕获用户观看的“相同”音频源(或者更一般地说,听觉场景的空间定义部分)。然而,如果接收方用户已经在寻找相同的音频源,则在一些示例中,可以无需提供局部化空间音频效果的应用。因此,装置101可以被配置为基于参考方向数据中指示的方向但仅当头部跟踪信息指示接收方用户不在相对于听觉场景的对应方向上看时,才应用空间局部化音频效果。
因此,在一个或多个实施例中,提供空间局部化音频效果进一步基于在参考方向(在捕获的方向数据中定义)与接收方用户107的当前用户观看方向(例如,在头部跟踪信息中定义)之间存在不高于未对准阈值的未对准。当前的用户观看方向包括接收方用户相对于听觉场景所观看的方向,并且在一些示例中,可以包括相对于作为空间音频呈现给其的至少一个音频源(即音频源405、407)的位置的方向。未对准阈值可以在空间音频被捕获以用于应用或不应用局部化音频效果时,控制接收方用户的观看方向需要与捕获用户的观看方向如何接近。未对准阈值可以例如小于2度、5度、10度、15度、20度、40度、45度、50度、60度。在一个或多个示例中,未对准阈值可以根据接收方用户的当前视野的宽度来定义,使得如果捕获用户聚焦的音频源位于接收方用户的当前视野内,则空间局部化音频效果不被应用,但是如果其在接收方用户的当前视野之外,则空间局部化音频效果被应用。
在一个或多个示例中,提供空间局部化音频效果进一步基于场景的物理配置。例如,虽然由麦克风阵列102捕获的空间音频可以具有来自场景中存在的音频源的音频,但是这可能不表示捕获用户实际可见的音频源(或在阵列的参考方向上)。例如,墙壁可能会挡住音频源的视场(view),但音频仍可以被捕获。相应地,装置101可以基于场景配置数据,来提供针对麦克风阵列(或捕获用户)是否具有至少一个音频源的有遮挡或无遮挡视场的确定,并且:
i)如果视场无遮挡,则基于在空间音频被捕获时的参考方向,来将第一空间局部化音频效果应用于区域中听觉场景的音频;以及
ii)如果视场有遮挡,则基于在空间音频被捕获时的参考方向,来将第二空间局部化音频效果应用于区域中听觉场景的音频,第二空间局部化音频效果与第一空间局部化音频效果不同。
因此,第一空间局部化音频效果和第二空间局部化音频效果可以为接收方用户提供听觉指示符。因此,接收方用户可以被提供有听觉指示,该听觉指示关于捕获用户正在/过去正在看的位置以及其在其正在看的方向上对音频源的视场是否有遮挡。应当理解,第一空间局部化音频效果和第二空间局部化音频效果中的一项可能对音频没有影响,而另一项影响音频,以提供区别。
相应地,当捕获用户和接收方用户的观看方向相同时,所应用的空间局部化音频效果可能不同,这具体取决于场景的配置,尤其是对捕获用户的音频源的视图是否存在遮挡。
场景配置数据可以与空间音频内相关联,诸如包括元数据。场景配置数据可以由位于场景中的传感器捕获。传感器可以包括相机或房间几何映射设备。来自传感器的信息可以与捕获用户的视点的位置以及可选地音频源的位置一起使用,以确定哪些音频源对于捕获用户可见。因此,场景配置数据至少在捕获用户和场景中的每个音频源之间表示场景的物理配置,以指示捕获用户对至少一个音频源的观看是否是有遮挡的。
在以下一个或多个方面,第二空间局部化音频效果可以与第一空间局部化音频效果不同:
i)被应用于局部化区域中的音频的音量差异相对于局部化区域之外的音频的差异;
ii)在提供修改一个或多个频率分量的响度的效应方面,应用于局部化区域中的音频的响度或频率分量相对于局部化区域之外的音频的差异;以及
iii)在提供修改一个或多个频率分量的频率的效应方面,被应用于局部化区域中的音频的频率修改相对于局部化区域之外的音频的差异。
在一个或多个示例中,可能希望向捕获用户102和接收方用户中的一者或二者提供以下指示,即在空间音频内容被捕获时,接收方用户107相对于听觉场景的方向与捕获用户相同。更一般地,当接收方用户相对于听觉场景在与当空间音频被捕获时的阵列的参考方向相同的方向上观看时,装置101可以提供指示。例如,当从捕获用户向接收方用户实况提供空间音频捕获时,该指示可以通知一个或两个用户其正在相对于听觉场景在同一方向上看。如果装置形成通信系统的一部分,该通信系统被配置为在捕获用户所使用的设备与接收方用户所使用的设备之间提供通信链路,则这可能是有用的。因此,装置可以被配置为基于捕获到的方向数据,该方向数据可以指示接收方用户通过参考方向看的位置,并且当前用户观看方向包括接收方用户相对于呈现给其听觉场景看的当前方向,以及当参考方向当前与当前用户观看方向在阈值距离内对准时,向接收方用户和/或捕获用户提供观看方向对准指示符的呈现。
观看方向对准指示符的呈现可以包括图形的、可听的或触觉的指示,指示接收方用户在观看空间音频内容时以与当空间音频内容被捕获时的空间音频麦克风指令的参考方向相同的方向上看。装置101可以向AR装置112提供信令以在提供给接收方用户107的增强现实视图中显示图形观看方向对准指示符。在其他示例中,装置101可以与VR装置相关联,并且装置101可以向VR装置112提供信令以显示覆盖在提供给接收方用户107的虚拟现实视图中的图形观看方向对准指示符。在一些示例中,装置101可以使用捕获用户114所使用的AR或VR装置(未示出)来提供信令以使观看方向对准指示符呈现给捕获用户114。图形观看方向对准指示符可以包括图标、动画或对已经呈现给一个或两个用户的一个或多个图形的颜色或形状的修改。
在一个或多个示例中,特别是当空间音频内容被实况呈现给接收方用户时,接收方用户107相对于听觉场景朝与捕获用户114相同方向看时的标识可以被用于各种功能。“相同方向”可以被确定为阈值内的共同观看方向,诸如在完全相同方向的少许度(例如5度、10度、15度、20度、30度、45度)之内。
在一个或多个示例中,装置101可以使用捕获的方向数据来确定所述空间音频捕获麦克风阵列102相对于场景103的参考方向,该参考方向可以包括位于所述场景中的捕获用户的观看方向。装置101可以从头部跟踪信息确定接收方用户107的当前用户观看方向。如果捕获用户114相对于场景的观看方向与接收方用户相对于听觉场景的当前用户观看方向在阈值内对准,该装置可以推断出捕获用户114和接收方用户107在相对于相同音频的位置在相同方向上看,例如相对于场景103的音频并且如由听觉场景所表示。基于满足这样的条件,装置101可以被配置为提供捕获用户和接收方用户之间的通信信道的开启,以实现其间直接音频通信。因此,装置可以被配置为提供信令,该信令至少实现从捕获用户114到接收方用户107的音频通信,反之亦然。捕获用户114和接收方用户107可以被提供有麦克风和耳机/扬声器,以实现所述通信。因此,如果捕获用户和接收方用户分别相对于其周围的场景或呈现给其的听觉场景在相同的方向上看,则装置101可以打开通信信道。
装置可以提供与阵列分离的通信麦克风和分离的信道,以用于提供从用户到用户的语音通信。例如,装置可以被配置为从空间音频内容中移除用户的语音,并且仅将来自通信麦克风的语音音频提供给其他用户。
可以向用户107、114中的一项或二者指示通信信道的开启。装置101可以被使得提供一个或多个通信信道开启指示符的呈现,以向接收方用户和捕获用户中的一个或两者通知打开通信信道。
通信信道开启指示符可以包括提供给相应的显示器的图形指示符,该图形指示符由接收方用户和捕获用户中的一个或两者可查看,诸如图标、动画或对已经呈现的一个或多个图形的颜色或形状的修改。在一个或多个示例中,通信信道开启指示符包括听觉指示符,诸如音调、声音效果或对已经呈现给用户的音频的修改。在一个或多个示例中,通信信道开启指示符包括触觉指示符,诸如(多个)振动脉冲,其被提供给相应的触觉反馈模块,诸如用户的移动电话或AR/VR装置的一部分。
当考虑将装置101用作通信系统时,在一个或多个示例中,可能存在多个捕获用户可用于与接收方用户进行通信。因此,经修改的空间音频内容可以包括来自多个可旋转空间音频捕获麦克风阵列的经修改的空间音频内容,每个阵列与多个捕获用户中的相应一个捕获用户相关联。多个捕获用户可以位于或可以不位于同一场景中。呈现给接收方用户107的空间音频内容可以包括由捕获用户阵列中的一个捕获用户阵列所捕获的空间音频,或可以包括由多个或所有捕获用户阵列所捕获的来自场景103的音频的混合。
装置101可以被使得基于多个捕获用户中的任何一个捕获用户相对于听觉场景的观看方向,与接收方用户的当前用户观看方向在阈值内对准,来提供以用于在所述多个捕获用户中的任个捕获用户与接收方用户之间打开通信信道,以实现其间的音频通信。因此,接收方用户相对于其被呈现的听觉场景的观看方向与相对于一个或多个用户的场景的音频的参考方向的对准提供了那些用户之间的通信。观看方向的对准因此可以充当选择器,以用于确定接收方用户与捕获用户中的哪个捕获用户在双向的基础上进行通信。装置可以在接收方用户和多个捕获用户之间提供类似于音频会议的同时双向通信。
上面描述的实施例主要但非排他地考虑了如下情形:接收方用户107被呈现经修改的空间音频内容,其中听觉场景基于接收方用户在三个自由度上的旋转移动而被重新定位。因此,出听觉场景的定向被呈现以补偿接收方用户围绕固定视点的旋转。然而,本文公开的原理也适用于具有六个自由度并且可以旋转并且还可以围绕空间106移动的接收方用户。接收方用户围绕空间106的移动可以由控制器提供以相对于听觉场景虚拟地移动。接收方用户围绕空间的移动可以包括围绕空间的可以被跟踪的物理移动。基于接收方用户关于空间的物理上或虚拟上的平移,装置可以提供对听觉场景的修改,并因此考虑到新的收听位置,从而提供对感知音频源自的方向的修改。
在一个或多个示例中,空间音频捕获麦克风阵列在场景中可以是可旋转的并且可平移的,使得该阵列在所述场景中具有六个自由度。类似于在捕获空间音频时阵列的旋转,阵列的平移还可能使接收方用户引起困惑,因为其将听到移动的听觉场景。因此,装置101可以在空间音频内容的捕获期间接收表示麦克风阵列围绕场景的至少平移移动的捕获位置数据。捕获的方向数据可以与捕获位置数据合并。
使装置101可以被使得向接收方用户提供经修改的空间音频内容的生成以及可选地可听呈现来作为空间音频。经修改的空间音频内容具有听觉场景,该听觉场景与在空间音频内容的捕获期间发生的阵列的平移移动的发生和阵列空间的旋转的发生解耦,以用于相对于空间呈现给接收方用户,在该空间中接收方用户使用捕获的位置数据和捕获的方向数据、借助于修改听觉场景的位置和听觉场景的定向而被定位。因此,基于在空间音频内容的捕获期间定义场景中阵列的平移移动的捕获位置数据,装置提供了空间音频的呈现,使得相对于接收方用户所位于的空间来定义/呈现听觉场景,而与所述麦克风阵列在捕获空间音频时的任何平移运动无关。
在以上示例中,装置101位于与接收方用户用来体验空间音频内容的设备的装置一起。因此,在创建经修改的空间音频内容时,听觉场景与麦克风阵列102的运动解耦,然后其被提供以用于呈现给接收方用户。然而,在一个或多个示例中,并且参考图1,捕获的空间音频内容可以被预处理以生成经修改的空间音频内容,其随后可以被提供给AR装置或其他空间音频呈现装置。装置150可以被配置为生成经修改的空间音频内容,而不是生成并且呈现,其中至少在经修改的空间音频内容中定义的听觉场景的定向被修改,使得听觉场景与阵列的移动解耦,诸如通过相对于独立于可旋转空间音频内容捕获麦克风阵列的坐标系来定义,其可以受制于旋转和/或平移。
相应地,装置150可以被配置为接收定义有听觉场景的捕获的空间音频内容,该听觉场景包括围绕空间音频捕获麦克风阵列的场景的音频,该空间音频捕获麦克风阵列被定义为使得场景中音频的三维布置可听地呈现给接收方用户的,听觉场景的定向相对于在音频捕获时可旋转空间音频捕获麦克风阵列而被定义。此外,捕获的空间音频内容可以包括捕获的方向数据,捕获的方向数据表示在所述空间音频内容被捕获期间的时间内所述空间音频捕获麦克风阵列的参考方向相对于场景的方向。应当理解,鉴于相对于麦克风阵列定义了听觉场景的定向,并且利用捕获的方向数据,该潜在的时变定向可以被转换为相对于场景定义的方向,或者以其他方式与空间音频捕获麦克风阵列的旋转/移动解耦。
相应地,装置150可以被使得提供从捕获的空间音频内容中生成经修改的空间音频内容,以用于呈现给接收方用户,其中使用捕获的方向数据将听觉场景的定向从相对于空间音频捕获麦克风阵列102的参考方向108转换为相对于场景103,从而定义场景中音频的三维布置,而不考虑可旋转空间音频捕获麦克风阵列在空间音频被捕获的时间期间的任何旋转。
在一个或多个示例中,经修改的空间音频内容可以被简单地提供给AR或VR装置112,以用于作为定向在所述空间106中的空间音频呈现给接收方用户。在一个或多个示例中,如上所述,装置150可以提供所述经修改的空间音频内容以及捕获的方向数据,使得装置101可以提供空间局部化音频效果和/或双向通信的应用。
如果装置150被配置为将捕获的空间音频内容与阵列的运动“解耦”,则在一个或多个示例中,装置101可以被配置为呈现经修改的空间音频内容。因此,可以使装置101执行以下:基于经修改的空间音频内容,经修改的空间音频内容包括由至少可旋转空间音频捕获麦克风阵列捕获的场景的音频,定义听觉场景的经修改的空间音频内容包括被定义为使得场景中的音频的三维布置可听见地呈现给接收方用户的场景的音频,听觉场景与在捕获空间音频内容期间发生的可旋转空间音频捕获麦克风阵列的任何旋转解耦,以用于呈现给接收方用户;
将经修改的空间音频内容的可听呈现作为空间音频提供给接收方用户,其中当空间音频被捕获时,所述经修改的空间音频内容的听觉场景的定向相对于接收方用户所位于的空间被呈现,而不考虑可旋转空间音频捕获麦克风阵列的任何旋转。
图5示出了系统示意图500。传输框501图示了在阵列102或捕获用户114与装置101或接收方用户107之间的空间音频内容的传输。框502示出了由阵列102进行的空间音频捕获。框503示出了捕获用户114的头部跟踪以提供捕获的方向数据。框504示出了装置150的动作。空间音频内容在框505处被编码。捕获的方向数据在框506处被提供为元数据。其他控制输入(诸如捕获用户114的用户输入)可以被提供,并且在框507处被合并在元数据中。向接收方用户107的经修改的空间音频内容的呈现被示为绘制框508。空间音频的绘制(包括从其感知音频的方向的定义)基于在来自解码框509的解码的空间音频内容、来自元数据块510的捕获的方向元数据、音频聚焦块511,以确定空间局部化音频效果的应用以及接收方用户的头部从头部跟踪块512的移动。
图6示出了说明以下步骤的流程图:
基于由可旋转空间音频捕获麦克风阵列所捕获的600个捕获的空间音频内容,捕获的空间音频内容定义了听觉场景,该听觉场景包括围绕被定义为使得场景中音频的三维布置可听地呈现给接收方用户的空间音频捕获麦克风阵列的场景的音频、听觉场景被定义为相对于在音频捕获时可旋转空间音频捕获麦克风阵列的定向,以及基于捕获的方向数据,该捕获的方向数据与空间音频内容相关联,并且表示在所述空间音频内容被捕获的时间内所述空间音频捕获麦克风阵列的参考方向相对于场景的方向;
生成601经修改的空间音频内容,其中听觉场景通过使用捕获的方向数据修改听觉场景的定向,来与在捕获空间音频内容以用于呈现给接收方用户期间所发生的可旋转空间音频捕获麦克风阵列相对于接收方用户所位于的空间的任何旋转解耦。
图7示意性地图示了根据示例提供程序的计算机/处理器可读介质700。在该示例中,计算机/处理器可读介质是诸如数字多功能光盘(DVD)或压缩光盘(CD)之类的光盘。在一些示例中,计算机可读介质可以是已经被以用于执行发明功能的方式编程的任何介质。计算机程序代码可以分布在相同类型的多个存储器之间,或者不同类型的多个存储器之间,诸如ROM、RAM、闪存、硬盘、固态等。
用户输入可以是包括以下中的一项或多项的手势:轻击、轻扫、滑动、按压、保持、旋转手势、靠近设备用户接口的静态悬停手势、靠近设备的移动悬停手势、弯曲设备的至少一部分、挤压设备的至少一部分、多指手势、使设备倾斜或翻转控制设备。此外,手势可以是使用用户身体(诸如其手臂)的任何自由空间用户手势,或手写笔或适合于执行自由空间用户手势的其他元件。
上述示例中所示的装置可以是便携式电子设备、膝上型计算机、移动电话、智能手机、平板计算机、个人数字助理、数码相机、智能手表、智能眼镜,手写计算机,非便携式电子设备、台式计算机、监视器、智能电视、服务器、可穿戴装置、虚拟现实装置或用于其中的一个或多个的模块/电路。
任何提及的装置和/或特定的所提及的装置的其他特征可以由如下装置提供,该装置被布置为使得其被配置为仅在启用(例如,开启等)时执行所期望的操作。在这种情况下,它们可能不必在非启用状态(例如关闭状态)下将适当的软件加载到活动存储器中,而仅在启用状态(例如开启状态)下加载适当的软件。装置可以包括硬件电路装置和/或固件。装置可以包括加载到存储器上的软件。这样的软件/计算机程序可以被记录在同一存储器/处理器/功能单元和/或一个或多个存储器/处理器/功能单元上。
在一些示例中,特定的所提及的装置可以用适当的软件进行预编程以执行所期望的操作,并且其中适当的软件可以被启用,以由下载“密钥”的用户例如用于解锁/启用软件及其相关联功能。与该示例相关联的优点可以包括减少在针对设备需要其他功能时要下载数据的需求,并且这在设备被感知具有足够容量来存储用于用户可能不启用的功能的那些预编程软件的示例中是有用的。
除上述功能外,任何提及的装置/电路/元件/处理器可以具有其他功能,并且这些功能可以由相同的装置/电路/元件/处理器执行。一个或多个公开的方面可以包括相关联的计算机程序的电子分发和记录在适当的载体(例如存储器、信号)上的(可以是源/传输编码的)计算机程序。
本文所述的任何“计算机”可以包括一个或多个个体处理器/处理元件的集合,这些处理器/处理元件可以位于或可以不位于同一电路板,或者电路板的同一区域/位置或甚至同一器件上。在一些示例中,任何提及的处理器中的一个或多个处理器可以分布在多个设备上。相同或不同的处理器/处理元件可以执行本文所述的一个或多个功能。
术语“信号传输”可以指作为一系列发送和/或接收的电/光信号发送的一个或多个信号。该系列信号可以包括一个、两个、三个、四个或甚至更多个体信号分量或不同信号以构成所述信号传输。这些个体信号中的一些或全部可以通过无线或有线通信同时、依次和/或使它们暂时彼此重叠而发送/接收。
参考任何提及的计算机和/或处理器和存储器(例如包括ROM、CD-ROM等)的任何讨论,这些可以包括计算机处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)和/或已被以用以执行本发明功能的方式编程的其他硬件组件。
申请人在此独立地将本文所述的每个个体特征以及两个或多个这样的特征的任何组合,公开到这些特征或组合能够根据本领域技术人员的公知常识总体上基于本说明书被执行的程度,不论这些特征或特征的组合是否解决了本文公开的任何问题,并且不限制权利要求的范围。申请人指出公开的方面/示例可以包括任何这样的个体特征或特征的组合。鉴于前述描述,对于本领域技术人员显而易见的是,可以在本公开的范围内进行各种修改。
尽管已经示出并描述和指出了应用于其示例的基本的新颖性特征,但是应当理解,设备和方法的形式和细节的各种省略和替换以及改变可以由本领域技术人员在不脱离本公开的范围的情况下作出。例如,明确预计的是,以基本相同的方式执行基本相同的功能以实现相同结果的那些元件和/或方法步骤的所有组合都在本公开的范围内。此外,应该认识到,与任何公开的形式或示例相关的示出和/或描述的结构和/或元件和/或方法步骤可以作为设计选择的一般事项并入任何其他公开的、描述的或建议的形式或示例中。此外,在权利要求中,部件加功能的条款旨在涵盖本文描述的执行所阐述功能的结构,并且不仅包括结构等效物,还包括等效结构。因此,尽管钉子和螺钉可能不是结构等效物,因为钉子采用圆柱形表面以将木质部件固定在一起,而螺钉采用螺旋形表面,但在紧固木质部件的环境中,钉子和螺钉可能是等效的结构。
Claims (14)
1.一种电子装置,包括:
至少一个处理器;以及
至少一个存储器,所述至少一个存储器包括计算机程序代码,
所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述电子装置至少执行以下:
使用
捕获的空间音频内容,所述捕获的空间音频内容由可旋转空间音频捕获麦克风阵列捕获,所述捕获的空间音频内容定义听觉场景,所述听觉场景包括围绕所述空间音频捕获麦克风阵列的场景的所述音频,所述空间音频捕获麦克风阵列被定义为使得所述场景中的所述音频的三维布置以可听的方式可呈现给接收方用户,在音频捕获时,所述听觉场景的定向相对于所述可旋转空间音频捕获麦克风阵列被定义,以及
捕获的方向数据,所述捕获的方向数据与所述空间音频内容相关联,并且表示所述空间音频捕获麦克风阵列的参考方向在所述空间音频内容被捕获的期间相对于所述场景的方向;
来生成经修改的空间音频内容,在所述经修改的空间音频内容中,通过使用所述捕获的方向数据来修改所述听觉场景的所述定向,所述听觉场景从在捕获所述空间音频内容期间发生的所述可旋转空间音频捕获麦克风阵列的任何旋转被解耦,以用于相对于所述接收方用户所位于的空间来向所述接收方用户进行呈现;
其中所述空间音频捕获麦克风阵列相对于所述场景的所述参考方向包括位于所述场景中的用户在捕获所述捕获的空间音频内容时的观看方向,所述用户被称为捕获用户,所述空间音频捕获麦克风阵列根据所述捕获用户的所述观看方向可旋转。
2.根据权利要求1所述的电子装置,其中所述电子装置被使得向所述接收方用户提供作为空间音频的所述经修改的空间音频内容的呈现,并且基于在所述空间音频内容被捕获时的时间处的参考方向来提供将空间局部化音频效果应用于所述听觉场景的所述音频,以指示当所述捕获的空间音频内容被捕获时所述参考方向在所述听觉场景中正在指向何处,所述空间局部化音频效果被配置为相对于被呈现给所述接收方用户的所述音频的其余部分,引起以下中的一项或多项:
i)对一个或多个频率分量的响度的修改;以及
ii)对一个或多个频率分量的频率的修改。
3.根据权利要求2所述的电子装置,其中对所述空间局部化音频效果的所述提供还基于在所述参考方向与当前用户观看方向之间存在高于未对准阈值的未对准,所述当前用户观看方向包括所述接收方用户相对于被呈现给所述接收方用户的、作为空间音频的所述听觉场景而正在查看的当前方向。
4.根据权利要求1所述的电子装置,其中所述电子装置被使得基于所述捕获的方向数据和当前用户观看方向,来向所述接收方用户提供所述经修改的空间音频内容的呈现作空间音频,所述当前用户观看方向包括所述接收方用户相对于被呈现给所述接收方用户的、作为空间音频的所述听觉场景而正在查看的所述当前方向,并且其中所述当前用户观看方向当前在阈值距离内被与所述参考方向对准;
向所述接收方用户提供观看方向对准指示符的呈现,从而所述观看方向对准指示符的所述呈现指示所述接收方用户相对于所述听觉场景正在与所述空间音频内容被捕获时所述空间音频捕获麦克风阵列相对于所述场景的所述参考方向相同的方向上进行查看。
5.根据权利要求1所述的电子装置,其中至少所述可旋转空间音频捕获麦克风阵列被配置为被安装到捕获用户的头部。
6.根据权利要求1所述的电子装置,其中所述空间音频内容被实况地呈现给所述接收方用户。
7.根据权利要求1所述的电子装置,其中所述电子装置被使得向所述接收方用户提供所述经修改的空间音频内容的呈现作为空间音频,并且所述空间音频捕获麦克风阵列相对于所述场景的所述参考方向包括位于所述场景中的用户在捕获所述捕获的空间音频内容时的观看方向,所述用户被称为捕获用户,并且所述空间音频内容被实况地呈现给所述接收方用户;以及
基于所述捕获用户相对于所述场景的所述观看方向与所述接收方用户相对于所述听觉场景的当前用户观看方向在阈值内对准,使得所述捕获用户和所述接收方用户相对于所述场景和所述听觉场景分别具有相同的定向;
提供针对所述捕获用户的设备与所述接收方用户的设备之间的通信信道的开启,以实现其间的直接音频通信。
8.根据权利要求7所述的电子装置,其中基于所述通信信道的所述开启,所述装置被使得提供一个或多个通信信道开启指示符的呈现,以向所述接收方用户和所述捕获用户中的一者或两者通知开启的所述通信信道。
9.根据权利要求7所述的电子装置,其中所述捕获的空间音频内容包括来自多个可旋转空间音频捕获麦克风阵列的空间音频内容,每个阵列与多个捕获用户中的相应一个捕获用户相关联,所述多个捕获用户位于相同的场景中,并且被呈现给所述接收方用户的所述听觉场景是由所述多个可旋转空间音频捕获麦克风阵列捕获的所述听觉场景的组合,其中:
基于所述多个捕获用户中的任一个捕获用户相对于所述场景的所述观看方向,与所述接收方用户的当前用户观看方向在阈值内对准,所述当前用户观看方向包括所述当前方向,所述接收方用户相对于所述听觉场景正在所述当前方向上查看,使得所述一个捕获用户和所述接收方用户在他们的前方听到相同的音频;
提供针对所述多个捕获用户中的任何一个捕获用户与所述接收方用户之间的通信信道的开启,以实现其间的直接音频通信。
10.根据权利要求2所述的电子装置,其中对所述空间局部化音频效果的所述提供还基于场景配置数据,所述场景配置数据由位于所述场景中的传感器捕获,并且表示至少在所述空间音频捕获麦克风阵列与所述场景中的一个或多个音频源之间的所述场景的物理配置,以指示所述空间音频捕获麦克风阵列是否具有所述一个或多个音频源的有遮挡或无遮挡的视图;并且其中:
所述电子装置被使得,基于在所述空间音频被捕获时的所述参考方向、以及如果基于所述场景配置数据、所述一个或多个音频源是无遮挡的,来提供将第一空间局部化音频效果应用于经修改的所述捕获的空间音频的所述听觉场景的所述音频;以及
所述电子装置被使得基于在所述空间音频被捕获时的所述参考方向,以及如果基于所述场景配置数据、所述一个或多个音频源是有遮挡的,来提供将第二空间局部化音频效果应用于经修改的所述捕获的空间音频的所述听觉场景的所述音频,所述第二空间局部化音频效果与所述第一空间局部化音频效果不同。
11.根据权利要求1所述的电子装置,其中所述空间音频捕获麦克风阵列在所述场景中是可旋转的并且可平移的,使得所述阵列在所述场景中具有六个自由度并且基于捕获的位置数据,所述捕获的位置数据定义在所述空间音频内容的捕获期间所述阵列在所述场景中的平移移动,所述电子装置被使得生成所述经修改的空间音频内容,在所述经修改的空间音频内容中,通过使用所述捕获的位置数据和所述捕获的方向数据来修改所述听觉场景的位置和所述听觉场景的所述定向,所述听觉场景从在捕获所述空间音频内容期间发生的所述阵列的任何平移移动和所述阵列的任何旋转被解耦,以用于相对于所述接收方用户所位于的空间来向所述接收方用户进行呈现,所述接收方用户位于所述空间中。
12.根据前述权利要求中任一项所述的电子装置,其中所述电子装置被使得向所述接收方用户提供所述经修改的空间音频内容的呈现作为空间音频。
13.一种处理音频内容的方法,所述方法包括:
基于捕获的空间音频内容,所述捕获的空间音频内容由可旋转空间音频捕获麦克风阵列捕获,所述捕获的空间音频内容定义听觉场景,所述听觉场景包括围绕所述空间音频捕获麦克风阵列的场景的音频,所述空间音频捕获麦克风阵列被定义为使得所述场景中的所述音频的三维布置以可听的方式可呈现给接收方用户,在音频捕获时,所述听觉场景的定向相对于在音频捕获时所述可旋转空间音频捕获麦克风阵列被定义,以及
基于捕获的方向数据,所述捕获的方向数据与所述空间音频内容相关联,并且表示所述空间音频捕获麦克风阵列的参考方向在所述空间音频内容被捕获的期间相对于所述场景的方向;
生成经修改的空间音频内容,在所述经修改的空间音频内容中,通过使用所述捕获的方向数据来修改所述听觉场景的所述定向,所述听觉场景从在捕获所述空间音频内容期间发生的所述可旋转空间音频捕获麦克风阵列的任何旋转被解耦,以用于相对于所述用户接收方所位于的空间来向所述接收方用户进行呈现;
其中所述空间音频捕获麦克风阵列相对于所述场景的所述参考方向包括位于所述场景中的用户在捕获所述捕获的空间音频内容时的观看方向,所述用户被称为捕获用户,所述空间音频捕获麦克风阵列根据所述捕获用户的所述观看方向可旋转。
14.一种计算机可读介质,所述计算机可读介质包括被存储在其上的计算机程序代码,所述计算机可读介质和计算机程序代码被配置为当在至少一个处理器上运行时,执行根据权利要求13所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17178912.6A EP3422744B1 (en) | 2017-06-30 | 2017-06-30 | An apparatus and associated methods |
EP17178912.6 | 2017-06-30 | ||
PCT/FI2018/050443 WO2019002667A1 (en) | 2017-06-30 | 2018-06-13 | APPARATUS AND ASSOCIATED METHODS |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110999328A CN110999328A (zh) | 2020-04-10 |
CN110999328B true CN110999328B (zh) | 2021-07-30 |
Family
ID=59296702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880051725.XA Active CN110999328B (zh) | 2017-06-30 | 2018-06-13 | 装置以及相关联的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10993067B2 (zh) |
EP (1) | EP3422744B1 (zh) |
CN (1) | CN110999328B (zh) |
WO (1) | WO2019002667A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11019449B2 (en) * | 2018-10-06 | 2021-05-25 | Qualcomm Incorporated | Six degrees of freedom and three degrees of freedom backward compatibility |
US11841899B2 (en) * | 2019-06-28 | 2023-12-12 | Apple Inc. | Spatial audio file format for storing capture metadata |
GB201914665D0 (en) | 2019-10-10 | 2019-11-27 | Nokia Technologies Oy | Enhanced orientation signalling for immersive communications |
US11381797B2 (en) * | 2020-07-16 | 2022-07-05 | Apple Inc. | Variable audio for audio-visual content |
US11856370B2 (en) | 2021-08-27 | 2023-12-26 | Gn Hearing A/S | System for audio rendering comprising a binaural hearing device and an external device |
CN114363794B (zh) * | 2021-12-27 | 2023-10-24 | 北京百度网讯科技有限公司 | 音频处理方法、装置、电子设备和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001055833A1 (en) * | 2000-01-28 | 2001-08-02 | Lake Technology Limited | Spatialized audio system for use in a geographical environment |
CN103181192A (zh) * | 2010-10-25 | 2013-06-26 | 高通股份有限公司 | 利用多麦克风的三维声音捕获和再现 |
EP3098690A1 (en) * | 2015-05-28 | 2016-11-30 | Nokia Technologies Oy | Rendering of a notification on a head mounted display |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7587053B1 (en) * | 2003-10-28 | 2009-09-08 | Nvidia Corporation | Audio-based position tracking |
US20050147261A1 (en) * | 2003-12-30 | 2005-07-07 | Chiang Yeh | Head relational transfer function virtualizer |
US8509454B2 (en) | 2007-11-01 | 2013-08-13 | Nokia Corporation | Focusing on a portion of an audio scene for an audio signal |
EP2795931B1 (en) | 2011-12-21 | 2018-10-31 | Nokia Technologies Oy | An audio lens |
US9131305B2 (en) * | 2012-01-17 | 2015-09-08 | LI Creative Technologies, Inc. | Configurable three-dimensional sound system |
US8831255B2 (en) * | 2012-03-08 | 2014-09-09 | Disney Enterprises, Inc. | Augmented reality (AR) audio with position and action triggered virtual sound effects |
US9560439B2 (en) * | 2013-07-01 | 2017-01-31 | The University of North Carolina at Chapel Hills | Methods, systems, and computer readable media for source and listener directivity for interactive wave-based sound propagation |
US9560467B2 (en) * | 2014-11-11 | 2017-01-31 | Google Inc. | 3D immersive spatial audio systems and methods |
US9781349B2 (en) * | 2016-01-05 | 2017-10-03 | 360fly, Inc. | Dynamic field of view adjustment for panoramic video content |
-
2017
- 2017-06-30 EP EP17178912.6A patent/EP3422744B1/en active Active
-
2018
- 2018-06-13 WO PCT/FI2018/050443 patent/WO2019002667A1/en active Application Filing
- 2018-06-13 US US16/623,543 patent/US10993067B2/en active Active
- 2018-06-13 CN CN201880051725.XA patent/CN110999328B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001055833A1 (en) * | 2000-01-28 | 2001-08-02 | Lake Technology Limited | Spatialized audio system for use in a geographical environment |
CN103181192A (zh) * | 2010-10-25 | 2013-06-26 | 高通股份有限公司 | 利用多麦克风的三维声音捕获和再现 |
EP3098690A1 (en) * | 2015-05-28 | 2016-11-30 | Nokia Technologies Oy | Rendering of a notification on a head mounted display |
Also Published As
Publication number | Publication date |
---|---|
CN110999328A (zh) | 2020-04-10 |
US10993067B2 (en) | 2021-04-27 |
EP3422744A1 (en) | 2019-01-02 |
EP3422744B1 (en) | 2021-09-29 |
WO2019002667A1 (en) | 2019-01-03 |
US20200145778A1 (en) | 2020-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110999328B (zh) | 装置以及相关联的方法 | |
US11055057B2 (en) | Apparatus and associated methods in the field of virtual reality | |
US20190180509A1 (en) | Apparatus and associated methods for presentation of first and second virtual-or-augmented reality content | |
US20190139312A1 (en) | An apparatus and associated methods | |
US10798518B2 (en) | Apparatus and associated methods | |
US10993066B2 (en) | Apparatus and associated methods for presentation of first and second virtual-or-augmented reality content | |
US11416201B2 (en) | Apparatus and associated methods for communication between users experiencing virtual reality | |
US11061466B2 (en) | Apparatus and associated methods for presenting sensory scenes | |
US11399254B2 (en) | Apparatus and associated methods for telecommunications | |
US20180275861A1 (en) | Apparatus and Associated Methods | |
WO2019057530A1 (en) | APPARATUS AND ASSOCIATED METHODS FOR PRESENTING AUDIO IN THE FORM OF SPACE AUDIO | |
US11140508B2 (en) | Apparatus and associated methods for audio presented as spatial audio | |
JP2024041721A (ja) | ビデオ電話会議 | |
EP3502863A1 (en) | An apparatus and associated methods for presentation of first and second augmented, virtual or mixed reality content | |
CN112689825A (zh) | 实现远程用户访问介导现实内容的装置、方法、计算机程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |