CN116569255A - 用于六自由度应用的多个分布式流的矢量场插值 - Google Patents

用于六自由度应用的多个分布式流的矢量场插值 Download PDF

Info

Publication number
CN116569255A
CN116569255A CN202180083035.4A CN202180083035A CN116569255A CN 116569255 A CN116569255 A CN 116569255A CN 202180083035 A CN202180083035 A CN 202180083035A CN 116569255 A CN116569255 A CN 116569255A
Authority
CN
China
Prior art keywords
audio
location
stream
audio stream
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180083035.4A
Other languages
English (en)
Inventor
S·M·A·萨尔辛
N·G·彼得斯
S·G·斯瓦米纳坦
I·G·穆诺茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN116569255A publication Critical patent/CN116569255A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

示例设备包括被配置为存储与多个音频流相关联的音频数据和位置数据的存储器以及耦合到该存储器的一个或多个处理器。一个或多个处理器被配置为获得包括音频源的第一音频流的第一位置并且获得包括音频源的第二音频流的第二位置。一个或多个处理器被配置为分别基于音频源的位置和第一位置以及音频源的位置和第二位置来生成源自第一位置和第二位置的方向矢量。一个或多个处理器还被配置为基于第一方向矢量和第二方向矢量来确定描述矢量场的参数。

Description

用于六自由度应用的多个分布式流的矢量场插值
本申请要求享受于2020年12月18日提交的美国专利申请No.17/127,004的优先权,据此将上述申请的全部内容通过引用的方式并入。
技术领域
本公开内容涉及处理媒体数据(诸如音频数据)。
背景技术
正在开发计算机介导的现实系统,以允许计算设备对用户体验到的现有现实进行增强或添加、去除或减少、或通常进行修改。计算机介导的现实系统(其也可以被称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导的现实系统的感知成功通常与此类计算机介导的现实系统在视频和音频体验两者方面提供真实沉浸式体验(其中视频和音频体验以用户期望的方式对齐)的能力有关。尽管人类视觉系统比人类听觉系统更敏感(例如,在场景内的各种对象的感知定位方面),但是确保充分的听觉体验是在确保真实的沉浸式体验方面越来越重要的因素,尤其是随着视频体验改善以允许更好地定位使得用户能够更好地识别音频内容的源的视频对象。
发明内容
概括而言,本公开内容涉及计算机介导的现实系统(包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统)的用户体验的听觉方面。所述技术的各个方面可以提供用于扩展现实系统的声学空间的自适应音频捕获和渲染。具体而言,本公开内容涉及用于在六自由度(6DoF)应用中使用的具有多个分布式流的渲染技术。
在一个示例中,所述技术的各个方面涉及一种设备,包括:存储器,其被配置为存储与多个音频流相关联的音频数据和位置数据;以及一个或多个处理器,其耦合到所述存储器并且被配置为:获得包括音频源的第一音频流的第一位置;获得包括所述音频源的第二音频流的第二位置;基于所述音频源的位置和所述第一位置以及基于所述音频源在所述第一位置处的能量的倒数来生成源自所述第一位置的第一方向矢量;基于所述音频源的所述位置和所述第二位置以及基于所述音频源在所述第二位置处的能量的倒数来生成源自所述第二位置的第二方向矢量;以及基于所述第一方向矢量和所述第二方向矢量来确定描述矢量场的参数。
在另一示例中,所述技术的各个方面涉及一种方法,包括:获得包括音频源的第一音频流的第一位置;获得包括所述音频源的第二音频流的第二位置;基于所述音频源的位置和所述第一位置以及基于所述音频源在所述第一位置处的能量的倒数来生成源自所述第一位置的第一方向矢量;基于所述音频源的所述位置和所述第二位置以及基于所述音频源在所述第二位置处的能量的倒数来生成源自所述第二位置的第二方向矢量;以及基于所述第一方向矢量和所述第二方向矢量来确定描述矢量场的参数。
在另一示例中,所述技术的各个方面涉及一种具有存储在其上的指令的非暂时性计算机可读存储介质,所述指令在被执行时使得一个或多个处理器进行以下操作:获得包括音频源的第一音频流的第一位置;获得包括所述音频源的第二音频流的第二位置;基于所述音频源的位置和所述第一位置以及基于所述音频源在所述第一位置处的能量的倒数来生成源自所述第一位置的第一方向矢量;基于所述音频源的所述位置和所述第二位置以及基于所述音频源在所述第二位置处的能量的倒数来生成源自所述第二位置的第二方向矢量;以及基于所述第一方向矢量和所述第二方向矢量来确定描述矢量场的参数。
在另一示例中,所述技术的各个方面涉及一种设备,包括:用于获得包括音频源的第一音频流的第一位置的单元;用于获得包括所述音频源的第二音频流的第二位置的单元;用于基于所述音频源的位置和所述第一位置以及基于所述音频源在所述第一位置处的能量的倒数来生成源自所述第一位置的第一方向矢量的单元;用于基于所述音频源的所述位置和所述第二位置以及基于所述音频源在所述第二位置处的能量的倒数来生成源自所述第二位置的第二方向矢量的单元;以及用于基于所述第一方向矢量和所述第二方向矢量来确定描述矢量场的参数的单元。
在附图和以下说明书中阐述了本公开内容的一个或多个示例的细节。根据说明书和附图以及根据权利要求,所述技术的各个方面的其它特征、目的和优势将是显而易见的。
附图说明
图1A-1C是示出可以执行在本公开内容中描述的技术的各个方面的系统的图。
图2是示出由用户佩戴的VR设备的示例的图。
图3是示出示例音频场景的概念图。
图4是示出根据本公开内容的示例平面波技术的概念图。
图5是示出根据本公开内容的技术的使用平面波平移的示例的概念图。
图6是示出根据本公开内容的技术的矢量场插值的概念图。
图7是示出根据本公开内容的示例波束扭曲技术的概念图。
图8是示出根据本公开内容的另外的示例波束扭曲技术的概念图。
图9A和9B是根据本公开内容的技术的内容消费者设备的功能框图。
图10是示出使用外推法来生成6DoF全景声的示例的概念图。
图11是示出本公开内容的相关技术的示例的概念图。
图12是根据本公开内容的分级相关技术的概念图。
图13是示出本公开内容的示例单声道流技术的概念图。
图14是可以执行在本公开内容中描述的技术的各个方面的系统的框图。
图15是示出在波场插值之前的音频流的示例的概念图。
图16是示出具有所确定的矢量场的音频流的示例的概念图。
图17是根据本公开内容的技术的示例回放设备的功能框图。
图18是示出本公开内容的方向扭曲技术的概念图。
图19是示出本公开内容的示例矢量场插值技术的流程图。
图20是示出具有三个或更多个音频流的示例音乐会的概念图。
图21是示出可以根据在本公开内容中描述的技术的各个方面进行操作的可穿戴设备的示例的图。
图22A和22B是示出可以执行在本公开内容中描述的技术的各个方面的其它示例系统的图。
图23是示出在图1A-图1C的示例中所示的源设备、内容消费者设备以及图14的多流编码器或回放设备348中的一者或多者的示例组件的框图。
图24示出了支持根据本公开内容的各方面的设备和方法的无线通信系统100的示例。
具体实施方式
当正在使用XR、VR、AR或MR系统的收听者移动位置时,正被渲染的声场应当发生变化,以反映该移动并且提供沉浸式体验。例如,如果音频源直接位于收听者的前面,并且收听者移动到音频源的左侧,则该音频源现在应当表现为位于收听者的前面和右侧。用于改变声场以反映收听者的移动的典型技术(诸如基于能量的插值)在计算上可能是复杂的,并且可能无法提供可接受的听觉体验。根据本公开内容的技术,可以以相对低的计算方式来识别音频源位置,并且可以使用矢量场插值来估计新用户位置处的音频源方向和幅度。
存在多种不同的方式来表示声场。示例格式包括基于通道的音频格式、基于对象的音频格式和基于场景的音频格式。基于通道的音频格式指代5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频通道定位到在收听者周围的特定位置以便重新创建声场的任何其它基于通道的格式。
基于对象的音频格式可以指代音频对象(通常使用脉冲编码调制(PCM)进行编码并且被称为PCM音频对象)被指定以表示声场的格式。此类音频对象可以包括标识音频对象相对于收听者或声场中的其它参考点的位置的信息(诸如元数据),使得音频对象可以被渲染到用于回放的一个或多个扬声器通道,以努力重新创建声场。在本公开内容中描述的技术可以适用于上述格式中的任何格式,包括基于场景的音频格式、基于通道的音频格式、基于对象的音频格式或其任何组合。
基于场景的音频格式可以包括以三个维度来定义声场的分级元素集合。分级元素集合的一个示例是球谐系数(SHC)集合。以下表达式展示了使用SHC的声场的描述或表示:
该表达式表明,在时间t处在声场的任何点处的压力pi可以通过SHC/>唯一地表示。此处,/>c是声速(~343m/s),/>是参考点(或观测点),jn(·)是阶数为n的球贝塞尔函数,并且/>是阶数为n和子阶数为m的球谐基函数(其也可以被称为球基函数)。可以认识到的是,方括号中的项是信号的频域表示(即,/>),其可以通过各种时频变换来近似,诸如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。分级集合的其它示例包括小波变换系数集合和多分辨率基函数的其它系数集合。
SHC可以在物理上通过各种麦克风阵列配置来获取(例如,记录),或者替代地,它们可以从声场的基于通道或基于对象的描述来推导。SHC(其也可以被称为全景声系数)表示基于场景的音频,其中SHC可以被输入到音频编码器中以获得可以促进更高效的传输或存储的经编码的SHC。例如,可以使用涉及(1+4)2(25,因此是四阶)系数的四阶表示。
如上所述,可以从来自使用麦克风阵列的麦克风记录来推导SHC。在以下文档中描述了可以如何在物理上从麦克风阵列获取SHC的各种示例:Poletti,M.,“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics,”J.AudioEng.Soc.,第53卷,第11期,2005年11月,第1004-1025页。
以下等式可以说明可以如何从基于对象的描述来推导SHC。用于对应于单个音频对象的声场的系数可以被表达为:
其中,i是 是阶数为n的(第二类的)球汉克尔函数,并且/>是对象的位置。知道作为频率的函数的对象源能量g(ω)(例如,使用时频分析技术,诸如对经脉冲编码调制的(PCM)流执行快速傅立叶变换)可以实现将每个PCM对象和对应位置转换为SHC此外,可以表明(因为上文是线性和正交分解)用于每个对象的/>系数是相加的。以这种方式,多个PCM对象可以通过由/>系数来表示(例如,作为用于单个对象的系数向量的总和)。这些系数可以包含关于声场的信息(作为3D坐标的函数的压力),并且上文表示在观察点/>附近从单个对象到整个声场的表示的变换。
正在开发计算机介导的现实系统(其也可以被称为“扩展现实系统”或“XR系统”),以利用全景声系数所提供的许多潜在益处。例如,全景声系数可以以潜在地实现对声场内的音频源的准确三维(3D)定位的方式,以三个维度来表示声场。因此,XR设备可以将全景声系数渲染为扬声器馈送,扬声器馈送在经由一个或多个扬声器播放时准确地重现声场。
作为另一示例,可以平移(例如,旋转)全景声系数以考虑用户移动,而无需过度复杂的数学运算,从而潜在地适应XR的低时延要求。此外,音域系数是分级的,并且因此通过降阶(这可以消除与高阶相关联的全景声系数)自然地适应可伸缩性,并且因此潜在地实现声场的动态适配以适应XR设备的时延和/或电池要求。
将全景声系数用于XR可以实现对依赖于全景声系数所提供的更加沉浸式的声场的多个用例(特别是对于计算机游戏应用和实时视频流式传输应用)的开发。在这些依赖于声场的低时延重现的高度动态的用例中,XR设备可能更优选全景声系数(与更难以操纵或涉及复杂渲染的其它表示相比)。在下面关于图1A-1C提供了关于这些用例的更多信息。
尽管在本公开内容中关于VR设备进行了描述,但是可以在诸如移动设备之类的其它设备的背景下执行所述技术的各个方面。在这种情况下,移动设备(诸如所谓的智能电话)可以经由屏幕来呈现显示的世界,该屏幕可以安装在用户的头部,或者将像通常使用移动设备时那样观看。因此,屏幕上的任何信息都可以是移动设备的一部分。移动设备能够提供跟踪信息,并且由此允许观看显示的世界的VR体验(当安装在头部时)和正常体验两方面,其中,正常体验可以仍然允许用户观看证明是VR精简版类型的体验的显示的世界(例如,举起设备并且旋转或平移设备以观看显示的世界的不同部分)。此外,尽管在本公开内容的各个示例中提到了显示的世界,但是本公开内容的技术也可以用于与显示的世界不对应或不存在显示的世界的声学空间。
图1A-1C是示出可以执行在本公开内容中描述的技术的各个方面的系统的图。如图1A的示例中所示,系统10包括源设备12A和内容消费者设备14A。虽然在源设备12A和内容消费者设备14A的背景下进行描述,但是这些技术可以在其中对声场的任何表示进行编码以形成表示音频数据的比特流的任何背景下实现。此外,源设备12A可以表示能够生成声场的表示的任何形式的计算设备,并且在本文中通常在作为VR内容创建者设备的背景下进行描述。类似地,内容消费者设备14A可以表示能够实现在本公开内容中描述的渲染技术以及音频回放的任何形式的计算设备,并且通常在本文中作为VR客户端设备的背景下进行描述。
源设备12A可以由可以生成多通道音频内容以供内容消费者设备(诸如内容消费者设备14A)消费的娱乐公司或其它实体操作。在一些VR场景中,源设备12A结合视频内容来生成音频内容。源设备12A包括内容捕获设备20、内容编辑设备22和声场表示生成器24。内容捕获设备20可以被配置为与麦克风18对接或以其它方式进行通信。
麦克风18可以表示能够捕获声场并且将声场表示为音频数据19的或其它类型的3D音频麦克风,音频数据19可以指代上述基于场景的音频数据(例如,全景声系数)、基于对象的音频数据和基于通道的音频数据中的一项或多项。尽管被描述为3D音频麦克风,但是麦克风18还可以表示被配置为捕获音频数据19的其它类型的麦克风(诸如全向麦克风、点式麦克风、单向麦克风等)。
在一些示例中,内容捕获设备20可以包括集成到内容捕获设备20的壳体中的集成麦克风18。内容捕获设备20可以无线地或经由有线连接与麦克风18对接。内容捕获设备20可以在经由某种类型的可移动存储装置(无线地和/或经由有线输入过程)输入音频数据19之后处理音频数据19,而不是经由麦克风18捕获音频数据19,或者与经由麦克风18捕获音频数据19相结合。因此,根据本公开内容,内容捕获设备20和麦克风18的各种组合是可能的。
内容捕获设备20还可以被配置为与内容编辑设备22对接或以其它方式进行通信。在一些情况下,内容捕获设备20可以包括内容编辑设备22(在一些情况下,内容编辑设备22可以表示软件或软件和硬件的组合,包括由内容捕获设备20执行以将内容捕获设备20配置为执行特定形式的内容编辑的软件)。内容编辑设备22可以表示被配置为编辑或以其它方式改变从内容捕获设备20接收的包括音频数据19的内容21的单元。内容编辑设备22可以将经编辑的内容23和相关联的音频信息25(诸如元数据)输出到声场表示生成器24。
声场表示生成器24可以包括能够与内容编辑设备22(或内容捕获设备20)对接的任何类型的硬件设备。尽管在图1A的示例中未示出,但是声场表示生成器24可以使用由内容编辑设备22提供的经编辑的内容23(包括音频数据19和音频信息25)来生成一个或多个比特流27。在聚焦于音频数据19的图1A的示例中,声场表示生成器24可以生成由音频数据19表示的相同声场的一个或多个表示,以获得包括经编辑的内容23和音频信息25的表示的比特流27。
例如,为了使用全景声系数(其同样是音频数据19的一个示例)来生成声场的不同表示,声场表示生成器24可以使用用于声场的全景声表示的编码方案,被称为混合阶全景声(MOA),如在以下文档中更详细地讨论的:于2017年8月8日提交并且于2019年1月3日作为美国专利公开版本no.20190007781公开的、名称为“MIXED-ORDER AMBISONICS(MOA)AUDIODATA FOR COMPUTER-MEDIATED REALITY SYSTEMS”的序列号为15/672,058的美国申请。
为了生成声场的特定MOA表示,声场表示生成器24可以生成完整的全景声系数集合的部分子集。例如,由声场表示生成器24生成的每个MOA表示可以提供关于声场的一些区域的精度,但是在其它区域中具有较低精度。在一个示例中,声场的MOA表示可以包括八(8)个未经压缩的全景声系数,而相同声场的三阶全景声表示可以包括十六(16)个未经压缩的全景声系数。因此,声场的作为全景声系数的部分子集而生成的每个MOA表示可以是不太存储密集型且不太带宽密集型的(如果并且当通过所示的传输信道作为比特流27的一部分发送时)(与相同声场的从全景声系数生成的对应的三阶全景声表示相比)。
尽管关于MOA表示进行了描述,但是本公开内容的技术也可以关于一阶全景声(FOA)表示来执行,其中,与一阶球基函数和零阶球基函数相关联的所有全景声系数用于表示声场。换句话说,声场表示生成器24可以使用给定阶数N的所有全景声系数来表示声场(导致全景声系数总共等于(N+1)2),而不是使用全景声系数的部分非零子集来表示声场。
在这点上,全景声音频数据(其是指代MOA表示或全阶表示(诸如上述一阶表示)中的全景声系数的另一种方式)可以包括与具有为一或更小的阶数的球基函数相关联的全景声系数(其可以被称为“一阶全景声音频数据”或“FoA音频数据”)、与具有混合阶和子阶的球基函数相关联的全景声系数(其可以被称为上文讨论的“MOA表示”)、或与具有大于一的阶数的球基函数相关联的全景声系数(其在上文被称为“全阶表示”)。
在一些示例中,声场表示生成器24可以表示被配置为压缩或以其它方式减少用于表示比特流27中的内容21的比特数量的音频编码器。尽管未示出,但是在一些示例中,声场表示生成器可以包括符合本文讨论的各种标准中的任何一种的心理声学音频编码设备。
在该示例中,声场表示生成器24可以将线性可逆变换(诸如奇异值分解(SVD))应用于全景声系数以确定全景声系数的分解版本。全景声系数的分解版本可以包括以下各项中的一项或多项:主导音频信号、以及描述相关联的主导音频信号的空间特性(例如,方向、形状和宽度)的一个或多个对应的空间分量。因此,声场表示生成器24可以将分解应用于全景声系数,以将能量(由主导音频信号表示)与空间特性(由空间分量表示)解耦。
声场表示生成器24可以分析全景声系数的分解版本以识别各种参数,这些参数可以促进对全景声系数的分解版本进行重新排序。声场表示生成器24可以基于所识别的参数来对全景声系数的分解版本进行重新排序,其中,鉴于变换可以跨全景声系数的帧来对全景声系数进行重新排序(其中,帧通常包括全景声系数的分解版本的M个样本,并且在一些示例中,M是),因此这种重新排序可以提高译码效率。
在对全景声系数的分解版本进行重新排序之后,声场表示生成器24可以选择全景声系数的分解版本中的一项或多项来表示声场的前景(或者换句话说,不同的、主导的或显著的)分量。声场表示生成器24可以指定表示前景分量(其也可以被称为“主导声音信号”、“主导音频信号”或“主导声音分量”)的全景声系数的分解版本以及相关联的方向信息(其也可以被称为“空间分量”,或在一些情况下被称为标识对应音频对象的空间特性的所谓的“V矢量”)。空间分量可以表示具有多个不同元素的矢量(就矢量而言,其可以被称为“系数”),并且由此可以被称为“多维矢量”。
声场表示生成器24接下来可以关于全景声系数执行声场分析,以便至少部分地识别表示声场的一个或多个背景(或者换句话说,全景声)分量的全景声系数。背景分量也可以被称为“背景音频信号”或“环境音频信号”。鉴于在一些示例中,背景音频信号可以仅包括全景声系数的任何给定样本的子集(例如,对应于零阶和一阶球基函数的那些样本,而不是对应于二阶或更高阶球基函数的那些样本),声场表示生成器24可以关于背景音频信号执行能量补偿。当执行降阶时,换句话说,声场表示生成器24可以增强全景声系数的剩余的背景全景声系数(例如,向其添加能量/从中减去能量),以补偿由于执行降阶而导致的总能量的变化。
声场表示生成器24可以关于前景方向信息执行一种形式的插值(这是指代空间分量的另一种方式),并且然后关于经插值的前景方向信息执行降阶,以生成经降阶的前景方向信息。在一些示例中,声场表示生成器24还可以关于经降阶的前景方向信息执行量化,输出经译码的前景方向信息。在一些情况下,这种量化可以包括可能具有矢量量化的形式的标量/熵量化。声场表示生成器24然后可以将中间格式化的音频数据作为背景音频信号、前景音频信号和经量化的前景方向信息输出到心理声学音频编码设备(在一些示例中)。
在任何情况下,在一些示例中,背景音频信号和前景音频信号可以包括传输通道。也就是说,声场表示生成器24可以输出用于全景声音频系数的包括背景音频信号中的相应信号(例如,全景声系数中的一个全景声系数的对应于零阶或一阶球基函数的M个样本)的每个帧和用于前景音频信号的每个帧(例如,从全景声系数分解的音频对象的M个样本)的传输通道。声场表示生成器24还可以输出边信息(其也可以被称为“边带信息”),其包括对应于前景音频信号中的每个前景音频信号的经量化的空间分量。
在图1A的示例中,传输通道和边信息可以共同表示为全景声传输格式(ATF)音频数据(这是指代中间格式化的音频数据的另一种方式)。换句话说,AFT音频数据可以包括传输通道和边信息(其也可以被称为“元数据”)。作为一个示例,ATF音频数据可以符合HOA(高阶全景声)传输格式(HTF)。关于HTF的更多信息可以在欧洲电信标准协会(ETSI)的如下技术规范(TS)中找到:名称“Higher Order Ambisonics(HOA)Transport Format”,ETSI TS103 589V1.1.1,日期为2018年6月(2018-06)。因此,ATF音频数据可以被称为HTF音频数据。
在其中声场表示生成器24不包括心理声学音频编码设备的示例中,声场表示生成器24然后可以将ATF音频数据发送或以其它方式输出到心理声学音频编码设备(未示出)。心理声学音频编码设备可以关于ATF音频数据执行心理声学音频编码,以生成比特流27。心理声学音频编码设备可以根据标准化的、开源或专有音频译码过程来操作。例如,心理声学音频编码设备可以执行心理声学音频编码,诸如由运动图像专家组(MPEG)提出的被表示为“USAC”的统一语音和音频译码器)、MPEG-H 3D音频译码标准、MPEG-I沉浸式音频标准或专有标准(诸如AptXTM,其包括AptX的各种版本,诸如增强型AptX(E-AptX)、AptX live、AptXstereo和AptX high definition(AptX HD))、高级音频译码(AAC)、音频编解码器3(AC-3)、苹果无损音频编解码器(ALAC)、MPEG-4音频无损流式传输(ALS)、增强型AC-3、免费无损音频编解码器(FLAC)、Monkey音频、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和Windows Media Audio(WMA)。源设备12A然后可以经由传输通道将比特流27发送给内容消费者设备14A。
在一些示例中,内容捕获设备20或内容编辑设备22可以被配置为与声场表示生成器24无线地通信。在一些示例中,内容捕获设备20或内容编辑设备22可以经由无线连接或有线连接中的一者或两者来与声场表示生成器24进行通信。经由内容捕获设备20和声场表示生成器24之间的连接,内容捕获设备20可以提供各种形式的内容,为了讨论的目的,本文将其描述为音频数据19的部分。
在一些示例中,内容捕获设备20可以利用声场表示生成器24的各个方面(就声场表示生成器24的硬件或软件能力而言)。例如,声场表示生成器24可以包括被配置为执行心理声学音频编码的专用硬件(或在执行时使得一个或多个处理器执行心理声学音频编码的专用软件)。
在一些示例中,内容捕获设备20可以不包括心理声学音频编码器专用硬件或专用软件,而是可以以非心理声学音频译码形式提供内容21的音频方面。声场表示生成器24可以通过至少部分地关于内容21的音频方面执行心理声学音频编码来协助对内容21的捕获。
声场表示生成器24还可以通过至少部分地基于从音频数据19(在音频数据19包括基于场景的音频数据的情况下)生成的音频内容(例如,MOA表示和/或三阶全景声表示)来生成一个或多个比特流27,从而协助内容捕获和传输。比特流27可以表示音频数据19的压缩版本和任何其它不同类型的内容21(诸如球形视频数据、图像数据或文本数据的压缩版本)。
声场表示生成器24可以生成比特流27,以用于例如跨越传输信道(其可以是有线或无线信道)、数据存储设备等进行传输。比特流27可以表示音频数据19的编码版本,并且可以包括主要比特流和另一个边比特流(其可以被称为边信道信息或元数据)。在一些情况下,表示音频数据19的压缩版本(其同样可以表示基于场景的音频数据、基于对象的音频数据、基于通道的音频数据或其组合)的比特流27可以符合根据MPEG-H 3D音频译码标准和/或MPEG-I沉浸式音频标准而产生的比特流。
内容消费者设备14A可以由个人操作,并且可以表示VR客户端设备。尽管关于VR客户端设备进行描述,但是内容消费者设备14A可以表示其它类型的设备,诸如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或其它XR客户端设备)、标准计算机、头戴式耳机、耳机、移动设备(包括所谓的智能电话)、或能够跟踪操作内容消费者设备14A的个人的头部移动和/或一般平移移动的任何其它设备。如图1A的示例中所示,内容消费者设备14A包括音频回放系统16A,其可以指代能够渲染音频数据以作为多通道音频内容进行回放的任何形式的音频回放系统。
尽管在图1A中被示为直接发送给内容消费者设备14A,但是源设备12A可以将比特流27输出到位于源设备12A和内容消费者设备14A之间的中间设备。中间设备可以存储比特流27,以便稍后递送给可以请求比特流27的内容消费者设备14A。中间设备可以包括文件服务器、网页服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流27以供稍后由音频解码器检索的任何其它设备。中间设备可以驻留在能够将比特流27流式传输(并且可能结合发送对应的视频数据比特流)给请求比特流27的订户(诸如内容消费者设备14A)的内容递送网络中。
替代地,源设备12A可以将比特流27存储到存储介质,诸如光盘、数字视频光盘、高清视频光盘或其它存储介质,其中大多数能够被计算机读取,并且因此可以称为计算机可读存储介质或非暂时性计算机可读存储介质。在该背景下,传输信道可以指代通过其发送被存储到介质的内容(例如,以一个或多个比特流27的形式)的那些信道(并且可以包括零售商店和其它基于商店的递送机制)。在任何情况下,本公开内容的技术因此不应在这点上限于图1A的示例。
如上所提到的,内容消费者设备14A包括音频回放系统16A。音频回放系统16A可以表示能够回放多通道音频数据的任何系统。音频回放系统16A可以包括多个不同的渲染器32。渲染器32可以各自提供不同形式的渲染,其中不同形式的渲染可以包括执行基于矢量的幅度平移(VBAP)的各种方式中的一种或多种、和/或执行声场合成的各种方式中的一种或多种。如本文所使用的,“A和/或B”意指“A或B”或者“A和B”两者。
音频回放系统16A还可以包括音频解码设备34。音频解码设备34可以表示被配置为解码比特流27以输出音频数据19’的设备(其中,上标记法可以表示音频数据19’由于音频数据19的有损压缩(诸如量化)而不同于音频数据19)。同样,音频数据19’可以包括基于场景的音频数据(在一些示例中,该音频数据可以形成完整的一(或高)阶全景声表示或形成相同声场的MOA表示的其子集)、其分解(诸如主导音频信号、环境全景声系数)、以及在MPEG-H 3D音频译码标准中描述的基于矢量的信号、或其它形式的基于场景的音频数据。
其它形式的基于场景的音频数据包括根据HOA传输格式(HTF)定义的音频数据。如上所提到的,关于HTF的更多信息可以在欧洲电信标准协会(ETSI)的如下技术规范(TS)中找到:名称为“Higher Order Ambisonics(HOA)Transport Format”,ETSI TS 103589V1.1.1,日期为2018年6月(2018-06);并且也可以在如下文档中找到:于2018年12月20日提交的、名称为“PRIORITY INFORMATION FOR HIGHER ORDER AMBISONIC AUDIO DATA”的美国专利公开版本No.2019/0918028。在任何情况下,音频数据19’可以类似于音频数据19’的完整集合或部分子集,但是可以由于有损操作(例如,量化)和/或经由传输信道的传输而不同。
作为基于场景的音频数据的替代或者与基于场景的音频数据相结合,音频数据19’可以包括基于通道的音频数据。作为基于场景的音频数据的替代或者与基于场景的音频数据相结合,音频数据19’可以包括基于对象的音频数据。因此,音频数据19’可以包括基于场景的音频数据、基于对象的音频数据和基于通道的音频数据的任何组合。
可以在音频解码设备34解码比特流27以获得音频数据19’之后,音频回放系统16A的音频渲染器32渲染音频数据19’以输出扬声器馈送35。扬声器馈送35可以驱动一个或多个扬声器(为了便于说明的目的,在图1A的示例中未示出)。声场的各种音频表示(包括基于场景的音频数据(以及可能基于通道的音频数据和/或基于对象的音频数据))可以以多种方式(包括N3D、SN3D、FuMa、N2D或SN2D)进行归一化。
为了选择适当的渲染器,或者在一些情况下生成适当的渲染器,音频回放系统16A可以获得指示扬声器(例如,扩音器或耳机扬声器)的数量和/或扬声器的空间几何结构的扬声器信息37。在一些情况下,音频回放系统16A可以使用参考麦克风获得扬声器信息37并且按照动态地确定扬声器信息37的这种方式驱动扬声器(其可以指代使得换能器振动的电子信号的输出)。在其它情况下,或者结合扬声器信息37的动态确定,音频回放系统16A可以向用户提示与音频回放系统16A对接并且输入扬声器信息37。
音频回放系统16A可以基于扬声器信息37来选择音频渲染器32中的一者。在一些情况下,在没有任何音频渲染器32在与在扬声器信息37中指定的扬声器几何结构的某个门限相似性度量内(就扬声器几何结构而言)时,音频回放系统16A可以基于基于扬声器信息37来生成音频渲染器32中的一者。在一些情况下,音频回放系统16A可以基于扬声器信息37来生成音频渲染器32中的一者,而不首先尝试选择音频渲染器32中的现有一者。
当将扬声器馈送35输出到耳机时,音频回放系统16A可以使用渲染器32中的使用头部相关传递函数(HRTF)或能够渲染为左侧、右侧扬声器馈送35的其它函数来提供双耳渲染以用于耳机扬声器回放的一个渲染器,例诸如双耳房间脉冲响应渲染器。术语“扬声器”或“换能器”通常可以指代任何扬声器,包括扩音器、耳机扬声器、骨传导扬声器、耳塞扬声器、无线耳机扬声器等。然后,一个或多个扬声器可以回放经渲染的扬声器馈送35以重现声场。
尽管被描述为从音频数据19’渲染扬声器馈送35,但是对扬声器馈送35的渲染的引用可以指代其它类型的渲染,诸如直接合并到从比特流27解码音频数据19中的渲染。可以在MPEG-H 3D音频标准的附录G中找到替代渲染的示例,其中,渲染发生在声场的合成之前的主导信号形成和背景信号形成期间。因此,对音频数据19’的渲染的引用应当被理解为指代实际音频数据19’或音频数据19’的分解或其表示两者(诸如上面提到的主导音频信号、环境全景声系数和/或基于矢量的信号(其也可以被称为V矢量或多维全景声空间矢量))的渲染。
音频回放系统16A还可以基于跟踪信息41来适配音频渲染器32。也就是说,音频回放系统16A可以与被配置为跟踪VR设备的用户的头部移动和可能的平移移动的跟踪设备40对接。跟踪设备40可以表示一个或多个传感器(例如,相机(包括深度相机)、陀螺仪、磁强计、加速计、发光二极管(LED)等),其被配置为跟踪VR设备的用户的头部移动和可能的平移移动。音频回放系统16A可以基于跟踪信息41来适配音频渲染器32,使得扬声器馈送35反映用户的头部移动和可能的平移移动的变化,以正确重现响应于这种移动的声场。
目前,内容消费者设备可以使用基于能量的插值来在用户位置处渲染音频。然而,在利用基于能量的插值的情况下,处理近场音频流(例如,音频流150B)是困难的。此外,操纵音频流的幅度和方向也是困难的。在一些情况下,使用基于能量的插值可能导致所得到的声场的插值模糊。可以用于渲染声场的另一种技术是使用平面波平移。然而,在仅利用平面波平移的情况下,处理近场音频流(例如,音频流150B)是困难的。平面波平移也可能导致高梳状滤波效果,这可能导致收听者体验到不期望的混响声音。
内容消费者设备14A可以是一种示例设备,其被配置为:获得包括音频源的第一音频流的第一位置;获得包括音频源的第二音频流的第二位置;基于音频源的位置和第一位置以及基于音频源在第一位置处的能量的倒数来生成源自第一位置的第一方向矢量;基于音频源的位置和第二位置以及基于音频源在第二位置处的能量的倒数来生成源自第二位置的第二方向矢量;以及基于第一方向矢量和第二方向矢量来确定描述矢量场的参数。
图1B是示出被配置为执行在本公开内容中描述的技术的各个方面的另一示例系统50的框图。系统50类似在于图1A中所示的系统10,除了在图1A中所示的音频渲染器32被双耳渲染器42(在内容消费者设备14B的音频回放系统16B中)替换之外,其中双耳渲染器42能够使用一个或多个头部相关传递函数(HRTF)或能够渲染为左侧和右侧扬声器馈送43的其它函数来执行双耳渲染。
音频回放系统16B可以将左侧和右侧扬声器馈送43输出到耳机48,耳机48可以表示可穿戴设备的另一示例,并且可以耦合到额外的可穿戴设备(诸如手表、上述VR头戴式耳机、智能眼镜、智能服装、智能指环、智能手镯或任何其它类型的智能珠宝(包括智能项链)等)以促进声场的重现。耳机48可以无线地或经由有线连接耦合到额外的可穿戴设备。
此外,耳机48可以经由有线连接(诸如标准的3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过蓝牙TM连接、无线网络连接等)耦合到音频回放系统16B。耳机48可以基于左侧和右侧扬声器馈送43来重新创建由音频数据19’表示的声场。耳机48可以包括左侧耳机扬声器和右侧耳机扬声器,其由相应的左侧和右侧扬声器馈送43供电(或换句话说,驱动)。
内容消费者设备14B可以是一种示例设备,其被配置为:获得包括音频源的第一音频流的第一位置;获得包括音频源的第二音频流的第二位置;基于音频源的位置和第一位置以及基于音频源在第一位置处的能量的倒数来生成源自第一位置的第一方向矢量;基于音频源的位置和第二位置以及基于音频源在第二位置处的能量的倒数来生成源自第二位置的第二方向矢量;以及基于第一方向矢量和第二方向矢量来确定描述矢量场的参数。
图1C是示出另一示例系统60的框图。示例系统60类似于图1A的示例系统10,但是系统60的源设备12B不包括内容捕获设备。源设备12B包含合成设备29。合成设备29可以由内容开发者用于生成合成音频流。合成音频流可以具有与其相关联的可以标识音频流相对于收听者或声场中的其它参考点的位置的位置信息,使得音频流可以被渲染到一个或多个扬声器通道以进行回放,以努力重新创建声场。在一些示例中,合成设备29还可以合成视觉或视频数据。
例如,内容开发者可以生成针对视频游戏的合成音频流。虽然图1C的示例是与图1A的示例的内容消费者设备14A一起示出的,但是图1C的示例的源设备12B可以与图1B的内容消费者设备14B一起使用。在一些示例中,图1C的源设备12B还可以包括内容捕获设备,使得比特流27可以包含所捕获的音频流和合成音频流两者。在下文中,为了简化目的,源设备12A或12B可以被称为源设备12。
如上所述,内容消费者设备14A或14B(为了简单起见,下文可以将其任一者称为内容消费者设备14)可以表示其中人类可穿戴显示器(其也可以被称为“头戴显示器”)安装在操作VR设备的用户的眼睛前面的VR设备。图2是示出由用户402佩戴的VR设备400的示例的图。VR设备400耦合到或以其它方式包括耳机404,耳机404可以通过扬声器馈送35的回放来重现由音频数据19’表示的声场。扬声器馈送35可以表示能够使得耳机404的换能器内的膜以各种频率振动的模拟或数字信号,其中这样的过程通常被称为驱动耳机404。
视频、音频和其它感官数据可以在VR体验中发挥重要作用。为了参与VR体验,用户402可以佩戴VR设备400(其也可以被称为VR头戴式耳机400)或其它可穿戴电子设备。VR客户端设备(诸如VR头戴式耳机400)可以包括跟踪设备(例如,跟踪设备40),其被配置为跟踪用户402的头部移动,并且适配经由VR头戴式耳机400显示的视频数据以考虑头部移动,从而提供沉浸式体验,其中用户402可以在视觉三个维度中体验以视频数据所示的显示的世界。显示的世界可以指代虚拟世界(其中整个世界是模拟的)、增强世界(其中部分世界由虚拟对象增强)或物理世界(其中真实世界图像是虚拟地导航的)。
尽管VR(以及其它形式的AR和/或MR)可以允许用户402在视觉上驻留在虚拟世界中,但是通常VR头戴式耳机400可能缺乏将用户以可听方式置于显示的世界中的能力。换句话说,VR系统(其可以包括负责渲染视频数据和音频数据的计算机(为了便于说明的目的,在图2的示例中未示出该计算机)、以及VR头戴式耳机400)可能无法以可听方式支持全三维沉浸感(并且在一些情况下,真实地以反映经由VR头戴式耳机400呈现给用户的显示的场景的方式)。
尽管在本公开内容中关于VR进行描述,但是本公开内容的技术的各个方面可以在其它设备(诸如移动设备)的背景下执行。在这种情况下,移动设备(诸如所谓的智能电话)可以经由显示器来呈现显示的世界,显示器可以安装在用户402的头部,或者像在通常使用移动设备时那样观看。因此,屏幕上的任何信息都可以是移动设备的一部分。移动设备能够提供跟踪信息41,并且由此允许观看显示的世界的VR体验(当安装在头部时)和正常体验两方面,其中,正常体验可以仍然允许用户观看证明是VR精简版类型的体验的显示的世界(例如,举起设备并且旋转或平移设备以观看显示的世界的不同部分)。
在任何情况下,返回到VR设备背景,VR的音频方面已经被分类为三种单独的沉浸感类别。第一类别提供最低级别的沉浸感,并且被称为三自由度(3DOF)。3DOF指代如下的音频渲染:其考虑头部在三个自由度(偏航、俯仰和滚转)下的移动,由此允许用户在任何方向上自由地环视四周。然而,3DOF无法考虑其中头部没有以声场的光学和声学中心居中的平移头部移动。
除了由于头部远离声场内的光学中心和声学中心而导致的有限空间平移移动之外,第二类别(被称为3DOF plus(3DOF+))还提供了三个自由度(偏航、俯仰和滚转)。3DOF+可以提供对感知效果(诸如运动视差)的支持,这可以增强沉浸感。
第三类别(被称为六自由度(6DOF))以如下的方式渲染音频数据:该方式考虑头部移动的三个自由度(偏航、俯仰和滚转),而且考虑用户在空间中的平移(x、y和z平移)。空间平移可以由跟踪用户在物理世界中的位置的传感器或通过输入控制器来感应。
3DOF渲染是用于VR的音频方面的最新技术。因此,与视频方面相比,VR的音频方面不太具有沉浸感,由此潜在地减少用户所体验的整体沉浸感。然而,VR正在迅速地过渡,并且可以快速地发展到支持3DOF+和6DOF两者,这可以为额外的用例开放机会。
例如,交互式游戏应用可以利用6DOF来促进完全沉浸式游戏,其中用户自己在VR世界中移动,并且可以通过走向虚拟对象来与虚拟对象进行交互。此外,交互式实时流式传输应用可以利用6DOF来允许VR客户端设备体验音乐会或体育赛事的实时流,如同自己存在于音乐会一样,从而允许用户在音乐会或体育赛事中移动。
存在与这些用例相关联的多个难题。在完全沉浸式游戏的情况下,时延可能需要保持低的,以使得玩游戏不会导致恶心或晕动症。此外,从音频的角度来看,导致与视频数据的同步丢失的音频回放中的时延可能减少沉浸感。此外,对于某些类型的游戏应用,空间准确性对于允许准确响应可能是重要的,包括关于用户感知声音的方式,因为这允许用户预期当前不在视野内的动作。
在实时流式传输应用的背景下,大量源设备12A或12B(为了简单起见,下文将其任一者称为源设备12)可以对内容21进行流式传输,其中,源设备12可以具有广泛不同的能力。例如,一个源设备可以是具有数字固定镜头相机和一个或多个麦克风的智能电话,而另一源设备可以是能够获得比智能电话高得多的分辨率和质量的视频的生产级电视装备。然而,在实时流式传输应用的背景下,所有源设备可以提供不同质量的流,VR设备可以尝试从中选择适当的流以提供预期体验。
图3是示出示例音频场景的概念图。在图3的示例中,音频流150A-150E和音频对象152A-152D被示为围绕收听者154。音频流150A-150E中的每个音频流和音频对象152A-152D中的每个音频对象可以表示由一个或多个麦克风捕获的音频或者例如由计算机生成的合成音频信号。在沉浸式VR、AR或XR体验中,内容消费者设备14可以渲染音频场景,使得与音频流150A-150E中的每个音频流和/或音频对象152A-152D中的每个音频对象相关联的音频可以表现为源自在图3中所示的相对位置。当收听者154移动时,为了保持沉浸式VR、AR或XR体验,所渲染的音频场景可能需要改变以考虑收听者154相对于音频流150A-150E中的每个音频流和/或音频对象152A-152D中的每个音频对象的移动。虽然音频流和音频对象在本文中可能被讨论为不同的,但是音频流应当被理解为音频流或音频对象。
例如,在6DoF VR/AR/XR应用中,可能存在来自不同位置的多个音频流,这些音频流被处理以在收听者位置处渲染声场。用于渲染声场的一种技术是使用基于能量的插值。然而,在利用基于能量的插值的情况下,处理近场音频流(例如,音频流150B)是困难的。此外,操纵音频流的幅度和方向也是困难的。在一些情况下,使用基于能量的插值可能导致所得到的声场的插值模糊。
用于渲染声场的另一种技术是使用平面波平移。然而,在仅利用平面波平移的情况下,处理近场音频流(例如,音频流150B)是困难的。平面波平移也可能导致高梳状滤波效果,这可能导致收听者体验到不期望的混响声音。
图4是示出根据本公开内容的示例平面波技术的概念图。根据本公开内容的技术,可以以相对低的计算方式来识别音频源位置,并且可以使用矢量场插值来估计音频源方向和幅度。例如,内容消费者设备14(例如,在图1A-1C的示例中所示的内容消费者设备14A或14B中的一者)可以将全景声转换为平面波的总和:其中,P(Φj)是使用例如Fliege采样点的平面波基函数。Fliege采样点是在球体上均等隔开的采样点。内容消费者设备14可以使用具有矢量场插值的平面波平移技术来将全景声声场平移到收听者位置。内容消费者设备14可以将音频流中的每个音频流转换回全景声。例如,内容消费者设备14可以延迟平面波并且转换为全景声,以将音频流平移到收听者位置。
例如,内容消费者设备14可以将音频流160A平移为平面波166,并且将与音频流160A相关联的平面波166延迟达延迟168。内容消费者设备14然后可以将平面波166转换为全景声。内容消费者设备14可以使用该技术来将音频流160A平移到收听者位置164。该技术可以针对诸如音频流160B之类的其它音频流进行重复。
图5是示出根据本公开内容的技术的使用平面波平移的示例的概念图。音频流170A-170C被描绘为处于与收听者位置174的一关系中。如在图5的示例中所示,与收听者位置174最近的音频流是音频流170C。在图5的示例中,内容消费者设备14可以以与其它音频流不同的方式对待最近的音频流。例如,内容消费者设备14可以找到最近的音频流170C。例如,内容消费者设备14可以确定最近的音频流170C,因为内容消费者设备14可以具有指示收听者位置的信息和指示音频流170A-170C中的每个音频流的位置的位置元数据。
对于最近的音频流170C的音频帧A,内容消费者设备14可以基于协方差和SVD(ATA=VTΛV)来找到正交音频分量S=ATV(176)。例如,通过SVD,内容消费者设备14可以分离出在最近的音频流170C中表示的不同音频源。例如,多个音频源可能彼此干扰,并且SVD可以分离出针对不同音频源的方向。内容消费者设备14可以将其它音频流(例如,音频流170A和音频流170B)的一阶分量与最近的音频流170C的正交音频分量进行相关,以找到每个Si的方向及其幅度(178)。在一些情况下,采样点之间的距离可能导致飞行时间延迟。因此,为了跨越音频流对主导音频分量进行相关,观察窗口可能需要时间对齐(或足够长)。由于内容消费者设备14具有关于音频流的相对位置的信息,因此内容消费者设备14可以确定预期的飞行时间延迟,并且相应地对观察窗口进行时间对齐。
在一些示例中,内容消费者设备14可以针对所有音频流(例如,音频流170A-170C)确定正交Si,并且执行矢量插值,而不是以不同的方式对待最近的音频流,这是因为在一些示例中,由于音频流的噪声以及距收听者位置174的距离,可能在一些音频流中不存在一些音频数据。虽然针对所有音频流来确定正交Si可以提高内容消费者设备14的稳健性,但是在本公开内容中描述的技术的这些方面也可能增加计算复杂性。在一些示例中,内容消费者设备14可以仅针对具有大本征值的音频流来确定正交Si。例如,内容消费者设备14可以经由本征值分解来确定音频流的本征值。在一些示例中,内容消费者设备14可以将具有较大放大率的那些音频流放置在收听者位置174处。在一些示例中,内容消费者设备14还可以执行频带处理(诸如在频带中的处理、八度音阶、或者执行用于定位更多音频源的某种其它基于滤波器组的分析。在一些示例中,内容消费者设备14可以确定具有相关性的真实延迟。
图6是示出根据本公开内容的技术的矢量场插值的概念图。对于每个Si,内容消费者设备14可以形成矢量场,并且然后使用矢量场插值。在一些示例中,内容消费者设备14可以执行线相交技术,但是线相交技术在计算上更昂贵并且可能无法处置环境源,因为当关于音频流执行线相交技术时,假设音频源是点源(例如,位于一点处)。此外,线相交方法可能无法处置分布式音频源。例如,可能存在噪声,并且线可能不相交。
例如,收听者位置184处的方向S1、S2和S3是未知的。内容消费者设备14可以使用矢量场插值来从方向S1、S2和S3对方向S4进行插值。示出了音频源186。音频源186可以是诸如话音之类的特定声源。音频流180A-180C可以表示由位于由音频流180A-180C的位置表示的位置的麦克风捕获的音频,或者表示旨在处于音频流180A-180C的位置的合成音频,该合成音频可以包括来自音频源186的音频。内容消费者设备14可以尝试基于音频流180A-180C来表示处于音频源186的位置的音频源186。
图7是示出根据本公开内容的示例波束扭曲技术的概念图。内容消费者设备14可以将矩阵方向和映射增益192应用于经平移的HOA音频流190(例如,平面波平移)。例如,内容消费者设备14可以对输入方向(诸如图6的S1)进行波束成形以确定处于输出方向的HOA,并且可以应用增益。内容消费者设备14可以利用加法器194来将输出HOA与其它输出HOA音频流进行组合,并且在收听者位置处输出HOA声场。
在一些示例中,内容消费者设备14可以利用捕捉来选择最接近的音频流的残差信号(HOA声场减去用于平移的声音元素),并且将残差与最终HOA声场进行混合。关于捕捉的更多信息可以在于2020年7月1日提交的美国专利申请16/918,441中找到,该美国专利申请要求享受于2020年7月3日提交的美国临时专利申请62/870,573和于2020年3月20日提交的美国临时专利申请62/992,635的优先权。在一些示例中,由于不相关的环境,在映射中在音频流中可能存在遗留信号。内容消费者设备14可以例如在加法器194处将这些遗留信号加回HOA流而不进行修改。
图8是示出根据本公开内容的另外的示例波束扭曲技术的概念图。在图8的示例中,麦克风阵列200可以捕获音频数据。在一些示例中,麦克风阵列200可以在多个方向上捕获音频数据。内容消费者设备14可以使用由摄像机206捕获的视频和基于点云的方法或对象识别技术来确定输入方向(诸如图6的S1),摄像机206可以位于麦克风阵列200附近或其位置处。在一些示例中,诸如服务器之类的单独设备可以确定输入方向。在一些示例中,源设备12可以确定输入方向。内容消费者设备14可以在加法器208处将输入方向与增益因子进行组合。内容消费者设备14可以将矩阵方向和映射增益202应用于来自麦克风阵列200的经平移的HOA音频流(例如,平面波平移)。例如,内容消费者设备14可以对输入方向(诸如图6的S1)进行波束成形以确定输出方向处的HOA,并且可以应用增益。内容消费者设备14可以利用加法器204来将输出HOA与其它输出HOA音频流进行组合,并且在收听者位置处输出HOA声场。在一些示例中,内容消费者设备14可以利用捕捉来选择最接近的音频流的残差信号(HOA声场减去用于平移的声音元素),并且将残差混合到最终HOA流。
图9A和9B是根据本公开内容的技术的内容消费者设备的功能框图。音频流210A-210N分别被缓冲在缓冲器212A-212N中。在缓冲之后,每个音频流分别由平面波分解器214A-214N进行平面波分解。收听者位置218对于内容消费者设备14来说可以是已知的。内容消费者设备14可以使用收听者位置218和用于音频流210A-210N中的每个音频流的位置信息(其可以被包括在元数据中)来将延迟216A-216N中的每个延迟的长度设置为适当的长度。延迟216A-216N的长度可以基于相关联的音频流(例如,音频流210A-210N)的位置信息而变化。在延迟216A-216N之后,可以推导用于收听者位置218的对齐的HOA信号(HOA 1220A到HOA N 220N)。
在图9B中,内容消费者设备14可以确定最近的HOA流222,并且针对最近的HOA流222来生成协方差矩阵的本征值分解224。内容消费者设备14可以使用协方差矩阵的本征值分解224,并且然后将本征值分解中的各个音频分量与收听者位置处的其它HOA的FOA部分进行相关(例如,相关226A-226N)。内容消费者设备14还可以执行方向矢量和幅度的矢量场插值,以在收听者位置218处创建新的幅度和方向230。内容消费者设备14还可以将波束扭曲(例如,波束扭曲228A-228N)应用于HOA信号。经波束扭曲的信号可以在加法器232处相加在一起以创建HOA声场,内容消费者设备14可以将该HOA声场渲染或发送到单独的渲染设备,诸如图19的可佩戴设备500、图22B的耳机48或其它渲染设备。
图10是示出使用外推法来生成6DoF全景声的示例的概念图。例如,内容消费者设备14可以获取音频流240A-240N,并且执行基于相关性的X-Y插值234。例如,内容消费者设备14可以针对音频流240A-240N中的每个音频流的X和Y坐标来执行本文讨论的插值技术,以将音频流平移到收听者位置238。在一些示例中,内容消费者设备14可以在采样点之间应用二维HOA插值(例如,左右和前后)并且生成HOA_y1。
内容消费者设备14还可以执行高度外推236。例如,如果收听者跳到空中,则当收听者到达其跳跃的顶峰时,可能处于在收听者上方45度的角度的音频流可能处于在收听者上方35度处。即使内容消费者设备14不能以其它方式处置真正的6DoF声场,内容消费者设备14也可以使用高度外推技术来改变声场。例如,内容消费者设备14可以应用HOA外推算法来在合理的限制内在高度上外推HOA_y1(例如,上下)。
在一些示例中,内容消费者设备还可以针对偏航、俯仰和/或滚转来执行对经高度外推的信号的旋转242。内容消费者设备14然后可以将声场渲染到收听者。
本公开内容的技术可以用于渲染具有环境、近场和分布式源的6DoF音频。根据本公开内容的技术,其它音频效果是可能的。例如,内容消费者设备14可以分离出收听者可以以交互方式指定的区域中的音频源、或者可以由收听者可以从中选择的源设备12在比特流中指定的音频源(例如,对于MPEG-I格式)。
内容消费者设备14可以衰减、放大或移除不同区域中的音频源,移动区域(将音频源的组一起移动),旋转区域,重叠区域等。内容消费者设备14可以从音频源中移除作为远场分量的混响和/或向近场音频源添加自定义混响。在一些示例中,内容消费者设备14可以应用线相交而不是矢量插值来进行音频源定位。内容消费者设备14可以推近一个或多个音频源。
内容消费者设备14可以移动单个音频源或多个音频源,同时保持其它音频源原封不动。内容消费者设备14可以拉伸两个音频源之间的距离,或者例如通过拉伸、收缩或聚焦音频源来操纵音频源的位置。内容消费者设备14可以移除、衰减或保留环境音频源或分布式源。环境音频源可以是在定位方面具有高变化的音频源。内容消费者设备14可以保留、放大、衰减或移除点音频源。内容消费者设备14可以使分布在区域内的点音频源作为叠加,并且获取区域内的分布式源并且使其作为点音频源。
内容消费者设备14可以保留用于AR的某些音频源,并且以交互方式(例如,由收听者选择)将所保留的音频源放置在位置处,或者保持它们通过插值给出的相对朝向。内容消费者设备14可以在提取音频源之后添加语音去噪,以增强音频源内的语音分量。内容消费者设备14可以替换音频源分量。例如,在AR场景或其它情况下,内容消费者设备14可以利用一个人的话音替换另一个人的话音。内容消费者设备14可以以交互方式(例如,由收听者选择)或由源设备12指定地交换音频数据或将音频数据分配给不同的源。
图11是示出本公开内容的相关技术的示例的概念图。在一些示例中,内容消费者设备可以针对最接近的多个音频流选择性地执行相关技术,而不是针对所有音频流执行本文所讨论的相关技术。例如,在图11中,示出了收听者位置244。最近的音频流是音频流248C-248E。音频流248A和248B比音频流248C-248E更远离收听者位置244,并且更靠近音频源250。因此,在该示例中,内容消费者设备14可以仅对在区域252内所示的那些音频流执行相关技术。在该示例中,内容消费者设备14可以选择N(其可以是任何正整数)个最接近的音频流(例如,音频流248C-248E),以提高音频声场的准确性(较近的音频流可能对收听者具有较大的影响)并且降低内容消费者设备14的计算复杂性。在一些示例中,内容消费者设备14可以在选择要对其执行所述技术的音频流时考虑音频流之间的角度分离。
图12是根据本公开内容的分级相关技术的概念图。在一些示例中,内容消费者设备14可以使用分级相关技术。例如,内容消费者设备14可以基于给定音频流与收听者位置254有多近来利用不同阶数的全景声。例如,内容消费者设备14可以针对与收听者位置254最近的音频流258C来生成4阶全景声。内容消费者设备14可以针对接下来的2个最近音频流(例如,音频流258D和258E)来生成3阶全景声或2阶全景声,并且针对被示为在圆圈262之外且更靠近音频源260的剩余音频流258A和258B来生成FOA。这些数量是作为示例来提供的,并且可以使用其它数量。在该示例中,相关阶数分辨率随着音频流位置更远离收听者位置254而降低。在一些示例中,可以设置预定门限以定义边界,超出该边界,相关性纯粹与FOA音频流相关。
在一些示例中,本公开内容的技术可以与单声道流场景一起使用。内容可以具有单声道音频流(诸如由点式麦克风捕获的音频流),其应当被包括在矢量场插值中。单声道音频流可能缺乏方向矢量,因此内容消费者设备14可以在矢量场插值中包括该单声道音频源时赋予方向矢量。在一个示例中,内容消费者设备14可以使用与单声道音频源最近的矢量流来插值到单声道音频源的位置。在另一示例中,内容消费者设备14可以使用与收听者位置最近的矢量流来插值到单声道源的位置。
图13是示出本公开内容的示例单声道流技术的概念图。例如,内容消费者设备14可以计算从单声道音频源到收听者位置264的流线265,其中流线是路径c(t),使得:c′(t)=F(c(t))。例如,内容消费者设备14可以确定来自单声道音频源267的流线,如图13中所描绘的。遮挡元素266(诸如物体)可能遮挡流线中的一些流线。内容消费者设备14可以在收听者位置264处将矢量268赋予到单声道音频源267的流路径的方向。在该示例中,流线可以考虑场景中的任何声学元素,而使用其它技术的局部插值可能不考虑。关于计算流线的更多信息可以在以下文档中找到:Marsden、Jerrold E.和Anthony Tromba,Vector Calculus,麦克米伦,2003年。
图14是可以执行在本公开内容中描述的技术的各个方面的系统的框图。图14的系统包括多流编码器340和回放设备348。多流编码器340可以是源设备12的示例,并且回放设备348可以是内容消费者设备14的示例。音频流330A-330N和音频对象332可以表示由麦克风在一个或多个位置处捕获的音频或者由计算设备生成并且旨在处于一个或多个位置的合成音频。元数据334可以包括标识音频流330A-330N和/或音频对象332的位置的位置信息。音频流330A-330F和音频对象332中的每一者可以由相应的编码器336A-336O进行编码。复用器(mux 338)可以将经编码的音频流、经编码的音频对象和元数据334复用在一起。经复用的信号可以经由比特流发送到回放设备34B。解复用器(demux 342)可以对经复用的信号进行解复用。解码器344A-344O可以对经解复用的音频信号进行解码,以重新创建音频流330A-330N和音频对象332。解复用器342还可以对元数据334进行解复用,元数据334可以包括音频流330A-330N和音频对象332的位置。基于单SVD的矢量场插值346可以将基于单SVD的矢量场插值应用于经解码的音频流和经解码的音频对象,以生成音频声场,该音频声场可以被渲染到用户或者输出到另一设备以用于渲染。
在图14的示例中,音频流330A-330N中的每一者可以包括由包括1个或多个麦克风的设备捕获的PCM音频流。在一些示例中,音频对象可以是与相关联的元数据一起发送的,例如,如果存在以对象格式编码的音乐流或某种媒体的话。在一些示例中,复用器338是MPEG-I复用器。复用器338可以将6DoF元数据(例如,在元数据334中)添加到比特流以输出到回放设备348。在一些示例中,不是在多流编码器340中存在复用器338,而是可以存在与编码器336A-336O中的每一者相关联的可以将音频数据与6DoF元数据进行复用的复用器,诸如各自具有其自己的复用器的单独编码设备。在一些示例中,复用器338可以在与多流编码器340分离的设备(诸如服务器、虚拟助理、计算设备等)中。在一些示例中,复用器338可以对与每个音频流相关联的所有单独元数据进行聚合。
在一些示例中,回放设备348可以对通过堆叠所有音频流而创建的矩阵应用基于SVD的矢量场插值。在这些示例中,音频场景和音频源可以在大的音频帧内不改变。
在一些示例中,音频流330A-330N可以具有经压缩的全景声流格式。在这种场景中,SVD可以在编码之前由多流编码器340应用,而不是在回放设备348上应用。
在MPEG-H中,V矢量是同时指向声场中的所有音频源的多维矢量。在一些示例中,解码器344A-344O的输出是全景声系数。例如,回放设备348可以创建数量为O(非零)的全景声系数集合,针对每个音频流或音频对象有一个全景声系数集合。此外,可以存在与每个解码器相关联的元数据通道,并且元数据通道可以包括V矢量。因此,在图14的示例中,可以存在O(非零)个全景声系数集合和O(非零)个V矢量。
图15是示出在波场插值之前的音频流的示例的概念图。图15示出了音频流350A、音频流350B、音频流350C和收听者位置354。每个音频流都具有与该音频流相关联的位置。
图16是示出具有所确定的矢量场的音频流的示例的概念图。每个位置(诸如音频流350A-350C的位置和收听者位置354)包括x、y和z方向分量以表示3D方向矢量,其中该矢量的长度表示音频流在指定坐标(x,y,z)处的幅度。例如,可以是作为线性矢量场的方向矢量。在该示例中,a、b、c、d是3*1个矢量。
在给定位置(x1,y1,z1)、(x2,y2,z2)和(x3,y3,z3)处的D1、D2和D3的情况下,分别找到位于由音频流350A-350C的位置包围的区域352(三角形)内的位置(x4,y4,z4)处的D4(方向矢量)。在区域352内进行插值产生稳定的结果,然而在区域352之外的插值也是可能的。
回放设备348可以将最小二乘问题如下公式化:
其中解作为其中,/>表示矩阵的伪逆。为了找到收听者位置处的D,回放设备348可以计算/>
回放设备348可以从点源场景开始,其中,音频源位于坐标(sx,sy,sz)处。回放设备348可以根据来确定矢量场,其中,矢量指向音频源并且矢量的长度表示到音频源的距离。长度随着距离的增加而增加,但是对于声音,幅度(平方和的均方根(rms))与距离成反比,其中幅度在音频源位置处是无穷大的。然而,对于最小二乘问题的解来说,这种无穷大可能是不稳定的,尤其是当在所捕获的声音中存在噪声时。因此,回放设备348可以从音频源的一阶分量中找到法线方向矢量,并且将长度设置为音频源的均方根(rms)能量的倒数。那么
在以上公式中,W、X、Y和Z是一阶分量。在给定在若干不同的捕获位置(诸如音频流350A-350C的位置)处的D(x,y,z)的情况下,回放设备348可以使用先前的最小二乘公式来估计在收听者位置354处的D(x,y,z)。在这种情况下,回放设备348可以确保存在单个音频源,或者使用SVD以及在V矢量之间的对应关系来分离出音频源,并且然后应用矢量场插值来估计D(x,y,z)。对于其中不存在特定源位置的分布式音频源和环境源,该公式可以是稳健的,在这种情况下,矩阵A在前三列中可能不是近似对角线的。该特性可以用于将不同的点源与环境或在很大程度上与分布式音频源分离。
例如,回放设备348可以接收比特流并且确定音频流(诸如音频流350A-350C)的位置。回放设备348可以针对每个音频流来确定参数(a、b、c和d)。回放设备348可以利用参数矩阵A,并且对于不具有源的位置(例如,收听者位置354),可以确定该收听者位置处的方向矢量(D4)。回放设备348可以将方向矢量D4从笛卡尔坐标转换为球面坐标。根据球面坐标,回放设备348可以确定全景声系数(一阶,例如,4个系数C0、C1、C2、C3,其也可以被表示为X、Y、Z和W)或者也被描述为一阶全景声(FOA)通道。在一些示例中,回放设备348可以将参数矩阵A发送到单独的渲染设备,诸如可穿戴设备500、耳机48或其它渲染设备。在这种情况下,单独的渲染设备可以使用参数矩阵A来渲染声场。
例如,回放设备348可以从HOA流的一阶分量或部分获得方向矢量。根据已知的方向矢量,回放设备348可以通过找到矩阵A来估计收听者位置354处的方向矢量。回放设备348可以将方向矢量转换为某一阶全景声(在假设平面波的情况下)。回放设备348可以交换这些全景声来代替V1、V2、V3和V4。在该示例中,W、X、Y和Z是V矢量的一阶系数,例如,X1(1)是针对音频流1(例如,音频流350A)的V矢量1的X分量。
根据音频流1
d1(1)x=(X1(1)/W1(1))/音频帧的rms能量
d1(1)y=(Y1(1)/W1(1))/音频帧的rms能量
d1(1)z=(Z1(1)/W1(1))/音频帧的rms能量
根据音频流2
d1(2)x=(X1(2)/W1(2))/音频帧的rms能量
d1(2)y=(Y1(2)/W1(2))/音频帧的rms能量
d1(2)z=(Z1(2)/W1(2))/音频帧的rms能量
根据音频流3
d1(3)x=(X1(3)/W1(3))/音频帧的rms能量
d1(3)y=(Y1(3)/W1(3))/音频帧的rms能量
d1(3)z=(Z1(3)/W1(3))/音频帧的rms能量
[找到(针对V矢量1的)D4]
根据音频流1[D2]
d1(1)x=(X2(1)/W2(1))/音频帧的rms能量
d1(1)y=(Y2/W1)/音频帧的rms能量
d1(1)z=(Z2/W1)/音频帧的rms能量
[找到(针对V矢量2的)D4]
D4(V1)、D4(V2)、D4(V3)
D4是方向分量,并且回放设备348可以找到角度theta和phi。回放设备348可以假设平面波,并且基于全景声阶数来转换到任何阶数D4'。
(n+1的)D4,其中n+1是具有3个全景声分量的任何阶数。
例如,代替V1,回放设备348可以交换D4(1)以获得D4所指向的音频源的方向。代替V2,回放设备348可以交换D4(2)以获得D4所指向的音频源的方向。代替V3,回放设备348可以交换D4(3)以获得D4所指向的音频源的方向。回放设备348可以将流相加在一起并且渲染音频场景。
对于非全景声,回放设备348可以具有源或对象的位置(sx,sy,sz),并且可以通过假设超平面是如下各项来确定矩阵A:
dx1=x1-sx
dy1=y1-sy
dz1=z1-sz
dx4=x4-sx
dy4=y4-sy
dz4=z4-sz
这产生a1,b1,c1是[如下所示的单位矩阵]
A=[(1,0,0)–sx
(0,1,0)–sy
(0,0,1)-sz]
在一些示例中,多流编码器340可以将标志插入到回放设备348可以接收的比特流中。该标志可以表示音频数据是音频对象还是全景声流。在一些示例中,回放设备根据该标志的值来确定D4是在笛卡尔坐标域中还是在全景声域中。
图17是根据本公开内容的技术的示例回放设备的功能框图。回放设备368类似于图14的回放设备348,然而,回放设备3680包括方向扭曲器370。解复用器362可以对经复用的信号进行解复用。解码器364A-364O可以对经解复用的音频信号进行解码,以重新创建音频流和音频对象。解复用器362还可以对元数据364进行解复用,元数据364可以包括音频流和音频对象的位置。基于单SVD的矢量场插值366可以将基于单SVD的矢量场插值应用于经解码的音频流和经解码的音频对象。方向扭曲器370然后可以对由基于单SVD的矢量场插值366生成的方向进行扭曲。方向扭曲器370可以生成音频声场,该音频声场可以被渲染到用户或者输出到另一设备以用于渲染。
在一些示例中,回放设备368可以将方向扭曲器370应用于图16的D4。方向扭曲器370可以采用以下对(D1和D4)、(D2和D4)和(D3和D4)。例如,方向扭曲器可以找到针对音频流350A的V矢量D1的D41、针对音频流350B的V矢量D2的D42以及针对音频流350C 3的V矢量D3的D43。回放设备368可以将V矢量和旋转信息从所确定的D4转换回任何全景声阶数。
图18是示出本公开内容的方向扭曲技术的概念图。在方向扭曲之后,音频流350A的V矢量D14、音频流350B的V矢量D24和音频流350C的V矢量D34现在指向收听者位置354。
本公开内容的技术可以用于高效地表示声场,以便一旦收听者移动就进行渲染。在一些示例中,不是在回放设备348处确定声场,而是回放设备可以确定参数矩阵A并且将参数矩阵A和音频数据(例如,系数)发送到单独的渲染设备,并且渲染设备可以基于参数矩阵A来确定声场。例如,渲染设备可以通过将参数矩阵A乘以收听者位置的位置来确定声场。
这允许以紧凑的方式表示整个声场,使得在改变收听者位置时,可以确定源的方向矢量,如同其正到达收听者一样。
在其中回放设备348未在渲染声场而是向单独的渲染设备发送信息的示例中,渲染设备可以不需要向回放设备348发送收听者位置。相反,回放设备348可以仅向渲染设备发送参数矩阵A,并且渲染设备可以如上所述地使用参数矩阵A来确定D4。
例如,回放设备348可以发送音频数据和参数矩阵A。在这种情况下,当收听者位置再次改变时,回放设备348可以重新计算参数矩阵A,并且向渲染设备发送经更新的参数矩阵A。当确定参数矩阵A时,回放设备348本质上拟合针对声场的方向矢量的超平面。这允许以紧凑的方式来表示整个声场。当收听者位置改变时,回放设备348或渲染设备确定音频流的方向矢量,如同其正到达收听者一样。
图19是示出本公开内容的示例矢量场插值技术的流程图。内容消费者设备14可以获得包括音频源的第一音频流的第一位置(280)。例如,内容消费者设备14可以接收与第一音频流相关联的位置数据。位置数据可以包括X、Y和/或Z坐标并且可以是相对于音频源的。内容消费者设备14可以获得包括音频源的第二音频流的第二位置(282)。例如,内容消费者设备14可以接收与第二音频流相关联的位置数据。位置数据可以包括X、Y和/或Z坐标并且可以是相对于音频源的。
内容消费者设备14可以基于音频源的位置和第一位置以及基于音频源在第一位置处的能量的倒数来生成源自第一位置的第一方向矢量(284)。例如,内容消费者设备14可以生成从第一位置指向音频源的矢量,该矢量具有与音频源在第一位置处的能量成反比的长度。
内容消费者设备14可以基于音频源的位置和第二位置以及基于音频源在第二位置处的能量的倒数来生成源自第二位置的第二方向矢量(286)。例如,内容消费者设备14可以生成从第二位置指向音频源的矢量,该矢量具有与音频源在第二位置处的能量成反比的长度。
内容消费者设备14可以基于第一方向矢量和第二方向矢量来确定描述矢量场的参数(288)。例如,内容消费者设备14可以执行第一方向矢量和第二方向矢量的回归或最小均方。例如,内容消费者设备14可以确定第一音频流和第二音频流的平面波平移,确定针对经平面波平移的音频流中的一者的协方差和线性可逆变换,并且将经平面波平移的音频流中的另一者的一阶分量与针对经平面波平移的音频流中的所述一者的协方差和线性可逆变换进行相关。在一些示例中,线性可逆变换是奇异值分解。
在一些示例中,内容消费者设备14可以基于参数来渲染音频声场。在一些示例中,内容消费者设备14可以向单独的渲染设备发送参数。例如,内容消费者设备14可以向诸如可穿戴设备500之类的可穿戴设备发送参数矩阵[A]。在一些示例中,内容消费者设备14可以是移动手持机。在一些示例中,内容消费者设备14是虚拟助理。在一些示例中,源设备12是移动手持机。在一些示例中,源设备12是虚拟助理。换句话说,本公开内容的技术可以由移动手持机或虚拟助理来执行。
在一些示例中,音频数据是经编码的音频数据,并且内容消费者设备14可以从比特流27解复用经编码的音频数据和位置数据,并且可以解码与第一音频流和第二音频流相关联的经编码的音频数据以确定经解码的音频数据。在一些示例中,内容消费者设备14可以包括解复用器,其被配置为从比特流解复用经编码的音频数据和位置数据。
在一些示例中,源设备12可以对与第一音频流和第二音频流相关联的音频数据进行编码,以确定经编码的音频数据。在一些示例中,源设备12包括复用器,其被配置为将经编码的音频数据和位置数据复用到比特流27中。
在一些示例中,第一音频流和第二音频流中的至少一者是全景声流。在一些示例中,第一音频流和第二音频流中的至少一者是音频对象。在一些示例中,第一音频流和第二音频流中的至少一者是单通道音频流(例如,诸如来自点式麦克风的单声道流)。
在一些示例中,内容消费者设备14可以确定经平面波平移的音频流中的与收听者位置最近的音频流。在一些示例中,经平面波平移的音频流中的所述一者是最近的音频流。
在一些示例中,内容消费者设备14可以针对经平面波平移的音频流中的每一者来确定相应的延迟,并且将相应的延迟应用于经平面波平移的音频流中的每一者。在一些示例中,内容消费者设备14可以将经平面波平移的音频流转换为收听者位置处的全景声音频流。在一些示例中,内容消费者设备14可以对收听者位置处的全景声音频流进行波束扭曲。在一些示例中,内容消费者设备可以在收听者位置处对第一音频流和第二音频流进行波束扭曲。在一些示例中,内容消费者设备14可以基于参数来外推高度。
图20是示出具有三个或更多个音频流的示例音乐会的概念图。在图20的示例中,多个音乐家被描绘为在舞台323上。歌手312位于麦克风310A后面。弦乐部分314被描绘为在麦克风310B后面。鼓手316被描绘在麦克风310C后面。其他音乐家318被描绘为在麦克风310D后面。麦克风310A-301D可以捕获与由麦克风接收的声音相对应的音频流。在一些示例中,麦克风310A-310D可以表示合成音频流。例如,麦克风310A可以捕获主要与歌手312相关联的音频流,但是音频流还可能包括由其他乐队成员(诸如弦乐部分314、鼓手316或其他音乐家318)产生的声音,而麦克风310B可以捕获主要与弦乐部分314相关联的音频流,但包括由其他乐队成员产生的声音。以这种方式,麦克风310A-310D中的每一者可以捕获不同的音频流。
还描绘了多个设备。这些设备表示位于多个不同期望收听位置的用户装置。耳机320位于麦克风310A附近,但是位于麦克风310A和麦克风310B之间。因此,根据本公开内容的技术,内容消费者设备14可以选择音频流中的至少一个音频流,以产生针对耳机320的用户的音频体验,类似于用户位于在图20中耳机320所位于的位置。类似地,VR护目镜322被示为位于麦克风310C后面并且位于鼓手316和其他音乐家318之间。内容消费者设备可以选择至少一个音频流来产生针对VR护目镜322的用户的音频体验,类似于用户位于在图20中VR护目镜322所位于的位置。
智能眼镜324被示为位于麦克风310A、310C和310D之间的相当中心位置。内容消费者设备可以选择至少一个音频流来产生针对智能眼镜324的用户的音频体验,类似于用户位于在图20中智能眼镜324所位于的位置。此外,设备326(其可以表示能够实现本公开内容的技术的任何设备,诸如移动手持机、扬声器阵列、耳机、VR护目镜、智能眼镜等)被示为位于麦克风310B的前面。内容消费者设备14可以选择至少一个音频流来产生针对设备326的用户的音频体验,类似于用户位于在图20中设备325所位于的位置。虽然关于特定位置讨论了特定设备,但是所描绘的任何设备的使用可以提供对与在图20中描绘的不同的期望收听位置的指示。图20的任何设备可以用于实现本公开内容的技术。
图21是示出可以根据在本公开内容中描述的技术的各个方面进行操作的可穿戴设备500的示例的图。在各个示例中,可穿戴设备500可以表示VR头戴式耳机(诸如上述VR设备400)、AR头戴式耳机、MR头戴式耳机或任何其它类型的扩展现实(XR)头戴式耳机。增强现实“AR”可以指代覆盖在用户实际所位于的真实世界之上的计算机渲染的图像或数据。混合现实“MR”可以指代被锁定在真实世界中的特定位置的计算机渲染的图像或数据,或者可以指代VR上的变型,其中部分计算机渲染的3D元素和部分拍摄的真实元素被组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示VR、AR和MR的笼统术语。关于用于XR的术语的更多信息可以在以下文档中找到:Jason Peterson,名称为“VirtualReality,Augmented Reality,and Mixed Reality Definitions”并且日期为2017年7月7日。
可穿戴设备500可以表示其它类型的设备,诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、耳机(包括所谓的“无线耳机”和“智能耳机”)、智能服装、智能珠宝等。无论是表示VR设备、手表、眼镜和/或耳机,可穿戴设备500都可以经由有线连接或无线连接来与支持可穿戴设备500的计算设备进行通信。
在一些情况下,支持可穿戴设备500的计算设备可以被集成在可穿戴设备500内,并且因此,可穿戴设备500可以被视为与支持可穿戴设备500的计算设备相同的设备。在其它情况下,可穿戴设备500可以与可以支持可穿戴设备500的单独的计算设备进行通信。在这方面,术语“支持”不应当被理解为需要单独的专用设备,但是被配置为执行在本公开内容中描述的技术的各个方面的一个或多个处理器可以被集成在可穿戴设备500内,或者集成在与可穿戴设备500分离的计算设备内。
例如,当可穿戴设备500表示VR设备400时,单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视频内容,而可穿戴设备500可以根据在本公开内容中描述的技术的各个方面,确定平移头部移动,其中基于平移头部移动,专用计算设备可以渲染音频内容(作为扬声器馈送)。作为另一示例,当可穿戴设备500表示智能眼镜时,可穿戴设备500可以包括一个或多个处理器,其既确定平移头部移动(通过在可穿戴设备500的一个或多个传感器内对接),又基于所确定的平移头部移动来渲染扬声器馈送。
如图所示,可穿戴设备500包括一个或多个定向扬声器、以及一个或多个跟踪和/或记录相机。此外,可穿戴设备500包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼球跟踪相机、一个或多个高灵敏度音频麦克风以及光学/投影硬件。可穿戴设备500的光学/投影硬件可以包括耐用的半透明显示技术和硬件。
可穿戴设备500还包括连接硬件,其可以表示支持多模式连接的一个或多个网络接口,诸如4G通信、5G通信、蓝牙、Wi-Fi等。可穿戴设备500还包括一个或多个环境光传感器和骨传导换能器。在一些情况下,可穿戴设备500还可以包括具有鱼眼镜头和/或长焦镜头的一个或多个被动和/或主动相机。尽管在图19中未示出,但是可穿戴设备500还可以包括一个或多个发光二极管(LED)灯。在一些示例中,LED灯可以被称为“超亮”LED灯。在一些实现中,可穿戴设备500还可以包括一个或多个后置相机。将明白的是,可穿戴设备500可以表现为各种不同的形状因子。
此外,跟踪和记录相机以及其它传感器可以促进确定平移距离。尽管在图19的示例中未示出,但是可穿戴设备500可以包括用于检测平移距离的其它类型的传感器。
尽管关于可穿戴设备的特定示例(诸如上文关于图21的示例讨论的VR设备400以及在图1A-1C和图2的示例中阐述的其它设备)进行描述,但是本领域普通技术人员将明白与图1A-1C、图2和图21相关的描述可以适用于可穿戴设备的其它示例。例如,其它可穿戴设备(诸如智能眼镜)可以包括通过其获得平移头部移动的传感器。作为另一示例,其它可穿戴设备(诸如智能手表)可以包括通过其获得平移移动的传感器。因此,在本公开内容中描述的技术不应当限于特定类型的可穿戴设备,但是任何可穿戴设备可以被配置为执行在本公开内容中描述的技术。
图22A和22B是示出可以执行在本公开内容中描述的技术的各个方面的示例系统的图。图22A示出了其中源设备12C还包括相机600的示例。相机600可以被配置为捕获视频数据,并且将所捕获的原始视频数据提供给内容捕获设备20。内容捕获设备20C可以将视频数据提供给源设备12C的另一组件,以便进一步处理为经视口划分的部分。
在图22A的示例中,内容消费者设备14C还包括可穿戴设备410。将理解的是,在各种实现中,可穿戴设备410可以被包括在内容消费者设备14中,或者在外部耦合到内容消费者设备14。可穿戴设备410包括用于输出视频数据(例如,与各种视口相关联的)和用于渲染音频数据的显示硬件和扬声器硬件。
图22B示出了其中内容消费者设备14D将在图22A中所示的音频渲染器32替换为双耳渲染器42的示例,双耳渲染器42能够使用一个或多个HRTF来执行双耳渲染、或者能够渲染为左侧和右侧扬声器馈送43的其它功能。音频回放系统16C可以将左侧和右侧扬声器馈送43输出到耳机44。
耳机44可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过蓝牙TM连接、无线网络连接等)耦合到音频回放系统16C。耳机44可以基于左侧和右侧扬声器馈送43来重现由音频数据19’表示的声场。耳机44可以包括左侧耳机扬声器和右侧耳机扬声器,其由相应的左侧和右侧扬声器馈送43供电(或换句话说,驱动)。
图23是示出在图1A-图1C的示例中示出的源设备12、内容消费者设备14、图14的多流编码器340、回放设备348或图17的回放设备368中的一者或多者的示例组件的框图。在图23的示例中,设备710包括处理器712(其可以被称为“一个或多个处理器”或“处理器”)、图形处理单元(GPU)714、系统存储器716、显示处理器718、一个或多个集成扬声器740、显示器703、用户接口720、天线721和收发机模块722。在设备710是移动设备的示例中,显示处理器718是移动显示处理器(MDP)。在一些示例(诸如设备710是移动设备的示例)中,处理器712、GPU 714和显示处理器718可以形成为集成电路(IC)。
例如,IC可以被视为芯片封装内的处理芯片,并且可以是片上系统(SoC)。在一些示例中,处理器712、GPU 714和显示处理器718中的两者可以一起容纳在同一IC中,而另一者可以容纳在不同的集成电路(即,不同的芯片封装)中,或者所有三者可以容纳在不同的IC中或在同一IC上。然而,在其中设备710是移动设备的示例中,处理器712、GPU 714和显示处理器718有可能全部容纳在不同的集成电路中。
处理器712、GPU 714和显示处理器718的示例包括但不限于一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或分立逻辑电路。处理器712可以是设备710的中央处理单元(CPU)。在一些示例中,GPU 714可以是包括集成和/或分立逻辑电路的专用硬件,该集成和/或离散逻辑电路为GPU 714提供适于图形处理的大规模并行处理能力。在一些情况下,GPU 714还可以包括通用处理能力,并且在实现通用处理任务(即,非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718还可以是专用集成电路硬件,其被设计为从系统存储器716检索图像内容,将图像内容组成为图像帧,并且将图像帧输出到显示器703。
处理器712可以执行各种类型的应用。应用的示例包括web浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可视对象的其它应用、或者上面更详细地列出的任何应用类型。系统存储器716可以存储用于执行应用的指令。在处理器712上执行应用之一使得处理器712产生用于要显示的图像内容的图形数据和要播放(可能经由集成扬声器740)的音频数据19。处理器712可以将图像内容的图形数据发送给GPU 714,以用于基于处理器712发送给GPU 714的指令或命令进行进一步处理。
处理器712可以根据特定应用处理接口(API)来与GPU 714进行通信。此类API的示例包括的/>API、Khronos group的/>或OpenGL/>以及OpenCLTM;然而,本公开内容的各方面不限于DirectX、OpenGL或OpenCL API,并且可以扩展到其它类型的API。此外,在本公开内容中描述的技术不需要根据API来运行,并且处理器712和GPU 714可以利用任何过程进行通信。
系统存储器716可以是用于设备710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括但不限于随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、闪存、或可以用于以指令和/或数据结构的形式携带或存储期望程序代码并可以由计算机或处理器访问的其它介质。
在一些示例中,系统存储器716可以包括使得处理器712、GPU 714和/或显示处理器718执行在本公开内容中赋予处理器712、GPU 714和/或显示处理器718的功能的指令。因此,系统存储器716可以是具有存储在其上的指令的计算机可读存储介质,所述指令在被执行时使得一个或多个处理器(例如,处理器712、GPU 714和/或显示处理器718)执行各种功能。
系统存储器716可以包括非暂时性存储介质。术语“非暂时性”指示存储介质不体现在载波或传播信号中。然而,术语“非暂时性”不应当被解释为意味着系统存储器716是不可移动的或其内容是静态的。作为一个示例,系统存储器716可以从设备710移除并且移到另一设备。作为另一示例,基本上类似于系统存储器716的存储器可以被插入到设备710中。在某些示例中,非暂时性存储介质可以存储随着时间变化的数据(例如,在RAM中)。
用户接口720可以表示一个或多个硬件或虚拟(意指硬件和软件的组合)用户接口,用户可以通过用户接口与设备710进行交互。用户接口720可以包括物理按钮、开关、切换键、灯或其虚拟版本。用户接口720还可以包括物理或虚拟键盘、触摸界面(诸如触摸屏、触觉反馈等)。
处理器712可以包括一个或多个硬件单元(包括所谓的“处理核”),其被配置为执行上文关于内容创建者设备和/或内容消费者设备的模块、单元或其它功能组件中的一者或多者讨论的全部或一些操作。天线721和收发机模块722可以表示被配置为建立和维护源设备12和内容消费者设备14之间的连接的单元。天线721和收发机模块722可以表示一个或多个接收机和/或一个或多个发射机,其能够根据一种或多种无线通信协议(诸如第五代(5G)蜂窝标准、Wi-Fi、个域网(PAN)协议(诸如蓝牙TM)、或其它开源、专有或其它通信标准)进行无线通信。例如,收发机模块722可以接收和/或发送无线信号。收发机模块722可以表示单独的发射机、单独的接收机、单独的发射机和单独的接收机两者、或者经组合的发射机和接收机。天线721和收发机模块722可以被配置为接收经编码的音频数据。类似地,天线721和收发机模块722可以被配置为发送经编码的音频数据。
图24示出了支持根据本公开内容的各方面的设备和方法的无线通信系统100的示例。无线通信系统100包括基站105、UE 115以及核心网络130。在一些示例中,无线通信系统100可以是长期演进(LTE)网络、改进的LTE(LTE-A)网络、LTE-A Pro网络、第5代(5G)蜂窝网络或新无线电(NR)网络。在一些情况下,无线通信系统100可以支持增强型宽带通信、超可靠(例如,任务关键)通信、低时延通信或者与低成本且低复杂度设备的通信。
基站105可以经由一个或多个基站天线与UE 115无线地进行通信。本文描述的基站105可以包括或可以被本领域技术人员称为基站收发机、无线基站、接入点、无线收发机、节点B、演进型节点B(eNB)、下一代节点B或千兆节点B(任一项可以被称为gNB)、家庭节点B、家庭演进型节点B、或某种其它适当的术语。无线通信系统100可以包括不同类型的基站105(例如,宏小区基站或小型小区基站)。本文描述的UE 115能够与各种类型的基站105和网络设备(包括宏eNB、小型小区eNB、gNB、中继基站等)进行通信。
每个基站105可以与在其中支持与各个UE 115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖,并且在基站105和UE 115之间的通信链路125可以利用一个或多个载波。在无线通信系统100中示出的通信链路125可以包括:从UE 115到基站105的上行链路传输、或者从基站105到UE 115的下行链路传输。下行链路传输还可以被称为前向链路传输,而上行链路传输还可以被称为反向链路传输。
可以将针对基站105的地理覆盖区域110划分为扇区,所述扇区构成地理覆盖区域110的一部分,并且每个扇区可以与小区相关联。例如,每个基站105可以提供针对宏小区、小型小区、热点、或其它类型的小区、或其各种组合的通信覆盖。在一些示例中,基站105可以是可移动的,并且因此,提供针对移动的地理覆盖区域110的通信覆盖。在一些示例中,与不同的技术相关联的不同的地理覆盖区域110可以重叠,并且与不同的技术相关联的重叠的地理覆盖区域110可以由相同的基站105或不同的基站105来支持。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-A Pro、5G蜂窝或NR网络,其中不同类型的基站105提供针对各个地理覆盖区域110的覆盖。
UE 115可以散布于整个无线通信系统100中,并且每个UE 115可以是静止的或移动的。UE 115还可以被称为移动设备、无线设备、远程设备、手持设备、或用户设备、或某种其它适当的术语,其中,“设备”还可以被称为单元、站、终端或客户端。UE 115还可以是个人电子设备,例如,蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开内容的示例中,UE 115可以是在本公开内容中描述的音频源中的任何音频源,包括VR头戴式耳机、XR头戴式耳机、AR头戴式耳机、车辆、智能电话、麦克风、麦克风阵列或包括麦克风的任何其它设备,或者能够发送捕获的和/或合成的音频流。在一些示例中,合成的音频流可以是被存储在存储器中或先前创建或合成的音频流。在一些示例中,UE 115还可以指代无线本地环路(WLL)站、物联网(IoT)设备、万物联网(IoE)设备或MTC设备等,其可以是在诸如电器、车辆、仪表等的各种物品中实现的。
一些UE 115(例如,MTC或IoT设备)可以是低成本或低复杂度设备,并且可以提供在机器之间的自动化通信(例如,机器到机器(M2M)通信)。M2M通信或MTC可以指代允许设备在没有人为干预的情况下与彼此或基站进行通信的数据通信技术。在一些示例中,M2M通信或MTC可以包括来自交换和/或使用音频信息(诸如元数据)的设备的通信,这些音频信息指示隐私限制和/或基于密码的隐私数据,以切换、屏蔽各种音频流和/或音频源和/或使各种音频流和/或音频源为空,如下文将更详细地描述的。
在一些情况下,UE 115还能够与其它UE 115直接进行通信(例如,使用对等(P2P)或设备到设备(D2D)协议)。利用D2D通信的一组UE 115中的一个或多个UE 115可以在基站105的地理覆盖区域110内。这样的组中的其它UE 115可以在基站105的地理覆盖区域110之外,或者以其它方式无法从基站105接收传输。在一些情况下,经由D2D通信来进行通信的多组UE 115可以利用一到多(1:M)系统,其中,每个UE 115向该组中的每个其它UE 115进行发送。在一些情况下,基站105促进对用于D2D通信的资源的调度。在其它情况下,D2D通信是在UE 115之间执行的,而不涉及基站105。
基站105可以与核心网络130进行通信以及彼此进行通信。例如,基站105可以通过回程链路132(例如,经由S1、N2、N3或其它接口)与核心网络130对接。基站105可以在回程链路134上(例如,经由X2、Xn或其它接口)上直接地(例如,直接在基站105之间)或间接地(例如,经由核心网络130)彼此进行通信。
在一些情况下,无线通信系统100可以利用经许可和非许可射频频谱带两者。例如,无线通信系统100可以采用非许可频带(例如,5GHz ISM频带)中的许可辅助接入(LAA)、LTE非许可(LTE-U)无线接入技术、5G蜂窝技术、或NR技术。当在非许可射频频谱带中操作时,无线设备(例如,基站105和UE 115)可以在发送数据之前采用先听后说(LBT)过程来确保频率信道是空闲的。在一些情况下,非许可频带中的操作可以基于结合在经许可频带(例如,LAA)中操作的分量载波的载波聚合配置。非许可频谱中的操作可以包括下行链路传输、上行链路传输、对等传输或这些项的组合。非许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或这两者的组合。
应认识到的是,根据示例,本文描述的任何技术的某些动作或事件可以以不同的顺序执行,可以被添加、合并或完全省略(例如,并非所有描述的动作或事件是对于实施所述技术都是必要的)。此外,在某些示例中,动作或事件可以例如通过多线程处理、中断处理或多个处理器并发地而不是顺序地执行。
在一些示例中,VR设备(或流式传输设备)可以使用耦合到VR/流式传输设备的存储器的网络接口来与外部设备传送交换消息,其中交换消息与声场的多个可用表示相关联。在一些示例中,VR设备可以使用耦合到网络接口的天线来接收包括数据分组、音频分组、视频分组或与声场的多个可用表示相关联的传输协议数据的无线信号。在一些示例中,一个或多个麦克风阵列可以捕获声场。
在一些示例中,被存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶全景声表示、声场的混合阶全景声表示、声场的基于对象的表示与声场的高阶全景声表示的组合、声场的基于对象的表示与声场的混合阶全景声表示的组合、或声场的混合阶表示与声场的高阶全景声表示的组合。
在一些示例中,声场的多个可用表示中的一个或多个声场表示可以包括至少一个高分辨率区域和至少一个低分辨率区域,并且其中,基于转向角所选择的呈现提供关于至少一个高分辨率区域的较高空间精度以及关于低分辨率区域的较小空间精度。
在一个或多个示例中,所描述的功能可以用硬件、软件、固件或其任何组合来实现。如果用软件来实现,则所述功能可以作为一个或多个指令或代码存储在计算机可读介质上或者通过其进行传输并且由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质,其对应于诸如数据存储介质之类的有形介质或者通信介质,所述通信介质包括例如根据通信协议来促进计算机程序从一个地方传送到另一个地方的任何介质。以这种方式,计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质、或者(2)诸如信号或载波之类的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器访问以取得用于实现在本公开内容中描述的技术的指令、代码和/或数据结构的任何可用的介质。计算机程序产品可以包括计算机可读介质。
通过举例而非限制性的方式,这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、闪存、或者能够用于以指令或数据结构形式存储期望的程序代码以及能够由计算机访问的任何其它介质。此外,任何连接被适当地称为计算机可读介质。例如,如果使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者无线技术(例如,红外线、无线电和微波)从网站、服务器或其它远程源传输指令,则同轴电缆、光纤光缆、双绞线、DSL或者无线技术(例如,红外线、无线电和微波)被包括在介质的定义中。然而,应当理解的是,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它临时性介质,而是替代地针对非临时性的有形存储介质。如本文所使用的,磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘则利用激光来光学地复制数据。上述各项的组合也应当被包括在计算机可读介质的范围之内。
指令可以由一个或多个处理器来执行,诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的集成或分立逻辑电路。因此,如本文所使用的术语“处理器”可以指代前述结构中的任何一者或者适于实现本文描述的技术的任何其它结构。另外,在一些方面中,本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供,或者被并入经组合的编解码器中。此外,所述技术可以完全在一个或多个电路或逻辑元件中实现。
本公开内容的技术可以在多种多样的设备或装置中实现,包括无线手机、集成电路(IC)或一组IC(例如,芯片组)。在本公开内容中描述了各种组件、模块或单元以强调被配置以执行所公开的技术的设备的功能性方面,但是不一定需要通过不同的硬件单元来实现。确切而言,如上所述,各种单元可以被组合在编解码器硬件单元中,或者由可互操作的硬件单元的集合(包括如上所述的一个或多个处理器)结合适当的软件和/或固件来提供。
已经描述了各个示例。这些和其它示例在所附的权利要求的范围内。

Claims (30)

1.一种设备,包括:
存储器,其被配置为存储与多个音频流相关联的音频数据和位置数据;以及
一个或多个处理器,其耦合到所述存储器并且被配置为:
获得包括音频源的第一音频流的第一位置;
获得包括所述音频源的第二音频流的第二位置;
基于所述音频源的位置和所述第一位置以及基于所述音频源在所述第一位置处的能量的倒数来生成源自所述第一位置的第一方向矢量;
基于所述音频源的所述位置和所述第二位置以及基于所述音频源在所述第二位置处的能量的倒数来生成源自所述第二位置的第二方向矢量;以及
基于所述第一方向矢量和所述第二方向矢量来确定描述矢量场的参数。
2.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为:
基于所述参数和用户位置来渲染音频声场。
3.根据权利要求1所述的设备,还包括:
发射机,其被配置为向渲染设备发送所述参数。
4.根据权利要求1所述的设备,其中,作为确定所述参数的一部分,所述一个或多个处理器被配置为执行所述第一方向矢量和所述第二方向矢量的回归或最小均方。
5.根据权利要求1所述的设备,其中,作为确定所述参数的一部分,所述一个或多个处理器被配置为:
确定所述第一音频流的平面波平移;
确定所述第二音频流的平面波平移;
确定针对经平面波平移的音频流中的一个经平面波平移的音频流的协方差和线性可逆变换;以及
将所述经平面波平移的音频流中的其它经平面波平移的音频流的一阶分量与针对所述经平面波平移的音频流中的所述一个经平面波平移的音频流的所述协方差和线性可逆变换进行相关。
6.根据权利要求5所述的设备,其中,所述线性可逆变换包括奇异值分解。
7.根据权利要求5所述的设备,其中,所述一个或多个处理器还被配置为:
确定所述经平面波平移的音频流中的与收听者位置最近的音频流,
其中,所述经平面波平移的音频流中的所述一个经平面波平移的音频流包括所述最近的音频流。
8.根据权利要求5所述的设备,其中,所述一个或多个处理器还被配置为:
针对所述经平面波平移的音频流中的每一个经平面波平移的音频流来确定相应的延迟;以及
将所述相应的延迟应用于所述经平面波平移的音频流中的每一个经平面波平移的音频流。
9.根据权利要求5所述的设备,其中,所述一个或多个处理器还被配置为:
将所述经平面波平移的音频流转换为收听者位置处的全景声音频流。
10.根据权利要求1所述的设备,其中,所述设备包括移动手持机。
11.根据权利要求1所述的设备,其中,所述设备包括虚拟助理。
12.根据权利要求1所述的设备,其中,所述音频数据是经编码的音频数据,并且所述一个或多个处理器还被配置为:
对与所述第一音频流和所述第二音频流相关联的所述经编码的音频数据进行解码以确定经解码的音频数据,并且其中,所述设备还包括解复用器,所述解复用器被配置为从比特流解复用所述经编码的音频数据和所述位置数据。
13.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为:
对与所述第一音频流和所述第二音频流相关联的所述音频数据进行编码,以确定经编码的音频数据,并且其中,所述设备还包括复用器,所述复用器被配置为将所述经编码的音频数据和所述位置数据复用到比特流中。
14.根据权利要求1所述的设备,其中,所述第一音频流和所述第二音频流中的至少一者是全景声流。
15.根据权利要求1所述的设备,其中,所述第一音频流和所述第二音频流中的至少一者是音频对象。
16.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为:
在收听者位置处对所述第一音频流和所述第二音频流进行波束扭曲。
17.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为:
基于所述参数来外推高度。
18.一种方法,包括:
获得包括音频源的第一音频流的第一位置;
获得包括所述音频源的第二音频流的第二位置;
基于所述音频源的位置和所述第一位置以及基于所述音频源在所述第一位置处的能量的倒数来生成源自所述第一位置的第一方向矢量;
基于所述音频源的所述位置和所述第二位置以及基于所述音频源在所述第二位置处的能量的倒数来生成源自所述第二位置的第二方向矢量;以及
基于所述第一方向矢量和所述第二方向矢量来确定描述矢量场的参数。
19.根据权利要求18所述的方法,还包括:
基于所述参数来渲染音频声场。
20.根据权利要求18所述的方法,还包括:
向渲染设备发送所述参数。
21.根据权利要求18所述的方法,其中,确定所述参数包括:执行所述第一方向矢量和所述第二方向矢量的回归或最小均方。
22.根据权利要求18所述的方法,其中,确定所述参数包括:
确定所述第一音频流的平面波平移;
确定所述第二音频流的平面波平移;
确定针对经平面波平移的音频流中的一个经平面波平移的音频流的协方差和线性可逆变换;以及
将所述经平面波平移的音频流中的其它经平面波平移的音频流的一阶分量与针对所述经平面波平移的音频流中的所述一个经平面波平移的音频流的所述协方差和线性可逆变换进行相关。
23.根据权利要求22所述的方法,其中,所述线性可逆变换包括奇异值分解。
24.根据权利要求22所述的方法,还包括:
确定所述经平面波平移的音频流中的与收听者位置最近的音频流,
其中,所述经平面波平移的音频流中的所述一个经平面波平移的音频流包括所述最近的音频流。
25.根据权利要求22所述的方法,还包括:
针对所述经平面波平移的音频流中的每一个经平面波平移的音频流来确定相应的延迟;以及
将所述相应的延迟应用于所述经平面波平移的音频流中的每一个经平面波平移的音频流。
26.根据权利要求22所述的方法,还包括:
将所述经平面波平移的音频流转换为收听者位置处的全景声音频流。
27.根据权利要求18所述的方法,其中,所述第一音频流和所述第二音频流中的至少一者是全景声流。
28.根据权利要求18所述的方法,其中,所述第一音频流和所述第二音频流中的至少一者是音频对象。
29.一种具有存储在其上的指令的非暂时性计算机可读存储介质,所述指令在被执行时使得一个或多个处理器进行以下操作:
获得包括音频源的第一音频流的第一位置;
获得包括所述音频源的第二音频流的第二位置;
基于所述音频源的位置和所述第一位置以及基于所述音频源在所述第一位置处的能量的倒数来生成源自所述第一位置的第一方向矢量;
基于所述音频源的所述位置和所述第二位置以及基于所述音频源在所述第二位置处的能量的倒数来生成源自所述第二位置的第二方向矢量;以及
基于所述第一方向矢量和所述第二方向矢量来确定描述矢量场的参数。
30.一种设备,包括:
用于获得包括音频源的第一音频流的第一位置的单元;
用于获得包括所述音频源的第二音频流的第二位置的单元;
用于基于所述音频源的位置和所述第一位置以及基于所述音频源在所述第一位置处的能量的倒数来生成源自所述第一位置的第一方向矢量的单元;
用于基于所述音频源的所述位置和所述第二位置以及基于所述音频源在所述第二位置处的能量的倒数来生成源自所述第二位置的第二方向矢量的单元;以及
用于基于所述第一方向矢量和所述第二方向矢量来确定描述矢量场的参数的单元。
CN202180083035.4A 2020-12-18 2021-12-16 用于六自由度应用的多个分布式流的矢量场插值 Pending CN116569255A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/127,004 2020-12-18
US17/127,004 US11743670B2 (en) 2020-12-18 2020-12-18 Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
PCT/US2021/063862 WO2022133118A1 (en) 2020-12-18 2021-12-16 Vector field interpolation of multiple distributed streams for six degree of freedom applications

Publications (1)

Publication Number Publication Date
CN116569255A true CN116569255A (zh) 2023-08-08

Family

ID=79425599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180083035.4A Pending CN116569255A (zh) 2020-12-18 2021-12-16 用于六自由度应用的多个分布式流的矢量场插值

Country Status (4)

Country Link
US (1) US11743670B2 (zh)
EP (1) EP4264964A1 (zh)
CN (1) CN116569255A (zh)
WO (1) WO2022133118A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240129681A1 (en) * 2022-10-12 2024-04-18 Qualcomm Incorporated Scaling audio sources in extended reality systems
CN116992338B (zh) * 2023-09-25 2023-12-19 之江实验室 基于典型变量分析的飞行器imu传感器故障检测方法和装置

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US7333622B2 (en) 2002-10-18 2008-02-19 The Regents Of The University Of California Dynamic binaural sound capture and reproduction
FR2847376B1 (fr) 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
FR2916079A1 (fr) 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
WO2010070225A1 (fr) 2008-12-15 2010-06-24 France Telecom Codage perfectionne de signaux audionumeriques multicanaux
WO2011104463A1 (fr) 2010-02-26 2011-09-01 France Telecom Compression de flux audio multicanal
KR20240009530A (ko) 2010-03-26 2024-01-22 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
WO2013036237A1 (en) 2011-09-08 2013-03-14 Intel Corporation Eye gaze based location selection for audio visual playback
EP2637427A1 (en) 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
GB201211512D0 (en) 2012-06-28 2012-08-08 Provost Fellows Foundation Scholars And The Other Members Of Board Of The Method and apparatus for generating an audio output comprising spartial information
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9466121B2 (en) 2012-09-11 2016-10-11 Qualcomm Incorporated Devices and methods for augmented reality applications
US9237398B1 (en) 2012-12-11 2016-01-12 Dysonics Corporation Motion tracked binaural sound conversion of legacy recordings
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
EP3933834A1 (en) 2013-07-05 2022-01-05 Dolby International AB Enhanced soundfield coding using parametric component generation
TWI631553B (zh) 2013-07-19 2018-08-01 瑞典商杜比國際公司 將以<i>L</i><sub>1</sub>個頻道為基礎之輸入聲音訊號產生至<i>L</i><sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於<i>L</i><sub>1</sub>個聲音頻道至<i>L</i><sub>2</sub>個揚聲器頻道
US9143880B2 (en) 2013-08-23 2015-09-22 Tobii Ab Systems and methods for providing audio to a user based on gaze input
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
EP2866217A1 (en) 2013-10-25 2015-04-29 GN Store Nord A/S An audio information system based on zones and contexts
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10412522B2 (en) 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US20160093308A1 (en) 2014-09-26 2016-03-31 Qualcomm Incorporated Predictive vector quantization techniques in a higher order ambisonics (hoa) framework
US9875745B2 (en) 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
US9940937B2 (en) 2014-10-10 2018-04-10 Qualcomm Incorporated Screen related adaptation of HOA content
US9584915B2 (en) 2015-01-19 2017-02-28 Microsoft Technology Licensing, Llc Spatial audio with remote speakers
US9767618B2 (en) 2015-01-28 2017-09-19 Samsung Electronics Co., Ltd. Adaptive ambisonic binaural rendering
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
KR101942527B1 (ko) 2015-11-09 2019-01-25 엘지전자 주식회사 차량용 어라운드 뷰 제공 장치 및 차량
US20170188170A1 (en) 2015-12-29 2017-06-29 Koninklijke Kpn N.V. Automated Audio Roaming
US10089063B2 (en) 2016-08-10 2018-10-02 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
KR102359897B1 (ko) 2016-09-01 2022-02-08 하만인터내셔날인더스트리스인코포레이티드 실제 세계 사운드를 가상 현실 사운드에 합성하는 것에 의한 동적 증강
US11032663B2 (en) * 2016-09-29 2021-06-08 The Trustees Of Princeton University System and method for virtual navigation of sound fields through interpolation of signals from an array of microphone assemblies
EP3343348A1 (en) 2016-12-30 2018-07-04 Nokia Technologies Oy An apparatus and associated methods
US10424307B2 (en) 2017-01-03 2019-09-24 Nokia Technologies Oy Adapting a distributed audio recording for end user free viewpoint monitoring
US10659906B2 (en) 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
US10264380B2 (en) 2017-05-09 2019-04-16 Microsoft Technology Licensing, Llc Spatial audio for three-dimensional data sets
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
EP3410747B1 (en) 2017-06-02 2023-12-27 Nokia Technologies Oy Switching rendering mode based on location data
US10405126B2 (en) 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
US20190091802A1 (en) 2017-09-25 2019-03-28 General Electric Company Method for forming article, method for forming turbine bucket, and turbine bucket
US11709068B2 (en) 2017-09-27 2023-07-25 Apple Inc. Spatial audio navigation
EP3495921A1 (en) 2017-12-11 2019-06-12 Nokia Technologies Oy An apparatus and associated methods for presentation of first and second virtual-or-augmented reality content
CN114125691A (zh) 2017-12-18 2022-03-01 杜比国际公司 用于在虚拟现实环境中呈现音频信号的方法和系统
US10657974B2 (en) 2017-12-21 2020-05-19 Qualcomm Incorporated Priority information for higher order ambisonic audio data
EP3506082B1 (en) 2017-12-27 2022-12-28 Nokia Technologies Oy Audio rendering for augmented reality
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
IL309872A (en) 2018-04-09 2024-03-01 Dolby Int Ab Methods, devices and systems for three-degree-of-freedom amplification of MPEG-H 3D audio
EP3776543B1 (en) 2018-04-11 2022-08-31 Dolby International AB 6dof audio rendering
US10924876B2 (en) 2018-07-18 2021-02-16 Qualcomm Incorporated Interpolating audio streams
US10728689B2 (en) 2018-12-13 2020-07-28 Qualcomm Incorporated Soundfield modeling for efficient encoding and/or retrieval
US11140503B2 (en) 2019-07-03 2021-10-05 Qualcomm Incorporated Timer-based access for audio streaming and rendering
US11429340B2 (en) 2019-07-03 2022-08-30 Qualcomm Incorporated Audio capture and rendering for extended reality experiences
US11580213B2 (en) 2019-07-03 2023-02-14 Qualcomm Incorporated Password-based authorization for audio rendering
US11356793B2 (en) 2019-10-01 2022-06-07 Qualcomm Incorporated Controlling rendering of audio data
US11317236B2 (en) 2019-11-22 2022-04-26 Qualcomm Incorporated Soundfield adaptation for virtual reality audio
US11089428B2 (en) 2019-12-13 2021-08-10 Qualcomm Incorporated Selecting audio streams based on motion

Also Published As

Publication number Publication date
US20220201418A1 (en) 2022-06-23
EP4264964A1 (en) 2023-10-25
US11743670B2 (en) 2023-08-29
WO2022133118A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
US10924876B2 (en) Interpolating audio streams
US11317236B2 (en) Soundfield adaptation for virtual reality audio
US11356796B2 (en) Priority-based soundfield coding for virtual reality audio
US11429340B2 (en) Audio capture and rendering for extended reality experiences
US11089428B2 (en) Selecting audio streams based on motion
CN114051736A (zh) 用于音频流送和渲染的基于定时器的访问
CN114424587A (zh) 控制音频数据的呈现
CN114041113A (zh) 用于音频渲染的隐私分区和授权
EP3994864A1 (en) Password-based authorization for audio rendering
CN116569255A (zh) 用于六自由度应用的多个分布式流的矢量场插值
US11601776B2 (en) Smart hybrid rendering for augmented reality/virtual reality audio
US20240129681A1 (en) Scaling audio sources in extended reality systems
CN116195276A (zh) 控制音频数据的渲染

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination