CN110583030A - 不相干幂等高保真度立体声响复制渲染 - Google Patents

不相干幂等高保真度立体声响复制渲染 Download PDF

Info

Publication number
CN110583030A
CN110583030A CN201880029462.2A CN201880029462A CN110583030A CN 110583030 A CN110583030 A CN 110583030A CN 201880029462 A CN201880029462 A CN 201880029462A CN 110583030 A CN110583030 A CN 110583030A
Authority
CN
China
Prior art keywords
generating
sound
speaker
speakers
linear operator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880029462.2A
Other languages
English (en)
Other versions
CN110583030B (zh
Inventor
威廉·巴斯蒂安·克雷杰
安德鲁·艾伦
简·斯科格隆
林施杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN110583030A publication Critical patent/CN110583030A/zh
Application granted granted Critical
Publication of CN110583030B publication Critical patent/CN110583030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

为收听者渲染声音的技术涉及将两项:基于等式b=A·s的解的第一项以及基于指定向量到A的零空间上的投影的第二项的和产生为源驱动信号中的每一个的振幅,不是等式b=A·s的解。沿着这些思路,在一个示例中,第一项等于Moore‑Penrose伪逆,例如AH(AAH)‑1·b。通常,等式b=A·s的任何解都是令人满意的。被投影到A的零空间上的指定向量被定义为减少净声场的相干性。有利地,所得到的算子既是线性时不变的又是幂等的,使得可以在RSF内部和RSF外部足够的范围内如实地再现声场以覆盖人的头部。

Description

不相干幂等高保真度立体声响复制渲染
相关申请的交叉引用
本申请要求于2017年8月1日提交的、名为“INCOHERENT DEMPOTENT AMBISONICSRENDERING”的美国非临时专利申请No.15/666,220的优先权,并且是其继续申请,在此通过引用将其公开内容全部并入本文。
技术领域
本说明书涉及在虚拟现实(VR)和类似环境中的声场的渲染。
背景技术
高保真度立体声响复制(ambisonics)是全球环绕声技术:除了水平面之外,它还覆盖收听者上方和下方的声源。不同于其他多通道环绕声格式,其传输通道不携带扬声器信号。相反,它们包含称为B格式的扬声器无关的对声场的表示,然后将其解码为收听者的扬声器设置。此额外的步骤允许制作者从源方向而不是扬声器位置的方面进行考虑,并且为收听者提供关于用于回放的扬声器的布局和数目的相当大的灵活性。
在ambisonics中,围绕收听者的虚拟扬声器的阵列通过解码来自被各向同性地记录的声源的、以已知为B格式的方案编码的声音文件来生成声场。在虚拟扬声器的阵列处生成的声场可以从相对于收听者的任何有利位置再现声源的效果。这类解码可以用在经由头部相关的传递函数(HRTF)集合,通过虚拟现实(VR)系统中的耳机话筒的音频的传递中。双耳渲染的高阶ambisonics(HOA)是指创建许多虚拟扬声器,这些虚拟扬声器组合起来为左和右耳机话筒提供一对信号。
发明内容
在一个总体方面中,一种方法包括由被配置为向收听者渲染方向性声场的声音渲染计算机的控制电路接收从几何环境中的声场得到的声音数据,声音数据被表示为基于几何环境的多个正交角模式函数的展开式。该方法还包括由所述控制电路生成线性算子,线性算子是从对声音数据和表示为多个正交角模式函数中的展开式的扬声器的多个振幅的加权和的展开式进行模式匹配运算而得到的。该方法进一步包括由控制电路对线性算子和声音数据执行逆运算以产生第一多个扬声器权重。该方法进一步包括由控制电路对线性算子的零空间执行投影运算以产生第二多个扬声器权重。该方法进一步包括由控制电路生成第一多个扬声器权重和第二多个扬声器权重的和以产生第三多个扬声器权重,第三多个扬声器权重为收听者提供声场的再现。
根据该总体方面,该方法涉及如本文更详细描述的改进的技术,其允许为收听者提供更自然的声场。由本文所述的改进技术提供的其他优点是改进的性能和对声场的改进的频谱保真度。
在附图和以下描述中阐述一个或多个实施方式的细节。根据说明书和附图以及根据权利要求,其他特征将是显而易见的。
附图说明
图1是图示用于实现本文所述的改进的技术的示例性电子环境的图。
图2是图示根据本文所述的改进的技术的相对于麦克风的示例性扬声器和观察者位置的图。
图3是图示在图1所示的电子环境内执行改进的技术的示例性方法的流程图。
图4图示可以与在此所述的电路一起使用的计算机设备和移动计算机设备的示例。
具体实施方式
HOA声场的一些渲染涉及将来自每个HOA通道的分量的加权序列与来自每个源方向的振幅求和以在麦克风处产生净声场。当用球谐展开式表示时,声场的每个分量具有如由球坐标中的波动等式确定的时间、角度和径向因子。角度因子是球谐函数,而径向因子与球贝塞尔函数成正比。
在许多情况下,来自每个源方向的贡献的振幅都是未知的。相反,已知的是麦克风处的净声场。如上所述,这种声场可以展开为一系列球谐模式。另外,每个源方向的贡献在被建模为点源时也可以展开为一系列球谐模式。由于球谐模式是正交集合,因此可以通过匹配球谐模式来确定振幅。
分量序列的截断会导致对某一半径(足够保真度的区域或RSF)内并且在某一频率以下的声场的准确描述。对于许多应用,RSF应该大约是人头的大小。
但是,由于RSF的大小与频率成反比,因此,对于到N个球谐阶的给定截断长度,低频将具有更大的覆盖范围,因此,信号音质通常会随着人们移离原点而变化。增加分量的数目T=(N+1)2是提高性能的一种无效方法,因为对于给定的频率,RSF的大小大致与分量的数目的平方根成正比。通常,该大小小于人头的尺寸。
然后,渲染ambisonics的目的是确定在RSF中产生所测量的声场的T个分量b的Q个源驱动信号s的集合。经由施加到所测量的声场的分量b的线性变换A的求逆可以确定源驱动信号s的强度或权重,即b=A·s,由其确定s。(线性变换A是由非齐次赫姆霍兹等式和边界条件产生的。)A是T×Q矩阵,其中,Q>T,即有比分量更多的源,因此所得的线性系统是欠定的,并且有多个在RSF中产生相同的声场的源驱动信号s的集合。
因此,人们可以对线性系统施加约束,以便唯一地确定最佳地再现RSF外部的声场的源驱动信号的振幅。渲染HOA声场的常规方法已经涉及通过最小化驱动信号s的能量,即根据受制于条件b=A·s的L2范数(即s的分量的平方和),来确定源分布。按照这种常规方法,所得的源分布是矩阵的Moore-Penrose(MP)伪逆乘以权重向量,例如AH(AAH)-1·b,其中AH是A的厄米共轭。MP伪逆形成线性时不变算子的基础,对于源布置的一些选择,其等于AH
然而,由于RSF外部的频谱缺损,这种常规方法导致产生不自然声场的解决方案。这样的原因是诸如L2范数的最小方差目标也最小化解码器描述源方向性的能力,因为这样的目标趋于最小化声音振幅随方向的变化性。此外,所得的声场强加声场的相干性。由于RSF的大小会随时间频率变化,因此这种相干性会远离麦克风而消失。
在由主要声源及其反射生成的自然声场中,来自不同方向的声波往往不会在任何位置相干地相加。因此,在自然声场中,音质通常不会随空间快速地变化。相反,当目标是重建声场时,来自大量真实或虚拟扬声器的声波被配置为共同作用。当使用许多这样的扬声器时,这种共同作用通常会导致具有在空间中音质的快速变化的声场。人们可以将具有这样的迅速变化的声场称为非自然声场。非自然声场的示例是通过使用Moore-Penrose伪逆的扬声器权重计算创建的声场。在该示例中,如上所述,声场振幅在RSF外部迅速减小,并且由于RSF具有频率相关的半径,所以声场的音质在空间中快速变化。
人们可能会考虑导致更多源方向性的其他框架,诸如根据L1范数(即s的分量的绝对值之和)的最小化或max-rE技术(即最大化能量定位向量)。然而,L1范数不会导致线性时不变算子,而max-rE技术不是幂等的(即,如果估算RSF中的声场,则原始HOA描述应该是可恢复的)。诸如最小化L12范数的更复杂技术虽然是线性时不变的,但可能是十分资源密集的,因此在诸如虚拟现实游戏的实时设置中使用成本很高。
根据本文所述的实施方式,并且与渲染HOA声场的上述常规方法相比,改进的技术涉及产生以下两项的和作为每个源驱动信号的振幅:基于等式b=A·s的解的第一项以及基于指定向量到A的零空间上的投影的第二项,不是等式b=A·s的解。沿着这些思路,在一个示例中,第一项等于Moore-Penrose伪逆,例如AH(AAH)-1·b。通常,等式b=A·s的任何解都是令人满意的。投影到A的零空间上的指定向量被定义为减小净声场的相干性。有利的是,所得到的算子既是线性时不变的又是幂等的,因此声场可以在RSF内部和RSF外部的足够范围处如实地再现以覆盖人的头部。此外,计算足够简单,可以在实时环境中执行。
图1是图示可以在其中实施上述改进技术的示例性电子环境100的图。如所示,在图1中,示例性电子环境100包括声音渲染计算机120。
声音渲染计算机120被配置为向收听者渲染声场。声音渲染计算机120包括网络接口122、一个或多个处理单元124和存储器126。网络接口122包括例如以太网适配器、令牌环适配器等,用于将从网络170接收的电子和/或光信号转换成电子形式以供声音渲染计算机120使用。处理单元124的集合包括一个或多个处理芯片和/或组件。存储器126包括易失性存储器(例如,RAM)和非易失性存储器,诸如一个或多个ROM、磁盘驱动器、固态驱动器等。处理单元124的集合和存储器126一起形成控制电路,该控制电路被配置并且布置成执行如本文所述的各种方法和功能。
在一些实施例中,声音渲染计算机120的一个或多个组件可以是或可以包括被配置为处理存储在存储器126中的指令的处理器(例如,处理单元124)。图1所示的这些指令的示例包括声音获得管理器130、扬声器获得管理器140、伪逆管理器150、策略生成管理器160、零空间投影管理器170和方向性场生成管理器180。此外,如图1所示,存储器126被配置为存储各种数据,该数据参考使用这些数据的相应的管理器描述。
声音获得管理器130被配置为经由录音或软件生成的音频来获得声音数据132。例如,声音获得管理器130可以从光驱或通过网络接口122获取声音数据132。一旦其获得声音数据132,声音获得管理器还被配置为将声音数据132存储在存储器126中。在一些实施方式中,声音获得管理器130通过网络接口122流式传输声音数据132。
通常将声音数据表示为多个正交角模式函数的展开式是方便的。这种成为正交角模式函数的展开式取决于放置麦克风的几何环境。例如,在使用球形麦克风来捕获球体上的声音的一些实施方式中,正交角模式函数是球谐函数。在一些实施方式中,几何环境是圆柱形的,并且正交角模式函数是三角函数。为了随后的讨论,假定正交角模式函数是球谐函数。
在一些实施方式中,声音数据132以B格式或具有四个分量的一阶ambisonics或ambisonic通道被编码。在一些实施方式中,声音数据132以高阶的ambisonics被编码,高阶的ambisonics例如到N阶。在这种情况下,将存在T=(N+1)2个ambisonic通道,每个通道对应于从扬声器的集合发出的声场的球谐函数(SH)展开式中的一项。在一些实施方式中,声音数据132被表示为压力场pN到球谐函数的截断的展开式,如下:
其中ω是时间(角)频率,k=ω/c是波数,c是声波的速度,jn是第一类型的球贝塞尔函数,是球谐函数,是单位球面上的点(θ,φ)以及是是压力(即,声)场的球谐展开式的(频率相关的)系数。因此,由声音获得管理器130获得的声音数据132可以采取系数的向量b的形式,其中,系数向量b具有T=(N+1)2个分量。在一些实施方式中,系数向量b的分量合并上述球谐展开式的球贝塞尔函数部分。
另外,不需要球形几何形状。例如,在圆柱几何形状中,可以用圆柱贝塞尔函数Jn代替球贝塞尔函数jn。也可以用三角函数代替球谐函数
源获得管理器140被配置为获得具有振幅s的Q个扬声器中的每个的方向扬声器中的每个被认为是辅源。因此,方向中的每个被假定为被给定或已经由某种算法推导。
在一些实施方式中,可以将每个扬声器(即,对应于扬声器振幅向量s的相应分量)建模为三维中的点源。这样,位置处的这种源在观察点x′处具有与格林函数成正比的振幅分布:
在一些实施方式中,当声音数据132是录音的结果时,具有振幅s的扬声器被认为处于距被用来记录声音数据132的麦克风相同的距离处。然后将方向存储为扬声器数据142。在一些实施方式中,当声音数据132由机器生成时,具有振幅s的扬声器也被认为处于距被用来记录声音数据132的麦克风相同的距离处,然后(单独推导或给出的)方向被存储为扬声器数据142。
扬声器获得管理器140还被配置为将线性算子A构造为T×Q矩阵,作为表示线性模式匹配等式b=A·s的线性变换数据144。即,当由于方向处的点源具有(未知)振幅s而导致的总声场的球谐展开式的模式等同于麦克风b处所获得的声场的球谐展开式的模式时,结果是线性模式匹配等式b=A·s。在一些实施方式中,Q>T并且线性系统是欠定的。因此,在这种情况下,线性模式匹配等式有许多可能的解。将参考图2,描述关于扬声器的布置的进一步细节。
伪逆管理器150被配置为生成线性模式匹配等式b=A·s的解。根据本文公开的改进技术,该解是声场的第一项。在一些实施方式中,线性模式匹配等式的解可以用线性算子A的伪逆Moore-Penrose伪逆来表示。线性算子A的Moore-Penrose伪逆pinv(A)可以被写为:
pinv(A)=AH(AAH)-1,#(3)
其中,AH是A的厄米共轭。该伪逆在声音渲染计算机120中被产生为伪逆数据152。在这种情况下,线性模式匹配等式b=A·s的解则是:
为了生成该解,伪逆管理器150被配置为将在伪逆数据152中产生的矩阵乘以在球谐数据132中产生的系数。
策略生成管理器160被配置为将不满足线性模式匹配等式b=A·s而满足不同的标准的策略向量产生为策略向量数据162。为了实现改进技术中的优点,策略向量对应于在RSF的外部具有期望的性能的声音渲染技术。在一些实施方式中,策略生成管理器160根据在用于渲染声场的球面上的最优连续单极密度来定义策略向量
根据这些思路,考虑单位球面上的连续单极密度函数及其在球谐函数的展开式:
单极源的格林函数如上文等式(2)中所述。但是,如上所述,这种格林函数也可以在球谐展开式中被表示如下:
其中是第n阶的球汉克尔函数。然后根据等式(6)中的格林函数,声场可以被表示如下:
pN(r,θ,φ,ck)=∫μ(θ′,φ′)G(x,x′)sinθ′dθ′dφ′,#(7)
其中,积分是在单位球面内。与等式(1)中的pN的球谐函数展开式匹配的模式产生单极密度函数的球谐展开式的系数的表达式:
其中r′是观察点距源的距离。
然后可以根据上述单极密度函数来定义策略向量
其中是策略向量的第q个分量,κ是归一化常数,而α≥0是设置方向性强度的参数。例如,当α=0时,策略向量获得声场的简单正则化。当α>0时,通过加强的方向性正则化该场。
零空间投影管理器170被配置为将策略向量到线性算子A的零空间上的投影产生为零空间投影数据172。在一些实施方式中,通过以下给出投影到线性算子A的零空间的列上的矩阵
其中I是单位矩阵,是到线性算子A的厄米共轭AH的列上的投影。因此,根据线性算子A,策略向量到线性算子A的零空间上的投影可以明确表示如下:
方向性场生成管理器180被配置为根据线性模式匹配等式b=A·s的解和策略向量到线性算子A的零空间上的投影的组合,将方向性声场s产生为方向性场数据182。在一些实施方式中,方向性场生成管理器180将伪逆数据152中的分量与零空间投影数据172中的分量的和生成为方向性场数据182。即,方向性声场:
这样的求和确保了整体所得的线性算子是幂等的,因此如实地再现了RSF内部的声场。而且,与常规方法中单独的伪-逆算子相比,根据如在等式(12)中表示的改进技术的方向性声场所得的算子还在RSF外部产生合理的声场。
在一些实施方式中,存储器126可以是诸如随机存取存储器、磁盘驱动存储器、闪存等的任意类型的存储器。在一些实施方式中,存储器126可以被实现为与声音渲染计算机120的组件相关联的多于一个的存储器组件(例如,多于一个的RAM组件或磁盘驱动存储器)。在一些实施方式中,存储器126可以是数据库存储器。在一些实施方式中,存储器126可以是或者可以包括非本地存储器。例如,存储器126可以是或者可以包括由多个设备(未示出)共享的存储器。在一些实施方式中,存储器126可以与网络内的服务器设备(未图示)相关联,并且可以被配置为服务声音渲染计算机120的组件。
声音渲染计算机120的组件(例如,管理器、处理单元124)可以被配置成基于可以包括一种或多种硬件、软件、固件、操作系统、运行时库和/或等等的一个或多个平台(例如一个或多个类似的或不同的平台)来操作。
声音渲染计算机120的组件可以是或者可以包括被配置成处理属性的任意类型的硬件和/或软件。在一些实施方式中,图1中的声音渲染计算机120的组件中所示的组件的一个或多个部分可以是或者可以包括基于硬件的模块(例如,数字信号处理器(DSP)、现场可编程门阵列(FPGA)、存储器)、固件模块和/或基于软件的模块(例如,计算机代码模块、可以在计算机上执行的计算机可读指令的集合)。例如,在一些实施方式中,声音渲染计算机120的组件的一个或多个部分可以是或者可以包括被配置成由至少一个处理器(未示出)执行的软件模块。在一些实施方式中,组件的功能性可以被包括在与图1中所示的那些模块和/或组件不同的模块和/或不同的组件中。
在一些实施方式中,声音渲染计算机120的组件(或其部分)可以被配置为在网络内操作。因此,声音渲染计算机120的组件(或其部分)可以被配置成在可以包括一个或多个设备和/或一个或多个服务器设备的各种类型的网络环境内运行。例如,网络可以是或者可以包括局域网(LAN)、广域网(WAN)等等。网络可以是或者可以包括无线网络和/或使用例如网关设备、网桥、交换机等等来实现的无线网络。网络可以包括一个或多个区段和/或可以具有基于诸如网际协议(IP)和/或私有协议的各种协议的部分。网络可以包括互联网的至少一部分。
在一些实施例中,声音渲染计算机120的组件中的一个或多个可以是或可以包括被配置为处理存储在存储器中的指令的处理器。例如,声音获得管理器130(和/或其一部分)、扬声器获得管理器140(和/或其一部分)、伪逆管理器150(和/或其一部分)、策略生成管理器160(和/或其一部分)、零空间投影管理器(和/或其一部分)以及方向性场生成管理器180(和/或其一部分)可以包括存储与实现一个或多个功能的过程相关的指令的存储器和执行指令的配置的组合。
图2示出了根据改进技术的示例性声场环境200。在此环境200中,存在原点210(开放圆盘),在该原点处,收听者可能位于分布在以麦克风210为中心的球体230上的真实或虚拟扬声器的集合的中心处,该真实或虚拟扬声器例如,扬声器240(1)、…、240(Q)(填充圆盘)。每个扬声器,例如扬声器240(1),沿方向放置,依此类推。在一些布置中,在原点210处可能存在球形麦克风,该球形麦克风将声场振幅测量并且记录为远离原点的方向的函数以用于收听者在原点处听到。
声音渲染计算机120被配置为基于在原点210处记录的声场数据132,如实地再现将在观察点220(灰色圆盘)处存在的声场。这样做,声音渲染计算机120被配置为通过如上所述确定在扬声器240(1)、…、240(Q)的集合中的每个扬声器处的声场的振幅,提供在观察点220处的声场的方向性。声场的方向性是允许收听者辨别特定声音似乎从哪个方向发出的属性。从这个意义上讲,在第一时间窗口(例如一秒钟)内的声场的第一采样将导致扬声器240(1)、…、240(Q)的集合的第一权重,第二时间窗口内的声场的第二采样将导致第二权重,依此类推。对于时间窗口内的声场的每个样本,如在等式(1)中所示的声场在频率上的系数是声场在时间上的球谐展开式的系数的傅立叶变换。
如图2所示,观察点220相对于麦克风210位于位置处。观察点220的位置x′在足够保真度(RSF)250的区域外部但在由该扬声器240(1),…,240(Q)的集合限定的区域230的内部。RSF 250的大小取决于频率,但是对于大多数兴趣频率,观察点220都在RSF250内部。在一些实施方式中,定义RSF 250的大小R,使得常见情况包括收听者的耳朵在RSF 250外部。
因此,当声场包括不同频率的频谱时,RSF 250的大小可以变化,即,由于RSF 250的大小R与频率成反比。例如,通过线性模式匹配等式b=A·s的解来描述如在例如等式(4)中的单频、相干声场。然而,由于RSF 250的大小的频率相关性,这种相干声场不能为包括在RSF外部的观察点220处听到的多个频率的实际声场提供足够的保真度。相反,已经发现如在等式(12)中,策略向量到线性算子A的零空间上的投影使得声场不相干。这种不相干性对声场提供比单独由如在等式(4)中的线性模式匹配等式b=A·s的解提供的保真度好得多的保真度。这样的原因是声场的不相干性消除了RSF 250的大小的频率依赖性,从而提高了声场的频谱保真度。此外,将声场的不相干部分的量值提高到幂仅仅提供在线性模式匹配等式的解中的方向性缺少。
图3是示出执行声音的双耳渲染的示例性方法300的流程图。方法300可以由结合图1描述的软件构造来执行,该软件构造存在于声音渲染计算机120的存储器126中并且由处理单元124的集合运行。
在302处,配置成向收听者渲染方向性声场的声音渲染计算机的控制电路接收从几何环境中的声场得到的声音数据,该声音数据被表示为基于几何环境的多个正交角模式函数的展开式。沿着这些思路,声音获得管理器130从磁盘或通过网络(后者在诸如实时处理方向性声场的虚拟现实环境的环境中)接收表示实际或虚拟麦克风处的声场的数据作为输入。然后,可以将该声场分解为如等式(1)中所示的球谐展开式,产生被存储为球谐数据132的系数向量b。
在304处,控制电路生成线性算子,该线性算子是从对声音数据和被表示为多个正交角模式函数的展开式的多个扬声器的振幅的加权和的展开式进行模式匹配运算而得到的。沿着这些思路,扬声器获得管理器140(例如,根据单独的过程或说明书)获得Q个扬声器中的每一个的扬声器方向作为扬声器位置数据142。给定这些方向,然后,扬声器获得管理器140可以通过将每个扬声器的等式(6)中的球谐展开式与等式(1)中的球谐展开式进行模式匹配来将线性算子A生成为线性变换数据144。
在306处,控制电路对线性算子和声音数据执行伪逆运算(也称为逆运算)以产生第一多个扬声器权重,第一多个扬声器权重以小于频率阈值的频率,为收听者提供声场的再现。在一些实施方式中,伪逆管理器150产生如等式(3)中所指定的Moore-Penrose伪逆,并且将该伪逆与被存储为球谐数据132的系数向量b相乘以将线性模式匹配等式b=A·s的解生成为伪逆数据152。
在308处,控制电路在线性算子的零空间上执行投影运算以产生第二多个扬声器权重。沿着这些思路,控制电路可以生成不是等式b=A·s的解的第二声场项第二声场项具有Q个分量。例如,在上文所述的增强的单极密度策略中,策略生成管理器160使用等式(5)和等式(8)中的单极密度的表达式,根据等式(9)将分量值产生为策略向量数据162的Q个分量中的每一个。在一些实施方式中,策略生成管理器160调整参数α以获得最优方向强度。然后,控制电路可以对第二声场项执行投影运算以产生第二声场项到指定的T×Q矩阵A的零空间上的投影。沿着这些思路,零空间投影管理器170使用线性变换数据144,并且在一些实施方式中,使用伪逆数据152以生成到厄米共轭AH的列上的投影,然后根据等式(11),将单位矩阵与该投影之间的差乘以策略向量以产生零空间投影数据172。
在310处,控制电路生成第一多个扬声器权重和第二多个扬声器权重的和以产生第三多个扬声器权重,第三多个扬声器权重以小于和大于频率阈值的频率为收听者提供声场的再现。沿着这些思路,方向性场管理器180根据方程(12),将如在伪逆数据152中存储的线性模式匹配等式b=A·s的解与存储在零空间投影数据172中的策略向量到线性算子A的零空间上的投影相加以产生方向性场数据182。声音渲染计算机120使用的就是该方向性场数据182以向麦克风位置210(图2)或诸如收听者希望了解声音似乎从哪个方向发出的虚拟现实环境的环境中的任何其他位置(正好位于由多个扬声器的位置限定的凸壳内)的收听者提供方向性声音。
图4示出了可以与本文所述的技术一起使用的通用计算机设备400和通用移动计算机设备450的示例。计算设备400旨在表示各种形式的数字计算机,诸如膝上型计算机、台式机、平板电脑、工作站、个人数字助理、电视、服务器、刀片服务器、大型机和其它合适的计算设备。计算设备450旨在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话和其它类似的计算设备。本文所示的组件、它们的连接和关系以及它们的功能仅仅意为示例性的,并不意味着限制本文档中所述的和/或所要求的发明的实施方式。
计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和高速扩展端口410的高速接口408,以及连接到低速总线414和存储设备406的低速接口412。处理器402可以是基于半导体的处理器。存储器404可以是基于半导体的存储器。组件402、404、406、408、410和412中的每一个使用各种总线互连,并且可以适当地安装在公共母板上或以其它方式安装。处理器402可以处理用于在计算设备400内执行的指令,包括存储在存储器404中或存储设备406上的指令以在诸如耦合到高速接口408的显示器416的外部输入/输出设备上显示用于GUI的图形信息。在其它实施方式中,可以适当地与多个存储器和多种类型的存储器一起使用多个处理器和/或多个总线。同时,也可以连接多个计算设备400,每个设备提供必要操作的部分(例如,作为服务器组、刀片服务器组或多处理器系统)。
存储器404在计算设备400内存储信息。在一个实施方式中,存储器404是一个或多个易失性存储器单元。在另一实施方式中,存储器404是一个或多个非易失性存储器单元。存储器404也可以是另一种形式的计算机可读介质,诸如磁盘或光盘。
存储设备406能够为计算设备400提供大容量存储。在一个实施方式中,存储设备406可以是或包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备,或磁带设备,闪存或其它类似的固态存储设备,或包括存储区域网络中的设备或其它配置的设备阵列。计算机程序产品能够被有形地体现在信息载体中。计算机程序产品也可以包含指令,该指令在被执行时,执行一种或多种方法,诸如上文所述的方法。信息载体是计算机或机器可读介质,诸如存储器404、存储设备406或处理器402上的内存。
高速控制器408管理用于计算设备400的带宽密集型操作,而低速控制器412管理较低带宽密集型操作。这种功能分配仅是示例性的。在一个实施方式中,高速控制器408耦合到存储器404、显示器416(例如,通过图形处理器或加速器),并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口410。在该实施方式中,低速控制器412耦合到存储设备406和低速扩展端口414。可以将包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口例如通过网络适配器耦合到一个或多个输入/输出设备,诸如键盘、指示设备、扫描仪或诸如交换机或路由器的网络设备。
如图所示,可以以多种不同的形式实现计算设备400。例如,它可以被实现为标准服务器420,或者在这样的服务器组中多次实现。它也可以被实现为机架服务器系统424的一部分。此外,它可以以诸如膝上型计算机422的个人计算机来实现。可替选地,来自计算设备400的组件可以与诸如设备450的移动设备中的其它组件(未示出)组合。这些设备中的每一个都可以包含计算设备400、450中的一个或多个,并且整个系统可以由彼此通信的多个计算设备400、450组成。
计算设备450包括处理器452、存储器464、诸如显示器454的输入/输出设备、通信接口466和收发器468以及其它组件。设备450也可以具有诸如微驱动器或其它设备的存储设备以提供额外的存储。组件450、452、464、454、466和468中的每一个都使用各种总线互连,并且若干组件可以适当地安装在公共母板上或以其它方式来安装。
处理器452可以执行计算设备450内的指令,包括存储在存储器464中的指令。处理器可被实现为包括单独的和多个模拟和数字处理器的芯片的芯片组。处理器可以例如提供对设备450的其它组件的协调,诸如用户接口的控制、由设备450运行的应用以及设备450的无线通信。
处理器452可以通过控制接口458和耦合到显示器454的显示接口456与用户通信。显示器454可以例如是TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器或其它适当的显示技术。显示接口456可以包括用于驱动显示器454以向用户呈现图形和其它信息的适当电路。控制接口458可以接收来自用户的命令并且将其转换以提交给处理器452。另外,可以提供外部接口462以与处理器452通信,以便实现设备450与其它设备的近区域通信。在一些实施方式中,外部接口462可以提供例如有线通信,或者在其它实施方式中,可以提供无线通信,并且也可以使用多个接口。
存储器464将信息存储在计算设备450内。存储器464能够被实现为以下中的一个或多个:一个或多个计算机可读介质或介质、一个或多个易失性存储器单元或一个或多个非易失性存储器单元。还可以提供扩展存储器474并且通过扩展接口472将其连接到设备450,扩展接口472可以包括例如SIMM(单列直插存储器模块)卡接口。这种扩展存储器474可以为设备450提供额外的存储空间,或者还可以存储设备450的应用或其它信息。特别地,扩展存储器474可以包括用于执行或补充上述过程的指令,并且也可以包括安全信息。因此,例如,扩展存储器474可以被提供为设备450的安全模块,并且可以通过允许安全使用设备450的指令来编程。另外,可以经由SIMM卡来提供安全应用以及附加信息,诸如以不可攻击的方式将标识信息置于SIMM卡上。
如下文所述,存储器可以包括例如闪存和/或NVRAM存储器。在一个实施方式中,计算机程序产品以信息载体有形地体现。计算机程序产品包含指令,该指令当被执行时,执行一个或多个方法,诸如上述方法。信息载体是可以例如通过收发器468或外部接口462接收的计算机或机器可读介质,诸如存储器464、扩展存储器474或处理器452上的内存。
设备450可以通过通信接口466无线通信,通信接口466在必要时,可以包括数字信号处理电路。通信接口466可以提供各种模式或协议下的通信,诸如GSM语音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。这种通信可以例如通过射频收发机468发生。另外,可能发生短距离通信,诸如使用蓝牙、Wi-Fi或其它此类收发器(未示出)。另外,GPS(全球定位系统)接收器模块470可以向设备450提供附加的导航和位置相关无线数据,这些数据可以由在设备450上运行的应用适当地使用。
设备450还可以使用音频编解码器460可听地通信,音频编解码器460可以从用户接收所说的信息并且将其转换为可用的数字信息。音频编解码器460同样可以为用户生成可听的声音,诸如通过例如在设备450的话筒中的扬声器。这种声音可以包括来自语音电话呼叫的声音,可以包括录制的声音(例如,语音消息、音乐文件等),并且也可以包括由在设备450上操作的应用生成的声音。
如图所示,计算设备450可以以多种不同的形式来实现。例如,它可以被实现为蜂窝电话480。它也可以被实现为智能电话482、个人数字助理或其它类似移动设备的一部分。
本文所述的系统和技术的各种实施方式能够以数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式可以包括以在可编程系统上可执行和/或可解释的一个或多个计算机程序的实施方式,可编程系统包括可以是专用或通用的至少一个可编程处理器,至少一个可编程处理器被耦合以从存储系统、在至少一个输入设备中和在至少一个输出设备中接收数据和指令,以及向存储系统、在至少一个输入设备中和在至少一个输出设备中传输数据和指令。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可以以高级过程和/或面向对象编程语言和/或汇编/机器语言实现。如本文所使用的,术语“机器可读介质”、“计算机可读介质”是指被用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括将机器指令接收为机器可读信号的机器可读介质。术语“机器可读信号”是指被用来向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,本文所述的系统和技术可以实现在具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)和用户可以通过其向计算机提供输入的键盘和指示设备(例如,鼠标或轨迹球)的计算机上。也可以使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈(例如,视觉反馈、听觉反馈或触觉反馈);以及可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。
本文所述的系统和技术可以以包括后端组件(例如,作为数据服务器)或包括中间件组件(例如,应用服务器)或者包括前端组件(例如,具有用户通过其与本文所述的系统和技术的实施方式交互的图形用户界面或Web浏览器的客户端计算机)或者这种后端、中间件或前端组件的任何组合的计算系统实现。系统的组件可以通过数字数据通信(例如,通信网络)的任何形式或媒介互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助在各自的计算机上运行的并且彼此具有客户端-服务器关系的计算机程序产生。
在本说明书和所附权利要求中,除非上下文另外清楚地规定,否则单数形式“一(a)”、“一个(an)”和“该(the)”不排除复数引用。另外,除非上下文另外清楚地规定,否则诸如“和”、“或”及“和/或”的连词是包括性的。例如,“A和/或B”包括单独A、单独B以及A和B。另外,在所呈现的各个图中示出的连接线或连接器旨在表示各个元件之间的示例性功能关系和/或物理或逻辑耦合。在实际设备中可以存在许多替代或附加功能关系、物理连接或逻辑连接。此外,除非元件被具体地描述为“必要的(essential)”或“关键的(critical)”,否则项或组件不是实施本文中公开的实施例所必要的。
在本文中使用诸如但不限于近似地、基本上、一般地等的术语来指示不要求并且不必指定精确值或其范围。如本文中所使用的,上文讨论的术语对于本领域的普通技术人员而言将具有现成和即时含义。
此外,参考当前考虑的或图示的定向在本文中使用诸如上、下、顶部、底部、侧面、端部、前面、后面等的术语的使用。如果相对于另一定向考虑它们,则应当理解到,必须相应地修改这些术语。
另外,在本说明书和所附权利要求中,除非上下文另外清楚地规定,否则单数形式“一(a)”、“一个(an)”和“该(the)”不排除复数引用。此外,除非上下文另外清楚地规定,否则诸如“和”、“或”及“和/或”的连词是包括性的。例如,“A和/或B”包括单独A、单独B以及A和B。
尽管本文已经描述了某些示例性方法、装置和制品,但是本专利的覆盖范围不限于此。应理解到,本文采用的术语是出于描述特定方面的目的,而不是旨在是限制性的。相反,本专利涵盖了完全在本专利的权利要求范围内的所有方法、装置和制品。

Claims (20)

1.一种方法,包括:
由被配置为向收听者渲染方向性声场的声音渲染计算机的控制电路接收从几何环境中的声场得到的声音数据,所述声音数据被表示为基于所述几何环境的多个正交角模式函数的展开式;
由所述控制电路生成线性算子,所述线性算子是从对所述声音数据和被表示为所述多个正交角模式函数的展开式的多个扬声器的振幅的加权和的展开式进行模式匹配运算而得到的;
由所述控制电路对所述线性算子和所述声音数据执行逆运算以产生第一多个扬声器权重;
由所述控制电路对所述线性算子的零空间执行投影运算以产生第二多个扬声器权重;以及
由所述控制电路生成所述第一多个扬声器权重和所述第二多个扬声器权重的和,以产生第三多个扬声器权重,所述第三多个扬声器权重为所述收听者提供所述声场的再现。
2.根据权利要求1所述的方法,其中,对所述线性算子和所述声音数据执行所述逆运算包括:产生所述线性算子的Moore-Penrose伪逆。
3.根据权利要求1所述的方法,其中,所述几何环境是球形的,并且所述多个正交角模式函数包括球谐函数。
4.根据权利要求1所述的方法,其中,所述多个扬声器中的扬声器的数目大于所述多个正交角模式函数中的正交角模式函数的数目。
5.根据权利要求1所述的方法,其中,对所述线性算子的所述零空间执行所述投影运算包括:
生成策略向量,所述策略向量的每个分量对应于所述多个扬声器中的相应扬声器;
生成单位矩阵与到所述线性算子的厄米共轭的零空间的列上的投影之间的差以产生投影矩阵;以及
将所述投影矩阵和所述策略向量的乘积产生为所述第二多个扬声器权重。
6.根据权利要求5所述的方法,其中,生成所述策略向量包括:对所述多个扬声器中的每一个:
定义在所述几何环境内的该扬声器的相应角坐标处估算的连续单极密度函数;以及
将在所述几何环境内的该扬声器的相应角坐标处估算的所述连续单极密度函数的量值的幂产生为所述策略向量,所述幂大于1。
7.根据权利要求6所述的方法,其中,定义在所述几何环境内的所述多个扬声器中的每一个的相应角坐标处估算的所述连续单极密度函数包括:
将所述多个正交角模式函数中的连续单极密度函数的展开式产生为在所述几何环境内的该扬声器的角坐标处估算的所述连续单极密度函数,所述展开式的系数被产生作为与所述连续单极密度函数的格林函数表示的模式匹配运算的结果。
8.一种计算机程序产品,包括非传递性存储介质,所述计算机程序产品包括代码,所述代码当由被配置为向收听者渲染方向性声场的声音渲染计算机的处理电路执行时,使所述处理电路执行方法,所述方法包括:
接收从几何环境中的声场得到的声音数据,所述声音数据被表示为基于所述几何环境的多个正交角模式函数的展开式;
生成线性算子,所述线性算子是从对所述声音数据和被表示为所述多个正交角模式函数的展开式的多个扬声器的振幅的加权和的展开式进行模式匹配运算而得到的;
对所述线性算子和所述声音数据执行逆运算以产生第一多个扬声器权重;
对所述线性算子的零空间执行投影运算以产生第二多个扬声器权重;以及
生成所述第一多个扬声器权重和所述第二多个扬声器权重的和,以产生第三多个扬声器权重,所述第三多个扬声器权重为所述收听者提供所述声场的再现。
9.根据权利要求8所述的计算机程序产品,其中,对所述线性算子和所述声音数据执行所述逆运算包括:产生所述线性算子的Moore-Penrose伪逆。
10.根据权利要求8所述的计算机程序产品,其中,所述几何环境是球形的,并且所述多个正交角模式函数包括球谐函数。
11.根据权利要求8所述的计算机程序产品,其中,所述多个扬声器中的扬声器的数目大于所述多个正交角模式函数中的正交角模式函数的数目。
12.根据权利要求8所述的计算机程序产品,其中,对所述线性算子的零空间执行所述投影运算包括:
生成策略向量,所述策略向量的每个分量对应于所述多个扬声器中的相应扬声器;
生成单位矩阵与到所述线性算子的厄米共轭的零空间的列上的投影之间的差以产生投影矩阵;以及
将所述投影矩阵和所述策略向量的乘积产生为所述第二多个扬声器权重。
13.根据权利要求12所述的计算机程序产品,其中,生成所述策略向量包括:对所述多个扬声器中的每一个:
定义在所述几何环境内的该扬声器的相应角坐标处估算的连续单极密度函数;以及
将在所述几何环境内的该扬声器的相应角坐标处估算的所述连续单极密度函数的量值的幂产生为所述策略向量,所述幂大于1。
14.根据权利要求13所述的计算机程序产品,其中,定义在所述几何环境内的所述多个扬声器中的每一个的相应角坐标处估算的所述连续单极密度函数包括:
将所述多个正交角模式函数中的连续单极密度函数的展开式产生为在所述几何环境内的该扬声器的角坐标处估算的所述连续单极密度函数,所述展开式的系数被产生作为与所述连续单极密度函数的格林函数表示的模式匹配运算的结果。
15.一种电子装置,所述电子装置被配置为向收听者渲染方向性声场,所述电子装置包括:
存储器;以及
被耦合到所述存储器的控制电路,所述控制电路被配置为:
接收从几何环境中的声场得到的声音数据,所述声音数据被表示为基于所述几何环境的多个正交角模式函数的展开式;
生成线性算子,所述线性算子是从对所述声音数据和被表示为所述多个正交角模式函数的展开式的多个扬声器的振幅的加权和的展开式进行模式匹配运算而得到的;
对所述线性算子和所述声音数据执行逆运算以产生第一多个扬声器权重;
对所述线性算子的零空间执行投影运算以产生第二多个扬声器权重;以及
生成所述第一多个扬声器权重和所述第二多个扬声器权重的和,以产生第三多个扬声器权重,所述第三多个扬声器权重为所述收听者提供所述声场的再现。
16.根据权利要求15所述的电子装置,其中,对所述线性算子和所述声音数据执行所述伪逆运算包括:产生所述线性算子的Moore-Penrose伪逆。
17.根据权利要求15所述的电子装置,其中,所述几何环境是球形的,并且所述多个正交角模式函数包括球谐函数。
18.根据权利要求15所述的电子装置,其中,所述多个扬声器中的扬声器的数目大于所述多个正交角模式函数中的正交角模式函数的数目。
19.根据权利要求15所述的电子装置,对所述线性算子的零空间执行所述投影运算包括:
生成策略向量,所述策略向量的每个分量对应于所述多个扬声器中的相应扬声器;
生成单位矩阵与到所述线性算子的厄米共轭的零空间的列上的投影之间的差以产生投影矩阵;以及
将所述投影矩阵和所述策略向量的乘积产生为所述第二多个扬声器权重。
20.根据权利要求19所述的电子装置,其中,生成所述策略向量包括:对所述多个扬声器中的每一个:
定义在所述几何环境内的该扬声器的相应角坐标处估算的连续单极密度函数;以及
将在所述几何环境内的该扬声器的相应角坐标处估算的所述连续单极密度函数的量值的幂产生为所述策略向量,所述幂大于1。
CN201880029462.2A 2017-08-01 2018-07-03 不相干幂等高保真度立体声响复制渲染 Active CN110583030B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/666,220 US10015618B1 (en) 2017-08-01 2017-08-01 Incoherent idempotent ambisonics rendering
US15/666,220 2017-08-01
PCT/US2018/040720 WO2019027613A1 (en) 2017-08-01 2018-07-03 AMPEMOPHONE RENDER IDEMPOTENT INCOHERE

Publications (2)

Publication Number Publication Date
CN110583030A true CN110583030A (zh) 2019-12-17
CN110583030B CN110583030B (zh) 2021-06-08

Family

ID=62683709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880029462.2A Active CN110583030B (zh) 2017-08-01 2018-07-03 不相干幂等高保真度立体声响复制渲染

Country Status (6)

Country Link
US (1) US10015618B1 (zh)
EP (1) EP3625975B1 (zh)
JP (1) JP6985425B2 (zh)
KR (1) KR102284811B1 (zh)
CN (1) CN110583030B (zh)
WO (1) WO2019027613A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530445A (zh) * 2020-11-23 2021-03-19 雷欧尼斯(北京)信息技术有限公司 高阶Ambisonic音频的编解码方法及芯片

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117395591A (zh) * 2021-03-05 2024-01-12 华为技术有限公司 Hoa系数的获取方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102144410A (zh) * 2008-09-03 2011-08-03 杜比实验室特许公司 增强多个音频通道的再现
US20140219455A1 (en) * 2013-02-07 2014-08-07 Qualcomm Incorporated Mapping virtual speakers to physical speakers
CN104584588A (zh) * 2012-07-16 2015-04-29 汤姆逊许可公司 用于渲染音频声场表示以供音频回放的方法和设备
US20160073215A1 (en) * 2013-05-16 2016-03-10 Koninklijke Philips N.V. An audio apparatus and method therefor
US20160309273A1 (en) * 2013-10-23 2016-10-20 Thomson Licensing Method for and apparatus for decoding an ambisonics audio soundfield representation for audio playback using 2d setups
CN106465029A (zh) * 2014-05-30 2017-02-22 高通股份有限公司 获得用于高阶立体混响音频渲染器的对称性信息
US20170053641A1 (en) * 2015-08-21 2017-02-23 Dts, Inc. Multi-speaker method and apparatus for leakage cancellation
CN106471822A (zh) * 2014-06-27 2017-03-01 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
CN106537941A (zh) * 2014-11-11 2017-03-22 谷歌公司 虚拟声音系统和方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7876917B2 (en) * 2006-08-28 2011-01-25 Youngtack Shim Generic electromagnetically-countered systems and methods
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
US10624612B2 (en) * 2014-06-05 2020-04-21 Chikayoshi Sumi Beamforming method, measurement and imaging instruments, and communication instruments
US9749747B1 (en) * 2015-01-20 2017-08-29 Apple Inc. Efficient system and method for generating an audio beacon
CN107430861B (zh) * 2015-03-03 2020-10-16 杜比实验室特许公司 用于对音频信号进行处理的方法、装置和设备
US9752879B2 (en) * 2015-04-14 2017-09-05 Invensense, Inc. System and method for estimating heading misalignment

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102144410A (zh) * 2008-09-03 2011-08-03 杜比实验室特许公司 增强多个音频通道的再现
CN104584588A (zh) * 2012-07-16 2015-04-29 汤姆逊许可公司 用于渲染音频声场表示以供音频回放的方法和设备
CN106658342A (zh) * 2012-07-16 2017-05-10 杜比国际公司 用于渲染音频声场表示以供音频回放的方法和设备
US20140219455A1 (en) * 2013-02-07 2014-08-07 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US20160073215A1 (en) * 2013-05-16 2016-03-10 Koninklijke Philips N.V. An audio apparatus and method therefor
US20160309273A1 (en) * 2013-10-23 2016-10-20 Thomson Licensing Method for and apparatus for decoding an ambisonics audio soundfield representation for audio playback using 2d setups
CN106465029A (zh) * 2014-05-30 2017-02-22 高通股份有限公司 获得用于高阶立体混响音频渲染器的对称性信息
CN106471822A (zh) * 2014-06-27 2017-03-01 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
CN106537941A (zh) * 2014-11-11 2017-03-22 谷歌公司 虚拟声音系统和方法
US20170053641A1 (en) * 2015-08-21 2017-02-23 Dts, Inc. Multi-speaker method and apparatus for leakage cancellation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530445A (zh) * 2020-11-23 2021-03-19 雷欧尼斯(北京)信息技术有限公司 高阶Ambisonic音频的编解码方法及芯片

Also Published As

Publication number Publication date
WO2019027613A1 (en) 2019-02-07
US10015618B1 (en) 2018-07-03
JP6985425B2 (ja) 2021-12-22
EP3625975B1 (en) 2022-12-14
CN110583030B (zh) 2021-06-08
JP2020522189A (ja) 2020-07-27
EP3625975A1 (en) 2020-03-25
KR20200003051A (ko) 2020-01-08
KR102284811B1 (ko) 2021-07-30

Similar Documents

Publication Publication Date Title
US10674262B2 (en) Merging audio signals with spatial metadata
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
KR102622947B1 (ko) 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
US9992602B1 (en) Decoupled binaural rendering
US10313815B2 (en) Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
US11223924B2 (en) Audio distance estimation for spatial audio processing
JP2020500480A5 (zh)
US11284211B2 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
CN109964272B (zh) 声场表示的代码化
WO2019185988A1 (en) Spatial audio capture
GB2566992A (en) Recording and rendering spatial audio signals
CN110583030B (zh) 不相干幂等高保真度立体声响复制渲染
GB2572419A (en) Spatial sound rendering
CN111684822B (zh) 环境立体声的定向增强
CN113678473A (zh) 三维音频源空间化
AU2018201133A1 (en) Method and device for decoding an audio soundfield representation for audio playback

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant