CN108419174B - 一种基于扬声器阵列的虚拟听觉环境可听化实现方法及系统 - Google Patents
一种基于扬声器阵列的虚拟听觉环境可听化实现方法及系统 Download PDFInfo
- Publication number
- CN108419174B CN108419174B CN201810066540.8A CN201810066540A CN108419174B CN 108419174 B CN108419174 B CN 108419174B CN 201810066540 A CN201810066540 A CN 201810066540A CN 108419174 B CN108419174 B CN 108419174B
- Authority
- CN
- China
- Prior art keywords
- vector
- frustum
- sound source
- loudspeaker
- impulse response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种基于扬声器阵列的虚拟听觉环境可听化实现方法及系统。本方法为:1)构建目标环境的几何模型的包围体层次结构树;2)利用该包围体层次结构树和给定声源的位置计算声源的声场分布;3)根据声源的声场分布,计算声源到该目标环境中目标位置的房间冲激响应;4)将计算得到的房间冲激响应转化为HOA系数向量;5)根据重放环境中扬声器的实际摆放位置,对该HOA系数向量进行解码,得到各个扬声器的增益,称为多通道房间冲激响应;6)将解码得到的多通道房间冲激响应与任意声源信号卷积作为扬声器的信号重构该声源信号在该目标位置处的声场。本发明实现了非标准播放环境下,虚拟声学环境的重放。
Description
技术领域
本发明属于空间声场重放技术领域,涉及一种虚拟听觉环境可听化系统,具体涉及一种基于Ambisonics原理的匹配投影解码算法的虚拟听觉环境可听化系统实现方法及系统。
背景技术
对于房间声学的研究可以追溯到20世纪早期,房间声学的研究多被用来辅助建筑声学的设计与实现可听化。近年来,随着计算机技术的发展,房间声学研究领域发展了许多建模技术,其应用领域也越来越广泛,包括电脑游戏以及认知研究等领域中虚拟声学环境的构建等。一项具有挑战性的任务是使用这些模型的计算结果实现声学环境的可听化。可听化这一术语由Kleiner等人于1993年提出,根据他们的定义,可听化是一种通过物理或者数学模型生成空间某一声源产生的可听声场的过程,其实现方式能够模拟模型空间中给定位置的双耳听觉效果。可听化中另一项重要的技术是声重放技术,主要包括耳机重放、立体声扬声器重放和扬声器阵列重放等几种方式。其中,扬声器阵列重放技术近年来得到了人们的广泛关注和研究。
虚拟听觉环境可听化系统通过将房间声学建模技术与声场重放技术相结合,从而实现虚拟声学环境的构建与重放。其中的关键技术均已有几十年的研究历史。表1总结了实用的房间声学建模技术近50年的发展情况;表2总结了声场重放技术的发展情况。
表1房间声学建模技术的发展
表2声场重放技术的发展
本发明主要关注高阶Ambisonics(Higher Order Ambisonics,HOA)方法。法国电信研究所(France Telecom R&D)的Daniel等人最早于2003年提出了HOA的概念。HOA技术的主体分为编码和解码两个部分,两部分可以分开进行,从而可以实现声场的编码、传输与解码。在编码阶段,HOA需要将声场信息转换为Ambisonics系数。声场信息的获取方式可以是录音或者模拟计算。在解码阶段,需要根据实际的扬声器摆放确定各个扬声器的增益,从而在重放区域(一般在扬声器阵列的中心)重构出原始声场。HOA技术使用扬声器的Ambisonics系数重构中心区域的原始声场Ambisonics系数。扬声器的增益根据各阶Ambisonics系数相等所列方程组进行求解,通常采用矩阵求逆的方法来求解方程组。目前广泛采用的HOA重放系统,其扬声器一般摆放在一个球面或者一个圆环上,且分布尽量均匀。这一要求主要是为了满足在解码时,扬声器的HOA系数向量的条件数不会过大,从而避免矩阵求逆时的病态问题。在实际应用中,根据环境的不同,往往很难做到扬声器均匀地摆放在球面上,也就是扬声器的摆放不规则。这种情况下,上述系数向量往往具有很大的条件数,从而引起矩阵求逆中的病态问题,使得扬声器增益过大而导致重构声场不稳定。对于这一问题,已有的解决方案一般是在矩阵求逆的过程中加一个正则化项来避免病态矩阵的求逆。但是一方面正则化项的引入会给解码带来额外的误差,另一方面正则化系数的选取一般要靠试错的方式经验地选取。2017年,北京大学黄智超等人提出了匹配投影解码方法,有效的解决了病态矩阵求逆的问题。本发明对原始的匹配投影解码方法进行了改进,并基于改进的匹配投影解码方法实现基于扬声器阵列的虚拟听觉环境可听化系统。为了叙述方便,如无特别说明,后文中的“匹配投影解码方法”均指代此处“改进的匹配投影解码方法”。
发明内容
本发明的目的是基于HOA重放技术结合房间声学建模,搭建了一个虚拟声学环境(Virtual Acoustic Environment,VAE)的可听化(Auralization)实现方法及系统。
在HOA技术中,空间中的沿某一方向传播的平面波,可以分解为一组HOA系数来表达。这组系数可以向量的形式表达。在远场条件下,将扬声器产生的声场假定为一平面波,那么,空间中某一方向的扬声器所产生的声场可以用一组与方向相关的HOA系数向量表示。传统的HOA技术一般要求扬声器摆放均匀,当扬声器摆放不均匀时,会出现病态矩阵的求逆问题。本发明中所采用的解决不规则扬声器摆放条件下这一问题的匹配投影法的基本思想是,根据目标声场的HOA系数向量在扬声器的HOA系数向量上的投影值,利用基于贪心算法原理的匹配投影方法,求解每个扬声器的最佳增益,使得扬声器在中心点处的HOA系数的叠加与原声场的HOA系数最为接近。为了扩大中心听音区的半径,本发明引入了类似于“Inphase”方法的思想,即在匹配投影解码方法中对上述各个投影值的大小进行比较时,不考虑与目标声场传播方向相反的扬声器的贡献。匹配投影解码方法的详细描述参见后文。
本发明的系统结合了房间声学建模和HOA声场重放系统,实现了一个虚拟声学环境的可听化系统。系统为了解决HOA解码过程中出现的病态矩阵求逆问题,采用投影匹配的方法计算扬声器的增益,将房间冲激响应进行匹配投影解码,得到房间冲激响应扬声器增益并用于声场的重放是本发明的可听化系统最显著的特点之一。
本发明的技术方案为:
一种基于扬声器阵列的虚拟听觉环境可听化实现方法,其步骤包括:
1)构建目标环境的几何模型的包围体层次结构树;
2)利用该包围体层次结构树和给定声源的位置计算声源的声场分布;
3)根据声源的声场分布,计算声源到该目标环境中目标位置的房间冲激响应;
4)将计算得到的房间冲激响应转化为HOA系数向量;
5)根据重放环境中扬声器的实际摆放位置,对该HOA系数向量进行解码,得到各个扬声器的增益,称为多通道房间冲激响应;
6)将解码得到的多通道房间冲激响应与任意声源信号卷积作为扬声器的信号重构该声源信号在该目标位置处的声场。
进一步的,对该HOA系数向量进行解码的方法为:
21)将HOA系数向量记为向量B;计算向量B在每个基向量上的投影值si;其中,所述基向量包括c1,c2,…,cL;L为扬声器总数,第i个基向量 是第i个扬声器的第N阶第N级球谐函数,第i个扬声器的方位为(θi,φi);
22)找出向量B的最大投影值sm及其对应的基向量cm,如果sm≤0,则终止该系数向量B的解码;否则将用向量B减去该系数向量B最大投影值与对应基向量的乘积sm·cm,得到向量B投影后的残差系数向量Bres;
23)如果Bres小于一个设定阈值,则终止对该向量B的解码;否则将Bres赋值给B并返回步骤22)进行迭代计算。
进一步的,利用该包围体层次结构树和给定声源的位置,使用波束跟踪的方法计算声源的声场分布。
进一步的,计算声源的声场分布的方法为:将声源周围的4π空间立体角使用平截头体进行划分,将所述平截头体置入一个待检测队列;对该待检测队列中的每一个平截头体,进行第一阶段的相交性检测,并根据检测结果确定对平截头体进行分裂或不分裂的操作;如果平截头体进行了分裂,则将得到的新的平截头体置入所述待检测队列;如果平截头体不进行分裂操作,则将该平截头体的数据存储在一个待反射列表中;在该待检测队列为空后,对于待反射列表中的平截头体,执行第二阶段的相交性检测,计算平截头体i与所述几何模型中相交的三角形面,然后根据这些相交的三角形面对该平截头体i进行镜面反射操作,将反射得到的新的平截头体置入该待检测队列,等待进行下一轮检测;当达到设定条件后,终止检测,得到的所有平截头体波束描述了给定声源在虚拟环境中的声场分布。
进一步的,所述设定条件为设定的反射次数或者传播距离。
一种基于扬声器阵列的虚拟听觉环境可听化系统,其特征在于,包括几何模型的导入与处理模块、房间声学建模模块、目标位置房间冲激响应计算模块、房间冲激响应的编码模块、HOA解码模块和扬声器重放模块;其中,
几何模型的导入与处理模块,用于导入目标环境的几何模型,构建该几何模型的包围体层次结构树;
房间声学建模模块,用于利用该包围体层次结构树和给定声源的位置计算声源的声场分布;
目标位置房间冲激响应计算模块,用于根据声源的声场分布,计算声源到该目标环境中目标位置的房间冲激响应;
房间冲激响应的编码模块,用于将计算得到的房间冲激响应转化为HOA系数向量;
HOA解码模块,用于根据重放环境中扬声器的实际摆放位置,对该HOA系数向量进行解码,得到各个扬声器的增益,称为多通道房间冲激响应;
扬声器重放模块,用于将解码得到的多通道房间冲激响应与任意声源信号卷积作为扬声器的信号重构该声源信号在该目标位置处的声场。
本发明的适合不规则扬声器摆放的虚拟声学环境可听化系统包括以下几个部分:
房间冲激响应的计算,包括几何模型的导入与处理、房间声学建模、目标位置房间冲激响应的计算;
几何模型的导入与处理:将待计算的环境的几何模型导入系统,构建几何模型的包围体层次结构树,用于之后的房间声学建模;
房间声学建模:利用上述结构化的几何模型数据和给定的声源位置使用波束跟踪的方法计算给定声源的声场分布;
目标位置房间冲激响应的计算:根据房间声学建模计算得到的声源的声场分布,计算声源到目标位置的房间冲激响应;
HOA声场重放,包括房间冲激响应的编码、HOA解码、扬声器重放;
房间冲激响应的编码:将计算得到的房间冲激响应进行Ambisonics编码,转化为HOA系数向量;
HOA解码:根据重放环境中扬声器的实际摆放位置,对房间冲激响应的HOA系数向量进行解码,得到各个扬声器的增益,称为多通道房间冲激响应,解码方法采用本发明所改进的匹配投影解码方法;
扬声器重放:将解码得到的多通道房间冲激响应与任意声源信号卷积作为扬声器的信号重构该任意声源信号在虚拟环境中目标位置处产生的目标声场。
与现有技术相比,本发明的积极效果为:
通过采用匹配投影解码方法对声场的HOA信号进行解码,避免了传统的矩阵求逆方法难以处理扬声器摆放不均匀时引起的病态矩阵求逆问题。在匹配投影解码方法中引入“In Phase”的思想,扩大了声场重放时中心听音区的范围。将房间声学建模技术与HOA重放技术相结合,实现了非标准播放环境下,虚拟声学环境的重放。
附图说明
图1是采用本发明的匹配投影解码的虚拟声学环境可听化系统的框图;
图2是房间声学建模的系统框图;
图3是本发明的匹配投影解码方法流程图;
图4是实验所用虚拟环境的几何模型;
图5是实验重放环境的扬声器摆放位置示意图;
图6是本发明的匹配投影法和现有的矩阵求逆法在本实验的扬声器摆放条件下对于各个空间方向的重构效果;
(a)匹配投影法对各个空间方向的重构效果,(b)矩阵求逆法对各个空间方向的重构效果;
图7是对本发明方法与矩阵求逆方法进行距离感知比较实验的结果;
(a)匹配投影法的距离感知结果,(b)矩阵求逆法的距离感知结果,(c)直达声的距离感知结果;
图8是对距离感知实验结果进行拟合得到的结果。
具体实施方式
下面参照本发明的附图,更详细地描述本发明的最佳实施例。
图1所示为采用本发明的匹配投影解码的虚拟声学环境可听化系统框图,本发明系统的具体实现步骤包括房间冲激响应计算和HOA声场重放。图2是本发明系统所采用的房间声学建模系统框图。本发明的具体实现过程如下:
1.房间冲激响应计算
房间声学建模是为了模拟虚拟环境中的声场并进而获得任意位置与声源之间的房间冲激响应(Room Impulse Response,RIR),这一部分又包括几何模型的导入与处理;房间声学建模;目标位置房间冲激响应的计算。
(1)几何模型的导入与处理
本发明系统需要从外部导入任意的几何模型作为虚拟环境的描述。由于三维几何模型数据的通用存储格式一般是无结构的线性存储方式,这种格式不利于进行几何模型与几何形状交点的计算。所以需要对导入的几何模型数据进行处理,使得处理后的数据结构能够进行快速的求交点运算。本发明系统中使用包围体层次结构(Bounding VolumeHierarchy,BVH)来描述三维几何模型,并选用方向包围盒(Oriented Bounding Box,OBB)作为包围体形状,使用自顶向下的方式来构建几何模型的BVH,具体构建方式采用Gottschalk等人在1996年提出的方法,描述如下。
这里将OBB层次结构组织为一棵OBB树,OBB树的构建过程分为两大步:首先计算紧密包围一组多边形的OBB;之后将这些嵌套的OBB组织成树结构。
在读取几何模型数据之后,将边数大于3的多边形分割成多个三角形。算法需要使用顶点坐标的一阶统计量,均值μ,和二阶统计量,协方差C。如果第i个三角形顶点分别是pi,qi和ri,则均值和协方差可由下式计算:
式中,n是三角形的个数;
Cjk是一个3×3的矩阵中的元素。
矩阵C是实对称阵,其特征向量互相垂直。将各特征向量归一化,作为一组基向量。在这组基向量的各个轴向上找到几何体顶点的坐标极值。从而依据基向量的方向和各方向上的顶点极值确定包围盒的朝向和大小,使得OBB恰好可以将各个轴向两端最远的两个顶点包含在内。由于协方差矩阵C的三个特征向量中有两个分别对应最大方差和最小方差的轴向,所以,它们会使得包围盒与几何体的管状特征或平面特征对齐。
有了上述的计算一组多边形的紧包围OBB的算法之后,还需要对OBB建立层级结构。本发明系统中采用自顶向下的方法从所有要计算的多边形开始,并递归地执行细分的步骤直到叶节点无法再细分时终止。细分的步骤即是将一个OBB中的三角形面元较为均匀地划分到多个较小的OBB中去,本发明中采用二分的方式进行细分。
(2)房间声学建模
本发明系统中房间声学建模采用Chandak等人于2008年提出的自适应平截头体跟踪(Adaptive Frustum Tracing)的算法思想,这是一种波束跟踪算法,在此算法的基础上,本发明使用OBB树结构代替原算法中的AABB(Axis Aligned Bounding Box)树结构表示复杂场景,并用于波束跟踪中波束与场景的相交性的快速检测。这里的波束是平截头体,定义为被一个平面截去顶部的四棱锥束。在自适应平截头体算法中引入了对平截头体的分裂操作,根据平截头体与几何模型中面元的相交情况,确定是否将一个平截头体分裂为多个。分裂方式为二分,一个平截头体可以分裂为4个更小的平截头体。
虚拟场景中的自适应平截头体跟踪算法的总体流程如附图2所示,具体描述如下。首先将声源周围的4π空间立体角使用较为粗略的平截头体进行划分。将这些平截头体置入一个待检测队列。对队列中的每一个平截头体,首先进行第一阶段的相交性检测,并根据检测结果对平截头体进行分裂(相交)或不分裂(不相交)的操作。如果平截头体进行了分裂,那么得到的新的平截头体也要被置入上述待检测队列;如果平截头体不进行分裂操作,那么就将这个平截头体的数据存储在一个待反射的列表中。在待检测队列为空后,对于待反射列表中的平截头体,执行第二阶段的相交性检测,计算平截头体与场景几何模型中的哪些三角形面相交。根据这些相交的面对当前的平截头体进行镜面反射操作。由于平截头体可能和多个三角形相交,所以反射面可能会由多个三角形根据面积加权求得。反射得到的新的平截头体也就是次级波束会被置入待检测队列,等待进行下一轮检测。如果定义了反射次数或者传播距离的限制,算法将在一定轮数后终止。算法终止后得到的所有平截头体波束描述了给定声源在虚拟环境中的声场分布。
(3)目标位置房间冲激响应的计算
这一部分用于计算虚拟环境中从声源到任一位置的房间冲激响应。对应给定的目标位置,需要根据目标位置与上述求得的描述声源在虚拟环境中产生的声场的平截头体波束的关系计算声源在目标位置处的贡献。即计算目标位置包含在哪些平截头体内部,根据平截头体与目标位置的空间关系,记录入射声波的方向和到达时刻,并根据传播路径和壁面的吸声特性计算反射和传播过程中壁面和空气的吸声。壁面的吸声可用下式计算
式中,E表示初始能量,Er表示经过壁面反射后的能量,αi表示壁面材料的吸声系数,它是与频率相关的,ni表示同种壁面反射的次数。下标i指示不同材料的壁面。
将空气吸声表示为空气吸声因子A(d,h,f),则可表示为:
A(d,h,f)=exp(5.5×10-4·d·(50/h)·(f/1000)1.7),
式中,d表示传播距离,h表示空气的相对湿度,f表示频率。
从而入射声波的能量和频谱信息可以由下式计算得到:
根据入射声波的到达时刻与其能量、频谱信息,在房间冲激响应的对应时刻进行叠加,即可获得虚拟环境中声源到目标位置处的房间冲激响应的模拟结果。
2.HOA声场重放
房间冲激响应计算的结果要实现可听化,需要与声场重放技术相结合。房间冲激响应经过HOA编解码转化为与扬声器对应的房间冲激响应扬声器增益。房间冲激响应扬声器增益和任意的声源信号卷积作为扬声器的播放信号。即可重构出该声源信号在虚拟环境中目标位置处产生的声场。本专利采用匹配投影法代替原始的矩阵求逆法作为解码方法计算扬声器的增益。这一部分包括三个模块:房间冲激响应的编码;HOA解码;扬声器重放。
(1)房间冲激响应的编码
将计算得到的房间冲激响应进行Ambisonics编码,转化为HOA系数向量。
Ambisonics技术的理论基础是声场的傅里叶-贝塞尔级数展开,如下式所示:
对于方向为(θs,φs),信号为s的平面波,有如下表达形式:
上式的表示式即是对于方向为(θs,φs)的平面波的编码公式。实际编码中,对于给定的阶数N,HOA系数是一个(N+1)2维的向量。对于房间冲激响应,它包含着不同时刻来自不同方向的声波信息。在编码的过程中,不同时刻到达的声波均近似为平面波,将上述编码公式分别应用于不同时刻的入射声波,得到相应的HOA系数。不同时刻的入射声波,其HOA系数根据到达时刻在一个(N+1)2通道的信号中进行累加。这个(N+1)2通道的信号即是房间冲激响应进行HOA编码得到的HOA系数向量。
(2)HOA解码
根据扬声器的实际摆放位置,对房间冲激响应的HOA系数向量进行解码,得到各个扬声器的增益,称为房间冲激响应扬声器增益,解码方法采用改进的匹配投影解码方法,其流程如图3所示。
在理想情况下,考虑L个扬声器,每个扬声器具有方位(θl,φl)(l=1,2,…,L),向外发射平面波:
式中忽略时间项,sl表示扬声器的信号。对于每一个扬声器,其HOA系数如下:
对于每一个原始的HOA系数,可以由扬声器的系数加和表示:
写成矩阵的形式为:
B=C·S
①计算HOA系数向量B在每个基向量上的投影值si;
②找出最大的投影值sm=max si与相应的基向量cm,如果这里的sm≤0,则终止算法,否则计算HOA系数向量B减去当前投影后的残差Bres=B–sm·cm;
③对于上述残差Bres,如果它小于一个设定阈值,则终止算法,否则将残差赋值给B并返回第①步进行迭代计算,直到某一系数的计算结果满足sm≤0或Bres小于一个设定阈值。
在上述改进的算法中,与原匹配投影方法中一个基向量只能选取一次相比,这里的一个基向量可能会被多次选取,此时需要将多次得到的投影值进行累加,作为HOA系数在该基向量上的最终投影值。另外一点改进是“In phase”思想的引入,在算法中限定了sm的值只能为正值,所以,本解码算法得到的扬声器增益均为正值。这使得中心听音区得以扩大。算法中阈值的选取通常根据需要的计算精度经验地选取。
使用上述匹配投影解码方法对房间冲激响应编码得到的HOA系数向量进行解码,即可得到相应于实际扬声器配置的多通道房间冲激响应。
(3)扬声器重放
扬声器重放用于在实际环境中产生与声源信号在虚拟环境中目标位置处相一致的目标声场。对于虚拟环境中任意给定的声源信号,通过将声源信号与房间冲激响应扬声器增益进行卷积,作为扬声器的输入信号,即可重构给定声源在虚拟环境中目标位置处产生的声场,从而实现虚拟环境的可听化。
下面结合具体实施例说明本发明的优点。
1.匹配投影法对声源方向的重构能力
匹配投影法的目的是为了解决不规则扬声器摆放条件下使用矩阵求逆法所遇到的病态问题。本发明使用图5所示的不规则扬声器摆放,分别使用匹配投影法和矩阵求逆法对空间各个方向的HOA系数进行解码;之后根据解码得到的各个扬声器的增益,计算扬声器阵列在中心听音区所重构声场的能量向量。画出能量向量的对应的单位向量与目标方向的单位向量之间的内积图,得到如图6所示的方向重构效果图。扬声器阵列的能量向量可以用下式计算:
式中,Ai是扬声器的增益,ui是扬声器方向的方向向量,uE是能量向量的对应的单位向量。
图中的几何形状越接近球面,表明方向重构越准确。从图6的结果可以看出,匹配投影法在扬声器摆放不规则的条件下,对于空间方向的重构要优于传统的矩阵求逆法。
2.方法的感知效果评价
在这一部分,本发明利用扬声器阵列重放虚拟环境中的声场,并对重放声场进行了主观评价。主观评价采用听觉心理物理实验的方法,将房间冲激响应解码得到的扬声器增益分别与声源信号进行卷积,作为扬声器的输入信号呈现给被试。实验采用距离判断作为评估指标,呈现给被试的刺激为虚拟环境中一组不同距离下目标位置处计算得到的声场。被试需要根据重构声场给出声源的距离。
2.1主观评价结果
主观评价采用的虚拟环境几何模型如图4所示,图中左侧圆点表示目标位置,右侧星形标记表示声源的位置。声源与目标位置的距离依次为[1.0,2.2,4.0,7.5,11.2]米。几何模型表面的吸声系数根据其材料设置为一个频率相关的函数。根据房间几何模型参数和声源参数,使用房间声学建模技术模拟每一个目标位置处的房间冲激响应,并根据扬声器的实际摆放位置进行HOA的编解码,得到扬声器增益。实验的重放环境为一个低混响的房间,房间中配置了22个扬声器,各个扬声器的位置如图5所示。
实验通过比较匹配投影法和矩阵求逆法在实现虚拟听觉环境中距离感知呈现的效果,验证匹配投影法在HOA技术中应用时对于房间混响重放的有效性。前人的研究工作表明,人对于距离的感知主要依据以下四个线索:强度、直混比、双耳差异(对于近场)和频谱。其中,强度和频谱线索由于和声源的特性相关,而不如另外两个因素重要。本实验为了研究重放系统对于房间混响重放的效果,排除了双耳差异和强度因素的影响,实验中没有近场声源,且声源在各个目标位置水平角为0°的方向;同时一组无回声条件下的房间冲激响应(即只包含直达声)作为对照组,体现强度因素对于距离感知的影响。另外一组作为对照的是使用矩阵求逆法作为HOA解码方法的房间混响重放系统。
使用不同方法在不同距离下得到的房间冲激响应扬声器增益和一段选自MPEC测试音频的英语语音卷积,得到各个扬声器的输入信号。语音信号的采样率为48kHz,采样位数为16位,时长约为4s。本实验中,共使用了三种条件获得扬声器的信号,分别为匹配投影解码系统、矩阵求逆解码系统和无回声房间结果。在矩阵求逆解码系统中,为了一定程度上避免病态矩阵求逆的问题,引入了一个正则化系数。每种条件包含三组重复实验,每组实验以乱序的方式分别呈现各个距离下的声音信号。为了避免视觉线索的干扰,实验在黑暗的房间中进行,且被试在实验时被蒙上眼睛。在整个实验过程中,被试被要求坐在扬声器阵列中心的椅子上,并保持不动。在每组实验之前,重放系统合成的最近距离和最远距离的句子首先被播放,以给被试提供这一组实验中声事件的距离变化范围线索。实验中,真实的物理距离范围没有告知被试。在每一个声刺激给出后,被试被要求回答“声源离你大概多远?”的问题,且给出的回答要求是以米为单位的具体距离值。在实验之前,每个被试会有一个简短的训练,以熟悉实验的任务。实验共有8名听力正常的被试参加,年龄从20岁到26岁。
人类对声源距离的估计可以用幂函数很好地近似,这个函数在线性函数中是一个幂律拟合r′=kra,其中r和r′分别表示物理距离和感知距离(米),a幂指数和k是一个常数。幂律拟合对应于双对数域中的线性函数。
对于每个被试和三种条件,感知距离在对数域的均值和标准差显示在图7中。对于本发明的方法,所有被试在所有距离下的标准差基本均在0和0.36之间。矩阵求逆的方法与本发明的方法相比有较大的偏差。图7中的实线是从每种方法的所有数据获得的拟合曲线。图8显示了不同条件下对不同被试进行幂律拟合得到的指数a的均值和标准差。对于本发明的方法,指数a的平均值是0.43,通过正则化的矩阵求逆法获得的指数a的平均值是0.30。对于无回声条件,指数a的均值为0.21。
与无回声条件相比,本发明匹配投影法获得的指数a有较大的提高,说明混响有助于距离的感知。与正则化的矩阵求逆法相比,本发明的方法也有表现的提升。这表明本发明的方法在声场与房间混响重放方面有更好的表现。
比较传统矩阵求逆解码方法,适合不规则扬声器摆放条件的匹配投影解码方法的突出优点在于它能够很好地避免病态矩阵的求逆问题。在此基础上,结合房间声学建模技术,构建了一个虚拟听觉环境可听化系统。该系统对于病态矩阵求逆问题的解决使得用于声场重放的扬声器的摆放限制更加宽松,这对于进入家庭等扬声器摆放难以满足均匀条件的场所具有一定的促进作用。通过对虚拟环境中不同距离声源的感知实验,采用匹配投影解码方法的虚拟听觉环境重放系统对于声场的重放效果要优于传统的矩阵求逆方法。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。
Claims (6)
1.一种基于扬声器阵列的虚拟听觉环境可听化实现方法,其步骤包括:
1)构建目标环境的几何模型的包围体层次结构树;
2)利用该包围体层次结构树和给定声源的位置计算声源的声场分布;
3)根据声源的声场分布,计算声源到该目标环境中目标位置的房间冲激响应;
4)将计算得到的房间冲激响应转化为HOA系数向量;HOA是指高阶Ambisonics;
5)根据重放环境中扬声器的实际摆放位置,对该HOA系数向量进行解码,得到各个扬声器的增益,称为多通道房间冲激响应;
6)将解码得到的多通道房间冲激响应与任意声源信号卷积作为扬声器的信号重构该声源信号在该目标位置处的声场;
其中,利用该包围体层次结构树和给定声源的位置,使用波束跟踪的方法计算声源的声场分布:首先将声源周围的4π空间立体角使用平截头体进行划分,将所述平截头体置入一个待检测队列;对该待检测队列中的每一个平截头体,进行第一阶段的相交性检测,并根据检测结果确定对平截头体进行分裂或不分裂的操作;如果平截头体进行了分裂,则将得到的新的平截头体置入所述待检测队列;如果平截头体不进行分裂操作,则将该平截头体的数据存储在一个待反射列表中;在该待检测队列为空后,对于待反射列表中的平截头体,执行第二阶段的相交性检测,计算平截头体i与所述几何模型中相交的三角形面,然后根据这些相交的三角形面对该平截头体i进行镜面反射操作,将反射得到的新的平截头体置入该待检测队列,等待进行下一轮检测;当达到设定条件后,终止检测,得到的所有平截头体波束描述了给定声源在虚拟环境中的声场分布。
2.如权利要求1所述的方法,其特征在于,对该HOA系数向量进行解码的方法为:
21)将HOA系数向量记为向量B;计算向量B在每个基向量上的投影值si;其中,所述基向量包括c1,c2,…,cL;L为扬声器总数,第i个基向量 是第i个扬声器的第N阶第N级球谐函数,第i个扬声器的方位为(θi,φi);
22)找出向量B的最大投影值sm及其对应的基向量cm,如果sm≤0,则终止该系数向量B的解码;否则将用向量B减去该系数向量B最大投影值与对应基向量的乘积sm·cm,得到向量B投影后的残差系数向量Bres;
23)如果Bres小于一个设定阈值,则终止对该向量B的解码;否则将Bres赋值给B并返回步骤22)进行迭代计算。
3.如权利要求1所述的方法,其特征在于,所述设定条件为设定的反射次数或者传播距离。
4.一种基于扬声器阵列的虚拟听觉环境可听化系统,其特征在于,包括几何模型的导入与处理模块、房间声学建模模块、目标位置房间冲激响应计算模块、房间冲激响应的编码模块、HOA解码模块和扬声器重放模块;其中,
几何模型的导入与处理模块,用于导入目标环境的几何模型,构建该几何模型的包围体层次结构树;
房间声学建模模块,用于利用该包围体层次结构树和给定声源的位置,使用波束跟踪的方法计算声源的声场分布:将声源周围的4π空间立体角使用平截头体进行划分,将所述平截头体置入一个待检测队列;对该待检测队列中的每一个平截头体,进行第一阶段的相交性检测,并根据检测结果确定对平截头体进行分裂或不分裂的操作;如果平截头体进行了分裂,则将得到的新的平截头体置入所述待检测队列;如果平截头体不进行分裂操作,则将该平截头体的数据存储在一个待反射列表中;在该待检测队列为空后,对于待反射列表中的平截头体,执行第二阶段的相交性检测,计算平截头体i与所述几何模型中相交的三角形面,然后根据这些相交的三角形面对该平截头体i进行镜面反射操作,将反射得到的新的平截头体置入该待检测队列,等待进行下一轮检测;当达到设定条件后,终止检测,得到的所有平截头体波束描述了给定声源在虚拟环境中的声场分布;
目标位置房间冲激响应计算模块,用于根据声源的声场分布,计算声源到该目标环境中目标位置的房间冲激响应;
房间冲激响应的编码模块,用于将计算得到的房间冲激响应转化为HOA系数向量;HOA是指高阶Ambisonics;
HOA解码模块,用于根据重放环境中扬声器的实际摆放位置,对该HOA系数向量进行解码,得到各个扬声器的增益,称为多通道房间冲激响应;
扬声器重放模块,用于将解码得到的多通道房间冲激响应与任意声源信号卷积作为扬声器的信号重构该声源信号在该目标位置处的声场。
5.如权利要求4所述的系统,其特征在于,所述HOA解码模块对该HOA系数向量进行解码的方法为:将HOA系数向量记为向量B;计算向量B进行迭代计算;每次迭代时将向量B在每个基向量上的投影值si;其中,所述基向量包括c1,c2,…,cL;L为扬声器总数,第i个基向量 是第i个扬声器的N阶球谐函数,第i个扬声器的方位为(θi,φi);然后找出系数B的最大投影值sm及其对应的基向量cm,如果sm≤0,则终止该向量B的解码;否则将用向量B减去该向量B最大投影值与对应基向量的乘积sm·cm,得到向量B投影后的残差系数向量Bres;如果Bres小于一个设定阈值,则终止对该向量B的解码;否则将Bres赋值给向量B。
6.如权利要求4所述的系统,其特征在于,所述设定条件为设定的反射次数或者传播距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810066540.8A CN108419174B (zh) | 2018-01-24 | 2018-01-24 | 一种基于扬声器阵列的虚拟听觉环境可听化实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810066540.8A CN108419174B (zh) | 2018-01-24 | 2018-01-24 | 一种基于扬声器阵列的虚拟听觉环境可听化实现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108419174A CN108419174A (zh) | 2018-08-17 |
CN108419174B true CN108419174B (zh) | 2020-05-22 |
Family
ID=63126327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810066540.8A Active CN108419174B (zh) | 2018-01-24 | 2018-01-24 | 一种基于扬声器阵列的虚拟听觉环境可听化实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108419174B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11902769B2 (en) | 2019-07-02 | 2024-02-13 | Dolby International Ab | Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110708647B (zh) * | 2019-10-29 | 2020-12-25 | 扆亮海 | 一种球面分配引导的数据匹配立体声场重构方法 |
CN113314129B (zh) * | 2021-04-30 | 2022-08-05 | 北京大学 | 一种适应环境的声场重放空间解码方法 |
CN115226001B (zh) * | 2021-11-24 | 2024-05-03 | 广州汽车集团股份有限公司 | 声能量补偿方法、装置及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103700372A (zh) * | 2013-12-30 | 2014-04-02 | 北京大学 | 一种基于正交解相关技术的参数立体声编码、解码方法 |
CN105072557A (zh) * | 2015-08-11 | 2015-11-18 | 北京大学 | 一种三维环绕声重放系统的扬声器环境自适应校准方法 |
CN106537942A (zh) * | 2014-11-11 | 2017-03-22 | 谷歌公司 | 3d沉浸式空间音频系统和方法 |
CN107147975A (zh) * | 2017-04-26 | 2017-09-08 | 北京大学 | 一种面向不规则扬声器摆放的Ambisonics匹配投影解码方法 |
-
2018
- 2018-01-24 CN CN201810066540.8A patent/CN108419174B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103700372A (zh) * | 2013-12-30 | 2014-04-02 | 北京大学 | 一种基于正交解相关技术的参数立体声编码、解码方法 |
CN106537942A (zh) * | 2014-11-11 | 2017-03-22 | 谷歌公司 | 3d沉浸式空间音频系统和方法 |
CN105072557A (zh) * | 2015-08-11 | 2015-11-18 | 北京大学 | 一种三维环绕声重放系统的扬声器环境自适应校准方法 |
CN107147975A (zh) * | 2017-04-26 | 2017-09-08 | 北京大学 | 一种面向不规则扬声器摆放的Ambisonics匹配投影解码方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11902769B2 (en) | 2019-07-02 | 2024-02-13 | Dolby International Ab | Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data |
Also Published As
Publication number | Publication date |
---|---|
CN108419174A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cuevas-Rodríguez et al. | 3D Tune-In Toolkit: An open-source library for real-time binaural spatialisation | |
CN108419174B (zh) | 一种基于扬声器阵列的虚拟听觉环境可听化实现方法及系统 | |
US20200037091A1 (en) | Audio signal processing method and device | |
Wendt et al. | A computationally-efficient and perceptually-plausible algorithm for binaural room impulse response simulation | |
Lehnert et al. | Principles of binaural room simulation | |
EP0593228B1 (en) | Sound environment simulator and a method of analyzing a sound space | |
Mehra et al. | Source and listener directivity for interactive wave-based sound propagation | |
CN105900457A (zh) | 用于设计和应用数值优化的双耳房间脉冲响应的方法和系统 | |
US20150294041A1 (en) | Methods, systems, and computer readable media for simulating sound propagation using wave-ray coupling | |
Pulkki et al. | Machine-learning-based estimation and rendering of scattering in virtual reality | |
Tylka et al. | Performance of linear extrapolation methods for virtual sound field navigation | |
Sakamoto et al. | Sound-space recording and binaural presentation system based on a 252-channel microphone array | |
JP2005080124A (ja) | リアルタイム音響再現システム | |
Zuo et al. | Intensity based spatial soundfield reproduction using an irregular loudspeaker array | |
Su et al. | Inras: Implicit neural representation for audio scenes | |
Rosen et al. | Interactive sound propagation for dynamic scenes using 2D wave simulation | |
Pind et al. | Acoustic virtual reality–methods and challenges | |
Kirsch et al. | Computationally-efficient simulation of late reverberation for inhomogeneous boundary conditions and coupled rooms | |
McKenzie et al. | Perceptually informed interpolation and rendering of spatial room impulse responses for room transitions | |
Zuo et al. | 3D multizone soundfield reproduction in a reverberant environment using intensity matching method | |
Alary et al. | A method for capturing and reproducing directional reverberation in six degrees of freedom | |
Chen et al. | Real acoustic fields: An audio-visual room acoustics dataset and benchmark | |
Qu et al. | Matching projection decoding method for ambisonics system | |
Vorländer et al. | Simulation of sound in rooms | |
Foale et al. | Portal-based sound propagation for first-person computer games |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |