CN115209336A - 一种多个虚拟源动态双耳声重放方法、装置及存储介质 - Google Patents

一种多个虚拟源动态双耳声重放方法、装置及存储介质 Download PDF

Info

Publication number
CN115209336A
CN115209336A CN202210739806.7A CN202210739806A CN115209336A CN 115209336 A CN115209336 A CN 115209336A CN 202210739806 A CN202210739806 A CN 202210739806A CN 115209336 A CN115209336 A CN 115209336A
Authority
CN
China
Prior art keywords
distance
virtual
tensor
virtual source
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210739806.7A
Other languages
English (en)
Inventor
赵童
谢菠荪
朱俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210739806.7A priority Critical patent/CN115209336A/zh
Publication of CN115209336A publication Critical patent/CN115209336A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Abstract

本发明公开了一种多个虚拟源动态双耳声重放方法、装置及存储介质,基于近场头相关脉冲响应的张量分解,本发明采用一组与目标虚拟源位置无关的公共卷积器或等价的滤波器实施双耳声信号合成,通过改变各滤波器的权重而实现动态双耳声信号处理。本发明的方法能够独立地操控感知虚拟源的方向和距离,显著降低同时产生多个虚拟源的运算量和所需的存储空间,从而提高了信号处理效率,改善动态虚拟双耳声重放系统的性能。将本发明得到的双耳声信号馈给耳机重放,可产生逼真的空间听觉感知。本发明可广泛应用于虚拟现实以及电声技术领域。

Description

一种多个虚拟源动态双耳声重放方法、装置及存储介质
技术领域
本发明涉及虚拟现实以及电声技术领域,尤其涉及一种多个虚拟源动态双耳声重放方法、装置及存储介质。
背景技术
动态双耳声重放是一种空间声重放技术,它通过信号处理合成声源产生的双耳信号及其随头部运动的变化,在耳机重放中产生不同空间位置的虚拟源。动态双耳声可重放出目标声场的空间信息,给倾听者产生真实的空间听觉感知。动态双耳重放在虚拟和增强现实(AR/AR)、通信、各种手持播放设备等方面有着重要的应用前景。
在自然的声学环境中,声源辐射的声波通过直达声和各种环境边界反射和散射的途径传输,并经头部、耳廓等生理结构散射后传输到双耳,形成双耳声信号。当倾听这头部运动后,双耳声信号也随之变化。双耳声信号及器随头部运动的变化包含了声源和环境的时间和空间信息,它们经听觉系统处理后,形成相应的各种空间听觉事件,如声源定位、声学环境的听觉感知等。任何复杂的声场都可等效为多个不同方向和距离自由场声源所产生的声场叠加,因而产生不同方向和距离虚拟源是对动态双耳重放技术的基本要求。
在双耳重放中,传统的产生虚拟源的方法是用头相关传输函数(HRTF)进行频域滤波处理,或等价地用头相关脉冲响应(HRIR)进行时域卷积处理。假定目标虚拟源相对倾听者头部中心的空间位置由球坐标(r,θ,φ)表示,其中r为声源到头中心的距离;–90°≤φ≤90°和0°≤θ<360°分别表示仰角和方位角:φ=0°和90°分别表示水平面和正上方;在水平面θ=0°和90°分别表示正前和正右方。则左或右耳的时域信号e0(t)可用目标声源位置的HRIR h(r,θ,φ,t)对输入信号e0(t)卷积得到:
Figure BDA0003717403390000011
其中因子1/r和τ1(r)分别模拟自由场点声源的声波到接收位置的幅度衰减和延时。当头部跟踪器探测到倾听者头部运动后,系统实时刷新(1)式的HRIR,产生动态变化的双耳信号。当把双耳信号用一对耳机重放,即可产生不同目标方向和距离的虚拟源。
上述传统的产生虚拟源的方法具有以下的缺点:
(1)每个虚拟源需要一个独立的HRIR卷积,或相应的HRTF滤波器,卷积运算的次数随虚拟源的数目线性增加,因而同时产生多个虚拟源的信号处理效率较低。
(2)系统需要储存高空间分辨率的近场HRIR数据库,占用非常大的存储空间。
(3)动态处理需要刷新头相关脉冲响应,容易产生可听的缺陷。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种多个虚拟源动态双耳声重放方法、装置及存储介质。
本发明所采用的技术方案是:
一种多个虚拟源动态双耳声重放方法,包括以下步骤:
S1、通过张量分解的方法,将不同方向和距离的最小相位近场头的相关脉冲响应数据,分解为与距离、方向和时间有关的三个独立模态以及核心张量的内积;
S2、根据有限个时间有关的本征模态,得出有限N”个公共卷积器的脉冲响应或等价的公共滤波器传输函数;
S3、将预设虚拟源输入信号作一个与距离和方向有关的延时τ(d,m),并用距离有关的增益1/rd进行标度;
S4、将预设虚拟源信号分别乘以有限N”个权重cn’,用N”个脉冲响应为un’,n’=1,2…N”的公共卷积器进行卷积或等价的N”个公共滤波器进行滤波;
S5、将N”个卷积的输出求和得到特定虚拟源、特定耳的信号;
S6、当倾听者头部转动或虚拟源运动后,根据虚拟源相对倾听者的方向和距离动态刷新权重cn’
S7、对每一个虚拟源、特定耳的信号按步骤S3到步骤S6处理,得到所有虚拟源、特定耳的信号;
S8、两耳中每一耳的信号按步骤S3到步骤S6独立地产生,最后得到双耳信号。即分别获得左耳和右耳的信号。
进一步地,所述将不同方向和距离的最小相位近场头的相关脉冲响应数据,分解为与距离、方向和时间有关的三个独立模态以及核心张量的内积,包括:
将D个方向、M个距离、N个离散时间的D×M×N维最小相位脉冲响应张量hD×M×N,分解并截断为D×D’距离模态矩阵
Figure BDA0003717403390000021
M×M”方向模态矩阵
Figure BDA0003717403390000022
和N×N”时间模态矩阵
Figure BDA0003717403390000023
以及D’×M”×N”核心张量wD'×M”×N”内积:
Figure BDA0003717403390000031
其中,符号×D'M”和×N”分别代表张量与矩阵对距离模态变量D’,方向模态变量M”和时间模态变量N”的内积。
进一步地,步骤S2中的N”个公共卷积器的脉冲响应un',n’=1,2…N”是通过分别取时间模态矩阵
Figure BDA0003717403390000032
的N”列得到。
进一步地,步骤S4中的有限N”个权重cn’通过以下公式计算获得:
Figure BDA0003717403390000033
其中,
Figure BDA0003717403390000034
分别是矩阵
Figure BDA0003717403390000035
Figure BDA0003717403390000036
的元素,wd'm'n'是核心张量wD'×M'×N'的元素。
本发明所采用的另一技术方案是:
一种多个虚拟源动态双耳声重放装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明能够独立地操控感知虚拟源的方向和距离,显著降低同时产生多个虚拟源的运算量和所需的存储空间,从而提高了信号处理效率,改善动态虚拟双耳声重放系统的性能。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中产生双耳信号的方法的流程图;
图2是本发明实施例中通过实验得到的水平面上传统和基于张量的方法的方向定位结果的球形数据统计图;
图3是本发明实施例中通过实验得到的水平面上传统和基于张量的方法的平均感知距离和对应的标准差的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
双耳Ambisonics是另一种在动态双耳重放中产生虚拟源的方法。它采用空间球谐函数对HRTF或HRIR进行分解,因而可以用一组公共的滤波器或等价的卷积产生不同空间位置的虚拟源。滤波器或卷积的数目是固定的,不随虚拟源的数目变化。但为了在上限20kHz的可听声频率范围精确地产生双耳声信号,需要33阶以上的双耳Ambisonics和大约1000个固定滤波器.引而双耳Ambisonics信号处理效率也不高。
主成分分析(PCA)的方法也被用于动态双耳重放中产生虚拟源。在一些技术中,采用主成分分析的方法,用15个共用的固定滤波器产生不同方向和距离虚拟源,改善了同时产生多个虚拟源的效率。但PCA的方法不容易实现虚拟源距离和方向的独立控制。
张量分解是一种多线性模型,可以看作是PCA和SVD的扩展,可用于远场固定声源距离(不少于1.0m)的HRTF或HRIR的分析和数据压缩。
基于现有技术的不足,本实施例提供一种基于张量分解的生成不同方向和距离的多个虚拟源动态双耳声重放的方法,进一步将张量分解应用于不同声源方向和距离的近场HRIR。基于近场头相关脉冲响应的张量分解,本发明实施例采用一组与目标虚拟源位置无关的公共卷积器或等价的滤波器实施双耳声信号合成,通过改变各滤波器的权重而实现动态双耳声信号处理。本发明的方法能够独立地操控感知虚拟源的方向和距离,显著降低同时产生多个虚拟源的运算量和所需的存储空间,从而提高了信号处理效率,改善动态虚拟双耳声重放系统的性能。将本发明得到的双耳声信号馈给耳机重放,可产生逼真的空间听觉感知。
本发明的物理原理是:不同空间位置(包括方向和距离)的近场HRIR或HRTF数据是具有相关性的。用张量分解的方法消除这些相关性后,不同空间方向和距离的HRIR可以表示为一个三维核张量和三个基矩阵的模乘。三个基矩阵分别由距离基矢量、方向基矢量和时间基矢量所组成。根据一组时间基矢量可得到一组固定的卷积器或相应的滤波器,根据距离基矢量、方向基矢量和核张量可得到各卷积器对应的权重或增益。将输入信号乘以权重并用各卷积器进行卷积,和叠加后,可合成期望的耳信号。动态调整各滤波器的权重即可控制虚拟源相对倾听者头部的方向和距离,实现动态双耳重放。
下面结合实施例及附图对本实施例方法作进一步描述,但本发明的实施方式不限于此。
左或右耳的时域信号e0(t)可用目标声源位置的HRIR h(r,θ,φ,t)对输入信号e0(t)卷积得到:
Figure BDA0003717403390000051
其中,因子1/r和τ1(r)分别模拟自由场点声源的声波到接收位置的幅度衰减和延时。
采用数字信号处理,任一耳的HRIR是离散距离索引d、方向m和时间n的函数,记为h(d,m,n)。一般情况下,HRIR可近似为其最小相位脉冲响应并附加上一个与距离、方向有关的线性延时τ2(d,m):
h(d,m,n)=hmin[d,m,n-τ2(d,m)] (2)
相应地,(1)式产生双耳信号的方法可写成下面的离散时间卷积形式:
Figure BDA0003717403390000052
其中rd是索引d对应的距离,而τ=τ1(d)+τ2(d,m)。因而在最小相位近似下,可将输入信号e0延时τ并按1/rd进行增益标度,然后与最小相位HRIR卷积而产生双耳信号。最小相位近似可减少脉冲响应的长度,简化信号处理。
本发明进一步用以下的HRIR张量分解的方法简化信号处理。本发明包括HRIR数据预处理和产生双耳信号两个阶段。其中数据预处理通过以下的原理和方法进行。
假定对每一耳,有一组包含D个距离、M个方向和N个离散时间采样的近场最小相位HRIR数据hmin(d,m,n),d=1,2…D,m=1,2…M,n=1,2…N。这些数据组成维度是D×M×N的三阶张量,hD×M×N,张量的元素是hmin(d,m,n)。根据Tucker张量分解,hD×M×N可分解为核心张量wD'×M'×N'和三个矩阵
Figure BDA0003717403390000061
的内积:
Figure BDA0003717403390000062
其中,下标表示张量或矩阵的维度;符号×D'M'和×N'分别代表张量与矩阵对距离模态变量D’,方向模态变量M’和时间模态变量N’的内积。
(4)式将完整的HRIR数据组用距离模态、方向模态和时间模态等三组独立变化的模态表示.
Figure BDA0003717403390000063
是表示距离模态的D×D’矩阵,每一行对应一个距离,每一列对应一个距离本征模态。
Figure BDA0003717403390000064
是表示方向模态的M×M’矩阵,每一行对应一个方向,每一列对应一个方向本征模态。
Figure BDA0003717403390000065
是一个N×N’时间模态矩阵,每一行对应一个时间,每一列对应一个本征时间模态。因为本征模态的数目不会超过离散变量的维度,因而有D'≤D,M'≤M,N'≤N。并且三个模态矩阵满足正交性:
Figure BDA0003717403390000066
其中,上标"T"表示矩阵转置,I是单位矩阵。正交性表示与特定变量模对应的一组本征模态之间是相互独立的。
给定D×M×N维HRIR张量hD×M×N,可以用张量的普遍方法得出矩阵
Figure BDA0003717403390000067
以及核心张量wD'×M'×N',从而得到(4)式的张量分解。以矩阵
Figure BDA0003717403390000068
为例。首先从已知的HRIR构造一个N×(DM)维矩阵hN×(DM)。矩阵的行代表不同时间的HRIR,矩阵的列代表不同距离和方向的HRIR。由hN×(DM)可以构造出一个N×N实对称矩阵,
Figure BDA0003717403390000069
其中,
Figure BDA00037174033900000610
代表矩阵的转置。
通过矩阵RN×N的前N’≤N个由大到小次序排列的正本征值对应的本征矢即可构造出矩阵
Figure BDA0003717403390000071
本征值可写为:
Figure BDA0003717403390000072
其它两个矩阵
Figure BDA0003717403390000073
Figure BDA0003717403390000074
可用类似的方法得到。得到矩阵
Figure BDA0003717403390000075
Figure BDA0003717403390000076
后,核心张量wD'×M'×N'可由(5)式的矩阵正交性求出
Figure BDA0003717403390000077
(4)式是HRIR数据组的精确表示。实际中,对一个离散变量的独立变化模态,不同阶的本征模态对HRIR变化的贡献是不同的。如果保留对HRIR变化相对贡献较大的模态而略去对HRTF变化相对贡献较小的模态,则可以进一步得到HRIR数据组的近似、且更高效的低维表示。例如,可以将HRIR数据的方向和时间变化近似用前M”<M’和N”<N’个相对贡献大的方向和频率模态表示。则对矩阵
Figure BDA0003717403390000078
Figure BDA0003717403390000079
截断到前M”和N”列;同时对核心张量wD'×M'×N'中方向和时间模态的维度截断到M”和N”,这样(4)式可以成为:
Figure BDA00037174033900000710
相应地,HRIR随相应离散变量的变化可以用较少量的独立模态变化代表,则(9)式是HRTF数据组的准确、且低维表示。对HRIR的距离模态也可以用类似的方法截断和近似,从而得到更有效的HRTF数据压缩。这里,由于数据库中包含的距离较少,故只对方向和时间模态进行截断近似。
当频率模态截断到N”阶时,(9)式的近似代表的HRTF能量个体变化的累积百分比由下式计算:
Figure BDA00037174033900000711
其中,λn是与各阶距离模态对应的本征值。对方向模态进行的截断,也可以得到类似关系。本实例中用(10)式的累积百分比评估近似的准确性。
本发明实施例的双耳信号产生是是通过以下的原理和方法进行。
令hmin,d,m=[hmin(d,m,1),hmin(d,m,2).....hmin(d,m,N)]T为一个N×1列矢量或矩阵,它代表一个给定距离d和方向m的N点最小相位HRIR,上表“T”表示矩阵转置。同时令un'=[u1n',u2n'....unn']T,n’=1,2…N”为一组取自矩阵
Figure BDA00037174033900000712
的N×1列矢量,它代表与最小相位HRIR时间本征模对应的N”个脉冲响应。由(9)式可以得到,任意距离和方向的HRIRs可分解为N”个与时间模态相关、但与距离和方向无关的脉冲响应的权重组合,而权重与方向和距离有关:
Figure BDA0003717403390000081
其中,权重为:
Figure BDA0003717403390000082
令ed,m(n)代表距离d和方向m的双耳信号,e0(n)为输入信号,(3)式给出的产生双耳信号的方法变为:
Figure BDA0003717403390000083
(13)式表明,本发明给出产生双耳信号的方法可通过以下的步骤实施,如图1所示:
步骤S101:将输入信号作一个与距离和方向有关的延时τ(d,m),并用距离有关的增益1/rd进行标度。
步骤S102:将信号分别乘以N”权重cn’后用N”个公共脉冲响应un’,进行卷积或滤波。
步骤S103:将N”个卷积输出求和得到特定耳的信号。
步骤S104:每一耳的信号独立产生。
综上可知,本发明的算法具有以下的特征:
(1)该算法需要N”个卷积器(或等价的滤波器),所以对于合成单个虚拟源的情况,效率较低。但由于不同距离和方向的虚拟源可以共享一组通用的滤波器,所以滤波器的数量是固定且与虚拟源数量无关的。换句话说,对于同时生成多个虚拟源的情况,且虚拟源的个数大于N”时,本算法的效率较传统算法大大提高。
(2)动态VAD实际应用时,当用户转头或虚拟源位置发生变化时(如移动虚拟源的情况),只需要实时更新权重cn”而非滤波器,避免了传统算法中的实时更新滤波器可能会导致的可听的缺陷。
(3)权重cn”分别通过与虚拟源距离和方向有关的两组系数
Figure BDA0003717403390000084
Figure BDA0003717403390000085
得到(如式(12)所示),所以分别改变这两组系数即可以独立控制源距离和方向。
(4)HRIRs/HRTFs是与虚拟源距离和方向的连续函数。实际测量或计算通常会得到具有一定分辨率的离散的距离和方向的数据。动态VAD需要与听觉分辨率相匹配的数据,这可以通过对测量/计算数据进行空间插值来获得。空间插值可以在动态VAD中在线实现,但会增加计算量。空间插值也可以离线实现,但这需要更多的数据存储资源。张量分解的结果是HRIRs/HRTFs的压缩表示,如果要在任意(连续)空间位置生成虚拟源,或考虑连续的头部运动,只需对不同距离和方向的系数而非滤波器插值,避免了滤波器插值引起的可听的缺陷。
本发明可以通过基于个人计算机的虚拟听觉环境实时绘制系统平台实现,也可以通过智能手机的系统平台实现。本实施例给出的是虚拟听觉环境实时绘制系统平台实施例。
本实例中使用华南理工大学声学研究所Zhang和Xie搭建的动态虚拟听觉环境实时绘制系统,该系统基于个人计算机平台和用C++语言写成的软件,系统的刷新率和滞后时间分别为60Hz和25.4ms。电磁跟踪器(Polhemus FASTRAK)实时检测受试者头部的方向。跟踪器可以检测头部在三个自由度方向的转动,包括绕左右、前后和上下轴的转动,计算机根据目标虚拟源相对于受试者头部的瞬时位置分别采用传统和基于张量方法产生双耳声信号。双耳信号经入耳式耳机(Etymotic ResearchER-2)重放,因为ER-2耳机可在耳道模拟器的末端产生平直的幅度相应,因而无需作耳机传输特性均衡处理。
在本实例中,我们用于分析的HRTF原始数据是在带有DB061/061耳廓的KEMAR人工头以边界元法计算所得的数据。原始数据库包含r=0.2m,0.25m,0.3m,0.4m,0.5m,0.75m和1.0m七个距离的HRTF,且每个距离有2520个方向。方向范围从仰角φ为–85°~85°,方位角θ为0°~355°,且方向间隔均为5°。每个测量的HRIR的长度为882个点,采样频率为44.1kHz。测量的HRIR首先通过最小相位近似重构,然后通过最小相位重建被128点时间窗口截断。之后,通过双线性插值得到高方向分辨率(仰角和方位角间隔均为1°)的64440个方向的HRIR,其中未知位置的HRIR通过四个附近的HRIR的加权来近似得到。然后将第一步和第二步中描述的张量分解应用于这64440个方向和7个距离的128点最小相位HRIR。通过计算可以得出,8个频点相关和13个方向相关的独立模态可以代表99%以上的变化。所有距离和频率的平均相对误差对于左耳为–21.9dB,右耳为–22.0dB,这对HRTF幅值的重构是有效的。因此,本算法中选取N”=8个公共滤波器即是足够的。
对实施例的心理声学实验验证了本发明。心理声学实验选取的虚拟源都分布在右半球空间,共r=0.2、0.3、0.5、0.75和1.0m的5个近场虚拟源距离。对于每个距离,分别挑选11个方向:在仰角φ=–45°和45°的维度面,选取方位角θ=0°、90°、180°;水平面则选取方位角为θ=0°、45°、90°、135°和180°。实验信号为全频粉红噪声,每个信号重复两次,因此每组有5×11×2=110个相应的判断。实验中,受试者判断感知的虚拟源方向和距离,并用电磁跟踪器报告感知虚拟源位置。电磁跟踪器包括两个接收器,一个接收器固定在受试者的头表面,用于检测受试者的头位置和方向。另一个接收器固定在一根木棒的末端。受试者将木棒指向感知虚拟源位置,由计算机记录方位结果。每组实验持续约1小时,两组实验中间有15分钟的短暂休息,实验中所有双耳信号都是以随机顺序播放的。
8名双耳听力正常的受试者(年龄23-27岁,6男2女)参加了实验。实验过程中,受试者坐在房间的中央,并在感知过程中闭上眼睛并转动头部。实验在本底噪声不大于30dBA的听音室内进行。
感知方向和目标方向之间的平均角度误差用于评估心理声学实验中的方向定位效果,即:
Figure BDA0003717403390000101
这里r是目标虚拟源方向的单位矢量;rI(l)是第l次判断的感知虚拟源方向的单位矢量;L是总判断的次数;上式中的点符号代表两矢量的标积。如果定位的原始结果中出现前后或上下混乱,先通过空间反演的方法消除混乱,并计算混乱的百分比。
平均感知距离反映了重放中距离感知的表现:
Figure BDA0003717403390000102
这里rI(l)是第l次判断的感知距离。相应的标准差也进行了计算。除此之外,对原始数据也进行了统计方差分析。
对传统动态虚拟听觉重放方法和基于张量的动态双耳重放方法,原始的定位结果中没有出现头中定位现象,这是因为动态重放中包含了头转动引入的动态因素。并且定位中前后和上下混淆的百分比低于5%和1%,这说明动态因素对于前后和上下混淆现象有着巨大的改善。
两种动态虚拟听觉重放方法产生了类似的虚拟源定位效果。具体地,不同距离对于所有方向和重复判断的平均角度误差结果列于表1中。更加直观地,图2中的球形数据统计图展示了两种方法的方向定位结果;其中,图2(a)为传统方法的方向定位结果,图2(b)为本实施例基于张量的方法的方向定位结果。其中,符号“+”表示目标虚拟源方向,中心的红点代表所有判断的平均感知方向,以红点为中心的椭圆代表显著性水平α=0.05下的置信区域。如果数据成单峰轴对称分布,则椭圆用蓝线表示,否则用绿线表示。两种方法的方向定位表现出相似的特征,最大的误差发生在低仰角和后方的位置,而最小误差的则是侧向和正前方的位置。
表1
Figure BDA0003717403390000111
图3给出了水平面上传统和本发明所提出的方法的平均感知距离和对应的标准差;其中,图3(a)为传统方法的平均感知距离和对应的标准差的示意图,图3(b)为本实施例基于张量的方法的平均感知距离和对应的标准差的示意图。大多数情况下,当目标距离不超过0.5m时,平均感知距离大于目标距离。而当目标距离超过0.5m时,感知距离小于目标距离。这种感知结果的偏差是距离感知的基本特征。此外,在中垂平面内(θ=0°和180°),目标虚拟源感知距离的标准差更大一些,表明距离感知的准确性相对较低,这也与之前关于虚拟源在自由场的距离感知研究一致。两种方法都能够在水平面方位角θ=45°、90°和180°处产生相对准确的感知虚拟源距离,尤其是对于相对较近的距离(r≤0.75m)。高低仰角φ=-45°或45°的距离感知表现与水平面非常相似,因而省略。
多元方差分析结果表明,在显著性水平0.05下,对于方向定位,算法的影响是不重要的;而目标源方向的影响则是重要的。对于距离感知,虚拟源方向的影响是重要的,而算法则是不重要的。这证明了基于张量的动态虚拟听觉重放方法的有效性。
本实例验证了所提出的算法可以在动态VAD中产生与传统方法一致的方向定位和距离感知性能。所提出的算法可以单独控制虚拟源的距离和方向,避免了传统动态虚拟听觉重放中更新基于HRTF的滤波器的可听差异。当同时生成多个虚拟源(大于8个)时,本算法的效率较传统算法大大提高。
综上所述,本实施例方法相对于现有技术,具有如下优点及有益效果:
(1)、本发明的卷积器或滤波器与虚拟源距离和方向无关,不同距离和方向的虚拟源可以共享一组通用的滤波器。因而滤波器的数量是固定的并且独立于虚拟源的数量。对于同时生成多个虚拟源的情况,且虚拟源的数目大于卷积器的数目时,本发明算法的效率较传统算法高。
(2)、在动态双耳重放中,当用户转头或虚拟源位置发生变化时(如移动虚拟源的情况),只需要更新权重而非卷积器或滤波器,避免了传统算法中的实时更新滤波器可能会导致的可听的缺陷。
(3)、由于滤波器的分别通过与源距离和方向有关的模态或系数得到,本发明通过改变这两组系数,可实现独立地操纵虚拟源的方向和距离。
(4)、本发明可以大大降低运算量和所需的存储空间,从而改善动态虚拟双耳声重放系统的性能。
本实施例还提供一种多个虚拟源动态双耳声重放装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本实施例的一种多个虚拟源动态双耳声重放装置,可执行本发明方法实施例所提供的一种多个虚拟源动态双耳声重放方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种多个虚拟源动态双耳声重放方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
本项目得到了国家自然科学基金(12174118)的资助,在此表示感谢。

Claims (6)

1.一种多个虚拟源动态双耳声重放方法,其特征在于,包括以下步骤:
S1、通过张量分解的方法,将不同方向和距离的最小相位近场头的相关脉冲响应数据,分解为与距离、方向和时间有关的三个独立模态以及核心张量的内积;
S2、根据有限个时间有关的本征模态,得出有限N”个公共卷积器的脉冲响应或等价的公共滤波器传输函数;
S3、将预设虚拟源输入信号作一个与距离和方向有关的延时τ(d,m),并用距离有关的增益1/rd进行标度;
S4、将预设虚拟源信号分别乘以有限N”个权重cn’,用N”个脉冲响应为un’,n’=1,2…N”的公共卷积器进行卷积或等价的N”个公共滤波器进行滤波;
S5、将N”个卷积的输出求和得到特定虚拟源、特定耳的信号;
S6、当倾听者头部转动或虚拟源运动后,根据虚拟源相对倾听者的方向和距离动态刷新权重cn’
S7、对每一个虚拟源、特定耳的信号按步骤S3到步骤S6处理,得到所有虚拟源、特定耳的信号;
S8、两耳中每一耳的信号按步骤S3到步骤S6独立地产生,最后得到双耳信号。
2.根据权利要求1所述的一种多个虚拟源动态双耳声重放方法,其特征在于,所述将不同方向和距离的最小相位近场头的相关脉冲响应数据,分解为与距离、方向和时间有关的三个独立模态以及核心张量的内积,包括:
将D个方向、M个距离、N个离散时间的D×M×N维最小相位脉冲响应张量hD×M×N,分解并截断为D×D’距离模态矩阵
Figure FDA0003717403380000011
M×M”方向模态矩阵
Figure FDA0003717403380000012
和N×N”时间模态矩阵
Figure FDA0003717403380000013
以及D’×M”×N”核心张量wD'×M”×N"内积:
Figure FDA0003717403380000014
其中,符号×D'M”和×N"分别代表张量与矩阵对距离模态变量D’,方向模态变量M”
和时间模态变量N”的内积。
3.根据权利要求1所述的一种多个虚拟源动态双耳声重放方法,其特征在于,步骤S2中的N”个公共卷积器的脉冲响应un',n’=1,2…N”是通过分别取时间模态矩阵
Figure FDA0003717403380000015
的N”列得到。
4.根据权利要求1所述的一种多个虚拟源动态双耳声重放方法,其特征在于,步骤S4中的有限N”个权重cn’通过以下公式计算获得:
Figure FDA0003717403380000021
其中,
Figure FDA0003717403380000022
分别是矩阵
Figure FDA0003717403380000023
Figure FDA0003717403380000024
的元素,wd'm'n'是核心张量wD'×M'×N'的元素。
5.一种多个虚拟源动态双耳声重放装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-4任一项所述方法。
6.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-4任一项所述方法。
CN202210739806.7A 2022-06-28 2022-06-28 一种多个虚拟源动态双耳声重放方法、装置及存储介质 Pending CN115209336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210739806.7A CN115209336A (zh) 2022-06-28 2022-06-28 一种多个虚拟源动态双耳声重放方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210739806.7A CN115209336A (zh) 2022-06-28 2022-06-28 一种多个虚拟源动态双耳声重放方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115209336A true CN115209336A (zh) 2022-10-18

Family

ID=83578308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210739806.7A Pending CN115209336A (zh) 2022-06-28 2022-06-28 一种多个虚拟源动态双耳声重放方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115209336A (zh)

Similar Documents

Publication Publication Date Title
US7912225B2 (en) Generating 3D audio using a regularized HRTF/HRIR filter
US6990205B1 (en) Apparatus and method for producing virtual acoustic sound
CN102572676B (zh) 一种虚拟听觉环境实时绘制方法
EP2719200B1 (en) Reducing head-related transfer function data volume
KR20190084883A (ko) 머리 추적 기능이 있는 맞춤형 공간 오디오 생성 방법
JP7038725B2 (ja) オーディオ信号処理方法及び装置
CN109196884B (zh) 声音再现系统
CN110035376A (zh) 使用相位响应特征来双耳渲染的音频信号处理方法和装置
WO2014189550A1 (en) Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions
CN107820158B (zh) 一种基于头相关脉冲响应的三维音频生成装置
JP6018485B2 (ja) 頭部伝達関数選択装置、音響再生装置
Schönstein et al. HRTF selection for binaural synthesis from a database using morphological parameters
CN108370485A (zh) 音频信号处理装置和方法
JP2005080124A (ja) リアルタイム音響再現システム
Salvador et al. Design theory for binaural synthesis: Combining microphone array recordings and head-related transfer function datasets
Pollack et al. Perspective chapter: Modern acquisition of personalised head-related transfer functions–an overview
EP3920557B1 (en) Loudspeaker control
Otani et al. Binaural Ambisonics: Its optimization and applications for auralization
WO2022108494A1 (en) Improved modeling and/or determination of binaural room impulse responses for audio applications
Adams et al. State-space synthesis of virtual auditory space
CN108038291B (zh) 一种基于人体参数适配算法的个性化头相关传递函数生成系统及方法
CN115209336A (zh) 一种多个虚拟源动态双耳声重放方法、装置及存储介质
JPH09191500A (ja) 仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法
Oldfield The analysis and improvement of focused source reproduction with wave field synthesis
Vorländer Virtual acoustics: opportunities and limits of spatial sound reproduction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination