CN109068262B - 一种基于扬声器的声像个性化重现方法及装置 - Google Patents
一种基于扬声器的声像个性化重现方法及装置 Download PDFInfo
- Publication number
- CN109068262B CN109068262B CN201810879145.1A CN201810879145A CN109068262B CN 109068262 B CN109068262 B CN 109068262B CN 201810879145 A CN201810879145 A CN 201810879145A CN 109068262 B CN109068262 B CN 109068262B
- Authority
- CN
- China
- Prior art keywords
- loudspeaker
- signal
- parameter
- weight vector
- hrtf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Otolaryngology (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供了一种基于扬声器的声像个性化重现方法及装置,其中的方法包括:首先确定扬声器的方位和目标方位,然后基于HRTF数据库计算多扬声器对应的第一权值向量,接着筛选关键的人体参数项,接下来设计神经网络建立第一权值向量与关键人体参数的映射关系,再测量听音者的筛选出的关键人体参数,然后基于神经网络模型预测对应的第二权值向量,并根据第二权值向量计算每个扬声器的前置频域滤波器,最后声源信号经前置频域滤波器的滤波作用后通过两扬声器输出。本发明实现了提升听音者的空间感知效果的技术效果。
Description
技术领域
本发明涉及多媒体信号处理技术领域,尤其涉及一种基于扬声器的声像个性化重现方法及装置。
背景技术
声源定位是实现虚拟现实(Virtual Reality,VR)的沉浸式体验的必要技术。基于幅度平移技术(Amplitude Panning,AP)由于其实现简单,在扬声器重现3D音频中得到了更普遍的应用。AP的代表性技术主要包括基于矢量的幅度平移技术(Vector Base AmplitudePanning,VBAP)和多方位幅度平移技术(Multiple-Direction Amplitude Panning,MDAP)。这类技术的基本思想是扬声器与听音点构成简单的几何模型,根据矢量分解原理得到各个扬声器对应的增益值。具有不同增益的扬声器信号使得听音者感知到一个虚拟方位(非扬声器方位)的声像。3D音频系统如Aurora-3D、NHK22.2、Dolby ATMOS、中国多维声均是基于幅度平移技术得以实现,增强了三维空间感知体验。
尽管幅度平移技术实现简单,但在求解扬声器的增益时将听音者视为一个听音点,忽略了听音者头部、耳廓和躯干等对重建声场中声音传播至双耳的扰动特性,使得重现的虚拟声像的双耳线索失真,偏离目标方位。
基于头相关传输函数(Head Related Transfer Function,HRTF)的平移技术考虑到听音者对于重建声场的扰动特性。如个性化的串声消除技术(Crosstalk Cancellation,CTC)通过HRTF计算串声消除模块,对声源信号进行过滤,通过两个扬声器重现原始声源的双耳信号,提供了个性化的空间感知体验。然而个性化的CTC技术首先需要获知听音者的HRTF,目前采用的HRTF个性化技术预测的值与真实的HRTF之间仍存在误差,这种误差在计算串声消除模块的过程中被放大,使得双扬声器重现的虚拟声像偏离了目标声像,带来了空间感知失真。
发明内容
本发明实施例提供了一种基于扬声器的声像个性化重现方法及装置,用以解决现有的扬声器音频重建技术中由于HRTF个性化技术的误差在串声消除模块中被放大,而导致听音者的空间感知效果差的技术问题。
第一方面,本发明提供了一种基于扬声器的声像个性化重现方法,该方法包括:
步骤S1:确定扬声器的方位和目标方位,其中,所述扬声器的数量至少为两个,所述目标方位为理想的重建声像的方位;
步骤S2:根据每个扬声器的方位和所述目标方位,确定对应的HRTF,其中,所述HRTF存储于HRTF数据库中,所述数据库中记录有HRTF以及相应的完整人体参数,并基于所述HRTF数据库,建立虚拟声像的双耳信号与目标声像的双耳信号的等式,计算每个扬声器对应的第一权值向量;
步骤S3:根据所述第一权值向量与所述完整人体参数之间的相关性,从所述完整人体参数中筛选出相关性符合预设条件的关键人体参数;
步骤S4:采用预设神经网络模型构建所述关键人体参数与所述第一权值向量之间的映射关系,并将所述关键人体参数与所述第一权值向量构成一组样本,其中所述关键人体参数作为输入,所述第一权值向量作为输出,训练所述预设神经网络模型,形成训练后的神经网络模型;
步骤S5:测量听音者的关键人体参数,基于所述训练后的神经网络模型预测与所述听音者的关键人体参数对应的第二权值向量,并根据所述第二权值向量计算每个扬声器的前置频域滤波器;
步骤S6:通过所述前置频域滤波器对声源信号进行滤波,获得每个扬声器的输出信号。
进一步地,所述扬声器包括第一扬声器和第二扬声器,步骤S2中,基于所述HRTF数据库,建立虚拟声像的双耳信号与目标声像的双耳信号之间的等式,计算每个扬声器对应的第一权值向量,具体包括:
步骤S2.1:根据单声源信号和所述目标方位对应的左右耳HRTF,计算所述目标方位处的单声源信号在人耳处形成的双耳信号;
步骤S2.2:根据双扬声器信号和双扬声器方位对应的左右耳的HRTF,获得双扬声器信号在人耳处合成的双耳信号;
步骤S2.3:通过权值滤波器建立所述单声源信号与双扬声器信号之间的关系;
步骤S2.4:建立虚拟声像的双耳信号与目标声像的双耳信号的等式,并基于所述单声源信号与所述双扬声器信号间的关系,得到权值滤波器的表达式,从而计算每个扬声器对应的第一权值向量,其中,所述目标声像的双耳信号为目标方位处的单声源信号在人耳处产生的双耳信号,所述虚拟声像的双耳信号为双扬声器信号在人耳处合成的双耳信号。
进一步地,步骤S3具体包括:
S3.1:采用预设相关性分析方法分析所述第一权值向量与完整人体参数之间的相关性,获得相关系数;
S3.2:从所述完整人体参数中,筛选出相关系数大于预设值对应的人体参数项,作为所述关键人体参数。
进一步地,步骤S5中,根据第二权值向量计算每个扬声器的前置频域滤波器,具体包括:
根据步骤S2.4中的权值滤波器的表达式计算出每个扬声器对应的权值滤波器,将所述权值滤波器作为扬声器的前置频域滤波器。
基于同样的发明构思,本发明第二方面提供了一种基于扬声器的声像个性化重现装置,包括:
方位确定模块,用于确定扬声器的方位和目标方位,其中,所述扬声器的数量至少为两个,所述目标方位为理想的重建声像的方位;
第一权值向量计算模块,用于根据每个扬声器的方位和所述目标方位,确定对应的HRTF,其中,所述HRTF存储于HRTF数据库中,所述数据库中记录有HRTF以及相应的完整人体参数,并基于所述HRTF数据库,建立虚拟声像的双耳信号与目标声像的双耳信号的等式,计算每个扬声器对应的第一权值向量;
人体参数筛选模块,用于根据所述第一权值向量与所述完整人体参数之间的相关性,从所述完整人体参数中筛选出相关性符合预设条件的关键人体参数;
神经网络模型确定模块,用于采用预设神经网络模型构建所述关键人体参数与所述第一权值向量之间的映射关系,并将所述关键人体参数与所述第一权值向量构成一组样本,其中所述关键人体参数作为输入,所述第一权值向量作为输出,训练所述预设神经网络模型,形成训练后的神经网络模型;
前置频域滤波器计算模块,用于测量听音者的关键人体参数,基于所述训练后的神经网络模型预测与所述听音者的关键人体参数对应的第二权值向量,并根据所述第二权值向量计算每个扬声器的前置频域滤波器;
扬声器信号输出模块,用于通过所述前置频域滤波器对声源信号进行滤波,获得每个扬声器的输出信号。
进一步地,所述扬声器包括第一扬声器和第二扬声器,第一权值向量计算模块具体用于:
根据单声源信号和目标方位对应的左右耳HRTF,计算所述目标方位处的单声源信号在人耳处形成的双耳信号;
根据双扬声器信号和双扬声器对应的左右耳的HRTF,获得双扬声器信号在人耳处合成的双耳信号;
通过权值滤波器建立所述单声源信号与双扬声器信号之间的关系;
建立虚拟声像的双耳信号与目标声像的双耳信号等式,并基于所述单声源信号与双扬声器信号间的关系,得到权值滤波器的表达式,从而计算每个扬声器对应的第一权值向量,其中,所述目标声像的双耳信号为目标方位处的单声源信号在人耳处产生的双耳信号,所述虚拟声像的双耳信号为双扬声器信号在人耳处合成的双耳信号。
进一步地,人体参数筛选模块具体用于:
采用预设相关性分析方法分析所述第一权值向量与完整人体参数之间的相关性,获得相关系数;
从所述完整人体参数中,筛选出相关系数大于预设值对应的人体参数项,作为所述关键人体参数。
进一步地,前置频域滤波器计算模块具体用于:
根据所述权值滤波器的表达式计算出每个扬声器对应的权值滤波器,将所述权值滤波器作为所述扬声器的前置频域滤波器。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该程序被执行时实现第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
在本发明提供的方法中,在确定扬声器的方位和目标方位下,由于通过建立虚拟声像的双耳信号与目标声像的双耳信号的等式,可以求解得到第一权值向量,第一权值向量与相应的人体参数组成训练集中的一组样本,训练集中的每一组权值向量均使得目标声像与虚拟声像的双耳信号相等,其次建立一个神经网络学习权值向量与人体参数之间的映射关系,使得该神经网络可以根据新的人体参数预测权值向量的分布情况,当神经网络的预测性能很好时,预测的权值向量可以实现目标声像与虚拟声像的双耳信号相等,即听音者在真实环境与虚拟环境下的方位感知相同,可以为任意一个听音者提供个性化的空间方位感知,实现了个性化的虚拟声像重现,故而改善了听音者的空间感知效果,本发明直接对扬声器的前置滤波器的系数进行个性化预测,减小了个性化CTC技术的计算复杂度和声场重建误差。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于扬声器的声像个性化重现方法的流程图;
图2为计算双耳信号和求解权值向量的示意图;
图3为本发明实施例中一种基于扬声器的声像个性化重现装置的结构图;
图4为本发明实施例中一种计算机可读存储介质的结构图;
图5为本发明实施例中一种计算机设备的结构图。
具体实施方式
本发明实施例提供了一种基于扬声器的声像个性化重现方法及装置,用以改善现有的扬声器音频重建技术中由于HRTF个性化技术的误差在串声消除模块中被放大,而导致听音者的空间感知效果差的技术问题。
本申请实施例中的技术方案,总体思路如下:
首先确定扬声器的方位和目标方位,然后基于HRTF数据库计算多扬声器对应的第一权值向量,接着筛选关键的人体参数项,接下来设计神经网络建立人体参数与第一权值向量之间的映射关系,再测量听音者的筛选的人体参数,然后基于神经网络模型预测对应的权值向量,最后声源信号经前置频域滤波器的滤波作用后通过两扬声器输出。
通过本发明提供的上述方法,首先在目标声像与虚拟声像双耳信号相等的条件下求解得到第一权值向量,并与相应的人体参数组成训练集的一组样本,训练集中的每一组权值向量均使得目标声像与虚拟声像的双耳信号相等;其次建立一个神经网络学习人体参数与权值向量之间的映射关系,使得该神经网络可以根据新的人体参数预测权值向量的分布情况,当神经网络的预测性能很好时,预测的权值向量可以实现目标声像的双耳信号与虚拟声像的双耳信号相等,即听音者在真实环境与虚拟环境下的方位感知相同。权值向量在不同频带下具有不同的分布,对于不同的听音者也具有不同的分布趋势,因此本发明将不同个体在各个频率下对于重建声场的扰动特性通过权值向量表达出来,并通过扬声器的前置滤波器得到实际的应用,是一种个性化的虚拟声像重现方式,改善了传统的幅度平移技术重现声像的方位偏离的现象。并且本发明直接对扬声器的前置滤波器的系数进行个性化预测,减小了个性化CTC技术的计算复杂度和声场重建误差。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于扬声器的声像个性化重现方法,请参见图1,该方法包括:
步骤S1:确定扬声器的方位和目标方位,其中,扬声器的数量至少为两个,目标方位为理想的重建声像的方位。
具体来说,目标方位为期望两扬声器可以合成的声像的方位,例如希望两扬声器合成的方位为A,则A即为目标方位。扬声器的数量可以根据实际情况进行设置,例如为2个、3个、4个等等,通过设置多个扬声器可以实现小范围的声像个性化重现,并得到更好方位渲染效果。
在具体的实施过程中,以2个扬声器为例,可以首先建立合适的坐标系,如图2所示,令双扬声器位于以听音点为圆心的同心圆上,以听音点为原点建立笛卡尔直角坐标系,确定双扬声器的方位和目标方位。设人头正前方为0°,左右耳对应的方位分别为-90°和90°,则双扬声器的角度分别为为和目标方位(单扬声器)的角度为θ。
步骤S2:根据每个扬声器的方位和目标方位,确定对应的HRTF,其中,HRTF存储于HRTF数据库中,数据库中记录有HRTF以及相应的人体参数,并基于HRTF数据库,建立虚拟声像的双耳信号与目标声像的双耳信号的等式,计算每个扬声器对应的第一权值向量。
具体来说,HRTF(Head Related Transfer Function)头相关传输函数是一种音效定位算法,利用脉冲信号,将自由场声波从声源到听音者双耳的传输过程,包括听音者的头部、耳廓和躯干等对声波的综合滤波记录下来,保存为HRTF数据库。不同的方位对应不同的HRTF,且HRTF与个体特征相关。HRTF数据库包括CIPIC库、MIT库、中国人HRTF库等,可以根据实际情况进行选取。目标声像为目标方位处的单声源信号在人耳处形成的双耳信号,虚拟声像为双扬声器信号在人耳处合成的双耳信号,也是人耳最终接收的左耳信号和右耳信号。
作为一种可选实施方式,扬声器包括第一扬声器和第二扬声器,步骤S2中,基于HRTF数据库,建立虚拟声像的双耳信号与目标声像的双耳信号等式,计算每个扬声器对应的第一权值向量,具体包括:
步骤S2.1:根据单声源信号和所述目标方位对应的左右耳HRTF,计算所述目标方位处的单声源在人耳处形成的双耳信号;
具体来说,单声源信号为一个声源发出的声音,一般记录为电信号,不包含方位信息。
在具体的实施过程中,可以通过公式(1)和(2)来实现:
X(ω)·HL(ω)=SL(ω) (1)
X(ω)·HR(ω)=SR(ω) (2)
其中,X(ω)为单声源信号,即不包方位信息的声音信号,HL(ω)为目标方位对应的左耳HRTF,HR(ω)为目标方位对应的右耳HRTF,SL(ω)为单声源在人耳处形成的左耳信号,SR(ω)为单声源在人耳处形成的右耳信号;
步骤S2.2:根据双扬声器信号和所述双扬声器的方位对应的左右耳的HRTF,计算双扬声器信号在人耳处合成的双耳信号。
在具体的实施过程中,可以通过公式(3)和(4)来实现
X1(ω)·H1L(ω)+X2(ω)·H2L(ω)=VL(ω) (3)
X1(ω)·H1R(ω)+X2(ω)·H2R(ω)=VR(ω) (4)
其中,H1L(ω)为第一扬声器对应的左耳HRTF,H1R(ω)为第一扬声器对应的右耳HRTF,H2L(ω)为第二扬声器对应的左耳HRTF,H2R(ω)为第二扬声器对应的右耳HRTF,X1(ω)为第一扬声器信号,X2(ω)为第二扬声器信号;
步骤S2.3:通过权值滤波器建立所述单声源信号与双扬声器信号之间的关系。
具体来说,单声源信号分别经过两个权值滤波器的滤波作用后成为两个扬声器信号,即单声源信号X(ω)分别经过扬声器的两个前置滤波器G1(ω)和G2(ω)的滤波作用后成为扬声器信号X1(ω)和X2(ω)。
在具体的实施过程中,可以通过公式(5)和(6)来实现
X(ω)·G1(ω)=X1(ω) (5)
X(ω)·G2(ω)=X2(ω) (6)
其中,G1(ω)为第一扬声器的权值滤波器,G2(ω)为第二扬声器的权值滤波器。
步骤S2.4:建立虚拟声像的双耳信号与目标声像的双耳信号的等式,并基于所述单声源信号与双扬声器信号之间的关系,得到权值滤波器的表达式,从而计算每个扬声器对应的第一权值向量,其中,所述目标声像的双耳信号为目标方位处的单声源信号在人耳处产生的双耳信号,所述虚拟声像的双耳信号为双扬声器信号在人耳处合成的双耳信号。
在具体的实施过程中,可以根据求和定位准则,双扬声器在人耳处产生的双耳信号为两个独立的扬声器信号分别在人耳处产生的双耳信号的叠加,使式(1)与式(5)相等,式(2)与式(6)相等,并结合步骤S2.3中的所述单声源与扬声器信号之间的关系,则可以得到权值滤波器的表达式,如式(7)和(8),从而计算每个扬声器对应的第一权值向量。第一扬声器对应的权值向量为G1(ω),第二扬声器对应的权值向量为G2(ω),G1(ω)、G2(ω)构成的向量组为第一权值向量,其中,
Com(ω)=H1L(ω)·H2R(ω)-H1R(ω)·H2L(ω) (9)
g1(ω)=HL(ω)·H2R(ω)-HR(ω)·H2L(ω) (10)
g2(ω)=HR(ω)·H1L(ω)-HL(ω)·H1R(ω) (11)
具体来说,本实施方式选择CIPCI数据库作为HRTF数据库,步骤S2.4中通过如公式(7)和(8)可以求解出权值滤波器的具体形式,申请人通过大量的理论与实践发现:因用于求解权值滤波器的分母Com(ω)有时候会接近于0,由于除法的缘故,求解权值滤波器G1(ω)和G2(ω)的分布曲线波动很大,不利于分析权值滤波器的个性化特点。为了解决上述问题,本实施例提取了权值滤波器G1(ω)和G2(ω)的分子和分母(Com(ω),g1(ω),g2(ω)),并将这三组数据组成一组权值向量,作为训练数据。
步骤S3:根据第一权值向量与完整人体参数之间的相关性,从完整人体参数中筛选出相关性符合预设条件的关键人体参数。
具体来说,权值向量与人体参数之间具有对应关系,根据权值向量与人体参数之间的相关性,可以筛选出关键人体参数。
作为一种可选实施方式,步骤S3具体包括:
S3.1:采用预设相关性分析方法分析第一权值向量与完整人体参数之间的相关性,获得相关系数;
S3.2:从完整人体参数中,筛选出相关系数大于预设值对应的人体参数项,作为关键人体参数。
具体来说,预设相关性分析方法可以为Pearson系数、Spearman系数、Kendall系数等方法,通过上述方法,分析权值向量组与相应的完整人体参数之间的相关性,获得相关系数,然后相关系数大于预设值对应的人体参数项,作为关键人体参数,其中预设值可以根据已有的经验和实际情况进行设置,例如设置为0.5、0.45等。在具体的实施过程中,本实施例采用的CIPIC库共记录了37项人体参数信息,通过计算Pearson系数分析权值向量与人体参数之间的相关性后,选择出相关系数大于0.45时对应的人体参数项,最终选择的关键人体参数为8项X3,X6,X9,X12,X14,X15,X16,X17。
步骤S4:采用预设神经网络模型构建关键人体参数与第一权值向量之间的映射关系,并将关键人体参数与第一权值向量构成一组样本,其中关键人体参数作为输入,第一权值向量作为输出,训练预设神经网络,形成训练后的神经网络模型。
在具体的实施过程中,可采用多种神经网络的预测模型来建立关键人体参数与第一权值向量之间的映射关系。例如可以采用学习速度较快的径向基函数(Radial BasisFunction,RBF)神经网络模型建立两者之间的映射关系,并将筛选后的关键人体参数与第一权值向量组成一组有监督学习的样本,即训练数据,前者作为输入,后者作为输出,训练该神经网络。对样本进行学习后,RBF神经网络具有了确定的结构,则可以形成训练后的神经网络模型。
步骤S5:测量听音者关键人体参数,基于训练后的神经网络模型预测与关键人体参数对应的第二权值向量,并根据第二权值向量计算每个扬声器的前置频域滤波器。
具体地,步骤S5中,根据第二权值向量计算每个扬声器的前置频域滤波器,具体包括:
根据步骤S2.4中权值滤波器的表达式,计算出每个扬声器对应的权值滤波器,将权值滤波器作为前置频域滤波器。
具体来说,需要测量听音者的筛选后的关键人体参数,该步骤中的关键人体参数不同于步骤S3和步骤S4中的关键人体参数,步骤S3与步骤S4中的人体参数在数据库中已经测量好,而步骤S5中是一个听音者的关键人体参数,因为对于一个听音者来说,并不知道其人体参数项,因而需要对其进行测量。本实施方式中,可以首先测量该听音者的筛选的人体参数项X3,X6,X9,X12,X14,X15,X16,X17,然后通过步骤S4中训练好的RBF神经网络预测该听音者对应的第二权值向量(包含Com(ω),g1(ω),g2(ω)),并计算双扬声器的前置频域滤波器G1(ω)和G2(ω),从而可以得到仅适用于该听音者的权值滤波器。步骤S2中的第一权值向量为训练数据,用来得到训练后的具有确定结构的神经网络。通过第一权值向量可为HRTF数据库中的听音者提供个性化的空间方位感知。而步骤S5中的第二权值向量是通过具有确定结构的神经网络预测得到的。对于任意一个听音者来说,测量得到关键的人体参数后,即可以通过神经网络预测其对应的第二权值向量(即个性化的权值向量)。通过第二权值向量可为任意一个听音者提供个性化的空间方位感知,从而达到改善空间感知效果的目的。
步骤S6:通过前置频域滤波器对声源信号进行滤波,获得每个扬声器的输出信号。
总体来说,本实施例提供的基于扬声器的声像个性化重现方法,主要包括训练过程和预测过程,其中,训练过程包括:
确定扬声器方位和目标方位后,得到对应的HRTF数据,然后建立虚拟声像的双耳信号与目标声像的双耳信号的等式,计算每个扬声器对应的第一权值向量,并推导出第一权值向量的求解方法,接下来筛选出关键人体参数,并将关键人体参数与第一权值向量作为训练集训练神经网络
预测过程包括:
测量听音者的关键人体参数后,通过训练过程得到的神经网络预测第二权值向量,并根据第二权值向量以及相关的求解方法得到权值滤波器,通过权值滤波器过滤声源信号,最终得到固定方位的扬声器播放声源信号。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
在本发明提供的方法中,在确定扬声器的方位和目标方位下,由于通过建立虚拟声像的双耳信号与目标声像的双耳信号等式可以求解得到第一权值向量,第一权值向量与相应的人体参数组成一组训练集,训练集中的每一组权值向量均使得目标声像与虚拟声像的双耳信号相等,其次建立一个神经网络学习权值向量与人体参数之间的映射关系,使得该神经网络可以根据新的人体参数预测权值向量的分布情况,当神经网络的预测性能很好时,预测的权值向量可以使得目标声像与虚拟声像的双耳信号相等,即听音者在真实环境与虚拟环境下的方位感知相同,可以为任意一个听音者提供个性化的空间方位感知,实现了个性化的虚拟声像重现,故而改善了听音者的空间感知效果,本发明直接对扬声器的前置滤波器的系数进行个性化预测,减小了个性化CTC技术的计算复杂度和声场重建误差。
基于同一发明构思,本申请还提供了与实施例一中基于扬声器的声像个性化重现方法对应的装置,详见实施例二。
实施例二
本实施例提供一种基于扬声器的声像个性化重现装置,请参见图3,该装置包括:
方位确定模块301,用于确定扬声器的方位和目标方位,其中,扬声器的数量至少为两个,目标方位为理想的重建声像的方位;
第一权值向量计算模块302,用于根据每个扬声器的方位和目标方位,确定对应的HRTF,其中,HRTF存储于HRTF数据库中,数据库中记录有HRTF以及相应的完整人体参数,并基于HRTF数据库,建立虚拟声像的双耳信号与目标声像的双耳信号的等式,计算每个扬声器对应的第一权值向量;
人体参数筛选模块303,用于根据第一权值向量与完整人体参数之间的相关性,从完整人体参数中筛选出相关性符合预设条件的关键人体参数;
神经网络模型确定模块304,用于采用预设神经网络模型构建关键人体参数与第一权值向量之间的映射关系,并将关键人体参数与第一权值向量构成一组样本,其中关键人体参数作为输入,第一权值向量作为输出,训练预设神经网络,形成训练后的神经网络模型;
前置频域滤波器计算模块305,用于测量听音者的关键人体参数,基于训练后的神经网络模型预测与听音者的关键人体参数对应的第二权值向量,并根据第二权值向量计算每个扬声器的前置频域滤波器;
扬声器信号输出模块306,用于通过前置频域滤波器对声源信号进行滤波,获得每个扬声器的输出信号。
在一种实施方式中,扬声器包括第一扬声器和第二扬声器,第一权值向量计算模块302具体用于:
根据单声源信号和所述目标方位对应的左右耳HRTF,计算所述目标方位处的单声源信号在人耳处形成的双耳信号;
根据双扬声器信号和双扬声器方位对应的左右耳的HRTF,获得双扬声器信号在人耳处合成的双耳信号;
通过权值滤波器建立所述单声源信号与双扬声器信号之间的关系;
建立虚拟声像与目标声像的双耳信号等式,并基于所述单声源信号与所述双扬声器信号间的关系,得到权值滤波器的表达式,从而计算每个扬声器对应的第一权值向量,其中,所述目标声像的双耳信号为目标方位处的单声源信号在人耳处产生的双耳信号,所述虚拟声像的双耳信号为双扬声器信号在人耳处合成的双耳信号。
在一种实施方式中,人体参数筛选模块303具体用于:
采用预设相关性分析方法分析第一权值向量与完整人体参数之间的相关性,获得相关系数;
从完整人体参数中,筛选出相关系数大于预设值对应的人体参数项,作为关键人体参数。
在一种实施方式中,前置频域滤波器计算模块305具体用于:
根据权值滤波器的表达式计算出每个扬声器对应的权值滤波器,将所述权值滤波器作为扬声器的前置频域滤波器。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中基于扬声器的声像个性化重现方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本申请还提供了一种计算机可读存储介质400,请参见图4,其上存储有计算机程序411,该程序被执行时实现实施例一中的方法。
由于本发明实施例三所介绍的计算机可读存储介质,为实施本发明实施例一中基于扬声器的声像个性化重现方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,请参见图5,包括存储501、处理器502及存储在存储器上并可在处理器上运行的计算机程序503,处理器502执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备,为实施本发明实施例一中基于扬声器的声像个性化重现方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种基于扬声器的声像个性化重现方法,其特征在于,包括:
步骤S1:确定扬声器的方位和目标方位,其中,所述扬声器的数量至少为两个,所述目标方位为理想的重建声像的方位;
步骤S2:根据每个扬声器的方位和所述目标方位,确定对应的HRTF,其中,所述HRTF存储于HRTF数据库中,所述数据库中记录有HRTF以及相应的完整人体参数,并基于所述HRTF数据库,建立虚拟声像的双耳信号与目标声像的双耳信号的等式,计算每个扬声器对应的第一权值向量;
步骤S3:根据所述第一权值向量与所述完整人体参数之间的相关性,从所述完整人体参数中筛选出相关性符合预设条件的关键人体参数;
步骤S4:采用预设神经网络模型构建所述关键人体参数与所述第一权值向量之间的映射关系,并将所述关键人体参数与所述第一权值向量构成一组样本,其中所述关键人体参数作为输入,所述第一权值向量作为输出,训练所述预设神经网络模型,形成训练后的神经网络模型;
步骤S5:测量听音者的关键人体参数,基于所述训练后的神经网络模型预测与所述听音者的关键人体参数对应的第二权值向量,并根据所述第二权值向量计算每个扬声器的前置频域滤波器;
步骤S6:通过所述前置频域滤波器对声源信号进行滤波,获得每个扬声器的输出信号;
其中,所述扬声器包括第一扬声器和第二扬声器,步骤S2中,基于所述HRTF数据库,建立虚拟声像的双耳信号与目标声像的双耳信号之间的等式,计算每个扬声器对应的第一权值向量,具体包括:
步骤S2.1:根据单声源信号和所述目标方位对应的左右耳HRTF,计算所述目标方位处的单声源信号在人耳处形成的双耳信号;
步骤S2.2:根据双扬声器信号和双扬声器方位对应的左右耳的HRTF,获得双扬声器信号在人耳处合成的双耳信号;
步骤S2.3:通过权值滤波器建立所述单声源信号与双扬声器信号之间的关系;
步骤S2.4:建立虚拟声像的双耳信号与目标声像的双耳信号的等式,并基于所述单声源信号与所述双扬声器信号间的关系,得到权值滤波器的表达式,从而计算每个扬声器对应的第一权值向量,其中,所述目标声像的双耳信号为目标方位处的单声源信号在人耳处产生的双耳信号,所述虚拟声像的双耳信号为双扬声器信号在人耳处合成的双耳信号,且虚拟声像的双耳信号与目标声像的双耳信号的等式为,单声源在人耳处形成的左耳信号与双扬声器信号在人耳处合成的左耳信号相等,单声源在人耳处形成的右耳信号与双扬声器信号在人耳处合成的右耳信号相等。
2.如权利要求1所述的方法,其特征在于,步骤S3具体包括:
S3.1:采用预设相关性分析方法分析所述第一权值向量与完整人体参数之间的相关性,获得相关系数;
S3.2:从所述完整人体参数中,筛选出相关系数大于预设值对应的人体参数项,作为所述关键人体参数。
3.如权利要求1述的方法,其特征在于,步骤S5中,根据第二权值向量计算每个扬声器的前置频域滤波器,具体包括:
根据步骤S2.4中的权值滤波器的表达式计算出每个扬声器对应的权值滤波器,将所述权值滤波器作为扬声器的前置频域滤波器。
4.一种基于扬声器的声像个性化重现装置,其特征在于,包括:
方位确定模块,用于确定扬声器的方位和目标方位,其中,所述扬声器的数量至少为两个,所述目标方位为理想的重建声像的方位;
第一权值向量计算模块,用于根据每个扬声器的方位和所述目标方位,确定对应的HRTF,其中,所述HRTF存储于HRTF数据库中,所述数据库中记录有HRTF以及相应的完整人体参数,并基于所述HRTF数据库,建立虚拟声像的双耳信号与目标声像的双耳信号的等式,计算每个扬声器对应的第一权值向量;
人体参数筛选模块,用于根据所述第一权值向量与所述完整人体参数之间的相关性,从所述完整人体参数中筛选出相关性符合预设条件的关键人体参数;
神经网络模型确定模块,用于采用预设神经网络模型构建所述关键人体参数与所述第一权值向量之间的映射关系,并将所述关键人体参数与所述第一权值向量构成一组样本,其中所述关键人体参数作为输入,所述第一权值向量作为输出,训练所述预设神经网络模型,形成训练后的神经网络模型;
前置频域滤波器计算模块,用于测量听音者的关键人体参数,基于所述训练后的神经网络模型预测与所述听音者的关键人体参数对应的第二权值向量,并根据所述第二权值向量计算每个扬声器的前置频域滤波器;
扬声器信号输出模块,用于通过所述前置频域滤波器对声源信号进行滤波,获得每个扬声器的输出信号;
其中,所述扬声器包括第一扬声器和第二扬声器,第一权值向量计算模块还用于执行下述步骤:
步骤S2.1:根据单声源信号和所述目标方位对应的左右耳HRTF,计算所述目标方位处的单声源信号在人耳处形成的双耳信号;
步骤S2.2:根据双扬声器信号和双扬声器方位对应的左右耳的HRTF,获得双扬声器信号在人耳处合成的双耳信号;
步骤S2.3:通过权值滤波器建立所述单声源信号与双扬声器信号之间的关系;
步骤S2.4:建立虚拟声像的双耳信号与目标声像的双耳信号的等式,并基于所述单声源信号与所述双扬声器信号间的关系,得到权值滤波器的表达式,从而计算每个扬声器对应的第一权值向量,其中,所述目标声像的双耳信号为目标方位处的单声源信号在人耳处产生的双耳信号,所述虚拟声像的双耳信号为双扬声器信号在人耳处合成的双耳信号,且虚拟声像的双耳信号与目标声像的双耳信号的等式为,单声源在人耳处形成的左耳信号与双扬声器信号在人耳处合成的左耳信号相等,单声源在人耳处形成的右耳信号与双扬声器信号在人耳处合成的右耳信号相等。
5.如权利要求4所述的装置,其特征在于,人体参数筛选模块具体用于:
采用预设相关性分析方法分析所述第一权值向量与完整人体参数之间的相关性,获得相关系数;
从所述完整人体参数中,筛选出相关系数大于预设值对应的人体参数项,作为所述关键人体参数。
6.如权利要求5所述的装置,其特征在于,前置频域滤波器计算模块具体用于:
根据所述权值滤波器的表达式计算出每个扬声器对应的权值滤波器,将所述权值滤波器作为所述扬声器的前置频域滤波器。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至3中任一项权利要求所述的方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3中任一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810879145.1A CN109068262B (zh) | 2018-08-03 | 2018-08-03 | 一种基于扬声器的声像个性化重现方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810879145.1A CN109068262B (zh) | 2018-08-03 | 2018-08-03 | 一种基于扬声器的声像个性化重现方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109068262A CN109068262A (zh) | 2018-12-21 |
CN109068262B true CN109068262B (zh) | 2019-11-08 |
Family
ID=64833189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810879145.1A Active CN109068262B (zh) | 2018-08-03 | 2018-08-03 | 一种基于扬声器的声像个性化重现方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109068262B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110166927B (zh) * | 2019-05-13 | 2020-05-12 | 武汉大学 | 一种基于定位修正的虚拟声像重建方法 |
CN113286252B (zh) * | 2021-07-23 | 2021-11-16 | 科大讯飞(苏州)科技有限公司 | 一种声场重建方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009206691A (ja) * | 2008-02-27 | 2009-09-10 | Sony Corp | 頭部伝達関数畳み込み方法および頭部伝達関数畳み込み装置 |
CN103826194B (zh) * | 2014-02-28 | 2015-06-03 | 武汉大学 | 一种多声道系统中声源方向和距离重建的方法与装置 |
US10009704B1 (en) * | 2017-01-30 | 2018-06-26 | Google Llc | Symmetric spherical harmonic HRTF rendering |
CN107205207B (zh) * | 2017-05-17 | 2019-01-29 | 华南理工大学 | 一种基于中垂面特性的虚拟声像近似获取方法 |
-
2018
- 2018-08-03 CN CN201810879145.1A patent/CN109068262B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109068262A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7220749B2 (ja) | オーディオ再生のためのオーディオ音場表現のデコードのための方法および装置 | |
US7912225B2 (en) | Generating 3D audio using a regularized HRTF/HRIR filter | |
Tylka et al. | Soundfield navigation using an array of higher-order ambisonics microphones | |
US20080306720A1 (en) | Hrtf Individualization by Finite Element Modeling Coupled with a Corrective Model | |
CN110035376A (zh) | 使用相位响应特征来双耳渲染的音频信号处理方法和装置 | |
CN110192396A (zh) | 用于基于头部跟踪数据确定和/或使用音频滤波器的方法和系统 | |
US20080137870A1 (en) | Method And Device For Individualizing Hrtfs By Modeling | |
Keyrouz et al. | A new method for binaural 3-D localization based on HRTFs | |
KR20150100656A (ko) | 상이한 재생 라우드스피커 셋업에 대한 공간 오디오 신호의 세그먼트-와이즈 조정 | |
CN107820158B (zh) | 一种基于头相关脉冲响应的三维音频生成装置 | |
CN105874820A (zh) | 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频 | |
Schönstein et al. | HRTF selection for binaural synthesis from a database using morphological parameters | |
CN108370485A (zh) | 音频信号处理装置和方法 | |
CN112584277B (zh) | 一种室内音频均衡的方法 | |
CN109068262B (zh) | 一种基于扬声器的声像个性化重现方法及装置 | |
CN104967952B (zh) | 一种基于hrtf结构化模型与主观反馈的个性化方法 | |
Barumerli et al. | Round Robin Comparison of Inter-Laboratory HRTF Measurements–Assessment with an auditory model for elevation | |
Keyrouz et al. | Binaural source localization and spatial audio reproduction for telepresence applications | |
Lemaire et al. | Individualized HRTFs from few measurements: a statistical learning approach | |
Gupta et al. | Parametric hear through equalization for augmented reality audio | |
CN113766396A (zh) | 扬声器控制 | |
Ribeiro et al. | Kernel interpolation of acoustic transfer function between regions considering reciprocity | |
CN115734149A (zh) | 一种构建车内个人声场的方法及装置 | |
Zheng et al. | A sound image reproduction model based on personalized weight vectors | |
Urbanietz | Advances in binaural technology for dynamic virtual environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |