CN108596016B

CN108596016B - 一种基于深度神经网络的个性化头相关传输函数建模方法

Info

Publication number: CN108596016B
Application number: CN201810182617.8A
Authority: CN
Inventors: 曲天书; 吴玺宏; 张梦帆
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2021-11-09
Anticipated expiration: 2038-03-06
Also published as: CN108596016A

Abstract

本发明公开了一种基于深度神经网络的个性化头相关传输函数建模方法。本方法是基于空间主成分分析对HRTF数据进行分解，将分解得到空间主成分、空间主成分系数和平均空间函数分别用神经网络建模，其中，空间主成分和平均空间函数只与空间方向有关，空间主成分系数是频率和被试个性化特征参数的函数；本发明用深层神经网络对空间主成分，平均空间函数和双耳时间差分别建模，将水平角及仰角等空间方向信息引入网络输入层；同时，用神经网络基于人体测量参数对空间主成分系数建模。基于上述模型，可根据被试少量的人体测量参数，得到其在空间任意方向个性化的HRTF。

Description

一种基于深度神经网络的个性化头相关传输函数建模方法

技术领域

本发明属于信号处理技术领域，涉及头相关传输函数，具体涉及一种基于空间主成分分析的个性化头相关传输函数建模方法。

背景技术

听觉在人类生活中有着非常重要的意义。它通过感知周围环境声音，从而做出相应的判断与决策。人类的听觉除了能感知声音的强度、音调和音色等主观属性外，还能对声源的方向和距离做出判断。声源发出的声波到达人的双耳后，再经由听者头部、耳廓、躯干等人体结构的散射和反射作用，最后被感知。研究人类对声音空间特性的感知能力，一直以来都是声学、听觉心理学的研究课题，具有非常重要的科学研究意义。

头相关传输函数(Head-Related Transfer Function,HRTF)描述了自由场情况下声波从声源到双耳鼓膜的声学传输特性，在时域可称为头相关冲激响应(Head-RelatedImpulse Response,HRIR)。由于HRTF包含了声源定位的主要线索，因而在空间听觉(Spatial Hearing)研究中具有重要意义。虚拟听觉重放(Virtual Auditory Display,VAD)是HRTF的一个重要应用，通过将双耳HRTF函数对单通路声信号进行频域滤波并采用耳机重放，来实现听觉上相应空间方位的虚拟声像。目前HRTF已广泛应用于虚拟声技术、室内声学模拟、多媒体以及虚拟现实等领域。

目前，通过实验测量、数值计算及HRTF建模方法可以获得HRTF。实验测量是获得HRTF最重要且最准确的手段。近二十多年来，有多个课题组开展了HRTF的实验测量工作，并建立起相应的数据库。数值计算HRTF的方法有很多种。一个简单的模型可表示为将头部简化成一个刚性的球，把双耳简化为球面上的两点。考虑到躯干影响的重要性，Algazi等人提出了“雪人模型”，将人的头部和躯干简化为两个半径不同的球，或将头简化为球，将躯干简化为椭球，采用多极展开的方法计算HRTF。虽然雪人模型考虑到了躯干的影响，但它仍然是一个粗略的近似，而且没有考虑耳廓的影响。这两种方法只能得到简单结构对应的HRTF，随着计算机技术的发展，通过数值计算的方法获得复杂结构对应的HRTF成为可能。首先将研究对象的外形采用激光或者CT扫描的办法转换为数字图像，然后采用数值计算的方法获得HRTF。常用的数值计算方法有边界元法、有限元法和有限差分法等。由于HRTF是一个具有个性化特征的物理量，它与人的生理结构密切相关。因为人工头本身是一个统计平均的模型，所以采用人工头测量得到的通用的HRTF不具有个性化的特征，而利用实验对大量真人测量得到个性化的HRTF难以实现，需要严格的实验条件和复杂的实验设备，且是一项非常耗时的工作。利用数值计算方法得到具有个性化特征的HRTF的实际操作难度也比较大，计算复杂。非个性化的HRTF可能导致虚拟空间合成失真，出现如前后混淆，仰角误判和头中效应等感知错误。所以个性化HRTF建模的研究得到广泛开展。表1总结了国内外头相关传输函数个性化建模方法近20年来的研究发展情况。

表1 头相关传输函数个性化建模方法的发展

HRTF的个性化建模研究中，大量工作采用了主成分分析的方法，对HRTF数据在时域或频域进行降维，将庞大的HRTF数据库简化为少量维度表示。通过将主成分系数和被试的人体测量参数进行映射，来实现对每个个体的个性化HRTF建模。然而，这种方法需要对每一个空间方向分别做一次HRTF的映射，且不能预测出HRTF数据库中未采样的空间方向的HRTF。

发明内容

传统主成分分析进行个性化HRTF建模之所以存在着上述问题，其根本原因是该方法需要对每个空间方向分别建模，即对每个空间方向的HRTF分别做一次主成分分析，这样不但建模工作量较大，且不能实现对空间未采样方向HRTF的预测。

本发明的技术方案为：

一种基于深度神经网络的个性化头相关传输函数建模方法，其步骤包括：

1)将CIPIC库中的HRIR数据变换到频域，得到频域HRTF，然后根据频域HRTF计算得到每个空间方向的平均空间函数；

2)利用主成分分析方法对频域HRTF数据进行分解，得到空间主成分及其系数；

3)采用神经网络对空间主成分系数和被试者的人体测量参数建模，得到空间主成分系数及人体测量参数模型；采用神经网络对人体前侧、后侧所有角度的空间主成分方向向量进行建模，得到空间主成分深层神经网络模型；采用神经网络对平均空间函数及其对应的方向进行建模，得到平均空间函数深层神经网络模型；采用神经网络对双耳时间差TID进行建模，得到ITD深层神经网络模型；

4)获取目标个体的人体测量参数，根据所述空间主成分系数及人体测量参数模型求得该目标个体在各频率点的空间主成分系数；对于任意的空间方向，通过所述空间主成分深层神经网络模型、平均空间函数深层神经网络模型和ITD深层神经网络模型分别预测出该空间方向的空间主成分、平均空间函数及该目标个体的ITD；

5)将步骤4)得到的空间主成分、空间主成分系数和平均空间函数代入空间主成分分析公式，计算得到进行空间主成分分析的对象HRTF_logΔ；然后根据HRTF_logΔ得到频域的HRTF，再根据该频域的HRTF和该目标个体的ITD得到时域的HRIR作为该目标个体的头相关传输函数。

进一步的，对空间主成分系数和人体测量参数进行建模的方法为：

21)采用皮尔森相关系数来对CIPIC数据库中的个人体测量参数进行相关性分析，得到任意两个参数之间的相关度；

22)采用多线性回归分析方法对空间主成分系数及人体测量参数进行分析，得到人体测量参数与主成分系数之间的相关度；

23)结合步骤21)得到的参数之间的相关度和步骤22)得到的相关度，选择出若干个与HRTF紧密相关的人体测量参数；

24)根据步骤23)选取的人体测量参数对空间主成分系数和人体测量参数进行神经网络建模，得到空间主成分系数及人体测量参数模型。

进一步的，将人体测量参数、目标水平角θ_d和目标仰角

作为神经网络输入，将目标水平角θ_d和目标仰角

的ITD作为网络输出，训练得到ITD深层神经网络模型。

进一步的，输入的人体测量参数为头宽和头深。

进一步的，所述人体测量参数包括头宽、头深、肩宽、外耳耳腔高度、外耳耳腔宽度、三角窝高度、耳廓高度及耳廓宽度。

进一步的，所述步骤5)中，得到时域的HRIR的方法为：采用最小相位重建的方法，由频域的HRTF的幅度求得其对应的相位，对频域的HRTF进行反傅里叶变换得到时域的HRIR，再结合该目标个体的ITD对该目标个体左右耳的HRIR进行组合，得到该目标个体在任意空间方向的HRIR。

本发明的目的就是在减小建模工作量的同时，实现对空间任意方向个性化HRTF的预测。

本发明中所提出的基于空间主成分分析的个性化HRTF建模的基本思想是，采用空间主成分分析方法，在空间域对HRTF数据进行主成分分析，然后用神经网络对主成分分析得到的各参量进行建模，以实现对任意空间方向个性化HRTF的预测。本发明的重要创新之处在于它有效地利用神经网络对空间主成分分析得到的分解参量进行建模，通过建立少量模型，实现对高空间分辨率HRTF的个性化预测。

本发明的方法是基于空间主成分分析对HRTF数据进行分解，将分解得到空间主成分、空间主成分系数和平均空间函数分别用神经网络建模。其中，空间主成分和平均空间函数只与空间方向有关，空间主成分系数是频率和被试个性化特征参数的函数。本发明用深层神经网络对空间主成分，平均空间函数和双耳时间差(Interaural Time Difference,ITD)分别建模，将水平角及仰角等空间方向信息引入网络输入层。同时，用神经网络基于人体测量参数对空间主成分系数建模。基于上述模型，可根据被试少量的人体测量参数，得到其在空间任意方向个性化的HRTF。

本发明的个性化HRTF的建模方法，包括以下几个部分：

数据预处理本发明采用CIPIC数据库，首先对库中的原始HRIR信号进行预处理。

空间主成分分析将传统的主成分分析方法应用到空间域，对高空间分辨率的HRTF数据进行降维分析。

神经网络建模采用神经网络及空间方向信息，对空间主成分，空间主成分系数，平均空间函数和双耳时间差分别建模。

HRIR重建将神经网络建模得到的空间主成分，空间主成分系数和平均空间函数进行组合，得到任意空间方向的HRTF，并采用最小相位重建的方法，根据预测得到的双耳时间差重建出时域的HRIR。

与现有技术相比，本发明的积极效果为：

通过少量人体测量参数的获取，本发明有效地实现了对任意个体在任意空间方向的HRTF预测。

附图说明

下面结合附图对本发明进一步详细地说明：

图1是基于神经网络的空间主成分方向向量建模图；

图2是个性化HRTF重建谱失真结果与通用HRTF谱失真结果的对比图；

(a)水平面，(b)中垂面；

图3是所有被试对目标角度的判定方向选择图；

(a)是0度仰角时被试对通用HRTF滤波后的双耳声的判断结果，

(b)是0度仰角时被试对个性化HRTF滤波后的双耳声的判断结果，

(c)是45度仰角时被试对通用HRTF滤波后的双耳声的判断结果，

(d)是45度仰角时被试对个性化HRTF滤波后的双耳声的判断结果。

具体实施方式

下面参照本发明的附图，更详细地描述本发明的最佳实施例。

本发明方法的具体实现步骤包括数据预处理、空间主成分分析和神经网络建模。本发明采用CIPIC数据库，包含D＝1250个方向的HRIR数据，采样率为44.1kHz。各步骤的具体实现过程如下：

1.数据预处理

对CIPIC库中原始的HRIR数据进行预处理，具体步骤如下：

首先，将HRIR数据变换到频域。对CIPIC库中的HRIR分别进行傅里叶变换，得到频域的HRTF。频域的HRTF是水平角θ，仰角

声源频率f及人体个性化参数s的函数。

然后，将HRTF幅度谱变换到对数域。由于对数尺度更接近人的听觉感知，所以对HRTF取以10为底的对数：

接着，对得到的对数HRTF_log数据取均值：

最后，求平均空间函数

对每个空间方向

分别求该方向

上所有被试HRTF_logΔ所有频点的平均值，求得的平均空间函数只与空间方向有关。

2.空间主成分分析

传统的主成分分析方法一般对信号的时域或频域进行分析处理。空间主成分分析将传统的主成分分析方法应用到空间域，将高空间分辨率的HRTF数据分解为少量的空间主成分及其对应系数的组合。具体如下式所示：

其中，

是第q个空间主成分，d_q(f,s)是第q个空间主成分系数，H_av是平均空间函数。q是空间主成分个数，可选取前Q个空间主成分来近似重建。W_q和H_av只与空间方向有关。d_q(f,s)是频点f及被试个性化参数s的函数(Xie,B.,“Recovery of individual head-related transfer functions from a small set of measurements.”Journal of theAcoustical Society of America,132(1),pp.282–294,2012)。

将所有被试在所有空间方向的HRTF_logΔ组合起来写成一个矩阵形式：

H＝dW+H_AV

其中，W是空间主成分

构成的矩阵，是一个大小为Q×D的矩阵，它的行向量是Q个空间主成分，列向量是Q个主成分在一个采样空间方向的具体数值，在这里本发明称列向量为空间主成分方向向量。d是空间主成分系数d_q(f,s)构成的矩阵，是一个(NS)×Q的矩阵，N为频点总数，S为被试总数，D是空间方向的总数，Q是选取的空间主成分的总数。H_AV是一个(NS)×D的矩阵，且每一行都由相同的向量H_av构成。

将预处理后的数据进行空间主成分分析。根据主成分分析的性质，选取不同的主成分个数，重建得到的数据占原始数据的信息比重不同。随着主成分个数的增加，即Q值的增大，重建得到的HRTF占原始信息的比重不断增大。选取20个主成分可恢复超过70％的信息，选取60个主成分可恢复超过80％的信息。本发明选取主成分个数Q＝200，重建后可得到超过90％的原始数据信息。

3.神经网络建模

本发明采用神经网络的方法，对空间主成分、空间主成分系数及平均空间函数等分别建模。

(1)空间主成分系数及人体测量参数模型

由于空间主成分系数是被试人体测量参数和频点的函数，通过对空间主成分系数和人体测量参数进行神经网络建模，在对任意被试进行部分人体测量参数的获取之后，可根据神经网络模型求出该被试对应的全部空间主成分系数。

CIPIC数据库中共包含27个人体测量参数。获取被试全部的27个人体测量参数比较困难且繁琐，如果找到少量与被试HRTF具有较强相关性的人体测量参数，则可避免繁琐的参数获取工作，且减小后续神经网络模型的运算量。

为找到少量与个体HRTF具有较强相关性的人体测量参数，本发明首先对CIPIC数据库中所有的变换到频域的HRTF分方向进行传统的主成分分析。对于每个空间方向，得到一组主成分及主成分系数。

然后，采用皮尔森相关系数来对CIPIC数据库中包含的27个人体测量参数进行相关性分析，得到任意两个参数之间的相关度：

接着，采用多线性回归分析，对传统主成分分析得到的主成分系数及人体测量参数进行分析，得到人体测量参数与主成分系数之间的相关度。

最后，结合参数间的相关性分析和多线性回归分析，我们选择出8个与HRTF紧密相关的人体测量参数，分别是头宽、头深、肩宽、外耳耳腔高度、外耳耳腔宽度、三角窝高度、耳廓高度及耳廓宽度。其中，头部及肩膀参数可以通过卡尺测量得到，耳朵参数通过拍照进行图像标注获取。

通过上述方法求得8个具有代表性的人体测量参数之后，对空间主成分系数和人体测量参数进行神经网络建模，得到空间主成分系数及人体测量参数模型；空间主成分系数和人体测量参数一起构成一个神经网络模型，人体测量参数是神经网络输入，空间主成分系数是神经网络输出。在CIPIC数据库中，共有37个被试(13女，22男，2KEMAR)含有全部本发明选择的8个人体测量参数。因此，可选择其中30组数据作为训练集，7组数据作为测试集，来进行神经网络建模。由于人耳是不完全对称的，本发明将同一个个体的左耳尺寸和右耳尺寸作为不同的训练数据。这样对于同一个个体，可以得到两组人体测量参数，数据量变为原来的两倍。这样，我们共有60组数据作为训练集，14组数据作为测试集。

由于空间主成分系数是被试人体测量参数及频点的函数，则对于不同频点，分别对被试的人体测量参数及空间主成分系数建立神经网络模型。对于每个网络(普通的全连接神经网络，共三层)，输入为8个人体测量参数，监督为200个空间主成分系数。由于傅里叶变换的对称性，只需对前101个频点对应的空间主成分系数和被试的人体测量参数进行建模，共101个神经网络，从而求得被试在所有频点对应的空间主成分系数。

(2)深层神经网络建模

本发明用深层神经网络对空间主成分、平均空间函数及ITD分别进行建模。由于HRTF的前后对称特性，直接将CIPIC库中所有方向的数据进行神经网络训练会降低网络性能。因此本发明将空间主成分分析得到的空间主成分和平均空间函数以及ITD数据按人体前后方向分成两部分，每部分数据分别用深层神经网络建模。则空间主成分、平均空间函数及ITD各需要训练两个深层神经网络，即共六个网络，每个网络都是五层的全连接神经网络。

首先，建立空间主成分深层神经网络模型。如图1所示，该网络是对人体前侧所有角度的空间主成分方向向量进行建模。网络的输入为水平角0度，仰角0度的空间主成分方向向量，目标水平角θ_d和仰角

输出为水平角θ_d，仰角

的空间主成分方向向量，网络共有五层(普通的全连接神经网络，共五层)。对于人体后侧的角度，同样以相同的方法用一个五层的网络训练。对于每个网络，将库中的数据每隔三个方向取一个作为测试集，余下数据作为训练集。通过深层神经网络的训练，可得出空间任意方向的空间主成分方向向量，即空间主成分的建模结果。

类似的，可对平均空间函数及其对应的方向进行神经网络建模，得到平均空间函数深层神经网络模型。网络的输入为水平角0度，仰角0度的平均空间函数，目标水平角θ_d和仰角

输出为水平角θ_d，仰角

的平均空间函数，网络共有五层(普通的全连接神经网络，共五层)。通过深层神经网络的训练，可得出空间任意方向的平均空间函数。

最后，建立ITD深层神经网络模型。由于ITD不仅与方向有关，且和被试的人体测量参数相关。因此，本发明将人体测量参数，目标水平角θ_d和仰角

作为神经网络输入，将水平角θ_d和仰角

的ITD作为网络输出。因为ITD主要与头部的尺寸相关，故只取头宽和头深两个人体测量参数。重建后的ITD平均误差约为一个采样点，在44.1K的采样率情况下误差约为23微秒。

4.HRIR重建

通过对被试少量人体测量参数的获取，本发明可根据空间主成分系数及人体测量参数模型求得被试在所有频率点的空间主成分系数。对于任意的空间方向，通过深层神经网络模型可以预测出该方向的空间主成分、平均空间函数及被试的ITD。将上述通过神经网络模型得到的空间主成分、空间主成分系数和平均空间函数代入空间主成分分析公式进行组合，得到HRTF_logΔ。然后根据数据预处理的步骤可反推出频域的HRTF。

本发明首先根据数据预处理步骤反推出的所有空间方向的频域的HRTF幅值，进一步去求时域的HRIR，如果直接做反傅里叶变换缺少相位信息，故用最小相位重建的方法求得相位，从而将频域的HRTF(幅值及相位组合)反傅里叶变换变换为时域的HRIR；对每一个空间方向都采用此方法，则得到任意空间方向的HRIR。再根据左右耳空间方向的对称关系，分别得到左耳和右耳的传输函数(HRIR)，在配上相应的ITD，得到一组左右耳传输函数。

下面结合具体实施例说明本发明的优点。

1.客观评价结果

采用谱失真(spectral distortion,SD)为误差计算的量度：

其中，H(f_k)为CIPIC库中测量得到的HRTF，

为估计得到的HRTF。

将采用个性化HRTF建模得到的HRTF的谱失真大小与采用通用的HRTF(CIPIC库中小耳KEMAR的HRTF)得到的谱失真大小进行对比。由图2可以看出，个性化HRTF的SD值较通用的小，客观性能比通用的得到了提升。

2.主观感知效果评价

为了进一步验证个性化HRTF的有效性，本发明开展了主观实验来评测个性化HRTF的性能。初始信号是8个连续的时长为250ms的高斯白噪声序列，每两个白噪声之间间隔300ms的静音。然后用通用的HRTF及个性化的HRTF分别对初始信号进行滤波得到两种不同的双耳声。主观实验一共分为四组，分为0度、45度仰角，且每个仰角下对两种不同双耳声各进行一组实验。每组实验给被试播放12个相同仰角不同水平角的双耳声，每个方向的双耳声出现三次，所以共36个双耳声打乱顺序播放。被试对听到的每个双耳声都要在给定的12个水平角中选择一个水平角为判定角度。本次实验共有9个被试参加，8男1女，年龄在21到25岁，且听力正常。

图3为9个被试在四组实验中对不同目标角度的判定结果。其中(a)为0度仰角时被试对通用HRTF滤波后的双耳声的判断结果，(b)为0度仰角时被试对个性化HRTF滤波后的双耳声的判断结果，(c)为45度仰角时被试对通用HRTF滤波后的双耳声的判断结果，(d)为45度仰角时被试对个性化HRTF滤波后的双耳声的判断结果。由图可得，用个性化HRTF滤波得到的双耳声的判定结果要优于用通用HRTF滤波得到的双耳声结果的判定结果。

表2为对9个被试在四组实验中对不同目标角度的判定结果的平均正确率，前后混效率及平均误角度数。由表可得，在平均正确率，前后混效率和平均误角度数三项指标下，个性化HRTF的性能都要优于通用的HRTF。

表2 所有被试的平均主观实验结果

尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容。

Claims

1.一种基于深度神经网络的个性化头相关传输函数建模方法，其步骤包括：

3)采用神经网络对空间主成分系数和被试者的人体测量参数建模，得到空间主成分系数及人体测量参数模型；采用神经网络对人体前侧、后侧所有角度的空间主成分方向向量进行建模，得到空间主成分深层神经网络模型；采用神经网络对平均空间函数及其对应的方向进行建模，得到平均空间函数深层神经网络模型；采用神经网络对双耳时间差TID进行建模，得到ITD深层神经网络模型；其中对空间主成分系数和被试者的人体测量参数进行建模的方法为：31)采用皮尔森相关系数来对CIPIC数据库中的个人体测量参数进行相关性分析，得到任意两个参数之间的相关度；32)采用多线性回归分析方法对空间主成分系数及人体测量参数进行分析，得到人体测量参数与主成分系数之间的相关度；33)结合步骤31)得到的参数之间的相关度和步骤32)得到的相关度，选择出若干个与HRTF紧密相关的人体测量参数；34)根据步骤33)选取的人体测量参数对空间主成分系数和人体测量参数进行神经网络建模，得到空间主成分系数及人体测量参数模型；

5)将步骤4)得到的空间主成分、空间主成分系数和平均空间函数代入空间主成分分析公式，计算得到进行空间主成分分析的对象HRTF_log△；然后根据HRTF_log△得到频域的HRTF，再根据该频域的HRTF和该目标个体的ITD得到时域的HRIR作为该目标个体的头相关传输函数。

2.如权利要求1所述的方法，其特征在于，将人体测量参数、目标水平角θ_d和目标仰角

作为神经网络输入，将目标水平角θ_d和目标仰角

的ITD作为网络输出，训练得到ITD深层神经网络模型。

3.如权利要求2所述的方法，其特征在于，输入的人体测量参数为头宽和头深。

4.如权利要求1所述的方法，其特征在于，所述人体测量参数包括头宽、头深、肩宽、外耳耳腔高度、外耳耳腔宽度、三角窝高度、耳廓高度及耳廓宽度。

5.如权利要求1所述的方法，其特征在于，所述步骤5)中，得到时域的HRIR的方法为：采用最小相位重建的方法，由频域的HRTF的幅度求得其对应的相位，对频域的HRTF进行反傅里叶变换得到时域的HRIR，再结合该目标个体的ITD对该目标个体左右耳的HRIR进行组合，得到该目标个体在任意空间方向的HRIR。