CN107480100A

CN107480100A - 基于深层神经网络中间层特征的头相关传输函数建模系统

Info

Publication number: CN107480100A
Application number: CN201710536423.9A
Authority: CN
Inventors: 陶建华; 戚肖克
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2017-12-15
Anticipated expiration: 2037-07-04
Also published as: CN107480100B

Abstract

本发明涉及本发明涉及电子行业信号处理技术领域，提出了一种基于深层神经网络中间层特征的头相关传输函数建模系统，该系统包括训练系统、建模系统；所述训练系统包括特征生成模块、模型训练模块、HRTF数据库；所述建模系统包括特征生成模块、预测模块、HRTF重建模块；所述特征生成模块用以生成模型输入特征；所述模型训练模块用以在所述模型输入特征与HRTF数据库中的HRTF之间产生非线性映射；所述HRTF数据库用于存储HRTF；所述预测模块用以针对目标位置产生对数幅度最小相位HRTF；所述HRTF重建模块用以重构目标位置处的HRTF。本发明充分利用了HRTF数据与基函数之间的非线性关系，并提高模型准确度。

Description

基于深层神经网络中间层特征的头相关传输函数建模系统

技术领域

本发明涉及电子行业信号处理技术领域，尤其涉及一种基于深层神经网络中间层特征的头相关传输函数建模系统。

背景技术

虚拟现实领域的爆发使得虚拟听觉受到越来越多的关注。虚拟现实包含虚拟视觉和虚拟听觉，其中，虚拟听觉技术的重点问题是恢复与自然听觉相同的定位特征。人类的听觉过程通常可视为声源-信道-接收模型，其中信道包含声源经过人体不同部位的衍射、干扰，最终到达鼓膜的过程，可看作一个空间数字滤波器，称为头相关传输函数(Head-Related Transfer Function,HRTF)，它包含了声波与身体部位之间的交互引起的所有谱特征。由于每个人的生理结构不尽相同，HRTF谱特征是极其个性化的。然而，很难对每个个体在全空间内测量HRTF。另一个问题为很难对密集测量的HRTF数据库有效存储。

目前有线性建模的方法：一种方法为将HRTF建模到低维空间，如采用主成分分析方法，或者空间主成分分析，将空间的变化建模为少量主成分的联合。然而，这类方法很难将离散测量的HRTF插值成全空间的连续HRTF。另一种方法是采用基于表面球谐函数的建模(Spherical Harmonics-based Modeling,SHM))方法，通过在全空间建模为相对少量的球谐扩展系数的线性组合重建HRTF。然而，这些方法仅考虑了系数与基函数进行线性组合，没有利用HRTF数据与基函数之间的非线性关系。

发明内容

为了解决现有技术中的上述问题，即为了充分利用HRTF数据与基函数之间的非线性关系以提高模型准确度，本发明提出了一种基于深层神经网络中间层特征的头相关传输函数建模系统，包括训练系统、建模系统；

所述训练系统包括特征生成模块、模型训练模块、HRTF数据库；所述建模系统包括特征生成模块、预测模块、HRTF重建模块；

所述特征生成模块用以基于领域知识分别从声波传输理论和感知理论角度出发生成模型输入特征；

所述模型训练模块用以在所述模型输入特征与HRTF数据库中的HRTF之间产生非线性映射，并对所述预测模块进行训练；所述模型训练模块中基于领域知识分别从声波传输理论和感知理论角度出发生成损失函数；

所述HRTF数据库用于存储HRTF；

所述预测模块用以针对目标位置产生对数幅度最小相位HRTF；

所述HRTF重建模块用以通过所述预测模块输出的模型系数，重构目标位置处的HRTF。

优选地，所述特征生成模块包括方向特征生成模块、距离特征生成模块、特征合并模块、特征预处理模块；

所述方向特征生成模块用于产生当前位置处方向相关的特征；

所述距离特征生成模块用于产生当前位置处距离相关的特征；

所述特征合并模块用于合并所述方向相关的特征与所述距离相关的特征；

所述特征预处理模块用于对所述特征合并模块的输出的特征进行预处理，将输入特征归一化在均值为0、方差为1的值内。

优选地，所述模型训练模块包括：HRTF预处理模块、损失函数设计模块、Bottleneck特征提取模块、模型结构训练模块；

所述HRTF预处理模块用于对HRTF进行预处理，将输入特征归一化在均值为0、方差为1的值内；

所述损失函数设计模块用于获得模型训练过程中使用的损失函数；

所述Bottleneck特征提取模块用于基于所述特征生成模块输出的模型输入特征，通过多层感知机训练产生Bottleneck特征；

所述模型结构训练模块用于进行基于Bottleneck神经网络模型训练。

优选地，所述多层感知机由5个隐层组成，其中中间层为Bottleneck层。

优选地，所述的方向相关的特征采用球谐函数生成，

其中，n为勒让德函数的度数，n＝0,...N；m为勒让德函数的阶数，|m|≤n；为度数为n、阶数为m的勒让德函数；θ和φ分别为测量位置的方位角和仰角。

优选地，所述的距离相关的特征采用标准球贝塞尔函数Φ_nl(r)生成，

其中，j_l(x)为阶数为l的球贝塞尔函数，J_l'(x)为贝塞尔函数；N_nl为规整化因子，k_nl为波数，k_nl＝x_nl/a；r为当前声源位置离人头中心的距离。

优选地，所述特征合并模块中合并所述方向相关的特征与所述距离相关的特征，其方法为：

对于位置d＝(r,θ,φ)，将方向和距离相关部分进行合并后，得到的输入特征集为

优选地，所述特征预处理模块中对所述特征合并模块的输出的特征进行预处理，其方法为：

对于第s个位置处的特征集合中的第i项f_S(i)，预处理后的特征表示为

其中，μ_f(i)、σ_f(i)分别表示第i个特征在所有位置上的均值和标准差；N_t为用于模型训练的特征集合中特征参数的数目；S为用于模型训练的测量位置数目；

优选地，所述HRTF预处理模块中对HRTF进行预处理，其方法为：

对于第s个位置处的第i个频点的HRTF，预处理过程可表示为

H_s(i)为第s个位置处的第i个频点的HRTF，为预处理后的第s个位置处的第i个频点的HRTF，μ_h(i)和σ_h(i)分别表示所有位置上HRTF的第i个频点的均值和标准差；N_f为用于模型训练的频点数目；

优选地，所述损失函数设计模块获得的损失函数基于对数谱失真准则定义，

其中，L表示损失函数；N_f为k₁到k₂之间的频点数目，k₁到k₂分别为频点的起始点和结束点；表示估计的第s个位置处的第i个频点的归一化HRTF。

优选地，所述HRTF重建模块中重构目标位置处的HRTF，其方法为：

将所述预测模块的输出去除归一化，目标位置d_s处重建的对数幅度最小相位HRTF通过下式计算：

依次经过对数变为线性、逆Hilbert变换，得到重建的HRTF。

本发明具有以下有益效果：

(1)本发明中基于领域知识分别从声波传输理论和感知理论角度出发产生模型输入特征及损失函数，在输入特征与HRTF之间建立非线性映射，提高了模型准确度；

(2)本发明中提供的非线性模型可用离散小数据集得到全三维空间中与测量HRTF更接近的估计；

(3)本发明的非线性建模方法是一种随空间位置自动计算HRTF的算法，具有高鲁棒性，便于在实际环境中的应用。

附图说明

图1是本发明实施例基于深层神经网络中间层特征的头相关传输函数建模系统的结构示意图；

图2是本发明实施例基于深层神经网络中间层特征的头相关传输函数建模系统的特征生成模块的结构示意图；

图3是本发明实施例基于深层神经网络中间层特征的头相关传输函数建模系统的模型训练模块的结构示意图；

图4是本发明实施例模型训练模块的Bottleneck特征提取模块的结构示意图；

符号说明：

特征生成模块—1，模型训练模块—2，预测模块—3，HRTF重建模块—4，基于领域知识的方向特征生成模块—11，基于领域知识的距离特征生成模块—12，特征合并模块—13，特征预处理模块—14，HRTF预处理模块—21，基于领域知识的损失函数设计模块—22，Bottleneck特征提取模块—23，模型结构训练模块—24。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。且在附图中，以简化或是方便标示。再者，附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。

本发明基于深层神经网络中间层特征的头相关传输函数建模系统中，构建头相关传输函数(HRTF)的非线性模型，通过采用领域知识分别从声波传输理论和感知理论角度出发产生模型输入特征及损失函数，在输入特征与HRTF之间建立非线性映射，提高了模型准确度，从而可获取任意位置处更为准确的HRTF，为动态场景的虚拟听觉绘制提供基础。

本发明一种实施例的基于深层神经网络中间层特征的头相关传输函数建模系统，如图1所示，包括训练系统、建模系统；训练系统包括特征生成模块1、模型训练模块2、HRTF数据库；所述建模系统包括特征生成模块1、预测模块3、HRTF重建模块4。特征生成模块1用以基于领域知识分别从声波传输理论和感知理论角度出发生成模型输入特征；模型训练模块2与所述特征生成模块1相连接，用以在模型输入特征与HRTF数据库中的HRTF之间产生非线性映射，并对预测模块3进行训练；模型训练模块2中基于领域知识分别从声波传输理论和感知理论角度出发生成损失函数；HRTF数据库用于存储HRTF数据，作为整个训练系统的输入；预测模块3为模型训练模块输出的模型，预测模块3分别与特征生成模块1和模型训练模块2相连接，用以对输入的目标位置生成预测模型系数，即针对目标位置产生对数幅度最小相位HRTF；HRTF重建模块4与预测模块3相连，用以通过预测模块3输出的模型系数，重构目标位置处的HRTF。

本发明中，基于领域知识分别从声波传输理论和感知理论角度出发产生模型输入特征及损失函数，在输入特征与对数幅度最小相位头相关传输函数之间建立非线性映射，提高了模型准确度，离散小数据集得到全三维空间中与测量HRTF更接近的估计，具有高鲁棒性，便于在实际环境中的应用。以下分别对各个模块进行详细说明。

特征生成模块1如图2所示，包括基于领域知识的方向特征生成模块11、基于领域知识的距离特征生成模块12、特征合并模块13、特征预处理模块14；基于领域知识的方向特征生成模块11用于产生当前位置处方向相关的特征；基于领域知识的距离特征生成模块12用于产生当前位置处距离相关的特征；特征合并模块13与所述基于领域知识的方向特征生成模块11和基于领域知识的距离特征生成模块12相连，用于合并前述两个模块输出的方向相关的特征与距离相关的特征；特征预处理模块14的输入与特征合并模块13相连，输出与模型训练模块2相连，用于对特征合并模块13的输出的特征进行预处理，将输入特征归一化在均值为0、方差为1的值内，作为模型训练模块2的输入。

从声源到双耳的声场传输响应是频率、距离、方位角、仰角的复杂函数，声场可以特定的正交序列集表示。

基于领域知识的方向特征生成模块11中所输出的方向相关的特征采用球谐函数生成，如公式(1)、(2)所示，

基于领域知识的距离特征生成模块12中输出的距离相关的特征采用标准球贝塞尔函数Φ_nl(r)生成，如公式(3)所示，

其中，j_l(x)为阶数为l的球贝塞尔函数，J_l'(x)为贝塞尔函数；N_nl为规整化因子，k_nl为波数，k_nl＝x_nl/a；r为当前声源位置离人头中心的距离。。在零边界条件下，k_nl＝x_nl/a，其中x_ln为j_l(x)＝0第n个升序排列的正根。a为最大的半径。

特征合并模块13中合并所述方向相关的特征与所述距离相关的特征，其方法为：对于位置d＝(r,θ,φ)，将方向和距离相关部分进行合并后，得到的输入特征集为其中n＝0,...N，|m|≤n，l＝1,...,L，共包含N_t＝[(N+1)²+NL]个特征参数。

特征预处理模块14中对特征合并模块13的输出的特征进行预处理，将输入特征归一化在均值为0、方差为1的值内，以降低数据的浮动范围。此处预处理的方法为：

对于第s个位置处的特征集合中的第i项f_S(i)，预处理后的特征表示为公式(4)

其中，μ_f(i)、σ_f(i)分别表示第i个特征在所有位置上的均值和标准差，分别如公式(5)、(6)所示；N_t为用于模型训练的特征集合中特征参数的数目；S为用于模型训练的测量位置数目；

模型训练模块2如图3所示，包括：HRTF预处理模块21、基于领域知识的损失函数设计模块22、Bottleneck特征提取模块23、模型结构训练模块24；HRTF预处理模块21用于对HRTF进行预处理，将输入特征归一化在均值为0、方差为1的值内；基于领域知识的损失函数设计模块22用于获得模型训练过程中使用的损失函数；Bottleneck特征提取模块23用于基于所述特征生成模块输出的模型输入特征，通过多层感知机训练产生Bottleneck特征；模型结构训练模块24用于进行基于Bottleneck神经网络模型训练。

HRTF预处理模块21中对HRTF进行预处理，其方法为：对于第s个位置处的第i个频点的HRTF，预处理过程可表示为公式(7)

H_s(i)为第s个位置处的第i个频点的HRTF，为预处理后的第s个位置处的第i个频点的HRTF，μ_h(i)和σ_h(i)分别表示所有位置上HRTF的第i个频点的均值和标准差，分别表示为公式(8)、(9)；N_f为用于模型训练的频点数目；

基于领域知识的损失函数设计模块22获得的损失函数的设计依据为主观感知相关知识，由于对数幅度谱保留了所有感知相关的信息，因此基于对数谱失真准则定义损失函数L如公式(10)所示

其中，N_f为k₁到k₂之间的频点数目，k₁到k₂分别为频点的起始点和结束点；表示估计的第s个位置处的第i个频点的归一化HRTF。通过最小化损失函数，可以最大化模型的客观性能。

Bottleneck特征提取模块23与特征预处理模块14、HRTF预处理模块21、基于领域知识的基于领域知识的损失函数设计模块22相连，用于产生Bottleneck特征，作为神经网络模型训练输入的一部分。Bottleneck特征通过一个多层感知机训练获取，如图4所示，由5个隐层组成，其中中间层节点为30，为Bottleneck层，其它隐层节点为1024。模型输入为特征预处理模块14的输出，模型输出为HRTF预处理模块21的输出。经过网络训练后，得到Bottleneck特征。

模型结构训练模块24与特征合并模块13、HRTF预处理模块21、基于领域知识的损失函数设计模块22相连，用于进行基于Bottleneck神经网络模型训练，该模型训练方法是较为广泛深度神经网络训练方法，此处不再对其详细的训练方法进行详尽描述。

预测模块3与特征生成模块1和模型训练模块2相连接，用于根据目标点的特征与训练好的模型预测出目标点的对数幅度最小相位头相关传输函数。对于任意目标位置，首先根据特征生成模块1生成位置相关特征，将这些特征输入Bottleneck特征提取模块23获得Bottleneck特征，通过将特征合并后输入训练好的模型中，最终输出归一化最小相位头相关传输函数。

模型结构训练模块4与预测模块3相连接，通过预测结果重构头相关传输函数，其方法为：

将所述预测模块的输出去除归一化，目标位置d_s处重建的对数幅度最小相位HRTF通过公式(11)计算：

依次经过对数变为线性、逆Hilbert变换，得到重建的HRTF。

本发明基于深层神经网络中间层特征的头相关传输函数建模系统以Matlab和c语言编写。此外，本发明可以应用于电脑终端、手持式移动设备或其它形式的移动设备。

结合本文中所公开的实施例描述的系统可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素模块不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些模块所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于深层神经网络中间层特征的头相关传输函数建模系统，其特征在于，包括训练系统、建模系统；

所述HRTF数据库用于存储HRTF；

所述预测模块用以针对目标位置产生对数幅度最小相位HRTF；

2.根据权利要求1所述的头相关传输函数建模系统，其特征在于，所述特征生成模块包括方向特征生成模块、距离特征生成模块、特征合并模块、特征预处理模块；

3.根据权利要求2所述的头相关传输函数建模系统，其特征在于，所述模型训练模块包括：HRTF预处理模块、损失函数设计模块、Bottleneck特征提取模块、模型结构训练模块；

4.根据权利要求3所述的头相关传输函数建模系统，其特征在于，所述多层感知机由5个隐层组成，其中中间层为Bottleneck层。

5.根据权利要求3或4所述的头相关传输函数建模系统，其特征在于，所述的方向相关的特征采用球谐函数生成，

6.根据权利要求5所述的头相关传输函数建模系统，其特征在于，所述的距离相关的特征采用标准球贝塞尔函数Φ_nl(r)生成，

7.根据权利要求6所述的头相关传输函数建模系统，其特征在于，所述特征合并模块中合并所述方向相关的特征与所述距离相关的特征，其方法为：

8.根据权利要求7所述的头相关传输函数建模系统，其特征在于，所述特征预处理模块中对所述特征合并模块的输出的特征进行预处理，其方法为：

。

9.根据权利要求8所述的头相关传输函数建模系统，其特征在于，所述HRTF预处理模块中对HRTF进行预处理，其方法为：

对于第s个位置处的第i个频点的HRTF，预处理过程可表示为

。

10.根据权利要求9所述的头相关传输函数建模系统，其特征在于，所述损失函数设计模块获得的损失函数基于对数谱失真准则定义，

11.根据权利要求9所述的头相关传输函数建模系统，其特征在于，所述HRTF重建模块中重构目标位置处的HRTF，其方法为：

依次经过对数变为线性、逆Hilbert变换，得到重建的HRTF。