CN113849767B

CN113849767B - 基于生理参数和人工头数据的个性化hrtf生成方法和系统

Info

Publication number: CN113849767B
Application number: CN202111135926.8A
Authority: CN
Inventors: 孟瑞洁; 桑晋秋; 郑成诗; 李晓东; 王杰
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-08-16
Anticipated expiration: 2041-09-27
Also published as: CN113849767A

Abstract

本发明公开了一种基于生理参数和人工头数据的个性化HRTF生成方法和系统，所述方法包括：获取待测试者的生理参数和人工头数据；将预处理后的生理参数与人工头数据输入预先建立和训练好的HRTF生成模型，得到该测试者的头相关传递函数HRTF；所述HRTF生成模型用于分别生成幅度谱和时延部分，对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分，再与时延部分结合经转换得到头相关传递函数HRTF。本发明基于人体生理参数和人工头HRTF为用户定制属于自己的个性化HRTF，并通过耳机重放使得用户获得沉浸式体验。

Description

基于生理参数和人工头数据的个性化HRTF生成方法和系统

技术领域

本发明涉及头相关传递函数(Head-related Transfer Functions，HRTF)的生成方法，尤其涉及基于生理参数和人工头数据的个性化HRTF生成方法和系统。

背景技术

头相关传递函数是描述人体躯干、颈部、头部以及耳廓对声音的综合滤波作用，声音经过人体的反射或散射到达人耳被接收。所以，HRTF表现出因人而异的特性，并且HRTF中包含了声源定位的主要信息(如双耳时间差，双耳声级差等)。但是现有的耳机重放设备中例如沉浸式音乐媒体、虚拟现实、虚拟游戏和飞行训练模拟等大多使用的是人工头HRTF。非个性化的HRTF往往会带来头中效应、前后混淆和垂直定位错误等问题。越来越多的需求表明个性化HRTF是虚拟声重放中关键研究技术之一。

现有的最精确地获取个性化HRTF手段是实验室测量，通常是让受试者在半消或者全消实验室完成HRTF的测量，测量时受试者耳道口或者耳道中某一位置佩戴微型传声器来接收空间不同位置固定扬声器发出的声音。但是实验测量通常比较耗费资金和时间。现有的HRTF数据库有CIPIC、MIT、IRCAM、ARI和HUTUBS等数据库。传统的个性化HRTF获取方法是通过三维激光扫描、MRI或CT扫描获取人体生理参数，在通过边界元(Boundary ElementMethod,BEM)数值计算得到个性化HRTF。由于边界元方法局限于计算力以及计算精度，所以一般只能得到HRTF的低频谱。随着机器学习在科学应用中的快速发展，BEM与机器学习相结合或许有可能成为个性化HRTF快速定制的一个方法。此外，计算机视觉的2D或3D算法可实现自动摄影测量人体生理参数也极大促进了从人体生理参数方便快捷的定制个性化HRTF。

另一类方法是生理参数匹配法，分主观和客观匹配两种类型。主观挑选是通过受试者主观实验反馈调节HRTF模型参数来完成近似个性化HRTF的定制。客观挑选是通过匹配受试者生理参数与数据库中已有的生理参数来将生理参数最接近的数据库HRTF作为受试者的个性化HRTF的近似。但不论是主观还是客观挑选法最终得到的HRTF都是个性化HRTF的近似，并非真正意义上的个性化定制。

生理参数之间的差异与HRTF谱之间的差异是有密切关系的，通过机器学习的方法可以学习从生理参数到HRTF之间的映射关系。并且随着近年来计算机算力的提升机器学习的应用与日俱增，这为从生理参数便捷定制个性化HRTF提供了可能。基于用户生理参数的深度神经网络(Deep Neural Network,DNN)也被用于HRTF定制。DNN网络的输入通常是生理参数，输出是任意一个方向的HRTF频谱。但是DNN网络并没有考虑空间方位之间的关联性，通常是所有方向共享一个网络或者一个方向训练一个网络。

发明内容

本发明的目的在于克服现有技术缺陷，提出了基于生理参数和人工头数据的个性化HRTF生成方法和系统。

为了实现上述目的，本发明提出了一种基于生理参数和人工头数据的个性化HRTF生成方法，所述方法包括：

获取待测试者的生理参数和人工头数据；

将预处理后的生理参数与人工头数据输入预先建立和训练好的HRTF生成模型，得到该测试者的头相关传递函数HRTF；

所述HRTF生成模型，用于分别生成幅度谱和时延部分，对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分，再与时延部分结合经转换得到头相关传递函数HRTF。

作为上述方法的一种改进，所述生理参数包括：头部、耳廓、颈部和躯干相关生理参数，人工头数据包括：空间上若干个方位的HRIR数据。

作为上述方法的一种改进，所述预处理包括：

对生理参数数据进行归一化处理；

对归一化处理后的生理参数进行非线性特征的提取。

作为上述方法的一种改进，所述HRTF生成模型包括幅度谱生成模块、最小相位计算模块、时延生成模块和输出模块；其中，

所述幅度谱生成模块，用于根据输入的预处理后的生理参数以及人工头数据，输出幅度谱；

所述最小相位计算模块，用于对幅度谱依次进行取对数运算和希尔伯特变换，得到HRTF的最小相位部分；

所述时延生成模块，用于根据输入的预处理后的生理参数，输出HRTF的时延部分；

所述输出模块，用于对HRTF的最小相位部分和时延部分经乘积运算后得到头相关传递函数HRTF。

作为上述方法的一种改进，所述幅度谱生成模块采用U-Net网络，包括卷积层和反卷积层的堆叠结构，激活函数为ELU函数。

作为上述方法的一种改进，所述时延生成模块结合注意力机制采用transformer神经网络。

作为上述方法的一种改进，所述方法还包括幅度谱生成模块和时延生成模块的训练步骤；具体包括：

分别建立带有幅度谱标签的幅度谱训练集以及带有ITD值标签的ITD训练集；

将幅度谱训练集的数据依次输入幅度谱生成模块，调整网络参数，直至输出的幅度谱与幅度谱训练集中对应的幅度谱标签的均方误差小于第一阈值并且稳定，得到训练好的幅度谱生成模块；

将ITD训练集的数据依次输入幅度谱生成模块，调整网络参数，直至输出的ITD值与ITD训练集中对应的ITD值标签的均方误差小于第二阈值并且稳定，得到训练好的时延生成模块。

作为上述方法的一种改进，所述分别建立幅度谱训练集和ITD训练集；具体包括：

从CIPIC数据库中分别提取对应的HRIR、ITD和生理参数数据；

对每一俯仰角每一方位角下的HRIR进行M个点的傅里叶变换，并取前N个点的频谱得到俯仰角-方位角-频率的三维幅度谱；

对所有俯仰角下的所有方位的三维幅度谱以螺旋方式重新排列，得到空间方位-频率的二维幅度谱；

对生理参数数据进行归一化处理；

以三维幅度谱为标签值，和对应的归一化处理后的生理参数数据组成幅度谱训练集；

对所有俯仰角下的所有方位的ITD以螺旋方式重新排列，得到空间方位的ITD；

以空间方位的ITD为标签值，和对应的归一化处理后的生理参数数据组成ITD训练集。

一种基于生理参数和人工头数据的个性化HRTF生成系统，所述系统包括：数据获取模块、预处理模块、结果输出模块和HRTF生成模型；其中，

所述数据获取模块，用于获取待测试者的生理参数和人工头数据；

所述预处理模块，用于对生理参数进行预处理；

所述结果输出模块，用于将预处理后的生理参数与人工头数据输入预先建立和训练好的HRTF生成模型，得到该测试者的头相关传递函数HRTF；

所述HRTF生成模型，用于分别生成幅度谱和时延部分，对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分，再与时延部分结合经转换得到头相关传递函数HRTF

与现有技术相比，本发明的优势在于：

1、本发明基于人体生理参数和人工头HRTF为用户定制属于自己的个性化HRTF，并通过耳机重放使得用户获得沉浸式体验；

2、本发明相比于在半消或者全消实验室完成HRTF的测量，本发明的方法降低了成本，节省了实验获取的时间；

3、本发明相比于生理参数匹配法，基于生理参数与人工头数据，从幅度谱和最小相位两个维度进行机器学习，实现了真正个性化的HRTF。

附图说明

图1是本发明的基于生理参数和人工头数据的个性化HRTF生成方法流程图；

图2是生理参数测量图；其中，图2(a)是头部和颈部生理参数测量图，图2(b)是耳廓生理参数测量图；

图3是本发明预测幅度谱的神经网络框架；

图4是本发明预测ITD的神经网络框图。

具体实施方式

为了考虑HRTF频谱之间在空间上的关联性我们提出了一种使用全卷积神经网络(Full Convolutional Neural Networks,FCN)预测全空间HRTF频谱的方法。同时我们提出使用transformer网络来预测全空间的双耳时延差(Interaural Time Delay,ITD)。根据最小相位模型将算法恢复的幅度谱和相位谱来得到HRTF。本文的方法可以同时对全空间的HRTF进行预测，并有助于提高虚拟声重放时声源定位的准确度。

本发明利用CNN神经网络研究从人体生理参数到个性化头相关传递函数的映射关系。该方法将生理参数与人工头HRTF作为输入来获得受试者个性化HRTF的幅度谱。本发明用transformer神经网络同时预测全空间的ITD，根据最小相位模型将幅度谱与ITD结合得到时域双耳重放的头相关脉冲响应函数(Head-Related Impulse Response,HRIR)。

步骤一：对CIPIC数据库中HRTF、ITD和生理参数数据进行预处理。

步骤二：分别设计预测幅度谱和时延的神经网络。

步骤三：将预处理的数据放入神经网络分别训练幅度谱和时延的神经网络模型。

步骤四：通过最小相位模型得到个性化HRTF。

步骤五：设计主观定位实验来验证方法在虚拟声重放中重放角度的可靠性。

步骤六：用户输入生理参数得到用户HRTF的个性化定制。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

如图1所示，本发明的实施例1提出了基于生理参数和人工头数据的个性化HRTF生成方法。具体包括以下步骤：

步骤一：对每一俯仰角每一方位角下的HRIR进行256点的傅里叶变换，并取前129个点的频谱得到俯仰角-方位角-频率的三维幅度谱。为了保证HRTF幅度谱的连续性，防止数据突变，将所有俯仰角下的所有方位以螺旋方式重新排列，最终得到空间方位-频率的二维幅度谱。对数据库中每位受试者全空间的时延值也是做同样的位置重排。生理参数包括：头部、耳廓、颈部和躯干等共计27个生理参数。其中头部生理参数分别包括：头宽、头高、头深、耳廓向后偏移量、耳廓向下偏移量、颈宽、颈高、颈深、躯干顶部宽度、躯干顶部高度、躯干顶部深度、肩宽、头部向前偏移量、身高、坐高、头围和肩围；分别对应图2(a)中的x1～x17，耳廓生理参数分别包括：耳甲腔高度、外耳艇高度、耳甲腔宽度、耳蜗高度、耳廓高度、耳廓宽度、裂间切口宽度、耳甲腔深度、耳廓旋转角度、耳廓张角，分别对应图2(b)的d₁～d₈,θ₁,θ₂。人工头数据包括：空间上1250个方位的HRIR数据，。

步骤二：由于生理参数特征之间差异较大对生理参数进行归一化处理以便加速梯度下降求最优解的速度，归一化方式如公式(1)所示。

式中，x_i表示数据库中所有人的第i项生理参数向量，

和

分别表示x_i的均值和方差。

步骤三：将数据集划分为两部分，分别是训练集和测试集。将编号为153的受试者作为测试集，其他受试者的数据作为训练集。

步骤四：设计预测幅度谱的神经网络结构。首先将归一化后的生理参数经过两层多层感知网络(Multilayer Perception)进行非线性特征提取，其中激活函数是ELU函数。然后将生理参数的非线性特征与人工头HRTF幅度谱结合输入到U-Net网络中训练得到从生理参数到HRTF幅度谱的神经网络模型。U-Net是一种全卷积神经网络，本文使用卷积层和反卷积层的堆叠结构，以五层卷积层和五层反卷积层为例，卷积层与反卷积层参数如表1所示。预测幅度谱的神经网络具体架构如图3所示。将幅度谱重排成二维图片使用卷积神经网络映射生理参数与幅度谱之间的关系。空间上重排数据为了防止数据在空间上的突变对网络训练带来难度。

表1 U-Net网络参数

步骤五：设计预测ITD的网络，将归一化后的生理参数输入到图4的网络中，训练数据得到从生理参数到ITD的神经网络模型。考虑到空间位置上ITD可能存在的关联性本文对空间位置进行参数化结合注意力机制使用transformer神经网络预测全空间的ITD。将全空间ITD看做整体，使用神经网络直接学习和推断生理参数与全空间ITD的关系。

步骤六：将算法预测的幅度谱与时延按照步骤二中的方式重排回原空间顺序。

步骤七：对预测的幅度谱取对数，利用希尔伯特变换得到HRTF最小相位部分。神经网络预测的ITD作为纯时延部分并结合最小相位部分根据最小相位模型得到双耳脉冲响应函数。

步骤八：用户输入生理参数通过本文的算法模型得到用户个性化的HRTF。

步骤八：设计主观实验来验证本文方法对虚拟声源定位性能的提升能力。实验中重放声采用0.5-15kHz的宽带白噪源，宽带噪声由两组200ms的高斯白噪声组成，中间间隔100ms的静默音。十名听力正常的志愿者参与了本次主观实验，共四个平面上的定位实验，分别是俯仰角为0和33.75°的水平面上以及方位角等于0和-20°的垂直面。分别用原始数据库的HRTF、人工头HRTF和本文方法恢复的HRTF卷积宽带噪声源重放得到三组虚拟源，让志愿者判断人工头和本文方法得到的虚拟源的空间提示方位哪个更接近原始数据库得到的虚拟源空间方位。实验中使用电脑扬声器和头戴式耳机对志愿者进行放音。

实施例2

基于实施例1的方法，本发明的实施例2提出了一种基于生理参数和人工头数据的个性化HRTF生成系统，具体包括：

数据获取模块、预处理模块、结果输出模块和HRTF生成模型；其中，

数据获取模块，用于获取待测试者的生理参数和人工头数据；

预处理模块，用于对生理参数进行预处理；

结果输出模块，用于将预处理后的生理参数与人工头数据输入预先建立和训练好的HRTF生成模型，得到该测试者的头相关传递函数HRTF；

HRTF生成模型，用于分别生成幅度谱和时延部分，对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分，再与时延部分结合经转换得到头相关传递函数HRTF。

HRTF生成模型包括幅度谱生成模块、最小相位计算模块、时延生成模块和输出模块；其中，

幅度谱生成模块，用于根据输入的预处理后的生理参数以及人工头数据，输出幅度谱；

最小相位计算模块，用于对幅度谱依次进行取对数运算和希尔伯特变换，得到HRTF的最小相位部分；

时延生成模块，用于根据输入的预处理后的生理参数，输出HRTF的时延部分；

输出模块，用于对HRTF的最小相位部分和时延部分经乘积运算后得到头相关传递函数HRTF。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于生理参数和人工头数据的个性化HRTF生成方法，所述方法包括：

获取待测试者的生理参数和人工头数据；

所述HRTF生成模型，用于分别生成幅度谱和时延部分，对幅度谱经取对数运算和希尔伯特变换得到HRTF的最小相位部分，再与时延部分结合经转换得到头相关传递函数HRTF；

所述HRTF生成模型包括幅度谱生成模块、最小相位计算模块、时延生成模块和输出模块；其中，

所述输出模块，用于对HRTF的最小相位部分和时延部分经乘积运算后得到头相关传递函数HRTF；

所述时延生成模块结合注意力机制采用transformer神经网络。

2.根据权利要求1所述的基于生理参数和人工头数据的个性化HRTF生成方法，其特征在于，所述生理参数包括：头部、耳廓、颈部和躯干相关生理参数，人工头数据包括：空间上若干个方位的HRIR数据。

3.根据权利要求1或2所述的基于生理参数和人工头数据的个性化HRTF生成方法，其特征在于，所述预处理包括：

对生理参数数据进行归一化处理；

对归一化处理后的生理参数进行非线性特征的提取。

4.根据权利要求1所述的基于生理参数和人工头数据的个性化HRTF生成方法，其特征在于，所述幅度谱生成模块采用U-Net网络，包括卷积层和反卷积层的堆叠结构，激活函数为ELU函数。

5.根据权利要求1所述的基于生理参数和人工头数据的个性化HRTF生成方法，其特征在于，所述方法还包括幅度谱生成模块和时延生成模块的训练步骤；具体包括：

分别建立带有幅度谱标签的幅度谱训练集以及带有双耳时延差ITD值标签的ITD训练集；

6.根据权利要求5所述的基于生理参数和人工头数据的个性化HRTF生成方法，其特征在于，分别建立幅度谱训练集和ITD训练集；具体包括：

从CIPIC数据库中分别提取对应的HRIR、ITD和生理参数数据；

对生理参数数据进行归一化处理；

7.一种基于生理参数和人工头数据的个性化HRTF生成系统，其特征在于，所述系统包括：数据获取模块、预处理模块、结果输出模块和HRTF生成模型；其中，

所述预处理模块，用于对生理参数进行预处理；

所述时延生成模块结合注意力机制采用transformer神经网络。