CN114067832B

CN114067832B - 一种头相关传输函数的预测方法、装置和电子设备

Info

Publication number: CN114067832B
Application number: CN202111332717.2A
Authority: CN
Inventors: 姚鼎鼎; 赵佳乐; 李军锋; 郭小朝; 刘庆峰; 颜永红
Original assignee: Air Force Specialty Medical Center of PLA
Current assignee: Air Force Specialty Medical Center of PLA
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2024-05-14
Anticipated expiration: 2041-11-11
Also published as: CN114067832A

Abstract

本申请涉及一种头相关传输函数(HRTF)的预测方法，包括：将被试的生理参数与HRTF的角度输入自动编码器进行编码，得到混合向量特征；将所述混合向量特征输入映射模型得到对应的HRTF幅度谱特征；所述映射模型为深度神经网络；将所述HRTF幅度谱特征输入变分自动编码器进行解码，获得个性化HRTF幅度谱，实现个性化HRTF的预测。能够通过深度学习方法建立生理参数、角度与HRTF频域特性之间的联系，使得给定期望方向和对应生理参数即可生成对应的个性化HRTF，实现个性化HRTF的快速预测。

Description

一种头相关传输函数的预测方法、装置和电子设备

技术领域

本申请涉及空间音频技术领域，尤其涉及一种头相关传输函数的预测方法、装置和电子设备。

背景技术

头相关传输函数(head related transfer function，HRTF)在空间音频技术中具有重要的作用。HRTF表征了声波由声源经过头部、耳廓和躯干等生理结构到达人耳鼓膜的过程。不同个体生理参数的差异性导致其HRTF各不相同，在空间音频重放中使用个性化的HRTF可以有效提升重放效果。然而，个性化HRTF通常需要在消声环境下利用特制设备进行测量，且非常耗时，这导致个性化HRTF难以真正应用。目前，广泛采用生理参数的相似性从已有的HRTF数据库中选择或者利用生理参数合成HRTF来得到个性化HRTF。由于HRTF的生成过程过于复杂，传统方法难以很好地表征不同方向的声源传播过程中与人体各个生理参数之间物理过程，因此很多方法尝试利用深度学习的方法建立人体生理参数和HRTF之间的关系，以合成新受试者的HRTF。目前，大多数的HRTF个性化生成方法都只能生成特定方向的HRTF，导致个性化HRTF生成系统过于复杂、占用内存资源大，从而限制其在空间音频重放中的应用。

发明内容

为了解决上述问题，本申请提出了一种头相关传输函数预测方法、装置和电子设备。

为实现上述目的，第一方面本申请实施例提供了一种头相关传输函数的预测方法包括：将被试的生理参数与HRTF的角度输入自动编码器进行编码，得到混合向量特征；将所述混合向量特征输入映射模型得到对应的HRTF幅度谱特征；所述映射模型为深度神经网络；将所述HRTF幅度谱特征输入变分自动编码器进行解码，获得个性化HRTF幅度谱，实现个性化HRTF的预测。

作为一种可行的实施方式，所述自动编码器包括第一编码器和第一解码器，所述方法包括训练自动编码器的步骤，包括：获得由训练集内的生理参数和HRTF角度组成的混合向量；将所述混合向量输入所述自动编码器进行训练，得到训练好的自动编码器；其中，所述第一编码器包括1层输入层和3层隐藏层，用于获得所述HRTF角度和被试生理参数的压缩表达，提取所述混合向量特征；所述第一解码器包括3层隐藏层和1层输出层组成，用于根据所述混合向量特征复原所述生理参数和HRTF角度；所述自动编码器的瓶颈向量为一维数组。

作为一种可行的实施方式，所述获得由训练集内的HRTF角度和生理参数组成的混合向量，包括：获得训练集内由HRTF水平角、俯仰角、25维生理测量参数组成的混合向量；其中所述25维生理测量参数包括头高、头宽、头深、耳廓上边距、耳廓前边距、脖高、脖宽、脖深、上躯体宽、肩宽、身高、头围、肩围、耳甲腔高、耳甲艇高、耳甲腔宽、三角窝高、耳廓高、耳廓宽、耳屏间切迹、耳甲腔前深、耳甲腔后深、耳轮脚横凸高、耳廓旋转角、耳廓斜张角。

作为一种可行的实施方式，所述变分自动编码器包括第二编码器和第二解码器，所述方法包括训练变分自动编码器的步骤，包括：根据数据库中的多个头相关冲激响应得到多个频域的HRTF；根据所述多个频域的HRTF计算每个频点的幅度值获得所述多个HRTF幅度谱；将所述多个HRTF幅度谱输入所述变分自动编码器进行训练得到训练好的变分自动编码器；其中，所述第二编码器包括1层输入层和5层隐藏层，用于获得所述多个HRTF幅度谱的压缩表达从而提取幅度谱特征；所述第二解码器包括5层隐藏层和1层输出层，用于根据所述幅度谱特征还原所述多个HRTF幅度谱；使得所述变分自动编码器的瓶颈向量服从正太分布。

作为一种可行的实施方式，所述方法包括所述映射模型的训练步骤，包括：以训练集内的生理参数与HRTF的角度为输入，通过自动编码器提取混合向量的特征；以所述训练集内的生理参数与HRTF的角度对应的HRTF幅度谱特征为输出，通过深度神经网络对所述混合向量的特征和HRTF幅度谱特征进行匹配，建立HRTF幅度谱与HRTF角度、被试生理参数之间的映射关系；得到训练好的映射模型，包括1层输入层、7层隐藏层和1层输出层。

第二方面，本申请实施例提供了一种头相关传输函数(HRTF)的预测装置，包括：自动编码器，用于将被试的生理参数与HRTF的角度输入自动编码器进行编码，得到混合向量特征；映射模型，用于将所述混合向量特征输入映射模型得到对应的HRTF幅度谱特征；所述映射模型为深度神经网络；变分自动编码器，用于将所述HRTF幅度谱特征输入变分自动编码器进行解码，获得个性化HRTF幅度谱，实现个性化HRTF的预测。

第三方面，本申请实施例提供了一种电子设备，包括：至少一个存储器，用于存储程序；和至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如第一方面任一所述的方法。

第四方面，本申请实施例提供了一种存储介质，所述存储介质中存储有指令，当所述指令在终端上运行时，使得第一终端执行如第一方面任一所述的方法。

本申请利用已有HRTF数据库中数据，通过深度学习方法建立生理参数、角度与HRTF频域特性之间的联系，使得给定期望方向和对应生理参数即可生成对应的个性化HRTF，实现个性化HRTF的快速预测。

在传统方法中，测量HRTF需要若干小时且要求专业的大型设备，而测量生理参数只需要十多分钟即可。本申请实施例通过对已经测量过HRTF的被试者进行分析，建立其HRTF与生理测量参数、角度之间的模型。因此，对于新的被试者而言，只需要简单测量其生理参数就可以预测对应的HRTF，提高了个性化HRTF生成系统的运算效率。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种头相关传输函数预测方法的流程图；

图2为本申请实施例提供的一种头相关传输函数预测装置示意图；

图3为本申请的实施例提供的一种电子设备示意图。

具体实施方式

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

图1为本申请实施例提供的一种头相关传输函数预测方法的流程图。如图1所示的头相关传输函数预测方法，具体实现步骤如下S101-S103。

S101，将被试的生理参数与HRTF的角度输入自动编码器进行编码，得到混合向量特征。

S102，将所述混合向量特征输入映射模型得到对应的HRTF幅度谱特征；所述映射模型为深度神经网络。

S103，将所述HRTF幅度谱特征输入变分自动编码器进行解码，获得个性化HRTF幅度谱，实现个性化HRTF的预测。

在一个可行的实施方式中，在执行步骤S101之前，需要从训练集中选取HRTF角度和生理参数，由HRTF角度和生理参数组成的混合向量，进行混合向量的特征提取和还原，训练自动编码器。

在一个可行的实施方式中，可以将训练集中由HRTF水平角、俯仰角、25维生理测量参数组成的混合向量输入层数为8的自动编码器，进行训练。

在一个可行的实施方式中，25维生理测量参数包括头高、头宽、头深、耳廓上边距、耳廓前边距、脖高、脖宽、脖深、上躯体宽、肩宽、身高、头围、肩围、耳甲腔高、耳甲艇高、耳甲腔宽、三角窝高、耳廓高、耳廓宽、耳屏间切迹、耳甲腔前深、耳甲腔后深、耳轮脚横凸高、耳廓旋转角、耳廓斜张角。

在一个可行的实施方式中，所采用的自动编码器由编码器和解码器两部分组成，通过编码器可以获得所述HRTF角度和被试生理参数的压缩表达，提取所述混合向量特征，再通过解码器，根据所述混合向量特征复原生理参数和HRTF角度，其中编码器由1层输入层和3层隐藏层组成，解码器由3层隐藏层和1层输出层组成，该自动编码器的瓶颈向量为一维数组。可以将自动编码器由编码器和解码器记为第一编码器和第一解码器。

在一个可行的实施方式中，在执行步骤S102之前，需要从训练集中选取不同的全空间HRTF幅度谱，进行HRTF幅度谱的特征提取和还原，从而训练变分自动编码器。

在一个可行的实施方式中，训练集可以是数据库，可以对数据库中不同被试的所有头相关冲激响应进行傅里叶变换，得到对应的多个频域形式HRTF，计算多个频域形式HRTF上每个频点的幅度值，利用每个频点的幅度值对层数为12的变分自动编码器进行训练。

在一个可行的实施方式中，变分自动编码器由编码器和解码器两部分组成，通过编码器可以学出对原数据的压缩表达，再通过解码器复原出原数据，其中编码器由1层输入层和5层隐藏层组成，解码器由5层隐藏层和1层输出层组成。可以将变分自动编码器由编码器和解码器记为第二编码器和第二解码器。

在一个可行的实施方式中，变分自动编码器的瓶颈向量服从正太分布。

在一个可行的实施方式中，可以利用训练好的变分自动编码器的解码器和自动编码器的编码器部分对相关输入数据进行特征提取。

在一个可行的实施方式中，在执行步骤S103之前，通过深度神经网络对混合向量的特征和HRTF幅度谱特征进行匹配，从而建立HRTF幅度谱与HRTF角度、被试生理参数之间的映射关系。

在一个可行的实施方式中，可以利用深度神经网络建立混合向量的特征和HRTF幅度谱特征之间的映射关系，由自动编码器的第一编码器部分、映射模型、变分自动编码器的第二解码器部分组成HRTF角度、被试生理参数与HRTF幅度谱的映射。

在一个可行的实施方式中，可以以训练集内的生理参数与HRTF的角度为输入，通过自动编码器提取混合向量的特征；以训练集内的生理参数与HRTF的角度对应的HRTF幅度谱为输出，通过深度神经网络对混合向量的特征和HRTF幅度谱特征进行匹配，建立HRTF幅度谱与HRTF角度、被试生理参数之间的映射关系，得到训练好的映射模型，所述映射模型包括由1层输入层、7层隐藏层和1层输出层。

在一个可行的实施方式中，基于深度神经网络的映射模型由1层输入层、7层隐藏层和1层输出层组成；自动编码器的第一编码器实现对输入角度和生理参数进行特征提取，基于深度神经网络的映射模型实现输入角度、生理参数与HRTF幅度谱特征的匹配，变分自动编码器的第二解码器实现利用深度神经网络输出的特征合成目标个性化HRTF幅度谱。

自动编码器的编码器、基于深度神经网络的映射模型、变分自动编码器的解码器实现由所述HRTF角度、被试生理参数到HRTF幅度谱之间映射关系。

对已给定被试的生理参数与期望合成HRTF的角度，即可通过自动编码器的编码器部分得到混合向量特征，之后经过映射模型得到对应HRTF幅度谱特征，最后通过变分自动编码器的解码器部分生成目标个性化HRTF幅度谱，实现个性化HRTF的预测。

在传统方法中，测量HRTF需要若干小时且要求专业的大型设备，而测量生理参数只需要10多分钟即可。本申请实施例通过对已经测量过HRTF的被试者进行分析，建立其HRTF与生理测量参数、角度之间的模型。因此，对于新的被试者而言，只需要简单测量其生理参数就可以预测对应的HRTF。

本申请实施例利用已有HRTF数据库中数据，通过深度学习方法建立生理参数、角度与HRTF频域特性之间的联系，使得给定期望方向和对应生理参数即可生成对应的个性化HRTF，实现个性化HRTF的快速预测。

图2为本申请实施例提供一种头相关传输函数(HRTF)的预测装置，如图2所示，包括：自动编码器21，用于将待测的生理参数与HRTF的角度输入自动编码器21进行编码，得到混合向量特征；映射模型22，用于将所述混合向量特征输入映射模型22得到对应的HRTF幅度谱特征；映射模型22为深度神经网络；变分自动编码器23，用于将所述HRTF幅度谱特征输入变分自动编码器23进行解码，获得个性化HRTF幅度谱，实现个性化HRTF的预测。

图3为本申请的实施例提供的一种电子设备，如图3所示，包括：至少一个存储器1102，用于存储程序；和至少一个处理器1101，用于执行存储器存储的程序，当存储器存储1102的程序被执行时，处理器1101用于执行上述任一实施例的方法。

本申请实施例提供一种存储介质，所述存储介质中存储有指令，当所述指令在终端上运行时，使得第一终端执行如上述任一实施例所述的方法。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种头相关传输函数(HRTF)的预测方法，其特征在于，包括：

将被试的生理参数与HRTF的角度输入自动编码器进行编码，得到混合向量特征；

将所述混合向量特征输入映射模型得到对应的HRTF幅度谱特征；所述映射模型为深度神经网络；

将所述HRTF幅度谱特征输入变分自动编码器进行解码，获得个性化HRTF幅度谱，实现个性化HRTF的预测。

2.根据权利要求1所述的头相关传输函数的预测方法，其特征在于，所述自动编码器包括第一编码器和第一解码器，所述方法包括训练自动编码器的步骤，包括：

获得由训练集内的生理参数和HRTF角度组成的混合向量；

将所述混合向量输入所述自动编码器进行训练，得到训练好的自动编码器；

其中，所述第一编码器包括1层输入层和3层隐藏层，用于获得所述HRTF角度和被试生理参数的压缩表达，提取所述混合向量特征；所述第一解码器包括3层隐藏层和1层输出层组成，用于根据所述混合向量特征复原所述生理参数和HRTF角度；所述自动编码器的瓶颈向量为一维数组。

3.根据权利要求2所述的头相关传输函数的预测方法，其特征在于，所述获得由训练集内的HRTF角度和生理参数组成的混合向量，包括：获得训练集内由HRTF水平角、俯仰角、25维生理测量参数组成的混合向量；其中所述25维生理测量参数包括头高、头宽、头深、耳廓上边距、耳廓前边距、脖高、脖宽、脖深、上躯体宽、肩宽、身高、头围、肩围、耳甲腔高、耳甲艇高、耳甲腔宽、三角窝高、耳廓高、耳廓宽、耳屏间切迹、耳甲腔前深、耳甲腔后深、耳轮脚横凸高、耳廓旋转角、耳廓斜张角。

4.根据权利要求1所述的头相关传输函数的预测方法，其特征在于，所述变分自动编码器包括第二编码器和第二解码器，所述方法包括训练变分自动编码器的步骤，包括：

根据数据库中的多个头相关冲激响应得到多个频域的HRTF；

根据所述多个频域的HRTF计算每个频点的幅度值获得所述多个HRTF幅度谱；

将所述多个HRTF幅度谱输入所述变分自动编码器进行训练得到训练好的变分自动编码器；

其中，所述第二编码器包括1层输入层和5层隐藏层，用于获得所述多个HRTF幅度谱的压缩表达从而提取幅度谱特征；所述第二解码器包括5层隐藏层和1层输出层，用于根据所述幅度谱特征还原所述多个HRTF幅度谱；使得所述变分自动编码器的瓶颈向量服从正太分布。

5.根据权利要求1所述的头相关传输函数的预测方法，其特征在于，所述方法包括所述映射模型的训练步骤，包括：

以训练集内的生理参数与HRTF的角度为输入，通过自动编码器提取混合向量的特征；

以所述训练集内的生理参数与HRTF的角度对应的HRTF幅度谱特征为输出，通过深度神经网络对所述混合向量的特征和HRTF幅度谱特征进行匹配，建立HRTF幅度谱与HRTF角度、被试生理参数之间的映射关系；得到训练好的映射模型，包括1层输入层、7层隐藏层和1层输出层。

6.一种头相关传输函数(HRTF)的预测装置，其特征在于，包括：

自动编码器，用于将被试的生理参数与HRTF的角度输入自动编码器进行编码，得到混合向量特征；

映射模型，用于将所述混合向量特征输入映射模型得到对应的HRTF幅度谱特征；所述映射模型为深度神经网络；

变分自动编码器，用于将所述HRTF幅度谱特征输入变分自动编码器进行解码，获得个性化HRTF幅度谱，实现个性化HRTF的预测。

7.一种电子设备，其特征在于，包括：

至少一个存储器，用于存储程序；和

至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1-5任一所述的方法。

8.一种存储介质，所述存储介质中存储有指令，当所述指令在终端上运行时，使得第一终端执行如权利要求1-5任一所述的方法。