CN110751281A

CN110751281A - 一种基于卷积自编码器的头相关传输函数建模方法

Info

Publication number: CN110751281A
Application number: CN201910991100.8A
Authority: CN
Inventors: 胡瑞敏; 陈玮; 王晓晨; 柯善发; 张灵鲲; 李罡; 张锐; 胡晨昊; 吴玉林
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-04
Anticipated expiration: 2039-10-18
Also published as: CN110751281B

Abstract

本发明提供了一种HRTF的低维表达与重建技术方案，该技术利用卷积神经网络提取HRTF中与听觉定位线索相关的频谱特征，从而建立了基于卷积自编码器的HRTF低维表达方法。在进行HRTF的低维表达时，首先对原始HRTF数据进行移除前端时延、时‑频变换、空间方位插值、数据标准化等预处理操作，然后将数据输入HRTF的卷积自编码器得到包含听觉定位特征的低维表达数据。在进行HRTF的重建时，将听觉定位特征的低维表达输入解码器进行解码，然后对输出数据进行数据反标准化、数据抽样、时‑频变换、补充双耳间时间差等后处理操作实现HRTF的重建。本发明能够有效的提取听觉定位线索特征并对特征之间的复杂非线性关系进行表达，从而提高HRTF的低维表达和重建精度。

Description

一种基于卷积自编码器的头相关传输函数建模方法

技术领域

本发明涉及数字音频信号处理领域中的双耳三维音频技术领域，具体涉及渲染双耳三维音频所需的头相关传输函数的低维表达和重建方法。

背景技术

三维音频技术能够呈现出逼真的三维声场效果，从而灵活表现音源对象的空间方位。传统的基于多声道技术的三维音频技术多应用于大型影院、会议场所等场景，由于该技术是通过大量扬声器实现三维声场的重建，因此具有配置复杂、应用场景固定、具有最佳听音区域的限制等缺点。

双耳三维音频技术是利用人耳的听觉原理实现三维声场呈现的技术，其原理在于人仅通过双耳即可感知音源对象的空间方位，因此如果能够重现人双耳处的声音信息即可实现逼真的三维音频效果。该技术仅需要使用双声道耳机即可呈现三维声效果，具有设备简单、实现方便的特点，尤其适用于手机、VR眼镜等小型设备。

头相关传输函数(Head Related Transfer Function，简称HRTF)描述了声音信号从给定空间位置传输入人双耳过程中受到躯干、头部、耳廓等人体部位的遮挡、反射等声学作用而产生的影响。因此，利用HRTF可以模拟出不同空间方位的音源信号传输到人双耳时的状态，进而模拟出逼真的双耳三维音效果。双耳三维音频技术既是一种利用HRTF实现三维声场呈现的技术。

HRTF中含有大量影响人耳听觉定位的线索信息，如何在保留这些听觉定位线索的同时，对HRTF进行压缩表达是双耳三维音频技术的关键内容。现有的HRTF建模方法多通过使用主成分分析(Principal Component Analysis，PCA)对HRTF中进行主成分的提取，进而利用主成分信息对原始HRTF进行低维表达和重建。然而基于PCA的降维方法本质上属于线性降维方法，即通过低维特征的线性组合实现对原始信号的重建，该类方法对于HRTF中低维特征间的复杂非线性关系难以进行表达，从而导致HRTF的重建效果不理想。

发明内容

本发明提出一种HRTF的高效低维表达与重建的技术方案，该技术利用基于卷积神经网络提取HRTF中听觉定位线索相关的频谱特征，从而建立基于卷积自编码器的HRTF低维表达方法。该方案可以运用于HRTF的压缩存储、多HRTF库融合、HRTF个性化等双耳三维声技术领域。

一种基于卷积自编码器的头相关传输函数建模方法，包括HRTF的降维表达和HRTF的重建两个部分，其中HRTF的降维表达包括以下步骤：

步骤A1：对输入的HRTF信号H进行预处理操作，移除原始HRTF信号的前端时延信息得到

步骤A2：对步骤A1得到的

数据信号进行时域-频域变化，并通过加窗处理截取得到人耳听觉频谱范围内的HRTF频谱信息

步骤A3：对A2得到的信息根据其对应的空间方位进行插值处理，得到连续空间方位的HRTF频谱图信息G；

步骤A4：对步骤A3得到的数据信号G进行数据标准化处理，得到具有一致取值范围区间的HRTF频谱图信息

步骤A5：将步骤A4得到的数据信号

传入卷积自编码器的编码器模块中，得到HRTF听觉定位线索的低维特征表达结果R；

HRTF的重建包含以下步骤：

步骤B1：将HRTF的低维表达信息输入卷积自编码器的解码器模块中，得到重建后的HRTF频谱图信息

步骤B2：将重建后的HRTF频谱图信息

进行反标准化处理，得到HRTF频谱图信息G′；

步骤B3：对步骤B2得到的HRTF频谱图信息G′进行抽样，得到所需空间方位对应的HRTF信息

步骤B4：对HRTF信息

进行时-频变换，还原成时域信号

步骤B5：对步骤B4得到的信息补充双耳间时间差信息，从而得到重建的HRTF数据H′；

其中，卷积自编码器包括卷积及池化处理模块、全连接神经网络模块、反向全连接神经网络模块和反卷积及反池化处理模块，前两个模块为编码器模块，后两个模块为解码器模块。

进一步的，所述卷积及池化处理模块包括卷积层、激活层和池化层，用于使用卷积神经网络对HRTF中的内在听觉定位线索特征进行提取，并获得听觉定位线索特征的权重值；

所述全连接神经网络模块包括若干个全连接层，用于对卷积及池化处理模块中提取所得的听觉定位线索特征进行进一步的低维表达处理，得到HRTF听觉定位线索特征的低维表达结果；

所述反向全连接神经网络模块包括若干个全连接层，该模块用于对全连接神经网络模块所得的听觉定位线索特征的低维表达进行解码，重建出HRTF中的内在听觉定位线索特征；

所述反卷积及反池化处理模块包括反池化层、反卷积层和激活层，用于从反向全连接神经网络模块中的HRTF听觉定位线索特征重建HRTF数据。

进一步的，步骤A1的具体实现方式如下，

首先计算输入信号H的最小相位An：

An＝-imag(hilbert(log(abs(fft(H)))))

其中，fft()为求解傅里叶变换操作，abs()为求解绝对值操作，log()为求解对数操作，hilbert()为求解希尔伯特变换操作，imag()为求解复数域操作；

然后通过最小相位求解对应的去冗余信号

其中，i为单位虚数，exp()为求解指数操作，ifft()为求解逆傅里叶变换操作，real()为求解实数域操作。

进一步的，步骤A2的具体实现方式如下，

将原始信号

重采样为48kHz采样率，并使用汉宁窗截取为256个采样点，之后使用快速傅里叶变换进行时域-频域变换，并选取其中频谱范围200Hz～18kHz的频谱成分进行下一步处理。

进一步的，步骤A3中通过线性插值得到连续空间方位的HRTF频谱图信息G，具体实现方式如下，

对于空间位置(x₁，y₁)的HRTF信息H₁以及空间位置(x₂，y₂)的HRTF信息H₂，其在空间位置(x，y)的HRTF信息H计算方式如下：

其中，S₁和S₂分别为待插值HRTF所在空间位置距离已知两个HRTF空间位置的距离，它们的计算方式如下：

进一步的，步骤A4中标准化的具体实现方式如下，

其中x为待处理数据信号G中的数据样点值，min为待处理数据信号G中的数据样点极小值，max为待处理数据信号G中的数据样点极大值，经过标准化之后，HRTF的频谱图取值范围将落于[0，1]区间内。

进一步的，步骤B2中反标准化的具体实现方式如下，

其中

为重建后HRTF频谱图信息

中的数据样点值，min为原始HRTF频谱信号的统计极小值，max为原始HRTF频谱信号的统计极大值。

进一步的，步骤B4的具体实现方式如下，

首先求解HRTF信息

的最小相位信息An′：

其中，log()为求解对数操作，hilbert()为求解希尔伯特变换操作，imag()为求解复数域操作，然后，利用最小相位近似计算HRTF的时域信息

进一步的，步骤B5的具体实现方式如下，

其中，ITD为双耳间时间差，a为用户的头部半径的统计值，c为声音的传播速度，θ为声源的水平方位角。

与现有的基于主成分分析(PCA)的HRTF表达方法相比，本发明的性能优势在于：

1.利用了卷积神经网络具有非线性特征表达的能力，能够对HRTF中复杂听觉定位线索特征进行表达，提高了对HRTF的内在特征的表达能力；

2.基于深度神经网络的卷积自编码器具有强健的数据泛化能力，能够同时兼容多种来源的HRTF数据集样本从而获得更理想的HRTF表达能力。

附图说明

为了更清楚地说明本实施例中的技术方案，下面将对实施例描述中所需要使用的附图进行简要介绍。下面描述中的附图是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的卷积自编码器模型结构框图。

图2是本发明实施例的HRTF表达方法编/解码流程图。

图3为本发明实施例中声源的水平方位角示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

参照图1，本发明提供一种用于HRTF表达的卷积自编码器模型，该模型包括模块1：编码器的HRTF卷积及池化处理模块、模块2：编码器的HRTF全连接神经网络模块、模块3：解码器的HRTF反向全连接神经网络模块、模块4：解码器的HRTF反卷积及反池化处理模块。

所述模块1：编码器的HRTF卷积及池化处理模块，用于对输入的HRTF数据通过卷积神经网络提取其中内含的听觉定位线索特征以及定位线索特征的权重值(即字典，字典里记录了每种特征应该被如何使用，包括在哪里重建，权重是多少等)，并利用池化技术对提取的听觉定位线索特征进行压缩处理，从而实现对HRTF中听觉定位线索特征的提取。在具体实施时，可以串联多个该类型模块实现对HRTF中听觉定位线索特征的多级提取，从而提升模型整体的特征表达效果。在本样例中，采用了2级串联实现听觉定位线索特征的提取。

所述模块2：编码器的HRTF全连接神经网络模块，用于对所得的听觉定位线索特征进行进一步的低维表达处理，从而得到听觉定位线索特征的低维表达。在具体实施中，该全连接网络可以根据需要配置为不同的深度。在本样例中，采用了3层全连接网络进行听觉定位线索特征的低维表达。

所述模块3：解码器的HRTF反向全连接神经网络模块，该模块用于对听觉定位线索特征的低维表达进行解码，重建出HRTF中的内在听觉定位线索特征。该操作可以被认为是模块2的逆向操作，具体实施中该全连接神经网络可以配置为不同的深度，而不一定必须与模块2一致。在本样例中，采用了3层全连接网络对听觉定位线索特征的低维表达进行解码。

所述模块4：解码器的HRTF反卷积及反池化处理模块，该模块用于从HRTF听觉定位线索特征重建HRTF数据。该操作可以被认为是模块1的逆向操作，具体实施中应当根据模块1的数量配置相应数量的该类型模块，在本样例中采用了2级串联实现由听觉定位线索特征重建HRTF数据。

参照图2，本发明提出的一种基于卷积自编码器的头相关传输函数重建方法，其中包含了两大类步骤，一类为头相关传输函数低维表达方法的实施步骤，一类为头相关传输函数的重建方法实施步骤。

该预处理操作目的在于移除原始HRTF在采集过程中由于声音传播导致的时延信息。一种典型的处理方案为通过最小相位近似计算移除HRTF的时延冗余信息，具体做法如下：

首先计算输入信号H的最小相位An：

An＝-imag(hilbert(log(abs(fft(H)))))

其中，fft()为求解傅里叶变换操作，abs()为求解绝对值操作，log()为求解对数操作，hilbert()为求解希尔伯特变换操作，imag()为求解复数域操作。

然后通过最小相位求解对应的去冗余信号

应该注意的是，此处列举的移除冗余信号的预处理方案只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

步骤A2：对步骤A1得到的

数据信号进行时域-频域变化，并加窗截取得到符合人耳听觉频谱范围的HRTF频谱信息

在具体实施中，该部分操作可以根据具体情况对输入数据进行升采样或降采样处理，并通过加窗对频谱信息进行修正处理。一种典型配置方案为将原始信号重采样为48kHz采样率，并使用汉宁窗截取为256个采样点，之后使用快速傅里叶变换进行时域-频域变换，并选取其中频谱范围200Hz～18kHz的频谱成分进行下一步处理。

应该注意的是，此处规定的采样率、窗函数类型以及频谱范围只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

步骤A3：对A2得到的信息根据各HRTF的空间方位进行插值处理，得到连续空间方位的HRTF频谱图信息G。

在具体实施中，一种典型的HRTF插值策略为线性插值，具体来说对于空间位置(x₁，y₁)的HRTF信息H₁以及空间位置(x₂，y₂)的HRTF信息H₂，其在空间位置(x，y)的HRTF信息H计算方式如下：

在具体实施中，一种典型的标准化方法为：

其中x为待处理数据信号G中的数据样点值，min为待处理数据信号G中的数据样点极小值，max为待处理数据信号G中的数据样点极大值。经过标准化之后，HRTF的频谱图取值范围将落于[0，1]区间内。

步骤A5：将骤A4得到的数据信号

传入卷积自编码器的编码器模块中，得到HRTF的听觉定位线索低维特征表达结果R。

具体来讲，得到的结果R中含有两部分数据：一部分为HRTF中频谱特征字典数据R_d，一部分为HRTF中听觉定位线索的低维特征压缩数据R_z。在进行HRTF的解码重建时，应当将该两部分数据同时输入到对应解码重建模块。

在进行HRTF的重建时具体的步骤如下，

步骤B1：将HRTF的低维表达信息(包含HRTF中频谱特征字典数据R_d，和HRTF中听觉定位线索的低维特征压缩数据R_z)输入卷积自编码器的解码器模块中，得到重建后的HRTF频谱图信息

步骤B2：将重建后的HRTF频谱图信息

进行反标准化处理，得到HRTF频谱图信息G′。

在具体实施中，本示例对应于步骤A4的反标准化方法为：

其中

为重建后HRTF频谱图信息

步骤B4：对HRTF信息

进行时-频变换，还原成时域信号

具体实施中，一种典型的时-频变换方法为利用HRTF的最小相位特性进行最小相位近似求解其时域信号，具体的计算方法为，首先求解HRTF信息

的最小相位信息An′：

其中，log()为求解对数操作，hilbert()为求解希尔伯特变换操作，imag()为求解复数域操作。然后，利用最小相位近似计算HRTF的时域信息

步骤B5：对步骤B4得到的

信息补充双耳间时间差信息，从而得到重建的HRTF数据H′。

具体实施中，一种典型的计算双耳间时间差信息的方法为：

其中，a为用户的头部半径的统计值(0.07m)，c为声音的传播速度(340m/s)，θ为声源的水平方位角(见图3)。

应该注意的是，此处规定用户头部半径的统计值，以及声音传播速度的取值只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

与现有HRTF低维表达方法相比，本发明具有的积极效果是：

本发明将卷积自编码器用于提取HRTF频谱特征中的听觉定位线索信息，利用卷积网络能够表达特征间非线性关系的特性对HRTF中的定位线索特征进行表达，提高了HRTF的低维表达精度。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于卷积自编码器的头相关传输函数建模方法，其特征在于：包括HRTF的降维表达和HRTF的重建两个部分，其中HRTF的降维表达包括以下步骤：

步骤A2：对步骤A1得到的

步骤A3：对A2得到的

信息根据其对应的空间方位进行插值处理，得到连续空间方位的HRTF频谱图信息G；

步骤A5：将步骤A4得到的数据信号

HRTF的重建包含以下步骤：

步骤B2：将重建后的HRTF频谱图信息

进行反标准化处理，得到HRTF频谱图信息G′；

步骤B4：对HRTF信息

进行时-频变换，还原成时域信号

步骤B5：对步骤B4得到的

信息补充双耳间时间差信息，从而得到重建的HRTF数据H′；

2.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法，其特征在于：

所述卷积及池化处理模块包括卷积层、激活层和池化层，用于使用卷积神经网络对HRTF中的内在听觉定位线索特征进行提取，并获得听觉定位线索特征的权重值；

3.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法，其特征在于：步骤A1的具体实现方式如下，

首先计算输入信号H的最小相位An：

An＝-imag(hilbert(log(abs(fft(H)))))

然后通过最小相位求解对应的去冗余信号

4.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法，其特征在于：步骤A2的具体实现方式如下，

将原始信号

5.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法，其特征在于：步骤A3中通过线性插值得到连续空间方位的HRTF频谱图信息G，具体实现方式如下，

6.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法，其特征在于：步骤A4中标准化的具体实现方式如下，

7.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法，其特征在于：步骤B2中反标准化的具体实现方式如下，

其中

为重建后HRTF频谱图信息

8.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法，其特征在于：步骤B4的具体实现方式如下，

首先求解HRTF信息

的最小相位信息An′：

9.如权利要求1所述的一种基于卷积自编码器的头相关传输函数建模方法，其特征在于：步骤B5的具体实现方式如下，