CN102939771A

CN102939771A - 用于依照形态参数在数据库中选择感知最优的hrtf滤波器的方法

Info

Publication number: CN102939771A
Application number: CN2011800288066A
Authority: CN
Inventors: 布莱恩·Fg·卡茨; 大卫·舍恩斯坦
Original assignee: Centre National de la Recherche Scientifique CNRS; Arkamys SA
Current assignee: Centre National de la Recherche Scientifique CNRS; Arkamys SA
Priority date: 2010-04-12
Filing date: 2011-04-12
Publication date: 2013-02-20
Anticipated expiration: 2031-04-12
Also published as: KR20130098149A; US20130046790A1; JP2013524711A; EP2559265B1; WO2011128583A1; EP2559265A1; CN102939771B; FR2958825A1; US8768496B2; KR101903192B1; JP5702852B2; FR2958825B1

Abstract

本发明涉及一种用于依照形态参数在数据库中选择感知最优的HRTF的方法。所述方法使用：第一数据库，其包括多个受试者M的HRTF；第二数据库，其包括受试者的形态参数；以及第三数据库，其与HRTF的感知分类相应。依照本发明，通过将第二数据库和第三数据库相关拣选N个最有关的形态参数。创建多维空间，该多维空间依照HRTF在第三数据库中的分类优化这些HRTF之间的空间间隔，从而获得优化的空间。计算优化的投影模型MPO，该投影模型适合于将K个最优的形态参数与优化的空间中的HRTF滤波器的相应位置相关。本发明因此对于其HRTF不包含在数据库中的任何用户允许依照所述用户的参数K和优化的投影模型MPO从数据库BD1中选择至少一个HRTF。

Description

用于依照形态参数在数据库中选择感知最优的HRTF滤波器的方法

技术领域

本发明涉及一种依照形态参数在数据库中选择HRTF滤波器的方法。特别地，本发明旨在确保为特定用户选择的HRTF的可靠性。

背景技术

本发明在双耳合成应用领域中具有特别有利的应用，该领域涉及为双耳生成空间化的声音。因此，本发明用于例如电话会议、助听器、用于视障人士的助听设备、3D音频/视频游戏、移动电话、移动音频播放器、虚拟现实音频以及增强现实。

人类具有利用声学传递函数从入射声音中解码方向信息的能力。听者的头、外耳和身体借助于所称的头相关传递函数（HRTF）变换来自空间中的声音的谱信息，这允许我们基于声源的位置、距离等感知我们的声学环境并且从而定位它们。

HRTF滤波器由描述身体对给定位置处的声源的滤波的一对滤波器（左和右）组成。公认的是，一组大约200个位置足以描述个人感知的空间中的所有方向。这些HRTF滤波器基本上取决于耳朵的形态（尺寸、内腔的维度等等）以及个人身体的其他物理参数。

在本文的其余部分，术语“HRTF”代表给定受试者的用于所有HRTF型位置的滤波器。

在音频应用中使用最可能接近听者的HRTF滤波器的HRTF可以实现高质量再现（render）。文献中的若干研究证明了所谓的个性化HRTF的益处（例如参见发表于音频工程学会日报Journal of the Audio Engineering Society:44,451-469上的Moller等人的文章“双耳技术：我们需要个人录音吗？”“Binaural technique:do we need individual recordings?”），尤其是在位置检测精度方面的益处。

HRTF滤波器可以通过利用听者耳朵中的麦克风进行测量或者甚至通过数字仿真而获得。尽管这些方法的性能尚可，但是它们仍然非常乏味、非常昂贵并且不适合消费应用。

而且，文件WO-01/54453中描述的一种已知方法规定在数据库中选择与用户的HRTF最接近的HRTF。然而，不同于本发明的是，这种在统计学方面有效的方法没有将HRTF选择的感知质量作为验证标准，因而没有选择最佳的可能的HRTF。

发明内容

因此，本发明的新颖性在于以下事实：使用基于感知聆听测试的感知评估标准来创建优化的HRTF多维空间并且选择最相关的形态参数。本发明也允许开发建立空间和形态参数之间的与感知有关的相关性的预测模型。

对于任何用户而言，本发明将允许仅使用形态参数的测量来选择数据库中包含的最适当的HRTF。

选择的HRTF滤波器与空间感知强烈相关（并且不仅仅是一种数学计算），这提供了很好的舒适性和声音质量。

因此，本发明涉及一种用于依照形态参数在数据库中选择感知最优的HRTF的方法，该方法使用：

-第一数据库，其包括多个受试者的HRTF，

-第二数据库，其包括来自第一数据库的受试者的形态参数，

其中该方法进一步使用

-第三数据库，其与使用聆听测试执行的考虑到受试者的判断的、来自第一数据库的HRTF的感知分类相应，所述聆听测试与来自第一数据库的不同HRTF相应，

并且其中该方法包括以下步骤：

-通过将第二数据库和第三数据库相关在来自第二数据库的所有形态参数之间拣选N个最有关的形态参数，

-创建其维度是HRTF分量的组合的结果的多维空间，

-修改用于组合分量的规则以便依照其在第三数据库中的分类优化这些HRTF之间的空间间隔，从而获得优化的多维空间，

-计算优化的投影模型，该投影模型适合于将提取自第二数据库的K个拣选的形态参数与优化空间中的HRTF的相应位置相关，所述K个提取的参数优化所述投影模型，

-测量在第一数据库中没有HRTF的给定用户的K个形态参数，

-将先前计算的优化投影模型应用到提取的形态参数以便获得用户在优化空间中的位置，

-在优化空间中选择用户投影位置附近的至少一个HRTF。

依照一个实施例，为了执行感知分类，受试者在其对于相应于HRTF的声音的至少一个聆听标准的判断中具有至少两个选择（好或者差）。

依照一个实施例，例如从限定的声音路径的精度、总体空间质量、前面再现质量（用于位于前面的声音对象）以及前面/后面源的间隔（能够识别声音对象位于听者前面还是听者后面）之中选择聆听标准。

依照一个实施例，为了开发第三数据库：

-呈现声音信号，在该声音信号上将来自第一数据库的每个HRTF（包括受试者自身的HRTF）应用到每个受试者，

-用于测试的声音信号为通过汉宁窗获得的具有诸如0.23秒之类的短持续时间的宽带白噪声，

-在沿着按顺序呈现的两条轨线的点位置处再现声音信号：

-水平面（仰角=0度）内特别地增量为30度的圆，该轨线在0度方位角和0度仰角下开始，

-路径被重复一次，

-中垂面（方位角=0度）内特别地增量为15度的从前面-45度仰角向上通过90度仰角至后面-45的弧，

-声音路径在-45度仰角下开始向前，继续到所述后面的仰角并且然后沿着相同的路径返回到开始位置。

依照一个实施例，为了进行第二数据库和第三数据库之间的相关以便获得拣选的形态参数，

-形态数据借助于通过将来自第二数据库的形态值除以来自第二数据库的每个受试者的形态值创建子数据库而被归一化，

-对于相应的受试者将每个子数据库与来自第三数据库的分类关联，

-应用支持向量机（SVM）方法以便获得从最高到最低排序的形态参数，该排序为依照第三数据库中的类别的每个HRTF参数的分离质量的函数。

依照一个实施例，为了创建优化的多维空间，

-在第一步骤中，将HRTF转换成方向传递函数（DTF），所述方向传递函数仅包含具有方向依赖性的HRTF部分，

-在第二步骤中，对DTF进行平滑，

-在第三步骤中，对DTF进行预处理，

-在第四步骤中，变换数据维度以便根据使用的数据减少或者增加维度的数量，所述使用的数据是前一步骤的结果，

-在减少数据维度的选项中，在处理的DTF上执行主分量分析（PCA）以便获得代表原始数据投影到新轴（主分量）上的原始数据的新数据矩阵（评分），以及

-从代表多维空间的维度的评分矩阵的每列创建多维空间，或者

-在增加数据维度的选项中，使用多维缩放（MDS）创建多维空间，

-在第五步骤中，通过来自第三数据库的分类的空间间隔的显著水平评估优化水平，

-利用不同的预处理参数和/或通过限制创建的多维空间中的维度数量重复先前的步骤，以及

-保留具有最优的优化水平的空间。

依照一个实施例，依照听觉系统的频率分辨率极限执行DTF的临界频带平滑。

依照一个实施例，使用以下方法之一执行预处理：频率滤波、划定频率范围、提取频率峰和谷，或者计算频率调整因子。

依照一个实施例，通过以下方式评估优化水平：

-通过第三数据库中的分类之间的空间间隔的显著水平，该显著水平例如通过使用ANOVA测试评估，或者

-通过计算最高类别中排序的HRTF在空间EM中十个最接近的HRTF之间的百分比并且通过对于每个受试者使用例如学生测试将该百分比与高类别中排序的HRTF在第三数据库中的总百分比进行比较。

依照一个实施例，为了计算用于将提取自第二数据库的所述N个形态参数与优化空间中HRTF的相应位置相关的投影模型：

-在第一步骤中，通过优化的多维空间与排序的形态参数之间的多次线性回归以便根据来自第二数据库的排序的形态参数找到优化的多维空间中的位置，计算投影模型，

-在第二步骤中，评估投影模型的质量水平，

-在第三步骤中，将排序的形态参数的数量减少为前K个排序的形态参数，并且根据每个K的质量度量的第一和第二步骤从K等于1至K等于N重复模型的计算，该计算对于每个受试者进行重复，将其数据从第一数据库和第二数据库中移除，以及

-保留对于其而言质量水平最高的最优K。

依照一个实施例，为了在优化的多维空间中选择用户投影位置附近的至少一个HRTF，选择优化的多维空间中最接近该投影位置的HRTF。

附图说明

当阅读以下描述并且研究伴随它的附图时，将更好地理解本发明。这些附图仅仅被提供用于说明的目的并且对于本发明不是限制性的。它们示出：

图1：依照本发明的方法的功能框的框图；

图2：本发明一个实施例的详细实现的实例的框图；

图3：沿着水平轴示出受试者并且沿着竖直轴示出第三数据库中排序的HRTF的图形；

图4：来自CIPIC数据库上的文章的示出该数据库中使用的各种不同的形态参数的示意性表示。

从一幅图到下一幅图，相同、相似或者类似的元素保持相同的附图标记。

具体实施方式

数据库的创建

对于多个受试者，将麦克风置于受试者的耳朵中，并且将声源散布在空间中的各个不同的点上，以便确定每个受试者的HRTF。对于每个受试者也测量形态参数。第一数据库BD1包含HRTF，并且第二数据库BD2包含关联受试者的形态参数。

在我们的实例中，存储在第一数据库BD1中的HRTF出自来自LISTEN项目的公共数据库。来自该数据库中的前M个受试者的数据被使用（在一个实例中，M=45）。LISTEN HRTF测量在空间中的与范围从-45度到90度、增量为15度的仰角以及开始于0度、增量为15度的方位角相应的位置处进行。对于总共187个位置而言，针对超过45度的仰角逐渐增加方位角增量以便均匀地采样所述空间。

如图4中所示，第二数据库BD2包括每个受试者的以下形态参数：

x1：头宽度；

x2：头高度；

x3：头深度；

x4：耳廓向下偏移；

x5：耳廓向后偏移；

x6：颈宽度；

x7：颈高度；

x8：颈深度；

x9：躯干顶部宽度；

x0：躯干顶部高度；

x11：躯干顶部深度；

x12：肩宽；

x13：头围；

x14：肩围；

d1：耳甲腔高度；

d2：耳甲艇高度；

d3：耳甲腔宽度；

d4：窝高度；

d5：耳廓高度；

d6：耳廓宽度；

d7：耳屏间切迹宽度；

d8：耳甲腔深度；

耳廓旋转角度；

耳廓角度参数。

存储在第二数据库BD2中的这些形态参数与受试者的HRTF相应。

而且，在步骤E1中，创建第三数据库BD3，其包含来自聆听测试的感知评价结果。对于每个受试者，发射测试信号，在该测试信号上应用了来自数据库BD1的HRTF。

在一个实例中，用于测试的声音信号为通过汉宁（Hanning）窗获得的具有诸如0.23秒之类的短持续时间的宽带白噪声，

-在沿着按顺序呈现的两条轨线的点位置处再现声音信号：

-路径被重复一次，

每个受试者将所述HRTF中的每一个分类成以下三个类别之一：优、良或者差。优被认为是最高的判断类别。这些判断基于与HRTF相应的用于聆听声音的至少一个标准。该标准可以选自以下实例之一：先前限定的路径的精度、总体空间质量、前面再现质量（用于位于前面的声音对象）以及前面/后面源的间隔（能够识别声音对象位于听者前面还是听者后面）。

图3示出了对于所有受试者利用这种类型的聆听测试获得的结果类型（“+”为优，“o”为良并且“x”为差）。受试者在水平轴上示出，并且排序的HRTF在竖直轴上示出。

重要形态参数的选择

如图1和图2中所示，在步骤E2中，为了选择重要的形态参数，将第二数据库BD2与第三数据库BD3相关。

为此目的，在子步骤E2.1中，形态数据通过创建子数据库BD2i（i范围从1至M，M为数据库中受试者的数量）而被归一化，该子数据库BD2i通过将来自第二数据库BD2的形态值除以第二数据库中的每个受试者的形态值BD2[i]来创建。利用该归一化（normalization），所述值代表一个受试者的形态参数相对于另一个受试者的形态参数的百分比。

在子步骤E2.2中，将每个子数据库BD2i与相应的受试者的第三数据库中的分类BD3[i]关联。

接着，在子步骤E2.3中，应用特征选择方法以便获得从最高到最低排序的形态参数Pmc。该分类基于它们依照它们在第三数据库BD3中的分类分离HRTF的能力。

所选择的方法为支持向量机（SVM）方法。该方法基于在高维空间中构造一组超平面以便对归一化的数据分类。利用该方法，因而从最高到最低对参数排序。

两个变量控制利用SVM的分类。控制分析中的分类误差容限的复杂度值C引入惩罚函数。C的空值表明未考虑惩罚函数，并且C的高值（无限地增大C）表明惩罚函数是占优势的。Epsilon值ε为在要分类的数据距离超平面小于ε的情况下将惩罚函数设置为零的不敏感值。形态参数的分类依照C和ε的不同值而改变。在C=1和ε=1x10^-25的情况下使用这种方法，在我们的实例中，从最高到最低排序的Pmc的前十个最高元素为x11、x2、x8、d5、x3、d4、x12、d2、d1和x6。

优化的多维空间的创建

在步骤E3中，创建其维度由来自HRTF滤波器的分量的组合而产生的多维空间EM。

为此目的，在第一步骤E3.1中，将HRTF转换成所称的方向传递函数（DTF），所述方向传递函数仅仅包含具有方向依赖性的HRTF部分。

在步骤E3.2中，依照听觉系统的频率分辨率极限对DTF进行临界频带平滑。

在步骤E3.3中，使用从以下选择的方法对DTF进行预处理：频率滤波、划定频率范围、提取频率的峰值和谷值，或者计算频率调整因子（frequency alignment factor）。

在步骤E3.4中，变换数据维度以便根据使用的数据减少或者增加维度的数量，所述使用的数据是步骤E3.3的结果。

为了减少数据维度，在处理的DTF上执行主分量分析（PCA）以便获得代表投影到新轴（主分量）上的原始数据的新数据矩阵（评分），并且从代表空间EM的维度的评分矩阵的每列创建空间EM。

为了增加数据维度，在处理的DTF上使用多维缩放（multidimensional scaling，MDS）分析，得到空间EM。

在步骤E3.5中，评估优化水平。在第一实例中，通过来自第三数据库BD3的分类之间的空间间隔的显著水平评估优化水平。在一个实例中，通过使用ANOVA测试以检查值分布平均对于每个不同的维度数量是否在统计上不同来评估显著水平。

在第二实例中，计算最高类别中排序的HRTF在空间EM中十个最接近的HRTF之间的百分比，并且对于每个受试者使用例如学生测试将该百分比与高类别中排序的HRTF在第三数据库中的总百分比进行比较。

利用不同的预处理参数和/或通过限制创建的空间中的维度数量重复先前的步骤。

保留具有最优的优化水平的空间。该空间在我们的实例中是具有最高显著水平的一个空间，或者在第二实例中是对于最接近的十个HRTF而言在最高类别中排序的HRTF的数量最大化的一个空间。

这样保留的空间是优化的多维空间EMO。

步骤E3.5的目的是依照其在第三数据库BD3中的分类优化HRTF之间的空间间隔以便获得优化的空间。事实上，在空间EMO中，对于给定位置处的受试者而言，位于该位置附近的区域中的HRTF对于该受试者将被认为是好的，而远离该位置的HRTF将被认为是差的。

换言之，用于组合HRTF分量的规则被改变以便最大化HRTF之间的空间间隔与第三数据库BD3中的HRTF的分类之间的相关性。

投影模型的开发

在步骤E4中，计算用于将提取自第二数据库BD2的所述N个形态参数与优化空间EMO中相应HRTF的位置相关的投影模型。

为此目的，在步骤E4.1中，使用第二数据库BD2通过EMO和Pmc之间的多次线性回归计算投影模型，以便基于排序的形态参数Pmc找到空间EMO中的位置。

在步骤E4.2中，评估投影模型的质量水平。该质量水平通过使用E3.5中使用的相同方法来计算。

在步骤E4.3中，将Pmc减少为前K个排序形态参数，并且根据每个K的质量度量的步骤E4.1和步骤E4.2从K等于1至K等于N重复模型的计算。优选地，对于每个受试者通过在步骤E3中将该受试者的数据从第一数据库BD1和第二数据库BD2中移除而重复该计算。

保留对于其而言质量水平最高的最优K。因此，K个提取的参数最大化了优化的多维空间EMO与由投影模型产生的空间之间的相关性。

这提供了优化的投影模型MPO。

方法的实现

在步骤E5中，在数据库BD1中，为在该数据库中没有HRTF的任何用户选择至少一个HRTF。

为此目的，在子步骤E5.1中，用户测量先前识别的K个形态参数。为此目的，用户在确定的位置拍摄其耳朵的照片，所述K个参数通过图像处理方法提取。

在步骤E5.2中，将这K个参数作为来自先前计算的投影模型MPO的输入注入提取的形态参数中，以便获得用户在优化空间EMO中的位置。

然后，在优化空间中的用户投影位置附近选择至少一个HRTF（标记为HRTF-S）。在一个实例中，选择最接近投影位置的HRTF。

Claims

1.一种用于依照形态参数在数据库中选择感知最优的HRTF的方法，该方法使用：

-第一数据库（BD1），其包括多个受试者的HRTF，

-第二数据库（BD2），其包括来自第一数据库（BD1）的受试者的形态参数，

其中该方法进一步使用

-第三数据库（BD3），其与使用聆听测试执行的考虑到受试者的判断的、来自第一数据库（BD1）的HRTF的感知分类相应，所述聆听测试与来自第一数据库的不同HRTF相应，

并且其中该方法包括以下步骤：

-通过将第二数据库（BD2）和第三数据库（BD3）相关在来自第二数据库（BD2）的所有形态参数之间拣选N个最有关的形态参数，

-创建其维度是HRTF分量的组合的结果的多维空间（EM），

-修改用于组合分量的规则以便最大化这些HRTF之间的空间间隔与这些HRTF在第三数据库（BD3）中的分类之间的相关性，从而获得优化的多维空间（EMO），

-计算优化的投影模型（MPO），该投影模型适合于将提取自第二数据库（BD2）的K个拣选的形态参数与优化空间（EMO）中的HRTF的相应位置相关，所述K个提取的参数最大化优化的多维空间（EMO）与由投影模型产生的空间之间的相关性，

-测量在第一数据库（BD1）中没有HRTF的给定用户的K个形态参数，

-将先前计算的优化投影模型（MPO）应用到提取的形态参数以便获得用户在优化空间（EMO）中的位置，

-在优化空间（EMO）中选择用户投影位置附近的至少一个HRTF（HRTF-S）。

2.依照权利要求1的方法，其中为了执行感知分类，受试者在其对于相应于HRTF的声音的至少一个聆听标准的判断中具有至少两个选择（好或者差）。

3.依照权利要求2的方法，其中例如从限定的声音路径的精度、总体空间质量、前面再现质量（用于位于前面的声音对象）以及前面/后面源的间隔（能够识别声音对象位于听者前面还是听者后面）之中选择聆听标准。

4.依照权利要求1-3之一的方法，其中为了开发第三数据库（BD3）：

-在沿着按顺序呈现的两条轨线的点位置处再现声音信号：

-路径被重复一次，

5.依照权利要求1-4之一的方法，其中为了进行第二数据库（BD2）和第三数据库（BD3）之间的相关以便获得拣选的形态参数，

-形态数据借助于通过将来自第二数据库（BD2）的形态值除以来自第二数据库的每个受试者的形态值（BD2[i]）创建子数据库（BD2i）而被归一化，

-对于相应的受试者将每个子数据库（BD2i）与来自第三数据库的分类（BD3[i]）关联，

-应用支持向量机（SVM）方法以便获得从最高到最低排序的形态参数（Pmc），该排序为依照第三数据库中的类别的每个HRTF参数的分离质量的函数。

6.依照权利要求5的方法，其中为了创建优化的多维空间（EMO），

-在步骤E 3.1中，将HRTF转换成方向传递函数（DTF），所述方向传递函数仅包含具有方向依赖性的HRTF部分，

-在步骤E 3.2中，对DTF进行平滑，

-在步骤E 3.3中，对DTF进行预处理，

-在步骤E3.4中，变换数据维度以便根据使用的数据减少或者增加维度的数量，所述使用的数据是步骤E3.3的结果，

-在减少数据维度的选项中，在处理的DTF上执行主分量分析（PCA）以便获得代表原始数据投影到新轴（主分量）上的新数据矩阵（评分），以及

-从代表空间EM的维度的评分矩阵的每列创建空间EM，或者

-在增加数据维度的选项中，使用多维缩放（MDS）创建空间EM，

-在步骤E 3.5中，通过来自第三数据库BD3的分类之间的空间间隔的显著水平评估优化水平，

-利用不同的预处理参数和/或通过限制创建的空间EM中的维度数量重复先前的步骤，以及

-保留具有最优的优化水平的空间。

7.依照权利要求6的方法，其中依照听觉系统的频率分辨率极限执行DTF的临界频带平滑。

8.依照权利要求6或7的方法，其中使用以下方法之一执行预处理：频率滤波、划定频率范围、提取频率峰和谷，或者计算频率调整因子。

9.依照权利要求6-8之一的方法，其中通过以下方式评估优化水平：

-通过第三数据库（BD3）中的分类之间的空间间隔的显著水平，该显著水平例如通过使用ANOVA测试评估，或者

-通过计算最高类别中排序的HRTF在空间EM中十个最接近的HRTF之间的百分比并且通过对于每个受试者使用例如学生测试将该百分比与最高类别中排序的HRTF在第三数据库（BD3）中的总百分比进行比较。

10.依照权利要求1-9之一的方法，其中为了计算用于将提取自第二数据库的所述N个形态参数与优化空间中HRTF的相应位置相关的投影模型：

-在步骤E4.1中，通过EMO与Pmc之间的多次线性回归以便根据来自第二数据库（BD2）的排序的形态参数Pmc找到空间EMO中的位置，计算投影模型，

-在步骤E4.2中，评估投影模型的质量水平，

-在步骤E4.3中，将Pmc减少为前K个排序的形态参数，并且根据每个K的质量度量的模型E4.1和步骤E4.2从K等于1至K等于N重复模型的计算，该计算对于每个受试者进行重复，将其数据从第一数据库（BD1）和第二数据库（BD2）中移除，以及

-保留对于其而言质量水平最高的最优K。

11.依照权利要求1-10之一的方法，其中为了在优化的空间（EMO）中选择用户投影位置附近的至少一个HRTF（HRTF-S），选择优化的空间（EMO）中最接近该投影位置的HRTF。