CN106535043A

CN106535043A - 一种基于生理特征的全频段3d虚拟声定制方法及装置

Info

Publication number: CN106535043A
Application number: CN201611024222.2A
Authority: CN
Inventors: 钟小丽
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2017-03-22
Anticipated expiration: 2036-11-18
Also published as: CN106535043B

Abstract

本发明公开了一种基于生理特征的全频段3D虚拟声定制方法，该方法利用头部和耳廓的生理相似性，分别定制出符合听者听觉特征的低频和高频的头相关传输函数，并采用逐渐过渡合成的方法得到全频段头相关传输函数，进一步将其应用于双耳虚拟声信号的合成。相应的实现装置包括图像获取模块、运算控制模块、虚拟声播放模块。本发明优化了定制所需的生理参数，采用一个头部生理参数和四个耳廓生理参数便可实现全频段的头相关传输函数定制。将上述双耳虚拟声信号用耳机重发，可以减小定位误差、提高听者的沉浸感。

Description

一种基于生理特征的全频段3D虚拟声定制方法及装置

技术领域

本发明涉及3D虚拟声技术领域，具体涉及一种基于生理特征的3D虚拟声定制的方法及装置，其生成为满足个体听觉特性的虚拟声。

背景技术

随着三维(3D)电视、电影以及虚拟现实(virtual reality，VR)技术的发展，3D虚拟声技术成为多媒体和消费电子领域的研究热点。顾名思义，虚拟声技术是采用信号处理的方法形成虚拟的声源(或声像)，从而使听者获得和真实声源相同的主观感受。头相关传输函数(head-related transfer function,HRTF)是虚拟声算法的核心；它表征了声波从声源到双耳的传输过程中，人体生理器官(如头部、耳廓)对声波的改变。HRTF是声源空间方位的函数；当声源位于一个特定空间方位时，声波到达双耳的传播途径对应一对HRTF(左右耳各一)。由于不同听者具有个性化生理形态(如头部大小、耳廓微结构)，所以HRTF是一个因人而异的个性化物理量。现有研究表明，为了获得高沉浸感的虚拟重放效果，虚拟声合成需要采用听者自己的个性化HRTF数据。个性化HRTF可以通过实验室测量或数值计算获取。然而，这两种方法都需要专业设备且非常耗时，很难将其应用到实际的虚拟声产品中。实际的虚拟声产品往往采用固定的非个性化HRTF数据，因而存在定位精度偏低、前后声像混乱率高等缺陷。

个性化生理特征是形成个性化HRTF的根源，两者具有一定的对应性，故可以借助生理特征的相似性，找到和听者个性化HRTF最相似的HRTF数据，作为定制的HRTF数据。这就是基于生理特征的个性化HRTF定制的基本思路，其基本实现步骤为：(1)测量听者生理参数；(2)计算听者生理参数和已有HRTF数据库(即基线数据库)中每个受试者的相似度；(3)挑选相似度最大的受试者为最相似受试者；(4)采用最相似受试者的HRTF数据作为听者的最相似HRTF数据，实现听者个性化HRTF的定制。虽然上述定制(或最相似)HRTF和个性化HRTF存在一定的细节差异，但由于人类有限的听觉分辨能力，这些细节差异通常不会导致听觉差异。现有的相关研究主要是Zotkin等的工作(D.N.Zotkin et al.“HRTFpersonalization using anthropometric measurements”,in Proceedings of the2003IEEE Workshop on Applications of Signal Processing to Audio andAcoustics,157-160,2003)。Zotkin等从照片中提取出七个耳廓生理参数，通过耳廓参数的相似度比较，找到听者的最相似HRTF，进行虚拟声合成。相应的心理声学实验结果表明该方法可以明显改善非个性化虚拟声的缺陷，增强听者的沉浸感。然而，现有研究存在以下不足：(1)Zotkin的工作选取了基线数据库中已有的七个耳廓参数，没有对其进行筛选，所以定制所需的生理参数的数目尚未优化；(2)现有工作仅限于耳廓作用明显的高频(5kHz以上)，缺乏全频段(人类听觉频段为0～20kHz)的定制HRTF的获取策略。这些不足制约了基于生理特征的虚拟声技术的发展和相关产品性能的进一步提高。

发明内容

本发明为解决上述现有基于生理特征的3D虚拟声技术中存在的缺陷，提供一种基于生理特征的全频段3D虚拟声定制方法及装置。本发明提供从已有的HRTF基线数据库中，通过五个头部和耳廓的生理特征的相似度计算和分析，找出听者全频段(包括低频和高频)的定制HRTF数据进行虚拟声合成。该方法可在全频段实现虚拟声效果的提升，包括定位精度的提高和前后混乱率的下降。

本发明的目的通过以下技术方案实现。

一种基于生理特征的全频段3D虚拟声定制方法，包括如下步骤：

步骤1、输入初始数据，包括原始单通路信号、基线HRTF数据库、耳机均衡响应；

步骤2、采用拍摄装置获取听者头部和耳廓的图像，利用软件从中提取出五个生理参数，包括一个头部生理参数和四个耳廓生理参数，所述的头部生理参数为两耳屏间宽，所述的四个耳廓生理参数为耳甲腔高度、耳甲腔宽度、耳前后偏转角、耳凸起角；

步骤3、通过生理参数的相似度分析，从基线HRTF数据库中找出听者的低频最相似HRTF数据和高频最相似HRTF数据分别作为低频段的定制HRTF数据和高频段的定制HRTF数据，将两者进行组合，得到听者全频段的定制HRTF数据；

步骤4、将全频段的定制HRTF数据、原始单通路信号、耳机均衡响应依次进行时间域卷积处理或等价地频率域滤波处理，得到合成的双耳虚拟声信号，输出到耳机进行重放。

进一步地，步骤1中的所述基线HRTF数据库包含受试者HRTF数据和生理参数测量数据，例如美国加利福尼亚大学戴维斯分校CIPIC数据库、中国华南理工大学中国人样本HRTF数据库。

进一步地，所述基线HRTF数据库包括美国加利福尼亚大学戴维斯分校CIPIC数据库、中国华南理工大学中国人样本HRTF数据库。

进一步地，步骤3具体包括：

步骤301、将听者和基线数据库中受试者的所述四个耳廓生理参数代入

(1)式中P_n(n＝1,2,3,4)分别表示听者的所述四个耳廓生理参数(耳甲腔高度、耳甲腔宽度、耳前后偏转角、耳凸起角)；P'_n(n＝1,2,3,4)分别表示基线数据库中受试者的所述四个耳廓生理参数(耳甲腔高度、耳甲腔宽度、耳前后偏转角、耳凸起角)；σ_n表示基线数据库全体受试者生理参数n的标准差；E_high就是在耳廓作用明显的高频段，听者和基线数据库中受试者的生理参数偏差；重复步骤301，得到听者和基线数据库中每个受试者的E_high；

步骤302、挑选E_high最小值所对应的受试者，从基线HRTF数据库中取其频率为4kHz≤f≤20kHz的高频HRTF数据H_high，作为高频段的定制HRTF；

步骤303、将听者和基线数据库中受试者的所述头部生理参数代入

(2)式中q和q'分别表示听者和基线数据库中受试者的所述头部生理参数(两耳屏间宽)；σ表示基线数据库全体受试者所述头部生理参数(两耳屏间宽)的标准差；E_low就是在头部作用明显的低频段，听者和基线数据库中受试者的生理参数偏差；重复步骤303，得到听者和基线数据库中每个受试者的E_low；

步骤304、挑选E_low最小值所对应的受试者，从基线HRTF数据库中取其频率为0Hz≤f≤5kHz的低频HRTF数据H_low，作为低频段的定制HRTF；

步骤305、因上述H_high和H_low未必取自同一个受试者，故采用频率为4kHz≤f≤5kHz的过渡区取几何平均值的方法，获得听者全频段的定制HRTF数据H_full，即：

步骤306、对左、右耳分别实施步骤301～步骤305，得到双耳的全频段定制HRTF数据。

上述H_high和H_low可能取自两个不同的受试者A和B。因此，为了得到全频段定制HRTF数据，需要分别截取受试者A的全频段HRTF数据的高频部分H_high和受试者B的全频段HRTF数据的低频部分H_low，并将两者在频率域进行组合。此时，在实施组合的频率处极易出现HRTF特征(包括相位和幅度)的突变，引起听觉感知畸变，导致声像不自然、不易定位的现象。为了克服上述缺陷，公式(3)中在组合的频率处设置了平滑过渡区，过渡区中的HRTF取H_high和H_low的几何平均值。如果对H_high和H_low的几何平均值取对数，就得到(lgH_low+lgH_high)/2。也就是说，这里的几何平均值对应对数域上的算数平均值。考虑到人耳的听觉感知和信号的对数幅度密切相关，因此这里过渡区采用几何平均值是符合听觉特性的。

一种用于实现所述方法的装置，包括：

图像获取模块，用于拍摄听者正面、背面、左侧面(含左耳)、右侧面(含右耳)的图像；

运算控制模块，用于从已有的HRTF基线数据库中，通过五个头部和耳廓的生理特征的相似度计算和分析，找出听者全频段(包括低频和高频)的定制HRTF数据进行虚拟声合成；

虚拟声播放模块，由声卡和耳机组成，用于播放合成的虚拟声信号。

进一步地，所述的运算控制模块包括：

生理参数提取模块，用于从图像获取模块拍摄的图像中提取出五个生理参数，包括一个头部生理参数和四个耳廓生理参数，所述的头部生理参数为两耳屏间宽，所述的四个耳廓生理参数为耳甲腔高度、耳甲腔宽度、耳前后偏转角、耳凸起角；

HRTF定制模块，通过生理参数的相似度分析，从基线HRTF数据库中找出听者的低频最相似HRTF数据和高频最相似HRTF数据分别作为低频段的定制HRTF数据和高频段的定制HRTF数据，将两者进行组合，得到听者全频段的定制HRTF数据；

虚拟声信号合成模块，用于将全频段的定制HRTF数据、原始单通路信号、耳机均衡响应依次进行时间域卷积处理或等价地频率域滤波处理，得到合成的双耳虚拟声信号，输出到耳机进行重放。

本发明的原理是：HRTF反映了生理结构和声波的相互作用；只有当生理尺寸和声波波长比较接近时，生理结构对声波的作用才显著。因此，对于波长较长的低频声波，头部参数对HRTF的影响显著；而对于波长较短的高频声波，耳廓参数对HRTF的影响显著。由于高质量的虚拟声重放需要采用和听者生理形态相符的HRTF数据进行信号处理，所以本发明提出分别根据头部和耳廓参数的相似性，从基线HRTF数据库中寻找听者的低频和高频定制HRTF数据，进而获得听者全频段的定制HRTF数据。通常，基线HRTF数据库包含多个头部和耳廓生理参数，我们统计分析了不同生理参数之间的相关性，从中挑选出一个头部生理参数(两耳屏间宽)和四个耳廓生理参数(耳甲腔高度、耳甲腔宽度、耳前后偏转角、耳凸起角)进行上述基于生理特征的全频段3D虚拟声定制。

本发明与现有技术相比，具有如下优点和有益效果：

1.本发明采用全频段的定制HRTF进行虚拟声合成，可进一步提高定位准确性，减少前后虚拟声像的混淆，增强3D虚拟声重放的沉浸感。

2.本发明仅采用五个头部和耳廓的生理参数进行HRTF定制。由于生理参数数量减少，相应的生理参数提取和相似性分析的过程得到简化，便于实际应用。

3.本发明可采用算法语言编制的软件在多媒体计算机上实现，也可以采用通用信号处理芯片(DSP硬件)电路或专用的集成电路实现，用于各种便携式播放设备包括智能手机、虚拟现实等方面的声音重放。

附图说明

图1是本发明实施例的原理图；

图2是头部和耳廓的五个生理参数示意图；

图3是本发明实施例的模块连接示意图；

图4是本发明实施例的多媒体计算机实现的信号流程图。

具体实施方式

下面结合附图对本发明作进一步的说明，但本发明要求保护范围并不局限于实施例表示的范围。

图1是本发明的基于生理特征的全频段3D虚拟声定制方法的原理方框图。它分别采用头部参数和耳廓参数的相似度分析，获取低频和高频的定制HRTF，进一步采用逐渐过渡合成的方法得到全频段定制HRTF。采用全频段定制HRTF合成的虚拟声信号，其重放效果优于现有技术，表现为听者定位准确性的提高以及沉浸感的增强。

具体而言，本实施例所述基线HRTF数据库包含受试者HRTF数据和生理参数测量数据，例如美国加利福尼亚大学戴维斯分校CIPIC数据库、中国华南理工大学中国人样本HRTF数据库。

具体而言，所述步骤3具体包括：

步骤301、将听者和基线数据库中受试者的四个耳廓生理参数代入

(1)式中P_n(n＝1,2,3,4)分别表示听者的四个耳廓生理参数(耳甲腔高度、耳甲腔宽度、耳前后偏转角、耳凸起角)；P'_n(n＝1,2,3,4)分别表示基线数据库中受试者的四个耳廓生理参数(耳甲腔高度、耳甲腔宽度、耳前后偏转角、耳凸起角)；σ_n表示基线数据库全体受试者生理参数n的标准差；E_high就是在耳廓作用明显的高频段，听者和基线数据库中受试者的生理参数偏差；重复步骤301，得到听者和基线数据库中每个受试者的E_high；

步骤302、挑选E_high最小值所对应的受试者，从基线HRTF数据库中取其高频HRTF数据H_high(4kHz≤f≤20kHz)，作为高频段的定制HRTF；

(2)式中q和q'分别表示听者和基线数据库中受试者的头部生理参数(两耳屏间宽)；σ表示基线数据库全体受试者头部生理参数(两耳屏间宽)的标准差；E_low就是在头部作用明显的低频段，听者和基线数据库中受试者的生理参数偏差。重复步骤303，得到听者和基线数据库中每个受试者的E_low；

步骤304、挑选E_low最小值所对应的受试者，从基线HRTF数据库中取其低频HRTF数据H_low(0Hz≤f≤5kHz)，作为低频段的定制HRTF；

步骤305、因上述H_high和H_low未必取自同一个受试者，故采用过渡区(4kHz≤f≤5kHz)取几何平均值的方法，获得听者全频段的定制HRTF数据H_full，即：

其中，步骤2中需要提取的五个生理参数如图2所示。从左至右，a点和b点分别代表左、右耳屏点，线段ab代表两耳屏间宽。线段cd和ef分别表示耳甲腔高度和耳甲腔宽度。由于耳甲腔并非一个规则的圆形腔体，上述线段cd和ef分别取最大高度和最大宽度。g为耳垂点，线段gh为过g点的垂线，线段gi为耳廓最大长度，∠hgi为耳前后偏转角。线段jl贴近且平行于头表，k为耳廓相对于头表的最高点，∠kjl为耳凸起角。上述生理参数的提取可以采用现有软件，如solidworks，也可根据上述定义自行编写软件进行提取。

如图3所示，一种用于实现所述方法的装置，包括：

其中，所述的运算控制模块包括：

其中，图像获取模块可以采用多媒体计算机的内置或者外置(USB接口)摄像机实现；近期，随着3D打印技术的兴起，手持3D扫描仪也逐渐普及，它也可以实现听者头部图像的获取。运算控制模块可以采用个人多媒体计算机实现，其中的三个模块(生理参数提取模块、HRTF定制模块、虚拟声信号合成模块)可以采用matlab或者C++语言编程。图4是相应编程的信号流程图，合成某个空间方位的虚拟声像需要一对定制HRTF(左右耳各一)。虚拟声播放模块可以采用计算机的内置或者外置声卡，外置声卡的效果往往优于内置声卡，可以根据具体应用需求进行选择。

其中，运算控制模块也可以设计成专用的集成电路芯片实现，还可以利用通用信号处理芯片所做成的硬件电路实现，应用于各种手持移动终端、便携式播放设备。

本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于生理特征的全频段3D虚拟声定制方法，其特征是，包括如下步骤：

2.根据权利要求1所示的基于生理特征的全频段3D虚拟声定制方法，其特征是：步骤1中的所述基线HRTF数据库包含受试者HRTF数据和生理参数测量数据，例如美国加利福尼亚大学戴维斯分校CIPIC数据库、中国华南理工大学中国人样本HRTF数据库。

3.根据权利要求2所示的基于生理特征的全频段3D虚拟声定制方法，其特征是：所述基线HRTF数据库包括美国加利福尼亚大学戴维斯分校CIPIC数据库、中国华南理工大学中国人样本HRTF数据库。

4.根据权利要求1所示的基于生理特征的全频段3D虚拟声定制方法，其特征是：步骤3具体包括：

E_{h i g h} = Σ_{n = 1}^{4} \sqrt{\frac{{(p_{n} - {p^{'}}_{n})}^{2}}{{σ_{n}}^{2}}} - - - (1)

(1)式中P_n(n＝1,2,3,4)分别表示听者的所述四个耳廓生理参数；P'_n(n＝1,2,3,4)分别表示基线数据库中受试者的所述四个耳廓生理参数；σ_n表示基线数据库全体受试者生理参数n的标准差；E_high就是在耳廓作用明显的高频段，听者和基线数据库中受试者的生理参数偏差；重复步骤301，得到听者和基线数据库中每个受试者的E_high；

E_{l o w} = \sqrt{\frac{{(q - q^{'})}^{2}}{σ^{2}}} - - - (2)

(2)式中q和q'分别表示听者和基线数据库中受试者的所述头部生理参数；σ表示基线数据库全体受试者所述头部生理参数的标准差；E_low就是在头部作用明显的低频段，听者和基线数据库中受试者的生理参数偏差；重复步骤303，得到听者和基线数据库中每个受试者的E_low；

H_{f u l l} = \{\begin{matrix} H_{l o w}, & 0 H z \leq f \leq 4 k H z \\ \sqrt{H_{l o w} \times H_{h i g h}}, & 4 k H z < f < 5 k H z \\ H_{h i g h}, & 5 k H z \leq f \leq 20 k H z \end{matrix}; - - - (3)

5.一种用于实现权利要求1至权利要求4中任一项所述方法的装置，其特征在于，包括：

图像获取模块，用于拍摄听者正面、背面、左侧面、右侧面的图像；

运算控制模块，用于从已有的HRTF基线数据库中，通过五个头部和耳廓的生理特征的相似度计算和分析，找出听者全频段的定制HRTF数据进行虚拟声合成；

6.根据权利要求5所述的装置，其特征在于，所述的运算控制模块包括：