CN108391199B

CN108391199B - 基于个性化反射声阈值的虚拟声像合成方法、介质和终端

Info

Publication number: CN108391199B
Application number: CN201810097353.6A
Authority: CN
Inventors: 钟小丽; 郭文英; 王杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2019-12-10
Anticipated expiration: 2038-01-31
Also published as: CN108391199A

Abstract

本发明公开了一种基于个性化反射声阈值的虚拟声像合成方法、介质和终端，所述合成方法包括如下步骤：步骤1、测定听者自身的个性化反射声阈值；步骤2、根据需要虚拟的声环境的物理和几何特性，设定反射场虚拟声像的参数；步骤3、合成基于个性化反射声阈值的双耳房间脉冲响应BRIR；步骤4、将BRIR与输入的单通路声信号进行卷积运算，馈给耳机重放。本发明基于听者自身的个性化反射声阈值，实现了BRIR合成的简化；在确保听觉效果的前提下，解决了虚拟声像合成中运算量和存储量较大的问题，可促使算法更好地向各种手持移动终端、便携式播放设备移植。

Description

基于个性化反射声阈值的虚拟声像合成方法、介质和终端

技术领域

本发明涉及复杂声场环境下的3D声重放技术，具体涉及一种基于个性化反射声阈值的虚拟声像合成方法、介质和终端。

背景技术

日常的声环境通常是反射场，即声源声波不仅通过直达途径也通过反射途径到达双耳。人类通过双耳处的声波感知外部声信息。随着计算机技术的发展，可以采用基于双耳房间脉冲响应BRIR(Binaural Room Impulse Response)的信号处理方法人为地合成双耳声信号，馈给耳机重放，使听者获得和真实声源相同（相似）的声像效果。

BRIR包括直达声、早期反射声和后期反射声共三部分，可分别对它们进行计算模拟。其中，早期反射声的模拟计算最为复杂。通常，采用基于几何声学的镜像法计算早期反射声。具体的，视声波在环境界面（例如墙壁、地板、天花等）的每次反射等效于一个位于镜像方位的虚声源，该界面可用相应的虚声源代替；声波和界面的一次反射对应一阶虚声源，声波和界面的二次反射对应二阶虚声源，依此类推。由于早期反射声对听觉具有重要意义，通常是逐个界面、逐个阶数进行计算；相应的工作量约和m ⁿ成正比，其中m是界面数、n是虚声源的阶数。所以，对于多个复杂界面的反射场，BRIR早期反射声的计算工作量很大。相对而言，直达声的计算只需要考虑单个传输路径；而后期反射声对听觉的作用相对小，采用普适的混响算法即可。在实际的复杂场景模拟中，由于早期反射声合成占用大量的计算和存储资源，直接影响虚拟声像算法和技术向各类手持移动终端、便携式播放设备的移植。特别是，随着虚拟现实VR技术的普及，需要动态、实时地刷新虚拟声像，上述问题将显得更为突出。

如何有效地利用人类的听觉特征，简化BRIR早期反射声计算，以实现计算和存储资源的优化，是本发明所要解决的问题。

发明内容

本发明的目的是在确保听觉效果的前提下，提供一种基于个性化反射声阈值的虚拟声像合成方法、介质和终端，以解决现有技术中存在的 BRIR早期反射声合成占用大量计算和存储资源的问题。

为实现上述目的，本发明采用如下技术方案实现：

一种基于个性化反射声阈值的虚拟声像合成方法，包括如下步骤：

步骤1、测定听者自身的反射声阈值；

步骤2、根据需要虚拟的声环境的物理和几何特性，设定反射场虚拟声像的参数；

步骤3、合成基于个性化反射声阈值的双耳房间脉冲响应BRIR；

步骤4、将BRIR与输入的单通路声信号进行卷积运算，馈给耳机重放。

进一步地，步骤1中所述反射声阈值的测定采用标准的三下一上（Three Down-OneUp）自适应阈值判定实验范式，结合三间隔、三强制选择（3I3AFC）判断方法，进行反射声阈值的测量。

进一步地，步骤3具体包括

步骤31、计算直达声的信息，包括空间方位、空间传输衰减，并与相应方位的头相关脉冲响应HRIR进行卷积运算，获得BRIR的直达声部分；

步骤32、将计算的早期反射声与相应方位的HRIR进行卷积运算，依据听者自身的反射声阈值，判断并获得基于个性化反射声阈值的的BRIR早期反射声部分；

步骤33、采用混响算法计算BRIR的后期反射声部分；

步骤34、将BRIR的直达声部分、早期反射声部分、后期反射声部分按照时序进行组合，获得简化的BRIR。

进一步地，所述步骤32具体包括：

步骤321、采用镜像法计算早期反射声的信息，包括到达时间、空间方位、空间传输衰减、界面吸收，获得不同阶数、不同方向的早期反射声的分布情况；

步骤322、将每个早期反射声与相应方位的HRIR进行卷积运算；

步骤323、依据听者自身的反射声阈值，判断该早期反射声是否具有听觉可闻性，若听觉可闻，则留存；若听觉不可闻，则剔除，从而获得基于个性化反射声阈值的BRIR的早期反射声部分。

进一步地，所述的HRIR的数据取自一个包含多个声源空间方位的HRIR数据库，未含空间方位的HRIR由已知数据通过空间插值的方法获得。

进一步地，所述的HRIR数据库来自专业测量或者数值计算，并存储在本地上位机上，或存储在远程云端，通过网络调取。

进一步地，所述的早期反射声界定为直达声到达后，相对延迟时间为50-80ms内到达的反射声。

进一步地，所述早期反射声的计算中声波的空间传输衰减采用球面波近似，遵循声强与距离成反比的原则，同时，界面材料对于频率点为125Hz、250Hz、500Hz、1000Hz、2000Hz、4000Hz的声波的吸声系数采用已知数据，所列频率点之外的频率，其吸声系数可以采用插值的方式获取。

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时实现如所述合成方法的步骤。

一种终端，包括存储器和处理器，所述存储器中存储有计算机程序，所述的计算机程序被所述处理器执行时，使得所述处理器执行如所述合成方法的步骤。

相比现有技术，本发明具有如下有益效果：

由于直达声的掩蔽作用，当早期反射声的强度（声压级）低于一定的阈值时，将不会引起听觉感知，这个强度阈值称为反射声阈值。本发明依据听者的反射声阈值，对镜像法计算得到的每个早期反射声进行遴选，剔除听觉不可闻的部分，从而实现BRIR的简化。与现有技术相比，本发明将反射声阈值的判据引入虚拟声像的合成中；在确保听觉效果的前提下，实现了虚拟声像合成中计算和存储资源的听觉优化。

附图说明

图1是本发明实施例的一种基于个性化反射声阈值的虚拟声像的合成方法的实现原理图；

图2是发明实施例的多媒体计算机实现的信号处理软件的流程图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步的详细描述。

在3D虚拟声技术中，虚拟声像的合成采用BRIR和单通路声源信号卷积的方式实现。BRIR的合成包括直达声合成、早期反射声合成、后期反射声合成，其中早期反射声的合成需要逐个界面、逐个阶数进行，故占用大量的运算和存储资源，特别是在动态虚拟重放的情况下。本发明首先测定听者自身个性化的反射声阈值，然后据此剔除听觉不可闻的早期反射声，从而实现动态复杂声环境情况下虚拟声像合成的计算和存储资源的听觉优化。

图1是本发明的一种基于个性化反射声阈值的虚拟声像的合成方法原理图。

步骤1、测定听者自身的反射声阈值，听者可从所有可能的声音属性的变化来感知反射声，包括响度、空间感、方位、音色等；

具体而言，步骤1中所述反射声阈值的测定采用标准的三下一上（Three Down-OneUp）自适应阈值判定实验范式，该实验范式收敛到的正确响应率0.794；设计实验时需要考虑反射声的初始声压级、步长、实验结束条件等参数，下面为参考值：初始声压级为0dB（相对于直达声）；初始步长为8dB，此后遇到反转，步长减半，直到步长变为1dB后不再变化；获得八个反转时，实验结束；

鉴于实际声场的复杂性和多样性，反射声阈值测定可以采用单个直达声叠加n个反射声的简化声场模型（n = 1、2、3）；根据应用场景的需要，实验可以采用白噪声、语言或音乐片段作为声信号，设定不同的反射声入射角和反射声相对于直达声的延时，采用三下一上（Three Down-One Up）自适应阈值判定实验范式，结合三间隔、三强制选择（3I3AFC）判断方法，进行反射声阈值的测量；

听者的听觉灵敏度存在个体差异，不同听者的反射声阈值也不完全相同。在有条件的情况下，为了获取高品质的声重放效果，需要测定听者自身个性化的反射声阈值。在大众化的实际应用中，如果不便于开展个性化反射声阈值的测定，也可以采用多个听者平均的反射声阈值。

具体而言，步骤3具体包括：

步骤31、计算直达声的信息，包括空间方位、空间传输衰减等，并与相应方位的头相关脉冲响应HRIR进行卷积运算，获得BRIR的直达声部分；

步骤32、将计算的早期反射声与相应方位的HRIR进行卷积运算，依据听者自身的反射声阈值，判断并获得早期反射声获得基于个性化反射声阈值的BRIR的早期反射声部分，所述早期反射声界定为直达声到达后，相对延迟时间为50-80ms内到达的反射声，其中音乐信号为80ms；

步骤33、采用混响算法计算BRIR的后期反射声部分；

具体而言，所述步骤32具体包括：

步骤321、采用镜像法计算早期反射声的信息，包括到达时间、空间方位、空间传输衰减、界面吸收等，获得不同阶数、不同方向的早期反射声的分布情况，早期反射声的计算中声波的空间传输衰减可以采用球面波近似，遵循声强与距离成反比的原则；同时，界面材料对于不同频率的声波的吸声系数不同。文献资料（例如，《建筑声学设计原理》，吴硕贤等编著，中国建筑工业出版社，2000年）往往采用列表的方式给出不同频率点（125Hz、250Hz、500Hz、1000Hz、2000Hz、4000Hz）的吸声系数。对于上述频率点之外的频率，其吸声系数可以采用插值的方式获取；

步骤322、将每个早期反射声与相应方位的HRIR进行卷积运算；通常，HRIR的数据长度为512点（44.1kHz采样率，16bit量化），根据已有的工作（张亮，“虚拟听觉中模拟早期反射声的简化”，华南理工大学硕士论文， 2013年5月），可采用矩形时间窗将512点HRIR截断为128点或者64点。

步骤323、依据听者自身的反射声阈值，判断该早期反射声是否具有听觉可闻性，若听觉可闻，则留存；若听觉不可闻，则剔除，从而获得基于个性化反射声阈值的BRIR早期反射声部分。

具体而言，所述的HRIR的数据取自一个包含多个声源空间方位的HRIR数据库，未含空间方位的HRIR由已知数据通过空间插值的方法获得。

具体而言，所述的HRIR数据库来自专业测量或者数值计算，并存储在本地上位机上，或存储在远程云端，通过网络调取。

本申请的另一可行的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时实现如所述合成方法的步骤。

本申请的另一可行的实施例还提供一种终端，包括存储器和处理器，所述存储器中存储有计算机程序，所述的计算机程序被所述处理器执行时，使得所述处理器执行如所述合成方法的步骤。所述终端可以是手持移动终端、便携式播放设备、多媒体计算机等。

本发明可采用算法语言（如Matlab）编制的软件在多媒体计算机上实现，也可采用通用信号处理芯片电路或专用的集成电路实现。本发明可作为软件或硬件用于多媒体计算机的声音重放，也用于各种手持移动终端、便携式播放设备的声音重放。作为一个具体的实施例，图2给出了多媒体计算机实现的信号处理软件的流程图。

上述实施例提供的一种基于个性化反射声阈值的虚拟声像合成方法，利用听者自身的反射声阈值，根据听者自身的反射声阈值，剔除BRIR早期反射声中听觉不可感知的部分；采用混响算法计算BRIR的后期反射声部分；将BRIR的直达声部分、早期反射声部分、后期反射声部分按照时序进行组合，获得简化后的BRIR；将BRIR与输入的单通路声信号进行卷积运算，以实现基于耳机重放的虚拟声像。本发明在确保听觉效果的前提下，解决了动态复杂声环境下虚拟声像合成的运算量和存储量较大的问题，可促使算法更好地向各种手持移动终端、便携式播放设备移植。需要指出的是，本发明从反射声强度的角度，采用个性化反射声阈值，实现BRIR早期反射声的简化。也有研究（张亮，“虚拟听觉中模拟早期反射声的简化”，华南理工大学硕士论文， 2013年5月）从HRIR的时间域和空间域的角度，实现BRIR早期反射声的简化。本发明可以独立实现，也可以和现有的简化手段组合实现。

尽管参照特定的优选实施例示出并描述了本发明专利，但本领域技术人员应当理解，本说明书中列举的具体实施方案和实施例，只不过是为了理解本发明的技术内容，不是对本发明的限制，在不背离本发明的主旨和范围的情况下，本发明在形式上和细节上可以进行改变，凡本领域的普通技术人员根据上述描述所做的润饰、修改或等同替换，均属于本发明所保护的范围。

Claims

1.一种基于个性化反射声阈值的虚拟声像合成方法，其特征是，包括如下步骤：

步骤1、测定听者自身的反射声阈值；

步骤4、将BRIR与输入的单通路声信号进行卷积运算，馈给耳机重放；

所述步骤3具体包括：

步骤32、将计算的早期反射声与相应方位的HRIR进行卷积运算，依据听者自身的反射声阈值，判断并获得基于个性化反射声阈值的BRIR的早期反射声部分；

步骤33、采用混响算法计算BRIR的后期反射声部分；

步骤34、将BRIR的直达声部分、早期反射声部分、后期反射声部分按照时序进行组合，获得简化的BRIR；

所述步骤32具体包括：

步骤322、将每个早期反射声与相应方位的HRIR进行卷积运算；

2.根据权利要求1所述的一种基于个性化反射声阈值的虚拟声像合成方法，其特征是，步骤1中所述反射声阈值的测定采用标准的三下一上自适应阈值判定实验范式，结合三间隔、三强制选择判断方法，进行反射声阈值的测量。

3.根据权利要求2所述的一种基于个性化反射声阈值的虚拟声像合成方法，其特征是，所述的HRIR的数据取自一个包含多个声源空间方位的HRIR数据库，未含空间方位的HRIR由已知数据通过空间插值的方法获得。

4.根据权利要求3所述的一种基于个性化反射声阈值的虚拟声像合成方法，其特征是，所述的HRIR数据库来自专业测量或者数值计算，并存储在本地上位机上，或存储在远程云端，通过网络调取。

5.根据权利要求1所述的一种基于个性化反射声阈值的虚拟声像合成方法，其特征是，所述的早期反射声界定为直达声到达后，相对延迟时间为50-80ms内到达的反射声。

6.根据权利要求1所述的一种基于个性化反射声阈值的虚拟声像合成方法，其特征是，

所述早期反射声的计算中声波的空间传输衰减采用球面波近似，遵循声强与距离成反比的原则，同时，界面材料对于频率点为125Hz、250Hz、500Hz、1000Hz、2000Hz、4000Hz的声波的吸声系数采用已知数据，所列频率点之外的频率，其吸声系数可以采用插值的方式获取。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时实现如权利要求1至6中任一项所述合成方法的步骤。

8.一种终端，包括存储器和处理器，所述存储器中存储有计算机程序，所述的计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6任一项所述合成方法的步骤。