CN108391199B - 基于个性化反射声阈值的虚拟声像合成方法、介质和终端 - Google Patents

基于个性化反射声阈值的虚拟声像合成方法、介质和终端 Download PDF

Info

Publication number
CN108391199B
CN108391199B CN201810097353.6A CN201810097353A CN108391199B CN 108391199 B CN108391199 B CN 108391199B CN 201810097353 A CN201810097353 A CN 201810097353A CN 108391199 B CN108391199 B CN 108391199B
Authority
CN
China
Prior art keywords
sound
reflected sound
brir
threshold
early
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810097353.6A
Other languages
English (en)
Other versions
CN108391199A (zh
Inventor
钟小丽
郭文英
王杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810097353.6A priority Critical patent/CN108391199B/zh
Publication of CN108391199A publication Critical patent/CN108391199A/zh
Application granted granted Critical
Publication of CN108391199B publication Critical patent/CN108391199B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/34Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means
    • H04R1/345Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于个性化反射声阈值的虚拟声像合成方法、介质和终端,所述合成方法包括如下步骤:步骤1、测定听者自身的个性化反射声阈值;步骤2、根据需要虚拟的声环境的物理和几何特性,设定反射场虚拟声像的参数;步骤3、合成基于个性化反射声阈值的双耳房间脉冲响应BRIR;步骤4、将BRIR与输入的单通路声信号进行卷积运算,馈给耳机重放。本发明基于听者自身的个性化反射声阈值,实现了BRIR合成的简化;在确保听觉效果的前提下,解决了虚拟声像合成中运算量和存储量较大的问题,可促使算法更好地向各种手持移动终端、便携式播放设备移植。

Description

基于个性化反射声阈值的虚拟声像合成方法、介质和终端
技术领域
本发明涉及复杂声场环境下的3D声重放技术,具体涉及一种基于个性化反射声阈值的虚拟声像合成方法、介质和终端。
背景技术
日常的声环境通常是反射场,即声源声波不仅通过直达途径也通过反射途径到达双耳。人类通过双耳处的声波感知外部声信息。随着计算机技术的发展,可以采用基于双耳房间脉冲响应BRIR(Binaural Room Impulse Response)的信号处理方法人为地合成双耳声信号,馈给耳机重放,使听者获得和真实声源相同(相似)的声像效果。
BRIR包括直达声、早期反射声和后期反射声共三部分,可分别对它们进行计算模拟。其中,早期反射声的模拟计算最为复杂。通常,采用基于几何声学的镜像法计算早期反射声。具体的,视声波在环境界面(例如墙壁、地板、天花等)的每次反射等效于一个位于镜像方位的虚声源,该界面可用相应的虚声源代替;声波和界面的一次反射对应一阶虚声源,声波和界面的二次反射对应二阶虚声源,依此类推。由于早期反射声对听觉具有重要意义,通常是逐个界面、逐个阶数进行计算;相应的工作量约和m n 成正比,其中m是界面数、n是虚声源的阶数。所以,对于多个复杂界面的反射场,BRIR早期反射声的计算工作量很大。相对而言,直达声的计算只需要考虑单个传输路径;而后期反射声对听觉的作用相对小,采用普适的混响算法即可。在实际的复杂场景模拟中,由于早期反射声合成占用大量的计算和存储资源,直接影响虚拟声像算法和技术向各类手持移动终端、便携式播放设备的移植。特别是,随着虚拟现实VR技术的普及,需要动态、实时地刷新虚拟声像,上述问题将显得更为突出。
如何有效地利用人类的听觉特征,简化BRIR早期反射声计算,以实现计算和存储资源的优化,是本发明所要解决的问题。
发明内容
本发明的目的是在确保听觉效果的前提下,提供一种基于个性化反射声阈值的虚拟声像合成方法、介质和终端,以解决现有技术中存在的 BRIR早期反射声合成占用大量计算和存储资源的问题。
为实现上述目的,本发明采用如下技术方案实现:
一种基于个性化反射声阈值的虚拟声像合成方法,包括如下步骤:
步骤1、测定听者自身的反射声阈值;
步骤2、根据需要虚拟的声环境的物理和几何特性,设定反射场虚拟声像的参数;
步骤3、合成基于个性化反射声阈值的双耳房间脉冲响应BRIR;
步骤4、将BRIR与输入的单通路声信号进行卷积运算,馈给耳机重放。
进一步地,步骤1中所述反射声阈值的测定采用标准的三下一上(Three Down-OneUp)自适应阈值判定实验范式,结合三间隔、三强制选择(3I3AFC)判断方法,进行反射声阈值的测量。
进一步地,步骤3具体包括
步骤31、计算直达声的信息,包括空间方位、空间传输衰减,并与相应方位的头相关脉冲响应HRIR进行卷积运算,获得BRIR的直达声部分;
步骤32、将计算的早期反射声与相应方位的HRIR进行卷积运算,依据听者自身的反射声阈值,判断并获得基于个性化反射声阈值的的BRIR早期反射声部分;
步骤33、采用混响算法计算BRIR的后期反射声部分;
步骤34、将BRIR的直达声部分、早期反射声部分、后期反射声部分按照时序进行组合,获得简化的BRIR。
进一步地,所述步骤32具体包括:
步骤321、采用镜像法计算早期反射声的信息,包括到达时间、空间方位、空间传输衰减、界面吸收,获得不同阶数、不同方向的早期反射声的分布情况;
步骤322、将每个早期反射声与相应方位的HRIR进行卷积运算;
步骤323、依据听者自身的反射声阈值,判断该早期反射声是否具有听觉可闻性,若听觉可闻,则留存;若听觉不可闻,则剔除,从而获得基于个性化反射声阈值的BRIR的早期反射声部分。
进一步地,所述的HRIR的数据取自一个包含多个声源空间方位的HRIR数据库,未含空间方位的HRIR由已知数据通过空间插值的方法获得。
进一步地,所述的HRIR数据库来自专业测量或者数值计算,并存储在本地上位机上,或存储在远程云端,通过网络调取。
进一步地,所述的早期反射声界定为直达声到达后,相对延迟时间为50-80ms内到达的反射声。
进一步地,所述早期反射声的计算中声波的空间传输衰减采用球面波近似,遵循声强与距离成反比的原则,同时,界面材料对于频率点为125Hz、250Hz、500Hz、1000Hz、2000Hz、4000Hz的声波的吸声系数采用已知数据,所列频率点之外的频率,其吸声系数可以采用插值的方式获取。
一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时实现如所述合成方法的步骤。
一种终端,包括存储器和处理器,所述存储器中存储有计算机程序,所述的计算机程序被所述处理器执行时,使得所述处理器执行如所述合成方法的步骤。
相比现有技术,本发明具有如下有益效果:
由于直达声的掩蔽作用,当早期反射声的强度(声压级)低于一定的阈值时,将不会引起听觉感知,这个强度阈值称为反射声阈值。本发明依据听者的反射声阈值,对镜像法计算得到的每个早期反射声进行遴选,剔除听觉不可闻的部分,从而实现BRIR的简化。与现有技术相比,本发明将反射声阈值的判据引入虚拟声像的合成中;在确保听觉效果的前提下,实现了虚拟声像合成中计算和存储资源的听觉优化。
附图说明
图1是本发明实施例的一种基于个性化反射声阈值的虚拟声像的合成方法的实现原理图;
图2是发明实施例的多媒体计算机实现的信号处理软件的流程图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步的详细描述。
在3D虚拟声技术中,虚拟声像的合成采用BRIR和单通路声源信号卷积的方式实现。BRIR的合成包括直达声合成、早期反射声合成、后期反射声合成,其中早期反射声的合成需要逐个界面、逐个阶数进行,故占用大量的运算和存储资源,特别是在动态虚拟重放的情况下。本发明首先测定听者自身个性化的反射声阈值,然后据此剔除听觉不可闻的早期反射声,从而实现动态复杂声环境情况下虚拟声像合成的计算和存储资源的听觉优化。
图1是本发明的一种基于个性化反射声阈值的虚拟声像的合成方法原理图。
一种基于个性化反射声阈值的虚拟声像合成方法,包括如下步骤:
步骤1、测定听者自身的反射声阈值,听者可从所有可能的声音属性的变化来感知反射声,包括响度、空间感、方位、音色等;
步骤2、根据需要虚拟的声环境的物理和几何特性,设定反射场虚拟声像的参数;
步骤3、合成基于个性化反射声阈值的双耳房间脉冲响应BRIR;
步骤4、将BRIR与输入的单通路声信号进行卷积运算,馈给耳机重放。
具体而言,步骤1中所述反射声阈值的测定采用标准的三下一上(Three Down-OneUp)自适应阈值判定实验范式,该实验范式收敛到的正确响应率0.794;设计实验时需要考虑反射声的初始声压级、步长、实验结束条件等参数,下面为参考值:初始声压级为0dB(相对于直达声);初始步长为8dB,此后遇到反转,步长减半,直到步长变为1dB后不再变化;获得八个反转时,实验结束;
鉴于实际声场的复杂性和多样性,反射声阈值测定可以采用单个直达声叠加n个反射声的简化声场模型(n = 1、2、3);根据应用场景的需要,实验可以采用白噪声、语言或音乐片段作为声信号,设定不同的反射声入射角和反射声相对于直达声的延时,采用三下一上(Three Down-One Up)自适应阈值判定实验范式,结合三间隔、三强制选择(3I3AFC)判断方法,进行反射声阈值的测量;
听者的听觉灵敏度存在个体差异,不同听者的反射声阈值也不完全相同。在有条件的情况下,为了获取高品质的声重放效果,需要测定听者自身个性化的反射声阈值。在大众化的实际应用中,如果不便于开展个性化反射声阈值的测定,也可以采用多个听者平均的反射声阈值。
具体而言,步骤3具体包括:
步骤31、计算直达声的信息,包括空间方位、空间传输衰减等,并与相应方位的头相关脉冲响应HRIR进行卷积运算,获得BRIR的直达声部分;
步骤32、将计算的早期反射声与相应方位的HRIR进行卷积运算,依据听者自身的反射声阈值,判断并获得早期反射声获得基于个性化反射声阈值的BRIR的早期反射声部分,所述早期反射声界定为直达声到达后,相对延迟时间为50-80ms内到达的反射声,其中音乐信号为80ms;
步骤33、采用混响算法计算BRIR的后期反射声部分;
步骤34、将BRIR的直达声部分、早期反射声部分、后期反射声部分按照时序进行组合,获得简化的BRIR。
具体而言,所述步骤32具体包括:
步骤321、采用镜像法计算早期反射声的信息,包括到达时间、空间方位、空间传输衰减、界面吸收等,获得不同阶数、不同方向的早期反射声的分布情况,早期反射声的计算中声波的空间传输衰减可以采用球面波近似,遵循声强与距离成反比的原则;同时,界面材料对于不同频率的声波的吸声系数不同。文献资料(例如,《建筑声学设计原理》,吴硕贤等编著,中国建筑工业出版社,2000年)往往采用列表的方式给出不同频率点(125Hz、250Hz、500Hz、1000Hz、2000Hz、4000Hz)的吸声系数。对于上述频率点之外的频率,其吸声系数可以采用插值的方式获取;
步骤322、将每个早期反射声与相应方位的HRIR进行卷积运算;通常,HRIR的数据长度为512点(44.1kHz采样率,16bit量化),根据已有的工作(张亮,“虚拟听觉中模拟早期反射声的简化”,华南理工大学硕士论文, 2013年5月),可采用矩形时间窗将512点HRIR截断为128点或者64点。
步骤323、依据听者自身的反射声阈值,判断该早期反射声是否具有听觉可闻性,若听觉可闻,则留存;若听觉不可闻,则剔除,从而获得基于个性化反射声阈值的BRIR早期反射声部分。
具体而言,所述的HRIR的数据取自一个包含多个声源空间方位的HRIR数据库,未含空间方位的HRIR由已知数据通过空间插值的方法获得。
具体而言,所述的HRIR数据库来自专业测量或者数值计算,并存储在本地上位机上,或存储在远程云端,通过网络调取。
本申请的另一可行的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时实现如所述合成方法的步骤。
本申请的另一可行的实施例还提供一种终端,包括存储器和处理器,所述存储器中存储有计算机程序,所述的计算机程序被所述处理器执行时,使得所述处理器执行如所述合成方法的步骤。所述终端可以是手持移动终端、便携式播放设备、多媒体计算机等。
本发明可采用算法语言(如Matlab)编制的软件在多媒体计算机上实现,也可采用通用信号处理芯片电路或专用的集成电路实现。本发明可作为软件或硬件用于多媒体计算机的声音重放,也用于各种手持移动终端、便携式播放设备的声音重放。作为一个具体的实施例,图2给出了多媒体计算机实现的信号处理软件的流程图。
上述实施例提供的一种基于个性化反射声阈值的虚拟声像合成方法,利用听者自身的反射声阈值,根据听者自身的反射声阈值,剔除BRIR早期反射声中听觉不可感知的部分;采用混响算法计算BRIR的后期反射声部分;将BRIR的直达声部分、早期反射声部分、后期反射声部分按照时序进行组合,获得简化后的BRIR;将BRIR与输入的单通路声信号进行卷积运算,以实现基于耳机重放的虚拟声像。本发明在确保听觉效果的前提下,解决了动态复杂声环境下虚拟声像合成的运算量和存储量较大的问题,可促使算法更好地向各种手持移动终端、便携式播放设备移植。需要指出的是,本发明从反射声强度的角度,采用个性化反射声阈值,实现BRIR早期反射声的简化。也有研究(张亮,“虚拟听觉中模拟早期反射声的简化”,华南理工大学硕士论文, 2013年5月)从HRIR的时间域和空间域的角度,实现BRIR早期反射声的简化。本发明可以独立实现,也可以和现有的简化手段组合实现。
尽管参照特定的优选实施例示出并描述了本发明专利,但本领域技术人员应当理解,本说明书中列举的具体实施方案和实施例,只不过是为了理解本发明的技术内容,不是对本发明的限制,在不背离本发明的主旨和范围的情况下,本发明在形式上和细节上可以进行改变,凡本领域的普通技术人员根据上述描述所做的润饰、修改或等同替换,均属于本发明所保护的范围。

Claims (8)

1.一种基于个性化反射声阈值的虚拟声像合成方法,其特征是,包括如下步骤:
步骤1、测定听者自身的反射声阈值;
步骤2、根据需要虚拟的声环境的物理和几何特性,设定反射场虚拟声像的参数;
步骤3、合成基于个性化反射声阈值的双耳房间脉冲响应BRIR;
步骤4、将BRIR与输入的单通路声信号进行卷积运算,馈给耳机重放;
所述步骤3具体包括:
步骤31、计算直达声的信息,包括空间方位、空间传输衰减,并与相应方位的头相关脉冲响应HRIR进行卷积运算,获得BRIR的直达声部分;
步骤32、将计算的早期反射声与相应方位的HRIR进行卷积运算,依据听者自身的反射声阈值,判断并获得基于个性化反射声阈值的BRIR的早期反射声部分;
步骤33、采用混响算法计算BRIR的后期反射声部分;
步骤34、将BRIR的直达声部分、早期反射声部分、后期反射声部分按照时序进行组合,获得简化的BRIR;
所述步骤32具体包括:
步骤321、采用镜像法计算早期反射声的信息,包括到达时间、空间方位、空间传输衰减、界面吸收,获得不同阶数、不同方向的早期反射声的分布情况;
步骤322、将每个早期反射声与相应方位的HRIR进行卷积运算;
步骤323、依据听者自身的反射声阈值,判断该早期反射声是否具有听觉可闻性,若听觉可闻,则留存;若听觉不可闻,则剔除,从而获得基于个性化反射声阈值的BRIR早期反射声部分。
2.根据权利要求1所述的一种基于个性化反射声阈值的虚拟声像合成方法,其特征是,步骤1中所述反射声阈值的测定采用标准的三下一上自适应阈值判定实验范式,结合三间隔、三强制选择判断方法,进行反射声阈值的测量。
3.根据权利要求2所述的一种基于个性化反射声阈值的虚拟声像合成方法,其特征是,所述的HRIR的数据取自一个包含多个声源空间方位的HRIR数据库,未含空间方位的HRIR由已知数据通过空间插值的方法获得。
4.根据权利要求3所述的一种基于个性化反射声阈值的虚拟声像合成方法,其特征是,所述的HRIR数据库来自专业测量或者数值计算,并存储在本地上位机上,或存储在远程云端,通过网络调取。
5.根据权利要求1所述的一种基于个性化反射声阈值的虚拟声像合成方法,其特征是,所述的早期反射声界定为直达声到达后,相对延迟时间为50-80ms内到达的反射声。
6.根据权利要求1所述的一种基于个性化反射声阈值的虚拟声像合成方法,其特征是,
所述早期反射声的计算中声波的空间传输衰减采用球面波近似,遵循声强与距离成反比的原则,同时,界面材料对于频率点为125Hz、250Hz、500Hz、1000Hz、2000Hz、4000Hz的声波的吸声系数采用已知数据,所列频率点之外的频率,其吸声系数可以采用插值的方式获取。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述的计算机程序被处理器执行时实现如权利要求1至6中任一项所述合成方法的步骤。
8.一种终端,包括存储器和处理器,所述存储器中存储有计算机程序,所述的计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6任一项所述合成方法的步骤。
CN201810097353.6A 2018-01-31 2018-01-31 基于个性化反射声阈值的虚拟声像合成方法、介质和终端 Expired - Fee Related CN108391199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810097353.6A CN108391199B (zh) 2018-01-31 2018-01-31 基于个性化反射声阈值的虚拟声像合成方法、介质和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810097353.6A CN108391199B (zh) 2018-01-31 2018-01-31 基于个性化反射声阈值的虚拟声像合成方法、介质和终端

Publications (2)

Publication Number Publication Date
CN108391199A CN108391199A (zh) 2018-08-10
CN108391199B true CN108391199B (zh) 2019-12-10

Family

ID=63074705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810097353.6A Expired - Fee Related CN108391199B (zh) 2018-01-31 2018-01-31 基于个性化反射声阈值的虚拟声像合成方法、介质和终端

Country Status (1)

Country Link
CN (1) CN108391199B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109327794B (zh) * 2018-11-01 2020-09-29 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN110933589B (zh) * 2019-11-28 2021-07-16 广州市迪士普音响科技有限公司 一种用于会议的耳机信号馈给方法
GB2593170A (en) * 2020-03-16 2021-09-22 Nokia Technologies Oy Rendering reverberation
CN112770227B (zh) * 2020-12-30 2022-04-29 中国电影科学技术研究所 音频处理方法、装置、耳机和存储介质
CN116778898A (zh) * 2022-03-11 2023-09-19 北京罗克维尔斯科技有限公司 一种音频混响方法、装置、电子设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
CN104240695A (zh) * 2014-08-29 2014-12-24 华南理工大学 一种优化的基于耳机重放的虚拟声合成方法

Also Published As

Publication number Publication date
CN108391199A (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
CN108391199B (zh) 基于个性化反射声阈值的虚拟声像合成方法、介质和终端
US11582574B2 (en) Generating binaural audio in response to multi-channel audio using at least one feedback delay network
US10555109B2 (en) Generating binaural audio in response to multi-channel audio using at least one feedback delay network
US9940922B1 (en) Methods, systems, and computer readable media for utilizing ray-parameterized reverberation filters to facilitate interactive sound rendering
TR201815799T4 (tr) Bir audio sistemi ve onun operasyonunun yöntemi.
CA2744429C (en) Converter and method for converting an audio signal
EP3090573B1 (en) Generating binaural audio in response to multi-channel audio using at least one feedback delay network
CN113553022A (zh) 设备调整方法、装置、移动终端及存储介质
WO2021158273A1 (en) Augmented reality virtual audio source enhancement
US20230306953A1 (en) Method for generating a reverberation audio signal
Schissler et al. Interactive sound rendering on mobile devices using ray-parameterized reverberation filters
Tommasini et al. A computational model to implement binaural synthesis in a hard real-time auditory virtual environment
WO2022227921A1 (zh) 音频处理方法、装置、无线耳机及计算机可读介质
WO2024084997A1 (ja) 音響処理装置及び音響処理方法
CN115331687A (zh) 样本音频数据的生成方法、装置、电子设备及存储介质
Markovic et al. Usage of measured reverberation tail in a binaural room impulse response synthesis
Giesbrecht et al. Algorithmic Reverberation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191210