CN116962956A - 冲激响应的确定方法、装置、设备及存储介质 - Google Patents

冲激响应的确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116962956A
CN116962956A CN202310102749.6A CN202310102749A CN116962956A CN 116962956 A CN116962956 A CN 116962956A CN 202310102749 A CN202310102749 A CN 202310102749A CN 116962956 A CN116962956 A CN 116962956A
Authority
CN
China
Prior art keywords
sound source
distance
simulated
reflection
receiver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310102749.6A
Other languages
English (en)
Inventor
罗艺
顾容之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310102749.6A priority Critical patent/CN116962956A/zh
Publication of CN116962956A publication Critical patent/CN116962956A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本申请公开了一种冲激响应的确定方法、装置、设备及存储介质,涉及音频处理技术领域。所述方法包括:获取模拟场景中接收器阵列对应的各个接收器分别与原始声源之间的第一距离,接收器阵列的阵列中心与原始声源之间的第二距离;对于每个采样时刻,根据第二距离构建原始声源对应的至少一个虚拟声源;确定至少一个虚拟声源分别与各个接收器之间的模拟行进距离;基于第一距离和模拟行进距离,获取原始声源和各个接收器之间的反射比例;根据反射比例、第一距离、模拟行进距离和模拟环境对应的环境空间参数,获取原始声源在接收器阵列处的模拟冲激响应。通过采用本技术方案能够快速生成大量符合真实物理世界中声波反射情况的多通道下的模拟冲激响应。

Description

冲激响应的确定方法、装置、设备及存储介质
技术领域
本申请实施例涉及音频处理技术领域,特别涉及一种冲激响应的确定方法、装置、设备及存储介质。
背景技术
近年来,随着计算机技术的发展,房间声学的研究与应用领域也越来越广泛,其常被用于辅助建筑声学的设计与实现可听化。混响是房间声学中的重要声学特性。而对于混响的研究,房间冲激响应(Room Impulse Response,RIR)是较为关键的方向。房间冲激响应为衡量声音在密闭或半开放空间内传播时,由于声音的衰减与反射造成的原始音频的延迟与能量衰减情况的有限冲激响应(Finite Impulse Response,FIR)滤波器。
RIR可分为单通道RIR(单接收器)和多通道RIR(多接收器),对于真实环境下的多通道RIR的获取,一般需要在专业设计的声学实验室中布置真实的麦克风阵列,以及校准声源的位置,以进行多通道RIR的采样。然而,真实环境下的多通道RIR的采样需要大量成本,并且需要具有专业知识的人员开展,导致多通道RIR的获取难度较高,多通道RIR的获取效率低。
发明内容
本申请实施例提供了一种冲激响应的确定方法、装置、设备及存储介质,能够降低多通道RIR的获取难度,从而提高多通道RIR的获取效率,以及提高多通道RIR的获取方法的普适性。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种冲激响应的确定方法,所述方法包括:
获取模拟场景对应的场景布置参数,所述场景布置参数包括不同采样时刻下的距离参数和环境空间参数,所述距离参数包括接收器阵列中各个接收器分别与原始声源之间的第一距离,以及所述接收器阵列的阵列中心与所述原始声源之间的第二距离,所述环境空间参数用于表征所述模拟场景的物理情况;
对于每个所述采样时刻,根据所述采样时刻下的第二距离,构建所述原始声源在所述采样时刻下的至少一个虚拟声源,所述虚拟声源用于模拟所述原始声源对应的声波在所述模拟场景中的反射情况;
根据所述至少一个虚拟声源的三维坐标和各个所述接收器分别对应的三维坐标,确定所述至少一个虚拟声源分别与各个所述接收器之间的模拟行进距离;
基于所述采样时刻下的第一距离和模拟行进距离,获取在所述采样时刻下所述原始声源和各个所述接收器之间的反射比例,所述反射比例与所述模拟行进距离呈正相关关系;
根据各个所述采样时刻下的反射比例、第一距离、模拟行进距离和环境空间参数,获取所述原始声源在所述接收器阵列处的模拟冲激响应。
根据本申请实施例的一个方面,提供了一种冲激响应的确定装置,所述装置包括:
场景参数获取模块,用于获取模拟场景对应的场景布置参数,所述场景布置参数包括不同采样时刻下的距离参数和环境空间参数,所述距离参数包括接收器阵列中各个接收器分别与原始声源之间的第一距离,以及所述接收器阵列的阵列中心与所述原始声源之间的第二距离,所述环境空间参数用于表征所述模拟场景的物理情况;
虚拟声源构建模块,用于对于每个所述采样时刻,根据所述采样时刻下的第二距离,构建所述原始声源在所述采样时刻下的至少一个虚拟声源,所述虚拟声源用于模拟所述原始声源对应的声波在所述模拟场景中的反射情况;
行进距离模拟模块,用于根据所述至少一个虚拟声源的三维坐标和各个所述接收器分别对应的三维坐标,确定所述至少一个虚拟声源分别与各个所述接收器之间的模拟行进距离;
反射比例获取模块,用于基于所述采样时刻下的第一距离和模拟行进距离,获取在所述采样时刻下所述原始声源和各个所述接收器之间的反射比例,所述反射比例与所述模拟行进距离呈正相关关系;
冲激响应确定模块,用于根据各个所述采样时刻下的反射比例、第一距离、模拟行进距离和环境空间参数,获取所述原始声源在所述接收器阵列处的模拟冲激响应。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述冲激响应的确定方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述冲激响应的确定方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述冲激响应的确定方法。
本申请实施例提供的技术方案可以包括如下有益效果:
通过场景布置参数来表征真实场景,使得可通过调整场景布置参数能够快速模拟不同的场景种类(如房间种类)和场景中的陈设情况,并能够覆盖不同种类的边界空间与环境类型,无需进行各类场景建模,从而降低了模拟冲激响应的获取成本,以及提高了模拟冲激响应的获取效率和多样性。
另外,通过基于原始声源与各个接收器之间的第一距离来获取反射比例,以及基于原始声源与接收器阵列的阵列中心之间的第二距离来构建虚拟声源,保留了原始声源和接收器阵列之间的空间信息(如方向信息和位置信息),从而基于反射比例和虚拟声源,即可实现多通道下的冲激响应的模拟,而无需进行场景建模,也无需对物理仿真的每一条声波的反射路径进行计算,计算的复杂度大大降低,从而提高了多通道RIR的获取效率,以及多通道RIR的获取方法的普适性。
另外,基于原始声源与接收器阵列的阵列中心之间的第二距离来构建虚拟声源,以及基于虚拟声源的三维坐标和接收器分的三维坐标,确定虚拟声源与接收器之间的模拟行进距离,能够模拟声波从原始声源到各个接收器之间各种各样的反射路径,并生成不同的反射距离,使得原始声源在多通道下的模拟反射情况更贴合真实的反射情况,从而提高了多通道RIR的获取真实性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的模拟场景的示意图;
图3是本申请一个实施例提供的冲激响应的确定方法的流程图;
图4是本申请一个实施例提供的虚拟声源的构建方法的流程图;
图5是本申请一个实施例提供的模拟行进距离的示意图;
图6是本申请一个实施例提供的反射比例的获取方法的流程图;
图7是本申请一个实施例提供的模拟冲激响应的获取方法的流程图;
图8是本申请一个实施例提供的冲激响应的确定装置的框图;
图9是本申请另一个实施例提供的冲激响应的确定装置的框图;
图10是本申请一个实施例提供的计算机设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该实施环境可以包括:终端设备10和服务器20。
终端设备10可以是任何具备数据计算、处理和存储功能的电子设备。示例性地,该终端设备10可以是诸如手机、平板电脑、游戏主机、多媒体播放设备、PC(PersonalComputer,个人计算机)、车载终端、智能机器人等电子设备。终端设备10中可以安装目标应用程序的客户端,诸如音频处理类应用程序、声场模拟仿真类应用程序、以及任何支持冲激响应确定类应用程序的客户端。
服务器20用于为终端设备10中的应用程序(如声场模拟仿真类应用程序)的客户端提供后台服务。例如,服务器20可以是上述目标应用程序(如声场模拟仿真类应用程序)的后台服务器。服务器20可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。
终端设备10和服务器20之间可通过网络进行互相通信。该网络可以是有线网络,也可以是无线网络。
本申请实施例提供的技术方案适用于任意接收器阵列下的RIR的快速模拟,该接收器阵列中的接收器用于接收声源对应的声波,诸如麦克风、拾音器,以及其他收音设备。示例性地,本申请实施例提供的技术方案可用于诸如远场音频数据增强、音频阵列信号处理模型的训练、沉浸式多媒体系统(如VR(Virtual Reality,虚拟现实)、AR(AugmentedReality,增强现实)等)等场景下的实时室内声场模拟。本申请实施例提供的技术方案能够提高多通道RIR的获取效率,以及提高多通道RIR的获取方法的普适性。
示例性地,参考图2,设计人员可以通过终端设备10(或服务器20)以不同的场景布置参数,快速模拟不同的房间种类和环境类型,如图2中的模拟房间200。对于模拟房间200中所设置的每个原始声源(如图2中的原始声源201,其他原始声源未示出)和接收器阵列202,终端设备10(或服务器20)获取接收器阵列202中各个接收器分别与原始声源201之间的第一距离,如图2中的第一距离205,其他第一距离未示出,以及接收器阵列202的阵列中心与原始声源201之间的第二距离206。
然后,终端设备10(或服务器20)根据上述第二距离206构建该原始声源201对应的至少一个虚拟声源,该虚拟声源用于模拟原始声源对应的声波在模拟场景中的反射情况(即反射声对应的假设声源),并根据虚拟声源的三维坐标和各个接收器分别对应的三维坐标,确定虚拟声源分别与各个接收器之间的模拟行进距离。图2中的模拟行进距离203和模拟行进距离204即为原始声源201对应的2个虚拟声源分别对应的模拟行进距离(仅为示例性地)。
终端设备10(或服务器20)基于上述第一距离205、模拟行进距离203和模拟行进距离204,即可获取原始声源201和接收器阵列202中的第一个接收器之间的反射比例,采用同样的方法即可获取原始声源201和接收器阵列202中的剩余接收器之间的反射比例。
终端设备10(或服务器20)根据反射比例、第一距离205、模拟行进距离203、模拟行进距离204和模拟房间200对应的环境空间参数,模拟出原始声源201在第一个接收器处的模拟冲激响应,采用相同的方法即可获取原始声源201在剩余接收器处的模拟冲激响应,进而得到原始声源201在接收器阵列202处的模拟冲激响应。
下面,将通过方法实施例对本申请实施例提供的技术方案进行详细说明。
请参考图3,其示出了本申请一个实施例提供的冲激响应的确定方法的流程图,该方法各步骤的执行主体可以是图1所示方案实施环境中的终端设备10或服务器20,该方法可以包括如下几个步骤(301~305)。
步骤301,获取模拟场景对应的场景布置参数,该场景布置参数包括不同采样时刻下的距离参数和环境空间参数,距离参数包括接收器阵列中各个接收器分别与原始声源之间的第一距离,以及接收器阵列的阵列中心与原始声源之间的第二距离,该环境空间参数用于表征模拟场景的物理情况。
模拟场景用于模拟真实场景,该模拟场景是指用于对冲激响应进行模拟的场景。该模拟场景可用于模拟封闭或半封闭的空间。示例性地,该模拟场景可以为模拟房间、模拟车辆内部等,本申请实施例对此不作限定。本申请实施例中的冲激响应可以是指声源在接收器阵列处的冲激响应,诸如声源在接收器阵列处的RIR,即多通道RIR。
上述接收器阵列中可以包括多个接收器,该多个接收器之间的距离较小。可选地,接收器阵列中的各个接收器分别对应的位置可以根据实际使用需求进行设置与调整,如接收器阵列中的各个接收器可以按照规则或者不规则的几何结构被设置。接收器用于接收声源对应的声波,诸如麦克风、拾音器等。
上述原始声源是指根基需求设置在模拟场景中的声源。该原始声源可以是真实声源,可以是通过模拟仿真得到的模拟声源,本申请实施例对此不作限定。可选地,模拟场景中可以设置一个或多个原始声源。示例性地,在模拟房间中,该原始声源可以是指说话人、音响、电视、收音机等;在模拟车辆内部中,该原始声源可以是车载的声音播放设备;在模拟露天体育场中,该原始声源可以是广播等。
模拟场景对应的场景布置参数用于表征模拟场景的状况。模拟场景的状况包括以下至少一种:原始声源的配置、接收器阵列的配置、物理环境情况等。原始声源的配置可以包括原始声源的数量、位置等,接收器阵列的配置可以包括接收器阵列的拓扑结构、所包含的接收器的数量、接收器阵列的位置等。
在一个示例中,原始声源和接收器阵列之间的位置关系可以通过原始声源分别与接收器阵列中各个接收器之间的第一距离,以及原始声源与接收器阵列的阵列中心之间的第二距离来表征。该第一距离可以为原始声源与接收器之间的直线距离,该第二距离可以为原始声源与阵列中心之间的直线距离。在本申请实施例中,第一距离可以表征原始声源与接收器之间的直达声,从原始声源传播到接收器所需经过的直线距离。
示例性地,设模拟场景中设置有C个原始声源和1个接收器阵列,该接收器阵列中包括M个接收器,对于C个原始声源中的原始声源c和M个接收器中的接收器m,原始声源c与接收器m之间的第一距离可以表示如下:
其中,Zc表示第c个原始声源的三维坐标,Gm表示接收器阵列中的第m个接收器的三维坐标。本申请实施例中的三维坐标可以是指模拟场景对应的笛卡尔坐标系下的坐标,该笛卡尔坐标系可以以模拟场景中的某一个角落(如模拟房间的某一个角)为原点,x轴和y轴水平且相互垂直,z轴垂直x轴和y轴所形成的水平面。第一距离的取值范围可以为[0.2m,12m]。本申请实施例中的各个参数取值范围仅为示例性和举例性地,并不对其造成限制。
原始声源c与接收器阵列的阵列中心O之间的第二距离可以表示如下:
其中,为阵列中心O的三维坐标,阵列中心O的三维坐标可以通过对接收器阵列中各个接收器分别对应的三维坐标进行求平均得到。
采样时刻是指对模拟场景中的场景布置参数进行采样的时刻,为了捕捉原始声源的细微位置变化对反射情况的影响,本申请实施例在采样时使用较高的采样率进行采样,也即各个采样时刻之间的时间间隔较小,以获取更加真实的声波反射情况。采样时刻的数量可以根据实际使用需求进行设置与调整,本申请实施例对此不作限定。示例性地,采样时刻对应的采样率可以记为srh,其对应的取值可以为1024000。
可选地,上述环境空间参数可以包括以下至少一项:混响时间、环境陈设参数等。其中,混响时间用于表征原始声源发出的声波的能量在模拟场景(如模拟房间)内经过反射、经墙壁吸收等后,衰减预设值所需的时间。示例性地,混响时间可以以T60、T30、T20等表示。以T60为例,T60用于表示声波的能量衰减预设值60dB所需的时间,T60的取值范围可以在[0.1,1.5]之间。
环境陈设参数用于表征模拟场景内的陈设情况,例如模拟房间内的桌椅、桌面摆设、家具电器等的摆放情况。示例性地,环境陈设参数以R表示,其取值范围可以在[0.1,2.5]之间。
本申请实施例通过调整场景布置参数,能够快速模拟不同的场景种类(如房间种类)和场景中的陈设情况,而无需进行各类场景建模,从而降低了模拟冲激响应的获取成本,以及提高了模拟冲激响应的获取效率和多样性。
步骤302,对于每个采样时刻,根据采样时刻下的第二距离,构建原始声源在采样时刻下的至少一个虚拟声源,该虚拟声源用于模拟原始声源对应的声波在模拟场景中的反射情况。
在真实场景中一般存在大量的物体,原始声源和接收器之间存在直达声(即直达声波)之外,还存在各种各样的反射声(即反射声波)。本申请实施例采用镜面源反射模型、反射模型等中的虚拟声源来等效表征反射声对应的等效声源。虚拟声源对应的模拟行进距离即可等效表征反射声的反射距离。
示例性地,参考图2,第一距离205对应的直线可以表征原始声源201对应的直达声到达第一个接收器的路径,模拟行进距离203或模拟行进距离204对应的直线可以表征原始声源201对应的反射声到达第一个接收器的反射路径。
在一个示例中,如图4所示,步骤302还可以包括如下几个子步骤:
步骤302a,根据采样时刻下的第二距离,获取采样时刻下的至少一个距离变换系数,该距离变换系数以阵列中心为参考。
距离变换系数用于表征原始声源与接收器阵列之间的位置关系。示例性地,参考图5,对于原始声源c对应的虚拟声源501,其与阵列中心O之间的距离502(即模拟行进距离),可通过原始声源c与阵列中心O之间的第二距离503计算得到,也即距离变换系数也可表征虚拟声源的三维坐标与阵列中心的三维坐标之间的转换关系。
示例性地,距离变换系数的获取过程可以如下:
1、获取至少一个第一变量值,该第一变量值的出现概率满足第一概率密度分布函数,第一概率密度分布函数用于表征第一变量值的大小与第一变量值的出现概率呈正相关关系。
由于在真实场景中一般陈设有大量物体,声波通常需要经过多次反射才能被接收器所接收的可能性较大,因此,反射声对应的反射距离应当远大于直达声对应的第一距离,且该类反射距离的数量也较多,而与直达声对应的第一距离相近的反射距离较少。同时,考虑到声波的反射次数越多,反射距离越大,本申请实施例采用第一概率密度来表征这一特征,以使得得到的虚拟声源更贴合真实反射情况。
在本申请实施例中,采用模拟行进距离来等效表征反射声对应的反射距离,也即模拟行进距离等效表征从原始声源处开始,原始声源发出的声波经反射后被接收器所接收这一过程中声波行进的距离。
示例性地,第一概率密度分布函数可以表示如下:
其中,对于每个原始声源,从P(x)中随机抽样选择RT个第一变量值,第c个原始声源对应的RT个第一变量值记为α和β为P(x)的边界参数。
2、基于至少一个第一变量值和采样时刻下的第二距离,获取采样时刻下的至少一个距离变换系数。
可选地,距离变换系数的获取过程可以采用如下公式表示:
其中,为第c个原始声源在/>下的第i个距离变换系数,/>为第c个原始声源对应的第i个第一变量值,α和β为参数,其可取α=0.25、β=1,V为音速,即声波的传播速度,其可取340m/s。
步骤302b,根据采样时刻下的至少一个距离变换系数和阵列中心的三维坐标,确定原始声源在采样时刻下的至少一个虚拟声源的三维坐标。
示例性地,虚拟声源的三维坐标获取过程可以如下:
1、随机确定至少一个距离变换系数分别对应的三维旋转角,该三维旋转角包括方向角和俯仰角。
三维旋转角用于表征虚拟声源和原始声源之间的方向关系。示例性地,对于第c个原始声源对应的RT个距离变换系数,随机采样RT个三维旋转角:其中,为第c个原始声源对应的第i个方向角,/>为第c个原始声源对应的第i个俯仰角。
例如,参考图5,记方向角为θ,俯仰角为则原始声源c对应的虚拟声源501和原始声源c之间的方向关系可以表示为/>
2、对于每个距离变换系数,根据三维旋转角构建距离变换系数对应的过渡三维坐标。
可选地,对于第c个原始声源对应的第i个过渡三维坐标,其可以表示为:
3、通过距离变换系数,对距离变换系数对应的过渡三维坐标进行转换,得到距离变换系数对应的转换三维坐标。
可选地,将距离变换系数与过渡三维坐标之间的乘积,确定为转换三维坐标,则对于第c个原始声源对应的第i个转换三维坐标,其可以表示为:
4、根据每个距离变换系数分别对应的转换三维坐标,以及阵列中心的三维坐标,确定至少一个虚拟声源分别对应的三维坐标。
可选地,将转换三维坐标和阵列中心的三维坐标之间的和值,确定为虚拟声源对应的三维坐标,则对于第c个原始声源对应的第i个虚拟声源的三维坐标,其可以表示为:
步骤302c,在虚拟声源的三维坐标处构建虚拟声源。
可选地,在模拟场景中,在虚拟声源的三维坐标处标记出该虚拟声源,也可以仅记录该虚拟声源的三维坐标,而无需真实构建虚拟声源,以减少工作量,本申请实施例对此不作限定。
步骤303,根据至少一个虚拟声源的三维坐标和各个接收器分别对应的三维坐标,确定至少一个虚拟声源分别与各个接收器之间的模拟行进距离。
虚拟声源为原始声源对应的反射声等效出来的声源,该反射声对应的反射距离等效于其对应的虚拟声源与接收器之间的直线距离(即模拟行进距离),则虚拟声源和接收器之间的模拟行进距离可以表示如下:
其中,i大于或等于1,且小于或等于RT,为第c个原始声源对应的第i个虚拟声源与第m个接收器之间的模拟行进距离。可选地,可以将第c个原始声源与第m个接收器之间的第一距离,集成到/>中,如记/>(即i=0)为第c个原始声源与第m个接收器之间的第一距离。可选地,下文中的/>均包括第一距离和模拟行进距离。
在本申请实施例中,对于每个虚拟声源,其到阵列中心的距离与其到接收器的距离,满足接收器阵列的拓扑结构对应的几何约束关系,如此可以保留接收器阵列的拓扑结构信息、原始声源与接收器阵列之间的方向信息和位置关系,贴合真实场景,从而提高多通道下的冲激响应的模拟有效性和真实性(即接收器阵列下的模拟冲激响应的获取)。
步骤304,基于采样时刻下的第一距离和模拟行进距离,获取在采样时刻下原始声源和各个接收器之间的反射比例,该反射比例与模拟行进距离呈正相关关系。
反射比例可用于表征原始声源对应的反射情况的复杂程度,如原始声源对应的反射声的反射次数。原始声源和接收器之间的反射比例包括原始声源对应的直达声和接收器之间的反射比例,以及原始声源对应的反射声(即虚拟声源)和接收器之间的反射比例。
在一个示例中,如图6所示,步骤304还包括如下几个子步骤:
步骤304a,从采样时刻下的第一距离中确定最大第一距离。
可选地,对于第c个原始声源,获取该采样时刻下第c个原始声源分别与各个接收器之间的第一距离,再从该多个第一距离中确定最大第一距离。
示例性地,该采样时刻下的最大第一距离的获取过程可以表示为:
其中,/>可以表示为某一采样时刻下第c个原始声源对应的所有第一距离。
步骤304b,根据声波的行进距离与反射次数的正相关关系,基于最大第一距离确定最大反射次数。
可选地,声波的行进距离与反射次数之间应当存在正相关关系,也即行进距离越长的声波可能经历的反射次数越多。基于该正相关关系,在已知行进距离的情况下即可获知相应的反射次数。
示例性地,最大反射次数可用于表征声波的能量衰减60dB时所经历的反射次数,基于行进距离与反射次数之间的正相关关系,最大反射次数与最大第一距离之间也呈正相关关系,由此,可确定出原始声波在某一采样时刻下的最大反射次数。
示例性地,第c个原始声源与第m个接收器对应的最大反射次数可以表示如下:
其中,RC为反射系数(为声波的能量衰减系数),V为音速。
步骤304c,根据最大反射次数,以及采样时刻下的第一距离和模拟行进距离,获取在采样时刻下原始声源和各个接收器之间的反射比例。
示例性地,以各个接收器中的目标接收器为例,反射比例的获取过程可以如下:
1、将目标接收器对应的在采样时刻下的第一距离和模拟行进距离组合成目标行进距离序列。
目标接收器可以是指接收器阵列中的任一个接收器。示例性地,获取第c个原始声源与目标接收器之间的第一距离,以及第c个原始声源与目标接收器对应的所有模拟行进距离,对第一距离和所有模拟行进距离进行组合,得到第c个原始声源和目标接收器对应的目标行进距离序列(即上述的)。
2、根据声波的传播速度和模拟场景对应的混响时间,对目标行进距离序列中的各个行进距离进行调整,得到调整行进距离序列。
可选地,分别将标行进距离序列中的各个行进距离,与声波的传播速度和混响时间进行相除,得到调整行进距离序列。示例性地,第c个原始声源和目标接收器对应的调整行进距离序列记为:
3、对最大反射次数和第一数值进行求差,得到第一差值。
可选地,上述第一数值可以为1,则第一差值可以表示如下为:
4、根据调整行进距离序列中的各个行进距离和第一差值,获取在采样时刻下原始声源和目标接收器之间的反射比例。
可选地,对调整行进距离序列中的行进距离进行求平方,得到第一平方值,再将第一平方值和第一差值进行相乘,得到过渡反射比例,最后对过渡反射比例和1进行求和得到反射比例。
示例性地,第c个原始声源和目标接收器m之间的反射比例可以表示如下:
其中,在i大于或等于1,且小于或等于RT的情况下,为第c个原始声源对应的第i个虚拟声源与目标接收器m之间的反射比例;在i等于0的情况下,/>为第c个原始声源对应的直达声与目标接收器m之间的反射比例。
由于在声波的反射过程中,可能存在如下情况:声波的行进距离相等,但属于不同的反射路径,因此可能具有不同的反射次数与能量衰减情况。同时,声波会在真实场景内进行随机散射,因此行进距离和反射次数也具有随机性。因此,为了模拟上述情况并增强模拟声波的随机性,本申请实施例在获取反射比例之后,还会对反射比例进行更新。
在一个示例中,反射比例的更新过程可以如下:
1、获取原始声源对应的随机反射波动,该随机反射波动是从第一均匀分布中随机采样得到的。
随机反射波动用于增加反射比例的随机性。示例性地,设上述随机反射波动满足第一均匀分布,其表示如下:
其中,~U(-2,2)表示从上下界分别为2和-2的第一均匀分布中进行随机采样,为第c个原始声源对应的第i个反射比例对应的随机反射波动。
可选地,考虑到原始声源对应的反射距离(即模拟行进距离)一般远大于接收器阵列中各个接收器之间的距离,因此在本申请实施例中,所有接收器也可以共享随机反射波动,也即一个原始声源对应一个随机反射波动,如此可以进一步减少计算量,从而降低计算复杂度,进而提高模拟冲激响应的获取效率。
2、根据随机反射波动对反射比例进行更新,以得到添加随机反射波动的反射比例。
可选地,对于第c个原始声源和目标接收器m之间的反射比例,其对应的添加随机反射波动的反射比例可以表示如下:
其中,η为更新时与模拟行进距离相关的参数,例如可以取值为0.25等,为第c个原始声源和目标接收器m对应的目标行进距离序列中的第i个行进距离,也即根据第i个行进距离和其对应的随机反射波动,获取调整参数,再将该调整参数与第i个反射比例进行求和,即可得到第c个原始声源和目标接收器m之间的第i个添加随机反射波动的反射比例。
可选地,在模拟冲激响应的获取过程中,采用的是添加随机反射波动的反射比例。本申请实施例通过随机生成每个原始声源对应的随机反射波动,使得模拟的声波具备更强的随机性,所模拟的声波反射情况更加真实、符合真实物理世界中的声波反射和散射情况,进而生成的模拟冲激响应更加真实。
步骤305,根据各个采样时刻下的反射比例、第一距离、模拟行进距离和环境空间参数,获取原始声源在接收器阵列处的模拟冲激响应。
模拟冲激响应是指对模拟场景中的原始声源在接收器阵列处的冲激响应进行模拟得到的,该模拟冲激响应也可以被称之为多通道下的模拟冲激响应。示例性地,在模拟场景为模拟房间的情况下,该模拟冲激响应为多通道下的模拟RIR。
可选地,原始声源在接收器阵列处的模拟冲激响应为衡量原始声源对应的声波在模拟场景中传播时的延迟和能量衰减情况的有限冲激响应滤波器,其可以包括不同时刻下,原始声源对应的直达声和反射声分别对应的延迟和能量衰减情况。其中,延迟可以采用声波传播到接收器处的采样时刻(记为达到时刻)来表征,也即该到达时刻与声波的采样时刻(记为出发时刻)之间的差值即为延迟。能量衰减情况可以采用声波在传播过程中的反射损失来表征,该反射损失可用于表征原始声源在场景中对应的能量衰减情况。
在一个示例中,如图7所示,步骤305还可以包括如下几个子步骤:
步骤305a,构建初始状态下的模拟冲激响应,该初始状态下的模拟冲激响应为全零元素的二维矩阵,二维矩阵的行对应接收器,二维矩阵的列对应采样时刻。
上述二维矩阵中的元素即为模拟冲激响应中的参数,其用于表征声波对应的反射损失。示例性地,第c个原始声源对应的模拟冲激响应可记为:其中,M为接收器的数量,LRIR=Ceil(srh×T60)为模拟冲激响应的有效长度,即模拟冲激响应在混响时间结束时,当前采样率srh下的长度,Ceil()为向上取整函数。在本申请实施例中,模拟冲激响应的有效长度可用混响时间内当前采样率srh下的多个采样时刻来表征。可选地,采样时刻的数量上限可以基于采样时刻对应的采样率和混响时间来确定,则其可以表示为:srh×T60×2。
例如,上述初始状态下的模拟冲激响应可表示如下:
其中,第1行中的元素表示第c个原始声源在第1个接收器处的模拟冲激响应,最后一行中的元素表示第c个原始声源在第M个接收器处的模拟冲激响应,第一列对应第一个采样时刻,最后一列对应最后一个采样时刻。
步骤305b,对于接收器阵列中的每个接收器,根据原始声源和接收器在各个采样时刻下对应的反射比例、第一距离、模拟行进距离和环境空间参数,确定原始声源和接收器在各个采样时刻下对应的模拟反射损失,该模拟反射损失用于表征原始声源在模拟场景中对应的能量衰减情况。
模拟反射损失用于模拟原始声源在模拟场景中的反射损失,其可以模拟声波在经过一定反射次数(以反射比例表征)的反射后的能量损失。
示例性地,模拟反射损失的获取过程可以如下:
1、根据环境空间参数获取模拟场景对应的反射系数,该反射系数是指声波的能量衰减系数。
反射系数用于表征声波在反射过程中经障碍物(如墙体)吸收后的能量衰减情况,反射系数与模拟场景相关,不同模拟场景下的反射系数不同。在一个示例中,反射系数可以基于混响时间和环境陈设参数来确定,该过程可以采用如下公式表示:
2、对于每个采样时刻,以反射比例为指数、反射系数为底数,计算得到第一参数。
可选地,第c个原始声源和第m个接收器对应的第一参数可以包括直达声和虚拟声源分别对应的第一参数,其可以表示为:其中,在i=0的情况下,/>为直达声对应的第一参数。
3、对第一参数与第一距离进行相除,得到原始声源对应的直达声与接收器在各个采样时刻下对应的模拟反射损失,以及对第一参数与模拟行进距离进行相除,得到原始声源对应的虚拟声源与接收器在各个采样时刻下对应的模拟反射损失。
由于原始声源对应的声波(包括直达声和反射声)到每个接收器(即通道)的行进距离不同,因此,其在不同通道所对应的模拟反射损失也会根据该行进距离变化。
示例性地,第c个原始声源和第m个接收器之间的模拟反射损失可以表示如下:
其中,在i=0的情况下,为直达声对应的模拟反射损失,在i大于0的情况下,/>为反射声(即虚拟声源)对应的模拟反射损失。
步骤305c,根据原始声源和接收器在各个采样时刻下对应的第一距离和模拟行进距离,获取模拟反射损失对应的时刻索引,该时刻索引用于表征模拟反射损失在二维矩阵中的位置。
时刻索引是指针对采样时刻生成的索引,其用于指示出原始声源对应的直达声和反射声到达接收器时对应的采样时刻。由于原始声源对应的声波(包括直达声和反射声)到每个接收器(即通道)的行进距离不同,因此,其在不同通道所对应的时刻索引也会根据该行进距离变化。
示例性地,第c个原始声源和第m个接收器对应的时刻索引可以表示如下:
其中,在i=0的情况下,为直达声对应的时刻索引(即直达延迟),在i大于0的情况下,/>为反射声(即虚拟声源)对应的时刻索引(即反射延迟)。其中,直达延迟是指原始声源与接收器之间的直达声,从原始声源传播到接收器所需要的时间,反射延迟是指原始声源与接收器之间的反射声,经过反射后传播到接收器所需要的时间。
步骤305d,根据模拟反射损失对应的时刻索引,将模拟反射损失更新进初始状态下的模拟冲激响应,获取模拟冲激响应。
对于第c个原始声源和第m个接收器,根据第i个模拟反射损失对应的时刻索引,确定第i个模拟反射损失在Fc中的所在列则可将第i个模拟反射损失更新至二维矩阵中的第m行、第/>列。示例性地,该过程可以表示如下:
即将第m行、第/>列的原有元素与模拟反射损失/>进行相加,其对于具有相同索引时刻的模拟反射损失也适用。
采用与上述相同的方法,分别将第c个原始声源和各个接收器之间的RT+1个模拟反射损失更新进初始状态下的模拟冲激响应,即可得到第c个原始声源在接收器阵列处的模拟冲激响应。
可选地,对于多个原始声源,在获取多个原始声源分别在接收器阵列处的模拟冲激响应之后,将相同位置上的元素进行求和,即可得到该多个原始声源接收器阵列处的最终模拟冲激响应,记为
承前所述,以高采样率(即srh)进行采样,能够捕捉原始声源细微的位置变化对模拟冲激响应的影响。但由于最先开始是在一个较高的采样率下进行采样的,较高的采样率采样得到的数据量较大。同时,在高采样率下所采样得到的数据中,可能存在噪声数据,因此通常采用滤波的方式对模拟冲激响应进行处理。但如果直接对以高采样率进行采样得到的数据进行滤波,计算量太大。因此,为了降低数据计算量并提高效率,可以采用如下方法对模拟冲激响应进行优化,其具体可以包括如下内容:
1、以第一采样率对模拟冲激响应进行下采样处理,得到初步优化后的模拟冲激响应。
该第一采样率小于上述采样时刻对应的采样率,记第一采样率为sr1,则有sr1小于srh
示例性地,将采样率降低至第一采样率,对模拟冲激响应Fc进行下采样处理,即可得到初步优化后的模拟冲激响应初步优化后的模拟冲激响应/>对应的列数小于模拟冲激响应Fc对应的列数。
2、以第一截断频率对初步优化后的模拟冲激响应进行滤波,得到二次优化后的模拟冲激响应。
如果直接将以最低的采样率对模拟冲激响应进行下采样,再进行滤波处理,由于滤波处理伴随一定的损失和失真,会导致最终得到的模拟冲激响应不完整或者不准确。因此,在对模拟冲激响应进行第一次下采样之后,可以先进行滤波处理,再以最低的采样率对模拟冲激响应进行下采样。
示例性地,可以通过高通滤波器,以第一截断频率对初步优化后的模拟冲激响应进行滤波,得到二次优化后的模拟冲激响应/>二次优化后的模拟冲激响应/>对应的列数小于初步优化后的模拟冲激响应/>对应的列数。本申请实施例对第一截断频率的取值不作限定,例如第一截断频率可以取80Hz。
3、以第二采样率对二次优化后的模拟冲激响应进行下采样处理,得到最终的模拟冲激响应。
该第二采样率小于上述第一采样率,记第二采样率为sr,则有sr小于sr1。可选地,sr为较低的采样率,sr1为中等的采样率,srh为较高的采样率。例如,srh=sr*64,sr1=sr*8。
示例性地,将第一采样率降低至第二采样率,对二次优化后的模拟冲激响应进行下采样处理,即可得到最终的模拟冲激响应/>最终的模拟冲激响应/>对应的列数小于二次优化后的模拟冲激响应/>对应的列数。如此通过对模拟冲激响应进行优化处理,可使得模拟冲激响应更加准确。
综上所述,本申请实施例提供的技术方案,通过场景布置参数来表征真实场景,使得可通过调整场景布置参数能够快速模拟不同的场景种类(如房间种类)和场景中的陈设情况,并能够覆盖不同种类的边界空间与环境类型,无需进行各类场景建模,从而降低了模拟冲激响应的获取成本,以及提高了模拟冲激响应的获取效率和多样性。
另外,通过基于原始声源与各个接收器之间的第一距离来获取反射比例,以及基于原始声源与接收器阵列的阵列中心之间的第二距离来构建虚拟声源,保留了原始声源和接收器阵列之间的空间信息(如方向信息和位置信息),从而基于反射比例和虚拟声源,即可实现多通道下的冲激响应的模拟,而无需进行场景建模,也无需对物理仿真的每一条声波的反射路径进行计算,计算的复杂度大大降低,从而提高了多通道RIR的获取效率,以及多通道RIR的获取方法的普适性。
另外,基于原始声源与接收器阵列的阵列中心之间的第二距离来构建虚拟声源,以及基于虚拟声源的三维坐标和接收器分的三维坐标,确定虚拟声源与接收器之间的模拟行进距离,能够模拟声波从原始声源到各个接收器之间各种各样的反射路径,并生成不同的反射距离,使得原始声源在多通道下的模拟反射情况更贴合真实的反射情况,从而提高了多通道RIR的获取真实性。
另外,通过替代反射模型与散射模型中需要较大计算量的物理建模部分,在保留声波传播的物理意义的同时,增强了声波传播路径与房间内陈设情况的随机性,相对于只能对方形房间建模的反射与散射模型而言,本申请实施例提供的技术方案能够真实地模拟物理世界中的声波传播情况。
另外,通过采用坐标形式随机生成原始声源、虚拟声源和接收器的位置,使得本申请实施例提供的技术方案适用于任意拓扑结构的接收器阵列或自组织接收器阵列,并可根据具体需要调整坐标范围及相对角度(如声源(包括原始声源和虚拟声源)的入射角、声源间的夹角、声源和阵列的距离等),从而可快速模拟声波的各种反射情况,在效率更高的同时能够保证模拟冲激响应符合真实的物理场景。同时,通过随机生成模拟行进距离并确定用于表征反射次数的反射比例,避免了传统物理仿真中逐个对声波的每条传播路径进行的复杂仿真计算,进一步提高了模拟冲激响应的获取效率。
在一个示例性实施例中,本申请实施例提供的冲激响应的确定方法,能够快速生成大量多通道下的模拟冲激响应。该模拟冲激响应可以用于各种各样的场景。示例性地,相较于单通道RIR,多通道RIR可以营造出声源的深度、方向和空间感,因此其可用于诸如远场音频数据增强、音频阵列信号处理模型的训练、沉浸式多媒体系统(如VR、AR等)等场景下的实时室内声场模拟。例如通过与原始的音频数据进行混合处理,生成带混响的音频数据,以作为各种音频处理模型(如音频阵列信号处理模型)的输入,对音频处理模型进行训练。或者,基于原始的音频数据生成带混响的音频数据,从而实现音频的带混响效果。
在一个示例中,在生成模拟冲激响应之后,计算机设备可以将其与原始的音频数据进行混合,从而生成带混响的音频数据。示例性地,获取待处理的音频数据,基于模拟冲激响应对音频数据进行卷积处理,生成带混响的音频数据。
其中,该音频数据可以是一段语音、一段音乐等。基于所得到的模拟冲激响应,计算机设备将其与待处理的音频数据进行卷积处理,生成带混响的音频数据。通过调整场景布置参数并结合模拟的声波反射和散射情况,能够快速生成各种房间类型下的模拟冲激响应。进而,对于待处理的音频数据,通过调整场景布置参数,能够快速生成大量混响程度不同的带混响的音频数据。
在另一个示例中,通过上述方式快速生成大量的带混响的音频数据,在音频处理模型的数据集准备阶段,能够提供大量的训练样本,为后续模型的训练过程提供了有力的数据支持。并且,通过上述方法所生成的带混响的音频数据真实可靠,进而能够提高所训练的音频处理模型的准确度。
示例性地,在带混响的音频数据中添加噪声得到待训练数据,确定与待训练数据对应的参考音频数据,参考音频数据包括带混响去噪音频数据、及去混响去噪音频数据中的至少一种,基于待训练数据和相对应的参考音频数据,对待训练的音频处理模型进行训练,得到训练完成的音频处理模型。
在又一个示例中,音频处理模型用于对音频进行轻度去噪,即去除音频数据中的噪声。可选地,该音频处理模型还可用于对音频进行深度去噪,即去除音频数据中的噪声,并且去掉音频数据中的晚期混响。如此通过将待混响的音频数据作为音频处理模型的输入样本,能够极大地扩充样本数量,实现对样本的增强处理,能够帮助提高音频处理模型的准确度。
示例性地,上述音频处理模型可以用于对给定的音频数据进行去噪、去混响,或者对于给定的音频数据,输出有混响效果的音频。例如,在音乐分离任务中,需要将语音音频与伴奏音频进行分离,得到纯净的语音音频、纯净的伴奏音频。由此,本申请实施例提供的技术方案能够应用在音乐领域,实现语音音频和伴奏音频的快速分离,并且分离的准确度高。可选地,本申请提供的技术方案还可以应用在其他应用场景中,例如音乐播放、在线直播、在线会议、车载智能对话、智能音箱、智能顶盒、人声模拟等场景中的一种或多种。
在一个示例中,本申请提供的技术方案,还可以通过集成的代码的方式,内嵌于各种具有音频输入或输出的装置上,例如麦克风、降噪耳机等。
在一个示例性实施例中,在上述冲激响应为RIR的情况下,可以将本申请实施例提供的技术方案简称为FRA-MC-RIR(Fast Random Approximation of Multichannel RoomImpulse Response,快速多通道房间冲激响应)模拟方法。
本申请实施例在远场语音分离上验证了FRA-MC-RIR模拟方法与其他方案之间的性能差异。在对比过程中,本申请实施例使用同样的训练模式与模型,仅在训练数据生成时使用不同的RIR模拟方法生成的RIR来合成带混响数据。
进行模型对比时,本申请实施例使用利用真实多通道RIR合成的带混响与噪声的音频来进行测试,此项对比旨在验证不同的RIR模拟方法所生成的训练用RIR是否能使模型在真实RIR数据下获得较好的性能,对比结果如下述表1。
表1
其中,*表示该RIR模拟方法需要具有GPU(Graphics Processing Unit,图形处理器)的计算平台。PyRoomAcoustics和GpuRIR为其他多通道RIR模拟方法。
上述表1展示了不同模型在远场语音分离任务中的性能,本申请实施例使用尺度不变的信干比(Scale-Invariant Aignal-to-Distortion Ratio,SI-SDR)和语音感知质量(Perceptual Evaluation of Speech Quality,PESQ)作为指标(均为值越高越好)。从表1可以看到,相较于其他多通道RIR模拟方法,FRA-MC-RIR模拟方法可将复杂的物理仿真转化为具有一定自由度的快速随机模拟,因此不需要特定计算处理器来进行加速,且在同样计算平台下,速度比其他多通道RIR模拟方法快4-10倍,显著提升了训练速度,且能在真实多通道RIR合成的测试数据下获得更好的模型性能,其证明了FRA-MC-RIR模拟方法的高效率与有效性。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
参考图8,其示出了本申请一个实施例提供的冲激响应的确定装置的框图。该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备中。如图8所示,该装置800包括:场景参数获取模块801、虚拟声源构建模块802、行进距离模拟模块803、反射比例获取模块804和冲激响应确定模块805。
场景参数获取模块801,用于获取模拟场景对应的场景布置参数,所述场景布置参数包括不同采样时刻下的距离参数和环境空间参数,所述距离参数包括接收器阵列中各个接收器分别与原始声源之间的第一距离,以及所述接收器阵列的阵列中心与所述原始声源之间的第二距离,所述环境空间参数用于表征所述模拟场景的物理情况。
虚拟声源构建模块802,用于对于每个所述采样时刻,根据所述采样时刻下的第二距离,构建所述原始声源在所述采样时刻下的至少一个虚拟声源,所述虚拟声源用于模拟所述原始声源对应的声波在所述模拟场景中的反射情况。
行进距离模拟模块803,用于根据所述至少一个虚拟声源的三维坐标和各个所述接收器分别对应的三维坐标,确定所述至少一个虚拟声源分别与各个所述接收器之间的模拟行进距离。
反射比例获取模块804,用于基于所述采样时刻下的第一距离和模拟行进距离,获取在所述采样时刻下所述原始声源和各个所述接收器之间的反射比例,所述反射比例与所述模拟行进距离呈正相关关系。
冲激响应确定模块805,用于根据各个所述采样时刻下的反射比例、第一距离、模拟行进距离和环境空间参数,获取所述原始声源在所述接收器阵列处的模拟冲激响应。
在一些实施例中,如图9所示,所述虚拟声源构建模块802,包括:变换系数获取子模块802a、三维坐标获取子模块802b和虚拟声源构建子模块802c。
变换系数获取子模块802a,用于根据所述采样时刻下的第二距离,获取所述采样时刻下的至少一个距离变换系数,所述距离变换系数以所述阵列中心为参考。
三维坐标获取子模块802b,用于根据所述采样时刻下的至少一个距离变换系数和所述阵列中心的三维坐标,确定所述原始声源在所述采样时刻下的至少一个虚拟声源的三维坐标。
虚拟声源构建子模块802c,用于在所述虚拟声源的三维坐标处构建所述虚拟声源。
在一些实施例中,所述变换系数获取子模块802a,用于:
获取至少一个第一变量值,所述第一变量值的出现概率满足第一概率密度分布函数,所述第一概率密度分布函数用于表征所述第一变量值的大小与所述第一变量值的出现概率呈正相关关系;
基于所述至少一个第一变量值和所述采样时刻下的第二距离,获取所述采样时刻下的至少一个距离变换系数。
在一些实施例中,所述三维坐标获取子模块802b,用于:
随机确定所述至少一个距离变换系数分别对应的三维旋转角,所述三维旋转角包括方向角和俯仰角;
对于每个所述距离变换系数,根据所述三维旋转角构建所述距离变换系数对应的过渡三维坐标;
通过所述距离变换系数,对所述距离变换系数对应的过渡三维坐标进行转换,得到所述距离变换系数对应的转换三维坐标;
根据每个所述距离变换系数分别对应的转换三维坐标,以及所述阵列中心的三维坐标,确定所述至少一个虚拟声源分别对应的三维坐标。
在一些实施例中,如图9所示,所述反射比例获取模块804,包括:最大距离获取子模块804a、最大次数获取子模块804b和反射比例获取子模块804c。
最大距离获取子模块804a,用于从所述采样时刻下的第一距离中确定最大第一距离。
最大次数获取子模块804b,用于根据声波的行进距离与反射次数的正相关关系,基于所述最大第一距离确定最大反射次数。
反射比例获取子模块804c,用于根据所述最大反射次数,以及所述采样时刻下的第一距离和模拟行进距离,获取在所述采样时刻下所述原始声源和各个所述接收器之间的反射比例。
在一些实施例中,所述反射比例获取子模块804c,用于:
对于各个所述接收器中的目标接收器,将所述目标接收器对应的在所述采样时刻下的第一距离和模拟行进距离组合成目标行进距离序列;
根据声波的传播速度和所述模拟场景对应的混响时间,对所述目标行进距离序列中的各个行进距离进行调整,得到调整行进距离序列;
对所述最大反射次数和第一数值进行求差,得到第一差值;
根据所述调整行进距离序列中的各个行进距离和所述第一差值,获取在所述采样时刻下所述原始声源和所述目标接收器之间的反射比例。
在一些实施例中,如图9所示,所述装置800,还包括:反射波动获取模块806和反射比例更新模块807。
反射波动获取模块806,用于获取所述原始声源对应的随机反射波动,所述随机反射波动是从第一均匀分布中随机采样得到的。
反射比例更新模块807,用于根据所述随机反射波动对所述反射比例进行更新,以得到添加所述随机反射波动的所述反射比例。
在一些实施例中,如图9所示,所述冲激响应确定模块805,包括:初始响应构建子模块805a、反射损失确定子模块805b、时刻索引获取子模块805c和冲激响应确定子模块805d。
初始响应构建子模块805a,用于构建初始状态下的模拟冲激响应,所述初始状态下的模拟冲激响应为全零元素的二维矩阵,所述二维矩阵的行对应所述接收器,所述二维矩阵的列对应所述采样时刻。
反射损失确定子模块805b,用于对于所述接收器阵列中的每个接收器,根据所述原始声源和所述接收器在各个所述采样时刻下对应的反射比例、第一距离、模拟行进距离和环境空间参数,确定所述原始声源和所述接收器在各个所述采样时刻下对应的模拟反射损失,所述模拟反射损失用于表征所述原始声源在所述模拟场景中对应的能量衰减情况。
时刻索引获取子模块805c,用于根据所述原始声源和所述接收器在各个所述采样时刻下对应的第一距离和模拟行进距离,获取所述模拟反射损失对应的时刻索引,所述时刻索引用于表征所述模拟反射损失在所述二维矩阵中的位置。
冲激响应确定子模块805d,用于根据所述模拟反射损失对应的时刻索引,将所述模拟反射损失更新进所述初始状态下的模拟冲激响应,获取所述模拟冲激响应。
在一些实施例中,所述反射损失确定子模块805b,用于:
根据所述环境空间参数获取所述模拟场景对应的反射系数,所述反射系数是指声波的能量衰减系数;
对于每个所述采样时刻,以所述反射比例为指数、所述反射系数为底数,计算得到第一参数;
对所述第一参数与所述第一距离进行相除,得到所述原始声源对应的直达声与所述接收器在各个所述采样时刻下对应的模拟反射损失;
对所述第一参数与所述模拟行进距离进行相除,得到所述原始声源对应的虚拟声源与所述接收器在各个所述采样时刻下对应的模拟反射损失。
在一些实施例中,如图9所示,所述装置800,还包括:反射损失优化模块808。所述反射损失优化模块808,用于:
以第一采样率对所述模拟冲激响应进行下采样处理,得到初步优化后的模拟冲激响应;
以第一截断频率对所述初步优化后的模拟冲激响应进行滤波,得到二次优化后的模拟冲激响应;
以第二采样率对所述二次优化后的模拟冲激响应进行下采样处理,得到最终的模拟冲激响应;其中,所述第一采样率小于所述采样时刻对应的采样率,所述第二采样率小于所述第一采样率。
综上所述,本申请实施例提供的技术方案,通过场景布置参数来表征真实场景,使得可通过调整场景布置参数能够快速模拟不同的场景种类(如房间种类)和场景中的陈设情况,并能够覆盖不同种类的边界空间与环境类型,无需进行各类场景建模,从而降低了模拟冲激响应的获取成本,以及提高了模拟冲激响应的获取效率和多样性。
另外,通过基于原始声源与各个接收器之间的第一距离来获取反射比例,以及基于原始声源与接收器阵列的阵列中心之间的第二距离来构建虚拟声源,保留了原始声源和接收器阵列之间的空间信息(如方向信息和位置信息),从而基于反射比例和虚拟声源,即可实现多通道下的冲激响应的模拟,而无需进行场景建模,也无需对物理仿真的每一条声波的反射路径进行计算,计算的复杂度大大降低,从而提高了多通道RIR的获取效率,以及多通道RIR的获取方法的普适性。
另外,基于原始声源与接收器阵列的阵列中心之间的第二距离来构建虚拟声源,以及基于虚拟声源的三维坐标和接收器分的三维坐标,确定虚拟声源与接收器之间的模拟行进距离,能够模拟声波从原始声源到各个接收器之间各种各样的反射路径,并生成不同的反射距离,使得原始声源在多通道下的模拟反射情况更贴合真实的反射情况,从而提高了多通道RIR的获取真实性。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图10,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备1000可以用于实施上述实施例中提供的冲激响应的确定方法。该计算机设备1000可以是任何具备数据计算、处理和存储功能的电子设备,具体来讲:
该计算机设备1000包括中央处理单元(如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和FPGA(Field Programmable GateArray,现场可编程逻辑门阵列)等)1001、包括RAM(Random-Access Memory,随机存取存储器)1002和ROM(Read-Only Memory,只读存储器)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。该计算机设备1000还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input Output System,I/O系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
该基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中,该显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。该基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
该大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。该大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,该大容量存储设备1007可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本申请实施例,该计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在该系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,所述计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述冲激响应的确定方法。
在一些实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上述冲激响应的确定方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在一些实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机程序,所述处理器执行所述计算机程序,使得所述计算机设备执行上述冲激响应的确定方法。
需要说明的是,本申请所涉及的信息(包括但不限于对象设备信息、对象个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经对象授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的模拟场景、原始声源、接收器阵列等都是在充分授权的情况下获取的。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种冲激响应的确定方法,其特征在于,所述方法包括:
获取模拟场景对应的场景布置参数,所述场景布置参数包括不同采样时刻下的距离参数和环境空间参数,所述距离参数包括接收器阵列中各个接收器分别与原始声源之间的第一距离,以及所述接收器阵列的阵列中心与所述原始声源之间的第二距离,所述环境空间参数用于表征所述模拟场景的物理情况;
对于每个所述采样时刻,根据所述采样时刻下的第二距离,构建所述原始声源在所述采样时刻下的至少一个虚拟声源,所述虚拟声源用于模拟所述原始声源对应的声波在所述模拟场景中的反射情况;
根据所述至少一个虚拟声源的三维坐标和各个所述接收器分别对应的三维坐标,确定所述至少一个虚拟声源分别与各个所述接收器之间的模拟行进距离;
基于所述采样时刻下的第一距离和模拟行进距离,获取在所述采样时刻下所述原始声源和各个所述接收器之间的反射比例,所述反射比例与所述模拟行进距离呈正相关关系;
根据各个所述采样时刻下的反射比例、第一距离、模拟行进距离和环境空间参数,获取所述原始声源在所述接收器阵列处的模拟冲激响应。
2.根据权利要求1所述的方法,其特征在于,所述根据所述采样时刻下的第二距离,构建所述原始声源在所述采样时刻下的至少一个虚拟声源,包括:
根据所述采样时刻下的第二距离,获取所述采样时刻下的至少一个距离变换系数,所述距离变换系数以所述阵列中心为参考;
根据所述采样时刻下的至少一个距离变换系数和所述阵列中心的三维坐标,确定所述原始声源在所述采样时刻下的至少一个虚拟声源的三维坐标;
在所述虚拟声源的三维坐标处构建所述虚拟声源。
3.根据权利要求2所述的方法,其特征在于,所述根据所述采样时刻下的第二距离,获取所述采样时刻下的至少一个距离变换系数,包括:
获取至少一个第一变量值,所述第一变量值的出现概率满足第一概率密度分布函数,所述第一概率密度分布函数用于表征所述第一变量值的大小与所述第一变量值的出现概率呈正相关关系;
基于所述至少一个第一变量值和所述采样时刻下的第二距离,获取所述采样时刻下的至少一个距离变换系数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述采样时刻下的至少一个距离变换系数和所述阵列中心的三维坐标,确定所述原始声源在所述采样时刻下的至少一个虚拟声源的三维坐标,包括:
随机确定所述至少一个距离变换系数分别对应的三维旋转角,所述三维旋转角包括方向角和俯仰角;
对于每个所述距离变换系数,根据所述三维旋转角构建所述距离变换系数对应的过渡三维坐标;
通过所述距离变换系数,对所述距离变换系数对应的过渡三维坐标进行转换,得到所述距离变换系数对应的转换三维坐标;
根据每个所述距离变换系数分别对应的转换三维坐标,以及所述阵列中心的三维坐标,确定所述至少一个虚拟声源分别对应的三维坐标。
5.根据权利要求1所述的方法,其特征在于,所述基于所述采样时刻下的第一距离和模拟行进距离,获取在所述采样时刻下所述原始声源和各个所述接收器之间的反射比例,包括:
从所述采样时刻下的第一距离中确定最大第一距离;
根据声波的行进距离与反射次数的正相关关系,基于所述最大第一距离确定最大反射次数;
根据所述最大反射次数,以及所述采样时刻下的第一距离和模拟行进距离,获取在所述采样时刻下所述原始声源和各个所述接收器之间的反射比例。
6.根据权利要求5所述的方法,其特征在于,所述根据所述最大反射次数,以及所述采样时刻下的第一距离和模拟行进距离,获取在所述采样时刻下所述原始声源和各个所述接收器之间的反射比例,包括:
对于各个所述接收器中的目标接收器,将所述目标接收器对应的在所述采样时刻下的第一距离和模拟行进距离组合成目标行进距离序列;
根据声波的传播速度和所述模拟场景对应的混响时间,对所述目标行进距离序列中的各个行进距离进行调整,得到调整行进距离序列;
对所述最大反射次数和第一数值进行求差,得到第一差值;
根据所述调整行进距离序列中的各个行进距离和所述第一差值,获取在所述采样时刻下所述原始声源和所述目标接收器之间的反射比例。
7.根据权利要求5所述的方法,其特征在于,所述根据所述最大反射次数,以及所述采样时刻下的第一距离和模拟行进距离,获取在所述采样时刻下所述原始声源和各个所述接收器之间的反射比例之后,还包括:
获取所述原始声源对应的随机反射波动,所述随机反射波动是从第一均匀分布中随机采样得到的;
根据所述随机反射波动对所述反射比例进行更新,以得到添加所述随机反射波动的所述反射比例。
8.根据权利要求1所述的方法,其特征在于,所述根据各个所述采样时刻下的反射比例、第一距离、模拟行进距离和环境空间参数,获取所述原始声源在所述接收器阵列处的模拟冲激响应,包括:
构建初始状态下的模拟冲激响应,所述初始状态下的模拟冲激响应为全零元素的二维矩阵,所述二维矩阵的行对应所述接收器,所述二维矩阵的列对应所述采样时刻;
对于所述接收器阵列中的每个接收器,根据所述原始声源和所述接收器在各个所述采样时刻下对应的反射比例、第一距离、模拟行进距离和环境空间参数,确定所述原始声源和所述接收器在各个所述采样时刻下对应的模拟反射损失,所述模拟反射损失用于表征所述原始声源在所述模拟场景中对应的能量衰减情况;
根据所述原始声源和所述接收器在各个所述采样时刻下对应的第一距离和模拟行进距离,获取所述模拟反射损失对应的时刻索引,所述时刻索引用于表征所述模拟反射损失在所述二维矩阵中的位置;
根据所述模拟反射损失对应的时刻索引,将所述模拟反射损失更新进所述初始状态下的模拟冲激响应,获取所述模拟冲激响应。
9.根据权利要求8所述的方法,其特征在于,所述根据所述原始声源和所述接收器在各个所述采样时刻下对应的反射比例、第一距离、模拟行进距离和环境空间参数,确定所述原始声源和所述接收器在各个所述采样时刻下对应的模拟反射损失,包括:
根据所述环境空间参数获取所述模拟场景对应的反射系数,所述反射系数是指声波的能量衰减系数;
对于每个所述采样时刻,以所述反射比例为指数、所述反射系数为底数,计算得到第一参数;
对所述第一参数与所述第一距离进行相除,得到所述原始声源对应的直达声与所述接收器在各个所述采样时刻下对应的模拟反射损失;
对所述第一参数与所述模拟行进距离进行相除,得到所述原始声源对应的虚拟声源与所述接收器在各个所述采样时刻下对应的模拟反射损失。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述根据各个所述采样时刻下的反射比例、第一距离、模拟行进距离和环境空间参数,获取所述原始声源在所述接收器阵列处的模拟冲激响应之后,还包括:
以第一采样率对所述模拟冲激响应进行下采样处理,得到初步优化后的模拟冲激响应;
以第一截断频率对所述初步优化后的模拟冲激响应进行滤波,得到二次优化后的模拟冲激响应;
以第二采样率对所述二次优化后的模拟冲激响应进行下采样处理,得到最终的模拟冲激响应;
其中,所述第一采样率小于所述采样时刻对应的采样率,所述第二采样率小于所述第一采样率。
11.一种冲激响应的确定装置,其特征在于,所述装置包括:
场景参数获取模块,用于获取模拟场景对应的场景布置参数,所述场景布置参数包括不同采样时刻下的距离参数和环境空间参数,所述距离参数包括接收器阵列中各个接收器分别与原始声源之间的第一距离,以及所述接收器阵列的阵列中心与所述原始声源之间的第二距离,所述环境空间参数用于表征所述模拟场景的物理情况;
虚拟声源构建模块,用于对于每个所述采样时刻,根据所述采样时刻下的第二距离,构建所述原始声源在所述采样时刻下的至少一个虚拟声源,所述虚拟声源用于模拟所述原始声源对应的声波在所述模拟场景中的反射情况;
行进距离模拟模块,用于根据所述至少一个虚拟声源的三维坐标和各个所述接收器分别对应的三维坐标,确定所述至少一个虚拟声源分别与各个所述接收器之间的模拟行进距离;
反射比例获取模块,用于基于所述采样时刻下的第一距离和模拟行进距离,获取在所述采样时刻下所述原始声源和各个所述接收器之间的反射比例,所述反射比例与所述模拟行进距离呈正相关关系;
冲激响应确定模块,用于根据各个所述采样时刻下的反射比例、第一距离、模拟行进距离和环境空间参数,获取所述原始声源在所述接收器阵列处的模拟冲激响应。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的冲激响应的确定方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一项所述的冲激响应的确定方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如权利要求1至10任一项所述的冲激响应的确定方法。
CN202310102749.6A 2023-01-19 2023-01-19 冲激响应的确定方法、装置、设备及存储介质 Pending CN116962956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310102749.6A CN116962956A (zh) 2023-01-19 2023-01-19 冲激响应的确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310102749.6A CN116962956A (zh) 2023-01-19 2023-01-19 冲激响应的确定方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116962956A true CN116962956A (zh) 2023-10-27

Family

ID=88460730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310102749.6A Pending CN116962956A (zh) 2023-01-19 2023-01-19 冲激响应的确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116962956A (zh)

Similar Documents

Publication Publication Date Title
Raghuvanshi et al. Parametric directional coding for precomputed sound propagation
De Sena et al. Efficient synthesis of room acoustics via scattering delay networks
EP0593228B1 (en) Sound environment simulator and a method of analyzing a sound space
Lentz et al. Virtual reality system with integrated sound field simulation and reproduction
EP3808108A1 (en) Spatial audio for interactive audio environments
EP4018685A1 (en) Bidirectional propagation of sound
Chaitanya et al. Directional sources and listeners in interactive sound propagation using reciprocal wave field coding
US10911885B1 (en) Augmented reality virtual audio source enhancement
Tsingos Precomputing geometry-based reverberation effects for games
Su et al. Inras: Implicit neural representation for audio scenes
Rosen et al. Interactive sound propagation for dynamic scenes using 2D wave simulation
US20240244390A1 (en) Audio signal processing method and apparatus, and computer device
US20230306953A1 (en) Method for generating a reverberation audio signal
CN117376784A (zh) 单声道立体声场扩展方法、电子设备及存储介质
Svensson Modelling acoustic spaces for audio virtual reality
Southern et al. Rendering walk-through auralisations using wave-based acoustical models
CN116962956A (zh) 冲激响应的确定方法、装置、设备及存储介质
Vorländer et al. Simulation of sound in rooms
Bilbao et al. Directional reverberation time and the image source method for rectangular parallelepipedal rooms
Wang et al. Hearing Anything Anywhere
Agus et al. Energy-Based Binaural Acoustic Modeling
US11877143B2 (en) Parameterized modeling of coherent and incoherent sound
Yang et al. Fast synthesis of perceptually adequate room impulse responses from ultrasonic measurements
CN112989566B (zh) 基于a-加权方差的几何声音传播优化方法
Ferrer et al. Spatial Localization Using Acoustic Intensity Techniques for Binaural Audio Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication