CN113808569B - 一种混响构建方法及其相关设备 - Google Patents

一种混响构建方法及其相关设备 Download PDF

Info

Publication number
CN113808569B
CN113808569B CN202111373427.2A CN202111373427A CN113808569B CN 113808569 B CN113808569 B CN 113808569B CN 202111373427 A CN202111373427 A CN 202111373427A CN 113808569 B CN113808569 B CN 113808569B
Authority
CN
China
Prior art keywords
audio
data
audio data
nth
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111373427.2A
Other languages
English (en)
Other versions
CN113808569A (zh
Inventor
朱志鹏
马桂林
胡明清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN202111373427.2A priority Critical patent/CN113808569B/zh
Publication of CN113808569A publication Critical patent/CN113808569A/zh
Application granted granted Critical
Publication of CN113808569B publication Critical patent/CN113808569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本申请公开了一种混响构建方法及其相关设备,该方法包括:在获取到待处理音频数据之后,先根据该待处理音频数据,确定N个待使用音频数据;再根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据;其中,n为正整数,n≤N;然后,根据第1个音频滤波数据至第N个音频滤波数据,更新该N个待使用音频数据,并继续执行上述“根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据”的步骤,直至在达到预设停止条件之后,根据该N个待使用音频数据,确定混响音频数据,以使该混响音频数据能够表示出该待处理音频数据在上述“待虚拟场景”中呈现的声音效果(尤其是,接近于真实的声音效果)。

Description

一种混响构建方法及其相关设备
技术领域
本申请涉及信号处理技术领域,尤其涉及一种混响构建方法及其相关设备。
背景技术
随着音频信号处理技术的快速发展,该音频信号处理技术的应用领域范围越来越广。例如,音频信号处理技术可以应用于实景互动游戏、直播、虚拟现实、增强现实等应用场景中。
另外,对于一些应用场景(例如,实景互动游戏等)来说,用户希望可以在虚拟音频场景(例如,房间、山洞等)中感知比较真实的声音效果。然而,如何实现这一用户需求是一项亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提供一种混响构建方法及其相关设备,能够实现用户在虚拟音频场景中感知比较真实的声音效果,如此有利于提高用户体验。
本申请实施例提供了一种混响构建方法,所述方法包括:
在获取到待处理音频数据之后,根据所述待处理音频数据,确定N个待使用音频数据;其中,N为正整数;
根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据;其中,n为正整数,n≤N;
根据第1个音频滤波数据至第N个音频滤波数据,更新所述N个待使用音频数据,并继续执行所述根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据的步骤,直至在达到预设停止条件之后,根据所述N个待使用音频数据,确定混响音频数据。
在一种可能的实施方式中,所述根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据,包括:
对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据;
按照所述待虚拟场景的混响时间,对所述第n个音频延时数据进行滤波处理,得到所述第n个音频滤波数据;
所述继续执行所述根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据的步骤,包括:
继续执行所述对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据的步骤。
在一种可能的实施方式中,所述方法还包括:
确定所述第n个待使用音频数据对应的延时参数;
所述对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据,包括:
按照所述第n个待使用音频数据对应的延时参数,对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据;
所述继续执行所述对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据的步骤,包括:
继续执行所述确定所述第n个待使用音频数据对应的延时参数的步骤。
在一种可能的实施方式中,所述第n个音频滤波数据的确定过程,包括:
利用所述待虚拟场景对应的声衰减特性滤波器对所述第n个音频延时数据进行滤波处理,得到所述第n个音频滤波数据;其中,所述声衰减特性滤波器是根据所述待虚拟场景的混响时间构建的。
在一种可能的实施方式中,所述根据第1个音频滤波数据至第N个音频滤波数据,更新所述N个待使用音频数据,包括:
根据第1个音频滤波数据至第N个音频滤波数据、以及音频混合权重矩阵,更新所述N个待使用音频数据。
在一种可能的实施方式中,在所述根据第1个音频滤波数据至第N个音频滤波数据、以及音频混合权重矩阵,更新所述N个待使用音频数据之后,所述方法还包括:
更新所述音频混合权重矩阵。
在一种可能的实施方式中,所述根据第1个音频滤波数据至第N个音频滤波数据、以及音频混合权重矩阵,更新所述N个待使用音频数据,包括:
按照所述音频混合权重矩阵,对所述第1个音频滤波数据至所述第N个音频滤波数据进行混合处理,得到N个音频混合数据;
将第n个音频混合数据与所述第n个待使用音频数据进行加和处理,得到更新后的第n个待使用音频数据;其中,n为正整数,n≤N。
在一种可能的实施方式中,所述根据所述N个待使用音频数据,确定混响音频数据,包括:
根据所述N个待使用音频数据,确定待均衡音频数据;
对所述待均衡音频数据进行均衡处理,得到所述混响音频数据。
在一种可能的实施方式中,所述对所述待均衡音频数据进行均衡处理,得到所述混响音频数据,包括:
若所述待均衡音频数据满足第一均衡条件,则利用第一均衡器对所述待均衡音频数据进行均衡处理,得到所述混响音频数据;其中,所述第一均衡器是根据所述待虚拟场景的房间传递函数构建的;
若所述待均衡音频数据满足第二均衡条件,则利用第二均衡器对所述待均衡音频数据进行均衡处理,得到所述混响音频数据;其中,所述第二均衡器是根据所述待虚拟场景的双耳传递函数构建的。
在一种可能的实施方式中,所述根据所述待处理音频数据,确定N个待使用音频数据,包括:
对所述待处理音频数据进行增益处理,得到音频增益数据;
根据所述音频增益数据,确定所述N个待使用音频数据。
在一种可能的实施方式中,所述方法还包括:
获取所述待虚拟场景的声学特征参数;其中,所述声学特征参数包括所述混响时间。
在一种可能的实施方式中,所述声学特征参数的获取过程,包括:
确定所述待虚拟场景的房间冲激响应;
根据所述房间冲激响应,确定所述待虚拟场景的声学特征参数。
在一种可能的实施方式中,所述混响时间的确定过程,包括:
根据所述房间冲激响应,确定所述待虚拟场景的早期衰减时间;
根据所述待虚拟场景的早期衰减时间,确定所述待虚拟场景的混响时间。
在一种可能的实施方式中,所述声学特征参数还包括房间传递函数和/或双耳传递函数;其中,所述房间传递函数是根据所述房间冲激响应的傅里叶变换结果确定的;所述双耳传递函数包括左耳传递函数和右耳传递函数;所述左耳传递函数是根据所述房间冲激响应与第一头部相关传递函数之间的卷积结果确定的;所述右耳传递函数是根据所述房间冲激响应与第二头部相关传递函数之间的卷积结果确定的。
在一种可能的实施方式中,所述方法还包括:
若所述待处理音频数据包括至少两个通道的音频数据,则对所述至少两个通道的音频数据进行合并处理,得到音频合并数据;
所述根据所述待处理音频数据,确定N个待使用音频数据,包括:
根据所述音频合并数据,确定N个待使用音频数据。
本申请实施例还提供了一种混响构建装置,包括:
第一确定单元,用于在获取到待处理音频数据之后,根据所述待处理音频数据,确定N个待使用音频数据;其中,N为正整数;
第二确定单元,用于根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据;其中,n为正整数,n≤N;
第三确定单元,用于根据第1个音频滤波数据至第N个音频滤波数据,更新所述N个待使用音频数据,并返回所述第二确定单元继续执行所述根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据的步骤,直至在达到预设停止条件之后,根据所述N个待使用音频数据,确定混响音频数据。
本申请实施例还提供了一种混响构建设备,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的混响构建方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的混响构建方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的混响构建方法的任一实施方式。
基于上述技术方案,本申请具有以下有益效果:
本申请提供的技术方案中,在获取到待处理音频数据之后,先根据该待处理音频数据,确定N个待使用音频数据;再根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据;其中,n为正整数,n≤N;然后,根据第1个音频滤波数据至第N个音频滤波数据,更新该N个待使用音频数据,并继续执行上述步骤“根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据”,直至在达到预设停止条件之后,根据该N个待使用音频数据,确定混响音频数据,以使该混响音频数据能够表示出该待处理音频数据在上述“待虚拟场景”中呈现的声音效果。
可见,因上述“混响音频数据”是根据待虚拟场景的混响时间进行确定的,使得在播放该“混响音频数据”时所呈现的声音效果几乎接近于当待处理音频数据在上述“待虚拟场景”中进行传播时所呈现的真实声音效果,如此有利于实现用户在虚拟音频场景中感知比较真实的声音效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种混响构建方法的流程图;
图2为本申请实施例提供的一种混响构建过程的示意图;
图3为本申请实施例提供的一种声学特征参数的确定过程的示意图;
图4为本申请实施例提供的一种混响构建装置的结构示意图。
具体实施方式
发明人在针对虚拟音频场景的研究中发现,用户希望可以在虚拟音频场景中感知比较真实的声音效果。例如,当用户处于一个虚拟山洞中时,该用户希望在该虚拟山洞中体验到其在真实山洞中所能体验到的声音效果。
基于上述发现,为了解决背景技术部分所示的技术问题,本申请实施例提供了一种混响构建方法,该方法具体包括:在获取到待处理音频数据之后,先根据该待处理音频数据,确定N个待使用音频数据;再根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据;其中,n为正整数,n≤N;然后,根据第1个音频滤波数据至第N个音频滤波数据,更新该N个待使用音频数据,并继续执行上述步骤“根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据”,直至在达到预设停止条件之后,根据该N个待使用音频数据,确定混响音频数据,以使该混响音频数据能够表示出该待处理音频数据在上述“待虚拟场景”中呈现的声音效果。
可见,因上述“混响音频数据”是根据待虚拟场景的混响时间进行确定的,使得在播放该“混响音频数据”时所呈现的声音效果几乎接近于当待处理音频数据在上述“待虚拟场景”中进行传播时所呈现的真实声音效果,如此有利于实现用户在虚拟音频场景中感知比较真实的声音效果。
另外,本申请实施例不限定混响构建方法的执行主体,例如,本申请实施例提供的混响构建方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例一
参见图1,该图为本申请实施例提供的一种混响构建方法的流程图。
本申请实施例提供的混响构建方法,包括S1-S5:
S1:在获取到待处理音频数据之后,根据该待处理音频数据,确定N个待使用音频数据。其中,N为正整数。
上述“待处理音频数据”是指需要进行混响构建处理的音频数据;而且本申请实施例不限定该“待处理音频数据”,例如,该“待处理音频数据”可以是指用户语音数据,也可以是指某些物体(例如,汽笛、喇叭、走路等)发出的响声。
本申请实施例不限定S1中步骤“根据待处理音频数据,确定N个待使用音频数据”的实施方式,例如,其具体可以为:将待处理音频数据复制为N个待使用音频数据,以使各个待使用音频数据彼此相同,且使得各个待使用音频数据携带的音频信息均与该待处理音频数据携带的音频信息相同。
需要说明的是,本申请实施例不限定由一个音频数据复制为多个音频数据的实施方式,例如,可以采用图2所示的“一路转N路分路器”进行实施。
另外,为了提高混响效果,本申请实施例还提供了S1中步骤“根据待处理音频数据,确定N个待使用音频数据”的另一种可能的实施方式,其具体可以包括步骤11-步骤12:
步骤11:对待处理音频数据进行增益处理,得到音频增益数据。
上述“增益处理”用于调整一个音频数据的幅值;而且本申请实施例不限定该“增益处理”的实施方式,例如,上述“增益处理”具体可以为:按照预先设定的归一化幅值,对待处理音频数据进行增益处理,得到音频增益数据,以实现针对该待处理音频数据进行归一化的幅值标定处理的目的。又如,上述“增益处理”具体可以为:按照预先设定的最大幅值,对待处理音频数据进行增益处理,得到音频增益数据,以实现针对该待处理音频数据进行幅值衰减处理的目的,如此能够有效地避免后续在将多个音频数据进行叠加时因单个音频数据的幅值较高而导致叠加后音频数据出现过载和截幅现象。还如,上述“增益处理”可以采用如图2所示的“系统前置输入增益”进行实施;而且该“系统前置输入增益”用于对该待处理音频数据进行归一化的幅值标定处理以及一定程度的幅值衰减处理。
步骤12:根据音频增益数据,确定N个待使用音频数据。
本申请实施例中,在获取到音频增益数据之后,可以将该音频增益数据复制为N个待使用音频数据,以使各个待使用音频数据彼此相同,且使得各个待使用音频数据携带的音频信息均与该音频增益数据携带的音频信息相同。
基于上述步骤11至步骤12的相关内容可知,在获取到待处理音频数据之后,可以先针对该待处理音频数据进行增益处理,得到音频增益数据,以使该音频增益数据的幅值满足预设幅值要求(例如,归一化幅值、以及最大幅值等要求);再根据该音频增益数据,确定N个待使用音频数据(例如,利用图2所示的“一路转N路分路器”将该音频增益数据复制为N个待使用音频数据),以使各个待使用音频数据的幅值均满足该预设幅值要求,如此有利于提高混响效果。
此外,在一些情况下,上述“待处理音频数据”可能是单通道音频数据(如图2所示的“单通道人声音频数据”),也可能是多通道音频数据。基于此,为了提高混响效果,本申请实施例还提供了S1中步骤“根据待处理音频数据,确定N个待使用音频数据”的又一种可能的实施方式,其具体可以包括步骤21-步骤22:
步骤21:若待处理音频数据包括至少两个通道的音频数据(也就是,该待处理音频数据属于多通道音频数据),则先对该至少两个通道的音频数据进行合并处理,得到音频合并数据,以使该音频合并数据包括一个通道的音频数据(也就是,该音频合并数据属于单通道音频数据);再根据该音频合并数据,确定N个待使用音频数据。
需要说明的是,本申请实施例不限定步骤21 中“合并处理”的实施方式,可以采用现有的或者未来出现的任一种音频合并方式进行实施。
还需要说明的是,步骤21中步骤“根据该音频合并数据,确定N个待使用音频数据”可以采用上文步骤“根据待处理音频数据,确定N个待使用音频数据”的任一实施方式进行实施,只需将上文步骤“根据待处理音频数据,确定N个待使用音频数据”的任一实施方式中“待处理音频数据”替换为“音频合并数据”即可。
步骤22:若待处理音频数据包括一个通道的音频数据(也就是,该待处理音频数据属于单通道音频数据),则直接根据待处理音频数据,确定N个待使用音频数据。
基于上述步骤21至步骤22的相关内容可知,对于一个多通道音频数据来说,可以先将该多通道音频数据合并成一个单通道音频数据;再对该单通道音频数据进行相应处理(如图2所示的增益处理、分路处理等);但是,对于一个单通道音频数据来说,可以直接对该单通道音频数据进行相应处理(如图2所示的增益处理、分路处理等)即可。
基于上述S1的相关内容可知,对于用于模拟待虚拟场景(例如,山洞、飞机舱等)中声音效果的虚拟音频场景来说,在获取到待处理音频数据之后,可以先参考该待处理音频数据,确定N个待使用音频数据,以使该N个待使用音频数据彼此相同,以便后续能够基于该N个待使用音频数据,模拟确定该待处理音频数据在该待虚拟场景中真实的声音效果。
需要说明的是,上述“待虚拟场景”的相关内容请参见下文S2中相关内容。
还需要说明的是,上述“N”可以预先设定,尤其可以根据应用需求设定。另外,N可以被设定为4的整数倍。此外,因在同样情况下若分路通道数量N越大,则基于该N得到混响音频数据的混响密度会越高,但是对上述“混响构建方法”的集成平台的计算能力要求也越大,故为了更好地实现混响构建,可以根据应用场景设定恰当的N。
S2:根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据。其中,n为正整数,n≤N。
上述“待虚拟场景”是指需要被模拟的场景;而且本申请实施例不限定该“待虚拟场景”,例如,该“待虚拟场景”可以是指真实存在的空间场景(例如,大剧院、音乐厅、KTV、录音棚、车库等建筑物内部;或者,汽车、飞机舱等车舱内部;或者,峡谷、庭院、老式留声机等带有典型声学共振或声学衍射特性的物理空间范围)。又如,该“待虚拟场景”也可以是指人为构建的几何空间(例如,虚拟现实游戏场景内的洞穴、气泡、薄膜、黑洞等采用简单几何方法进行模型构建得到的空间场景),而且该人为构建的几何空间通常可以采用不同边界面材质或不同形状描述。
上述“待虚拟场景的混响时间”用于描述该待虚拟场景中的声学特点;而且本申请实施例不限定该“待虚拟场景的混响时间”的获取方式,例如,可以预先设定,也可以采用下文方法实施例二所示的混响时间确定过程进行实施。
本申请实施例不限定S2的实施方式,例如,其具体可以为:按照待虚拟场景的混响时间,对第n个待使用音频数据进行滤波处理,得到第n个音频滤波数据。
需要说明的是,本申请实施例不限定“滤波处理”的实施方式,可以采用下文S22所示的“滤波处理”的任一实施方式进行实施,只需将下文S22所示的“滤波处理”的任一实施方式中“第n个音频延时数据”替换为“第n个待使用音频数据”即可。
另外,为了进一步提高混响效果(例如,真实性等),本申请实施例还提供了S2的另一种可能的实施方式,其具体可以包括S21-S22:
S21:对第n个待使用音频数据进行延时处理,得到第n个音频延时数据。其中,n为正整数,n≤N。
上述“第n个音频延时数据”是指针对第n个待使用音频数据进行延时处理所得的音频数据;而且本申请实施例不限定该“第n个音频延时数据”的确定过程,例如,其具体可以包括步骤31-步骤32:
步骤31:确定第n个待使用音频数据对应的延时参数。
上述“第n个待使用音频数据对应的延时参数”用于表示在对该第n个待使用音频数据进行延时处理时所依据的参数信息;而且本申请实施例不限定该“第n个待使用音频数据对应的延时参数”,例如,其可以包括:该第n个待使用音频数据对应的延时时长。其中,“第n个待使用音频数据对应的延时时长”用于表示针对第n个待使用音频数据所增加的时延大小。
另外,为了进一步提高混响效果(例如,真实性等),第1个待使用音频数据对应的延时参数、第2个待使用音频数据对应的延时参数、……、以及第N个待使用音频数据对应的延时参数为N个互质数,以使该N个待使用音频数据对应的延时参数互相不构成倍数关系,如此有利于更好地还原上述“待虚拟场景”中声音效果。
此外,本申请实施例不限定上述“N个互质数”的确定过程,例如,其具体可以包括:从预设时延范围内随机选择N个互质数。
上述“预设时延范围”可以预先设定;而且本申请实施例不限定该“预设时延范围”,例如,该“预设时延范围”的上限可以设置为500Hz频带的混响时间RT60,且该“预设时延范围”的下限设置为50ms。另外,为了提高“预设时延范围”的适应性,可以借助人机交互方式实现由用户针对该“预设时延范围”进行手动配置。
需要说明的是,在一些情况下,在混响构建过程(例如,S1-S5所示的混响构建过程等)中可以只执行一次步骤31,以使在每一轮音频混合过程中均按照相同的延时参数对N个待使用音频数据进行延时处理。另外,为了进一步提高混响效果(例如,真实性等),可以在每一轮音频混合过程中均执行一次步骤31,以使不同轮音频混合过程中可以按照不同的延时参数对N个待使用音频数据进行延时处理。需要说明的是,“一轮音频混合过程”可以包括执行一次S2-S3。
步骤32:按照第n个待使用音频数据对应的延时参数,对该第n个待使用音频数据进行延时处理,得到第n个音频延时数据。
本申请实施例中,在获取到第n个待使用音频数据及其对应的延时参数之后,可以按照该第n个待使用音频数据对应的延时参数,对该第n个待使用音频数据进行延时处理,得到第n个音频延时数据,以使该第n个音频延时数据与该第n个待使用音频数据之间的差异性(尤其是在时间上所呈现的差异性),能够模拟出该第n个待使用音频数据在上述“待虚拟场景”中发生反射时所产生的时延现象。
基于上述S21的相关内容可知,在获取到第n个待使用音频数据之后,可以对该第n个待使用音频数据进行延时处理,得到第n个音频延时数据,以使该第n个音频延时数据与该第n个待使用音频数据之间的差异性,能够模拟出该第n个待使用音频数据在上述“待虚拟场景”中发生反射时所产生的时延现象。其中,n为正整数,n≤N。
S22:按照待虚拟场景的混响时间,对第n个音频延时数据进行滤波处理,得到第n个音频滤波数据。其中,n为正整数,n≤N。
本申请实施例不限定S22的实施方式,例如,可以采用现有的或者未来出现的任一种滤波方法进行实施。又如,为了提高混响效果,S22具体可以包括:利用待虚拟场景对应的声衰减特性滤波器对第n个音频延时数据进行滤波处理,得到第n个音频滤波数据。
上述“待虚拟场景对应的声衰减特性滤波器”是指根据该待虚拟场景的混响时间构建的滤波器,以使该“待虚拟场景对应的声衰减特性滤波器”能够表示出该待虚拟场景内的声衰减随频率变化特性,从而使得该“待虚拟场景对应的声衰减特性滤波器”能够模拟出该待虚拟场景内物体(例如,窗帘地毯、摆放物以及空气等)的吸声特性,如此能够有效地避免高频混响呈现不自然的浑浊感,从而能够更真实地模拟出该待虚拟场景内的空间混响效果。
本申请实施例不限定上述“待虚拟场景对应的声衰减特性滤波器”的构建过程,例如,其具体可以包括:先将待虚拟场景的混响时间在频域上进行线性插值拟合,得到待使用拟合结果;再采用窗函数法对该待使用拟合结果进行时域转换,得到非递归型(FiniteImpulse Response,FIR)滤波器;最后,将该FIR滤波器确定为该“待虚拟场景对应的声衰减特性滤波器”。
基于上述S22的相关内容可知,在获取到第n个音频延时数据之后,可以参考待虚拟场景的混响时间,对该第n个音频延时数据进行滤波处理,得到第n个音频滤波数据,以使该第n个音频滤波数据与该第n个音频延时数据之间的差异性,能够模拟出该第n个待使用音频数据在上述“待虚拟场景”中反射时所产生的声衰现象,从而使得该第n个音频滤波数据能够表示出该第n个待使用音频数据在上述“待虚拟场景”中的反射音频数据。
基于上述S2的相关内容可知,在获取到各个待使用音频数据之后,可以参考待虚拟场景的混响时间,分别对各个待使用音频数据进行音频反射模拟处理(例如,延时处理+滤波处理等),得到各个待使用音频数据对应的音频滤波数据,以使这些音频滤波数据能够模拟出这些待使用音频数据在该待虚拟场景的反射现象,以便后续能够基于这些音频滤波数据,更新这些待使用音频数据,如此有利于模拟出待虚拟场景中音频数据的多次反射混合现象。
S3:根据第1个音频滤波数据至第N个音频滤波数据,更新N个待使用音频数据。
本申请实施例不限定S3的实施方式,例如,可以根据N个音频滤波数据与N个待使用音频数据之间的音频混合结果,得到更新后的N个待使用音频数据。需要说明的是,本申请实施例不限定上述“音频混合结果”的确定过程。
另外,为了提高混响效果,本申请实施例还提供了S3的另一种可能的实施方式,其具体可以包括:根据第1个音频滤波数据至第N个音频滤波数据、以及音频混合权重矩阵,更新N个待使用音频数据。
上述“音频混合权重矩阵”用于模拟上述“待虚拟场景”中多次反射时的高密度混响;而且该“音频混合权重矩阵”可以是N×N的矩阵(例如,图2所示的N路*N路反馈矩阵)。另外,本申请实施例不限定该“音频混合权重矩阵”的实施方式,例如,其可以采用预先设定的哈达玛矩阵(Hadamard matrix)进行实施,也可以采用预先设定的对角正交矩阵进行实施。
另外,本申请实施例不限定上述“N个待使用音频数据”的更新过程,例如,其具体可以包括S31-S32:
S31:按照音频混合权重矩阵,对第1个音频滤波数据至第N个音频滤波数据进行混合处理,得到N个音频混合数据。
本申请实施例不限定S31中“混合处理”的实施方式,例如,可以采用公式(1)进行实施。
Figure 527055DEST_PATH_IMAGE001
(1)
式中,
Figure 779045DEST_PATH_IMAGE002
表示第n个音频混合数据;
Figure 678868DEST_PATH_IMAGE003
表示音频混合权重矩阵;
Figure 244978DEST_PATH_IMAGE004
表示第n个音频滤波数据;n为正整数,n≤N。
S32:将第n个音频混合数据与第n个待使用音频数据进行加和处理,得到更新后的第n个待使用音频数据;其中,n为正整数,n≤N。
本申请实施例中,在获取到第n个音频混合数据之后,可以将该第n个音频混合数据与第n个待使用音频数据进行加和处理,得到更新后的第n个待使用音频数据,以使该“更新后的第n个待使用音频数据”能够表示出该第n个待使用音频数据在上述待虚拟场景中经历一轮反射传播过程之后所呈现的声音效果,以便后续能够以该“更新后的第n个待使用音频数据”为基础继续模拟下一轮反射传播过程。
基于上述S3的相关内容可知,在获取到第1个音频滤波数据至第N个音频滤波数据之后,可以参考这些音频滤波数据以及音频混合权重矩阵,对上述“N个待使用音频数据”进行更新处理,以便后续能够基于更新得到的N个待使用音频数据实现下一轮音频混合过程。
需要说明的是,在一些情况下,在混响构建过程中可以只获取一次音频混合权重矩阵,以使在每一轮音频混合过程中均参考同一个音频混合权重矩阵实现针对N个待使用音频数据的更新过程。另外,为了进一步提高混响效果(例如,真实性等),可以在每一轮音频混合过程完成之后(例如,在执行完S3之后),更新音频混合权重矩阵(也就是,重新获取一次音频混合权重矩阵),以使不同轮音频混合过程中可以参考不同音频混合权重矩阵实现针对N个待使用音频数据的更新过程。
S4:判断是否达到预设停止条件,若是,则执行S5;若否,则返回执行S2。
上述“预设停止条件”可以预先设定;而且本申请实施例不限定该“预设停止条件”,例如,其具体可以为:上述“N个待使用音频数据”的更新次数达到预设次数阈值(例如,100次)。
另外,本申请实施例不限定S4的实施方式,例如,当上述S2包括S21-S22时,S4具体可以为:判断是否达到预设停止条件,若是,则执行S5;若否,则返回执行S21(及其后续步骤)。又如,当上述S2包括步骤31、步骤32、S22时,S4具体可以为:判断是否达到预设停止条件,若是,则执行S5;若否,则返回执行步骤31(及其后续步骤)。
基于上述S4的相关内容可知,在完成针对上述“N个待使用音频数据”的当前轮更新过程之后,可以判断是否达到预设停止条件,若达到,则确定当前轮更新好的N个待使用音频数据几乎能够综合表示出待处理音频数据在待虚拟场景中真实的反射传播结果,故可以直接综合该N个待使用音频数据,确定该待处理音频数据在待虚拟场景中所呈现的混响音频数据即可;若未达到,则可以确定当前轮更新好的N个待使用音频数据依旧无法准确地表示出待处理音频数据在待虚拟场景中真实的反射传播结果,故可以继续基于该N个待使用音频数据实现下一轮音频混合过程。
S5:根据N个待使用音频数据,确定混响音频数据。
本申请实施例不限定S5的实施方式,例如,可以利用预设集线器,将N个待使用音频数据转换成混响音频数据。其中,“预设集线器”可以预先设定,例如,其可以是图2所示的“N路转一路集线器”或者“N路转两路集线器”。
另外,为了进一步提高混响效果,本申请实施例还提供了S5的另一种可能的实施方式,其具体可以包括S51-S52:
S51:根据N个待使用音频数据,确定待均衡音频数据。
本申请实施例中,在获取到N个待使用音频数据之后,可以根据N个待使用音频数据,确定待均衡音频数据;而且该确定过程具体可以包括:当本申请实施例提供的混合构建方法的应用场景要求单声道输出时,可以利用N路转一路集线器,将N个待使用音频数据转换成一路音频数据,并将该一路音频数据确定为待均衡音频数据;但是,当本申请实施例提供的混合构建方法的应用场景要求双声道输出时,可以利用N路转两路集线器,将N个待使用音频数据转换成两路音频数据,并将该两路音频数据确定为待均衡音频数据。
S52:对待均衡音频数据进行均衡处理,得到混响音频数据。
本申请实施例不限定S52的实施方式,例如,其具体可以包括S521-S522:
S521:若待均衡音频数据满足第一均衡条件,则利用第一均衡器对该待均衡音频数据进行均衡处理,得到混响音频数据。
上述“第一均衡条件”可以预先设定;例如,其可以包括:待均衡音频数据包括一路音频数据。
上述“第一均衡器”用于针对单声道音频数据进行均衡处理;而且该“第一均衡器”可以是指根据待虚拟场景的房间传递函数构建得到的均衡器。另外,本申请实施例不限定该“第一均衡器”的实施方式,例如,其可以采用基于双二阶(BiQuad)的无限冲激响应(infinite impulse response,IIR)均衡器进行实施。
需要说明的是,上述“待虚拟场景的房间传递函数”可以预先设定,也可以采用下文方法实施例二所示的房间传递函数确定过程进行实施。
S522:若待均衡音频数据满足第二均衡条件,则利用第二均衡器对该待均衡音频数据进行均衡处理,得到混响音频数据。
上述“第二均衡条件”可以预先设定;例如,其可以包括:待均衡音频数据包括两路音频数据。
上述“第二均衡器”用于针对双声道音频数据进行均衡处理;而且该“第二均衡器”可以是指根据待虚拟场景的双耳传递函数构建得到的均衡器。另外,本申请实施例不限定该“第二均衡器”的实施方式,例如,其可以采用基于双二阶(BiQuad)的无限冲激响应(infinite impulse response,IIR)均衡器进行实施。
需要说明的是,上述“待虚拟场景的双耳传递函数”可以预先设定,也可以采用下文方法实施例二所示的双耳传递函数确定过程进行实施。
基于上述S51至S52的相关内容可知,在确定达到预设停止条件之后,可以先利用预设集线器,将N个待使用音频数据转换成待均衡音频数据;再借助预设均衡器(例如,第一均衡器或者第二均衡器),对该待均衡音频数据进行均衡处理,得到混响音频数据,以使该混响音频数据表示出该待处理音频数据在上述“待虚拟场景”中呈现的声音效果,从而使得用户在接收到该混响音频数据时能够感知到其身处于该“待虚拟场景”中所能感知到的声音效果,如此能够实现用户在虚拟音频场景中感知比较真实的声音效果。
实际上,在一些应用场景下,不仅存在单声道输出需求或者双声道输出需求,可能还存在虚拟环绕输出需求。其中,“虚拟环绕”是指一种类似于“一会儿左声道输出音频数据一会儿右声道输出音频数据”的效果。
基于此,本申请实施例还提供了S5的另一种可能的实施方式,其具体可以包括步骤41-步骤43:
步骤41:根据N个待使用音频数据,确定待均衡音频数据。
需要说明的是,步骤41的相关内容请参见上文S51的相关内容。
步骤42:对待均衡音频数据进行均衡处理,得到待调整音频数据。
需要说明的是,步骤42可以采用上文S52的任一实施方式进行实施,只需将上文S52的任一实施方式中“混响音频数据”替换为“待调整音频数据”即可。
步骤43:根据待调整音频数据,确定混响音频数据。
为了便于理解步骤43,下面结合两个示例进行说明。
示例1,当待调整音频数据包括两路音频数据时,步骤43具体可以包括:先根据正弦包络线(例如,
Figure 546647DEST_PATH_IMAGE005
)以及预设相位差(例如,
Figure 969538DEST_PATH_IMAGE006
),确定第一包络线(例如,
Figure 356657DEST_PATH_IMAGE005
)和第二包络线(例如,
Figure 726458DEST_PATH_IMAGE007
);再将第一包络线与该“待调整音频数据”中一路音频数据进行相乘,得到第一路调整数据,并将第二包络线与该“待调整音频数据”中另一路音频数据进行相乘,得到第二路调整数据;最后,将第一路调整数据和第二路调整数据进行集合处理,得到混响音频数据。
示例2,当待调整音频数据包括一路音频数据时,步骤43具体可以包括:先根据正弦包络线(例如,
Figure 617054DEST_PATH_IMAGE008
)以及预设相位差(例如,
Figure 473496DEST_PATH_IMAGE009
),确定第一包络线(例如,
Figure 82332DEST_PATH_IMAGE008
)和第二包络线(例如,
Figure 255824DEST_PATH_IMAGE010
);再将第一包络线与该待调整音频数据进行相乘,得到第三路调整数据,并将第二包络线与该待调整音频数据进行相乘,得到第四路调整数据;最后,将第三路调整数据和第四路调整数据进行集合处理,得到混响音频数据。
基于上述步骤41至步骤43的相关内容可知,在确定达到预设停止条件之后,可以先利用预设集线器,将N个待使用音频数据转换成待均衡音频数据;再借助预设均衡器(例如,第一均衡器或者第二均衡器),对该待均衡音频数据进行均衡处理,得到待调整音频数据;最后,利用正弦包络线对该待调整音频数据进行响度变化调整,得到混响音频数据,以使该混响音频数据能够实现在用户左右耳呈现环绕感。
基于上述S1至S5的相关内容可知,对于本申请实施例提供的混响构建方法来说,在获取到待处理音频数据之后,先根据该待处理音频数据,确定N个待使用音频数据;再根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据;其中,n为正整数,n≤N;然后,根据第1个音频滤波数据至第N个音频滤波数据,更新该N个待使用音频数据,并继续执行上述步骤“根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据”,直至在达到预设停止条件之后,根据该N个待使用音频数据,确定混响音频数据,以使该混响音频数据能够表示出该待处理音频数据在上述“待虚拟场景”中呈现的声音效果。
可见,因上述“混响音频数据”是根据待虚拟场景的混响时间进行确定的,使得在播放该“混响音频数据”时所呈现的声音效果几乎接近于当待处理音频数据在上述“待虚拟场景”中进行传播时所呈现的真实声音效果,如此有利于实现用户在虚拟音频场景中感知比较真实的声音效果。
方法实施例二
为了进一步提高混响效果,本申请实施例还提供了混响构建方法的另一种可能的实施方式,在该实施方式中,该混响构建方法出了包括上述S1-S5以外,可以还包括S6:
S6:获取待虚拟场景的声学特征参数。
上述“待虚拟场景的声学特征参数”用于表示一个音频数据在该待虚拟场景中所呈现的声音效果;而且本申请实施例不限定该“待虚拟场景的声学特征参数”,例如,其可以包括:该待虚拟场景的混响时间、该待虚拟场景的房间传递函数、以及该待虚拟场景的双耳传递函数中的至少一个。
另外,本申请实施例不限定S6的实施方式,例如,可以从预设存储空间中读取预先存储好的待虚拟场景的声学特征参数。又如,可以通过人机交互方式由用户提供。
此外,为了提高混响构建方法的灵活性,本申请实施例还提供了S6的另一种实施方式,其具体可以包括S61-S62:
S61:确定待虚拟场景的房间冲激响应(Room Impulse Response,RIR)。
本申请实施例不限定S61的实施方式,例如,其具体可以包括:若待虚拟场景属于真实的空间场景,则可以利用预设测量方法,从该待虚拟场景中测量得到该待虚拟场景的房间冲激响应;若该待虚拟场景属于人为构建的几何空间,则可以利用预设仿真方法,确定该待虚拟场景的房间冲激响应。
需要说明的是,本申请实施例不限定上述“预设测量方法”的实施方式,例如,其可以采用基于最长序列(Maximum Length Sequence,MLS)信号的冲激响应测量方法、基于阶跃扫频信号(Stepped Sine)的SSR(Steady State Response)稳态测量冲激响应测量方法、以及基于连续扫频信号(Chirp)的时域解卷积冲激响应测量方法中至少一个进行实施。
还需要说明的是,本申请实施例也不限定上述“预设仿真方法”的实施方式,例如,其可以采用基于波动声学数值求解的有限单元法(Finite Element Method,FEM)和边界元法(boundary element method,BEM)仿真、基于射线声学的声线追踪方法、以及基于统计声学的平均自由程以及经典赛宾公式/依林公式的计算方法中至少一个进行实施。
S62:根据待虚拟场景的房间冲激响应,确定该待虚拟场景的声学特征参数。
本申请实施例不限定S62的实施方式,例如,当上述“待虚拟场景的声学特征参数”包括该待虚拟场景的混响时间、该待虚拟场景的房间传递函数、以及该待虚拟场景的双耳传递函数(Interaural Traansfer Function,ITF),且该待虚拟场景的双耳传递函数包括该待虚拟场景的左耳传递函数和该待虚拟场景的右耳传递函数时,S62具体可以包括步骤51-步骤55:
步骤51:根据待虚拟场景的房间冲激响应,确定该待虚拟场景的早期衰减时间(如公式(2)所示,该早期衰减时间可以通过对各子频带的房间冲激响应进行积分处理得到)。
Figure 328822DEST_PATH_IMAGE011
(2)
式中,
Figure 296778DEST_PATH_IMAGE012
表示待虚拟场景的早期衰减时间(Early Decay Time,EDT);积分上限t为时间,
Figure 392910DEST_PATH_IMAGE013
为房间冲激函数,τ为时间微分。
步骤52:根据待虚拟场景的早期衰减时间,确定该待虚拟场景的混响时间(如公式(3)所示,该混响时间可以是指在上述“待虚拟场景的早期衰减时间”中由峰值衰减60dB过程所经历的时间)。
Figure 166831DEST_PATH_IMAGE014
(3)
式中,
Figure 32019DEST_PATH_IMAGE015
表示待虚拟场景的混响时间;
Figure 170876DEST_PATH_IMAGE016
表示上述“待虚拟场景的早期衰减时间”中峰值对应的时刻;
Figure 816621DEST_PATH_IMAGE017
表示上述“待虚拟场景的早期衰减时间”中比峰值下降60dB对应的时刻。
需要说明的是,在一些情况下(例如,当测量信噪比不满足60dB衰减时),可以先从待虚拟场景的早期衰减时间中计算RT20;再将RT20与3相乘,得到该待虚拟场景的混响时间。又如,也可以先从待虚拟场景的早期衰减时间中计算RT30;再将RT30与2相乘,得到该待虚拟场景的混响时间。
步骤53:根据待虚拟场景的房间冲激响应的傅里叶变换结果,确定该待虚拟场景的房间传递函数(如公式(4)所示,该房间传递函数可以利用对该房间冲激响应进行傅里叶变换所得的幅度频率响应进行表征)。
Figure 66337DEST_PATH_IMAGE018
(4)
式中,
Figure 51611DEST_PATH_IMAGE019
表示待虚拟场景的房间传递函数(Room Transfer Function,RTF);
Figure 361369DEST_PATH_IMAGE020
为房间冲激函数;
Figure 494410DEST_PATH_IMAGE021
表示傅里叶变换;
Figure 547817DEST_PATH_IMAGE022
表示取幅度值。
步骤54:根据待虚拟场景的房间冲激响应与第一头部相关传递函数之间的卷积结果,确定该待虚拟场景的左耳传递函数(如公式(5)所示)。
Figure 387597DEST_PATH_IMAGE023
(5)
式中,
Figure 930574DEST_PATH_IMAGE024
表示待虚拟场景的左耳传递函数;
Figure 223015DEST_PATH_IMAGE025
为房间冲激函数;
Figure 80112DEST_PATH_IMAGE021
表示傅里叶变换;
Figure 774399DEST_PATH_IMAGE022
表示取幅度值;
Figure 488277DEST_PATH_IMAGE026
表示第一头部相关传递函数(也就是,左耳对应的头部相关传递函数(Head related Transfer Function,HRTF));“*”表示卷积。
步骤55:根据待虚拟场景的房间冲激响应与第二头部相关传递函数之间的卷积结果,确定该待虚拟场景的右耳传递函数(如公式(6)所示)。
Figure 533593DEST_PATH_IMAGE027
(6)
式中,
Figure 991120DEST_PATH_IMAGE028
表示待虚拟场景的右耳传递函数;
Figure 539913DEST_PATH_IMAGE025
为房间冲激函数;
Figure 693201DEST_PATH_IMAGE021
表示傅里叶变换;
Figure 960234DEST_PATH_IMAGE022
表示取幅度值;
Figure 159134DEST_PATH_IMAGE029
表示第二头部相关传递函数(也就是,右耳对应的头部相关传递函数(Head related Transfer Function,HRTF));“*”表示卷积。
基于上述步骤51至步骤55的相关内容可知,在获取到待虚拟场景的房间冲激响应之后,可以利用公式(2)-(5),确定该待虚拟场景的声学特征参数,以使该声学特征参数包括该该待虚拟场景的混响时间、该待虚拟场景的房间传递函数、以及该待虚拟场景的双耳传递函数,从而使得该声学特征参数能够准确地表示出一个音频数据在该待虚拟场景中所呈现的声音效果,以便后续能够利用该声学特征参数,模拟一个音频数据在该待虚拟场景中所呈现的声音效果。
基于上述S6的相关内容可知,若想模拟一个音频数据在待虚拟场景中所呈现的声音效果,则可以先获取该待虚拟场景的声学特征参数,以使该声学特征参数能够表示出该待虚拟场景所特有的声音混合特点;再按照该待虚拟场景的声学特征参数,对该音频数据(例如,上文“待处理音频数据”)进行混响构建处理,得到该音频数据对应的混响构建结果(例如,上文“混响音频数据”),以使该混响构建结果能够表示出该音频数据在该待虚拟场景中呈现的声音效果,如此有利于实现用户在虚拟音频场景中感知比较真实的声音效果。
基于上述方法实施例提供的混响构建方法,本申请实施例还提供了一种混响构建装置,下面结合附图进行解释和说明。
装置实施例
装置实施例对混响构建装置进行介绍,相关内容请参见上述方法实施例。
参见图4,该图为本申请实施例提供的一种混响构建装置的结构示意图。
本申请实施例提供的混响构建装置400,包括:
第一确定单元401,用于在获取到待处理音频数据之后,根据所述待处理音频数据,确定N个待使用音频数据;其中,N为正整数;
第二确定单元402,用于根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据;其中,n为正整数,n≤N;
第三确定单元403,用于根据第1个音频滤波数据至第N个音频滤波数据,更新所述N个待使用音频数据,并返回所述第二确定单元继续执行所述根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据的步骤,直至在达到预设停止条件之后,根据所述N个待使用音频数据,确定混响音频数据。
在一种可能的实施方式中,所述第二确定单元402,包括:
延时处理子单元,用于对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据;
滤波处理子单元,用于按照所述待虚拟场景的混响时间,对所述第n个音频延时数据进行滤波处理,得到所述第n个音频滤波数据;
所述第三确定单元403,包括:
循环执行子单元,用于返回所述延时处理子单元继续执行所述对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据的步骤。
在一种可能的实施方式中,所述混响构建装置400还包括:
第四确定单元,用于确定所述第n个待使用音频数据对应的延时参数;
所述延时处理子单元,具体用于:按照所述第n个待使用音频数据对应的延时参数,对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据;
所述循环执行子单元,具体用于:返回所述第四确定单元继续执行所述确定所述第n个待使用音频数据对应的延时参数的步骤。
在一种可能的实施方式中,所述滤波处理子单元,具体用于:利用所述待虚拟场景对应的声衰减特性滤波器对所述第n个音频延时数据进行滤波处理,得到所述第n个音频滤波数据;其中,所述声衰减特性滤波器是根据所述待虚拟场景的混响时间构建的。
在一种可能的实施方式中,所述第三确定单元403,包括:
第一更新子单元,用于根据第1个音频滤波数据至第N个音频滤波数据、以及音频混合权重矩阵,更新所述N个待使用音频数据。
在一种可能的实施方式中,所述第三确定单元403,还包括:
第二更新子单元,用于在所述根据第1个音频滤波数据至第N个音频滤波数据、以及音频混合权重矩阵,更新所述N个待使用音频数据之后,更新所述音频混合权重矩阵。
在一种可能的实施方式中,所述第一更新子单元,具体用于:按照所述音频混合权重矩阵,对所述第1个音频滤波数据至所述第N个音频滤波数据进行混合处理,得到N个音频混合数据;将第n个音频混合数据与所述第n个待使用音频数据进行加和处理,得到更新后的第n个待使用音频数据;其中,n为正整数,n≤N。
在一种可能的实施方式中,所述第三确定单元403,包括:
数据确定子单元,用于根据所述N个待使用音频数据,确定待均衡音频数据;
数据均衡子单元,用于对所述待均衡音频数据进行均衡处理,得到所述混响音频数据。
在一种可能的实施方式中,所述数据均衡子单元,具体用于:若所述待均衡音频数据满足第一均衡条件,则利用第一均衡器对所述待均衡音频数据进行均衡处理,得到所述混响音频数据;其中,所述第一均衡器是根据所述待虚拟场景的房间传递函数构建的;若所述待均衡音频数据满足第二均衡条件,则利用第二均衡器对所述待均衡音频数据进行均衡处理,得到所述混响音频数据;其中,所述第二均衡器是根据所述待虚拟场景的双耳传递函数构建的。
在一种可能的实施方式中,所述第一确定单元401,用于:对所述待处理音频数据进行增益处理,得到音频增益数据;根据所述音频增益数据,确定所述N个待使用音频数据。
在一种可能的实施方式中,所述混响构建装置400,还包括:
参数获取单元,用于获取所述待虚拟场景的声学特征参数;其中,所述声学特征参数包括所述混响时间。
在一种可能的实施方式中,所述参数获取单元,包括:
响应确定子单元,用于确定所述待虚拟场景的房间冲激响应;
参数确定子单元,用于根据所述房间冲激响应,确定所述待虚拟场景的声学特征参数。
在一种可能的实施方式中,所述参数确定子单元,包括:
时间确定子单元,用于根据所述房间冲激响应,确定所述待虚拟场景的早期衰减时间;根据所述待虚拟场景的早期衰减时间,确定所述待虚拟场景的混响时间。
在一种可能的实施方式中,所述声学特征参数还包括房间传递函数和/或双耳传递函数;其中,所述房间传递函数是根据所述房间冲激响应的傅里叶变换结果确定的;所述双耳传递函数包括左耳传递函数和右耳传递函数;所述左耳传递函数是根据所述房间冲激响应与第一头部相关传递函数之间的卷积结果确定的;所述右耳传递函数是根据所述房间冲激响应与第二头部相关传递函数之间的卷积结果确定的。
在一种可能的实施方式中,所述混响构建装置400,还包括:
合并处理单元,用于若所述待处理音频数据包括至少两个通道的音频数据,则对所述至少两个通道的音频数据进行合并处理,得到音频合并数据;
所述第一确定单元401,包括:
数据分路子单元,用于根据所述音频合并数据,确定N个待使用音频数据。
进一步地,本申请实施例还提供了一种混响构建设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述混响构建方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述混响构建方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述混响构建方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (19)

1.一种混响构建方法,其特征在于,所述方法包括:
在获取到待处理音频数据之后,根据所述待处理音频数据,确定N个待使用音频数据,所述待处理音频数据包括用户语音数据或物体发出的响声;其中,N为正整数;
根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据;其中,n为正整数,n≤N;所述第n个音频滤波数据具体为利用所述待虚拟场景对应的声衰减特性滤波器确定的,其中,所述声衰减特性滤波器是根据所述待虚拟场景的混响时间构建的;
根据第1个音频滤波数据至第N个音频滤波数据,更新所述N个待使用音频数据,并继续执行所述根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据的步骤,直至在达到预设停止条件之后,根据所述N个待使用音频数据,确定混响音频数据。
2.根据权利要求1所述的方法,其特征在于,所述根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据,包括:
对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据;
按照所述待虚拟场景的混响时间,对所述第n个音频延时数据进行滤波处理,得到所述第n个音频滤波数据;
所述继续执行所述根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据的步骤,包括:
继续执行所述对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据的步骤。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
确定所述第n个待使用音频数据对应的延时参数;
所述对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据,包括:
按照所述第n个待使用音频数据对应的延时参数,对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据;
所述继续执行所述对所述第n个待使用音频数据进行延时处理,得到第n个音频延时数据的步骤,包括:
继续执行所述确定所述第n个待使用音频数据对应的延时参数的步骤。
4.根据权利要求2所述的方法,其特征在于,所述第n个音频滤波数据的确定过程,包括:
利用所述待虚拟场景对应的声衰减特性滤波器对所述第n个音频延时数据进行滤波处理,得到所述第n个音频滤波数据。
5.根据权利要求1所述的方法,其特征在于,所述根据第1个音频滤波数据至第N个音频滤波数据,更新所述N个待使用音频数据,包括:
根据第1个音频滤波数据至第N个音频滤波数据、以及音频混合权重矩阵,更新所述N个待使用音频数据。
6.根据权利要求5所述的方法,其特征在于,在所述根据第1个音频滤波数据至第N个音频滤波数据、以及音频混合权重矩阵,更新所述N个待使用音频数据之后,所述方法还包括:
更新所述音频混合权重矩阵。
7.根据权利要求5所述的方法,其特征在于,所述根据第1个音频滤波数据至第N个音频滤波数据、以及音频混合权重矩阵,更新所述N个待使用音频数据,包括:
按照所述音频混合权重矩阵,对所述第1个音频滤波数据至所述第N个音频滤波数据进行混合处理,得到N个音频混合数据;
将第n个音频混合数据与所述第n个待使用音频数据进行加和处理,得到更新后的第n个待使用音频数据;其中,n为正整数,n≤N。
8.根据权利要求1所述的方法,其特征在于,所述根据所述N个待使用音频数据,确定混响音频数据,包括:
根据所述N个待使用音频数据,确定待均衡音频数据;
对所述待均衡音频数据进行均衡处理,得到所述混响音频数据。
9.根据权利要求8所述的方法,其特征在于,所述对所述待均衡音频数据进行均衡处理,得到所述混响音频数据,包括:
若所述待均衡音频数据满足第一均衡条件,则利用第一均衡器对所述待均衡音频数据进行均衡处理,得到所述混响音频数据;其中,所述第一均衡器是根据所述待虚拟场景的房间传递函数构建的;
若所述待均衡音频数据满足第二均衡条件,则利用第二均衡器对所述待均衡音频数据进行均衡处理,得到所述混响音频数据;其中,所述第二均衡器是根据所述待虚拟场景的双耳传递函数构建的。
10.根据权利要求1所述的方法,其特征在于,所述根据所述待处理音频数据,确定N个待使用音频数据,包括:
对所述待处理音频数据进行增益处理,得到音频增益数据;
根据所述音频增益数据,确定所述N个待使用音频数据。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述方法还包括:
获取所述待虚拟场景的声学特征参数;其中,所述声学特征参数包括所述混响时间。
12.根据权利要求11所述的方法,其特征在于,所述声学特征参数的获取过程,包括:
确定所述待虚拟场景的房间冲激响应;
根据所述房间冲激响应,确定所述待虚拟场景的声学特征参数。
13.根据权利要求12所述的方法,其特征在于,所述混响时间的确定过程,包括:
根据所述房间冲激响应,确定所述待虚拟场景的早期衰减时间;
根据所述待虚拟场景的早期衰减时间,确定所述待虚拟场景的混响时间。
14.根据权利要求12所述的方法,其特征在于,所述声学特征参数还包括房间传递函数和/或双耳传递函数;其中,所述房间传递函数是根据所述房间冲激响应的傅里叶变换结果确定的;所述双耳传递函数包括左耳传递函数和右耳传递函数;所述左耳传递函数是根据所述房间冲激响应与第一头部相关传递函数之间的卷积结果确定的;所述右耳传递函数是根据所述房间冲激响应与第二头部相关传递函数之间的卷积结果确定的。
15.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述待处理音频数据包括至少两个通道的音频数据,则对所述至少两个通道的音频数据进行合并处理,得到音频合并数据;
所述根据所述待处理音频数据,确定N个待使用音频数据,包括:
根据所述音频合并数据,确定N个待使用音频数据。
16.一种混响构建装置,其特征在于,包括:
第一确定单元,用于在获取到待处理音频数据之后,根据所述待处理音频数据,确定N个待使用音频数据,所述待处理音频数据包括用户语音数据或物体发出的响声;其中,N为正整数;
第二确定单元,用于根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据;其中,n为正整数,n≤N;所述第n个音频滤波数据具体为利用所述待虚拟场景对应的声衰减特性滤波器确定的,其中,所述声衰减特性滤波器是根据所述待虚拟场景的混响时间构建的;
第三确定单元,用于根据第1个音频滤波数据至第N个音频滤波数据,更新所述N个待使用音频数据,并返回所述第二确定单元继续执行所述根据第n个待使用音频数据和待虚拟场景的混响时间,确定第n个音频滤波数据的步骤,直至在达到预设停止条件之后,根据所述N个待使用音频数据,确定混响音频数据。
17.一种混响构建设备,其特征在于,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1至15任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1至15任一项所述的方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1至15任一项所述的方法。
CN202111373427.2A 2021-11-19 2021-11-19 一种混响构建方法及其相关设备 Active CN113808569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111373427.2A CN113808569B (zh) 2021-11-19 2021-11-19 一种混响构建方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111373427.2A CN113808569B (zh) 2021-11-19 2021-11-19 一种混响构建方法及其相关设备

Publications (2)

Publication Number Publication Date
CN113808569A CN113808569A (zh) 2021-12-17
CN113808569B true CN113808569B (zh) 2022-04-19

Family

ID=78938446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111373427.2A Active CN113808569B (zh) 2021-11-19 2021-11-19 一种混响构建方法及其相关设备

Country Status (1)

Country Link
CN (1) CN113808569B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116160955B (zh) * 2023-04-25 2023-08-29 科大讯飞(苏州)科技有限公司 一种车辆主动声浪增强方法、装置、存储介质及设备
CN117292698B (zh) * 2023-11-22 2024-04-12 科大讯飞(苏州)科技有限公司 车载音频数据的处理方法、装置和电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661746B (zh) * 2008-08-29 2013-08-21 三星电子株式会社 数字音频混响器和数字音频混响方法
CN106105269B (zh) * 2014-03-19 2018-06-19 韦勒斯标准与技术协会公司 音频信号处理方法和设备
CN108449688A (zh) * 2018-03-19 2018-08-24 长沙世邦通信技术有限公司 室内广播音频处理方法、装置及系统
CN109195062B (zh) * 2018-09-21 2020-10-02 歌尔科技有限公司 一种扩大音频设备的声场的方法、系统及音频设备
CN110740404B (zh) * 2019-09-27 2020-12-25 广州励丰文化科技股份有限公司 一种音频相关性的处理方法及音频处理装置
US11688385B2 (en) * 2020-03-16 2023-06-27 Nokia Technologies Oy Encoding reverberator parameters from virtual or physical scene geometry and desired reverberation characteristics and rendering using these
CN113316077A (zh) * 2021-06-27 2021-08-27 高小翎 语音声源空间音效三维逼真生成系统

Also Published As

Publication number Publication date
CN113808569A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
JP6607895B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
JP5285626B2 (ja) 音声空間化及び環境シミュレーション
EP3090576B1 (en) Methods and systems for designing and applying numerically optimized binaural room impulse responses
US9154896B2 (en) Audio spatialization and environment simulation
KR102380092B1 (ko) 다채널 오디오에 응답하여 적어도 하나의 피드백 지연 네트워크를 이용한 바이노럴 오디오의 생성
CN113808569B (zh) 一种混响构建方法及其相关设备
US20090147975A1 (en) Spatial processing stereo system
US11611828B2 (en) Systems and methods for improving audio virtualization
EP3026666B1 (en) Reverberant sound adding apparatus, reverberant sound adding method, and reverberant sound adding program
CN102972047A (zh) 用于再现立体声的方法和设备
JP2022552474A (ja) 空間オーディオ表現およびレンダリング
CN117376784A (zh) 单声道立体声场扩展方法、电子设备及存储介质
EP3329485A1 (en) System and method for spatial processing of soundfield signals
Liitola Headphone sound externalization
WO2014203496A1 (ja) 音声信号処理装置、および音声信号処理方法
US11012802B2 (en) Computing system for binaural ambisonics decoding
CN116320908A (zh) 一种虚拟立体声的生成方法及电子设备
Tamulionis et al. Listener movement prediction based realistic real-time binaural rendering
Savioja et al. Interactive room acoustic rendering in real time
Guerrero ADVANCED MUSICAL ACOUSTICS
Maté-Cid Rendering of Source Distance in Virtual Auditory Displays
Bejoy Virtual surround sound implementation using deccorrelation filters and HRTF

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant