CN117837173A - 用于音频渲染的信号处理方法、装置和电子设备 - Google Patents
用于音频渲染的信号处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN117837173A CN117837173A CN202280057718.7A CN202280057718A CN117837173A CN 117837173 A CN117837173 A CN 117837173A CN 202280057718 A CN202280057718 A CN 202280057718A CN 117837173 A CN117837173 A CN 117837173A
- Authority
- CN
- China
- Prior art keywords
- response signals
- response
- signal
- signals
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 165
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 230000004044 response Effects 0.000 claims abstract description 566
- 238000012545 processing Methods 0.000 claims abstract description 130
- 230000005236 sound signal Effects 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims description 115
- 230000000873 masking effect Effects 0.000 claims description 109
- 230000008569 process Effects 0.000 claims description 45
- 230000015654 memory Effects 0.000 claims description 44
- 230000008447 perception Effects 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 20
- 230000002123 temporal effect Effects 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 14
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 53
- 230000002829 reductive effect Effects 0.000 description 29
- 230000013707 sensory perception of sound Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000000903 blocking effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
本公开涉及用于音频渲染的信号处理方法、装置和电子设备。用于音频渲染的信号处理方法,包括:获取响应信号集,所述响应信号集包含根据声音信号得出的响应信号,其中所述声音信号为在收听位置接收到的信号;以及基于与所述响应信号相关的感知特性对所述响应信号集中的响应信号进行处理,以获得适用于音频渲染的响应信号,其中所述适用于音频渲染的响应信号的数量小于或等于所述响应信号集中的响应信号的数量。
Description
本公开涉及音频信号处理技术领域,特别涉及一种用于音频渲染的信号处理方法、装置和电子设备、以及非瞬时性计算机可读存储介质。
3D空间音频中声音的真实感是空间音频的一个重要的考虑因素,而声音渲染或音频渲染对于高保真的音频效果也至关重要。声音渲染或音频渲染指的是对于来自声源的声音信号进行适当处理以在用户应用场景中为用户提供希望的收听体验。声音渲染或音频渲染往往可借助于各种适当的声学模型来执行。
目前对于室内的房间声学的建模主要有两大方法:一种是通过波动声学的方法进行建模。波动声学中根据数据求解波动方程,将空间离散为更小的元素并对它们的交互进行建模,它是计算密集性的,且负载随着频率而快速增加,因此波动声学的方法更多的更适合于低频部分。另一种是通过几何声学的方法进行建模。几何声学理论将声音视为射线,而忽略声音的波动性,通过射线的传播来计算声音的传播,几何声学的计算也是计算密集性的,需要通过计算大量的射线以及射线的能量来渲染声音,但是几何声学可以更加精确的模拟声音在物理空间中的传播路径以及能量的衰减,对于能够物理模拟空间音频,实现高保真音频的渲染效果。
发明内容
根据本公开的一些实施例,提供了一种用于音频渲染的信号处理装置,其包括获取模块,被配置为获取响应信号集,所述响应信号集包含根据声音信号得出的响应信号,其中所述声音信号为在收听位置接收到的信号,以及处理模块,被配置为基于与所述响应信号相关的感知特性对所述响应信号集中的响应信号进行处理,以获得适用于音频渲染的响应信号,其中所述适用于音频渲染的响应信号的数量小于或等于所述响应信号集中的响应信号的数量。
根据本公开的一些实施例,提供给了一种用于音频渲染的信号处理方法,包括获取响应信号集,所述响应信号集包含根据声音信号得出的响应信号,其中所述声音信号为在收听位置接收到的信号,以及基于与所述响应信号相关的感知特性对所述响应 信号集中的响应信号进行处理,以获得适用于音频渲染的响应信号,其中所述适用于音频渲染的响应信号的数量小于或等于所述响应信号集中的响应信号的数量。
根据本公开的一些实施例,提供了一种音频渲染装置,包括如本文中所述的信号处理模块,被配置为对由来自于声源的到收听位置的声音信号得出的响应信号进行处理,渲染模块,被配置为基于处理后的响应信号进行音频渲染。
根据本公开的一些实施例,提供了一种音频渲染方法,包括对由来自于声源的到收听位置的声音信号得出的响应信号进行处理,以及基于处理后的响应信号进行音频渲染。
根据本公开的又一些实施例,提供一种芯片,包括:至少一个处理器和接口,接口,用于为至少一个处理器提供计算机执行指令,至少一个处理器用于执行计算机执行指令,实现本公开中所述的任一实施例的用于音频渲染的信号处理方法以及音频渲染方法。
根据本公开的又一些实施例,提供计算机程序,包括:指令,指令当由处理器执行时使处理器执行本公开中所述的任一实施例的用于音频渲染的信号处理方法以及音频渲染方法。
根据本公开的又一些实施例,提供一种电子设备,包括:存储器;和耦接至存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行本公开中所述的任一实施例的用于音频渲染的信号处理方法以及音频渲染方法。
根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开中所述的任一实施例的用于音频渲染的信号处理方法以及音频渲染方法。
根据本公开的再一些实施例,提供一种计算机程序产品,包括指令,所述指令当由处理器执行时实现本公开中所述的任一实施例的用于音频渲染的信号处理方法以及音频渲染方法。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。在附图中:
图1A示出音频信号处理过程的一些实施例的示意图;
图1B示出了常规的音频信号渲染过程的示意图;
图2A示出了根据本公开的一些实施例的用于音频渲染的信号处理装置的框图;
图2B示出了根据本公开的一些实施例的用于音频渲染的信号处理方法的流程图;
图2C示出了根据本公开的一些实施例的音频渲染装置的框图;
图2D示出了根据本公开的一些实施例的音频渲染方法的流程图;
图3A示出了根据本公开的一些实施例的听觉阈值曲线图;
图3B示出了根据本公开的一些实施例的感知掩蔽效应的示意图;
图4A示出了根据本公开的一些实施例的示例性音频渲染过程的示意图;
图4B示出了根据本公开的一些实施例的示例性处理操作的流程图;
图5示出本公开的电子设备的一些实施例的框图;
图6示出本公开的电子设备的另一些实施例的框图;
图7示出本公开的芯片的一些实施例的框图。
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
以下参照图1A描述音频信号处理过程的一些实施例,其中图1A特别示出了示例性音频渲染过程/系统的各阶段的实现,示例性地包含制作阶段或生产阶段、以及消 费阶段,并且可选地还包括中间处理阶段,例如压缩。
在制作阶段或生产阶段,可以接收输入的音频数据和音频元数据,并且对音频数据和音频元数据进行处理,特别是授权和元数据标记,以得到生产结果。示例性地,音频处理的输入可以包括,但不局限于,基于目标的音频信号、FOA(First-Order Ambisonics,一阶球面声场信号)、HOA(Higher-Order Ambisonics,高阶球面声场信号)、立体声、环绕声等。在一些实施例中,音频数据被输入音轨接口以进行处理,音频元数据经由通用音频源数据(如ADM扩展等)进行处理。可选地,还可以进行标准化处理,尤其是对于经授权和元数据标记得到的结果进行标准化处理。
在一些实施例中,在音频内容制作流程中,创作者也需要能够对作品进行监听与及时的修改。作为示例,可以提供一个音频渲染系统以提供场景的监听功能。此外,为消费者能够获得创作者想要表达的艺术意图,为创作者监听提供的渲染系统应当与消费者提供的渲染系统相同以保证一致的体验。
可选地,根据本公开的实施例,在对所捕获的音频信号进行制作之后,并在提供给消费阶段(例如可包含或者被称为音频渲染阶段)之前,可对音频信号进行进一步的中间处理。在一些实施例中,对音频信号的中间处理可以包括适当的压缩处理,包括编码/解码。作为示例,可以将制作得到的音频内容进行编码/解码,得到压缩结果,然后将该压缩结果提供给渲染侧以供进行渲染。压缩中的编解码可以采用任何适当的技术来实现。在另一些实施例中,对音频信号的中间处理还可包括音频信号的存储与分发。例如可以以适当的格式,例如分别以音频存储格式和音频分发格式来存储和分发音频信号。音频存储格式和音频分发格式可以为音频处理系统中各种适当的形式,这里将不再详细描述。
应指出,上述音频中间处理过程、用于存储、分发等的格式仅仅是示例性的,而非限制性的。音频中间处理还可以包含任何其它适当的处理,还可以采用任何其它适当的格式,只要经处理的音频信号能够有效地传输给音频渲染端以供进行渲染即可。
应指出,音频传输过程中还包括元数据的传输,元数据可以为各种适当的形式,可以适用于所有音频渲染器/渲染系统,或者可以分别相应地应用于各个音频渲染器/渲染系统。这样的元数据可被称为渲染相关的元数据,例如可包括基础元数据和扩展元数据,基础元数据为例如符合BS.2076的ADM基础元数据。描述音频格式的ADM元数据可被以XML(可扩展标记语言)形式给出。在一些实施例中,元数据可以被适当的控制,例如分层控制。
然后,在消费阶段,对来自音频制作阶段的(以及可选地,经中间编解码处理的)音频信号进行处理以回放/呈现给用户,特别地,将音频信号以希望的效果渲染呈现给用户。特别地,可以分别对音频数据和元数据进行恢复和渲染处理;然后对处理结果进行音频渲染处理后输入到音频设备。作为示例,如图1A所示,在接收到来自音频制作阶段的(以及可选地,经中间编解码处理的)音频信号后,可利用音轨接口和通用音频元数据(如ADM扩展等)分别进行数据和元数据恢复和渲染;对经恢复和渲染后的结果进行音频渲染,所得到的结果输入到音频设备以供消费者消费。作为另外的示例,在中间阶段还进行了音频信号表示压缩的情况下,在音频渲染端还可进行相应的解压缩处理。
根据本公开的实施例,音频渲染阶段的处理可包括各种适当类型的音频渲染。特别地,可以针对每种类型的音频表示,采用相对应的音频渲染处理。
在一些实施例中,音频渲染阶段的处理可以包含基于场景的音频渲染。特别地,在基于场景的音频(SBA,Scene-Based Audio)中,渲染系统独立于声音场景的捕捉或创建。声音场景的渲染通常在接收设备上进行,并生成真实或虚拟的扬声器信号。扬声器阵列信号的矢量S=[S
1…S
n]
T可以通过以下方式创建,这其中n代表第n个扬声器。
S=D·B
其中B是SBA信号的向量B=[B
(0,0)…B
(n,m)]
T,n和m代表了球谐函数的order和degree,D是目标扬声器系统的渲染矩阵(也叫做解码矩阵)。
在更常见的场景中,音频场景通过耳机回放双耳(binaural)信号进行呈现。双耳信号可以通过虚拟扬声器信号S和扬声器位置的双耳脉冲响应矩阵IR
BIN的卷积得到。
S
BIN=(D.B)*IR
BIN
在沉浸式应用中,希望声场根据头部的运动进行旋转。这样的旋转可以通过一个旋转矩阵F与SBA信号相乘来实现。
B'=F.B
在另一些方面,附加地或替代地,音频渲染阶段的处理可以包含基于通道的音频渲染。基于通道的格式在传统的音频制作中应用最为广泛。每个通道都与一个相应的扬声器相关联。扬声器的位置在例如ITU-R BS.2051或MPEG CICP中被标准化。在一些实施例中,在沉浸式音频的场景下,每个扬声器通道被视作一个场景中的虚拟声源渲染到耳机;也就是说,每个通道的音频信号被按照标准渲染到一个虚拟听音室的 正确位置上。最直接的方法是将每个虚拟声源的音频信号与参考听音室中测量得到响应函数进行滤波。声学响应函数可以用放在人或人工头耳朵里的麦克风来测量。它们被称为双耳房间脉冲响应(BRIR,binaural room impulse responses)。
在还另一些方面,附加地或替代地,音频渲染阶段的处理可以包含基于对象的音频渲染。在基于对象的音频渲染中,每个对象声源是同它的元数据一起独立呈现的,元数据描述了每个声源的空间属性,如位置、方向、宽度等。利用这些属性,声源在听众周围的三维音频空间中被单独渲染。渲染可以针对扬声器阵列或者耳机进行。扬声器阵列渲染使用不同类型的扬声器平移方法(如VBAP,向量基幅度平移),使用扬声器阵列播放的声音给听音者呈现出对象声源在指定位置的感受。而对耳机的渲染也有多种不同的方式,比如使用每个声源对应方向的HRTF(头相关传递函数)与该声源信号进行直接滤波。也可以采用间接渲染的方法,将声源渲染到一个虚拟的扬声器阵列上,然后通过对各个虚拟扬声器进行双耳渲染。
应指出,这里的音频渲染处理可包含或者对应于根据本公开的实施例的在渲染阶段所执行的各种适当处理,包括但不限于混响,例如ARIR(混响房间冲击响应)、BRIR(双耳房间脉冲响应)的计算等等。特别地,对于3D空间音频的逼真的空间效果,混响的效果是至关重要的。
图1B示出了例如涉及音频空间混响的常规音频渲染处理过程,其中首先获取来自声源的冲击响应集R,然后对冲击响应集R进行时间分块,基于分块后的冲击响应集R进行计算以获得混响房间冲击响应(ARIR)。
空间混响可通过各种适当的方法来实现,例如基于几何声学的空间混响。在基于几何声学的空间混响的计算中,主要是通过声线追踪的方法来模拟大量声音在几何空间以及环境中如何传播,通过声线的传播来计算声源与听者之间的冲击/脉冲响应,然后将声线信号转换成对应的定向的空间冲击/脉冲响应,通过大量的冲击/空间脉冲响应转换成双耳的冲击响应,即可计算出3D空间中的后期混响的效果。然而,通过声线追踪的方法来获得逼真的空间混响的音感,需要计算大量的空间脉冲响应以及做卷积运算,这对于个人电脑以及移动手机来说都是非常耗时而且计算密集的,因此降低该方法的计算复杂度以及降低计算带来的耗时是一件非常必要的事情。
针对这样的问题,在一些实现中,已经提出了多进程、多线程方法,即通过高端的个人电脑和手机将计算密集和计算复杂的部分分配到其它进程或线程来计算,以减轻计算的负载;以及GPU,TPU计算法,其类似于多线程方法,也是将计算密集以及 计算复杂的部分分配到高端的硬件以及外设上来进行计算,从而来提高计算的性能。但是由上可见,针对通过声线追踪算法计算后期混响的过程中的计算密集且计算复杂这一问题,这些优化方法主要是利用硬件的性能来解决该问题,这种依赖于硬件的方法无法有效地解决计算密集以及耗时的问题,对于硬件性能低的应用场景(例如,中低端的个人电脑或移动设备)尤其如此。
鉴于此,本公开提出了改进的技术方案来优化音频渲染中的信号处理、尤其用于音频渲染中的混响处理的信号处理。特别地,本公开提出了对于由源自于声源的声音信号得出的响应信号集进行优化,以获得优化的适用于音频渲染的响应信号,尤其是数量相对更少的响应信号,从而可以降低计算复杂度,提高计算效率。这样,对于硬件性能较低的应用场景、尤其是例如低端的个人电脑或移动设备也可以获得真实的空间音频的体验。
图2A示出了根据本公开的实施例的用于音频渲染的信号处理装置的框图。信号处理装置2包括获取模块21,被配置为获取响应信号集,所述响应信号集包含根据声音信号得出的响应信号,其中所述声音信号为在收听位置接收到的信号,以及处理模块22,被配置为基于与所述响应信号相关的感知特性对所述响应信号集中的响应信号进行处理,以获得适用于音频渲染的响应信号,其中所述适用于音频渲染的响应信号的数量小于或等于所述响应信号集中的响应信号的数量。特别地,通过对响应信号执行适当地处理,可以获得数量更少的适用于音频渲染、尤其是混响计算的响应信号,这样降低混响计算中的复杂度,提高效率。以下将对此进行详细描述。
根据本公开的实施例,在收听位置接收到的声音信号可以是来自声源的。特别地,来自声源的声音信号可包括从声源以各种方式传播至收听位置的声音信号,诸如从声源直接传播到收听位置的声音信号、从声源间接传播(例如,经由各种反射)到收听位置的声音信号中的至少一种。在一些实施例中,声音信号可以为各种适当形式的声音信号,例如可以包括声线信号,其可以是通过声线追踪方法来模拟声音在几何空间以及环境中的传播而获得的,尤其是诸如在基于几何声学理论的空间混响计算中所使用的声线信号。
根据本公开的实施例,响应信号可以包括从声音信号转换得到的各种适当的响应信号,例如脉冲响应、冲击响应等等,尤其诸如在基于几何声学理论的混响计算中要利用的空间脉冲响应。特别地,响应信号可指示来自声源的声音在收听位置处得到的响应信号。可以采用各种适当的转换方法。在一些实施例中,在声音信号是从声源到 收听者的声线信号的情况下,脉冲响应可以是从声线信号转换得到的定向的脉冲响应。以下将以脉冲响应为例进行描述,其中响应信号和脉冲响应可互换地使用,响应信号集将对应于脉冲响应集,其中包含至少一个脉冲响应或响应信号。应指出,本公开的实施例同样可应用于其他类型的响应信号,只要该响应信号是可从声音信号转换得到的、并且可用于音频渲染、尤其是混响计算的即可。
根据一些实施例,所获取的脉冲响应集可以包含至少一个脉冲响应,其可以对应于从声源到达收听位置的至少一个声音信号,该声音信号可以包括从声源到收听位置的直达信号、反射信号等等中的至少一者,例如一个脉冲信号可对应于一个声音信号。一方面,在一些实施例中,脉冲响应集可以包括从声源直接传播到收听位置的直传声音信号得出的脉冲响应。另一方面,在一些实施例中,所述脉冲响应集还可以包括由来自于声源的到收听位置的反射声音信号得出的脉冲响应。特别地,反射声音信号可指的是从声源发射出的声音信号在收听空间中的任何物体或者可反射位置上反射之后的反射信号。因而,所述脉冲响应集可以包括从声源到反射位置、再由反射位置到收听位置的声音信号所对应的脉冲响应。根据一些实施例,所述反射声音信号尤其是用于混响计算的后期反射声音信号。特别地,后期反射声音信号可指的是反射信号中的、从声源到达收听位置的时间较长的声音信号,例如,超过特定时间长度的声音信号;或者从声源经过较多次数反射的声音信号,例如超过特定反射次数的声音信号。
根据本公开的实施例,脉冲响应可以由适当的信息表示。在一些实施例中,脉冲响应可以由声音信号的时间信息、声音强度、声音空间方位信息等来表示,其中时间信息可以包含从声源到达收听位置的时间戳、传播时间长度等等中的任一种。在一些实施例中,脉冲响应可为各种适当的格式,例如为向量或矢量格式,向量中的每个元素可以对应于用于表示脉冲响应的信息数据,例如可包括时间数据元素、声音强度元素、空间方向元素等。在一些实施例中,所获取的脉冲响应集可以为各种适当的形式,例如向量形式,其中所有脉冲响应的各自对应数据以数据串的方式来布置;或者为矩阵形式,例如行可对应于各个脉冲响应,列可指示各脉冲响应的相应数据,等等。
根据本公开的实施例,脉冲响应集可以由各种适当的方式来获取。在一些实施例中,可以由信号处理装置获取或者接收到来自于声源到收听位置的声音信号,并对声音信号进行处理,例如适当转换,以获得脉冲响应集。在另一些实施例中,可以由其它适当的装置获取或接收来自于声源到收听位置的声音信号以生成脉冲响应集,并且提供给信号处理装置。
根据本公开的实施例,在获取响应信号集之后,信号处理装置将对响应信号集,尤其是响应信号集中的响应信号进行处理,从而得出适用于音频渲染的响应信号。特别的,适用于音频渲染的响应信号可从响应信号集得出并且数量小于响应信号集中的初始响应信号的数量。在一些实施例中,可基于响应信号相关的感知特性来进行信号处理,从而可以实现响应信号缩减,减少了用于音频渲染的响应信号的数量,降低了处理复杂度。
根据本公开的一些实施例,响应信号相关的感知特性可包括与用户在收听位置处收听与响应信号相对应的声音时的声音感知有关的特性,其也可被称为心理声学感知特性、心理听觉特性等。感知特性可以包含各种适当的信息。在一些实施例中,感知特性可以包含用户在收听位置处收听声音时的感知数据,尤其可包含与声音信号的听觉响度、声音信号之间的互扰性、声音信号之间的邻近性等中的至少一者有关的信息或数据,该感知数据例如可以由感知信号所携带的信息来计算得到,例如由感知信号的信号强度、信号空间方位信息、信号时间信息等计算得到。并且可以基于这样计算得到的感知数据来判断响应信号的可感知性,例如可以通过将感知数据与特定阈值进行比较来判断感知数据是否满足感知要求,尤其是是否可被有效感知,从而确定与响应信号相对应的声音能否被有效地感知。
在另一些实施例中,附加地或者替代地,感知特性可以包含感知状况相关信息,例如指示声音在收听位置处的感知状况,例如是否处于相互影响状况(诸如尤其是掩蔽状况),是否处于声压低而无法感知状况等等中的至少一者。作为示例,该感知状况信息可以用相应的比特、符号等来指示。例如,可以用1个比特来指示感知状况信息,其中“1”可指示能够被感知,可适用于音频渲染,“0”可指示无法被感知,例如掩蔽状况、声压过低无法感知的状况。作为另一示例,可以分别用1个比特指示掩蔽状况,1个比特指示声压状况。应指出,只有当这两个比特都为“1”时,才认为该响应信号能够被感知,可适用于音频渲染。感知状况信息可通过相应的感知数据与阈值进行比较而得出。作为示例,这尤其是对应于如下状况:由其它设备根据感知数据确定了感知状况,并且直接发送给信号处理装置,从而信号处理装置可以更加直观地确定信号的感知状况,并相应地进行信号处理。
根据本公开的实施例,感知特性、尤其是感知数据和/或感知状况信息可被以各种适当的方式获取。特别地,感知特性特别地可针对各个声音信号、尤其是各个脉冲响应而获取。在一些实施例中,可以由其它适当装置获取并且提供给处理模块,例如可 以由信号处理装置之外的装置、或者信号处理装置中的在处理模块之外的装置或模块来获取,并提供给处理模块。在另一些实施例中,处理模块本身可以对各个声音信号、尤其是各个脉冲响应进行计算而得到信号的感知特性,尤其是感知数据。
在一些实施例中,上述感知特性获取尤其可由感知特性获取模块222来执行,该感知特性获取模块222可以基于所获取的响应信号或声音信号的信息来获取感知数据,例如基于响应信号或声音信号的信息进行运算来获取感知数据。或者,该感知特性获取模块222可以从其他装置或者设备获取感知数据,或者直接获取感知状况信息。
根据本公开的实施例,可以基于响应信号相关的感知特性,确定用户在收听位置收听与响应信号相对应的声音时是否满足感知要求,例如是否能够被有效感知。这里,感知要求可对应于与响应信号相对应的声音能够被有效地感知所需要满足的状况或条件,例如非掩蔽状况,信号强度条件等等,并且可以为各种适当的形式。特别地,上述确定是否满足感知要求的处理尤其可由判定模块223来执行。在一些实施例中,感知要求可以对应于特定的感知条件阈值,可以将响应信号集中的响应信号的感知数据与特定阈值进行比较,并且基于比较结果来判定是否满足感知要求。附加地或替代地,在另一些实施例中,感知要求可以对应于可有效感知状况(例如,非掩蔽状况、信号声压足以被感知的状况等等)的指示信息,可以判定响应信号集中的响应信号的感知状况相关信息是否为可有效感知状况的指示信息。如果是,则可认为满足感知要求,否则可认为无法满足感知要求。作为示例,可以直接判定感知状况相关信息是1还是0,如果为0则无法满足要求,无法被有效感知。
由此,可以对于不满足感知要求的响应信号进行处理,例如这样的响应信号不直接用于音频渲染,而是被忽略、去除、合并等处理,从而与所获取的响应信号集相比,适用于音频渲染的响应信号的数量可适当缩减,这样可以有效地降低计算量,提高计算效率。特别地,考虑到在收听位置处会存在多个反射信号、尤其是后期反射信号,这样的计算密集的问题会相对突出,而在根据本公开的实施例中,通过针对收听位置处的反射信号、尤其是后期反射信号的响应信号(例如,脉冲响应)进行处理,能够实现用于音频渲染的反射信号的脉冲响应的缩减。
以下将描述本公开的实施例的基于感知特性进行信号处理的示例性实现,其中特别地描述应用了感知特性所包含的感知数据的示例性实现,但是应指出,感知特性所包含的感知状况相关信息可被类似地应用。
根据本公开的实施例,响应信号相关的感知特性可包括各种类型的感知特性,尤 其包括但不限于相对感知特性(也可被称为第一感知特性)。相对感知特性可涉及或指示响应信号集中的响应信号之间的相对感知状况,例如掩蔽状况等,特别地相对感知特性可包含或指示与掩蔽状况相关的信息。在此情况下,相应地,感知要求是与相应感知特性有关的要求,例如掩蔽状况有关的要求。例如,是否满足感知要求可以为掩蔽状况是否大,并且在掩蔽状况大时,尤其是诸如大于感知要求所对应的掩蔽要求时,可认为不满足感知要求,否则在掩蔽状况小时,尤其是诸如小于或者等于感知要求所对应的掩蔽要求时,可认为满足感知要求。这样,可以基于响应信号之间的相对感知特性来确定响应信号是否存在掩蔽,并且在确定存在掩蔽的情况下进行信号处理,例如包含可以对被掩蔽的信号进行忽略、去除等,或者将发生掩蔽状况的信号进行合并等中的至少一者的缩减处理。这样可以基于掩蔽状况对响应信号进行筛选,尤其例如相互掩蔽影响较大的声音信号可进行适当合并,从而可以适当缩减用于音频渲染处理的数据量,以便降低计算量,提高计算效率。
应指出,相对感知状况并不仅限于掩蔽状况,其还可以涉及响应信息的其他相互干扰、相互影响状况等,并且在响应信息的相互干扰、相互影响大到足以导致声音无法被准确收听/感知时,可认为无法满足感知要求。
根据本公开的实施例,对于响应信号的处理可进一步包括可以将信号之间的相对感知特性(诸如尤其相对感知数据)与特定阈值(可被称为相互感知阈值)进行比较,并且基于比较结果来判定信号之间是否相互影响(尤其是例如是否相互掩蔽)。这样,在判定相互掩蔽的情况下,可对信号进行忽略、去除、合并等缩减处理中的至少一者。
在本公开的一些实施例中,掩蔽可涉及或指示邻近信号之间的掩蔽,并且依赖于信号邻近类型而可被分为不同类型的掩蔽。特别地,掩蔽可包含时间掩蔽,空间掩蔽,频域掩蔽等中的至少一者。例如,时间掩蔽可指的是时间邻近的信号之间发生掩蔽状况,空间掩蔽可指的是空间邻近的信号之间发生掩蔽状况,频域掩蔽可指的是在频率邻近的信号之间发生掩蔽状况。
根据本公开的实施例,信号之间的相对感知特性可涉及信号之间的邻近性,特别地包括时间邻近关系、空间邻近关系、频域邻近性等。这样可以通过将信号之间的邻近性与特定邻近性阈值(可被称为第一邻近性阈值)进行比较,并且在小于该阈值的情况下可以认为信号之间非常接近而以致于可能发生掩蔽。例如,如果响应信号之间的时间差过小,例如两个响应信号时间上非常邻近,或者时间邻近的响应信号之间的空间距离过小,例如两个响应信号空间上非常邻近,则可以认为这两个响应信号之间 可能会发生掩蔽,在感知中会相互影响,因此需要对这两个信号进行处理,例如,进行合并,以便消除掩蔽,实现信号缩减。
在另一些实施例中,附加地或者替代地,可进一步依赖于响应信号之间的信号强度关系来确定是否可能存在掩蔽。例如,如果在特定时间段或者空间范围(例如,适当邻近范围)内的响应信号之间的强度明显相互影响,例如,两个响度信号之间的声音强度差异非常大,诸如大于特定声音强度阈值,则可以判断存在掩蔽,并且将被掩蔽的信号或者去除,或者与另一信号合并,实现信号缩减。
具体而言,当用户在收听位置处收听来自声源的声音时,人耳对声音的感知受到到掩蔽效应的影响,当声压较大的声音A作用于人耳时,如果此时声音B也作用于人耳,这时人耳听觉系统在时间和空间上对声音B的感知将会下降,对于低于掩蔽门限的声音人耳基本感知不到,这时即发生了掩蔽效应。特别地,当先出现的声音A信号能量超过一定的阈值就会抑制后出现的低能量信号B,掩蔽效应会随着掩蔽音A的增强耳增强,同时也会随着被掩蔽音B的增强而减弱;当人耳的听觉感知中后出现的信号B能量较大,远大于先出现的信号A时也会出现后向掩蔽,如图3A所示。
特别地,根据本公开的实施例,可以首先确定邻近信号,然后基于邻近信号之间的相互感知相关数据,例如基于信号的空间信息、强度信息等中至少一者来计算得到的值,来确定邻近信号之间是否存在掩蔽。这里的邻近信号可以指示在特定时间段或者空间范围内的信号,或者信号之间的时间差或者空间差小于特定阈值的信号,这里的特定阈值可被第二邻近性阈值,其通常可大于或等于在先的第一邻近性阈值,从而能够更加准确地确定掩蔽状况,对于信号进行更加适当的处理,尤其是合并处理。
根据一些实施例,脉冲响应的合并可以采用各种适当的方式来执行。在一些实施例中,合并包括将判断为相互掩蔽的两个脉冲响应的属性信息,诸如空间信息、时间信息、强度信息等中的至少一者,进行数学统计,以获得新的脉冲响应。作为示例,数学统计可以为求平均,例如各种适当类型的平均计算,诸如空间平均、加权平均等等。例如,两个脉冲响应的合并可以包括各脉冲响应的时间信息、空间信息和强度信息分别进行平均,从而可以获得平均计算得到的一个脉冲响应。还例如,数学统计可以是脉冲响应的空间位置的均值或脉冲响应的空间位置的加权平均,例如可以基于脉冲响应的声压水平/强度进行加权平均。
作为示例,对于可能发生时间掩蔽和/或空间掩蔽的两个脉冲响应,所合并得到的脉冲响应可如下表示:
其中r
t,s可指示脉冲响应,
指示第一时间、第一空间位置的脉冲响应,
可指示第二时间、第二空间位置的脉冲响应,其中当这两个脉冲响应时间上掩蔽和/或空间上掩蔽时,可以进行合并以得到新的脉冲响应r′
t,s。时间掩蔽状况可由t
2-t
1≤τ
T表示,其中τ
T表示与时间掩蔽相关的时间阈值;空间掩蔽状况可由s
2-s
1≤τ
S表示,其中τ
S表示与空间掩蔽相关的空间阈值。应指出,这里的合并条件仅仅是示例性的,还可以是其它示例性掩蔽条件,例如信号能量差异大于特定能量阈值,信号能量占比小于特定阈值等等。
以下将描述根据本公开的实施例的信号处理模块根据相对感知特性所执行的处理的示例性实现。
根据一些实施例,信号处理模块可以被配置为对于脉冲响应集中的每个脉冲响应,确定该脉冲响应与脉冲响应集中的其它脉冲响应之间的邻近性,包括但不限于时间邻近性、空间邻近性和频域邻近性中的至少一者,并且基于该邻近性来对脉冲响应进行处理。特别地,在两个脉冲响应之间的邻近性小于特定阈值,例如前述第一邻近性阈值的情况下,可认为两个脉冲响应过于邻近而可能发生产生掩蔽,从而对这两个信号进行适当处理,例如合并处理。
特别地,在邻近性为时间邻近性的情况下,可以确定脉冲响应之间的时间差,并且时间差小于特定时间阈值,例如前述第一邻近性阈值的情况下,可认为这两个信号掩蔽。作为另一示例,在邻近性为空间邻近性的情况下,可以确定脉冲响应之间的空间距离,并且空间距离小于特定间距阈值,例如前述第一邻近性阈值的情况下,可认为这两个信号掩蔽。这里,脉冲响应之间的空间距离可包括空间间隔相关信息,例如空间角间隔。在一些实施例中,所述空间间隔相关信息可与所述脉冲响应之间的空间向量间隔有关。在一些实施例中,所述空间间隔相关信息由所述脉冲响应之间的空间向量间隔的统计特性来表示,例如余弦值、正弦值等。
根据本公开的一些实施例,附加地或者替代地,可以基于响应信号的属性信息,例如时间信息、空间信息、强度信息等,来确定响应信号之前的相互感知数据,然后基于相互感知数据来对响应信号进行处理,例如进行如前所述的缩减处理。这里相互感知数据主要涉及或者指示响应信号之间是否会发生掩蔽状况,因此也可被称为掩蔽状况相关信息。
根据一些实施例,附加地或者替代地,信号处理模块可以被配置为对于脉冲响应集中的每个脉冲响应,确定该脉冲响应在脉冲响应集中的该脉冲响应的邻近响应集,并且对于该邻近响应集,基于脉冲响应之间的掩蔽状况相关信息进行筛选。特别地,邻近响应可指的是在时间和/或空间维度上相邻的脉冲响应,脉冲响应的邻近响应集实质上是所获取的脉冲响应集中的子集,其可指的是包含该脉冲响应在内的特定时间范围和/或空间范围内的脉冲响应子集,或者包含与该脉冲响应的时间差和/或空间差小于特定阈值的脉冲响应。这里,该特定范围或者特定阈值可对应于诸如前述第二邻近性阈值。
在一些实施例中,脉冲响应的时间邻近响应集实质上是所获取的脉冲响应集中的子集,其可指的是包含该脉冲响应在内的特定时间范围的脉冲响应子集。例如所要计算的脉冲响应为2.5秒处的脉冲响应,其时间邻近响应集可指的是在2秒到3秒之间的时间范围内的脉冲响应集。或者邻近响应集可包含与该脉冲响应的时间差小于等于特定时间阈值,诸如上述第二邻近性阈值的脉冲响应,例如可对应于0.5秒。该时间范围或阈值可以被适当地设定,例如经验设定。优选地,该时间范围对应于可能发生相互遮蔽的声音信号之间的时间差,该时间差可通过实验确定,经验确定等等。这里的时间值可以是到达收听位置处的时间点,也可以是到收听位置处的传播时间长度等。
在一些实施例中,对于每个脉冲响应,可以遍历所获取的脉冲响应集,以判断其它脉冲响应中的每一个是否属于该时间邻近响应集,例如是否在该时间范围内。或者说,可以对于每个脉冲,可以遍历所获取的脉冲响应集,以判断其它脉冲响应中的每一个与该脉冲之间的时间差是否小于特定阈值,诸如前述的第二邻近性阈值。
特别地,对于便于脉冲响应的时间邻近响应集的确定,还可通过对于所获取的脉冲响应集中的脉冲响应进行时间排序。在一些实施例中,其中,所述处理模块包括排序模块221,被配置为对于所获取的脉冲响应集中的脉冲响应进行排序,优选地按照时间排序,例如按照到达收听位置的时间从早到晚来排序,根据脉冲响应的传播时间从短到长进行排序等等,应指出,其它排序方式也是可以的,只要能够适当地按照时间进行排序即可。脉冲响应集排序可以进一步适当地提高处理效率。作为一个示例,对于每一脉冲响应,可以仅仅该脉冲响应的前一个和后一个脉冲响应作为邻近响应进行判断。作为另一示例,可以仅对该脉冲响应的前后特定时间范围内的脉冲响应、或者该脉冲响应的前后特定数量的脉冲响应作为邻近响应来进行判断。这样,无需对于整个脉冲响应集进行遍历,从而可以减小判断处理的计算量,提高了处理效率。应指 出,排序操作可以由其它装置/设备来执行,并且排序后的脉冲响应可被输入到信号处理装置。
根据本公开的实施例,所述信号处理模块被配置为确定该邻近响应集中的每两个脉冲响应之间的相对感知特性,可被称为掩蔽状况相关信息,对于所述脉冲响应的掩蔽状况相关信息指示响应之间的掩蔽状况大的两个脉冲响应,这两个脉冲响应将被合并以构建新的脉冲响应以用于音频渲染中的计算,否则将保持脉冲响应不变。以下给出掩蔽状况相关信息的计算和应用的一种示例性实现。
作为示例,依赖于掩蔽状况相关信息的实现,可以在掩蔽状况相关信息大于特定阈值的情况下,认为掩蔽状况相关信息所指示的掩蔽状况大。在此情况下,可认为感知要求,尤其是感知要求所包含的掩蔽要求与特定阈值是对应的,满足感知要求可对应于小于或等于特定阈值。例如,根据邻近响应集
计算当前集合里面的空间向量之间的间隔,例如间隔角的余弦集合,作为前述掩蔽状况相关信息
其中
和
表示邻近响应集
中的两个响应的向量表示,这里加箭头是表示方向,因为每个响应在空间中都是有个方向坐标值,相当于向量,分母中的|r
i|,|r
j|分别指示这两个响应的量值,例如特定坐标系中的向量的大小,其可对应于声音距离收听者或收听位置的距离。这样所得到的邻近响应集中的每两个响应之间的余弦集合。
然后,根据集合
以及空间余弦阈值ζ
T,也可被称为特定间隔阈值,判断是否发生掩蔽,如果发生掩蔽则执行合并处理,生成新的集合R′
t,s
特别地,对于集合
中的每一个值,来与特定阈值进行比较,并且在大于阈值的情况下,即集合中的两个响应之间的角间隔/间距很小,意味着这两个响应过于邻近,将集合
中的该值相对应的两个响应进行合并,例如两个冲击响应的均值,应指出也可以是其它合并方式。而对于其他情况,可以保留这两个冲击响应。这样通过合并,可以将脉冲响应集中所包含的脉冲响应进行缩减,以获得新的集合。
当然,以上仅是示例性的,还可以采用其它适当方式来确定响应信号之间的空间间隔/距离。作为示例,依赖于掩蔽状况相关信息的实现,可以在掩蔽状况相关信息小 于特定阈值的情况下,认为掩蔽状况相关信息所指示的掩蔽状况大。例如可以确定空间向量的正弦集合,并且在空间正弦值小于特定阈值,也可被称为特定间隔阈值,时,这对应于掩蔽状况大,则进行合并。在此情况下,可认为感知要求,尤其是感知要求所包含的掩蔽要求与特定间隔阈值是对应的,满足感知要求可对应于大于特定间隔阈值。
在一些实施例中,可以从该时间邻近响应集中的第一脉冲响应开始依次计算每两个脉冲响应之间的掩蔽状况相关信息,特别地,该第一脉冲响应与其它脉冲响应中的每一个之间的掩蔽状况相关信息,然后计算第二脉冲响应与之后的脉冲响应中的每一个之间的掩蔽状况相关信息,从而获得该时间邻近响应集中的所有脉冲响应之间的掩蔽状况相关信息。然后将每个掩蔽状况相关信息与特定阈值进行比较,对于掩蔽状况相关信息指示掩蔽状况大的两个脉冲响应,这两个脉冲响应将被合并以构建新的脉冲响应以用于音频渲染中的计算,否则这两个脉冲响应可保持不变。
在一些实施例中,在一些实施例中,可以从该时间邻近响应集中的第一脉冲响应开始依次计算每两个脉冲响应之间掩蔽状况相关信息,并且伴随着掩蔽状况相关信息的计算来进行判断处理。也就是说,每计算一个掩蔽状况相关信息,然后就判断该掩蔽状况相关信息是否指示掩蔽状况大,如果掩蔽状况大则进行合并处理,之后将基于该合并得到的脉冲响应来进行后续的掩蔽状况相关信息计算和判断处理。这样可以进一步减少计算和判断处理的处理量,提高时间处理效率。
应指出,上述对于时间邻近响应集中的掩蔽状况相关信息计算和判断处理可以同样适用于空间邻近响应集。
特别地,脉冲响应的空间邻近响应集可以被以与时间邻近响应集类似的方式获取。脉冲响应的空间邻近响应集例如可以指的是包含该脉冲响应在内的特定空间范围内的脉冲响应子集,或者是可以是由该脉冲响应以及与脉冲响应之间的空间间隔小于特定阈值的脉冲响应组成的集合。该空间范围或阈值可以被适当地设定,例如通过实验确定,经验设定。优选地,该空间范围对应于可能发生相互遮蔽的声音信号之间的空间间隔,该空间间隔可通过实验确定,经验确定等等。
在一些实施例中,对于每个脉冲响应,可以遍历所获取的脉冲响应集,以判断其它脉冲响应中的每一个是否属于该空间邻近响应集,例如是否在该空间范围内。或者说,可以对于每个脉冲,可以遍历所获取的脉冲响应集,以判断其它脉冲响应中的每一个与该脉冲之间的空间间隔是否小于特定阈值,诸如前述的第二邻近性阈值。
特别地,对于便于脉冲响应的空间邻近响应集的确定,还可通过对于所获取的脉冲响应集中的脉冲响应进行空间排序。在一些实施例中,排序模块221还可被配置为对于所获取的脉冲响应集中的脉冲响应进行排序,优选地按照空间间隔排序,例如按照脉冲响应与收听环境中的参考位置的空间间隔由近及远来排序,或者以特定脉冲响应为基准,按照其它脉冲响应与该基准脉冲响应之间的空间间隔由近及远来排序,等等。这样,对于每个脉冲响应,可以直接选择在排序中与之相邻的脉冲来作为邻近响应集,例如可以按时间脉冲排序类似的方式,选择与其紧邻的、或者相邻特定数量的、或者在特定空间范围内的,或者空间间隔小于特定阈值的,脉冲响应。这样无需对于整个脉冲响应集进行遍历,从而可以减小判断处理的计算量,提高了处理效率。
然后对于所确定的空间邻近响应集,确定空间邻近响应集中的响应信号之间的掩蔽状况相关信息,并且在判断掩蔽的情况下来执行合并处理,可如上文所述地执行。作为示例,可以确定空间邻近响应集中的响应信号之间的空间邻近性,并且在响应信号相互邻近,例如小于特定阈值,诸如前述第一阈值的情况下,可以认为响应信号之间会发生掩蔽,然后对于被判断掩蔽的响应信号进行处理。
在一些实施例中,上述的针对时间邻近响应集中的掩蔽状况相关信息计算和判断处理可以扩展到整个所获取的脉冲响应集,从而可以针对整个所获取的脉冲响应集来进行脉冲响应筛选。
以下将描述根据本公开的实施例的信号处理的实现,尤其是针对绝对感知特性的实现。根据本公开的一些实施例,绝对感知特性可以涉及响应信号本身相关的声音的听觉属性,尤其是感知强度,例如绝对声音强度、相对声音强度、声音声压等。特别地,绝对感知特性可以包括与声音信号的强度有关的信息,特别地脉冲响应的强度相关信息。在一些实施例中,所述强度相关信息是声音信号、尤其是脉冲信号所对应的频带的或通道的声压水平。在另一些实施例中,所述强度相关信息是声音信号的强度(例如声压)相对于参考强度(例如声压)的相对强度信息,尤其对应于听觉阈值。
作为示例,人耳能否听见声音取决于声音的频率,幅值是否高于这种频率下的绝对听觉阈值,而绝对听觉阈值是人耳能够感受到声音的最小强度值,人耳对不同频段的声音的听觉强度不一样的,该听觉强度尤其是听觉阈值,其可对应于人耳在该频段所能适当感知到声音的强度。人耳的听觉阈值曲线如图3A所示,而当声音信号的强度低于绝对听力阈值时人耳式感知不到声音的存在。从而这样的声音信号可以被从音频渲染处理中去除,可以降低计算量。这里,听力阈值可以是对应于前述的强度相关 信息,绝对听力阈值对应于前述强度相关阈值。
根据本公开的实施例中,附加地或者可选地,还可以通过将各响应信号的绝对感知特性值与特定阈值(也可被称为感知阈值,或者绝对感知阈值)进行比较,以判断哪些声音信号适用于音频渲染,例如在高于特定阈值的声音信号可被有效地感知,而低于特定阈值的声音信号可能无法被有效地感知而可被筛除,从而用于音频渲染处理的数据量被进一步适当缩减。特别地,对于所获取的响应信号集,尤其是通过上述实施例所获取的缩减的响应信号集,可以基于其中的响应信号的信号强度属性来判定该响应信号是否将参与混响计算,特别地,是否参与用于获取双耳冲击响应的卷积计算,从而通过绝对心里听觉阈值对每个通道进行声压级的计算以降低基于卷积的双耳冲击响应的复杂度。
在一些实施例中,绝对响应特性对应于信号的强度相关信息,并且所述信号处理模块可配置为在信号处理中可以将强度相关信息与特定强度相关阈值进行比较,当强度相关信息低于特定强度相关阈值(也可被称为感知强度阈值,或者绝对感知强度阈值)时,相应的声音信号、尤其是相应的脉冲响应可被去除,无需用于音频渲染处理,这样可以有效地降低音频渲染处理的计算负担。在一些实施例中,强度相关信息可以为各种适当的表示形式,例如声音强度信号、声压信号、基于参考强度信号得到的相对值、基于参考声压信号得到的相对值等等,强度相关阈值可以为相应形式的阈值。在另一些实施例中,强度相关信息可被以适当方式确定,例如是针对频带确定的、针对通道确定的等等。
作为一个示例,对于响度信号,计算每个通道的听力相关的相对强度值
其中,p表示响度信号的声压,p
ref表示参考声压,定义为正常听力的青年人,在室温25℃,标准大气压,1000Hz的声音信号,能被听见的最小声压,为20uP。然后,将之与标准的绝对听力阈值进行比较,判断当前通道的声压是否在人耳的可听范围内,
其中L
audible等于1的相应声音信号为可以被有效感知到的声音,并且可以做双耳房间的冲击响应的计算,即可适用于音频渲染处理。L
audible等于0的相应声音信号为可以无法有效感知到的声音,这样所对应的响应信号将被丢弃或者去除,无需再涉及 音频渲染或混响计算。应指出,L
audible以上取值仅仅是示例性的,其还可以是其它适当的值,只要取值能够区分上述不同状况即可。
应指出,上述计算仅是示例性的,强度相关信息还可被以其它适当的方式来确定,例如基于频带、基于时间块等来确定。此外,基于强度相关信息进行筛选可以采用其它各种适当的方式来执行,例如可以直接确定强度、声压等,然后将强度与强度阈值、声压与声压阈值进行比较来进行筛选。
在一些实施例中,可以对所获取的脉冲响应集中的各个脉冲响应来执行。其中,所述强度相关信息是脉冲响应集中所包含的脉冲响应对应的频带的声压水平。在另一些实施例中,可以对所获取的脉冲响应集中的脉冲响应块来执行。其中,所述脉冲响应块可以是脉冲响应集按照时间划分得到的脉冲响应块。其中,所述强度相关信息是脉冲响应集中的所包含的脉冲响应块的对应频带的声压水平。特别地,每个脉冲响应块可以对应于至少一个频带,从而可以对于脉冲响应块对应的每个频带来获取声压水平。由此,在所述脉冲响应的声压水平小于特定阈值时,该脉冲响应将被去除而不被用于音频渲染中的计算。这样可以有效地降低用于音频渲染计算中所使用的数据量,降低了计算复杂度以及计算耗时,提高了计算效率。
根据本公开的实施例,信号处理还可同时利用相对感知特性和绝对感知特性两者,也就是利用强度相关信息和掩蔽状况相关信息两者来对脉冲响应进行筛选,从而进一步缩减用于音频渲染处理的数据量,从而降低计算复杂度和计算工作量,提高处理效率。在一些实施例中,优选地,首先根据掩蔽状况相关信息来对脉冲响应进行适当处理,例如进行合并,保留、忽略、去除等等,然后对于处理后的脉冲响应,进一步根据信号的强度相关信息来对各个脉冲响应进行筛选,从而进一步获得缩减的脉冲响应集。在另一些实施例中,对于给定的响应信号集,可以根据信号的强度相关信息来对各个脉冲响应进行筛选,获得缩减的脉冲响应集,然后对于缩减的脉冲响应集,可根据掩蔽状况相关信息来对脉冲响应进行适当处理,例如进行合并,保留、去除、忽略等等,从而获得进一步缩减的脉冲响应集。
以上主要描述了感知特性包含感知数据的情况下进行的信号处理操作,包括确定感知状况(诸如是否掩蔽,是否不足以被感知等)以及基于确定结果的相应处理。应指出,感知特性包含感知状况相关信息的情况下,信号处理操作也可被类似地执行。例如,感知状况相关信息可以如前所述通过将感知数据与阈值进行比较而被设定的。特别地,可以通过判定感知状况相关信息的取值来确定感知状况,然后并基于确定结 果执行相应的处理。例如,可以判定感知状况相关信息为1还是0,并且在为0的情况下执行上述的信号处理,诸如合并、忽略、去除等。
根据本公开的实施例,在优化了适用于音频渲染的响应信号之后,可对于该响应信号进行进一步的处理,例如将响应信号进行分块,尤其是时间分块,然后对于分块后的响应信号来进行音频渲染,例如计算ARIR,可选地或者附加地计算BRIR。这里的分块、ARIR或BRIR计算等可采用各种适当的方式来执行,例如本领域公知的各种方式来执行,这里将不再详细描述。
特别地,根据本公开的实施例的信号处理可被以适当的方式被应用于音频渲染处理。特别地,可以集中式地或者分散式地应用于音频渲染处理。特别地,其中相比于如图1所示的常规的信号处理过程,通过新增加的模块来优化信号处理过程,所新增加的模块可对应于根据本公开的实施例的信号处理装置,其中根据相对感知特性来进行响应信号优化,尤其是借助相互掩蔽状况相关信息来去除冗余响应,和/或根据绝对感知特性来进行响应信号优化,尤其是计算感知通道作为强度相关信息以进一步处理信号,从而可以获得优化处理的脉冲信号集来进行音频渲染。
在另一些实施例中,根据本公开的实施例的信号处理可以均在分块之前应用。如图4A(a)所示,具体而言,在获取冲击响应集R之后,可以对于冲击响应集R中的冲击响应应用根据本公开的实施例的信号处理,特别地,可以借助相互掩蔽状况相关信息来去除冗余响应,和/或对于冲击响应计算感知通道作为强度相关信息以进一步处理信号,例如可以去除强度相关信息低于特定阈值的冲击响应,然后对于这样获得的优化脉冲信号集进行时间分块,然后基于分块的冲击信号来进行音频渲染,例如计算ARIR,可选地或者附加地计算BRIR。
在一些实施例中,根据本公开的实施例的信号处理可以在分块之后应用。如图4A(b)所示,具体而言,在获取冲击响应集R并且根据时间进行分块之后,可以对于每个时间块中的冲击响应应用根据本公开的实施例的信号处理,特别地,可以借助相互掩蔽状况相关信息来去除冗余响应,和/或对于冲击响应计算感知通道作为强度相关信息以进一步处理信号,例如可以去除强度相关信息低于特定阈值的冲击响应,从而需要参与用于音频渲染的混响计算,这样可以获得优化处理的脉冲信号集来进行音频渲染,例如计算ARIR,可选地或者附加地,还计算BRIR。
在还另一些实施例中,根据本公开的实施例的信号处理可以分散在分块前后。如图4A(c)所示,在获取冲击响应集R之后,可以对于冲击响应集R中的冲击响应应 用根据本公开的实施例的信号处理,特别地,可以借助相互掩蔽状况相关信息来去除冗余响应,然后可以对处理之后的冲击响应进行时间分块,之后对于每个冲击响应块中,对于冲击响应计算感知通道作为强度相关信息以进一步处理信号,例如可以去除强度相关信息低于特定阈值的冲击响应,由此基于进一步处理之后的信号来进行音频渲染,例如计算ARIR,可选地或者附加地计算BRIR。应指出,在此分散式实现中,借助相互掩蔽状况相关信息来去除冗余响应的操作以及计算感知通道作为强度相关信息以进一步处理信号的操作可以交换地执行,例如可以在分块之前计算感知通道作为强度相关信息以处理信号,并且在分块之后可以借助相互掩蔽状况相关信息来去除冗余响应。
从而,在本公开中,通过判定响应信号的感知特性是否满足感知要求,例如在时间和/或空间维度的感知特性是否满足感知要求,并且对于不满足要求的响应信号进行去除、忽略、合并等等至少一种处理,这样可等同于将不满足要求的响应信号进行心理声学掩蔽,从而可以降低冲击响应的数量而算法的性能仍然保持高性能以及高保真度。
根据本公开的一些实施例,还提出了音频渲染装置,其包括如本文中所述的信号处理模块,被配置为对由来自于声源的到收听位置的声音信号得出的响应信号进行处理,渲染模块,被配置为基于被处理后的响应信号进行音频渲染,如图2C所示。特别地,音频渲染可采用本领域各种适当的已知渲染操作来实现,例如可以获得各种适当的渲染信号以供渲染。作为示例,对于更高级的场景信息处理器,可能会生成场景的空间房屋混响响应包括但不限于RIR(Room Impulse Response),ARIR(Ambisonics Room Impulse Response),BRIR(Binaural Room Impulse Response),MO-BRIR(Multi orientation Binaural Room Impulse Response)。对于这类信息,可在这一模块中加入卷积器,以获得处理后的信号。根据混响类型的不同,生成结果可能是中间信号(ARIR),也可能是全向信号(RIR)或双耳信号(BRIR,MO-BRIR)。
特别地,根据本公开的实施例,如前所述的基于信号的绝对感知特性对信号进行优化的处理也可以在音频渲染装置中由渲染模块来实现,也就是说,在音频渲染装置中,对由来自于声源的到收听位置的声音信号得出的响应信号,信号处理模块通过基于信号的相对感知特性对响应信号进行优化处理,以便获取数量缩减的响应信号,然后数量缩减的响应信号在渲染模块中进行渲染处理,其中进一步对于数量缩减的响应信号,应用根据本公开的实施例的基于信号的绝对感知特性的信号处理,特别地仅将 其绝对感知特性高于特定阈值的信号进行用于音频渲染的混响计算,例如通过卷积来进行音频渲染,这样可以进一步降低计算复杂性,降低计算开销,提高计算效率。
应注意,如上所述的信号处理装置和音频渲染装置的各个模块仅是根据其所实现的具体功能划分的逻辑模块,而不是用于限制具体的实现方式,例如可以以软件、硬件或者软硬件结合的方式来实现。在实际实现时,上述各个单元可被实现为独立的物理实体、或者也可由单个实体(例如,处理器(CPU或DSP等)、集成电路等)来实现,例如,编码器、解码器等等可以采用芯片(诸如包括单个晶片的集成电路模块)、硬件部件或完整的产品此外,附图中用虚线示出的元件指示这些元件可以存在,但是无需实际存在,而它们所实现的操作/功能可由处理电路本身来实现。
此外,可选地,信号处理装置和音频渲染装置还可以包括未示出的其它部件,诸如接口、存储器、通信单元等。作为示例,接口和/或通信单元可用于接收输入的待渲染的音频信号,或者响应信号集,还可以将最终产生的音频信号输出给回放环境中的回放设备以供回放。作为示例,存储器可以存储音频渲染中所使用的和/或音频渲染过程中所产生的各种数据、信息、程序等等。存储器可以包括但不限于随机存储存储器(RAM)、动态随机存储存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、闪存存储器。
根据本公开的一些实施例,还提出了用于音频渲染的信号处理方法。图2B示出了根据本公开的用于音频渲染的信号处理方法的一些实施例的流程图。如图2B所示,在步骤S210(获取步骤)中,获取响应信号集,所述响应信号集包含根据声音信号得出的响应信号,其中所述声音信号为在收听位置接收到的信号,在步骤S220(处理步骤)中,基于与所述响应信号相关的感知特性对所述响应信号集中的响应信号进行处理,以获得适用于音频渲染的响应信号,其中所述适用于音频渲染的响应信号的数量小于或等于所述响应信号集中的响应信号的数量。
根据本公开的一些实施例,还提出了音频渲染方法,其包括采用如本文中所述的信号处理方法对由来自于声源的到收听位置的声音信号得出的响应信号进行处理,并且基于被处理后的响应信号进行音频渲染,如图2D所示。
尽管未示出,根据本公开的用于音频渲染的信号处理方法还可以包括其它步骤来实现前文所述的脉冲响应排序、心理声学掩蔽特性获取,比较/判定处理,这里将不再详细描述。应指出,根据本公开的信号处理方法和音频渲染方法以及其中的步骤可以由任何适当的设备来执行,例如处理器、集成电路、芯片等来执行,例如可以由前述 信号处理装置以及其中各个模块来执行,该方法中也可以体现在计算机程序、指令、计算机程序介质、计算机程序产品等中来实现。
以下将参照附图来详细描述根据本公开的实施例的示例性处理操作,图4B示出了根据本公开的实施例的示例性处理操作的流程图,其中基于强度相关信息和信号掩蔽状况信息两者来进行声音信号处理以进行音频渲染处理。
1.对于脉冲响应集R,根据R中的时间进行排序得到排序后的集合R
t,s,其中下标t表示时间,s表示空间。
2.从时间纬度逐个递归遍历当前的响应r
t,s的邻近响应集
每个r
t,s包括三个重要的数据,例如时间,空间方向,声强。这里的邻近响应集可以为包含当前响应在内的特定时间范围内的响应集合,l表示邻近响应集的长度l,其可以指示该时间范围,或者是邻近响应集需要包含的数量,等等。
3.根据邻近响应集
计算当前集合里面的空间向量的余弦集合,作为前述掩蔽状况响应信息
其中
和
表示邻近响应集
中的两个冲击响应的向量表示,这里加箭头是表示方向,因为每个冲击响应在空间中都是有个方向坐标值,相当于向量,分母中的|r
i|,|r
j|分别指示这两个冲击响应的量值,例如特定坐标系中的向量的大小。这样所得到的邻近响应集中的每两个响应之间的余弦集合。
4.根据集合
以及空间余弦阈值ζ
T,判断是否合并响应,并生成新的集合R′
t,s
特别地,对于集合
中的每一个值,来与特定阈值进行比较,并且在小于阈值的情况下,将集合
中的该值相对应的两个冲击响应进行合并,例如两个冲击响应的均值,应指出也可以是其它合并方式。而对于其他情况,可以保留这两个冲击响应。这样通过合并,可以将脉冲响应集中所包含的脉冲响应进行缩减,以获得新的集合。
5.根据新的集合R′
t,s计算响应的对应的频带的声压水平,以作为心理声学感知特性中的强度相关信息。这里,可以针对通道,尤其是高保真混响通道(Ambisonic channel)来计算声压水平。
优选地,声压水平的计算可以对于脉冲响应块来计算,脉冲响应块是对于新的集合进行分块而获得的,分块大小可以采用各种适当的方法来设定。在一些实施例中,分块大小可对应于音频渲染中所使用的头部相关传递函数(HRTF)的尺寸。声压水平的计算如下:
优选地,声压其中z
0表示声阻抗,
每个块中每个频带的声压的总和,P
ref表示参考声压。
6.计算集合R′
t,s的ARIR,并根据上一步计算出的SPL判断是否进行卷积的计算得R
arir
这里的卷积操作可采用本领域已知的各种方式来实现,所选择的hrtf函数可以是本领域已知的各种适当的函数,这里将不再详细描述。这样,对于声压强度水平高的信号进行保留,并进行卷积操作以获得响应的ARIR,而对于声压水平低的信号则无需进行卷积操作,这样可以降低计算操作开销,提高计算效率。
7.根据R
arir转换成对应的R
brir。这里的转换操作可以采用本领域已知的各种转换方法,这里将不再详细描述。
这里的转换操作可以由本领域的各种适当转换方法来执行,这里将不再详细描述。
以下将描述根据本公开的实施例的优化处理所实现的有利技术效果。通过该方法可以有效的降低计算冲击响应的个数以及双耳冲击响应的计算复杂度以及计算的耗时。
这里以sibenik的空间场景,ambisonic的阶数为3阶为例来进行描述,其中通过时空的计算可得出被屏蔽掉/滤除的冲击响应的个数与全部冲击响应的个数的比值,计算公式为
其中R
m为被屏蔽掉/滤除的冲击响应的个数,R
n为总的冲击响应个数,p
n为当前冲击响应个数为n个时,屏蔽掉/滤除的冲击响应的个数与全部冲击响应的个数的比值。具体而言,随着冲击响应的个数的增加,屏蔽掉/滤除的冲击响应的个数也递增,当冲击响应的范围为[1000,10000]时,屏蔽掉/滤除的冲击响应的占比为[1%,17.5%]。
作为另一示例,通过绝对听觉阈值的计算可得出所感知到的低于绝对听力阈值的通道数量与总的通道数量的比值,计算公式为
其中
为感知的低于绝对听力阈值的通道数,
为总的通道数,
为当前冲击响应个数为i个时,感知的低于绝对听力阈值的通道数与总的通道数的比值。
具体而言,随着冲击响应的个数的增加,感知的低于绝对听力阈值的占比也递增。作为示例,当冲击响应的范围为[1000,10000]时,感知的低于绝对阈值的占比为[50%,70%]。
通过对冲击响应为1000,不同的高保真混响的阶数进行耗时进行统计分析可获取计算优化后的耗时性能与原始方法的耗时的性能比,计算公式如下:
其中
为当阶数为n时的原始方法的计算耗时,
为通过时空绝对阈值感知后的计算耗时,
为节省的时间与原始方法消耗时间的比值。
作为示例,当高保真混响的阶数为[3,7]范围内时,在sibenik场景下的BRIR的计算耗时可以节省[30%,50%]。
综合可知,本公开的信号处理对于由脉冲响应计算后期混响的双耳房间冲击响应的过程,其计算的耗时会有大幅度的降低,从而实现计算开销降低,计算效率提高。
图5示出本公开的电子设备的一些实施例的框图。
如图5所示,该实施例的电子设备5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的混响时长的估计方法,或者音频信号的渲染方法。
其中,存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
下面参考图6,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任 何限制。
图6示出本公开的电子设备的另一些实施例的框图。
如图6所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
在一些实施例中,还提供了芯片,包括:至少一个处理器和接口,接口,用于为至少一个处理器提供计算机执行指令,至少一个处理器用于执行计算机执行指令,实现上述任一个实施例的混响时长的估计方法,或者音频信号的渲染方法。
图7示出本公开的芯片的一些实施例的框图。
如图7所示,芯片的处理器70作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。处理器70的核心部分为运算电路,控制器704控制运算电路703提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实施例中,运算电路703内部包括多个处理单元(Process Engine,PE)。在一些实施例中,运算电路703是二维脉动阵列。运算电路703还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实施例中,运算电路703是通用的矩阵处理器。
例如,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器702中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器701中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)708中。
向量计算单元707可以对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。
在一些实施例中,向量计算单元能707将经处理的输出的向量存储到统一缓存器706。例如,向量计算单元707可以将非线性函数应用到运算电路703的输出,例如累加值的向量,用以生成激活值。在一些实施例中,向量计算单元707生成归一化的值、合并值,或二者均有。在一些实施例中,处理过的输出的向量能够用作到运算电路703的激活输入,例如用于在神经网络中的后续层中的使用。
统一存储器706用于存放输入数据以及输出数据。
存储单元访问控制器705(Direct Memory Access Controller,DMAC)将外部存储器中的输入数据搬运到输入存储器701和/或统一存储器706、将外部存储器中的权重数据存入权重存储器702,以及将统一存储器706中的数据存入外部存储器。
总线接口单元(Bus Interface Unit,BIU)510,用于通过总线实现主CPU、DMAC和取指存储器709之间进行交互。
与控制器704连接的取指存储器(instruction fetch buffer)709,用于存储控制器704使用的指令;
控制器704,用于调用指存储器709中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器706、输入存储器701、权重存储器702以及取指存储器709均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random AccessMemory,DDR SDRAM)、高带宽存储器(High Bandwidth Memory,HBM)或其他可读可写的存储器。
在一些实施例中,还提供了一种计算机程序,包括:指令,指令当由处理器执行时使处理器执行上述任一个实施例的混响时长的估计方法,或者音频信号的渲染方法。
本领域内的技术人员应当明白,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。在使用软件实现时,上述实施例可以全部或 部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行计算机指令或计算机程序时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (25)
- 一种用于音频渲染的信号处理方法,包括:获取响应信号集,所述响应信号集包含根据声音信号得出的响应信号,其中所述声音信号为在收听位置接收到的信号;以及基于与所述响应信号相关的感知特性对所述响应信号集中的响应信号进行处理,以获得适用于音频渲染的响应信号,其中所述适用于音频渲染的响应信号的数量小于或等于所述响应信号集中的响应信号的数量。
- 根据权利要求1所述的方法,其中,所述感知特性包括响应信号之间的相对感知特性,并且所述基于与所述响应信号相关的感知特性对所述响应信号集中的响应信号进行处理包括:判定响应信号集中的响应信号之间的相对感知特性是否满足感知要求,并且在判定响应信号集中的响应信号之间的相对感知特性不满足感知要求的情况下,对响应信号进行合并或去除。
- 根据权利要求1所述的方法,其中,所述感知特性包括响应信号之间的相对感知特性,并且所述基于与所述响应信号相关的感知特性对所述响应信号集中的响应信号进行处理包括:获取所述响应信号集中的邻近响应信号集,判定邻近响应信号集中的响应信号之间的相对感知特性是否满足感知要求,并且在判定邻近响应信号集中的响应信号之间的相对感知特性不满足感知要求的情况下,对响应信号进行合并或去除。
- 根据权利要求2所述的信号处理方法,其中,所述相对感知特性和所述感知要求与响应信号之间的相互掩蔽状况有关,所述判定响应信号集中的响应信号之间的相对感知特性是否满足感知要求,包括:获取所述响应信号集中的每两个响应信号之间的相互掩蔽状况的相关信息,判定所述响应信号集中的每两个响应信号之间的相互掩蔽状况的大小;所述在判定响应信号集中的响应信号之间的相对感知特性不满足感知要求的情况下, 对响应信号进行合并或去除,包括:在所述响应信号集中的两个响应信号之间的相互掩蔽状况大的情况下,将所述两个响应信号进行合并,以获得一个更新的响应信号。
- 根据权利要求3所述的信号处理方法,其中,所述相对感知特性和所述感知要求与响应信号之间的相互掩蔽状况有关,所述判定邻近响应信号集中的响应信号之间的相对感知特性是否满足感知要求,包括:获取所述邻近响应集中的每两个响应信号之间的相互掩蔽状况的相关信息,判定所述邻近响应集中的每两个响应信号之间的相互掩蔽状况的大小;所述在判定邻近响应信号集中的响应信号之间的相对感知特性不满足感知要求的情况下,对响应信号进行合并或去除,包括:在所述邻近响应集中的两个响应信号之间的相互掩蔽状况大的情况下,将所述两个响应信号进行合并,以获得一个更新的响应信号。
- 根据权利要求4或5所述的信号处理方法,其中,所述两个响应信号之间的相互掩蔽状况的相关信息包括两个响应信号之间的空间间隔信息,并且,两个响应信号之间的空间间隔小于特定间隔阈值指示两个响应信号之间的相互掩蔽状况大。
- 根据权利要求6所述的信号处理方法,其中,所述两个响应信号之间的空间间隔信息由两个响应信号之间的空间向量的统计量表示。
- 根据权利要求6所述的信号处理方法,其中,所述两个响应信号之间的空间间隔信息基于两个响应信号的时间信息、空间信息和强度信息中的至少一者被确定。
- 根据权利要求3或5所述的信号处理方法,其中,该响应信号集中的邻近响应信号集包括响应信号集中的彼此之间的时间间隔、空间间隔或频域间隔中的至少一者小于第二邻近性阈值的响应信号。
- 根据权利要求2或3所述的方法,其中,所述响应信号之间的相对感知特性和所述感知要求与响应信号之间的邻近性有关,所述判定响应信号集中的响应信号之间的相对感知特性是否满足感知要求,包括:对于响应信号集中的每一响应信号,判定该响应信号与响应信号集中的任一其它响应信号之间的邻近性是否小于第一邻近性阈值,所述在判定响应信号集中的响应信号之间的相对感知特性不满足感知要求的情况下,对响应信号进行合并或去除,包括:在判定两个响应信号之间的邻近性小于第一邻近性阈值的情况下,将两个响应信号进行合并。
- 根据权利要求10所述的方法,其中,响应信号之间的邻近性包括时间邻近性、空间邻近性、频域邻近性中的至少一者。
- 根据权利要求1-11中任一项所述的方法,其中,所述方法进一步包括:在基于与所述响应信号相关的感知特性对所述响应信号集中的响应信号进行处理之前,将响应信号集中的响应信号进行时间排序或空间排序。
- 根据权利要求2-12中任一项所述的信号处理方法,其中,合并包括对响应信号的属性信息进行数学统计以作为合并后的响应信号的属性信息,其中所述响应信号的属性信息包括时间信息、空间信息和声音强度信息中的至少一者。
- 根据权利要求13所述的信号处理方法,其中,数学统计包括对响应信号的属性信息进行平均。
- 根据权利要求1所述的方法,其中,所述响应信号相关的感知特性包括响应信号自身的感知强度特性,并且所述基于与所述响应信号相关的感知特性对所述响应信号集中的响应信号进行处理,包括:在响应信号自身的感知强度特性低于特定绝对感知阈值的情况下,不将该响应信号用于音频渲染。
- 根据权利要求15所述的方法,其中,所述响应信号自身的感知强度特性包括:所述响度信号对应的声音信号的声压水平和 所述响度信号对应的声音信号基于通道的声压水平与参考声压水平的比值中的至少一种。
- 根据权利要求1-16中任一项所述的信号处理方法,其中,所述响应信号包括由在所述收听位置接收到的直传声音信号和反射声音信号中至少一种转换得到的响应信号。
- 一种音频渲染方法,包括:采用根据权利要求1-17所述的方法对由来自于声源的到收听位置的声音信号得出的响应信号集进行处理;以及基于处理后的响应信号集进行音频渲染。
- 一种用于音频渲染的信号处理装置,包括:获取模块,被配置为获取响应信号集,所述响应信号集包含根据声音信号得出的响应信号,其中所述声音信号为在收听位置接收到的信号;以及处理模块,被配置为基于与所述响应信号相关的感知特性对所述响应信号集中的响应信号进行处理,以获得适用于音频渲染的响应信号,其中所述适用于音频渲染的响应信号的数量小于或等于所述响应信号集中的响应信号的数量。
- 一种音频渲染装置,包括:根据权利要求19所述的信号处理装置,被配置为对由来自于声源的到收听位置的声音信号得出的响应信号集进行处理;以及渲染模块,被配置为基于处理后的响应信号集进行音频渲染。
- 一种芯片,包括:至少一个处理器和接口,所述接口,用于为所述至少一个处理器提供计算机执行指令,所述至少一个处理器用于执行所述计算机执行指令,实现根据权利要求1-17中任一项所述的信号处理方法或者根据权利要求18所述的音频渲染方法。
- 一种计算机程序,包括:指令,所述指令当由处理器执行时使所述处理器执行根据权利要求1-17中任一项所述的信号处理方法或者根据权利要求18所述的音频渲染方法。
- 一种电子设备,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行根据权利要求1-17中任一项所述的信号处理方法或者根据权利要求18所述的音频渲染方法。
- 一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据权利要求1-17中任一项所述的信号处理方法或者根据权利要求18所述的音频渲染方法。
- 一种计算机程序产品,包括指令,所述指令当由处理器执行时使所述处理器执行根据权利要求1-17中任一项所述的信号处理方法或者根据权利要求18所述的音频渲染方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNPCT/CN2021/115130 | 2021-08-27 | ||
CN2021115130 | 2021-08-27 | ||
PCT/CN2022/115194 WO2023025294A1 (zh) | 2021-08-27 | 2022-08-26 | 用于音频渲染的信号处理方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117837173A true CN117837173A (zh) | 2024-04-05 |
Family
ID=85322468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280057718.7A Pending CN117837173A (zh) | 2021-08-27 | 2022-08-26 | 用于音频渲染的信号处理方法、装置和电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117837173A (zh) |
WO (1) | WO2023025294A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117082435B (zh) * | 2023-10-12 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 虚拟音频的交互方法、装置和存储介质及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2879131A1 (en) * | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
US9510125B2 (en) * | 2014-06-20 | 2016-11-29 | Microsoft Technology Licensing, Llc | Parametric wave field coding for real-time sound propagation for dynamic sources |
CN107510451B (zh) * | 2017-08-07 | 2020-01-31 | 清华大学深圳研究生院 | 一种基于脑干听觉诱发电位的音高感知能力客观评估方法 |
US10609504B2 (en) * | 2017-12-21 | 2020-03-31 | Gaudi Audio Lab, Inc. | Audio signal processing method and apparatus for binaural rendering using phase response characteristics |
CN112153530B (zh) * | 2019-06-28 | 2022-05-27 | 苹果公司 | 用于存储捕获元数据的空间音频文件格式 |
-
2022
- 2022-08-26 WO PCT/CN2022/115194 patent/WO2023025294A1/zh active Application Filing
- 2022-08-26 CN CN202280057718.7A patent/CN117837173A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023025294A1 (zh) | 2023-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cuevas-Rodríguez et al. | 3D Tune-In Toolkit: An open-source library for real-time binaural spatialisation | |
Raghuvanshi et al. | Parametric directional coding for precomputed sound propagation | |
KR102642275B1 (ko) | 증강 현실 헤드폰 환경 렌더링 | |
US9560467B2 (en) | 3D immersive spatial audio systems and methods | |
TWI651973B (zh) | 以保真立體音響格式所編碼聲訊訊號為l揚聲器在已知位置之解碼方法和裝置以及電腦可讀式儲存媒體 | |
US9940922B1 (en) | Methods, systems, and computer readable media for utilizing ray-parameterized reverberation filters to facilitate interactive sound rendering | |
CN105432097A (zh) | 伴有内容分析和加权的具有立体声房间脉冲响应的滤波 | |
EP3332557B1 (en) | Processing object-based audio signals | |
US11062714B2 (en) | Ambisonic encoder for a sound source having a plurality of reflections | |
US20170006403A1 (en) | Apparatus and Method for Estimating an Overall Mixing Time Based on at Least a First Pair of Room Impulse Responses, as well as Corresponding Computer Program | |
US11122386B2 (en) | Audio rendering for low frequency effects | |
CN109087653B (zh) | 对高阶高保真立体声信号应用动态范围压缩的方法和设备 | |
WO2023025294A1 (zh) | 用于音频渲染的信号处理方法、装置和电子设备 | |
CN111615045B (zh) | 音频处理方法、装置、设备及存储介质 | |
WO2022262576A1 (zh) | 三维音频信号编码方法、装置、编码器和系统 | |
CN117581297A (zh) | 音频信号的渲染方法、装置和电子设备 | |
US11252525B2 (en) | Compressing spatial acoustic transfer functions | |
CN106385660B (zh) | 处理基于对象的音频信号 | |
CN115273795A (zh) | 模拟冲激响应的生成方法、装置和计算机设备 | |
EP3488623B1 (en) | Audio object clustering based on renderer-aware perceptual difference | |
CN114128312B (zh) | 用于低频效果的音频渲染 | |
WO2023051703A1 (zh) | 一种音频渲染系统和方法 | |
EP4346235A1 (en) | Apparatus and method employing a perception-based distance metric for spatial audio | |
US12009877B1 (en) | Modification of signal attenuation relative to distance based on signal characteristics | |
WO2023051708A1 (zh) | 用于空间音频渲染的系统、方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |