CN114531640A

CN114531640A - 一种音频信号处理方法及装置

Info

Publication number: CN114531640A
Application number: CN202210008601.1A
Authority: CN
Inventors: 王宾; 乔纳森·阿拉斯泰尔·吉布斯
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2022-05-24
Also published as: EP3893523A4; CN111385728B; US11917391B2; KR102537714B1; EP3893523B1; WO2020135366A1; KR20210105966A; CN111385728A; US20210329399A1; EP3893523A1; KR20230075532A

Abstract

本申请公开了一种音频信号处理方法及装置，涉及信号处理领域，解决了如何根据收听者头部转动的变化或/和收听者位置移动的变化调整输出信号，提升收听者的听觉效果的问题。具体方案为：获取当前时刻的声源与收听者间的当前位置关系；根据当前位置关系确定当前音频渲染函数；如果当前位置关系与存储的在先位置关系不同，根据当前位置关系和在先位置关系调整当前音频渲染函数的初始增益，以得到当前音频渲染函数的调整后增益；根据当前音频渲染函数和调整后增益，确定调整后音频渲染函数；根据当前输入信号和调整后音频渲染函数确定当前输出信号。本申请实施例用于音频信号处理的过程。

Description

一种音频信号处理方法及装置

技术领域

本申请实施例涉及信号处理领域，尤其涉及一种音频信号处理方法及装置。

背景技术

随着高性能计算机和信号处理技术的飞速发展，人们对语音、音频体验提出了越来越高的要求，浸入式音频能够满足人们在这方面的需求。例如，4G/5G通信语音，音频服务和虚拟现实(virtual reality，VR)的应用受到了越来越多的关注。一个具有沉浸感的虚拟现实系统，不仅需要震撼的视觉效果，还需要逼真的听觉效果，视听的融合能大大提高虚拟现实的体验感。虚拟现实音频的核心是三维音频。目前，通常采用重放方法实现三维音频效果。例如基于耳机的双耳重放方法。在现有技术中，当收听者移动位置时，可以对输出信号(双耳的输入信号)的能量进行调整后得到新的输出信号。当收听者只是转动头部而位置不动时，收听者只能够感受到声源发出的声音的方位变化，而对于来自于前方和后方的声音音量大小则区别不明显。这种现象与现实世界中面朝声源时感受到的声音音量最大，背向声源时感受到的声音音量最小的实际感受不同，长时间地收听后会使收听者有很强的不适感。因此，如何根据收听者头部转动的变化或/和收听者位置移动的变化调整输出信号，提升收听者的听觉效果是一个亟待解决的问题。

发明内容

本申请实施例提供一种音频信号处理方法及装置，解决了如何根据收听者头部转动的变化或/和收听者位置移动的变化调整输出信号，提供收听者的听觉效果的问题。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，本申请实施例提供了一种音频信号处理方法，该方法可应用于终端设备，或者该方法可应用于可以支持终端设备实现该方法的通信装置，例如该通信装置包括芯片系统，终端设备可以是VR设备、增强现实(augmented reality，AR)设备或具体三维音频服务的设备。所述方法包括：在获取到当前时刻的声源与收听者间的当前位置关系之后，根据当前位置关系确定当前音频渲染函数，如果当前位置关系与存储的在先位置关系不同，根据当前位置关系和在先位置关系调整当前音频渲染函数的初始增益，以得到当前音频渲染函数的调整后增益，然后根据当前音频渲染函数和调整后增益，确定调整后音频渲染函数，再根据当前输入信号和调整后音频渲染函数确定当前输出信号。其中，在先位置关系是在先时刻的所述声源与所述收听者间的位置关系，当前输入信号为声源发出的音频信号，当前输出信号用于输出给收听者。本申请实施例提供的音频信号处理方法，根据实时地跟踪收听者与声源的相对位置变化，以及收听者与声源朝向变化，对当前音频渲染函数的增益进行调整，从而，能够有效地提升双耳输入信号的自然感，提升收听者的听觉效果。

结合第一方面，在第一种可能的实现方式中，当前位置关系包括声源与收听者间的当前距离或声源相对于收听者的当前方位角；或者，在先位置关系包括声源与收听者间的在先距离或声源相对于收听者的在先方位角。

结合第一种可能的实现方式，在第二种可能的实现方式中，若收听者只是移动位置而未转动头部，即在当前方位角与在先方位角相同，并且当前距离与在先距离不相同时，根据所述当前位置关系和在先位置关系调整当前音频渲染函数的初始增益，以得到当前音频渲染函数的调整后增益，包括：根据当前距离和在先距离调整初始增益，得到调整后增益。

可选的，根据当前距离和在先距离调整初始增益，得到调整后增益，包括：根据当前距离和在先距离的差值调整初始增益，得到调整后增益，或者，根据当前距离和在先距离的差值的绝对值调整初始增益，得到调整后增益。

示例的，若在先距离大于当前距离，采用如下公式确定调整后增益： G₂(θ)＝G₁(θ)×(1+Δr)，其中，G₂(θ)表示调整后增益，G₁(θ)表示初始增益，θ等于θ₁， θ₁表示在先方位角，Δr表示当前距离和在先距离的差值的绝对值，或者，Δr表示在先距离减当前距离的差值；或者，若在先距离小于当前距离，采用如下公式确定调整后增益： G₂(θ)＝G₁(θ)/(1+Δr)，其中，θ等于θ₁，θ₁表示在先方位角，Δr表示在先距离和当前距离的差值的绝对值，或者，Δr表示当前距离减在先距离的差值。

结合第一种可能的实现方式，在第三种可能的实现方式中，若收听者只是转动头部而位置不动，即在当前距离与在先距离相同，并且当前方位角与在先方位角不相同时，根据当前位置关系和在先位置关系调整当前音频渲染函数的初始增益，以得到当前音频渲染函数的调整后增益，包括：根据当前方位角调整初始增益，得到调整后增益。

示例的，采用如下公式确定调整增益：G₂(θ)＝G₁(θ)×cos(θ/3)，其中，G₂(θ)表示调整后增益，G₁(θ)表示初始增益，θ等于θ₂，θ₂表示当前方位角。

结合第一种可能的实现方式，在第四种可能的实现方式中，若收听者既转动了头部又移动了位置，即在当前距离与在先距离不相同，并且当前方位角与在先方位角不相同时，根据当前位置关系和在先位置关系调整当前音频渲染函数的初始增益，以得到当前音频渲染函数的调整后增益，包括：根据在先距离和当前距离调整初始增益，得到第一临时增益；再根据当前方位角调整第一临时增益，得到调整后增益；或者，根据当前方位角调整初始增益，得到第二临时增益；再根据在先距离和当前距离调整第二临时增益，得到调整后增益。

结合上述可能的实现方式，在第五种可能的实现方式中，初始增益是根据当前方位角确定的，当前方位角的取值范围为0度到360度。

示例的，初始增益采用如下公式确定：G₁(θ)＝A×cos(π×θ/180)-B，其中，θ等于θ₂，θ₂表示当前方位角，G₁(θ)表示初始增益，A和B为预设参数，A的取值范围为 5～20，B的取值范围为1～15。

结合上述可能的实现方式，在第六种可能的实现方式中，根据当前输入信号和调整后音频渲染函数确定当前输出信号，包括：将当前输入信号和调整后音频渲染函数进行卷积处理的结果确定为当前输出信号。

需要说明的是，上述当前输入信号为单声道信号或立体声道信号。另外，音频渲染函数为头部相关传输函数(Head Related Transfer Function，HRTF)或者双耳房间冲激响应 (Binaural Room Impulse Response，BRIR)，音频渲染函数为当前音频渲染函数或调整后音频渲染函数。

第二方面，本申请实施例还提供了一种音频信号处理装置，用于实现上述第一方面描述的方法。音频信号处理装置为终端设备或支持终端设备实现该第一方面描述的方法的通信装置，例如该通信装置包括芯片系统。终端设备可以是VR设备、AR设备或具体三维音频服务的设备。例如，该音频信号处理装置包括：获取单元和处理单元。所述获取单元，用于获取当前时刻的声源与收听者间的当前位置关系；所述处理单元，用于根据获取单元获取到的当前位置关系确定当前音频渲染函数；处理单元，还用于如果当前位置关系与存储的在先位置关系不同，根据获取单元获取到的当前位置关系和在先位置关系调整当前音频渲染函数的初始增益，以得到当前音频渲染函数的调整后增益；处理单元，还用于根据当前音频渲染函数和调整后增益，确定调整后音频渲染函数；处理单元，还用于根据当前输入信号和调整后音频渲染函数确定当前输出信号。其中，在先位置关系是在先时刻的所述声源与所述收听者间的位置关系，当前输入信号为声源发出的音频信号，当前输出信号用于输出给收听者。

可选地，关于音频信号处理方法的具体实现方式同第一方面中相应的描述，这里不再赘述。

需要说明的是，上述第二方面的功能模块可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。例如，传感器，用于完成获取单元的功能，处理器，用于完成处理单元的功能，存储器，用于处理器处理本申请实施例的方法的程序指令。处理器、传感器和存储器通过总线连接并完成相互间的通信。具体的，可以参考第一方面所述的方法所述的方法中的终端设备的行为的功能。

第三方面，本申请实施例还提供了一种音频信号处理装置，用于实现上述第一方面描述的方法。所述音频信号处理装置为终端设备或支持终端设备实现该第一方面描述的方法的通信装置，例如该通信装置包括芯片系统。例如所述音频信号处理装置包括处理器，用于实现上述第一方面描述的方法的功能。所述音频信号处理装置还可以包括存储器，用于存储程序指令和数据。所述存储器与所述处理器耦合，所述处理器可以调用并执行所述存储器中存储的程序指令，用于实现上述第一方面描述的方法中的功能。所述音频信号处理装置还可以包括通信接口，所述通信接口用于该音频信号处理装置与其它设备进行通信。示例性地，若所述音频信号处理装置为终端设备，该其它设备为提供音频信号的声源设备。

第四方面，本申请实施例还提供了一种计算机可读存储介质，包括：计算机软件指令；当计算机软件指令在音频信号处理装置中运行时，使得音频信号处理装置执行上述第一方面所述的方法。

第五方面，本申请实施例还提供了一种包含指令的计算机程序产品，当计算机程序产品在音频信号处理装置中运行时，使得音频信号处理装置执行上述第一方面所述的方法。

第六方面，本申请实施例提供了一种芯片系统，该芯片系统包括处理器，还可以包括存储器，用于实现上述方法中终端设备或终端设备的功能。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

另外，上述任意方面的设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果，此处不再赘述。

本申请实施例中，音频信号处理装置的名字对设备本身不构成限定，在实际实现中，这些设备可以以其他名称出现。只要各个设备的功能和本申请实施例类似，属于本申请权利要求及其等同技术的范围之内。

附图说明

图1为现有技术提供的一种HRTF库示例图；

图2为本申请实施例提供的一种方位角和俯仰角的示例图；

图3为本申请实施例提供的一种VR设备的组成示例图；

图4为本申请实施例提供的一种音频信号处理方法流程图；

图5为本申请实施例提供的一种收听者转动头部和移动位置的示例图；

图6为本申请实施例提供的一种收听者转动头部的示例图；

图7为本申请实施例提供的一种收听者移动位置的示例图；

图8为本申请实施例提供的一种增益随方位角变化的示例图；

图9为本申请实施例提供的一种音频信号处理装置的组成示例图；

图10为本申请实施例提供的另一种音频信号处理装置的组成示例图。

具体实施方式

本申请说明书和权利要求书中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于限定特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍：

基于耳机的双耳重放方法是指先选择从声源位置到收听者头中心位置对应的HRTF或者BRIR，然后利用输入信号与选择得到的HRTF或BRIR进行卷积处理，得到输出信号。其中，HRTF表征了声源所产生的声波传播到耳道时，受到头部、躯干、耳廓等器官散射、反射及折射的影响。BRIR表征了环境反射声对声源的影响，BRIR可以看作声源、室内环境、双耳(包括头部、躯干、耳廓)所组成的系统的脉冲响应，BRIR由直达声(direct sound)、早期反射声、后期混响组成。直达声是指从声源不经过任何的反射而以直线的形式直接传播到接受者的声音。直达声决定着声音的清晰度。早期反射声是在直达声以后到达的对房间的音质起到有利作用的所有反射声。输入信号可以是指声源发出的音频信号，音频信号可以是单声道音频信号或立体声音频信号。所谓单声道可以是指一个声音通道，用一个传声器拾取声音，用一个扬声器进行放音的过程。所谓立体声道可以是指多个声音通道。利用输入信号与选择得到的HRTF或BRIR进行卷积处理也可以理解为对输入信号进行渲染处理，因此，输出信号也可以称为渲染输出信号或渲染声音。可理解的，输出信号也就是收听者收听到的音频信号，输出信号也可称为双耳输入信号，双耳输入信号即收听者收听到的声音。

所谓选择从声源位置到收听者头中心位置对应的HRTF可以是指根据声源与收听者间的位置关系从HRTF库中选择对应的HRTF。声源与收听者间的位置关系包括声源与收听者间的距离、声源相对于收听者的方位角和声源相对于收听者的俯仰角。HRTF库包括了距离、方位角和俯仰角对应的HRTF。图1为现有技术提供的一种HRTF库示例图，如图1所示，HRTF库在方位角和俯仰角两个维度上的分布密度，图1中的(a)表示从收听者的前面外部视角看到的HRTF分布，上下方向代表俯仰角维度，左右方向代表方位角维度；图1 中的(b)表示从收听者的内部视角看到的HRTF分布，环绕一圈表示了俯仰角维度，圆环的半径表示声源与收听者间的距离。

方位角是指从某点的指北方向线起依顺时针方向至目标方向线间的水平夹角。在本申请实施例中，方位角指收听者的正前方位置与声源间的夹角。如图2所示，假设收听者所处的位置是原点0，X轴指示的方向可以表示收听者面向的正前方向，Y轴指示的方向可以表示收听者逆时针旋转的方向。在下文中，假设收听者逆时针旋转的方向为正向，即收听者越往左转表示方位角越大。

假设X轴和Y轴组成的平面为水平面，声源与所述水平面间的夹角可以称为俯仰角。

同理，选择从声源位置到收听者头中心位置对应的BRIR可以参考上述关于HRTF的阐述，本申请实施例在此不再赘述。

利用输入信号与选择得到的HRTF或BRIR进行卷积处理，得到输出信号。可以采用如下公式确定输出信号：

其中，Y(t)表示输出信号，X(t)表示输入信号，

表示选择得到的HRTF，r表示声源与收听者间的距离，θ表示声源相对于收听者的方位角，方位角的取值范围为0度到360度，

表示声源相对于收听者的俯仰角。

若收听者只是移动位置而未转动头部，可以对输出信号的能量进行调整，得到调整后输出信号，这里的输出信号的能量可以是指双耳输入信号(声音)的音量。采用如下公式确定调整后输出信号：Y′(t)＝Y(t)*α，其中，Y′(t)表示调整后输出信号，α表示衰减系数，

x表示收听者的移动前位置相对于声源的距离与收听者的移动后位置相对于声源的距离之间的差值，或者收听者的移动前位置相对于声源的距离与收听者的移动后位置相对于声源的距离之间的差值的绝对值。若收听者保持不动，

则 Y′(t)＝Y()t*1，表示输出信号的能量不需要衰减。若收听者的移动前位置相对于声源的距离与收听者的移动后位置相对于声源的距离之差为5，

则

表示输出信号的能量需要乘以1/6。

若收听者只是转动头部而位置不动，收听者只能够感受到声源发出的声音的方位变化，而对于来自于前方和后方的声音音量大小则区别不明显。这种现象与现实世界中收听者面朝声源时感受到的声音音量最大，收听者背向声源时感受到的声音音量最小的实际感受不同，长时间地收听后会使收听者有很强的不适感。

若收听者转动头部和移动位置，收听者收听到的声音音量大小只能够跟踪收听者的位置移动变化，但是不能很好的跟踪收听者的头部转动变化，这样收听者的听觉感受与真实世界的听觉感受不同，长时间收听后会有很强的不适感。

综上所述，在收听者收到双耳输入信号之后，若收听者移动位置或转动头部时，收听者收听到的声音的音量无法很好的跟踪收听者的头部转动变化，同时对位置的跟踪处理的实时性也不精确，从而，会使得收听者听到的声音音量、位置和朝向与声源的实际位置和朝向不匹配，导致收听者的听觉感受的违和感，收听者长时间收听会感到不适。而一个效果较好的三维音频系统需要的是全空间的音效。因此，如何根据收听者的头部转动实时变化或收听者的位置移动实时变化调整输出信号，提升收听者的听觉效果是一个亟待解决的问题。

在本申请实施例中，收听者所处的位置可以是指收听者在虚拟现实中所处的位置。收听者的位置移动变化和收听者的头部转动变化可以是指相对于虚拟现实中声源的变化。另外，为方便起见，在下文中，可以将HRTF和BRIR统称为音频渲染函数。

为了解决上述问题，本申请实施例提供一种音频信号处理方法，其基本原理是：在获取到当前时刻的声源与收听者间的当前位置关系之后，根据当前位置关系确定当前音频渲染函数，如果当前位置关系与存储的在先位置关系不同，根据当前位置关系和在先位置关系调整当前音频渲染函数的初始增益，以得到当前音频渲染函数的调整后增益，然后，根据当前音频渲染函数和调整后增益，确定调整后音频渲染函数，再根据当前输入信号和调整后音频渲染函数确定当前输出信号。其中，在先位置关系是在先时刻的声源与收听者间的位置关系，当前输入信号为声源发出的音频信号，当前输出信号用于输出给收听者。本申请实施例提供的音频信号处理方法，根据实时地跟踪收听者与声源的相对位置变化，以及收听者与声源朝向变化，对当前音频渲染函数的增益进行调整，从而，能够有效地提升双耳输入信号的自然感，提升收听者的听觉效果。

下面将结合附图对本申请实施例的实施方式进行详细描述。

图3为本申请实施例提供的一种VR设备的组成示例图，如图3所示，VR设备包括采集模块(acquisition)301、音频预处理模块(audio preprocessing)302、音频编码模块(audio encoding)303、封装模块(file/segment encapsulation)304、传输模块(delivery)305、解封装模块(file/segment decapsulation)306、音频解码模块(audiodecoding)307、音频渲染模块(audio rendering)308和扬声器/耳机(loudspeakers/headphones)309。另外，VR设备还包括一些处理视频信号的模块。例如，视频组合模块(visual stitching)310、预测绘图模块(projection and mapping)311、视频编码模块(video encoding)312、图像编码模块(image encoding)313、视频解码模块(videodecoding)314、图像解码模块(image decoding)315、视频渲染模块(visual rendering)316和播放器(display)317。

其中，采集模块用于采集声源的音频信号，将音频信号传输至音频预处理模块。音频预处理模块用于对音频信号进行预处理，例如，滤波处理等，并将预处理后的音频信号传输至音频编码模块。音频编码模块用于对预处理后的音频信号进行编码，将编码后的音频信号传输至封装模块。采集模块还用于采集视频信号。视频信号经过视频组合模块、预测绘图模块、视频编码模块和图像编码模块的处理后，将编码后的视频信号传输至封装模块。

封装模块用于将编码后的音频信号和编码后的视频信号进行封装以得到码流，码流通过传输模块传输至解封装模块。传输模块可以是有线通信模块或无线通信模块。

解封装模块用于对码流进行解封装，获得编码后的音频信号和编码后的视频信号，并将编码后的音频信号传输至音频解码模块，将编码后的视频信号传输至视频解码模块和图像解码模块。音频解码模块用于对编码后的音频信号进行解码，并将解码后的音频信号传输至音频渲染模块。音频渲染模块用于对解码后的音频信号进行渲染处理，即根据本申请实施例提供音频信号处理方法对解码后的音频信号进行处理，并将渲染输出信号传输至扬声器/耳机。视频解码模块、图像解码模块和视频渲染模块对编码后的视频信号进行处理，并将处理后的视频信号传输至播放器播放。具体的处理方法可以参考现有技术，本申请实施例对此不作限定。

需要说明的是，解封装模块、音频解码模块、音频渲染模块和扬声器/耳机可以是VR 设备内的部件。采集模块、音频预处理模块、音频编码模块和封装模块可以位于VR设备内，也可以位于VR设备外，本申请实施例对此不作限定。

图3中示出的结构并不构成对VR设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。尽管未示出，VR设备还可以包括传感器等，传感器用于获取声源与收听者间的位置关系，在此不再赘述。

下面以VR设备为例对本申请实施例提供的音频信号处理方法进行详细说明。图4为本申请实施例提供的一种音频信号处理方法流程图，如图4所示，该方法可以包括：

S401、获取当前声源与收听者间的当前位置关系。

收听者打开VR设备并选择需要收看的视频之后，收听者可以置身于虚拟现实中，从而，收听者便可以看到虚拟场景中的图像以及听到虚拟场景中的声音。虚拟现实是一种可以创建和体验虚拟世界的计算机仿真系统，是利用计算机生成的一种模拟环境，是一种多源信息融合的、交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。

在收听者置身于虚拟现实中时，VR设备可以周期性的获取声源与收听者间的位置关系。周期性地检测声源与收听者间的位置关系的周期可以是50毫秒或100毫秒，本申请是实施例对此不作限定。当前时刻可以是指VR设备周期性地检测声源与收听者间的位置关系的周期中的任意一个时刻。在当前时刻可以获取当前声源与收听者间的当前位置关系。

当前位置关系包括声源与收听者间的当前距离或声源相对于收听者的当前方位角。 “当前位置关系包括声源与收听者间的当前距离或声源相对于收听者的当前方位角”可以理解为，当前位置关系包括声源与收听者间的当前距离，或者，当前位置关系包括声源与收听者间的当前方位角，或者，当前位置关系包括声源与收听者间的当前距离和声源相对于收听者的当前方位角。当然，在一些实施方式中，当前位置关系还可以包括声源相对于收听者的当前俯仰角。对于方位角和俯仰角的解释可以参考上述阐述，本申请实施例在此不再赘述。

S402、根据当前位置关系确定当前音频渲染函数。

假设音频渲染函数为HRTF，根据当前位置关系确定的当前音频渲染函数可以是当前 HRTF。示例的，可以根据声源与收听者间的当前距离、声源相对于收听者的当前方位角和声源相对于收听者的当前俯仰角，从HRTF库中选择与当前距离、当前方位角和当前俯仰角对应的HRTF，得到当前HRTF。

需要说明的是，当前位置关系可以是收听者打开VR设备，VR设备在起始时刻初次获取到的声源与收听者间的位置关系。在这种情况下，VR设备未存储在先位置关系，VR设备可以根据当前输入信号和当前音频渲染函数确定当前输出信号，即可以将当前输入信号和当前音频渲染函数进行卷积处理的结果确定为当前输出信号。其中，当前输入信号为声源发出的音频信号，当前输出信号用于输出给收听者。同时，VR设备可以存储当前位置关系。

在先位置关系可以是VR设备于在先时刻获取到的声源与收听者间的位置关系。在先时刻也可以是指VR设备周期性地检测声源与收听者间的位置关系的周期中在当前时刻之前的任意一个时刻。特别的，在先时刻可以是指收听者打开VR设备，初次获取声源与收听者间的位置关系的起始时刻。在本申请实施例中，在先时刻与当前时刻是不同的两个时刻，在先时刻在当前时刻之前。假设周期性地检测声源与收听者间的位置关系的周期是50毫秒。在先时刻可以是指从收听者置身于虚拟现实中的起始时刻开始到第一个周期的时刻，即第50毫秒，当前时刻可以是指从收听者置身于虚拟现实中的起始时刻开始到第二个周期的时刻，即第100毫秒。或者，在先时刻可以是指VR设备开启后随机性地检测声源与收听者间的位置关系的在当前时刻之前的任意一个时刻。当前时刻可以是指VR设备开启后随机性地检测声源与收听者间的位置关系的于在先时刻之后的任意一个时刻。或者，在先时刻是VR设备检测到声源与收听者间的位置关系变化后主动触发检测的时刻，同理，当前时刻是VR设备检测到声源与收听者间的位置关系变化后主动触发检测的时刻等等。

在先位置关系包括声源与收听者间的在先距离或声源相对于收听者的在先方位角。 “在先位置关系包括声源与收听者间的在先距离或声源相对于收听者的在先方位角”可以理解为，在先位置关系包括声源与收听者间的在先距离，或者，在先位置关系包括声源与收听者间的在先方位角，或者，在先位置关系包括声源与收听者间的在先距离和声源相对于收听者的在先方位角。当然，在一些实施方式中，在先位置关系还可以包括声源相对于收听者的在先俯仰角。VR设备可以根据在先位置关系确定的在先音频渲染函数，并根据在先输入信号和在先音频渲染函数确定在先输出信号。示例的，可以采用如下公式确定在先输出信号：

其中，Y₁(t)表示在先输出信号，X₁(t)在先输入信号，

表示在先音频渲染函数，t可以等于t₁，t₁表示在先时刻，r可以等于r₁，r₁表示在先距离，θ可以等于θ₁，θ₁表示在先方位角，

可以等于

表示在先俯仰角，*表示卷积运算。

在收听者既转动了头部又移动了位置的情况下，不仅声源与收听者间的距离发生了变化，而且声源相对于收听者的方位角也发生了变化，即，当前距离与在先距离不同，当前方位角与在先方位角不同，且当前俯仰角与在先俯仰角不同。例如，在先HRTF可以为

当前HRTF可以为

其中，r₂表示当前距离，θ₂表示当前方位角，

表示当前俯仰角。图5为本申请实施例提供的一种收听者转动头部和移动位置的示例图。

在收听者只是转动头部而位置不动的情况下，声源与收听者间的距离未发生变化，但声源相对于收听者的方位角发生了变化，即，当前距离与在先距离相同，但当前方位角与在先方位角不同，和/或当前俯仰角与在先俯仰角不同。例如，在先HRTF可以为

当前HRTF可以为

或者

或者当前距离与在先距离相同，且当前方位角与在先方位角不同，且当前俯仰角与在先俯仰角不同。例如，在先HRTF可以为

当前HRTF可以为

图6为本申请实施例提供的一种收听者转动头部的示例图。

在收听者只是移动位置而未转动头部的情况下，声源与收听者间的距离发生了变化，但是声源相对于收听者的方位角未发生变化，即，当前距离与在先距离不同，但当前方位角与在先方位角相同，当前俯仰角与在先俯仰角相同。例如，在先HRTF可以为

当前HRTF可以为

图7为本申请实施例提供的一种收听者移动位置的示例图。

需要说明的是，如果当前位置关系与存储的在先位置关系不同，可以将存储的在先位置关系替换为当前位置关系，以备后续调整音频渲染函数使用，具体的调整音频渲染函数的方法可以参考下述阐述。如果当前位置关系与存储的在先位置关系不同，执行S403～S405。

S403、根据当前位置关系和在先位置关系调整当前音频渲染函数的初始增益，以得到当前音频渲染函数的调整后增益。

初始增益是根据当前方位角确定的，当前方位角的取值范围为0度到360度。初始增益可以采用如下公式确定：G₁(θ)＝A×cos(π×θ/180)-B，其中，G₁(θ)表示初始增益，A和B为预设参数，A的取值范围可以为5～20，B的取值范围可以为1～15，π可以取3.1415926。

需要说明的是，若收听者只是移动位置而未转动头部，当前方位角等于在先方位角，即θ可以等于θ₁，θ₁表示在先方位角。若收听者只是转动头部而位置不动或若收听者既转动了头部又移动了位置，当前方位角不等于在先方位角，θ可以等于θ₂，θ₂表示当前方位角。

图8为本申请实施例提供的一种增益随方位角变化的示例图。图8中所示的三条曲线从上至下表示三种增益调整函数，从上到下表示增益调整强度越来越大。从上到下将三条曲线的函数称为第一函数、第二函数和第三函数。第一函数的表达式可以为 G₁(θ)＝6.5×cos(π×θ/180)-1.5，第二函数的表达式可以为 G₁(θ)＝11×cos(π×θ/180)-6，第三函数的表达式可以为 G₁(θ)＝15.5×cos(π×θ/180)-10.5。

以调整第三函数的曲线为例说明：当方位角为0时，增益调整约为5dB左右，表示将增益提升5dB，当方位角为45度或者-45度时，增益调整约为0，表示增益保持不变，当方位角为135度或者-135度时，增益调整约为-22dB，表示将增益衰减22dB，当方位角为180 度或者-180度时，增益调整约为-26dB，表示将增益衰减26dB。

若收听者只是移动位置而未转动头部，可以根据当前距离和在先距离调整初始增益，得到调整后增益。例如，根据当前距离和在先距离的差值调整初始增益，得到调整后增益。或者，根据当前距离和在先距离的差值的绝对值调整初始增益，得到调整后增益。

若收听者向靠近声源方向移动，表示收听者距离声源越来越近。可理解的，在先距离大于当前距离。在这种情况下，可以采用如下公式确定调整后增益： G₂(θ)＝G₁(θ)×(1+Δr)，其中，G₂(θ)表示调整后增益，G₁(θ)表示初始增益，θ可以等于 θ₁，θ₁表示在先方位角，Δr表示当前距离和在先距离的差值的绝对值，或者，Δr表示在先距离减当前距离的差值，×表示乘法运算。

若收听者向远离声源方向移动，表示收听者距离声源越来越远。可理解的，在先距离小于当前距离。在这种情况下，可以采用如下公式确定调整后增益：G₂(θ)＝G₁(θ)/(1+Δr)，其中，θ可以等于θ₁，θ₁表示在先方位角，Δr表示在先距离和当前距离的差值的绝对值，或者，Δr表示当前距离减在先距离的差值，/表示乘法运算。

可理解的，差值的绝对值可以是指用较大值减较小值得到的差值，也可以是指用较小值减较大值得到的差值的相反数。

若收听者只是转动头部而位置不动，根据当前方位角调整初始增益，得到调整后增益。示例的，可以采用如下公式确定调整后增益：G₂(θ)＝G₁(θ)×cos(θ/3)，其中，G₂(θ)表示调整后增益，G₁(θ)表示初始增益，θ可以等于θ₂，θ₂表示当前方位角。

若收听者既转动了头部又移动了位置，可以根据在先距离、当前距离和当前方位角的调整初始增益，得到调整后增益。例如，先根据在先距离和当前距离调整初始增益，得到第一临时增益，再根据当前方位角调整第一临时增益，得到调整后增益。或者，先根据当前方位角调整初始增益，得到第二临时增益，再根据在先距离和当前距离调整第二临时增益，得到调整后增益。相当于对初始增益调整了两次得到调整后增益，根据距离调整增益和根据方位角调整增益的具体的方法可以参考上述详细解释，本申请实施例在此不再赘述。

S404、根据当前音频渲染函数和调整后增益，确定调整后音频渲染函数。

假设当前音频渲染函数为当前HRTF，可以采用如下公式确定调整后音频渲染函数：

其中，

表示调整后音频渲染函数，

表示当前音频渲染函数。

需要说明的是，根据收听者的位置和头部的变化关系，距离或方位角的取值可以不同。例如，若收听者只是移动位置而未转动头部，r可以等于r₂，r₂表示当前距离，θ可以等于θ₁，θ₁表示在先方位角，

可以等于

表示在先俯仰角。

可以表示为：

若收听者只是转动头部而位置不动，r可以等于r₁，r₁表示在先距离，θ可以等于θ₂，θ₂表示当前方位角，

可以等于

表示在先俯仰角。

可以表示为：

若收听者既转动了头部又移动了位置，r可以等于r₂，θ可以等于θ₂，

可以等于

可以表示为：

可选的，在收听者只是转动头部而位置不动或收听者既转动了头部又移动了位置的情况下，当前俯仰角和在先俯仰角也可以不同，此时，可以根据俯仰角来调整初始增益。

例如，若收听者只是转动头部而位置不动，

可以表示为：

若收听者既转动了头部又移动了位置，

可以表示为：

S405、根据当前输入信号和调整后音频渲染函数确定当前输出信号。

示例的，可以将当前输入信号和调整后音频渲染函数进行卷积处理的结果确定为当前输出信号。

示例的，可以采用如下公式确定当前输出信号：

其中， Y₂(t)表示当前输出信号，X₂(t)当前输入信号。关于

的取值可以参考S404的阐述，本申请实施例在此不再赘述。

本申请实施例提供的音频信号处理方法，根据实时地跟踪收听者与声源的相对位置变化，以及收听者与声源朝向变化，对所选择的音频渲染函数的增益进行调整，从而，能够有效地提升双耳输入信号的自然感，提升收听者的听觉效果。

需要说明的是，本申请实施例提供的音频信号处理方法不仅可以应用于VR设备中，还可以应用于AR设备、4G或5G浸入式语音中等场景，只要是能提高收听者的听觉效果即可，本申请实施例对此不作限定。

上述本申请提供的实施例中，从终端设备的角度对本申请实施例提供的方法进行了介绍。可以理解的是，各个网元，例如终端设备为了实现上述本申请实施例提供的方法中的各功能，终端设备包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对终端设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图9示出了上述和实施例中涉及的音频信号处理装置的一种可能的组成示意图，该音频信号处理装置能执行本申请各方法实施例中任一方法实施例中VR设备所执行的步骤。如图9所示，所述音频信号处理装置为 VR设备或支持VR设备实现实施例中提供的方法的通信装置，例如该通信装置可以是芯片系统。该音频信号处理装置可以包括：获取单元901和处理单元902。

其中，获取单元901，用于支持音频信号处理装置执行本申请实施例中描述的方法。例如，获取单元901，用于执行或用于支持音频信号处理装置执行图4所示的音频信号处理方法中的S401。

处理单元902，用于执行或用于支持音频信号处理装置执行图4所示的音频信号处理方法中的S402～S405。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本申请实施例提供的音频信号处理装置，用于执行上述任意实施例的方法，因此可以达到与上述实施例的方法相同的效果。

如图10所示为本申请实施例提供的音频信号处理装置1000，用于实现上述方法中音频信号处理装置的功能。该音频信号处理装置1000可以是终端设备，也可以是终端设备中的装置。终端设备可以是VR设备、AR设备或具体三维音频服务的设备。其中，该音频信号处理装置1000可以为芯片系统。本申请实施例中，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

音频信号处理装置1000包括至少一个处理器1001，用于实现本申请实施例提供的方法中音频信号处理装置的功能。示例性地，处理器1001可以用于在获取到当前时刻的声源与收听者间的当前位置关系之后，根据当前位置关系确定当前音频渲染函数，如果当前位置关系与存储的在先位置关系不同，根据当前位置关系和在先位置关系调整当前音频渲染函数的初始增益，以得到当前音频渲染函数的调整后增益，然后根据当前音频渲染函数和调整后增益，确定调整后音频渲染函数，再根据当前输入信号和调整后音频渲染函数确定当前输出信号，当前输入信号为声源发出的音频信号，当前输出信号用于输出给收听者等等，具体参见方法示例中的详细描述，此处不做赘述。

音频信号处理装置1000还可以包括至少一个存储器1002，用于存储程序指令和/或数据。存储器1002和处理器1001耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式，用于装置、单元或模块之间的信息交互。处理器1001可能和存储器1002协同操作。处理器1001可能执行存储器1002中存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。

音频信号处理装置1000还可以包括通信接口1003，用于通过传输介质和其它设备进行通信，从而用于音频信号处理装置1000中的装置可以和其它设备进行通信。示例性地，示例性地，若音频信号处理装置为终端设备，该其它设备为提供音频信号的声源设备。处理器1001利用通信接口1003接收音频信号，并用于实现图4对应的实施例中所述的VR设备所执行的方法。

音频信号处理装置1000还可以包括传感器1005，用于获取在先时刻的声源与收听者间的在先位置关系和当前时刻的声源与收听者间的当前位置关系。示例的，传感器具可以是陀螺仪、外置摄像头、运动检测装置或图像检测装置等，本申请实施例对此不作限定。

本申请实施例中不限定上述通信接口1003、处理器1001以及存储器1002之间的具体连接介质。本申请实施例在图10中以通信接口1003、处理器1001以及存储器1002之间通过总线1004连接，总线在图10中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

在本申请实施例中，存储器可以是非易失性存储器，比如硬盘(hard disk drive，HDD) 或固态硬盘(solid-state drive，SSD)等，还可以是易失性存储器(volatilememory)，例如随机存取存储器(random-access memory，RAM)。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本申请实施例提供的方法中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、终端或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机可以存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，SSD)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频信号处理方法，其特征在于，包括：

获取当前时刻的声源与收听者间的当前位置关系；

根据所述当前位置关系确定当前音频渲染函数，所述当前音频渲染函数为头部相关传输函数或双耳房间冲激响应函数；

如果所述当前位置关系与存储的在先位置关系不同，根据所述当前位置关系和所述在先位置关系调整所述当前音频渲染函数的初始增益，以得到所述当前音频渲染函数的调整后增益，所述在先位置关系是在先时刻的所述声源与所述收听者间的位置关系；

根据所述当前音频渲染函数和所述调整后增益，确定调整后音频渲染函数；

根据当前输入信号和所述调整后音频渲染函数确定当前输出音频信号，所述当前输入信号与所述声源发出的音频信号对应；

输出所述当前输出音频信号。

2.根据权利要求1所述的方法，其特征在于，

所述当前位置关系包括所述声源与所述收听者间的当前距离或所述声源相对于所述收听者的当前方位角；或

所述在先位置关系包括所述声源与所述收听者间的在先距离或所述声源相对于所述收听者的在先方位角。

3.根据权利要求2所述的方法，其特征在于，在所述当前距离与所述在先距离不相同时，所述根据所述当前位置关系和所述在先位置关系调整所述当前音频渲染函数的初始增益，以得到所述当前音频渲染函数的调整后增益，包括：

根据所述当前距离和所述在先距离调整所述初始增益，得到所述调整后增益。

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前距离和所述在先距离调整所述初始增益，得到所述调整后增益，包括：

根据所述当前距离和所述在先距离的差值调整所述初始增益，得到所述调整后增益，

或者，根据所述当前距离和所述在先距离的差值的绝对值调整所述初始增益，得到所述调整后增益。

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述当前距离和所述在先距离调整所述初始增益，得到所述调整后增益，包括：

若所述在先距离大于所述当前距离，采用如下公式确定所述调整后增益：G₂(θ)＝G₁(θ)×(1+Δr)，其中，G₂(θ)表示所述调整后增益，G₁(θ)表示所述初始增益，θ等于θ₁，θ₁表示所述在先方位角，Δr表示所述当前距离和所述在先距离的差值的绝对值，或者，Δr表示所述在先距离减所述当前距离的差值；或

若所述在先距离小于所述当前距离，采用如下公式确定所述调整后增益：G₂(θ)＝G₁(θ)/(1+Δr)，其中，θ等于θ₁，θ₁表示所述在先方位角，Δr表示所述在先距离和所述当前距离的差值的绝对值，或者，Δr表示所述当前距离减所述在先距离的差值。

6.根据权利要求2所述的方法，其特征在于，在所述当前方位角与所述在先方位角不相同时，所述根据所述当前位置关系和所述在先位置关系调整所述当前音频渲染函数的初始增益，以得到所述当前音频渲染函数的调整后增益，包括：

根据所述当前方位角调整所述初始增益，得到所述调整后增益。

7.根据权利要求6所述的方法，其特征在于，所述根据所述当前方位角调整所述初始增益，得到所述调整后增益，包括：

采用如下公式确定所述调整后增益：G₂(θ)＝G₁(θ)×cos(θ/3)，其中，G₂(θ)表示所述调整后增益，G₁(θ)表示所述初始增益，θ等于θ₂，θ₂表示所述当前方位角。

8.根据权利要求2所述的方法，其特征在于，在所述当前距离与所述在先距离不相同，并且所述当前方位角与所述在先方位角不相同时，所述根据所述当前位置关系和所述在先位置关系调整所述当前音频渲染函数的初始增益，以得到所述当前音频渲染函数的调整后增益，包括：

根据所述在先距离和所述当前距离调整所述初始增益，得到第一临时增益；再根据所述当前方位角调整所述第一临时增益，得到所述调整后增益；或者

根据所述当前方位角调整所述初始增益，得到第二临时增益；再根据所述在先距离和所述当前距离调整所述第二临时增益，得到所述调整后增益。

9.根据权利要求2-8中任一项所述的方法，其特征在于，所述初始增益是根据所述当前方位角确定的，所述当前方位角的取值范围为0度到360度。

10.根据权利要求9所述的方法，其特征在于，所述初始增益采用如下公式确定：G₁(θ)＝A×cos(π×θ/180)-B，其中，θ等于θ₂，θ₂表示所述当前方位角，G₁(θ)表示所述初始增益，A和B为预设参数，A的取值范围为5～20，B的取值范围为1～15。

11.一种音频信号处理装置，其特征在于，包括：

获取单元，用于获取当前时刻的声源与收听者间的当前位置关系；

处理单元，用于根据所述获取单元获取到的所述当前位置关系确定当前音频渲染函数，所述当前音频渲染函数为头部相关传输函数或双耳房间冲激响应函数；

所述处理单元，还用于如果所述当前位置关系与存储的在先位置关系不同，根据所述获取单元获取到的所述当前位置关系和所述在先位置关系调整所述当前音频渲染函数的初始增益，以得到所述当前音频渲染函数的调整后增益，所述在先位置关系是在先时刻的所述声源与所述收听者间的位置关系；

所述处理单元，还用于根据所述当前音频渲染函数和所述调整后增益，确定调整后音频渲染函数；

所述处理单元，还用于根据当前输入信号和所述调整后音频渲染函数确定当前输出信号，所述当前输入信号与所述声源发出的音频信号对应；

用于输出所述当前输出信号的单元。

12.根据权利要求11所述的装置，其特征在于，

13.根据权利要求12所述的装置，其特征在于，在所述当前距离与所述在先距离不相同时，所述处理单元，用于：

14.根据权利要求13所述的装置，其特征在于，所述处理单元，用于：

15.根据权利要求13或14所述的装置，其特征在于，所述处理单元，用于：

16.根据权利要求12所述的装置，其特征在于，在所述当前方位角与所述在先方位角不相同时，所述处理单元，用于：

17.根据权利要求16所述的装置，其特征在于，所述处理单元，用于：

18.根据权利要求12所述的装置，其特征在于，在所述当前距离与所述在先距离不相同，并且所述当前方位角与所述在先方位角不相同时，所述处理单元，用于：

19.根据权利要求12-18中任一项所述的装置，其特征在于，所述初始增益是根据所述当前方位角确定的，所述当前方位角的取值范围为0度到360度。

20.根据权利要求19所述的装置，其特征在于，所述初始增益采用如下公式确定：G₁(θ)＝A×cos(π×θ/180)-B，其中，θ等于θ₂，θ₂表示所述当前方位角，G₁(θ)表示所述初始增益，A和B为预设参数，A的取值范围为5～20，B的取值范围为1～15。

21.一种音频信号处理装置，其特征在于，包括：至少一个处理器、存储器、总线和传感器，其中，所述存储器用于存储计算机程序，使得所述计算机程序被所述至少一个处理器执行时实现如权利要求1-10中任一项所述的音频信号处理方法。

22.一种计算机可读存储介质，其特征在于，包括：计算机软件指令；

当所述计算机软件指令在音频信号处理装置或内置在音频信号处理装置的芯片中运行时，使得所述音频信号处理装置执行如权利要求1-10中任一项所述的音频信号处理方法。

23.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时执行如权利要求1-10中任一项所述的音频信号处理方法。