CN111508507B

CN111508507B - 一种音频信号处理方法及装置

Info

Publication number: CN111508507B
Application number: CN201910103595.6A
Authority: CN
Inventors: 王宾; 乔纳森·阿拉斯泰尔·吉布斯
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2023-03-03
Anticipated expiration: 2039-01-31
Also published as: EP3909656A1; KR20210120063A; EP3909656A4; WO2020155976A1; CN116312572A; BR112021015040A2; CN111508507A; US20210358506A1

Abstract

本申请实施例提供一种音频信号处理方法及装置，涉及音频信号处理领域，在保证音频信号质量的前提下，降低解码功耗。具体包括：采集收听位置处满足筛选条件的音频信号；其中，该筛选条件包括下述条件中一项或多项：在收听位置处音量大于或等于音量阈值，或者，声源与收听位置的收听距离小于或等于预设收听距离，或者，声源处于收听朝向对应的范围内；将采集的音频信号进行编码获取经过编码的音频信号；向解码端发送经过编码的音频信号。

Description

一种音频信号处理方法及装置

技术领域

本申请实施例涉及音频信号处理领域，尤其涉及一种音频信号处理方法及装置。

背景技术

随着高性能计算机和信号处理技术的飞速发展，人们对语音、音频体验提出了越来越高的要求，浸入式音频能够满足人们在这方面的需求。例如，第四代移动通信技术(the4th generation mobile communication technology，4G)/第五代移动通信技术(the 5thgeneration mobile communication technology，5G)通信语音，音频服务和虚拟现实(virtual reality，VR)、增强现实(Augmented reality，AR)、混合显示(Mixed Reality，MR)等影音技术受到越来越多的关注。一个具有沉浸感的影音系统，不仅需要震撼的视觉效果，还需要逼真的听觉效果，视听的融合能大大提高沉浸感体验。

音频的核心是三维音频技术，目前实现三维音频有多种重放方法，包括使用基于扬声器的扬声器重放和基于耳机的双耳重放。以基于耳机的双耳重放主要借助头部相关传输函数(head related transfer function，HRTF)或者双耳房间冲激响应(binaural roomimpulse response，BRIR)来实现。其中，HRTF参考声源所产生的声波传播到耳道时，受到头部、躯干、耳廓等器官散射、反射及折射等影响进行重放；BRIR考虑环境反射声对声源的影响进行重放，BRIR可以看作声源、室内环境、双耳(包括头部、躯干、耳廓)所组成的系统的脉冲响应，其由直达声、早期反射、后期混响组成。基于耳机的双耳重放的原理为：当假定声源在某一位置后，选择从此位置到收听者头中心位置对应的HRTF或者BRIR进行卷积处理，得到的双耳的输出信号。

当前的三维音频技术中，根据应用场景选择相应的设备采集声场中所有的有用声源对应的音频信号，将采集到所有音频信号进行编码，传输到解码端经解码后根据播放端选择的播放设备进行渲染。但是，当声场中声源数量比较大时，导致解码端功耗很大。

发明内容

本申请实施例提供一种音频信号处理方法及装置，在保证音频信号质量的前提下，降低解码功耗。

为达到上述目的，本申请的实施例采用如下技术方案：

本申请的第一方面，提供一种音频信号处理方法，应用于编码端，该方法可以包括：先采集收听位置处的音频信号，每个采集的音频信号有对应的声源，采集的音频信号至少包括了满足筛选条件的音频信号；其中，该筛选条件可以包括下述条件中一项或多项：在该收听位置处的音量大于或等于音量阈值，或者，其对应的声源与收听位置的收听距离小于或等于预设收听距离，或者，其对应的声源处于收听朝向对应的范围内；然后将采集的音频信号进行编码，以获得经过编码的音频信号；再向解码端发送经过编码的音频信号。

通过本申请提供的音频信号处理方法，通过至少采集收听位置处满足筛选条件的音频信号，并将采集的音频信号编码发送给解码端用于解码端解码播放音频信号。这样一来，编码端可以仅采集满足筛选条件的音频信号并编码发送，以使得解码端仅解码满足筛选条件的音频信号。因此，可以通过配置保证音频信号质量的筛选条件，在声源数量比较大时，音频信号的传输既保证了音频信号质量，又大大降低了解码端的功耗。

需要说明的是，本申请所提供的方案可以应用于声场中，当然也可以用在别的应用场景下，例如游戏场景，电影场景，会议场景等等。本申请所描述的编码端是指影音系统中对声源对应的音频信号进行编码的部分，编码端将声源对应的音频信号采集编码后，传输至解码端，由解码端解码渲染后播放。其中，影音系统包括但不限于VR系统、AR系统、MR系统或其他流式传输系统。本申请实对于本申请提供的方案所应用的影音系统的类型，不进行具体限定。

具体的，音频信号处理包括实时音频信号处理场景以及非实时音频信号处理场景。无论在哪个场景中，由于用户的移动性，收听位置并不是固定不变的，收听朝向也不是固定不变的。收听朝向对应的范围可以包括全向或者预设角度的范围，本申请对此不进行具体限定。

在实时音频信号处理的场景，收听位置是收听者当前在声场中所处的位置，收听朝向是指收听者在收听位置面朝的方向，收听位置和/或收听朝向均由解码端向编码端提供，编码端根据解码端提供的收听位置和/或收听朝向，对音频信号的处理方式为边采集边传输，实现声场的逼真还原，使收听者身临其境。在非实时音频信号处理的场景，收听位置是声场中任一可能的位置，收听朝向是任一可能的方向。

结合第一方面，在一种可能的实现方式中，在实时音频信号处理的场景中，本申请提供的音频信号处理方法还可以包括：接收解码端发送的收听位置信息，该收听位置信息用于指示收听位置。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，当筛选条件中需使用收听朝向时，例如筛选条件包括对应的声源处于收听朝向对应的范围内，在实时音频信号处理的场景中，本申请提供的音频信号处理方法还可以包括：接收解码端发送的收听朝向信息，该收听朝向信息用于指示的收听者的收听朝向。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，在非实时音频信号处理的场景，预设或确定多个收听位置，在每个收听位置存在多个收听朝向，编码端需要在每个收听位置执行本申请提供的音频信号处理方法采集音频信号并编码，解码端根据实际收听者所处的位置，选择匹配的经过编码的音频信号进行解码渲染，从而使收听者身临其境。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，在非实时音频信号处理的场景，收听朝向可以是任意一个收听位置的任意一个收听朝向。当筛选条件包括收听朝向相关的内容时，编码端需要获取任意一个收听朝向对应的音频信号，使得解码端可以从编码端获取满足当前筛选条件的音频信号，从而在解码端还原声场；预先获取各个收听朝向的多个音频信号，使得收听者在任意收听朝向时，解码器都可以从编码端获取收听者当前的收听朝向对应的音频信号，从而使收听者身临其境。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，当音量超过一定门限的音频信号才能被听到，并结合声源与收听朝向的位置关系不同时该门限不同，可以配置音量阈值为音频信号对应的声源与收听朝向的位置关系确定的阈值。在该实现方式中，不同的位置关系配置不同的阈值，更加准确的适应收听需求，使得收听效果更加逼真。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，当音量超过一定门限的音频信号才能被听到，可以配置音量阈值为预设音量阈值，以采集音量大的声源信号。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，本申请提供的音频信号处理方法还可以包括：编码端采集收听位置处所有声源对应的音频信号，将采集的所有音频信号编码，以获得经过编码的音频信号发送给解码端，并向解码端发送指示信息，该指示信息用于指示经过编码的音频信号中满足筛选条件的音频信号，由解码端根据指示信息，只解码满足筛选条件的音频信号，实现了解码端只解码收听位置处满足筛选条件的声源对应的音频信号。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，指示信息可以包括：经过编码的音频信号中每个音频信号的特征信息；其中，特征信息包括音量信息或者音频信号对应的声源的位置信息。解码端根据特征信息选择满足筛选条件的音频信号进行解码。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，指示信息可以包括：经过编码的音频信号满足筛选条件的音频信号的标识。

本申请的第二方面，提供一种音频信号处理方法，应用于解码端，该方法可以包括：接收经过编码的多个音频信号，该多个音频信号包括的音频信号是收听位置处的音频信号，每个音频信号有对应的声源，所述多个音频信号至少包括满足筛选条件的音频信号；其中，筛选条件包括下述条件中一项或多项：在收听位置处的音量大于或等于音量阈值，或者，其对应的声源与收听位置的收听距离小于或等于预设收听距离，或者，其对应的声源处于收听朝向对应的范围内；对满足筛选条件的音频信号进行解码以得到解码信号；根据播放设备中的声道传输函数渲染解码信号，获取输出信号。

通过本申请提供的音频信号处理方法，解码端仅解码满足筛选条件的声源对应的音频信号，只要配置保证音频质量的筛选条件，在声源数量比较大时，音频信号的传输既保证了音频信号质量，又大大降低了解码端的功耗。

需要说明的是，对于收听位置、收听朝向已经在第一方面中进行了详细描述，此处不再进行赘述。

结合第二方面，在一种可能的实现方式中，根据播放设备中的声道传输函数渲染解码信号，获取输出信号，包括：将每个解码信号，分别与其在播放设备中的声道传输函数进行卷积，获取一个或多个输出信号。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，在实时音频信号处理的场景中，本申请提供的音频信号处理方法还可以包括：解码端向编码端发送收听位置信息，以使编码端根据收听位置信息获取经过编码的多个音频信号，该收听位置信息用于指示收听位置。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，当筛选条件中需使用收听朝向时，例如筛选条件包括音频信号对应的声源处于收听朝向对应的范围内，在实时音频信号处理的场景中，本申请提供的音频信号处理方法还可以包括：解码端向编码端发送收听朝向信息，以使所述编码端根据所述朝向信息获取经过编码的多个音频信号，该收听朝向信息用于指示收听朝向。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，在非实时音频信号处理的场景，收听位置是应用场景，例如声场中的任意一个位置，因此，在非实时音频信号处理的场景中需要预设或确定多个收听位置，在每个收听位置存在多个收听朝向，编码端需要在每个收听位置执行本申请提供的音频信号处理方法处采集音频信号编码，解码端可以根据收听者当前所处的收听位置从编码端获取对应的音频信号，在解码端执行本申请提供的音频信号处理方法还原声场，预先获取各个收听位置的音频信号，使得收听者在任意位置时，解码器都可以从编码端获取当前收听位置处的经过编码的音频信号进行解码，从而使收听者身临其境。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，在非实时音频信号处理的场景，收听朝向可以是任意一个收听位置的任意一个收听朝向。当筛选条件包括收听朝向相关的内容时，编码端需要获取任意一个收听朝向对应的经过编码音频信号，使得解码端可以从编码端获取满足筛选条件的经过编码的音频信号，从而在解码端还原声场；预先获取各个收听朝向的经过编码的音频信号，使得收听者在任意收听朝向时，解码器都可以从编码端获取当前收听朝向对应的经过编码的音频信号进行解码，从而使收听者身临其境。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，当音量超过一定门限的音频信号才能被听到，并结合声源与收听朝向的位置关系不同时该门限不同，可以配置音量阈值为声源与收听朝向的位置关系确定的阈值。在该实现方式中，不同的位置关系配置不同的音量阈值，更加准确的适应收听需求，也能使得收听效果更加逼真。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，当音量超过一定门限的音频信号才能被听到，可以配置音量阈值为预设音量阈值，以采集音量大的声源信号。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，经过编码的多个音频信号仅包括收听位置处满足筛选条件的音频信号；解码端对满足筛选条件的声源信号进行解码以得到解码信号，具体实现为：解码端将多个音频信号中每个音频信号进行解码以得到解码信号。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，经过编码的多个音频信号包括收听位置处所有声源对应的音频信号，本申请提供的音频信号处理方法还可以包括：解码端接收编码端发送的指示信息，该指示信息用于指示经过编码的多个音频信号中满足筛选条件的声源信号；解码端根据该指示信息，从经过编码的多个音频信号中筛选，获取该指示信息指示的音频信号作为满足筛选条件的音频信号。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，指示信息可以包括：经过编码的多个音频信号中每个音频信号的特征信息；其中，特征信息包括音量信息或者音频信号对应的声源的位置信息。解码端根据特征信息选择满足筛选条件的音频信号进行解码。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，指示信息可以包括：经过编码的多个音频信号中满足筛选条件的音频信号的标识。解码端从经过编码的多个音频信号中筛选标识指示的音频信号作为满足筛选条件的音频信号。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，声道传输函数可以包括：HRTF函数，或者，BRIR函数。本申请对于声道传输函数的类型不进行具体限定。

结合第二方面或上述任一种可能的实现方式，在另一种可能的实现方式中，在流式传输场景中，解码端对满足筛选条件的音频信号进行解码以得到解码信号，具体包括：解码端对满足筛选条件的音频信号下载，对下载的音频信号进行解码以得到解码信号。

本申请的第三方面，提供一种音频信号处理装置，该装置可以包括：采集单元、编码单元以及发送单元。其中，采集单元，用于采集收听位置处的音频信号，每个采集的音频信号有对应的声源，所述采集的音频信号至少包括了满足筛选条件的音频信号；其中，筛选条件可以包括下述条件中一项或多项：在收听位置处音量大于或等于音量阈值，或者，其对应的声源与收听位置的收听距离小于或等于预设收听距离，或者，其对应的声源处于收听朝向对应的范围内；编码单元，用于将采集的音频信号进行编码，以获得经过编码的音频信号；发送单元，用于向解码端发送经过编码的音频信号。

通过本申请提供的音频信号处理装置，通过采集收听位置处满足筛选条件的音频信号，使得解码端仅解码满足筛选条件的音频信号，这样一来，通过配置保证音频信号质量的筛选条件，在声源数量比较大时，音频信号的传输既保证了音频信号质量，又大大降低了解码端的功耗。

需要说明的是，本申请第三方面提供的音频信号处理装置，用于实现上述第一方面以及第一方面中任一种可能的实现方式提供的音频信号处理方法，因此，本申请第三方面提供的音频信号处理装置的具体实现，可以参照上述第一方面以及第一方面中任一种可能的实现方式提供的音频信号处理方法的具体实现，此处不再进行赘述。

本申请的第四方面，提供另一种音频信号处理装置，该装置可以包括：接收单元、解码单元以及渲染单元。其中，接收单元，用于接收经过编码的多个音频信号，该多个音频信号是收听位置处的音频信号，每个音频信号有对应的声源，该多个音频信号至少包括满足筛选条件的音频信号；其中，筛选条件包括下述条件中一项或多项：在收听位置处音量大于或等于音量阈值，或者，其对应的声源与收听位置的收听距离小于或等于预设收听距离，或者，其对应的声源处于收听朝向对应的范围内；解码单元，对接收单元接收的满足筛选条件的音频信号进行解码以得到解码信号；渲染单元，用于根据播放设备中的声道传输函数，渲染解码单元得到的解码信号，获取输出信号。

通过本申请提供的音频信号处理装置，解码端仅解码声场中满足筛选条件的声源对应的音频信号，只要配置保证音频质量的筛选条件，在声场中声源数量比较大时，音频信号的传输既保证了音频信号质量，又大大降低了解码端的功耗。

需要说明的是，本申请第四方面提供的音频信号处理装置，用于实现上述第二方面以及第二方面中任一种可能的实现方式提供的音频信号处理方法，因此，本申请第四方面提供的音频信号处理装置的具体实现，可以参照上述第二方面以及第二方面中任一种可能的实现方式提供的音频信号处理方法的具体实现，此处不再进行赘述。

本申请的第五方面，本申请提供了一种音频信号处理装置，该音频信号处理装置可以实现上述方法示例中的编码端的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个上述功能相应的模块。该音频信号处理装置可以以芯片的产品形态存在。

结合第五方面，在一种可能的实现方式中，该音频信号处理装置的结构中包括处理器和收发器，该处理器被配置为支持该音频信号处理装置执行上述方法中相应的功能。该收发器用于支持该音频信号处理装置与其他设备之间的通信。该音频信号处理装置还可以包括存储器，该存储器用于与处理器耦合，其保存该音频信号处理装置必要的程序指令和数据。

本申请的第六方面，本申请提供了另一种音频信号处理装置，该音频信号处理装置可以实现上述方法示例中的解码端的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个上述功能相应的模块。该音频信号处理装置可以以芯片的产品形态存在。

结合第六方面，在一种可能的实现方式中，该音频信号处理装置的结构中包括处理器和收发器，该处理器被配置为支持该音频信号处理装置执行上述方法中相应的功能。该收发器用于支持该音频信号处理装置与其他设备之间的通信。该音频信号处理装置还可以包括存储器，该存储器用于与处理器耦合，其保存该音频信号处理装置必要的程序指令和数据。

本申请的第七方面，提供一种编码器，该编码器包括执行上述第一方面或第一方面的任一种可能的实现方式提供的音频信号处理方法的音频信号处理装置。该编码器可以被本申请实施例中的编码端使用。

本申请的第八方面，提供一种解码器，该解码器包括执行上述第二方面或第二方面的任一种可能的实现方式提供的音频信号处理方法的音频信号处理装置。该解码器可以被本申请实施例中的解码端使用。

本申请的第九方面，提供一种音频信号处理系统，包括第七方面提供的编码器，和/或第八方面提供的解码器。

本申请的第十方面，提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述任一方面或任一种可能的实现方式提供的音频信号处理方法。

本申请的第十一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一方面或任一种可能的实现方式提供的音频信号处理方法。

其中，需要说明的是，上述各个方面中的任意一个方面的各种可能的实现方式，在方案不矛盾的前提下，均可以进行组合。

附图说明

图1为现有技术提供的一种音频信号处理方法的示意图；

图2为现有技术提供的一种影音系统的架构示意图；

图3为本申请实施例提供的一种音频信号处理装置的结构示意图；

图4为本申请实施例提供的一种音频信号处理方法的流程示意图；

图5为本申请实施例提供的另一种音频信号处理方法的流程示意图；

图6为本申请实施例提供的另一种音频信号处理装置的结构示意图；

图7为本申请实施例提供的再一种音频信号处理装置的结构示意图；

图8为本申请实施例提供的又一种音频信号处理装置的结构示意图；

图9为本申请实施例提供的又一种音频信号处理装置的结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于限定特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例中描述的A、B、C中的一项或多项，用于表示下述概念：A，或者B，或者C，或者A和B，或者，A和C，或者，B和C，或者，A、B以及C。

在介绍本申请提供的方案之前，先对的音频信号处理的常规过程进行说明。

常规的音频信号处理过程包括：编码端设备根据应用场景选择相应的设备采集当前声场中所有的声源对应的音频信号，将采集到所有音频信号进行编码，传输到解码端；解码端对接收到的所有音频信号进行解码渲染获取输出信号。如果播放设备为扬声器阵列，则将输出信号渲染为多声道扬声器信号；如果播放设备为耳机设备，则将输出信号渲染为双耳输出信号。

其中，编解码可以使用目前常见的增强型语音通话服务(enhance voiceservices，EVS)、自适应多速率宽带(adaptive multi-rate wideband，AMRWB)、自适应多速率(Adaptive Multi-Rate，AMR)等编码方式，多声道扬声器信号是由渲染器根据具体扬声器个数渲染得到，双耳输出信号是由渲染器利用多声道扬声器信号和HRTF/BRIR渲染得到。需要说明的是，前述列举的编解码所使用的编码方式仅仅是举例，在实际应用中也可以使用其他的音频编码方式。

图1示意了当前音频信号处理的过程，以声场中有5个声源(图1中的1-5)为例，结合图1对当前的音频信号处理过程进行描述。

以选择EVS编解码器为例：5个声源对应的音频信号分别记录为S1(n)，S2(n)，S3(n)，S4(n)，S5(n)，分别经过EVS编码后得到5个码流信号S1S(n)，S2S(n)，S3S(n)，S4S(n)，S5S(n)，将5个码流信号按照帧与帧相邻方式连接起来经信道编码之后发送出去。

解码端接收到编码后的码流信号后，先进行信道解码得到5个码流S1S(n)，S2S(n)，S3S(n)，S4S(n)，S5S(n)，码流经EVS decoder解码后得到5个信号DS1(n)，DS2(n)，DS3(n)，DS4(n)，DS5(n)。

将5个信号分别与收听装置选择的声道传输函数(HRTF函数)中各自对应的HRTF信号(HRTF1(n)、HRTF2(n)、HRTF3(n)、HRTF3(n)、HRTF4(n))进行卷积处理，得到卷积结果为Y1(n)，Y2(n)，Y3(n)，Y4(n)，Y5(n)。具体的卷积表示为：

最后，将卷积结果叠加得到最终的双耳(binaural)输出信号Y(n)。其中，Y(n)的计算表达式可以为：

Y(n)＝Y1(n)+Y2(n)+Y3(n)+Y4(n)+Y5(n)。

在上述音频信号处理过程中，编码端将所有的声源对应的音频信号全部进行采集编码传输至解码端，解码端将接收到的所有音频信号解码渲染。当声源信号个数比较多时，解码端的功耗非常大。

为了解决上述问题，本申请实施例提供一种音频信号信号处理方法，其基本原理是：解码端选择满足筛选条件的音频信号进行解码，以替代现有技术中解码端将所有声源对应的音频信号解码，在声源个数多时，降低了解码端的功耗。另外，只要合理配置筛选条件，在降低功耗的同时，依然可以很好的保证音频信号传输的质量，以保证收听效果。

在描述本申请的方案之前，先对本申请涉及的名字进行解释说明。

收听位置(position of the listener)，是指收听者(listener)所处的位置；收听朝向，是指收听者在收听位置面朝的方向。收听者可以为实际使用播放设备的用户，也可以为虚拟的使用播放设备的用户。虚拟的使用播放设备的用户可以处于任一个可能的收听位置，可以有任一种可能的收听朝向。

收听距离，是指声源与收听位置之间的直线距离。或者，收听距离也可以为声源与收听位置之间的预设路径的距离。该预设路径可以为绕过障碍物的距离或者其他，本申请不进行具体限定。

下面将结合附图对本申请实施例的实施方式进行详细描述。

本申请提供的音频信号处理方法应用于图2示意的影音系统10中。影音系统10中包括端到端的音频信号处理部分以及端到端的视频信号处理部分。影音系统10可以为VR系统、或AR系统、或MR系统或其他流式传输系统。当然，本申请实施例对于影音系统10的实际形态不进行具体限定。

如图2所示，影音系统10中端到端的音频信号处理部分可以包括采集模块(acquisition)201、音频预处理模块(audio preprocessing)202、音频编码模块(audioencoding)203、封装模块(file/segment encapsulation)204、传输模块(delivery)205/218、解封装模块(file/segment decapsulation)206、音频解码模块(audio decoding)207、音频渲染模块(audio rendering)208和扬声器/耳机(loudspeakers/headphones)209。

如图2所示，影音系统10中包括的端到端的视频信号处理部分可以包括：采集模块(acquisition)201、视频组合模块(visual stitching)210、预测绘图模块(projectionand mapping)211、视频编码模块(video encoding)212、图像编码模块(image encoding)213、封装模块(file/segment encapsulation)204、传输模块(delivery)205/218、解封装模块(file/segment decapsulation)206、视频解码模块(video decoding)214、图像解码模块(image decoding)215、视频渲染模块(visual rendering)216和播放器(display)217。

需要说明的是，影音系统10中包括的端到端的音频信号处理部分以及端到端的视频信号处理部分，部分模块为共用模块。

下面对图2示意的影音系统10中各个模块功能进行简单描述：

采集模块201用于采集声源对应的音频信号，将音频信号传输至音频预处理模块202。

音频预处理模块202用于对音频信号进行预处理，例如，滤波处理等，并将预处理后的音频信号传输至音频编码模块203。

音频编码模块203用于对预处理后的音频信号进行编码，将编码后的音频信号传输至封装模块204。

采集模块201还用于采集视频信号。视频信号经过视频组合模块210、预测绘图模块211、视频编码模块212和图像编码模块213的处理后，将编码后的视频信号传输至封装模块204。

封装模块204用于将编码后的音频信号和编码后的视频信号进行封装得到码流，该码流通过传输模块205传输至解码端的传输模块218，再由传输模块218传输至解封装模块206。示例性的，传输模块205和传输模块218可以是有线通信模块或者无线通信模块，本申请实施例对此不进行具体限定。

需要说明的是，当影音系统10为流式传输系统时，传输模块205具体可以实现为服务器的形式，即编码端将码流上传至服务器，由解码端按照需求从服务器下载码流，以实现传输模块205的功能，该过程不再进行赘述。

解封装模块206用于对码流进行解封装，获得编码后的音频信号和编码后的视频信号，并将编码后的音频信号传输至音频解码模块207，将编码后的视频信号传输至视频解码模块214和图像解码模块215。

音频解码模块207用于对编码后的音频信号进行解码，并将解码后的音频信号传输至音频渲染模块208。

音频渲染模块208用于对解码后的音频信号进行渲染处理，并将渲染的输出信号传输至扬声器/耳机209。

视频解码模块214、图像解码模块215和视频渲染模块216对编码后的视频信号进行处理，并将处理后的视频信号传输至播放器217播放。

需要说明的是，图2中示出的结构并不构成对影音系统10的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。尽管未示出，影音系统10还可以包括传感器等，传感器用于获取收听位置和/或收听朝向，在此不再赘述。

还需要说明的是，图2示意的影音系统10中的端到端的视频信号处理部分和端到端的音频信号处理系统可以单独的独立部署，本申请不再进行赘述。

下面结合附图，对本申请提供的方案进行详细描述。

一方面，本申请提供一种音频信号处理装置，图3示出的是与本申请各实施例相关的一种音频信号处理装置30。该音频信号处理装置30可以部署在影音系统10中的编码端作为功能单元，也可以部署在影音系统10中的解码端作为功能单元，本申请实施例对此不进行具体限定。当然，该音频信号处理装置30也可以为影音系统中编码端或者解码端。或者，该音频信号处理装置30可以为芯片系统。本申请实施例中，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

如图3所示，音频信号处理装置30可以包括：处理器301、存储器302、收发器303。

下面结合图3对音频信号处理装置30的各个构成部件进行具体的介绍：

存储器302，可以是易失性存储器(volatile memory)，例如RAM；或者non-volatile memory，例如只读存储器(read-only memory，ROM)，快闪存储器(flashmemory)，HDD或SSD；或者上述种类的存储器的组合，用于存储可实现本申请方法的程序代码、以及配置文件。

处理器301是音频信号处理装置30的控制中心，可以是一个CPU，也可以是ASIC，或者是被配置成实施本申请实施例的一个或多个集成电路，例如：一个或多个DSP，或，一个或者多个FPGA。处理器301可以通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行音频信号处理装置30的各种功能。

收发器303用于音频信号处理装置30与其他单元进行交互。示例性的，收发器303可以为音频信号处理装置30的收发端口。

进一步的，如图3所示，音频信号处理装置30还可以包括传感器304，用于获取收听位置和/或收听朝向。示例的，传感器304具可以是陀螺仪、外置摄像头、运动检测装置或图像检测装置等，本申请实施例对此不作限定。

具体的，当音频信号处理装置30部署在编码端，或者，当音频信号处理装置30为编码端时，处理器301通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行如下功能：

采集收听位置处的音频信号，每个采集的音频信号有对应的声源，采集的音频信号至少包括满足筛选条件的音频信号；其中，筛选条件可以包括下述条件中一项或多项：在收听位置处音量大于或等于音量阈值，或者，其对应的声源与收听位置的收听距离小于或等于预设收听距离，或者，其对应的声源处于收听朝向对应的范围内；将采集的音频信号进行编码，以获得经过编码的音频信号；通过收发器303向解码端发送经过编码的音频信号。

其中，本申请实施例提供的方法，装置，设备或系统可以应用于实时音频信号处理场景以及非实时音频信号处理场景。在应用于实时音频信号处理场景时，所述的收听位置是解码端，即收听者(listener)当前所处的位置，具体地，收听者(listener)当前所处的位置可以是游戏场景范围，声场范围，电影场景范围，会议场景范围等等应用场景范围内的位置；为了在解码端更好地为收听者重现编码端的音频，编码端可以根据解码端发送的收听者当前所处的位置(即收听位置)进行音频信号的采集，从而使得编码端采集的音频能够与收听者当前所处的位置匹配；在应用于非实时音频信号处理场景时，收听位置是预设的位置，由于收听者可能在应用场景范围内任何位置，因此可以预设一些收听位置，编码端可以根据预设的收听位置进行音频信号的采集，此时，解码端在进行音频信号的解码处理时，可以根据收听者当前所处的位置，选择最匹配(例如，位置相同或最相近)的音频信号进行解码处理。

具体的，当音频信号处理装置30部署在解码端，或者，当音频信号处理装置30为解码端时，处理器301通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行如下功能：

通过收发器303接收经过编码的多个音频信号，该多个音频信号是收听位置处的音频信号，每个音频信号有对应的声源，该多个音频信号至少包括满足筛选条件的音频信号；其中，筛选条件可以包括下述条件中一项或多项：在收听位置处音量大于或等于音量阈值，或者，其对应的声源与收听位置的收听距离小于或等于预设收听距离，或者，其对应的声源处于收听朝向对应的范围内；对满足筛选条件的音频信号进行解码以得到解码信号；根据播放设备中的声道传输函数，渲染解码信号，获取输出信号。

另一方面，本申请实施例提供一种音频信号处理方法，应用于图2示意的影音系统10中端到端的音频信号处理部分的编码端与解码端交互过程中，以处理声场中的音频信号。下文中描述的编码端/解码端执行某操作，可以为编码端/解码端自身执行该操作，也可以为编码端/解码端中的功能模块执行该操作，后续不再一一说明。

需要说明的是，本文所描述的编码端与解码端交互时，两者可以直接通信交互，也可以通过将交互内容上传至共用媒介，从共用媒介下载的方式交互，本申请统一描述为发送/接收，后续不再一一说明。其中，共用媒介可以为服务器或者云服务器或者其他。

如图4所示，该音频信号处理方法可以包括：

S401、编码端获取收听位置。

其中，音频信号处理包括实时音频信号处理场景以及非实时音频信号处理场景。无论在哪个场景中，由于用户的移动性，收听位置并不是固定不变的。

下面分实时音频信号处理场景和非实时音频信号处理场景对S401的实现进行说明。

一、实时音频信号处理场景。

在实时音频信号处理的场景，收听位置是收听者当前在声场中所处的位置，收听朝向是指收听者在收听位置面朝的方向，收听位置可以由解码端向编码端提供。

因此，在S401之前，如图4所示，本申请实施例提供的音频信号处理方法还可以包括S401a。

S401a、解码端获取收听位置，向编码端发送收听位置信息。

具体的，解码端可以使用传感器或者用于获取位置的装置，获取收听者当前在声场中所处的位置，本申请实施例对于解码端获取收听位置的实现方式不进行具体限定。

其中，收听位置信息用于指示解码端获取的收听位置，收听位置信息的内容可以根据实际需求配置，本申请实施例对此不进行限定。

示例性的，收听位置信息可以为坐标信息，或者，位置标识。预先配置了声场中每个位置的标识，通过标识可以唯一确定具体的收听位置。

对应于S401a，S401具体可以实现为：编码端从解码端接收收听位置信息，收听位置信息用于指示收听位置，编码端根据收听位置信息确定收听者在声场中所处的位置。

在实时音频信号处理场景中，解码端可以向解码端提供一个或多个收听位置，本申请实施例对此不进行具体限定。

二、非实时音频信号处理场景。

在非实时音频信号处理场景，收听位置可以是声场中的任意一个位置，因此，在非实时音频信号处理的场景中，编码端需要预先采集多个可能的收听位置的音频信号，此时收听位置可以是多个预设位置中的任意一个。

因此，在非实时音频信号处理场景中，S401具体可以实现为：编码端确定声场中每一个可能的收听位置。具体地，可以根据多个预设位置来确定每一个可能的收听位置，也可以根据当前处理场景的情况，采用预设算法确定每一个可能的收听位置。

可选的，本申请实施例提供的音频信号处理方法，可以仅考虑收听位置，那么在S401之后则执行S403。或者，本申请实施例提供的音频信号处理方法，可以在收听位置的基础上参考收听朝向，那么在S401之后需先执行S402再执行S403。

S402、编码端获取收听朝向。

其中，收听朝向是指用户在收听位置面朝的方向，由于用户的移动性，收听朝向也不是固定不变的。

下面分实时音频信号处理场景和非实时音频信号处理场景对S402的实现进行说明。

在实时音频信号处理的场景，收听朝向由解码端向编码端提供，因此，在S402之前，如图4所示，本申请实施例提供的音频信号处理方法还可以包括S402a。

S402a、解码端获取收听朝向，向编码端发送收听朝向信息。

具体的，解码端可以使用传感器或者用于获取朝向的装置，获取收听者当前在声场中所处的位置处面朝的方向作为收听朝向，本申请实施例对于解码端获取收听朝向的实现方式不进行具体限定。

其中，收听朝向信息用于指示解码端获取的收听朝向，收听朝向信息的内容可以根据实际需求配置，本申请实施例对此不进行限定。

示例性的，收听朝向信息可以为朝向标识，或者，收听朝向信息可以为与基准朝向之间的夹角。

对应于S402a，S402具体可以实现为：编码端从解码端接收收听朝向信息，编码端根据收听朝向信息确定收听者在声场中的收听朝向。

需要说明的是，在实时音频信号处理场景中，S401和S402可以合并实现，本申请对该过程不进行具体限定。

在非实时音频信号处理的场景，收听朝向是指每个收听位置的每一种可能的朝向，因此，在非实时音频信号处理的场景中存在多个收听位置，在每个收听位置存在多个收听朝向。

因此，在非实时信号处理场景中，S402具体可以实现为：编码端确定声场中每一个可能的收听位置处每一个收听朝向。

S403、编码端采集声场中收听位置处的音频信号，采集的音频信号至少包括了满足筛选条件的音频信号。

其中，S403中每个采集的音频信号在声场中有对应的声源。

具体的，在S403中，编码端仅采集声场中收听位置处满足筛选条件的音频信号。

需要说明的是，当存在多个收听位置时，编码端在每个收听位置执行S403，此处仅描述一个收听位置处执行S403的过程，但并不是具体限定。

具体的，编码端通过至少一个音频信号采集装置执行S403。其中，音频信号采集装置可以为麦克风或者其他装置，本申请实施例对此不进行具体限定。

其中，筛选条件可以包括下述条件中一项或多项：在收听位置处音量大于或等于音量阈值，或者，音频信号对应的声源与收听位置的收听距离小于或等于预设收听距离，或者，音频信号对应的声源处于收听朝向对应的范围内。当然，还可以根据实际需求配置筛选条件的内容，本申请实施例对此不进行具体限定。

一种可能的实现中，当音量超过一定门限的音频信号才能被听到，并结合声源与收听朝向的位置关系不同时该门限不同，可以配置音量阈值为声源与收听朝向的位置关系确定的阈值。

一种可能的实现中，可以预先配置不同的位置关系对应的音量阈值，在S403中根据位置关系确定音量阈值。

其中，位置关系可以是指声源与收听朝向的相对方向关系、距离关系中的至少一种。例如，声源位于收听朝向的前方或者后方，声源位于收听朝向的左侧或右侧。或者，位置关系可以是指声源与收听朝向的角度关系，例如，声源位于收听朝向的右侧50度，声源位于收听右侧0度(正前方)。

例如，如表1所示，示例了一种预设的位置关系与音量门限的对应关系，在实际应用中，根据查找法，获取与位置关系对应的音量阈值。例如，当声源位于收听朝向的右侧30度，且声源距离收听位置直线距离为0.35米时，查找表1，确定对应的音量阈值为阈值20。

表1

需要说明的是，表1只是以举例的形式说明一种音量阈值的确定方式，并不是具体限定。

另一种可能的实现中，可以预先配置音量阈值关于位置关系的预设算法，然后根据声源与收听位置的位置关系，按照预设算法获取音量阈值。

当然，对于获取不同的位置关系对应的音量阈值的具体实现，可以根据实际需求选择实现方案，本申请实施例不进行具体限定。

另一种可能的实现中，当音量超过一定门限的声源才能被听到，可以配置音量阈值为预设音量阈值，以采集音量大的音频信号。在该可能的实现中，不考虑收听朝向对收听效果的影响。

可以理解的是，该音量阈值也可以由收听者设定后由解码端发送给编码端。同理，收听距离也可以由收听者设定后由解码端发送给编码端。

需要说明的是，对于音量阈值的具体取值，可以根据实际需求配置，本申请实施例对此不进行具体限定。

其中，收听朝向对应的范围可以包括全向或者预设角度的范围，本申请对此不进行具体限定。对于预设角度的具体取值，可以根据实际需求配置，本申请实施例对此不进行具体限定。

S404、编码端将采集的音频信号进行编码，以获得经过编码的音频信号。

需要说明的是，对于编码过程，可以参照图1示意的音频信号处理过程中的编码，此处不再进行赘述。

S405、编码端向解码端发送经过编码的音频信号。

具体的，编码端采用图2示意的影音系统10中的传输模块205向解码端发送经过编码的音频信号，该传输模块205可以为传输线或者其他，本申请实施例对此不进行具体限定。其中，经过编码的多个音频信号也可以称为音频信号集合。

S406、解码端接收经过编码的多个音频信号。

需要说明的是，S406中解码端接收的经过编码的多个音频信号，即为S405中编码端发送的经过编码的音频信号。

其中，该经过编码的多个音频信号仅包括声场中收听位置处满足筛选条件的音频信号。此处的收听位置可以为实时音频信号处理场景中解码端提供的收听位置，也可以包括非实时音频信号处理场景中声场中每一个收听位置。

S407、解码端对满足筛选条件的音频信号进行解码以得到解码信号。

具体的，由于S406中接收的经过编码的多个音频信号中仅包括满足筛选条件的声源信号，在S407中，解码端对接收的每个音频信号进行解码以得到解码信号。对于解码过程，可以参照图1示意的音频信号处理过程中的解码，此处不再进行赘述。

S408、解码端根据播放设备中的声道传输函数渲染解码信号，获取输出信号。

具体的，在S408中解码端将每个解码信号，分别与其在播放设备中的声道传输函数进行卷积，获取一个或多个输出信号。

具体的，S408中是将解码信号进行渲染，如图1示意的音频信号信号处理过程，如果播放设备为扬声器阵列，则将解码信号渲染为多声道扬声器信号；如果播放设备为耳机设备，则将解码信号渲染为双耳输出信号。

可选的，声道传输函数可以包括：HRTF函数，或者，BRIR函数。当然，可以根据实际需求配置声道传输函数的类型，本申请实施例对此不进行具体限定。

在S408之后，解码端即可通过播放设备播放输出信号。当然，播放设备可以在解码端内部，也可以在解码端外部，本申请实施例对此不进行具体限定。

通过本申请提供的音频信号处理方法，编码端仅采集声场中满足筛选条件的音频信号，再编码发送给解码端，解码端解码接收到的满足筛选条件的音频信号，这样一来，通过配置保证音频信号质量的筛选条件，使得编码端采集的音频信号既保证音频质量，又无需解码端解码所有的音频信号，在声场中声源数量比较大时，与现有技术中解码所有声源信号相比，大大降低了解码端的功耗。

再一方面，本申请实施例提供另一种音频信号处理方法，图2示意的影音系统10中端到端的音频信号处理部分的编码端与解码端交互过程中，以处理声场中的音频信号。下文中描述的编码端/解码端执行某操作，可以为编码端/解码端自身执行该操作，也可以为编码端/解码端中的功能模块执行该操作，后续不再一一说明。

如图5所示，该音频信号处理方法可以包括：

S501、编码端获取收听位置。

具体的，S501与S401相同，具体实现可以参照S401，此处不再进行赘述。

可选的，本申请实施例提供的音频信号处理方法，可以仅考虑收听位置，那么在S501之后则执行S503。或者，本申请实施例提供的音频信号处理方法，可以在收听位置的基础上参考收听朝向，那么在S501之后需先执行S502再执行S503。

S502、编码端获取收听朝向。

具体的，S502与S402相同，具体实现可以参照S402，此处不再进行赘述。

S503、编码端采集声场中收听位置处所有声源对应的音频信号。

需要说明的是，当存在多个收听位置时，编码端在每个收听位置执行S503，此处仅描述一个收听位置处执行S503的过程，但并不是具体限定。

具体的，编码端通过至少一个音频信号采集装置执行S503。其中，音频信号采集装置可以为麦克风或者其他装置，本申请实施例对此不进行具体限定。

S504、编码端将采集的音频信号进行编码，以获得经过编码的音频信号。

S505、编码端确定用于指示经过编码的音频信号中满足筛选条件的音频信号的指示信息。

需要说明的是，对于筛选条件，已经在S403中进行了详细描述，此处不再进行赘述。

一种可能的实现中，该指示信息可以包括经过编码的音频信号中每个音频源信号的特征信息，其中，该特征信息包括音量信息或者音频信号对应的声源的位置信息。

具体的，编码端可以通过传感器或者其他装置采集音频信号的特征信息，本申请对于具体实现不进行限定。

其中，音量信息用于指示声源音量的大小，音量信息可以为具体的音量值，或者，音量信息也可以为音量等级，当然，音量信息也可以为其他内容，只要可以用于指示声源音量大小的信息，均属于此处描述的音量信息。

音量信号对应的声源的位置信息用于指示声源在声场中的具体位置，位置信息可以为坐标或者位置的标识，当然，位置信息也可以为其他内容，只要可以用于指示声源在声场中的具体位置的信息，均属于此处描述的位置信息。

另一种可能的实现中，该指示信息可以包括经过编码的音频信号中满足筛选条件的音频信号的标识。

其中，音频信号的标识用于唯一指示音频信号，本申请对于音频信号的标识的类型不进行具体限定。例如，音频信号的标识可以为音频信号在经过编码的音频信号中的位置或者顺序。

S506、编码端向解码端发送经过编码的音频信号。

具体的，编码端采用图2示意的影音系统10中的传输模块205向解码端发送经过编码的音频信号，该传输模块205可以为传输线或者其他，本申请实施例对此不进行具体限定。

S507、编码端向解码端发送指示信息。

需要说明的是，S506和S507可以合并执行，也可以单独执行，本申请对此不进行具体限定。当S506和S507单独执行时，对于两者的先后顺序也不进行具体限定，图5中仅为示例。

S508、解码端接收经过编码的多个音频信号。

需要说明的是，S508中解码端接收的经过编码的多个音频信号，即为S506中编码端发送的经过编码的音频信号。

其中，S508中接收的经过编码的多个音频信号，不仅包括声场中收听位置处满足筛选条件的音频信号，还包括其他不满足筛选条件的音频信号。

S509、编码端接收编码端发送的指示信息。

需要说明的是，S508和S509可以合并执行，也可以单独执行，本申请对此不进行具体限定。当S508和S509单独执行时，对于两者的先后顺序也不进行具体限定，图5中仅为示例。

S510、解码端对满足筛选条件的音频信号进行解码以得到解码信号。

在S510中，解码端根据接收的指示信息，从S508中接收的经过编码的多个音频信号中筛选，以获取收听位置处满足筛选条件的音频信号，进行解码以得到解码信号。

一种可能的实现中，当指示信息为多个音频信号中每个音频信号的特征信息时，S510中编码端根据特征信息判断每个音频信号是否满足筛选条件，筛选满足筛选条件的音频信号。

另一种可能的实现中，当指示信息为满足筛选条件的音频信号的标识时，S510中编码端筛选指示信息指示的音频信号，作为满足筛选条件的音频信号。

S511、解码端根据播放设备中的声道传输函数渲染解码信号，获取输出信号。

具体的，S511与S408相同，具体实现可以参照S408，此处不再进行赘述。

通过本申请提供的音频信号处理方法，编码端采集所有声源对应的音频信号编码发送给解码端的同时，通过指示信息向解码端指示满足筛选条件的音频信号，解码端根据编码端提供的指示信息，选择满足筛选条件的音频信号解码，只要配置保证音频信号质量的筛选条件，在声场中声源数量比较大时，音频信号的传输既保证了音频信号质量，又大大降低了解码端的功耗。

需要说明的是，本申请实施例提供的音频信号处理方法中包括的各个步骤的执行先后顺序，可以根据需求配置，附图中的执行顺序只是示例，并不是具体限定。

上述主要从各个网元之间交互的角度对本申请实施例提供的方案进行了介绍。可以理解的是，上述解码端、编码端为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。将解码端、编码端中实现上述音频信号处理方法的功能单元，称之为音频信号处理装置。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对音频信号处理装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图6示出了上述实施例中所涉及的编码端中部署的音频信号处理装置60的一种可能的结构示意图。音频信号处理装置60可以部署在影音系统10中的编码端作为功能单元，该音频信号处理装置60可以为编码端本身，也可以为编码端中的功能模块或者芯片。如图6所示，音频信号处理装置60可以包括：采集单元601、编码单元602、发送单元603。采集单元601用于执行图4中的过程S403、图5中的过程S503；编码单元602用于执行图4中的过程S404或图5中的过程S504；发送模块603用于执行图4中的过程S405或图5中的过程S506、S507。其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。当将所述信号处理装置60部署在影音系统10中的编码端时，所述采集单元601可以包括影音系统10中的编码端中的采集模块201，编码单元602可以包括影音系统10中的编码端中的音频编码模块203，发送单元603可以包括归属于影音系统10中的编码端中的传输模块205。

进一步的，如图6所示，音频信号处理装置60还可以包括接收单元604、获取单元605。获取单元605可以通过接收单元604执行图4中的过程S401、S402或图5中的过程S501、S502；或者，获取单元605可以用于执行图4中的过程S401、S402或图5中的过程S501、S502。

在采用集成的单元的情况下，图7示出了上述实施例中所涉及的音频信号处理装置70的一种可能的结构示意图。音频信号处理装置70可以部署在影音系统10中的编码端作为功能单元，该音频信号处理装置70也可以为编码端本身，或者，也可以为编码端中的功能模块或者芯片。音频信号处理装置70可以包括：处理模块701、通信模块702。处理模块701用于对音频信号处理装置70的动作进行控制管理。例如，处理模块701用于执行图4中的过程S401、S402、S403、S404，或者，图5中的过程S501、S502、S503、S504、S505；通信模块702用于执行图4中的过程S405，或图5中的过程S506、S507。音频信号处理装置70还可以包括存储模块703，用于存储音频信号处理装置70的程序代码和数据。当将所述信号处理装置70部署在影音系统10中的编码端时，所述处理模块701可以包括影音系统10中的编码端中的采集模块201、音频预处理模块202、音频编码模块203，通信模块702可以包括归属于影音系统10中的编码端中的传输模块205。

其中，处理模块701可以为图3所示的音频信号处理装置30的实体结构中的处理器301，可以是处理器或控制器。例如可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器701也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块702可以为图3所示的音频信号处理装置30的实体结构中的收发器303，通信模块702可以是通信端口，或者可以是收发器、收发电路或通信接口等。或者，上述通信接口可以通过上述具有收发功能的元件，实现与其他设备的通信。上述具有收发功能的元件可以由天线和/或射频装置实现。存储模块703可以是图3所示的音频信号处理装置30的实体结构中的存储器302。

当处理模块701为处理器，通信模块702为收发器，存储模块703为存储器时，本申请实施例图7所涉及的音频信号处理装置70可以为图3所示的音频信号处理装置30。

如前述，本申请实施例提供的音频信号处理装置60或音频信号处理装置70可以用于实施上述本申请各实施例实现的方法中编码端的功能，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请各实施例。

在采用对应各个功能划分各个功能模块的情况下，图8示出了上述实施例中所涉及的解码端中部署的音频信号处理装置80的一种可能的结构示意图。音频信号处理装置80可以部署在影音系统10中的解码端作为功能单元，该音频信号处理装置80可以为解码端本身，也可以为解码端中的功能模块或者芯片。如图8所示，音频信号处理装置80可以包括：接收单元801、解码单元802、处理单元803。接收单元801用于执行图4中的过程S406，或图5中的过程S508、S509；解码单元802用于执行图4中的过程S407、或图5中的过程S510；处理单元803用于执行图4中的过程S408、或图5中的过程S511。其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。当将所述信号处理装置80部署在影音系统10中的解码端时，所述接收单元801可以包括影音系统10中的解码端中的传输模块218，解码单元802可以包括影音系统10中的解码端中的音频解码模块207，处理单元803可以包括影音系统10中的解码端中的音频渲染模块208。

进一步的，如图8所示，音频信号处理装置80还可以包括获取单元804、发送单元805。其中，获取单元804及发送单元805用于执行图4中的过程S401a、S402a。

在采用集成的单元的情况下，图9示出了上述实施例中所涉及的解码端中部署的音频信号处理装置90的一种可能的结构示意图。音频信号处理装置90可以部署在影音系统10中的解码端作为功能单元，该音频信号处理装置90可以为解码端本身，也可以为解码端中的功能模块或者芯片。音频信号处理装置90可以包括：处理模块901、通信模块902。处理模块901用于对音频信号处理装置90的动作进行控制管理。例如，处理模块901用于执行图4中的过程S407、S408、S401a，或者，图5中的过程S510、S511；通信模块902用于执行图4中的过程S406，或图5中的过程S508、S509。音频信号处理装置90还可以包括存储模块903，用于存储音频信号处理装置90的程序代码和数据。当将所述信号处理装置90部署在影音系统10中的解码端时，所述处理模块901可以包括影音系统10中的解码端中的音频解码模块207、音频渲染模块208，通信模块902可以包括影音系统10中的传输模块218。

其中，处理模块901可以为图3所示的音频信号处理装置30的实体结构中的处理器301，可以是处理器或控制器。例如可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器901也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块902可以为图3所示的音频信号处理装置30的实体结构中的收发器303，通信模块902可以是通信端口，或者可以是收发器、收发电路或通信接口等。或者，上述通信接口可以通过上述具有收发功能的元件，实现与其他设备的通信。上述具有收发功能的元件可以由天线和/或射频装置实现。存储模块903可以是图3所示的音频信号处理装置30的实体结构中的存储器302。

当处理模块901为处理器，通信模块902为收发器，存储模块903为存储器时，本申请实施例图9所涉及的音频信号处理装置90可以为图3所示的音频信号处理装置30。

如前述，本申请实施例提供的音频信号处理装置80或音频信号处理装置90可以用于实施上述本申请各实施例实现的方法中解码端的功能，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请各实施例。

作为本实施例的另一种形式，提供一种计算机可读存储介质，其上存储有指令，该指令被执行时执行上述方法实施例中的音频信号处理方法。

作为本实施例的另一种形式，提供一种包含指令的计算机程序产品，该指令被执行时执行上述方法实施例中的音频信号处理方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频信号处理方法，其特征在于，包括：

采集收听位置处的音频信号，每个采集的音频信号有对应的声源，所述采集的音频信号至少包括了满足筛选条件的音频信号；所述收听位置为收听者所处的位置；其中，所述筛选条件包括下述条件中一项或多项：在所述收听位置处的音量大于或等于音量阈值，所述音量阈值包括根据声源与收听朝向的位置关系确定的阈值；或者，声源与所述收听位置的收听距离小于或等于预设收听距离，或者，声源处于收听朝向对应的范围内，所述收听朝向为所述收听者在收听位置面朝的方向；

将采集的音频信号进行编码，以获得经过编码的音频信号；

向解码端发送所述经过编码的音频信号。

2.根据权利要求1所述的方法，其特征在于，在所述采集收听位置处的音频信号前，所述方法还包括：

接收所述解码端发送的收听位置信息，所述收听位置信息用于指示所述收听位置。

3.根据权利要求1或2所述的方法，其特征在于，所述采集的音频信号仅包括满足筛选条件的音频信号，当所述筛选条件包括所述声源处于收听朝向对应的范围内时，在所述采集收听位置处的音频信号前，所述方法还包括：

接收所述解码端发送的收听朝向信息，所述收听朝向信息用于指示所述收听朝向。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述采集的音频信号包括了不满足所述筛选条件的音频信号，所述方法还包括：

向所述解码端发送指示信息，所述指示信息用于指示所述经过编码的音频信号中满足所述筛选条件的音频信号。

5.根据权利要求4所述的方法，其特征在于，所述指示信息包括：

所述经过编码的音频信号中每个音频信号的特征信息；其中，所述特征信息包括音量信息或者音频信号对应的声源的位置信息；

或者，

所述经过编码的音频信号中满足筛选条件的音频信号的标识。

6.一种音频信号处理方法，其特征在于，包括：

接收经过编码的多个音频信号，所述多个音频信号是收听位置处的音频信号，每个音频信号有对应的声源，所述多个音频信号至少包括满足筛选条件的音频信号；所述收听位置为收听者所处的位置；其中，所述筛选条件包括下述条件中一项或多项：在所述收听位置处的音量大于或等于音量阈值，所述音量阈值包括根据声源与收听朝向的位置关系确定的阈值；或者，声源与所述收听位置的收听距离小于或等于预设收听距离，或者，声源处于收听朝向对应的范围内，所述收听朝向为所述收听者在收听位置面朝的方向；

对满足所述筛选条件的音频信号进行解码以得到解码信号；

根据播放设备中的声道传输函数渲染所述解码信号，获取输出信号。

7.根据权利要求6所述的方法，其特征在于，在所述接收经过编码的多个音频信号前，所述方法还包括：

向编码端发送收听位置信息，以使所述编码端根据所述收听位置信息获取所述经过编码的多个音频信号，所述收听位置信息用于指示所述收听位置。

8.根据权利要求6或7所述的方法，其特征在于，所述多个音频信号包括了不满足所述筛选条件的音频信号，所述对满足所述筛选条件的音频信号进行解码以得到解码信号前，所述方法还包括：

接收编码端发送的指示信息，所述指示信息用于指示所述多个音频信号中满足所述筛选条件的音频信号；

所述对满足所述筛选条件的音频信号进行解码以得到解码信号，包括：

根据所述指示信息，从所述多个音频信号中筛选出满足所述筛选条件的音频信号；

对筛选出的满足所述筛选条件的音频信号进行解码以得到所述解码信号。

9.根据权利要求8所述的方法，其特征在于，所述指示信息包括：

所述多个音频信号中每个音频信号的特征信息，所述特征信息包括音量信息或者音频信号对应的声源的位置信息；

或者，

所述多个音频信号中满足所述筛选条件的音频信号的标识。

10.根据权利要求6-9任一项所述的方法，其特征在于，所述多个音频信号仅包括满足所述筛选条件的音频信号，当所述筛选条件包括声源处于收听朝向对应的范围内时，在所述接收经过编码的多个音频信号前，所述方法还包括：

向编码端发送收听朝向信息，以使所述编码端根据所述朝向信息获取所述经过编码的多个音频信号，所述收听朝向信息用于指示所述收听朝向。

11.根据权利要求6-10任一项所述的方法，其特征在于，所述声道传输函数包括：

头部相关传输HRTF函数，或者，双耳房间冲激响应BRIR函数。

12.一种音频信号处理装置，其特征在于，包括：

采集单元，用于采集收听位置处的音频信号，每个采集的音频信号有对应的声源，所述采集的音频信号至少包括了满足筛选条件的音频信号；所述收听位置为收听者所处的位置；其中，所述筛选条件包括下述条件中一项或多项：在所述收听位置处的音量大于或等于音量阈值，所述音量阈值包括根据声源与收听朝向的位置关系确定的阈值；或者，声源与所述收听位置的收听距离小于或等于预设收听距离，或者，声源处于收听朝向对应的范围内，所述收听朝向为所述收听者在收听位置面朝的方向；

编码单元，用于将采集的音频信号进行编码，以获得经过编码的音频信号；

发送单元，用于向解码端发送所述经过编码的音频信号。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

接收单元，用于接收所述解码端发送的收听位置信息，所述收听位置信息用于指示所述收听位置。

14.根据权利要求12或13所述的装置，其特征在于，所述采集的音频信号仅包括满足筛选条件的音频信号，当所述筛选条件包括所述声源处于收听朝向对应的范围内时，所述装置还包括：

接收单元，用于接收所述解码端发送的收听朝向信息，所述收听朝向信息用于指示所述收听朝向。

15.根据权利要求12-14任一项所述的装置，其特征在于，所述采集的音频信号包括了不满足所述筛选条件的音频信号，所述发送单元还用于：

16.根据权利要求15所述的装置，其特征在于，所述指示信息包括：

或者，

17.一种音频信号处理装置，其特征在于，包括：

接收单元，用于接收经过编码的多个音频信号，所述多个音频信号是收听位置处的音频信号，每个音频信号有对应的声源，所述多个音频信号至少包括满足筛选条件的音频信号；所述收听位置为收听者所处的位置；其中，所述筛选条件包括下述条件中一项或多项：在所述收听位置处的音量大于或等于音量阈值，所述音量阈值包括根据声源与收听朝向的位置关系确定的阈值；或者，声源与所述收听位置的收听距离小于或等于预设收听距离，或者，声源处于收听朝向对应的范围内，所述收听朝向为所述收听者在收听位置面朝的方向；

解码单元，用于对满足所述筛选条件的音频信号进行解码以得到解码信号；

渲染单元，用于根据播放设备中的声道传输函数，渲染所述解码单元得到的所述解码信号，获取输出信号。

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

发送单元，用于向编码端发送收听位置信息，以使所述编码端根据所述收听位置信息获取所述经过编码的多个音频信号，所述收听位置信息用于指示所述收听位置。

19.根据权利要求17或18所述的装置，其特征在于，所述多个音频信号包括了不满足所述筛选条件的音频信号，所述接收单元还用于：

所述解码单元具体用于：根据所述接收单元接收的所述指示信息，从所述多个音频信号中筛选出满足所述筛选条件的音频信号，对筛选出的满足所述筛选条件的音频信号进行解码以得到所述解码信号。

20.根据权利要求19所述的装置，其特征在于，所述指示信息包括：

或者，

所述多个音频信号中满足所述筛选条件的音频信号的标识。

21.根据权利要求17-20任一项所述的装置，其特征在于，所述多个音频信号仅包括满足所述筛选条件的音频信号，当所述筛选条件包括声源处于收听朝向对应的范围内时，所述装置还包括发送单元，用于：

22.根据权利要求17-21任一项所述的装置，其特征在于，所述声道传输函数包括：

头部相关传输HRTF函数，或者，双耳房间冲激响应BRIR函数。

23.一种音频信号处理装置，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述处理器执行所述程序时实现权利要求1-11中任一项所述的音频信号处理方法。

24.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-11中任一项所述的音频信号处理方法。