CN112333602A

CN112333602A - 信号处理方法、信号处理设备、计算机可读存储介质及室内用播放系统

Info

Publication number: CN112333602A
Application number: CN202011250731.3A
Authority: CN
Inventors: 杜艳斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-02-05
Anticipated expiration: 2040-11-11
Also published as: CN112333602B

Abstract

本申请提供一种信号处理方法、一种信号处理设备、一种室内用播放系统以及一种计算机可读存储介质。所述信号处理方法用于对目标下行音频信号进行处理，包括：基于设置在目标空间内的麦克风阵列所采集的声音信号、获取所述目标空间内的声场特性；获取所述目标下行音频信号的音源特性；以及根据所述声场特性和所述音源特性，确定所述目标下行音频信号不同频段对应的增益系数，从而增大所述目标下行音频信号在所述目标空间内播放时的信噪比。所述室内用播放系统包括：本申请所述信号处理设备；设置在所述目标空间内的用于播放所述目标下行音频信号的扬声器；以及设置在所述目标空间内的用于采集所述声音信号的麦克风阵列。

Description

信号处理方法、信号处理设备、计算机可读存储介质及室内用播放系统

技术领域

本申请涉及音频信号处理领域，特别涉及一种信号处理方法、一种信号处理设备、一种计算机可读存储介质以及一种播放系统。

背景技术

远程会议是当今企事业单位一项必不可少的事务。对于会议终端设备来说，通话的语音质量是需要关注的核心。通话语音质量的好坏直接影响到会议的效果。

真实会议场景中有很多因素会影响到通话的语音质量。远程会议中的音频信号按照路径可以分为上行通路和下行通路。其中，上行通路为本端音频信号通过麦克风拾音后经网络发送给对端；下行通路为对端音频信号经网络到达本机后通过本端终端设备的扬声器系统播放。也就是说，上行通路影响对端听感，下行通路影响本端听感。相对于上行通路，普通用户对下行通路感知更加直观，因此下行通路音频信号处理的优劣直接决定了终端设备的用户体验。

下行通路语音质量的影响因素主要包括：音源质量、房间声场特性、背景干扰。音源质量的主要影响因素为对端设备上行通路的语音损伤、网络传输链路、语音编解码。房间声场特性指设备所在空间的声场传递特性。房间的大小、形状、桌椅摆放以及墙体材料等都会影响空间声场。会议室通常装修普遍比较简单，常采用吸声性能较差的硬质材料，声音容易产生混响。背景干扰指会议室中存在的声音干扰，包括空调声、窗户外的马路噪声、桌椅的撞击声、其他参会人的语音等。这些声音相对主讲人来说都是干扰，也会影响本端与会人对通话语音质量的主观感知。

面对下行通路语音质量问题，与会人的语音质量提升手段非常有限，比如调节会议终端设备的扬声器音量、抱怨网络质量差、提醒对方靠近通话设备等。这些方法只能缓解部分语音质量问题，大部分的问题需要改进终端设备和算法来解决。

发明内容

为解决上述技术问题，本申请提供一种信号处理方法，用于对目标下行音频信号进行处理、以增大所述目标下行音频信号在目标空间内播放时的信噪比，包括：基于设置在所述目标空间内的麦克风阵列所采集的声音信号、获取所述目标空间内的声场特性；获取所述目标下行音频信号的音源特性；以及根据所述声场特性和所述音源特性，确定所述目标下行音频信号不同频段对应的增益系数，从而增大所述目标下行音频信号在所述目标空间内播放时的信噪比。

在一些实施例中，其中，所述声场特性包括：所述目标空间内的若干波束方向上的混响特性，其中，所述若干波束方向同若干个波束信号依次对应；所述若干波束方向上的噪声；以及在所述目标空间内的声源信息。

在一些实施例中，其中，所述基于设置在所述目标空间内的麦克风阵列所采集的声音信号、获取所述目标空间内的声场特性包括，对所述若干个波束信号中的每一个波束信号：获取所述波束信号中的没有上行语音信号和下行语音信号的第一信号片段；获取所述波束信号中的没有上行语音信号、且有下行语音信号的第二信号片段；获取所述波束信号中的有上行语音信号、且没有下行语音信号的第三信号片段；以及基于已播放的下行音频信号对所述第二信号片段进行滤波获取同所述第二信号片段对应的第二混响数据，并将所述第二混响数据作为所述目标下行音频信号在所述波束信号的波束方向上的混响特性。

在一些实施例中，其中，所述基于设置在所述目标空间内的麦克风阵列所采集的声音信号、获取所述目标空间内的声场特性包括：对所述若干个波束信号中的每一个波束信号，获取所述波束信号中的没有上行语音信号和下行语音信号的第一信号片段，获取所述波束信号中的没有上行语音信号、且有下行语音信号的第二信号片段，以及获取所述波束信号中的有上行语音信号、且没有下行语音信号的第三信号片段；基于各波束信号的第三信号片段获取第一噪声信号；以及对所述若干个波束信号中的每一个波束信号，基于所述第一信号片段、所述第二信号片段、所述第三信号片段以及所述第一噪声信号，获取所述波束信号的波束方向上的第二噪声信号。

在一些实施例中，其中，所述音源特性包括所述目标下行音频信号的音量特征和频率特征。

在一些实施例中，其中，所述获取所述目标下行音频信号的音源特性包括：根据所述目标下行音频信号的频率特征对所述目标下行音频信号进行分类；以及根据所述目标下行音频信号的频率特征和音量特征，获取所述目标下行音频信号的质量值。

在一些实施例中，其中，所述音量特征包括：所述目标下行音频信号在时域的整体音量；以及所述目标下行音频信号在频域的子带音量。

在一些实施例中，其中，所述根据所述声场特性和所述音源特性、确定所述目标下行音频信号不同频段对应的增益系数包括：根据所述声源信息以及各波束方向上的噪声，确定所述目标下行音频信号在目标波束方向上的综合噪声的频谱，其中，所述声源信息包括目标声源的位置信息，所述目标波束方向覆盖所述目标声源；根据所述声源信息以及各波束方向上的混响，确定所述目标下行音频信号在所述目标波束方向上的综合混响的频谱；根据所述综合噪声的频谱、所述综合混响的频谱、以及所述目标下行音频信号的频谱，确定所述目标下行音频信号不同频段对应的增益系数。

在一些实施例中，其中，所述根据所述声源信息以及各波束方向上的噪声，确定所述目标下行音频信号在目标波束方向上的综合噪声的频谱包括：将各波束方向上的噪声信号加权叠加获得所述综合噪声信号。

在一些实施例中，其中，所述根据所述声源信息以及各波束方向上的混响，确定所述目标下行音频信号在所述目标波束方向上的综合混响的频谱包括：根据所述目标下行音频信号在各波束方向上的混响信号以及所述声源信息，确定所述目标下行音频信号在若干第一波束方向上的第一混响，其中，所述第一波束方向覆盖至少一个声源；对同所述若干第一波束方向对应的若干第一波束信号中的每一个第一波束信号，计算所述第一波束信号的混响频点；以及将所述若干个第一波束信号中混响频点最大的波束信号的混响作为所述综合混响。

在一些实施例中，其中，所述根据所述综合噪声的频谱、所述综合混响的频谱、以及所述目标下行音频信号的频谱，确定所述目标下行音频信号不同频段对应的增益系数包括：根据所述音源特性和所述综合混响确定所述目标下行音频信号在所述目标波束方向上的目标混响，并基于所述目标混响确定所述目标下行音频信号不同频段对应的初步增益系数；以及根据所述综合噪声的频谱调节所述初步增益系数，进而确定所述目标下行音频信号不同频段对应的增益系数。

在一些实施例中，所述的信号处理方法，还包括：获取用于播放所述目标下行音频信号的目标扬声器的最佳频率响应范围；以及根据所述最佳频率响应范围调整所述增益系数。

在一些实施例中，其中，所述声音信号包括：已播放的下行音频信号的直达声和混响声；所述目标空间内的噪声；以及位于所述目标空间内的声源发出的上行语音的直达声和混响声。

在一些实施例中，其中，所述麦克风阵列包括若干个单指向麦克风，所述若干个单指向麦克风分别指向所述若干个波束方向，以及所述声音信号包括所述若干个波束信号。

在一些实施例中，其中，所述麦克风包括若干个全指向麦克风；以及所述基于设置在所述目标空间内的麦克风阵列所采集的声音信号、获取所述目标空间内的声场特性包括：根据所述声音信号和波束形成算法生成所述若干个波束信号、并基于所述若干个波束信号获取所述目标空间内的声场特性。

在一些实施例中，其中，所述根据所述声场特性和所述音源特性、确定所述目标下行音频信号不同频段对应的增益系数、从而增大所述目标下行音频信号在所述目标空间内播放时的信噪比包括：根据所述声场特性和所述音源特性、确定所述目标下行音频信号不同频段对应的增益系数；以及根据所述增益系数，确定所述目标下行音频信号的音量。

本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时指示所述处理器执行本申请所述的信号处理方法的步骤。

本申请还提供一种信号处理设备，包括存储器和处理器，所述存储器存储有至少一个指令集，所述处理器同所述存储器通信连接，当所述信号处理设备运行时，所述处理器读取所述至少一个指令集并执行本申请所述的信号处理方法的步骤。

本申请还提供一种室内用播放系统，包括：本申请所述的信号处理设备；设置在所述目标空间内的用于播放所述目标下行音频信号的扬声器；以及设置在所述目标空间内的用于采集所述声音信号的麦克风阵列。

本申请所述信号处理方法和信号处理设备，通过音源质量评估模块可以获得下行语音的当前质量，通过声场特性分析模块中的房间混响评估模块和房间噪声检测模块可以获得各拾音方向的混响和噪声情况，通过声场特性分析模块中的与会人方向检测模块可以获得目标人位置。之后，语音控制模块根据目标人位置情况获得综合的混响和噪声信号频谱分布，根据当前下行语音频谱分布，结合终端设备的扬声器最佳频率响应范围，适当提升下行语音各频段的语音能量，达到提升下行语音信噪比的目的，从而提升目标人的主观听感。

本申请所述的室内用播放系统，依托于扬声器和麦克风阵列的设计布局，通过实时监控目标人方向上的噪声和混响特性，自适应自反馈的调整下行语音的各频带能量，达到提升目标人主观听感的目的。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请实施例提供的一种播放系统的应用场景示意图；

图2示出了根据本申请实施例提供的一种播放系统的示意图；

图3示出了根据本申请实施例提供的一种信号处理设备的硬件结构示意图；

图4示出了根据本申请实施例提供的一种信号处理方法的流程图；

图5示出了根据本申请实施例提供的一种混响评估模块对每个波束内的信号进行处理获取目标下行音频信号在每个波束方向上的混响特性的流程图；

图6示出了根据本申请实施例提供的一种基于所述声音信号获取各波束方向上的噪声特性的流程图；以及

图7示出了根据本申请实施例提供的一种根据所述声场特性和所述音源特性确定所述目标下行音频信号不同频段对应的增益系数的流程图。

具体实施方式

以下描述提供了本申请的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本申请中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本申请不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。

考虑到以下描述，本申请的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本申请的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本申请的范围。

以下描述可以显著改进本申请的这些和其他特征，以及结构的相关元件的操作和功能，以及组件的组合和制造的经济效率。所有这些都参考附图形成本申请的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本申请的范围。还应理解，附图未按比例绘制。

为了提升会议系统中下行通路的语音质量，本申请提供一种信号处理方法、一种信号处理设备、一种计算机可读存储介质以及一种室内用播放系统(以下简称播放系统)。

图1示出了根据本申请实施例提供的一种播放系统的应用场景示意图。参考图1，所述播放系统可以设置在目标空间10内。作为示例，所述目标空间10可以是封闭或者半封闭的空间。作为示例，所述目标空间10可以包括，但不限于，会议室，视听室，课堂，演播厅，等等。例如，所述播放系统可以设置在会议室内，所述播放系统可以是一种会议终端系统，作为示例，所述会议终端系统可以开展远程会议。

为了便于描述，在本申请下面的描述中，以会议室为例描述所述目标空间的结构和功能，以会议终端系统为例描述所述播放系统的结构和功能。

图2示出了根据本申请实施例提供的一种播放系统100的示意图。具体地，播放系统100可以包括扬声器110、麦克风阵列120以及信号处理设备200。

扬声器110可以播放目标下行音频信号。所述目标下行音频信号为下行音频信号。所述下行音频信号指的是下行通路的音频信号。以会议终端系统为例，所述目标下行音频信号可以是对端传输过来的音频信号。所述目标下行音频信号可以包括，但不限于，待播放的下行音频信号，正在播放的音频信号。所述目标下行音频信号可以包括，但不限于，具有特定数据格式的视频文件、音频文件、或者可以通过特定途径转化为声音的数据或文件。所述目标下行音频信号可以来自于播放系统100本身的存储组件，也可以来自于播放系统100外的信息产生、存储或者传递系统。所述目标下行音频信号可以包括电信号、光信号、磁信号、机械信号等一种或者多种的组合。以远程会议终端系统为例，所述目标下行音频信号可以为从远端传递过来的电信号。所述目标下行音频信号可以来自一个信号源或者多个信号源。所述多个信号源可以相关也可以不相关。

在一些实施例中，播放系统100可以通过多种不同的方式获取所述目标下行音频信号。所述目标下行音频信号的获取可以是有线的或者无线的，可以是实时的或者延时的。例如，播放系统100可以通过有线或者无线的方式接收所述目标下行音频信号，也可以直接从存储介质上获取数据，产生所述目标下行音频信号。又例如，播放系统100中可以包括具有声音采集功能的组件，通过拾取环境中的声音并将所述声音的机械振动转换成电信号，通过放大处理器后获得满足特定要求的电信号。在一些实施例中，所述有线连接可以包括金属电缆、光学电缆或者金属和光学的混合电缆，例如，同轴电缆、通信电缆、软性电缆、螺旋电缆、非金属护皮电缆、金属护皮电缆、多芯电缆、双绞线电缆、带状电缆、屏蔽电缆、电芯电缆、双股电缆、平行双芯导线、双绞线等一种或多种的组合。以上描述的例子仅作为方便说明只用，有线连接的媒介还可以是其他类型，例如，其他电信号或光信号等的传输载体。所述无线连接可以包括无线电通信、自由空间光通信、声通讯、和电磁感应等。其中无线电通讯可以包括IEEE802.11系列标准、IEEE802.15系列标准(例如蓝牙技术和蜂窝技术等)、第一代移动通信技术、第二代移动通信技术(例如FDMA、TDMA、SDMA、CDMA、和SSMA等)、通用分组无线服务技术、第三代移动通信技术(例如CDMA2000、WCDMA、TD-SCDMA、和WiMAX等)、第四代移动通信技术(例如TD-LTE和FDD-LTE等)、卫星通信(例如GPS技术等)、近场通信(NFC)和其它运行在ISM频段(例如2.4GHz等)的技术；自由空间光通信可以包括可见光、红外线讯号等；声通讯可以包括声波、超声波讯号等；电磁感应可以包括近场通讯技术等。以上描述的例子仅作为方便说明之用，无线连接的媒介还可以是其它类型，例如，Z-wave技术、其它收费的民用无线电频段和军用无线电频段等。例如，作为本申请的一些应用场景，播放系统100可以通过蓝牙技术从其他设备获取所述目标下行音频信号。

扬声器110的数量可以是一个或者多个。扬声器110可以是一种换能装置。在一些实施例中，扬声器110可以将所述目标下行音频信号转换为机械振动。进一步地，所述机械振动产生声波。位于所述目标空间内的用户(比如会议室内的与会人)就可以听到声音。作为示例，扬声器110可以包括，但不限于，气传导扬声器，骨传导扬声器，骨导扬声器和气导扬声器的结合。作为示例，扬声器110可以包括但不限于，动圈式扬声器，电容式扬声器，电磁式扬声器，压电式扬声器，等等。

参考图1，扬声器110设置在目标空间10内。以会议室为例：在一些实施例中，扬声器110可以设置在会议室屏幕的附近；在一些实施例中，扬声器110可以设置在会议室内与会人的附近。扬声器110发声的方向可以是任何方向。为了提高发声效果，可以将扬声器110的发声方向设置为垂直朝上或者带一定角度。

继续参考图1，麦克风阵列120包括多个麦克风122。麦克风阵列120中麦克风122的数量可以是2个或2个以上。为了方便描述，图1中示出了4个麦克风122。麦克风阵列120可以安装在所述目标空间内。麦克风阵列120可以包括多个麦克风122。多个麦克风122可以呈预设阵列形状分布，运行时可以采集目标空间10内多个方向的声音信号。所述预设阵列形状可以是直线阵列，也可以是环形阵列，还可以是矩形阵列，等等。为了方便描述，图1中示出的麦克风阵列120中的多个麦克风122分布在目标空间10的各个角。

麦克风122可以是单指向麦克风，也可以是全指向麦克风。多个麦克风122可以均为单指向麦克风，也可以均为全指向麦克风，也可以是单指向麦克风和全指向麦克风的组合。在一些实施例中，麦克风122包括单指向麦克风；所述多个麦克风122分别指向不同的方向、并采集多个方向的波束。在一些实施例中，麦克风122包括全指向麦克风；信号处理设备200可以根据麦克风阵列120采集的声音信号和波束形成算法生成指向不同方向的波束。

多个麦克风122可以指向不同的拾音方向。所述拾音方向可以是一个角度范围，即拾音范围。当声源处于所述多个麦克风122中的一个麦克风122的拾音范围之内时，其发出的或者传播的沿着所述角度范围进入当前麦克风122的声音信号就是当前麦克风122采集的声音信号。多个麦克风122可以拾取不同拾音范围内的声音信号。多个麦克风122的组合可以覆盖更广的拾音范围。根据多个麦克风122的阵列形状不同，麦克风阵列120所能拾取的拾音范围也不同。作为示例，播放系统100中的麦克风阵列120的拾音范围可以覆盖目标空间10的各个方向，也就是，麦克风阵列120的拾音范围可以360°覆盖目标空间10。这样，麦克风阵列120就可以拾取整个目标空间10内的声音。

区别于音乐厅等演出场所，对于会议场景来说，与会人对音源的声重放特性要求不高，通常，与会人希望扬声器播放的下行音频具有较高的信噪比和稳定的状态。对于会议场景，可以通过提高下行语音的信噪比来提升与会人听感。根据前文的描述可知，会议终端系统中下行通路的语音质量具有时变特点。很多因素都会引起下行通路语音质量的变化。作为示例，所述因素可以包括，但不限于，对端会议环境、远端人说话音量、远端人与设备间的距离、网络波动等因素。一套固定的下行语音播放参数无法满足下行语音的时变特征，因此，需要不断调整下行语音播放参数以使下行语音保持在一个基本稳定的状态。

继续参考图2，信号处理设备200可以调节所述目标下行音频信号的播放参数，以使扬声器110输出的声波具有较高的质量。在一些实施例中，信号处理设备200可以是主处理芯片。在一些实施例中，信号处理设备200是专用的数字信号处理芯片。

作为示例，图3示出了根据本申请实施例提供的一种信号处理设备200的硬件结构示意图。信号处理设备200包括至少一个存储器203和至少一个处理器202。在一些实施例中，信号处理设备200还可以包括通信端口250和内部通信总线201。同时，信号处理设备200还可以包括I/O组件260。

内部通信总线201可以连接不同的系统组件，包括存储器203和处理器202。

I/O组件260支持信号处理设备200和其他组件之间的输入/输出。

存储器203可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘232、只读存储器(ROM)234或随机存取存储器(RAM)236中的一种或多种。存储器203还包括存储在所述数据存储装置中的至少一个指令集。所述指令集是计算机程序代码，所述计算机程序代码可以包括执行本申请提供的数字资源账户绑定的方法的程序、例程、对象、组件、数据结构、过程、模块等等。

通信端口250用于信号处理设备200同外界的数据通讯。比如，信号处理设备200可以通过通信端口250连接网络400，进而接收来自于用户10的终端设备100发送的绑定请求。

至少一个处理器202同至少一个存储器203通过内部通信总线201进行通讯。至少一个处理器202用以执行上述至少一个指令集，当至少一个处理器202执行上述至少一个指令集时，信号处理设备200实施本申请提供的信号处理方法。处理器202可以执行所述信号处理方法包含的部分或者全部步骤。处理器202可以是一个或多个处理器的形式，在一些实施例中，处理器202可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中央处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本申请中信号处理设备200中仅描述了一个处理器202。然而，应当注意，本申请中信号处理设备200还可以包括多个处理器，因此，本申请中披露的操作和/或方法步骤可以如本申请所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本申请中信号处理设备200的处理器202执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器202联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

作为示例，图4示出了根据本申请实施例提供的一种信号处理方法S100的流程图。流程S100可以作为至少一个指令集存储在信号处理设备200中的非临时性存储介质(比如存储器203)中，用于对目标下行音频信号进行处理。至少一个处理器202同所述至少一个非临时性存储介质通信连接，其中当所述信号处理设备200运行时，所述至少一个处理器202读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行流程S100中的步骤。

以下呈现的所示流程S100的操作，旨在是说明性的而非限制性的。在一些实施例中，流程S100在实现时可以添加一个或多个未描述的额外操作，和/或删减一个或多个此处所描述的操作。此外，图4中所示的和下文描述的操作的顺序并不对此加以限制。

下面将结合图2所示的信号处理设备200的结构框图对图4所示的流程S100进行介绍。

S110，基于设置在目标空间内的麦克风阵列所采集的声音信号、获取所述目标空间内的声场特性。

参考图2，信号处理设备200可以包括声场特性分析模块230。声场特性分析模块230同麦克风122连接。声场特性分析模块230可以接收来自麦克风122所采集的声音信号、并基于设置在所述目标空间内的麦克风阵列所采集的声音信号获取所述目标空间内的声场特性。

根据前文的描述，麦克风阵列120设置在目标空间10内并且可以采集目标空间10内的声音信号。

在一些实施例中，所述声音信号可以包括已播放的下行音频信号的直达声和混响声。比如，麦克风阵列120拾取的声音信号可以包括扬声器110的发声的直达声和混响声。

在一些实施例中，所述声音信号可以包括所述目标空间内的噪声。

在一些实施例中，所述声音信号可以包括位于所述目标空间内的声源发出的上行语音的直达声和混响声。在一些实施例中，所述声源可以包括点声源。以会议室为例，所述声源可以包括位于所述会议室内的能够发声的人。比如，麦克风阵列120拾取的声音信号可以包括目标空间10内的用户(比如参会人)的发声。比如，当某参会人讲话时，覆盖讲话范围的麦克风122就可以拾取该参会人讲话的声音。当然，除了人之外，所述声源也可以包括以其他方式发声的物，比如，由与会人持有并可播放特定的声音的手机或扬声器等电子设备。在一些实施例中，所述声源可以包括可活动声源(比如可以活动的人)。

在一些实施例中，所述声场特性可以包括：所述目标空间内的若干波束方向上的混响特性；所述若干波束方向上的噪声；以及在所述目标空间内的声源信息。

所述若干波束方向同若干个波束信号依次对应。在一些实施例中，所述麦克风阵列包括若干个单指向麦克风，所述若干个单指向麦克风分别指向所述若干个波束方向，以及所述声音信号包括所述若干个波束信号。

在一些实施例中，所述麦克风包括若干个全指向麦克风。信号处理设备200可以根据所述声音信号和波束形成算法生成所述若干个波束信号、并基于所述若干个波束信号获取所述目标空间内的声场特性。作为示例，所述波束形成算法可以包括，但不限于，延迟相加算法，超指向算法等。

参考图2，声场特性分析模块230可以包括波束声源类型估计模块、混响评估模块、噪声检测模块、与会人方向估计模块。

波束声源类型估计模块可以对每个波束内的信号分类。作为示例，所述类别可以包括，但不限于，上行语音，上行点噪声，上行平稳噪声，下行语音等。

混响评估模块可以对每个波束内的信号进行处理获取目标下行音频信号在每个波束方向上的混响特性。

作为示例，图5示出了根据本申请实施例提供的一种混响评估模块对每个波束内的信号进行处理获取目标下行音频信号在每个波束方向上的混响特性的流程S200的示意图。图5示出的是对单个的波束信号进行处理的过程，对于麦克风阵列采集的若干个波束中的每一个波束，混响评估模块对所述若干个波束中的每一个波束均进行同样的处理过程。

根据前面的描述，波束声源类型估计模块将每个波束内的信号进行了分类。所述类别可以包括，但不限于，上行语音，上行点噪声，上行平稳噪声，下行语音等。所述上行语音指的是与会人发出的声音。所述下行语音指的是扬声器发出的声音。

因此，通过发声方式组合可以区分出房间内的音频信号。作为示例，下面列举出三种发声方式。发声方式a：与会人不发声且扬声器不发声。此时，麦克风阵列拾取各方向的噪声。发声方式b：与会人不发声且扬声器发声。此时，麦克风阵列拾取各方向的噪声和下行语音的房间混响特性。发声方式c：与会人发声且扬声器不发声。此时，麦克风阵列拾取各方向的噪声和上行语音的房间混响特性。综合利用发声方式a对应的声音信号和发声方式b对应的声音信号即可较准确的估计出各拾音方向在当前下行语音情况下的房间混响特性。

S210，获取所述波束信号中的没有上行语音信号和下行语音信号的第一信号片段。

S220，获取所述波束信号中的没有上行语音信号、且有下行语音信号的第二信号片段。

S230，获取所述波束信号中的有上行语音信号、且没有下行语音信号的第三信号片段。

S240，基于已播放的下行音频信号对所述第二信号片段进行滤波获取同所述第二信号片段对应的第二混响数据，并将所述第二混响数据作为所述目标下行音频信号在所述波束信号的波束方向上的混响特性。

所述第一信号片段指的是同扬声器不发声且与会人不发声(即发声方式a)对应的信号片段。所述第二信号片段对应的是下行语音单讲段(即发声方式b对应的信号片段)。所述第三信号片段对应的是上行语音单讲段(即发声方式对应的信号片段)。

混响评估模块获取所述下行语音单讲段的信号，并在下行语音单讲段进行混响估计，估计内容包括混响时长、混响强度，估计方法为将下行语音历史数据最为参考信号滤波当前音频信号，当滤波残留最小时计算时长和信号强度。混响评估模块将上述步骤在各波束方向内处理，从而得到各方向的混响估计数据。

噪声检测模块可以对各波束内的信号进行处理获取目标下行音频信号在每个波束方向上的噪声特性。

作为示例，图6示出了根据本申请实施例提供的一种基于所述声音信号获取各波束方向上的噪声特性的流程S300的示意图。下面将结合图2所示的信号处理设备200的结构框图对图6所示的流程S300进行介绍。

S310，对所述若干个波束信号中的每一个波束信号，获取所述波束信号中的没有上行语音信号和下行语音信号的第一信号片段，获取所述波束信号中的没有上行语音信号、且有下行语音信号的第二信号片段，以及获取所述波束信号中的有上行语音信号、且没有下行语音信号的第三信号片段。

根据前文的描述，通过发声方式组合可以区分出房间内的音频信号。利用麦克风阵列形成的波束，可以区分房间内不同区域的噪声情况。

S320，基于各波束信号的第三信号片段获取第一噪声信号。

S330，对所述若干个波束信号中的每一个波束信号，基于所述第一信号片段、所述第二信号片段、所述第三信号片段以及所述第一噪声信息，获取所述波束信号的波束方向上的第二噪声信号。

所述第一信号片段指的是同扬声器不发声且与会人不发声(即发声方式a)对应的信号片段。所述第二信号片段对应的是下行语音单讲段(即发声方式b对应的信号片段)。所述第三信号片段对应的是上行语音单讲段(即发声方式对应的信号片段)。所述第一噪声信息可以指短时突发噪声，所述第二噪声信息可以指长时平稳噪声。

噪声检测模块在上行单讲段跟踪各种短时突发噪声，比如桌面敲击声、摩擦声、撞击声等，这类声音持续时间短且由点声源产生，在特定波束内信号强度明显高于其它波束，可以通过各波束间滤波方式消除；最后，从上行信号中将语音信号和短时突发噪声消除后，剩余的即为长时平稳噪声，这类噪声可能为点声源产生或者是无明显方向性的噪声，长时点噪声通过噪声时长与短时突发噪声区分。

与会人方向估计模块可以对各波束内的信号进行处理获取所述目标空间内的声源信息。作为示例，所述声源可以是会议室内的与会人。与会人方向估计模块可以利用麦克风阵列拾取的波束，通过前文所述的发声方式组合定位各拾音方向是否存在与会人，再通过长时跟踪统计即可估计出房间内的与会人数量和在房间内的分布。

具体地，通过声源类型估计模块区分上行语音所处波束方向。具体来说，在下行扬声器不发声时检测上行语音段，由于人声为点声源，因此在不同波束内信号能量差异较明显，可以通过滤波方式将各方向内的语音分离；其次，当同一个波束内有多人时，在某一时间段内可能仅一个人讲话，也可能2或多人一起讲话，针对这种情况可以通过在较长时间段内统计语音频率分布特性进行区分。在本申请下面的描述中，仅按照波束统计，也就是说，使用波束数量表示与会人数量，及时一个波束内存在多个人，我们也将其看成一个与会人；最后，根据与会人数量及分布生成不同的组合模式。

综上，信号处理设备200基于设置在所述目标空间内的麦克风阵列所采集的声音信号获得了所述目标空间内的声场特性。

S120，获取所述目标下行音频信号的音源特性。

继续参考图2，信号处理设备200还可以包括音源特性分析模块210。音源特性分析模块210被配置为分析所述目标下行音频信号的音源特性。作为示例，所述音源特性可以包括所述待播放音频信号的音量特征和频率特征。在一些实施例中，所述音源特性还包括所述待播放音频信号中的噪声。

在一些实施例中，所述分析所述目标下行音频信号的音源特性包括：所述音源特性分析模块根据所述待播放音频信号的频率特征对所述待播放音频信号进行分类；以及所述音源特性分析模块根据所述待播放音频信号的频率特征和音量特征对所述待播放音频的质量进行打分。在一些实施例中，所述音量特征包括：所述待播放音频信号在时域的整体音量；以及所述待播放音频信号在频域的子带音量。

具体地，音源特性分析模块210可以包括音量分析模块、频谱分布分析模块、噪声估计模块、语音质量打分模块等。

参考图2，在接收到从远端传输过来的下行音频信号后，信号处理设备200对该下行音源信号进行分帧和FFT处理，音量分析模块在时域统计所述目标下行音频信号的整体音量，在频域统计多子带的子带音量。频谱分析模块基于频点能量或子带能量统计信号的长时和短时频率分布，然后与预存的标准模板比对，从而确定音源可能的分类。其中，标准模板通过离线生成，可以基于场景音频数据通过机器学习的方式训练或者通过经验数据手工设置。噪声估计模块用于评估声音信号中的噪声部分，估计方法为基于深度学习的单通道降噪或者传统基于滤波的单通道降噪。语音质量打分模块用于综合评估声音信号中语音部分的类型和质量，并给出一个得分。

S130，根据所述声场特性和所述音源特性，确定所述目标下行音频信号不同频段对应的增益系数。

参考图2，信号处理设备200还可以包括语音控制模块220。语音控制模块220可以根据所述声场特性和所述音源特性确定所述目标下行音频信号在其各频率范围的增益系数。

作为示例，图7示出了根据本申请实施例提供的一种根据所述声场特性和所述音源特性确定所述目标下行音频信号各频段对应的增益系数的流程S400的示意图。

S410，根据所述声源信息以及各波束方向上的噪声，确定所述目标下行音频信号在目标波束方向上的综合噪声的频谱。

所述声源信息包括目标声源的位置信息，所述目标波束方向覆盖所述目标声源。以会议室中的与会人为例，所述声源信息包括了会议室内在设定的时间段内出现过发声的所有的与会人，目标声源指的当前正在同对端进行交流的与会人。

综合前文的描述，声场特性分析模块230获取了各波束方向上的混响特性、各波束方向上的噪声信号以及与会人的数量和方向(即声源信息)。

语音控制模块220首先根据与会人数量和方向获取对应波束内的噪声信号，然后将获取的这些噪声信号加权叠加作为最终估计的综合噪声。

S420，根据所述声源信息以及各波束方向上的混响，确定所述目标下行音频信号在所述目标波束上的综合混响的频谱。

在一些实施例中，所述根据所述声源信息以及各波束方向上的混响，确定所述待播放的下行音频信号在所述目标波束上的综合混响的频谱可以包括：根据所述目标下行音频信号在各波束方向上的混响信号以及所述目标空间内的声源信息，确定所述目标下行音频信号在若干第一波束方向上的第一混响，其中，所述第一波束方向覆盖至少一个声源；对同所述若干第一波束方向对应的若干第一波束信号中的每一个第一波束信号，计算所述第一波束信号的混响频点；将所述若干个第一波束信号中混响频点最大的波束信号的混响作为所述综合混响。

具体地，语音控制模块220根据与会人数量和方向获取对应波束内混响信号，最终综合混响通过计算各波束混响频点的最大值计算。

S430，根据所述综合噪声的频谱、所述综合混响的频谱、以及所述目标下行音频信号的频谱，确定所述目标下行音频信号不同频段对应的增益系数。

在一些实施例中，所述根据所述综合噪声的频谱、所述综合混响的频谱、以及所述目标下行音频信号的频谱，确定所述目标下行音频信号在各频率范围的增益系数包括：根据所述音源特性和所述综合混响确定所述目标下行音频信号在目标波束方向上的目标混响，并基于所述目标混响确定所述目标下行音频信号在各频率范围的初步增益系数；根据所述综合噪声的频谱调节所述初步增益系数，进而确定所述目标下行音频信号在各频率范围的增益系数。

具体地，语音控制模块220结合所述综合混响以及所述音源特性可以估计出当前待播放的音频信号在目标波束方向的混响情况，进而估计出最优DRR(直达声/混响)对应的信号增益，此处增益使用频点增益；再次，结合估计的最终噪声，进一步调节信号增益，从而完成下行音频信号的增益控制。

在一些实施例中，信号处理设备200还可以获取用于播放所述目标下行音频信号的目标扬声器的最佳频率响应范围，并根据所述最佳频率响应范围进一步调整所述增益系数，以适当提升下行语音各频段的语音能量。在一些实施例中，所述最佳频率响应范围可以指：能够使所述目标扬声器在设定的约束条件下具有目标性能的频率响应的范围。比如，所述最佳频率响应范围可以指：在设定的约束条件的限制下，使得目标函数取最大值或者最小值的目标函数的解。

S140，根据所述增益系数，确定所述目标下行音频信号的音量。

根据前文的描述，信号处理设备200根据目标空间内的声场特性以及目标下行音频信号的音源特性调整目标音源特性各频段的增益系数。调整后的增益系数较调整前能够使目标下行音频信号具有更好的信噪比。例如，通过对目标空间内的声场特性进行分析，得到在目标波束方向上的综合混响较大。由于混响多是由低频信号产生的，因此，可以适当减小低频段的增益，这样，就可以降低目标波束方向上的综合混响，进而提升目标下行音频信号在播放时的信噪比，提升在目标波束方向范围内的目标与会人的主观听感。

在一些实施例中，对目标下行音频信号不同频段的增益的调节可能会影响到目标下行音频信号在播放时的质量。比如，在一些实施例中，通过减小低频段的增益来降低目标波束方向上的综合混响，当增益减小较大时，目标下行音频信号的语音能量也会随着增益的较小而降低，当增益的调节对语音能量影响较大时，可以通过增大音量来增大语音能量。这样，结合增益和音量便可以使目标下行音频信号在播放时具有较好的质量。又比如，如果增益增大的幅度过大导致语音质量下降时，可以减小音量来适当降低语音能量，从而提高语音质量(比如信噪比和稳定性)。

综上，本申请提供的信号处理方法和信号处理设备，通过音源质量评估模块可以获得下行语音S的当前质量，通过声场特性分析模块中的房间混响评估模块和房间噪声检测模块可以获得各拾音方向的混响和噪声N情况，通过声场特性分析模块中的与会人方向检测模块可以获得目标人位置。之后，语音控制模块根据目标人位置情况获得综合的N(混响和噪声)信号频谱分布，根据当前下行语音频谱分布，结合终端设备的扬声器最佳频率响应范围，适当提升下行语音各频段的语音能量，达到提升下行SNR的目的，从而提升目标人的主观听感。

通常，人对声音的主观听感与声音的信噪比(signal noise ratio，以下简称SNR)一致。对于会议中的与会人来说，S即下行语音，N即环境干扰，SNR即下行语音和环境干扰的比例。可以通过提高SNR来提升人的主观听感，包括提高语音占比或降低噪声占比。下行降噪主要局限在下行语音信号源处理，对于环境中存在的噪声只能通过主动降噪的方式，但是主动降噪一般在小空间如耳机场景应用，在较大场景下实施性较差。本申请的信号处理设备200本方案主要通过提升下行语音的方式提升SNR，从而提升与会人的主观听感。

本申请所述的会议终端系统和信号处理设备，通过实时监控目标人方向的噪声和混响特性，自适应自反馈的调整通话下行语音的各频带能量，达到提升目标人主观听感的目的。

本申请所述的信号处理方法、信号处理设备以及播放系统，利用麦克风采集已播放的下行语音信号在房间内产生的混响、房间内的噪声、以及房间内与会人的数量和方位等数据，并根据上述数据自动调节的即将播放的下行语音的参数，从而改善与会人的主观感受。本申请所述信号处理方法，可以自适应待反馈的调节当前的下行语音的参数，切实可行。本申请所述的信号处理方法，不需要准确测定房间内给位置的传递函数，提高了反馈速度，可适应不同的空间声场。

本申请所述播放系统，依托于终端设备扬声器和麦克风阵列的设计布局，实时监控设备音源质量、设备所在房间声场特性和背景噪声特性，定位与会人方位并自适应调整扬声器频响特性，从而最优化目标与会人主观听感。

本说明书另一方面提供一种计算机可读存储介质。所述存储介质中存储有至少一组计算机指令。当所述指令被处理器执行时，所述指令指导所述处理器实施本说明书所述的信号处理方法的步骤。在一些可能的实施方式中，本说明书的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在信号处理设备上运行时，所述程序代码用于使信号处理设备执行本说明书描述的评估方法的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码，并可以在信号处理设备上运行。然而，本说明书的程序产品不限于此，在本说明书中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统(例如处理器202)使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在信号处理设备上执行、部分地在数据处理装置200上执行、作为一个独立的软件包执行、部分在信号处理设备上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本申请意图囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本申请提出，并且在本申请的示例性实施例的精神和范围内。

此外，本申请中的某些术语已被用于描述本申请的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本申请的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本申请的一个或多个实施例中适当地组合。

应当理解，在本申请的实施例的前述描述中，为了帮助理解一个特征，出于简化本申请的目的，本申请有时将各种特征组合在单个实施例、附图或其描述中。或者，本申请又是将各种特征分散在多个本申请的实施例中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本申请的时候完全有可能将其中一部分特征提取出来作为单独的实施例来理解。也就是说，本申请中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

在一些实施方案中，表达用于描述和要求保护本申请的某些实施方案的数量或性质的数字应理解为在某些情况下通过术语“约”，“近似”或“基本上”修饰。例如，除非另有说明，否则“约”，“近似”或“基本上”可表示其描述的值的±20％变化。因此，在一些实施方案中，书面描述和所附权利要求书中列出的数值参数是近似值，其可以根据特定实施方案试图获得的所需性质而变化。在一些实施方案中，数值参数应根据报告的有效数字的数量并通过应用普通的舍入技术来解释。尽管阐述本申请的一些实施方案列出了广泛范围的数值范围和参数是近似值，但具体实施例中都列出了尽可能精确的数值。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本申请的实施方案的原理的说明。其他修改后的实施例也在本申请的范围内。因此，本申请披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本申请中的实施例采取替代配置来实现本申请中的申请。因此，本申请的实施例不限于申请中被精确地描述过的那些实施例。

Claims

1.一种信号处理方法，用于对目标下行音频信号进行处理、以增大所述目标下行音频信号在目标空间内播放时的信噪比，包括：

基于设置在所述目标空间内的麦克风阵列所采集的声音信号、获取所述目标空间内的声场特性；

获取所述目标下行音频信号的音源特性；以及

根据所述声场特性和所述音源特性，确定所述目标下行音频信号不同频段对应的增益系数，从而增大所述目标下行音频信号在所述目标空间内播放时的信噪比。

2.如权利要求1所述的信号处理方法，其中，所述声场特性包括：

所述目标空间内的若干波束方向上的混响特性，其中，所述若干波束方向同若干个波束信号依次对应；

所述若干波束方向上的噪声；以及

在所述目标空间内的声源信息。

3.如权利要求2所述的信号处理方法，其中，所述基于设置在所述目标空间内的麦克风阵列所采集的声音信号、获取所述目标空间内的声场特性包括，对所述若干个波束信号中的每一个波束信号：

获取所述波束信号中的没有上行语音信号和下行语音信号的第一信号片段；

获取所述波束信号中的没有上行语音信号、且有下行语音信号的第二信号片段；

获取所述波束信号中的有上行语音信号、且没有下行语音信号的第三信号片段；以及

基于已播放的下行音频信号对所述第二信号片段进行滤波获取同所述第二信号片段对应的第二混响数据，并将所述第二混响数据作为所述目标下行音频信号在所述波束信号的波束方向上的混响特性。

4.如权利要求2所述的信号处理方法，其中，所述基于设置在所述目标空间内的麦克风阵列所采集的声音信号、获取所述目标空间内的声场特性包括：

对所述若干个波束信号中的每一个波束信号，获取所述波束信号中的没有上行语音信号和下行语音信号的第一信号片段，获取所述波束信号中的没有上行语音信号、且有下行语音信号的第二信号片段，以及获取所述波束信号中的有上行语音信号、且没有下行语音信号的第三信号片段；

基于各波束信号的第三信号片段获取第一噪声信号；以及

对所述若干个波束信号中的每一个波束信号，基于所述第一信号片段、所述第二信号片段、所述第三信号片段以及所述第一噪声信号，获取所述波束信号的波束方向上的第二噪声信号。

5.如权利要求2所述的信号处理方法，其中，所述音源特性包括所述目标下行音频信号的音量特征和频率特征。

6.如权利要求5所述的信号处理方法，其中，所述获取所述目标下行音频信号的音源特性包括：

根据所述目标下行音频信号的频率特征对所述目标下行音频信号进行分类；以及

根据所述目标下行音频信号的频率特征和音量特征，获取所述目标下行音频信号的质量值。

7.如权利要求6所述的信号处理方法，其中，所述音量特征包括：

所述目标下行音频信号在时域的整体音量；以及

所述目标下行音频信号在频域的子带音量。

8.如权利要求2所述的信号处理方法，其中，所述根据所述声场特性和所述音源特性、确定所述目标下行音频信号不同频段对应的增益系数包括：

根据所述声源信息以及各波束方向上的噪声，确定所述目标下行音频信号在目标波束方向上的综合噪声的频谱，其中，所述声源信息包括目标声源的位置信息，所述目标波束方向覆盖所述目标声源；

根据所述声源信息以及各波束方向上的混响特性，确定所述目标下行音频信号在所述目标波束方向上的综合混响的频谱；以及

根据所述综合噪声的频谱、所述综合混响的频谱、以及所述目标下行音频信号的频谱，确定所述目标下行音频信号不同频段对应的增益系数。

9.如权利要求8所述的信号处理方法，其中，所述根据所述声源信息以及各波束方向上的噪声，确定所述目标下行音频信号在目标波束方向上的综合噪声的频谱包括：

将各波束方向上的噪声信号加权叠加获得所述综合噪声。

10.如权利要求8所述的信号处理方法，其中，所述根据所述声源信息以及各波束方向上的混响特性，确定所述目标下行音频信号在所述目标波束方向上的综合混响的频谱包括：

根据所述目标下行音频信号在各波束方向上的混响特性以及所述声源信息，确定所述目标下行音频信号在若干第一波束方向上的第一混响，其中，所述第一波束方向覆盖至少一个声源；

对同所述若干第一波束方向对应的若干第一波束信号中的每一个第一波束信号，计算所述第一波束信号的混响频点；以及

将所述若干个第一波束信号中混响频点最大的波束信号的混响作为所述综合混响。

11.如权利要求8所述的信号处理方法，其中，所述根据所述综合噪声的频谱、所述综合混响的频谱、以及所述目标下行音频信号的频谱，确定所述目标下行音频信号不同频段对应的增益系数包括：

根据所述音源特性和所述综合混响确定所述目标下行音频信号在所述目标波束方向上的目标混响，并基于所述目标混响确定所述目标下行音频信号不同频段对应的初步增益系数；以及

根据所述综合噪声的频谱调节所述初步增益系数，进而确定所述目标下行音频信号不同频段对应的增益系数。

12.如权利要求2所述的信号处理方法，其中，所述麦克风阵列包括若干个单指向麦克风，所述若干个单指向麦克风分别指向所述若干个波束方向，以及所述声音信号包括所述若干个波束信号。

13.如权利要求2所述的信号处理方法，其中，所述麦克风包括若干个全指向麦克风；以及所述基于设置在所述目标空间内的麦克风阵列所采集的声音信号、获取所述目标空间内的声场特性包括：

根据所述声音信号和波束形成算法生成所述若干个波束信号、并基于所述若干个波束信号获取所述目标空间内的声场特性。

14.如权利要求1所述的信号处理方法，还包括：

获取用于播放所述目标下行音频信号的目标扬声器的最佳频率响应范围；以及

根据所述最佳频率响应范围调整所述增益系数。

15.如权利要求1所述的信号处理方法，其中，所述声音信号包括：

已播放的下行音频信号的直达声和混响声；

所述目标空间内的噪声；以及

位于所述目标空间内的声源发出的上行语音的直达声和混响声。

16.如权利要求1所述的信号处理方法，其中，所述根据所述声场特性和所述音源特性、确定所述目标下行音频信号不同频段对应的增益系数、从而增大所述目标下行音频信号在所述目标空间内播放时的信噪比包括：

根据所述声场特性和所述音源特性、确定所述目标下行音频信号不同频段对应的增益系数；以及

根据所述增益系数，确定所述目标下行音频信号的音量。

17.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时指示所述处理器执行如权利要求1-16中任一项权利要求所述的信号处理方法的步骤。

18.一种信号处理设备，包括存储器和处理器，所述存储器存储有至少一个指令集，所述处理器同所述存储器通信连接，当所述信号处理设备运行时，所述处理器读取所述至少一个指令集并执行权利要求1至16中任意一个权利要求所述的信号处理方法的步骤。

19.一种室内用播放系统，包括：

如权利要求18所述的信号处理设备；

设置在所述目标空间内的用于播放所述目标下行音频信号的扬声器；以及

设置在所述目标空间内的用于采集所述声音信号的麦克风阵列。