CN112735455A

CN112735455A - 声音信息的处理方法和装置

Info

Publication number: CN112735455A
Application number: CN201911032616.6A
Authority: CN
Inventors: 冯津伟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2021-04-30
Anticipated expiration: 2039-10-28
Also published as: CN112735455B

Abstract

本发明公开了一种声音信息的处理方法和装置。其中，该方法包括：获取拾音装置阵列中多个拾音装置采集的声音信息；对每个拾音装置采集的声音信息进行分类，得到分类结果，其中，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息；根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音。本发明解决了现有技术中,由于多声源中包括噪声声源，导致输出声音的噪声较大的技术问题。

Description

声音信息的处理方法和装置

技术领域

本发明涉及声音处理领域，具体而言，涉及一种声音信息的处理方法和装置。

背景技术

图1a示出了一种音视频系统的桌面麦克风阵列的拾音主麦。该主麦底座有4个指向性麦克风，底座之上是会议控制时使用的触摸屏。图1b是一种扩展麦的示意图(图 1c是图1b的内部结构)，内置3个centralized(集中)指向性麦克风。在小型会议室(10平米左右)中，主麦就可以满足拾音质量的需求。在中型会议室(30平米左右) 中，通过主麦连接一个扩展麦来满足高质量的拾音要求。而在大型会议室中(100平米左右)，则需要在主麦的左边连一个扩展麦，右边连一个扩展麦，所以桌面上可能具有10个麦克风单元。图1d示出了在每个扩展麦里通过算法利用3个centralized物理麦克风(1、2、3)构建了3个虚拟指向性麦克风(4、5、6)，所以，包括虚拟麦克风在内，桌面上最多有16个麦克风。麦克风阵列拾音工作原理为：当会议室只有一个人讲话时，算法会根据SNR(Signal to Noise Ratio)来找到最高SNR的麦克风，把最高SNR的麦克风信号作为系统输出。

但当会议室有多个声源时，多个声源中通常除了需要拾音的声音信息(例如会议发言人的语音信息)，还可能会包括会议场景中产生的噪声，从而影响系统输出的效果。如图1e所示，发言人在发言时，多个参会者敲击键盘记录发言内容，从而产生一定的噪声，该噪声也会被麦克风拾取。

针对现有技术中,由于多声源中包括噪声声源，导致输出声音的噪声较大的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种声音信息的处理方法和装置，以至少解决现有技术中,由于多声源中包括噪声声源，导致输出声音的噪声较大的技术问题。

根据本发明实施例的一个方面，提供了一种声音信息的处理方法，包括：获取拾音装置阵列中多个拾音装置采集的声音信息；对每个拾音装置采集的声音信息进行分类，得到分类结果，其中，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息；根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音。

进一步地，确定多个拾音装置，其中，多个拾音装置至少包括：拾音装置阵列中采集的声音信号的信噪比最高的拾音装置和拾音装置阵列中采集的声音信息的信号幅度最大的拾音装置；获取多个拾音装置所采集的声音信息。

进一步地，截取第一时间段的声音信息，得到第一声音片段；根据第一声音片段的频域信号，获取第一声音片段中主频点的数量，其中，主频点用于表示能量值大于预设能量值的频点；根据第一声音片段中主频点的数量对每个拾音装置采集的声音信息中的第一声音片段进行分类。

进一步地，对第一声音片段进行分段，得到多个第二声音片段；对第二声音片段进行傅里叶变换，得到第二声音片段的频域信号；提取第二声音片段中的频点，并获取每个频点的能量值；根据能量值确定第二声音片段中的主频点；根据第二声音片段中主频点的数量，确定第一声音片段中主频点数量。

进一步地，将每个频点的能量值与前N个频点的能量值进行比对，其中，N为大于0的整数；如果任意一个频点的能量值与前V个频点的能量值的差值大于预设能量值，则确定频点为主频点。

进一步地，确定第一声音片段所包含的所有第二声音片段中，主频点数最多的第二声音片段的主频点数量为第一声音片段的主频点数量。

进一步地，如果第一声音片段的主频点数大于预设数量，确定第一声音片段为第一类声音信息；如果第一声音片段的主频点数小于或等于预设数量，确定第一声音片段为第二类声音信息。

进一步地，指定噪声包括与语音同时发出的键盘敲击声。

进一步地，根据判断结果将第一类声音信息衰减预设值后与第二类声音信息进行混音；或根据判断结果将第一类声音信息衰减至零后与第二类声音信息进行混音。

根据本发明实施例的一个方面，提供了一种声音信息的处理方法，包括：通过拾音装置阵列采集当前的声音信息；播放对采集到的声音信息进行处理后得到的声音信息，其中，对拾音装置阵列中的多个拾音装置采集的声音信息进行分类，得到分类结果，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息，根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音，得到处理后的声音信息。

根据本发明实施例的一个方面，提供了一种声音信息的处理装置，包括：获取模块，用于获取拾音装置阵列中多个拾音装置采集的声音信息；分类模块，用于对每个拾音装置采集的声音信息进行分类，得到分类结果，其中，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息；混音模块，用于根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音。

根据本发明实施例的一个方面，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行如下步骤：获取拾音装置阵列中多个拾音装置采集的声音信息；对每个拾音装置采集的声音信息进行分类，得到分类结果，其中，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息；根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音。

根据本发明实施例的一个方面，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行如下步骤：获取拾音装置阵列中多个拾音装置采集的声音信息；对每个拾音装置采集的声音信息进行分类，得到分类结果，其中，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息；根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音。

根据本发明实施例的一个方面，提供了一种会议系统，包括：拾音装置阵列，包括多个拾音装置，用于采集所在环境的声音信息；控制器，与拾音装置阵列通信，用于获取拾音装置阵列中的多个拾音装置采集的声音信息，对每个拾音装置采集的声音信息进行分类，得到分类结果，并根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音，其中，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息。

在本发明实施例中，在混音时通过对声音信号进行检测，确定出受到噪声干扰的声音信号，从而对该受到噪声干扰的信号进行衰减甚至不加入混音，进而对指定的噪声进行了抑制。这样就能够解决多声源时有些声源为语音而有些声源为噪声，导致的混音结果中噪声较大的问题，也即解决了现有技术中,由于多声源中包括噪声声源，导致输出声音的噪声较大的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1a示出了一种音视频系统的桌面麦克风阵列的拾音主麦；

图1b是一种扩展麦的示意图；

图1c示出了图1b的内部结构；

图1d示出了在每个扩展麦里通过算法利用3个centralized物理麦克风构建了3个虚拟指向性麦克风的示意图；

图1e是会议场景中发言人发言时其他参会者敲击键盘产生噪声的示意图；

图2示出了一种用于实现声音信息的处理方法的计算机设备(或移动设备)的硬件结构框图；

图3是根据本申请实施例1的一种声音信息的处理方法的流程图；

图4a是根据本申请实施例1的一种对拾音装置进行分类的示意图；

图4b是键盘敲击声与语音共同出现的声谱图；

图5是根据本申请实施例2的一种声音信息的处理方法的流程图；

图6是根据本申请实施例3的一种声音信息的处理装置的示意图；

图7是根据本申请实施例4的一种声音信息的处理装置的示意图；

图8是根据本申请实施例5的一种计算机设备的结构框图；以及

图9是根据本申请实施例7的一种会议系统的拾音图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，还提供了一种声音信息的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机设备或者类似的运算装置中执行。图2示出了一种用于实现声音信息的处理方法的计算机设备(或移动设备)的硬件结构框图。如图2所示，计算机设备20(或移动设备20)可以包括一个或多个(图中采用202a、202b，……，202n来示出)处理器202(处理器202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器204、以及用于通信功能的传输模块206。除此以外，还可以包括：显示器、输入 /输出接口(I/O接口)、总线(BUS)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图2所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机设备20还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

应当注意到的是上述一个或多个处理器202和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机设备20(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器204可用于存储应用软件的软件程序以及模块，如本发明实施例中的声音信息的处理方法对应的程序指令/数据存储装置，处理器202通过运行存储在存储器 204内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器204可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器204可进一步包括相对于处理器202远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备20。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机设备20的通信供应商提供的无线网络。在一个实例中，传输模块206包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块206可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机设备20(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图2所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图2仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图3所示的声音信息的处理方法。图3是根据本申请实施例1的一种声音信息的处理方法的流程图。如图3所示，该方法包括如下步骤：

步骤S31，获取拾音装置阵列中多个拾音装置采集的声音信息。

具体的，上述拾音装置可以为麦克风，拾音装置阵列可以为麦克风阵列。麦克风阵列是由多个麦克风单元组成的阵列，通常分线性阵列与环形阵列，以使系统中多个麦克风按照指定要求排列后采集空间内不同方向的声音，从而达到声源定位、去混响等效果。

上述多个拾音装置可以是麦克风阵列中的多个麦克风，可以根据每个拾音装置所采集的声音信号的幅度来选择上述多个拾音装置，例如，可以选择声音信号的幅度最大的拾音装置和声音信号的幅度第二大的拾音装置作为上述多个拾音装置；还可以根据声音信号设置的位置选择上述多个拾音装置，例如：可以选择指定位置上设置的拾音装置为上述多个拾音装置。

需要说明的是，在应用于不同场景，或场景内的人员分布不同的情况下，可以根据实际情况选择获取不同拾音装置的声音信号。

在一种可选的实施例中，以会议场景为例，在会议室较大的情况下，为了达到较好的收音效果，需要通过设置麦克风阵列进行收音。会议中所使用的音视频设备采集会议发言人发出的声音信息并进行播放，以使得参会人能够清晰的听到发言人的发言。在该场景中。音视频设备从麦克风阵列中选择多个麦克风，获取所选择的多个麦克风所采集的声音信息，以在这些声音信息基础上进行处理，得到需要播放的声音信息。

本申请的方案可以应用于多声源的场景中，在一种可选的实施例中，可以首先利用麦克风阵列来判断会议室中的声源数量，在确定声源数量为多个时再执行步骤S33。

步骤S33，对每个拾音装置采集的声音信息进行分类，得到分类结果，其中，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息。

具体的，上述指定噪声可以为场景中容易出现的噪声，例如，在会议场景中，由于需要记录会议内容，所以指定噪声可以是敲击键盘的声音，再例如：在晚会的场景中，由于观看晚会的用户通常会鼓掌，因此指定噪声可以是鼓掌的声音。

上述被指定噪声干扰的第一类声音信息可以是由于拾音装置与噪声源(发出指定噪声的声源)的位置较近等原因，造成声音信息中指定噪声占据主导位置的声音信息。上述未被指定噪声干扰的第二类声音信息并非其中完全没有噪声，而是其中的噪声较小，未起到主导作用。

在对声音信息进行分类时，可以声音信息的频域信号或时域信号进行。在一种可选的实施例中，可以先确定指定噪声的声音特征，在对拾音装置所采集的声音信息进行分析，判断拾音装置所采集的声音信息是否具有指定噪声的声音特征，从而确定声音信息是否被指定噪声所干扰，进而确定了声音信息的分类。

在上述方案中，通过对拾音装置所采集的声音信息进行分类，得到了多个拾音装置所采集的声音信息中被噪声影响较大的第一类声音信息和被噪声影响较小的第二类声音信息。

步骤S35，根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音。

在上述步骤中，对第一类声音信息进行衰减，可以是将第一类声音信息衰减第一预设值(dB)、将第一类声音信息衰减至第二预设值(dB)，或将第一类声音信息衰减至零。

在一种可选的实施例中，仍在上述的会议场景中，多个拾音装置包括MIC1和MIC2，进行分类后确定MIC1所采集的声音信息为被指定噪声所干扰的第一类声音信息，MIC2 所采集的声音信息为未被噪声所干扰的第二类声音信息。对MIC1和MIC2进行分类，并在将MIC1所采集的声音信息进行衰减后，再与MIC2所采集的声音信息进行混音，得到音视频系统需要播放的声音信息。

需要说明的是，由于产生噪声的声源位置并不一定固定不变，因此每个拾音装置在不同时刻所采集的声音信息受指定噪声的影响程度并不一定相同，例如，在会议场景中，第一时间段内MIC1附近的参会者在敲击键盘，因此在第一时间段内MIC1所采集的声音信息可能被敲击键盘的声音所干扰，而第二时间段内MIC2附近的参会者在敲击键盘，因此在第二时间段内MIC2所采集的声音信息可能被敲击键盘的声音所干扰。因此可知，被指定噪声所干扰的声音信息并不一定持续来源于一个拾音装置。

在这种情况下，上述实施例提出的对声音信息进行分类的步骤可以是持续进行的。例如，在一种可选的实施例中，每次按照预设的采样周期采样多个拾音装置采集的声音信息并进行分类，在混音时，将这一采样周期内的第一类声音信息进行衰减后与这一采样周期内的第二类声音信息进行混音，得到系统输出的声音信息，下一采样周期重复上述步骤即可。

仍以会议场景为例，如果多个拾音装置采集的声音信息均未被噪声所干扰，因此可以将多个拾音装置所采集的声音信息进行混音后输出，但实际可能存在的情况是，多个声源都是噪声，或其中部分声源是语音，另一部分声源是噪声。对于上述第一种情况，可以设置一个高准确率，低延时的语音检测器(speech detector)，如果确定声音信息不是语音，系统就输出全零。但对于上述第二种情况，还难以解决。而本申请上述方案在混音时，通过对声音信号进行检测，确定出受到噪声干扰的声音信号，从而对该受到噪声干扰的信号进行衰减甚至不加入混音，进而对指定的噪声进行了抑制。这样就能够解决多声源时有些声源为语音而有些声源为噪声，导致的混音结果中噪声较大的问题，也即解决了现有技术中,由于多声源中包括噪声声源，导致输出声音的噪声较大的技术问题，达到了衰减场景中的指定噪声的效果。

作为一种可选的实施例，获取拾音装置阵列中多个拾音装置采集的声音信息，包括：确定多个拾音装置，其中，多个拾音装置至少包括：拾音装置阵列中采集的声音信号的信噪比最高的拾音装置和拾音装置阵列中采集的声音信息的信号幅度最大的拾音装置；获取多个拾音装置所采集的声音信息。

在上述步骤中，根据拾音装置阵列中的两个拾音装置所采集的声音确定系统输出的声音，这两个拾音装置分别为，所采集的声音信号的信噪比最高的拾音装置和所采集的声音小信号的信号幅度最大的拾音装置。

在一种可选的实施例中，仍在会议场景下，麦克风阵列中的麦克风为定向麦克风，因此每个麦克风采集的声音的信噪比、信号幅度等参数均不相同。确定麦克风阵列中，所采集的声音信号的信噪比最高的麦克风为多个拾音装置中的一个拾音装置，以及所采集的声音信号的信号幅度最大的麦克风为多个拾音装置中的另一个拾音装置，信号幅度最大的麦克风还与信噪比最高的麦克风的频谱差异最大。

作为一种可选的实施例，对每个拾音装置采集的声音信息进行分类，得到分类结果，包括：截取第一时间段的声音信息，得到第一声音片段；根据第一声音片段的频域信号，获取第一声音片段中主频点的数量，其中，主频点用于表示能量值大于预设能量值的频点；根据第一声音片段中主频点的数量对每个拾音装置采集的声音信息中的第一声音片段进行分类。

具体的，上述第一时间段可以为20ms，第一声音片段即为20ms的声音信息。第一声音片段的频域信号可以通过对第一声音片段的时域信号进行短时傅里叶变换获得。上述方案中，频点用于表示对声音信号进行采样时的采样点，主频点用于表示能量较大的频点，可以是能量大于阈值的频点。

主频点出现的数量越多，声音信息被噪声干扰的越严重，因此上述方案根据第一声音片段中主频点的数量对拾音装置进行分类。

在一种可选的实施例中，以一个20ms的第一声音片段为例，根据声音信息的采样频率获得该第一声音片段中的频点的数量，再计算每个频点的能量，根据每个频点的能量确定每个频点是否为主频点，从而确定第一声音片段的主频点的数量。

作为一种可选的实施例，根据第一声音片段的频域信号，获取第一声音片段中主频点的数量，包括：对第一声音片段进行分段，得到多个第二声音片段；对第二声音片段进行傅里叶变换，得到第二声音片段的频域信号；提取第二声音片段中的频点，并获取每个频点的能量值；根据能量值确定第二声音片段中的主频点；根据第二声音片段中主频点的数量，确定第一声音片段中主频点数量。

具体的，在第一声音片段为20ms的情况下，第二声音片段可以为2ms。通过对第二声音片段进行短时傅里叶变换，可以得到第二声音片段的频域信号。基于第二声音片段的频域信号，获取第二声音片段中主频点，从而确定第一声音片段中的主频点。

在一种可选的实施例中，将20ms的第一声音片段分割为10个2ms的第二声音片段，对每个2ms的第二声音片段进行短时傅里叶变换，得到10个频域信号，如果采样频率为32kHz，则每个第二声音片段中包括64个频点。计算每个频点的能量值，并确定能量值超过能量阈值的频点为主频点，从而得到第二声音片段中的主频点。再将10 个第二声音片段中的主频点的数量相加，即可得到第一声音片段中主频点的数量。

本申请上述实施例提出了瞬态信号(第二声音片段)的检测方式，而不是基于原生的长音频帧(第一声音片段)，该检测可以通过检测器执行，因为检测器对时域分辨率(timedomain resolution)非常敏感，因此通过检测瞬态信号，能够得到更准确的检测效果。

作为一种可选的实施例，根据能量值确定第二声音片段的主频点，包括：将每个频点的能量值与前N个频点的能量值进行比对，其中，N为大于0的整数；如果任意一个频点的能量值与前N个频点的能量值的差值大于预设能量值，则确定频点为主频点。

上述步骤提供一种确定主频点的方式，除了将频点的能量值与预设能量值相比之外，还可以根据频点的能量值与前N个频点的能量值之差来确定频点是否为主频点。

在一种可选的实施例中，计算第二声音片段中的每个频点的能量值，并计算每个频点与前一帧频点的能量值之差，如果当前频点的能量值大于前一帧频点的能量值，且当前频点与前一帧频点的能量值之差大于预设能力值，则确定当前频点为主频点。

作为一种可选的实施例，根据第二声音片段中主频点的数量，确定第一声音片段中主频点数量，包括：确定第一声音片段所包含的所有第二声音片段中，主频点数最多的第二声音片段的主频点数量为第一声音片段的主频点数量。

上述步骤提供了一种根据第二声音片段的主频点数量确定第一声音片段的主频点数量的方式，除了将第二声音片段的主频点数量求和之外，还可以获取所有第二声音频段中，主频点数量最多的第二声音片段，并将该第二声音片段的主频点数量作为第一声音片段的主频点数量。

在一种可选的实施例中，仍以上述10ms的第一声音片段为例，获取该第一声音片段中所包括的10个2ms的第二声音片段中，每个第二声音片段所包含的主频点的数量，并将主频点数量最大的第二声音片段对应的主频点数量作为第一声音片段的主频点数量。

作为一种可选的实施例，根据第一声音片段中主频点的数量对每个拾音装置进行分类，包括：如果第一声音片段的主频点数大于预设数量，确定第一声音片段为第一类声音信息；如果第一声音片段的主频点数小于或等于预设数量，确定第一声音片段为第二类声音信息。

在上述步骤中，通过预先设置阈值，并将第一声音片段的主频点数量与预设阈值进行比对，来判断第一声音信息是否被指定噪声干扰，从而确定第一声音信息的类型。

图4a是根据本申请实施例1的一种对拾音装置进行分类的示意图，下面结合图4a，对上述分类过程的一种可选的实施例进行说明。

S41，获取20ms的音频帧。

具体的，上述20ms的音频帧即为第一声音片段，可以从拾音装置所采集的声音信息中截取。

S42，将20ms的音频帧划分为10个2ms的音频帧。

具体的，上述2ms的音频帧即为第二声音片段，通过对第一声音片段进行划分得到。

S43，对2ms的音频帧进行短时傅里叶(short-time Fourier)变换。

具体的，上述步骤通过对第二声音片段进行短时傅里叶变换，获取到第二声音片段的频域信号。

S44，计算每个频点的能量值。

具体的，上述频点即为采集声音信息时的采样点。例如，如果采样频率为32kHz，则一个2ms的音频帧包括64个采样点。

S45，判断当前帧的能量值是否远远大于前一帧或前两帧的能量。如果判断结果为是，则进入步骤S46，否则进入步骤S47。

上述步骤可以通过求取当前帧频点的能量与前一帧或前两帧频点的能量之差来确定，如果该能量之差大于预设值，则判断结果为是，否则判断结果为否。

S46，确定该帧频点为主频点(dominant frequency bin，DFB)。

S47，获取主频点的数量。

具体的，上述数量为每个2ms的音频帧中主频点的数量。

S48，查找主频点数量最大的2ms的音频帧，作为20ms音频帧的主频点数量。

S49，判断20ms音频帧的主频点数量是否大于预设数量值THR。如果判断结果为是，则进入步骤S410，否则进入步骤S411。

S410，该20ms的音频帧被噪声干扰。

S411，该20ms的音频未被噪声干扰。

作为一种可选的实施例中，指定噪声包括与语音同时发出的键盘敲击声。

在会议场景中，为了记录会议内容，键盘敲击声音是极易出现的噪声，也是会议过程中主要出现的噪声。语音信息为需要输出的声音信息，因此可以将语音信息同时发出的键盘敲击声作为指定的噪声。同时会议过程中，鼠标点击事件也极易发生，因此作为另一种实施例，鼠标点击声也可以作为指定噪声，或与键盘敲击声一同作为指定噪声。

图4b是键盘敲击声与语音共同出现的声谱图(spectrogram)，根据图4b可知，对于键盘敲击声，几乎在整个频谱上，其能量会突然地变大，几乎每个频点都是主频点(dominant)，因此采用上述基于主频点的检测方式，能够检测出被敲击键盘声所干扰的声音信息。

作为一种可选的实施例，根据分类结果，对第一类声音信息所采集的声音信息进行衰减后，与第二类声音信息所采集的声音信息进行混音，包括：根据判断结果将第一类声音信息衰减预设值后与第二类声音信息进行混音；或根据判断结果将第一类声音信息衰减至零后与第二类声音信息进行混音。

上述实施例提供了两种对第一类声音信号进行衰减的方式，第一种方式中，将第一类声音信息衰减预设值(9dB)后，再与第二类声音信息进行混音；第二种方式中，将第一类声音信息衰减至零后再与第二类声音信息进行混音，也即，第一类声音信息不再参与混音，在多个拾音装置采集的声音信息中仅有一个第二类声音信息的情况下，将一个第二类声音信息作为系统的输出；在多个拾音装置采集的声音信息中包括多个第二类声音信息的的情况下，对多个第二类声音信息进行混音后得到系统的输出。

可以根据第一类声音信息受指定噪声干扰的程度确定如何对其进行衰减，第一类声音信息受指定噪声影响越大，对其衰减越大。在一种可选的实施例中，可以根据上述第一声音片段中主频点的数量确定使用哪一种衰减方式。在确定拾音装置为第一类声音信息后，将拾音装置对应的第一声音片段中的主频点数量与另一个阈值进行比对，如果第一声音片段中的主频点数量大于另一个阈值，则将该第一类声音信息衰减至零，也即该第一类声音信息不参与混音，如果第一声音片段中的主频点数量小于或等于另一个阈值，则将该第一类声音信息衰减预设值后再参与混音。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种声音信息的处理方法的实施例，图5是根据本申请实施例2的一种声音信息的处理方法的流程图，结合图5所示，该方法包括：

步骤S51，通过拾音装置阵列采集当前的声音信息。

具体的，上述拾音装置阵列可以为麦克风阵列。麦克风阵列是由多个麦克风单元组成的阵列，通常分线性阵列与环形阵列，以使系统中多个麦克风按照指定要求排列后采集空间内不同方向的声音，从而达到声源定位、去混响等效果。

本申请的方案可以应用于多声源的场景中，在一种可选的实施例中，可以首先利用麦克风阵列来判断会议室中的声源数量，在确定声源数量为多个时再执行步骤S53。

步骤S53，播放对采集到的声音信息进行处理后得到的声音信息，其中，对拾音装置阵列中的多个拾音装置采集的声音信息进行分类，得到分类结果，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息，根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音，得到处理后的声音信息。

上述对声音信息的处理可以如实施例1中的任意一种处理方式，此处不再赘述。

实施例3

根据本发明实施例，还提供了一种用于实施上述实施例1的声音信息的处理装置，图6是根据本申请实施例3的一种声音信息的处理装置的示意图，如图6所示，该装置600包括：

获取模块602，用于获取拾音装置阵列中多个拾音装置采集的声音信息。

分类模块604，用于对每个拾音装置采集的声音信息进行分类，得到分类结果，其中，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息。

混音模块606，用于根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音。

此处需要说明的是，上述获取模块602、分类模块604和混音模块606对应于实施例1中的步骤S31至步骤S335，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机设备10中。

作为一种可选的实施例，获取模块包括：确定子模块，用于确定多个拾音装置，其中，多个拾音装置至少包括：拾音装置阵列中采集的声音信号的信噪比最高的拾音装置和拾音装置阵列中采集的声音信息的信号幅度最大的拾音装置；第一获取子模块，用于获取多个拾音装置所采集的声音信息。

作为一种可选的实施例，分类模块包括：截取子模块，用于截取第一时间段的声音信息，得到第一声音片段；第二获取子模块，用于根据第一声音片段的频域信号，获取第一声音片段中主频点的数量，其中，主频点用于表示能量值大于预设能量值的频点；分类子模块，用于根据第一声音片段中主频点的数量对每个拾音装置采集的声音信息中的第一声音片段进行分类。

作为一种可选的实施例，第二获取子模块包括：分段单元，用于对第一声音片段进行分段，得到多个第二声音片段；变换单元，用于对第二声音片段进行傅里叶变换，得到第二声音片段的频域信号；提取单元，用于提取第二声音片段中的频点，并获取每个频点的能量值；第一确定单元，用于根据能量值确定第二声音片段中的主频点；第二确定单元，用于根据第二声音片段中主频点的数量，确定第一声音片段中主频点数量。

作为一种可选的实施例，第一确定单元包括：比对子单元，用于将每个频点的能量值与前N个频点的能量值进行比对，其中，N为大于0的整数；第一确定子单元，用于如果任意一个频点的能量值与前N个频点的能量值的差值大于预设能量值，则确定频点为主频点。

作为一种可选的实施例，第二确定单元包括：第二确定子单元，用于确定第一声音片段所包含的所有第二声音片段中，主频点数最多的第二声音片段的主频点数量为第一声音片段的主频点数量。

作为一种可选的实施例，分类子模块包括：第三确定单元，用于如果第一声音片段的主频点数大于预设数量，确定第一声音片段为第一类声音信息；第四确定单元，用于如果第一声音片段的主频点数小于或等于预设数量，确定第一声音片段为第二类声音信息。

作为一种可选的实施例，指定噪声包括与语音同时发出的键盘敲击声。

作为一种可选的实施例，根据分类结果，混音模块包括：第一混音子模块，用于根据判断结果将第一类声音信息衰减预设值后与第二类声音信息进行混音；或第二混音子模块，用于根据判断结果将第一类声音信息衰减至零后与第二类声音信息进行混音。

实施例4

根据本发明实施例，还提供了一种用于实施上述实施例2的声音信息的处理装置，图7是根据本申请实施例4的一种声音信息的处理装置的示意图，如图7所示，该装置700包括：

采集模块702，用于通过拾音装置阵列采集当前的声音信息。

播放模块704，用于播放对采集到的声音信息进行处理后得到的声音信息，其中，对拾音装置阵列中的多个拾音装置采集的声音信息进行分类，得到分类结果，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息，根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音，得到处理后的声音信息。

此处需要说明的是，上述采集模块702和播放模块704对应于实施例2中的步骤S51至步骤S53，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机设备10中。

实施例5

本发明的实施例可以提供一种计算机设备，该计算机设备可以是计算机设备群中的任意一个计算机设备。可选地，在本实施例中，上述计算机设备也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机设备可以执行应用程序的漏洞检测方法中以下步骤的程序代码：获取拾音装置阵列中多个拾音装置采集的声音信息；对每个拾音装置采集的声音信息进行分类，得到分类结果，其中，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息；根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音。

可选地，图8是根据本申请实施例5的一种计算机设备的结构框图。如图8所示，该计算机设备A可以包括：一个或多个(图中仅示出一个)处理器802、存储器804、以及外设接口806。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的系统漏洞攻击的检测方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取拾音装置阵列中多个拾音装置采集的声音信息；对每个拾音装置采集的声音信息进行分类，得到分类结果，其中，分类结果包括：被指定噪声干扰的第一类声音信息和未被指定噪声干扰的第二类声音信息；根据分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音。

可选的，上述处理器还可以执行如下步骤的程序代码：确定多个拾音装置，其中，多个拾音装置至少包括：拾音装置阵列中采集的声音信号的信噪比最高的拾音装置和拾音装置阵列中采集的声音信息的信号幅度最大的拾音装置；获取多个拾音装置所采集的声音信息。

可选的，上述处理器还可以执行如下步骤的程序代码：截取第一时间段的声音信息，得到第一声音片段；根据第一声音片段的频域信号，获取第一声音片段中主频点的数量，其中，主频点用于表示能量值大于预设能量值的频点；根据第一声音片段中主频点的数量对每个拾音装置采集的声音信息中的第一声音片段进行分类。

可选的，上述处理器还可以执行如下步骤的程序代码：对第一声音片段进行分段，得到多个第二声音片段；对第二声音片段进行傅里叶变换，得到第二声音片段的频域信号；提取第二声音片段中的频点，并获取每个频点的能量值；根据能量值确定第二声音片段中的主频点；根据第二声音片段中主频点的数量，确定第一声音片段中主频点数量。

可选的，上述处理器还可以执行如下步骤的程序代码：将每个频点的能量值与前N个频点的能量值进行比对，其中，N为大于0的整数；如果任意一个频点的能量值与前N个频点的能量值的差值大于预设能量值，则确定频点为主频点。

可选的，上述处理器还可以执行如下步骤的程序代码：确定第一声音片段所包含的所有第二声音片段中，主频点数最多的第二声音片段的主频点数量为第一声音片段的主频点数量。

可选的，上述处理器还可以执行如下步骤的程序代码：如果第一声音片段的主频点数大于预设数量，确定第一声音片段为第一类声音信息；如果第一声音片段的主频点数小于或等于预设数量，确定第一声音片段为第二类声音信息。

可选的，指定噪声包括与语音同时发出的键盘敲击声。

可选的，上述处理器还可以执行如下步骤的程序代码：根据判断结果将第一类声音信息衰减预设值后与第二类声音信息进行混音；或根据判断结果将第一类声音信息衰减至零后与第二类声音信息进行混音。

采用本发明实施例，提供了一种声音信息的处理方法。通过在混音时，通过对声音信号进行检测，确定出受到噪声干扰的声音信号，从而对该受到噪声干扰的信号进行衰减甚至不加入混音，进而对指定的噪声进行了抑制。这样就能够解决多声源时有些声源为语音而有些声源为噪声，导致的混音结果中噪声较大的问题，也即解决了现有技术中,由于多声源中包括噪声声源，导致输出声音的噪声较大的技术问题。

本领域普通技术人员可以理解，图8所示的结构仅为示意，计算机设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备 (MobileInternet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，计算机设备10还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例6

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的声音信息的处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机设备群中的任意一个计算机设备中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取拾音装置阵列中多个拾音装置采集的声音信息；对每个所述拾音装置采集的声音信息进行分类，得到分类结果，其中，所述分类结果包括：被指定噪声干扰的第一类声音信息和未被所述指定噪声干扰的第二类声音信息；根据所述分类结果，对所述第一类声音信息进行衰减后，与所述第二类声音信息进行混音。

实施例7

根据本发明实施例，还提供了一种会议系统的实施例，图9是根据本申请实施例 7的一种会议系统的拾音图，结合图9所示，该系统包括：

拾音装置阵列90，包括多个拾音装置，用于采集所在环境的声音信息。

处理器92，与所述拾音装置阵列通信，用于获取所述拾音装置阵列中的多个拾音装置采集的声音信息，对每个所述拾音装置采集的声音信息进行分类，得到分类结果，并根据所述分类结果，对所述第一类声音信息进行衰减后，与所述第二类声音信息进行混音，其中，所述分类结果包括：被指定噪声干扰的第一类声音信息和未被所述指定噪声干扰的第二类声音信息。

在上述方案中，通过对拾音装置所采集的声音信息进行分类，得到了多个拾音装置所采集的声音信息中被噪声影响较大的第一类声音信息和被噪声影响较小的第二类声音信息，再对第一类声音信息进行衰减，可以是将第一类声音信息衰减第一预设值 (dB)、将第一类声音信息衰减至第二预设值(dB)，或将第一类声音信息衰减至零。

在这种情况下，上述实施例提出的对声音信息进行分类的方案可以是持续进行的。例如，在一种可选的实施例中，每次按照预设的采样周期采样多个拾音装置采集的声音信息并进行分类，在混音时，将这一采样周期内的第一类声音信息进行衰减后与这一采样周期内的第二类声音信息进行混音，得到系统输出的声音信息，下一采样周期重复上述步骤即可。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种声音信息的处理方法，其特征在于，包括：

获取拾音装置阵列中多个拾音装置采集的声音信息；

对每个所述拾音装置采集的声音信息进行分类，得到分类结果，其中，所述分类结果包括：被指定噪声干扰的第一类声音信息和未被所述指定噪声干扰的第二类声音信息；

根据所述分类结果，对所述第一类声音信息进行衰减后，与所述第二类声音信息进行混音。

2.根据权利要求1所述的方法，其特征在于，获取拾音装置阵列中多个拾音装置采集的声音信息，包括：

确定所述多个拾音装置，其中，所述多个拾音装置至少包括：所述拾音装置阵列中采集的声音信号的信噪比最高的拾音装置和所述拾音装置阵列中采集的声音信息的信号幅度最大的拾音装置；

获取所述多个拾音装置所采集的声音信息。

3.根据权利要求1所述的方法，其特征在于，对每个所述拾音装置采集的声音信息进行分类，得到分类结果，包括：

截取第一时间段的所述声音信息，得到第一声音片段；

根据所述第一声音片段的频域信号，获取所述第一声音片段中主频点的数量，其中，所述主频点用于表示能量值大于预设能量值的频点；

根据所述第一声音片段中主频点的数量对每个所述拾音装置采集的声音信息中的第一声音片段进行分类。

4.根据权利要求3所述的方法，其特征在于，根据所述第一声音片段的频域信号，获取所述第一声音片段中主频点的数量，包括：

对所述第一声音片段进行分段，得到多个第二声音片段；

对所述第二声音片段进行傅里叶变换，得到所述第二声音片段的频域信号；

提取所述第二声音片段中的频点，并获取每个所述频点的能量值；

根据所述能量值确定所述第二声音片段中的主频点；

根据所述第二声音片段中主频点的数量，确定所述第一声音片段中主频点数量。

5.根据权利要求4所述的方法，其特征在于，根据所述能量值确定所述第二声音片段中的主频点，包括：

将每个所述频点的能量值与前N个频点的能量值进行比对，其中，N为大于0的整数；

如果任意一个频点的能量值与前N个频点的能量值的差值大于预设能量值，则确定所述频点为主频点。

6.根据权利要求4所述的方法，其特征在于，根据所述第二声音片段中主频点的数量，确定所述第一声音片段中主频点数量，包括：

确定所述第一声音片段所包含的所有第二声音片段中，主频点数最多的第二声音片段的主频点数量为所述第一声音片段的主频点数量。

7.根据权利要求3所述的方法，其特征在于，根据所述第一声音片段中主频点的数量对每个所述拾音装置采集的声音信息中的第一声音片段进行分类，包括：

如果所述第一声音片段的主频点数大于预设数量，确定所述第一声音片段为所述第一类声音信息；

如果所述第一声音片段的主频点数小于或等于所述预设数量，确定所述第一声音片段为所述第二类声音信息。

8.根据权利要求1所述的方法，其特征在于，所述指定噪声包括与语音同时发出的键盘敲击声。

9.根据权利要求1所述的方法，其特征在于，根据所述分类结果，根据所述分类结果，对所述第一类声音信息进行衰减后，与所述第二类声音信息进行混音，包括：

根据判断结果将所述第一类声音信息衰减预设值后与所述第二类声音信息进行混音；或

根据判断结果将所述第一类声音信息衰减至零后与所述第二类声音信息进行混音。

10.一种声音信息的处理方法，其特征在于，包括：

通过拾音装置阵列采集当前的声音信息；

播放对采集到的声音信息进行处理后得到的声音信息，其中，对所述拾音装置阵列中的多个拾音装置采集的声音信息进行分类，得到分类结果，所述分类结果包括：被指定噪声干扰的第一类声音信息和未被所述指定噪声干扰的第二类声音信息，根据所述分类结果，对所述第一类声音信息进行衰减后，与所述第二类声音信息进行混音，得到处理后的声音信息。

11.一种声音信息的处理装置，其特征在于，包括：

获取模块，用于获取拾音装置阵列中多个拾音装置采集的声音信息；

分类模块，用于对每个所述拾音装置采集的声音信息进行分类，得到分类结果，其中，所述分类结果包括：被指定噪声干扰的第一类声音信息和未被所述指定噪声干扰的第二类声音信息；

混音模块，用于根据所述分类结果，对所述第一类声音信息进行衰减后，与所述第二类声音信息进行混音。

12.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如下步骤：

获取拾音装置阵列中多个拾音装置采集的声音信息；

13.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行如下步骤：

获取拾音装置阵列中多个拾音装置采集的声音信息；

14.一种会议系统，其特征在于，包括：

拾音装置阵列，包括多个拾音装置，用于采集所在环境的声音信息；

控制器，与所述拾音装置阵列通信，用于获取所述拾音装置阵列中的多个拾音装置采集的声音信息，对每个所述拾音装置采集的声音信息进行分类，得到分类结果，并根据所述分类结果，对第一类声音信息进行衰减后，与第二类声音信息进行混音，其中，所述分类结果包括：被指定噪声干扰的所述第一类声音信息和未被所述指定噪声干扰的所述第二类声音信息。