CN109036448B

CN109036448B - 一种声音处理方法和装置

Info

Publication number: CN109036448B
Application number: CN201710440005.XA
Authority: CN
Inventors: 王乐临; 王提政
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-06-12
Filing date: 2017-06-12
Publication date: 2020-04-14
Anticipated expiration: 2037-06-12
Also published as: US11094334B2; US20200118580A1; WO2018228060A1; EP3644314A4; EP3644314B1; EP3644314A1; CN109036448A

Abstract

本发明公开了一种声音处理方法和装置。该方法应用于顶部具有两个麦克风的终端上，该两个麦克风分别位于终端的正面和背面，且该方法应用于非视频通话的场景：检测到终端的摄像头处于拍摄状态时，利用两个麦克风采集声音信号；根据采集到的声音信号按照第一预设算法计算两个麦克风之间的声压差；判断所述声压差是否满足声源方向判定条件；若满足判定条件，则根据声压差确定出声音信号中是否包含后向声音信号，后向声音信号为声源位于所述摄像头后方的声音信号；若确定出声音信号中包含后向声音信号，则将声音信号中的后向声音信号进行滤除。这样，在低信噪比场景下基于声压差进行声源定位，能够提高摄像范围内声源的拾取精度。

Description

一种声音处理方法和装置

技术领域

本发明涉及终端技术领域，尤其涉及一种声音处理方法和装置。

背景技术

语音处理设备在采集或输入语音信号时，不可避免地要受到各种噪声的干扰。在实际语音通信系统中，常见的噪声包括平稳类噪声和方向性干扰声源，这些噪声易对目标声音信号产生干扰，严重降低采集声音的听觉舒适度和可懂度。传统的噪声估计及单通道语音增强算法对方向性干扰噪声的抑制效果很不理想。为此，需要根据实际情况，设计一些含有干扰噪声抑制能力的系统，从而达到定向拾取目标语音的目的，抑制其他噪声的能力。

现有的声源定位算法大多采用波束形成和基于时延差的声源定位等技术，对声场中的声源方位进行定位，然后利用固定波束或自适应波束的方法，达到降低束外干扰声源，定向拾音的目的。

基于终端的拍摄场景，用户会使用终端的摄像头，进行摄像。现有的基于时延差的声源定位技术，在低信噪比场景下，目标声源(与摄像头拍摄方向同向的声源)的方位信息常被噪声源(与摄像头拍摄方向反向的声源)方位信息混叠，因此会在拍摄的视频过程中出现很多噪声，使得目标声源的拾取精度低下，进而导致最后的摄像内容中仍然存在有大量的噪声。

发明内容

本发明实施例提供一种声音处理方法和装置，以解决现有的定向拾取目标声音信号时，混叠噪声严重的问题，造成目标声源的拾取精度低下的问题。

本发明实施例提供的具体技术方案如下：

第一方面，本发明实施例提供一种声音处理方法，该方法应用于顶部具有两个麦克风的终端上，两个麦克风分别位于终端的正面和背面，且所述方法应用于非视频通话的场景，该方法包括：

当终端的摄像头处于拍摄状态时，利用两个麦克风采集终端所处当前环境中的声音信号；根据采集到的声音信号按照第一预设算法计算两个麦克风之间的声压差；判断两个麦克风之间的声压差是否满足声源方向判定条件；若满足声源方向判定条件，则根据两个麦克风之间的声压差，确定出声音信号中是否包含后向声音信号，后向声音信号为声源位于摄像头后方的声音信号，其中，所述摄像头拍摄不到所述摄像头后方的区域；若确定出声音信号中包含后向声音信号，则将声音信号中的后向声音信号进行滤除。

第二方面，本发明实施例提供一种声音处理装置，该装置应用于顶部具有两个麦克风的终端上，两个麦克风分别位于终端的正面和背面，且所述装置应用于非视频通话的场景，该装置包括：

采集模块，用于当终端的摄像头处于拍摄状态时，利用两个麦克风采集终端所处当前环境中的声音信号；

计算模块，用于根据采集到的声音信号按照第一预设算法计算两个麦克风之间的声压差；

判断模块，用于判断两个麦克风之间的声压差是否满足声源方向判定条件；

确定模块，用于若满足声源方向判定条件，则根据两个麦克风之间的声压差，确定出声音信号中是否包含后向声音信号，其中，后向声音信号为声源位于摄像头后方的声音信号，其中，所述摄像头拍摄不到所述摄像头后方的区域；

滤除模块，用于若确定出声音信号中包含后向声音信号，则将声音信号中的后向声音信号进行滤除。

上面所提到的摄像头的后方区域，可以以终端机身所在平面作为分界；终端机身所在平面可以将整个空间分为两部分，摄像头能够拍摄到的区域所在的空间部分可以理解为摄像头前方的区域；另一部分可以理解为摄像头后方的区域。显然，摄像头无法拍摄到摄像头后方的区域。如果摄像头的视场角无法覆盖摄像头前方的所有区域，则摄像头也不能拍摄到摄像头前方的全部区域，只能拍摄到部分区域。在具体实现过程中，终端可以包括前置摄像头和后置摄像头，它们对应原理类似且浅显易懂，本发明实施例中不予以赘述。

根据本发明实施例提供的上述方法和装置的技术方案，可以通过一定的算法确定出声音信号中的后向声音信号，并将其滤除。因此可以在摄像时，将摄像范围外的噪声信号滤除，保证了拍摄时的视频的声音质量，提高用户的体验。

根据第一方面或者第二方面，在一种可能的设计中，终端需要检测摄像头的拍摄状态，在检测到摄像头是否拍摄时，还可以确定出摄像头的位置。如果终端只有一个摄像头，则可以直接获取到摄像头的位置。如果终端具有多个摄像头，在检测摄像头是否拍摄状态时，还可以确定出具体是哪个摄像头在进行拍摄，以使得处理器根据摄像头的位置采用对应的算法进行信号后续处理。检测到摄像头的拍摄状态，可以通过周期性的程序检测，或者可以检测摄像头的使能信号等方式实现。

该步骤可以由采集模块完成。更具体地，这个技术实现可以由处理器调用存储器中的程序与指令进行相应的运算。该设计方案能够获取到摄像头的使能状态以及摄像头所处的位置。

根据第一方面或者第二方面，在一种可能的设计中，在所述终端的摄像头处于拍摄状态时，终端可以接受到用户的触发指令，该触发指令用于触发顶端麦克风采集当前环境中的声音信号。用户可以根据自己的喜好选择是否要在拍摄的过程中滤除后向声音信号。如果用户介意后向声音信号，则用户可以对终端输入相应的触发指令，以使终端滤除后向声音信号；如果用户不介意后向声音信号，也可以选择常规拍摄模式，即不会触发滤除后向声音信号的功能。

根据第一方面或者第二方面，在一种可能的设计中，根据采集到的声音信号按照第一预设算法计算两个麦克风之间的声压差，包括：按照预设时间间隔，将所述声音信号分为至少一帧；获取所述两个麦克风在第y帧采集到的声音信号S1、S2，基于S1、S2，利用快速傅里叶变换FFT算法计算S1、S2的功率谱，分别为P1、P2；其中，所述第y帧为所述至少一帧中的任意一帧；根据P1、P2，利用以下公式计算所述两个麦克风之间的声压差；

其中，P₁表示顶部正面麦克风在第y帧对应的声音功率谱，P₂表示顶部背面麦克风在第y帧对应的声音功率谱，且P1和P2均为含有N个元素的向量，所述N个元素为第y帧声音信号进行快速傅里叶变换后对应的N个频点的值，N为大于1的整数；ILD_now为包含N个频点对应的声压差的向量。

在具体实现过程中，可以在采集声音信号时，按照预设时间间隔将已采集到的声音信号划分为帧；假设每200ms为一帧，则每当采集了200ms信号，即由处理器处理成为一帧；例如采集了10s中的声音信号，则这10s的声音信号先后被处理成为50个帧。

在具体实现过程中，可以在采集声音信号时，也可以采集预定时长的声音信号后，再划分为帧；假设每50ms为一帧，当采集了200ms信号后，统一将这200ms的信号一次性由处理器处理成为4帧；例如采集了10s中的声音信号，则这10s的声音信号先后被处理成为50个4帧组合，共200帧。

声音信号的类似处理方式较多，本文不再赘述。

该步骤可以由采集模块和计算模块完成。更具体地，这个技术实现可以由处理器控制麦克风音频电路采集声音信号、以及调用存储器中的程序与指令对采集到的声音信号进行相应的运算。该设计方案能够计算出声压差，值得说明的是，计算声压差的方法有很多种替代方式，此不不进行一一列举。

根据第一方面或者第二方面，在一种可能的设计中，判断两个麦克风之间的声压差是否满足声源方向判定条件，包括：对于第y帧，

利用第i频点对应的两个麦克风的声压差，按照第二预设算法计算出第i频点对应的最大参考值和最小参考值，其中第i频点为所述N个频点中的一个，i取遍不大于N的所有正整数；

如果第i频点的最大参考值与最小参考值之差大于所述第i频点对应的第一门限值，则确定两个麦克风之间的声压差在所述第i频点上满足声源方向判定条件；

如果所述最大参考值与所述最小参考值之差不大于所述第i频点对应的第一门限值，则确定两个麦克风之间的声压差在所述第i频点上不满足声源方向判定条件；

若所述N个频点中的M个频点满足声源方向判定条件，确定所述第y帧的两个麦克风之间的声压差满足声源方向判定条件，其中M大于等于N/2。

该步骤可以由判断模块完成。更具体地，这个技术实现可以由处理器调用存储器中的程序与指令进行相应的运算。该设计方案给出了能否通过声压差去判断噪声的判断规则，为后续如何合理利用声压差提供使用依据，具体判别方法可以有多种替换方式，本发明不做限定；第一门限值可以根据经验值按需设定，本发明依旧不进行限定。

根据第一方面或者第二方面，在一种可能的设计中，所述利用第i频点对应的所述两个麦克风的声压差，按照第二预设算法计算出所述第i频点对应的最大参考值和最小参考值，包括：

获取第i-1频点对应的最大参考值，所述第i-1频点为所述第i频点的上一个频点，若所述第i频点对应的两个麦克风的声压差不大于所述第i-1频点对应的最大参考值时，利用以下公式计算所述第i频点对应的最大参考值，

ILD_max＝a_low*ILD_now+(1-α_low)*ILD_max′；

若所述第i频点对应的两个麦克风的声压差大于所述第i-1频点对应的最大参考值时，利用以下公式计算所述第i频点对应的最大参考值，

ILD_max＝α_fast*ILD_now+(1-α_fast)*ILD_max′；

获取第i-1频点对应的最小参考值，若所述第i频点对应的两个麦克风的声压差大于所述第i-1频点对应的最小参考值时，利用以下公式计算所述第i频点对应的最小参考值，

ILD_min＝a_low*ILD_now+(1-α_low)*ILD_min′；

若所述第i频点对应的两个麦克风的声压差不大于所述第i-1频点对应的最小参考值时，利用以下公式计算所述第i频点对应的最小参考值，

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min′；

其中，ILD_now表示所述第i频点对应的两个麦克风的声压差，ILD_max表示所述第i频点对应的最大参考值，ILD_max′表示所述第i-1频点对应的最大参考值，ILD_min表示所述第i频点对应的最小参考值，ILD_min′表示所述第i-1频点对应的最小参考值，α_fast、α_low表示预设的步长值，且α_fast>α_low。

该步骤可以由判断模块完成。更具体地，这个技术实现可以由处理器调用存储器中的程序与指令进行相应的运算。该设计方案给出了能否通过声压差去判断噪声的判断规则的一种下位实现，具体判别方法可以有多种替换方式，本发明不做限定。

根据第一方面或者第二方面，在一种可能的设计中，根据所述两个麦克风之间的声压差，确定出所述声音信号中是否包含后向声音信号，包括：对于第y帧，

当第j频点对应的声压差小于所述第j频点对应的第二门限值时，确定所述j频点处包含后向声音信号，其中，所述第j频点为所述M个频点中的一个，j取遍不大于M的所有正整数；

当所述两个麦克风在第j频点对应的声压差不小于第二门限值时，确定所述j频点处不包含后向声音信号。

该步骤可以由确定模块完成。更具体地，这个技术实现可以由处理器调用存储器中的程序与指令进行相应的运算。该设计方案给出了通过声压差最终判定出噪声的方式，能够准确地识别出后向声音信号；第二门限值可以根据经验进行按需设定。

根据第一方面或者第二方面，在一种可能的设计中，将所述声音信号中的后向声音信号进行滤除，包括：

若检测到终端正在拍摄的摄像头为前置摄像头，则以顶部背面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部正面麦克风采集的第y帧的声音信号中的后向声音信号；

若检测到终端正在拍摄的摄像头为后置摄像头，则以顶部正面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部背面麦克风采集的第y帧的声音信号中的后向声音信号。

该步骤可以由滤除模块完成。更具体地，这个技术实现可以由处理器调用存储器中的程序与指令进行相应的运算。该设计方案给出了针对不同位置的摄像头如何进行噪声处理。

根据第一方面或者第二方面，在一种可能的设计中，若终端在底部还包括第三麦克风，第三麦克风位于底部的位置不做限定，且正在拍摄的摄像头为前置摄像头时，方法还包括：

针对第三麦克风和顶部正面麦克风采集到的第y帧的声音信号进行时延差定位，得到所述第y帧的声音信号的上下方位角；

在上下方位角大于第一预设角度时，确定所述第y帧的声音信号中包含次级噪声信号；该情形下，次级噪声信号为位于前置摄像头前方且位于前置摄像头摄像范围以外的噪声信号；

若确定出第y帧的声音信号中包含次级噪声信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部正面麦克风采集的第y帧的声音信号中的次级噪声信号。

具体实现过程中，上述装置还可以包括次级噪声滤除模块，用于执行上述方法。更具体地，这个技术实现可以由处理器调用存储器中的程序与指令进行相应的运算。该设计方案给出了当存在底部麦克风的时候，还可以对次级噪声进行处理。

根据第一方面或者第二方面，在一种可能的设计中，若终端在底部还包括第四麦克风，且第三麦克风和第四麦克风在终端底部左右排列，具体位置不做限定，该方法还包括：

针对第三麦克风和第四麦克风采集到的第y帧的声音信号进行时延差定位，得到所述第y帧的声音信号的左右方位角；

在左右方位角大于第二预设角度，确定所述第y帧的声音信号中包含次级噪声信号；

若确定出第y帧的声音信号中包含次级噪声信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部正面麦克风采集的第y帧的声音信号中的次级噪声信号。值得注意的是，采用上下方位角和左右方位角都能确定出次级噪声信号，只是侧重的声源方位不同，两者可以互为补充，比单独用上下方位角或用左右方位角确定次级噪声信号更为全面准确。

具体实现过程中，上述装置还可以包括次级噪声滤除模块，用于执行上述方法。更具体地，这个技术实现可以由处理器调用存储器中的程序与指令进行相应的运算。该设计方案给出了当底部存在两个麦克风的时候，还可以对次级噪声进行处理。

根据第一方面或者第二方面，在一种可能的设计中，若终端在底部还包括第三麦克风，第三麦克风位于底部的位置不做限定，且正在拍摄的摄像头为后置摄像头时，该方法还包括：

针对第三麦克风和顶部背面麦克风采集到的第y帧的声音信号进行时延差定位，得到所述第y帧的声音信号的上下方位角；

在上下方位角大于第一预设角度时，确定所述第y帧的声音信号中包含次级噪声信号，该情形下，次级噪声信号为位于后置摄像头前方且位于后置摄像头摄像范围以外的噪声信号；

若确定出第y帧的声音信号中包含次级噪声信号时，以顶部正面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部背面麦克风采集的第y帧的声音信号中的次级噪声信号。

根据第一方面或者第二方面，在一种可能的设计中，若终端在底部还包括第四麦克风，且第三麦克风和第四麦克风在终端底部左右排列，该方法还包括：

若确定出所述第y帧的声音信号中包含次级噪声信号时，以顶部正面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部背面麦克风采集的第y帧的声音信号中的次级噪声信号。值得注意的是，采用上下方位角和左右方位角都能确定出次级噪声信号，只是侧重的声源方位不同，两者可以互为补充，比单独用上下方位角或用左右方位角确定次级噪声信号更为全面准确。

第三方面，本发明实施例提供一种声音处理终端设备，所述设备应用于非视频通话的场景，该设备包括：两个顶部麦克风、摄像头、存储器、处理器；它们通过总线相连；其中，所述两个顶部麦克风分别位于所述设备的正面和背面；

两个顶部麦克风用于在所述处理器的控制下采集声音信号；

摄像头用于在所述处理器的控制下采集图像信号；

存储器用于存储计算机程序和指令；

处理器用于调用所述存储器中存储的计算机程序和指令，执行如上述任一一种可能的设计方法。

根据第三方面，在一种可能的设计中，终端设备还包括天线系统、天线系统在处理器的控制下，收发无线通信信号实现与移动通信网络的无线通信；移动通信网络包括以下的一种或多种：GSM网络、CDMA网络、3G网络、FDMA、TDMA、PDC、TACS、AMPS、WCDMA、TDSCDMA、WIFI以及LTE网络。

此外，上述方法、装置与设备也可以应用于视频通话的场景；尤其是无需识别是否存在特定用户的视频通话场景。

上述方法、装置与设备既可以应用于终端自带的拍照软件进行拍摄的场景；也可以应用于终端中运行第三方拍照软件进行拍摄的场景；拍摄包括普通拍摄，自拍，以及视频电话、视频会议、VR拍摄、航拍等多种拍摄方式。

通过上述方案，本发明的实施例中终端处于拍摄状态时，在低信噪比场景下，采用基于声压差的方法来判断声源方向，能够有效确定噪声并抑制噪声，提高摄像时目标声源的拾取精度，提高用户体验。

附图说明

图1为终端的结构示意图；

图2A、图2B或图2C为本发明实施例中终端上的麦克风布局示意图；

图3为本发明实施例中声音处理方法的流程图；

图4A为终端前后两个麦克风能量相差dB数与ILD的关系示意图；

图4B为利用麦克风进行声源定位的声源方向判断示意图；

图5为基于相位差的声源定位技术原理图；

图6为广义互相关声源定位方法实现示意图；

图7为本发明实施例中的声音处理装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，终端，可以是向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备，比如：移动电话(或称为“蜂窝”电话)，可以是便携式、袖珍式、手持式、可穿戴设备(如智能手表、智能手环等)、平板电脑、个人电脑(PC，Personal Computer)、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等。

图1示出了终端100的一种可选的硬件结构示意图。

参考图1所示，终端100可以包括射频单元110、存储器120、输入单元130、显示单元140、摄像头150、音频电路160、扬声器161、麦克风162、处理器170、外部接口180、电源190等部件，所述麦克风162可以是模拟麦克风或数字麦克风，能够实现正常的麦克风拾音功能，且麦克风的数量至少为2个，且麦克风的布局需满足一定的要求，具体可参阅图2A(终端顶部一前一后共两个麦克风)、图2B(终端顶部一前一后、底部一个，共三个麦克风)和图2C(终端顶部一前一后，底部一左一右共四个麦克风)所示的几种布局，当然也可以包括其他的布局方式。可通过操作系统获取到底层麦克风采集到的声音数据，可实现基本的通话功能。

本领域技术人员可以理解，图1仅仅是便携式多功能装置的举例，并不构成对便携式多功能装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

所述输入单元130可用于接收输入的数字或字符信息，以及产生与所述便携式多功能装置的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触摸屏131以及其他输入设备132。所述触摸屏131可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作)，并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作，将所述触摸动作转换为触摸信号发送给所述处理器170，并能接收所述处理器170发来的命令并加以执行；所述触摸信号至少包括触点坐标信息。所述触摸屏131可以提供所述终端100和用户之间的输入界面和输出界面。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏131，输入单元130还可以包括其他输入设备。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键132、开关按键133等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端100的各种菜单。进一步的，触摸屏131可覆盖显示面板141，当触摸屏131检测到在其上或附近的触摸操作后，传送给处理器170以确定触摸事件的类型，随后处理器170根据触摸事件的类型在显示面板141上提供相应的视觉输出。在本实施例中，触摸屏与显示单元可以集成为一个部件而实现终端100的输入、输出、显示功能；为便于描述，本发明实施例以触摸显示屏代表触摸屏和显示单元的功能集合；在某些实施例中，触摸屏与显示单元也可以作为两个独立的部件。

所述存储器120可用于存储指令和数据，存储器120可主要包括存储指令区和存储数据区，存储数据区可存储关节触摸手势与应用程序功能的关联关系；存储指令区可存储操作系统、应用、至少一个功能所需的指令等软件单元，或者他们的子集、扩展集。还可以包括非易失性随机存储器；向处理器170提供包括管理计算处理设备中的硬件、软件以及数据资源，支持控制软件和应用。还用于多媒体文件的存储，以及运行程序和应用的存储。

处理器170是终端100的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的指令以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器170可包括一个或多个处理单元；优选的，处理器170可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器170中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，他们也可以在独立的芯片上分别实现。处理器170还可以用于产生相应的操作控制信号，发给计算处理设备相应的部件，读取以及处理软件中的数据，尤其是读取和处理存储器120中的数据和程序，以使其中的各个功能模块执行相应的功能，从而控制相应的部件按指令的要求进行动作。

摄像头150用于采集图像或视频，可以通过应用程序指令触发开启，实现拍照或者摄像功能。

所述射频单元110可用于收发信息或通话过程中信号的接收和发送，特别地，将基站的下行信息接收后，给处理器170处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，射频单元110还可以通过无线通信与网络设备和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General PacketRadio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

音频电路160、扬声器161、麦克风162可提供用户与终端100之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，麦克风162用于收集声音信号，还可以将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器170处理后，经射频单元110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理，音频电路也可以包括耳机插孔163，用于提供音频电路和耳机之间的连接接口。

终端100还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器170逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

终端100还包括外部接口180，所述外部接口可以是标准的Micro USB接口，也可以使多针连接器，可以用于连接终端100与其他装置进行通信，也可以用于连接充电器为终端100充电。

尽管未示出，终端100还可以包括闪光灯、无线保真(wireless fidelity，WiFi)模块、蓝牙模块、各种传感器等，在此不再赘述。

在一些场景中，用户使用移动终端例如手机，进行视频录制或实时摄像时，用户一般希望摄像到的视频中不包含摄像头后方的声音。然而在信噪比较低的环境中，来自摄像头后方的干扰噪声源，容易被定位成摄像头摄像范围内的声源，声源定位容易出现误判，准确性较差。因此，本发明实施例提供一种声音处理方法和装置，以提高声源定位的准确性，降低误判，有效滤除来自摄像头后方的噪声，本发明实施例中也可以叫做后向声音信号。作为说明，以终端机身所在的平面为界，声源在摄像头后方区域(如，对于前置摄像头，前置摄像头后方区域可以理解为机身背面侧的区域，前置摄像头拍摄不到机身背面侧的区域；如，对于后置摄像头，后置摄像头后方可以理解为机身正面侧的区域，后置摄像头拍摄不到机身正面侧的区域)的噪声可以被理解为后向声音信号。上面所提到的区域允许存在一定的界定误差。

参阅图3所示，本发明实施例提供一种声音处理方法，所述方法可以应用在顶部具有两个麦克风的终端上，所述两个麦克风分别位于所述终端的正面和背面，且所述方法可以应用于非视频通话的场景，所述终端可以为图1所示的终端100，麦克风设置方式可以如图2A、图2B或图2C中的任意一种布局所示；具体流程包括如下步骤：

步骤31：检测到所述终端的摄像头处于拍摄状态时，利用所述两个麦克风采集所述终端所处当前环境中的声音信号。

步骤32：根据采集到的声音信号按照第一预设算法计算所述两个麦克风之间的声压差。其中，时域上，声音信号在信号处理过程中可以更精细地分为声音的帧信号(简称帧)，帧的长短与预先设置的划分算法有关，因此每个帧都有对应的声音信号。因此，步骤31也可以理解为，麦克风处于工作状态时，可以收集到当前环境中的连续的声音帧信号。

具体进行计算处理时，可以按照预设时间间隔，将上述采集到的声音信号分为至少一帧；接下来可以对每一帧或其中任意帧进行计算，得到第y帧对应的两个麦克风的声压差；其中，第y帧为至少一帧中的任意一帧；便于说明，第y帧还可以指当前正在进行计算处理的声音帧信号。通常对于整个声音信号来说，应该对声音信号中的每一帧都进行如同本发明实施例相同的处理方式；当然如果在精度要求不高的条件下，也可以对声音信号中的部分帧执行如同本发明实施例相同的处理方式。因此，本申请文件中第y帧不限定是声音信号中的某一个具体帧，它还可以代表着被用相同方式处理的一类帧。

步骤33：判断所述两个麦克风之间的声压差是否满足声源方向判定条件。

步骤34：若满足所述声源方向判定条件，则根据所述两个麦克风之间的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为声源位于所述终端机身平面后方的声音信号，其中，所述摄像头拍摄不到所述终端机身平面后方区域。后向声音信号也可以理解为一种噪声信号。

步骤35：若确定出所述声音信号中包含后向声音信号，则将所述声音信号中的后向声音信号进行滤除。

具体的，步骤31、32可以通过以下过程实现：

终端可以通过预先设定的检测程序识别出摄像头是否处于开启状态，如检测摄像头是否已经使能，一旦检测到摄像头处于拍摄状态时，所述终端利用所述终端的顶部正面和背面两个麦克风采集当前环境中的声音信号，理论上对于第y帧的声音信号可以分别记为S1、S2；基于S1、S2，利用快速傅里叶变换(Fast Fourier Transformation，FFT)算法计算S1、S2的功率谱，分别为P1、P2；根据P1、P2，计算所述两个麦克风之间的声压差；本领域技术人员应当清楚，声音信号可以由多个帧信号构成。另外，如果终端具有两个摄像头，在步骤31的具体实现过程中，在检测到摄像头使能时，通常也可以检测到终端是使用前置摄像头还是后置摄像头，使得处理器能够根据摄像头的位置为后面的信号处理做出合适的算法选择。

一种具体实现过程如下：

首先将所述两个麦克风采集到的声音信号发送到FFT模块，FFT模块负责对采集到的声音信号进行时频变换，得到信号的频谱。具体的，FFT模块采用短时傅立叶变换(Short-Time Fourier Transform，STFT)对信号进行处理。

这里以顶部正面和背面两个麦克风为例，假定两个麦克风拾取的声音信号为x_i(n)，其中i＝1，2，当所使用的摄像头为前置摄像头时，i＝2，2分别表示正面、反面的麦克风；当所使用的摄像头为后置摄像头时，i＝1，2分别表示反面、正面的麦克风；n表示一帧信号的样点数，以8k采样率，10ms为帧长为例，n等于80。经过傅里叶变换后得到信号x_i(N，l)，N代表一帧信号对应的发送频点，l代表帧号。信号的功率谱

第y帧对应的两个mic的声压差(interaural level difference，ILD)采用如下公式计算：

以使用前置摄像头拍摄为例(使用后置摄像头拍摄，原理类似)，其中，P₁表示顶部正面麦克风在第y帧对应的声音功率谱，P₂表示顶部背面麦克风在第y帧对应的声音功率谱，且P1和P2均为含有N个元素的向量，所述N个元素为第y帧声音信号进行快速傅里叶变换后对应的N个频点的值，N为大于1的整数；ILD_now为包含N个频点对应的声压差的向量，N的取值由预设的频点划分规则决定。上述例子中的算法仅为第一预设算法中的一种实现形式，并非限定。

图4A为顶部正面和背面两个mic能量相差分贝(dB)数与ILD的关系。

如图4A所示，ILD的取值范围是-1～1。1代表第y帧顶部正面麦克风能量显著大于顶部背面麦克风能量，属于前向声音信号，-1代表第y帧顶部背面麦克风能量显著大于顶部正面麦克风能量，属于后向声音信号。

然而，当声压差满足一定条件的时候，利用声压差去判定后向声音信号才更准确，具体的，步骤33利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件，包括以下过程：

利用当前正在进行计算处理的频点对应的所述两个麦克风的声压差，计算所述两个麦克风在当前频点对应的声压差的最大值和声压差的最小值；在所述两个麦克风在当前频点对应的声压差的最大值与声压差的最小值之差大于第一门限值时，确定在当前频点满足利用声压差判断声源方向的条件；在所述声压差的最大值与所述声压差的最小值之差不大于第一门限值时，确定在当前频点不满足利用声压差判断声源方向的条件。如果在一帧信号中，在N个频点中的M个频点上满足声源方向判定条件，则确定所述第y帧的两个麦克风之间的声压差满足声源方向判定条件，其中M大于等于N/2；即第y帧可以用声压差开判定是否有后向声音信号。

这里，用ILD_max表示第i频点(第y帧对应的频点中的一个)对应的声压差的最大值，ILD_min表示第i频点对应的声压差的最小值，ILD_max和ILD_min在某一初始帧的第一个频点时，可以设为0或者设为预置的顶部正面和顶部背面两个麦克风的声压差，具体的，当ILD_max-ILD_min＞第一门限时，认为两个麦克风之间的声压差在第i频点上满足声源方向判定条件，否则认为在第i频点上不满足声源方向判定条件其中，ILDmax就是基于第i频点对应的两个麦克风的声压差计算的声压差的最大值，ILDmin就是基于第i频点对应的两个麦克风的声压差计算的声压差的最小值。

其中，ILD_max、ILD_min计算方法如下：

在第i频点对应的两个麦克风的声压差不大于第i-1频点(上一频点)对应的声压差的最大值时，利用以下公式计算所述两个麦克风在第i频点对应的声压差的最大值，

ILD_max＝α_low*ILD_now+(1-α_low)*ILD_max′；

在第i频点对应的两个麦克风的声压差大于第i-1频点(上一频点)对应的声压差的最大值时，利用以下公式计算所述两个麦克风在第i频点对应的声压差的最大值，

ILD_max＝α_fast*ILD_now+(1-α_fast)*LD_max′；

在第i频点对应的两个麦克风的声压差大于第i-1频点(上一频点)对应的声压差的最小值时，利用以下公式计算所述两个麦克风在第i频点对应的声压差的最小值，

ILD_min＝α_low*ILD_now+(1-α_low)*ILD_min′；

在第i频点对应的两个麦克风的声压差不大于第i-1频点(上一频点)对应的声压差的最小值时，利用以下公式计算所述两个麦克风在第i频点对应的声压差的最小值，

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min′；

其中，ILD_now表示所述第i频点对应的两个麦克风的声压差，ILD_max表示所述第i频点对应的最大参考值，ILD_max′表示所述第i-1频点对应的最大参考值，ILD_min表示所述第i频点对应的最小参考值，ILD_min′表示所述第i-1频点对应的最小参考值，α_fast、α_low表示预设的步长值，且α_fast>α_low，建议分别为0.95和0.05，由此可知ILD_max表示是基于第i频点的声压差ILD_now和上一频点的声压差最大值进行平滑得到的，ILD_min是基于第i频点的声压差ILD_now和上一频点的声压差最小值进行平滑得到的。

进一步的，如果第y帧声压差满足声源判定条件，则基于终端的顶部正面和背面两个麦克风的声压差，确定第y帧声音信号中是否包含后向声音信号，并在确定出所述第y帧声音信号中包括后向声音信号时，将后向信号滤除。

具体实现过程中，如图2A所示，在终端的顶部正面和背面各具有1个麦克风的布局情形下，步骤34可以具体为：在所述两个麦克风在第j频点对应的声压差小于第二门限值时，确定所述声音信号对应的第j频点处包含后向声音信号；在所述两个麦克风在第j频点对应的声压差不小于第二门限值时，确定所述声音信号对应的第j频点处不包含后向声音信号。

步骤35可以具体为：若确定声音信号对应的第j频点处包含后向声音信号且终端正在拍摄的摄像头为前置摄像头时，则以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的第y帧的声音信号中的后向声音信号；若正在拍摄的摄像头为后置摄像头，则以顶部正面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部背面麦克风采集的第y帧的声音信号中的后向声音信号。如可以采用NLMS自适应滤波器方案。频域滤波器是时域滤波器的等效形式，两种滤波方式在信号处理时的原理是可以进行等效的，这些都是现有技术，详细滤除过程不过详述。

值得说明的是，任意一个顶端包含前后两个麦克风的终端都可以使用此方法，如图2B、2C均可。

然而，通常摄像头能投摄取的视角范围为120度左右，而并非整个摄像头的前方区域，因此还可能存在声源位于摄像头前方且超出摄像头摄像范围的噪声信号，这部分噪声信号相对后向声音信号对摄像内容的影响较小，可以被定义为次级噪声信号，上面所提到的区域允许存在一定的界定误差，另外作为补充说明，本发明中所提到的次级噪声信号和后向声音信号的声源空间范围可以由本领域技术人员根据经验值进行确定，也可以由摄像头和终端的参数进行确定。因此在具体实现过程中，除了滤除后向声音信号那部分噪声之外，还可以进一步滤除次级噪声，可以参照下列两个示例。

示例一：

终端的顶部正面和背面以及底部各具有1个麦克风的布局情形。下面以终端的顶部正面和背面以及底部左边各具有1个麦克风的布局情形为例，如图2B所示，此时，无论之前是否存在后向声音信号，上述声音处理方法还可以包括以下步骤：

步骤36：若使用前置摄像头拍摄时，还可以针对底部左面麦克风和顶部正面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角；在所述上下方位角大于第一预设角度时，确定第y帧的声音信号中包含次级噪声信号。次级噪声信号为位于前置摄像头前方且位于前置摄像头摄像范围边界以外的噪声信号。若确定出第y帧的声音信号中包含次级噪声信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的第y帧的声音信号中的次级噪声信号。

若使用后置摄像头拍摄时，还可以针对底部左面麦克风和顶部后面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角；在上下方位角大于第一预设角度(与上一段中的第一预设角度可以相同也可以不同)时，确定第y帧的声音信号中包含次级噪声信号。此时，次级噪声信号为位于后置摄像头前方且位于后置摄像头摄像范围边界以外的噪声信号。若确定出第y帧的声音信号中包含次级噪声信号时，以顶部正面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部背面麦克风采集的第y帧的声音信号中的次级噪声信号。

在具体实现过程中，终端的顶部正面和背面以及底部右边各具有1个麦克风的布局情形与上面的实例原理极为相似，本领域技术人员能够基于本发明实例轻松实现类似实例方式，此处不加以赘述。

示例二：

终端的顶部正面和背面以及底部左面和右面各具有1个麦克风的布局情形下，为引用方便，底部的两个麦克风也可以称作第三麦克风、第四麦克风。如图2C所示，此时，无论之前是否存在后向声音信号，上述声音处理方法还可以包括以下步骤：

步骤37：若使用前置摄像头拍摄时，还可以针对底部左面麦克风和顶部正面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角；在所述上下方位角大于第一预设角度时，确定第y帧的声音信号中包含次级噪声信号。次级噪声信号为位于前置摄像头前方且位于前置摄像头摄像范围边界以外的噪声信号。进一步地，还针对所述第三麦克风和所述第四麦克风采集到的第y帧的声音信号进行时延差定位，得到第y帧的声音信号的左右方位角；在左右方位角大于第二预设角度，确定第y帧的声音信号中包含次级噪声信号。通过上述步骤，若确定出第y帧的声音信号中包含次级噪声信号时，则以顶部背面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部正面麦克风采集的第y帧的声音信号中所有的次级噪声信号。另外，上下方位角和左右方位角所能检测到的是噪声虽然都属于次级噪声信号，但侧重的噪声声源的方位是略有侧重的，如上下方位角更侧重检测终端所在平面上下方向上的噪声，而左右方位角更侧重检测终端所在平面左右方向上的噪声。

若使用后置摄像头拍摄时，还可以针对底部左面麦克风和顶部后面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角；在上下方位角大于第一预设角度时，确定第y帧的声音信号中包含次级噪声信号。此时，次级噪声信号为位于后置摄像头前方且位于后置摄像头摄像范围边界以外的噪声信号。进一步地，还可以针对第三麦克风和第四麦克风采集到的第y帧的声音信号进行时延差定位，得到第y帧的声音信号的左右方位角；在左右方位角大于第二预设角度(与上一段中的第二预设角度可以相同也可以不同)，确定第y帧的声音信号中包含次级噪声信号；通过上述步骤，若确定出第y帧的声音信号中包含次级噪声信号时，以顶部正面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部背面麦克风采集的第y帧的声音信号中所有的次级噪声信号。另外，上下方位角和左右方位角所能检测到的是噪声虽然都属于次级噪声信号，但侧重的噪声声源的方位是略有侧重的，如上下方位角更侧重检测终端所在平面上下方向上的噪声，而左右方位角更侧重检测终端所在平面左右方向上的噪声。

由此可知，可以利用终端前后两个麦克风声压差信息，进行前后向的声源方位估计。此外，也可以利用时延差信息进行前后向的声源方位估计，如图4B中θ₁角(前后方位角)，即为利用前后麦克风的时延差进行方位估计得到的角度值。这里前后麦克风分别指的是顶部正面和背面的麦克风。具体计算方法参照图5中的时延差计算方法。时延差的计算方法属于现有技术，本发明中不予以赘述。

当底部存在麦克风时，类似图2B中的麦克风布局。增加了底部左面麦克风，图4B中用mic2表示，此时利用底部的mic2和前mic，采用基于时延差的方位角估计方法，计算θ₂。当底部具有两个麦克风时，类似图2C中的麦克风布局。增加了底部左面和右面麦克风，图4B中分别用mic2、mic1表示，此时可利用底部mic1和底部mic2，采用基于时延差的方位角估计方法，计算θ₃。如图4B中所示，前后mic可对空间坐标系x、y、z轴中的x轴进行角度解析，前mic和底部mic2可对y轴进行角度解析，底部mic1和底部mic2可对z轴进行方位角解析。

此时，通过三个角度值θ₁、θ₂、θ₃(前后方位角、左右方位角、上下方位角)，即可实现空间的声源定位功能，进而定位出目标声源是否在摄像头的摄像范围内。其中，前后方位、左右方位、上下方位都是以手机的机身作为参照的，如前后方位指的是手机的正面和背面方向，左右方位指机身两侧的方向，上下方位指机身顶部和底端的方向。

仍以前置摄像头拍摄为例(注：后置摄像头拍摄虽是不同场景，但方案实现原理类似，故本发明不再做赘述，并非限定应用场景，全文皆如此)，众所周知，摄像头的视场角在终端上的显示，为两个开角，分别为开角1和开角2；开角1对应z轴方向，开角2对应y轴方向。本算法首先利用声压差或时延差的角度估计方法，区分了前后向的声源信号，接下来就是利用θ₂对y轴的开角进行约束，当θ₂大于摄像头的开角2时，此时的声音信号中包含次级噪声信号。θ₃同理，当θ₃大于开角1时，声音信号中包含次级噪声信号。值得说明的是，次级噪声信号是一个相对更上位的概念，用θ₂和θ₃进行判定的方法所检测的次级噪声方位并不相同，采用θ₂主要偏重检测左右方位的次级噪声，采用θ₃主要偏重检测上下方位的次级噪声，θ₂和θ₃在声源方位的判定上起到相互补充的作用。

在具体实现过程中，基于声压差的声源定位方法，在麦克风布局为图2A所示的情形下，可以得到第y帧的声音信号是否包含后向声音信号，在第y帧信号不包含后向声音信号时，输出语音活动检测(Voice Activity Detection，VAD)标志为0；在第y帧的声音信号包含后向声音信号时，认为含有噪声声源，输出VAD标志为1；在麦克风布局为图2B和图2C所示的情形下，可以得到第y帧的声音信号是否包含后向声音信号，在第y帧的声音信号包含后向声音信号时，输出VAD标志为1；在第y帧信号不包含后向声音信号时，进一步的确定是否包括次级噪声信号，若不包括次级噪声信号，则输出语音活动检测(Voice ActivityDetection，VAD)标志为0；否则，输出VAD标志为1；其中，VAD标志默认为0。总之，若同时考虑到后向声音信号和次级噪声的影响，当前声音信号中含有次级噪声或者后向声音信号中的任意一个，VAD将被置为1；若只考虑到后向声音信号的影响，只要含有后向声音信号，则VAD将被置为1；显然前者对声源更为敏感，要求更高，这些可以事先由用户灵活配置。

需要说明的是，在当前ILD信息无效时，即利用顶部正面和背面两个麦克风的声压差，确定不满足利用声压差判断声源方向的条件，此时，使用传统的基于相位差的声源定位技术进行声源定位判断，具体方法如下所示：

如图5所示，当远场声源信号平行入射时，由于入射角的不同，信号到达两个mic存在时间差，时间差信息对于任一频率的波形信号来说，就是其相位的变化量，即相位差。

当入射角为0°，相位差

f为频率，c为声速，d为mic间距，0°入射时，这里

等于0，180°入射时

等于π。图5中h可理解为两个mic的相位差，d为两个mic的最大相位差，入射角＝asin(h/d)。其中，最大相位差为

两个mic的相位差为频点复数信号的相位角差(复数可用三角函数表示为x+yi＝|A|(cosθ+isinθ)，A为复数的模)。

基于整帧的相位差声源定位方法有很多种，比较常见的是广义互相关(GCC)声源定位方法，GCC实现方法如图6所示：

图6中的x₁，x₂为两个mic接收的时域信号，FFT为快速傅里叶变换，通过计算得到的峰值索引τ₁₂，即对应的时延样点数，则

入射角可按下式进行计算：

c为声速，d为mic间距，Fs为采样率。

基于相位差的声源定位方法，可以得到第y帧信号的整帧及频点入射角，当整帧和频点入射角都在波束拾取范围外(波束范围事先设定好)时，认为是声音信号中包含后向声音信号即为噪声声源，输出VAD标志为1；否则输出VAD标志为0，VAD标志默认为0。

具体的，在VAD标志输出为0时，将顶部后面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的声音信号中的噪声信号。具体的实现过程为：将VAD标志输出给波束形成器，可选的，采用归一化最小均方误差(NLMS)滤波器，NLMS需要用参考信号自适应产生期望信号，并用期望信号减去目标信号，从而得到残差信号，并以残差最小为设计导向。NLMS的滤波器步长，通过上述声源定位结果进行指导，当判断为前向声音信号即目标声源时，滤波器步长为0，不更新。当判断为后向声音信号包含噪声源时，滤波器步长最大，进行更新。这里滤波器的参考信号使用的是与目标用户相反方向的信号。比如：说话人在屏幕正前方时，参考信号选取终端顶部背面mic的信号。反之亦然。将更新好的滤波器系数乘以输入(in)信号，得到滤除后向噪声成分的输出信号。

进一步的，针对波束后的信号，再利用声源定位结果，指导波束后的后处理降噪。当频点的声源定位结果为包含噪声时，更新该频点的噪声能量，并使用传统的维纳滤波算法，进行后处理增益压制。对波束形成后的信号，进行进一步的降噪处理。

接着，将后处理处理后的信号，送给回声消除模块，进行进一步的回声消除。由于波束形成及后处理部分，本身对回声信号已有一定的消除作用。因为该场景下，喇叭所处的位置一般在手机的底部或背部，喇叭产生的信号方位，属于噪声方位。所以，相较于传统的回声消除技术，麦克风阵列的波束形成及后处理技术，会使回声更小，更易于消除。

因为中高频信号被终端遮挡时，可产生显著的遮挡效应。当低信噪比或多声源场景时，时延差信息已经非常浑浊，是多个方位声源的混合。基于时延差的声源定位的结果呈现随机性。此时，声压差信息，虽然也是混合的。但是只要终端正面和背面的声源，在两个mic上产生的声压差，有相对的差异性，即可利用进行声源定位，尤其视频通话场景，当说话人、噪声源等声源，距离终端不是很远时，该声压差信息更加可靠。

具体实现过程中，终端100上的mic麦克风布局，包括但不限于图2A、图2B或图2C中的任意一种布局。图2A、图2B或图2C中的麦克风布局属于典型的直列式布局。麦克风数量增多时，可以对波束的拾音范围进行更好的区分，使波束范围更准确，可实现空间3D声源定位。采用图2A中的麦克风布局时，可以有效区分前后的信号。当使用图2B中的mic布局时，不仅可以有效区分前后的信号，由于底部增加了一个mic(左右位置不限定)，可进行手机上下方向的声源方位区分。当使用图2C中的mic布局时，不仅可以有效区分前后的信号，由于底部新增两个左右分布的mic，可进行上下方位、左右方位的声源方位区分，可实现空间3D的声源定位。

本发明提供了一种声音处理方法，该方法应用于顶部具有两个麦克风的终端上，这两个麦克风分别位于终端的正面和背面，检测到终端的摄像头处于拍摄状态时，利用两个麦克风采集当前环境中的声音信号；根据采集到的声音信号按照第一预设算法计算两个麦克风之间的声压差；判断两个麦克风之间的声压差是否满足声源方向判定条件；若满足声源方向判定条件，则根据两个麦克风之间的声压差，确定出声音信号中是否包含后向声音信号，后向声音信号为声源位于所述摄像头后方的声音信号；若确定出声音信号中包含后向声音信号，则将声音信号中的后向声音信号进行滤除。采用该方法，可以在摄像时，将摄像范围外的噪声信号滤除，保证了拍摄时的视频的声音质量，提高用户的体验。

如图7所示，基于上述实施例提供的声音处理方法，本发明实施例提供一种声音处理装置700，所述装置700应用于顶部具有两个麦克风的终端上，所述两个麦克风分别位于所述终端的正面和背面，且所述装置可以应用于非视频通话的场景，如图7所示，该装置700包括采集模块701、计算模块702、判断模块703、确定模块704和滤除模块705，其中：

采集模块701，用于检测到所述终端的摄像头处于拍摄状态时，利用所述两个麦克风采集所述终端所处当前环境中的声音信号。该采集模块可以由处理器实现，可以调用本地存储器或云端服务器中的程序指令，监测摄像头的摄像功能是否使能；如果监测到摄像头已经使能，则处理器可以进一步控制麦克风采集声音信号，进一步地，还可以通过音频电路将采集到的信号转换为数字信号。

一种具体实现过程中，采集模块701可以包含检测单元701a和接收单元701b，检测单元701a用于检测是否有摄像头处于使能状态，并且能区分出前后摄像头；如果检测到有摄像头存在使能，则有接收单元701b进一步采集当前环境中的声音信号。这两个单元也都可以通过处理器调用存储器中的程序和指令来实现相应功能。

计算模块702，用于根据采集模块701采集到的声音信号按照第一预设算法计算所述两个麦克风之间的声压差。该计算模块可以由处理器实现，可以通过调用本地存储器或云端服务器中的声压差算法程序，对上述采集到的声音信号进行计算处理，得到声压差。

判断模块703，用于判断所述计算模块702计算出来的两个麦克风之间的声压差是否满足声源方向判定条件。该判断模块可以由处理器实现，可以通过调用本地存储器或云端服务器中的判断算法程序，进行相应计算，得到判断结果。确定模块704，用于当所述判断模块703得出满足所述声源方向判定条件，则根据所述两个麦克风之间的声压差，确定出所述声音信号中是否包含后向声音信号。该确定模块可以由处理器实现，当接收到结果为满足时，可以通过调用本地存储器或云端服务器中的后向声音判断算法程序，确定出声音信号中是否包含后向声音信号。

滤除模块705，用于若所述确定模块704确定出所述声音信号中包含后向声音信号，则将所述声音信号中的后向声音信号进行滤除。该滤除模块可以由处理器实现，当确定出声音信号包含后向声音信号时，可以通过调用本地存储器或云端服务器中的噪声滤除算法程序，将声音信号中的后向声音信号进行滤除。

然而，通常摄像头能投摄取的视角范围为120度左右，而并非整个摄像头的前方区域，因此还可能存在声源位于摄像头前方且超出摄像头摄像范围的噪声信号，这部分噪声信号相对后向声音信号对摄像内容的影响较小，可以被理解为次级噪声信号，上面所提到的区域允许存在一定的界定误差。因此在具体实现过程中，除了滤除后向声音信号那部分噪声之外，还可以进一步滤除次级噪声，可以参照下列两个示例。

示例三：

终端的顶部正面和背面以及底部各具有1个麦克风的布局情形。下面以终端的顶部正面和背面以及底部左边各具有1个麦克风的布局情形为例，如图2B所示，此时，无论之前是否存在后向声音信号，上述装置还可以包括次级噪声滤除模块706，用于执行以下步骤：

若采集模块701检测到终端使用前置摄像头拍摄时，还可以针对底部左面麦克风和顶部正面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角；在所述上下方位角大于第一预设角度时，确定第y帧的声音信号中包含次级噪声信号。次级噪声信号为位于前置摄像头前方且位于前置摄像头摄像范围边界以外的噪声信号。若确定出第y帧的声音信号中包含次级噪声信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的第y帧的声音信号中的次级噪声信号。

若采集模块701检测到终端使用后置摄像头拍摄时，还可以针对底部左面麦克风和顶部后面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角；在上下方位角大于第一预设角度(与上一段中的第一预设角度可以相同也可以不同)时，确定第y帧的声音信号中包含次级噪声信号。此时，次级噪声信号为位于后置摄像头前方且位于后置摄像头摄像范围边界以外的噪声信号。若确定出第y帧的声音信号中包含次级噪声信号时，以顶部正面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部背面麦克风采集的第y帧的声音信号中的次级噪声信号。

示例四：

终端的顶部正面和背面以及底部左面和右面各具有1个麦克风的布局情形下，为引用方便，底部的两个麦克风也可以称作第三麦克风、第四麦克风。如图2C所示，此时，无论之前是否存在后向声音信号，上述装置还可以包括次级噪声滤除模块，用于执行以下步骤：

若采集模块701检测到终端使用前置摄像头拍摄时，还可以针对底部左面麦克风和顶部正面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角；在所述上下方位角大于第一预设角度时，确定第y帧的声音信号中包含次级噪声信号。次级噪声信号为位于前置摄像头前方且位于前置摄像头摄像范围边界以外的噪声信号。进一步地，还针对所述第三麦克风和所述第四麦克风采集到的第y帧的声音信号进行时延差定位，得到第y帧的声音信号的左右方位角；在左右方位角大于第二预设角度，确定第y帧的声音信号中包含次级噪声信号。通过上述步骤，若确定出第y帧的声音信号中包含次级噪声信号时，则以顶部背面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部正面麦克风采集的第y帧的声音信号中所有的次级噪声信号。

若采集模块701检测到终端使用后置摄像头拍摄时，还可以针对底部左面麦克风和顶部后面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角；在上下方位角大于第一预设角度时，确定第y帧的声音信号中包含次级噪声信号。此时，次级噪声信号为位于后置摄像头前方且位于后置摄像头摄像范围边界以外的噪声信号。进一步地，还可以针对第三麦克风和第四麦克风采集到的第y帧的声音信号进行时延差定位，得到第y帧的声音信号的左右方位角；在左右方位角大于第二预设角度(与上一段中的第二预设角度可以相同也可以不同)，确定第y帧的声音信号中包含次级噪声信号；通过上述步骤，若确定出第y帧的声音信号中包含次级噪声信号时，以顶部正面麦克风采集的声音信号作为参考信号，控制终端的自适应滤波器滤除顶部背面麦克风采集的第y帧的声音信号中所有的次级噪声信号。

对于以上次级噪声滤除模块，可以由处理器实现，当确定出声音信号包含次级噪声信号时，可以通过调用本地存储器或云端服务器中的次级噪声滤除算法程序，将声音信号中所有的次级噪声信号进行滤除。

在具体实现过程中，采集模块701具体用于执行步骤31中所提到的方法以及可以等同替换的方法；计算模块702具体用于执行步骤32中所提到的方法以及可以等同替换的方法；判断模块703具体用于执行步骤33中所提到的方法以及可以等同替换的方法；确定模块704具体用于执行步骤34中所提到的方法以及可以等同替换的方法；滤除模块705具体用于执行步骤35中所提到的方法以及可以等同替换的方法；次级噪声滤除模块706具体用于执行步骤36或37中所提到的方法以及可以等同替换的方法。其中，上述具体的方法实施例以及实施例中的解释和表述也适用于装置中的方法执行。

本发明提供了一种声音处理装置，该装置应用于顶部具有两个麦克风的终端上，这两个麦克风分别位于终端的正面和背面，该装置包括：采集模块701、计算模块702、判断模块703、确定模块704和滤除模块705；采集模块701在检测到终端的摄像头处于拍摄状态时，利用两个麦克风采集当前环境中的声音信号；计算模块702根据采集到的声音信号按照第一预设算法计算两个麦克风之间的声压差；判断模块703判断两个麦克风之间的声压差是否满足声源方向判定条件；若满足声源方向判定条件，则确定模块704根据两个麦克风之间的声压差，确定出声音信号中是否包含后向声音信号，后向声音信号为声源位于所述摄像头后方的声音信号；若确定出声音信号中包含后向声音信号，则滤除模块705将声音信号中的后向声音信号进行滤除。采用该装置，可以在摄像时，将摄像范围外的噪声信号滤除，保证了拍摄时的视频的声音质量，提高用户的体验。

应理解以上装置700中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。例如，以上各个模块可以为单独设立的处理元件，也可以集成在终端的某一个芯片中实现，此外，也可以以程序代码的形式存储于控制器的存储元件中，由处理器的某一个处理元件调用并执行以上各个模块的功能。此外各个模块可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。该处理元件可以是通用处理器，例如中央处理器(英文：central processing unit，简称：CPU)，还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(英文：application-specific integrated circuit，简称：ASIC)，或，一个或多个微处理器(英文：digital signal processor，简称：DSP)，或，一个或者多个现场可编程门阵列(英文：field-programmable gate array，简称：FPGA)等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种声音处理方法，其特征在于，所述方法应用于顶部具有两个麦克风的终端上，所述两个麦克风分别位于所述终端的正面和背面，且所述方法应用于非视频通话的场景，所述方法包括：

当所述终端的摄像头处于拍摄状态时，利用所述两个麦克风采集所述终端所处当前环境中的声音信号；

根据采集到的声音信号按照第一预设算法计算所述两个麦克风之间的声压差；

判断所述两个麦克风之间的声压差是否满足声源方向判定条件；

若满足所述声源方向判定条件，则根据所述两个麦克风之间的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为声源位于所述摄像头后方区域的声音信号，其中，所述摄像头拍摄不到所述摄像头后方的区域；

若确定出所述声音信号中包含后向声音信号，则将所述声音信号中的后向声音信号进行滤除。

2.如权利要求1所述的方法，其特征在于，

所述根据采集到的声音信号按照第一预设算法计算所述两个麦克风之间的声压差，包括：

按照预设时间间隔，将所述声音信号分为至少一帧；

获取所述两个麦克风在第y帧采集到的声音信号S1、S2，基于S1、S2，利用快速傅里叶变换FFT算法计算S1、S2的功率谱，分别为P₁、P₂；其中，所述第y帧为所述至少一帧中的任意一帧；

根据P₁、P₂，利用以下公式计算所述两个麦克风之间的声压差；

其中，P₁表示顶部正面麦克风在第y帧对应的声音功率谱，P₂表示顶部背面麦克风在第y帧对应的声音功率谱，且P₁和P₂均为含有N个元素的向量，所述N个元素为第y帧声音信号进行快速傅里叶变换后对应的N个频点的值，N为大于1的整数；ILD_now为包含N个频点对应的声压差的向量。

3.如权利要求2所述的方法，其特征在于，所述判断所述两个麦克风之间的声压差是否满足声源方向判定条件，包括：对于第y帧，

利用第i频点对应的所述两个麦克风的声压差，按照第二预设算法计算出所述第i频点对应的最大参考值和最小参考值，其中所述第i频点为所述N个频点中的一个，i取遍不大于N的所有正整数；

如果所述第i频点的最大参考值与所述最小参考值之差大于所述第i频点对应的第一门限值，则确定所述两个麦克风之间的声压差在所述第i频点上满足声源方向判定条件；

如果所述最大参考值与所述最小参考值之差不大于所述第i频点对应的第一门限值，则确定所述两个麦克风之间的声压差在所述第i频点上不满足声源方向判定条件；

若所述N个频点中的M个频点满足声源方向判定条件，确定所述两个麦克风之间的声压差在第y帧满足声源方向判定条件，其中M大于等于N/2。

4.如权利要求3所述的方法，其特征在于，所述利用第i频点对应的所述两个麦克风的声压差，按照第二预设算法计算出所述第i频点对应的最大参考值和最小参考值，包括：

ILD_max＝α_low*ILD_now+(1-α_low)*ILD_max′；

ILD_max＝α_fast*ILD_now+(1-α_fast)*ILD_max′；

ILD_min＝α_low*ILD_now+(1-α_low)*ILD_min′；

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min′；

5.如权利要求3所述的方法，其特征在于，所述根据所述两个麦克风之间的声压差，确定出所述声音信号中是否包含后向声音信号，包括：对于第y帧，

6.如权利要求1-5任一项所述的方法，其特征在于，所述将所述声音信号中的后向声音信号进行滤除，包括：

若所述终端正在拍摄的摄像头为前置摄像头，则以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的第y帧的声音信号中的后向声音信号；

若所述终端正在拍摄的摄像头为后置摄像头，则以顶部正面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部背面麦克风采集的第y帧的声音信号中的后向声音信号。

7.如权利要求1-5任一项所述的方法，其特征在于，若所述终端在底部还包括第三麦克风，且正在拍摄的摄像头为前置摄像头时，所述方法还包括：

针对所述第三麦克风和顶部正面麦克风采集到的第y帧的声音信号进行时延差定位，得到所述第y帧的声音信号的上下方位角；

在所述上下方位角大于第一预设角度时，确定所述第y帧的声音信号中包含次级噪声信号；所述次级噪声信号为位于所述前置摄像头前方且位于所述前置摄像头摄像范围以外的噪声信号；

若确定出所述第y帧的声音信号中包含次级噪声信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的第y帧的声音信号中的次级噪声信号。

8.如权利要求1-5任一项所述的方法，其特征在于，若所述终端在底部还包括第三麦克风，且正在拍摄的摄像头为后置摄像头时，所述方法还包括：

针对所述第三麦克风和顶部背面麦克风采集到的第y帧的声音信号进行时延差定位，得到所述第y帧的声音信号的上下方位角；

在所述上下方位角大于第一预设角度时，确定所述第y帧的声音信号中包含次级噪声信号，所述次级噪声信号为位于所述后置摄像头前方且位于所述后置摄像头摄像范围以外的噪声信号；

若确定出所述第y帧的声音信号中包含次级噪声信号时，以顶部正面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部背面麦克风采集的第y帧的声音信号中的次级噪声信号。

9.如权利要求7所述的方法，其特征在于，若所述终端在底部还包括第四麦克风，且所述第三麦克风和所述第四麦克风在终端底部左右排列，所述方法还包括：

针对所述第三麦克风和所述第四麦克风采集到的第y帧的声音信号进行时延差定位，得到所述第y帧的声音信号的左右方位角；

在所述左右方位角大于第二预设角度，确定所述第y帧的声音信号中包含次级噪声信号；

10.如权利要求8所述的方法，其特征在于，若所述终端在底部还包括第四麦克风，且所述第三麦克风和所述第四麦克风在终端底部左右排列，所述方法还包括：

11.一种声音处理装置，其特征在于，所述装置应用于顶部具有两个麦克风的终端上，所述两个麦克风分别位于所述终端的正面和背面，且所述装置应用于非视频通话的场景，所述装置包括：

采集模块，用于当所述终端的摄像头处于拍摄状态时，利用所述两个麦克风采集所述终端所处当前环境中的声音信号；

计算模块，用于根据采集到的声音信号按照第一预设算法计算所述两个麦克风之间的声压差；

判断模块，用于判断所述两个麦克风之间的声压差是否满足声源方向判定条件；

确定模块，用于若满足所述声源方向判定条件，则根据所述两个麦克风之间的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为声源位于所述摄像头后方的声音信号，其中，所述摄像头拍摄不到所述摄像头后方的区域；

滤除模块，用于若确定出所述声音信号中包含后向声音信号，则将所述声音信号中的后向声音信号进行滤除。

12.如权利要求11所述的装置，其特征在于，

所述计算模块具体用于：

按照预设时间间隔，将所述声音信号分为至少一帧；

13.如权利要求12所述的装置，其特征在于，所述判断模块具体用于，对于第y帧，

14.如权利要求13所述的装置，其特征在于，所述判断模块具体用于，

ILD_max＝α_low*ILD_now+(1-α_low)*ILD_nax′；

ILD_max＝α_fast*ILD_now+(1-α_fast)*ILD_max′；

ILD_min＝α_low*ILD_now+(1-α_low)*ILD_min′；

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min′；

15.如权利要求13所述的装置，其特征在于，所述确定模块具体用于，对于第y帧，

16.如权利要求11-15任一项所述的装置，其特征在于，所述滤除模块具体用于，

17.如权利要求11-15任一项所述的装置，其特征在于，若所述终端在底部还包括第三麦克风，且正在拍摄的摄像头为前置摄像头时，所述装置还包括次级噪声滤除模块，所述次级噪声滤除模块具体用于：

18.如权利要求11-15任一项所述的装置，其特征在于，若所述终端在底部还包括第三麦克风，且正在拍摄的摄像头为后置摄像头时，所述装置还包括次级噪声滤除模块，所述次级噪声滤除模块具体用于：

19.如权利要求17所述的装置，其特征在于，若所述终端在底部还包括第四麦克风，且所述第三麦克风和所述第四麦克风在终端底部左右排列，所述次级噪声滤除模块具体用于：

在所述左右方位角大于第二预设角度，确定所述第y帧的声音信号中包含次级噪声信号；；

20.如权利要求18所述的装置，其特征在于，若所述终端在底部还包括第四麦克风，且所述第三麦克风和所述第四麦克风在终端底部左右排列，所述次级噪声滤除模块具体用于：

21.一种终端设备，其特征在于，所述设备应用于非视频通话的场景，所述设备包括：摄像头、存储器、处理器，总线，以及两个顶部麦克风；所述两个顶部麦克风、所述摄像头，所述存储器以及所述处理器通过所述总线相连；其中，所述两个顶部麦克风分别位于所述设备的正面和背面；

所述麦克风用于在所述处理器的控制下采集声音信号；

所述摄像头用于在所述处理器的控制下采集图像信号；

所述存储器用于存储计算机程序和指令；

所述处理器用于调用所述存储器中存储的所述计算机程序和指令，执行如权利要求1～10任一项所述的方法。

22.如权利要求21所述的终端设备，所述终端设备还包括天线系统、所述天线系统在处理器的控制下，收发无线通信信号实现与移动通信网络的无线通信；所述移动通信网络包括以下的一种或多种：GSM网络、CDMA网络、3G网络、FDMA、TDMA、PDC、TACS、AMPS、WCDMA、TDSCDMA、WIFI以及LTE网络。