CN109686378A

CN109686378A - 语音处理方法和终端

Info

Publication number: CN109686378A
Application number: CN201710954340.1A
Authority: CN
Inventors: 杜艳斌; 朱志海; 廖猛; 郑伟军; 陈伟宾; 鲍光照; 仇存收
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2019-04-26
Anticipated expiration: 2037-10-13
Also published as: EP3471099A2; CN109686378B; EP3471099A3; US20190115039A1; EP3471099B1; US10878833B2

Abstract

本申请提供了一种语音处理方法和终端，该方法应用于终端，能够识别出耳语信号。该方法包括：从多个麦克风接收信号，多个麦克风包括主麦克风和M个辅麦克风；采用相同的采样率对从多个麦克风接收到的多路信号分别进行模数转换，得到多路时域数字信号；对多路时域数字信号分别进行频域转换，得到多路频域信号，多路频域信号包括一路主频域信号和M路辅频域信号，主频域信号与主麦克风对应，M路辅频域信号与M个辅麦克风一一对应；根据主频域信号与M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与N路辅频域信号中的每路辅频域信号的相位差以及主频域信号的频率分布特征中的至少一项，确定主频域信号的信号类型。

Description

语音处理方法和终端

技术领域

本申请涉及语音处理领域，并且更具体地，涉及一种语音处理方法和终端。

背景技术

手机已经成为当今最主要的通话设备，手机通话中手持方式是应用最广的通话方式。在某些特定场合中，通话人旁边可能有其他人存在，通话人不方便大声讲话，为了避免打扰其他人，往往刻意压低说话音量，甚至使用耳语(即通常说的悄悄话)方式讲话。在通话时，一般都存在各种干扰音源，比如回声、混响及环境噪声，语音增强技术需要分离目标语音和干扰声，因此需要检测出目标语音段。然而，耳语讲话时人的声带不震动，语音特征和普通语音差别很大，当前的语音检测方式都是针对带谐波的浊音，无法区分耳语语音和干扰声。

因此，如何检测出耳语语音或耳语信号成为一个亟需解决的问题。

发明内容

本申请提供一种语音处理方法和终端，能够在不增加设备成本的前提下，识别出耳语信号，有利于增强耳语通话用户体验。

第一方面，提供了一种语音处理方法，该方法可以应用于终端。该方法包括：从多个麦克风接收信号，该多个麦克风包括主麦克风和M个辅麦克风，M≥1，且M为整数；采用相同的采样率对从该多个麦克风接收到的多路信号分别进行模数转换，得到多路时域数字信号；对多路时域数字信号分别进行频域转换，得到多路频域信号，该多路频域信号包括一路主频域信号和M路辅频域信号，该主频域信号与所述主麦克风对应，M路辅频域信号与所述M个辅麦克风一一对应；根据主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差以及所述主频域信号的频率分布特征中的至少一项，确定主频域信号的信号类型，1≤N≤M，且N为整数。

可选地，信号类型包括耳语信号。耳语信号也可以称为耳语语音。确定主频域信号的信号类型，即确定主频域信号，或者说从主麦克风接收到的信号是否为耳语信号。

可选地，在N路辅频域信号为M路辅频域信号中的部分时，N路辅频域信号的选取可以按照以下原则进行：

选取M路辅频域信号中能量最大的N路信号作为该N路辅频域信号；或者

选择M路辅频域信号中所对应的辅麦克风距离主麦克风最近的N路信号作为该N路辅频域信号；或者

从M路辅频域信号中随机选择N路信号作为该N路辅频域信号。

应理解，本申请并不限定如何从M路辅频域信号中选取所述N路辅频域信号。

因此，本申请实施例的语音处理方法，根据主频域信号与M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与N路辅频域信号中的每路辅频域信号的相位差以及主频域信号的频率分布特征中的至少一项，可以确定主频域信号的是否为耳语信号。因本申请实施例的方法不依赖于传感器信息，因此在不增加设备成本的情况下，能够识别耳语信号，进而能够为后续的语音处理提供基础，有利于增强耳语通话用户体验。

在一种可能的实现方式中，信号的类型包括耳语信号。以及，根据主频域信号与M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与N路辅频域信号中的每路辅频域信号的相位差和主频域信号的频率分布特征中的至少一项，确定主频域信号的信号类型，包括：

当满足下述条件中的至少一项时，确定主频域信号为耳语信号：

主频域信号与N路辅频域信号中的每路辅频域信号的声压差均大于或等于对应的第一阈值且小于对应的第二阈值，其中，N路辅频域信号中的每路辅频域信号均对应一个第一阈值和一个第二阈值；

主频域信号与N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第三阈值时且小于对应的第四阈值，其中，N路辅频域信号中的每路辅频域信号均对应一个第三阈值和一个第四阈值；

主频域信号满足下述条件：无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值中的至少一项，其中，主频域信号所包括的至少三个子带与预定义的耳语信号所包括的至少三个子带一一对应，且主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值，每个子带的归一化能量为该子带的能量与至少三个子带的总能量之比，子带的能量为该子带内各频点能量之和。

因此，通过确定主频域信号是否满足上述条件中的其中一项或多项，可确定主频域信号是否为耳语信号。

可选地，主频域信号与某一路辅频域信号的声压差可以采用主频域信号与该路辅频域信号的幅度的差值，或者主频域信号与该路辅频域信号的幅度比值来表示。

可选地，主频域信号与某一路辅频域信号的相位差可以采用主频域信号与该路辅频域信号的相位的差值，或者主频域信号与该路辅频域信号的相位的比值来表示。

可选地，主频域信号的频率分布特征可以通过主频域信号是否有基频、谐波次数、各子带的归一化能量表征。

应理解，上述所描述第一阈值，第二阈值，第三阈值和第四阈值，可以根据对应的麦克风的位置确定。但本申请并不限定上述各阈值的具体确定方式。

当满足下述条件时，确定主频域信号为耳语信号：

主频域信号与N路辅频域信号中的每路辅频域信号声压差均大于或等于对应的第七阈值，其中，N路辅频域信号中的每路辅频域信号均对应一个第七阈值；

主频域信号与N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第八阈值，其中，N路辅频域信号中的每路辅频域信号均对应一个第八阈值；

主频域信号满足下述条件中的至少一项：无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值，其中，主频域信号所包括的至少三个子带与预定义的耳语信号所包括的至少三个子带一一对应，且主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值，每个子带的归一化能量为该子带的能量与至少三个子带的总能量之比，子带的能量为该子带内各频点能量之和。

应理解，上述所描述第七阈值和第八阈值，可以根据对应的麦克风的位置确定。但本申请并不限定第七阈值和第八阈值的具体确定方式。

在一种可能的实现方式中，在确定主频域信号为耳语信号的情况下，该方法还可以包括：

对主频域信号进行平稳噪声估计、背景人声噪声估计和突发噪声估计中的至少一种处理；

对估计出的噪声进行降噪处理。

在一种可能的实现方式中，对主频域信号进行背景人声噪声估计，包括：

采用波束宽度为第一宽度的自适应波束形成器对主频域信号进行背景人声噪声估计，第一宽度小于预设波束宽度。

其中，预设波束宽度为对普通语音(或，普通语音信号)进行背景人声噪声估计时的适应波束形成器的波束宽度。第一宽度可以自适应调整，也可以是预定义的，本申请实施对此不作限定。适应波束形成器可以采用最小方差无失真响应(Minimum VarianceDistortionless Response，MVDR)，也可以采用其他方法，本申请实施例对此不作限定。

通过采用波束宽度小于预设波束宽度的自适应波束形成器，能够增大降噪力度。

在一种可能的实现方式中，对主频域信号进行突发噪声估计，包括：

采用时窗长度小于预设长度的第一时窗统计第一时窗内的主频域信号的变化速度；

当信号的变化速度大于预设速度阈值时，确定第一时窗内的主频域信号的每个子带的归一化能量是否均大于或等于对应的第九阈值以及第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减，其中，第一时窗内的主频域信号包括至少一个子带，每个子带的归一化能量为该子带的能量与该至少一个子带的总能量之比，子带的能量为该子带内各频点能量之和；

当第一时窗内的主频域信号的每个子带的归一化能量大于或等于对应的第九阈值，且第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减，将第一时窗内的信号确定为突发噪声。

在一种可能的实现方式中，该方法还可以包括：

对降噪后的信号进行增益控制，得到增益调整后的信号。

本申请实施例的语音处理方法，结合耳语通话场景特点来调整背景人声噪声和突发噪声降噪策略，通过提高背景人声和突发噪声的降噪力度和准确度，能够提升耳语语音可懂度。

在一种可能的实现方式中，在对降噪后的信号进行增益控制时，满足如下条件中的至少一种：

增益下限为目标下限、增益上限为目标上限、降噪后的信号的最大电平值为目标电平值、增益平滑速度为目标速度；

其中，目标下限大于预设下限，目标上限小于预设上限，目标电平值小于预设电平值，目标速度小于预设速度。

需要说明的是，预设下限、预设上限、预设电平值、预设速度分别对应于对普通语音进行增益控制时的对应参数。

本申请实施例的语音处理方法，结合耳语通话场景特点调整增益处理策略，通过适当增加音量、减小目标电平阈值和减慢增益平滑速度，能够提高耳语语音的音量和平稳度。

在一种可能的实现方式中，该方法还可以包括：

对增益调整后的信号进行频响控制，得到频响调整后的信号。

在一种可能的实现方式中，对增益调整后的信号进行频响控制，包括：

采用第一目标频响对增益控制后的信号的第一频带进行频响控制，采用第二目标频响对增益控制后的信号的第二频带进行频响控制，采用第三目标频响对增益控制后的信号的第三频带进行频响控制。

其中，第一目标频响大于第一预设频响，第二目标频响大于第二预设频响，第三目标频响小于第三预设频响，第一频带的最小频率大于或等于第二频带的最大频率且小于或等于第三频带的最小频率。即，第一频带为中频带，第二频带为低频带，第三频带为高频带。示例性的，低频带可以0-500Hz，中频带可以是500Hz-2000Hz，高频带可以是大于2000Hz的频带。

需要说明的是，第一预设频响、第二预设频响和第三预设频响分别对应于对普通语音的中频待、低频带和高频带进行频响控制时的频响。

本申请实施例的方法，结合耳语通话场景特点调整频响处理策略，通过重点修正低频和高频频响，能够提升耳语语音音质。

第二方面，提供了一种语音处理方法，该方法可以应用于终端。该方法包括：从多个麦克风接收信号，所述多个麦克风包括主麦克风和M个辅麦克风，M≥1，且M为整数；

采用相同的采样率对从所述多个麦克风接收到的多路信号分别进行模数转换，得到多路时域数字信号；

对所述多路时域数字信号分别进行频域转换，得到多路频域信号，所述多路频域信号包括一路主频域信号和M路辅频域信号，所述主频域信号与所述主麦克风对应，所述M路辅频域信号与所述M个辅麦克风一一对应；

根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差，以及所述主频域信号的频率分布特征，确定所述主频域信号的信号类型，1≤N≤M，且N为整数。

因此，本申请实施例的语音处理方法，根据主频域信号与M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差，以及主频域信号的频率分布特征中的至少一项，可以确定主频域信号的是否为耳语信号。本申请实施例的方法不依赖于传感器信息，在不增加设备成本的情况下，能够识别耳语语音，进而能够为后续的语音处理提供基础，有利于增强耳语通话用户体验。

在一种可能的实现方式中，所述信号的类型包括耳语信号；

以及，所述根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差，以及所述主频域信号的频率分布特征，确定所述主频域信号的信号类型，包括：

当所述主频域信号与所述N路辅频域信号中的每路辅频域信号的声压差均大于或等于对应的第一阈值且小于对应的第二阈值，其中，所述N路辅频域信号中的每路辅频域信号均对应一个第一阈值和一个第二阈值；且

所述主频域信号满足下述条件中的至少一项：无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且所述主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值时，确定所述主频域信号为耳语信号；

其中，所述主频域信号所包括的至少三个子带与所述预定义的耳语信号所包括的至少三个子带一一对应，且所述主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值，所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比，所述子带的能量为该子带内各频点能量之和。

在一种可能的实现方式中，所述信号的类型包括耳语信号；

当所述主频域信号与所述N路辅频域信号中的每路辅频域信号声压差均大于或等于对应的第七阈值，其中，所述N路辅频域信号中的每路辅频域信号均对应一个第七阈值；且

在一种可能的实现方式中，在确定所述主频域信号为耳语信号的情况下，所述方法还包括：

对所述主频域信号进行平稳噪声估计、背景人声噪声估计和突发噪声估计中的至少一种处理；

对估计出的噪声进行降噪处理。

在一种可能的实现方式中，所述对所述主频域信号进行背景人声噪声估计，包括：

采用波束宽度为第一宽度的自适应波束形成器对所述主频域信号进行背景人声噪声估计，所述第一宽度小于预设波束宽度。

在一种可能的实现方式中，所述对所述主频域信号进行突发噪声估计，包括：

采用时窗长度小于预设长度的第一时窗统计所述第一时窗内的主频域信号的变化速度；

当所述信号的变化速度大于预设速度阈值时，确定所述第一时窗内的主频域信号的每个子带的归一化能量是否均大于或等于对应的第九阈值以及所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减，其中，所述第一时窗内的主频域信号包括至少一个子带，所述每个子带的归一化能量为该子带的能量与所述至少一个子带的总能量之比，所述子带的能量为该子带内各频点能量之和；

当所述第一时窗内的主频域信号的每个子带的归一化能量大于或等于对应的第九阈值，且所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减，将所述第一时窗内的信号确定为突发噪声。

在一种可能的实现方式中，所述方法还包括：

对所述降噪后的信号进行增益控制，得到增益调整后的信号。

在一种可能的实现方式中，在对所述降噪后的信号进行增益控制时，满足如下条件中的至少一种：

增益下限为目标下限、增益上限为目标上限、所述降噪后的信号的最大电平值为目标电平值、增益平滑速度为目标速度；

其中，所述目标下限大于预设下限，所述目标上限小于预设上限，所述目标电平值小于预设电平值，所述目标速度小于预设速度。

在一种可能的实现方式中，所述方法还包括：

对所述增益调整后的信号进行频响控制，得到频响调整后的信号。

在一种可能的实现方式中，对所述增益调整后的信号进行频响控制，包括：

采用第一目标频响对所述增益控制后的信号的第一频带进行频响控制，采用第二目标频响对所述增益控制后的信号的第二频带进行频响控制，采用第三目标频响对所述增益控制后的信号的第三频带进行频响控制，其中，所述第一目标频响大于第一预设频响，所述第二目标频响大于第二预设频响，所述第三目标频响小于第三预设频响，所述第一频带的最小频率大于或等于所述第二频带的最大频率且小于或等于所述第三频带的最小频率。

应理解，第二方面所提供的语音处理方法可以实现于第一方面提供的语音处理方法的相应地有益效果，为了简洁，将不再一一赘述。并且，第一方面提供的语音处理方法的一些可选实施例也可以应用于第二方面所提供的语音处理方法，为了简洁，这里将不对这些实施例进行详细列举。

第三方面，提供了一种终端，用于执行第一方面或第一方面的任意可能的实现方式中的方法。具体地，该终端包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的单元。

第四方面，提供了一种终端，用于执行第二方面或第二方面的任意可能的实现方式中的方法。具体地，该终端包括用于执行第二方面或第二方面的任意可能的实现方式中的方法的单元。

第五方面，提供一种计算机可读存储介质，包括指令，当所述指令在终端上运行时，使得所述终端执行以上各方面或以上各方面的任一可能的实现方式中的方法。

第六方面，本申请提供了一种包含指令的计算机程序产品，当所述计算机产品在终端上运行时，使得所述终端执行以上各方面或以上各方面的任一可能的实现方式中的方法。

第七方面，本申请提供了一种通信芯片，其中存储有指令，当其在终端上运行时，使得所述终端执行以上各方面或以上各方面的任一可能的实现方式中的方法。

附图说明

图1是应用于本申请的一个应用场景示意图。

图2是应用于本申请的另一应用场景示意图。

图3是根据本申请实施例的语音处理方法的示意性流程图。

图4是SB0与SB1的信号时域图。

图5是SB0与SB1的信号时域放大图。

图6是根据本申请实施例的终端的示意性框图。

图7是根据本申请另一实施例的终端的示意性框图。

图8是根据本申请再一实施例的终端的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例的技术方案可以应用于各种通信系统，例如：全球移动通讯(GlobalSystem of Mobile communication，GSM)系统、码分多址(Code Division MultipleAccess，CDMA)系统、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)系统、通用分组无线业务(General Packet Radio Service，GPRS)、长期演进(Long TermEvolution，LTE)系统、LTE频分双工(Frequency Division Duplex，FDD)系统、LTE时分双工(Time Division Duplex，TDD)、通用移动通信系统(Universal MobileTelecommunication System，UMTS)、全球互联微波接入(Worldwide Interoperabilityfor Microwave Access，WiMAX)通信系统、未来的第五代(5th Generation，5G)系统或新无线(New Radio，NR)等。

本申请实施例中的终端可以是移动电话、平板个人电脑(tablet personalcomputer)、媒体播放器、智能电视、笔记本电脑(laptop computer)、个人数字助理(personal digital assistant，PDA)、个人计算机(personal computer)、移动上网装置(mobile internet device)或智能手表等可穿戴式设备(wearable device)等，本申请实施例对此不作限定。手机已经成为当今最主要的通话设备，手机通话中手持方式是应用最广的通话方式。在某些特定场合中，通话人旁边可能有其他人存在，通话人不方便大声讲话，为了避免打扰其他人，往往刻意压低说话音量，甚至使用耳语(即通常说的悄悄话)方式讲话。在通话时，一般都存在各种干扰音源，比如回声、混响及环境噪声，语音增强技术需要分离目标语音和干扰声，因此需要检测出目标语音段。然而，耳语讲话时人的声带不震动，语音特征和普通语音(即，正常讲话是的语音)差别很大，当前的语音检测方式都是针对带谐波的浊音，无法区分耳语语音和干扰声。

因此，如何检测出耳语语音成为一个亟需解决的问题。

基于此，本申请提供了一种可以应用于终端的语音处理方法，能够检测出从主麦克风输入的耳语信号(即，耳语语音)。由于该方法不依赖于传感器信息，因此能够在不增加设备成本的情况下，能够识别耳语语音，进而能够为后续的语音处理提供基础，有利于增强耳语通话用户体验。

一般情况下，主麦克风靠近目标声源，即靠近用户的嘴巴，副麦克风远离目标声源，但本申请实施例对此不作限定。主麦克风可以是终端上的麦克风，也可以是与终端连接的辅助设备(例如，手机耳机)上的麦克风。终端除接收从主麦克风输入的信号外，还接收从辅麦克风输入的信号。根据用户当前的通话模式或通话方式，终端能够确定哪个麦克风是主麦克风，哪个或哪些麦克风是辅麦克风，或者说，终端能够获知哪路信号是从主麦克风输入的信号，哪路信号是从辅麦克风输入的信号。

下面，结合图1和图2所示的应用场景，来简单介绍可以应用于本申请的终端，以及主麦克风和辅麦克风。

图1是应用于本申请的一个应用场景示意图。如图1所示，终端100包括麦克风110、和麦克风120。麦克风110、和麦克风120可以设置于终端的顶部或者背部，但本申请实施例对此不作限定。在用户手持终端通话模式下，终端100将麦克风120确定为主麦克风，将麦克风110确定为辅麦克风。在用户通过扬声器通话模式下，终端100将麦克风110确定为主麦克风，将麦克风120确定为辅麦克风。

另外，需要说明的是，若终端100中的130为麦克风，在用户持终端通话模式下，一般终端100将该麦克风确定为辅麦克风，但本申请实施例对此不作限定。

图2是应用于本申请的另一应用场景示意图。图2所包括的终端100为图1所示的终端100。在用户通过耳机通话模式下，终端100将麦克风130确定为主麦克风，将麦克风110和麦克风120确定为辅麦克风。

以下，结合图3和图4，对本申请的信号处理方法进行详细描述。

图3是根据本申请实施例的信号处理方法的示意性流程图。图3所示的方法可以由终端执行，终端可以是图1和图2所示的应用场景中的终端100，但本申请实施例对此不作限定。应理解，图3示出了该方法的详细的步骤或操作，但这些步骤或操作仅是示例，本申请实施例还可以执行其它操作或仅执行图3中部分操作。

S210，从多个麦克风接收信号。

应理解，终端接收到的信号包括目标声源、回声和环境噪声在空间内传播，经过墙面和物体反射后到达该多个麦克风的信号。

其中，该多个麦克风包括主麦克风和M个辅麦克风，M≥1且M为整数，也就是说，辅麦克风可能是1个，也可能是2个或3个，或者更多个。本申请实施例对此不作限定。例如，该多个麦克风可以包括图1所示的辅麦克风110和主麦克风120。又如，该多个麦克风可以包括图2所示的主麦克风130、辅麦克风110和辅麦克风120。

在本申请实施例中，不失一般性地，可以将终端接收到的从多个麦克风输入的信号分别记作：MIC0，MIC1，…。为了便于理解和描述，下文中，将终端从主麦克风接收到的信号记作：MIC0，将终端从M个辅麦克风接收到的信号分别记作：MIC1，MIC2，…，MICM。

S220，采用相同的采样率对从该多个麦克风接收到的多路信号分别进行模数转换，得到多路时域数字信号。

为了便于理解和描述，将多路时域数字信号分别记作：SA0，SA1，…，SAM。

具体地，终端对从麦克风接收到的模拟信号转换为数据信号，得到的数字信号MIC0，MIC1，…MICM与SA0，SA1，…，SAM一一对应。即，终端对MIC0进行模数转换，得到信号SA0；对MIC1进行模数转换，得到信号SA1，以此类推，对MICM进行模数转换，得到信号SAM。

S230，对多路时域数字信号(即，SA0，SA1，…，SAM)分别进行频域转换，得到多路频域信号。

为了便于理解和描述，将多路频域信号分别记作：SB0，SB1，SB2，…，SBM。

具体地，终端将时域信号SA0，SA1，…，SAM分别转换为频域信号，得到主频域信号SB0和M路辅频域信号SB1，…，SBM。SB0与所述主麦克风对应，即SB0为对SA0进行频域转换后得到的信号；SB1，SB2，…，SBM与M个辅麦克风一一对应，即SB1，SB2，…，SBM为分别对从SA1，SA2，…，SAM进行频域转换后得到的信号。

S240，根据主频域信号与M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与N路辅频域信号中的每路辅频域信号的相位差以及主频域信号的频率分布特征中的至少一项，确定主频域信号的信号类型。其中，1≤N≤M，且N为整数。

可选地，所述信号的类型包括耳语信号和普通语音信号。一般情况下，除耳语外的语音都可以看成普通语音，特点是普通语音具有明显的基频和谐波。

因此，终端可以仅根据N路辅频域信号中的每路辅频域信号的声压差，或者仅根据N路辅频域信号中的每路辅频域信号的相位差，或者仅根据主频域信号的频率分布特征，确定SB0是否为耳语信号。

或者，终端可以根据N路辅频域信号中的每路辅频域信号的声压差和相位差确定SB0是否为耳语信号。

或者，终端可以根据N路辅频域信号中的每路辅频域信号的声压差以及主频域信号的频率分布特征确定SB0是否为耳语信号。

或者，终端可以根据N路辅频域信号中的每路辅频域信号的相位差以及主频域信号的频率分布特征确定SB0是否为耳语信号。

或者，终端可以根据N路辅频域信号中的每路辅频域信号的声压差，N路辅频域信号中的每路辅频域信号的相位差，以及主频域信号的频率分布特征，确定SB0是否为耳语信号。

应理解，确定SB0是否为耳语信号，也就是确定MIC0是否为耳语信号。

N路辅频域信号可以是SB1，SB2，…，SBM中的部分或全部。

示例性的，在N路辅频域信号为SB1，SB2，…，SBM中的部分时，N路辅频域信号的选取可以按照以下原则进行：

选取SB1，SB2，…，SBM中能量最大的N路信号作为该N路辅频域信号；或者

选择SB1，SB2，…，SBM中所对应的辅麦克风距离主麦克风最近的N路信号作为该N路辅频域信号；或者

从SB1，SB2，…，SBM中随机选择N路信号作为该N路辅频域信号。

应理解，上述选取原则仅为示例性说明，本申请并不限定如何从SB1，SB2，…，SBM中选取所述N路辅频域信号。

现对上文所涉及的声压差，相位差和频率分布特征进行解释说明。

一般来讲，该多个麦克风的位置不同，因此终端从不同麦克风接收到的信号存在差异。也就相当于是SB0,，SB1，SB2，…，SBM之间存在差异。该差异主要体现在能量差异和相位差异上。

能量差异可以用声压差表示。也就是说，声压差表征的是信号间的能量差异，一定程度上反应了麦克风与目标声源的位置关系。在没有任何遮挡的情况下，离声源越近能量越大。声压差可以采用多种方式计算，本申请实施例对此不作限定。

例如，SB0与某一路辅频域信号的声压差，例如SB0与SB1的声压差，可以用SB0与SB1的幅度的差值或者比值来表示。

图4示出了SB0与SB1的信号时域图。图中横坐标为时间，纵坐标为信号的幅度。图4中上面的信号为SB0，下面的信号为SB1。可以看出，SB0的幅度大于SB1的幅度。

相位差异可以用相位差表示。相位差可以表征信号到达不同麦克风的时间差。例如，手持通话场景下目标声源是嘴巴，不考虑终端翻转情况下，目标声源先到达主麦克风后到达副麦克风。相位差可以采用多种方式计算，本申请实施例对此不作限定。

例如，SB0与某一路辅频域信号的相位差，例如SB0与SB1的相位差，可以用SB0与SB1的相位的差值或者比值来表示。

图5示出了SB0与SB1的信号时域图。图5中上面的信号为SB0，下面的信号为SB1，图5是图4的局部放大图。从图5可以看出，SB0比SB1的相位提前，说明声源离主麦克风距离更近。受人类发音机制的限制，当音量发声变化时，语音的频率分布特征也会随之发声变化。

对于同一人用不同音量讲同话时的频率分布情况，普通音量语音浊音的谐波次数最多，而且频点能量最大；小音量语音的谐波次数明显少于普通音量语音，而且频点能量也小于普通语音音量；耳语语音完全没有谐波，频点能量也最小，尤其在语音的起始和结尾部分，信噪比(Signal Noise Ratio，SNR)非常低，很难区分语音和背景底噪。

基于此，本申请实施例中的SB0的频率分布特征，可以用是否有基频、谐波次数等来描述，但本申请实施例对此不作限定。

因此，本申请实施例的语音处理方法，根据主频域信号与M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与N路辅频域信号中的每路辅频域信号的相位差以及主频域信号的频率分布特征中的至少一项，可以确定主频域信号的是否为耳语信号。本申请实施例的方法不依赖于传感器信息，在不增加设备成本的情况下，能够识别耳语语音，进而能够为后续的语音处理提供基础，有利于增强耳语通话用户体验。

以下，结合上述所描述的声压差，相位差和频率分布特征，对S240的几种可选地具体实现方式进行详细描述。

实现方式一

当条件(a)～(c)中的其中一项或多项都满足时，可以确定SB0为耳语信号。

另外，需要说明的是，为了便于本领域技术人员更好地理解本申请，下文中均以N路辅频域信号为SB1和SB2为例，来具体描述本申请各实施例。

(a)SB0与N路辅频域信号中的每路辅频域信号声压差均大于或等于对应的第一阈值且小于对应的第二阈值。

具体而言，SB1和SB2均对应一个第一阈值和一个第二阈值，即SB1对应一个第一阈值(记作：v11)和一个第二阈值(记作：v12)，SB2对应一个第一阈值(记作：v21)和一个第二阈值(v22)。v11可以等于v21，也可以与v21不同，v12可以等于v22，也可以与v22不同，对此本申请实施例并不限定。比如，v11＝v21＝1.6，和/或，v12＝v22＝2.3。计算SB0与SB1的声压差D01，SB0与SB2的声压差D02，并判断v11≤D01≤v12，且v21≤D02≤v22是否成立。若成立，则条件(a)满足。

(b)SB0与N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第三阈值时且小于对应的第四阈值。

具体而言，SB1和SB2均对应一个第三阈值和一个第四阈值，即SB1对应一个第三阈值(记作：v13)和一个第四阈值(记作：v14)，SB2对应一个第三阈值(记作：v23)和一个第四阈值(v24)。v13可以等于v23，也可以与v23不同，v14可以等于v24，也可以与v24不同，对此本申请实施例并不限定。比如，v13＝v23＝0.1毫秒(ms)，和/或，v14＝v24＝0.3ms。计算SB0与SB1的相位差F01，SB0与SB2的相位差F02，并判断v13≤F01≤v14，且v23≤F02≤v24是否成立。若成立，则条件(b)满足。

应理解，第一阈值，第二阈值，第三阈值和第四阈值，可以根据对应的麦克风的位置确定。比如，可以根据与v11对应的麦克风的位置确定v11，与v21对应的麦克风的位置确定v21。但应理解，本申请并不限定上述各阈值的具体确定方式。

(c)SB0满足(c1)～(c3)中的至少一项。

(c1)无基频。

具体来讲，基频检测方法有很多通用的方法，比如可以采用时域自相关法检测SB0是否有基频，具体地可以参照现有技术，为了简洁，此处不再赘述。

(c2)谐波次数小于或等于第五阈值。

对于谐波次数，例如，可以基于基频检测结果确定。比如，可以判断基频倍频位置附近的频点能量是否为峰值，如果是峰值则为谐波频点，否则不是谐波频点，统计的谐波频点数即为谐波次数。然后，确定谐波次数是否小于或等于第五阈值，比如，第五阈值可以是4。

应理解，本申请并不限定确定谐波次数的方法。

(c3)子带的能量最大的子带属于第一频带且SB0所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值。

其中，SB0所包括的至少三个子带与预定义的耳语信号所包括的至少三个子带一一对应，且SB0所包括的至少三个子带中的每个子带均对应一个第六阈值，所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比，所述子带的能量为该子带内各频点能量之和。

举例来说，可以采用均匀划分或非均匀划分，将预定义的耳语信号和SB0的频谱划分为20个子带。应理解，对预定义的耳语信号和SB0的频谱划分方式可以相同，也可以不同。然后，对于预定义的耳语信号和SB0，分别求取每个子带内各频点能量之和作为该子带能量，并计算20个子带的能量之和Pw。接着，计算20个子带中每个子带与Pw之比，得到20个比值，该20个比值即20个子带的归一化能量。找出根据SB0得到的20个比值中的最大比值，并确定该比值所对应的子带是否属于第一频带。第一频带可以是中频带，比如500Hz-1000Hz，那么，若根据SB0得到的20个比值中的最大比值所对应的子带落在500Hz-1000Hz中，则认为该最大比值属于第一频带。

接着，基于根据SB0得到的20个比值和根据预定义的耳语信号得到的20个比值，计算根据SB0得到的第一个子带的归一化能量与根据预定义的耳语信号得到的第一个子带的归一化能量之差，计算根据SB0得到的第二个子带的归一化能量与根据预定义的耳语信号得到的第二个子带的归一化能量之差，以此类推，计算根据SB0得到的第20个子带的归一化能量与根据预定义的耳语信号得到的第20个子带的归一化能量之差。然后确定这20个差值是否均小于对应的第六阈值。也就是说，每个子带均对应一个第六阈值，且每个子带所对应的第六阈值可以相等，也可以不等，本申请实施例对此不作限定。例如，第六阈值可以等于2。

应理解，预定义的耳语信号可以是预先采集的一段耳语语音信号。该预定义的耳语信号各子带的归一化能量可以预先计算出来并存储在终端中。在此情况下，在实时判断SB0的信号类型时，终端只需计算SB0的各子带的归一化能量。

还应理解，本申请实施例仅以计算各子带的归一化能量举例说明，在具体实施时，也可以仅计算各子带的能量，而不计算对应的归一化能量。在此情况下，对应的第六阈值与所描述的第六阈值可以不等。此外，对于如何计算各频点的能量，可以参照现有技术，此处不作具体介绍。

综上，若满足条件(a)、(b)、(c1)～(c3)中的任一条件，或任意条件的组合，或所有条件，则可以确定SB0为耳语语音。

实现方式二

当满足条件(d)～(f)中的任一项时，可以确定SB0为耳语信号。

(d)SB0与N路辅频域信号中的每路辅频域信号声压差均大于或等于对应的第七阈值。

具体而言，SB1和SB2均对应一个第七阈值，即SB1对应一个第七阈值(记作：v17)，SB2对应一个第七阈值(记作：v27)。v17可以等于v27，也可以与v27不同，对此本申请实施例并不限定。比如，v17＝v27＝1.6。计算SB0与SB1的声压差D01，SB0与SB2的声压差D02，并判断v17≤D01，且v27≤D02是否成立。若成立，则条件(d)满足。

(e)SB0与N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第八阈值。

具体而言，SB1和SB2均对应一个第八阈值，即SB1对应一个第八阈值(记作：v18)，SB2对应一个第八阈值(记作：v28)。v18可以等于v28，也可以与v28不同，对此本申请实施例并不限定。比如，v18＝v28＝0.1毫秒(ms)。计算SB0与SB1的相位差F01，SB0与SB2的相位差F02，并判断若v18≤F01，且v28≤F02是否成立。若成立，则条件(e)满足。

应理解，上述所描述第七阈值和第八阈值，可以根据对应的麦克风的位置确定。比如，可以根据与v17对应的麦克风的位置确定v17，与v27对应的麦克风的位置确定v27。但应理解，本申请并不限定第七阈值和第八阈值的具体确定方式。

(f)SB0满足下述条件中的至少一项：

无基频；

谐波次数小于或等于第五阈值；

子带的能量最大的子带属于第一频带且SB0所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值。其中，SB0所包括的至少三个子带与预定义的耳语信号所包括的至少三个子带一一对应，且SB0所包括的至少三个子带中的每个子带均对应一个第六阈值，所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比，所述子带的能量为该子带内各频点能量之和。

应理解，条件(f)即上文所描述的条件(c)。因此，条件(f)具体地可以按照上文中关于条件(c)的描述，为了简洁，此处不再赘述。

综上，若满足条件(d)、(e)、(c1)～(c3)中的任一条件，或任意条件的组合，或所有条件，则可以确定SB0为耳语语音。

在确定SB0为耳语信号的情况下，可选地，该方法还包括步骤S250～S270中的一个或多个步骤。

S250，对SB0进行平稳噪声估计、背景人声噪声估计和突发噪声估计中的至少一种处理，并对估计出的噪声进行降噪处理。

具体而言，终端可以对SB0只进行平稳噪声估计、背景人声噪声估计或者突发噪声估计。或者，终端也可以对SB0进行平稳噪声估计、背景人声噪声估计和突发噪声估计中的其中两种。或者，终端分别对SB0进行平稳噪声估计、背景人声噪声估计和突发噪声估计。或者，终端先对SB0进行平稳噪声估计，然后对估计出的平稳噪声进行降噪处理，再对降噪处理后得到的信号进行背景人声噪声估计。接收对估计出的背景人声噪声估计进行降噪处理，再对降噪处理后得到的信号进行突发噪声估计，然后对估计出的突发噪声进行降噪处理。应理解，本申请并不限定平稳噪声估计、背景人声噪声估计和突发噪声估计的先后顺序。

应理解，背景人声噪声，可以是会议室场景下主讲人在演讲，或多个人在讨论问题的发出的声音等。突发噪声，可以是桌椅碰撞声、笔掉落在桌子上的撞击声、或关门声等。

平稳噪声估计方法和普通语音信号类似，例如，可以采用最小控制递归平均(Minima Controlled Recursive Averaging，MCRA)方法进行耳语信号的平稳噪声估计，具体地可以参照现有技术，为了简洁，此处不再赘述。但应理解，本申请并不限定平稳噪声估计方法。

普通降噪处理无法满足耳语语音通话场景。耳语通话对降噪要求更高，主要表现在：1)耳语语音没有谐波，且耳语信号的SNR远低于普通语音通话场景，分离耳语和噪声难度更大；2)耳语语音音量明显小于普通语音，为了让通话对端听清，需要施加更大的增益，所以要求降噪对耳语语音损伤要更小，否则在信号放大后耳语语音损伤会很明显；3)耳语语音通话场景中往往有一个或多个人存在，普遍存在较大的背景人声噪声，及较大的突发噪声，所以需要有较大的降噪力度，否则在增益放大后背景噪声会非常明显，严重影响通话体验。因此，相对于对普通语音的噪声估计和降噪处理的方式，对耳语信号进行噪声估计和降噪处理时，需要调整相应的参数。

可选地，对SB0进行背景人声噪声估计，包括：采用波束宽度为第一宽度的自适应波束形成器对所述主频域信号进行背景人声噪声估计。

换句话说，对SB0进行背景人声噪声估计时，自适应波束形成器的波束宽度为第一宽度。

其中，第一宽度小于预设波束宽度。比如，将预设波束宽度减小30％可以得到第一宽度。预设波束宽度为对普通语音(或，普通语音信号)进行背景人声噪声估计时的适应波束形成器的波束宽度。第一宽度可以自适应调整，也可以是预定义的，本申请实施对此不作限定。

具体地，利用耳语语音通话时，用户姿势比较固定，适当减小对普通语音处理时的自适应波束形成器的波束宽度，并将波束注视方向指到目标说话人嘴巴位置，能够在语音不损伤的条件下尽可能多的估计背景人声噪声量。自适应波束形成器可以采用最小方差无失真响应(Minimum Variance Distortionless Response，MVDR)，也可以采用其他方法，本申请实施例对此不作限定。MVDR具体可以参照现有技术，为了简洁，此处不再赘述。

进一步地，针对自适应波束范围内的背景人声，利用主副麦克风之间的声压差可以区分远近场信号。耳语语音手持通话时，通话位置比较固定，对主副麦克风组成的阵列来说，目标说话人音源属于近场，而背景说话人音源属于远场，近场音源一般情况会在主副麦间形成较大的声压差，从而判断出大部分的耳语语音，剩余耳语语音可以通话平滑处理保留。

可选地，对SB0进行突发噪声估计，包括：

采用时窗长度小于预设长度的第一时窗统计所述第一时窗内的信号的变化速度。当信号的变化速度大于预设速度阈值时，确定第一时窗内的主频域信号的每个子带的归一化能量是否大于或等于对应的第九阈值以及所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减。其中，第一时窗内的主频域信号包括至少一个子带，所述每个子带的归一化能量为该子带的能量与所述至少一个子带的总能量之比，所述子带的能量为该子带内各频点能量之和；当第一时窗内的主频域信号的每个子带的归一化能量均大于或等于对应的第九阈值，且第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减，将所述第一时窗内的信号确定为突发噪声。

应理解，第一时窗内的主频域信号的每个子带均对应一个第九阈值，且所有的第九阈值可以相等，也可以不等。例如，所有的第九阈值可以按照与其对应的子带的频率由低到高的顺序递减。第九阈值可以与对应的第六阈值相等，也可以不等，本申请实施例对此不作限定。第一时窗内的主频域信号的每个子带的归一化能量可以参照上文中与SB0的子带的归一化能量进行计算，为了简洁，此处不再赘述。

具体而言，受耳语发声方式的影响，同一音节耳语发音一般长于普通语音，也就是说信号比较平滑，而突发噪声类似于脉冲信号，在短时间内有很大的波动。因此，可以利用信号时域特征，统计第一时窗内的信号的变化速度。例如，第一时窗的窗长可以是30ms，将第一时窗等分为10个子窗，子窗长度为3ms，统计各子窗能量平均值，然后用后子窗能量平均值除前子窗能量平均值，判断比值大小是否超过预设速度阈值，超过则可能为突发噪声，需要进一步判断信号频率分布。这里，预设速度阈值可以为3，表示后子窗能量是前子窗能量的3倍。但本申请并不限定预设速度阈值。

突发噪声在频域上看，频率分布和语音信号有明显差异，各子带能量差异较小，且从低频到高频连续分布，因此可以利用子带能量来判断信号是否为突发噪声。基于此，在本申请中，当变化速度大于预设速度阈值时，确定第一时窗内的主频域信号的归一化能量是否大于或等于对应的第九阈值。若第一时窗内的主频域信号的每个子带的归一化能量均大于或等于对应的第九阈值，且第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减时，将第一时窗内的信号确定为突发噪声。

S260，对降噪后的信号进行增益控制，得到增益调整后的信号。

具体地，对降噪后的信号进行增益控制，即增大或减小降噪后的信号。

可选地，在对降噪后的信号进行增益控制时，满足如下条件中的至少一种：增益下限为目标下限、增益上限为目标上限、所述降噪后的信号的最大电平值为目标电平值、增益平滑速度为目标速度。

相对于普通语音的增益控制，具体而言，由于耳语语音能量比普通语音小很多，因此需要适当加大增益下限，同时需要适当减小增益上限，才能保证正常通话交流。目标电平值为耳语信号的电平的最大电平值，耳语信号放大过多会造成听感下降。比如，普通语音施加10dB增益后清晰度和可懂度会更好，但耳语语音只能施加6dB增益，否则会感觉到明显的沙沙声，响度大但可懂度差。因此目标电平值需要比普通语音低，例如，可以设置为-9dB或-9dB以下。耳语语音场景下需要适当减小增益平滑速度，否则会造成语音起伏感，例如可以减小为普通语音的60％，从而减小语音的起伏感。

S270，对增益调整后的信号进行频响控制，得到频响调整后的信号。

具体地，对增益调整后的信号进行频响控制，即调整增益调整后的信号的频域上的幅度。

可选地，对增益调整后的信号进行频响控制，包括：采用第一目标频响对增益控制后的信号的第一频带进行频响控制，采用第二目标频响对增益控制后的信号的第二频带进行频响控制，采用第三目标频响对增益控制后的信号的第三频带进行频响控制。

其中，第一目标频响大于或等于第一预设频响，第二目标频响大于第二预设频响，第三目标频响小于第三预设频响。第一频带的最小频率大于或等于所述第二频带的最大频率且小于或等于所述第三频带的最小频率。即，第一频带为中频带，第二频带为低频带，第三频带为高频带。示例性的，低频带可以0-500Hz，中频带可以是500Hz-2000Hz，高频带可以是大于2000Hz的频带。

相对于普通语音的频响控制，具体而言，耳语语音本身低频成分比例较低，需要适当提升低频频响，否则容易造成声音单薄。当然，不同说话人的耳语低频比例有一定差异，对于部分人来说，甚至需要适当压制，抬升和压制主要取决于低频成分的比例，比如当低频成分比例小于25％时抬升，否则压制。一般对于中频频响，保持频响不变或略微抬升。由于在进行增益控制时，一般给耳语语音施加较大的增益，可能会造成声音发尖，因此需要适当压制信号高频，防止哨音出现。

因此，本申请实施例的方法，通过对识别出的耳语语音进行噪声估计、合理地降噪处理、增益控制和频响控制等操作，能够提升耳语语音质量，提升耳语可懂度，进而能够提高耳语通话用户体验。

上文中结合图2，详细介绍了本申请实施例的语音处理方法。下文，具体描述可以应该语音处理方法的终端。

图6是根据本申请实施例的终端300的示意性框图。如图6所示，该终端300包括：接收单元310、模数转换单元320、频域转换单元330和判断单元340。

接收单元310，用于从多个麦克风接收信号，所述多个麦克风包括主麦克风和M个辅麦克风，M≥1，且M为整数。

模数转换单元320，用于采用相同的采样率对从所述多个麦克风接收到的多路信号分别进行模数转换，得到多路时域数字信号。

频域转换单元330，用于对所述多路时域数字信号分别进行频域转换，得到多路频域信号，所述多路频域信号包括一路主频域信号和M路辅频域信号，所述主频域信号与所述主麦克风对应，所述M路辅频域信号与所述M个辅麦克风一一对应。

判断单元340，用于根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差以及所述主频域信号的频率分布特征中的至少一项，确定所述主频域信号的信号类型，1≤N≤M，且N为整数。

应理解，终端300还可以包括用于执行上述方法其他操作的操作，并且终端300中各单元分别用于执行上述方法中由终端执行的各动作或处理过程，因此也能实现上述方法实施例中的有益效果。这里，为了避免赘述，省略其详细说明。

可选地，终端300中的各单元的功能可以通过处理器实现，但本申请实施例对此不作限定。

进一步地，该处理器可以由集成电路(integrated circuit，IC)组成，例如可以由单独封装的IC所组成，也可以由连接多个具有相同功能或不同功能的封装IC而组成。该处理器可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(applicationspecific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gatearray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，本发明实施例对此不作限定。

可选地，该终端300还可以包括存储器，可以用于存储软件程序或模块。此时，该处理器可以运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，以实现该电子设备的各种功能和/或处理数据。

图7是根据本申请另一实施例的终端400的示意性框图。如图7所示，该终端400包括：接收单元410、模数转换单元420、频域转换单元430和判断单元440。

接收单元410，用于从多个麦克风接收信号，所述多个麦克风包括主麦克风和M个辅麦克风，M≥1，且M为整数；

模数转换单元420，用于采用相同的采样率对从所述多个麦克风接收到的多路信号分别进行模数转换，得到多路时域数字信号；

频域转换单元430，用于对所述多路时域数字信号分别进行频域转换，得到多路频域信号，所述多路频域信号包括一路主频域信号和M路辅频域信号，所述主频域信号与所述主麦克风对应，所述M路辅频域信号与所述M个辅麦克风一一对应；

判断单元440，用于根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差，以及所述主频域信号的频率分布特征，确定所述主频域信号的信号类型，1≤N≤M，且N为整数。

应理解，终端400还可以包括用于执行上述方法其他操作的操作，并且终端400中各单元分别用于执行上述方法中由终端执行的各动作或处理过程，因此也能实现上述方法实施例中的有益效果。这里，为了避免赘述，省略其详细说明。

可选地，终端400中的各单元的功能可以通过处理器实现，但本申请实施例对此不作限定。

可选地，该终端400还可以包括存储器，可以用于存储软件程序或模块。此时，该处理器可以运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，以实现该电子设备的各种功能和/或处理数据。

图8是根据本申请实施例的终端的示意性框图，以该终端500为手机为例，图8示出的是与本申请实施例相关的手机500的部分结构的框图。参考图8，手机500包括：射频(radio frequency，RF)电路510、电源520、处理器530、存储器540、输入单元550、显示单元560、传感器570、音频电路580、以及无线保真(wireless fidelity，WiFi)模块590等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机500的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器530处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access，WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器540可用于存储软件程序以及模块，处理器530通过运行存储在存储器540的软件程序以及模块，从而执行手机500的各种功能应用以及数据处理。存储器540可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图象播放功能等)等；存储数据区可存储根据手机500的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器540可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元550可用于接收输入的数字或字符信息，以及产生与手机500的用户设置以及功能控制有关的键信号输入。具体地，输入单元550可包括触控面板551以及其他输入设备552。触控面板551，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板551上或在触控面板551附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板551可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器530，并能接收处理器530发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板351。除了触控面板551，输入单元550还可以包括其他输入设备552。具体地，其他输入设备552可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元560可用于显示由用户输入的信息或提供给用户的信息以及手机300的各种菜单。显示单元560可包括显示面板561，可选的，可以采用LCD、OLED等形式来配置显示面板561。进一步的，触控面板551可覆盖显示面板561，当触控面板551检测到在其上或附近的触摸操作后，传送给处理器530以确定触摸事件的类型，随后处理器530根据触摸事件的类型在显示面板561上提供相应的视觉输出。虽然在图8中，触控面板551与显示面板551是作为两个独立的部件来实现手机500的输入和输入功能，但是在某些实施例中，可以将触控面板551与显示面板561集成而实现手机500的输入和输出功能。

手机500还可包括至少一种传感器570，例如，传感器570可以是上述的传感器230，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板561的亮度，接近传感器可在手机500移动到耳边时，关闭显示面板561和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路580、扬声器581，麦克风582可提供用户与手机500之间的音频接口。音频电路380可将接收到的音频数据转换后的电信号，传输到扬声器581，由扬声器581转换为声音信号输出；另一方面，麦克风582将收集的声音信号转换为电信号，由音频电路580接收后转换为音频数据，再将音频数据输出至RF电路510以发送给比如另一手机，或者将音频数据输出至存储器540以便进一步处理。

WiFi属于短距离无线传输技术，手机500通过WiFi模块590可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块590，但是可以理解的是，其并不属于手机500的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器530是手机500的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器540内的软件程序和/或模块，以及调用存储在存储器540内的数据，执行手机500的各种功能和处理数据，从而实现基于手机的多种业务。可选的，处理器530可包括一个或多个处理单元；可选地，处理器530可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器530中。

手机500还包括给各个部件供电的电源520(比如电池)，优选的，电源可以通过电源管理系统与处理器530逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

尽管未示出，手机500还可以包括摄像头、蓝牙模块等，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音处理方法，其特征在于，所述方法应用于终端，包括：

从多个麦克风接收信号，所述多个麦克风包括主麦克风和M个辅麦克风，M≥1，且M为整数；

根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差以及所述主频域信号的频率分布特征中的至少一项，确定所述主频域信号的信号类型，1≤N≤M，且N为整数。

2.如权利要求1所述的方法，其特征在于，所述信号的类型包括耳语信号；

以及，所述根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差和所述主频域信号的频率分布特征中的至少一项，确定所述主频域信号的信号类型，包括：

当满足下述条件中的至少一项时，确定所述主频域信号为耳语信号：

所述主频域信号与所述N路辅频域信号中的每路辅频域信号的声压差均大于或等于对应的第一阈值且小于对应的第二阈值，其中，所述N路辅频域信号中的每路辅频域信号均对应一个第一阈值和一个第二阈值；

所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第三阈值时且小于对应的第四阈值，其中，所述N路辅频域信号中的每路辅频域信号均对应一个第三阈值和一个第四阈值；

所述主频域信号满足下述条件中的至少一项：无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且所述主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值，其中，所述主频域信号所包括的至少三个子带与所述预定义的耳语信号所包括的至少三个子带一一对应，且所述主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值，所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比，所述子带的能量为该子带内各频点能量之和。

3.如权利要求1所述的方法，其特征在于，所述信号的类型包括耳语信号；

当满足下述条件时，确定所述主频域信号为耳语信号：

所述主频域信号与所述N路辅频域信号中的每路辅频域信号声压差均大于或等于对应的第七阈值，其中，所述N路辅频域信号中的每路辅频域信号均对应一个第七阈值；

所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第八阈值，其中，所述N路辅频域信号中的每路辅频域信号均对应一个第八阈值；

4.如权利要求2或3所述的方法，其特征在于，在确定所述主频域信号为耳语信号的情况下，所述方法还包括：

对估计出的噪声进行降噪处理。

5.如权利要求4所述的方法，其特征在于，所述对所述主频域信号进行背景人声噪声估计，包括：

6.如权利要求5所述的方法，其特征在于，所述对所述主频域信号进行突发噪声估计，包括：

当所述信号的变化速度大于预设速度阈值时，确定所述第一时窗内的主频域信号的每个子带的归一化能量是否均大于或等于对应的第九阈值，以及所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减，其中，所述第一时窗内的主频域信号包括至少一个子带，所述每个子带的归一化能量为该子带的能量与所述至少一个子带的总能量之比，所述子带的能量为该子带内各频点能量之和；

7.如权利要求5或6所述的方法，其特征在于，所述方法还包括：

8.如权利要求7所述的方法，其特征在于，在对所述降噪后的信号进行增益控制时，满足如下条件中的至少一项：

9.如权利要求7或8所述的方法，其特征在于，所述方法还包括：

10.如权利要求9所述的方法，其特征在于，对所述增益调整后的信号进行频响控制，包括：

采用第一目标频响对所述增益控制后的信号的第一频带进行频响控制，采用第二目标频响对所述增益控制后的信号的第二频带进行频响控制，采用第三目标频响对所述增益控制后的信号的第三频带进行频响控制，其中，所述第一目标频响大于或等于第一预设频响，所述第二目标频响大于第二预设频响，所述第三目标频响小于第三预设频响，所述第一频带的最小频率大于或等于所述第二频带的最大频率且小于或等于所述第三频带的最小频率。

11.一种语音处理方法，其特征在于，所述方法应用于终端，包括：

12.如权利要求11所述的方法，其特征在于，所述信号的类型包括耳语信号；

13.如权利要求11所述的方法，其特征在于，所述信号的类型包括耳语信号；

14.如权利要求12或13所述的方法，其特征在于，在确定所述主频域信号为耳语信号的情况下，所述方法还包括：

对估计出的噪声进行降噪处理。

15.如权利要求14所述的方法，其特征在于，所述对所述主频域信号进行背景人声噪声估计，包括：

16.如权利要求15所述的方法，其特征在于，所述对所述主频域信号进行突发噪声估计，包括：

17.如权利要求15或16所述的方法，其特征在于，所述方法还包括：

18.如权利要求17所述的方法，其特征在于，在对所述降噪后的信号进行增益控制时，满足如下条件中的至少一种：

19.如权利要求17或18所述的方法，其特征在于，所述方法还包括：

20.如权利要求19所述的方法，其特征在于，对所述增益调整后的信号进行频响控制，包括：

21.一种终端，其特征在于，包括：

接收单元，用于从多个麦克风接收信号，所述多个麦克风包括主麦克风和M个辅麦克风，M≥1，且M为整数；

模数转换单元，用于采用相同的采样率对从所述多个麦克风接收到的多路信号分别进行模数转换，得到多路时域数字信号；

频域转换单元，用于对所述多路时域数字信号分别进行频域转换，得到多路频域信号，所述多路频域信号包括一路主频域信号和M路辅频域信号，所述主频域信号与所述主麦克风对应，所述M路辅频域信号与所述M个辅麦克风一一对应；

判断单元，用于根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差以及所述主频域信号的频率分布特征中的至少一项，确定所述主频域信号的信号类型，1≤N≤M，且N为整数。

22.如权利要求21所述的终端，其特征在于，所述信号的类型包括耳语信号；

以及，所述判断单元具体用于：

23.如权利要求21所述的终端，其特征在于，所述信号的类型包括耳语信号；

以及，所述判断单元具体用于：

当满足下述条件时，确定所述主频域信号为耳语信号：

24.如权利要求22或23所述的终端，其特征在于，所述终端还包括：

噪声估计单元，用于对所述主频域信号进行平稳噪声估计、背景人声噪声估计和突发噪声估计中的至少一种处理；

降噪单元，用于对估计出的噪声进行降噪处理。

25.如权利要求24所述的终端，其特征在于，所述噪声估计单元具体用于：

26.如权利要求25所述的终端，其特征在于，所述噪声估计单元具体用于：

27.如权利要求25或26所述的终端，其特征在于，所述终端还包括：

增益控制单元，用于对所述降噪后的信号进行增益控制，得到增益调整后的信号。

28.如权利要求27所述的终端，其特征在于，在对所述降噪后的信号进行增益控制时，满足如下条件中的至少一种：

29.如权利要求27或28所述的终端，其特征在于，所述终端还包括：

频响控制单元，用于对所述增益调整后的信号进行频响控制，得到频响调整后的信号。

30.如权利要求29所述的终端，其特征在于，所述频响控制单元具体用于：

31.一种终端，其特征在于，包括：

判断单元，用于根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差，以及所述主频域信号的频率分布特征，确定所述主频域信号的信号类型，1≤N≤M，且N为整数。

32.如权利要求31所述的终端，其特征在于，所述信号的类型包括耳语信号；

以及，所述判断单元具体用于：

33.如权利要求31所述的终端，其特征在于，所述信号的类型包括耳语信号；

以及，所述判断单元具体用于：

34.如权利要求32或33所述的终端，其特征在于，在确定所述主频域信号为耳语信号的情况下，所述终端还包括：

降噪单元，用于对估计出的噪声进行降噪处理。

35.如权利要求34所述的终端，其特征在于，所述噪声估计单元具体用于：

36.如权利要求35所述的终端，其特征在于，所述噪声估计单元具体用于：

37.如权利要求35或36所述的终端，其特征在于，所述终端还包括：

38.如权利要求37所述的终端，其特征在于，在对所述降噪后的信号进行增益控制时，满足如下条件中的至少一种：

39.如权利要求37或38所述的终端，其特征在于，所述终端还包括：

40.如权利要求39所述的终端，其特征在于，所述频响控制单元具体用于：