CN105513605A

CN105513605A - 手机麦克风的语音增强系统和语音增强方法

Info

Publication number: CN105513605A
Application number: CN201510864648.8A
Authority: CN
Inventors: 章雒霏; 张铭; 李晨
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2016-04-20
Anticipated expiration: 2035-12-01
Also published as: CN105513605B

Abstract

本发明公开了一种手机麦克风的语音增强系统和语音增强方法，该方法先将主、次麦克风的带噪语音信号经过时域消噪处理滤除主，次麦克风之间的线性相关噪声，再将时域消噪处理后的信号转化到频域进行频域消噪处理，进一步的滤除主，次麦克风之间的线性不相关噪声。该方法利用语音的基音和谐波结构在频域中确定语音频点和噪声频点，并针对语音和噪声频点调节频域维纳滤波器的参数，使得维纳滤波器精准的消除噪声频点的同时对语音频点进行保留，达到了减少语音失真，提高手机通话质量的效果。

Description

手机麦克风的语音增强系统和语音增强方法

技术领域

本发明涉及手机通话中的噪声抑制和消除领域，尤其涉及一种手机麦克风的语音增强系统和语音增强方法。

背景技术

语音是人类所发出的声音，这是一种特殊的声音，空气由肺部经气管进入喉咙，又经过声带进入声道，最后由嘴辐射发出声波，形成了语音，喉咙包含着重要的发声器官——声带，声带为语音产生提供主要的激励源，声带每次开启与闭合的时间是声带的震动周期，它的倒数称为基音频率，简称基音，人在发浊音时，声带的震动产生带有周期性质的波形并且承载着语音的大部分能量。具有周期性和谐波性是语音信号的特点。语音的这一特性对语音信号处理至关重要。利用语音的基音和谐波特性可以帮助我们更好的区分语音和噪声。

在语音信号处理系统中，语音的基音和谐波特性被广泛地应用于语音压缩编码、语音分析合成以及语音识别等方面，但是如何将语音的基音和谐波特性与语音增强系统相结合的研究还较少，特别是应用于手机双麦克风语音增强系统中。将语音的特性与手机双麦克风语音增强系统进行有效的结合是一个值得探讨的问题。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种手机麦克风的语音增强系统和语音增强方法，该方法利用语音的基音和谐波特性在频域区分语音和噪音频点，控制手机双麦克风消噪系统精准的消除噪声频点的同时保留语音频点，减少语音失真，提高手机通话质量。

技术方案：为实现上述目的，本发明的手机麦克风的语音增强系统包括：第一模数转换模块、第二模数转换模块、语音和噪声活动检测装置以及消噪装置；所述第一模数转换模块连接手机上的主麦克风，将主麦克风接收到的模拟带噪语音信号转换为主麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪装置；所述第二模数转换模块连接手机上的次麦克风，将次麦克风接收到的模拟带噪语音信号转换为次麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪模块；所述语音和噪声活动检测装置根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为所述消噪装置确定语音采样点和噪声采样点；消噪装置包括时域消噪模块和频域消噪模块，时域消噪模块在语音采样点先将次麦克风数字带噪语音信号中的语音信号进行消除处理得到背景噪声信号，再在噪声采样点对主麦克风数字带噪语音信号中的背景噪声信号进行降噪处理得到主麦克风时域增强语音信号；频域消噪模块先分别对主麦克风时域增强语音信号和背景噪声信号进行短时傅里叶变化得到主麦克风频域增强语音信号和频域背景噪声信号，然后，在频域中先通过主麦克风噪声估计单元估计出主麦克风频域增强信号中的噪声，再利用语音的基音和谐波检测单元分别标记出语音和噪声频点并针对语音和噪声频点控制维纳滤波器参数进行调整，通过维纳滤波器将估计的噪声从主麦克风频域增强信号中滤除得到频域增强信号，最后，通过短时傅里叶逆变换将频域增强信号转化到时域，得到最终的消噪信号。

其中，所述时域消噪模块包括：

第一滤波器，以主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为输入信号，在所述语音采样点调整滤波器参数将纯净语音信号从所述次麦克风数字带噪语音信号中滤除得到所述背景噪声信号；

第二滤波器，以主麦克风数字带噪语音信号作为参考信号，将所述第一滤波器输出的背景噪声信号作为输入，在所述噪声采样点调整滤波器参数将所述背景噪声信号从所述主麦克风数字带噪语音信号中滤除，得到所述主麦克风时域增强语音信号。

其中，所述频域消噪模块包括：

主麦克风噪声估计单元，对所述主麦克风频域增强语音信号中的噪声进行估计得到频域噪声估计

语音的基音和谐波检测单元，估计语音的基音和谐波，并在语音主宰帧中将估计的语音的基音和谐波所在的频点标记为语音频点，在基音和谐波以外的频点通过预设的判断条件来确定噪声频点；

维纳滤波器消噪处理单元，根据增益函数G_p(w_k)与所述频域噪声估计的噪声功率P_nn(w_k)的乘积调节维纳滤波器的参数，将所述频域噪声估计从主麦克风频域增强语音信号中滤除得到所述最终的消噪信号，所述增益函数G_p(w_k)的值根据所述噪声频点改变。

相应地，本发明还提供一种应用于上述手机麦克风的语音增强系统的语音增强方法，包括以下步骤：

所述第一模数转换模块连接手机上的主麦克风，将主麦克风接收到的模拟带噪语音信号转换为主麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪装置；

所述第二模数转换模块连接手机上的次麦克风，将次麦克风接收到的模拟带噪语音信号转换为次麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪模块；

所述语音和噪声活动检测装置根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为所述消噪装置确定语音采样点和噪声采样点；

所述消噪装置的时域消噪模块在语音采样点先将次麦克风数字带噪语音信号中的语音信号进行消除处理得到背景噪声信号，再在噪声采样点对主麦克风数字带噪语音信号中的背景噪声信号进行降噪处理得到主麦克风时域增强语音信号；

所述消噪装置的频域消噪模块分别对主麦克风时域增强语音信号和背景噪声信号进行短时傅里叶变化得到主麦克风频域增强语音信号和频域背景噪声信号，并在频域滤除主麦克风频域增强语音信号中的噪声得到最终的消噪信号。

其中，所述频域消噪模块在频域滤除主麦克风频域增强语音信号中的噪声得到最终的消噪信号，包括以下步骤：

(1)对所述主麦克风频域增强语音信号采用基于最小值迭代的噪声估计算法得到每一帧带噪语音信号在每一个频点的先验信噪比和后验信噪比，并通过先验信噪比和后验信噪比计算每一个频点的语音存在概率，通过语音存在概率调整噪声估计的平滑参数，并通过噪声估计的平滑参数迭代计算得到每一帧带噪语音信号在每一个频点的第一噪声估计

(2)利用所述频域背景噪声信号估计所述主麦克风频域增强语音信号中的噪声，得到第二噪声估计

(4)将所述第一噪声估计和所述第二噪声估计相加得到最终的频域噪声估计并利用所述最终的频域噪声估计计算噪声功率P_nn(w_k)；

(5)利用所述基于最小值迭代的噪声估计算法得到的每一帧带噪语音信号在每一个频点的先验信噪比和后验信噪比确定语音主宰帧和噪声主宰帧，在语音主宰帧中估计所述主麦克风频域增强语音信号的基音和谐波，并将估计的语音的基音和谐波所在的频点标记为语音频点，在基音和谐波以外的频点通过预设的判断条件标记噪声频点；

(6)结合步骤(5)标记的噪声频点和语音频点调节维纳滤波器的参数H(w_k)，对所述主麦克风频域增强语音信号中的噪声频点进行滤除，同时对标记为语音的频点进行保留，得到频域增强后的语音信号

(7)将所述频域增强后的语音信号通过短时傅里叶逆变换转化到时域输出最终的增强语音信号

进一步地，步骤(5)中标记语音频点和噪声频点包括以下步骤：

(51)将每一帧带噪语音信号中基于最小值迭代的噪声估计算法得到的后验信噪比的谷值对应的频点标记为噪声；

(52)将所述主麦克风频域增强语音信号分为高频段和低频段，计算每一帧信号的先验信噪比和后验信噪比在所述低频段和高频段的均值，如果两个频带上的先验信噪比和后验信噪比的均值都小于预设阈值，则判断为噪声主宰帧，在帧内搜索带噪语音的峰值，将峰值对应频点标记为噪声；

(53)对于先验信噪比和后验信噪比的均值都大于等于预设阈值的帧，认为是语音主宰帧，通过计算语音的基音和谐波分量来标记语音频点。

其中，所述计算语音的基音和谐波分量包括以下步骤：

A.将频域划分为若干个等间隔的频带，分别计算这些频带的带噪语音信号幅度值的和，并从这些频带中挑选幅值的和最大的频带作为语音信号基音和谐波分量存在的备选频带；

B.在所述备选频带内将幅度的峰值对应的频点作为基音和谐波的候选频点，计算这些频点之间间隔的均值，通过将峰值两两之间的间隔和均值进行比较去掉间隔超出预设间隔范围的候选频点，初步筛选出语音基音和谐波存在的频点；

C.第二次筛选去除频率小于预设频率的频点，然后从频率大于所述预设频率的频点中去除间隔最大峰值所对应频点以及间隔最小的峰值所对应的频点；

D.对经过筛选得到的基音和谐波分量对应的峰值点之间的间隔取平均，可以得到基音的估计值；

E.在得到了基音的估计值之后，对这一帧的信号，在频域上将每个峰值对应频点和基音以及谐波分量进行比较，如果当前峰值对应频点和基音或者其谐波分量重合则判定为语音频点，如果峰值对应频点与基音和谐波分量不重合则判定为噪声频点。

有益效果：本发明的手机麦克风的语音增强系统和语音增强方法利用语音的基音和谐波性质对手机麦克风接收到的带噪语音信号进行降噪处理，该系统能够估计语音的基音和谐波，并利用估计出的语音的基音和谐波结构在频域对带噪语音信号中的语音频点和噪声频点进行判断，依据判断的结果控制频域消噪系统的参数进行调整，针对语音频点进行保留，针对噪声频点进行滤除，提高消噪性能的同时减少了语音的失真。

附图说明

图1是本发明中手机麦克风的语音增强系统的结构示意图；

图2是语音活动检测模块的结构示意图；

图3是噪声活动检测模块的结构示意图；

图4是本发明消噪装置中时域消噪模块的结构示意图；

图5是本发明消噪装置中频域消噪模块的结构示意图；

图6是频域消噪处理流程图；

图7是利用次麦克风中的背景噪声信号估计主麦克风中的噪声信号的示意图；

图8是利用语音的基音和谐波结构判断语音和噪声频点的流程图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，本实施列对本发明不构成限定。

图1中的手机麦克风的语音增强系统包括：第一模数转换模块、第二模数转换模块、语音和噪声活动检测装置以及消噪装置，第一模数转换模块连接手机上的主麦克风，将主麦克风接收到的模拟带噪语音信号转换为主麦克风数字带噪语音信号，并将该数字带噪语音信号传递给语音和噪声活动检测装置和消噪装置；第二模数转换模块连接手机上的次麦克风，将次麦克风接收到的模拟带噪语音信号转换为次麦克风数字带噪语音信号，并将该数字信号传递给语音和噪声活动检测装置和消噪装置；上述模拟带噪语音信号，包括纯净语音信号和环境中的背景噪声信号，语音和噪声活动检测装置根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为消噪装置确定语音采样点和噪声采样点；消噪装置包括时域消噪模块和频域消噪模块，时域消噪模块在语音采样点先将次麦克风数字带噪语音信号中的纯净语音信号进行消除处理得到背景噪声信号，再在噪声采样点对主麦克风数字带噪语音信号中的背景噪声信号进行降噪处理得到主麦克风时域增强语音信号；频域消噪模块先分别对主麦克风时域增强语音信号和背景噪声信号进行短时傅里叶变化得到主麦克风频域增强语音信号和频域背景噪声信号，然后，在频域中先通过主麦克风噪声估计单元估计出主麦克风频域增强信号中的噪声，再利用语音的基音和谐波检测单元分别标记出语音和噪声频点并针对语音和噪声频点控制维纳滤波器参数进行调整，通过维纳滤波器将估计的噪声从主麦克风频域增强信号中滤除得到频域增强信号，最后，通过短时傅里叶逆变换将频域增强信号转化到时域，得到最终的消噪信号。

在本实施例中位于手机下侧的Microphone(简称下MIC)对应主麦克风，主麦克风为通话中相对接近用户发音部位的麦克风，位于手机上侧的Microphone(简称上MIC)对应次麦克风，次麦克风为通话中相对远离用户发音部位的麦克风。

上述语音和噪声活动检测装置包括：语音活动检测模块VAD和噪声活动检测模块NAD，语音活动检测模块VAD对主麦克风数字带噪语音信号的时域采样点进行标记得到语音采样点，噪声活动检测模块NAD利用消噪模块获取的背景噪声信号(即：次麦克风数字带噪语音信号中滤除目标语音后得到的背景噪声信号)和主麦克风数字带噪语音信号对主麦克风数字带噪语音信号的时域采样点进行标记得到噪声采样点。

如图2所示，语音活动检测模块VAD包括神经网络语音活动检测单元、基于互通道信号功率比值的语音活动检测单元和合并单元，神经网络语音活动检测单元和基于互通道信号功率比值的语音活动检测单元分别根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号对主麦克风数字带噪语音信号中的语音信号和噪声信号利用二进制数进行标记；合并单元将两个单元获取到的标记结果做与运算，得到最终的语音标记结果作为上述的语音信号采样点，即将神经网络语音活动检测的标记结果和基于互通道功率比值的语音活动检测的标记结果相结合，只有神经网络语音活动检测和互通道功率比值语音活动检测都判断当前采样点为语音的时候，该采样点才被标记为语音，否则标记为噪声。

上述利用神经网络语音活动检测单元对语音信号和噪声信号利用二进制数进行标记，包括以下步骤：

(1)对主麦克风数字带噪语音信号和次麦克风数字带噪语音信号进行短时分帧处理，对每一帧信号提取特征，包括：子带互通道能量差和归一化的互通道相关；

(2)将该特征输入至预先训练好的神经网络，该神经网络利用所存储的神经网络的权值和神经元个数，对每一帧信号进行判断并输出每一帧语音活动检测的二进制标记结果：1表示语音帧，0表示噪声帧；

(3)将神经网络的语音活动检测结果转化为每个采样点的结果，转化的方法为：如果当前一帧带噪语音信号被判断为语音存在的帧，则一帧信号内的所有采样点都标记为1，相反的，如果一帧信号被判断为噪声，则一帧信号内的所有采样点都标记为0。

举例说明上述神经网络训练的步骤，具体如下：

1)通过手机的主麦克风和次麦克风采集训练用的模拟带噪语音信号作为神经网络的训练样本。

例如：选取100段训练用的纯净语音信号，其中80段作为训练集用于神经网络的训练，剩余20段作为验证集用于验证神经网络的结果；每句时间长度约为10s；同时，选取6种常见的噪声，babble,car,restaurant,office,street和方向性的语音干扰作为背景噪声，通过一邻近手机主麦克风的人工嘴播放纯净语音信号，手机外围布设若干喇叭播放环境噪声，信噪比分别为5dB,10dB和15dB，从而产生训练用模拟带噪语音信号；然后通过手机的主、次麦克风对产生的训练用模拟带噪语音信号分别进行采样，将不同信噪比和噪声环境下采样的带噪语音作为训练神经网络的样本，并将训练样本划分为训练集和验证集(其中训练集为80段纯净语音分别在5,10,15dB信噪比的6种不同噪声环境下的带噪语音样本，测试集为20段纯净语音分别在5,10,15dB信噪比的6种不同噪声环境下的带噪语音样本)。

2)通过模数转换器分别将上述主麦克风和次麦克风采集的训练样本转换为对应的数字采样信号，得到训练用的分别对应于主、次麦克风的数字带噪语音信号，例如：数字采样信号的频率为8khz。

3)对训练用数字带噪语音信号提取特征，包括：子带互通道能量差和归一化的互通道相关；并对每帧训练用数字带噪语音信号进行标记得到对应的语音活动检测结果：1表示语音帧，0表示噪声帧。

具体的，分别对训练集和测试集中的每帧数字带噪语音信号进行标记得到对应的语音活动检测结果，其中将带噪语音信号中的语音帧标记为1，噪声帧标记为0，作为神经网络的输出目标；其中对带噪语音信号进行短时分帧处理特征提取和标记语音活动检测结果所使用的短时分帧的帧长为256个采样点，帧移为128个采样点。

不管是训练集还是验证集，训练样本中用于神经网络训练的样本的正确的语音活动检测的结果是预先标记的，可以通过如下方式获得，如录制一段纯净的语音，根据预设的一个能量阈值(如阈值为25dBSPL声压级)来标记语音段，大于预设阈值则认为是语音帧标记为1，小于预设阈值则认为是噪声帧标记为0，然后，如果这段语音混合了噪声，前边标记的语音帧和噪声帧就指明了带噪语音中语音存在的帧和噪声存在的帧，即可据此对训练集和测试集中的每帧数字带噪语音信号进行标记得到对应的语音活动检测结果。

4)将特征作为神经网络的输入，步骤3)中得到的语音活动检测结果作为输出目标训练神经网络。

纯净语音段中预设有标记语音存在的帧和噪声存在的帧，然后该纯净语音段和不同噪声在不同信噪比下混合得到模拟带噪语音信号，对通过手机的主、次麦克风采集的模拟带噪语音信号采样后得到的数字带噪语音信号提取特征作为神经网络的输入，以纯净语音段的标记为据所获得的训练样本对应的语音活动检测结果为神经网络的输出目标，这样来训练神经网络。

根据预设的神经网络隐藏层神经元个数的范围(比如，10-50个)，将从训练集中提取的特征作为神经网络的输入，对应的训练集语音活动检测结果，其中语音活动检测标签(1：语音0：噪声)作为神经网络的输出目标，计算神经网络的输出结果与输出目标之间的误差；通过误差反向传播算法持续调整神经网络的权值，直到误差小于预设的阈值或者训练次数达到预期最大迭代次数则停止神经网络的训练，否则继续调整权值；训练结束后，使用验证集验证神经网络的结果，将从验证集中提取的特征作为神经网络的输入，神经网络的输出结果和对应验证集的语音活动检测结果进行比较，统计神经网络输出结果的正确率，如果正确率优于之前训练得到的结果，则记录此时的神经元个数；每次增加一个神经元重复上述的训练和验证步骤，直到到达设定神经元个数的上限，最后选取最优的结果对应的神经元个数，并记录此时神经网络内部的权值作为最终训练完毕的神经网络。

5)存储训练完毕的神经网络的权值和神经元个数。

本发明中步骤3)中子带互通道能量差的计算方法为：使用短时傅里叶变化将主、次麦克风接受的带噪语音信号转化到频域，在频域使用24个MEL频带对频域进行划分，对每一帧信号，先分别计算主、次麦克风的信号功率谱，再计算主、次麦克风信号功率谱在每个频点的比值，对每个子带，将子带内每个频点的功率比值取对数相加求和再除以子带的频点数进行平均，然后得到每个子带的互通道能量差作为训练神经网络的特征，其中第b个子带互通道能量差为：

S_{P} (b, n) = \frac{1}{u_{h} (b) - u_{l} (b)} Σ_{k = u_{h} (b)}^{u_{l} (b)} 10 \log_{10} \frac{P_{X_{1}} (k, n)}{P_{X_{2}} (k, n)} - - - (1)

其中，u_h(b)和u_l(b)分别为第b个子带的上下边界，和分别为主麦克风和次麦克风中第n帧信号的第k个频点的功率谱，k代表频率点,n代表语音帧标号，X₁和X₂的下标为麦克风的标号(1：主麦克风，2：次麦克风)。

本发明中，上述特征中归一化的互通道相关的计算方法为：在时域将主、次麦克风中的信号划分为短时帧，对每一帧信号，先计算主、次麦克风接受的信号幅值的均值，然后，在每个采样点上，再用主麦克风中的信号幅值减去其对应均值的值，与当前采样点经过τ个采样点的延时后的次麦克风中的信号幅值减去其对应均值的值相乘，并将每个采样点计算的结果在一帧内求和，最后对求和的值进行归一化，得到对应每一帧的归一化互通道相关T(n,τ)，计算公式如下：

T (n, τ) = \frac{Σ_{l = 1}^{L} (x_{1, n} (l) - {\overset{&OverBar;}{x}}_{1, n}) (x_{2, n} (l - τ) - {\overset{&OverBar;}{x}}_{2, n})}{\sqrt{Σ_{l = 1}^{L} {(x_{1, n} (l) - {\overset{&OverBar;}{x}}_{1, n})}^{2}} + \sqrt{Σ_{l = 1}^{L} {(x_{2, n} (l) - {\overset{&OverBar;}{x}}_{2, n})}^{2}}} - - - (2)

其中，L代表每一帧时域信号的长度，τ为延时，x_1,n和x_2,n分别为主，次麦克风中的数字带噪语音信号，和分别为每一帧内主麦克风和次麦克风接受的信号的均值，x_1,n和x_2,n的下标1和2为麦克风的标号(1：主麦克风，2：次麦克风)。

例如：对一帧带噪语音信号，选取24个频带的子带互通道能量差作为第一类特征，选取τ＝{-10，-9，-8，…+8,+9,+10}对应的归一化互通道相关的值作为第二类特征，一共为45个输入作为训练神经网络的输入。神经网络采用3层的反向传播神经网络(BackpropagationNeuralNetworks)。隐藏层采用30个神经元，输入层到隐藏层采用tansig作为激活函数，隐藏层到输出层采用purline作为激活函数，最大迭代次数为2000次，学习步长设定为0.01，学习函数设定为traingdx。

上述基于互通道信号功率比值的语音活动检测单元分别对主麦克风数字带噪语音信号和次麦克风数字带噪语音信号计算信号的功率，并得到两个通道的信号功率比值，具体步骤如下：

(1)采用不同的平滑参数α计算两个通道信号的功率，计算过程如下：

P_{i_{s}} (t) = α_{_s} P_{i_{s}} (t - 1) + (1 - α_{_s}) {x_{i}}^{2} (t), i = 1, 2 - - - (3)

P_{i_{f}} (t) = α_{_f} P_{i_{f}} (t - 1) + (1 - α_{_f}) {x_{i}}^{2} (t), i = 1, 2 - - - (4)

其中，为长时间平滑计算得到的功率，使用的平滑参数为α_{_s}＝0.999，为短时间平滑得到的功率，平滑参数为α_{_f}＝0.9。i为主，次麦克风的标号(1：主麦克风2：次麦克风)。

(2)将长平滑和短平滑分别计算得到的两个通道的功率相比得到互通道功率的比值，计算过程如下：

P_{s} (t) = P_{1_{s}} (t) / P_{2_{s}} (t) - - - (5)

P_{f} (t) = P_{1_{f}} (t) / P_{2_{f}} (t) - - - (6)

其中，P_s(t)为长平滑互通道功率比，P_f(t)为短平滑互通道功率比，因为语音信号是高度非平稳的信号，短时间平滑得到的信号功率会比长时间平滑得到的信号功率大得多，而噪声较语音信号平缓，所以短时间和长时间平滑的信号功率差别较语音小的多。可以通过比较P_f(t)和P_s(t)的大小来判断语音和噪声。

(3)对每一个时域采样点，比较比较P_f(t)和P_s(t)的大小，如果满足P_f(t)>2*P_s(t)则将该时域采样点标记为1表示语音，否则标记为0表示噪声。

现有技术中区分语音和噪声的方法通过设定一个阈值，将功率比值与设定阈值进行比较，如果大于阈值则判断为语音，小于阈值则判断为噪声，但是固定的阈值无法在不同的信噪比和噪声环境下获得准确的结果，本发明分别采用长时间的平滑和短时间的平滑迭代计算主、次麦克风中的带噪语音信号的功率，再计算长时间和短时间平滑迭代计算的主、次麦克风的带噪语音的功率的比值，通过比较长时间信号功率比值和短时间信号功率比值的大小来判断语音和噪声，该方法能够在不同的信噪比噪声环境下取得准确的结果。

另外，现有的语音活动检测方法难以准确的区分语音和噪声，造成语音被误判为噪声或者噪声被误判为语音，本发明的语音活动检测方法，分别采用神经网络语音活动检测单元和基于互通道信号功率比值的语音活动检测单元进行语音活动的检测，结合两者的结果可以在判断出语音存在的部分的同时减少噪声的误判。

如图3所示，上述噪声活动检测模块NAD利用互通道信号功率的比值进行噪声活动的检测，具体步骤如下：

(1)将消噪模块获取的背景噪声信号(即：主麦克风数字带噪语音信号中滤除了纯净语音信号得到的背景噪声信号)和主麦克风数字带噪语音信号作为噪声活动检测器的输入；

(2)采用不同的平滑参数α计算噪声和带噪语音信号的功率，计算过程如下：

P_{noise_s}(t)＝α_{_s}P_{noise_s}(t-1)+(1-α_{_s})n²(t)(7)

P_{noise_f}(t)＝α_{_f}P_{noise_f}(t-1)+(1-α_{_f})n²(t)(8)

其中，P_{noise_s}(t)为长时间平滑计算得到的噪声功率，α_{_s}＝0.999，P_{noise_f}(t)为短时间平滑计算得到的噪声功率，α_{_f}＝0.9，n(t)为第一滤波器输出的背景噪声信号；

(3)分别将P_{noise_s}(t)和P_{noise_f}(t)与长，短时平滑计算得到的主麦克风中带噪信号功率和进行比较，得到噪声和带噪语音信号的功率比值，计算过程如下：

P_{n_s} (t) = P_{n o i s e_s} (t) / P_{1_{s}} (t) - - - (9)

P_{n_f} (t) = P_{n o i s e_f} (t) / P_{1_{f}} (t) - - - (10)

其中，P_{n_s}(t)与P_{n_f}(t)分别为长平滑和短平滑计算得到的噪声与主麦克风中带噪语音的长时功率比和短时功率比；

(4)为了在噪声段增加长时与短时平滑功率比值的差距，对P_{n_s}(t)再次进行平滑，计算过程如下：

P_{n_ss}(t)＝α_{_ss}P_{n_ss}(t-1)+(1-α_{_ss})P_{n_s}(t)(11)

其中，P_{n_ss}(t)为对长时功率比P_{n_s}(t)进行再次平滑得到的功率比值，这里的平滑系数α_{_ss}根据神经网络语音活动的结果进行调整，在语音段即语音帧α_{_ss}为1保持P_{n_ss}(t)不变，在噪声段即噪声帧α_{_ss}为0.999迭代平滑计算P_{n_ss}(t)；

(5)对每一个时域采样点，比较P_{n_f}(t)和P_{n_ss}(t)的大小，如果满足P_{n_f}(t)>2*P_{n_ss}(t)将该时域采样点标记为0表示噪声，否则标记为1表示语音，标记为噪声的记作噪声采样点。

消噪装置的时域消噪模块通过滤除主、次麦克风中的线性相关噪声得到主麦克风时域增强语音信号和估计的背景噪声信号；频域消噪模块通过短时傅里叶变化将主麦克风时域增强信号和背景噪声信号转化到频域，进一步的滤除主、次麦克风中的线性不相关噪声得到最终的消噪信号。

图4中的消噪模块包括：第一滤波器和第二滤波器，主麦克风数字带噪语音信号和次麦克风数字带噪语音信号作为第一滤波器的输入，第一滤波器在语音活动检测模块提供的语音采样点控制自适应滤波器调整参数将纯净语音信号从次麦克风数字带噪语音信号中滤除得到背景噪声信号，该背景噪声信号作为噪声活动检测模块NAD的一个输入信号；第二滤波器以经过了时延τ(本发明实用例中采用10个采样点)的主麦克风数字带噪语音信号作为参考信号，将第一滤波器输出的背景噪声信号作为输入，在噪声活动检测模块NAD提供的噪声采样点控制第二滤波器调整参数将背景噪声信号从主麦克风数字带噪语音信号中滤除，得到主麦克风增强语音信号。

图5中的频域消噪模块包括：主麦克风噪声估计单元、语音的基音和谐波检测单元、维纳滤波器消噪处理单元，主麦克风噪声估计单元对主麦克风频域增强语音信号中的噪声进行估计；语音的基音和谐波检测单元估计语音的基音和谐波，并在语音主宰帧中将估计的语音的基音和谐波所在的频点标记为语音存在的频点，对于基音和谐波以外的频点通过预设的判断条件来确定是否为噪声频点；设定一增益函数G_p(w_k)，将增益函数G_p(w_k)与估计的主麦克风中的噪声功率相乘，依据频点的性质改变增益函数G_p(w_k)的值来调节维纳滤波器的参数，控制维纳滤波器消噪处理单元将估计的背景噪声从主麦克风频域增强语音信号中滤除的同时针对语音频点进行保留，减少语音失真提高语音的可懂度。具体如图6所示，包括以下步骤：

(1)通过短时傅里叶变换将时域消噪模块中第二滤波器输出的主麦克风增强语音信号和第一滤波器输出的背景噪声信号进行短时傅里叶变换转化到频域；上述时域消噪模块的时域信号的采样率设为8khz，短时傅里叶变换所使用的帧长L为256个采样点，帧移M为128个采样点；

(2)对主麦克风频域增强语音信号采用基于最小值迭代的噪声估计算法(minimacontrolledrecursiveaveraging，MCRA)得到第一噪声估计信号基于最小值迭代的噪声估计算法通过计算得到每一帧带噪语音信号在每一个频点的先验信噪比和后验信噪比，并通过先验信噪比和后验信噪比计算每一个频点的语音存在概率，通过语音存在概率调整噪声估计的平滑参数，并通过噪声估计的平滑参数迭代计算得到每一帧带噪语音信号在每一个频点的第一噪声估计每一个频点的先验信噪比和后验信噪比通过将带噪语音信号的功率与带噪语音信号功率的最小值进行比较得到；

(3)通过次麦克风中的背景噪声信号估计主麦克风频域增强语音信号在频带的噪声，得到第二噪声估计信号

(4)将第一噪声估计信号和第一噪声估计信号相加得到主麦克风的时域增强语音信号的最终噪声估计信号通过最终噪声估计信号计算噪声的功率P_nn(w_k)；

(7)将频域增强后的语音信号通过短时傅里叶逆变换转化到时域输出最终的消噪语音信号

上述步骤(3)中使用时域处理模块中第一滤波器输出的次麦克风中的背景噪声信号来估计主麦克风时域增强语音信号的噪声信号，如图7所示，由于噪声信号到达主、次麦克风的传播路径不同，次麦克风和主麦克风中的噪声信号存在一些差别，为了利用次麦克风中的噪声信号估计主麦克风中噪声信号，本发明在频域设定一个权值向量W，通过语音活动检测结果的控制，在噪声段迭代更新W的值，在语音段保持W的值不变，通过调整权值W使得次麦克风中的背景噪声信号收敛于主麦克风中的噪声信号。具体步骤如下：

(31)经过时域信号处理系统的处理，两个自适应滤波器分别输出次麦克风中的背景噪声信号n(t)和主麦克风时域增强语音信号s(t)，分别对噪声信号和语音信号进行短时傅里叶变换转化到频域得到频域噪声信号N₂(k,n)和主麦克风频域增强语音信号X_E(k,n)。

(32)在频域设定一个权值向量W，通过语音活动检测结果的控制，在噪声段迭代更新W的值，在语音段保持W的值不变，通过调整权值W使得次麦克风中的背景噪声信号N₂(k,n)收敛于主麦克风中的噪声信号N₁(k,n)，计算的过程如下：

e＝N₁(k,n)-W(k,n)·N₂(k,n)＝0(12)

其中，N₁(k,n)是主麦克风中的噪声在频域的信号，e为主麦克风中的噪声和利用次麦克风估计的主麦克风中的噪声的误差，k为频点，n为帧号，权值向量W的作用是使得次麦克风中的噪声信号收敛于主麦克风中的噪声信号，也就是两者的误差e为0。(1)式经过变形可以写为：

N₁(k,n)＝W(k,n)·N₂(k,n)(13)

则，权值向量W的计算可以用下式来表示:

W (k, n) = \frac{N_{1} (k, n)}{N_{2} (k, n)} - - - (14)

因为权值向量W的作用是控制次麦克风中的噪声信号收敛于主麦克风中的噪声信号，所以需要在主麦克风频域增强信号的纯噪声段对权值向量W的值进行调整，在语音段保持W的值不变，这里，我们设立一个权值向量W的增量W_i，W_i的计算公式如下：

W_{i} (k, n) = \frac{X_{E} (k, n)}{N_{2} (k, n)} - - - (15)

其中，X_E(k,n)为主麦克风频域增强信号，N₂(k,n)为次麦克风中背景噪声信号，对每一帧信号的每一个频点，我们依据上式计算权值向量的增量W_i。在纯噪声段，W_i为主，次麦克风中噪声幅度谱的比值，此时，利用W_i的值对W进行调整，在语音段，W_i为主麦克风中的带噪语音和次麦克风中噪声幅度谱的比值，此时保持W不变，计算过程如下：

W(k,n)＝α_wW(k,n-1)+(1-α_w)W_i(k,n)(16)

其中，α_w为控制权值向量W迭代平滑的参数，α_w的值通过神经网络语音活动检测的结果来控制，在语音信号出现的段落即语音帧则令α_w＝1停止权值的迭代，权值W保持不变，在纯噪声段落，即噪声帧则令α_w＝0.999迭代平滑更新权值W。则主麦克风频域增强语音信号中的噪声可以利用下式计算：

\hat{N_{1}} (k, n) = W (k, n) \cdot N_{2} (k, n) - - - (17)

上述步骤(5)中估计语音信号的基音和谐波，并在语音主宰帧中将估计的语音的基音和谐波所在的频点标记为语音存在的频点，对于基音和谐波以外的频点可以通过判断来确定是否为噪声频点。

在步骤(2)噪声估计算法中，利用基于最小值迭代的算法估计出了主麦克风中的噪声，在基于最小值迭代估计噪声的算法中，计算语音存在概率的同时会针对每一个频点计算先验和后验信噪比，在步骤(5)的估计语音的基音和谐波的处理中，先利用所述基于最小值迭代的噪声估计算法得到的每一帧带噪语音信号在每一个频点的先验信噪比和后验信噪比确定语音主宰帧和噪声主宰帧，针对不同的帧采取不同的处理方式来估计语音的基音和谐波并利用语音的基音和谐波结构对频点进行标记。如图8所示，具体步骤如下：

(52)计算每一帧信号的先验信噪比和后验信噪比在低频段0-1.5kHz和高频段1.5-4kHz两个频带上的均值，如果两个频带上的先验信噪比和后验信噪比的均值都小于预设阈值(本方法的预设阈值为先验信噪比和后验信噪比在两个频带的均值都小于1.1)，则可以判断为噪声主宰帧，在帧内搜索带噪语音的峰值，将峰值对应频点标记为噪声；

(53)对于先验信噪比和后验信噪比的均值都大于等于预设阈值的帧(本方法的预设阈值为先验信噪比和后验信噪比在低频段的均值大于2，在高频段的均值大于1.5)，认为是语音主宰的帧，通过计算语音的基音和谐波分量来标记语音频点。

A.首先，基音和谐波的分量含有语音信号的绝大部分能量，将大于预设频点(本方法的预设频点为500Hz)的频段频域划分为3个等间隔的频带，每个频带之间的带宽为1.5kHz，以1kHz为起始频率的移动区间，如第一个频带为500-2000Hz，则第二个频带为1500-3000Hz，第三个频带为2500-4000Hz，分别计算这3个频带的信号幅度值的和，从3个频带中挑选幅值的和最大的频带作为语音信号基音和谐波分量存在的备选频带；

B.步骤A中的备选频带是基音和谐波可能存在的频带，在该备选频带内记录幅度的峰值对应的频点作为基音和谐波的候选频点，计算这些频点之间间隔的均值，通过将峰值两两之间的间隔和均值进行比较去掉间隔明显过大和过小的候选频点(本方法中设定，与前一个频点间隔大于或者小于均值超过1个采样点的频点为噪声频点，去除)，初步的筛选出语音基音和谐波存在的频点；

C.第二次的筛选去除预设频率500Hz以下的频点，然后从500Hz以上的峰值对应频点中去除间隔最大和最小的峰值对应频点，这样做的目的是尽可能的保留可靠并且稳定的基音和谐波分量的候选频点；

D.对经过筛选得到的基音和谐波分量对应的峰值点之间的间隔取平均，可以得到基音的一个估计值；

E.在得到了基音的估计值之后，对这一帧的信号，在频域上将每个峰值对应频点和基音以及谐波分量进行比较，如果当前峰值对应频点和基音或者其谐波分量重合则判定为语音存在的频点，在消噪阶段保留。如果峰值对应频点与基音和谐波分量不重合则判定为噪声存在的频点，对这些噪声的频点进行标记，在消噪阶段去除。

上述步骤(6)中通过语音的基音和谐波检测的结果调整维纳滤波器的参数将估计的主麦克风中的噪声从带噪语音信号中滤除，具体步骤如下：

(61)设定一个增益函数G_p(w_k)，G_p(w_k)的值依据上述步骤(53)E中语音的基音和谐波结构判断的语音频点和噪声频点进行调整，如果某一帧中的频点被标记为语音频点，则G_p(w_k)的值设定为0.16，如果某一帧中的频点被标记为噪声频点则G_p(w_k)的值设定为12。

(62)将增益函数G_p(w_k)与估计的主麦克风中的噪声功率P_nn(w_k)相乘，依据频点的性质，通过增益函数G_p(w_k)的值来调节先验信噪比的值，由增益函数控制的先验信噪比的计算公式如下：

ζ (w_{k}) = \frac{P_{s s} (w_{k})}{G_{p} (w_{k}) * P_{n n} (w_{k})} - - - (18)

其中，P_ss(w_k)为纯净语音信号的功率，P_nn(w_k)为估计的主麦克风中的噪声功率。

(63)通过先验信噪比ζ(w_k)计算维纳滤波器H(w_k)，计算公式如下：

H (w_{k}) = \frac{ζ (w_{k})}{1 + ζ (w_{k})} - - - (19)

利用维纳滤波器滤除主麦克风带噪语音信号中的背景噪声，得到频域的增强语音信号，计算公式如下：

\hat{D} (w) = H (w_{k}) X_{E} (k, n) - - - (20)

其中，为频域消噪信号，X_E(k,n)为主麦克风频域增强语音信号。

实验结果

将本发明提出的语音增强方法在MATLAB环境下进行仿真实验，与没有结合语音的基音和谐波结构的语音增强算法进行比较，并与论文《NoiseReductionforDual-MicrophoneMobilePhonesExploitingPowerLevelDifferences》中提出的手机双麦克风语音增强方法PLD进行比较。为了验证本发明方法的消噪效果，分别选取了5种手机使用中常见的噪声环境，噪声与纯净语音的采样率均为8kHz，信噪比分别为5，10，15dB。采用对数谱距离(logspectraldistance,LSD)，客观质量评估(perceptualevaluationofspeechquality,PESQ[14])和信噪比(SNR)分别对本发明的语音增强方法和PLD算法的性能进行衡量。

表1在不同噪声和信噪比条件下经过语音增强处理之后的信噪比

从表1中可以看出，本方法相较于PLD方法有了较大的提升，特别是在5dB信噪比的条件下，本方法输出的信噪比均能够达到15dB左右。为了验证本方法对于方向性干扰人声的抑制效果，我们选取了45°方位入射的干扰人声，因为45°方位的干扰人声与目标语音的入射方位非常接近，所以传统的消噪方法很难对其进行有效的抑制，从结果中可以看出，本方法对于45°的干扰人声也有很好的效果而PLD算法的性能则大大的下降。

语音的可懂度在手机的通信中非常的重要，消噪处理会带来一定程度的语音失真，LSD指标主要用来衡量增强语音的失真度，LSD值越大说明语音信号的失真越严重，越小表明语音信号失真越小，质量越接近于原始语音。

表2.不同信噪比和噪声条件下经过语音增强处理之后的对数谱距离(LSD)

从表2中可以看出，本方法相较于PLD算法对语音信号的损失更小，说明经过本方法处理的语音失真更小，语音质量更接近于原始语音信号。

除了客观的评价语音增强的性能，手机通话的语音质量还与主观的评价有关，我们采用PESQ来衡量增强语音的质量，采用PESQ衡量增强语音质量能够反映主观听觉测试结果，PESQ的值越高说明其语音质量和可懂度越高。

表3不同信噪比和噪声条件下经过语音增强处理之后的PESQ

从表3中可以看出，本方法相较于PLD方法的主观评价分数更高，说明了本方法更有利于提高手机通话中的语音质量。

本发明中手机指的是能够进行语音通话或者获取语音信息的移动终端以及其他无线或有线通信设备。

上述主麦克风的噪声信号指的是由主麦克风接收到的噪声，次麦克风的噪声信号指的是由次麦克风接收到的噪声，此类描述只是指明该噪声的来源，在时域、频域的消噪环节对应相应的时、频状态。

以上仅是本发明的优选实施方式，应当指出以上实施列对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的多样变化和修改，均落在本发明的保护范围内。

Claims

1.一种手机麦克风的语音增强系统，其特征在于，包括：第一模数转换模块、第二模数转换模块、语音和噪声活动检测装置以及消噪装置；所述第一模数转换模块连接手机上的主麦克风，将主麦克风接收到的模拟带噪语音信号转换为主麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪装置；所述第二模数转换模块连接手机上的次麦克风，将次麦克风接收到的模拟带噪语音信号转换为次麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪装置；所述语音和噪声活动检测装置根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为所述消噪装置确定语音采样点和噪声采样点；消噪装置包括时域消噪模块和频域消噪模块，时域消噪模块在语音采样点先将次麦克风数字带噪语音信号中的语音信号进行消除处理得到背景噪声信号，再在噪声采样点对主麦克风数字带噪语音信号中的背景噪声信号进行降噪处理得到主麦克风时域增强语音信号；频域消噪模块先分别对主麦克风时域增强语音信号和背景噪声信号进行短时傅里叶变化得到主麦克风频域增强语音信号和频域背景噪声信号，然后，在频域中先通过主麦克风噪声估计单元估计出主麦克风频域增强信号中的噪声，再利用语音的基音和谐波检测单元分别标记出语音和噪声频点并针对语音和噪声频点控制维纳滤波器参数进行调整，通过维纳滤波器将估计的噪声从主麦克风频域增强信号中滤除得到频域增强信号，最后，通过短时傅里叶逆变换将频域增强信号转化到时域，得到最终的消噪信号。

2.根据权利要求1所述的手机麦克风的语音增强系统，其特征在于，所述时域消噪模块包括：

3.根据权利要求1所述的手机麦克风的语音增强系统，其特征在于，所述频域消噪模块包括：

语音的基音和谐波检测单元，在语音帧中估计语音的基音和谐波，并将估计出的语音的基音和谐波所在的频点标记为语音频点，对基音和谐波以外的频点通过预设的判断条件来确定是否为噪声频点；

维纳滤波器消噪处理单元，根据增益函数G_p(w_k)与所述频域噪声估计的噪声功率P_nn(w_k)的乘积调节维纳滤波器的参数，将所述频域噪声估计从主麦克风频域增强语音信号中滤除得到所述最终的消噪信号，所述增益函数G_p(w_k)的值根据所述噪声和语音频点而调整。

4.一种应用于权利要求1所述的手机麦克风的语音增强系统的语音增强方法，其特征在于，包括以下步骤：

所述消噪装置的频域消噪模块先分别对主麦克风时域增强语音信号和背景噪声信号进行短时傅里叶变化得到主麦克风频域增强语音信号和频域背景噪声信号，然后，在频域中先通过主麦克风噪声估计单元估计出主麦克风频域增强信号中的噪声，再利用语音的基音和谐波检测单元分别标记出语音和噪声频点并针对语音和噪声频点控制维纳滤波器参数进行调整，通过维纳滤波器将估计的噪声从主麦克风频域增强信号中滤除得到频域增强信号，最后，通过短时傅里叶逆变换将频域增强信号转化到时域，得到最终的消噪信号。

5.根据权利要求4所述的语音增强方法，其特征在于，所述频域消噪模块在频域滤除主麦克风频域增强语音信号中的噪声得到最终的消噪信号，包括以下步骤：

(5)利用所述基于最小值迭代的噪声估计算法得到的每一帧带噪语音信号在每一个频点的先验信噪比和后验信噪比确定语音主宰帧和噪声主宰帧，在语音主宰帧中估计所述主麦克风频域增强语音信号的基音和谐波，并将估计的基音和谐波所在的频点标记为语音频点，在基音和谐波以外的频点通过预设的判断条件标记噪声频点；

6.根据权利要求5所述的语音增强方法，其特征在于，步骤(5)中标记语音频点和噪声频点包括以下步骤：

7.根据权利要求6所述的语音增强方法，其特征在于，所述计算语音的基音和谐波分量包括以下步骤：

A.将大于预设频率的频段划分为若干个等间隔的频带，分别计算这些频带的带噪语音信号幅度值的和，并从这些频带中挑选幅值的和最大的频带作为语音信号基音和谐波分量存在的备选频带；