CN102801861A

CN102801861A - 一种应用于手机的语音增强方法和装置

Info

Publication number: CN102801861A
Application number: CN2012102787046A
Authority: CN
Inventors: 刘崧; 李波; 楼厦厦
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2012-08-07
Filing date: 2012-08-07
Publication date: 2012-11-28
Anticipated expiration: 2032-08-07
Also published as: US9437209B2; EP2835958A4; CN102801861B; KR20150017703A; US20150142426A1; DK2835958T3; KR101639933B1; WO2014023183A1; EP2835958A1; JP5952434B2; EP2835958B1; JP2015517116A

Abstract

本发明公开了一种应用于手机的语音增强方法和装置。本发明这种在用户说话时对用户的手机握持状态进行检测，根据用户的手机握持状态采用不同的降噪处理方案，在用户正常握持手机时采用多麦克风降噪和单麦克风降噪结合的方案对稳态噪声和非稳态噪声都进行有效的抑制，而在用户异常握持手机时采用单麦克风降噪方案只对稳态噪声进行抑制，避免了多麦克风降噪对语音的损伤，保证了语音质量。

Description

一种应用于手机的语音增强方法和装置

技术领域

本发明涉及语音信号处理技术领域，特别涉及一种应用于手机的语音增强方法和装置。

背景技术

手机在人们的日常生活和工作中已经得到了广泛应用，解除了人们通讯的时空约束，为人们的生活和工作提供了极大的便利。但是人们进行通讯的环境是复杂多变的，其中包括吵杂的环境，噪声会使得通话的语音质量严重下降，因此应用于手机的抑制噪声的语音增强技术有着重要的意义。

目前手机中常用的语音增强技术中有单麦克风谱减语音增强技术，也叫单通道谱减语音增强技术，也可以成为单麦克风降噪技术，这种技术只能抑制稳态的噪声，对非稳态的噪声，如商场超市或餐厅里的周围人的说话声等，没有明显的抑制效果。

另一种更优的降噪技术是多麦克风阵列语音增强技术，也称为多麦克风降噪技术，这种技术又分为两类：

第一类是通过多麦克风信号处理形成固定的指向性，即保留来自一个指定方向的声音，抑制来自其它方向的声音，当处理形成的指向性指向使用者的嘴则能达到保护语音抑制周围噪声的效果。

第二类是利用多麦克风接收到信号的能量差来区分语音噪声从而进行降噪处理。图1是利用多麦克风接收到信号的能量差来区分语音噪声从而进行降噪处理方案的多麦克风的安装位置示意图。如图1所示，这里有两个麦克风，分别为主麦克风1和辅麦克风2，把主麦克风1安装到手机的底端靠近人嘴的位置，主麦克风1接收到的使用者的语音信号能量很大，辅麦克风2安装在手机的顶端远离人嘴的位置，辅麦克风2接收到的使用者的语音信号能量小。如图1所示，对于外界环境噪声两个麦克风接收到的能量接近，因此通过比较两个麦克风接收到的信号能量差异可以判断是语音信号还是噪声信号，从而保留语音成分抑制噪声成分，达到提高信噪比的效果。

多麦克风降噪技术优于单麦克风降噪技术的是可以有效抑制非稳态的噪声。但是多麦克风降噪技术对用户使用手机的方式会有严格约束，即用户握持手机的方式要受到限制。对于所述第一类利用指向性的技术来说，用户必须保持指向性对准人嘴的握持方式，否则若用户的握持方式有偏差就会导致人嘴偏离被保护的方向，语音就会被作为来自其他方向的噪声抑制；同样对于第二类利用能量差异的技术也要求用户保证主麦克靠近人嘴而辅麦克远离嘴握持方式，如图2所示，图2是用户正常握持手机状态示意图；当用户异常握持时，如手机被水平握持时，如图3所示，图3是用户异常握持手机状态示意图，两个麦克风到人嘴的距离接近，语音到两个麦克风的能量接近，语音同样会被当作噪声抑制。

发明内容

有鉴于此，本发明提供了一种应用于手机的语音增强方法和装置，以解决只采用单麦克风降噪只能一致稳态噪声，而采用多麦克风降噪虽然能抑制非稳态噪声但在用户异常握持手机时损伤语音信号的问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明公开了一种应用于手机的语音增强方法，在手机的底部设置主麦克风，在手机的远离主麦克风的位置设置一个或多个辅麦克风，则该方法包括：

根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态；

当判断用户处于说话状态时，进一步检测用户的手机握持状态是正常握持手机还是异常握持手机；

当检测到用户正常握持手机时，采用多麦克风降噪和单麦克风降噪相结合的方式进行语音增强处理；

当检测到用户异常握持手机时，只采用单麦克风降噪方式进行语音增强处理。

在上述方法中，所述根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态包括：

计算主麦克风信号与辅麦克风信号之间的相关值，如果该相关值大于第一阈值则判断用户处于说话状态，如果该相关值小于或等于第一阈值则判断用户处于接听状态；

计算主麦克风信号与辅麦克风信号之间的相关值为：计算主麦克风信号与每个辅麦克风信号之间的相关值，然后进行平均得到平均相关值，或者，计算主麦克风信号与其中一个辅麦克风信号之间的相关值。

在上述方法中，所述检测用户的手机握持状态是正常握持手机还是异常握持手机包括：

通过多麦克风检测语音的方向，若语音来自手机底部方向，则确定用户正常握持手机，若语音来自手机的侧向或顶部方向，则确定用户异常握持手机；

或者，计算主麦克风信号能量与辅麦克风信号能量的比值，如果该比值大于第二阈值，则确定用户正常握持手机，如果该比值小于或等于第二阈值，则确定用户异常握持手机。

该方法进一步包括：在根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态之前，先对主麦克风信号和各辅助麦克风信号进行快速傅里叶变换处理；在进行语音增强处理之后，再对降噪后的信号进行逆快速傅里叶变换处理；

所述采用多麦克风降噪和单麦克风降噪相结合的方式进行语音增强处理包括：先进行多麦克风降噪处理，然后进行单麦克风降噪处理；

其中，先进行多麦克风降噪处理为：在每个频率子带上，计算主麦克风信号和辅麦克风信号在该频率子带上的能量比值，根据该能量比值确定抑噪函数在该频率子带上的取值；将抑噪函数与主麦克风信号进行相乘运算得到抑制非稳态噪声后的信号；

然后进行单麦克风降噪处理为：在每个频率子带上，通过滑动平均算法计算出所述抑制非稳态噪声后的信号在该频率子带上的平稳噪声能量，进而计算出语音成分比例函数在该频率子带上的取值；将语音成分比例函数与所述抑制非稳态噪声后的信号进行相乘运算，得到抑制非稳态噪声后又抑制了稳态噪声的信号；

所述只采用单麦克风降噪方式进行语音增强处理包括：在每个频率子带上，通过滑动平均算法计算出主麦克风信号在该频率子带上的平稳噪声能量，进而计算出语音成分比例函数在该频率子带上的取值；将语音成分比例函数与主麦克风信号进行相乘运算，得到抑制稳态噪声后的信号

该方法进一步包括：

当判断用户处于接听状态时，保持之前的语音增强处理方式不变。

本发明还公开了一种应用于手机的语音增强装置，在手机的底部设置有主麦克风，在手机的远离主麦克风的位置设置有一个或多个辅麦克风，则该装置包括：检测单元和降噪单元，其中：

检测单元，用于根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态；当判断用户处于说话状态时，进一步检测用户的手机握持状态是正常握持手机还是异常握持手机，并通知给降噪单元；

降噪单元，用于在接收到用户正常握持手机的通知时，采用多麦克风降噪和单麦克风降噪相结合的方式进行语音增强处理；用于在接收到用户异常握持手机的通知时，只采用单麦克风降噪方式进行语音增强处理。

在上述装置中，所述检测单元包括：近场语音检测模块和握持状态检测模块；所述降噪单元包括：多麦克风降噪处理模块和单麦克风降噪处理模块；其中，

近场语音检测模块，用于接收主麦克风信号和各辅助麦克风信号，并根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态，当判断用户处于说话状态时向握持状态检测模块发送通知，当判断用户处于接听状态时不向握持状态检测模块发送通知；

握持状态检测模块，用于接收主麦克风信号和各辅助麦克风信号，在收到近场语音检测模块的通知时，检测用户的手机握持状态是正常握持手机还是异常握持手机，当检测到用户正常握持手机时，将主麦克风信号和各辅助麦克风信号发送给多麦克风降噪处理模块，当检测到用户异常握持手机时，将主麦克风信号发送给单麦克风降噪处理模块；

多麦克风降噪处理模块，用于对所接收的信号进行多麦克风降噪处理后发送给单麦克风降噪处理模块；

单麦克风降噪处理模块，用于对所接收的信号进行单麦克风降噪处理后输出。

在上述装置中，所述近场语音检测模块，用于计算主麦克风信号与辅麦克风信号之间的相关值，如果该相关值大于第一阈值则判断用户处于说话状态，如果该相关值小于或等于第一阈值则判断用户处于接听状态；

其中，所述近场语音检测模块，计算主麦克风信号与每个辅麦克风信号之间的相关值，然后进行平均得到平均相关值，或者，计算主麦克风信号与其中一个辅麦克风信号之间的相关值。

在上述装置中，

所述握持状态检测模块，用于通过多麦克风检测语音的方向，若语音来自手机底部方向，则确定用户正常握持手机，若语音来自手机的侧向或顶部方向，则确定用户异常握持手机；

或者，

所述握持状态检测模块，用于计算主麦克风信号能量与辅麦克风信号能量的比值，如果该比值大于第二阈值，则确定用户正常握持手机，如果该比值小于或等于第二阈值，则确定用户异常握持手机。

该装置还包括：快速傅里叶变换模块和逆快速傅里叶变换模块，其中：

快速傅里叶变换模块，用于将主麦克风信号和各辅麦克风信号分别进行快速傅里叶变换处理后发送给近场语音检测模块和握持状态检测模块；

所述多麦克风降噪处理模块，用于在每个频率子带上，计算主麦克风信号和辅麦克风信号在该频率子带上的能量比值，根据该能量比值确定抑噪函数在该频率子带上的取值；用于将抑噪函数与主麦克风信号进行相乘运算得到抑制非稳态噪声后的信号后输出给单麦克风降噪处理模块；

所述单麦克风降噪处理模块，用于在每个频率子带上，通过滑动平均算法计算出所接收信号在该频率子带上的平稳噪声能量，进而计算出语音成分比例函数在该频率子带上的取值；将语音成分比例函数与所接收信号进行相乘运算得到抑制稳态噪声的信号后输出给逆快速傅里叶变换模块；

逆快速傅里叶变换模块，用于对所接收的信号进行逆快速傅里叶变换处理后输出。

由上述可见，本发明这种在用户说话时对用户的手机握持状态进行检测，根据用户的手机握持状态采用不同的降噪处理方案，在用户正常握持手机时采用多麦克风降噪和单麦克风降噪结合的方案对稳态噪声和非稳态噪声都进行有效的抑制，而在用户异常握持手机时采用单麦克风降噪方案只对稳态噪声进行抑制，避免了多麦克风降噪对语音的损伤，保证了语音质量。

附图说明

图1是利用多麦克风接收到信号的能量差来区分语音噪声从而进行降噪处理方案的多麦克风的安装位置示意图；

图2是用户正常握持手机状态示意图；

图3是用户异常握持手机状态示意图；

图4是本发明实施例中的一种应用于手机的语音增强装置的结构示意图。

具体实施方式

本发明是应用于手机的语音增强技术，本发明中采用了手机握持状态检测技术，对用户正常握持手机状态采用多麦克降噪与单麦克降噪结合处理的方案，从而能够保证在用户正确握持手机时能达到最优的降噪效果，对用户异常握持状态采用单通道降噪处理只对稳态噪声进行抑制以避免此时采用多麦克降噪处理对语音造成伤害。也就是说，本发明在多麦克风降噪的基础上加入用户手机握持状态的检测，从而能在不同的手机握持状态采用不同的降噪技术，保证最优降噪的同时也避免语音失真。

下面对本发明的技术方案进行详细分析介绍。

在嘈杂的环境中使用手机通话时往往会遇到这样的情况，自己的说话声被周围的噪声所掩盖导致对方难以听清，本发明所公开的就是一种消除这些噪声，保留清晰的语音，使得通话即使在吵闹的环境中仍然能够通畅清晰进行的多麦克风降噪技术，这里的多个麦克风包括两个或两个以上的麦克风。因此本技术适用于安装有两个或两个以上麦克风的手机。如图1是一种双麦克风手机示意图，其中安装在手机底部的是主麦克1，安装在手机背部上端位置的是辅麦克2。在其他情况下也可以使用3个或3个以上的麦克风，其中只有一个主麦克风安装在手机底部，其余多个辅麦克风安装在手机的远离主麦克风的位置，如手机的顶部或背部上端位置。

用户在使用手机通话时通常会有两种握持方式：

1、正常握持，手机底部的主麦克风1挨近用户的嘴，如图2所示。此时在本发明中采用多麦克风降噪和单麦克风降噪结合的降噪技术能够很好的消除噪声，同时语音质量不会受到损害；

2、异常握持，手机底部的主麦克风1远远偏离用户的嘴，如图3所示。此时若采用多麦克降噪技术在消除噪声的同时会把语音当作噪声消除，因此在本发明中只采用单麦克风降噪处理。

本发明的技术方案主要包括两大单元：检测单元和降噪单元。检测单元的作用是检测目前的通话状态，这些状态包括：用户在说话还是在接听，用户正常握持手机还是异常握持手机。其中用户的说话或接听状态由近场语音检测模块检测得到；用户的握持手机状态则进一步由握持状态检测模块检测得到。

近场语音检测模块的原理是：当用户使用手机时，不管是正常握持还是异常握持用户的嘴到手机上的麦克风距离都会小于20cm，可认为是近场声源，而周围的噪声源一般都会距离手机50cm以上，可认为是远场声源，因此可以通过检测声源的距离来判断是用户的说话还是用户没有说话只有周围噪声。若是近场声源，两个麦克风接收到的信号间的相关性强，若是远场声源，两个麦克风接收到的信号间的相关性弱。因此可以通过计算主辅麦克风信号间的相关性来判断信号是用户语音还是周围噪声。具体的检测步骤可以如下：

1、计算主麦克风信号与辅麦克风信号之间的相关值；可以计算主麦克风信号与每个辅麦克风信号之间的相关值，然后进行平均得到平均相关值，或者，也可以计算主麦克风信号与其中一个辅麦克风信号之间的相关值；

2、如该相关值小于或等于设定阈值则信号是远场噪声信号，用户处于接听状态；若该相关值大于设定阈值则信号是近场语音信号，用户处于说话状态。

若是用户处于说话状态，则进一步进行用户握持状态检测。在本发明中提供检测用户握持状态的两种方法：

第一种方法：通过多麦克风检测语音的方向，通过语音的方向来判断用户握持状态，若语音来自手机的底部则是正常握持，若语音来自手机的侧向或顶部方向则是异常握持。

第二种方法：通过多麦克风信号能量的差异来判断用户握持状态：若主麦克风信号能量与辅麦克风信号能量的比值大于设定的阈值，则是正确握持，若能量比值小于或等于设定的阈值，则是异常握持。

经过检测单元的判定后，降噪单元根据不同的状态采用对应的降噪处理：

1、若是正常握持，采用多麦克风降噪模式：即首先经过多麦克风降噪处理抑制大部分的噪声，然后再经过单麦克风降噪处理抑制残留的稳态噪声，从而达到最优降噪；

2、若是异常握持，采用单麦克风降噪模式：不经过多麦克风降噪处理，只经过单麦克风降噪处理抑制稳态噪声，从而保证最优的语音质量。

3、用户接听状态，保持降噪模式不变，即保持之前的语音增强处理方式不变。由于用户不说话，此时不确定用户的握持状态，因此认为上一次检测到的握持状态没有改变，所以降噪模式也不改变。

通过本发明可以根据用户使用手机时的握持状态采用不同的降噪模式，从而有效消除噪声，同时能够保证语音信号不会受到损伤。

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明中的应用于手机的语音增强装置进行详细描述。

以图1所示的具有两个麦克风的手机为例，其中主麦克风1在手机的底部，辅麦克风2在手机的背部上端位置，远离主麦克风1。当用户如图2所示正常握持手机时，主麦克风1到嘴的距离小于5cm，辅麦克风2到嘴的距离15cm~20cm。当用户如图3所示异常握持手机时，主麦克风1到嘴的距离大于10cm，辅麦克风2到嘴的距离15cm~20cm。因此用户正常握持时，主麦克风1接收到的语音能量与辅麦克风2接收到的语音能量的差异大于9dB以上；用户异常握持时，主麦克风1接收到的语音能量与辅麦克风2接收到的语音能量的差异在3dB以内。无论何种握持，主麦克风1接收到的噪声能量与辅麦克风2接收到的噪声能量的接近，也在3dB以内。因此正常握持时，能通过两个麦克风的能量差异来区分语音和噪声，采用多麦克风降噪能有效抑制噪声不损伤语音。但异常握持时，不能通过两个麦克风的能量差异来区分语音和噪声，采用多麦克风降噪会损伤语音，此时要保护语音只能采用单麦克风降噪抑制稳态噪声。

在本发明的实施例中，也可以在手机的底部设置1个主麦克风，在手机的远离主麦克风的位置，如在手机的顶部或背部上端设置2以上的多个辅麦克风，多个辅助麦克风可以相距较近地分布在手机的顶部或背部上端。

在本实施例中设有P（P为大于1的自然数）个麦克风：首先把主麦克风接收到的时域信号s₁和多个辅麦克风接收到的时域信号s₂，…，s_P通过快速傅里叶变换（FFT）变换为频域信号S₁，…，S_P。频域信号输入近场语音检测模块，场语音检测模块通过主麦克风信号和辅麦克风信号的相关性判断输入的信号是近场语音还是远场噪声。若近场语音检测模块检测到的是近场语音信号，把频域信号输入到握持状态检测模块通过主麦克风信号和辅麦克风信号的总能量差异判断用户是正常握持还是异常握持。若用户是正常握持，M个麦克风的M路频域信号输入到多麦克风降噪处理模块进行降噪处理，然后再经过单麦克风降噪处理，最后输出一路经过降噪后的频域信号。若用户是异常握持，只把一路主麦克风的频域信号S₁输入单麦克风降噪处理模块进行降噪处理，输出一路经过降噪后的频域信号。若近场语音检测模块检测到的是远场噪声信号，此时不能确定握持状态，因此保持此时的降噪模式。最后把经过降噪处理后的频域信号进行逆快速傅里叶变换（IFFT）变换成时域信号输出。详细的处理结构见图4。

图4是本发明实施例中的一种应用于手机的语音增强装置的结构示意图。参见图4，该装置包括：快速傅里叶变换模块41、检测单元42、降噪单元43和逆快速傅里叶变换模块44，其中：

快速傅里叶变换模块41、用于将主麦克风信号和各辅麦克风信号分别进行快速傅里叶变换处理后发送给检测单元42；

检测单元42，用于根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态；当判断用户处于说话状态时，进一步检测用户的手机握持状态是正常握持手机还是异常握持手机，并通知给降噪单元43；

降噪单元43，用于在接收到用户正常握持手机的通知时，采用多麦克风降噪和单麦克风降噪相结合的方式进行语音增强处理；用于在接收到用户异常握持手机的通知时，只采用单麦克风降噪方式进行语音增强处理；

逆快速傅里叶变换模块44，用于将降噪单元43输出的信号进行逆快速傅里叶变换处理后输出。

如图4所示，检测单元42包括：近场语音检测模块421和握持状态检测模块422；降噪单元43包括：多麦克风降噪处理模块431和单麦克风降噪处理模块432；其中，

近场语音检测模块421，用于接收主麦克风信号和各辅助麦克风信号，并根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态，当判断用户处于说话状态时向握持状态检测模块422发送通知；当判断用户处于接听状态时近场语音检测模块421不向握持状态检测模块422发送通知，这样握持状态检测模块422就会仍按照之前的握持状态判断结果向降噪单元43输入对应的信号，则降噪单元43仍保持之前的降噪模式；

握持状态检测模块422，用于接收主麦克风信号和各辅助麦克风信号，在收到近场语音检测模块421的通知时，检测用户的手机握持状态是正常握持手机还是异常握持手机，当检测到用户正常握持手机时，将主麦克风信号和各辅助麦克风信号发送给多麦克风降噪处理模块431，当检测到用户异常握持手机时，只将主麦克风信号发送给单麦克风降噪处理模块432；

多麦克风降噪处理模块431，用于对所接收的信号进行多麦克风降噪处理后发送给单麦克风降噪处理模块432；

单麦克风降噪处理模块432，用于对所接收的信号进行单麦克风降噪处理后输出。

下面对各个模块的具体处理过程进行详细介绍：

快速傅里叶变换模块41：首先对s_i进行分帧处理（i＝1,…,P），每帧N个采样点，第m帧信号是d_i(m,n),其中0≤n<N,m≥0。相邻两帧有M个采样点的混叠，即当前帧的前M个采样点是前一帧的最后M个采样点，每帧只有L=N-M个采样点的新数据。因此第m帧数据为d_i(m,n)＝s_i(m*L+n)。例如在本实施方案中取帧长N=256，混叠M=128，即50%的混叠。分帧处理后对每帧信号用窗函数win(n)进行加窗处理，加窗后的数据为w_i(m,n)=win(n)*d_i(m,n)。窗函数可选择汉明窗，汉宁窗等窗函数，本实施方案选取汉宁窗:

win (n) = 0.5 (1 - \cos (\frac{2 πn}{N - 1})),

加窗后的数据最后进行FFT转换到频域:

S_{i} (m, k) = A_{i} (m, k) e^{- j φ_{i} (m, k)} = Σ_{n = 0}^{N - 1} w_{i} (m, n) e^{- j 2 πnk / N}

其中,

是频率子带，A_i(m,k)是幅度，φ_i(m,k)是相位。

近场语音检测模块421：用于计算主麦克风信号与各辅麦克风信号之间的相关值，如果该相关值大于第一阈值则判断用户处于说话状态，如果该相关值小于或等于第一阈值则判断用户处于接听状态；

在只有1个辅麦克风的情况下，可以直接计算主麦克风信号与辅麦克风信号之间的相关值。在有2个以上辅麦克风的情况下，近场语音检测模块421可以计算主麦克风信号与每个辅麦克风信号之间的相关值，然后进行平均得到平均相关值，或者，计算主麦克风信号与其中一个辅麦克风信号之间的相关值。

在本实施例中具体来说近场语音检测模块421在每个频率子带计算主麦克风信号S₁和一个辅麦克风信号如S₂的相关函数Coh₁₂(m,k)：

{coh}_{12} (m, k) = {(\frac{abs (conj (S_{1} (m, k)) S_{2} (m, k))}{abs (S_{1} (m, k)) * abs (S_{2} (m, k))})}^{2}

其中，conj(●)是共轭运算，abs(●)是求模运算。然后计算全频带内相关函数的均值Mcoh₁₂(m)：

{MCoh}_{12} (m) = \frac{1}{N} Σ_{k = 0}^{N - 1} {Coh}_{12} (m, k)

同样可以计算计算主麦克风信号S₁和其他辅麦克风信号如S₃之间的相关值Mcoh₁₃(m)，以此类推。最后再对主麦克风信号与各辅麦克风信号间的相关值进行求和平均，得到最后的相关值MCoh(m)。

MCoh(m)越大声源到两个麦克风的距离越小，通过MCoh(m)与设定的阈值Coh_th比较来确定声音是来自近场声源还是远场声源，进而确定声音是用户语音还是环境噪声，例如在本实施方案中Coh_th设定为0.5。MCoh(m)>Coh_th说明相关性足够大，信号是来自近场，是用户的语音，用户在讲话。若MCoh(m)≤Coh_th说明相关性较小，信号是来自远场，是周围的环境噪声，用户在接听。

握持状态检测模块422：用于计算主麦克风信号能量与辅麦克风信号能量的比值，如果该比值大于第二阈值，则确定用户正常握持手机，如果该比值小于或等于第二阈值，则确定用户异常握持手机。

具体来说握持状态检测模块422计算主麦克风信号S₁和一个辅麦克风信号的如S₂的总能量P₁(m)和P₂(m)：

P_{i} (m) = Σ_{k = 0}^{N - 1} {(abs (S_{i} (m, k)))}^{2};

然后计算两个总能量的比值

同理可以计算主麦克风信号S₁和其他辅麦克风信号如S₃的总能量比值

以此类推。最后对这些总能量比值进行求和平均得到最后的比值Pr(m)。在本发明的其他实施例中也可以先对各辅麦克风信号的能量进行求和平均，然后再与主麦克风信号能量相比得到比值Pr(m)。

Pr(m)越大表明主麦克风越接近人嘴，反之越小表明主麦克风距离人嘴越远，通过Pr(m)与阈值Pr_th进行比较来确定手机的握持状态，例如在本实施方案中Pr_th设定为2。Pr(m)>Pr_th为手机正常握持，Pr(m)≤Pr_th为手机异常握持。

在本发明的其他实施例中，握持状态检测模块422也可以通过多麦克风检测语音的方向，若语音来自手机底部方向，则确定用户正常握持手机，若语音来自手机的侧向或顶部方向，则确定用户异常握持手机。

多麦克风降噪处理模块431：用于在每个频率子带上，计算主麦克风信号和辅麦克风信号在该频率子带上的能量比值，根据该能量比值确定抑噪函数在该频率子带上的取值；用于将抑噪函数与主麦克风信号进行相乘运算得到抑制非稳态噪声后的信号后输出给单麦克风降噪处理模432。

具体来说多麦克风降噪处理模块431计算主麦克风信号S₁和一个辅麦克风信号的如S₂的在每个频率子带上的能量比值

以此类推可以得到主麦克风信号S₁和最后一个辅麦克风信号S_P的总能量比值

最后对这些总能量比值进行求和平均得到最后的比值Pb(m,k)。在其他实施例中也可以先对各辅麦克风信号的能量进行求和平均，然后再与主麦克风信号能量相比得到比值Pb(m,k)。

Pb(m,k)越大表明第k个频率子带的信号成分是语音的几率越大，反之第k个频率子带的信号成分是噪声的几率越小。根据本实施方案中Pb(m,k)与设定的能量比值上限Pb_U(k)和能量比值下限Pb_L(k)进行比较，来判断第k个频率子带的成分是语音的几率，例如在本实施方案中Pb_U(k)设定为4，Pb_L(k)设定为2。若Pb(m,k)≥Pb_U(k)，则此频率子带内的信号成分是语音的几率为1，抑噪函数G_d(m,k)=1；若Pb(m,k)≤Pb_L(k)，则此频率子带内的信号成分是语音的几率为0，全是噪声，G_d(m,k)=RL，RL<1决定最大的降噪量。若Pb_U(k)>Pb(m,k)>Pb_L(k)，则此频率子带内的信号成分有语音也有噪声不进行处理，此时RL<G_d(m,k)<1。最后通过G_d(m,k)*S₁(m,k)运算抑制每个频率子带中的噪声成分，得到降噪后的信号S_d(m,k)。

单麦克风降噪处理模块432：用于在每个频率子带上，通过滑动平均算法计算出所接收信号在该频率子带上的平稳噪声能量，进而计算出语音成分比例函数在该频率子带上的取值；将语音成分比例函数与所接收信号进行相乘运算得到抑制稳态噪声的信号后输出给逆快速傅里叶变换模块44；

在本实施例中设单麦克风降噪处理模块432的输入是S_si(m,k)，此输入根据降噪模式会不同，当是多麦克风降噪模式时，S_si(m,k)是多麦克降噪处理模块431降噪后的输出S_d(m,k)；当是单麦克风降噪模式时，S_si(m,k)是主麦克风信号S₁(m,k)。本模块通过滑动平均的方法计算S_si(m,k)在每个频率子带中的平稳噪声能量P_n(m,k)：

P_n(m,k)=α*P_n(m,k)+(1-α)*P_s(m,k)，

其中α是平滑参数，例如在本实施方案中α=0.98。P_s(m,k)是本模块输入信号的能量谱，

P_s(m,k)=(abs(S_si(m,k)))²。

因为平稳噪声的能量不会有大的变化，因此通过慢平滑平均可以估计出平稳噪声的能量大小。因此每个频率子带内的语音成分所占的比例是

G_{s} (m, k) = \frac{P_{s} (m, k) - P_{n} (m, k)}{P_{s} (m, k)} .

最后通过G_s(m,k)*S_si(m,k)达到保留每个频率子带中的语音成分，得到抑制噪声后的频域信号S_so(m,k)

逆快速傅里叶变换模块44：把单麦克风降噪处理模块432的输出频域信号S_so(m,k)经过逆快速傅立叶变换(IFFT)变换回时域，就得到经过降噪处理后的最终输出信号s_o(m,n)：

S_{o} (m, n) = \frac{1}{N} Σ_{k = 0}^{N - 1} S_{so} (m, k) e^{j 2 πnk / N}

在本实施例中，当近场语音检测模块421检测出目前的信号中只有噪声时，此时用户处于接听状态，没有说话，因此不能判断用户的握持方式，也就不能准确判断目前应该采用何种降噪模式，因此本发明假设上一次检测到的握持方式到目前没有改变，从而保持原来的降噪模式，直到下一次用户说话能够准确判断用户的握持方式。

综上所述，本发明这种在用户说话时对用户的手机握持状态进行检测，根据用户的手机握持状态采用不同的降噪处理方案，在用户正常握持手机时采用多麦克风降噪和单麦克风降噪结合的方案对稳态噪声和非稳态噪声都进行有效的抑制，而在用户异常握持手机时采用单麦克风降噪方案只对稳态噪声进行抑制，避免了多麦克风降噪对语音的损伤，保证了语音质量。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种应用于手机的语音增强方法，其特征在于，在手机的底部设置主麦克风，在手机的远离主麦克风的位置设置一个或多个辅麦克风，则该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态包括：

3.根据权利要求1所述的方法，其特征在于，所述检测用户的手机握持状态是正常握持手机还是异常握持手机包括：

4.根据权利要求1所述的方法，其特征在于，

所述只采用单麦克风降噪方式进行语音增强处理包括：在每个频率子带上，通过滑动平均算法计算出主麦克风信号在该频率子带上的平稳噪声能量，进而计算出语音成分比例函数在该频率子带上的取值；将语音成分比例函数与主麦克风信号进行相乘运算，得到抑制稳态噪声后的信号。

5.根据权利要求1至4中任一项所述的方法，其特征在于，该方法进一步包括：

6.一种应用于手机的语音增强装置，其特征在于，在手机的底部设置有主麦克风，在手机的远离主麦克风的位置设置有一个或多个辅麦克风，则该装置包括：检测单元和降噪单元，其中：

7.根据权利要求6所述的装置，其特征在于，所述检测单元包括：近场语音检测模块和握持状态检测模块；所述降噪单元包括：多麦克风降噪处理模块和单麦克风降噪处理模块；其中，

8.根据权利要求7所述的装置，其特征在于，

所述近场语音检测模块，用于计算主麦克风信号与辅麦克风信号之间的相关值，如果该相关值大于第一阈值则判断用户处于说话状态，如果该相关值小于或等于第一阈值则判断用户处于接听状态；

9.根据权利要求7所述的装置，其特征在于，

或者，

10.根据权利要求7所述的装置，其特征在于，该装置还包括：快速傅里叶变换模块和逆快速傅里叶变换模块，其中：