CN101478711A

CN101478711A - 控制麦克风录音的方法、数字化音频信号处理方法及装置

Info

Publication number: CN101478711A
Application number: CNA200810247317XA
Authority: CN
Inventors: 张晨; 冯宇红
Original assignee: Vimicro Corp
Current assignee: Wuxi Zhonggan Microelectronics Co Ltd
Priority date: 2008-12-29
Filing date: 2008-12-29
Publication date: 2009-07-08
Anticipated expiration: 2028-12-29
Also published as: CN101478711B

Abstract

本发明公开了一种控制麦克风录音的方法、声源定位方法、数字化音频信号处理方法及其对应装置，用以提高数码设备的录音效果。本发明提供的控制麦克风录音的方法包括在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离；以及根据获得的距离，调整麦克风阵列中两个麦克风之间的夹角大小。本发明提供的声源定位方法，包括在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离；以及根据获得的距离，确定麦克风阵列的拾音角度；分别在拾音角度范围内和范围外，确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；根据在拾音角度范围内确定的最大互相关值，和在拾音角度范围外确定的最大互相关值的比值，来确定目标声源发声的概率。

Description

控制麦克风录音的方法、数字化音频信号处理方法及装置

技术领域

本发明涉及音频信号处理技术领域，尤其是涉及一种控制麦克风录音的方法及其装置，以及一种声源定位方法及其装置和一种数字化音频信号处理方法及其系统。

背景技术

目前基于麦克风设备进行录音的技术已经应用十分普遍，在许多数码设备(如照相机和DV设备)中通常都装置有麦克风阵列，用来与视频装置部分进行音视频的同步录制。

目前的数码设备中有的已经集成了变焦麦克风的功能，变焦麦克风的特点是由两个或者两个以上的麦克风组成的麦克风阵列，随着目标声源的拉近，拾音角度可以增大，录音灵敏度将降低，反之随着目标声源的拉远，拾音角度可以减小，录音灵敏度将升高。

图1为理想情况下变焦麦克风在近焦情况下的录音范围示意图，图2为现理想情况下变焦麦克风在长焦情况下的录音范围示意图。

目前的家用小型摄像设备(DV)中一般都会装置两个固定位置和角度的麦克风，组成麦克风阵列，通过波束形成技术来控制拾音角度，通过模拟增益控制来改变录音灵敏度。从而实现变焦功能。但是这种变焦方式的变焦能力非常有限，从而不能较好的提高录音效果。

与此同时，目前数码设备在将录制的模拟音频信号处理成数字音频信号后，对数字音频信号的处理过程也没有考虑目标声源拉远或拉近的因素影响，从而也使得最终播放出来的录音也不能达到理想的效果。

发明内容

本发明实施例提供一种控制麦克风录音的方法及其装置，以提高数码设备的录音效果。

相应的，本发明实施例还提供一种声源定位方法及其装置。

本发明实施例还提供一种数字化音频信号处理方法及其系统，以提高数码设备的录音效果。

本发明实施例提供的技术方案具体如下：

一种控制麦克风录音的方法，包括在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离；以及根据获得的距离，调整麦克风阵列中两个麦克风之间的夹角大小。

相应的，本发明实施例还提供了一种控制麦克风录音的装置，包括距离获得单元，用于在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离；夹角调整单元，用于根据距离获得单元获得的距离，调整麦克风阵列中两个麦克风之间的夹角大小。

一种声源定位方法，包括在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离；以及根据获得的距离，确定麦克风阵列的拾音角度；分别在所述拾音角度范围内和范围外，确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；根据在拾音角度范围内确定的最大互相关值，和在拾音角度范围外确定的最大互相关值的比值，来确定目标声源发声的概率。

相应的，本发明实施例还提供了一种声源定位装置，包括距离获得单元，用于在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离；以及拾音角度确定单元，用于根据距离获得单元获得的距离，确定麦克风阵列的拾音角度；相关值确定单元，用于分别在所述拾音角度范围内和范围外，确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；发声概率确定单元，用于根据相关值确定单元在拾音角度范围内确定的最大互相关值，和在拾音角度范围外确定的最大互相关值的比值，来确定目标声源发声的概率。

一种数字化音频信号处理方法，包括将通过麦克风阵列录制的模拟化音频信号转换为数字化音频信号；在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离，以及确定目标声源发声的概率；根据获得的所述距离和确定的所述概率，对转换后的数字化音频信号进行处理。

相应的，本发明实施例还提供了一种数字化音频信号处理系统，包括信号转化单元，用于将通过麦克风阵列录制的模拟化音频信号转换为数字化音频信号；距离获得单元，用于在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离；以及发声概率确定单元，用于确定目标声源发声的概率；处理单元，用于根据距离获得单元获得的所述距离和发声概率确定单元确定的所述概率，对信号转换单元转换后的数字化音频信号进行处理。

本发明实施例在数码设备中，通过及时获得目标声源距离麦克风阵列的距离，并根据该获得的距离及时调整麦克风阵列中的两个麦克风之间的夹角，从而可以使得麦克风阵列中的两个麦克风可以根据目标声源的拉远或拉近，采用不同的夹角来进行录音，因此避免了现有技术中无论目标声源的拉远或拉近，两个麦克风的夹角都固定不变，从而影响录音效果的问题。

相应的，本发明实施例在声源定位处理过程中，也考虑了目标声源距离麦克风阵列的距离，使得目标声源的定位结果更为精确。

相应的，本发明实施例在对数字化音频信号进行处理时，例如进行波束形成处理、噪声消除处理和数字增益控制处理时，都考虑到了目标声源距离麦克风阵列的距离和/或目标声源定位的结果，因此提高了处理后的音频信号的质量，较好的增强了数码设备的录音效果。

附图说明

下面将结合各个附图对本发明实施例的具体实施过程进行详尽的阐述，其中在各个附图中：

图1为现有变焦麦克风在近焦情况下的录音范围示意图；

图2为现有变焦麦克风在长焦情况下的录音范围示意图；

图3为本发明实施例中对目标声源进行定位处理的原理示意图；

图4为本发明实施例中声源定位装置的具体组成结构框图；

图5为本发明实施例波束形成处理的具体示意图；

图6为现有技术中基于短时谱调整法实现噪声消除的处理过程示意图；

图7为本发明实施例中基于短时谱调整法实现噪声消除的处理过程示意图；

图8为本发明实施例给出的斜坡函数b(i)的示意图；

图9为本发明实施例中数字化音频信号处理装置的具体组成结构框图；

图10为应用本发明提出的各设计方案的数码DV设备的具体结构组成框图。

具体实施方式

本发明实施例提出的控制麦克风录音的设计方案，通过在数码设备(如DV或照相机)中设置两个可控制夹角的麦克风构成麦克风阵列，其中麦克风较佳的可以为单指向性麦克风。数码设备在通过麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离，并根据获得的该距离，调整麦克风阵列中两个麦克风之间的夹角大小，从而使得数码设备中的麦克风阵列中的两个麦克风可以随着目标声源的拉远或拉近，及时调整到合适的夹角进行录音，较好的提高了录音效果。

上述可以按照目标声源到麦克风阵列之间的距离与麦克风之间的夹角大小成各种线性或者非线性关系，来根据获得距离值，及时调整麦克风阵列中两个麦克风之间的夹角，为了简单起见，下面仅给出一种按照目标声源到麦克风阵列之间的距离与两个麦克风之间的夹角大小成线性关系，调整麦克风阵列中两个麦克风之间的夹角大小的实现关系式：

Angle＝(10-Distance)×10 (1)

其中，Angle表示调整后的两个麦克风之间的夹角大小，Distance表示目标声源到麦克风阵列之间的距离。通过该式(1)对两个麦克风之间的夹角大小进行调整，可以使得当目标声源到麦克风阵列之间的距离每增加1m，两个麦克风之间的夹角减小10度，这样当目标声源到麦克风阵列之间的距离为1m时，两个麦克风之间可以达到最大夹角90度，而当目标声源到麦克风阵列之间的距离为10m时，两个麦克风之间可以达到最小夹角0度。

上述提出的控制麦克风录音的设计方案主要适用于通过芯片程序指令进行触发来实现夹角的调整，这种方式比较适合于数码设备的镜头自动对焦的情况。在这种情况下，用户并不需要调节焦距，而是通过数码设备的镜头进行自动对焦，自动对焦后，芯片程序就可以自动获得焦距信息Distance(即目标声源到麦克风阵列的距离)，然后根据上述式(1)自动计算出麦克风阵列中两个麦克风之间应该调整到的合适夹角Angle，然后根据计算出的Angle信息自动通过机械装置来调节两个麦克风之间的夹角。

相应于上述提出的控制麦克风录音的设计方案，这里进而给出实现上述方法的装置组成结构，其具体包括距离获得单元，用于在数码设备中的麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离，其中可以通过镜头自动对焦过程中，获得焦距信息来作为需要获得的目标声源到麦克风阵列的距离；夹角调整单元，用于根据距离获得单元获得的距离，来调整麦克风阵列中两个麦克风之间的夹角大小，其中夹角调整单元可以根据距离获得单元获得的距离，按照目标声源到麦克风阵列的距离与需调整的夹角大小成线性关系或成非线性关系，来调整麦克风阵列中两个麦克风之间的夹角大小。从而使得数码设备中的麦克风阵列中的两个麦克风可以随着目标声源的拉远或拉近，及时调整到合适的夹角进行录音，较好的提高了录音效果。

本发明实施例提出的声源定位设计方案也充分考虑了数码设备在摄像过程中，目标声源到麦克风阵列的距离信息，以较好地提高声源定位的精确度。其实现原理为在数码设备中的麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离，并根据获得的该距离，来确定麦克风阵列的拾音角度；分别在所确定的拾音角度范围内和范围外，分别确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；然后根据在拾音角度范围内确定的最大互相关值，与在拾音角度范围外确定的最大互相关值的比值，来确定目标声源真实发声的概率。

其中在采用本发明实施例提出的目标声源定位方案的基础上，还可以进而采用本发明实施例上述提出的控制麦克风录音的设计方案，即在上述声源定位实现原理的基础上，还可以进而根据获得的目标声源到麦克风阵列的距离信息，来调整麦克风阵列中两个麦克风之间的夹角大小(该过程请具体参照上述针对控制麦克风录音的实现方案的具体介绍)。

声源定位的基本原理是目标声源真实发出的声音到达麦克风阵列中各个麦克风的时间不同，因此各个麦克风采集到的信号就有相位的差异，通过对各个信号进行分析，估计出各个信号的相位差异，同时根据麦克风阵列的尺寸和结构等几何关系就可以估计出目标声源真实发出声音的地方相对于麦克风阵列的位置和方向。

如图3所示，为本发明实施例中对目标声源进行定位处理的原理示意图，由图3可知：

其中d为声波到达两个麦克风的时间差，c为声速，L为两个麦克风之间的间距，是声源的入射角度。

由上式(2)可得：

也就是说，只要能够准确的估计出声波到达两个麦克风的时间差，即两个麦克风采集到的信号的相位差，那么就可以利用麦克风阵列的尺寸和结构等几何关系推算出声波的入射方向，即声源的位置。

声源定位的方法以计算两个麦克风采集信号的互相关函数为基础，通过两路信号的最大互相关位置，来估计相位差，如下：

d = \underset{τ}{\arg \max} (R_{s_{1} s_{2}} (τ)) - - - (4)

其中d为前面已经提到的声波到达两个麦克风的时间差，s1，s2指两个麦克风分别录制到的两路信号，R指相关函数，τ指两个麦克风分别录制到的两路信号的相位差。此式(4)的意思即是：通过计算相关函数，来确定最大互相关的位置τ，从而得到d。

相关函数R的计算方法如下：

R_{s_{1} s_{2}} (τ) = Σ_{n = 0}^{N - 1} s_{1} (n) s_{2} (n - τ) - - - (5)

其中N为一帧信号的长度。

由于τ很多情况下并不一定是一个整数，因此往往需要采用傅立叶变换，将上式(5)变换到频域进行计算，具体如下：

R_{s_{1} s_{2}} (τ) = Σ_{k = 0}^{N - 1} s_{1} (k) s_{2} {(k)}^{*} e^{j 2 πkτ / N} - - - (6)

通过上式(6)，就可以得到各个延时间隔τ对应的互相关函数值，即可以得到各个可能的入射角度对应的互相关值。

根据目标声源到麦克风矩阵之间的距离值Distance值，可以通过下述公式来计算麦克风阵列的拾音角度Angle：

Angle＝(10-Distance)×10 (7)

即目标声源入射角度

应该在-Angle/2至+Angle/2之间。

首先，基于下述等式，在上述计算得到的拾音角度范围内，确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值：

R1=max (R_{s_{1} s_{2}} (τ)) - - - (8)

其中：R1表示在拾音角度范围内，麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；

然后，基于下述等式，在上述计算得到的拾音角度范围外，确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值：

R2=max (R_{s_{1} s_{2}} (τ)) - - - (9)

其中：R2表示在拾音角度范围外，麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；

或者

度。

最后可以通过上述计算得到的R1与R2的比值，来描述目标声源真实发声的概率dr，即：

dr＝R1/R2，且这里dr的最终取值被限制在0～1之间。

相应于上述提出的声源定位的设计方案，这里进而给出实现该方法的装置组成结构，如图4所示，具体包括距离获得单元401，用于在数码设备中的麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离，其中可以通过镜头自动对焦过程中，获得焦距信息来作为需要获得的目标声源到麦克风阵列的距离；拾音角度确定单元402，用于根据距离获得单元401获得的距离，确定麦克风阵列的拾音角度，相关值确定单元403，用于分别在拾音角度确定单元402确定的拾音角度范围内和范围外，分别确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；发声概率确定单元404，用于根据相关值确定单元403在拾音角度范围内确定的最大互相关值，和在拾音角度范围外确定的最大互相关值的比值，来确定目标声源发声的概率。

此外本发明实施例提出的声源定位装置在上述图4的基础上还可以进而包括夹角调整单元405，用于根据距离获得单元401获得的距离，来调整麦克风阵列中两个麦克风之间的夹角大小。有关该装置的具体实现细节请参照上述针对声源定位方法的详细介绍，这里不再给以过多赘述。

本发明实施例提出的数字化音频信号处理的设计方案也充分考虑了数码设备在摄像过程中，目标声源到麦克风阵列的距离信息，并考虑了目标声源真实发声的概率情况，以此来提高录音效果。具体实现原理为：将数码设备通过麦克风阵列录制的模拟化音频信号转换为数字化音频信号；在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离，以及确定目标声源发声的概率(具体确定过程请参照上述针对声源定位设计方案的详细介绍)；根据获得的目标声源到麦克风阵列的距离和确定的目标声源发声的概率，对上述转换后的数字化音频信号进行相关处理，其中这里的处理包括但不限于为波束形成处理、噪声消除处理和数字增益控制处理等。

此外本发明实施例提出的数字化音频信号处理的设计方案还可以和上述提出的麦克风录音控制的设计方案、及与上述提出的声源定位的设计方案进行任意组成的使用。即在本发明实施例提出的数字化音频信号处理的实现基础上，还可以进而根据获得的距离，来调整麦克风阵列中两个麦克风之间的夹角大小。另外，也可以通过上述已经介绍的目标声源定位实现方案来确定这里的目标声源发声的概率。

基于上面的介绍，下面详细介绍波束形成的处理过程：

波束形成算法主要是通过对麦克风阵列采集到的音频信号进行处理，使得麦克风阵列对空间域中的某些方向具有较大的增益，而对其他方向具有较小的增益，好像形成一个定向的波束一样。通过波束形成处理就可以利用目标声源和噪声源在空间域上的差别和各声源到麦克风阵列的距离和方向不同，来给予目标声源方向较大的增益，即把波束指向目标语音，从而达到信号分离，抑制噪声的作用。

在本发明实施例中，以数码设备中采用平行放置的两个单指向性麦克风组成麦克风阵列为例进行说明，目标声源应该在麦克风阵列的正前方，因此目标声源距离麦克风阵列中的两个麦克风是等距离的。可以认为两个麦克风采集到的目标声源的相位和幅度是基本相同的。因此将两路信号叠加，可以起到增强目标声音的作用，但是这样做在目标声源与麦克风阵列的距离较近(即近焦广角)的情况下，会破坏录制声音的立体声特性。因此本实施例中的波束形成要求受到目标声源到麦克风阵列的距离(即焦距参数)因素的控制，要求距离远时(即长焦时)，使用高的混合比例参数对两个麦克风分别录制的音频信号进行波束形成处理，反之要求距离近时(即近焦时)，使用低的混合比例参数对两个麦克风分别录制的音频信号进行波束形成处理。如图5所示，为本发明实施例波束形成处理的具体示意图，其具体实现方式为：

首先，根据目标声源到麦克风阵列的距离和信号混合比例参数成正比的规则，基于获得的该距离确定信号混合比例参数，具体可以通过下述关系式来确定信号混合比例参数：

r＝0.5+(Distance-1)*0.05 (10)

其中，r表示信号混合比例参数，Distance表示目标声源到麦克风阵列的距离，这样当Distance为10m时，r＝0.95；当Distance为1m时，r＝0.5。

再次，基于上述确定的信号混合比例参数，对转换后的数字化音频信号进行波束形成处理，具体通过下述关系式对麦克风阵列中的两个麦克风分别录制的音频信号进行转换后得到的两路数字化音频信号进行波束形成处理：

Y1(k)＝X1(k)+rX2(k)

Y2(k)＝X2(k)+rX1(k) (11)

其中X1(k)和X2(k)表示两路输入的音频信号，Y1(k)和Y2(k)表示两路输出的音频信号，这样处理后可以保证目标声源在处于长焦时具有较窄的波束，又能保证目标声源在处于近焦时具有较好的立体声特性。

下面详细介绍噪声消除的处理过程：

本实施例这里以采用的噪声消除算法为基于短时谱调整的算法为例来进行说明。如图6所示，为现有技术中基于短时谱调整法实现噪声消除的处理过程示意图，其基本实现原理是：利用目标声源的概率分布，对当前帧中带噪语音的每一个频谱分量的幅度值进行约束，即对每一个频谱幅度值乘以一个噪声消除增益系数G[i].具体如下式：

S′[i]＝S[i]·G[i] (12)

其中S[i]表示带噪语音，S′[i]表示噪声消除后的语音。

由于信噪比高时，含有语音的可能性大，衰减小；反之，则认为含有语音的可能性小，衰减则增大，因此实现降噪、语音增强的作用，据此噪声消除增益G[i]可以通过下述关系式来确定：

G [i] = {(\frac{λ_{x} [i]}{λ_{x} [i] + λ_{d} [i]})}^{α} \cdot p (H_{1} [i] | Y [i]) + G_{\min} \cdot (1 - p (H_{1} [i] | Y [i])) - - - (13)

其中G[i]为对频域每个频谱幅度的增益，λ_d[i]为对转换后的数字化音频信号估计的噪声方差，λ_x[i]为对转换后的数字化音频信号估计的信号方差，p(H₁[i]|Y[i])为对转换后的数字化音频信号估计的目标声源发声的概率，G_min为对转换后的数字化音频信号估计的目标声源发声的概率为0时，将对频域每个频谱幅度的增益设为的一个小量，α通常取05～1。

本发明实施例这里提出的噪声消除方案相对于上述现有技术的噪声消除方案，主要存在下述两点改进：

第一，由于目标声源到麦克风阵列的距离是在不断变化的，这样当目标声源到麦克风阵列的距离较远时(即长焦时)，本发明实施例这里采用较大的增益，而当目标声源到麦克风阵列的距离较近时(即近焦时)，本发明实施例这里采用较小的增益。由于增益的改变，在放大或者缩小目标声源的同时也会在一定程度上放大或者缩小背景噪声，因此本发明实施例考虑在长焦大增益时，采用较大的噪声压缩参数，而在近焦小增益时，采用较小的噪声压缩参数，从而使背景噪声的大小不会随着目标声源到麦克风阵列的距离不断改变而出现较大的起伏。

第二，借助于声源定位的结果，在噪声消除算法中，根据信噪比估计目标声源真实发声的概率时，可以借助声源定位结果进行加权处理。

如图7所示，为本发明实施例中基于短时谱调整法实现噪声消除的处理过程示意图，其中具体实现原理是：基于目标声源到麦克风阵列的距离和声源定位得到的目标声源真实发音的概率，估计噪声消除增益；将转换后的数字化带噪音频信号乘以估计得到的噪声消除增益，从而得到消除噪声后的音频信号。基于前面介绍的目标声源定位的设计方案得到的比值dr来对转换后的数字化音频信号估计的目标声源发声的概率p(H₁[i]|Y[i])进行加权，具体如下式所示：

p′(H₁[i]|Y[i])＝p(H₁[i]|Y[i])dr (14)

其中p′(H₁[i]|Y[i])即为加权后得到的目标声源发声的概率。

并且，本发明实施例提出在对转换后的数字化音频信号估计的目标声源发声的概率为0时，将对频域每个频谱幅度的增益设为的一个小量G_min设置为可变的值，该值要求受到目标声源到麦克风阵列的距离(distance)的控制，具体可以通过下述关系式进行控制：

G′_min＝5+Dis tan ce (15)

这样当distance为1m时，G′_min为6dB，当distance为10m时，G′_min为15dB。

基于前述，用于确定噪声消除增益G[i]的关系式就可以更新为：

G [i] = {(\frac{λ_{x} [i]}{λ_{x} [i] + λ_{d} [i]})}^{α} \cdot p' (H_{1} [i] | Y [i]) + {G'}_{\min} \cdot (1 - p' (H_{1} [i] | Y [i])) .

下面详细介绍数字增益控制的处理过程：

本发明实施例这里对数字增益控制处理过程进行介绍时，以自动增益控制为例来进行介绍(即AGC)，数字增益控制处理主要用来调节音频输出信号的幅度。本发明实施例的主要设计思想是利用声源定位的结果，当判断得到目标声源没有真实发出声音时，通过减小增益来进一步抑制噪声强度。而当判断得到目标声源真实发出声音时，通过增大增益从而增强语音，提高信噪比。对此，本发明实施例提出的技术方案具体实现过程为：

首先，判断通过声源定位处理得到的目标声源真实发声的概率是否大于一预先设定的阈值；若大于，则基于一预先设定的第一平滑因子和该得到的概率，确定对转换后的数字化音频信号进行帧间平滑后得到的帧间增益；若小于等于，则基于一预先设定的第二平滑因子和该得到的概率，确定对转换后的数字化音频信号进行帧间平滑后得到的帧间增益，其中预先设定的第一平滑因子小于第二平滑因子；基于上述确定的帧间增益，对转换后的数字化音频信号进行帧内平滑处理。

下面结合具体算法来详细介绍本发明实施例提出的数字增益控制的处理过程：

本实施例利用前面声源定位处理产生的概率dr作为当前帧的即时增益，并考虑到增益突然增大或者减小的时候，信号幅度也会突然增大和减小，这样就会带来一些人耳能感觉到的噪声，为此采用平滑增益以缓和这种变化，避免输出信号幅度的阶越式跳变，能使人耳基本感觉不到增益变化所带来的噪声。因此，首先需要对声源定位处理产生的概率dr进行帧间平滑，得到帧间平滑后的增益gain，如下式所示：

gain′＝gain·α+dr·(1-α)

其中式中gain′表示对当前帧进行帧间平滑处理后得到的帧间增益；gain表示对当前帧的前一帧进行帧间平滑处理后得到的帧间增益；α为平滑因子，dr为该概率。

另外，考虑到保护语音质量为首要因素，因此采取快升慢降的策略。即只要发现目标声源真实发声，增益要迅速上升，若发现目标声源没有真实发声，增益要缓慢下降。目标声源是否真实发声，这里以dr与0.5的大小关系来确定。快升慢降的策略通过给α设置不同的值来实现，即：

当dr>0.5时：α＝0.75；

当dr<＝0.5时：α＝0.95；

为了进一步避免数字增益控制引起的信号幅度变化所带来的噪声，这里在帧间平滑的基础上，进一步作了帧内平滑，并进一步通过斜坡函数来实现，如下式所示：

gain′(i)＝b(i)gain_old+(1-b(i))gain_new，i＝0～M-1

其中式中gain′(i)为对当前帧做了帧内平滑后的每个样点的增益；gain_old为对上一帧做了帧间平滑后得到的帧间增益；gain_new为对当前帧做了帧间平滑后得到的帧间增益；斜坡函数定义为b(i)＝1-i/M，其中M表示帧长，通常M＝128，如图8所示，为本发明实施例这里给出的斜坡函数b(i)的示意图。

可以看出，由于斜坡函数b(i)在开始时对于上一帧的gain给予了较大权值，对于当前帧的gain给予了较小权值；而在末尾时正好相反，因此可以有效地平滑增益突变所带来的影响。

用最终得到的增益去分别处理麦克风阵列中两个麦克风分别录制的音频信号经模数转化后，所得到的两路数字化音频信号，就得到了最后输出的两路音频信号：

Out1(k)＝In1(k)gain’(k)；

Out2(k)＝In2(k)gain’(k)。

相应于上述提出的数字化音频信号处理的设计方案，这里进而给出实现该方法的装置组成结构，如图9所示，具体包括信号转化单元901，用于将通过麦克风阵列录制的模拟化音频信号转换为数字化音频信号，信号转换单元901就是通常所说的A/D转换器；距离获得单元902，用于在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离，该单元如何获得该距离，已经在上述控制麦克风录音的装置和声源定位的装置中给以说明；发声概率确定单元903，用于确定目标声源发声的概率，该单元如何具体确定目标声源发声的概率已经在上述声源定位的装置中给予了说明；处理单元904，用于根据距离获得单元902获得的距离和发声概率确定单元903确定的概率，对信号转换单元901转换后的数字化音频信号进行处理。

较佳的，该数字化音频信号处理装置中还可以进而包括夹角调整单元905，用于根据距离获得单元902获得的距离，调整麦克风阵列中两个麦克风之间的夹角大小。

其中发声概率确定单元903具体包括拾音角度确定子单元，相关值确定子单元和发声概率确定子单元。其中每个子单元的具体作用请参照上述图4中的详细介绍，这里不再过多赘述。

其中若处理单元904在对数字化音频信号进行波束形成处理时，其具体包括包括混合比例参数确定子单元，用于根据距离获得单元获得的距离和信号混合比例参数成正比的规则，基于该距离确定信号混合比例参数；波束形成子单元，用于基于混合比例参数确定子单元确定的信号混合比例参数，对信号转换单元转换后的数字化音频信号进行波束形成处理。

若处理单元904在对数字化音频信号进行噪声消除处理时，其具体包括增益估计子单元，用于基于该距离和该概率，估计噪声消除增益；噪声消除子单元，用于将信号转换单元转换后的数字化带噪音频信号乘以估计得到的噪声消除增益，得到消除噪声后的音频信号。

若处理单元904在对数字化音频信号进行数字增益控制处理时，其具体包括判断子单元，用于判断该概率是否大于一预定阈值；帧间增益确定子单元，用于在判断子单元的判断结果为是时，基于第一平滑因子和所述概率，确定对转换后的数字化音频信号进行帧间平滑后得到的帧间增益，以及在判断子单元的判断结果为否时，基于第二平滑因子和所述概率，确定对转换后的数字化音频信号进行帧间平滑后得到的帧间增益，其中第一平滑因子小于第二平滑因子；帧内平滑子单元，用于基于帧间增益确定子单元确定的帧间增益，对转换后的数字化音频信号进行帧内平滑处理。

其中处理单元904可以任意组合使用波束形成处理、噪声消除处理和数字增益控制处理，即处理单元904可以仅对数字化音频信号进行波束形成处理、或仅对数字化音频信号进行噪声消除处理、或仅对数字化音频信号进行数字增益控制处理，也可以对数字化音频信号进行上述任意两种处理，还可以对数字化音频信号进行上述三种处理。

不但本发明实施例这里提出的波束形成处理方案、噪声消除处理方案和数字增益控制处理方案可以进行任意组合使用，而且上述提出的控制麦克风录音的方案、声源定位方案和数字化音频信号处理的方案也可以进行任意组合使用。

下面以将上述各个方案同时应用在数码DV设备中为例，详尽介绍一个具体实施例，如图10所示，为应用本发明提出的各设计方案的数码DV设备的具体结构组成框图，具体包括：

两个单指向性的麦克风(mic1和mic2)组成的麦克风阵列、模拟处理部分、数字处理部分和A/D转化部分；其中模拟处理部分和数字处理部分均由焦距信息参数进行控制，其中这里的焦距信息参数即为目标声源到DV设备镜头的距离，可以在镜头对焦的时候得到，这里假设目标声源距离镜头的最近有效距离为1m，最远有效距离为10m，焦距信息参数的值可量化为从1到10的整数。

模拟处理部分具体包括麦克风夹角控制处理和模拟增益控制处理两部分，其中麦克风夹角控制处理是比较重要的一个部分，该部分通过控制两个单指向性的麦克风之间的夹角，使得在近焦情况下两个麦克风之间的夹角大，而在长焦情况下两个麦克风之间的夹角小。

模拟增益控制处理部分用于控制麦克风录音的灵敏度，目标远时，则镜头焦距用长焦，麦克风灵敏度要高；反之，目标近，则镜头焦距用近焦，麦克风灵敏度要低。为了对麦克风录制的音频信号进行模拟增益处理，需要得到声强与距离的关系，不过这个关系比较复杂，并不是简单的线性关系。一般来说声波强度与距离的关系和波阵面有关。例如，对于平面波而言，声强与距离无关；柱面波的声强与距离成反比；球面波的声强与距离平方成反比。当目标很近时，声波类似于球面波，而当目标较远时，声波类似平面波。由于这里只需要知道从1m到10m这10个离散距离的声强关系，因此这里不去推导两者之间的复杂关系，而是可以用经验数据，用查表的方法解决。本实施例这里设置模拟增益值可以取声强的倒数，这样就可以保证在各个距离下，录音音量都比较适中。模拟增益值和声强的对应关系表具体如下：

表1：距离，声强与增益关系表

距离	1	2	3	4	5	6	7	8	9	10
距离	1	2	3	4	5	6	7	8	9	10	声强	P1	P2	P3	P4	P5	P6	P7	P8	P9	P10
增益	1/P1	1/P2	1/P3	1/P4	1/P5	1/P6	1/P7	1/P8	1/P9	1/P10	声强	P1	P2	P3	P4	P5	P6	P7	P8	P9	P10

处于模拟处理部分和数字处理部分之间的A/D转换部分，主要用于将模拟音频信号转换成数字化音频信号，以供后面数字处理部分进行处理。

其中数字处理部分包括声源定位处理部分、波束形成处理部分、噪声消除处理部分和数字增益控制部分，声源定位处理用来确定拾音角度范围内目标声源是否真实发声，具体实现原理已经在上述声源定位的设计方案中进行了详尽阐述，声源定位得到的目标声源真实发声的概率dr将用于指导后续的处理工作。

波束形成处理部分主要用于根据焦距信息参数调节波束形态，其具体实现过程已经在上述数字化音频信号处理过程中进行了详尽阐述。

噪声消除处理部分用于根据焦距信息参数以及声源定位结果，有控制的消除北京噪声，其具体实现过程也已经在上述数字化音频信号处理过程中进行了详尽阐述。

数字增益控制处理部分，用于根据声源定位的结果，来自动调节数字化音频信号的增益，其具体实现过程也已经在上述数字化音频信号处理过程中进行了详尽阐述。

由此可见，本具体实施方式中数码DV设备中的各个信号处理部分都可以受到焦距信息参数的控制，从而可以跟随焦距的拉远或拉近进行适应性的调整处理，因此可以使得整体录音效果提升。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1、一种控制麦克风录音的方法，其特征在于，包括：

在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离；以及

根据获得的距离，调整麦克风阵列中两个麦克风之间的夹角大小。

2、如权利要求1所述的方法，其特征在于，调整麦克风阵列中两个麦克风之间的夹角大小具体为：

按照所述距离与夹角大小成线性关系或非线性关系，调整麦克风阵列中两个麦克风之间的夹角大小。

3、如权利要求1或2所述的方法，其特征在于，基于下述等式，调整麦克风阵列中两个麦克风之间的夹角大小：

Angle＝(10-Distance)×10

其中，Angle表示两个麦克风之间的夹角大小，Distance表示所述距离。

4、一种控制麦克风录音的装置，其特征在于，包括：

距离获得单元，用于在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离；

夹角调整单元，用于根据距离获得单元获得的距离，调整麦克风阵列中两个麦克风之间的夹角大小。

5、如权利要求4所述的装置，其特征在于，夹角调整单元根据距离获得单元获得的距离，按照所述距离与夹角大小成线性关系或非线性关系，调整麦克风阵列中两个麦克风之间的夹角大小。

6、一种声源定位方法，其特征在于，包括：

根据获得的距离，确定麦克风阵列的拾音角度；

分别在所述拾音角度范围内和范围外，确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；

根据在拾音角度范围内确定的最大互相关值，和在拾音角度范围外确定的最大互相关值的比值，来确定目标声源发声的概率。

7、如权利要求6所述的方法，其特征在于，基于下述等式，确定麦克风阵列的拾音角度：

Angle＝(10-Distance)×10

其中，Angle表示麦克风阵列的拾音角度，Distance表示所述距离。

8、如权利要求6所述的方法，其特征在于，基于下述等式，在所述拾音角度范围内，确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值：

R 1 = \max (R_{s_{1} s_{2}} (τ))

其中R1表示在拾音角度范围内，麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；

s1，s2分别表示麦克风阵列中两个麦克风接收到的两路音频信号，R指相关函数；

其中L表示两个麦克风之间的距离，

Angle表示麦克风阵列的拾音角度，c表示声速。

9、如权利要求8所述的方法，其特征在于，基于下述等式，在所述拾音角度范围外，确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值：

R 2 = \max (R_{s_{1} s_{2}} (τ))

其中R2表示在拾音角度范围外，麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；

其中L表示两个麦克风之间的距离，

或者

Angle表示麦克风阵列的拾音角度，c表示声速。

10、如权利要求6所述的方法，其特征在于，还包括：

11、一种声源定位装置，其特征在于，包括：

距离获得单元，用于在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离；以及

拾音角度确定单元，用于根据距离获得单元获得的距离，确定麦克风阵列的拾音角度；

相关值确定单元，用于分别在所述拾音角度范围内和范围外，确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；

发声概率确定单元，用于根据相关值确定单元在拾音角度范围内确定的最大互相关值，和在拾音角度范围外确定的最大互相关值的比值，来确定目标声源发声的概率。

12、如权利要求11所述的装置，其特征在于，还包括：

13、一种数字化音频信号处理方法，其特征在于，包括：

将通过麦克风阵列录制的模拟化音频信号转换为数字化音频信号；

在麦克风阵列录音过程中，获得目标声源到麦克风阵列的距离，以及

确定目标声源发声的概率；

根据获得的所述距离和确定的所述概率，对转换后的数字化音频信号进行处理。

14、如权利要求13所述的方法，其特征在于，还包括：

15、如权利要求13或14所述的方法，其特征在于，确定目标声源发声的概率，具体包括：

根据获得的所述距离，确定麦克风阵列的拾音角度；

16、如权利要求13所述的方法，其特征在于，所述处理包括波束形成处理，对转换后的数字化音频信号进行波束形成处理，具体包括：

根据所述距离和信号混合比例参数成正比的规则，基于获得的所述距离确定信号混合比例参数；以及

基于确定的信号混合比例参数，对转换后的数字化音频信号进行波束形成处理。

17、如权利要求16所述的方法，其特征在于，所述规则为下述关系式：

r＝0.5+(Distance-1)*0.05

其中，r表示信号混合比例参数，Distance表示所述距离。

18、如权利要求13所述的方法，其特征在于，所述处理包括噪声消除处理，对转换后的数字化音频信号进行噪声消除处理，具体包括：

基于所述距离和所述概率，估计噪声消除增益；

将转换后的数字化带噪音频信号乘以估计得到的噪声消除增益，得到消除噪声后的音频信号。

19、如权利要求18所述的方法，其特征在于，基于所述距离和所述概率，按照下述关系式来估计噪声消除增益：

G [i] = {(\frac{λ_{x} [i]}{λ_{x} [i] + λ_{d} [i]})}^{α} \cdot p' (H_{1} [i] | Y [i]) + {G'}_{\min} \cdot (1 - p' (H_{1} [i] | Y [i]))

其中G[i]表示噪声消除增益；

λ_d[i]为对转换后的数字化音频信号估计的噪声方差；

λ_x[i]为对转换后的数字化音频信号估计的信号方差；

p′(H1[i]|Y[i])＝p(H1[i]|Y[i])dr，其中p(H₁[i]|Y[i])为对转换后的数字化音频信号估计的目标声源发声的概率，dr为确定的所述概率；

G′_min为根据与获得的所述距离成正比的规律，基于所述距离得到的量。

20、如权利要求19所述的方法，其特征在于，根据所述距离，基于下述关系式得到G′_min：

G′_min＝5+Distance

其中Distance表示所述距离。

21、如权利要求13所述的方法，其特征在于，所述处理包括数字增益控制处理，对转换后的数字化音频信号进行数字增益控制处理，具体包括：

判断所述概率是否大于一预定阈值；

若判断结果为是，则基于第一平滑因子和所述概率，确定对转换后的数字化音频信号进行帧间平滑后得到的帧间增益，以及

若判断结果为否，则基于第二平滑因子和所述概率，确定对转换后的数字化音频信号进行帧间平滑后得到的帧间增益，其中第一平滑因子小于第二平滑因子；

基于确定的帧间增益，对转换后的数字化音频信号进行帧内平滑处理。

22、如权利要求21所述的方法，其特征在于，所述预定阈值为0.5，所述第一平滑因子为0.75，所述第二平滑因子为0.95。

23、如权利要求21所述的方法，其特征在于，基于下述关系式，基于平滑因子和所述概率，确定对转换后的数字化音频信号进行帧间平滑后得到的帧间增益：

gain′＝gain·α+dr·(1-α)

其中gain′表示对当前帧进行帧间平滑处理后得到的帧间增益；

gain表示对当前帧的前一帧进行帧间平滑处理后得到的帧间增益；

α为平滑因子，dr为所述概率。

24、如权利要求23所述的方法，其特征在于，基于确定的帧间增益，按照下述关系式，对转换后的数字化音频信号进行帧内平滑处理：

gain′(i)＝b(i)gain_old+(1-b(i))gain_new

其中gain′(i)为对当前帧做了帧内平滑后的每个样点的增益；

gain_old为对上一帧做了帧间平滑后得到的帧间增益；

gain_new为对当前帧做了帧间平滑后得到的帧间增益；

b(i)＝1-i/M，其中M表示帧长，i＝0～M-1。

25、一种数字化音频信号处理系统，其特征在于，包括：

信号转化单元，用于将通过麦克风阵列录制的模拟化音频信号转换为数字化音频信号；

发声概率确定单元，用于确定目标声源发声的概率；

处理单元，用于根据距离获得单元获得的所述距离和发声概率确定单元确定的所述概率，对信号转换单元转换后的数字化音频信号进行处理。

26、如权利要求25所述的系统，其特征在于，还包括：

27、如权利要求25或26所述的系统，其特征在于，发声概率确定单元具体包括：

拾音角度确定子单元，用于根据距离获得单元获得的距离，所述确定麦克风阵列的拾音角度；

相关值确定子单元，用于分别在所述拾音角度范围内和范围外，确定麦克风阵列中两个麦克风接收到的音频信号的最大互相关值；

发声概率确定子单元，用于根据相关值确定子单元在拾音角度范围内确定的最大互相关值，和在拾音角度范围外确定的最大互相关值的比值，来确定目标声源发声的概率。

28、如权利要求25所述的系统，其特征在于，所述处理单元具体包括：

混合比例参数确定子单元，用于根据距离获得单元获得的所述距离和信号混合比例参数成正比的规则，基于所述距离确定信号混合比例参数；

波束形成子单元，用于基于混合比例参数确定子单元确定的信号混合比例参数，对信号转换单元转换后的数字化音频信号进行波束形成处理。

29、如权利要求25所述的系统，其特征在于，所述处理单元具体包括：

增益估计子单元，用于基于所述距离和所述概率，估计噪声消除增益；

噪声消除子单元，用于将信号转换单元转换后的数字化带噪音频信号乘以估计得到的噪声消除增益，得到消除噪声后的音频信号。

30、如权利要求25所述的系统，其特征在于，所述处理单元具体包括：

判断子单元，用于判断所述概率是否大于一预定阈值；

帧间增益确定子单元，用于在判断子单元的判断结果为是时，基于第一平滑因子和所述概率，确定对转换后的数字化音频信号进行帧间平滑后得到的帧间增益，以及

在判断子单元的判断结果为否时，基于第二平滑因子和所述概率，确定对转换后的数字化音频信号进行帧间平滑后得到的帧间增益，其中第一平滑因子小于第二平滑因子；

帧内平滑子单元，用于基于帧间增益确定子单元确定的帧间增益，对转换后的数字化音频信号进行帧内平滑处理。