CN107274907A

CN107274907A - 双麦克风设备上实现指向性拾音的方法和装置

Info

Publication number: CN107274907A
Application number: CN201710533786.7A
Authority: CN
Inventors: 邓滨; 宋晨枫
Original assignee: Beijing Fish In Home Technology Co Ltd
Current assignee: Shanghai Xiaodu Technology Co Ltd
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-10-20

Abstract

本发明公开了双麦克风设备上实现指向性拾音的方法和装置，涉及音频处理技术。所述方法包括：分别对指向麦克风和非指向麦克风拾取的音频信号进行加窗分帧处理；对分帧后的所述音频信号进行频谱能量分析，区分出有效信号、无效信号和环境噪声信号；对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号。在具有双麦克风的电子设备上，通过对两个麦克风的音频信号进行分析和处理，保留其中一个麦克风的有效音频信号，滤除其他方向声音的干扰以及环境噪声；本发明能够指定输出麦克风其中一个拾音方向的音频，以获得更清晰的目标声源，适用于声源位置变化或者需要定向拾音的情况。

Description

双麦克风设备上实现指向性拾音的方法和装置

技术领域

本发明涉及音频处理技术，尤其涉及双麦克风设备上实现指向性拾音的方法和装置。

背景技术

全向式麦克风对于来自不同角度的声音，其灵敏度是相同的。常见于需要收录整个环境声音的录音工程，或是声源在移动时，希望能保持良好收音的情况。全向式的缺点在于容易收到四周环境的噪音，而在价格方面相对较为便宜。

现有技术中的一些便携式拾音设备(如录音笔、头戴式耳麦等)上，通常在设备两端分别设置麦克风，两个麦克风之间有一定的距离(例如超过10cm)且朝向不同的方向，此时，该拾音设备可以拾取到至少两个朝向的声音以及环境噪声，适用于会议、采访等需要全向拾音但是对设备体积有要求的情况。双麦克风设备最终输出的是两个麦克风拾取到的声音的混合。此时，如果希望实现仅保留来自于某一麦克风的临近发声源的声音，那么就需要去除其它有影响的干扰信号，实现指向性拾音，即本发明要解决的问题。

发明内容

本发明的目的在于提出双麦克风设备上实现指向性拾音的方法和装置，能够使双麦克风设备输出其中一个麦克风拾取的声音。

为达此目的，本发明采用以下技术方案：

一方面，本发明提供一种双麦克风设备上实现指向性拾音的方法，包括：

分别对指向麦克风和非指向麦克风拾取的音频信号进行加窗分帧处理；

对分帧后的所述音频信号进行频谱能量分析，区分出有效信号、无效信号和环境噪声信号；

对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号。

其中，对分帧后的所述音频信号进行频谱能量分析，区分出有效信号、无效信号和环境噪声信号，包括：

若指向麦克风的音频信号的频谱能量大于非指向麦克风的音频信号的频谱能量，则指向麦克风的音频信号包括有效信号和环境噪声信号，非指向麦克风的音频信号包括无效信号和环境噪声信号；

若指向麦克风的音频信号的频谱能量小于非指向麦克风的音频信号的频谱能量，则指向麦克风的音频信号为环境噪声信号，非指向麦克风的音频信号包括无效信号和环境噪声信号；

若指向麦克风的音频信号的频谱能量等于非指向麦克风拾取的音频信号的频谱能量，则指向麦克风的音频信号和非指向麦克风的音频信号为环境噪声信号。

其中，对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号，包括：

从所述指向麦克风的音频信号的频谱能量中去除所述非指向麦克风的音频信号的频谱能量，获得有效信号的频谱能量；

当指向麦克风的音频信号的频谱能量大于非指向麦克风的音频信号的频谱能量时，计算所述无效信号的平均信号能量作为增益因子；

所述有效信号的频谱能量乘以所述增益因子进行增益补偿。

进一步的，分别对指向麦克风和非指向麦克风拾取的音频信号进行加窗分帧处理之后，还包括：

分别对分帧后的所述音频信号进行傅里叶变换，得到频谱分量；

计算并保存每一帧所述指向麦克风的音频信号的频谱分量的相位角。

其中，音频信号X(k)的频谱分量采用复数形式表示为Re(X(k))+Im(X(k))，其中，Re(X(k))为实部，Im(X(k))为虚部，k为帧号；

所述指向麦克风的音频信号X₀(k)中频谱分量的相位角为：

其中，对分帧后的所述音频信号进行频谱能量分析，包括：

计算指向麦克风的音频信号X₀(k)的频谱能量：

|X₀(k)|²＝Re(X₀(k))²+Im(X₀(k))²；

计算非指向麦克风的音频信号X₁(k)的频谱能量：

|X₁(k)|²＝Re(X₁(k))²+Im(X₁(k))²；

相应的，从所述指向麦克风的音频信号的频谱能量中去除所述非指向麦克风的音频信号的频谱能量，获得有效信号的频谱能量，具体为：

有效信号的频谱能量

进一步的，获得有效信号的频谱能量之后，还包括：

将所述有效信号的频谱能量开方后得到有效信号的频谱分量的复数的模

结合所述相位角，可得所述频谱分量满足：

所述频谱分量经过傅里叶逆变换处理，生成频减处理后的有效信号的时域信号并输出。

进一步的，区分出有效信号、无效信号和环境噪声信号之后，还包括：

对所述环境噪声信号进行衰减处理；

相应的，对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号之后，还包括：

将衰减后的环境噪声信号添加到所述有效信号中，获得目标音频信号。

另一方面，本发明提供一种双麦克风设备上实现指向性拾音的装置，包括：

加窗分帧模块，用于分别对指向麦克风和非指向麦克风拾取的音频信号进行加窗分帧处理；

频谱能量分析模块，用于对分帧后的所述音频信号进行频谱能量分析，区分出有效信号、无效信号和环境噪声信号；

频减处理模块，用于对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号。

其中，所述频谱能量分析模块具体用于判断：

其中，所述频减处理模块包括：

频减单元，用于从所述指向麦克风的音频信号的频谱能量中去除所述非指向麦克风的音频信号的频谱能量，获得有效信号的频谱能量；

增益单元，用于当指向麦克风的音频信号的频谱能量大于非指向麦克风的音频信号的频谱能量时，计算所述无效信号的平均信号能量作为增益因子；所述有效信号的频谱能量乘以所述增益因子进行增益补偿。

进一步的，所述装置还包括：

傅里叶变换模块，用于分别对分帧后的所述音频信号进行傅里叶变换，得到频谱分量；

相位角计算模块，用于计算并保存每一帧所述指向麦克风的音频信号的频谱分量的相位角。

所述指向麦克风的音频信号X₀(k)中频谱分量的相位角为：

其中，所述频谱能量分析模块具体用于：

计算指向麦克风的音频信号X₀(k)的频谱能量：

|X₀(k)|²＝Re(X₀(k))²+Im(X₀(k))²；

计算非指向麦克风的音频信号X₁(k)的频谱能量：

|X₁(k)|²＝Re(X₁(k))²+Im(X₁(k))²；

相应的，所述频减单元具体用于计算有效信号的频谱能量

进一步的，所述频减处理模块还包括：

频谱分量计算单元，用于将所述有效信号的频谱能量开方后得到有效信号的频谱分量的复数的模结合所述相位角，可得所述频谱分量满足：

傅里叶逆变换单元，用于对所述频谱分量进行傅里叶逆变换处理，生成频减处理后的有效信号的时域信号并输出。

进一步的，所述装置还包括：舒适噪声添加模块，用于在区分出有效信号、无效信号和环境噪声信号之后，对所述环境噪声信号进行衰减处理；

相应的，还用于在对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号之后，将衰减后的环境噪声信号添加到所述有效信号中，获得目标音频信号。

本发明的有益效果为：

在具有双麦克风的电子设备上，通过对两个麦克风的音频信号进行分析和处理，保留其中一个麦克风的有效音频信号，滤除其他方向声音的干扰以及环境噪声；本发明能够指定输出麦克风其中一个拾音方向的音频，以获得更清晰的目标声源，适用于声源位置变化或者需要定向拾音的情况。

附图说明

图1是本发明实施例一提供的双麦克风设备上实现指向性拾音的方法的流程图；

图2是本发明实施例一中采用双麦克风设备拾取的音频信号波形图；

图3是本发明实施例一中实现指向性拾音后的音频信号波形对比图；

图4是本发明实施例二提供的双麦克风设备上实现指向性拾音的方法的流程图；

图5是本发明实施例三提供的双麦克风设备上实现指向性拾音的方法的流程图；

图6是本发明实施例四提供的双麦克风设备上实现指向性拾音的装置的结构示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例一

本实施例提供一种双麦克风设备上实现指向性拾音的方法，适用于需要指定拾音方向的情况，由一种双麦克风设备上实现指向性拾音的装置来执行，该装置由软件和/或硬件实现，一般集成于各种拾音设备和音频处理设备的内部。

图1是本实施例提供的双麦克风设备上实现指向性拾音的方法的流程图，如图1所示，该方法包括如下步骤：

S11，分别对指向麦克风和非指向麦克风拾取的音频信号进行加窗分帧处理。

图2是本实施例中采用双麦克风设备拾取的音频信号。以信号201为指向麦克风拾取的音频信号，信号202为非指向麦克风拾取的音频信号为例，进行解释说明。

由于音频信号的短时平稳特性，通常需要将音频信号切分成若干时长的帧并以帧为单位进行后续处理。帧长依据不同的音频采样率有着一些常用值，也可以是任意方便处理的值。根据预设的帧长，分别对指向麦克风和非指向麦克风拾取的音频信号进行加窗分帧处理。

S12，对分帧后的所述音频信号进行频谱能量分析，区分出有效信号、无效信号和环境噪声信号。

若指向麦克风的音频信号的频谱能量大于非指向麦克风的音频信号的频谱能量，则指向麦克风的音频信号包括有效信号和环境噪声信号，非指向麦克风的音频信号包括无效信号和环境噪声信号。如图2中的d区间，信号202的信号能量(波形振幅)明显强于信号201。

若指向麦克风的音频信号的频谱能量小于非指向麦克风的音频信号的频谱能量，则指向麦克风的音频信号为环境噪声信号，非指向麦克风的音频信号包括无效信号和环境噪声信号。如图2中的b区间，信号201的信号能量明显强于信号202。

若指向麦克风的音频信号的频谱能量等于非指向麦克风拾取的音频信号的频谱能量，则指向麦克风的音频信号和非指向麦克风的音频信号为环境噪声信号。如图2所示，区间a、c、e具备同样的特性，两个麦克风所拾取的音频信号的信号能量非常近似，这部分音频信号代表着外界的环境噪声。并且区间b和d的音频信号中也包括环境噪声信号。

S13，对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号。

根据步骤S12的频谱能量分析即可看出，从所述指向麦克风的音频信号的频谱能量中去除所述非指向麦克风的音频信号的频谱能量，即可获得有效信号的频谱能量。

图3是本发明实施例一中实现指向性拾音后的音频信号波形对比图。信号203是从信号201中去除信号202之后得到的有效信号。

频减处理使得最终获得的有效信号的能量减弱，因此，当指向麦克风的音频信号的频谱能量大于非指向麦克风的音频信号的频谱能量时，计算所述无效信号的平均信号能量作为增益因子；将所述有效信号的频谱能量乘以所述增益因子进行增益补偿，以使所述有效信号恢复到原有的能量水平。增益因子的单位为dB。

输出所述增益补偿后的有效信号，即为需要获得的指向性拾音信号。

本实施例通过对两个麦克风拾取的音频信号进行能量分析，明确需要去除的部分和需要保留部分，并且对减弱的信号能量进行补偿，使得最终输出的有效信号更清晰，在音色和音量上改变不会很明显，达到较好的保真效果。

实施例二

本实施例在实施例一的基础上进行改进，基于人类听觉的特点和习惯，绝对无噪音的信号会让听众觉得怪异，相当于破坏了正常的听觉感受；可通过给频减后获得的有效信号添加舒适噪声，使信号更自然。

图4是本发明实施例二提供的双麦克风设备上实现指向性拾音的方法的流程图。如图4所示，该方法包括如下步骤：

S110，分别对指向麦克风和非指向麦克风拾取的音频信号进行加窗分帧处理。

S120，对分帧后的所述音频信号进行频谱能量分析，区分出有效信号、无效信号和环境噪声信号。

S121，对所述环境噪声信号进行衰减处理。

从所述环境噪声信号中提取噪声特性，根据一定的衰减因子对所述环境噪声信号进行衰减处理，形成低能量的噪声信号。此类信号属于舒适噪声，不会使人烦躁、不会影响对其他声音的识别，也不会对人体产生伤害。

S130，对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号。

S131，将衰减后的环境噪声信号添加到所述有效信号中，获得目标音频信号。

将衰减后的环境噪声信号于所述有效信号进行频谱能量的叠加，获得目标信号并输出，此时输出的声音使人听起来十分的舒服、自然。

本实施例通过对频减后的有效信号进行舒适噪声添加，使得输出的音频信号更接近自然的状态，更符合听众的感受，能够很好的提升用户体验。

实施例三

本实施例在上述实施例的基础上，针对频谱能量分析和频减处理，作出具体算法的说明。

图5是本发明实施例三提供的双麦克风设备上实现指向性拾音的方法的流程图。如图5所示，该方法包括如下步骤：

S210，分别对指向麦克风和非指向麦克风拾取的音频信号进行加窗分帧处理。

S211，分别对分帧后的所述音频信号进行傅里叶变换，得到频谱分量。

音频信号X(k)的频谱分量采用复数形式表示为Re(X(k))+Im(X(k))，其中，Re(X(k))为实部，Im(X(k))为虚部，k为帧号。

S212，计算并保存每一帧所述指向麦克风的音频信号的频谱分量的相位角。

所述指向麦克风的音频信号X₀(k)中频谱分量的相位角为：

S213，对分帧后的所述音频信号进行频谱能量分析，区分出有效信号、无效信号和环境噪声信号。

S214，对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号。

计算指向麦克风的音频信号X₀(k)的频谱能量：

|X₀(k)|²＝Re(X₀(k))²+Im(X₀(k))²。

计算非指向麦克风的音频信号X₁(k)的频谱能量：

|X₁(k)|²＝Re(X₁(k))²+Im(X₁(k))²。

从所述指向麦克风的音频信号的频谱能量中去除所述非指向麦克风的音频信号的频谱能量，获得有效信号的频谱能量

将所述有效信号的频谱能量开平方后得到有效信号的频谱分量的复数的模

S215，结合所述相位角进行计算，可得所述有效信号的频谱分量

所述频谱分量用复数表示为满足：

S216，所述频谱分量经过傅里叶逆变换处理，生成频减处理后的有效信号的时域信号并输出。

所述时域信号即为需要输出的音频信号。可根据实施例二中的步骤对该时域信号进行舒适噪声处理，使得听敢更好。

本实施例提供了具体的实现指向性拾音的算法，只是作为实施例一所述的方法的其中一种实现方式，其他采用相同处理思路的算法均在本发明的保护范围之内。

实施例四

本发明提供一种双麦克风设备上实现指向性拾音的装置，用于执行上述实施例的双麦克风设备上实现指向性拾音的方法，解决相同的技术问题，达到相同的技术效果。该装置一般集成于拾音设备上，如录音笔、头戴式耳麦、会议麦克风等具有两个分开设置的麦克风的设备，或者集成于音频处理设备上，可对上述具备两个麦克风的拾音设备所拾取的音频信号进行处理。

图6是本发明实施例四提供的双麦克风设备上实现指向性拾音的装置的结构示意图。该装置包括：加窗分帧模块、频谱能量分析模块和频减处理模块。

加窗分帧模块，用于分别对指向麦克风和非指向麦克风拾取的音频信号进行加窗分帧处理。

频谱能量分析模块，用于对分帧后的所述音频信号进行频谱能量分析，区分出有效信号、无效信号和环境噪声信号。

其中，所述频谱能量分析模块具体用于判断：

其中，所述频减处理模块包括：频减单元，部分情况下还包括增益单元。

进一步的，所述装置还包括：傅里叶变换模块和相位角计算模块。

所述指向麦克风的音频信号X₀(k)中频谱分量的相位角为：

相应的，所述频谱能量分析模块具体用于：计算指向麦克风的音频信号X₀(k)的频谱能量：|X₀(k)|²＝Re(X₀(k))²+Im(X₀(k))²；计算非指向麦克风的音频信号X₁(k)的频谱能量：|X₁(k)|²＝Re(X₁(k))²+Im(X₁(k))²。

相应的，所述频减单元具体用于计算有效信号的频谱能量

进一步的，所述频减处理模块还包括：频谱分量计算单元和傅里叶逆变换单元。

进一步的，所述装置还包括：舒适噪声添加模块，用于在区分出有效信号、无效信号和环境噪声信号之后，对所述环境噪声信号进行衰减处理；然后在对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号之后，将衰减后的环境噪声信号添加到所述有效信号中，获得目标音频信号。

本实施例提供的装置，能够从双麦克风设备拾取的音频信号中分离出其中一个拾音方向的音频，以获得更气你的目标音频，并且通过舒适噪声添加，使听众的听觉感受更好。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种双麦克风设备上实现指向性拾音的方法，其特征在于：

2.根据权利要求1所述的方法，其特征在于，对分帧后的所述音频信号进行频谱能量分析，区分出有效信号、无效信号和环境噪声信号，包括：

3.根据权利要求2所述的方法，其特征在于，对所述指向麦克风的音频信号进行频减处理，去除所述无效信号和所述环境噪声信号，保留有效信号，包括：

所述有效信号的频谱能量乘以所述增益因子进行增益补偿。

4.根据权利要求3所述的方法，其特征在于，分别对指向麦克风和非指向麦克风拾取的音频信号进行加窗分帧处理之后，还包括：

5.根据权利要求4所述的方法，其特征在于：

音频信号X(k)的频谱分量采用复数形式表示为Re(X(k))+Im(X(k))，其中，Re(X(k))为实部，Im(X(k))为虚部，k为帧号；

所述指向麦克风的音频信号X₀(k)中频谱分量的相位角为：

<mrow> <msub> <mi>Angle</mi> <msub> <mi>X</mi> <mn>0</mn> </msub> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>arctan</mi> <mfrac> <mrow> <mi>Im</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mn>0</mn> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Re</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mn>0</mn> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>

6.根据权利要求5所述的方法，其特征在于，对分帧后的所述音频信号进行频谱能量分析，包括：

计算指向麦克风的音频信号X₀(k)的频谱能量：

|X₀(k)|²＝Re(X₀(k))²+Im(X₀(k))²；

计算非指向麦克风的音频信号X₁(k)的频谱能量：

|X₁(k)|²＝Re(X₁(k))²+Im(X₁(k))²；

有效信号的频谱能量

7.根据权利要求6所述的方法，其特征在于，获得有效信号的频谱能量之后，还包括：

结合所述相位角，可得所述频谱分量满足：

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>Re</mi> <mrow> <mo>(</mo> <mrow> <msub> <mover> <mi>X</mi> <mo>&OverBar;</mo> </mover> <mn>0</mn> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <msub> <mover> <mi>X</mi> <mo>&OverBar;</mo> </mover> <mn>0</mn> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>&CenterDot;</mo> <mi>cos</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>Angle</mi> <msub> <mi>X</mi> <mn>0</mn> </msub> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>Im</mi> <mrow> <mo>(</mo> <mrow> <msub> <mover> <mi>X</mi> <mo>&OverBar;</mo> </mover> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <msub> <mover> <mi>X</mi> <mo>&OverBar;</mo> </mover> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>&CenterDot;</mo> <mi>sin</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>Angle</mi> <msub> <mi>X</mi> <mn>1</mn> </msub> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>

8.根据权利要求1至7任一项所述的方法，其特征在于，区分出有效信号、无效信号和环境噪声信号之后，还包括：

对所述环境噪声信号进行衰减处理；

9.一种双麦克风设备上实现指向性拾音的装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，还包括：舒适噪声添加模块，

用于在区分出有效信号、无效信号和环境噪声信号之后，对所述环境噪声信号进行衰减处理；