CN114827795A

CN114827795A - 一种智能双向定向拾音麦克风

Info

Publication number: CN114827795A
Application number: CN202210476623.0A
Authority: CN
Inventors: 王建兵; 何凯
Original assignee: Shanghai Haoyi Information Technology Co ltd
Current assignee: Shanghai Haoyi Information Technology Co ltd
Priority date: 2022-04-30
Filing date: 2022-04-30
Publication date: 2022-07-29

Abstract

本发明公开了一种智能双向定向拾音麦克风，包括麦克风本体，所述麦克风本体的环形阵列形成拾音波束，所述拾音波束进行特征抽取，将音频短时傅里叶变换后的特征经过滤波器处理后做对数变换再做DCT得到树皮频率倒谱系数，使用粗糙分辨率估计临界带增益。本发明采用的麦克风阵列算法是配合AI神经网络，通过不同方向阵列增益的基础计算，输送给神经网络大致的方向信息，再通过神经网络最终判断出每个频点的方向，优化干扰以及噪声的协方差矩阵计算，最后通过优化后的最小方差无失真响应算法得到更加干净的目标语音，相比传统的固定波束形成算法来降噪，降噪效果更好，处理后的音频经过语音识别转写的准确率也更高。

Description

一种智能双向定向拾音麦克风

技术领域

本发明涉及麦克风领域，具体涉及一种智能双向定向拾音麦克风。

背景技术

在通讯、营业厅等场景，由于环境较嘈杂，坐席和台位在沟通过程中，会出现因外界的噪声干扰大，从而很难分离坐席和台位所说的话、并且带有强噪声的音频会导致语音转写效果较差；

在相关技术中，为了减少外界的噪声对声源定位以及语音识别效果的影响，通常采用双麦克风阵列，双麦克阵列，由两个麦克风传感器组成，两个麦克风传感器在空间分布上有特定的距离，这种距离的远近决定了拾音设备能够采集声音的远近、大小和方位；

现有技术存在以下不足：

1、传统的双麦克风阵列技术，虽然能采集一定角度的声音，但由于其特定的结构，决定了其无法采集孔腔后端的声音，无法实现同时采集前后两个方向的声音，应用场景单一，尤其在柜台这种需要同时采集坐席和台位两个角色的场景中无法实现双向拾音的功能，另外一些发明中将两个双麦克风背靠背合并在一起，角度上的限制依旧很大，并且由于双麦的限制导致其不能完全屏蔽对端的声音，在实际噪声环境下的表现不够理想；

2、传统的定向拾音和降噪算法例如GSC算法，是通过语音达到方向的先验TDOA(到达时间差)信息，以及使用与达到方向TDOA信息相互正交的TDOA组成的阻塞矩阵完成对目标语音增强以及消除旁瓣的工作，然而由于语音是一个宽带信号，麦克风的拓扑结构不能在所有频率上避免的空间混叠的发生，以及语音和干扰并非不相关的信号，再加上阵列误差等种种因素，致使传统的GSC算法，对于平稳背景噪声具有良好的抑制效果，但对于低信噪比和瞬变噪声场景效果不佳。

发明内容

本发明的目的是提供一种智能双向定向拾音麦克风，以解决背景技术中不足。

为了实现上述目的，本发明提供如下技术方案：一种智能双向定向拾音麦克风，包括麦克风本体，所述麦克风本体的环形阵列形成拾音波束；

所述拾音波束进行特征抽取，将音频短时傅里叶变换后的特征经过滤波器处理后做对数变换再做DCT得到树皮频率倒谱系数，使用粗糙分辨率估计临界带增益；

所述拾音波束通过以下步骤消除噪声：

S1：音频特征先过两个卷积神经网络对数据降采样；

S2：经过5个门控循环单元循环层做语音活动检测、噪声谱估计和噪声消除；

S3：输出音频增益和vad信息。

优选的，所述拾音波束的形成数量为4个，且拾音波束的波束范围为0～3，各自对应90°范围。

优选的，所述拾音波束拾音时，阵列算法增强波束范围内的声音，削弱波束外的声音，以增强录音信噪比。

优选的，所述拾音波束指定波束0和波束2位目标拾音方向，波束0的范围为90°，345°-45°范围录音增强，其他范围内录音减弱。

优选的，所述波束2在收音时，145°-225°的范围录音增强，其他范围录音被减弱。

优选的，所述特征抽取和音高分析得到的人声的基频信息组合作为神经网络模型的输入特征。

优选的，所述分辨率包括频率窗口以及频带，频带划分选择Opus的pitch计算代码，每个频带至少有4个bins，并使用三角频带每个三角的峰值和其相邻三角的边界点重合。

优选的，所述频带中，用ω_b(k)表示第b个band在频率k处的幅度，有∑_bw_b(k)＝1，对于频率信号X(k)，某一个band的能量为E_b＝∑_kw_b(k)|X(k)|²，每个band的增益为

其中E_s(b)为纯净语音的band能量，E_x(b)为带噪语音的band能量。

优选的，所述门控循环单元中，其中一个门控循环单元循环层是语音活动检测，其他的四个门控循环单元循环层做噪声谱估计和噪声消除。

优选的，步骤S3中，模型的损失函数用交叉熵损失，通过最小化真实增益g_b和预测增益

的差值，训练得到神经网络的参数。

在上述技术方案中，本发明提供的技术效果和优点：

1、本发明在嘈杂的环境下也可以通过语音定位识别营业厅柜台场景坐席和台位的双重或多重角色，并能输出纯净的人声音频；

2、本发明选择平面环形四麦麦克风阵列，包含信号的俯仰角信息，平面环形四麦麦克风阵列伴随阵元的增多，主瓣宽度随之变小，旁瓣幅值也会下降，有利于波束形成，并包含方向角和俯仰角信息，对语音处理非常有利，能够通过计算获取相对的坐席和台位方向的录音；

3、本发明采用的麦克风阵列算法是配合AI神经网络，通过不同方向阵列增益的基础计算，输送给神经网络大致的方向信息，再通过神经网络最终判断出每个频点的方向，优化干扰以及噪声的协方差矩阵计算，最后通过优化后的最小方差无失真响应算法得到更加干净的目标语音，相比传统的固定波束形成算法来降噪，降噪效果更好，语音还原度高，处理后的音频经过语音识别转写的准确率也更高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明麦克风的结构示意图。

图2为本发明麦克风的双向拾音原理图。

图3为本发明AI降噪处理流程图。

图4为本发明AI降噪算法模型网络结构示意图。

附图标记说明：

1、壳体；2、麦克风本体；3、开关；4、LED灯。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

在相关技术中，为了减少外界的噪声对声源定位以及语音识别效果的影响，通常采用双麦克风阵列，双麦克阵列，由两个麦克风传感器组成，两个麦克风传感器在空间分布上有特定的距离，这种距离的远近决定了拾音设备能够采集声音的远近、大小和方位，麦克风电路被内置进了设计好的结构壳体内部，结构壳体上具有适配传感器和麦克风传感器的孔腔，孔腔的设计遵循赫姆霍兹谐振器的原理，能增强采集声音的质量，通过这种设计，麦克风只能采集孔腔前方一定距离、一定水平角度范围内的声音，这样保证了对特定角度内采集声音的需求，对角度外的声音无法采集或声音明显衰减，为了采集前后两个方向，通常也有将两个双向麦克风背靠背合并成一个整体，以期望能同时收取面对面两个方向的声音；

目前市面上的麦克风阵列算法中，以自适应波束形成算法较多，该类波束形成算法常以具体准则为基础提出相应的算法，可用较少的麦克风取得较好的去噪效果，例如以线性约束最小方差(LCMV，linearly constrained minimum variance)为基础的线性约束最小方差(LCMV)方法及其衍生方法—广义旁瓣相消器(GSC，Generalized SidelobeCanceller)等，是在输出功率上施加线性约束，最小方差无失真响应(MVDR，MinimumVariance Distortionless Response)是以输出功率最小为目标，以最大信噪比(MaSNR，MaximalSNR)为基础的波束形成器，是以保证输出信噪比尽可能大为目标，自适应波束形成算法本质上以信号处理为基础，仍只是将语音看做普通的传输信号处理；

传统的双麦克风阵列技术，虽然能采集一定角度的声音，但由于其特定的结构，决定了其无法采集孔腔后端的声音，无法实现同时采集前后两个方向的声音，应用场景单一，尤其在柜台这种需要同时采集坐席和台位两个角色的场景中无法实现双向拾音的功能，另外一些发明中将两个双麦克风背靠背合并在一起，角度上的限制依旧很大，并且由于双麦的限制导致其不能完全屏蔽对端的声音，在实际噪声环境下的表现不够理想；

传统的定向拾音和降噪算法例如GSC算法，是通过语音达到方向的先验TDOA(TimeDifference of Arrival，到达时间差)信息，以及使用与达到方向TDOA信息相互正交的TDOA组成的阻塞矩阵完成对目标语音增强以及消除旁瓣的工作，然而由于语音是一个宽带信号，麦克风的拓扑结构不能在所有频率上避免的空间混叠的发生，以及语音和干扰并非不相关的信号，再加上阵列误差等种种因素，致使传统的GSC算法，对于平稳背景噪声具有良好的抑制效果，但对于低信噪比和瞬变噪声场景效果不佳，针对上诉问题我们提出以下方案；

实施例1

请参阅图1所示，本实施例所述一种智能双向定向拾音麦克风，包括壳体1、麦克风本体2、开关3以及LED灯4，且麦克风本体2嵌入设置在壳体1中，开关3以及LED灯4均设置在壳体1的顶部，且开关3以及LED灯4均与麦克风本体2电性连接；

进一步的，所述麦克风本体2的一侧还设置有Type C(供电口)、Lineout(3段耳机座，模拟信号输出)、RJ45(以太网口，音频传输)、wifi(wifi开关)以及信号灯；

请参阅图2所示，所述麦克风本体2能同时收取两个相对的方向的录音，即双向定向拾音，双向拾音麦克风环形阵列形成4个拾音波束(波束0～3)，各自对应90°范围；

我们首先确定两个方向为目标拾音方向，当指定一个拾音波束进行拾音时，阵列算法会增强波束范围内的声音，削弱波束外的声音，以增强录音信噪比，指定波束0和波束2位目标拾音方向，当指定波束0进行拾音时，由于每个波束的范围为90°，所以345°-45°范围内录音得到增强，其他范围内录音会被减弱或者消除；

同样的，波束2在收音时，145°-225°的范围内的录音得到增强，其他范围内录音被减弱，这样，当这两个方向被指定到坐席和台位时，就能同时收到两个人的声音，并减弱其他方向的干扰声，并且，收音的角度也可以调试，根据实际的需求控制拾音的范围。

实施例2

进一步的，麦克风本体2使用的AI降噪的主要流程如附图3所示，其中Featureextraction(特征抽取)是处理过程中重要的一步，主要是将音频STFT(短时傅里叶变换)后的特征经过滤波器处理后做对数变换再做DCT得到BFCC(树皮频率倒谱系数)，该特征再和Pitchanalysis(音高分析)得到的人声的基频信息(PITCH)组合作为神经网络模型的输入特征；

在降噪的神经网络部分，考虑麦克风阵列处理音频的实时性，目前大多数麦克风中使用的直接估计frequencybins(频率窗口)需要的网络复杂度较高，从而计算量较大，对硬件设备要求过高且可能带来较高的时延，因此本发明并没有直接计算频谱幅度，而是对理想临界带增益(idealcriticalbandgains)进行估计，假定频谱包络足够平坦，因此可以使用比较粗糙的分辨率；

相比frequencybins(频率窗口)，frequencyband(频带)的数目更少，频带划分选择这里使用了Opus的pitch计算代码，在低频区，每个频带最少有4个bins，并且使用的是三角频带(滤波)而非矩形频带，每个三角的峰值和其相邻三角的边界点重合，最终band的数量为34；

因此，用ω_b(k)表示第b个band在频率k处的幅度，有∑_bw_b(k)＝1，对于频率信号X(k)，某一个band的能量为E_b＝∑_kw_b(k)|X(k)|²，每个band的增益为

其中E_s(b)为纯净语音的band能量，E_x(b)为带噪语音的band能量，由于噪声和语音不相关，因而带噪语音的能量必然大于纯净语音的能量，即E_s<E_x，对于每个频带，语音越纯净，g_b越大，对于含噪语音，乘以一个较小的增益，对于纯净语音，乘以一个较大的增益，这样便可以增强人声增益、抑制噪声。

进一步的，麦克风本体2具体的网络模型结构图如附图4所示，首先音频特征先过两个CNN(卷积神经网络)对数据降采样，目的是减少后面的模型参数，然后经过5个GRU(门控循环单元)循环层，其中一个循环层是VAD(语音活动检测)，其他的四个GRU用来做噪声谱估计和噪声消除；

最终输出音频增益和vad信息，模型的损失函数采用交叉熵损失，即最小化真实增益g_b和预测增益

的差值，训练得到神经网络的参数，选择GRU网络做为循环层的网络，相比其他降噪算法中的LSTM(长短期记忆)，训练参数更少且训练更快；

最后，由于生成特征的时候使用的是Bark’s scale进行频带处理，在计算频带能量时有相乘求和的操作，这样就会带来一定的平滑效果，使得共振峰凸显效果变弱，因而使用一个pitch滤波器对共振峰进行加强，滤波完成后进行ISTFT(短时傅里叶逆变换)便可得到降噪后的音频数据。

需要说明的是，在本文中，如若存在第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种智能双向定向拾音麦克风，包括麦克风本体2，其特征在于：所述麦克风本体2的环形阵列形成拾音波束；

所述拾音波束通过以下步骤消除噪声：

S1：音频特征先过两个卷积神经网络对数据降采样；

S3：输出音频增益和vad信息。

2.根据权利要求1所述的一种智能双向定向拾音麦克风，其特征在于：所述拾音波束的形成数量为4个，且拾音波束的波束范围为0～3，各自对应90°范围。

3.根据权利要求2所述的一种智能双向定向拾音麦克风，其特征在于：所述拾音波束拾音时，阵列算法增强波束范围内的声音，削弱波束外的声音，以增强录音信噪比。

4.根据权利要求3所述的一种智能双向定向拾音麦克风，其特征在于：所述拾音波束指定波束0和波束2位目标拾音方向，波束0的范围为90°，345°-45°范围录音增强，其他范围内录音减弱。

5.根据权利要求4所述的一种智能双向定向拾音麦克风，其特征在于：所述波束2在收音时，145°-225°的范围录音增强，其他范围录音被减弱。

6.根据权利要求5所述的一种智能双向定向拾音麦克风，其特征在于：所述特征抽取和音高分析得到的人声的基频信息组合作为神经网络模型的输入特征。

7.根据权利要求6所述的一种智能双向定向拾音麦克风，其特征在于：所述分辨率包括频率窗口以及频带，频带划分选择Opus的pitch计算代码，每个频带至少有4个bins，并使用三角频带每个三角的峰值和其相邻三角的边界点重合。

8.根据权利要求7所述的一种智能双向定向拾音麦克风，其特征在于：所述频带中，用ω_b(k)表示第b个band在频率k处的幅度，有∑_bw_b(k)＝1，对于频率信号X(k)，某一个band的能量为E_b＝∑_kw_b(k)|X(k)|²，每个band的增益为

9.根据权利要求1所述的一种智能双向定向拾音麦克风，其特征在于：所述门控循环单元中，其中一个门控循环单元循环层是语音活动检测，其他的四个门控循环单元循环层做噪声谱估计和噪声消除。

10.根据权利要求9所述的一种智能双向定向拾音麦克风，其特征在于：步骤S3中，模型的损失函数用交叉熵损失，通过最小化真实增益g_b和预测增益

的差值，训练得到神经网络的参数。