CN113514801A

CN113514801A - 基于深度学习的麦克风阵列声源定位方法及声源识别方法

Info

Publication number: CN113514801A
Application number: CN202110465688.0A
Authority: CN
Inventors: 陈思应
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-10-19

Abstract

基于深度学习的麦克风阵列声源定位方法及声源识别方法，包括如下步骤：设置麦克风阵列，所述麦克风阵列包括两个以上的麦克风，且全部麦克风位于同一平面；对麦克风进行两两分组，利用每一组麦克风进行声源位置定位,具体为：以两个麦克风连线为X轴，连线中点为坐标原点构建三维坐标系；计算声源相对坐标原点的方位角θ；确认声源角度后，再得到声源位置信息。本发明通过利用语音到达麦阵中各个不同位置麦克风的时延相关性获取声源位置，然后结合深度神经网络对语音进行增强，在本地实现了快速确定声源为人声还是非人声，减少语音产品中的误识别和误触发。

Description

基于深度学习的麦克风阵列声源定位方法及声源识别方法

技术领域

本发明属于人工智能技术领域，涉及语音识别中的声源定位,具体涉及一种基于深度学习的麦克风阵列声源定位方法及声源识别方法。

背景技术

近年来，随着物联网技术的突飞猛进，语音成为人机交互的一种自然、便捷的手段，但麦克风采集到的语音总是掺杂着不同的随机性噪声，如传输媒介、周围环境、人声干扰等外部噪声，接收到的语音质量受到不同程度的影响，从而导致语音识别效果变差，使用户的体验感差。目前市面上的语音产品根据采音麦克的数量分为单麦和多麦（双麦、四麦及八麦等），根据麦克风的排列方式分为矩形阵列和圆形阵列。单麦价格低、全方位拾音，安静下识别效果比较理想，但抗噪声能力差，在噪音条件下识别效果下降明显，虽然在特定的应用场景，如烟机、洗衣机等噪声下可通带噪语音与标准语音的映射来训练提高识别率，但各种噪音条件下的语音需要单独采集及训练，效率相对较低。

而麦克风阵列即麦阵不仅可以有效抑制噪声和混响的干扰，获得良好的音质，还可以得到声场的时空结构，在听觉场分析中可以解决或改善众多原本棘手的问题，例如音频去噪抗混响、语音增强以及说话人定位与跟踪。在音视频会议系统中，往往通过实时获取说话人的位置信息来控制摄像头自动对准该说话人，并利用波束成形等阵列信号处理手段对该方向的音频信号进行增强。在其他一些对音频信号质量有比较高要求的应用场景中，例如语音识别系统、车载电话系统、助听器设备等，也常常应用麦克风阵列得到的音频空间信息来放大说话人方向捕捉的音频信号，同时衰减其他方向的信号，进而提高音频质量；麦克风阵列在定位及跟踪精度具有较强的优势，且具有更强的稳健性。

发明内容

为克服现有技术存在的缺陷，本发明公开了一种基于深度学习的麦克风阵列声源定位方法及声源识别方法。

本发明所述基于深度学习的麦克风阵列声源定位方法，包括如下步骤：

S1. 设置麦克风阵列，所述麦克风阵列包括三个以上的麦克风；

S2. 对麦克风进行两两分组，利用每一组麦克风进行声源位置定位,具体为：

S21. 以两个麦克风连线为X轴，连线中点为坐标原点构建三维坐标系；利用下式计算声源相对坐标原点的方位角θ；

其中c为声速，m_i1 、m_i2表示两个麦克风在坐标系中的位置，τ_i为两个麦克风接收到声音信号的延时差；

S22. 对两个麦克风，求得麦克风接收到的频域信号X_i（k,l）；其中，下标i表示不同的麦克风，k表示第k个频点，l表示第l帧语音信号；

S3. 遍历各组麦克风求得各组麦克风对应的方位角θ和频域信号后，再进行以下处理：

将空间全方位角[-180°, 180°]均分为Q等份，定义每一个空间角索引i = 1，2，...，Q；则第i个空间角的波束S(i)为：

（4）

其中：

为第k个频点的相位角，Fs为频域信号的采样率，τi为延时差，θ为空间划分的方位角，c为声音传播速度，*表示取复共轭，X_m1（k,l）、X_m2（k,l）分别表示同一组内两个麦克风的频域信号，M为麦克风阵列的麦克风数量，K表示频域信号的频点总数，j表示虚部，exp表示求自然对数；

遍历空间全部空间角，得到空间波束向量S_eng:

选取空间波束向量中峰值最大的位置所对应的空间角即为所求声源方向。

本发明还公开了一种声源识别方法，包括如下步骤：

S11. 设置包括2个以上麦克风的麦克风阵列，放置在能接收到声源音频信息的位置；

S12. 麦克风阵列的各个麦克风收到语音后，根据麦克风阵列声源定位方法，获取到声源在空间的方位角，进而得到声源的位置；

S13. 根据步骤S12得到的声源位置对该声源位置发出的目标音频信号进行增强，其他位置发出的非目标音频信号进行抑制；对音频信号提取特征信息后输入神经网络进行运算，对运算结果解码后得到语音内容。

具体的：所述神经网络为深度神经网络、卷积神经网络、循环神经网络中任意一种。

本发明通过利用语音到达麦阵中各个不同位置麦克风的时延相关性获取声源位置，然后结合深度神经网络对语音进行增强，在本地实现了快速确定声源为人声还是非人声，减少语音产品中的误识别和误触发。

附图说明

图1是本发明中根据麦克风阵列构建坐标系的一个具体实施方式示意图；

图2是本发明所述麦克风阵列的一个具体实施方式示意图；

图3是利用本发明进行语音模型训练及识别的一个典型流程示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

将多个麦克风等间距的均匀分布在半径为r的二维圆周上，如图2所示。麦克风与搭载有语音本地识别芯片，如申请人自主研发的CI1103芯片的语音测试模组相连。

本发明主要应用于非贴近的较远声源位置识别，例如声源距离麦克风阵列中任意一个麦克风的直线距离均大于3米，进行声源位置识别时，将每两个麦克风分成一组，分组为任意分组，例如八个麦克风，可能有28个分组。

对以同组的两个麦克风中点作为原点，两个麦克风所在直线为X轴构建坐标系，如图1所示，利用下式计算出声源方向，声源与原点连线与X轴夹角

其中声速为 c，麦克风M1和M2之间接收到声源发出的音频信号的延时差为τ_i；

构建图1所示的三维坐标系，M1和M2分别表示两个麦克风，双麦阵M1和M2对应的空间矢量分别为n1和n2，M1和M2连线中点为坐标原点，M1和M2的连线定义为x轴，声源S的空间矢量为r_s,声源在三维坐标系中的球形坐标为( r,θ,ф,)，可得以下矢量方程：

||r_s-n1|| - ||r_s-n2|| = τ_i

c （1）

上式符合双曲线性质，根据双曲线的性质可得，因为声源 S到M1和M2麦克风之间的距离差为固定不变的，所以声源必定位于以M1和M2 位置为焦点的双曲面上。

根据双曲面性质，直角坐标系下声源和麦克风的位置由（2）式表示，其中r_s为声源S空间矢量；

（2）

其中r 是指声源与坐标原点之间的距离，r_s为声源S空间矢量；m_i1 、m_i2表示两个麦克风在坐标系中的位置，位置可用空间矢量表示，即m_i1=n1, m_i2=n2。

将声源和两个麦克风的空间矢量带入到式(1)中，并把方程的两边平方可得

（3）

r 是指声源与坐标原点之间的距离，(3)式的几何意义为，当声源距离焦点较远时，等号右边趋于零，此时可以近似的看作声源位于以麦克风M1和M2中点为锥点的圆锥面上，通过延时差τ_i，可近似求得声源相对于两麦克风中点的方向角θ，利用该几何特性，可进一步求声源位置，且(3)式中不再出现另一方向角ф。

当声源距离麦克风阵列的距离较远时，例如3米以上时，1/4r² 近似为零，此时可将式(3)化为

同时，对两个麦克风，求得麦克风接收到的频域信号X_i（k,l）。其中，下标i表示不同的麦克风，k表示第k个频点，l表示第l帧语音信号，频域信号 X_i（k,l）的采样率为F_s。

按照上述方法遍历每一组麦克风。

求得各组麦克风对应的方位角θ和频域信号后，再进行以下处理：

将空间全方位角[-180°, 180°]均分为Q等份，定义每一个空间角索引i = 1，2，...，Q，可获得第i个空间角的波束S(i)为：

（4）

其中：

为第k个频点的相位角，τ_i为延时差，θ为空间划分的方位角，c为声音传播速度，*表示取复共轭，X_m1（k,l）、X_m2（k,l）分别表示同一组内两个麦克风的频域信号，M为麦克风阵列的麦克风数量，K表示频域信号的频点总数，j表示虚部，exp表示求自然对数, m₁、m₂表示同组内不同的麦克风。

（4）式表示对每一个空间角，遍历麦克风阵列内全部麦克风两两组合的全部分组和全部频点，计算出麦克风阵列得到的位于第i个空间角的波束。

遍历空间全部空间角，得到空间波束向量:

采用上述方法，可以不再继续求取各个麦克风组对声源的另一方向角ф，利用多个麦克风组综合定位的方式更精确，并简化了对ф的求取。

例如存在四个麦克风A、B、C、D；两两分组后得到AB、AC、AD、BC、BD、CD共六组，每组麦克风可求得一组方位角θ和频域信号，再将六组方位角θ和频域信号代入（4）式，选择不同的空间角，求取空间角波束S（q），再遍历全部空间角，得到空间波束向量：

选取空间波束向量中峰值最大的位置，所对应的空间角即为所求声源方向。

在利用本发明进行语音识别前，需要首先进行神经网络训练，将麦克风提取的音频信息进行预处理、FFT变换和滤波后提取特征信息，输入深度神经网络（DNN）、卷积神经网络（CNN）、循环神经网络（RNN）等任意一种神经网络进行训练。其中预处理通常为将音频信息进行预加重、去直流等处理。

训练后的深度神经网络可用于声源识别，声援识别过程与训练过程近似，即设置同样的麦克风阵列，利用训练后的深度神经网络模型对声源进行定位识别。

利用本发明所述声源定位方法对声源进行识别的一个具体实施方式为：

将八个麦克风等间距的分布在半径为0.05米的二维圆周上，如图2所示。麦克风与搭载CI1103芯片的模组相连。

采集不同年龄、不同性别说话人的语音300小时以上，对语音预处理后进行标记，经FFT变换、滤波后提取特征信息，然后输入深度神经网络进行迭代训练获取识别所需的声学模型。

训练结束后进行识别效果验证，当环境噪声45dB时，在麦克风所处二维圆周平面的前方、距离麦克风阵列所处平面垂直距离3-10米内任意位置，以55-60dB播报测试语音，麦克风阵列的各个麦克风收到语音后，根据本发明所述的声源定位方法，将麦克风两两分组后由各麦克风间的时延相关性获取到声源在空间的方位角，进而得到声源的位置；然后对语音信号进行处理，提取特征信息后输入深度神经网络DNN进行运算，对运算结果解码后得到语音内容，一个典型的语音识别的训练及识别流程如图3所示。

当以55-60dB播报噪音时，根据各麦克风间的时延相关性获取到声源在空间的方位角，进而确定声源位置，然后对语音提取特征后输入到DNN进行运算，根据运算结果没有获取到任何语言结果，故而可判断该声源为噪声。

进一步的，以55-60dB播报噪音的同时，以60-65dB播报测试音频，噪声和测试在麦阵前任意位置，根据各麦克风之间的时延相关性获取到各声源在空间的方位角，进而得到声源的位置；声源位置确定的条件下，对目标语音信号进行增强、噪声进行抑制，提高目标人声的信噪比，然后根据DNN的运算结果，可区分噪声和人声。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.基于深度学习的麦克风阵列声源定位方法，其特征在于：包括如下步骤：

（4）

其中：

遍历空间全部空间角，得到空间波束向量S_eng:

2.声源识别方法，其特征在于，包括如下步骤：

3.根据权利要求2所述的声源识别方法，其特征在于：所述神经网络为深度神经网络、卷积神经网络、循环神经网络中任意一种。