CN112710987A

CN112710987A - 一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统

Info

Publication number: CN112710987A
Application number: CN202011572269.9A
Authority: CN
Inventors: 郭峰; 吕艳玲; 刘志鹏
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-27

Abstract

本发明公开了一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统，其包括步骤：(1)使用基于卷积神经网络的方法，实现对鸣笛声的识别；(2)利用遗传算法，迭代训练出一个32元平面麦克风阵列和一个20元平面麦克风阵列；(3)基于MEMS麦克风，设计制作了一个包含32元和20元的麦克风阵列系统；(4)测试所设计的麦克风阵列识别定位噪声信号的效果，并提出优化改进的方法；本发明测量范围广，针对5m～50m的测量区间，可实现较高信噪比的声源采样；同时本发明定位性能良好，对鸣笛的噪声源进行识别定位，有助于提高抓获鸣笛违章的执法准确度，对提升执法效率及减少人力资源的浪费具有重大意义。

Description

一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统

技术领域

本发明涉及一种麦克风阵列系统，尤其涉及一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统。

背景技术

近些年伴随着中国经济的快速发展，越来越多的车辆在城市中穿行，这些车辆在方便了居民的交通出行的同时，也带来了许多交通噪声问题。而车辆的鸣笛噪声是其中的绝大部分，同时也是最令人反感的交通噪声。车辆违法鸣笛会影响许多人的学习生活。目前已有相关法规限制或禁止私家车在某些重点的路段或地点鸣笛，同时也有大量人力对重点区域进行巡逻，并利用违法记录仪等设备，对违法鸣笛车辆进行抓拍录音取证。但是在实际场景中，对违法鸣笛的车辆的人工执法效率低，可靠性差，且不容易保留证据。

近年来神经网络领域发展迅速，神经网络技术被广泛地应用在图像识别和语音识别的相关领域。使用卷积神经网络来实现对车辆鸣笛声音的快速判断和识别，可减少传统的基于能量谱判断所产生的误差，并提高鸣笛违章的执法准确度。与此同时麦克风阵列信号处理技术也发展迅速。现阶段，工业领域、军事领域以及大众消费电子领域均能看到麦克风阵列的身影。例如工业领域的汽车发动机的噪声定位、飞机等的噪声定位；军事领域中的狙击位置和无人飞行器定位；以及大众消费电子产品中的智能音响等产品。

因此利用麦克风阵列声源定位技术，配合深度学习对鸣笛声音进行识别，可以更加有效的对城市道路中的车辆鸣笛的违法行为进行定位记录。

发明内容

本发明的目的在于提出一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统，该麦克风阵列系统能够有效对鸣笛的噪声源进行识别定位。利用该麦克风阵列系统可以及时检测出鸣笛噪声源，提高抓获违章鸣笛的执法准确度。

基于以上目的，本发明提出一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统，其包括步骤：

步骤1、使用基于卷积神经网络的方法，实现对鸣笛声音信号的识别；

对声音信号数据进行预处理，即进行分帧、加窗，之后对已进行分帧、加窗的声音信号数据进行特征提取，提取出声音信号中一些具有区分性的特征，通过卷积神经网络利用提取的声源特征参数对接收的声音信号进行判断，判断接收到的信号中是否含有车辆鸣笛信号或具有类似特征的声源信号。

步骤2、利用遗传算法，迭代训练出一个32元平面麦克风阵列和一个 20元平面麦克风阵列；

将麦克风的设计主要分为两组，每一组均在一个长宽均为30cm的矩形面板上，设计一个外框为均匀方框阵，内部为随机排布的麦克风阵列，一组外框为16阵元相互间距为7.5cm，内部为16阵元随机分布的共计32元的麦克风阵列；另一组外框为8阵元相互间距为15cm，内部为12阵元随机分布的共计20 元的麦克风阵列；描述麦克风阵列主要性能的两个指标为主瓣宽度和最大旁瓣高度，二者越小，说明麦克风阵列主要性能越好，设目标函数为二者倒数之和，通过遗传算法，迭代训练出使得目标函数的函数值最大的麦克风阵列排布方式。

步骤3、基于MEMS麦克风，设计制作了一个包含32元和20元的麦克风阵列系统；

基于MEMS麦克风，综合步骤2中迭代训练出的32元平面麦克风阵列和20元平面麦克风阵列，集成制作出一个44元的麦克风阵列；并使用 ZYNQ7Z035作为主控，实现音频数据的同步采集与数据打包传输；使用 CY7C68013A的USB模块，实现USB数据的高速传输；并制作USB的上位机，实现了传输数据的保存以及音频解码。

步骤4、测试所设计的麦克风阵列识别定位噪声信号的效果，并提出优化改进的方法。

使用制作出来的44元的麦克风阵列系统，对其性能进行测试与优化，并在实际的道路场境中进行实验，实现鸣笛信号的定位。

本案的麦克风阵列系统在对声音信号数据进行采样，对声音信号数据进行分帧、加窗预处理，之后提取采样的声源信号中一些具有区分性的特征，通过已参与过训练的卷积神经网络利用提取的声源特征参数对采样的声音信号进行识别，分析其中是否包含鸣笛信息，若识别出存在鸣笛声音信息，则对鸣笛声源的位置进行计算，最后定位出鸣笛声源位置。

汽车鸣笛信号具有高频高能的特点，通常采用语音端点检测技术，实现汽车鸣笛声检测，同时为了保证鸣笛声检测的实时性，采用短时能量与短时过零率两者的乘积，作为判断是否识别到鸣笛声的主要依据。

由于鸣笛信号具有明显的周期性，且体现在频谱上会出现明显的能量集中，所以选择提取基于声音信号频域特征的Mel频率倒谱系数和Gammatone倒谱系数作为鸣笛信号的特征进行特征提取。

卷积神经网络(Convolutional neural networks)与传统的神经网络相比，其主要是通过卷积、池化等方法，可以进一步提取出数据的深层信息，并减少了数据量，因此其在图像识别、视频处理等领域有着广泛的应用空间，1990年左右， Yann与LeCun等人提出了卷积神经网络的结构，随后卷积神经网络便被人们广泛开发与应用与多个领域，例如文字图像识别，人体或其他动物的面部或行为识别，特征标志识别以及各类声音识别等领域。

遗传算法由美国Michigan大学的Holland教授及其学生共同创造，是一种原理易懂、运算过程简单且实用性和鲁棒性都很强的优化算法，目前越来越多的研究领域都采用遗传算法来解决了众多最优化的问题，遗传算法的理论也在应用中不断得到完善，其性能也在不断的提高，采用遗传算法可以十分有效的找出全局最优解。

本发明测量范围广，针对5m～50m的测量区间，可实现较高信噪比的声源采样；利用卷积神经网络识别噪声，可以随着时间推移或者数据量的增加，不断提高自身的准确率；同时本发明针对鸣笛的噪声源进行识别定位的性能良好，有助于提高抓获鸣笛违章的执法准确度，对提升执法效率及减少人力资源的浪费具有重大意义。

附图说明

图1是本发明提出的设计制作针对违法鸣笛车辆进行识别定位的麦克风阵列系统的基本流程示意图；

图2是卷积神经网络结构示意图；

图3是卷积运算示意图；

图4是遗传算法的基本流程图；

图5是本发明频响性能测试结果图；

图6是本发明幅值测试结果图；

图7是本发明幅值测试校准后的的结果图；

图8是本发明相位测试对比图；

图9是实际道路场景下麦克风阵列与声源的摆放位置图；

图10-1是本发明实际定位测试点1的MUSIC算法定位结果图；

图10-2是本发明实际定位测试点1的GIB算法定位结果图；

图10-3是本发明实际定位测试点1的WIGIB算法定位结果图；

图11-1是本发明实际定位测试点2的MUSIC算法定位结果图；

图11-2是本发明实际定位测试点2的GIB算法定位结果图；

图11-3是本发明实际定位测试点2的WIGIB算法定位结果图。

具体实施方式

卷积神经网络是全连接神经网络的一种扩展，其特点是局部连接、权值共享，卷积神经网络最为主要的计算方式是卷积运算，通过卷积计算可以进一步提取出数据的深层信息，并减少数据量，因而在图像处理领域能表现出优异的性能，卷积神经网络的计算过程类似于数据特征的重新提取并堆叠在一起，一个卷积神经网络的结构示意图如图2所示。

卷积神经网络将原始数据或经过一定方式提取出的特征作为输入量，通过各类滤波器实现逐层前向运算，其中包括卷积层、池化层以及激活函数等运算操作，经过这些步骤处理之后，可以使得卷积神经网络从原始的输入量中提取出其中包含的深层特征，卷积神经网络的隐藏层中，可以分为使用卷积核运算的卷积层、包含激励函数的激励层、按照一定池化规则工作的池化层、以及全连接层等结构。

损失函数是卷积神经网络预测值与真实值的误差，卷积神经网络的训练主要是通过迭代减小损失函数，通过反向传播，可以让损失函数向前反馈，从而更新整个神经网络的参数，因而循环这些步骤，可以实现损失函数值的最小化。

卷积是卷积神经网络中最为基础的操作，其作用是减少数据量，同时尽可能的保存数据原本的特征信息，若输入参数是如图3所示，输入数据为一个 5×5方形的矩阵，卷积核为一个3×3的矩阵，同时设置卷积运算步长的为1，即每次卷积运算完成后，向右移动一个步长，横向移动完成后，向下移动一个步长再从左端开始继续卷积，最终卷积后的数据将作为下一层的输入数据。

卷积运算的操作公式如下：

式中：卷积层的输出的

表示第l个卷积层的第k个特征图像；W_k表示l-1个卷积层的第k个特征图像；

表示第l个卷积层第i个特征图的第k个卷积核；

则是偏置项；f是激活函数；*则是卷积符号。对于所有输入的特征图，经过卷积操作之后都可以得到一定数量新特征图。而卷积层的卷积核数目则决定了新的特征图的数量。

池化层的作用是对特征实现进一步的合并，减少数据量，它的处理方式一般有两种池化方式，最大池化或者是平均池化方式，最大池化方式是直接选取该池化区域中的最大值，然后作为池化后的数据；平均池化方式则是将该池化区域的所有数据值累加，然后计算其平均值，将其作为池化后的数据，池化层可以实现对目标的进一步特征抽取，降低数据尺寸，减小计算量，从而便于后期的处理，池化层可以防止一定程度上的过拟合现象，经过卷积层后的数据，进入池化层，进行池化运算，从而使卷积后的特征图数据量进一步缩小，从而实现对于特征的压缩，可以提取出更为重要的特征，简化后续计算的复杂度。

池化层的一般形式如下：

式中：down()代表着池化操作；

是l层的第k个特征图；

与

是偏置项；如果将输入数据分割成n个的a×a区域，那输出数据的尺寸，将为输入数据尺寸的1/n。

通常情况下全连接层是卷积神经网络各种层级之间的最后一层，其主要作用是对之前几层神经网络学习到的特征将其映射到分类空间中，一般使用 Softmax回归算法，来实现将特征参数映射到不同的分类结果当中。

Softmax逻辑回归函数中输出参数输出y映射到类别j的概率为：

式中：θ代表全部的模型参数；x则是模型的输入参数。

被卷积的图像中每一小块的区域都会与某一个位置神经元相连接，这就是卷积神经网络的局部连接特性；任意位置的神经元会每次卷积固定的区域，这被叫做感受野；通过局部连接的特性，可以减少神经网络中的连接点数量，在神经网络工作时，可以实现一定的抗干扰作用，提高训练结果的可靠性。通过对输入参数的全局卷积，可以生成一个新的图像，该图像被称为原图像的特征图，其大小主要与卷积运算时的步长，和卷积核的大小有关。

为提高对麦克风阵列系统对目标方向的定位分辨能力，麦克风阵列方向图的主瓣宽度应设计的越窄越好；另外阵列方向图的旁瓣电平越低，则可以抑制其他方向的噪声干扰，

描述麦克风阵列主要性能的两个指标为主瓣宽度和最大旁瓣高度，二者越小，说明麦克风阵列主要性能越好，设目标函数为二者倒数之和，通过遗传算法，迭代训练出使得目标函数的函数值最大的麦克风阵列排布方式。

遗传算法主要包括随机生成种群、自然选择种群、种群样本之间相互交叉、随机产生种群变异等步骤，然后通过不断的迭代更新种群，一直到结果满足迭代停止的条件为止，遗传算法的基本流程图如图4所示。

在正方形区域中随机选取16个点与16个固定点，组成一组样本(x_i，y_i)，其中i＝1，2…，32，循环生成种群，直到获得N组不同的种群样本。平面区域内种群样本的横纵坐标范围为[-150，150]mm。由于随机生成的坐标点(x_i，y_i) 不是整数，考虑到实际电路大多数的加工精度为1mm，需要对随机生成的坐标按照下式所示取整。

式中

为向0取整，取整后，需要对所有坐标点位置进行检查，若出现重复坐标点，重新生成新的随机坐标，取整后再次检查，直到不存在重复的坐标点为止。

对于已生成的种群，需按照一定的规则，选取更为合适的样本，淘汰部分较差的种群，从而生成新的种群，轮盘赌博选择法是一种简单且有效的选择方法，将目标函数F作为该种群的适应度，从而使得目标函数越高的样本被选择到新种群的概率越大。

轮盘赌博选择法是一种按照比例随机选择的方法，个体被选择的概率与其自身的适应度成正比，该方法的具体操作步骤如下：

a)首先计算出群体中每个单独个体的适应度f(x_i)，(i＝l,2,…,N)，其中N 代表鉴个群体中的个体数量，而本文中的适应度定义为目标函数，N为种群样本的组数；

b)计算出每个种群被遇传到下一代样本中的概率P；

c)计算出每一个种群的累积概率q；

d)在[D，1]区间内产生M个均匀分布的伪随机数r_m，m＝l,2,…,N；

e)若r_m＜q₁，则选择种群1；若q_k-1＜r＜q_k，则选择种群k，重复M次选择M组种群进入新的样本；

考虑到目标函数F可能小于0，这样会影响基于轮盘赌博选择法的种群选择。

因此在实际使用时，若F<0，令其值为0，这样不会影响种群选择，也使得适应皮差的种群不会被选择进入新种群，而F越大，该样本进入新种群的可能性就越大，种群选取后，可以保存部分最优适应度的种群也进入下一个样本，这样可以保存最优基因，加快迭代成型速度.种群选择后，对于样本中的空余位置，按照种群生成的方法进行补充。

样本交叉式指从之前生成的样本之中选取成对的种群按照一定规则进行交叉，从而生成一组新的种群数据。随机选取X组种群成对进行样本交叉(X<N，且为偶数)，将每组样本中的16个随机坐标，选取k(k≤16)个坐标进行交叉运算。交叉运算的计算方式如下：

D₁＝αD⁽¹⁾+(1-α)D⁽²⁾

D₂＝(1-α)D⁽¹⁾+αD⁽²⁾

式中：D⁽¹⁾和D⁽²⁾是被选择出来用于交叉运算的两组种群坐标点，D₁和D₂是交又运算完成后生成的两组新的种群坐标点，α是(0，1)之间的生成的随机数，每两组交叉样本α的均不相同，且新生成的种群坐标D₁和D₂均不会超过划定的区域范围。但是由于α是随机数，所以新生成的坐标需要重新向0取整，并且检查样本是否存在重复坐标，若出现重复坐标则不替换原有坐标。

种群样本变异是为了避免整体样本过早趋于稳定，因而需要引入变异操作，首先设定一个较小的固定变异概率值P_b，每组种群的变异概率均相同；然后产生一个(0，1)之间随机数β，比较其与变异概率P_b的大小，若β<P_b，样本则发生变异，然后再麦克风阵列的区间范围内，随机生成一个坐标点W，再从变异种群中随机选取一个坐标点D，按照下式进行坐标变异运算，

D′＝βD+(1-β)DW

式中：D是重新生成的坐标点。对于该变异坐标点，先进行向0取整，再检查种群中是否存在重复坐标，若存在重复，则不发生该变异。

为了获取最优的实验结果，遗传算法的迭代停止规则一般设置为迭代次数，当迭代次数大于已经设置好的迭代次数最大值时，便停止迭代优化，而在一些情况下，新老样本之间种群越来越趋同，这时迭代的意义较小，因而可以通过设置两代样本之间的目标函数差来实现迭代停止操作。

对设计制作的麦克风阵列系统进行性能测试

麦克风阵列系统频响性能测试

将麦克风阵列直接应用在实际的环境中进行信号采集，在相同的环境下，让音响设备发出不同的频率信号进行测试，测试时，麦克风阵列的工作频率为 16KHz，其摆放位置固定，声源设备位置固定，声源响度为固定值，测试的频率范围为100Hz～8KHz。其中100Hz～500Hz每隔50Hz测五次；500Hz～1KHz每隔100Hz测五次；1KHz～8KHz每隔500Hz测五次，测试完成后对每个麦克风的频响实验测试结果进行分析，得测试结果图5，从图5中可看出，在测试频带 500～4K的范围内，本文选用的麦克风能够正常工作。

麦克风阵列幅值一致性测试

幅值一致性是指对同一个信号进行采样时表征每个通道间幅度值是否相等，幅值一致性差一般是由传声器不标准及电子元器件精度不够等因素引起的，本案需对连接传感器时的麦克风阵列进行幅值一致性测试。

测试时，将麦克风阵列垂直放置，声源与麦克风阵列中心位于同一水平面上，声源发出固定频率固定响度的声音，麦克风阵列信号采集系统对该声音进行采样，并对采样结果进行分析，麦克风阵列的幅值测试结果如图6所示。

从图6可看出，与参考通道相比，有的麦克风差异很小，但有的差异极大，因此需对含较大误差的麦克风通道进行补偿，对44路麦克风采集到的信号进行幅度校准，采用的方法是利用Hilbert变换求信号的包络，然后对包络信号求均值，将其作为采集到的信号的幅度值并进行归一化处理，利用归一化后的幅度值的倒数作为每路信号对应的幅度因子，从而实现校准，幅值校准后的的结果如图7所示，从图中可以看出麦克风阵列的幅值一致性得到了明显改善。

麦克风阵列相位一致性测试

麦克风阵列的相位是否一致也决定着其实际工作的性能，测试方法是将麦克风阵列严格垂直放置，同时声源音响放置于麦克风阵列的远场位置，且与麦克风阵列的中心处于同一高度，之后声源音响播放频率范围为500Hz～4KHz的正弦音频，麦克风阵列对该段音频信号进行采集分析。

以AI麦克风作为参照，麦克风阵列与其比较相位，二者的相位差对比如图8所示，从图中可以看出，麦克风通道之间的相位差在2°以内，但是其中有个别麦克风的相位差较大，产生这一问题的原因可能与麦克风同一批次的性能差别相关；也可能由于电路板过大导致数据线的走线长度差别过大有关，为减小该误差对后期定位算法的影响，实际使用最小二乘法或互相关估计法进行相位校正。

麦克风阵列系统实际定位测试与定位结果分析

在实际的道路场景下进行麦克风阵列定位实验，麦克风阵列的摆放位置与实际道路的间距状况如图9所示，其中图中的音响位置处，为音响轮流摆放进行测量的位置，道路间距为3.5m或3m，麦克风阵列的架设高度为2.5m，麦克风阵列的中心位置距地面高度约为2.65m，麦克风阵列的摆放角度应与地面垂直，分别使用MUSIC算法，广义逆波束形成(Generalized Inverse Beamforming，GIB) 算法，基于加权的改进广义逆波束形成(Weighted Improved Generalized Inverse Beamfonming，WIGIB)算法并进行定位，定位结果如图10-1到图10-3及11-1 到图11-3所示。

其中点1理论上的方位角为-18.4°，俯仰角为17.5°；点2理论上的方位角为-32°，俯仰角为25.2°；从MUSIC算法，GIB算法和WIGIB算法的麦克风阵列的实际定位结果中可以看出，通过校正后的麦克风阵列声源定位系统的定位误差在2°以内，可以实现良好的定位效果。

本发明的保护范围中现有技术部分并不局限于本申请文件所给出的实施例，所有不与本发明的方案相矛盾的现有技术，包括但不局限于在先专利文献、在先公开出版物，在先公开使用等等，都可纳入本发明的保护范围。

另外，还需要说明的是，本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式，本案所记载的所有技术特征可以以任何方式进行自由组合或结合，除非相互之间产生矛盾。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统，其特征在于，包括如下步骤：

步骤2、利用遗传算法，迭代训练出一个32元平面麦克风阵列和一个20元平面麦克风阵列；

2.根据权利要求1所述的针对违法鸣笛车辆进行识别定位的麦克风阵列系统，其特征在于，步骤1具体包括：

3.根据权利要求1所述的针对违法鸣笛车辆进行识别定位的麦克风阵列系统，其特征在于，步骤2具体包括：

将麦克风的设计主要分为两组，每一组均在一个长宽均为30cm的矩形面板上，设计一个外框为均匀方框阵，内部为随机排布的麦克风阵列，一组外框为16阵元相互间距为7.5cm，内部为16阵元随机分布的共计32元的麦克风阵列；另一组外框为8阵元相互间距为15cm，内部为12阵元随机分布的共计20元的麦克风阵列；描述麦克风阵列主要性能的两个指标为主瓣宽度和最大旁瓣高度，二者越小，说明麦克风阵列主要性能越好，设目标函数为二者倒数之和，通过遗传算法，迭代训练出使得目标函数的函数值最大的麦克风阵列排布方式。

4.根据权利要求1所述的针对违法鸣笛车辆进行识别定位的麦克风阵列系统，其特征在于，所述MEMS麦克风为基于微型机电系统制造的麦克风，简单的说就是一个电容器集成在微硅晶片上，容易与CMOS工艺及其它音频电路相集成,并具有改进的噪声消除性能与良好的射频功能及抑制电磁干扰的功能。

5.根据权利要求1所述的一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统，其特征在于，步骤3具体包括：

基于MEMS麦克风，综合步骤2中迭代训练出的32元平面麦克风阵列和20元平面麦克风阵列，集成制作出一个44元的麦克风阵列；并使用ZYNQ7Z035作为主控，实现音频数据的同步采集与数据打包传输；使用CY7C68013A的USB模块，实现USB数据的高速传输；并制作USB的上位机，实现了传输数据的保存以及音频解码。

6.根据权利要求1所述的一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统，其特征在于，步骤4具体包括：