CN112541533A

CN112541533A - 一种基于神经网络与特征融合的改装车识别方法

Info

Publication number: CN112541533A
Application number: CN202011417935.1A
Authority: CN
Inventors: 张燕凯; 章杰; 张朋
Original assignee: Fuyang Normal University
Current assignee: Fuyang Normal University
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-23

Abstract

本发明属于改装车识别技术领域，具体涉及一种基于神经网络与特征融合的改装车识别方法，包括以下步骤：步骤一，语音输入；步骤二，对输入语音进行预处理/取帧；步骤三，特征提取；步骤四，特征融合；步骤五，BP神经网络训练；步骤六，输出识别结果，将短时能量和帧与帧的动态信息一并融入MFCC中，形成的新特征提高了环境异常声音的识别，用bp神经网络对于这种复杂问题进行识别，轻量化了模型，使模型小型化，对输入样本做了剪裁以及归一化，在尽量保持bp神经元高敏感度的情况下，得到更高的准确率，使模型的训练在小样本的情况下可行，解决了，复杂问题识别对样本量的需求。

Description

一种基于神经网络与特征融合的改装车识别方法

技术领域

本发明属于改装车识别技术领域，具体涉及一种基于神经网络与特征融合的改装车识别方法。

背景技术

传统的声音识别方法首先对采集到的声音信号数据进行预处理，然后提取声音信号的特征参数，最后将特征参数输入分类器进行分类识别。在以往研究中，通常选择和提取的特征有Mel频率倒谱参数(Mel Frequency Cepstrum Coefficient，MFCC)、短时能量(Short-TermEnergy，STE)、线性预测倒谱系数(LinearPrediction CepstrumCoefficient，LPCC)过零率(Zero-Crossing Rate，ZCR)和自相关函数(AutocorrelationFunction，ACF)等，其中最常用的是MFCC。均提取MFCC特征参数作为异常声音信号特征。但是MFCC是根据人耳听觉特写那个和语音的发生贴点提出的，所以对改装车这种在复杂的交通环境下的环境声音事件，仍需要对特征提取深入研究。本发明从交通环境声音的特点出发在这里针对改装车这种异常声音，采用特征融合的方法将短时能量作为指标加入特征。并且引入升降器以及改进的的一阶和二阶差分的算法。

改装车的样本数据在实际路况的抓取中，样本量数据较少，对于提取后的特征使用DNN训练的话网络欠拟合，所以本发明采用改进的bp神经网络进行训练，为防止训练欠拟合，分别对正负样本进行截取，去除大量无用信息，同时引入dropout层，防止由于样本过少导致的欠拟合现象。

综上所述：本发明针对户外在声学环境复杂的情况下，对样本量较小的改装车声优化识别，提高了模型精度，以及泛化能力。

发明内容

针对现有技术中的问题，本发明的目的为了解决户外在声学环境复杂的情况下，对样本量较小的改装车声的识别，采用了改进的MFCC特征与bp算法，提供一种基于神经网络与特征融合的改装车识别方法。

为了实现上述目的，本发明采用以下技术方案予以实现：

一种基于神经网络与特征融合的改装车识别方法，包括以下步骤：

S1：信号获取，采用麦克风阵列对声音信号进行拾取，再将其转换成模拟信号以二进制txt格式储存；以方便数据读取与存储。

S2：样本预处理，将所得的txt文件转换成wav文件，与相应的视频文件结合，人工区分正负样本，并按时间节点将txt样本中无用信息截掉；尽量去除样本中的无用信息，以减少训练会带给神经网络的干扰。

S3：特征提取，将样本先分帧再分别计算每帧的MFCC，防止样本之间数据合并，对训练产生影响，再分别按每帧提取能量构成新的MFCC特征；

S4：特征融合：对整体采用补齐的方式进行差分，保护信息不被丢失；再将新构成的MFCC特征与得到的差分特征融合，最后归一化，将样本的训练集和验证集各帧MFCC参数进行归一化；以消除个别异常样本对于训练带来的影响，并且可以加快样本的收敛速度，提升训练效率。

S5：训练bp神经网络模型，由于样本量较小，本发明使用bp神经网络，为防止由于数据并行带来模型复杂程度上升，采用单帧输入，并建立，一层输入层，三层隐藏层，以及一层输出层的神经网络，并在最后一层的隐藏层后面加入dropout层以防止过拟合，用Adam法更新优化器取代原来的梯度下降法。

S6：使用训练好的模型，对于输入的样本进行识别，输出为两类，一类判断为改装车，另一类判别为非改装车。对于多个已知标签样本进行特征提取，并按训练集数据进行归一化，后输入模型判断，模型对每一帧都做了判别，然而实际情况，以及误识别的出现，本文对于时间的判别做了设定，需要在一个事件中出现14帧联合判别为改装车，才将时间判定为改装车，否则判定为非改装车，后使用测试集验证单帧识别准确率在87％左右。如果使用14帧联合的判别方法，准确率可以达到100％。

与现有技术相比，本发明具有以下技术效果：

利用声音的梅尔倒谱系数，将短时能量和时序信息整合到系统中；短时能量的特征融合提高了系统对异常声音注意力；通过BP神经网络算法对机器进行静态训练，进而令识别参数不断逼近最佳状态，提高识别率。在户外复杂环境中，对改装车声进行精准识别。

对于模型小型化，以及在样本量较少识别环境比较复杂的情况下提供了一种可行方法，克服了类似于DNN等对样本量有较高要求的条件，针对改装车等异常声音的识别提供了一种改进的MFCC特征。具体来说：

1)本发明将短时能量和帧与帧的动态信息一并融入MFCC中，形成的新特征提高了环境异常声音的识别

2)本发明用bp神经网络对于这种复杂问题进行识别，轻量化了模型，使模型小型化，对输入样本做了剪裁以及归一化，在尽量保持bp神经元高敏感度的情况下，得到更高的准确率，使模型的训练在小样本的情况下可行。解决了，复杂问题识别对样本量的需求

3)本发明针对最后事件的评估采用多帧联合的评估方式，提升了事件判别的准确率。

附图说明

图1为算法流程图；

图2为BP网络模型；

图3为特征融合算法流程图；

图4为实验改装车单帧准确率图；

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体附图，进一步阐明本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例1

S1信号采集：

由30路麦克风阵列采集30路音频信号，采样频率为32k，转成数字信号以二进制形式保存为txt文本格式，计算30路信号的均值，取方差最小的一路作为样本，消除由于硬件原因所带来的干扰。

S2样本的预处理：

S2-01预加重处理，声音信号因为其具有特殊性以及其传播过程中出现损耗，还造成低频段声音信号能量大，高频段声音信号的能量小，这回倒是低频信号和高频信号之间出现较大的能量差，也就是说低频的信噪比与高频的信噪比之间存在着较大的差距。因此我们要对高频信号进行加强，在工业上称之为预加重，其实现方式在原信号中加一个一阶高通滤波器，设n时刻的声音信号采样值为x(n)公式如下：其中a为预加重系数，本发明a取值为0.97。y(n)为预加重之后的声音采样值。

y(n)＝x(n)-ax(n-1)

S2-02信号分帧：对声音的分析实际上是一个“短时分析”过程，这是由于声音信号是时变的，但是在短时范围内特征变化较小，所以作为稳态来处理，但是超出这个短时范围语音信号就有变化了。所以当信号读入时将其分帧，为了保证其特征的连续性。采用重叠采样的方式，即在相邻两帧之间采集重叠部分。这里把分帧的长度称为“帧长”，后一帧对于前一帧的位移量就是“帧移”，本发明中采用帧长为1024个采样点，帧移为512个采样点。为了对原始信息的保留这里不进行加窗操作，这里信号y(n)经过分帧后变为y_i(m)，其中下标i表示分帧后的第i帧。

S3特征提取

S3-01 FFT傅里叶变换：对每一帧信号进行FFT变换，从时域数据转变为频域数据：

Y(i，k)＝FFT[y_i(m)]

S3-02计算能量谱线

对每一帧FFT后的数据计算谱线能量：

E(i，k)＝|Y(i，k)|²

S3-03计算短时能量

依据每帧的能量谱线计算短时能量

S3-04梅尔滤波器的设计

Mel频率倒谱系数的分析是基于人的听觉激励，即依据人的听觉实验结果来分析语音的频谱，期望能获得好的语音特性，由于人耳对不同的声波频率有着不同的敏感度，人耳感知的频率和实际的频率关系可以用下面的公式表示：

式中f_mel为感知频率，单位是Mel；为实际频率，单位是Hz。在语音的频谱范围设置若干带通滤波器H_m(k)，0≤m＜M，M为滤波器个数，每个滤波器具有三角滤波特性，其中心频率为f(m)，在Mel频率范围内，这些滤波器是等带宽的。每个带通滤波器的传递函数为：

f(m)可以用下面的方法加以定义：

式中f_l为滤波器频率范围的最低频率；f_h为滤波器的频率范围的最高频率；N为FFT的长度；f_s为采样频率；F_mel的逆函数

为

本发明选取滤波器个数为M＝26，依据香农采样定理，取f_l＝0，f_h＝f_s/2＝16000

S3-05计算通过Mel滤波器的能量

计算通过Mel滤波器的能量相当于把每帧的能量谱E(i，k)与Mel滤波器的频率响应H_m(k)相乘并相加：

S3-06计算DCT倒谱

倒谱计算把MEL滤波器的能量取对数后计算DCT：

式中S(i，m)为滤波器能量；m指第m个滤波器；i指第i帧；n是DCT之后的谱线

S3-07升降器

添加升降器有助于提升DCT后的高频系数，升降器公式

经过升降器的MFCC参数为：

mfccL(i，n)＝L·mfcc(i，n)

S4特征融合

mfccE(i，1)＝Eni

mfccE(i，(2，3，4…n))＝mfccL(i，(2，3，4…n))

S401差分的求取

一阶差分，本发明为了防止第一帧后最后一帧信息的丢失，第一帧和最一帧各自分别复制一帧插入到第一帧和最尾帧，这样新的帧数为i+2

二阶差分，与一阶差分类似，第一帧和最一帧各自分别复制两帧插入到第一帧和最尾帧，这样新的帧数为i+4

最后将mfccE(i，n)，Δd(i，n)₁，Δd(i，n)₂三者特征列并列融合得到新的₃₉维的特征Fe(i，d)，这里i表示第i帧，d为特征维度

S402数据归一化的处理

将训练集数据归一化，有利于消除异常样本，并加速模型收敛

S5bp神经网络的训练：

S5-01本发明选用的激活函数为rule激活函数，其特点是克服梯度消失的问题并且加快训练速度，并且给定学习率为0.00005，与迭代步数为7600

激活函数的公式为

S5-02：给定第一层为输入层共有39个节点，节点数等于特征数；第二层为隐藏层共有78个节点，节点数等于特征数的两倍，初始化权重和阈值(只在第一次的时候执行)，选取Fe_minmax作为样本输入神经网络，从第一层到第二层的过程中其传播公式为

公式中的

为第一层第i个节点到第二层第j个节点权重，

为第一层到第二层第j个节点的阈值

S5-03第三层为隐藏层共有39个节点，初始化权重和阈值(只在第一次的时候执行)第二层到第三层的传播公式为

公式中的

为第二层第i个节点到第三层第j个节点权重，

为第二层到第三层第j个节点的阈值的阈值

S5-04第四层为隐藏层共有19个节点，初始化权重和阈值(只在第一次的时候执行)第三层到第四层的传播公式为

公式中的

为第二层第i个节点到第三层第j个节点权重，

为第二层到第三层第j个节点的阈值的阈值

S5-05第五层为隐藏层共有2个节点，这层不再加激活函数，初始化权重和阈值(只在第一次的时候执行)第四层到第五层的传播公式为

公式中的

为第二层第i个节点到第三层第j个节点权重，

为第二层到第三层第j个节点的阈值的阈值

S5-06Softmax层：又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。以L4为其输入，其公式为

公式中j为第j类，L4(j)为第j类的网络输出，预测的标签结果就是softmax中概率值最大的一类

S5-07本发明选取交叉熵作为损失函数，交叉熵可在神经网络(机器学习)中作为损失函数，假设p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。交叉熵的计算公式

公式中P(j)表示样本在j类上的真实预测

S5-08优化器的选择：

本发明选用Adam优化器对权重和阈值进行迭代，Adam优化器具有

(1)计算高效率

(2)梯度平滑、稳定的过渡，可以适应不稳定的目标函数

(3)调参相对简单，默认参数就可以处理绝大部分的问题

Adam优化器的公式为

m_t＝β₁m_t-1+(1-β₁)g_t

公式中t表示此时刻，m_t和υ_t分别为一阶动量项和二阶动量项。β₁，β₂为动力值大小(通常分别取0.9和0.999)；

分别为各自的修正值。w_t表示t时刻即第t迭代模型的参数；g_t表示t次迭代代价函数关于权重的梯度大小；∈是一个取值很小的数(一般为1e-8，为了避免分母为0)；

优化过程公式：

而后将得到的g_t带入Adam优化器，完成神经网络的反向传播。迭代更新权值

S509判断算法迭代是否结束，若没有结束，返回步骤S502。

算法迭代完成后，即得到所建改装车识别系统的模型。训练完成后，用测试测试样本对所建模型进行验证，验证该模型的准确性。实验证明该模型具有评估精度较高。在输入特征为MFCC，MFCC+能量，以及最后融合特征的情况下该模型相比于传统的BP都增加2％-3％的准确率，另一方面在相同的模型情况下，融合特征相比于传统MFCC在改装车的识别上有着更大优势，最后在融合特征以及改进BP算法下，对与改装车的单帧识别率提升了17％。

以上显示和描述了本发明的基本原理、主要特征和本发明的特点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于神经网络与特征融合的改装车识别方法，其特征在于，包括以下步骤：

步骤一，语音输入；

步骤二，对输入语音进行预处理/取帧；

步骤三，特征提取；

步骤四，特征融合；

步骤五，BP神经网络训练；

步骤六，输出识别结果。

2.根据权利要求1所述的基于神经网络与特征融合的改装车识别方法，其特征在于：所述步骤三特征提取具体包括：语音输入即把语音输入设备采集的语音进行原始输入，通过上位机将未知声音转化为模拟信号输入识别系统，进行预处理；预处理包括采样语音信号、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响，并且每隔一定时间间隔取出部分信号处理，确定帧的尺寸以及计算重叠率；根据取帧划分的语音信号的每帧中提取出梅尔倒谱系数以及短时能量，并计算声音帧与帧之间的动态信息。

3.根据权利要求1所述的基于神经网络与特征融合的改装车识别方法，其特征在于：所述步骤四特征融合算法；特征融合算法包括：将梅尔倒谱系数的第一维替换为短时能量，为了获取帧与帧间的动态信息，这里采用复制补帧的方法计算差分，保护第一帧和最后一帧的差分信息不丢失。

4.根据权利要求1所述的基于神经网络与特征融合的改装车识别方法，其特征在于：所述步骤五BP神经网络训练包括：采用输入层、三层隐藏层、dropout层、输出层五层结构作为改装车识别的框架；输入神经元的数量＝特征数量；隐藏层1神经元数量＝特征数量*2；隐藏层2神经元数量＝特征数量；隐藏层3神经元数量＝特征数量//2；输出神经元数量＝2；采用softmax进行二分类，并且引入dropout层，使用Adam算法作为优化器。