CN114420161A

CN114420161A - 一种基于音频特征的工程车辆工况识别方法

Info

Publication number: CN114420161A
Application number: CN202111615063.4A
Authority: CN
Inventors: 刘文才; 刘峰; 张庆铭; 毛永涛; 毛青; 姚凯学; 刘光林
Original assignee: Guizhou Yingli Intelligent Control System Co ltd
Current assignee: Guizhou Yingli Intelligent Control System Co ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-29

Abstract

本发明公开了一种基于音频特征的工程车辆工况识别方法，包括：A.采集工程车辆在已知工况下的音频数据作为样本数据；B.对样本数据进行预处理和特征提取，得到样本特征矩阵；C.将样本特征矩阵输入神经网络模型进行训练；D.将未知工况的音频数据进行预处理和特征提取，输入训练好的神经网络模型进行工况识别。本发明公开了音频特征及特征提取的方法与步骤，提出了一种基于神经网络的工程车辆的工作状态的识别办法，可根据当前车辆发出的噪音实时辨识出工程车辆的工况，有效提高工程车辆的使用效率，节约企业成本。

Description

一种基于音频特征的工程车辆工况识别方法

技术领域

本发明涉及计算机领域，具体涉及一种利用计算机学习算法对音频数据进行判断得到工况的方法。

背景技术

随着建筑施工行业对信息化建设探索的不断深入，信息化也越来越趋向于具体工程项目的落地应用，越来越多的技术被应用于工程项目管理中。在工程项目管理中，项目成本控制是项目施工管理的核心内容，施工阶段是工程项目成本费用发生的最主要的阶段，对企业利润率有着最直接最关键的影响，施工阶段的成本构成主要包含：人工费、材料费、工程机械使用费和其它费用几个方面。其中，工程机械的使用主要是工程车辆，准确的识别工程车辆工作状态，是工程项目管理中工时计算的重要依据，有助于工程车辆调度和工程人员管理，是成本管理的关键，对工程项目管理研究具有重要意义。

工程车辆传统管理流程主要由人工交接记录，申请全部采用人工纸质申请，效率低下且容易出错。随着信息技术的发展，工程车辆正朝着智能化、网络化的方向发展，目前主流的工程车辆管理是使用GPS/北斗等定位技术、GPRS/4G等通信技术等多种智能技术相结合，通过构建工程车辆智能管理系统^[3]，实现工程车辆的实现车辆利用率提升。工程车辆在施工作业中依然存在部分作业人员在无人监管的环境下，将工程车辆长期处于怠速工况，并不进行施工作业，不但造成柴油的浪费，还降低工程车辆的使用效率。目前主流的智能管理系统并不能有效识别和管理这个问题，如何有效的识别工程车辆的工作状况，成了工程车辆管理的关键技术。

由于工程车辆在作业时会产生的音频信号，且其音频信号主要由发动机等部件产生，通过不同的音频信号可以识别出车辆的不同状态，工程车辆在怠速和作业等不同工况下音频信号有不同的表现，因此可以使用音频信号进行区分。

发明内容

本发明所要解决的技术问题是：针对目前工程车辆管理需要人工进行监管的问题，提供了一种可以自动识别工程车当前工况的方法。

本发明的技术方案为：

一种基于音频特征的工程车辆工况识别方法，包括：

A.采集工程车辆在已知工况下的音频数据作为样本数据；

B.对样本数据进行预处理和特征提取，得到样本特征矩阵；

C.将样本特征矩阵输入神经网络模型进行训练；

D.将未知工况的音频数据进行预处理和特征提取，输入训练好的神经网络模型进行工况识别。

步骤A中：采集不同种类工程车辆在不同工况下的音频数据，以工程车的种类和工况作为数据标签；将音频采集设备安装在车辆的驾驶室内进行数据采集。

步骤B中：音频信号的预处理包括预加重、分帧和加窗，采用MFCC特征提取。 MFCC特征提取的步骤为：(1)对预处理好的信号逐帧进行离散傅里叶变换，得到线性频谱S_i(k)；(2)将能量通过一组Mel尺度的三角形的带通滤波器组，将线性频谱转化为Mel 频谱；(3)计算每个滤波器组输出的取对数能量；(4)利用离散余弦变换即可求得倒谱系数，经过一个傅里叶变换的逆变换运算，即可得到MFCC的系数。

步骤C中：采用LSTM神经网络或GRU神经网络对数据进行建模。

步骤A中：采用短时平均幅值和短时平均过零率相结合的方法对音频信号进行端点检测。计算短时平均过零率时引入门限T，将过零率的函数定义为跨过正负门限的次数。

步骤A中：音频数据的采样频率为2048Hz。选用Hamming窗来对信号进行分帧，时域连续的Hamming窗表达式为

式中，N为窗的宽度，窗口的宽度最少需要40ms。

在工程车上安装音频采集设备，将实时音频数据输入训练好的神经网络模型得到当前工程车的工作状态。

本发明的有益效果是：

本发明公开了音频特征及特征提取的方法与步骤，提出了一种基于神经网络的工程车辆的工作状态的识别办法，可根据当前车辆发出的噪音实时辨识出工程车辆的工况，有效提高工程车辆的使用效率，节约企业成本。

附图说明：

图1表示短时过零率定义为跨过正负门限的次数。

图2表示不同计算方法(是否引入门限T)下的过零率对比。

图3是短时能量和短时平均幅值对比图。

图4是不同工程车辆在不同工况下的频率分布。

图5是音频特征提取过程示意图。

图6是频率与mel频率的关系。

图7是MFCC计算流程框图。

图8是计算mel倒谱的三角滤波器。

图9是LSTM网络结构图。

图10是GRU网络结构图。

图11是两种网络的损失函数训练曲线。

图12是两种网络的评价指标变化曲线。

具体实施方式

实施例1：

基于音频特征的工程车辆工况识别方法，包括：

A.采集工程车辆在已知工况下的音频数据作为样本数据；采集不同种类工程车辆在不同工况下的音频数据，以工程车的种类和工况作为数据标签；

B.对样本数据进行预处理和特征提取，得到样本特征矩阵；

C.将样本特征矩阵输入神经网络模型进行训练；

步骤C中：采用LSTM神经网络或GRU神经网络对数据进行建模。

式中，N为窗的宽度，窗口的宽度最少需要40ms。

将音频采集设备安装在车辆的驾驶室内进行数据采集，将实时音频数据输入训练好的神经网络模型得到当前工程车的工作状态。

实施例2：包括信号采集、特征提取和工况识别三个部分

1.信号采集：

声信号在传播过程中,由于各种因素的影响，会导致信号幅度随传播距离的增加而降低，因此拾音传感器的安装位置与采集数据的精确度息息相关，通常被检测的目标设备与传感器的距离越小，数据采集的质量越好。驾驶室具有噪声小，距离发动机近等特点，因此本文将采集设备固定安装于车辆的驾驶室内进行数据采集。在车辆的音频信息采集中，端点检测作为采集过程的最前端，需要在采集设备本地完成，端点检测(VoiceActivity Detection，VAD)是指在一段音频信号中，准确的确定音频的起始点和终止点，用于检测音频信号区和非音频信号区。本文采用短时平均幅值和短时平均过零率相结合的方法进行端点检测。

1.1短时平均过零率

信号过零率指通过零值，相邻取样值改变符号即过零，过零数是样本改变符号的数量。信号x(n)的短时过零率定义为

其中Z_n表示信号的过零率，w(n)是窗函数(下同)，sgn[·]是符号函数。工程车辆的工作环境中，容易受到噪声的严重，按公式1计算得到的过零率会因噪声干扰而产生虚假过零率。为了解决这个问题，在计算过零次数时引入门限T，如图1所示，将过零率的函数定义为跨过正负门限的次数，如图1所示。

加入门限的短时过零率计算公式定义为：

按照式2计算的短时平均过零率具有一定的抗干扰能力，即使存在噪声，只要不超过门限阈值，就不会产生虚假过零率。通过统计车辆工作环境的噪声信号，使用统计方法计算门限的阈值T，两种不同方法计算的过零率如图2所示。

1.2短时能量和短时平均幅值

在信噪比较大的语音信号中，语音和噪声的区别在能量上有很好的体现，即语音段的能量比噪声段的能量大，信号x(n)的短时能量定义为：

信号的能量是对信号进行的平方运算，不但增大了高低信号之间的差距，而且增大了设备的计算量，短时平均幅值简化了计算过程，有效地节省计算资源，信号x(n)的短时能量定义为：

短时平均幅度和短时能量虽然特性不同，但是都能反映信号的强度，对于同一个音频信号，短时平均与短时平均振幅对比如图3所示。从图3不难看出，使用短时平均幅值和短时能量的识别效果相近，因此可以用短时平均幅值替代短时能量用于端点检测。

此外，信号的采样频率也会影响到采集信号的质量，采样频率过高，单位时间内的数据量会增加，导致设备的计算量增加，但是采样频率过低会丢失大量数据，使信号失真严重。根据香农采样定理，为了不失真地恢复模拟信号，采样频率应该不小于模拟信号频谱中最高频率的2倍。本文对四种工程车辆在不同环境下的音频信号进行快速傅里叶变换，得到各工程车辆在不同工况下的频谱如图4所示。从图4中不难看出，压路机因为质量大，在怠速工况和下频率分布比较单一，其他三种工程车辆的频率分布也比较稳定；四种工程车辆在怠速工况和运行工况下的最大频率都在1000Hz以内。在保证采集的信号不失真的前提下，为了尽可能的降低采集功耗，本文使用2048Hz的采样频率对音频信号进行采样。

2.特征提取：

在任何数据分析过程中，特征构建都是应用数据学习算法之前的关键阶段，因此在使用音频信号时，需要提取它的音频特征,音频特征是指从音频信号中提取出的最明显的特征。声学模型一般不能直接对音频原始的数据进行处理，这就需要把原始的音频信息通过有效的方法提取成为特征系列，这些特征系列来自于幅度、相位、频率以及其他各个维度的相关性提取。并且为了建立鲁棒性系统，所有这些音频区域都需要非常精确的参数化。

音频特征提取技术的发展历程中，人们研究了很多表示音频的特征参数，如临界带特征矢量、线谱对(Linear Spectrum Pair)、线性预测系数(Linear PredictionCoefficient)、 Mel倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)。MFCC特征是目前使用最广泛的语音特征之一,具有计算简单、区分能力好等突出优点,因而常常成为许多实际识别系统的首选。音频信号特征提取过程示意图如图5所示，主要有以下过程：原始信号输入、分帧、滤波、端点检测，特征提取，最终获得特征矩阵。

2.1信号预处理

音频信号是不断变化的非平稳信号，除了有效信息外还存在大量噪声干扰，因此在提取特征参数之前，信号必须经过信号预处理，音频信号的预处理包括预加重、分帧、加窗。

为了增加音频的高频分辨率，在音频信号特征提取前需要进行预加重，一般通过一阶高通数字滤波器来实现预加重，其传递函数为：

H(z)＝1-az^(-1) (5)

其中α为预加重系数，取值范围是0.9＜α＜1.0，通常取值0.97，若t时刻的音频信号采样值为x(t)，则经过预加重之后的结果y(t)可表示为y(t)＝x(t)-ax(t-1)。

音频信号具有短时平稳的特性，经过分帧操作之后的音频信号可以有效体现该特性，可以截取其有限的时间片段进行周期延拓后分析。在信号截断中，信号在截断处会发生跳变，导致能量泄露，能量泄露又分为主瓣泄露和旁瓣泄露，主瓣泄露可以有效的减少栅栏效应带来的谱峰幅值估计误差，但是旁瓣泄露是完全无益的。为了抑制旁瓣泄漏，可采用不同的信号截断函数对信号进行截断，截断函数称为窗函数，常见的窗函数有矩形窗、汉宁窗、海明窗和布莱克曼窗等。

在使用窗函数时，应遵循两个基本原则：一是窗函数频谱的主瓣尽可能窄，使能量尽可能集中于主瓣内；二是旁瓣尽可能小且随频率快速衰减，从而减小谱估计时泄失真。经过对车辆音频信号的多次实验分析，选用Hamming窗来对信号进行分帧，Hamming窗是一种改进的升余弦窗，因为加权系数不同，使得旁瓣达到更小，时域连续的Hamming窗表达式为

式中，N为窗的宽度。为了使帧与帧之间平滑过渡，采用交叠分段的方法进行分帧，前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0～0.5。从前文中我们知道，虽然几种工程车辆在不同的工况下产生的信号频率分布不同，但是最大频率主要分布于 50Hz-700Hz，即周期信号中的1.5ms-20ms。傅里叶变换需要重复足够多的次数才能更好的分析频率特性，因此每帧数据至少取40ms，即窗口的宽度最少需要40ms。

经过加窗分帧处理后的每一个短时语音帧都可以视作平稳信号分析，可以进一步提取其音频特征。

2.2 MFCC特征提取

人的听觉系统是非线性系统，对于不同频率音频信号的响应灵敏度是不同的，MFCC主要是模拟人耳对不同频率音频信号的感知特性。通常可以近似的表示为公式 7，

mel频率与频率的关系如图6所示。曲线的斜率随着频率的升高而逐渐变小，这也说明人耳对低频音频信号的感知更敏感，在Mel频域内，人对音调的感知度为线性关系，Mel倒谱系数提取的流程框图如图7所示。

提取MFCC的步骤如下：

(1)对预处理好的信号逐帧进行离散傅里叶变换，得到线性频谱S_i(k)，计算公式为：

其中，k是离散傅里叶变换的长度，s_i(n)为已经预处理的时域信号帧，其离散功率谱可以由频谱取模平方得到，计算公式为：

(2)将能量通过一组Mel尺度的三角形的带通滤波器组，将线性频谱转化为Mel频谱。具体实现是在音频的频谱范围内设置若干带通滤波器H_m(k)，1≤m≤M，M为滤波器的个数，每个滤波器具有三角滤波特性，其中心频率为f(m)，1≤m≤M。如图8所示，在线性频率上，随着m值增大，f(m)之间的距离也随之增宽。在Mel频率范围内，这些滤波器是等带宽的，每个带通滤波器的传递函数见式10。

其中f(m)可以用定义为：

其中，f_l为滤波器频率范围的最低频率，f_h为滤波器频率范围的最高频率，N为DFT时的帧长，f_s为采样频率，f_mel是mel频率。

(3)为了提高识别系统的鲁棒性，需要计算每个滤波器组输出的取对数能量，从线性频谱X(m)到对数频谱S(m)的传递函数为：

(4)利用离散余弦变换即可求得倒谱系数，对数频谱。经过一个傅里叶变换的逆变换运算，即可得到MFCC的系数。

MFCC特征向量仅描述单帧的功率谱包络，很好的反映了音频信号的静态特性，但是音频信号随时间不断变化，具有动态特性。音频的动态特性可以用静态特性的差分来表示，常见的MFCC差分有一阶差分(Deltas,ΔMFCC)、二阶差分(Delta-Deltas,ΔΔMFCC)，可以使用公式12来计算差分系数。

其中，d(t)是第t个一阶差分倒谱系数，N是时间差，一般取值为1或2，C_t是第t个倒谱系数。在参数选取时，并不是选取所有维度的MFCC系数，一般采用舍弃前、后若干维 MFCC系数的方法，来获取最终的MFCC系数。

本研究使用式5对数据样本进行预加重，其中α＝0.98；采样汉明窗对数据进行加窗和分帧，其中帧长取256点，帧移取128点。使用上文提到的算法逐帧计算样本的音频特征，分别计算得到短时平均振幅、短时门限过零率、MFCC、ΔMFCC以及ΔΔMFCC。在计算MFCC系数时，采用的阶数为13，其倒谱系数是C₀～C₁₂，其中第一维C₀值很大，故在取 MFCC系数时，把C₀称为能量系数去掉，取C₁～C₁₂共12维作为MFCC系数。

3.工况识别：

3.1循环神经网络

RNN神经网络将时序的概念引入到网络结构设计中，使其在时序数据分析中表现出更强的适应性，RNN神经网络能够有效地处理时间序列，但是随着时间滞后的增加，RNN神经网络就像一个非常深的前馈神经网络，训练过程中会带来梯度消失和梯度爆炸。为了解决这个问题，Hochreiter和Schmidhuber提出了长期短期记忆神经网络(Long Short-termMemory, LSTM)，LSTM神经网络是将隐藏层的RNN细胞替换为LSTM细胞，使其具有长期记忆能力，LSTM神经网络被广泛应用于时间序列预测问题中。LSTM神经网络结构图如图9所示，LSTM神经网络输入门、遗忘门和输出门来控制网络的输入值、记忆值和输出值。此外，LSTM神经网络演化出了很多变体，其中最成功的一种是KyungHyun Cho在2014年提出的门限循环单元(Gated Recurrent Unit,GRU)。GRU神经网络结构图如图10所示，GRU神经网络是LSTM神经网络的简化版本，其主要变动是将LSTM细胞中的输入门、遗忘门、输出门替换为更新门和重置门，但是保留了LSTM神经网络的长期记忆能力。在实际应用中，GRU神经网络与LSTM神经网络具有很强的可比性，因为GRU神经网络极大的简化了计算过程，所以在使用GRU神经网络也能取得良好的效果时，优先使用GRU神经网络。

3.2对比试验：

实验分别采用LSTM神经网络和GRU神经网络对数据进行建模，数据样本为压路机、装载机等四种工程车辆在信噪比不同的环境下采集而来，每种车辆分别做停止、怠速和正常作业三种工况。使用前文提到的方法提取特征矩阵后，将特征矩阵以每2秒为时间步长输入到神经网络中训练，网络的损失函数采用交叉熵损失函数，评价指标为分类准确度,训练的学习曲线如图11-12所示。

从图可知，在训练过程中，两种模型的收敛速度都很快，都能快速达到所需误差精度。随着训练次数的增加，GRU神经网络模型的分类准确度比LSTM神经网络模型更稳定性。

5.2.1实验1模型对比实验

为了对比两种模型识别车况的准确率，使用信噪比不同的测试集分别输入LSTM神经网络模型和GRU神经网络模型测试，识别效果如下表表所示。

表2 LSTM模型与GRU模型识别效果

从上表的数据可以看出，两种模型在测试集上都有良好的表现，都具有不错的抗干扰能力，LSTM神经网络模型虽然有更好的表现，但是跟GRU神经网络模型相比差距很小，因此本文采用GRU神经网络模型对车况进行识别。

3.2.1实验2特征矩阵对比实验

实验1使用短时平均振幅、短时门限过零率、MFCC、ΔMFCC以及ΔΔMFCC等38维向量作为模型输入的特征，使得模型输入维度大，模型训练时间长，增大设备功耗。为了对比不同特征对识别效果的影响，从而舍弃部分冗余的特征，采用GRU神经网络模型对不同的特征进行模型训练，使用不同的车型进行测试的识别效果如表所示。

表3不同音频特征的识别正确率

本实施例详细介绍了音频特征及特征提取的方法与步骤，提出了一种基于GRU循环神经网络的工程车辆的工作状态的识别办法，可实时辨识出工程车辆的工况，有效提高工程车辆的使用效率，节约企业成本。实施例中先使用LSTM神经网络和GRU神经网络进行建模，对MFCC、ΔMFCC以及ΔΔMFCC等38维特征参数进行训练。实验结果表明，在训练过程中，LSTM模型更快收敛，但是随着训练次数的增加，GRU模型与LSTM模型没有显著差异；在识别过程中，两种模型都能达到预期效果。文中还对不同特征训练出的GRU 模型进行对比，实验结果表明，仅使用MFCC作为特征集训练的GRU模型，对部分车型识别效果不理想，无法达到要求；使用MFCC和ΔMFCC组成的特征集与全部特征集训练的 GRU模型识别效果没有显著性差异，对不同车辆的工作状态识别中，都有很好的准确度。

Claims

1.一种基于音频特征的工程车辆工况识别方法，其特征在于包括：

A.采集工程车辆在已知工况下的音频数据作为样本数据；

B.对样本数据进行预处理和特征提取，得到样本特征矩阵；

C.将样本特征矩阵输入神经网络模型进行训练；

2.根据权利要求1所述基于音频特征的工程车辆工况识别方法，其特征在于步骤A：采集不同种类工程车辆在不同工况下的音频数据，以工程车的种类和工况作为数据标签；将音频采集设备安装在车辆的驾驶室内进行数据采集。

3.根据权利要求1所述基于音频特征的工程车辆工况识别方法，其特征在于步骤B：音频信号的预处理包括预加重、分帧和加窗，采用三角滤波器提取MFCC特征矩阵。

4.根据权利要求3所述基于音频特征的工程车辆工况识别方法，其特征在于MFCC特征提取的步骤为：(1)对预处理好的信号逐帧进行离散傅里叶变换，得到线性频谱S_i(k)；(2)将能量通过一组Mel尺度的三角形的带通滤波器组，将线性频谱转化为Mel频谱；(3)计算每个滤波器组输出的取对数能量；(4)利用离散余弦变换即可求得倒谱系数，经过一个傅里叶变换的逆变换运算，即可得到MFCC的系数。

5.根据权利要求1所述基于音频特征的工程车辆工况识别方法，其特征在于步骤C：采用LSTM神经网络或GRU神经网络对数据进行建模。

6.根据权利要求2所述基于音频特征的工程车辆工况识别方法，其特征在于步骤A：采用短时平均幅值和短时平均过零率相结合的方法对音频信号进行端点检测。

7.根据权利要求6所述基于音频特征的工程车辆工况识别方法，其特征在于：计算短时平均过零率时引入门限T，将过零率的函数定义为跨过正负门限的次数。

8.根据权利要求2所述基于音频特征的工程车辆工况识别方法，其特征在于步骤A：音频数据的采样频率为2048Hz。

9.根据权利要求3所述基于音频特征的工程车辆工况识别方法，其特征在于：选用Hamming窗来对信号进行分帧，时域连续的Hamming窗表达式为

式中，N为窗的宽度，窗口的宽度最少需要40ms。

10.根据权利要求1-9任一项所述的工程车辆工况识别方法，其特征在于：在工程车上安装音频采集设备，将实时音频数据输入训练好的神经网络模型得到当前工程车的工作状态。