CN106992011A

CN106992011A - 基于mf‑plpcc特征的工程机械声音识别方法

Info

Publication number: CN106992011A
Application number: CN201710060595.3A
Authority: CN
Inventors: 曹九稳; 曹敏; 王建中
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2017-01-25
Filing date: 2017-01-25
Publication date: 2017-07-28

Abstract

本发明公开了一种基于MF‑PLPCC特征对工程机械声音识别方法。该方法实现过程如下：采集工程机械作业时候的声音和周围环境噪声，并将采集的声音信号建立声音样本库；对所有的声音信号进行预加重、分帧和加窗处理；求出每帧声音信号的短时能量谱；求出通过Mel三角滤波器组的短时能量；用立方根对短时能量进行强度‑响度转换；对转换后的信号采用傅里叶逆变换转换到时域中；求出时域中信号的线性预测系数；基于线性预测系数计算倒谱系数；对不同机械的声音特征进行标号，建立样本特征库；基于训练样本特征库，利用正则化极限学习机建立模型；对目标声音进行特征提取后匹配得出分类结果。本发明能够提高识别率。

Description

基于MF-PLPCC特征的工程机械声音识别方法

技术领域

本发明是属于声音识别技术领域，涉及到基于声音的梅尔感知线性预测倒谱系数(MF-PLPCC)对工程机械的识别方法。

背景技术

随着我国经济的快速发展，基础设施建设也在加快，而在基础设施建设的工程施工过程中工程机械早已取代了大部分的体力劳动。在高速公路、机场铁路建设、水利设施、城市改造等工地，我们都可以看到挖掘机、推土机等工程机械。然而在施工过程中，监管不到位，从而导致工程机械出现瞎施工、乱施工、重复施工等乱象，浪费国家资源的同时也增加了工程成本。由于监管不到位而出现的这些乱象，本发明提出了一种识别方法对工程机械的识别，从而实现了对工程机械的监控。

基于声音的工程机械的识别方法有多种，例如：线性预测倒谱系数 (LPCC)、感知线性预测倒谱系数(PLPCC)、梅尔倒谱系数(MFCC)结合分类器等识别方法。这些方法在近距离或者信噪比高的情况下能够反映声音的大部分信息，对工程机械的识别率可能很高，但是在远距离或者信噪比低的情况下提取工程机械声音的特征量较少，从而降低了识别率。

发明内容

针对目前存在如上所述的技术问题，本发明提供了一种基于 MF-PLPCC特征对工程机械声音识别方法。这种识别方法是基于Mel频率、听感强度和线性预测倒谱系数的混合特征，通过RELM实现对工程机械的识别分类。该方法能够更好地模拟人的听觉系统，在远距离或者信噪比低的情况下，能够提取工程机械声音的特征量比传统方法较多，使得识别率有所提高。

为了实现上述目的，本发明采取的技术方案包括以下步骤：

步骤1、采集工程机械作业时候的声音和周围环境噪声，并将采集的声音信号建立声音样本库；

步骤2、对声音样本库中所有的声音信号进行预加重、分帧和加窗处理；

步骤3、求出经过步骤2处理后的每帧声音信号的短时能量谱；

步骤4、基于短时能量谱求出通过Mel三角滤波器组的短时能量；

步骤5、用立方根对短时能量进行强度-响度转换；

步骤6、对转换后的信号采用傅里叶逆变换转换到时域中；

步骤7、求出时域中信号的线性预测系数；

步骤8、基于线性预测系数计算倒谱系数，即所求的声音特征；

步骤9、对不同机械的声音特征进行标号，建立样本特征库；

步骤10、基于训练样本特征库，利用正则化极限学习机建立模型；

步骤11、重复步骤1-步骤8，对目标声音进行MF-PLPCC特征提取；

步骤12、利用正则化极限学习机对提取的目标声音特征和步骤10 建立的模型进行匹配，然后得出分类结果；

步骤13、根据分类结果，判断目标声音是哪种机械在作业或者是周围噪。

所述的步骤2对采集的声音信号作预加重，具体的：设声音信号为 x(n)，采样率为f_s，预加重处理后的信号为x(n)＝x(n)-k*x(n-1)，其中k为预加重系数，kk介于0.9～1之间；然后对预加重后的信号做分帧和加窗处理。

所述的步骤3求出每帧声音信号的短时能量谱，具体如下：

将经过步骤2处理得到的声音信号做短时傅里叶变换，然后根据频谱求出短时能量谱，设第i帧信号为s_i(n)，对该帧信号作短时傅里叶变换得到X_i(k)，通过计算得到短时能量谱为P_i(k)

P_i(k)＝Re[X_i(k)]²+IM[x_i(K)]²

所述的步骤4基于短时能量谱求出通过Mel三角滤波器组的短时能量，具体的：

将短时能量谱通过一组Mel尺度的三角滤波器组，得到Mel频谱的短时能量S_i(m)。定义三角滤波器组的中心频率为f(m),m＝1,2,…M，其中M为滤波器的个数，各个中心频率f(m)之间的间隔随着mm值的增大而增宽。

所述的步骤5用立方根对短时能量进行强度-响度转换，具体如下：

为了更好的模拟声音的强度和人耳所感受到响度间的非线性关系，用立方根幅度压缩进行强度-响度转换。

θ_i(m)＝S_i(m)^1/3

式中，θ_i(m)表示的是经过强度-响度转换后的第i帧信号。

所述的步骤6对转换后的信号采用傅里叶逆变换转换到时域中，具体的将步骤5得到的转换后的信号经过傅里叶逆变换转化到时域中

y_i(n)＝IFFT(θ_i(m))

式中，y_i(n)是θ_i(m)经过傅里叶逆变换转到时域的第i帧信号。

所述的步骤7求出时域中信号的线性预测系数，具体的：

一个声音的采样能够用过去若干个声音采样的线性组合来逼近。通过使线性预测到的采样在最小均方误差意义上逼近实际声音采样，能够求取一组唯一的线性预测系数。所述的线性预测系数就是线性组合中所用的加权系数。如公式所示：

y(n)≈a₁y(n-1)+a₂y(n-2)+…+a_py(n-p)

其中，a₁,a₂,…,a_p是自回归模型的线性预测系数(LPC)，p为LPC的阶数。采用Durbin算法求解线性预测系数，Durbin算法是根据信号的自相关函数通过递归的方法求出线性预测系数a₁,a₂,…,a_p。

所述的步骤8基于线性预测系数计算倒谱系数，即所求的声音特征，具体实现如下：

将得到的pp阶自回归模型中的线性预测系数a₁,a₂,…,a_p转换到倒谱域中。首先把步骤6转换后的时域中信号经过求Z变换后再取对数，然后再反Z变换就能够转化为倒谱系数。通过线性预测分析能够得到声道模型为全极点模型，假设全极点模型的传递函数为：

其中，a_k为线性预测系数，在倒谱域中全极点模型的冲击响应为c(n)，则模型的传递函数为

由式(1)和式(2)可以得到c_n与a_n之间的关系如下：

式中c(1),c(2),…,c(n)为线性预测在倒谱域中的系数，也就是求得声音的特征，n为阶数。

本发明的有益效果如下：

本发明是基于声音的MF-PLPCC对工程机械的识别方法，该识别方法结合了MFCC和PLPCC两种方法的优点，即采用了MFCC中模拟人耳的听觉特性和PLPCC中模拟人耳掩蔽效应两个部分，使得这种方法更好地模拟人耳的听觉系统，能够更多的提取工程机械声音中的有用信息。通过实验得出，在近距离下或者信噪比高的情况下对工程机械的识别， MF-PLPCC识别方法跟MFCC、PLPCC等传统方法都有很高的识别率，但是在远距离或者信噪比低的情况下，MF-PLPCC识别方法比这些传统方法在识别率上有所提升。

附图说明

图1为本发明的基于MF-PLPCC对工程机械声音特征提取的流程图；

图2为本发明的基于MF-PLPCC对工程机械识别方法的流程图；

具体实施方式

下面结合的具体实施方式对本发明作详细说明，以下描述仅作为示范和解释，并不对本发明作任何形式上的限制。

如图1和2所示，基于MF-PLPCC特征对工程机械声音识别方法，具体实施步骤如下：

1、采集不同工程机械作业时候的声音和周围的环境噪声，建立声音样本库。

2、对采集的声音信号作预加重处理，设声音信号为x(n)，采样率为 f_s，预处理后的信号为x(n)＝x(n)-k(n-1)，其中k为预加重系数，k 介于0.9～1之间，这里k取0.9375；由于声音信号是时变的，在短时间范围内特征变化较小可以作为稳态来处理，因此对预加重后的信号进行分帧处理，每帧信号选取1024个采样点，为了使帧与帧之间平滑过渡，采用帧移为512个采样点；对分帧后的信号加上Hamming窗从而减少频谱泄露的情况。

3、设第i帧信号为s_i(n)，然后对这帧信号作短时傅里叶变换变换得到X_i(k)，通过计算得到短时能量谱为P_i(k)

P_i(k)＝Re[X_i(k)]²+Im[X_i(k)]²

4、在语音的频谱范围内设置若干带通滤波器H_m(k),0≤m<M，M 为滤波器的个数。每个滤波器具有三角形滤波特性，其中心频率f(m)，在Mel频率范围内，这些滤波器是等带宽的。每个带通滤波器的传递函数为

式中其中f_l为滤波器频率范围的最低频率；f_h为滤波器频率范围的最高频率；N为SFFT时的长度；F_mel的逆函数为

根据得到每帧信号的能量谱P_i(k)和Mel滤波器的频域响应 H_m(k),0≤m<M,求出每帧信号的能量谱通过Mel滤波器后得到的Mel 频谱

式中S_i(m)为每帧能量谱通过滤波器组后的Mel频谱，这里选取M取 40。

5、为了更好的模拟声音的强度和人耳所感受到响度间的非线性关系，用立方根幅度压缩进行强度-响度转换

θ_i(m)＝S_i(m)^1/3

其中θ_i(m)为经过强度-响度转换后的第i帧信号。

6、对θ_i(m)作傅里叶逆变换转化到时域中

y_i(n)＝IFFT(θ_i(m))

式中y_i(n)是θ_i(m)经过傅里叶逆变换转到时域的第i帧信号。

7、一个声音的采样能够用过去若干个声音采样的线性组合来逼近，通过使线性预测到的采样在最小均方误差意义上逼近实际语音采样，可以求取一组唯一的预测系数。这里的预测系数就是线性组合中所用的加权系数。如公式所示

y(n)≈a₁y(n-1)+a₂y(n-2)+…+a_py(n-p)

其中a₁,a₂,…,a_p是自回归模型的线性预测系数(LPC)，p为LPC的阶数，这里取的是15。

Durbin算法是根据信号的自相关函数通过递归的方法求出线性预测系数a₁,a₂,…,a_p。

8、将得到的p阶自回归模型中的线性预测系数a₁,a₂,…,a_p转换到倒谱域中。首先把信号经过求Z变换后再取对数，然后再反Z变换就可以转化为倒谱系数。通过线性预测分析可以得到声道模型为全极点模型，假设模型的传递函数为：

在倒谱域中，系统模型的冲击响应为c(n)，系统的传递函数为

由式(1)和式(2)可以得到c_n与a_n之间的关系如下：

式中c(1),c(2),…,c(n)为线性预测在倒谱域中的系数，n为阶数；通常情况下线性预测倒谱系数的取值范围在8到32阶之间，系数越多，其所反映出的信息也越多，但是运算量也会相应地增大，因此这里n取16 时可以反映大部分的声音信息。这里得到的倒谱系数也就是声音的特征。

9、对不同工程机械的声音和噪声特征标号，建立声音特征样本库；

10、利用正则化极限学习机对声音特征样本库进行训练，得到训练模型；

11、使用与样本声音同样的声音采集装置采集目标声音，按照与声音样本同样的步骤提取声音的特征

12、利用正则化极限学习机对目标声音的特征与模型进行匹配，得出分类结果。

13、根据正则化极限学习机提供的分类记过可以判断目标声音是那种工程机械作业的声音。

Claims

1.基于MF-PLPCC特征对工程机械声音识别方法，其特征在于包括以下步骤：

步骤5、用立方根对短时能量进行强度-响度转换；

步骤6、对转换后的信号采用傅里叶逆变换转换到时域中；

步骤7、求出时域中信号的线性预测系数；

步骤9、对不同机械的声音特征进行标号，建立样本特征库；

步骤11、重复步骤1-步骤8，对目标声音进行MF-PLPCC特征提取；

步骤12、利用正则化极限学习机对提取的目标声音特征和步骤10建立的模型进行匹配，然后得出分类结果；

2.根据权利要求1所述的基于MF-PLPCC特征对工程机械声音识别方法，其特征在于所述的步骤2对采集的声音信号作预加重，具体的：设声音信号为x(n)，采样率为f_s，预加重处理后的信号为x(n)＝x(n)-k*x(n-1)，其中k为预加重系数，k介于0.9～1之间；然后对预加重后的信号做分帧和加窗处理。

3.根据权利要求1所述的基于MF-PLPCC特征对工程机械声音识别方法，其特征在于所述的步骤3求出每帧声音信号的短时能量谱，具体如下：

将经过步骤2处理得到的声音信号做短时傅里叶变换，然后根据频谱求出短时能量谱，设第ii帧信号为s_i(n)，对该帧信号作短时傅里叶变换得到X_i(k)，通过计算得到短时能量谱为P_i(k)

X_{i} (k) = Σ_{n = 0}^{N - 1} s_{i} (n) e^{- \frac{j 2 n π}{N} k}

P_i(k)＝Re[X_i(k)]²+Im[X_i(k)]²。

4.根据权利要求1所述的基于MF-PLPCC特征对工程机械声音识别方法，其特征在于所述的步骤4基于短时能量谱求出通过Mel三角滤波器组的短时能量，具体的：

将短时能量谱通过一组Mel尺度的三角滤波器组，得到Mel频谱的短时能量S_i(m)；定义三角滤波器组的中心频率为f(m),m＝1,2,…M，其中M为滤波器的个数，各个中心频率f(m)之间的间隔随着m值的增大而增宽。

5.根据权利要求1所述的基于MF-PLPCC特征对工程机械声音识别方法，其特征在于所述的步骤5用立方根对短时能量进行强度-响度转换，具体如下：

为了更好的模拟声音的强度和人耳所感受到响度间的非线性关系，用立方根幅度压缩进行强度-响度转换；

θ_i(m)＝S_i(m)^1/3

式中，θ_i(m)表示的是经过强度-响度转换后的第i帧信号。

6.根据权利要求1所述的基于MF-PLPCC特征对工程机械声音识别方法，其特征在于所述的步骤6对转换后的信号采用傅里叶逆变换转换到时域中，具体的将步骤5得到的转换后的信号经过傅里叶逆变换转化到时域中

y_i(n)＝IFFT(θ_i(m))

7.根据权利要求1所述的基于MF-PLPCC特征对工程机械声音识别方法，其特征在于所述的步骤7求出时域中信号的线性预测系数，具体的：

一个声音的采样能够用过去若干个声音采样的线性组合来逼近；通过使线性预测到的采样在最小均方误差意义上逼近实际声音采样，能够求取一组唯一的线性预测系数；所述的线性预测系数就是线性组合中所用的加权系数；如公式所示：

y(n)≈a₁y(n-1)+a₂y(n-2)+…+a_py(n-p)

其中，a₁,a₂,…,a_p是自回归模型的线性预测系数(LPC)，pp为LPC的阶数；采用Durbin算法求解线性预测系数，Durbin算法是根据信号的自相关函数通过递归的方法求出线性预测系数a₁,a₂,…,a_p。

8.根据权利要求1所述的基于MF-PLPCC特征对工程机械声音识别方法，其特征在于所述的步骤8基于线性预测系数计算倒谱系数，即所求的声音特征，具体实现如下：

将得到的p阶自回归模型中的线性预测系数a₁,a₂,…,a_p转换到倒谱域中；首先把步骤6转换后的时域中信号经过求Z变换后再取对数，然后再反Z变换就能够转化为倒谱系数；通过线性预测分析能够得到声道模型为全极点模型，假设全极点模型的传递函数为：

H (z) = \frac{1}{1 - Σ_{k = 1}^{p} α_{k} z^{- k}} - - - (1)

\hat{H} (z) = \log H (z) = Σ_{n = 0}^{\infty} c (n) z^{- n} - - - (2)

由式(1)和式(2)可以得到c_n与a_n之间的关系如下：

\{\begin{matrix} c (1) = a_{1} \\ c (n) = a_{n} + Σ_{k = 1}^{n - 1} (1 - \frac{k}{n}) a_{k} c (n - k) & k < n \leq p \\ c (n) = Σ_{k = 1}^{p} (1 - \frac{k}{n}) a_{k} c (n - k) & n &GreaterEqual; p \end{matrix}