CN111540373B

CN111540373B - 基于超复数随机神经网络的城市噪声识别方法

Info

Publication number: CN111540373B
Application number: CN202010029066.9A
Authority: CN
Inventors: 曹九稳; 沈佩婷; 王建中; 曾焕强
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-01-12
Filing date: 2020-01-12
Publication date: 2022-12-02
Anticipated expiration: 2040-01-12
Also published as: CN111540373A

Abstract

本发明公开了一种基于超复数随机神经网络的城市噪声识别方法。本发明将城市噪声信号经过谱减法滤波器，然后提取其MFCC、LSP和PLP特征，再拼接成四元数增广向量，最后经过四元数极限学习机(Q‑ELM)实现对噪声信号的分类识别。本发明充分提取了低信噪比情况下，信号中的有用信息，增广四元数结构也可利用各个特征之间的结构信息，可以有效提高城市噪声信号的识别率。

Description

基于超复数随机神经网络的城市噪声识别方法

技术领域

本发明是属于智慧城市安防与智能声音识别领域，涉及到一种基于超复数随机神经网络的城市噪声识别方法。

背景技术

城市噪声识别与控制是城市环境监测与公共安全领域的新问题。汽车交通、建筑施工和机械工业等快速增长过程中伴随的各类噪声早已超过了城市可承受警戒线。因此，近年来城市环境噪声监测与智能识别引起了广泛且高度的关注。

对于城市噪声识别，前人早已列出诸如梅尔倒谱系数(MFCC)、线谱对参数(LSP)和感知线性预测(PLP)等特征与支持向量机(SVM)、决策树(DT)等分类器相结合的识别算法。然而，城市环境复杂，在噪声信号采集过程中，往往会伴随有多种未知的干扰信号，导致采集到的信号信噪比较低。上述的方法在识别这些信号时，往往由于特征中的有用信息较少，干扰信息较多，造成信号识别率较低。

发明内容

针对目前存在如上所述的问题，本发明提出了一种基于超复数声音信号特征表示的四元数随机神经网络城市噪声识别方法。此方法将城市噪声信号经过谱减法滤波器，然后提取其MFCC、LSP和PLP特征，再拼接成四元数增广向量，最后经过四元数极限学习机(Q-ELM)实现对这些噪声信号的分类识别。该方法充分提取了低信噪比情况下，信号中的有用信息，增广四元数结构也可利用各个特征之间的结构信息，可以有效提高城市噪声信号的识别率。

为了实现上述目的，本发明采取的技术方案包括以下步骤：

步骤1、分别对十一种城市噪声信号进行谱减法滤波去噪；

1-1、对信号x(m)进行系数取值范围为0.9～1.0的预加重处理、加汉明窗处理以及分帧处理，得到分帧后的信号x_d(m)，其中m是指声音信号的时域自变量，这里是指第m个采样值，d是指第d帧；

1-2、将信号x_d(m)进行傅里叶变换，得到信号x_d(m)的频域信息X_d(n)，并求出信号x_d(m)幅值的平方|X_d(n)|²作为该帧信号的能量，并记录相位；

1-3、将需要滤波的前导无声段作为噪声段，估算其帧数为NIS，然后根据帧数得到该段噪声的平均能量值D(n)：

其中，|X_d(n)|²为每帧信号的能量，NIS为噪声段帧数；

1-4、根据谱减公式，对步骤1-1所得的信号X_d(n)进行谱减：

其中，

为每帧滤波后的信号，a、b是两个常数，a取4，b 取0.001。

1-5、将谱减后的每帧信号

使用重叠相加法合并，得到滤波信号

经快速傅里叶逆变换，得到需要的已经去噪的信号

步骤2、分别对预处理后的每种信号提取MFCC特征；

2-1、将已经去噪的信号

分帧，得到信号为

2-2、对去噪的每帧信号进行快速傅里叶变换，得

2-3、计算每帧信号傅里叶变换后的谱能量

2-4、将每帧信号的谱能量与Mel滤波器组的频域响应相乘，得信号通过Mel滤波器后的能量

2-5、将步骤2-4得到的能量

进行离散余弦变换，并求其倒谱，得该帧信号的MFCC系数mfcc(d,dim)，dim为每帧MFCC提取到的维数，为12。

步骤3、分别对预处理后的每种信号提取LSP特征；

3-1、将已经去噪的信号

分帧，得到信号为

3-2、根据莱文逊-杜宾方法，对分帧后的信号

提取线性预测系数；

3-3、根据公式，求出LSP的对称和反对称的实系数多项式，即 P(z)、Q(z)：

P(z)＝A(z)+z^-(p+1)A(z^-1)

Q(z)＝A(z)-z^-(p+1)A(z^-1)

其中A(z)为线性预测逆滤波器的Z变换公式，z为声音信号的自变量m在复频域对应的自变量。

3-4、再根据公式：

其中，p为线性预测阶数，取12，ω_r、θ_r则是与LSP系数对应的线谱频率(r＝1,2,3…p/2)。通过步骤3-4的公式将步骤3-3中与 LSP参数无关的两个实根去掉，得到已去除实根的对称和反对称的实系数多项式P′(z)、Q′(z)；

3-5、最后求解步骤3-4中两式等于零时，cosω_r、cosθ_r的解，即为LSP系数lsp(d,dim)。

步骤4、分别对预处理后的每种信号提取PLP特征；

4-1、根据步骤2-1到步骤2-3得到每帧信号的谱能量

4-2、对每帧信号的谱能量进行临界频带积分：

Z(f)＝6ln{f/600+[(f/600)²+1]^0.5}

其中，f为声音信号的采样频率，

为根据f求得的临界频带个数，Z(f)为声音信号的Bark频率，p(f(N))为每个临界频带最高点和最低点的加权系数，

为第

个临界频带最低点和最高点的频率，

为该临界频带中心，

为该临界频带中心对应的频率，n_h(k)、n_l(k)为第k个临界频带最高点和最低点，

为临界带宽听觉谱。

4-3、RASTA滤波的Z变换公式进行滤波：

z为声音信号的自变量m在复频域对应的自变量。

4-3、进行等响度预加重：

f₀为对应临界频带中心点的频率；

4-4、对等响度预加重后的信号求立方根，并进行逆傅立叶变换；

4-5、将傅里叶逆变换后得到的信号，根据莱文逊-杜宾方法提取线性预测系数，得到PLP系数plp(d,dim)。

步骤5、把从噪声信号中提取到的特征，定义成为一个声学四元数

定义如下：

其中

为每种信号的每11帧，具体指

dim为特征维度；

步骤6、将每种信号的四元数特征扩展成为四元数增广向量形式：

q_in＝[q q^* q^i* q^j*]，其中

其中，i²＝j²＝k²＝ijk＝-1，ij＝k,ji＝-k,ik＝j,ki＝-j,jk＝i,kj＝-i，q^*称为q的共轭形式，qⁱ、q^j称为q的GHR算子，具体指

qⁱ＝iqi＝0+mfcci-lspj-plpk

q^j＝jqj＝0-mfcci+lspj-plpk

步骤7、将每种信号特征的四元数增广向量作为输入，参考实值极限学习机，建立模型训练；

7-1、给出了一个训练集

其中

(y由训练集的样本总种类决定，Q^4dim、 Q^y则是指四元数域中，4dim、y维的向量，M是训练集的样本个数) 以及具有激活函数h(q_in；w_p,b_p)和L个隐藏节点的单隐层网络；

7-2、输入四元数增广向量q_in，随机产生输入权重w_p和偏差b_p， p＝1,2,...,L；带入激活函数h(q_in；w_p,b_p)，得到输出矩阵H^ai，其解析解由具体激活函数决定。此处使用sigmiod函数，则公式为

其中H_R ^ai、H_i ^ai、H_j ^ai、H_k ^ai为H^ai的实部分量和三个虚部分量；

7-3、将H^ai分解得到H_Re ^ai和H_Im ^ai， Hai＝(H_Rai+H_iaii)+(H_j ^ai+H_k ^aii)j＝H_Re ^ai+H_Im ^aij，即H_Re ^ai＝H_R ^ai+H_i ^aii、 H_Im ^ai＝H_j ^ai+H_k ^aii，然后根据公式得到四元数矩阵算子H_e ^ai

7-4、根据权重矩阵

的公式得到

的四元数矩阵算子

T_e由T＝[t(1),t(2),...,t(M)]^T参照步骤7-3求得H_e ^ai的方法得到；

7-5、最后根据

反推得到权重矩阵

步骤8、将需要分类的信号，通过步骤1-步骤6进行特征提取，将提取的特征输入步骤7所得分类器，可得到分类结果，识别出该信号所属的城市噪声种类。

本发明有益效果如下：

本发明提出一种基于超复数随机神经网络对城市噪声的分类识别算法，该算法针对四种城市化建设施工中常见的工程器械声音(切割机、液压冲击锤、手持电镐和挖掘机)，以及七种其他常见城市环境噪声(风声、抽土机声、汽车声、发电机声、风声、说话声和音乐声)建立模型。能够快速准确地识别出发声信号的物体，便于城市管理人员快速了解城市噪声污染情况，及时做出相应处理。

本发明采用的是增广输入四元数极限学习机(AQ-ELM)算法进行城市噪声分类的，该算法是一种已被证实分类精度，在参数总数一致时，高于实值极限学习机的单隐层神经网络。因此，还具有分类速度快，泛化性能好的优势。

本发明基结合于MFCC、LSP和PLP特征的四元数增广向量，可以充分利用这三个特征之间的结构信息，使分类算法对数据信息的处理能力高于其他的实数域/复数域算法。

本发明采用用了谱减法滤波，滤除掉了采集的原声信号中会对分类产生影响的非目标类信号，进一步增大了本发明提出算法的分类精度。

附图说明

图1为谱减法滤波的流程图；

图2为提取MFCC、LSP和PLP三种特征四元数向量的流程图；

图3为噪声滤波前后的波形图以及对应特征的直方图

图4为本发明的基于四元数随机神经网络对城市噪声的识别方法的流程图；

具体实施方式

下面结合附图和实例对本发明作进一步说明。

如图1所示，首先将所有采集的信号输入到谱减法滤波器，通过能量计算，估算非目标声音段，谱减等步骤对采集到的信号进行滤波。如图2将滤波后的信号，进行分帧，提取特征。所得的滤波后的信号和对应的特征如图3所示。如图4所示，把通过特征提取、组合后的增广四元数向量特征那个，通过AQ-ELM进行训练，然后寻找最优分类能力的隐层节点个数，保存为城市噪声分类模型。最后将待测试的样本喂入训练好的模型，得到分类结果。

本发明主要包括如下步骤：步骤1、分别对十一种城市噪声信号进行谱减法滤波去噪；

1-1、对信号x(m)，以为警报声为例(长度22381153，采样频率 19530Hz)进行系数为0.9375的预加重处理、加汉明窗处理以及分200 帧处理，得到一个200×279762矩阵；

1-2、将分帧后的信号x_d(m)进行傅里叶变换，得到信号x_d(m)的频域信息X_d(n)，一个200×279762复数域矩阵，并求出信号x_d(m)幅值的平方|X_d(n)|²作为该帧信号的能量和并记录相位，这是两个大小为 200×279762实数域矩阵；

1-3、将需要滤波的前导无声段作为噪声段，估算其帧数为NIS，对于警报声信号为2206，然后根据帧数得到该段噪声的平均能量值 D(n)：

其中，|X_d(n)|²为每帧信号的能量，NIS为噪声段帧数；得到一个 200维的向量；

1-4、根据谱减公式，对步骤1-1所得的信号X_d(n)进行谱减：

其中，

为每帧滤波后的信号，a、b是两个常数，a取4，b 取0.001。最终得到一个200×279762实数域矩阵；

1-5、将谱减后的每帧信号

使用重叠相加法合并，得到滤波信号

经快速傅里叶逆变换，得到需要的已经去噪的信号

长度为22381153，采样频率为19530Hz。

步骤2、分别对每种预处理后的信号提取MFCC特征；

2-1、将已经去噪的信号

分帧，得到信号为

帧长1024，帧移512分帧，大小为43712×1024；

2-2、对去噪的每帧信号进行快速傅里叶变换，得

2-3、计算每帧信号傅里叶变换后的谱能量

为一40维向量；

2-5、将步骤2-4得到的能量

进行系数为12阶的离散余弦变换，并求其倒谱，得该帧信号的MFCC系数mfcc(d,dim)，dim为每帧 MFCC提取到的维数，为12。

步骤3、分别对每种预处理后的信号提取LSP特征；

3-1、将已经去噪的信号

分帧，得到信号为

3-2、根据莱文逊-杜宾方法，对分帧后的信号

提取线性预测12阶系数；

P(z)＝A(z)+z^-(p+1)A(z^-1)

Q(z)＝A(z)-z^-(p+1)A(z^-1)

其中A(z)为线性预测逆滤波器的Z变换公式，z为声音信号的自变量m在复频域对应的自变量。所得P(z)、Q(z)均为14维向量。

3-4、再根据公式：

其中，p为线性预测阶数，取12，ω_r、θ_r则是与LSP系数对应的线谱频率(r＝1,2,3…p/2)。通过步骤3-4的公式将步骤3-3中与 LSP参数无关的两个实根去掉，得到已去除实根的对称和反对称的实系数多项式P′(z)、Q′(z)；得两个13维向量；

3-5、最后求解步骤3-4中两式等于零时，cosω_r、cosθ_r的解，即为12维LSP系数lsp(d,dim)。

步骤4、分别对每种预处理后的信号提取PLP特征；

4-1、根据步骤2-1到步骤2-3得到每帧信号的谱能量

4-2、对每帧信号的谱能量进行临界频带积分：

Z(f)＝6ln{f/600+[(f/600)²+1]^0.5}

其中，f为声音信号的采样频率，

为第

个临界频带最低点和最高点的频率，

为该临界频带中心，

为临界带宽听觉谱。以警报声为例得每帧信号，可得到一个22×3得临界宽频带谱。

4-3、RASTA滤波的Z变换公式进行滤波：

z为声音信号的自变量m在复频域对应的自变量。

4-4、进行等响度预加重：

f₀为对应临界频带中心点的频率；

4-5、对等响度预加重后的信号求立方根，并进行逆傅立叶变换；

4-6、将傅里叶逆变换后得到的信号，根据莱文逊-杜宾方法提取线性预测系数，得到大小为4×3的PLP系数plp(d,dim)。

4-7、将得到得PLP系数重构成12维特征。

定义如下：

其中，

为每种信号的每11帧，具体指

dim为特征维度；

q_in＝[q q^* q^i* q^j*]，其中

其中，i²＝j²＝k²＝ijk＝-1，ij＝k,ji＝-k,ik＝j,ki＝-j,jk＝i,kj＝-i，q^*称为q的共轭形式，qⁱ、q^j称为q的GHR算子，具体指：

qⁱ＝iqi＝0+mfcci-lspj-plpk

q^j＝jqj＝0-mfcci+lspj-plpk

7-1、给出了一个训练集

其中

7-3、将H^ai分解得到H_Re ^ai和H_Im ^ai， H^ai＝(H_R ^ai+H_i ^aii)+(H_j ^ai+H_k ^aii)j＝H_Re ^ai+H_Im ^aij，即H_Re ^ai＝H_R ^ai+H_i ^aii、 H_Im ^ai＝H_j ^ai+H_k ^aii，然后根据公式得到四元数矩阵算子H_e ^ai

7-4、根据权重矩阵

的公式得到

的四元数矩阵算子

T_e由T＝[t(1),t(2),...,t(M)]^T参照步骤7-3求得H_e ^ai的方法得到；

7-5、最后根据

反推得到权重矩阵

Claims

1.基于超复数随机神经网络的城市噪声识别方法，其特征在于：

该方法将城市噪声信号经过谱减法滤波器，然后提取其MFCC、LSP和PLP特征，再拼接成四元数增广向量，最后经过四元数极限学习机(Q-ELM)实现对噪声信号的分类识别；

通过步骤1分别对十一种城市噪声信号进行谱减法滤波去噪，具体实现如下：

1-1、对信号x(m)进行系数取值范围为0.9～1.0的预加重处理、加汉明窗处理以及分帧处理，得到分帧后的信号x_d(m)，其中m指声音信号的时域自变量，指第m个采样值，d是指第d帧；

其中，|X_d(n)|²为每帧信号的能量，NIS为噪声段帧数；

1-4、根据谱减公式，对步骤1-1所得的信号X_d(n)进行谱减：

其中，

为每帧滤波后的信号，a、b是两个常数，a取4，b取0.001；

1-5、将谱减后的每帧信号

使用重叠相加法合并，得到滤波信号

经快速傅里叶逆变换，得到需要的已经去噪的信号

通过步骤2分别对预处理后的每种信号提取MFCC特征，具体实现如下：

2-1、将已经去噪的信号

分帧，得到信号为

2-2、对去噪的每帧信号进行快速傅里叶变换，得

2-3、计算每帧信号傅里叶变换后的谱能量

2-5、将步骤2-4得到的能量

进行离散余弦变换，并求其倒谱，得该帧信号的MFCC系数mfcc(d,dim)，dim为每帧MFCC提取到的维数，为12；

通过步骤3分别对预处理后的每种信号提取LSP特征；

3-1、将已经去噪的信号

分帧，得到信号为

3-2、根据莱文逊-杜宾方法，对分帧后的信号

提取线性预测系数；

3-3、根据公式，求出LSP的对称和反对称的实系数多项式，即P(z)、Q(z)：

P(z)＝A(z)+z^-(p+1)A(z^-1)

Q(z)＝A(z)-z^-(p+1)A(z^-1)

其中A(z)为线性预测逆滤波器的Z变换公式，z为声音信号的自变量m在复频域对应的自变量；

3-4、再根据公式：

其中，p为线性预测阶数，取12，ω_r、θ_r则是与LSP系数对应的线谱频率，r＝1,2,3…p/2；通过步骤3-4的公式将步骤3-3中与LSP参数无关的两个实根去掉，得到已去除实根的对称和反对称的实系数多项式P′(z)、Q′(z)；

3-5、最后求解步骤3-4中两式等于零时，cosω_r、cosθ_r的解，即为LSP系数lsp(d,dim)；

通过步骤4分别对预处理后的每种信号提取PLP特征；

4-1、根据步骤2-1到步骤2-3得到每帧信号的谱能量

4-2、对每帧信号的谱能量进行临界频带积分：

Z(f)＝6ln{f/600+[(f/600)²+1]^0.5}

其中，f为声音信号的采样频率，

为第

个临界频带最低点和最高点的频率，

为该临界频带中心，

为临界带宽听觉谱；

4-3、RASTA滤波的Z变换公式进行滤波：

z为声音信号的自变量m在复频域对应的自变量；

4-4、进行等响度预加重：

f₀为对应临界频带中心点的频率；

4-5、对等响度预加重后的信号求立方根，并进行逆傅里叶变换；

4-6、将傅里叶逆变换后得到的信号，根据莱文逊-杜宾方法提取线性预测系数，得到PLP系数plp(d,dim)；

通过步骤5把从噪声信号中提取到的特征，定义成为一个声学四元数

定义如下：

其中

为每种信号的每11帧，具体指

dim为特征维度；

通过步骤6将每种信号的四元数特征扩展成为四元数增广向量形式：

q_in＝[q q^* q^i* q^j*]，其中

qⁱ＝iqi＝0+mfcci-lspj-plpk

q^j＝jqj＝0-mfcci+lspj-plpk

通过步骤7将每种信号特征的四元数增广向量作为输入，参考实值极限学习机，建立模型训练；

7-1、给出了一个训练集

其中

(y由训练集的样本总种类决定，Q^4dim、Q^y则是指四元数域中，4dim、y维的向量，M是训练集的样本个数)以及具有激活函数h(q_in；w_p,b_p)和L个隐藏节点的单隐层网络；

7-2、输入四元数增广向量q_in，随机产生输入权重w_p和偏差b_p，p＝1,2,...,L；带入激活函数h(q_in；w_p,b_p)，得到输出矩阵H^ai，其解析解由具体激活函数决定；此处使用sigmiod函数，则公式为

7-3、将H^ai分解得到H_Re ^ai和H_Im ^ai，H^ai＝(H_R ^ai+H_i ^aii)+(H_j ^ai+H_k ^aii)j＝H_Re ^ai+H_Im ^aij，即H_Re ^ai＝H_R ^ai+H_i ^aii、H_Im ^ai＝H_j ^ai+H_k ^aii，然后根据公式得到四元数矩阵算子H_e ^ai

7-4、根据权重矩阵

的公式得到

的四元数矩阵算子

T_e由T＝[t(1),t(2),...,t(M)]^T参照步骤7-3求得H_e ^ai的方法得到；

7-5、最后根据

反推得到权重矩阵

2.根据权利要求1所述的基于超复数随机神经网络的城市噪声识别方法，其特征在于通过步骤8将需要分类的信号，通过步骤1-步骤6进行特征提取，将提取的特征输入步骤7所得分类器，可得到分类结果，识别出该信号所属的城市噪声种类。