CN111540373B - 基于超复数随机神经网络的城市噪声识别方法 - Google Patents

基于超复数随机神经网络的城市噪声识别方法 Download PDF

Info

Publication number
CN111540373B
CN111540373B CN202010029066.9A CN202010029066A CN111540373B CN 111540373 B CN111540373 B CN 111540373B CN 202010029066 A CN202010029066 A CN 202010029066A CN 111540373 B CN111540373 B CN 111540373B
Authority
CN
China
Prior art keywords
signal
quaternion
frame
noise
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010029066.9A
Other languages
English (en)
Other versions
CN111540373A (zh
Inventor
曹九稳
沈佩婷
王建中
曾焕强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010029066.9A priority Critical patent/CN111540373B/zh
Publication of CN111540373A publication Critical patent/CN111540373A/zh
Application granted granted Critical
Publication of CN111540373B publication Critical patent/CN111540373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于超复数随机神经网络的城市噪声识别方法。本发明将城市噪声信号经过谱减法滤波器,然后提取其MFCC、LSP和PLP特征,再拼接成四元数增广向量,最后经过四元数极限学习机(Q‑ELM)实现对噪声信号的分类识别。本发明充分提取了低信噪比情况下,信号中的有用信息,增广四元数结构也可利用各个特征之间的结构信息,可以有效提高城市噪声信号的识别率。

Description

基于超复数随机神经网络的城市噪声识别方法
技术领域
本发明是属于智慧城市安防与智能声音识别领域,涉及到一种基于超复数随机神经网络的城市噪声识别方法。
背景技术
城市噪声识别与控制是城市环境监测与公共安全领域的新问题。汽车交通、建筑施工和机械工业等快速增长过程中伴随的各类噪声早已超过了城市可承受警戒线。因此,近年来城市环境噪声监测与智能识别引起了广泛且高度的关注。
对于城市噪声识别,前人早已列出诸如梅尔倒谱系数(MFCC)、线谱对参数(LSP)和感知线性预测(PLP)等特征与支持向量机(SVM)、决策树(DT)等分类器相结合的识别算法。然而,城市环境复杂,在噪声信号采集过程中,往往会伴随有多种未知的干扰信号,导致采集到的信号信噪比较低。上述的方法在识别这些信号时,往往由于特征中的有用信息较少,干扰信息较多,造成信号识别率较低。
发明内容
针对目前存在如上所述的问题,本发明提出了一种基于超复数声音信号特征表示的四元数随机神经网络城市噪声识别方法。此方法将城市噪声信号经过谱减法滤波器,然后提取其MFCC、LSP和PLP特征,再拼接成四元数增广向量,最后经过四元数极限学习机(Q-ELM)实现对这些噪声信号的分类识别。该方法充分提取了低信噪比情况下,信号中的有用信息,增广四元数结构也可利用各个特征之间的结构信息,可以有效提高城市噪声信号的识别率。
为了实现上述目的,本发明采取的技术方案包括以下步骤:
步骤1、分别对十一种城市噪声信号进行谱减法滤波去噪;
1-1、对信号x(m)进行系数取值范围为0.9~1.0的预加重处理、加汉明窗处理以及分帧处理,得到分帧后的信号xd(m),其中m是指声音信号的时域自变量,这里是指第m个采样值,d是指第d帧;
1-2、将信号xd(m)进行傅里叶变换,得到信号xd(m)的频域信息Xd(n),并求出信号xd(m)幅值的平方|Xd(n)|2作为该帧信号的能量,并记录相位;
1-3、将需要滤波的前导无声段作为噪声段,估算其帧数为NIS,然后根据帧数得到该段噪声的平均能量值D(n):
Figure RE-GDA0002437052010000021
其中,|Xd(n)|2为每帧信号的能量,NIS为噪声段帧数;
1-4、根据谱减公式,对步骤1-1所得的信号Xd(n)进行谱减:
Figure RE-GDA0002437052010000022
其中,
Figure RE-GDA0002437052010000023
为每帧滤波后的信号,a、b是两个常数,a取4,b 取0.001。
1-5、将谱减后的每帧信号
Figure RE-GDA0002437052010000024
使用重叠相加法合并,得到滤波信号
Figure RE-GDA0002437052010000025
经快速傅里叶逆变换,得到需要的已经去噪的信号
Figure RE-GDA0002437052010000026
步骤2、分别对预处理后的每种信号提取MFCC特征;
2-1、将已经去噪的信号
Figure RE-GDA0002437052010000027
分帧,得到信号为
Figure RE-GDA0002437052010000028
2-2、对去噪的每帧信号进行快速傅里叶变换,得
Figure RE-GDA0002437052010000029
2-3、计算每帧信号傅里叶变换后的谱能量
Figure RE-GDA00024370520100000210
2-4、将每帧信号的谱能量与Mel滤波器组的频域响应相乘,得信号通过Mel滤波器后的能量
Figure RE-GDA00024370520100000211
2-5、将步骤2-4得到的能量
Figure RE-GDA00024370520100000212
进行离散余弦变换,并求其倒谱,得该帧信号的MFCC系数mfcc(d,dim),dim为每帧MFCC提取到的维数,为12。
步骤3、分别对预处理后的每种信号提取LSP特征;
3-1、将已经去噪的信号
Figure RE-GDA00024370520100000213
分帧,得到信号为
Figure RE-GDA00024370520100000214
3-2、根据莱文逊-杜宾方法,对分帧后的信号
Figure RE-GDA00024370520100000215
提取线性预测系数;
3-3、根据公式,求出LSP的对称和反对称的实系数多项式,即 P(z)、Q(z):
P(z)=A(z)+z-(p+1)A(z-1)
Q(z)=A(z)-z-(p+1)A(z-1)
其中A(z)为线性预测逆滤波器的Z变换公式,z为声音信号的自变量m在复频域对应的自变量。
3-4、再根据公式:
Figure RE-GDA0002437052010000031
Figure RE-GDA0002437052010000032
其中,p为线性预测阶数,取12,ωr、θr则是与LSP系数对应的线谱频率(r=1,2,3…p/2)。通过步骤3-4的公式将步骤3-3中与 LSP参数无关的两个实根去掉,得到已去除实根的对称和反对称的实系数多项式P′(z)、Q′(z);
3-5、最后求解步骤3-4中两式等于零时,cosωr、cosθr的解,即为LSP系数lsp(d,dim)。
步骤4、分别对预处理后的每种信号提取PLP特征;
4-1、根据步骤2-1到步骤2-3得到每帧信号的谱能量
Figure RE-GDA0002437052010000033
4-2、对每帧信号的谱能量进行临界频带积分:
Z(f)=6ln{f/600+[(f/600)2+1]0.5}
Figure RE-GDA0002437052010000034
Figure RE-GDA0002437052010000035
Figure RE-GDA0002437052010000041
其中,f为声音信号的采样频率,
Figure RE-GDA0002437052010000042
为根据f求得的临界频带个数,Z(f)为声音信号的Bark频率,p(f(N))为每个临界频带最高点和最低点的加权系数,
Figure RE-GDA0002437052010000043
为第
Figure RE-GDA0002437052010000044
个临界频带最低点和最高点的频率,
Figure RE-GDA0002437052010000045
为该临界频带中心,
Figure RE-GDA0002437052010000046
为该临界频带中心对应的频率,nh(k)、nl(k)为第k个临界频带最高点和最低点,
Figure RE-GDA0002437052010000047
为临界带宽听觉谱。
4-3、RASTA滤波的Z变换公式进行滤波:
Figure RE-GDA0002437052010000048
z为声音信号的自变量m在复频域对应的自变量。
4-3、进行等响度预加重:
Figure RE-GDA0002437052010000049
f0为对应临界频带中心点的频率;
4-4、对等响度预加重后的信号求立方根,并进行逆傅立叶变换;
4-5、将傅里叶逆变换后得到的信号,根据莱文逊-杜宾方法提取线性预测系数,得到PLP系数plp(d,dim)。
步骤5、把从噪声信号中提取到的特征,定义成为一个声学四元数
Figure RE-GDA00024370520100000410
定义如下:
Figure RE-GDA00024370520100000411
其中
Figure RE-GDA00024370520100000412
为每种信号的每11帧,具体指
Figure RE-GDA00024370520100000413
dim为特征维度;
步骤6、将每种信号的四元数特征扩展成为四元数增广向量形式:
qin=[q q* qi* qj*],其中
Figure RE-GDA0002437052010000051
其中,i2=j2=k2=ijk=-1,ij=k,ji=-k,ik=j,ki=-j,jk=i,kj=-i,q*称为q的共轭形式,qi、qj称为q的GHR算子,具体指
qi=iqi=0+mfcci-lspj-plpk
qj=jqj=0-mfcci+lspj-plpk
步骤7、将每种信号特征的四元数增广向量作为输入,参考实值极限学习机,建立模型训练;
7-1、给出了一个训练集
Figure RE-GDA0002437052010000052
其中
Figure RE-GDA0002437052010000053
(y由训练集的样本总种类决定,Q4dim、 Qy则是指四元数域中,4dim、y维的向量,M是训练集的样本个数) 以及具有激活函数h(qin;wp,bp)和L个隐藏节点的单隐层网络;
7-2、输入四元数增广向量qin,随机产生输入权重wp和偏差bp, p=1,2,...,L;带入激活函数h(qin;wp,bp),得到输出矩阵Hai,其解析解由具体激活函数决定。此处使用sigmiod函数,则公式为
Figure RE-GDA0002437052010000054
其中HR ai、Hi ai、Hj ai、Hk ai为Hai的实部分量和三个虚部分量;
7-3、将Hai分解得到HRe ai和HIm ai, Hai=(HRai+Hiaii)+(Hj ai+Hk aii)j=HRe ai+HIm aij,即HRe ai=HR ai+Hi aii、 HIm ai=Hj ai+Hk aii,然后根据公式得到四元数矩阵算子He ai
Figure RE-GDA0002437052010000055
7-4、根据权重矩阵
Figure RE-GDA0002437052010000056
的公式得到
Figure RE-GDA0002437052010000057
的四元数矩阵算子
Figure RE-GDA0002437052010000058
Figure RE-GDA0002437052010000059
Te由T=[t(1),t(2),...,t(M)]T参照步骤7-3求得He ai的方法得到;
7-5、最后根据
Figure RE-GDA0002437052010000061
反推得到权重矩阵
Figure RE-GDA0002437052010000062
步骤8、将需要分类的信号,通过步骤1-步骤6进行特征提取,将提取的特征输入步骤7所得分类器,可得到分类结果,识别出该信号所属的城市噪声种类。
本发明有益效果如下:
本发明提出一种基于超复数随机神经网络对城市噪声的分类识别算法,该算法针对四种城市化建设施工中常见的工程器械声音(切割机、液压冲击锤、手持电镐和挖掘机),以及七种其他常见城市环境噪声(风声、抽土机声、汽车声、发电机声、风声、说话声和音乐声)建立模型。能够快速准确地识别出发声信号的物体,便于城市管理人员快速了解城市噪声污染情况,及时做出相应处理。
本发明采用的是增广输入四元数极限学习机(AQ-ELM)算法进行城市噪声分类的,该算法是一种已被证实分类精度,在参数总数一致时,高于实值极限学习机的单隐层神经网络。因此,还具有分类速度快,泛化性能好的优势。
本发明基结合于MFCC、LSP和PLP特征的四元数增广向量,可以充分利用这三个特征之间的结构信息,使分类算法对数据信息的处理能力高于其他的实数域/复数域算法。
本发明采用用了谱减法滤波,滤除掉了采集的原声信号中会对分类产生影响的非目标类信号,进一步增大了本发明提出算法的分类精度。
附图说明
图1为谱减法滤波的流程图;
图2为提取MFCC、LSP和PLP三种特征四元数向量的流程图;
图3为噪声滤波前后的波形图以及对应特征的直方图
图4为本发明的基于四元数随机神经网络对城市噪声的识别方法的流程图;
具体实施方式
下面结合附图和实例对本发明作进一步说明。
如图1所示,首先将所有采集的信号输入到谱减法滤波器,通过能量计算,估算非目标声音段,谱减等步骤对采集到的信号进行滤波。如图2将滤波后的信号,进行分帧,提取特征。所得的滤波后的信号和对应的特征如图3所示。如图4所示,把通过特征提取、组合后的增广四元数向量特征那个,通过AQ-ELM进行训练,然后寻找最优分类能力的隐层节点个数,保存为城市噪声分类模型。最后将待测试的样本喂入训练好的模型,得到分类结果。
本发明主要包括如下步骤:步骤1、分别对十一种城市噪声信号进行谱减法滤波去噪;
1-1、对信号x(m),以为警报声为例(长度22381153,采样频率 19530Hz)进行系数为0.9375的预加重处理、加汉明窗处理以及分200 帧处理,得到一个200×279762矩阵;
1-2、将分帧后的信号xd(m)进行傅里叶变换,得到信号xd(m)的频域信息Xd(n),一个200×279762复数域矩阵,并求出信号xd(m)幅值的平方|Xd(n)|2作为该帧信号的能量和并记录相位,这是两个大小为 200×279762实数域矩阵;
1-3、将需要滤波的前导无声段作为噪声段,估算其帧数为NIS,对于警报声信号为2206,然后根据帧数得到该段噪声的平均能量值 D(n):
Figure RE-GDA0002437052010000071
其中,|Xd(n)|2为每帧信号的能量,NIS为噪声段帧数;得到一个 200维的向量;
1-4、根据谱减公式,对步骤1-1所得的信号Xd(n)进行谱减:
Figure RE-GDA0002437052010000081
其中,
Figure RE-GDA0002437052010000082
为每帧滤波后的信号,a、b是两个常数,a取4,b 取0.001。最终得到一个200×279762实数域矩阵;
1-5、将谱减后的每帧信号
Figure RE-GDA0002437052010000083
使用重叠相加法合并,得到滤波信号
Figure RE-GDA0002437052010000084
经快速傅里叶逆变换,得到需要的已经去噪的信号
Figure RE-GDA0002437052010000085
长度为22381153,采样频率为19530Hz。
步骤2、分别对每种预处理后的信号提取MFCC特征;
2-1、将已经去噪的信号
Figure RE-GDA0002437052010000086
分帧,得到信号为
Figure RE-GDA0002437052010000087
帧长1024,帧移512分帧,大小为43712×1024;
2-2、对去噪的每帧信号进行快速傅里叶变换,得
Figure RE-GDA0002437052010000088
2-3、计算每帧信号傅里叶变换后的谱能量
Figure RE-GDA0002437052010000089
2-4、将每帧信号的谱能量与Mel滤波器组的频域响应相乘,得信号通过Mel滤波器后的能量
Figure RE-GDA00024370520100000810
为一40维向量;
2-5、将步骤2-4得到的能量
Figure RE-GDA00024370520100000811
进行系数为12阶的离散余弦变换,并求其倒谱,得该帧信号的MFCC系数mfcc(d,dim),dim为每帧 MFCC提取到的维数,为12。
步骤3、分别对每种预处理后的信号提取LSP特征;
3-1、将已经去噪的信号
Figure RE-GDA00024370520100000812
分帧,得到信号为
Figure RE-GDA00024370520100000813
3-2、根据莱文逊-杜宾方法,对分帧后的信号
Figure RE-GDA00024370520100000814
提取线性预测12阶系数;
3-3、根据公式,求出LSP的对称和反对称的实系数多项式,即 P(z)、Q(z):
P(z)=A(z)+z-(p+1)A(z-1)
Q(z)=A(z)-z-(p+1)A(z-1)
其中A(z)为线性预测逆滤波器的Z变换公式,z为声音信号的自变量m在复频域对应的自变量。所得P(z)、Q(z)均为14维向量。
3-4、再根据公式:
Figure RE-GDA0002437052010000091
Figure RE-GDA0002437052010000092
其中,p为线性预测阶数,取12,ωr、θr则是与LSP系数对应的线谱频率(r=1,2,3…p/2)。通过步骤3-4的公式将步骤3-3中与 LSP参数无关的两个实根去掉,得到已去除实根的对称和反对称的实系数多项式P′(z)、Q′(z);得两个13维向量;
3-5、最后求解步骤3-4中两式等于零时,cosωr、cosθr的解,即为12维LSP系数lsp(d,dim)。
步骤4、分别对每种预处理后的信号提取PLP特征;
4-1、根据步骤2-1到步骤2-3得到每帧信号的谱能量
Figure RE-GDA0002437052010000093
4-2、对每帧信号的谱能量进行临界频带积分:
Z(f)=6ln{f/600+[(f/600)2+1]0.5}
Figure RE-GDA0002437052010000094
Figure RE-GDA0002437052010000095
Figure RE-GDA0002437052010000096
其中,f为声音信号的采样频率,
Figure RE-GDA0002437052010000101
为根据f求得的临界频带个数,Z(f)为声音信号的Bark频率,p(f(N))为每个临界频带最高点和最低点的加权系数,
Figure RE-GDA0002437052010000102
为第
Figure RE-GDA0002437052010000103
个临界频带最低点和最高点的频率,
Figure RE-GDA0002437052010000104
为该临界频带中心,
Figure RE-GDA0002437052010000105
为该临界频带中心对应的频率,nh(k)、nl(k)为第k个临界频带最高点和最低点,
Figure RE-GDA0002437052010000106
为临界带宽听觉谱。以警报声为例得每帧信号,可得到一个22×3得临界宽频带谱。
4-3、RASTA滤波的Z变换公式进行滤波:
Figure RE-GDA0002437052010000107
z为声音信号的自变量m在复频域对应的自变量。
4-4、进行等响度预加重:
Figure RE-GDA0002437052010000108
f0为对应临界频带中心点的频率;
4-4、对等响度预加重后的信号求立方根,并进行逆傅立叶变换;
4-5、对等响度预加重后的信号求立方根,并进行逆傅立叶变换;
4-6、将傅里叶逆变换后得到的信号,根据莱文逊-杜宾方法提取线性预测系数,得到大小为4×3的PLP系数plp(d,dim)。
4-7、将得到得PLP系数重构成12维特征。
步骤5、把从噪声信号中提取到的特征,定义成为一个声学四元数
Figure RE-GDA0002437052010000109
定义如下:
Figure RE-GDA00024370520100001010
其中,
Figure RE-GDA00024370520100001011
为每种信号的每11帧,具体指
Figure RE-GDA00024370520100001012
dim为特征维度;
步骤6、将每种信号的四元数特征扩展成为四元数增广向量形式:
qin=[q q* qi* qj*],其中
Figure RE-GDA00024370520100001013
其中,i2=j2=k2=ijk=-1,ij=k,ji=-k,ik=j,ki=-j,jk=i,kj=-i,q*称为q的共轭形式,qi、qj称为q的GHR算子,具体指:
qi=iqi=0+mfcci-lspj-plpk
qj=jqj=0-mfcci+lspj-plpk
步骤7、将每种信号特征的四元数增广向量作为输入,参考实值极限学习机,建立模型训练;
步骤7、将每种信号特征的四元数增广向量作为输入,参考实值极限学习机,建立模型训练;
7-1、给出了一个训练集
Figure RE-GDA0002437052010000111
其中
Figure RE-GDA0002437052010000112
(y由训练集的样本总种类决定,Q4dim、 Qy则是指四元数域中,4dim、y维的向量,M是训练集的样本个数) 以及具有激活函数h(qin;wp,bp)和L个隐藏节点的单隐层网络;
7-2、输入四元数增广向量qin,随机产生输入权重wp和偏差bp, p=1,2,...,L;带入激活函数h(qin;wp,bp),得到输出矩阵Hai,其解析解由具体激活函数决定。此处使用sigmiod函数,则公式为
Figure RE-GDA0002437052010000113
其中HR ai、Hi ai、Hj ai、Hk ai为Hai的实部分量和三个虚部分量;
7-3、将Hai分解得到HRe ai和HIm ai, Hai=(HR ai+Hi aii)+(Hj ai+Hk aii)j=HRe ai+HIm aij,即HRe ai=HR ai+Hi aii、 HIm ai=Hj ai+Hk aii,然后根据公式得到四元数矩阵算子He ai
Figure RE-GDA0002437052010000114
7-4、根据权重矩阵
Figure RE-GDA0002437052010000115
的公式得到
Figure RE-GDA0002437052010000116
的四元数矩阵算子
Figure RE-GDA0002437052010000117
Figure RE-GDA0002437052010000118
Te由T=[t(1),t(2),...,t(M)]T参照步骤7-3求得He ai的方法得到;
7-5、最后根据
Figure RE-GDA0002437052010000119
反推得到权重矩阵
Figure RE-GDA00024370520100001110
步骤8、将需要分类的信号,通过步骤1-步骤6进行特征提取,将提取的特征输入步骤7所得分类器,可得到分类结果,识别出该信号所属的城市噪声种类。

Claims (2)

1.基于超复数随机神经网络的城市噪声识别方法,其特征在于:
该方法将城市噪声信号经过谱减法滤波器,然后提取其MFCC、LSP和PLP特征,再拼接成四元数增广向量,最后经过四元数极限学习机(Q-ELM)实现对噪声信号的分类识别;
通过步骤1分别对十一种城市噪声信号进行谱减法滤波去噪,具体实现如下:
1-1、对信号x(m)进行系数取值范围为0.9~1.0的预加重处理、加汉明窗处理以及分帧处理,得到分帧后的信号xd(m),其中m指声音信号的时域自变量,指第m个采样值,d是指第d帧;
1-2、将信号xd(m)进行傅里叶变换,得到信号xd(m)的频域信息Xd(n),并求出信号xd(m)幅值的平方|Xd(n)|2作为该帧信号的能量,并记录相位;
1-3、将需要滤波的前导无声段作为噪声段,估算其帧数为NIS,然后根据帧数得到该段噪声的平均能量值D(n):
Figure FDA0003895985790000011
其中,|Xd(n)|2为每帧信号的能量,NIS为噪声段帧数;
1-4、根据谱减公式,对步骤1-1所得的信号Xd(n)进行谱减:
Figure FDA0003895985790000012
其中,
Figure FDA0003895985790000013
为每帧滤波后的信号,a、b是两个常数,a取4,b取0.001;
1-5、将谱减后的每帧信号
Figure FDA0003895985790000014
使用重叠相加法合并,得到滤波信号
Figure FDA0003895985790000015
经快速傅里叶逆变换,得到需要的已经去噪的信号
Figure FDA0003895985790000016
通过步骤2分别对预处理后的每种信号提取MFCC特征,具体实现如下:
2-1、将已经去噪的信号
Figure FDA0003895985790000017
分帧,得到信号为
Figure FDA0003895985790000018
2-2、对去噪的每帧信号进行快速傅里叶变换,得
Figure FDA0003895985790000019
2-3、计算每帧信号傅里叶变换后的谱能量
Figure FDA00038959857900000110
2-4、将每帧信号的谱能量与Mel滤波器组的频域响应相乘,得信号通过Mel滤波器后的能量
Figure FDA0003895985790000021
2-5、将步骤2-4得到的能量
Figure FDA0003895985790000022
进行离散余弦变换,并求其倒谱,得该帧信号的MFCC系数mfcc(d,dim),dim为每帧MFCC提取到的维数,为12;
通过步骤3分别对预处理后的每种信号提取LSP特征;
3-1、将已经去噪的信号
Figure FDA0003895985790000023
分帧,得到信号为
Figure FDA0003895985790000024
3-2、根据莱文逊-杜宾方法,对分帧后的信号
Figure FDA0003895985790000025
提取线性预测系数;
3-3、根据公式,求出LSP的对称和反对称的实系数多项式,即P(z)、Q(z):
P(z)=A(z)+z-(p+1)A(z-1)
Q(z)=A(z)-z-(p+1)A(z-1)
其中A(z)为线性预测逆滤波器的Z变换公式,z为声音信号的自变量m在复频域对应的自变量;
3-4、再根据公式:
Figure FDA0003895985790000026
Figure FDA0003895985790000027
其中,p为线性预测阶数,取12,ωr、θr则是与LSP系数对应的线谱频率,r=1,2,3…p/2;通过步骤3-4的公式将步骤3-3中与LSP参数无关的两个实根去掉,得到已去除实根的对称和反对称的实系数多项式P′(z)、Q′(z);
3-5、最后求解步骤3-4中两式等于零时,cosωr、cosθr的解,即为LSP系数lsp(d,dim);
通过步骤4分别对预处理后的每种信号提取PLP特征;
4-1、根据步骤2-1到步骤2-3得到每帧信号的谱能量
Figure FDA0003895985790000028
4-2、对每帧信号的谱能量进行临界频带积分:
Z(f)=6ln{f/600+[(f/600)2+1]0.5}
Figure FDA0003895985790000031
Figure FDA0003895985790000032
Figure FDA0003895985790000033
其中,f为声音信号的采样频率,
Figure FDA0003895985790000034
为根据f求得的临界频带个数,Z(f)为声音信号的Bark频率,p(f(N))为每个临界频带最高点和最低点的加权系数,
Figure FDA0003895985790000035
为第
Figure FDA0003895985790000036
个临界频带最低点和最高点的频率,
Figure FDA0003895985790000037
为该临界频带中心,
Figure FDA0003895985790000038
为该临界频带中心对应的频率,nh(k)、nl(k)为第k个临界频带最高点和最低点,
Figure FDA0003895985790000039
为临界带宽听觉谱;
4-3、RASTA滤波的Z变换公式进行滤波:
Figure FDA00038959857900000310
z为声音信号的自变量m在复频域对应的自变量;
4-4、进行等响度预加重:
Figure FDA00038959857900000311
f0为对应临界频带中心点的频率;
4-5、对等响度预加重后的信号求立方根,并进行逆傅里叶 变换;
4-6、将傅里叶逆变换后得到的信号,根据莱文逊-杜宾方法提取线性预测系数,得到PLP系数plp(d,dim);
通过步骤5把从噪声信号中提取到的特征,定义成为一个声学四元数
Figure FDA0003895985790000041
定义如下:
Figure FDA0003895985790000042
其中
Figure FDA0003895985790000043
为每种信号的每11帧,具体指
Figure FDA0003895985790000044
dim为特征维度;
通过步骤6将每种信号的四元数特征扩展成为四元数增广向量形式:
qin=[q q* qi* qj*],其中
Figure FDA0003895985790000045
其中,i2=j2=k2=ijk=-1,ij=k,ji=-k,ik=j,ki=-j,jk=i,kj=-i,q*称为q的共轭形式,qi、qj称为q的GHR算子,具体指
qi=iqi=0+mfcci-lspj-plpk
qj=jqj=0-mfcci+lspj-plpk
通过步骤7将每种信号特征的四元数增广向量作为输入,参考实值极限学习机,建立模型训练;
7-1、给出了一个训练集
Figure FDA0003895985790000046
其中
Figure FDA0003895985790000047
(y由训练集的样本总种类决定,Q4dim、Qy则是指四元数域中,4dim、y维的向量,M是训练集的样本个数)以及具有激活函数h(qin;wp,bp)和L个隐藏节点的单隐层网络;
7-2、输入四元数增广向量qin,随机产生输入权重wp和偏差bp,p=1,2,...,L;带入激活函数h(qin;wp,bp),得到输出矩阵Hai,其解析解由具体激活函数决定;此处使用sigmiod函数,则公式为
Figure FDA0003895985790000048
其中HR ai、Hi ai、Hj ai、Hk ai为Hai的实部分量和三个虚部分量;
7-3、将Hai分解得到HRe ai和HIm ai,Hai=(HR ai+Hi aii)+(Hj ai+Hk aii)j=HRe ai+HIm aij,即HRe ai=HR ai+Hi aii、HIm ai=Hj ai+Hk aii,然后根据公式得到四元数矩阵算子He ai
Figure FDA0003895985790000051
7-4、根据权重矩阵
Figure FDA0003895985790000052
的公式得到
Figure FDA0003895985790000053
的四元数矩阵算子
Figure FDA0003895985790000054
Te由T=[t(1),t(2),...,t(M)]T参照步骤7-3求得He ai的方法得到;
7-5、最后根据
Figure FDA0003895985790000055
Figure FDA0003895985790000056
反推得到权重矩阵
Figure FDA0003895985790000057
2.根据权利要求1所述的基于超复数随机神经网络的城市噪声识别方法,其特征在于通过步骤8将需要分类的信号,通过步骤1-步骤6进行特征提取,将提取的特征输入步骤7所得分类器,可得到分类结果,识别出该信号所属的城市噪声种类。
CN202010029066.9A 2020-01-12 2020-01-12 基于超复数随机神经网络的城市噪声识别方法 Active CN111540373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010029066.9A CN111540373B (zh) 2020-01-12 2020-01-12 基于超复数随机神经网络的城市噪声识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010029066.9A CN111540373B (zh) 2020-01-12 2020-01-12 基于超复数随机神经网络的城市噪声识别方法

Publications (2)

Publication Number Publication Date
CN111540373A CN111540373A (zh) 2020-08-14
CN111540373B true CN111540373B (zh) 2022-12-02

Family

ID=71974799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010029066.9A Active CN111540373B (zh) 2020-01-12 2020-01-12 基于超复数随机神经网络的城市噪声识别方法

Country Status (1)

Country Link
CN (1) CN111540373B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104900229A (zh) * 2015-05-25 2015-09-09 桂林电子科技大学信息科技学院 一种语音信号混合特征参数的提取方法
CN105070291A (zh) * 2015-07-21 2015-11-18 国网天津市电力公司 基于动态时间规整技术的声控门系统
CN106992011A (zh) * 2017-01-25 2017-07-28 杭州电子科技大学 基于mf‑plpcc特征的工程机械声音识别方法
CN107610692A (zh) * 2017-09-22 2018-01-19 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法
CN108630209A (zh) * 2018-04-24 2018-10-09 中国科学院深海科学与工程研究所 一种基于特征融合与深度置信网络的海洋生物识别方法
CN109215665A (zh) * 2018-07-20 2019-01-15 广东工业大学 一种基于3d卷积神经网络的声纹识别方法
CN109886281A (zh) * 2019-02-22 2019-06-14 哈工大机器人(山东)智能装备研究院 一种基于四元数超限学习机彩色图像识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2984649B1 (en) * 2013-04-11 2020-07-29 Cetin CETINTURK Extraction of acoustic relative excitation features

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104900229A (zh) * 2015-05-25 2015-09-09 桂林电子科技大学信息科技学院 一种语音信号混合特征参数的提取方法
CN105070291A (zh) * 2015-07-21 2015-11-18 国网天津市电力公司 基于动态时间规整技术的声控门系统
CN106992011A (zh) * 2017-01-25 2017-07-28 杭州电子科技大学 基于mf‑plpcc特征的工程机械声音识别方法
CN107610692A (zh) * 2017-09-22 2018-01-19 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法
CN108630209A (zh) * 2018-04-24 2018-10-09 中国科学院深海科学与工程研究所 一种基于特征融合与深度置信网络的海洋生物识别方法
CN109215665A (zh) * 2018-07-20 2019-01-15 广东工业大学 一种基于3d卷积神经网络的声纹识别方法
CN109886281A (zh) * 2019-02-22 2019-06-14 哈工大机器人(山东)智能装备研究院 一种基于四元数超限学习机彩色图像识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于△MFCC和KNN的挖掘设备声音识别;赵拓等;《工业控制计算机》;20160425(第04期);113-115 *
基于四元数矩阵的谐波信号多参量联合估计;汪飞等;《系统工程与电子技术》;20090915(第09期);11-15 *
增广四元数超限学习机的学习算法研究;吕慧;《中国优秀硕士学位论文全文数据库》;20180615;35-46 *
正则化超限学习机的多分块松弛交替方向乘子法;张立佳等;《模式识别与人工智能》;20191215(第12期);49-57 *

Also Published As

Publication number Publication date
CN111540373A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN101599271B (zh) 一种数字音乐情感的识别方法
CN103646649B (zh) 一种高效的语音检测方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN111816218A (zh) 语音端点检测方法、装置、设备及存储介质
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN111261189B (zh) 一种车辆声音信号特征提取方法
CN103854646A (zh) 一种实现数字音频自动分类的方法
CN112257521A (zh) 基于数据增强和时频分离的cnn水声信号目标识别方法
Wickramasinghe et al. Frequency Domain Linear Prediction Features for Replay Spoofing Attack Detection.
CN112786059A (zh) 一种基于人工智能的声纹特征提取方法及装置
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN109036470A (zh) 语音区分方法、装置、计算机设备及存储介质
Hasan et al. Preprocessing of continuous bengali speech for feature extraction
Imran et al. An analysis of audio classification techniques using deep learning architectures
Nawas et al. Speaker recognition using random forest
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN112908340A (zh) 一种基于全局-局部加窗的声音特征快速提取方法
CN111540373B (zh) 基于超复数随机神经网络的城市噪声识别方法
Iwok et al. Evaluation of Machine Learning Algorithms using Combined Feature Extraction Techniques for Speaker Identification
CN117198299A (zh) 一种基于时域频域编码特征的语音欺骗检测方法
Kamble et al. Teager energy subband filtered features for near and far-field automatic speech recognition
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Aggarwal et al. Performance evaluation of artificial neural networks for isolated Hindi digit recognition with LPC and MFCC
CN112201226B (zh) 一种发声方式判别方法及系统
CN111091816B (zh) 一种基于语音评测的数据处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant