CN116665681A - 一种基于组合滤波的雷声识别方法 - Google Patents
一种基于组合滤波的雷声识别方法 Download PDFInfo
- Publication number
- CN116665681A CN116665681A CN202211472891.1A CN202211472891A CN116665681A CN 116665681 A CN116665681 A CN 116665681A CN 202211472891 A CN202211472891 A CN 202211472891A CN 116665681 A CN116665681 A CN 116665681A
- Authority
- CN
- China
- Prior art keywords
- frame
- thunder
- filtering
- data
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000001228 spectrum Methods 0.000 claims abstract description 84
- 230000003595 spectral effect Effects 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000001514 detection method Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims description 35
- 238000009432 framing Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 16
- 238000011282 treatment Methods 0.000 claims description 14
- 238000009499 grossing Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 9
- 238000012952 Resampling Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 241000287828 Gallus gallus Species 0.000 claims description 4
- 230000007547 defect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 6
- 238000007781 pre-processing Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 24
- 230000000694 effects Effects 0.000 description 11
- 230000037433 frameshift Effects 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000011276 addition treatment Methods 0.000 description 1
- 201000007201 aphasia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002500 effect on skin Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于组合滤波的雷声识别方法,该方法包括如下步骤:首先对待识别数据与训练数据进行由数据预处理、维纳滤波、谱减法滤波以及低通滤波组成的组合滤波,然后提取数据的声谱特征,并基于深度卷积神经网络对训练数据的特征向量进行训练得到雷声识别模型,进而结合待识别数据的特征向量得到识别结果,最后针对雷声音频通过频域BARK子带方差的端点检测得到雷声到达时间。本发明利用三种滤波技术的合理组合与深度学习大大提高了雷声识别的准确率以及稳定性,而且满足了雷电定位对雷电到达时间的需求。
Description
技术领域
本发明涉及雷电信号监测与滤波技术领域,具体而言,涉及一种基于组合滤波的雷声识别方法。
背景技术
对雷电信号的实时监测是实现雷电定位与预警的基础,是实现防雷减灾的重要步骤,我国虽已在全国多省建立雷电检测系统。但是当前的雷电监测系统为多站系统,难以满足各类地形的要求(如:海洋、山地),同时受监测范围的影响,无法满足化学工厂、油库和信号基站等地点对近距离(20km)范围内的雷电监测预警的需求。在2012年章涵等依靠雷声信号设计了一款单站定位系统,但可惜的是在其方案中,并没有考虑雷声的识别问题。
单站雷电定位是通过雷声信号和电磁信号的到达时间差算法,从而确定了雷声声源,在收集雷声信号时,由于采集到的音频中包含雷声在内的多种声音,为保证高效准确获取有效数据,需对雷声进行识别。虽然,深度学习等方法已经用于雷声识别,但是在已有的单站闪电定位方法中,对背景噪音的滤除不足,导致虚假信号较多,导致识别准确性低,效果不稳定。此外,已有的方法不能实现对雷声到达时间的实时判断,不适合用于雷电定位。因此设计一种滤波性能优秀、识别效果稳定、能够实现雷声到达时间判断的雷声识别方法,为雷电监测预警提供有力支持,成为行业所需。
发明内容
针对滤波效果对雷声识别准确率的影响与双门限法对时间端点的判断作用,本发明提出了一种基于组合滤波的雷声识别方法,目的在于利用深度学习对声音识别的高准确性和高效性以及端点检测对雷声发生时间的判断作用的同时,能够根据雷声能量的分布特征,使用维纳滤波、谱减法滤波、低通滤波的组合滤波方式达到较优的滤波效果,并结合多样化训练数据,满足雷声定位时对声音识别准确率、稳定性以及所需雷声到达时间的要求。
本方案所涉及的技术方案如下:一种基于组合滤波的雷声识别方法,该方法包括以下步骤:
(1)对待识别雷声数据与训练数据进行组合滤波,根据雷声能量主要集中在低频部分,信噪比低,自然背景下有较多杂音等特征,首先进行维纳滤波提高,从而提高声音信噪比,滤除400Hz以上的高频信号,对雷声信号进行增强处理;随后进行谱减法滤波,进一步对雷声信号进行增强,更好地实现时间序列较前信号的噪声处理;最后进行低通滤波,滤波了200Hz以上的高频谐波部分,弥补维纳滤波与谱减法滤波的不足;
(2)对滤波后的数据提取声谱特征;
(3)对训练数据中的雷声数据与非雷声数据进行标记,训练数据的声谱特征向量和对应标签输入神经网络进行训练,获得雷声识别模型,然后将待识别的雷声数据的声谱特征作为特征向量结合训练神经网络后得到雷声识别模型,判断待识别雷声数据是否为雷声;
(4)对识别为雷声的数据进行频域BARK子带方差的端点检测,判断雷声音频中雷声片段的时间点;
(5)输出雷声到达时间与识别结果。
作为优选的,步骤(1)中的训练数据均来自不同地区自然环境背景下采集得到的音频数据,包含雨声、雷声、道路杂音、汽车鸣笛音、海浪声以及鸡鸣狗叫声等多种干扰声音样本,保证训练数据的多样性,从而使神经网络应对各样的音频数据都能够保持识别的高准确率。
作为优选的,步骤(1)中设计组合滤波具体过程如下:
首先对数据依次进行归一化、叠加高斯白噪声、预加重、分帧加窗、快速傅里叶变换处理;然后对数据计算能熵比,使用双门限法进行能熵比端点检测,进而根据检测结果计算带噪信号的功率谱估计值,避免维纳滤波中数据在开始时刻含有雷声;然后计算维纳滤波的增益函数,对幅值进行处理;维纳滤波后的数据重新合成语音,再次进行归一化、叠加高斯白噪声、分帧加窗、快速傅里叶变换处理;进而利用多窗谱法计算功率谱估计并平滑处理后,计算谱减法滤波的增益因子,优选过减因子为2.8(既可以有效地去除噪音信号,也可以确保雷声信号不失真),增益补偿因子为0.001,对幅值进行处理,再次合成语音;最后将谱减法滤波后信号的时间序列输入切比雪夫Ⅱ型低通滤波器(优截止频率为200Hz,阻带频率为250Hz),由于雷声的频段主要集中在低频部分,因此对200Hz以上的高频信号进行了滤除,最后输出低通滤波后信号的时间序列,完成组合滤波。
作为优选的,所述的能熵比端点检测过程如下:
式中,p(i,n)表示第n帧第i各频率分量对应的概率密度,Y(i,n)表示快速傅里叶变化后第n帧第i各频率分量对应的幅值,P表示分帧后的帧数,E(n)表示第i帧的能量值,进而取得每帧的短时谱熵,谱熵值函数定义如下:
式中,H(n)表示第n帧的短时谱熵值,由以上过程得到各帧能量值E(n)与各帧短时谱熵值H(n)带入能熵比函数计算,并对能熵比进行归一化,能熵比函数定义如下:
式中,Ef(n)表示各帧的能熵比,筛选归一化后能熵比大于T1(本实例优选T1为0.1)的语音帧,将相邻帧记为一个有声段,并记录每帧与各有声段的信息,在筛选得到的能熵比大于T1的有声段中,剔除帧数长度小于minl(本实例优选minl为5)的有声段,将筛选后的有声段中第一帧和最后一帧在原信号中的帧数位置分别记录为l1和l2,设置一个长度P的空数组SF,令索引为l1~l2的值为1,记录每帧是否有声音;然后计算初始噪声功率谱方差L的具体计算公式如下:
式中,L(i)表示第i个频率分量的初始噪声功率谱方差,T表示转置;然后根据无话段帧数Pn对数组SF进行更新,对于索引为小于等于Pn的值重新赋值为0;最后根据数组SF的值(0或1)对每帧进行更新,以第n帧为例,若SF(n)为1,则不需对功率谱估计进行更新,即 n=1,2,…,Pn;初始化Lu(i,0)=L(i),若SF(n)为0,则需对功率谱估计进行更新:
式中,Lu(i,n)表示第n帧第i个频率分量的频率谱估计值。
作为优选的,所述维纳滤波增益函数计算公式如下:
S(i,n)=G(i,n)2×Y(i,n)2,i=1,2,…,[(N/2)+1],n=1,2,…,P (8)
式中,G(i,n)表示第n帧第i个频率分量信号的谱增益函数,SNRl(i,n)为第n帧第i个频率分量的后验信噪比,Lu(i,n)表示第n帧第i个频率分量的噪声功率谱估计;本发明选用α为0.99,SNRp(i,n)为第n帧第i个频率分量的先验信噪比,S(i,n)为纯净声音信号第n帧第i个频率分量的功率谱估计;
所述谱减法滤波的增益因子计算公式如下:
式中,α为过减因子,本发明优选过减因子为2.8;β为增益补偿因子,优选增益补偿因子为0.001;Ln(i)表示第i个频率分量的前导无语短平均功率谱,Lp(i,n)为第n帧第i个频率分量平滑后的功率谱估计值,g(i,n)和g′(i,n)为第n帧第i个频率分量的增益因子两种计算公式,当第n帧第i个频率分量的g(i,n)大于0时,增益因子G′(i,n)等于g(i,n);反之当第n帧第i个频率分量的g(i,n)小于0时,增益因子G′(i,n)等于g′(i,n)。
作为优选的,所述切比雪夫Ⅱ型低通滤波器截止频率为200Hz,阻带频率为250Hz,波纹通为1dB,阻带衰减为80dB。
作为优选的,所述声谱特征的计算过程如下:
首先对于时长为5秒的组合滤波后的训练数据与待识别数据,只提取时长为2.97秒信号的时间序列,并对其进行分帧加窗、快速傅里叶变换处理,移选取为1024,帧长N为2048,共分帧为127帧;然后计算滤波器端点,本发明中使用40个Mel滤波器,upper频率限制为22.05KHz,lower频率限制为300Hz,将upper频率与lower频率转化为对数频率分别为3923.33和401.97,转化公式如下:
式中,f′为转化后的对数频率,f为Hz频率;由于本实例使用40个滤波器,需要在3923.33和401.97之间划分出42个点,m=(401.97,487.85,…,3923.33);将m(i)由式(28)重新变回Hz频率h(i),计算FFT bin,公式如下:
式中,f(i)对应各相邻频点,floor表示向下取整;最后计算声谱能量特征:其计算公式如下:
式中,Hm(i)为第m个滤波器输出的第i各频率分量的权重,T(n,m)表示第n帧的第m个特征值;然后对每帧数据进行归一化处理,每一帧的各特征值减去该帧的平均值,保证每帧的平均值为零;最终输出128×128×1的特征矩阵,空缺值用0补齐。
作为优选的,步骤(3)中的神经网络构架选用11层卷积核为3×3的卷积层与4层池化核为2×2最大池化层进行特征提取,使用多个较小的卷积核(3×3)的卷积层代替一个较大卷积核的卷积层,这样既可以减少参数,又可以有更多的非线性映射,可以增加网络的拟合表达能力;并使用3个全连接层、1个输入层与1个输出层;具体架构如图4所示。
作为优选的,步骤(4)中频域BARK子带方差的端点检测的步骤如下:
首先设置BARK子带,本发明中使用的数据采样率为fs=44.1KHz,在中有25条BARK子带;对数据依次进行归一化、叠加高斯白噪声、分帧加窗、快速傅里叶变换处理;然后对数据通过重采样的处理方式进行插值处理,根据重采样后的采样率重新去除大于此时采样率的BARK子带;进而计算每帧中BARK子带的方差,然后对每帧的方差采用多次中值滤波的方法进行平滑处理,利用平滑后方差的平均值的15倍与30倍分别作为双门限法的较低阈值T1与较高阈值T2,最后利用双门限法对每帧的方差进行判断得到雷声的时间片段,初始化有声参数为1,无声参数为0;判断过程由第一个判断模块开始:
(2)当第n帧的方差超过T2时,认为该帧位于语音段,有声参数加1,进入第二个判断模块,直接判断下一帧方差是否超过T1:
(1.3)若该帧的方差大于T1,认为该帧保持在语音段中,有声参数加1,继续判断下一帧方差是否大于T1,直至小于T1;
(1.4)若该帧的方差小于T1,无声参数加1,进入第三个判断模块:首先判断无声参数是否小于8,如果小于8,则有声参数加1,并返回第二判断模块判断下一帧方差是否大于T1,直至无声参数大于等于8;如果无声参数大于等于8且有声参数小于5,则认为该段语音太短,为噪声,所有参数归零;如果无声参数大于等于8且有声参数大于等于5,则认为有声片段结束,记录该有声片段的各帧,然后一切参数归零,为下一个语音做准备;
(2)当第n帧的方差大于T1小于T2,认为该可能处于语音段,有声参数加1,继续在第一个判断模块,判断下一帧;
(3)当第n帧的方差小于T1,则认为处于静音,继续在第一个判断模块判断下一帧;
其中,(1)、(2)、(3)为第一判断模块,(1.1)为第二判断模块,(1.2)包括第二判断模块与第三判断模块;根据记录的有声片段的各帧的信息,得到雷声到达时间。
本发明相比现有技术具有如下有益效果:
1.本发明根据雷声能量在频段中的分布特征,设计的组合滤波,可以较优的滤除干扰信号,提高神经网络识别的准确性与稳定性。
2.本发明利用深度卷积神经网络对滤波后的雷声声谱特征进行分析识别,能够对各种类型雷声的识别准确率达到93%以上。
3.本发明将在雷声识别的同时,可以判断雷声到达的时间段,适合应用于雷声定位技术之中,减轻了人工判断的工作量。
附图说明
图1为本发明的方法流程图;
图2为本发明的组合滤波流程图;
图3为本发明的频域BARK子带方差的端点检测的流程图;
图4为卷积神经网络架构的示意图;
图5为音频原始时域波形与组合滤波波形对比例图;
图6为神经网络识别准确率对比图;
图7为频域BARK子带方差的端点检测结果例图。
具体实施方式
如附图1-4所示的一种基于组合滤波的雷声识别方法,该方法包括以下步骤:
(1)对待识别雷声数据与训练数据进行组合滤波,根据雷声能量主要集中在低频部分,信噪比低,自然背景下有较多杂音等特征,首先进行维纳滤波提高,从而提高声音信噪比,滤除400Hz以上的高频信号,对雷声信号进行增强处理;随后进行谱减法滤波,进一步对雷声信号进行增强,更好地实现时间序列较前信号的噪声处理;最后进行低通滤波,滤波了200Hz以上的高频谐波部分,弥补维纳滤波与谱减法滤波的不足;
(2)对滤波后的数据提取声谱特征;
(3)对训练数据中的雷声数据与非雷声数据进行标记,训练数据的声谱特征向量和对应标签输入神经网络进行训练,获得雷声识别模型,然后将待识别的雷声数据的声谱特征作为特征向量结合训练神经网络后得到雷声识别模型,判断待识别雷声数据是否为雷声;
(4)对识别为雷声的数据进行频域BARK子带方差的端点检测,判断雷声音频中雷声片段的时间点;
(5)输出雷声到达时间与识别结果。
训练数据来自多个地区自然环境背景下采集得到的音频数据,时长为5秒,采样率为44.1KHz,包括雷声数据与非雷声数据(非雷声数据中包含雨声、道路杂音、汽车鸣笛音、海浪声以及鸡鸣狗叫声等多种干扰声音样本,这些声音样本被集中分类成非雷声样本数据集中)。
组合滤波过程为:首先对数据依次进行归一化、叠加高斯白噪声、预加重、分帧加窗、快速傅里叶变换处理;然后对数据计算能熵比,使用双门限法进行能熵比端点检测,进而根据检测结果计算带噪信号的功率谱估计值,避免维纳滤波中数据在开始时刻含有雷声;然后计算维纳滤波的增益函数,对幅值进行处理;维纳滤波后的数据重新合成语音,再次进行归一化、叠加高斯白噪声、分帧加窗、快速傅里叶变换处理;进而利用多窗谱法计算功率谱估计并平滑处理后,计算谱减法滤波的增益因子,优选过减因子为2.8(既可以有效地去除噪音信号,也可以确保雷声信号不失真),增益补偿因子为0.001,对幅值进行处理,再次合成语音;最后将谱减法滤波后信号的时间序列输入切比雪夫Ⅱ型低通滤波器(优截止频率为200Hz,阻带频率为250Hz),由于雷声的频段主要集中在低频部分,因此对200Hz以上的高频信号进行了滤除,最后输出低通滤波后信号的时间序列,完成组合滤波。
本发明所设计的一种基于组合滤波的雷声识别方法,是基于卷积神经网络、多种滤波方法和端点检测方法所开发的;该方法对雷声待识别数据与训练数据依次进行预处理、维纳滤波、谱减法滤波以及低通滤波,提高声音的信噪比,获得雷声主要频率部分;然后提取滤波后的音频信号的声谱特征,将训练数据的声谱特征向量与相应数据分类标签一起输入神经网络进行训练,得到雷声识别模型;再将待识别音频的声谱特征向量输入模型进行模型匹配,得到识别结果;最后对识别为雷声的音频进行频域BARK子带方差的端点检测,输出雷声发生的时间。如图1所示,具体实施步骤如下:
S1,组合滤波:该过程首先对音频信号进行归一化、叠加高斯白噪声、预加重、分帧加窗等滤波前的数据预处理;然后进行能熵比端点检测,避免信号从开始时刻及含有雷声,为维纳滤波做准备;再依次计算维纳滤波增益函数和谱减法滤波增益因子进行维纳滤波和谱减法滤波,最后经设计的切比雪夫Ⅱ型低通滤波器完成滤波,输出信号的时间序列;如图2所示,具体过程如下:
S11,数据预处理:首先读入音频信号的时间序列x(n1)与该音频的采样率fs(其中,n1的值等于音频时长乘音频采样率fs),本实例中设置帧长N为0.025×fs(即取帧长为25ms),帧移M为0.01×fs(即取帧移为10ms),本实例中fs为44.1KHz,前导无话语长度为0.25s;
第一步处理为消除音频信号直流分量,并对幅值进行归一化处理,涉及公式如下:
式中,max(|x(j)|)表示数组x中绝对值最大的值;
第二步处理为叠加高斯白噪声到音频信号x中,生成与音频信号x相同大小的高斯白噪音矩阵nx,分别计算音频信号与高斯白噪声的平均能量x_power和n_power,平均能量计算公式如下:
然后计算出按噪声的平均能量构成的相应白噪声nw,在本实例中设定信噪比SNR为5dB,叠加噪声后的信号y(i)=x(i)+nw(i),式中,i表示第i个采样点,nw(i)的形式如下:
第三步处理为预加重处理,叠加高斯白噪声后的音频信号,在信号传输时存在趋肤效应与介质损耗,预加重处理在一定程度上弥补了高频部分的损耗,使用一维滤波器对带噪信号进行处理,本实例中该滤波器处理函数为:ay′(i)=)(1(y(b)+b(2)uyi-1),本实例中选取的参数a、b(1)和b(2)分别为1、1和-0.97,式中,y′(i)经过预加重处理后的第i点的信号。
第四步处理为设置窗函数与分帧,按照帧长N与帧移SP对带噪信号y′进行分帧处理,设分帧后第n帧第i个采样点的数据表示为yn(i),其中i=1,2,…,N,总帧数P为(n1-N+M)/M,使用汉明窗w(n)作为窗函数,将每帧的数据乘汉明窗,以第n帧第i个频率分量的数据为例,加窗后的形式为,y′n(i)=yn(i)×w(i),w(i)的形式如下:
第五步处理为快速傅里叶变换,对上一步骤中分帧加窗后的信号进行快速傅里叶变换,得到各帧的频谱Yn=[Yn(1),Yn(2),…,Yn(N)]T:
式中,Yn(i)表示第n帧第i个频率分量的谱值,最终经变化后可得到一个大小为N×P矩阵;由于快速傅里叶变化结果的对称性,只使用前个频率分量的谱值,并取快速傅里叶变化后各帧各频率分量的正频率谱值/>与相位角/>式中,[]符号表示取数字的整数部分。
第六步处理为计算无语话段的帧数Pn,公式如下:
式中,0.25为无语段长度,fs、N和M分别为采样率、帧长和帧移。
S12,能熵比端点检测:维纳滤波法需要设定一个前导无雷声段长度,本实例中规定了该值为0.25s,为了避免音频信号从0时刻开始包含有雷声信号,在维纳滤波之前,需对声音信号进行能熵比端点检测,用双门限的方式进行判断,若能熵比值大于某一阈值,并且持续某一固定时长时,便认为该段信号为有雷声信号,进而根据检测结果计算带噪信号的功率谱估计值,具体步骤如下:
由S11中得到的正频率谱值分别计算每个频率分量的归一化谱概率密度和每帧的能量值,归一化谱概率密度函数和能量值计算公式如下:
式中,p(i,n)表示第n帧第i个频率分量对应的概率密度,E(n)表示第i帧的能量值,进而取得每帧的短时谱熵,谱熵值函数定义如下:
式中,H(n)表示第n帧的短时谱熵值。由以上过程得到各帧能量值E(n)与各帧短时谱熵值H(n)带入能熵比函数计算,并对能熵比进行归一化,能熵比函数定义如下:
式中,Ef(n)表示各帧的能熵比,筛选归一化后能熵比大于T1(本实例优选T1为0.1)的语音帧,将相邻帧记为一个有声段,并记录每帧与各有声段的信息,在筛选得到的能熵比大于T1的有声段中,剔除帧数长度小于minl(本实例优选minl为5)的有声段,将筛选后的有声段中第一帧和最后一帧在原信号中的帧数位置分别记录为l1和l2,设置一个长度P的空数组SF,令索引为l1~l2的值为1,记录每帧是否有声音,数组SF将在下一步骤中用于判断是否更新带噪信号的各帧的功率谱估计。
S13,更新带噪信号功率谱估计:首先要计算初始噪声功率谱方差L的具体计算公式如下:
式中,L(i)表示第i个频率分量的初始噪声功率谱方差,T表示转置;然后根据无话段帧数Pn对数组SF进行更新,对于索引为小于等于Pn的值重新赋值为0;最后根据数组SF的值(0或1)对每帧进行更新,以第n帧为例,若SF(n)为1,则不需对功率谱估计进行更新,即 n=1,2,…,Pn,初始化Lu(i,0)=L(i);若SF(n)为0,则需对功率谱估计进行更新:
式中,lu(i,n)表示第n帧第i个频率分量的频率谱估计值。
S14,计算维纳滤波谱增益函数与滤波:维纳滤波谱增益函数如下:
S(i,n)=G(i,n)2×Y(i,n)2,i=1,2,…,[(N/2)+1],n=1,2,…,P (20)
式中,G(i,n)表示第n帧第i个频率分量信号的谱增益函数,SNRl(i,n)为第n帧第i个频率分量的后验信噪比,由步骤S11得到的正频率谱值Y(i,n)的平方,即带噪信号第n帧第i个频率分量的功率谱与第n帧第i个频率分量的噪声功率谱估计Lu(i,n)计算得到;本实例优选α为0.99,SNRp(i,n)为第n帧第i个频率分量的先验信噪比,S(i,n)为纯净声音信号第n帧第i个频率分量的功率谱估计,可由第n帧第i个频率分量信号的谱增益函数G(i,n)与第n帧第i个频率分量正频率谱值Y(i,n)计算得到,将式(19)带入式(17)中,SNRp(i,n)的计算公式可化简如下:
因此初始第0帧各频率分量的谱增益函数和正频率谱值为1,按照帧数依次计算即可计算得到每帧每个频率分量的谱增益函数;谱增益函数与相应的幅值相乘即得到滤波后的幅值:
X1(i,n)=G(i,n)×Y(i,n) (22)
式中,X1(i,n)为维纳滤波后第n帧第i个频率分量的幅值;最后进行语音合成,利用谱值X1、相位角Ya、帧长N与帧移M重新合成语音,得到信号时间序列x′1;并针对S11中的预加处理进行消除,与此过程相反,b(1)x1(i)=ax′1(i)-b(2)x1(i-1),式中,x1(i)为消除预加重处理后的第i点的信号。并对信号x1做归一化处理,最终输出归一化后的信号x1。
S15,数据预处理:此步骤除未进行预加重处理外和帧长、帧移分别取400、160个采样点(确保声音信号的短时平稳特性)外与S11步骤相同,主要目的为重新为信号叠加高斯白噪声;输入信号x1依次经过消除直流化分量、叠加高斯白噪音、分帧加窗后得到各帧数据x′1,再经过快速傅里叶变化后得正频率谱值X′1与相位角Ya。
S16,计算功率谱估计、前导无语段平均功率谱以及平滑处理:首先对S24中得到的正频率幅值进行相邻三帧的平滑处理,其中第一帧与最后一帧不做处理,公式如下:
Y'(i,n)=0.25X′1(i,n-1)+0.5X′1(i,n)+0.25X′1(i,n+1),n=2,3,…P-1 (23)
式中,Y’(i,n)为平滑处理后第n帧第i个频率分量的幅值,然后采用多窗谱法,取分帧加窗后的每帧数据x′1分别与多个slepian窗相乘,并分别进行快速傅里叶变化,对经过快速傅里叶变换的同一帧数据相加后平均,然后计算幅值的模的平方,得到功率谱估计Lp,Lp(i,n)为第n帧第i个频率分量的功率谱估计值。再对功率谱估计进行与上一步骤中相同的平滑处理,得到平滑后的功率谱估计值,同样设为Lp;最后计算前导无语短平均功率谱,公式如下:
式中,ln(i)表示第i个频率分量的前导无语短平均功率谱。
S17,计算谱减法滤波计算因子及滤波,谱减法增益因子计算公式如下:
式中,α为过减因子,本实例优选过减因子为2.8,既可以有效地去除噪音信号,也可以确保雷声信号不失真;β为增益补偿因子,本实例优选增益补偿因子为0.001;g(i,n)和g′(i,n)为第n帧第i个频率分量的增益因子两种计算公式,当第n帧第i个频率分量的g(i,n)大于0时,增益因子G′(i,n)等于g(i,n);反之当第n帧第i个频率分量的g(i,n)小于0时,增益因子G′(i,n)等于g′(i,n);增益因子与相应的幅值相乘得到谱减法滤波后的幅值:
S18,语音合成:利用谱值X2、相位角Y′a、帧长N与帧移M重新合成语音,得到音频信号x1,并对信号x2做归一化处理,最终输出归一化后的信号时间序列x2。
S19,切比雪夫Ⅱ型低通滤波器:音频信号经过维纳滤波与谱减法滤波后,高频部分处理效果没有达到一定效果,因此通过Matlab中的fdesign.lowpass设计切比雪夫Ⅱ型低通滤波器对高频部分进行进一步滤波,由于本实例中雷声能量主要集中在低频部分,设置截止频率为200Hz,阻带频率为250Hz,波纹通为1dB,阻带衰减为80dB。将经过谱减法滤波后时间序列x2输入低通滤波器中进行滤波,最终输出信号的时间序列x3。
S2,声谱特征提取:本实例通过提取声谱能量特征,输入神经网络中进行训练与识别;提取训练数据与待识别数据声谱能量特征的具体方法如下:
S21,读入音频信号:对于时长为5秒的组合滤波后的训练数据与待识别数据,只提取时长为2.97秒的音频数据的时间序列x3与采样率fs,本实例中fs为44.1KHz。
S22,设置窗函数、分帧处理与快速傅里叶变化:本实例中帧移选取为1024,帧长N为2048,共分帧为127帧,具体步骤同S11,不再重述;最终得到快速傅里叶变化后的正频率谱值X′3,由于快速傅里叶变化结果的对称性,只使用前1023个频率分量的谱值,记为N′。
S23,滤波器端点计算:本实例中使用40个Mel滤波器,upper频率限制为22.05KHz,lower频率限制为300Hz,将upper频率与lower频率转化为对数频率分别为3923.33和401.97,转化公式如下:
式中,f′为转化后的对数频率,f为Hz频率;由于本实例使用40个滤波器,需要在3923.33和401.97之间划分出42个点,m=(401.97,487.85,…,3923.33);将m(i)由式(28)重新变回Hz频率h(i),计算FFT bin,公式如下:
式中,f(i)对应各相邻频点,floor表示向下取整。
S24,计算声谱能量特征:其计算公式如下:
式中,Hm(i)为第m个滤波器输出的第i各频率分量的权重,T(n,m)表示第n帧的第m个特征值;然后对每帧数据进行归一化处理,每一帧的各特征值减去该帧的平均值,保证每帧的平均值为零;最终输出128×128×1的特征矩阵,空缺值用0补齐。
S3,模型训练与模型匹配:本实例中的卷积神经网络模型结构如图3所示,选用11层卷积核为3×3的卷积层与4层池化核为2×2最大池化层进行特征提取,使用多个较小的卷积核(3×3)的卷积层代替一个较大卷积核的卷积层,这样既可以减少参数,又可以有更多的非线性映射,增加网络的拟合表达能力;并使用3个全连接层、1个输入层与1个输出层;在进行训练前需对训练数据中的雷声数据与非雷声数据分别进行标记,分别标记为[1,0]和[0,1]。
训练数据和待识别数据的特征向量在输入神经网络后,经过11层卷积层与4层池化层的提取后得到大小为1×1×512多维特征向量,并将多维特征向量转化为一维特征向量,其中,各卷积层与池化层的参数配置如图5所示;然后一维特征向量输入连接层进行加权求值,其中,第一个全连接层神经元个数为1024,第二个全连接层的神经个数为256个,在第一个与第二个连接层中,使用dropout功能随机停止50%的神经元的工作,防止过拟合的发生,并进一步提高神经网络的学习能力,第三个全连接层的神经元的个数为2;最后采用softmax分类器,得到大小为1×2的一维向量所代表的类别概率,待识别雷声数据输入识别时,根据概率最终输出分类结果。
S4,频域BARK子带方差的端点检测:对识别为雷声的滤波后的音频数据进行端点检测的目的为获取雷声的起止时间,实现对雷电的时间定位,如图4所示,具体步骤如下:
S41,设置BARK子带:本实例中采样率为44.1KHz,在0~22.05KHz范围内包含25个BARK子带Fk,Fk(i,2)表示第i个BARK子带的低频临界频率,Fk(i,3)表示第i个BARK子带的高频频临界频率。
S42,数据预处理:数据处理方式与S11中除未进行预加重和该处叠加噪声的信噪比10dB和帧长、帧移分别取400、160个采样点外其余步骤完全相同,最终得到快速变化后的正频率幅值为X4,帧数为P′,无语话段的帧数为P′n,每帧中有201个采样点。
S43,谱线内插:本实例中将400个采样点作为帧长,160个采样点作为帧移,因此可以获得201条正频率幅值谱线,频率分辨率为55.125Hz。根据频率群表可知,第1个BARK子带是20Hz~100Hz,而201条幅值谱线中对应1~3条频率为0Hz、55.125Hz以及110.25Hz,因此在第1个BARK子带内只能取2条谱线,利用两条谱线计算方差会带来较大的误差。本实例需通过重采样的方法对谱线进行拓宽,以便更加精准地计算BARK子带中的方差值:重采样之后的目标频率为22.05KHz,得到新的正频率谱值序列X′4。
S44,判断BARK子带的个数:在重采样之后,根据采样率的大小对0~22.05KHz内的BARK子带筛选,去除高频临界频率Fk(i,3)大于22.05KHz第一个子带,设子带个数为Q个。
S45,计算BARK子带中的方差值:计算公式如下:
式中,E(k,n)表示第k个BARK子带中第n帧中的谱值的平均值,表示第n帧的BARK子带均值,D(n)表示第n帧的BARK子带的方差。
S46,计算阈值:采用多次中值滤波的方法对方差平滑处理,减少方差的突变对端点检测的影响;将方差序列最为输入值,本实例取中值滤波的参数k为5,则平湖处理后的方差为 式中/>表示数组索引为/>到/>的值的中位数,对于不存在的索引的值默认为0,本实例中,中值滤波过程重复10次;设TH为前P′n帧方差的均值,则较低的阈值T1为15倍的TH,较高的阈值T2为30倍的TH。
S47,双门限端点检测:初始化有声参数为1,无声参数为0;第一个判断模块:
(1)当第n帧的方差超过T2时,认为该帧位于语音段,有声参数加1,进入第二个判断模块,直接判断下一帧方差是否超过T1:
(1.1)若该帧的方差大于T1,认为该帧保持在语音段中,有声参数加1,继续判断下一帧方差是否大于T1,直至小于T1;
(1.2)若该帧的方差小于T1,无声参数加1,进入第三个判断模块:首先判断无声参数是否小于8,如果小于8,则有声参数加1,并返回第二判断模块判断按下一帧方差是否大于T1,直至无声参数大于等于8;如果无声参数大于等于8且有声参数小于5,则认为该段语音太短,为噪声,所有参数归零;如果无声参数大于等于8且有声参数大于等于5,则认为有声片段结束,记录该有声片段的各帧,然后一切参数归零,为下一个语音做准备;
(2)当第n帧的方差大于T1小于T2,认为该可能处于语音段,有声参数加1,继续在第一个判断模块,判断下一帧;
(3)当第n帧的方差小于T1,则认为处于静音,继续在第一个判断模块,判断下一帧。
其中,(1)、(2)、(3)为第一判断模块,(1.1)为第二判断模块,(1.2)包括第二判断模块与第三判断模块。
S5,最后根据记录的有声片段的各帧的信息,得到雷声到达时间并输出。
应用效果例
下面将对本发明的一种基于组合滤波的雷声识别方法进行实例检验。选用包含雷声编号1在内的200个雷声样本数据与200个非雷声样本数据作为训练集,200多个雷声样本数据与300个非雷声样本数据作为测试集,训练集与测试集中均包含雨声、雷声、道路杂音、汽车鸣笛音、海浪声以及鸡鸣狗叫声等多种声音样本。
以雷声编号1的音频为例,音频原始时域波形与组合滤波波形对比如图6所示,组合滤波之后,噪音幅值为0.0035,雷声幅值为0.9392,信噪比为24.2707,比未滤波之前的信噪比提高了14.9828dB,相较于单一滤波,滤波效果也均有提升。
对音频分别进行组合滤波处理、维纳滤波处理、谱减法滤波处理、低通滤波处理、LMS滤波处理以及不处理后,得到的神经网络识别准确率如图7所示,经过组合滤波之后的识别准确率达到93.18%;经过维纳滤波之后的识别准确率达到89.77%;经过谱减法滤波之后的识别准确率达到88.64%;经过低通滤波之后识别准确率达到81.52%;经过LMS滤波之后识别准确率达到78.55%;未处理的原始数据识别准确率达到80.23%;由此可见经过组合滤波后的神经网络识别效果,相对常用的滤波方法更优;在基于卷积神经网络的环境下的声音识别准确率达到93.18%。
以雷声编号1的音频为例,在经过频域BARK子带方差端点检测后的结果如图7所示,对雷声片段的判断与雷声回放的时间相符,与声音信号的时域波形(如图5)也相符。
综上所述,本发明所提供的一种基于组合滤波的雷声识别方法,其基于多种滤波技术对自然界中的声音信号进行处理,利用深度卷积神经网络对于雷声声谱特征进行分析识别,能够对各种类型雷声的识别准确率可以达到93%以上,并且通过端点检测实现雷声到达时间的判断,在一定程度上减轻了人工判断的工作量,为雷电定位技术提供了良好的技术基础。
Claims (9)
1.一种基于组合滤波的雷声识别方法,其特征在于:该方法包括以下步骤:
(1)对待识别雷声数据与训练数据进行组合滤波,根据雷声能量主要集中在低频部分,信噪比低,自然背景下有较多杂音等特征,首先进行维纳滤波提高,从而提高声音信噪比,滤除400Hz以上的高频信号,对雷声信号进行增强处理;随后进行谱减法滤波,进一步对雷声信号进行增强,更好地实现时间序列较前信号的噪声处理;最后进行低通滤波,滤波了200Hz以上的高频谐波部分,弥补维纳滤波与谱减法滤波的不足;
(2)对滤波后的数据提取声谱特征;
(3)对训练数据中的雷声数据与非雷声数据进行标记,训练数据的声谱特征向量和对应标签输入神经网络进行训练,获得雷声识别模型,然后将待识别的雷声数据的声谱特征作为特征向量结合训练神经网络后得到雷声识别模型,判断待识别雷声数据是否为雷声;
(4)对识别为雷声的数据进行频域BARK子带方差的端点检测,判断雷声音频中雷声片段的时间点;
(5)输出雷声到达时间与识别结果。
2.根据权利要求1所述的一种基于组合滤波的雷声识别方法,其特征在于:所述的训练数据来自多个地区自然环境背景下采集得到的音频数据,时长为5秒,采样率为44.1KHz,包括雷声数据与非雷声数据(非雷声数据中包含雨声、道路杂音、汽车鸣笛音、海浪声以及鸡鸣狗叫声等多种干扰声音样本,这些声音样本被集中分类成非雷声样本数据集中)。
3.根据权利要求1所述的一种基于组合滤波的雷声识别方法,其特征在于:所述的组合滤波过程为:首先对数据依次进行归一化、叠加高斯白噪声、预加重、分帧加窗、快速傅里叶变换处理;然后对数据计算能熵比,使用双门限法进行能熵比端点检测,进而根据检测结果计算带噪信号的功率谱估计值,避免维纳滤波中数据在开始时刻含有雷声;然后计算维纳滤波的增益函数,对幅值进行处理;维纳滤波后的数据重新合成语音,再次进行归一化、叠加高斯白噪声、分帧加窗、快速傅里叶变换处理;进而利用多窗谱法计算功率谱估计并平滑处理后,计算谱减法滤波的增益因子,优选过减因子为2.8(既可以有效地去除噪音信号,也可以确保雷声信号不失真),增益补偿因子为0.001,对幅值进行处理,再次合成语音;最后将谱减法滤波后信号的时间序列输入切比雪夫Ⅱ型低通滤波器(优截止频率为200Hz,阻带频率为250Hz),由于雷声的频段主要集中在低频部分,因此对200Hz以上的高频信号进行了滤除,最后输出低通滤波后信号的时间序列,完成组合滤波。
4.根据权利要求3所述的一种基于组合滤波的雷声识别方法,其特征在于:所述的能熵比端点检测过程如下:
式中,p(i,n)表示第n帧第i各频率分量对应的概率密度,Y(i,n)表示快速傅里叶变化后第n帧第i各频率分量对应的幅值,P表示分帧后的帧数,E(n)表示第i帧的能量值,进而取得每帧的短时谱熵,谱熵值函数定义如下:
式中,H(n)表示第n帧的短时谱熵值,由以上过程得到各帧能量值E(n)与各帧短时谱熵值H(n)带入能熵比函数计算,并对能熵比进行归一化,能熵比函数定义如下:
式中,Ef(n)表示各帧的能熵比,筛选归一化后能熵比大于T1(本实例优选T1为0.1)的语音帧,将相邻帧记为一个有声段,并记录每帧与各有声段的信息,在筛选得到的能熵比大于T1的有声段中,剔除帧数小于minl(本实例优选minl为5)的有声段,将筛选后的有声段中第一帧和最后一帧在原信号中的帧数位置分别记录为l1和l2,设置一个长度P的空数组SF,令索引为l1~l2的值为1,记录每帧是否有声音;然后计算初始噪声功率谱方差L的具体计算公式如下:
式中,L(i)表示第i个频率分量的初始噪声功率谱方差,T表示转置;然后根据无话段帧数Pn对数组SF进行更新,对于索引为小于等于Pn的值重新赋值为0;最后根据数组SF的值(0或1)对每帧进行更新,以第n帧为例,若SF(n)为1,则不需对功率谱估计进行更新,即 初始化Lu(i,0)=L(i),若SF(n)为0,则需对功率谱估计进行更新:
式中,Lu(i,n)表示第n帧第i个频率分量的频率谱估计值。
5.根据权利要求3所述的一种基于组合滤波的雷声识别方法,其特征在于:所述维纳滤波增益函数计算公式如下:
S(i,n)=G(i,n)2×Y(i,n)2,i=1,2,…,[(N/2)+1],n=1,2,…,P (8)
式中,G(i,n)表示第n帧第i个频率分量信号的谱增益函数,SNRl(i,n)为第n帧第i个频率分量的后验信噪比,Lu(i,n)表示第n帧第i个频率分量的噪声功率谱估计;本发明选用α为0.99,SNRp(i,n)为第n帧第i个频率分量的先验信噪比,S(i,n)为纯净声音信号第n帧第i个频率分量的功率谱估计;
所述谱减法滤波的增益因子计算公式如下:
式中,α为过减因子,本发明优选过减因子为2.8;β为增益补偿因子,优选增益补偿因子为0.001;Ln(i)表示第i个频率分量的前导无语短平均功率谱,Lp(i,n)为第n帧第i个频率分量平滑后的功率谱估计值,g(i,n)和g′(i,n)为第n帧第i个频率分量的增益因子两种计算公式,当第n帧第i个频率分量的g(i,n)大于0时,增益因子G′(i,n)等于g(i,n);反之当第n帧第i个频率分量的g(i,n)小于0时,增益因子G′(i,n)等于g′(i,n)。
6.根据权利要求3所述的一种基于组合滤波的雷声识别方法,其特征在于:所述切比雪夫Ⅱ型低通滤波器截止频率为200Hz,阻带频率为250Hz,波纹通为1dB,阻带衰减为80dB。
7.根据权利要求1所述的一种基于组合滤波的雷声识别方法,其特征在于:所述声谱特征的计算过程如下:
首先对于时长为5秒的组合滤波后的训练数据与待识别数据,只提取时长为2.97秒信号的时间序列,并对其进行分帧加窗、快速傅里叶变换处理,移选取为1024,帧长N为2048,共分帧为127帧;然后计算滤波器端点,本发明中使用40个Mel滤波器,upper频率限制为22.05KHz,lower频率限制为300Hz,将upper频率与lower频率转化为对数频率分别为3923.33和401.97,转化公式如下:
式中,f′为转化后的对数频率,f为Hz频率;由于本实例使用40个滤波器,需要在3923.33和401.97之间划分出42个点,m=(401.97,487.85,…,3923.33);将m(i)由式(28)重新变回Hz频率h(i),计算FFT bin,公式如下:
式中,f(i)对应各相邻频点,floor表示向下取整;最后计算声谱能量特征:其计算公式如下:
式中,Hm(i)为第m个滤波器输出的第i各频率分量的权重,T(n,m)表示第n帧的第m个特征值;然后对每帧数据进行归一化处理,每一帧的各特征值减去该帧的平均值,保证每帧的平均值为零;最终输出128×128×1的特征矩阵,空缺值用0补齐。
8.根据权利要求1所述的一种基于组合滤波的雷声识别方法,其特征在于:所述的神经网络架构为11层卷积核为3×3的卷积层与4层池化核为2×2最大池化层进行特征提取,3个全连接层、1个输入层与1个输出层。
9.根据权利要求1所述的一种基于组合滤波的雷声识别方法,其特征在于:所述的频域BARK子带方差的端点检测步骤为:
首先设置BARK子带,本发明中使用的数据采样率为fs=44.1KHz,在中有25条BARK子带;对数据依次进行归一化、叠加高斯白噪声、分帧加窗、快速傅里叶变换处理;然后对数据通过重采样的处理方式进行插值处理,根据重采样后的采样率重新去除大于此时采样率的BARK子带;进而计算每帧中BARK子带的方差,然后对每帧的方差采用多次中值滤波的方法进行平滑处理,利用平滑后方差的平均值的15倍与30倍分别作为双门限法的较低阈值T1与较高阈值T2,最后利用双门限法对每帧的方差进行判断得到雷声的时间片段,初始化有声参数为1,无声参数为0;判断过程由第一个判断模块开始:
(1)当第n帧的方差超过T2时,认为该帧位于语音段,有声参数加1,进入第二个判断模块,直接判断下一帧方差是否超过T1:
(1.1)若该帧的方差大于T1,认为该帧保持在语音段中,有声参数加1,继续判断下一帧方差是否大于T1,直至小于T1;
(1.2)若该帧的方差小于T1,无声参数加1,进入第三个判断模块:首先判断无声参数是否小于8,如果小于8,则有声参数加1,并返回第二判断模块判断下一帧方差是否大于T1,直至无声参数大于等于8;如果无声参数大于等于8且有声参数小于5,则认为该段语音太短,为噪声,所有参数归零;如果无声参数大于等于8且有声参数大于等于5,则认为有声片段结束,记录该有声片段的各帧,然后一切参数归零,为下一个语音做准备;
(2)当第n帧的方差大于T1小于T2,认为该可能处于语音段,有声参数加1,继续在第一个判断模块,判断下一帧;
(3)当第n帧的方差小于T1,则认为处于静音,继续在第一个判断模块判断下一帧;
其中,(1)、(2)、(3)为第一判断模块,(1.1)为第二判断模块,(1.2)包括第二判断模块与第三判断模块;根据记录的有声片段的各帧的信息,得到雷声到达时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211472891.1A CN116665681A (zh) | 2022-11-23 | 2022-11-23 | 一种基于组合滤波的雷声识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211472891.1A CN116665681A (zh) | 2022-11-23 | 2022-11-23 | 一种基于组合滤波的雷声识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116665681A true CN116665681A (zh) | 2023-08-29 |
Family
ID=87712378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211472891.1A Pending CN116665681A (zh) | 2022-11-23 | 2022-11-23 | 一种基于组合滤波的雷声识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665681A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117786398A (zh) * | 2024-02-28 | 2024-03-29 | 杰创智能科技股份有限公司 | 跳频信号特征识别方法、系统、电子设备及存储介质 |
CN117786398B (zh) * | 2024-02-28 | 2024-05-31 | 杰创智能科技股份有限公司 | 跳频信号特征识别方法、系统、电子设备及存储介质 |
-
2022
- 2022-11-23 CN CN202211472891.1A patent/CN116665681A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117786398A (zh) * | 2024-02-28 | 2024-03-29 | 杰创智能科技股份有限公司 | 跳频信号特征识别方法、系统、电子设备及存储介质 |
CN117786398B (zh) * | 2024-02-28 | 2024-05-31 | 杰创智能科技股份有限公司 | 跳频信号特征识别方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197670B (zh) | 音频降噪方法、装置及电子设备 | |
CN103026407B (zh) | 带宽扩展器 | |
EP0751491B1 (en) | Method of reducing noise in speech signal | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
CN109378013B (zh) | 一种语音降噪方法 | |
CN110120227A (zh) | 一种深度堆叠残差网络的语音分离方法 | |
CN110265065B (zh) | 一种构建语音端点检测模型的方法及语音端点检测系统 | |
Pang | Spectrum energy based voice activity detection | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
Mallidi et al. | Novel neural network based fusion for multistream ASR | |
CN112786059A (zh) | 一种基于人工智能的声纹特征提取方法及装置 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN111508518A (zh) | 一种基于联合字典学习和稀疏表示的单通道语音增强方法 | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
CN111341331B (zh) | 基于局部注意力机制的语音增强方法、装置及介质 | |
CN112233657B (zh) | 一种基于低频音节识别的语音增强方法 | |
CN111341351B (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
CN108053842A (zh) | 基于图像识别的短波语音端点检测方法 | |
CN116665681A (zh) | 一种基于组合滤波的雷声识别方法 | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
CN112270934B (zh) | 一种nvoc低速窄带声码器的语音数据处理方法 | |
CN111968627B (zh) | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 | |
CN112908340A (zh) | 一种基于全局-局部加窗的声音特征快速提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |