CN112908344A - 一种鸟鸣声智能识别方法、装置、设备和介质 - Google Patents
一种鸟鸣声智能识别方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN112908344A CN112908344A CN202110090995.5A CN202110090995A CN112908344A CN 112908344 A CN112908344 A CN 112908344A CN 202110090995 A CN202110090995 A CN 202110090995A CN 112908344 A CN112908344 A CN 112908344A
- Authority
- CN
- China
- Prior art keywords
- bird song
- target
- signal
- bird
- song signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013145 classification model Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 38
- 230000009467 reduction Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000003321 amplification Effects 0.000 claims description 9
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 241000271566 Aves Species 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000191 radiation effect Effects 0.000 description 1
- 238000006722 reduction reaction Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Auxiliary Devices For Music (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种鸟鸣声智能识别方法、装置、设备和介质,方法包括:获取原始鸟鸣声信号;采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号;从所述目标鸟鸣声信号中提取目标特征;根据所述目标特征训练得到目标分类模型;通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果。本发明提高了鸟鸣声的识别准确率,可广泛应用于声信号处理技术领域。
Description
技术领域
本发明涉及声信号处理技术领域,尤其是一种鸟鸣声智能识别方法、装置、设备和介质。
背景技术
随着人们对环境保护的意识不断增强,如何就生物的多样性进行监测,以了解生物多样性现状、变化趋势,进而制定有效保护措施,成为当下热门的问题。对于鸟类生物,由于鸟类分布广泛,对环境的变化比较敏感,而且收集鸟类数据相对简单,所以鸟类是生物多样性监测的重要指示类群。
传统的鸟类调查监测采用分层随机抽样的取样策略,包括采用样线法和样点法进行调查。随着计算机技术和数字信号处理技术的发展,使得人们能通过收集大量的实际采集到的鸟鸣声,经过预处理和特征提取,使用机器学习或深度学习的方法使机器学习到不同鸟类的深层特征。这种智能鸟鸣声识别系统只要有足够的数据进行驱动,结合有效的方法就能使识别的效果与鸟类专家媲美,为生态系统和环境质量提供依据。
但是,在实际环境下采集到的鸟鸣声音频存在背景噪声较大、鸟类种类复杂的问题,导致现有的一些鸟鸣声识别系统识别率不高。而且随着神经网络需要识别的种类增多,直接把网络预测的概率分布作为最终结果显然不是最优的方法,需要加入判决融合方法使整个系统更有鲁棒性。
发明内容
有鉴于此,本发明实施例提供一种准确率高的鸟鸣声智能识别方法、装置、设备和介质。
本发明的第一方面提供了一种鸟鸣声智能识别方法,包括:
获取原始鸟鸣声信号;
采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号;
从所述目标鸟鸣声信号中提取目标特征;
根据所述目标特征训练得到目标分类模型;
通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果。
在一些实施例中,所述采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号这一步骤之前,还包括:
将所述原始鸟鸣声信号中幅度最大的点放大到设定阈值;
记录所述放大过程中幅度最大的点的放大比例;
根据所述放大比例,将所述原始鸟鸣声信号中所有点进行放大处理。
在一些实施例中,所述采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号,包括:
计算所述原始鸟鸣声信号的先验信噪比,确定所述原始鸟鸣声信号中的鸟鸣声帧和噪声帧;
通过最大后验估计器对所述噪声帧进行降噪处理,得到已降噪的目标鸟鸣声文件和每一帧鸟鸣声存在概率的文件。
在一些实施例中,所述采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号这一步骤之后,还包括:
对所述目标鸟鸣声信号进行分割处理,去除所述目标鸟鸣声信号中的静音段;
根据所述每一帧鸟鸣声存在概率的文件,将所述目标鸟鸣声进行分段处理,得到数据维度一致的多个鸟鸣声片段。
在一些实施例中,所述从目标鸟鸣声信号中提取目标特征,包括:
通过一阶高通滤波器对所述目标鸟鸣声信号进行预加重处理,得到第一鸟鸣声信号;
按照预设的帧长,对所述第一鸟鸣声信号进行分帧处理,得到第二鸟鸣声信号;
对所述第二鸟鸣声信号进行加窗处理,得到第三鸟鸣声信号;
对所述第三鸟鸣声信号进行快速傅里叶变换处理,得到第四鸟鸣声信号;
通过梅尔滤波器组对所述第四鸟鸣声信号进行平滑化处理,得到第五鸟鸣声信号;
对所述第五鸟鸣声信号进行对数运算,得到对数能量;
对所述对数能量进行离散余弦变换,得到MFCC参数;
根据所述MFCC参数,对所述第五鸟鸣声信号进行差分变换,得到目标特征。
在一些实施例中,根据所述目标特征训练得到目标分类模型,包括:
获取所述目标特征中包含的MFCC参数作为分类模型的输入数据,并根据所述输入数据进行训练;所述分类模型采用DenseNet和BLSTM结合的网络结构;
采用交叉熵函数作为所述分类模型的损失函数,将所述分类模型训练得到目标分类模型;
其中,所述DenseNet包括密集块和过渡层;
所述密集块中的非线性组合函数包括批归一化结构、激活函数结构和3×3的卷积结构;
所述DenseNet还包括1×1的卷积操作;
所述过渡层包括两个相邻的密集块;
所述BLSTM包括前向的长短时记忆网络和后向的长短时记忆网络。
在一些实施例中,通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果,包括:
通过所述目标分类模型对待识别鸟鸣声进行识别,得到初始识别结果;
通过基于贝叶斯决策的数据融合规则,对所述初始识别结果进行归类验证,确定所述待识别鸟鸣声的识别结果。
本发明实施例还提供了一种鸟鸣声智能识别装置,其特征在于,包括:
获取模块,用于获取原始鸟鸣声信号;
降噪模块,用于采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号;
特征提取模块,用于从所述目标鸟鸣声信号中提取目标特征;
训练模块,用于根据所述目标特征训练得到目标分类模型;
识别模块,用于通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果。
本发明实施例还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例获取原始鸟鸣声信号;采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号;从所述目标鸟鸣声信号中提取目标特征;根据所述目标特征训练得到目标分类模型;通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果。本发明实施例提高了鸟鸣声的识别准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种鸟鸣声智能识别方法的步骤流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
由于不同距离、不同种类的鸟鸣声信号幅度不同,需要对采集到的鸟鸣声音频进行归一化处理。针对鸟类种类繁多,鸟鸣声长短不一的问题,需要固定一个合适的鸟鸣声切片长度保证输入神经网络的维度一致。为了改善现有的神经网络结构,本发明提出了将DenseNet和BLSTM结合在一起的网络结构。另外,本发明针对神经网络预测的概率分布进行贝叶斯判决融合,进一步提高鸟鸣声系统的识别率。
如图1所示,本发明实施例提供了一种鸟鸣声智能识别方法,包括:
获取原始鸟鸣声信号;
采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号;
从所述目标鸟鸣声信号中提取目标特征;
根据所述目标特征训练得到目标分类模型;
通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果。
在一些实施例中,所述采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号这一步骤之前,还包括:
将所述原始鸟鸣声信号中幅度最大的点放大到设定阈值;
记录所述放大过程中幅度最大的点的放大比例;
根据所述放大比例,将所述原始鸟鸣声信号中所有点进行放大处理。
在一些实施例中,所述采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号,包括:
计算所述原始鸟鸣声信号的先验信噪比,确定所述原始鸟鸣声信号中的鸟鸣声帧和噪声帧;
通过最大后验估计器对所述噪声帧进行降噪处理,得到已降噪的目标鸟鸣声文件和每一帧鸟鸣声存在概率的文件。
在一些实施例中,所述采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号这一步骤之后,还包括:
对所述目标鸟鸣声信号进行分割处理,去除所述目标鸟鸣声信号中的静音段;
根据所述每一帧鸟鸣声存在概率的文件,将所述目标鸟鸣声进行分段处理,得到数据维度一致的多个鸟鸣声片段。
在一些实施例中,从所述目标鸟鸣声信号中提取目标特征,包括:
通过一阶高通滤波器对所述目标鸟鸣声信号进行预加重处理,得到第一鸟鸣声信号;
按照预设的帧长,对所述第一鸟鸣声信号进行分帧处理,得到第二鸟鸣声信号;
对所述第二鸟鸣声信号进行加窗处理,得到第三鸟鸣声信号;
对所述第三鸟鸣声信号进行快速傅里叶变换处理,得到第四鸟鸣声信号;
通过梅尔滤波器组对所述第四鸟鸣声信号进行平滑化处理,得到第五鸟鸣声信号;
对所述第五鸟鸣声信号进行对数运算,得到对数能量;
对所述对数能量进行离散余弦变换,得到MFCC参数;
根据所述MFCC参数,对所述第五鸟鸣声信号进行差分变换,得到目标特征。
在一些实施例中,根据所述目标特征训练得到目标分类模型,包括:
获取所述目标特征中包含的MFCC参数作为分类模型的输入数据,并根据所述输入数据进行训练;所述分类模型采用DenseNet和BLSTM结合的网络结构;
采用交叉熵函数作为所述分类模型的损失函数,将所述分类模型训练得到目标分类模型;
其中,所述DenseNet包括密集块和过渡层;
所述密集块中的非线性组合函数包括批归一化结构、激活函数结构和3×3的卷积结构;
所述DenseNet还包括1×1的卷积操作;
所述过渡层包括两个相邻的密集块;
所述BLSTM包括前向的长短时记忆网络和后向的长短时记忆网络。
在一些实施例中,通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果,包括:
通过所述目标分类模型对待识别鸟鸣声进行识别,得到初始识别结果;
通过基于贝叶斯决策的数据融合规则,对所述初始识别结果进行归类验证,确定所述待识别鸟鸣声的识别结果。
本发明实施例还提供了一种鸟鸣声智能识别装置,其特征在于,包括:
获取模块,用于获取原始鸟鸣声信号;
降噪模块,用于采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号;
特征提取模块,用于从所述目标鸟鸣声信号中提取目标特征;
训练模块,用于根据所述目标特征训练得到目标分类模型;
识别模块,用于通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果。
本发明实施例还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
下面对本发明的实现原理进行详细描述:
S1、通过传声器进行鸟鸣声信号的采集(传声器的频率范围为100Hz-16kHz),对传声器信号进行增益、量化后,通过自动分段算法判决有声帧和噪声帧,将连续判决为有鸟鸣声的多帧数据集合成一个鸟鸣声片段。语音信号因为是准稳态信号,在处理时常把信号分帧,每帧长度约20ms-30ms。将该鸟鸣声片段以128kbps码率进行MP3压缩并保存为文件,存入到模块的存储卡里。
S2、将鸟鸣声信号采集模块的存储卡里的文件通过LoRa网关进行传输,并存储在云服务器的存储服务器里。
可以理解的是,本发明实施例以LoRa网关作为示例来对存储卡里的文件进行传输,在实际应用中,可以使用其他类型的网关来实现该传输功能,在此不做限定。
S3、在提取特征之前,需要对云服务器的存储服务器里的鸟鸣声文件进行预处理,包括鸟鸣声降噪和鸟鸣声分割。由于实地采集到的鸟鸣声信号伴随大量的背景噪声,因此本发明采用基于最大后验估计器的改进算法进行降噪。
S4、由于在鸟鸣声信号采集的过程中,鸟鸣声的音量会不一样。所以本发明在降噪之前会对鸟鸣声文件进行归一化处理,方便后续鸟鸣声分割模块的计算和处理。对鸟鸣声信号进行归一化处理的基本原理是:取鸟鸣声文件中幅度最大的点将其幅度放大到接近1,记录放大的比例,再将其他所有点均按这个比例拉伸。
S5、将存储服务器的鸟鸣声文件首先做归一化处理,然后通过降噪模块进行降噪处理。在降噪阶段,通过计算先验信噪比是否大于阈值(阈值设为0.5)来判定为有鸟鸣声帧和噪声帧。降噪结束后,能得到已降噪的鸟鸣声文件和对应每一帧鸟鸣声存在概率的文本文件。
S6、鸟鸣声分割通过去除鸟鸣声信号的静音段,使各有效鸟鸣声段连续,同时把鸟鸣声文件切割成等长的鸟鸣声片段,使得特征提取时各鸟鸣声片段的数据维度保持一致。由于在鸟鸣声降噪这一步得到了每一帧鸟鸣声存在概率的文本文件,因此在鸟鸣声分割中只要连续三帧鸟鸣声存在概率大于90%,就以这三帧为中心切割0.4s长的鸟鸣声片段。如果这些鸟鸣声片段的能量小于一个固定的阈值也要剔除掉。
S7、本发明实施例的特征提取过程包括预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔(Mel)滤波器组、对数运算、离散余弦变换(DCT)和差分变换。
S8、由于鸟鸣声在传播时会受到辐射效应的影响,高频成分的强度会比低频成分下降得更快,通过一阶高通滤波器对信号进行预加重,可以提高鸟鸣声的高频部分。在时域上的处理如式(1)所示,其中x(n)、分别为预加重前和预加重后的第n个采样值,λ为预加重系数,取0.95。
S9、如果把语音信号直接按帧长切分,帧与帧的连接处容易出现数据的剧烈变化,因此会让两相邻帧之间有一段重叠区域,这一段重叠区域称为“帧移”。本发明选择帧长为30ms,重叠30%。
S10、简单的分帧难以确保信号的周期性截断、而信号的非周期性截断会带来频谱泄漏。为了尽量减少泄露带来的影响,可以对语音信号加窗。本发明选择使用汉明窗。
S11、由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。对分帧加窗后的各帧信号进行FFT得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的能量谱。设语音信号的离散傅里叶变换(DCT)为:
其中,x(n)为输入的语音信号,N为傅里叶变换的点数,Xa(k)为输入的语音信号,对应的幅度谱。
S12、将能量谱通过一组Mel尺度的三角形滤波器组,对频谱进行平滑化,并消除谐波的作用,突显语音的共振峰。本发明所用的Mel滤波器阶数为128个。三角滤波器的频率响应定义为:
其中,三角滤波器的中心频率为f(m)=1,2,…,M。M通常取22。
S13、计算每个滤波器组输出的对数能量为:
S14、将上述的对数能量带入DCT,求出L阶的MFCC参数:
其中,L阶指MFCC系数阶数,本发明取12个。
由于标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。本发明加入了一阶差分和二阶差分,因此最终每帧的MFCC参数个数为36。差分参数的计算采用下面的公式:
其中,dt表示第t个一阶差分,Ct表示第t个倒谱系数,Q表示倒谱系数的阶数,K表示一阶导数的时间差,取1。将上式中结果再代入就可以得到二阶差分的参数。
S15、分类模型部分:把特征提取部分得到的mfcc参数作为分类模型的输入来进行训练。本发明使用DenseNet和BLSTM结合的网络结构作为本发明的分类模型。DenseNet对输入的mfcc参数进行深层次的学习,提取到鸟鸣声的深层特征,然后把该深层特征作为BLSTM的输入,进一步地学习时序的信息。
其中,DenseNet结构主要由密集块(Dense Block)和过渡层(Transition layer)组成。在Dense Block中,各个层的特征图大小一致,可以在通道维度上连接。Dense Block中的非线性组合函数H()包括一个批归一化(Batch Normalization)、一个激活函数(例如线性整流函数ReLU)和3×3的卷积的结构。另外这里每个Dense Block的3×3卷积前面都包含了一个1×1的卷积操作,目的是减少输入的特征图数量,既能降维减少计算量,又能融合各个通道的特征。
对于Transition layer,它主要是连接两个相邻的Dense Block,并且降低特征图大小。Transition层包括一个1×1的卷积和2×2的均值池化(AvgPooling)。由于每个DenseBlock结束后的输出通道个数很多,需要用1×1的卷积核来降维。因此这个Transitionlayer有个参数reduction(范围是0到1),表示将这些输出缩小到原来的多少倍。reduction设置为0.5,这样传给下一个Dense Block的时候通道数量就会减少一半,减少神经网络的参数量。
BLSTM由前向的长短时记忆网络(LSTM)和后向的长短时记忆网络结合在一起。LSTM由一个个LSTM单元组成,每一个单元包括遗忘门ft、记忆门it和输出门ot组成。激活函数使用的是双曲正切函数(tanh),输入用X代表,输出用Y表示。
S16、本发明的分类模型的损失函数采用交叉熵函数,如下:
其中,M为类别的数量,yic为指示变量,如果该类别和样本i类别相同就是1,否则是0。pic为对于观测样本i属于类别c的预测概率。
S17、本发明的分类模型参数设置:使用了三个Dense Block和Transition layer,第一个Dense Block包含6个1×1和3×3卷积操作;第二个Dense Block包含12个1×1和3×3卷积操作;第三个Dense Block包含24个1×1和3×3卷积操作。使用了两层的BLSTM,隐藏单元维度为40。最终的softmax维度为鸟鸣声种类的数目,设为50。批次大小(BatchSize)为32,学习速率为0.001,优化算法为Adam,迭代次数为60。
S18、训练完成后,保存好训练过程准确率最高的模型。进行识别时,预处理和特征提取步骤不变,将提取出来的MFCC参数送进之前训练时保存好的模型,得到一组跟训练时鸟鸣声种类数目维度一致的概率分布,概率值最大对应的标签即为神经网络预测的鸟类。
S19、为了提高整个系统的识别率和鲁棒性,本发明使用了基于贝叶斯决策的数据融合规则。将从分类模型最后一层的输出Z分类到n个可能的类别(x1,x2,…,xn),xi表示该鸟鸣声切片属于第i个鸟类。记P(ωk)为先验概率,P(xi|ωk)为每个类的概率密度函数,P(x1,x2,…,xn|ωk)为联合概率分布函数。步骤S19具体包括以下步骤:
S191、根据贝叶斯最小错误理论,如果:
则Z∈ωj。且有:
其中:
S192、假定各个鸟类之间是相互独立的,有:
S193、将(10)、(11)代入(9):
S194、将(12)代入(8):
S195、最后将(13)转化为后验概率,得到:
S196、这样就可以将Z归类为ωj。
综上所述,相较于现有技术,本发明具有以下突出的改进特点:
1、针对野外鸟鸣声采集的应用需求,本发明实现了从野外鸟鸣声的采集到系统识别鸟鸣声的整个过程。由于采集到的鸟鸣声信号大小不一,使用归一化的方法提高后续端点检测的准确率。
2、在远程鸟鸣声信号传输模块得到含有鸟鸣声的片段后,基于鸟鸣声存在的先验概率和该片段的平均能量,筛选出最终有效的鸟鸣声片段后进行切片处理,使输入神经网络的切片大小保持一致。通过对比实验发现0.4s的切片长度使整个鸟鸣声识别系统达到最优识别率。
3、鸟鸣声识别模块使用了密集卷积神经网络和双向长短时记忆网络结合的网络结构,利用了卷积神经网络捕获空间信息的能力和循环神经网络捕获时间信息的能力,提高了整个系统的识别率。
4、为了提高整个系统的识别率和鲁棒性,本发明使用了基于贝叶斯决策的数据融合规则。
5、最终鸟鸣声识别系统的识别结果如表1所示。可以发现切片长度会影响鸟鸣声识别系统的识别结果,而且加入了贝叶斯决策的数据融合规则后,识别率相比未加入前有明显提升。
表1不同参数设置下分类模型的平均识别率
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种鸟鸣声智能识别方法,其特征在于,包括:
获取原始鸟鸣声信号;
采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号;
从所述目标鸟鸣声信号中提取目标特征;
根据所述目标特征训练得到目标分类模型;
通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果。
2.根据权利要求1所述的一种鸟鸣声智能识别方法,其特征在于,所述采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号这一步骤之前,还包括:
将所述原始鸟鸣声信号中幅度最大的点放大到设定阈值;
记录所述放大过程中幅度最大的点的放大比例;
根据所述放大比例,将所述原始鸟鸣声信号中所有点进行放大处理。
3.根据权利要求1所述的一种鸟鸣声智能识别方法,其特征在于,所述采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号,包括:
计算所述原始鸟鸣声信号的先验信噪比,确定所述原始鸟鸣声信号中的鸟鸣声帧和噪声帧;
通过最大后验估计器对所述噪声帧进行降噪处理,得到已降噪的目标鸟鸣声文件和每一帧鸟鸣声存在概率的文件。
4.根据权利要求3所述的一种鸟鸣声智能识别方法,其特征在于,所述采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号这一步骤之后,还包括:
对所述目标鸟鸣声信号进行分割处理,去除所述目标鸟鸣声信号中的静音段;
根据所述每一帧鸟鸣声存在概率的文件,将所述目标鸟鸣声进行分段处理,得到数据维度一致的多个鸟鸣声片段。
5.根据权利要求1所述的一种鸟鸣声智能识别方法,其特征在于,从所述目标鸟鸣声信号中提取目标特征,包括:
通过一阶高通滤波器对所述目标鸟鸣声信号进行预加重处理,得到第一鸟鸣声信号;
按照预设的帧长,对所述第一鸟鸣声信号进行分帧处理,得到第二鸟鸣声信号;
对所述第二鸟鸣声信号进行加窗处理,得到第三鸟鸣声信号;
对所述第三鸟鸣声信号进行快速傅里叶变换处理,得到第四鸟鸣声信号;
通过梅尔滤波器组对所述第四鸟鸣声信号进行平滑化处理,得到第五鸟鸣声信号;
对所述第五鸟鸣声信号进行对数运算,得到对数能量;
对所述对数能量进行离散余弦变换,得到MFCC参数;
根据所述MFCC参数,对所述第五鸟鸣声信号进行差分变换,得到目标特征。
6.根据权利要求1所述的一种鸟鸣声智能识别方法,其特征在于,根据所述目标特征训练得到目标分类模型,包括:
获取所述目标特征中包含的MFCC参数作为分类模型的输入数据,并根据所述输入数据进行训练;所述分类模型采用DenseNet和BLSTM结合的网络结构;
采用交叉熵函数作为所述分类模型的损失函数,将所述分类模型训练得到目标分类模型;
其中,所述DenseNet包括密集块和过渡层;
所述密集块中的非线性组合函数包括批归一化结构、激活函数结构和3×3的卷积结构;
所述DenseNet还包括1×1的卷积操作;
所述过渡层包括两个相邻的密集块;
所述BLSTM包括前向的长短时记忆网络和后向的长短时记忆网络。
7.根据权利要求1所述的一种鸟鸣声智能识别方法,其特征在于,通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果,包括:
通过所述目标分类模型对待识别鸟鸣声进行识别,得到初始识别结果;
通过基于贝叶斯决策的数据融合规则,对所述初始识别结果进行归类验证,确定所述待识别鸟鸣声的识别结果。
8.一种鸟鸣声智能识别装置,其特征在于,包括:
获取模块,用于获取原始鸟鸣声信号;
降噪模块,用于采用最大后验估计器对所述原始鸟鸣声信号进行降噪处理,得到目标鸟鸣声信号;
特征提取模块,用于从所述目标鸟鸣声信号中提取目标特征;
训练模块,用于根据所述目标特征训练得到目标分类模型;
识别模块,用于通过所述目标分类模型对待识别鸟鸣声进行识别,确定所述待识别鸟鸣声的识别结果。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110090995.5A CN112908344B (zh) | 2021-01-22 | 2021-01-22 | 一种鸟鸣声智能识别方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110090995.5A CN112908344B (zh) | 2021-01-22 | 2021-01-22 | 一种鸟鸣声智能识别方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112908344A true CN112908344A (zh) | 2021-06-04 |
CN112908344B CN112908344B (zh) | 2023-08-08 |
Family
ID=76117071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110090995.5A Active CN112908344B (zh) | 2021-01-22 | 2021-01-22 | 一种鸟鸣声智能识别方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908344B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114299966A (zh) * | 2021-12-24 | 2022-04-08 | 中国人民解放军93114部队 | 一种基于机场高危鸟类鸣声的智能识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103295582A (zh) * | 2012-03-02 | 2013-09-11 | 联芯科技有限公司 | 噪声抑制方法及其系统 |
CN103489446A (zh) * | 2013-10-10 | 2014-01-01 | 福州大学 | 复杂环境下基于自适应能量检测的鸟鸣识别方法 |
CN107393542A (zh) * | 2017-06-28 | 2017-11-24 | 北京林业大学 | 一种基于双通道神经网络的鸟类物种识别方法 |
CN109949823A (zh) * | 2019-01-22 | 2019-06-28 | 江苏大学 | 一种基于dwpt-mfcc与gmm的车内异响识别方法 |
US20190237096A1 (en) * | 2018-12-28 | 2019-08-01 | Intel Corporation | Ultrasonic attack detection employing deep learning |
CN111540368A (zh) * | 2020-05-07 | 2020-08-14 | 广州大学 | 一种稳健的鸟声提取方法、装置及计算机可读存储介质 |
-
2021
- 2021-01-22 CN CN202110090995.5A patent/CN112908344B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103295582A (zh) * | 2012-03-02 | 2013-09-11 | 联芯科技有限公司 | 噪声抑制方法及其系统 |
CN103489446A (zh) * | 2013-10-10 | 2014-01-01 | 福州大学 | 复杂环境下基于自适应能量检测的鸟鸣识别方法 |
CN107393542A (zh) * | 2017-06-28 | 2017-11-24 | 北京林业大学 | 一种基于双通道神经网络的鸟类物种识别方法 |
US20190237096A1 (en) * | 2018-12-28 | 2019-08-01 | Intel Corporation | Ultrasonic attack detection employing deep learning |
CN109949823A (zh) * | 2019-01-22 | 2019-06-28 | 江苏大学 | 一种基于dwpt-mfcc与gmm的车内异响识别方法 |
CN111540368A (zh) * | 2020-05-07 | 2020-08-14 | 广州大学 | 一种稳健的鸟声提取方法、装置及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114299966A (zh) * | 2021-12-24 | 2022-04-08 | 中国人民解放军93114部队 | 一种基于机场高危鸟类鸣声的智能识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112908344B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN108877775B (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
Su et al. | Performance analysis of multiple aggregated acoustic features for environment sound classification | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
US20030236661A1 (en) | System and method for noise-robust feature extraction | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN111696580B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
CN113646833A (zh) | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
Jaafar et al. | Automatic syllables segmentation for frog identification system | |
CN111540342A (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
Chatterjee et al. | Auditory model-based design and optimization of feature vectors for automatic speech recognition | |
Hidayat et al. | A Modified MFCC for Improved Wavelet-Based Denoising on Robust Speech Recognition. | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN116741148A (zh) | 一种基于数字孪生的语音识别系统 | |
CN109903749B (zh) | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 | |
CN115273904A (zh) | 一种基于多特征融合的愤怒情绪识别方法及装置 | |
CN112052712A (zh) | 一种电力设备状态监测与故障识别方法及系统 | |
CN112908344B (zh) | 一种鸟鸣声智能识别方法、装置、设备和介质 | |
CN111755025B (zh) | 一种基于音频特征的状态检测方法、装置及设备 | |
CN115331678A (zh) | 利用Mel频率倒谱系数的广义回归神经网络声信号识别方法 | |
CN114093385A (zh) | 一种无人机检测方法及装置 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
Sadeghi et al. | The effect of different acoustic noise on speech signal formant frequency location |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |