CN112331220A - 一种基于深度学习的鸟类实时识别方法 - Google Patents
一种基于深度学习的鸟类实时识别方法 Download PDFInfo
- Publication number
- CN112331220A CN112331220A CN202011282146.1A CN202011282146A CN112331220A CN 112331220 A CN112331220 A CN 112331220A CN 202011282146 A CN202011282146 A CN 202011282146A CN 112331220 A CN112331220 A CN 112331220A
- Authority
- CN
- China
- Prior art keywords
- time
- bird
- identification
- real
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000007613 environmental effect Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000012544 monitoring process Methods 0.000 claims abstract description 6
- 230000005236 sound signal Effects 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 239000000654 additive Substances 0.000 claims description 2
- 230000000996 additive effect Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于深度学习的鸟类实时识别方法,属于鸟类鸣声识别技术领域。主要包括以下步骤:首先对环境中的音频活动进行监测和采集,对采集到的鸟鸣声进行预处理以及时频分析,得到不同种类鸟鸣声的时频谱图,再通过样本数据增强后对卷积神经网络进行训练得到较优模型,用于鸟类分类识别,最后经识别终端上传云服务器。该方法有较强的抗交叉干扰项的能力,分辨率较高,将鸟类各种富于变化的音节特征提取出来作为分类依据,特征参数代表性更强,受环境噪声影响弱。
Description
技术领域
本发明涉及一种基于深度学习的鸟类实时识别方法,属于鸟类鸣声识别技术领域。
背景技术
鸟类的鸣声是其重要的生物学特征,与鸟类其他形态特征相同,由于进化的差异性,鸟类的鸣声在不同物种间也具有独特性,使得利用鸣声进行鸟类识别具有了可行性。
近年来鸟类鸣声识别技术虽说有了不少研究成果,但总体来看发展相对缓慢,方法存在局限性。研究主要集中在特征参数选取、分类模型方法研究等方面,其中,常用的特征参数有幅度、频率、音节长度、声谱图、频谱图、短时能量、线性预测倒谱系数(LinearPredictive Cepstral Coding,LPCC)和梅尔倒谱系数(Mel-Frequency CepstrumCoefficient,MFCC)等,常用的识别方法和分类模型有动态时间规整(Dynamic TimeWarping,DTW)算法、误差反传算法(Error Back Propagation,BP)算法、隐马尔可夫模型(Hidden Markov Model,HMM) 和高斯混合模型(Gaussian Mixture Model,GMM)等。存在有特征参数代表性不够强,以及受环境噪声影响较大等问题。
发明内容
针对现有方法的不足之处,本发明提供一种基于深度学习的鸟类实时识别方法。该方法有较强的抗交叉干扰项的能力,分辨率较高,将鸟类各种富于变化的鸣声特征提取出来作为分类依据,特征参数代表性更强,受环境噪声影响小,卷积网络集成于软件中,操作相对简单,识别准确度也会随卷积神经网络训练样本数量的增加而增加。
本发明采用以下方案实现:一种基于深度学习的鸟类识别方法,其特征在于包括以下步骤:
步骤1、监测外界环境中的声音信号,当存在非环境噪声信号出现时,进行鸣声信号的采集,并对信号进行预处理,预处理包括降噪以及音节提取,当短时间内仅有环境噪声存在则停止采集;
步骤2、预处理后的信号,通过自适应时频分析算法获得时频谱图;
步骤3、由鸟类鸣声数据库中下载相应鸟类样本,经数据扩充后,训练获得较优卷积神经网络模型进行分类识别;
步骤4、得到不同类别的识别结果通过识别终端传到云服务器;
本发明相对于传统方法,在面对鸣声片段持续时长变化较为剧烈的问题上,预处理采用对信号进行降噪,并提取出各种具有完整音节周期的片段,把鸣唱、鸣叫音节化,并通过音节叠加进行了样本数据扩充,将有效信号数据进行归一化及预加重,一定程度上提高了处理效率,采用自适应最优核时频分析方法: Adaptive optimal kernel time-frequency representation(AOK),时频分辨率高,且具有很强的抗交叉干扰项的能力,能够准确表现信号的时域、频域以及能量特征,通过卷积神经网络数据挖掘功能,可准确提取时频分析图的特征,时频分析图灰度化后,经编译好的卷积神经网络算法提取特征,以灰度图为输入,鸟的种类为输出,训练神经网络,得到较优网络模型,在识别终端中调用,并能将结果上传云服务器。
附图说明
图1为本方法的整体流程图。
图2为本方法的卷积神经网络结构示意图。
具体实施方式:
结合附图,对本发明,一种基于深度学习的鸟类识别方法,做进一步说明,如图1所示,主要包括鸣声信号监测、样本预处理、时频分析、卷积神经网络训练以及识别五个部分,具体步骤如下:
步骤1、系统运行时监测外界环境中的声音信号,采样率14400kHz,20ms 为一帧,采用高斯混合模型对噪声和鸣声进行建模,根据采集的连续50帧信号所对应的概率来进行判断采集的启停,并设置最大采集时长为9s,对采集到的信号进行预处理,即降噪以及音节提取,外界环境噪声多为加性噪声,则 y(m)=x(m)+d(m),在对应功率谱上相减并经逆变换可得鸣声信号,音节提取在高斯模型的基础上以连续20帧信号进行鸣声信号的检测,即进一步进行端点提取;
步骤2、通过自适应最优核时频分析算法获得时频谱图,将图像进行灰度化处理,获得灰度矩阵,为减小神经网络运算量,调整图像的大小,此处调整为 64*64;
步骤3、如图2所示,采用卷积核大小为7*7和6*6两个卷积层进行特征的提取,两个2*2的池化层进行降维,采用Adam优化器、Leaky Relu函数作为激活函数以及卷积层后接Batch Normalization批标准化,将训练样本时频分析后的灰度图作为输入,导入卷积神经网络提取图像特征,以鸟的种类作为输出标准,训练得到较优网络;
步骤4、得到不同类别的识别结果通过识别终端传到云服务器;
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等、均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于深度学习的鸟类实时识别方法,其特征在于,包括以下步骤:
步骤1、监测外界环境中的声音信号,当存在非环境噪声信号出现时,进行鸣声信号的采集,并对信号进行预处理,预处理包括降噪以及音节提取,当短时间内仅有环境噪声存在则停止采集;
步骤2、预处理后的信号,通过自适应时频分析算法获得时频谱图;
步骤3、由鸟类鸣声数据库中下载相应鸟类样本,经数据扩充后,训练获得较优卷积神经网络模型进行分类识别;
步骤4、得到不同类别的识别结果通过识别终端传到云服务器。
2.根据权利要求(1)所述的一种基于深度学习的鸟类实时识别方法,其特征在于,步骤1所述对于声音信号的监测,采用高斯混合模型对噪声和鸣声进行建模,根据采集的连续几帧信号所对应的概率来进行判断采集的启停,并设置最大采集时长。
4.根据权利要求(1)所述的一种基于深度学习的鸟类实时识别方法,其特征在于,步骤1所述音节提取基于高斯混合模型,对采集时间大于阈值的样本,降低连续采集的帧数进行鸣声进一步判断并进行片段提取。
5.根据权利要求(1)所述的一种基于深度学习的鸟类实时识别方法,其特征在于,步骤2所述时频分析算法将一维时序信号转换为二维时频谱图,并包含能量信息,所描述的时频分析方法包括但不限于小波变换、自适应最优核等。
7.根据权利要求(1)所述的一种基于深度学习的鸟类实时识别方法,其特征在于,步骤4所述实时识别终端具有相匹配的算力及功耗,能够进行实时识别任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011282146.1A CN112331220A (zh) | 2020-11-17 | 2020-11-17 | 一种基于深度学习的鸟类实时识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011282146.1A CN112331220A (zh) | 2020-11-17 | 2020-11-17 | 一种基于深度学习的鸟类实时识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112331220A true CN112331220A (zh) | 2021-02-05 |
Family
ID=74317613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011282146.1A Pending CN112331220A (zh) | 2020-11-17 | 2020-11-17 | 一种基于深度学习的鸟类实时识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112331220A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707159A (zh) * | 2021-08-02 | 2021-11-26 | 南昌大学 | 一种基于Mel语图与深度学习的电网涉鸟故障鸟种识别方法 |
CN114155879A (zh) * | 2021-12-06 | 2022-03-08 | 哈尔滨工程大学 | 一种利用时频融合补偿异常感知及稳定性的异音检测方法 |
CN114242080A (zh) * | 2021-11-02 | 2022-03-25 | 国网福建省电力有限公司检修分公司 | 一种基于鸟类声纹特征的变电站分布式驱鸟方法与终端 |
CN117612537A (zh) * | 2023-11-27 | 2024-02-27 | 北京林业大学 | 一种基于云边协同控制的鸟鸣声智能监测系统 |
CN117809662A (zh) * | 2024-02-28 | 2024-04-02 | 江西师范大学 | 一种基于鸟类特征识别的栖息地环境调节方法和系统 |
-
2020
- 2020-11-17 CN CN202011282146.1A patent/CN112331220A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707159A (zh) * | 2021-08-02 | 2021-11-26 | 南昌大学 | 一种基于Mel语图与深度学习的电网涉鸟故障鸟种识别方法 |
CN113707159B (zh) * | 2021-08-02 | 2024-05-03 | 南昌大学 | 一种基于Mel语图与深度学习的电网涉鸟故障鸟种识别方法 |
CN114242080A (zh) * | 2021-11-02 | 2022-03-25 | 国网福建省电力有限公司检修分公司 | 一种基于鸟类声纹特征的变电站分布式驱鸟方法与终端 |
CN114155879A (zh) * | 2021-12-06 | 2022-03-08 | 哈尔滨工程大学 | 一种利用时频融合补偿异常感知及稳定性的异音检测方法 |
CN117612537A (zh) * | 2023-11-27 | 2024-02-27 | 北京林业大学 | 一种基于云边协同控制的鸟鸣声智能监测系统 |
CN117612537B (zh) * | 2023-11-27 | 2024-06-07 | 北京林业大学 | 一种基于云边协同控制的鸟鸣声智能监测系统 |
CN117809662A (zh) * | 2024-02-28 | 2024-04-02 | 江西师范大学 | 一种基于鸟类特征识别的栖息地环境调节方法和系统 |
CN117809662B (zh) * | 2024-02-28 | 2024-05-10 | 江西师范大学 | 一种基于鸟类特征识别的栖息地环境调节方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112331220A (zh) | 一种基于深度学习的鸟类实时识别方法 | |
CN106935248B (zh) | 一种语音相似度检测方法及装置 | |
Cai et al. | Sensor network for the monitoring of ecosystem: Bird species recognition | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
WO2017088364A1 (zh) | 动态选择语音模型的语音识别方法及装置 | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
Stowell et al. | Birdsong and C4DM: A survey of UK birdsong and machine recognition for music researchers | |
CN104658538A (zh) | 一种基于鸟鸣声的移动式鸟类识别方法 | |
CN101136199A (zh) | 语音数据处理方法和设备 | |
CN102982803A (zh) | 基于hrsf及改进dtw算法的孤立词语音识别方法 | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别系统 | |
CN109979441A (zh) | 一种基于深度学习的鸟类识别方法 | |
CN113053410B (zh) | 声音识别方法、装置、计算机设备和存储介质 | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 | |
CN1300049A (zh) | 汉语普通话话音识别的方法和设备 | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
CN118486297B (zh) | 一种基于语音情感识别的响应方法及智能语音助手系统 | |
CN113345443A (zh) | 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法 | |
CN117409761B (zh) | 基于频率调制的人声合成方法、装置、设备及存储介质 | |
CN109903749A (zh) | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 | |
CN113611285B (zh) | 基于层叠双向时序池化的语种识别方法 | |
CN111091816B (zh) | 一种基于语音评测的数据处理系统及方法 | |
CN112908343B (zh) | 一种基于倒谱语谱图的鸟类物种数量的获取方法及系统 | |
CN111524523A (zh) | 基于声纹识别技术的仪器设备状态检测系统及其方法 | |
CN114550696A (zh) | 一种通过语音识别实现情绪判断的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210205 |