CN112331220A - 一种基于深度学习的鸟类实时识别方法 - Google Patents

一种基于深度学习的鸟类实时识别方法 Download PDF

Info

Publication number
CN112331220A
CN112331220A CN202011282146.1A CN202011282146A CN112331220A CN 112331220 A CN112331220 A CN 112331220A CN 202011282146 A CN202011282146 A CN 202011282146A CN 112331220 A CN112331220 A CN 112331220A
Authority
CN
China
Prior art keywords
time
bird
identification
real
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011282146.1A
Other languages
English (en)
Inventor
吕坤朋
孙斌
赵玉晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN202011282146.1A priority Critical patent/CN112331220A/zh
Publication of CN112331220A publication Critical patent/CN112331220A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种基于深度学习的鸟类实时识别方法,属于鸟类鸣声识别技术领域。主要包括以下步骤:首先对环境中的音频活动进行监测和采集,对采集到的鸟鸣声进行预处理以及时频分析,得到不同种类鸟鸣声的时频谱图,再通过样本数据增强后对卷积神经网络进行训练得到较优模型,用于鸟类分类识别,最后经识别终端上传云服务器。该方法有较强的抗交叉干扰项的能力,分辨率较高,将鸟类各种富于变化的音节特征提取出来作为分类依据,特征参数代表性更强,受环境噪声影响弱。

Description

一种基于深度学习的鸟类实时识别方法
技术领域
本发明涉及一种基于深度学习的鸟类实时识别方法,属于鸟类鸣声识别技术领域。
背景技术
鸟类的鸣声是其重要的生物学特征,与鸟类其他形态特征相同,由于进化的差异性,鸟类的鸣声在不同物种间也具有独特性,使得利用鸣声进行鸟类识别具有了可行性。
近年来鸟类鸣声识别技术虽说有了不少研究成果,但总体来看发展相对缓慢,方法存在局限性。研究主要集中在特征参数选取、分类模型方法研究等方面,其中,常用的特征参数有幅度、频率、音节长度、声谱图、频谱图、短时能量、线性预测倒谱系数(LinearPredictive Cepstral Coding,LPCC)和梅尔倒谱系数(Mel-Frequency CepstrumCoefficient,MFCC)等,常用的识别方法和分类模型有动态时间规整(Dynamic TimeWarping,DTW)算法、误差反传算法(Error Back Propagation,BP)算法、隐马尔可夫模型(Hidden Markov Model,HMM) 和高斯混合模型(Gaussian Mixture Model,GMM)等。存在有特征参数代表性不够强,以及受环境噪声影响较大等问题。
发明内容
针对现有方法的不足之处,本发明提供一种基于深度学习的鸟类实时识别方法。该方法有较强的抗交叉干扰项的能力,分辨率较高,将鸟类各种富于变化的鸣声特征提取出来作为分类依据,特征参数代表性更强,受环境噪声影响小,卷积网络集成于软件中,操作相对简单,识别准确度也会随卷积神经网络训练样本数量的增加而增加。
本发明采用以下方案实现:一种基于深度学习的鸟类识别方法,其特征在于包括以下步骤:
步骤1、监测外界环境中的声音信号,当存在非环境噪声信号出现时,进行鸣声信号的采集,并对信号进行预处理,预处理包括降噪以及音节提取,当短时间内仅有环境噪声存在则停止采集;
步骤2、预处理后的信号,通过自适应时频分析算法获得时频谱图;
步骤3、由鸟类鸣声数据库中下载相应鸟类样本,经数据扩充后,训练获得较优卷积神经网络模型进行分类识别;
步骤4、得到不同类别的识别结果通过识别终端传到云服务器;
本发明相对于传统方法,在面对鸣声片段持续时长变化较为剧烈的问题上,预处理采用对信号进行降噪,并提取出各种具有完整音节周期的片段,把鸣唱、鸣叫音节化,并通过音节叠加进行了样本数据扩充,将有效信号数据进行归一化及预加重,一定程度上提高了处理效率,采用自适应最优核时频分析方法: Adaptive optimal kernel time-frequency representation(AOK),时频分辨率高,且具有很强的抗交叉干扰项的能力,能够准确表现信号的时域、频域以及能量特征,通过卷积神经网络数据挖掘功能,可准确提取时频分析图的特征,时频分析图灰度化后,经编译好的卷积神经网络算法提取特征,以灰度图为输入,鸟的种类为输出,训练神经网络,得到较优网络模型,在识别终端中调用,并能将结果上传云服务器。
附图说明
图1为本方法的整体流程图。
图2为本方法的卷积神经网络结构示意图。
具体实施方式:
结合附图,对本发明,一种基于深度学习的鸟类识别方法,做进一步说明,如图1所示,主要包括鸣声信号监测、样本预处理、时频分析、卷积神经网络训练以及识别五个部分,具体步骤如下:
步骤1、系统运行时监测外界环境中的声音信号,采样率14400kHz,20ms 为一帧,采用高斯混合模型对噪声和鸣声进行建模,根据采集的连续50帧信号所对应的概率来进行判断采集的启停,并设置最大采集时长为9s,对采集到的信号进行预处理,即降噪以及音节提取,外界环境噪声多为加性噪声,则 y(m)=x(m)+d(m),在对应功率谱上相减并经逆变换可得鸣声信号,音节提取在高斯模型的基础上以连续20帧信号进行鸣声信号的检测,即进一步进行端点提取;
步骤2、通过自适应最优核时频分析算法获得时频谱图,将图像进行灰度化处理,获得灰度矩阵,为减小神经网络运算量,调整图像的大小,此处调整为 64*64;
步骤3、如图2所示,采用卷积核大小为7*7和6*6两个卷积层进行特征的提取,两个2*2的池化层进行降维,采用Adam优化器、Leaky Relu函数作为激活函数以及卷积层后接Batch Normalization批标准化,将训练样本时频分析后的灰度图作为输入,导入卷积神经网络提取图像特征,以鸟的种类作为输出标准,训练得到较优网络;
步骤4、得到不同类别的识别结果通过识别终端传到云服务器;
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等、均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度学习的鸟类实时识别方法,其特征在于,包括以下步骤:
步骤1、监测外界环境中的声音信号,当存在非环境噪声信号出现时,进行鸣声信号的采集,并对信号进行预处理,预处理包括降噪以及音节提取,当短时间内仅有环境噪声存在则停止采集;
步骤2、预处理后的信号,通过自适应时频分析算法获得时频谱图;
步骤3、由鸟类鸣声数据库中下载相应鸟类样本,经数据扩充后,训练获得较优卷积神经网络模型进行分类识别;
步骤4、得到不同类别的识别结果通过识别终端传到云服务器。
2.根据权利要求(1)所述的一种基于深度学习的鸟类实时识别方法,其特征在于,步骤1所述对于声音信号的监测,采用高斯混合模型对噪声和鸣声进行建模,根据采集的连续几帧信号所对应的概率来进行判断采集的启停,并设置最大采集时长。
3.根据权利要求(1)所述的一种基于深度学习的鸟类实时识别方法,其特征在于,步骤 1所述降噪,将连续前几帧信号作为加性噪声,则
Figure 588757DEST_PATH_IMAGE001
,其中
Figure DEST_PATH_IMAGE002
为原信 号,
Figure 817482DEST_PATH_IMAGE003
为噪声,则
Figure DEST_PATH_IMAGE004
为鸣声信号可求。
4.根据权利要求(1)所述的一种基于深度学习的鸟类实时识别方法,其特征在于,步骤1所述音节提取基于高斯混合模型,对采集时间大于阈值的样本,降低连续采集的帧数进行鸣声进一步判断并进行片段提取。
5.根据权利要求(1)所述的一种基于深度学习的鸟类实时识别方法,其特征在于,步骤2所述时频分析算法将一维时序信号转换为二维时频谱图,并包含能量信息,所描述的时频分析方法包括但不限于小波变换、自适应最优核等。
6.根据权利要求(1)所述的一种基于深度学习的鸟类实时识别方法,其特征在于,步骤 3所述数据扩充,由音节片段叠加形成新样本,
Figure 643224DEST_PATH_IMAGE005
,其中
Figure DEST_PATH_IMAGE006
为音节片段,
Figure 648220DEST_PATH_IMAGE007
为新样本。
7.根据权利要求(1)所述的一种基于深度学习的鸟类实时识别方法,其特征在于,步骤4所述实时识别终端具有相匹配的算力及功耗,能够进行实时识别任务。
CN202011282146.1A 2020-11-17 2020-11-17 一种基于深度学习的鸟类实时识别方法 Pending CN112331220A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011282146.1A CN112331220A (zh) 2020-11-17 2020-11-17 一种基于深度学习的鸟类实时识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011282146.1A CN112331220A (zh) 2020-11-17 2020-11-17 一种基于深度学习的鸟类实时识别方法

Publications (1)

Publication Number Publication Date
CN112331220A true CN112331220A (zh) 2021-02-05

Family

ID=74317613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011282146.1A Pending CN112331220A (zh) 2020-11-17 2020-11-17 一种基于深度学习的鸟类实时识别方法

Country Status (1)

Country Link
CN (1) CN112331220A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707159A (zh) * 2021-08-02 2021-11-26 南昌大学 一种基于Mel语图与深度学习的电网涉鸟故障鸟种识别方法
CN114155879A (zh) * 2021-12-06 2022-03-08 哈尔滨工程大学 一种利用时频融合补偿异常感知及稳定性的异音检测方法
CN114242080A (zh) * 2021-11-02 2022-03-25 国网福建省电力有限公司检修分公司 一种基于鸟类声纹特征的变电站分布式驱鸟方法与终端
CN117612537A (zh) * 2023-11-27 2024-02-27 北京林业大学 一种基于云边协同控制的鸟鸣声智能监测系统
CN117809662A (zh) * 2024-02-28 2024-04-02 江西师范大学 一种基于鸟类特征识别的栖息地环境调节方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707159A (zh) * 2021-08-02 2021-11-26 南昌大学 一种基于Mel语图与深度学习的电网涉鸟故障鸟种识别方法
CN113707159B (zh) * 2021-08-02 2024-05-03 南昌大学 一种基于Mel语图与深度学习的电网涉鸟故障鸟种识别方法
CN114242080A (zh) * 2021-11-02 2022-03-25 国网福建省电力有限公司检修分公司 一种基于鸟类声纹特征的变电站分布式驱鸟方法与终端
CN114155879A (zh) * 2021-12-06 2022-03-08 哈尔滨工程大学 一种利用时频融合补偿异常感知及稳定性的异音检测方法
CN117612537A (zh) * 2023-11-27 2024-02-27 北京林业大学 一种基于云边协同控制的鸟鸣声智能监测系统
CN117612537B (zh) * 2023-11-27 2024-06-07 北京林业大学 一种基于云边协同控制的鸟鸣声智能监测系统
CN117809662A (zh) * 2024-02-28 2024-04-02 江西师范大学 一种基于鸟类特征识别的栖息地环境调节方法和系统
CN117809662B (zh) * 2024-02-28 2024-05-10 江西师范大学 一种基于鸟类特征识别的栖息地环境调节方法和系统

Similar Documents

Publication Publication Date Title
CN112331220A (zh) 一种基于深度学习的鸟类实时识别方法
CN106935248B (zh) 一种语音相似度检测方法及装置
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
WO2017088364A1 (zh) 动态选择语音模型的语音识别方法及装置
CN103065629A (zh) 一种仿人机器人的语音识别系统
Stowell et al. Birdsong and C4DM: A survey of UK birdsong and machine recognition for music researchers
CN104658538A (zh) 一种基于鸟鸣声的移动式鸟类识别方法
CN101136199A (zh) 语音数据处理方法和设备
CN102982803A (zh) 基于hrsf及改进dtw算法的孤立词语音识别方法
CN104078039A (zh) 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN109979441A (zh) 一种基于深度学习的鸟类识别方法
CN113053410B (zh) 声音识别方法、装置、计算机设备和存储介质
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN1300049A (zh) 汉语普通话话音识别的方法和设备
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
CN118486297B (zh) 一种基于语音情感识别的响应方法及智能语音助手系统
CN113345443A (zh) 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法
CN117409761B (zh) 基于频率调制的人声合成方法、装置、设备及存储介质
CN109903749A (zh) 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法
CN113611285B (zh) 基于层叠双向时序池化的语种识别方法
CN111091816B (zh) 一种基于语音评测的数据处理系统及方法
CN112908343B (zh) 一种基于倒谱语谱图的鸟类物种数量的获取方法及系统
CN111524523A (zh) 基于声纹识别技术的仪器设备状态检测系统及其方法
CN114550696A (zh) 一种通过语音识别实现情绪判断的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210205