CN114863937A - 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 - Google Patents

基于深度迁移学习与XGBoost的混合鸟鸣识别方法 Download PDF

Info

Publication number
CN114863937A
CN114863937A CN202210536031.3A CN202210536031A CN114863937A CN 114863937 A CN114863937 A CN 114863937A CN 202210536031 A CN202210536031 A CN 202210536031A CN 114863937 A CN114863937 A CN 114863937A
Authority
CN
China
Prior art keywords
mel
spectrogram
xgboost
log
bird
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210536031.3A
Other languages
English (en)
Other versions
CN114863937B (zh
Inventor
刘玮
张飞
张彦铎
卢涛
陈灯
栗娟
邵俊杰
华鑫
张鹏
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202210536031.3A priority Critical patent/CN114863937B/zh
Publication of CN114863937A publication Critical patent/CN114863937A/zh
Application granted granted Critical
Publication of CN114863937B publication Critical patent/CN114863937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了基于深度迁移学习与XGBoost的混合鸟鸣识别方法,通过计算log‑Mel频谱图的一阶差分系数和二阶差分系数,反映鸟鸣信号的变化过程,在保留物种有效信息的同时减少环境噪声等无关因素的影响,提升了识别鸟类物种的准确率;减少了环境背景噪声等无关因素的影响,有效识别了自然场景下的多种鸟类物种。本发明采用深度迁移学习微调VGG16模型构建特征提取器,提升了少样本训练数据下深度卷积神经网络的泛化能力,减少了参数训练,提升了运行效率。本发明将鸟鸣信号更准确的映射为鸟类物种,对自然环境中多种鸟类鸣声均具有良好的识别性能。

Description

基于深度迁移学习与XGBoost的混合鸟鸣识别方法
技术领域
本发明属于生态和人工智能技术领域,具体涉及基于深度迁移学习与XGBoost的混合鸟鸣识别方法。
背景技术
通过对自然环境下鸟类的识别与监测,统计区域生态环境中鸟类物种及分布状态,有利于生态学家分析研究动物的行为并掌握植物种类的丰富度,能够加强对区域生态环境的保护。自然环境中大部分场景下难以利用鸟类个体的图像特征进行识别,因此通过分析鸟类鸣声信号来自动识别鸟类物种受到研究者的广泛关注。
早期,基于模板匹配的方法通过衡量不同时间序列长度鸟鸣信号的相似度解决鸟类发音长短不一的问题达到准确识别鸟类物种的目的,该方法过于依赖鸟类个体原来的发音且无法对样本进行动态训练,难以应对自然场景下鸟类的发音易受个体生理因素以及环境场景的影响。一些研究者则探索基于鸟鸣特征建立分类模型的方法,其过程是先人工提取和选择合适的鸟鸣特征,再根据鸟鸣特征建立高效的分类模型进行识别。经过人工手动提取的鸟鸣特征多为静态的声学特征,对噪声敏感,易造成分类模型识别准确率低。近年来,计算机视觉技术的发展使得通过提取鸟鸣信号的时频域特征训练深度卷积神经网络模型对鸟类鸣声进行分类识别成为可能,深度卷积神经网络的特性可以克服音频信号的复杂多样性并且其强大的隐式特征提取能力可以自动获取并表征输入的鸟鸣信号,但现实中只能获取指定自然场景中少量的高质量鸟鸣数据,这限制了深度卷积神经网络通过鸟鸣信号描述鸟类物种的能力并且训练的网络模型容易产生过拟合,其次随着深度卷积神经网络模型深度的提高,惊人的参数量会耗费大量的时间和资源来训练。
发明内容
本发明要解决的技术问题是:提供基于深度迁移学习与XGBoost的混合鸟鸣识别方法,用于在自然场景下实时识别和监测鸟类物种。
本发明为解决上述技术问题所采取的技术方案为:基于深度迁移学习与XGBoost的混合鸟鸣识别方法,包括以下步骤:
S1:收集自然环境下的多种鸟类鸣声,每种鸟类鸣声信号包括多个时间序列相同的鸣声片段;建立基于自然场景设计和收集的鸟鸣音频库;
S2:对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号,将每帧鸣声信号通过快速傅里叶变换后取绝对值的平方得到能量谱图;
S3:将能量谱图经过64阶梅尔滤波器映射为Mel频谱图,作为深度迁移学习与XGBoost混合鸟鸣识别模型的输入;对Mel频谱图取对数得到log-Mel频谱图;计算log-Mel频谱图的一阶差分系数和二阶差分系数获得动态声学特征;将一阶差分系数和二阶差分系数与log-Mel频谱图组合成为三维log-Mel频谱图;
S4:采用参数迁移微调在ImageNet数据集上预训练的深度卷积神经网络VGG16模型,得到针对鸟鸣信息的特征提取器,并提取三维log-Mel时频谱图的高维隐式特征;
S5:将三维log-Mel时频谱图的高维隐式特征按照一定比例划分为训练集、测试集和验证集;采用训练集训练XGBoost分类器,并在验证集上调整XGBoost分类器的参数,最后在测试集上将高维隐式特征映射为鸟类物种。
按上述方案,所述的步骤S1中,每个鸟鸣片段的时间序列长度为2秒,采样率为22.05khz,存储格式为.wav。
进一步的,所述的步骤S2中,具体步骤为:
S21:将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性;
S22:对分割后的鸟鸣信号进行分帧,设置帧长为2048个采样点,帧移为512个采样点得到短时平稳信号;
S23:设n为采样点的取值,N为帧长,则汉明窗计算公式ω(n)为:
Figure BDA0003646699990000021
设每帧信号为s(n),对分帧后的每帧信号乘以汉明窗进行加窗得到x(n):
x(n)=w(n)·s(n),0≤n≤N-1;
S24:设k是快速傅里叶变换的点数,对加窗后的鸟鸣信号x(n)进行快速傅里叶变换计算各帧的频谱,并对频谱取绝对值的平方,得到用于反映时域和频域特征信息的能量谱:
Figure BDA0003646699990000031
S25:绘制以时间为横轴、频率为纵轴的能量谱图,通过颜色明暗表示能量高低。
进一步的,所述的步骤S3中,具体步骤为:
S31:64阶梅尔滤波器具有人耳滤波功能,使用64阶梅尔滤波器对能量谱图进行滤波得到大小为64×64的Mel频谱图;
S32:对Mel频谱图取对数得到log-Mel频谱图L(m),log-Mel频谱图L(m)具备静态声学特征;
S33:计算log-Mel频谱图L(m)的一阶差分系数L(m) d和二阶差分系数L(m) dd获得动态声学特征,用于捕捉相邻两帧与相邻三帧之间音频信号的动态关系:
Figure BDA0003646699990000032
Figure BDA0003646699990000033
S34:将一阶差分系数L(m) d和二阶差分系数L(m) dd作为log-Mel频谱图L(m)的动态补充特征形成大小为64×64×3的三维log-Mel频谱图。
进一步的,所述的步骤S4中,具体步骤为:
S40:在ImageNet数据集上预训练深度卷积神经网络VGG16模型;
S41:采用参数迁移保留VGG16模型的浅层结构与参数权重;
S42:微调VGG16模型的深层结构;
S43:使用三维log-Mel频谱图重新训练深层结构的参数权重,得到针对鸟鸣信息的特征提取器;
S44:通过特征提取器提取三维log-Mel时频谱图的高维隐式特征。
进一步的,所述的步骤S42中,具体步骤为:
将VGG16模型的输入尺度调整为64×64×3;
VGG16模型包括5组共13个卷积层;每个卷积层的卷积核大小为3×3,其中第一组2个卷积层各有64个通道,卷积层之后使用RelU激活函数用于增加非线性映射、缓解梯度消失、提升网络的稀疏性;
还包括4个2x2的最大池化层分别连接在每组卷积层之间,用于对上层输出特征进行下采样,使池化后输入变成输出大小的一半,通道数增大一倍;
还包括2个全连接层,通过全局平均池化层连接最后一层卷积层;全连接层包括512个神经元,用于把分布式特征表示映射到样本标记空间;全连接层后添加有Dropout函数,用于按照一定的概率随机丢弃神经元,防止网络产生过拟合。
进一步的,所述的步骤S43中,具体步骤为:
把从鸟鸣信号中提取的大小为64×64×3的三维log-Mel频谱图作为VGG16模型的输入,重新训练最后两组卷积层和全连接层,得到基于VGG16模型的特征提取器。
进一步的,所述的步骤S5中,具体步骤为:
S51:将三维log-Mel时频谱图的高维隐式特征按6:2:2的比例随机划分为训练集、测试集和验证集,分别与实际对应标签存储为DMatrix格式以符合XGBoost的输入要求;
S52:采用训练集训练XGBoost分类器,将无意义的高维隐式特征重新描述为显示特征,用于增加所提取特征的可解释性;
S53:在验证集上不断调整参数达到最优组合;
S54:在测试集上将鸟鸣信号映射为鸟类物种。
一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行基于深度迁移学习与XGBoost的混合鸟鸣识别方法。
本发明的有益效果为:
1.本发明的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,通过计算log-Mel频谱图的一阶差分系数和二阶差分系数,反映鸟鸣信号的变化过程,保留物种有效信息的同时减少环境噪声等无关因素的影响,提升了识别鸟类物种的准确率;克服了传统鸟鸣识别方法依赖鸟类个体发音且无法进行动态训练、需要人工提取和选择合适谱图特征、鸟鸣识别模型因训练样本不足导致泛化能力弱的缺点,减少了环境背景噪声等无关因素的影响,有效识别了自然场景下的多种鸟类物种。
2.本发明引入通过深度卷积神经网络VGG16自动提取鸟鸣信号的高维隐式特征,克服了自然环境中鸟鸣音频背景噪声的复杂性。
3.本发明采用深度迁移学习微调VGG16模型构建特征提取器,提升了少样本训练数据下深度卷积神经网络的泛化能力,减少了参数训练,提升了运行效率。
4.本发明构建XGBoost分类器将高维隐式特征重新描述为可解释的显示特征,将鸟鸣信号更准确的映射为鸟类物种,对自然环境中多种鸟类鸣声均具有良好的识别性能。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的三维log-Mel频谱的提取流程图。
图3是本发明实施例的三维log-Mel频谱图。
图4是本发明实施例的深度迁移学习与XGBoost的混合网络结构图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图1,本发明实施例的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,包括以下步骤:
S1:收集基于自然环境下录制的10种鸟类鸣声共14311条音频,每种鸟类鸣声信号包含多个时间序列相同的鸣声片段,每个鸟鸣片段的时间序列长度为2秒,采样率为22.05khz,存储格式为.wav,建立基于自然场景设计和收集的鸟鸣音频库如下表。
Figure BDA0003646699990000051
Figure BDA0003646699990000061
S2:对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号,将每帧鸣声信号通过快速傅里叶变换并取绝对值的平方得到能量谱图。其中预处理是将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性,对分割后的鸟鸣信号进行分帧,设置帧长为2048个采样点,帧移为512个采样点得到短时平稳信号,加窗即对分帧之后对每帧信号乘以汉明窗,增强帧与帧之间的连续性,减少特征信息的丢失,计算方法为
Figure BDA0003646699990000062
x(n)=w(n)·s(n),0≤n≤N-1 (2)
其公式(1)中ω(n)为汉明窗计算公式,通过公式(2)将汉明窗与给定的每帧信号s(n)相乘进行加窗,N为帧长。
将经过预处理的鸟鸣信号x(n)利用快速傅里叶变换计算各帧的频谱,并对频谱取绝对值的平方得到能够反映时域和频域特征信息的能量谱。快速傅里叶变换的计算方法如公式(3)。
Figure BDA0003646699990000063
S3:三维log-Mel频谱图是由静态的log-Mel频谱图与动态一阶差分系数和动态二阶差分系数组合而成。结合图2,该步骤具体为:
1.使用64阶Mel滤波器组对能量谱图进行滤波得到大小为64×64的Mel频谱,其中Mel滤波器组可以模仿人耳特殊的滤波功能,在具有噪声的环境种以及各种编译情况下仍能准确分辨处各种鸟类的鸣声,将得到的Mel频谱图取对数得到log-Mel频谱图。
2.由于log-Mel频谱图是一种对噪声鲁棒性差的静态声学特征,通过计算log-Mel频谱图的一阶差分系数和二阶差分系数可以获得动态声学特征,能够捕捉音频信号相邻两帧与相邻三帧之间的动态关系,具有良好抗噪性能;将一阶差分系数与二阶差分系数作为log-Mel频谱图的动态补充特征形成大小为64×64×3的三维log-Mel频谱图,如图3所示。log-Mel频谱图的一阶差分系数与二阶差分系数计算方法如公式(4),公式(5)。
Figure BDA0003646699990000071
Figure BDA0003646699990000072
其中L(m)表示log-Mel频谱图,L(m) d代表一阶差分系数,L(m) dd是二阶差分系数。
S4:基于VGG16的特征提取器是以ImageNet数据集上预训练的深度卷积神经网络VGG16为源模型,采用深度迁移学习中的参数迁移方法,用三维log-Mel频谱图对VGG16网络结构微调并进行重训练得到。模型的输入尺度调整为64×64×3,模型有5组共13个卷积层,每组卷积层之间以最大池化层连接共4个最大池化层,使用全局平均池化层连接卷积层与全连接层,2个全连接层之后都添加了Dropout函数。具体来说每个卷积层的卷积核大小为3×3,其中第一组的2个卷积层各有64个通道,卷积层之后使用RelU激活函数以增加非线性映射缓解梯度消失,提升网络的稀疏性,减少了参数的相互依存关系,更好地挖掘相关特征,拟合训练数据。为了减少无用信息的影响,保留更多谱图纹理信息,提升所提取特征的泛化能力,每组卷积层之间均采用2x2的最大池化层来对上层输出特征进行下采样,池化后输入变成输出大小的一半,通道数增大一倍。经过多组卷积层与最大池化层的处理,最后一层卷积层的输出不是直接与全连接层相连,而是先经过全局平均池化层处理后再输入到全连接层,这样可以极大的减少网络模型的参数,获得全局感受野,提升识别效率。全连接层包含512个神经元,主要作用是把分布式特征表示映射到样本标记空间,减少特征位置对分类带来的影响。全连接层之后通过Droupout函数按照一定的概率随机丢弃神经元,防止网络产生过拟合。网络结构如图4所示。把从鸟鸣信号中提取的大小为64×64×3的三维log-Mel频谱图作为模型的输入,重新训练最后两组卷积层以及全连接层得到基于VGG16的特征提取器并提取三维log-Mel频谱图的高维隐式特征。
S5:将三维log-Mel时频谱图的高维隐式特征按6:2:2的比例随机划分为训练集、测试集和验证集,分别与实际对应标签存储为DMatrix格式以符合XGBoost的输入要求。利用训练集对XGBoost分类器进行训练将无意义的高维隐式特征重新描述为显示特征,通过增加所提取特征的可解释性,提升对鸟鸣识别的有效性,然后在验证集上不断调整参数达到最优组合后在测试集上将鸟鸣信号映射为鸟类物种。
综上所述,本发明以自然环境下收集和设计的真实鸟鸣为基础建立鸟鸣音频库,对鸟鸣信号进行预处理、快速傅里叶变化等计算后提取log-Mel频谱图的一阶差分系数和二阶差分系数作为log-Mel频谱图的补充特征形成三维log-Mel频谱图。最后使用深度迁移学习的参数迁移方法微调预训练的VGG16构建特征提取器提取鸟鸣信号的高维隐式特征作为XGBoost分类器的输入实现鸟鸣信号到鸟类物种的识别。本发明所提供的技术方案,可应对自然环境中的多种鸟类进行识别,具有一定的抗噪性,所需计算资源低,可以实现对实际场景中鸟类物种的非侵入式识别与监测,对生态环境的研究具有重要意义。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (9)

1.基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:包括以下步骤:
S1:收集自然环境下的多种鸟类鸣声,每种鸟类鸣声信号包括多个时间序列相同的鸣声片段;建立基于自然场景设计和收集的鸟鸣音频库;
S2:对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号,将每帧鸣声信号通过快速傅里叶变换后取绝对值的平方得到能量谱图;
S3:将能量谱图经过64阶梅尔滤波器映射为Mel频谱图,作为深度迁移学习与XGBoost混合鸟鸣识别模型的输入;对Mel频谱图取对数得到log-Mel频谱图;计算log-Mel频谱图的一阶差分系数和二阶差分系数获得动态声学特征;将一阶差分系数和二阶差分系数与log-Mel频谱图组合成为三维log-Mel频谱图;
S4:采用参数迁移微调在ImageNet数据集上预训练的深度卷积神经网络VGG16模型,得到针对鸟鸣信息的特征提取器,并提取三维log-Mel时频谱图的高维隐式特征;
S5:将三维log-Mel时频谱图的高维隐式特征按照一定比例划分为训练集、测试集和验证集;采用训练集训练XGBoost分类器,并在验证集上调整XGBoost分类器的参数,最后在测试集上将高维隐式特征映射为鸟类物种。
2.根据权利要求1所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S1中,每个鸟鸣片段的时间序列长度为2秒,采样率为22.05khz,存储格式为.wav。
3.根据权利要求2所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S2中,具体步骤为:
S21:将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性;
S22:对分割后的鸟鸣信号进行分帧,设置帧长为2048个采样点,帧移为512个采样点得到短时平稳信号;
S23:设n为采样点的取值,N为帧长,则汉明窗计算公式ω(n)为:
Figure FDA0003646699980000011
设每帧信号为s(n),对分帧后的每帧信号乘以汉明窗进行加窗得到x(n):
x(n)=w(n)·s(n),0≤n≤N-1;
S24:设k是快速傅里叶变换的点数,对加窗后的鸟鸣信号x(n)进行快速傅里叶变换计算各帧的频谱,并对频谱取绝对值的平方,得到用于反映时域和频域特征信息的能量谱:
Figure FDA0003646699980000021
S25:绘制以时间为横轴、频率为纵轴的能量谱图,通过颜色明暗表示能量高低。
4.根据权利要求3所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S3中,具体步骤为:
S31:64阶梅尔滤波器具有人耳滤波功能,使用64阶梅尔滤波器对能量谱图进行滤波得到大小为64×64的Mel频谱图;
S32:对Mel频谱图取对数得到log-Mel频谱图L(m),log-Mel频谱图L(m)具备静态声学特征;
S33:计算log-Mel频谱图L(m)的一阶差分系数L(m) d和二阶差分系数L(m) dd获得动态声学特征,用于捕捉相邻两帧与相邻三帧之间音频信号的动态关系:
Figure FDA0003646699980000022
Figure FDA0003646699980000023
S34:将一阶差分系数L(m) d和二阶差分系数L(m) dd作为log-Mel频谱图L(m)的动态补充特征形成大小为64×64×3的三维log-Mel频谱图。
5.根据权利要求4所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S4中,具体步骤为:
S40:在ImageNet数据集上预训练深度卷积神经网络VGG16模型;
S41:采用参数迁移保留VGG16模型的浅层结构与参数权重;
S42:微调VGG16模型的深层结构;
S43:使用三维log-Mel频谱图重新训练深层结构的参数权重,得到针对鸟鸣信息的特征提取器;
S44:通过特征提取器提取三维log-Mel时频谱图的高维隐式特征。
6.根据权利要求5所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S42中,具体步骤为:
将VGG16模型的输入尺度调整为64×64×3;
VGG16模型包括5组共13个卷积层;每个卷积层的卷积核大小为3×3,其中第一组2个卷积层各有64个通道,卷积层之后使用RelU激活函数用于增加非线性映射、缓解梯度消失、提升网络的稀疏性;
还包括4个2x2的最大池化层分别连接在每组卷积层之间,用于对上层输出特征进行下采样,使池化后输入变成输出大小的一半,通道数增大一倍;
还包括2个全连接层,通过全局平均池化层连接最后一层卷积层;全连接层包括512个神经元,用于把分布式特征表示映射到样本标记空间;全连接层后添加有Dropout函数,用于按照一定的概率随机丢弃神经元,防止网络产生过拟合。
7.根据权利要求6所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S43中,具体步骤为:
把从鸟鸣信号中提取的大小为64×64×3的三维log-Mel频谱图作为VGG16模型的输入,重新训练最后两组卷积层和全连接层,得到基于VGG16模型的特征提取器。
8.根据权利要求7所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S5中,具体步骤为:
S51:将三维log-Mel时频谱图的高维隐式特征按6:2:2的比例随机划分为训练集、测试集和验证集,分别与实际对应标签存储为DMatrix格式以符合XGBoost的输入要求;
S52:采用训练集训练XGBoost分类器,将无意义的高维隐式特征重新描述为显示特征,用于增加所提取特征的可解释性;
S53:在验证集上不断调整参数达到最优组合;
S54:在测试集上将鸟鸣信号映射为鸟类物种。
9.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求1至权利要求8中任意一项所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法。
CN202210536031.3A 2022-05-17 2022-05-17 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 Active CN114863937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210536031.3A CN114863937B (zh) 2022-05-17 2022-05-17 基于深度迁移学习与XGBoost的混合鸟鸣识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210536031.3A CN114863937B (zh) 2022-05-17 2022-05-17 基于深度迁移学习与XGBoost的混合鸟鸣识别方法

Publications (2)

Publication Number Publication Date
CN114863937A true CN114863937A (zh) 2022-08-05
CN114863937B CN114863937B (zh) 2024-06-18

Family

ID=82637701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210536031.3A Active CN114863937B (zh) 2022-05-17 2022-05-17 基于深度迁移学习与XGBoost的混合鸟鸣识别方法

Country Status (1)

Country Link
CN (1) CN114863937B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238299A (zh) * 2023-11-14 2023-12-15 国网山东省电力公司电力科学研究院 输电线路鸟类声音识别模型优化方法、系统、介质及设备
CN117727309A (zh) * 2024-02-18 2024-03-19 百鸟数据科技(北京)有限责任公司 基于tdnn结构的鸟鸣物种自动识别方法
CN117727308A (zh) * 2024-02-18 2024-03-19 百鸟数据科技(北京)有限责任公司 基于深度迁移学习的混合鸟鸣识别方法
CN117981744A (zh) * 2024-04-07 2024-05-07 国网山东省电力公司淄博供电公司 一种输电线路防鸟害保护系统、方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570874A (zh) * 2018-06-05 2019-12-13 中国科学院声学研究所 一种用于监测野外鸟类鸣声强度及分布的系统及其方法
EP3879854A1 (en) * 2020-03-11 2021-09-15 Sonova AG Hearing device component, hearing device, computer-readable medium and method for processing an audio-signal for a hearing device
CN113707158A (zh) * 2021-08-02 2021-11-26 南昌大学 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法
CN114038479A (zh) * 2021-11-09 2022-02-11 中南林业科技大学 应对低信噪比的鸟鸣声识别分类方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570874A (zh) * 2018-06-05 2019-12-13 中国科学院声学研究所 一种用于监测野外鸟类鸣声强度及分布的系统及其方法
EP3879854A1 (en) * 2020-03-11 2021-09-15 Sonova AG Hearing device component, hearing device, computer-readable medium and method for processing an audio-signal for a hearing device
CN113707158A (zh) * 2021-08-02 2021-11-26 南昌大学 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法
CN114038479A (zh) * 2021-11-09 2022-02-11 中南林业科技大学 应对低信噪比的鸟鸣声识别分类方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘钊: "随机森林和大规模声学特征的噪声环境鸟声识别仿真", 系统仿真技术, 28 November 2017 (2017-11-28) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238299A (zh) * 2023-11-14 2023-12-15 国网山东省电力公司电力科学研究院 输电线路鸟类声音识别模型优化方法、系统、介质及设备
CN117238299B (zh) * 2023-11-14 2024-01-30 国网山东省电力公司电力科学研究院 输电线路鸟类声音识别模型优化方法、系统、介质及设备
CN117727309A (zh) * 2024-02-18 2024-03-19 百鸟数据科技(北京)有限责任公司 基于tdnn结构的鸟鸣物种自动识别方法
CN117727308A (zh) * 2024-02-18 2024-03-19 百鸟数据科技(北京)有限责任公司 基于深度迁移学习的混合鸟鸣识别方法
CN117727308B (zh) * 2024-02-18 2024-04-26 百鸟数据科技(北京)有限责任公司 基于深度迁移学习的混合鸟鸣识别方法
CN117727309B (zh) * 2024-02-18 2024-04-26 百鸟数据科技(北京)有限责任公司 基于tdnn结构的鸟鸣物种自动识别方法
CN117981744A (zh) * 2024-04-07 2024-05-07 国网山东省电力公司淄博供电公司 一种输电线路防鸟害保护系统、方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN114863937B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN114863937B (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
Lidy et al. CQT-based Convolutional Neural Networks for Audio Scene Classification.
CN107393542B (zh) 一种基于双通道神经网络的鸟类物种识别方法
CN108711436B (zh) 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
Mesgarani et al. Discrimination of speech from nonspeech based on multiscale spectro-temporal modulations
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN117095694A (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN111402922B (zh) 基于小样本的音频信号分类方法、装置、设备及存储介质
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN117854545A (zh) 基于时间卷积网络的多乐器识别方法及系统
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
CN110931024A (zh) 基于音频的圈养大熊猫自然交配结果的预测方法及系统
Yu Research on music emotion classification based on CNN-LSTM network
CN113488069B (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
CN115641839A (zh) 一种智能语音识别方法和系统
CN114299986A (zh) 一种基于跨域迁移学习的小样本声音识别方法及系统
CN113628639A (zh) 一种基于多头注意力机制的语音情感识别方法
CN113658607A (zh) 基于数据增强和卷积循环神经网络的环境声音分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant