CN117727308B - 基于深度迁移学习的混合鸟鸣识别方法 - Google Patents
基于深度迁移学习的混合鸟鸣识别方法 Download PDFInfo
- Publication number
- CN117727308B CN117727308B CN202410179292.3A CN202410179292A CN117727308B CN 117727308 B CN117727308 B CN 117727308B CN 202410179292 A CN202410179292 A CN 202410179292A CN 117727308 B CN117727308 B CN 117727308B
- Authority
- CN
- China
- Prior art keywords
- frame
- subgraph
- bird song
- frames
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013508 migration Methods 0.000 title claims abstract description 12
- 230000005012 migration Effects 0.000 title claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims abstract description 92
- 230000008859 change Effects 0.000 claims abstract description 27
- 230000003595 spectral effect Effects 0.000 claims abstract description 20
- 238000013526 transfer learning Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 31
- 230000035772 mutation Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 10
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 11
- 230000009466 transformation Effects 0.000 description 7
- 238000012546 transfer Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001645362 Valsa Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
本发明涉及语音处理技术领域,提出了基于深度迁移学习的混合鸟鸣识别方法,包括:采集生态区内的混合鸟鸣信号;基于每个频谱子图上每一帧处谐波成分的相关性和衰减特征确定每一帧的鸟鸣帧识别概率;基于每个频谱子图上所有帧的鸟鸣帧识别概率的分布特征确定每个频谱子图上每一帧的帧扩展尺度;基于每个频谱子图上每一帧的帧扩展尺度确定每一帧的鸟鸣特征图;将预训练的识别模型中的权重参数迁移到混合鸟鸣识别模型,基于混合鸟鸣识别模型确定鸟鸣特征图的识别结果。本发明考虑每一帧上谐波成分在频率、时间上的变化特征构建每一帧的鸟鸣特征图训练识别模型,降低源领域与目标领域数据的特征分布差异对迁移效果的影响,提高识别准确率。
Description
技术领域
本发明涉及语音处理技术领域,具体涉及基于深度迁移学习的混合鸟鸣识别方法。
背景技术
鸟类是自然生态系统中的重要成员,通过对鸟类活动、种群行为的监测能够从一定程度生反应生态区域内生态系统的循环流畅程度和生态平衡的稳定性。因此通过对生态区内鸟类物种的识别与监测,能够反应生态区内的生态适宜性,辅助生态区的管理人员更好的维护生态区内的生态环境。
迁移学习的目的在于通过将源域中的数据、特征、知识等迁移到目标域中,丰富目标域,提高神经网络模型对目标域中数据的学习能力。迁移学习的具体方法包括权重迁移、知识蒸馏、fine-tuning等,特征迁移是现阶段迁移学习常用的迁移方式,但是由于源域和目标域中的数据种类、数据量本身就不相同,即在鸟鸣识别的过程中,源域中的数据可能与目标域中的数据并不属于同一种数据,这种情况就会导致在迁移过程中通常忽视了源领域与目标领域数据的特征分布可能存在差异,此时源领域数据的特征无法被目标领域充分利用,迁移学习的效果较差,导致迁移后识别模型对生态区内混合鸟鸣信号的识别效果较差。
发明内容
本发明提供基于深度迁移学习的混合鸟鸣识别方法,以解决源领域与目标领域数据的特征分布差异对迁移效果的影响过大,导致混合鸟鸣识别率过低的问题,所采用的技术方案具体如下:
本发明一个实施例提供了基于深度迁移学习的混合鸟鸣识别方法,该方法包括以下步骤:
采集生态区内的混合鸟鸣信号;
将每个混合鸟鸣信号的频谱图划分成相同尺度的频谱子图,基于每个频谱子图上每一帧处谐波成分的相关性和衰减特征确定每个频谱子图上每一帧的鸟鸣帧识别概率;
基于每个频谱子图上所有帧的鸟鸣帧识别概率的分布特征确定每个频谱子图上每一帧的帧扩展尺度;基于每个频谱子图上每一帧的帧扩展尺度确定每一帧的鸟鸣特征图;
将预训练的识别模型中的权重参数迁移到混合鸟鸣识别模型,基于混合鸟鸣识别模型确定所述鸟鸣特征图的识别结果。
优选的,所述基于每个频谱子图上每一帧处谐波成分的相关性和衰减特征确定每个频谱子图上每一帧的鸟鸣帧识别概率的方法为:
基于每个频谱子图上两帧的最大谐波成分向量、以及两帧中所有采样点的帧内稳定向量确定两帧之间的谐波分量相关性;
基于每个频谱子图上两帧上相同次序采样点处能量的变化情况确定两帧之间的鸣叫衰减相关性;
基于每个频谱子图上每一帧与其余帧之间的谐波分量相关性、鸣叫衰减相关性确定每个频谱子图上每一帧的鸟鸣帧识别概率。
优选的,所述基于每个频谱子图上两帧的最大谐波成分向量、以及两帧中所有采样点的帧内稳定向量确定两帧之间的谐波分量相关性的方法为:
将每个频谱子图上每一帧内的每个采样点的振幅与每一帧内其余采样点振幅差值的绝对值组成的向量作为每个采样点的帧内稳定向量;
将两帧上任意一个相同次序采样点的帧内稳定向量之间的度量距离在每帧内所有采样点上的累加结果作为第一乘积因子;
将每个频谱子图上每一帧中所有谐波成分中能量最大值按照谐波频率升序顺序组成的向量作为每一帧的最大谐波成分向量;
将第一乘积因子与两帧的最大谐波成分向量之间的度量距离的乘积作为两帧之间的谐波分量相关性。
优选的,所述基于每个频谱子图上两帧上相同次序采样点处能量的变化情况确定两帧之间的鸣叫衰减相关性的方法为:
将每个频谱子图上每一帧上的任意一个采样点作为一个目标采样点,统计每个目标帧上谐波分量的数量;
将每个谐波分量在每一帧上每个目标采样点处的能量值作为分子;将每个谐波分量在其余任意一帧上相同次序目标采样点处的能量值与预审参数之和作为分母,将分子与分母的比值作为所述每个目标采样点的能量波动量;
将所述每个目标采样点其相邻下一个目标采样点之间能量波动量差值的绝对值作为第一差值;将第一差值在每个频谱子图内两帧上所有谐波分量上的累加结果作为两帧之间的鸣叫衰减相关性。
优选的,所述基于每个频谱子图上每一帧与其余帧之间的谐波分量相关性、鸣叫衰减相关性确定每个频谱子图上每一帧的鸟鸣帧识别概率的方法为:
将每个频谱子图上每一帧作为一个目标帧,将每个目标帧与其余任意一帧之间的谐波分量相关性的映射结果与每个目标帧与其余任意一帧之间的鸣叫衰减相关性的映射结果之和作为第一累加因子;
将第一累加因子在每个频谱子图上所有帧上累加结果的均值作为每个目标帧的鸟鸣帧识别概率。
优选的,所述基于每个频谱子图上所有帧的鸟鸣帧识别概率的分布特征确定每个频谱子图上每一帧的帧扩展尺度的方法为:
将每个频谱子图中所有帧的鸟鸣帧识别概率作为输入,采样突变点检测算法获取每个频谱子图中所有帧的鸟鸣帧识别概率中的突变点,将每个所述突变点对应的帧记为一个突变帧;
基于每个频谱子图上与每一帧之间的时间间隔最短的突变帧确定每个频谱子图上每一帧的左侧边界帧、右侧边界帧,将每一帧的左侧边界帧、右侧边界帧之间帧的数量作为每一帧的帧扩展尺度。
优选的,所述基于每个频谱子图上与每一帧之间的时间间隔最短的突变帧确定每个频谱子图上每一帧的左侧边界帧、右侧边界帧的方法为:
分别将每个频谱子图上与每一帧之间的时间间隔最短且位于每一帧左侧、右侧的突变帧作为每一帧的左临界突变帧、右临界突变帧;
将每一帧与其左临界突变帧的鸟鸣帧识别概率之间差值的绝对值与第一预设参数之和作为左侧识别差值,将左侧识别差值的倒数与第二预设参数之和作为左侧扩展比;
将每一帧与其左临界突变帧之间帧的数量与左侧扩展比乘积取整的结果作为每一帧的左侧边界帧;
将每一帧与其右临界突变帧的鸟鸣帧识别概率之间差值的绝对值与第一预设参数之和作为右侧识别差值,将右侧识别差值的倒数与第二预设参数之和作为右侧扩展比;
将每一帧与其右临界突变帧之间帧的数量与右侧扩展比乘积取整的结果作为每一帧的右侧边界帧。
优选的,所述基于每个频谱子图上每一帧的帧扩展尺度确定每一帧的鸟鸣特征图的方法为:
将每个频谱子图上每一帧的左侧边界帧至右侧边界帧之间所有帧组成的频谱图作为每一帧的识别帧;
分别将每一帧的识别帧、Mel倒谱图、Chirplet语谱图的尺度调整至预设尺度,将尺度调整后的每一帧的识别帧、Mel倒谱图、Chirplet语谱图进行拼接得到每一帧的鸟鸣特征图。
优选的,所述将预训练的识别模型中的权重参数迁移到混合鸟鸣识别模型的方法为:
将利用ImageNet训练的VGG16模型作为预训练的识别模型;
将利用鸟鸣特征图作为训练样本训练的VGG16网络的裁剪结果作为混合鸟鸣识别模型中的特征提取网络;
将预训练的识别模型中卷积层以及全连接层的权重参数迁移到混合鸟鸣识别模型中的特征提取网络。
优选的,所述混合鸟鸣识别模型的裁剪方式为:去除VGG16模型的最后两个全连接层和最后一个Softmax输出层,保留第一个全连接层。
本发明的有益效果是:本发明通过基于每个频谱子图内帧与帧之间的谐波成分在频率方向,时间方向上的结构特征和衰减程度确定每一帧的鸟鸣帧识别概率;并基于每个频谱子图内每一帧的鸟鸣帧识别概率以及相邻突变帧的鸟鸣帧识别概率自适应确定每一帧的帧扩展尺度,帧扩展尺度考虑了帧扩展时的端点问题,其有益效果在于避免仅通过突变点检测确定帧扩展尺度时,忽略频谱子图中的突变帧同样包含有用的鸟鸣特征的问题,能够根据每一帧上的鸟鸣特征自适应的确定帧扩展时的尺度;并基于每一帧的识别帧、Mel倒谱图、Chirplet语谱图构建每一帧的鸟鸣特征图作为混合鸟鸣识别模型的输入,提高了权重迁移后混合鸟鸣识别模型对混合鸟鸣信号的识别能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于深度迁移学习的混合鸟鸣识别方法的流程示意图;
图2为本发明一个实施例所提供的混合鸟鸣信号频谱图的示意图;
图3为本发明一个实施例所提供的识别模型迁移的示意图;
图4为本发明一个实施例所提供的基于深度迁移学习的混合鸟鸣识别方法的实施流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的基于深度迁移学习的混合鸟鸣识别方法流程图,该方法包括以下步骤:
步骤S001,采集生态区内的混合鸟鸣信号。
利用生态区内布置的AI声纹感知设备,该设备是由四路拾音器组成的麦克风阵列,能够采集大小为200m*200m范围内的音频数据,其次可通过物联网将所采集的鸟鸣数据实时传回数据中心,由数据中心进行后续的混合鸟鸣声音识别。
在AI声纹感知设备采集鸟鸣数据的过程中,可能存在设备中的噪声、生态区内的环境噪声,例如风吹过树叶的飒飒声等,这些噪声会与鸟鸣声混合到一起被AI声纹感知设备采集,传输到数据中心。本发明中,鸟鸣数据的采样频率设置为22.05Khz,每个鸟鸣数据的采样时长设置为5s。根据鸟鸣数据的采样时长,数据中心中同样将每个时长为5s的音频段作为一个混合鸟鸣信号。
至此,得到生态区内的混合鸟鸣信号,用于后续获取识别模型的训练样本。
步骤S002,基于每个频谱子图上每一帧处谐波成分的相关性和衰减特征确定每个频谱子图上每一帧的鸟鸣帧识别概率。
通常来说鸟类鸣叫声中包含一定想要传播的信息,例如觅食、求偶、警告等等,也就说在一个无噪声的鸟鸣信号中,不同时刻蕴含的音频信息是不同的,因此在鸟鸣信号对应的频谱图中,频谱图通常沿频率方向表现出一些周期性,即在特定的瞬间显示出突出的谐波成分。此外,频谱图中各频率分量随时间变化也会呈现出规则的结构,这些频率分量往往是鸟鸣信号中音频特征最为明显的,在一定程度上揭示了鸟鸣的节奏信息,如图2所示。而对于混合鸟鸣信号而言,噪声的出现会对上述频谱图中的特征产生一定的影响,因此本发明中,考虑对混合鸟鸣信号进行先分帧后扩展帧的处理,针对每一帧上鸟鸣特征确定每一帧对应的训练样本,提高后续权重迁移的有效性。
具体地,获取每个混合鸟鸣信号的频谱图,以2s为时间窗口的长度,相邻两个时间窗口之间的移动步长为0.25s,即第一个时间窗口的时间范围为第0s至第2s,第二个时间窗口的时间范围为第0.25s至第2.25s,每个混合鸟鸣信号的频谱图可划分为13个尺度相等的频谱子图。对每个混合鸟鸣信号进行上述划分的目的是由于在混合鸟鸣信号中存在时长、起始时刻不明确的噪声,为了后续对每个频谱子图进行分帧截取时尽可能的获取包含鸟鸣频率的帧。
进一步地,对于任意一个混合鸟鸣信号的频谱图中的任意一个频谱子图,以第a个混合鸟鸣信号的频谱图中第k个频谱子图为例,将频谱子图/>划分为帧长为256个采样点的重叠帧序列,相邻帧之间重叠采样点的数量为128,并获取中每一帧中的功率值,音频信号中每一帧的功率值经过加窗、快速傅里叶变换即可获取,其中,语音信号的分帧加窗、以及傅里叶变换均为公知技术,具体过程不再赘述。其次,将频谱子图/>上每一帧中的每个采样点,将每个采样点的振幅与每一帧内其余采样点振幅差值的绝对值组成的向量作为每个采样点的帧内稳定向量。需要说明的是,帧长的大小以及重叠范围实施者可根据生态区数据中心得到的混合鸟鸣信号的具体时长设定合适的值。
进一步地,如果频谱子图中某一帧包含鸟鸣特征越显著、鸟鸣频率越多,越有可能是鸟类传播信息鸣叫时的关键时刻,则该帧及其相邻帧之间都会包含大量鸟鸣频率,那么这些相邻帧在频谱子图/>的横轴方向会形成局部的,在频谱子图/>上的频率方向上也会形成逐渐衰减的谐波成分,能够从该帧上学习更多的鸟鸣特征。
基于上述分析,此处构建鸟鸣帧识别概率,用于表征每个频谱子图中每一帧扩展相邻帧能够学习鸟鸣特征的概率。计算频谱子图中第i帧的鸟鸣帧识别概率:
式中,是第i帧与第j帧之间的谐波分量相关性,/>、/>分别是第i帧、第j帧的最大谐波成分向量,/>、/>分别是第i帧、第j帧中第c个采样点的帧内稳定向量,m是每一帧内采样点的数量,/>、/>分别是向量/>与/>,/>与/>之间的余弦相似度,余弦相似度的计算为公知技术,具体过程不再赘述;其中,所述最大谐波成分向量的获取过程为:将每一帧中所有谐波成分中能量最大值按照谐波频率升序顺序组成的向量作为每一帧的最大谐波成分向量;
是第i帧与第j帧之间的鸣叫衰减相关性,/>是第i帧中存在谐波分量的数量,是第u个谐波分量在第i帧上采样点的数量,/>、/>分别是第u个谐波分量在第i帧、第j帧上第g个采样点的能量值,/>、/>分别是第u个谐波分量在第i帧、第j帧上第g+1个采样点的能量值,/>是调参因子,用于防止分母为0,/>的大小取经验值0.01;
是频谱子图/>中第i帧的鸟鸣帧识别概率,/>是频谱子图/>中帧的数量,exp()是以自然常数为底数的指数函数。
其中,频谱子图中第i帧、第j帧中包含鸟鸣信息,体现鸟鸣特征的音频帧之间的谐波成分较为相似,/>的值越大,频谱子图/>中第i帧、第j帧相同次序处采样点的能量分布越相似,相同次序采样点的帧内稳定向量内元素的分布相似程度越高,的值越大,第一乘积因子/>的值越大,/>的值越大,的值越大;短时间内鸟鸣声中的音色较为稳定,谐波成分的含量变化较为平稳,且谐波成分的强度随着频率的增大而减弱,强度逐渐减弱,而相同次序采样点之间的时间间隔是相当的,谐波成分的衰减程度应该也是较为接近的,能量波动量/>、的大小越接近,第一差值/>之间的差值应当接近于0,/>的值越小,第一累加因子/>的值越大;即/>的值越大,频谱子图/>中第i帧和越多帧上的谐波成分结构特征越相似,越有可能是能够提取鸟鸣特征的音频帧。
至此,得到每个频谱子图上每一帧的鸟鸣帧识别概率,用于确定每一帧的帧扩展尺度。
步骤S003,基于每个频谱子图上所有帧的鸟鸣帧识别概率的分布特征确定每个频谱子图上每一帧的帧扩展尺度;基于每个频谱子图上每一帧的帧扩展尺度确定每一帧的鸟鸣特征图。
进一步地,分别获取频谱子图中每一帧的鸟鸣帧识别概率,如果混合鸟鸣信号中包含鸟鸣信息的时刻位于频谱子图/>中,那么必定存在相邻几帧的鸟鸣帧识别概率都是较大值,且较为接近,这是因为在较短时间内,混合鸟鸣信号可视为一个稳定信号。将频谱子图/>中所有帧的鸟鸣帧识别概率作为输入,采用BG(Bernaola Galvan)序列分割算法得到频谱子图/>中所有帧的鸟鸣帧识别概率中的突变点,将每个所述突变点对应的帧记为一个突变帧,将所有突变帧中位于第i帧左侧且与第i帧之间的时间间隔最短的突变帧记为左临界突变帧;将所有突变帧中位于第i帧右侧且与第i帧之间的时间间隔最短的突变帧记为右临界突变帧,BG序列分割算法为公知技术,具体过程不再赘述。
基于上述分析,此处构建帧扩展尺度,用于表征对频谱子图中每一帧,应该结合多少相邻帧提取鸟鸣特征,计算频谱子图中第i帧的帧扩展尺度:
式中,是频谱子图/>中第i帧的左侧边界帧,/>是四舍五入取整函数,x为第i帧的左临界突变帧,即频谱子图/>中的第x帧,/>是第i帧与其左临界突变帧之间的帧的数量,/>、/>分别是频谱子图/>中第i帧、第x帧的鸟鸣帧识别概率,/>是调参因子,用于防止分母为0,/>的大小取经验值0.01;
是频谱子图/>中第i帧的右侧边界帧,/>是四舍五入取整函数,/>是第i帧、第y帧之间的帧间间隔,/>、/>分别是频谱子图/>中第i帧、第y帧的鸟鸣帧识别概率;
是频谱子图/>中第i帧的帧扩展尺度。
其中,频谱子图中第i帧受到噪声的干扰程度越大,第i帧中的音频信息越混乱,频谱子图/>中的突变帧与第i帧的帧间距离越小,/>的值越小,的值越大,左侧识别差值/>的值越大,左侧扩展比/>的值越小,左侧边界帧/>的值越小,同理,/>的值越小,则第i帧应当扩展较小的尺度,以免扩大噪声对后续提取鸟鸣特征的影响;如果第a个混合鸟鸣信号中在第i帧对应时刻鸟鸣音调较高,鸟鸣特征强烈,那么第i帧的鸟鸣帧识别概率分别与其左右两侧帧间距离最小的第x帧、第y帧的鸟鸣帧识别概率较为相似,可能是噪声突变产生了突变帧,但是由于第x帧、第y帧距离第i帧的时间间隔较短,则认为第x帧、第y帧包含有效鸟鸣信息的概率也较大,在提取鸟鸣特征时,应当考虑尽可能多的相邻帧,即/>的值越小,右侧识别差值的值越小,右侧扩展比/>的值越大,右侧边界帧/>的值越大,/>的范围越大。帧扩展尺度考虑了帧扩展时的端点问题,其有益效果在于避免仅通过突变点检测确定帧扩展尺度时忽略突变帧同样包含有用的鸟鸣特征的问题。
具体地,以第i帧为起始帧,分别往左侧取个帧,往右侧取/>个帧,将频谱子图/>中帧扩展尺度内所有帧组成的频谱图作为第i帧的识别帧。
进一步地,对于每个频谱子图中每一帧,分别获取每一帧的识别帧对应的Mel倒谱图、Chirplet语谱图,其中,所述Mel倒谱图、Chirplet语谱图分别能够采样梅尔频域倒谱变换、线调频小波变换基于每一帧的识别帧得到,梅尔频域倒谱变换、线调频小波变换均为公知技术,具体过程不再赘述。其次,将每一帧的识别帧、Mel倒谱图、Chirplet语谱图的尺度调整至224*224,其次将尺度调整后的三幅图像进行拼接,每一帧即可得到224*224*3的鸟鸣特征图,图像的尺度变换为公知技术,具体过程不再赘述。
至此,得到每个频谱子图上每一帧的鸟鸣特征图,用于后续训练混合鸟鸣识别模型。
步骤S004,将预训练的识别模型中的权重参数迁移到混合鸟鸣识别模型,基于混合鸟鸣识别模型确定所述鸟鸣特征图的识别结果。
为了更好的迁移源域模型中的权重,提高混合鸟鸣信号的识别准确率。本发明中根据每个混合鸟鸣信号中每个频谱子图中每一帧的鸟鸣特征图完成迁移,整个混合鸟鸣信号的识别流程如图4所示。
具体地,首先利用公开的图像分类数据集ImageNet预训练VGG16(VisualGeometry Group Network-16)模型作为源域模型,保留源域模型中的浅层网络和模型参数,作为迁移对象。其次分别获取数据中心内所有采集的混合鸟鸣信号中每一帧尺度为224*224*3的鸟鸣特征图作为VGG16模型的训练样本,并去除 VGG16模型的最后两个全连接层和最后一个Softmax 输出层,仅保留第一个全连接层直接作为VGG16模型的输出,对经过上述裁剪后的VGG16网络作为混合鸟鸣识别模型中的特征提取网络,将源域模型中网络的权重参数迁移到特征提取网络,如图3所示,特征提取网络的输出为一个4096 *1维的特征向量。
进一步地,利用特征提取网络的输出训练混合鸟鸣识别模型中的分类器。将特征提取网络提取的特征按照特征在前,标签在后的格式存储在文本文件中,其次,将输出的4096 *1维特征向量作为分类器的输入,本发明中,考虑到音频信号的时序特征,以长短时记忆网络LSTM(Long Short-Term Memory)网络为分类器,以交叉熵函数为损失函数,以RSMProp算法为优化算法,分类器的输出为每个频谱子图对应的鸟类识别结果,神经网络的训练为公知技术,具体过程不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于深度迁移学习的混合鸟鸣识别方法,其特征在于,该方法包括以下步骤:
采集生态区内的混合鸟鸣信号;
将每个混合鸟鸣信号的频谱图划分成相同尺度的频谱子图,基于每个频谱子图上每一帧处谐波成分的相关性和衰减特征确定每个频谱子图上每一帧的鸟鸣帧识别概率;
基于每个频谱子图上所有帧的鸟鸣帧识别概率的分布特征确定每个频谱子图上每一帧的帧扩展尺度;基于每个频谱子图上每一帧的帧扩展尺度确定每一帧的鸟鸣特征图;
将预训练的识别模型中的权重参数迁移到混合鸟鸣识别模型,基于混合鸟鸣识别模型确定所述鸟鸣特征图的识别结果;
所述基于每个频谱子图上每一帧处谐波成分的相关性和衰减特征确定每个频谱子图上每一帧的鸟鸣帧识别概率的方法为:
基于每个频谱子图上两帧的最大谐波成分向量、以及两帧中所有采样点的帧内稳定向量确定两帧之间的谐波分量相关性;
基于每个频谱子图上两帧上相同次序采样点处能量的变化情况确定两帧之间的鸣叫衰减相关性;
基于每个频谱子图上每一帧与其余帧之间的谐波分量相关性、鸣叫衰减相关性确定每个频谱子图上每一帧的鸟鸣帧识别概率;
所述基于每个频谱子图上两帧的最大谐波成分向量、以及两帧中所有采样点的帧内稳定向量确定两帧之间的谐波分量相关性的方法为:
将每个频谱子图上每一帧内的每个采样点的振幅与每一帧内其余采样点振幅差值的绝对值组成的向量作为每个采样点的帧内稳定向量;
将两帧上任意一个相同次序采样点的帧内稳定向量之间的度量距离在每帧内所有采样点上的累加结果作为第一乘积因子;
将每个频谱子图上每一帧中所有谐波成分中能量最大值按照谐波频率升序顺序组成的向量作为每一帧的最大谐波成分向量;
将第一乘积因子与两帧的最大谐波成分向量之间的度量距离的乘积作为两帧之间的谐波分量相关性;
所述基于每个频谱子图上两帧上相同次序采样点处能量的变化情况确定两帧之间的鸣叫衰减相关性的方法为:
将每个频谱子图上每一帧上的任意一个采样点作为一个目标采样点,统计每个目标帧上谐波分量的数量;
将每个谐波分量在每一帧上每个目标采样点处的能量值作为分子;将每个谐波分量在其余任意一帧上相同次序目标采样点处的能量值与预审参数之和作为分母,将分子与分母的比值作为所述每个目标采样点的能量波动量;
将所述每个目标采样点其相邻下一个目标采样点之间能量波动量差值的绝对值作为第一差值;将第一差值在每个频谱子图内两帧上所有谐波分量上的累加结果作为两帧之间的鸣叫衰减相关性;
所述基于每个频谱子图上所有帧的鸟鸣帧识别概率的分布特征确定每个频谱子图上每一帧的帧扩展尺度的方法为:
将每个频谱子图中所有帧的鸟鸣帧识别概率作为输入,采样突变点检测算法获取每个频谱子图中所有帧的鸟鸣帧识别概率中的突变点,将每个所述突变点对应的帧记为一个突变帧;
基于每个频谱子图上与每一帧之间的时间间隔最短的突变帧确定每个频谱子图上每一帧的左侧边界帧、右侧边界帧,将每一帧的左侧边界帧、右侧边界帧之间帧的数量作为每一帧的帧扩展尺度。
2.根据权利要求1所述的基于深度迁移学习的混合鸟鸣识别方法,其特征在于,所述基于每个频谱子图上每一帧与其余帧之间的谐波分量相关性、鸣叫衰减相关性确定每个频谱子图上每一帧的鸟鸣帧识别概率的方法为:
将每个频谱子图上每一帧作为一个目标帧,将每个目标帧与其余任意一帧之间的谐波分量相关性的映射结果与每个目标帧与其余任意一帧之间的鸣叫衰减相关性的映射结果之和作为第一累加因子;
将第一累加因子在每个频谱子图上所有帧上累加结果的均值作为每个目标帧的鸟鸣帧识别概率。
3.根据权利要求1所述的基于深度迁移学习的混合鸟鸣识别方法,其特征在于,所述基于每个频谱子图上与每一帧之间的时间间隔最短的突变帧确定每个频谱子图上每一帧的左侧边界帧、右侧边界帧的方法为:
分别将每个频谱子图上与每一帧之间的时间间隔最短且位于每一帧左侧、右侧的突变帧作为每一帧的左临界突变帧、右临界突变帧;
将每一帧与其左临界突变帧的鸟鸣帧识别概率之间差值的绝对值与第一预设参数之和作为左侧识别差值,将左侧识别差值的倒数与第二预设参数之和作为左侧扩展比;
将每一帧与其左临界突变帧之间帧的数量与左侧扩展比乘积取整的结果作为每一帧的左侧边界帧;
将每一帧与其右临界突变帧的鸟鸣帧识别概率之间差值的绝对值与第一预设参数之和作为右侧识别差值,将右侧识别差值的倒数与第二预设参数之和作为右侧扩展比;
将每一帧与其右临界突变帧之间帧的数量与右侧扩展比乘积取整的结果作为每一帧的右侧边界帧。
4.根据权利要求1所述的基于深度迁移学习的混合鸟鸣识别方法,其特征在于,所述基于每个频谱子图上每一帧的帧扩展尺度确定每一帧的鸟鸣特征图的方法为:
将每个频谱子图上每一帧的左侧边界帧至右侧边界帧之间所有帧组成的频谱图作为每一帧的识别帧;
分别将每一帧的识别帧、Mel倒谱图、Chirplet语谱图的尺度调整至预设尺度,将尺度调整后的每一帧的识别帧、Mel倒谱图、Chirplet语谱图进行拼接得到每一帧的鸟鸣特征图。
5.根据权利要求1所述的基于深度迁移学习的混合鸟鸣识别方法,其特征在于,所述将预训练的识别模型中的权重参数迁移到混合鸟鸣识别模型的方法为:
将利用ImageNet训练的VGG16模型作为预训练的识别模型;
将利用鸟鸣特征图作为训练样本训练的VGG16网络的裁剪结果作为混合鸟鸣识别模型中的特征提取网络;
将预训练的识别模型中卷积层以及全连接层的权重参数迁移到混合鸟鸣识别模型中的特征提取网络。
6.根据权利要求5所述的基于深度迁移学习的混合鸟鸣识别方法,其特征在于,所述混合鸟鸣识别模型的裁剪方式为:去除 VGG16 模型的最后两个全连接层和最后一个Softmax 输出层,保留第一个全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410179292.3A CN117727308B (zh) | 2024-02-18 | 2024-02-18 | 基于深度迁移学习的混合鸟鸣识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410179292.3A CN117727308B (zh) | 2024-02-18 | 2024-02-18 | 基于深度迁移学习的混合鸟鸣识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117727308A CN117727308A (zh) | 2024-03-19 |
CN117727308B true CN117727308B (zh) | 2024-04-26 |
Family
ID=90209265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410179292.3A Active CN117727308B (zh) | 2024-02-18 | 2024-02-18 | 基于深度迁移学习的混合鸟鸣识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117727308B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118173106B (zh) * | 2024-05-15 | 2024-07-05 | 百鸟数据科技(北京)有限责任公司 | 一种野外鸟类鸣声音频数据增强方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197591A (zh) * | 2018-01-22 | 2018-06-22 | 北京林业大学 | 一种基于多特征融合迁移学习的鸟类个体识别方法 |
CN114283837A (zh) * | 2021-09-09 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、设备及存储介质 |
CN114863937A (zh) * | 2022-05-17 | 2022-08-05 | 武汉工程大学 | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 |
CN114913860A (zh) * | 2022-04-27 | 2022-08-16 | 中国工商银行股份有限公司 | 声纹识别方法、装置、计算机设备、存储介质及程序产品 |
CA3152644A1 (en) * | 2021-03-16 | 2022-09-16 | Monsters Aliens Robots Zombies Inc. | Method and system for image processing |
-
2024
- 2024-02-18 CN CN202410179292.3A patent/CN117727308B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197591A (zh) * | 2018-01-22 | 2018-06-22 | 北京林业大学 | 一种基于多特征融合迁移学习的鸟类个体识别方法 |
CA3152644A1 (en) * | 2021-03-16 | 2022-09-16 | Monsters Aliens Robots Zombies Inc. | Method and system for image processing |
CN114283837A (zh) * | 2021-09-09 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、设备及存储介质 |
CN114913860A (zh) * | 2022-04-27 | 2022-08-16 | 中国工商银行股份有限公司 | 声纹识别方法、装置、计算机设备、存储介质及程序产品 |
CN114863937A (zh) * | 2022-05-17 | 2022-08-05 | 武汉工程大学 | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 |
Non-Patent Citations (2)
Title |
---|
基于机器学习鸟声识别算法研究进展;申小虎等;生物多样性;20231231;第31卷(第11期);全文 * |
谢将剑 ; 杨俊 ; 邢照亮 ; 张卓 ; 陈新 ; .多特征融合的鸟类物种识别方法.应用声学.(02),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117727308A (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Semi-automatic classification of bird vocalizations using spectral peak tracks | |
CN117727308B (zh) | 基于深度迁移学习的混合鸟鸣识别方法 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN101710490A (zh) | 语音评测的噪声补偿方法及装置 | |
Huang et al. | Intelligent feature extraction and classification of anuran vocalizations | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN112750442B (zh) | 一种具有小波变换的朱鹮种群生态体系监测系统及其方法 | |
Wang et al. | Rainfall observation using surveillance audio | |
Keen et al. | Automated detection of low-frequency rumbles of forest elephants: A critical tool for their conservation | |
CN111402922B (zh) | 基于小样本的音频信号分类方法、装置、设备及存储介质 | |
CN115547347A (zh) | 基于多尺度时频特征提取的鲸类声信号识别方法与系统 | |
Chaves et al. | Katydids acoustic classification on verification approach based on MFCC and HMM | |
CN116884435A (zh) | 一种基于音频提示学习的声音事件检测方法及装置 | |
CN113936667A (zh) | 一种鸟鸣声识别模型训练方法、识别方法及存储介质 | |
CN111091816B (zh) | 一种基于语音评测的数据处理系统及方法 | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
CN114302301A (zh) | 频响校正方法及相关产品 | |
CN114626412A (zh) | 用于无人值守传感器系统的多类别目标识别方法及系统 | |
Diez Gaspon et al. | Deep learning for natural sound classification | |
CN113742515A (zh) | 一种音频分类方法及系统及设备及存储介质 | |
Therese et al. | A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system | |
CN117727309B (zh) | 基于tdnn结构的鸟鸣物种自动识别方法 | |
CN110689875A (zh) | 一种语种识别方法、装置及可读存储介质 | |
CN113129926A (zh) | 语音情绪识别模型训练方法、语音情绪识别方法及装置 | |
CN117727307B (zh) | 基于特征融合的鸟类声音智能识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |