CN118072746B

CN118072746B - 基于特征融合的海洋哺乳动物叫声识别与分类方法

Info

Publication number: CN118072746B
Application number: CN202410471424.XA
Authority: CN
Inventors: 王景景; 程婉璐; 蒋嘉铭; 曹润琪; 王猛; 姜帅; 鄢社锋
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Filing date: 2024-04-19
Publication date: 2024-07-05
Anticipated expiration: 2044-04-19

Abstract

本发明涉及海洋哺乳动物发声检测与识别领域，具体为一种基于特征融合的海洋哺乳动物叫声识别与分类方法。在Mel谱图基础上采用膨胀因果卷积来提取音频的频域特征，提高网络对频域特征提取的能力。其次，使用LSTM长短时记忆网络对音频信号的时域特征进行深入挖掘，并对频域特征提取进行有效补充，增强模型对音频数据特征的整体提取能力。最后，引用迁移学习，有效缓解了海洋哺乳动物音频训练样本稀缺的问题，从而保障了神经网络分类器在声音识别任务中的准确性，最终实现了对海洋哺乳动物声音的低延迟、高准确率识别与分类。

Description

基于特征融合的海洋哺乳动物叫声识别与分类方法

技术领域

本发明涉及海洋哺乳动物发声检测与识别领域，具体为一种基于特征融合的海洋哺乳动物叫声识别与分类方法。

背景技术

海洋哺乳动物叫声是它们在海洋生态系统中进行交流、定位和导航的重要手段，不仅包含了丰富的信息和特征，还反映了它们的行为习性、种群分布及生态状态。通过对海洋哺乳动物叫声的识别监测和分析，可以更好地了解它们的生活习性、数量和是否需要采取保护措施。

音频模式识别可以解决音频标注、声场景分类、音乐分类、语音情绪分类和声音事件检测等任务。目前音频模式识别的方法主要有两种方式，一是基于专业领域的人工提取方式，包括梅尔频率倒谱系数、频谱质心等。二是使用基于机器学习的分类器、高斯混合模型进行音频分类、使用卷积神经网络架构进行音频分类等。对于传统的专业领域，人工提取方式缺少了音频自身的特征，所以分类性能较差。对于基于机器学习的分类器，在面向大规模音频数据，深度学习方法效果优于传统的机器学习，但是如果采用单一的音频特征提取方法，可能无法充分捕捉音频信号的复杂性，导致信息丢失。并且只采用一种特征提取方法可能由于外部环境因素对分类效果产生消极的影响。因此在音频分类中，采用两种或两种以上的不同特征提取方法可以捕捉不同角度的音频信号信息、增强模型对于环境变化和噪声变化的鲁棒性和提高音频分类的准确度。目前研究中主要有基于多维特征提取和数据增强的海洋哺乳动物声音并行分类模型，其中采用了基于多通道并行结构的分类模块，该模块采用四个分支进行特征提取，分别是Mel谱图分支、MFCC分支、LFCC分支和mean MFCC分支，通过提取和融合这四种不同的互补声学特征，提高了最终的分类准确性。但是，此模型所采用的特征提取方法都是在频域上进行的，在一定程度上会丢失音频本身的特征信息，从而导致最终分类的准确率不高的问题。

由此可见，能够快速、可靠、高效地识别与分类多种海洋哺乳动物叫声仍需要面临巨大的挑战。基于深度学习的海洋哺乳动物叫声识别与分类方法具有较好的识别与分类性能，其主要步骤为，首先提取海洋哺乳动物叫声的特征，然后将特征输入到训练好的神经网络分类器中，最后进行识别与分类。但是由于水下环境复杂，对海洋哺乳动物叫声的特征提取产生了严重的干扰。因此，如何快速可靠的提取出干扰小的特征、以及如何训练出一个适用于海洋哺乳动物的分类方法，是现在急需要解决的技术问题。

发明内容

本发明的目的在于提供一种基于特征融合的海洋哺乳动物叫声识别与分类方法，利用Mel谱图，结合膨胀因果卷积，提取音频的频域特征。这种方法既增大了网络的感知范围，又保证了数据处理的有效性。同时，还采用LSTM长短时记忆网络来深入挖掘音频信号的时域特征，弥补频域特征的不足。LSTM长短时记忆网络的“门”机制能够很好地处理长期依赖问题，增强了模型对音频数据的整体提取能力。此外，运用迁移学习，有效缓解了海洋哺乳动物音频训练样本稀缺的问题，从而保障了神经网络分类器在声音识别任务中的准确性，最终实现了对海洋哺乳动物声音的低延迟、高准确率识别与分类。

为实现上述目的，本发明提供如下技术方案：本发明提供的基于特征融合的海洋哺乳动物叫声识别与分类方法包括以下步骤：

S1将梅尔滤波器组应用于频谱图，得到频域Mel谱图；

S2将Mel谱图进入膨胀因果卷积神经网络进行时域特征提取；

S3将音频信号直接进入LSTM长短时记忆网络进行频域特征提取；

S4进行神经网络模型训练；

S5引入Concat函数将两个分支的特征融合；

S6对提取特征进行归一化与维度变更；

S7将特征输入到已训练的CNN卷积神经网络中，完成海洋哺乳动物叫声识别。

优选的，叫声识别分类方法分别从时域和频域两个分支进行特征提取，并且不同分支采用不同的方法；其中，步骤S2中，频域特性提取分支采用膨胀因果卷积网络捕获音频数据的频域特征；步骤S3中，时域特性提取分支采用LSTM长短时记忆网络对音频信号的时域特征进行捕捉，避免因音频特征单一引起的检测效果差的问题。

优选的，S1具体步骤为：

S1.1将原始的海洋哺乳动物叫声音频信号进行降噪、重采样、分帧、归一化和加窗的预处理；

S1.2对每一帧的音频信号进行快速傅里叶变换，将时域信号转换到频域，得到每一帧的频域信息；

S1.3将梅尔滤波器组应用于频谱图，将不同频率范围的能量加权合并，得到Mel谱图；

优选的，Mel谱图中的梅尔标度，是以20赫兹到20千赫兹人类可听范围内的声音频率的频率范围为基础，但并不是线性的，其变换公式如下：

；

其中是梅尔频率，是线性频率；

Mel谱图中的梅尔频谱就是在Mel尺度下的频谱，它通过波形与若干个梅尔滤波器点乘所得到的。

优选的，S2步骤中：膨胀因果卷积通过在卷积核中插入零值来增加感受野，并且在进行卷积操作时保持因果性，从而既扩展了网络的感知范围，又保证了序列数据处理的有效性；

采用以下公式进行学习：

；

其中是输出序列中的第个元素，是卷积核的权重，是输入序列中的第个元素，是膨胀因子，是卷积核的大小，是滤波器的长度；由于因果卷积确保在计算每个输出元素时，只使用当前时刻及之前的输入元素；所以，其是将膨胀卷积的索引限制为大于等于1来实现；因此，才能执行卷积操作，是卷积核在输入序列上的位置索引，通过膨胀因子来扩展感受野。

优选的，S3步骤中，LSTM长短时记忆网络通过引入一种称为“门”的机制来解决长期依赖问题，使其能够更好地捕捉序列数据中的长期依赖关系；

LSTM长短时记忆网络单元通常由三个门组成： Forget Gate遗忘门、Input Gate输入门和Output Gate输出门，以及一个用于控制单元状态更新的Cell State单元状态；这些门控制着信息在LSTM长短时记忆网络单元内部的流动，允许LSTM长短时记忆网络在处理序列数据时选择性地遗忘、添加或输出信息；

遗忘门：决定在当前时间步长应该丢弃哪些信息；它的输出范围在0到1之间，其中0表示完全忘记，1表示完全记住；遗忘门的计算使用当前输入和前一个时刻的隐藏状态；其公式表示如下：

；

其中，是遗忘门的输出，是Sigmoid函数，是遗忘门的权重矩阵，是前一时刻的隐藏状态与当前时刻的输入连接而成的向量，是偏置项；

输入门：决定当前时刻应该添加哪些信息到单元状态中；它的输出范围在0到1之间，其中0表示完全忽略，1表示完全保留；输入门的计算包括当前输入和前一个时刻的隐藏状态；其公式表示如下：

；

其中，是输入门的输出，是Sigmoid函数，是输入门的权重矩阵，是前一时刻的隐藏状态与当前时刻的输入连接而成的向量，是偏置项；

单元状态：负责在不同时间步长之间传递和保存信息；它由遗忘门和输入门共同调节，允许模型在处理长序列时保持适当的记忆；其公式表示如下：

；

其中，更新后的单元状态，为遗忘门的输出，是输入门的输出，为上一时刻的单元状态，为新的候选单元状态，计算公式为；是双曲正切函数，是用于计算新候选单元状态的权重矩阵，是前一时刻的隐藏状态和当前时刻的输入连接而成的向量，是偏置项；

输出门：根据当前时刻的输入和前一个时刻的隐藏状态，决定在当前时刻应该输出哪些信息；输出门的输出会传递到下一个时间步长的隐藏状态，同时也是LSTM长短时记忆网络的输出；其公式表示如下：

；

其中，是输出门的输出，是Sigmoid函数，为输出门的权重矩阵，是前一时刻的隐藏状态和当前时刻的输入连接而成的向量，是偏置项。

优选的，S4步骤具体为：

S4.1通过AudioSet数据集训练一个分类效果最优的卷积神经网络模型；

S4.2使用预训练的AudioSet数据集音频标记任务的网络来初始化编码器CNN卷积神经网络的参数，微调预训练的网络；使用增强的数据和少量真实的数据替换AudioSet数据集再次训练模型；

S4.3采用迁移学习将预训练好的神经网络在真实海洋哺乳动物叫声数据中进行迁移训练，代替原有的CNN卷积神经网络，避免因CNN卷积神经网络参数问题引起的重要特征丢失，得到适用于海洋哺乳动物叫声识别与分类的神经网络模型。

本发明的有益效果：

（1）本发明的基于特征融合的海洋哺乳动物叫声识别与分类方法，在Mel谱图基础上采用膨胀因果卷积来提取音频的频域特征，并充分结合了膨胀卷积和因果卷积的特性，通过在卷积核中插入零值来增加感受野，并且在进行卷积操作时保持因果性，从而既扩展了网络的感知范围，又保证了序列数据处理的有效性。

（2）本发明的基于特征融合的海洋哺乳动物叫声识别与分类方法，使用LSTM长短时记忆网络对音频信号的时域特征进行深入挖掘，并对频域特征提取进行有效补充，它通过引入一种称为“门”的机制来解决长期依赖问题，使其能够更好地捕捉序列数据中的长期依赖关系，增强了模型对音频数据特征的整体提取能力；并且引用迁移学习，有效缓解了海洋哺乳动物音频训练样本稀缺的问题，从而保障了神经网络分类器在声音识别任务中的准确性，最终实现了对海洋哺乳动物声音的低延迟、高准确率识别与分类。

附图说明

图1是本发明的一种实施例的流程示意图；

图2是本发明的一种实施例中利用PANNs初始化编码器参数的模型图。

具体实施方式

为了使本发明实现的技术手段、创造特征与达成功效易于理解，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进一步清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于特征融合的海洋哺乳动物叫声识别与分类方法，分别从时域和频域两个分支进行特征提取，并且不同分支采用不同的方法；其中，频域特性提取分支采用膨胀因果卷积网络捕获音频数据的频域特征；时域特性提取分支采用LSTM长短时记忆网络对音频信号的时域特征进行捕捉，避免因音频特征单一引起的检测效果差的问题。

如图1所示，包括以下步骤：

S1将梅尔滤波器组应用于频谱图，得到频域Mel谱图；

S1.1将原始的海洋哺乳动物叫声音频信号进行降噪、重采样、分帧归一化和加窗的预处理；

Mel谱图中的梅尔标度，是以20赫兹到20千赫兹人类可听范围内的声音频率的频率范围为基础，但并不是线性的，其变换公式如下：

；

其中是梅尔频率，是线性频率；

S2将Mel谱图进入膨胀因果卷积神经网络进行特征提取；

膨胀因果卷积通过在卷积核中插入零值来增加感受野，并且在进行卷积操作时保持因果性，从而既扩展了网络的感知范围，又保证了序列数据处理的有效性；

采用以下公式进行学习：

；

S3将音频信号直接进入LSTM长短时记忆网络进行特征提取；

LSTM长短时记忆网络通过引入一种称为“门”的机制来解决长期依赖问题，使其能够更好地捕捉序列数据中的长期依赖关系；

；

S4进行神经网络模型训练；

S5引入Concat函数将两个分支的特征融合。

S6对提取特征进行归一化与维度变更。

S7将特征输入到已训练的CNN卷积神经网络中，完成海洋哺乳动物叫声分类识别。

本发明分别从时域和频域两个分支进行特征提取，并且不同分支采用不同的方法；其中，频域特性提取分支采用膨胀因果卷积网络捕获音频数据的频域特性，时域特性提取分支采用LSTM长短时记忆网络对音频信号的时域特征进行捕捉，避免因音频特征单一引起的检测效果不好的问题。

综上，本发明的基于特征融合的海洋哺乳动物叫声识别与分类方法，在Mel谱图基础上采用膨胀因果卷积来提取音频的频域特征，并充分结合了膨胀卷积和因果卷积的特性，通过在卷积核中插入零值来增加感受野，并且在进行卷积操作时保持因果性，从而既扩展了网络的感知范围，又保证了序列数据处理的有效性。使用LSTM长短时记忆网络对音频信号的时域特征进行深入挖掘，并对频域特征提取进行有效补充，它通过引入一种称为“门”的机制来解决长期依赖问题，使其能够更好地捕捉序列数据中的长期依赖关系，增强了模型对音频数据特征的整体提取能力；并且引用迁移学习，有效缓解了海洋哺乳动物音频训练样本稀缺的问题，从而保障了神经网络分类器在声音识别任务中的准确性，最终实现了对海洋哺乳动物声音的低延迟、高准确率识别与分类。

以上实施例仅用以说明本发明的技术方案，而非对其进行限制；尽管参照前述实施例对本发明进行了详细的说明，对于本领域的普通技术人员来说，依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。

Claims

1.基于特征融合的海洋哺乳动物叫声识别与分类方法，其特征在于，

包括以下步骤：

S1将梅尔滤波器组应用于频谱图，得到频域Mel谱图；

S2将Mel谱图进入膨胀因果卷积神经网络进行频域特征提取；

S3将音频信号直接进入LSTM长短时记忆网络进行时域特征提取；

S4进行神经网络模型训练；

S5引入Concat函数将两个分支的特征融合；

S6对提取特征进行归一化与维度变更；

S7将特征输入到已训练的CNN卷积神经网络中，完成海洋哺乳动物叫声识别；

所述叫声识别分类方法分别从时域和频域两个分支进行特征提取，并且不同分支采用不同的方法；其中，所述步骤S2中，频域特性提取分支采用膨胀因果卷积网络捕获音频数据的频域特征；所述步骤S3中，时域特性提取分支采用LSTM长短时记忆网络对音频信号的时域特征进行捕捉，避免因音频特征单一引起的检测效果差的问题；

S1步骤具体为：

所述S2步骤中，所述膨胀因果卷积通过在卷积核中插入零值来增加感受野，并且在进行卷积操作时保持因果性，从而既扩展了网络的感知范围，又保证了序列数据处理的有效性；

采用以下公式进行学习：

；

其中是输出序列中的第个元素，是卷积核的权重，是输入序列中的第个元素，是膨胀因子，是卷积核的大小；由于因果卷积确保在计算每个输出元素时，只使用当前时刻及之前的输入元素；所以，其是将膨胀卷积的索引限制为大于等于1来实现；因此，才能执行卷积操作，是卷积核在输入序列上的位置索引，通过膨胀因子来扩展感受野；

所述S3步骤中，所述LSTM长短时记忆网络通过引入一种称为“门”的机制来解决长期依赖问题，使其能够更好地捕捉序列数据中的长期依赖关系；

所述LSTM长短时记忆网络单元通常由三个门组成： Forget Gate遗忘门、Input Gate输入门和Output Gate输出门、以及一个用于控制单元状态更新的Cell State单元状态；这些门控制着信息在所述LSTM长短时记忆网络单元内部的流动，允许所述LSTM长短时记忆网络在处理序列数据时选择性地遗忘、添加或输出信息；

；

其中，是遗忘门的权重矩阵，是前一时刻的隐藏状态与当前时刻的输入连接而成的向量，是偏置项；

；

其中，是输入门的权重矩阵，是前一时刻的隐藏状态与当前时刻的输入连接而成的向量，是偏置项；

；

其中，为遗忘门的输出，为上一时刻的单元状态，为新的候选单元状态，计算公式为；是双曲正切函数，是用于计算新候选单元状态的权重矩阵，是前一时刻的隐藏状态和当前时刻的输入连接而成的向量，是偏置项；

；

其中，为输出门的权重矩阵，是前一时刻的隐藏状态和当前时刻的输入连接而成的向量，是偏置项；

S4步骤具体为：

2.根据权利要求1所述的基于特征融合的海洋哺乳动物叫声识别与分类方法，其特征在于，所述Mel谱图中的梅尔标度，是以20赫兹到20千赫兹、人类可听范围内的声音频率的频率范围为基础，但并不是线性的，其变换公式如下：

；

其中是梅尔频率，是线性频率；所述Mel谱图中的梅尔频谱就是在Mel尺度下的频谱，通过波形与若干个梅尔滤波器点乘所得到的。