CN113870870B

CN113870870B - 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法

Info

Publication number: CN113870870B
Application number: CN202111456006.6A
Authority: CN
Inventors: 吕连港; 段德鑫; 姜莹; 刘宗伟; 杨春梅
Original assignee: First Institute of Oceanography MNR
Current assignee: First Institute of Oceanography MNR
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-04-05
Anticipated expiration: 2041-12-02
Also published as: JP7180838B1; CN113870870A; JP2023082651A

Abstract

本发明涉及一种基于一种卷积神经网络的海洋哺乳动物发声实时识别方法，属于信号处理领域，首先将一段信号进行标准化处理后通过快速傅里叶变化产生信号的时频彩色图像，随后对时频图像中的动物声信号进行标注。最后将数据送入卷积神经网络进行训练以得到一个识别模型。本发明采用卷积神经网络构建的识别模型一步式识别水下声数据中的海洋哺乳动物声信号。本发明方法能够拥有较高的召回率和准确率的同时有较快的处理速度，能够满足实时识别的需求。

Description

一种基于卷积神经网络的海洋哺乳动物发声实时识别方法

技术领域

本发明属于信号处理领域，涉及一种基于卷积神经网络的海洋哺乳动物发声实时识别方法。

背景技术

海洋哺乳动物的通讯交流叫声是是一种调频信号，信号频率随时间变化形式多样，主要用于个体或群体之间的互相联络、情感表达、信息传递等。利用动物的通讯交流叫声开展声学监测是调查海洋动物的种群分布、出现情况最重要方式。因此需要开发海洋哺乳动物发声的检测和分类算法。目前大部分算法通过边缘检测、连通域识别和局部最大值等方式检测时频图中的曲线追踪动物声信号，一部分算法提取特征并使用类似于随机森林的分类算法对信号分类。这些算法的缺点在于特征提取困难，计算时间长，而不能用于实时监测系统中。

发明内容

为克服现有方法存在的问题，本发明提供了一种基于卷积神经网络的海洋哺乳动物发声实时识别方法。该方法将海洋哺乳动物叫声的检测和分类一步完成，实现了动物叫声的一步识别，不仅准确率高而且具有实时性。

本发明通过如下技术方案来实现的：

一种基于卷积神经网络的海洋哺乳动物发声实时识别方法，所述方法具体步骤如下：

（1）信号处理，将一段水下声音信号标准化处理，然后分成均等长度N段，采用快速傅里叶变化进行时频处理得到每段数据的时频图，存为三通道 (RGB)彩色时频图像；

（2）信号标注，检查每一张三通道彩色时频图像，使用矩形框将出现的海洋哺乳动物叫声信号的轮廓包围住，并标注物种类别，通过程序自动获得矩形框的中心坐标及宽高，将这部分标注信息写入标注文件；

（3）识别模型的设计，识别模型使用卷积神经网络，卷积神经网络的输入为三通道彩色时频图像矩阵，卷积神经网络的输出为一个识别矩阵；

（4）识别模型训练，将三通道彩色时频图像与标注文件输入卷积神经网络进行训练，根据损失函数计算网络输出与标注信号的损失，在训练过程中不断优化此损失，在达到预定轮次后结束训练，训练完成后得到识别模型；

卷积神经网络输出与真实标注信号的损失由函数计算：

其中x _i ，y _i ，w _i ，h _i分别为神经网络输出的检测框的中心横坐标，中心纵坐标，检测框的宽，检测框的高；

分别为标注图像中真实信号标注框的中心横坐标，中心纵坐标，标注框的宽，标注框的高； C _i是该检测单元是否包含信号的置信度，

是标注图像中对应检测单元是否包含信号的置信度，若有信号为1，无信号为0； p _i为模型预测的信号所属物种的分类标签；

为标注图像中对应的物种真实分类标签；

（5）首先将待检测的数据经过与步骤（1）相同的处理得到彩色时频图像，随后将待检测数据的时频图像输入步骤（4）训练好的模型，模型经过计算输出一个输出矩阵，对输出矩阵的信息进行转换与筛选，得到若干组包含中心坐标、长宽、置信度与分类标签的识别结果，中心坐标与长宽构成的矩形框代表了模型检测到的信号，置信度与分类标签则给出了物种分类。

进一步，所述的标准化处理的步骤为首先去掉信号的直流分量：S_t=S-mean(s)，其中mean()表示取均值操作；将信号的功率归一化：S_t=S_t/Std(S_t)，其中Std()表示取标准差操作。

进一步，所述步骤（3）中的识别模型使用的卷积神经网络为24层卷积层、2层池化层与2层全连接层。

本发明与现有技术相比的有益效果是：

本方法使用卷积神经网络，将时频图像中哺乳动物的声信号进行一步式识别，不仅保持了较高准确率和召回率，提高了数据处理速率，整个识别过程能够实时完成。

附图说明

图1是一段数据的原始时域图；

图2是一段数据的时频彩色图；

图3是识别模型过程示意图；

图4是经过识别检测模型后的结果示意图；

图5本发明识别模型构建步骤示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案做进一步描述，但本发明的保护范围不受实施例任何形式上的限制。

实施例1

本发明提出了一种基于卷积神经网络的哺乳动物叫声识别方法。该方法将待检测时频图像划分为若干个检测单元，在每个单元内输出一组检测框的坐标、该单元包含信号的置信度以及信号所属物种的分类。模型将所有检测单元的预测结果过滤筛选，得到最终的检测与分类结果。每张时频图像的所有检测单元同时进行处理，且每个检测单元内检测与分类同时进行，提高了处理速度，使得模型能够对数据进行实时识别处理。

首先建立识别模型，流程如图5所示，然后应用所建立的模型进行数据处理。具体步骤如下：

第一步，将一段水下声音数据S执行标准化操作得到标准化数据信号。标准化操作的步骤为首先去掉信号的直流分量：S_t=S-mean(s)，其中mean()表示取均值操作；将信号的功率归一化：S_t=S_t/Std(S_t)，其中Std()表示取标准差操作。然后对信号进行分段，S_d=S_t/N将信号分成N段，每段长约1.2s（图1）。随后，对信号S_d进行时频处理得到信号的彩色时频图（图2）。

第二步，标注信号。逐张检查生成的彩色时频图，将发现的哺乳动物叫声信号用矩形框包围，通过程序自动获取矩形框的中心坐标与宽高，同时将将信号分为所属的物种。将以上标注信息写入标注文件。

第三步，设计识别模型。识别模型使用的卷积神经网络共24层，包含24层卷积层、2层池化层与2层全连接层。第一层的输入为尺寸为（456，456，3）的彩色时频图像，卷积神经网络的输出为（7，7，8）的三维输出矩阵。卷积神经网络输出与真实标注信号的损失由函数计算：

为标注图像中对应的物种真实分类标签。

第四步，识别模型训练。将时频图像与标注文件一并输入卷积神经网络，使用定义的损失函数计算损失并优化。达到预定轮次后结束训练得到一个识别模型。模型应用时，输入一张三通道彩色时频图像，输出若干个带有物种分类标签与置信度的检测框作为检测识别结果。

在实际应用时，首先将待检测的数据经过与第一步相同的步骤处理得到时频图像。随后将待检测数据的时频图像输入训练好的模型，模型经过计算输出一个输出矩阵，对输出矩阵的信息进行转换与筛选，得到若干组包含中心坐标、长宽、置信度与分类标签的识别结果。中心坐标与长宽构成的矩形框代表了模型检测到的信号，置信度与分类标签则给出了物种分类。至此，模型一步式完成了动物声信号的检测和分类两项任务（图3）。

为进一步表明本发明方法的性能，使用包含有瓶鼻海豚的哨声信号、儒艮的啁啾声信号和中华白海豚的哨声信号的水下声数据构建识别模型并进行实验（图4）。实验结果表明，模型对三种动物叫声信号的平均召回率达到84.82%，平均准确率为91.28%。使用Intel(R) Core(TM) i7-8565U CPU的笔记本电脑作为测试平台，模型识别时频图像所对应的每1秒数据用时为0.7063秒，能够满足实时识别的需求。

Claims

1.一种基于卷积神经网络的海洋哺乳动物发声实时识别方法，其特征在于所述方法具体步骤如下：

1)信号处理，将一段水下声音信号标准化处理，然后分成均等长度N段，采用快速傅里叶变化进行时频处理得到每段数据的时频图，存为三通道(RGB)彩色时频图像；

2)信号标注，检查每一张三通道彩色时频图像，使用矩形框将出现的海洋哺乳动物叫声信号的轮廓包围住，并标注物种类别，通过程序自动获得矩形框的中心坐标及宽高，将这部分标注信息写入标注文件；

3)识别模型的设计，识别模型使用卷积神经网络，卷积神经网络的输入为三通道彩色时频图像矩阵，卷积神经网络的输出为一个识别矩阵；

4)识别模型训练，将三通道彩色时频图像与标注文件输入卷积神经网络进行训练，根据损失函数计算网络输出与标注信号的损失，在训练过程中不断优化此损失，在达到预定轮次后结束训练，训练完成后得到识别模型；

卷积神经网络输出与真实标注信号的损失由函数计算：

其中x_i，y_i，w_i，h_i分别为神经网络输出的检测框的中心横坐标，中心纵坐标，检测框的宽，检测框的高；

分别为标注图像中真实信号标注框的中心横坐标，中心纵坐标，标注框的宽，标注框的高；C_i是该检测框是否包含信号的置信度，

是标注图像中对应检测框是否包含信号的置信度，若有信号为1，无信号为0；p_i为模型预测的信号所属物种的分类标签；

为标注图像中对应的物种真实分类标签；

5)将待检测的数据经过与步骤1)相同的处理得到彩色时频图像，随后将待检测数据的时频图像输入步骤4)训练好的模型，模型经过计算输出一个输出矩阵，对输出矩阵的信息进行转换与筛选，得到若干组包含中心坐标、长宽、置信度与分类标签的识别结果，中心坐标与长宽构成的矩形框代表了模型检测到的信号，置信度与分类标签则给出了物种分类。

2.根据权利要求1所述的方法，其特征在于所述步骤3)中的识别模型使用的卷积神经网络为24层卷积层、2层池化层与2层全连接层。