CN118097391A

CN118097391A - 多模态融合的鱼群摄食强度分类方法、系统、设备及介质

Info

Publication number: CN118097391A
Application number: CN202410240309.1A
Authority: CN
Inventors: 李道亮; 杜壮壮; 王聪; 徐先宝; 白壮壮; 李万超
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-05-28

Abstract

本发明公开一种多模态融合的鱼群摄食强度分类方法、系统、设备及介质，涉及水产养殖技术领域。所述方法包括：获取设定周期内的鱼群摄食数据；所述鱼群摄食数据包括鱼类摄食音频、光学摄像机视频和图像声纳视频；所述设定周期包括摄食前、摄食过程和摄食后；对所述鱼群摄食数据进行预处理，得到目标数据；对所述目标数据进行多模态特征提取，得到音频及图像特征；根据强度分类模型和所述音频及图像特征将不同模态的数据融合后进行分类，确定鱼群摄食强度；所述鱼群摄食强度的类型包括强、中、弱和无；所述强度分类模型是基于深度神经网络构建的。本发明能够解决当前水产养殖过程中对鱼群摄食强度评估不准确、效率低的问题。

Description

多模态融合的鱼群摄食强度分类方法、系统、设备及介质

技术领域

本发明涉及水产养殖技术领域，特别是涉及一种多模态融合的鱼群摄食强度分类方法、系统、设备及介质。

背景技术

饵料投喂是影响水产养殖效率和成本的主要因素，投喂控制更是实现精细化养殖的关键，因此，合理控制饵料投喂具有重大意义。实际生产中，对鱼类的投喂控制仍是以人工经验判断和时序控制为主，易造成饲料浪费和环境污染。实时检测鱼群摄食强度，根据鱼群摄食行为状态进行水产养殖精准投喂控制，是有效提高饵料利用率降低水体污染的关键技术。

实际生产中的投喂主要是以人工判断和机械式定量投喂为主，无法根据鱼群的实际需求进行投喂，易造成投喂过量或不足。近年来，摄食强度识别研究被认为是实现自需式投喂的关键环节，鱼群摄食强度识别方法可分为3类，包括基于水质传感器、基于机器视觉和基于声音。具体来说，水质(如水温、溶解氧浓度、pH值、氨氮化合物等)变化会直接影响鱼类食欲。相较于水质参数变化评估鱼群摄食强度，机器视觉技术则具有更加直观、便捷、快速、精度高的特点。近年来，除了通过水质参数和视觉技术来评估鱼群的摄食强度外，鱼虾在进食过程中产生脉冲声波信号，可以作为进食活动的另一个重要指标。使用被动声学的方法进行探测不会对鱼虾摄食环境以及摄食行为产生负面影响，还能为制定更有效的摄食策略提供基础，从而使摄食制度符合不同鱼类种群的摄食需求。由上述分析可知，近年来，单模态识别任务得到了广泛的研究，并取得了一些显著的成果。如基于音频的语音识别和基于视觉的动作识别。然而，由于单模态方法只观察有关感兴趣的事物的部分信息，而这些信息容易受到单模态噪声的影响，因此多年来，根据多模态信息的一致性融合多模态信息以提高模型的鲁棒性和容量的视听识别引起了人们的关注。

多模态融合将来自多个不同数据源的信息融合在一起，以获得更全面、准确的信息，从而支持更丰富的分析、决策和应用。这些数据源可以包括图像、视频、声音、文本、传感器数据等。通常来说，多模态信息融合策略可分为早期、中期和晚期。早期融合在输入级根据原始数据或特征构建联合表示，然后将其输入到模型中。中间融合可以将不同抽象级别的单个模态组合在一起。尤其的，在具有三种或三种以上模态的系统中，数据可以一次性融合，也可以在不同级别上逐渐融合。后期融合为每个模态训练一个单独的模型，并在决策层聚合来自单个模型的预测。近年来，越来越多的专家开始将多模态数据融合技术应用于水产养殖，以此来实现信息获取的完整性和决策的精准性，多模态融合技术为实现水产养殖智能化管理提供了诸多可行性解决方案。而鱼群摄食强度识别又是实现智慧养殖系统的关键，因此如何通过多模态融合的方式获取鱼群摄食过程强度信息是迫在眉睫的。

发明内容

本发明的目的是提供一种多模态融合的鱼群摄食强度分类方法、系统、设备及介质，能够解决当前水产养殖过程中对鱼群摄食强度评估不准确、效率低的问题。

为实现上述目的，本发明提供了如下方案：

一种多模态融合的鱼群摄食强度分类方法，包括：

获取设定周期内的鱼群摄食数据；所述鱼群摄食数据包括鱼类摄食音频、光学摄像机视频和图像声纳视频；所述设定周期包括摄食前、摄食过程和摄食后；

对所述鱼群摄食数据进行预处理，得到目标数据；

对所述目标数据进行多模态特征提取，得到音频及图像特征；

根据强度分类模型和所述音频及图像特征，确定鱼群摄食强度；所述鱼群摄食强度的类型包括强、中、弱和无；所述强度分类模型是基于深度神经网络构建的。

可选地，所述获取设定周期内的鱼群摄食数据，具体包括：

在循环水养殖系统中分别搭建音频采集系统、图像声纳采集系统和视频捕捉系统；其中，所述视频捕捉系统由一个IEEE 802.3af标准POE交换机、一个海康威视录像机和一个海康威视彩色摄像机组成，并安装在养殖池上方监控养殖池的整体状况；所述音频采集系统包括一个全向数字水听器，安装在水槽中心；所述图像声纳采集系统在水箱一侧安装了一个Oculus M系列声纳，在低频模式下水平视场为130°；

在数据获取过程中，温度、溶解氧、pH值和硝酸盐含量均位于正常范围内，使用音频采集系统、图像声纳采集系统和视频捕捉系统，分别获取鱼类摄食前、摄食过程和摄食后的数据。

可选地，对所述鱼群摄食数据进行预处理，得到目标数据，具体包括：

将所述鱼群摄食数据中的视频流和音频流进行同步对齐，得到目标数据。

可选地，对所述目标数据进行多模态特征提取，得到音频及图像特征，包括：

利用声音频率和梅尔频率之间的对数映射关系，对所述目标数据中的音频特征进行提取，得到基于梅尔频谱图的音频特征；

利用特征提取模型对所述目标数据的视频进行特征提取，得到图像特征。

可选地，所述深度神经网络采用CNN6网络模型、ResNet18网络模型、MobileNetV2网络模型、MobileNetV3_Small网络模型和MobileNetV3_Large网络模型中的任一种。

本发明还提供了一种多模态融合的鱼群摄食强度分类系统，包括：

数据采集模块，用于获取设定周期内的鱼群摄食数据；所述鱼群摄食数据包括鱼类摄食音频、光学摄像机视频和图像声纳视频；所述设定周期包括摄食前、摄食过程和摄食后；

数据预处理模块，用于对所述鱼群摄食数据进行预处理，得到目标数据；

特征提取模块，用于对所述目标数据进行多模态特征提取，得到音频及图像特征；

鱼群摄食强度分类模块，用于根据强度分类模型和所述音频及图像特征，确定鱼群摄食强度；所述鱼群摄食强度的类型包括强、中、弱和无；所述强度分类模型是基于深度神经网络构建的。

本发明还提供了一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据上述的多模态融合的鱼群摄食强度分类方法。

本发明还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的多模态融合的鱼群摄食强度分类方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种多模态融合的鱼群摄食强度分类方法、系统、设备及介质，所述方法包括获取设定周期内的鱼群摄食数据；所述鱼群摄食数据包括鱼类摄食音频、光学摄像机视频和图像声纳视频；所述设定周期包括摄食前、摄食过程和摄食后；对所述鱼群摄食数据进行预处理，得到目标数据；对所述目标数据进行多模态特征提取，得到音频及图像特征；根据强度分类模型和所述音频及图像特征将不同模态的数据融合后进行分类，确定鱼群摄食强度；所述鱼群摄食强度的类型包括强、中、弱和无；所述强度分类模型是基于深度神经网络构建的。本发明能够解决当前水产养殖过程中对鱼群摄食强度评估不准确、效率低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多模态融合的鱼群摄食强度分类方法的流程示意图；

图2为本实施例中的数据获取示意图；

图3为本实施例中视听一致性注释的详细解释示意图；

图4为本实施例中3种模态的特征提取过程示意图；其中，(a)部分为音频特征提取过程示意图；(b)部分为海康威视视频特征提取过程示意图；(c)部分为图像声呐视频提取过程示意图；

图5为本实施例中多模态融合框架示意图；

图6为本实施例中不同模型下的多模态融合训练损失示意图；

图7为本实施例中多模态融合下的混淆矩阵示意图；

图8为本实施例中不同模型下的单模态融合训练损耗示意图；

图9为本实施例中不同模型下的单模态混淆矩阵示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供了一种多模态融合的鱼群摄食强度分类方法，包括：

步骤100：获取设定周期内的鱼群摄食数据；所述鱼群摄食数据包括鱼类摄食音频、光学摄像机视频和图像声纳视频；所述设定周期包括摄食前、摄食过程和摄食后；

步骤200：对所述鱼群摄食数据进行预处理，得到目标数据；

步骤300：对所述目标数据进行多模态特征提取，得到音频及图像特征；

步骤400：根据强度分类模型和所述音频及图像特征，确定鱼群摄食强度；所述鱼群摄食强度的类型包括强、中、弱和无；所述强度分类模型是基于深度神经网络构建的。

基于上述技术方案，提供如下所示的具体实施步骤。

1、数据获取

在循环水养殖系统(Recirculating Aquaculture System,RAS)中分别搭建音频采集系统(Audio Acquisition System,AAS)、图像声纳采集系统(Image SonarAcquisition System,ISAS)和视频捕捉系统(Video Capture System,VCS)，如图2所示。VCS由一个IEEE 802.3af标准POE交换机、一个海康威视录像机和一个海康威视彩色摄像机组成，安装在养殖池上方，用于监控养殖池的整体状况；AAS包括一个全向数字水听器(LST-DH01)被安装在水槽中心；ISAS则在水箱一侧安装了一个Oculus M系列声纳(M750d)，在低频模式下水平视场为130°。在整个获取过程中，温度、溶解氧(DO)、pH值和硝酸盐含量都被严格控制在正常范围内。使用AAS、ISAS和VCS分别同时获取鱼类摄食前，摄食过程，摄食后视频片段和音频数据。

2、数据对齐处理

首先，利用上述三套系统同时进行鱼类摄食音频、光学摄像机视频和图像声纳视频的数据采集。随后，利用VSPlayer和Adobe Audition 2022软件对视频流和音频流进行同步对齐。最后，将视频分为四级，并对同步音频和图像声纳视频进行精心编辑，以提取代表四种摄食强度的音频和视频片段(如图3所示)。这一过程参考了养鱼户的专业知识和主流投喂强度标准即：(1)强，激烈摄食并吃掉所有饵料；(2)中，移动摄食，但会回到原来的位置；(3)弱只摄食落在面前的饵料，但不主动移动摄食，(4)无，对饵料没有反应。

3、构建数据集

根据模型训练的要求，将从鱼类摄食过程中获得的数据集划分为四种不同的摄食类别，具体结果详见表1。

表1鱼类摄食数据集统计

4、3种模态的特征提取

由于提出融合的3种模态的数据具有不同的大小和维度，为方便融合，首先需要对3种模态数据进行特征提取，具体流程如图4所示。

首先，进行音频特征提取：

梅尔频率标度是一种非线性标度，灵感来自人耳的听觉特性。公式(1)描述了声音频率和梅尔频率之间的对数映射关系，其中f_mel代表梅尔频率，f代表实际频率(Hz)。

梅尔滤波器组模拟人耳的听觉系统处理声音信号，在鱼类摄食信号的频率范围内加入M个三角滤波器。在本实施例中，三角频率滤波器组由64个带通滤波器组成，记为H_m(k)，每个滤波器的传递函数如公式(2)所示，其中1≤m≤M,m表示Mel滤波器的序列号，M表示Mel滤波器的总数，f(m)表示滤波器的中心频率。

如公式(3)所示，其中f_l和f_h分别代表滤波器的下限频率和上限频率，f_s表示采样频率，N是快速傅里叶变换(FFT)的长度，f_mel对应Mel感知频率，代表的反函数。

本实施例中，f_s为22050，f_l≥0，f_h为f_s的一半，N为2048。

在梅尔滤波器组的设计过程中，要对窗口信号y(n)进行快速傅里叶变换(FFT)，将时域信号转换为频域信号。如公式(4)所示，变量k表示频域中的第k条谱线。

能量谱E(i,k)是通过FFT之后的X(i,k)平方得出的，其计算公式如下。

E(i,k)＝[X(i,k)]² (5)

随后，获取的能谱会经过M个Mel滤波器组，以得出每个滤波器中信号的能量，记为S(i,m)。

根据上述方法和程序，可以生成鱼类摄食信号的梅尔频谱图，该频谱图是一个M×N的阶矩阵，包含信号能量水平的详细信息。

然后，进行视频特征提取：

基于海康威视摄像机和图像声呐获取的视频特征提取过程如图4中(b)和图4中(c)所示，分别把大小为3×224×224的视频帧喂入到微调的CNN6、ResNet18、MobileNetV2、MobileNetV3_Small、MobileNetV3_Large网络模型，使之输出大小为1×512的特征向量。

5、多模态融合

所提出的multimodal fish feeding intensity(MFFI)融合方法的×框架如图5所示。第一步，从声音数据集中提取了Mel频谱图，声学图像特征是二维数据，大小为(130×64×1)。接下来使用不同的网络模型进一步获取声学深层特征，并通过微调网络模型使其输出为(1，512)的特征向量。与此同时，将预处理后的光学图像和声学图像(此时输入图像为三维数据，大小为(224×224×3))通过不同微调后的网络模型提取其特征使其输出为(1，512)的特征向量。然后将声学特征和图像特征连接起来，并使用分类器进行训练。

6、评价指标

采用准确率、精确率、召回率和F1值(accuracy,precision,recall and F1-score)对鱼类摄食活动强度分类进行评价(公式7-10)。其中，真阳性(TP)表示阳性类被判定为阳性类，假阳性(FP)代表阴性类被判定为阳性类，假阴性(FN)表示阳性类被判定为阴性类，而真阴性(TN)代表被正确分类的阴性样本的数量。四个评估指标定义如下：

7、多模态融合结果

1)多模态融合验证集结果

多模态融合下的验证集结果如表2所示，我们测试了3种不同的模型组合，可以看到测试精度分别为98.88％，99.26％，99.00％，准去率、召回率和F1-值也表现出和精度值接近。表明提出的方法取得了较高的精度。

表2多模态融合下的验证集结果

2)多模态融合训练集损失函数结果

图6显示了将多模态融合为输入时的损失曲线。随着迭代次数的增加，损失函数值不断减小，最终在迭代80次后基本稳定，表明本实施例所提出的方法可以有效地识别鱼类的摄食强度。

3)多模态融合下的混淆矩阵结果

图7显示了摄食强度分类的混淆矩阵。它是一种可视化工具，在混淆矩阵中显示分类结果的准确性，主要用于图像准确性评估，将分类结果与实际测量值进行比较。在这个混淆矩阵中，预测正确的结果显示在对角线上；因此，预测错误的位置可以在混淆矩阵中可视化，因为它们显示在对角线之外。由图中结果显示，显然本实施例所提出的方法在识别摄食强度方面表现良好。

8、单模态结果对比

1)单模态验证集结果

单模态验证集结果如表3所示，通过测试了5种不同网络模型，可以看到测试精度介于80.25％-96.5％之间，表明基于单模态的摄食强度分类方法效果差于多模态融合的方法。

表3Results of the evaluation metrics for different feedingintensities.

2)单模态训练集损失函数结果

图8显示了将多模态融合为输入时的损失曲线。随着迭代次数的增加，损失函数值不断减小，但不同的模态表现出不同的下降速率，表明单模态方式弱于多模态。

3)单模态混淆矩阵结果

图9显示了单模态摄食强度分类的混淆矩阵。由图中结果显示，相较于强和无，在分类中和弱的时候容易造成误判，显然，单模态方法要差于本文所提出的多模态融合的方法。

本实施例具有如下有益效果：

本发明提供的一种基于多模态融合的鱼群摄食强度分类方法，该方法首先通过不同的网络模型提取3种不同的模态特征，然后将几种不同的特征进行融合，融合后的特征图输入分类器进行分类，得到分类结果。该方法与单模态相比，可显著提高鱼群摄食声音识别精度。

此外，本发明还提供了一种多模态融合的鱼群摄食强度分类系统，包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多模态融合的鱼群摄食强度分类方法，其特征在于，包括：

对所述鱼群摄食数据进行预处理，得到目标数据；

2.根据权利要求1所述的多模态融合的鱼群摄食强度分类方法，其特征在于，所述获取设定周期内的鱼群摄食数据，具体包括：

3.根据权利要求1所述的多模态融合的鱼群摄食强度分类方法，其特征在于，对所述鱼群摄食数据进行预处理，得到目标数据，具体包括：

4.根据权利要求1所述的多模态融合的鱼群摄食强度分类方法，其特征在于，对所述目标数据进行多模态特征提取，得到音频及图像特征，包括：

5.根据权利要求1所述的多模态融合的鱼群摄食强度分类方法，其特征在于，所述深度神经网络采用CNN6网络模型、ResNet18网络模型、MobileNetV2网络模型、MobileNetV3_Small网络模型和MobileNetV3_Large网络模型中的任一种。

6.一种多模态融合的鱼群摄食强度分类系统，其特征在于，包括：

7.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1-5中任一项所述的多模态融合的鱼群摄食强度分类方法。

8.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的多模态融合的鱼群摄食强度分类方法。