CN115861906B

CN115861906B - 鱼群摄食强度识别方法、装置、系统及投饵机

Info

Publication number: CN115861906B
Application number: CN202310181994.0A
Authority: CN
Inventors: 周超; 朱文韬; 杨信廷; 孙传恒; 刘锦涛
Original assignee: Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Current assignee: Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-05-26
Anticipated expiration: 2043-03-01
Also published as: CN115861906A

Abstract

本发明提供一种鱼群摄食强度识别方法、装置、系统及投饵机，属于水产养殖技术领域，所述方法包括：获取鱼群摄食信息，鱼群摄食信息包括鱼群摄食视频信息和对应视频时间段的水质信息；将鱼群摄食信息输入至鱼群摄食强度识别模型，获取鱼群摄食强度识别模型输出的鱼群摄食强度；鱼群摄食强度识别模型用于基于对鱼群摄食信息进行特征提取得到的视频帧特征、音频特征和水质特征进行融合，并基于融合所得的特征确定鱼群摄食强度；鱼群摄食强度识别模型是根据鱼群摄食信息的样本和对应的鱼群摄食强度标签训练得到的。本发明可以有效地提高鱼群摄食强度识别的精度和效果，在水质浑浊的场景下，也能实现高精度的鱼群摄食强度识别效果。

Description

鱼群摄食强度识别方法、装置、系统及投饵机

技术领域

本发明涉及水产养殖技术领域，尤其涉及一种鱼群摄食强度识别方法、装置、系统及投饵机。

背景技术

现有技术中，公开号为CN 114323117 A，其公开了一种鱼类摄食强度评估方法，包括如下步骤：获取养殖池水面的深度图和近红外图；同时获取所述养殖池水面音频信息；对所述深度图、近红外图和音频信息进行特征提取；融合所述各类信息的特征，获得量化的鱼类摄食强度。另外，公开号为CN 115690570 A，其公开了一种基于ST-GCN的鱼群摄食强度预测方法，包括以下步骤：构建特征提取模型并进行训练，将鱼群摄食行为视频图像输入到训练后的特征提取模型中进行时空特征提取，获得鱼群个体与时间序列一一对应的空间位置信息；获取摄食强度信息，基于摄食强度信息为空间位置信息做数据标注，获得标注后的空间位置信息；构建初始摄食强度预测模型，基于标注后的空间位置信息对初始摄食强度预测模型进行训练，获得目标摄食强度预测模型，基于目标摄食强度预测模型对鱼群的摄食强度进行预测。

水产养殖中，实时探测与监控养殖水体中的鱼群的摄食强度变化情况，是制定科学的投饵策略的重要依据之一，可以有效减少饵料浪费，进而实现经济效益与生态效益双赢。近年来，机器视觉因其广泛的应用性和获取可靠数据的优点，并结合特定的图像预处理及增强算法，被广泛运用于图像分类，目标识别等领域。

目前，基于机器视觉的鱼群摄食强度识别方法已经获得了较大发展，大部分摄食强度识别方法和系统通过采用多特征融合和信息互补，提高鱼群摄食强度识别的精准度。然而，其使用的多特征都来自于单一的图像信息源，具有同一物理属性，多特征之间的有效性难以通过其他方法交互认证，从而难以确保识别结果的稳健性，致使鱼群摄食强度识别的精度较低，效果不佳，尤其在水质浑浊的场景下，普通的视觉方法无法适用。

发明内容

本发明提供一种鱼群摄食强度识别方法、装置、系统及投饵机，用以解决现有技术中鱼群摄食强度识别的精度较低，效果不佳，尤其在水质浑浊的场景下，普通的视觉方法无法适用的缺陷。

本发明提供一种鱼群摄食强度识别方法，包括：

获取鱼群摄食信息，所述鱼群摄食信息包括鱼群摄食视频信息和对应视频时间段的水质信息；

将所述鱼群摄食信息输入至鱼群摄食强度识别模型，获取所述鱼群摄食强度识别模型输出的鱼群摄食强度；

所述鱼群摄食强度识别模型用于基于对所述鱼群摄食信息进行特征提取得到的视频帧特征、音频特征和水质特征进行融合，并基于融合所得的特征确定鱼群摄食强度；所述鱼群摄食强度识别模型是根据所述鱼群摄食信息的样本和对应的鱼群摄食强度标签训练得到的。

根据本发明提供的一种鱼群摄食强度识别方法，所述鱼群摄食强度识别模型包括特征提取层、特征融合层和输出层；

所述特征提取层用于分别对所述鱼群摄食视频信息和所述水质信息进行特征提取，得到视频帧特征向量、音频特征向量和水质特征向量；

所述特征融合层用于对所述视频帧特征向量、所述音频特征向量和所述水质特征向量进行多模态特征融合，得到目标视频融合特征、目标音频融合特征和目标水质融合特征；

所述输出层用于基于所述目标视频融合特征、所述目标音频融合特征和所述目标水质融合特征，确定鱼群摄食强度。

根据本发明提供的一种鱼群摄食强度识别方法，所述特征融合层包括多模态Transformer模型、多模态融合模块、加权融合层；

所述多模态Transformer模型包括三层网络层，每一层网络层均包括依次连接的卷积层、跨模态融合Transformer模块和自注意力Transformer模块；

所述多模态融合模块用于对所述多模态Transformer模型中各层卷积层输出的特征向量进行融合，得到视频融合特征向量、音频融合特征向量和水质融合特征向量；所述各层卷积层输出的特征向量是分别对所述视频帧特征向量、所述音频特征向量和所述水质特征向量进行卷积处理得到的；

所述加权融合层用于对所述视频融合特征向量、所述音频融合特征向量和所述水质融合特征向量进行加权融合，得到多模态融合特征向量；

所述多模态Transformer模型具体用于：

将所述视频帧特征向量、所述音频特征向量和所述水质特征向量分别输入对应的卷积层，得到所述各层卷积层输出的特征向量；

通过跨模态融合Transformer模块，对所述各层卷积层输出的特征向量分别与所述多模态融合特征向量进行融合，并将融合所得的各特征输入至对应的自注意力Transformer模块，得到所述目标视频融合特征、所述目标音频融合特征和所述目标水质融合特征。

根据本发明提供的一种鱼群摄食强度识别方法，所述多模态融合模块具体用于：

对所述多模态Transformer模型中各层卷积层输出的特征向量进行压缩融合，得到压缩融合特征向量；

基于所述压缩融合特征向量，生成所述视频融合特征向量、所述音频融合特征向量和所述水质融合特征向量。

根据本发明提供的一种鱼群摄食强度识别方法，所述特征提取层包括视频特征提取模块、音频特征提取模块和水质特征提取模块；所述鱼群摄食视频信息包括视频帧信息和音频信息；

所述视频特征提取模块用于对所述视频帧信息进行特征提取，得到所述视频帧特征向量；

所述音频特征提取模块具体用于：

确定所述音频信息对应的频率倒谱系数特征图；

对所述频率倒谱系数特征图进行特征提取，得到所述音频特征向量；

所述水质特征提取模块具体用于：

对所述对应视频时间段的水质信息进行曲线拟合，得到不同时刻的水质分布曲线；

基于对所述水质分布曲线进行等时长间隔取点得到的点集数据进行向量表示，得到所述水质特征向量。

根据本发明提供的一种鱼群摄食强度识别方法，在所述将所述鱼群摄食信息输入至鱼群摄食强度识别模型，获取所述鱼群摄食强度识别模型输出的鱼群摄食强度之前，所述方法还包括：

将所述鱼群摄食信息的样本和对应的鱼群摄食强度标签作为一组训练样本，获取多组训练样本；

利用所述多组训练样本，对鱼群摄食强度识别模型进行训练。

根据本发明提供的一种鱼群摄食强度识别方法，所述利用所述多组训练样本，对鱼群摄食强度识别模型进行训练，包括：

对于任意一组训练样本，将所述训练样本输入至所述鱼群摄食强度识别模型，输出所述训练样本对应的预测概率；

利用预设损失函数，根据所述训练样本对应的预测概率和所述训练样本对应的鱼群摄食强度标签，计算损失值；

基于所述损失值，对所述鱼群摄食强度识别模型的模型参数进行调整，直至所述损失值小于预设阈值或训练次数达到预设次数；

将所述损失值小于所述预设阈值或训练次数达到所述预设次数时所得到的模型参数作为训练好的鱼群摄食强度识别模型的模型参数，则鱼群摄食强度识别模型训练完成。

本发明还提供一种鱼群摄食强度识别装置，包括：

获取模块，用于获取鱼群摄食信息，所述鱼群摄食信息包括鱼群摄食视频信息和对应视频时间段的水质信息；

识别模块，用于将所述鱼群摄食信息输入至鱼群摄食强度识别模型，获取所述鱼群摄食强度识别模型输出的鱼群摄食强度；

本发明还提供一种鱼群摄食强度识别系统，包括：

水下摄像设备、水质探测设备及处理器；所述处理器分别与所述水下摄像设备及所述水质探测设备连接；

所述水下摄像设备用于获取鱼群摄食视频信息以及音频信息；

所述水质探测设备用于获取所述鱼群摄食视频信息对应视频时间段的水质信息；

所述处理器执行程序时实现如上述任一种所述鱼群摄食强度识别方法。

本发明还提供一种投饵机，包括：

饵料箱、伺服电机、可调连通器、控制器和通讯串口设备；

所述饵料箱用于盛放饵料；

所述通讯串口设备的一端与上述所述的鱼群摄食强度识别系统中的处理器连接，用于接收所述处理器输出的鱼群摄食强度识别结果；

所述通讯串口设备的另一端与所述控制器连接，用于将所述鱼群摄食强度识别结果发送给所述控制器；

所述控制器与所述伺服电机连接，所述伺服电机与所述可调连通器连接，所述可调连通器与所述饵料箱底部的出料口连接；

所述控制器用于根据获取的所述鱼群摄食强度识别结果，控制所述可调连通器的开合角度，以控制所述出料口投送饵料的速度。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述鱼群摄食强度识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述鱼群摄食强度识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述鱼群摄食强度识别方法。

本发明提供的鱼群摄食强度识别方法、装置、系统及投饵机，通过考虑鱼群摄食音频和鱼群所处环境的水质对于摄食强度的影响，获取鱼群摄食信息，包括鱼群摄食视频信息和对应视频时间段的水质信息，利用鱼群摄食信息的样本和对应的鱼群摄食强度标签进行神经网络模型训练，得到鱼群摄食强度识别模型，通过鱼群摄食强度识别模型对提取鱼群摄食信息得到的视频帧特征、音频特征和水质特征进行多维度信息融合，根据融合所得的特征进行鱼群摄食强度识别，可以有效地提高鱼群摄食强度识别的精度和效果，在水质浑浊的场景下，也能实现高精度的鱼群摄食强度识别效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的鱼群摄食强度识别方法的流程示意图；

图2是本发明提供的鱼群摄食强度识别方法中模型结构示意图之一；

图3是本发明提供的鱼群摄食强度识别方法中模型结构示意图之二；

图4是本发明提供的鱼群摄食强度识别方法中采用的多模态融合模块的结构示意图；

图5是本发明提供的鱼群摄食强度识别装置的结构示意图；

图6是本发明提供的投饵机的结构示意图；

图7是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图7描述本发明的鱼群摄食强度识别方法、装置、系统及投饵机。

图1是本发明提供的鱼群摄食强度识别方法的流程示意图，如图1所示，包括：步骤110和步骤120。

步骤110，获取鱼群摄食信息，鱼群摄食信息包括鱼群摄食视频信息和对应视频时间段的水质信息；

需要说明的是，鱼类的摄食状态产生的信息是十分丰富的，最直接的感受就是视觉上的变化，鱼群不断游动和进食，同时声音的变化也十分明显，鱼群拍打水面产生水花，造成明显的声响。

同时，水温、溶氧、pH和氨氮等水质参数的变化会直接影响鱼的食欲，鱼群在摄食过程中同样也会改变以上这些水质参数，因此，可以通过检测水质的变化情况，来识别鱼群的摄食状态。

具体地，本发明实施例所描述的鱼群摄食视频信息可以通过选择固定视频帧数的鱼群摄食的短视频来获得，短视频的视频时间段取值范围可以是3秒至6秒。

本发明实施例所描述的鱼群摄食信息包括鱼群摄食视频信息和对应视频时间段的水质信息，其中，水质信息具体可以包括鱼群所处水环境中的温度、溶氧和pH值等数据信息，其具体可以以文本的形式进行记录及存储。

在本发明的实施例中，可以通过水下摄像设备拍摄鱼群摄食视频，获取鱼群摄食视频信息，并可以从鱼群摄食视频信息中提取视频帧信息和音频信息。

为准确反映鱼群摄食行为的前后连贯性，在本发明的实施例中，可以采用滑动窗口采样的方式，对拍摄的鱼群摄食视频划分为固定视频帧数的短视频，如可以设置滑窗的宽度为4秒，每次滑动距离为1秒，由此可以真实反应鱼群摄食的动态特性，有利于提高鱼群摄食轻度识别结果的准确性。根据每个短视频可以获得对应视频时间段的鱼群摄食视频信息。

在一个具体的实施例中，采用水下摄像设备拍摄鱼群摄食视频的过程，对于拍摄模式，设置数码镜头为“宽”（16-34mm），保证视野宽阔，在画面中尽可能多地拍摄内容；视频采集的帧率为60FPS，视频原始尺寸为1920×1080像素；音频采集的频率为44.1kHz。

在本发明的实施例中，可以通过全自动循环养殖系统的水质探头设备采集鱼群所处水环境中的温度、溶氧和pH值的数据变化并按照鱼群摄食视频对应的视频时间段进行记录，以此获得对应视频时间段的水质信息。

步骤120，将鱼群摄食信息输入至鱼群摄食强度识别模型，获取鱼群摄食强度识别模型输出的鱼群摄食强度；

鱼群摄食强度识别模型用于基于对鱼群摄食信息进行特征提取得到的视频帧特征、音频特征和水质特征进行融合，并基于融合所得的特征确定鱼群摄食强度；鱼群摄食强度识别模型是根据鱼群摄食信息的样本和对应的鱼群摄食强度标签训练得到的。

具体地，本发明实施例所描述的鱼群摄食强度可以分为四类，一类表征强程度“strong”，一类表征中等程度“medium”，一类表征弱程度“weak”，一类表征无“none”。其中，鱼群摄食强度为“none”，表示鱼群对饵料无反应；鱼群摄食强度为“weak”，表示鱼群只对附近饵料有反应；鱼群摄食强度为“medium”，表示鱼群开始主动摄食但是运动范围小；鱼群摄食强度为“strong”，表示鱼群主动摄食而且运动范围大。

在本发明的实施例中，鱼群摄食强度是根据输入的鱼群摄食信息确定的，不同的鱼群摄食信息可以对应着不同的鱼群摄食强度。

本发明实施例所描述的鱼群摄食信息的样本具体可以包括鱼群摄食视频信息样本和对应视频时间段的水质信息样本，鱼群摄食视频信息样本包括鱼群摄食的视频帧信息样本和对应的音频信息样本。

本发明实施例所描述的鱼群摄食强度识别模型是根据鱼群摄食信息的样本和对应的鱼群摄食强度标签训练得到的，用于学习不同鱼群摄食强度下鱼群摄食信息之间的内在联系，通过对鱼群摄食信息提取得到的视频帧特征、音频特征和水质特征进行多维度特征融合，基于融合所得的特征进行鱼群摄食强度识别，从而输出高精度的鱼群摄食强度识别结果。

需要说明的是，本发明实施例中，鱼群摄食强度识别模型可以是基于深度神经网络构建得到的。其中，深度神经网络具体可以采用多模态融合（Multimodal Transformer，Fused MulT）模型，也可以采用深度残差网络（ResNet）模型，还可以为其他用于鱼群摄食强度识别的深度神经网络，在本发明中不做具体限定。

其中，在本发明的实施例中，模型训练样本是由多组携带有鱼群摄食强度标签的鱼群摄食信息样本组成的。

在本发明的实施例中，鱼群摄食强度标签是根据鱼群摄食信息样本预先确定的，并与鱼群摄食信息样本是一一对应的。也就是说，训练样本中的每一个鱼群摄食信息样本，都预先设定好携带一个与之对应的鱼群摄食强度标签。

可以理解的是，鱼群摄食强度标签可以包括“strong”、“medium”、“weak”和“none”四类。

进一步地，通过利用鱼群摄食信息的样本和对应的鱼群摄食强度标签训练得到鱼群摄食强度识别模型，将鱼群摄食信息输入至鱼群摄食强度识别模型后，可以得到鱼群摄食信息对应的鱼群摄食强度。

本发明实施例提供的鱼群摄食强度识别方法，通过考虑鱼群摄食音频和鱼群所处环境的水质对于摄食强度的影响，获取鱼群摄食信息，包括鱼群摄食视频信息和对应视频时间段的水质信息，利用鱼群摄食信息的样本和对应的鱼群摄食强度标签进行神经网络模型训练，得到鱼群摄食强度识别模型，通过鱼群摄食强度识别模型对提取鱼群摄食信息得到的视频帧特征、音频特征和水质特征进行多维度信息融合，根据融合所得的特征进行鱼群摄食强度识别，可以有效地提高鱼群摄食强度识别的精度和效果，在水质浑浊的场景下，也能实现高精度的鱼群摄食强度识别效果。

基于上述实施例的内容，作为一种可选的实施例，图2是本发明提供的鱼群摄食强度识别方法中模型结构示意图之一，如图2所示，在本发明的实施例中，鱼群摄食强度识别模型可以包括特征提取层1、特征融合层2和输出层3；

特征提取层1用于分别对鱼群摄食视频信息和水质信息进行特征提取，得到视频帧特征向量、音频特征向量和水质特征向量；

特征融合层2用于对视频帧特征向量、音频特征向量和水质特征向量进行多模态特征融合，得到目标视频融合特征、目标音频融合特征和目标水质融合特征；

输出层3用于基于目标视频融合特征、目标音频融合特征和目标水质融合特征，确定鱼群摄食强度。

具体地，在本发明的实施例中，在获取鱼群摄食信息，并将鱼群摄食信息输入至鱼群摄食强度识别模型后，首先会经过鱼群摄食强度识别模型的特征提取层，对鱼群摄食信息进行特征提取。

基于上述实施例的内容，作为一种可选的实施例，图3是本发明提供的鱼群摄食强度识别方法中模型结构示意图之二，如图3所示，在本发明的实施例中，特征提取层1包括视频特征提取模块11、音频特征提取模块12和水质特征提取模块13；鱼群摄食视频信息包括视频帧信息和音频信息；

视频特征提取模块11用于对视频帧信息进行特征提取，得到视频帧特征向量；

音频特征提取模块12具体用于：

确定音频信息对应的频率倒谱系数特征图；

对频率倒谱系数特征图进行特征提取，得到音频特征向量；

水质特征提取模块13具体用于：

对对应视频时间段的水质信息进行曲线拟合，得到不同时刻的水质分布曲线；

基于对水质分布曲线进行等时长间隔取点得到的点集数据进行向量表示，得到水质特征向量。

具体地，本发明实施例所描述的视频特征提取模块用于对鱼群摄食视频信息中的视频帧信息进行特征提取，其具体可以采用视频行为特征提取模型，如SlowFast网络模型。

在本发明的实施例中，采用频率倒谱系数可以用于提取鱼群摄食过程中的主要声音信号特征，其具体可以为Gammatone频率倒谱系数（Gammatone Frequency CepstralCoefficients，GFCC），或梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients，MFCC）。其中，GFCC采用Gammatone滤波器模拟人耳耳蜗听觉模型，能较为完整地描述声音信号的时域与频域的联合分布特征，且Gammatone滤波器的谱峰更加平坦，能有效改善信号分解的能量泄露问题，因此，本发明实施例中，优选GFCC来提取鱼群摄食声音信号特征。

本发明实施例所描述的频率倒谱系数特征图指的是利用频率倒谱系数对鱼群摄食视频信息中的音频信息提取音频特征而得到的特征图。

在本发明的实施例中，在获取到鱼群摄食视频信息之后，可以采用滑动窗口采样的形式，将鱼群摄食视频切割为统一的4秒长的短视频，并通过视频特征提取模块中的SlowFast网络模型，对各个短视频的视频帧信息进行特征提取，可以获取到各个短视频对应的视频帧特征向量。

可以理解的是，音频信息与视频帧信息在时间上是对应一致的。

在本发明的实施例中，将上述视频帧信息对应的4秒音频信息输入至音频特征提取模块，音频特征提取模块可以将该音频信息转化为时频图，并将该时频图转化为对应的GFCC特征图，进而，使用ResNet-50神经网络对GFCC特征图进行特征提取，得到该音频信息对应的音频特征向量。

在本发明的实施例中，根据实时记录的水质文本信息，获取水质信息。将鱼群摄食视频信息对应视频时间段（如4秒）的水质信息输入至水质特征提取模块，水质特征提取模块可以对该水质信息进行曲线拟合，如三次样条函数曲线拟合，得到不同时刻的水质分布曲线；进而通过对水质分布曲线进行等时长间隔取点，如可以设置0.01秒的时间间隔在水质分布曲线上取点，对最后得到的点集数据进行向量表示，从而得到水质特征向量。

本发明实施例的方法，针对不同模态的信息，如视频帧信息、音频信息和水质信息，采用对应的特征提取模块对同一时间段内的各模态信息进行特征提取，为后续不同模态的信息特征融合提供可靠地多维度数据源，有利于提高后续鱼群摄食强度识别的准确性和精度。

进一步地，本发明实施例所描述的目标视频融合特征、目标音频融合特征和目标水质融合特征指的是通过分别对视频帧特征向量、音频特征向量和水质特征向量三类模态特征进行多模态及跨模态特征融合，最终得到的用于进行鱼群摄食强度预测的融合特征数据。

在本发明的实施例中，通过将视频帧特征向量、音频特征向量和水质特征向量输入至特征融合层，得到特征融合层输出的目标视频融合特征、目标音频融合特征和目标水质融合特征。

基于上述实施例的内容，作为一种可选的实施例，如图3所示，特征融合层2还可以包括多模态Transformer模型21、多模态融合模块22、加权融合层23；

多模态Transformer模型21包括三层网络层，每一层网络层均包括依次连接的卷积层、跨模态融合Transformer模块和自注意力Transformer模块；

多模态融合模块22用于对多模态Transformer模型21中各层卷积层输出的特征向量进行融合，得到视频融合特征向量、音频融合特征向量和水质融合特征向量；各层卷积层输出的特征向量是分别对视频帧特征向量、音频特征向量和水质特征向量进行卷积处理得到的；

加权融合层23用于对视频融合特征向量、音频融合特征向量和水质融合特征向量进行加权融合，得到多模态融合特征向量；

多模态Transformer模型21具体用于：

将视频帧特征向量、音频特征向量和水质特征向量分别输入对应的卷积层，得到各层卷积层输出的特征向量；

通过跨模态融合Transformer模块，对各层卷积层输出的特征向量分别与多模态融合特征向量进行融合，并将融合所得的各特征输入至对应的自注意力Transformer模块，得到目标视频融合特征、目标音频融合特征和目标水质融合特征。

具体地，在本发明的实施例中，多模态Transformer（Multimodal Transformer，MulT）模型在情感识别分类领域取得了较好的识别效果，识别精度远远大于单一模态，因此可以将MulT模型引入到本实施例中的鱼类摄食强度识别的场景，有利于提升鱼群摄食强度识别的精度。

在本发明的实施例中，MulT模型包括三层网络层，分别用于处理视频帧信息、音频信息及水质信息。每一层网络层均包括依次连接的卷积层、跨模态融合Transformer（FusedCross-modal Transformer）模块和自注意力Transformer模块。其中，各卷积层可以采用一维卷积神经网络。

进一步地，将上述通过特征提取层提取得到的视频帧特征向量、音频特征向量和水质特征向量，分别输入多模态Transformer模型中对应的卷积层，进行一维卷积处理，得到各层卷积层输出的特征向量。

在本发明的实施例中，为了更好地融合视频帧信息、音频信息与水质信息三种模态数据的特征，引入多模态融合（Multimodal Transfer Module，MMTM）模块，并通过构建加权融合层，对各模块添加自适应权重，强调对识别结果影响大的数据特征。

基于上述实施例的内容，图4是本发明提供的鱼群摄食强度识别方法中采用的多模态融合模块的结构示意图，如图4所示，MMTM模块22具体用于：

对MulT模型中各层卷积层输出的特征向量进行压缩融合，得到压缩融合特征向量；

基于压缩融合特征向量，生成视频融合特征向量、音频融合特征向量和水质融合特征向量。

具体地，在本发明的实施例中，MMTM模块由两个组件构成。一个组件是多模态的Squeeze单元，其用于接收所有模态的特征并生成一个全局表征。通过Squeeze单元，就使得融合操作允许不同模态的输入特征有不同的空间维度，可以在不同的特征层次进行融合，这相当于是一个全局平均值池化操作，将空间信息压缩。另一个组件是Eexcitation单元，其用于对所有模态自适应的去强调重要的特征，抑制不重要的特征，可以看作是一个通道注意力（Attention）。

在本发明的实施例中，鱼群摄食视频信息和对应视频时间段的水质信息经过特征提取层得到的视频帧特征向量、音频特征向量和水质特征向量，通过MulT模型中对应的卷积层处理，输出对应的特征向量

、

、

，其中，

表示视频帧特征向量对应的输入特征，

表示音频特征向量对应的输入特征，

表示水质特征向量对应的输入特征。

进一步地，通过MMTM融合模块，对MulT模型中各层卷积层输出的特征向量进行压缩融合，特征向量

、

、

经过Squeeze单元之后，分别得到

，

，

公式如下：

；

；

；

式中，K表示视频特征的维度为K维；

表示视频特征V的第i个维度的长度大小，因为视频特征V的维度为K，因此，视频特征V具有K个参数，分别为

；

表示视频特征向量V的某个值；L表示音频特征的维度为L维，

代表音频特征A的第i个维度的长度大小，因为音频特征A的维度为L，因此，音频特征A具有L个参数，分别为

；

表示音频特征向量A的某个值；H代表水质特征的维度为H维，

表示水质特征T的第i个维度的长度大小，因为水质特征T的维度为H，因此，水质特征T具有H个参数，分别为

；

为水质特征向量T的某个值。

进一步地，

、

、

经过特征拼接Concat操作后再送入一个全连接层，得到压缩融合特征向量Z：

；

式中，W表示全连接层的权重，b表示全连接层的偏置。

进一步地，通过Eexcitation单元，基于压缩融合特征向量Z，对每个模态都通过独立的全连接层，分别得到

、

和

。

其中：

；

；

；

式中，

表示用于处理视频信息的全连接层的权重，

表示用于处理视频信息的全连接层的偏置；

表示用于处理音频信息的全连接层的权重，

表示用于处理音频信息的全连接层的偏置；

表示用于处理水质信息的全连接层的权重，

表示用于处理水质信息的全连接层的偏置。

进而，使

、

和

经过一个Sigmoid函数

得到对应通道的权重后再与原来的特征向量相乘，生成视频融合特征向量

、音频融合特征向量

和水质融合特征向量

，其中：

；

；

；

本发明实施例的方法，通过引入MMTM模块，对鱼群摄食信息中的视频帧信息、音频信息与水质信息三种模态数据进行跨模态特征的融合，对所有模态自适应的去强调重要的特征，抑制不重要的特征，有利于提升鱼群摄食强度识别的精度。

进一步地，在本发明的实施例中，加权融合层中采用自适应权重参数，通过设置三个可学习的权重参数

，和对应三种模态的融合特征向量进行相乘。在模型训练的过程中，三个权重参数可以根据模型的迭代训练和优化器的调整自行改变大小，对结果影响大的特征数据的权重参数会增大，影响小的特征数据的权重参数会减小。

通过加权融合层，对视频融合特征向量、音频融合特征向量和水质融合特征向量进行加权融合，得到多模态融合特征向量F，多模态融合特征向量F可以表征上述视频帧、音频和水质三类模态的融合模态。其中：

；

式中，

表示视频融合特征向量对应的权重，

表示音频融合特征向量对应的权重，

表示水质融合特征向量对应的权重，

。

进一步地，通过MulT模型，将视频帧特征向量、音频特征向量和水质特征向量分别输入对应的卷积层，也就是说，将视频帧特征向量输入到处理视频帧信息对应的卷积层，输出对应特征向量；将音频特征向量输入到处理音频信息对应的卷积层，输出对应特征向量；将水质特征向量输入到处理水质信息对应的卷积层，输出对应特征向量。

在本发明的实施例中，MulT模型中，Cross-Modal Transformer模型能使得一个模态从另一个模态处接受，通过Fused Cross-Modal Tranformer模块可以从融合模态F处获得潜在适应信息。Cross-Modal Tranformer模型可以看成由多个Cross-Modal AttentionBlock叠加而成，从模态

到融合模态F的Cross-Modal Attention可表示为：

；

式中，

，

，

；其中，

分别表示经过一维卷积的模态

和模态F的特征向量；

表示模态

对应的Transformer的Querry权重；

表示模态F对应Transformer的Key权重；

代表

的转置；

表示

的转置；

表示缩放因子，其为模态

对应的Transformer的Querry与模态F对应Transformer的Key的相同维度；

表示模态F对应的Transformer的Value权重。

进一步地，可以通过Fused Cross-Modal Tranformer模块，对各层卷积层输出的特征向量分别与多模态融合特征向量F进行融合，可以得到三个Fused Cross-ModalTransformer融合特征，其分别代表视频帧、音频、水质对融合模态F的潜在适应。进而将上述融合所得的各特征输入至对应的自注意力Transformer模块进行编码和解码，通过解码结果，得到目标视频融合特征、目标音频融合特征和目标水质融合特征。

本发明实施例的方法，通过采用多模态融合的方式，融合了视频帧、音频和水质多模态之间的特征，使得各种模态相互寻找各自的关联，在某一模态特征不明显的情况下可以进行特征的互补，从而获得更好的鱼群摄食强度识别效果，可以有效提高鱼群摄食强度识别的精度和效果。

进一步地，在本发明的实施例中，输出层可以采用全连接层。通过将目标视频融合特征、目标音频融合特征和目标水质融合特征输入全连接层进行整合，输出最后的预测值，得到鱼群摄食强度。

在本发明的实施例中，可以将输出层输出的预测值限定在1至4之间，并对其取整。这样，便有四种取值结果，即1、2、3和4，其分别对应四类摄食强度“none”、“weak”、“medium”和“strong”。

本发明实施例的方法，通过鱼群摄食强度识别模型，对提取鱼群摄食信息得到的视频帧特征、音频特征和水质特征三种模态进行多模态信息融合，根据融合所得的特征进行鱼群摄食强度识别，可以更加准确地反应鱼群摄食行为的动态过程，可以有效提高鱼群摄食强度识别的精度和效果；同时，通过将鱼群摄食强度分为四个等级，更精细地反映鱼群摄食强度的变化，可以进一步提高鱼群摄食强度识别效果。

基于上述实施例的内容，作为一种可选的实施例，在将鱼群摄食信息输入至鱼群摄食强度识别模型，获取鱼群摄食强度识别模型输出的鱼群摄食强度之前，该方法还包括：

将鱼群摄食信息的样本和对应的鱼群摄食强度标签作为一组训练样本，获取多组训练样本；

利用多组训练样本，对鱼群摄食强度识别模型进行训练。

具体地，在本发明的实施例中，在将鱼群摄食信息输入至鱼群摄食强度识别模型之前，还需对鱼群摄食强度识别模型进行训练，以得到训练好的鱼群摄食强度识别模型。

在本发明的实施例中，在获得原始鱼群摄食视频数据及对应的原始水质信息数据后，可以对原始鱼群摄食视频数据按照前述滑动窗口采样的方式，得到多个固定帧数的短视频段，获取视频帧信息样本、对应的音频信息样本和对应视频时间段的水质信息样本，从而得到鱼群摄食信息样本。

在本发明的实施例中，可以取鱼群摄食信息样本总数的15%作为测试集，70%划分为训练集，剩下的15%作为验证集，记录每个鱼群摄食信息样本的名字，并在名字后面添加对应的鱼群摄食强度标签，保存在csv文件中。

在本发明的实施例中，利用训练集数据对鱼群摄食强度识别模型进行训练，具体训练过程如下：

将鱼群摄食信息的样本和对应的鱼群摄食强度标签作为一组训练样本，即将鱼群摄食的视频帧信息样本、对应的音频信息样本和对应视频时间段的水质信息样本作为一组鱼群摄食信息的样本，将每个带有真实鱼群摄食强度标签的鱼群摄食信息的样本作为一组训练样本，由此即可获得多组训练样本。

在本发明的实施例中，鱼群摄食信息的样本与其携带的鱼群摄食强度标签是一一对应的。

然后，在获得多组训练样本之后，再将多组训练样本依次输入至鱼群摄食强度识别模型中，利用多组训练样本对鱼群摄食强度识别模型进行训练，即：

将每组训练样本中的鱼群摄食信息的样本与其携带的鱼群摄食强度标签同时输入至鱼群摄食强度识别模型中，根据鱼群摄食强度识别模型中的每一次输出结果，通过计算损失函数值，对鱼群摄食强度识别模型中的模型参数进行调整，在满足预设训练终止条件的情况下，最终完成鱼群摄食强度识别模型的整个训练过程，得到训练好的鱼群摄食强度识别模型。

本发明实施例的方法，通过将鱼群摄食信息的样本和对应的鱼群摄食强度标签作为一组训练样本，利用多组训练样本对鱼群摄食强度识别模型进行训练，有利于提升训练好的鱼群摄食强度识别模型的模型精度。

基于上述实施例的内容，作为一种可选的实施例，利用多组训练样本，对鱼群摄食强度识别模型进行训练，包括：

对于任意一组训练样本，将训练样本输入至鱼群摄食强度识别模型，输出训练样本对应的预测概率；

利用预设损失函数，根据训练样本对应的预测概率和训练样本对应的鱼群摄食强度标签，计算损失值；

基于损失值，对鱼群摄食强度识别模型的模型参数进行调整，直至损失值小于预设阈值或训练次数达到预设次数；

将损失值小于预设阈值或训练次数达到预设次数时所得到的模型参数作为训练好的鱼群摄食强度识别模型的模型参数，则鱼群摄食强度识别模型训练完成。

具体地，本发明实施例所描述的预设损失函数指的是预先设置在鱼群摄食强度识别模型里的损失函数，用于进行模型评估；预设阈值指的是模型预先设置的阈值，用于获得最小损失值，完成模型训练；预设次数指的是预先设置的模型迭代训练的最大次数。

在获得多组训练样本之后，对于任意一组训练样本，将每组训练样本中的鱼群摄食信息的样本与其携带的鱼群摄食强度标签同时输入至鱼群摄食强度识别模型，输出该训练样本对应的预测概率。

在此基础上，利用预设损失函数，根据该训练样本对应的预测概率和该训练样本对应的鱼群摄食强度标签，计算损失值。

进一步地，在计算获得损失值之后，本次训练过程结束。再利用如反向传播（BackPropagation，BP）算法，基于该损失值对鱼群摄食强度识别模型的模型参数进行调整，来更新鱼群摄食强度识别模型中的模型的各层权重参数，之后再进行下一次训练，如此反复迭代进行模型训练。

在训练的过程中，若针对某组训练样本的训练结果满足预设训练终止条件，如对应计算获得的损失值小于预设阈值，或着当前的迭代次数达到预设次数时，模型的损失值可以控制在收敛范围内，则模型训练结束。此时，可以将所得到的模型参数作为训练好的鱼群摄食强度识别模型的模型参数，则鱼群摄食强度识别模型训练完成，由此得到训练好的鱼群摄食强度识别模型。

本发明实施例的方法，通过利用多组训练样本对鱼群摄食强度识别模型进行反复迭代训练，将鱼群摄食强度识别模型的损失值控制在收敛范围内，从而有利于提高模型输出的鱼群摄食强度识别结果的准确性，提升鱼群摄食强度识别的精度。

在一个具体实施例中，在64位Windows10操作系统平台上，基于PyTorch深度学习框架并使用Python语言构建鱼群摄食强度识别模型，使用一块NVIDIA GTX 1650 GPU完成模型的训练。模型训练参数，可以将Batch Size设置为24，迭代周期次数设置为180，学习率设为0.001，通过Adam优化器对网络参数进行优化，学习率在20个周期内没下降时将学习率调整为原来的十分之一。模型训练过程中，使用提取好的视频、音频和水质特征作为模型的输入，加速环境可以采用应用程序CUDA10.0 和CUDNN7.5.0。

下面对本发明提供的鱼群摄食强度识别装置进行描述，下文描述的鱼群摄食强度识别装置与上文描述的鱼群摄食强度识别方法可相互对应参照。

图5是本发明提供的鱼群摄食强度识别装置的结构示意图，如图5所示，包括：

获取模块510，用于获取鱼群摄食信息，鱼群摄食信息包括鱼群摄食视频信息和对应视频时间段的水质信息；

识别模块520，用于将鱼群摄食信息输入至鱼群摄食强度识别模型，获取鱼群摄食强度识别模型输出的鱼群摄食强度；

本实施例所述的鱼群摄食强度识别装置可以用于执行上述鱼群摄食强度识别方法实施例，其原理和技术效果类似，此处不再赘述。

本发明实施例提供的鱼群摄食强度识别装置，通过考虑鱼群摄食音频和鱼群所处环境的水质对于摄食强度的影响，获取鱼群摄食信息，包括鱼群摄食视频信息和对应视频时间段的水质信息，利用鱼群摄食信息的样本和对应的鱼群摄食强度标签进行神经网络模型训练，得到鱼群摄食强度识别模型，通过鱼群摄食强度识别模型对提取鱼群摄食信息得到的视频帧特征、音频特征和水质特征进行多维度信息融合，根据融合所得的特征进行鱼群摄食强度识别，可以有效地提高鱼群摄食强度识别的精度和效果，在水质浑浊的场景下，也能实现高精度的鱼群摄食强度识别效果。

一方面，本发明提供一种鱼群摄食强度识别系统，该系统包括：

水下摄像设备、水质探测设备及处理器；处理器分别与水下摄像设备及水质探测设备连接；

水下摄像设备用于获取鱼群摄食视频信息以及音频信息；

水质探测设备用于获取鱼群摄食视频信息对应视频时间段的水质信息；

处理器执行程序时实现如上述任一种鱼群摄食强度识别方法，该方法包括：获取鱼群摄食信息，所述鱼群摄食信息包括鱼群摄食视频信息和对应视频时间段的水质信息；将所述鱼群摄食信息输入至鱼群摄食强度识别模型，获取所述鱼群摄食强度识别模型输出的鱼群摄食强度；所述鱼群摄食强度识别模型用于基于对所述鱼群摄食信息进行特征提取得到的视频帧特征、音频特征和水质特征进行融合，并基于融合所得的特征确定鱼群摄食强度；所述鱼群摄食强度识别模型是根据所述鱼群摄食信息的样本和对应的鱼群摄食强度标签训练得到的。

在一个具体实施例中，水下摄像设备可以采用防水摄像设备，水质探测设备带有水质探头，同时可以增设光源。其中，处理器与防水摄像设备、水质探头和光源分别连接。防水摄像设备能够在处理器的控制下实时采集鱼群摄食视频流，水质探测设备能将水质数据实时传递给处理器，光源可以为防水摄像设备补光，防水摄像设备采集视频流后传送给处理器，处理器可以根据训练好的鱼群摄食强度识别判断鱼群摄食强度，输出对应的摄食强度标签。

图6是本发明提供的投饵机的结构示意图，如图6所示，包括：

饵料箱61、伺服电机62、可调连通器63、控制器64和通讯串口设备65；

饵料箱61用于盛放饵料；

通讯串口设备65的一端与上述的鱼群摄食强度识别系统中的处理器66连接，用于接收处理器66输出的鱼群摄食强度识别结果；

通讯串口设备65的另一端与控制器64连接，用于将鱼群摄食强度识别结果发送给控制器64；

控制器64与伺服电机62连接，伺服电机62与可调连通器63连接，可调连通器63与饵料箱61底部的出料口611连接；

控制器64用于根据获取的鱼群摄食强度识别结果，控制可调连通器63的开合角度，以控制出料口611投送饵料的速度。

具体地，在本发明的实施例中，伺服电机可以选取舵机或其他可以旋转调节的电机，可调连通器可以采用旋转挡板的结构。

在本发明的实施例中，控制器有四个端子，分别为VCC、RXD、TXD和GND，均与通讯串口设备的一端连接。通讯串口设备的另一端与上述鱼群摄食强度识别系统中的处理器直接相连，将处理器输出的电信号传递给控制器，控制器接受相应的电信号，输出所对应的PWM电平。控制器和舵机相连，通过传送PWM电平信号控制舵机的旋转角度，从而实现舵机的旋转角度切换。

在本实施例中，舵机的旋转角度跟PWM电平的关系为：

脉冲高电平持续时间为0.5ms，对应的旋转角度为0°，脉冲高电平持续时间为1ms，对应的旋转角度为45°，脉冲高电平持续时间为1.5ms，对应的旋转角度为90°，脉冲持续时间为2ms，对应的旋转角度为135°。由此形成四档调节控制。

在本实施例中，当通讯串口设备接收到鱼群摄食强度识别系统输出的鱼群摄食强度识别结果为“strong”时，舵机可以转到最大旋转角度135°，带动旋转挡板使饵料箱出料口的开合达到最大的135°，此时饵料下落的速度达到最大；当检测到当前鱼群摄食强度识别结果为“medium”时，舵机旋转角度为90°，带动旋转挡板使得饵料箱出料口的开合角度为90°，此时饵料下落速度达到中等速度；当检测到当前鱼群摄食强度识别结果为“weak”时，舵机旋转角度为45°，带动旋转挡板使得饵料箱出料口的开合角度为45°，此时饵料下落速度较慢；当检测到当前鱼群摄食强度识别结果为“none”时，舵机的旋转角度为0°，带动旋转挡板使得饵料箱出料口闭合，停止投送饵料。

在本发明实施例中，根据提供的鱼群摄食强度识别方法，采用运算处理器处理视频、音频和水质数据后输出鱼群摄食强度标签，可以在一定面积范围内精确控制投喂量，实现精准投喂的目的，从而可以大大提高水产养殖饲料的利用效率，节省水产养殖成本。

图7是本发明提供的电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器（processor）710、通信接口（Communications Interface）720、存储器（memory）730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行上述各方法所提供的鱼群摄食强度识别方法，该方法包括：获取鱼群摄食信息，所述鱼群摄食信息包括鱼群摄食视频信息和对应视频时间段的水质信息；将所述鱼群摄食信息输入至鱼群摄食强度识别模型，获取所述鱼群摄食强度识别模型输出的鱼群摄食强度；所述鱼群摄食强度识别模型用于基于对所述鱼群摄食信息进行特征提取得到的视频帧特征、音频特征和水质特征进行融合，并基于融合所得的特征确定鱼群摄食强度；所述鱼群摄食强度识别模型是根据所述鱼群摄食信息的样本和对应的鱼群摄食强度标签训练得到的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的鱼群摄食强度识别方法，该方法包括：获取鱼群摄食信息，所述鱼群摄食信息包括鱼群摄食视频信息和对应视频时间段的水质信息；将所述鱼群摄食信息输入至鱼群摄食强度识别模型，获取所述鱼群摄食强度识别模型输出的鱼群摄食强度；所述鱼群摄食强度识别模型用于基于对所述鱼群摄食信息进行特征提取得到的视频帧特征、音频特征和水质特征进行融合，并基于融合所得的特征确定鱼群摄食强度；所述鱼群摄食强度识别模型是根据所述鱼群摄食信息的样本和对应的鱼群摄食强度标签训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的鱼群摄食强度识别方法，该方法包括：获取鱼群摄食信息，所述鱼群摄食信息包括鱼群摄食视频信息和对应视频时间段的水质信息；将所述鱼群摄食信息输入至鱼群摄食强度识别模型，获取所述鱼群摄食强度识别模型输出的鱼群摄食强度；所述鱼群摄食强度识别模型用于基于对所述鱼群摄食信息进行特征提取得到的视频帧特征、音频特征和水质特征进行融合，并基于融合所得的特征确定鱼群摄食强度；所述鱼群摄食强度识别模型是根据所述鱼群摄食信息的样本和对应的鱼群摄食强度标签训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种鱼群摄食强度识别方法，其特征在于，包括：

所述鱼群摄食强度识别模型用于对所述鱼群摄食信息进行特征提取得到视频帧特征、音频特征和水质特征，并基于所述视频帧特征、所述音频特征和所述水质特征融合所得的特征确定鱼群摄食强度；所述鱼群摄食强度识别模型是根据所述鱼群摄食信息的样本和对应的鱼群摄食强度标签训练得到的；

所述鱼群摄食强度识别模型包括特征提取层、特征融合层和输出层；

2.根据权利要求1所述的鱼群摄食强度识别方法，其特征在于，所述特征融合层包括多模态Transformer模型、多模态融合模块、加权融合层；

所述多模态Transformer模型具体用于：

通过所述跨模态融合Transformer模块，对所述各层卷积层输出的特征向量分别与所述多模态融合特征向量进行融合，并将融合所得的各特征输入至对应的自注意力Transformer模块，得到所述目标视频融合特征、所述目标音频融合特征和所述目标水质融合特征。

3.根据权利要求2所述的鱼群摄食强度识别方法，其特征在于，所述多模态融合模块具体用于：

4.根据权利要求1所述的鱼群摄食强度识别方法，其特征在于，所述特征提取层包括视频特征提取模块、音频特征提取模块和水质特征提取模块；所述鱼群摄食视频信息包括视频帧信息和音频信息；

所述音频特征提取模块具体用于：

确定所述音频信息对应的频率倒谱系数特征图；

所述水质特征提取模块具体用于：

5.根据权利要求1-4任一项所述的鱼群摄食强度识别方法，其特征在于，在所述将所述鱼群摄食信息输入至鱼群摄食强度识别模型，获取所述鱼群摄食强度识别模型输出的鱼群摄食强度之前，所述方法还包括：

6.根据权利要求5所述的鱼群摄食强度识别方法，其特征在于，所述利用所述多组训练样本，对鱼群摄食强度识别模型进行训练，包括：

7.一种鱼群摄食强度识别装置，其特征在于，包括：

8.一种鱼群摄食强度识别系统，其特征在于，包括：

所述处理器执行程序时实现如权利要求1至6任一项所述鱼群摄食强度识别方法。

9.一种投饵机，其特征在于，包括：

饵料箱、伺服电机、可调连通器、控制器和通讯串口设备；

所述饵料箱用于盛放饵料；

所述通讯串口设备的一端与权利要求8所述的鱼群摄食强度识别系统中的处理器连接，用于接收所述处理器输出的鱼群摄食强度识别结果；