CN116468942A

CN116468942A - 鱼类摄食状态判别方法、装置及存储介质

Info

Publication number: CN116468942A
Application number: CN202310403231.6A
Authority: CN
Inventors: 蔡克卫; 高天一; 温乃峰; 曲星儒
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-21

Abstract

本发明公开了鱼类摄食状态判别方法、装置及存储介质，涉及智能水产养殖技术领域，包括：将视频信号分解为RGB图像、光流和声音三个模态的时空信号，形成三个数据流，构建三流网络模型对鱼类摄食状态进行判别。三流网络模型包括第一分类模型、第二分类模型、第三分类模型和融合模块，其中，第一分类模型基于从RGB图像得到的图像空间特征进行分类，第二分类模型基于从光流得到的时间特征进行分类，第三分类模型基于从声音得到的声音特征进行分类，融合模块用于将三个分类模型得到的分类结果进行平均融合，得到最终的摄食行为分类结果，实现鱼类摄食状态智能化判别。本发明充分挖掘了鱼类摄食视频数据所包含的丰富信息，极大地提升了判别精度。

Description

鱼类摄食状态判别方法、装置及存储介质

技术领域

本发明涉及智能水产养殖技术领域，特别是涉及鱼类摄食状态判别方法、装置及存储介质。

背景技术

鱼类水产养殖过程中，饵料成本占比超过总养殖成本的50％，投饵量控制是养殖过程中需要解决的关键问题。鱼类摄食状态将直接影响养殖鱼类生长情况，投喂过少会影响鱼类生长，导致生长缓慢；投喂过多会造成饵料浪费并且残余饵料会污染水质。

目前投喂方法仍以人工或机械定时定量方式为主，并未根据鱼类摄食欲望变化因素。因此，如何实现精准投喂是水产养殖中亟待解决的关键问题，而鱼类摄食状态判别又是实现精准投喂的重要基础。

计算机视觉技术作为一种非侵入式的行为观察技术，已经被广泛应用到摄食状态判别的研究中。目前，已有众多学者提出基于计算机视觉的鱼类摄食行为判别方法。Zhou等提取图像中的鱼体，以图像中鱼体的形心作为狄罗尼三角形的顶点，以狄罗尼三角形的平均周长作为鱼群的群集指数进行摄食行为量化，但该方法需要去除包含水花和反光的帧，计算量大。Liu等提出利用帧间差分将相邻帧图像相减，将差分图像像素值的和作为鱼群整体的摄食行为活动强度，但该方法在计算过程中需要人为确定鱼体数目。黄志涛等以大西洋鲑为研究对象，提出将鱼体速度、转角等鱼体运动特征和多种图像纹理特征相结合鱼群摄食行为判别方法，进行摄食行为检测，获得较好检测结果，但该方法考虑因素较多，模型复杂。陈彩文等通过分析图像纹理特征评估鱼群摄食活动强度，无需考虑水面反光及水花问题，但检测精度有待提高。

综上所述，虽然现有鱼类摄食行为判别方法研究已经取得一定进展，但仍存在以下问题：

(1)提取鱼类摄食行为图像或视频特征通过人工手动提取，不同方法提取不同特征，特征提取方法复杂，难以获得最有特征。因此，模型泛化性和鲁棒性难以保证。

(2)输入数据类型单一，现有方法仅采用RGB图像作为分析对象，而摄食行为视频数据所包含的其他丰富信息尚未被充分挖掘，判别精度提升空间巨大。

发明内容

针对上述问题，本发明提出基于多模态时空信号和三流网络模型的养殖鱼类摄食状态判别方法、装置及存储介质，以视频数据作为输入，充分挖掘数据信息，设计三流网络模型，实现特征自动提取，解决人工提取特征计算复杂、鲁棒性差等问题。

为此，本发明提供了以下技术方案：

一方面，本发明提供了一种鱼类摄食状态判别方法，所述方法包括：

获取鱼类摄食视频信号；每条视频信号为若干帧包括鱼类摄食的图像；

从所述鱼类摄食视频信号中提取各帧的RGB图像；

将各帧的RGB图像输入至第一分类模型，提取各帧的图像空间特征；并利用各帧的图像空间特征对鱼类摄食视频进行分类，得到第一分类结果；所述第一分类模型为基于ResNet结构的深度卷积分类网络，所述第一分类模型以RGB图像为输入，以每种鱼类摄食状态的概率值为输出；所述鱼类摄食状态包括：强摄食状态、弱摄食状态和未摄食状态；

基于各帧的RGB图像，抽取各帧图像间时间维度的光流信息，生成光流图像；

将各帧光流图像输入至第二分类模型，提取光流图像中的时间维度特征，并利用各光流图像的时间维度特征对鱼类摄食视频进行分类，得到第二分类结果；所述第二分类模型为基于ResNet结构的深度卷积分类网络，所述第二分类模型以光流图像为输入，以每种鱼类摄食状态的概率值为输出；

从所述鱼类摄食视频信号中抽取声音信号；

将所述声音信号输入至第三分类模型，提取声音特征，根据声音特征对鱼类摄食视频进行分类，得到第三分类结果；所述第三分类模型为基于一维卷积神经网络的分类网络，所述第三分类模型以声音特征为输入，以每种鱼类摄食状态的概率值为输出；

将所述第一分类结果、所述第二分类结果和所述第三分类结果进行融合，获得最终视频分类结果，实现鱼类摄食状态智能化判别。

进一步地，将所述第一分类结果、所述第二分类结果和所述第三分类结果进行融合，包括：

将所述第一分类结果、所述第二分类结果和所述第三分类结果进行平均融合。

将所述第一分类结果、所述第二分类结果和所述第三分类结果进行加权融合。

进一步地，所述第一分类模型，包括：卷积单元CBR、最大池化层MaxPool、若干卷积块Block相连接的空间表示学习层、自适应平均池化模块Adaptive AvgPool、2个线性映射模块Linear和分类器Softmax；其中，空间表示学习层中的卷积块Block包括：卷积单元CBR、级联块CB和非线性激活模块ReLU，每个级联块CB包括：1个二维卷积Conv2d和1个批量均值化模块BN，每帧RGB图像经CBR和MaxPool之后输入至空间表示学习层中的卷积块中，该输入与该输入经过CBR和CB得到的结果相加，之后经过ReLU，提取出图像空间特征；每个CBR包括：1个二维卷积Conv2d、1个批量均值化模块BN和1个激活层ReLU。

进一步地，所述第二分类模型，包括：卷积单元CBR、最大池化层MaxPool、若干卷积块相连接的时间表示学习层、自适应平均池化模块Adaptive AvgPool、2个线性映射模块Linear和分类器Softmax；其中，时间表示学习层中的卷积块包括：卷积单元CBR、级联块CB和非线性激活模块ReLU，每个级联块CB包括：1个二维卷积Conv2d和1个批量均值化模块BN，每帧RGB图像经CBR和MaxPool之后输入至时间表示学习层中的卷积块中，该输入与该输入经过CBR和CB得到的结果相加，之后经过ReLU，提取出图像时间特征；每个CBR包括：1个二维卷积Conv2d、1个批量均值化模块BN和1个非线性激活模块ReLU。

进一步地，所述第三分类模型，包括：一维卷积单元CR1d、最大池化层MaxPool、若干卷积块相连接的声音表示学习层、压平层Flatten、2个线性映射模块Linear和分类器Softmax。其中，声音表示学习层中的卷积块包括：2个一维卷积单元CR1d和1个最大池化层MaxPool，每帧RGB图像经CR1d和MaxPool之后输入至声音表示学习层中的卷积块中，该输入经过2个CR1d和1个MaxPool，提取出声音特征。每个CR1d包括：1个一维卷积Conv1d和1个非线性激活模块ReLU。

进一步地，Conv2d的卷积核尺寸为3*3。

进一步地，Conv1d的卷积核尺寸为3。

又一方面，本发明还提供了一种鱼类摄食状态判别装置，所述装置包括：

视频信号获取单元，用于获取鱼类摄食视频信号；每条视频信号为若干帧包括鱼类摄食的图像；

RGB图像提取单元，用于从所述视频信号获取单元获取的鱼类摄食视频信号中提取各帧的RGB图像；

第一分类单元，用于将所述RGB图像提取单元提取的各帧的RGB图像输入至第一分类模型，提取各帧的图像空间特征；并利用各帧的图像空间特征对鱼类摄食视频进行分类，得到第一分类结果；所述第一分类模型为基于ResNet结构的深度卷积分类网络，所述第一分类模型以RGB图像为输入，以每种鱼类摄食状态的概率值为输出；所述鱼类摄食状态包括：强摄食状态、弱摄食状态和未摄食状态；

光流图像生成单元，用于基于所述RGB图像提取单元提取的各帧的RGB图像，抽取各帧图像间时间维度的光流信息，生成光流图像；

第二分类单元，将所述光流图像生成单元生成的各帧光流图像输入至第二分类模型，提取光流图像中的时间维度特征，并利用各光流图像的时间维度特征对鱼类摄食视频进行分类，得到第二分类结果；所述第二分类模型为基于ResNet结构的深度卷积分类网络，所述第二分类模型以光流图像为输入，以每种鱼类摄食状态的概率值为输出；

声音提取单元，用于从所述视频信号获取单元获取的鱼类摄食视频信号中抽取声音信号；

第三分类单元，用于将所述声音提取单元提取的声音信号输入至第三分类模型，提取声音特征，根据声音特征对鱼类摄食视频进行分类，得到第三分类结果；所述第三分类模型为基于一维卷积神经网络的分类网络，所述第三分类模型以声音特征为输入，以每种鱼类摄食状态的概率值为输出；

融合单元，用于将所述第一分类单元得到的第一分类结果、所述第二分类单元得到的第二分类结果和所述第三分类单元得到的第三分类结果进行融合，获得最终视频分类结果，实现鱼类摄食状态智能化判别。

又一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现上述鱼类摄食状态判别方法。

本发明的优点和积极效果：本发明通过建立三流网络对视频中单帧图像空间特征、各帧图像间时间特征以及声音特征进行提取，并利用所提特征分别进行视频分类，最后融合各网络结果实现鱼类摄食行为分类。该方法优势在于充分挖掘并利用视频数据所包含的丰富信息，设计专用网络对各类数据进行处理，最终结果是基于综合数据信息所得，更加准确、可靠。此外，本发明所提方法具有自动提取特征能力，无需人为手工设计特征提取方法，可有效提高模型泛化性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中鱼类摄食状态判别方法的流程图；

图2为本发明实施例中基于多模态时空信号和三流网络模型的鱼类摄食状态判别网络的结构框图；

图3为本发明实施例中鱼类摄食状态判别装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，其示出了本发明实施例中一种鱼类摄食状态判别方法的流程图，该方法主要包括以下步骤：

S1、获取鱼类摄食视频信号；

其中，视频信号可由水下摄像头等水下视频采集设备提供，每条视频信号为若干帧包括鱼类摄食行为的图像。

S2、从视频信号中提取各帧的RGB图像；

S3、将各帧的RGB图像输入至第一分类模型，提取各帧的图像空间特征；并利用各帧的图像空间特征对鱼类摄食视频进行分类，得到第一分类结果；

具体实施中，从视频信号中将各帧的RGB图像提取出来，设计基于ResNet结构的深度卷积分类网络作为第一分类模型，提取图像空间特征，利用各帧的图像空间特征对鱼类摄食视频进行分类。第一分类模型以RGB图像为输入，以每种鱼类摄食状态的概率值为输出；鱼类摄食状态包括：强摄食状态、弱摄食状态和未摄食状态。

S4、基于各帧的RGB图像，抽取各帧图像间时间维度的光流信息，生成光流图像；

S5、将各帧光流图像输入至第二分类模型，提取光流图像中的时间维度特征，并利用各光流图像的时间维度特征对鱼类摄食视频进行分类，得到第二分类结果；

具体实施中，基于RGB图像，抽取各帧图像间时间维度的光流信息，生成光流图像，采用基于卷积神经网络的第二分类模型提取光流图像中的时间维度特征，利用各光流图像的时间维度特征对鱼类摄食视频进行分类。第二分类模型以光流图像为输入，以每种鱼类摄食状态的概率值为输出；鱼类摄食状态包括：强摄食状态、弱摄食状态和未摄食状态。

S6、从视频信号中抽取声音信号；

考虑到鱼类在摄食过程中会发出声音，不同的摄食状态发出的声音不同，所以本发明在进行鱼类摄食状态判别时，将声音信号也考虑在内。

S7、将声音信号输入至第三分类模型，提取声音特征，根据声音特征对鱼类摄食视频进行分类，得到第三分类结果；

具体实施中，抽取视频中声音信号，设计1维卷积神经网络作为第三分类模型，提取声音特征，根据声音特征对鱼类摄食视频进行分类。第三分类模型以声音特征为输入，以每种鱼类摄食状态的概率值为输出；鱼类摄食状态包括：强摄食状态、弱摄食状态和未摄食状态。

S8、将第一分类结果、第二分类结果和第三分类结果进行融合，获得最终视频分类结果，实现鱼类摄食状态智能化判别。

其中，鱼类摄食状态包括：强摄食状态、弱摄食状态和未摄食状态。第一分类结果、第二分类结果、第三分类结果为上述三种鱼类摄食状态的概率值。

在一种实施方式中，融合可以是平均融合，即对三个分类结果中每种鱼类摄食状态的概率值求平均值，将得到的平均值作为最终视频分类结果。

在另一种实施方式中，融合可以是加权融合，即分别对三个分类结果中每种鱼类摄食状态的概率值进行加权求和，将得到的值作为最终视频分类结果，三个分类结果的权重值总和为1，每种分类结果的权重可以根据从鱼类摄食视频信号中提取出的三种模态的精度进行设定，如提取出的RGB图像的精度最高，则将基于RGB图像得到的第一分类结果设计为最高，提取出的声音信号的精度较低，则将基于声音信号得到的第三分类结果设计为最低。在具体实施中，也可根据经验设计权重值。

需要说明的是，上述三类分类模型进行分类的步骤无先后顺序，可以依次进行，也可以同时进行，此处不做限定。

为了便于理解，下面对上述实施例中的基于多模态时空信号和三流网络模型的鱼类摄食状态判别网络进行详细说明。如图2所示，将视频信号分解为三个模态(RGB图像、光流图像和声音)的时空信号，形成三个数据流，构建三流网络模型对鱼类摄食状态进行判别。具体地，三流网络模型包括第一分类模型、第二分类模型、第三分类模型和融合模块，其中，第一分类模型基于从RGB图像得到的图像空间特征进行分类，第二分类模型基于从光流得到的时间特征进行分类，第三分类模型基于从声音得到的声音特征进行分类，融合模块用于将三个分类模型得到的分类结果进行平均融合，得到最终的摄食行为分类结果，实现鱼类摄食状态智能化判别。

第一分类模型为基于ResNet结构的深度卷积分类网络，包括：卷积单元CBR、最大池化层MaxPool、若干卷积块Block相连接的空间表示学习层、自适应平均池化模块Adaptive AvgPool、2个线性映射模块Linear和分类器Softmax。其中，空间表示学习层中的卷积块Block包括：卷积单元CBR、级联块CB和非线性激活模块ReLU，每个级联块CB包括：1个二维卷积Conv2d和1个批量均值化模块BN，每帧RGB图像经CBR和MaxPool之后输入至空间表示学习层中的卷积块中，该输入与该输入经过CBR和CB得到的结果相加，之后经过ReLU，提取出图像空间特征。每个CBR包括：1个二维卷积Conv2d、1个批量均值化模块BN和1个激活层ReLU。

第二分类模型与第一分类模型的结构类似，也是基于ResNet结构的深度卷积分类网络，包括：卷积单元CBR、最大池化层MaxPool、若干卷积块相连接的时间表示学习层、自适应平均池化模块Adaptive AvgPool、2个线性映射模块Linear和分类器Softmax。其中，时间表示学习层中的卷积块包括：卷积单元CBR、级联块CB和非线性激活模块ReLU，每个级联块CB包括：1个二维卷积Conv2d和1个批量均值化模块BN，每帧RGB图像经CBR和MaxPool之后输入至时间表示学习层中的卷积块中，该输入与该输入经过CBR和CB得到的结果相加，之后经过ReLU，提取出图像时间特征。每个CBR包括：1个二维卷积Conv2d、1个批量均值化模块BN和1个非线性激活模块ReLU。这里需要说明的是，虽然第一分类模型和第二分类模型在网络结构上相类似，且都是处理2维图像信息，但输入不同，第一分类模型的输入是RGB图像，第二分类模型的输入是光流图像，训练所得模型参数也不相同。

第三分类模型为1维卷积神经网络，包括：一维卷积单元CR1d、最大池化层MaxPool、若干卷积块相连接的声音表示学习层、压平层Flatten、2个线性映射模块Linear和分类器Softmax。其中，声音表示学习层中的卷积块包括：2个一维卷积单元CR1d和1个最大池化层MaxPool，每帧RGB图像经CR1d和MaxPool之后输入至声音表示学习层中的卷积块中，该输入经过2个CR1d和1个MaxPool，提取出声音特征。每个CR1d包括：1个一维卷积Conv1d和1个非线性激活模块ReLU。

其中，Conv2d为2d卷积模块，卷积核尺寸为3*3，BN为批量均值化模块，ReLU为非线性激活模块，Conv1d为1d卷积模块，卷积核尺寸为3，Adaptive AvgPool为自适应平均池化模块，将2维特征图映射为1维向量，Linear为线性映射模块，Softmax模块将1维向量结果映射为概率分布，最终通过ScoreFusion模块将三个网络的分类结果进行均值融合，获得最终行为判别结果。

本发明实施例中通过建立三流网络对视频中单帧图像空间特征、各帧图像间时间特征以及声音特征进行提取，并利用所提特征分别进行视频分类，最后融合各网络结果实现鱼类摄食行为分类。该方法优势在于充分挖掘并利用视频数据所包含的丰富信息，设计专用网络对各类数据进行处理，最终结果是基于综合数据信息所得，更加准确、可靠。此外，本发明所提方法具有自动提取特征能力，无需人为手工设计特征提取方法，可有效提高模型泛化性和鲁棒性。

对应本发明中的鱼类摄食状态判别方法，本发明还提供了鱼类摄食状态判别装置，如图3所示，该装置包括：

视频信号获取单元100，用于获取鱼类摄食视频信号；每条视频信号为若干帧包括鱼类摄食的图像；

RGB图像提取单元200，用于从视频信号获取单元100获取的鱼类摄食视频信号中提取各帧的RGB图像；

第一分类单元300，用于将RGB图像提取单元200提取的各帧的RGB图像输入至第一分类模型，提取各帧的图像空间特征；并利用各帧的图像空间特征对鱼类摄食视频进行分类，得到第一分类结果；

其中，第一分类模型为基于ResNet结构的深度卷积分类网络，第一分类模型以RGB图像为输入，以每种鱼类摄食状态的概率值为输出；鱼类摄食状态包括：强摄食状态、弱摄食状态和未摄食状态。第一分类模型，包括：卷积单元CBR、最大池化层MaxPool、若干卷积块Block相连接的空间表示学习层、自适应平均池化模块Adaptive AvgPool、2个线性映射模块Linear和分类器Softmax。其中，空间表示学习层中的卷积块Block包括：卷积单元CBR、级联块CB和非线性激活模块ReLU，每个级联块CB包括：1个二维卷积Conv2d和1个批量均值化模块BN，每帧RGB图像经CBR和MaxPool之后输入至空间表示学习层中的卷积块中，该输入与该输入经过CBR和CB得到的结果相加，之后经过ReLU，提取出图像空间特征。每个CBR包括：1个二维卷积Conv2d、1个批量均值化模块BN和1个激活层ReLU。

光流图像生成单元400，用于基于RGB图像提取单元200提取的各帧的RGB图像，抽取各帧图像间时间维度的光流信息，生成光流图像；

第二分类单元500，将光流图像生成单元400生成的各帧光流图像输入至第二分类模型，提取光流图像中的时间维度特征，并利用各光流图像的时间维度特征对鱼类摄食视频进行分类，得到第二分类结果；

其中，第二分类模型为基于ResNet结构的深度卷积分类网络，第二分类模型以光流图像为输入，以每种鱼类摄食状态的概率值为输出。第二分类模型与第一分类模型的结构类似，包括：卷积单元CBR、最大池化层MaxPool、若干卷积块相连接的时间表示学习层、自适应平均池化模块Adaptive AvgPool、2个线性映射模块Linear和分类器Softmax。其中，时间表示学习层中的卷积块包括：卷积单元CBR、级联块CB和非线性激活模块ReLU，每个级联块CB包括：1个二维卷积Conv2d和1个批量均值化模块BN，每帧RGB图像经CBR和MaxPool之后输入至时间表示学习层中的卷积块中，该输入与该输入经过CBR和CB得到的结果相加，之后经过ReLU，提取出图像时间特征。每个CBR包括：1个二维卷积Conv2d、1个批量均值化模块BN和1个非线性激活模块ReLU。

声音提取单元600，用于从视频信号获取单元100获取的鱼类摄食视频信号中抽取声音信号；

第三分类单元700，用于将声音提取单元600提取的声音信号输入至第三分类模型，提取声音特征，根据声音特征对鱼类摄食视频进行分类，得到第三分类结果；

其中，第三分类模型为基于一维卷积神经网络的分类网络，第三分类模型以声音特征为输入，以每种鱼类摄食状态的概率值为输出。第三分类模型，包括：一维卷积单元CR1d、最大池化层MaxPool、若干卷积块相连接的声音表示学习层、压平层Flatten、2个线性映射模块Linear和分类器Softmax。其中，声音表示学习层中的卷积块包括：2个一维卷积单元CR1d和1个最大池化层MaxPool，每帧RGB图像经CR1d和MaxPool之后输入至声音表示学习层中的卷积块中，该输入经过2个CR1d和1个MaxPool，提取出声音特征。每个CR1d包括：1个一维卷积Conv1d和1个非线性激活模块ReLU。

融合单元800，用于将第一分类单元300得到的第一分类结果、第二分类单元500得到的第二分类结果和第三分类单元700得到的第三分类结果进行融合，获得最终视频分类结果，实现鱼类摄食状态智能化判别。

对于本发明实施例的鱼类摄食状态判别装置而言，由于其与上面实施例中的鱼类摄食状态判别方法相对应，所以描述的比较简单，相关相似之处请参见上面实施例中鱼类摄食状态判别方法部分的说明即可，此处不再详述。

本发明实施例还公开了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如上文任一实施例所提供的鱼类摄食状态判别方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种鱼类摄食状态判别方法，其特征在于，所述方法包括：

从所述鱼类摄食视频信号中提取各帧的RGB图像；

从所述鱼类摄食视频信号中抽取声音信号；

2.根据权利要求1所述的一种鱼类摄食状态判别方法，其特征在于，将所述第一分类结果、所述第二分类结果和所述第三分类结果进行融合，包括：

3.根据权利要求1所述的一种鱼类摄食状态判别方法，其特征在于，将所述第一分类结果、所述第二分类结果和所述第三分类结果进行融合，包括：

4.根据权利要求1所述的一种鱼类摄食状态判别方法，其特征在于，所述第一分类模型，包括：卷积单元CBR、最大池化层MaxPool、若干卷积块Block相连接的空间表示学习层、自适应平均池化模块Adaptive AvgPool、2个线性映射模块Linear和分类器Softmax；其中，空间表示学习层中的卷积块Block包括：卷积单元CBR、级联块CB和非线性激活模块ReLU，每个级联块CB包括：1个二维卷积Conv2d和1个批量均值化模块BN，每帧RGB图像经CBR和MaxPool之后输入至空间表示学习层中的卷积块中，该输入与该输入经过CBR和CB得到的结果相加，之后经过ReLU，提取出图像空间特征；每个CBR包括：1个二维卷积Conv2d、1个批量均值化模块BN和1个激活层ReLU。

5.根据权利要求1所述的一种鱼类摄食状态判别方法，其特征在于，所述第二分类模型，包括：卷积单元CBR、最大池化层MaxPool、若干卷积块相连接的时间表示学习层、自适应平均池化模块Adaptive AvgPool、2个线性映射模块Linear和分类器Softmax；其中，时间表示学习层中的卷积块包括：卷积单元CBR、级联块CB和非线性激活模块ReLU，每个级联块CB包括：1个二维卷积Conv2d和1个批量均值化模块BN，每帧RGB图像经CBR和MaxPool之后输入至时间表示学习层中的卷积块中，该输入与该输入经过CBR和CB得到的结果相加，之后经过ReLU，提取出图像时间特征；每个CBR包括：1个二维卷积Conv2d、1个批量均值化模块BN和1个非线性激活模块ReLU。

6.根据权利要求1所述的一种鱼类摄食状态判别方法，其特征在于，所述第三分类模型，包括：一维卷积单元CR1d、最大池化层MaxPool、若干卷积块相连接的声音表示学习层、压平层Flatten、2个线性映射模块Linear和分类器Softmax。其中，声音表示学习层中的卷积块包括：2个一维卷积单元CR1d和1个最大池化层MaxPool，每帧RGB图像经CR1d和MaxPool之后输入至声音表示学习层中的卷积块中，该输入经过2个CR1d和1个MaxPool，提取出声音特征。每个CR1d包括：1个一维卷积Conv1d和1个非线性激活模块ReLU。

7.根据权利要求4～6任一项权利要求所述的一种鱼类摄食状态判别方法，其特征在于，Conv2d的卷积核尺寸为3*3。

8.根据权利要求4～6任一项权利要求所述的一种鱼类摄食状态判别方法，其特征在于，Conv1d的卷积核尺寸为3。

9.一种鱼类摄食状态判别装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如权利要求1～8任一项所述的鱼类摄食状态判别方法。