CN115578678A

CN115578678A - 一种鱼类摄食强度分类方法及系统

Info

Publication number: CN115578678A
Application number: CN202211389429.5A
Authority: CN
Inventors: 李道亮; 杜壮壮; 王聪; 李震; 徐先宝; 白壮壮; 王琪; 孙传钰; 王柄雄; 王帅星
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-01-06

Abstract

本发明涉及一种鱼类摄食强度分类方法及系统。该方法包括对当前时刻的音频数据进行梅尔频率倒谱系数的提取；根据提取的梅尔频率倒谱系数，采用鱼类摄食强度分类模型，确定分类结果，并根据分类结果进行投喂；鱼类摄食强度分类模型的训练过程为：获取鱼类不同摄食阶段的视频数据和音频数据；对视频数据和音频数据进行数据对齐处理；根据视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理，确定不同摄食强度的音频段，提取音频段的梅尔频率倒谱系数；利用音频段的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练，确定鱼类摄食强度分类模型。本发明能够提高当前水产养殖过程中对鱼群摄食强度评估的准确性和效率。

Description

一种鱼类摄食强度分类方法及系统

技术领域

本发明涉及鱼类摄食强度分类领域，特别是涉及一种鱼类摄食强度分类方法及系统。

背景技术

全球鱼类的需求量从1998年至2018年的20年间，人均活鱼消费量从15.6kg/年增加到20.4kg/年。增加的鱼类消费将会丰富饮食中的微量元素。为了满足全球对高质量蛋白质日益增长的需求，解决现有传感器对循环水养殖车间鱼类行为信息获取不全面的问题，亟需应用新技术手段实现水产养殖精细尺度管理。声学技术在研究鱼群自动饲喂系统方面具有显著优势，为提供自需式投喂方案，提高水产养殖产量方面发挥了重要作用。

现有投喂决策中，主要可分为人工观察决策投喂、定时定量投喂系统和基于机器视觉的投喂决策。通过人工观察评估鱼类的摄食强度，常常受观察者个人经验等因素的影响，易造成过投喂或者投喂不足，尤其是在商业规模的养殖场，人工观察法大幅提高了劳动和时间成本。定时定量投喂是基于鱼群数量和长期经验积累的基础上，为一定数量的鱼群按时投喂一定量的饲料，这种方法在一定的程度上解决了劳动力不足的问题，但仍存在过量投喂和投喂不足的风险。机器视觉是一种自动非入侵式且经济的监控方法。在以往研究中，已有学者通过利用机器视觉监控了鱼群的摄食行为和饲料消耗程度，进而评估了鱼群摄食情况。采用机器视觉技术评估鱼群摄食强度是一种可行且有效的手段，但是，机器视觉仅适用于光照条件较好的场合，比如实验室、网箱、池塘等。然而，在很多设施水产养殖现场都存在光照条件不足和不均匀的问题，导致采集到的大多数图像的噪声比较严重，使得准确率显著降低。

鱼虾在进食过程中产生脉冲声波信号，可以作为进食活动的有效代理，使用被动声学的方法对鱼虾摄食环境以及摄食行为进行探测不会产生负面影响，还能有效反馈鱼虾摄食情况。即使用水听器检测到声音并传送到计算机系统进行分析，计算机和喂食软件利用这些信息来决定何时喂食以及喂食多少。鱼类声学特征的表达是行为理论研究中的重要部分，可将不同条件下的鱼虾行为与声学特征建立联系。现有研究多数是通过圈养水生生物并搭建水下声音检测平台的方式对鱼虾发声进行监测，水听器检测到的声信号是一个复杂的混合信号，环境中的背景噪声和鱼虾发声的重叠较大，检测到的声音信号与鱼类食欲、行为的关系也会存在误差，并不能反映鱼虾真实的行为声学特征。因此，建立并揭示鱼类发声机制与行为表现之间的关联关系对精准的智能算法开发提出了更高的要求。

发明内容

本发明的目的是提供一种鱼类摄食强度分类方法及系统，用以解决当前水产养殖过程中对鱼群摄食强度评估不准确、效率低的问题。

为实现上述目的，本发明提供了如下方案：

一种鱼类摄食强度分类方法，包括：

获取鱼类当前时刻的音频数据；

对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取；

根据提取的梅尔频率倒谱系数，采用鱼类摄食强度分类模型，确定分类结果，并根据分类结果进行投喂；所述鱼类摄食强度分类模型的训练过程为：

获取鱼类不同摄食阶段的视频数据和音频数据；摄食阶段包括：摄食前、摄食过程以及摄食后；

对不同摄食阶段的视频数据和音频数据进行数据对齐处理，确定同步的鱼摄食视频和音频数据；

根据视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理，确定不同摄食强度的音频段，并提取音频段的梅尔频率倒谱系数；

利用不同摄食强度的音频段的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练，确定鱼类摄食强度分类模型。

可选地，所述对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取，具体包括：

对当前时刻的音频数据进行预加重、分帧和加窗处理；

对处理后的音频数据进行傅里叶变化；

采用三角频率滤波器组对傅里叶变换后的音频数据进行频谱转换；

对频谱转换后的音频数据取对数；

对取对数后的音频数据进行离散余弦变换，确定梅尔频率倒谱系数。

可选地，所述获取鱼类不同摄食阶段的视频数据和音频数据，具体包括：

利用海康威视视觉相机获取视频数据；

利用全向水听器获取音频数据。

可选地，所述对不同摄食阶段的视频数据和音频数据进行数据对齐处理，确定同步的鱼摄食视频和音频数据，具体包括：

利用海康威视中的VSPlayer视频处理软件以及音频处理软件Audition分别对视频数据和音频数据进行同步对齐处理。

可选地，所述注意力机制包括：通道注意力机制和空间注意力机制。

可选地，所述鱼类摄食强度分类模型的损失函数为：

其中，L_bias为损失函数，N为样本数，k为设施强度类型的数量，y_ij为第i个样本的真实标签为j，f_j(x_i；θ)为第i个样本预测为第j个标签值的概率，θ为鱼类摄食强度分类模型的参数，z(v_i)为非线性函数，随着缩放方差v_i的增加以及数据点的影响，z(v_i)的值呈指数增长。

一种鱼类摄食强度分类系统，包括：

音频数据获取模块，用于获取鱼类当前时刻的音频数据；

梅尔频率倒谱系数提取模块，用于对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取；

分类结果确定模块，用于根据提取的梅尔频率倒谱系数，采用鱼类摄食强度分类模型，确定分类结果，并根据分类结果进行投喂；所述鱼类摄食强度分类模型的训练过程为：

一种鱼类摄食强度分类系统，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现所述的一种鱼类摄食强度分类方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种鱼类摄食强度分类方法及系统，通过对不同摄食阶段的视频数据和音频数据进行数据对齐处理，确定同步的鱼摄食视频和音频数据，并利用视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理，确定不同摄食强度的音频段，即根据视频数据对应的摄食强度对相同时间段的音频数据进行标注，并利用标注的音频数据对的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练，确定鱼类摄食强度分类模型，进而利用鱼类摄食强度分类模型进行分类。本发明将发声机制与行为表现进行充分关联，解决了当前水产养殖过程中对鱼群摄食强度评估不准确、效率低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种鱼类摄食强度分类方法流程示意图；

图2为本发明所提供的一种鱼类摄食强度分类方法整体流程图；

图3为本发明实施例的实验数据获取系统结构示意图；

图4为本发明实施例的鱼类摄食强度视频图像分类示意图；

图5为本发明实施例的鱼类摄食强度梅尔倒谱系数示意图；

图6为本发明实施例的网络结构示意图；

图7为本发明实施例的无梅尔滤波器组梅尔频率语谱图(强摄食声音)；

图8为本发明实施例的增加梅尔滤波器组梅尔频率语谱图(强摄食声音)。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种鱼类摄食强度分类方法及系统，能够提高当前水产养殖过程中对鱼群摄食强度评估的准确性和效率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种鱼类摄食强度分类方法流程示意图，图2为本发明所提供的一种鱼类摄食强度分类方法整体流程图，如图1和图2所示，本发明所提供的一种鱼类摄食强度分类方法，包括：

S101，获取鱼类当前时刻的音频数据；

S102，对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取；

S102具体包括：

对当前时刻的音频数据进行预加重、分帧和加窗处理；

对处理后的音频数据进行傅里叶变化；

对频谱转换后的音频数据取对数；

S103，根据提取的梅尔频率倒谱系数，采用鱼类摄食强度分类模型，确定分类结果，并根据分类结果进行投喂；所述鱼类摄食强度分类模型的训练过程为：

获取鱼类不同摄食阶段的视频数据和音频数据；摄食阶段包括：摄食前、摄食过程以及摄食后；在循环水养殖池系统(RAS)中，使用一台海康威视彩色摄像机(型号：DS-2SC3Q140MY-TE)和一个全向的LST-DH01数字水听器分别获取鱼类摄食前、摄食过程、摄食后视频数据和音频数据，并如图3所示。

对不同摄食阶段的视频数据和音频数据进行数据对齐处理，确定同步的鱼摄食视频和音频数据；使用海康威视中的VSPlayer视频处理软件和音频处理软件Audition分别对视频数据和音频数据进行了同步对齐处理，使得同一时间段内获得同步的鱼摄食视频和音频数据。

上述步骤为数据分类标注，即根据水产养殖技术人员的经验以及现有的摄食强度划分标准，并如图4所示，图4中从左向右依次为“强”、“中”、“弱”，具体请参见表1。通过回看视频，将鱼的摄食强度视频分成了“强”、“中”、“弱”3种类型。然后依据视频的分类强度和时间段，对同步的音频数据进行了同样的裁剪处理获得了3种摄食强度类型的音频段，并如图5所示，从左向右依次为“强”、“中”、“弱”。

表1鱼类摄食活动强度分类标准

对于每一类时间片段，通过随机选择音频片段创建一个训练集和一个测试集。按照训练集和测试机8：2的比例关系，8055个3s音频片段用于训练，1151个片段用于测试。具体的分类如表2所示：

表2数据集划分

梅尔频率倒谱系数是利用频率尺度模拟人类感知系统的特征，通过三角滤波器组将声音的频率转换成梅尔(Mel)刻度上的频率。MFCC是比较常用且高效的音频特征。

MFCC特征提取过程包括音频预加重、分帧、加窗、离散傅里叶变化、Mel带通滤波、离散余弦变换等步骤。

MFCC特征提取过程具体步骤包含(a)-(e)：

(a)对输入的语音信号进行预加重、分帧和加窗。本研究选择幅频特性旁瓣衰减较大的汉明窗作为加窗函数。

(b)对每一个短时分析窗，通过Fast Fourier Transform(FFT)将信号从时域转换成频域，得到对应的线性频谱。

(c)将FFT得到的频谱通过Mel滤波器组得到Mel频谱。三角频率滤波器组由64个带通滤波器Hm(k)组成。其传递函数为公式(1)所示：

其中：0≤m≤M，M是梅尔滤波器的数量，M＝64，∑H_m(k)＝1，f(m)是滤波器的中心频率。梅尔滤波器组参数设置如表3所示，如图7和图8所示，分别为无梅尔滤波器组和增加梅尔滤波器组的梅尔频率语谱图，其中图8的(a)部分为n_mels＝128，fmin＝0Hz，fmax＝80000Hz，图8的(b)部分为n_mels＝128，fmin＝1500Hz，fmax＝48500Hz，图8的(c)部分为n_mels＝64，fmin＝1500Hz,fmax＝48500Hz，图8的(d)部分为n_mels＝32，fmin＝1500Hz，fmax＝48500Hz。

表3梅尔滤波器组参数设置

其中，y代表音频时间序列，sr是采样率，hope-length代表连续帧之间的样本数，n-mel是要生成的Mel波段数，fmin代表最低频率，fmax代表最高频率。

(d)对所有滤波器输出的频谱作对数运算，得到对数频谱图S(m)。

(e)将S(m)经过离散余弦变换(DCT)得到倒谱频域，即可得到MFCC。

采用了注意力机制的神经网络是在mobilenent_V3_Small网络结构的基础上，替换了部分Squeeze-and-Excitation block(SENet)，使用Convolution block AttentionModule(CBAM)注意力机制代替，CBAM融合了通道注意力机制和空间注意力机制，能两方兼顾，获得更好的效果。改进后的整体网络结构如附图6所示。

通道注意力部分：给定输入，让F∈R^H×W×C，同时经过全局平均池化(GAP)和全局最大池化操作(GMP)，分别得到不同的空间语义描述算子。然后，这两个描述算子通过一个共享网络，产生我们的通道注意力特征图Mc∈R^C×1×1，该共享网络由多层感知器(MLP)组成，有一个隐藏层随后将两个通道注意力特征向量使用相加方式进行融合，最后经过激活函数，得到通道注意力向量Mc∈R^1×1×C，详细描述如下：

其中，W₁和W₀代表权重，

和

代表平均和最大池化后的特征图，σ是sigmoid函数。

空间注意力部分：给定输入：Let F∈R^H×W×C，沿着通道维度，同时经过全局平均池化(GAP)和全局最大池化(GMP)操作，分别得到两种不同的通道特征描述算子，将二者进行拼接，然后经过一个卷积核为7×7的卷积操作，再经过激活函数，最后得到空间注意力向量，Ms∈R1×H×W，详细描述如下：

其中，σ代表sigmoid函数，f^7×7代表一个卷积操作，过滤器大小为代表7×7。

在多分类问题中，广泛应用的损失函数为交叉熵损失函数。让X∈R^c×h×w为特征空间，and Y＝{1,...,k}为标签空间，其中k为类的数量。在公式(4)中，y_ij表示第i个样本的真实标签为j，共有k个标签值N个样本，f_j(x_i；θ)表示第i个样本预测为第j个标签值的概率，其中θ表示模型参数。传统上，训练的目的是通过最小化训练集的预期损失来学习一个模型。一般来说，一个分类问题的交叉熵损失为：

交叉熵损失函数(cross-entropy loss)擅长学习类间的信息，因为它采用了类间竞争机制，只关心对于正确标签预测概率的准确性，忽略了其他非正确标签的差异，导致学习到的特征比较散。如果数据点不能提供足够数量的独特特征来描述对象，将会迫使模型产生随机预测，即在缺乏特征多样性的情况下做出不精准的预测。对此，采用新的损失函数，即偏差损失。偏差损失是一种动态缩放的交叉熵损失，其中缩放随着数据点方差的减小而衰减。

z(v_i)＝exp(v_i*α)-β (6)

其中，α和β为可调贡献参数，z(v_i)为非线性函数，随着缩放方差v_i的增加以及数据点的影响，z(v_i)的值呈指数增长，v为卷积层输出的缩放方差。此外，方差被缩放到[0,1]的范围，以便在损失函数中进一步使用，即:

其中，在每次迭代中，max和min是该批特征映射中激活的最大值和最小值。这样做是为了确保方差值中的异常值不会导致损失的大变化，也不会使模型不稳定。

采用准确率、精确率、召回率和F1值(accuracy,precision,recall and F1-score)对鱼类摄食活动强度分类进行评价。准确率是指正确分类的样本占样本总数的比例，准确率越高表明模型对鱼类摄食活动强度分类效果越好。精确率是指真阳性样本占所有预测阳性样本的比例。召回率表示正确预测的阳性样本占所有真实阳性样本的比例。F1值为精确率和召回率的调和平均值，用于评价模型的整体分类性能。四个评估指标定义如下:

其中，真阳性(TP)表示阳性类被判定为阳性类，假阳性(FP)代表阴性类被判定为阳性类，假阴性(FN)表示阳性类被判定为阴性类，而真阴性(TN)代表被正确分类的阴性样本的数量。

根据提取的梅尔频率倒谱系数，采用鱼类摄食强度分类模型，确定分类结果。结果如表4所示本发明在鱼类摄食强度分类方面准确率可达到79％，具有良好的分类效果。

表4鱼类摄食强度分类结果

其中，Acc表示Accuracy，p表示Precision，r表示Recall

本发明还提供一种鱼类摄食强度分类系统，包括：

音频数据获取模块，用于获取鱼类当前时刻的音频数据；

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，本发明还提供一种鱼类摄食强度分类系统，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现所述的一种鱼类摄食强度分类方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种鱼类摄食强度分类方法，其特征在于，包括：

获取鱼类当前时刻的音频数据；

对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取；

2.根据权利要求1所述的一种鱼类摄食强度分类方法，其特征在于，所述对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取，具体包括：

对当前时刻的音频数据进行预加重、分帧和加窗处理；

对处理后的音频数据进行傅里叶变化；

对频谱转换后的音频数据取对数；

3.根据权利要求1所述的一种鱼类摄食强度分类方法，其特征在于，所述获取鱼类不同摄食阶段的视频数据和音频数据，具体包括：

利用海康威视视觉相机获取视频数据；

利用全向水听器获取音频数据。

4.根据权利要求3所述的一种鱼类摄食强度分类方法，其特征在于，所述对不同摄食阶段的视频数据和音频数据进行数据对齐处理，确定同步的鱼摄食视频和音频数据，具体包括：

5.根据权利要求1所述的一种鱼类摄食强度分类方法，其特征在于，所述注意力机制包括：通道注意力机制和空间注意力机制。

6.根据权利要求1所述的一种鱼类摄食强度分类方法，其特征在于，所述鱼类摄食强度分类模型的损失函数为：

7.一种鱼类摄食强度分类系统，其特征在于，包括：

音频数据获取模块，用于获取鱼类当前时刻的音频数据；

8.一种鱼类摄食强度分类系统，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-6中任一项所述的一种鱼类摄食强度分类方法。