CN115049952B

CN115049952B - 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法

Info

Publication number: CN115049952B
Application number: CN202210454057.3A
Authority: CN
Inventors: 汪小旵; 武尧; 施印炎; 张晓蕾; 徐乃旻; 李为民; 王得志
Original assignee: Nanjing Agricultural University
Current assignee: Nanjing Agricultural University
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2023-04-07
Anticipated expiration: 2042-04-24
Also published as: US20230343128A1; CN115049952A

Abstract

本发明提供了一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，采集幼鱼的视频序列后，鱼体分为五个不重叠的部分并分别进行语义标注，作为多尺度级联感知深度学习网络的输入；使用卷积层作为特征提取器，对输入的包含各肢体标注的图像进行特征提取，提取的特征输入到Attention‑RPN结构，判别各像素点的类别，采用多尺度级联方法生成每种肢体类别的肢体掩模。本发明能够较为高效精准地识别幼鱼的肢体，为幼鱼的姿态量化提供了技术支持。

Description

一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法

技术领域

本发明属于深度学习技术领域，尤其涉及一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法。

背景技术

水产养殖的一个核心问题是量化养殖环境与鱼类表型的相关性，换句话说，鱼的表型拥有关于生活质量的重要信息。在水产养殖过程中，鱼类对水环境的变化和外部环境的刺激高度敏感；不合适的养殖环境会影响鱼类的正常发育，并伴随着一系列的表型表征。因此，连续检测和量化鱼类表型的方法是评估鱼类生活状态的一个潜在措施。

近年来，虽然有学者研发了一些鱼类表型表征方法，如识别鱼类的轮廓、平面投影等，在一定程度上满足了水产从业者的使用需求。但是这些方法都聚焦于成鱼的表型识别，不能应用到幼鱼的表型识别中；幼鱼的肢体，例如左、右胸鳍，其像素数量较小，传统的识别网络不能较好地对该类像素点进行分类。因此，需要设计一种更高效、更准确、适合幼鱼的新型肢体识别方法。

发明内容

针对现有技术中存在不足，本发明提供了一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，能够有效应用于幼鱼的表型识别中，识别效率高、准确性好。

本发明是通过以下技术手段实现上述技术目的的。

一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，包括如下步骤：

步骤1：采集幼鱼视频序列，获取原始图像，识别并分离原始图像中的每条个体鱼，删除不完整的个体鱼，归一化原始图像大小；

步骤2：将原始图像中的鱼体分为多个不重叠的部分，并分别进行语义标注后作为多尺度级联感知深度学习网络的输入；

步骤3：利用多尺度级联感知深度学习网络对输入图像依次进行图像特征提取、候选区域生成以及鱼肢体掩膜生成处理；

图像特征提取时，通过一个卷积层、一个最大池化层以及四个卷积结构来提取输入图像的特征，输出全局特征图；

候选区域生成处理基于Attention-RPN网络，利用图像特征提取过程所输出的特征图作为Attention-RPN网络的共享特征层并融合成一个1024维的特征图，通过滑动窗口对输入的特征图进行卷积操作，每个滑动窗口将特征图映射到更低的维度进行二分类，确定输入的特征是背景还是鱼体，并对其边框坐标进行回归；以每个像素为中心，生成多个大小和比例不同的锚框和对应的标注，每个锚框使用其中心像素对应的256维特征来表示，在训练的时候采用梯度下降和误差反向传播算法；

进行鱼肢体掩膜生成处理时，用3*3的卷积核处理融合了所有窗口后的输出，与全局特征图融合形成感兴趣区域，将感兴趣区域像素进行上采样以获得更精细的表示，使用多尺度输入来处理不同尺寸的特征，然后确定相应像素点的分类，并对其像素坐标进行回归，来生成鱼肢体掩膜；

步骤4：重新映射步骤3生成的鱼肢体掩膜的目标像素，去除噪音，获取平滑的鱼肢体掩模。

进一步地，所述步骤3中，图像特征提取所使用的卷积层结构布置如下：

第一层为卷积层，用于提取图像特征，卷积核大小为7*7，步长为2，通道数为64；第二层为最大池化层，用于降维，池化层大小为3*3，步长为2；

第三层至第十一层为卷积结构conv2_X，包括卷积核大小为1*1，通道数为64，卷积核大小为3*3，通道数为64，卷积大小为1*1，通道数为256的3组卷积结构；第十二层至第二十三层为卷积结构conv3_X，包括卷积核大小1*1，通道数为128，卷积核大小为3*3，通道数为128，卷积核大小为1*1，通道数为512的4组卷积结构；第二十四层至第九十二层为卷积结构conv4_X，包括卷积核大小为1*1，通道数为256，卷积核大小为3*3，通道数为256，卷积核大小为1*1，通道数为1024的23组卷积结构；第九十三层值第一百零一层为卷积结构conv5_X，包括卷积核大小为1*1，通道数为512，卷积核大小为3*3，通道数为512，卷积核大小为1*1，通道数为2048的3组卷积结构。

进一步地，所述步骤3中，基于Attention-RPN网络的候选区域生成的具体过程如下：

初始化连接权重、阈值、学习速率，设置激活函数，计算隐藏层输出和网络输出，计算网络误差，计算网络误差对输出层连接权重和隐藏层连接权值的偏导；进行网络参数更新；计算网络全局误差，判断网络全局误差是否满足设定的要求值，满足则判定网络收敛，不满足则返回进行下一次迭代；通过步骤2人工标注出的真实值计算IOU，选择正负样本集进行训练，保留IOU>0.7的像素点，丢弃IOU<0.3的像素点；然后通过逐深度的方法计算Attention-RPN网络生成的特征值与标签的相似性，通过相似性用来选择性保留相似度较高的锚框生成候选区域。

进一步地，所述隐藏层的输出H_j的计算公式为：

其中ω_ij为隐藏层连接权值，x_i为Attention-RPN网络的第i个输入，i＝1,...,n，a_i为隐藏层的阈值，H_j为第j个隐藏层的输出，l为隐藏层的总数；

Attention-RPN网络的输出y_k的计算公式为：

其中，ω_jk为输出层连接权重，b_k为输出层阈值，k为输出层的序号，m为输出层的总数；

网络误差为：e_k＝y_k-d_k，其中，e_k为网络误差，d_k为第k个期望输出。

进一步地，所述网络参数更新的公式分别为：和其中，η为动量因子，和均表示网络误差对权重的偏导，为第n个输出层连接权重，为更新后的第n+1个输出层连接权重，为第n个隐藏层权重，为更新后的第n+1个隐藏层连接权重。

进一步地，所述网络全局误差E的计算公式为：其中， k为输出层的序号，m为输出层的总数，d_k为第k个期望输出，y_k为Attention-RPN 网络的输出；

损失函数为：

其中，N_cls表示类别个数；L_cls表示二分类的对数损失；arc表示每一批次的所有锚框；p_arc表示的是锚框属于正类锚框的概率，当锚框为正类锚框时，为1，反之为0；N_reg表示锚框的回归个数；λ表示回归函数的惩罚系数，用于网络训练时回归损失与分类损失计算时的权重分配；L_reg表示锚框的回归损失；t_arc表示预测框的参数化坐标；表示目标框的参数化坐标；分类和回归层的输出分别为{p_arc}和 {t_arc}，通过N_cls、N_reg、λ进行归一化。

进一步地，所述参数化坐标通过下式进行回归微调：

其中，x和y表示预测框的中心坐标值；w、h分别表示预测框的宽度、高度； x_a和y_a表示生成锚框的中心坐标值；w_a、h_a分别表示生成锚框的宽度、高度；x^*和y^*表示目标框的中心坐标值；w^*、h^*分别表示目标框的宽度、高度；

t_arc＝[t_x,t_y,t_w,t_h]，

进一步地，所述相似度定义为：

其中，G_h,w,c表示Attention-RPN网络生成的窗口大小为h*w、通道数为c的特征图；X_i,j,c表示通过逐深度方式计算的该窗口下标签图像的特征； Y_{h+i-1,w+j-1,c}表示标签图像的特征图；S表示滑动窗口选取的最大值；j表示隐藏层的序号，i表示Attention-RPN网络的输入。

进一步地，所述步骤3中，鱼肢体掩膜生成的具体过程为：

利用普通卷积进行小尺寸的肢体图像特征提取，利用空洞卷积进行大尺寸的肢体特征提取，空洞卷积为g_r＝ROI*_rcount，其中，*_r表示空洞卷积操作，r表示膨胀系数，普通卷积的r＝1，空洞卷积的r＝n,n＞1，count表示空洞卷积执行的次数；将集合X上的迭代函数定义为：设X为集合，f^p:X→X为函数，其中，f表示X 的映射操作，其上标表示的是具体的迭代次数，f⁰＝idx，p为非负整数，idx为X上的恒等函数，表示两个函数进行复合操作，复合结果用 f(g(x))来表示，则本实施例中最终多尺度增强输出结果为其中，q表示第q个分支，即空洞卷积的执行次数，表示膨胀系数为2的空洞卷积，g_r＝1表示膨胀系数为1的普通卷积；将多尺度增强输出结果multi_F输入到全连接层并使用softmax激活函数输出各感兴趣区域像素的分类结果，然后将同一类别的像素点使用同一种颜色绘制肢体掩码。

进一步地，所述步骤4的具体过程为：输入步骤3生成的鱼肢体掩膜分类标签信息，获取每个掩模的边界区域，遍历图像像素点，为每一个像素添加分类标签，计算每一个连通区域的像素数量，保留唯一同类别最大连通区域。

本发明具有如下有益效果：

本发明结合机器视觉和深度学习技术，实现了水产养殖中鱼的肢体表型的自动获取和识别分类，能够通过非接触式的获取方法，减少鱼的应激反应，降低对鱼的物理损伤。本发明通过构建改进的深度神经网络来实现幼鱼肢体的识别，相比传统的生物性状识别方法，具有更高的精度和泛化能力，识别速度和效率更高，能充分满足生产需要。本发明构建的Attention-RPN结构，能实现高效的ROI空间搜索，对小尺度的肢体特征，具有更有效的感知能力，提高小尺度肢体像素的分类准确率。本发明构建的多尺度级联鱼肢体掩膜生成结构，能融合高、低层的图像信息生成一个空间分辨率为两倍的掩膜编码，恢复斑块的全部分辨率，最后的输出一个细粒度的物体掩码。本发明构建的目标像素重映射，能有效的去除含有特征像素的噪声，包括多鱼干扰和光斑干扰，所生成的肢体掩模具有光滑整齐的边缘。

附图说明

图1为本发明所述幼鱼肢体识别方法流程图；

图2为识别和分离原始图像中每条个体鱼示意图；

图3为本发明所述多尺度级联感知深度学习网络架构图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

本发明优选以黄颡鱼为研究对象进行方案说明，本发明所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法如图1所示，具体过程如下：

步骤1：采集黄颡鱼幼鱼的视频序列；

步骤2：如图2所示，识别原始图像中的每条个体鱼，将每条个体鱼从原始图像中分离出来，从分离出的图像中删除不完整的个体鱼，最后归一化图像大小。

步骤3：针对步骤2得到的个体鱼图像，根据鱼体可见部分的形态结构，将鱼体分为五个不重叠的部分：头部、躯干、尾部、左胸鳍和右胸鳍，并分别进行语义标注，标注后的图像经二次审核合格后作为多尺度级联感知深度学习网络的输入。

步骤4：如图3所示，使用多尺度级联感知深度学习网络识别鱼的各部分肢体并生成肢体掩膜，其中，多尺度级联感知深度学习网络对输入图像的处理包括三部分内容，分别为：图像特征提取、候选区域生成、鱼肢体掩膜生成；具体处理过程如下：

步骤4.1：图像特征提取；通过一个卷积层、一个最大池化层以及四个卷积结构来提取输入图像的特征，输出全局特征图，具体布置如下：

步骤4.2：候选区域生成；改进传统的区域选取网络(RPN)，加入一个注意力机制(Attention Mechanism)，形成Attention-RPN网络，利用Conv4_X输出的特征图作为Attention-RPN结构的共享特征层并融合成一个1024维的特征图，通过滑动窗口对输入的特征图进行卷积操作，每个滑动窗口将特征图映射到更低的维度进行二分类，即确定输入的特征是背景还是鱼体，并对其边框坐标进行回归；以每个像素为中心，生成多个大小和比例不同的锚框和对应的标注，每个锚框使用其中心像素对应的256维特征来表示，在训练的时候采用梯度下降和误差反向传播算法，具体过程如下：

初始化连接权重、阈值、学习速率，设置激活函数为：

计算隐藏层的输出j＝1,...,l，其中ω_ij为隐藏层连接权重，x_i为Attention-RPN网络的第i个输入，i＝1,...,n，a_i为隐藏层的阈值，H_j为第j个隐藏层的输出，l为隐藏层的总数；

计算Attention-RPN网络的输出k＝1,...,m，其中ω_jk为输出层连接权重，b_k为输出层阈值，y_k为第k个输出层的输出，m为输出层的总数；

计算网络误差e_k，e_k＝y_k-d_k，其中，d_k为第k个期望输出；

计算网络误差对ω_jk和ω_ij的偏导，误差函数是一个开口向上的函数，有极小值，利用误差函数对参数求导数，就是找到误差函数最低时刻的参数，这样参数就可以将输入的数据映射到一个和实际的数的误差最小的数。

进行网络参数更新，更新公式分别为：其中，η为动量因子，设定为0.001；和均表示网络误差对权重的偏导，可通过链式法则进行求解；为第n个输出层连接权重，为更新后的第n+1个输出层连接权重，为第n个隐藏层权重，为更新后的第n+1个隐藏层连接权重；

计算网络全局误差E：判断网络全局误差是否满足设定的要求值，满足则判定网络收敛，不满足则返回进行下一次迭代，其损失函数定义为：

其中，N_cls表示类别个数；L_cls表示二分类的对数损失；arc表示每一批次的所有锚框；p_arc表示的是锚框属于正类锚框的概率，当锚框为正类锚框时，为1，反之为0；N_reg表示锚框的回归个数；λ表示回归函数的惩罚系数，用于网络训练时回归损失与分类损失计算时的权重分配；L_reg表示锚框的回归损失；t_arc表示预测框的参数化坐标；表示目标框的参数化坐标；分类和回归层的输出分别为{p_arc}和 {t_arc}，通过N_cls、N_reg、λ进行归一化；

获取参数化坐标以后，需要利用下式对预测框进行回归微调，使其更接近真实的坐标框：

t_arc＝[t_x,t_y,t_w,t_h]为一组向量，表示预测的坐标框的参数化坐标；

是正类对应的真实回归框的参数化坐标。

通过步骤3人工标注出的真实值计算其交并比(IOU)，来选择正负样本集进行训练，保留IOU>0.7的像素点，丢弃IOU<0.3的像素点；

然后通过逐深度的方法计算Attention-RPN生成的特征值与标签的相似性，通过相似性用来选择性保留相似度较高的锚框生成候选区域，相似度定义为：

其中，G_h,w,c表示Attention-RPN生成h*w窗口大小、通道数为c的特征图； X_i,j,c表示通过逐深度(取平均)方式计算的该窗口下标签图像的特征； Y_{h+i-1,w+j-1,c}表示标签图像的特征图；S表示滑动窗口选取的最大值。

步骤4.3：鱼肢体掩膜生成；

本实施例利用G来表示融合了所有窗口后的输出(即融合了所有G_h,w,c后的输出)，用3*3的卷积核处理G，与全局特征图融合形成感兴趣区域(ROI)，将感兴趣区域像素进行上采样以获得更精细的表示，使用多尺度输入来处理不同尺寸的特征，然后确定相应像素点的分类，并对其像素坐标进行回归，来生成肢体掩码；

普通卷积负责小尺寸的肢体图像特征提取，空洞卷积负责大尺寸的肢体特征提取，空洞卷积为g_r＝ROI*_rcount，其中，*_r表示空洞卷积操作，r表示膨胀系数，普通卷积的r＝1，空洞卷积的r＝n,n＞1，count表示空洞卷积执行的次数；将集合X上的迭代函数定义为：设X为集合，f^p:X→X为函数，其中，f表示X的映射操作，其上标表示的是具体的迭代次数，f⁰＝idx，p为非负整数，idx为X上的恒等函数，表示两个函数进行复合操作，复合结果用 f(g(x))来表示，则本实施例中最终多尺度增强输出结果为其中，q表示第q个分支，即空洞卷积的执行次数，表示膨胀系数为2的空洞卷积，g_r＝1表示膨胀系数为1的普通卷积；将多尺度增强输出结果multi_F输入到全连接层并使用softmax激活函数输出各感兴趣区域像素的分类结果；将同一类别的像素点使用同一种颜色绘制肢体掩码。

步骤5：步骤4中生成的鱼肢体掩膜通常伴随着多鱼的干扰和光学干扰，一些有噪声的连接区域含有目标的像素特征，因此需要重新映射目标像素，以去除噪音，获取平滑的肢体掩模，具体过程为：输入步骤4生成的鱼肢体掩膜分类标签信息，获取每个掩模的边界区域(Bounding boxes)，遍历图像像素点，为每一个像素添加分类标签，计算每一个连通区域的像素数量，保留唯一同类别最大连通区域。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，其特征在于，包括如下步骤：

候选区域生成处理基于Attention-RPN网络，利用图像特征提取过程中某一卷积结构所输出的特征图作为Attention-RPN网络的共享特征层并融合成一个1024维的特征图，通过滑动窗口对输入的特征图进行卷积操作，每个滑动窗口将特征图映射到更低的维度进行二分类，确定输入的特征是背景还是鱼体，并对其边框坐标进行回归；以每个像素为中心，生成多个大小和比例不同的锚框和对应的标注，每个锚框使用其中心像素对应的256维特征来表示，在训练的时候采用梯度下降和误差反向传播算法；

进行鱼肢体掩膜生成处理时，用3*3的卷积核处理融合了所有窗口后的输出，然后与全局特征图融合形成感兴趣区域，将感兴趣区域像素进行上采样以获得更精细的表示，使用多尺度输入来处理不同尺寸的特征，然后确定相应像素点的分类，并对其像素坐标进行回归，来生成鱼肢体掩膜；

2.根据权利要求1所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，其特征在于，所述步骤3中，图像特征提取所使用的卷积层结构布置如下：

3.根据权利要求1所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，其特征在于，所述步骤3中，基于Attention-RPN网络的候选区域生成的具体过程如下：

4.根据权利要求3所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，其特征在于，所述隐藏层的输出H_j的计算公式为：

Attention-RPN网络的输出y_k的计算公式为：

5.根据权利要求3所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，其特征在于，所述网络参数更新的公式分别为：

和

其中，η为动量因子，

和

均表示网络误差对权重的偏导，

为第n个输出层连接权重，

为更新后的第n+1个输出层连接权重，

为第n个隐藏层权重，

为更新后的第n+1个隐藏层连接权重。

6.根据权利要求3所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，其特征在于，所述网络全局误差E的计算公式为：

其中，k为输出层的序号，m为输出层的总数，d_k为第k个期望输出，y_k为Attention-RPN网络的输出；

损失函数为：

其中，N_cls表示类别个数；L_cls表示二分类的对数损失；arc表示每一批次的所有锚框；p_arc表示的是锚框属于正类锚框的概率，当锚框为正类锚框时，

为1，反之为0；N_reg表示锚框的回归个数；λ表示回归函数的惩罚系数，用于网络训练时回归损失与分类损失计算时的权重分配；L_reg表示锚框的回归损失；t_arc表示预测框的参数化坐标；

表示目标框的参数化坐标；分类和回归层的输出分别为{p_arc}和{t_arc}，通过N_cls、N_reg、λ进行归一化。

7.根据权利要求6所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，其特征在于，所述参数化坐标通过下式进行回归微调：

t_x＝(x-x_a)/w_a,

t_y＝(y-y_a)/h_a,

t_w＝log(w/w_a),

t_h＝log(h/h_a),

其中，x和y表示预测框的中心坐标值；w、h分别表示预测框的宽度、高度；x_a和y_a表示生成锚框的中心坐标值；w_a、h_a分别表示生成锚框的宽度、高度；x^*和y^*表示目标框的中心坐标值；w^*、h^*分别表示目标框的宽度、高度；

t_arc＝[t_x,t_y,t_w,t_h]，

8.根据权利要求3所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，其特征在于，所述相似度定义为：

其中，G_h,w,c表示Attention-RPN网络生成的窗口大小为h*w、通道数为c的特征图；X_i,j,c表示通过逐深度方式计算的该窗口下标签图像的特征；Y_{h+i-1,w+j-1,c}表示标签图像的特征图；S表示滑动窗口选取的最大值；j表示隐藏层的序号，i表示Attention-RPN网络的输入。

9.根据权利要求1所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，其特征在于，所述步骤3中，鱼肢体掩膜生成的具体过程为：

利用普通卷积进行小尺寸的肢体图像特征提取，利用空洞卷积进行大尺寸的肢体特征提取，空洞卷积为g_r＝ROI*_rcount，其中，*_r表示空洞卷积操作，r表示膨胀系数，普通卷积的r＝1，空洞卷积的r＝n,n＞1，count表示空洞卷积执行的次数；将集合X上的迭代函数定义为：设X为集合，f^p:X→X为函数，其中，f表示X的映射操作，其上标表示的是具体的迭代次数，f⁰＝idx，

p为非负整数，idx为X上的恒等函数，

表示两个函数进行复合操作，复合结果用f(g(x))来表示，则最终多尺度增强输出结果为

其中，q表示第q个分支，即空洞卷积的执行次数，

表示膨胀系数为2的空洞卷积，g_r＝1表示膨胀系数为1的普通卷积；将多尺度增强输出结果multi_F输入到全连接层并使用softmax激活函数输出各感兴趣区域像素的分类结果，然后将同一类别的像素点使用同一种颜色绘制肢体掩码。

10.根据权利要求1所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法，其特征在于，所述步骤4的具体过程为：输入步骤3生成的鱼肢体掩膜分类标签信息，获取每个掩模的边界区域，遍历图像像素点，为每一个像素添加分类标签，计算每一个连通区域的像素数量，保留唯一同类别最大连通区域。