CN115049952A - 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法 - Google Patents

一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法 Download PDF

Info

Publication number
CN115049952A
CN115049952A CN202210454057.3A CN202210454057A CN115049952A CN 115049952 A CN115049952 A CN 115049952A CN 202210454057 A CN202210454057 A CN 202210454057A CN 115049952 A CN115049952 A CN 115049952A
Authority
CN
China
Prior art keywords
convolution
network
layer
limb
fish
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210454057.3A
Other languages
English (en)
Other versions
CN115049952B (zh
Inventor
汪小旵
武尧
施印炎
张晓蕾
徐乃旻
李为民
王得志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Agricultural University
Original Assignee
Nanjing Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Agricultural University filed Critical Nanjing Agricultural University
Priority to CN202210454057.3A priority Critical patent/CN115049952B/zh
Publication of CN115049952A publication Critical patent/CN115049952A/zh
Priority to US18/125,685 priority patent/US20230343128A1/en
Application granted granted Critical
Publication of CN115049952B publication Critical patent/CN115049952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/80Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
    • Y02A40/81Aquaculture, e.g. of fish

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,采集幼鱼的视频序列后,鱼体分为五个不重叠的部分并分别进行语义标注,作为多尺度级联感知深度学习网络的输入;使用卷积层作为特征提取器,对输入的包含各肢体标注的图像进行特征提取,提取的特征输入到Attention‑RPN结构,判别各像素点的类别,采用多尺度级联方法生成每种肢体类别的肢体掩模。本发明能够较为高效精准地识别幼鱼的肢体,为幼鱼的姿态量化提供了技术支持。

Description

一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
技术领域
本发明属于深度学习技术领域,尤其涉及一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法。
背景技术
水产养殖的一个核心问题是量化养殖环境与鱼类表型的相关性,换句话说,鱼的表型拥有关于生活质量的重要信息。在水产养殖过程中,鱼类对水环境的变化和外部环境的刺激高度敏感;不合适的养殖环境会影响鱼类的正常发育,并伴随着一系列的表型表征。因此,连续检测和量化鱼类表型的方法是评估鱼类生活状态的一个潜在措施。
近年来,虽然有学者研发了一些鱼类表型表征方法,如识别鱼类的轮廓、平面投影等,在一定程度上满足了水产从业者的使用需求。但是这些方法都聚焦于成鱼的表型识别,不能应用到幼鱼的表型识别中;幼鱼的肢体,例如左、右胸鳍,其像素数量较小,传统的识别网络不能较好地对该类像素点进行分类。因此,需要设计一种更高效、更准确、适合幼鱼的新型肢体识别方法。
发明内容
针对现有技术中存在不足,本发明提供了一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,能够有效应用于幼鱼的表型识别中,识别效率高、准确性好。
本发明是通过以下技术手段实现上述技术目的的。
一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,包括如下步骤:
步骤1:采集幼鱼视频序列,获取原始图像,识别并分离原始图像中的每条个体鱼,删除不完整的个体鱼,归一化原始图像大小;
步骤2:将原始图像中的鱼体分为多个不重叠的部分,并分别进行语义标注后作为多尺度级联感知深度学习网络的输入;
步骤3:利用多尺度级联感知深度学习网络对输入图像依次进行图像特征提取、候选区域生成以及鱼肢体掩膜生成处理;
图像特征提取时,通过一个卷积层、一个最大池化层以及四个卷积结构来提取输入图像的特征,输出全局特征图;
候选区域生成处理基于Attention-RPN网络,利用图像特征提取过程所输出的特征图作为Attention-RPN网络的共享特征层并融合成一个1024维的特征图,通过滑动窗口对输入的特征图进行卷积操作,每个滑动窗口将特征图映射到更低的维度进行二分类,确定输入的特征是背景还是鱼体,并对其边框坐标进行回归;以每个像素为中心,生成多个大小和比例不同的锚框和对应的标注,每个锚框使用其中心像素对应的256维特征来表示,在训练的时候采用梯度下降和误差反向传播算法;
进行鱼肢体掩膜生成处理时,用3*3的卷积核处理融合了所有窗口后的输出,与全局特征图融合形成感兴趣区域,将感兴趣区域像素进行上采样以获得更精细的表示,使用多尺度输入来处理不同尺寸的特征,然后确定相应像素点的分类,并对其像素坐标进行回归,来生成鱼肢体掩膜;
步骤4:重新映射步骤3生成的鱼肢体掩膜的目标像素,去除噪音,获取平滑的鱼肢体掩模。
进一步地,所述步骤3中,图像特征提取所使用的卷积层结构布置如下:
第一层为卷积层,用于提取图像特征,卷积核大小为7*7,步长为2,通道数为64;第二层为最大池化层,用于降维,池化层大小为3*3,步长为2;
第三层至第十一层为卷积结构conv2_X,包括卷积核大小为1*1,通道数为64,卷积核大小为3*3,通道数为64,卷积大小为1*1,通道数为256的3组卷积结构;第十二层至第二十三层为卷积结构conv3_X,包括卷积核大小1*1,通道数为128,卷积核大小为3*3,通道数为128,卷积核大小为1*1,通道数为512的4组卷积结构;第二十四层至第九十二层为卷积结构conv4_X,包括卷积核大小为1*1,通道数为256,卷积核大小为3*3,通道数为256,卷积核大小为1*1,通道数为1024的23组卷积结构;第九十三层值第一百零一层为卷积结构conv5_X,包括卷积核大小为1*1,通道数为512,卷积核大小为3*3,通道数为512,卷积核大小为1*1,通道数为2048的3组卷积结构。
进一步地,所述步骤3中,基于Attention-RPN网络的候选区域生成的具体过程如下:
初始化连接权重、阈值、学习速率,设置激活函数,计算隐藏层输出和网络输出,计算网络误差,计算网络误差对输出层连接权重和隐藏层连接权值的偏导;进行网络参数更新;计算网络全局误差,判断网络全局误差是否满足设定的要求值,满足则判定网络收敛,不满足则返回进行下一次迭代;通过步骤2人工标注出的真实值计算IOU,选择正负样本集进行训练,保留IOU>0.7的像素点,丢弃IOU<0.3的像素点;然后通过逐深度的方法计算Attention-RPN网络生成的特征值与标签的相似性,通过相似性用来选择性保留相似度较高的锚框生成候选区域。
进一步地,所述隐藏层的输出Hj的计算公式为:
Figure RE-GDA0003751754970000031
其中ωij为隐藏层连接权值,xi为Attention-RPN网络的第i个输入,i=1,...,n,ai为隐藏层的阈值,Hj为第j个隐藏层的输出,l为隐藏层的总数;
Attention-RPN网络的输出yk的计算公式为:
Figure RE-GDA0003751754970000032
其中,ωjk为输出层连接权重,bk为输出层阈值,k为输出层的序号,m为输出层的总数;
网络误差为:ek=yk-dk,其中,ek为网络误差,dk为第k个期望输出。
进一步地,所述网络参数更新的公式分别为:
Figure RE-GDA0003751754970000033
Figure RE-GDA0003751754970000034
其中,η为动量因子,
Figure RE-GDA0003751754970000035
Figure RE-GDA0003751754970000036
均表示网络误差对权重的偏导,
Figure RE-GDA0003751754970000037
为第n个输出层连接权重,
Figure RE-GDA0003751754970000038
为更新后的第n+1个输出层连接权重,
Figure RE-GDA0003751754970000039
为第n个隐藏层权重,
Figure RE-GDA00037517549700000310
为更新后的第n+1个隐藏层连接权重。
进一步地,所述网络全局误差E的计算公式为:
Figure RE-GDA00037517549700000311
其中, k为输出层的序号,m为输出层的总数,dk为第k个期望输出,yk为Attention-RPN 网络的输出;
损失函数为:
Figure RE-GDA0003751754970000041
其中,Ncls表示类别个数;Lcls表示二分类的对数损失;arc表示每一批次的所有锚框;parc表示的是锚框属于正类锚框的概率,当锚框为正类锚框时,
Figure RE-GDA0003751754970000042
为1,反之为0;Nreg表示锚框的回归个数;λ表示回归函数的惩罚系数,用于网络训练时回归损失与分类损失计算时的权重分配;Lreg表示锚框的回归损失;tarc表示预测框的参数化坐标;
Figure RE-GDA0003751754970000043
表示目标框的参数化坐标;分类和回归层的输出分别为{parc}和 {tarc},通过Ncls、Nreg、λ进行归一化。
进一步地,所述参数化坐标通过下式进行回归微调:
Figure RE-GDA0003751754970000044
Figure RE-GDA0003751754970000045
Figure RE-GDA0003751754970000046
Figure RE-GDA0003751754970000047
其中,x和y表示预测框的中心坐标值;w、h分别表示预测框的宽度、高度; xa和ya表示生成锚框的中心坐标值;wa、ha分别表示生成锚框的宽度、高度;x*和y*表示目标框的中心坐标值;w*、h*分别表示目标框的宽度、高度;
tarc=[tx,ty,tw,th],
Figure RE-GDA0003751754970000048
进一步地,所述相似度定义为:
Figure RE-GDA0003751754970000051
其中,Gh,w,c表示Attention-RPN网络生成的窗口大小为h*w、通道数为c的特征图;Xi,j,c表示通过逐深度方式计算的该窗口下标签图像的特征; Yh+i-1,w+j-1,c表示标签图像的特征图;S表示滑动窗口选取的最大值;j表示隐藏层的序号,i表示Attention-RPN网络的输入。
进一步地,所述步骤3中,鱼肢体掩膜生成的具体过程为:
利用普通卷积进行小尺寸的肢体图像特征提取,利用空洞卷积进行大尺寸的肢体特征提取,空洞卷积为gr=ROI*rcount,其中,*r表示空洞卷积操作,r表示膨胀系数,普通卷积的r=1,空洞卷积的r=n,n>1,count表示空洞卷积执行的次数;将集合X上的迭代函数定义为:设X为集合,fp:X→X为函数,其中,f表示X 的映射操作,其上标表示的是具体的迭代次数,f0=idx,
Figure RE-GDA0003751754970000052
p为非负整数,idx为X上的恒等函数,
Figure RE-GDA0003751754970000053
表示两个函数进行复合操作,复合结果用 f(g(x))来表示,则本实施例中最终多尺度增强输出结果为
Figure RE-GDA0003751754970000054
其中,q表示第q个分支,即空洞卷积的执行次数,
Figure RE-GDA0003751754970000055
表示膨胀系数为2的空洞卷积,gr=1表示膨胀系数为1的普通卷积;将多尺度增强输出结果multi_F输入到全连接层并使用softmax激活函数输出各感兴趣区域像素的分类结果,然后将同一类别的像素点使用同一种颜色绘制肢体掩码。
进一步地,所述步骤4的具体过程为:输入步骤3生成的鱼肢体掩膜分类标签信息,获取每个掩模的边界区域,遍历图像像素点,为每一个像素添加分类标签,计算每一个连通区域的像素数量,保留唯一同类别最大连通区域。
本发明具有如下有益效果:
本发明结合机器视觉和深度学习技术,实现了水产养殖中鱼的肢体表型的自动获取和识别分类,能够通过非接触式的获取方法,减少鱼的应激反应,降低对鱼的物理损伤。本发明通过构建改进的深度神经网络来实现幼鱼肢体的识别,相比传统的生物性状识别方法,具有更高的精度和泛化能力,识别速度和效率更高,能充分满足生产需要。本发明构建的Attention-RPN结构,能实现高效的ROI空间搜索,对小尺度的肢体特征,具有更有效的感知能力,提高小尺度肢体像素的分类准确率。本发明构建的多尺度级联鱼肢体掩膜生成结构,能融合高、低层的图像信息生成一个空间分辨率为两倍的掩膜编码,恢复斑块的全部分辨率,最后的输出一个细粒度的物体掩码。本发明构建的目标像素重映射,能有效的去除含有特征像素的噪声,包括多鱼干扰和光斑干扰,所生成的肢体掩模具有光滑整齐的边缘。
附图说明
图1为本发明所述幼鱼肢体识别方法流程图;
图2为识别和分离原始图像中每条个体鱼示意图;
图3为本发明所述多尺度级联感知深度学习网络架构图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
本发明优选以黄颡鱼为研究对象进行方案说明,本发明所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法如图1所示,具体过程如下:
步骤1:采集黄颡鱼幼鱼的视频序列;
步骤2:如图2所示,识别原始图像中的每条个体鱼,将每条个体鱼从原始图像中分离出来,从分离出的图像中删除不完整的个体鱼,最后归一化图像大小。
步骤3:针对步骤2得到的个体鱼图像,根据鱼体可见部分的形态结构,将鱼体分为五个不重叠的部分:头部、躯干、尾部、左胸鳍和右胸鳍,并分别进行语义标注,标注后的图像经二次审核合格后作为多尺度级联感知深度学习网络的输入。
步骤4:如图3所示,使用多尺度级联感知深度学习网络识别鱼的各部分肢体并生成肢体掩膜,其中,多尺度级联感知深度学习网络对输入图像的处理包括三部分内容,分别为:图像特征提取、候选区域生成、鱼肢体掩膜生成;具体处理过程如下:
步骤4.1:图像特征提取;通过一个卷积层、一个最大池化层以及四个卷积结构来提取输入图像的特征,输出全局特征图,具体布置如下:
第一层为卷积层,用于提取图像特征,卷积核大小为7*7,步长为2,通道数为64;第二层为最大池化层,用于降维,池化层大小为3*3,步长为2;
第三层至第十一层为卷积结构conv2_X,包括卷积核大小为1*1,通道数为64,卷积核大小为3*3,通道数为64,卷积大小为1*1,通道数为256的3组卷积结构;第十二层至第二十三层为卷积结构conv3_X,包括卷积核大小1*1,通道数为128,卷积核大小为3*3,通道数为128,卷积核大小为1*1,通道数为512的4组卷积结构;第二十四层至第九十二层为卷积结构conv4_X,包括卷积核大小为1*1,通道数为256,卷积核大小为3*3,通道数为256,卷积核大小为1*1,通道数为1024的23组卷积结构;第九十三层值第一百零一层为卷积结构conv5_X,包括卷积核大小为1*1,通道数为512,卷积核大小为3*3,通道数为512,卷积核大小为1*1,通道数为2048的3组卷积结构。
步骤4.2:候选区域生成;改进传统的区域选取网络(RPN),加入一个注意力机制(Attention Mechanism),形成Attention-RPN网络,利用Conv4_X输出的特征图作为Attention-RPN结构的共享特征层并融合成一个1024维的特征图,通过滑动窗口对输入的特征图进行卷积操作,每个滑动窗口将特征图映射到更低的维度进行二分类,即确定输入的特征是背景还是鱼体,并对其边框坐标进行回归;以每个像素为中心,生成多个大小和比例不同的锚框和对应的标注,每个锚框使用其中心像素对应的256维特征来表示,在训练的时候采用梯度下降和误差反向传播算法,具体过程如下:
初始化连接权重、阈值、学习速率,设置激活函数为:
Figure RE-GDA0003751754970000071
计算隐藏层的输出
Figure RE-GDA0003751754970000072
j=1,...,l,其中ωij为隐藏层连接权重,xi为Attention-RPN网络的第i个输入,i=1,...,n,ai为隐藏层的阈值,Hj为第j个隐藏层的输出,l为隐藏层的总数;
计算Attention-RPN网络的输出
Figure RE-GDA0003751754970000081
k=1,...,m,其中ωjk为输出层连接权重,bk为输出层阈值,yk为第k个输出层的输出,m为输出层的总数;
计算网络误差ek,ek=yk-dk,其中,dk为第k个期望输出;
计算网络误差对ωjk和ωij的偏导,误差函数是一个开口向上的函数,有极小值,利用误差函数对参数求导数,就是找到误差函数最低时刻的参数,这样参数就可以将输入的数据映射到一个和实际的数的误差最小的数。
进行网络参数更新,更新公式分别为:
Figure RE-GDA0003751754970000082
Figure RE-GDA0003751754970000083
其中,η为动量因子,设定为0.001;
Figure RE-GDA0003751754970000084
Figure RE-GDA0003751754970000085
均表示网络误差对权重的偏导,可通过链式法则进行求解;
Figure RE-GDA0003751754970000086
为第n个输出层连接权重,
Figure RE-GDA0003751754970000087
为更新后的第n+1个输出层连接权重,
Figure RE-GDA0003751754970000088
为第n个隐藏层权重,
Figure RE-GDA0003751754970000089
为更新后的第n+1个隐藏层连接权重;
计算网络全局误差E:
Figure RE-GDA00037517549700000810
判断网络全局误差是否满足设定的要求值,满足则判定网络收敛,不满足则返回进行下一次迭代,其损失函数定义为:
Figure RE-GDA00037517549700000811
其中,Ncls表示类别个数;Lcls表示二分类的对数损失;arc表示每一批次的所有锚框;parc表示的是锚框属于正类锚框的概率,当锚框为正类锚框时,
Figure RE-GDA00037517549700000812
为1,反之为0;Nreg表示锚框的回归个数;λ表示回归函数的惩罚系数,用于网络训练时回归损失与分类损失计算时的权重分配;Lreg表示锚框的回归损失;tarc表示预测框的参数化坐标;
Figure RE-GDA0003751754970000091
表示目标框的参数化坐标;分类和回归层的输出分别为{parc}和 {tarc},通过Ncls、Nreg、λ进行归一化;
获取参数化坐标以后,需要利用下式对预测框进行回归微调,使其更接近真实的坐标框:
Figure RE-GDA0003751754970000092
Figure RE-GDA0003751754970000093
Figure RE-GDA0003751754970000094
Figure RE-GDA0003751754970000095
其中,x和y表示预测框的中心坐标值;w、h分别表示预测框的宽度、高度; xa和ya表示生成锚框的中心坐标值;wa、ha分别表示生成锚框的宽度、高度;x*和y*表示目标框的中心坐标值;w*、h*分别表示目标框的宽度、高度;
tarc=[tx,ty,tw,th]为一组向量,表示预测的坐标框的参数化坐标;
Figure RE-GDA0003751754970000096
是正类对应的真实回归框的参数化坐标。
通过步骤3人工标注出的真实值计算其交并比(IOU),来选择正负样本集进行训练,保留IOU>0.7的像素点,丢弃IOU<0.3的像素点;
然后通过逐深度的方法计算Attention-RPN生成的特征值与标签的相似性,通过相似性用来选择性保留相似度较高的锚框生成候选区域,相似度定义为:
Figure RE-GDA0003751754970000101
其中,Gh,w,c表示Attention-RPN生成h*w窗口大小、通道数为c的特征图; Xi,j,c表示通过逐深度(取平均)方式计算的该窗口下标签图像的特征; Yh+i-1,w+j-1,c表示标签图像的特征图;S表示滑动窗口选取的最大值。
步骤4.3:鱼肢体掩膜生成;
本实施例利用G来表示融合了所有窗口后的输出(即融合了所有Gh,w,c后的输出),用3*3的卷积核处理G,与全局特征图融合形成感兴趣区域(ROI),将感兴趣区域像素进行上采样以获得更精细的表示,使用多尺度输入来处理不同尺寸的特征,然后确定相应像素点的分类,并对其像素坐标进行回归,来生成肢体掩码;
普通卷积负责小尺寸的肢体图像特征提取,空洞卷积负责大尺寸的肢体特征提取,空洞卷积为gr=ROI*rcount,其中,*r表示空洞卷积操作,r表示膨胀系数,普通卷积的r=1,空洞卷积的r=n,n>1,count表示空洞卷积执行的次数;将集合X上的迭代函数定义为:设X为集合,fp:X→X为函数,其中,f表示X的映射操作,其上标表示的是具体的迭代次数,f0=idx,
Figure RE-GDA0003751754970000102
p为非负整数,idx为X上的恒等函数,
Figure RE-GDA0003751754970000103
表示两个函数进行复合操作,复合结果用 f(g(x))来表示,则本实施例中最终多尺度增强输出结果为
Figure RE-GDA0003751754970000104
其中,q表示第q个分支,即空洞卷积的执行次数,
Figure RE-GDA0003751754970000105
表示膨胀系数为2的空洞卷积,gr=1表示膨胀系数为1的普通卷积;将多尺度增强输出结果multi_F输入到全连接层并使用softmax激活函数输出各感兴趣区域像素的分类结果;将同一类别的像素点使用同一种颜色绘制肢体掩码。
步骤5:步骤4中生成的鱼肢体掩膜通常伴随着多鱼的干扰和光学干扰,一些有噪声的连接区域含有目标的像素特征,因此需要重新映射目标像素,以去除噪音,获取平滑的肢体掩模,具体过程为:输入步骤4生成的鱼肢体掩膜分类标签信息,获取每个掩模的边界区域(Bounding boxes),遍历图像像素点,为每一个像素添加分类标签,计算每一个连通区域的像素数量,保留唯一同类别最大连通区域。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims (10)

1.一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,其特征在于,包括如下步骤:
步骤1:采集幼鱼视频序列,获取原始图像,识别并分离原始图像中的每条个体鱼,删除不完整的个体鱼,归一化原始图像大小;
步骤2:将原始图像中的鱼体分为多个不重叠的部分,并分别进行语义标注后作为多尺度级联感知深度学习网络的输入;
步骤3:利用多尺度级联感知深度学习网络对输入图像依次进行图像特征提取、候选区域生成以及鱼肢体掩膜生成处理;
图像特征提取时,通过一个卷积层、一个最大池化层以及四个卷积结构来提取输入图像的特征,输出全局特征图;
候选区域生成处理基于Attention-RPN网络,利用图像特征提取过程中某一卷积结构所输出的特征图作为Attention-RPN网络的共享特征层并融合成一个1024维的特征图,通过滑动窗口对输入的特征图进行卷积操作,每个滑动窗口将特征图映射到更低的维度进行二分类,确定输入的特征是背景还是鱼体,并对其边框坐标进行回归;以每个像素为中心,生成多个大小和比例不同的锚框和对应的标注,每个锚框使用其中心像素对应的256维特征来表示,在训练的时候采用梯度下降和误差反向传播算法;
进行鱼肢体掩膜生成处理时,用3*3的卷积核处理融合了所有窗口后的输出,然后与全局特征图融合形成感兴趣区域,将感兴趣区域像素进行上采样以获得更精细的表示,使用多尺度输入来处理不同尺寸的特征,然后确定相应像素点的分类,并对其像素坐标进行回归,来生成鱼肢体掩膜;
步骤4:重新映射步骤3生成的鱼肢体掩膜的目标像素,去除噪音,获取平滑的鱼肢体掩模。
2.根据权利要求1所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,其特征在于,所述步骤3中,图像特征提取所使用的卷积层结构布置如下:
第一层为卷积层,用于提取图像特征,卷积核大小为7*7,步长为2,通道数为64;第二层为最大池化层,用于降维,池化层大小为3*3,步长为2;
第三层至第十一层为卷积结构conv2_X,包括卷积核大小为1*1,通道数为64,卷积核大小为3*3,通道数为64,卷积大小为1*1,通道数为256的3组卷积结构;第十二层至第二十三层为卷积结构conv3_X,包括卷积核大小1*1,通道数为128,卷积核大小为3*3,通道数为128,卷积核大小为1*1,通道数为512的4组卷积结构;第二十四层至第九十二层为卷积结构conv4_X,包括卷积核大小为1*1,通道数为256,卷积核大小为3*3,通道数为256,卷积核大小为1*1,通道数为1024的23组卷积结构;第九十三层值第一百零一层为卷积结构conv5_X,包括卷积核大小为1*1,通道数为512,卷积核大小为3*3,通道数为512,卷积核大小为1*1,通道数为2048的3组卷积结构。
3.根据权利要求1所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,其特征在于,所述步骤3中,基于Attention-RPN网络的候选区域生成的具体过程如下:
初始化连接权重、阈值、学习速率,设置激活函数,计算隐藏层输出和网络输出,计算网络误差,计算网络误差对输出层连接权重和隐藏层连接权值的偏导;进行网络参数更新;计算网络全局误差,判断网络全局误差是否满足设定的要求值,满足则判定网络收敛,不满足则返回进行下一次迭代;通过步骤2人工标注出的真实值计算IOU,选择正负样本集进行训练,保留IOU>0.7的像素点,丢弃IOU<0.3的像素点;然后通过逐深度的方法计算Attention-RPN网络生成的特征值与标签的相似性,通过相似性用来选择性保留相似度较高的锚框生成候选区域。
4.根据权利要求3所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,其特征在于,所述隐藏层的输出Hj的计算公式为:
Figure FDA0003618105580000021
其中ωij为隐藏层连接权值,xi为Attention-RPN网络的第i个输入,i=1,...,n,ai为隐藏层的阈值,Hj为第j个隐藏层的输出,l为隐藏层的总数;
Attention-RPN网络的输出yk的计算公式为:
Figure FDA0003618105580000022
其中,ωjk为输出层连接权重,bk为输出层阈值,k为输出层的序号,m为输出层的总数;
网络误差为:ek=yk-dk,其中,ek为网络误差,dk为第k个期望输出。
5.根据权利要求3所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,其特征在于,所述网络参数更新的公式分别为:
Figure FDA0003618105580000031
Figure FDA0003618105580000032
其中,η为动量因子,
Figure FDA0003618105580000033
Figure FDA0003618105580000034
均表示网络误差对权重的偏导,
Figure FDA0003618105580000035
为第n个输出层连接权重,
Figure FDA0003618105580000036
为更新后的第n+1个输出层连接权重,
Figure FDA0003618105580000037
为第n个隐藏层权重,
Figure FDA0003618105580000038
为更新后的第n+1个隐藏层连接权重。
6.根据权利要求3所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,其特征在于,所述网络全局误差E的计算公式为:
Figure FDA0003618105580000039
其中,k为输出层的序号,m为输出层的总数,dk为第k个期望输出,yk为Attention-RPN网络的输出;
损失函数为:
Figure FDA00036181055800000310
其中,Ncls表示类别个数;Lcls表示二分类的对数损失;arc表示每一批次的所有锚框;parc表示的是锚框属于正类锚框的概率,当锚框为正类锚框时,
Figure FDA00036181055800000311
为1,反之为0;Nreg表示锚框的回归个数;λ表示回归函数的惩罚系数,用于网络训练时回归损失与分类损失计算时的权重分配;Lreg表示锚框的回归损失;tarc表示预测框的参数化坐标;
Figure FDA00036181055800000312
表示目标框的参数化坐标;分类和回归层的输出分别为{parc}和{tarc},通过Ncls、Nreg、λ进行归一化。
7.根据权利要求6所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,其特征在于,所述参数化坐标通过下式进行回归微调:
tx=(x-xa)/wa,
Figure FDA0003618105580000041
ty=(y-ya)/ha,
Figure FDA0003618105580000042
tw=log(w/wa),
Figure FDA0003618105580000043
th=log(h/ha),
Figure FDA0003618105580000044
其中,x和y表示预测框的中心坐标值;w、h分别表示预测框的宽度、高度;xa和ya表示生成锚框的中心坐标值;wa、ha分别表示生成锚框的宽度、高度;x*和y*表示目标框的中心坐标值;w*、h*分别表示目标框的宽度、高度;
tarc=[tx,ty,tw,th],
Figure FDA0003618105580000045
8.根据权利要求3所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,其特征在于,所述相似度定义为:
Figure FDA0003618105580000046
其中,Gh,w,c表示Attention-RPN网络生成的窗口大小为h*w、通道数为c的特征图;Xi,j,c表示通过逐深度方式计算的该窗口下标签图像的特征;Yh+i-1,w+j-1,c表示标签图像的特征图;S表示滑动窗口选取的最大值;j表示隐藏层的序号,i表示Attention-RPN网络的输入。
9.根据权利要求1所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,其特征在于,所述步骤3中,鱼肢体掩膜生成的具体过程为:
利用普通卷积进行小尺寸的肢体图像特征提取,利用空洞卷积进行大尺寸的肢体特征提取,空洞卷积为gr=ROI*rcount,其中,*r表示空洞卷积操作,r表示膨胀系数,普通卷积的r=1,空洞卷积的r=n,n>1,count表示空洞卷积执行的次数;将集合X上的迭代函数定义为:设X为集合,fp:X→X为函数,其中,f表示X的映射操作,其上标表示的是具体的迭代次数,f0=idx,
Figure FDA0003618105580000051
p为非负整数,idx为X上的恒等函数,
Figure FDA0003618105580000052
表示两个函数进行复合操作,复合结果用f(g(x))来表示,则本实施例中最终多尺度增强输出结果为
Figure FDA0003618105580000053
其中,q表示第q个分支,即空洞卷积的执行次数,
Figure FDA0003618105580000054
表示膨胀系数为2的空洞卷积,gr=1表示膨胀系数为1的普通卷积;将多尺度增强输出结果multi_F输入到全连接层并使用softmax激活函数输出各感兴趣区域像素的分类结果,然后将同一类别的像素点使用同一种颜色绘制肢体掩码。
10.根据权利要求1所述的基于多尺度级联感知深度学习网络的幼鱼肢体识别方法,其特征在于,所述步骤4的具体过程为:输入步骤3生成的鱼肢体掩膜分类标签信息,获取每个掩模的边界区域,遍历图像像素点,为每一个像素添加分类标签,计算每一个连通区域的像素数量,保留唯一同类别最大连通区域。
CN202210454057.3A 2022-04-24 2022-04-24 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法 Active CN115049952B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210454057.3A CN115049952B (zh) 2022-04-24 2022-04-24 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
US18/125,685 US20230343128A1 (en) 2022-04-24 2023-03-23 Juvenile fish limb identification method based on multi-scale cascaded perceptual convolutional neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210454057.3A CN115049952B (zh) 2022-04-24 2022-04-24 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法

Publications (2)

Publication Number Publication Date
CN115049952A true CN115049952A (zh) 2022-09-13
CN115049952B CN115049952B (zh) 2023-04-07

Family

ID=83156922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210454057.3A Active CN115049952B (zh) 2022-04-24 2022-04-24 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法

Country Status (2)

Country Link
US (1) US20230343128A1 (zh)
CN (1) CN115049952B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117289218B (zh) * 2023-11-24 2024-02-06 西安电子科技大学 一种基于注意力级联网络的有源干扰识别方法
CN117671357B (zh) * 2023-12-01 2024-07-05 广东技术师范大学 基于金字塔算法的前列腺癌超声视频分类方法及系统
CN117542049B (zh) * 2024-01-09 2024-03-26 吉林建筑大学 基于深度学习的图像识别方法及系统
CN117975572B (zh) * 2024-03-29 2024-06-04 山东省淡水渔业研究院(山东省淡水渔业监测中心) 一种基于机器视觉的鱼类行为检测方法
CN118247680B (zh) * 2024-04-15 2024-09-06 南京师范大学 基于多时相异源遥感影像与伪孪生网络的海工平台目标检测方法
CN118397605A (zh) * 2024-07-01 2024-07-26 广东工业大学 一种基于深度感知的新能源汽车目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
KR20190119261A (ko) * 2018-04-12 2019-10-22 가천대학교 산학협력단 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법
CN111046967A (zh) * 2019-12-18 2020-04-21 江苏科技大学 一种基于卷积神经网络和注意力机制的水下图像分类方法
CN111553382A (zh) * 2020-03-23 2020-08-18 朱汉春 一种基于knn的鳙鱼分类方法
CN113420759A (zh) * 2021-06-11 2021-09-21 中国船舶重工集团公司七五0试验场 一种基于深度学习的抗遮挡与多尺度死鱼识别系统与方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
KR20190119261A (ko) * 2018-04-12 2019-10-22 가천대학교 산학협력단 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법
CN111046967A (zh) * 2019-12-18 2020-04-21 江苏科技大学 一种基于卷积神经网络和注意力机制的水下图像分类方法
CN111553382A (zh) * 2020-03-23 2020-08-18 朱汉春 一种基于knn的鳙鱼分类方法
CN113420759A (zh) * 2021-06-11 2021-09-21 中国船舶重工集团公司七五0试验场 一种基于深度学习的抗遮挡与多尺度死鱼识别系统与方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONG AN ET.AL: "A survey of fish behaviour quantification indexes and methods in aquaculture", 《REVIEWS IN AQUACULTURE》 *
尚尚: "基于深度学习的斑马鱼卵和幼鱼显微影像分析算法研究", 《中国博士学位论文全文数据库基础科学辑》 *

Also Published As

Publication number Publication date
CN115049952B (zh) 2023-04-07
US20230343128A1 (en) 2023-10-26

Similar Documents

Publication Publication Date Title
CN115049952B (zh) 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
CN107016681B (zh) 基于全卷积网络的脑部mri肿瘤分割方法
CN108648191B (zh) 基于贝叶斯宽度残差神经网络的害虫图像识别方法
CN106203523B (zh) 基于梯度提升决策树半监督算法融合的高光谱图像分类方法
CN110321830B (zh) 一种基于神经网络的中文字符串图片ocr识别方法
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN111680706A (zh) 一种基于编码和解码结构的双通道输出轮廓检测方法
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
CN109029363A (zh) 一种基于深度学习的目标测距方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
CN108629370B (zh) 一种基于深度置信网络的分类识别算法及装置
CN112633386A (zh) 基于sacvaegan的高光谱图像分类方法
CN110716792B (zh) 一种目标检测器及其构建方法和应用
CN112364747B (zh) 一种有限样本下的目标检测方法
CN117541844B (zh) 一种基于超图学习的弱监督组织病理学全切片图像分析方法
CN109872331A (zh) 一种基于深度学习的遥感图像数据自动识别分类方法
CN110414541A (zh) 用于识别物体的方法、设备和计算机可读存储介质
CN110543906A (zh) 基于数据增强和Mask R-CNN模型的肤质自动识别方法
CN112926652A (zh) 一种基于深度学习的鱼类细粒度图像识别方法
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN114240822A (zh) 基于YOLOv3及多尺度特征融合的棉布瑕疵检测方法
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN114821299A (zh) 一种遥感图像变化检测方法
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant