CN116051970A - 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法 - Google Patents

一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法 Download PDF

Info

Publication number
CN116051970A
CN116051970A CN202310081246.5A CN202310081246A CN116051970A CN 116051970 A CN116051970 A CN 116051970A CN 202310081246 A CN202310081246 A CN 202310081246A CN 116051970 A CN116051970 A CN 116051970A
Authority
CN
China
Prior art keywords
overlapping
frame
yolov5 model
value
improved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310081246.5A
Other languages
English (en)
Inventor
黄慧
郭明皓
曲景邦
李龙宇
蒋吉庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310081246.5A priority Critical patent/CN116051970A/zh
Publication of CN116051970A publication Critical patent/CN116051970A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/80Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
    • Y02A40/81Aquaculture, e.g. of fish

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,对yolov5进行改进,在用于金字塔结构的三层之前各引入一层自注意力层CBAM,将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FReLU,并使用卡尔曼方法建立连续帧之间的状态变化关系,并根据时间序列产生的参数变量分布辅助预测,通过对下一帧的预测信息,帮助判断鱼类的重叠情况,进而实现针对重叠目标的实时辨识。本发明应用运动的差分模型与时序处理方法,增强了算法的可解释性,同时针对水下场景对处理步骤进行了微调,对水下重叠目标具有很好的检测效果。

Description

一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法
技术领域
本发明涉及人工智能图像识别领域,具体涉及一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法。
背景技术
我国许多城市都有水族馆,水下动物种类繁多,引入一套摄像设备,对视野内的鱼类进行实时且有效的识别与标注可以降低游客学习的门槛,提升参观体验。当前人工智能在目标检测领域的应用十分广泛,其中yolo系列算法是公认的较好的算法。yolov5由backbone和head两个部分组成,实现了端到端的检测。然而,直接使用目标识别技术虽然可以在实现对水族馆鱼类的框选和标注,但也同时面临水下目标识别困难以及鱼类重叠现象的挑战。
由于水下环境的复杂性以及鱼类的多样性,现存的卷积神经网络识别结果的准确度与实时性均不够理想。YOLO模型能够提取和训练数据集的特征,并对样本进行学习和预测。然而,由于鱼类的游动以及其本身生活习性,常常发生多个鱼类的重叠,对识别效果造成影响。
现有的目标检测算法主要包括传统目标检测算法和基于深度学习的目标检测算法,基于深度学习的目标检测算法又可以分为anchor based方法和anchor free方法。传统目标检测算法主要基于手工提取特征,存在特征提取困难、缺乏通用性、耗时长等缺点。基于深度学习的目标检测算法精确性高,鲁棒性强。其中anchor-based方法包括一阶段和二阶段检测算法,二阶段目标检测算法精度要高,一阶段检测算法速度更快。现阶段anchor-free方法存在正负样本极端不平衡、语义模糊性(两个目标中心点重叠)、检测结果不稳定等缺点。如通过图像增强与改进Faster-RCNN网络的重叠鱼群尾数检测基于Faster-RCNN进行改进,但因水下图像容易出现颜色偏移和亮度较低的等问题,检测成功率不高。
发明内容
为了解决现有技术在水族馆管理以及教学过程中不能对鱼类状态以及类别进行高效率分辨监控问题,本发明提供一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,具体技术方案如下:
一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,该方法包括如下步骤:
步骤一:使用带有深度传感器的摄像机采集水下视频的RGBD信息,从视频中抽取图像,完成对检测目标的图像信息采集;
步骤二:利用Sea-Thru算法重建水下场景,对水下图像进行修复,具体包括:利用已知的距离,以暗通道先验的方式估计后向散射;然后利用局部空间平均颜色,估计距离相关衰减系数;
步骤三:构建并训练改进的yolov5模型,所述改进的yolov5模型为在用于金字塔结构的三层之前各引入一层自注意力层CBAM,并将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FreLU;所述改进的yolov5模型的输入为修复后的水下图像,输出为检测框的信息;
步骤四:对视频流按照一定的帧采样速率进行采样,得到单帧图像,并按照步骤二进行修复后,输入训练后的改进的yolov5模型,模型输出检测框的信息,并对检测框的信息求差分,得到每个目标的状态向量
Figure BDA0004067465500000021
其中,x,y,w,h中分别为矩形候选框的质心位置坐标以及宽高,
Figure BDA0004067465500000022
为相邻两帧对应状态的差分;
步骤五:对每帧图像,使用卡尔曼滤波的思想进行连续两帧图像的追踪,得到各目标状态向量的最优预测值;
步骤六:设相邻两帧之间同一目标的最优预测值的落点满足正态分布,根据前一次迭代得到的预测值与检测值之间的差值作为样本进行计算正态分布的方差σ2,以此计算各落点的空间分布律;
步骤七:根据不同落点的空间分布律的重合程度判断出现重叠的概率,同时综合重叠发生的形态学特征作为重叠判据;若发生重叠,则按照步骤五预测的多目标结果为准,并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行调整;若未发生重叠,则以改进的yolov5模型的输出的检测值为准。
进一步地,所述步骤五包括如下子步骤:
(5.1)将训练后的改进的yolov5模型输出的检测框的信息作为检测值,利用上一帧状态向量的最优预测值
Figure BDA0004067465500000023
与输入向量ut-1代入
Figure BDA0004067465500000024
计算当前帧的预测值
Figure BDA0004067465500000025
其中,F为状态转移矩阵,B为控制矩阵,Δt为相邻两帧之间的时间;
Figure BDA0004067465500000031
(5.2)根据Pt -=FPt-1FT+Q用上一帧最优估计协方差矩阵Pt-1和超参数过程噪声方差矩阵Q推出当前帧的协方差矩阵Pt -
(5.3)根据Kt=Pt -HT(HPt -HT+R)-1,用当前帧的协方差矩阵Pt -和观测噪声方差矩阵R推出卡尔曼增益Kt;H为增益矩阵;
(5.4)根据
Figure BDA0004067465500000032
用预测值
Figure BDA0004067465500000033
与观测值zt推出最优状态向量估计值
Figure BDA0004067465500000034
作为最终的状态向量,并更新修正当前帧的协方差矩阵Pt -
(5.5)根据当前帧的协方差矩阵Pt -以及卡尔曼增益Kt,更新当前帧的最优协方差矩阵Pt=(I-KtH)Pt -,用于计算下一帧的协方差矩阵;
(5.6)将由上一帧计算得到的预测值与训练后的改进的yolov5模型输出的检测框对应的检测值均进行标准化后做内积运算,通过内积运算值与阈值相比,当内积运算值大于阈值时,则预测值与检测值相似,为同一目标;否则,为不同目标,从而实现目标跟踪。
进一步地,所述形态学特征为:出现某检测值与多个预测向量的x,y相近,而w,h大于单个预测向量的情况。
进一步地,所述步骤七中,若发生重叠,则按照步骤五预测的多目标结果为准,并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行如下调整:
对于检测框边缘与图像边缘距离d小于检测框宽度或高度L的10%的检测框,降低非极大值抑制NMS,具体为:
NMS=NMS×f(d/L)
f(d/L)=Ae-((d/L)/B)lnA
进一步地,A=0.1,B=0.5。
本发明的有益效果如下:
本发明的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,首先对yolov5模型进行改进,引入自注意力层和可以有效提取二维空间信息的FReLU激活函数,同时使用卡尔曼方法建立连续帧之间的状态变化关系,并根据时间序列产生的参数变量分布辅助预测,从而实现针对重叠目标的实时辨识,输出待检测目标的位置和分类信息。同时在使用卡尔曼方法建立连续帧之间的状态变化关系时,应用运动的差分模型与时序处理方法,增强了整个辨识方法的可解释性,利用了相邻帧之间的信息,由其针对重叠目标提升了的识别的效果。
附图说明
图1为本发明的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法的流程图。
图2为改进的yolov5模型的示意图。
图3为本发明采用的PReLU的示意图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例对采集到的视频流按照一定帧率截取,用卡尔曼方法实现相邻帧之间的目标追踪,用时序统计方法计算目标所在位置概率分布,并结合形态学判据检测重叠。不仅增强了对于重叠目标应用场景下的识别效果,提高了信息利用率,同时模型也具有较好的可解释性。
步骤一:使用带有深度传感器的摄像机采集水下视频的RGBD信息,从视频中抽取图像,完成对检测目标的图像信息采集;
作为其中一种实施方式,直接采用水族馆内布置的带有深度传感器的探头进行水下视频的采集。
步骤二:利用Sea-Thru算法重建水下场景,对水下图像进行修复,具体包括:利用已知的距离,以暗通道先验的方式估计后向散射;然后利用局部空间平均颜色,估计距离相关衰减系数。
对水下图像进行预处理,利用Sea-Thru算法,由于信号的衰减系数在整个水下场景中是不均匀的,它取决于物体的距离和反射率,并且控制后向散射的系数和控制信号衰减的系数不同,即:
Ic=Dc+Bc
其中,Ic表示由照相机拍摄的色彩失真的图像,Dc表示距离信息,Bc表示水中悬浮粒子光反射带来的向后散射信息。Dc和Bc由距离衰减系数
Figure BDA0004067465500000051
和向后散射系数
Figure BDA0004067465500000052
决定,即
Figure BDA0004067465500000053
其中,z为摄像机与物体之间的距离,
Figure BDA0004067465500000054
为z=∞时的Bc、Jc为在没有沿z方向衰减的情况下,相机在相同位置上捕捉到的未衰减的场景。vD={z,ρ,E,Sc,β},vB={E,Sc,b,β},z为距离,ρ为反射率,E为环境光的光谱,Dc为相机的光谱响应,b和β是水体的物理散射和光束衰减系数,它们都是波长λ的函数。
根据给定的RGBD图像,利用已知的距离图,以暗通道先验的方式估计后向散射
Figure BDA0004067465500000055
然后,利用局部空间平均颜色,为输入获得的图估计距离相关衰减系数
Figure BDA0004067465500000056
从而重建水下场景,对图像进行修复。这里也可以具体参考这篇文献Akkaynak D,Treibitz T.Sea-thru:A method for removing water from underwater images[C]//Proc of the IEEE IntConf on CVPR:Hawaii,2019:1682-1691.
对比基于DCP(暗通道先验)等算法的模型,sea-thru可以更准确的估计B_c(向后散射信息)和J_c(无衰减时的真实场景),从而更好地重建水下场景。
步骤三:构建并训练改进的yolov5模型,所述改进的yolov5模型为在用于金字塔结构的三层之前各引入一层自注意力层CBAM,并将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FreLU;所述改进的yolov5模型的输入为修复后的水下图像,输出为检测框的信息。
从修复的水下图像之中提取目标图像,目标体现为包含待检测目标的图像。对目标图像进行数据标注,形成改进的yolov5模型训练使用格式的标注文件,将标注文件分为数据集、测试集、验证集。
如图2所示,改进的yolov5模型在用于金字塔结构的三层之前各引入一层自注意力层CBAM,使得网络更加关注重要特征,并抑制不必要的特征,以便于更好地提取图像中的关键信息,并将关键信息传递给下一层和金字塔上层。具体的,原网络结构的第4层、第6层、第9层为输入金字塔结构的层,在这三层之前,各加入一层自注意力层CBAM,可以使有用信息被更好地提取出来。
如图3所示,改进的YOLOv5模型,将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FReLU。FReLU激活函数表达式为
Figure BDA0004067465500000057
其中xc,i,j表示c通道,(i,j)处的值,
Figure BDA0004067465500000058
Figure BDA0004067465500000059
表示以xc,i,j为中心的池化窗口,
Figure BDA0004067465500000061
为池化窗口系数。因为FReLU激活函数增加的空间条件开销几乎可以忽略,利用FReLU函数,可以有效提取二维空间信息,从而更好地完成视觉任务。
利用数据集和验证集训练改进的YOLOv5模型,其中初始权重使用crowdhuman训练集训练结果的权重,其权重可从deepakcrk/yolov5-crowdhuman:Head and Persondetection using yolov5.Detection from crowd.(github.com)下载得到,训练后得到权重模型。
利用数据集并借助验证集验证改进的YOLOv5模型,得到权重模型。
步骤四:对视频流按照一定的帧采样速率进行采样,得到单帧图像,并按照步骤二进行修复后,输入训练后的改进的yolov5模型,模型输出检测框的信息,并对检测框的信息求差分,得到每个目标的状态向量
Figure BDA0004067465500000062
其中,x,y,w,h中分别为矩形候选框的质心位置坐标以及宽高,
Figure BDA0004067465500000063
为相邻两帧对应状态的差分。
步骤五:对每帧图像,使用卡尔曼滤波的思想进行连续两帧图像的追踪,得到各目标状态向量的最优预测值。具体包括如下子步骤:
(5.1)将训练后的改进的yolov5模型输出的检测框的信息作为检测值,利用上一帧状态向量的最优预测值
Figure BDA0004067465500000064
与输入向量ut-1代入
Figure BDA0004067465500000065
计算当前帧的预测值
Figure BDA0004067465500000066
其中,F为状态转移矩阵,B为控制矩阵,Δt为相邻两帧之间的时间;
Figure BDA0004067465500000067
(5.2)根据Pt -=FPt-1FT+Q用上一帧最优估计协方差矩阵Pt-1和超参数过程噪声方差矩阵Q推出当前帧的协方差矩阵Pt -
(5.3)根据Kt=Pt -HT(HPt -HT+R)-1,用当前帧的协方差矩阵Pt -和观测噪声方差矩阵R推出卡尔曼增益Kt;H为增益矩阵;
(5.4)根据
Figure BDA0004067465500000068
用预测值
Figure BDA0004067465500000069
与观测值zt推出最优状态向量估计值
Figure BDA00040674655000000610
作为最终的状态向量,并更新修正当前帧的协方差矩阵Pt -
(5.5)根据当前帧的协方差矩阵Pt -以及卡尔曼增益Kt,更新当前帧的最优协方差矩阵Pt=(I-KtH)Pt -,用于计算下一帧的协方差矩阵;
(5.6)将由上一帧计算得到的预测值与训练后的改进的yolov5模型输出的检测框对应的检测值均进行标准化后做内积运算,通过内积运算值与阈值相比,当内积运算值大于阈值时,则预测值与检测值相似,为同一目标;否则,为不同目标,从而实现目标跟踪。
步骤六:设相邻两帧之间同一目标的最优预测值的落点满足正态分布,根据前一次迭代得到的预测值与检测值之间的差值作为样本进行计算正态分布的方差σ2,以此计算各落点的空间分布律。
刚开始运行时由于缺少数据,可选择先不计算相关参数,或者在一段延时后计算σ2
步骤七:根据不同落点的空间分布律的重合程度判断出现重叠的概率,同时综合重叠发生的形态学特征(例如,出现某检测值与多个预测向量的x,y相近,而w,h大于单个预测向量的情况)作为重叠判据;若未发生重叠,则以改进的yolov5模型的输出的检测值为准;若发生重叠,则按照步骤五预测的多目标结果为准,并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行如下调整:
对于检测框边缘与图像边缘距离d小于检测框宽度或高度L的10%的检测框,降低非极大值抑制NMS,具体为:
NMS=NMS×f(d/L)
作为其中一种实施方式,A=0.1,B=0.5。
分布律服从二维正态分布N(x,μxx,y,μyy),其中,x,y为当前时刻中心位置坐标,μx与μy为下一时刻位置坐标的预测值,在x和y方向上的方差σx和σy计算方式如上。则坐标点(x′,y′)上分布的概率为
Figure BDA0004067465500000071
根据具体应用场景选择一个合适的阈值,作为重叠的概率判据:若两目标同时出现在坐标点(x′,y′)上的概率超过预设的阈值,则判断发生重叠。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (5)

1.一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,其特征在于,该方法包括如下步骤:
步骤一:使用带有深度传感器的摄像机采集水下视频的RGBD信息,从视频中抽取图像,完成对检测目标的图像信息采集;
步骤二:利用Sea-Thru算法重建水下场景,对水下图像进行修复,具体包括:利用已知的距离,以暗通道先验的方式估计后向散射;然后利用局部空间平均颜色,估计距离相关衰减系数;
步骤三:构建并训练改进的yolov5模型,所述改进的yolov5模型为在用于金字塔结构的三层之前各引入一层自注意力层CBAM,并将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FreLU;所述改进的yolov5模型的输入为修复后的水下图像,输出为检测框的信息;
步骤四:对视频流按照一定的帧采样速率进行采样,得到单帧图像,并按照步骤二进行修复后,输入训练后的改进的yolov5模型,模型输出检测框的信息,并对检测框的信息求差分,得到每个目标的状态向量
Figure FDA0004067465490000011
其中,x,y,w,h中分别为矩形候选框的质心位置坐标以及宽高,
Figure FDA0004067465490000012
为相邻两帧对应状态的差分;
步骤五:对每帧图像,使用卡尔曼滤波的思想进行连续两帧图像的追踪,得到各目标状态向量的最优预测值;
步骤六:设相邻两帧之间同一目标的最优预测值的落点满足正态分布,根据前一次迭代得到的预测值与检测值之间的差值作为样本进行计算正态分布的方差σ2,以此计算各落点的空间分布律;
步骤七:根据不同落点的空间分布律的重合程度判断出现重叠的概率,同时综合重叠发生的形态学特征作为重叠判据;若发生重叠,则按照步骤五预测的多目标结果为准,并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行调整;若未发生重叠,则以改进的yolov5模型的输出的检测值为准。
2.根据权利要求1所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,其特征在于,所述步骤五包括如下子步骤:
(5.1)将训练后的改进的yolov5模型输出的检测框的信息作为检测值,利用上一帧状态向量的最优预测值
Figure FDA0004067465490000013
与输入向量ut-1代入
Figure FDA0004067465490000014
计算当前帧的预测值
Figure FDA0004067465490000015
其中,F为状态转移矩阵,B为控制矩阵,Δt为相邻两帧之间的时间;
Figure FDA0004067465490000021
(5.2)根据Pt -=FPt-1FT+Q用上一帧最优估计协方差矩阵Pt-1和超参数过程噪声方差矩阵Q推出当前帧的协方差矩阵Pt -
(5.3)根据Kt=Pt -HT(HPt -HT+R)-1,用当前帧的协方差矩阵Pt -和观测噪声方差矩阵R推出卡尔曼增益Kt;H为增益矩阵;
(5.4)根据
Figure FDA0004067465490000022
用预测值
Figure FDA0004067465490000023
与观测值zt推出最优状态向量估计值
Figure FDA0004067465490000024
作为最终的状态向量,并更新修正当前帧的协方差矩阵Pt -
(5.5)根据当前帧的协方差矩阵Pt -以及卡尔曼增益Kt,更新当前帧的最优协方差矩阵Pt=(I-KtH)Pt -,用于计算下一帧的协方差矩阵;
(5.6)将由上一帧计算得到的预测值与训练后的改进的yolov5模型输出的检测框对应的检测值均进行标准化后做内积运算,通过内积运算值与阈值相比,当内积运算值大于阈值时,则预测值与检测值相似,为同一目标;否则,为不同目标,从而实现目标跟踪。
3.根据权利要求2所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,其特征在于,所述形态学特征为:出现某检测值与多个预测向量的x,y相近,而w,h大于单个预测向量的情况。
4.根据权利要求1所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,其特征在于,所述步骤七中,若发生重叠,则按照步骤五预测的多目标结果为准,并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行如下调整:
对于检测框边缘与图像边缘距离d小于检测框宽度或高度L的10%的检测框,降低非极大值抑制NMS,具体为:
NMS=NMS×f(d/L)
f(d/L)=Ae-((d/L)/B)lnA
5.根据权利要求4所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,其特征在于,A=0.1,B=0.5。
CN202310081246.5A 2023-02-08 2023-02-08 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法 Pending CN116051970A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310081246.5A CN116051970A (zh) 2023-02-08 2023-02-08 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310081246.5A CN116051970A (zh) 2023-02-08 2023-02-08 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法

Publications (1)

Publication Number Publication Date
CN116051970A true CN116051970A (zh) 2023-05-02

Family

ID=86129422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310081246.5A Pending CN116051970A (zh) 2023-02-08 2023-02-08 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法

Country Status (1)

Country Link
CN (1) CN116051970A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116609786A (zh) * 2023-05-22 2023-08-18 农芯(南京)智慧农业研究院有限公司 鱼类统计方法及装置
CN116630707A (zh) * 2023-05-25 2023-08-22 河北农业大学 一种基于深度学习的番茄穴盘苗分级检测与数据传输方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116609786A (zh) * 2023-05-22 2023-08-18 农芯(南京)智慧农业研究院有限公司 鱼类统计方法及装置
CN116609786B (zh) * 2023-05-22 2024-02-09 农芯(南京)智慧农业研究院有限公司 鱼类统计方法及装置
CN116630707A (zh) * 2023-05-25 2023-08-22 河北农业大学 一种基于深度学习的番茄穴盘苗分级检测与数据传输方法
CN116630707B (zh) * 2023-05-25 2023-11-03 河北农业大学 一种基于深度学习的番茄穴盘苗分级检测与数据传输方法

Similar Documents

Publication Publication Date Title
CN110998594B (zh) 检测动作的方法和系统
CN107818571B (zh) 基于深度学习网络和均值漂移的船只自动跟踪方法及系统
CN110232350B (zh) 一种基于在线学习的实时水面多运动目标检测跟踪方法
CN109766830B (zh) 一种基于人工智能图像处理的舰船目标识别系统及方法
Han et al. Density-based multifeature background subtraction with support vector machine
CN110378288B (zh) 一种基于深度学习的多级时空运动目标检测方法
CN103871029B (zh) 一种图像增强及分割方法
Stauffer et al. Adaptive background mixture models for real-time tracking
US7929730B2 (en) Method and system for object detection and tracking
CN116051970A (zh) 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法
EP2164041B1 (en) Tracking method and device adopting a series of observation models with different lifespans
JP4964159B2 (ja) ビデオのフレームのシーケンスにおいてオブジェクトを追跡するコンピュータに実装される方法
Migdal et al. Background subtraction using markov thresholds
CN108222749B (zh) 一种基于图像分析的智能自动门控制方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
Foedisch et al. Adaptive real-time road detection using neural networks
CN103942557B (zh) 一种煤矿井下图像预处理方法
CN107292905B (zh) 基于改进混合高斯模型的运动目标检测方法
CN105404847A (zh) 一种遗留物实时检测方法
CN109993770B (zh) 一种自适应时空学习与状态识别的目标跟踪方法
Wang Joint random field model for all-weather moving vehicle detection
CN112132862B (zh) 一种基于无人机的自适应尺度估计目标跟踪算法
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
CN112418149A (zh) 一种基于深卷积神经网络的异常行为检测方法
CN112233145A (zh) 一种基于rgb-d时空上下文模型的多目标遮挡跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination