CN116051970A - 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法 - Google Patents
一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法 Download PDFInfo
- Publication number
- CN116051970A CN116051970A CN202310081246.5A CN202310081246A CN116051970A CN 116051970 A CN116051970 A CN 116051970A CN 202310081246 A CN202310081246 A CN 202310081246A CN 116051970 A CN116051970 A CN 116051970A
- Authority
- CN
- China
- Prior art keywords
- overlapping
- frame
- yolov5 model
- value
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 241000251468 Actinopterygii Species 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000004913 activation Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 18
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 230000008859 change Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000002310 reflectometry Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,对yolov5进行改进,在用于金字塔结构的三层之前各引入一层自注意力层CBAM,将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FReLU,并使用卡尔曼方法建立连续帧之间的状态变化关系,并根据时间序列产生的参数变量分布辅助预测,通过对下一帧的预测信息,帮助判断鱼类的重叠情况,进而实现针对重叠目标的实时辨识。本发明应用运动的差分模型与时序处理方法,增强了算法的可解释性,同时针对水下场景对处理步骤进行了微调,对水下重叠目标具有很好的检测效果。
Description
技术领域
本发明涉及人工智能图像识别领域,具体涉及一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法。
背景技术
我国许多城市都有水族馆,水下动物种类繁多,引入一套摄像设备,对视野内的鱼类进行实时且有效的识别与标注可以降低游客学习的门槛,提升参观体验。当前人工智能在目标检测领域的应用十分广泛,其中yolo系列算法是公认的较好的算法。yolov5由backbone和head两个部分组成,实现了端到端的检测。然而,直接使用目标识别技术虽然可以在实现对水族馆鱼类的框选和标注,但也同时面临水下目标识别困难以及鱼类重叠现象的挑战。
由于水下环境的复杂性以及鱼类的多样性,现存的卷积神经网络识别结果的准确度与实时性均不够理想。YOLO模型能够提取和训练数据集的特征,并对样本进行学习和预测。然而,由于鱼类的游动以及其本身生活习性,常常发生多个鱼类的重叠,对识别效果造成影响。
现有的目标检测算法主要包括传统目标检测算法和基于深度学习的目标检测算法,基于深度学习的目标检测算法又可以分为anchor based方法和anchor free方法。传统目标检测算法主要基于手工提取特征,存在特征提取困难、缺乏通用性、耗时长等缺点。基于深度学习的目标检测算法精确性高,鲁棒性强。其中anchor-based方法包括一阶段和二阶段检测算法,二阶段目标检测算法精度要高,一阶段检测算法速度更快。现阶段anchor-free方法存在正负样本极端不平衡、语义模糊性(两个目标中心点重叠)、检测结果不稳定等缺点。如通过图像增强与改进Faster-RCNN网络的重叠鱼群尾数检测基于Faster-RCNN进行改进,但因水下图像容易出现颜色偏移和亮度较低的等问题,检测成功率不高。
发明内容
为了解决现有技术在水族馆管理以及教学过程中不能对鱼类状态以及类别进行高效率分辨监控问题,本发明提供一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,具体技术方案如下:
一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,该方法包括如下步骤:
步骤一:使用带有深度传感器的摄像机采集水下视频的RGBD信息,从视频中抽取图像,完成对检测目标的图像信息采集;
步骤二:利用Sea-Thru算法重建水下场景,对水下图像进行修复,具体包括:利用已知的距离,以暗通道先验的方式估计后向散射;然后利用局部空间平均颜色,估计距离相关衰减系数;
步骤三:构建并训练改进的yolov5模型,所述改进的yolov5模型为在用于金字塔结构的三层之前各引入一层自注意力层CBAM,并将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FreLU;所述改进的yolov5模型的输入为修复后的水下图像,输出为检测框的信息;
步骤四:对视频流按照一定的帧采样速率进行采样,得到单帧图像,并按照步骤二进行修复后,输入训练后的改进的yolov5模型,模型输出检测框的信息,并对检测框的信息求差分,得到每个目标的状态向量其中,x,y,w,h中分别为矩形候选框的质心位置坐标以及宽高,为相邻两帧对应状态的差分;
步骤五:对每帧图像,使用卡尔曼滤波的思想进行连续两帧图像的追踪,得到各目标状态向量的最优预测值;
步骤六:设相邻两帧之间同一目标的最优预测值的落点满足正态分布,根据前一次迭代得到的预测值与检测值之间的差值作为样本进行计算正态分布的方差σ2,以此计算各落点的空间分布律;
步骤七:根据不同落点的空间分布律的重合程度判断出现重叠的概率,同时综合重叠发生的形态学特征作为重叠判据;若发生重叠,则按照步骤五预测的多目标结果为准,并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行调整;若未发生重叠,则以改进的yolov5模型的输出的检测值为准。
进一步地,所述步骤五包括如下子步骤:
(5.1)将训练后的改进的yolov5模型输出的检测框的信息作为检测值,利用上一帧状态向量的最优预测值与输入向量ut-1代入计算当前帧的预测值其中,F为状态转移矩阵,B为控制矩阵,Δt为相邻两帧之间的时间;
(5.2)根据Pt -=FPt-1FT+Q用上一帧最优估计协方差矩阵Pt-1和超参数过程噪声方差矩阵Q推出当前帧的协方差矩阵Pt -;
(5.3)根据Kt=Pt -HT(HPt -HT+R)-1,用当前帧的协方差矩阵Pt -和观测噪声方差矩阵R推出卡尔曼增益Kt;H为增益矩阵;
(5.5)根据当前帧的协方差矩阵Pt -以及卡尔曼增益Kt,更新当前帧的最优协方差矩阵Pt=(I-KtH)Pt -,用于计算下一帧的协方差矩阵;
(5.6)将由上一帧计算得到的预测值与训练后的改进的yolov5模型输出的检测框对应的检测值均进行标准化后做内积运算,通过内积运算值与阈值相比,当内积运算值大于阈值时,则预测值与检测值相似,为同一目标;否则,为不同目标,从而实现目标跟踪。
进一步地,所述形态学特征为:出现某检测值与多个预测向量的x,y相近,而w,h大于单个预测向量的情况。
进一步地,所述步骤七中,若发生重叠,则按照步骤五预测的多目标结果为准,并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行如下调整:
对于检测框边缘与图像边缘距离d小于检测框宽度或高度L的10%的检测框,降低非极大值抑制NMS,具体为:
NMS=NMS×f(d/L)
f(d/L)=Ae-((d/L)/B)lnA。
进一步地,A=0.1,B=0.5。
本发明的有益效果如下:
本发明的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,首先对yolov5模型进行改进,引入自注意力层和可以有效提取二维空间信息的FReLU激活函数,同时使用卡尔曼方法建立连续帧之间的状态变化关系,并根据时间序列产生的参数变量分布辅助预测,从而实现针对重叠目标的实时辨识,输出待检测目标的位置和分类信息。同时在使用卡尔曼方法建立连续帧之间的状态变化关系时,应用运动的差分模型与时序处理方法,增强了整个辨识方法的可解释性,利用了相邻帧之间的信息,由其针对重叠目标提升了的识别的效果。
附图说明
图1为本发明的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法的流程图。
图2为改进的yolov5模型的示意图。
图3为本发明采用的PReLU的示意图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例对采集到的视频流按照一定帧率截取,用卡尔曼方法实现相邻帧之间的目标追踪,用时序统计方法计算目标所在位置概率分布,并结合形态学判据检测重叠。不仅增强了对于重叠目标应用场景下的识别效果,提高了信息利用率,同时模型也具有较好的可解释性。
步骤一:使用带有深度传感器的摄像机采集水下视频的RGBD信息,从视频中抽取图像,完成对检测目标的图像信息采集;
作为其中一种实施方式,直接采用水族馆内布置的带有深度传感器的探头进行水下视频的采集。
步骤二:利用Sea-Thru算法重建水下场景,对水下图像进行修复,具体包括:利用已知的距离,以暗通道先验的方式估计后向散射;然后利用局部空间平均颜色,估计距离相关衰减系数。
对水下图像进行预处理,利用Sea-Thru算法,由于信号的衰减系数在整个水下场景中是不均匀的,它取决于物体的距离和反射率,并且控制后向散射的系数和控制信号衰减的系数不同,即:
Ic=Dc+Bc
其中,z为摄像机与物体之间的距离,为z=∞时的Bc、Jc为在没有沿z方向衰减的情况下,相机在相同位置上捕捉到的未衰减的场景。vD={z,ρ,E,Sc,β},vB={E,Sc,b,β},z为距离,ρ为反射率,E为环境光的光谱,Dc为相机的光谱响应,b和β是水体的物理散射和光束衰减系数,它们都是波长λ的函数。
根据给定的RGBD图像,利用已知的距离图,以暗通道先验的方式估计后向散射然后,利用局部空间平均颜色,为输入获得的图估计距离相关衰减系数从而重建水下场景,对图像进行修复。这里也可以具体参考这篇文献Akkaynak D,Treibitz T.Sea-thru:A method for removing water from underwater images[C]//Proc of the IEEE IntConf on CVPR:Hawaii,2019:1682-1691.
对比基于DCP(暗通道先验)等算法的模型,sea-thru可以更准确的估计B_c(向后散射信息)和J_c(无衰减时的真实场景),从而更好地重建水下场景。
步骤三:构建并训练改进的yolov5模型,所述改进的yolov5模型为在用于金字塔结构的三层之前各引入一层自注意力层CBAM,并将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FreLU;所述改进的yolov5模型的输入为修复后的水下图像,输出为检测框的信息。
从修复的水下图像之中提取目标图像,目标体现为包含待检测目标的图像。对目标图像进行数据标注,形成改进的yolov5模型训练使用格式的标注文件,将标注文件分为数据集、测试集、验证集。
如图2所示,改进的yolov5模型在用于金字塔结构的三层之前各引入一层自注意力层CBAM,使得网络更加关注重要特征,并抑制不必要的特征,以便于更好地提取图像中的关键信息,并将关键信息传递给下一层和金字塔上层。具体的,原网络结构的第4层、第6层、第9层为输入金字塔结构的层,在这三层之前,各加入一层自注意力层CBAM,可以使有用信息被更好地提取出来。
如图3所示,改进的YOLOv5模型,将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FReLU。FReLU激活函数表达式为其中xc,i,j表示c通道,(i,j)处的值, 表示以xc,i,j为中心的池化窗口,为池化窗口系数。因为FReLU激活函数增加的空间条件开销几乎可以忽略,利用FReLU函数,可以有效提取二维空间信息,从而更好地完成视觉任务。
利用数据集和验证集训练改进的YOLOv5模型,其中初始权重使用crowdhuman训练集训练结果的权重,其权重可从deepakcrk/yolov5-crowdhuman:Head and Persondetection using yolov5.Detection from crowd.(github.com)下载得到,训练后得到权重模型。
利用数据集并借助验证集验证改进的YOLOv5模型,得到权重模型。
步骤四:对视频流按照一定的帧采样速率进行采样,得到单帧图像,并按照步骤二进行修复后,输入训练后的改进的yolov5模型,模型输出检测框的信息,并对检测框的信息求差分,得到每个目标的状态向量其中,x,y,w,h中分别为矩形候选框的质心位置坐标以及宽高,为相邻两帧对应状态的差分。
步骤五:对每帧图像,使用卡尔曼滤波的思想进行连续两帧图像的追踪,得到各目标状态向量的最优预测值。具体包括如下子步骤:
(5.1)将训练后的改进的yolov5模型输出的检测框的信息作为检测值,利用上一帧状态向量的最优预测值与输入向量ut-1代入计算当前帧的预测值其中,F为状态转移矩阵,B为控制矩阵,Δt为相邻两帧之间的时间;
(5.2)根据Pt -=FPt-1FT+Q用上一帧最优估计协方差矩阵Pt-1和超参数过程噪声方差矩阵Q推出当前帧的协方差矩阵Pt -;
(5.3)根据Kt=Pt -HT(HPt -HT+R)-1,用当前帧的协方差矩阵Pt -和观测噪声方差矩阵R推出卡尔曼增益Kt;H为增益矩阵;
(5.5)根据当前帧的协方差矩阵Pt -以及卡尔曼增益Kt,更新当前帧的最优协方差矩阵Pt=(I-KtH)Pt -,用于计算下一帧的协方差矩阵;
(5.6)将由上一帧计算得到的预测值与训练后的改进的yolov5模型输出的检测框对应的检测值均进行标准化后做内积运算,通过内积运算值与阈值相比,当内积运算值大于阈值时,则预测值与检测值相似,为同一目标;否则,为不同目标,从而实现目标跟踪。
步骤六:设相邻两帧之间同一目标的最优预测值的落点满足正态分布,根据前一次迭代得到的预测值与检测值之间的差值作为样本进行计算正态分布的方差σ2,以此计算各落点的空间分布律。
刚开始运行时由于缺少数据,可选择先不计算相关参数,或者在一段延时后计算σ2。
步骤七:根据不同落点的空间分布律的重合程度判断出现重叠的概率,同时综合重叠发生的形态学特征(例如,出现某检测值与多个预测向量的x,y相近,而w,h大于单个预测向量的情况)作为重叠判据;若未发生重叠,则以改进的yolov5模型的输出的检测值为准;若发生重叠,则按照步骤五预测的多目标结果为准,并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行如下调整:
对于检测框边缘与图像边缘距离d小于检测框宽度或高度L的10%的检测框,降低非极大值抑制NMS,具体为:
NMS=NMS×f(d/L)
作为其中一种实施方式,A=0.1,B=0.5。
分布律服从二维正态分布N(x,μx,σx,y,μy,σy),其中,x,y为当前时刻中心位置坐标,μx与μy为下一时刻位置坐标的预测值,在x和y方向上的方差σx和σy计算方式如上。则坐标点(x′,y′)上分布的概率为
根据具体应用场景选择一个合适的阈值,作为重叠的概率判据:若两目标同时出现在坐标点(x′,y′)上的概率超过预设的阈值,则判断发生重叠。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (5)
1.一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,其特征在于,该方法包括如下步骤:
步骤一:使用带有深度传感器的摄像机采集水下视频的RGBD信息,从视频中抽取图像,完成对检测目标的图像信息采集;
步骤二:利用Sea-Thru算法重建水下场景,对水下图像进行修复,具体包括:利用已知的距离,以暗通道先验的方式估计后向散射;然后利用局部空间平均颜色,估计距离相关衰减系数;
步骤三:构建并训练改进的yolov5模型,所述改进的yolov5模型为在用于金字塔结构的三层之前各引入一层自注意力层CBAM,并将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FreLU;所述改进的yolov5模型的输入为修复后的水下图像,输出为检测框的信息;
步骤四:对视频流按照一定的帧采样速率进行采样,得到单帧图像,并按照步骤二进行修复后,输入训练后的改进的yolov5模型,模型输出检测框的信息,并对检测框的信息求差分,得到每个目标的状态向量其中,x,y,w,h中分别为矩形候选框的质心位置坐标以及宽高,为相邻两帧对应状态的差分;
步骤五:对每帧图像,使用卡尔曼滤波的思想进行连续两帧图像的追踪,得到各目标状态向量的最优预测值;
步骤六:设相邻两帧之间同一目标的最优预测值的落点满足正态分布,根据前一次迭代得到的预测值与检测值之间的差值作为样本进行计算正态分布的方差σ2,以此计算各落点的空间分布律;
步骤七:根据不同落点的空间分布律的重合程度判断出现重叠的概率,同时综合重叠发生的形态学特征作为重叠判据;若发生重叠,则按照步骤五预测的多目标结果为准,并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行调整;若未发生重叠,则以改进的yolov5模型的输出的检测值为准。
2.根据权利要求1所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,其特征在于,所述步骤五包括如下子步骤:
(5.1)将训练后的改进的yolov5模型输出的检测框的信息作为检测值,利用上一帧状态向量的最优预测值与输入向量ut-1代入计算当前帧的预测值其中,F为状态转移矩阵,B为控制矩阵,Δt为相邻两帧之间的时间;
(5.2)根据Pt -=FPt-1FT+Q用上一帧最优估计协方差矩阵Pt-1和超参数过程噪声方差矩阵Q推出当前帧的协方差矩阵Pt -;
(5.3)根据Kt=Pt -HT(HPt -HT+R)-1,用当前帧的协方差矩阵Pt -和观测噪声方差矩阵R推出卡尔曼增益Kt;H为增益矩阵;
(5.5)根据当前帧的协方差矩阵Pt -以及卡尔曼增益Kt,更新当前帧的最优协方差矩阵Pt=(I-KtH)Pt -,用于计算下一帧的协方差矩阵;
(5.6)将由上一帧计算得到的预测值与训练后的改进的yolov5模型输出的检测框对应的检测值均进行标准化后做内积运算,通过内积运算值与阈值相比,当内积运算值大于阈值时,则预测值与检测值相似,为同一目标;否则,为不同目标,从而实现目标跟踪。
3.根据权利要求2所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,其特征在于,所述形态学特征为:出现某检测值与多个预测向量的x,y相近,而w,h大于单个预测向量的情况。
4.根据权利要求1所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,其特征在于,所述步骤七中,若发生重叠,则按照步骤五预测的多目标结果为准,并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行如下调整:
对于检测框边缘与图像边缘距离d小于检测框宽度或高度L的10%的检测框,降低非极大值抑制NMS,具体为:
NMS=NMS×f(d/L)
f(d/L)=Ae-((d/L)/B)lnA。
5.根据权利要求4所述的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法,其特征在于,A=0.1,B=0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081246.5A CN116051970A (zh) | 2023-02-08 | 2023-02-08 | 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081246.5A CN116051970A (zh) | 2023-02-08 | 2023-02-08 | 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116051970A true CN116051970A (zh) | 2023-05-02 |
Family
ID=86129422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310081246.5A Pending CN116051970A (zh) | 2023-02-08 | 2023-02-08 | 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116051970A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116609786A (zh) * | 2023-05-22 | 2023-08-18 | 农芯(南京)智慧农业研究院有限公司 | 鱼类统计方法及装置 |
CN116630707A (zh) * | 2023-05-25 | 2023-08-22 | 河北农业大学 | 一种基于深度学习的番茄穴盘苗分级检测与数据传输方法 |
-
2023
- 2023-02-08 CN CN202310081246.5A patent/CN116051970A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116609786A (zh) * | 2023-05-22 | 2023-08-18 | 农芯(南京)智慧农业研究院有限公司 | 鱼类统计方法及装置 |
CN116609786B (zh) * | 2023-05-22 | 2024-02-09 | 农芯(南京)智慧农业研究院有限公司 | 鱼类统计方法及装置 |
CN116630707A (zh) * | 2023-05-25 | 2023-08-22 | 河北农业大学 | 一种基于深度学习的番茄穴盘苗分级检测与数据传输方法 |
CN116630707B (zh) * | 2023-05-25 | 2023-11-03 | 河北农业大学 | 一种基于深度学习的番茄穴盘苗分级检测与数据传输方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110998594B (zh) | 检测动作的方法和系统 | |
CN107818571B (zh) | 基于深度学习网络和均值漂移的船只自动跟踪方法及系统 | |
CN110232350B (zh) | 一种基于在线学习的实时水面多运动目标检测跟踪方法 | |
CN109766830B (zh) | 一种基于人工智能图像处理的舰船目标识别系统及方法 | |
Han et al. | Density-based multifeature background subtraction with support vector machine | |
CN110378288B (zh) | 一种基于深度学习的多级时空运动目标检测方法 | |
CN103871029B (zh) | 一种图像增强及分割方法 | |
Stauffer et al. | Adaptive background mixture models for real-time tracking | |
US7929730B2 (en) | Method and system for object detection and tracking | |
CN116051970A (zh) | 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法 | |
EP2164041B1 (en) | Tracking method and device adopting a series of observation models with different lifespans | |
JP4964159B2 (ja) | ビデオのフレームのシーケンスにおいてオブジェクトを追跡するコンピュータに実装される方法 | |
Migdal et al. | Background subtraction using markov thresholds | |
CN108222749B (zh) | 一种基于图像分析的智能自动门控制方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
Foedisch et al. | Adaptive real-time road detection using neural networks | |
CN103942557B (zh) | 一种煤矿井下图像预处理方法 | |
CN107292905B (zh) | 基于改进混合高斯模型的运动目标检测方法 | |
CN105404847A (zh) | 一种遗留物实时检测方法 | |
CN109993770B (zh) | 一种自适应时空学习与状态识别的目标跟踪方法 | |
Wang | Joint random field model for all-weather moving vehicle detection | |
CN112132862B (zh) | 一种基于无人机的自适应尺度估计目标跟踪算法 | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 | |
CN112418149A (zh) | 一种基于深卷积神经网络的异常行为检测方法 | |
CN112233145A (zh) | 一种基于rgb-d时空上下文模型的多目标遮挡跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |