CN116051970A

CN116051970A - 一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法

Info

Publication number: CN116051970A
Application number: CN202310081246.5A
Authority: CN
Inventors: 黄慧; 郭明皓; 曲景邦; 李龙宇; 蒋吉庆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-05-02

Abstract

本发明公开一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，对yolov5进行改进，在用于金字塔结构的三层之前各引入一层自注意力层CBAM，将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FReLU，并使用卡尔曼方法建立连续帧之间的状态变化关系，并根据时间序列产生的参数变量分布辅助预测，通过对下一帧的预测信息，帮助判断鱼类的重叠情况，进而实现针对重叠目标的实时辨识。本发明应用运动的差分模型与时序处理方法，增强了算法的可解释性，同时针对水下场景对处理步骤进行了微调，对水下重叠目标具有很好的检测效果。

Description

一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法

技术领域

本发明涉及人工智能图像识别领域，具体涉及一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法。

背景技术

我国许多城市都有水族馆，水下动物种类繁多，引入一套摄像设备，对视野内的鱼类进行实时且有效的识别与标注可以降低游客学习的门槛，提升参观体验。当前人工智能在目标检测领域的应用十分广泛，其中yolo系列算法是公认的较好的算法。yolov5由backbone和head两个部分组成，实现了端到端的检测。然而，直接使用目标识别技术虽然可以在实现对水族馆鱼类的框选和标注，但也同时面临水下目标识别困难以及鱼类重叠现象的挑战。

由于水下环境的复杂性以及鱼类的多样性，现存的卷积神经网络识别结果的准确度与实时性均不够理想。YOLO模型能够提取和训练数据集的特征，并对样本进行学习和预测。然而，由于鱼类的游动以及其本身生活习性，常常发生多个鱼类的重叠，对识别效果造成影响。

现有的目标检测算法主要包括传统目标检测算法和基于深度学习的目标检测算法，基于深度学习的目标检测算法又可以分为anchor based方法和anchor free方法。传统目标检测算法主要基于手工提取特征，存在特征提取困难、缺乏通用性、耗时长等缺点。基于深度学习的目标检测算法精确性高，鲁棒性强。其中anchor-based方法包括一阶段和二阶段检测算法，二阶段目标检测算法精度要高，一阶段检测算法速度更快。现阶段anchor-free方法存在正负样本极端不平衡、语义模糊性(两个目标中心点重叠)、检测结果不稳定等缺点。如通过图像增强与改进Faster-RCNN网络的重叠鱼群尾数检测基于Faster-RCNN进行改进，但因水下图像容易出现颜色偏移和亮度较低的等问题，检测成功率不高。

发明内容

为了解决现有技术在水族馆管理以及教学过程中不能对鱼类状态以及类别进行高效率分辨监控问题，本发明提供一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，具体技术方案如下：

一种基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，该方法包括如下步骤：

步骤一：使用带有深度传感器的摄像机采集水下视频的RGBD信息，从视频中抽取图像，完成对检测目标的图像信息采集；

步骤二：利用Sea-Thru算法重建水下场景，对水下图像进行修复，具体包括：利用已知的距离，以暗通道先验的方式估计后向散射；然后利用局部空间平均颜色，估计距离相关衰减系数；

步骤三：构建并训练改进的yolov5模型，所述改进的yolov5模型为在用于金字塔结构的三层之前各引入一层自注意力层CBAM，并将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FreLU；所述改进的yolov5模型的输入为修复后的水下图像，输出为检测框的信息；

步骤四：对视频流按照一定的帧采样速率进行采样，得到单帧图像，并按照步骤二进行修复后，输入训练后的改进的yolov5模型，模型输出检测框的信息，并对检测框的信息求差分，得到每个目标的状态向量

其中，x,y,w,h中分别为矩形候选框的质心位置坐标以及宽高，

为相邻两帧对应状态的差分；

步骤五：对每帧图像，使用卡尔曼滤波的思想进行连续两帧图像的追踪，得到各目标状态向量的最优预测值；

步骤六：设相邻两帧之间同一目标的最优预测值的落点满足正态分布，根据前一次迭代得到的预测值与检测值之间的差值作为样本进行计算正态分布的方差σ²，以此计算各落点的空间分布律；

步骤七：根据不同落点的空间分布律的重合程度判断出现重叠的概率，同时综合重叠发生的形态学特征作为重叠判据；若发生重叠，则按照步骤五预测的多目标结果为准，并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行调整；若未发生重叠，则以改进的yolov5模型的输出的检测值为准。

进一步地，所述步骤五包括如下子步骤：

(5.1)将训练后的改进的yolov5模型输出的检测框的信息作为检测值，利用上一帧状态向量的最优预测值

与输入向量u_t-1代入

计算当前帧的预测值

其中，F为状态转移矩阵，B为控制矩阵，Δt为相邻两帧之间的时间；

(5.2)根据P_t ^-＝FP_t-1F^T+Q用上一帧最优估计协方差矩阵P_t-1和超参数过程噪声方差矩阵Q推出当前帧的协方差矩阵P_t ^-；

(5.3)根据K_t＝P_t ^-H^T(HP_t ^-H^T+R)^-1，用当前帧的协方差矩阵P_t ^-和观测噪声方差矩阵R推出卡尔曼增益K_t；H为增益矩阵；

(5.4)根据

用预测值

与观测值z_t推出最优状态向量估计值

作为最终的状态向量，并更新修正当前帧的协方差矩阵P_t ^-；

(5.5)根据当前帧的协方差矩阵P_t ^-以及卡尔曼增益K_t，更新当前帧的最优协方差矩阵P_t＝(I-K_tH)P_t ^-，用于计算下一帧的协方差矩阵；

(5.6)将由上一帧计算得到的预测值与训练后的改进的yolov5模型输出的检测框对应的检测值均进行标准化后做内积运算，通过内积运算值与阈值相比，当内积运算值大于阈值时，则预测值与检测值相似，为同一目标；否则，为不同目标，从而实现目标跟踪。

进一步地，所述形态学特征为：出现某检测值与多个预测向量的x，y相近，而w，h大于单个预测向量的情况。

进一步地，所述步骤七中，若发生重叠，则按照步骤五预测的多目标结果为准，并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行如下调整：

对于检测框边缘与图像边缘距离d小于检测框宽度或高度L的10％的检测框，降低非极大值抑制NMS，具体为：

NMS＝NMS×f(d/L)

f(d/L)＝Ae^{-((d/L)/B)lnA}。

进一步地，A＝0.1，B＝0.5。

本发明的有益效果如下：

本发明的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法，首先对yolov5模型进行改进，引入自注意力层和可以有效提取二维空间信息的FReLU激活函数，同时使用卡尔曼方法建立连续帧之间的状态变化关系，并根据时间序列产生的参数变量分布辅助预测，从而实现针对重叠目标的实时辨识，输出待检测目标的位置和分类信息。同时在使用卡尔曼方法建立连续帧之间的状态变化关系时，应用运动的差分模型与时序处理方法，增强了整个辨识方法的可解释性，利用了相邻帧之间的信息，由其针对重叠目标提升了的识别的效果。

附图说明

图1为本发明的基于改进的yolov5模型的针对重叠鱼类目标的辨识方法的流程图。

图2为改进的yolov5模型的示意图。

图3为本发明采用的PReLU的示意图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例对采集到的视频流按照一定帧率截取，用卡尔曼方法实现相邻帧之间的目标追踪，用时序统计方法计算目标所在位置概率分布，并结合形态学判据检测重叠。不仅增强了对于重叠目标应用场景下的识别效果，提高了信息利用率，同时模型也具有较好的可解释性。

作为其中一种实施方式，直接采用水族馆内布置的带有深度传感器的探头进行水下视频的采集。

步骤二：利用Sea-Thru算法重建水下场景，对水下图像进行修复，具体包括：利用已知的距离，以暗通道先验的方式估计后向散射；然后利用局部空间平均颜色，估计距离相关衰减系数。

对水下图像进行预处理，利用Sea-Thru算法，由于信号的衰减系数在整个水下场景中是不均匀的，它取决于物体的距离和反射率，并且控制后向散射的系数和控制信号衰减的系数不同，即：

I_c＝D_c+B_c

其中，I_c表示由照相机拍摄的色彩失真的图像，D_c表示距离信息，B_c表示水中悬浮粒子光反射带来的向后散射信息。D_c和B_c由距离衰减系数

和向后散射系数

决定，即

其中，z为摄像机与物体之间的距离，

为z＝∞时的B_c、J_c为在没有沿z方向衰减的情况下，相机在相同位置上捕捉到的未衰减的场景。v_D＝{z，ρ，E，S_c，β}，v_B＝{E，S_c，b，β}，z为距离，ρ为反射率，E为环境光的光谱，D_c为相机的光谱响应，b和β是水体的物理散射和光束衰减系数，它们都是波长λ的函数。

根据给定的RGBD图像，利用已知的距离图，以暗通道先验的方式估计后向散射

然后，利用局部空间平均颜色，为输入获得的图估计距离相关衰减系数

从而重建水下场景，对图像进行修复。这里也可以具体参考这篇文献Akkaynak D,Treibitz T.Sea-thru:A method for removing water from underwater images[C]//Proc of the IEEE IntConf on CVPR:Hawaii,2019:1682-1691.

对比基于DCP(暗通道先验)等算法的模型，sea-thru可以更准确的估计B_c(向后散射信息)和J_c(无衰减时的真实场景)，从而更好地重建水下场景。

步骤三：构建并训练改进的yolov5模型，所述改进的yolov5模型为在用于金字塔结构的三层之前各引入一层自注意力层CBAM，并将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FreLU；所述改进的yolov5模型的输入为修复后的水下图像，输出为检测框的信息。

从修复的水下图像之中提取目标图像，目标体现为包含待检测目标的图像。对目标图像进行数据标注，形成改进的yolov5模型训练使用格式的标注文件，将标注文件分为数据集、测试集、验证集。

如图2所示，改进的yolov5模型在用于金字塔结构的三层之前各引入一层自注意力层CBAM，使得网络更加关注重要特征，并抑制不必要的特征，以便于更好地提取图像中的关键信息，并将关键信息传递给下一层和金字塔上层。具体的，原网络结构的第4层、第6层、第9层为输入金字塔结构的层，在这三层之前，各加入一层自注意力层CBAM，可以使有用信息被更好地提取出来。

如图3所示，改进的YOLOv5模型，将Conv层中的激活函数由SiLU改为可以提取二维空间信息的FReLU。FReLU激活函数表达式为

其中x_c，i，j表示c通道，(i,j)处的值，

表示以x_c，i，j为中心的池化窗口，

为池化窗口系数。因为FReLU激活函数增加的空间条件开销几乎可以忽略，利用FReLU函数，可以有效提取二维空间信息，从而更好地完成视觉任务。

利用数据集和验证集训练改进的YOLOv5模型，其中初始权重使用crowdhuman训练集训练结果的权重，其权重可从deepakcrk/yolov5-crowdhuman:Head and Persondetection using yolov5.Detection from crowd.(github.com)下载得到，训练后得到权重模型。

利用数据集并借助验证集验证改进的YOLOv5模型，得到权重模型。

其中，x,y,w,h中分别为矩形候选框的质心位置坐标以及宽高，

为相邻两帧对应状态的差分。

步骤五：对每帧图像，使用卡尔曼滤波的思想进行连续两帧图像的追踪，得到各目标状态向量的最优预测值。具体包括如下子步骤：

与输入向量u_t-1代入

计算当前帧的预测值

(5.4)根据

用预测值

与观测值z_t推出最优状态向量估计值

步骤六：设相邻两帧之间同一目标的最优预测值的落点满足正态分布，根据前一次迭代得到的预测值与检测值之间的差值作为样本进行计算正态分布的方差σ²，以此计算各落点的空间分布律。

刚开始运行时由于缺少数据，可选择先不计算相关参数，或者在一段延时后计算σ²。

步骤七：根据不同落点的空间分布律的重合程度判断出现重叠的概率，同时综合重叠发生的形态学特征(例如，出现某检测值与多个预测向量的x，y相近，而w，h大于单个预测向量的情况)作为重叠判据；若未发生重叠，则以改进的yolov5模型的输出的检测值为准；若发生重叠，则按照步骤五预测的多目标结果为准，并根据最终的状态向量对训练后的改进的yolov5模型的输出结果进行如下调整：

NMS＝NMS×f(d/L)

作为其中一种实施方式，A＝0.1，B＝0.5。

分布律服从二维正态分布N(x,μ_x,σ_x,y,μ_y,σ_y),其中，x，y为当前时刻中心位置坐标，μ_x与μ_y为下一时刻位置坐标的预测值，在x和y方向上的方差σ_x和σ_y计算方式如上。则坐标点(x′,y′)上分布的概率为

根据具体应用场景选择一个合适的阈值，作为重叠的概率判据：若两目标同时出现在坐标点(x′,y′)上的概率超过预设的阈值，则判断发生重叠。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。