CN114299375A

CN114299375A - 融合YOLOv4与可变形卷积的水下群体目标检测方法

Info

Publication number: CN114299375A
Application number: CN202111558668.4A
Authority: CN
Inventors: 于红; 李海清; 高浩天; 程思奇; 胥婧雯; 赵梦; 胡泽元
Original assignee: Dalian Ocean University
Current assignee: Dalian Ocean University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-08
Anticipated expiration: 2041-12-20
Also published as: CN114299375B

Abstract

本发明公开一种融合YOLOv4与可变形卷积的水下群体目标检测方法，是以卷积神经网络YOLOv4与可变形卷积进行融合并添加了自适应阈值输出作为网络模型，通过可变形卷积学习采样点的偏移量，从而将采样点移动到目标上，无需图像修复、图像增强以及复杂的网络结构，即可缓解水下图像模糊问题，同时通过将模块原始输入与带有偏移信息的输出结果拼接，缓解空间偏移导致的定位不准确问题。可以根据目标间的重叠程度进行自适应阈值输出，不仅可以优化损失函数，而且还为筛选提供灵活的阈值选择，从而缓解目标密集遮挡导致的漏检问题，提高水下群体目标检测的准确性及召回率。

Description

融合YOLOv4与可变形卷积的水下群体目标检测方法

技术领域

本发明涉及图像目标检测领域，尤其涉及一种融合YOLOv4与可变形卷积的水下群体目标检测方法。

背景技术

在工厂化水产养殖中，需要精准获取养殖水产品位置和分类等信息，以用于病害预警、生长监测、饵料投喂等科学的养殖指导。

现有水下群体目标检测方法主要采用计算机视觉技术，即将待检测的水下养殖群体目标图像送入网络模型中进行检测并采用NMS算法筛选，得到水下养殖群体的位置和分类信息。YOLOv4是常用的卷积神经网络之一，具体网络结构包括Backbone部分、Neck部分和Prediction部分，而Neck部分含有四个CBL*5模块，每个CBL*5模块有相互串联的五个CBL模块；Prediction部分有三路YOLOhede，分别为不同尺度下预测的输出，如52×52×(5+N)、26×26×(5+N)、13×13×(5+N)，其中5代表着1个置信度输出(预测存在物体的概率)、4个位置输出(预测框的左上右下两点的坐标)，N为种类预测输出(预测种类的概率)。其损失函数主要包括目标定位偏移量损失L_loc(l，g)、目标置信度损失L_conf(o，c)和目标分类损失L_cla(O，C)，具体如下：

Loss(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g)

其中λ₁，λ₂，λ₃为各部分权重系数，o是表示预测目标边界框中是否有目标真实存在的二值参数，c是目标真实存在的概率，O是表示预测目标边界框中是否有某类目标真实存在的二值参数，C为某类目标真实存在的概率，l是预测矩形框的坐标偏移量，g表示groundtruth矩形框与默认框之间的坐标偏移量。由于YOLOv4在提取图像特征时采用固定的采样点，故特征提取容易受到背景的影响，尤其是水下群体目标模糊时背景影响更加明显。为此，目前常采用图像修复、图像增强等方法修复图像，或者采用强化特征提取的网络结构以提取出更加精细的特征信息，导致网络结构较为复杂。另外，由于水生动物的群居习性，导致图像中密集遮挡频发，而现有YOLOv4的损失函数并没有自适应阈值部分，且只采用固定的阈值进行NMS算法筛选预测结果，容易出现漏检现象，难以保证水下群体目标检测的准确率及召回率。

可变形卷积模块(DBL)能够变化采样点位置，可提高模型的建模能力，但迄今为止并没有将YOLOv4与可变形卷积进行融合实现对水下群体目标检测的相关报道。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种融合YOLOv4与可变形卷积的水下群体目标检测方法。

本发明的技术解决方案是：一种融合YOLOv4与可变形卷积的水下群体目标检测方法，是将待检测的水下养殖群体目标图像送入网络模型中进行检测并采用NMS算法筛选，得到水下养殖群体的位置和分类信息，所述网络模型按照如下步骤构建：

步骤1.在真实水产养殖环境中收集水下养殖群体目标的视频数据，对视频数据进行预处理，获得水下养殖群体目标图片；

步骤2.采用人机结合的半自动标注方法，对水下养殖群体目标图片进行标注；

步骤3.搭建融合YOLOv4与可变形卷积的检测模型，具体是将网络模型YOLOv4中Neck部分的每个CBL*5模块的第二个模块CBL和第四个模块CBL替换为可变形卷积模块DBL，将每个CBL*5模块的第一个模块CBL的输入与第二个可变形卷积模块DBL的输出结果拼接，并将第五个CBL的卷积核设定为3*3；在网络模型YOLOv4的Prediction部分的YOLO Head卷积输出中添加自适应阈值输出；损失函数如下：

Loss(O,o,C,c,l,g,T,P)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g)+λ₄L_adap(T,P)；

L_adap(T,P)＝-∑(T ln(p)+(1-T)·ln(1-P))；

其中λ₁，λ₂，λ₃，λ₄为各部分权重系数，o是表示预测目标边界框中是否有目标真实存在的二值参数，c是目标真实存在的概率，O是表示预测目标边界框中是否有某类目标真实存在的二值参数，C为某类目标真实存在的概率，l是预测矩形框的坐标偏移量，g表示groundtruth矩形框与默认框之间的坐标偏移量；T是自适应阈值的真值，P为自适应阈值的预测结果，所述T的计算公式如下：

T＝max(iou(ti,tj))

其中t_i、t_j是预测框的真值，iou(t_i，t_j)是计算t_i和、t_j的交并比；

步骤4：将标注好的图片分为训练部分和检测部分，对所搭建的融合YOLOv4与可变形卷积的检测模型进行训练；

所述NMS算法筛选是先将预测输出的自适应阈值与固定阈值进行比较，选取最大值作为NMS算法的最终阈值进行运算。

本发明是以卷积神经网络YOLOv4与可变形卷积进行融合并添加了自适应阈值输出作为网络模型，通过可变形卷积学习采样点的偏移量，从而将采样点移动到目标上，无需图像修复、图像增强以及复杂的网络结构，即可缓解水下图像模糊问题，同时通过将模块原始输入与带有偏移信息的输出结果拼接，缓解空间偏移导致的定位不准确问题。所添加的自适应阈值输出，可以根据目标间的重叠程度进行自适应输出，不仅可以优化损失函数，而且还为筛选提供灵活的阈值选择，从而缓解目标密集遮挡导致的漏检问题，提高水下群体目标检测的准确性及召回率。

附图说明

图1是本发明实施例所搭建的检测模型结构框图。

图2、图3是本发明实验所用待检测的水下养殖群体目标图像。

图4是本发明实施例对图2的检测结果图。

图5是本发明实施例对图3的检测结果图。

图6是本发明对比例对图2的检测结果图。

图7是本发明对比例对图3的检测结果图。

具体实施方式

本发明的一种融合YOLOv4与可变形卷积的水下群体目标检测方法，与现有技术相同，是将待检测的水下养殖群体目标图像送入网络模型中进行检测并采用NMS算法筛选，得到水下养殖群体的位置和分类信息，与现有技术不同的是网络模型按照如下步骤构建：

步骤1.在真实水产养殖环境中收集水下养殖群体目标的视频数据，对视频数据进行抽帧、筛选等预处理，获得水下养殖群体目标图片；具体是从大连天正实业有限公司获取真实水产养殖环境中的养殖品视频数据，通过对视频抽帧程序，每40ms从视频中截取一张图片，筛选掉其中无法正常训练的图片，获得水下养殖群体目标图片；

步骤2.采用人机结合的半自动标注方法，对水下养殖群体目标图片进行标注：人工使用labelImg软件对水下群体目标图片进行种类和定位标注，输出格式为.xml文件，制成标准的VOC数据集格式，再将标注好的图片采用YOLOv4模型进行预训练；用预训练模型预测未标注的数据集，将预测结果转换成标注信息；人工校准机器标注数据集；

步骤3.搭建如图1所示的融合YOLOv4与可变形卷积的检测模型，是将网络模型YOLOv4中Neck部分的每个CBL*5模块的第二个模块CBL和第四个模块CBL替换为可变形卷积模块DBL，将每个CBL*5模块的第一个模块CBL的输入与第二个可变形卷积模块DBL的输出结果拼接，并将第五个CBL的卷积核设定为3*3；以卷积核为3*3为例，可变形卷积公式如下：

R＝{(-1,-1),(-1,0),...,(0,1),(1,1)}

其中R为采样点距P₀点的偏移量，P₀是卷积核中心点，Δp_n为学习到的偏移量，x(p₀+p_n+Δp_n)为特征图中添加了偏移量Δp_n的p_n点对应数值，w(Pn)为p_n点对应的卷积核权重，最终输出y(p₀)为P₀点经过卷积运算的输出值；

在网络模型YOLOv4的Prediction部分的YOLO Head卷积输出中添加自适应阈值输出，不同尺度下预测的输出则为52×52×(6+N)、26×26×(6+N)、13×13×(6+N)；损失函数如下：

L_adap(T,P)＝-∑(T ln(p)+(1-T)·ln(1-P))；

T＝max(iou(t_i,t_j))

步骤4：将标注好的图片分为训练部分和检测部分，对所搭建的融合YOLOv4与可变形卷积的检测模型进行训练；具体操作如下：

(1)将标注好的图片按9:1的比例随机分成训练集和测试集。

(2)输入的图像先进行Mosaic数据增强与图片归一化处理，将用于训练的图片归一化为416×416大小；

(3)设置检测模型的参数：训练周期设置为300、初始学习率设置为0.001、batch_size设置为6；

(4)经过Backbone部分对图片进行卷积操作，获得特征图，经过Neck部分对特征图进行特征信息提取和融合，在Neck部分中特征图经过多次上采样操作提取高维特征，再分别与不同尺度的特征融合，最后，由输出端输出检测结果，得到检测模型。

经过300个周期后，损失最终在30左右达到稳定，说明本发明检测模型是可信的。

与现有技术所不同的还有所述NMS算法筛选是先将预测输出的自适应阈值与固定阈值进行比较，选取最大值作为NMS算法的最终阈值进行运算，可以减少因为阈值过小导致的密集目标漏检问题。

实验：

使用本发明实施例训练好的模型对验证集进行检测，其中一幅原图如图2、图3所示。同时以现有YOLOv4检测模型以及采用固定阈值进行NMS算法筛选的结果做对比例，本发明实施例对图2、图3的检测结果分别如图4、图5所示，对比例对图2、图3的检测结果分别如图6、7所示。

从图4与图6对比，图5与图7对比，可以看出图6、7与图4、图5相同部位出现漏检现象。

结果表明本发明实施例的检测精度和召回率均都所提高，平均精度提高了约2％，mAP50达到了97.53％，召回率达到了98.09％。

Claims

1.一种融合YOLOv4与可变形卷积的水下群体目标检测方法，是将待检测的水下养殖群体目标图像送入网络模型中进行检测并采用NMS算法筛选，得到水下养殖群体的位置和分类信息，其特征在于所述网络模型按照如下步骤构建：

L_adap(T,P)＝-∑(Tln(p)+(1-T)·ln(1-P))；

T＝max(iou(ti,tj))