CN114299375A - 融合YOLOv4与可变形卷积的水下群体目标检测方法 - Google Patents
融合YOLOv4与可变形卷积的水下群体目标检测方法 Download PDFInfo
- Publication number
- CN114299375A CN114299375A CN202111558668.4A CN202111558668A CN114299375A CN 114299375 A CN114299375 A CN 114299375A CN 202111558668 A CN202111558668 A CN 202111558668A CN 114299375 A CN114299375 A CN 114299375A
- Authority
- CN
- China
- Prior art keywords
- target
- yolov4
- underwater
- module
- deformable convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000003044 adaptive effect Effects 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 8
- 238000009360 aquaculture Methods 0.000 claims description 7
- 244000144974 aquaculture Species 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 abstract description 8
- 238000013527 convolutional neural network Methods 0.000 abstract description 3
- 230000000052 comparative effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种融合YOLOv4与可变形卷积的水下群体目标检测方法,是以卷积神经网络YOLOv4与可变形卷积进行融合并添加了自适应阈值输出作为网络模型,通过可变形卷积学习采样点的偏移量,从而将采样点移动到目标上,无需图像修复、图像增强以及复杂的网络结构,即可缓解水下图像模糊问题,同时通过将模块原始输入与带有偏移信息的输出结果拼接,缓解空间偏移导致的定位不准确问题。可以根据目标间的重叠程度进行自适应阈值输出,不仅可以优化损失函数,而且还为筛选提供灵活的阈值选择,从而缓解目标密集遮挡导致的漏检问题,提高水下群体目标检测的准确性及召回率。
Description
技术领域
本发明涉及图像目标检测领域,尤其涉及一种融合YOLOv4与可变形卷积的水下群体目标检测方法。
背景技术
在工厂化水产养殖中,需要精准获取养殖水产品位置和分类等信息,以用于病害预警、生长监测、饵料投喂等科学的养殖指导。
现有水下群体目标检测方法主要采用计算机视觉技术,即将待检测的水下养殖群体目标图像送入网络模型中进行检测并采用NMS算法筛选,得到水下养殖群体的位置和分类信息。YOLOv4是常用的卷积神经网络之一,具体网络结构包括Backbone部分、Neck部分和Prediction部分,而Neck部分含有四个CBL*5模块,每个CBL*5模块有相互串联的五个CBL模块;Prediction部分有三路YOLOhede,分别为不同尺度下预测的输出,如52×52×(5+N)、26×26×(5+N)、13×13×(5+N),其中5代表着1个置信度输出(预测存在物体的概率)、4个位置输出(预测框的左上右下两点的坐标),N为种类预测输出(预测种类的概率)。其损失函数主要包括目标定位偏移量损失Lloc(l,g)、目标置信度损失Lconf(o,c)和目标分类损失Lcla(O,C),具体如下:
Loss(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)
其中λ1,λ2,λ3为各部分权重系数,o是表示预测目标边界框中是否有目标真实存在的二值参数,c是目标真实存在的概率,O是表示预测目标边界框中是否有某类目标真实存在的二值参数,C为某类目标真实存在的概率,l是预测矩形框的坐标偏移量,g表示groundtruth矩形框与默认框之间的坐标偏移量。由于YOLOv4在提取图像特征时采用固定的采样点,故特征提取容易受到背景的影响,尤其是水下群体目标模糊时背景影响更加明显。为此,目前常采用图像修复、图像增强等方法修复图像,或者采用强化特征提取的网络结构以提取出更加精细的特征信息,导致网络结构较为复杂。另外,由于水生动物的群居习性,导致图像中密集遮挡频发,而现有YOLOv4的损失函数并没有自适应阈值部分,且只采用固定的阈值进行NMS算法筛选预测结果,容易出现漏检现象,难以保证水下群体目标检测的准确率及召回率。
可变形卷积模块(DBL)能够变化采样点位置,可提高模型的建模能力,但迄今为止并没有将YOLOv4与可变形卷积进行融合实现对水下群体目标检测的相关报道。
发明内容
本发明是为了解决现有技术所存在的上述技术问题,提供一种融合YOLOv4与可变形卷积的水下群体目标检测方法。
本发明的技术解决方案是:一种融合YOLOv4与可变形卷积的水下群体目标检测方法,是将待检测的水下养殖群体目标图像送入网络模型中进行检测并采用NMS算法筛选,得到水下养殖群体的位置和分类信息,所述网络模型按照如下步骤构建:
步骤1.在真实水产养殖环境中收集水下养殖群体目标的视频数据,对视频数据进行预处理,获得水下养殖群体目标图片;
步骤2.采用人机结合的半自动标注方法,对水下养殖群体目标图片进行标注;
步骤3.搭建融合YOLOv4与可变形卷积的检测模型,具体是将网络模型YOLOv4中Neck部分的每个CBL*5模块的第二个模块CBL和第四个模块CBL替换为可变形卷积模块DBL,将每个CBL*5模块的第一个模块CBL的输入与第二个可变形卷积模块DBL的输出结果拼接,并将第五个CBL的卷积核设定为3*3;在网络模型YOLOv4的Prediction部分的YOLO Head卷积输出中添加自适应阈值输出;损失函数如下:
Loss(O,o,C,c,l,g,T,P)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)+λ4Ladap(T,P);
Ladap(T,P)=-∑(T ln(p)+(1-T)·ln(1-P));
其中λ1,λ2,λ3,λ4为各部分权重系数,o是表示预测目标边界框中是否有目标真实存在的二值参数,c是目标真实存在的概率,O是表示预测目标边界框中是否有某类目标真实存在的二值参数,C为某类目标真实存在的概率,l是预测矩形框的坐标偏移量,g表示groundtruth矩形框与默认框之间的坐标偏移量;T是自适应阈值的真值,P为自适应阈值的预测结果,所述T的计算公式如下:
T=max(iou(ti,tj))
其中ti、tj是预测框的真值,iou(ti,tj)是计算ti和、tj的交并比;
步骤4:将标注好的图片分为训练部分和检测部分,对所搭建的融合YOLOv4与可变形卷积的检测模型进行训练;
所述NMS算法筛选是先将预测输出的自适应阈值与固定阈值进行比较,选取最大值作为NMS算法的最终阈值进行运算。
本发明是以卷积神经网络YOLOv4与可变形卷积进行融合并添加了自适应阈值输出作为网络模型,通过可变形卷积学习采样点的偏移量,从而将采样点移动到目标上,无需图像修复、图像增强以及复杂的网络结构,即可缓解水下图像模糊问题,同时通过将模块原始输入与带有偏移信息的输出结果拼接,缓解空间偏移导致的定位不准确问题。所添加的自适应阈值输出,可以根据目标间的重叠程度进行自适应输出,不仅可以优化损失函数,而且还为筛选提供灵活的阈值选择,从而缓解目标密集遮挡导致的漏检问题,提高水下群体目标检测的准确性及召回率。
附图说明
图1是本发明实施例所搭建的检测模型结构框图。
图2、图3是本发明实验所用待检测的水下养殖群体目标图像。
图4是本发明实施例对图2的检测结果图。
图5是本发明实施例对图3的检测结果图。
图6是本发明对比例对图2的检测结果图。
图7是本发明对比例对图3的检测结果图。
具体实施方式
本发明的一种融合YOLOv4与可变形卷积的水下群体目标检测方法,与现有技术相同,是将待检测的水下养殖群体目标图像送入网络模型中进行检测并采用NMS算法筛选,得到水下养殖群体的位置和分类信息,与现有技术不同的是网络模型按照如下步骤构建:
步骤1.在真实水产养殖环境中收集水下养殖群体目标的视频数据,对视频数据进行抽帧、筛选等预处理,获得水下养殖群体目标图片;具体是从大连天正实业有限公司获取真实水产养殖环境中的养殖品视频数据,通过对视频抽帧程序,每40ms从视频中截取一张图片,筛选掉其中无法正常训练的图片,获得水下养殖群体目标图片;
步骤2.采用人机结合的半自动标注方法,对水下养殖群体目标图片进行标注:人工使用labelImg软件对水下群体目标图片进行种类和定位标注,输出格式为.xml文件,制成标准的VOC数据集格式,再将标注好的图片采用YOLOv4模型进行预训练;用预训练模型预测未标注的数据集,将预测结果转换成标注信息;人工校准机器标注数据集;
步骤3.搭建如图1所示的融合YOLOv4与可变形卷积的检测模型,是将网络模型YOLOv4中Neck部分的每个CBL*5模块的第二个模块CBL和第四个模块CBL替换为可变形卷积模块DBL,将每个CBL*5模块的第一个模块CBL的输入与第二个可变形卷积模块DBL的输出结果拼接,并将第五个CBL的卷积核设定为3*3;以卷积核为3*3为例,可变形卷积公式如下:
R={(-1,-1),(-1,0),...,(0,1),(1,1)}
其中R为采样点距P0点的偏移量,P0是卷积核中心点,Δpn为学习到的偏移量,x(p0+pn+Δpn)为特征图中添加了偏移量Δpn的pn点对应数值,w(Pn)为pn点对应的卷积核权重,最终输出y(p0)为P0点经过卷积运算的输出值;
在网络模型YOLOv4的Prediction部分的YOLO Head卷积输出中添加自适应阈值输出,不同尺度下预测的输出则为52×52×(6+N)、26×26×(6+N)、13×13×(6+N);损失函数如下:
Loss(O,o,C,c,l,g,T,P)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)+λ4Ladap(T,P);
Ladap(T,P)=-∑(T ln(p)+(1-T)·ln(1-P));
其中λ1,λ2,λ3,λ4为各部分权重系数,o是表示预测目标边界框中是否有目标真实存在的二值参数,c是目标真实存在的概率,O是表示预测目标边界框中是否有某类目标真实存在的二值参数,C为某类目标真实存在的概率,l是预测矩形框的坐标偏移量,g表示groundtruth矩形框与默认框之间的坐标偏移量;T是自适应阈值的真值,P为自适应阈值的预测结果,所述T的计算公式如下:
T=max(iou(ti,tj))
其中ti、tj是预测框的真值,iou(ti,tj)是计算ti和、tj的交并比;
步骤4:将标注好的图片分为训练部分和检测部分,对所搭建的融合YOLOv4与可变形卷积的检测模型进行训练;具体操作如下:
(1)将标注好的图片按9:1的比例随机分成训练集和测试集。
(2)输入的图像先进行Mosaic数据增强与图片归一化处理,将用于训练的图片归一化为416×416大小;
(3)设置检测模型的参数:训练周期设置为300、初始学习率设置为0.001、batch_size设置为6;
(4)经过Backbone部分对图片进行卷积操作,获得特征图,经过Neck部分对特征图进行特征信息提取和融合,在Neck部分中特征图经过多次上采样操作提取高维特征,再分别与不同尺度的特征融合,最后,由输出端输出检测结果,得到检测模型。
经过300个周期后,损失最终在30左右达到稳定,说明本发明检测模型是可信的。
与现有技术所不同的还有所述NMS算法筛选是先将预测输出的自适应阈值与固定阈值进行比较,选取最大值作为NMS算法的最终阈值进行运算,可以减少因为阈值过小导致的密集目标漏检问题。
实验:
使用本发明实施例训练好的模型对验证集进行检测,其中一幅原图如图2、图3所示。同时以现有YOLOv4检测模型以及采用固定阈值进行NMS算法筛选的结果做对比例,本发明实施例对图2、图3的检测结果分别如图4、图5所示,对比例对图2、图3的检测结果分别如图6、7所示。
从图4与图6对比,图5与图7对比,可以看出图6、7与图4、图5相同部位出现漏检现象。
结果表明本发明实施例的检测精度和召回率均都所提高,平均精度提高了约2%,mAP50达到了97.53%,召回率达到了98.09%。
Claims (1)
1.一种融合YOLOv4与可变形卷积的水下群体目标检测方法,是将待检测的水下养殖群体目标图像送入网络模型中进行检测并采用NMS算法筛选,得到水下养殖群体的位置和分类信息,其特征在于所述网络模型按照如下步骤构建:
步骤1.在真实水产养殖环境中收集水下养殖群体目标的视频数据,对视频数据进行预处理,获得水下养殖群体目标图片;
步骤2.采用人机结合的半自动标注方法,对水下养殖群体目标图片进行标注;
步骤3.搭建融合YOLOv4与可变形卷积的检测模型,具体是将网络模型YOLOv4中Neck部分的每个CBL*5模块的第二个模块CBL和第四个模块CBL替换为可变形卷积模块DBL,将每个CBL*5模块的第一个模块CBL的输入与第二个可变形卷积模块DBL的输出结果拼接,并将第五个CBL的卷积核设定为3*3;在网络模型YOLOv4的Prediction部分的YOLO Head卷积输出中添加自适应阈值输出;损失函数如下:
Loss(O,o,C,c,l,g,T,P)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)+λ4Ladap(T,P);
Ladap(T,P)=-∑(Tln(p)+(1-T)·ln(1-P));
其中λ1,λ2,λ3,λ4为各部分权重系数,o是表示预测目标边界框中是否有目标真实存在的二值参数,c是目标真实存在的概率,O是表示预测目标边界框中是否有某类目标真实存在的二值参数,C为某类目标真实存在的概率,l是预测矩形框的坐标偏移量,g表示groundtruth矩形框与默认框之间的坐标偏移量;T是自适应阈值的真值,P为自适应阈值的预测结果,所述T的计算公式如下:
T=max(iou(ti,tj))
其中ti、tj是预测框的真值,iou(ti,tj)是计算ti和、tj的交并比;
步骤4:将标注好的图片分为训练部分和检测部分,对所搭建的融合YOLOv4与可变形卷积的检测模型进行训练;
所述NMS算法筛选是先将预测输出的自适应阈值与固定阈值进行比较,选取最大值作为NMS算法的最终阈值进行运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111558668.4A CN114299375B (zh) | 2021-12-20 | 2021-12-20 | 融合YOLOv4与可变形卷积的水下群体目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111558668.4A CN114299375B (zh) | 2021-12-20 | 2021-12-20 | 融合YOLOv4与可变形卷积的水下群体目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114299375A true CN114299375A (zh) | 2022-04-08 |
CN114299375B CN114299375B (zh) | 2024-04-05 |
Family
ID=80967434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111558668.4A Active CN114299375B (zh) | 2021-12-20 | 2021-12-20 | 融合YOLOv4与可变形卷积的水下群体目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114299375B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396053A (zh) * | 2020-11-25 | 2021-02-23 | 北京联合大学 | 一种基于级联神经网络的环视鱼眼图像目标检测方法 |
CN113537106A (zh) * | 2021-07-23 | 2021-10-22 | 仲恺农业工程学院 | 一种基于YOLOv5的鱼类摄食行为识别方法 |
WO2021227366A1 (zh) * | 2020-05-14 | 2021-11-18 | 华南理工大学 | 一种多个小目标的自动准确检测方法 |
-
2021
- 2021-12-20 CN CN202111558668.4A patent/CN114299375B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021227366A1 (zh) * | 2020-05-14 | 2021-11-18 | 华南理工大学 | 一种多个小目标的自动准确检测方法 |
CN112396053A (zh) * | 2020-11-25 | 2021-02-23 | 北京联合大学 | 一种基于级联神经网络的环视鱼眼图像目标检测方法 |
CN113537106A (zh) * | 2021-07-23 | 2021-10-22 | 仲恺农业工程学院 | 一种基于YOLOv5的鱼类摄食行为识别方法 |
Non-Patent Citations (1)
Title |
---|
强伟;贺昱曜;郭玉锦;李宝奇;何灵蛟;: "基于改进SSD的水下目标检测算法研究", 西北工业大学学报, no. 04, 31 August 2020 (2020-08-31), pages 747 - 754 * |
Also Published As
Publication number | Publication date |
---|---|
CN114299375B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520229B (zh) | 图像检测方法、装置、电子设备和计算机可读介质 | |
Deng et al. | Deep learning-based automatic detection of productive tillers in rice | |
CN113537106A (zh) | 一种基于YOLOv5的鱼类摄食行为识别方法 | |
CN110598752B (zh) | 一种自动生成训练数据集的图像分类模型训练方法及系统 | |
CN110648310A (zh) | 基于注意力机制的弱监督铸件缺陷识别方法 | |
CN110288033B (zh) | 一种基于卷积神经网络的甘蔗蔗节特征识别与定位方法 | |
CN112085037B (zh) | 一种变电设备红外热故障特征提取及数字化表达方法 | |
CN110310305B (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN113642474A (zh) | 一种基于yolov5的危险区域人员监控方法 | |
KR20210127069A (ko) | 융합 모델 신경망의 성능 제어 방법 | |
CN111932639B (zh) | 一种基于卷积神经网络的不均衡缺陷样本的检测方法 | |
CN113673607A (zh) | 图像标注模型的训练及图像标注的方法及装置 | |
CN112580657A (zh) | 一种自学习字符识别方法 | |
CN110349070B (zh) | 一种短视频水印检测方法 | |
CN116092179A (zh) | 一种改进的yolox跌倒检测系统 | |
Liao et al. | 3DPhenoFish: Application for two-and three-dimensional fish morphological phenotype extraction from point cloud analysis | |
CN115147862A (zh) | 底栖动物自动识别方法、系统、电子设备和可读存储介质 | |
CN114359619A (zh) | 基于增量学习的电网缺陷检测方法、装置、设备和介质 | |
CN113095445A (zh) | 一种目标识别方法及装置 | |
CN117576195A (zh) | 一种植物叶片形态识别方法 | |
CN114299375A (zh) | 融合YOLOv4与可变形卷积的水下群体目标检测方法 | |
CN114596273B (zh) | 利用yolov4网络的陶瓷基板多种瑕疵智能检测方法 | |
Zhang et al. | Segmentation of apple point clouds based on ROI in RGB images. | |
CN113496240A (zh) | 基于YoLov3网络对显微镜下的谷子检测方法 | |
CN110334567B (zh) | 一种微地震有效信号检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |