CN116977844A - 一种轻量级水下目标实时检测方法 - Google Patents
一种轻量级水下目标实时检测方法 Download PDFInfo
- Publication number
- CN116977844A CN116977844A CN202311011314.7A CN202311011314A CN116977844A CN 116977844 A CN116977844 A CN 116977844A CN 202311011314 A CN202311011314 A CN 202311011314A CN 116977844 A CN116977844 A CN 116977844A
- Authority
- CN
- China
- Prior art keywords
- model
- underwater
- yolov8
- target
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000011897 real-time detection Methods 0.000 title claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000007500 overflow downdraw method Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机图像处理技术领域,提供一种轻量级水下目标实时检测方法,该方法包括8个步骤:针对模型提取水下复杂环境特征较差的问题,提出了一种基于FasterNet的特征提取骨干网络,能够解决水下信息模糊的问题,并保持着较快的检测速度;然后,通过修改颈部部分的模型结果为BiFPN,通过去掉小目标层和更改融合方法得到更丰富的特征,并减小的模型的尺寸。最后,将C2f内的所以卷积块都替换为GSConv卷积,以获得更轻、更快的模块。通过这些方法的组合,解决了模型检测精度,速度和尺寸之间平衡的问题,并且能够在小目标缺失的情况下提取到水下复杂环境的目标特征,保证网络能提取到输入图片的浅层特征。
Description
技术领域
本发明属于计算机图像处理技术领域,特别涉及一种轻量级水下目标实时检测方法。
背景技术
水下目标检测适用于评估水下生物的生长过程和健康状态,水下目标检测方法通过轻量化的尺寸和高效的检测速度,能够嵌入到包含GPU和CPU的嵌入式设备中,水下目标检测方法可以分为两阶段方法和一阶段方法。
两阶段方法采用区域建议模块生成候选对象建议,然后对其进行进一步分类和位置回归。曾有研究人员讨论了R-CNN的不确定性建模和硬示例挖掘问题,用于低对比度和模糊物体的水下环境中的物体检测。他们通过用不正确的先验估计放大具有挑战性的样本的加权分类损失,并用准确的先验估计减少简单样本的加权类别损失,从而增强模糊图像的特征。虽然基于两阶段算法的水下检测方法具有较高的精度,但采用两阶段策略会导致检测速度慢和模型尺寸大,不适用于水下检测环境的工业要求,不能较好的投入工业使用。
基于单阶段的方法,相对于两阶段方法,有着相对较快的速度和较小的体积。曾有研究人员使用CA注意力机制加入到C3模块中,去提升YOLOv5在水下的检测精度,注意力机制相当于外接的一个网络模块,这种操作会使得模型的尺寸变大,并且检测速度也会变慢。
上述基于两阶段和单阶段的方法存在两个问题:
第一,由于水下目标检测遇到了一些关键障碍,包括小目标分辨率低、运动引起的目标模糊以及上下文信息有限。传统的目标检测方法往往过于强调背景信息,掩盖了目标自身的特征,导致精度下降。
基于二阶段方法的模型尺寸大,检测速度慢,但精度会相对较高。而基于一阶段的方法,通常采用注意力机制的方式去提升模型精度,这导致模型尺寸变大,速度变慢。如何在保证精度的前提下,拥有轻量级的模型尺寸和快的检测速度是一个现有技术中的难题。
发明内容
基于此,本发明的目的是提供一种轻量级水下目标实时检测方法,以至少解决上述技术中的不足。
一种轻量级水下目标实时检测方法,包括以下步骤:
S1:获取水下特定目标的初始数据集;
S2:对初始数据集进行增强;
S3:更换骨干网络:将YOLOv8原始的骨干网络层全部去掉,替换为卷积加上FasterNet Block层叠加的结果;
S4:更换颈部结构:将YOLOv8的颈部结构改成BiFPN的形式,并去掉主干网络中160×160的特征图输入,也就是4倍下采样的特征图;然后采用拼接融合的方式代替BiFPN原有的融合方式;
S5:替换C2f模块为轻量块:将YOLOv8颈部原始的C2f模块,替换为轻量块;
S6:YOLOv8模型检测网络中的基于无锚盒的检测框对输入的融合后的特征图进行处理,将检测到的目标的种类、位置和置信度在输入图片中标识出来;
S7:将水下数据集输入到YOLOv8模型中,使用SGD优化器对模型进行优化;
S8:正负样本匹配和验证集验证;
S9:将训练好的权重嵌入到含有GPU和CPU的设备中,不仅能检测图片中的目标,也能检测视频中的目标,还能调用摄像头进行实时检测。
进一步地,步骤S3-S5构建了改进的YOLOv8s网络模型,包括骨干,颈部,检测头三个模块。
本发明当中的一种轻量级水下目标实时检测方法,针对模型提取水下复杂环境特征较差的问题,提出了一种基于FasterNet的特征提取骨干网络,能够解决水下信息模糊的问题,并保持着较快的检测速度;然后,通过修改颈部部分的模型结果为BiFPN,通过去掉小目标层和更改融合方法得到更丰富的特征,并减小的模型的尺寸。最后,将C2f内的所以卷积块都替换为GSConv卷积,以获得更轻、更快的模块。通过这些方法的组合,解决了模型检测精度,速度和尺寸之间平衡的问题,并且能够在小目标缺失的情况下提取到水下复杂环境的目标特征,保证网络能提取到输入图片的浅层特征。
附图说明
图1为本发明一种轻量级水下目标实时检测方法的流程图;
图2为本发明一种轻量级水下目标实时检测方法的算法模块划分图;
图3为本发明FasterNet Block结构图;
图4为本发明轻量块的组成图;
图5为本发明GSConv的结构图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
请参阅图1,一种轻量级水下目标实时检测方法,其特征在于,包括以下步骤:
S1:获取水下特定目标的初始数据集:初始数据集是利用标记软件对获取的水下图像进行标记,将图像中的各种目标用特定的方框标记出来。将标记好的文件生成为txt格式,其中每一行都为一个目标,通过空格隔开,第一个数字对应着类别,后面4个数字对应着目标框在图片中的位置;
S2:对初始数据集进行增强:采用YOLOv8自带是数据增强算法,对数据集进行增强操作;
S3:更换骨干网络:将YOLOv8原始的骨干网络层全部去掉,替换为卷积加上FasterNet Block层叠加的结果;如图2所示,每个FasterNet Block有着不一样的下采样倍数,也就是可以输出不同尺度的特征信息;选择输出特征图大小为80×80、40×40和20×20的输入到颈部模块中。
S4:更换颈部结构:将YOLOv8的颈部结构改成BiFPN的形式,并去掉主干网络中160×160的特征图输入,也就是4倍下采样的特征图;然后采用拼接融合的方式代替BiFPN原有的融合方式;拼接融合方式通过对通道数求和来丰富图像本身的特征数量,从而将两个特征图的通道宽度拼接起来形成新的特征图(N,C1+C2,H,W)具有以下公式:C=Concat(A,B)
其中Concat代表拼接操作,拼接融合将两个特征图A和B沿同一维度连接起来,得到新的特征C1+C2。
S5:替换C2f模块为轻量块:将YOLOv8颈部原始的C2f模块,替换为轻量块,如图3所示;GSConv组成如图4所示。该模块有着快速的检测速度和轻量化的体积,并能保证精度的准确性。
S6:YOLOv8模型检测网络中的基于无锚盒的检测框对输入的融合后的特征图进行处理,将检测到的目标的种类、位置和置信度在输入图片中标识出来;
S7:将水下数据集输入到YOLOv8模型中,使用SGD优化器对模型进行优化;batchsize设置为64,学习速率为10-2。设置相应的训练次数,一般为100次,随着训练次数的增加,YOLOv8模型的损失函数曲线逐渐收敛,当损失函数曲线收敛并稳定时,YOLOv8模型训练到最优,并生成相应的权重文件;
S8:正负样本匹配和验证集验证:首先,是正负样本分配,采用的分配方法为TaskAlignedAssigner策略,其中正样本的选择是由目标分类和回归的加权值而得到,其公式如下:
t=sα×uβ
s为预测分数,u为iou值。通过预测框与标签重合的iou的加权可以得到对齐分数,对于每个标签,可以基于对齐分数直接选取最大的值为正样本。
Loss计算:Loss计算可以分为两个部分,分别为分类与回归:分类使用的是BCELoss,回归使用的是Distribution Focal Loss与Ciou过滤相结合。三个Loss采用的加权比例为:7.5:0.5:1.5。其中BCE Loss公式如下:
其中y为标签,σ为预测结果。DF Loss能使得网络能够快速聚焦到标签所在的位置,将标签所处地方的概率密度尽可能大。主要使用了交叉熵函数来优化标签左右的分布概率,DF Loss的公式如下:
L(Si,Si+1)=-((yi+1-y)log(Si)+(y-yi)log(Si+1))
其中Si为网络的sigmod激活函数输出,y为标签值。
其次,验证集验证过程:每训练一次,网络都会生成一个权重模型。通过验证集对训练好的权重模型进行验证,这将会得出一个预测精度。通过不断迭代次数,比较每次训练生成的权重文件所得出的预测精度,最终得到一个精度最高的权重,作为最后训练好的权重。
S9:将训练好的权重嵌入到含有GPU和CPU的设备中,不仅能检测图片中的目标,也能检测视频中的目标,还能调用摄像头进行实时检测。
步骤S3-S5构建了改进的YOLOv8s网络模型,包括骨干,颈部,检测头三个模块,如图2所示,卷积块由卷积,批量正则化(BN)和激活函数(SiLU)组成;SPPF模块是由卷积块和三个池化层融合所组成,SPPF模块是YOLOv8中使用的一个空间金字塔池化模块,其作用是在不改变特征图大小的情况下,对不同尺度的特征图进行池化操作,从而提高目标检测的准确率。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (2)
1.一种轻量级水下目标实时检测方法,其特征在于,包括以下步骤:
S1:获取水下特定目标的初始数据集;
S2:对初始数据集进行增强;
S3:更换骨干网络:将YOLOv8原始的骨干网络层全部去掉,替换为卷积加上FasterNetBlock层叠加的结果;
S4:更换颈部结构:将YOLOv8的颈部结构改成BiFPN的形式,并去掉主干网络中160×160的特征图输入,也就是4倍下采样的特征图;然后采用拼接融合的方式代替BiFPN原有的融合方式;
S5:替换C2f模块为轻量块:将YOLOv8颈部原始的C2f模块,替换为轻量块;
S6:YOLOv8模型检测网络中的基于无锚盒的检测框对输入的融合后的特征图进行处理,将检测到的目标的种类、位置和置信度在输入图片中标识出来;
S7:将水下数据集输入到YOLOv8模型中,使用SGD优化器对模型进行优化;
S8:正负样本匹配和验证集验证;
S9:将训练好的权重嵌入到含有GPU和CPU的设备中,不仅能检测图片中的目标,也能检测视频中的目标,还能调用摄像头进行实时检测。
2.根据权利要求1所述的一种轻量级水下目标实时检测方法,其特征在于,所述步骤S3-S5构建了改进的YOLOv8s网络模型,包括骨干,颈部,检测头三个模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311011314.7A CN116977844A (zh) | 2023-08-11 | 2023-08-11 | 一种轻量级水下目标实时检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311011314.7A CN116977844A (zh) | 2023-08-11 | 2023-08-11 | 一种轻量级水下目标实时检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977844A true CN116977844A (zh) | 2023-10-31 |
Family
ID=88476576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311011314.7A Pending CN116977844A (zh) | 2023-08-11 | 2023-08-11 | 一种轻量级水下目标实时检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116977844A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593674A (zh) * | 2024-01-18 | 2024-02-23 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
CN117764969A (zh) * | 2023-12-28 | 2024-03-26 | 广东工业大学 | 多视角成像系统及轻量化多尺度特征融合缺陷检测方法 |
-
2023
- 2023-08-11 CN CN202311011314.7A patent/CN116977844A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117764969A (zh) * | 2023-12-28 | 2024-03-26 | 广东工业大学 | 多视角成像系统及轻量化多尺度特征融合缺陷检测方法 |
CN117593674A (zh) * | 2024-01-18 | 2024-02-23 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
CN117593674B (zh) * | 2024-01-18 | 2024-05-03 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN112270347A (zh) | 一种基于改进ssd的医疗废弃物分类检测方法 | |
CN112801169B (zh) | 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 | |
CN116977844A (zh) | 一种轻量级水下目标实时检测方法 | |
CN115049952B (zh) | 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法 | |
CN111368637B (zh) | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 | |
CN112364747B (zh) | 一种有限样本下的目标检测方法 | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
CN115861715B (zh) | 基于知识表示增强的图像目标关系识别算法 | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN115661860A (zh) | 一种狗行为动作识别技术的方法、装置、系统及存储介质 | |
CN113963333B (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
CN111709442A (zh) | 一种面向图像分类任务的多层字典学习方法 | |
Shankar et al. | Comparing YOLOV3, YOLOV5 & YOLOV7 Architectures for Underwater Marine Creatures Detection | |
Sun et al. | A Metaverse text recognition model based on character-level contrastive learning | |
CN114491289A (zh) | 一种双向门控卷积网络的社交内容抑郁检测方法 | |
CN117611963A (zh) | 基于多尺度扩展残差网络的小目标检测方法及系统 | |
CN117173547A (zh) | 一种基于改进的YOLOv6算法的水下目标检测方法 | |
CN112991281A (zh) | 视觉检测方法、系统、电子设备及介质 | |
CN116935438A (zh) | 一种基于模型结构自主进化的行人图像重识别方法 | |
CN116704196A (zh) | 一种训练图像语义分割模型的方法 | |
Luo et al. | Infrared Road Object Detection Based on Improved YOLOv8. | |
CN117011640A (zh) | 基于伪标签滤波的模型蒸馏实时目标检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |