CN115410078A - 一种低质量水下图像鱼类目标检测方法 - Google Patents
一种低质量水下图像鱼类目标检测方法 Download PDFInfo
- Publication number
- CN115410078A CN115410078A CN202211064657.5A CN202211064657A CN115410078A CN 115410078 A CN115410078 A CN 115410078A CN 202211064657 A CN202211064657 A CN 202211064657A CN 115410078 A CN115410078 A CN 115410078A
- Authority
- CN
- China
- Prior art keywords
- network
- module
- target detection
- network model
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 241000251468 Actinopterygii Species 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 22
- 238000011161 development Methods 0.000 description 8
- 238000011176 pooling Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000001629 suppression Effects 0.000 description 6
- 238000009360 aquaculture Methods 0.000 description 5
- 244000144974 aquaculture Species 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 1
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000013505 freshwater Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种低质量水下图像鱼类目标检测方法,包括以下步骤:采集水下图像数据集,对所述图像数据集进行预处理,获得模型数据集;构建GCANet网络模型,基于所述GCANet网络模型构建HF‑GCANet去雾网络模型;基于所述HF‑GCANet去雾网络模型,结合YOLOv4网络构建GCA‑YOLOv4目标检测网络模型;基于所述模型数据集,训练所述GCA‑YOLOv4目标检测网络模型;基于训练好的所述GCA‑YOLOv4目标检测网络模型对待识别图像进行检测、分类,得到预测框位置信息和分类信息。本发明普适性强,可通过扩充数据集训练实现更多种类的鱼类目标检测。
Description
技术领域
本发明涉及海洋资源勘探领域,具体涉及一种低质量水下图像鱼类目标检测方法。
背景技术
海岸带是临海国家宝贵的国土资源,也是海洋开发、经济发展的基地,准确地提取海岸线分析海岸线的变迁情况,为政府部门加强对海岸带的监管和治理提供决策支持,对沿海地区的经济建设和海岸资源的可持续开发具有十分重要意义。渔业已成为促进我国农村经济繁荣的重要产业,据统计2019年全社会渔业产值12934.49亿元,渔业人口达1828.20万人,渔船总数73.12万艘。但是随着渔业的大规模发展,各种问题也应运而生。如今淡水养殖对水资源消耗、土地资源的占有越来越大,资源的过度使用导致资源单位价格上升,进而增加了养殖的成本。过去粗放单一的水产养殖方式的单位面积产出已不能满足预期的收益,在一定程度上限制了水产养殖业的发展进程。在资源匮乏的制约下,我国水产养殖产业累积了一定的生产矛盾,单纯的扩大生产规模已经不能满足长远的渔业可持续发展,如何更充分得利用物质资源是发展渔业所必须考虑的。因此应当更加注重水产养殖的合理化、规范化,充分利用现代高新技术为高效率养殖方式提供依据与支撑。
目前应用于图像目标检测的方法主要包括两类:双阶段目标检测和单阶段目标检测。双阶段目标检测网络将目标检测分为两个步骤:首先将图像输入到候选框推荐网络(RPN)中得到若干候选框输出,然后将候选框区域内信息输入到卷积神经网络进行回归得到分类输出。单阶段目标检测网络仅需在目标检测过程中将图像输入到主干神经网络一次即可得到预测目标的类别信息与位置信息,无需经过候选框推荐网络(RPN)生成候选框信息,算法时间复杂度较低,具有较高的实时性,但同时也牺牲了一部分准确度。
由于水下鱼类目标检测通常为实时视频图像目标检测,要求实时性较高,因此更多采用单阶段目标检测网络。目前单阶段目标检测网络迅速发展,包括SSD、YOLOv4等新算法不断涌现,其检测精度与检测速度得到很大提高,成为图像目标检测的主流方法。
近年来针对水下图像鱼类目标检测,国内外学者不断研究并取得了一定成果。巴基斯坦国立科技大学的Ahsan Jalal等人于2020年将光流和高斯混合模型与YOLO网络模型相结合,提高了在背景中伪装的鱼的检测准确率;阿格德尔大学的Kristian等人于2021年提出了一种将CNN-SE(融合压缩与激励网络的卷积神经网络)模块与YOLO模型相结合的鱼类识别方法,提高了温带鱼类检测准确率;中国海洋大学的李庆忠等人于2019年对YOLO网络模型增加特征融合,提高了水下鱼类目标检测准确率。
上述国内外研究成果仅从图像特征信息提取方面对目标检测网络模型进行改进,缺少对原始图像数据增强处理,会导致对于低质量水下图像检测准确率低于高质量水下图像。
发明内容
针对现有图像检测方法多以图像特征融合作为改进点,仅对高质量图像有明显效果,对低质量水下图像效果差,准确率低的问题,本发明提出一种低质量水下图像鱼类目标检测方法,以图像去雾网络GCANet为基础,利用混合空洞卷积与特征金字塔网络改进并提出新的图像去雾网络HF-GCANet;借助HF-GCANet对低质量水下图像的去雾增强效果,将HF-GCANet融入YOLOv4设计出应用于低质量水下图像的鱼类目标检测方法。
为实现上述目的,本发明提供了如下方案:一种低质量水下图像鱼类目标检测方法,包括以下步骤:
S1、采集水下图像数据集,对所述图像数据集进行预处理,获得模型数据集;
S2、构建GCANet网络模型,基于所述GCANet网络模型构建HF-GCANet去雾网络模型;
S3、基于所述HF-GCANet去雾网络模型,结合YOLOv4网络构建GCA-YOLOv4目标检测网络模型;
S4、基于所述模型数据集,训练所述GCA-YOLOv4目标检测网络模型;
S5、基于训练好的所述GCA-YOLOv4目标检测网络模型对待识别图像进行检测、分类,得到预测框位置信息和分类信息。
优选的,所述S1获得所述模型数据集的方法包括:
采集预设数据中的小型鱼类视频,提取所述视频中的每一帧,转换为图像形式,获得所述图像数据集;
对所述图像数据集按时间段、帧序号进行命名并转换为YOLO格式,获得所述模型数据集。
优选的,所述S2所述GCANet网络模型包括:自动编码器、平滑扩充模块和融入门控融合子网络;
所述自动编码器由3个卷积层构成,所述卷积层的通道数量为64,卷积核尺寸均为3×3;
所述自动编码器的最后一个卷积层采用1/2步幅的下采样;
所述平滑扩充模块由6个平滑空洞残差单元和1个残差单元构成;
所述融入门控融合子网络由1个门控融合子网络、1个转置卷积层、2个卷积层构成。
优选的,所述S2所述HF-GCANet去雾网络模型构建方法包括:
采用混合空洞卷积代替所述GCANet网络模型中的平滑空洞卷积;
采用特征金字塔网络代替所述GCANet网络模型中融入门控融合子网络。
优选的,所述混合空洞卷积包括:反卷积层1、反卷积层2、反卷积层3、反卷积层4、反卷积层5、反卷积层6;
所述反卷积层1、反卷积层2、反卷积层3的输入输出通道数均为64、步幅为1,dilated rate分别为1、2、3;
所述反卷积层4的输入通道数为64、输出通道数为128、步幅为2、dilated rate为1;
所述反卷积层5的输入通道数为128、输出通道数为256、步幅为2、dilated rate为2;
所述反卷积层6的输入通道数为256、输出通道数为512、步幅为2、dilated rate为3。
优选的,所述S3所述YOLOv4网络包括:输入模块、主干网络模块、特征提取模块、输出模块;
所述输入模块包括:Mosaic单元、CmBN单元和SAT单元;
所述主干网络模块包括:CBM单元、CSP单元;
所述特征提取模块包括:SPP单元、FPN单元。
优选的,所述S3所述GCA-YOLOv4目标检测网络模型包括:输入模块、HF-GCA模块、主干网络模块、特征提取模块和输出模块;
所述HF-GCA模块包括自动编码器、混合空洞卷积单元和特征金字塔网络单元。
优选的,所述S5得到所述预测框位置信息和所述分类信息的方法包括:
步骤1、将所述待识别图像输入至所述输入模块进行图像增强,得到增强图像;
步骤2、将所述增强图像输入至所述HF-GCA模块,得到去雾图像;
步骤3、将所述去雾图像输入至所述主干网络模块中进行特征提取,得到特征图;
步骤4、将所述特征图输入至所述特征提取模块中进行特征融合,得到融合特征向量;
步骤5、将所述融合特征向量输入至所述输出模块,得到所述预测框位置信息和所述分类信息。
本发明的有益效果为:
本发明与其他主流目标检测相比,融合了GCANet和YOLOv4实现低质量水下图像鱼类目标检测,对海洋渔业资源的勘探和可持续发展有重要意义;本发明的低质量水下图像鱼类目标检测方法普适性强,可通过扩充数据集训练实现更多种类的鱼类目标检测。
附图说明
为了更清楚地说明本发明的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明步骤流程示意图;
图2为本发明GCANet网络模型结构示意图;
图3为本发明特征金字塔网络结构示意图;
图4为本发明HF-GCANet去雾网络模型结构示意图;
图5为本发明混合空洞卷积结构示意图;
图6为本发明FPN单元结构示意图;
图7为本发明YOLOv4网络结构示意图;
图8为本发明GCA-YOLOv4目标检测网络模型结构示意图;
图9为本发明模型数据集中部分图像数据示意图;
图10为本发明GCA-YOLOv4目标检测网络模型目标检测结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,为本发明一种低质量水下图像鱼类目标检测方法流程示意图,方法包括如下步骤:
S1、采集水下图像数据集,对所述图像数据集进行预处理,获得模型数据集;
本实施例采用公开的欧洲水下图像数据集The Brackish Dataset其中小型鱼类的视频,使用ffmpeg提取视频中的每一帧,共转换为3290幅图像,每幅图像按照时间段加帧序号进行命名。根据名称从数据集原有的标注文件中匹配出每幅图像的标注信息,转换成YOLO标注格式,得到模型数据集。如图9所示,为模型数据集中部分图像数据;最后对模型数据集按照80%、10%、10%的比例划分训练集、验证集、测试集。
S2、构建GACNet网络模型,基于所述GCANet网络模型构建HF-GCANet去雾网络模型;
如图2所示,为GCANet网络模型结构示意图;GCANet网络模型包括:自动编码器、平滑扩充模块和融入门控融合子网络。
自动编码器由3个卷积层构成,将输入的带雾图像编码为特征图像。其中最后一个卷积层采用了1/2步幅的下采样,增大感受野、减少特征提取计算量。3个卷积层的通道数量均为64,且卷积核尺寸均为3×3,使自动编码器获得更多图像特征信息的同时减少计算时间。
平滑扩充模块由6个平滑空洞残差单元和1个残差单元构成,以此学习去雾图像与清晰图像之间的残差;每个平滑空洞残差单元由2个可分离、可共享的卷积层和2个普通卷积层交叉构成。其中可分离、可共享的卷积层将卷积核划分为两个较小尺寸的卷积核,使待优化权重分别单独计算,同时将权重共享到各个卷积通道中。此外,每个平滑空洞残差单元输出时都会将其输入叠加到输出一起作为下一个平滑空洞残差单元的输入,使得网络获取高层次语义信息的同时保留低层次语义信息。
融入门控融合子网络由1个门控融合子网络、1个转置卷积层、2个卷积层构成。门控融合子网络将自动编码器部分的输出、平滑扩充模块中第4、第7残差模块的输出连接起来,一同作为其卷积层的输出,最后将卷积输出与三部分输入相乘之后再叠加,作为门控融合子网络的输出。随后经过反卷积层的1/2步长上采样,特征图分辨率变为原始图像分辨率。最后通过2个卷积层将特征图恢复到正常图像维度,输出的雾气残差与带雾图像叠加得到去雾图像。
HF-GCANet去雾网络模型构建方法包括:
采用混合空洞卷积代替GCANet网络模型中的平滑空洞卷积;如图5所示为混合空洞卷积结构示意图;
上述混合空洞卷积包括:反卷积层1、反卷积层2、反卷积层3、反卷积层4、反卷积层5、反卷积层6;反卷积层1、反卷积层2、反卷积层3的输入输出通道数均为64、步幅为1,dilated rate分别为1、2、3;反卷积层4的输入通道数为64、输出通道数为128、步幅为2、dilated rate为1;反卷积层5的输入通道数为128、输出通道数为256、步幅为2、dilatedrate为2;反卷积层6的输入通道数为256、输出通道数为512、步幅为2、dilated rate为3。所有空洞卷积层的卷积核尺寸均为3×3。每个空洞卷积层的输出均进行通道内归一化,加速网络收敛,利于图像风格化迁移。
采用特征金字塔网络代替GCANet网络模型中融入门控融合子网络。特征金子塔网络相较于原先的门控融合子网络增加了自上而下的特征提取结构。如图3所示,为特征金字塔网络结构示意图。
如图4所示为HF-GCANet去雾网络模型结构示意图;HF-GCANet去雾网络模型对带雾图像进行去雾处理的流程如下:
1.将带雾图像输入卷积层1,使图像通道数增至64;
2.将64通道图像向量输入卷积层2,引入更多非线性参量;
3.将上一步输出输入卷积层3进行下采样,使图像向量维度减半;
4.将维度减半的图像向量输入到HDC-FPN模块中,得到多尺度融合特征图;
5.将多尺度融合特征图输入到反卷积层3进行上采样,恢复特征图至原始维度;
6.将原始维度特征图输入到反卷积层2中,引入更多非线性参量;
7.将上一步输出输入反卷积层1,使图像通道数降低至3,输出去雾图像。
S3、基于HF-GCANet去雾网络模型,结合YOLOv4网络构建GCA-YOLOv4目标检测网络模型;
如图7所示,为YOLOv4网络结构示意图;YOLOv4网络包括:输入模块、主干网络模块、特征提取模块、输出模块;输入模块包括:Mosaic单元、CmBN单元和SAT单元;分别采用了数据增强方法Mosaic、交叉小批量标准化和自对抗训练优化方法,对输入的训练数据集进行增强。Mosaic数据增强方法使用随机比例缩放、随机范围裁剪、随机位置排布的方式,将4幅原始图像拼接为1幅图像,作为输入模块的数据输入;随机比例缩放与随机范围裁剪会将部分大、中尺寸目标转换为小尺寸目标,多幅图像合并的方法也会提高单幅图像中小目标占比,因此通过Mosaic对数据增强可以有效解决数据集中不同尺度目标分布不均的问题。
主干网络模块包括:CBM单元、CSP单元;CBM为YOLOv4网络结构中的最小构成单元,由卷积层、批量归一化层、激活函数三者组成。CBM单元的激活函数为Leaky_Relu。CSP单元结构类似于CSPNet结构,由多个Res unit单元、CBM单元以及Concat单元构成。Concat单元用于向量之间的连接操作。Res unit单元类似于ResNet中的残差结构,用于增大网络深度。
特征提取模块包括:SPP单元、FPN单元;SPP单元类似空间特征金字塔结构,由3个不同步幅、尺寸、池化大小最大池化单元以及连接单元构成;池化层将输入特征池化,得到多个不同通道数的特征向量,最后将所有特征向量组合得到固定尺寸的特征向量;SPP模块使卷积特征提取网络的输入尺寸不受限制,同时可以得到固定尺寸的特征输出以匹配后续网络中的全连接层,极大增加网络灵活性;其不同池化核大小的最大池化层可以提取多个尺度的特征信息,有利于提高网络检测精度。如图6所示,为FPN单元结构示意图,FPN模块通过增加自上而下网络与SPP模块的自下而上网络相结合,增强低层级和高层级的语义特征。为了强化定位特征信息,YOLOv4在FPN模块之后增加了新的自下而上特征金字塔,与FPN模块中的自上而下网络相融合。金字塔每层之间采用PAN结构,将原始PAN中两个特征图叠加融合出下一层特征图改为连接融合,使特征图的尺寸逐层递增,进一步提高了网络特征提取能力。
输出模块中采用了完全交并比损失函数作为网络整体损失函数。交并比函数如下公式所示:
式中,A代表真实目标框范围,B代表预测目标框范围。完全交并比损失函数具体表达式如下公式所示:
式中ρ代表欧氏距离,b表示预测目标框中心点,bgt表示真实目标框中心点,c代表预测目标框与真实目标框之间最小外接矩阵的对角线距离,α代表权衡参数,v代表宽高比一致性参数。v的具体定义如下公式所示:
式中w表示预测目标框宽度,h表示预测目标框高度,wgt表示真实目标框宽度,hgt表示真实目标框高度。α的具体定义如式所示:
式中IoU代表真实目标框范围与预测目标框范围的交并比。完全交并比损失函数综合考虑了目标框与预测框之间的重叠面积、宽高比例以及中心点距离这三个重要的几何要素,使多个目标框之间重叠、包含等情况下的损失函数回归更快速、准确。
输出模块中,YOLOv4还采用了基于距离交并比的非极大值抑制方法,代替原始的非极大值抑制方法。目标检测的过程中需要通过滑动窗口对图像进行特征提取,对提取的特征分类检测后赋予每个滑动窗口类别分数。在实际应用过程中,大量的滑动窗口会出现相互之间包含、重叠的现象,导致同一个目标会产生多个检测框结果,影响网络最终检测效果。为了解决非极大值抑制方法错误抑制冗余的问题,基于距离交并比的非极大值抑制方法在非极大值抑制方法的基础上采用DIOU替代IOU作为抑制冗余的基准,综合考量目标检测框之间的重叠率与中心点距离,使重叠率较高但中心点距离较远的两个目标检测框都可以保留,减少了目标漏检率。
如图8所示,为GCA-YOLOv4目标检测网络模型结构示意图;GCA-YOLOv4目标检测网络模型包括:输入模块、HF-GCA模块、主干网络模块、特征提取模块和输出模块;HF-GCA模块包括自动编码器、混合空洞卷积单元和特征金字塔网络单元。
S4、基于所述模型数据集,训练GCA-YOLOv4目标检测网络模型;
GCA-YOLOv4目标检测网络模型训练过程如下:
(1)将训练集图像输入到输入模块中。首先通过Mosaic图像增强单元,将四张图像进行随机裁剪,拼接成一张图作为训练数据。随后经过CmBN批量归一化处理,最后通过SAM空间注意力机制得到不同位置的权重系数。
(2)将输入模块获取到的特征图像输入到HF-GCA模块中,经过自编码、混合空洞卷积、特征金字塔网络的处理,得到去雾后的特征图像。
(3)将去雾后的特征图像输入到主干网络模块中,依次经过卷积与批量归一化处理以及多个跨阶段对等网络CSP模块处理,得到图像特征向量。
(4)将特征向量输入到特征提取模块中,分成三部分依次经过卷积、批量归一化、空间金字塔池化、通道连接处理,得到多尺度融合的特征向量。
(5)将多尺度特征向量输入到输出中,经过卷积、批量归一化处理,得到预测框位置信息与分类信息。预测框位置信息损失函数采用完全交并比损失函数。分类信息损失函数采用二元交叉熵,如下所示:
式中N代表样本总数,i代表第i个样本,yi代表第i个样本的二元标签值,p(yi)代表预测属于yi标签的概率。
根据损失函数调整网络参数,回到步骤(1)进行下一轮训练。
S5、基于训练好的所述GCA-YOLOv4目标检测网络模型对待识别图像进行检测、分类,得到预测框位置信息和分类信息。
如图10所示,为本发明GCA-YOLOv4目标检测网络模型目标检测结果示意图;得到预测框位置信息和分类信息的方法包括:
步骤1、将所述待识别图像输入至所述输入模块进行图像增强,得到增强图像;
步骤2、将所述增强图像输入至所述HF-GCA模块,得到去雾图像;
步骤3、将所述去雾图像输入至所述主干网络模块中进行特征提取,得到特征图;
步骤4、将所述特征图输入至所述特征提取模块中进行特征融合,得到融合特征向量;
步骤5、将所述融合特征向量输入至所述输出模块,得到所述预测框位置信息和所述分类信息。
实施例二
通过上述验证集和测试集进行实验进行检验,本实施例采用评价指标包括AP、AP50、AP75进行对比评价,表明本发明提出的方法在平均精度方面优于主流目标检测网络SSD、CenterNet2、YOLOv4。具体评价指标对比如表1所示:
表1
本发明与其他主流目标检测相比,融合了GCANet和YOLOv4实现低质量水下图像鱼类目标检测,对海洋渔业资源的勘探和可持续发展有重要意义;本发明的低质量水下图像鱼类目标检测方法普适性强,可通过扩充数据集训练实现更多种类的鱼类目标检测。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (8)
1.一种低质量水下图像鱼类目标检测方法,其特征在于,包括以下步骤:
S1、采集水下图像数据集,对所述图像数据集进行预处理,获得模型数据集;
S2、构建GCANet网络模型,基于所述GCANet网络模型构建HF-GCANet去雾网络模型;
S3、基于所述HF-GCANet去雾网络模型,结合YOLOv4网络构建GCA-YOLOv4目标检测网络模型;
S4、基于所述模型数据集,训练所述GCA-YOLOv4目标检测网络模型;
S5、基于训练好的所述GCA-YOLOv4目标检测网络模型对待识别图像进行检测、分类,得到预测框位置信息和分类信息。
2.根据权利要求1所述一种低质量水下图像鱼类目标检测方法,其特征在于,所述S1获得所述模型数据集的方法包括:
采集预设数据中的小型鱼类视频,提取所述视频中的每一帧,转换为图像形式,获得所述图像数据集;
对所述图像数据集按时间段、帧序号进行命名并转换为YOLO格式,获得所述模型数据集。
3.根据权利要求1所述一种低质量水下图像鱼类目标检测方法,其特征在于,所述S2所述GCANet网络模型包括:自动编码器、平滑扩充模块和融入门控融合子网络;
所述自动编码器由3个卷积层构成,所述卷积层的通道数量为64,卷积核尺寸均为3×3;
所述自动编码器的最后一个卷积层采用1/2步幅的下采样;
所述平滑扩充模块由6个平滑空洞残差单元和1个残差单元构成;
所述融入门控融合子网络由1个门控融合子网络、1个转置卷积层、2个卷积层构成。
4.根据权利要求3所述一种低质量水下图像鱼类目标检测方法,其特征在于,所述S2所述HF-GCANet去雾网络模型构建方法包括:
采用混合空洞卷积代替所述GCANet网络模型中的平滑空洞卷积;
采用特征金字塔网络代替所述GCANet网络模型中融入门控融合子网络。
5.根据权利要求4所述一种低质量水下图像鱼类目标检测方法,其特征在于,所述混合空洞卷积包括:反卷积层1、反卷积层2、反卷积层3、反卷积层4、反卷积层5、反卷积层6;
所述反卷积层1、反卷积层2、反卷积层3的输入输出通道数均为64、步幅为1,dilatedrate分别为1、2、3;
所述反卷积层4的输入通道数为64、输出通道数为128、步幅为2、dilated rate为1;
所述反卷积层5的输入通道数为128、输出通道数为256、步幅为2、dilated rate为2;
所述反卷积层6的输入通道数为256、输出通道数为512、步幅为2、dilated rate为3。
6.根据权利要求1所述一种低质量水下图像鱼类目标检测方法,其特征在于,所述S3所述YOLOv4网络包括:输入模块、主干网络模块、特征提取模块、输出模块;
所述输入模块包括:Mosaic单元、CmBN单元和SAT单元;
所述主干网络模块包括:CBM单元、CSP单元;
所述特征提取模块包括:SPP单元、FPN单元。
7.根据权利要求1所述一种低质量水下图像鱼类目标检测方法,其特征在于,所述S3所述GCA-YOLOv4目标检测网络模型包括:输入模块、HF-GCA模块、主干网络模块、特征提取模块和输出模块;
所述HF-GCA模块包括自动编码器、混合空洞卷积单元和特征金字塔网络单元。
8.根据权利要求7所述一种低质量水下图像鱼类目标检测方法,其特征在于,所述S5得到所述预测框位置信息和所述分类信息的方法包括:
步骤1、将所述待识别图像输入至所述输入模块进行图像增强,得到增强图像;
步骤2、将所述增强图像输入至所述HF-GCA模块,得到去雾图像;
步骤3、将所述去雾图像输入至所述主干网络模块中进行特征提取,得到特征图;
步骤4、将所述特征图输入至所述特征提取模块中进行特征融合,得到融合特征向量;
步骤5、将所述融合特征向量输入至所述输出模块,得到所述预测框位置信息和所述分类信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211064657.5A CN115410078A (zh) | 2022-09-01 | 2022-09-01 | 一种低质量水下图像鱼类目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211064657.5A CN115410078A (zh) | 2022-09-01 | 2022-09-01 | 一种低质量水下图像鱼类目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115410078A true CN115410078A (zh) | 2022-11-29 |
Family
ID=84164505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211064657.5A Pending CN115410078A (zh) | 2022-09-01 | 2022-09-01 | 一种低质量水下图像鱼类目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115410078A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909221A (zh) * | 2023-02-16 | 2023-04-04 | 江西博微新技术有限公司 | 图像识别方法、系统、计算机设备及可读存储介质 |
CN116977929A (zh) * | 2023-07-31 | 2023-10-31 | 广西大学 | 基于鱼类打水行为监测的种群识别方法及系统 |
-
2022
- 2022-09-01 CN CN202211064657.5A patent/CN115410078A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909221A (zh) * | 2023-02-16 | 2023-04-04 | 江西博微新技术有限公司 | 图像识别方法、系统、计算机设备及可读存储介质 |
CN116977929A (zh) * | 2023-07-31 | 2023-10-31 | 广西大学 | 基于鱼类打水行为监测的种群识别方法及系统 |
CN116977929B (zh) * | 2023-07-31 | 2024-06-11 | 广西大学 | 基于鱼类打水行为监测的种群识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325155B (zh) | 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 | |
CN108229550B (zh) | 一种基于多粒度级联森林网络的云图分类方法 | |
CN115410078A (zh) | 一种低质量水下图像鱼类目标检测方法 | |
CN108805070A (zh) | 一种基于嵌入式终端的深度学习行人检测方法 | |
CN109472298A (zh) | 用于小尺度目标检测的深度双向特征金字塔增强网络 | |
CN112818849B (zh) | 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法 | |
CN111950515A (zh) | 一种基于语义特征金字塔网络的小人脸检测方法 | |
CN113743505A (zh) | 基于自注意力和特征融合的改进ssd目标检测方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN112507904B (zh) | 一种基于多尺度特征的教室人体姿态实时检测方法 | |
CN115810157A (zh) | 一种基于轻量级特征融合的无人机目标检测方法 | |
CN115205667A (zh) | 一种基于YOLOv5s的密集目标检测方法 | |
CN114581552A (zh) | 一种基于生成对抗网络的灰度图像彩色化方法 | |
CN114092815A (zh) | 一种大范围光伏发电设施遥感智能提取方法 | |
CN112819837A (zh) | 一种基于多源异构遥感影像的语义分割方法 | |
CN114330516A (zh) | 基于多图引导神经网络模型的小样本徽景图像分类 | |
CN116912708A (zh) | 一种基于深度学习的遥感影像建筑物提取方法 | |
CN115116139A (zh) | 基于图卷积网络的多粒度人体动作分类方法 | |
CN111126155A (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
Zhao et al. | Ocean ship detection and recognition algorithm based on aerial image | |
CN115100509B (zh) | 基于多分支块级注意力增强网络的图像识别方法及系统 | |
CN116681921A (zh) | 一种基于多特征损失函数融合的目标标注方法及系统 | |
CN116402761A (zh) | 一种基于双通道多尺度注意力机制的光伏板裂缝检测方法 | |
CN115909078A (zh) | 一种基于hrrp与sar数据特征级融合的舰船分类方法 | |
CN116091918A (zh) | 一种基于数据增强的土地利用分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |