CN112861919A - 一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法 - Google Patents
一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法 Download PDFInfo
- Publication number
- CN112861919A CN112861919A CN202110051819.0A CN202110051819A CN112861919A CN 112861919 A CN112861919 A CN 112861919A CN 202110051819 A CN202110051819 A CN 202110051819A CN 112861919 A CN112861919 A CN 112861919A
- Authority
- CN
- China
- Prior art keywords
- target
- layer
- tiny
- yolov3
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000010586 diagram Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 230000001629 suppression Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 25
- 238000002372 labelling Methods 0.000 claims description 10
- 238000003384 imaging method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 238000011426 transformation method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 230000005489 elastic deformation Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- GIYXAJPCNFJEHY-UHFFFAOYSA-N N-methyl-3-phenyl-3-[4-(trifluoromethyl)phenoxy]-1-propanamine hydrochloride (1:1) Chemical compound Cl.C=1C=CC=CC=1C(CCNC)OC1=CC=C(C(F)(F)F)C=C1 GIYXAJPCNFJEHY-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000030279 gene silencing Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种基于改进YOLOv3‑tiny的水下声纳图像目标检测方法,首先采用基本图形变换增强声纳图像数据,获得足够数量的声纳图像数据集;然后构建一种融合浅层次特征与高层次特征的YOLOv3‑tiny网络的改进模型,通过多尺度特征融合进行检测;在此基础上,根据YOLOv3‑tiny预测层的特征图优化网络结构,删去特征表达能力差的预测分支,提高了改进YOLOv3‑tiny的检测速度,保证了检测的实时性;最终对所有预测的目标类别和位置结果采用非极大值抑制方法,输出置信度最大的预测的目标类别和位置。本发明方法准确率高,减少了目标的漏检。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种水下声纳图像目标检测方法。
背景技术
由于水下环境的特殊性,电磁波在海底传播的损失远大于陆上,传统光学检测手段在水下的距离有限。而声波可以在深海远距离传播,声学检测手段具有光学检测手 段不可比拟的优越性。成像声纳通过收集物体表面的反射回波进行实时成像,可以获 得更加完整、丰富、详细的水下数据,是水下环境感知的重要工具。
目前,对于水下目标检测的研究方法可以分成两大类:一类是传统的目标检测算法,这一类算法多数是改进应用于非水下图像的传统图像处理算法;另一类算法是基 于机器学习的目标检测算法,其中基于深度学习的算法是应用效果最好、泛用性最广 的。基于深度学习的目标检测方法可以分为三个大类,第一类是基于候选区域的目标 检测算法,例如R-CNN、Fast R-CNN、Faster R-CNN、R-FCN等;第二类是基于回归 的目标检测算法,例如YOLO、SSD、KittiBox等;第三类是基于搜索的目标检测算法, 例如基于强化学习的算法和基于视觉注意的AttentionNet。YOLO算法属于典型的One- Stage算法,可以在一个stage直接产生物体的类别概率和位置坐标,流程较为简单, 在检测速度上具有比较大的优势。本发明采用的YOLOv3-tiny算法相比原版的YOLO 算法,在精确率损失不大的情况下,具有更简单的网络结构和更高的实时性,很适合 用于水下目标检测。
但是在现有水下目标检测技术中,存在声纳图像质量差、数量少、没有公开数据集,导致检测算法准确率不高、应用深度学习数据不足、受到噪声干扰的错检漏检等 问题。
发明内容
为了克服现有技术的不足,本发明提供了一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法,首先采用基本图形变换增强声纳图像数据,获得足够数量的声纳 图像数据集;然后构建一种融合浅层次特征与高层次特征的YOLOv3-tiny网络的改进 模型,通过多尺度特征融合进行检测;在此基础上,根据YOLOv3-tiny预测层的特征 图优化网络结构,删去特征表达能力差的预测分支,提高了改进YOLOv3-tiny的检测 速度,保证了检测的实时性;最终对所有预测的目标类别和位置结果采用非极大值抑 制方法,输出置信度最大的预测的目标类别和位置。本发明方法准确率高,减少了目 标的漏检。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:通过二维成像声纳获取多幅原生声纳图像;
步骤2:对步骤1获取的原生声纳图像采用图形变换方法随机进行变换,变换后 的图像和原生声纳图像数据共同构成声纳图像数据集;将声纳图像数据集的所有图像 尺寸变换为512×224;将声纳图像数据集划分为声纳图像训练集和声纳图像测试集, 声纳图像训练集中图像数量大于声纳图像测试集中图像数量;
步骤3:对声纳图像数据集图像中目标的类别和位置进行标注;
如果声纳图像数据集图像中不存在目标,则该图像定义为负样本;
如果声纳图像数据集图像中存在目标,则该图像定义为正样本,同时对目标标注类别;用边界框标记目标的位置,边界框为目标最小外接矩形,目标位置表示为边界 框的四个顶点的坐标:Xmax,Xmin,Ymax,Ymin,归一化如下:
x=(Xmax+Xmin)/2*Sx
y=(Ymax+Ymin)/2*Sy
w=(Xmax-Xmin)/Sx
h=(Ymax-Ymin)/Sy (1)
其中Sx为目标所在图像的长度,Sy为目标所在图像的宽度;(x,y)为归一化的边界框 中心坐标,(w,h)为归一化的边界框宽度和高度;
步骤4:采用多尺度特征融合策略构建改进YOLOv3-tiny网络;
步骤4-1:融合YOLOv3-tiny网络第8层和第18层的特征,并在YOLOv3-tiny网 络已有两个预测层的基础上新增第3个预测层;
从YOLOv3-tiny网络第8层引出的特征图维度为64×28×128;
从YOLOv3-tiny网络第18层引出的特征图维度为32×14×256,经过一个 1×1×128的卷积层和上采样层之后得到64×28×128的特征图,将得到的64× 28×128的特征图与第8层引出的特征图进行同维度拼接,再经过一个3×3×128和 一个1×1×18的卷积层,最终输出维度为64×28×18的特征图,即为新增的第3个 预测层;
此时,YOLOv3-tiny网络的3个预测层的特征图分尺寸分别为16×7、32×14和 64×28;
改进YOLOv3-tiny网络的特征图尺寸为32×14的预测层是将YOLOv3-tiny网络 的第15层的特征图引出,通过一个1×1×128的卷积层与一个上采样层之后与第10层 的特征图进行同维度拼接,再经过一个3×3×256和一个1×1×18的卷积层,最终输出 维度为32×14×18的预测层;
步骤4-2:删除特征图尺寸为16×7的预测层;得到改进YOLOv3-tiny网络;
步骤5:使用声纳图像训练集对改进YOLOv3-tiny网络进行训练,得到最终训练 完成的改进YOLOv3-tiny网络模型;
步骤6:使用最终训练完成的改进YOLOv3-tiny网络模型预测目标的位置坐标和置信度;
步骤6-1:采用K-means++聚类方法,对声纳图像数据集中图像的边界框进行聚类,得到22×21、34×32、40×39、42×43、46×47、57×54六种尺寸的先验框;
步骤6-2:将22×21、34×32、40×39三种尺寸的先验框分配给特征图尺寸为 32×14的预测层;将42×43、46×47、57×54三种尺寸的先验框分配给特征图尺寸 为64×28的预测层;
步骤6-3:将尺寸为32×14的预测层特征图划分成32×14个网格单元,根据目标所在边界框中心坐标,将每个目标分配到对应位置的网格单元,该对应位置的网格单 元使用步骤6-2给特征图尺寸为32×14的预测层分配的先验框预测目标的位置坐标和 置信度;
将尺寸为64×28的预测层特征图划分成64×28个网格单元,根据目标所在边界框中心坐标,将每个目标分配到对应位置的网格单元,该对应位置的网格单元使用步 骤6-2给特征图尺寸为64×28的预测层分配的先验框预测目标的位置坐标和置信度;
预测目标的位置坐标和置信度的计算公式如下:
其中,Cx和Cy是网格单元的左上角坐标,改进YOLOv3-tiny网络中每个网格单元在特 征图中的宽和高都为1;Pw和Ph是先验框在预测层特征图中的映射宽度和高度,(tx, ty,tw,th,to)表示YOLOv3-tiny的回归预测输出;σsigmoid表示sigmoid激活函数, σlogistic表示logistic回归;e表示自然指数;(bx,by)表示预测结果框的中心坐标偏移值; (bw,bh)表示归一化后预测结果框的宽度和高度;c表示置信度;通过式(2)对YOLOv3- tiny的回归预测输出进行解码,获得预测结果框的(bx,by,bw,bh,c);
步骤6-4:对所有预测的目标位置坐标和置信度结果采用非极大值抑制方法,输出置信度最大的预测结果。
优选地,所述步骤2的图形变换方法包括:旋转、镜像、缩放、随机亮度、随机 裁剪、弹性形变。
优选地,所述步骤3使用LabelImg标注工具进行标注。
优选地,所述交并比计算如下:
假设边界框为G,先验框为A,交并比IOU计算公式为:
其中,SA表示先验框的面积,SG表示边界框的面积,SA∩G表示SA与SG的重叠部分面积, IOU(A,G)∈[0,1]。
本发明的有益效果如下:
本发明方法通过多尺度特征融合进行多尺度检测,提高了平均精确率,减少了目标的漏检;在此基础上,根据YOLOv3-tiny预测层的特征图优化网络结构,删去特征 表达能力差的预测分支,提高了改进YOLOv3-tiny模型的检测速度,保证了检测的实 时性。
附图说明
图1为本发明方法的流程图。
图2为本发明实施例采用的二维成像声纳。
图3为本发明实施例获取声纳图像的实验情况。
图4为本发明实施例采用的原生声纳图像以及六种基本图形变换后的图像,其中,图(a)为原生声纳图像,(b)为旋转,(c)为镜像,(d)为缩放,(e)为随机亮度,(f)为随机裁剪,(g)为弹性形变。
图5为本发明实施例对声纳图像标注示意图。
图6为本发明方法YOLOv3-tiny模型的主干网络部分结构图。
图7为本发明方法多尺度特征融合示意图。
图8为本发明方法3个预测层提取到的不同维度可视化特征图,其中,图(a)16×7,图(b)32×14,图(c)64×28。
图9为本发明方法采用的改进YOLOv3-tiny网络结构图。
图10为本发明方法的改进YOLOv3-tiny模型训练过程损失图,其中,图(a)为总 体损失曲线,图(b)为平均损失曲线。
图11为本发明方法对物体位置坐标预测示意图。
图12为本发明方法使用改进YOLOv3-tiny模型检测结果。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
为了解决现有水下目标检测技术中,声纳图像质量差、数量少、没有公开数据集,导致传统检测算法准确率不高、应用深度学习数据不足、受到噪声干扰的错检等问题, 本发明提供一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法,如图1所述, 具体步骤如下:
步骤1:通过二维成像声纳获取多幅原生声纳图像;
步骤2:对步骤1获取的原生声纳图像采用图形变换方法随机进行变换,变换后 的图像和原生声纳图像数据共同构成声纳图像数据集;将声纳图像数据集的所有图像 尺寸变换为512×224;将声纳图像数据集划分为声纳图像训练集和声纳图像测试集, 声纳图像训练集中图像数量大于声纳图像测试集中图像数量;
步骤3:对声纳图像数据集图像中目标的类别和位置进行标注;
如果声纳图像数据集图像中不存在目标,则该图像定义为负样本;
如果声纳图像数据集图像中存在目标,则该图像定义为正样本,同时对目标标注类别;用边界框标记目标的位置,边界框为目标最小外接矩形,目标位置表示为边界 框的四个顶点的坐标:Xmax,Xmin,Ymax,Ymin,归一化如下:
x=(Xmax+Xmin)/2*Sx
y=(Ymax+Ymin)/2*Sy
w=(Xmax-Xmin)/Sx
h=(Ymax-Ymin)/Sy (1)
其中Sx为目标所在图像的长度,Sy为目标所在图像的宽度;(x,y)为归一化的边界框 中心坐标,(w,h)为归一化的边界框宽度和高度;
步骤4:采用多尺度特征融合策略构建改进YOLOv3-tiny网络;
步骤4-1:融合YOLOv3-tiny网络第8层和第18层的特征,并在YOLOv3-tiny网 络已有两个预测层的基础上新增第3个预测层;
从YOLOv3-tiny网络第8层引出的特征图维度为64×28×128;
从YOLOv3-tiny网络第18层引出的特征图维度为32×14×256,经过一个 1×1×128的卷积层和上采样层之后得到64×28×128的特征图,将得到的64× 28×128的特征图与第8层引出的特征图进行同维度拼接,再经过一个3×3×128和 一个1×1×18的卷积层,最终输出维度为64×28×18的特征图,即为新增的第3个 预测层;
此时,YOLOv3-tiny网络的3个预测层的特征图分尺寸分别为16×7、32×14和 64×28;
改进YOLOv3-tiny网络的特征图尺寸为32×14的预测层是将YOLOv3-tiny网络 的第15层的特征图引出,通过一个1×1×128的卷积层与一个上采样层之后与第10层 的特征图进行同维度拼接,再经过一个3×3×256和一个1×1×18的卷积层,最终输出 维度为32×14×18的预测层;
步骤4-2:删除特征图尺寸为16×7的预测层;得到改进YOLOv3-tiny网络;
步骤5:使用声纳图像训练集对改进YOLOv3-tiny网络进行训练,得到最终训练 完成的改进YOLOv3-tiny网络模型;
步骤6:使用最终训练完成的改进YOLOv3-tiny网络模型预测目标的位置坐标和置信度;
步骤6-1:采用K-means++聚类方法,对声纳图像数据集中图像的边界框进行聚类,得到22×21、34×32、40×39、42×43、46×47、57×54六种尺寸的先验框;
步骤6-2:将22×21、34×32、40×39三种尺寸的先验框分配给特征图尺寸为32×14的预测层;将42×43、46×47、57×54三种尺寸的先验框分配给特征图尺寸 为64×28的预测层;
步骤6-3:将尺寸为32×14的预测层特征图划分成32×14个网格单元,根据目标所在边界框中心坐标,将每个目标分配到对应位置的网格单元,该对应位置的网格单 元使用步骤6-2给特征图尺寸为32×14的预测层分配的先验框预测目标的位置坐标和 置信度;
将尺寸为64×28的预测层特征图划分成64×28个网格单元,根据目标所在边界框中心坐标,将每个目标分配到对应位置的网格单元,该对应位置的网格单元使用步 骤6-2给特征图尺寸为64×28的预测层分配的先验框预测目标的位置坐标和置信度;
预测目标的位置坐标和置信度的计算公式如下:
其中,Cx和Cy是网格单元的左上角坐标,改进YOLOv3-tiny网络中每个网格单元在特 征图中的宽和高都为1;Pw和Ph是先验框在预测层特征图中的映射宽度和高度,(tx, ty,tw,th,to)表示YOLOv3-tiny的回归预测输出;σsigmoid表示sigmoid激活函数, σlogistic表示logistic回归;e表示自然指数;(bx,by)表示预测结果框的中心坐标偏移值; (bw,bh)表示归一化后预测结果框的宽度和高度;c表示置信度;通过式(2)对YOLOv3- tiny的回归预测输出进行解码,获得预测结果框的(bx,by,bw,bh,c);
步骤6-4:对所有预测的目标位置坐标和置信度结果采用非极大值抑制方法,输出置信度最大的预测结果。
具体实施例:
本实施例采用的Blueview M900/2250-130成像声纳是Blueview公司的二维图像声纳,又叫做双频声学照相机,如图2所示。可以获取实时、高分辨率的类视频声纳 图像,具有高刷新率、高频率、体积小等特点,在视角、范围、深度等方面有多种选 择。M系列二维图像声纳最大视角可以达到130度,工作深度4000米,额外搭载了 一个量程100米的声纳头,可以在100米和10米两个探测范围之间切换,本发明采用 的是10米的探测范围。网络模型的训练和检测采用的计算机配置为CPU:Intel(R) Core(TM)i7-7700HQ,主频:2.8GHz,GPU:NVDIA GeForce GTX 1060,显存:6G(显 存GDDR5,位宽192bit)操作系统:Windows10。
1、通过二维成像声纳获取原生声纳图像。
声纳图像获取的实验场地是一个消声水池,尺寸为长宽高:20*8*7米,实验场地的水面、四壁都采用消声尖劈覆盖,用来消除声波在这些位置的反射回波,防止这些 回波在声纳图像中产生干扰。原生声纳图像的获取方式如图3所示。
2、采用基本图形变换增强声纳图像数据。
基本图形变换的方法具体是以下6种:旋转、镜像、缩放、随机亮度、随机裁剪、 弹性形变,这些变换方法采用Augmentor库实现。Augmentor是用于机器学习的Python 图像增强库,独立于平台和框架,灵活方便,采用基于管道的处理方式,允许将定义 的各种增强方法拼凑在一起,随机地作用于图像上。对原生声纳图像使用六种增强方 法的效果如图4所示,图(a)为原生声纳图像,(b)为旋转,(c)为镜像,(d)为缩放,(e)为 随机亮度,(f)为随机裁剪,(g)为弹性形变。
经过以上6种方法增强的图像数据副本与原生声纳图像一起构成本发明采用的声纳图像数据集。使用增强后的数据集进行训练,具有以下优点:①增强后的副本数据 对卷积神经网络来说具有不变性的性质,即具有同等的训练效果;②可供深度学习网 络学习的数据量增加,发挥深层网络大数据优势;③提高数据质量,防止过拟合,丰 富样本多样性。
3、使用LabelImg标注工具对声纳图像数据集进行标注。
标注即:用边界框(bounding box)标记出目标的类别和所在的位置坐标,如图5,目标的类别是“ball”,位置是矩形框四个角的位置坐标。再进行归一化。
4、输入的声纳图像由主干网络提取出不同层次、不同维度的特征。
YOLOv3-tiny主干网络(BackboneNet)主要由不同的卷积层(Convolution)和最大池化层(MaxPooling)的组合堆叠构成,如图6所示,图中“Conv”表示卷积层, “Max”表示最大池化层。
设输入图像尺寸为m×n,卷积核尺寸为f×f,填充(padding)为p,步长(stride)为s,则输出特征图尺寸为:
[(m+2p-f)/s+1]×[(n+2p-f)/s+1] (6)
以图6中的第二层卷积层(Conv 16 3x3/1)举例,它表示这一层有16个卷积核 (也称为滤波器,filter),表示这一层可以提取到特征的维度是16,卷积核尺寸为3×3, 步长为1,填充为1,则输入图像(512×224)经过第二个卷积层得到输出尺寸: 512×224。
设最大池化层维度为f×f,步长为s,则输出特征图维度同式(6)。
以图6中第三层最大池化层(Max 2x2/2)举例,滤波器维度为2×2,填充为1, 步长为2,则输出尺寸:256×112,最大池化层的作用就是提取更具有代表性的特征, 也就是保留特征的最大值。
5、采用多尺度特征融合策略对YOLOv3-tiny网络进行改进。
主干网络提取出了不同层次、不同维度的特征,越高层次的特征图感受野大,颗粒度越大,特征图分辨率低,对大目标特征的表达能力较强;越低层次的特征图感受 野小,颗粒度越小,特征图分辨率高,对小目标特征的表达能力较强,在深度学习中 把这些不同的特征图融合在一起对检测和分割都很有效果,这就是多尺度特征融合。 声纳图像视野范围比较大,水下目标在声纳图像中占有像素尺寸比较小,因此,需要 融合更浅层次的细颗粒特征,来提高声纳图像中目标的检测精确率。图7展示了三个 不同尺寸的特征融合。
从三个YOLO层提取到的特征图如图8所示,尺寸分别是:图(a)16×7,图(b) 32×14,图(c)64×28。对比三个特征图不难看出,(a)的尺寸小,提取到的特征少,成 像也较模糊,特征表达能力差,而(b)、(c)提取到的特征较多、更清晰,特征表达能力 强,且可以从其中看出明显的目标轮廓。由于新增的第三个YOLO层以及相关的预测 分支,给网络增加了一定的运算量和复杂度,每检测2000张图片,耗时从21秒增加 到了27秒,实时性受到了很大影响。因此,从网络中删去特征表达能力差的16×7预 测分支,在不影响检测精确率的情况下,减少网络的运算量,可以提升检测检测速度。
采用步骤4的方法最终得到了本发明提出的改进YOLOv3-tiny网络结构如图9所示。
6、使用声纳图像数据集训练网络。
传统YOLOv3-tiny网络都会对输入图像使用resize函数,统一输入图像尺寸,这样做可以使得网络输入不同尺寸的图像进行训练。但是,步骤2、3制作的声纳图像数 据集尺寸大小是统一的,而且执行resize函数之后,尺寸较宽的声纳图像会损失较多 的横向特征信息,因此,需要一个合适的输入图像尺寸来保留这些信息。YOLOv3的 网络结构规定输入图像尺寸为32的整数倍,而原生声纳图像的尺寸为1137×474,因 此,保持图像纵横比0.417,将输入图像尺寸修改为512×224。然后将步骤3制作的 声纳图像数据集一共7723张图像,按照7:3分成了训练集和测试集,训练集一共5406 张图像,测试集一共2160张图像,并设置批处理大小为128,迭代次数为25000,学 习率为0.001,开始训练。
训练结束后,为了展现直观的损失曲线,剔除了前500次损失较大而下降较急的数据,损失数据可视化如图10所示,图10的(a)为总体损失曲线,(b)为平均损失曲线, 从图中可以看出,随着训练迭代次数的增多,损失逐渐收敛至一个较低的稳定水平, 证明了改进网络结构的收敛性。
7、预测位置坐标和置信度。
由第5步最后得到了32×14和64×28两种尺寸的特征图,它们分别被划分成了 32×14和64×28个网格单元,改进YOLOv3-tiny网络根据物体的中心点的位置,给每 一个物体分配一个网格单元,物体的中心点位于哪个网格单元,哪个网格单元就负责 用先验框预测这个物体的位置坐标和置信度,与目标形状更相似的先验框会获得更大 的交并比,而交并比是计算置信度的指标之一,所以先验框的尺寸很大程度上影响了 检测的效果。
7.1:采用K-means++聚类对声纳图像数据集的标注框进行聚类,重新设计先验框的尺寸。
YOLOv3-tiny网络模型的预测是基于预设的一组或多组先验框,这些先验框的形状是基于COCO数据集使用K-means++聚类算法对标注框进行量化聚类形成的,对 于本发明研究的声纳图像数据集不太适用。
传统的K-means聚类方法因使用欧几里德距离函数,采用小的边界框会比采用大的边界框产生更大的误差,使得聚类效果受边界框尺寸影响很大。为了削弱这样的影 响,使模型做出更合理的预测,改进YOLOv3-tiny网络定义了新的距离公式取代欧几 里德距离函数,如式(7)所示:
D(box,cluster)=1-IOU(box,cluster) (7)
其中,box表示边界框,cluster表示聚类中心,这样保证距离D越小,交并比越大。
采用K-means++聚类具体计算过程如下:
(1)K-means++聚类首先生成包含边界框位置和类别的txt文件,位置由边界框 中心点(xi,yi)和宽高(wi,hi)表示,N表示标注的边界框个数,i∈{1,2,...,N}。
(2)给定k个聚类中心(Wj,Hj),j∈{1,2,...,k},(Wj,Hj)表示聚类目标的边界框的宽度和高度。
(3)使标注的边界框中心与聚类的中心重合,即:将距离聚类中心最近的边界框分配给这一个聚类中心。计算每个边界框和每个聚类中心点的距离D:
D(box,central)=1-IOU[(xi,yi,wi,hi),(xi,yi,Wj,Hj)] (8)
(4)N个标注的边界框分配完毕后,用以下公式重新求聚类中心:
其中,Nj表示第j个聚类中心被分配的标注边界框个数。也就是计算每一个聚类中所 有边界框宽度和高度的平均值。最后重复(3)和(4),直至聚类中心(Wj,Hj)的变化 量达到一个很小的值。
由于改进的YOLOv3-tiny网络模型有两个预测层,每个预测层上计算3个先验框,因此需要设定6个聚类。采用K-means++聚类方法,对声纳图像训练集图片里的标注 边界框进行聚类,得到了22×21、34×32、40×39、42×43、46×47、57×54六种 先验框。
7.2:采用重新设计的六种不同尺寸先验框,预测位置坐标和置信度。
在给改进YOLOv3-tiny网络预测层分配先验框的选择上,维度为32×14的特征图感受野较大,因此分配的是尺寸较大的三个先验框,而维度为64×28的特征图感受野 较小,分配的是尺寸较小的三个先验框。
由于本实施例只涉及一类物体的检测,所以每个网格单元只有1个类别的预测,每个YOLO预测层输出张量维度为3×(4+1+1)=18,分别表示每个预测层的3个先验 框,4个位置预测值,1个预测框内有无物体(0或1),1个预测置信度(confidence)。
图11为改进YOLOv3-tiny网络对物体位置坐标的预测示意图。
7.3:对所有预测结果采用非极大值抑制,输出置信度最大的预测结果。
非极大值抑制(NMS)具体步骤如下:
(1)对于第7.2步得到的一系列预测框集合,按照同一类目标置信度概率从小到大排序,假设有6个预测框:A、B、C、D、E、F、G。
(2)从最大概率的预测框G开始,分别判断其余框与最大概率框的交并比是否 大于某个阈值。
(3)假设B和E与G的IOU超过阈值,则舍弃B和E,并标记保留G。
(4)从剩下的框中选择概率最大的F,然后判断A与F的交并比大于阈值,则舍 弃A,并标记保留F。
循环往复,找到所有保留下来的预测框,作为非极大值抑制的输出,即是整个网络的预测输出。
本发明的水下目标检测算法评价指标采用平均精确率(Average Precision,AP),首先需要计算精确率(Precision)和召回率(Recall),计算方式如下:
其中,TP(True Positive)表示预测正确的正样本,即与Ground Truth的交并比大于阈 值的预测框数量;FP(False Positive)表示预测错误的正样本,即与Ground Truth的交并比小于阈值的预测框数量;FN(False Negative)表示分类错误的正样本,即在没 有目标的图像中检测到了目标。这里的交并比阈值一般取0.5。
平均精确率计算方式如下:
(1)将每一个预测框的置信度,按照从大到小排列,组成一个序列,并按照大于 阈值标记为TP,小于阈值标记为FP,标记序列。
(2)按照顺序,采用式(11)和式(12)对序列中的每一个置信度都计算到目前为止的精确率和召回率,得到一个精确率序列和一个召回率序列。
(3)最后将召回率序列采用插值法,按照(0,0.1,0.2,...,1)共11个插值点进行分类,取每一个分类召回率之中对应精确率最高的值作为这个分类的代表,将11个代表 的精确率求平均值得到平均精确率,也就是PR曲线下的面积。
将改进的YOLOv3-tiny网络模型应用在声纳图像测试集上进行检测,检测结果如表1和图12所示:
表1
从上表可以看出:
(1)改进模型的平均精确率从81.81%提高到了90.49%,提高了8.68%。检测结果如图12所示,检测到的物体分类为“ball”,“1.00”表示检测到的物体置信度为1。
(2)改进模型的负样本检测到的目标(detections count)数量由1691个提升到了1866个,说明改进模型在漏检问题上有了一定改善。
(3)改进模型在一段声纳视频中的平均FPS(Frames Per Second,FPS)为64, 而未改进模型的FPS约为47.5,而原版YOLOv3-tiny在视频中的FPS约为64.5,可以 看出改进模型的检测速度得到保持,满速实时性的要求。
Claims (4)
1.一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法,其特征在于,包括以下步骤:
步骤1:通过二维成像声纳获取多幅原生声纳图像;
步骤2:对步骤1获取的原生声纳图像采用图形变换方法随机进行变换,变换后的图像和原生声纳图像数据共同构成声纳图像数据集;将声纳图像数据集的所有图像尺寸变换为512×224;将声纳图像数据集划分为声纳图像训练集和声纳图像测试集,声纳图像训练集中图像数量大于声纳图像测试集中图像数量;
步骤3:对声纳图像数据集图像中目标的类别和位置进行标注;
如果声纳图像数据集图像中不存在目标,则该图像定义为负样本;
如果声纳图像数据集图像中存在目标,则该图像定义为正样本,同时对目标标注类别;用边界框标记目标的位置,边界框为目标最小外接矩形,目标位置表示为边界框的四个顶点的坐标:Xmax,Xmin,Ymax,Ymin,归一化如下:
x=(Xmax+Xmin)/2*Sx
y=(Ymax+Ymin)/2*Sy
w=(Xmax-Xmin)/Sx
h=(Ymax-Ymin)/Sy (1)
其中Sx为目标所在图像的长度,Sy为目标所在图像的宽度;(x,y)为归一化的边界框中心坐标,(w,h)为归一化的边界框宽度和高度;
步骤4:采用多尺度特征融合策略构建改进YOLOv3-tiny网络;
步骤4-1:融合YOLOv3-tiny网络第8层和第18层的特征,并在YOLOv3-tiny网络已有两个预测层的基础上新增第3个预测层;
从YOLOv3-tiny网络第8层引出的特征图维度为64×28×128;
从YOLOv3-tiny网络第18层引出的特征图维度为32×14×256,经过一个1×1×128的卷积层和上采样层之后得到64×28×128的特征图,将得到的64×28×128的特征图与第8层引出的特征图进行同维度拼接,再经过一个3×3×128和一个1×1×18的卷积层,最终输出维度为64×28×18的特征图,即为新增的第3个预测层;
此时,YOLOv3-tiny网络的3个预测层的特征图分尺寸分别为16×7、32×14和64×28;
改进YOLOv3-tiny网络的特征图尺寸为32×14的预测层是将YOLOv3-tiny网络的第15层的特征图引出,通过一个1×1×128的卷积层与一个上采样层之后与第10层的特征图进行同维度拼接,再经过一个3×3×256和一个1×1×18的卷积层,最终输出维度为32×14×18的预测层;
步骤4-2:删除特征图尺寸为16×7的预测层;得到改进YOLOv3-tiny网络;
步骤5:使用声纳图像训练集对改进YOLOv3-tiny网络进行训练,得到最终训练完成的改进YOLOv3-tiny网络模型;
步骤6:使用最终训练完成的改进YOLOv3-tiny网络模型预测目标的位置坐标和置信度;
步骤6-1:采用K-means++聚类方法,对声纳图像数据集中图像的边界框进行聚类,得到22×21、34×32、40×39、42×43、46×47、57×54六种尺寸的先验框;
步骤6-2:将22×21、34×32、40×39三种尺寸的先验框分配给特征图尺寸为32×14的预测层;将42×43、46×47、57×54三种尺寸的先验框分配给特征图尺寸为64×28的预测层;
步骤6-3:将尺寸为32×14的预测层特征图划分成32×14个网格单元,根据目标所在边界框中心坐标,将每个目标分配到对应位置的网格单元,该对应位置的网格单元使用步骤6-2给特征图尺寸为32×14的预测层分配的先验框预测目标的位置坐标和置信度;
将尺寸为64×28的预测层特征图划分成64×28个网格单元,根据目标所在边界框中心坐标,将每个目标分配到对应位置的网格单元,该对应位置的网格单元使用步骤6-2给特征图尺寸为64×28的预测层分配的先验框预测目标的位置坐标和置信度;
预测目标的位置坐标和置信度的计算公式如下:
其中,Cx和Cy是网格单元的左上角坐标,改进YOLOv3-tiny网络中每个网格单元在特征图中的宽和高都为1;Pw和Ph是先验框在预测层特征图中的映射宽度和高度,(tx,ty,tw,th,to)表示YOLOv3-tiny的回归预测输出;σsigmoid表示sigmoid激活函数,σlogistic表示logistic回归;e表示自然指数;(bx,by)表示预测结果框的中心坐标偏移值;(bw,bh)表示归一化后预测结果框的宽度和高度;c表示置信度;通过式(2)对YOLOv3-tiny的回归预测输出进行解码,获得预测结果框的(bx,by,bw,bh,c);
步骤6-4:对所有预测的目标位置坐标和置信度结果采用非极大值抑制方法,输出置信度最大的预测结果。
2.根据权利要求1所述的一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法,其特征在于,所述步骤2的图形变换方法包括:旋转、镜像、缩放、随机亮度、随机裁剪、弹性形变。
3.根据权利要求1所述的一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法,其特征在于,所述步骤3使用LabelImg标注工具进行标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110051819.0A CN112861919A (zh) | 2021-01-15 | 2021-01-15 | 一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110051819.0A CN112861919A (zh) | 2021-01-15 | 2021-01-15 | 一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112861919A true CN112861919A (zh) | 2021-05-28 |
Family
ID=76006348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110051819.0A Pending CN112861919A (zh) | 2021-01-15 | 2021-01-15 | 一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861919A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344949A (zh) * | 2021-07-14 | 2021-09-03 | 青岛云智聚智能科技有限公司 | 一种基于rgb图像的包裹检测方法、系统、介质及终端 |
CN113343964A (zh) * | 2021-08-09 | 2021-09-03 | 湖南汇视威智能科技有限公司 | 一种平衡的水下声学图像目标检测方法 |
CN113902901A (zh) * | 2021-09-30 | 2022-01-07 | 北京工业大学 | 一种基于轻量化检测的物体分离方法与系统 |
CN114049377A (zh) * | 2021-10-29 | 2022-02-15 | 哈尔滨工业大学 | 一种空中高动态小目标检测方法及系统 |
CN114373118A (zh) * | 2021-12-30 | 2022-04-19 | 华南理工大学 | 基于改进yolov4的水下目标检测方法 |
CN114758237A (zh) * | 2022-04-19 | 2022-07-15 | 哈尔滨工程大学 | 一种输水隧洞缺陷自动识别模型的构建方法、检测方法、构建装置、计算机及存储介质 |
CN117173549A (zh) * | 2023-08-22 | 2023-12-05 | 中国科学院声学研究所 | 复杂场景下合成孔径声纳图像多尺度目标检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929577A (zh) * | 2019-10-23 | 2020-03-27 | 桂林电子科技大学 | 一种基于YOLOv3的轻量级框架改进的目标识别方法 |
CN110991311A (zh) * | 2019-11-28 | 2020-04-10 | 江南大学 | 一种基于密集连接深度网络的目标检测方法 |
-
2021
- 2021-01-15 CN CN202110051819.0A patent/CN112861919A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929577A (zh) * | 2019-10-23 | 2020-03-27 | 桂林电子科技大学 | 一种基于YOLOv3的轻量级框架改进的目标识别方法 |
CN110991311A (zh) * | 2019-11-28 | 2020-04-10 | 江南大学 | 一种基于密集连接深度网络的目标检测方法 |
Non-Patent Citations (2)
Title |
---|
刘韦伯: "基于深度学习的水下目标图像识别方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
李想: "基于深度学习下视频车辆与车尾灯语识别", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344949A (zh) * | 2021-07-14 | 2021-09-03 | 青岛云智聚智能科技有限公司 | 一种基于rgb图像的包裹检测方法、系统、介质及终端 |
CN113343964A (zh) * | 2021-08-09 | 2021-09-03 | 湖南汇视威智能科技有限公司 | 一种平衡的水下声学图像目标检测方法 |
CN113343964B (zh) * | 2021-08-09 | 2022-06-10 | 湖南汇视威智能科技有限公司 | 一种平衡的水下声学图像目标检测方法 |
CN113902901A (zh) * | 2021-09-30 | 2022-01-07 | 北京工业大学 | 一种基于轻量化检测的物体分离方法与系统 |
CN113902901B (zh) * | 2021-09-30 | 2024-04-26 | 北京工业大学 | 一种基于轻量化检测的物体分离方法与系统 |
CN114049377A (zh) * | 2021-10-29 | 2022-02-15 | 哈尔滨工业大学 | 一种空中高动态小目标检测方法及系统 |
CN114373118A (zh) * | 2021-12-30 | 2022-04-19 | 华南理工大学 | 基于改进yolov4的水下目标检测方法 |
CN114373118B (zh) * | 2021-12-30 | 2024-04-05 | 华南理工大学 | 基于改进yolov4的水下目标检测方法 |
CN114758237A (zh) * | 2022-04-19 | 2022-07-15 | 哈尔滨工程大学 | 一种输水隧洞缺陷自动识别模型的构建方法、检测方法、构建装置、计算机及存储介质 |
CN117173549A (zh) * | 2023-08-22 | 2023-12-05 | 中国科学院声学研究所 | 复杂场景下合成孔径声纳图像多尺度目标检测方法及系统 |
CN117173549B (zh) * | 2023-08-22 | 2024-03-22 | 中国科学院声学研究所 | 复杂场景下合成孔径声纳图像多尺度目标检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112861919A (zh) | 一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法 | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
CN111242208B (zh) | 一种点云分类方法、分割方法及相关设备 | |
Ma et al. | A new method of content based medical image retrieval and its applications to CT imaging sign retrieval | |
US10121245B2 (en) | Identification of inflammation in tissue images | |
CN110942446A (zh) | 一种基于ct影像的肺结节自动检测方法 | |
CN113421240B (zh) | 一种基于超声自动乳腺全容积成像的乳腺分类方法及装置 | |
CN113033398A (zh) | 一种手势识别方法、装置、计算机设备及存储介质 | |
CN112149665A (zh) | 一种基于深度学习的高性能多尺度目标检测方法 | |
CN112149664B (zh) | 一种优化分类与定位任务的目标检测方法 | |
CN112613504A (zh) | 一种声呐水下目标检测方法 | |
CN111709487B (zh) | 基于决策级融合的水下多源声学图像底质分类方法及系统 | |
CN111738332A (zh) | 基于特征级融合的水下多源声学图像底质分类方法及系统 | |
CN116824585A (zh) | 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 | |
CN114581698A (zh) | 一种基于空间交叉注意力机制特征融合的目标分类方法 | |
Zhang et al. | SaltISCG: Interactive salt segmentation method based on CNN and graph cut | |
CN113496260A (zh) | 基于改进YOLOv3算法的粮库人员不规范作业检测法 | |
CN116311387B (zh) | 一种基于特征交集的跨模态行人重识别方法 | |
Wu et al. | Deep texture exemplar extraction based on trimmed T-CNN | |
CN115018780B (zh) | 一种融合全局推理和mlp架构的甲状腺结节分割方法 | |
CN116740077A (zh) | 一种基于三维点云的植物叶片分割方法 | |
CN115131384B (zh) | 基于边缘保持的仿生机器人3d打印方法、装置及介质 | |
CN114359742B (zh) | 一种优化小目标检测的加权损失函数计算方法 | |
CN114241470A (zh) | 一种基于注意力机制的自然场景文字检测方法 | |
US20220334043A1 (en) | Non-transitory computer-readable storage medium, gate region estimation device, and method of generating learning model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210528 |
|
WD01 | Invention patent application deemed withdrawn after publication |