CN113052200A - 一种基于yolov3网络的声呐图像目标检测方法 - Google Patents
一种基于yolov3网络的声呐图像目标检测方法 Download PDFInfo
- Publication number
- CN113052200A CN113052200A CN202011453739.XA CN202011453739A CN113052200A CN 113052200 A CN113052200 A CN 113052200A CN 202011453739 A CN202011453739 A CN 202011453739A CN 113052200 A CN113052200 A CN 113052200A
- Authority
- CN
- China
- Prior art keywords
- frame
- detection
- feature
- box
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 230000006872 improvement Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 241000545760 Unio Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了一种基于yolov3网络声呐图像目标识别方法,该方法对于海底小目标或有遮挡物的目标起到很好的识别效果,本发明属于一种计算机视觉深度学习目标检测、多特征融合的目标检测方法,通过多尺度跨层检测并结合深层语义信息与浅层语义信息,更好适应了对小目标检测。针对原始yolov3算法在声呐图像目标检测上的检测精度不高、目标框出现误检和小目标漏检的问题,本发明提出了改进检测算法MY‑YOLOV3,并在多尺度特征融合中加入DCA融合策略,提高模型对声呐目标的检测能力。本发明以MY‑YOLOV3为算法框架,采用GIOU作为边框损失函数的参数,提升模型对边界框位置信息的预测准确度。本发明加强了模型的鲁棒性,使得目标框的定位误差大大的减小。
Description
技术领域
本发明涉及一种水下ROV所携带的多波束声呐,尤其涉及一种基于yolov3网络的目标检测方法,属于计算机视觉深度学习声呐图像目标检测领域。
背景技术
随着声呐技术的快速发展,水下声呐图像分类领域的研究正在不断深入。基于声呐图像的水下目标识别技术应用广泛,民用和军用技术等都有巨大需求。声呐图像的目标检测与识别是目标检测领域的重要研究课题。传统声呐图像目标检测识别基于特征方法,如水下目标形状、纹理等特征,识别的效果往往取决于特征选取的好坏。然而由于海洋环境的复杂性以及水下目标的多变性,这类方法已经无法满足现今水下目标检测和识别的新要求。近年来,随着深度学习方法的发展,基于深度学习的方法被广泛应用到目标检测中并发展出一系列检测模型,深度学习模型是通过内部网络结构自动提取图像特征,对图像分类有着重要影响。这些模型在光学图像检测领域中取得了巨大成功,相比之下,在声呐图像目标检测中的应用较少。
随着现代光电技术的快速发展,声呐的成像精度得到了很大提高,目标探测距离也大大提升。因此,以声呐作为核心传感器,结合图像信息处理技术,可以建立一个大范围水下目标探测系统。
但是由于声信息传输信道水声信道具有复杂和多变的特性,以及声波本身的透射特性,使得前视声呐图像具有明显的自身特性。由于声学阴影和旁瓣效应,单个目标在前视声呐图像上可能分裂成多个亮斑,水中其它物体以及不平整的水下等区域会在声图像中形成弧线状的亮区,导致声呐图像目标检测的困难性,随着卷积神经网络技术迅速发展,其主要特点是前端输入采用了若干层局部互联的神经元用于提取图像信息,充分考虑了图像目标在空间中符合的平移、旋转和缩放不变性,由相同结构的神经元组成,且只接受前一层该神经元对应领域内少部分神经元的输入,使神经网络既保持较大的前端规模,又能减少可变调整参数的数量,大大降低了计算量和参数优化的负担,较人工神经网络有更好的学习能力和智能性。此外,深层卷积神经网络是一个自动学习滤波器,能够发现更多可用特征,且嵌套功能的深层结构网络会产生高度非线性决策,越来越多的可用水下图像数据能够提升其分类能力。当大量数据和充足的计算资源相协调时,深层神经网络可以实现很好的水下目标分类效果。据此,很多研究将深度卷积神经网络的方法用于声呐图像的分类方面,通过不断改进使其在有大量参数存在的情况下不产生过度拟合的现象。水下目标检测针对小目标的检测、有遮挡物和相互靠近物体的检测效果会不太好。其中大多会通过训练过程扩大学习过程中可用训练数据的数量,自动学习相似水下目标类之间的有用差异,增强水下目标分类的精度。
声呐图像好坏可以说是一切工作的前提,由于多波束前视声呐所扫描形成的图像自身的局限性,以及水下环境的复杂性,因此对于声呐的去噪、特征增强显得格外重要。申请号为“201711036788.1”的专利文献公开了一种“基于深度学习技术的声呐图像目标识别方法”,由于采用深度学习的方法,需要大量的数据进行支撑,使得声呐图像的处理变得复杂。申请号为“200810064436.1”的专利文献公开了一种“基于分层MRF的声呐图像自适应分割方法”,但是此算法的可靠性需要大量的测试、图像处理的自适应性需要进一步提高。
发明内容
本发明的目的在于提供一种基于yolov3网络的声呐图像目标检测方法,深度学习目标检测模型在光学影像中都具有很好的表现,但是不一定和声学图像适配,和针对原始yolov3 算法在声呐图像目标检测精度不高、目标框出现误检和小目标漏检的问题,因此需要改进模型的网络结构和参数来保证水下目标检测的准确、稳定、高效。通过多尺度跨层检测结合深层语义信息和浅层语义信息,对不同大小的特征层进行独立预测,更好适应了对小目标的检测。
本发明的目的通过以下技术方案予以实现:
一种基于yolov3网络的声呐图像目标检测方法,该方法包含下列步骤:首先增加了 26*26和52*52尺度特征图提高对中等以及偏小目标预测精度以及对锚框个数的选取,接着 YOLOv3采用了没全连接层的Darknet-53主干网络并通过上采样结合了多层特征图进行多尺度检测,然后设置的Set conv模块和Yolo layer模块是由1*1和3*3的卷积层组成,concat层表示拼接层将上采样的特征图拼接起来用于检测目标,在多尺度特征融合中加入DCA融合策略(Discriminant Correlation Analysis判别相关分析),提高检测能力,最后,以本发明网络MY-YOLOV3为算法框架,采用GIOU(Generalized Intersection over Unio泛化版交并比)作为边框损失函数的参数,提升模型对边界框位置信息的预测准确度。
如前述的基于yolov3网络的声呐图像目标检测方法中锚边框聚类方法选取,所述其中锚边框聚类方法选取包括以下六个步骤:
步骤1:将所有的bounding box(预测框)坐标提取出来,同时需要无区别的将所有图片的所有框提取出来;
步骤2:获得所有训练数据bounding boxes(预测框)的宽高数据,训练数据往往是其bounding box的4个坐标,将坐标数据转换为框的宽高大小;
步骤3:初始化k个anchor boxes(锚边框),通过在所有的bounding boxes(预测框)中随机选取k个值作为k个anchor boxes(锚边框)的初始值;
步骤4:计算每个bounding box(预测框)与每个anchor box(锚边框)的IOU值,并更新anchor box(锚边框);
YOLOv3通过k-means聚类出锚边框用来逻辑回归边界框,为了减小锚框大小对检测的影响采用矩形框的平均交并比(Avg IOU)对训练集所有目标使用k-means聚类获得锚框的大小,聚类的平均交并比目标函数p可由以下公式表示:
d(bos,cen)=1-IOU(box,cen) (2)
公式中IOU表示真实框和预测框交集面积和并集面积的比值,公式2为利用 k-means聚类算法的距离度量,其中box表示矩形框大小,cen表示一个簇中心矩形框的大小,公式3中b表示样本,c表示通过k-means算法选择的簇中心,mk表示第k个聚类中样本的个数,m表示样本总个数,k表示聚类中心个数,i和j分别表示样本序号和聚类中的样本序号;
步骤5:重复步骤4,直到anchor box不再变化,或者达到了最大迭代次数;
步骤6:本发明方法重新筛选制作了包括声呐目标检测的大、中、小三个类别的数据集进行实验,根据数据集中目标宽高的分布,分析锚框个数k=1~9对数据集聚类分析得到 k和Avg IOU的关系,平均交并比随着锚框个数增加而增加,由于本发明模型保留三层检测层,最终选取9个锚框。
如前述的所述的结合多层特征图进行多尺度检测,针对实时目标检测精度不佳的问题,本发明提出了一种新的yolov3网络结构,加强了yolov3实时目标检测和小目标的性能。深层特征语义信息更加丰富但是目标位置较粗略,而浅层特征虽然语义信息少但是目标位置更准确,yolov3通过多尺度跨层检测结合深层语义信息和浅层语义信息,对不同大小的特征层进行独立预测,更好适应了对小目标的检测。其中针对卷积层特征网络改进包括以下两个步骤:
步骤1:YOLOv3网络采用了三个尺度特征图对应不同大小的锚框。尺度越小,感受野越大,分辨率越小,对小目标越不敏感,输入为416pixel*416pixel时,尺度13*13可以用来预测大目标,而对于小目标检测精度将会大幅下降,所以增加了26*26和52*52尺度特征图提高对中等以及偏小目标预测精度;
步骤2:为了进一步适应对小目标的检测进而提高其检测精度,将Darketnet-53网络的第36层、11层和第8层拼接融合到小目标检测层。以输入为256pixel*256pixel为例,通过上采样将36层的32pixel*32pixel与11层、8层的64pixel*64pixel拼接作为第三个yolo检测层,同时加入两层3*3卷积层和三层1*1卷积层增加网络深度,这些操作虽然提高了检测精度但是也增加了检测时间。
如前述的基于DCA特征融合策略方法,YOLOV3对于融合高低层特征图,采用的是concat通道拼接算法,即将高低层特征图的通道数直接相加,尺度不变,结果作为局部特征交互模块的输入,这种做法简单,但是,两特征层相关不强而产生冗余信息,这些信息影响后续其他策略的执行,从而造成目标漏检的问题。为此,引入DCA特征融合策略,此策略在CCA(Canonical Correlation Analysis典范相关分析)的基础做了改进,使得两个特征层之间的差异更为突出,同时最大化两者之间的相关性,更好的融合不同模式下提取的信息,进而使得经过交互模块的待检测输入的特征信息更加丰富。其中DCA特征融合策略包括以下三个步骤:
步骤1:首先假设样本数矩阵来C个单独的类,为此,n列数据可以分为C个单独的类。假设ni列属于第i类,对于i类的第j个样本,即特征向量,记为xij。和分别表示所有特征集合的平均值和第i类特征的平均值。由此得到的类间散布矩阵如下:
其中有:
Wbx TSbxWbx=I (7)
同理可得另一输入特征集Y在空间上的投影Y′,公式如下(9)和(10):
Wby TSbyWby=I (9)
步骤3:为了让X与Y的特征保持非零相关,利用SVD(Singular ValueDecompostion 奇异值分解)对两者的协方差矩阵进行对角化,先定义S′xy=X′Y′T,那么对角化推算如下:
紧接着定义Wcx=U∑-1/2,Wcy=U∑-1/2,这样就能得到(v∑-1/2)S′xy(U∑-1/2)T=I,最后进行转换,得到新的特征集X*,Y*,如公式(12)和(13)所示:
X*=Wcx TX′=Wcx TWbx TX=WxX (12)
Y*=Wcy TY′=Wcy TWby TY=WxY (13) 如前述的边框损失函数损参数优化,边框损失函数使用GIOU之后,模型平均损失收敛更快,所述其中损失优化方法选取包括以下三步骤:
步骤1:对网络模型超参数的设定,损失优化,在训练过程中,首先通过预测值与真实值比较得到loss函数,判断训练次数,当次数小于设定的次数,再根据loss反向传播更新模型参数。本发明引入GIOU(Generalized Intersection over Unio泛化版交并比),对于预测框A和真实框B,先求出A和B的最小凸包(包含AB框的最小包围圈)C,再根据交并比IOU的值得到泛化版交并比GIOU,具体的计算公式如下(14)和(15)所示:
式中,C表示预测框和真实框的最小包围框的面积,A∪B表示真实框和预测框的面积之和减去两者的重叠面积;
步骤2:由上述式,GIOU总是小于等于IOU,其值位于区间[0,1],所以GIOU的值位于区间[-1,1],当预测框和真实框完全重合的时候,GIOU=1。当预测框和真实框不重合,即IOU 为零值,GIOU越接近-1,两者的距离越远。GIOU作为边框评价指标时,边框代价函数如公式(16)所示。
Loss_box=1-GIOU (16)
步骤3:最后,整个模型的损失函数如公式(17)所示:
其中,第一部分为边框损失;第二部分为类别损失,的取值是由网络单元代表的边界框是否负责预测某个对象决定。为参与预测的边界框含有目标的置信度。若边界框不参与目标预测,但是其与真实框的IOU值大于设定的阈值,那么Gij值为0,其他的情况下,其值为1。第三部分为置信度损失,同样也表示边界框是否预测对象。
本发明的有益效果为:
本发明针对水下环境低对比度、高噪声的特性,解决水下数据集不足的情况,防止过拟合,本方法可以用于多目标多特征的检测当中,通过基于yolov3的网络模型很好的完成目标分类任务,提高目标分辨力,提高鲁棒性,并且yolov3通过多尺度跨层检测结合深层语义信息和浅层语义信息,对不同大小的特征层进行独立预测,更好适应了对小目标的检测,改进模型的网络结构和参数来保证水下目标检测的准确、稳定、高效。针对原始YOLOV3算法在声呐图像目标检测上的检测精度不高、目标框出现误检和小目标漏检的问题,本发明提出了改进检测算法MY-YOLOV3,并在多尺度特征融合中加入DCA融合策略(Discriminant Correlation Analysis判别相关分析),提高模型对声呐目标的检测能力。最后,以MY-YOLOV3 为算法框架,采用GIOU(Generalized Intersection over Union泛化版交并比)作为边框损失函数的参数,提升模型对边界框位置信息的预测准确度。同时加入的GIOU(Generalized Intersection over Union泛化版交并比)边框损失,拉低了模型的平均损失,加强了模型的鲁棒性,使得目标框的定位误差大大的减小。
附图说明
图1是本发明的网络模型改进图;
图2是本发明目标检测流程图;
图3是本发明网络结构连接图;
图4是本发明加入DCA策略流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
如图1所示,提出了一种基于YOLOv3网络结构,加强了YOLOv3实时目标检测的性能,该网络结构深层特征语义信息更加丰富但是目标位置较粗略,而浅层特征虽然语义信息少但是目标位置更准确,YOLOv3通过多尺度跨层检测结合深层语义信息和浅层语义信息,对不同大小的特征层进行独立预测,更好适应了对小目标的检测。在保留三层采样检测的前提下,为了进一步适应对小目标的检测进而提高其检测精度,将Darketnet-53网络的第36层、第11层和第8层拼接融合到小目标检测层。以输入为416pixel*416pixel为例,通过上采样将36层的52pixel*52pixel与11层的104pixel*104pixel拼接作为第三个YOLO检测层,同时加入两层3*3卷积层和三层1*1卷积层增加网络深度,这些操作虽然提高了检测精度但是也增加了检测时间。
如图2所示,是模型训练的过程流程图,首先构建目标数据集,同时对数据集进行聚类分析选取合适数量的锚选框,接着对网络进行构建,对于网络参数进行初始化操作,输入目标图像预训练,然后调整网络模型的结构,并采用DCA策略结合不同特征层的特征做训练,对预测层默认框的参数设定,再对训练集进行数据加强,接着比较默认框和真实框配对值,计算损失函数,最后通过GIOU策略和利用反向传播更新网络权重最后完成训练。
如图3所示,首先增加了26*26和52*52尺度特征图提高对中等以及偏小目标预测精度以及对锚点的选取,接着YOLOv3采用了没全连接层的Darknet-53并通过上采样结合了多层特征图进行多尺度检测,然后设置的Set conv模块和Yolo layer模块是由1*1和3*3的卷积层组成,concat表示拼接层将上采样的特征图拼接起来用于检测目标。
如图4所示,首先假设样本数矩阵来C个单独的类,为此,n列数据可以分为C个单独的类。记输入的其中一个特征集为X,则X在空间上的投影X′,同理可得另一输入特征集Y在空间上的投影Y′,为了让X与Y的特征保持非零相关,利用SVD(Singular ValueDecompostion奇异值分解)对两者的协方差矩阵进行对角化,最后进行转换,得到新的特征集X*,Y*,融合新的特征集。
除上述实施例外,本发明还可以有其他实施方式,凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围内。
Claims (5)
1.一种基于yolov3网络的声呐图像目标检测方法,其特征在于,主要包括以下步骤:首先增加尺度特征图以及对锚边框聚类方法个数的选取,接着采用了没全连接层的Darknet-53主干网络并通过上采样结合多层特征图进行多尺度检测,在此基础上中加入DCA融合策略(Discriminant Correlation Analysis判别相关分析),最后,采用GIOU(GeneralizedIntersection over Unio泛化版交并比)作为边框损失函数的参数,提升模型对边界框位置信息的预测准确度。
2.如权利要求1所述的基于yolov3网络的声呐图像目标检测方法中锚边框聚类方法个数的选取,其特征在于,所述其中锚边框聚类方法选取包括以下六个步骤:
步骤1:将所有的bounding box(预测框)坐标提取出来,同时需要无区别的将所有图片的所有框提取出来;
步骤2:获得所有训练数据bounding boxes(预测框)的宽高数据,训练数据往往是其bounding box的4个坐标,将坐标数据转换为框的宽高大小;
步骤3:初始化k个anchor boxes(锚边框),通过在所有的bounding boxes(预测框)中随机选取k个值作为k个anchor boxes(锚边框)的初始值;
步骤4:计算每个bounding box(预测框)与每个anchor box(锚边框)的IOU值,并更新anchor box(锚边框);
YOLOv3通过k-means聚类出锚边框用来逻辑回归边界框,为了减小锚框大小对检测的影响采用矩形框的平均交并比(Avg IOU)对训练集所有目标使用k-means聚类获得锚框的大小,聚类的平均交并比目标函数p可由以下公式表示:
d(box,cen)=1-IOU(box,cen) (2)
公式中IOU表示真实框boxtru和预测框boxpre交集面积和并集面积的比值,area表示面积函数,公式2为利用k-means聚类算法的距离度量,其中box表示矩形框大小,cen表示一个簇中心矩形框的大小,公式3中b表示样本,c表示通过k-means算法选择的簇中心,mk表示第k个聚类中样本的个数,m表示样本总个数,k表示聚类中心个数,i和j分别表示样本序号和聚类中的样本序号;
步骤5:重复步骤4,直到anchor box不再变化,或者达到了最大迭代次数;
步骤6:本发明方法重新筛选制作了包括声呐目标检测的大、中、小三个类别的数据集进行实验,根据数据集中目标宽高的分布,分析锚框个数k=1~9对数据集聚类分析得到k和Avg IOU的关系,平均交并比随着锚框个数增加而增加,由于本发明模型保留三层检测层,最终选取9个锚框。
3.如权利要求1所述的结合多层特征图进行多尺度检测,其特征在于,通过多尺度跨层检测结合深层语义信息和浅层语义信息,对不同大小的特征层进行独立预测,更好适应了对小目标的检测,其中针对卷积层特征网络改进包括以下两个步骤:
步骤1:YOLOv3网络采用了三个尺度特征图对应不同大小的锚框,尺度越小,感受野越大,分辨率越小,对小目标越不敏感,输入为416pixel*416pixel时,尺度13*13可以用来预测大目标,而对于小目标检测精度将会大幅下降,所以增加了26*26和52*52尺度特征图提高对中等以及偏小目标预测精度;
步骤2:为了进一步适应对小目标的检测进而提高其检测精度,将Darketnet-53网络的第36层、11层和第8层拼接融合到小目标检测层;以输入为256pixel*256pixel为例,通过上采样将36层的32pixel*32pixel与11层、8层的64pixel*64pixel拼接作为第三个YOLO检测层,同时加入两层3*3卷积层和三层1*1卷积层增加网络深度,这些操作虽然提高了检测精度但是也增加了检测时间。
4.如权利要求1所述的基于DCA特征融合策略方法,其特征在于,yolov3对于高低层特征融合采用concat(拼接层)通道拼接,两特征层相关不强而产生冗余信息,从而造成目标漏检的问题。为此,引入DCA特征融合策略,使得两个特征层之间的差异更为突出,同时最大化两者之间的相关性,更好的融合不同模式下提取的信息,进而使得经过交互模块的待检测输入的特征信息更加丰富。其中DCA特征融合策略包括以下三个步骤:
步骤1:首先假设样本数矩阵来C个单独的类,为此,n列数据可以分为C个单独的类。假设ni列属于第i类,对于i类的第j个样本,即特征向量,记为xij;和分别表示所有特征集合的平均值和第i类特征的平均值,由此得到的类间散布矩阵如下:
其中有:
Wbx TSbxWbx=I (7)
同理可得另一输入特征集Y在空间上的投影Y′,公式如下(9)和(10):
Wby TSbyWby=I (9)
步骤3:为了让X与Y的特征保持非零相关,利用SVD(Singular Value Decompostion奇异值分解)对两者的协方差矩阵进行对角化,先定义S′xy=X′Y′T,那么对角化推算如下:
紧接着定义Wcx=U∑-1/2,Wcy=U∑-1/2,这样就能得到(v∑-1/2)S′xy(U∑-1/2)T=I,最后进行转换,得到新的特征集X*,Y*,如公式(12)和(13)所示:
X*=Wcx TX′=Wcx TWbx TX=WxX (12)
Y*=Wcy TY′=Wcy TWby TY=WxY (13) 。
5.如权利要求1所述的边框损失函数参数优化,其特征在于,边框损失函数使用GIOU之后,模型平均损失收敛更快,所述其中损失优化方法选取包括以下三步骤:
步骤1:对网络模型超参数的设定,损失优化,在训练过程中,首先通过预测值与真实值比较得到loss函数,判断训练次数,当次数小于设定的次数,再根据loss反向传播更新模型参数。本发明引入GIOU(Generalized Intersection over Unio泛化版交并比),对于预测框A和真实框B,先求出A和B的最小凸包(包含AB框的最小包围圈)C,再根据交并比IOU的值得到泛化版交并比GIOU,具体的计算公式如下(14)和(15)所示:
式中,C表示预测框和真实框的最小包围框的面积,A∪B表示真实框和预测框的面积之和减去两者的重叠面积;
步骤2:生成边框代价函数,由上述式,GIOU值总是小于等于IOU,其值位于区间[0,1],所以GIOU值位于区间[-1,1],当预测框和真实框完全重合的时候,GIOU=1。当预测框和真实框不重合,即IOU为零值,GIOU越接近-1,两者的距离越远。GIOU作为边框评价指标时,边框代价函数如公式(16)所示:
Loss_box=1-CIOU (16)
步骤3:最后,整个模型的损失函数如公式(17)所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453739.XA CN113052200B (zh) | 2020-12-09 | 2020-12-09 | 一种基于yolov3网络的声呐图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453739.XA CN113052200B (zh) | 2020-12-09 | 2020-12-09 | 一种基于yolov3网络的声呐图像目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113052200A true CN113052200A (zh) | 2021-06-29 |
CN113052200B CN113052200B (zh) | 2024-03-19 |
Family
ID=76508104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011453739.XA Active CN113052200B (zh) | 2020-12-09 | 2020-12-09 | 一种基于yolov3网络的声呐图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052200B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298187A (zh) * | 2021-12-20 | 2022-04-08 | 西南交通大学 | 一种融合改进注意力机制的目标检测算法 |
CN114821022A (zh) * | 2022-06-27 | 2022-07-29 | 中国电子科技集团公司第二十八研究所 | 融合主观逻辑和不确定性分布建模的可信目标检测方法 |
CN116561814A (zh) * | 2023-05-17 | 2023-08-08 | 杭州君方科技有限公司 | 纺织化纤供应链信息防篡改方法及其系统 |
CN116912675A (zh) * | 2023-09-13 | 2023-10-20 | 吉林大学 | 一种基于特征迁移的水下目标检测方法及系统 |
CN116958086A (zh) * | 2023-07-21 | 2023-10-27 | 盐城工学院 | 具有增强特征融合能力的金属表面缺陷检测方法及系统 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050270905A1 (en) * | 2004-04-06 | 2005-12-08 | College Of William & Mary | System and method for identification and quantification of sonar targets in a liquid medium |
WO2007035765A2 (en) * | 2005-09-19 | 2007-03-29 | University Of Virginia Patent Foundation | System and method for adaptive beamforming for image reconstruction and/or target/source localization |
CN104077610A (zh) * | 2014-07-10 | 2014-10-01 | 电子科技大学 | 二维非线性投影特征的sar图像目标识别的方法 |
CN104299248A (zh) * | 2014-11-04 | 2015-01-21 | 哈尔滨工程大学 | 利用前视声呐图像对水下多个动态目标运动预测的方法 |
KR20160000084A (ko) * | 2014-06-23 | 2016-01-04 | 포항공과대학교 산학협력단 | 이미징 소나의 이미지 예측 시뮬레이션 방법 및 이를 이용한 장치 |
FR3025346A1 (fr) * | 2014-08-26 | 2016-03-04 | Centre Nat Rech Scient | Procede automatique d'identification d'une ombre generee par une cible reelle dans une image a deux dimensions d'un sonar |
CN106097315A (zh) * | 2016-06-03 | 2016-11-09 | 河海大学常州校区 | 一种基于声呐图像的水下构筑物裂缝提取方法 |
KR101781757B1 (ko) * | 2016-10-20 | 2017-09-28 | 포항공과대학교 산학협력단 | 객체 인식을 위한 수중 이미지 처리장치 및 그 방법 |
CN107895139A (zh) * | 2017-10-19 | 2018-04-10 | 金陵科技学院 | 一种基于多特征融合的sar图像目标识别方法 |
CN108304866A (zh) * | 2018-01-22 | 2018-07-20 | 西南交通大学 | 一种多视图特征判别方法 |
CN109165585A (zh) * | 2018-06-15 | 2019-01-08 | 沈阳理工大学 | 一种改进的基于yolo v2的船舶目标检测方法 |
CN109655815A (zh) * | 2018-11-23 | 2019-04-19 | 杭州电子科技大学 | 基于ssd的声呐目标检测方法 |
CN110163108A (zh) * | 2019-04-23 | 2019-08-23 | 杭州电子科技大学 | 基于双路径特征融合网络的鲁棒声呐目标检测方法 |
CN110414380A (zh) * | 2019-07-10 | 2019-11-05 | 上海交通大学 | 一种基于目标检测的学生行为检测方法 |
CN110837086A (zh) * | 2019-10-31 | 2020-02-25 | 江苏科技大学 | 一种基于侧扫声呐的海底目标定位方法和定位系统 |
CN111274970A (zh) * | 2020-01-21 | 2020-06-12 | 南京航空航天大学 | 一种基于改进YOLO v3算法的交通标志检测方法 |
CN111325738A (zh) * | 2020-02-28 | 2020-06-23 | 湖北工业大学 | 一种用于横穿孔周边裂纹的智能检测方法及系统 |
CN111489339A (zh) * | 2020-04-08 | 2020-08-04 | 北京交通大学 | 高速铁路定位器螺栓备母缺陷的检测方法 |
CN111652321A (zh) * | 2020-06-10 | 2020-09-11 | 江苏科技大学 | 一种基于改进yolov3算法的海上船舶检测方法 |
CN111754498A (zh) * | 2020-06-29 | 2020-10-09 | 河南科技大学 | 一种基于YOLOv3的传送带托辊检测方法 |
CN111797795A (zh) * | 2020-07-13 | 2020-10-20 | 燕山大学 | 一种基于YOLOv3与SSR的行人检测算法 |
-
2020
- 2020-12-09 CN CN202011453739.XA patent/CN113052200B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050270905A1 (en) * | 2004-04-06 | 2005-12-08 | College Of William & Mary | System and method for identification and quantification of sonar targets in a liquid medium |
WO2007035765A2 (en) * | 2005-09-19 | 2007-03-29 | University Of Virginia Patent Foundation | System and method for adaptive beamforming for image reconstruction and/or target/source localization |
KR20160000084A (ko) * | 2014-06-23 | 2016-01-04 | 포항공과대학교 산학협력단 | 이미징 소나의 이미지 예측 시뮬레이션 방법 및 이를 이용한 장치 |
CN104077610A (zh) * | 2014-07-10 | 2014-10-01 | 电子科技大学 | 二维非线性投影特征的sar图像目标识别的方法 |
FR3025346A1 (fr) * | 2014-08-26 | 2016-03-04 | Centre Nat Rech Scient | Procede automatique d'identification d'une ombre generee par une cible reelle dans une image a deux dimensions d'un sonar |
CN104299248A (zh) * | 2014-11-04 | 2015-01-21 | 哈尔滨工程大学 | 利用前视声呐图像对水下多个动态目标运动预测的方法 |
CN106097315A (zh) * | 2016-06-03 | 2016-11-09 | 河海大学常州校区 | 一种基于声呐图像的水下构筑物裂缝提取方法 |
KR101781757B1 (ko) * | 2016-10-20 | 2017-09-28 | 포항공과대학교 산학협력단 | 객체 인식을 위한 수중 이미지 처리장치 및 그 방법 |
CN107895139A (zh) * | 2017-10-19 | 2018-04-10 | 金陵科技学院 | 一种基于多特征融合的sar图像目标识别方法 |
CN108304866A (zh) * | 2018-01-22 | 2018-07-20 | 西南交通大学 | 一种多视图特征判别方法 |
CN109165585A (zh) * | 2018-06-15 | 2019-01-08 | 沈阳理工大学 | 一种改进的基于yolo v2的船舶目标检测方法 |
CN109655815A (zh) * | 2018-11-23 | 2019-04-19 | 杭州电子科技大学 | 基于ssd的声呐目标检测方法 |
CN110163108A (zh) * | 2019-04-23 | 2019-08-23 | 杭州电子科技大学 | 基于双路径特征融合网络的鲁棒声呐目标检测方法 |
CN110414380A (zh) * | 2019-07-10 | 2019-11-05 | 上海交通大学 | 一种基于目标检测的学生行为检测方法 |
CN110837086A (zh) * | 2019-10-31 | 2020-02-25 | 江苏科技大学 | 一种基于侧扫声呐的海底目标定位方法和定位系统 |
CN111274970A (zh) * | 2020-01-21 | 2020-06-12 | 南京航空航天大学 | 一种基于改进YOLO v3算法的交通标志检测方法 |
CN111325738A (zh) * | 2020-02-28 | 2020-06-23 | 湖北工业大学 | 一种用于横穿孔周边裂纹的智能检测方法及系统 |
CN111489339A (zh) * | 2020-04-08 | 2020-08-04 | 北京交通大学 | 高速铁路定位器螺栓备母缺陷的检测方法 |
CN111652321A (zh) * | 2020-06-10 | 2020-09-11 | 江苏科技大学 | 一种基于改进yolov3算法的海上船舶检测方法 |
CN111754498A (zh) * | 2020-06-29 | 2020-10-09 | 河南科技大学 | 一种基于YOLOv3的传送带托辊检测方法 |
CN111797795A (zh) * | 2020-07-13 | 2020-10-20 | 燕山大学 | 一种基于YOLOv3与SSR的行人检测算法 |
Non-Patent Citations (2)
Title |
---|
李光昊,张莹,刘义飞,莫浩铭: "《基于YOLOv3 的南海典型鱼类水下实时监测研究》", 《现代计算机》, pages 52 - 56 * |
王晓,关志强,王静,王永强: "《基于卷积神经网络的彩色图像声呐目标检测》", 《计算机应用》, vol. 39, pages 197 - 191 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298187A (zh) * | 2021-12-20 | 2022-04-08 | 西南交通大学 | 一种融合改进注意力机制的目标检测算法 |
CN114298187B (zh) * | 2021-12-20 | 2023-08-29 | 西南交通大学 | 一种融合改进注意力机制的目标检测方法 |
CN114821022A (zh) * | 2022-06-27 | 2022-07-29 | 中国电子科技集团公司第二十八研究所 | 融合主观逻辑和不确定性分布建模的可信目标检测方法 |
CN116561814A (zh) * | 2023-05-17 | 2023-08-08 | 杭州君方科技有限公司 | 纺织化纤供应链信息防篡改方法及其系统 |
CN116561814B (zh) * | 2023-05-17 | 2023-11-24 | 杭州君方科技有限公司 | 纺织化纤供应链信息防篡改方法及其系统 |
CN116958086A (zh) * | 2023-07-21 | 2023-10-27 | 盐城工学院 | 具有增强特征融合能力的金属表面缺陷检测方法及系统 |
CN116958086B (zh) * | 2023-07-21 | 2024-04-19 | 盐城工学院 | 具有增强特征融合能力的金属表面缺陷检测方法及系统 |
CN116912675A (zh) * | 2023-09-13 | 2023-10-20 | 吉林大学 | 一种基于特征迁移的水下目标检测方法及系统 |
CN116912675B (zh) * | 2023-09-13 | 2023-11-28 | 吉林大学 | 一种基于特征迁移的水下目标检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113052200B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472627B (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
CN113052200B (zh) | 一种基于yolov3网络的声呐图像目标检测方法 | |
CN109902806B (zh) | 基于卷积神经网络的噪声图像目标边界框确定方法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN112818903A (zh) | 一种基于元学习和协同注意力的小样本遥感图像目标检测方法 | |
CN111368690B (zh) | 基于深度学习的海浪影响下视频图像船只检测方法及系统 | |
CN110084108A (zh) | 基于gan神经网络的行人重识别系统及方法 | |
CN109766805B (zh) | 一种基于深度学习的双层车牌字符识别方法 | |
CN111368671A (zh) | 基于深度学习的sar图像舰船目标检测识别一体化方法 | |
CN114565860B (zh) | 一种多维度增强学习合成孔径雷达图像目标检测方法 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN109543632A (zh) | 一种基于浅层特征融合引导的深层网络行人检测方法 | |
CN113095152B (zh) | 一种基于回归的车道线检测方法及系统 | |
CN109977968A (zh) | 一种深度学习分类后比较的sar变化检测方法 | |
CN110633727A (zh) | 基于选择性搜索的深度神经网络舰船目标细粒度识别方法 | |
CN116468995A (zh) | 一种联合slic超像素和图注意力网络的声呐图像分类方法 | |
CN110738132A (zh) | 一种具备判别性感知能力的目标检测质量盲评价方法 | |
Barodi et al. | An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement | |
CN113128564B (zh) | 一种基于深度学习的复杂背景下典型目标检测方法及系统 | |
CN114170526A (zh) | 基于轻量化网络的遥感影像多尺度目标检测识别方法 | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN117152601A (zh) | 一种基于动态感知区域路由的水下目标检测方法及系统 | |
CN113011359A (zh) | 一种基于图像的同时检测平面结构和生成平面描述的方法及应用 | |
CN116994164A (zh) | 一种多模态航拍图像融合与目标检测联合学习方法 | |
CN113191996A (zh) | 一种遥感影像变化检测方法、装置及其电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |