CN113744262B - 一种基于GAN和YOLO-v5的目标分割检测方法 - Google Patents
一种基于GAN和YOLO-v5的目标分割检测方法 Download PDFInfo
- Publication number
- CN113744262B CN113744262B CN202111092430.7A CN202111092430A CN113744262B CN 113744262 B CN113744262 B CN 113744262B CN 202111092430 A CN202111092430 A CN 202111092430A CN 113744262 B CN113744262 B CN 113744262B
- Authority
- CN
- China
- Prior art keywords
- training
- pictures
- data
- frame
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 230000011218 segmentation Effects 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 74
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 6
- 238000009826 distribution Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 210000000988 bone and bone Anatomy 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 10
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于GAN和YOLO‑v5的目标分割检测方法,包括:获取目标检测数据集并标注目标真实框;筛选目标检测数据集中的图片,将符合训练要求的图片归为训练集,将不符合的采用GAN进行训练,直到符合训练要求后归为训练集;采用K‑NN算法对训练集中的图片进行分割;将分割后的图片输入YOLO‑v5模型进行训练,采用锚框融合算法获得最终预测框和所述最终预测框的置信度,并通过损失函数进行反向传播调节权重参数以获得最终训练模型。该方法可充分利用数据集,获得检测目标的全部信息,提高目标检测精度,具有较好的泛化能力。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于GAN和YOLO-v5的目标分割检测方法。
背景技术
近年来,随着深度学习的快速发展,目标检测算法也取得了重大突破,现有目标检测算法可以分为两类,一类是two-stage,需要先产生目标候选框,也就是目标位置,然后再对候选框做分类与回归,如基于Region Proposal的R-CNN系算法(R-CNN、Fast R-CNN、Faster R-CNN等)。另一类是one-stage算法,如Yolo,SSD等,仅仅使用一个卷积神经网络CNN直接预测不同目标的类别与位置。
但现有目标检测算法依赖于大量高清晰度、高信息量的数据集训练,如果数据集不够清晰、信息量不足,很容易造成训练模型精度低、欠拟合。例如,对于海洋来说,作为一个国家的重要国土资源,富含大量的生物资源、化石能源、矿产资源、动力资源等,因而经常面临来自其他国家船舶的干扰甚至攻击,通过利用无人机、无人艇等无人设备对目标进行实时监测可以大幅度增加海洋安全性,因此如何提高目标检测准确度显得越来越重要。目前大部分目标数据集,如海洋目标,数据不多、清晰度不够高而且海洋和陆地混合,应用现有的目标检测算法对目标进行检测的效果并不理想,往往造成陆地误识别为目标,且通过非极大值抑制算法(Non-Maximum Suppression,简称NMS算法)自适应计算不同训练集中的最佳锚框值,只会根据置信度得分选择一个锚框,不会考虑其他锚框的影响,获得的最佳锚框值的检测准确度不高。因此,提出一种具有高目标检测精度及泛化能力的目标检测方法。
发明内容
本发明的目的在于针对上述问题,提出一种基于GAN和YOLO-v5的目标分割检测方法,可获得检测目标的全部信息,大大提高目标检测精度,具有较好的泛化能力。
为实现上述目的,本发明所采取的技术方案为:
本发明提出的一种基于GAN和YOLO-v5的目标分割检测方法,包括如下步骤:
S1、获取目标检测数据集并标注目标的真实框;
S2、筛选目标检测数据集中的图片,将符合训练要求的图片归为训练集中准备训练,将不符合训练要求的图片采用生成对抗网络进行训练,直到符合训练要求后归为训练集中准备训练;
S3、采用K-NN算法对训练集中的图片进行分割;
S4、将分割后的训练集中的图片输入YOLO-v5模型进行训练,YOLO-v5模型包括输入端、Backbone网络、Neck网络和Prediction模块,并执行如下步骤:
S41、将输入端预处理后的图片输入Backbone网络以获得不同尺度的特征图;
S42、将不同尺度的特征图输入Neck网络进行特征提取;
S43、采用Prediction模块对提取特征进行预测并输出多个预测框和对应预测框的置信度;
S44、通过锚框融合算法获得最终预测框和最终预测框的置信度,锚框融合算法计算如下:
其中,(Xa,Ya)为最终预测框的左上顶点的坐标,(Xb,Yb)为最终预测框的右下顶点的坐标,μ为最终预测框的置信度,为第i个预测框的左上顶点的坐标,为第i个预测框的右下顶点的坐标,μi为第i个预测框的置信度,N为预测框的个数;
S45、采用GIOU_Loss作为训练损失函数进行反向传播调节权重参数,获得最终训练模型。
优选地,步骤S2中,目标检测数据集中的图片的筛选包括如下步骤:
S21、获取图片的灰度值并计算灰度方差,灰度方差计算公式如下:
其中,f(x,y)为图片像素点(x,y)的灰度值,μ为图片的灰度平均值,Nx为图片x方向上的像素点个数,Ny为图片y方向上的像素点个数;
S22、判断图片是否符合训练要求,若灰度方差大于第二预设阈值,则符合训练要求,否则,不符合训练要求。
优选地,步骤S3中,K-NN算法具体如下:
S31、计算预测点与各个点之间的欧氏距离,并根据距离大小排序;
S32、选择距离最小的K个点统计类别,以统计频率最高的类别作为预测点的类别。
优选地,K-NN算法通过交叉验证获得K值。
优选地,步骤S41中,预处理为将图片缩放并进行归一化后依次进行Mosaic数据增强、自适应锚框计算、自适应图片缩放操作。
优选地,步骤S45中,GIOU_Loss计算如下:
其中,A为真实框,B为最终预测框,C为真实框和最终预测框的闭包,即包围真实框和最终预测框的平行于坐标轴的最小矩形。
与现有技术相比,本发明的有益效果为:
1)该方法通过生成对抗网络将不符合训练要求的图片生成比原数据集更加清晰准确的图片,可充分利用目标数据集,并采用K-NN算法对图片进行分割避免误识别,将处理后的数据集输入YOLO-v5模型进行训练后用于目标检测,能有效提高目标检测精度,并具有较好的泛化能力;
2)通过锚框融合算法获得最终预测框和最终预测框的置信度,经过融合锚框算法获得的最终预测框包含真实框,进而包含检测目标的全部信息,检测准确度高,尤其在检测目标重合度较高且目标较多时可避免出现漏标少标的情况。
附图说明
图1为本发明的目标分割检测方法流程图;
图2为本发明的YOLO-v5模型结构框图;
图3为本发明的YOLO-v5模型训练流程图;
图4为现有NMS算法和本发明的锚框融合算法输出结果比较图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
如图1-4所示,一种基于GAN和YOLO-v5的目标分割检测方法,包括如下步骤:
S1、获取目标检测数据集并标注目标的真实框。如本实施例用于海洋目标检测,目标可设为船舶,或根据实际需求调整目标。
S2、筛选目标检测数据集中的图片,将符合训练要求的图片归为训练集中准备训练,将不符合训练要求的图片采用生成对抗网络进行训练,直到符合训练要求后归为训练集中准备训练。
在一实施例中,步骤S2中,目标检测数据集中的图片的筛选包括如下步骤:
S21、获取图片的灰度值并计算灰度方差,
1)灰度值计算如下:
Gray=R*0.3+G*0.59+B*0.11
通过上述方法求得Gray后,然后将原来的RGB(R,G,B)中的R,G,B统一用Gray替换,形成新的颜色RGB(Gray,Gray,Gray),即用RGB(Gray,Gray,Gray)替换原来的RGB(R,G,B)就得到了灰度图。其中R,G,B是原图像的RGB值。
2)灰度方差计算公式如下:
其中,f(x,y)为图片像素点(x,y)的灰度值,μ为图片的灰度平均值,Nx为图片x方向上的像素点个数,Ny为图片y方向上的像素点个数;
S22、判断图片是否符合训练要求,若灰度方差大于第二预设阈值,则符合训练要求,否则,不符合训练要求。
其中,生成对抗网络(简称GAN)是通过让两个神经网络相互博弈的方式进行学习。首先,生成器输入一个分布的数据并通过神经网络模仿生成出一个输出(如假图片),将假图片与真图片的信息共同输入到判别器中。然后,判别器通过神经网络学习分辨两者的差异,做一个分类判断出这张图片是真图片还是假图片。
通过生成器与判别器的不断学习训练。最终,生成器能生成与真实图片一模一样的图片,判别器无法判断其真假。GAN实际上是在完成一个优化任务:
其中,G为生成器;D为判别器;V表示定义的价值函数,代表了判别器的判别性能;pdata(x)为真实的数据分布;pz(z)为生成器的输入数据分布;E为期望。是根据真实数据的对数函数损失建立的,希望判别器D能基于真实数据的分布给出1的判断。因此,通过最大化判别器D可以使D(x)=1。x服从pdata(x)分布。
是根据生成器的生成数据而定的,最理想的情况下,当判别器的输入数据为生成器的生成数据时,判别器输出为0。通过最大化判别器D可以使D(G(z))=0。其中,z服从pz分布。这样,生成器与判别器不断对抗训练,通过优化G能在中迷惑判别器,使D(G(z))=1。
1)为衡量真实数据与生成器生成的数据之前的差异,引入KL散度:
其中,P和Q是两种输入数据,当P和Q都是离散型变量且分布相同时,有p(x)=q(x),DKL(P||Q)=0。KL散度具有非负性,衡量了两个数据分布的差异程度,经常被用作表示两种分布之间的距离,注意DKL(P||Q)≠DKL(Q||P)。
2)最优化判别器
固定价值函数中的生成器,用积分形式表示期望:
V(D)=∫xpdata(x)log(D(x))+pg(x)log(1-D(x))dx
上式只有一个变量D,令y=D(x),a=pdata(x),b=pg(x),a,b均为常数,那么,上式变为:
f(y)=alog(y)+blog(1-y)
对上式求一阶导数,在a+b≠0时有:
不难得出f″(y)<0,则为极大值点,证明了存在最优判别器的可能性。虽然实践中并不知道a=pdata(x),但可以利用深度学习训练判别器,使D逐渐逼近目标。
3)最优化生成器;
如最优判别器为:
代入V(G,D):
通过变换,得到:
根据对数基本变换可知:
代入V(G,D)得:
由KL散度的非负性可得-log4为V(G)的最小值,当且仅当pdata(x)=pg(x)时取得,即从理论上证明了生成器生成数据分布可以等于真实数据分布。
S3、采用K-NN算法对训练集中的图片进行分割。
在一实施例中,步骤S3中,K-NN算法具体如下:
S31、计算预测点与各个点之间的欧氏距离,并根据距离大小排序;
S32、选择距离最小的K个点统计类别,以统计频率最高的类别作为预测点的类别。
在一实施例中,K-NN算法通过交叉验证获得K值。
本实施例中用于海洋目标检测,采用K-NN算法进行海陆分割,即将图片分为海洋和陆地两部分,可避免把海洋中部分大型船舶识别为陆地的情况,有助于提高检测精度和计算速度。
其中,K-NN算法可以根据距离预测点的距离最近的K个点的类别来判断预测点属于哪个类别。二维空间两个点的欧式距离d计算公式为:
计算出欧氏距离后然后按照距离从小到大排序。选择距离最小的K个点,统计这些点的类别,出现频率最高的点的类别就是预测点的类别。K值通过交叉验证选择,为本领域技术人员熟知的现有技术,在此不再赘述。
S4、将分割后的训练集中的图片输入YOLO-v5模型进行训练,YOLO-v5模型包括输入端、Backbone网络、Neck网络和Prediction模块,并执行如下步骤:
S41、将输入端预处理后的图片输入Backbone网络以获得不同尺度的特征图;
S42、将不同尺度的特征图输入Neck网络进行特征提取;
S43、采用Prediction模块对提取特征进行预测并输出多个预测框和对应预测框的置信度;
S44、通过锚框融合算法获得最终预测框和最终预测框的置信度,锚框融合算法计算如下:
其中,(Xa,Ya)为最终预测框的左上顶点的坐标,(Xb,Yb)为最终预测框的右下顶点的坐标,μ为最终预测框的置信度,为第i个预测框的左上顶点的坐标,为第i个预测框的右下顶点的坐标,μi为第i个预测框的置信度,N为预测框的个数;
S45、采用GIOU_Loss作为训练损失函数进行反向传播调节权重参数,获得最终训练模型。
在一实施例中,步骤S41中,预处理为将图片缩放并进行归一化后依次进行Mosaic数据增强、自适应锚框计算、自适应图片缩放操作。
其中,输入图片首先进行图像预处理,不同图片的长宽都是不一样的,因此经常将原始图片统一缩放到一个标准尺寸,再送入到网络中进行训练,如常用的416*416、608*608等尺寸,本实施例中把图片缩放到608*608并进行归一化后进行Mosaic数据增强、自适应锚框计算、自适应图片缩放。Mosaic数据增强主要采用随即缩放、随即裁剪、随机排布等方式进行拼接,可以增强小目标的检测效果。
Yolo-v5模型对原始图片自适应的添加最少的黑边,避免存在信息冗余。图片垂直方向(即y方向)上两端的黑边变少,推理时的计算量也就减少了,因此提高了目标检测速度。YOLO-v5模型中针对不同的数据集都会有初始设定长宽的锚框。在网络训练中,网络在初始锚框的基础上输出预测框,进而将获得的最佳锚框和真实框进行比较,计算两者差距,再反向更新,迭代网络参数,以获得最终训练模型。
如图2-3所示,Yolo-v5模型主要由输入端、Backbone、Neck和Prediction四个部分组成:其中Backbone网络采用CSPDarknet53结构和Focus结构,包含Focus结构、CBL结构、SPP结构和残差模块,CBL结构由卷积、BN层和relu激活函数组成,Focus结构由四组切片、concat和CBL组成,SPP结构由CBL和最大池化层组成;Neck网络为FPN+PAN结构,主要由残差模块和CBL结构进行上采样和下采样组成;Prediction网络为卷积和预测,均为现有技术中的网络结构,在此不再赘述。Prediction模块、锚框融合算法、GIOU_Loss均为输出端操作。
如图4所示,一般经过网络训练后,会产生数个大小不等、权值不同的预测框,图中左侧视图中灰色框为预测框,黑色框为真实框,图中右(a)视图为现有技术中采用NMS处理获得的结果示意图,灰色框为最终预测框,黑色框为真实框,图中右(b)视图为本申请方法获得的结果示意图,灰色框为最终预测框,黑色框为真实框。现有技术中采用NMS处理后,只会留下一个置信度最高的预测框,但是往往仍和真实框有一定差距,尤其在检测目标重合度较高且目标较多时(如海洋目标检测数据集中往往会出现多个船舶重合的图片),采用NMS算法会出现漏标少标的情况。本申请在为每个船舶边界锚框找到预测框后,根据每个预测框及其置信度生成融合锚框,即获得最终预测框和最终预测框的置信度,经过融合锚框算法后,会产生一个可以包含真实框的最终预测框,进而包含检测目标的全部信息,检测准确度高。
在一实施例中,步骤S45中,GIOU_Loss计算如下:
其中,A为真实框,B为最终预测框,C为真实框和最终预测框的闭包,即包围真实框和最终预测框的平行于坐标轴的最小矩形。
容易理解的是,采用损失函数进行反向传播调节权重参数为本领域技术人员熟知的技术,在此不再赘述。且本申请还通过测试集验证获得的最终训练模型的识别结果的准确性,并通过不断调整权重参数达到最优结果,以提高目标检测的准确性和泛化能力。将待检测的图片输入最终训练模型即可对待检测的图片进行目标识别,输出检测结果。
该方法通过生成对抗网络将不符合训练要求的图片生成比原数据集更加清晰准确的图片,可充分利用现有的目标数据集,并采用K-NN算法对图片进行分割避免误识别,将处理后的数据集输入YOLO-v5模型进行训练,通过锚框融合算法获得最终预测框和最终预测框的置信度,经过融合锚框算法获得的最终预测框包含真实框,进而包含检测目标的全部信息,检测准确度高,尤其在检测目标重合度较高且目标较多时可避免出现漏标少标的情况,能有效提高目标检测精度,并具有较好的泛化能力。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种基于GAN和YOLO-v5的目标分割检测方法,其特征在于:所述基于GAN和YOLO-v5的目标分割检测方法包括如下步骤:
S1、获取目标检测数据集并标注目标的真实框;
S2、筛选所述目标检测数据集中的图片,将符合训练要求的所述图片归为训练集中准备训练,将不符合训练要求的所述图片采用生成对抗网络进行训练,直到符合训练要求后归为所述训练集中准备训练;
所述目标检测数据集中的图片的筛选包括如下步骤:
S21、获取所述图片的灰度值并计算灰度方差,所述灰度方差计算公式如下:
其中,f(x,y)为所述图片像素点(x,y)的灰度值,μ为所述图片的灰度平均值,Nx为所述图片x方向上的像素点个数,Ny为所述图片y方向上的像素点个数;
S22、判断所述图片是否符合训练要求,若所述灰度方差大于第二预设阈值,则符合训练要求,否则,不符合训练要求;
所述将不符合训练要求的所述图片采用生成对抗网络进行训练包括如下步骤:
通过生成对抗网络的生成器与判别器的不断学习训练,生成器能生成与真实图片一模一样的图片,判别器无法判断其真假,生成对抗网络实际上在完成一个优化任务:
其中,G为生成器;D为判别器;V表示定义的价值函数,代表了判别器的判别性能;pdata(x)为真实的数据分布;pz(z)为生成器的输入数据分布;Ε为期望,是根据真实数据的对数函数损失建立的,希望判别器D能基于真实数据的分布给出1的判断,因此,通过最大化判别器D可以使D(x)=1,x服从pdata(x)分布;
是根据生成器的生成数据而定的,最理想的情况下,当判别器的输入数据为生成器的生成数据时,判别器输出为0,通过最大化判别器D可以使D(G(z))=0,其中,z服从pz分布;这样,生成器与判别器不断对抗训练,通过优化G能在中迷惑判别器,使D(G(z))=1;
1)为衡量真实数据与生成器的生成数据之前的差异,引入KL散度:
其中,P和Q是两种输入数据,当P和Q都是离散型变量且分布相同时,有p(x)=q(x),DKL(P||Q)=0;KL散度具有非负性,衡量了两个数据分布的差异程度,经常被用作表示两种分布之间的距离,注意DKL(P||Q)≠DKL(Q||P);
2)最优化判别器
固定价值函数中的生成器,用积分形式表示期望:
V(D)=∫xpdata(x)log(D(x))+pg(x)log(1-D(x))dx
上式只有一个变量D,令y=D(x),a=pdata(x),b=pg(x),a,b均为常数,那么,上式变为:
f(y)=alog(y)+blog(1-y)
对上式求一阶导数,在a+b≠0时有:
不难得出f″(y)<0,则为极大值点,证明了存在最优判别器的可能性,虽然实践中并不知道a=pdata(x),但可以利用深度学习训练判别器,使D逐渐逼近目标;
3)最优化生成器;
如最优判别器为:
代入V(G,D):
通过变换,得到:
根据对数基本变换可知:
代入V(G,D)得:
由KL散度的非负性可得-log4为V(G)的最小值,当且仅当pdata(x)=pg(x)时取得,即从理论上证明了生成器生成数据分布可以等于真实数据分布;
S3、采用K-NN算法对所述训练集中的图片进行分割;
S4、将分割后的所述训练集中的图片输入YOLO-v5模型进行训练,所述YOLO-v5模型包括输入端、Backbone网络、Neck网络和Prediction模块,并执行如下步骤:
S41、将所述输入端预处理后的所述图片输入所述Backbone网络以获得不同尺度的特征图;
S42、将所述不同尺度的特征图输入所述Neck网络进行特征提取;
S43、采用所述Prediction模块对提取特征进行预测并输出多个预测框和对应所述预测框的置信度;
S44、通过锚框融合算法获得最终预测框和所述最终预测框的置信度,所述锚框融合算法计算如下:
其中,(Xa,Ya)为所述最终预测框的左上顶点的坐标,(Xb,Yb)为所述最终预测框的右下顶点的坐标,μ为所述最终预测框的置信度,为第i个所述预测框的左上顶点的坐标,/>为第i个所述预测框的右下顶点的坐标,μi为第i个所述预测框的置信度,N为所述预测框的个数;
S45、采用GIOU_Loss作为训练损失函数进行反向传播调节权重参数,获得最终训练模型。
2.如权利要求1所述的基于GAN和YOLO-v5的目标分割检测方法,其特征在于:步骤S3中,所述K-NN算法具体如下:
S31、计算预测点与各个点之间的欧氏距离,并根据距离大小排序;
S32、选择距离最小的K个点统计类别,以统计频率最高的类别作为所述预测点的类别。
3.如权利要求2所述的基于GAN和YOLO-v5的目标分割检测方法,其特征在于:所述K-NN算法通过交叉验证获得K值。
4.如权利要求1所述的基于GAN和YOLO-v5的目标分割检测方法,其特征在于:步骤S41中,所述预处理为将所述图片缩放并进行归一化后依次进行Mosaic数据增强、自适应锚框计算、自适应图片缩放操作。
5.如权利要求1所述的基于GAN和YOLO-v5的目标分割检测方法,其特征在于:步骤S45中,所述GIOU_Loss计算如下:
其中,A为所述真实框,B为所述最终预测框,C为所述真实框和最终预测框的闭包,即包围所述真实框和最终预测框的平行于坐标轴的最小矩形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111092430.7A CN113744262B (zh) | 2021-09-17 | 2021-09-17 | 一种基于GAN和YOLO-v5的目标分割检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111092430.7A CN113744262B (zh) | 2021-09-17 | 2021-09-17 | 一种基于GAN和YOLO-v5的目标分割检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113744262A CN113744262A (zh) | 2021-12-03 |
CN113744262B true CN113744262B (zh) | 2024-02-02 |
Family
ID=78739557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111092430.7A Active CN113744262B (zh) | 2021-09-17 | 2021-09-17 | 一种基于GAN和YOLO-v5的目标分割检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113744262B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821433B (zh) * | 2022-05-05 | 2024-04-12 | 南京智慧水运科技有限公司 | 一种基于目标检测信度动态融合的目标识别方法 |
CN114743074B (zh) * | 2022-06-13 | 2022-09-09 | 浙江华是科技股份有限公司 | 一种基于强弱对抗训练的船舶检测模型训练方法及系统 |
CN115035552B (zh) * | 2022-08-11 | 2023-01-17 | 深圳市爱深盈通信息技术有限公司 | 跌倒检测方法、装置、设备终端和可读存储介质 |
CN116363364B (zh) * | 2023-03-27 | 2023-09-26 | 南通大学 | 一种基于改进DSD-LinkNet的电力安全带分割方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582345A (zh) * | 2020-04-29 | 2020-08-25 | 中国科学院重庆绿色智能技术研究院 | 一种小样本下复杂环境的目标识别方法 |
CN113239813A (zh) * | 2021-05-17 | 2021-08-10 | 中国科学院重庆绿色智能技术研究院 | 一种基于三阶级联架构的YOLOv3的远景目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020102988A1 (zh) * | 2018-11-20 | 2020-05-28 | 西安电子科技大学 | 基于特征融合和稠密连接的红外面目标检测方法 |
-
2021
- 2021-09-17 CN CN202111092430.7A patent/CN113744262B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582345A (zh) * | 2020-04-29 | 2020-08-25 | 中国科学院重庆绿色智能技术研究院 | 一种小样本下复杂环境的目标识别方法 |
CN113239813A (zh) * | 2021-05-17 | 2021-08-10 | 中国科学院重庆绿色智能技术研究院 | 一种基于三阶级联架构的YOLOv3的远景目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113744262A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11488308B2 (en) | Three-dimensional object detection method and system based on weighted channel features of a point cloud | |
CN113744262B (zh) | 一种基于GAN和YOLO-v5的目标分割检测方法 | |
CN112686331B (zh) | 伪造图像识别模型训练方法及伪造图像识别方法 | |
US7801337B2 (en) | Face detection method, device and program | |
CN111445488B (zh) | 一种弱监督学习自动识别和分割盐体的方法 | |
CN106599883A (zh) | 一种基于cnn的多层次图像语义的人脸识别方法 | |
CN110991257B (zh) | 基于特征融合与svm的极化sar溢油检测方法 | |
CN110287837A (zh) | 基于先验估计网络和空间约束混合模型的海面障碍物检测方法 | |
CN113850783B (zh) | 一种海面船舶检测方法及系统 | |
CN110245620A (zh) | 一种基于注意力的非最大化抑制方法 | |
CN115880495A (zh) | 复杂环境下的舰船图像目标检测方法与系统 | |
CN110689003A (zh) | 低照度成像车牌识别方法、系统、计算机设备及存储介质 | |
CN116091823A (zh) | 一种基于快速分组残差模块的单特征无锚框目标检测方法 | |
CN115527103A (zh) | 无人艇感知实验平台系统 | |
CN116844114A (zh) | 一种基于YOLOv7-WFD模型的安全帽检测方法及装置 | |
CN118251698A (zh) | 面向稀疏数据的鲁棒nerf模型新颖视图合成 | |
CN112784836A (zh) | 一种文本图形偏移角度预测及其校正方法 | |
CN117197543A (zh) | 基于GMD图像化与改进ResNeXt的网络异常检测方法及装置 | |
CN111950635A (zh) | 一种基于分层特征对齐的鲁棒特征学习方法 | |
CN116863293A (zh) | 一种基于改进YOLOv7算法的可见光下海上目标检测方法 | |
CN111898454A (zh) | 权重二值化神经网络与迁移学习人眼状态检测方法及设备 | |
CN116503692A (zh) | 基于稀疏扰动群的对抗样本生成方法及系统 | |
Kumar et al. | Novel unsupervised learning architecture for exposure-based classification and enhancement | |
CN111191549A (zh) | 一种两级人脸防伪检测方法 | |
CN115294424A (zh) | 一种基于生成对抗网络的样本数据增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |