CN116824488A - 一种基于迁移学习的目标检测方法 - Google Patents
一种基于迁移学习的目标检测方法 Download PDFInfo
- Publication number
- CN116824488A CN116824488A CN202310675903.9A CN202310675903A CN116824488A CN 116824488 A CN116824488 A CN 116824488A CN 202310675903 A CN202310675903 A CN 202310675903A CN 116824488 A CN116824488 A CN 116824488A
- Authority
- CN
- China
- Prior art keywords
- data set
- model
- training
- source domain
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 238000013526 transfer learning Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000013508 migration Methods 0.000 claims abstract description 51
- 230000005012 migration Effects 0.000 claims abstract description 51
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000012795 verification Methods 0.000 claims abstract description 6
- 230000009467 reduction Effects 0.000 claims abstract description 5
- 238000012800 visualization Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 abstract 1
- 238000006731 degradation reaction Methods 0.000 abstract 1
- 238000012546 transfer Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于迁移学习的目标检测方法,该方法通过循环生成对抗网络算法将丰富的源域数据集向少量的目标域数据集风格迁移,得到新的一组数据集;然后使用t‑SNE降维可视化对源域数据集迁移前后以及目标域数据集的数据分布进行分析;构建以源域数据集训练所得模型为baseline,迁移数据集训练所得模型、整体数据集训练所得模型作为验证的模型训练框架。使用YOLOX算法分别训练模型后,将已采集的少量的目标域样本作为测试集进行验证;在mAP指标差距不大的情况下,引入mPR指标作为评价依据。本发明为目标识别模型在部署到新环境时可能面临识别准确度下降、鲁棒性不佳提供了一种解决方案,提高了模型的鲁棒性和泛化能力,具有较低的成本和较高的可操作性。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于迁移学习的目标检测方法。
背景技术
在城市社区智能垃圾岗亭的半户外场景下为了有效区分行人和穿着蓝色或橙色马甲的工作人员,目前采用样本采集、标注、模型训练的方式已训练出一种面向智能垃圾投递岗亭的行人识别模型,同时对地面的垃圾进行识别。考虑到不同城市、不同街道的背景环境具有差异性,如部分垃圾岗亭可能位于道路旁边,来回车辆和小动物均是潜在的干扰要素,已有YOLO目标识别模型在部署到新环境可能将面临识别准确度下降、鲁棒性不佳的问题,需要适当增强行人检测模型的鲁棒性和泛化能力。
YOLO的创始人是Joseph Redmon教授和他的团队,这个算法最初是在2015年的CVPR上被提出的,论文名称为《You Only Look Once:Unified,Real-Time ObjectDetection》。该算法通过将目标检测问题转化为回归问题,极大地提升了检测速度和准确率,成为了计算机视觉领域中的经典算法之一。
YOLO的主要结构可以分为以下几个层次:
1、输入层:YOLO接受一张固定大小的图像作为输入。
特征提取层:使用卷积神经网络(通常是ResNet或Darknet等)进行多层特征提取,该层的输出将用于后续的物体检测。
2、物体检测层:在多个尺度上预测边界框和类别,这就是YOLO算法的核心部分。在每个尺度上,使用卷积操作来预测多个边界框,并使用类别置信度来判断该边界框内是否包含目标。
3、非极大值抑制层:筛选出得分最高的边界框,去除重复的边界框,以保留最准确的物体检测结果。
已有YOLO目标识别模型在部署到新环境可能将面临识别准确度下降、鲁棒性不佳的问题,需要适当增强行人检测模型的鲁棒性和泛化能力。传统机器学习的方法需要采集新部署岗亭的图片样本,进行标注并迭代识别模型,这样的解决方案不仅视角成本较高,而且面临着数据可获取性的问题。
传统机器学习的方法需要采集新部署岗亭的图片样本,进行标注并迭代识别模型,这样的解决方案不仅视角成本较高,而且面临着数据可获取性的问题。为了提高YOLO识别模型的泛化能力,采用迁移学习机制,使识别模型能适应新岗亭的环境,提高泛化能力。此工作核心在于借助迁移学习这种机制来实现跨场景的行人目标检测,提高YOLO识别模型的泛化能力,具有较低的成本和较高的可操作性。
本次发明主要是使用循环生成对抗网络(CycleGAN)的迁移学习方法对源域数据集向目标域进行风格迁移得到新数据集,并利用所得数据集训练模型,然后对所得的实验结果进行分析和对比,根据效果对比循环生成对抗网络的方法对模型的鲁棒性是否具有促进作用。
发明内容
在传统机器学习方法中,由于需要采集新场景的图片样本,进行标注并迭代识别模型,这样的解决方案不仅视角成本较高,并且面临着数据可获取性的问题,因此,本发明提供了一种成本较低、操作简单的目标检测方法,能够使用迁移学习的方法将已有源域数据集样本迁移成目标域风格,需要调试的参数较少训练过程简单,能够提高已有YOLO识别模型的泛化能力,增强模型的鲁棒性,有效降低成本。
本发明是通过如下技术方案实现的:
一种基于迁移学习的目标检测方法,其特征在于,该方法包括以下步骤:
S1、使用CycleGAN算法将已采集标注的源域数据集向需要部署但样本不充足的目标域场景进行风格迁移,得到伪目标域风格数据集;
S2、使用t-SNE算法对源域数据集、迁移数据集、目标域数据集进行降维可视化,分析其数据分布模式,观察经过风格迁移的源域数据集数据分布是否向目标域靠近;
S3、构建以源域数据集训练所得模型为baseline,迁移数据集训练所得模型、整体数据集训练所得模型作为验证的模型训练框架;
S4、使用YOLOX算法对训练所得模型进行测试。
进一步的,步骤S1中,使用CycleGAN算法对已采集标注的源域数据集进行风格迁移,其具体步骤为:
(1)生成器G_A和判别器D_A的训练,在这一步中,生成器G_A的目标是生成和目标域相似的样本,而判别器D_A的目标是区分真实数据和生成器G_A生成的样本;
(2)生成器G_B和判别器D_B的训练,在这一步中,生成器G_B的目标是生成和源域相似的样本,而判别器D_B的目标是区分真实数据和生成器G_B生成的样本;
(3)循环一致性损失的训练,在这一步中,使用生成器G_A将源域的图像翻译成目标域的图像,再使用生成器G_B将翻译后的目标域的图像翻译回源域的图像,这样生成的图像和源域的图像保持一致,即循环一致性;
(4)逆循环一致性损失的训练,在这一步中,使用生成器G_B将目标域的图像翻译回源域的图像,再使用生成器G_A将翻译后的源域的图像翻译回目标域的图像,这样生成的图像和目标域的图像保持一致,即逆循环一致性。
进一步的,所述步骤S1中,根据数据集特征改进CycleGAN算法损失函数,其公式为:
Ltotal(G_A,G_B,D_A,D_B)=1.2*(1.2*LGAN(G_A,D_B,A,B)
+LGAN(G_B,D_A,B,A))
+λLcyc(G_A,G_B)
+λLIdentity(G_A,G_B)
其中Ltotal为整体损失函数,LGAN为对抗损失函数,Lcyc为循环一致性损失函数,LIdentity为自身损失函数,λ为循环一致性损失及自身损失的权重系数。
进一步的,所述步骤S2中,使用t-SNE算法对数据分布进行分析,其具体步骤为:
(1)将图像调整至同一大小,将彩色图像转为黑白图像;
(2)使用PCA算法将高维数据降至180维度;
(3)使用t-SNE算法将180维数据降到二维空间,方便后续的可视化展示;
(4)将降维后的数据在二维空间中可视化,使用散点图将数据点绘制出来,根据类别分别用不同的颜色或标记点表示。
进一步的,所述步骤S3中,模型构造流程为:
首先使用源域数据集训练YOLO模型得到Model1,作为baseline,也为源域场景中部署的目标检测模型;然后使用CycleGAN风格迁移源域数据后的数据集训练YOLO模型得到Model2,为目标域场景目标检测模型;最后使用合并源域数据集和风格迁移后的数据集,训练YOLO模型得到Model3,该模型即可以适用于源域场景,也可以适用于目标域场景。
进一步的,步骤S4中,模型评价的具体方法为:
按照应用场景的不同调整置信度和最小交叠的大小,观察模型在风格迁移前后的mAP指标变化,在mAP指标变化不明显的情况下,根据应用场景的不同调整评价指标,当需要降低误检率时,使用0.75置信度下的mPR指标,即0.75置信度下的各类别平均准确率,同理,当需要提高查全率时,可以使用较低置信度的mRE指标,即各类别评价召回率。
与现有技术相比,本发明的有益效果是:
在已有YOLO识别模型部署到新环境可能将面临识别准确度下降、鲁棒性不佳的情况下,考虑CycleGAN算法无需成对的数据集,不需要人工标注,生成的图像真实自然,并且新的输入图像和风格都有更好的泛化性能。因此使用该迁移学习方法来增强目标检测模型的鲁棒性和泛化能力,使用迁移学习的目标检测方法操作简单,成本较低,参数设置可根据应用场景灵活调整。
与传统的机器学习方法需要采集新部署岗亭的图片样本,进行标注并迭代识别模型,面临着数据可获取性的问题相比,本发明的所需目标域数据集样本量少,不需要人工标注,具有更好的泛化能力,操作可行性高。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明基于迁移学习的目标检测方法流程图;
图2为本发明实例中CycleGAN算法的结构示意图;
图3为本发明实施例2中三个数据集的风格迁移效果图;
图4为本发明实施例2中三个数据集的数据分布图;
图5为本发明实施例2中模型构建流程图。
具体实施方式
下面结合附图和具体实施例对本发明提供的基于迁移学习的目标检测方法进行详细说明。
实施例1
本发明提供了一种基于迁移学习的目标检测方法,该方法包括以下步骤:
S1、使用CycleGAN算法将已采集标注的源域数据集向需要部署但样本不充足的目标域场景进行风格迁移,得到伪目标域风格数据集;
S2、使用t-SNE算法对源域数据集、迁移数据集、目标域数据集进行降维可视化,分析其数据分布模式,观察经过风格迁移的源域数据集数据分布是否向目标域靠近;
S3、构建以源域数据集训练所得模型为baseline,迁移数据集训练所得模型、整体数据集训练所得模型作为验证的模型训练框架;
S4、使用YOLOX算法对训练所得模型进行测试。
进一步的,步骤S1中,使用CycleGAN算法对已采集标注的源域数据集进行风格迁移,其具体步骤为:
(1)生成器G_A和判别器D_A的训练,在这一步中,生成器G_A的目标是生成和目标域相似的样本,而判别器D_A的目标是区分真实数据和生成器G_A生成的样本;
(2)生成器G_B和判别器D_B的训练,在这一步中,生成器G_B的目标是生成和源域相似的样本,而判别器D_B的目标是区分真实数据和生成器G_B生成的样本;
(3)循环一致性损失的训练,在这一步中,使用生成器G_A将源域的图像翻译成目标域的图像,再使用生成器G_B将翻译后的目标域的图像翻译回源域的图像,这样生成的图像和源域的图像保持一致,即循环一致性;
(4)逆循环一致性损失的训练,在这一步中,使用生成器G_B将目标域的图像翻译回源域的图像,再使用生成器G_A将翻译后的源域的图像翻译回目标域的图像,这样生成的图像和目标域的图像保持一致,即逆循环一致性。
进一步的,所述步骤S1中,根据数据集特征改进CycleGAN算法损失函数,其公式为:
Ltotal(G_A,G_B,D_A,D_B)=1.2*(1.2*LGAN(G_A,D_B,A,B)
+LGAN(G_B,D_A,B,A))
+λLcyc(G_A,G_B)
+λLIdentity(G_A,G_B)
其中Ltotal为整体损失函数,LGAN为对抗损失函数,Lcyc为循环一致性损失函数,LIdentity为自身损失函数,λ为循环一致性损失及自身损失的权重系数。
进一步的,所述步骤S2中,使用t-SNE算法对数据分布进行分析,其具体步骤为:
(1)将图像调整至同一大小,将彩色图像转为黑白图像;
(2)使用PCA算法将高维数据降至180维度;
(3)使用t-SNE算法将180维数据降到二维空间,方便后续的可视化展示;
(4)将降维后的数据在二维空间中可视化,使用散点图将数据点绘制出来,根据类别分别用不同的颜色或标记点表示。
进一步的,所述步骤S3中,模型构造流程为:
首先使用源域数据集训练YOLO模型得到Model1,作为baseline,也为源域场景中部署的目标检测模型;然后使用CycleGAN风格迁移源域数据后的数据集训练YOLO模型得到Model2,为目标域场景目标检测模型;最后使用合并源域数据集和风格迁移后的数据集,训练YOLO模型得到Model3,该模型即可以适用于源域场景,也可以适用于目标域场景。
进一步的,步骤S4中,模型评价的具体方法为:
按照应用场景的不同调整置信度和最小交叠的大小,观察模型在风格迁移前后的mAP指标变化,在mAP指标变化不明显的情况下,根据应用场景的不同调整评价指标,当需要降低误检率时,使用0.75置信度下的mPR指标,即0.75置信度下的各类别平均准确率,同理,当需要提高查全率时,可以使用较低置信度的mRE指标,即各类别评价召回率。
实施例2
本实施例运行的硬件环境:笔记本电脑一台,CPU:2.40GHz,GPU:RTX 3090(24G);软件环境:Python 3.8,Pytorch 1.11.0,Cuda 11.3;操作平台:ubuntu20.04。
本实施例在跨时间段数据集与跨场景数据集上测试了所提出方法的效果,跨时间段数据集包括:实地采集的Logo Detect数据集、AlertSample数据集。跨时间段数据集包括:实地采集的PD_Source target数据集。实验数据集的详细信息如表1所示。
表1Logo Detect数据集详细信息
表2AlertSample数据集详细信息
表3PD_Source Target数据集详细信息
本发明提供的一种基于迁移学习的风电功率预测方法,包括下述步骤:
步骤S1,使用CycleGAN算法将已采集标注的源域数据集向需要部署但样本不充足的目标域场景进行风格迁移,得到丰富的伪目标域风格数据集。CycleGAN算法结构如附图2所示,得到迁移效果如附图3所示。
进一步,使用CycleGAN算法对已采集标注的源域数据集进行风格迁移,其具体步骤为:
(1)生成器G_A和判别器D_A的训练。在这一步中,生成器G_A的目标是生成和目标域相似的样本,而判别器D_A的目标是区分真实数据和生成器G_A生成的样本。
(2)生成器G_B和判别器D_B的训练。在这一步中,生成器G_B的目标是生成和源域相似的样本,而判别器D_B的目标是区分真实数据和生成器G_B生成的样本。
(3)循环一致性损失的训练。在这一步中,使用生成器G_A将源域的图像翻译成目标域的图像,再使用生成器G_B将翻译后的目标域的图像翻译回源域的图像。这样生成的图像应该和源域的图像保持一致,即循环一致性。
(4)逆循环一致性损失的训练。在这一步中,使用生成器G_B将目标域的图像翻译回源域的图像,再使用生成器G_A将翻译后的源域的图像翻译回目标域的图像。这样生成的图像应该和目标域的图像保持一致,即逆循环一致性。
进一步,根据数据集特征改进损失函数,其具体公式为:
Ltotal(G_A,G_B,D_A,D_B)=1.2*(1.2*LGAN(G_A,D_B,A,B)
+LGAN(G_B,D_A,B,A))
+λLcyc(G_A,G_B)
+λLIdentity(G_A,G_B)
其中Ltotal为整体损失函数,LGAN为对抗损失函数,Lcyc为循环一致性损失函数,LIdentity为自身损失函数,λ为循环一致性损失及自身损失的权重系数。
步骤S2,使用t-SNE算法对源域数据集、迁移数据集、目标域数据集进行降维可视化,分析其数据分布模式,观察经过风格迁移的源域数据集数据分布是否向目标域靠近。
进一步,使用t-SNE算法对数据分布进行分析,其具体步骤为:
(1)将图像调整至同一大小,将彩色图像转为黑白图像。
(2)使用PCA算法将高维数据将至180维度。
(3)使用t-SNE算法将180维数据降到二维空间,方便后续的可视化展示。
(4)将降维后的数据在二维空间中可视化。使用散点图将数据点绘制出来,根据类别分别用不同的颜色或标记点表示。得到结果如附图4所示。
步骤S3,构建以源域数据集训练所得模型为baseline,迁移数据集训练所得模型、整体数据集训练所得模型作为验证的模型训练框架。框架如附图5所示。
进一步,模型构造流程为:
首先使用源域数据集训练YOLO模型得到Model1,作为baseline,也为源域场景中部署的目标检测模型;然后使用CycleGAN风格迁移源域数据后的数据集训练YOLO模型得到Model2,为目标域场景目标检测模型;最后使用合并源域数据集和风格迁移后的数据集,训练YOLO模型得到Model3,该模型即可以适用于源域场景,也可以适用于目标域场景。
步骤S4,使用YOLOX算法对训练所得模型进行测试。
进一步,模型评价的具体方法为:
按照应用场景的不同调整置信度和最小交叠的大小,观察模型在风格迁移前后的mAP指标变化。在mAP指标变化不明显的情况下,可根据应用场景的不同调整评价指标。实例应用场景需要降低误检率时,因此使用0.75置信度下的mPR指标,即0.75置信度下的各类别平均准确率。
对于跨时间段的Logo Detect数据集,在评估过程中设置置信度score_threshold为0.5,最小交叠MINOVERLAP为0.5,得到结果表4。
表4LogoDetect目标检测的mAP
对于跨时间段的AlertSample数据集,从表中可以看出,在设置了置信度为0.5的情况下,经过CycleGAN风格迁移后数据集训练的模型LG_cyc对比源域数据集训练的模型LG_source精度略有提高。并且使用源域数据集和经过CycleGAN风格迁移后数据集训练的模型LG_source_cyc的精度也高于源域数据集训练的模型LG_source。由此可见,基于CycleGAN的迁移学习是初步有效的,此次评估的结果为后续的实验探究提供了坚实的基础和保障。为进一步验证其有效性,使用AlertSample数据集再次进行验证。
对于跨时间段的AlertSample数据集,在目标检测中,当设定了最小交叠率的阈值时,模型只会保留置信度高、重叠率达到阈值以上的目标检测结果,而筛除掉置信度低的检测结果。因此,提高最小交叠率的阈值可以有效减少误检率,扩大其置信度score_threhold为0.75,最小交叠MINOVERLAP为0.75,得到结果表5,经过CycleGAN风格迁移后的模型对比源域数据集训练的模型精度略有提高。
表5AlertSample目标检测的mAP
此时由于仅从AlertSample数据集的mAP来看,三个模型的差距并不是特别大。由于实施例的背景是半户外岗亭,在该场景下的不确定因素较多,所以要降低模型的误检率,避免模型因为场景中的某一不确定物体频繁识别报警。因此,实施例引入平均正确率mPR作为进一步评价的指标,得到表6,经过CycleGAN风格迁移后的模型对比源域数据集训练的模型降低了误检率。其中由于garbage、lvzhipin两类样本较少,识别效果不佳也在情理之中。
表6AlertSample目标检测的mPR
表6中的数据表明,经过CycleGAN风格迁移后数据集训练的模型Alert_cyc的mPR高于源域数据集训练的模型Alert_source,并且使用源域数据集和经过CycleGAN风格迁移后数据集训练的模型Alert_source_cyc的mPR也高于源域数据集训练的模型Alert_source,模型的鲁棒性和泛化能力得到了提升。实验数据中的garbage、lvzhipin由于标签样本较少,训练不够充分,并且设置了较高的置信度和最小交叠,在测试集上并未检测出。此外,由于suliaozhipin、zhizhipin的标签样本也较少,并且设置了较高的置信度和最小交叠,误判会造成较大的指标落差。但从整体上看来,经过CycleGAN风格迁移后的模型仍是存在进步的。实施例至此,已经成功完成了基于跨时间段的CycleGAN风格迁移实验,并证实其具有初步的有效性。
对于跨场景的PD_Source Target数据集,在模型评估阶段,设置其置信度score_threhold为0.75,最小交叠MINOVERLAP为0.75,得到表7,经过CycleGAN风格迁移后的模型PD_cyc对比源域数据集训练的模型PD_source精度略有提高。
表7PD_Source Target目标检测的mAP
但仅从PD_Source targe数据集的mAP来看,两个模型的差距并不明显。因此,采用与基于跨时间段的域迁移一致的方法,引入平均正确率mPR作为进一步评价的指标,得到表8。
表8PD_Source target目标检测的mPR
表8中的数据表明,经过CycleGAN风格迁移后数据集训练的模型PD_cyc的mPR高于源域数据集训练的模型PD_source,降低了误检率,并且使用源域数据集和经过CycleGAN风格迁移后数据集训练的模型PD_source_cyc的mPR也高于源域数据集训练的模型PD_source,模型的鲁棒性和泛化能力得到了提升。实验数据中的garbage、lvzhipin、mianzhipin、paomozhipin由于标签样本较少,训练不够充分,并且设置了较高的置信度和最小交叠,在测试集上并未检测出或少量检出。此外,由于suliaozhipin、youtong的标签样本也较少,并且设置了较高的置信度和最小交叠,误判会造成较大的指标落差。但从整体上看来,经过CycleGAN风格迁移后的模型仍是存在进步的。实验至此,可以验证基于跨场景的CycleGAN风格迁移也有效的。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (6)
1.一种基于迁移学习的目标检测方法,其特征在于,该方法包括以下步骤:
S1、使用CycleGAN算法将已采集标注的源域数据集向需要部署但样本不充足的目标域场景进行风格迁移,得到伪目标域风格数据集;
S2、使用t-SNE算法对源域数据集、迁移数据集、目标域数据集进行降维可视化,分析其数据分布模式,观察经过风格迁移的源域数据集数据分布是否向目标域靠近;
S3、构建以源域数据集训练所得模型为baseline,迁移数据集训练所得模型、整体数据集训练所得模型作为验证的模型训练框架;
S4、使用YOLOX算法对训练所得模型进行测试。
2.根据权利要求1所述的基于迁移学习的目标检测方法,其特征在于,所述步骤S1中,
使用CycleGAN算法对已采集标注的源域数据集进行风格迁移,其具体步骤为:
(1)生成器G_A和判别器D_A的训练,在这一步中,生成器G_A的目标是生成和目标域相似的样本,而判别器D_A的目标是区分真实数据和生成器G_A生成的样本;
(2)生成器G_B和判别器D_B的训练,在这一步中,生成器G_B的目标是生成和源域相似的样本,而判别器D_B的目标是区分真实数据和生成器G_B生成的样本;
(3)循环一致性损失的训练,在这一步中,使用生成器G_A将源域的图像翻译成目标域的图像,再使用生成器G_B将翻译后的目标域的图像翻译回源域的图像,这样生成的图像和源域的图像保持一致,即循环一致性;
(4)逆循环一致性损失的训练,在这一步中,使用生成器G_B将目标域的图像翻译回源域的图像,再使用生成器G_A将翻译后的源域的图像翻译回目标域的图像,这样生成的图像和目标域的图像保持一致,即逆循环一致性。
3.根据权利要求1所述的基于迁移学习的目标检测方法,其特征在于,所述步骤S1中,根据数据集特征改进CycleGAN算法损失函数,其公式为:
Ltotal(G_A,G_B,D_A,D_B)=1.2*(1.2*LGAN(G_A,D_B,A,B)+LGAN(G_B,D_A,B,A))+λLcyc(G_A,G_B)+λLIdentity(G_A,G_B)
其中Ltotal为整体损失函数,LGAN为对抗损失函数,Lcyc为循环一致性损失函数,LIdentity为自身损失函数,λ为循环一致性损失及自身损失的权重系数。
4.根据权利要求1所述的基于迁移学习的目标检测方法,其特征在于,所述步骤S2中,使用t-SNE算法对数据分布进行分析,其具体步骤为:
(1)将图像调整至同一大小,将彩色图像转为黑白图像;
(2)使用PCA算法将高维数据降至180维度;
(3)使用t-SNE算法将180维数据降到二维空间,方便后续的可视化展示;
(4)将降维后的数据在二维空间中可视化,使用散点图将数据点绘制出来,根据类别分别用不同的颜色或标记点表示。
5.根据权利要求1所述的基于迁移学习的目标检测方法,其特征在于,所述步骤S3中,模型构造流程为:
首先使用源域数据集训练YOLO模型得到Model1,作为baseline,也为源域场景中部署的目标检测模型;然后使用CycleGAN风格迁移源域数据后的数据集训练YOLO模型得到Model2,为目标域场景目标检测模型;最后使用合并源域数据集和风格迁移后的数据集,训练YOLO模型得到Model3,该模型即可以适用于源域场景,也可以适用于目标域场景。
6.根据权利要求1所述的基于迁移学习的目标检测方法,其特征在于,所述步骤S4中,模型评价的具体方法为:
按照应用场景的不同调整置信度和最小交叠的大小,观察模型在风格迁移前后的mAP指标变化,在mAP指标变化不明显的情况下,根据应用场景的不同调整评价指标,当需要降低误检率时,使用0.75置信度下的mPR指标,即0.75置信度下的各类别平均准确率,同理,当需要提高查全率时,可以使用较低置信度的mRE指标,即各类别评价召回率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310675903.9A CN116824488A (zh) | 2023-06-08 | 2023-06-08 | 一种基于迁移学习的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310675903.9A CN116824488A (zh) | 2023-06-08 | 2023-06-08 | 一种基于迁移学习的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116824488A true CN116824488A (zh) | 2023-09-29 |
Family
ID=88128472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310675903.9A Pending CN116824488A (zh) | 2023-06-08 | 2023-06-08 | 一种基于迁移学习的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824488A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132903A (zh) * | 2023-10-26 | 2023-11-28 | 江苏云幕智造科技有限公司 | 一种基于深度迁移学习的旋转卫星组件识别方法 |
CN118568550A (zh) * | 2024-08-02 | 2024-08-30 | 江苏吉科汇智科技有限公司 | 一种基于开放集无监督域适应的分布式光纤传感事件识别方法 |
-
2023
- 2023-06-08 CN CN202310675903.9A patent/CN116824488A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132903A (zh) * | 2023-10-26 | 2023-11-28 | 江苏云幕智造科技有限公司 | 一种基于深度迁移学习的旋转卫星组件识别方法 |
CN117132903B (zh) * | 2023-10-26 | 2024-01-23 | 江苏云幕智造科技有限公司 | 一种基于深度迁移学习的旋转卫星组件识别方法 |
CN118568550A (zh) * | 2024-08-02 | 2024-08-30 | 江苏吉科汇智科技有限公司 | 一种基于开放集无监督域适应的分布式光纤传感事件识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Automated pavement crack damage detection using deep multiscale convolutional features | |
CN111080645B (zh) | 基于生成式对抗网络的遥感图像半监督语义分割方法 | |
Mayer et al. | Exposing fake images with forensic similarity graphs | |
Peeples et al. | Histogram layers for texture analysis | |
CN116824488A (zh) | 一种基于迁移学习的目标检测方法 | |
CN110826429A (zh) | 一种基于景区视频的旅游突发事件自动监测的方法及系统 | |
Liu et al. | Subtler mixed attention network on fine-grained image classification | |
CN110942456B (zh) | 篡改图像检测方法、装置、设备及存储介质 | |
Chen et al. | Exchange means change: An unsupervised single-temporal change detection framework based on intra-and inter-image patch exchange | |
Tao et al. | Automatic smoky vehicle detection from traffic surveillance video based on vehicle rear detection and multi‐feature fusion | |
Guo et al. | Surface defect detection of civil structures using images: Review from data perspective | |
Wang et al. | Automatic identification and location of tunnel lining cracks | |
Yadav et al. | Geological information extraction from satellite imagery using machine learning | |
Zhong et al. | Markov chain based computational visual attention model that learns from eye tracking data | |
Xia et al. | DMFF-Net: Double-stream multilevel feature fusion network for image forgery localization | |
Hu et al. | Structure destruction and content combination for generalizable anti-spoofing | |
CN114519689A (zh) | 图像篡改检测方法、装置、设备及计算机可读存储介质 | |
Mukherjee et al. | Segmentation of natural images based on super pixel and graph merging | |
Chaitra et al. | Digital image forgery: taxonomy, techniques, and tools–a comprehensive study | |
US20220182302A1 (en) | Network traffic rule identification | |
Chen et al. | Urban damage estimation using statistical processing of satellite images | |
CN114494999A (zh) | 一种双分支联合型目标密集预测方法及系统 | |
Mohammad et al. | Updating of GIS maps with Change Detection of Buildings using Deep Learning techniques | |
Lyu | Research on subway pedestrian detection algorithm based on big data cleaning technology | |
Luo et al. | Hybrid cascade point search network for high precision bar chart component detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |