CN110837870B - 基于主动学习的声呐图像目标识别方法 - Google Patents
基于主动学习的声呐图像目标识别方法 Download PDFInfo
- Publication number
- CN110837870B CN110837870B CN201911099760.1A CN201911099760A CN110837870B CN 110837870 B CN110837870 B CN 110837870B CN 201911099760 A CN201911099760 A CN 201911099760A CN 110837870 B CN110837870 B CN 110837870B
- Authority
- CN
- China
- Prior art keywords
- image
- prediction
- sample
- samples
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 89
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000002372 labelling Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000007306 turnover Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000002474 experimental method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 4
- 239000006185 dispersion Substances 0.000 claims description 3
- 238000010187 selection method Methods 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 241000251729 Elasmobranchii Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于主动学习的声呐图像目标识别方法,包括如下步骤:步骤1:对声呐图像数据集进行数据增强处理以扩充数据集;步骤2:从步骤1划分的训练集中选出一组样本进行标注,构成初始训练集,并将这些初始训练集的样本从总的训练集中剔除;步骤3.使用初始训练集训练YOLO模型;步骤4:在剔除初始训练集后的剩余样本训练集中利用主动学习样本选择策略挑选一组样本,将选择出的样本进行人工标注,加入训练集训练YOLO模型;步骤5:重复步骤4,直至剩余样本训练集中所有的样本都被选择;步骤6:YOLO模型训练结束,保存权重、经测试集测试以后输出YOLO模型的精度。本发明极大地降低标注成本,并得到理想的精度。
Description
技术领域:
本发明涉及一种基于主动学习的声呐图像目标识别方法,属于计算机视觉、海洋学等多学科交叉领域。
背景技术:
声呐图像目标识别技术拥有十分广阔的应用场景,如海洋生物的定位、分类与跟踪,尸体、沉船、飞机残骸等物体的打捞,海洋环境探测等,也多用于军事方面,如潜艇、鱼雷、蛙人等军事目标的识别,具有很高的研究价值。
深度学习是一种使用多层网络结构以习得目标更抽象、本质的特征的机器学习模式。相对于浅层学习来说,由于网络结构更为复杂,深度学习更加有利于目标识别任务。当输入训练数据时,深度学习利用其网络结构特性,逐层提取输入数据的特征,从而使目标识别中的分类和定位任务的准确性得到较大的提升。近年来,深度学习在计算机视觉领域取得了重大突破,得到了广泛的应用。
目前,深度学习技术已被用于声呐图像目标识别,但它的性能依赖于训练样本的数量和质量,要求训练样本数量大、标记准确。获取大量标记样本是一件耗时且昂贵的工作,在声呐领域还需要有一定的专业背景知识的专家才能完成标注。另一方面,由于声呐设备、传感器等硬件的发展,获取大量未标记样本越来越容易。另外,过多的较低质量的标记样本反而会降低模型的性能,甚至导致“过学习”问题。对于这样一个问题,主动学习给出了其解决方案:在大量未标记样本中依据一定的样本选择算法,从中挑选对模型的训练价值较高的样本交由专家标注后加入训练集来提高模型的精度,以降低领域专家的工作量,而并非将所有的样本进行标记后训练模型。
发明内容
针对上述存在的问题,本发明提出了一种基于主动学习的声呐图像目标识别方法。通过主动学习策略,根据不同数据样本对于学习模型的贡献度不一样的基本原理,制定多种选择标记样本的标准,选取一部分最有价值的数据交给人工进行标注,极大地降低标注成本,并得到理想的精度。
上述的目的通过以下技术方案实现:
一种基于主动学习的声呐图像目标识别方法,该方法包括如下步骤:
步骤1:对声呐图像数据集进行数据增强处理以扩充数据集,采用“留出法”将数据集划分为两个互斥的集合,一个作为训练集,一个作为测试集;
步骤2:从步骤1划分的训练集中选出一组样本进行标注,构成初始训练集,并将这些初始训练集的样本从总的训练集中剔除;
步骤3.使用初始训练集训练YOLO模型;
步骤4:在剔除初始训练集后的剩余样本训练集中利用主动学习样本选择策略挑选一组样本,将选择出的样本进行人工标注,加入训练集训练YOLO模型,并将选出的样本从剩余样本训练集中剔除;
步骤5:重复步骤4,直至剩余样本训练集中所有的样本都被选择;
步骤6:YOLO模型训练结束,保存权重、经测试集测试以后输出YOLO模型的精度。
所述的基于主动学习的声呐图像目标识别方法,步骤1中所述对声呐图像数据集进行数据增强处理以扩充数据集,所述的数据增强处理的方法包括:随机裁剪、调整曝光度、调整饱和度、调整色调、左右翻转、上下翻转、顺时针旋转90°、顺时针旋转180°、顺时针旋转270°。
所述的基于主动学习的声呐图像目标识别方法,步骤1中所述采用“留出法”将数据集划分为两个互斥的集合,一个作为训练集,一个作为测试集的具体方法是:先将扩充后的数据集中的图片随机排列;然后随机抽取75%的图片及对应标签作为训练集,剩下的25%作为测试集。
所述的基于主动学习的声呐图像目标识别方法,步骤2中所述从步骤1划分的训练集中选出一组样本进行标注,构成初始训练集的过程中,首先根据边缘方向直方图用k-medoids算法对训练集进行聚类,选取最具代表性的100张图像作为初始训练样本集。
所述的基于主动学习的声呐图像目标识别方法,步骤4中所述利用主动学习样本选择策略挑选一组样本,其中所述主动学习样本选择策略包括:基于分类不确定性的样本选择策略;改进的基于分类不确定性样本选择策略;基于数据增强一致性的样本选择策略。
所述的基于主动学习的声呐图像目标识别方法,所述基于分类不确定性的样本选择策略的具体步骤是:是从未标注样本集中选择此时模型最难预测的样本,即选择后验概率最低的样本,对于样本预测结果的每一个边界框,定义评价指标分类不确定性UV(V),其计算公式如下所示:
UB(B)=1-Pmax(B)
其中,Pmax(B)表示该边界框中预测类别概率中最大的概率值,
在一个样本中,往往有多个预测边界框,取所有预测边界框分类不确定性最大的边界框的UB(B)值来代表此样本的分类不确定性UC(I),其算法流程如下:
a.用此时的模型检测未标注样本集中的所有样本,每个样本得到其边界框的预测值;
b.对于每个样本,计算其分类不确定性UC(I);
c.将所有未标记样本按照分类不确定性UC(I)从大到小的顺序排序;
d.根据排序选择前n个样本,交给专家标注后加入训练集,其中,n为此轮规定的选择样本的数量。
所述的基于主动学习的声呐图像目标识别方法,所述改进的基于分类不确定性样本选择策略的具体步骤是:
UCnew=|log(Pmax)+αlog(s2)|
其中,Pmax(B)表示该边界框中预测类别概率中最大的概率值;α是一个权重参数,表示最大概率值与各类概率值离散程度在此指标中所占的权重,经过实验验证,α设置为0.2;s2表示预测所有类的概率的方差,表示各类概率值的离散程度,其计算公式如下所示:
所述的基于主动学习的声呐图像目标识别方法,所述基于数据增强一致性的样本选择策略的具体步骤为:选择数据增强的方式为左右翻转,计算原图I以及其翻转图像I′的预测误差的算法的基本流程为:
a.将翻转图像I′的预测边界框的位置做相应的翻转处理,翻转图像I′是图像I经过左右翻转得到的,那么就需要将I′的预测边界框也进行左右翻转处理;
b.根据图像I与其翻转图像I′预测边界框,计算预测类别和位置的误差,得到两者误差;
其中,若图像I只需预测一个目标,则可将两张图像的预测边界框直接进行计算,但是对于一张图像预测多个目标的情况,需要判断翻转图像中的预测框与原图像中的预测框如何一一对应,对于一张图像I,有n个预测边界框B1,B2,...,Bn;其翻转图像I′,有m个预测边界框B1,B2,...,Bm,其中,翻转图像I′的m个预测边界框已经过翻转处理,对于每个预测边界框,都有坐标(x,y)表示边界框中心的位置,判断流程如下:
b1.计算图像I的n个预测边界框B1,B2,...,Bn与翻转图像I′的m个预测边界框B1,B2,...,Bm的距离,得到dis(Bi,Bj),其中,1≤i≤n,1≤j≤m。dis(Bi,Bj)的计算如下所示:
b2.将步骤b1中计算所得的这m×n组距离按从小到大的顺序排序,得到距离数组Dis;
b3.选取距离最小的一组边界框Bp,Bq(1≤p≤n,1≤q≤m),认为原图I的边界框Bp与翻转图像I′的边界框Bq是相对应的一组边界框;
b4.将m×n组dis(Bi,Bj)距离中i=p或j=q的距离删去;
b5.重复步骤b3-b4,直至数组Dis为空;
原图与其翻转图像预测的类别误差记为Lclass(I,I′),类别误差的计算如下所示:
其中,N为类别总数(实验中N=3);max(m,n)为m,n中较大的值;pij为原图中第i(i=1,2,3,...,max(m,n))个预测框对于第j(j=1,2,...,N)类的预测概率值,若n<m,则pij=0(n<i<m);pi′j为翻转图像中第i′(i′=1,2,3,...,max(m,n))个预测框对于第j(j=1,2,...,N)类的预测概率值;若m<n,则pi′j=0(m<i′<n);若n<m,则pij=0(m<i<n);
原图与其翻转图像预测的定位误差记为Llocation(I,I′),类别误差的计算如下所示,其中,IoU(Bi,Bi′)为边界框Bi,Bi′的交并比值:
定义基于数据增强一致性的样本评价指标SDA(I),其值为原图以及其翻转图像的类别误差与预测框的定位误差之和,计算公式如下所示:
SDA(I)=Lclass(I,I′)+αLlocation(I,I′)
其中,α是一个权重参数,表示类别误差与定位误差在此指标中所占的权重,经过实验验证,在本发明中α设置为1。
有益效果:
1.本发明将主动学习技术与深度学习技术相结合,构建了一个基于主动学习的目标识别框架。较之与传统的声呐图像目标识别方法提升了准确率,识别mAP值在95%以上。
2.本发明的三种主动学习样本选择策略较之传统方法能有效节省标注样本,只用较少的样本对模型进行训练就可以达到用大量经过随机选择的样本训练的样本相同的性能。其中,基于分类不确定性的改进样本选择方法比未改进时在节省样本方面有更优的表现,改进方法的平均节省样本比例为0.3440,未改进的方法平均节省样本比例为0.1952。在这三种样本选择方法中,本发明提出的基于数据增强一致性的样本选择方法平均节省样本数最多,平均节省样本比例为0.4232。
附图说明
图1为本发明整体框架示意图;
图2为本发明流程示意图;
图3为本发明目标识别YOLO网络结构示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
图1为本发明提出的基于主动学习的声呐图像目标识别框架示意图。此框架主要分为三个模块:数据预处理模块、主动选择模块、目标识别模块。
其中,数据预处理模块是对每一张声呐数据图像做数据增强处理,包括随机裁剪、调整曝光度、调整饱和度、调整色调、左右翻转、上下翻转、顺时针旋转90°、顺时针旋转180°、顺时针旋转270°等操作,使得数据集样本的数量得到扩充。
其中,w、h分别为图片的宽、高,图片原始左上角坐标为(xmin,ymin),右下角坐标为(xmax,ymax),经过变换后左上角坐标为(xmin′,ymin′),右下角坐标为(xmax′,ymax′):
随机裁剪:按照原图80%的比例进行随机裁剪,生成5张图像,再resize为原图600*600的大小。对于其标签,进行手动标注。
调整曝光度:对原图的曝光度进行调整。将图像从RGB(Red,Green,Blue)色彩空间转换到HSV(Hue,Saturation,Value)色彩空间,调整图像在HSV色彩空间的第三个通道Value(明度)的数值,生成3张曝光度不同的图像。其标注信息与原图一致。
调整饱和度:对原图的饱和度进行调整。将图像从RGB(Red,Green,Blue)色彩空间转换到HSV(Hue,Saturation,Value)色彩空间,调整图像在HSV色彩空间的第二个通道Saturation(饱和度)的数值,生成3张饱和度不同的图像。其标注信息与原图一致。
调整色调:对原图的色调进行调整。将图像从RGB(Red,Green,Blue)色彩空间转换到HSV(Hue,Saturation,Value)色彩空间,调整图像在HSV色彩空间的第一个通道Hue(色调)的数值,生成3张色调不同的图像。其标注信息与原图一致。
左右翻转:将原图进行左右镜面翻转。其标注信息目标类别名称不变,边界框的坐标变换如下所示:
上下翻转:将原图进行上下镜面翻转。其标注信息目标类别名称不变,边界框的坐标变换如下所示:
顺时针旋转90°:将原图顺时针旋转90°。其标注信息目标类别名称不变,边界框的坐标变换如下所示:
顺时针旋转180°:将原图顺时针旋转180°。其标注信息目标类别名称不变,边界框的坐标变换如下所示:
顺时针旋转270°:将原图顺时针旋转270°。其标注信息目标类别名称不变,边界框的坐标变换如下所示:
目标识别模块包括训练模块和测试模块。
训练模块的功能是用训练集中已标记的样本对模型进行训练,测试模块的功能是计算模型的精度和测试未标记样本的主动学习指标(例如类别不确定性等)。主动学习模块包括样本选择模块和人工标注模块。样本选择模块是本框架的核心,此框架中实现了四种不同的样本选择策略,包括随机选择策略、基于分类不确定性的选择策略、改进的基于分类不确定性的选择策略、基于数据增强一致性的选择策略。此模块需要用目标识别模块当时已训练好的来计算未标记样本的主动学习相关指标。人工标注模块的功能是将由样本选择模块选出的样本进行人工标注,并加入到训练集中。
图2为本发明提出的基于主动学习的声呐图像目标识别框架具体流程示意图。本发明的流程为:
步骤1:对声呐图像数据集进行数据增强处理以扩充数据集,采用“留出法”将数据集划分为两个互斥的集合,一个作为训练集,一个作为测试集;
步骤2:从步骤1划分的训练集中选出一组样本进行标注,构成初始训练集,并将这些初始训练集的样本从总的训练集中剔除;
步骤3.使用初始训练集训练YOLO模型;
步骤4:在剔除初始训练集后的剩余样本训练集中利用主动学习样本选择策略挑选一组样本,将选择出的样本进行人工标注,加入训练集训练YOLO模型,并将选出的样本从剩余样本训练集中剔除;
步骤5:重复步骤4,直至剩余样本训练集中所有的样本都被选择;
步骤6:YOLO模型训练结束,保存权重、经测试集测试以后输出YOLO模型的精度。
所述的基于主动学习的声呐图像目标识别方法,步骤1中所述对声呐图像数据集进行数据增强处理以扩充数据集,所述的数据增强处理的方法包括:随机裁剪、调整曝光度、调整饱和度、调整色调、左右翻转、上下翻转、顺时针旋转90°、顺时针旋转180°、顺时针旋转270°。
在步骤2中,本发明采用的是YOLO模型,其结构示意图如图3所示。此网络包含了53个卷积层来提取图像的特征,并在一些层之间设置了shortcut层,用来连接两层不相邻的网络的输入和输出,使得网络层次变得更深。同时,此网络在多个尺度上对物体进行了检测,提升了模型的mAP值。
在实验过程中,原数据集描述如表1所示:
表1原数据集描述
经过步骤1中的数据增强操作后,数据集图片数量扩充为原数量的20倍。采用“留出法”(hold-out),将数据集划分为两个互斥的集合,一个作为训练集,一个作为测试集。具体划分流程如下:
(1)为了保持数据分布的一致性,先将数据集中的2180张图片随机排列;
(2)随机抽取75%的图片及对应标签作为训练集,剩下的25%作为测试集。训练集一共1635个样本,测试集一共545个样本。
在步骤2中,为了比较几种主动学习中的样本选择算法在YOLO目标识别框架上的性能,设置了4组实验:
(1)基于分类不确定性的样本选择策略;
(2)改进的基于分类不确定性的样本选择策略;
(3)基于数据增强一致性的样本选择策略;
(4)随机样本选择策略(作为对照)。
所述基于分类不确定性的样本选择策略的具体步骤是:是从未标注样本集中选择此时模型最难预测的样本,即选择后验概率最低的样本,对于样本预测结果的每一个边界框,定义评价指标分类不确定性UB(B),其计算公式如下所示:
UB(B)=1-Pmax(B)
其中,Pmax(B)表示该边界框中预测类别概率中最大的概率值,
在一个样本中,往往有多个预测边界框,取所有预测边界框分类不确定性最大的边界框的UB(B)值来代表此样本的分类不确定性UC(I),其算法流程如下:
a.用此时的模型检测未标注样本集中的所有样本,每个样本得到其边界框的预测值;
b.对于每个样本,计算其分类不确定性UC(I);
c.将所有未标记样本按照分类不确定性UC(I)从大到小的顺序排序;
d.根据排序选择前n个样本,交给专家标注后加入训练集,其中,n为此轮规定的选择样本的数量。
所述改进的基于分类不确定性样本选择策略的具体步骤是:
UCnew=|log(Pmax)+αlog(s2)|
其中,Pmax(B)表示该边界框中预测类别概率中最大的概率值;α是一个权重参数,表示最大概率值与各类概率值离散程度在此指标中所占的权重,经过实验验证,α设置为0.2;s2表示预测所有类的概率的方差,表示各类概率值的离散程度,其计算公式如下所示:
所述基于数据增强一致性的样本选择策略的具体步骤为:选择数据增强的方式为左右翻转,计算原图I以及其翻转图像I′的预测误差的算法的基本流程为:
a.将翻转图像I′的预测边界框的位置做相应的翻转处理,翻转图像I′是图像I经过左右翻转得到的,那么就需要将I′的预测边界框也进行左右翻转处理;
b.根据图像I与其翻转图像I′预测边界框,计算预测类别和位置的误差,得到两者误差;
其中,若图像I只需预测一个目标,则可将两张图像的预测边界框直接进行计算,但是对于一张图像预测多个目标的情况,需要判断翻转图像中的预测框与原图像中的预测框如何一一对应,对于一张图像I,有n个预测边界框B1,B2,...,Bn;其翻转图像I′,有m个预测边界框B1,B2,...,Bm,其中,翻转图像I′的m个预测边界框已经过翻转处理,对于每个预测边界框,都有坐标(x,y)表示边界框中心的位置,判断流程如下:
b1.计算图像I的n个预测边界框B1,B2,...,Bn与翻转图像I′的m个预测边界框B1,B2,...,Bm的距离,得到dis(Bi,Bj),其中,1≤i≤n,1≤j≤m。dis(Bi,Bj)的计算如下所示:
b2.将步骤b1中计算所得的这m×n组距离按从小到大的顺序排序,得到距离数组Dis;
b3.选取距离最小的一组边界框Bp,Bq(1≤p≤n,1≤q≤m),认为原图I的边界框Bp与翻转图像I′的边界框Bq是相对应的一组边界框;
b4.将m×n组dis(Bi,Bj)距离中i=p或j=q的距离删去;
b5.重复步骤b3-b4,直至数组Dis为空;
原图与其翻转图像预测的类别误差记为Lclass(I,I′),类别误差的计算如下所示:
其中,N为类别总数(实验中N=3);max(m,n)为m,n中较大的值;pij为原图中第i(i=1,2,3,...,max(m,n))个预测框对于第j(j=1,2,...,N)类的预测概率值,若n<m,则pij=0(n<i<m);pi′j为翻转图像中第i′(i′=1,2,3,...,max(m,n))个预测框对于第j(j=1,2,...,N)类的预测概率值;若m<n,则pi′j=0(m<i′<n);若n<m,则pij=0(m<i<n);
原图与其翻转图像预测的定位误差记为Llocation(I,I′),类别误差的计算如下所示,其中,IoU(Bi,Bi′)为边界框Bi,Bi′的交并比值:
定义基于数据增强一致性的样本评价指标SDA(I),其值为原图以及其翻转图像的类别误差与预测框的定位误差之和,计算公式如下所示:
SDA(I)=Lclass(I,I′)+αLlocation(I,I′)
其中,α是一个权重参数,表示类别误差与定位误差在此指标中所占的权重,经过实验验证,在本发明中α设置为1。
首先根据边缘方向直方图用k-medoids算法对训练集进行聚类,选取最具代表性的100张图像作为初始训练样本集,并对初始模型进行训练。随后,根据本发明所选择和提出的样本选择策略,迭代地从剩余的训练集中每次选择100张图像标记后加入训练集中对模型进行重新训练,直至剩余训练集为空。在计算模型的精度时,当测试集经模型预测后检测出的边界框与真实边界框的IoU大于0.5时,记为正确标记。当样本选择策略为随机选择时,由于随机选择的不确定性导致实验结果的波动,故进行了10次实验,结果取其平均值。
实验对本发明的三种样本选择算法以及随机样本选择对数据集进行15次选择(第一次为初始选择),每次选择100个样本,将选择出的样本标记后加入训练集,重新训练模型,每次得到新模型后都用包含436个样本的训练集对模型精度进行评估,模型的mAP值随选择样本次数变化结果表2所示。其中,Random表示随机选择样本策略,CU old表示未改进的基于分类不确定性的样本选择策略,CU new表示改进后的基于分类不确定性的样本选择策略,DA表示基于数据增强一致性的样本选择策略。
表2模型mAP值随选择样本次数变化表
随着选择样本次数的增加,训练集中的样本越来越多,四种方法都能使模型最终达到相同且较为稳定的mAP值,但三种主动学习样本选择算法明显比被动学习的随机样本选择方法利用更少的样本达到更高的精度,这证明了主动学习算法是有效的。在选择样本次数(即训练集中标记样本的数量)一致时,改进后的基于分类不确定性的样本选择方法相较于未改进时的基于分类不确定性的样本选择方法而言,在达到稳定之前能达到更高的精度,这证明改进后的分类不确定性的样本选择方法相较于原方法性能有了一定的提升。在三种主动学习算法中,性能最优的是本发明提出的基于数据增强一致性的样本选择方法,此方法利用200张样本就使模型的mAP值达到了82.24%,相较于两种基于分类不确定性的样本选择方法性能有较大的提升。基于数据增强一致性的样本选择方法与基于分类不确定性的样本选择方法最大的不同是考虑了模型对于原图及其数据增广集预测的定位框位置的差异,这种对于定位的考虑改善了模型对于定位的预测,从而使得在计算mAP值时,大于正确预测阈值的边界框的数量增多,从而提升了mAP值。
以传统的随机样本选择策略为基线,表3计算了16轮样本选择中主动学习相对于传统学习节省样本比例的平均值。可以看出,三种主动学习样本选择方法都能有效地节省标记样本。其中,基于分类不确定性的改进样本选择方法比未改进时在节省样本方面有更优的表现,改进方法的平均节省样本比例为0.3440,未改进的方法平均节省样本比例为0.1952。在这三种样本选择方法中,本发明提出的基于数据增强一致性的样本选择方法平均节省样本数最多,平均节省样本比例为0.4232。
表3主动学习算法平均节省样本比例
本发明提出了一种基于主动学习的声呐图像目标识别方法,具体实现该方案的方法途径有很多,以上所述仅为本发明的优选实施方案,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明的前提下,还可做出若干改进和润饰,这些改进和润饰也应当视为本发明的保护范围内。本实施例中为明确的部分均可用现有技术加以实现。
Claims (4)
1.一种基于主动学习的声呐图像目标识别方法,其特征在于,该方法包括如下步骤:
步骤1:对声呐图像数据集进行数据增强处理以扩充数据集,采用“留出法”将数据集划分为两个互斥的集合,一个作为训练集,一个作为测试集;
步骤2:从步骤1划分的训练集中选出一组样本进行标注,构成初始训练集,并将这些初始训练集的样本从总的训练集中剔除;
步骤3.使用初始训练集训练YOLO模型;
步骤4:在剔除初始训练集后的剩余样本训练集中利用主动学习样本选择策略挑选一组样本,将选择出的样本进行人工标注,加入训练集训练YOLO模型,并将选出的样本从剩余样本训练集中剔除;
步骤5:重复步骤4,直至剩余样本训练集中所有的样本都被选择;
步骤6:YOLO模型训练结束,保存权重、经测试集测试以后输出YOLO模型的精度;
步骤4中所述利用主动学习样本选择策略挑选一组样本,其中所述主动学习样本选择策略包括:基于分类不确定性的样本选择策略;改进的基于分类不确定性样本选择策略;基于数据增强一致性的样本选择策略;
所述基于分类不确定性的样本选择策略的具体步骤是:是从未标注样本集中选择此时模型最难预测的样本,即选择后验概率最低的样本,对于样本预测结果的每一个边界框,定义评价指标分类不确定性UB(B),其计算公式如下所示:
UB(B)=1-Pmax(B)
其中,Pmax(B)表示该边界框中预测类别概率中最大的概率值,
在一个样本中,往往有多个预测边界框,取所有预测边界框分类不确定性最大的边界框的UB(B)值来代表此样本的分类不确定性UC(I),其算法流程如下:
a.用此时的模型检测未标注样本集中的所有样本,每个样本得到其边界框的预测值;
b.对于每个样本,计算其分类不确定性UC(I);
c.将所有未标记样本按照分类不确定性UC(I)从大到小的顺序排序;
d.根据排序选择前n个样本,交给专家标注后加入训练集,其中,n为此轮规定的选择样本的数量;
所述改进的基于分类不确定性样本选择策略的具体步骤是:
定义分类不确定性指标为对于其计算公式如下所示:
UCnew=|log(Pmax)+αlog(s2)|
其中,α是一个权重参数,表示最大概率值与各类概率值离散程度在此指标中所占的权重,经过实验验证,α设置为0.2;s2表示预测所有类的概率的方差,s2用来表示各类概率值的离散程度,其计算公式如下所示:
其中,n表示总类别数,xi表示边界框中第i类的概率,为概率值的均值,其计算公式如下所示:
对于一个样本来说,取所有预测边界框分类不确定性最大的边界框的值来代表此样本的新的分类不确定性
所述基于数据增强一致性的样本选择策略的具体步骤为:选择数据增强的方式为左右翻转,计算原图I以及其翻转图像I′的预测误差的算法的基本流程为:
a.将翻转图像I′的预测边界框的位置做相应的翻转处理,翻转图像I′是图像I经过左右翻转得到的,那么就需要将I′的预测边界框也进行左右翻转处理;
b.根据图像I与其翻转图像I′预测边界框,计算预测类别和位置的误差,得到两者误差;
其中,若图像I只需预测一个目标,则可将两张图像的预测边界框直接进行计算,但是对于一张图像预测多个目标的情况,需要判断翻转图像中的预测框与原图像中的预测框如何一一对应,对于一张图像I,有n个预测边界框B1,B2,...,Bn;其翻转图像I′,有m个预测边界框B1,B2,...,Bm,其中,翻转图像I′的m个预测边界框已经过翻转处理,对于每个预测边界框,都有坐标(x,y)表示边界框中心的位置,判断流程如下:
b1.计算图像I的n个预测边界框B1,B2,...,Bn与翻转图像I′的m个预测边界框B1,B2,...,Bm的距离,得到dis(Bi,Bj),其中,1≤i≤n,1≤j≤m,dis(Bi,Bj)的计算如下所示:
其中1≤i≤n,1≤j≤m
b2.将步骤b1中计算所得的这m×n组距离按从小到大的顺序排序,得到距离数组Dis;
b3.选取距离最小的一组边界框Bp,Bq(1≤p≤n,1≤q≤m),认为原图I的边界框Bp与翻转图像I′的边界框Bq是相对应的一组边界框;
b4.将m×n组dis(Bi,Bj)距离中i=p或j=q的距离删去;
b5.重复步骤b3-b4,直至数组Dis为空;
原图与其翻转图像预测的类别误差记为Lclass(I,I′),类别误差的计算如下所示:
其中,N为类别总数,实验中N=3;max(m,n)为m,n中较大的值;pij为原图中第i个预测框,i=1,2,3,...,max(m,n),对于第j类的预测概率值,j=1,2,...,N,若n<m,则pij=0;pi′j为翻转图像中第i′个预测框对于第j类的预测概率值,i′=1,2,3,...,max(m,n);若m<n,贝pi′j=0,m<i′<n;若n<m,则pij=0;
原图与其翻转图像预测的定位误差记为Llocation(I,I′),类别误差的计算如下所示,其中,IoU(Bi,Bi′)为边界框Bi,Bi′的交并比值:
定义基于数据增强一致性的样本评价指标SDA(I),其值为原图以及其翻转图像的类别误差与预测框的定位误差之和,计算公式如下所示:
SDA(I)=Lclass(I,I′)+αLlocation(I,I′)
其中,α是一个权重参数,表示类别误差与定位误差在此指标中所占的权重,经过实验验证,在本发明中α设置为1。
2.根据权利要求1所述的基于主动学习的声呐图像目标识别方法,其特征在于,步骤1中所述对声呐图像数据集进行数据增强处理以扩充数据集,所述的数据增强处理的方法包括:随机裁剪、调整曝光度、调整饱和度、调整色调、左右翻转、上下翻转、顺时针旋转90°、顺时针旋转180°、顺时针旋转270°。
3.根据权利要求1所述的基于主动学习的声呐图像目标识别方法,其特征在于,步骤1中所述采用“留出法”将数据集划分为两个互斥的集合,一个作为训练集,一个作为测试集的具体方法是:先将扩充后的数据集中的图片随机排列;然后随机抽取75%的图片及对应标签作为训练集,剩下的25%作为测试集。
4.根据权利要求1所述的基于主动学习的声呐图像目标识别方法,其特征在于,步骤2中所述从步骤1划分的训练集中选出一组样本进行标注,构成初始训练集的过程中,首先根据边缘方向直方图用k-medoids算法对训练集进行聚类,选取最具代表性的100张图像作为初始训练样本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911099760.1A CN110837870B (zh) | 2019-11-12 | 2019-11-12 | 基于主动学习的声呐图像目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911099760.1A CN110837870B (zh) | 2019-11-12 | 2019-11-12 | 基于主动学习的声呐图像目标识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110837870A CN110837870A (zh) | 2020-02-25 |
CN110837870B true CN110837870B (zh) | 2023-05-12 |
Family
ID=69576476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911099760.1A Active CN110837870B (zh) | 2019-11-12 | 2019-11-12 | 基于主动学习的声呐图像目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110837870B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476129A (zh) * | 2020-03-27 | 2020-07-31 | 潍坊申海科技有限公司 | 一种基于深度学习的土壤杂质检测方法 |
CN111309958A (zh) * | 2020-03-30 | 2020-06-19 | 四川长虹电器股份有限公司 | 一种基于插值运算的光谱重构方法 |
CN111507349B (zh) * | 2020-04-15 | 2023-05-23 | 北京深智恒际科技有限公司 | 一种ocr识别模型训练中的动态数据增强方法 |
CN111563590A (zh) * | 2020-04-30 | 2020-08-21 | 华南理工大学 | 一种基于生成对抗模型的主动学习方法 |
CN112613543B (zh) * | 2020-12-15 | 2023-05-30 | 重庆紫光华山智安科技有限公司 | 增强策略验证方法、装置、电子设备及存储介质 |
CN112614570B (zh) * | 2020-12-16 | 2022-11-25 | 上海壁仞智能科技有限公司 | 样本集标注、病理图像分类、分类模型构建方法及装置 |
CN112613504A (zh) * | 2020-12-17 | 2021-04-06 | 上海大学 | 一种声呐水下目标检测方法 |
CN112613564A (zh) * | 2020-12-25 | 2021-04-06 | 桂林汉璟智能仪器有限公司 | 一种剔除重叠框的目标检测后处理方法 |
CN112861959B (zh) * | 2021-02-02 | 2022-04-08 | 南京天创电子技术有限公司 | 一种目标检测图像的自动标注方法 |
CN112785585B (zh) * | 2021-02-03 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 基于主动学习的图像视频质量评价模型的训练方法以及装置 |
CN112861842A (zh) * | 2021-03-22 | 2021-05-28 | 天津汇智星源信息技术有限公司 | 基于ocr的案件文本识别方法及电子设备 |
CN113706448B (zh) * | 2021-05-11 | 2022-07-12 | 腾讯医疗健康(深圳)有限公司 | 确定图像的方法、装置、设备及存储介质 |
CN113378767A (zh) * | 2021-06-28 | 2021-09-10 | 浙江新再灵科技股份有限公司 | 一种基于自适应学习的电梯预警控制方法及其系统 |
CN113642650B (zh) * | 2021-08-16 | 2024-02-20 | 上海大学 | 一种基于多尺度模板匹配和自适应颜色筛选的多波束声呐的沉船检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977994A (zh) * | 2019-02-02 | 2019-07-05 | 浙江工业大学 | 一种基于多示例主动学习的代表性图像选取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741332B (zh) * | 2018-12-28 | 2021-06-04 | 天津大学 | 一种人机协同的图像分割与标注方法 |
-
2019
- 2019-11-12 CN CN201911099760.1A patent/CN110837870B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977994A (zh) * | 2019-02-02 | 2019-07-05 | 浙江工业大学 | 一种基于多示例主动学习的代表性图像选取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110837870A (zh) | 2020-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837870B (zh) | 基于主动学习的声呐图像目标识别方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN108492343B (zh) | 一种扩充目标识别的训练数据的图像合成方法 | |
CN107609601B (zh) | 一种基于多层卷积神经网络的舰船目标识别方法 | |
CN106960195B (zh) | 一种基于深度学习的人群计数方法及装置 | |
CN104599275B (zh) | 基于概率图模型的非参数化的rgb-d场景理解方法 | |
CN108921057B (zh) | 基于卷积神经网络的对虾形态测量方法、介质、终端设备及装置 | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN108960135B (zh) | 基于高分辨遥感图像的密集舰船目标精确检测方法 | |
CN110020651A (zh) | 基于深度学习网络的车牌检测定位方法 | |
CN110909618B (zh) | 一种宠物身份的识别方法及装置 | |
CN111985376A (zh) | 一种基于深度学习的遥感影像舰船轮廓提取方法 | |
CN111553200A (zh) | 一种图像检测识别方法及装置 | |
CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN110598693A (zh) | 一种基于Faster-RCNN的船牌识别方法 | |
CN112800980B (zh) | 一种基于多层次特征的sar目标识别方法 | |
CN113420643B (zh) | 基于深度可分离空洞卷积的轻量级水下目标检测方法 | |
CN110443279B (zh) | 一种基于轻量级神经网络的无人机图像车辆检测方法 | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN113221956B (zh) | 基于改进的多尺度深度模型的目标识别方法及装置 | |
Tereikovskyi et al. | The method of semantic image segmentation using neural networks | |
CN111310690A (zh) | 基于cn和三通道胶囊网络的森林火灾识别方法及装置 | |
CN110334628A (zh) | 一种基于结构化随机森林的室外单目图像深度估计方法 | |
CN110334584A (zh) | 一种基于区域全卷积网络的手势识别方法 | |
CN105844299B (zh) | 一种基于词袋模型的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |