CN111461190B - 一种基于深度卷积神经网络的非均衡船舶分类方法 - Google Patents

一种基于深度卷积神经网络的非均衡船舶分类方法 Download PDF

Info

Publication number
CN111461190B
CN111461190B CN202010211077.9A CN202010211077A CN111461190B CN 111461190 B CN111461190 B CN 111461190B CN 202010211077 A CN202010211077 A CN 202010211077A CN 111461190 B CN111461190 B CN 111461190B
Authority
CN
China
Prior art keywords
network
data
model
layer
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010211077.9A
Other languages
English (en)
Other versions
CN111461190A (zh
Inventor
晏明昊
韩国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010211077.9A priority Critical patent/CN111461190B/zh
Publication of CN111461190A publication Critical patent/CN111461190A/zh
Application granted granted Critical
Publication of CN111461190B publication Critical patent/CN111461190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度卷积神经网络的非均衡船舶分类方法,包括步骤:1)获取基础数据;2)数据处理;3)模型构建;4)定义损失函数;5)训练模型;6)应用模型。本发明将船舶的精细分类和解决类别数据分布不均衡的问题结合起来,在提取船舶全局特征的基础上通过引入船舶的具有类别判别性的局部特征,来使得模型学习到船舶的细节,从而让分类的结果更加精确,并且使用记忆网络和融合学习网络对难以学习的样例进行存储和着重学习,在学习新样例的同时改善对这些样例的学习,而且也起到重新平衡类别数据分布的作用,有效避免了实际场景中类别数据分布不均衡给模型训练带来的不利影响。

Description

一种基于深度卷积神经网络的非均衡船舶分类方法
技术领域
本发明涉及计算机视觉图像处理的技术领域,尤其是指一种基于深度卷积神经网络的非均衡船舶分类方法。
背景技术
船舶图像的分类问题一直以来都是计算机图像处理领域的一个重点研究课题。构建具有鲁棒性的船舶图像分类模型不仅具有学术研究价值,而且还极具工业应用价值。如今的诸多工作场景,诸如海上船舶监控,船舶航线追踪以及追捕走私船舶等,都需要对设备拍摄的船舶图像进行精准的分类。
目前海关或者航运公安方面主要依靠技术人员对船舶的种类进行识别,但这种人工作业的方式不仅需要大批技术人员,而且当技术人员状态不佳时会导致监控效率低下。最近几年,得益于深度学习技术领域的飞速发展,尤其是卷积神经网络的发展,使得图像分类任务的效果有了明显的提升。因此利用深度学习技术实现自动高效的船舶图像分类尤为必要。深度学习方法是一种数据驱动的方法,需要大量并且充足的数据来训练模型,目前现有的深度学习方法都是在拥有体量庞大的数据集,且数据集中不同种类数据数量分布均衡(即每一类数据中含有的样例数量相同)的前提下进行训练,才取得令人满意的效果。在现实的船舶监控场景中,采集数据是一件极度困难的事情,尤其是采集包含数万样本的数据。在实际场景中船舶的出现也具有随机性,因此不同种类的船舶图像数据包含的样例数量往往差异巨大。在这种不同类别数据分布不均衡,甚至部分类别的船舶图像数据不充足时,现有的深度学习方法往往效果不够理想。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于深度卷积神经网络的非均衡船舶分类方法,突破传统深度学习的分类模型需要在类别数据分布均衡的条件下才能训练以及只采用全局特征进行分类的缺点,让模型能够在类别数据分布非均衡的情况下取得人类级别的分类准确率,从而使得模型可以应用到真实的工业场景中去。
为实现上述目的,本发明所提供的技术方案为:一种基于深度卷积神经网络的非均衡船舶分类方法,包括以下步骤:
1)获取基础数据
训练深度卷积神经网络需要使用大量的基础数据,所述基础数据包括图像数据及图像数据对应的类别标签数据,所述基础数据构成一个训练集并具有非均衡的类别数量分布;
2)数据处理
将基础数据中的图像数据和类别标签数据通过处理转变为训练深度卷积神经网络所需的格式;
3)模型构建
根据训练的目标和输入输出的形式,构建一个用于处理非均衡船舶分类任务的深度卷积神经网络模型;
4)定义损失函数
根据深度卷积神经网络模型的结构和训练目标,定义合适的损失函数;
5)训练模型
初始化深度卷积神经网络模型的参数,输入训练集中的数据进行迭代训练,在训练过程中通过损失函数计算得到网络的损失值,再通过反向传播计算出模型中每一层神经网络参数的梯度,使用随机梯度下降的方法对每一层网络的参数进行更新;
6)应用模型
使用训练好的深度卷积神经网络模型去预测采集到的全新的船舶图像中船舶的类别。
在步骤1)中,所述图像数据是指通过各类拍摄设备从现实场景中获取的清晰船舶图像数据,如果获取的图像数据没有对应的类别标签数据,则需要手工添加每张图片的类别标签信息,由于真实场景中各类船舶的出现具有随机性,难以保证每一类船舶的图像数量相同,因此,采集到的数据具有类别数量分布非均衡的特点。
在步骤2)中,将基础数据中的图像数据和类别标签数据通过处理转变为训练深度卷积神经网络所需的格式,包括以下步骤:
2.1)将图像数据统一缩放到m×n像素大小,其中m为缩放后图像的长,n为缩放后图像的宽;
2.2)得到缩放后的新图像后,在包含有需要分类的物体的区域进行随机裁剪操作,得到a×b像素大小的矩形图像,其中a<=m,b<=n;
2.3)将裁剪后的图像进行概率为0.5的随机水平翻转操作;
2.4)把随机翻转后的图像中每个位置的值由[0,255]区间转换到[-1,1]区间。
在步骤3)中,根据训练的目标和输入输出的形式,构建一个用于处理非均衡船舶分类任务的深度卷积神经网络模型,包括以下步骤:
3.1)构造特征提取网络
特征提取网络的功能是从输入的图像数据中提取出具有类别判别性的高层语义特征,将提取到的语义特征用一个低维的编码进行表达;特征提取网络的输入是经过步骤2)处理过的图像数据,通过池化层、卷积块、全连层对图像数据进行操作来实现从高维数据中提取低维特征,其中,池化层能够对数据的维度进行缩小,从而便于提取特征,而且也起到了增加卷积块感受野的作用,卷积块由卷积层、批量正则化层、非线性激活层通过串联的方式组成,卷积层中卷积核的大小为3×3,卷积核的移动步长为1,具体的功能是提取输入数据的低维特征,批量正则化层用来对同一批次的输入数据的均值和标准差进行归一化,来增强模型训练的稳定性和提高训练的速度,非线性激活层的功能是提高模型对特征的表达能力,防止模型在训练过程中退化为线性模型,全连层将提取的特征转化到指定的维度,最终输出2048维的特征和中间层特征;构建的深度卷积神经网络模型将会用到两个特征提取网络,分别用D1、D2进行表示,D1用来提取图像的全局特征,D2用来提取局部特征;
3.2)构造具有自我监督机制的局部提取网络
由于需要对图像中物体的具体位置进行人工标注,提出了具有自我监督机制的区域提取网络在没有物体位置标注的情况下通过自我监督机制,对图像中物体的位置进行准确的定位,具体如下:
区域提取网络:其功能是从图像中寻找物体,并对物体的位置进行定位,其输入是步骤3.1)中特征提取网络D1的中间层中大小为28×28、14×14、7×7的特征图,输出一系列候选区域的位置坐标和对应区域中包含有物体的概率;区域提取网络由三个结构块组成,每一个结构块均由卷积层、批量正则化层、非线性激活层组成;其中,第一个结构块中卷积层的卷积核大小为3×3,该结构块的功能是对输入的特征图进行特征融合,其输出将作为第二个和第三个结构块的输入;第二个结构块的作用是预测候选区域的矩形方框的坐标,其中卷积层的卷积核大小为1×1;第三个结构块的作用是预测矩形方框中包含有物体的概率;
自我监督机制:在获得预测的候选区域的矩形方框的坐标后,根据这些坐标,从图中将这些区域裁剪下来,然后经过步骤2)的操作对这些区域进行处理,处理完后将这些区域输入到步骤3.1)中用于提取局部特征的特征提取网络D2中,得到一系列局部特征{R1,R2…RN},将这些特征输入到一个分类器中,预测它们属于对应物体类别的概率{C1,C2…CN},根据概率的数值,选择概率值最大的4个2048维局部特征作为下一步的输入;
3.3)记忆网络
记忆网络的功能主要有三个,一个是将模型认为难以学习的困难样例存储起来,第二个是通过输入样例与记忆网络中存储样例的相似度,选择若干合适的存储样例,并计算输入样例和不同存储样例之间的相似权重,然后将输入样例和存储样例拼接成一个新的矩阵,第三个是通过选取存储样例,增强对这些存储样例的学习,起到了重新平衡种类数据分布的效果;记忆网络的输入是步骤3.1)中D1提取的全局特征和步骤3.2)中的4个局部特征串联后的特征,输出是输入样例与存储样例的相似权重矩阵W1,以及输入样例和存储样例的拼接矩阵W2;记忆网络中的数据均以键值对的形式存储,其中键是样例的全局特征和4个局部特征串联后的特征,值是样例的类别信息,用一个整数进行表示;相似度以输入样例和存储样例的键的欧几里得距离来衡量,选取和输入样例距离最近的5个存储样例,并根据这五个距离,由softmax函数计算权重,公式如下所示:
Figure BDA0002422845940000051
式中,W1 i是相似权重矩阵的第i行权重的值,di是查询样例和第i个存储样例的距离,e是自然数;将输入样例的特征分别与5个存储样例的键值对进行串联后,得到一个5行的矩阵W2;对于困难样例的判断,即是否需要将样例存入记忆网络,在模型最终输出样例对应类别的概率后,根据概率的值判断是否需要将该样例存入记忆网络;
3.4)融合学习网络
融合学习网络的作用是捕捉输入样例和存储样例之间的结构特征相似性,通过学习到这些结构相似性后,使用存储样例来精确地表示输入样例,在学习新样例的知识同时,增强对旧样例的学习,提高模型的表达能力;融合学习网络的输入是步骤3.3)输出的相似权重矩阵W1和拼接矩阵W2,输出是预测的输入样例属于对应类别的概率;融合学习网络由1个线性层、5个多头注意力模块和1个分类器串联而成,线性层的作用是对输入的特征进行降维,增加多头注意力模块的感受野,多头注意力模块由多头注意力层和多层感知机组成,多头注意力的作用是学习输入样例和存储样例在各个子空间中的结构相似情况,多头的数量即为子空间的数量,公式如下所示:
Figure BDA0002422845940000061
式中,Wj为第j个子空间的相似矩阵,FQ、FK、FV均为多头注意力层中需要学习的参数矩阵,dk是FK矩阵的数值最大的维度的值,T是矩阵的转置操作;Ein为多头注意力模块的输入,多头主力层输出的是所有子空间的相似矩阵串联后的矩阵;多层感知机则用于根据多头注意力层学习到的知识,生成新的特征表示;将5行的相似权重矩阵W1转置后和第五个多头注意力模块输出的5行的矩阵相乘,得到最终的特征表达,将该特征送入分类器中,得到最终的概率;
在步骤4)中,根据深度卷积神经网络模型的结构和训练目标,定义合适的损失函数,包括以下步骤:
4.1)定义区域提取网络的损失函数
区域提取网络中会对局部特征的类别进行预测以及选择若干个预测对应类别概率最高的区域,损失函数的目标是网络能够尽可能对这些区域进行正确的分类以及准确选择概率最高的区域,对分类任务,使用交叉熵损失作为损失函数,公式如下所示:
Figure BDA0002422845940000071
式中,Lcls表示交叉熵,N表示样例的数量,U表示类别数量;
Figure BDA0002422845940000072
为指示变量,如果该局部特征的类别和样本的类别相同则为1,否则为0;/>
Figure BDA0002422845940000073
表示预测样例属于类别v的概率;为了让模型能够根据预测的类别概率的值,正确选择局部特征,使用hinge损失函数,公式如下:
Figure BDA0002422845940000074
式中,Lh表示hinge损失函数,gj和gi表示第i和第j个区域属于图像中物体类别的概率;
4.2)定义融合学习网络的损失函数
融合学习网络中需要对最终融合学习的特征进行准确的分类,因此,使用交叉熵损失作为其损失函数;
4.3)定义总损失函数
将步骤4.1)和步骤4.2)中的损失函数相加,便组成了整个网络的总损失函数;
在步骤5)中,初始化深度卷积神经网络模型的参数,输入训练集中的数据进行迭代训练,在训练过程中通过损失函数计算得到网络的损失值,再通过反向传播计算出模型中每一层神经网络参数的梯度,使用随机梯度下降的方法对每一层网络的参数进行更新,包括如下步骤:
5.1)对模型的特征提取器中各层网络的参数进行初始化,使用在ImageNet数据集上训练好的VGG16网络的各层参数值作为特征提取器的初始参数值,对自我监督的区域提取网络中各层的参数使用均值为0,标准差为0.02的高斯分布进行初始化,对融合学习网络中的各层参数则使用均值为1,标准差为0.02的高斯分布进行初始化;
5.2)训练网络,输入样例数据经过步骤2)的操作进行预处理,转化为网络所需要的格式,经过步骤3.1)得到图像的全局特征和不同尺度的中间层特征,通过步骤3.2)从中间层特征中生成指定数量的局部特征,并通过步骤4.1)计算对应的损失值,通过步骤3.3)根据全局特征和局部特征从记忆网络中选取指定个数和该样例最为相似的存储样例,通过步骤3.4)对该样例和选取的存储样例进行融合学习,输出预测结果,并根据结果判断是否要将该样例存入记忆网络,通过步骤4.2)计算对应的损失值,通过步骤4.3)计算最终的损失值,通过损失值得到用于更新步骤3)中模型参数的梯度,使用随机梯度下降算法用得到的梯度去优化更新各层网络的参数,更新完就实现了网络模型的一轮训练;
5.3)重复步骤5.2),直到网络对于非均衡船舶分类任务的能力达到预期的效果。
在步骤6)中,使用训练好的深度卷积神经网络模型去预测采集到的全新的船舶图像中船舶的类别,包括以下步骤:
6.1)按步骤1)从真实场景中采集全新的船舶图像数据,给每张图片添加对应的类别标签信息;
6.2)将新采集的数据按步骤2)进行处理;
6.3)把处理好的数据输入到步骤5)训练好的模型中,得到模型预测的这些数据对应的类别;
6.4)将预测的结果和对应的标签数据进行对比,根据对比的结果计算模型的准确率,以此评价模型的性能。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次提出了具有一种适用于海关监控场景的非均衡船舶分类方法,尤其是对海关的监控具有很强的实际应用价值,而且分类的准确率和人工分类的准确率接近。
2、本发明首次提出了具有自我监督机制的区域提取网络,在不需要对目标物体的特定区域进行额外手工标注的情况下,自动准确地对目标物体的局部细节进行定位并提取局部特征。
3、本发明首次提出了具有选择策略的记忆网络,能够判断网络学习的样例是否是困难样例,并且选取这些样例进行存储,在接下来的训练过程中,根据新样例和记忆网络存储样例的相似度来选取合适的存储样例,进行融合学习,同时也达到重新平衡类别数据的效果。
4、本发明使用提出了融合学习网络,通过多头注意力机制去捕获新样例和选取的存储样例的结构关系,特征相似性,然后使用记忆网络中选取的存储样例去表达新样例,以此来使网络充分学习到不同样例的相似性,同时该网络也起到了数据增强的作用,减少了数据分布不均衡带来的影响。
附图说明
图1为本发明方法逻辑流程示意图。
图2为特征提取网络结构图。
图3为区域提取网络结构图。
图4为记忆网络和融合学习网络的组合示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于深度卷积神经网络的非均衡船舶分类方法,具体流程如下:
1)获取基础数据,包括图像数据及图像数据对应的类别标签数据,其中,所述的图像数据是指通过海关或航运公安安装在海岸边或者河岸边的高清摄像头拍摄到的船舶图片,类别标签数据是根据图片中船舶的种类,人工标注的数据。
2)将基础数据中的图像数据和类别标签数据通过处理转变为训练深度卷积神经网络所需的格式,包括以下步骤:
2.1)将图像数据统一缩放到300×300像素大小,其中300为缩放后图像的长,300为缩放后图像的宽。
2.2)得到缩放后的新图像后,在包含有需要分类的物体的区域进行随机裁剪操作,得到224×224像素大小的矩形图像。
2.3)将裁剪后的图像进行概率为0.5的随机水平翻转操作。
2.4)把随机翻转后的图像中每个位置的值由[0,255]区间转换到[-1,1]区间。
3)根据训练的目标和输入输出的形式,构建一个用于处理非均衡船舶分类任务的深度卷积神经网络模型,包括以下步骤:
3.1)构造特征提取网络
输入是经过步骤2)处理过的图像数据,大小为3×224×224,通过池化层,卷积块,全连层对图像数据进行操作来实现从高维数据中提取低维特征,其中卷积层中卷积核的大小为3×3,卷积核的移动步长为1,图2所示为特征提取网络的具体结构,本方法中将会用到两个特征提取网络。分别用D1,D2进行表示,D1用来提取图像的全局特征,D2用来提取局部特征,D1中512×28×28,512×14×14和512×7×7大小的特征将作为下一步的输入。
3.2)构造具有自我监督机制的局部提取网络,具体情况如下:
区域提取网络:其功能是从图像中寻找物体,并对物体的位置进行定位,其输入是步骤3.1)中特征提取网络D1的中间层中大小为28×28、14×14、7×7大小的特征图,输出一系列候选区域的位置坐标和对应区域中包含有物体的概率;区域提取网络由三个结构块组成,每一个结构块均由卷积层,批量正则化层,非线性激活层组成。其中第一个结构块中卷积层的卷积核大小为3×3,该结构块的功能是对输入的特征图进行特征融合,其输出将作为第二个和第三个结构块的输入,第二个结构块的作用是预测候选区域的矩形方框的坐标,其中卷积层的卷积核大小为1×1,其输出的是区域的左上角位置的横纵坐标以及区域的长和宽的值,第三个结构块的作用是预测矩形方框中包含有物体的概率,其输出是一个长度为2的向量,表示区域是背景和包含船舶的概率,具体结构如图3所示。
自我监督机制:在获得预测的候选区域的矩形方框的坐标后,根据这些坐标,从图中将这些区域裁剪下来,然后经过步骤2)的操作对这些区域进行处理,处理完后将这些区域输入到步骤3.1)中用于提取局部特征的特征提取网络D2中,得到一系列局部特征{R1,R2…RN},将这些特征输入到一个分类器中,预测它们属于对应物体类别的概率{C1,C2…CN},根据概率的数值,选择概率值最大的4个局部特征作为下一步的输入。
3.3)记忆网络
记忆网络的输入是步骤3.1)中D1提取的全局特征和步骤3.2)中的4个局部特征串联后的特征,输出是输入样例与存储样例的相似权重矩阵W1,以及输入样例和存储样例的拼接矩阵W2;记忆网络中的数据均以键值对的形式存储,其中键是样例的全局特征和4个局部特征串联后的特征,值是样例的类别信息,用一个整数进行表示;相似度以输入样例和存储样例的键的欧几里得距离来衡量,选取和输入样例距离最近的5个存储样例,并根据这五个距离,由softmax函数计算权重,公式如下所示:
Figure BDA0002422845940000121
式中,W1 i是相似权重矩阵的第i行权重的值,di是查询样例和第i个存储样例的距离,e是自然数;每个存储样例的标签会被映射成一个64维向量,将查询样例的特征分别与5个存储样的例键值对进行串联后,得到一个5行,20544列的矩阵W2;对于困难样例的判断,即是否需要将样例存入记忆网络,在模型最终输出样例对应类别的概率后,根据概率的值判断是否需要将该样例存入记忆网络,记忆网络的结构如图4所示。
3.4)融合学习网络
融合学习网络的输入是步骤3.3)输出的相似权重矩阵W1和拼接矩阵W2,输出是预测的输入样例属于对应类别的概率;融合学习网络由1个线性层、5个多头注意力模块和1个分类器串联而成,线性层的作用是对输入的特征进行降维,增加多头注意力模块的感受野,该层将会输出一个5行、512列的矩阵,多头注意力模块由多头注意力层和多层感知机组成,多头注意力的作用是学习输入样例和存储样例在各个子空间中的结构相似情况,多头的数量即为子空间的数量,实施例中多头数量设为8,公式如下所示:
Figure BDA0002422845940000131
式中,Wj为第j个子空间的相似矩阵;FQ,FK,FV均为多头注意力层中需要学习的参数矩阵;dk是FK矩阵的数值最大的维度的值,T是矩阵的转置操作,Ein为多头注意力模块的输入,多头主力层输出的是所有子空间的相似矩阵串联后的矩阵;多层感知机则用于根据多头注意力层学习到的知识,生成新的特征表示;将5行的相似权重矩阵W1转置后和第五个多头注意力模块输出的5行的矩阵相乘,得到最终的特征表达,将该特征送入分类器中,得到最终的概率,融合学习网络结构如图4所示。
4)根据深度卷积神经网络模型的结构和训练目标,定义合适的损失函数,包括以下步骤:
4.1)定义区域提取网络的损失函数
区域提取网络中会对局部特征的类别进行预测以及选择若干个预测对应类别概率最高的区域,损失函数的目标是网络能够尽可能对这些区域进行正确的分类以及准确选择概率最高的区域,对分类任务,使用交叉熵损失作为损失函数,公式如下所示:
Figure BDA0002422845940000132
式中,Lcls表示交叉熵,N表示样例的数量,U表示类别数量,
Figure BDA0002422845940000133
为指示变量,如果该类别和样本的类别相同则为1,否则为0,/>
Figure BDA0002422845940000134
表示预测样例属于类别v的概率;为了让模型能够根据预测的类别概率的值,正确选择局部特征,使用hinge损失函数,公式如下:
Figure BDA0002422845940000135
式中,Lh表示hinge损失函数,gj和gi表示第i和第j个区域属于图像中物体类别的概率。
4.2)定义融合学习网络的损失函数
融合学习网络中需要对最终融合学习的特征进行准确的分类,因此使用交叉熵损失作为其损失函数。
4.3)定义总损失函数
将步骤4.1)和步骤4.2)中的损失函数相加,便组成了整个网络的总损失函数。
5)初始化深度卷积神经网络模型的参数,输入训练集中的数据进行迭代训练,在训练过程中通过损失函数计算得到网络的损失值,再通过反向传播计算出模型中每一层神经网络参数的梯度,使用随机梯度下降的方法对每一层网络的参数进行更新,包括如下步骤:
5.1)对模型的特征提取器中各层网络的参数进行初始化,使用在ImageNet数据集上训练好的VGG16网络的各层参数值作为特征提取器的初始参数值,对自我监督的区域提取网络中各层的参数使用均值为0,标准差为0.02的高斯分布进行初始化,对融合学习网络中的各层参数则使用均值为1、标准差为0.02的高斯分布进行初始化。
5.2)训练网络,输入样例数据经过步骤2)的操作进行预处理,转化为网络所需要的格式,经过步骤3.1)得到图像的全局特征和不同尺度的中间层特征,通过步骤3.2)从中间层特征中生成指定数量的局部特征,并通过步骤4.1)计算对应的损失值,通过步骤3.3)根据全局特征和局部特征从记忆网络中选取指定个数和该样例最为相似的存储样例,通过步骤3.4)对该样例和选取的存储样例进行融合学习,输出预测结果,并根据结果判断是否要将该样例存入记忆网络,通过步骤4.2)计算对应的损失值,通过步骤4.3)计算最终的损失值,通过损失值得到用于更新步骤3)中模型参数的梯度,使用随机梯度下降算法用得到的梯度去优化更新各层网络的参数,更新完就实现了网络模型的一轮训练。
5.3)重复步骤5.2)直到网络对于非均衡船舶分类任务的能力达到预期的效果。
6)使用训练好的深度卷积神经网络去预测采集到的全新的船舶图像中船舶的类别,包括以下步骤:
6.1)按步骤1)从真实场景中采集全新的船舶图像数据,给每张图片添加对应的类别标签信息;
6.2)将新采集的数据按步骤2)进行处理;
6.3)把处理好的数据输入到步骤5)训练好的模型中,得到模型预测的这些数据对应的类别;
6.4)将预测的结果和对应的标签数据进行对比,根据对比的结果计算模型的准确率,以此评价模型的性能。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.一种基于深度卷积神经网络的非均衡船舶分类方法,其特征在于,包括以下步骤:
1)获取基础数据
训练深度卷积神经网络需要使用大量的基础数据,所述基础数据包括图像数据及图像数据对应的类别标签数据,所述基础数据构成一个训练集并具有非均衡的类别数量分布;
2)数据处理
将基础数据中的图像数据和类别标签数据通过处理转变为训练深度卷积神经网络所需的格式;
3)模型构建
根据训练的目标和输入输出的形式,构建一个用于处理非均衡船舶分类任务的深度卷积神经网络模型,包括以下步骤:
3.1)构造特征提取网络
特征提取网络的功能是从输入的图像数据中提取出具有类别判别性的高层语义特征,将提取到的语义特征用一个低维的编码进行表达;特征提取网络的输入是经过步骤2)处理过的图像数据,通过池化层、卷积块、全连层对图像数据进行操作来实现从高维数据中提取低维特征,其中,池化层能够对数据的维度进行缩小,从而便于提取特征,而且也起到了增加卷积块感受野的作用,卷积块由卷积层、批量正则化层、非线性激活层通过串联的方式组成,卷积层中卷积核的大小为3×3,卷积核的移动步长为1,具体的功能是提取输入数据的低维特征,批量正则化层用来对同一批次的输入数据的均值和标准差进行归一化,来增强模型训练的稳定性和提高训练的速度,非线性激活层的功能是提高模型对特征的表达能力,防止模型在训练过程中退化为线性模型,全连层将提取的特征转化到指定的维度,最终输出2048维的特征和中间层特征;构建的深度卷积神经网络模型将会用到两个特征提取网络,分别用D1、D2进行表示,D1用来提取图像的全局特征,D2用来提取局部特征;
3.2)构造具有自我监督机制的局部提取网络
由于需要对图像中物体的具体位置进行人工标注,提出了具有自我监督机制的区域提取网络在没有物体位置标注的情况下通过自我监督机制,对图像中物体的位置进行准确的定位,具体如下:
区域提取网络:其功能是从图像中寻找物体,并对物体的位置进行定位,其输入是步骤3.1)中特征提取网络D1的中间层中大小为28×28、14×14、7×7的特征图,输出一系列候选区域的位置坐标和对应区域中包含有物体的概率;区域提取网络由三个结构块组成,每一个结构块均由卷积层、批量正则化层、非线性激活层组成;其中,第一个结构块中卷积层的卷积核大小为3×3,该结构块的功能是对输入的特征图进行特征融合,其输出将作为第二个和第三个结构块的输入;第二个结构块的作用是预测候选区域的矩形方框的坐标,其中卷积层的卷积核大小为1×1;第三个结构块的作用是预测矩形方框中包含有物体的概率;
自我监督机制:在获得预测的候选区域的矩形方框的坐标后,根据这些坐标,从图中将这些区域裁剪下来,然后经过步骤2)的操作对这些区域进行处理,处理完后将这些区域输入到步骤3.1)中用于提取局部特征的特征提取网络D2中,得到一系列局部特征{R1,R2…RN},将这些特征输入到一个分类器中,预测它们属于对应物体类别的概率{C1,C2…CN},根据概率的数值,选择概率值最大的4个2048维局部特征作为下一步的输入;
3.3)记忆网络
记忆网络的功能主要有三个,一个是将模型认为难以学习的困难样例存储起来,第二个是通过输入样例与记忆网络中存储样例的相似度,选择若干合适的存储样例,并计算输入样例和不同存储样例之间的相似权重,然后将输入样例和存储样例拼接成一个新的矩阵,第三个是通过选取存储样例,增强对这些存储样例的学习,起到了重新平衡种类数据分布的效果;记忆网络的输入是步骤3.1)中D1提取的全局特征和步骤3.2)中的4个局部特征串联后的特征,输出是输入样例与存储样例的相似权重矩阵W1,以及输入样例和存储样例的拼接矩阵W2;记忆网络中的数据均以键值对的形式存储,其中键是样例的全局特征和4个局部特征串联后的特征,值是样例的类别信息,用一个整数进行表示;相似度以输入样例和存储样例的键的欧几里得距离来衡量,选取和输入样例距离最近的5个存储样例,并根据这五个距离,由softmax函数计算权重,公式如下所示:
Figure FDA0004012619020000031
式中,W1 i是相似权重矩阵的第i行权重的值,di是查询样例和第i个存储样例的距离,e是自然数;将输入样例的特征分别与5个存储样例的键值对进行串联后,得到一个5行的矩阵W2;对于困难样例的判断,即是否需要将样例存入记忆网络,在模型最终输出样例对应类别的概率后,根据概率的值判断是否需要将该样例存入记忆网络;
3.4)融合学习网络
融合学习网络的作用是捕捉输入样例和存储样例之间的结构特征相似性,通过学习到这些结构相似性后,使用存储样例来精确地表示输入样例,在学习新样例的知识同时,增强对旧样例的学习,提高模型的表达能力;融合学习网络的输入是步骤3.3)输出的相似权重矩阵W1和拼接矩阵W2,输出是预测的输入样例属于对应类别的概率;融合学习网络由1个线性层、5个多头注意力模块和1个分类器串联而成,线性层的作用是对输入的特征进行降维,增加多头注意力模块的感受野,多头注意力模块由多头注意力层和多层感知机组成,多头注意力的作用是学习输入样例和存储样例在各个子空间中的结构相似情况,多头的数量即为子空间的数量,公式如下所示:
Figure FDA0004012619020000041
式中,Wj为第j个子空间的相似矩阵,FQ、FK、FV均为多头注意力层中需要学习的参数矩阵,dk是FK矩阵的数值最大的维度的值,T是矩阵的转置操作;Ein为多头注意力模块的输入,多头主力层输出的是所有子空间的相似矩阵串联后的矩阵;多层感知机则用于根据多头注意力层学习到的知识,生成新的特征表示;将5行的相似权重矩阵W1转置后和第五个多头注意力模块输出的5行的矩阵相乘,得到最终的特征表达,将该特征送入分类器中,得到最终的概率;
4)定义损失函数
根据深度卷积神经网络模型的结构和训练目标,定义合适的损失函数,包括以下步骤:
4.1)定义区域提取网络的损失函数
区域提取网络中会对局部特征的类别进行预测以及选择若干个预测对应类别概率最高的区域,损失函数的目标是网络能够尽可能对这些区域进行正确的分类以及准确选择概率最高的区域,对分类任务,使用交叉熵损失作为损失函数,公式如下所示:
Figure FDA0004012619020000051
式中,Lcls表示交叉熵,N表示样例的数量,U表示类别数量;
Figure FDA0004012619020000052
为指示变量,如果该局部特征的类别和样本的类别相同则为1,否则为0;/>
Figure FDA0004012619020000053
表示预测样例属于类别v的概率;为了让模型能够根据预测的类别概率的值,正确选择局部特征,使用hinge损失函数,公式如下:
Figure FDA0004012619020000054
式中,Lh表示hinge损失函数,gj和gi表示第i和第j个区域属于图像中物体类别的概率;
4.2)定义融合学习网络的损失函数
融合学习网络中需要对最终融合学习的特征进行准确的分类,因此,使用交叉熵损失作为其损失函数;
4.3)定义总损失函数
将步骤4.1)和步骤4.2)中的损失函数相加,便组成了整个网络的总损失函数;
5)训练模型
初始化深度卷积神经网络模型的参数,输入训练集中的数据进行迭代训练,在训练过程中通过损失函数计算得到网络的损失值,再通过反向传播计算出模型中每一层神经网络参数的梯度,使用随机梯度下降的方法对每一层网络的参数进行更新,包括如下步骤:
5.1)对模型的特征提取器中各层网络的参数进行初始化,使用在ImageNet数据集上训练好的VGG16网络的各层参数值作为特征提取器的初始参数值,对自我监督的区域提取网络中各层的参数使用均值为0,标准差为0.02的高斯分布进行初始化,对融合学习网络中的各层参数则使用均值为1,标准差为0.02的高斯分布进行初始化;
5.2)训练网络,输入样例数据经过步骤2)的操作进行预处理,转化为网络所需要的格式,经过步骤3.1)得到图像的全局特征和不同尺度的中间层特征,通过步骤3.2)从中间层特征中生成指定数量的局部特征,并通过步骤4.1)计算对应的损失值,通过步骤3.3)根据全局特征和局部特征从记忆网络中选取指定个数和该样例最为相似的存储样例,通过步骤3.4)对该样例和选取的存储样例进行融合学习,输出预测结果,并根据结果判断是否要将该样例存入记忆网络,通过步骤4.2)计算对应的损失值,通过步骤4.3)计算最终的损失值,通过损失值得到用于更新步骤3)中模型参数的梯度,使用随机梯度下降算法用得到的梯度去优化更新各层网络的参数,更新完就实现了网络模型的一轮训练;
5.3)重复步骤5.2),直到网络对于非均衡船舶分类任务的能力达到预期的效果;
6)应用模型
使用训练好的深度卷积神经网络模型去预测采集到的全新的船舶图像中船舶的类别。
2.根据权利要求1所述的一种基于深度卷积神经网络的非均衡船舶分类方法,其特征在于:在步骤1)中,所述图像数据是指通过各类拍摄设备从现实场景中获取的清晰船舶图像数据,如果获取的图像数据没有对应的类别标签数据,则需要手工添加每张图片的类别标签信息,由于真实场景中各类船舶的出现具有随机性,难以保证每一类船舶的图像数量相同,因此,采集到的数据具有类别数量分布非均衡的特点。
3.根据权利要求1所述的一种基于深度卷积神经网络的非均衡船舶分类方法,其特征在于:在步骤2)中,将基础数据中的图像数据和类别标签数据通过处理转变为训练深度卷积神经网络所需的格式,包括以下步骤:
2.1)将图像数据统一缩放到m×n像素大小,其中m为缩放后图像的长,n为缩放后图像的宽;
2.2)得到缩放后的新图像后,在包含有需要分类的物体的区域进行随机裁剪操作,得到a×b像素大小的矩形图像,其中a<=m,b<=n;
2.3)将裁剪后的图像进行概率为0.5的随机水平翻转操作;
2.4)把随机翻转后的图像中每个位置的值由[0,255]区间转换到[-1,1]区间。
4.根据权利要求1所述的一种基于深度卷积神经网络的非均衡船舶分类方法,其特征在于,在步骤6)中,使用训练好的深度卷积神经网络模型去预测采集到的全新的船舶图像中船舶的类别,包括以下步骤:
6.1)按步骤1)从真实场景中采集全新的船舶图像数据,给每张图片添加对应的类别标签信息;
6.2)将新采集的数据按步骤2)进行处理;
6.3)把处理好的数据输入到步骤5)训练好的模型中,得到模型预测的这些数据对应的类别;
6.4)将预测的结果和对应的标签数据进行对比,根据对比的结果计算模型的准确率,以此评价模型的性能。
CN202010211077.9A 2020-03-24 2020-03-24 一种基于深度卷积神经网络的非均衡船舶分类方法 Active CN111461190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010211077.9A CN111461190B (zh) 2020-03-24 2020-03-24 一种基于深度卷积神经网络的非均衡船舶分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010211077.9A CN111461190B (zh) 2020-03-24 2020-03-24 一种基于深度卷积神经网络的非均衡船舶分类方法

Publications (2)

Publication Number Publication Date
CN111461190A CN111461190A (zh) 2020-07-28
CN111461190B true CN111461190B (zh) 2023-03-28

Family

ID=71682947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010211077.9A Active CN111461190B (zh) 2020-03-24 2020-03-24 一种基于深度卷积神经网络的非均衡船舶分类方法

Country Status (1)

Country Link
CN (1) CN111461190B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199496A (zh) * 2020-08-05 2021-01-08 广西大学 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN112183453B (zh) * 2020-10-15 2021-05-11 哈尔滨市科佳通用机电股份有限公司 基于深度学习的注水口盖板未锁闭到位故障检测方法及系统
CN112241761B (zh) * 2020-10-15 2024-03-26 北京字跳网络技术有限公司 模型训练方法、装置和电子设备
CN112381116B (zh) * 2020-10-21 2022-10-28 福州大学 基于对比学习的自监督图像分类方法
CN112257601B (zh) * 2020-10-22 2023-02-21 福州大学 基于弱监督学习的数据增强网络的细粒度车辆识别方法
CN113158740B (zh) * 2021-01-28 2022-09-09 中国科学技术大学 基于记忆机制前景感知建模的弱监督物体定位装置及方法
CN112766407B (zh) * 2021-01-29 2023-12-05 北京达佳互联信息技术有限公司 一种图像识别方法、装置及存储介质
CN112733963B (zh) * 2021-02-01 2023-02-21 中国人民解放军海军航空大学航空作战勤务学院 一种通用图像目标分类方法及系统
CN112819806B (zh) * 2021-02-23 2024-05-28 江苏科技大学 一种基于深度卷积神经网络模型的船舶焊缝缺陷检测方法
CN113179244B (zh) * 2021-03-10 2022-12-23 上海大学 一种面向工业互联网边界安全的联邦深度网络行为特征建模方法
CN112966767B (zh) * 2021-03-19 2022-03-22 焦点科技股份有限公司 一种特征提取和分类任务分离的数据不均衡处理方法
CN113065587B (zh) * 2021-03-23 2022-04-08 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法
CN113128620B (zh) * 2021-05-11 2022-10-21 北京理工大学 一种基于层次关系的半监督领域自适应图片分类方法
CN113469198A (zh) * 2021-06-30 2021-10-01 南京航空航天大学 一种基于改进的vgg卷积神经网络模型的图像分类方法
CN113610191B (zh) * 2021-09-07 2023-08-29 中原动力智能机器人有限公司 垃圾分类模型建模方法、垃圾分类方法
CN113920250B (zh) * 2021-10-21 2023-05-23 广东三维家信息科技有限公司 一种户型编码匹配方法及装置
CN114972740A (zh) * 2022-07-29 2022-08-30 上海鹰觉科技有限公司 自动化舰船样本采集方法及系统
CN115796793B (zh) * 2022-12-12 2023-07-14 中国水利水电科学研究院 一种档案数字化转化及管理方法、系统及存储介质
CN115642972B (zh) * 2022-12-23 2023-03-21 鹏城实验室 动态信道通信检测方法、装置、设备及可读存储介质
CN118471264A (zh) * 2024-07-09 2024-08-09 威海晟南船舶技术服务有限公司 船舶目标识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN109447153A (zh) * 2018-10-29 2019-03-08 四川大学 用于非均衡数据分类的散度-激励自编码器及其分类方法
CN109948478A (zh) * 2019-03-06 2019-06-28 中国科学院自动化研究所 基于神经网络的大规模非均衡数据的人脸识别方法、系统
CN110298387A (zh) * 2019-06-10 2019-10-01 天津大学 融入像素级attention机制的深度神经网络目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN109447153A (zh) * 2018-10-29 2019-03-08 四川大学 用于非均衡数据分类的散度-激励自编码器及其分类方法
CN109948478A (zh) * 2019-03-06 2019-06-28 中国科学院自动化研究所 基于神经网络的大规模非均衡数据的人脸识别方法、系统
CN110298387A (zh) * 2019-06-10 2019-10-01 天津大学 融入像素级attention机制的深度神经网络目标检测方法

Also Published As

Publication number Publication date
CN111461190A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111461190B (zh) 一种基于深度卷积神经网络的非均衡船舶分类方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN107506740B (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN112434672B (zh) 一种基于改进YOLOv3的海上人体目标检测方法
CN111242037A (zh) 基于结构信息的车道线检测方法
CN114241285B (zh) 一种基于知识蒸馏和半监督学习的船舶快速检测方法
CN108446312B (zh) 基于深度卷积语义网的光学遥感图像检索方法
CN111008618B (zh) 一种自注意力深度学习端到端的行人再识别方法
CN110598693A (zh) 一种基于Faster-RCNN的船牌识别方法
CN110287806A (zh) 一种基于改进ssd网络的交通标志识别方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN110728307A (zh) 自生成数据集与标签实现x光影像图小样本字符识别方法
CN114155474A (zh) 基于视频语义分割算法的损伤识别技术
CN113487600B (zh) 一种特征增强尺度自适应感知船舶检测方法
CN115719337A (zh) 一种风力涡轮机表面缺陷检测方法
CN115147601A (zh) 基于自注意力全局特征增强的城市街道点云语义分割方法
Liu et al. Global context parallel attention for anchor-free instance segmentation in remote sensing images
CN112329771A (zh) 一种基于深度学习的建筑材料样本识别方法
CN114926826A (zh) 场景文本检测系统
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN114187506A (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法
CN117951576A (zh) 基于Transformer时序多模态特征的电力系统恶意流量检测方法
CN111242114B (zh) 文字识别方法及装置
CN115861595B (zh) 一种基于深度学习的多尺度域自适应异源图像匹配方法
CN108898157B (zh) 基于卷积神经网络的数值型数据的雷达图表示的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant