CN112926485A - 一种少样本水闸图像分类方法 - Google Patents

一种少样本水闸图像分类方法 Download PDF

Info

Publication number
CN112926485A
CN112926485A CN202110275239.XA CN202110275239A CN112926485A CN 112926485 A CN112926485 A CN 112926485A CN 202110275239 A CN202110275239 A CN 202110275239A CN 112926485 A CN112926485 A CN 112926485A
Authority
CN
China
Prior art keywords
data
training
sluice
meta
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110275239.XA
Other languages
English (en)
Other versions
CN112926485B (zh
Inventor
戚荣志
朱慧静
李水艳
毛莺池
张云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110275239.XA priority Critical patent/CN112926485B/zh
Publication of CN112926485A publication Critical patent/CN112926485A/zh
Application granted granted Critical
Publication of CN112926485B publication Critical patent/CN112926485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种少样本水闸图像分类方法,组合双重注意和时序卷积建立了元学习模型,按照小样本学习标准整理和编排数据集,进一步对其进行特征提取、元学习训练和运行状态识别,能够在少样本条件下跨水闸类型准确地自动分类水闸启闭状态。通过交织组合双重注意力和时序卷积形成一种记忆增强模型,能够高带宽地学习和记忆知识中有用的通用经验,快速地利用经验学习新知识可以跨水闸类型获得较高的启闭状态分类准确率。本发明摆脱了现有水利领域深度学习算法对大量训练数据的依赖性和传统分类方法中难以跨任务工作的限制性,能够在小样本条件下更灵活、通用地辅助水利工程运行状态监控,有助于提高水利视频监控系统的利用率。

Description

一种少样本水闸图像分类方法
技术领域
本发明属于图像分类技术领域,特别涉及一种少样本水闸图像分类方法。
背景技术
近年来,各地水利工程视频监控系统相继建设完成,但现有监控系统缺少针对与防汛重大事件相关的视频和图像的自动识别,利用率有待进一步提高。因此,考虑应用计算机视觉和深度学习方法智能分类水闸图像中的闸门启闭状态,辅助水利工程运行状态的监控。
受限于各地水利环境和监控系统建设情况等因素,能采集到的有研究价值的水闸图像样本总量较少且各类闸门的样本数量不均。除汛期外,同一水利工程在每年的大部分时间内的状态是相似的,即略少量的平常时期图像样本就足以刻画该时期的特征,相似样本的数量增加无法促使特征丰富化。视频监控系统的前端拍摄设备固定使得采集图像的拍摄角度、光学条件等因素单一化,限制了图片数据集对水闸环境特征的刻画能力。
由于水利领域专业性高,针对水利领域的图像算法相对稀缺。常规图像分类算法在训练过程中需要有大量的样本才能提高它的工程实用性,这与水闸图像样本量少且分布不均的场景实况相矛盾。在少样本条件下罕有泛化性能较高的水闸图像分类算法。元学习常被用于解决少样本问题,要求算法学会学习,研究如何以系统的、数据驱动的方式利用先前经验快速地学习新任务。由于不同类型的水闸结构存在差异,每类水闸的启闭状态图像分类归为独立子任务。因此,有必要应用元学习思想探究少样本条件下具有有效性与通用性的跨水闸类型的水闸启闭状态图像分类方法。
发明内容
发明目的:为了克服现有技术中存在的问题,本发明提供一种少样本水闸图像分类方法,能够进行跨水闸类型的水闸启闭状态识别,即按照水闸类型划分水闸图像集,应用样本量相对多的几类水闸的图像训练元学习模型,使得模型达到较好的识别性能,后用少量其他类别水闸的图像继续训练模型可以使模型能快速学习新水闸图像的特征,同样达到较高的识别准确率。该方法在少样本条件下具有较好的泛化能力,可以快速迁移应用到新类型闸门的学习中,利用模型已学习到的经验知识进行计算。
技术方案:为实现上述目的,本发明提供一种少样本水闸图像分类方法,包括如下步骤:
(1)通过人工筛选和截取原始水闸场景视频得到水闸图像样本,对图像进行降噪和同一规格化处理,再根据闸门类型和启闭状态整理数据集,并划分为训练集和测试集;
(2)建立基于双重注意力机制的元学习模型,该模型包含四个网络子结构,依次分别是样本批采集器、基于残差网络的特征提取器、组合双重注意力与时序卷积的元学习器以及分类器;
(3)对于步骤(2)中建立的元学习模型,利用批采集器将步骤(1)中得到的数据集合划分为训练子集和测试子集,并按小样本标准随机采集数据以模拟小样本条件下的分类过程;
(4)利用基于残差网络框架的特征提取器对划分好的数据训练集进行数据特征提取,并进行特征与标签的拼接;
(5)组合双重注意力与时序卷积的元学习器和分类器,利用步骤(4)提取的数据特征进行训练并更新元学习器和分类器的网络参数;
(6)对步骤(2)所建立的元学习模型中的各个子网络使用Batch normalization参数正则化方法防止训练过拟合及稳定训练过程;
(7)对步骤(5)的训练过程进行多次迭代直达满足预设要求,用模型输出为每一组数据所对应的启闭状态分类的准确率,取这组准确率的平均值作为该组数据最终标签,取分类准确度最高的一组权重作为最优权重,得到适用于训练集中覆盖的各类水闸的启闭状态分类的元学习模型;
(8)将最优权重作为测试阶段元学习器网络的初始网络参数,利用步骤(3)中批采集器采集测试集中的少量几组数据用于测试阶段的快捷训练,训练方法同步骤(4)-(7)的训练阶段;
(9)通过让训练阶段得到的最优模型在少量学习新闸门类型图像后进行调整,完成小样本数据下水闸启闭状态的自动识别。
进一步的,所述步骤(1)中对图像进行降噪处理的具体步骤如下:采用非局部均值滤波进行降噪,先以一个像素点为圆心划定邻域为基准块,再设置一个等尺寸的参考块,逐像素遍历全图并计算参考块和基准块之间的欧式距离,再应用一个单调递减函数将基准像素点的一组欧式距离逐一转换为权重,再用所得的一组权重更新基准像素值;计算公式为:
Figure BDA0002976353740000031
Figure BDA0002976353740000032
Figure BDA0002976353740000033
式中,B(p,f)分别指以像素点p为中心、边长为2f+1的图像邻域子块,ui(p)是像素点p在第i色彩通道的像素值,d2(.)为两个子块之间的欧式距离;σ表示噪声的标准差,h为根据σ设置的滤波参数,ω(p,q)为像素点p,q之间的相似度权重,欧式距离越大则权重越小且下降速度越快;B(p,r)表示计算限制下的最大遍历区域,
Figure BDA0002976353740000034
为加权求和更新后的像素值。
进一步的,所述步骤(1)中对图像进行同一规格化处理的具体步骤如下:首先选定图像中单个完整闸口的矩形区域为感兴趣区域(ROI),以ROI区域为中心,取任意边长大于ROI区域最长边的矩形子图,然后使用Resize函数将子图裁剪为等边长的正方形。
进一步的,所述步骤(2)中组合双重注意力机制和时序卷积的元学习器包含三层双重注意力层与四层时序卷积层,每两层双重注意力层之间由两层时序卷积层来连接;时序卷积层由一系列密集块组成,每个密集块在单个时间步内的计算结果与输入的拼接值将作为下一时间步的输入;密集块在单个时间步内的执行过程如下:
C1,C2=dilatedconv1d(Xtc,R,D),dilatedconv1d(Xtc,R,D)
A=tanh(C1)*σ(C2)
Otc=concat(Xtc,A)
式中,Xtc是当前时间步输入到密集块的特征数据,C1,C2分别表示在膨胀率R和过滤器数D的条件下对输入进行一维膨胀卷积dilatedconv1d(.)操作的结果;A是应用门控激活函数处理后的输出,处理过程用到了tanh激活函数和sigmoid激活函数σ;Otc是密集块在当前时间步内的最终输出,通过对Xtc和A执行拼接操作concat得到;
双重注意力机制只需关注过去的数据,在归一化前将相应的权重归零,初步处理后的输出如下:
Q,K,V=affine(Xatt),affine(Xatt),affine(Xatt)
Figure BDA0002976353740000041
式中,Q,K,V是对输入Xatt采用不同的线性变换后产生的三个表示,其中Q为查询量,K为参照量,V为当前量;
Figure BDA0002976353740000042
为注意力结果,dk为K的维度,softmax为归一化函数;
以时序注意力结果和查询量为基础,生成通过一个信息向量和一个注意力门,并对它们进行逐元素乘法来获得最终关注信息,最后拼接关注信息与输入,处理过程如下:
Figure BDA0002976353740000043
Figure BDA0002976353740000044
Figure BDA0002976353740000045
Figure BDA0002976353740000046
式中,I为信息向量,G为注意力门,W,b分别为线性变换时的权重和偏置,σ(.)为sigmoid函数,⊙表示逐个元素相乘;Oatt为输入Xatt经过一层双重注意力层后的最终输出。
进一步的,所述步骤(3)中按小样本标准随机采集数据以模拟小样本条件下的分类过程的具体步骤如下:批采集器随机采集训练集中的N类闸门的样本数据,为每个类别随机抽取K个样本,共N*K个样本作为训练阶段的支持集,再从这N类中抽取一批样本作为训练阶段的查询集(N,K具体数值可根据情况设置),如此反复采集多次,遍历整个训练集,用于多轮训练模型。
进一步的,所述步骤(5)中利用步骤(4)提取的数据特征进行训练并更新元学习器和分类器的网络参数的具体步骤如下:组合双重注意力与时序卷积的元学习器和分类器,利用步骤四所得数据特征进行训练,并采用交叉熵作为损失函数更新元学习器和分类器的网络参数,计算公式如下:
F=faoa1(X)
fmem=faoa(ftc1(ftc2(.)))
O=gφ(fmem1(fmem2(F)))
其中,X为输入特征矩阵,F为第一层双重注意力机制faoa1(.)处理后的特征矩阵;fmem指两层时序卷积层和一层双重注意力机制层对一组输入的顺次处理,ftc1,ftc2分别指两层时序卷积处理;O为最终分类结果,gφ(.)为分类器处理。
具体的:步骤五中,组合双重注意力与时序卷积的元学习器通过时序卷积学习和记忆图像的特征,再结合双重注意力机制定位出分类特征要素,为分类器进行分类判断提供可靠的依据。
组合双重注意力与时序卷积的元学习器与分类器的计算公式如下:
F=faoa1(X)
fmem=faoa(ftc1(ftc2(.)))
O=gφ(fmem1(fmem2(F)))
其中,X为对一组数据特征提取和拼接后的表示矩阵,F为第一层双重注意力机制faoa1(.)处理后的特征表示;fmem指两层时序卷积层和一层双重注意力机制层对一组输入的顺次处理,ftc1,ftc2分别指其中的第一、二层时序卷积处理;O为最终分类结果,gφ(.)为判别器处理。
采用交叉熵作为损失函数来更新网络参数,计算公式如下:
Figure BDA0002976353740000051
其中,p为待分类图像x的正确标签向量,q为网络输出结果转换后的预测标签向量,H(p,q)为交叉熵值,用于刻画预测分类结果与真实结果之间的相似度,交叉熵值越小,相似度越高。
采用Adam优化器进行网络参数的优化,该优化器由Momentum算法和RMSprop算法集成而成。其计算公式如下:
vdw=β1vdw+(1-β1)dW
vdb=β1vdb+(1-β1)db
sdw=β2sdw+(1-β2)dW2
sdb=β2sdb+(1-β2)db2
Figure BDA0002976353740000061
Figure BDA0002976353740000062
Figure BDA0002976353740000063
Figure BDA0002976353740000064
Figure BDA0002976353740000065
Figure BDA0002976353740000066
式中,vdw,vdb,sdw,sdb分别是Momentum算法和RMSprop算法损失函数在前t-1轮迭代过程中累积的梯度和梯度动量;β为梯度累积的一个指数;α为学习率;ε为平滑因子,一般取一个微小正数;W为网络的权重矩阵;b为网络的偏置。
进一步的,所述步骤(6)中使用Batch normalization参数正则化的具体步骤如下:对于输入数据X={X1,X2,...,Xm},首先计算数据均值
Figure BDA0002976353740000067
m为每一条输入数据中数据点的个数,Xi为输入数据中的第i个数据点;
计算数据方差
Figure BDA0002976353740000068
进行批规范化得到新的数据中的第i个数据点为
Figure BDA0002976353740000069
其中,η为防止发生除零错误而设置的微小正数;
进行尺度变换和偏移:
Figure BDA00029763537400000610
α和β为网络自身在训练过程中学习到的参数。
有益效果:本发明与现有技术相比具有以下优点:
本发明通过交织组合双重注意力和时序卷积形成一种记忆增强元学习模型,按照小样本学习标准整理和编排数据集,进一步对其进行特征提取、元学习训练和运行状态识别,能够在少样本条件下跨水闸类型准确地自动分类水闸启闭状态。本发明为了缓解水闸类型间存在差异的问题,采用双重注意力机制对元学习器网络进行改进,规避常规注意力机制存在的潜在误导风险,提高了水闸状态识别的准确率;本发明的网络模型仅需再用小规模新数据进行快速训练,可以在已训练好的最优权重上快速微调直接应用于其他的闸门状态识别场景,极大缩短了网络训练时间,加快水闸启闭状态识别效率。本发明摆脱了现有水利领域深度学习算法对大量训练数据的依赖性和传统分类方法中难以跨任务工作的限制,能够更灵活、通用地辅助水利工程运行状态监控,有助于提高水利视频监控系统的利用率。
附图说明
图1为本发明的流程图;
图2为具体实施例中的基于双重注意力和时序卷积结合的元学习器模型的结构图;
图3为具体实施例中少样本水闸图像的数据集样本示例图;
图4为具体实施例中少样本数据集划分示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明对采集到的水闸启闭状态图像进行非局部均化去噪、同一规格化处理;建立基于双重注意力机制的元学习模型;利用采集器对数据训练集划分,从而达到模拟测试过程的目的;特征提取器对划分好的数据子集进行特征提取和特征拼接,作为网络下一步的输入;组合双重注意力与时序卷积的元学习器使得网络以较大的感受野学习和记忆图像特征,并准确定位有用经验;全连接层分类器用于判别启闭状态;最终利用已训练好的最优网络权重和少量的新数据组实现在小样本数据下的水闸类型迁移的启闭状态自动识别。
实施例:
以水利视频监控平台采集到的水闸启闭状态图像为例,图像数据集来源包含12个水闸工程,样本量略大的闸门包含600张样本,其他包含300张样本。开闭状态图像数量基本持平。
如图1所示,本发明包含以下步骤:
步骤1,通过人工筛选和截取原始水闸场景视频中有用的视频流,得到水闸图像样本,对获取到的图像进行非局部均值降噪,并以感兴趣区域为中心裁剪图像为84x84像素大小,所得图片示例如图3所示,再根据图中闸门的分类和启闭状态对数据集合进行归类,图3中从左到右分别属于石梁河水库南闸、北闸与新沟河节制闸,其中(a)、(b)行分别为闸门开启、关闭的状态,最后划分为训练集和测试集。
步骤2,建立基于双重注意力机制的元学习模型,该网络模型依次包含四个子网络:样本批采集器、基于残差网络框架的特征提取器、组合双重注意力与时序卷积的元学习器以及全连接层分类器。
特征提取器由4个结构相同的残差块和1层全连接层连接而成,每个残差块中依次包含1层卷积层、批标准化层、ReLU激活层和1层最大池化层,其中卷积核大小为3x3、池化核大小为2x2,用于提取不同状态数据的特征。结合双重注意力机制和时序卷积的元学习器的具体结构参见图2,元学习器包含三层双重注意力层与两层时序卷积层,每两层双重注意力层之间由一层时序卷积层来连接。
时序卷积层由一系列密集块组成,每个密集块在单个时间步内先使用可控膨胀率和滤波器数量的一维膨胀卷积进行计算,卷积核大小的设置为2x2,再应用门控激活函数计算,最后输出计算结果与输入的拼接值,该值将作为下一时间步的输入。密集块在单个时间步内的执行过程如下:
C1,C2=dilatedconv1d(Xtc,R,D),dilatedconv1d(Xtc,R,D)
A=tanh(C1)*σ(C2)
Otc=concat(Xtc,A)
式中,Xtc为当前时间步输入的特征数据,C1,C2分别为膨胀率R和过滤器数D条件下对输入进行一维膨胀卷积dilatedconv1d操作的结果;A为应用门控激活函数处理后的输出,处理过程用到了tanh激活函数和sigmoid激活函数σ;Otc是密集块在当前时间步内的最终输出,通过对Xtc和A执行拼接操作concat得到。
双重注意力机制只需关注过去的数据,因此在归一化前将后续时间步的权重归零,处理过程如下:
Q,K,V=affine(Xatt),affine(Xatt),affine(Xatt)
Figure BDA0002976353740000091
式中,Q,K,V是对输入Xatt采用不同的线性变换后产生的三个表示,其中Q为查询量,K为参照量,V为当前量;
Figure BDA0002976353740000092
为时序注意力结果,dk为K的维度,softmax为归一化函数。
以时序注意力结果和查询量为基础,生成通过一个信息向量和一个注意力门,并对它们进行逐元素乘法来获得最终关注信息,标注出更可靠的预期有用知识,处理过程如下:
Figure BDA0002976353740000093
Figure BDA0002976353740000094
Figure BDA0002976353740000095
式中,I为信息向量,G为注意力门,W,b分别为线性变换时的权重和偏置,σ(.)为sigmoid函数,⊙表示逐个元素相乘。
最后,双重注意力层将得到的关注信息与输入拼接起来,以便多层垒叠。
Figure BDA0002976353740000096
式中,Oatt为输入Xatt经过一层双重注意力层后的最终输出。
分类器用于判别测试样本数据的最终闸门启闭状态,其全连接计算核设置为1x1。
步骤3,对于步骤2中建立的元学习模型,采用批采集器从训练集中随机抽取2类闸门,为每个类别随机抽取4个样本(包含开闭状态),共2x4个样本作为训练阶段的支持集,再从这2类中抽取一批样本作为训练阶段的查询集,如此反复采集多次,遍历整个训练集,用于多轮训练模型,示例如图4所示。采集器通过Sampler函数(Pytorch环境下的集成函数)实现。
步骤4,利用基于残差网络框架的特征提取器对划分好的数据训练集进行数据特征提取,再采用Concatenate函数拼接特征与标签独热码,作为后续网络的数据特征输入;
步骤5,组合双重注意力与时序卷积的元学习器和分类器,利用步骤4得到的数据特征进行训练,并采用交叉熵作为损失函数更新元学习器和分类器的网络参数,训练过程采用Adam优化器进行网络参数的优化,计算公式如下:
F=faoa1(X)
fmem=faoa(ftc1(ftc2(.)))
O=gφ(fmem1(fmem2(F)))
其中,X为输入特征矩阵,F为第一层双重注意力机制faoa1(.)处理后的特征矩阵;fmem指两层时序卷积层和一层双重注意力机制层对一组输入的顺次处理,ftc1,ftc2指两层时序卷积处理;O为最终分类结果,gφ(.)为分类器处理。
步骤6,对步骤2所建立的元学习模型中的各个子网络使用Batch normalization参数正则化方法防止训练过拟合及稳定训练过程;
步骤7,对步骤5的训练过程进行多次迭代直达满足预设要求,用模型输出为每一组数据所对应的启闭状态分类的准确率,取这组准确率的平均值作为该组数据最终标签,取分类准确度最高的一组权重作为最优权重,得到适用于训练集中覆盖的各类水闸的启闭状态分类的元学习模型;
步骤8,将最优权重作为测试阶段元学习器网络的初始网络参数,利用步骤3中批采集器从测试集中采集少于15组样本进行测试阶段的快捷训练,此过程的方法同训练阶段(步骤4-7),依次经过多次迭代特征提取、元学习器训练和分类的训练过程。
步骤9,通过让训练阶段得到的最优模型在少量学习新闸门类型图像后快速、有效地调整,元学习模型对新水闸类型的平均启闭状态准确率达到70%以上,实现了小样本数据下的对水闸启闭状态的自动识别。
本发明在有研究价值的水闸启闭状态图像稀少的实际场景下利用有限的数据进行训练,使用双重注意机制对元学习器网络进行改进以更加适应水闸启闭状态场景问题,缓解不同类型闸门存在差异导致的潜在训练风险问题,得到一个较高通用性的网络模型,提高了水闸状态识别准确率;本发明的网络模型仅需再用小规模新数据进行快速训练,可以在已训练好的最优权重上快速微调直接应用于其他的闸门状态识别场景,极大缩短了网络训练时间,加快水闸启闭状态识别效率。

Claims (7)

1.一种少样本水闸图像分类方法,其特征在于,包括如下步骤:
(1)通过人工筛选和截取原始水闸场景视频得到水闸图像样本,对图像进行降噪和同一规格化处理,再根据闸门类型和启闭状态整理数据集,并划分为训练集和测试集;
(2)建立基于双重注意力机制的元学习模型,该模型包含四个网络子结构,依次分别是样本批采集器、基于残差网络的特征提取器、组合双重注意力与时序卷积的元学习器以及分类器;
(3)对于步骤(2)中建立的元学习模型,利用批采集器将步骤(1)中得到的数据集合划分为训练子集和测试子集,并按小样本标准随机采集数据以模拟小样本条件下的分类过程;
(4)利用基于残差网络框架的特征提取器对划分好的数据训练集进行数据特征提取,并进行特征与标签的拼接;
(5)组合双重注意力与时序卷积的元学习器和分类器,利用步骤(4)提取的数据特征进行训练并更新元学习器和分类器的网络参数;
(6)对步骤(2)所建立的元学习模型中的各个子网络使用Batch normalization参数正则化方法防止训练过拟合及稳定训练过程;
(7)对步骤(5)的训练过程进行多次迭代直达满足预设要求,用模型输出为每一组数据所对应的启闭状态分类的准确率,取这组准确率的平均值作为该组数据最终标签,取分类准确度最高的一组权重作为最优权重,得到适用于训练集中覆盖的各类水闸的启闭状态分类的元学习模型;
(8)将最优权重作为测试阶段元学习器网络的初始网络参数,利用步骤(3)中批采集器采集测试集中的少量几组数据用于测试阶段的快捷训练,训练方法同步骤(4)-(7)的训练阶段;
(9)通过让训练阶段得到的最优模型在少量学习新闸门类型图像后进行调整,完成小样本数据下水闸启闭状态的自动识别。
2.根据权利要求1所述的一种少样本水闸图像分类方法,其特征在于,所述步骤(1)中对图像进行降噪处理的具体步骤如下:采用非局部均值滤波进行降噪,先以一个像素点为圆心划定邻域为基准块,再设置一个等尺寸的参考块,逐像素遍历全图并计算参考块和基准块之间的欧式距离,再应用一个单调递减函数将基准像素点的一组欧式距离逐一转换为权重,再用所得的一组权重更新基准像素值;计算公式为:
Figure FDA0002976353730000021
Figure FDA0002976353730000022
Figure FDA0002976353730000023
式中,B(p,f)分别指以像素点p为中心、边长为2f+1的图像邻域子块,ui(p)是像素点p在第i色彩通道的像素值,d2(.)为两个子块之间的欧式距离;σ表示噪声的标准差,h为根据σ设置的滤波参数,ω(p,q)为像素点p,q之间的相似度权重,欧式距离越大则权重越小且下降速度越快;B(p,r)表示计算限制下的最大遍历区域,
Figure FDA0002976353730000024
为加权求和更新后的像素值。
3.根据权利要求1所述的一种少样本水闸图像分类方法,其特征在于,所述步骤(1)中对图像进行同一规格化处理的具体步骤如下:首先选定图像中单个完整闸口的矩形区域为感兴趣区域(ROI),以ROI区域为中心,取任意边长大于ROI区域最长边的矩形子图,然后使用Resize函数将子图裁剪为等边长的正方形。
4.根据权利要求1所述的一种少样本水闸图像分类方法,其特征在于,所述步骤(2)中组合双重注意力机制和时序卷积的元学习器包含三层双重注意力层与四层时序卷积层,每两层双重注意力层之间由两层时序卷积层来连接;时序卷积层由一系列密集块组成,每个密集块在单个时间步内的计算结果与输入的拼接值将作为下一时间步的输入;密集块在单个时间步内的执行过程如下:
C1,C2=dilatedconv1d(Xtc,R,D),dilatedconv1d(Xtc,R,D)
A=tanh(C1)*σ(C2)
Otc=concat(Xtc,A)
式中,Xtc是当前时间步输入到密集块的特征数据,C1,C2分别表示在膨胀率R和过滤器数D的条件下对输入进行一维膨胀卷积dilatedconv1d(.)操作的结果;A是应用门控激活函数处理后的输出,处理过程用到了tanh激活函数和sigmoid激活函数σ;Otc是密集块在当前时间步内的最终输出,通过对Xtc和A执行拼接操作concat得到;
双重注意力机制只需关注过去的数据,在归一化前将相应的权重归零,初步处理后的输出如下:
Q,K,V=affine(Xatt),affine(Xatt),affine(Xatt)
Figure FDA0002976353730000031
式中,Q,K,V是对输入Xatt采用不同的线性变换后产生的三个表示,其中Q为查询量,K为参照量,V为当前量;
Figure FDA0002976353730000032
为注意力结果,dk为K的维度,softmax为归一化函数;
以时序注意力结果和查询量为基础,生成通过一个信息向量和一个注意力门,并对它们进行逐元素乘法来获得最终关注信息,最后拼接关注信息与输入,处理过程如下:
Figure FDA0002976353730000033
Figure FDA0002976353730000034
Figure FDA0002976353730000035
Figure FDA0002976353730000036
式中,I为信息向量,G为注意力门,W,b分别为线性变换时的权重和偏置,σ(.)为sigmoid函数,⊙表示逐个元素相乘;Oatt为输入Xatt经过一层双重注意力层后的最终输出。
5.根据权利要求1所述的一种少样本水闸图像分类方法,其特征在于,所述步骤(3)中按小样本标准随机采集数据以模拟小样本条件下的分类过程的具体步骤如下:批采集器随机采集训练集中的N类闸门的样本数据,为每个类别随机抽取K个样本,共N*K个样本作为训练阶段的支持集,再从这N类中抽取一批样本作为训练阶段的查询集(N,K具体数值可根据情况设置),如此反复采集多次,遍历整个训练集,用于多轮训练模型。
6.根据权利要求1所述的一种少样本水闸图像分类方法,其特征在于,所述步骤(5)中利用步骤(4)提取的数据特征进行训练并更新元学习器和分类器的网络参数的具体步骤如下:组合双重注意力与时序卷积的元学习器和分类器,利用步骤四所得数据特征进行训练,并采用交叉熵作为损失函数更新元学习器和分类器的网络参数,计算公式如下:
F=faoa1(X)
fmem=faoa(ftc1(ftc2(.)))
O=gφ(fmem1(fmem2(F)))
其中,X为输入特征矩阵,F为第一层双重注意力机制faoa1(.)处理后的特征矩阵;fmem指两层时序卷积层和一层双重注意力机制层对一组输入的顺次处理,ftc1,ftc2分别指两层时序卷积处理;O为最终分类结果,gφ(.)为分类器处理。
7.根据权利要求1所述的一种少样本水闸图像分类方法,其特征在于,所述步骤(6)中使用Batch normalization参数正则化的具体步骤如下:对于输入数据X={X1,X2,...,Xm},首先计算数据均值
Figure FDA0002976353730000041
m为每一条输入数据中数据点的个数,Xi为输入数据中的第i个数据点;
计算数据方差
Figure FDA0002976353730000042
进行批规范化得到新的数据中的第i个数据点为
Figure FDA0002976353730000043
其中,η为防止发生除零错误而设置的微小正数;
进行尺度变换和偏移:
Figure FDA0002976353730000044
α和β为网络自身在训练过程中学习到的参数。
CN202110275239.XA 2021-03-15 2021-03-15 一种少样本水闸图像分类方法 Active CN112926485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110275239.XA CN112926485B (zh) 2021-03-15 2021-03-15 一种少样本水闸图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110275239.XA CN112926485B (zh) 2021-03-15 2021-03-15 一种少样本水闸图像分类方法

Publications (2)

Publication Number Publication Date
CN112926485A true CN112926485A (zh) 2021-06-08
CN112926485B CN112926485B (zh) 2022-09-23

Family

ID=76175018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110275239.XA Active CN112926485B (zh) 2021-03-15 2021-03-15 一种少样本水闸图像分类方法

Country Status (1)

Country Link
CN (1) CN112926485B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505861A (zh) * 2021-09-07 2021-10-15 广东众聚人工智能科技有限公司 基于元学习和记忆网络的图像分类方法及系统
CN113835964A (zh) * 2021-09-26 2021-12-24 湘潭大学 基于小样本学习的云数据中心服务器能耗预测方法
CN116403071A (zh) * 2023-03-23 2023-07-07 河海大学 基于特征重构的少样本混凝土缺陷检测方法及装置
CN116524292A (zh) * 2023-03-22 2023-08-01 江苏济远医疗科技有限公司 一种多源异质医学图像的联邦学习方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516305A (zh) * 2019-07-26 2019-11-29 西安交通大学 基于注意机制元学习模型的小样本下故障智能诊断方法
CN112131943A (zh) * 2020-08-20 2020-12-25 深圳大学 一种基于双重注意力模型的视频行为识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516305A (zh) * 2019-07-26 2019-11-29 西安交通大学 基于注意机制元学习模型的小样本下故障智能诊断方法
CN112131943A (zh) * 2020-08-20 2020-12-25 深圳大学 一种基于双重注意力模型的视频行为识别方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505861A (zh) * 2021-09-07 2021-10-15 广东众聚人工智能科技有限公司 基于元学习和记忆网络的图像分类方法及系统
CN113835964A (zh) * 2021-09-26 2021-12-24 湘潭大学 基于小样本学习的云数据中心服务器能耗预测方法
CN113835964B (zh) * 2021-09-26 2023-07-18 湘潭大学 基于小样本学习的云数据中心服务器能耗预测方法
CN116524292A (zh) * 2023-03-22 2023-08-01 江苏济远医疗科技有限公司 一种多源异质医学图像的联邦学习方法
CN116403071A (zh) * 2023-03-23 2023-07-07 河海大学 基于特征重构的少样本混凝土缺陷检测方法及装置
CN116403071B (zh) * 2023-03-23 2024-03-26 河海大学 基于特征重构的少样本混凝土缺陷检测方法及装置

Also Published As

Publication number Publication date
CN112926485B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN112926485B (zh) 一种少样本水闸图像分类方法
CN108388927B (zh) 基于深度卷积孪生网络的小样本极化sar地物分类方法
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN112347970B (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN109766873B (zh) 一种混合可变形卷积的行人再识别方法
CN111008618B (zh) 一种自注意力深度学习端到端的行人再识别方法
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN113269224B (zh) 一种场景图像分类方法、系统及存储介质
JP2024513596A (ja) 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体
Jia et al. Effective meta-attention dehazing networks for vision-based outdoor industrial systems
CN111680705A (zh) 适于目标检测的mb-ssd方法和mb-ssd特征提取网络
CN114663769B (zh) 一种基于YOLO v5的水果识别方法
CN116228789A (zh) 一种基于DeepLabv3+网络的遥感图像分割方法
CN111461006A (zh) 一种基于深度迁移学习的光学遥感图像杆塔位置检测方法
Li et al. An end-to-end system for unmanned aerial vehicle high-resolution remote sensing image haze removal algorithm using convolution neural network
CN113297936A (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN116958809A (zh) 一种特征库迁移的遥感小样本目标检测方法
CN115239765B (zh) 基于多尺度可形变注意力的红外图像目标跟踪系统及方法
CN116310328A (zh) 基于跨图像相似度关系的语义分割知识蒸馏方法及系统
CN116542865A (zh) 一种基于结构重参数化的多尺度实时去雾方法及装置
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型
CN112884022B (zh) 一种基于图像平移的无监督深度表征学习方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant