CN112926485A

CN112926485A - 一种少样本水闸图像分类方法

Info

Publication number: CN112926485A
Application number: CN202110275239.XA
Authority: CN
Inventors: 戚荣志; 朱慧静; 李水艳; 毛莺池; 张云飞
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-08
Anticipated expiration: 2041-03-15
Also published as: CN112926485B

Abstract

本发明公开了一种少样本水闸图像分类方法，组合双重注意和时序卷积建立了元学习模型，按照小样本学习标准整理和编排数据集，进一步对其进行特征提取、元学习训练和运行状态识别，能够在少样本条件下跨水闸类型准确地自动分类水闸启闭状态。通过交织组合双重注意力和时序卷积形成一种记忆增强模型，能够高带宽地学习和记忆知识中有用的通用经验，快速地利用经验学习新知识可以跨水闸类型获得较高的启闭状态分类准确率。本发明摆脱了现有水利领域深度学习算法对大量训练数据的依赖性和传统分类方法中难以跨任务工作的限制性，能够在小样本条件下更灵活、通用地辅助水利工程运行状态监控，有助于提高水利视频监控系统的利用率。

Description

一种少样本水闸图像分类方法

技术领域

本发明属于图像分类技术领域，特别涉及一种少样本水闸图像分类方法。

背景技术

近年来，各地水利工程视频监控系统相继建设完成，但现有监控系统缺少针对与防汛重大事件相关的视频和图像的自动识别，利用率有待进一步提高。因此，考虑应用计算机视觉和深度学习方法智能分类水闸图像中的闸门启闭状态，辅助水利工程运行状态的监控。

受限于各地水利环境和监控系统建设情况等因素，能采集到的有研究价值的水闸图像样本总量较少且各类闸门的样本数量不均。除汛期外，同一水利工程在每年的大部分时间内的状态是相似的，即略少量的平常时期图像样本就足以刻画该时期的特征，相似样本的数量增加无法促使特征丰富化。视频监控系统的前端拍摄设备固定使得采集图像的拍摄角度、光学条件等因素单一化，限制了图片数据集对水闸环境特征的刻画能力。

由于水利领域专业性高，针对水利领域的图像算法相对稀缺。常规图像分类算法在训练过程中需要有大量的样本才能提高它的工程实用性，这与水闸图像样本量少且分布不均的场景实况相矛盾。在少样本条件下罕有泛化性能较高的水闸图像分类算法。元学习常被用于解决少样本问题，要求算法学会学习，研究如何以系统的、数据驱动的方式利用先前经验快速地学习新任务。由于不同类型的水闸结构存在差异，每类水闸的启闭状态图像分类归为独立子任务。因此，有必要应用元学习思想探究少样本条件下具有有效性与通用性的跨水闸类型的水闸启闭状态图像分类方法。

发明内容

发明目的：为了克服现有技术中存在的问题，本发明提供一种少样本水闸图像分类方法，能够进行跨水闸类型的水闸启闭状态识别，即按照水闸类型划分水闸图像集，应用样本量相对多的几类水闸的图像训练元学习模型，使得模型达到较好的识别性能，后用少量其他类别水闸的图像继续训练模型可以使模型能快速学习新水闸图像的特征，同样达到较高的识别准确率。该方法在少样本条件下具有较好的泛化能力，可以快速迁移应用到新类型闸门的学习中，利用模型已学习到的经验知识进行计算。

技术方案：为实现上述目的，本发明提供一种少样本水闸图像分类方法，包括如下步骤：

(1)通过人工筛选和截取原始水闸场景视频得到水闸图像样本，对图像进行降噪和同一规格化处理，再根据闸门类型和启闭状态整理数据集，并划分为训练集和测试集；

(2)建立基于双重注意力机制的元学习模型，该模型包含四个网络子结构，依次分别是样本批采集器、基于残差网络的特征提取器、组合双重注意力与时序卷积的元学习器以及分类器；

(3)对于步骤(2)中建立的元学习模型，利用批采集器将步骤(1)中得到的数据集合划分为训练子集和测试子集，并按小样本标准随机采集数据以模拟小样本条件下的分类过程；

(4)利用基于残差网络框架的特征提取器对划分好的数据训练集进行数据特征提取，并进行特征与标签的拼接；

(5)组合双重注意力与时序卷积的元学习器和分类器，利用步骤(4)提取的数据特征进行训练并更新元学习器和分类器的网络参数；

(6)对步骤(2)所建立的元学习模型中的各个子网络使用Batch normalization参数正则化方法防止训练过拟合及稳定训练过程；

(7)对步骤(5)的训练过程进行多次迭代直达满足预设要求，用模型输出为每一组数据所对应的启闭状态分类的准确率，取这组准确率的平均值作为该组数据最终标签,取分类准确度最高的一组权重作为最优权重，得到适用于训练集中覆盖的各类水闸的启闭状态分类的元学习模型；

(8)将最优权重作为测试阶段元学习器网络的初始网络参数，利用步骤(3)中批采集器采集测试集中的少量几组数据用于测试阶段的快捷训练，训练方法同步骤(4)-(7)的训练阶段；

(9)通过让训练阶段得到的最优模型在少量学习新闸门类型图像后进行调整，完成小样本数据下水闸启闭状态的自动识别。

进一步的，所述步骤(1)中对图像进行降噪处理的具体步骤如下：采用非局部均值滤波进行降噪，先以一个像素点为圆心划定邻域为基准块，再设置一个等尺寸的参考块，逐像素遍历全图并计算参考块和基准块之间的欧式距离，再应用一个单调递减函数将基准像素点的一组欧式距离逐一转换为权重，再用所得的一组权重更新基准像素值；计算公式为：

式中，B(p,f)分别指以像素点p为中心、边长为2f+1的图像邻域子块，u_i(p)是像素点p在第i色彩通道的像素值，d²(.)为两个子块之间的欧式距离；σ表示噪声的标准差，h为根据σ设置的滤波参数，ω(p,q)为像素点p,q之间的相似度权重，欧式距离越大则权重越小且下降速度越快；B(p,r)表示计算限制下的最大遍历区域，

为加权求和更新后的像素值。

进一步的，所述步骤(1)中对图像进行同一规格化处理的具体步骤如下：首先选定图像中单个完整闸口的矩形区域为感兴趣区域(ROI)，以ROI区域为中心，取任意边长大于ROI区域最长边的矩形子图，然后使用Resize函数将子图裁剪为等边长的正方形。

进一步的，所述步骤(2)中组合双重注意力机制和时序卷积的元学习器包含三层双重注意力层与四层时序卷积层，每两层双重注意力层之间由两层时序卷积层来连接；时序卷积层由一系列密集块组成，每个密集块在单个时间步内的计算结果与输入的拼接值将作为下一时间步的输入；密集块在单个时间步内的执行过程如下：

C₁,C₂＝dilatedconv1d(X_tc,R,D),dilatedconv1d(X_tc,R,D)

A＝tanh(C₁)*σ(C₂)

O_tc＝concat(X_tc,A)

式中,X_tc是当前时间步输入到密集块的特征数据，C₁,C₂分别表示在膨胀率R和过滤器数D的条件下对输入进行一维膨胀卷积dilatedconv1d(.)操作的结果；A是应用门控激活函数处理后的输出，处理过程用到了tanh激活函数和sigmoid激活函数σ；O_tc是密集块在当前时间步内的最终输出，通过对X_tc和A执行拼接操作concat得到；

双重注意力机制只需关注过去的数据，在归一化前将相应的权重归零，初步处理后的输出如下：

Q,K,V＝affine(X_att),affine(X_att),affine(X_att)

式中，Q,K,V是对输入X_att采用不同的线性变换后产生的三个表示，其中Q为查询量，K为参照量，V为当前量；

为注意力结果，d_k为K的维度，softmax为归一化函数；

以时序注意力结果和查询量为基础，生成通过一个信息向量和一个注意力门，并对它们进行逐元素乘法来获得最终关注信息，最后拼接关注信息与输入，处理过程如下：

式中，I为信息向量，G为注意力门，W,b分别为线性变换时的权重和偏置，σ(.)为sigmoid函数，⊙表示逐个元素相乘；O_att为输入X_att经过一层双重注意力层后的最终输出。

进一步的，所述步骤(3)中按小样本标准随机采集数据以模拟小样本条件下的分类过程的具体步骤如下：批采集器随机采集训练集中的N类闸门的样本数据，为每个类别随机抽取K个样本，共N*K个样本作为训练阶段的支持集，再从这N类中抽取一批样本作为训练阶段的查询集(N,K具体数值可根据情况设置)，如此反复采集多次，遍历整个训练集，用于多轮训练模型。

进一步的，所述步骤(5)中利用步骤(4)提取的数据特征进行训练并更新元学习器和分类器的网络参数的具体步骤如下：组合双重注意力与时序卷积的元学习器和分类器，利用步骤四所得数据特征进行训练，并采用交叉熵作为损失函数更新元学习器和分类器的网络参数，计算公式如下：

F＝f_aoa1(X)

f_mem＝f_aoa(f_tc1(f_tc2(.)))

O＝g_φ(f_mem1(f_mem2(F)))

其中，X为输入特征矩阵,F为第一层双重注意力机制f_aoa1(.)处理后的特征矩阵；f_mem指两层时序卷积层和一层双重注意力机制层对一组输入的顺次处理，f_tc1,f_tc2分别指两层时序卷积处理；O为最终分类结果，g_φ(.)为分类器处理。

具体的：步骤五中，组合双重注意力与时序卷积的元学习器通过时序卷积学习和记忆图像的特征，再结合双重注意力机制定位出分类特征要素，为分类器进行分类判断提供可靠的依据。

组合双重注意力与时序卷积的元学习器与分类器的计算公式如下：

F＝f_aoa1(X)

f_mem＝f_aoa(f_tc1(f_tc2(.)))

O＝g_φ(f_mem1(f_mem2(F)))

其中，X为对一组数据特征提取和拼接后的表示矩阵,F为第一层双重注意力机制f_aoa1(.)处理后的特征表示；f_mem指两层时序卷积层和一层双重注意力机制层对一组输入的顺次处理，f_tc1,f_tc2分别指其中的第一、二层时序卷积处理；O为最终分类结果，g_φ(.)为判别器处理。

采用交叉熵作为损失函数来更新网络参数，计算公式如下：

其中，p为待分类图像x的正确标签向量,q为网络输出结果转换后的预测标签向量，H(p,q)为交叉熵值，用于刻画预测分类结果与真实结果之间的相似度，交叉熵值越小，相似度越高。

采用Adam优化器进行网络参数的优化，该优化器由Momentum算法和RMSprop算法集成而成。其计算公式如下：

v_dw＝β₁v_dw+(1-β₁)dW

v_db＝β₁v_db+(1-β₁)db

s_dw＝β₂s_dw+(1-β₂)dW²

s_db＝β₂s_db+(1-β₂)db²

式中，v_dw,v_db,s_dw,s_db分别是Momentum算法和RMSprop算法损失函数在前t-1轮迭代过程中累积的梯度和梯度动量；β为梯度累积的一个指数；α为学习率；ε为平滑因子，一般取一个微小正数；W为网络的权重矩阵；b为网络的偏置。

进一步的，所述步骤(6)中使用Batch normalization参数正则化的具体步骤如下：对于输入数据X＝{X₁,X₂,...,X_m}，首先计算数据均值

m为每一条输入数据中数据点的个数，X_i为输入数据中的第i个数据点；

计算数据方差

进行批规范化得到新的数据中的第i个数据点为

其中，η为防止发生除零错误而设置的微小正数；

进行尺度变换和偏移：

α和β为网络自身在训练过程中学习到的参数。

有益效果：本发明与现有技术相比具有以下优点：

本发明通过交织组合双重注意力和时序卷积形成一种记忆增强元学习模型，按照小样本学习标准整理和编排数据集，进一步对其进行特征提取、元学习训练和运行状态识别，能够在少样本条件下跨水闸类型准确地自动分类水闸启闭状态。本发明为了缓解水闸类型间存在差异的问题，采用双重注意力机制对元学习器网络进行改进，规避常规注意力机制存在的潜在误导风险，提高了水闸状态识别的准确率；本发明的网络模型仅需再用小规模新数据进行快速训练，可以在已训练好的最优权重上快速微调直接应用于其他的闸门状态识别场景，极大缩短了网络训练时间，加快水闸启闭状态识别效率。本发明摆脱了现有水利领域深度学习算法对大量训练数据的依赖性和传统分类方法中难以跨任务工作的限制，能够更灵活、通用地辅助水利工程运行状态监控，有助于提高水利视频监控系统的利用率。

附图说明

图1为本发明的流程图；

图2为具体实施例中的基于双重注意力和时序卷积结合的元学习器模型的结构图；

图3为具体实施例中少样本水闸图像的数据集样本示例图；

图4为具体实施例中少样本数据集划分示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明对采集到的水闸启闭状态图像进行非局部均化去噪、同一规格化处理；建立基于双重注意力机制的元学习模型；利用采集器对数据训练集划分，从而达到模拟测试过程的目的；特征提取器对划分好的数据子集进行特征提取和特征拼接，作为网络下一步的输入；组合双重注意力与时序卷积的元学习器使得网络以较大的感受野学习和记忆图像特征，并准确定位有用经验；全连接层分类器用于判别启闭状态；最终利用已训练好的最优网络权重和少量的新数据组实现在小样本数据下的水闸类型迁移的启闭状态自动识别。

实施例：

以水利视频监控平台采集到的水闸启闭状态图像为例，图像数据集来源包含12个水闸工程，样本量略大的闸门包含600张样本，其他包含300张样本。开闭状态图像数量基本持平。

如图1所示,本发明包含以下步骤：

步骤1，通过人工筛选和截取原始水闸场景视频中有用的视频流，得到水闸图像样本，对获取到的图像进行非局部均值降噪，并以感兴趣区域为中心裁剪图像为84x84像素大小，所得图片示例如图3所示，再根据图中闸门的分类和启闭状态对数据集合进行归类，图3中从左到右分别属于石梁河水库南闸、北闸与新沟河节制闸，其中(a)、(b)行分别为闸门开启、关闭的状态，最后划分为训练集和测试集。

步骤2，建立基于双重注意力机制的元学习模型，该网络模型依次包含四个子网络:样本批采集器、基于残差网络框架的特征提取器、组合双重注意力与时序卷积的元学习器以及全连接层分类器。

特征提取器由4个结构相同的残差块和1层全连接层连接而成，每个残差块中依次包含1层卷积层、批标准化层、ReLU激活层和1层最大池化层，其中卷积核大小为3x3、池化核大小为2x2，用于提取不同状态数据的特征。结合双重注意力机制和时序卷积的元学习器的具体结构参见图2，元学习器包含三层双重注意力层与两层时序卷积层，每两层双重注意力层之间由一层时序卷积层来连接。

时序卷积层由一系列密集块组成，每个密集块在单个时间步内先使用可控膨胀率和滤波器数量的一维膨胀卷积进行计算，卷积核大小的设置为2x2，再应用门控激活函数计算，最后输出计算结果与输入的拼接值，该值将作为下一时间步的输入。密集块在单个时间步内的执行过程如下：

C₁,C₂＝dilatedconv1d(X_tc,R,D),dilatedconv1d(X_tc,R,D)

A＝tanh(C₁)*σ(C₂)

O_tc＝concat(X_tc,A)

式中,X_tc为当前时间步输入的特征数据，C₁,C₂分别为膨胀率R和过滤器数D条件下对输入进行一维膨胀卷积dilatedconv1d操作的结果；A为应用门控激活函数处理后的输出，处理过程用到了tanh激活函数和sigmoid激活函数σ；O_tc是密集块在当前时间步内的最终输出，通过对X_tc和A执行拼接操作concat得到。

双重注意力机制只需关注过去的数据，因此在归一化前将后续时间步的权重归零，处理过程如下：

Q,K,V＝affine(X_att),affine(X_att),affine(X_att)

为时序注意力结果，d_k为K的维度，softmax为归一化函数。

以时序注意力结果和查询量为基础，生成通过一个信息向量和一个注意力门，并对它们进行逐元素乘法来获得最终关注信息，标注出更可靠的预期有用知识，处理过程如下：

式中，I为信息向量，G为注意力门，W,b分别为线性变换时的权重和偏置，σ(.)为sigmoid函数，⊙表示逐个元素相乘。

最后，双重注意力层将得到的关注信息与输入拼接起来，以便多层垒叠。

式中，O_att为输入X_att经过一层双重注意力层后的最终输出。

分类器用于判别测试样本数据的最终闸门启闭状态，其全连接计算核设置为1x1。

步骤3，对于步骤2中建立的元学习模型，采用批采集器从训练集中随机抽取2类闸门，为每个类别随机抽取4个样本(包含开闭状态)，共2x4个样本作为训练阶段的支持集，再从这2类中抽取一批样本作为训练阶段的查询集，如此反复采集多次，遍历整个训练集，用于多轮训练模型，示例如图4所示。采集器通过Sampler函数(Pytorch环境下的集成函数)实现。

步骤4，利用基于残差网络框架的特征提取器对划分好的数据训练集进行数据特征提取，再采用Concatenate函数拼接特征与标签独热码，作为后续网络的数据特征输入；

步骤5，组合双重注意力与时序卷积的元学习器和分类器，利用步骤4得到的数据特征进行训练，并采用交叉熵作为损失函数更新元学习器和分类器的网络参数，训练过程采用Adam优化器进行网络参数的优化，计算公式如下：

F＝f_aoa1(X)

f_mem＝f_aoa(f_tc1(f_tc2(.)))

O＝g_φ(f_mem1(f_mem2(F)))

其中，X为输入特征矩阵,F为第一层双重注意力机制f_aoa1(.)处理后的特征矩阵；f_mem指两层时序卷积层和一层双重注意力机制层对一组输入的顺次处理，f_tc1,f_tc2指两层时序卷积处理；O为最终分类结果，g_φ(.)为分类器处理。

步骤6，对步骤2所建立的元学习模型中的各个子网络使用Batch normalization参数正则化方法防止训练过拟合及稳定训练过程；

步骤7，对步骤5的训练过程进行多次迭代直达满足预设要求，用模型输出为每一组数据所对应的启闭状态分类的准确率，取这组准确率的平均值作为该组数据最终标签,取分类准确度最高的一组权重作为最优权重，得到适用于训练集中覆盖的各类水闸的启闭状态分类的元学习模型；

步骤8，将最优权重作为测试阶段元学习器网络的初始网络参数，利用步骤3中批采集器从测试集中采集少于15组样本进行测试阶段的快捷训练，此过程的方法同训练阶段(步骤4-7)，依次经过多次迭代特征提取、元学习器训练和分类的训练过程。

步骤9，通过让训练阶段得到的最优模型在少量学习新闸门类型图像后快速、有效地调整，元学习模型对新水闸类型的平均启闭状态准确率达到70％以上，实现了小样本数据下的对水闸启闭状态的自动识别。

本发明在有研究价值的水闸启闭状态图像稀少的实际场景下利用有限的数据进行训练，使用双重注意机制对元学习器网络进行改进以更加适应水闸启闭状态场景问题，缓解不同类型闸门存在差异导致的潜在训练风险问题，得到一个较高通用性的网络模型，提高了水闸状态识别准确率；本发明的网络模型仅需再用小规模新数据进行快速训练，可以在已训练好的最优权重上快速微调直接应用于其他的闸门状态识别场景，极大缩短了网络训练时间，加快水闸启闭状态识别效率。

Claims

1.一种少样本水闸图像分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种少样本水闸图像分类方法，其特征在于，所述步骤(1)中对图像进行降噪处理的具体步骤如下：采用非局部均值滤波进行降噪，先以一个像素点为圆心划定邻域为基准块，再设置一个等尺寸的参考块，逐像素遍历全图并计算参考块和基准块之间的欧式距离，再应用一个单调递减函数将基准像素点的一组欧式距离逐一转换为权重，再用所得的一组权重更新基准像素值；计算公式为：

为加权求和更新后的像素值。

3.根据权利要求1所述的一种少样本水闸图像分类方法，其特征在于，所述步骤(1)中对图像进行同一规格化处理的具体步骤如下：首先选定图像中单个完整闸口的矩形区域为感兴趣区域(ROI)，以ROI区域为中心，取任意边长大于ROI区域最长边的矩形子图，然后使用Resize函数将子图裁剪为等边长的正方形。

4.根据权利要求1所述的一种少样本水闸图像分类方法，其特征在于，所述步骤(2)中组合双重注意力机制和时序卷积的元学习器包含三层双重注意力层与四层时序卷积层，每两层双重注意力层之间由两层时序卷积层来连接；时序卷积层由一系列密集块组成，每个密集块在单个时间步内的计算结果与输入的拼接值将作为下一时间步的输入；密集块在单个时间步内的执行过程如下：

C₁,C₂＝dilatedconv1d(X_tc,R,D),dilatedconv1d(X_tc,R,D)

A＝tanh(C₁)*σ(C₂)

O_tc＝concat(X_tc,A)

Q,K,V＝affine(X_att),affine(X_att),affine(X_att)

为注意力结果，d_k为K的维度，softmax为归一化函数；

5.根据权利要求1所述的一种少样本水闸图像分类方法，其特征在于，所述步骤(3)中按小样本标准随机采集数据以模拟小样本条件下的分类过程的具体步骤如下：批采集器随机采集训练集中的N类闸门的样本数据，为每个类别随机抽取K个样本，共N*K个样本作为训练阶段的支持集，再从这N类中抽取一批样本作为训练阶段的查询集(N,K具体数值可根据情况设置)，如此反复采集多次，遍历整个训练集，用于多轮训练模型。

6.根据权利要求1所述的一种少样本水闸图像分类方法，其特征在于，所述步骤(5)中利用步骤(4)提取的数据特征进行训练并更新元学习器和分类器的网络参数的具体步骤如下：组合双重注意力与时序卷积的元学习器和分类器，利用步骤四所得数据特征进行训练，并采用交叉熵作为损失函数更新元学习器和分类器的网络参数，计算公式如下：

F＝f_aoa1(X)

f_mem＝f_aoa(f_tc1(f_tc2(.)))

O＝g_φ(f_mem1(f_mem2(F)))

7.根据权利要求1所述的一种少样本水闸图像分类方法，其特征在于，所述步骤(6)中使用Batch normalization参数正则化的具体步骤如下：对于输入数据X＝{X₁,X₂,...,X_m}，首先计算数据均值

计算数据方差

进行批规范化得到新的数据中的第i个数据点为

其中，η为防止发生除零错误而设置的微小正数；

进行尺度变换和偏移：

α和β为网络自身在训练过程中学习到的参数。