CN116843985A

CN116843985A - 一种基于多重一致性约束的矿区图像半监督分类方法

Info

Publication number: CN116843985A
Application number: CN202311119739.XA
Authority: CN
Inventors: 何文熹; 涂兵; 王磊; 高鉴
Original assignee: Wuhan Geological Research Center of China Geological Survey
Current assignee: Wuhan Geological Research Center of China Geological Survey
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-10-03
Anticipated expiration: 2043-09-01
Also published as: CN116843985B

Abstract

本发明涉及一种基于多重一致性约束的矿区图像半监督分类方法包括：获取矿区图像训练数据；基于大网络‑小网络权重网络参数预训练框架构建双支线网络结构；训练双支线网络结构，并基于输入‑结构‑特征三层面施加扰动，通过多重一致性约束，使大网络‑小网络的预测保持一致；对小网络进行基于自训练损失的单阶段强化训练，强化其特征提取功能；基于多重一致性约束的一致性损失和自训练损失，构建双支线网络的总体损失函数，利用总体损失函数优化双支线网络的参数，得到训练完成的双支线网络；进行矿区图像灾害检测。本发明有益效果是：提高了模型的学习能力和鲁棒性，轻松运用到各种场景下的矿区航测灾害检测任务中，通用性良好、易于实施。

Description

一种基于多重一致性约束的矿区图像半监督分类方法

技术领域

本发明涉及矿区图像识别领域，尤其涉及一种基于多重一致性约束的矿区图像半监督分类方法。

背景技术

因为矿产资源具有的高价值性和稀缺性，同时矿产资源一般位于山区、难于实时监管，所以针对矿产资源的乱采乱挖、甚至是无证开采的现象时有发生。而这些非法开采活动对自然地形地貌和当地生态环境会造成不可估量的负面影响。严重的甚至会带来含水层污染、土地资源破坏、地质灾害、人员伤亡等一系列灾难性的后果。

具体来说，在非法开采过程中，采矿区域会出现各种各样的地质形态变化，比如地面塌陷、地面沉降、地裂縫、滑坡、崩塌、泥石流等。而这些地质形态变化，在无人机采集到的矿区航测图片中，都有明显的体现。

现有的项目大多数是配备专业人员人工逐区块地去检视矿区位置，然后再人工确认该矿区是否存在上述地质形态变化问题。这种方法虽然执行简单，但是存在周期长，漏检率高、费用贵等根本性的问题，难以适应地质工作数字化和规模化的需要；

因此，勘查技术水平的高低和勘查效率的快慢，决定了对于这些珍贵矿产资源的保护程度。

而在另一方面，基于深度学习的计算机视觉技术，能够很好地实现大数量级的航测图像处理，具有周期短、效率高等优点。因此，怎样利用深度学习技术实现矿区非法开采活动的高效率监测具有重要意义。

尽管深度学习模型具有很好的特征学习表征能力，但高准确度的矿区灾害图像特征提取模型，依赖大量的高质量标注数据，而获取这样的标注数据既费时耗力，成本巨大。另外，矿区的无人机航测图片，会受多种因素影响：诸如土壤含水量、土壤类型、植被覆盖情况、不同季节的光照、卫星拍照角度等等。

总而言之，上述这两方面原因制约了深度学习模型在矿区灾害航测图像分类领域的应用。

发明内容

为解决现有矿区灾害图像分类中存在的样本数据少、分类精度不高的技术问题，本发明提出了一种基于多重一致性约束的矿区图像半监督分类方法，方法包括以下步骤：

S1、基于无人机拍摄获取矿区图像训练数据；所述训练数据包括已标注图像和无标注图像；

S2、基于大网络-小网络权重网络参数预训练框架构建双支线网络结构；

S3、利用训练数据训练双支线网络结构，并在训练过程中基于输入-结构-特征三层面施加扰动，最后通过多重一致性约束，使大网络-小网络的预测保持一致；

S4、利用训练数据对小网络进行基于自训练损失的单阶段强化训练，强化其特征提取功能；

S5、基于多重一致性约束的一致性损失和自训练损失，构建双支线网络的总体损失函数，利用总体损失函数优化双支线网络的参数，得到训练完成的双支线网络；

S6、利用训练完成的双支线网络进行矿区图像灾害检测。

进一步地，所述双支线网络包括大网络和小网络；其中大网络和小网络模型结构相同，但模型参数不同。

进一步地，大网络和小网络模型之间的参数关系如下：

其中，为大网络模型的参数，/>为小网络模型的参数，通过训练误差的传递得到；i表示大网络和小网络模型训练过程中的迭代次数编号，/>为衰减系数，/>。

进一步地，步骤S3中，训练过程中基于输入层面施加扰动的具体过程如下：

获取无标注图像，将无标注图像做强增广扰动处理后，输入至小网络；获取无标注图像，将无标注图像做弱增广扰动处理后，输入至大网络。

进一步地，步骤S3中，训练过程中基于结构层面施加扰动的具体过程如下：对小网络模型的结构作随机丢弃处理；对大网络模型结构不作处理。

进一步地，所述弱增广具体包括：翻转、旋转、缩放和颜色变换；

所述强增广的过程如下：

获取无标注图像x _u的面积A；

定义一组掩膜面积控制系数R={r _r,r _g, r _b}，其中r _r,r _g,r _b∈[0,1]；

创建掩膜文件M_u={m _r,m _g,m _b}={Ar _r,Ar _g, Ar _b}；

强增广后的图像为。

进一步地，所述随机丢弃，具体指：在训练过程中，以一定概率随机丢掉小网络模型的核心编码层。

进一步地，所述掩膜处理的具体过程为：定义特征掩膜率p _f，以p _f随机选取特征f _s中一定数量的通道进行丢弃。

所述总体损失函数具体如下：

其中，L _C表示一致性损失函数；L _S表示自训练损失函数；表示权重因子。

本发明提供的有益效果是：该发明可以通过多重一致性约束学习无标注图像的一般性特征表达。

配合单阶段自训练策略，充分利用无标注图像信息和已标注图像信息，构建了一个泛化性强的特征学习框架，有效降低复杂环境变化带来的误检或者标注数据过少带来的模型学习程度不足问题，提高深度学习模型对于的检测精度与鲁棒性。

本发明方法准确率高、便捷性强、通用性广，提高深度学习智能化学习能力，适用于各种航测矿区灾害检测下游任务。

附图说明

图1是本发明方法的流程示意图；

图2是多重一致性约束示意图；

图3是矿区航测图像单阶段自训练示意图；

图4是采用现有数据集直接测试模型准确率示意图；

图5是经过本申请方法后测试模型准确率示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，图1是本发明终端设备结构的示意图；本发明提供的一种基于多重一致性约束的矿区图像半监督分类方法，具体包括以下步骤：

需要说明的是，针对具体场景，远程操作无人机拍摄得到矿区航测图像。对拍摄的图像做归一化处理和裁剪处理，作为深度学习模型的初始输入。

由于本发明属于一种半监督方法，故在模型输入阶段同时输入已标注的矿区航测图像以及无标注图像，诱导深度学习模型充分利用标注图像信息以及无标注图像信息进行学习，增强特征提取能力以及提升航测矿区灾害检测精度。分别记标注矿区航测图像数据与为无标注图像数据为与/>。

本发明中高效率小网络模型与高精度大网络模型享有相同的结构，而模型参数却不相同。记高效率小网络模型为，高精度大网络模型为/>。随着训练过程中的误差梯度传递，高效率小网络模型的参数/>被不断更新。高精度大网络模型的参数更新不直接由误差梯度传递控制，而是由历史高效率小网络模型的参数集成而来，由衰减系数/>控制：

大网络和小网络模型之间的参数关系如下：

其中，为大网络模型的参数，/>为小网络模型的参数，通过训练误差的传递得到；

i表示大网络和小网络模型训练过程中的迭代次数编号。

在大网络-小网络权重网络参数预训练框架中，高精度大网络模型作为更稳定可靠的模型辅助高效率小网络模型进行训练学习，高效率小网络模型将作为最终的模型用于后续矿区航测图像检测等任务。

特别地，该框架的各支线（大、小网络）不限定具体的网络结构，本发明以SwinTransformer网络为例进行说明。最后，将无标注图像输入到高效率小网络模型/>与高精度大网络模型/>中，而标注图像/>仅输入到高效率小网络模型中。

如图2所示，分别从输入-结构-特征等多重层面，对无标注图像的学习过程施加多重扰动。基于半监督学习一直性原则，构建一致性损失，实施多重一致性约束。鼓励无标注图像在各种扰动情况下，高效率小网络模型对其预测保持一致性。又包含如下步骤：

步骤3-1，在输入阶段实施输入扰动。

取任一无标注图像，分别对其进行强增广处理和弱增广处理，得到的图像记为/>和/>，分别输入到高效率小网络模型以及高精度大网络模型。

其中，弱增广包含普通的翻转、旋转、缩放、颜色变换等。

对于强增广的具体过程如下：

假设给定的无标注图像x _u的面积为A，定义一组掩膜面积控制系数R={r _r,r _g, r _b}，其中r _r,r _g,r _b∈[0,1]。

随机创建一组二值化的矩形掩膜文件M_u={m _r,m _g,m _b}，其面积分别为Ar _r,Ar _g, Ar _b，满足m _r,m _g,m _b={0,1}。限定m _r,m _g,m _b的面积固定，但长宽比例随机。将二值化掩膜文件M_u施加到无标注图像x _u，使m _r,m _g,m _b分别与x _u的RGB三个通道做相乘处理，得到增广后的图像版本，记作：

强增广扰动本质是一种“遮挡”处理，被删除的矩形区域可以看作为被遮挡的位置，从而实现输入扰动。

步骤3-2，在模型参数学习阶段实施结构扰动。

将步骤3-1得到的和/>分别输入到高效率小网络模型/>与高精度大网络模型进行模型参数训练，在训练过程中以一定概率随机丢掉一些网络的核心编码层，对网络结构进行扰动。该结构扰动仅对高效率小网络模型分支网络进行处理。本发明以SwinTransformer网络为例进行说明。Swin Transformer核心编码模块为自注意力层，自注意力层前后使用了残差连接。记网络第l层的编码模块为G _l，原始的学习过程表示为：

f _l+1=G _l(f _l)+id(f _l)

式中，id()表示恒等映射函数。f _l表示第l层的特征图。

在训练时加入一个定义的随机变量b _l，其中b _l的概率分布满足伯努利分布，其值受定义的层扰动概率p控制。其中b _l =0概率为p，b _l =1概率为1-p。

令G _l乘以b _l，即对第l层的编码模块做层随机丢弃。b _l =1表示该结构即为原始结构，而b _l =0表示残差支路没有被激活，整个结构退化为一个恒等函数。此过程可以表示为：

f _l+1=b _l G _l(f _l)+id(f _l)

高效率小网络模型中层的层扰动概率p与层数l有关，p随层数增加而线性增加，使得较深的层被丢弃的可能性更大。网络第l层的层扰动概率为：

步骤3-3，在特征提取阶段实施特征扰动。

模型训练过程中，利用双支线网络结构提取无标注图像特征。记和/>的编码特征分别为f _s和f _w。在特征编码时，仅对高效率小网络模型分支路径的f _w做特征扰动处理。

本发明提出一种特征掩膜方法对特征实施扰动。定义特征掩膜率p _f，以p _f随机选取特征f _s中一定数量的通道进行丢弃，使特征通道之间减少互相的依赖关系。在具体实施过程中，特征扰动是以通道遮挡的形式实现的。随机生成一个与f _s具有相等尺寸的二值掩膜文件M _f，其中M _f中通道为0的比例为p _f，则特征扰动表示为：

式中，表示扰动后的特征图。

步骤3-4，构建一致性损失，鼓励模型对多重扰动下的无标注图像x _u做出一致性预测，以充分利用无标注信息进行模型学习。

经过步骤3-1,3-2,3-3的多重扰动后，在高效率小网络模型分支得到x _u的输出结果，记为。将高精度大网络模型分支上的输出结果记为/>。理论上来讲，期望好的模型具有鲁棒性，可以面对不同的扰动情况对输入图像做出稳定的预测。本发明构建一致性损失用来约束预测一致性。基于交叉熵损失函数构建一致性损失，约束高效率小网络模型分支的预测输出与高精度大网络模型分支的预测输出保持一致。

式中，L _C表示一致性损失。H()表示交叉熵损失函数。

特别地，在计算一致性损失之前，通过锐化函数对以及/>作锐化处理，鼓励模型做出低熵预测。理想状态下，模型预测应该是自信的。模型越自信，输出的预测概率的信息熵值则越低。锐化处理即通过一个温度系数/>，调整预测概率的分布使其更加极端化并趋近于One-Hot分布，从而降低预测概率的信息熵。锐化函数表示为：

式中，N表示标签的总类别数量。prob表示模型的预测概率分布。将以及带入到上式中即可得到调整后的预测概率分布。

如图3所示，首先利用高精度大网络模型对无标注图像赋予伪标签，形成伪标注图像。接着利用MixUp混合伪标注图像与标注矿区航测图像，得到增广后的伪标注图像与标注矿区航测图像。最后将伪标注图像与标注矿区航测图像视作新的训练数据集同时输入到高效率小网络模型中，以类似于监督的形式进行自训练。分别针对伪标注图像与标注矿区航测图像构建损失函数进行误差梯度传递。具体包含包含如下步骤：

步骤4-1，基于步骤3的高精度大网络模型，为未标记图像赋予伪标签。

伪标注技术即让模型试着猜测一个 “假”的标注，赋给未标记图像。对任一无标注图像，将其输入到高精度大网络模型，通过高精度大网络模型的输出概率获取/>的伪标签：

式中，表示x _u的伪标签。通过伪标签，无标注数据集成为伪标注数据，记为。

步骤4-2，混合伪标注图像与已标注矿区航测图像，构成新的训练集。

首先将已标注矿区航测图像与伪标注图像/>组合在一起，随机重排得到数据集。接着将X _l与W的前一半数据/>进行MixUp处理。类似的，将/>与W的后一半数据/>进行MixUp处理。分别得到新的标注数据/>与新的伪标注数据/>。

式中，表示混合权重因子。

步骤4-3，构建自训练损失函数。

将步骤4-2得到的训练集输入到高效率小网络模型进行自训练。由于该自训练过程与标注数据的训练过程同时进行，因此本发明将其称为单阶段自训练。注意，在单阶段自训练过程中，关闭高效率小网络模型的多重扰动操作。

自训练损失包含两部分，分别为针对标注数据的监督损失项L _l以及针对伪标注数据/>的伪标注损失项L _u：

则最后的自训练损失L _s由如下公式计算而来：

式中，表示损失函数权重调节因子。

总体损失函数由步骤3-4的一致性损失函数L _c以及步骤4-3的自训练损失函数L _s加权组合而来，表示为：

式中，表示损失函数权重调节因子。

S6、利用训练完成的双支线网络进行矿区图像灾害检测。

作为一种实施例，对于已有少量的矿山灾害标注图像，模型权重使用默认参数。由于训练集和测试集的相关度不高，导致模型在测试集上无法收敛，测试准确率如下图4所示。

当采用本申请方法，也即采用MixUp和基于多重一致性约束的半监督训练方法来采用未标注样本的使用，其中MixUp中m（原图和增强混合图叠加的权重）由Beta分布所得，具体做法如下：

找出一组m使得计算出的Loss最大（对抗性训练，通过这种最坏情况下的样本训练，可以使模型主动修复其泛化的弱点，并根据经验提高其鲁棒性；

从结果来看，Mixup能够更好地覆盖实际可能的矿山灾害图像的样本空间，但是也导致了更高的特征异质性，需要更大的模型容量来编码，本申请将大模型训练好后，再通过多重一致性约束，保证小模型的识别精度和大模型识别精度尽量接近的同时，降低模型的运行计算量，提高模型的执行效率，总体而言较其他方法有很大改善，最后实验结果准确率如图5所示。

综合来看，本发明的有益效果是：该发明可以通过多重一致性约束学习无标注图像的一般性特征表达。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多重一致性约束的矿区图像半监督分类方法，其特征在于：包括以下步骤：

S6、利用训练完成的双支线网络进行矿区图像灾害检测。

2.如权利要求1所述的一种基于多重一致性约束的矿区图像半监督分类方法，其特征在于：所述双支线网络包括大网络和小网络；其中大网络和小网络模型结构相同，但模型参数不同。

3.如权利要求2所述的一种基于多重一致性约束的矿区图像半监督分类方法，其特征在于：大网络和小网络模型之间的参数关系如下：

4.如权利要求1所述的一种基于多重一致性约束的矿区图像半监督分类方法，其特征在于：步骤S3中，训练过程中基于输入层面施加扰动的具体过程如下：

5.如权利要求1所述的一种基于多重一致性约束的矿区图像半监督分类方法，其特征在于：步骤S3中，训练过程中基于结构层面施加扰动的具体过程如下：对小网络模型的结构作随机丢弃处理；对大网络模型结构不作处理。

6.如权利要求1所述的一种基于多重一致性约束的矿区图像半监督分类方法，其特征在于：步骤S3中，训练过程中基于特征层面施加扰动的具体过程如下：对小网络模型的无标注图像特征进行掩膜处理；对大网络模型的无标注图像特征不处理。

7.如权利要求4所述的一种基于多重一致性约束的矿区图像半监督分类方法，其特征在于：

所述弱增广具体包括：翻转、旋转、缩放和颜色变换；

所述强增广的过程如下：

获取无标注图像x _u的面积A；

创建掩膜文件M_u={m _r,m _g,m _b}={A r _r, Ar _g, Ar _b }；

强增广后的图像为。

8.如权利要求5所述的一种基于多重一致性约束的矿区图像半监督分类方法，其特征在于：所述随机丢弃，具体指：在训练过程中，以一定概率随机丢掉小网络模型的核心编码层。

9.如权利要求6所述的一种基于多重一致性约束的矿区图像半监督分类方法，其特征在于：所述掩膜处理的具体过程为：定义特征掩膜率p _f，以p _f随机选取特征f _s中一定数量的通道进行丢弃。

10.如权利要求1所述的一种基于多重一致性约束的矿区图像半监督分类方法，其特征在于：所述总体损失函数具体如下：

其中，L _C表示一致性损失函数；L _S表示自训练损失函数。