CN117830882B

CN117830882B - 基于深度学习的航拍图像识别方法及相关产品

Info

Publication number: CN117830882B
Application number: CN202410239544.7A
Authority: CN
Inventors: 黄山; 王宇翔; 马玉宽; 卢燕婷
Original assignee: Guangdong Airace Technology Development Co ltd
Current assignee: Guangdong Airace Technology Development Co ltd
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-06-14
Anticipated expiration: 2044-03-04
Also published as: CN117830882A

Abstract

本申请是关于一种基于深度学习的航拍图像识别方法及相关产品。该方法包括：获取违建识别图像组，所述违建识别图像组包括至少一对由原始态图像和变化态图像配对组合的图像组；依次通过CNN骨干模块，双时态图像转换模块以及预测头模块对所述违建识别图像组进行处理；通过分类模块对所述预测头模块的输出进行处理，得到违建识别图像组的识别结果，所述识别结果包括变化态图像相对于与其配对的原始态图像是否存在违建情况。

Description

基于深度学习的航拍图像识别方法及相关产品

技术领域

本申请涉及图像识别技术领域，尤其涉及基于深度学习的航拍图像识别方法及相关产品。

背景技术

随着经济的快速发展，城市化的速度也越来越快，城镇中各式各样的建筑物数量都在急剧增加，同时无人机航拍技术的成熟也使得城镇航和图像和视频被广泛应用在城市规划任务中。

由于违章建筑一旦不能在建设初期被及时制止、拆除，则将增加后续拆除工作的难度以及会带来较高的拆除成本，因此，存在对违章建筑进行及时预警的需求。而如何对存在的违章建筑进行及时预警，便成为当前一个亟待解决的问题。

目前针对于违章建筑的监测，通常是采集一次原始的建筑物图像，后续再定期采集不同时期的建筑物图像进行比对，随着违章识别的需求越多，人工比对识别的效率较低，而传统的计算机图像比对方案，大部分对图像变化的识别率较高，但是图像变化不意味着存在违建，传统的计算机算法对违建识别的准确率较低。

发明内容

为克服相关技术中存在的问题，本申请提供一种基于深度学习的航拍图像识别方法，能够通过训练神经网络模型，得到能够识别违建图像的航拍图像识别网络，从而提高了违章建筑识别的准确率。

本申请第一方面提供了一种基于深度学习的航拍图像识别方法，通过航拍图像识别网络对目标图像进行违建识别，所述航拍图像识别网络包括：CNN骨干模块，双时态图像转换模块以及预测头模块；

所述识别方法包括：

获取违建识别图像组，所述违建识别图像组包括至少一对由原始态图像和变化态图像配对组合的图像组；

依次通过CNN骨干模块，双时态图像转换模块以及预测头模块对所述违建识别图像组进行处理；

通过分类模块对所述预测头模块的输出进行处理，得到违建识别图像组的识别结果，所述识别结果包括变化态图像相对于与其配对的原始态图像是否存在违建情况。

在一种实施方式中，所述双时态图像转换模块包括：第一语义标记器，第二语义标记器，转换编码器，第一转换解码器和第二转换解码器；

其中，所述第一语义标记器和第二语义标记器的输出端与转换编码器连接，所述转换编码器的输出端分别与第一转换解码器和第二转换解码器连接。

在一种实施方式中，所述航拍图像识别网络的训练方法，包括：

接收作为训练数据的违建识别图像组；

针对于所述违建识别图像组，执行以下前向传播操作；

通过所述CNN骨干模块从所述违建识别图像组中分别提取得到原始态特征图和变化态特征图；

分别通过第一语义标记器和第二语义标记器对所述原始态特征图和变化态特征图进行特征提取，得到第一语义标签和第二语义标签；

将所述第一语义标签和第二语义标签连接后输入所述转换编码器中进行建模，得到含有全局信息的语义标签；

将所述含有全局信息的语义标签分割为第一全局标签和第二全局标签，并使用所述第一转换解码器和第二转换解码器分别对所述第一全局标签和第二全局标签进行解码；

将解码后的第一全局标签和第二全局标签相加，融合全局标签；

通过所述融合全局标签对航拍图像进行违建识别，得到训练结果；

根据多个训练结果来获得损失函数，并利用所述损失函数来执行针对所述神经网络的反向传播操作。

在一种实施方式中，将违建识别图像组输入至航拍图像识别网络之前，包括：获取一张尺寸与变化态图像尺寸相同的纯色图像；

将原始态图像缩放至与变化态图像中相同地理坐标区域的尺寸一致

根据所述地理坐标区域将缩放后的原始态图像嵌入至纯色图像的目标区域，得到嵌入原始图像；

将嵌入原始图像和变化态图像进行对齐。

在一种实施方式中，所述将嵌入原始图像和变化态图像进行对齐之后，还包括：

分别对所述嵌入原始图像和所述变化态图像进行图像分割，分别得到尺寸相等的N*N个第一图像块和N*N个第二图像块，所述第一图像块为所述嵌入原始图像分割得到的图像块，所述第二图像块为所述变化态图像分割得到的图像块，所述N为大于1的整数；

分别对所述第一图像块和所述第二图像块进行掩膜编码，使得每个图像块都得到一个掩码；其中，将所述N*N个第一图像块中缩放后的原始态图像对应的图像块的掩码设置为1，将纯色区域对应的图像块的掩码设置为0；将所述N*N个第二图像块的掩码都设置为1。

在一种实施方式中，将违建识别图像组输入至航拍图像识别网络，包括：将所述N*N个第一图像块转换为一维序列的第一图像块；

将所述N*N个第二图像块转换为一维序列的第二图像块；

将转换为一维序列的第一图像块和一维序列的第二图像块中掩码一致的图像块，导入至航拍图像识别网络中进行训练。

在一种实施方式中，所述方法还包括：

对形成所述违建识别图像组的训练样本进行样本筛选；所述样本筛选包括：低质图像去除和类别平衡。

在一种实施方式中，所述低质图像去除包括：去除形变图像，去除模糊图像，以及去除过曝/欠爆图像；

所述类别平衡包括：确定属于违建情况的多种违建类别，分别针对每一种违建类别的样本图像进行增删，使得训练数据中属于不同违建类别的样本数量一致。

在第二方面，本公开还提供了一种用于对眼底图像状态进行分类的设备，包括：处理器；以及存储器，其存储有用于对航拍图像进行违建识别的程序指令，当程序指令由处理器执行时，使得设备实现前述第一方面中的实施例。

在第三方面，本公开还提供了一种计算机可读存储介质，其上存储有用于对航拍图像进行违建识别的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现前述第一方面中的实施例。

本申请提供的技术方案具有以下有益效果：

本申请实施例中的航拍图像识别网络的主要架构为Transformer网络，相对于传统的卷积神经网络，Transformer网络可以有效地提取图像中的全局信息，因此，本申请实施例中的航拍图像识别网络先通过CNN骨干模块提取图像的线、角、边等局部信息，再通过双时态图像转换模块提前图像中的全局信息（即，图像中的语义标签），能够充分的提取航拍图像的图像特征，提高了违章建筑识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的航拍图像识别网络的一个示意图；

图2是本申请实施例示出的航拍图像识别网络的另一个示意图；

图3是本申请实施例示出的基于深度学习的航拍图像识别方法的流程示意图；

图4是本申请实施例示出的航拍图像识别网络的训练方法的流程示意图；

图5是本申请实施例示出的图像处理方法的一个流程示意图；

图6是本申请实施例示出的变化态图像的示意图；

图7是本申请实施例示出的原始态图像的示意图；

图8是本申请实施例示出的嵌入原始图像的示意图；

图9是本申请实施例示出的嵌入原始图像的编码示意图；

图10是本申请实施例示出的变化态图像的编码示意图；

图11是本申请实施例示出的用于对航拍图像进行违建识别的设备的示意图。

具体实施方式

下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

图1是示出本申请实施例中用于对航拍图像进行违建识别的航拍图像识别网络100的操作原理图。图中示出了航拍图像识别网络100在训练过程(包括前向传播和反向传播)的操作流程。在本申请实施例中CNN为卷积神经网络Convolutional Neural Networks的缩写,如图1中所示，本披露的神经网络100可以包括逐级连接的CNN骨干模块101（CNNBackbone），双时态图像转换模块102（Bitemporal Image Transformer）以及预测头模块103（Prediction Head）。就航拍图像识别网络100的整体结构而言，CNN骨干模块101可以视为神经网络的低层部分，双时态图像转换模块102可以视为神经网络的高层部分。其中，低层部分所提取的特征主要包括的轮廓信息和局部信息，而高层部分所提取的特征主要包括的语义信息和全局信息。

请参阅图2，本申请实施例中的双时态图像转换模块102还可以进一步包括第一语义标记器1021，第二语义标记器1022，转换编码器1023，第一转换解码器1024和第二转换解码器1025。本申请实施例的航拍图像识别网络能够高效地对时空域内的上下文进行建模，其中的双时态图像转换模块102能够提取双时态图像（即违建识别图像组中的原始态图像和变化态图像）的语义标记，并使用编码器在紧凑的时空中对上下文进行建模。然后将上下文丰富的令牌反馈到像素空间，以优化通过解码器的原始功能。航拍图像识别网络的语义标记器将CNN主干提取的图像特征汇集到紧凑词汇集中。然后，将级联的双时态标签（即，连接后的第一语义标签和第二语义标签）反馈到转换编码器，以关联时空信息。每个图像的上下文信息被投影回像素空间，通过转换解码器得到原始特征（即，融合全局标签）。最后，通过预测头模块对航拍图像进行违建识别，得到变化态图像是否为违建图像的识别结果。

在违建识别图像组的双时态图像（原始态图像和变化态图像）中，具有相同语义概念的对象可能显示不同的光谱不同时间和空间位置的特征。本申请实施例通过双时态图像转换模块102将双时态图像中相关的时空间信息关联起来，形成能够体现图像语义信息的全局标签，结合全局标签再比对局部信息的差异，如此，能够有效地识别图像差异部分是否为违章建筑。比如，地表的植被变化或池塘的水域面积变化，在局部信息的差异比对中，变化态图像相较于原始态图像确实发生了变化，但是这不属于违章建筑，若结合了图像的全局信息，就能够结合全局相关联的图像信息（地域、以及该地域对应的土地属性或土地用途），预测出变化区域为植被的四季变化或水域干枯变化，有效地排除这些非违章建筑的变化干扰，提高了违章建筑识别的准确率。

实施例一

请参阅图3，本申请实施例中基于深度学习的航拍图像识别方法的一个实施例包括：

301、获取违建识别图像组，所述违建识别图像组包括至少一对由原始态图像和变化态图像配对组合的图像组；

在本申请实施例中，通过航拍器在选定的位置和高度，以既定角度拍摄，得到作为比对基准的原始态图像（一般以在先拍摄的没有违章建筑物的区域作为原始态图像）。在实际应用中，可以对违章评估区域进行多个位置的定点航拍，从而使得得到的多张原始态图像能够覆盖整个违章评估区域。

对于同一个违章评估区域，若后续需要评估该区域是否存在违章建筑，则根据相应的经/纬度坐标，对同一个违章评估区域再进行拍摄，得到该原始态图像对应的变化态图像。由同一个违章评估区域拍摄的原始态图像和变化态图像组成违建识别图像组。

在实际应用中，航拍器执行拍摄动作时所在的经/纬度坐标、航拍器的拍摄角度、航拍器的拍摄参数均可以根据实际情况实时设定，或直接按照预设的航拍策略进行拍摄。可以理解的是，上述对于原始态图像/变化态图像的采集过程的描述仅是本申请实施例中的一种示例，不应该作为对本申请的唯一限定。

需要说明的是，在实际应用中，对于同一个违章评估区域，可以仅有一张对应的原始态图像，而根据后续实际的评估需求的频次，可以有多张不同时间拍摄的与该原始态图像对应的变化态图像。本申请实施例中的航拍图像识别方法就是识别变化态图像相对于其对应的原始态图像，是否存在违章建筑物。在本申请实施例中，违章建筑物指的是在特点的坐标区域内违规存在的各种建筑物（包括楼房、瓦房和建筑棚等），本申请实施例中的航拍图像识别方法需要将建筑楼层拆除、建筑推平和建筑用地复绿等非违章建筑的情况排除。

302、依次通过CNN骨干模块，双时态图像转换模块以及预测头模块对所述违建识别图像组进行处理；

CNN骨干模块（CNN Backbone），该模块使用ResNet的部分作为Backbone，对输入的原始态图像和变化态图像进行特征提取，得到两个特征图。

双时态图像转换模块（Bitemporal Image Transformer），该模块利用空间注意将两个不同时间特征图转换为一组紧凑的语义标签，再使用transformer编码器（转换编码器）在两个标签集中对全局信息进行建模，生成的含有全局信息丰富的标签由连体transformer解码器（转换解码器）重新投影到像素空间，以增强原始像素级特征。

预测头模块（Prediction Head），该模块先计算两个细化后的特征图（即，第一全局标签和第二全局标签）的特征差分，再绝对值化，再用全卷积网络(Fully ConvolutionalNetworks，FCN)进行融合，生成预测的变化概率图。

具体地，在本申请实施例中，处理违建识别图像组的神经网络可以参考图1和图2，此处不再赘述。

303、通过分类模块对所述预测头模块的输出进行处理，得到违建识别图像组的识别结果。

所述识别结果包括变化态图像相对于与其配对的原始态图像是否存在违建情况。

本申请实施例中的航拍图像识别网络的主要架构为Transformer网络，相对于传统的卷积神经网络，Transformer网络可以有效地提取图像中的全局信息，因此，本申请实施例中的航拍图像识别网络先通过CNN骨干模块提取图像的线、角、边等局部信息，再通过双时态图像转换模块提前图像中的全局信息。本申请实施例通过双时态图像转换模块将双时态图像中相关的时空间信息关联起来，形成能够体现图像语义信息的全局标签，结合全局标签再比对局部信息的差异，能够有效地识别图像差异部分是否为违章建筑。比如，地表的植被变化或池塘的水域面积变化，在局部信息的差异比对中，变化态图像相较于原始态图像确实发生了变化，但是这不属于违章建筑，若结合了图像的全局信息，就能够结合全局相关联的图像信息（地域、以及该地域对应的土地属性或土地用途），预测出变化区域为植被的四季变化或水域干枯变化，有效地排除这些非违章建筑的变化干扰，能够充分的提取航拍图像的图像特征，提高了违章建筑识别的准确率。

实施例二

请参阅图4，本申请实施例中航拍图像识别网络的训练方法，包括：

401、接收作为训练数据的违建识别图像组；

402、针对于所述违建识别图像组，执行以下前向传播操作；

——4021、通过所述CNN骨干模块从所述违建识别图像组中分别提取得到原始态特征图和变化态特征图。

——4022、分别通过第一语义标记器和第二语义标记器对所述原始态特征图和变化态特征图进行特征提取，得到第一语义标签和第二语义标签。

——4023、将所述第一语义标签和第二语义标签连接后输入所述转换编码器中进行建模，得到含有全局信息的语义标签。

——4024、将所述含有全局信息的语义标签分割为第一全局标签和第二全局标签，并使用所述第一转换解码器和第二转换解码器分别对所述第一全局标签和第二全局标签进行解码。

——4025、将解码后的第一全局标签和第二全局标签相加，融合全局标签。

403、通过所述融合全局标签对航拍图像进行违建识别，得到训练结果；

实施例三

由于原始态图像是作为后续多个时间段比较是否发生变化的基准图形，因此，前期拍摄原始态图像的时候的精确度会更高。而作为后续多个时间分别需要判断是否发生变化的变化态图像（即，变化态图像会经常被采集和比对，而原始态图像一般仅采集一次），因此，为了提高图像采集的效率，通常的图像精度（即，图像分辨率）会比原始态图像低，而不同分辨率的两个图形要形成违建识别图像组，就是涉及的图像对齐的问题，本申请实施例提供了相应的解决方案。请参阅图5，本申请实施例的航拍图像识别网络的训练方法中图像处理方法的一个实施例包括：

501、获取一张尺寸与变化态图像尺寸相同的纯色图像；

在实际应用中，图像可能由不同的传感器和不同的飞行高度获取，因此需要进行校正和配准以消除图像之间的差异。在校正和配准过程中，可以使用地面控制点和同名点等方法来匹配图像，并调整图像的大小、方向和位置，以使图像对齐。并且，为了提高图像采集的效率，通常的图像精度会比原始态图像低，而不同分辨率的两个图形要形成违建识别图像组，也同样会涉及到图像对齐的问题。

在前期拍摄原始态图像时，由于原始态图像是作为后续比对的基准，因此，原始态图像的分辨率较高，而后续需要进行违建核查的频次较高，无法做到像原始态图像那样精细拍摄，往往是提升拍摄高度，使得拍摄得到的一张变化态图像涵盖多个违章评估区域。

举例说明：如图6所示，图中显示的是一张变化态图像（假设其图像尺寸为9cm×9cm，分辨率为1920×1080），该变化态图像涵盖9个违章评估区域（即，拍摄一次图像可以进行9个违章评估区域的比对）。假设本次需要比对的违章评估区域为图中左下角的矩形区域，则根据该违章评估区域的坐标信息，在数据库中提取与之对应的原始态图像（如图7所示，假设该原始态图像的图像尺寸为9cm×9cm，分辨率为4096×2160），虽然原始态图像和变化态图像的图像尺寸同为9cm×9cm，但是，原始态图像所显示的图像信息仅为变化态图像中左下角的矩形区域对应的内容，因此，需要将两者显示相同图像信息的区域进行对齐，在本申请实施例步骤501中，先获取一张图像尺寸同为9cm×9cm的纯色图像。

502、将原始态图像缩放至与变化态图像中相同地理坐标区域的尺寸一致；

继续以上述例子进行说明，图像尺寸为9cm×9cm的原始态图像对应的是图像尺寸为9cm×9cm的变化态图像中左下角3cm×3cm区域的图像，因此，需要先将9cm×9cm的原始态图像缩放至3cm×3cm的大小。

需要说明的是，在本申请实施例中，图像尺寸指的是图像的物理尺寸，而图像分辨率指的是图像所包含的像素点个数，在步骤502中缩放的是图像尺寸。

503、根据所述地理坐标区域将缩放后的原始态图像嵌入至纯色图像的目标区域，得到嵌入原始图像；

所述目标区域为指的是原始态图像的地理坐标在变化态图像中对应位置的相对区域。

继续以上述例子进行说明，请参阅图6，原始态图像在变化态图像中的对应区域为9宫格图像中的左下角区域，请参阅图8，则的原始态图像所需要嵌入的目标区域为纯色图像中9宫格的左下角区域。如图8所示，原始态图像的图像尺寸缩放至3cm×3cm之后，嵌入了纯色图像中9宫格的左下角区域，得到嵌入原始图像。

504、将嵌入原始图像和变化态图像进行对齐；

由于嵌入原始图像的框架为9cm×9cm的纯色图像，而原始态图像也通过缩放后嵌入了纯色图像中9宫格的左下角区域，嵌入原始图像的违章评估区域与变化态图像中的相对区域一致，因此，嵌入原始图像和变化态图像完成了对齐。

505、分别对所述嵌入原始图像和所述变化态图像进行图像分割；

分别对所述嵌入原始图像和所述变化态图像进行图像分割，分别得到尺寸相等的N*N个第一图像块和N*N个第二图像块，所述第一图像块为所述嵌入原始图像分割得到的图像块，所述第二图像块为所述变化态图像分割得到的图像块，所述N为大于1的整数。

继续以上述例子进行说明，本申请实施例中的N为3，图像分割之后得到如图6中变化态图像和如图8中嵌入原始图像的状态。

506、分别对所述第一图像块和所述第二图像块进行掩膜编码，使得每个图像块都得到一个掩码；

继续以上述例子进行说明，掩膜编码后的3*3第一图像块和3*3第二图像块请参阅图9和图10。

在本申请实施例中，将变化态图像中的所有区域都设置为“1”（即，有效区域），可以有效的利用全局信息（即，目标的违建评估区域的周边地理环境）进行辅助的语义理解，能够增强网络对于图像有变化但非违章建筑物的理解能力。而对于嵌入原始图像，仅对违建评估区域的区域都设置为“1”，意味着仅比对违建评估区域的图像变化情况，嵌入原始图像中设置为“0”的图像块不会对识别结果产生干扰。

507、将违建识别图像组输入至航拍图像识别网络。

将所述N*N个第一图像块转换为一维序列的第一图像块，将所述N*N个第二图像块转换为一维序列的第二图像块，将转换为一维序列的第一图像块和一维序列的第二图像块中掩码一致的图像块，导入至航拍图像识别网络中进行训练。

具体的，违建识别图像组在进入CNN骨干模块之前，可以通过嵌入模块对输入的N*N图像块进行扁平面片的线性投影（Linear Projection of Flattened）处理，即，将N*N个第一图像块转换为一维序列的第一图像块，以及将N*N个第二图像块转换为一维序列的第二图像块。嵌入模块由patch embedding（图像块嵌入部分）与position embedding（位置嵌入部分）构成，patch embedding指的是通过线性投影的方式提取图像块中的信息。Position embedding是一个可学习的参数，用来学习对应patch（图像块）在图片中所处的位置。

在本申请实施例中，使用一张“大图”（即，包括多个违章评估区域）作为多个原始态图像（一张原始态图像对应一个违章评估区域）对应的变化态图像，如图6所示的变化态图像（共涵盖9个违章评估区域），可以与9个原始态图像配对作为违建识别图像组进行违建识别，可以大大的降低违建识别时变化态样本图像的采集数量；并且，由于变化态图像包括有多个违章评估区域的图像特征信息，能够增强网络对多种地域特征或对象的语义理解，增强了网络对于图像有变化但非违章建筑物的识别能力。

实施例四

在本申请实施例中，航拍图像识别网络的样本库制作技术流程涉及多个步骤，包括数据收集、预处理、标注、样本划分等。以下是具体的技术流程：

一、数据收集和准备

1. 收集航拍图像数据，将初期拍摄的高分辨率图像作为原始态图像，将后期拍摄的需要识别是否出现违建情况的图像作为变化态图像，确保图像数据中地理坐标的准确性。

2. 检查图像是否存在大面积模糊、形变、过曝/欠爆等问题，若有，则去除相关的低质图像，确保收集到的图像数据质量相对较高。

3. 收集基于现有的建筑物动态管理项目的矢量变化图斑提取成果，检查地理坐标、投影信息和属性信息。

二、数据预处理

1. 对图像进行校正，包括去除畸变、校正尺度和方向。图像可能由不同的传感器和不同的飞行高度获取，因此需要进行校正和配准以消除图像之间的差异。在校正和配准过程中，可以使用地面控制点和同名点等方法来匹配图像，并调整图像的大小、方向和位置。

2. 在图像获取和传输的过程中，受传感器质量、环境条件、飞行姿态等等原因可能会产生一些噪声，这些噪声会影响深度学习模型的检测结果。可以有针对性地对图像进行去噪。去噪可以使用低通滤波、中值滤波等方法来平滑图像，去除噪声。

3. 对图像数据进行重采样，将双时态图像按照感兴趣范围裁切到相同的尺寸，以确保后续进行双时态图像样本裁切时保持范围一致。

三、变化标注

变化标注是变化监测任务中的重要一环，需要确保标注的一致性和准确性。在进行模型训练前，需要由应用场景出发确定标签的粒度和类别。目前确定选用的是像素级别的二分类（变化/无变化）分割标注。同时也可以根据任务需要进行进一步细化，在有变化的标注，通过不同的标注图形，标注不同类型的变化，如建筑物新增、拆除灭减、堆填土、推土、道路变动、植被变化及水体变化等。

1. 变化标注勾勒的标准

在基于深度学习的高分辨率航拍图像变化监测任务中，变化标注勾勒的标准至关重要，以确保标注的一致性和数据质量。以下是深度学习变化监测任务标注勾勒的标准：

(1)清晰的变化类型定义：确定要监测的变化类型，如二分类则为变化、未变化两种变化类型，如多分类则每个变化类型都应该有明确的定义，如新增建筑、拆除、道路扩建等，以便标注者能够一致地识别和标注。

(2)精确定位：标注需要准确地勾勒出变化区域的边界，尤其是在高分辨率图像上，以便确保深度学习模型能够准确识别和区分变化区域和非变化区域的轮廓边缘。

(3)遮挡和模糊处理：考虑到航拍图像可能存在遮挡和模糊情况，需要有标准的方式来处理这些情况，如变化的建筑物存在遮挡情况仍然可以选择进行标注，将遮挡也作为建筑变化的一部分，如果是模型这是正射图像在飞行和制作上的问题，需要将在标注属性上记录为异常或去除该标注。

(4)变化程度标注：在一些情况下，变化可能是渐进的，需要标注变化的程度或细分变化的性质，例如从轻微到显著的变化程度，以建筑物变化为例，可以有新增建筑物、拆除建筑物、建筑物改建、建筑物扩建、建筑物减少规模、建筑物外部变化、建筑物改变高度等。

(5)一致性检查：进行标注者之间的一致性检查，对标注数据进行质量控制，以确保不同标注者之间的标注结果一致性高。

2. 变化标注实操注意事项

由于现有的建筑物动态管理项目的矢量变化图斑提取成果的勾勒标准与深度学习变化标注所要求的标准不完全一致，因而矢量提取成果需要逐个进行检查，对其比对结果（包括图形和属性）进行适当的增删改查以符合深度学习模型样本库的制作标准。

四、样本导出

进行数据预处理和数据标注后，便可根据深度学习变化标注导出裁剪前后时相图像及标签制作深度学习样本。在超大图像上提取深度学习变化图像样本的一般思路是首先将标注数据转换为二值图像，确保该二值图像与前后时相图像具有一致的范围、分辨率和尺寸；然后在二值图像标签上按固定切片大小和步幅进行分割，逐个提取有变化的切片并记录切片所在位置；最后在前后时相图像同样位置按一致的切片大小进行提取。由于超大图像的加载、复制、生成、操作等等运算容易导致内存不足的问题，需要采用分批次加载或利用流式处理技术来有效管理内存。

五、数据增强

使用数据增强技术，如随机裁剪、旋转、翻转等，生成更多的训练样本，增加模型的泛化能力。它在深度学习中具有重要的必要性和好处，特别是在数据有限的情况下。

六、类别平衡

在基于深度学习的高分辨率航拍图像变化监测模型样本库制作过程中保持类别平衡是非常重要的。类别平衡指的是训练数据中不同类别的样本数量大致相等。但在现实世界中不同类别的变化往往是不均衡的。因此，需要先确定属于违建情况的多种违建类别，然后分别针对每一种违建类别的样本图像进行增删，使得训练数据中属于不同违建类别的样本数量一致。为了处理样本库制作过程中的类别不平衡的问题，可以在数据标注和样本准备阶段进行处理：

1. 欠采样：减少数量较多的类别样本，使其与数量较少的类别样本数量接近。这可能会损失部分信息，但有助于平衡类别分布。

2. 过采样：复制或生成数量较少的类别样本，使其数量接近数量较多的类别样本。这可能会引入过拟合风险，但有助于增加数量较少类别的样本数量。

3. 数据增强：对少数类别样本进行数据增强，以增加样本的多样性。这可以包括旋转、翻转、缩放等操作。

保持类别平衡有助于防止模型出现偏斜，即对某些类别的预测效果较好，而对其他类别的预测效果较差。通过平衡的数据标注、样本准备和数据增强，从而为深度学习模型提供更好的训练数据，提高模型的泛化能力和性能。

在完成样本库构建之后，使用深度学习框架（如TensorFlow、PyTorch）搭建变化检测模型，使用训练集和验证集进行模型训练和调优，使用测试集对训练好的模型进行评估，计并根据评估结果，对模型进行优化和调整，最后将训练好的模型部署到实际应用环境中进行变化监测。

随着新的数据可用和任务需求变化，持续更新模型和样本库，确保模型的性能和准确性。

整个流程需要考虑数据质量、标注的准确性、样本的多样性以及模型的训练和优化等因素，以构建一个长期持续有效且可靠的基于深度学习的高分辨率航拍图像变化监测模型样本库。

实施例五

与前述应用功能实现方法实施例相对应，本申请还提供了用于对航拍图像进行违建识别的设备及相应的实施例。

图11是本申请实施例示出的用于对航拍图像进行违建识别的设备的结构示意图。参见图11，用于对航拍图像进行违建识别的设备包括：存储器1110和处理器1120。

处理器1120可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器1110可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器1120或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1110可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器1110可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1110上存储有可执行代码，用于执行上述方法实施例中基于深度学习的航拍图像识别方法，当可执行代码被处理器1120处理时，可以使处理器1120执行上文述及的方法中的部分或全部。

实施例六

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子装置(或服务器等)的处理器执行时，使所述处理器执行根据本申请的上述方法的各个步骤的部分或全部。

本领域技术人员还将明白的是，结合这里的申请所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本申请的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于深度学习的航拍图像识别方法，其特征在于，通过航拍图像识别网络对目标图像进行违建识别，所述航拍图像识别网络包括：CNN骨干模块，双时态图像转换模块以及预测头模块；

所述识别方法包括：

通过分类模块对所述预测头模块的输出进行处理，得到违建识别图像组的识别结果，所述识别结果包括变化态图像相对于与其配对的原始态图像是否存在违建情况；

所述双时态图像转换模块包括：第一语义标记器，第二语义标记器，转换编码器，第一转换解码器和第二转换解码器；

其中，所述第一语义标记器和第二语义标记器的输出端与转换编码器连接，所述转换编码器的输出端分别与第一转换解码器和第二转换解码器连接；

所述航拍图像识别网络的训练方法，包括：

接收作为训练数据的违建识别图像组；

针对于所述违建识别图像组，执行以下前向传播操作；

根据多个训练结果来获得损失函数，并利用所述损失函数来执行针对所述航拍图像识别网络的反向传播操作。

2.根据权利要求1所述的基于深度学习的航拍图像识别方法，其特征在于，将违建识别图像组输入至航拍图像识别网络之前，包括：

获取一张尺寸与变化态图像尺寸相同的纯色图像；

将原始态图像缩放至与变化态图像中相同地理坐标区域的尺寸一致；

将嵌入原始图像和变化态图像进行对齐。

3.根据权利要求2所述的基于深度学习的航拍图像识别方法，其特征在于，所述将嵌入原始图像和变化态图像进行对齐之后，还包括：

4.根据权利要求3所述的基于深度学习的航拍图像识别方法，其特征在于，将违建识别图像组输入至航拍图像识别网络，包括：

将所述N*N个第一图像块转换为一维序列的第一图像块；

将所述N*N个第二图像块转换为一维序列的第二图像块；

5.根据权利要求1所述的基于深度学习的航拍图像识别方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的基于深度学习的航拍图像识别方法，其特征在于，

所述低质图像去除包括：去除形变图像，去除模糊图像，以及去除过曝/欠爆图像；

7.一种用于对航拍图像进行违建识别的设备，其特征在于，包括：

处理器；以及

存储器，其存储有用于对航拍图像进行违建识别的程序指令，当所述程序指令由所述处理器执行时，使得所述设备实现根据权利要求1至6任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，存储有用于对航拍图像进行违建识别的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现如权利要求1至6任一项所述的方法。