CN109344774A

CN109344774A - 遥感影像中的火力发电站目标识别方法

Info

Publication number: CN109344774A
Application number: CN201811167136.6A
Authority: CN
Inventors: 韩文军; 刘海波; 张济勇; 孙小虎; 刘首文; 李晓军; 张苏; 张亚平; 于高; 陈颖; 蒲洁; 赵雨; 戴艳; 姚春静
Original assignee: Wuhan University WHU; State Grid Hubei Electric Power Co Ltd; State Grid Economic and Technological Research Institute
Current assignee: Wuhan University WHU; State Grid Hubei Electric Power Co Ltd; State Grid Economic and Technological Research Institute
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2019-02-15

Abstract

本发明给出一种遥感影像中的火力发电站目标识别方法，包括：根据目标大小，设定anchor尺寸，预测相关类别的候选区域；根据设定的面积比率和尺度比率计算由步骤一设定anchor计算将生成的所有区域框，并根据区域框与标注框的重叠比例划分正负样本并进行训练；构建深度卷积神经网络特征提取器；构建基于目标特征的特征提取器；将提取的特征进行组合，作为生成框的最终描述特征；根据最终描述特征的结果进行目标候选框的定位精处理，得到遥感图像电力基础设施目标识别结果。本发明利用多源光学影像与雷达影像相结合的方式不仅大大降低了成本，且操作方便，大大提高了工作效率。而对于植被的影响，通过植被指数来筛选非植被覆盖的地区进行专题信息的提取。

Description

遥感影像中的火力发电站目标识别方法

技术领域

本发明涉及目标自动识别技术领域，特别是涉及一种针对遥感影像中火力发电站的自动识别方法。

背景技术

建设智能电网是全球能源互联网的要求，火力发电作为一种电力能源来源，因此建设智能电网首先需要获取全球范围的已有火力发电站及相关专题目标的空间信息。随着高光谱、高空间、高时间分辨率遥感技术的发展，极大提高了遥感地理信息获取的准确性和精确性，有效缩小了空间数据误差，使得获取高精度火力发电站空间信息成为可能。因此，在遥感影像中实现火力发电站的自动识别对建设智能电网具有重要意义。

传统的遥感图像目标检测方法一般分为三个步骤：一是区域搜索，二是特征提取，三是分类器判定。目前大多数目标识别研究主要综合考虑目标的光谱特征、几何结构特征、纹理特征、空间拓扑特征等，使得各类目标的提取结果更接近目视解译。由于形状、纹理、光谱、结构等特征是大部分地面目标的关键区分性特征，大部分遥感图像目标识别方法都以这三种特征为基础进行综合分析。随着深度学习的发展，深度卷积神经网络强大的特征提取能力在图像分类、目标识别等领域发挥了巨大的潜力，目前有研究将其用在遥感影像飞机、道路、建筑物等目标提取方面，并已取得很好的效果。

得益于深度学习——主要是卷积神经网络(convolution neural network: CNN)和候选区域(region proposal)算法，从2014年开始，目标检测取得了巨大的突破。

传统目标检测的方法一般分为三个阶段：首先在给定的图像上选择一些候选的区域，然后对这些区域提取特征，最后使用训练的分类器进行分类。

1)区域选择

这一步是为了对目标的位置进行定位。由于目标可能出现在图像的任何位置，而且目标的大小、长宽比例也不确定，所以最初采用滑动窗口的策略对整幅图像进行遍历，而且需要设置不同的尺度，不同的长宽比。这种穷举的策略虽然包含了目标所有可能出现的位置，但是缺点也是显而易见的：时间复杂度太高，产生冗余窗口太多，这也严重影响后续特征提取和分类的速度和性能。(实际上由于受到时间复杂度的问题，滑动窗口的长宽比一般都是固定的设置几个，所以对于长宽比浮动较大的多类别目标检测，即便是滑动窗口遍历也不能得到很好的区域)

2)特征提取

由于目标的形态多样性，光照变化多样性，背景多样性等因素使得设计一个鲁棒的特征并不是那么容易。然而提取特征的好坏直接影响到分类的准确性(这个阶段常用的特征有SIFT、HOG等)。

3)分类器

主要有SVM,Adaboost等。

传统目标检测存在的两个主要问题：一个是基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。

对于滑动窗口存在的问题，region proposal提供了很好的解决方案。 regionproposal(候选区域)是预先找出图中目标可能出现的位置。但由于 region proposal利用了图像中的纹理、边缘、颜色等信息，可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率。这大大降低了后续操作的时间复杂度，并且获取的候选窗口要比滑动窗口的质量更高(滑动窗口固定长宽比)。有了候选区域，剩下的工作实际就是对候选区域进行图像分类的工作(特征提取+分类)。

R-CNN的目标检测流程：

(1)输入测试图像

(2)利用selective search算法在图像中提取2000个左右的region proposal。

(3)将每个region proposal缩放(warp)成227x227的大小并输入到 CNN，将CNN的fc7层的输出作为特征。

(4)将每个region proposal提取到的CNN特征输入到SVM进行分类。

但是R-CNN框架也存在着很多问题:

(1)训练分为多个阶段，步骤繁琐:微调网络+训练SVM+训练边框回归器

(2)训练耗时，占用磁盘空间大：5000张图像产生几百G的特征文件

(3)速度慢:使用GPU,VGG16模型处理一张图像需要47s。

与R-CNN框架对比，Fast R-CNN主要有两处不同：一是最后一个卷积层后加了一个ROI pooling layer，二是损失函数使用了多任务损失函数 (multi-task loss)，将边框回归直接加入到CNN网络中训练。

(1)ROI pooling layer实际上是SPP-NET的一个精简版，SPP-NET对每个proposal使用了不同大小的金字塔映射，而ROI pooling layer只需要下采样到一个7x7的特征图。对于VGG16网络conv5_3有512个特征图，这样所有region proposal对应了一个7*7*512维度的特征向量作为全连接层的输入。

(2)R-CNN训练过程分为了三个阶段，而Fast R-CNN直接使用softmax替代SVM分类，同时利用多任务损失函数边框回归也加入到了网络中，这样整个的训练过程是端到端的(除去region proposal提取阶段)。

(3)Fast R-CNN在网络微调的过程中，将部分卷积层也进行了微调，取得了更好的检测效果。

Fast R-CNN融合了R-CNN和SPP-NET的精髓，并且引入多任务损失函数，使整个网络的训练和测试变得十分方便。在Pascal VOC2007训练集上训练，在VOC2007测试的结果为66.9％(mAP)，如果使用VOC2007+2012训练集训练，在VOC2007上测试结果为70％(数据集的扩充能大幅提高目标检测性能)。使用VGG16每张图像总共需要3s左右。

发明内容

针对目前暂无成熟的火力发电站自动识别技术，本发明基于火力发电站专业知识和深度卷积神经网络方法，提供一种基于专业知识和深度特征的遥感影像中火力发电站的识别方法，该方法能够从复杂遥感影像中较快较好的识别出各类火力发电站。

本发明提供的一种遥感影像中的火力发电站目标识别方法，包括：

步骤一、根据目标大小，设定anchor尺寸，预测相关类别的候选区域；

步骤二、根据设定的面积比率和尺度比率计算由步骤一设定anchor计算将生成的所有区域框，并根据区域框与标注框的重叠比例划分正负样本并进行训练；

步骤三、构建深度卷积神经网络特征提取器；

步骤四、构建基于目标特征的特征提取器；

步骤五、将步骤三和步骤四中提取的特征进行组合，作为生成框的最终描述特征；

步骤六、根据步骤五所得结果进行目标候选框的定位精处理，得到遥感图像电力基础设施目标识别结果。

优选的，上述目标为火力发电站，上述步骤二通过训练生成RPN网络。

优选的，上述步骤三提取所有的区域框和标注框的自身特征和内部特征的学习和提取，组合得到融合描述特征。

优选的，上述步骤四针对带有冷凝塔的火力发电站，以冷凝塔为主要目标特征，包括水汽特征、上下文背景特征、火力发电站与变电站和输电塔的逻辑关系特征等。

优选的，上述目标特征包括：带有冷凝塔的火力发电站在遥感图像上呈百色雾状；以水作为冷却剂的火力发电站建在具有丰富水资源的地区；火力发电站不远范围内有变电站和一定数量的输电塔。

优选的，上述步骤五利用最终描述特征，基于softmax函数进行多分类，得到目标候选框的类别属性和属于这个类别的概率，Softmax函数将输出的特征映射到(0,1)区间内。

优选的，上述步骤三设计模型，利用模型提取影像的特征，得到特征图，并将该特征图应用于步骤一和步骤二中，得到的特征维度N＝2048。

优选的，上述anchor为：[4,8,16,32]，再根据anchor尺寸在特征图中提取目标候选框。

优选的，上述步骤六通过以下步骤来实现：

步骤6.1、利用非极大值抑制解决候选框冗余的问题，包括从得分最高的框开始，依次和剩下的所有框进行比较，将重叠面积与得分最高的框的面积之比超过预设比值B的框舍弃，得到一组筛选后的框，然后依次进行同样处理，直到遍历完成，得到两两之间重叠面积都小于预设比值B的框的集合；

步骤6.2、进行回归处理，首先将框与框之间有交集的分到一组，分组之后对每组分别进行框回归计算，回归后的框的坐标由以下公式给出，

式中，该组内有n个窗口，a_k表示第k个窗口被判定为目标的得分概率，和分别表示第k个窗口在图像中的左上点坐标和右下角坐标，通过计算回归之后的左上角点和右下角点得到每一个目标所对应的目标候选框，作为目标的最终位置信息。

本发明基于深度卷积神经网络的特征自学习能力和火力发电站的专业知识，提供了一种专业知识和深度特征的遥感影像中火力发电站的自动识别方法，分为六个过程：候选框生成、正负样本划分并训练生成RPN网络、深度特征提取、基于专业知识的特征提取、分类器分类及候选框优化处理。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明提供的遥感影像中的火力发电站目标识别方法的流程示意图；

图2示出了本发明实施例采用的FasterRcnn目标检测策略示意图；

图3示出了本发明实施例目标候选框回归处理示意图；

图4示出了本发明实施基于专业知识和深度特征的遥感影像中火力发电站的自动识别效果图，图4(a)是区域候选框示意图，图4(b)是目标框示意图，图4(c)是非极大值抑制结果图，图4(d)是目标检测结果效果图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

随着神经网络，尤其是深度卷积神经网络的进一步发展，其较强的特征自学习能力和检测效果逐渐崭露头角。卷积神经网络将特征抽取与分类相结合，目前已经广泛应用于语音识别、图像处理、自然语言处理等众多领域，本发明利用深度卷积神经网络作为特征提取器，联合softmax分类函数对图像类别进行判定，在进行框回归算法后能够准确的从遥感图像中识别各类火力发电站。

针对SPP-NET、Faster R-CNN等算法的缺点，RPN(Region Proposal Networks)网络应运而生。

RPN的核心思想是使用卷积神经网络直接产生region proposal，使用的方法本质上就是滑动窗口。RPN的设计比较巧妙，RPN只需在最后的卷积层上滑动一遍，因为anchor机制和边框回归可以得到多尺度多长宽比的 region proposal。RPN的核心思想是使用卷积神经网络直接产生region proposal，使用的方法本质上就是滑动窗口。RPN的设计比较巧妙，RPN 只需在最后的卷积层上滑动一遍，因为anchor机制和边框回归可以得到多尺度多长宽比的region proposal。

给定输入图像(假设分辨率为600*1000)，经过卷积操作得到最后一层的卷积特征图(大小约为40*60)。在这个特征图上使用3*3的卷积核 (滑动窗口)与特征图进行卷积，最后一层卷积层共有256个feature map，那么这个3*3的区域卷积后可以获得一个256维的特征向量，后边接cls layer和reg layer分别用于分类和边框回归(跟Fast R-CNN类似，只不过这里的类别只有目标和背景两个类别)。3*3滑窗对应的每个特征区域同时预测输入图像3种尺度(128,256,512)，3种长宽比(1:1,1:2,2:1) 的region proposal，这种映射的机制称为anchor。所以对于这个40*60的 feature map，总共有约20000(40*60*9)个anchor，也就是预测20000个 region proposal。

采用了滑动窗口策略，滑动窗口操作是在卷积层特征图上进行的，维度较原始图像降低了16*16倍(中间经过了4次2*2的pooling操作)；多尺度采用了9种anchor，对应了三种尺度和三种长宽比，加上后边接了边框回归，所以即便是这9种anchor外的窗口也能得到一个跟目标比较接近的region proposal。

本实施例提供一种遥感影像中的火力发电站目标识别方法，首先，根据不同火力发电站的目标大小，设定anchor尺寸，利用区域生成网络来预测相关类别的候选区域，并按设定的面积比率和尺度比率计算由步骤1设定anchor计算将生成的所有区域框，并根据区域框与标注框的重叠比例划分正负样本；接着利用预先设计好的深度卷积网络对目标候选框窗口区域进行多尺度的影像特征提取，并提取各类火力发电站其特有特征，例如上下文特征、背景特征、直线特征等；然后将上述特征进行融合，并利用 softmax函数进行类别判定，输出候选框的最终类别标签，最后利用非极大值抑制和框回归算法对类别判定为机场区域的目标候选框进行定位精处理，得到各类基础电力设施目标的最终位置。

实施例流程如图1所示，具体包括以下的步骤：

1)根据不同火力发电站的目标大小，设定anchor尺寸，考虑到在0.5 米至1米分辨率的遥感影像中各类火力发电站的目标尺寸，设定anchor 为：[4,8,16,32]，再根据anchor尺寸在特征图中提取目标候选框。

2)将特征图上的带有anchor尺度的窗口映射回原图并根据该窗口在原图中与真实地物框(标签)的重叠面积比例给划分正负样本，训练得到 RPN网络。

3)构建深度卷积神经网络特征提取器，提取所有的区域框和标注框的自身特征和内部特征的学习和提取，组合得到融合描述特征；本发明基于深度残差神经网络(ResNet)模型，ResNet模型克服了在神经网络加深时出现的梯度消失等现象，它通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络则只需要学习输入、输出差别的那一部分，简化学习目标和难度。

模型设计好后，利用模型提取影像的特征，得到特征图，并将该特征图应用于步骤1)和步骤2)中。此处得到的特征维度N＝2048。

4)构建基于火力发电站专业知识的特征提取器，针对带有冷凝塔的火力发电站，以冷凝塔为主要特征，并考虑水汽特征、上下文背景特征、火力发电站与变电站和输电塔的逻辑关系特征等。一般来说，带有冷凝塔的火力发电站，冷凝塔上端常有水汽，在遥感图像上呈百色雾状；以水作为冷却剂的火力发电站常建在具有丰富水资源的地区；而且火力发电站不远范围内常有变电站和一定数量的输电塔；这些都是火力发电站的专业知识特征。

5)特征融合及目标候选框的类别判定。

实施例中所用的训练数据和测试数据来自谷歌地图数据和天地图数据，分辨率在0.5米至1米左右。融合步骤3)和步骤4)中提取的影响特征，并利用softmax函数进行多分类。

softmax函数可以解决多分类的问题，假设softmax函数的输入数据是C维度的向量z，那么softmax函数的数据也是一个C维度的向量y，里面的值是0到1之间。softmax函数其实就是一个归一化的指数函数，定义如下，其中I＝1…c：

作为神经网络的输出层，softmax函数中的值可以用C个神经元来表示。对于给定的输入z，可以得到每个分类的概率，可以表示为：

6)目标候选框的定位精处理。由于步骤1)、2)所得的目标候选框并不能够精确表达各类目标的大小、范围，因此需要在最后进行候选框的回归精处理操作。主要包括两部分：

第一步利用非极大值抑制解决候选框冗余的问题，具体方法是从得分最高的框开始，依次和剩下的所有框进行比较，将重叠面积与得分最高的框的面积之比超过预设比值B(可自行预设，优选地采用0.7)的框舍弃，得到一组筛选后的框，然后用同样的方法对剩下的框进行非极大值操作，包括从得分最高的第二个框开始，依次和剩下的所有框进行比较，将重叠面积与得分最高的框的面积之比超过B的框舍弃，依次根据得分排列取得分最高的第三个框…直到遍历到集合中倒数第二个框，与最后一个框比较后停止。最后得到两两之间重叠面积都小于B的框的集合。

第二步是框回归算法，去掉冗余的框之后，往往还存在多个框对应一个目标的问题，因此要对多个框进行回归处理，首先将框与框之间有交集的分到一组，分组之后对每组分别进行框回归计算，回归后的框的坐标由以下公式给出，

式中，该组内有n个窗口(框)，a_k表示第k个窗口被判定为火电站得分概率，和分别表示第k个窗口在图像中的左上角点坐标和右下角点坐标，通过计算回归之后的左上角点和右下角点得到每一个目标所对应的目标候选框，即目标的最终位置信息。

以图3例，图中共有六个窗口，先根据相交情况分为两组，第一组框的得分为0.9，0.8，0.7，第二组框的得分为0.9，0.9，0.7，然后对每一组分别计算回归后的以为例，表示第一组框通过回归计算得到的第一个框的左上角坐标，表示第二组框通过回归计算得到的第二个框的左上角坐标。

以图4为例，按步骤说明实际的实施例如何实现。

(1)在图4(a)中，根据给出的目标锚尺寸[4，8，16，32]，在原始图像中的像素大小对应为[64，128，256，512]。在最后一层卷积层输出的特征图中，对特征图的每个像素点生成1:2，1:1，2:1的目标区域框；

(2)利用构建的深度卷积网络计算目标区域框的深度特征，此处特征的维度为2048，确定目标框类别的置信度为0.6；融合目标专业知识特征，辅助目标深度特征进行目标框判别，输出目标框判定为冷凝塔的目标框，如图4(b)所示；

(3)对图4(b)中的候选框做非极大值抑制，此处做非极大值抑制的参数为0.3，如图4(c)所示；

(4)最后对4(c)图中的目标框做框回归，得到最后的检测结果，如图4(d)。

与现有技术相比，本发明利用多源光学影像与雷达影像相结合的方式不仅大大降低了成本，且操作方便，大大提高了工作效率。而对于植被的影响，通过植被指数来晒选非植被覆盖的地区进行专题信息的提取。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种遥感影像中的火力发电站目标识别方法，其特征在于，所述方法包括：

步骤三、构建深度卷积神经网络特征提取器；

步骤四、构建基于目标特征的特征提取器；

步骤六、根据步骤五的结果进行目标候选框的定位精处理，得到遥感图像电力基础设施目标识别结果。

2.根据权利要求1所述的遥感影像中的火力发电站目标识别方法，其特征在于，所述目标为火力发电站，所述步骤二通过训练生成RPN网络。

3.根据权利要求1所述的遥感影像中的火力发电站目标识别方法，其特征在于，所述步骤三提取所有的区域框和标注框的自身特征和内部特征的学习和提取，组合得到融合描述特征。

4.根据权利要求1所述的遥感影像中的火力发电站目标识别方法，其特征在于，所述步骤四针对带有冷凝塔的火力发电站，以冷凝塔为主要目标特征，包括水汽特征、上下文背景特征、火力发电站与变电站和输电塔的逻辑关系特征等。

5.根据权利要求2或4所述的遥感影像中的火力发电站目标识别方法，其特征在于，所述目标特征包括：带有冷凝塔的火力发电站在遥感图像上呈百色雾状；以水作为冷却剂的火力发电站建在具有丰富水资源的地区；火力发电站不远范围内有变电站和一定数量的输电塔。

6.根据权利要求1所述的遥感影像中的火力发电站目标识别方法，其特征在于，所述步骤五利用最终描述特征，基于softmax函数进行多分类，得到目标候选框的类别属性和属于这个类别的概率，Softmax函数将输出的特征映射到(0,1)区间内。

7.根据权利要求1所述的遥感影像中的火力发电站目标识别方法，其特征在于，所述步骤三设计模型，利用模型提取影像的特征，得到特征图，并将该特征图应用于步骤一和步骤二中，得到的特征维度N＝2048。

8.根据权利要求1-7之一所述的遥感影像中的火力发电站目标识别方法，其特征在于，所述anchor为：[4,8,16,32]，再根据anchor尺寸在特征图中提取目标候选框。

9.根据权利要求1所述的遥感影像中的火力发电站目标识别方法，其特征在于，所述步骤六通过以下步骤来实现：