CN111860615A

CN111860615A - 一种基于特征词典融合的遥感水体目标提取方法

Info

Publication number: CN111860615A
Application number: CN202010617680.7A
Authority: CN
Inventors: 王鑫; 徐明君; 吕国芳; 石爱业
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-30

Abstract

本发明公开了一种基于特征词典融合的遥感水体目标提取方法。首先，构建遥感水陆场景图像数据训练集，对训练集图像网格化为预设大小的特征提取单位并分别提取局部二值模式(Local Binary Patterns，LBP)特征和频谱特征；接着，对LBP特征集和频谱特征集分别进行K‑means聚类，得到基于LBP特征的聚类结果和基于频谱特征的聚类结果，构建基于LBP和频谱特征的融合词典；然后，将训练集图像采用融合词典向量化表示，构成训练特征向量集；最后，输入待识别遥感水陆场景测试图像，根据融合词典将图像分块向量化并分类，统计分类结果，得到遥感水陆场景图像水体提取结果。

Description

一种基于特征词典融合的遥感水体目标提取方法

技术领域

本发明涉及一种基于特征词典融合的遥感水体目标提取方法，属于图像处理领域。

背景技术

水资源是人类生存必不可少的重要资源，实时、准确地获取水体信息对水资源的有效管理和合理利用有着重大意义。由于水资源时空分布不均，且具有流动性，人工检测很难实时有效地获取信息。随着遥感技术的飞速发展，通过遥感影像提取地表水体信息不仅监测范围广，而且具有实时性的优势。

遥感技术经过多年的发展,所采集得到的遥感影像的空间分辨率向亚米级逐步提高。高空间分辨率遥感图像的产生，使得水体信息的提取有了更便利、更详细的数据来源。目前，基于高分辨率遥感影像进行水体提取的方法有很多。

公开号CN107506769A一种城市水体信息的提取方法及系统，首先，对卫星拍摄的城市的遥感图像进行数据预处理，得到预处理后的图像；然后，根据预设分割参数对预处理后的图像进行图像分割，得到具有特征组的均值图像；接着，对均值图像进行光谱特征分析，得到典型地物光谱曲线图，该曲线图包括建筑物、水体和阴影等典型地物在各波段的光谱曲线；最后，根据特征组提取出典型地物光谱曲线提取图中的水体信息。该发明主要在利用地物光谱特征的基础上对水体区域进行提取，达到了一定的提取精度，但存在不足：算法需要预设分割参数，对于不同场景下的含水体信息图像的参数需要重新设置，且特征组包含光谱、拓扑、形状和长宽比等特征，特征提取和标记过程复杂、耗时。

公开号CN105809140A一种基于遥感模型的地表水体信息的提取方法及其装置，首先，通过设置阈值对预处理后的遥感数据进行二值化处理；然后，对处理后的二值化遥感数据进行地表水体信息提取。基于阈值的分割方法算法结构简单，对于灰度分布差异大的图像具有较好的分割效果，但对于具有单峰或宽谷直方图特点的图像的分割效果较差。

综上，现有的遥感影像水体提取方法，存在的局限性主要表现在：

(1)传统的遥感影像水体提取方法大都采用光谱信息进行遥感图像水体的提取。近年来，随着遥感影像空间分辨率的不断提升，地表物体的纹理等细节也被清晰地展现出来，避免了单一利用光谱特征方法经常出现的“同物异谱，同谱异物”现象。因此，除了光谱特征，利用纹理特征进行水体的提取也成为近年研究的主要方向。

(2)基于阈值的分割方法算法结构简单，对于灰度分布差异大的图像具有较好的分割效果，但对于具有单峰或宽谷直方图特点的图像的分割效果较差。

发明内容

发明目的：针对现有技术中存在的问题，本发明公开了基于特征词典融合的遥感水体目标提取方法，根据特征融合词典对各图像块进行向量化，相比于传统的特征分类器，融合后的词典对图像的表现力更强，提高了分类精度，增加了水体提取的准确度。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于特征词典融合的遥感水体目标提取方法，包含构建词典阶段、训练阶段和测试阶段，

所述构建词典阶段包括以下步骤：

(1)构建遥感水陆场景图像数据训练集Trains，训练集图像为带标签的水体和非水体图像；

(2)针对构建的遥感水陆场景图像训练集，将其网格化为预设大小的特征提取单位；

(3)对训练集图像网格化后的特征提取单位集合分别提取局部二值模式(LocalBinary Patterns，LBP)特征和频谱特征；

(4)对步骤(3)中提取的局部二值模式特征集和频谱特征集分别进行K-means聚类，分别得到基于局部二值模式特征的聚类结果和基于频谱特征的聚类结果；

(5)基于步骤(4)中的聚类结果，将每一类的聚类中心看作构成词典的单词，基于局部二值模式特征的聚类中心集合构成LBP单词组，基于频谱特征的聚类中心集合构成频谱单词组，两个单词组的并集即为特征融合词典；

所述训练阶段包括以下步骤：

(6)针对训练集中的图像，以预设大小的特征提取单位网格化提取LBP和频谱特征，计算图像所有网格的特征与步骤(5)中对应单词组各单词的距离，使用距离最近的单词描述此网格，得到描述图像的单词集合；

(7)根据步骤(6)中得到的单词集合中各单词出现的频次，图像可表示为一个与词典中各单词相对应的词频向量；

(8)将训练集中所有图像按照步骤(6)和步骤(7)向量化，得到训练数据集；

所述测试阶段包括以下步骤：

(9)针对未经分割的整体遥感水陆场景测试图像，分割得到图像块后，同步骤(6)和步骤(7)，根据融合词典将图像块向量化；

(10)根据步骤(8)中构建的训练数据集及其类别标签，输入的图像块类别与训练数据集中距其最近的样本类别一致，将所有图像块的分类结果合并即为测试图像的水体提取结果。

进一步的，步骤(1)中的，构建遥感水陆场景图像数据训练集方法如下：

(1.1)构建遥感水陆场景图像数据集Image＝[Image₁,…,Image_i,…,Image_n]，其中，n表示有n张遥感水陆场景图像，Image_i表示第i个遥感水陆场景图像；

(1.2)将数据集分为训练集部分Train和测试集部分Test，针对数据集中遥感影像，从中随机抽取m张图像构建训练集，其余n-m张图像构建测试集，则有：Train＝[Train₁,…,Train_i,…,Train_m]，Test＝[Test₁,…,Test_i,…,Test_n-m]，其中，Train_i表示第i个遥感影像训练图像，Test_i表示第i个遥感影像测试图像；

(1.3)给定一幅训练图像Train_i，设其大小为W×H，对其进行不重叠分块，设分为N张图像，每张图像大小均为w×h，对每张图像制作类别标签，即若该区域一半以上为水体区域，则其标签l_i＝1；反之，则其标签l_i＝0，构成带标签的训练图像集Trains。

进一步的，步骤(2)中的，针对输入的遥感水陆场景训练集图像，将其网格化为预设大小的特征提取单位方法如下：对步骤(1.3)中构建的训练集Trains中的N张图像进行网格化不重叠分区，设每张图像分为C个区域，每块区域大小均为s×s，其为最小特征提取单位，则集合patch_train共有N×C个单位图像，设p_i表示第i个单位图像区域。

进一步的，步骤(3)中的，对每张训练集图像以预设大小的特征提取单位分别提取LBP特征和频谱特征的方法如下：

(3.1)对步骤(2)中的patch_train，提取其中每个p_i的LBP特征，得到patch_train的LBP特征集合feature_LBP，LBP是一种用来描述图像局部特征的算子，具有灰度不变性，设c为区域p_i中的某一点，则该点的LBP值为：

其中，i为点c邻域的第i个像素点，g_i为该像素点的灰度值，g_c为点c的灰度值；S(·)表示符号函数：

对区域p_i中的所有点按照上述方式计算LBP值，然后将它们整合为一个256维的向量，该向量即表示区域p_i的LBP特征向量；

(3.2)对步骤(2)中的patch_train，提取其中每个p_i的频谱特征，得到patch_train的频谱特征集feature_SF，构建频谱特征方法如下：对p_i图像进行二维傅里叶变换得到频谱图，频谱图以中心为原点径向采样，频谱图有中心对称的特性，采样角度选为0°，90°，将两个角度的采样数据串联得到频谱的向量表示。

进一步的，步骤(4)中，基于LBP特征的聚类结果和基于频谱特征的聚类方法如下：

(4.1)对步骤(3.1)得到的特征集feature_LBP进行聚类，随机选定K₁个初始聚类中心，计算每个特征与各个初始聚类中心之间的距离，把每个特征分配给距离它最近的聚类中心，分配完成后重新计算聚类中心直至收敛，得到K₁个聚类中心集合Center_K₁；

(4.2)对步骤(3.2)得到的特征集feature_SF进行聚类，随机选定K₂个初始聚类中心，计算每个特征与各个聚类中心之间的距离，把每个特征分配给距离它最近的聚类中心，分配完成后重新计算聚类中心直至收敛，得到K₂个聚类中心集合Center_K₂。

进一步的，步骤(5)中的，构建基于LBP和频谱的特征融合词典的方法如下：

(5.1)根据步骤(4.1)中得到的聚类结果，将每一类的聚类中心看作构成词典的单词，则Center_K₁构成基于局部二值模式特征的LBP单词组

(5.2)根据步骤(4.2)中得到的聚类结果，将每一类的聚类中心看作构成词典的单词，则Center_K₂构成基于频谱特征的频谱单词组

(5.3)步骤(5.1)和(5.2)中的Words_LBP和Words_SF的并集构成特征融合词典

进一步的，根据特征融合词典得到描述图像的单词集合的方法如下：

(6.1)设图片Trains_i是训练集Trains中第i张图像，其大小为w×h，对其进行网格化不重叠分区，分为C个网格区域，每块区域大小均为s×s；

(6.2)对步骤(6.1)中得到的C个网格区域提取其LBP特征，并计算与步骤(5.1)中Words_LBP中各个单词的距离，通过最近的单词的类别属性来描述其LBP特征；

(6.3)对步骤(6.1)中得到的C个网格区域提取其频谱特征，并计算与步骤(5.2)中Words_SF中各个单词的距离，选择最近的单词的类别属性描述此网格区域的频谱特征；

(6.4)根据步骤(6.3)和步骤(6.4)，图像可用C×2个单词进行描述；

(6.5)根据步骤(6.4)中描述图像的单词集合，对应步骤(5.3)中的特征融合词典

根据单词集合中各单词出现的频次，图像可表示为一个与词典中各单词相对应的词频向量。

进一步的，步骤(8)中的，构建训练数据集的方法如下：对训练集Trains中的N张图像根据步骤(6)和步骤(7)均根据特征融合词典表示为向量，构成训练数据集trains_feature。

进一步的，步骤(9)中的针对输入的遥感水陆场景测试集图像，分块根据融合词典将图像块向量化的方法如下：

(9.1)给定一幅测试图像Test_i，设其大小为W×H，对其进行不重叠分块，每张图像大小均为w×h；

(9.2)对步骤(9.1)中每个图像块，根据步骤(6)和步骤(7)，将其向量化表示。

进一步的，步骤(10)中的，将图像块向量进行分类的方法如下：针对步骤(9.2)中每一个区域的向量表示，通过遍历训练数据集trains_feature，得到测试图像各区域向量与训练集各向量的欧氏距离，对其由小到大排序，测试区域与距其最近的训练集向量所在类别一致，将分类结果合并即为测试图像的水体提取结果。

有益效果：与现有技术相比，本发明采用上述技术方具有以下有益效果：

(1)采用LBP特征和频谱特征分别从空间域和时域对水体进行特征提取，融合后的词典特征表现力强，对水体识别效果佳；

(2)构建词典有效对特征进行降维，在保证精度的同时提高水体提取的效率。

附图说明

图1是本发明的结构框图；

图2是构建特征融合词典的流程图；

图3是实验结果示例图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

如图1、图2所示，本发明的技术方案进一步的详细描述如下：

(1)构建遥感水陆场景图像数据训练集Trains；

(1.1)构建遥感水陆场景图像数据集Image＝[Image₁,…,Image_i,…,Image_n]，其中n表示有n张遥感水陆场景图像，取n＝100，Image_i表示第i个遥感水陆场景图像；

(1.2)将数据集分为训练集部分Train和测试集部分Test，针对数据集中遥感影像，从中随机抽取10张图像构建训练集，其余90张图像构建测试集。则有：Train＝[Train₁,…,Train_i,…,Train_m]，Test＝[Test₁,…,Test_i,…,Test_n-m]。其中，Train_i表示第i个遥感影像训练图像。Test_i表示第i个遥感影像测试图像。

(1.3)给定一幅训练图像Train_i，设其大小为4096×4096，对其进行不重叠分块，分为4096张图像(每张图像大小均为64×64)，对每张图像制作类别标签，即若该区域一半以上为水体区域，则其标签l_i＝1；反之，则其标签l_i＝0，构成带标签的训练图像集Trains。

(2)针对输入的遥感水陆场景训练集图像，将其网格化为预设大小的特征提取单位；

对步骤(1.3)中构建的训练集Trains中的4096张图像进行网格化不重叠分区，设每张图像分为16个区域(每块区域大小均为16×16，为预设的特征提取单位)，则集合patch_train共有65536个单位图像，设p_i表示第i个单位图像区域；

(3)每张训练集图像以预设大小的特征提取单位分别提取局部二值模式(LocalBinary Patterns，LBP)特征和频谱特征；

(3.1)对步骤(2)中的patch_train，提取其中每个p_i的LBP特征，得到patch_train的特征集feature_LBP。LBP是一种用来描述图像局部特征的算子，具有灰度不变性。设c为区域p_i中的某一点，则该点的LBP值为：

其中，i为点c邻域的第i个像素点，g_i为该像素点的灰度值。g_c为点c的灰度值。S(·)表示符号函数：

对区域p_i中的所有点按照上述方式计算LBP值，然后将它们整合为一个256维的向量，该向量即表示区域p_i的LBP特征向量

(3.2)对步骤(2)中的patch_train，提取其中每个p_i的频谱特征，得到patch_train的频谱特征集feature_SF。图像的频率是表征图像中灰度变化剧烈程度的指标，是灰度在平面空间上的梯度。图像二维频谱图通过对输入图像进行水平和竖直两个方向的所有扫描线的一维傅立叶变换进行叠加得到,用来表示输入图像的频率分布。频谱图以图像的中心为圆心,圆的相位对应原图中频率分量的相位,半径对应频率高低。低频半径小,高频半径大,中心为直流分量,某点的灰度值对应该频率的能量高低。水体内部的遥感图像,水体亮度响应值低，频谱图中的直流分量处为一亮点,而其他区域较暗。说明水体区域能量分布主要集中于直流分量附近，非水体区域的能量在非直流分量处明显高于水体区域。构建频谱特征向量的方法如下：

对p_i图像进行二维傅里叶变换得到频谱图，频谱图以中心为原点径向采样，频谱图有中心对称的特性，采样角度选为0°，90°，将两个角度的采样数据串联得到频谱的向量表示。区域大小均为16×16的频谱特征维数为14维。

(4)对步骤(3)中提取的全部LBP特征集和频谱特征集分别进行K-means聚类，分别得到基于LBP特征的聚类结果和基于频谱特征的聚类结果；

(4.1)对步骤(3.1)得到的特征集feature_LBP进行聚类，随机选定K₁＝4个初始聚类中心，计算每个特征与各个聚类中心之间的距离，把每个特征分配给距离它最近的聚类中心，分配完成后重新计算聚类中心直至收敛，得到4个聚类中心集合Center_K₁；

(4.2)对步骤(3.2)得到的特征集feature_SF进行聚类，随机选定K₂＝4个初始聚类中心，计算每个特征与各个聚类中心之间的距离，把每个特征分配给距离它最近的聚类中心，分配完成后重新计算聚类中心直至收敛，得到4个聚类中心集合Center_K₂。

(5)以步骤(4)中的聚类结果构成词典的单词，构建基于LBP和频谱的特征融合词典；

(5.1)根据步骤(4.1)中得到的聚类结果，将每一类的聚类中心看作构成词典的单词，则Center_K₁构成基于局部二值模式特征的LBP单词组Words_LBP＝[word₁,word₂,word₃,word₄]；

(5.2)根据步骤(4.2)中得到的聚类结果，将每一类的聚类中心看作构成词典的单词，则Center_K₂构成基于频谱特征的频谱单词组Words_SF＝[word₁,word₂,word₃,word₄]；

(5.3)步骤(5.1)和(5.2)中的Words_LBP和Words_SF的并集构成特征融合词典Words＝[word₁,word₂,word₃,word₄,word₅,word₆,word₇,word₈]。

(6.1)设图片Trains_i是训练集Trains中第i张图像，其大小为64×64，对其进行网格化不重叠分区，分为16个网格区域，每块区域大小均为16×16；

(6.2)对步骤(6.1)中得到的16个网格区域提取其LBP特征，并计算与步骤(5.1)中Words_LBP中各个单词的距离，选择最近的单词描述此网格区域的LBP特征；

(6.3)对步骤(6.1)中得到的16个网格区域提取其频谱特征，并计算与步骤(5.2)中Words_SF中各个单词的距离，选择最近的单词描述此网格区域的频谱特征；

(6.4)根据步骤(6.3)和步骤(6.4)，图像可用32个单词进行描述。

根据步骤(6.4)中描述图像的单词集合，对应步骤(5.3)中的特征融合词典Words＝[word₁,word₂,word₃,word₄,word₅,word₆,word₇,word₈]，根据单词集合中各单词出现的频次，图像可表示为一个与词典中各单词相对应的8维词频向量。

(8)将训练集中所有图像按照步骤(6)和步骤(7)向量化，得到训练数据集。

(9)针对输入的遥感水陆场景测试集图像，分块根据融合词典将图像块向量化；

(9.1)给定一幅训练图像Test_i，设其大小为4096×4096，对其进行不重叠分块，每张图像大小均为64×64；

(9.2)对步骤(9.1)中每个图像块，根据步骤(6)和步骤(7)，将其向量化表示；

针对步骤(9.2)中每一个区域的向量表示，通过遍历训练数据集trains_feature，得到测试图像各区域向量与训练集各向量的欧氏距离，对其由小到大排序，测试区域与距其最近的训练集向量所在类别一致，将分类结果合并即为测试图像的水体提取结果。

结合仿真条件与结果对本发明做进一步的描述：

1)仿真条件

本次实验是在PC机(Intel Core,主频1.6GH_Z，内存8GB)中，Matlab2016a编程环境中对谷歌卫星影像进行实验，实验精度评价标准为labelme标注的遥感分割结果。

2)仿真内容与结果分析

如图3所示，(a1)(b1)(c1)为待识别的遥感水陆场景图像，(a2)(b2)(c2)为水体识别结果。通过实例给出，采用本发明提出的一种基于特征词典融合的遥感水体目标提取方法，能够有效识别遥感图像中的水体部分。本发明方法中，图像的特征被当作词典中的单词，有效得将图像向量化，有助于大规模的图像检索。

从实验结果来看，本发明的一种基于特征词典融合的遥感水体目标提取方法，水体提取准确率高，对大小在特征提取单位以上的细小水体漏检率低。LBP特征表现水体的纹理特性，频谱特征表现出水体的频域能量分布特性，将两者采用词典融合后，特征表现力强，对水体识别效果佳。其次，构建词典有效对特征进行降维，在保证精度的同时提高水体提取的效率。

此外，通过单特征构建词典的方法与提出的方法进行比较，进一步说明词典融合的有效性：

表1是三种方法在谷歌卫星影像上的性能比较。结果表明，本发明提出的方法对遥感图像水体提取效果最优。

表1三种方法分类准确率比较

Claims

1.一种基于特征词典融合的遥感水体目标提取方法，包含构建词典阶段、训练阶段和测试阶段，其特征在于：

所述构建词典阶段包括以下步骤：

所述训练阶段包括以下步骤：

所述测试阶段包括以下步骤：

2.根据权利要求1的一种基于特征词典融合的遥感水体目标提取方法，其特征在于，步骤(1)中的，构建遥感水陆场景图像数据训练集方法如下：

3.根据权利要求2的一种基于特征词典融合的遥感水体目标提取方法，其特征在于，步骤(2)中的，针对输入的遥感水陆场景训练集图像，将其网格化为预设大小的特征提取单位方法如下：对步骤(1.3)中构建的训练集Trains中的N张图像进行网格化不重叠分区，设每张图像分为C个区域，每块区域大小均为s×s，其为最小特征提取单位，则集合patch_train共有N×C个单位图像，设p_i表示第i个单位图像区域。

4.根据权利要求3的一种基于特征词典融合的遥感水体目标提取方法，其特征在于，步骤(3)中的，对每张训练集图像以预设大小的特征提取单位分别提取LBP特征和频谱特征的方法如下：

5.根据权利要求4的基于特征词典融合的遥感水体目标提取方法，其特征在于，步骤(4)中的，基于LBP特征的聚类结果和基于频谱特征的聚类方法如下：

6.根据权利要求5的一种基于特征词典融合的遥感水体目标提取方法，其特征在于，步骤(5)中的，构建基于LBP和频谱的特征融合词典的方法如下：

7.根据权利要求6的一种基于特征词典融合的遥感水体目标提取方法，步骤(6)中的，根据特征融合词典得到描述图像的单词集合的方法如下：

(6.4)根据步骤(6.3)和步骤(6.4)，图像可用C×2个单词进行描述；

8.根据权利要求7的一种基于特征词典融合的遥感水体目标提取方法，其特征在于，步骤(8)中的，构建训练数据集的方法如下：对训练集Trains中的N张图像根据步骤(6)和步骤(7)均根据特征融合词典表示为向量，构成训练数据集trains_feature。

9.根据权利要求8的一种基于特征词典融合的遥感水体目标提取方法，其特征在于，步骤(9)中的针对输入的遥感水陆场景测试集图像，分块根据融合词典将图像块向量化的方法如下：

10.根据权利要求9的一种基于特征词典融合的遥感水体目标提取方法，其特征在于，步骤(10)中的，将图像块向量进行分类的方法如下：针对步骤(9.2)中每一个区域的向量表示，通过遍历训练数据集trains_feature，得到测试图像各区域向量与训练集各向量的欧氏距离，对其由小到大排序，测试区域与距其最近的训练集向量所在类别一致，将分类结果合并即为测试图像的水体提取结果。