CN106919680B

CN106919680B - 一种利用poi数据进行地表覆盖分类的方法及系统

Info

Publication number: CN106919680B
Application number: CN201710112356.8A
Authority: CN
Inventors: 邢汉发; 侯东阳; 孟媛; 曹芳洁; 徐海滨; 宋颉; 樊凯旋
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2019-06-28
Anticipated expiration: 2037-02-28
Also published as: CN106919680A

Abstract

本发明公开了一种利用POI数据进行地表覆盖分类的方法及系统；获取POI数据集，将POI数据集作为地表覆盖分类数据；利用获取的POI数据集构建文档，将文档输入潜在狄利克雷LDA主题模型，进行POI文本主题计算；输出文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ；基于POI文本主题的地表覆盖分类，应用支持向量机SVM算法，构建地表覆盖分类模型；将文档中主题Z的分布概率Θ输入到构建的地表覆盖分类模型中，得到地表覆盖分类结果；基于所得地表覆盖分类结果，以随机抽样的方式从基于遥感影像的地表覆盖分类数据抽取采样点作为参考数据，利用混淆矩阵，对基于POI的地表覆盖分类结果进行精度验证。

Description

一种利用POI数据进行地表覆盖分类的方法及系统

技术领域

本发明属于地表覆盖分类技术领域，尤其涉及一种利用POI数据进行地表覆盖分类的方法及系统。

背景技术

地表覆盖及变化数据是环境变化研究、地理国情监测和可持续发展规划等的重要科学数据，其分类与制图一直是国内外研究的热点。目前主要采用遥感影像分类制图方式，其是由专业人员通过分析遥感影像中的光谱和纹理信息，结合专家先验知识和各种参考资料，提取地表覆盖类型和分布信息。该方法受遥感影像获取和分类技术的影响，具有生产周期长，成本高，自动化程度低等不足，导致其难以满足地表覆盖产品快速制图的需求。为减少制图成本，满足用户对地表覆盖产品日益变化的应用需求，需要发展一种新的地表覆盖分类方法。

近年来，随着地理时空大数据的应用与发展，很多学者已经在尝试将带地理标签的图片、轨迹、兴趣点(Point of Interest，POI)等众源数据应用于地表覆盖和土地利用的分类。“Antoniou,Vyron,et al."Investigating the feasibility of geo-taggedphotographs as sources of land cover input data."ISPRS International Journalof Geo-Information 5.5(2016):64.”分析论述了Panoramio、Flickr、Geograph三种图片数据源应用于地表覆盖分类中的可行性；“See,Linda,et al."Building a hybrid landcover map with crowdsourcing and geographically weighted regression."ISPRSJournal of Photogrammetry and Remote Sensing 103(2015):48-56.”应用Geo-Wiki中的地理标记信息，通过志愿者对其所在地区的地表覆盖类型进行人工判断，实现中等分辨率地表覆盖的分类与制图；“鲁国珍,常晓猛,李清泉,等.基于人类时空活动的城市土地利用分类研究[J].地球信息科学学报,2015,17(12):1497-1505.”通过分析QQ用户的时空轨迹，构建人类时空活动指数，建立人类活动与土地利用分类的关系；“Hu,Tengyun,et al."Mapping urban land use by using Landsat images and open social data."RemoteSensing 8.2(2016):151.”依据POI数据的空间分布，采用核密度估计算法，进行商业、住宅等城市区域的划分。

上述研究所应用到的图片数据需要人工解译，耗时耗力，而POI和轨迹数据的空间分布也无法直接反映地表覆盖类型。而且，他们都忽略了这些数据中的文本信息与地表覆盖分类语义的关联，诸如POI文本中“餐馆”、“高尔夫球场”、“海滨浴场”，分别对应了地表覆盖中的人造地表、草地和水体。因此，本发明提出了一种纯粹利用POI文本语义的地表覆盖分类方法。

发明内容

本发明提供了一种利用POI数据进行地表覆盖分类的方法及系统，由于POI数据中的文本信息与地表覆盖分类语义具有一定的关联，诸如POI文本中“餐馆”、“高尔夫球场”、“海滨浴场”，分别对应了地表覆盖中的人造地表、草地和水体，故可作为地表覆盖的分类数据。然而，不同POI数据间没有统一的分类标准，且某些POI类型诸如“未知分类”、“旅游景点”和“娱乐场所”等无法直接用于地表覆盖类型的判断。

为解决上述问题，本发明提出了：

一种利用POI数据进行地表覆盖分类的方法，包括如下步骤：

步骤A：获取POI数据集，将POI数据集作为地表覆盖分类数据；POI数据集包括：POI类型与表示空间位置的坐标信息；

步骤B：利用步骤A所获取的POI数据集构建文档，将文档输入到潜在狄利克雷LDA(Latent Dirichlet Allocation)主题模型，进行POI文本主题计算；输出文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ；

步骤C：基于POI文本主题的地表覆盖分类，应用支持向量机SVM(Support VectorMachine)算法，构建地表覆盖分类模型；将文档中主题Z的分布概率Θ输入到构建的地表覆盖分类模型中，得到地表覆盖分类结果；

步骤D：基于步骤C所得地表覆盖分类结果，以随机抽样的方式从基于遥感影像的地表覆盖分类数据抽取采样点作为参考数据，利用混淆矩阵，对基于POI的地表覆盖分类结果进行精度验证。

所述POI数据集包括：新浪微博POI数据集、百度地图POI数据集和高德地图POI数据集。

所述步骤B包括：

步骤B1：构建用于LDA主题模型输入的文档：将研究区划分为1000m*1000m分辨率的栅格单元，将步骤A所获取的POI数据集空间叠加到栅格单元中，将所有落入同一个栅格单元的POI文本词语W作为一个文档d；

步骤B2：将文档d输入到LDA主题模型，利用LDA主题模型对POI的文本主题及分布进行计算，输出文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ。

所述LDA主题模型以文档作为输入变量，并假定文档是由设定分布概率下主题Z与词语W决定的，主题Z由词语W构成；Θ是文档中主题Z的分布概率，φ是主题中词语W的分布概率；超参数α和β为LDA主题模型的输入参数，影响主题分布概率Θ和词语分布概率φ；M为文档的数量，N为每篇文档中词语W的个数，K为计算输出主题的数量，K为LDA主题模型的输入参数。

文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ，计算公式如下：

式中，n_i表示第k个主题Z下第i个POI文本词语W的个数，n_k表示第k个主题K中POI文本词语W的个数，V为POI数据集中所有POI文本词语W的数量。

LDA主题模型中超参数α、β与主题数K决定了分布概率Θ和φ。

α、β的取值人为设定，主题数K依据POI类型设定。

为确定符合地表覆盖分类的主题数K，引入用于衡量文本混合度的指标perplexity，计算不同主题数K下主题Z的归类情况，perplexity计算公式如下：

式中，D_test为测试数据集，w_d为文档中的词语，N_d则为文档的大小。perplexity值代表文档属于某个主题的可信度，Perplexity的值越小，表示计算结果中主题的可信度越高。

确定模型参数α、β、K后，得到文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ，其矩阵构建如下：

其中，POI文本词语W的分布概率φ反映了主题归类的可信度，文档中主题Z的分布概率Θ反映了地表覆盖类型的分布，文档中主题Z的分布概率Θ用于地表覆盖自动分类。

所述地表覆盖分类模型构建过程如下：

通过构建空间超平面公式(4)实现样本点的正确分类：

A·Θ+b＝0 (4)；

其中，A和b分别为构成超平面的参数,Θ为由LDA模型计算所得文档中主题Z的分布概率Θ。随后，定义文档中主题Z的分布概率Θ距离超平面公式(4)的间隔r：

其中，A^T为参数A的转置；

约束条件：

y_i[A·Θ+b]-1≥0,i＝1,2,....M (6)；

其中，y_i为分类的类型，y_i∈{-1,+1}，-1和+1代表两种不同的分类类型，i表示第i个文档d，M为文档总数。

利用间隔r与约束条件，求得超平面参数A和b的值，并构建地表覆盖分类模型f(Θ)：

f(Θ)＝sgn(AΘ+b) (7)；

其中，sgn为符号函数，当A·Θ+b＝0时，f(Θ)＝0，当A·Θ+b＞0时，f(Θ)＞0，当A·Θ+b＜0，f(Θ)＜0。

SVM算法中最重要的因素为gamma、cost的取值与核函数的选择。

选用sigmoid作为核函数，应用网格搜索算法遍历选取gamma和cost的最优值。网格搜索算法遍历所有文档并计算不同参数下的分类模型精度，得到地表覆盖分类精度最高时的参数取值。

通过每个主题中POI文本词语W的分布概率φ得到POI类型的归类结果；通过归类结果反映LDA主题模型对POI类型分类的合理性。

基于遥感影像的地表覆盖分类以目视解译为基础，分类精度较高，故可作为参考数据。

一种利用POI数据进行地表覆盖分类的系统，包括：

POI数据集获取单元，将POI数据集为地表覆盖分类数据；POI数据集包括：POI类型与表示空间位置的坐标信息；

文档主题分布概率的计算单元，利用所获取的POI数据集构建文档，将文档输入潜在狄利克雷LDA(Latent Dirichlet Allocation)主题模型，进行POI文本主题计算；输出文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ；

地表覆盖分类单元，基于POI文本主题的地表覆盖分类，应用支持向量机SVM(Support Vector Machine)算法，构建地表覆盖分类模型；将文档中主题Z的分布概率Θ输入到构建的地表覆盖分类模型中，得到地表覆盖分类结果；

精度验证单元：基于地表覆盖分类单元所得地表覆盖分类结果，以随机抽样的方式从基于遥感影像的地表覆盖分类数据抽取采样点作为参考数据，利用混淆矩阵，对基于POI的地表覆盖分类结果进行精度验证。

本发明提出了一种基于POI数据的地表覆盖分类方法，采用潜在狄利克雷模型(Latent Dirichlet Allocation，LDA)，计算文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ；继而，以分布概率φ为分类指标，通过支持向量机(SupportVector Machine，SVM)算法，构建基于POI的地表覆盖分类模型；最后，以基于遥感影像的地表覆盖分类为标准，进行分类精度验证。

附图说明

图1为LDA主题模型为示意图；

图2(a)-图2(d)为部分区域POI数据集分布示意图；

图3为不同主题数k下的perplexity值示意图；

图4(a)-图4(f)为部分区域地表覆盖分类与遥感影像对比结果示意图；

图5为本发明的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

为了对本发明的技术特征、目的和效果有更加清楚的理解，现以北京地区的POI数据集为例，对照附图说明本发明的具体实施方式。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明所提出的一种基于POI数据的地表覆盖分类方法，如图5所示，所述方法用于基于POI的地表覆盖分类；所述地表覆盖分类方法包括基于LDA的POI文本主题计算方法和基于POI文本主题的地表覆盖分类方法；所述方法包括如下步骤：

A、基于POI数据的地表覆盖分类方法以新浪微博POI数据集、百度地图POI数据集、高德地图POI数据集为地表覆盖分类数据，作为地表覆盖的分类依据；POI数据集中包含了描述POI类型的文本信息与表示空间位置的坐标信息。

本专利以北京市为研究区域，实验数据集采用928类1903658个POI，如表1所示：POI数据源为新浪微博、百度、高德，POI数量以高德居多，除位置信息外，三种POI共有的文本属性有类型与地址。考虑到POI地址中的文本信息多为道路名称，无法反映地表覆盖信息，本文将POI类型作为用于主题分析的文本数据。

表1 POI数据源及其属性

将POI数据与遥感影像叠加后发现，大部分POI落于人造地表中，而少量的数据落入森林、耕地、水体等非人造地表，图2(a)区域为城市，POI分布密集，文本语义中大多为商业、住宅等反映人造地表类型的主题。图2(b)区域为森林，POI分布稀疏，文本语义多与风景区、休闲娱乐相关；图2(c)区域为散落分布的耕地与村庄，POI分布相对较少，POI类型主要反映了乡镇、村庄等主题；图2(d)区域靠近水体，POI多沿着水体集中分布，文本与水域和休闲度假相关。由于反映人造地表的POI相对较多，而反映森林、耕地与水体的POI数据较少，且POI文本语义在人造地表与非人造地表之间有明显区分，故将地表覆盖类型分为人造地表与非人造地表。

B、基于LDA的POI文本主题计算，利用步骤A所获取的POI数据集，引入潜在狄利克雷(Latent Dirichlet Allocation，LDA)主题模型(如图1所示)，进行POI文本主题计算；

a.构建用于模型输入的文档。考虑到距离相近的POI可能包含相同或相似的文本，将研究区划分为1000m*1000m分辨率的栅格单元，将所有落入同一个栅格单元的POI文本词语W作为一个文档d；

利用POI的位置信息和文本信息，将1903658个POI构建成11916个用于主题模型输入的文档。

b.为了将POI文本按照相似主题进行归类，并计算出归类后的POI文本的主题分布，本文选用LDA模型对POI的文本主题及分布进行计算。LDA模型以文档作为输入变量，并假定文档是由一定分布概率下主题Z与词语W决定的，词语W由主题Z构成；Θ和φ决定了文档中主题Z的分布概率和主题中词语W的分布概率；超参数α和β为模型输入参数，影响了主题分布概率Θ和词语分布概率φ；M为文档的数量，N为每篇文档中词语W的个数，K为计算输出主题的数量，为模型输入参数。计算文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ，其计算公式如下：

式中，n_i表示第k个主题Z下第i个POI文本词语W的个数,n_k表示第k个主题K中POI文本词语W的个数，V为POI数据集中所有POI文本词语W的数量。

LDA主题模型中超参数α、β与主题数K决定了分布概率Θ和φ。α、β的取值可根据现有模型的优化参数确定，主题数K需依据POI文本数据而定。为确定符合地表覆盖分类的合适的主题数，引入用于衡量文本混合度的指标perplexity，计算不同主题数K下主题Z的归类情况，Perplexity计算公式如下：

式中，D_test为测试数据集，w_d为文档中的词语，n_d则为文档的大小。Perplexity值代表了文档属于某个主题的不确定性，Perplexity的值越小，表示计算结果中主题的可信度越高。

其中，POI文本词语W的分布概率φ反映了主题归类的可信度，文档中主题Z的分布概率Θ反映了地表覆盖类型的分布，用于地表覆盖自动分类。

实验采用perplexity指标对POI文本主题分布进行计算，旨在确定POI文本的主题数K：首先，将M个文档划分为80％的实验数据和20％的测试数据，利用80％的实验数据，分别计算K∈{2,20,40,60,80,100}时文本的主题分布；继而，在现有主题分布的基础上，计算20％的测试数据下的perplexity值。

实验结果如图3所示：perplexity值呈一条逐渐平稳的下滑曲线，随着主题数K的增加，perplexity值不断减小，且减小速度不断下降。当k＝20时，perplexity值约为20000，并在k增加至40时骤降为约15000，当k≥60时，perplexity值的下降速度明显变缓，说明随着主题数的不断增加，POI文本主题的可信度逐渐升高。考虑到k的取值过大使得POI文档的主题数过多，导致地表覆盖分类特征冗余，故选取主题数k的值为60。

为验证K＝60时POI主题归类的可信度，实验选取了60个主题中部分主题的POI类型分布。如表2所示：同一个主题中分布概率较高的POI往往具有相同或相似的类型。例如，主题3内分布概率较高的POI类型为“住宅区”、“房地产”、“住宅小区”等，都反映了居民住宅相关主题；主题14中“休闲场所”、“农家院”、“度假村”等POI类型，反映了户外休闲娱乐相关主题；主题46中“采摘园”、“垂钓园”、“其他农林牧副渔基地”等POI类型反映了农林牧渔相关主题。

表2 POI类型部分主题分布

C、包含POI文本词语W的主题Z侧面反映了地表覆盖的类型，文档中主题Z的分布反映了地表覆盖类型的分布。基于POI文本主题的地表覆盖分类，依据文档中POI文本语义相似的主题的分布，应用支持向量机(Support Vector Machine，SVM)算法，构建地表覆盖分类模型。

SVM算法构建如下：

通过构建空间超平面实现样本点的正确分类：

g(w)＝A(W)+b (4)

其中，A和b分别为构成超平面的参数。随后，定义输入的词语分布W距离这一超平面的间隔：

θ＝y_i(a·w_i+b) (5)

并在此基础上添加约束条件：

y_i[(a·w_i)+b]-1≥0,i＝1,2,....n (6)

由此求得超平面参数A和b的值，构建地表覆盖分类器：

f(w)＝sgn{(a^*·w)+b^*} (7)

SVM算法中最重要的因素为gamma，cost的取值与核函数的选择。本文选用sigmoid作为核函数，应用网格搜索算法遍历选取gamma和cost的最优值。网格搜索算法遍历所有文档并计算不同参数下的分类模型精度，得到地表覆盖分类精度最高时的参数取值。

在构建地表覆盖分类模型时，考虑到地表覆盖中混合地类的存在，分类样本的选择尽量避免包含多种地表覆盖类型的POI文档。选取1064个文档，其中700个为训练样本，364个为测试样本，并人工标注每个文档的地表覆盖类型。

依据POI文本主题在文档中分布概率的不同，利用SVM算法，构建地表覆盖分类模型，得到的分类精度如表3所示：在700个训练样本中，353个非人造地表与283个人造地表被正确分类，62个人造地表被分为非人造地表，2个非人造地表被分为人造地表，分类精度为90.86％。在364个测试样本中，分别有204个非人造地表和120个人造地表被正确分类，38个人造地表被分为非人造地表，2个非人造地表被分为人造地表，分类精度为89.01％。

表3地表覆盖分类模型分类精度

依据本专利提出的地表覆盖分类模型，对11916个POI文档进行分类，得到的部分地区分类结果。其中，图4(a)中散落在非人造地表中的人造地表图斑，对应了图4(d)遥感影像中被耕地包围的城镇地区，分类结果表明该模型能够识别非人造地表中的耕地与散落的人造地表图斑；图4(b)为稀疏的非人造地表和一个被分类为人造地表的栅格单元，对应了图4(e)遥感影像中山地地区的森林与小面积人造地表，表明该模型较好地将森林地区划分为非人造地表，同时对其中小面积人造地表也做出了识别；图4(c)为大面积人造地表与少数散落的非人造地表图斑，对应了图4(f)遥感影像中北京市的城市中心区，分类模型识别出该区域中的水体和植被，其余城市建成区则全部分类为人造地表。

D、基于步骤C所得地表覆盖分类，利用混淆矩阵，对分类结果进行精度验证。本专利将基于遥感影像的地表覆盖分类作为参考数据，以随机抽样的方式，对基于POI的地表覆盖分类结果进行精度验证。基于遥感影像的地表覆盖分类以目视解译为基础，分类精度较高，故可作为参考数据。

为检验地表覆盖分类结果，本专利以北京2015年遥感影像为依据，采用随机抽样的方式对地表覆盖分类结果进行精度验证。为减小随机抽样造成的精度验证不准确的问题，分别随机抽取1000、2000、3000、4000个样本进行目视解译工作。验证精度结果如表4所示(其中，0和1分别代表非人造地表与人造地表)在四次抽样中，非人造地表的用户精度高于人造地表，但验证精度差别不大，均为80％左右；而非人造地表的生产者精度明显高于人造地表，分别为94％左右与50％左右，说明本专利构建的地表覆盖分类模型更倾向于将包含混合地类的样本分为非人造地表，造成生产者精度中非人造地表的分类精度过高，人造地表的分类精度过低；就整体精度而言，四次抽样的精度分别为84.20％、81.95％、82.27％与82.55％。与其他地表覆盖产品的制图精度相比，如GlobeLand30的整体验证精度达到80％以上，而本文方法所得分类精度与其差别不大。

表4地表覆盖分类精度验证结果

本发明提出了一种基于POI数据的地表覆盖分类方法，采用潜在狄利克雷模型(Latent Dirichlet Allocation，LDA)，计算文档中主题Z的分布概率Θ和每个主题中POI文本词语W的分布概率φ；继而。以分布概率φ为分类指标，通过支持向量机(SupportVector Machine，SVM)算法，构建基于POI的地表覆盖分类模型；最后，以基于遥感影像的地表覆盖分类为标准，进行分类精度验证。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种利用POI数据进行地表覆盖分类的方法，其特征是，包括如下步骤：

2.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法，其特征是，

3.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法，其特征是，

所述步骤B包括：

4.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法，其特征是，

5.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法，其特征是，

式中，n_i表示第k个主题Z下第i个POI文本词语W的个数，n_k表示第k个主题K中POI文本词语W的个数，V为POI数据集中所有POI文本词语W的数量,超参数α和β为LDA主题模型的输入参数。

6.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法，其特征是，

LDA主题模型中超参数α、β与主题数K决定了分布概率Θ和φ；

α、β的取值人为设定，主题数K依据POI类型设定；

式中，D_test为测试数据集，M为文档的数量,w_d为文档中的词语，N_d则为文档的大小；perplexity值代表文档属于某个主题的可信度，Perplexity的值越小，表示计算结果中主题的可信度越高；

7.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法，其特征是，

所述地表覆盖分类模型构建过程如下：

通过构建空间超平面公式(4)实现样本点的正确分类：

A·Θ+b＝0 (4)；

其中，A和b分别为构成超平面的参数,Θ为由LDA模型计算所得文档中主题Z的分布概率Θ；随后，定义文档中主题Z的分布概率Θ距离超平面公式(4)的间隔r：

其中，A^T为参数A的转置；

约束条件：

y_i[A·Θ+b]-1≥0,i＝1,2,....M (6)；

其中，y_i为分类的类型，y_i∈{-1,+1}，-1和+1代表两种不同的分类类型，i表示第i个文档d，M为文档总数；

f(Θ)＝sgn(A·Θ+b) (7)；

其中，sgn为符号函数，当A·Θ+b＝0时，f(Θ)＝0，当A ·Θ +b ＞ 0 时，f(Θ)＞0，当A·Θ+b＜0，f(Θ)＜0。

8.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法，其特征是，

SVM算法中最重要的因素为gamma、cost的取值与核函数的选择；

选用sigmoid作为核函数，应用网格搜索算法遍历选取gamma和cost的最优值；网格搜索算法遍历所有文档并计算不同参数下的分类模型精度，得到地表覆盖分类精度最高时的参数取值。

9.如权利要求1所述的一种利用POI数据进行地表覆盖分类的方法，其特征是，

10.一种利用POI数据进行地表覆盖分类的系统，其特征是，包括：

地表覆盖分类单元，基于POI文本主题的地表覆盖分类，应用支持向量机SVM(SupportVector Machine)算法，构建地表覆盖分类模型；将文档中主题Z的分布概率Θ输入到构建的地表覆盖分类模型中，得到地表覆盖分类结果；