CN115408442B - 基于扩展空间同位模式的土地覆盖分布关系挖掘方法 - Google Patents
基于扩展空间同位模式的土地覆盖分布关系挖掘方法 Download PDFInfo
- Publication number
- CN115408442B CN115408442B CN202210973622.7A CN202210973622A CN115408442B CN 115408442 B CN115408442 B CN 115408442B CN 202210973622 A CN202210973622 A CN 202210973622A CN 115408442 B CN115408442 B CN 115408442B
- Authority
- CN
- China
- Prior art keywords
- cell
- land cover
- characteristic
- feature
- land
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于扩展空间同位模式的土地覆盖分布关系挖掘方法,包括以下步骤:步骤S1、确定目标区域的土地覆盖类型,得到土地覆盖特征集和土地覆盖实例集;步骤S2、将每个土地覆盖实例转换为扩展实例,对组成扩展实例的每个单元格向所有方向扩展缓冲区;步骤S3、根据缓冲区大小更新单元格的特征事务;步骤S4、统计所有单元格的特征事务的频数形成特征事务集,生成候选扩展空间同位模式集合;步骤S5、对候选扩展空间同位模式计算频繁性,将频繁性大于等于指定阈值的模式作为结果输出。本发明解决了现有技术中土地覆盖分布关系难以准确确定的问题。
Description
技术领域
本发明属于土地覆盖分布关系的挖掘技术领域,特别是涉及一种基于扩展空间同位模式的土地覆盖分布关系挖掘方法。
背景技术
土地覆盖类型在空间分布上存在一定的规律,一种土地覆盖类型与另外一种土地覆盖类型频繁同位出现则为互相邻近。在土地规划利用过程中,需要考虑土地覆盖类型相互间的影响,一种土地覆盖类型为另一种土地覆盖类型可能造成正相关或者负相关的作用。例如空旷灌木丛和贫瘠灌木丛经常同时邻近出现,这表明空旷灌木丛土地不适合开垦为耕地。同时,落叶阔叶树森林与人工耕地较雨水灌溉农田邻近出现的频率更高。这表明落叶阔叶林周围不大可能出现雨水灌溉农田。同样的规律还有落叶针叶林周围出现草原的概率比出现混合林的概率要低。充分挖掘空间土地覆盖的各类特点,梳理土地资源利用规律,可以为农业资源规划、城市规划等提供科学依据。
由于土地覆盖在空间上表现出一定的不规则性,如点、线、不规则多边形、簇状或者人工划分出边界的规则多边形等,造成土地覆盖实例间的邻近关系难以量化,对同一块土地分布,其可能在某些部分与一种土地覆盖类型共同出现,但在其他部分不共同出现,同时不同的土地覆盖类型分布不均衡,一种土地分布覆盖类型覆盖面积较大,另外一种土地覆盖的覆盖面积较小,这就为两者邻近关系的可靠度量带来难以量化的问题,这也为土地覆盖分布关系的挖掘造成了巨大挑战。随着遥感技术等空间技术的发展,土地覆盖类型的发现识别更加精细,更加准确,对土地覆盖类型的分辨率不断提升,土地覆盖中还存在着许多的邻近现象未被人们认识和利用,利用扩展空间同位模式挖掘技术可以快速挖掘出土地覆盖类型之间的同位现象。
空间同位模式是空间特征集的一个子集,它们的实例在空间区域中频繁共现。例如,电影院时常出现在商场周围,水源地附近栖息的野生动物较多。当这种特征子集的频繁性高于一定的阈值被称为频繁同位模式。空间同位模式在城市规划、植被分析、犯罪数据预警和公共交通领域等工程技术领域有重要应用价值和技术支撑。但目前已有的空间同位模式挖掘技术将空间实例视作点状,利用点之间的欧式距离等量化实例间的邻近关系。这种方法已经取得了诸多成果,但其不符合实例在现实世界中土地覆盖的真实情形,不能真正反映实例间的同位模式的实际情况。同时通过距离量化两个实例间的邻近关系缺少合理性,不同形状的实例间分布千差万别,难以度量实例间的邻近关系和邻近程度。因此,现有的空间同位模式挖掘方法无法解决土地覆盖分布关系的挖掘问题。本发明提出扩展空间同位模式来挖掘土地覆盖分布关系,扩展空间同位模式(SCPM-EO)将空间实例视为扩展对象,这与现实世界中土地覆盖的实际分布保持一致,其包含了非常有价值的指导信息,因此,通过扩展空间同位模式挖掘土地覆盖类型间的分布关系具有十分重要的意义。
近年来许多学者对空间同位模式挖掘的理论和方法进行了一系列深入的研究,并取得了丰硕的成果,但均只适用于点模式:Huang Y,Shekhar S,Xiong H.Discoveringcolocationpatterns from spatial data sets:a general approach[J].IEEE TransactionsonKnowledge and data engineering,2004,16(12):1472-1485首先定义了普遍存在的空间同位模式,并使用连接操作来捕获候选同位模式的实例。由于连接操作非常耗时,这种方法在密集的空间数据集中是低效的。Yoo J S,Shekhar S,Smith J,et al.A partial joinapproachfor mining co-location patterns[C]//Proceedings of the 12th annualACM internationalworkshop on Geographic information systems.2004:241-249通过减少连接操作来克服基于连接的方法的效率低的缺点。Wang L,Bao X,Zhou L.RedundancyReduction forPrevalent Co-Location Patterns[J].IEEE Transactions on Knowledgeand Data Engineering,2018,30(1):142-155针对频繁模式的数量较多,提出一种冗余缩减的方法来实现模式的精简表达,有利于用户清晰理解空间同位模式信息。在极大空间同位模式挖掘方面,TranV,Wang L,Chen H,et al.MCHT:A maximal clique and hashtable-based maximalprevalent co-location pattern mining algorithm[J].ExpertSystems with Applications,175(2021)114830利用极大团和哈希表来挖掘极大空间同位模式,较已有的方法提升了极大空间同位模式的挖掘效率。Yang P,Wang L,Wang X,etal.SCPM-CR:A Novel Method forSpatial Co-location Pattern Mining with CouplingRelation Consideration[J].IEEETransactions on Knowledge and Data Engineering,2021,doi:10.1109/TKDE.2021.3060119.提出考虑耦合关系的空间共定位模式挖掘任务,以度量特征内部的交互行为,并提出了一种新的候选搜索方法CS-HBS,它配备了启发式回溯搜索方法,较基准方法提高了几个数量级的挖掘效率。Tran V,Wang L.Delaunaytriangulation-based spatial colocationpattern mining without distancethresholds[J].Statistical Analysis and Data Mining,2020,13:282–304.研究一种无需考虑距离阈值的空间同位模式挖掘方法,改善了之前挖掘方法必须确定距离阈值的缺陷。
发明内容
本发明的目的在于提供一种基于扩展空间同位模式的土地覆盖分布关系挖掘方法,以解决现有技术中土地覆盖分布关系难以准确确定的问题。
为解决上述技术问题,本发明所采用的技术方案是,一种基于扩展空间同位模式的土地覆盖分布关系挖掘方法,包括以下步骤:
步骤S1、确定目标区域的土地覆盖类型,对每种土地覆盖类型按字母进行编码,将每种土地覆盖类型表达为一种土地覆盖特征,得到土地覆盖特征集;每种土地覆盖特征在空间区域的出现称为土地覆盖特征的实例,得到与土地覆盖特征集对应的土地覆盖实例集;
步骤S2、将每个土地覆盖实例转换为扩展实例,对组成扩展实例的每个单元格向所有方向扩展一定的范围形成该单元格的缓冲区,将所有单元格的缓冲区组合形成该土地覆盖实例的缓冲区,如果两个及以上扩展实例的缓冲区有交集说明扩展实例相互邻近;
步骤S3、根据缓冲区大小更新单元格的特征事务;
步骤S4、对单元格的特征事务重新排序,统计所有单元格的特征事务的频数形成特征事务集,通过FP-growth方法生成候选扩展空间同位模式集合;
步骤S5、对候选扩展空间同位模式计算频繁性,将频繁性大于等于指定阈值的模式作为结果输出。
进一步地,所述步骤S1中,
所述土地覆盖类型的数据集由二维数组表示,数组的每个元素上的字母代表该元素位置上的土地覆盖类型特征,连续分布的相同类型元素为一个土地覆盖实例,土地覆盖实例的位置信息由元素的行列序号隐性表达。
进一步地,所述步骤S2中,
对于实体形状的扩展实例,缓冲区与扩展实例的形状一致;对于空心形状的扩展实例,当洞或凹的部分的邻域覆盖不重叠时,缓冲区与扩展实例的形状一致,否则,缓冲区的形状将与扩展实例空心部分填充后的形状一致。
进一步地,所述步骤S3具体如下:
步骤S31、根据扩展实例缓冲区大小k,生成(k+1)阶单元格窗口,如果某单元格与某土地覆盖特征fi的扩展实例处于同一个(k+1)阶大小单元格窗口内,则所述某单元格处于所述某土地覆盖特征特征的k阶缓冲区内;
步骤S32、把每个单元格的土地覆盖特征设为单元格的初始特征事务,对一个(k+1)阶单元格窗口,收集该窗口内所有单元格的土地覆盖特征生成窗口的特征集,窗口内每个单元格的特征事务与窗口特征集进行比较运算,生成每个单元格的差集,将差集与单元格原先的特征事务合并生成单元格新的特征事务;
步骤S33、滑动(k+1)阶单元格窗口至下一位置,通过单元格关系运算更新单元格的特征事务,当窗口覆盖空间数据集的所有单元格,所有单元格的特征事务更新后停止滑动窗口。
进一步地,所述步骤S32中,
设第i个单元格Celli的土地覆盖特征为fi,j为单元格总数,窗口wi的特征集为Sfi为:
Sfi={Celli.fi∪Celli+1.fi+1,…,∪Cellj.fj},其中Celli,…,Cellj∈wi;(1)
第i个单元格的差集difi的计算公式如下:
difi=Sfi-Celli.transaction(2)
特征事务更新的公式如下:
进一步地,所述步骤S5中频繁性为特征在模式c中参与率PR_k(fi,c)的最小值,参与率其中,buffer(c,k)为k阶缓冲区下模式c的缓冲区面积,buffer(fi,k)为k阶缓冲区下土地覆盖特征fi的缓冲区面积,count(c)为特征事务包含c的单元格数量,count(fi)为特征事务包含fi的单元格数量;
将频繁性与用户指定的阈值进行比较,如果候选模式频繁性大于等于用户指定阈值则为频繁模式输出。
本发明的有益效果:首先,本发明方法的挖掘效果以及挖掘效率均优于现有方法,拥有极高的效率以及正确性;其次,本发明的方法无需考虑具体的土地覆盖实例形式,大大简化了数据处理的程序和计算的难度,为土地覆盖分布关系挖掘等现实应用提供技术支撑;然后,本发明解决了挖掘土地覆盖分布关系中难以测量扩展空间对象之间相邻关系的难题;最后,与现有技术相比,本发明可以有效区分不同频繁性水平的空间同位模式,准确确定土地覆盖分布关系。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的土地覆盖分布关系挖掘方法流程图。
图2是本发明实施例的土地覆盖数据示例图。
图3是本发明实施例的扩展实例及缓冲区示意图。
图4是本发明实施例的单元格窗口示意图。
图5是本发明实施例的单元格特征事务示意图。
图6是本发明实施例的单元格运算关系示意图。
图7是本发明实施例的单元格特征事务更新过程示意图,其中(a)为该图位置更新前的特征事务,(b)为(a)图位置更新后的特征事务,(c)为(b)图更新后的特征事务。
图8是本发明实施例的不同土地覆盖实例数的执行时间比较图。
图9是本发明实施例的不同邻近关系分离参数的执行时间比较图。
图10是本发明实施例的不同频繁性阈值的执行时间比较图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于扩展空间同位模式的土地覆盖分布关系挖掘方法,具体步骤如下:
步骤S1、确定要研究的目标区域有哪些土地覆盖类型,对每种土地覆盖类型按大写字母进行编码,将每种土地覆盖类型表达为一种空间(土地覆盖)特征,得到土地覆盖特征集F={f1,f2,...,fn},n表示土地覆盖特征的个数。每种土地覆盖特征在空间区域的出现称为该土地覆盖特征的实例,得到与土地覆盖特征集F对应的土地覆盖实例集S={si},1≤i≤I,其中,土地覆盖实例si表示土地覆盖类型在某个具体空间位置上的一个分布,i代表土地覆盖实例编号,I代表土地覆盖实例的总数。
具体的,所述土地覆盖类型的数据集由二维数组表示,数组的每个元素上的字母代表该元素位置上的土地覆盖类型特征,连续分布的相同类型元素为一个土地覆盖实例,其位置信息由其元素的行列序号隐性表达。土地覆盖类型数据示例如图2所示,本发明的方法无需考虑具体的土地覆盖实例形式,因此对土地覆盖实例无需编码。因此,本发明方法较经典的空间同位模式挖掘方法大大简化了数据处理的程序和计算的难度。
步骤S2、将每个土地覆盖实例分解为若干单元格的集合,根据土地覆盖实例的分布形式可以表达为点、线、多边形、簇等。相较于传统的点实例,本发明将这种若干单元格组合形成的实例称为扩展实例。因此,一个扩展实例被表达为若干单元格的集合,这些单元格的隐含位置信息说明了该扩展实例的分布情况,参见图3中红色部分。对组成扩展实例的每个单元格向所有方向扩展一定的范围形成该单元格的缓冲区,将所有单元格的缓冲区组合形成该土地覆盖实例的缓冲区,缓冲区用于表达扩展实例的作用范围,如果两个或多个扩展实例的缓冲区有交集说明扩展实例相互邻近,图5中扩展实例A1和B1满足空间邻近关系。
本发明中扩展实例辐射k个单元格的缓冲区为扩展实例的k阶缓冲区。对于实体形状的扩展实例,无论缓冲区的大小是多少,缓冲区都与扩展实例的形状一致。对于空心形状的扩展实例,当洞或凹的部分的邻域覆盖不重叠时,缓冲区与扩展实例的形状一致,否则,缓冲区的形状将与扩展实例空心部分填充后的形状一致。如图3中所示,深绿色部分为扩展实例的1阶缓冲区边界,浅蓝色为扩展实例的2阶缓冲区边界。
步骤S3、把每个单元格的土地覆盖特征设为单元格的初始特征事务,按照扩展实例缓冲区大小k,生成(k+1)单元格窗口,将窗口内单元格的土地覆盖特征集合并成窗口的特征集,将窗口的特征集与每个单元格特征事务进行比较运算,计算每个单元格事务与窗口特征集的差集,将差集与单元格当前特征事务合并更新单元格的特征事务。如图4中虚线为2阶窗口大小,表达扩展实例的1阶缓冲区范围。
进一步地,步骤S3具体如下:
步骤S31、根据扩展实例缓冲区大小k,生成(k+1)阶单元格窗口;如果某单元格与某土地覆盖特征fi的扩展实例处于同一个(k+1)阶大小单元格窗口内,则该单元格处于该土地覆盖特征特征的k阶缓冲区内。
图5中,蓝色单元格为扩展实例A1的区域,扩展实例蓝色虚线为A1的缓冲区范围。红色单元格为扩展实例B1的区域,红色虚线为扩展实例B1的缓冲区范围。通过窗口1可知,绿色的单元格处于蓝色单元格的1阶缓冲区范围,故绿色单元格生成特征事务{A},通过窗口2可知,绿色的单元格处于红色单元格的1阶缓冲区范围内,故绿色单元格特征事务补充B的信息,生成特征事务{A,B}。特征事务表明两个绿色单元格处于扩展实例A1的缓冲区域与扩展实例B1的缓冲区有交集。最终绿色单元格的特征事务{A,B}如图5中所示。
步骤S32、把每个单元格的土地覆盖特征设为单元格的初始特征事务,对一个(k+1)阶单元格窗口,收集该窗口内所有单元格的土地覆盖特征生成窗口的特征集,窗口内每个单元格的特征事务与窗口特征集进行比较运算,生成每个单元格的差集,将差集与单元格原先的特征事务合并生成单元格新的特征事务。
如图6,每个单元格的数字代表该单元格的id标识,后面的字母代表单元格的土地覆盖特征,虚线方框为一个2阶单元格窗口,分别为单元格1、2、3、4,每个单元格的特征分别为f1,f2,f3,f4。将窗口内的四个单元格的四种特征取并集生成一个窗口特征集{f1,f2,f3,f4},设第i个单元格Celli的土地覆盖特征为fi。窗口wi的特征集为Sfi,j为窗口内最后一个单元格的id,其计算公式如下:
Sfi={Celli.fi∪Celli+1.fi+1,…,∪Cellj.fj)(Celli,…,Cellj∈wi)(1)
将窗口特征集与每个单元格的特征事务进行单元格关系比较运算,生成单元格的特征事务与窗口特征集的差集。单元格的特征事务初始值为单元格的土地覆盖特征。设Celli的特征事务是Celli.transaction,则第i个单元格的差集difi的计算公式如下:
difi=Sfi-Celli.transaction(2)
如单元格2的特征f2与窗口的特征集{f1,f2,f3,f4)做差集运算得到{f1,f3,f4};
将单元格Celli当前的特征事务Celli.transaction与差集difi合并生成单元格Celli的更新后特征事务,特征事务更新的公式如下:
代表合并运算,把以上(1)、(2)和(3)的过程称为单元格关系运算,通过单元格关系运算可以获取单元格所在位置被土地覆盖特征缓冲区覆盖的情况,我们把这种单元格的特征缓冲区覆盖情况称为单元格的特征事务。对图6中的单元格2,将{f1,f3,f4)与单元格本身的土地覆盖特征f2(初始特征事务)求并集得单元格有序特征事务{f2,f1,f3,f4}。
步骤S33、滑动(k+1)阶单元格窗口至下一位置,通过单元格关系运算更新单元格的特征事务,当窗口覆盖空间数据集的所有单元格,所有的单元格的特征事务更新后停止滑动窗口。
在一个具体实施例中,如图7中(a),当前位置的2阶窗口包含单元格1、2、4、5四个单元格,单元格1的特征为f1,单元格2的特征为f2,单元格4的特征为f4,单元格5的特征为f5。四个单元格的初始特征事务为单元格的土地覆盖特征。收集四个单元格的土地覆盖特征生成窗口单元格特征集{f1,f2,,f4,f5},将窗口单元格特征集与四个单元格进行关系运算,如对单元格2进行运算生成差集{f1,f4,f5},将差集与单元格的特征合并生成单元格2的更新后的特征事务{f2,f1,f4,f5}。特征事务的首字母代表在该单元格位置被土地覆盖特征f2覆盖,同时被特征f1,f4,f5的1阶缓冲区覆盖;其他单元格以此类推。
当单元格窗口滑动至如图7中(b)所示位置时,称当前位置的窗口为窗口2,其包含单元格2、3、5和6,单元格的特征事务会被新的窗口邻域信息覆盖,如窗口2收集新的单元格特征集{f2,f3,f5,f6},其代表在该单元格窗口范围内被特征集内特征缓冲区所覆盖。该单元格窗口特征集与单元格2的特征事务做差集运算得{f3,f6};将差集与当前单元格2的特征事务{f2,f1,f4,f5}合并得到{f2,f1,f3,f4,f5,f6}。对单元格3、5、6依次做此运算,更新单元格的特征事务,其结果如图7中(c)所示。
步骤S4、对单元格的特征事务按字母顺序重新排序,统计所有单元格的特征事务的频数形成特征事务集,通过FP-growth方法生成候选扩展空间同位模式集合。合并单元格事务过程为简单的统计运算,FP-growth方法为引用论文Han J,Pei J,YinY.Miningfrequent patterns without candidate generation[J].ACM sigmod record,2000,29(2):1-12.的方法。
步骤S5、对候选扩展空间同位模式通过公式(4)、(5)计算其频繁性,将频繁性大于等于指定阈值的模式作为结果输出。
具体的,步骤S5中扩展空间同位模式c的频繁性PI_k(c)是k阶缓冲区下空间同位模式c中的所有土地覆盖空间特征fi(1≤i≤k)的参与率PR_k(fi,c)的最小值,计算公式如下:
其中,buffer(c,k)为k阶缓冲区下模式c的缓冲区面积,buffer(fi,k)为k阶缓冲区下土地覆盖特征fi的缓冲区面积,通过计算扩展空间同位模式c模式的缓冲区面积与特征事务的缓冲区面积的比值来计算参与率。由于每个单元格的长宽均为单位长度,单元格的面积为单位面积,因此扩展空间同位模式c的缓冲区面积可以通过统计包含该模式的特征事务的单元格数量获取,如扩展空间同位模式c的缓冲区面积buffer(c,k)可以由特征事务包含c的单元格个数统计获得,设模式c有100个单元格的特征事务包含c,则buffer(c,k)面积为100。同理buffer(fi,k)可以由包含土地覆盖特征fi的单元格特征事务统计获得,即特征事务有多少个单元格包含特征fi则它们的覆盖面积为多少。
因此参与率PR_k(fi,c)的可以转化为公式(6):
其中,count(c)为特征事务包含c的单元格数量,count(fi)为特征事务包含fi的单元格数量。
将候选模式的频繁性与用户指定的阈值进行比较,如果候选模式频繁性大于等于用户指定阈值则为频繁模式输出。
本发明方法在步骤S1~S3中,单元格的特征事务被初始化为单元格的土地覆盖特征信息,进而在步骤S3中,单元格的特征缓冲区覆盖信息通过单元格关系运算更新单元格的特征事务。由于单元格的特征事务被邻域范围内的所有单元格窗口的单元格关系运算更新,其表达了单元格所在位置被土地覆盖特征缓冲区覆盖的完整信息。通过FP-growth方法在步骤S4中挖掘候选扩展空间同位模式,FP-growth方法已经被证明具备完整性、正确性。最后在步骤S5中通过频繁性计算相关公式计算筛选得到满足用户需求的频繁模式。
实施例:
本实施例通过从网站http://www.geodata.cn中下载的ChinaLC 2010土地覆盖数据集验证方法的挖掘结果,ChinaLC 2010是一个典型的具有扩展对象的数据集,其中有多边形对象、线对象和点对象等。该数据集包含19种土地覆盖类型(空间特征),有25km2或900km2两种规格粒度的土地覆盖单元格,如草地、森林、湖泊等。本实施例将实验分为三部分,首先研究单元格粒度对方法时间效率和挖掘效果的影响;其次在相同单元格规格下评估本发明方法和基准方法对土地覆盖分布关系的挖掘效果。最后在相同单元格规格下对本文方法和其他方法进行计算性能比较。
为了简单起见,本实施例用CRO来表示本发明方法,选择Kim S K,Lee J H,Ryu KH,et al.A framework of spatial co-location pattern mining for ubiquitous GIS[J].Multimediatools and applications,2014,71(1):199-218.中提出的扩展实例之间最小距离的模型和Ge Y,Yao Z,Li H.Computing co-location patterns in spatialdata with extended objects:a scalablebuffer-based approach[J].IEEETransactions on Knowledge and Data Engineering,2019,33(2):401-414.中提出的可扩展缓冲区方法分别作为对比基准方法1和基准方法2。方法1将扩展实例抽象为点,并使用扩展对象之间的最短距离作为点之间的距离,利用点实例的无连接方法来挖掘空间同位模式。无连接方法在相关工作部分提到。方法1是SCPM-EO的经典方法。据现有技术所知,方法2是对SCPM-EO问题最先进的方法之一,该方法在实例层面计算缓冲区重叠面积,并通过join-less框架发现空间同位模式,其改进之处在于开发了一系列严格的上界来修剪候选空间同位模式。
本实施例所有的实验均采用Python 3.7实现,并在一台配置有Windows 10操作系统、Intel i5-4288U CPU、12G内存的计算机上进行。
1.土地覆盖数据集的单元格粒度对方法时间效率和挖掘效果的影响:
在ChinaLC提供的5km和30km两种粒度大小的Case1和Case2两种土地覆盖区域上进行实验。5km单元表示25km2的土地覆盖范围,30km单元表示900km2。即一个30km的单元格等于36个5km单元格的面积。Case1和Case2的5km版本土地覆盖数据集有51060个单元格,Case1和Case2的30km版本有1426个单元格。土地覆盖特征的编号及在数据集Case1和Case2包含的单元格数量如表1所示。
表1 Case1和Case2数据集的土地覆盖特征情况.
表2在Case1和Case2区域挖掘空间同位模式结果比较
首先,本实施例评估了5公里、30公里土地覆盖单元格的大小对CRO方法运行时间的影响。从表2可以看出,在Case1地区中,CRO方法在5km单元上的运行时间是30km单元的39.1倍,接近于单元数的倍数36。在Case2中,5公里的运行时间比30公里的运行时间多34倍,这也接近于单元格数的倍数36。说明本发明方法的时间复杂度与单元格数量线性相关,对于包含多个土地覆盖特征的空间数据集,单元格粒度越小,特征分布的表示就越精细,数据集中的单元格N越大,时间消耗就越大。
然后,验证了Case1和Case2土地覆盖数据集的空间同位模式挖掘结果。在Case1中,CRO在5公里版本中挖掘出81个模式,但在30公里版本中只有5个模式。在Case2中,CRO挖掘了73个模式,而在30km版本中只有22个模式。从这些结果可以看出,对于相同的区域,使用较小的单元尺寸,可以从空间数据中挖掘出更多的空间同位模式。通过这些空间同位模式信息可以反映更详细的土地覆盖分布关系。例如,在Case1区域中,对特征N和S,30km的单元格数据集只能产生2阶土地覆盖模式{N,S},但5km的单元格数据集可以产生4阶模式{D,F,N,S}。与30公里的单元格相比,5公里的单元格提供了更多的土地覆盖特征D和F的信息,这可以反映更加详细的土地覆盖分布关系。
2.方法挖掘空间同位模式反映土地覆盖分布关系有效性对比
从两个方面进行有效性的比较分析,首先,分析三种方法在相同的同位模式上的频繁性度量值。其次,对包含相同特征的模式进行分组,在同组模式中比较频繁性。频繁性度量结果如下表所示:
表3 Case1区域的挖掘结果比较
表4 Case2区域的挖掘结果比较
从表3和表4,可以得出以下结论。
(1)对于同一空间同位模式,CRO和方法1对土地分布分布关系的度量值更大,而方法2的度量值更小,接近于0。
例如,在表3中,空间同位模式{C,E}在CRO中值为0.249,方法1的值为0.31,而方法2的值只有0.011。表3和表4中的其他模式在CRO和方法1中的数值也比方法2中的数值大。
(2)对于同一组空间同位模式,CRO和方法1的结果的数值范围很宽泛,方法2的数值一般较小。
可以看出,在表3和表4中,CRO和方法1中其他模式的数值分布在[0,0.1],[0.1,0.2],[0.2,0.3],[0.3,1]的区间,而方法2只分布在[0,0.07]的区间。对于CRO和方法1,很容易设置一个合适的频繁性阈值来区分不同频繁性的空间同位模式,而对于方法2,则很难设置。
总结上述实验结果,在反映土地覆盖分布关系有效性,CRO可以有效区分不同频繁性水平的空间同位模式。
3.计算性能的比较
3.1扩展实例的实例数的影响
在ChinaLC数据集上实验不同土地覆盖实例数规模的子数据集,范围从10K到30K(K=1,000),以验证三种方法的可扩展性。
图8显示,随着土地覆盖数据集实例数的增加,三种方法挖掘空间同位模式的执行时间均在增加。然而,CRO的增长时间较小,但基准方法却大大增加。同时,CRO方法是最快的,运行时间在个位数的时间数量级,比基准方法2快2个数量级,比基准方法1快3到4个数量级。
3.2邻近关系分离参数的影响
本实验旨在评估在挖掘土地覆盖分布关系过程中邻近关系分离参数对CRO和方法1、2的计算性能的影响。对于CRO和方法2,缓冲区的范围是1到5。对于方法1,最小距离的范围是1到5。从图9所示的实验结果可以看出,三种方法的运行时间随着缓冲区大小或距离阈值的增加而增加。随着缓冲区大小和距离阈值的增大,较大的邻接关系分离参数会获得更多的土地覆盖邻近关系,更多的扩展实例参与到候选邻近扩展实例的搜索范围中。因此,在三种方法中,需要更多的时间来发现每个候选模式的参与扩展实例。对于每个参数,本发明方法的运行时间都优于所有方法1、2,较方法1、2快1~3个数量级。
3.3频繁性阈值的影响
最后,考察频繁性阈值对挖掘土地覆盖分布关系效率的影响。图10显示了三种方法在频繁性阈值参数为0.1至0.5的ChinaLC土地覆盖数据集上的结果。随着频繁性阈值的增长,CRO的时间消耗几乎保持不变,比方法1和方法2的运行时间有较大的优势。对于不同用户的频繁性需求,本发明方法显示出比方法1、方法2更好的可扩展性。
由于土地覆盖数据分布分布特点,现有的空间关联规则、空间序列等挖掘方法难以直接运用到土地覆盖分布关系挖掘问题。本实施例提出扩展空间同位模式的新概念,通过扩展空间同位模式表达土地覆盖分布关系,研究了扩展实例的邻近关系,扩展同位模式的频繁性度量,设计了单元格关系运算方法来挖掘扩展空间同位模式,进而由扩展空间同位模式集表达。在ChinaLC2010土地覆盖数据集上进行了广泛的实验,与现有的扩展同位模式挖掘方法在土地覆盖分布关系挖掘效果及效率上进行了比较,验证了本发明方法的正确性及高效性。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (5)
1.一种基于扩展空间同位模式的土地覆盖分布关系挖掘方法,其特征在于,包括以下步骤:
步骤S1、确定目标区域的土地覆盖类型,对每种土地覆盖类型按字母进行编码,将每种土地覆盖类型表达为一种土地覆盖特征,得到土地覆盖特征集;每种土地覆盖特征在空间区域的出现称为土地覆盖特征的实例,得到与土地覆盖特征集对应的土地覆盖实例集;
步骤S2、将每个土地覆盖实例转换为扩展实例,对组成扩展实例的每个单元格向所有方向扩展形成该单元格的缓冲区,将所有单元格的缓冲区组合形成该土地覆盖实例的缓冲区,如果两个及以上扩展实例的缓冲区有交集说明扩展实例相互邻近;
步骤S3、根据缓冲区大小进行单元格关系运算,更新单元格的特征事务;
步骤S4、对单元格的特征事务按字母序重新排序,统计所有单元格的特征事务的频数形成特征事务集,通过FP-growth方法生成候选扩展空间同位模式集合;
步骤S5、对候选扩展空间同位模式计算频繁性,将频繁性大于等于指定阈值的模式作为结果输出;
所述步骤S3具体如下:
步骤S31、根据扩展实例缓冲区大小k,生成(k+1)阶单元格窗口,如果某单元格与某土地覆盖特征fi的扩展实例处于同一个(k+1)阶大小单元格窗口内,则所述某单元格处于所述某土地覆盖特征fi的k阶缓冲区内;
步骤S32、把每个单元格的土地覆盖特征设为单元格的初始特征事务,对一个(k+1)阶单元格窗口,收集该窗口内所有单元格的土地覆盖特征生成窗口的特征集,窗口内每个单元格的特征事务与窗口特征集进行比较运算,生成每个单元格的差集,将差集与单元格原先的特征事务合并生成单元格新的特征事务;
步骤S33、滑动(k+1)阶单元格窗口至下一位置,通过单元格关系运算更新单元格的特征事务,当窗口覆盖空间数据集的所有单元格,所有单元格的特征事务更新后停止滑动窗口。
2.根据权利要求1所述的一种基于扩展空间同位模式的土地覆盖分布关系挖掘方法,其特征在于,所述步骤S1中,
所述土地覆盖类型的数据集由二维数组表示,数组的每个元素上的字母代表该元素位置上的土地覆盖类型特征,连续分布的相同类型元素为一个土地覆盖实例,土地覆盖实例的位置信息由元素的行列序号隐性表达。
3.根据权利要求1所述的一种基于扩展空间同位模式的土地覆盖分布关系挖掘方法,其特征在于,所述步骤S2中,
对于实体形状的扩展实例,缓冲区与扩展实例的形状一致;对于空心形状的扩展实例,当洞或凹的部分的邻域覆盖不重叠时,缓冲区与扩展实例的形状一致,否则,缓冲区的形状将与扩展实例空心部分填充后的形状一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210973622.7A CN115408442B (zh) | 2022-08-15 | 2022-08-15 | 基于扩展空间同位模式的土地覆盖分布关系挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210973622.7A CN115408442B (zh) | 2022-08-15 | 2022-08-15 | 基于扩展空间同位模式的土地覆盖分布关系挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115408442A CN115408442A (zh) | 2022-11-29 |
CN115408442B true CN115408442B (zh) | 2023-03-10 |
Family
ID=84159230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210973622.7A Active CN115408442B (zh) | 2022-08-15 | 2022-08-15 | 基于扩展空间同位模式的土地覆盖分布关系挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115408442B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61296346A (ja) * | 1985-06-25 | 1986-12-27 | Fuji Photo Film Co Ltd | 放射線画像情報読取蓄積装置 |
CN106780262A (zh) * | 2017-01-13 | 2017-05-31 | 中国科学院遥感与数字地球研究所 | 一种考虑城市道路网络约束的同位模式发现方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102857363B (zh) * | 2012-05-04 | 2016-04-20 | 运软网络科技(上海)有限公司 | 一种虚拟网络的自主管理系统和方法 |
CN104765852B (zh) * | 2015-04-21 | 2018-01-23 | 成都博元时代软件有限公司 | 大数据背景下基于模糊算法的数据挖掘方法 |
CN105786985B (zh) * | 2016-02-15 | 2019-02-15 | 浪潮(北京)电子信息产业有限公司 | 一种文件系统自动扩容方法及装置 |
CN107341192A (zh) * | 2017-06-14 | 2017-11-10 | 云南大学 | 空间高效用co‑location模式挖掘方法 |
US10739189B2 (en) * | 2018-08-09 | 2020-08-11 | Ouster, Inc. | Multispectral ranging/imaging sensor arrays and systems |
AU2019409705B2 (en) * | 2018-12-19 | 2023-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source |
-
2022
- 2022-08-15 CN CN202210973622.7A patent/CN115408442B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61296346A (ja) * | 1985-06-25 | 1986-12-27 | Fuji Photo Film Co Ltd | 放射線画像情報読取蓄積装置 |
CN106780262A (zh) * | 2017-01-13 | 2017-05-31 | 中国科学院遥感与数字地球研究所 | 一种考虑城市道路网络约束的同位模式发现方法及装置 |
Non-Patent Citations (1)
Title |
---|
A Framework for Discovering Co-Location Patterns in Data Sets with Extended Spatial Objects;Xiong H等;《SDM》;第79-89页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115408442A (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lv et al. | A hybrid ensemble-based deep-learning framework for landslide susceptibility mapping | |
Yoo et al. | A joinless approach for mining spatial colocation patterns | |
Liu et al. | Uncertainty and confidence in land cover classification using a hybrid classifier approach | |
CN102364498B (zh) | 一种基于多标签的图像识别方法 | |
Ebrahimy et al. | Per-pixel land cover accuracy prediction: A random forest-based method with limited reference sample data | |
CN105354593B (zh) | 一种基于nmf的三维模型分类方法 | |
CN102930275B (zh) | 基于Cramer’s V指数的遥感影像特征选择方法 | |
CN103971115A (zh) | 一种基于NDVI和PanTex指数的高分辨率遥感影像新增建设用地图斑自动提取方法 | |
Lin et al. | A frequent itemset mining algorithm based on the Principle of Inclusion–Exclusion and transaction mapping | |
Ferraro et al. | A review and proposal of (fuzzy) clustering for nonlinearly separable data | |
Li et al. | Exploring multiple crowdsourced data to learn deep convolutional neural networks for road extraction | |
Wu et al. | A maximal ordered ego-clique based approach for prevalent co-location pattern mining | |
Lei et al. | Mining spatial co-location patterns by the fuzzy technology | |
Liu et al. | Gully erosion susceptibility assessment based on machine learning-A case study of watersheds in Tuquan County in the black soil region of Northeast China | |
Nong et al. | Airborne LiDAR point cloud classification using PointNet++ network with full neighborhood features | |
CN115408442B (zh) | 基于扩展空间同位模式的土地覆盖分布关系挖掘方法 | |
Li et al. | Exploring label probability sequence to robustly learn deep convolutional neural networks for road extraction with noisy datasets | |
Chen et al. | Field-road classification for GNSS recordings of agricultural machinery using pixel-level visual features | |
Wang et al. | Local dynamic neighborhood based outlier detection approach and its framework for large-scale datasets | |
CN102184215B (zh) | 一种基于数据场的自动聚类方法 | |
Zhou et al. | Classification of Urban Construction Land with Worldview-2 Remote Sensing Image Based on Classification and Regression Tree Algorithm | |
Zhang et al. | A novel knowledge-driven automated solution for high-resolution cropland extraction by cross-scale sample transfer | |
Wang et al. | Change detection in bitemporal remote sensing images by using feature fusion and fuzzy C-means | |
Pola et al. | Similarity sets: A new concept of sets to seamlessly handle similarity in database management systems | |
CN103886333A (zh) | 遥感图像的主动谱聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |