CN117828002B - 一种土地资源信息数据智能管理方法及系统 - Google Patents
一种土地资源信息数据智能管理方法及系统 Download PDFInfo
- Publication number
- CN117828002B CN117828002B CN202410239321.0A CN202410239321A CN117828002B CN 117828002 B CN117828002 B CN 117828002B CN 202410239321 A CN202410239321 A CN 202410239321A CN 117828002 B CN117828002 B CN 117828002B
- Authority
- CN
- China
- Prior art keywords
- land
- partition
- dimension
- area
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 29
- 238000005192 partition Methods 0.000 claims abstract description 237
- 239000013598 vector Substances 0.000 claims abstract description 215
- 230000008859 change Effects 0.000 claims abstract description 69
- 230000009467 reduction Effects 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 14
- 230000006835 compression Effects 0.000 abstract description 9
- 238000007906 compression Methods 0.000 abstract description 9
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及土地信息聚类及存储技术领域,具体涉及一种土地资源信息数据智能管理方法及系统。本发明首先获取土地资源信息中每个土地分区的多维分区向量及整个土地区域的多维全区向量,然后分析每个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数,进一步对每个多维分区向量及多维全区向量分别降维分析,获取土地资源信息中不同维度间的维度关联性;然后获取每个维度的聚类权重,并对所有土地分区的多维分区向量加权聚类,以对土地资源信息数据存储管理。本发明通过分析土地资源信息不同维度间的关联性,进而结合每个维度信息的变化情况评估每个维度的聚类权重,提高了聚类效果及后续压缩管理效果。
Description
技术领域
本发明涉及土地信息聚类及存储技术领域,具体涉及一种土地资源信息数据智能管理方法及系统。
背景技术
土地资源信息是我国重要的资源信息之一,在土地规划时具有重要意义。土地规划过程中需要大量的土地资源信息数据进行支持,大量的土地资源信息存在一定的存储压力。为提高存储效率,在对多维土地资源信息数据压缩存储时,通常先进行聚类,对每个聚簇的簇内信息进行压缩,在提高压缩效率的同时还可以提升后续的信息检索效率。
然而土地资源信息通常是分区管理,且每个区域内包含多种指标如土地面积、地籍号码、土地所有权、人口数据、环境数据、气象数据、经济数据等多维度指标数据。在对所有多维指标数据进行聚类时,数据间的距离会随着维度的增加变得更加分散,存在一定的维度灾难,导致土地资源信息难以进行有效的聚类和分析,从而导致后续的压缩的效果不理想。
发明内容
为了解决土地资源信息维度灾难导致聚类效果差进而导致每个聚簇内土地资源信息压缩效果不理想的技术问题,本发明的目的在于提供一种土地资源信息数据智能管理方法及系统,所采用的技术方案具体如下:
本发明提出一种土地资源信息数据智能管理方法,所述方法包括:
获取土地资源信息中每个土地分区的多维分区向量及整个土地区域的多维全区向量,所有向量的维度顺序一致,每个向量包括所有维度数据的时序序列,且相同维度的时序序列的长度一致;
根据每个所述多维分区向量与所述多维全区向量在相同维度下的所述时序序列间所有相同时刻数据的波动一致性,结合每个所述多维分区向量每个维度相对其他所述多维分区向量中相同维度的维度偏离情况,获取每个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;
将每个所述多维分区向量及所述多维全区向量分别降维,根据每个所述多维分区向量的降维结果的分布情况及每个土地分区的所述影响系数,结合所述多维全区向量的降维结果的分布情况,获取土地资源信息中不同维度间的维度关联性;
在所述多维全区向量中,根据每个维度下所述时序序列中数据的变化情况,结合每个维度相对其他维度的所述维度关联性及其他维度下所述时序序列中数据的变化情况,获取每个维度的聚类权重;根据所述聚类权重对所有土地分区的所述多维分区向量加权聚类;
根据聚类结果对土地资源信息数据存储管理。
进一步地,所述影响系数的获取方法包括:根据每个所述多维分区向量与其他所述多维分区向量中相同维度的所述时序序列间,相同时刻下数据的差异,获取每个所述多维分区向量每个维度相对其他所述多维分区向量相同维度的维度偏离系数;
根据影响系数的计算公式获取影响系数;影响系数的计算公式为:
;其中,/>为第/>个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;/>为标准归一化函数;/>为土地资源信息的维度总数量;/>为第/>个土地分区的第/>个维度的维度偏离系数;/>为第/>个维度的时序序列的长度;/>为以自然常数/>为底数的指数函数;/>为第/>个土地分区的第/>个维度的时序序列的分区拟合时序曲线中第/>时刻数据的二阶导数;/>为整个土地区域的第个维度的时序序列的全区拟合时序曲线中第/>时刻数据的二阶导数;/>为取绝对值符号。
进一步地,所述维度偏离系数的计算公式包括:
;其中,/>为第/>个土地分区的第/>个维度的维度偏离系数;/>为标准归一化函数;/>为土地分区的总数量;/>为第/>个土地分区的第/>个维度的时序序列的长度;/>为第/>个土地分区的第/>个维度的时序序列中的第/>时刻数据;为第/>个土地分区的第/>个维度的时序序列中的第/>时刻数据;/>为取绝对值符号。
进一步地,所述多维分区向量及所述多维全区向量的降维方法包括:
以任意两个维度为目标维度,将每个所述多维分区向量及所述多维全区向量内的数据,分别映射到由两个所述目标维度构成的二维平面。
进一步地,所述维度关联性的计算公式包括:
;其中,/>为土地资源信息中的第/>个维度与第/>个维度间的维度关联性;/>为标准归一化函数;/>为多维全区向量的降维结果中数据的全区分布密度;/>为土地分区的总数量;/>为第/>个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;/>第/>个土地分区的多维全区向量的降维结果中数据的分区分布密度。
进一步地,所述全区分布密度或所述分区分布密度的获取方法包括:
在每个所述多维分区向量的降维结果中,以任一数据点为分区目标数据点,在除所述分区目标数据点外的其他所有数据点中,获取所述分区目标数据点与其距离最近的分区第一数据点间的第一欧式距离,在除所述目标数据点及所述分区第一数据点外的其他所有数据点中,获取所述分区第一数据点与其距离最近的分区第二数据点间的第二欧式距离,不断迭代直至遍历所有数据点,获取所有欧式距离的方差,将对应方差负相关归一化后作为对应所述多维分区向量的降维结果中资源信息的分区分布密度;
在所述多维全区向量的降维结果中,以任一数据点为全区目标数据点,在除所述全区目标数据点外的其他所有数据点中,获取所述全区目标数据点与其距离最近的全区第一数据点间的第一欧式距离,在除所述全区目标数据点及所述全区第一数据点外的其他所有数据点中,获取所述全区第一数据点与其距离最近的全区第二数据点间的第二欧式距离,不断迭代直至遍历所有数据点,获取所有欧式距离的方差,将对应方差负相关归一化后作为所述多维全区向量的降维结果中资源信息的全区分布密度。
进一步地,所述聚类权重的计算公式包括:
;其中,/>为土地资源信息的第/>个维度的聚类权重;/>为标准归一化函数;/>为第/>个维度的时序序列的长度;/>为以自然常数/>为底数的指数函数;/>为土地资源信息的维度总数量;/>为土地资源信息的第/>个维度与第/>个维度间的维度关联性;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为取绝对值符号。
进一步地,所述聚类结果的获取方法包括:
根据所述聚类权重获取不同土地分区的所述多维分区向量间的向量加权欧式距离,将所述向量加权欧式距离作为连通图的边,基于连通图动态分裂聚类算法及预设截止聚类条件获取聚类结果。
进一步地,所述多维分区向量及所述多维全区向量的获取方法包括:
所述土地资源信息至少包括文本类型信息和数值类型信息,其中文本类型信息至少包括土地用途、土地所有权两个维度,数值类型信息至少包括土地面积、人口数据、环境数据三个维度,每个维度上包括以预设采样频率获取的土地资源信息的时序序列;将所述文本类型信息通过预设特征表示方法转化为数值类型数据;
获取每个土地分区的文本类型信息和数值类型信息,将每个土地分区的所有数值类型信息及转化为数值类型后的文本类型信息组合构建对应土地分区的多维分区向量;
将所有土地分区的文本类型信息和数值类型信息统计合并,得到整个土地区域的文本类型信息和数值类型信息;将每个土地分区的所有数值类型信息及转化为数值类型后的文本类型信息组合构建整个土地区域的多维全区向量。
本发明还提出一种土地资源信息数据智能管理系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任意一项所述一种土地资源信息数据智能管理方法的步骤。
本发明具有如下有益效果:
本发明实施例首先获取土地资源信息中每个土地分区的多维分区向量及整个土地区域的多维全区向量,然后根据每个多维分区向量与多维全区向量在相同维度下的时序序列间所有相同时刻数据的波动一致性,结合每个多维分区向量每个维度相对其他多维分区向量中相同维度的维度偏离情况,获取每个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数,维度偏离情况反映了该维度资源信息的特殊性,越特殊偏离影响可能越大,影响系数侧面反映了不同土地分区的资源信息数据的重要性或贡献度,便于后续结合降维结果准确分析土地资源信息不同维度间的关联性;进一步对每个多维分区向量及多维全区向量分别降维分析,根据每个多维分区向量的降维结果分布情况及每个土地分区的影响系数,结合多维全区向量的降维结果分布情况,从整体和局部两个角度综合分析,准确获取土地资源信息中不同维度间的维度关联性;在多维全区向量中,根据每个维度下时序序列中数据的变化情况,结合每个维度相对其他维度的维度关联性及其他维度下时序序列中数据的变化情况,综合每个维度外的其他所有维度分析数据的关联变化情况,准确获取每个维度的聚类权重,最后对所有土地分区的多维分区向量加权聚类,以对土地资源信息数据存储管理。本发明通过分析土地资源信息不同维度间的关联性,进而结合每个维度信息的变化情况评估每个维度的聚类权重,提高了聚类效果及后续压缩管理效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种土地资源信息数据智能管理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种土地资源信息数据智能管理方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种土地资源信息数据智能管理方法及系统的具体方案。
本发明首先将土地资源信息进行预处理得到对应的多维向量后,通过分析分区与全区维度数据的波动差异及离散情况获取每个土地分区对整个土地区域的信息变化影响,进一步将多维向量降维,获取不同维度间的维度关联性,进而结合数据的关联变化情况获取每个维度的聚类权重以加权聚类,最终根据聚类结果对土地资源信息进行智能化管理。
请参阅图1,其示出了本发明一个实施例提供的一种土地资源信息数据智能管理方法的流程图,具体包括:
步骤S1,获取土地资源信息中每个土地分区的多维分区向量及整个土地区域的多维全区向量,所有向量的维度顺序一致,每个向量包括所有维度数据的时序序列,且相同维度的时序序列的长度一致。
为对土地资源信息分类管理,本发明实施例首先在数据库内获取待管理地区的土地资源信息,其中数据库内的土地资源信息通常是根据土地类型、利用方式或土地质量等因素分区统计采集的,故本发明一个实施例首先获取待管理地区中每个土地分区的土地资源信息,土地资源信息至少包括文本类型信息和数值类型信息,其中文本类型信息至少包括土地用途、土地所有权两个维度,数值类型信息至少包括土地面积、人口数据、经济数据三个维度,每个维度上的信息数据又是以预设采样频率定期统计采集的,其中预设采样频率为每月一次,即每个月重新统计采集一次土地资源信息,为便于后续分析每个维度上的信息变化情况,故根据采样时序构建每次采集更新后每个维度上信息的时序序列;同时为便于后续分析每个维度的信息变化情况,需要将其进行预处理,将文本类型信息通过预设特征编码方法转化为数值类型数据,其中预设特征表示方法为词频-逆文档频率(TermFrequency-Inverse Document Frequency,TF-IDF)的文本特征表示方法,将文本类型数据转化为数值类型数据,以便得到文本类型信息维度对应的数值类型的时序序列分析该维度的资源信息变化。
本发明实施例将每个维度的信息进行预处理后,进一步获取每个土地分区的文本类型信息和数值类型信息,将每个土地分区的所有数值类型信息及转化为数值类型后的文本类型信息组合构建对应土地分区的多维分区向量,具体将每个维度信息的时序序列作为向量元素,随机排序获得一个多维向量;然后将所有土地分区的文本类型信息和数值类型信息统计合并,得到整个土地区域的文本类型信息和数值类型信息,然后将每个土地分区的所有数值类型信息及转化为数值类型后的文本类型信息组合,将每个维度信息的时序序列为向量元素排序,得到多维全区向量,其中多维全区向量与多维分区向量的维度排序顺序一致。
在本发明的另一个实施例中,也可采用独热编码将所有维度的资源信息进行编码转换,然后进制转化,进一步降维分析得到土地资源信息中每个土地分区的多维分区向量及整个土地区域的多维全区向量;实施者也可采用其他预处理方式将多维向量进行格式处理,以便后续分析。
需要说明的是,TF-IDF方法、独热编码、进制转化以及降维分析均是本领域技术人员熟知的现有技术,在此不赘述。
步骤S2,根据每个多维分区向量与多维全区向量在相同维度下的时序序列间所有相同时刻数据的波动一致性,结合每个多维分区向量每个维度相对其他多维分区向量中相同维度的维度偏离情况,获取每个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数。
在对多维土地资源信息聚类时,较多维度可能导致维度灾难,使得簇内信息分布离散或簇间边界模糊的情况,进而导致分类管理效果不佳;考虑到通过将多维向量降维,分析降维后维度间的关联性,进而可以结合每个维度上数据的变化幅度分析获取每个维度的在所有维度中的聚类权重,从而可以在聚类度量样本点即多维向量间的距离差异时进行相应的赋权,使得多维向量间区分度更高,提升聚类效果。
又考虑到整个土地区域的土地资源信息数据是根据所有土地分区的土地资源信息数据统计而得,故整个土地区域对应的多维全区向量与每个土地分区对应的多维分区向量中数据的分布及变化存在一定联系,且不同土地分区对整个土地区域的贡献程度可能不一致,故本发明实施例首先根据每个多维分区向量与多维全区向量在相同维度下的时序序列间所有相同时刻数据的波动一致性,结合每个多维分区向量每个维度相对其他多维分区向量中相同维度的维度偏离情况,获取每个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;影响系数侧面反映了不同土地分区的资源信息数据的重要性或贡献程度,便于后续结合降维结果准确分析土地资源信息不同维度间的关联性。
优选地,在本发明的一个实施例中,考虑到每个维度的土地资源信息具有时序性,相同时刻下每个土地分区及整个土地区域的资源信息的变化波动差异,一定程度上反映了土地分区对整个土地区域的资源信息变化的影响,而函数的二阶导数能够反映数据的变化波动情况;又考虑到相同维度下每个土地分区相对其他土地分区的资源信息间存在差异,差异越大说明该土地分区的该维度资源信息越偏离或特殊,对整体土地区域的影响可能越大;基于此,首先采用最小二乘法分别拟合每个多维分区向量每个维度下时序序列的分区拟合时序曲线及多维全区向量的每个维度下时序序列的全区拟合时序曲线,进一步对每个拟合时序曲线求二阶导,分析每个时刻数据的波动情况,进一步根据每个多维分区向量与其他多维分区向量中相同维度的时序序列间,相同时刻下数据的差异,获取每个多维分区向量每个维度相对其他多维分区向量相同维度的维度偏离系数,然后结合每个多维分区向量与多维全区向量在相同维度下的时序序列间所有相同时刻数据的二阶导数差异即波动一致性获取影响系数,影响系数的计算公式包括:
;
其中,为第/>个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;/>为标准归一化函数;/>为土地资源信息的维度总数量;/>为第/>个土地分区的第个维度的维度偏离系数;/>为第/>个维度的时序序列的长度;/>为以自然常数/>为底数的指数函数;/>为第/>个土地分区的第/>个维度的时序序列的分区拟合时序曲线中第/>时刻数据的二阶导数;/>为整个土地区域的第/>个维度的时序序列的全区拟合时序曲线中第/>时刻数据的二阶导数;/>为取绝对值符号。
影响系数的计算公式中,反映了每个多维分区向量与多维全区向量在相同维度下的时序序列间所有相同时刻数据的变化波动差异,变化波动差异越小,说明每个土地分区信息与整个土地区域信息的波动趋势一致且存在一定的关联规律,土地分区对整个土地区域的资源信息变化的影响越大;反之,说明每个土地分区信息与整个土地区域信息不相关或影响越小;每个多维分区向量每个维度相对其他多维分区向量中相同维度的维度偏离系数越大,说明该土地分区的该维度资源信息越特殊,对整体土地区域的影响可能越大;将维度偏离系数作为对应变化波动差异的权重,综合获取影响系数。
需要说明的是,最小二乘法拟合曲线以及二阶求导是本领域技术人员熟知的现有技术,在此不赘述。
优选地,在本发明的一个实施例中,以任一土地分区为待分析区域,通过分析待分析区域与除待分析区域外的所有土地分区在任一相同维度下的时序序列间相同时刻数据的差异,可以得到待分析区域相对该土地分区的维度偏离信息,然后综合待分析区域相对其他所有土地分区的维度偏离情况最终得到维度偏离系数;基于此,构建维度偏离系数的计算公式为:
;
其中,为第/>个土地分区的第/>个维度的维度偏离系数;/>为标准归一化函数;/>为土地分区的总数量;/>为第/>个土地分区的第/>个维度的时序序列的长度;/>为第/>个土地分区的第/>个维度的时序序列中的第/>时刻数据;/>为第/>个土地分区的第/>个维度的时序序列中的第/>时刻数据;/>为取绝对值符号。
步骤S3,将每个多维分区向量及多维全区向量分别降维,根据每个多维分区向量的降维结果的分布情况及每个土地分区的影响系数,结合多维全区向量的降维结果的分布情况,获取土地资源信息中不同维度间的维度关联性。
考虑到降维分析有助于更直观的观察数据的特征结构,通过观察数据在低维空间内的位置及分布可以理解不同维度间的关系;又考虑仅关注整个土地区域的多维全区向量的映射结果,可能会忽略数据中的细节和差异,而仅关注土地分区的多维分区向量的映射结果,可能造成不平衡使得维度关联性依赖个别特殊土地分区,二者都会导致最终的维度关联性评估不准确;故本发明实施例将每个多维分区向量及多维全区向量分别降维,根据每个多维分区向量的降维结果的分布情况及每个土地分区的影响系数,结合多维全区向量的降维结果的分布情况,获取土地资源信息中不同维度间的维度关联性,从整体和局部两个角度综合分析,准确获取维度关联性。
在本发明的一个优选实施例中,考虑到传统线性降维或非线性降维无法针对性的分析现有土地资源信息间的不同维度间的关联性,降维后的维度可能不再是当前土地资源信息维度中的维度;基于此,多维分区向量及多维全区向量的降维方法包括:以任意两个维度为目标维度,将每个多维分区向量及多维全区向量内的数据,分别映射到由两个目标维度构成的二维平面,便于后续根据二维平面内数据的分布情况判断两个目标维度间的关联性。
优选地,在本发明的一个实施例中,综合整个土地区域的多维全区向量的映射结果及土地分区的多维分区向量的映射结果分析维度关联性,又考虑到二维平面内映射结果的分布聚集情况反映了二维平面的两个维度的相关关系,全区分布密度越大,说明两个维度的相关性越大;基于此,维度关联性的计算公式包括:
;
其中,为土地资源信息中的第/>个维度与第/>个维度间的维度关联性;/>为标准归一化函数;/>为多维全区向量的降维结果中数据的全区分布密度;/>为土地分区的总数量;/>为第/>个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;/>第/>个土地分区的多维全区向量的降维结果中数据的分区分布密度。
维度关联性的计算公式中,通过将每个土地分区的多维分区向量的映射结果中数据的分区分布密度以对应土地分区的影响系数为权重,使得贡献程度大的土地分区对应多维分区向量在分析维度关联性时具有较大影响力;然后与整个土地区域的多维全区向量的映射结果中数据的全区分布密度相乘合并后归一化获取维度关联性;分区分布密度及全区分布密度越大,对应的维度关联性越大。
改变目标维度,获取所有维度中任意两个维度间的维度关联性。
在本发明的一个优选实施例中,考虑到映射结果中数据间的距离能够反映映射结果的分布情况,距离方差则反映了数据点间整体距离的均匀性,方差越小,分布越密集,基于此,全区分布密度或分区分布密度的获取方法包括:在每个多维分区向量的降维结果中,以任一数据点为分区目标数据点,在除分区目标数据点外的其他所有数据点中,获取分区目标数据点与其距离最近的分区第一数据点间的第一欧式距离,在除分区目标数据点及分区第一数据点外的其他所有数据点中,获取分区第一数据点与其距离最近的分区第二数据点间的第二欧式距离,不断迭代直至遍历所有数据点,获取所有欧式距离的方差,将对应方差负相关归一化后作为对应多维分区向量的降维结果中资源信息的分区分布密度;同理,根据分区分布密度的获取方法可以得到多维全区向量的降维结果中资源信息的全区分布密度。本发明实施例中具体将方差负相关映射到指数函数中归一化,在本发明的其他实施例中可以采用其他如倒数等负相关映射归一化方式,其均是本领域技术人员熟知的现有技术,在此不赘述。
在本发明的另一个实施例中,获取每个多维分区向量及多维全区向量分别降维映射到二维平面后的所有映射结果后,将每个二维平面作为一个坐标系,分别获取每个映射结果中映射数据的横坐标升序排序得到横坐标序列,并获取横坐标序列对应的纵坐标序列,然后获取横坐标序列及纵坐标序列的皮尔逊相关系数,由于皮尔逊相关系数的取值为-1到1,将其做绝对值处理后作为对应的分区分布密度或全区分布密度,从而可以根据二维平面内数据的分布情况判断两个目标维度间的关联性。在本发明的其他实施例中,也可采用切比雪夫相关系数或斯皮尔曼等级相关系数,也可通过对二维平面坐标系内的映射结果进行回归分析,拟合其趋势判断是否相关;需要说明的是,其均是本领域技术人员熟知的现有技术,在此不赘述。
步骤S4,在多维全区向量中,根据每个维度下时序序列中数据的变化情况,结合每个维度相对其他维度的维度关联性及其他维度下时序序列中数据的变化情况,获取每个维度的聚类权重;根据聚类权重对所有土地分区的多维分区向量加权聚类。
考虑到每个维度的信息数据变化波动性越大,那么对最终聚类的影响越大,对应的聚类权重应当越高;又考虑到在分析多维数据时,如果两个维度间存在关联性,当一个维度的信息数据发生变化时,另一个维度的信息数据也同样发生变化,但另一个维度信息数据的变化可能并不仅仅是由于该维度的信息数据变化所导致,也可能是由于其他维度数据的变化综合引起的,且不同维度间的关联影响程度不同,多维数据的关联性会影响数据变化情况分析的准确性;故本发明实施例在多维全区向量中,根据每个维度下时序序列中数据的变化情况,结合每个维度相对其他维度的维度关联性及其他维度下时序序列中数据的变化情况,获取每个维度的聚类权重;通过综合每个维度外的其他所有维度的分析数据的关联变化情况,准确获取每个维度的聚类权重。
优选地,在本发明的一个实施例中,聚类权重的获取方法包括:
;
其中,为土地资源信息的第/>个维度的聚类权重;/>为标准归一化函数;/>为第/>个维度的时序序列的长度;/>为以自然常数/>为底数的指数函数;/>为土地资源信息的维度总数量;/>为土地资源信息的第/>个维度与第/>个维度间的维度关联性;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为取绝对值符号。
聚类权重的计算公式中,表示相邻时刻数据的变化幅度,变化幅度越大,聚类时影响越大;/>表示多维全区向量中综合第/>个维度外的所有维度的相邻时刻数据的加权关联变化幅度,其值越大说明整体土地区域的资源信息变动越可能是由除第/>维度外的其他所有维度综合影响的,故需调小第/>个维度的变化幅度的影响,将/>负相关映射到指数函数中调整逻辑并归一化处理,将负相关归一化结果作为第/>个维度的变化幅度的影响的权重,通过乘法将二者合并,综合所有维度分析第/>个维度的资源信息变动对整体多维土地资源信息的变动影响,进而综合所有相邻时刻的变化幅度获取第/>个维度在聚类时的权重。
获取土地资源信息中每个维度在聚类时的聚类权重后,便可根据聚类权重对所有土地分区的多维分区向量加权聚类,进而获得聚类结果,以便后续分类管理。
优选地,在本发明的一个实施例中,聚类结果的获取方法包括:根据聚类权重获取不同土地分区的多维分区向量间的向量加权欧式距离,将向量加权欧式距离作为连通图的边,基于连通图动态分裂聚类算法及预设截止聚类条件获取聚类结果;其中预设截至条件为最终聚簇数量为5时停止连通图分裂,得到所有聚簇。需要说明的是,连通图动态分裂聚类算法已是本领域技术人员所熟知的现有技术,在此不赘述;在本发明的其他实施例中也可设置其他分裂终止条件,也可采用K-Means等其他聚类算法进行加权聚类。
步骤S5,根据聚类结果对土地资源信息数据存储管理。
获取所有聚簇后,便可以对土地资源信息数据存储管理;在本发明的一个实施例中,获取每个聚簇的聚簇中心,将每个聚簇中的多维分区向量求均处理,作为对应聚簇的聚簇中心,然后通过将每个聚簇内的多维分区向量与对应的聚簇中心对应多维分区向量进行差值运算,获取差值序列,然后将差值序列进行编码处理,得到最终的差值压缩结果,并将其传输存储,进行智能化管理,以便后续应用于土地规划。
综上所述,本发明实施例首先获取土地资源信息中每个土地分区的多维分区向量及整个土地区域的多维全区向量,然后根据每个多维分区向量与多维全区向量在相同维度下的时序序列间所有相同时刻数据的波动一致性,结合每个多维分区向量每个维度相对其他多维分区向量中相同维度的维度偏离情况,获取每个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;进一步对每个多维分区向量及多维全区向量分别降维分析,根据每个多维分区向量的降维结果分布情况及每个土地分区的影响系数,结合多维全区向量的降维结果分布情况,获取土地资源信息中不同维度间的维度关联性;在多维全区向量中,根据每个维度下时序序列中数据的变化情况,结合每个维度相对其他维度的维度关联性及其他维度下时序序列中数据的变化情况,获取每个维度的聚类权重,并对所有土地分区的多维分区向量加权聚类,以对土地资源信息数据存储管理。本发明通过分析土地资源信息不同维度间的关联性,进而结合每个维度信息的变化情况评估每个维度的聚类权重,提高了聚类效果及后续压缩管理效果。
本发明还提出一种土地资源信息数据智能管理系统,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现一种土地资源信息数据智能管理方法的步骤。
一种多维土地资源信息数据的聚类方法实施例:
土地资源信息是我国重要的资源信息之一,在土地规划时具有重要意义,大量的土地资源信息存在一定的存储压力。为提高存储效率,在对土地资源信息数据压缩存储时,通常先进行聚类,对每个聚簇的簇内信息压缩,在提高压缩效率的同时还能提升后续信息检索效率。
然而土地资源信息通常是分区管理,且每个区域内包含多种指标如土地面积、地籍号码、土地所有权、人口数据、环境数据、气象数据、经济数据等多维度指标数据。在对所有多维指标数据进行聚类时,存在一定的维度灾难,导致土地资源信息难以进行有效的聚类和分析。本发明提供一种多维土地资源信息数据的聚类方法,该方法包括以下步骤:
步骤S1,获取土地资源信息中每个土地分区的多维分区向量及整个土地区域的多维全区向量,所有向量的维度顺序一致,每个向量包括所有维度数据的时序序列,且相同维度的时序序列的长度一致。
步骤S2,根据每个多维分区向量与多维全区向量在相同维度下的时序序列间所有相同时刻数据的波动一致性,结合每个多维分区向量每个维度相对其他多维分区向量中相同维度的维度偏离情况,获取每个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数。
步骤S3,将每个多维分区向量及多维全区向量分别降维,根据每个多维分区向量的降维结果的分布情况及每个土地分区的影响系数,结合多维全区向量的降维结果的分布情况,获取土地资源信息中不同维度间的维度关联性。
步骤S4,在多维全区向量中,根据每个维度下时序序列中数据的变化情况,结合每个维度相对其他维度的维度关联性及其他维度下时序序列中数据的变化情况,获取每个维度的聚类权重;根据聚类权重对所有土地分区的多维分区向量加权聚类。
其中,步骤S1-S4在上述一种土地资源信息数据智能管理方法及系统实施例中已给出了详细说明,不再赘述。
本发明实施例首先获取土地资源信息中每个土地分区的多维分区向量及整个土地区域的多维全区向量,然后根据每个多维分区向量与多维全区向量在相同维度下的时序序列间所有相同时刻数据的波动一致性,结合每个多维分区向量每个维度相对其他多维分区向量中相同维度的维度偏离情况,获取每个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;进一步对每个多维分区向量及多维全区向量分别降维分析,根据每个多维分区向量的降维结果分布情况及每个土地分区的影响系数,结合多维全区向量的降维结果分布情况,获取土地资源信息中不同维度间的维度关联性;在多维全区向量中,根据每个维度下时序序列中数据的变化情况,结合每个维度相对其他维度的维度关联性及其他维度下时序序列中数据的变化情况,获取每个维度的聚类权重,并对所有土地分区的多维分区向量加权聚类。本发明通过分析土地资源信息不同维度间的关联性,进而结合每个维度信息的变化情况评估每个维度的聚类权重,提高了聚类效果。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (8)
1.一种土地资源信息数据智能管理方法,其特征在于,所述方法包括:
获取土地资源信息中每个土地分区的多维分区向量及整个土地区域的多维全区向量,所有向量的维度顺序一致,每个向量包括所有维度数据的时序序列,且相同维度的时序序列的长度一致;
根据每个所述多维分区向量与所述多维全区向量在相同维度下的所述时序序列间所有相同时刻数据的波动一致性,结合每个所述多维分区向量每个维度相对其他所述多维分区向量中相同维度的维度偏离情况,获取每个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;
将每个所述多维分区向量及所述多维全区向量分别降维,根据每个所述多维分区向量的降维结果的分布情况及每个土地分区的所述影响系数,结合所述多维全区向量的降维结果的分布情况,获取土地资源信息中不同维度间的维度关联性;
在所述多维全区向量中,根据每个维度下所述时序序列中数据的变化情况,结合每个维度相对其他维度的所述维度关联性及其他维度下所述时序序列中数据的变化情况,获取每个维度的聚类权重;根据所述聚类权重对所有土地分区的所述多维分区向量加权聚类;
根据聚类结果对土地资源信息数据存储管理;
所述影响系数的获取方法包括:根据每个所述多维分区向量与其他所述多维分区向量中相同维度的所述时序序列间,相同时刻下数据的差异,获取每个所述多维分区向量每个维度相对其他所述多维分区向量相同维度的维度偏离系数;
根据影响系数的计算公式获取影响系数;影响系数的计算公式为:
;其中,/>为第/>个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;/>为标准归一化函数;/>为土地资源信息的维度总数量;/>为第/>个土地分区的第/>个维度的维度偏离系数;/>为第/>个维度的时序序列的长度;/>为以自然常数/>为底数的指数函数;/>为第/>个土地分区的第/>个维度的时序序列的分区拟合时序曲线中第/>时刻数据的二阶导数;/>为整个土地区域的第/>个维度的时序序列的全区拟合时序曲线中第/>时刻数据的二阶导数;/>为取绝对值符号;
所述多维分区向量及所述多维全区向量的获取方法包括:
所述土地资源信息至少包括文本类型信息和数值类型信息,其中文本类型信息至少包括土地用途、土地所有权两个维度,数值类型信息至少包括土地面积、人口数据、环境数据三个维度,每个维度上包括以预设采样频率获取的土地资源信息的时序序列;将所述文本类型信息通过预设特征表示方法转化为数值类型数据;
获取每个土地分区的文本类型信息和数值类型信息,将每个土地分区的所有数值类型信息及转化为数值类型后的文本类型信息组合构建对应土地分区的多维分区向量;
将所有土地分区的文本类型信息和数值类型信息统计合并,得到整个土地区域的文本类型信息和数值类型信息;将每个土地分区的所有数值类型信息及转化为数值类型后的文本类型信息组合构建整个土地区域的多维全区向量。
2.根据权利要求1所述的一种土地资源信息数据智能管理方法,其特征在于,所述维度偏离系数的计算公式包括:
;其中,/>为第/>个土地分区的第/>个维度的维度偏离系数;/>为标准归一化函数;/>为土地分区的总数量;/>为第/>个土地分区的第/>个维度的时序序列的长度;/>为第/>个土地分区的第/>个维度的时序序列中的第/>时刻数据;/>为第/>个土地分区的第/>个维度的时序序列中的第/>时刻数据;/>为取绝对值符号。
3.根据权利要求1所述的一种土地资源信息数据智能管理方法,其特征在于,所述多维分区向量及所述多维全区向量的降维方法包括:
以任意两个维度为目标维度,将每个所述多维分区向量及所述多维全区向量内的数据,分别映射到由两个所述目标维度构成的二维平面。
4.根据权利要求3所述的一种土地资源信息数据智能管理方法,其特征在于,所述维度关联性的计算公式包括:
;其中,/>为土地资源信息中的第/>个维度与第/>个维度间的维度关联性;/>为标准归一化函数;/>为多维全区向量的降维结果中数据的全区分布密度;/>为土地分区的总数量;/>为第/>个土地分区的资源信息变化对整个土地区域的资源信息变化的影响系数;/>第/>个土地分区的多维全区向量的降维结果中数据的分区分布密度。
5.根据权利要求4所述的一种土地资源信息数据智能管理方法,其特征在于,所述全区分布密度或所述分区分布密度的获取方法包括:
在每个所述多维分区向量的降维结果中,以任一数据点为分区目标数据点,在除所述分区目标数据点外的其他所有数据点中,获取所述分区目标数据点与其距离最近的分区第一数据点间的第一欧式距离,在除所述目标数据点及所述分区第一数据点外的其他所有数据点中,获取所述分区第一数据点与其距离最近的分区第二数据点间的第二欧式距离,不断迭代直至遍历所有数据点,获取所有欧式距离的方差,将对应方差负相关归一化后作为对应所述多维分区向量的降维结果中资源信息的分区分布密度;
在所述多维全区向量的降维结果中,以任一数据点为全区目标数据点,在除所述全区目标数据点外的其他所有数据点中,获取所述全区目标数据点与其距离最近的全区第一数据点间的第一欧式距离,在除所述全区目标数据点及所述全区第一数据点外的其他所有数据点中,获取所述全区第一数据点与其距离最近的全区第二数据点间的第二欧式距离,不断迭代直至遍历所有数据点,获取所有欧式距离的方差,将对应方差负相关归一化后作为所述多维全区向量的降维结果中资源信息的全区分布密度。
6.根据权利要求1所述的一种土地资源信息数据智能管理方法,其特征在于,所述聚类权重的计算公式包括:
;其中,/>为土地资源信息的第/>个维度的聚类权重;/>为标准归一化函数;/>为第/>个维度的时序序列的长度;/>为以自然常数/>为底数的指数函数;/>为土地资源信息的维度总数量;/>为土地资源信息的第/>个维度与第/>个维度间的维度关联性;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为多维全区向量中第/>个维度的时序序列中的第时刻数据;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为多维全区向量中第/>个维度的时序序列中的第/>时刻数据;/>为取绝对值符号。
7.根据权利要求1所述的一种土地资源信息数据智能管理方法,其特征在于,所述聚类结果的获取方法包括:
根据所述聚类权重获取不同土地分区的所述多维分区向量间的向量加权欧式距离,将所述向量加权欧式距离作为连通图的边,基于连通图动态分裂聚类算法及预设截止聚类条件获取聚类结果。
8.一种土地资源信息数据智能管理系统,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任意一项所述一种土地资源信息数据智能管理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410239321.0A CN117828002B (zh) | 2024-03-04 | 2024-03-04 | 一种土地资源信息数据智能管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410239321.0A CN117828002B (zh) | 2024-03-04 | 2024-03-04 | 一种土地资源信息数据智能管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117828002A CN117828002A (zh) | 2024-04-05 |
CN117828002B true CN117828002B (zh) | 2024-05-10 |
Family
ID=90521247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410239321.0A Active CN117828002B (zh) | 2024-03-04 | 2024-03-04 | 一种土地资源信息数据智能管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828002B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103026A4 (en) * | 2020-10-27 | 2020-12-24 | Nanjing Forestry University | A Single Tree Crown Segmentation Algorithm Based on Super-pixels and Topological Features in Aerial Images |
CN116186634A (zh) * | 2023-04-26 | 2023-05-30 | 青岛新航农高科产业发展有限公司 | 一种建筑工程施工数据智能管理系统 |
CN116644184A (zh) * | 2023-07-27 | 2023-08-25 | 浙江厚雪网络科技有限公司 | 基于数据聚类的人力资源信息管理系统 |
CN117058433A (zh) * | 2023-08-22 | 2023-11-14 | 天津大学 | 一种基于高斯混合聚类算法的生态水文分区方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102937B (zh) * | 2020-11-13 | 2021-02-12 | 之江实验室 | 一种慢性病辅助决策的患者数据可视化方法及系统 |
-
2024
- 2024-03-04 CN CN202410239321.0A patent/CN117828002B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103026A4 (en) * | 2020-10-27 | 2020-12-24 | Nanjing Forestry University | A Single Tree Crown Segmentation Algorithm Based on Super-pixels and Topological Features in Aerial Images |
CN116186634A (zh) * | 2023-04-26 | 2023-05-30 | 青岛新航农高科产业发展有限公司 | 一种建筑工程施工数据智能管理系统 |
CN116644184A (zh) * | 2023-07-27 | 2023-08-25 | 浙江厚雪网络科技有限公司 | 基于数据聚类的人力资源信息管理系统 |
CN117058433A (zh) * | 2023-08-22 | 2023-11-14 | 天津大学 | 一种基于高斯混合聚类算法的生态水文分区方法 |
Non-Patent Citations (3)
Title |
---|
Peihong Fu ; Xiaopan Cheng.Study on spatial clustering of urban function partition.IEEE.2011,全文. * |
基于降维算法的分布式语义资源搜索;张春红;胡清源;程时端;;北京邮电大学学报;20130415(第02期);全文 * |
综合景观格局与经济指标进行土地利用二维尺度分区――以青海省为例;张红月;王亮;赵荣;梁勇;;测绘通报;20130325(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117828002A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Characteristic-based clustering for time series data | |
CN113742387A (zh) | 数据处理方法、设备及计算机可读存储介质 | |
CN101789005A (zh) | 一种基于感兴趣区域的图像检索方法 | |
Marascu et al. | TRISTAN: Real-time analytics on massive time series using sparse dictionary compression | |
Cugliari et al. | Disaggregated electricity forecasting using wavelet-based clustering of individual consumers | |
CN116644184B (zh) | 基于数据聚类的人力资源信息管理系统 | |
CN111326236A (zh) | 一种医疗图像自动处理系统 | |
CN117454255B (zh) | 一种智慧建筑能耗数据优化存储方法 | |
CN113837274A (zh) | 基于用电特性分析的用户用电行为画像方法及装置 | |
CN117828002B (zh) | 一种土地资源信息数据智能管理方法及系统 | |
CN109784354B (zh) | 基于改进分类效用的无参数聚类方法及电子设备 | |
CN116226468B (zh) | 基于网格化终端业务数据存储管理方法 | |
CN113591947A (zh) | 基于用电行为的电力数据聚类方法、装置和存储介质 | |
CN112182026A (zh) | 一种考虑流形排序算法的电网截面数据检索方法 | |
CN109615018B (zh) | 用户个性化行为评价方法、装置、计算机设备和存储介质 | |
Malik et al. | A comprehensive approach towards data preprocessing techniques & association rules | |
CN113705920B (zh) | 火电厂用水数据样本集的生成方法和终端设备 | |
Spate et al. | Data mining in hydrology | |
CN112800138B (zh) | 大数据分类方法及系统 | |
CN114358207A (zh) | 一种改进的k-means异常负荷检测方法及系统 | |
Rodríguez-Gómez et al. | A novel clustering based method for characterizing household electricity consumption profiles | |
Baioco et al. | Mamcost: Global and local estimates leading to robust cost estimation of similarity queries | |
CN114386485A (zh) | 一种建筑光纤光栅应力传感器的应力曲线聚类方法 | |
Ren et al. | Multivariate functional data clustering using adaptive density peak detection | |
CN111898579A (zh) | 基于极限梯度提升的高分遥感影像无偏半监督分类模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |