CN117973899A - 基于大数据的土地开发与经营信息智能管理系统 - Google Patents
基于大数据的土地开发与经营信息智能管理系统 Download PDFInfo
- Publication number
- CN117973899A CN117973899A CN202410230591.5A CN202410230591A CN117973899A CN 117973899 A CN117973899 A CN 117973899A CN 202410230591 A CN202410230591 A CN 202410230591A CN 117973899 A CN117973899 A CN 117973899A
- Authority
- CN
- China
- Prior art keywords
- dimension
- data
- region
- value
- development
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011161 development Methods 0.000 title claims abstract description 101
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 230000006835 compression Effects 0.000 claims abstract description 14
- 238000007906 compression Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims abstract 2
- 230000009467 reduction Effects 0.000 claims description 54
- 238000011156 evaluation Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 26
- 238000012512 characterization method Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007726 management method Methods 0.000 abstract description 42
- 230000000694 effects Effects 0.000 abstract description 11
- 238000013523 data management Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及土地信息数据管理技术领域,具体涉及基于大数据的土地开发与经营信息智能管理系统。该系统包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:获取待分析土地中每个区域不同维度的开发与经营信息数据;基于每两个区域不同维度的开发与经营信息数据的匹配结果以及每两个维度的开发与经营信息数据之间的差异,得到每两个维度之间的关联值,进而确定每个维度的关联维度;根据每个维度以及关联维度的开发与经营信息数据和关联值,获得对应的权重并构建协方差矩阵,对协方差矩阵进行降维,进而对所有数据进行压缩并存储。本发明提高了开发与经营信息数据的压缩效果。
Description
技术领域
本发明涉及土地信息数据管理技术领域,具体涉及基于大数据的土地开发与经营信息智能管理系统。
背景技术
国土资源大数据作为重要的基础信息,在国民经济和社会发展中起着重要的作用。土地资源的开发与经营的过程中会产生大量的数据,通过对获取的大量数据进行分析可以对土地资源信息进行管理。在对获取的土地开发与经营信息进行存储时,由于包含大量的数据为了提高存储效率将获取的土地数据进行压缩。在对获取的土地数据进行压缩存储时可以通过动态连通图聚类算法对获取的土地信息数据进行聚类,对每个聚类簇中的数据进行压缩可以大大提高压缩的效率。
通过连通图动态分裂聚类算法对获取的土地信息数据进行聚类操作时,由于获取的土地信息数据是多维数据,将多维数据转换为节点时由于数据点为高维数据,可能会产生维度诅咒,所有数据点之间的聚类距离都较接近导致后续的聚类簇的划分不准确,影响后续的压缩效率。在对多维的土地开发及经营信息数据进行聚类时一般对获取的多维数据进行PCA降维,通过降维后的数据进行聚类可以避免上述的维度诅咒。但是现有的通过PCA算法对获取的土地开发与经营信息进行降维时只考虑获取的数据在数据层面上的降维情况,数据本身的信息和其所在的含义可能会被舍弃,导致数据降维时过拟合影响降维后的效果,使得土地开发与经营信息数据的压缩效果较差。
发明内容
为了解决现有方法在对土地开发与经营信息数据进行压缩时存在的压缩效果较差的问题,本发明的目的在于提供一种基于大数据的土地开发与经营信息智能管理系统,所采用的技术方案具体如下:
本发明提供了一种基于大数据的土地开发与经营信息智能管理系统,该方法包括以下步骤:
获取待分析土地中每个区域在预设时间段内每个采集时刻的不同维度的开发与经营信息数据;
对每两个区域在预设时间段内所有采集时刻的不同维度的开发与经营信息数据进行匹配,基于匹配结果得到每两个区域对应的相似评价值,基于所述相似评价值确定每个区域对应的关联区域;根据每个区域与其对应的关联区域的每两个维度的开发与经营信息数据之间的差异,得到每两个维度之间的关联值;
基于所述关联值确定每个维度对应的关联维度;根据每个维度以及对应的关联维度的所有采集时刻的开发与经营信息数据和所述关联值,获得每个维度降维时的权重;基于所述权重获得协方差矩阵;采用PCA降维方法对所述协方差矩阵进行降维处理获得降维后的特征维度向量;
基于降维后的特征维度向量的数据的相似情况,对所有数据进行压缩并存储。
优选的,所述对每两个区域在预设时间段内所有采集时刻的不同维度的开发与经营信息数据进行匹配,基于匹配结果得到每两个区域对应的相似评价值,包括:
对于任一区域的第a个维度的开发与经营信息数据:按照时间先后顺序,将该区域在预设时间段内所有采集时刻的第a个维度的开发与经营信息数据构成的序列,记为该区域的第a个维度的数据序列;对所述数据序列进行曲线拟合获得该区域的第a个维度的拟合曲线,基于所述拟合曲线获得所述数据序列中每个数据对应的斜率,将所述斜率的绝对值作为每个数据的第一特征值;
对于第i个区域和第i+1个区域:分别对第i个区域和第i+1个区域的同一维度的数据序列进行动态时间规整,获得各匹配对,其中每个匹配对中均存在同一维度的两个数据;将每个匹配对中两个数据的第一特征值之间的差值绝对值,作为每个匹配对的第一差异;基于第i个区域和第i+1个区域所有维度的所有匹配对的第一差异,获得第i个区域和第i+1个区域对应的相似评价值,所述所有维度的所有匹配对的第一差异与所述相似评价值呈负相关关系。
优选的,所述基于所述相似评价值确定每个区域对应的关联区域,包括:
对于第i个区域:
将与第i个区域的相似评价值大于预设相似阈值的区域,确定为第i个区域对应的关联区域。
优选的,所述根据每个区域与其对应的关联区域的每两个维度的开发与经营信息数据之间的差异,得到每两个维度之间的关联值,包括:
对于第a个维度和第b个维度:
对于第i个区域:根据第i个区域第a个维度的数据序列中每个数据对应的斜率与第b个维度的数据序列中每个数据对应的斜率之间的差异情况,获得第i个区域第a个维度与第b个维度的相关性表征值;
根据每个区域与其对应的关联区域的第a个维度和第b个维度的相关性表征值之间的差异情况,得到第a个维度和第b个维度之间的关联值。
优选的,所述根据第i个区域第a个维度的数据序列中每个数据对应的斜率与第b个维度的数据序列中每个数据对应的斜率之间的差异情况,获得第i个区域第a个维度与第b个维度的相关性表征值,包括:
分别计算第i个区域第a个维度的数据序列中每个位置的数据对应的斜率与第i个区域第b个维度的数据序列中相同位置的数据对应的斜率之间的差值的绝对值,作为对应两个数据的第二差异;
计算第i个区域第a个维度与第b个维度对应的所有第二差异的均值,将所述均值的负相关归一化结果,作为第i个区域第a个维度与第b个维度的相关性表征值。
优选的,采用如下公式计算第a个维度和第b个维度之间的关联值:
其中,Qa,b表示第a个维度和第b个维度之间的关联值,ui表示第i个区域对应的关联区域的数量,M表示待分析土地中区域的数量,Di(a,b)表示第i个区域第a个维度与第b个维度的相关性表征值,表示第i个区域对应的所有关联区域第a个维度与第b个维度的相关性表征值的平均值,||表示取绝对值符号,exp()表示以自然常数为底数的指数函数。
优选的,所述基于所述关联值确定每个维度对应的关联维度,包括:
对于第a个维度:
将与第a个维度之间的关联值大于预设关联阈值的维度,确定为第a个维度对应的关联维度。
优选的,采用如下公式计算第a个维度降维时的权重:
其中,ωa表示第a个维度降维时的权重,ma表示第a个维度对应的关联维度的数量,Q′ a,r表示第a个维度与其对应的第r个关联维度之间的关联值,表示第a个维度对应的第r个关联维度的所有数据值的均值,fr ′ x表示第a个维度对应的第r个关联维度的第x个数据值,X表示任意一个维度的数据值的数量,fax表示第a个维度的第x个数据值,/>表示第a个维度的所有数据值的均值,||表示取绝对值符号,norm()表示归一化函数,exp()表示以自然常数为底数的指数函数。
优选的,所述基于所述权重获得协方差矩阵,包括:
将所述权重作为计算协方差矩阵时的权重,构建协方差矩阵。
优选的,所述基于降维后的特征维度向量的数据的相似情况,对所有数据进行压缩并存储,包括:
基于降维后的特征维度向量中数据之间的欧式距离,采用连通图动态分裂聚类算法对降维后的特征维度向量的数据进行聚类获得各聚类簇;
采用LZ77压缩算法对每个聚类簇内的数据进行压缩处理,获得压缩后的数据,并对压缩后的数据进行存储。
本发明至少具有如下有益效果:
本发明首先对待分析土地中每两个区域在预设时间段内的不同维度的开发与经营信息数据的相似情况进行了评价,筛选了每个区域对应的关联区域,每个区域与其对应的关联区域的开发与经营信息数据之间的波动相似情况较高,然后根据每个区域与其对应的关联区域的每两个维度的开发与经营信息数据之间的差异,得到了每两个维度之间的关联值,进而确定了每个维度对应的关联维度,结合每个维度以及对应的关联维度的所有采集时刻的开发与经营信息数据和关联值,获得了每个维度降维时的权重,进而构建协方差矩阵,避免了通过PCA算法对获取的土地开发与经营信息数据进行降维时只考虑获取的数据在数据层面上的降维情况,数据本身的信息和所在的含义可能被舍弃,会导致数据降维时过拟合影响降维后的效果,本发明提高了开发与经营信息数据的压缩效果以及压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例所提供的一种基于大数据的土地开发与经营信息智能管理系统所执行的方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的土地开发与经营信息智能管理系统进行详细说明如下。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于大数据的土地开发与经营信息智能管理系统的具体方案。
基于大数据的土地开发与经营信息智能管理系统实施例:
本实施例所针对的具体场景为:在对土地开发与经营信息数据进行存储的过程中,由于数据量较大,占用较多的存储空间,因此需要对土地开发与经营信息数据进行压缩处理,本实施例在对开发与经营信息数据进行压缩处理时,考虑了土地信息本身是区域性的分布情况,信息数据整体呈现有多个小区域组成整体的情况,分析不同区域之间分布关联性同时考虑到不同区域中的多维数据的影响差异,对PCA降维时的维度数据获取协方差矩阵时的矩阵元素的权重进行修正,使其获取的特征向量更符合实际情况使得降维的效果更好,进而提高后续土地开发与经营信息数据的压缩效果。
本实施例提出了基于大数据的土地开发与经营信息智能管理系统,该系统以实现如图1所示的步骤,具体步骤如下:
步骤S1,获取待分析土地中每个区域在预设时间段内每个采集时刻的不同维度的开发与经营信息数据。
本实施例从数据库中获取待分析土地的开发与经营信息数据,开发与经营信息数据在数据库中的存储方式为数据表形式进行存储,数据存储时会将获取的多维数据存储到多个表中。开发与经营信息数据包括:土地面积、地籍号码、土地所有权、人口数据、环境数据、土地利用规划数据等;开发与经营信息数据中每一类数据为一个维度的数据,也即土地信息为一个维度的数据,地籍号码为一个维度的数据,土地所有权为一个维度的数据,以此类推,在具体应用中,实施者可根据具体情况设置开发与经营信息数据的种类。需要说明的是,由于待分析土地的面积可能较大,待分析土地中可能包含多个区域,因此分别采集每个区域的不同维度的开发与经营信息数据。每个区域的开发与经营信息数据可能会随着时间的变化产生改变,例如人口数据、环境数据,会随着土地的开发与利用发生改变。但是土地的一些基本信息一般在短时间内不会发生改变例如地籍号码、土地面积、土地所有权等。本实施例中设置开发与经营信息数据的采集频率为一天一次,也即每天均采集一次待分析土地中每个区域在预设时间段内每个采集时刻的不同维度的开发与经营信息数据,本实施例中的预设时间段为与当前时刻的时间间隔小于等于预设时间的所有历史时刻构成的集合,本实施例中预设时长为一年,在具体应用中,实施者可根据具体情况设置数据采集频率以及预设时间段的时长。上述获取的数据中存在一定的文本数据,因此需要对上述获取的文本数据进行预处理转换为特征向量,本实施例采用TF-IDF算法对获取的文本数据进行处理转换为特征向量,也即获得了每个维度的开发与经营信息数据的数据值。需要说明的是,后续提到的开发与经营信息数据均为数据值。
至此,本实施例获取了待分析土地中每个区域在预设时间段内每个采集时刻的不同维度的开发与经营信息数据。
步骤S2,对每两个区域在预设时间段内所有采集时刻的不同维度的开发与经营信息数据进行匹配,基于匹配结果得到每两个区域对应的相似评价值,基于所述相似评价值确定每个区域对应的关联区域;根据每个区域与其对应的关联区域的每两个维度的开发与经营信息数据之间的差异,得到每两个维度之间的关联值。
待分析土地的同一维度的开发与经营数据之间存在一定的相似性,因此可以基于相同维度的开发与经营数据之间的相似性进行后续的连通图动态分裂聚类。在对多维数据进行聚类时需要通过PCA算法对获取的多维数据进行降维处理,通过降维后的特征向量之间的相似情况作为聚类时的距离可以避免由于获取的数据是高维数据造成的维度诅咒。在对获取的土地信息数据进行PCA降维时,算法只通过数据的数值之间的关联性进行获取特征向量,维度数据自身携带信息的情况和对其它维度的影响情况没有进行考虑,会导致降维后的特征向量过拟合,过拟合的特征向量进行聚类会影响其簇类划分的精确性,降低其压缩的效率。
在进行数据的PCA降维时只分析获取的维度数据本身数值,会忽略获取的多维数据的每个维度的信息含义会导致获取的特征向量过拟合,影响降维的准确性。在对待分析土地中每个区域的开发与经营信息数据进行存储时,是对一个区域中的一段时间的数据进行存储的,通过同一个区域的不同时间的土地开发与经营信息可以更好地了解土地开发和经营情况。在对开发与经营信息数据进行数据存储时需要对每个区域进行分析,获取多维数据中的每个维度数据自身的显著性时,需要考虑到多维度数据之间的影响。通过分析多维数据之间的波动趋势一致性可以确定两个维度的关联性确定维度数据之间的影响,对获取的不同区域的土地信息数据进行分析,不同区域的位置分布情况可能会影响获取的区域中的多维数据的关联性的计算,在计算整体数据的关联性时考虑每个区域中多维数据的影响差异情况,使得获取的多维数据的维度之间的关系更准确。
不同区域的多维数据的波动越相似同时波动相似的区域越多,在进行后续的整体的维度数据的关联性进行计算时,波动相似分布的区域获取的每个区域的权重越大,根据权重进行后续的维度关联性计算,通过DTW算法对获取的不同区域的多维数据进行匹配,通过对匹配对进行分析可以避免由于不同区域的开发时间不同导致的维度数据的变化差异情况。本实施例将对待分析土地中每两个区域在预设时间段内所有采集时刻的不同维度的开发与经营信息数据进行匹配,基于匹配结果确定每两个区域对应的相似评价值。
具体地,对于任一区域的第a个维度的开发与经营信息数据:按照时间先后顺序,将该区域在预设时间段内所有采集时刻的第a个维度的开发与经营信息数据构成的序列,记为该区域的第a个维度的数据序列;对所述数据序列进行曲线拟合获得该区域的第a个维度的拟合曲线,基于所述拟合曲线获得所述数据序列中每个数据对应的斜率,将所述斜率的绝对值作为每个数据的第一特征值;需要说明的是:每个数据均对应一个特征值。曲线拟合以及曲线上数据点的斜率的获取方法均为现有技术,此处不再过多赘述。
对于第i个区域和第i+1个区域:分别对第i个区域和第i+1个区域的同一维度的数据序列进行动态时间规整,获得各匹配对,其中每个匹配对中均存在同一维度的两个数据;由于在采用动态时间规整算法对两个序列中的数据进行处理时,会存在一对多或者多对一的情况,例如:第1个序列中的第2个数据与第2个序列中的第2个数据以及第2个序列中的第3个数据匹配,则第1个序列中的第2个数据与第2个序列中的第2个数据构成一个匹配对,第1个序列中的第2个数据与第2个序列中的第3个数据构成一个匹配对。将每个匹配对中两个数据的第一特征值之间的差值绝对值,作为每个匹配对的第一差异;基于第i个区域和第i+1个区域所有维度的所有匹配对的第一差异,获得第i个区域和第i+1个区域对应的相似评价值,所述所有维度的所有匹配对的第一差异与所述相似评价值呈负相关关系。负相关关系表示因变量会随着自变量的增大而减小,因变量会随着自变量的减小而增大,可以为相减关系、相除关系等,由实际应用进行确定。作为一个具体实施方式,给出相似评价值的具体计算公式,第i个区域和第i+1个区域对应的相似评价值的具体计算公式为:
其中,Wi,i+1表示第i个区域和第i+1个区域对应的相似评价值,A表示开发与经营信息数据的维度数量,Ja表示第i个区域和第i+1个区域的第a个维度的匹配对的数量,ΔKj表示第i个区域和第i+1个区域的第a个维度的第j个匹配对的第一差异,exp()表示以自然常数为底数的指数函数。
通过对第i个区域和第i+1个区域每个维度的数据的差异情况进行累计,对第i个区域和第i+1个区域的开发与经营数据的波动相似情况进行评价,该累计结果越大,说明第i个区域和第i+1个区域每个维度的开发与经营数据的波动情况越不相似,也即第i个区域和第i+1个区域对应的相似评价值越小。
采用上述方法,能够获得待分析土地中每两个区域对应的相似评价值,相似评价值越大,说明对应两个区域的开发与经营数据的波动情况越相似;因此对于第i个区域:将与第i个区域的相似评价值大于预设相似阈值的区域,确定为第i个区域对应的关联区域。采用该方法,能够获得待分析土地中每个区域对应的关联区域。本实施例中预设相似阈值为0.75,在具体应用中,实施者可根据具体情况进行设置。
接下来本实施例将根据每个区域每个维度的数据序列中的数据对应的斜率的差异情况,对每个区域的每两个维度的开发与经营信息数据之间的相关性进行评价,获得对应的相关性表征值。
具体地,对于第a个维度和第b个维度:
对于第i个区域:分别计算第i个区域第a个维度的数据序列中每个位置的数据对应的斜率与第i个区域第b个维度的数据序列中相同位置的数据对应的斜率之间的差值的绝对值,作为对应两个数据的第二差异,也即获得了多个第二差异。计算第i个区域第a个维度与第b个维度对应的所有第二差异的均值,将所述均值的负相关归一化结果,作为第i个区域第a个维度与第b个维度的相关性表征值。第i个区域第a个维度与第b个维度的相关性表征值的具体计算公式为:
其中,Di(a,b)表示第i个区域第a个维度与第b个维度的相关性表征值,Ni表示第i个区域每个维度的数据序列中数据的数量,kaz表示第i个区域第a个维度的数据序列中第z个数据对应的斜率,kbz表示第i个区域第b个维度的数据序列中第z个数据对应的斜率,||表示取绝对值符号,exp()表示以自然常数为底数的指数函数。
|kaz-kbz|表示第i个区域第a个维度的数据序列中第z个数据与第b个维度的数据序列中第z个数据的第二差异;用于表征第i个区域第a个维度与第b个维度对应的所有第二差异的均值,当该均值越大时,说明第i个区域第a个维度与第b个维度的开发与经营数据之间的关联性越差,即第i个区域第a个维度与第b个维度的相关性表征值越小。
采用上述方法,能够获得每个区域第a个维度与第b个维度的相关性表征值,接下来本实施例将根据每个区域与其对应的关联区域的第a个维度和第b个维度的相关性表征值之间的差异情况,确定第a个维度和第b个维度之间的关联值。第a个维度和第b个维度之间的关联值的具体计算公式为:
其中,Qa,b表示第a个维度和第b个维度之间的关联值,ui表示第i个区域对应的关联区域的数量,M表示待分析土地中区域的数量,Di(a,b)表示第i个区域第a个维度与第b个维度的相关性表征值,表示第i个区域对应的所有关联区域第a个维度与第b个维度的相关性表征值的平均值,||表示取绝对值符号,exp()表示以自然常数为底数的指数函数。
通过波动一致的区域获取的相关性表征值和自身的维度相关性对离散情况进行评价,第i个区域对应的关联区域的数量越多,说明第i个区域在整体中越能表现整体的关联性变化,通过分析第i个区域对应的关联区域的维度的关联性表征值和自身的差异情况,其值越大,说明第i个区域越特殊,越应当调小其权重。
采用上述方法,能够获得每两个维度之间的关联值。
步骤S3,基于所述关联值确定每个维度对应的关联维度;根据每个维度以及对应的关联维度的所有采集时刻的开发与经营信息数据和所述关联值,获得每个维度降维时的权重;基于所述权重获得协方差矩阵;采用PCA降维方法对所述协方差矩阵进行降维处理获得降维后的特征维度向量。
本实施例在步骤S2中获得了每两个维度之间的关联值,关联值越大,说明对应两个维度的开发与经营信息数据之间的相关性越强;因此对于第a个维度:将与第a个维度之间的关联值大于预设关联阈值的维度,确定为第a个维度对应的关联维度。采用该方法,能够获得每个维度对应的关联维度。本实施例中预设关联阈值为0.68,在具体应用中,实施者可根据具体情况进行设置。
在对土地经营与开发的高维数据进行聚类时,高维数据会导致维度诅咒影响聚类结果,通过PCA对获取的数据进行降维后,通过特征向量进行聚类分析。在进行PCA降维时可以分析每个维度的差分情况获取维度数据的权重,但是多维数据的关联性会影响差分情况获取的准确性,通过多维数据的关联值对在进行维度数据之间的差分情况计算时进行加权处理,使其获取的信息更符合维度数据的自身波动情况。
基于此,本实施例将根据每个维度以及对应的关联维度的所有采集时刻的开发与经营信息数据和所述关联值,获得每个维度降维时的权重。第a个维度降维时的权重的具体计算公式为:
其中,ωa表示第a个维度降维时的权重,ma表示第a个维度对应的关联维度的数量,Q′ a,r表示第a个维度与其对应的第r个关联维度之间的关联值,表示第a个维度对应的第r个关联维度的所有数据值的均值,fr ′ x表示第a个维度对应的第r个关联维度的第x个数据值,X表示任意一个维度的数据值的数量,fax表示第a个维度的第x个数据值,/>表示第a个维度的所有数据值的均值,||表示取绝对值符号,norm()表示归一化函数,exp()表示以自然常数为底数的指数函数。
用于反映进行差分的两个数据受到其它维度的影响的权重,其值越大,说明其它维度影响越小,获取的数据的差分的可信度越高,Q′ a,r作为两个维度数据之间的关联值,存在关联的数据的差分越大,这个数据的差分的影响越大,获取的其它维度影响越大,其可信度越低。/>的值越大,说明第a个维度的数据与该维度数据的平均值之间的差异越明显,在进行计算时这个维度的数据权重越大。
采用上述方法,能够获得每个维度降维时的权重,分别将每个维度降维时的权重作为计算协方差矩阵时的权重,基于获取的所有维度的开发与经营数据构建协方差矩阵。协方差矩阵的构建过程为现有技术,此处不再过多赘述。采用PCA((Principal ComponentAnalysis)降维方法对所述协方差矩阵进行降维处理获得降维后的特征维度向量。PCA降维方法为现有技术,此处不再过多赘述。
步骤S4,基于降维后的特征维度向量的数据的相似情况,对所有数据进行压缩并存储。
本实施例已经获得了降维后的特征维度向量的数据,接下来将基于降维后的特征维度向量的数据的相似情况,对所有数据进行压缩。
具体地,基于降维后的特征维度向量中数据之间的欧式距离,采用连通图动态分裂聚类算法对降维后的特征维度向量的数据进行聚类获得多个聚类簇;数据之间的欧式距离的计算方法以及连通图动态分裂聚类算法均为现有技术,此处不再过多赘述。
同一个聚类簇中的数据的波动情况存在一定的相似性,不同聚类簇中的数据的差异较大,对存在相似分布的数据进行压缩处理,本实施例采用LZ77压缩算法对每个聚类簇内的数据构建字典进行压缩处理,获得压缩后的数据,并对压缩后的数据进行存储,相似分布的数据构建字典时会减少字典的长度,从而提高压缩的效率以及压缩效果。
至此,完成了对待分析土地开发与经营信息数据的压缩及存储。
本实施例首先对待分析土地中每两个区域在预设时间段内的不同维度的开发与经营信息数据的相似情况进行了评价,筛选了每个区域对应的关联区域,每个区域与其对应的关联区域的开发与经营信息数据之间的波动相似情况较高,然后根据每个区域与其对应的关联区域的每两个维度的开发与经营信息数据之间的差异,得到了每两个维度之间的关联值,进而确定了每个维度对应的关联维度,结合每个维度以及对应的关联维度的所有采集时刻的开发与经营信息数据和关联值,获得了每个维度降维时的权重,进而构建协方差矩阵,避免了通过PCA算法对获取的土地开发与经营信息数据进行降维时只考虑获取的数据在数据层面上的降维情况,数据本身的信息和其所在的含义可能被舍弃,会导致数据降维时过拟合影响降维后的效果,本实施例提高了开发与经营信息数据的压缩效果以及压缩效率。
需要说明的是:以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据的土地开发与经营信息智能管理系统,其特征在于,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:
获取待分析土地中每个区域在预设时间段内每个采集时刻的不同维度的开发与经营信息数据;
对每两个区域在预设时间段内所有采集时刻的不同维度的开发与经营信息数据进行匹配,基于匹配结果得到每两个区域对应的相似评价值,基于所述相似评价值确定每个区域对应的关联区域;根据每个区域与其对应的关联区域的每两个维度的开发与经营信息数据之间的差异,得到每两个维度之间的关联值;
基于所述关联值确定每个维度对应的关联维度;根据每个维度以及对应的关联维度的所有采集时刻的开发与经营信息数据和所述关联值,获得每个维度降维时的权重;基于所述权重获得协方差矩阵;采用PCA降维方法对所述协方差矩阵进行降维处理获得降维后的特征维度向量;
基于降维后的特征维度向量的数据的相似情况,对所有数据进行压缩并存储。
2.根据权利要求1所述的基于大数据的土地开发与经营信息智能管理系统,其特征在于,所述对每两个区域在预设时间段内所有采集时刻的不同维度的开发与经营信息数据进行匹配,基于匹配结果得到每两个区域对应的相似评价值,包括:
对于任一区域的第a个维度的开发与经营信息数据:按照时间先后顺序,将该区域在预设时间段内所有采集时刻的第a个维度的开发与经营信息数据构成的序列,记为该区域的第a个维度的数据序列;对所述数据序列进行曲线拟合获得该区域的第a个维度的拟合曲线,基于所述拟合曲线获得所述数据序列中每个数据对应的斜率,将所述斜率的绝对值作为每个数据的第一特征值;
对于第i个区域和第i+1个区域:分别对第i个区域和第i+1个区域的同一维度的数据序列进行动态时间规整,获得各匹配对,其中每个匹配对中均存在同一维度的两个数据;将每个匹配对中两个数据的第一特征值之间的差值绝对值,作为每个匹配对的第一差异;基于第i个区域和第i+1个区域所有维度的所有匹配对的第一差异,获得第i个区域和第i+1个区域对应的相似评价值,所述所有维度的所有匹配对的第一差异与所述相似评价值呈负相关关系。
3.根据权利要求1所述的基于大数据的土地开发与经营信息智能管理系统,其特征在于,所述基于所述相似评价值确定每个区域对应的关联区域,包括:
对于第i个区域:
将与第i个区域的相似评价值大于预设相似阈值的区域,确定为第i个区域对应的关联区域。
4.根据权利要求2所述的基于大数据的土地开发与经营信息智能管理系统,其特征在于,所述根据每个区域与其对应的关联区域的每两个维度的开发与经营信息数据之间的差异,得到每两个维度之间的关联值,包括:
对于第a个维度和第b个维度:
对于第i个区域:根据第i个区域第a个维度的数据序列中每个数据对应的斜率与第b个维度的数据序列中每个数据对应的斜率之间的差异情况,获得第i个区域第a个维度与第b个维度的相关性表征值;
根据每个区域与其对应的关联区域的第a个维度和第b个维度的相关性表征值之间的差异情况,得到第a个维度和第b个维度之间的关联值。
5.根据权利要求4所述的基于大数据的土地开发与经营信息智能管理系统,其特征在于,所述根据第i个区域第a个维度的数据序列中每个数据对应的斜率与第b个维度的数据序列中每个数据对应的斜率之间的差异情况,获得第i个区域第a个维度与第b个维度的相关性表征值,包括:
分别计算第i个区域第a个维度的数据序列中每个位置的数据对应的斜率与第i个区域第b个维度的数据序列中相同位置的数据对应的斜率之间的差值的绝对值,作为对应两个数据的第二差异;
计算第i个区域第a个维度与第b个维度对应的所有第二差异的均值,将所述均值的负相关归一化结果,作为第i个区域第a个维度与第b个维度的相关性表征值。
6.根据权利要求4所述的基于大数据的土地开发与经营信息智能管理系统,其特征在于,采用如下公式计算第a个维度和第b个维度之间的关联值:
其中,Qa,b表示第a个维度和第b个维度之间的关联值,ui表示第i个区域对应的关联区域的数量,M表示待分析土地中区域的数量,Di(a,b)表示第i个区域第a个维度与第b个维度的相关性表征值,表示第i个区域对应的所有关联区域第a个维度与第b个维度的相关性表征值的平均值,||表示取绝对值符号,exp()表示以自然常数为底数的指数函数。
7.根据权利要求1所述的基于大数据的土地开发与经营信息智能管理系统,其特征在于,所述基于所述关联值确定每个维度对应的关联维度,包括:
对于第a个维度:
将与第a个维度之间的关联值大于预设关联阈值的维度,确定为第a个维度对应的关联维度。
8.根据权利要求1所述的基于大数据的土地开发与经营信息智能管理系统,其特征在于,采用如下公式计算第a个维度降维时的权重:
其中,ωa表示第a个维度降维时的权重,ma表示第a个维度对应的关联维度的数量,Q′ a,r表示第a个维度与其对应的第r个关联维度之间的关联值,表示第a个维度对应的第r个关联维度的所有数据值的均值,fr ′ x表示第a个维度对应的第r个关联维度的第x个数据值,X表示任意一个维度的数据值的数量,fax表示第a个维度的第x个数据值,/>表示第a个维度的所有数据值的均值,||表示取绝对值符号,norm()表示归一化函数,exp()表示以自然常数为底数的指数函数。
9.根据权利要求1所述的基于大数据的土地开发与经营信息智能管理系统,其特征在于,所述基于所述权重获得协方差矩阵,包括:
将所述权重作为计算协方差矩阵时的权重,构建协方差矩阵。
10.根据权利要求1所述的基于大数据的土地开发与经营信息智能管理系统,其特征在于,所述基于降维后的特征维度向量的数据的相似情况,对所有数据进行压缩并存储,包括:
基于降维后的特征维度向量中数据之间的欧式距离,采用连通图动态分裂聚类算法对降维后的特征维度向量的数据进行聚类获得各聚类簇;
采用LZ77压缩算法对每个聚类簇内的数据进行压缩处理,获得压缩后的数据,并对压缩后的数据进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410230591.5A CN117973899A (zh) | 2024-02-29 | 2024-02-29 | 基于大数据的土地开发与经营信息智能管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410230591.5A CN117973899A (zh) | 2024-02-29 | 2024-02-29 | 基于大数据的土地开发与经营信息智能管理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117973899A true CN117973899A (zh) | 2024-05-03 |
Family
ID=90845931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410230591.5A Pending CN117973899A (zh) | 2024-02-29 | 2024-02-29 | 基于大数据的土地开发与经营信息智能管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117973899A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118506555A (zh) * | 2024-07-18 | 2024-08-16 | 济南城市建设集团有限公司 | 一种基于多隧道联动的环境预警方法、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263111A (zh) * | 2019-05-31 | 2019-09-20 | 南京林业大学 | 基于先验知识的土地利用/覆被信息时空监测方法 |
CN116975503A (zh) * | 2023-09-22 | 2023-10-31 | 临沂大学 | 一种土壤侵蚀信息管理方法及系统 |
CN117010586A (zh) * | 2023-09-08 | 2023-11-07 | 浙江省交通运输科学研究院 | 一种软土地下空间开发地质适宜性多层次评估方法 |
DE102022125423B3 (de) * | 2022-09-30 | 2024-01-25 | Modoplus GmbH | Verfahren und Vorrichtung zur Ermittlung eines Entwicklungspotenzials |
-
2024
- 2024-02-29 CN CN202410230591.5A patent/CN117973899A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263111A (zh) * | 2019-05-31 | 2019-09-20 | 南京林业大学 | 基于先验知识的土地利用/覆被信息时空监测方法 |
DE102022125423B3 (de) * | 2022-09-30 | 2024-01-25 | Modoplus GmbH | Verfahren und Vorrichtung zur Ermittlung eines Entwicklungspotenzials |
CN117010586A (zh) * | 2023-09-08 | 2023-11-07 | 浙江省交通运输科学研究院 | 一种软土地下空间开发地质适宜性多层次评估方法 |
CN116975503A (zh) * | 2023-09-22 | 2023-10-31 | 临沂大学 | 一种土壤侵蚀信息管理方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118506555A (zh) * | 2024-07-18 | 2024-08-16 | 济南城市建设集团有限公司 | 一种基于多隧道联动的环境预警方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376772B (zh) | 一种基于神经网络模型的电力负荷组合预测方法 | |
CN109376940B (zh) | 获取降雨过程中的降雨时空分布规律的方法和装置 | |
CN117973899A (zh) | 基于大数据的土地开发与经营信息智能管理系统 | |
CN117828002B (zh) | 一种土地资源信息数据智能管理方法及系统 | |
CN109934301B (zh) | 一种电力负荷聚类分析方法、装置和设备 | |
CN110825894A (zh) | 数据索引建立、数据检索方法、装置、设备和存储介质 | |
CN111401300A (zh) | 一种人脸聚类归档方法、装置及存储介质 | |
JP2023502863A (ja) | 画像の増分クラスタリング方法及び装置、電子機器、記憶媒体並びにプログラム製品 | |
CN112085926B (zh) | 一种河道水污染预警方法及系统 | |
CN118503503B (zh) | 基于多维度的收缩城市数据收集整理方法及系统 | |
CN113807568A (zh) | 一种电力负荷预测方法、装置及终端设备 | |
CN117930012A (zh) | 一种电池一致性评估方法、装置、计算机设备及存储介质 | |
CN113222098A (zh) | 数据处理方法和相关产品 | |
CN117648647A (zh) | 一种多能源配电网用户数据优化分类方法 | |
CN112115984A (zh) | 基于深度学习的茶园异常数据校正方法、系统和存储介质 | |
CN115935212A (zh) | 一种基于纵向趋势预测的可调节负荷聚类方法及系统 | |
CN116384949A (zh) | 一种基于数字化管理的智慧政务信息数据管理系统 | |
CN113487080B (zh) | 一种基于风速分类的风速动态场景生成方法、系统及终端 | |
CN113222097B (zh) | 数据处理方法和相关产品 | |
CN110265151B (zh) | 一种基于ehr中异构时态数据的学习方法 | |
CN112241922A (zh) | 基于改进朴素贝叶斯分类的电网资产综合价值评估方法 | |
CN113793683B (zh) | 一种基于psa的前列腺癌辅助决策方法及其系统 | |
CN115563193B (zh) | 一种用于数字信息的大数据分析处理方法 | |
Nazareth et al. | Visualizing attribute interdependencies using mutual information, hierarchical clustering, multidimensional scaling, and self-organizing maps | |
CN118737485B (zh) | 一种内科护理临床数据智慧存储管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |