CN116303475B

CN116303475B - 一种多源指标数据智能存储的管理方法及装置

Info

Publication number: CN116303475B
Application number: CN202310553599.0A
Authority: CN
Inventors: 李江; 刘厚洋; 张琪; 冉溢; 王清; 王平
Original assignee: Geospace Information Technology Co ltd
Current assignee: Geospace Information Technology Co ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-08-08
Anticipated expiration: 2043-05-17
Also published as: CN116303475A

Abstract

本发明适用于数据存储技术领域，提供一种多源指标数据智能存储的管理方法及装置，所述方法包括：根据指标数据来源不同，将指标数据划分为多种类型，这里指标数据的类型有三种，分别为指标成果文件类型、第三方指标数据接口类型和复合指标类型；根据指标数据的类型，通过调度规则将不同类型的指标数据按照统一的对象进行指标数据入库。本发明方法可以将不同来源的指标以及指标数据以统一的形式按照一定的规则存储到不同的数据库中，并给空间规划业务提供统一的、高效的、便捷的接口服务；本发明能有效的解决单一体系指标存储管理存在的问题，并能很好的降低开发成本，缩短项目周期，提高生产效率。

Description

一种多源指标数据智能存储的管理方法及装置

技术领域

本发明属于数据存储技术领域，尤其涉及一种多源指标数据智能存储的管理方法及装置。

背景技术

国土空间规划编制、实施、监督评价和体检评估等全过程日程业务办理过程中，涉及到了对大量指标的存储管理，这些指标种类繁多，来源形式多种多样，同时数据量也非常的大，目前已经涉及到的指标有千余种，按照全省指标按天来汇聚入库，每年指标数据量将近亿级，通过现有指标数据存储方式，显然无法满足指标数据的存储与高效查询。

在自然资源应用领域，指标包含了指标项、指标数据、指标来源、指标元信息等，这些数据有着数据量大、种类繁多、数据来源不一等特点，以传统的单一体系进行指标数据管理扩展性差、灵活性低、效率低的问题，难以满足日新月异的指标数据实时的联动更新以及同一指标不同维度统计数据的准确性。

传统的指标管理模式技术具体存在以下问题：

1、现有单一体系下指标数据仅支持数据录入无法满足不同来源指标数据的入库问题，比如指标数据来自于第三方业务系统、空间数据实时计算、统计年鉴指标数据、复合指标计算以及空间规划成果包中的指标数据等，这些指标数据种类繁多、来源形式多种多样，在现有的单一指标管理模式下已无法满足系统的需求。

2、现有单一体系下指标数据存储单一且只能通过人工的方式进行建表存储，存储数据量过小，无法满足年数据量达到亿级的问题。

3、指标数据在现有的存储规则下，数据量达到亿级以上，查询效率很低的问题。

发明内容

鉴于上述问题，本发明的目的在于提供一种多源指标数据智能存储的管理方法及装置，旨在解决现有指标数据管理扩展性差、灵活性低、效率低的技术问题，以满足在自然资源与规划业务中提出的变化不定的指标以及指标数据的管理需求。

本发明采用如下技术方案：

一方面，所述多源指标数据智能存储的管理方法，包括下述步骤：

根据指标数据来源不同，将指标数据划分为多种类型，这里指标数据的类型有三种，分别为指标成果文件类型、第三方指标数据接口类型和复合指标类型；

根据指标数据的类型，通过调度规则将不同类型的指标数据按照统一的对象进行指标数据入库。

另一方面，所述多源指标数据智能存储的管理装置，所述管理装置包括：

类型划分单元，用于根据指标数据来源不同，将指标数据划分为多种类型，这里指标数据的类型有三种，分别为指标成果文件类型、第三方指标数据接口类型和复合指标类型；

数据入库单元，用于根据指标数据的类型，通过调度规则将不同类型的指标数据按照统一的对象进行指标数据入库。

本发明的有益效果是：本发明提出了一种多源指标数据智能存储的管理方法，本发明方法可以将不同来源的指标以及指标数据以统一的形式按照一定的规则存储到不同的数据库中，并给空间规划业务提供统一的、高效的、便捷的接口服务；本发明能有效的解决单一体系指标存储管理存在的问题，并能很好的降低开发成本，缩短项目周期，提高生产效率。本发明通过分布式多表多库以及多种存储模式解决了不同指标数据查询慢的问题，将查询效率提升10倍以上。

附图说明

图1是本发明实施例提供的多源指标数据智能存储的管理方法的流程图；

图2是本发明实施例提供的指标数据入库操作的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

如图1所示，本实施例提供的多源指标数据智能存储的管理方法，包括述步骤：

步骤S1、根据指标数据来源不同，将指标数据划分为多种类型，这里指标数据的类型有三种，分别为指标成果文件类型、第三方指标数据接口类型和复合指标类型。

多源指标数据来源多种多样，本发明实施例涉及到的数据来源有6种，分别为：

1、从空间数据通过第三方库抽取或模型服务计算所得的指标数据；2、外部资料文献梳理录入的指标数据；3、通过第三方系统共享交换的指标数据4、通过系统填报汇交实时同步数据库的指标数据5、市县规划成果包中的指标数据；6、根据内部单一指标数据通过复合指标计算入库获得的复合指标。

上述6种指标数据分成三个类型，分别为指标成果文件类型、第三方指标数据接口类型和复合指标类型。其中指标成果文件类型具体为指标来源为文件格式的数据，比如前述的类型2、5；第三方指标数据接口类型具体为指标来源为第三方接口形式，比如前述的类型1、3、4；复合指标类型具体为指标来源为复合指标，比如前述的类型6。

步骤S2、根据指标数据的类型，通过调度规则将不同类型的指标数据按照统一的对象进行指标数据入库。

本步骤针对不同类型的指标数据，通过型计算调度系数，并根据调度系数自适应创建相应数量的解析服务节点，进行指标数据入库操作。

对于单一行政区指标，调度系数用E表示，三种类型的指标数据，其基础参数分别用A、B、C表示，基础参数是表示这三类型来源的指标数据通过服务计算所消耗的时间系数变量，三个基础之间又存在倍数关系，A、B、C的比例始终是保持在3:2:1。指标成果文件类型、第三方指标数据接口类型和复合指标类型的基础参数分别为A、B、C。另外用n表示执行次数，即计算调度系数的次数。

本步骤实现的是对于多来源的指标数据通过调度规则将不同类型的指标数据按照统一的对象进行指标数据入库，调度规则是通过指标数据来源类型、指标数据量、当前环境情况等因素自动调节，以最大限度提高多源指标数据入库效率，调度规则通过指标调度系数进行量化。

为了方便描述，对于单一行政区的指标调度系数，用E表示。下面针对三种类型的指标数据的调度系数计算进行具体说明。

(1)指标成果文件类型的指标数据

如果指标数据的文件格式是excel时，E＝A+T×A²，T表示excel文件解析执行的时间，单位为秒,excel解析时间越长，说明对服务计算能力越高，调度系数越高；当文件格式是zip时，E＝A+2L×A ²/100,L表示zip包的大小，单位为兆，计算每百兆文件的耗时，从而计算出服务调度系数，zip包文件执行效率比单文件执行效率要慢2倍。即：

(2)第三方指标数据接口类型的指标数据

当指标数据来源为第三方指标数据接口的形式，接口类型有空间模型分析接口、第三方接口和省市县三级汇交接口，按照复杂度，不同的数据接口类型，第三方接口<省市县三级汇交接口<空间模型分析接口，分别设为B、2B和3B。设接口类型为N，N＝[B,2B,3B],调度系数E＝B+N，N根据接口类型取三个常量，分别为B、2B和3B。即：

E＝B+N,N＝[B,2B,3B]

(3)复合指标类型的指标数据

根据复合指标计算公式中包含单一指标的个数，调度系数会动态变化，比如城镇人均GDP＝【城镇GDP】/【城镇人口】，在这个计算式里面，包含了两个指标，调度器内部需要查到这两个指标的数据进行复合计算，E＝C+Count(zb)×C，Count(zb)表示复合指标中含有指标的个数。即：

E＝C+Count(zb)×C

对于上述三种类型，如果是省市县三级指标独立，并且指标已存在，即可用K＝E表示整个调度规则的调度系数，如果指标不存在的话，K＝E+0.2,常量0.2表示指标判断逻辑所消耗的系数。如果涉及到省市县三级指标联动统计，则需要对调度系数求和来计算总调度系数。因此总的调度系数：Cxzqh表示当前指标解析的行政区划个数，M＝[0,1]，M为常量，表示是否需要创建指标项，M＝0表示不需要创建，M＝1表示需要创建。t读秒时间，即相邻两次调度系数计算的间隔时间，单位为秒。t越大频率越小，调度系数成递减趋势。

因此综上所述，总的调度系数Kn可整理如下：

如果省市县三级指标独立，

指标数据的类型为指标成果文件类型且文件格式是excel时，K_n＝A+T×A²+0.2×M-t/60；

指标数据的类型为指标成果文件类型且文件格式是zip时，K_n＝A+2L×A²/100+0.2×M-t/60；

指标数据的类型为第三方指标数据接口类型时，K_n＝B+N+0.2×M-t/60；

指标数据的类型为复合指标类型时，K_n＝C+Count(zb)×C+0.2×M-t/60；

如果省市县三级指标联动，

指标数据的类型为指标成果文件类型且文件格式是excel时，

指标数据的类型为指标成果文件类型且文件格式是zip时，

指标数据的类型为第三方指标数据接口类型时，

指标数据的类型为复合指标类型时，

在初始状态下，n＝1，A+B+C＝1；当n>1时，A+B+C＝K_n-1，同时都要满足A＝3C，B＝2C，比如n＝1时，A、B、C分别为1/2、1/3、1/6。当n大于1时，A、B、C的比例始终是保持在3:2:1。

在得到调度系数之后，调度器内部可以自动对多源数据入库模型解析服务进行自动伸缩服务，并根据调度系数自适应创建相应数量的解析服务节点。具体的，随着调度系数越高，调度器自动创建更多解析服务节点，随着调度系数越低，调度器自动关闭解析服务节点，以达到资源最大利用率和提高多源数据入库的效率。解析服务节点用于下次指标数据的解析。

作为一种具体实例，解析服务节点数量【K_n】＝ceil(K_n/10),ceil为取整函数，当【K_n】≤1时，解析服务节点数量为1；当1<【K_n】≤10时,解析服务节点数量为2；当10<【K_n】≤100时,解析服务节点数量为3；当【K_n】>100时,解析服务节点数量为4，根据解析服务的服务器资源，解析服务节点最少1个，最多4个。

对于指标数据的入库操作，结合图2所示，具体过程如下：

S21、获取待入库指标数据的指标元信息。

指标是反映一定特征的信息，比如GDP、全市人口数量、人均生活用水量等。指标通过指标元数据定义形成可以具象化的指标项，按照定义的先后顺序包含了指标基本信息、指标来源元数据、指标维度、指标计算信息、数据存储信息拓展信息。

指标项是最小指标的具象化，可以通过指标元信息来定义指标的含义，比如永久基本农田面积、森林覆盖率、人均GDP就是指标项。指标元信息是指定义指标项的属性信息，比如单位、版本、来源、计算公式、类型等。指标数据是指标在多维度下的具体值。指标基本信息包含了指标编码、指标名称、指标单位、指标版本必要的元信息，指标元信息是对指标最基本的定义。

指标维度信息包含了空间维度、时间维度、业务维度。空间维度：指按照区域的形式来存储指标数据，比如省市县三级行政区，或者大湾区、粤东区的经济区；时间维度：指按照时间的形式来存储指标数据，比如年、月、日、时、分、季度、周等维度；业务维度：指标业务上的属性，比如永久基本农田包含耕地、水田、旱浇地等业务维度，或者按照部门定义登记证书的情况。

S22、根据指标元信息确定当前指标数据的入库更新频率。

指标的来源形式对指标数据更新频率和存储形式有一定的影响。比如第三方库抽取或空间数据计算模型服务可能更新频率较高，而第三方系统共享交换的外部数据导入的更新频率较低。通过指标元信息的来源可确定指标数据的入库更新频率是高频率还是低频率。

S23、如果是高频率，对于首次入库的指标数据，直接连接非关系型数据库并入库操作，对于非首次入库的指标数据，检测服务器节点的剩余容量，如果剩余容量未达到80％，则直接连接非关系型数据库并入库操作，如果剩余容量达到80％，则连接备用的服务器节点创建非关系型数据库并入库操作；

S24、如果是低频率，对于首次入库的指标数据，直接连接关系型数据库创建表结构并入库操作，对于非首次入库的指标数据，检测服务器节点的剩余容量，如果剩余未达到80％，进一步判断数据表是否达到百万条数据，如果达到则创建表结构后入库操作，如果未达到，则直接进行数据入库操作；如果剩余容量达到80％，则连接备用的服务器节点创建新的关系型数据库，创建表结构后入库操作。

本实施例中，服务器节点用于操作数据入库，可根据服务器的剩余容量自动连接备用服务器节点。另外，本步骤还可以定时自动扫描数据所在的服务器节点，计算当前服务器节点工作效率Q，Q＝Z×(R+S(1-q)),其中Z表示CPU负载平均值，该值其决定因素，一旦满负载，次数磁盘读写效率q也会降低，直接影响服务器工作效率Q；q表示磁盘读写效率，R表示服务器内存使用率，内存会随着服务器数据库数据增加而增加；S表示数据库磁盘使用率，磁盘使用率越高，磁盘读写效率也会下降。当Q大于或等于0.8时，自动查找备用服务器节点。当节点不存在时，会给用户预警，否则，会在该节点上根据指标数据的更新频率自动构建数据库，并将该数据库加到指标数据存储源队列中，供数据存储使用。

本发明根据数据库所在的服务器的剩余容量预测服务器伸缩节点，在通过docker镜像自动构建数据库容器，并将该节点自动列入到方法中的备用数据库节点中，指标数据存储时，根据数据更新频率自动识别关系型数据库和非关系型数据库，根据当前存储表的数据条数，达到百万级数据自动构建数据存储空间存储，当数据库的服务器节点存储容量超过80％则自动启用备选服务器节点。所有的指标数据存储均实现了节点自动伸缩、数据库自动选型、数据库自动构建、数据存储空间自动构建和数据识别入库全智能化。

本发明可以根据指标自身的特性和元信息的定义，实现指标数据自动化分表分库存储，对于更新频率低的数据可以采用关系型数据库进行存储，对于更新频率高的指标数据可以采用非关系型数据库进行存储，根据服务器自身的容量和性能，进行自动化扩表扩库，实现了多源指标数据的存储，能满足对不同来源的指标数据按照一定的规则进行不同形式的存储，可支持亿级以上的指标数据存储，同时可以保证指标数据存储的扩展性和提供高效率的使用服务，且配置简单。

实施例二

所述多源指标数据智能存储的管理装置，所述管理装置包括：

其中所述调度规则如下：

根据指标数据的类型计算调度系数，并根据调度系数自适应创建相应数量的解析服务节点，进行指标数据入库操作。

作为一种具体方式，所述调度系数Kn计算式如下：

如果省市县三级指标独立，

如果省市县三级指标联动，

指标数据的类型为指标成果文件类型且文件格式是excel时，

指标数据的类型为指标成果文件类型且文件格式是zip时，

指标数据的类型为第三方指标数据接口类型时，

指标数据的类型为复合指标类型时，

均满足

其中n表示执行次数，Cxzqh表示当前指标解析的行政区划个数，T表示excel文件解析执行的时间，单位为秒，L表示zip包的大小，单位为兆，N表示不同的数据接口类型，当为第三方接口时N＝B，当为省市县三级汇交接口时，N＝2B，当为空间模型分析接口时,N＝3B，Count(zb)表示复合指标中含有指标的个数，t表示相邻两次调度系数计算的间隔时间，单位为秒，M为常量，表示是否需要创建指标项，M＝0表示不需要创建，M＝1表示需要创建。

另外，根据调度系数自适应创建相应数量的解析服务节点的具体方式如下：

解析服务节点数量【K_n】＝ceil(K_n/10),ceil为取整函数，当【K_n】≤1时，解析服务节点数量为1；当1<【K_n】≤10时,解析服务节点数量为2；当10<【K_n】≤100时,解析服务节点数量为3；当【K_n】>100时,解析服务节点数量为4。

上述过程中，指标数据入库的具体过程如下：

获取待入库指标数据的指标元信息；

根据指标元信息确定当前指标数据的入库更新频率；

如果是高频率，对于首次入库的指标数据，直接连接非关系型数据库并入库操作，对于非首次入库的指标数据，检测服务器节点的剩余容量，如果剩余容量未达到80％，则直接连接非关系型数据库并入库操作，如果剩余容量达到80％，则连接备用的服务器节点创建非关系型数据库并入库操作；

如果是低频率，对于首次入库的指标数据，直接连接关系型数据库创建表结构并入库操作，对于非首次入库的指标数据，检测服务器节点的剩余容量，如果剩余未达到80％，进一步判断数据表是否达到百万条数据，如果达到则直接连接备用服务器节点，并创建新的关系型数据库连接，创建表结构后入库操作，如果未达到，则直接进行数据入库操作；如果剩余容量达到80％，则连接备用的服务器节点创建新的关系型数据库，创建表结构后入库操作。

本实施例总，指标数据入库过程中定时扫描服务器节点，并计算服务器节点的工作效率Q＝Z×(R+S(1-q)),其中Z表示CPU负载平均值，q表示磁盘读写效率q，R表示服务器内存使用率，S表示数据库磁盘使用率；当Q大于或等于0.8时，自动查找备用服务器节点。

本实施例单元对应实现了实施例一各步骤，具体过程不再赘述。

本发明实现了对多源指标进行自动化自能存储，实现了根据指标元信息的定义进行智能存储，并通过成体系的管理，能通过指标数据的关联实现多指标定制化关联接口，满足多样化的需求，其次对原始数据操作简单，转繁为简的配置，使其易移植、易上手、易扩展。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多源指标数据智能存储的管理方法，其特征在于，所述方法包括下述步骤：

根据指标数据的类型，通过调度规则将不同类型的指标数据按照统一的对象进行指标数据入库；

所述调度规则如下：

根据指标数据的类型计算调度系数，并根据调度系数自适应创建相应数量的解析服务节点，进行指标数据入库操作；

其中，所述调度系数Kn计算式如下：

如果省市县三级指标独立，

如果省市县三级指标联动，

指标数据的类型为指标成果文件类型且文件格式是excel时，

指标数据的类型为指标成果文件类型且文件格式是zip时，

指标数据的类型为第三方指标数据接口类型时，

指标数据的类型为复合指标类型时，

均满足

指标成果文件类型、第三方指标数据接口类型和复合指标类型的基础参数分别为A、B、C，其中n表示执行次数，Cxzqh表示当前指标解析的行政区划个数，T表示excel文件解析执行的时间，单位为秒，L表示zip包的大小，单位为兆，N表示不同的数据接口类型，当为第三方接口时N＝B，当为省市县三级汇交接口时，N＝2B，当为空间模型分析接口时,N＝3B，Count(zb)表示复合指标中含有指标的个数，t表示相邻两次调度系数计算的间隔时间，单位为秒，M为常量，表示是否需要创建指标项，M＝0表示不需要创建，M＝1表示需要创建；

其中，根据调度系数自适应创建相应数量的解析服务节点的具体方式如下：

2.如权利要求1所述多源指标数据智能存储的管理方法，其特征在于，指标数据入库的具体过程如下：

获取待入库指标数据的指标元信息；

根据指标元信息确定当前指标数据的入库更新频率；

如果是低频率，对于首次入库的指标数据，直接连接关系型数据库创建表结构并入库操作，对于非首次入库的指标数据，检测服务器节点的剩余容量，如果剩余未达到80％，进一步判断数据表是否达到百万条数据，如果达到则创建表结构后入库操作，如果未达到，则直接进行数据入库操作；如果剩余容量达到80％，则连接备用的服务器节点创建新的关系型数据库，创建表结构后入库操作。

3.如权利要求2所述多源指标数据智能存储的管理方法，其特征在于，指标数据入库过程中定时扫描服务器节点，并计算服务器节点的工作效率Q＝Z×(R+S(1-q)),其中Z表示CPU负载平均值，q表示磁盘读写效率q，R表示服务器内存使用率，S表示数据库磁盘使用率；当Q大于或等于0.8时，自动查找备用服务器节点。

4.一种多源指标数据智能存储的管理装置，其特征在于，所述管理装置包括：

数据入库单元，用于根据指标数据的类型，通过调度规则将不同类型的指标数据按照统一的对象进行指标数据入库；

所述调度规则如下：

其中，所述调度系数Kn计算式如下：

如果省市县三级指标独立，

如果省市县三级指标联动，

指标数据的类型为指标成果文件类型且文件格式是excel时，

指标数据的类型为指标成果文件类型且文件格式是zip时，

指标数据的类型为第三方指标数据接口类型时，

指标数据的类型为复合指标类型时，

均满足

其中根据调度系数自适应创建相应数量的解析服务节点的具体方式如下：