CN116166734B

CN116166734B - 一种数据中台中大规模异构数据的存储方法

Info

Publication number: CN116166734B
Application number: CN202310182363.0A
Authority: CN
Inventors: 李金宝; 王琪琛; 郭亚红; 魏诺; 徐鹏摇
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-09-12
Anticipated expiration: 2043-02-24
Also published as: CN116166734A

Abstract

一种数据中台中大规模异构数据的存储方法，通过时间和空间两个维度对数据中台大规模异构数据进行管理和存储，突出了工业大数据的时空表征，具有管理方便和便于统计分析的特点。大规模异构数据经过时间和空间两个维度的结构组织，形成一种特殊的二维管理结构，并以经过两个维度的组织所划分出的时空管理单元作为最小数据管理单位，该数据管理单元具有优先级分数属性，该属性极大地方便了系统对数据的管理。

Description

一种数据中台中大规模异构数据的存储方法

技术领域

本发明涉及工业大数据技术领域，具体涉及一种数据中台中大规模异构数据的存储方法。

背景技术

随着工业生产中数字化、自动化的不断发展，制造企业对数据的依赖日益提升，同时也越来越多地产生大规模工业数据。通过应用合理的数据管理和存储方式，可以使工业生产变得智能。由于工厂机器的不间断运行和现代工厂巨大的生产规模，工业大数据有着海量性和实时性的特点，给数据的存储和管理带来了挑战。工业大数据在工厂运行中产生的来源多种多样，例如传感器、生产设备、物流车辆、现场监控视频、巡检图像等。不同来源产生的海量数据往往使用不同的表示方法和结构规范来定义，这些高度分布式的数据来源给工业数据的访问、集成和共享带来了挑战。此外，传统的大数据管理和存储方式往往缺乏时空表征。在工业生产中，数据采集设备所采集的每条数据都具有时间属性。并且，每个数据采集设备都具有其特定的空间位置，数据采集设备之间也可能存在一定的空间联系。时间和空间相关性是工业数据的重要属性。在数据分析和处理过程中，时间和空间也是统计分析的重要维度。

发明内容

本发明为了克服以上技术的不足，提供了一种以时间和空间两个维度对数据中台大规模异构数据进行管理和存储，突出了工业大数据的时空表征，管理方便和便于统计分析的方法。

本发明克服其技术问题所采用的技术方案是：

一种数据中台中大规模异构数据的存储方法，包括如下步骤：

a)在数据中台中安装一个数据采集框架，数据采集框架中包含N个数据采集设备，第i个数据采集设备为s_i，i＝{1,2,...,N}，s_i∈S，S为数据采集设备的集合，数据中台通过数据采集框架实时采集各种不同结构的原始数据为D_RAW，从第i个数据采集设备s_i中采集的原始数据为d_i，d_i∈D_RAW；

b)对原始数据D_RAW按照两级嵌套无向图结构的空间关系进行空间联系映射，得到经过空间联系映射的异构数据D_G；

c)对异构数据D_G在时间维度上进行重叠时序切分，得到时序数据段D_TSEGt，将切分后的时序数据段D_TSEGt写入数据存储集群的数据存储节点中储存；

d)将时序数据段D_TSEGt中第u个数据采集设备所采集的原始数据d_u构造为一个时空管理单元U，d_u∈D_RAW，时空管理单元U的自身属性包括数据段起始时间T_USTS、数据段终止时间T_UETS及优先级分数A；

e)设定系统的存储和算力资源由数据中台在时空管理单元U层面上进行统一管理的管理规则；

f)设定时空管理单元U的优先级分数A的变化规则。

进一步的，步骤a)中数据采集设备为传感器、生产设备、监控、接口应用程序、网络爬虫，据采集框架实时采集包括传感器数据采集、生产设备信息采集、现场监控视频采集、接口应用程序接入采集、网络爬虫采集。

进一步的，步骤b)包括如下步骤：

b-1)具有空间联系的各个数据采集设备所采集的数据构成集合D′_RAW，集合D′_RAW中各个数据采集设备所采集的数据作为内层图结构D_INNER的顶点，以集合D′_RAW各个数据采集设备所采集的数据之间的空间联系作为内层图结构D_INNER的边，D_INNER＝(D′_RAW,E_INNER)，E_INNER为内层图结构的边的集合，/>为第i个设备组，d_n为第n个数据采集设备所采集的数据，d_n∈D_RAW，<d_n,d_m>为第n个数据采集设备所采集的数据与第m个数据采集设备所采集的数据之间的边，d_m∈D_RAW，<d_n,d_m>∈E_INNER，各个设备组构成内层图结构D_INNER；b-2)将内层图结构D_INNER的边的集合E_INNER赋以权，权的值为集合D′_RAW中第n个数据采集设备d_n所采集的数据与第m个数据采集设备d_m所采集的数据之间的空间距离，n＝{1,2,...,N}，m＝{1,2,...,N}，第n个数据采集设备d_n所采集的数据与第m个数据采集设备d_m所采集的数据之间的空间距离定义为二者之间的最短路径XG_nm；

b-3)将第i个设备组作为外层图结构D_G的顶点，将第i个设备组/>与第j个设备组/>之间的空间联系为E_TL，将E_TL作为外层图结构D_G的边，D_G＝(DS,E_TL)，DS为系统中所有设备组的集合。

进一步的，步骤c)包括如下步骤：

c-1)初始化若干新时序数据段，t时序的时序数据段为D_TSEGt,时序数据段D_TSEGt初始化时，将其写入相邻的上一个时序t-1时序的时序数据段D_TSEGt-1中时间上后50％的数据；

c-2)将异构数据D_G按照时间顺序写入时序数据段D_TSEGt中，直到该时序数据段D_TSEGt达到指定的时间单位长度L，记录时序数据段D_TSEGt中所写入的异构数据D_G的起始时间T_DSTS和终止时间T_DETS；

c-3)将时序数据段D_TSEGt写入数据存储集群的数据存储节点中储存，且将时序上相邻的时序数据段D_TSEGt与时序数据段D_TSEGt-1存储在不同的数据存储节点。

进一步的，步骤d)包括如下步骤：

d-1)从时序数据段D_TSEGt中获取第u个数据采集设备所采集的原始数据d_u用来构建时空理单元U；

d-2)从时序数据段D_TSEGt中获取写入的异构数据D_G的起始时间T_DSTS和终止时间T_DETS，将起始时间T_DSTS作为时空理单元U的数据段起始时间T_USTS，将终止时间T_DETS作为时空理单元U的数据段终止时间T_UETS；

d-3)初始化时空理单元U的优先级分数A，优先级分数A范围区间为[0.00,1.00]。

进一步的，步骤e)中系统的存储和算力资源为内存、CPU、磁盘。

进一步的，步骤e)包括如下步骤：

e-1)设定系统对时空管理单元U的存储规则为：

e-1.1)当时空管理单元U的优先级分数A处于区间[0.80,1.00]时，对该时空管理单元U进行额外的数据备份；

e-1.2)当时空管理单元U的优先级分数A小于0.80时，时空管理单元U不进行额外的数据备份，通过其时序上前后相邻的两个时空管理单元U中的重叠数据进行备份；

e-1.3)当时空管理单元U的优先级分数A小于0.10时，系统提示数据管理员该时空管理单元U的优先级分数A较低，由数据管理员选择是否删除该时空管理单元U；

e-2)设定系统在时空管理单元U被访问和分析时的算力资源分配规则为：

e-2.1)当时空管理单元U的优先级分数A等于1.00时，该时空管理单元U被读取和处理时所分配的算力资源为F_U；

e-2.2)通过公式F＝A×F_U计算得到时空管理单元U被读取和处理时所分配的算力资源F。

进一步的，步骤f)包括如下步骤：

f-1)设定时空管理单元U的优先级分数A随时间推移发生变化的规则：

f-1.1)通过公式计算得到时空管理单元U的优先级分数A，式中A_RAW为时空管理单元U上次被初始化或因被访问而调整或被手动调整的优先级分数，α为参数，XT_LAP为时空管理单元U上次被初始化或因被访问而调整或被手动调整优先级分数的时间与当前时间之间的距离，所述距离为L；

f-2)在空间维度上对处于同一个设备组中的数据的时空管理单元U的优先级分数A进行调整，调整规则为：

其中，A_SRC为需要调整时空管理单元U调整之前的优先级分数，XT_DFT为需要调整时空管理单元U与被访问的时空管理单元U在时间维度上以L为单位的距离，XG_DFT为需要调整时空管理单元U与被访问的时空管理单元U在空间维度的无向连通图中的最短路径长度，TH为阈值，σ为参数。

本发明的有益效果是：通过时间和空间两个维度对数据中台大规模异构数据进行管理和存储，突出了工业大数据的时空表征，具有管理方便和便于统计分析的特点。在空间维度上将数据中台的来自各种数据采集设备的异构数据按照其数据来源真实的空间联系映射成一种两级嵌套无向图结构，可以直观地对不同数据采集设备所采集的数据进行分级管理。在时间维度上采用了使用了重叠时序切分的方法对大规模异构数据进行分时间段管理，并在时间维度上对大规模异构数据进行时序存储，不仅保留了数据的时间表征，还具备自然的容灾备份能力。大规模异构数据经过时间和空间两个维度的结构组织，形成一种特殊的二维管理结构，并以经过两个维度的组织所划分出的时空管理单元作为最小数据管理单位，该数据管理单元具有优先级分数属性，该属性极大地方便了系统对数据的管理。

附图说明

图1为本发明的两级嵌套无向图结构示意图；

图2为本发明的大规模异构数据的时序切分示意图；

图3为本发明的时序数据存储示意图；

图4为本发明的时空管理单元优先级分数随时间降低系数曲线图；

图5为本发明的时空管理单元因数据访问而计算出的优先级分数与邻近程度的关系曲线图。

具体实施方式

下面结合附图1至附图5对本发明做进一步说明。

a)在数据中台中安装一个数据采集框架，数据采集框架中包含N个数据采集设备，第i个数据采集设备为s_i，i＝{1,2,...,N}，s_i∈S，S为数据采集设备的集合，数据中台通过数据采集框架实时采集各种不同结构的原始数据为D_RAW，从第i个数据采集设备s_i中采集的原始数据为d_i，d_i∈D_RAW。

b)对原始数据D_RAW按照两级嵌套无向图结构的空间关系进行空间联系映射，得到经过空间联系映射的异构数据D_G。本发明采用一种两级嵌套无向图结构对数据中台的大规模异构数据在空间维度上进行统一管理。将来自数据中台的各种数据采集设备S的异构数据D_RAW按照其数据来源真实的空间联系建立不同数据之间的空间联系映射，得到两级嵌套无向图结构的异构数据D_G。来自不同数据采集设备的数据d_i∈D_RAW之间的空间联系由数据管理员进行设置。本发明中的空间概念不仅是狭义上的地理空间，而泛指设备之间因为各种原因所产生的相互联系。

c)对两级嵌套无向图结构的异构数据在时间维度上进行处理。本发明中在时间维度上不考虑各种数据的来源和结构，而通过重叠时序切分的方法对经过空间联系映射的大规模异构数据进行分时间段管理，并在时间维度上对大规模异构数据进行时序存储。因此，对异构数据D_G在时间维度上进行重叠时序切分，得到时序数据段D_TSEGt，将切分后的时序数据段D_TSEGt写入数据存储集群的数据存储节点中储存。

d)大规模异构数据经过时间和空间两个维度的组织被储存至数据存储节点后，将时序数据段D_TSEGt中第u个数据采集设备所采集的原始数据d_u构造为一个时空管理单元U，d_u∈D_RAW，时空管理单元U的自身属性包括数据段起始时间T_USTS、数据段终止时间T_UETS及优先级分数A。

e)设定系统的存储和算力资源由数据中台在时空管理单元U层面上进行统一管理的管理规则。管理规则依据时空管理单元U的优先级分数A。

f)设定时空管理单元U的优先级分数A的变化规则。优先级分数A会随着时间推移、访问情况发生变化，也可通过数据管理员直接手动调整。

实施例1：

步骤a)中数据采集设备为传感器、生产设备、监控、接口应用程序、网络爬虫，据采集框架实时采集包括传感器数据采集、生产设备信息采集、现场监控视频采集、接口应用程序接入采集、网络爬虫采集。

实施例2：

步骤b)包括如下步骤：

b-1)具有空间联系的各个数据采集设备所采集的数据构成集合D′_RAW，集合D′_RAW中各个数据采集设备所采集的数据作为内层图结构D_INNER的顶点，以集合D′_RAW各个数据采集设备所采集的数据之间的空间联系作为内层图结构D_INNER的边，D_INNER＝(D′_RAW,E_INNER)，E_INNER为内层图结构的边的集合，/>为第i个设备组，d_n为第n个数据采集设备所采集的数据，d_n∈D_RAW，<d_n,d_m>为第n个数据采集设备所采集的数据与第m个数据采集设备所采集的数据之间的边，d_m∈D_RAW，<d_n,d_m>∈E_INNER，各个设备组构成内层图结构D_INNER。b-2)将内层图结构D_INNER的边的集合E_INNER赋以权，权的值为集合D′_RAW中第n个数据采集设备d_n所采集的数据与第m个数据采集设备d_m所采集的数据之间的空间距离，值越小代表两个数据采集设备所采集的数据之间的空间联系程度越高。由此表示在同一个设备组数据中不同数据采集设备所采集的数据之间的空间联系程度的不同，n＝{1,2,...,N}，m＝{1,2,...,N}，第n个数据采集设备d_n所采集的数据与第m个数据采集设备d_m所采集的数据之间的空间距离定义为二者之间的最短路径XG_nm。

b-3)将第i个设备组作为外层图结构D_G的顶点，将第i个设备组/>与第j个设备组/>之间的空间联系为E_TL，将E_TL作为外层图结构D_G的边，D_G＝(DS,E_TL)，DS为系统中所有设备组的集合。由于设备组数据之间是否存在联系是不确定的，因此，两级嵌套无向图结构的外层图结构的连通性也是不确定的。与内层不同，本发明中不考虑设备组数据之间的空间联系程度，即外层图结构的边无权值。该两级嵌套无向图结构的优点是既有树结构的层次化的特点，又保留了普通图结构灵活多变的特点。该结构可以直观地对不同数据采集设备进行分级管理。

实施例3：

步骤c)包括如下步骤：

c-1)初始化若干新时序数据段，t时序的时序数据段为D_TSEGt,除系统尚未存储任何数据的情况外，时序数据段D_TSEGt初始化时，将其写入相邻的上一个时序t-1时序的时序数据段D_TSEGt-1中时间上后50％的数据。

c-2)将异构数据D_G按照时间顺序写入时序数据段D_TSEGt中，直到该时序数据段D_TSEGt达到指定的时间单位长度L，记录时序数据段D_TSEGt中所写入的异构数据D_G的起始时间T_DSTS和终止时间T_DETS。

c-3)将时序数据段D_TSEGt写入数据存储集群的数据存储节点中储存，且将时序上相邻的时序数据段D_TSEGt与时序数据段D_TSEGt-1存储在不同的数据存储节点。由此，除时序上最前和最后的两个时序数据段外，每个时序数据段前后相邻的两个时序数据段包含了该时序数据段的全部数据。

在时间维度上对大规模异构数据进行时序存储，不仅保留了数据的时间表征，还具备自然的容灾备份能力。除时序上最前和最后的两个时序数据段外，每个时序数据段都对前后相邻的两个时序数据段进行了数据备份，且时序上相邻的时序数据段存储在不同的数据存储节点。因此，当某一个数据存储节点中的数据损坏时，可以通过存储在其他存储节点中的备份数据进行数据恢复。

实施例4：

步骤d)包括如下步骤：

d-1)从时序数据段D_TSEGt中获取第u个数据采集设备所采集的原始数据d_u用来构建时空理单元U。

d-2)从时序数据段D_TSEGt中获取写入的异构数据D_G的起始时间T_DSTS和终止时间T_DETS，将起始时间T_DSTS作为时空理单元U的数据段起始时间T_USTS，将终止时间T_DETS作为时空理单元U的数据段终止时间T_UETS。

d-3)初始化时空理单元U的优先级分数A，优先级分数A范围区间为[0.00,1.00]。把时空管理单元的优先级分数A初始化为1.00，1.00表示该时空管理单元U的重要程度最高。

对大规模异构数据构造时空管理单元U。可以使系统的存储和算力资源由数据中台在时空管理单元U层面上进行统一管理。系统资源管理的依据是时空管理单元U的优先级分数A。

实施例5：

步骤e)中系统的存储和算力资源为内存、CPU、磁盘。

实施例6：

步骤e)包括如下步骤：

e-1)设定系统对时空管理单元U的存储规则为：

e-1.1)当时空管理单元U的优先级分数A处于区间[0.80,1.00]时，对该时空管理单元U进行额外的数据备份。

e-1.2)当时空管理单元U的优先级分数A小于0.80时，时空管理单元U不进行额外的数据备份，通过其时序上前后相邻的两个时空管理单元U中的重叠数据进行备份。

e-1.3)当时空管理单元U的优先级分数A小于0.10时，系统提示数据管理员该时空管理单元U的优先级分数A较低，由数据管理员选择是否删除该时空管理单元U。

e-2.1)当需要访问和分析所存储的大规模异构数据时，需要数据中台对所存储数据进行读取和处理。由于计算机算力资源有限，因此本发明中，使用时空管理单元U的优先级分数A对计算机算力资源的分配进行管理当时空管理单元U的优先级分数A等于1.00时，该时空管理单元U被读取和处理时所分配的算力资源为F_U。

e-2.2)通过公式F＝A×F_U计算得到时空管理单元U被读取和处理时所分配的算力资源F。以此优先级分数A高的时空管理单元U在读取和处理时，可以占用更多的算力资源，以保证更重要数据使用的快速性。

实施例7：

步骤f)包括如下步骤：

f-1.1)在工业生产中，可以认为时间超过某个时间单位阈值而未被访问过的时空管理单元U重要性较低，应该降低其优先级分数A。而直接使用阈值来降低时空管理单元U的优先级分数A的方式较为生硬，且难以反映时空管理单元U的时间表征，不利于大规模异构数据的时序管理。因此本发明使用一种软降低的方式，使随着时间推移，时空管理单元U的优先级分数A随之降低。因此通过公式计算得到时空管理单元U的优先级分数A，式中A_RAW为时空管理单元U上次被初始化或因被访问而调整或被手动调整的优先级分数，/>为优先级分数随时间推移的降低系数，α为一个手工设置参数，XT_LAP为时空管理单元U上次被初始化或因被访问而调整或被手动调整优先级分数的时间与当前时间之间的距离，所述距离为L。时空管理单元U在第αL时优先级分数A会降低到原来的一半。在前0.5αL时，优先级分数A的降低比较缓慢，在第0.5α到1.5αL时，优先级分数A会以比较快的速度降低到比较低的值。

f-2)在工业大规模异构数据的访问中，在一段时间里，时空管理单元U的访问往往呈现出一定的局部性。如果某一个时空管理单元U被访问了，那么在不久的将来，它可能再次被访问的概率较高，而这个时空管理单元U时间维度和空间维度上邻近的时空管理单元将很快被访问的概率也会较高。因此，应该对被访问的时空管理单元U及其时间维度和空间维度上邻近的时空管理单元U的优先级分数A进行调整，因此，在空间维度上对处于同一个设备组中的数据的时空管理单元U的优先级分数A进行调整，调整规则为：

其中，A_SRC为需要调整时空管理单元U调整之前的优先级分数，max(·,·)表示求两个值中的最大值操作，XT_DFT为需要调整时空管理单元U与被访问的时空管理单元U在时间维度上以L为单位的距离，XG_DFT为需要调整时空管理单元U与被访问的时空管理单元U在空间维度的无向连通图中的最短路径长度，。通过max(·,·)操作计算需要调整时空管理单元U与被访问的时空管理单元U之间的切比雪夫距离，并以此距离计算时空管理单元可能需要被调整为的优先级分数。TH为可手工设置的阈值，表示与被访问的时空管理单元U距离小于TH的时空管理单元U的优先级分数A才会被调整。被访问的时空管理单元U的优先级分数A将被调整为1.00，而距离该时空管理单元U距离小于TH的时空管理单元U的优先级分数A将被调整为即若通过/>计算出的优先级分数大于其原来的优先级分数A_SRC，则调整为计算出的优先级分数，否则不予调整。σ为一个可手工设置的参数。该参数影响与被访问的时空管理单元U邻近的时空管理单元U的优先级分数A的调整大小，σ越大，相同距离下时空管理单元U被调整的优先级分数A越大。

下面结合附图和实施例，进一步说明本发明的具体实施方式。

实施例中以机械制造业工厂生产过程中的大规模异构工业数据的存储为例，所论述的具体实施例仅用于说明本发明的实现方式，而不限制本发明的范围。

在该实施例中，步骤a)包括如下步骤：

实施中，在数据中台安装一个提供多种数据采集方式的数据采集框架。数据中台通过此数据采集框架可以从包括但不限于传感器、加工设备日志、车间现场监控等数据采集设备s_i中采集各种不同结构的原始数据d_i。系统中传感器等全部数据采集设备的集合为S，s_i∈S。采集到的原始数据集合为D_RAW，d_i∈D_RAW。

在该实施例中，步骤b)包括如下步骤：

将数据中台中的来自各种数据采集设备s_i∈S(加工设备、传感器、车间监控等)的异构数据d_i∈D_RAW建立空间联系映射，得到两级嵌套无向图结构的异构数据D_G。来自不同数据采集设备的数据d_i∈D_RAW之间的空间联系映射由数据管理员按照其真实的空间联系进行设置。数据中台的大规模异构数据在空间维度上以一种两级嵌套无向图结构进行管理。两级嵌套无向图结构的异构数据D_G如附图1所示。

该结构的内层结构为无向连通图D_INNER＝(D′_RAW,E_INNER)，一个无向连通图结构D_INNER表示真实空间中一组具有空间联系的各种数据采集设备所采集的数据所组成的设备组数据，如附图1机加工车间中的所有数据采集设备所采集的数据及其空间联系。同一设备组数据中的数据d_n∈D_RAW如车床设备数据、车间监控数据等即无向连通图结构D_INNER中的顶点，其之间的空间联系为无向连通图结构的边<d_n,d_m>∈E_INNER。

对无向连通图D_INNER的边E_INNER赋以权，权的值表示两个数据采集设备所采集的数据之间的空间距离，值越小代表两个数据采集设备所采集的数据之间的空间联系程度越高。同一个设备组D_INNER中，任意两个数据采集设备所采集的数据d_n和d_m之间的空间距离定义为二者之间的最短路径XG_nm。如附图1中激光切割机数据和折弯机1数据的空间距离为2。

将如附图1中机加工车间设备组数据、组装车间设备组数据等设备组数据D_INNER作为两级嵌套无向图结构的外层图结构的顶点，设备组之间的空间联系作为外层图结构的边外层图结构的边无权值。

在该实施例中，步骤c)包括如下步骤：

如附图2所示，本实施在时间维度上通过重叠时序切分的方法对对两级嵌套无向图结构的异构数据D_G进行分时间段管理，并在时间维度上对大规模异构数据进行时序存储。D_G按照时间顺序写入时序数据段D_TSEGt，直到该时序数据段达到指定的时序长度。除系统尚未存储任何数据的情况外，新的时序数据段D_TSEGt初始化时便写入上一个时序数据段D_TSEGt-1时间上后50％的数据。如附图2中，时间T至时间T+L之间切分为一个时序数据段D_TSEG1，下一个时序数据段D_TSEG2的切分范围为时间至时间/>即两个相邻时序数据段之间的数据具有50％的重合。

将切分好的时序数据段D_TSEGt写入数据存储集群的数据存储节点中储存。时序上相邻的两个时序数据段存储在不同的数据存储节点，每个时序数据段都对前后相邻的两个时序数据段进行了数据备份。时序数据存储方法如附图3所示。在该实施例中，步骤d)包括如下步骤：

大规模异构数据经过时间和空间两个维度的组织被储存至数据存储节点后，将D_TSEGt中单个数据采集设备所采集的数据d_u，构造为一个时空管理单元U。时空管理单元U中包括所存储的工业数据、数据段起始时间T_DSTS、数据段终止时间T_DETS和优先级分数A。如存储节点中，某时空管理单元U储存了激光切割机所采集的一段数据，数据段起始时间T_DSTS为T，数据段终止时间T_DETS为T+L，优先级分数A初始化为1.00。

在该实施例中，步骤e-1)包括如下步骤：

设定当时空管理单元U的优先级分数A处于区间[0.80,1.00]时，对该时空管理单元U进行额外的数据备份。如若时序数据段D_TSEG3中的激光切割机数据所构造的时空管理单元的注意力分数A为0.90，则对该时空管理单元进行额外的数据备份，此时该时空管理单元的容灾性能相对更强。设定当时空管理单元U的优先级分数A小于0.80时，时空管理单元U不进行额外的数据备份，仅通过其时序上前后相邻的两个时空管理单元U中的重叠数据进行备份。设定当时空管理单元的优先级分数A小于0.10时，系统将提示数据管理员该时空管理单元的优先级分数A较低，是否删除该时空管理单元U以节约存储空间。如若时序数据段D_TSEG1中的车间温湿度传感器数据所构造的时空管理单元的注意力分数A为0.08，则说明该数据的重要程度很低，可由数据管理员判断是否删除该时空管理单元以节约存储空间。

在该实施例中，步骤e-2)包括如下步骤：

设定使用时空管理单元U的优先级分数A对计算机资源的调度进行管理，记当A＝1.00的时空管理单元被读取和处理时所分配的算力资源为F_U，则时空管理单元U被读取和处理时所分配的算力资源F与其优先级分数A的关系为F＝A×F_U。如若时序数据段D_TSEG3中的车床1数据所构造的时空管理单元U_a的注意力分数A_a为0.82，时序数据段D_TSEG2中的折弯机2数据所构造的时空管理单元U_b的注意力分数A_b为0.75。当需要对U_a和U_b进行读取和处理时，分配用来读取和处理U_a的算力资源为0.82F，分配用来读取和处理U_b的算力资源为0.75F。对U_a的读取和处理将占用相对U_b更多的算力资源。在该实施例中，步骤f-1)包括如下步骤：

设定时空管理单元的优先级分数随着时间推移发生降低的规则为

若设置α＝1000，某时空管理单元的优先级分数被初始化为1.00，则根据优先级分数随时间推移的降低系数该时空管理单元的优先级分数会在初始化后的第500L降低到0.50。优先级分数随时间降低系数曲线如附图4所示。

在该实施例中，步骤f-2)包括如下步骤：

设定当时空管理单元U被访问时，在空间维度上对处于同一个设备组数据中的数据的时空管理单元U的优先级分数A进行调整，且只有与被访问的时空管理单元U的切比雪夫距离小于TH的时空管理单元U的优先级分数A才会被调整。设定调整规则为：

通过可计算出一个时空管理单元U可能需要调整为的优先级分数，计算出的优先级分数与邻近程度的关系在σ被设置为0.02的情况下如附图5所示。

若设置σ＝0.02，TH＝60，如时序数据段D_TSEG1中的铣床数据所构造的时空管理单元U_c被访问，U_c的优先级分数A_c被系统调整为1.00。时序数据段D_TSEG30中的车间监控2数据所构造的时空管理单元U_d的优先级分数A_d为0.75，且U_d与U_c在时间维度上的距离为29，在无向连通图中的最短路径长度为5，则根据max(XT_DFT,XG_DFT)计算得切比雪夫距离为29。29＜TH，A_d此时允许被调整。通过计算出A_d可能需要调整为0.85，由于0.85＞A_d，系统将A_d调整为0.85。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据中台中大规模异构数据的存储方法，其特征在于，包括如下步骤：

a)在数据中台中安装一个数据采集框架，数据采集框架中包含N个数据采集设备，第i个数据采集设备为s_i，i＝{1,2,…,N}，s_i∈S，S为数据采集设备的集合，数据中台通过数据采集框架实时采集各种不同结构的原始数据为D_RAW，从第i个数据采集设备s_i中采集的原始数据为d_i，d_i∈D_RAW；

f)设定时空管理单元U的优先级分数A的变化规则。

2.根据权利要求1所述的数据中台中大规模异构数据的存储方法，其特征在于：步骤a)中数据采集设备为传感器、生产设备、监控、接口应用程序、网络爬虫，据采集框架实时采集包括传感器数据采集、生产设备信息采集、现场监控视频采集、接口应用程序接入采集、网络爬虫采集。

3.根据权利要求1所述的数据中台中大规模异构数据的存储方法，其特征在于，步骤b)包括如下步骤：

4.根据权利要求1所述的数据中台中大规模异构数据的存储方法，其特征在于，步骤c)包括如下步骤：

5.根据权利要求4所述的数据中台中大规模异构数据的存储方法，其特征在于，步骤d)包括如下步骤：

6.根据权利要求1所述的数据中台中大规模异构数据的存储方法，其特征在于：步骤e)中系统的存储和算力资源为内存、CPU、磁盘。

7.根据权利要求1所述的数据中台中大规模异构数据的存储方法，其特征在于，步骤e)包括如下步骤：

e-1)设定系统对时空管理单元U的存储规则为：

8.根据权利要求1所述的数据中台中大规模异构数据的存储方法，其特征在于，步骤f)包括如下步骤：