CN116166734B - 一种数据中台中大规模异构数据的存储方法 - Google Patents
一种数据中台中大规模异构数据的存储方法 Download PDFInfo
- Publication number
- CN116166734B CN116166734B CN202310182363.0A CN202310182363A CN116166734B CN 116166734 B CN116166734 B CN 116166734B CN 202310182363 A CN202310182363 A CN 202310182363A CN 116166734 B CN116166734 B CN 116166734B
- Authority
- CN
- China
- Prior art keywords
- data
- time
- space
- management unit
- priority score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种数据中台中大规模异构数据的存储方法,通过时间和空间两个维度对数据中台大规模异构数据进行管理和存储,突出了工业大数据的时空表征,具有管理方便和便于统计分析的特点。大规模异构数据经过时间和空间两个维度的结构组织,形成一种特殊的二维管理结构,并以经过两个维度的组织所划分出的时空管理单元作为最小数据管理单位,该数据管理单元具有优先级分数属性,该属性极大地方便了系统对数据的管理。
Description
技术领域
本发明涉及工业大数据技术领域,具体涉及一种数据中台中大规模异构数据的存储方法。
背景技术
随着工业生产中数字化、自动化的不断发展,制造企业对数据的依赖日益提升,同时也越来越多地产生大规模工业数据。通过应用合理的数据管理和存储方式,可以使工业生产变得智能。由于工厂机器的不间断运行和现代工厂巨大的生产规模,工业大数据有着海量性和实时性的特点,给数据的存储和管理带来了挑战。工业大数据在工厂运行中产生的来源多种多样,例如传感器、生产设备、物流车辆、现场监控视频、巡检图像等。不同来源产生的海量数据往往使用不同的表示方法和结构规范来定义,这些高度分布式的数据来源给工业数据的访问、集成和共享带来了挑战。此外,传统的大数据管理和存储方式往往缺乏时空表征。在工业生产中,数据采集设备所采集的每条数据都具有时间属性。并且,每个数据采集设备都具有其特定的空间位置,数据采集设备之间也可能存在一定的空间联系。时间和空间相关性是工业数据的重要属性。在数据分析和处理过程中,时间和空间也是统计分析的重要维度。
发明内容
本发明为了克服以上技术的不足,提供了一种以时间和空间两个维度对数据中台大规模异构数据进行管理和存储,突出了工业大数据的时空表征,管理方便和便于统计分析的方法。
本发明克服其技术问题所采用的技术方案是:
一种数据中台中大规模异构数据的存储方法,包括如下步骤:
a)在数据中台中安装一个数据采集框架,数据采集框架中包含N个数据采集设备,第i个数据采集设备为si,i={1,2,...,N},si∈S,S为数据采集设备的集合,数据中台通过数据采集框架实时采集各种不同结构的原始数据为DRAW,从第i个数据采集设备si中采集的原始数据为di,di∈DRAW;
b)对原始数据DRAW按照两级嵌套无向图结构的空间关系进行空间联系映射,得到经过空间联系映射的异构数据DG;
c)对异构数据DG在时间维度上进行重叠时序切分,得到时序数据段DTSEGt,将切分后的时序数据段DTSEGt写入数据存储集群的数据存储节点中储存;
d)将时序数据段DTSEGt中第u个数据采集设备所采集的原始数据du构造为一个时空管理单元U,du∈DRAW,时空管理单元U的自身属性包括数据段起始时间TUSTS、数据段终止时间TUETS及优先级分数A;
e)设定系统的存储和算力资源由数据中台在时空管理单元U层面上进行统一管理的管理规则;
f)设定时空管理单元U的优先级分数A的变化规则。
进一步的,步骤a)中数据采集设备为传感器、生产设备、监控、接口应用程序、网络爬虫,据采集框架实时采集包括传感器数据采集、生产设备信息采集、现场监控视频采集、接口应用程序接入采集、网络爬虫采集。
进一步的,步骤b)包括如下步骤:
b-1)具有空间联系的各个数据采集设备所采集的数据构成集合D′RAW,集合D′RAW中各个数据采集设备所采集的数据作为内层图结构DINNER的顶点,以集合D′RAW各个数据采集设备所采集的数据之间的空间联系作为内层图结构DINNER的边,DINNER=(D′RAW,EINNER),EINNER为内层图结构的边的集合,/>为第i个设备组,dn为第n个数据采集设备所采集的数据,dn∈DRAW,<dn,dm>为第n个数据采集设备所采集的数据与第m个数据采集设备所采集的数据之间的边,dm∈DRAW,<dn,dm>∈EINNER,各个设备组构成内层图结构DINNER;b-2)将内层图结构DINNER的边的集合EINNER赋以权,权的值为集合D′RAW中第n个数据采集设备dn所采集的数据与第m个数据采集设备dm所采集的数据之间的空间距离,n={1,2,...,N},m={1,2,...,N},第n个数据采集设备dn所采集的数据与第m个数据采集设备dm所采集的数据之间的空间距离定义为二者之间的最短路径XGnm;
b-3)将第i个设备组作为外层图结构DG的顶点,将第i个设备组/>与第j个设备组/>之间的空间联系为ETL,将ETL作为外层图结构DG的边,DG=(DS,ETL),DS为系统中所有设备组的集合。
进一步的,步骤c)包括如下步骤:
c-1)初始化若干新时序数据段,t时序的时序数据段为DTSEGt,时序数据段DTSEGt初始化时,将其写入相邻的上一个时序t-1时序的时序数据段DTSEGt-1中时间上后50%的数据;
c-2)将异构数据DG按照时间顺序写入时序数据段DTSEGt中,直到该时序数据段DTSEGt达到指定的时间单位长度L,记录时序数据段DTSEGt中所写入的异构数据DG的起始时间TDSTS和终止时间TDETS;
c-3)将时序数据段DTSEGt写入数据存储集群的数据存储节点中储存,且将时序上相邻的时序数据段DTSEGt与时序数据段DTSEGt-1存储在不同的数据存储节点。
进一步的,步骤d)包括如下步骤:
d-1)从时序数据段DTSEGt中获取第u个数据采集设备所采集的原始数据du用来构建时空理单元U;
d-2)从时序数据段DTSEGt中获取写入的异构数据DG的起始时间TDSTS和终止时间TDETS,将起始时间TDSTS作为时空理单元U的数据段起始时间TUSTS,将终止时间TDETS作为时空理单元U的数据段终止时间TUETS;
d-3)初始化时空理单元U的优先级分数A,优先级分数A范围区间为[0.00,1.00]。
进一步的,步骤e)中系统的存储和算力资源为内存、CPU、磁盘。
进一步的,步骤e)包括如下步骤:
e-1)设定系统对时空管理单元U的存储规则为:
e-1.1)当时空管理单元U的优先级分数A处于区间[0.80,1.00]时,对该时空管理单元U进行额外的数据备份;
e-1.2)当时空管理单元U的优先级分数A小于0.80时,时空管理单元U不进行额外的数据备份,通过其时序上前后相邻的两个时空管理单元U中的重叠数据进行备份;
e-1.3)当时空管理单元U的优先级分数A小于0.10时,系统提示数据管理员该时空管理单元U的优先级分数A较低,由数据管理员选择是否删除该时空管理单元U;
e-2)设定系统在时空管理单元U被访问和分析时的算力资源分配规则为:
e-2.1)当时空管理单元U的优先级分数A等于1.00时,该时空管理单元U被读取和处理时所分配的算力资源为FU;
e-2.2)通过公式F=A×FU计算得到时空管理单元U被读取和处理时所分配的算力资源F。
进一步的,步骤f)包括如下步骤:
f-1)设定时空管理单元U的优先级分数A随时间推移发生变化的规则:
f-1.1)通过公式计算得到时空管理单元U的优先级分数A,式中ARAW为时空管理单元U上次被初始化或因被访问而调整或被手动调整的优先级分数,α为参数,XTLAP为时空管理单元U上次被初始化或因被访问而调整或被手动调整优先级分数的时间与当前时间之间的距离,所述距离为L;
f-2)在空间维度上对处于同一个设备组中的数据的时空管理单元U的优先级分数A进行调整,调整规则为:
其中,ASRC为需要调整时空管理单元U调整之前的优先级分数,XTDFT为需要调整时空管理单元U与被访问的时空管理单元U在时间维度上以L为单位的距离,XGDFT为需要调整时空管理单元U与被访问的时空管理单元U在空间维度的无向连通图中的最短路径长度,TH为阈值,σ为参数。
本发明的有益效果是:通过时间和空间两个维度对数据中台大规模异构数据进行管理和存储,突出了工业大数据的时空表征,具有管理方便和便于统计分析的特点。在空间维度上将数据中台的来自各种数据采集设备的异构数据按照其数据来源真实的空间联系映射成一种两级嵌套无向图结构,可以直观地对不同数据采集设备所采集的数据进行分级管理。在时间维度上采用了使用了重叠时序切分的方法对大规模异构数据进行分时间段管理,并在时间维度上对大规模异构数据进行时序存储,不仅保留了数据的时间表征,还具备自然的容灾备份能力。大规模异构数据经过时间和空间两个维度的结构组织,形成一种特殊的二维管理结构,并以经过两个维度的组织所划分出的时空管理单元作为最小数据管理单位,该数据管理单元具有优先级分数属性,该属性极大地方便了系统对数据的管理。
附图说明
图1为本发明的两级嵌套无向图结构示意图;
图2为本发明的大规模异构数据的时序切分示意图;
图3为本发明的时序数据存储示意图;
图4为本发明的时空管理单元优先级分数随时间降低系数曲线图;
图5为本发明的时空管理单元因数据访问而计算出的优先级分数与邻近程度的关系曲线图。
具体实施方式
下面结合附图1至附图5对本发明做进一步说明。
一种数据中台中大规模异构数据的存储方法,包括如下步骤:
a)在数据中台中安装一个数据采集框架,数据采集框架中包含N个数据采集设备,第i个数据采集设备为si,i={1,2,...,N},si∈S,S为数据采集设备的集合,数据中台通过数据采集框架实时采集各种不同结构的原始数据为DRAW,从第i个数据采集设备si中采集的原始数据为di,di∈DRAW。
b)对原始数据DRAW按照两级嵌套无向图结构的空间关系进行空间联系映射,得到经过空间联系映射的异构数据DG。本发明采用一种两级嵌套无向图结构对数据中台的大规模异构数据在空间维度上进行统一管理。将来自数据中台的各种数据采集设备S的异构数据DRAW按照其数据来源真实的空间联系建立不同数据之间的空间联系映射,得到两级嵌套无向图结构的异构数据DG。来自不同数据采集设备的数据di∈DRAW之间的空间联系由数据管理员进行设置。本发明中的空间概念不仅是狭义上的地理空间,而泛指设备之间因为各种原因所产生的相互联系。
c)对两级嵌套无向图结构的异构数据在时间维度上进行处理。本发明中在时间维度上不考虑各种数据的来源和结构,而通过重叠时序切分的方法对经过空间联系映射的大规模异构数据进行分时间段管理,并在时间维度上对大规模异构数据进行时序存储。因此,对异构数据DG在时间维度上进行重叠时序切分,得到时序数据段DTSEGt,将切分后的时序数据段DTSEGt写入数据存储集群的数据存储节点中储存。
d)大规模异构数据经过时间和空间两个维度的组织被储存至数据存储节点后,将时序数据段DTSEGt中第u个数据采集设备所采集的原始数据du构造为一个时空管理单元U,du∈DRAW,时空管理单元U的自身属性包括数据段起始时间TUSTS、数据段终止时间TUETS及优先级分数A。
e)设定系统的存储和算力资源由数据中台在时空管理单元U层面上进行统一管理的管理规则。管理规则依据时空管理单元U的优先级分数A。
f)设定时空管理单元U的优先级分数A的变化规则。优先级分数A会随着时间推移、访问情况发生变化,也可通过数据管理员直接手动调整。
实施例1:
步骤a)中数据采集设备为传感器、生产设备、监控、接口应用程序、网络爬虫,据采集框架实时采集包括传感器数据采集、生产设备信息采集、现场监控视频采集、接口应用程序接入采集、网络爬虫采集。
实施例2:
步骤b)包括如下步骤:
b-1)具有空间联系的各个数据采集设备所采集的数据构成集合D′RAW,集合D′RAW中各个数据采集设备所采集的数据作为内层图结构DINNER的顶点,以集合D′RAW各个数据采集设备所采集的数据之间的空间联系作为内层图结构DINNER的边,DINNER=(D′RAW,EINNER),EINNER为内层图结构的边的集合,/>为第i个设备组,dn为第n个数据采集设备所采集的数据,dn∈DRAW,<dn,dm>为第n个数据采集设备所采集的数据与第m个数据采集设备所采集的数据之间的边,dm∈DRAW,<dn,dm>∈EINNER,各个设备组构成内层图结构DINNER。b-2)将内层图结构DINNER的边的集合EINNER赋以权,权的值为集合D′RAW中第n个数据采集设备dn所采集的数据与第m个数据采集设备dm所采集的数据之间的空间距离,值越小代表两个数据采集设备所采集的数据之间的空间联系程度越高。由此表示在同一个设备组数据中不同数据采集设备所采集的数据之间的空间联系程度的不同,n={1,2,...,N},m={1,2,...,N},第n个数据采集设备dn所采集的数据与第m个数据采集设备dm所采集的数据之间的空间距离定义为二者之间的最短路径XGnm。
b-3)将第i个设备组作为外层图结构DG的顶点,将第i个设备组/>与第j个设备组/>之间的空间联系为ETL,将ETL作为外层图结构DG的边,DG=(DS,ETL),DS为系统中所有设备组的集合。由于设备组数据之间是否存在联系是不确定的,因此,两级嵌套无向图结构的外层图结构的连通性也是不确定的。与内层不同,本发明中不考虑设备组数据之间的空间联系程度,即外层图结构的边无权值。该两级嵌套无向图结构的优点是既有树结构的层次化的特点,又保留了普通图结构灵活多变的特点。该结构可以直观地对不同数据采集设备进行分级管理。
实施例3:
步骤c)包括如下步骤:
c-1)初始化若干新时序数据段,t时序的时序数据段为DTSEGt,除系统尚未存储任何数据的情况外,时序数据段DTSEGt初始化时,将其写入相邻的上一个时序t-1时序的时序数据段DTSEGt-1中时间上后50%的数据。
c-2)将异构数据DG按照时间顺序写入时序数据段DTSEGt中,直到该时序数据段DTSEGt达到指定的时间单位长度L,记录时序数据段DTSEGt中所写入的异构数据DG的起始时间TDSTS和终止时间TDETS。
c-3)将时序数据段DTSEGt写入数据存储集群的数据存储节点中储存,且将时序上相邻的时序数据段DTSEGt与时序数据段DTSEGt-1存储在不同的数据存储节点。由此,除时序上最前和最后的两个时序数据段外,每个时序数据段前后相邻的两个时序数据段包含了该时序数据段的全部数据。
在时间维度上对大规模异构数据进行时序存储,不仅保留了数据的时间表征,还具备自然的容灾备份能力。除时序上最前和最后的两个时序数据段外,每个时序数据段都对前后相邻的两个时序数据段进行了数据备份,且时序上相邻的时序数据段存储在不同的数据存储节点。因此,当某一个数据存储节点中的数据损坏时,可以通过存储在其他存储节点中的备份数据进行数据恢复。
实施例4:
步骤d)包括如下步骤:
d-1)从时序数据段DTSEGt中获取第u个数据采集设备所采集的原始数据du用来构建时空理单元U。
d-2)从时序数据段DTSEGt中获取写入的异构数据DG的起始时间TDSTS和终止时间TDETS,将起始时间TDSTS作为时空理单元U的数据段起始时间TUSTS,将终止时间TDETS作为时空理单元U的数据段终止时间TUETS。
d-3)初始化时空理单元U的优先级分数A,优先级分数A范围区间为[0.00,1.00]。把时空管理单元的优先级分数A初始化为1.00,1.00表示该时空管理单元U的重要程度最高。
对大规模异构数据构造时空管理单元U。可以使系统的存储和算力资源由数据中台在时空管理单元U层面上进行统一管理。系统资源管理的依据是时空管理单元U的优先级分数A。
实施例5:
步骤e)中系统的存储和算力资源为内存、CPU、磁盘。
实施例6:
步骤e)包括如下步骤:
e-1)设定系统对时空管理单元U的存储规则为:
e-1.1)当时空管理单元U的优先级分数A处于区间[0.80,1.00]时,对该时空管理单元U进行额外的数据备份。
e-1.2)当时空管理单元U的优先级分数A小于0.80时,时空管理单元U不进行额外的数据备份,通过其时序上前后相邻的两个时空管理单元U中的重叠数据进行备份。
e-1.3)当时空管理单元U的优先级分数A小于0.10时,系统提示数据管理员该时空管理单元U的优先级分数A较低,由数据管理员选择是否删除该时空管理单元U。
e-2)设定系统在时空管理单元U被访问和分析时的算力资源分配规则为:
e-2.1)当需要访问和分析所存储的大规模异构数据时,需要数据中台对所存储数据进行读取和处理。由于计算机算力资源有限,因此本发明中,使用时空管理单元U的优先级分数A对计算机算力资源的分配进行管理当时空管理单元U的优先级分数A等于1.00时,该时空管理单元U被读取和处理时所分配的算力资源为FU。
e-2.2)通过公式F=A×FU计算得到时空管理单元U被读取和处理时所分配的算力资源F。以此优先级分数A高的时空管理单元U在读取和处理时,可以占用更多的算力资源,以保证更重要数据使用的快速性。
实施例7:
步骤f)包括如下步骤:
f-1)设定时空管理单元U的优先级分数A随时间推移发生变化的规则:
f-1.1)在工业生产中,可以认为时间超过某个时间单位阈值而未被访问过的时空管理单元U重要性较低,应该降低其优先级分数A。而直接使用阈值来降低时空管理单元U的优先级分数A的方式较为生硬,且难以反映时空管理单元U的时间表征,不利于大规模异构数据的时序管理。因此本发明使用一种软降低的方式,使随着时间推移,时空管理单元U的优先级分数A随之降低。因此通过公式计算得到时空管理单元U的优先级分数A,式中ARAW为时空管理单元U上次被初始化或因被访问而调整或被手动调整的优先级分数,/>为优先级分数随时间推移的降低系数,α为一个手工设置参数,XTLAP为时空管理单元U上次被初始化或因被访问而调整或被手动调整优先级分数的时间与当前时间之间的距离,所述距离为L。时空管理单元U在第αL时优先级分数A会降低到原来的一半。在前0.5αL时,优先级分数A的降低比较缓慢,在第0.5α到1.5αL时,优先级分数A会以比较快的速度降低到比较低的值。
f-2)在工业大规模异构数据的访问中,在一段时间里,时空管理单元U的访问往往呈现出一定的局部性。如果某一个时空管理单元U被访问了,那么在不久的将来,它可能再次被访问的概率较高,而这个时空管理单元U时间维度和空间维度上邻近的时空管理单元将很快被访问的概率也会较高。因此,应该对被访问的时空管理单元U及其时间维度和空间维度上邻近的时空管理单元U的优先级分数A进行调整,因此,在空间维度上对处于同一个设备组中的数据的时空管理单元U的优先级分数A进行调整,调整规则为:
其中,ASRC为需要调整时空管理单元U调整之前的优先级分数,max(·,·)表示求两个值中的最大值操作,XTDFT为需要调整时空管理单元U与被访问的时空管理单元U在时间维度上以L为单位的距离,XGDFT为需要调整时空管理单元U与被访问的时空管理单元U在空间维度的无向连通图中的最短路径长度,。通过max(·,·)操作计算需要调整时空管理单元U与被访问的时空管理单元U之间的切比雪夫距离,并以此距离计算时空管理单元可能需要被调整为的优先级分数。TH为可手工设置的阈值,表示与被访问的时空管理单元U距离小于TH的时空管理单元U的优先级分数A才会被调整。被访问的时空管理单元U的优先级分数A将被调整为1.00,而距离该时空管理单元U距离小于TH的时空管理单元U的优先级分数A将被调整为即若通过/>计算出的优先级分数大于其原来的优先级分数ASRC,则调整为计算出的优先级分数,否则不予调整。σ为一个可手工设置的参数。该参数影响与被访问的时空管理单元U邻近的时空管理单元U的优先级分数A的调整大小,σ越大,相同距离下时空管理单元U被调整的优先级分数A越大。
下面结合附图和实施例,进一步说明本发明的具体实施方式。
实施例中以机械制造业工厂生产过程中的大规模异构工业数据的存储为例,所论述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。
在该实施例中,步骤a)包括如下步骤:
实施中,在数据中台安装一个提供多种数据采集方式的数据采集框架。数据中台通过此数据采集框架可以从包括但不限于传感器、加工设备日志、车间现场监控等数据采集设备si中采集各种不同结构的原始数据di。系统中传感器等全部数据采集设备的集合为S,si∈S。采集到的原始数据集合为DRAW,di∈DRAW。
在该实施例中,步骤b)包括如下步骤:
将数据中台中的来自各种数据采集设备si∈S(加工设备、传感器、车间监控等)的异构数据di∈DRAW建立空间联系映射,得到两级嵌套无向图结构的异构数据DG。来自不同数据采集设备的数据di∈DRAW之间的空间联系映射由数据管理员按照其真实的空间联系进行设置。数据中台的大规模异构数据在空间维度上以一种两级嵌套无向图结构进行管理。两级嵌套无向图结构的异构数据DG如附图1所示。
该结构的内层结构为无向连通图DINNER=(D′RAW,EINNER),一个无向连通图结构DINNER表示真实空间中一组具有空间联系的各种数据采集设备所采集的数据所组成的设备组数据,如附图1机加工车间中的所有数据采集设备所采集的数据及其空间联系。同一设备组数据中的数据dn∈DRAW如车床设备数据、车间监控数据等即无向连通图结构DINNER中的顶点,其之间的空间联系为无向连通图结构的边<dn,dm>∈EINNER。
对无向连通图DINNER的边EINNER赋以权,权的值表示两个数据采集设备所采集的数据之间的空间距离,值越小代表两个数据采集设备所采集的数据之间的空间联系程度越高。同一个设备组DINNER中,任意两个数据采集设备所采集的数据dn和dm之间的空间距离定义为二者之间的最短路径XGnm。如附图1中激光切割机数据和折弯机1数据的空间距离为2。
将如附图1中机加工车间设备组数据、组装车间设备组数据等设备组数据DINNER作为两级嵌套无向图结构的外层图结构的顶点,设备组之间的空间联系作为外层图结构的边外层图结构的边无权值。
在该实施例中,步骤c)包括如下步骤:
如附图2所示,本实施在时间维度上通过重叠时序切分的方法对对两级嵌套无向图结构的异构数据DG进行分时间段管理,并在时间维度上对大规模异构数据进行时序存储。DG按照时间顺序写入时序数据段DTSEGt,直到该时序数据段达到指定的时序长度。除系统尚未存储任何数据的情况外,新的时序数据段DTSEGt初始化时便写入上一个时序数据段DTSEGt-1时间上后50%的数据。如附图2中,时间T至时间T+L之间切分为一个时序数据段DTSEG1,下一个时序数据段DTSEG2的切分范围为时间至时间/>即两个相邻时序数据段之间的数据具有50%的重合。
将切分好的时序数据段DTSEGt写入数据存储集群的数据存储节点中储存。时序上相邻的两个时序数据段存储在不同的数据存储节点,每个时序数据段都对前后相邻的两个时序数据段进行了数据备份。时序数据存储方法如附图3所示。在该实施例中,步骤d)包括如下步骤:
大规模异构数据经过时间和空间两个维度的组织被储存至数据存储节点后,将DTSEGt中单个数据采集设备所采集的数据du,构造为一个时空管理单元U。时空管理单元U中包括所存储的工业数据、数据段起始时间TDSTS、数据段终止时间TDETS和优先级分数A。如存储节点中,某时空管理单元U储存了激光切割机所采集的一段数据,数据段起始时间TDSTS为T,数据段终止时间TDETS为T+L,优先级分数A初始化为1.00。
在该实施例中,步骤e-1)包括如下步骤:
设定当时空管理单元U的优先级分数A处于区间[0.80,1.00]时,对该时空管理单元U进行额外的数据备份。如若时序数据段DTSEG3中的激光切割机数据所构造的时空管理单元的注意力分数A为0.90,则对该时空管理单元进行额外的数据备份,此时该时空管理单元的容灾性能相对更强。设定当时空管理单元U的优先级分数A小于0.80时,时空管理单元U不进行额外的数据备份,仅通过其时序上前后相邻的两个时空管理单元U中的重叠数据进行备份。设定当时空管理单元的优先级分数A小于0.10时,系统将提示数据管理员该时空管理单元的优先级分数A较低,是否删除该时空管理单元U以节约存储空间。如若时序数据段DTSEG1中的车间温湿度传感器数据所构造的时空管理单元的注意力分数A为0.08,则说明该数据的重要程度很低,可由数据管理员判断是否删除该时空管理单元以节约存储空间。
在该实施例中,步骤e-2)包括如下步骤:
设定使用时空管理单元U的优先级分数A对计算机资源的调度进行管理,记当A=1.00的时空管理单元被读取和处理时所分配的算力资源为FU,则时空管理单元U被读取和处理时所分配的算力资源F与其优先级分数A的关系为F=A×FU。如若时序数据段DTSEG3中的车床1数据所构造的时空管理单元Ua的注意力分数Aa为0.82,时序数据段DTSEG2中的折弯机2数据所构造的时空管理单元Ub的注意力分数Ab为0.75。当需要对Ua和Ub进行读取和处理时,分配用来读取和处理Ua的算力资源为0.82F,分配用来读取和处理Ub的算力资源为0.75F。对Ua的读取和处理将占用相对Ub更多的算力资源。在该实施例中,步骤f-1)包括如下步骤:
设定时空管理单元的优先级分数随着时间推移发生降低的规则为
若设置α=1000,某时空管理单元的优先级分数被初始化为1.00,则根据优先级分数随时间推移的降低系数该时空管理单元的优先级分数会在初始化后的第500L降低到0.50。优先级分数随时间降低系数曲线如附图4所示。
在该实施例中,步骤f-2)包括如下步骤:
设定当时空管理单元U被访问时,在空间维度上对处于同一个设备组数据中的数据的时空管理单元U的优先级分数A进行调整,且只有与被访问的时空管理单元U的切比雪夫距离小于TH的时空管理单元U的优先级分数A才会被调整。设定调整规则为:
通过可计算出一个时空管理单元U可能需要调整为的优先级分数,计算出的优先级分数与邻近程度的关系在σ被设置为0.02的情况下如附图5所示。
若设置σ=0.02,TH=60,如时序数据段DTSEG1中的铣床数据所构造的时空管理单元Uc被访问,Uc的优先级分数Ac被系统调整为1.00。时序数据段DTSEG30中的车间监控2数据所构造的时空管理单元Ud的优先级分数Ad为0.75,且Ud与Uc在时间维度上的距离为29,在无向连通图中的最短路径长度为5,则根据max(XTDFT,XGDFT)计算得切比雪夫距离为29。29<TH,Ad此时允许被调整。通过计算出Ad可能需要调整为0.85,由于0.85>Ad,系统将Ad调整为0.85。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种数据中台中大规模异构数据的存储方法,其特征在于,包括如下步骤:
a)在数据中台中安装一个数据采集框架,数据采集框架中包含N个数据采集设备,第i个数据采集设备为si,i={1,2,…,N},si∈S,S为数据采集设备的集合,数据中台通过数据采集框架实时采集各种不同结构的原始数据为DRAW,从第i个数据采集设备si中采集的原始数据为di,di∈DRAW;
b)对原始数据DRAW按照两级嵌套无向图结构的空间关系进行空间联系映射,得到经过空间联系映射的异构数据DG;
c)对异构数据DG在时间维度上进行重叠时序切分,得到时序数据段DTSEGt,将切分后的时序数据段DTSEGt写入数据存储集群的数据存储节点中储存;
d)将时序数据段DTSEGt中第u个数据采集设备所采集的原始数据du构造为一个时空管理单元U,du∈DRAW,时空管理单元U的自身属性包括数据段起始时间TUSTS、数据段终止时间TUETS及优先级分数A;
e)设定系统的存储和算力资源由数据中台在时空管理单元U层面上进行统一管理的管理规则;
f)设定时空管理单元U的优先级分数A的变化规则。
2.根据权利要求1所述的数据中台中大规模异构数据的存储方法,其特征在于:步骤a)中数据采集设备为传感器、生产设备、监控、接口应用程序、网络爬虫,据采集框架实时采集包括传感器数据采集、生产设备信息采集、现场监控视频采集、接口应用程序接入采集、网络爬虫采集。
3.根据权利要求1所述的数据中台中大规模异构数据的存储方法,其特征在于,步骤b)包括如下步骤:
b-1)具有空间联系的各个数据采集设备所采集的数据构成集合D′RAW,集合D′RAW中各个数据采集设备所采集的数据作为内层图结构DINNER的顶点,以集合D′RAW各个数据采集设备所采集的数据之间的空间联系作为内层图结构DINNER的边,DINNER=(D′RAW,EINNER),EINNER为内层图结构的边的集合,/>为第i个设备组,dn为第n个数据采集设备所采集的数据,dn∈DRAW,<dn,dm>为第n个数据采集设备所采集的数据与第m个数据采集设备所采集的数据之间的边,dm∈DRAW,<dn,dm>∈EINNER,各个设备组构成内层图结构DINNER;b-2)将内层图结构DINNER的边的集合EINNER赋以权,权的值为集合D′RAW中第n个数据采集设备dn所采集的数据与第m个数据采集设备dm所采集的数据之间的空间距离,n={1,2,...,N},m={1,2,...,N},第n个数据采集设备dn所采集的数据与第m个数据采集设备dm所采集的数据之间的空间距离定义为二者之间的最短路径XGnm;
b-3)将第i个设备组作为外层图结构DG的顶点,将第i个设备组/>与第j个设备组/>之间的空间联系为ETL,将ETL作为外层图结构DG的边,DG=(DS,ETL),DS为系统中所有设备组的集合。
4.根据权利要求1所述的数据中台中大规模异构数据的存储方法,其特征在于,步骤c)包括如下步骤:
c-1)初始化若干新时序数据段,t时序的时序数据段为DTSEGt,时序数据段DTSEGt初始化时,将其写入相邻的上一个时序t-1时序的时序数据段DTSEGt-1中时间上后50%的数据;
c-2)将异构数据DG按照时间顺序写入时序数据段DTSEGt中,直到该时序数据段DTSEGt达到指定的时间单位长度L,记录时序数据段DTSEGt中所写入的异构数据DG的起始时间TDSTS和终止时间TDETS;
c-3)将时序数据段DTSEGt写入数据存储集群的数据存储节点中储存,且将时序上相邻的时序数据段DTSEGt与时序数据段DTSEGt-1存储在不同的数据存储节点。
5.根据权利要求4所述的数据中台中大规模异构数据的存储方法,其特征在于,步骤d)包括如下步骤:
d-1)从时序数据段DTSEGt中获取第u个数据采集设备所采集的原始数据du用来构建时空理单元U;
d-2)从时序数据段DTSEGt中获取写入的异构数据DG的起始时间TDSTS和终止时间TDETS,将起始时间TDSTS作为时空理单元U的数据段起始时间TUSTS,将终止时间TDETS作为时空理单元U的数据段终止时间TUETS;
d-3)初始化时空理单元U的优先级分数A,优先级分数A范围区间为[0.00,1.00]。
6.根据权利要求1所述的数据中台中大规模异构数据的存储方法,其特征在于:步骤e)中系统的存储和算力资源为内存、CPU、磁盘。
7.根据权利要求1所述的数据中台中大规模异构数据的存储方法,其特征在于,步骤e)包括如下步骤:
e-1)设定系统对时空管理单元U的存储规则为:
e-1.1)当时空管理单元U的优先级分数A处于区间[0.80,1.00]时,对该时空管理单元U进行额外的数据备份;
e-1.2)当时空管理单元U的优先级分数A小于0.80时,时空管理单元U不进行额外的数据备份,通过其时序上前后相邻的两个时空管理单元U中的重叠数据进行备份;
e-1.3)当时空管理单元U的优先级分数A小于0.10时,系统提示数据管理员该时空管理单元U的优先级分数A较低,由数据管理员选择是否删除该时空管理单元U;
e-2)设定系统在时空管理单元U被访问和分析时的算力资源分配规则为:
e-2.1)当时空管理单元U的优先级分数A等于1.00时,该时空管理单元U被读取和处理时所分配的算力资源为FU;
e-2.2)通过公式F=A×FU计算得到时空管理单元U被读取和处理时所分配的算力资源F。
8.根据权利要求1所述的数据中台中大规模异构数据的存储方法,其特征在于,步骤f)包括如下步骤:
f-1)设定时空管理单元U的优先级分数A随时间推移发生变化的规则:
f-1.1)通过公式计算得到时空管理单元U的优先级分数A,式中ARAW为时空管理单元U上次被初始化或因被访问而调整或被手动调整的优先级分数,α为参数,XTLAP为时空管理单元U上次被初始化或因被访问而调整或被手动调整优先级分数的时间与当前时间之间的距离,所述距离为L;
f-2)在空间维度上对处于同一个设备组中的数据的时空管理单元U的优先级分数A进行调整,调整规则为:
其中,ASRC为需要调整时空管理单元U调整之前的优先级分数,XTDFT为需要调整时空管理单元U与被访问的时空管理单元U在时间维度上以L为单位的距离,XGDFT为需要调整时空管理单元U与被访问的时空管理单元U在空间维度的无向连通图中的最短路径长度,TH为阈值,σ为参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310182363.0A CN116166734B (zh) | 2023-02-24 | 2023-02-24 | 一种数据中台中大规模异构数据的存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310182363.0A CN116166734B (zh) | 2023-02-24 | 2023-02-24 | 一种数据中台中大规模异构数据的存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116166734A CN116166734A (zh) | 2023-05-26 |
CN116166734B true CN116166734B (zh) | 2023-09-12 |
Family
ID=86413043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310182363.0A Active CN116166734B (zh) | 2023-02-24 | 2023-02-24 | 一种数据中台中大规模异构数据的存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116166734B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050114243A1 (en) * | 2003-05-19 | 2005-05-26 | Pacific Edge Software, Inc. | Method and system for object-oriented workflow management of multi-dimensional data |
CN115238015A (zh) * | 2022-07-07 | 2022-10-25 | 北京远思久维科技有限公司 | 一种基于微服务的时空大数据平台 |
-
2023
- 2023-02-24 CN CN202310182363.0A patent/CN116166734B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050114243A1 (en) * | 2003-05-19 | 2005-05-26 | Pacific Edge Software, Inc. | Method and system for object-oriented workflow management of multi-dimensional data |
CN115238015A (zh) * | 2022-07-07 | 2022-10-25 | 北京远思久维科技有限公司 | 一种基于微服务的时空大数据平台 |
Also Published As
Publication number | Publication date |
---|---|
CN116166734A (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019396B (zh) | 一种基于分布式多维分析的数据分析系统及方法 | |
CN113487730B (zh) | 一种基于激光雷达点云数据的城市三维自动建模方法 | |
CN111639082B (zh) | 基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统 | |
CN112462696A (zh) | 一种智能制造车间数字孪生模型构建方法与系统 | |
US11860846B2 (en) | Methods, systems and apparatus to improve spatial-temporal data management | |
CN106844089A (zh) | 一种用于恢复树形数据存储的方法与设备 | |
CN113570275A (zh) | 基于bim和数字高程模型的水资源实时监测系统 | |
CN105957149A (zh) | 一种适用于高效渲染的城市三维模型数据预处理方法 | |
CN114637305B (zh) | 一种无人机最短路径规划方法及装置 | |
CN113326343B (zh) | 基于多级网格和文件索引的路网数据存储方法及系统 | |
CN111243088A (zh) | 工程地质勘察中的真三维航空遥感地质解译方法及系统 | |
CN116166734B (zh) | 一种数据中台中大规模异构数据的存储方法 | |
CN117523128A (zh) | 一种基于大数据实现城市信息的三维建模方法及系统 | |
CN106815320B (zh) | 基于拓展三维直方图的调研大数据可视化建模方法及系统 | |
CN116258840B (zh) | 层级细节表示树的生成方法、装置、设备及存储介质 | |
CN104951752A (zh) | 一种从机载激光点云数据提取房屋的方法 | |
CN111830595A (zh) | 气象要素的预测方法及设备 | |
CN113917952B (zh) | 一种抗皱美白精华液生产系统 | |
KR102507185B1 (ko) | 전력 계통 클러스터링 방법 및 장치 | |
CN112686468B (zh) | 一种公共设施稳定性优化方法 | |
CN114493088A (zh) | 一种面向电力物联终端设备的信息模型构建方法 | |
CN109582806B (zh) | 一种基于图计算的个人信息处理方法及系统 | |
Bormann et al. | Real-time indexing of point cloud data during LiDAR capture | |
CN106649444B (zh) | 一种cae数据库系统获取cad数据的方法及装置 | |
Yu et al. | Efficient Spatio-Temporal-Data-Oriented Range Query Processing for Air Traffic Flow Statistics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |