CN114564514A - 数据仓库的构建方法、装置、电子设备及可读存储介质 - Google Patents
数据仓库的构建方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN114564514A CN114564514A CN202210198185.6A CN202210198185A CN114564514A CN 114564514 A CN114564514 A CN 114564514A CN 202210198185 A CN202210198185 A CN 202210198185A CN 114564514 A CN114564514 A CN 114564514A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- real
- target
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明涉及物联网和大数据技术领域,公开了一种数据仓库的构建方法、装置、电子设备及可读存储介质。其中,该方法可以包括:获取待处理的源数据;基于批流一体方式对源数据进行离线处理和实时处理,得到目标处理数据;基于目标处理数据的类型,对目标处理数据进行数据加工,生成数据仓库。通过实施本发明,避免实时流程和离线流程分开加工,在满足实时性和准确性的基础上,降低了计算资源,节省了硬件成本。
Description
技术领域
本发明涉及物联网和大数据技术领域,具体涉及一种数据仓库的构建方法、装置、电子设备及可读存储介质。
背景技术
物联网数据仓库是指应用大数据技术对物联网的海量数据进行抽取、转换、加载以及存储和加工等操作完成对数据生态框架的构建。物联网的数据特征是数据简单、数据量极大以及业务关联性弱。物联网的主体数据是传感器对绑定设备的感知信息,通过数据仓库的存储和加工来展现设备所处环境信息和实时的状态。一个物联网场景往往有数万以上级别的设备,每台设备往往有多个不同种类的传感器(如温度传感器、湿度传感器、红外传感器等),每个传感器都会不停的产生数据,而不同设备的数据是独立的,互相之间没有关联的必要。
目前物联网数据仓库的构建通常只选择做实时流程或离线流程的一种,实时流程的特点是时效性高,但是在大数据场景下会存在数据丢失或数据重复的问题;离线流程的特点是数据准确性高、但是数据处理不及时,只选择实时流程或离线流程的一种则难以同时满足实时性和准确性。为了同时满足实时性和准确性,目前主要是基于实时的流式数据和离线的批处理数据分开存储和加工,但是实时流程和离线流程的数据来源一致,分开处理导致其计算资源(如CPU和内存)和存储空间(硬盘)将会是原来的两倍左右,增加了硬件成本。因此,目前的物联网数据仓库构建仍然不能同时满足实时性、准确性以及硬件成本。
发明内容
有鉴于此,本发明实施例提供了一种数据仓库的构建方法、装置、电子设备及可读存储介质,以解决目前的物联网数据仓库构建仍然不能同时满足实时性、准确性以及硬件成本的问题。
根据第一方面,本发明实施例提供了一种数据仓库的构建方法,包括:获取待处理的源数据;基于批流一体方式对所述源数据进行离线处理和实时处理,得到目标处理数据;基于所述目标处理数据的类型,对所述目标处理数据进行数据加工,生成数据仓库。
本发明实施例提供的数据仓库的构建方法,通过获取待处理的源数据,基于批流一体方式对源数据进行离线处理和实时处理,得到目标处理数据,基于目标处理数据的类型,对目标处理数据进行数据加工,生成数据仓库。该方法同时对源数据进行实时处理和离线处理,避免实时流程和离线流程分开加工,在满足实时性和准确性的基础上,降低了计算资源,节省了硬件成本。
结合第一方面,在第一方面的第一实施方式中,所述基于批流一体方式对所述源数据进行离线处理和实时处理,得到目标处理数据,包括:获取批处理方式的离线流程以及流处理方式的实时流程;基于所述批处理方式的离线流程对所述源数据进行离线处理,并基于所述流处理方式的实时流程对所述源数据进行实时处理;基于所述离线处理的第一结果以及所述实时处理的第二结果,得到所述目标处理数据。
结合第一方面第一实施方式,在第一方面的第二实施方式中,所述基于所述离线处理的第一结果以及所述实时处理的第二结果,得到所述目标处理数据,包括:以所述第一结果对所述第二结果进行校正,得到所述目标处理数据。
本发明实施例提供的数据仓库的构建方法,通过获取批处理方式的离线流程以及流处理方式的实时流程,基于批处理方式的离线流程对源数据进行离线处理,并基于流处理方式的实时流程对源数据进行实时处理,以离线处理的第一结果对实时处理的第二结果进行校正,得到目标处理数据,既保证了源数据的处理实时性和及时性,又保证了源数据的准确性。
结合第一方面第一实施方式,在第一方面的第三实施方式中,获取批处理方式的离线流程,包括:获取所述源数据的离线采集间隔;判断所述离线采集间隔是否达到预设间隔;当所述离线采集间隔达到所述预设间隔时,获取批处理方式的离线流程。
本发明实施例提供的数据仓库的构建方法,通过获取源数据的离线采集间隔,当离线采集间隔达到预设间隔时,获取批处理方式的离线流程,避免因网络原因造成实时流程的数据延迟,导致实时数据的丢失或重复,通过离线流程在预设间隔内启动以对实时的数据进行校正,补充实时流程所遗失的数据,并剔除实时流程所重复的数据,最大程度上保证了数据准确性。
结合第一方面,在第一方面的第四实施方式中,所述获取待处理的源数据,包括:采集业务数据以及设备感知数据;将所述业务数据以及所述设备感知数据确定为所述待处理的源数据。
本发明实施例提供的数据仓库的构建方法,通过采集业务数据以及设备感知数据,将业务数据以及设备感知数据确定为待处理的源数据,保证了数据的覆盖全面性。
结合第一方面,在第一方面的第五实施方式中,所述基于所述目标处理数据的类型,对所述目标处理数据进行数据加工,生成数据仓库,包括:基于所述目标处理数据的类型,确定所述目标处理数据的数据流向;基于所述数据流向,将所述目标处理数据划分为应用数据以及设备数据;基于所述应用数据对应的第一加工规则以及所述设备数据对应的第二加工规则,生成对应于所述应用数据和所述设备数据的数据仓库。
本发明实施例提供的数据仓库的构建方法,通过基于目标处理数据的类型,确定目标处理数据的数据流向,并基于数据流向将目标处理数据划分为应用数据以及设备数据,以根据应用数据对应的第一加工规则以及设备数据对应的第二加工规则,生成对应于应用数据和设备数据的数据仓库,保证了的数据仓库的构建能够更加符合多种应用场景。
结合第一方面第五实施方式,在第一方面的第六实施方式中,所述方法还包括:将所述应用数据以及所述设备数据存储至预设空间;当检测到加工请求时,从所述预设空间中确定出对应于所述加工请求的目标应用数据以及目标设备数据;生成对应于所述目标应用数据以及所述目标设备数据的服务接口,所述服务接口用于外部调用。
本发明实施例提供的数据仓库的构建方法,通过将应用数据以及设备数据存储至预设空间,当检测到加工请求时,从预设空间中确定出对应于加工请求的目标应用数据以及目标设备数据,生成对应于目标应用数据以及目标设备数据的服务接口。该方法对应用数据以及设备数据进行统一存储,无需针对离线流程和实时流程分开存储,节省了存储空间,同时可以根据实际需求从预设空间中提取相应数据,无需针对不同的存储空间进行多次查询获取,提高了数据的查询效率。
根据第二方面,本发明实施例提供了一种数据仓库的构建装置,包括:获取模块,用于获取待处理的源数据;数据处理模块,用于基于批流一体方式对所述源数据进行离线处理和实时处理,得到目标处理数据;生成模块,用于基于所述目标处理数据的类型,对所述目标处理数据进行数据加工,生成数据仓库。
根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或第一方面任一实施方式所述的数据仓库的构建方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行第一方面或第一方面任一实施方式所述的数据仓库的构建方法。
需要说明的是,本发明实施例提供的数据仓库的构建装置、电子设备及计算机可读存储介质的相应有益效果,请参见数据仓库的构建方法中相应内容的描述,在此不再赘述。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的数据仓库的构建方法的流程图;
图2是根据本发明实施例的数据仓库的构建方法的另一流程图;
图3是根据本发明实施例的数据仓库的构建方法的另一流程图;
图4是根据本发明实施例的数据仓库的具体构建示意图;
图5是根据本发明实施例的数据仓库的构建装置的结构框图;
图6是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前物联网数据仓库的构建通常只选择做实时流程或离线流程的一种,实时流程的特点是时效性高,但是在大数据场景下会存在数据丢失或数据重复的问题;离线流程的特点是数据准确性高、但是数据处理不及时,只选择实时流程或离线流程的一种则难以同时满足实时性和准确性。为了同时满足实时性和准确性,目前主要是基于实时的流式数据和离线的批处理数据分开存储和加工,但是实时流程和离线流程的数据来源一致,分开处理导致其计算资源(如CPU和内存)和存储空间(硬盘)将会是原来的两倍左右,增加了硬件成本。因此,目前的物联网数据仓库构建仍然不能同时满足实时性、准确性以及硬件成本。
基于此,本发明技术方案基于批流一体的方式对源数据进行实时处理和离线处理,避免分开加工和分开存储,同时满足了数据仓库构建过程中的实时性、准确性以及硬件成本需求。
根据本发明实施例,提供了一种数据仓库的构建方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种数据仓库的构建方法,可用于电子设备,如手机、服务器、电脑等,图1是根据本发明实施例的数据仓库的构建方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取待处理的源数据。
待处理的源数据为物联网场景所对应的各个类型的数据,源数据可以为通过物料网场景中设置的各种类型的传感器获取的数据,也可以为通过物联网所能提供的业务系统所产生的数据,当然还可以包括其他数据,此处对源数据所包含的数据类型不作限定,本领域技术人员可以根据实际需要确定。
S12,基于批流一体方式对源数据进行离线处理和实时处理,得到目标处理数据。
电子设备将其获取到的源数据接入数据湖中,然后基于批流一体方式对数据湖中源数据同时执行离线处理和实时处理,以得到源数据对应的目标处理数据。此处的数据湖主要负责数据的存储和调用,数据湖可以看作是业务系统的映射以实时存储并同步展示业务系统的数据,在大数据环境下支持高并发查询,把查询操作从业务系统迁移到数据湖中可以极大缓解业务系统的访问压力。同时,将数据湖作为数据仓库的入口以改善数据仓库高延时低效率。如图4所示,数据湖包含原始层和标准层两个层级,其原始层用于同步更新业务系统的实时数据,其标准层用于应对外部业务系统和数据仓库内部的数据调取,并对原始层的数据进行数据清洗、标准化命名以及码值映射转换等标准化改造。
需要说明的是,电子设备将其获取到的源数据接入数据总线,然后基于批流一体方式对接入数据总线的源数据同时执行离线处理和实时处理,以得到源数据对应的目标处理数据。
通过统一使用数据总线或数据湖作为数据仓库的入口,所有源数据均能够按照数据规范接入数据总线或数据湖,降低源数据出现对接问题的几率,即使出现对接问题,也便于对接问题的回溯定位,避免源数据来源无法定位。
S13,基于目标处理数据的类型,对目标处理数据进行数据加工,生成数据仓库。
目标处理数据可以包括:明细数据(属性或标签)、维度轻度汇总数据(维度统计类数据如时间序列)以及指标统计数据(设备共性属性的统计,如累计激活设备数、实时告警设备数)。电子设备可以分析其获取到目标处理数据,确定目标处理数据的类型,并针对不同的类型的目标处理数据进行数据加工,以得到对应于不同类型的数据仓库。
该数据仓库指EDW层或DW层,其主要负责逻辑加工,对于不同类型的目标处理数据(明细数据、轻度汇总数据和指标统计数据)均在EDW层或DW层进行加工和保存,具体地,如图4所示,可以将数据仓库分为:明细层、汇总层和指标层,其中,明细层用于保存设备的明细数据,如:设备属性、标签和状态;汇总层用于保存根据时间/地域维度汇总的统计值;指标层用于保存通用属性的设备统计值,由此能够将目标处理处理存储于同一层,无需分开存储和加工,降低了计算资源和存储资源,节省了硬件成本。
本实施例提供的数据仓库的构建方法,通过获取待处理的源数据,基于批流一体方式对源数据进行离线处理和实时处理,得到目标处理数据,基于目标处理数据的类型,对目标处理数据进行数据加工,生成数据仓库。该方法同时对源数据进行实时处理和离线处理,避免实时流程和离线流程分开加工,在满足实时性和准确性的基础上,降低了计算资源,节省了硬件成本。
在本实施例中提供了一种数据仓库的构建方法,可用于电子设备,如手机、服务器、电脑等,图2是根据本发明实施例的数据仓库的构建方法的流程图,如图2所示,该流程包括如下步骤:
S21,获取待处理的源数据。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S22,基于批流一体方式对源数据进行离线处理和实时处理,得到目标处理数据。
具体地,上述步骤S22可以包括:
S221,获取批处理方式的离线流程以及流处理方式的实时流程。
批处理方式的离线流程主要用来进行离线数据的处理和加工,流处理方式的实时流程主要用例进行实时数据的处理和加工。电子设备在采集到源数据时,可以根据所设定的实际需求确定批处理方式的离线流程以及流处理方式的实时流程。
具体地,上述步骤S221中获取批处理方式的离线流程的步骤可以包括:
(1)获取源数据的离线采集间隔。
离线采集间隔为采集离线数据以进行离线流程的启动间隔,离线采集间隔可以根据离线流程的启动时间戳以及当前时间戳之间的差值确定,还可以在离线流程启动时开启计时,由计时装置统计得到,此处对离线采集间隔的获取方式不作限定,本领域技术人员可以根据实际需要确定。
(2)判断离线采集间隔是否达到预设间隔。
预设间隔为根据实际场景需求所设定的离线流程的启动间隔,该预设间隔可以为5秒,可以为10分钟,还可以为1小时,当然也可以为其他值,此处对预设间隔的值不作限定,本领域技术人员可以根据数据处理的时效性进行设定。
电子设备可以将其获取的离线采集间隔与预设间隔进行比较,以确定离线采集间隔是否达到预设间隔,当离线采集间隔达到预设间隔时,执行步骤(3),否则继续监测离线采集间隔。
(3)获取批处理方式的离线流程。
当离线采集间隔达到预设间隔时,表示当前时刻距离上次离线流程的启动时刻已经达到预设间隔,此时电子设备可以启动批处理方式的离线流程。
S222,基于批处理方式的离线流程对源数据进行离线处理,并基于流处理方式的实时流程对源数据进行实时处理。
批流一体方式以实时流程为主,实时流程可以使用flink作为计算引擎,可以达到毫秒级的结果生成,其查询和展现亦能够达到毫秒级。具体地,电子设备可以使用flink作为计算引擎,通过该计算引擎以流处理方式的实时流程对源数据进行实时处理。
在实时流程正常运行的过程中,离线流程可以每隔预设时间间隔启动新的计算任务,以对上一阶段的离线数据进行分析处理。例如,每隔1小时启动一次新的计算任务,对上一小时所获取到的离线数据进行分析处理。
S223,基于离线处理的第一结果以及实时处理的第二结果,得到目标处理数据。
由于网络原因造成数据延迟,资源瓶颈可能造成数据丢失或重复,实际上实时流程很难保证数据的准确性,此时可以通过离线流程所对应的第二结果对实时流程所对应的第一结果进行低延时校正,以得到准确的目标处理数据。
具体地,上述步骤S223可以包括:以第一结果对第二结果进行校正,得到目标处理数据。
在实时流程的正常运行过程中,离线流程每间隔预设间隔启动一次新的务计算任务,以对上一阶段的离线数据进行分析处理,并以离线流程对应的第二结果对上一阶段的实时流程对应的第一结果进行校正,以补充实时流程所遗失的数据,剔除实时流程中的重复数据。由此即使出现数据异常,其异常的时间不会超过预设间隔,其数据丢失并不是永久的,数据异常可以根据离线流程进行发现和修复。
需要说明的是,对外的数据输出统一使用实时流程的数据集和数据服务,以保证查询性能和查询效率。
S23,基于目标处理数据的类型,对目标处理数据进行数据加工,生成数据仓库。详细说明参见上述实施例对应的相关描述,此处不再赘述。
本实施例提供的数据仓库的构建方法,通过获取批处理方式的离线流程以及流处理方式的实时流程,基于批处理方式的离线流程对源数据进行离线处理,并基于流处理方式的实时流程对源数据进行实时处理,以离线处理的第一结果对实时处理的第二结果进行校正,得到目标处理数据,既保证了源数据的处理实时性和及时性,又保证了源数据的准确性。通过获取源数据的离线采集间隔,当离线采集间隔达到预设间隔时,获取批处理方式的离线流程,避免因网络原因造成实时流程的数据延迟,导致实时数据的丢失或重复,通过离线流程在预设间隔内启动以对实时的数据进行校正,补充实时流程所遗失的数据,并剔除实时流程所重复的数据,最大程度上保证了数据准确性。
在本实施例中提供了一种数据仓库的构建方法,可用于电子设备,如手机、服务器、电脑等,图3是根据本发明实施例的数据仓库的构建方法的流程图,如图3所示,该流程包括如下步骤:
S31,获取待处理的源数据。
具体地,上述步骤S31可以包括:
S311,采集业务数据以及设备感知数据。
业务数据为业务系统运行过程中产生的数据,电子设备可以实时采集业务系统所产生的业务数据。设备感知数据为传感器在运行过程中产生的,预设协议为预先定义的电子设备与传感器之间的数据传输协议。电子设备上通常连接有不同种类的传感器(如温度传感器、湿度传感器、红外传感器等),不同种类的传感器与电子设备之间存在不同的通讯协议,每个传感器在运行中均会不停的生成数据,电子设备可以通过预设协议实时采集设备感知数据。
S312,将业务数据以及设备感知数据确定为待处理的源数据。
电子设备将业务系统以及传感器作为产生源数据的数据来源,相应地,电子设备将业务系统所产生的业务数据以及传感器所产生的设备感知数据共同确定为待处理的源数据。
S32,基于批流一体方式对源数据进行离线处理和实时处理,得到目标处理数据。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S33,基于目标处理数据的类型,对目标处理数据进行数据加工,生成数据仓库。
具体地,上述步骤S33可以包括:
S331,基于目标处理数据的类型,确定目标处理数据的数据流向。
数据流向对应于物联网各种应用和设备,目标处理数据的类型包括对外展示和持久化,电子设备对于不同类型的目标处理数据,确定出对外展示数据和持久化数据所对应的数据流向。
S332,基于数据流向将目标处理数据划分为应用数据以及设备数据。
应用数据为物联网的各种应用(如可视化屏、数字孪生)所对应的数据,设备数据为电子设备所连接的感知设备所对应的数据,该设备数据用于对感知设备传达操作指令。
S333,基于应用数据对应的第一加工规则以及设备数据对应的第二加工规则,生成对应于应用数据和设备数据的数据仓库。
对于应用数据而言,电子设备可以获取应用数据所对应的第一加工规则,在数据湖中以第一加工规则对应用数据进行加工,同时,可以获取设备数据所对应的第二加工规则,在数据湖中以第二加工规则对设备数据进行加工,以生成对应于应用数据和设备数据的数据仓库,使用数据仓库的存储和加工来展现物联网设备所处环境信息和实时的状态。
S34,将应用数据以及设备数据存储至预设空间。
预设空间为预先设定的用于存储应用数据以及设备数据的存储空间,可以将该预设空间定义为数据集市,电子设备通过数据集市对应用数据和设备数据进行统一存储。
需要说明的是,数据仓库包含有离线流程和实时流程,对于应用数据以及设备数据中的全量历史数据持久化保存在离线流程中,方便以后查询和分析;对于应用数据以及设备数据中的实时数据保存最新的数据和全量的结果数据,方便实时展现。
S35,当检测到加工请求时,从预设空间中确定出对应于加工请求的目标应用数据以及目标设备数据。
加工请求用于表征用户通过数据接口输入的数据提取指令或数据加工指令。具体地,当用户通过数据接口输入加工请求时,相应地,在电子设备检测到加工请求,可以从预设空间中提取对应于加工请求的目标应用数据以及目标设备数据,或再次加工生成目标应用数据以及目标设备数据。
S36,生成对应于目标应用数据以及目标设备数据的服务接口,其中,服务接口用于外部调用。
服务接口为根据目标应用数据以及目标设备数据生成的应用程序接口,电子设备可以保存该应用程序接口,以使外部设备能够通过该服务接口进行数据调用。
本实施例提供的数据仓库的构建方法,通过采集业务系统所产生的业务数据以及通过预设协议传输的设备感知数据,将业务数据以及设备感知数据确定为待处理的源数据,保证了数据的覆盖全面性。通过基于目标处理数据的类型,确定目标处理数据的数据流向,并基于数据流向将目标处理数据划分为应用数据以及设备数据,以根据应用数据对应的第一加工规则以及设备数据对应的第二加工规则,生成对应于应用数据和设备数据的数据仓库,保证了的数据仓库的构建能够更加符合多种应用场景。通过将应用数据以及设备数据存储至预设空间,当检测到加工请求时,从预设空间中确定出对应于加工请求的目标应用数据以及目标设备数据,生成对应于目标应用数据以及目标设备数据的服务接口。该方法对应用数据以及设备数据进行统一存储,无需针对离线流程和实时流程分开存储,节省了存储空间,同时可以根据实际需求从预设空间中提取相应数据,无需针对不同的存储空间进行多次查询获取,提高了数据的查询效率。
在本实施例中还提供了一种数据仓库的构建装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种数据仓库的构建装置,如图5所示,包括:
获取模块41,用于获取待处理的源数据。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
数据处理模块42,用于基于批流一体方式对源数据进行离线处理和实时处理,得到目标处理数据。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
生成模块43,用于基于目标处理数据的类型,对目标处理数据进行数据加工,生成数据仓库。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
本实施例提供的数据仓库的构建装置,通过获取待处理的源数据,基于批流一体方式对源数据进行离线处理和实时处理,得到目标处理数据,基于目标处理数据的类型,对目标处理数据进行数据加工,生成数据仓库。该装置能够同时对源数据进行实时处理和离线处理,避免实时流程和离线流程分开加工,在满足实时性和准确性的基础上,降低了计算资源,节省了硬件成本。
本实施例中的数据仓库的构建装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种电子设备,具有上述图5所示的数据仓库的构建装置。
请参阅图6,图6是本发明可选实施例提供的一种电子设备的结构示意图,如图6所示,该电子设备可以包括:至少一个处理器501,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口503,存储器504,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,通信接口503可以包括显示屏(Display)、键盘(Keyboard),可选通信接口503还可以包括标准的有线接口、无线接口。存储器504可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器504可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图5所描述的装置,存储器504中存储应用程序,且处理器501调用存储器504中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线502可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器504可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器504还可以包括上述种类存储器的组合。
其中,处理器501可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器504还用于存储程序指令。处理器501可以调用程序指令,实现如本申请图1至图3实施例中所示的数据仓库的构建方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的数据仓库的构建方法的处理方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种数据仓库的构建方法,其特征在于,包括:
获取待处理的源数据;
基于批流一体方式对所述源数据进行离线处理和实时处理,得到目标处理数据;
基于所述目标处理数据的类型,对所述目标处理数据进行数据加工,生成数据仓库。
2.根据权利要求1所述的方法,其特征在于,所述基于批流一体方式对所述源数据进行离线处理和实时处理,得到目标处理数据,包括:
获取批处理方式的离线流程以及流处理方式的实时流程;
基于所述批处理方式的离线流程对所述源数据进行离线处理,并基于所述流处理方式的实时流程对所述源数据进行实时处理;
基于所述离线处理的第一结果以及所述实时处理的第二结果,得到所述目标处理数据。
3.根据权利要求2所述的方法,其特征在于,所述基于所述离线处理的第一结果以及所述实时处理的第二结果,得到所述目标处理数据,包括:
以所述第一结果对所述第二结果进行校正,得到所述目标处理数据。
4.根据权利要求2所述的方法,其特征在于,获取批处理方式的离线流程,包括:
获取所述源数据的离线采集间隔;
判断所述离线采集间隔是否达到预设间隔;
当所述离线采集间隔达到所述预设间隔时,获取批处理方式的离线流程。
5.根据权利要求1所述的方法,其特征在于,所述获取待处理的源数据,包括:
采集业务数据以及设备感知数据;
将所述业务数据以及所述设备感知数据确定为所述待处理的源数据。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标处理数据的类型,对所述目标处理数据进行数据加工,生成数据仓库,包括:
基于所述目标处理数据的类型,确定所述目标处理数据的数据流向;
基于所述数据流向,将所述目标处理数据划分为应用数据以及设备数据;
基于所述应用数据对应的第一加工规则以及所述设备数据对应的第二加工规则,生成对应于所述应用数据和所述设备数据的数据仓库。
7.根据权利要求6所述的方法,其特征在于,还包括:
将所述应用数据以及所述设备数据存储至预设空间;
当检测到加工请求时,从所述预设空间中确定出对应于所述加工请求的目标应用数据以及目标设备数据;
生成对应于所述目标应用数据以及所述目标设备数据的服务接口,所述服务接口用于外部调用。
8.一种数据仓库的构建装置,其特征在于,包括:
获取模块,用于获取待处理的源数据;
数据处理模块,用于基于批流一体方式对所述源数据进行离线处理和实时处理,得到目标处理数据;
生成模块,用于基于所述目标处理数据的类型,对所述目标处理数据进行数据加工,生成数据仓库。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7任一项所述的数据仓库的构建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7任一项所述的数据仓库的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210198185.6A CN114564514A (zh) | 2022-03-02 | 2022-03-02 | 数据仓库的构建方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210198185.6A CN114564514A (zh) | 2022-03-02 | 2022-03-02 | 数据仓库的构建方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114564514A true CN114564514A (zh) | 2022-05-31 |
Family
ID=81716119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210198185.6A Pending CN114564514A (zh) | 2022-03-02 | 2022-03-02 | 数据仓库的构建方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564514A (zh) |
-
2022
- 2022-03-02 CN CN202210198185.6A patent/CN114564514A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460432B (zh) | 一种数据处理方法及系统 | |
CN113742174B (zh) | 云手机应用监控方法、装置、电子设备和存储介质 | |
CN114168429A (zh) | 报错分析方法、装置、计算机设备及存储介质 | |
CN108062401B (zh) | 应用推荐方法、装置及存储介质 | |
CN114564514A (zh) | 数据仓库的构建方法、装置、电子设备及可读存储介质 | |
WO2023051035A1 (zh) | 机器人的数据传输方法及装置、电子设备、存储介质 | |
CN116149941A (zh) | 服务器部件的监控方法、装置、服务器及存储介质 | |
CN113590447B (zh) | 埋点处理方法和装置 | |
CN115525392A (zh) | 容器监控方法、装置、电子设备及存储介质 | |
CN115344495A (zh) | 批量任务测试的数据分析方法、装置、计算机设备及介质 | |
CN114978964A (zh) | 基于网络自检的通信公告配置方法、装置、设备及介质 | |
CN117742900B (zh) | 一种服务调用图的构造方法、装置、设备及存储介质 | |
CN110611576B (zh) | 一种数据质量监测方法、装置、设备及存储介质 | |
CN111782479A (zh) | 日志处理方法、装置、电子设备及计算机可读存储介质 | |
CN116610724B (zh) | 一种日志数据追踪方法、装置、电子设备和存储介质 | |
CN117743326A (zh) | 一种设备数据查询方法、装置、计算机设备及存储介质 | |
CN110750563A (zh) | 多模型数据处理方法、系统、装置、电子设备及存储介质 | |
CN117389841B (zh) | 加速器资源监控方法、装置、集群设备及存储介质 | |
CN115361290B (zh) | 配置比对方法、装置、电子设备及存储介质 | |
CN116938743A (zh) | 一种服务器数据处理方法、装置、电子设备及存储介质 | |
CN112463525A (zh) | 一种存储设备性能监控方法、系统、终端及存储介质 | |
CN117539719A (zh) | 应用运行监测方法、装置、设备及介质 | |
CN113064807A (zh) | 日志诊断方法及装置 | |
CN114385510A (zh) | 一种测试的方法及装置、电子设备 | |
CN116010744A (zh) | 页面数据处理方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |