CN111782690A - 多源异构数据的汇聚方法及装置、存储介质、终端 - Google Patents
多源异构数据的汇聚方法及装置、存储介质、终端 Download PDFInfo
- Publication number
- CN111782690A CN111782690A CN201910273088.7A CN201910273088A CN111782690A CN 111782690 A CN111782690 A CN 111782690A CN 201910273088 A CN201910273088 A CN 201910273088A CN 111782690 A CN111782690 A CN 111782690A
- Authority
- CN
- China
- Prior art keywords
- data
- preset
- standard
- processed
- processed data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002776 aggregation Effects 0.000 title claims abstract description 20
- 238000004220 aggregation Methods 0.000 title claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000012795 verification Methods 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 13
- 230000001360 synchronised effect Effects 0.000 abstract description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种多源异构数据的汇聚方法及装置、存储介质、终端,所述方法包括:采用预设插件自数据源获取原始数据,其中,所述预设插件与所述数据源一一对应;根据所述原始数据的数据类型确定标准数据结构,所述标准数据结构包括至少一个字段以及所述字段的字段类型;按照所述标准数据结构转换所述原始数据,以得到处理后的数据;对于多个处理后的数据,以所述标准数据结构为基准分类存储所述多个处理后的数据,其中,所述多个处理后的数据获取自相同或不同的数据源。通过本发明提供的方案能够降低系统接入和转换数据的复杂度,提高对多源异构数据进行同步处理时的效率。
Description
技术领域
本发明涉及大数据处理技术领域,具体地涉及一种多源异构数据的汇聚方法及装置、存储介质、终端。
背景技术
在大数据时代,需要对海量数据进行挖掘和同步处理。由于这些数据可能来自不同的数据源,而不同数据源的数据的格式、类型、接口各不相同,这就导致大数据平台在从各数据源同步数据时面临系统接口不兼容、数据转换复杂度高、同步效率低的问题。
发明内容
本发明解决的技术问题是如何降低系统接入和转换数据的复杂度,提高对多源异构数据进行同步处理时的效率。
为解决上述技术问题,本发明实施例提供一种多源异构数据的汇聚方法,包括:采用预设插件自数据源获取原始数据,其中,所述预设插件与所述数据源一一对应;根据所述原始数据的数据类型确定标准数据结构,所述标准数据结构包括至少一个字段以及所述字段的字段类型;按照所述标准数据结构转换所述原始数据,以得到处理后的数据;对于多个处理后的数据,以所述标准数据结构为基准分类存储所述多个处理后的数据,其中,所述多个处理后的数据获取自相同或不同的数据源。
可选的,所述预设插件是以命令行的形式运行的。
可选的,多个预设插件分布式地部署于多个服务器节点。
可选的,对于每一处理后的数据,在存储所述处理后的数据之前,所述汇聚方法还包括:验证所述处理后的数据是否符合对应的标准数据结构;当验证结果为不符合对应的标准数据结构时,丢弃所述处理后的数据。
可选的,所述验证所述处理后的数据是否符合对应的标准数据结构包括:对于所述处理后的数据包含的每一字段,验证所述字段是否符合所述标准数据结构中对应字段的预设标准。
可选的,所述验证所述处理后的数据是否符合对应的标准数据结构包括:验证所述处理后的数据是否包含预设必要字段,所述预设必要字段由对应的标准数据结构对应。
可选的,所述以所述标准数据结构为基准分类存储所述多个处理后的数据包括:对于每一处理后的数据,判断所述处理后的数据是否为实时数据;当判断结果表明所述处理后的数据为实时数据时,将所述处理后的数据存储至预设消息存储队列,所述预设消息存储队列与所述标准数据结构一一对应。
可选的,所述以所述标准数据结构为基准分类存储所述多个处理后的数据还包括:当判断结果表明所述处理后的数据不是实时数据时,将所述处理后的数据存储至预设本地目录,所述预设本地目录与所述标准数据结构一一对应。
可选的,所述以所述标准数据结构为基准分类存储所述多个处理后的数据还包括:将预设时间段内存储至所述预设消息存储队列的所有处理后的数据存档至预设本地目录,所述预设本地目录与所述标准数据结构一一对应。
为解决上述技术问题,本发明实施例还提供一种多源异构数据的汇聚装置,包括:获取模块,用于采用预设插件自数据源获取原始数据,其中,所述预设插件与所述数据源一一对应;确定模块,用于根据所述原始数据的数据类型确定标准数据结构,所述标准数据结构包括至少一个字段以及所述字段的字段类型;转换模块,用于按照所述标准数据结构转换所述原始数据,以得到处理后的数据;存储模块,对于多个处理后的数据,以所述标准数据结构为基准分类存储所述多个处理后的数据,其中,所述多个处理后的数据获取自相同或不同的数据源。
为解决上述技术问题,本发明实施例还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述方法的步骤。
为解决上述技术问题,本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例提供一种多源异构数据的汇聚方法,包括:采用预设插件自数据源获取原始数据,其中,所述预设插件与所述数据源一一对应;根据所述原始数据的数据类型确定标准数据结构,所述标准数据结构包括至少一个字段以及所述字段的字段类型;按照所述标准数据结构转换所述原始数据,以得到处理后的数据;对于多个处理后的数据,以所述标准数据结构为基准分类存储所述多个处理后的数据,其中,所述多个处理后的数据获取自相同或不同的数据源。采用本实施例的方案能够降低系统接入和转换数据的复杂度,提高对多源异构数据进行同步处理时的效率。具体而言,针对不同的数据源设计相适应的预设插件,以确保能够准确地、顺利地从数据源抓取到原始数据。进一步地,根据数据类型确定标准数据结构,以将所述原始数据转换为规范化的、符合后续处理需求的处理后的数据。进一步地,将处理后的数据分门别类地进行存储,方便后续大数据处理时对同一数据类型的处理后的数据进行批量化操作。
进一步,所述预设插件是以命令行的形式运行的。较之现有采用软件开发工具包等需要额外开发和安装布局的插件形式,本实施例所采用的预设插件是基于命令行程序的,因而可以使用任何技术开发,从而绕过技术层面的限制,改善采用本实施例所述方案的大数据平台的系统兼容性和通用性。
附图说明
图1是本发明实施例的一种多源异构数据的汇聚方法的流程图;
图2是图1中步骤S104的一个具体实施方式的流程图;
图3是本发明实施例的一种多源异构数据的汇聚装置的结构示意图。
具体实施方式
如背景技术所言,现有技术对多源异构数据的汇聚方式存在诸多缺陷,导致数据转换复杂度高、同步效率低。
为解决上述技术问题,本发明实施例提供一种多源异构数据的汇聚方法,包括:采用预设插件自数据源获取原始数据,其中,所述预设插件与所述数据源一一对应;根据所述原始数据的数据类型确定标准数据结构,所述标准数据结构包括至少一个字段以及所述字段的字段类型;按照所述标准数据结构转换所述原始数据,以得到处理后的数据;对于多个处理后的数据,以所述标准数据结构为基准分类存储所述多个处理后的数据,其中,所述多个处理后的数据获取自相同或不同的数据源。
采用本实施例的方案能够降低系统接入和转换数据的复杂度,提高对多源异构数据进行同步处理时的效率。具体而言,针对不同的数据源设计相适应的预设插件,以确保能够准确地、顺利地从数据源抓取到原始数据。进一步地,根据数据类型确定标准数据结构,以将所述原始数据转换为规范化的、符合后续处理需求的处理后的数据。进一步地,将处理后的数据分门别类地进行存储,方便后续大数据处理时对同一数据类型的处理后的数据进行批量化操作。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例的一种多源异构数据的汇聚方法的流程图。本实施例所述方案可以由大数据平台执行,如由维持所述大数据平台的一个或多个服务器节点执行。
具体地,所述多源异构数据是指:数据源不同、数据类型也不相同的数据。其中,所述数据类型可以包括结构化数据和非结构化数据。当所述大数据平台将来自不同数据源、具有不同数据类型的数据汇聚至自身的数据库时,通过本实施例的方案,能够优化所述大数据平台的汇聚逻辑,降低汇聚过程中的数据转换复杂度,提高同步效率。
具体地,参考图1,本实施例所述多源异构数据的汇聚方法可以包括如下步骤:
步骤S101,采用预设插件自数据源获取原始数据,其中,所述预设插件与所述数据源一一对应;
步骤S102,根据所述原始数据的数据类型确定标准数据结构,所述标准数据结构包括至少一个字段以及所述字段的字段类型;
步骤S103,按照所述标准数据结构转换所述原始数据,以得到处理后的数据;
步骤S104,对于多个处理后的数据,以所述标准数据结构为基准分类存储所述多个处理后的数据,其中,所述多个处理后的数据获取自相同或不同的数据源。
在一个实施例中,所述服务器节点可以设置有统一的接口(以下称为通用端口),每一数据源对应设置所述预设插件以接收该数据源的原始数据,并统一汇总至所述通用端口。
进一步地,汇聚至所述通用端口的来自不同数据源的原始数据可以以本地文件的形式进行存储。
在一个实施例中,所述预设插件可以是以命令行的形式运行的。本申请发明人经过分析发现,在获取数据时,由于数据供应方可能对访问数据技术有限制,例如连接某品牌摄像头必须使用厂商提供的c++软件开发工具包(Software Development Kit,简称SDK),如果使用某种单一技术(例如java),则会出现该厂商没有提供java SDK而导致无法对接的局面。因而,本实施例中的所述预设插件是基于命令行程序实现的,因此可以使用任何技术开发,从而绕过技术层面的限制。
例如,所述预设插件可以是基于数据镜像备份工具(如rsync)、文件传输协议(File Transfer Protocol,简称ftp)、agent等工具定义的。
在一个实施例中,多个预设插件可以分布式地部署于多个服务器节点。例如,在所述大数据平台的多个服务器节点中分别部署不同的预设插件,以对接不同的数据源,实现业务分流,减轻单一服务器节点的数据处理压力。
进一步地,当需要对接新数据源时,可以以增加服务器节点的形式来实现,无需更改已有服务器节点上的配置,操作简单。
在一个实施例中,所述服务器节点可以对接一个或多个数据源,只要该服务器节点上安装部署有对应的预设插件即可。
进一步地,所述预设插件可以以命令行的形式部署于多端口转发器(hub),所述多端口转发器可以部署于所述服务器节点。
在一个实施例中,不同数据源存储的原始数据的格式可能不相同,如获取自部分数据源的原始数据可能是普通文本格式的,也可能是压缩格式的。为确保最终存储的数据的格式是统一的,需要对所述原始数据进行格式转换。
具体地,针对每一数据类型,可以定义相应的标准数据结构(schema)。其中,所述标准数据结构用于描述该数据类型的标准格式。
进一步地,所述标准数据结构可以包括至少一个字段,以及所述字段的字段类型。
例如,对于视频流数据,对应的标准数据结构可以包括名称、视频格式、时长字段,以及对应的每一字段的字段类型。
对于文本格式的数据,可以通过定义对应的标准数据结构将零散的数据转换为标准的数据结构。
在一个实施例中,在所述步骤S102中,对于通过所述预设插件获取的每一原始数据,可以根据所述原始数据的数据类型确定对应的标准数据结构。进一步地,在所述步骤S103中,可以根据所述标准数据结构来转换所述原始数据,以将所述原始数据按照所述标准数据结构中定义的字段拆分,并按照各字段的字段类型进行格式转换,从而得到处理后的数据。
在一个实施例中,为确保存储至大数据平台的数据格式的准确性,对于每一处理后的数据,在所述步骤S104之前,本实施例所述汇聚方法还可以包括步骤:验证所述处理后的数据是否符合对应的标准数据结构;当验证结果为不符合对应的标准数据结构时,丢弃所述处理后的数据。
进一步地,当验证结果为符合对应的标准数据结构时,执行所述步骤S104。
具体地,所述标准数据结构还可以包括每一字段的预设标准,所述预设标准用于描述对所述字段在内容、格式等方面的要求,所述预设标准还可以用于指示所述字段是否为必要字段。
进一步地,对于所述处理后的数据包含的每一字段,可以验证所述字段是否符合所述标准数据结构中对应字段的预设标准。
例如,对应视频流数据,对应的预设标准可以为所述视频流的内容是否包含特定动作、所述视频流的数据流是否符合特定要求等。
进一步地,可以验证所述处理后的数据是否包含预设必要字段,所述预设必要字段由对应的标准数据结构对应。
例如,对于文本格式的数据,对应的预设标准可以为所述文本是否符合特定分隔符的分隔要求。
进一步地,当确定需要丢弃所述处理后的数据时,还可以向所述大数据平台的使用方发送提示信息,以提示本次丢弃操作。
在一个实施例中,参考图2,所述步骤S104可以包括如下步骤:
步骤S1041,对于每一处理后的数据,判断所述处理后的数据是否为实时数据;
步骤S1042,当所述步骤S1041的判断结果为肯定的,也即,当所述处理后的数据为实时数据时,将所述处理后的数据存储至预设消息存储队列,所述预设消息存储队列与所述标准数据结构一一对应;
步骤S1043,当所述步骤S1041的判断结果为否定的,也即,当所述处理后的数据不是实时数据时,将所述处理后的数据存储至预设本地目录,所述预设本地目录与所述标准数据结构一一对应。
例如,所述预设消息存储队列可以为卡夫卡(kafka)集群(topic),以适于实时引擎的接入。
例如,所述预设本地目录可以为Hadoop分布式文件系统(Hadoop DistributedFile System,简称HDFS)目录,所述HDFS目录可以理解为数据库。
在一个实施例中,所述步骤S104还可以包括:将预设时间段内存储至所述预设消息存储队列的所有处理后的数据存档至预设本地目录,所述预设本地目录与所述标准数据结构一一对应。由此,可以将缓存于所述预设消息存储队列的数据批量存储至所述预设本地目录,以完成数据存档。
由上,采用本实施例的方案,能够降低系统接入和转换数据的复杂度,提高对多源异构数据进行同步处理时的效率。具体而言,针对不同的数据源设计相适应的预设插件,以确保能够准确地、顺利地从数据源抓取到原始数据。进一步地,根据数据类型确定标准数据结构,以将所述原始数据转换为规范化的、符合后续处理需求的处理后的数据。进一步地,将处理后的数据分门别类地进行存储,方便后续大数据处理时对同一数据类型的处理后的数据进行批量化操作。
在本实施例中,从数据的获取到转换再到存储,一个数据源仅需在一个预设插件中被处理,接入任意数量的数据源对系统(即所述大数据平台)是无差别的,对任意预设插件的调整均不会影响系统。
进一步地,所述预设插件可以使用标准的Java应用程序编程接口(ApplicationProgramming Interface,简称API)定义,无论数据源是什么,进行数据转换的研发人员只需要懂得Java或scala中的一种就可以工作,并且仅需要实现特定的一个转换接口,因此可简化工作复杂性。
进一步地,虽然处理后的数据是以实时的方式进入系统的,但是经过归档后仍可以长期保存,方便日后分析。具体地,实时数据可以按照进入系统的时间进行归档,并存储到相应的HDFS目录中,所述HDSF上的数据可以很方便的被传统大数据分析工具使用。
图3是本发明实施例的一种多源异构数据的汇聚装置的结构示意图。本领域技术人员理解,本实施例所述多源异构数据的汇聚装置3(以下简称为汇聚装置3)可以用于实施上述图1和图2所示实施例中所述的方法技术方案。
具体地,参考图3,本实施例所述汇聚装置3可以包括:获取模块31,用于采用预设插件自数据源获取原始数据,其中,所述预设插件与所述数据源一一对应;确定模块32,用于根据所述原始数据的数据类型确定标准数据结构,所述标准数据结构包括至少一个字段以及所述字段的字段类型;转换模块33,用于按照所述标准数据结构转换所述原始数据,以得到处理后的数据;存储模块35,对于多个处理后的数据,以所述标准数据结构为基准分类存储所述多个处理后的数据,其中,所述多个处理后的数据获取自相同或不同的数据源。
在一个实施例中,所述预设插件可以是以命令行的形式运行的。
在一个实施例中,多个预设插件可以分布式地部署于多个服务器节点。
在一个实施例中,对于每一处理后的数据,所述汇聚装置3还可以包括:验证模块34,用于在存储所述处理后的数据之前,验证所述处理后的数据是否符合对应的标准数据结构;丢弃模块36,用于当验证结果为不符合对应的标准数据结构时,丢弃所述处理后的数据。
在一个实施例中,所述验证模块34可以包括:第一验证子模块341,对于所述处理后的数据包含的每一字段,验证所述字段是否符合所述标准数据结构中对应字段的预设标准。
在一个实施例中,所述验证模块34可以包括:第二验证子模块342,用于验证所述处理后的数据是否包含预设必要字段,所述预设必要字段由对应的标准数据结构对应。
在一个实施例中,所述存储模块35可以包括:判断子模块351,对于每一处理后的数据,判断所述处理后的数据是否为实时数据;第一存储子模块352,当判断结果表明所述处理后的数据为实时数据时,将所述处理后的数据存储至预设消息存储队列,所述预设消息存储队列与所述标准数据结构一一对应。
进一步地,所述存储模块35还可以包括:第二存储子模块353,当判断结果表明所述处理后的数据不是实时数据时,将所述处理后的数据存储至预设本地目录,所述预设本地目录与所述标准数据结构一一对应。
在一个实施例中,所述存储模块35还可以包括:第三存储子模块354,用于将预设时间段内存储至所述预设消息存储队列的所有处理后的数据存档至预设本地目录,所述预设本地目录与所述标准数据结构一一对应。
关于所述汇聚装置3的工作原理、工作方式的更多内容,可以参照图1和图2中的相关描述,这里不再赘述。
进一步地,本发明实施例还公开一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述图1和图2所示实施例中所述的方法技术方案。优选地,所述存储介质可以包括计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。
进一步地,本发明实施例还公开一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述图1和图2所示实施例中所述的方法技术方案。例如,所述终端可以为大数据平台的服务器节点。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (12)
1.一种多源异构数据的汇聚方法,其特征在于,包括:
采用预设插件自数据源获取原始数据,其中,所述预设插件与所述数据源一一对应;
根据所述原始数据的数据类型确定标准数据结构,所述标准数据结构包括至少一个字段以及所述字段的字段类型;
按照所述标准数据结构转换所述原始数据,以得到处理后的数据;
对于多个处理后的数据,以所述标准数据结构为基准分类存储所述多个处理后的数据,其中,所述多个处理后的数据获取自相同或不同的数据源。
2.根据权利要求1所述的汇聚方法,其特征在于,所述预设插件是以命令行的形式运行的。
3.根据权利要求1所述的汇聚方法,其特征在于,多个预设插件分布式地部署于多个服务器节点。
4.根据权利要求1所述的汇聚方法,其特征在于,对于每一处理后的数据,在存储所述处理后的数据之前,还包括:
验证所述处理后的数据是否符合对应的标准数据结构;
当验证结果为不符合对应的标准数据结构时,丢弃所述处理后的数据。
5.根据权利要求4所述的汇聚方法,其特征在于,所述验证所述处理后的数据是否符合对应的标准数据结构包括:
对于所述处理后的数据包含的每一字段,验证所述字段是否符合所述标准数据结构中对应字段的预设标准。
6.根据权利要求4所述的汇聚方法,其特征在于,所述验证所述处理后的数据是否符合对应的标准数据结构包括:
验证所述处理后的数据是否包含预设必要字段,所述预设必要字段由对应的标准数据结构对应。
7.根据权利要求1所述的汇聚方法,其特征在于,所述以所述标准数据结构为基准分类存储所述多个处理后的数据包括:
对于每一处理后的数据,判断所述处理后的数据是否为实时数据;
当判断结果表明所述处理后的数据为实时数据时,将所述处理后的数据存储至预设消息存储队列,所述预设消息存储队列与所述标准数据结构一一对应。
8.根据权利要求7所述的汇聚方法,其特征在于,所述以所述标准数据结构为基准分类存储所述多个处理后的数据还包括:
当判断结果表明所述处理后的数据不是实时数据时,将所述处理后的数据存储至预设本地目录,所述预设本地目录与所述标准数据结构一一对应。
9.根据权利要求7所述的汇聚方法,其特征在于,所述以所述标准数据结构为基准分类存储所述多个处理后的数据还包括:
将预设时间段内存储至所述预设消息存储队列的所有处理后的数据存档至预设本地目录,所述预设本地目录与所述标准数据结构一一对应。
10.一种多源异构数据的汇聚装置,其特征在于,包括:
获取模块,用于采用预设插件自数据源获取原始数据,其中,所述预设插件与所述数据源一一对应;
确定模块,用于根据所述原始数据的数据类型确定标准数据结构,所述标准数据结构包括至少一个字段以及所述字段的字段类型;
转换模块,用于按照所述标准数据结构转换所述原始数据,以得到处理后的数据;
存储模块,对于多个处理后的数据,以所述标准数据结构为基准分类存储所述多个处理后的数据,其中,所述多个处理后的数据获取自相同或不同的数据源。
11.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至9任一项所述方法的步骤。
12.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至9任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910273088.7A CN111782690A (zh) | 2019-04-04 | 2019-04-04 | 多源异构数据的汇聚方法及装置、存储介质、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910273088.7A CN111782690A (zh) | 2019-04-04 | 2019-04-04 | 多源异构数据的汇聚方法及装置、存储介质、终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111782690A true CN111782690A (zh) | 2020-10-16 |
Family
ID=72755479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910273088.7A Withdrawn CN111782690A (zh) | 2019-04-04 | 2019-04-04 | 多源异构数据的汇聚方法及装置、存储介质、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782690A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463799A (zh) * | 2020-12-11 | 2021-03-09 | 天冕信息技术(深圳)有限公司 | 数据提取方法、装置、设备及存储介质 |
CN112632050A (zh) * | 2020-12-24 | 2021-04-09 | 安徽航天信息科技有限公司 | 跨平台同步数据的数据质量检查方法、装置及存储介质 |
CN113190608A (zh) * | 2021-05-28 | 2021-07-30 | 北京红山信息科技研究院有限公司 | 数据标准化采集方法、装置、设备及存储介质 |
CN114140032A (zh) * | 2022-01-29 | 2022-03-04 | 北京优特捷信息技术有限公司 | 一种设施运行状态监测方法、装置、设备及存储介质 |
CN116340363A (zh) * | 2023-04-06 | 2023-06-27 | 河海大学 | 一种基于关系型数据库的数据存储、加载方法及相关装置 |
CN116644031A (zh) * | 2023-07-27 | 2023-08-25 | 北京联创高科信息技术有限公司 | 不同格式的煤矿水害数据统一标准化的方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412956A (zh) * | 2013-08-30 | 2013-11-27 | 北京中科江南软件有限公司 | 异构数据源的数据加工处理方法及系统 |
CN106682036A (zh) * | 2015-11-11 | 2017-05-17 | 上海汽车集团股份有限公司 | 一种数据交换系统及其交换方法 |
CN107295039A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 数据接入处理方法和装置 |
CN107302569A (zh) * | 2017-06-08 | 2017-10-27 | 武汉火凤凰云计算服务股份有限公司 | 一种面向云平台的安全监控数据采集与存储方法 |
CN108133007A (zh) * | 2017-12-22 | 2018-06-08 | 北京明朝万达科技股份有限公司 | 一种数据同步方法和系统 |
CN109284147A (zh) * | 2018-09-06 | 2019-01-29 | 平安科技(深圳)有限公司 | 一种插件适配方法和装置 |
WO2019047479A1 (zh) * | 2017-09-08 | 2019-03-14 | 广东省建设信息中心 | 一种普适多源异构大规模数据同步系统 |
-
2019
- 2019-04-04 CN CN201910273088.7A patent/CN111782690A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412956A (zh) * | 2013-08-30 | 2013-11-27 | 北京中科江南软件有限公司 | 异构数据源的数据加工处理方法及系统 |
CN106682036A (zh) * | 2015-11-11 | 2017-05-17 | 上海汽车集团股份有限公司 | 一种数据交换系统及其交换方法 |
CN107295039A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 数据接入处理方法和装置 |
CN107302569A (zh) * | 2017-06-08 | 2017-10-27 | 武汉火凤凰云计算服务股份有限公司 | 一种面向云平台的安全监控数据采集与存储方法 |
WO2019047479A1 (zh) * | 2017-09-08 | 2019-03-14 | 广东省建设信息中心 | 一种普适多源异构大规模数据同步系统 |
CN108133007A (zh) * | 2017-12-22 | 2018-06-08 | 北京明朝万达科技股份有限公司 | 一种数据同步方法和系统 |
CN109284147A (zh) * | 2018-09-06 | 2019-01-29 | 平安科技(深圳)有限公司 | 一种插件适配方法和装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463799A (zh) * | 2020-12-11 | 2021-03-09 | 天冕信息技术(深圳)有限公司 | 数据提取方法、装置、设备及存储介质 |
CN112632050A (zh) * | 2020-12-24 | 2021-04-09 | 安徽航天信息科技有限公司 | 跨平台同步数据的数据质量检查方法、装置及存储介质 |
CN112632050B (zh) * | 2020-12-24 | 2023-09-05 | 安徽航天信息科技有限公司 | 跨平台同步数据的数据质量检查方法、装置及存储介质 |
CN113190608A (zh) * | 2021-05-28 | 2021-07-30 | 北京红山信息科技研究院有限公司 | 数据标准化采集方法、装置、设备及存储介质 |
CN114140032A (zh) * | 2022-01-29 | 2022-03-04 | 北京优特捷信息技术有限公司 | 一种设施运行状态监测方法、装置、设备及存储介质 |
CN116340363A (zh) * | 2023-04-06 | 2023-06-27 | 河海大学 | 一种基于关系型数据库的数据存储、加载方法及相关装置 |
CN116340363B (zh) * | 2023-04-06 | 2024-01-30 | 河海大学 | 一种基于关系型数据库的数据存储、加载方法及相关装置 |
CN116644031A (zh) * | 2023-07-27 | 2023-08-25 | 北京联创高科信息技术有限公司 | 不同格式的煤矿水害数据统一标准化的方法及系统 |
CN116644031B (zh) * | 2023-07-27 | 2023-10-13 | 北京联创高科信息技术有限公司 | 不同格式的煤矿水害数据统一标准化的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111782690A (zh) | 多源异构数据的汇聚方法及装置、存储介质、终端 | |
WO2019227689A1 (zh) | 数据监控方法、装置、计算机设备及存储介质 | |
US20150237113A1 (en) | Method and system for file transmission | |
CN104182288A (zh) | 一种服务器集群系统功耗自动化测试的方法 | |
CN108804215B (zh) | 一种任务处理方法、装置以及电子设备 | |
US20140237554A1 (en) | Unified platform for big data processing | |
CN113485962B (zh) | 日志文件的存储方法、装置、设备和存储介质 | |
CN111221793B (zh) | 数据挖掘方法、平台、计算机设备及存储介质 | |
CN112765246B (zh) | 任务处理方法、装置、电子设备和存储介质 | |
CN113779094B (zh) | 基于批流一体的数据处理方法、装置、计算机设备和介质 | |
CN112751938B (zh) | 一种基于多集群作业的实时数据同步系统,实现方法以及存储介质 | |
CN114089956A (zh) | 一种基于需求模型的微服务拆分方法 | |
CN112612802A (zh) | 一种实时数据中台的处理方法、装置及平台 | |
JP2021140430A (ja) | データベースマイグレーション方法、データベースマイグレーションシステム、及びデータベースマイグレーションプログラム | |
CN112667393B (zh) | 分布式任务计算调度框架搭建的方法、装置及计算机设备 | |
CN112286918B (zh) | 数据快速接入转换的方法、装置、电子设备及存储介质 | |
CN110955645B (zh) | 大数据集成处理方法及系统 | |
CN113704203A (zh) | 一种日志文件的处理方法及装置 | |
CN113297274A (zh) | 一种签收数据查询方法和系统 | |
CN112597250A (zh) | 基于DataX数据同步的轨道交通数据中台实现方法 | |
CN113779018A (zh) | 一种数据处理方法和装置 | |
US11086848B1 (en) | Dynamic data transformation system | |
CN111124365A (zh) | Rpa需求收集的方法和装置 | |
CN112732728A (zh) | 一种数据同步方法和系统 | |
US20240127148A1 (en) | Delta based task analysis for ci systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201016 |
|
WW01 | Invention patent application withdrawn after publication |