CN108121778A - 一种异构数据交换与清洗系统及方法 - Google Patents

一种异构数据交换与清洗系统及方法 Download PDF

Info

Publication number
CN108121778A
CN108121778A CN201711342587.4A CN201711342587A CN108121778A CN 108121778 A CN108121778 A CN 108121778A CN 201711342587 A CN201711342587 A CN 201711342587A CN 108121778 A CN108121778 A CN 108121778A
Authority
CN
China
Prior art keywords
data
file
layer
data file
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711342587.4A
Other languages
English (en)
Other versions
CN108121778B (zh
Inventor
刘益铭
刘浩
陈园园
沈巧敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Aerospace Heng Jia Data Technology Co Ltd
Original Assignee
Zhejiang Aerospace Heng Jia Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Aerospace Heng Jia Data Technology Co Ltd filed Critical Zhejiang Aerospace Heng Jia Data Technology Co Ltd
Priority to CN201711342587.4A priority Critical patent/CN108121778B/zh
Publication of CN108121778A publication Critical patent/CN108121778A/zh
Application granted granted Critical
Publication of CN108121778B publication Critical patent/CN108121778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种异构数据交换与清洗系统及方法,系统包括:ETL系统,ETL系统由下向上依次包括:数据源层、数据采集层、数据处理层、数据存储层、数据分析应用层和展示层。本发明的有益效果是:采用集群化的方式,有效提升效率,实现了传统关系数据库与非结构化数据的统一接入,数据交换作业的可视化配置,无需开发人员开发代码,并且与大数据技术相结合,进行数据建仓并提供数据分析功能。

Description

一种异构数据交换与清洗系统及方法
技术领域
本发明涉及数据处理领域,特别涉及一种异构数据交换与清洗系统及方法。
背景技术
传统方法大都采用现有ETL工具进行开发或者根据需求直接编写代码实现数据交换过程。前者需要进行客户端部署并且配置也绑定在客户端上,后者更是需要耗费时间进行开发而且复用性极差。现有技术仅针对传统关系数据库以及少数固定类型文件进行数据清洗和交换。不仅数据接入方式单一,而且不支持数据的分析应用。
发明内容
本发明提供了一种异构数据交换与清洗系统及方法,解决了现有技术的技术问题。
本发明解决上述技术问题的技术方案如下:
一种异构数据交换与清洗系统,包括:ETL系统,所述ETL系统由下向上依次包括:数据源层、数据采集层、数据处理层、数据存储层、数据分析应用层和展示层;
所述数据源层用于提供连接关系型数据库、文件型数据库和本地数据库的地址信息;
所述数据采集层包括数据收集端和数据拉取端,所述数据收集端用于以全量或增量的方式根据所述数据源层提供的地址信息从所述关系型数据库获取结构化数据文件,从所述文件型数据库获取非结构化数据文件,所述数据拉取端用于向所述数据收集端发送请求以拉取所述结构化数据文件和所述非结构化数据文件;
所述数据处理层用于将所述结构化数据文件和所述非结构化数据文件中的待共享数据推送到数据共享平台,对所述非结构化数据文件中的数据进行数据处理和归档存储,通过ETL集群对所述结构化数据文件和所述本地数据库中的数据进行数据清洗和存储;
所述数据存储层包括根据所述结构化数据文件创建的多个数据仓库、由所述数据仓库划拨得到多个数据集市和元数据规则引擎;
所述数据分析应用层包括OLAP引擎,用于面向数据仓库进行查询分析;
所述展示层用于展示所述OLAP引擎和所述ETL集群的操作界面,以及所述数据采集层进行数据采集的展示界面。
本发明的有益效果是:采用集群化的方式,有效提升效率,实现了传统关系数据库与非结构化数据的统一接入,数据交换作业的可视化配置,无需开发人员开发代码,并且与大数据技术相结合,进行数据建仓并提供数据分析功能。
在上述技术方案的基础上,本发明还可以做如下改进。
优选地,所述数据收集端还用于将获取到的所述结构化数据文件和所述非结构化数据文件写到ftp服务器的预定文件夹中。
优选地,所述数据拉取端具体用于:通过shell脚本从所述ftp服务器定时获取所述结构化数据文件和所述非结构化数据文件,获取之后从所述ftp服务器中删除;
实时显示所述结构化数据文件的属性和数据源,以及所述非结构化数据文件的文件名称、数据源和文件类型,并进行预览;
将所述结构化数据文件中的数据发送至所述ETL集群,将所述非结构化数据文件中的数据通过flume存入Hadoop平台。
优选地,对所述非结构化数据文件进行数据归档存储时,所述数据处理层具体用于:调用元数据规则引擎,获取所述非结构化数据文件中数据的元数据,进行元数据存储;
将进行数据清洗之后的所述结构化数据文件和所述本地数据库中的数据存入所述数据仓库时,所述数据处理层还用于调用元数据规则引擎,获取所述结构化数据文件和所述本地数据库中的数据的元数据,进行元数据存储。
优选地,对待存入自身的数据进行存储时,所述数据集市具体用于:调用元数据规则引擎,获取所述待存入自身的数据的元数据,进行元数据存储。
优选地,还包括:任务调度系统,连接所述数据拉取端和所述ETL集群,用于进行数据拉取任务调度和ETL作业调度。
优选地,所述OLAP引擎用于对待查询分析的数据进行钻取、上卷、切片、切块以及旋转处理。
上述技术方案的有益效果是:
1、通过统一模块进行数据接入,包括传统的关系数据库以及非结构化数据。并且提供定时数据拉取、全量和增量数据获取、数据重新获取功能。
2、对文件进行分流,需要数据清洗的由ETL集群清洗整合后归档;需要进行数据共享的数据推送给相应组件。数据分流过程中,调用元数据规则引擎,获取数据元数据,最后存储归档数据的元数据。
3、数据仓库存储技术和大数据存储计算技术结合,充分利用数据仓库数据质量可靠可信的特点,让数据分析挖掘结果有效可用;同时结合大数据平台巨大的存储计算能力,提供更大的数据存储空间,提供更全的数据挖掘分析手段。二者结合,更加利于数据应用,为企业提升生产效率。
一种异构数据交换与清洗方法,包括:
S1、数据收集端以全量或增量的方式根据数据源层提供的地址信息从关系型数据库获取结构化数据文件,从文件型数据库获取非结构化数据文件;
S2、数据拉取端向所述数据收集端发送请求以拉取所述结构化数据文件和所述非结构化数据文件;
S3、将所述结构化数据文件和所述非结构化数据文件中的待共享数据推送到数据共享平台,对所述非结构化数据文件中的数据进行数据处理和归档存储,通过ETL集群对所述结构化数据文件中的数据和本地数据库中的数据进行数据清洗;
S4、根据所述结构化数据文件中的数据和所述本地数据库中的数据创建多个数据仓库,将所述结构化数据文件中的数据和所述本地数据库中的数据分别存入所述多个数据仓库。
附图说明
图1为本发明实施例提供的一种异构数据交换与清洗系统的结构图;
图2为本发明另一实施例提供的一种异构数据交换与清洗系统的架构图;
图3为本发明另一实施例提供的一种异构数据交换与清洗方法的流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种异构数据交换与清洗系统,包括:ETL系统,ETL系统由下向上依次包括:数据源层1、数据采集层2、数据处理层3、数据存储层4、数据分析应用层5和展示层6;
数据源层1用于提供连接关系型数据库、文件型数据库和本地数据库的地址信息;
数据采集层2包括数据收集端和数据拉取端,数据收集端用于以全量或增量的方式根据数据源层提供的地址信息从关系型数据库获取结构化数据文件,从文件型数据库获取非结构化数据文件,数据拉取端用于向数据收集端发送请求以拉取结构化数据文件和非结构化数据文件;
数据处理层3用于将结构化数据文件和非结构化数据文件中的待共享数据推送到数据共享平台,对非结构化数据文件中的数据进行数据处理和归档存储,通过ETL集群对结构化数据文件和本地数据库中的数据进行数据清洗和存储;
数据存储层4包括根据结构化数据文件创建的多个数据仓库、由数据仓库划拨得到多个数据集市和元数据规则引擎;
数据分析应用层5包括OLAP引擎,用于面向数据仓库进行查询分析;
展示层6用于展示OLAP引擎和ETL集群的操作界面,以及数据采集层进行数据采集的展示界面。
采用集群化的方式,有效提升效率,实现了传统关系数据库与非结构化数据的统一接入,数据交换作业的可视化配置,无需开发人员开发代码,并且与大数据技术相结合,进行数据建仓并提供数据分析功能。
优选地,数据收集端还用于将获取到的结构化数据文件和非结构化数据文件写到ftp服务器的预定文件夹中。
优选地,数据拉取端具体用于:通过shell脚本从ftp服务器定时获取结构化数据文件和非结构化数据文件,获取之后从ftp服务器中删除;
实时显示结构化数据文件的属性和数据源,以及非结构化数据文件的文件名称、数据源和文件类型,并进行预览;
将结构化数据文件中的数据发送至ETL集群,将非结构化数据文件中的数据通过flume存入Hadoop平台。
数据收集端
采用前置机模式,连接外部系统的数据库,获取需要归档的结构化数据和非结构化数据,配置ftp服务,将数据写到指定的文件夹下。并且提供定时数据拉取、全量和增量数据获取、数据重新获取功能。
数据拉取端
a.批量数据接收端通过编写shell脚本,定时去ftp服务器获取数据,获取文件后将该文件删除。
b.实时的显示批量数据接收端数据获取情况。对于非结构性文件,显示文件名称、数据源、文件类型等;对于结构化数据,显示属性、数据源,并提供数据预览。
c.对文件进行分流,需要数据清洗的由ETL集群清洗整合后归档;需要进行数据共享的数据推送到数据共享平台,由其他功能组件使用;对于大量的非关系型数据如视频、音频、文档等文件通过flume接入到Hadoop平台。数据分流过程中,调用元数据规则引擎,获取数据元数据,最后存储归档数据的元数据。ETL集群选择kettle做集群部署进行数据转换服务。
优选地,对非结构化数据文件进行数据归档存储时,数据处理层具体用于:调用元数据规则引擎,获取非结构化数据文件中数据的元数据,进行元数据存储;
将进行数据清洗之后的结构化数据文件和本地数据库中的数据存入数据仓库时,数据处理层还用于调用元数据规则引擎,获取结构化数据文件和本地数据库中的数据的元数据,进行元数据存储。
优选地,对待存入自身的数据进行存储时,数据集市具体用于:调用元数据规则引擎,获取待存入自身的数据的元数据,进行元数据存储。
优选地,本系统还包括:任务调度系统,连接数据拉取端和ETL集群,用于进行数据拉取任务调度和ETL作业调度。
优选地,OLAP引擎用于对待查询分析的数据进行钻取、上卷、切片、切块以及旋转处理。
数据存储
数据归档存储,通常用于数据整合或者不需要建立数据仓库的数据进行存储。同时调用元数据引擎,获取元数据,进行元数据存储。对于归档的数据,有清洗需求时,通过清洗后存入数据仓库。
需要进行数据仓库建设的数据,该场景需要对数据存储进行建模,根据情况建立星型模型或者雪花型模型,需要对数据仓库进行设计后存储数据。数据存储的同时,调用元数据规则引擎,获取元数据并进行存储。
数据集市,对于小范围特定主题的数据建仓,通常由数据仓库划拨。数据存储的同时,调用元数据规则引擎,获取元数据并进行存储。
OLAP引擎
OLAP引擎为数据仓库中数据分析提供钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot)等操作。采用开源的组件Apache Kylin。
如图2所示,一种异构数据交换与清洗系统的架构图。
ETL系统包括六层:
第一层是数据源层,包括外部系统数据源和内部系统数据源,数据获取方式有通过网络传输和直接连接数据库;
第二层数据采集层,包括数据收集端和数据拉取端,数据收集端以全量或增量的方式获取数据,数据拉取端通过向数据收集端发送请求拉取数据,并提供数据加密、数据解密功能;
第三层是数据处理层,通过业务判断,需要用于数据共享的数据推送到数据共享发布平台;非结构性数据通过特殊处理,进行数据归档存储;结构化数据通过ETL集群进行数据清洗后,存入数据仓库;
第四层数据存储层,提供数据仓库、数据集市、元数据等存储模式;
第五层数据分析应用层OLAP引擎,主要面向数据仓库查询分析引擎;
第六层展示层,提供OLAP操作界面、ETL集群的操作界面、数据采集情况的展示界面。
1、通过统一模块进行数据接入,包括传统的关系数据库以及非结构化数据。并且提供定时数据拉取、全量和增量数据获取、数据重新获取功能。
2、对文件进行分流,需要数据清洗的由ETL集群清洗整合后归档;需要进行数据共享的数据推送给相应组件。数据分流过程中,调用元数据规则引擎,获取数据元数据,最后存储归档数据的元数据。
3、数据仓库存储技术和大数据存储计算技术结合,充分利用数据仓库数据质量可靠可信的特点,让数据分析挖掘结果有效可用;同时结合大数据平台巨大的存储计算能力,提供更大的数据存储空间,提供更全的数据挖掘分析手段。二者结合,更加利于数据应用,为企业提升生产效率。
如图3所示,一种异构数据交换与清洗方法,包括:
S1、数据收集端以全量或增量的方式根据数据源层提供的地址信息从关系型数据库获取结构化数据文件,从文件型数据库获取非结构化数据文件;
S2、数据拉取端向数据收集端发送请求以拉取结构化数据文件和非结构化数据文件;
S3、将结构化数据文件和非结构化数据文件中的待共享数据推送到数据共享平台,对非结构化数据文件中的数据进行数据处理和归档存储,通过ETL集群对结构化数据文件中的数据和本地数据库中的数据进行数据清洗;
S4、根据结构化数据文件中的数据和本地数据库中的数据创建多个数据仓库,将结构化数据文件中的数据和本地数据库中的数据分别存入多个数据仓库。
数据收集端从关系型数据库和文件型数据库中批量收集数据,通过网络传输给数据拉取端,对拉取到的数据进行判断是否需要清洗,如果需要则通过ETL集群进行清洗,从数据库中直接获取内部网络数据源,放入ETL集群中进行数据清洗,如果不需要清洗则判断是否需要数据共享,如果是则发送至数据共享平台,如果不是则通过flume接入Hadoop平台,从数据共享平台和Hadoop平台出来进行普通数据存储,放入数据仓库中;经过ETL集群进行数据清洗之后的数据判断是否需要建仓库,如果是则放入数据仓库,如果不是则进行普通数据存储;数据仓库可以给某一类或某个主题相关的数据划拨若干数据集市,还可以通过OLAP引擎面向数据仓库进行数据分析;还可以通过任务调度系统对数据获取任务和ETL作业进行调度,实现负载均衡;对数据进行存储的同时,需要调用元数据规则引擎进行元数据存储。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种异构数据交换与清洗系统,其特征在于,包括:ETL系统,所述ETL系统由下向上依次包括:数据源层、数据采集层、数据处理层、数据存储层、数据分析应用层和展示层;
所述数据源层用于提供连接关系型数据库、文件型数据库和本地数据库的地址信息;
所述数据采集层包括数据收集端和数据拉取端,所述数据收集端用于以全量或增量的方式根据所述数据源层提供的地址信息从所述关系型数据库获取结构化数据文件,从所述文件型数据库获取非结构化数据文件,所述数据拉取端用于向所述数据收集端发送请求以拉取所述结构化数据文件和所述非结构化数据文件;
所述数据处理层用于将所述结构化数据文件和所述非结构化数据文件中的待共享数据推送到数据共享平台,对所述非结构化数据文件中的数据进行数据处理和归档存储,通过ETL集群对所述结构化数据文件和所述本地数据库中的数据进行数据清洗和存储;
所述数据存储层包括根据所述结构化数据文件创建的多个数据仓库、由所述数据仓库划拨得到多个数据集市和元数据规则引擎;
所述数据分析应用层包括OLAP引擎,用于面向数据仓库进行查询分析;
所述展示层用于展示所述OLAP引擎和所述ETL集群的操作界面,以及所述数据采集层进行数据采集的展示界面。
2.根据权利要求1所述的一种异构数据交换与清洗系统,其特征在于,所述数据收集端还用于将获取到的所述结构化数据文件和所述非结构化数据文件写到ftp服务器的预定文件夹中。
3.根据权利要求2所述的一种异构数据交换与清洗系统,其特征在于,所述数据拉取端具体用于:通过shell脚本从所述ftp服务器定时获取所述结构化数据文件和所述非结构化数据文件,获取之后从所述ftp服务器中删除;
实时显示所述结构化数据文件的属性和数据源,以及所述非结构化数据文件的文件名称、数据源和文件类型,并进行预览;
将所述结构化数据文件中的数据发送至所述ETL集群,将所述非结构化数据文件中的数据通过flume存入Hadoop平台。
4.根据权利要求1所述的一种异构数据交换与清洗系统,其特征在于,对所述非结构化数据文件进行数据归档存储时,所述数据处理层具体用于:调用元数据规则引擎,获取所述非结构化数据文件中数据的元数据,进行元数据存储;
将进行数据清洗之后的所述结构化数据文件和所述本地数据库中的数据存入所述数据仓库时,所述数据处理层还用于调用元数据规则引擎,获取所述结构化数据文件和所述本地数据库中的数据的元数据,进行元数据存储。
5.根据权利要求4所述的一种异构数据交换与清洗系统,其特征在于,对待存入自身的数据进行存储时,所述数据集市具体用于:调用元数据规则引擎,获取所述待存入自身的数据的元数据,进行元数据存储。
6.根据权利要求1-5任一项所述的一种异构数据交换与清洗系统,其特征在于,还包括:任务调度系统,连接所述数据拉取端和所述ETL集群,用于进行数据拉取任务调度和ETL作业调度。
7.根据权利要求1-5任一项所述的一种异构数据交换与清洗系统,其特征在于,所述OLAP引擎用于对待查询分析的数据进行钻取、上卷、切片、切块以及旋转处理。
8.一种异构数据交换与清洗方法,其特征在于,包括:
S1、数据收集端以全量或增量的方式根据数据源层提供的地址信息从关系型数据库获取结构化数据文件,从文件型数据库获取非结构化数据文件;
S2、数据拉取端向所述数据收集端发送请求以拉取所述结构化数据文件和所述非结构化数据文件;
S3、将所述结构化数据文件和所述非结构化数据文件中的待共享数据推送到数据共享平台,对所述非结构化数据文件中的数据进行数据处理和归档存储,通过ETL集群对所述结构化数据文件中的数据和本地数据库中的数据进行数据清洗;
S4、根据所述结构化数据文件中的数据和所述本地数据库中的数据创建多个数据仓库,将所述结构化数据文件中的数据和所述本地数据库中的数据分别存入所述多个数据仓库。
CN201711342587.4A 2017-12-14 2017-12-14 一种异构数据交换与清洗系统及方法 Active CN108121778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711342587.4A CN108121778B (zh) 2017-12-14 2017-12-14 一种异构数据交换与清洗系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711342587.4A CN108121778B (zh) 2017-12-14 2017-12-14 一种异构数据交换与清洗系统及方法

Publications (2)

Publication Number Publication Date
CN108121778A true CN108121778A (zh) 2018-06-05
CN108121778B CN108121778B (zh) 2020-12-25

Family

ID=62230029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711342587.4A Active CN108121778B (zh) 2017-12-14 2017-12-14 一种异构数据交换与清洗系统及方法

Country Status (1)

Country Link
CN (1) CN108121778B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542960A (zh) * 2018-10-18 2019-03-29 国网内蒙古东部电力有限公司信息通信分公司 一种数据分析域系统
CN110502662A (zh) * 2019-08-23 2019-11-26 南京信易达计算技术有限公司 一种异构数据处理系统及方法
CN111858569A (zh) * 2020-07-01 2020-10-30 长江岩土工程总公司(武汉) 基于流式计算的海量数据清洗的方法
CN112256806A (zh) * 2020-11-04 2021-01-22 成都市食品药品检验研究院 一种食品生产经营全程风险信息库的构建方法及系统
CN113177039A (zh) * 2021-04-27 2021-07-27 中通服咨询设计研究院有限公司 一种基于数据融合的数据中心数据清洗系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083306A1 (en) * 2007-09-26 2009-03-26 Lucidera, Inc. Autopropagation of business intelligence metadata
CN102982075A (zh) * 2012-10-30 2013-03-20 北京京东世纪贸易有限公司 支持访问异构数据源的系统和方法
WO2014000786A1 (en) * 2012-06-27 2014-01-03 Qatar Foundation A method for repairing records in a database
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架
CN106779407A (zh) * 2016-12-15 2017-05-31 国网浙江省电力公司杭州供电公司 一种基于数据池的电力数据融合方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083306A1 (en) * 2007-09-26 2009-03-26 Lucidera, Inc. Autopropagation of business intelligence metadata
WO2014000786A1 (en) * 2012-06-27 2014-01-03 Qatar Foundation A method for repairing records in a database
CN102982075A (zh) * 2012-10-30 2013-03-20 北京京东世纪贸易有限公司 支持访问异构数据源的系统和方法
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架
CN106779407A (zh) * 2016-12-15 2017-05-31 国网浙江省电力公司杭州供电公司 一种基于数据池的电力数据融合方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542960A (zh) * 2018-10-18 2019-03-29 国网内蒙古东部电力有限公司信息通信分公司 一种数据分析域系统
CN110502662A (zh) * 2019-08-23 2019-11-26 南京信易达计算技术有限公司 一种异构数据处理系统及方法
CN111858569A (zh) * 2020-07-01 2020-10-30 长江岩土工程总公司(武汉) 基于流式计算的海量数据清洗的方法
CN112256806A (zh) * 2020-11-04 2021-01-22 成都市食品药品检验研究院 一种食品生产经营全程风险信息库的构建方法及系统
CN112256806B (zh) * 2020-11-04 2021-05-18 成都市食品药品检验研究院 一种食品生产经营全程风险信息库的构建方法及系统
CN113177039A (zh) * 2021-04-27 2021-07-27 中通服咨询设计研究院有限公司 一种基于数据融合的数据中心数据清洗系统
CN113177039B (zh) * 2021-04-27 2024-02-27 中通服咨询设计研究院有限公司 一种基于数据融合的数据中心数据清洗系统

Also Published As

Publication number Publication date
CN108121778B (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN108121778A (zh) 一种异构数据交换与清洗系统及方法
Sharma et al. A brief review on leading big data models
CA2492348C (en) Decision-theoretic web-crawling and predicting web-page change
US7779017B2 (en) Employing abstract pipeline component connections to maintain data flow
Karagiannis et al. Scheduling strategies for efficient ETL execution
CN102073683A (zh) 一种分布式的实时新闻信息采集系统
CN104050042B (zh) Etl作业的资源分配方法及装置
CN103235820B (zh) 一种集群系统中数据存储方法与装置
CN103605698A (zh) 一种用于分布异构数据资源整合的云数据库系统
Tian et al. IBM Db2 Graph: Supporting synergistic and retrofittable graph queries inside IBM Db2
CN106815260A (zh) 一种索引建立方法及设备
CN110427437A (zh) 一种面向大数据的关系型数据库混合异构查询模型与方法
CN115238015A (zh) 一种基于微服务的时空大数据平台
CN106682061A (zh) 一种分布式起源数据收集与存储系统
CN105550180B (zh) 数据处理的方法、装置及系统
CN106528756B (zh) 一种基于时空关联性的网络地图数据组织方法
CN113127526A (zh) 一种基于Kubernetes的分布式数据存储和检索系统
CN101882290A (zh) 互联网环境下基于情境本体的服务集成方法
CN109902219A (zh) 一种搜索聚合引擎
CN109960701A (zh) 一种基于混合引擎的大数据处理方法及系统
CN102521383A (zh) 一种分布式系统中的海量文件存储和访问方法
CN107276833A (zh) 一种节点信息管理方法及装置
US20110029501A1 (en) Search Engine Platform
CN106503038B (zh) 一种自动缓存网络请求返回数据的方法及系统
CN110109925A (zh) 一种基于HBase的海量能耗数据存储系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant