CN113111104A - 一种基于一体化的Web-ETL大数据融合方法 - Google Patents

一种基于一体化的Web-ETL大数据融合方法 Download PDF

Info

Publication number
CN113111104A
CN113111104A CN202110366843.3A CN202110366843A CN113111104A CN 113111104 A CN113111104 A CN 113111104A CN 202110366843 A CN202110366843 A CN 202110366843A CN 113111104 A CN113111104 A CN 113111104A
Authority
CN
China
Prior art keywords
data
web
etl
directory
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110366843.3A
Other languages
English (en)
Inventor
徐孟宇
罗钦
黄宇
冯琦
叶莎莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Information Technology Co ltd
Original Assignee
Creative Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Information Technology Co ltd filed Critical Creative Information Technology Co ltd
Priority to CN202110366843.3A priority Critical patent/CN113111104A/zh
Publication of CN113111104A publication Critical patent/CN113111104A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于一体化的Web‑ETL大数据融合方法,包括以下步骤:S1:根据数据来源选择数据采集方式,进行数据采集,将采集的数据存入Web‑ETL平台数据库,进行数据库资源配置;S2:数据库资源配置完成后,自动抽取数据库的元数据,形成元数据列表S3:根据业务需求快速配置资源目录,形成对内数据资产的管理;S4:由数据资源目录发布数据服务目录,用于数据共享与数据交换;S5:采用Web‑ETL工具和数据抓取工具对Web‑ETL平台数据库中的数据进行加工处理、建模和调度。本发明通过一体化的Web‑ETL工具和数据抓取工具,提供面向对象的操作方式,一站式完成数据采集、加工处理流程,提高了用户对数据治理工具操作的延续性,降低数据处理的维护成本。

Description

一种基于一体化的Web-ETL大数据融合方法
技术领域
本发明涉及大数据处理领域,尤其涉及一种基于一体化的Web-ETL大数据融合方法。
背景技术
信息融合最早应用于军事领域,是组合多源信息和数据完成目标检测、关联、状态评估的多层次、多方面的过程。数据融合技术能够辅助人们进行态势和环境的判定、规划、探测、验证、诊断。目前,数据融合技术在我国还处于初级发展阶段,迫切需要在理论和实现技术上进行开拓性研究。在专利号为 CN201810189318.7 的发明专利申请文件中有提到:当前对大数据的利用主要是基于其非结构化的属性使用的,因此无法充分发挥大数据的价值和利用效率。大数据普遍存在数据量大、离散性、数据噪声多、类型复杂、数据来源多元化等特点,因此大数据在前期处理方面存在问题,会直接导致数据的利用效率和数据价值等方面的问题。目前的大数据融合数据处理过程较为麻烦,且操作也不方便,数据处理的运维成本较高,不利于推广使用范围。
发明内容
基于此,本发明的目的是为了解决现有技术中大数据融合过程较为麻烦,且操作也不方便,数据处理运维成本较高的问题。
为实现上述目的,本发明提出一种基于一体化的Web-ETL大数据融合方法,所述大数据融合方法包括以下步骤:
S1:根据数据来源选择数据采集方式,进行数据采集,将采集的数据存入Web-ETL平台数据库,进行数据库资源配置;
S2:数据库资源配置完成后,自动抽取数据库的元数据,形成元数据列表;
S3:根据业务需求快速配置资源目录,形成对内数据资产的管理;
S4:由数据资源目录发布数据服务目录,用于数据共享与数据交换;
S5:采用Web-ETL工具和数据抓取工具对Web-ETL平台数据库中的数据进行加工处理、建模和调度。
所述大数据融合处理方法还包括:
S6:使用搜索引擎ElasticSearch对元数据、数据资源目录、服务目录的内容进行快速检索。
所述S4中的数据共享包括以下子步骤:
S41:将数据资源发布为服务目录,并投入到可视化的Web-ETL界面;
S42:数据共享申请通过后,生成相应的数据接口或数据文件;
S43:进行安全验证,获取生成的数据。
所述S41还包括:
S411:展示对外数据服务目录,进行申请管理,并实时监控记录数据交换共享情况。
所述对外数据服务目录包括:数据服务查询目录、数据服务发布目录、数据服务审核目录及数据服务监控目录。
所述S5中的数据处理包括数据类型转换、数据过滤及数据计算。
所述S1中数据采集方式包括:互联网采集、物联网采集、文件采集、接口采集及数据库直连。
本申请的有益效果:通过一体化的Web-ETL工具和数据抓取工具,支持图形化操作界面、免编程应用,提供面向对象的操作方式,一站式完成数据采集、加工处理流程。在一个面板工作区就可以实现加工、建模、调度的一体化配置,提高了用户对数据治理工具操作的延续性,降低数据处理的维护成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据附图的结构获得其他的附图。
图1为本发明的总体实现流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
如图1所示,在本实施例中,本发明提出一种基于一体化的Web-ETL大数据融合方法,所述大数据融合方法包括以下步骤:
S1:根据数据来源选择数据采集方式,进行数据采集,将采集的数据存入Web-ETL平台数据库,进行数据库资源配置;
S2:数据库资源配置完成后,自动抽取数据库的元数据,形成元数据列表;
S3:根据业务需求快速配置资源目录,形成对内数据资产的管理;
S4:由数据资源目录发布数据服务目录,用于数据共享与数据交换;
S5:采用Web-ETL工具和数据抓取工具对Web-ETL平台数据库中的数据进行加工处理、建模和调度。
具体的,所述大数据融合处理方法还包括:
S6:使用搜索引擎ElasticSearch对元数据、数据资源目录、服务目录的内容进行快速检索。
具体的,所述S4中的数据共享包括以下子步骤:
S41:将数据资源发布为服务目录,并投入到可视化的Web-ETL界面;
S42:数据共享申请通过后,生成相应的数据接口或数据文件;
S43:进行安全验证,获取生成的数据。
具体的,所述S41还包括:
S411:展示对外数据服务目录,进行申请管理,并实时监控记录数据交换共享情况。
具体的,所述对外数据服务目录包括:数据服务查询目录、数据服务发布目录、数据服务审核目录及数据服务监控目录。
具体的,所述S5中的数据处理包括数据类型转换、数据过滤及数据计算。
具体的,所述S1中数据采集方式包括:互联网采集、物联网采集、文件采集、接口采集及数据库直连。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (7)

1.一种基于一体化的Web-ETL大数据融合方法,其特征在于,所述大数据融合方法包括以下步骤:
S1:根据数据来源选择数据采集方式,进行数据采集,将采集的数据存入Web-ETL平台数据库,进行数据库资源配置;
S2:数据库资源配置完成后,自动抽取数据库的元数据,形成元数据列表;
S3:根据业务需求快速配置资源目录,形成对内数据资产的管理;
S4:由数据资源目录发布数据服务目录,用于数据共享与数据交换;
S5:采用Web-ETL工具和数据抓取工具对Web-ETL平台数据库中的数据进行加工处理、建模和调度。
2.如权利要求1所述的一种基于一体化的Web-ETL大数据融合方法,其特征在于,所述大数据融合处理方法还包括:
S6:使用搜索引擎ElasticSearch对元数据、数据资源目录、服务目录的内容进行快速检索。
3.如权利要求1所述的一种基于一体化的Web-ETL大数据融合方法,其特征在于,所述S4中的数据共享包括以下子步骤:
S41:将数据资源发布为服务目录,并投入到可视化的Web-ETL界面;
S42:数据共享申请通过后,生成相应的数据接口或数据文件;
S43:进行安全验证,获取生成的数据。
4.如权利要求3所述的一种基于一体化的Web-ETL大数据融合方法,其特征在于,所述S41还包括:
S411:展示对外数据服务目录,进行申请管理,并实时监控记录数据交换共享情况。
5.如权利要求4所述的一种基于一体化的Web-ETL大数据融合方法,其特征在于,所述对外数据服务目录包括:数据服务查询目录、数据服务发布目录、数据服务审核目录及数据服务监控目录。
6.如权利要求1所述的一种基于一体化的Web-ETL大数据融合方法,其特征在于,所述S5中的数据处理包括数据类型转换、数据过滤及数据计算。
7.如权利要求1所述的一种基于一体化的Web-ETL大数据融合方法,其特征在于,所述S1中数据采集方式包括:互联网采集、物联网采集、文件采集、接口采集及数据库直连。
CN202110366843.3A 2021-04-06 2021-04-06 一种基于一体化的Web-ETL大数据融合方法 Pending CN113111104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110366843.3A CN113111104A (zh) 2021-04-06 2021-04-06 一种基于一体化的Web-ETL大数据融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110366843.3A CN113111104A (zh) 2021-04-06 2021-04-06 一种基于一体化的Web-ETL大数据融合方法

Publications (1)

Publication Number Publication Date
CN113111104A true CN113111104A (zh) 2021-07-13

Family

ID=76713981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110366843.3A Pending CN113111104A (zh) 2021-04-06 2021-04-06 一种基于一体化的Web-ETL大数据融合方法

Country Status (1)

Country Link
CN (1) CN113111104A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116319896A (zh) * 2023-05-12 2023-06-23 广东省电信规划设计院有限公司 基于区块链的物联网感知关键信息处理方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463472A (zh) * 2014-12-12 2015-03-25 江阴中科今朝科技有限公司 电子政务平台系统
CN107247788A (zh) * 2017-06-15 2017-10-13 山东浪潮云服务信息科技有限公司 一种基于政府数据的综合治理服务的方法
CN109669976A (zh) * 2018-11-22 2019-04-23 武汉达梦数据库有限公司 基于etl的数据服务方法及设备
CN109739851A (zh) * 2019-01-21 2019-05-10 广东创能科技股份有限公司 流动人口大数据多源采集方法及系统
CN110781236A (zh) * 2019-10-29 2020-02-11 山西云时代技术有限公司 一种构建政务大数据治理体系的方法
CN112116488A (zh) * 2020-04-28 2020-12-22 刘革瑞 一种水利大数据综合维护系统
CN112231333A (zh) * 2020-11-09 2021-01-15 南京莱斯网信技术研究院有限公司 一种生态环境数据共享交换方法和系统
CN112396404A (zh) * 2020-11-27 2021-02-23 广州光点信息科技有限公司 一种数据中台系统
CN112579609A (zh) * 2020-12-25 2021-03-30 国家电投集团科学技术研究院有限公司 基于数据资产目录实现数据标准化管理与共享方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463472A (zh) * 2014-12-12 2015-03-25 江阴中科今朝科技有限公司 电子政务平台系统
CN107247788A (zh) * 2017-06-15 2017-10-13 山东浪潮云服务信息科技有限公司 一种基于政府数据的综合治理服务的方法
CN109669976A (zh) * 2018-11-22 2019-04-23 武汉达梦数据库有限公司 基于etl的数据服务方法及设备
CN109739851A (zh) * 2019-01-21 2019-05-10 广东创能科技股份有限公司 流动人口大数据多源采集方法及系统
CN110781236A (zh) * 2019-10-29 2020-02-11 山西云时代技术有限公司 一种构建政务大数据治理体系的方法
CN112116488A (zh) * 2020-04-28 2020-12-22 刘革瑞 一种水利大数据综合维护系统
CN112231333A (zh) * 2020-11-09 2021-01-15 南京莱斯网信技术研究院有限公司 一种生态环境数据共享交换方法和系统
CN112396404A (zh) * 2020-11-27 2021-02-23 广州光点信息科技有限公司 一种数据中台系统
CN112579609A (zh) * 2020-12-25 2021-03-30 国家电投集团科学技术研究院有限公司 基于数据资产目录实现数据标准化管理与共享方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116319896A (zh) * 2023-05-12 2023-06-23 广东省电信规划设计院有限公司 基于区块链的物联网感知关键信息处理方法和装置

Similar Documents

Publication Publication Date Title
US10642913B2 (en) Intent and bot based query guidance
CN110647662B (zh) 一种基于语义的多模态时空数据关联方法
US11244102B2 (en) Systems and methods for facilitating data object extraction from unstructured documents
CN104966172A (zh) 一种用于企业经营数据分析的大数据可视化分析处理系统
US8682935B2 (en) System and method for application navigation
JP2013530449A (ja) データベースの検索のための照会の改善方法
AU2020233750B2 (en) Method and apparatus for tracking, capturing, and synchronizing activity data across multiple devices
CN111752723B (zh) 一种可视化的多源服务管理系统及其实现方法
CN102521374A (zh) 基于关系型联机分析处理的智能数据聚集方法及其系统
CN113111104A (zh) 一种基于一体化的Web-ETL大数据融合方法
CN114430331A (zh) 一种基于知识图谱的网络安全态势感知方法及系统
US20080313175A1 (en) Method and system for interaction-based expertise reporting
US11314793B2 (en) Query processing
CN116521729A (zh) 一种基于Elasticsearch的信息分类搜索方法及装置
US20130159327A1 (en) Apparatus and method for visualizing data
CN114817256A (zh) 一种物联网快速统一存储系统
KR20060012572A (ko) 분산 설계 체인관리를 위한 장치 및 방법
CN107562909A (zh) 一种融合搜索与计算的大数据分析系统及其分析方法
KR20220054992A (ko) Dcat 기반 메타데이터 변환 시스템
CN108304219A (zh) 二次开发平台及方法
CN112950293A (zh) 一种企业外部数据采集与分析系统
CN112256836A (zh) 记录数据的处理方法、装置和服务器
CN112073549B (zh) 基于域名的系统关系确定方法及装置
JP7429374B2 (ja) 情報処理システム、情報処理方法及び情報処理プログラム
CN110825800A (zh) 一种多点异构环境下的业务数据自动传输校验方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210713