CN113704178A - 大数据管理方法、系统、电子设备及存储介质 - Google Patents
大数据管理方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113704178A CN113704178A CN202111103979.1A CN202111103979A CN113704178A CN 113704178 A CN113704178 A CN 113704178A CN 202111103979 A CN202111103979 A CN 202111103979A CN 113704178 A CN113704178 A CN 113704178A
- Authority
- CN
- China
- Prior art keywords
- data
- service
- big
- module
- management system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种大数据管理方法、系统、电子设备及存储介质。其中,大数据管理系统,包括:数据集成模块,用于获取多个数据源中各数据源的业务数据;数据存储模块,部署有数据资产中心,数据存储模块用于根据各数据源的业务数据的数据类型,将各数据源的业务数据整合后存储到分布式存储空间中,数据资产中心基于分布式存储空间中的业务数据构建数据资产;数据计算模块,部署有多个数据计算引擎,用于根据用户需求,调用对应的数据计算引擎对数据资产进行处理,以为用户提供数据服务。本申请实施例,通过数据集成、数据存储、数据计算,可以为用户提供多种数据应用服务,具有可靠性高、安全性高、容错能力强且易用的业务数据整合能力。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种大数据管理方法、系统、电子设备及存储介质。
背景技术
相关技术中,企业的各种信息系统大多是独立采购或者独立建设的,无法做到信息的互联互通,导致企业内部形成多个数据孤岛。互联网、移动互联网的发展带来很多新的业务模式,产生的数据与传统模式下的数据无法互通,进一步加剧了数据孤岛问题。分散在各个孤岛的数据无法很好地支撑企业的经营决策也无法很好地应对快速变化的业务需求。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种大数据管理方法、系统、电子设备及存储介质,通过数据集成、数据存储、数据计算,可以为用户提供多种数据应用服务,具有可靠性高、安全性高、容错能力强且易用的业务数据整合能力。
第一方面,本申请实施例提供了一种大数据管理系统,包括:
数据集成模块,用于获取多个数据源中各数据源的业务数据;
数据存储模块,所述数据存储模块中部署有数据资产中心,所述数据存储模块用于根据所述各数据源的业务数据的数据类型,将所述各数据源的业务数据整合后存储到分布式存储空间中,所述数据资产中心基于所述分布式存储空间中的业务数据构建数据资产;
数据计算模块,所述数据计算模块部署有多个数据计算引擎,用于根据用户需求,调用对应的数据计算引擎对所述数据资产进行处理,以为用户提供数据服务。
第二方面,本申请实施例提供一种大数据管理方法,包括:
获取多个数据源中各数据源的业务数据;
根据所述各数据源的业务数据的数据类型,将所述各数据源的业务数据整合后存储到分布式存储空间中,并基于所述分布式存储空间中的业务数据构建数据资产;
根据用户需求,对所述数据资产进行处理,以为用户提供数据服务。
第三方面,本申请实施例提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述第二方面所述的大数据管理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上第二方面所述的大数据管理方法。
第五方面,本申请实施例提供一种计算机程序产品,其上存储有计算机程序,该计算机程序用于实现如上第二方面所述的大数据管理方法。
本申请实施例提供的大数据管理方法、系统、电子设备及存储介质,通过数据集成模块获取多个数据源中各数据源的业务数据,通过数据存储模块将所述各数据源的业务数据整合后存储到分布式存储空间中,最后可以利用数据计算模块对所述数据资产进行处理,以为用户提供数据服务。本发明的实施例通过数据集成、数据存储、数据计算,可以为用户提供多种数据应用服务,具有可靠性高、安全性高、容错能力强且易用的业务数据整合能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例的大数据管理系统的结构框图;
图2为本申请实施例的大数据管理系统的示意图;
图3为本申请实施例的大数据管理方法的流程图;
图4为本申请实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关公开,而非对该公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与公开相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1是本申请一个实施例的大数据管理系统的结构框图,如图1所示,根据本申请实一个实施例的大数据管理系统,包括:数据集成模块110、数据存储模块120和数据计算模块130,其中:
数据集成模块110用于获取多个数据源中各数据源的业务数据。数据存储模块120中部署有数据资产中心121,数据存储模块120用于根据所述各数据源的业务数据的数据类型,将所述各数据源的业务数据整合后存储到分布式存储空间中,所述数据资产中心121基于所述分布式存储空间中的业务数据构建数据资产。数据计算模块130部署有多个数据计算引擎,用于根据用户需求,调用对应的数据计算引擎对所述数据资产进行处理,以为用户提供数据服务。
在本发明的一个实施例中,业务数据的数据类型包括结构化业务数据、半结构化业务数据和非结构化业务数据,结合图2所示,数据集成模块110利用可视化数据集成与同步工具获取多个数据源中各数据源的结构化业务数据和半结构化业务数据,所述数据集成模块110利用网络爬虫获取多个数据源中各数据源的非结构化业务数据。数据存储模块120的分布式存储空间包括分布式文件系统HDFS和分布式文件系统Ceph,所述数据资产中心121基于所述分布式文件系统HDFS和分布式文件系统Ceph构建数据湖,其中,所述数据湖为所述数据资产的一部分。数据存储模块120中还部署有数据仓库,所述数据仓库是基于数据模型和所述数据湖构建的,其中,所述数据仓库为所述数据资产的一部分。
具体来说,结合图2所示,数据存储模块120支持HDFS、Ceph等分布式文件系统,支持关系数据库、各类Sql数据库、特征向量数据库等的业务存储需求。
数据集成模块110支持从互联网公开数据源、各类业务系统、第三方子系统、IoT平台、AI平台等采集汇聚不同类型的主数据,支持结构化数据、半结构化数据以及非结构化数据的采集。
数据计算模块130支持Hive、mapreduce等批量计算、Spark内存计算、ClickHouseOLAP引擎、Flink流式计算等计算引擎,从而可以满足各领域业务场景数据计算。
数据资产中心121可构建数据湖,打通融合各个信息系统,打破数据孤岛,构建数据资产地图,提供一站式数据资产构建、管理和共享能力。
本发明实施例的大数据管理系统的业务数据处理流程如下:
数据集成模块110把互联网、同一个局域网、不同网络域、多个分级域之间的各个业务系统实现数据同步、数据交换、数据迁移、数据传输、文件导入导出、数据汇总,实现对多种数据源的集成。其中,数据集成方式大致分为三类,全量采集、订阅增量采集、单条查询采集。可支持的数据源类型为:数据库(关系型数据库、NoSQL数据库、列式数据库、分布式并行处理数据库等),搜索引擎(ElasticSearch等),大数据平台(HDFS、Hive、HBase、MongoDB、Impala等),服务接口(REST API、WebService接口、socket接口等),消息队列(kafka、RabbitMQ等),文件服务器(ftp、sftp等),等等多种数据源类型。
通过数据集成,可以把设备、业务系统数据汇总到一起。采用分布式文件系统HDFS存储结构化数据和半结构化数据,采用对象存储Ceph存储非结构化数据(图片、文件、音频、视频)。通过HDFS和Ceph构建基础的数据湖,可支撑各种来源的数据、各种类型的数据存储下来,支持各种应用场景数据共享使用。基于数据湖中最初始的源数据,可通过数据计算和数据模型构建数据仓库,满足业务运营分析和数据分析的需求。
大数据相关的数据计算,可分为离线计算、实时计算、内存计算和OLAP(On-LineAnalytical Processing)联机分析处理。其中,大数据计算引擎如Flink,实现了对流计算的支持。本发明实施例的数据计算引擎可以支持MapReduce、Spark和Flink两种计算引擎,资源调度依赖于YARN来执行,实现批流合一。离线计算采用MapReduce计算引擎实现,实时计算采用Flink计算引擎,内存计算采用Spark计算引擎实现,OLAP采用ClickHouse列式数据库实现。
使用流处理和批处理两种架构进行数据处理。流处理部分负责实时数据的处理,批处理部分负责历史大量数据的处理。批处理服务定期将数据抽取到分布式文件系统HDFS中,然后交由分布式计算数据库Hive进行处理,处理后的精准结果由ClickHouse实时查询引擎提供服务。实时处理服务实时从kafka中获取,并交由Flink实时计算引擎进行实时处理,处理结果会存储在支持实时读写的数据库ClickHouse中。数据仓库建设模式采用Inmon提出的自下而上的数仓建模方式,数仓的逻辑分层为原始数据层ODS、明细数仓层DWD、汇总数层层DWS、应用数据层ADS和维度层DIM。数据湖和数据仓库一起构成整体数据资产。把各业务系统以及所有产品的数据打通,实现数据只需要处理一次,可以实现数据复用、共享,摒弃原来的各业务各自的烟囱式开发和存储,降低开发成本和人力物力。
在本发明的一个实施例中,还包括:接口模块,其中,所述接口模块提供有数据服务接口和应用服务接口,其中,所述数据服务接口用于为用户提供数据共享服务,所述应用服务接口用于为用户提供数据应用服务。此外,大数据管理系统,还包括:数据治理模块,用于对所述数据资产进行管理;数据运维模块,用于对所述大数据管理系统提供数据运维服务。
具体来说,构建数据资产,从头到尾需要管理和维护,数据治理是在构建整个大数据平台的过程中从开始到结束,以及中间过程都需要开展实施。数据治理是指企业数据管理的过程和实践,包括元数据管理、数据质量管理、数据清洗转换、数据脱敏加密、数据生命周期管理等。元数据管理是建立大数据类别信息,通过元数据管理,完善对数据资产的描述,同时在数据资产的建设过程中,注重数据资产业务含义的提炼,将数据加工和组织成无歧义的数据资产数据质量管理是公司对实物资产进行定期检修一样,定期净化大数据,提供全链路数据质量稽核监控、质量大屏、质量得分、监控历史等功能,基于基础规则和自定义规则,监控到异常数据。数据清洗转换是实现对各数据源的字段级别数据提供多种转换清洗功能,获取干净的数据。数据脱敏加密是对数据的安全措施。数据脱敏是对某些敏感的信息通过脱敏规则进行数据变形,实现敏感隐私数据的可靠保护。数据加密是通过密钥和加密算法对数据进行转换成不可识别的数据,智能通过解密才能还原出原始的值。数据生命周期管理是对大数据进行存档,并在没必要继续保存某些数据时,将其删除。
在数据资产的基础上,就可以提供数据服务和数据应用,通过统一的数据访问入口提供数据服务,屏蔽异构数据的复杂性,同时控制数据访问与数据内容的安全性。数据服务是通过构建各类专题数据API接口实现数据共享,也提供API接口支撑BI报表展示所需计算的数据结果。数据应用包括智能预测、知识图谱、推荐系统、向量搜索等智能应用。智能预测是根据历史业务数据、AI感知数据,预测未来一定时间内指定指标的结果。知识图谱是根据业务数据,构建相关领域知识图谱,并提供可视化呈现与检索。推荐系统是根据业务数据、历史数据及历史行为数据,为用户商品推荐兴趣度最相关的业务商品。向量检索实现TB级/50万+向量库的创建与维护,秒级查询相似向量列表。平台运维是存在于大数据平台构建的整个生命周期:提供软硬件设备组件和应用服务的监控运维服务,实现告警服务,并提供集群扩容服务,保证业务快速增长对集群服务器的需求。
根据本发明实施例的大数据管理系统,通过数据集成模块获取多个数据源中各数据源的业务数据,通过数据存储模块将所述各数据源的业务数据整合后存储到分布式存储空间中,最后可以利用数据计算模块对所述数据资产进行处理,以为用户提供数据服务。该系统通过数据集成、数据存储、数据计算,可以为用户提供多种数据应用服务,具有可靠性高、安全性高、容错能力强且易用的业务数据整合能力。
另一方面,如图3所示,本申请实施例提供了一种大数据管理方法,包括如下步骤:
S301:获取多个数据源中各数据源的业务数据;
S302:根据所述各数据源的业务数据的数据类型,将所述各数据源的业务数据整合后存储到分布式存储空间中,并基于所述分布式存储空间中的业务数据构建数据资产;
S303:根据用户需求,对所述数据资产进行处理,以为用户提供数据服务。
在本申请的一个实施例中,所述业务数据的数据类型包括结构化业务数据、半结构化业务数据和非结构化业务数据,所述数据集成模块利用可视化数据集成与同步工具获取多个数据源中各数据源的结构化业务数据和半结构化业务数据,所述数据集成模块利用网络爬虫获取多个数据源中各数据源的非结构化业务数据。
在本申请的一个实施例中,所述数据存储模块的分布式存储空间包括分布式文件系统HDFS和分布式文件系统Ceph,所述数据资产中心基于所述分布式文件系统HDFS和分布式文件系统Ceph构建数据湖,其中,所述数据湖为所述数据资产的一部分。
在本申请的一个实施例中,所述数据存储模块中还部署有数据仓库,所述数据仓库是基于数据模型和所述数据湖构建的,其中,所述数据仓库为所述数据资产的一部分。
在本申请的一个实施例中,还包括:
接口模块,其中,所述接口模块提供有数据服务接口和应用服务接口,其中,所述数据服务接口用于为用户提供数据共享服务,所述应用服务接口用于为用户提供数据应用服务。
在本申请的一个实施例中,还包括:
数据治理模块,用于对所述数据资产进行管理;
数据运维模块,用于对所述大数据管理系统提供数据运维服务。
根据本发明实施例的大数据管理方法,通过数据集成模块获取多个数据源中各数据源的业务数据,通过数据存储模块将所述各数据源的业务数据整合后存储到分布式存储空间中,最后可以利用数据计算模块对所述数据资产进行处理,以为用户提供数据服务。该方法通过数据集成、数据存储、数据计算,可以为用户提供多种数据应用服务,具有可靠性高、安全性高、容错能力强且易用的业务数据整合能力。
需要说明的是,本申请实施例的大数据管理方法的具体实现方式与本申请实施例的大数据管理系统的具体实现方式类似,具体请参见方法部分的描述,此处不做赘述。
图4为本申请实施例的电子设备的结构示意图。
如图4所示,电子设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分602加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。CPU 601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的电子设备中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行电子设备、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的处理接收设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的电子设备来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,处理器用于执行所述程序时实现大数据管理方法:获取多个数据源中各数据源的业务数据;根据所述各数据源的业务数据的数据类型,将所述各数据源的业务数据整合后存储到分布式存储空间中,并基于所述分布式存储空间中的业务数据构建数据资产;根据用户需求,对所述数据资产进行处理,以为用户提供数据服务。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的大数据管理方法:获取多个数据源中各数据源的业务数据;根据所述各数据源的业务数据的数据类型,将所述各数据源的业务数据整合后存储到分布式存储空间中,并基于所述分布式存储空间中的业务数据构建数据资产;根据用户需求,对所述数据资产进行处理,以为用户提供数据服务。
作为另一方面,本申请还提供了一种计算机程序产品,该计算机程序产品可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机程序产品存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的大数据管理方法:获取多个数据源中各数据源的业务数据;根据所述各数据源的业务数据的数据类型,将所述各数据源的业务数据整合后存储到分布式存储空间中,并基于所述分布式存储空间中的业务数据构建数据资产;根据用户需求,对所述数据资产进行处理,以为用户提供数据服务。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种大数据管理系统,其特征在于,包括:
数据集成模块,用于获取多个数据源中各数据源的业务数据;
数据存储模块,所述数据存储模块中部署有数据资产中心,所述数据存储模块用于根据所述各数据源的业务数据的数据类型,将所述各数据源的业务数据整合后存储到分布式存储空间中,所述数据资产中心基于所述分布式存储空间中的业务数据构建数据资产;
数据计算模块,所述数据计算模块部署有多个数据计算引擎,用于根据用户需求,调用对应的数据计算引擎对所述数据资产进行处理,以为用户提供数据服务。
2.根据权利要求1所述的大数据管理系统,其特征在于,所述业务数据的数据类型包括结构化业务数据、半结构化业务数据和非结构化业务数据,所述数据集成模块利用可视化数据集成与同步工具获取多个数据源中各数据源的结构化业务数据和半结构化业务数据,所述数据集成模块利用网络爬虫获取多个数据源中各数据源的非结构化业务数据。
3.根据权利要求1或2所述的大数据管理系统,其特征在于,所述数据存储模块的分布式存储空间包括分布式文件系统HDFS和分布式文件系统Ceph,所述数据资产中心基于所述分布式文件系统HDFS和分布式文件系统Ceph构建数据湖,其中,所述数据湖为所述数据资产的一部分。
4.根据权利要求3所述的大数据管理系统,其特征在于,所述数据存储模块中还部署有数据仓库,所述数据仓库是基于数据模型和所述数据湖构建的,其中,所述数据仓库为所述数据资产的一部分。
5.根据权利要求1所述的大数据管理系统,其特征在于,还包括:
接口模块,其中,所述接口模块提供有数据服务接口和应用服务接口,其中,所述数据服务接口用于为用户提供数据共享服务,所述应用服务接口用于为用户提供数据应用服务。
6.根据权利要求1所述的大数据管理系统,其特征在于,还包括:
数据治理模块,用于对所述数据资产进行管理;
数据运维模块,用于对所述大数据管理系统提供数据运维服务。
7.一种大数据管理方法,其特征在于,包括:
获取多个数据源中各数据源的业务数据;
根据所述各数据源的业务数据的数据类型,将所述各数据源的业务数据整合后存储到分布式存储空间中,并基于所述分布式存储空间中的业务数据构建数据资产;
根据用户需求,对所述数据资产进行处理,以为用户提供数据服务。
8.一种电子设备,其特征在于,所述电子设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现根据权利要7所述的大数据管理方法。
9.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时,用于实现根据权利要求7所述的大数据管理方法。
10.一种计算机程序产品,其特征在于,其上存储有计算机程序,所述计算机程序被执行时,用于实现根据权利要求7所述的大数据管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111103979.1A CN113704178A (zh) | 2021-09-18 | 2021-09-18 | 大数据管理方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111103979.1A CN113704178A (zh) | 2021-09-18 | 2021-09-18 | 大数据管理方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704178A true CN113704178A (zh) | 2021-11-26 |
Family
ID=78661388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111103979.1A Pending CN113704178A (zh) | 2021-09-18 | 2021-09-18 | 大数据管理方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704178A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823464A (zh) * | 2023-06-06 | 2023-09-29 | 海通期货股份有限公司 | 数据资产管理平台、电子设备及计算机可读存储介质 |
CN117743470A (zh) * | 2024-02-06 | 2024-03-22 | 中科云谷科技有限公司 | 用于异构大数据的处理系统 |
-
2021
- 2021-09-18 CN CN202111103979.1A patent/CN113704178A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823464A (zh) * | 2023-06-06 | 2023-09-29 | 海通期货股份有限公司 | 数据资产管理平台、电子设备及计算机可读存储介质 |
CN116823464B (zh) * | 2023-06-06 | 2024-03-26 | 海通期货股份有限公司 | 数据资产管理平台、电子设备及计算机可读存储介质 |
CN117743470A (zh) * | 2024-02-06 | 2024-03-22 | 中科云谷科技有限公司 | 用于异构大数据的处理系统 |
CN117743470B (zh) * | 2024-02-06 | 2024-05-07 | 中科云谷科技有限公司 | 用于异构大数据的处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Muniswamaiah et al. | Big data in cloud computing review and opportunities | |
AU2017202873B2 (en) | Efficient query processing using histograms in a columnar database | |
CN109997126B (zh) | 事件驱动提取、变换、加载(etl)处理 | |
US10409650B2 (en) | Efficient access scheduling for super scaled stream processing systems | |
US10262032B2 (en) | Cache based efficient access scheduling for super scaled stream processing systems | |
Chen et al. | Big data: A survey | |
US11494339B2 (en) | Multi-level compression for storing data in a data store | |
CN113704178A (zh) | 大数据管理方法、系统、电子设备及存储介质 | |
US10860562B1 (en) | Dynamic predicate indexing for data stores | |
Becker | Big data usage | |
Latifian | How does cloud computing help businesses to manage big data issues | |
Li et al. | A data lake architecture for monitoring and diagnosis system of power grid | |
CN111414355A (zh) | 一种海上风电场数据监测存储系统及方法、装置 | |
Wadhera et al. | A systematic Review of Big data tools and application for developments | |
Kharb et al. | A contingent exploration on big data tools | |
CN115033574A (zh) | 信息生成方法、信息生成装置、电子设备及存储介质 | |
Priya et al. | Cloud computing and big data: A comprehensive analysis | |
CN114138758A (zh) | 一种基于多源系统的数据清洗合并方法、装置及可读介质 | |
Nagarajan et al. | Big data analytics in cloud computing: effective deployment of data analytics tools | |
Kaur et al. | Enhanced Data Management Framework for Cloud Based System | |
Dalal et al. | Cloud enabled predictive big data analytics framework for healthcare | |
Akerkar et al. | Analytics and big data | |
CN114610507A (zh) | 应用服务处理方法、装置、设备、存储介质以及程序产品 | |
CN117725441A (zh) | 权限管理方法、装置、可读存储介质及电子设备 | |
Mamatha et al. | A Survey on Big Data Analytics Using HADOOP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |