CN110083647A - 一种大数据管理平台 - Google Patents
一种大数据管理平台 Download PDFInfo
- Publication number
- CN110083647A CN110083647A CN201910254685.5A CN201910254685A CN110083647A CN 110083647 A CN110083647 A CN 110083647A CN 201910254685 A CN201910254685 A CN 201910254685A CN 110083647 A CN110083647 A CN 110083647A
- Authority
- CN
- China
- Prior art keywords
- data
- unit
- log
- big data
- big
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大数据管理平台,包括相连接的登陆界面单元、大规模数据存储与计算单元、数据集成单元、数据应用开发单元、数据管理单元、数据安全单元和实时流计算单元;登陆界面单元用于通过用户名和密码登陆所述大数据管理平台后使用;大规模数据存储与计算单元用于提供从GB到PB级别的存储方案,支持批量计算、Spark内存计算、Kylin多维分析、Impala和流式计算方案;数据集成单元用于实现全量离线接入以及关系型数据库和日志的增量实时/准实时接入。本发明能帮助企业构建数据应用、提高开发效率、帮助企业一站式解决大数据落地的难题、助力企业数字化创新、推动产业数字化升级、解决数据生产过程中的质量问题。
Description
技术领域
本发明涉及大数据管理领域,特别涉及一种大数据管理平台。
背景技术
传统软件的开发过程中,有大量丰富的软件保证开发、调试、发布等步骤井然有序地进行。从业人员的高素质和这些管理过程的工具保证了线上应用的高质量。但目前大数据商用软件领域,很少有足够好用的IDE来帮助企业构建数据应用,软件开发效率不高。元数据管理的主要目标是标准化企业内部的元数据定义。而随着数据依存度逐年增加,追踪数据流动,了解数据含义和血缘关系越发困难,数据生产过程中容易存在质量问题。此外,企业大数据落地存在困难,这些将阻碍企业数字化创新,不利于产业数字化升级。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能帮助企业构建数据应用、提高开发效率、帮助企业一站式解决大数据落地的难题、助力企业数字化创新、推动产业数字化升级、解决数据生产过程中的质量问题的大数据管理平台。
本发明解决其技术问题所采用的技术方案是:构造一种大数据管理平台,包括:
登陆界面单元:用于通过用户名和密码登陆所述大数据管理平台后使用;
大规模数据存储与计算单元:用于提供从GB到PB级别的存储方案,支持批量计算、Spark内存计算、Kylin多维分析、Impala和流式计算方案;
数据集成单元:用于实现全量离线接入以及关系型数据库和日志的增量实时/准实时接入;
数据应用开发单元:用于为企业构建数据应用,提供SQL开发、依赖配置与调度管理,以及交互式查询,协助管理开发过程;
数据管理单元:用于通过数据地图、数据字典和数据血缘保证企业的元数据标准,同时对主题、维度和指标进行一致性定义和管理;
数据安全单元:用于采用Kerberos做用户级别的认证;
实时流计算单元:用于使用SQL开发流式计算任务,兼容离线SQL,能实时分析用户的访问数据,展示流量变化和用户分布情况;
所述登陆界面单元、大规模数据存储与计算单元、数据集成单元、数据应用开发单元、数据管理单元、数据安全单元和实时流计算单元相连接。
在本发明所述的大数据管理平台中,所述全量离线接入具体为:将业务数据从各类数据源离线导入数据仓库以及相关大数据环境。
在本发明所述的大数据管理平台中,所述数据源至少包括MySQL、Oracle、PostgreSQL和MongoDB。
在本发明所述的大数据管理平台中,所述关系型数据库和日志的增量实时/准实时接入具体为:使用DataStream,将业务库中增量数据和APP日志实时导入到大数据环境。
在本发明所述的大数据管理平台中,在所述数据安全单元中,基于加密方法建立用户识别自己的方法,对个人通信进行身份认证,用户和服务器都能验证对方的身份;针对角色授权数据访问。
在本发明所述的大数据管理平台中,在所述数据安全单元中,从数据角度,能查看当前何种角色有何种权限;从角色角度,能查看对哪些数据有何种权限;审计提供事件跟踪。
在本发明所述的大数据管理平台中,所述事件跟踪包括实时监测对系统敏感信息的访问和操作行为,根据规则设定报警并及时阻断违规操作,收集并记录用户行为。
实施本发明的大数据管理平台,具有以下有益效果:由于设有登陆界面单元、大规模数据存储与计算单元、数据集成单元、数据应用开发单元、数据管理单元、数据安全单元和实时流计算单元,其能帮助企业构建数据应用、提高开发效率、帮助企业一站式解决大数据落地的难题、助力企业数字化创新、推动产业数字化升级、解决数据生产过程中的质量问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明大数据管理平台一个实施例中的框架示意图;
图2为所述实施例中大数据管理平台的结构示意图;
图3为所述实施例中大规模数据存储与计算单元的界面参考示意图;
图4为所述实施例中数据集成单元的界面参考示意图;
图5为所述实施例中数据应用开发单元的界面参考示意图;
图6为所述实施例中数据管理单元的界面参考示意图;
图7为所述实施例中数据安全单元的界面参考示意图;
图8为所述实施例中实时流计算单元的界面参考示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明大数据管理平台实施例中,该大数据管理平台的框架示意图如图1所示。根据该大数据管理平台的计算和存储、多样的编程接口和计算框架、严格安全防护等特征,来进行数据集成、数据处理、数据模型设计、数据分层主题设计、数据质量、数据生命周期管理、数据血缘和数据统计等全方位管理数据,实现企业数仓建设。其中,数据集成包括数据配置、数据管理、数据监控、资源的可视化操作、文件的可视化操作、图片的可视化操作、音频的可视化操作和视频的可视化操作。数据管理具体为:根据元数据挖掘模型,实现统一建模与管理。该大数据管理平台还可以实现数据服务,包括浏览、检索、专题、分析和咨询功能等。
该大数据管理平台的结构示意图如图2所示。图2中,该大数据管理平台包括相连接的登陆界面单元1、大规模数据存储与计算单元2、数据集成单元3、数据应用开发单元4、数据管理单元5、数据安全单元6和实时流计算单元7。
具体而言,登陆界面单元1用于使用户通过用户名和密码登陆大数据管理平台后使用。
大规模数据存储与计算单元2用于提供HDFS、Hbase、Kudu等从GB到PB级别的存储方案,支持Hive和MapReduce等批量计算、Spark内存计算、Kylin多维分析、Impala和流式计算方案;灵活满足客户的各类场景。图3为本实施例中大规模数据存储与计算单元的界面参考示意图。
数据集成单元3用于实现全量离线接入以及关系型数据库和日志的增量实时/准实时接入。其中,全量离线接入具体为:将业务数据从各类数据源离线导入数据仓库以及其他相关大数据环境,适用于对数据导入实时性要求不高以及静态数据源的场景,例如:将某业务上个月的所有数据导入数据仓库用于数据分析。上述数据源至少包括MySQL、Oracle、PostgreSQL和MongoDB等。
关系型数据库和日志的增量实时/准实时接入具体为:使用DataStream,将业务库中增量数据和APP日志实时导入到大数据环境,延迟可控制在秒级,适用于对数据导入实时性要求高,且业务快速增长的场景。图4为本实施例中数据集成单元的界面参考示意图。
数据应用开发单元4用于提供足够好用的IDE为企业构建数据应用,提供SQL开发、依赖配置与调度管理,以及交互式查询,协助管理开发过程,提高开发效率。图5为本实施例中数据应用开发单元的界面参考示意图。
数据管理单元5用于通过数据地图、数据字典和数据血缘三个方面保证企业的元数据标准,同时对主题、维度和指标进行一致性定义和管理,解决了数据生产过程中的质量问题。图6为本实施例中数据管理单元的界面参考示意图。
数据安全单元6用于采用Kerberos做用户级别的认证。在数据安全单元6中,基于加密方法建立用户(和系统)识别自己的方法,对个人通信进行身份认证,用户和服务器都能验证对方的身份;针对角色授权数据访问。对HDFS、Hive等实现了统一的,细粒度的数据权限控制。从数据角度,可以查看当前何种角色有何种权限。从角色角度,可以查看对哪些数据有何种权限。审计提供较直观事件跟踪,包括实时监测对系统敏感信息的访问和操作行为,根据规则设定报警并及时阻断违规操作,收集并记录用户行为。图7为本实施例中数据安全单元的界面参考示意图。
实时流计算单元7用于使用SQL开发流式计算任务,兼容离线SQL,能实时分析用户的访问数据,展示流量变化和用户分布情况。具备高可用(分布式),高吞吐(1000w/s),低延迟(毫秒级),精准计算(Exactly-once)等特点,用户可在该大数据管理平台上调试和提交流SQL任务,为用户节省技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求。图8为本实施例中实时流计算单元的界面参考示意图。
该大数据管理平台着眼于大数据管理与应用开发、智能可视化分析等层面,帮助企业一站式解决大数据落地的难题,助力企业数字化创新,推动产业数字化升级。其具有如下功能:大规模数据存储与计算、数据集成、数据应用开发、数据管理、数据安全、实时流计算等。
对于该大数据管理平台的工作站环境来说,分为硬件环境和软件环境。其中,对于硬件环境来说,工作可以选择普通的PC电脑,基本配置为:1)CPU:Intel酷睿i3以上;2)内存:1G以上;3)硬盘:100G以上:4)网卡:MODEM或10M/100M网卡。对于软件环境来说,工作站电脑内必须安装以下软件:1)Windows 2003/XP/7/8/8.1;2)IE 8.0以上(建议谷歌浏览器,要打开服务器操作才需要)。
总之,本实施例中,通过设置登陆界面单元1、大规模数据存储与计算单元2、数据集成单元3、数据应用开发单元4、数据管理单元5、数据安全单元6和实时流计算单元7,其能帮助企业构建数据应用、提高开发效率、帮助企业一站式解决大数据落地的难题、助力企业数字化创新、推动产业数字化升级、解决数据生产过程中的质量问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种大数据管理平台,其特征在于,包括:
登陆界面单元:用于通过用户名和密码登陆所述大数据管理平台后使用;
大规模数据存储与计算单元:用于提供从GB到PB级别的存储方案,支持批量计算、Spark内存计算、Kylin多维分析、Impala和流式计算方案;
数据集成单元:用于实现全量离线接入以及关系型数据库和日志的增量实时/准实时接入;
数据应用开发单元:用于为企业构建数据应用,提供SQL开发、依赖配置与调度管理,以及交互式查询,协助管理开发过程;
数据管理单元:用于通过数据地图、数据字典和数据血缘保证企业的元数据标准,同时对主题、维度和指标进行一致性定义和管理;
数据安全单元:用于采用Kerberos做用户级别的认证;
实时流计算单元:用于使用SQL开发流式计算任务,兼容离线SQL,能实时分析用户的访问数据,展示流量变化和用户分布情况;
所述登陆界面单元、大规模数据存储与计算单元、数据集成单元、数据应用开发单元、数据管理单元、数据安全单元和实时流计算单元相连接。
2.根据权利要求1所述的大数据管理平台,其特征在于,所述全量离线接入具体为:将业务数据从各类数据源离线导入数据仓库以及相关大数据环境。
3.根据权利要求2所述的大数据管理平台,其特征在于,所述数据源至少包括MySQL、Oracle、PostgreSQL和MongoDB。
4.根据权利要求3所述的大数据管理平台,其特征在于,所述关系型数据库和日志的增量实时/准实时接入具体为:使用DataStream,将业务库中增量数据和APP日志实时导入到大数据环境。
5.根据权利要求1至4任意一项所述的大数据管理平台,其特征在于,在所述数据安全单元中,基于加密方法建立用户识别自己的方法,对个人通信进行身份认证,用户和服务器都能验证对方的身份;针对角色授权数据访问。
6.根据权利要求5所述的大数据管理平台,其特征在于,在所述数据安全单元中,从数据角度,能查看当前何种角色有何种权限;从角色角度,能查看对哪些数据有何种权限;审计提供事件跟踪。
7.根据权利要求6所述的大数据管理平台,其特征在于,所述事件跟踪包括实时监测对系统敏感信息的访问和操作行为,根据规则设定报警并及时阻断违规操作,收集并记录用户行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910254685.5A CN110083647A (zh) | 2019-03-31 | 2019-03-31 | 一种大数据管理平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910254685.5A CN110083647A (zh) | 2019-03-31 | 2019-03-31 | 一种大数据管理平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110083647A true CN110083647A (zh) | 2019-08-02 |
Family
ID=67414014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910254685.5A Pending CN110083647A (zh) | 2019-03-31 | 2019-03-31 | 一种大数据管理平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083647A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598423A (zh) * | 2019-08-05 | 2019-12-20 | 杭州安恒信息技术股份有限公司 | 数据库账号管理方法 |
CN110766325A (zh) * | 2019-10-24 | 2020-02-07 | 北京中科捷信信息技术有限公司 | 一种金融大数据智能分析的模型开发工具 |
CN110990469A (zh) * | 2019-11-18 | 2020-04-10 | 北京禧云信息科技有限公司 | 基于数据仓库的数据授权和数据自助提取的方法和装置 |
CN111627552A (zh) * | 2020-04-08 | 2020-09-04 | 湖南长城医疗科技有限公司 | 一种医疗流式数据血缘关系分析、存储方法及装置 |
CN112487045A (zh) * | 2020-10-20 | 2021-03-12 | 广西盛源行大数据科技有限公司 | 一种基于大数据的管理平台 |
CN114116842A (zh) * | 2021-11-25 | 2022-03-01 | 上海柯林布瑞信息技术有限公司 | 多维医疗数据实时获取方法、装置、电子设备及存储介质 |
-
2019
- 2019-03-31 CN CN201910254685.5A patent/CN110083647A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598423A (zh) * | 2019-08-05 | 2019-12-20 | 杭州安恒信息技术股份有限公司 | 数据库账号管理方法 |
CN110766325A (zh) * | 2019-10-24 | 2020-02-07 | 北京中科捷信信息技术有限公司 | 一种金融大数据智能分析的模型开发工具 |
CN110990469A (zh) * | 2019-11-18 | 2020-04-10 | 北京禧云信息科技有限公司 | 基于数据仓库的数据授权和数据自助提取的方法和装置 |
CN110990469B (zh) * | 2019-11-18 | 2024-02-20 | 北京禧云信息科技有限公司 | 基于数据仓库的数据授权和数据自助提取的方法和装置 |
CN111627552A (zh) * | 2020-04-08 | 2020-09-04 | 湖南长城医疗科技有限公司 | 一种医疗流式数据血缘关系分析、存储方法及装置 |
CN112487045A (zh) * | 2020-10-20 | 2021-03-12 | 广西盛源行大数据科技有限公司 | 一种基于大数据的管理平台 |
CN114116842A (zh) * | 2021-11-25 | 2022-03-01 | 上海柯林布瑞信息技术有限公司 | 多维医疗数据实时获取方法、装置、电子设备及存储介质 |
CN114116842B (zh) * | 2021-11-25 | 2023-05-19 | 上海柯林布瑞信息技术有限公司 | 多维医疗数据实时获取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083647A (zh) | 一种大数据管理平台 | |
CN112102111B (zh) | 一种发电厂数据智能处理系统 | |
Zheng et al. | bcBIM: A blockchain-based big data model for BIM modification audit and provenance in mobile cloud | |
WO2016101638A1 (zh) | 一种电力系统云仿真平台的运营管理方法 | |
CN106293892B (zh) | 分布式流计算系统、方法和装置 | |
CN107343041B (zh) | 一种基于云计算的精准扶贫管理系统与方法 | |
CN103595131B (zh) | 一种变电站变电设备在线监测系统 | |
US9922091B2 (en) | Intermediate window results in a streaming environment | |
Cheng et al. | Elastic power-aware resource provisioning of heterogeneous workloads in self-sustainable datacenters | |
CN104407688A (zh) | 基于树回归的虚拟化云平台能耗测量方法及系统 | |
Higginson et al. | Database workload capacity planning using time series analysis and machine learning | |
CN104881353A (zh) | 面向Hive平台的用户行为审计系统及方法 | |
CN113535846B (zh) | 一种大数据平台及其构建方法 | |
CN105957170A (zh) | 一种基于云计算的智能考勤管理方法及系统 | |
Stackowiak et al. | Azure IoT solutions overview | |
CN109472092A (zh) | 基于云计算的科研与工程数值仿真系统及方法 | |
CN115577646A (zh) | 基于多源异构数据的数据建模方法、装置、设备和介质 | |
Lee et al. | SPChain: a smart and private blockchain-enabled framework for combining GDPR-compliant digital assets management with AI models | |
Zobaed et al. | Big Data in the Cloud. | |
CN109478296A (zh) | 用于完全集成捕获和分析商业信息以产生预测决策和模拟的系统 | |
Tai et al. | Determining worker training time for precast component production in construction: Empirical study in Taiwan | |
JP2023535851A (ja) | プライバシー保護によるデータ処理モデルの取得方法、装置、ターミナル機器及び記憶媒体 | |
CN109034722A (zh) | 高速铁路接触网计算系统、方法及计算机设备 | |
CN106406886A (zh) | 一种应用系统云构建平台系统 | |
Diez et al. | Resilience of cloud computing in critical systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |