CN110825716A - 数据全生命周期管理系统、方法及介质 - Google Patents
数据全生命周期管理系统、方法及介质 Download PDFInfo
- Publication number
- CN110825716A CN110825716A CN201910483806.3A CN201910483806A CN110825716A CN 110825716 A CN110825716 A CN 110825716A CN 201910483806 A CN201910483806 A CN 201910483806A CN 110825716 A CN110825716 A CN 110825716A
- Authority
- CN
- China
- Prior art keywords
- data
- management
- storage
- online
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000007726 management method Methods 0.000 claims abstract description 165
- 238000013500 data storage Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 67
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000013480 data collection Methods 0.000 claims abstract description 10
- 230000002776 aggregation Effects 0.000 claims abstract description 9
- 238000004220 aggregation Methods 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims description 53
- 238000004140 cleaning Methods 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 10
- 241001025261 Neoraja caerulea Species 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 15
- 238000013523 data management Methods 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据全生命周期管理系统、方法及介质,包括:数据采集模块:采集各类不同类型数据源的数据,通过提供数据采集交换平台对数据汇聚进行统一管理;数据存储管理模块:对数据采集模块采集的数据,根据数据的不同性质进行存储管理;数据处理模块:对数据存储管理模块存储的数据进行建模、转换,并提供在线数据查询与访问。本发明支持多种格式的数据采集,并能在数据采集过程中对数据进行持续化的处理,通过对多种采集作业提供统一的操作与管控能力,让数据的采集过程可视、可管、可控。
Description
技术领域
本发明涉及计算机信息处理技术领域,具体地,涉及数据全生命周期管理系统、方法及介质。尤其是,涉及数据生命周期管理,包括数据采集、数据治理、数据管理等。
背景技术
数据的爆炸性增长是信息时代最典型的特征。目前在试验领域,长期以来积累了种类多样、结构复杂、体量巨大的试验数据资源。为建好、管好、用好试验数据,发挥试验数据应有价值,如何建立一种能够适应快速增长的大数据存储、管理机制,采用日益成熟的大数据、云计算技术实现对海量试验数据进行存储、治理、挖掘等全生命周期的有效管理,最大限度的发挥试验数据的综合效益是目前试验数据工程建设的重要任务。
针对海量数据存储和管理的新需求,对传统的业务数据技术进行变革,采用基于大数据、云平台的架构进行数据全生命周期管理,同时结合大数据处理思想改造原有业务处理逻辑。在综合运用多种数据管理技术的基础上,采用分布式处理、并行计算、虚拟化处理等技术架构,分层次、分步骤建设好大数据中心。实现“大数据即服务、内容即服务”等云即服务的理念,贯穿全流程的数据中心建设。
相关检索结果1:
申请(专利)号:201810494735.2 名称:一种数据源无关的数据全生命周期管理平台及方法
摘要:本发明公开了一种数据源无关的数据全生命周期管理平台及方法,包括元数据采集层,从数据源中进行所有元数据的采集;元数据存储层,将采集的元数据进行统一集中的存储和管理;数据服务层,提供数据服务、模型服务、接口服务和展现分析过程中的计算服务;功能应用层,提供生命周期管理、生命周期分析、元数据管理、元模型管理、元数据采集管理、元数据标准化管理;基础管理层,用于平台的授权管理、日志分析、菜单管理、用户管理、安全管理和运维监控。本发明的一种数据源无关的数据全生命周期管理平台及方法与现有技术相比,实现数据全生命周期的跟踪管理,实现海量大数据在数据仓库中全生命周期的管理和流程化的可视地图展现。
技术要点比较:
该发明虽然其描述的数据全生命周期管理,但是并未对传统的业务数据技术进行变革,跟本发明提出的采用基于大数据、云平台的架构进行数据全生命周期管理,结合大数据处理思想改造原有业务处理逻辑相比,具有一定的局限性。
相关检索结果2:
申请(专利)号:201710851225.1 名称:面向大数据的数据管理系统
摘要:一种高效数据管理系统,包括采集中心、数据中心、面向用户的用户中心;所述数据中心的HADOOP集群子系统包括对采集中心经SQL服务器转送的大数据多源异构数据进行整合形成结构化数据记录的数据整合模块、数据清洗模块、将清洗后的数据进行分类的分类模块、数据存储模块。本发明可以快速、高效、可靠地进行数据采集、数据处理,能给多行业用户子系统提供应用数据。由于本发明的数据中心完成大数据清洗,使得处理和分析海量数据成为可能,并对海量数据进行了初步分析,用户后续进一步的应用和分析提供了数据准备。
技术要点比较:
该发明提出了针对多源异构数据进行整合形成结构化数据记录的数据整合模块、数据清洗模块、将清洗后的数据进行分类的分类模块、数据存储模块,但是其只是对海量数据进行了初步分析,用户后续进一步的应用和分析提供了数据准备,并未对数据进行深入挖掘分析和服务共享。本发明在综合运用多种数据管理技术的基础上,采用分布式处理、并行计算、虚拟化处理等技术架构,分层次、分步骤建设好大数据中心。实现“大数据即服务、内容即服务”等云即服务的理念,贯穿全流程的数据中心建设。
相关检索结果3:
申请(专利)号:201810637105.6 名称:一种基于大数据的数据管控系统
摘要:本发明提供了一种基于大数据的数据管控系统,包括数据管控组织模块、评价与考核模块、管控流程模块以及管控平台;本发明明确了数据管控过程中的组织结构、角色和职责,规范了数据管控过程中各个关节日常任务处理的运作模式,通过建立一些定性或定量的数据管控评价考核指标,去评估以及考核数据相关责任人职责履行情况、数据管控标准及数据政策的执行情况,采用专门的技术平台支撑管理流程的自动化,发布管控组织制定的一些相关标准和规范,及时反映管控过程中存在的一些问题。
技术要点比较:
该发明侧重于数据标准管理,数据质量管理、元数据管理和数据安全管理,本发明主要详细阐述说明数据的整个生命周期的维护和管理过程,其中包括标准、质量等管理。
针对上述现有技术中的缺陷,本发明要解决的技术问题体现在以下几点:
1)对数据源进行采集、处理、整合,形成统一的数据资源池,进行集中存储和分析使用。
2)对采集到的结构化数据,半结构化数据和非结构化数据进行管理,实现对元数据提取和管理,并能基于元数据进行数据的来源回溯和去向分析。
3)实现数据建模、挖掘分析功能,采用分布式处理、并行计算、虚拟化处理等技术架构,分层次、分步骤建设好大数据中心。实现“大数据即服务、内容即服务”等云即服务的理念,贯穿全流程的数据中心建设。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种数据全生命周期管理系统、方法及介质。
根据本发明提供的一种数据全生命周期管理系统,包括:
数据采集模块:采集各类不同类型数据源的数据,通过提供数据采集交换平台对数据汇聚进行统一管理;
数据存储管理模块:对数据采集模块采集的数据,根据数据的不同性质进行存储管理;
数据处理模块:对数据存储管理模块存储的数据进行建模、转换,并提供在线数据查询与访问。
优选地,所述数据采集交换平台包括:
数据源管理层:负责各类型的结构化、半结构化和非结构化数据源的统一管理,维护数据源的基础性元数据,跟踪数据源的状态;
数据采集与交换层:对各类数据源进行处理,并提供处理过程中的各类日志收集和运行监控;
管理界面层:提供B/S架构的图形化管理界面,支持多数据源链接从主流数据库中提取数据,以及支持文档型数据的导入和处理;
所述对各类数据源进行处理包括以下任一种或任多种:
采集、清洗、转换、统计、加载、交换;
所述主流数据库包括:关系型数据库、非关系型数据库。
优选地,所述数据存储管理模块:
所述根据数据的不同性质进行存储管理指:
根据预设标准将数据划分为活性数据和休眠数据,所述活性数据是指使用频率高的数据,所述休眠数据是指使用频率低和长期搁置保存的数据;
在进行数据存储时,采用在线、近线、离线以及光磁结合的存储方案;
所述在线、近线、离线以及光磁结合的存储方案包括:
在线方案:在线由共享的SAN存储系统、磁盘阵列管理组成,提供数据存储服务,并通过双FC通道卡与数据库服务器连接,实现海量数据存储;
近线、离线方案:采用蓝光光盘库存储。
优选地,所述数据存储管理模块:
调用数据存储管理模块存储的数据,对数据存储管理模块存储的数据进行建模、转换,并提供在线数据查询与访问。
根据本发明提供的一种数据全生命周期管理方法,包括:
数据采集步骤:采集各类不同类型数据源的数据,通过提供数据采集交换平台对数据汇聚进行统一管理;
数据存储管理步骤:对数据采集步骤采集的数据,根据数据的不同性质进行存储管理;
数据处理步骤:对数据存储管理步骤存储的数据进行建模、转换,并提供在线数据查询与访问。
优选地,所述数据采集交换平台包括:
数据源管理层:负责各类型的结构化、半结构化和非结构化数据源的统一管理,维护数据源的基础性元数据,跟踪数据源的状态;
数据采集与交换层:对各类数据源进行处理,并提供处理过程中的各类日志收集和运行监控;
管理界面层:提供B/S架构的图形化管理界面,支持多数据源链接从主流数据库中提取数据,以及支持文档型数据的导入和处理。
优选地,所述对各类数据源进行处理包括以下任一种或任多种:
采集、清洗、转换、统计、加载、交换;
所述主流数据库包括:关系型数据库、非关系型数据库。
优选地,所述数据存储管理步骤:
所述根据数据的不同性质进行存储管理指:
根据预设标准将数据划分为活性数据和休眠数据,所述活性数据是指使用频率高的数据,所述休眠数据是指使用频率低和长期搁置保存的数据;
在进行数据存储时,采用在线、近线、离线以及光磁结合的存储方案;
所述在线、近线、离线以及光磁结合的存储方案包括:
在线方案:在线由共享的SAN存储系统、磁盘阵列管理组成,提供数据存储服务,并通过双FC通道卡与数据库服务器连接,实现海量数据存储;
近线、离线方案:采用蓝光光盘库存储。
优选地,所述数据存储管理步骤:
调用数据存储管理步骤存储的数据,对数据存储管理步骤存储的数据进行建模、转换,并提供在线数据查询与访问。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的数据全生命周期管理方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、本发明支持多种格式的数据采集,并能在数据采集过程中对数据进行持续化的处理,通过对多种采集作业提供统一的操作与管控能力,让数据的采集过程可视、可管、可控。
2、本发明对采集到的结构化数据,半结构化数据和非结构化数据进行管理,实现了对元数据提取和管理,并能基于元数据进行数据的来源回溯和去向分析。
3、本发明实现了数据建模、挖掘分析功能,对外提供在线数据查询与访问的能力,及通过系统对数据进行转换处理等工作。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的交换平台总体架构结构示意图。
图2为本发明提供的数据存储设计方案示意图。
图3为本发明提供的数据处理模块结构示意图。
图4为本发明提供的数据全生命周期管理流程示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种数据全生命周期管理系统,包括:
数据采集模块:采集各类不同类型数据源的数据,通过提供数据采集交换平台对数据汇聚进行统一管理;
数据存储管理模块:对数据采集模块采集的数据,根据数据的不同性质进行存储管理;
数据处理模块:对数据存储管理模块存储的数据进行建模、转换,并提供在线数据查询与访问。
具体地,所述数据采集交换平台包括:
数据源管理层:负责各类型的结构化、半结构化和非结构化数据源的统一管理,维护数据源的基础性元数据,跟踪数据源的状态;
数据采集与交换层:对各类数据源进行处理,并提供处理过程中的各类日志收集和运行监控;
管理界面层:提供B/S架构的图形化管理界面,支持多数据源链接从主流数据库中提取数据,以及支持文档型数据的导入和处理;
所述对各类数据源进行处理包括以下任一种或任多种:
采集、清洗、转换、统计、加载、交换;
所述主流数据库包括:关系型数据库、非关系型数据库。
具体地,所述数据存储管理模块:
所述根据数据的不同性质进行存储管理指:
根据预设标准将数据划分为活性数据和休眠数据,所述活性数据是指使用频率高的数据,所述休眠数据是指使用频率低和长期搁置保存的数据;
在进行数据存储时,采用在线、近线、离线以及光磁结合的存储方案;
所述在线、近线、离线以及光磁结合的存储方案包括:
在线方案:在线由共享的SAN存储系统、磁盘阵列管理组成,提供数据存储服务,并通过双FC通道卡与数据库服务器连接,实现海量数据存储;
近线、离线方案:采用蓝光光盘库存储。
具体地,所述数据存储管理模块:
调用数据存储管理模块存储的数据,对数据存储管理模块存储的数据进行建模、转换,并提供在线数据查询与访问。
本发明提供的数据全生命周期管理系统,可以通过本发明给的数据全生命周期管理方法的步骤流程实现。本领域技术人员可以将所述数据全生命周期管理方法,理解为所述数据全生命周期管理系统的一个优选例。
根据本发明提供的一种数据全生命周期管理方法,包括:
数据采集步骤:采集各类不同类型数据源的数据,通过提供数据采集交换平台对数据汇聚进行统一管理;
数据存储管理步骤:对数据采集步骤采集的数据,根据数据的不同性质进行存储管理;
数据处理步骤:对数据存储管理步骤存储的数据进行建模、转换,并提供在线数据查询与访问。
具体地,所述数据采集交换平台包括:
数据源管理层:负责各类型的结构化、半结构化和非结构化数据源的统一管理,维护数据源的基础性元数据,跟踪数据源的状态;
数据采集与交换层:对各类数据源进行处理,并提供处理过程中的各类日志收集和运行监控;
管理界面层:提供B/S架构的图形化管理界面,支持多数据源链接从主流数据库中提取数据,以及支持文档型数据的导入和处理。
具体地,所述对各类数据源进行处理包括以下任一种或任多种:
采集、清洗、转换、统计、加载、交换;
所述主流数据库包括:关系型数据库、非关系型数据库。
具体地,所述数据存储管理步骤:
所述根据数据的不同性质进行存储管理指:
根据预设标准将数据划分为活性数据和休眠数据,所述活性数据是指使用频率高的数据,所述休眠数据是指使用频率低和长期搁置保存的数据;
在进行数据存储时,采用在线、近线、离线以及光磁结合的存储方案;
所述在线、近线、离线以及光磁结合的存储方案包括:
在线方案:在线由共享的SAN存储系统、磁盘阵列管理组成,提供数据存储服务,并通过双FC通道卡与数据库服务器连接,实现海量数据存储;
近线、离线方案:采用蓝光光盘库存储。
具体地,所述数据存储管理步骤:
调用数据存储管理步骤存储的数据,对数据存储管理步骤存储的数据进行建模、转换,并提供在线数据查询与访问。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的数据全生命周期管理方法的步骤。
下面通过优选例,对本发明进行更为具体地说明。
优选例1:
提供了一种数据全生命周期管理系统,包括:数据采集模块、数据存储管理模块、数据处理模块三大模块。
首先通过数采集模块统一接收外部系统的数据,进入系统内部的数据后,数据存储管理模块按照实时性的要求分为实时处理数据和非实时处理数据。实时处理数据需要实时传给信息处理及业务应用软件进行处理,并将实时处理结果数据通过信息分发软件实时发送出去;同时这些数据需要记录到存储系统中。而非实时处理数据则先记录到存储系统中,再由信息处理及业务应用软件通过数据平台提供的统一数据访问服务进行调用,最后由数据处理模块对数据进行转换处理等工作,并对外提供在线数据查询与访问的能力,实现数据的共享和使用,完成数据的整个生命周期的管理。
数据采集模块通过提供数据采集交换平台对数据汇聚进行统一管理,所述数据采集交换平台自底向上包括:数据源管理层、数据采集与交换层、管理界面层。最底层的数据源管理层负责各类型的结构化、半结构化和非结构化数据源的统一管理,维护数据源的基础性元数据,跟踪数据源的状态。中间层对各类底层的数据源负责数据采集、清洗、转换、统计、加载、交换等,并提供处理过程中的各类日志收集和运行监控等,最上层提供B/S架构的图形化管理界面,支持多数据源链接从主流数据库中提取数据,包括关系型数据库、非关系型数据库以及支持文档型数据导入和处理。
优选例2:
数据全生命周期管理包括主要由数据采集模块、数据存储管理模块、数据处理模块三大模块,具体如下:
(1)数据采集模块:提供数据采集交换平台对数据汇聚进行统一管理。数据采集交换平台支持结构化、半结构化、非结构化数据的采集,并支持对采集数据进行处理(清洗、转换等);支持多节点负载均衡的交换功能,可按需求扩展交换能力;支持REST,TCP,SSL,NIO,UDP,多播等多种通信协议;支持Java,C,C++,C#,Ruby,Perl,Python,PHP等多种语言,支持多种交换模式,包括:点对点、发布订阅、请求响应等;支持B/S架构的管理界面。
数据采集交换平台总体架构如下图1所示:
数据采集交换平台由三个主要层次组成分别是:数据源管理、数据采集与交换和管理界面,各子系统的解释如下:
a)数据源管理
对接各类型的结构化、半结构化和非结构化的数据源,并对其进行统一管理,维护数据源的基础性元数据,跟踪数据源的状态。
提供用于数据采集和交换的代理,包括:客户端、接口等多种方式,用于接入和适配各种类型的数据源。
b)数据采集和交换
提供各种数据采集、清洗、转换、统计、加载、交换等处理规则,并提供处理过程中的各类日志收集和运行监控等功能。
c)管理界面
提供B/S架构的图形化管理界面。
数据采集支持多数据源链接从主流数据库中提取数据,包括关系型数据库如SQLServer、Oracle、DB2、My SQL、PostgreSQL等;非关系型数据库如Cassandra、MongoDB、Hadoop等。支持文档型数据导入和处理,包括CVS、XML、DOC/DOCX、XSL/XLSX等,网页、WebService等。
(2)数据存储管理模块:将数据划分为活性数据和休眠数据两大类。其中,活性数据是指经常被使用的数据,其特点是高效调用;休眠数据是指很少使用和长期搁置保存的数据,其特点是存储周期长、数据安全性高、数据维护成本低。根据这一特点,在进行数据存储时,采用在线-近线-离线、光磁结合的存储方案。其中,在线由共享的SAN存储系统、磁盘阵列管理组成,提供数据存储服务,并通过双FC通道卡与数据库服务器连接,实现海量数据存储,近线、离线采用蓝光光盘库存储,光磁双介质存储使数据得到更安全的保存,存储方案如下图2所示。
(3)数据处理模块:数据处理模块主要实现各类数据进行建模功能,对外提供在线数据查询与访问的能力,及通过系统对数据进行转换处理等工作。数据采集模块负责采集各类不同类型数据源的数据,数据存储管理模块负责根据采集数据的不同性质进行存储管理,最后经过数据处理模块进行建模、转换,并提供数据查询访问的能力,将数据共享使用。整体三个模块实现数据“采”、“存”、“管”、“用”的全生命周期的管理。
其体系结构如下图3所示。
优选例3:
如图4所示,数据全生命周期管理实现方式如下描述:
(1)信令、传感器等数据,通过各自的API将数据写入到流数据管道中,然后采用订阅分发机制,流数据的消费者可以从管道中读取所需的数据;同时,流数据管道具备一定的存储能力,即流数据可以在管道中保持一段时间。视频、图片等非结构化数据,考虑到价值密度较低,且对读写操作要求较高,所以先加载到分布式对象存储中。文本、半结构化数据直接加载到分布式文件系统,基于分布式文件系统之上,采用分布式计算框架,可以很好的对这些半结构化数据进行分析。
(2)对流数据进行实时分析,可能是需要进行实时监控,也可能是需要实时的异常告警等。流数据分析的结果尺寸较小,一般写入专题数据库。流数据除了具有实时分析价值外,也可能会有离线分析的价值。流数据可以定期的转储到分布式文件系统上,供后续的离线分析。
(3)对视频、图片等数据,运用数据结构化算法,分析出价值密度更高、分析检索更方便的信息,这种信息又称为标签数据,属于结构化数据。这些标签数据会分布式文件系统,便于用做后续的使用。
(4)数据从外部加载到分布式文件系统的时候,一般先存放在数据缓冲区,这类数据需要经过一定的清洗(如排除重复行、删除错误行等)和转换(如多表整合、字段内容格式调整等)任务,才能形成可被业务直接使用的数据。
(5)根据业务的需求做各种分析挖掘,形成知识,为业务的优化和创新服务。
(6)分析挖掘的结果可以直接推送给各种专题库,可以更快捷的为业务服务,也可以降低分布式文件系统的读写压力。
(7)扫描平台内的数据,包括结构化和半结构化数据,即存出在分布式文件系统和专题库内的数据,形成全文索引库。
(8)平台内置了多种数据服务接口,对外提供数据的访问、分析能力,如数据内容的查询、分析算法调用等,让大数据平台的上层应用更加易于开发和定制。
(9)数据可视、行业应用等,通过服务总线访问大数据平台,获取数据,并支持业务。
(10)根据业务定义,对近线数据定期进行备份、归档,及时的将近线数据加载到近线存储上。
(11)根据业务需求,近线存储中的数据可以实时激活,转存到大数据平台中,方便业务使用。
(12)根据业务定义,对离线数据定期进行归档,及时的将离线数据加载到离线存储上。
(13)根据业务需求,离线存储中的数据可以实时激活,转存到大数据平台中,方便业务使用。
在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种数据全生命周期管理系统,其特征在于,包括:
数据采集模块:采集各类不同类型数据源的数据,通过提供数据采集交换平台对数据汇聚进行统一管理;
数据存储管理模块:对数据采集模块采集的数据,根据数据的不同性质进行存储管理;
数据处理模块:对数据存储管理模块存储的数据进行建模、转换,并提供在线数据查询与访问。
2.根据权利要求1所述的数据全生命周期管理系统,其特征在于,所述数据采集交换平台包括:
数据源管理层:负责各类型的结构化、半结构化和非结构化数据源的统一管理,维护数据源的基础性元数据,跟踪数据源的状态;
数据采集与交换层:对各类数据源进行处理,并提供处理过程中的各类日志收集和运行监控;
管理界面层:提供B/S架构的图形化管理界面,支持多数据源链接从主流数据库中提取数据,以及支持文档型数据的导入和处理;
所述对各类数据源进行处理包括以下任一种或任多种:
采集、清洗、转换、统计、加载、交换;
所述主流数据库包括:关系型数据库、非关系型数据库。
3.根据权利要求2所述的数据全生命周期管理系统,其特征在于,所述数据存储管理模块:
所述根据数据的不同性质进行存储管理指:
根据预设标准将数据划分为活性数据和休眠数据,所述活性数据是指使用频率高的数据,所述休眠数据是指使用频率低和长期搁置保存的数据;
在进行数据存储时,采用在线、近线、离线以及光磁结合的存储方案;
所述在线、近线、离线以及光磁结合的存储方案包括:
在线方案:在线由共享的SAN存储系统、磁盘阵列管理组成,提供数据存储服务,并通过双FC通道卡与数据库服务器连接,实现海量数据存储;
近线、离线方案:采用蓝光光盘库存储。
4.根据权利要求3所述的数据全生命周期管理系统,其特征在于,所述数据存储管理模块:
调用数据存储管理模块存储的数据,对数据存储管理模块存储的数据进行建模、转换,并提供在线数据查询与访问。
5.一种数据全生命周期管理方法,其特征在于,包括:
数据采集步骤:采集各类不同类型数据源的数据,通过提供数据采集交换平台对数据汇聚进行统一管理;
数据存储管理步骤:对数据采集步骤采集的数据,根据数据的不同性质进行存储管理;
数据处理步骤:对数据存储管理步骤存储的数据进行建模、转换,并提供在线数据查询与访问。
6.根据权利要求5所述的数据全生命周期管理方法,其特征在于,所述数据采集交换平台包括:
数据源管理层:负责各类型的结构化、半结构化和非结构化数据源的统一管理,维护数据源的基础性元数据,跟踪数据源的状态;
数据采集与交换层:对各类数据源进行处理,并提供处理过程中的各类日志收集和运行监控;
管理界面层:提供B/S架构的图形化管理界面,支持多数据源链接从主流数据库中提取数据,以及支持文档型数据的导入和处理。
7.根据权利要求6所述的数据全生命周期管理方法,其特征在于,所述对各类数据源进行处理包括以下任一种或任多种:
采集、清洗、转换、统计、加载、交换;
所述主流数据库包括:关系型数据库、非关系型数据库。
8.根据权利要求7所述的数据全生命周期管理方法,其特征在于,所述数据存储管理步骤:
所述根据数据的不同性质进行存储管理指:
根据预设标准将数据划分为活性数据和休眠数据,所述活性数据是指使用频率高的数据,所述休眠数据是指使用频率低和长期搁置保存的数据;
在进行数据存储时,采用在线、近线、离线以及光磁结合的存储方案;
所述在线、近线、离线以及光磁结合的存储方案包括:
在线方案:在线由共享的SAN存储系统、磁盘阵列管理组成,提供数据存储服务,并通过双FC通道卡与数据库服务器连接,实现海量数据存储;
近线、离线方案:采用蓝光光盘库存储。
9.根据权利要求8所述的数据全生命周期管理方法,其特征在于,所述数据存储管理步骤:
调用数据存储管理步骤存储的数据,对数据存储管理步骤存储的数据进行建模、转换,并提供在线数据查询与访问。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求5至9中任一项所述的数据全生命周期管理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910483806.3A CN110825716A (zh) | 2019-06-04 | 2019-06-04 | 数据全生命周期管理系统、方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910483806.3A CN110825716A (zh) | 2019-06-04 | 2019-06-04 | 数据全生命周期管理系统、方法及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110825716A true CN110825716A (zh) | 2020-02-21 |
Family
ID=69547557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910483806.3A Pending CN110825716A (zh) | 2019-06-04 | 2019-06-04 | 数据全生命周期管理系统、方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825716A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459908A (zh) * | 2020-03-08 | 2020-07-28 | 中国科学院城市环境研究所 | 一种基于数据湖的多源异构生态环境大数据处理方法及系统 |
CN111581670A (zh) * | 2020-04-28 | 2020-08-25 | 电子科大科园股份有限公司 | 数据生命周期管理方法 |
CN112181959A (zh) * | 2020-09-15 | 2021-01-05 | 山东特检鲁安工程技术服务有限公司 | 一种特种设备多源数据处理平台及处理方法 |
CN112256761A (zh) * | 2020-10-26 | 2021-01-22 | 上海市特种设备监督检验技术研究院 | 一种基于电梯全生命周期的大数据挖掘和故障预测方法 |
CN112395281A (zh) * | 2020-12-10 | 2021-02-23 | 太极计算机股份有限公司 | 一种异构多源数据融合系统 |
CN113486132A (zh) * | 2021-07-12 | 2021-10-08 | 重庆链图信息技术有限公司 | 一种地理单元全生命周期管理系统 |
CN113886369A (zh) * | 2020-07-02 | 2022-01-04 | 北京国电思达科技有限公司 | 一种数据管理方法及数据管理平台 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160253340A1 (en) * | 2015-02-27 | 2016-09-01 | Podium Data, Inc. | Data management platform using metadata repository |
CN106203828A (zh) * | 2016-07-11 | 2016-12-07 | 浪潮软件集团有限公司 | 一种基于数据全生命周期管理的数据管理平台 |
CN108647217A (zh) * | 2017-12-27 | 2018-10-12 | 广东智政信息科技有限公司 | 基于安监应用的大数据平台集成管理系统 |
CN108717456A (zh) * | 2018-05-22 | 2018-10-30 | 浪潮软件股份有限公司 | 一种数据源无关的数据全生命周期管理平台及方法 |
CN109086301A (zh) * | 2018-06-20 | 2018-12-25 | 江苏网域科技有限公司 | 一种基于云计算的数据管理平台 |
-
2019
- 2019-06-04 CN CN201910483806.3A patent/CN110825716A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160253340A1 (en) * | 2015-02-27 | 2016-09-01 | Podium Data, Inc. | Data management platform using metadata repository |
CN106203828A (zh) * | 2016-07-11 | 2016-12-07 | 浪潮软件集团有限公司 | 一种基于数据全生命周期管理的数据管理平台 |
CN108647217A (zh) * | 2017-12-27 | 2018-10-12 | 广东智政信息科技有限公司 | 基于安监应用的大数据平台集成管理系统 |
CN108717456A (zh) * | 2018-05-22 | 2018-10-30 | 浪潮软件股份有限公司 | 一种数据源无关的数据全生命周期管理平台及方法 |
CN109086301A (zh) * | 2018-06-20 | 2018-12-25 | 江苏网域科技有限公司 | 一种基于云计算的数据管理平台 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459908A (zh) * | 2020-03-08 | 2020-07-28 | 中国科学院城市环境研究所 | 一种基于数据湖的多源异构生态环境大数据处理方法及系统 |
CN111581670A (zh) * | 2020-04-28 | 2020-08-25 | 电子科大科园股份有限公司 | 数据生命周期管理方法 |
CN111581670B (zh) * | 2020-04-28 | 2023-08-11 | 电子科大科园股份有限公司 | 数据生命周期管理方法 |
CN113886369A (zh) * | 2020-07-02 | 2022-01-04 | 北京国电思达科技有限公司 | 一种数据管理方法及数据管理平台 |
CN112181959A (zh) * | 2020-09-15 | 2021-01-05 | 山东特检鲁安工程技术服务有限公司 | 一种特种设备多源数据处理平台及处理方法 |
CN112256761A (zh) * | 2020-10-26 | 2021-01-22 | 上海市特种设备监督检验技术研究院 | 一种基于电梯全生命周期的大数据挖掘和故障预测方法 |
CN112395281A (zh) * | 2020-12-10 | 2021-02-23 | 太极计算机股份有限公司 | 一种异构多源数据融合系统 |
CN112395281B (zh) * | 2020-12-10 | 2021-05-11 | 太极计算机股份有限公司 | 一种异构多源数据融合系统 |
CN113486132A (zh) * | 2021-07-12 | 2021-10-08 | 重庆链图信息技术有限公司 | 一种地理单元全生命周期管理系统 |
CN113486132B (zh) * | 2021-07-12 | 2023-06-02 | 重庆链图信息技术有限公司 | 一种地理单元全生命周期管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825716A (zh) | 数据全生命周期管理系统、方法及介质 | |
CN109684352B (zh) | 数据分析系统、方法、存储介质及电子设备 | |
Yaqoob et al. | Big data: From beginning to future | |
Muniswamaiah et al. | Big data in cloud computing review and opportunities | |
Buyya et al. | Big data: principles and paradigms | |
US9363322B1 (en) | Implementation of a web scale data fabric | |
CN107315776B (zh) | 一种基于云计算的数据管理系统 | |
Gürcan et al. | Real-time processing of big data streams: Lifecycle, tools, tasks, and challenges | |
CN112148718A (zh) | 一种用于城市级数据中台的大数据支撑管理系统 | |
CN112181960A (zh) | 一种基于AIOps的智能运维框架系统 | |
CA3146476A1 (en) | High efficiency interactive testing platform | |
Ahmed et al. | Big data analytics for intelligent internet of things | |
CN116450620B (zh) | 面向多源多域时空基准数据的数据库设计方法及系统 | |
CN112084190A (zh) | 一种基于大数据的采集数据实时存储与管理系统和方法 | |
CN116629802A (zh) | 一种用于铁路港口站的大数据平台系统 | |
WO2023278975A1 (en) | Making decisions for placing data in a multi-tenant cache | |
Kekevi et al. | Real-time big data processing and analytics: Concepts, technologies, and domains | |
CN110019440B (zh) | 数据的处理方法及装置 | |
Rahman et al. | Emerging technologies in business intelligence | |
Barbierato et al. | Performance evaluation of a data lake architecture via modeling techniques | |
Bakshi | Big data analytics approach for network core and edge applications | |
CN108334603A (zh) | 一种大数据互动交换系统 | |
Tazeen et al. | A Survey on Some Big Data Applications Tools and Technologies | |
KR20210045172A (ko) | 축산 질병 발생 분석을 위한 빅 데이터 관리 및 시스템 | |
Sureshrao et al. | MapReduce-Based warehouse systems: a survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |