CN114281494A - 数据全生命周期管理方法、系统、终端设备及存储介质 - Google Patents
数据全生命周期管理方法、系统、终端设备及存储介质 Download PDFInfo
- Publication number
- CN114281494A CN114281494A CN202111527150.4A CN202111527150A CN114281494A CN 114281494 A CN114281494 A CN 114281494A CN 202111527150 A CN202111527150 A CN 202111527150A CN 114281494 A CN114281494 A CN 114281494A
- Authority
- CN
- China
- Prior art keywords
- data
- service
- management
- preset
- target type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据全生命周期管理方法、系统、终端设备及存储介质。该方法包括:通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。本发明解决了数据加工链路缺乏统一规范的问题,对数据全流程进行扎口管理。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种数据全生命周期管理方法、系统、终端设备及存储介质。
背景技术
金融风险数据相较于其他行业、其他类型数据有一定特殊性。金融风险数据来源广泛,包括金融机构内部各业务环节产生的数据,政府部门管理、关联企业经营、第三方平台收集的数据;数据类型多样,机构内部的数据有客户、账务、财务、业务、营销、风控、运营、监管等类型,机构外部有政务、司法、市场、企业ERP、新闻资讯等。
由于金融风险数据来源不同、类型多样,导致数据采集方式各异,现有方案的数据采集过程缺乏统一的管理和调度,不支持数据源灵活扩展,运营监控机制不完善,存在重复建设,开发成本高,扩展性较差,运维成本较高,健壮性不满足用户要求的问题。
由于因此,有必要提出一种数据全生命周期管理方法以达到对数据进行扎口管理的目的。
发明内容
本发明实施例的主要目的在于提供一种传统数据全生命周期管理方法、系统、终端设备及存储介质,旨在解决数据加工链路缺乏统一规范的问题,对数据进行扎口管理。
为实现上述目的,本发明实施例提供一种传统数据全生命周期管理方法,所述传统数据全生命周期管理方法包括:
通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;
将所述满足预设服务类型的数据发送至数据使用方。
可选的,所述数据加工链包括数据采集服务层、离线存储层、数据抽取服务层、在线存储层以及数据服务层,所述通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据的步骤包括:
通过所述数据采集服务层采集所述目标类型数据;
将所述目标类型数据存储到所述离线存储层的数据库和所述在线存储层的数据库;
通过所述数据抽取服务层从所述离线存储层数据库抽取所述目标类型数据,存储到所述在线存储层的数据库;
通过所述数据服务层将所述在线存储层的数据库的所述目标类型数据按所述预设服务类型进行加工,得到满足所述预设服务类型的数据。
可选的,所述数据管理平台包括数据ETL管理模块、数据模型管理模块、数据运营监控模块、数据资产管理模块以及数据服务管理模块,所述通过数据管理平台对所述数据加工链的流程进行扎口管理的步骤包括:
通过所述数据ETL管理模块对所述数据采集服务层采集过程进行调度和管理;
通过所述数据模型管理模块按预设标准规范维护预设数据模型,并对所述预设数据模型的版本进行控制;
通过所述数据运营监控模块输出监控预警信息或运营报告;
通过所述数据资产管理模块分类展示所述目标类型数据信息以及维护所述目标类型数据信息;
通过所述数据服务管理模块发布数据服务类型以及对数据服务请求进行接入管理。
可选的,所述通过所述数据ETL管理模块对所述数据采集服务层采集过程进行调度和管理的步骤中包括:
通过所述数据ETL管理模块对所述数据采集服务层采集过程按预设调度任务进行调度;
通过所述数据ETL管理模块以预设方式扩展所述预设调度任务及所述预设调度任务的数据采集逻辑,得到扩展后的预设调度任务及扩展后的预设调度任务的数据采集逻辑;
通过所述数据ETL管理模块监控所述数据采集服务层采集过程的任务执行情况,根据监测结果执行相应动作。
可选的,所述通过所述数据模型管理模块按预设标准规范维护预设数据模型,并对所述预设数据模型的版本进行控制的步骤中包括:
将所述预设数据模型转换为数据脚本,并将所述数据脚本应用到相应的数据库。
可选的,所述通过所述数据运营监控模块输出监控预警信息或运营报告的步骤中包括:
通过所述数据运营监控模块监控数据加工链路状态、数据情况或数据质量;
当监控到所述数据加工链路状态、数据情况或数据质量有错误或异常情况时,输出监控预警信息;和/或
根据监控到的所述数据加工链路状态、数据情况或数据质量生成运营报告。
可选的,所述通过所述数据资产管理模块分类展示所述目标类型数据信息以及维护所述目标类型数据信息的步骤中包括:
所述数据资产管理模块通过数据资产视图展示所述目标类型数据信息,其中,所述目标类型数据信息包含所述目标类型数据加工链路的信息。
可选的,所述通过所述数据服务管理模块发布数据服务类型以及对数据服务请求进行接入管理的步骤包括:
将所述数据服务层包含的所述预设服务类型登记至所述数据服务管理模块;
当所述数据服务管理模块接收到获取指定数据服务请求时,对所述指定数据服务请求进行接入管理,得到接入管理结果,其中,所述预设服务包含所述指定数据服务请求;
根据所述接入管理结果判断是否提供所述指定服务。
可选的,所述通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工的步骤中包括:
通过所述大数据计算平台使用所述大数据分析算法和/或相关模型,对所述离线存储层的目标类型数据进行分析加工,得到分析结果并将所述分析结果存储至所述在线存储层。
此外,为实现上述目的,本发明还提供一种数据全生命周期管理系统,所述系统包括:
数据加工模块,用于通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;
数据输出模块,用于将所述满足预设服务类型的数据发送至数据使用方。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据全生命周期管理方法,所述数据全生命周期管理的程序被所述处理器执行时实现如上所述的数据全生命周期管理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据全生命周期管理的程序,所述数据全生命周期管理的程序被处理器执行时实现如上所述的数据全生命周期管理方法的步骤。
本发明的主要目的在于提出一种数据全生命周期管理方法、系统、终端设备及存储介质。该方法包括:通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。本发明解决了数据加工链路缺乏统一规范的问题,对数据进行扎口管理。
附图说明
图1为本发明数据全生命周期管理装置所属终端设备的功能模块示意图;
图2为本发明数据全生命周期管理方法第一实施例的流程示意图;
图3为本发明数据全生命周期管理方法实施例中对数据加工链处理过程的一种细化流程示意图;
图4为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第一种细化流程图;
图5为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第二种细化流程图;
图6为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第三种细化流程图;
图7为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第四种细化流程图;
图8为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第五种细化流程图;
图9为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第六种细化流程图;
图10为本发明数据全生命周期管理方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。基于本发明方案,从数据加工链路缺乏统一规范出发,构建了数据管理平台,从而对数据全流程进行扎口管理,促进数据标准化,提升数据质量,使数据检索更加方便快捷。
本发明实施例涉及的技术术语:
ES,Elasticsearch,是一个接近实时的搜索平台,从索引这个文档到这个文档能够被搜索到只有一个轻微的延迟。
Neo4j,是一个高性能的图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。
Redis,Remote Dictionary Server,即远程字典服务,是一个开源使用ANSIC语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。
Mysql,是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。
API(Application Programming Interface,应用程序接口)是一些预先定义的接口(如函数、HTTP接口),或指软件系统不同组成部分衔接的约定。用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程,而又无需访问源码,或理解内部工作机制的细节。
KafkaConsumerAPI,对于kafka的consumer接口,提供两种版本,一种high-level版本,比较简单,不用关心offset,会自动的读zookeeper中该Consumergroup的lastoffset;另一种是SimpleConsumer,是更复杂的接口。
Oracle数据库系统是关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小微机环境。它是一种高效率的、可靠性好的、适应高吞吐量的数据库方案。
DB2是IBM一种分布式数据库解决方案,支持多用户或应用程序在同一条SQL语句中查询不同database甚至不同DBMS中的数据。
HBase是一个分布式的、面向列的开源数据库。HBase-HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。
SparkStreaming,SparkStreaming是一套框架。SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。Spark主要有三个特点:首先,高级API剥离了对集群本身的关注,Spark应用开发者可以专注于应用所要做的计算本身;其次,Spark很快,支持交互式计算和复杂算法;最后,Spark是一个通用引擎,可用它来完成各种各样的运算,包括SQL查询、文本处理、机器学习等,而在Spark出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。
Flink,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。
ECS,(Elastic Cloud Storage)是一种高可靠、易扩展的对象存储系统,是一套硬件+软件的存储方案,通过标准的HTTP接口(REST)、多语言SDK(JAVA、.NET等),为第三方应用提供了低成本、按需分配的存储服务。
任务调度,指基于给定时间点,给定时间间隔或者给定执行次数自动执行任务。
数据模型是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。数据模型所描述的内容有三部分,分别是数据结构、数据操作和数据约束
解耦,即把被绑定的协作关系打散,使得其中某个模块可以被替换,或者使得流程可以被调整或重组。
任务计算,使用户能够通过将可用功能性组合在一起来定义任务并执行这种任务。
APRIORI,Apriori算法是第一个关联规则挖掘算法。它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。该算法中项集的概念即为项的集合。包含K个项的集合为k项集。项集出现的频率是包含项集的事务数,称为项集的频率。如果某项集满足最小支持度,则称它为频繁项集。
CLARANS,CLARANS算法是分割方法中基于随机搜索的大型应用聚类算法。在分割方法中最早提出的一些算法大多对小数据集合非常有效,但对大的数据集合没有良好的可伸缩性。
数据全生命周期通常包括数据采集、数据存储、数据加工及数据应用几个方面。金融风险数据相较于其他行业、其他类型数据有一定特殊性,现有的数据管理方案未考虑这种特殊性,针对金融风险数据的管理水土不服。
金融风险数据来源广泛,包含金融机构内部各业务环节产生的数据,政府部门管理、关联企业经营、第三方平台收集的数据;金融风险数据类型多样,机构内部的数据有客户、账务、财务、业务、营销、风控、运营、监管等类型,机构外部有政务、司法、市场、企业ERP、新闻资讯等。
由于数据来源不同,数据类型多样,导致数据采集方式各异;而现有方案的数据采集过程缺乏统一的管理和调度,不支持数据源灵活扩展,运营监控机制不完善,存在重复建设,开发成本高,扩展性较差,运维成本较高,健壮性不满足用户要求的问题。
金融风险数据应用于银行内部营销,信贷、风控、经营的各个环节,数据加工链路复杂,对数据时效性、数据质量、数据一致性要求更高。常见的数据全生命周期管理方案更关注数据存储策略与处理逻辑,缺少对数据资产的扎口管理,数据标准、加工口径、加工链路缺乏统一规范,数据质量难以控制;缺乏数据视图,难以对数据全貌整体把控,迅速获取数据详情。
本发明提供一种解决方案,针对数据加工链路缺乏统一规范这一问题,设计了一种数据全生命周期管理方法,对数据采集过程进行统一调度和管理,对存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,并且开发运维成本低,促进数据标准化,提升数据质量,数据检索方便快捷。
具体地,参照图1,图1是本发明数据全生命周期管理装置所属终端设备的功能模块示意图。该数据全生命周期管理装置可以为独立于终端设备的、能够进行数据处理、图片处理、网络模型训练的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该数据全生命周期管理装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作方法以及数据全生命周期管理程序,数据全生命周期管理装置可以采集目标类型数据,并对目标类型数据进行加工,得到加工结果存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括网关等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的数据全生命周期管理程序被处理器执行时实现以下步骤:
通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;
将所述满足预设服务类型的数据发送至数据使用方。
进一步地,存储器130中的数据全生命周期管理程序被处理器执行时还实现以下步骤:
通过所述数据采集服务层采集所述目标类型数据;
将所述目标类型数据存储到所述离线存储层的数据库和所述在线存储层的数据库;
通过所述数据抽取服务层从所述离线存储层数据库抽取所述目标类型数据,存储到所述在线存储层的数据库;
通过所述数据服务层将所述在线存储层的数据库的所述目标类型数据按所述预设服务类型进行加工,得到满足所述预设服务类型的数据。
进一步地,存储器130中的数据全生命周期管理程序被处理器执行时还实现以下步骤:
通过所述数据ETL管理模块对所述数据采集服务层采集过程进行调度和管理;
通过所述数据模型管理模块按预设标准规范维护预设数据模型,并对所述预设数据模型的版本进行控制;
通过所述数据运营监控模块输出监控预警信息或运营报告;
通过所述数据资产管理模块分类展示所述目标类型数据信息以及维护所述目标类型数据信息;
通过所述数据服务管理模块发布数据服务类型以及对数据服务请求进行接入管理。
进一步地,存储器130中的数据全生命周期管理程序被处理器执行时还实现以下步骤:
通过所述数据ETL管理模块对所述数据采集服务层采集过程按预设调度任务进行调度;
通过所述数据ETL管理模块以预设方式扩展所述预设调度任务及所述预设调度任务的数据采集逻辑,得到扩展后的预设调度任务及扩展后的预设调度任务的数据采集逻辑;
通过所述数据ETL管理模块监控所述数据采集服务层采集过程的任务执行情况,根据监测结果执行相应动作。
进一步地,存储器130中的数据全生命周期管理程序被处理器执行时还实现以下步骤:
将所述预设数据模型转换为数据脚本,并将所述数据脚本应用到相应的数据库
进一步地,存储器130中的数据全生命周期管理程序被处理器执行时还实现以下步骤:
通过所述数据运营监控模块监控数据加工链路状态、数据情况或数据质量;
当监控到所述数据加工链路状态、数据情况或数据质量有错误或异常情况时,输出监控预警信息;和/或
根据监控到的所述数据加工链路状态、数据情况或数据质量生成运营报告。
进一步地,存储器130中的数据全生命周期管理程序被处理器执行时还实现以下步骤:
所述数据资产管理模块通过数据资产视图展示所述目标类型数据信息,其中,所述目标类型数据信息包含所述目标类型数据加工链路的信息。
进一步地,存储器130中的数据全生命周期管理程序被处理器执行时还实现以下步骤:
将所述数据服务层包含的所述预设服务类型登记至所述数据服务管理模块;
当所述数据服务管理模块接收到获取指定数据服务请求时,对所述指定数据服务请求进行接入管理,得到接入管理结果,其中,所述预设服务包含所述指定数据服务请求;
根据所述接入管理结果判断是否提供所述指定服务。
进一步地,存储器130中的数据全生命周期管理程序被处理器执行时还实现以下步骤:
通过所述大数据计算平台使用所述大数据分析算法和/或相关模型,对所述离线存储层的目标类型数据进行分析加工,得到分析结果并将所述分析结果存储至所述在线存储层。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据全流程进行扎口管理,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
基于上述终端设备架构但不限于上述架构,提出本发明方法实施例。
参照图2,图2为本发明数据全生命周期管理方法第一实施例的流程示意图。所述数据全生命周期管理方法包括:
步骤S101,通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工。
本实施例方法的执行主体可以是一种数据全生命周期管理装置,也可以是一种数据全生命周期管理终端设备或服务器,本实施例以金融风险数据全生命周期管理装置进行举例,该金融风险数据全生命周期管理装置可以集成在具有数据处理功能的智能手机、平板电脑等终端设备上。
本实施例方案主要实现对金融风险数据全生命周期管理,首先,通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工。
其中,目标类型数据为用户期望获得的服务所包含的数据,目标类型数据的归属领域包括:金融领域等,本实施例对此不作具体限定。
目标类型数据的来源包括:目标类型数据归属行业的行业内外的数据、第三方数据、政务数据。
对目标类型数据的处理过程包括:将目标类型数据进行存储,将不同的目标类型数据归属到不同的预设服务中等处理过程。
预设服务是现有数据加工链可以提供的服务类型。若预设服务中没有期望得到的服务类型,可创建期望服务类型。
本实施例的数据全生命周期管理方法涉及的系统架构包括数据加工链、数据管理平台以及大数据计算平台。
其中,数据加工链包括数据采集服务层、离线存储层、数据抽取服务层、在线存储层以及数据服务层。
数据加工链可以采集目标类型数据,并对目标类型数据进行加工。
具体地,目标类型数据为用户期望获得的服务包含的数据,目标类型数据的归属领域包括:金融领域等,本实施例对此不作具体限定。
目标类型数据的数据源包括:目标类型数据归属行业的行业内外的数据、第三方数据、政务数据。
对目标类型数据的处理过程包括:将目标类型数据进行存储,将不同的数据归属到不同的预设服务等处理过程。
预设服务是现有数据加工链可以提供的服务类型。若预设服务中没有期望得到的服务类型,可创建期望服务类型。
进一步地,数据管理平台包括数据ETL管理模块、数据模型管理模块、数据运营监控模块、数据资产管理模块以及数据服务管理模块。数据管理平台的功能包括对数据加工链的流程进行扎口管理。
其中,数据管理平台对数据采集过程进行统一调度和管理,对数据加工链的加工流程进行监控,从而规范加工流程。
进一步地,大数据计算平台的功能包括对数据加工链采集到的数据按照预设的大数据任务进行调度。
作为一种实施方式,在本实施例中,通过数据加工链采集金融领域的数据,并对采集到的金融领域的数据进行处理,然后,将不同的数据归属到相应的预设服务。
在数据加工链工作的过程中,数据管理平台对数据加工链的流程进行扎口管理,大数据计算平台对数据加工链采集到的数据按照预设的大数据任务进行调度。
由此,通过数据管理平台对所述数据加工链的流程进行扎口管理,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷。
步骤S102,将所述满足预设服务类型的数据发送至数据使用方。
为了将数据加工链的处理结果输送至数据使用方,具体方案如下:
作为一种实施方式,在本实施例中,经过数据加工链处理后,目标类型数据归属到相应的预设服务。将得到的预设服务发送至数据使用方,其中,发送方式包括:通过数据服务网关发送至数据使用方。
由此,通过数据服务网关发送至数据使用方,可以将数据加工链的处理结果输送至数据使用方。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
参照图3,图3为本发明数据全生命周期管理方法实施例中对数据加工链处理过程的一种细化流程示意图。基于上述图2所示的实施例,在本实施例中,数据加工链包括数据采集服务层、离线存储层、数据抽取服务层、在线存储层以及数据服务层,步骤S101:通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据包括:
步骤S1011,通过所述数据采集服务层采集所述目标类型数据。
为了采集目标类型数据,具体方案如下:
作为一种实施方式,在本实施例中,数据加工链包括数据采集服务层、离线存储层、数据抽取服务层、在线存储层以及数据服务层。
其中,通过数据采集服务层采集目标类型数据。
进一步地,目标类型数据为用户期望获得的服务所包含的数据,目标类型数据的归属领域包括:金融领域等,本实施例对此不作具体限定。
目标类型数据的来源包括:目标类型数据归属行业的行业内外的数据、第三方数据、政务数据。
具体地,作为一种实施方式,数据采集服务层采集金融领域的数据。
其中,采集金融领域的数据的方式包括:文件ETL、API接口ETL、Spark Streaming/Flink等。
金融领域的数据的数据源包括:行内数据集市、行内系统数据源、金融市场数据源、第三方数据源、政务数据源等。
由此,通过数据采集服务层采集目标类型数据以便后续使用。
步骤S1012,将所述目标类型数据存储到所述离线存储层的数据库和所述在线存储层的数据库。
为了存储目标类型数据,以便后续使用,具体方案如下:
作为一种实施方式,在本实施例中,将采集到的目标类型数据存储到离线存储层或在线存储层的数据库。
具体地,在本实施例中,离线存储层的数据库包括:Oracle、DB2、Hbase-CDH等数据库。
在线存储层的数据库包括:ES、Neo4j、Redis、ECS、Mysql等数据库。
进一步地,将采集到的目标类型数据存储到离线存储层的数据库和在线存储层的数据库。其中,离线存储层的数据库包括:Oracle、DB2、Hbase-CDH等数据库。在线存储层的数据库包括:ES、Neo4j、Redis、ECS、Mysql等数据库。
由此,可以存储目标类型数据到在线存储层的数据库和离线存储层的数据库,以便后续使用。
步骤S1013,通过所述数据抽取服务层从所述离线存储层数据库抽取所述目标类型数据,存储到所述在线存储层的数据库。
为了将离线存储层的目标类型数据存储到在线存储层的数据库,具体方案如下:
作为一种实施方式,在本实施例中,通过数据抽取服务层从离线存储层数据库抽取目标类型数据,存储到所述在线存储层的数据库。
其中,数据抽取服务层的方式包括:ES API、Kafka Consumer API、Flink API等。
具体地,通过数据抽取服务层的ES API、Kafka Consumer API、Flink API等方式从离线存储层数据库抽取目标类型数据,存储到所述在线存储层的数据库,其中,在线存储层的数据库包括:ES、Neo4j、Redis、ECS、Mysql等。
由此,可通过数据抽取服务层将离线存储层的目标类型数据存储到在线存储层的数据库吗,以便后续使用。
步骤S1014,通过所述数据服务层将所述在线存储层的数据库的所述目标类型数据按所述预设服务类型进行加工,得到满足所述预设服务类型的数据。
为了使目标类型数据归属到相应的预设服务,具体方案如下:
作为一种实施方式,在本实施例中,数据服务层获取到目标类型数据后,对其进行加工,使获取到的目标类型数据归属到对应的预设服务。
其中,对目标类型数据的加工过程包括:分类、检索、变换以及传输等方式。
在本实施例中,预设服务包括:行内信息服务、工商信息服务、金融市场服务、风险信息服务、企业图谱服务、负面舆情信息服务、税务数据服务、国电等数据服务等服务。
具体地,在本实施例中,数据服务层获取到目标类型数据后,对其进行加工,加工内容包括分类等。
其中,分类依据为预设服务类型,包括:行内信息服务、工商信息服务、金融市场服务、风险信息服务、企业图谱服务、负面舆情信息服务、税务数据服务、国电等数据服务等。
由此,通过数据服务层可以将目标类型数据归属到相应的预设服务,以便将预设服务输出。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。其中,数据加工链包括数据采集服务层、离线存储层、数据抽取服务层、在线存储层以及数据服务层,并且每一流程都有多种算法可以进行选择,从而提高数据加工的质量。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
参照图4,图4为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第一种细化流程图。基于上述图2所示的实施例,数据管理平台包括数据ETL管理模块、数据模型管理模块、数据运营监控模块、数据资产管理模块以及数据服务管理模块,步骤S101:通过数据管理平台对所述数据加工链的流程进行扎口管理包括:
步骤S103,通过所述数据ETL管理模块对所述数据采集服务层采集过程进行调度和管理。
为了提高数据采集服务层采集过程的效率,具体方案如下:
作为一种实施方式,在本实施例中,数据管理平台可以设置在前端或后端。
其中,数据管理平台包括数据ETL管理模块、数据模型管理模块、数据运营监控模块、数据资产管理模块以及数据服务管理模块。
进一步地,数据ETL管理模块的功能包括参数配置和调度管理。
具体地,在本实施例中,数据ETL管理模块可以对数据采集服务层的采集过程按预设调度任务进行调度和管理。
进一步地,数据ETL管理模块可以通过参数配置调整预设调度任务。
由此,通过数据ETL管理模块提高数据采集服务层采集过程的效率。
步骤S104,通过所述数据模型管理模块按预设标准规范维护预设数据模型,并对所述预设数据模型的版本进行控制。
为了对目标类型数据的质量进行把控,具体方案如下:
作为一种实施方式,在本实施例中,数据模型管理模块的功能包括模型维护和版本控制。
具体地,在本实施例中,数据模型管理模块对所述目标类型数据按预设标准规范设置数据模型。
进一步地,数据模型管理模块适时地对数据模型的版本进行控制。
由此,通过数据模型管理模块按预设标准规范维护预设数据模型,并对预设数据模型的版本进行控制,以此对目标类型数据的质量进行把控。
步骤S105,通过所述数据运营监控模块输出监控预警信息或运营报告。
为了更好地把控数据加工链的工作情况,具体方案如下:
作为一种实施方式,在本实施例中,数据运营监控模块可以监控数据加工链的全流程,数据运营监控模块的功能包括输出监控预警和运营报告。
具体地,在本实施例中,数据运营监控模块监控数据加工链的全流程,当接收到获取运营报告的请求时,可根据各流程的加工情况,输出运营报告。
进一步地,当监测到异常情况时,输出监控预警。
由此,通过数据运营监控模块监控数据加工链的全流程,更好地把控数据加工链的工作情况。
步骤S106,通过所述数据资产管理模块分类展示所述目标类型数据信息以及维护所述目标类型数据信息。
为了获取目标类型的相关信息,更好地了解数据全生命周期,具体方案如下:
作为一种实施方式,在本实施例中,数据资产管理模块的功能包括数据资产维护和输出数据资产视图。
具体地,在本实施例中,数据资产管理模块维护或管理目标类型数据中成为数据资产的那一部分。
进一步地,数据资产管理模块分类展示目标类型数据中成为数据资产的那一部分数据的信息,展示成果的方式包括通过数据资产视图进行输出。
作为另一种实施方式,数据资产管理模块维护或管理目标类型数据。
进一步地,数据资产管理模块分类展示所述目标类型数据信息,展示成果的方式包括通过数据资产视图进行输出。
由此,可以通过数据资产管理模块获取目标类型的相关信息,更好地了解数据全生命周期。
步骤S107,通过所述数据服务管理模块发布数据服务类型以及对数据服务请求进行接入管理。
为了使用户了解本实施例的数据全生命周期管理方法涉及的系统架构可以提供的服务,具体方案如下:
作为一种实施方式,在本实施例中,数据服务管理模块的功能包括接入管理和服务注册。
具体地,在本实施例中,预设服务登记在数据服务管理模块。
当有服务需求时,需对该服务进行接入管理。
若预设服务中包含该服务需求,则可提供该服务。
若预设服务中不包含该服务,则可创建该服务,再提供该服务。
由此,通过数据服务管理模块,使用户了解本实施例的数据全生命周期管理方法涉及的系统架构可以提供的服务。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。其中,数据管理平台包括数据ETL管理模块、数据模型管理模块、数据运营监控模块、数据资产管理模块以及数据服务管理模块,通过数据资产管理、模型管理、运营监控、服务管理等,对数据存储、加工,应用全流程进行扎口管理,保证数据质量及一致性。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
参照图5,图5为为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第二种细化流程图。基于上述图4所示的实施例,在本实施例中,步骤S103:通过所述数据ETL管理模块对所述数据采集服务层采集过程进行调度和管理中包括:
步骤S1031,通过所述数据ETL管理模块对所述数据采集服务层采集过程按预设调度任务进行调度。
作为一种实施方式,在本实施例中,数据ETL管理模块对数据采集服务层的采集过程进行统一调度和管理。
其中,数据ETL管理模块具有预设任务,数据ETL管理模块依据预设任务的设置对数据采集服务层的采集过程进行统一调度和管理。
步骤S1032,通过所述数据ETL管理模块以预设方式扩展所述预设调度任务及所述预设调度任务的数据采集逻辑,得到扩展后的预设调度任务及扩展后的预设调度任务的数据采集逻辑。
作为一种实施方式,在本实施例中,在数据ETL管理模块中设置了一种扩展方式,使扩展数据采集逻辑以及调度任务更加方便。
进一步地,该扩展方式包括配置化形式。
具体地,在本实施例中,数据ETL管理模块通过配置化形式扩展数据采集逻辑及其调度任务,从而使任务调度与任务处理逻辑解耦。
进一步地,数据ETL管理模块支持文件下载、API调用、kafka等多种数据采集方式。
由此,通过数据ETL模块,可以降低运维成本,并且数据ETL管理模块还支持文件下载、API调用、kafka等多种数据采集方式,以此提高工作效率。
步骤S1033,通过所述数据ETL管理模块监控所述数据采集服务层采集过程的任务执行情况,根据监测结果执行相应动作。
作为一种实施方式,在本实施例中,数据ETL管理模块工作时,ETL调度支持可视化操作,实时监控任务执行情况,支持执行相应动作。
其中,相应动作的发起者包括用户或数据ETL管理模块。
相应动作包括手工启停、失败重试、出错告警。
具体地,在本实施例中,数据ETL管理模块工作时,ETL调度支持可视化操作,实时监控任务执行情况,得到监测结果。
根据监测结果执行相应动作,相应动作包括手工启停、失败重试、出错告警。
作为另一种实施方式,数据ETL管理模块的ETL调度支持可视化操作,实时监控任务执行情况。
在监控任务执行情况的同时,执行相应动作。
其中,相应动作的发起者包括用户或数据ETL管理模块。
相应动作包括手工启停、失败重试、出错告警。
由此,通过数据ETL管理模块,进行可视化操作,实时监控任务执行情况,并且数据ETL管理模块支持手工启停、失败重试、出错告警等动作,使运维更加方便,健壮性更高。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。通过上述方案,对数据采集过程进行统一调度和管理。其中,ETL调度支持可视化操作,实时监控任务执行情况,支持手工启停、失败重试、出错告警等,使运维更加方便,健壮性更高。并且以配置化形式维护数据采集逻辑和调度任务,调度任务和采集逻辑解耦,灵活可扩展。支持可视化调度方式,运维成本低,支持文件下载、API调用、kafka等多种数据采集方式。这种方式的扩展性强,并且开发成本低。本发明解决了数据加工链路缺乏统一规范的问题,实现对数据存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
参照图6,图6为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第三种细化流程图。基于上述图4所示的实施例,在本实施例中,步骤S104:通过所述数据模型管理模块按预设标准规范维护预设数据模型,并对所述预设数据模型的版本进行控制的步骤中包括:
步骤S1041,将所述预设数据模型转换为数据脚本,并将所述数据脚本应用到相应的数据库。
作为一种实施方式,在本实施例中,数据模型管理模块的功能包括模型维护和版本控制。
其中,数据模型管理模块支持按照预设标准规范维护数据模型。
数据模型生成数据脚本,并将数据脚本应用到相应的数据库。
进一步地,数据模型管理模块可以对数据模型的版本进行控制。
具体地,在本实施例中,数据模型管理模块可以按照预设标准规范维护预设数据模型,预设数据模型生成数据脚本,并将数据脚本应用到相应的数据库。
进一步地,数据模型管理模块对数据模型的版本进行控制。
其中,可以根据数据加工链的工作情况或数据质量情况等,对数据模型的版本进行控制。
由此,通过数据管理平台的数据模型管理模块,对数据进行统一管理,进一步保证数据的质量。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工。将所述满足预设服务类型的数据发送至数据使用方。其中,通过数据管理平台的数据模型管理模块,对数据进行统一管理,进一步保证数据的质量。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
参照图7,图7为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第四种细化流程图。基于上述图4所示的实施例,在本实施例中,步骤S105:通过所述数据运营监控模块输出监控预警信息或运营报告包括:
步骤S1051,通过所述数据运营监控模块监控数据加工链路状态、数据情况或数据质量。
作为一种实施方式,在本实施例中,数据运营监控模块的功能包括输出监控预警,运营报告。
其中,数据运营监控模块的监控内容包括数据加工链路状态、数据情况、数据质量。
进一步地,数据运营监控模块支持自定义监控规则,并对监控方式进行动态配置。
具体地,数据运营监控模块可以实时监控,其中,监控内容包括数据加工链路状态、数据情况、数据质量。
进一步地,数据运营监控模块支持自定义监控规则,并对监控方式进行动态配置。
步骤S1052,当监控到所述数据加工链路状态、数据情况或数据质量有错误或异常情况时,输出监控预警信息。
作为一种实施方式,在本实施例中,当监控到所述数据加工链路状态、数据情况或数据质量有错误或异常情况时,支持输出监控预警信息。
其中,输出方式包括通过邮件输出,通过即时通讯软件输出等。
具体地,当监控到所述数据加工链路状态、数据情况或数据质量有错误或异常情况时,可以通过邮件和即时通讯软件等方式告警。
步骤S1053,根据监控到的所述数据加工链路状态、数据情况或数据质量生成运营报告。
作为一种实施方式,在本实施例中,根据监控到的所述数据加工链路状态、数据情况或数据质量生成报告。
其中报告包括运营报告,数据类型报告。
具体地,在本实施例中,根据监控到的所述数据加工链路状态、数据情况或数据质量生成运营报告。
由此,通过数据运营模块可以更好地监控数据加工链路状态、数据情况及数据质量,及时发现问题以便更改。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。其中,通过数据运营模块可以更好地监控数据加工链路状态、数据情况及数据质量,及时发现问题以便更改。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
参照图8,图8为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第五种细化流程图。基于上述图4所示的实施例,在本实施例中,步骤S106:通过所述数据资产管理模块分类展示所述目标类型数据信息以及维护所述目标类型数据信息的步骤中包括:
步骤S1061:所述数据资产管理模块通过数据资产视图展示所述目标类型数据信息,其中,所述目标类型数据信息包含所述目标类型数据加工链路的信息。
作为一种实施方式,在本实施例中,数据资产管理模块的功能包括数据资产维护,展示数据资产视图。
其中,数据资产管理模块通过数据资产视图分类展示数据资产及其存储位置、关联物理表、表字段、加工链路、数据应用方、当前数据情况等信息。
数据资产管理模块通过数据资产视图分类展示的信息包括目标类型数据信息。
进一步地,数据资产管理模块支持数据资产动态维护。
具体地,在本实施例中,数据资产管理模块通过数据资产视图分类展示目标类型数据中成为数据资产的那一部分数据,及成为数据资产的那一部分数据的存储位置、关联物理表、表字段、加工链路、数据应用方,当前数据情况等信息。
进一步地,数据资产管理模块支持动态维护目标类型数据中成为数据资产的那一部分数据。
作为另一种实施方式,在本实施例中,数据资产管理模块通过数据资产视图分类展示目标类型数据,及目标类型数据的存储位置、关联物理表、表字段、加工链路、数据应用方,当前数据情况等信息。
进一步地,数据资产管理模块支持动态维护目标类型数据。
由此,通过建立数据资产全景视图,分类展示数据资产及其存储位置、关联物理表、表字段、加工链路、数据应用方、当前数据情况等信息,可以更好地检索和掌握数据情况。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。其中,数据资产管理模块的功能包括数据资产维护,展示数据资产视图等,通过建立数据资产全景视图,分类展示数据资产及其存储位置、关联物理表、表字段、加工链路、数据应用方、当前数据情况等信息。利用数据资产全景视图,可以更好地检索和掌握数据情况。使数据查询检索方便快捷、数据全貌一目了然。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
参照图9,图9为本发明数据全生命周期管理方法实施例中对数据管理平台管理过程的第六种细化流程图。基于上述图4所示的实施例,在本实施例中,步骤S107:通过所述数据服务管理模块发布数据服务类型以及对数据服务请求进行接入管理包括:
步骤S1071,将所述数据服务层包含的所述预设服务类型登记至所述数据服务管理模块。
作为一种实施方式,在本实施例中,数据服务管理模块的功能包括发布数据服务类型以及对数据服务请求进行接入管理。
进一步地,数据服务管理模块登记有数据服务类型,通过数据服务管理模块展示数据服务全貌和相关接入方。
其中,数据服务层包括数据服务类型。
具体地,在本实施例中,将数据服务层包含的预设服务类型登记至数据服务管理模块,以此通过数据服务管理模块展示数据服务全貌。
步骤S1072,当所述数据服务管理模块接收到获取指定数据服务请求时,对所述指定数据服务请求进行接入管理,得到接入管理结果,其中,所述预设服务包含所述指定数据服务请求。
作为一种实施方式,在本实施例中,当数据服务管理模块接收到获取指定数据服务请求时,对指定数据服务请求进行接入管理。
进一步地,通过接入管理将指定数据服务请求接入相关接入方,得到接入管理结果。
其中,数据服务管理模块支持访问鉴权、流量控制等操作。
具体地,在本实施例中,当数据服务管理模块接收到获取指定数据服务请求时,对指定数据服务请求进行接入管理并将指定数据服务请求接入相关接入方,得到接入管理结果。
步骤S1073,根据所述接入管理结果判断是否提供所述指定服务。
作为一种实施方式,在本实施例中,若指定数据服务请求包含于数据服务层,则可直接根据接入管理结果判断是否提供所述指定服务;
若指定数据服务请求不包含于数据服务层,则需创建该指定数据服务请求,再根据所述接入管理结果判断是否提供所述指定服务。
由此,通过数据服务管理模块可以获取数据服务全貌以及相关接入方,便于访问鉴权、流量控制等操作,提高工作效率。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。其中,用户可以通过数据服务管理模块获取服务。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
基于上述图2所示的实施例,在本实施例中,步骤S101:通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工包括:
步骤S108,通过所述大数据计算平台使用大数据分析算法和/或相关模型,对所述离线存储层的目标类型数据进行分析加工,得到分析结果并将所述分析结果存储至所述在线存储层。
作为一种实施方式,在本实施例中,大数据计算平台包括任务调度模块、任务计算模块,其中,任务调度模块对任务进行调度,任务计算模块对逻辑进行计算。
大数据计算平台对离线存储层的目标类型数据按大数据分析算法和/或相关模型进行分析加工,得到分析结果并将分析结果存储至所述在线存储层。
其中,大数据分析算法包括K均值算法、Clarans算法、Apriori算法等算法;大数据分析模型包括行为事件分析模型、漏斗分析模型、留存分析模型、分布分析模型等模型。
进一步地,大数据计算平台根据任务调度模块的调度结果,任务计算模块的逻辑计算结果;对离线存储层的目标类型数据按大数据分析算法和/或相关模型进行分析加工,得到分析结果并将分析结果存储至所述在线存储层。
由此,通过大数据计算平台,对离线存储层的数据进行把控,从而促进数据标准化,提升数据质量。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
参照图10,图10为本发明数据全生命周期管理方法第二实施例的流程示意图。
在本实施例中,数据全生命周期管理方法涉及的系统架构包括数据加工链、数据管理平台以及大数据计算平台。
数据加工链包括数据采集服务层、离线存储层、数据抽取服务层、在线存储层以及数据服务层。
首先,通过数据采集服务层采集金融领域的数据。
其中,采集金融领域的数据的方式包括:文件ETL、API接口ETL、Spark Streaming/Flink等方式。
金融领域的数据的数据源包括:行内数据集市、行内系统数据源、金融市场数据源、第三方数据源、政务数据源等数据源。
进一步地,将采集到的目标类型数据存储到离线存储层的数据库和在线存储层的数据库。其中,离线存储层的数据库包括:Oracle、DB2、Hbase-CDH等数据库。在线存储层的数据库包括:ES、Neo4j、Redis、ECS、Mysql等数据库。
进一步地,通过数据抽取服务层的ES API、Kafka Consumer API、Flink API等算法从离线存储层数据库抽取目标类型数据,存储到所述在线存储层的数据库,其中,在线存储层的数据库包括:ES、Neo4j、Redis、ECS、Mysql等数据库。
进一步地,数据服务层获取到目标类型数据后,对其进行加工,加工内容包括分类,存储等加工方式。
其中,依据预设服务类型对目标类型数据进行分类,预设服务类型包括:行内信息服务、工商信息服务、金融市场服务、风险信息服务、企业图谱服务、负面舆情信息服务、税务数据服务、国电等数据服务等类型。
其次,数据管理平台包括数据ETL管理模块、数据模型管理模块、数据运营监控模块、数据资产管理模块以及数据服务管理模块。
数据ETL管理模块的功能包括参数配置和调度管理,其中,数据ETL管理模块对数据采集服务层采集过程进行调度和管理。
数据模型管理模块的功能包括模型维护和版本控制,其中,数据模型管理模块按预设标准规范维护预设数据模型,并对所述预设数据模型的版本进行控制。
数据运营监控模块的功能包括输出监控预警和运营报告。
数据资产管理模块的功能包括数据资产维护和输出数据资产视图,其中,数据资产管理模块分类展示目标类型数据信息以及维护目标类型数据信息。
数据服务管理模块的功能包括接入管理和服务注册,其中,据服务管理模块发布数据服务类型以及对数据服务请求进行接入管理。
最后,大数据计算平台包括任务调度模块、任务计算模块,其中,任务调度模块对任务进行调度,任务计算模块对逻辑进行计算。
大数据计算平台根据任务调度模块的调度结果,任务计算模块的逻辑计算结果;对离线存储层的目标类型数据按大数据分析算法和/或相关模型进行分析加工,得到分析结果并将分析结果存储至所述在线存储层。
其中,大数据分析算法包括K均值算法、Clarans算法、Apriori算法等算法;大数据分析模型包括行为事件分析模型、漏斗分析模型、留存分析模型、分布分析模型等模型。
由此,通过上述方案,不但促进数据标准化,而且提升数据质量,使数据检索更方便快捷。
本实施例通过上述方案,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。其中,通过数据资产管理、模型管理、运营监控、服务管理等,对数据存储、加工,应用全流程进行扎口管理,保证数据质量及一致性。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据存储、加工,应用全流程进行扎口管理,对数据模型、加工口径、数据链路、数据应用进行统一规范和监控,保证数据质量及一致性,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
此外,本发明实施例还提出一种数据全生命周期管理系统,所述数据全生命周期管理系统包括:
数据加工模块,用于通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;
数据输出模块,用于将所述满足预设服务类型的数据发送至数据使用方。
本实施例实现数据全生命周期管理的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据全生命周期管理程序,所述数据全生命周期管理程序被所述处理器执行时实现如上所述的数据全生命周期管理方法的步骤。
由于本数据全生命周期管理程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据全生命周期管理程序,所述数据全生命周期管理程序被处理器执行时实现如上所述的数据全生命周期管理方法的步骤。
由于本数据全生命周期管理程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本发明提供的一种数据全生命周期管理方法、系统、终端设备及存储介质,具体通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;将所述满足预设服务类型的数据发送至数据使用方。通过上述方案,本发明解决了数据加工链路缺乏统一规范的问题,实现对数据全流程进行扎口管理,促进数据标准化,提升数据质量,使数据检索更方便快捷,并且开发运维成本低。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (12)
1.一种数据全生命周期管理方法,其特征在于,所述方法包括如下步骤:
通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;
将所述满足预设服务类型的数据发送至数据使用方。
2.根据权利要求1所述的数据全生命周期管理方法,其特征在于,所述数据加工链包括数据采集服务层、离线存储层、数据抽取服务层、在线存储层以及数据服务层,所述通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据的步骤包括:
通过所述数据采集服务层采集所述目标类型数据;
将所述目标类型数据存储到所述离线存储层的数据库和所述在线存储层的数据库;
通过所述数据抽取服务层从所述离线存储层数据库抽取所述目标类型数据,存储到所述在线存储层的数据库;
通过所述数据服务层将所述在线存储层的数据库的所述目标类型数据按所述预设服务类型进行加工,得到满足所述预设服务类型的数据。
3.根据权利要求2所述的数据全生命周期管理方法,其特征在于,所述数据管理平台包括数据ETL管理模块、数据模型管理模块、数据运营监控模块、数据资产管理模块以及数据服务管理模块,所述通过数据管理平台对所述数据加工链的流程进行扎口管理的步骤包括:
通过所述数据ETL管理模块对所述数据采集服务层采集过程进行调度和管理;
通过所述数据模型管理模块按预设标准规范维护预设数据模型,并对所述预设数据模型的版本进行控制;
通过所述数据运营监控模块输出监控预警信息或运营报告;
通过所述数据资产管理模块分类展示所述目标类型数据信息以及维护所述目标类型数据信息;
通过所述数据服务管理模块发布数据服务类型以及对数据服务请求进行接入管理。
4.根据权利要求3所述的数据全生命周期管理方法,其特征在于,所述通过所述数据ETL管理模块对所述数据采集服务层采集过程进行调度和管理的步骤中包括:
通过所述数据ETL管理模块对所述数据采集服务层采集过程按预设调度任务进行调度;
通过所述数据ETL管理模块以预设方式扩展所述预设调度任务及所述预设调度任务的数据采集逻辑,得到扩展后的预设调度任务及扩展后的预设调度任务的数据采集逻辑;
通过所述数据ETL管理模块监控所述数据采集服务层采集过程的任务执行情况,根据监测结果执行相应动作。
5.根据权利要求3所述的数据全生命周期管理方法,其特征在于,所述通过所述数据模型管理模块按预设标准规范维护预设数据模型,并对所述预设数据模型的版本进行控制的步骤中包括:
将所述预设数据模型转换为数据脚本,并将所述数据脚本应用到相应的数据库。
6.根据权利要求3所述的数据全生命周期管理方法,其特征在于,所述通过所述数据运营监控模块输出监控预警信息或运营报告的步骤中包括:
通过所述数据运营监控模块监控数据加工链路状态、数据情况或数据质量;
当监控到所述数据加工链路状态、数据情况或数据质量有错误或异常情况时,输出监控预警信息;和/或
根据监控到的所述数据加工链路状态、数据情况或数据质量生成运营报告。
7.根据权利要求3所述的数据全生命周期管理方法,其特征在于,所述通过所述数据资产管理模块分类展示所述目标类型数据信息以及维护所述目标类型数据信息的步骤中包括:
所述数据资产管理模块通过数据资产视图展示所述目标类型数据信息,其中,所述目标类型数据信息包含所述目标类型数据加工链路的信息。
8.根据权利要求3所述的数据全生命周期管理方法,其特征在于,所述通过所述数据服务管理模块发布数据服务类型以及对数据服务请求进行接入管理的步骤包括:
将所述数据服务层包含的所述预设服务类型登记至所述数据服务管理模块;
当所述数据服务管理模块接收到获取指定数据服务请求时,对所述指定数据服务请求进行接入管理,得到接入管理结果,其中,所述预设服务包含所述指定数据服务请求;
根据所述接入管理结果判断是否提供所述指定服务。
9.根据权利要求2所述的数据全生命周期管理方法,其特征在于,所述通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工的步骤中包括:
通过所述大数据计算平台使用所述大数据分析算法和/或相关模型,对所述离线存储层的目标类型数据进行分析加工,得到分析结果并将所述分析结果存储至所述在线存储层。
10.一种数据全生命周期管理系统,其特征在于,包括:
数据加工模块,用于通过数据加工链采集目标类型数据并进行处理,得到满足预设服务类型的数据,其中,通过数据管理平台对所述数据加工链的流程进行扎口管理,通过大数据计算平台使用大数据分析算法和/或相关模型,对所述目标类型数据进行分析加工;
数据输出模块,用于将所述满足预设服务类型的数据发送至数据使用方。
11.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据全生命周期管理方法,所述数据全生命周期管理的程序被所述处理器执行时实现如权利要求1-9中任一项所述的数据全生命周期管理方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据全生命周期管理的程序,所述数据全生命周期管理的程序被处理器执行时实现如权利要求1-9中任一项所述的数据全生命周期管理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111527150.4A CN114281494A (zh) | 2021-12-14 | 2021-12-14 | 数据全生命周期管理方法、系统、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111527150.4A CN114281494A (zh) | 2021-12-14 | 2021-12-14 | 数据全生命周期管理方法、系统、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114281494A true CN114281494A (zh) | 2022-04-05 |
Family
ID=80872041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111527150.4A Pending CN114281494A (zh) | 2021-12-14 | 2021-12-14 | 数据全生命周期管理方法、系统、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114281494A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117172410A (zh) * | 2023-09-04 | 2023-12-05 | 西南交通大学 | 一种产品服务全生命周期价值链优化系统及方法 |
-
2021
- 2021-12-14 CN CN202111527150.4A patent/CN114281494A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117172410A (zh) * | 2023-09-04 | 2023-12-05 | 西南交通大学 | 一种产品服务全生命周期价值链优化系统及方法 |
CN117172410B (zh) * | 2023-09-04 | 2024-03-08 | 西南交通大学 | 一种产品服务全生命周期价值链优化系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11526338B2 (en) | System and method for inferencing of data transformations through pattern decomposition | |
US10754877B2 (en) | System and method for providing big data analytics on dynamically-changing data models | |
CN108416620B (zh) | 一种基于大数据的画像数据的智能社交广告投放平台 | |
Zhang et al. | UniBench: a benchmark for multi-model database management systems | |
CN111240662A (zh) | 一种基于任务可视化拖拽的spark机器学习系统及学习方法 | |
KR20200106950A (ko) | Sql 질의 플랜들을 최적화하기 위한 차원 콘텍스트 전파 기술들 | |
CN107103064B (zh) | 数据统计方法及装置 | |
CN106293891B (zh) | 多维投资指标监督方法 | |
US11567936B1 (en) | Platform agnostic query acceleration | |
US20230359960A1 (en) | Systems and methods for efficiently distributing alert messages | |
CN113420043A (zh) | 数据实时监控方法、装置、设备及存储介质 | |
US20100010979A1 (en) | Reduced Volume Precision Data Quality Information Cleansing Feedback Process | |
CN114281494A (zh) | 数据全生命周期管理方法、系统、终端设备及存储介质 | |
US20130007040A1 (en) | Distributed requests on remote data | |
CN112650925A (zh) | 一种用于一卡通的app信息推送系统、方法及介质 | |
CN111143328A (zh) | 一种敏捷商业智能数据构建方法、系统、设备、存储介质 | |
US20140143278A1 (en) | Application programming interface layers for analytical applications | |
US20190171747A1 (en) | Simplified access for core business with enterprise search | |
US20240220876A1 (en) | Artificial intelligence (ai) based data product provisioning | |
CN108038612B (zh) | 一种用户行为驱动的制造云服务自组织评价系统及方法 | |
CN116225927A (zh) | 试验报告生成方法、装置、设备及存储介质 | |
Poyraz | Bigdata analytics architectures for HVAC energy optimization systems | |
CN117725313A (zh) | 智能识别与推荐系统 | |
US9600505B2 (en) | Code optimization based on customer logs | |
CN116975396A (zh) | 政务服务智能推荐方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |