CN116823464B - 数据资产管理平台、电子设备及计算机可读存储介质 - Google Patents

数据资产管理平台、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116823464B
CN116823464B CN202310666564.8A CN202310666564A CN116823464B CN 116823464 B CN116823464 B CN 116823464B CN 202310666564 A CN202310666564 A CN 202310666564A CN 116823464 B CN116823464 B CN 116823464B
Authority
CN
China
Prior art keywords
data
layer
module
real
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310666564.8A
Other languages
English (en)
Other versions
CN116823464A (zh
Inventor
姚弘
何铁军
王克强
赵智鹏
薛智明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haitong Futures Co ltd
Original Assignee
Haitong Futures Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haitong Futures Co ltd filed Critical Haitong Futures Co ltd
Priority to CN202310666564.8A priority Critical patent/CN116823464B/zh
Publication of CN116823464A publication Critical patent/CN116823464A/zh
Application granted granted Critical
Publication of CN116823464B publication Critical patent/CN116823464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了一种数据资产管理平台、电子设备及计算机可读存储介质,其中,数据资产管理平台包括:数据获取模块,用于从一个或者多个数据源中获取业务数据;数据加工模块包括离线子模块及实时子模块;其中,离线子模块通过Kettle任务对数仓数据进行业务数据处理,从操作数据层至数据仓库层,从数据仓库层至数据集市层;实时子模块对接Kafka队列进行实时计算从操作数据层落库至数据仓库层,数据仓库层通过OGG接入到KAFKA,再由OGG实时同步到数据集市层;数据资产管理模块,用于规范融合多种类型的数据源数据,得到标准化数据;数据管控模块,用于将所述标准化数据进行分发。通过本申请的技术方案,可以实现对目标数据的资产化、可管理化及可控的需求。

Description

数据资产管理平台、电子设备及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据资产管理平台、电子设备及计算机可读存储介质。
背景技术
在业务交易活跃度大幅增长的背景下,整体出现业务“增产不增收”的现象。
伴随产业大数据不断丰富,各类用户对数据分析的需求日渐强烈,信息及数据是开展传统业务,风险管理等创新业务不可或缺的生产资料。
以数据驱动各项业务发展,是现阶段各行业提升综合竞争力的必经之路。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
有鉴于此,本发明的一个目的在于提供一种数据资产管理平台。
本发明的另一个目的在于提供一种电子设备。
本发明的另一个目的在于提供一种计算机可读存储介质。
为了实现上述目的,本发明第一方面的技术方案提供了一种数据资产管理平台,包括:数据获取模块,用于从一个或者多个数据源中获取业务数据;数据加工模块,包括离线子模块及实时子模块;其中,所述离线子模块通过Kettle任务对数仓数据进行业务数据处理,从操作数据层至数据仓库层,从所述数据仓库层至数据集市层;其中,所述实时子模块对接Kafka队列进行实时计算从所述操作数据层落库至所述数据仓库层,所述数据仓库层通过OGG接入到Kafka,再由OGG实时同步到所述数据集市层;数据资产管理模块,用于规范融合多种类型的所述数据源数据,得到标准化数据;数据管控模块,用于将所述标准化数据进行分发。
在一些实施例中,所述数据获取模块包括通过实时和/或离线的方式从一个或者多个所述数据源中获取数据,所述平台还包括:
对通过实时获取到的所述业务数据进行数据校验,若校验不通过则通过离线方式继续获取所述业务数据。
在一些实施例中,所述对通过实时获取到的所述业务数据进行数据校验,包括:
确定实时获取到的所述业务数据对应的MD5,及所述数据源对应的MD5;
比对所述MD5,基于比对结果确定实时获取到的所述业务数据是否校验通过。
在一些实施例中,所述数据仓库包括贴源层数据权限管理、数仓层数据权限管理、数据集市层数据权限管理;
所述贴源层数据权限管理包括维表,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至ODS层;
所述数仓层数据权限管理包括维表和指标,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至DW层的维表中,所述指标用于将页面操作创建的指标目录,根据选择的分类同步至DW层的指标中;
所述数据集市层数据权限管理包括维表和指标,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至DM层维表中,所述指标用于将页面操作创建的指标目录,根据选择的分类同步至DM层指标中。
在一些实施例中,所述平台还包括:
为不同的角色赋予不同的数据权限;
基于所述数据权限对平台内的业务数据进行管控和分配。
在一些实施例中,所述平台还包括数据质检模块;
所述数据质检模块通过图数据库进行数据的链路追踪;
并对各层级的所述业务数据通过异步任务并分发任务进行数据质量的监控和检测。
在一些实施例中,所述平台还包括数据可视化模块;
所述数据可视化模块用于对数据进行分析;
并基于数据的类型及数据之间的关联关系进行可视化展示。
在一些实施例中,所述平台还包括数据输入模块;
所述数据输入模块用于接收输入的业务数据;
并判断输入的所述业务数据是否为新增数据;
若输入的业务数据为新增业务数据,执行将所述业务数据入库操作;
若所述的业务数据为已有数据,执行将原有数据删除并更新为最新输入的业务数据的操作。
本发明第二方面的技术方案提供了一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现上述第一方面数据资产管理平台的步骤,所述数据资产管理平台,包括:数据获取模块,用于从一个或者多个数据源中获取业务数据;数据加工模块,包括离线子模块及实时子模块;其中,所述离线子模块通过Kettle任务对数仓数据进行业务数据处理,从操作数据层至数据仓库层,从所述数据仓库层至数据集市层;其中,所述实时子模块对接Kafka队列进行实时计算从所述操作数据层落库至所述数据仓库层,所述数据仓库层通过OGG接入到Kafka,再由OGG实时同步到所述数据集市层;数据资产管理模块,用于规范融合多种类型的所述数据源数据,得到标准化数据;数据管控模块,用于将所述标准化数据进行分发。
本发明第三方面的技术方案提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面中任一项技术方案的数据资产管理平台的步骤,所述数据资产管理平台,包括:数据获取模块,用于从一个或者多个数据源中获取业务数据;数据加工模块,包括离线子模块及实时子模块;其中,所述离线子模块通过Kettle任务对数仓数据进行业务数据处理,从操作数据层至数据仓库层,从所述数据仓库层至数据集市层;其中,所述实时子模块对接Kafka队列进行实时计算从所述操作数据层落库至所述数据仓库层,所述数据仓库层通过OGG接入到Kafka,再由OGG实时同步到所述数据集市层;数据资产管理模块,用于规范融合多种类型的所述数据源数据,得到标准化数据;数据管控模块,用于将所述标准化数据进行分发。
根据本发明提供的计算机可读存储介质,通过存在于计算机可读存储介质上的计算机程序被处理器执行时,可以实现上述第一方面中任一项技术方案的平台的步骤,所述数据资产管理平台,包括:数据获取模块,用于从一个或者多个数据源中获取业务数据;数据加工模块,包括离线子模块及实时子模块;其中,所述离线子模块通过Kettle任务对数仓数据进行业务数据处理,从操作数据层至数据仓库层,从所述数据仓库层至数据集市层;其中,所述实时子模块对接Kafka队列进行实时计算从所述操作数据层落库至所述数据仓库层,所述数据仓库层通过OGG接入到Kafka,再由OGG实时同步到所述数据集市层;数据资产管理模块,用于规范融合多种类型的所述数据源数据,得到标准化数据;数据管控模块,用于将所述标准化数据进行分发。从而具有了上述数据资产管理平台的技术方案的全部有益效果,在此不再赘述。
本发明第四方面的技术方案提供了一种芯片,包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如上述第一方面中任一项技术方案的数据资产管理平台的步骤,所述数据资产管理平台,包括:数据获取模块,用于从一个或者多个数据源中获取业务数据;数据加工模块,包括离线子模块及实时子模块;其中,所述离线子模块通过Kettle任务对数仓数据进行业务数据处理,从操作数据层至数据仓库层,从所述数据仓库层至数据集市层;其中,所述实时子模块对接Kafka队列进行实时计算从所述操作数据层落库至所述数据仓库层,所述数据仓库层通过OGG接入到Kafka,再由OGG实时同步到所述数据集市层;数据资产管理模块,用于规范融合多种类型的所述数据源数据,得到标准化数据;数据管控模块,用于将所述标准化数据进行分发。
根据本发明提供的芯片,主要包括有处理器和通信接口,通过将通信接口与处理器耦合,可运行对应的程序或指令,从而实现如上述第一方面中任一项技术方案的数据资产管理平台的步骤,所述数据资产管理平台,包括:数据获取模块,用于从一个或者多个数据源中获取业务数据;数据加工模块,包括离线子模块及实时子模块;其中,所述离线子模块通过Kettle任务对数仓数据进行业务数据处理,从操作数据层至数据仓库层,从所述数据仓库层至数据集市层;其中,所述实时子模块对接Kafka队列进行实时计算从所述操作数据层落库至所述数据仓库层,所述数据仓库层通过OGG接入到Kafka,再由OGG实时同步到所述数据集市层;数据资产管理模块,用于规范融合多种类型的所述数据源数据,得到标准化数据;数据管控模块,用于将所述标准化数据进行分发。
通过本申请中提供的数据资产管理平台,可以对获取的多源头数据进行规范化处理及标准化处理,进而形成标准化数据,实现了对数据的有效融合及便捷使用。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明的一个实施例的提供的数据资产管理平台的模块示意图;
图2是本发明的一个实施例的提供的对通过实时获取到的所述业务数据进行数据校验的流程示意图;
图3是本发明的另一个实施例提供的数据资产管理平台示意图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
在本申请实施例的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例提供的数据资产管理平台的执行主体可以是服务器、计算机设备,例如手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等。
下面参照附图描述本发明的一些实施例。
如图1所述,提供了数据资产管理平台的模块示意图。在一些实施例中,本申请提供的数据资产管理平台中包括数据获取模块101、数据加工模块102、数据资产管理模块103及数据管控模块104。
在一些实施例中,数据获取模块101包括第一数据获取模块及第二数据获取模块。第一数据获取模块,用于从第一数据源获取第一数据,第二数据获取模块,用于从第二数据源获取第二数据。其中,第一数据源与第二数据源可以是相同或者不同的数据源。
在一些实施例中,可以应用程序接口(API)从第一数据源中获取数据,例如第一数据源可以是多种APP、落地库等,具体可以根据实际业务需求进行确定。例如第二数据源可以是多种类型的数据库,具体可以是关系型数据库,例如Oracle、Sql server、Mysql,可以是非关系型数据库,例如MongoDB,或者还可以是大数据组件,例如Hive。这样,通过从多种数据源中获取数据,保证数据来源的多样性与全面性。
在一些实施例中,从不同数据源中获取数据的方式可以不同。
例如,在一些实施例中,可以从第一数据源中离线获取第一数据,可以通过定时任务对API数据进行采集到ODS层(Oracle/HBASE)。例如,可以规定在一天中的某个固定的时间点采集数据,或者还可以在系统资源消耗较小的时候执行采集数据任务。例如,通过监控系统资源的消耗状况,在系统资源消耗满足一定条件的情况下执行离线获取数据的步骤。离线获取数据较为灵活,提高了数据获取的可操作性。
例如,在一些实施例中,从第二数据源实时获取第二数据,实时采集包括通过OGG的方式进行采集,通过Kafka的方式进行采集,基于kafka队列接收,flink实时采集至ODS层(HBASE)。
在另外的实施例中,可以通过离线采集、实时采集等方式从数据源中获取数据,或者对于同一个数据源中的数据可以即通过实时获取数据又可以通过离线获取数据。
上述实施例中,基于不同数据源(第一数据源及第二数据源)的特殊性,采用不同的数据获取方式(实时或者离线)从不同的数据源中获取数据,使得数据获取的方式与对应的数据源类型相匹配,能够从对应的数据源中准确快速的获取数据,进而保证了数据获取的准确性与全面性。
在一些实施例中,所述平台还包括:对通过实时获取到的数据进行数据校验,若校验不通过则通过离线方式继续获取数据。
在一些实施例中,数据校验的方式包括:判断数据获取前应该进来的总条数数据和实际进来的总条数数据,并将数据应获取到的数据总条数与实际的数据总条数作对比,若数据总条数一样,则校验通过,否则,校验不通过。
上述实施例中,通过数据量作为数据校验的条件,不仅能够准确的实现对数据的校验,同时数据校验的方式简单可行,数据处理效率较高。在一些实施例中,还可以将数据类型作为校验条件进行数据校验,在本申请中不做限制。
上述实施例中,通过实时获取数据的方式可以提高数据获取的效率,但是在一些情况下,由于实时获取数据存在计算机资源不能及时处理的情况,存在数据漏获取的情况。故而,在一些实施例中,还可以通过离线获取数据的方式进行数据的补充采集,这样可以补充由于实时的方式漏获取的数据。
例如,可以每天定时校验通过实时的方式获取到的数据是否准确,例如,可以每天校验实时采集到的数据与数据源中的数据量是否匹配,若不匹配,则判断实时方式获取到的数据有遗漏,此时可以启动离线获取数据的方式继续补采集漏获取到的数据,具体可以通过定位漏采集的数据,并通过离线的方式继续采集。这样,通过实时及离线的相结合方式获取数据可以保证数据获取的全面性与准确性。
在一些实施例中,离线采集包括每天定时从数据源拉取昨天一天的数据并写入到数据仓库中,例如可以通过接口调用的方式每天执行一次,并写入到数据库中。需要说明的是,在另外的实施例中,对于离线获取数据的频率及时间不做限制,可以根据需求自定义设置,例如可以每天定时离线获取一次数据,也可以每天定时获取多次数据,或者每天可以根据系统资源情况动态确定进行离线获取数据的时间及频次。
在一些实施例中,实时采集指的是通过数据源产生数据的实时日志,通过消息队列,实时获取到数据日志,然后解析并写入到数据仓库中。
参照图2,在一些实施例中,所述对通过实时获取到的数据进行数据校验,包括:步骤201,确定实时获取到的数据对应的MD5,及数据源对应的MD5;步骤202,比对所述MD5,基于比对结果确定实时获取到的所述数据是否校验通过。
在一些实施例中,可以使用python的MD5库,对数据产生一个32位的唯一标识,通过区别标识是否前后一致来判断数据是否一致。
需要说明的是,校验数据的方式可以一一对比,或者也可以通过获取数据各自对应的MD5,通过MD5比对的方式校验数据。在一些实施例中,还可以通过多行数据同时进行校验,以提高数据校验的速度。
在一些实施例中,数据源接入的过程中加入了接入时间、数据校验等。并且,将不同数据源的数据分类放置不同类型的数据库中,以在不同的数据库中进行不同的数据处理,这样可以提高对不同类型数据的处理效率。
在一些实施例中,还包括:识别数据类型,基于识别得到的数据类型匹配对应的数据处理算法,通过数据处理算法对业务数据进行处理得到目标数据。特别是对于类型较多的业务数据而言,通过此平台可以极大地提高了业务数据处理的效率。
例如,对于不同类型的数据定义不同的数据处理算法或者规则,并且接入到不同类型的数据库中,这样后续可以针对性地对该类型的数据进行针对性的业务处理,提高数据处理的效率。
在一些实施例中,数据资产管理平台还包括数据加工模块,该数据加工模块包括离线子模块及实时子模块。其中,离线子模块通过Kettle任务对数仓数据进行数据处理,从操作数据层至数据仓库层,从数据仓库层至数据集市层;实时子模块对接Kafka队列进行实时计算从操作数据层落库至数据仓库层,数据仓库层通过OGG接入到KAFKA,再由OGG实时同步到数据集市层。
在一些实施例中,所述离线子模块通过Kettle任务对数仓数据进行业务数据处理,从操作数据层至数据仓库层,从所述数据仓库层至数据集市层,包括:kettle任务从数据库中(例如oracle)抽取数据,然后写入到数仓中,通过数据抽取与写入实现对数仓数据的数据处理。从数据源查询抽取数据,然后做维度字段和指标字段的区分,最后使用sql语句生产指标数据放到数据集市层。
在一些实施例中,所述实时子模块对接Kafka队列进行实时计算从所述操作数据层落库至所述数据仓库层,所述数据仓库层通过OGG接入到Kafka,再由OGG实时同步到所述数据集市层,包括:根据oracle的数据日志,把数据日志拷贝一份并写入到kafka中,然后再读取kafka的数据日志,解析数据日志获得对应的数据内容,并把数据内容写到数据集市层。
具体而言,对于来源不同的数据进行不同的数据加工处理,例如对于离线方式获取到的数据通过Kettle任务对数仓数据进行抽取、清洗、加工,从ODS(Oracle/HBASE)至DW(ORACLE)层,从DW(Oracle)层至DM(ES)层。对于实时任务获取到的数据对接Kafka队列进行实时计算从ODS层落库至DW层,DW层(ORACLE)通过OGG接入到KAFKA,再由OGG实时同步到DM层(ES)。
在一些实施例中,将接进来的数据源目前都放在ODS层的oracle库里,正式交付将数据放到HBASE。
在一些实施例中,数据权限管理包括ODS层管理(贴源层层数据权限管理)、DW层管理(数仓层数据权限管理)、DM层管理(数据集市层数据权限管理)。
所述贴源层数据权限管理包括维表,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至ODS层;所述数仓层数据权限管理包括维表和指标,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至DW层的维表中,所述指标用于将页面操作创建的指标目录,根据选择的分类同步至DW层的指标中;所述数据集市层数据权限管理包括维表和指标,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至DM层维表中,所述指标用于将页面操作创建的指标目录,根据选择的分类同步至DM层指标中。
在上述实施例中,首先将大类别中的数据进行小类别划分,然后再将划分小类别后的数据放到对应的指标分类中,最后同步到DM层和DW层中。
在一些实施例中,本申请提供的数据资产管理平台还包括维表衍生,维表衍生是以维表唯一性作为判断依据,从源表对目标表进行数据迁移。
在一些实施例中,本申请提供的数据资产管理平台包括新建配置模块,用于新增维表衍生配置。具体可以配置名称、目标表库、目标表、定时衍生以及备注等。并且在选择目标表以后还可以进一步展示其余配置信息,比如唯一性约束、源表库、衍生视图、删除视图、关联关系等。
在一些实施例中,配置名称用于定义当前配置名称,不可重复,例如长度可以是1-200。目标表库及目标表用于定义目标表。唯一性约束是指目标表在配置时候如果定义了唯一性约束会自动将对应设置带入,如果没设置即为空需要自行设置。唯一性约束需要选择一个或多个字段,系统将根据其作为唯一约束参考标准进行数据的增删改。源表库用于定义源表的来源库。衍生视图是通过SQL选择源表以及响应字段,用户也可以使用DQL语句对数据进行一些筛选。仅支持一个结果集。
系统会根据衍生出的视图通过唯一性约束向目标表进行数据迁移。首先系统会剔除掉目标表中is_delete=1的数据,随后根据唯一性约束进行匹配,如果匹配到数据,那么会修改目标表中对应的值,如果没有匹配到数据,就会进行数据的增量。
删除视图是指通过SQL选择源表以及响应字段,用户也可以使用DQL语句对数据进行一些筛选。仅支持一个结果集。
系统会根据唯一性约束进行数据匹配,如果匹配到相同的唯一性约束,会将is_delete的值变成1。
关联关系是用于关联目标表和源表字段。唯一性约束的字段必须建立关联。字段的对应源表为可选项,用于显示维表衍生的血缘关系。
定时衍生具体可以分实时衍生和离线衍生。其中,实施衍生的触发有两种场景,一种是作为数据源的承载表,接入的五种数据源有了数据更新后,其会被触发;另外一种是源表作为另外一个维表衍生的目标表,产生了数据更新,其会被触发。非维表衍生的离线衍生无法触发实施衍生。离线衍生需要用户自定义实施周期,设定完毕后根据周期自动进行数据迁移。
状态是指对维表衍生任务进行停启用状态设置。编辑是指编辑维表衍生配置。配置名称适用于定义当前配置名称,不可重复,长度为1-200。目标表库以及目标表不可修改。唯一性约束不可修改。
源表库用于定义源表的来源库。衍生视图是通过SQL选择源表以及响应字段,用户也可以使用DQL语句对数据进行一些筛选。仅支持一个结果集。
系统会根据衍生出的视图通过唯一性约束向目标表进行数据迁移。首先系统会剔除掉目标表中is_delete=1的数据,随后根据唯一性约束进行匹配,如果匹配到数据,那么会修改目标表中对应的值,如果没有匹配到数据,就会进行数据的增量。
删除视图是指通过SQL选择源表以及响应字段,用户也可以使用DQL语句对数据进行一些筛选。仅支持一个结果集。
系统会根据唯一性约束进行数据匹配,如果匹配到相同的唯一性约束,会将is_delete的值变成1。
关联关系是用于关联目标表和源表字段。唯一性约束的字段必须建立关联。字段的对应源表为可选项,用于显示维表衍生的血缘关系。
定时衍生分实时衍生和离线衍生。实施衍生的触发有两种场景:一种是作为数据源的承载表,接入的五种数据源有了数据更新后,其会被触发;另外一种是源表作为另外一个维表衍生的目标表,产生了数据更新,其会被触发。非维表衍生的离线衍生无法触发实施衍生。
离线衍生需要用户自定义实施周期,设定完毕后根据周期自动进行数据迁移。
清除数据是指清除当前配置对目标表的衍生数据。
在一些实施例中,本平台还包括数据质检模块,该数据质检模块通过图数据库(例如neo4j)实现数据的链路追踪,针对各层级的数据通过异步任务并分发任务去实现数据质量监控和检测。
在一些实施例中,该数据质检模块通过图数据库(例如neo4j)实现数据的链路追踪,包括:分为手动输入和自动输入。手动输入就是把数据加工的sql语句中使用的表名,字段名字,手动填写到图数据库中。自动输入就是根据sql语句,自动解析上下游表和字段写入到图数据库中。
在一些实施例中,对各层级的所述业务数据通过异步任务并分发任务进行数据质量的监控和检测,包括:对表中的数据配置一个SQL的检验任务,比如sql检验字段是否定长,是否为空,是否有其他类型的值,如果符合,那么sql语句执行下来不会报错,否则会报错抛出。
在一些实施例中,该平台还支持ODS层(oracle,hbase)、dw层和DM层的维表进行质检。维表质检配置和维表质检监控页面,默认显示ODS层的目录以及ODS的相关任务。
在一些实施例中,本平台还包括数据管控模块,数据资产管理模块将相关数据共享至数据管控模块,数据管控模块中包括统一数据服务及结构管理平台。
在一些实施例中,统一数据服务是对整个数据平台提供一个统一的接口,所以对数据的访问都通过调用这个接口来实现。
在一些实施例中,结构管理平台指的是对数据的字段,类型,进行统一的查看,管理和检验。
在一些实施例中,数据共享模块中提供内置数据查询服务包括(指标信息、指标数据、框架信息);用户自定义数据API,支持DM(指标、维表)以及其他数据源。
在一些实施例中,该平台还包括数据应用模块,数据应用模块用于对淑君进行可视化处理,具体可包含智能研报平台(数据中心、图表中心、研报中心)和数据资产管理平台。
在一些实施例中,该平台中获取到的业务数据可以应用至图表中心等,例如可以进行血缘分析。
在一些实施例中,所述平台还包括数据可视化模块,所述数据可视化模块用于对数据进行分析,并基于数据的类型及数据之间的关联关系进行可视化展示。例如,对于不同数据之间的关联关系进行分析,得到不同数据之间的流向关系,这样可以通过图标的可视化方式进行数据关系的展示,提高对数据的可视化管理。
在一些实施例中,本平台还包括监控管理模块,例如可用于监控API的调用次数,任务的调度较空成功还是失败。在一些实施例中,还包括对API进行管控(例如监控API调用次数、API上线/下线、API)、调调用耗时统计、API调用日志监控)、调任务度平台(dolphinscheduler)、监控平台(grafana+prometheus)。
在一些实施例中,还包括元数据管理,新增元数据采集任务:支持配置数据源包含关系型数据库,如:Oracle、Mysql、Sql Server;非关系型数据库,如:MongoDB;大数据组件,如:hive。定时对各个数据源进行采集同步。元数据列表:查看各数据源的采集状态;查看表、列信息。
在一些实施例中,所述平台还包括:为不同的角色赋予不同的数据权限,实现对平台内所有数据的管控和分配。
例如,超管拥有一切数据权限,一个员工被赋予多个角色,数据权限取该员工所有角色的并集。
在一些实施例中,数据权限关联的模块为数据库查询。数据权限勾选的框架目录和ODS层查询(维表),DW层查询(维表指标),DW层查询(维表指标)有关。在上述的页面中,左侧的目录框架显示勾选的目录框架。
本申请中通过提供数据治理和数据管控服务,解决目前数据杂乱问题。搭建数据资产管理平台,实现对平台内所有数据的管控和分配。
通过本申请提供的数据资产管理平台,实现对目标数据的资产化、可管理化,及可控的需求。
在一些实施例中,通过本申请提供的数据资产管理平台,实现血缘分析和维表质检的功能,满足对内部数据资产的血缘分析和维表质检的要求。
该数据资产管理平台在实现数据源到数据加工的整个数据链过程中记录血缘,并且通过自定义血缘分析,实现将血缘关系通过Neo4j展示整个数据链。
例如,在一些场景中,可以通过分析SQL操作的表和字段,以及不同表之间的关联关系、不同字段之间的关联关系,甚至表和字段之间的关联关系,进而推导得到后续的字段。实现对数据的可视化展示,数据流向的可视化展示。
例如,可以通过SQL自动解析得到关联关系,并输入至图数据库中,实现对数据及数据流向的可视化展示。
在一些实施例中,所述平台还包括数据输入模块,所述数据输入模块用于接收输入的业务数据,并判断输入的所述业务数据是否为新增数据,若输入的业务数据为新增业务数据,执行将所述业务数据入库操作,若所述的业务数据为已有数据,执行将原有数据删除并更新为最新输入的业务数据的操作。
具体而言,该平台有一个数据填报的界面,如果填报的指标是申请至数据库的指标。这里有两种情况,一种是新增数据,一种是修改数据。新增数据默认入库就行,修改数据需要把原数据标为已删除状态,再把新数据入库。比如一条指标数据是6月9日的,如果6月9日原本没有数据,直接入库就行。如果6月9日本身有数据,需要把老的数据的状态改为已删除,再把新数据入库。
如图3所示,为本申请一个实施例中提供的数据资产管理平台示意图。在图3中,该数据管理平台包括数据采集模块,数据采集模块包括离线采集及实时采集两种方式,具体可以通过API接口、落地库及ETL(SQL采集)中离线采集数据,从OGG、Kafka中实时采集数据(OGG数据实时同步写入到kafka),另外,还包括数据填报模块,例如可以通过Excel模板进行数据填报。并且数据采集之后,数据采集结果接入日志管理模块。
该数据资产管理平台还包括数据资产管理模块,数据资产管理模块中包括数据库表管理及数据仓库。数据库表管理中包括数据资产概览、数据查询,其中数据查询可以实现混合查询,可以实现对多种类型数据的查询,实现跨源数据查询,例如,可以引入多源数据即席查询Trino(Presto),可以连接不同的数据源,进而可以放到同一个数据源进行加工。数据仓库中包括DM、DW、ODS数据层分层。
数据资产管理模块中还包括数据治理功能模块,例如血缘分析,数据质检等都可以包括其内。
在一些实施例中,处理好数据之后还可以做成API接口进行数据共享。
需要说明的是,本数据管理平台中的质检任务负责数据质检,所有过程都会涉及到SQL进行数据质检。
在一些实施例中,本申请中的数据资产管理平台还包括数据校验模块,所述数据校验模块用于对通过实时获取到的所述业务数据进行数据校验,若校验不通过则通过离线方式继续获取所述业务数据。
在一些实施例中,所述数据校验模块用于确定实时获取到的所述业务数据对应的MD5,及所述数据源对应的MD5;比对所述MD5,基于比对结果确定实时获取到的所述业务数据是否校验通过。
在一些实施例中,数据加工模块中的数据仓库包括贴源层数据权限管理、数仓层数据权限管理、数据集市层数据权限管理;所述贴源层数据权限管理包括维表,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至ODS层;所述数仓层数据权限管理包括维表和指标,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至DW层的维表中,所述指标用于将页面操作创建的指标目录,根据选择的分类同步至DW层的指标中;所述数据集市层数据权限管理包括维表和指标,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至DM层维表中,所述指标用于将页面操作创建的指标目录,根据选择的分类同步至DM层指标中。
在一些实施例中,所述平台还包括:权限管理模块,所述权限管理模块用于为不同的角色赋予不同的数据权限;基于所述数据权限对平台内的业务数据进行管控和分配。
在一些实施例中,所述平台还包括:质检模块,质检模块用于通过图数据库进行数据的链路追踪;并对各层级的所述业务数据通过异步任务并分发任务进行数据质量的监控和检测。
在一些实施例中,所述平台还包括:数据可视化模块;所述数据可视化模块用于对数据进行分析;并基于数据的类型及数据之间的关联关系进行可视化展示。
在一些实施例中,所述平台还包括:输入模块;所述数据输入模块用于接收输入的业务数据;并判断输入的所述业务数据是否为新增数据;若输入的业务数据为新增业务数据,执行将所述业务数据入库操作;若所述的业务数据为已有数据,执行将原有数据删除并更新为最新输入的业务数据的操作。
进一步地,可以理解的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据资产管理平台,其特征在于,包括:
数据获取模块,用于从一个或者多个数据源中获取业务数据;
数据加工模块,包括离线子模块及实时子模块;
其中,所述离线子模块通过Kettle任务对数仓数据进行业务数据处理,从操作数据层至数据仓库层,从所述数据仓库层至数据集市层,包括:kettle任务从数据库中抽取数据,然后写入数仓,通过数据抽取与写入实现对数仓数据的数据处理;从数据源查询抽取数据,然后做维度字段和指标字段的区分,最后使用sql语句生产指标数据放到数据集市层;
其中,所述实时子模块对接Kafka队列进行实时计算从所述操作数据层落库至所述数据仓库层,所述数据仓库层通过OGG接入到Kafka,再由OGG实时同步到所述数据集市层,包括:根据oracle的数据日志,把数据日志拷贝一份并写入到kafka中,再读取kafka的数据日志,解析数据日志获得对应的数据内容,并把数据内容写到数据集市层;
数据资产管理模块,用于规范融合多种类型的所述数据源数据,得到标准化数据;
新建配置模块,用于新增维表衍生配置,所述配置包括唯一性约束,系统根据衍生出的视图通过所述唯一性约束向目标表进行数据迁移,系统会剔除掉目标表中is_delete=1的数据,随后根据所述唯一性约束进行匹配,如果匹配到相同的唯一性约束,会将is_delete的值变成1数据,如果没有匹配到数据,会进行数据的增量;
所述配置还包括定时衍生,所述定时衍生包括实时衍生和离线衍生,所述实时衍生包括将源表作为数据源的承载表,当接入的五种数据源有了数据更新后,所述定时衍生会被触发,或者所述实时衍生还包括将所述源表作为另外一个维表衍生的目标表,当产生了数据更新,所述定时衍生会被触发;非维表衍生的离线衍生无法触发实时衍生,离线衍生根据用户自定义实施周期,设定完毕后根据周期自动进行数据迁移;
数据管控模块,用于将所述标准化数据进行分发。
2.根据权利要求1所述的平台,其特征在于,所述数据获取模块包括通过实时和/或离线的方式从一个或者多个所述数据源中获取数据,所述平台还包括:
对通过实时获取到的所述业务数据进行数据校验,若校验不通过则通过离线方式继续获取所述业务数据。
3.根据权利要求2所述的平台,其特征在于,所述对通过实时获取到的所述业务数据进行数据校验,包括:
确定实时获取到的所述业务数据对应的MD5,及所述数据源对应的MD5;
比对所述MD5,基于比对结果确定实时获取到的所述业务数据是否校验通过。
4.根据权利要求1所述的平台,其特征在于,所述数据仓库包括贴源层数据权限管理、数仓层数据权限管理、数据集市层数据权限管理;
所述贴源层数据权限管理包括维表,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至ODS层;
所述数仓层数据权限管理包括维表和指标,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至DW层的维表中,所述指标用于将页面操作创建的指标目录,根据选择的分类同步至DW层的指标中;
所述数据集市层数据权限管理包括维表和指标,所述维表用于将页面操作创建的维表目录,根据选择的分类同步至DM层维表中,所述指标用于将页面操作创建的指标目录,根据选择的分类同步至DM层指标中。
5.根据权利要求1所述的平台,其特征在于,所述平台还包括:
为不同的角色赋予不同的数据权限;
基于所述数据权限对平台内的业务数据进行管控和分配。
6.根据权利要求1所述的平台,其特征在于,所述平台还包括数据质检模块;
所述数据质检模块通过图数据库进行数据的链路追踪;
并对各层级的所述业务数据通过异步任务并分发任务进行数据质量的监控和检测。
7.根据权利要求1所述的平台,其特征在于,所述平台还包括数据可视化模块;
所述数据可视化模块用于对数据进行分析;
并基于数据的类型及数据之间的关联关系进行可视化展示。
8.根据权利要求1所述的平台,其特征在于,所述平台还包括数据输入模块;
所述数据输入模块用于接收输入的业务数据;
并判断输入的所述业务数据是否为新增数据;
若输入的业务数据为新增业务数据,执行将所述业务数据入库操作;
若所述的业务数据为已有数据,执行将原有数据删除并更新为最新输入的业务数据的操作。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至8中任一项所述的数据资产管理平台的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的数据资产管理平台的步骤。
CN202310666564.8A 2023-06-06 2023-06-06 数据资产管理平台、电子设备及计算机可读存储介质 Active CN116823464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310666564.8A CN116823464B (zh) 2023-06-06 2023-06-06 数据资产管理平台、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310666564.8A CN116823464B (zh) 2023-06-06 2023-06-06 数据资产管理平台、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116823464A CN116823464A (zh) 2023-09-29
CN116823464B true CN116823464B (zh) 2024-03-26

Family

ID=88142140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310666564.8A Active CN116823464B (zh) 2023-06-06 2023-06-06 数据资产管理平台、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116823464B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251254B (zh) * 2023-11-14 2024-02-27 广州中长康达信息技术有限公司 基于容器分离的数据治理方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007084502A1 (en) * 2006-01-17 2007-07-26 Accenture Global Services Gmbh Platform for interoperable healthcare data exchange
CN110188149A (zh) * 2019-06-04 2019-08-30 宁波银行股份有限公司 一种数据仓库系统
CN110362605A (zh) * 2019-06-04 2019-10-22 苏州神州数码捷通科技有限公司 一种基于大数据的e账册数据校验方法
CN111026801A (zh) * 2019-12-25 2020-04-17 焦点科技股份有限公司 一种辅助保险类电商运营快速决策工作的方法及系统
CN112579609A (zh) * 2020-12-25 2021-03-30 国家电投集团科学技术研究院有限公司 基于数据资产目录实现数据标准化管理与共享方法及系统
CN113704178A (zh) * 2021-09-18 2021-11-26 京东方科技集团股份有限公司 大数据管理方法、系统、电子设备及存储介质
CN113793001A (zh) * 2021-09-01 2021-12-14 国家电网有限公司客户服务中心 基于国网app应用的优质客户竞争策略分析方法
CN114357041A (zh) * 2021-12-14 2022-04-15 中核武汉核电运行技术股份有限公司 工业数据资产发布方法及装置
CN114860830A (zh) * 2022-04-26 2022-08-05 上海银行股份有限公司 一种基于大数据技术建设运维数据中台的系统
CN114868092A (zh) * 2020-12-03 2022-08-05 京东方科技集团股份有限公司 数据管理平台、智能缺陷分析系统、智能缺陷分析方法、计算机程序产品和用于缺陷分析的方法
CN115423361A (zh) * 2022-09-30 2022-12-02 中国建设银行股份有限公司 风险视图的数据处理方法、装置、存储介质和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1923797A1 (en) * 2006-11-14 2008-05-21 Accenture Global Services GmbH Digital asset management data model

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007084502A1 (en) * 2006-01-17 2007-07-26 Accenture Global Services Gmbh Platform for interoperable healthcare data exchange
CN110188149A (zh) * 2019-06-04 2019-08-30 宁波银行股份有限公司 一种数据仓库系统
CN110362605A (zh) * 2019-06-04 2019-10-22 苏州神州数码捷通科技有限公司 一种基于大数据的e账册数据校验方法
CN111026801A (zh) * 2019-12-25 2020-04-17 焦点科技股份有限公司 一种辅助保险类电商运营快速决策工作的方法及系统
CN114868092A (zh) * 2020-12-03 2022-08-05 京东方科技集团股份有限公司 数据管理平台、智能缺陷分析系统、智能缺陷分析方法、计算机程序产品和用于缺陷分析的方法
CN112579609A (zh) * 2020-12-25 2021-03-30 国家电投集团科学技术研究院有限公司 基于数据资产目录实现数据标准化管理与共享方法及系统
CN113793001A (zh) * 2021-09-01 2021-12-14 国家电网有限公司客户服务中心 基于国网app应用的优质客户竞争策略分析方法
CN113704178A (zh) * 2021-09-18 2021-11-26 京东方科技集团股份有限公司 大数据管理方法、系统、电子设备及存储介质
CN114357041A (zh) * 2021-12-14 2022-04-15 中核武汉核电运行技术股份有限公司 工业数据资产发布方法及装置
CN114860830A (zh) * 2022-04-26 2022-08-05 上海银行股份有限公司 一种基于大数据技术建设运维数据中台的系统
CN115423361A (zh) * 2022-09-30 2022-12-02 中国建设银行股份有限公司 风险视图的数据处理方法、装置、存储介质和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王家林."《现代智能信息处理及应用》,.吉林出版集团股份有限公司,2020,第301页. *

Also Published As

Publication number Publication date
CN116823464A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
US8566903B2 (en) Enterprise evidence repository providing access control to collected artifacts
CN107810500A (zh) 数据质量分析
CN103716690A (zh) 多媒体直播举报的方法、终端、服务器及系统
US9015118B2 (en) Determining and presenting provenance and lineage for content in a content management system
CN116823464B (zh) 数据资产管理平台、电子设备及计算机可读存储介质
CN114416703A (zh) 数据完整性自动监控方法、装置、设备及介质
CN111897806A (zh) 大数据离线数据质量检查方法及装置
CN113326247A (zh) 云端数据的迁移方法、装置及电子设备
CN112308727A (zh) 保险理赔业务处理方法及装置
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN117909392B (zh) 一种智能化数据资产盘点的方法和系统
CN116483903A (zh) 一种面向多源异构数据源的全链路数据血缘关系识别方法
US11636162B2 (en) Multi-database document search system architecture
CN113722352A (zh) 一种报审价方案的智能数据校验方法、系统及存储介质
CN111858236B (zh) 知识图谱监控方法、装置、计算机设备及存储介质
CN113342786A (zh) 一种基于模型管控的在线数据治理管理方法和系统
CN110502529B (zh) 数据处理方法、装置、服务器及存储介质
CN116228402A (zh) 一种金融征信特征仓库技术支持系统
CN115952160A (zh) 一种数据盘点方法
CN114880387A (zh) 数据集成脚本生成方法及装置、存储介质及电子设备
CN116860227B (zh) 一种基于大数据etl脚本编排的数据开发系统及方法
US20240320648A1 (en) Creation and maintenance of hierarchical data objects
CN115858377B (zh) 基于客群管理的数据测试系统和方法
CN118365299A (zh) 审核指标的确定方法、装置及计算机可读存储介质
CN117472739A (zh) 一种基于多层次标签的版本代码质量画像构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant