CN117033522A - 一种基于数据湖的数据处理方法、装置、电子设备及介质 - Google Patents

一种基于数据湖的数据处理方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN117033522A
CN117033522A CN202310995200.4A CN202310995200A CN117033522A CN 117033522 A CN117033522 A CN 117033522A CN 202310995200 A CN202310995200 A CN 202310995200A CN 117033522 A CN117033522 A CN 117033522A
Authority
CN
China
Prior art keywords
data
lake
asset
target
asset data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310995200.4A
Other languages
English (en)
Inventor
张泽厚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202310995200.4A priority Critical patent/CN117033522A/zh
Publication of CN117033522A publication Critical patent/CN117033522A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种基于数据湖的数据处理方法、装置、电子设备及介质,方法包括以下步骤:确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;在目标企业的资产管理平台配置资产数据的第二属性信息;基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内,这样,实现资产数据自动入湖,可以有效的减少人工成本,增加历史数据切片保留周期,实现降本增效的结果。

Description

一种基于数据湖的数据处理方法、装置、电子设备及介质
技术领域
本申请涉及数据湖领域,具体而言,涉及一种基于数据湖的数据处理方法、装置、电子设备及介质。
背景技术
随着金融科技的发展,在金融交易过程中产生的数据越来越多,对数据的分析方法也越来越丰富。在大数据时代数据入湖是大数据开发领域至关重要的基础环节,数据湖数据的丰富的,完整度,直接影响大数据平台建设的结果和数据资产的使用效果。数据湖的价值主要是将所有不同种类的数据汇聚到一个存储平台,保障数据可以进行统一的分析处理等,目前的大数据架构是可扩展的,并且可与为用户提供越来越多的离线以及实时的数据分析场景,在大数据平台与数据厂库发展正盛的当下,数据湖正在向更健全且更智能化的场景等方向发展,以便快速即时的支持数据分析等应用场景。
当前大部分公司局限于自身的发展及投入限制,数据湖的建设也是相对比较传统,绝大多数都是采用人工手动的方式按需求进行存量及增量数据入湖的开发工作。该传统手动按需完成数据入湖的方法无法第一时间满足即时查询数据的要求;也无法满足业务即时使用数据的诉求;此外针对历史切片数据,由于在应用数据库是无法保留的,大数据平台手动按需入湖需求也无法保留更多更全的所有业务数据的历史切片数据;此外因为数据湖内数据丰富度不全,也会使得数据仓库建设及数据场景探索的工作缺少大量的数据支撑。
发明内容
有鉴于此,本申请的目的在于提供一种基于数据湖的数据处理方法、装置、电子设备及介质,能够实现数据自动入湖,有效的减少人工成本,增加历史数据切片保留周期,实现降本增效的结果。
本申请实施例提供的一种基于数据湖的数据处理方法,所述数据处理方法包括以下步骤:
确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;
在目标企业的资产管理平台配置资产数据的第二属性信息;
基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;
当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内。
在一些实施例中,所述的基于数据湖的数据处理方法中,目标入湖资产数据的入湖条件包括全量入湖条件和增量入湖条件;
相应的,当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内,包括:
当检测到资产管理平台的待入湖资产数据满足匹配的全量入湖条件时,将该待入湖资产数据的全部数据存储至数据湖中;
当检测到资产管理平台的待入湖资产数据满足匹配的增量入湖条件时,将该待入湖资产数据的增量数据存储至数据湖中。
在一些实施例中,所述的基于数据湖的数据处理方法中,在目标企业的资产管理平台配置资产数据的第二属性信息,包括:
确定资产数据的数据归属信息、基本元数据信息;
根据资产数据的数据归属信息、基本元数据信息,并结合目标入湖资产数据的第一属性信息,配置资产数据的第二属性信息。
在一些实施例中,所述的基于数据湖的数据处理方法中,基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据,包括:
判断资产数据的第二属性信息与目标入湖资产数据的第一属性信息是否匹配;
若是,则确定所述资产数据为待入湖资产数据。
在一些实施例中,所述的基于数据湖的数据处理方法还包括:
基于入湖规则变动信息,修改所述目标入湖资产数据,和/或目标入湖资产数据的入湖条件和第一属性信息;
基于所述修改的目标入湖资产数和/或目标入湖资产数据的入湖条件和第一属性信息,在目标企业的资产管理平台修改资产数据的第二属性信息。
在一些实施例中,所述的基于数据湖的数据处理方法中,将资产管理平台的待入湖资产数据存储至数据湖内之后,所述数据处理方法还包括:
响应待入湖资产数据存储至数据湖,生成第一通知信息。
在一些实施例中,所述的基于数据湖的数据处理方法中,在目标企业的资产管理平台修改资产数据的第二属性信息之后,所述方法还包括:
生成入湖规则变动信息的第二通知信息。
在一些实施例中,还提供一种基于数据湖的数据处理装置,所述数据处理装置包括:
第一确定模块,用于确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;
配置模块,用于在目标企业的资产管理平台配置资产数据的第二属性信息;
第二确定模块,用于基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;
存储模块,用于当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内。
在一些实施例中,还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行所述的基于数据湖的数据处理方法的步骤。
在一些实施例中,还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的基于数据湖的数据处理方法的步骤。
基于此,本申请实施例中提供一种基于数据湖的数据处理方法、装置、电子设备及介质,所述数据处理方法包括以下步骤:确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;在目标企业的资产管理平台配置资产数据的第二属性信息;基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内,这样,提前搭建好数据湖中的数据入湖模型,然后在目标企业的资产管理平台中检测资产数据是否满足数据入湖模型中的预设条件,满足时则自动入湖,可以有效的减少人工成本,增加历史数据切片保留周期,实现降本增效的结果;此外,自动入湖的方式也可以有效的根据资产平台修正的入湖信息,实现自动的影响分析穿透能力,保障数据加工,数据分析等用数场景的稳定,提升用数的质量,同时也可以更有效的避免数据问题的产生。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所述基于数据湖的数据处理方法的流程图;
图2示出了本申请实施例所述在目标企业的资产管理平台配置资产数据的第二属性信息的方法流程图;
图3示出了本申请实施例中基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据的方法流程图;
图4示出了本申请实施例所述另一种基于数据湖的数据处理方法的流程图;
图5示出了本申请实施例所述基于数据湖的数据处理装置的结构示意图;
图6示出了本申请实施例所述电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
随着金融科技的发展,在金融交易过程中产生的数据越来越多,对数据的分析方法也越来越丰富。在大数据时代数据入湖是大数据开发领域至关重要的基础环节,数据湖数据的丰富的,完整度,直接影响大数据平台建设的结果和数据资产的使用效果。数据湖的价值主要是将所有不同种类的数据汇聚到一个存储平台,保障数据可以进行统一的分析处理等,目前的大数据架构是可扩展的,并且可与为用户提供越来越多的离线以及实时的数据分析场景,在大数据平台与数据厂库发展正盛的当下,数据湖正在向更健全且更智能化的场景等方向发展,以便快速即时的支持数据分析等应用场景。
当前大部分公司局限于自身的发展及投入限制,数据湖的建设也是相对比较传统,绝大多数都是采用人工手动的方式按需求进行存量及增量数据入湖的开发工作。该传统手动按需完成数据入湖的方法无法第一时间满足即时查询数据的要求;也无法满足业务即时使用数据的诉求;此外针对历史切片数据,由于在应用数据库是无法保留的,大数据平台手动按需入湖需求也无法保留更多更全的所有业务数据的历史切片数据;此外因为数据湖内数据丰富度不全,也会使得数据仓库建设及数据场景探索的工作缺少大量的数据支撑。
基于此,本申请实施例中提供一种基于数据湖的数据处理方法、装置、电子设备及介质,所述数据处理方法包括以下步骤:确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;在目标企业的资产管理平台配置资产数据的第二属性信息;基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内,这样,提前搭建好数据湖中的数据入湖模型,然后在目标企业的资产管理平台中检测资产数据是否满足数据入湖模型中的预设条件,满足时则自动入湖,可以有效的减少人工成本,增加历史数据切片保留周期,实现降本增效的结果;此外,自动入湖的方式也可以有效的根据资产平台修正的入湖信息,实现自动的影响分析穿透能力,保障数据加工,数据分析等用数场景的稳定,提升用数的质量,同时也可以更有效的避免数据问题的产生。
请参照图1,图1示出了本申请实施例所述基于数据湖的数据处理方法的流程图;具体的,所述数据处理方法包括以下步骤S101-S104:
S101、确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;
S102、在目标企业的资产管理平台配置资产数据的第二属性信息;
S103、基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;
S104、当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内。
本申请实施例中提供一种基于数据湖的数据处理方法,确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;在目标企业的资产管理平台配置资产数据的第二属性信息;基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内,这样,提前搭建好数据湖中的数据入湖模型,然后在目标企业的资产管理平台中检测资产数据是否满足数据入湖模型中的预设条件,满足时则自动入湖,可以有效的减少人工成本,增加历史数据切片保留周期,实现降本增效的结果;此外,自动入湖的方式也可以有效的根据资产平台修正的入湖信息,实现自动的影响分析穿透能力,保障数据加工,数据分析等用数场景的稳定,提升用数的质量,同时也可以更有效的避免数据问题的产生。
在所述步骤S101中,确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型。
数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。与传统的数据架构要求整合、面向主题、固定分层等特点不同,数据湖为银行全员独立参与数据运营和应用创新提供了极大的灵活性。
传统的数据湖从数据的系统归属上看,其数据可分为面向人、财、物管理类的管理支撑数据,面向客户和产品的营销及客户服务的业务支撑数据,和面向产品和网络功能及运营服务的运营支撑数据,这些多种多样的数据有些需要入湖保存,有些则不需要。
基于此,搭建数据入湖模型,在应用数据建模阶段,完成数据入湖基本信息的维护,确定资产表数据是否需要入湖,例如业务资产及需要归档的资产为需要入湖;针对需要入湖的目标入湖资产数据,同步维护入湖的入湖条件和第一属性信息。
本申请实施例中,目标入湖资产数据的入湖条件包括全量入湖条件和增量入湖条件;也可以简称为增全量入湖条件,入湖的增全量条件。第一属性信息包括目标入湖资产数据的类型、名称、入湖时间标识等等。
在所述步骤S102中,在目标企业的资产管理平台配置资产数据的第二属性信息。
企业的资产管理平台用于对全公司的数据资产进行统一管理;在管理数据时,需要配置数据的归属信息、数据的基本元数据信息、同时包含数据入湖模型维护的入湖基本信息(目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息)。
基于此,请参照图2,图2示出了本申请实施例所述在目标企业的资产管理平台配置资产数据的第二属性信息的方法流程图;具体的,所述在目标企业的资产管理平台配置资产数据的第二属性信息,包括以下步骤S201-S202:
S201、确定资产数据的数据归属信息、基本元数据信息;
S202、根据资产数据的数据归属信息、基本元数据信息,并结合目标入湖资产数据的第一属性信息,配置资产数据的第二属性信息。
在所述步骤S103中,基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据。
结合资产平台中资产的资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,完成自动同步相关调度配置信息,从而达成自动开发入湖调度任务的功能。
本申请实施例中,可以在调度平台完成确定出待入湖资产数据的分析过程。
示例性的,根据资产数据的第二属性信息的资产数据名称以及目标入湖资产数据的第一属性信息中的资产数据名称,筛选出资产数据名称相同的资产数据作为待入湖资产数据。
请参数图3,图3示出了本申请实施例中基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据,包括以下步骤S301-S302:
S301、判断资产数据的第二属性信息与目标入湖资产数据的第一属性信息是否匹配;
S302、若是,则确定所述资产数据为待入湖资产数据。
在所述步骤S104中,当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内。
数据入湖包括全量数据入湖和增量数据入湖两种情况。全量数据入湖即在构建数据湖时,将目标入湖资产数据的全部数据存储至数据湖中。
增量数据入湖即数据入湖后,随着交易进行,资产管理平台中的资产数据、历史切片数据逐渐增多,需要及时存储至数据湖,以便实现满足即时查询数据的要求和保留更多更全的所有业务数据的历史切片数据。
基于此,本申请实施例中,当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内,包括:
当检测到资产管理平台的待入湖资产数据满足匹配的全量入湖条件时,将该待入湖资产数据的全部数据存储至数据湖中;
当检测到资产管理平台的待入湖资产数据满足匹配的增量入湖条件时,将该待入湖资产数据的增量数据存储至数据湖中。
示例性的,所述增量入湖条件可以为:达到预设时间段(例如1分钟同步一次),到达预设增量数据阈值等等。
本申请实施例中,所述的基于数据湖的数据处理方法,将资产管理平台的待入湖资产数据存储至数据湖内之后,所述数据处理方法还包括:
响应待入湖资产数据存储至数据湖,生成第一通知信息。
也就是说,完成公司的资产数据自动入湖之后,生成第一通知信息以通知用户。
在实际应用过程中,资产管理平台中的资产数据类型是不断变化的,例如A种交易已停止,不再需要将A种交易的资产数据入湖;或者新增了B种交易,则需要将B种交易的资产信息入湖;或者,之前C种交易的资产数据未入湖,后续为了满足新型数据分析的需求,需要补录C种交易的资产数据。
基于此,本申请实施例中,请参照图4,所述方法还包括以下步骤S401-S402:
S401、基于入湖规则变动信息,修改所述目标入湖资产数据,和/或目标入湖资产数据的入湖条件和第一属性信息;
S402、基于所述修改的目标入湖资产数和/或目标入湖资产数据的入湖条件和第一属性信息,在目标企业的资产管理平台修改资产数据的第二属性信息。
在一些实施例中,所述的基于数据湖的数据处理方法中,在目标企业的资产管理平台修改资产数据的第二属性信息之后,所述方法还包括:
生成入湖规则变动信息的第二通知信息。
在需要更新入湖信息时,可以基于入湖规则变动信息修改所述目标入湖资产数据,和/或目标入湖资产数据的入湖条件和第一属性信息;同时对应修改资产数据的第二属性信息,进行目标入湖资产数据的补录维护等。同时针对资产平台重新补录的入湖信息,需要进行影响分析,并将所述影响信息自动更新到调度平台,以及通知用户。
当入湖规则变动后,优选的,生成入湖规则变动信息的第二通知信息,以通知用户。
基于同一发明构思,本申请实施例中还提供了与基于数据湖的数据处理方法对应的基于数据湖的数据处理装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述基于数据湖的数据处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参照图5,图5示出了本申请实施例所述基于数据湖的数据处理装置的结构示意图;如图5所示,所述数据处理装置包括:
第一确定模块501,用于确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;
配置模块502,用于在目标企业的资产管理平台配置资产数据的第二属性信息;
第二确定模块503,用于基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;
存储模块504,用于当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内。
本申请实施例中提供一种基于数据湖的数据处理装置,确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;在目标企业的资产管理平台配置资产数据的第二属性信息;基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内,这样,提前搭建好数据湖中的数据入湖模型,然后在目标企业的资产管理平台中检测资产数据是否满足数据入湖模型中的预设条件,满足时则自动入湖,可以有效的减少人工成本,增加历史数据切片保留周期,实现降本增效的结果;此外,自动入湖的方式也可以有效的根据资产平台修正的入湖信息,实现自动的影响分析穿透能力,保障数据加工,数据分析等用数场景的稳定,提升用数的质量,同时也可以更有效的避免数据问题的产生。
在一些实施例中,所述的基于数据湖的数据处理装置中,所述目标入湖资产数据的入湖条件包括全量入湖条件和增量入湖条件;
相应的,所述存储模块,在当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内时,具体用于:
当检测到资产管理平台的待入湖资产数据满足匹配的全量入湖条件时,将该待入湖资产数据的全部数据存储至数据湖中;
当检测到资产管理平台的待入湖资产数据满足匹配的增量入湖条件时,将该待入湖资产数据的增量数据存储至数据湖中。
在一些实施例中,所述的基于数据湖的数据处理装置中,所述配置模块,在目标企业的资产管理平台配置资产数据的第二属性信息时,具体用于:
确定资产数据的数据归属信息、基本元数据信息;
根据资产数据的数据归属信息、基本元数据信息,并结合目标入湖资产数据的第一属性信息,配置资产数据的第二属性信息。
在一些实施例中,所述的基于数据湖的数据处理装置中,所述第二确定模块,在基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据时,具体用于:
判断资产数据的第二属性信息与目标入湖资产数据的第一属性信息是否匹配;
若是,则确定所述资产数据为待入湖资产数据。
在一些实施例中,所述的基于数据湖的数据处理装置中还包括:
修改模块,用于基于入湖规则变动信息,修改所述目标入湖资产数据,和/或目标入湖资产数据的入湖条件和第一属性信息;
基于所述修改的目标入湖资产数和/或目标入湖资产数据的入湖条件和第一属性信息,在目标企业的资产管理平台修改资产数据的第二属性信息。
在一些实施例中,所述的基于数据湖的数据处理装置中还包括:
第一通知模块,用于将资产管理平台的待入湖资产数据存储至数据湖内之后,响应待入湖资产数据存储至数据湖,生成第一通知信息。
在一些实施例中,所述的基于数据湖的数据处理装置中还包括:
第二通知模块,用于在目标企业的资产管理平台修改资产数据的第二属性信息之后,生成入湖规则变动信息的第二通知信息。
基于同一发明构思,本申请实施例中还提供了与基于数据湖的数据处理方法对应的电子设备,由于本申请实施例中的电子设备解决问题的原理与本申请实施例上述基于数据湖的数据处理方法相似,因此电子设备的实施可以参见方法的实施,重复之处不再赘述。
请参照图6,图6示出了本申请实施例所述电子设备的结构示意图,所述电子设备600包括:处理器602、存储器601和总线,所述存储器601存储有所述处理器602可执行的机器可读指令,当电子设备600运行时,所述处理器602与所述存储器601之间通过总线通信,所述机器可读指令被所述处理器602执行时执行所述的基于数据湖的数据处理方法的步骤。
基于同一发明构思,本申请实施例中还提供了与基于数据湖的数据处理方法对应的计算机可读存储介质,由于本申请实施例中的计算机可读存储介质解决问题的原理与本申请实施例上述基于数据湖的数据处理方法相似,因此计算机可读存储介质的实施可以参见方法的实施,重复之处不再赘述。
一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的基于数据湖的数据处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,平台服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于数据湖的数据处理方法,其特征在于,所述数据处理方法包括以下步骤:
确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;
在目标企业的资产管理平台配置资产数据的第二属性信息;
基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;
当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内。
2.根据权利要求1所述的基于数据湖的数据处理方法,其特征在于,目标入湖资产数据的入湖条件包括全量入湖条件和增量入湖条件;
相应的,当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内,包括:
当检测到资产管理平台的待入湖资产数据满足匹配的全量入湖条件时,将该待入湖资产数据的全部数据存储至数据湖中;
当检测到资产管理平台的待入湖资产数据满足匹配的增量入湖条件时,将该待入湖资产数据的增量数据存储至数据湖中。
3.根据权利要求1所述的基于数据湖的数据处理方法,其特征在于,在目标企业的资产管理平台配置资产数据的第二属性信息,包括:
确定资产数据的数据归属信息、基本元数据信息;
根据资产数据的数据归属信息、基本元数据信息,并结合目标入湖资产数据的第一属性信息,配置资产数据的第二属性信息。
4.根据权利要求3所述的基于数据湖的数据处理方法,其特征在于,基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据,包括:
判断资产数据的第二属性信息与目标入湖资产数据的第一属性信息是否匹配;
若是,则确定所述资产数据为待入湖资产数据。
5.根据权利要求1所述的基于数据湖的数据处理方法,其特征在于,所述方法还包括:
基于入湖规则变动信息,修改所述目标入湖资产数据,和/或目标入湖资产数据的入湖条件和第一属性信息;
基于所述修改的目标入湖资产数和/或目标入湖资产数据的入湖条件和第一属性信息,在目标企业的资产管理平台修改资产数据的第二属性信息。
6.根据权利要求1所述的基于数据湖的数据处理方法,其特征在于,将资产管理平台的待入湖资产数据存储至数据湖内之后,所述数据处理方法还包括:
响应待入湖资产数据存储至数据湖,生成第一通知信息。
7.根据权利要求5所述的基于数据湖的数据处理方法,其特征在于,在目标企业的资产管理平台修改资产数据的第二属性信息之后,所述方法还包括:
生成入湖规则变动信息的第二通知信息。
8.一种基于数据湖的数据处理装置,其特征在于,所述数据处理装置包括:
确定模块,用于确定目标企业需要入湖的目标入湖资产数据,以及每种目标入湖资产数据的入湖条件和第一属性信息,搭建数据入湖模型;
配置模块,用于在目标企业的资产管理平台配置资产数据的第二属性信息;
确定模块,用于基于资产数据的第二属性信息以及目标入湖资产数据的第一属性信息,从资产管理平台的资产数据中确定出待入湖资产数据;
存储模块,用于当检测到资产管理平台的待入湖资产数据满足匹配的入湖条件时,将资产管理平台的待入湖资产数据存储至数据湖内。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任意一项所述的基于数据湖的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任意一项所述的基于数据湖的数据处理方法的步骤。
CN202310995200.4A 2023-08-08 2023-08-08 一种基于数据湖的数据处理方法、装置、电子设备及介质 Pending CN117033522A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310995200.4A CN117033522A (zh) 2023-08-08 2023-08-08 一种基于数据湖的数据处理方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310995200.4A CN117033522A (zh) 2023-08-08 2023-08-08 一种基于数据湖的数据处理方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN117033522A true CN117033522A (zh) 2023-11-10

Family

ID=88622055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310995200.4A Pending CN117033522A (zh) 2023-08-08 2023-08-08 一种基于数据湖的数据处理方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN117033522A (zh)

Similar Documents

Publication Publication Date Title
US8555248B2 (en) Business object change management using release status codes
CN106845781B (zh) 用于业务测试的场景及流程的生成系统和方法
CN105787058B (zh) 一种用户标签系统及基于用户标签系统的数据推送系统
CN109118094B (zh) 一种基于信用体系的企业服务应用系统
CN103631967B (zh) 一种带自增量标识字段的数据表的处理方法及装置
CN104036034A (zh) 用于数据仓库的日志分析方法和装置
CN109840159A (zh) 异常处理方案管理方法、装置、计算机装置及存储介质
CN111625535A (zh) 一种实现业务数据关联的方法、装置和存储介质
CN113688396A (zh) 一种汽车信息安全风险评估自动化系统
CN115130959B (zh) 生成备件bom的方法、系统、终端及存储介质
CN117291517A (zh) 审批流程的构建方法及装置
CN117033522A (zh) 一种基于数据湖的数据处理方法、装置、电子设备及介质
CN109241363A (zh) 名单清洗方法、系统、计算机设备和存储介质
CN114090449A (zh) 数据系统的故障数据分析方法及装置
CN114691768A (zh) 一种数据处理方法、核算系统及相关设备
CN108764607A (zh) 用户月数据复检方法、装置、设备及存储介质
CN105279122A (zh) 一种基于xml的数据交换系统
CN117764455B (zh) 一种数据的通用指标管理方法及系统
CN117763059B (zh) 一种数据仓库和数据集市的模型构建方法及系统
CN110414186B (zh) 数据资产切分校验方法以及装置
CN116484054B (zh) 数据处理方法及相关装置
JP5252012B2 (ja) データ集計装置およびデータ集計プログラム
JP5252011B2 (ja) データ集計装置およびデータ集計プログラム
CN114331201A (zh) 一种数据加工方法及装置、存储介质及电子设备
JP5252010B2 (ja) データ集計装置およびデータ集計プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination