CN114547173A - 一种数据仓库构建方法、装置、设备及计算机存储介质 - Google Patents

一种数据仓库构建方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN114547173A
CN114547173A CN202210168707.8A CN202210168707A CN114547173A CN 114547173 A CN114547173 A CN 114547173A CN 202210168707 A CN202210168707 A CN 202210168707A CN 114547173 A CN114547173 A CN 114547173A
Authority
CN
China
Prior art keywords
data
target source
target
report
source data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210168707.8A
Other languages
English (en)
Inventor
盛学军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Smart Healthcare Technology Co ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202210168707.8A priority Critical patent/CN114547173A/zh
Publication of CN114547173A publication Critical patent/CN114547173A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据仓库构建方法、装置、设备及计算机存储介质,其中,该方法包括:从业务数据库中抽取第一目标源数据;在第一目标源数据中添加第一标签,得到第二目标源数据;读取目标业务数据库中的第一数据指示信息和所述数据仓库构建系统中的第二数据指示信息;在所述第一数据指示信息与第二数据指示信息不一致的情况下,基于第二数据指示信息对第二目标源数据中的字符数据进行修改,得到第三目标源数据;第三目标源数据中字符数据的指示对象与第二数据指示信息一致;对第三目标源数据进行元数据管理,得到第四目标源数据;基于预设数据模型和所述第四目标源数据,构建数据报表,并基于所述数据报表构建数据仓库。

Description

一种数据仓库构建方法、装置、设备及计算机存储介质
技术领域
本申请涉及数据管理领域,尤其涉及一种数据仓库构建方法、装置、设备及计算机存储介质。
背景技术
在构建数据仓库的过程中,构建数据仓库的数据模型是基础,对数据进行ETL的处理过程是核心。一般传统的对数据仓库的构建过程是首先通过数据建模工具构建多维数据模型,在建设模型的过程中需要人工创建大量的维度表和事实表,从而耗费大量的人力,并且很难使用标准规范约束,导致产出的数据模型不规范、不统一,给后续的数据处理和数据应用带来不必要的工作量开销和隐患。
在建设数据仓库模型的过程中,并未对数据进行元数据管理、主数据管理以及数据溯源等治理,使得后期开发者必须要对数据仓库中的数据进行管理,才能使得用户可以高效地使用和共享数据仓库中的数据。
因此,如何将数据仓库建设过程与数据管理结合起来,以节约数据仓库和数据管理的运维成本,是技术人员日益关注的问题。
发明内容
本申请实施例提供了一种数据仓库构建方法、装置、设备及计算机存储介质,解决了由于数据仓库建设和数据管理分开进行,而使得后期开发者对数据仓库进行数据管理而耗费大量人力资源和时间资源的问题。
第一方面,本申请实施例提供了一种数据仓库构建方法,该方法包括:从业务数据库中抽取第一目标源数据;在第一目标源数据中添加第一标签,得到第二目标源数据;第一标签为第一目标源数据对应业务数据库的标识信息;读取目标业务数据库中的第一数据指示信息和所述数据仓库构建系统中的第二数据指示信息;目标业务数据库为所述第二目标源数据对应的业务数据库,第一数据指示信息包括第二目标源数据各字符数据与字符数据指示对象的映射关系,第二数据指示信息所述第二目标源数据各字符数据与字符数据指示对象的映射关系;在第一数据指示信息与所述第二数据指示信息不一致的情况下,基于第二数据指示信息对第二目标源数据中的字符数据进行修改,得到第三目标源数据;第三目标源数据中字符数据的指示对象与第二数据指示信息一致;对第三目标源数据进行元数据管理,得到第四目标源数据;基于预设数据模型和第四目标源数据,构建数据报表,并基于数据报表构建数据仓库。
在上述实施例中,通过将数据仓库的建设和数据管理整合在一起,实现数据仓库边建设边管理的目标,数据脚本或代码尽量自动生成,大大解放人力,减少了数据仓库的建设成本和运营成本,使得开发者可以将重点转移到设计优秀的数据仓库和数据治理架构上来。
结合第一方面,在一种可能实现的方式中,基于第二数据指示信息对所述第二目标源数据中的字符数据进行修改,得到第三目标源数据,包括:读取第一字段;第一字段用于表征第一目标源数据中第一存储区字符数据的数据类型;基于第一字段在所述第一数据指示信息中读取第一存储区中各字符数据的指示对象;基于指示对象,在第二指示信息中读取指示对象对应的目标字符数据;若指示对象的目标字符数据与指示对象在所述第一存储区中对应的字符数据不一致,将该指示对象在第一存储区中对应的字符数据修改为目标字符数据,得到第三目标源数据。这样,通过统一第二目标源数据内字符数据的含义,可以提高数据仓库的工作效率。
结合第一方面,在一种可能实现的方式中,对第三目标源数据进行元数据管理,具体包括:读取第一字段,第一字段用于表征第一目标源数据的第一存储区中字符数据的数据类型;基于第一字段在元数据列表中获取目标属性标签;元数据列表包括第三目标源数据中各存储区中的字符数据的属性标签;在第一存储区中的第二字段内添加该目标属性标签。
结合第一方面,在一种可能实现的方式中,基于预设数据模型和第四目标源数据,构建数据报表,并基于该数据报表构建数据仓库之后,还包括:对数据报表进行权限管理。
结合第一方面,在一种可能实现的方式中,对数据报表进行权限管理,包括:接收查询系统发送的用户信息,该用户信息包括用户名和目标数据报表的标识;基于该用户信息查询权限列表,该权限列表包括用户信息与数据报表之间的权限映射关系;在查询到用户信息对应的用户有权限访问目标数据报表的情况下,调取目标数据报表;将目标数据报表发送给查询系统。
结合第一方面,在一种可能实现的方式中,基于预设数据模型和第四目标源数据,构建数据报表,并基于该数据报表构建数据仓库之后:定时读取数据报表调取日志;该数据报表调取日志包括已调取数据报表的标识信息、调取数据报表对应用户的用户名;在日志中存在非目标用户名的情况下,向查询系统发送预警信息;非目标用户名为不在用户列表中存在的用户名,用户列表为存储在数据仓库构建系统中的列表。
结合第一方面,在一种可能实现的方式中,基于预设数据模型和第四目标源数据,构建数据报表,并基于该数据报表构建数据仓库之后,还包括:对该数据报表进行数据生命周期的管理;其中,对数据报表进行数据生命周期的管理,包括:对第四目标源数据打上第一时间戳,第一时间戳为所述数据报表的生成时间;定时对第四目标源数据打上第二时间戳;计算第一时间戳与第二时间戳的差值;在差值大于或等于第一阈值的情况下,删除第四目标源数据。
第二方面,本申请实施例提供了一种数据仓库构建装置,该装置包括:数据获取模块、第一标签添加模块、数据规则管理模块、元数据管理模块、数据模型管理模块,其中:
数据获取模块,用于从业务数据库中抽取第一目标源数据;
数据信息读取模块,用于读取目标业务数据库中的第一数据指示信息和数据仓库构建系统中的第二数据指示信息;
数据规则管理模块,用于在所述第一数据指示信息与所述第二数据指示信息不一致的情况下,基于所述第二数据指示信息对所述第二目标源数据中的字符数据进行修改,得到第三目标源数据;所述第三目标源数据中字符数据的指示对象与所述第二数据指示信息一致。
元数据管理模块,用于对所述第三目标源数据进行元数据管理,得到第四目标源数据;
数据模型管理模块,用于基于预设数据模型和所述第四目标源数据,构建数据报表,并基于所述数据报表构建数据仓库。
结合第二方面,在一种可能实现的方式中,该数据规则管理模块包括:
字段读取单元,用于读取第一字段;
第一读取单元,用于基于所述第一字段在所述第一数据指示信息中读取所述第一存储区中各字符数据的指示对象;
第二读取单元,用于基于所述指示对象,在所述第二指示信息中读取所述指示对象对应的目标字符数据;修改单元,用于在所述指示对象的目标字符数据与所述指示对象在所述第一存储区中对应的字符数据不一致的情况下,将所述指示对象在第一存储区中对应的字符数据修改为所述目标字符数据,得到第三目标源数据。
结合第二方面,在一种可能实现的方式中,该元数据管理模块包括:
第一字段读取单元,用于读取第一字段;
标签获取单元,用于基于第一字段在元数据列表中获取目标属性标签;
标签添加单元,用于在第一存储区中的第二字段内添加该目标属性标签。
结合第二方面,在一种可能实现的方式中,该装置还包括数据权限模块,该数据权限模块用于对数据报表进行权限管理。
结合第二方面,在一种可能实现的方式中,数据权限模块包括:
用户信息接收单元,用于接收查询系统发送的用户信息;
权限查询单元,用于基于用户信息查询权限列表;
调取单元,用于在查询到用户信息对应的用户有权限访问目标数据报表的情况下,调取目标数据报表;
数据报表发送单元,用于将目标数据报表发送给查询系统。
结合第二方面,在一种可能实现的方式中,该装置还包括数据监管模块,该数据监管模块用于对数据报表进行数据监管;其中,该数据监管模块包括:
日志读取单元,用于定时读取数据报表调取日志;
预警信息发送单元,用于在该日志中存在非目标用户名的情况下,数据监管模块向查询系统发送预警信息。
结合第二方面,在一种可能实现的方式中,该装置还包括数据生命周期管理模块,该数据生命周期管理模块用于对数据报表进行数据生命周期管理,该数据生命周期管理模块包括:
第一时间戳添加单元,用于对第四目标源数据打上第一时间戳;
第二时间戳添加单元,用于定时对该第四目标源数据打上第二时间戳;
差值计算单元,用于计算第一时间戳与第二时间戳的差值;
删除单元,用于在差值大于或等于第一阈值的情况下,删除该第四目标源数据。
第三方面,本申请实施例提供了一种数据仓库构建设备,该设备包括:一个或多个处理器和存储器;该存储器与该一个或多个处理器耦合,该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,该一个或多个处理器调用该计算机指令以使得该电子设备执行如下步骤:从业务数据库中抽取第一目标源数据;在所述第一目标源数据中添加第一标签,得到第二目标源数据;所述第一标签为所述第一目标源数据对应业务数据库的标识信息;读取目标业务数据库中的第一数据指示信息和所述数据仓库构建系统中的第二数据指示信息;所述目标业务数据库为所述第二目标源数据对应的业务数据库,所述第一数据指示信息包括所述第二目标源数据各字符数据与所述字符数据指示对象的映射关系,所述第二数据指示信息所述第二目标源数据各字符数据与所述字符数据指示对象的映射关系;在所述第一数据指示信息与所述第二数据指示信息不一致的情况下,基于所述第二数据指示信息对所述第二目标源数据中的字符数据进行修改,得到第三目标源数据;所述第三目标源数据中字符数据的指示对象与所述第二数据指示信息一致;对所述第三目标源数据进行元数据管理,得到第四目标源数据;基于预设数据模型和所述第四目标源数据,构建数据报表,并基于所述数据报表构建数据仓库。
结合第三方面,在一种可能实现的方式中,该一个或多个处理器调用该计算机指令以使得该电子设备执行:基于所述预设数据编写规则修改所述第二目标源数据中的字符数据,得到第三目标源数据,包括:读取第一字段,所述第一字段用于表征所述第一目标源数据的第一存储区中字符数据的数据类型;基于所述第一字段在所述第一数据指示信息中读取所述第一存储区中各字符数据的指示对象;基于所述指示对象,在所述第二指示信息中读取所述指示对象对应的目标字符数据;若所述指示对象的目标字符数据与所述指示对象在所述第一存储区中对应的字符数据不一致,将所述指示对象在第一存储区中对应的字符数据修改为所述目标字符数据,得到第三目标源数据。
结合第三方面,在一种可能实现的方式中,该一个或多个处理器调用该计算机指令以使得该电子设备执行:读取第一字段,所述第一字段用于表征所述第一目标源数据的第一存储区中字符数据的数据类型;基于所述第一字段在元数据列表中获取目标属性标签;所述元数据列表包括所述第三目标源数据中各存储区中的字符数据的属性标签;在所述第一存储区中的第二字段内添加所述目标属性标签。
结合第三方面,在一种可能实现的方式中,该一个或多个处理器调用该计算机指令以使得该电子设备执行:对所述数据报表进行权限管理。
结合第三方面,在一种可能实现的方式中,该一个或多个处理器调用该计算机指令以使得该电子设备执行:对所述数据报表进行权限管理,包括:接收查询系统发送的用户信息,所述用户信息包括用户名和目标数据报表的标识;基于所述用户信息查询权限列表,所述权限列表包括所述用户信息与数据报表之间的权限映射关系;在查询到所述用户信息对应的用户有权限访问所述目标数据报表的情况下,调取所述目标数据报表;将所述目标数据报表发送给所述查询系统。
结合第三方面,在一种可能实现的方式中,该一个或多个处理器调用该计算机指令以使得该电子设备执行:定时读取数据报表调取日志;所述数据报表调取日志包括已调取数据报表的标识信息、调取所述数据报表对应用户的用户名;在所述日志中存在非目标用户名的情况下,向查询系统发送预警信息;所述非目标用户名为不在用户列表中存在的用户名,所述用户列表为存储在所述数据仓库构建系统中的列表。
结合第三方面,在一种可能实现的方式中,该一个或多个处理器调用该计算机指令以使得该电子设备执行:对所述数据报表进行数据生命周期管理;其中,所述对所述数据报表进行数据生命周期的管理,包括:对所述第四目标源数据打上第一时间戳,所述第一时间戳为所述数据报表的生成时间;定时对所述第四目标源数据打上第二时间戳;计算所述第一时间戳与所述第二时间戳的差值;在所述差值大于或等于第一阈值的情况下,删除所述第四目标源数据。
第四方面,本申请实施例提供了一种计算机可读存储介质,包括指令,当该指令在数据仓库构建设备上运行时,使得该设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。
附图说明
图1为本申请实施例提供的一种数据仓库构建系统中各功能模块的交互流程图;
图2为本申请实施例提供一种元数据示意图;
图3为本申请提供的一种数据仓库构建装置的结构示意图;
图4为本申请实施例提供的一种数据仓库构建设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例,也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、“第三”等是区别于不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元,或者可选地,还包括没有列出的步骤或单元,或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。
附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在本说明书中使用的术语“部件”、“模块”、“系统”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如,单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外,这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一单元交互的第二单元数据。例如,通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合,该集合是单个数据存储,是企业为了获取分析性报告和决策支持而创建的,通过将分布在各处的数据整合到统一的数据仓库中,以便企业各业务部门可以基于数据仓库中存储的数据进行处理分析,从而指导业务流程改进和监视时间、成本、质量和控制。
数据管理包括:数据资源梳理、数据采集清洗、元数据管理、血缘追踪等方面,由于在数据仓库中的数据往往冗余和繁杂,且数量巨大,这就意味着对数据仓库中的数据进行数据管理是一个庞大的工程,需要耗费巨大的时间周期和庞大的人力成本。
当前在建设数据仓库的过程中只是将多个数据服务库中的源数据通过抽取-转换-加载,汇集到数据仓库中,并未涉及对数据仓库中的数据进行管理,即:当前数据仓库的建设和数据管理是分开进行的,这就使得用户不能高效地利用数据仓库中的数据进行分析。因此,为了高效利用数据仓库进行数据分析,在建设数据仓库后,往往需要对数据仓库进行数据管理。由于数据仓库中各数据的数据类型不一致、命名规则等属性不同,这就使得数据仓库建立后,需要对该数据仓库进行数据管理,从而耗费大量的时间资源和人力资源。
为了解决因为数据仓库构建和数据管理分开进行,在数据仓库建成之后,对数据仓库中的数据进行管理而耗费大量人力资源和时间资源的问题,本申请实施例提供了一种数据仓库构建方法,该方法应用于数据仓库构建系统,该方法包括:在数据仓库建设的初始阶段进行业务和数据资源梳理,得到分门别类的数据资源清单。然后,通过可视化的ETL工具(例如,DataX、Pentaho Data Integration)将数据从业务数据库经过抽取(extract)、转换(transform)加载(load),并进行集中存储。然后,基于一定的原则设计数据库表结构,再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据、存储到数据仓库中,并对基础库和主题库中的数据项属性的管理。同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并将数据与其数据服务库联系起来,建立血缘追踪,以便数据被业务场景使用时,发现数据错误,数据治理团队可以快速定位数据来源,修复数据错误。最后,建立相关的主题模型,并形成数据报表,使得企业内部或企业之间可以实现数据共享。
下面,对该数据仓库构建系统中各功能模块的交互流程进行说明。该数据仓库构建系统主要是通过配置引擎来进行工作的,该配置引擎包括:数据获取模块、数据规则管理模块、元数据管理模块、数据模型管理模块、数据权限模块、数据监管模块以及数据生命周期管理模块。其中,数据获取模块用于从业务数据库中抽取、导入数据;数据规则管理模块用于对从不同业务数据库中抽取的源数据进行数据规则的统一;元数据管理模块用于对数据获取模块抽取的源数据进行元数据管理;数据模型管理模块用于建立数据模型,并根据数据模型抽取相关数据,形成不同数据报表;数据权限模块用于生成的数据报表进行权限管理,对不符合权限的用户,数据权限模块不提供相关数据报表;数据监管模块用于监管数据仓库中的数据报表,在存在网络攻击数据仓库的情况下,及时向管理员发出预警,避免数据泄露;数据生命周期管理模块用于对数据仓库中的业务数据报表进行生命周期管理,对于超出生命周期的数据报表进行清除,避免数据仓库存在数据冗余的问题。
下面,结合图1,该数据仓库构建系统中各功能模块的交互流程进行说明,具体流程如下:
步骤S101:数据获取模块从多个业务数据库中抽取第一目标源数据。
具体地,业务数据库为业务部门根据其业务需求设计的数据库,业务数据库为该业务部门所有业务数据的集合。这些业务数据通常是以表的形式进行存储的,例如,人事部门通常由员工的地址数据表、员工信息数据表、员工考勤数据表等数据表,地址数据表通常包括员工的姓名、员工的性别以及员工的地址信息等数据。员工信息数据表通常包括员工姓名、员工年龄、员工性别、员工工作经历等信息。员工考勤数据表通常包括员工姓名、员工工号、员工打卡次数以及员工打卡时间等信息。
数据获取模块在抽取业务数据库之前,会对业务数据库中的数据表进行优先级排序,将优先级高数据表标记为待抽取的数据表,该待抽取的数据表为第一目标源数据。
示例性的,数据获取模块可以基于业务数据库内数据表与该业务部门的业务匹配度等因素计算业务数据库内各数据表的优先级。例如,人事部门对员工的KPI考核业务,对于员工的KPI考核主要是通过员工的考勤和工作质量这两方面来进行评定的,员工的考勤数据主要记录在员工考勤数据表中,员工的工作质量等相关数据记录在工作量数据表中,工作量数据表主要包括员工姓名、工号、当月工作完成量等数据。对于KPI考核业务,由于员工考勤数据表和工作量数据表与该业务高度相关,因此,这两个数据表与KPI考核业务的业务匹配度非常高。数据获取模块基于业务匹配度等因素判断出员工考勤数据表和工作量数据为高优先级的数据表,并将其标记为第一目标源数据,并抽取第一目标源数据。
这样,数据获取模块可以对业务数据库中的有用数据进行筛选,而不必提取业务数据库中的所有数据,从而使得在数据仓库的建设中节省了大量的资源,也避免了数据仓库出现大量冗余数据,进而造成后期数据仓库运维成本高的问题。
步骤S102:数据获取模块在第一目标源数据中添加第一标签,得到第二目标源数据。
具体地,数据获取模块从业务数据库提取第一目标源数据的过程中,可以在第一目标源数据的字段中添加第一标签,第一标签为第一目标源数据对应业务数据库的唯一标识信息。通过在第一目标源数据中添加第一标签,可以实现将第一目标源数据与其对应业务数据库进行关联。例如,从数据库1中抽取的第一目标源数据为数据表1、从数据库2中抽取的第一目标源数据为数据表2、从数据库3中抽取的第一目标源数据为数据表3、从数据库4中抽取的第一目标源数据为数据表4。数据库1的标识信息为a、数据库2的标识信息为b,数据库3的标识信息为c,数据库4的标识信息为d,数据获取模块在数据库1中抽取数据1时,会将字段a插入到数据表1中,将字段b插入到数据表2中,将字段c插入到数据表3中,将字段d插入到数据表4中,分别得到4条第二目标源数据。这样,可以通过a、b、c、d等字段信息判断第二目标源数据对应哪个业务数据库。
通过这种向第一目标源数据中添加第一标签的方式,可以使得每条第二目标源数据都有其对应的业务数据库的信息,将第二目标源数据与其对应的业务数据库关联起来,以便对第二目标源数据进行溯源,可以解决数据被业务场景使用时,若数据发生错误,数据管理团队不能快速定位数据来源,及时修复数据错误的问题。例如,在数据仓库使用过程中,如果发现数据错误,往往需要溯源,如果在数据中包括第一标签,可以根据该数据中的第一标签,对该数据进行溯源,从而快速定位该数据的业务数据库,以便于数据管理团队可以分析该业务数据库中的相关数据,使得数据管理团队能够快速修复错误数据。
步骤S103:数据获取模块将第二目标源数据导入数据缓冲层(STAGE层)。
步骤S104:数据处理模块向数据规则管理模块发送第一通知消息。
具体地,数据获取模块将第二目标源数据导入数据缓冲层后,数据获取模块可以向数据规则管理模块发送第一通知消息,该第一通知消息用于指示数据规则管理模块对第二目标源数据进行第一处理。
步骤S105:数据规则管理模块对第二目标源数据进行第一处理,得到第三目标源数据。
具体地,第一处理为对统一第二目标源数据内字符数据的含义。由于导入数据缓冲层中的第二目标源数据是从多个业务数据库中抽取的,不同业务数据库中的数据,对于字符数据的编写规则可能有所不同,从而造成一种类型的数据有多种表达方式。例如,部门1的数据库中,技术人员用字符“0”和“1”来表示学历中的本科和研究生,在部门2的数据库中,技术人员用字符“A”、“B”来表示学历中的本科和研究生,在部门3的数据库中,技术人员用字符“00”、“01”来表示学历中的本科和研究生。因此,在数据仓库中对于“学历”类型的字符数据可能存在三种及其以上的表示方式,当数据仓库中的数据越来越多时,若调用的学历类型字符数据与系统预设的编写规则不一致时,就要分析该学历类型字段对应数据表的业务数据库,查询该业务数据库中对学历字符数据的编写规则,这无疑加大了系统的工作量,降低了系统的工作效率。因此,为了提高数据仓库的工作效率,需要统一第二目标源数据内字符数据的含义。
数据规则管理模块对第二目标源数据进行第一处理的具体步骤为:
1、读取目标业务数据库中的第一数据指示信息和所述数据仓库构建系统中的第二数据指示信息;目标业务数据库为所述第二目标源数据对应的业务数据库,第一数据指示信息包括第二目标源数据各字符数据与字符数据指示对象的映射关系,第二数据指示信息所述第二目标源数据各字符数据与字符数据指示对象的映射关系。
2、、读取第一字段;该第一字段用于表征所述第一目标源数据中第一存储区字符数据的数据类型;例如,在第一存储区中存储的数据类型可以为“学历”、“年龄”等等。
3、基于所述第一字段在所述第一数据指示信息中读取所述第一存储区中各字符数据的指示对象;所述第一数据指示信息包括所述第二目标源数据各字符数据与所述字符数据指示对象的映射关系,所述第二数据指示信息所述第二目标源数据各字符数据与所述字符数据指示对象的映射关系。
4、基于所述指示对象,在所述第二指示信息中读取所述指示对象对应的目标字符数据;
5、若所述指示对象的目标字符数据与所述指示对象对应的所述第一存储区中的字符数据不一致,将所述指示对象对应的第一存储区中的字符数据修改为所述目标字符数据,得到第三目标源数据。例如,第二目标源数据的第一存储区中存储的数据类型的为学历,数据规则管理模块在读取到第一字段标识的数据类型为“学历”后,数据规则管理模块根据该第二目标源数据中的第一标识去查询该业务数据库对于学历的第一数据指示信息,若第一数据指示信息表征字符“A”表示本科,以字符“B”表示研究生,在数据仓库构建系统中存储的第二数据指示信息以字符“0”表示本科,以字符“1”表示研究生。若在第一存储区中的字符为A时,数据规则管理模块将字符A改为0,从而令第一存储区中字符所指示的对象与第二数据指示信息表征的对象一致。
步骤S106:数据获取模块将第三目标源数据抽取到历史数据层。
具体地,在数据规则管理模块对第二目标源数据进行第一处理,得到第三目标源数据之后,数据获取模块将第三目标源数据抽取到历史数据层。
步骤S107:数据获取模块向元数据管理模块发送第二通知消息。
具体地,数据获取模块将第三目标源数据抽取到历史数据层之后,向元数据管理模块发送第二通知消息,该第二通知消息用于指示元数据管理模块对第三目标源数据进行元数据管理。
步骤S108:元数据管理模块对第三目标源数据进行元数据管理,得到第四目标源数据。
具体地,元数据为用于描述数据的数据,元数据用于表示数据类型的属性,元数据管理模块对数据进行元数据的管理的方法为:元数据管理模块首先读取第三目标源数据中各个存储区中的第一字段,以获取各个存储区内字符数据的数据类型,再根据第一字段在元数据列表中获取字符数据的目标属性标签。其中,元数据列表为该数据仓库构建系统预先存储的列表,该列表包括第三目标源数据各存储区内字符数据与其属性的对应关系。最后,元数据管理模块将目标属性标签添加到第一存储区中的第二字段中。例如,如图2所示的数据表的其中一个存储区的数据类型为“姓名”,在该存储区中包括5个员工的姓名,分别为“李华”、“林一”、“张三”、“王丽”、“刘丹”,若李华和林一为研发人员,张三和王丽为行政人员,刘丹为技术人员,对李华和林一的姓名字段中可以添加为研发标签,张三和王丽的姓名字段中可以标记为行政标签,刘丹的姓名字段中可以标记为技术标签,其中,研发标签、行政标签、和技术标签为名字数据的属性标签,添加属性标签的字段为第二字段。
步骤S109:元数据管理模块向数据模型管理模块发送第三通知消息。
具体地,元数据管理模块在对历史数据层中的第三目标源数据进行元数据管理,得到第四目标源数据后,元数据管理模块向数据模型管理模块发送第三通知消息,该第四通知消息用于指示数据模型管理模块基于其预设的数据模型,采集数据模型所需的第四目标源数据,构建数据仓库。
步骤S110:数据模型管理模块基于预设的数据模型,采集该数据模型所需的第四目标源数据,构建数据仓库。
具体地,接收到元数据管理模块发送的通知消息后,数据模型管理模块根据预设的数据模型,采集对该模型所需的第四目标源数据采集,并基于该数据模型生成相应的报表数据,度该报表数据进行分类、整理,存储在数据仓库层,从而完成对数据仓库的建立。
下面,以数据模型管理模块建立的数据报表为财务分析报表进行举例说明。对于公司的财务分析报表需要财务支出和财务收入;其中,财务支出包括:员工工资支出、研发费用、银行还款、产品成本费用等;财务收入包括:业务收入等。因此,在财务分析业务模型中至少包括上述五大要素,数据模型管理模块通过数据获取模块在历史数据层中提取相关的第四目标源数据。
示例性的,数据获取模块可以根据属性标签来从历史数据层中提取相应的数据,例如,数据获取模块基于属性标签“工资”可以提取到历史数据层中所有关于工资的第四目标源数据数据。数据获取模块在提取到生成财务分析报表所需要的数据后,数据模型管理模块,根据财务分析业务模型中的相关算法对提取到的数据进行筛选和整合,最终形成财务分析报表。
步骤S111:数据权限模块对生成的数据报表进行权限管理。
具体地,在数据模型管理模块生成数据报表后,数据模型管理模块向数据权限模块发送第一指示信息,该第一指示信息用于指示数据权限模块基于预先设置的权限规则对不同的业务报表进行权限管理。数据权限模块接收到第一指示信息之后,对生成的数据报表进行权限管理。示例性的,当公司员工登录系统后,后台会向该系统发送该员工输入的用户名,并将该员工的用户名发送给权限管理模块,权限管理模块会读取预先设置的权限表,该权限表包括用户名与各数据报表的映射关系。当该用户想通过数据系统调取数据仓库中的数据报表时,若数据权限模块在权限表中查询到该用户名与该数据报表不存在映射关系时,数据权限模块不提供该员工要调取的数据报表,并返回提示信息,用于提示用户无权限访问该数据报表。若数据权限模块在权限表中查询到该用户名与该数据报表存在映射关系时,数据权限模块将该数据报表发到该用户名对应的系统账户中,供用户查阅。
步骤S112:数据监管模块对生成的数据报表进行数据监管。
具体地,在数据模型管理模块生成数据报表后,数据模型管理模块向数据监管模块发送第二指示信息,该第二指示信息用于指示数据监管模块对数据仓库中的数据报表进行数据监管。当出现网络攻击等情况下,数据监管模块可以及时向管理员发出预警信息,以防止数据仓库中的数据泄露,从而发生数据安全风险问题。数据监管模块对数据报表进行数据监管的具体方式为:数据监管模块定时读取数据报表调取日志;该数据报表调取日志包括一段时间内用户调取数据仓库中报表数据的所有信息,包括每条已被调取的数据报表的标识信息以及调取该条报表数据的用户的用户名。在该日志中存在非目标用户名的情况下,所述数据监管模块向查询系统发送预警信息;所述非目标用户名为不在用户列表中存在的用户名。
步骤S113:数据生命周期管理模块对数据报表进行数据生命周期的管理。
具体地,在数据模型管理模块生成数据报表之后,数据模型管理模块向数据生命周期管理模块发送第三指示信息,该第三指示信息用于指示数据生命周期管理模块对数据报表进行数据生命周期的管理,具体包括:数据生命周期管理模块对第四目标源数据打上第一时间戳,该第一时间戳为数据生命周期管理模块接第三指示信息对应的时间;该数据生命周期管理模块定时对第四目标源数据打上第二时间戳;该数据生命周期管理模块计算第一时间戳与第二时间戳的差值;在该差值大于或等于第一阈值的情况下,数据生命周期管理模块删除第四目标源数据。所述数据生命周期管理模块对所述第四目标源数据打上第一时间戳,所述第一时间戳为所述数据生命周期管理模块接收所述第三指示信息对应的时间;所述数据生命周期管理模块定时对所述第四目标源数据打上第二时间戳;所述数据生命周期管理模块计算所述第一时间戳与所述第二时间戳的差值;在所述差值大于或等于第一阈值的情况下,所述数据生命周期管理模块删除所述第四目标源数据。
步骤S111-步骤S113为在数据仓库建设完成后,进一步对数据仓库中的数据进行管理,因此,在数据模型管理模块生成业务数据报表后,会分别向数据权限模块、数据监管模块以及数据生命周期管理模块发送指示信息,用于激活上述三个模块对数据仓库中的数据报表进行管理,步骤S111-步骤S113在步骤S110之后执行,可以同时执行,也可以不同时执行,本申请实施例对步骤S111、步骤S112、步骤S113三个步骤的先后执行顺序不做限制。
本申请实施例提供的数据仓库构建方法,通过将数据仓库的建设和数据管理整合在一起,实现数据仓库边建设边管理的目标,数据脚本或代码尽量自动生成,大大解放人力,减少了数据仓库的建设成本和运营成本,使得开发者可以将重点转移到设计优秀的数据仓库和数据治理架构上来。
请参见图3,图3为本申请提供的一种数据仓库构建装置的结构示意图。需要说明的是,图3所示的数据仓库构建装置,用于执行本申请图1所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示,请参照本申请图1所示的实施例。该数据仓库构建装置30可包括:数据获取模块301、第一标签添加模块302、数据读取模块303、数据规则管理模块304、元数据管理模块305、数据模型管理模块306;其中:
数据获取模块301,用于从业务数据库中抽取第一目标源数据;
第一标签添加模块302,用于在所述第一目标源数据中添加第一标签,得到第二目标源数据;
数据信息读取模块303,用于读取目标业务数据库中的第一数据指示信息和数据仓库构建系统中的第二数据指示信息;
数据规则管理模块304,用于在所述第一数据指示信息与所述第二数据指示信息不一致的情况下,基于所述第二数据指示信息对所述第二目标源数据中的字符数据进行修改,得到第三目标源数据;所述第三目标源数据中字符数据的指示对象与所述第二数据指示信息一致;
元数据管理模块305,用于对所述第三目标源数据进行元数据管理,得到第四目标源数据;
数据模型管理模块306,用于基于预设数据模型和所述第四目标源数据,构建数据报表,并基于所述数据报表构建数据仓库。
在一种可能实现的方式中,该数据规则管理模块304包括:
字段读取单元,用于读取第一字段;
第一读取单元,用于基于所述第一字段在所述第一数据指示信息中读取所述第一存储区中各字符数据的指示对象;
第二读取单元,用于基于所述指示对象,在所述第二指示信息中读取所述指示对象对应的目标字符数据;
修改单元,用于在所述指示对象的目标字符数据与所述指示对象在所述第一存储区中对应的字符数据不一致的情况下,将所述指示对象在第一存储区中对应的字符数据修改为所述目标字符数据,得到第三目标源数据。
在一种可能实现的方式中,该元数据管理模块305包括:
第一字段读取单元,用于读取第一字段;
标签获取单元,用于基于第一字段在元数据列表中获取目标属性标签;
标签添加单元,用于在第一存储区中的第二字段内添加该目标属性标签。
在一种可能实现的方式中,该装置30还包括数据权限模块,该数据权限模块用于对数据报表进行权限管理。
在一种可能实现的方式中,数据权限模块包括:
用户信息接收单元,用于接收查询系统发送的用户信息;
权限查询单元,用于基于用户信息查询权限列表;
调取单元,用于在查询到用户信息对应的用户有权限访问目标数据报表的情况下,调取目标数据报表;
数据报表发送单元,用于将目标数据报表发送给查询系统。
在一种可能实现的方式中,该装置30还包括数据监管模块,该数据监管模块用于对数据报表进行数据监管;其中,该数据监管模块包括:
日志读取单元,用于定时读取数据报表调取日志;
预警信息发送单元,用于在该日志中存在非目标用户名的情况下,数据监管模块向查询系统发送预警信息。
在一种可能实现的方式中,该装置30还包括数据生命周期管理模块,该数据生命周期管理模块用于对数据报表进行数据生命周期管理,该数据生命周期管理模块包括:
第一时间戳添加单元,用于对第四目标源数据打上第一时间戳;
第二时间戳添加单元,用于定时对该第四目标源数据打上第二时间戳;
差值计算单元,用于计算第一时间戳与第二时间戳的差值;
删除单元,用于在差值大于或等于第一阈值的情况下,删除该第四目标源数据。
请参见图4,图4为本申请实施例提供的一种数据仓库构建设备的结构示意图。如图4所示,该数据仓库构建设备40包括:至少一个处理器401、存储器402。可选的,该数据仓库构建设备还可包括网络接口403,所述处理器401、网络接口403以及存储器402通过内部总线404相互连接。其中,所述处理器401、存储器402以及网络接口403之间可以交互数据,网络接口403受所述处理器401的控制用于收发消息,存储器402用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令。其中,处理器401被配置用于调用所述程序指令执行上述数据仓库构建方法。
所述存储器402可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器402也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;所述存储器402还可以包括上述种类的存储器的组合。
所述处理器401可以是中央处理器(central processing unit,CPU)。在一个实施例中,所述处理器401还可以是图形处理器(Graphics Processing Unit,GPU)。所述处理器401也可以是由CPU和GPU的组合。
所述存储器402用于存储程序指令。所述处理器401调用该计算机指令以使得该设备,执行以下步骤:从业务数据库中抽取第一目标源数据;在所述第一目标源数据中添加第一标签,得到第二目标源数据;所述第一标签为所述第一目标源数据对应业务数据库的标识信息;读取目标业务数据库中的第一数据指示信息和所述数据仓库构建系统中的第二数据指示信息;所述目标业务数据库为所述第二目标源数据对应的业务数据库,所述第一数据指示信息包括所述第二目标源数据各字符数据与所述字符数据指示对象的映射关系,所述第二数据指示信息所述第二目标源数据各字符数据与所述字符数据指示对象的映射关系;在所述第一数据指示信息与所述第二数据指示信息不一致的情况下,基于所述第二数据指示信息对所述第二目标源数据中的字符数据进行修改,得到第三目标源数据;所述第三目标源数据中字符数据的指示对象与所述第二数据指示信息一致;对所述第三目标源数据进行元数据管理,得到第四目标源数据;基于预设数据模型和所述第四目标源数据,构建数据报表,并基于所述数据报表构建数据仓库。
在一种可能实现的方式中,该处理器401调用该计算机指令以使得该电子设备执行:基于所述预设数据编写规则修改所述第二目标源数据中的字符数据,得到第三目标源数据,包括:读取第一字段,所述第一字段用于表征所述第一目标源数据的第一存储区中字符数据的数据类型;基于所述第一字段在所述第一数据指示信息中读取所述第一存储区中各字符数据的指示对象;基于所述指示对象,在所述第二指示信息中读取所述指示对象对应的目标字符数据;若所述指示对象的目标字符数据与所述指示对象在所述第一存储区中对应的字符数据不一致,将所述指示对象在第一存储区中对应的字符数据修改为所述目标字符数据,得到第三目标源数据。
在一种可能实现的方式中,该处理器401调用该计算机指令以使得该电子设备执行:读取第一字段,所述第一字段用于表征所述第一目标源数据的第一存储区中字符数据的数据类型;基于所述第一字段在元数据列表中获取目标属性标签;所述元数据列表包括所述第三目标源数据中各存储区中的字符数据的属性标签;在所述第一存储区中的第二字段内添加所述目标属性标签。
在一种可能实现的方式中,该处理器401调用该计算机指令以使得该电子设备执行:对所述数据报表进行权限管理。
在一种可能实现的方式中,该处理器401调用该计算机指令以使得该电子设备执行:对所述数据报表进行权限管理,包括:接收查询系统发送的用户信息,所述用户信息包括用户名和目标数据报表的标识;基于所述用户信息查询权限列表,所述权限列表包括所述用户信息与数据报表之间的权限映射关系;在查询到所述用户信息对应的用户有权限访问所述目标数据报表的情况下,调取所述目标数据报表;将所述目标数据报表发送给所述查询系统。
在一种可能实现的方式中,该处理器401调用该计算机指令以使得该电子设备执行:定时读取数据报表调取日志;所述数据报表调取日志包括已调取数据报表的标识信息、调取所述数据报表对应用户的用户名;在所述日志中存在非目标用户名的情况下,向查询系统发送预警信息;所述非目标用户名为不在用户列表中存在的用户名,所述用户列表为存储在所述数据仓库构建系统中的列表。
在一种可能实现的方式中,该处理器401调用该计算机指令以使得该电子设备执行:对所述数据报表进行数据生命周期管理;其中,所述对所述数据报表进行数据生命周期的管理,包括:对所述第四目标源数据打上第一时间戳,所述第一时间戳为所述数据报表的生成时间;定时对所述第四目标源数据打上第二时间戳;计算所述第一时间戳与所述第二时间戳的差值;在所述差值大于或等于第一阈值的情况下,删除所述第四目标源数据。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid StateDisk)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
总之,以上所述仅为本发明技术方案的实施例,并非用于限定本发明的保护范围。凡根据本发明的揭露,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据仓库构建方法,其特征在于,应用于数据仓库构建系统,所述方法包括:
从业务数据库中抽取第一目标源数据;
在所述第一目标源数据中添加第一标签,得到第二目标源数据;所述第一标签为所述第一目标源数据对应业务数据库的标识信息;
读取目标业务数据库中的第一数据指示信息和所述数据仓库构建系统中的第二数据指示信息;所述目标业务数据库为所述第二目标源数据对应的业务数据库,所述第一数据指示信息包括所述第二目标源数据各字符数据与所述字符数据指示对象的映射关系,所述第二数据指示信息所述第二目标源数据各字符数据与所述字符数据指示对象的映射关系;
在所述第一数据指示信息与所述第二数据指示信息不一致的情况下,基于所述第二数据指示信息对所述第二目标源数据中的字符数据进行修改,得到第三目标源数据;所述第三目标源数据中字符数据的指示对象与所述第二数据指示信息一致;
对所述第三目标源数据进行元数据管理,得到第四目标源数据;
基于预设数据模型和所述第四目标源数据,构建数据报表,并基于所述数据报表构建数据仓库。
2.如权利要求1所述的方法,其特征在于,所述基于所述第二数据指示信息对所述第二目标源数据中的字符数据进行修改,得到第三目标源数据,包括:
读取第一字段;所述第一字段用于表征所述第一目标源数据中第一存储区字符数据的数据类型;
基于所述第一字段在所述第一数据指示信息中读取所述第一存储区中各字符数据的指示对象;
基于所述指示对象,在所述第二指示信息中读取所述指示对象对应的目标字符数据;
若所述指示对象对应的目标字符数据与所述指示对象在所述第一存储区中对应的字符数据不一致,将所述指示对象在所述第一存储区中对应的字符数据修改为所述目标字符数据,得到第三目标源数据。
3.如权利要求1所述的方法,其特征在于,所述对所述第三目标源数据进行元数据管理,具体包括:
读取第一字段,所述第一字段用于表征所述第一目标源数据的第一存储区中字符数据的数据类型;
基于所述第一字段在元数据列表中获取目标属性标签;所述元数据列表包括所述第三目标源数据中各存储区中的字符数据的属性标签;
在所述第一存储区中的第二字段内添加所述目标属性标签。
4.如权利要求1-3任一项所述的方法,其特征在于,所述基于预设数据模型和所述第四目标源数据,构建数据报表,并基于所述数据报表构建数据仓库之后,还包括:
对所述数据报表进行权限管理。
5.如权利要求4所述的方法,其特征在于,所述对所述数据报表进行权限管理,包括:
接收查询系统发送的用户信息,所述用户信息包括用户名和目标数据报表的标识;
基于所述用户信息查询权限列表,所述权限列表包括所述用户信息与数据报表之间的权限映射关系;
在查询到所述用户信息对应的用户有权限访问所述目标数据报表的情况下,调取所述目标数据报表;
将所述目标数据报表发送给所述查询系统。
6.如权利要求1-3任一项所述的方法,其特征在于,所述基于预设数据模型和所述第四目标源数据,构建数据报表,并基于所述数据报表构建数据仓库之后,还包括:
定时读取数据报表调取日志;所述数据报表调取日志包括已调取数据报表的标识信息、调取所述数据报表对应用户的用户名;
在所述日志中存在非目标用户名的情况下,向查询系统发送预警信息;所述非目标用户名为不在用户列表中存在的用户名,所述用户列表为存储在所述数据仓库构建系统中的列表。
7.如权利要求1-3任一项所述的方法,其特征在于,所述基于预设数据模型和所述第四目标源数据,构建数据报表,并基于所述数据报表构建数据仓库之后,还包括:
对所述数据报表进行数据生命周期管理;
其中,所述对所述数据报表进行数据生命周期的管理,包括:
对所述第四目标源数据打上第一时间戳,所述第一时间戳为所述数据报表的生成时间;
定时对所述第四目标源数据打上第二时间戳;
计算所述第一时间戳与所述第二时间戳的差值;
在所述差值大于或等于第一阈值的情况下,删除所述第四目标源数据。
8.一种数据仓库构建装置,其特征在于,所述装置包括:
数据获取模块,用于从业务数据库中抽取第一目标源数据;
第一标签添加模块,用于在所述第一目标源数据中添加第一标签,得到第二目标源数据;
数据信息读取模块,用于读取目标业务数据库中的第一数据指示信息和数据仓库构建系统中的第二数据指示信息;
数据规则管理模块,用于在所述第一数据指示信息与所述第二数据指示信息不一致的情况下,基于所述第二数据指示信息对所述第二目标源数据中的字符数据进行修改,得到第三目标源数据;所述第三目标源数据中字符数据的指示对象与所述第二数据指示信息一致;
元数据管理模块,用于对所述第三目标源数据进行元数据管理,得到第四目标源数据;
数据模型管理模块,用于基于预设数据模型和所述第四目标源数据,构建数据报表,并基于所述数据报表构建数据仓库。
9.一种数据仓库构建设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时,实现如权利要求1-7任意一项所述的方法。
CN202210168707.8A 2022-02-23 2022-02-23 一种数据仓库构建方法、装置、设备及计算机存储介质 Pending CN114547173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210168707.8A CN114547173A (zh) 2022-02-23 2022-02-23 一种数据仓库构建方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210168707.8A CN114547173A (zh) 2022-02-23 2022-02-23 一种数据仓库构建方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114547173A true CN114547173A (zh) 2022-05-27

Family

ID=81677670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210168707.8A Pending CN114547173A (zh) 2022-02-23 2022-02-23 一种数据仓库构建方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114547173A (zh)

Similar Documents

Publication Publication Date Title
US11755628B2 (en) Data relationships storage platform
US10061578B2 (en) System and method of configuring a data store for tracking and auditing real-time events across different software development tools in agile development environments
US9037960B2 (en) Monitoring and tracking application usage
US7971231B2 (en) Configuration management database (CMDB) which establishes policy artifacts and automatic tagging of the same
US8463811B2 (en) Automated correlation discovery for semi-structured processes
US20120290544A1 (en) Data compliance management
CN112632135A (zh) 一种大数据平台
US10547525B2 (en) Determining events by analyzing stored electronic communications
US20190050435A1 (en) Object data association index system and methods for the construction and applications thereof
CN110457371A (zh) 数据管理方法、装置、存储介质及系统
CN111383130A (zh) 一种全生命周期管控平台、移动运维客户端及终端
CN108377228B (zh) 一种权限管理方法及装置、服务器
CN111143391A (zh) 一种数据共享交换方法及系统
CN116205396A (zh) 一种基于数据中台的数据全景监控方法及系统
US20120310918A1 (en) Unique join data caching method
CN116258309A (zh) 基于区块链的业务对象生命周期管理及追溯方法及装置
CN113836237A (zh) 对数据库的数据操作进行审计的方法及装置
CN113535677A (zh) 数据分析查询管理方法、装置、计算机设备及存储介质
KR20090001786A (ko) 전산장애로 인한 비즈니스 영향도 분석 시스템
CN106156904B (zh) 一种基于eID的跨平台虚拟资产溯源方法
CN114547173A (zh) 一种数据仓库构建方法、装置、设备及计算机存储介质
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
Turluev et al. Artificial Intelligence in Corporate Governance Systems
CN112347314B (zh) 一种基于图数据库的数据资源管理系统
CN114840519A (zh) 一种数据打标签的方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220927

Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000

Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd.

Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000

Applicant before: Ping An International Smart City Technology Co.,Ltd.

TA01 Transfer of patent application right