CN112988720B - 数据治理方法、装置、设备及存储介质 - Google Patents

数据治理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112988720B
CN112988720B CN201911309201.9A CN201911309201A CN112988720B CN 112988720 B CN112988720 B CN 112988720B CN 201911309201 A CN201911309201 A CN 201911309201A CN 112988720 B CN112988720 B CN 112988720B
Authority
CN
China
Prior art keywords
data
data element
verification
attribute information
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911309201.9A
Other languages
English (en)
Other versions
CN112988720A (zh
Inventor
解敏
梁东山
冉秋萍
刘彬彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201911309201.9A priority Critical patent/CN112988720B/zh
Publication of CN112988720A publication Critical patent/CN112988720A/zh
Application granted granted Critical
Publication of CN112988720B publication Critical patent/CN112988720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据治理方法、装置、设备及存储介质。在数据治理方法中,将数据写入数据模型之前,校验该数据是否符合与数据治理标准适配数据校验规则;若不符合,则可先对该数据执行数据治理操作,再将治理得到的数据写入数据模型。进而,可在数据的生产环节根据数据治理标准对数据进行约束,有利于提升数据的治理效果。

Description

数据治理方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据治理方法、装置、设备及存储介质。
背景技术
数据治理,是数据管理以及数据应用的过程中较为关键的环节。数据治理可将杂乱、质量较差、语义不清的数据治理成为满足设定要求的形式,以方便计算系统使用。
现有技术提供的数据治理方案,通常是在数据出现问题后再进行数据治理,无法达到较好的数据治理效果。因此,有待提出一种新的解决方案。
发明内容
本申请的多个方面提供一种数据治理方法、装置、设备及存储介质,用以有效地提升数据的治理效果。
本申请实施例提供一种数据治理方法,包括:获取数据校验规则,所述数据校验规则与数据治理标准适配;根据所述数据校验规则,对待写入数据模型的数据进行校验;若所述数据未通过所述校验,则对所述数据执行数据治理操作;将执行所述数据治理操作得到的数据,写入所述数据模型。
本申请实施例提供一种数据治理装置,包括:规则获取模块,用于:获取数据校验规则,所述数据校验规则与数据治理标准适配;数据校验模块,用于:根据所述数据校验规则,对待写入数据模型的数据进行校验;数据治理模块,用于:若所述数据未通过所述校验,则对所述数据执行数据治理操作;数据导入模块,用于:将执行所述数据治理操作得到的数据,写入所述数据模型。
本申请实施例提供一种数据治理设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令以用于:执行本申请实施例提供的数据治理方法。
本申请实施例提供一种存储有计算机程序的计算机可读存储介质,包括:计算机程序被处理器执行时能够实现本申请实施例提供的数据治理方法。
本申请实施例提供的数据治理方法中,将数据写入数据模型之前,校验该数据是否符合与数据治理标准适配数据校验规则;若不符合,则可先对该数据执行数据治理操作,再将治理得到的数据写入数据模型。进而,可在数据的生产环节根据数据治理标准对数据进行约束,有利于提升数据的治理效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一示例性实施例提供的数据治理方法的流程示意图;
图2a为本申请另一示例性实施例提供的数据治理方法的流程示意图;
图2b为本申请一示例性实施例提供的配置数据元的示意图;
图3a为本申请一示例性实施例提供的数据仓库的结构示意图;
图3b为本申请一示例性实施例提供的智能交通领域的数据仓库的示意图;
图4为本申请一示例性实施例提供的数据治理装置的结构示意图;
图5为本申请一示例性实施例提供的数据治理设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
数据治理,用于将杂乱、质量较差、语义不清的数据治理成为满足设定要求的形式,以方便计算系统使用。然而,现有技术提供的数据治理方案,侧重于数据方案规划以及数据质量监控,通常只能够在数据出现问题后再进行数据治理,无法达到较好的数据治理效果,且影响数据计算系统对数据的使用。
针对上述技术问题,本申请一些实施例中,提供了一种解决方案,该解决方案可从源头实现数据治理,提升数据治理效果。以下将结合附图,详细说明本申请各实施例提供的技术方案。
图1是本申请一示例性实施例提供的数据治理方法的流程示意图,如图1所示,该方法包括:
步骤101、获取数据校验规则,该数据校验规则与数据治理标准适配。
步骤102、根据该数据校验规则,对待写入数据模型的数据进行校验。
步骤103、若该数据未通过该校验,则对该数据执行数据治理操作。
步骤104、将执行该数据治理操作得到的数据,写入数据模型。
其中,数据治理标准,用于指导和约束数据治理过程,以达到指定的数据治理结果。在一些实施例中,数据治理标准,可包括数据治理环节所采用的行业级别的数据治理标准、国家级别的数据治理标准、企业级别的数据治理标准等等,本实施例包含但不限于此。
其中,数据校验规则与数据治理标准适配。在一些实施例中,数据校验规则可由数据治理标准转化而来,在另一些实施例中,可根据数据治理标准对数据校验规则进行个性化定制,本实施例不做限制。基于此,可将数据治理标准转化为在数据生产、加工和管理过程中可以直接使用的规则,有利于在各个数据处理环节实现数据治理标准对数据的约束效果。
数据校验规则,用于对数据进行校验。基于校验,可以判断数据是否符合数据治理标准的要求。
其中,数据模型,是对现实世界数据特征的抽象,用来描述数据、组织数据和对数据进行操作。数据模型描述的内容可包括数据结构、数据操作以及数据约束。
在数据建模的过程中,针对待写入数据模型的数据,若该数据未通过数据校验规则的校验,则可认为该数据不符合数据治理标准的要求,此时可对该数据进行治理,并将治理后的数据写入数据模型。基于此,实现了在数据建模的过程中对数据进行治理,有效地在数据的生产源头实现数据的规范化。
在本实施例中,将数据写入数据模型之前,校验该数据是否符合与数据治理标准适配数据校验规则;若不符合,则可先对该数据执行数据治理操作,再将治理得到的数据写入数据模型。进而,可在数据的生产环节根据数据治理标准对数据进行约束,有利于提升数据的治理效果。
图2a是本申请另一示例性实施例提供的数据治理方法的流程示意图,如图2a所示,该方法包括:
步骤201、对数据元配置数据元属性信息,以获取与数据治理标准适配的数据校验规则。
步骤202、在数据建模的过程中,获取待写入数据模型的数据。
步骤203、根据该数据所属的数据项,确定该数据对应的数据元,并从数据校验规则中,确定与该数据元对应的数据元属性信息。
步骤204、根据该数据元属性信息,对该数据进行规范性校验。
步骤205、判断该数据是否通过校验;若该数据通过校验,则执行步骤207;若该数据未通过校验,则执行步骤206。
本步骤206、对该数据执行数据治理操作,并执行步骤204。
步骤207、将通过校验的数据写入数据模型。
本申请实施例可由数据治理系统执行。数据治理系统可包括能够执行上述各步骤的一个或者多个设备,该设备可实现为终端、服务器中的至少一种等,本实施例不做限制。
在步骤201中,数据元(Data Element),是用一组属性描述其定义、标识、表示和允许值的数据单元,是数据的基本单位。在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。
在多种行业中,数据元用来对各行业的数据进行规范化,例如,可基于数据元对行业数据的名、型、值等方面进行统一的规范及分类处理。本实施中,可对待治理数据所在的行业或者领域中的全量的数据元或者部分数据元执行数据元属性信息的配置操作,以进一步优化数据治理效果。
在一些可选实施例中,数据治理系统可提供数据元的自定义配置功能。
可选地,数据治理系统可展示数据元配置页面,该数据元配置页面可包括:名称配置入口和数据元属性配置入口。其中,名称配置入口用于配置数据元的名称,数据元属性配置入口用于配置数据元的各种属性,例如:定义、取值范围、类型、表现形式等。用户可根据所采用的数据治理标准,在数据元配置页面进行相应配置,以对数据元进行定义。
其中,数据治理标准可包括国家级别的数据治理标准、行业级别的数据治理标准或者企业级别的数据治理标准,本实施例不做限制。通常,数据治理标准采用国家、行业权威组织或者企业发布的标准定制文件或者政策文件进行表达,这些标准定制文件或者政策文件不易直接应用到数据治理过程中。基于本实施例提供的配置数据元的过程,可对标准定制文件或者政策文件进行加工,将标准定制文件和政策文件中约束的数据治理标准规则化。基于此,可将写在文件中的数据治理标准沉淀到实际的数据处理过程中,使其可作为数据治理过程的依据,有利于提升数据治理的效率和数据治理的效果。
一种典型的数据元配置页面可参考图2b的示意。如图2b所示,用户可在数据元编辑页面对产品序列号这一数据元进行编辑,进而可将与产品序列号相关的数据治理标准规则化。
用户配置完成后,数据治理系统可获取用户通过名称配置入口输入的数据元名称,并获取用户通过数据元属性配置入口输入的数据元属性信息。
例如,数据元名称为产品序列码,数据元属性信息可包括:别名为:机器码,认证码、注册申请码,长度为:12位,所属类目为:硬件设备,类型为:字符。
每个数据元的数据元属性信息,可作为该数据元的数据校验规则。当用户根据数据治理标准对全量的数据元进行配置后,可得到全量的数据元属性信息,并可将该全量的数据元属性信息作为数据校验规则。
值得说明的的是,在一些可选的实施例中,数据元配置页面,还可展示标识配置入口,该标识配置入口用于配置数据元的唯一识别标识。该唯一识别标识可以避免对同一数据元进行重复定义,进而导致同一数据元的数据校验规则出现差异,对数据治理效果产生影响。
基于该数据标识配置入口获取用户输入的数据元标识后,可根据该数据元标识,对数据校验规则进行去重。可选地,数据元的唯一识别标识,可以是国家、行业或者企业制定的,也可以是用户根据需求自定义的,本实施例不做限制。
在步骤202中,数据模型可由物理表实现,物理表包含多个数据项(Data item),也可称为字段。例如,在一张商品分析中,数据项可包括:商品名称、类目、产地、价格等数据项。又例如,在一张硬件设备统计表中,数据项可包括:设备名称、所属类目、产品序列号、硬件地址、厂家等数据项。
在数据建模的过程中,可获取与物理表中的数据项适配的数据,作为待写入数据模型的数据,即:为物理表中的字段添加相应的字段值。
在步骤203中,针对与数据项适配的数据,可根据数据项与数据元的对应关系,从数据校验规则中确定该数据对应的数据元,并可根据该数据元的名称,从数据校验规则中,确定该数据元对应的数据元属性信息。
例如,待写入数据模型的数据为一串产品序列号码值,其所属的数据项为产品序列号,此时可确定产品序列号这一数据元,作为与产品序列号码值对应的数据元,并获取产品序列号对应的数据元属性信息。
接下来,可执行步骤204,根据该数据元对应的数据元属性信息,对该数据元包含的各数据项进行规范性校验。例如,承接上述例子,可根据产品序列码对应的数据元属性信息,对待写入数据模型的产品序列号码值进行校验。例如,可校验产品序列号码值的长度是否为12位,所属的类目是否为硬件设备类目,类型是否为字符类型等等,不再赘述。
在步骤205中,可判断该数据是否通过校验;若该数据通过校验,则可执行步骤207,将通过校验的数据写入数据模型。若该数据未通过校验,则可执行步骤206,对该数据执行数据治理操作。
可选地,在一些示例性实例中,可由数据治理系统自动实现对该数据进行治理操作。在这种实施方式中,数据治理系统可基于该数据对应的数据元属性信息的约束,对该数据进行调整。
例如,承接上述例子,假设未通过校验的数据为一串长度为13位的产品序列号码值,产品序列号对应的数据元属性信息约定了产品序列号的长度为12位,那么,数据治理系统可从13位的产品序列号码值中查找是否存在空格或者特殊符号,若存在,则删除其中的空格或者特殊符号,得到长度为12为的产品序列号码值。
又例如,假设未通过校验的数据为十六进制的产品序列号码值,产品序列号对应的数据元属性信息约定了产品序列号采用十进制数描述,那么,数据治理系统可自动将十六进制的产品序列号码值转化为十进制。
可选地,在另一些示例性实施例中,数据治理系统可输出未通过校验的数据,并向用户建议治理数据的策略。可选地,针对未通过校验的数据,数据治理系统可根据该数据对应的数据元属性信息,确定该数据对应的治理策略,并输出该数据及其对应的治理策略,以供用户根据该治理策略对该数据进行治理。
例如,承接上述例子,针对未通过校验一串长度为13位的产品序列号码值,数据治理系统可输出该产品序列号码值,并输出治理策略为:将产品序列号码值的长度修改为12位。
待用户修改完成,数据治理系统即可获取治理后的数据,并可重新对治理后的数据进行校验。若执行数据治理操作后得到的数据通过校验,则可将其写入数据模型。
在本实施例中,通过对数据元进行编辑,可将数据治理标准落实为明确的数据校验规则,实现了数据治理标准的产品化。将数据写入数据模型之前,校验该数据是否符合与数据治理标准适配数据校验规则;若不符合,则可先对该数据执行数据治理操作,再将治理得到的数据写入数据模型。进而,可在数据的生产环节根据数据治理标准对数据进行约束,有利于提升数据的治理效果。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤201至步骤204的执行主体可以为设备A;又比如,步骤201和202的执行主体可以为设备A,步骤203的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如201、202等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本申请的上述以及下述各实施例,适用于多种数据治理场景,例如,在数据仓库(Data Warehouse)对数据进行管理的场景,或者是建设数据中台的应用场景,或者是建设数据库的应用场景。以下将结合数据仓库进行示例性说明。
数据仓库,是一种面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合。数据仓库主要用于支持管理决策,可以为企业的决策制定过程提供数据支持。
本申请实施例提供了一种数据仓库,如图3a所示,该数据仓库可包括:基础层以及至少一个数据管理层。
其中,基础层和该至少一个数据管理层中的任一层,具体用于:根据本层中的数据模型的描述内容,获取待写入该数据模型的数据;根据设定的数据校验规则,对待写入数据模型的数据进行校验;若该数据未通过校验,则对该数据执行数据治理操作;将执行数据治理操作得到的数据,写入数据模型。
可选地,如图3a所示,基础层包括:接口层(STAGE层)和操作型数据存储层(Operational Data Store,ODS)。该至少一个数据管理层包括:明细层(Data WarehouseDetail,DWD)、主题层(Data Warehouse Subject,DWS)以及应用层(Application DataMarket,ADM)中的至少一个。
如图3a所示,接口层、操作型数据存储层、明细层、主题层以及应用层,按照由下至上的顺序依次排列。以下将结合图3a,对数据仓库中的每一层进行示例性说明。
其中,接口层主要用于汇聚业务系统源头数据,可作为数据治理加工过程的缓冲区。其中,数据治理加工操作可包括ETL(Extract-Transform-Load,数据抽取、转换、加载至目的端的过程)操作。
操作型数据存储层,可对接口层汇聚的数据进行数据全/增量合并以及数据清洗操作。一些实施例中,接口层和/或操作型数据存储层,还可对本层的数据执行数据标准化操作。其中,执行数据标准化操作时,可将数据治理标准作为依据,以在数据的生产环节实现初步数据治理。
图3b对智能交通领域的一种可行的数据仓库进行了示意。如图3b所示,接口层和操作型数据存储层中,可包括原始的业务数据,例如交通路况、交通设施、视频图像、警情数据等内部数据,路网信息、交通路况、社会舆情等互联网数据、驾驶员定位、实时天气、车辆定位、公交定位等机构数据。
其中,明细层,主要用于面向数据进行数据域分类,整合,清洗,并形成标准化的数据模型。其中,数据域是指面向业务分析,将业务过程或者维度进行抽象的集合。数据域可以按照用户企业的部门划分,也可以按照业务过程或者业务板块中的功能模块进行划分。例如,电商场景下,数据域可包括:与注册、登录操作关联的会员域、与商品发布、上架、下架、重发等操作关联的商品域、与曝光、浏览、点击等操作关联的日志域、与下单、支付、发货、确认收货等操作关联的交易域。
如图3b所示,在智能交通场景下,对接口层和操作型数据存储层的原始数据,按照数据域进行划分可得到:与出行和速度关联的交通运行数据域、与信号灯控制、禁行控制、限行控制关联的交通控制数据域、与交通安全、特殊事件关联的交通事件数据域、与车辆定位、人员定位关联的定位信息数据域、与道路连接关系、路口连接关系、站点线路关系关联的对象关系数据域。
其中,主题层,主要用于按分析对象进行数据整合,轻度汇总。以图3b的示意为例,在智能交通场景下,按照分析对象对数据进行建模,可提供用户、车辆、设备、事件、交通控制、出行、交通态势等多个主题的数据服务。
应用层,主要用于贴合前端应用,提供数据服务。前端应用与用户的需求适配。如图3b所示,应用层可提供多个专题数据服务,例如交通态势、敬请管理、公众出行、专项应用等等,不再赘述。
在上述数据仓库中的每一层,用户可根据实际需求进行数据建模,即创建物理表,并可在创建物理表的过程中,根据数据校验规则对写入物理表的数据进行校验。以下将进行示例性说明。
用户执行创建物理表的操作时,数据仓库可获取用户提供的物理表名和物理表中的数据项(字段)。其中,不同层的表名带有该层的前缀,以进行区分。
可选地,数据仓库可展示字段输入页面。该字段输入页面可包括新增字段的操作入口、编辑已有字段的操作入口、导入其他数据表中的字段的操作入口。基于新增字段的操作入口,用户可手动添加所需的字段。基于编辑已有字段的操作入口,用户可手动修改已有的字段。基于导入其他数据表中的字段的操作入口,用户可添加上游表的表名。基于上游表的表名,数据仓库可自动获取上游表包含的字段展示给用户,用户可以从中选择想要添加至新表里的字段,并且可对这些字段进行编辑。其中,上游表可以是上一层的数据表,或者可以是数据源提供的数据表,本实施例不做限制。
接着,数据仓库可根据用户添加的表名以及字段,自动生成建表代码。可选地,数据仓库还可向用户展示建表采用的代码。用户可在存在修改需求的情况下,对建表采用的代码进行修改。待用户确定建表后,可执行创建新的数据表的操作。接着,可从数据源中或者从上游数据表获取可写入新建的数据表的数据。
可选地,若数据表位于数据仓库中的明细层,则可根据待处理数据所属的数据域,从待处理数据中获取待写入数据表的数据;若数据表位于数据仓库中的主题层,则可根据待处理数据所属的主题,从待处理数据中获取待写入数据表的数据;若数据表位于数据仓库中的应用层,则可根据应用需求从待处理数据中获取待写入数据表的数据。
在获取到待写入数据表的数据后,可采用与数据治理标准适配的数据校验规则对获取到的数据进校验,具体可参考前述实施例的的记载,此处不再赘述。
图4是本申请一示例性实施例提供的数据治理装置的结构示意图,如图4所示,该装置包括:
规则获取模块401用于:获取数据校验规则,所述数据校验规则与数据治理标准适配。
数据校验模块402用于:根据所述数据校验规则,对待写入数据模型的数据进行校验。
数据治理模块403用于:若所述数据未通过所述校验,则对所述数据执行数据治理操作。
数据导入模块404用于:将执行所述数据治理操作得到的数据,写入所述数据模型。
进一步可选地,所述数据校验规则,包括以下至少一种:与国家级别的数据治理标准适配的数据校验规则;与行业级别的数据治理标准适配的数据校验规则;与企业级别的数据治理标准适配的数据校验规则。
进一步可选地,规则获取模块401在获取数据校验规则时,具体用于:展示数据元配置页面,所述数据元配置页面包括:名称配置入口和数据元属性配置入口;获取用户通过所述名称配置入口输入的数据元名称,以及通过所述数据元属性配置入口输入的数据元属性信息;根据所述数据元名称和对应的数据元属性信息,获取所述数据校验规则。
进一步可选地,规则获取模块401还用于:在所述数据元配置页面,展示标识配置入口;获取所述用户通过所述标识配置入口输入的数据元标识;根据所述数据元标识,对所述数据校验规则进行去重。
进一步可选地,数据校验模块402在根据所述数据校验规则,对待写入数据模型的数据进行校验时,具体用于:根据所述数据所属的数据项,确定所述数据对应的数据元;从所述数据校验规则中,确定与所述数据元对应的数据元属性信息;根据所述数据元属性信息,对所述数据进行规范性校验。
进一步可选地,若所述数据未通过所述校验,则数据治理模块403对所述数据执行数据治理操作时,具体用于:根据所述数据所属的数据项,确定所述数据对应的数据元;从所述数据校验规则中,确定与所述数据元对应的数据元属性信息;根据所述数据元属性信息的约束,对所述数据进行调整。
进一步可选地,若所述数据未通过所述校验,则数据治理模块403对所述数据执行数据治理操作时,具体用于:根据所述数据所属的数据项,确定所述数据对应的数据元;从所述数据校验规则中,确定与所述数据元对应的数据元属性信息;根据所述数据元属性信息,确定所述数据对应的治理策略;输出所述数据及其对应的治理策略,以供用户根据所述治理策略对所述数据进行治理。
进一步可选地,所述数据模型包括:在数据仓库的至少一个数据管理层中创建的数据模型;所述至少一个数据管理层包括:接口层、操作数据存储层、明细层、主题层以及应用层中的至少一个。
进一步可选地,数据导入模块404还用于:若所述数据模型位于数据仓库中的明细层,则根据待处理数据所属的数据域,从所述待处理数据中获取待写入所述数据模型的数据;若所述数据模型位于所述数据仓库中的主题层,则根据待处理数据所属的主题,从所述待处理数据中获取待写入所述数据模型的数据;若所述数据模型位于所述数据仓库中的应用层,则根据应用需求从所述待处理数据中获取待写入所述数据模型的数据。
在本实施例中,将数据写入数据模型之前,校验该数据是否符合与数据治理标准适配数据校验规则;若不符合,则可先对该数据执行数据治理操作,再将治理得到的数据写入数据模型。进而,可根据数据治理标准对数据进行约束,有利于提升数据的治理效果。
图5是本申请一示例性实施例提供的数据治理设备的结构示意图,如图5所示,该数据治理设备包括:存储器501以及处理器502。
存储器501,用于存储计算机程序,并可被配置为存储其它各种数据以支持在数据治理设备上的操作。这些数据的示例包括用于在数据治理设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器501可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器502,与存储器501耦合,用于执行存储器501中的计算机程序,以用于:获取数据校验规则,所述数据校验规则与数据治理标准适配;根据所述数据校验规则,对待写入数据模型的数据进行校验;若所述数据未通过所述校验,则对所述数据执行数据治理操作;将执行所述数据治理操作得到的数据,写入所述数据模型。
进一步可选地,所述数据校验规则,包括以下至少一种:与国家级别的数据治理标准适配的数据校验规则;与行业级别的数据治理标准适配的数据校验规则;与企业级别的数据治理标准适配的数据校验规则。
进一步可选地,处理器502在获取数据校验规则时,具体用于:展示数据元配置页面,所述数据元配置页面包括:名称配置入口和数据元属性配置入口;获取用户通过所述名称配置入口输入的数据元名称,以及通过所述数据元属性配置入口输入的数据元属性信息;根据所述数据元名称和对应的数据元属性信息,获取所述数据校验规则。
进一步可选地,处理器502还用于:在所述数据元配置页面,展示标识配置入口;获取所述用户通过所述标识配置入口输入的数据元标识;根据所述数据元标识,对所述数据校验规则进行去重。
进一步可选地,处理器502在根据所述数据校验规则,对待写入数据模型的数据进行校验时,具体用于:根据所述数据所属的数据项,确定所述数据对应的数据元;从所述数据校验规则中,确定与所述数据元对应的数据元属性信息;根据所述数据元属性信息,对所述数据进行规范性校验。
进一步可选地,若所述数据未通过所述校验,则处理器502对所述数据执行数据治理操作时,具体用于:根据所述数据所属的数据项,确定所述数据对应的数据元;从所述数据校验规则中,确定与所述数据元对应的数据元属性信息;根据所述数据元属性信息的约束,对所述数据进行调整。
进一步可选地,若所述数据未通过所述校验,则处理器502对所述数据执行数据治理操作时,具体用于:根据所述数据所属的数据项,确定所述数据对应的数据元;从所述数据校验规则中,确定与所述数据元对应的数据元属性信息;根据所述数据元属性信息,确定所述数据对应的治理策略;输出所述数据及其对应的治理策略,以供用户根据所述治理策略对所述数据进行治理。
进一步可选地,所述数据模型包括:在数据仓库的至少一个数据管理层中创建的数据模型;所述至少一个数据管理层包括:接口层、操作数据存储层、明细层、主题层以及应用层中的至少一个。
进一步可选地,处理器502还用于:若所述数据模型位于数据仓库中的明细层,则根据待处理数据所属的数据域,从所述待处理数据中获取待写入所述数据模型的数据;若所述数据模型位于所述数据仓库中的主题层,则根据待处理数据所属的主题,从所述待处理数据中获取待写入所述数据模型的数据;若所述数据模型位于所述数据仓库中的应用层,则根据应用需求从所述待处理数据中获取待写入所述数据模型的数据。
进一步,如图5所示,该数据治理设备还包括:通信组件503、显示器504、电源组件505、音频组件506等其它组件。图5中仅示意性给出部分组件,并不意味着数据治理设备只包括图5所示组件。
通信组件503,被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G或5G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。
显示器504包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
电源组件505,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
在本实施例中,将数据写入数据模型之前,校验该数据是否符合与数据治理标准适配数据校验规则;若不符合,则可先对该数据执行数据治理操作,再将治理得到的数据写入数据模型。进而,可在数据的生产环节根据数据治理标准对数据进行约束,有利于提升数据的治理效果。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由数据治理设备执行的各步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据治理方法,其特征在于,包括:
获取数据校验规则,所述数据校验规则与数据治理标准适配;
根据所述数据校验规则,对待写入数据模型的数据进行校验;
若所述数据未通过所述校验,则对所述数据执行数据治理操作;
将执行所述数据治理操作得到的数据,写入所述数据模型;
其中,获取数据校验规则,包括:展示数据元配置页面,所述数据元配置页面包括:名称配置入口和数据元属性配置入口;获取用户通过所述名称配置入口输入的数据元名称,以及通过所述数据元属性配置入口输入的数据元属性信息;根据所述数据元名称和对应的数据元属性信息,获取所述数据校验规则;
其中,若所述数据未通过所述校验,则对所述数据执行数据治理操作,包括:根据所述数据所属的数据项,确定所述数据对应的数据元;从所述数据校验规则中,确定与所述数据元对应的数据元属性信息;根据所述数据元属性信息的约束,对所述数据进行调整;其中,数据元是用一组属性描述其定义、标识、表示和允许值的数据单元,是数据的基本单位;其中,全量的数据元属性信息由用户根据数据治理标准对全量的数据元进行配置后得到,所述全量的数据元属性信息用于作为数据校验规则。
2.根据权利要求1所述的方法,其特征在于,所述数据校验规则,包括以下至少一种:
与国家级别的数据治理标准适配的数据校验规则;
与行业级别的数据治理标准适配的数据校验规则;
与企业级别的数据治理标准适配的数据校验规则。
3.根据权利要求1所述的方法,其特征在于,还包括:
在所述数据元配置页面,展示标识配置入口;
获取所述用户通过所述标识配置入口输入的数据元标识;
根据所述数据元标识,对所述数据校验规则进行去重。
4.根据权利要求1所述的方法,其特征在于,根据所述数据校验规则,对待写入数据模型的数据进行校验,包括:
根据所述数据所属的数据项,确定所述数据对应的数据元;
从所述数据校验规则中,确定与所述数据元对应的数据元属性信息;
根据所述数据元属性信息,对所述数据进行规范性校验。
5.根据权利要求1所述的方法,其特征在于,若所述数据未通过所述校验,则对所述数据执行数据治理操作,包括:
根据所述数据所属的数据项,确定所述数据对应的数据元;
从所述数据校验规则中,确定与所述数据元对应的数据元属性信息;
根据所述数据元属性信息,确定所述数据对应的治理策略;
输出所述数据及其对应的治理策略,以供用户根据所述治理策略对所述数据进行治理。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述数据模型包括:
在数据仓库的至少一个数据管理层中创建的数据模型;所述至少一个数据管理层包括:接口层、操作数据存储层、明细层、主题层以及应用层中的至少一个。
7.根据权利要求6任一项所述的方法,其特征在于,还包括:
若所述数据模型位于所述明细层,则根据待处理数据所属的数据域,从所述待处理数据中获取待写入所述数据模型的数据;
若所述数据模型位于所述主题层,则根据待处理数据所属的主题,从所述待处理数据中获取待写入所述数据模型的数据;
若所述数据模型位于所述应用层,则根据应用需求从所述待处理数据中获取待写入所述数据模型的数据。
8.一种数据治理装置,其特征在于,包括:
规则获取模块,用于:获取数据校验规则,所述数据校验规则与数据治理标准适配;
数据校验模块,用于:根据所述数据校验规则,对待写入数据模型的数据进行校验;
数据治理模块,用于:若所述数据未通过所述校验,则对所述数据执行数据治理操作;
数据导入模块,用于:将执行所述数据治理操作得到的数据,写入所述数据模型;
其中,所述规则获取模块在获取数据校验规则时,具体用于:展示数据元配置页面,所述数据元配置页面包括:名称配置入口和数据元属性配置入口;获取用户通过所述名称配置入口输入的数据元名称,以及通过所述数据元属性配置入口输入的数据元属性信息;根据所述数据元名称和对应的数据元属性信息,获取所述数据校验规则;
其中,所述数据治理模块在对所述数据执行数据治理操作时,具体用于:根据所述数据所属的数据项,确定所述数据对应的数据元;从所述数据校验规则中,确定与所述数据元对应的数据元属性信息;根据所述数据元属性信息的约束,对所述数据进行调整;其中,数据元是用一组属性描述其定义、标识、表示和允许值的数据单元,是数据的基本单位;其中,全量的数据元属性信息由用户根据数据治理标准对全量的数据元进行配置后得到,所述全量的数据元属性信息用于作为数据校验规则。
9.一种数据治理设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器用于执行所述一条或多条计算机指令以用于:执行权利要求1-7任一项所述的数据治理方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,计算机程序被处理器执行时能够实现权利要求1-7任一项所述的数据治理方法。
CN201911309201.9A 2019-12-18 2019-12-18 数据治理方法、装置、设备及存储介质 Active CN112988720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911309201.9A CN112988720B (zh) 2019-12-18 2019-12-18 数据治理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911309201.9A CN112988720B (zh) 2019-12-18 2019-12-18 数据治理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112988720A CN112988720A (zh) 2021-06-18
CN112988720B true CN112988720B (zh) 2024-05-10

Family

ID=76343900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911309201.9A Active CN112988720B (zh) 2019-12-18 2019-12-18 数据治理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112988720B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886478B (zh) * 2021-09-30 2024-09-17 杭州数梦工场科技有限公司 应用于etl的数据处理方法和装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766579A (zh) * 2017-11-16 2018-03-06 四川长虹电器股份有限公司 基于xbrl标准的主数据管理系统的设计方法
WO2018040120A1 (zh) * 2016-08-30 2018-03-08 东南大学 支持共享共治的内容元数据标识及应用方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040120A1 (zh) * 2016-08-30 2018-03-08 东南大学 支持共享共治的内容元数据标识及应用方法
CN107766579A (zh) * 2017-11-16 2018-03-06 四川长虹电器股份有限公司 基于xbrl标准的主数据管理系统的设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
环境信息统计调查数据元标准化研究;杜文佳;;企业改革与管理;20160531(09);全文 *

Also Published As

Publication number Publication date
CN112988720A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
US11921798B2 (en) Generating a contextual search stream
CA3031884C (en) System and method for generating an informational packet for the purpose of marketing a vehicle to prospective customers
US20200226133A1 (en) Knowledge map building system and method
US20130013471A1 (en) Location-based tax rate acquisition and management
US20140114822A1 (en) Method and system for creating tax configuration templates
WO2017136247A1 (en) Provide consumer oriented data service
TW201701251A (zh) 一種資訊展示方法及裝置
US20110219046A1 (en) System, method and computer program product for managing data storage and rule-driven communications for a plurality of tenants
US9830385B2 (en) Methods and apparatus for partitioning data
CN111859076B (zh) 数据爬取方法、装置、计算机设备及计算机可读存储介质
US8788533B2 (en) Read access logging
CN111914282B (zh) 一种文件管理分析方法和系统
US20140344058A1 (en) Systems and methods for distributed marketing automation
CN110598107A (zh) 查询系统的管理方法和计算机存储介质
CN110956431A (zh) 数据权限管控方法及系统、计算机装置及可读存储介质
US20160005090A1 (en) System and method for providing an online knowledge product
CN112988720B (zh) 数据治理方法、装置、设备及存储介质
ES2900746T3 (es) Sistemas y métodos para distribuir eficazmente mensajes de alerta
CN110019440B (zh) 数据的处理方法及装置
CN112395366B (zh) 分布式数据库的数据处理及创建方法、装置及电子设备
CN103092841B (zh) 一种数据处理方法及装置
US20220292077A1 (en) Scalable interactive data collection system
CN114490644A (zh) 数据存储方法、设备及存储介质
US8447642B2 (en) Local content management and distribution system
US11151315B1 (en) Automatically defining groups in documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant