CN107256247A - 大数据数据治理方法和装置 - Google Patents

大数据数据治理方法和装置 Download PDF

Info

Publication number
CN107256247A
CN107256247A CN201710421769.4A CN201710421769A CN107256247A CN 107256247 A CN107256247 A CN 107256247A CN 201710421769 A CN201710421769 A CN 201710421769A CN 107256247 A CN107256247 A CN 107256247A
Authority
CN
China
Prior art keywords
metadata
data
analysis
check
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710421769.4A
Other languages
English (en)
Inventor
李建国
陶长连
郑建全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nine Fangda Data Information Group Co Ltd
Original Assignee
Nine Fangda Data Information Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nine Fangda Data Information Group Co Ltd filed Critical Nine Fangda Data Information Group Co Ltd
Priority to CN201710421769.4A priority Critical patent/CN107256247A/zh
Publication of CN107256247A publication Critical patent/CN107256247A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Abstract

本发明公开了一种大数据数据治理方法和装置。其中,该方法包括:定义元数据;导入所述元数据;对所述元数据进行治理和分析,得到分析结果;至少根据所述分析结果得到元数据图谱。本发明解决了现有技术中还没有有效的大数据的数据治理方法的技术问题。

Description

大数据数据治理方法和装置
技术领域
本发明涉及大数据领域,具体而言,涉及一种大数据数据治理方法和装置。
背景技术
随着网络信息化时代的日益普遍,互联网、物联网、云计算的飞速发展以及各种类型的移动智能终端应用普及,互联网的边界和应用范围得到了极大地拓展,互联网(搜索、社交、电商)、移动互联(微博、微信、翼聊)、物联网(传感器、智慧地球)、电信行业(通话、上网、短信)等都在疯狂地产生着数据,促使当前人类社会的数据增长比以往任何一个时期都要快。据有关公司统计,在2006年,个人用户数据量刚刚迈进TB时代,全球一共新产生了约180EB的数据,到了2010年年底,全球数据量已经达到了1.14ZB。预计到2020年,全球电子设备存储的数据量将会达到35ZB,这个数据量是2006年全球电子数据存储量的20多万倍,这其中企业数据正在以55%的速度逐年增长。随着数据量越来越大、数据变化速度越来越快、数据类型越来越复杂、数据特性的逐步演变和发展,基于海量信息数据处理需求等诸多因素,诞生了一个全新的概念——大数据。
大数据(Big Data),或称巨量资料,指的是所涉及的数据量规模庞大到无法通过目前主流软件工具,在可以容忍的时间内对其进行抓取、管理、处理的数据集合。它的数据规模和转输速度要求都很高,一般单个数据集在10TB左右,其结构不适合原本的数据库系统。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结:Volume、Variety、Value和Velocity即数据规模大、种类繁多、价值密度低、处理速度快。具体表现为:1)数据规模大,数据量从TB级别跃升到PB级别。2)数据类型繁多,现在的数据不仅是文本形式,更多的是视频、音频、图片、地理位置信息多类型的数据。3)价值密度低,价值密度高低与数据总量成反比。以网络视频为例,1小时的视频,可能其中只有一分钟甚至几秒钟的数据有价值。4)处理速度快,数据处理遵循“1秒定律”,可以从各类型数据中快速获得高价值信息,这是大数据区分于传统数据挖掘最显著的特征。
针对上述大数据的4个基本特征,现有技术中还没有一种有效的针对大数据的数据治理方法。
针对上述现有技术中还没有有效的大数据的数据治理方法的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种大数据数据治理方法和装置,以至少解决现有技术中还没有有效的大数据的数据治理方法的技术问题。
根据本发明实施例的一个方面,提供了一种大数据数据治理方法,包括:定义元数据;导入元数据;对元数据进行治理和分析,得到分析结果;至少根据分析结果得到元数据图谱。
根据本发明实施例的另一方面,还提供了一种大数据数据治理装置,包括:定义模块,用于定义元数据;导入模块,用于导入元数据;治理分析模块,用于对元数据进行治理和分析,得到分析结果;图谱生成模块,用于至少根据分析结果得到元数据图谱。
在本发明实施例中,通过定义元数据,导入元数据,对元数据进行治理和分析,得到分析结果,至少根据分析结果得到元数据图谱,达到了治理大数据的目的,从而实现了高效集成和治理多而复杂的大数据的技术效果,进而解决了现有技术中还没有有效的大数据的数据治理方法的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种大数据数据治理方法的示意图;
图1a是根据本发明实施例的一种可选的大数据数据治理方法的示意图;
图1b是根据本发明实施例的一种可选的大数据数据治理方法的示意图;
图1c是根据本发明实施例的一种可选的大数据数据治理方法的示意图;
图1d是根据本发明实施例的一种可选的大数据数据治理方法的示意图;
图1e是根据本发明实施例的一种可选的大数据数据治理方法的示意图;以及
图2是根据本发明实施例的一种大数据数据治理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种大数据数据治理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的大数据数据治理方法,如图1所示,该方法包括如下步骤:
步骤S102,定义元数据。
可选的,可以使用九连环数据治理平台来定义元数据,具体的,九连环数据治理平台的元数据定义接口支持并遵循CWM(公共仓库元模型)规范标准,可以作为企业级元数据管理平台,同时提供内置数据字典、代码管理等技术元数据和指标、业务规则等业务元数据以及过程元数据,为企业提供端到端的元数据服务,符合企业数据仓库环境的各类元数据管理模型。元模型可由用户自定义扩展,按需定制,以满足客户化元数据的需求,兼具规范性、灵活性和多样性,针对元模型的操作包括元模型查询、元模型增加、元模型修改、元模型删除、添加关系、权限设置等,其中,元模型为元数据的模型。
步骤S104,导入元数据。
步骤S106,对元数据进行治理和分析,得到分析结果。
步骤S108,至少根据分析结果得到元数据图谱。
在本发明实施例中,通过定义元数据,导入元数据,对元数据进行治理和分析,得到分析结果,至少根据分析结果得到元数据图谱,达到了治理大数据的目的,从而实现了高校集成和治理多而复杂的大数据的技术效果,进而解决了现有技术中还没有有效的大数据的数据治理方法的技术问题。
在一种可选的实施例中,步骤S102中定义元数据,至少包括:定义元数据的数据源、质量维度、检核类别、数据质量衡量标准、检核方法、检核方法审核。
具体的,定义元数据的数据源也就是对数据源进行配置,可选的,可以获取数据源连接的必要参数,比如数据库驱动名称、连接URL、数据库连接用户名和密码等,在具体应用中,只有获取目标系统的数据源连接,才能在目标系统中执行检核脚本。
具体的,本实施例中可以通过对不同业务规则的收集、分类、抽象和概括,来定义多种质量维度。质量维度反映了数据质量不同的规格标准,也体现了高层次的指标度量的特点。
具体的,本实施例中可以在质量维度的基础上根据各业务规则的具体特点细化出检核类别,其中,检核类别可以为多种,检核类别从实施的角度对各质量维度进行更小粒度的划分,并直接对度量规则的提出进行指导性的定义和说明,使得数据质量问题更具有条理性和层次感,并可以直接体现出问题数据的特征。
具体的,数据质量衡量标准也可以称为度量规则,度量规则是由业务人员根据各检核类别对不同的业务实体提出的数据质量的衡量标准。它是各检核类别在不同业务实体上的具体体现。针对不同的业务实体依据检核类别定义出度量规则,每一个度量规则都是从业务实体的角度上对质量问题进行简单的描述,都包含一个或多个信息项,这些信息项就是每一个业务实体具体所要检核的对象,在每一个度量规则的基础上根据不同的信息项可以定义出具体的检核方法。
具体的,检核方法是度量规则在不同信息项上的落地实施,也是检核任务执行的主体。根据度量规则中不同的信息项定义出不同的检核方法,每一个检核方法根据其检核对象定义各自的检核脚本以及相关的属性信息,其中,检核方法中的检核脚本就是执行检核操作时所实际执行的脚本,它反映了质量问题的检核逻辑,根据检核类别的不同,其复杂度也不同。可选的,可以使用检核脚本生成引擎来依据制定的检核方法文档数据自动生成可执行的脚步,其中可自动生成可执行的脚步的检核包括非法值检核、空值检核、码值检核、主键重复检核、主外键检核、业务约束检核等。
具体的,为了方便检核脚本的定义,可以预设脚本配置模板,在填写好脚本配置模板后,便可生成检核方法各自的检核脚本。可选的,可以预设脚本配置模板对应的界面/页面,在页面上导入脚本配置模板后便可自动生成检核方法,在对检核方法的正确性进行校验后,对于配置错误的脚本会予以标识,并可在界面中查询错误信息。
可选的,除了上述定义元数据的数据源、质量维度、检核类别、数据质量衡量标准、检核方法、检核方法审核之外,还包括其他一些参数配置、结果明细页面显示配置等,其中,参数配置中包括一些预设的参数类型以及用户自定义参数配置,用户可在参数配置中维护(新增或修改)不同的参数类型。
可选的,可以通过对企业中多个案例的总结,形成完整的企业级规范与实施方法论,并形成度量规则、检核方法等的模板,按模板向导引导用户将数据质量检核需求落实成技术化的度量规则和检核方法,降低配置成本,提高实施效率。
在一种可选的实施例中,如图1a所示,元数据可以来源于下述服务或应用:数据、副本、ETL(数据仓库技术,Extract-Transform-Load的简写)、缓冲、仓库、集市、服务、应用等,从而形成数据元数据、副本元数据、ETL元数据、缓冲元数据、仓库元数据、集市元数据、服务元数据、应用元数据等,并形成分布式共享中央元数据,存储在多个中央存储中。
在一种可选的实施例中,导入元数据,包括:根据预设模板导入元数据。
具体的,预设模板主要为自动和手动导入元数据时使用,在技术人员需要导入/导出元数据时,提供导入数据的格式。
可选的,在获取元数据时,可以通过其他软件工具,例如MySQL、SQL Server、Oracle、DB2等,自动或手动获取元数据。
在一种可选的实施例中,预设模板为Excel格式的文件,根据预设模板导入元数据,包括:将元模型中每个类型的元数据以及元数据之间的依赖关系导入预设模板的不同工作表中,其中,元模型为用于描述元数据的模型,至少包括元数据的类型。
具体的,预设模板主要用于采集元数据,适用于元数据的导入导出,预设模板可以采用Excel作为文件的格式,对于一般类型的预设模板,元模型中的每个类的元数据对应一个Excel中的Sheet工作表,其中,元模型中包括至少一种元数据类型;元数据之间的组合关系通过被组合的元数据路径体现,元数据之间的依赖关系可以用专门的Sheet存放,用户可按需要灵活定制Excel中的名字、Sheet中列于元模型的对应关系,为了便于使用,可以按类型属性的数据类型在Excel中增加数据有效性验证。
在一种可选的实施例中,在导入元数据之前,需要根据元数据的映射关系对相同的元数据进行合并。
具体的,为解决在企业BI建设中存在的不同层之间的多个元数据,但描述的是同一个元数据的现象,也包括在设计和实现之间存在的多个元数据,但描述的是同一元数据的现象,本发明提供了两种解决方法,其一是通过提出引入元数据映射管理的概念,其主要思路是通过配置元数据之间的映射关系,在有映射关系的元数据目录下,如果元数据的代码相同则认为是同一元数据,元数据映射功能需要建立模型映射,再建立元数据映射,模型映射的目的是为了使不同工具但本质上相同的元数据建立映射关系。其二自动建立元数据间的映射,采集适配器在采集元数据采集的时候自动建立起元数据间的映射关系。
在一种可选的实施例中,在导入元数据之后,还包括对元数据进行检核。
具体的,对元数据进行检核是通过执行检核方法生成相应的检核结果问题数据文件,其中,检核结果问题数据能够反映出用户所关心的数据质量问题。
可选的,对元数据进行检核主要包括检核任务生成、检核任务执行和检核结果文件生成三部分。
具体的,检核任务生成中,在上游系统批处理作业结束之后会触发执行检核任务生成程序,并生成相应的检核任务列表,发现有待执行的检核任务并且当前没有正在执行的检核任务便会启动检核任务,检核任务开始后立即将此任务的状态更改为“正在执行”,在执行检核过程中发现错误,即可将此检核方法对应的检核任务状态置为“执行出错”,对于成功检核完成的任务,将其置为“检核完成”。
具体的,检核任务执行可以采用多线程执行方式,一个检核任务通常包含很多检核方法,为了提高检核的效率,可以采用多线程方式来提高并发处理能力,具体为根据此次检核任务的检核方法数目来决定此次检核任务分配的线程数,同时为了避免造成过大的检核压力,可以预配置一个最大线程数。检核方法会被分配给多个检核线程(线程数目由此次执行的检核方法数目决定,并拥有一个最大线程数),这些检核线程会同时启动,并且同时启动一个伴随线程,其中,伴随线程用于记录这些检核方法的执行结果日志。
具体的,检核结果文件生成中,在检核任务执行过程中,依次执行各个检核方法,检核方法的执行实际上就是其检核脚本的执行。这些检核方法如果有查询出的数据便会在Receive目录中生成其对应的检核结果文件(DAT文件),并同时生成一个同名的XML文件,作为结果文件到达的就绪标识,所有上述文件会存放在Receive目录中的以此次任务的检核日期为名称的文件夹中。
在一种可选的实施例中,对元数据进行治理至少包括:对元数据进行维护、查询、导出、版本管理、变更管理以及检核结果采集。
具体的,元数据维护中,主要维护元数据基本信息、属性、被依赖关系、依赖关系、组合关系的查询修改和删除操作,元数据维护是最基本的管理手段之一,技术人员和业务人员可以使用该功能查看元数据的基本信息。元数据查询中,可以根据搜索条件,查询符合数据访问权限的元数据。元数据导出中,主要指元数据和分析结果的数据导出功能,对元数据树上需要导出的元数据可以全部导出为Excel文件,对影响分析、血统分析、ETL映射分析等分析结果可以支持数据导出和图片导出。元数据版本管理中,主要是对元数据的生命周期管理,包括对元数据的发布、删除和状态变更等都有严格的管理流程,并提供了版本管理功能,以确保元数据的质量,保证元数据的权威性和可靠性。元数据变更管理中,用户可以自行订阅关注的元数据,当这些元数据发生变更后,可以以用户指定的形式通知用户变更的发生,用户可根据指引,进一步查询到该变更的具体内容及相关的影响分析,其中,变更可以不在第一时间通知用户,可以预设检查周期,在检查周期内如果元数据发生变更,则通知用户。检核结果采集中,可以预设采集程序,在采集程序使用Quartz作业的方式进行轮询采集的情况下,由于每次需要采集的文件数量不同,所包含的数据量也不同,再加之其他因素的可能性干扰,所以每一次作业所使用的时间不会相同,这样就会使得每一次作业启动时上一次作业未必已经结束,为了避免不同作业批次之间的资源争用问题,可以采用单作业执行的方式,如果作业启动时上一次作业还没有结束,则本次作业自动结束,直到上次作业结束才启动下一次作业,检核结果采集中可以将检核结果文件采集入库,并在采集过程中对这些检核结果数据进行简单的汇总操作,并将这些明细数据和汇总数据分别存入结果明细表和汇总表,此过程中如果发生了异常则对数据库表进行回滚操作,以避免出现不完整的数据,然后将此文件移至Error目录,每一个结果文件在采集入库后都将被删除,在所有的结果文件采集结束后,判断当前文件夹下是否还有未采集的结果文件,如果没有便删除当前文件夹;如果仍然存在结果文件,比如因就绪文件未到达而没有采集的文件,则保留当前文件夹中的所有文件,等待下次采集时间点的到达。
可选的,对元数据进行治理还包括生成跨工具和应用的企业级的元数据统一视图,为清晰定义和分析跟踪业务运作历史数据提供实际可行的解决方案。
可选的,对元数据进行治理时可以提前生成按照业务线的企业数据流图,业务人员可以个性化该企业数据流图,主要体现其中一个或多个业务线,方便业务人员理解。
在一种可选的实施例中,如图1b所示,数据治理中的业务线包括ERP(企业资源计划,Enterprise Resource Planning的简称)、CRM(客户关系管理,Customer RelationshipManagement的简称)、SCM(供应链管理,Supply chain management的简称)、BPM(业务流程管理,BPM-Business Process Management的简称)、ARCHIVE(归档)、MDM(移动设备管理,Mobile Device Management的简称)、ETL(Extract-Transform-Load)、BA(商业分析,BusinessAnalytics的简称)、V&D(可视化与控制台,Visualization&Dashboards的简称)等。
在一种可选的实施例中,对元数据进行分析,至少包括:采用血统分析、详细分析、汇总分析、概览分析、影响分析、详细分析、汇总分析、概览分析的方式对元数据进行分析。
具体的,针对血统分析,血统分析是建立在企业整体元数据整合的基础上,提供了跨IT系统、跨BI工具的元数据分析,能够了解数据流动变化的来源和目的,实现以数据流向为主线的血缘追溯。血统分析的作用主要表现为以下几个方面,提升报表信息的可信度,为企业数据的合规性提供验证手段,帮助业务部门与IT支撑部门实现信息共享、提升协调工作效率等。
具体的,针对影响分析,为了实现正确、及时的分析功能,可以将企业元数据进行整合,改变原有各IT系统、BI工具集数据模型等元数据间各自隔离、互补关联的现状,有效地将各部分的局部表述统一为整体,归并重复表述,并对冲突表述进行甄别并提供进一步处理,在此基础上影响分析提供基于数据流影响分析功能。用户分析能迅速了解分析对象的下游数据信息,快速识别元数据的价值,掌握元数据变更可能造成的影响,以便更有效的评估变化带来的风险,从而帮助用户有高效准确的对数据资产进行清理、维护与使用。
可选的,针对血统分析和影响分析,可以提供详细分析、概览分析和汇总分析三种粒度的分析,实现数据的细粒度展现到粗粒度展现的切换,为用户提供多视角的分析结果展现。
具体的,分析结果可以以分析表的形式存储,分析表元数据与其他元数据的关系出现次数(如:表与ETL程序、表与OLAP、表与指标等)决定了分析表的重要程度,出现次数越多的分析表重要程度越高,分析表可以用于展现表的依赖程度,在这些表需要变动时,也可以查询它的影响范围,方便技术人员使用。
在一种可选的实施例中,在整个数据的计算分析过程中,可以记录下计算的原始数据、计算的结果数据,如图1c所示,原始数据在经过数据加载程序和数据清洗数据后,记录计算的结果数据;在整个数据的计算分析过程中,也可以计算分析单元的元数据、以及各个角色之间的关系的元数据,形成数据的血脉关系,为元数据分析提供基础数据的准备,如图1d所示,可以计算分析源数据表sample_07和源数据表sample_08之间的关系,形成结果数据表sample_09。
在一种可选的实施例中,至少根据分析结果得到元数据图谱中,元数据图谱可以具体指数据地图。
具体的,由于企业内的元数据种类繁多、形式各异,对元数据进行集中和管理中,如何提供便捷的使用方式,成为发挥企业信息资产价值的关键。前文中提到的用户数据视图、元数据查询等功能为面向元数据细节信息的使用需求,更适用于具体的人员、部门基于元数据开展相关工作,但是对于企业管理人员等高层,由于关注范围更加广泛,大量的细节信息不能有效的满足该类用户的需要,而企业的数据地图用于宏观层面以及组织信息,能够以用户视角对企业信息进行归并、整理,展现企业的宏观信息并有效挖掘企业信息的潜在价值。如图1e所示,图1e为一种数据地图的示例。
在一种可选的实施例中,在得到元数据图谱后,可以根据元数据图谱进行问题数据分析,具体包括针对检核对象问题数据的监控检索、对问题数据数量变化的趋势分析、对问题数据不同检核类别的数据分布分析以及对问题数据的整体分析功能,并且可以生成数据质量报告,启动问题治理流程。
具体的,问题数据检索中,可根据不同条件进行组合检索,还可对查询结果(包括汇总数据和明细数据)进行自定义排序以及根据问题率对结果数据进行筛选,在查看结果明细数据时,用户可自定义定制自己的明细数据显示列。在趋势分析中,用户可选择一段时间内的同一个检核方法所检核出的问题数据量的变化趋势图,以更直观的方式查看数据质量问题的变化以及对质量问题的治理结果。数据质量报告中,具体可以包括数据问题分析报告、度量规则和检核方法分析报告等,也可以包括其他可定制化开发数据报告,数据质量报告提供了一个集中展示数据质量状况的窗口,数据质量管理人员召集相关人员对数据质量报告进行分析讨论,以总结经验、沉淀知识和改进方法,不断提高各数据平台数据质量问题的处理能力,其中,数据质量报告支持图形化展现,并可支持钻取到明细页面,打通链路,支持实时导出即见即所得。
在一种可选的实施例中,方法基于九连环大数据平台实现。
具体的,本发明的大数据数据治理方法可以基于九连环大数据平台实现,提供具体的九连环融合平台数据治理服务。
通过上述所有的实施例,本发明提供了一种在大数据场景下的可伸缩、可扩展、全配置、支持动态数据探查与多维数据接入、能够自动化分析血缘关系与影响力的大数据数据治理方法,可以应用到治理以及服务多而复杂的各个子系统中,能够解决各个子系统之间参差不齐的依赖关系,高效的集成与治理数据生态,具体的,通过接入行业的各类数据,并全面共享元数据,提供了统一的数据字典,通过数据管理系统建立了数据标准和技术数据的映射,辅助数据标准的落地执行,通过数据治理平台构建数据流视图,提供了数据的血统、影响分析,辅助系统的开发运维和集中的管理与审计,提高采集的自动化程度,确保数据获取的及时性和准确性。
实施例2
根据本发明实施例,提供了一种大数据数据治理装置的产品实施例,图2是根据本发明实施例的大数据数据治理装置,如图2所示,该装置包括定义模块、导入模块、治理分析模块和图谱生成模块。其中,定义模块,用于定义元数据;导入模块,用于导入元数据;治理分析模块,用于对元数据进行治理和分析,得到分析结果;图谱生成模块,用于至少根据分析结果得到元数据图谱。
在本发明实施例中,通过定义模块定义元数据,并由导入模块导入元数据,由治理分析模块对元数据进行治理和分析,得到分析结果,最后由图谱生成模块至少根据分析结果得到元数据图谱,达到了治理大数据的目的,从而实现了高校集成和治理多而复杂的大数据的技术效果,进而解决了现有技术中还没有有效的大数据的数据治理方法的技术问题。
此处需要说明的是,上述定义模块、导入模块、治理分析模块和图谱生成模块对应于实施例1中的步骤S102至步骤S108,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,定义模块定义元数据,至少包括:定义元数据的数据源、质量维度、检核类别、数据质量衡量标准、检核方法、检核方法审核。
在一种可选的实施例中,导入模块导入元数据,包括:根据预设模板导入元数据。
在一种可选的实施例中,预设模板为Excel格式的文件,导入模块根据预设模板导入元数据,包括:将元模型中每个类型的元数据以及元数据之间的依赖关系导入预设模板的不同工作表中,其中,元模型为用于描述元数据的模型,至少包括元数据的类型。
在一种可选的实施例中,治理分析模块对元数据进行治理至少包括:对元数据进行维护、查询、导出、版本管理、变更管理以及检核结果采集。
在一种可选的实施例中,治理分析模块对元数据进行分析,至少包括:采用血统分析、详细分析、汇总分析、概览分析、影响分析、详细分析、汇总分析、概览分析的方式对元数据进行分析。
在一种可选的实施例中,方法基于九连环大数据平台实现。
此处需要说明的是,大数据数据治理装置的其他技术特征可以参照上述大数据数据治理方法,此处不再赘述。
实施例3
根据本发明实施例,提供了一种存储介质的产品实施例,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行大数据数据治理方法。
实施例4
根据本发明实施例,提供了一种处理器的产品实施例,该处理器用于运行程序,其中,程序运行时执行大数据数据治理方法。
实施例5
根据本发明实施例,提供了一种终端的产品实施例,该终端包括定义模块、导入模块、治理分析模块、图谱生成模块和处理器,其中,定义模块,用于定义元数据;
导入模块,用于导入元数据;治理分析模块,用于对元数据进行治理和分析,得到分析结果;图谱生成模块,用于至少根据分析结果得到元数据图谱;处理器,处理器运行程序,其中,程序运行时对于从定义模块、导入模块、治理分析模块和图谱生成模块输出的数据执行如下处理步骤:第一步骤,定义元数据;第二步骤,导入元数据;第三步骤,对元数据进行治理和分析,得到分析结果;以及第四步骤,至少根据分析结果得到元数据图谱。
实施例6
根据本发明实施例,提供了一种终端的产品实施例,该终端包括定义模块、导入模块、治理分析模块、图谱生成模块和存储介质,其中,定义模块,用于定义元数据;导入模块,用于导入元数据;治理分析模块,用于对元数据进行治理和分析,得到分析结果;图谱生成模块,用于至少根据分析结果得到元数据图谱;存储介质,用于存储程序,其中,程序在运行时对于从定义模块、导入模块、治理分析模块和图谱生成模块输出的数据执行如下处理步骤:第一步骤,定义元数据;第二步骤,导入元数据;第三步骤,对元数据进行治理和分析,得到分析结果;以及第四步骤,至少根据分析结果得到元数据图谱。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种大数据数据治理方法,其特征在于,包括:
定义元数据;
导入所述元数据;
对所述元数据进行治理和分析,得到分析结果;
至少根据所述分析结果得到元数据图谱。
2.根据权利要求1所述的方法,其特征在于,定义元数据,至少包括:定义元数据的数据源、质量维度、检核类别、数据质量衡量标准、检核方法、检核方法审核。
3.根据权利要求1所述的方法,其特征在于,导入所述元数据,包括:根据预设模板导入所述元数据。
4.根据权利要求3所述的方法,其特征在于,所述预设模板为Excel格式的文件,根据预设模板导入所述元数据,包括:
将元模型中每个类型的所述元数据以及所述元数据之间的依赖关系导入所述预设模板的不同工作表中,其中,所述元模型为用于描述所述元数据的模型,至少包括所述元数据的类型。
5.根据权利要求1所述的方法,其特征在于,对所述元数据进行治理至少包括:对所述元数据进行维护、查询、导出、版本管理、变更管理以及检核结果采集。
6.根据权利要求1所述的方法,其特征在于,对所述元数据进行分析,至少包括:采用血统分析、详细分析、汇总分析、概览分析、影响分析、详细分析、汇总分析、概览分析的方式对所述元数据进行分析。
7.根据权利要求1所述的方法,其特征在于,所述方法基于九连环大数据平台实现。
8.一种大数据数据治理装置,其特征在于,包括:
定义模块,用于定义元数据;
导入模块,用于导入所述元数据;
治理分析模块,用于对所述元数据进行治理和分析,得到分析结果;
图谱生成模块,用于至少根据所述分析结果得到元数据图谱。
9.根据权利要求1所述的装置,其特征在于,所述定义模块包括:定义元数据的数据源、质量维度、检核类别、数据质量衡量标准、检核方法、检核方法审核。
10.根据权利要求1所述的装置,其特征在于,所述治理分析模块包括:采用血统分析、详细分析、汇总分析、概览分析、影响分析、详细分析、汇总分析、概览分析的方式对所述元数据进行分析。
CN201710421769.4A 2017-06-07 2017-06-07 大数据数据治理方法和装置 Pending CN107256247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710421769.4A CN107256247A (zh) 2017-06-07 2017-06-07 大数据数据治理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710421769.4A CN107256247A (zh) 2017-06-07 2017-06-07 大数据数据治理方法和装置

Publications (1)

Publication Number Publication Date
CN107256247A true CN107256247A (zh) 2017-10-17

Family

ID=60023622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710421769.4A Pending CN107256247A (zh) 2017-06-07 2017-06-07 大数据数据治理方法和装置

Country Status (1)

Country Link
CN (1) CN107256247A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228747A (zh) * 2017-12-20 2018-06-29 江苏数加数据科技有限责任公司 数据治理中的数据血缘关系可视化图形系统
CN108959227A (zh) * 2018-07-12 2018-12-07 山东汇贸电子口岸有限公司 一种基于b/s架构的自定义报表系统及方法
CN109408502A (zh) * 2018-11-14 2019-03-01 成都四方伟业软件股份有限公司 一种数据标准处理方法、装置及其存储介质
CN109739893A (zh) * 2018-12-28 2019-05-10 上海连尚网络科技有限公司 一种元数据管理方法、设备及计算机可读介质
CN109976929A (zh) * 2017-12-28 2019-07-05 中国电信股份有限公司 数据生产过程的故障定位方法、装置
CN110136789A (zh) * 2019-05-14 2019-08-16 浪潮软件集团有限公司 一种基于电子病历应用的数据治理质量检测方法
CN110222017A (zh) * 2019-05-13 2019-09-10 北京百度网讯科技有限公司 实时数据的处理方法、装置、设备及计算机可读存储介质
CN110750695A (zh) * 2019-09-23 2020-02-04 厦门信息集团大数据运营有限公司 信用数据的处理方法及计算机可读存储介质
CN110825507A (zh) * 2019-10-31 2020-02-21 杭州米络星科技(集团)有限公司 一种支持多任务重跑的调度方法
CN111159171A (zh) * 2019-12-31 2020-05-15 中国铁塔股份有限公司 一种数据稽核方法及系统
CN111241073A (zh) * 2018-11-29 2020-06-05 阿里巴巴集团控股有限公司 一种数据质量检查方法及装置
CN111399826A (zh) * 2020-03-19 2020-07-10 北京三维天地科技股份有限公司 一种可视化拖拽流程图式etl在线数据交换方法和系统
CN111428095A (zh) * 2020-06-11 2020-07-17 上海冰鉴信息科技有限公司 图数据质量验证方法及图数据质量验证装置
WO2021032146A1 (zh) * 2019-08-22 2021-02-25 中兴通讯股份有限公司 元数据管理方法和装置、设备及存储介质
CN112434071A (zh) * 2020-12-15 2021-03-02 北京三维天地科技股份有限公司 一种基于数据图谱的元数据血缘关系与影响分析平台
CN112905564A (zh) * 2021-02-26 2021-06-04 浪潮云信息技术股份公司 基于Atlas管理Oracle数据库元数据的方法及装置
CN113886131A (zh) * 2021-10-28 2022-01-04 建信金融科技有限责任公司 数据检核方法、装置、设备及存储介质
CN116860760A (zh) * 2023-08-31 2023-10-10 中国标准化研究院 一种基于元数据的空间地理数据存储方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036365A (zh) * 2014-06-26 2014-09-10 浪潮软件股份有限公司 一种企业级数据服务平台建设方法
CN105893593A (zh) * 2016-04-18 2016-08-24 国网山东省电力公司信息通信公司 一种数据融合的方法
CN106203828A (zh) * 2016-07-11 2016-12-07 浪潮软件集团有限公司 一种基于数据全生命周期管理的数据管理平台
CN106453490A (zh) * 2016-08-31 2017-02-22 江苏艾倍科科技股份有限公司 一种北斗移动穿戴设备数据集成平台及其数据治理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036365A (zh) * 2014-06-26 2014-09-10 浪潮软件股份有限公司 一种企业级数据服务平台建设方法
CN105893593A (zh) * 2016-04-18 2016-08-24 国网山东省电力公司信息通信公司 一种数据融合的方法
CN106203828A (zh) * 2016-07-11 2016-12-07 浪潮软件集团有限公司 一种基于数据全生命周期管理的数据管理平台
CN106453490A (zh) * 2016-08-31 2017-02-22 江苏艾倍科科技股份有限公司 一种北斗移动穿戴设备数据集成平台及其数据治理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
于天娇: "基于元数据的银行数据质量管理技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈丽: "税收数据治理平台的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228747A (zh) * 2017-12-20 2018-06-29 江苏数加数据科技有限责任公司 数据治理中的数据血缘关系可视化图形系统
CN109976929A (zh) * 2017-12-28 2019-07-05 中国电信股份有限公司 数据生产过程的故障定位方法、装置
CN108959227A (zh) * 2018-07-12 2018-12-07 山东汇贸电子口岸有限公司 一种基于b/s架构的自定义报表系统及方法
CN109408502A (zh) * 2018-11-14 2019-03-01 成都四方伟业软件股份有限公司 一种数据标准处理方法、装置及其存储介质
CN111241073A (zh) * 2018-11-29 2020-06-05 阿里巴巴集团控股有限公司 一种数据质量检查方法及装置
CN111241073B (zh) * 2018-11-29 2023-06-20 阿里巴巴集团控股有限公司 一种数据质量检查方法及装置
CN109739893A (zh) * 2018-12-28 2019-05-10 上海连尚网络科技有限公司 一种元数据管理方法、设备及计算机可读介质
CN110222017B (zh) * 2019-05-13 2021-09-21 北京百度网讯科技有限公司 实时数据的处理方法、装置、设备及计算机可读存储介质
CN110222017A (zh) * 2019-05-13 2019-09-10 北京百度网讯科技有限公司 实时数据的处理方法、装置、设备及计算机可读存储介质
CN110136789A (zh) * 2019-05-14 2019-08-16 浪潮软件集团有限公司 一种基于电子病历应用的数据治理质量检测方法
WO2021032146A1 (zh) * 2019-08-22 2021-02-25 中兴通讯股份有限公司 元数据管理方法和装置、设备及存储介质
CN110750695A (zh) * 2019-09-23 2020-02-04 厦门信息集团大数据运营有限公司 信用数据的处理方法及计算机可读存储介质
CN110825507A (zh) * 2019-10-31 2020-02-21 杭州米络星科技(集团)有限公司 一种支持多任务重跑的调度方法
CN110825507B (zh) * 2019-10-31 2022-03-11 杭州米络星科技(集团)有限公司 一种支持多任务重跑的调度方法
CN111159171A (zh) * 2019-12-31 2020-05-15 中国铁塔股份有限公司 一种数据稽核方法及系统
CN111399826B (zh) * 2020-03-19 2020-12-01 北京三维天地科技股份有限公司 一种可视化拖拽流程图式etl在线数据交换方法和系统
CN111399826A (zh) * 2020-03-19 2020-07-10 北京三维天地科技股份有限公司 一种可视化拖拽流程图式etl在线数据交换方法和系统
CN111428095A (zh) * 2020-06-11 2020-07-17 上海冰鉴信息科技有限公司 图数据质量验证方法及图数据质量验证装置
US11170050B1 (en) 2020-06-11 2021-11-09 Shanghai Icekredit, Inc. Method and device for graph data quality verification
CN111428095B (zh) * 2020-06-11 2020-08-28 上海冰鉴信息科技有限公司 图数据质量验证方法及图数据质量验证装置
CN112434071B (zh) * 2020-12-15 2021-07-20 北京三维天地科技股份有限公司 一种基于数据图谱的元数据血缘关系与影响分析平台
CN112434071A (zh) * 2020-12-15 2021-03-02 北京三维天地科技股份有限公司 一种基于数据图谱的元数据血缘关系与影响分析平台
CN112905564A (zh) * 2021-02-26 2021-06-04 浪潮云信息技术股份公司 基于Atlas管理Oracle数据库元数据的方法及装置
CN113886131A (zh) * 2021-10-28 2022-01-04 建信金融科技有限责任公司 数据检核方法、装置、设备及存储介质
CN113886131B (zh) * 2021-10-28 2023-05-26 建信金融科技有限责任公司 数据检核方法、装置、设备及存储介质
CN116860760A (zh) * 2023-08-31 2023-10-10 中国标准化研究院 一种基于元数据的空间地理数据存储方法及装置
CN116860760B (zh) * 2023-08-31 2023-11-17 中国标准化研究院 一种基于元数据的空间地理数据存储方法及装置

Similar Documents

Publication Publication Date Title
CN107256247A (zh) 大数据数据治理方法和装置
Song et al. Environmental performance evaluation with big data: Theories and methods
Bock et al. Analysis of symbolic data: exploratory methods for extracting statistical information from complex data
CN110781236A (zh) 一种构建政务大数据治理体系的方法
CN110088749A (zh) 自动本体生成
US20070162482A1 (en) Method and system of using artifacts to identify elements of a component business model
CN107810500A (zh) 数据质量分析
CN106663037A (zh) 特征处理权衡管理
CN105359141A (zh) 支持基于流的etl和基于实体关系的etl的组合
CN109754219A (zh) 一种基于城市管理的大数据管理及分析平台系统
Priebe et al. Business information modeling: A methodology for data-intensive projects, data science and big data governance
CN108694448A (zh) Phm平台
CN116089495A (zh) 一种基于大数据的自助分析平台
CN115547466A (zh) 基于大数据的医疗机构登记评审系统及其方法
Lee et al. Hands-On Big Data Modeling: Effective database design techniques for data architects and business intelligence professionals
Fana et al. Data Warehouse Design With ETL Method (Extract, Transform, And Load) for Company Information Centre
CN114722789B (zh) 数据报表集成方法、装置、电子设备及存储介质
CN115952224A (zh) 一种异构报表集成方法、设备及介质
US20140149186A1 (en) Method and system of using artifacts to identify elements of a component business model
CN109242431A (zh) 一种基于数据体系的企业管理方法及其系统
Biagi et al. Data Model Design to Support Data-Driven IT Governance Implementation. Technologies 2022, 10, 106
CN112380264A (zh) 一种基于个人全生命周期的政策解析和匹配的方法及装置
Fang et al. Analysis of human resource allocation scheme for digital media big data based on recurrent neural network model
Wang Digital Intelligent Accounting Information Processing System Based on Big Data
Qiao et al. Design of overall framework of self-service big data governance for power grid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171017