CN110263229B - 一种基于数据湖的数据治理方法及装置 - Google Patents

一种基于数据湖的数据治理方法及装置 Download PDF

Info

Publication number
CN110263229B
CN110263229B CN201910570011.6A CN201910570011A CN110263229B CN 110263229 B CN110263229 B CN 110263229B CN 201910570011 A CN201910570011 A CN 201910570011A CN 110263229 B CN110263229 B CN 110263229B
Authority
CN
China
Prior art keywords
data
quality analysis
parameter
analyzed
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910570011.6A
Other languages
English (en)
Other versions
CN110263229A (zh
Inventor
黄文俊
王铁成
南菊红
杜金虎
杨勇
刘景义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunlun Digital Technology Co ltd
China National Petroleum Corp
BGP Inc
Original Assignee
BGP Inc
CNPC Beijing Richfit Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGP Inc, CNPC Beijing Richfit Information Technology Co Ltd filed Critical BGP Inc
Priority to CN201910570011.6A priority Critical patent/CN110263229B/zh
Publication of CN110263229A publication Critical patent/CN110263229A/zh
Application granted granted Critical
Publication of CN110263229B publication Critical patent/CN110263229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Factory Administration (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于数据湖的数据治理方法及装置,基于数据湖的数据治理方法包括:获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;确定所述数据质量分析评分大于存储的数据质量分析评分;根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。可以提升数据的清洗整合效率。

Description

一种基于数据湖的数据治理方法及装置
技术领域
本申请涉及石化技术领域,具体而言,涉及一种基于数据湖的数据治理方法及装置。
背景技术
数据湖(Data Lake)作为一集中式的存储库,可以无需对数据进行结构化处理,能够实现以任意规模存储结构化数据和非结构化数据,允许组织中的各种角色,例如,数据科学家、数据开发人员和业务分析师通过各自选择的分析工具和框架来访问数据,达到以不同方式协同处理和分析数据,得到了广泛的应用。
目前,对于石油勘探领域产出的数据,已实现了基于数据湖的数据集中,使得其它上层业务应用都可以依托于数据湖中的数据,进行相应的数据协同处理和分析,但由于数据湖中的数据可能会存在大量无效数据或不完整数据或异常数据等低质量的数据,会降低协同处理和分析的质量,因而,数据湖中数据的质量成为影响数据协同处理和分析质量的重要因素,而如何确保数据湖中数据在整个数据生命周期中的高质量,是数据湖生态环境面临的重要技术问题。
为了提升数据湖中的数据质量,现有技术中,在数据湖获取到来自各信息系统的源数据后,通过对源数据进行清洗整合来实现对数据的治理,以提高数据质量。但该方法,由于源数据量一般非常巨大,而数据湖进行清洗整合的运算资源较为有限,使得数据的清洗整合效率较低,不能满足数据湖中大数据量的清洗整合需求。
发明内容
有鉴于此,本申请的目的在于提供一种基于数据湖的数据治理方法及装置,提升数据的清洗整合效率。
第一方面,本申请实施例提供了一种基于数据湖的数据治理方法,包括:
获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;
依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;
确定所述数据质量分析评分大于存储的数据质量分析评分;
根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。
结合第一方面,本发明提供了第一方面的第一种可能的实施方式,其中,在所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析之前,所述方法还包括:
删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据;
修复所述待分析过滤数据中缺失的数据值,以对修复的所述待分析过滤数据进行质量分析。
结合第一方面的第一种可能的实施方式,本发明提供了第一方面的第二种可能的实施方式,其中,所述删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据,包括:
对所述待分析数据进行业务类型分类,得到各分类数据;
针对每一分类数据,提取该分类数据中的每一条数据中包含的数据键以及该数据键对应的数据值,查询该分类数据对应的数据异常键值对集,得到该数据键对应的数据异常值;
依据所述数据值和所述数据异常值,确定所述数据值对应的数据是否异常,若异常,删除该数据,并存入异常预警数据域。
结合第一方面的第一种可能的实施方式,本发明提供了第一方面的第三种可能的实施方式,其中,所述修复所述待分析过滤数据中缺失的数据值,包括:
从所述待分析过滤数据中,提取各第一数据参数对应的第一数据参数值,得到第一数据参数值集;
从所述第一数据参数值集中,删除空的数据参数值,得到第二数据参数值集;
计算所述第二数据参数值集中的各数据参数值的平均值,将所述平均值填入数据参数值为空的第一数据参数中。
结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本发明提供了第一方面的第四种可能的实施方式,其中,所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分,包括:
针对每一分类的待分析数据,依据该分类的待分析数据中每一数据参数对应的数据参数值,查询预先设置的该数据参数对应的数据参数值质量评分规则,得到该数据参数对应的数据参数质量评分;
依据分类的待分析数据中每一数据参数对应的数据参数权重,以及,该数据参数对应的数据参数质量评分,获取该分类的待分析数据的数据质量分析评分。
结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本发明提供了第一方面的第五种可能的实施方式,其中,所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分,包括:
针对每一分类的待分析数据,依据预设的数据参数阈值,对该分类的待分析数据中每一数据参数对应的数据参数值进行归一化处理,得到每一数据参数对应的归一化值;
查询预先设置的数据参数归一化值质量评分规则,得到每一数据参数分别对应的数据参数质量评分;
依据分类的待分析数据中每一数据参数对应的数据参数权重,以及,该数据参数对应的数据参数质量评分,获取该分类的待分析数据的数据质量分析评分。
结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本发明提供了第一方面的第六种可能的实施方式,其中,所述根据所述数据质量分析评分调整数据清洗策略,包括:
获取所述数据质量分析评分对应的待分析数据中各数据参数对应的数据第一参数值;
获取存储的数据质量分析评分对应的待分析数据中各数据参数对应的数据第二参数值;
针对每一数据参数,依据该数据参数对应的数据第一参数值以及数据第二参数值,调整数据清洗策略中该数据参数对应的清洗阈值。
结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本发明提供了第一方面的第七种可能的实施方式,其中,所述方法还包括:
若确定的所述数据质量分析评分达到预先设置的数据质量评分阈值,通知所述预设埋点停止采集待分析数据。
结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本发明提供了第一方面的第八种可能的实施方式,其中,所述方法还包括:
利用大于存储的数据质量分析评分的所述数据质量分析评分,替换所述存储的数据质量分析评分。
第二方面,本申请实施例提供了一种基于数据湖的数据治理装置,包括:
埋点数据获取模块,用于获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;
评分模块,用于依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;
判断模块,用于确定所述数据质量分析评分大于存储的数据质量分析评分;
数据清洗策略调整模块,用于根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本申请实施例提供的一种基于数据湖的数据治理方法及装置,通过获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;确定所述数据质量分析评分大于存储的数据质量分析评分;根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。这样,利用埋点采集获取待分析数据,依据数据质量分析策略对待分析数据进行质量分析,在确定质量分析得到的数据质量分析评分大于存储的数据质量分析评分后,根据数据质量分析评分调整数据清洗策略并向节点下发调整的数据清洗策略,使得在数据传输至数据湖之前,节点依据接收的数据清洗策略,对传输的数据进行清洗,使得传输至数据湖中的数据质量得到有效提升,有效减少了数据湖中的数据量,降低了数据湖进行清洗整合所需的运算资源,有效提升数据湖对数据的清洗整合效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于数据湖的数据治理方法流程示意图;
图2为本申请实施例提供的一种基于数据湖的数据治理装置结构示意图;
图3为本申请实施例提供的一种计算机设备300的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种基于数据湖的数据治理方法流程示意图。如图1所示,该方法包括:
步骤101,获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;
本申请实施例中,作为一可选实施例,以数据对应的业务类型作为驱动,将埋点布设在数据流转(例如,数据汇聚、数据加工、数据转换)传输路径上的关键业务节点上。
本申请实施例中,作为一可选实施例,数据按照业务类型进行划分,包括但不限于:主数据、基础数据、物探数据、钻井数据、录井数据、测井数据、试油试采数据、井下作业数据、分析化验数据、地理信息数据、经营管理数据、物联网实时数据以及地质油藏数据等。
本申请实施例中,根据预先设置的业务类型布置埋点,埋点按照预先设置的埋点数据采集规范进行数据采集,将采集的数据传输至服务器,服务器对埋点采集的数据进行汇总。
步骤102,依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;
本申请实施例中,由于埋点采集的数据,会存在一些由于非数据生产过程中导致的数据值缺失的数据或数据值异常的数据,例如,在数据传输中由于网络波动导致传输的数据值发生改变,该类数据会影响后续的数据质量分析,因而,作为一可选实施例,在所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析之前,该方法还包括:
A11,删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据;
本申请实施例中,作为一可选实施例,删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据,包括:
B11,对所述待分析数据进行业务类型分类,得到各分类数据;
本申请实施例中,不同业务类型对应的数据,可能具有不同的数据参数,对应的数据值异常判断标准也会不同,因而,作为一可选实施例,先对待分析数据进行业务类型分类。
B12,针对每一分类数据,提取该分类数据中的每一条数据中包含的数据键以及该数据键对应的数据值,查询该分类数据对应的数据异常键值对集,得到该数据键对应的数据异常值;
本申请实施例中,每一条数据中可能会包含一个或多个数据参数,每一数据参数对应有一数据参数值。同一业务类型对应的数据中,包含的数据参数是相同的,对应的数据参数值可能相同,也可能不同。作为一可选实施例,预先设置该业务类型的分类数据对应的数据异常键值对集,在数据异常键值对集中,每一数据异常键对应一数据参数,该数据异常键对应的数据异常值为表征异常的数据参数值,数据异常键与数据异常值一一对应,不同的数据参数,对应的数据异常键也不同。
本申请实施例中,作为一可选实施例,数据异常值可通过机器学习的方法,结合业务类型对应的海量数据,利用大数据分析技术得到。
本申请实施例中,作为一可选实施例,数据异常键利用哈希算法,对数据参数进行哈希运算得到,作为另一可选实施例,数据异常键也可以是数据参数名。
B13,依据所述数据值和所述数据异常值,确定所述数据值对应的数据是否异常,若异常,删除该数据,并把异常数据存入异常预警数据域。
本申请实施例中,作为一可选实施例,若一条数据中的任一数据参数对应的数据参数值达到预先设置的该数据参数对应的数据异常值,则删除该条数据。
本申请实施例中,作为一可选实施例,数据异常值可以是一数值区间,若数据值在该数值区间内,表明该数据为异常数据;数据异常值也可以是一具体数值,且大于或小于该数值,以小于为例,若数据值小于该数据异常值,表明该数据为异常数据。
A12,修复所述待分析过滤数据中缺失的数据值,以对修复的所述待分析过滤数据进行质量分析。
本申请实施例中,对于一些数据,其中一些数据参数对应的数据参数值可能存在缺失的情形,若依据这些数据进行质量分析,会导致分析得到的数据质量不准确,可以依据预先设置的数据值缺失补偿策略,对缺失的数据值进行补偿。因而,作为一可选实施例,修复所述待分析过滤数据中缺失的数据值,包括:
C11,从所述待分析过滤数据中,提取各第一数据参数对应的第一数据参数值,得到第一数据参数值集;
本申请实施例中,遍历待分析过滤数据中的每一数据参数,针对每一数据参数,提取各数据中该数据参数对应的数据参数值,得到第一数据参数值集,每一数据参数对应一第一数据参数值集。
C12,从所述第一数据参数值集中,删除空的数据参数值,得到第二数据参数值集;
本申请实施例中,删除空(缺失)的数据参数值。
C13,计算所述第二数据参数值集中的各数据参数值的平均值,将所述平均值填入数据参数值为空的第一数据参数中。
本申请实施例中,利用平均值替换空的数据参数值,从而对数据中空的数据参数值进行修复。作为另一可选实施例,也可以采用其他方法对缺失的数据值进行修复,例如,按照正态分布方法进行缺失的数据参数值的修复。
本申请实施例中,作为一可选实施例,数据质量分析策略包括各业务类型质量分析策略,例如,包括主数据质量分析策略、基础数据质量分析策略、物探数据质量分析策略、钻井数据质量分析策略等。每一业务类型质量分析策略用于对相应业务类型的数据进行质量分析。这样,可以针对性地对该业务类型的数据进行治理,从而提升数据治理效率,能使得治理后的数据质量更高。因而,作为一可选实施例,依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分,包括:
D11,针对每一分类的待分析数据,依据该分类的待分析数据中每一数据参数对应的数据参数值,查询预先设置的该数据参数对应的数据参数值质量评分规则,得到该数据参数对应的数据参数质量评分;
本申请实施例中,每一分类的待分析数据,对应其中的每一数据参数,分别设置有对应的数据参数值质量评分规则,各数据参数值质量评分规则组成业务类型质量分析策略。其中,数据参数值质量评分规则依据预设的数据参数值与实际的待分析数据中对应的数据参数值的差值确定,差值越大,数据参数质量评分越低。
D12,依据分类的待分析数据中每一数据参数对应的数据参数权重,以及,该数据参数对应的数据参数质量评分,获取该分类的待分析数据的数据质量分析评分。
本申请实施例中,对于分类的待分析数据中的不同数据参数,分别设置有对应的数据参数权重,其中,若数据参数对数据的质量影响越大,对应的数据参数权重也越大。作为一可选实施例,分类的待分析数据中的不同数据参数对应的数据参数权重之和为1。
本申请实施例中,针对分类的待分析数据,将数据参数对应的数据参数权重与该数据参数对应的数据参数质量评分进行相乘,得到该数据参数的数据参数质量权重评分,对各数据参数质量权重评分进行求和计算,得到该分类的待分析数据的数据质量分析评分。
本申请实施例中,作为另一可选实施例,依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分,包括:
D21,针对每一分类的待分析数据,依据预设的数据参数阈值,对该分类的待分析数据中每一数据参数对应的数据参数值进行归一化处理,得到每一数据参数对应的归一化值;
本申请实施例中,计算数据参数对应的数据参数值与预设的该数据参数对应的数据参数阈值的比值,得到归一化值。其中,不同的数据参数,对应的数据参数阈值可以相同,也可以不同。这样,通过归一化处理,可以得到每一数据参数值偏离预设的数据参数阈值的偏离程度,该偏离程度可以表征各数据参数值的质量。
D22,查询预先设置的数据参数归一化值质量评分规则,得到每一数据参数分别对应的数据参数质量评分;
本申请实施例中,所有分类的待分析数据,可以对应一数据参数归一化值质量评分规则,也可以是每一分类的待分析数据,对应一数据参数归一化值质量评分规则。其中,数据参数归一化值质量评分规则为归一化值与数据参数质量评分的映射关系。
D23,依据分类的待分析数据中每一数据参数对应的数据参数权重,以及,该数据参数对应的数据参数质量评分,获取该分类的待分析数据的数据质量分析评分。
本申请实施例中,数据质量分析评分是一数值。
步骤103,确定所述数据质量分析评分大于存储的数据质量分析评分;
本申请实施例中,存储的数据质量分析评分为上一次进行质量分析且得分优于上上次的数据质量分析评分,数据质量分析评分越高,表明对应的数据质量越好。
本申请实施例中,还可以记录每一次的数据质量分析评分。
步骤104,根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。
本申请实施例中,作为一可选实施例,根据所述数据质量分析评分调整数据清洗策略,包括:
E11,获取所述数据质量分析评分对应的待分析数据中各数据参数对应的数据第一参数值;
E12,获取存储的数据质量分析评分对应的待分析数据中各数据参数对应的数据第二参数值;
E13,针对每一数据参数,依据该数据参数对应的数据第一参数值以及数据第二参数值,调整数据清洗策略中该数据参数对应的清洗阈值。
本申请实施例中,若数据第一参数值大于数据第二参数值,可以调高数据清洗策略中该数据参数对应的清洗阈值。
本申请实施例中,通过调整数据清洗策略,若依据该调整的数据清洗策略对数据进行清洗后,得到的数据质量越来越好,则表明调整的数据清洗策略有效,可以提升进入数据湖中的数据质量。
本申请实施例中,在调整数据清洗策略后,再次采集数据进行数据质量分析。
本申请实施例中,作为另一可选实施例,还可以将调整的数据清洗策略下发至传输路径上的预设埋点或关键业务节点。
本申请实施例中,在数据传输至数据湖之前,通过将数据清洗策略下发至传输路径上的节点,以使节点依据接收的数据清洗策略,对传输的数据进行清洗,使得传输至数据湖中的数据质量得到有效提升,有效减少了数据湖中的数据量,降低了数据湖进行清洗整合所需的运算资源,提升数据湖对数据的清洗整合效率。同时,在传输路径上进行数据清洗,可以有效降低数据传输所需的网络资源。
本申请实施例中,作为一可选实施例,该方法还包括:
若确定的所述数据质量分析评分达到预先设置的数据质量评分阈值,通知所述预设埋点停止采集待分析数据。
本申请实施例中,若数据质量达到预设要求(数据质量分析评分大于或等于数据质量评分阈值),则表明调整的数据清洗策略满足预设要求,可以停止对预设埋点的数据采集。当然,实际应用中,也可以在数据质量分析评分达到数据质量评分阈值后,通知预设埋点按照预设的采集周期采集待分析数据,以进行周期性的质量分析,并依据质量分析结果进行数据清洗策略相应调整。
本申请实施例中,作为另一可选实施例,该方法还包括:
利用大于存储的数据质量分析评分的所述数据质量分析评分,替换所述存储的数据质量分析评分。
本申请实施例中,若确定数据质量分析评分大于存储的数据质量分析评分,替换存储的数据质量分析评分,若确定数据质量分析评分不大于存储的数据质量分析评分,维持存储的数据质量分析评分不变。
本申请实施例的数据治理方法,可以支持离线批处理计算,例如,支持MapReduce、Hive、Pig等批处理计算作业,可实现数据清洗、转换、汇集、主题提取等数据处理需求,支持将结构化、半结构化、非结构化的异构数据写入数据湖。
本申请实施例中,作为一可选实施例,该方法还包括;
依据数据质量分析评分进行预警分析。
本申请实施例中,针对数据质量分析评分对应的数据,根据各数据参数对应的数据第一参数值,生成该数据参数对应的预警分析报告,并提供给生产该数据的终端对应的管理人员,以便管理人员依据预警分析报告,对生产该数据的终端进行维护,以提升该终端生产的数据质量。
本申请实施例中,作为一可选实施例,该方法还包括:
可视化展示数据质量分析评分。
本申请实施例中,还可以将对待分析数据进行质量分析的过程进行可视化展示。
本申请实施例中,以业务驱动,在数据流转的关键业务节点中置入埋点进行数据采样并汇总,利用大数据技术,依据数据质量分析策略,对汇总的数据进行定性、定量的数据质量分析,从而得出数据质量检查报告(数据质量分析评分)、预警分析报告,依据数据质量检查报告调整数据清洗策略,并不断完善数据清洗策略,形成一个闭环的数据治理链条,从而能够有效提升数据质量,为后续数据湖进行数据整合提供高质量的数据基础。
图2为本申请实施例提供的一种基于数据湖的数据治理装置结构示意图。如图2所示,该装置包括:
埋点数据获取模块201,用于获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;
本申请实施例中,数据包括但不限于:主数据、基础数据、物探数据、钻井数据、录井数据、测井数据、试油试采数据、井下作业数据、分析化验数据、地理信息数据、经营管理数据、物联网实时数据以及地质油藏数据等。
评分模块202,用于依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;
判断模块203,用于确定所述数据质量分析评分大于存储的数据质量分析评分;
本申请实施例中,存储的数据质量分析评分为上一次进行质量分析且得分优于上上次的数据质量分析评分,数据质量分析评分越高,表明对应的数据质量越好。
数据清洗策略调整模块204,用于根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端。
本申请实施例中,作为一可选实施例,评分模块202,具体用于:
针对每一分类的待分析数据,依据该分类的待分析数据中每一数据参数对应的数据参数值,查询预先设置的该数据参数对应的数据参数值质量评分规则,得到该数据参数对应的数据参数质量评分;
依据分类的待分析数据中每一数据参数对应的数据参数权重,以及,该数据参数对应的数据参数质量评分,获取该分类的待分析数据的数据质量分析评分。
本申请实施例中,作为另一可选实施例,评分模块202,具体用于:
针对每一分类的待分析数据,依据预设的数据参数阈值,对该分类的待分析数据中每一数据参数对应的数据参数值进行归一化处理,得到每一数据参数对应的归一化值;
查询预先设置的数据参数归一化值质量评分规则,得到每一数据参数分别对应的数据参数质量评分;
依据分类的待分析数据中每一数据参数对应的数据参数权重,以及,该数据参数对应的数据参数质量评分,获取该分类的待分析数据的数据质量分析评分。
本申请实施例中,作为一可选实施例,评分模块202还用于:
删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据;
修复所述待分析过滤数据中缺失的数据值,以对修复的所述待分析过滤数据进行质量分析。
本申请实施例中,作为一可选实施例,删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据,包括:
对所述待分析数据进行业务类型分类,得到各分类数据;
针对每一分类数据,提取该分类数据中的每一条数据中包含的数据键以及该数据键对应的数据值,查询该分类数据对应的数据异常键值对集,得到该数据键对应的数据异常值;
依据所述数据值和所述数据异常值,确定所述数据值对应的数据是否异常,若异常,删除该数据,并把异常数据存入异常预警数据域。
本申请实施例中,作为另一可选实施例,所述修复所述待分析过滤数据中缺失的数据值,包括:
从所述待分析过滤数据中,提取各第一数据参数对应的第一数据参数值,得到第一数据参数值集;
从所述第一数据参数值集中,删除空的数据参数值,得到第二数据参数值集;
计算所述第二数据参数值集中的各数据参数值的平均值,将所述平均值填入数据参数值为空的第一数据参数中。
本申请实施例中,作为一可选实施例,数据清洗策略调整模块204,具体用于:
获取所述数据质量分析评分对应的待分析数据中各数据参数对应的数据第一参数值;
获取存储的数据质量分析评分对应的待分析数据中各数据参数对应的数据第二参数值;
针对每一数据参数,依据该数据参数对应的数据第一参数值以及数据第二参数值,调整数据清洗策略中该数据参数对应的清洗阈值。
本申请实施例中,作为一可选实施例,该装置还包括:
数据采集控制模块(图中未示出),若确定的所述数据质量分析评分达到预先设置的数据质量评分阈值,通知所述预设埋点停止采集待分析数据。
本申请实施例中,作为另一可选实施例,该装置还包括:
存储更新模块(图中未示出),用于利用大于存储的数据质量分析评分的所述数据质量分析评分,替换所述存储的数据质量分析评分。
如图3所示,本申请一实施例提供了一种计算机设备300,用于执行图1中的基于数据湖的数据治理方法,该设备包括存储器301、处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序,其中,上述处理器302执行上述计算机程序时实现上述基于数据湖的数据治理方法的步骤。
具体地,上述存储器301和处理器302能够为通用的存储器和处理器,这里不做具体限定,当处理器302运行存储器301存储的计算机程序时,能够执行上述基于数据湖的数据治理方法。
对应于图1中的基于数据湖的数据治理方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述基于数据湖的数据治理方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述基于数据湖的数据治理方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种基于数据湖的数据治理方法,其特征在于,包括:
获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;
依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;
确定所述数据质量分析评分大于存储的数据质量分析评分,存储的数据质量分析评分为上一次进行质量分析且得分优于上上次的数据质量分析评分;
根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端;
所述根据所述数据质量分析评分调整数据清洗策略,包括:
获取所述数据质量分析评分对应的待分析数据中各数据参数对应的数据第一参数值;
获取存储的数据质量分析评分对应的待分析数据中各数据参数对应的数据第二参数值;
针对每一数据参数,依据该数据参数对应的数据第一参数值以及数据第二参数值,调整数据清洗策略中该数据参数对应的清洗阈值。
2.如权利要求1所述的方法,其特征在于,在所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析之前,所述方法还包括:
删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据;
修复所述待分析过滤数据中缺失的数据值,以对修复的所述待分析过滤数据进行质量分析。
3.如权利要求2所述的方法,其特征在于,所述删除所述待分析数据中异常数据值对应的数据,得到待分析过滤数据,包括:
对所述待分析数据进行业务类型分类,得到各分类数据;
针对每一分类数据,提取该分类数据中的每一条数据中包含的数据键以及该数据键对应的数据值,查询该分类数据对应的数据异常键值对集,得到该数据键对应的数据异常值;
依据所述数据值和所述数据异常值,确定所述数据值对应的数据是否异常,若异常,删除该数据,并把异常数据存入异常预警数据域。
4.如权利要求2所述的方法,其特征在于,所述修复所述待分析过滤数据中缺失的数据值,包括:
从所述待分析过滤数据中,提取各第一数据参数对应的第一数据参数值,得到第一数据参数值集;
从所述第一数据参数值集中,删除空的数据参数值,得到第二数据参数值集;
计算所述第二数据参数值集中的各数据参数值的平均值,将所述平均值填入数据参数值为空的第一数据参数中。
5.如权利要求1至4任一项所述的方法,其特征在于,所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分,包括:
针对每一分类的待分析数据,依据该分类的待分析数据中每一数据参数对应的数据参数值,查询预先设置的该数据参数对应的数据参数值质量评分规则,得到该数据参数对应的数据参数质量评分;
依据分类的待分析数据中每一数据参数对应的数据参数权重,以及,该数据参数对应的数据参数质量评分,获取该分类的待分析数据的数据质量分析评分。
6.如权利要求1至4任一项所述的方法,其特征在于,所述依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分,包括:
针对每一分类的待分析数据,依据预设的数据参数阈值,对该分类的待分析数据中每一数据参数对应的数据参数值进行归一化处理,得到每一数据参数对应的归一化值;
查询预先设置的数据参数归一化值质量评分规则,得到每一数据参数分别对应的数据参数质量评分;
依据分类的待分析数据中每一数据参数对应的数据参数权重,以及,该数据参数对应的数据参数质量评分,获取该分类的待分析数据的数据质量分析评分。
7.如权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
若确定的所述数据质量分析评分达到预先设置的数据质量评分阈值,通知所述预设埋点停止采集待分析数据。
8.如权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
利用大于存储的数据质量分析评分的所述数据质量分析评分,替换所述存储的数据质量分析评分。
9.一种基于数据湖的数据治理装置,其特征在于,包括:
埋点数据获取模块,用于获取布设在数据传输至所述数据湖的传输路径上的预设埋点采集的待分析数据;
评分模块,用于依据预先设置的数据质量分析策略,对所述待分析数据进行质量分析,得到数据质量分析评分;
判断模块,用于确定所述数据质量分析评分大于存储的数据质量分析评分,存储的数据质量分析评分为上一次进行质量分析且得分优于上上次的数据质量分析评分;
数据清洗策略调整模块,用于根据所述数据质量分析评分调整数据清洗策略,并将调整的数据清洗策略下发至所述传输路径上的节点,以使所述节点依据调整的清洗策略对传输的数据进行清洗后,传输至所述数据湖,所述节点包括用以将数据传输至所述数据湖的各客户端;
所述根据所述数据质量分析评分调整数据清洗策略,包括:
获取所述数据质量分析评分对应的待分析数据中各数据参数对应的数据第一参数值;
获取存储的数据质量分析评分对应的待分析数据中各数据参数对应的数据第二参数值;
针对每一数据参数,依据该数据参数对应的数据第一参数值以及数据第二参数值,调整数据清洗策略中该数据参数对应的清洗阈值。
CN201910570011.6A 2019-06-27 2019-06-27 一种基于数据湖的数据治理方法及装置 Active CN110263229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910570011.6A CN110263229B (zh) 2019-06-27 2019-06-27 一种基于数据湖的数据治理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910570011.6A CN110263229B (zh) 2019-06-27 2019-06-27 一种基于数据湖的数据治理方法及装置

Publications (2)

Publication Number Publication Date
CN110263229A CN110263229A (zh) 2019-09-20
CN110263229B true CN110263229B (zh) 2020-06-02

Family

ID=67922521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910570011.6A Active CN110263229B (zh) 2019-06-27 2019-06-27 一种基于数据湖的数据治理方法及装置

Country Status (1)

Country Link
CN (1) CN110263229B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941612B (zh) * 2019-11-19 2020-08-11 上海交通大学 基于关联数据的自治数据湖构建系统及方法
CN112448840B (zh) * 2019-11-27 2023-05-02 北京红山信息科技研究院有限公司 一种通信数据质量监控方法、装置、服务器及存储介质
CN112084180A (zh) * 2020-09-02 2020-12-15 中国第一汽车股份有限公司 一种监控车载应用质量的方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241179A (zh) * 2018-08-01 2019-01-18 协同数据技术(深圳)有限公司 基于数据空间的数据治理方法、系统及计算机设备
CN109254959A (zh) * 2018-08-17 2019-01-22 广东技术师范学院 一种数据评价方法、装置、终端设备及可读存储介质
CN109271382A (zh) * 2018-08-17 2019-01-25 广东技术师范学院 一种面向全数据形态开放共享的数据湖系统
CN109298840A (zh) * 2018-11-19 2019-02-01 平安科技(深圳)有限公司 基于数据湖的数据集成方法、服务器及存储介质
CN109525593A (zh) * 2018-12-20 2019-03-26 中科曙光国际信息产业有限公司 一种对hadoop大数据平台集中安全管控系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10191962B2 (en) * 2015-07-30 2019-01-29 At&T Intellectual Property I, L.P. System for continuous monitoring of data quality in a dynamic feed environment
CN105741196A (zh) * 2016-03-01 2016-07-06 万达信息股份有限公司 一种基于四个维度进行数据质量监测及评价方法
CN107066482A (zh) * 2016-12-21 2017-08-18 晶赞广告(上海)有限公司 多源数据监测方法、装置及终端
CN107807956A (zh) * 2017-09-30 2018-03-16 平安科技(深圳)有限公司 电子装置、数据处理方法及计算机可读存储介质
CN107995283B (zh) * 2017-11-29 2019-06-14 上海恺英网络科技有限公司 一种数据埋点分析的方法、设备及系统
CN108132969A (zh) * 2017-12-01 2018-06-08 广东电网有限责任公司佛山供电局 数据质量大数据治理实现方法、电子设备及存储介质
CN109063063B (zh) * 2018-07-20 2020-06-23 泰华智慧产业集团股份有限公司 基于多源数据的数据处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241179A (zh) * 2018-08-01 2019-01-18 协同数据技术(深圳)有限公司 基于数据空间的数据治理方法、系统及计算机设备
CN109254959A (zh) * 2018-08-17 2019-01-22 广东技术师范学院 一种数据评价方法、装置、终端设备及可读存储介质
CN109271382A (zh) * 2018-08-17 2019-01-25 广东技术师范学院 一种面向全数据形态开放共享的数据湖系统
CN109298840A (zh) * 2018-11-19 2019-02-01 平安科技(深圳)有限公司 基于数据湖的数据集成方法、服务器及存储介质
CN109525593A (zh) * 2018-12-20 2019-03-26 中科曙光国际信息产业有限公司 一种对hadoop大数据平台集中安全管控系统及方法

Also Published As

Publication number Publication date
CN110263229A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
US20240070487A1 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
CN110263229B (zh) 一种基于数据湖的数据治理方法及装置
Tufano et al. When and why your code starts to smell bad
US20190108184A1 (en) System and method for providing technology assisted data review with optimizing features
CN106951984B (zh) 一种系统健康度动态分析预测方法及装置
JP2020500420A (ja) マシンラーニング基盤の半導体製造の収率予測システム及び方法
CN106164896B (zh) 用于发现对手方关系的多维递归方法及系统
US20170109633A1 (en) Comment-comment and comment-document analysis of documents
WO2020257782A1 (en) Factory risk estimation using historical inspection data
van der Ven et al. Making the right decision: supporting architects with design decision data
CN110333983A (zh) 业务监控及搜索业务监控方法及装置
CN111738843A (zh) 一种使用流水数据的量化风险评价系统和方法
CN108306997B (zh) 域名解析监控方法及装置
CN115641162A (zh) 一种基于建筑工程造价的预测数据分析系统和方法
KR101973328B1 (ko) 하둡 기반 공작기계 환경 데이터의 상관관계 분석 및 시각화 방법
US7287144B2 (en) Hit ratio estimation device, hit ratio estimation method, hit ratio estimation program and recording medium
CN116485020B (zh) 一种基于大数据的供应链风险识别预警方法、系统及介质
CN113742315A (zh) 一种制造大数据处理平台及方法
CN110928942A (zh) 指标数据监控管理方法及装置
CN111291198A (zh) 基于大数据的经济形势指数分析方法、系统及计算机可读介质
CN111724048A (zh) 基于特征工程对成品库调度系统性能数据的特征抽取方法
CN111611483A (zh) 一种对象画像构建方法、装置、设备及存储介质
Rashid et al. KBQ: a tool for Knowledge Base Quality assessment using evolution analysis
Pernisch Mind the change, bridge the gap: investigating the impact of ontology evolution on materialisations and embeddings
CN114237950A (zh) 一种自动化日志异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100010 room 1501, Gehua building, No.1 Qinglong Hutong, Dongcheng District, Beijing

Patentee after: Kunlun Digital Technology Co.,Ltd.

Patentee after: BGP INC., CHINA NATIONAL PETROLEUM Corp.

Address before: 100010 room 1501, Gehua building, No.1 Qinglong Hutong, Dongcheng District, Beijing

Patentee before: RICHFIT INFORMATION TECHNOLOGY Co.,Ltd.

Patentee before: BGP INC., CHINA NATIONAL PETROLEUM Corp.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220322

Address after: Room 1501, Gehua building, No.1 Qinglong Hutong, Dongcheng District, Beijing

Patentee after: Kunlun Digital Technology Co.,Ltd.

Patentee after: CHINA NATIONAL PETROLEUM Corp.

Address before: 100010 room 1501, Gehua building, No.1 Qinglong Hutong, Dongcheng District, Beijing

Patentee before: Kunlun Digital Technology Co.,Ltd.

Patentee before: BGP INC., CHINA NATIONAL PETROLEUM Corp.