CN111026736A - 数据血缘管理方法及装置、数据血缘解析方法及装置 - Google Patents

数据血缘管理方法及装置、数据血缘解析方法及装置 Download PDF

Info

Publication number
CN111026736A
CN111026736A CN201911279726.2A CN201911279726A CN111026736A CN 111026736 A CN111026736 A CN 111026736A CN 201911279726 A CN201911279726 A CN 201911279726A CN 111026736 A CN111026736 A CN 111026736A
Authority
CN
China
Prior art keywords
storage unit
original
storage
determining
operation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911279726.2A
Other languages
English (en)
Other versions
CN111026736B (zh
Inventor
毛恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongying Youchuang Information Technology Co Ltd
Original Assignee
Zhongying Youchuang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongying Youchuang Information Technology Co Ltd filed Critical Zhongying Youchuang Information Technology Co Ltd
Priority to CN201911279726.2A priority Critical patent/CN111026736B/zh
Publication of CN111026736A publication Critical patent/CN111026736A/zh
Application granted granted Critical
Publication of CN111026736B publication Critical patent/CN111026736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种数据血缘管理方法及装置、数据血缘解析方法及装置,该数据血缘管理方法包括:根据原始存储单元的比特段信息,确定原始存储单元的存储层次标识字节及存储单元标识字节,对原始存储单元的存储层次标识字节进行按位或操作,获取存储层次操作结果;对原始存储单元的存储单元标识字节进行按位或操作,获取存储单元操作结果;根据存储层次操作结果及存储单元操作结果,确定目标存单元的比特段信息。本发明在确定血缘关系时可以基于按位或操作进行反向解析,从而确定目标存储单元与原始存储单元的数据血缘关系,提高确定数据血缘关系的效率和准确性。

Description

数据血缘管理方法及装置、数据血缘解析方法及装置
技术领域
本发明涉及数据溯源技术领域,尤其涉及数据血缘管理方法及装置、数据血缘解析方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前,现有的确定数据血缘的方法主要包括两大类。
一类是基于数据运算的SQL语句或代码解析,通过被动的接收运算数据计算相关代码块,解析出前后数据单元之间的依赖关系,从而确定并登记数据血缘关系。然而,通过解析代码或者SQL语句提取确定数据血缘关系的方法,对代码结构的规范性要求特别高,对于超出预置结构、较为复杂的代码逻辑,很容易造成误解析,从而影响数据血缘的准确性。
另一类是基于对不同数据单元之间的结构进行解析,主动检索出不同数据存储单元的schema信息并提取数据,发现前后存储单元相似度较高的结构与数据,从而确定并标记数据血缘关系。基于数据结构发现数据血缘的方式,执行过程中计算量非常大,导致执行的效率特别低。另外,上述方式对使用场景具有特别严格的限制和要求,其在一个大的数据仓库/数据湖/数据中台中,只能自主发现非常少量的数据血缘关系。
因此,现有数据血缘的确定方法存在准确性低及效率低的问题。
发明内容
本发明实施例提供一种数据血缘管理方法,用以提高确定数据血缘关系的准确性及效率,该方法包括:
根据原始存储单元的比特段信息,确定原始存储单元的存储层次标识字节及存储单元标识字节;存储层次标识字节标识原始存储单元的存储层次,存储单元标识字节标识每个存储层次中不同的存储单元;原始存储单元至少包括两个存储单元;
对原始存储单元的存储层次标识字节进行按位或操作,获取存储层次操作结果;
对原始存储单元的存储单元标识字节进行按位或操作,获取存储单元操作结果;
根据存储层次操作结果及存储单元操作结果,确定目标存单元的比特段信息;目标存单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系。
本发明实施例还提供一种数据血缘管理装置,用以提高确定数据血缘关系的准确性及效率,该装置包括:
标识确定模块,用于根据原始存储单元的比特段信息,确定原始存储单元的存储层次标识字节及存储单元标识字节;存储层次标识字节标识原始存储单元的存储层次,存储单元标识字节标识每个存储层次中不同的存储单元;原始存储单元至少包括两个存储单元;
存储层次操作模块,用于对原始存储单元的存储层次标识字节进行按位或操作,获取存储层次操作结果;
存储单元操作模块,用于对原始存储单元的存储单元标识字节进行按位或操作,获取存储单元操作结果;
目标比特段确定模块,用于根据存储层次操作结果及存储单元操作结果,确定目标存单元的比特段信息;目标存单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系。
本发明实施例提供一种数据血缘解析方法,用以提高确定数据血缘关系的准确性及效率,该方法包括:
根据目标存储单元的比特段信息,分别确定存储层次操作结果及存储单元操作结果;目标存储单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系;
对存储层次操作结果进行按位或反向解析,确定原始存储单元的存储层次标识字节;
对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节;
根据原始存储单元的存储层次标识字节及存储单元标识字节,确定原始存储单元的比特段信息;原始存储单元至少包括两个存储单元。
本发明实施例还提供一种数据血缘解析装置,用以提高确定数据血缘关系的准确性及效率,该装置包括:
操作结果确定模块,用于根据目标存储单元的比特段信息,分别确定存储层次操作结果及存储单元操作结果;目标存储单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系;
存储层次反向解析模块,用于对存储层次操作结果进行按位或反向解析,确定原始存储单元的存储层次标识字节;
存储单元反向解析模块,用于对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节;
原始比特段确定模块,用于根据原始存储单元的存储层次标识字节及存储单元标识字节,确定原始存储单元的比特段信息;原始存储单元至少包括两个存储单元。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据血缘管理方法,或数据血缘解析方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述数据血缘管理方法,或数据血缘解析方法的计算机程序。
本发明实施例中,原始存储单元的比特段信息包括原始存储单元的存储层次标识字节及存储单元标识字节,分别对原始存储单元的存储层次标识字节及存储单元标识字节进行按位或操作,从而确定与原始存储单元存在数据血缘关系的目标存储单元的比特段。因此,在确定血缘关系时可以进行基于按位或操作进行反向解析,从而确定目标存储单元与原始存储单元的数据血缘关系,提高确定数据血缘关系的效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例提供的数据血缘管理方法的实现流程图;
图2为本发明实施例提供的数据血缘管理方法的另一实现流程图;
图3为本发明实施例提供的数据血缘管理装置的功能模块图;
图4为本发明实施例提供的数据血缘管理装置的另一功能模块图;
图5为本发明实施例提供的数据血缘解析方法的实现流程图;
图6为本发明实施例提供的数据血缘解析方法中步骤503的实现流程图;
图7为本发明实施例提供的数据血缘解析装置的功能模块图;
图8为本发明实施例提供的数据血缘解析装置中存储单元反向解析模块703的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1示出了本发明实施例提供的数据血缘管理方法的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:
如图1所示,数据血缘管理方法,其包括:
步骤101,根据原始存储单元的比特段信息,确定原始存储单元的存储层次标识字节及存储单元标识字节;存储层次标识字节标识原始存储单元的存储层次,存储单元标识字节标识每个存储层次中不同的存储单元;原始存储单元至少包括两个存储单元;
步骤102,对原始存储单元的存储层次标识字节进行按位或操作,获取存储层次操作结果;
步骤103,对原始存储单元的存储单元标识字节进行按位或操作,获取存储单元操作结果;
步骤104,根据存储层次操作结果及存储单元操作结果,确定目标存单元的比特段信息;目标存单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系。
数据中台架构中,数据源、中间件、数据湖等不同存储结构的数量及层次不是无限的,并且不同数据结构之间的前后顺序也是比较固定的。例如一个常见的场景是,数据从RDB(英文全称:Relational Database,简称关系数据库)数据源中抽取,在HDFS(英文全称:Hadoop Distributed File System,简称:Hadoop分布式文件系统)中缓存临时文件,汇总后由HIVE(是基于Hadoop的数据仓库工具,用来进行数据提取、转化及加载)表管理,与各维表关联处理后写入ES(Elastic Search,一种数据搜索引擎)中,待上层应用查询读取。在这个流程中,数据先后穿透了RDB、HDFS、HIVE及ES这4层结构,数据处理流向是单向的。如果我们能够在这个处理过程中,依次标记数据经过的存储层次及对应的存储单元,就能完整的记录数据血缘。
在本发明实施例中,利用比特段信息预先对原始存储单元进行标识。其中,比特段信息包括原始存储单元的存储层次标识字节及存储单元标识字节。存储单元标识字节标识每个存储层次中不同的存储单元。另外,每个存储单元的比特段信息都是字节长度固定的等长比特段,原始存储单元至少包括两个存储单元。
在本发明的以实施例中,每个存储单元的比特段信息中,存储层次标识字节在前,存储单元标识字节在后。本领域技术人员可以理解的是,在其它实施例中,每个存储单元的比特段信息中,存储单元标识字节在前,存储层次标识字节在后。
在确定原始存储单元的存储层次标识字节及存储单元标识字节后,对原始存储单元的存储层次标识字节进行按位或操作。假设每个存储单元的比特段信息中,存储层次标识字节在前,存储单元标识字节在后,原始存储单元包括存储单元A、存储单元B及存储单元C。
假设平台中数据层次如下:HDFS数据可写入HIVE中,HDFS数据和HIVE数据均可写入HBASE(是一个分布式、面向列的开源数据库)中。即在数据层次的划分上,HDFS<HVE<HBASE。假设HDFS的存储层次标识字节为00000001,HIVE的存储层次标识字节为为00000010,HBASE的存储层次标识字节为00000100。存储单元A、存储单元B及存储单元C均存储在HDFS中。
假设存储单元A的比特段信息为0000000100000001,即存储单元A的存储层次标识字节为00000001,存储单元A的存储单元标识字节为00000001;假设存储单元B的比特段信息为0000000100000010,即存储单元B的存储层次标识字节为00000001,存储单元B的存储单元标识字节为00000010;假设存储单元C的比特段信息为0000000100010000,即存储单元C的存储层次标识字节为00000001,存储单元C的存储单元标识字节为00010000。
在根据存储单元A、存储单元B及存储单元C的比特段信息,分别确定存储单元A、存储单元B及存储单元C的存储层次标识字节后,对存储单元A、存储单元B及存储单元C的存储层次标识字节进行按位或操作。例如,对存储单元A的存储层次标识字节00000001、存储单元B的存储层次标识字节00000001及存储单元C的存储层次标识字节00000001进行按位或操作,获得存储层次操作结果00000001。
在根据存储单元A、存储单元B及存储单元C的比特段信息,分别确定存储单元A、存储单元B及存储单元C的存储单元标识字节后,对存储单元A、存储单元B及存储单元C的存储单元标识字节进行按位或操作。例如,对存储单元A的存储单元标识字节00000001及存储单元B的存储单元标识字节00000010进行按位或操作,获得存储单元操作结果00000011。
假设目标存储单元为F,在确定存储层次操作结果00000001及存储单元操作结果00000011,即可确定目标存储单元F的比特段信息0000000100000011。目标存储单元F与原始存储单元标识字节的顺序保持一致,存储层次操作结果00000001在前,存储单元操作结果00010011在后。目标存储单元F的比特段信息0000000100000011反映了目标存储单元F与存储单元A、存储单元B及存储单元C的数据血缘关系。
在本发明实施例中,原始存储单元的比特段信息包括原始存储单元的存储层次标识字节及存储单元标识字节,分别对原始存储单元的存储层次标识字节及存储单元标识字节进行按位或操作,从而确定与原始存储单元存在数据血缘关系的目标存储单元的比特段。因此,在确定血缘关系时可以进行基于按位或操作进行反向解析,从而确定目标存储单元与原始存储单元的数据血缘关系,提高确定数据血缘关系的效率和准确性。
图2示出了本发明实施例提供的数据血缘管理方法的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:
在本发明的一实施例中,为了进一步提高确定数据血缘关系的效率,如图2所示,在上述图1所示方法步骤的基础上,数据血缘管理方法,还包括
步骤201,利用第一预设数量字节标识原始存储单元的存储层次;
步骤202,利用第二预设数量字节标识原始存储单元在存储层次内的编号。
为了进一步提高确定数据血缘关系的效率,预先利用字节对原始存储单元进行标识。具体的,可以利用一定数量的字节对原始存储单元的存储层次,以及原始存储单元在存储层次中的编号进行标识,从而对每个存储层次中的存储单元进行注册,以区分不同存储层次的存储单元。同一个存储单元只注册一次。假如在数据库中的日统计表,表名主体相同仅后缀日期不同,注册时认为是一张表。
在进行注册标识时,利用第一预设数量字节标识原始存储单元的存储层次。每个存储层次占用一个比特位,不可重复。例如,HDFS的存储层次标识字节为00000001,HIVE的存储层次标识字节为为00000010,HBASE的存储层次标识字节为00000100。
另外,如果整个数据中台架构内的存储层次不超过第一预设数量字节对应的比特位,则直接用第一预设数量字节标识原始存储单元的存储层次即可。若整个数据中台架构内的存储层次超过了第一预设数量字节对应的比特位,则使用超出第一预设数量字节标识原始存储单元的存储层次,然后使用压缩算法对原始存储单元的存储层次标识字节进行压缩,压缩至第一预设数量字节。因此,在确定数据血缘关系时,如果原始存储单元的比特段信息存在压缩,需要利用与压缩算法对应的反向压缩算法对原始存储单元的比特段信息进行复原。
其中,压缩算法包括RLE(Run-Length Encoding)压缩算法,本领域技术人员可以理解的是,压缩算法还可以包括除上述RLE压缩算法之外的其它算法,本发明实施例对此不作特别的限制。
另外,还利用第二预设数量字节标识原始存储单元在存储层次内的编号,以区分同一存储层次内不同的存储单元。如果某一存储层次中存储单元的数量超出第二预设数量字节对应的比特数,同样采用压缩算法将原始存储单元的存储单元标识字节压缩至第二预设数量字节内。
其中,第一预设数量字节及第二预设数量字节为预先设定的字节数。例如,预先设定该第一预设数量字节及第二预设数量字节分别为1个字节和3个字节,本领域技术人员可以理解的是,还可以预先设定该第一预设数量字节及第二预设数量字节分别为除上述1个字节和3个字节之外的其它字节数,例如2个字节及4个字节等,本发明实施例对此不作特别的限制。在本发明的一实施例中,该第一预设数量字节为1个字节,该第二预设数量字节为3个字节。
至此,获取所有存储层次内所有存储单元的比特段信息,并进行记录保存。
在本发明实施例中,利用第一预设数量字节标识原始存储单元的存储层次,利用第二预设数量字节标识原始存储单元在存储层次内的编号,能够进一步提高确定数据血缘关系的效率。
本发明实施例中还提供了一种数据血缘管理装置,如下面的实施例所述。由于这些装置解决问题的原理与数据血缘管理方法相似,因此这些装置的实施可以参见方法的实施,重复之处不再赘述。
图3示出了本发明实施例提供的数据血缘管理装置的功能模块,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:
参考图3,所述数据血缘管理装置所包含的各个模块用于执行图1对应实施例中的各个步骤,具体请参阅图1以及图1对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述数据血缘管理装置包括标识确定模块301、存储层次操作模块302、存储单元操作模块303及目标比特段确定模块304。
标识确定模块301,用于根据原始存储单元的比特段信息,确定原始存储单元的存储层次标识字节及存储单元标识字节;存储层次标识字节标识原始存储单元的存储层次,存储单元标识字节标识每个存储层次中不同的存储单元;原始存储单元至少包括两个存储单元。
存储层次操作模块302,用于对原始存储单元的存储层次标识字节进行按位或操作,获取存储层次操作结果。
存储单元操作模块303,用于对原始存储单元的存储单元标识字节进行按位或操作,获取存储单元操作结果。
目标比特段确定模块304,用于根据存储层次操作结果及存储单元操作结果,确定目标存单元的比特段信息;目标存单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系。
在本发明实施例中,原始存储单元的比特段信息包括原始存储单元的存储层次标识字节及存储单元标识字节,存储层次操作模块302及存储单元操作模块303分别对原始存储单元的存储层次标识字节及存储单元标识字节进行按位或操作,从而目标比特段确定模块304确定与原始存储单元存在数据血缘关系的目标存储单元的比特段。因此,本发明实施例在确定血缘关系时可以进行基于按位或操作进行反向解析,从而确定目标存储单元与原始存储单元的数据血缘关系,提高确定数据血缘关系的效率和准确性。
图4示出了本发明实施例提供的数据血缘管理装置的另一功能模块,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:
参考图4,所述数据血缘管理装置所包含的各个模块用于执行图2对应实施例中的各个步骤,具体请参阅图2以及图2对应实施例中的相关描述,此处不再赘述。本发明实施例中,在上述图3所示模块结构的基础上,所述数据血缘管理装置,还包括存储层次标识模块401及存储单元标识模块402。
存储层次标识模块401,用于利用第一预设数量字节标识原始存储单元的存储层次。
存储单元标识模块402,用于利用第二预设数量字节标识原始存储单元在存储层次内的编号。
在本发明实施例中,存储层次标识模块401利用第一预设数量字节标识原始存储单元的存储层次,存储单元标识模块402利用第二预设数量字节标识原始存储单元在存储层次内的编号,能够进一步提高确定数据血缘关系的效率。
图5示出了本发明实施例提供的数据血缘解析方法的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:
本发明实施例中的数据血缘解析方法,以上述实施例中的数据血缘管理方法为基础及前提。如图5所示,数据血缘解析方法,其包括:
步骤501,根据目标存储单元的比特段信息,分别确定存储层次操作结果及存储单元操作结果;目标存储单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系;
步骤502,对存储层次操作结果进行按位或反向解析,确定原始存储单元的存储层次标识字节;
步骤503,对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节;
步骤504,根据原始存储单元的存储层次标识字节及存储单元标识字节,确定原始存储单元的比特段信息;原始存储单元至少包括两个存储单元。
在对数据血缘关系进行解析时,鉴于目标存储单元的比特段信息是由原始存储单元进行按位或操作得到的,且目标存储单元的比特段信息反映了目标存单元与原始存储单元之间的数据血缘关系。因此,可以对目标存储单元的比特段信息进行按位或的反向解析,分别得到原始存储单元的存储层次标识字节及原始存储单元的存储单元标识字节,进而确定原始存储单元的比特段信息。
另外,在确定数据血缘关系时,如果目标存储单元的比特段信息存在压缩,需要利用与压缩算法对应的反向压缩算法对目标存储单元的比特段信息进行复原。
同样以上述目标存储单元F及存储单元A及存储单元B为例进行说明。目标存储单元F的比特段信息为0000000100000011,存储单元A的比特段信息为0000000100000001,存储单元B的比特段信息为0000000100000010。此处需要通过按位或的反向解析确定存储单元A及存储单元B的比特段信息。
根据目标存储单元F的比特段信息为0000000100000011,分别确定存储层次操作结果为00000001,存储单元操作结果为00010011。对存储层次操作结果为00000001进行按位或反向解析,只能得到存储层次标识字节分别为00000001及00000001。说明原始存储单元中存储单元的存储层次均为00000001。然后,对存储单元操作结果为00000011进行按位或反向解析,只能得到存储单元标识字节00000001以及存储单元标识字节00000010。
据此,可以根据存储层次标识字节分别为00000001,以及存储单元标识字节00000001即00000010,确定原始存储单元的比特段信息为0000000100000001,以及0000000100000010,通过与注册标识时的存储单元的比特段信息进行比对,确定原始存储单元分别为存储单元A及存储单元B。
在本发明实施例中,根据目标存储单元的比特段信息,分别确定存储层次操作结果及存储单元操作结果,对存储层次操作结果进行按位或反向解析,确定原始存储单元的存储层次标识字节,对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节,根据原始存储单元的存储层次标识字节及存储单元标识字节,确定原始存储单元的比特段信息。本发明实施例,基于目标比特段信息及按位或的反向解析,确定与目标存储单元存在数据血缘关系的原始存储单元,能够提高确定数据血缘关系的效率及准确性。
图6示出了本发明实施例提供的数据血缘解析方法中步骤503的实现流程,为便于描述,仅示出了与本发明实施例相关的部分,详述如下:
在本发明的一实施例中,为了进一步提高确定数据血缘关系的准确性,如图6所示,步骤503,对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节,包括:
步骤601,对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节集合;
步骤602,根据原始存储单元的存储单元标识字节集合及原始存储单元的存储层次标识字节,确定原始存储单元的存储单元标识字节。
假设原始存储单元包括存储单元A、存储单元B及存储单元C,存储单元F的比特段信息为存储单元A及存储单元B按位或的操作结果。假设对存储单元C及存储单元F中的数据做进一步关联处理,处理后的数据写入HDFS的存储单元H中。则存储单元H的比特段信息为存储单元F的比特段信息0000000100010011与存储单元C的比特段信息0000000100010000的按位或的操作结果0000000100010011。
假设目标存储单元为H,在对目标存储单元H进行按位或的反向解析时,H的比特段信息中存储层次操作结果00000001,只能解析拆解为00000001及00000001,说明原始存储单元的存储层次均为00000001。进而对存储单元H的存储单元操作结果00010011进行解析拆解,存在以下多种存储单元标识字节的集合:(1)00010010及00000001;(2)00000011及00010000;(3)00010001及00000010。由此说明,可能的原始存储单元的比特段信息为:(1)0000000100010010及0000000100000001;(2)0000000100000011及0000000100010000;(3)0000000100010001及0000000100000010。
然后,将上述比特段信息与存储单元的比特段信息进行比对,发现与存储单元对应的比特段信息只有(2),其它(1)和(3)不存在对应的存储单元。至此,确定与目标存储单元H存在数据血缘关系的存储单元的比特段信息为0000000100000011及0000000100010000,与存储单元的比特段信息对比后确认为目标存储单元H的原始存储单元为存储单元F和存储单元C。
然后,继续对存储单元F进行按位或的反向解析,确定存储单元F的原始存储单元即为存储单元A及存储单元B,该部分具体参见图5及图5对应实施例中的描述,此处不再详细赘述。
至此,最终得到与目标存储单元F存在数据血缘关系的原始存储单元为存储单元A及存储单元B;与目标存储单元H存在数据血缘关系的原始存储单元为存储单元A、存储单元B及存储单元C。
在本发明实施例中,对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节集合,根据原始存储单元的存储单元标识字节集合及原始存储单元的存储层次标识字节,确定原始存储单元的存储单元标识字节,能够进一步提高确定数据血缘关系的准确性。
本发明实施例中还提供了一种数据血缘解析装置,如下面的实施例所述。由于这些装置解决问题的原理与数据血缘解析方法相似,因此这些装置的实施可以参见方法的实施,重复之处不再赘述。
图7示出了本发明实施例提供的数据血缘解析装置的功能模块,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:
参考图7,所述数据血缘解析装置所包含的各个模块用于执行图5对应实施例中的各个步骤,具体请参阅图5以及图5对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述数据血缘解析装置包括操作结果确定模块701、存储层次反向解析模块702、存储单元反向解析模块703及原始比特段确定模块704。
操作结果确定模块701,用于根据目标存储单元的比特段信息,分别确定存储层次操作结果及存储单元操作结果;目标存储单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系。
存储层次反向解析模块702,用于对存储层次操作结果进行按位或反向解析,确定原始存储单元的存储层次标识字节。
存储单元反向解析模块703,用于对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节。
原始比特段确定模块704,用于根据原始存储单元的存储层次标识字节及存储单元标识字节,确定原始存储单元的比特段信息;原始存储单元至少包括两个存储单元。
在本发明实施例中,操作结果确定模块701根据目标存储单元的比特段信息,分别确定存储层次操作结果及存储单元操作结果,存储层次反向解析模块702对存储层次操作结果进行按位或反向解析,确定原始存储单元的存储层次标识字节,存储单元反向解析模块703对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节,原始比特段确定模块704根据原始存储单元的存储层次标识字节及存储单元标识字节,确定原始存储单元的比特段信息。本发明实施例,基于目标比特段信息及按位或的反向解析,确定与目标存储单元存在数据血缘关系的原始存储单元,能够提高确定数据血缘关系的效率及准确性。
图8示出了本发明实施例提供的存储单元反向解析模块703的结构示意,为便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在本发明的一实施例中,为了进一步提高确定数据血缘关系的准确性,参考图8,所述存储单元反向解析模块703所包含的各个单元用于执行图6对应实施例中的各个步骤,具体请参阅图6以及图6对应实施例中的相关描述,此处不再赘述。本发明实施例中,所述存储单元反向解析模块703包括反向解析单元801及单元标识确定单元802。
反向解析单元801,用于对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节集合。
单元标识确定单元802,用于根据原始存储单元的存储单元标识字节集合及原始存储单元的存储层次标识字节,确定原始存储单元的存储单元标识字节。
在本发明实施例中,反向解析单元801对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节集合,单元标识确定单元802根据原始存储单元的存储单元标识字节集合及原始存储单元的存储层次标识字节,确定原始存储单元的存储单元标识字节,能够进一步提高确定数据血缘关系的准确性。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据血缘管理方法,或数据血缘解析方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述数据血缘管理方法,或数据血缘解析方法的计算机程序。
本发明实施例提供的数据血管管理方法及装置,及数据血缘解析方法及装置存在以下有益效果:
(1)利用比特位对存储单元进行标识,区分不同存储层次的不同存储单元;
(2)按位或运算是计算机中最快的运算方式之一,按位或操作,或者按位或的反向解析可以提高确定数据血缘关系的效率;
(3)存储单元的比特段信息较长时,采用压缩算法对存储单元的比特段信息进行压缩,节省存储单元标识的存储空间;
(4)数据血缘管理方法,或者数据血缘解析方法与计算逻辑无关,能够适用于几乎所有数据计算场景,适用范围广;
(5)数据血缘计算没有盲区,只要利用字节对存储单元进行统一规划标识后,后续可自动完成所有数据存储的血缘标记;
(6)资源开销很低,每个存储单元最多占用4个字节,在按位或操作或者解压期间,基本不会超过1KB。
综上所述,本发明实施例中,原始存储单元的比特段信息包括原始存储单元的存储层次标识字节及存储单元标识字节,分别对原始存储单元的存储层次标识字节及存储单元标识字节进行按位或操作,从而确定与原始存储单元存在数据血缘关系的目标存储单元的比特段。因此,在确定血缘关系时可以进行基于按位或操作进行反向解析,从而确定目标存储单元与原始存储单元的数据血缘关系,提高确定数据血缘关系的效率和准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据血缘管理方法,其特征在于,包括:
根据原始存储单元的比特段信息,确定原始存储单元的存储层次标识字节及存储单元标识字节;存储层次标识字节标识原始存储单元的存储层次,存储单元标识字节标识每个存储层次中不同的存储单元;原始存储单元至少包括两个存储单元;
对原始存储单元的存储层次标识字节进行按位或操作,获取存储层次操作结果;
对原始存储单元的存储单元标识字节进行按位或操作,获取存储单元操作结果;
根据存储层次操作结果及存储单元操作结果,确定目标存单元的比特段信息;目标存单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系。
2.如权利要求1所述的数据血缘管理方法,其特征在于,还包括:
利用第一预设数量字节标识原始存储单元的存储层次;
利用第二预设数量字节标识原始存储单元在存储层次内的编号。
3.一种数据血缘管理装置,其特征在于,包括:
标识确定模块,用于根据原始存储单元的比特段信息,确定原始存储单元的存储层次标识字节及存储单元标识字节;存储层次标识字节标识原始存储单元的存储层次,存储单元标识字节标识每个存储层次中不同的存储单元;原始存储单元至少包括两个存储单元;
存储层次操作模块,用于对原始存储单元的存储层次标识字节进行按位或操作,获取存储层次操作结果;
存储单元操作模块,用于对原始存储单元的存储单元标识字节进行按位或操作,获取存储单元操作结果;
目标比特段确定模块,用于根据存储层次操作结果及存储单元操作结果,确定目标存单元的比特段信息;目标存单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系。
4.如权利要求3所述的数据血缘管理装置,其特征在于,还包括:
存储层次标识模块,用于利用第一预设数量字节标识原始存储单元的存储层次;
存储单元标识模块,用于利用第二预设数量字节标识原始存储单元在存储层次内的编号。
5.一种基于权利要求1或2所述的数据血缘管理方法的数据血缘解析方法,其特征在于,包括:
根据目标存储单元的比特段信息,分别确定存储层次操作结果及存储单元操作结果;目标存储单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系;
对存储层次操作结果进行按位或反向解析,确定原始存储单元的存储层次标识字节;
对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节;
根据原始存储单元的存储层次标识字节及存储单元标识字节,确定原始存储单元的比特段信息;原始存储单元至少包括两个存储单元。
6.如权利要求5所述的数据血缘解析方法,其特征在于,对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节,包括:
对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节集合;
根据原始存储单元的存储单元标识字节集合及原始存储单元的存储层次标识字节,确定原始存储单元的存储单元标识字节。
7.一种数据血缘解析装置,其特征在于,包括:
操作结果确定模块,用于根据目标存储单元的比特段信息,分别确定存储层次操作结果及存储单元操作结果;目标存储单元的比特段信息反映目标存单元与原始存储单元之间的数据血缘关系;
存储层次反向解析模块,用于对存储层次操作结果进行按位或反向解析,确定原始存储单元的存储层次标识字节;
存储单元反向解析模块,用于对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节;
原始比特段确定模块,用于根据原始存储单元的存储层次标识字节及存储单元标识字节,确定原始存储单元的比特段信息;原始存储单元至少包括两个存储单元。
8.如权利要求7所述的数据血缘解析装置,其特征在于,存储单元反向解析模块,包括:
反向解析单元,用于对存储单元操作结果进行按位或反向解析,确定原始存储单元的存储单元标识字节集合;
单元标识确定单元,用于根据原始存储单元的存储单元标识字节集合及原始存储单元的存储层次标识字节,确定原始存储单元的存储单元标识字节。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至2任一所述数据血缘管理方法,或权利要求5至6任一项所述数据血缘解析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至2任一所述数据血缘管理方法,或权利要求5至6任一项所述数据血缘解析方法的计算机程序。
CN201911279726.2A 2019-12-13 2019-12-13 数据血缘管理方法及装置、数据血缘解析方法及装置 Active CN111026736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911279726.2A CN111026736B (zh) 2019-12-13 2019-12-13 数据血缘管理方法及装置、数据血缘解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911279726.2A CN111026736B (zh) 2019-12-13 2019-12-13 数据血缘管理方法及装置、数据血缘解析方法及装置

Publications (2)

Publication Number Publication Date
CN111026736A true CN111026736A (zh) 2020-04-17
CN111026736B CN111026736B (zh) 2024-03-12

Family

ID=70208934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911279726.2A Active CN111026736B (zh) 2019-12-13 2019-12-13 数据血缘管理方法及装置、数据血缘解析方法及装置

Country Status (1)

Country Link
CN (1) CN111026736B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860811A (zh) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 数据血缘关系的确定方法、装置、电子设备和存储介质
CN113590610A (zh) * 2021-06-29 2021-11-02 四川新网银行股份有限公司 一种基于Elastic Search的血缘关系表示方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040068642A1 (en) * 2002-09-25 2004-04-08 Tetsuya Tanaka Processor executing SIMD instructions
US20120011300A1 (en) * 2010-07-09 2012-01-12 Macronix International Co., Ltd. Method and apparatus for high-speed byte-access in block-based flash memory
US20120271802A1 (en) * 2009-09-21 2012-10-25 Yun-Sik Oh Forward compatibility guaranteed data compression and decompression method and apparatus thereof
CN107545030A (zh) * 2017-07-17 2018-01-05 阿里巴巴集团控股有限公司 数据血缘关系的处理方法、装置及设备
CN107957883A (zh) * 2017-12-19 2018-04-24 陈征宇 数据处理方法、51单片机、设备及可读存储介质
CN108153896A (zh) * 2018-01-08 2018-06-12 第四范式(北京)技术有限公司 针对输入数据、输出数据的处理方法及装置
WO2018121108A1 (zh) * 2016-12-28 2018-07-05 沈阳美行科技有限公司 用于更新导航数据的增量数据的生成方法及生成装置
CN109739894A (zh) * 2019-01-04 2019-05-10 深圳前海微众银行股份有限公司 补充元数据描述的方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040068642A1 (en) * 2002-09-25 2004-04-08 Tetsuya Tanaka Processor executing SIMD instructions
US20120271802A1 (en) * 2009-09-21 2012-10-25 Yun-Sik Oh Forward compatibility guaranteed data compression and decompression method and apparatus thereof
US20120011300A1 (en) * 2010-07-09 2012-01-12 Macronix International Co., Ltd. Method and apparatus for high-speed byte-access in block-based flash memory
WO2018121108A1 (zh) * 2016-12-28 2018-07-05 沈阳美行科技有限公司 用于更新导航数据的增量数据的生成方法及生成装置
CN107545030A (zh) * 2017-07-17 2018-01-05 阿里巴巴集团控股有限公司 数据血缘关系的处理方法、装置及设备
CN107957883A (zh) * 2017-12-19 2018-04-24 陈征宇 数据处理方法、51单片机、设备及可读存储介质
CN108153896A (zh) * 2018-01-08 2018-06-12 第四范式(北京)技术有限公司 针对输入数据、输出数据的处理方法及装置
CN109739894A (zh) * 2019-01-04 2019-05-10 深圳前海微众银行股份有限公司 补充元数据描述的方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李旭风;罗强;: "面向数据字段的血缘关系分析", 中国金融电脑 *
金泳;: "基于数据仓库的数据血缘管理研究", 轻工科技 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860811A (zh) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 数据血缘关系的确定方法、装置、电子设备和存储介质
CN112860811B (zh) * 2021-02-05 2023-07-18 北京百度网讯科技有限公司 数据血缘关系的确定方法、装置、电子设备和存储介质
CN113590610A (zh) * 2021-06-29 2021-11-02 四川新网银行股份有限公司 一种基于Elastic Search的血缘关系表示方法
CN113590610B (zh) * 2021-06-29 2023-06-20 四川新网银行股份有限公司 一种基于Elastic Search的血缘关系表示方法

Also Published As

Publication number Publication date
CN111026736B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN110019218B (zh) 数据存储与查询方法及设备
CN107609350B (zh) 一种二代测序数据分析平台的数据处理方法
CN107832406B (zh) 海量日志数据的去重入库方法、装置、设备及存储介质
US9418094B2 (en) Method and apparatus for performing multi-stage table updates
EP3702932A1 (en) Method, apparatus, device and medium for storing and querying data
CN109376196B (zh) 一种redo日志批量同步方法及装置
CN109471851B (zh) 数据处理方法、装置、服务器和存储介质
CN110990402B (zh) 由行存储到列存储的格式转化方法、查询方法及装置
US10671586B2 (en) Optimal sort key compression and index rebuilding
WO2016041401A1 (zh) 向缓存中写入数据的方法及装置
CN110532347B (zh) 一种日志数据处理方法、装置、设备和存储介质
US10733454B2 (en) Transformation of video streams
CN113901279B (zh) 一种图数据库的检索方法和装置
CN111026736B (zh) 数据血缘管理方法及装置、数据血缘解析方法及装置
WO2019179408A1 (zh) 机器学习模型的构建
CN111324781A (zh) 一种数据分析方法、装置及设备
CN114529741A (zh) 一种图片去重方法、装置及电子设备
CN114780502B (zh) 基于压缩数据直接计算的数据库方法、系统、设备和介质
CN104778252A (zh) 索引的存储方法和装置
CN112965939A (zh) 一种文件合并方法、装置和设备
CN110019295B (zh) 数据库检索方法、装置、系统以及存储介质
CN113495901B (zh) 一种面向可变长数据块的快速检索方法
US20070239794A1 (en) Method and system for updating logical information in databases
CN115563116A (zh) 一种数据库表扫描方法、装置以及设备
US20220043821A1 (en) Method for performing multi-caching on data sources of same type and different types by using cluster-based processing system and device using the same

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant