CN112988768B - 实现数据溯源的方法和装置 - Google Patents

实现数据溯源的方法和装置 Download PDF

Info

Publication number
CN112988768B
CN112988768B CN201911309470.5A CN201911309470A CN112988768B CN 112988768 B CN112988768 B CN 112988768B CN 201911309470 A CN201911309470 A CN 201911309470A CN 112988768 B CN112988768 B CN 112988768B
Authority
CN
China
Prior art keywords
data
field
information
source
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911309470.5A
Other languages
English (en)
Other versions
CN112988768A (zh
Inventor
于洪涌
赵钧
王雪琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201911309470.5A priority Critical patent/CN112988768B/zh
Publication of CN112988768A publication Critical patent/CN112988768A/zh
Application granted granted Critical
Publication of CN112988768B publication Critical patent/CN112988768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开公开了一种实现数据溯源的方法和装置,涉及大数据信息安全领域。其中的方法包括:在元数据对数据和数据中的每个字段设置标识信息;在执行字段操作或对数据操作时,在元数据中为每个字段增加操作信息、来源数据信息、衍生数据信息、以及状态标识;根据元数据中每个字段的操作信息、来源数据信息、衍生数据信息和状态标识,通过查询数据标识信息和字段标识信息,获取当前数据的各来源数据、以及各来源数据对当前数据有影响的操作;将获取的各来源数据作为当前数据,若当前数据不是初始源数据,则重复执行获取当前数据的各来源数据、以及各来源数据对当前数据有影响的操作的步骤。本公开提高数据溯源的完整性和准确性。

Description

实现数据溯源的方法和装置
技术领域
本公开涉及大数据信息安全领域,尤其涉及一种实现数据溯源的方法和装置。
背景技术
数据溯源是对目标数据衍生前的原始数据以及演变过程的描述。在大数据时代,海量的数据和数据挖掘分析的需要,实际使用的数据大多是经过多次数据处理后的衍生数据。在数据使用时,常常需要通过追溯数据的来源,确认数据的确切含义、数据计算和错误排查等。
目前数据溯源有标注法、反向查询法、双向指针追踪法等,同时Hortonworks公司推出的Apache Atlas,Cloudera公司推出的Navigator,都提供了数据溯源能力。但这些方法的重点在于找到数据的来龙去脉,没有对其中的“变化”给予过多关注,而这些变化往往是错误排查和了解数据变迁细节的重要依据。
发明内容
本公开要解决的一个技术问题是,提供一种实现数据溯源的方法和装置,能够提高数据溯源的完整性和准确性。
根据本公开一方面,提出一种实现数据溯源的方法,包括:在元数据中对数据和数据中的每个字段设置标识信息;在执行字段操作或对数据操作时,在元数据中为每个字段增加操作信息、来源数据信息、衍生数据信息、以及状态标识,其中,状态标识用于标识字段状态和数据来源;根据元数据中每个字段的操作信息、来源数据信息、衍生数据信息和状态标识,通过查询数据标识信息和字段标识信息,获取当前数据的各来源数据、以及各来源数据对当前数据有影响的操作;将获取的各来源数据作为当前数据,判断当前数据是否为初始源数据,若当前数据不是初始源数据,则重复执行获取当前数据的各来源数据、以及各来源数据对当前数据有影响的操作的步骤。
在一些实施例中,操作信息包括操作类型、具体操作、操作影响的开始时间和结束时间;来源数据信息包括元数据对应的数据的来源数据字段,其中,每个来源数据字段携带影响当前数据的操作列表;衍生数据信息包括元数据对应的数据作为来源数据衍生的数据;状态标识包括来源数据、衍生数据、重定义字段和被删除字段的类型,以及来源数据和衍生数据对应的原字段标识为空,重定义字段的原字段标识为原标识,保留被删除字段的元数据。
在一些实施例中,操作类型包括定义字段类型、重定义字段类型、删除字段类型、增加数据类型、修改数据类型和删除数据类型。
在一些实施例中,在执行定义字段操作时,在当前数据的元数据中的字段中增加来源数据信息;基于数据范围和时间确认来源数据中影响当前数据的操作,并将确认的操作增加到来源数据信息的操作列表中;根据来源数据信息查找当前数据的来源数据字段,在每个来源数据字段的衍生数据信息中增加当前数据字段的标识信息;将定义字段对应的衍生数据信息设置为空;若定义字段对应的数据为源数据,则将状态标识的类型设置为源,原字段标识为空;若定义字段对应的数据为衍生数据,则将状态标识的类型设置为衍生,原字段标识为空。
在一些实施例中,在执行重定义字段操作时,在当前数据的元数据中的原字段的名称增加后缀,并将原字段的状态标识的类型设置为删除;将新生成的字段的操作信息中增加重定义操作,并增加来源数据信息;根据来源数据信息查找新生成的字段的来源数据字段,并在来源数据字段的衍生数据信息中增加新生成字段的标识信息;将重定义字段对应的衍生数据信息设置为空;将重定义字段的状态标识的类型设置为重定义,原字段标识为原标识。
在一些实施例中,在执行删除字段操作时,保留删除字段的元数据信息,将删除字段的元数据中的操作信息中增加删除字段类型,并在删除字段的名称增加后缀;将删除字段的状态标识中的类型设置为删除。
在一些实施例中,在执行增加数据操作时,将增加的数据的元数据中的操作信息的操作类型设置为增加数据;根据增加的数据的衍生数据信息,找到增加的数据的衍生数据;根据每个衍生数据的定义和时间设置,判断增加的数据是否影响衍生数据,若影响,则重新计算衍生数据,并在衍生数据的来源数据信息对应的来源数据字段中增加该增加的数据的操作信息。
在一些实施例中,在执行删除数据操作时,将删除的数据的元数据中的操作信息的操作类型设置为删除数据;根据删除的数据的衍生数据信息,找到删除的数据的衍生数据;根据每个衍生数据的定义和时间设置,判断删除的数据是否影响衍生数据,若影响,则重新计算衍生数据,并在衍生数据的来源数据信息对应的来源数据字段中增加删除的数据的操作信息。
在一些实施例中,在执行修改数据操作时,将修改的数据的元数据中的操作信息的操作类型设置为修改数据;根据修改的数据的衍生数据信息,找到修改的数据的衍生数据;根据每个衍生数据的定义和时间设置,判断修改的数据是否影响衍生数据,若影响,则重新计算衍生数据,并在衍生数据的来源数据信息对应的来源数据字段中增加修改的数据的操作信息。
在一些实施例中,对数据和数据中的每个字段设置标识信息包括:对数据文件或数据表增加标识信息;对数据文件中的字段和数据表中的字段增加标识信息。
根据本公开的另一方面,还提出一种实现数据溯源的装置,包括:标识设置单元,被配置为在元数据对数据和数据中的每个字段设置标识信息;信息增加单元,被配置为在执行字段操作或对数据操作时,在元数据中为每个字段增加操作信息、来源数据信息、衍生数据信息、以及状态标识,其中,状态标识用于标识字段状态和数据来源;数据溯源单元,被配置为根据元数据中每个字段的操作信息、来源数据信息、衍生数据信息和状态标识,通过查询数据标识信息和字段标识信息,获取当前数据的各来源数据、以及各来源数据对当前数据有影响的操作;将获取的各来源数据作为当前数据,判断当前数据是否为初始源数据,若当前数据不是初始源数据,则重复执行获取当前数据的各来源数据、以及各来源数据对当前数据有影响的操作的步骤。
根据本公开的另一方面,还提出一种实现数据溯源的装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的实现数据溯源的方法。
根据本公开的另一方面,还提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述的实现数据溯源的方法。
与相关技术相比,本公开实施例中,由于对数据和数据中的每个字段设置标识信息,便于定位数据和字段,并且在执行字段操作或对数据操作时,在元数据中为每个字段增加操作信息、来源数据信息、衍生数据信息、以及状态标识,可以着重查看影响当前数据的来源数据的改变操作,能够了解数据的变化过程,实现变化在数据中的一致性,从而保证了数据溯源的完整性和准确性。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的实现数据溯源的方法的一些实施例的流程示意图。
图2为本公开增加标识和记录操作的示意图。
图3为本公开的执行定义字段操作时元数据的修改流程示意图。
图4为本公开数据结构的一些实施例的示意图。
图5为本公开的执行重定义字段操作时元数据的修改流程示意图。
图6为本公开数据结构的另一些实施例的示意图。
图7为本公开执行删除字段操作时元数据的修改流程示意图。
图8为本公开的执行增加数据操作时元数据的修改流程示意图。
图9为本公开的执行删除数据操作时元数据的修改流程示意图。
图10为本公开的执行修改数据操作时元数据的修改流程示意图。
图11为本公开的实现数据溯源的装置的一些实施例的结构示意图。
图12为本公开的实现数据溯源的装置的另一些实施例的结构示意图。
图13为本公开的实现数据溯源的装置的另一些实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
图1为本公开的实现数据溯源的方法的一些实施例的流程示意图。
在步骤110,在元数据中对数据和数据中的每个字段设置标识信息。
在一些实施例中,建立统一的标识系统,在元数据中对数据文件或数据表设置标识信息,对数据文件或数据表中的字段也设置标识信息。例如,数据文件或数据表由N位数字标识,如图2所示,用“N1N2…Nn”标识数据文件或数据表。数据文件或数据表中的字段标识由“数据文件或数据表标识”加M位数字组成,例如,用“N1N2…NnM1M2…Mm”标识字段,每个标识唯一。基于该标识系统,可以快速的定位对应数据和字段。
在步骤120,在执行字段操作或对数据操作时,在元数据中为每个字段增加操作信息、来源数据信息、衍生数据信息、以及状态标识,其中,状态标识用于标识字段状态和数据来源。每执行一次操作,则在元数据中增加上述信息。
操作信息包括操作类型、具体操作、操作影响的开始时间和结束时间,其中,操作类型包括定义字段类型、重定义字段类型、删除字段类型、增加数据类型、修改数据类型和删除数据类型。具体操作包括定义字段操作、重定义字段操作、删除字段操作、增加数据操作、修改数据操作和删除数据操作。操作影响若一直持续下去,则操作影响的结束时间设置为空。
来源数据信息包括元数据对应的数据的来源数据字段,其中,每个来源数据字段携带影响当前数据的操作列表,若元数据对应的数据没有来源,则说明该数据为采集的源数据,来源数据字段设置为空。衍生数据信息包括元数据对应的数据作为来源数据衍生的数据,衍生数据信息可以到字段级。
状态标识包括来源数据、衍生数据、重定义字段和被删除字段的类型,以及来源数据和衍生数据对应的原字段标识为空,重定义字段的原字段标识为原标识,保留被删除字段的元数据。
例如,对于来源数据,类型设置为“source”,prevID(原字段标识)为空;对于衍生数据,类型设置为“dirived”,prevID为空;对于重定义字段,类型为“redefined”,prevID为原字段标识;对于被删除字段的类型设置为“deleted”,并保留被删除字段的元数据信息。
在步骤130,根据元数据中每个字段的操作信息、来源数据信息、衍生数据信息和状态标识,通过查询数据标识信息和字段标识信息,获取当前数据的各来源数据、以及各来源数据对当前数据有影响的操作。例如,遍历当前数据的各来源数据,和该来源数据对当前数据有影响的操作。该实施例中定义当前数据的数据为来源数据,当前数据衍生的数据为衍生数据。
在步骤140,将获取的各来源数据作为当前数据,判断当前数据是否为初始源数据,若是,则结束流程,否则,继续执行步骤150。
通过向上递归查找数据,能够确定当前数据是如何由源数据一步步衍生过来,即形成当前数据的定义树;还能够确定当前数据是如何由源数据一步步计算得到,即形成当前数据的数据树。
在上述实施例中,由于对数据和数据中的每个字段设置标识信息,便于定位数据和字段,并且在执行字段操作或对数据操作时,在元数据中为每个字段增加操作信息、来源数据信息、衍生数据信息、以及状态标识,可以着重查看影响当前数据的来源数据的改变操作,能够了解数据的变化过程,实现变化在数据中的一致性,从而保证了数据溯源的完整性和准确性。
下面将以具体执行的操作为例,说明元数据的修改流程。
图3为本公开的执行定义字段操作时元数据的修改流程示意图。
在步骤310,在当前数据的元数据中的字段中增加来源数据信息。
在定义字段时,数据结构例如为图4所示,当前数据若为源数据,则可以将操作数据中的细节标记为collected(采集),表示该数据为采集的源数据。
在步骤320,基于数据范围和时间确认来源数据中影响当前数据的操作,并将确认的操作增加到来源数据信息的操作列表中。
在步骤330,根据来源数据信息查找当前数据的来源数据字段,在每个来源数据字段的衍生数据信息中增加当前数据字段的标识信息。
在步骤340,将定义字段对应的衍生数据信息设置为空。
在步骤350,若定义字段对应的数据为源数据,则将状态标识的类型设置为“source”,原字段标识为空;若定义字段对应的数据为衍生数据,则将状态标识的类型设置为“dirived”,原字段标识为空。
在上述实施例中,在执行定义字段操作时,由于在元数据中增加了操作信息、来源数据信息、衍生数据信息、以及状态标识,便于后续在数据溯源时,了解数据的变化和错误排查,提高了数据溯源的准确性。
图5为本公开的执行重定义字段操作时元数据的修改流程示意图。
在步骤510,在当前数据的元数据中的原字段的名称增加后缀,并将原字段的状态标识的类型设置为删除。
在重定义字段时,数据结构如图6所示,将原数据备份,并生成新字段,原字段增加后缀“oldN”,其中,N为数字,原字段标识不变。
在步骤520,将新生成的字段的操作信息中增加重定义操作,并增加来源数据信息。新生成的字段增加新标识,但名称不变。
在步骤530,根据来源数据信息查找新生成的字段的来源数据字段,并在每个来源数据字段的衍生数据信息中增加新生成字段的标识信息。
在步骤540,将重定义字段对应的衍生数据信息设置为空。
在步骤550,将重定义字段的状态标识的类型设置为重定义,原字段标识为原标识。
若原字段的衍生数据需要基于字段的新定义进行修改,对衍生数据进行重定义字段操作。
在上述实施例中,在执行重定义操作时,由于在元数据中增加了操作信息、来源数据信息、衍生数据信息、以及状态标识,在后续数据溯源时,即便来源数据字段被重定义,也可以根据来源数据的标识找到其真正的来源数据。
图7为本公开执行删除字段操作时元数据的修改流程示意图。
在步骤710,保留删除字段的元数据信息,将删除字段的元数据中的操作信息中增加删除字段类型。
在实际数据被删除,保留元数据信息时,但会执行删除字段操作。
在步骤720,在删除字段的名称增加后缀。例如,在字段名称增加后缀“delN”。
在步骤730,将删除字段的状态标识中的类型设置为删除。
在上述实施例中,由于执行删除字段操作时,保留删除字段的元数据,将字段的操作信息中增加删除字段类型,字段名称增加后缀,状态标识的类型设置为删除,在后续数据溯源时,即便删除来源数据字段,仍可以根据留存的元数据信息找到其定义信息,并可根据该元数据的来源数据找到形成当前数据的定义树和数据树。
图8为本公开的执行增加数据操作时元数据的修改流程示意图。
在步骤810,将增加的数据的元数据中的操作信息的操作类型设置为增加数据。
在步骤820,根据增加的数据的衍生数据信息,找到增加的数据的衍生数据。
在步骤830,根据每个衍生数据的定义和时间设置,判断增加的数据是否影响衍生数据,若影响,则在衍生数据的来源数据信息对应的来源数据字段中增加该增加数据的操作信息。其中,衍生数据需要重新计算,并且该操作沿衍生数据链连续,直到衍生数据为空。
在上述实施例中,对于增加数据操作,若增加的数据影响衍生数据,则在衍生数据的来源数据信息对应的来源数据字段中增加该增加的数据的操作信息,从而保证了数据的一致性。
图9为本公开的执行删除数据操作时元数据的修改流程示意图。
在步骤910,将删除的数据的元数据中的操作信息的操作类型设置为删除数据。
在步骤920,根据删除的数据的衍生数据信息,找到删除的数据的衍生数据。
在步骤930,根据每个衍生数据的定义和时间设置,判断删除的数据是否影响衍生数据,若影响,则在衍生数据的来源数据信息对应的来源数据字段中增加该删除的数据的操作信息。其中,衍生数据需要重新计算,并且该操作沿衍生数据链连续,直到衍生数据为空。
在上述实施例中,对于删除数据,若删除的数据影响衍生数据,则在衍生数据的来源数据信息对应的来源数据字段中增加该删除的数据的操作信息,因此,即便数据被删除,则能够实现准确溯源。
图10为本公开的执行修改数据操作时元数据的修改流程示意图。
在步骤1010,将修改的数据的元数据中的操作信息的操作类型设置为修改数据。
在步骤1020,根据修改的数据的衍生数据信息,找到修改的数据的衍生数据。
在步骤1030,根据每个衍生数据的定义和时间设置,判断修改的数据是否影响衍生数据,若影响,则在衍生数据的来源数据信息对应的来源数据字段中增加该修改的数据的操作信息。其中,衍生数据需要重新计算,并且该操作沿衍生数据链连续,直到衍生数据为空。
在上述实施例中,对修改的数据,若修改的数据影响衍生数据,则在衍生数据的来源数据信息对应的来源数据字段中增加该修改的数据的操作信息,因此,即便数据被修改,能够实现准确溯源。
图11为本公开的实现数据溯源的装置的一些实施例的结构示意图。该装置包括标识设置单元1110、信息增加单元1120和数据溯源单元1130。
标识设置单元1110被配置为对元数据和元数据中的每个字段设置标识信息。
在一些实施例中,建立统一的标识系统,在元数据中对数据文件或数据表设置标识信息,对数据文件或数据表中的字段也设置标识信息。
信息增加单元1120被配置为在执行字段操作或对数据操作时,在元数据中为每个字段增加操作信息、来源数据信息、衍生数据信息、以及标识字段状态和数据来源的状态标识。
操作信息包括操作类型、具体操作、操作影响的开始时间和结束时间,其中,操作类型包括定义字段类型、重定义字段类型、删除字段类型、增加数据类型、修改数据类型和删除数据类型。具体操作包括定义字段操作、重定义字段操作、删除字段操作、增加数据操作、修改数据操作和删除数据操作。操作影响若一直持续下去,则操作影响的结束时间设置为空。
来源数据信息包括元数据对应的数据的来源数据字段,其中,每个来源数据字段携带影响当前数据的操作列表,若元数据对应的数据没有来源,则说明该数据为采集的源数据,来源数据字段设置为空。衍生数据信息包括元数据对应的数据作为来源数据衍生的数据,衍生数据信息可以到字段级。
状态标识包括来源数据、衍生数据、重定义字段和被删除字段的类型,以及来源数据和衍生数据对应的原字段标识为空,重定义字段的原字段标识为原标识,保留被删除字段的元数据。
例如,对于来源数据,类型设置为“source”,prevID(原字段标识)为空;对于衍生数据,类型设置为“dirived”,prevID为空;对于重定义字段,类型为“redefined”,prevID为原字段标识;对于被删除字段的类型设置为“deleted”,并保留被删除字段的元数据信息。
在一些实施例中,在执行定义字段操作时,在当前数据的元数据中的字段中增加来源数据信息;基于数据范围和时间确认来源数据中影响当前数据的操作,并将确认的操作增加到来源数据信息的操作列表中;根据来源数据信息查找当前数据的来源数据字段,在每个来源数据字段的衍生数据信息中增加当前数据字段的标识信息;将定义字段对应的衍生数据信息设置为空;若定义字段对应的数据为源数据,则将状态标识的类型设置为源,原字段标识为空;若定义字段对应的数据为衍生数据,则将状态标识的类型设置为衍生,原字段标识为空。
在一些实施例中,在执行重定义字段操作时,在当前数据的元数据中的原字段的名称增加后缀,并将原字段的状态标识的类型设置为删除;将新生成的字段的操作信息中增加重定义操作,并增加来源数据信息;根据来源数据信息查找新生成的字段的来源数据字段,并在来源数据字段的衍生数据信息中增加新生成字段的标识信息;将重定义字段对应的衍生数据信息设置为空;将重定义字段的状态标识的类型设置为重定义,原字段标识为原标识。
在一些实施例中,在执行删除字段操作时,保留删除字段的元数据信息,将删除字段的元数据中的操作信息中增加删除字段类型,并在删除字段的名称增加后缀;将删除字段的状态标识中的类型设置为删除。
在一些实施例中,在执行增加数据操作时,将增加的数据的元数据中的操作信息的操作类型设置为增加数据;根据增加的数据的衍生数据信息,找到增加的数据的衍生数据;根据每个衍生数据的定义和时间设置,判断增加的数据是否影响衍生数据,若影响,则重新计算衍生数据,并在衍生数据的来源数据信息对应的来源数据字段中增加该增加的数据的操作信息。
在一些实施例中,在执行删除数据操作时,将删除的数据的元数据中的操作信息的操作类型设置为删除数据;根据删除的数据的衍生数据信息,找到删除的数据的衍生数据;根据每个衍生数据的定义和时间设置,判断删除的数据是否影响衍生数据,若影响,则重新计算衍生数据,并在衍生数据的来源数据信息对应的来源数据字段中增加该删除的数据的操作信息。
在一些实施例中,在执行修改数据操作时,将修改的数据的元数据中的操作信息的操作类型设置为修改数据;根据修改的数据的衍生数据信息,找到修改的数据的衍生数据;根据每个衍生数据的定义和时间设置,判断修改的数据是否影响衍生数据,若影响,则重新计算衍生数据,并在衍生数据的来源数据信息对应的来源数据字段中增加该修改的数据的操作信息。
数据溯源单元1130被配置为根据元数据中每个字段的操作信息、来源数据信息、衍生数据信息和状态标识,通过查询数据标识信息和字段标识信息,获取当前数据的各来源数据、以及各来源数据对当前数据有影响的操作;将获取的各来源数据作为当前数据,判断当前数据是否为初始源数据,若当前数据不是初始源数据,则重复执行获取当前数据的各来源数据、以及各来源数据对当前数据有影响的操作的步骤。
在上述实施例中,由于对数据和元数据中的每个字段设置标识信息,便于定位数据和字段,并且在执行字段操作或对数据操作时,在元数据中为每个字段增加操作信息、来源数据信息、衍生数据信息、以及状态标识,即便定义字段、重定义字段、删除字段、增加数据、删除数据或修改数据,都可以着重查看影响当前数据的来源数据的改变操作,能够了解数据的变化过程,从而保证了数据溯源的一致性、完整性和准确性。
图12为本公开的实现数据溯源的装置的另一些实施例的结构示意图。该装置包括存储器1210和处理器1220,其中:存储器1210可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1-10所对应实施例中的指令。处理器1220耦接至存储器1210,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器1220用于执行存储器中存储的指令。
在一些实施例中,还可以如图13所示,该装置1300包括存储器1310和处理器1320。处理器1320通过BUS总线1330耦合至存储器1310。该装置1300还可以通过存储接口1340连接至外部存储装置1350以便调用外部数据,还可以通过网络接口1360连接至网络或者另外一台计算机系统(未标出),此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够提高数据溯源的准确性。
在另一些实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图1-10所对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (12)

1.一种实现数据溯源的方法,包括:
在元数据中对数据和数据中的每个字段设置标识信息;
在执行字段操作或对数据操作时,在所述元数据中为每个字段增加操作信息、来源数据信息、衍生数据信息、以及状态标识,其中,所述操作信息包括操作类型、具体操作、操作影响的开始时间和结束时间,所述来源数据信息包括所述元数据对应的数据的来源数据字段,其中,每个来源数据字段携带影响当前数据的操作列表,所述衍生数据信息包括所述元数据对应的数据作为来源数据衍生的数据,所述状态标识用于标识字段状态和数据来源,包括来源数据、衍生数据、重定义字段和被删除字段的类型,以及来源数据和衍生数据对应的原字段标识为空,重定义字段的原字段标识为原标识,保留被删除字段的元数据;
根据所述元数据中每个字段的操作信息、来源数据信息、衍生数据信息和状态标识,通过查询数据标识信息和字段标识信息,获取当前数据的各来源数据、以及各所述来源数据对所述当前数据有影响的操作;
将获取的各来源数据作为当前数据,判断当前数据是否为初始源数据,若当前数据不是初始源数据,则重复执行获取当前数据的各来源数据、以及各所述来源数据对所述当前数据有影响的操作的步骤。
2.根据权利要求1所述的实现数据溯源的方法,其中,
所述操作类型包括定义字段类型、重定义字段类型、删除字段类型、增加数据类型、修改数据类型和删除数据类型。
3.根据权利要求2所述的实现数据溯源的方法,其中,
在执行定义字段操作时,在当前数据的元数据中的字段中增加来源数据信息;
基于数据范围和时间确认来源数据中影响当前数据的操作,并将确认的操作增加到所述来源数据信息的操作列表中;
根据所述来源数据信息查找所述当前数据的来源数据字段,在每个来源数据字段的衍生数据信息中增加当前数据字段的标识信息;
将定义字段对应的衍生数据信息设置为空;
若定义字段对应的数据为源数据,则将状态标识的类型设置为源,原字段标识为空;若定义字段对应的数据为衍生数据,则将状态标识的类型设置为衍生,原字段标识为空。
4.根据权利要求2所述的实现数据溯源的方法,其中,
在执行重定义字段操作时,在当前数据的元数据中的原字段的名称增加后缀,并将原字段的状态标识的类型设置为删除;
将新生成的字段的操作信息中增加重定义操作,并增加来源数据信息;
根据来源数据信息查找新生成的字段的来源数据字段,并在来源数据字段的衍生数据信息中增加新生成字段的标识信息;
将重定义字段对应的衍生数据信息设置为空;
将重定义字段的状态标识的类型设置为重定义,原字段标识为原标识。
5.根据权利要求2所述的实现数据溯源的方法,其中,
在执行删除字段操作时,保留删除字段的元数据信息,将所述删除字段的元数据中的操作信息中增加删除字段类型,并在删除字段的名称增加后缀;
将删除字段的状态标识中的类型设置为删除。
6.根据权利要求2所述的实现数据溯源的方法,其中,
在执行增加数据操作时,将增加的数据的元数据中的操作信息的操作类型设置为增加数据;
根据增加的数据的衍生数据信息,找到所述增加的数据的衍生数据;
根据每个衍生数据的定义和时间设置,判断所述增加的数据是否影响衍生数据,若影响,则重新计算衍生数据,并在衍生数据的来源数据信息对应的来源数据字段中增加所述增加的数据的操作信息。
7.根据权利要求2所述的实现数据溯源的方法,其中,
在执行删除数据操作时,将删除的数据的元数据中的操作信息的操作类型设置为删除数据;
根据删除的数据的衍生数据信息,找到所述删除的数据的衍生数据;
根据每个衍生数据的定义和时间设置,判断所述删除的数据是否影响衍生数据,若影响,则重新计算衍生数据,并在衍生数据的来源数据信息对应的来源数据字段中增加所述删除的数据的操作信息。
8.根据权利要求2所述的实现数据溯源的方法,其中,
在执行修改数据操作时,将修改的数据的元数据中的操作信息的操作类型设置为修改数据;
根据修改的数据的衍生数据信息,找到所述修改的数据的衍生数据;
根据每个衍生数据的定义和时间设置,判断所述修改的数据是否影响衍生数据,若影响,则重新计算衍生数据,并在衍生数据的来源数据信息对应的来源数据字段中增加所述修改的数据的操作信息。
9.根据权利要求1至8任一所述的实现数据溯源的方法,其中,对数据和数据中的每个字段设置标识信息包括:
对数据文件或数据表增加标识信息;
对数据文件中的字段和数据表中的字段增加标识信息。
10.一种实现数据溯源的装置,包括:
标识设置单元,被配置为在元数据中对数据和数据中的每个字段设置标识信息;
信息增加单元,被配置为在执行字段操作或对数据操作时,在所述元数据中为每个字段增加操作信息、来源数据信息、衍生数据信息、以及状态标识,其中,所述操作信息包括操作类型、具体操作、操作影响的开始时间和结束时间,所述来源数据信息包括所述元数据对应的数据的来源数据字段,其中,每个来源数据字段携带影响当前数据的操作列表,所述衍生数据信息包括所述元数据对应的数据作为来源数据衍生的数据,所述状态标识用于标识字段状态和数据来源,包括来源数据、衍生数据、重定义字段和被删除字段的类型,以及来源数据和衍生数据对应的原字段标识为空,重定义字段的原字段标识为原标识,保留被删除字段的元数据;
数据溯源单元,被配置为根据所述元数据中每个字段的操作信息、来源数据信息、衍生数据信息和状态标识,通过查询数据标识信息和字段标识信息,获取当前数据的各来源数据、以及各所述来源数据对所述当前数据有影响的操作;将获取的各来源数据作为当前数据,判断当前数据是否为初始源数据,若当前数据不是初始源数据,则重复执行获取当前数据的各来源数据、以及各所述来源数据对所述当前数据有影响的操作的步骤。
11.一种实现数据溯源的装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至9任一项所述的实现数据溯源的方法。
12.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至9任一项所述的实现数据溯源的方法。
CN201911309470.5A 2019-12-18 2019-12-18 实现数据溯源的方法和装置 Active CN112988768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911309470.5A CN112988768B (zh) 2019-12-18 2019-12-18 实现数据溯源的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911309470.5A CN112988768B (zh) 2019-12-18 2019-12-18 实现数据溯源的方法和装置

Publications (2)

Publication Number Publication Date
CN112988768A CN112988768A (zh) 2021-06-18
CN112988768B true CN112988768B (zh) 2024-01-26

Family

ID=76343907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911309470.5A Active CN112988768B (zh) 2019-12-18 2019-12-18 实现数据溯源的方法和装置

Country Status (1)

Country Link
CN (1) CN112988768B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991196A (zh) * 2017-05-02 2017-07-28 山东浪潮通软信息科技有限公司 一种通用的数据追溯方法及系统
CN107105471A (zh) * 2017-05-23 2017-08-29 山东大学 基于正交标识的wsn数据传输路径溯源方法及系统
CN109471918A (zh) * 2018-11-09 2019-03-15 医渡云(北京)技术有限公司 一种中间字段追溯方法、设备和介质
CN109657110A (zh) * 2018-12-13 2019-04-19 上海达梦数据技术有限公司 一种数据溯源方法以及相应的数据溯源装置
CN110490761A (zh) * 2019-07-26 2019-11-22 广西电网有限责任公司 一种电网配网设备台账数据模型建模方法
US10489387B1 (en) * 2018-05-24 2019-11-26 People.ai, Inc. Systems and methods for determining the shareability of values of node profiles

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991196A (zh) * 2017-05-02 2017-07-28 山东浪潮通软信息科技有限公司 一种通用的数据追溯方法及系统
CN107105471A (zh) * 2017-05-23 2017-08-29 山东大学 基于正交标识的wsn数据传输路径溯源方法及系统
US10489387B1 (en) * 2018-05-24 2019-11-26 People.ai, Inc. Systems and methods for determining the shareability of values of node profiles
CN109471918A (zh) * 2018-11-09 2019-03-15 医渡云(北京)技术有限公司 一种中间字段追溯方法、设备和介质
CN109657110A (zh) * 2018-12-13 2019-04-19 上海达梦数据技术有限公司 一种数据溯源方法以及相应的数据溯源装置
CN110490761A (zh) * 2019-07-26 2019-11-22 广西电网有限责任公司 一种电网配网设备台账数据模型建模方法

Also Published As

Publication number Publication date
CN112988768A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN108089893B (zh) 冗余资源的确定方法、装置、终端设备与存储介质
CN109388566B (zh) 一种代码覆盖率分析方法、装置、设备及存储介质
US9116899B2 (en) Managing changes to one or more files via linked mapping records
CN106776633B (zh) 用户可配置的自动生成a2l文件的装置和方法
CN106469049B (zh) 一种文件扫描的方法及装置
CN112364024A (zh) 一种表数据批量自动比对的控制方法及装置
CN115757629A (zh) 多源异构数据增量同步方法、系统、存储介质和电子设备
CN113568604B (zh) 风控策略的更新方法、装置及计算机可读存储介质
CN113495728A (zh) 依赖关系确定方法、装置、电子设备及介质
CN112988768B (zh) 实现数据溯源的方法和装置
CN107330031B (zh) 一种数据存储的方法、装置及电子设备
CN113064674B (zh) 一种扩展状态机逻辑的方法、装置、存储介质和电子装置
CN111737349A (zh) 数据一致性校验方法及装置
CN112181479A (zh) 代码文件版本间差异的确定方法、装置及电子设备
CN111221742A (zh) 一种测试案例的更新方法、装置、存储介质和服务器
CN113126998B (zh) 一种增量源码获取方法、装置、电子设备及存储介质
CN114329090A (zh) 路径寻参的方法、装置、电子设备及存储介质
CN107015909B (zh) 基于代码变更分析的测试方法及装置
CN109855633B (zh) 地图更新方法、装置、设备及存储介质
CN111209183A (zh) Ui功能遍历测试方法和装置
CN110688542B (zh) 一种基础设施查找方法及装置
CN114461605B (zh) 内存多维数据库的事务数据多版本实现方法、装置及设备
CN117349267B (zh) 一种数据库迁移处理方法及系统
CN118035287A (zh) 一种指标血缘解析方法及装置
CN117608639A (zh) 一种软件开发工具包版本的依赖冲突的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant