CN117235153A - 一种基于prov-dm模型的合规数据存证和溯源方法及系统 - Google Patents

一种基于prov-dm模型的合规数据存证和溯源方法及系统 Download PDF

Info

Publication number
CN117235153A
CN117235153A CN202311292525.2A CN202311292525A CN117235153A CN 117235153 A CN117235153 A CN 117235153A CN 202311292525 A CN202311292525 A CN 202311292525A CN 117235153 A CN117235153 A CN 117235153A
Authority
CN
China
Prior art keywords
tracing
entity
activity
data
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311292525.2A
Other languages
English (en)
Inventor
徐豪
何晶晶
邓聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuanxin Beijing Technology Co ltd
Original Assignee
Shuanxin Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuanxin Beijing Technology Co ltd filed Critical Shuanxin Beijing Technology Co ltd
Priority to CN202311292525.2A priority Critical patent/CN117235153A/zh
Publication of CN117235153A publication Critical patent/CN117235153A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于PROV‑DM模型的合规数据存证和溯源方法,包括:通过PROV‑DM模型定义实体、活动和代理三个要素以及它们之间的关系;根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;使用图数据库或关系数据库,将所述有向无环图进行持久化存储;根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。本申请通过基于数据关系进行存储,在数据溯源时,不需要对数据结构进行改动即可进行数据溯源。

Description

一种基于PROV-DM模型的合规数据存证和溯源方法及系统
技术领域
本申请涉及数据存储与溯源领域,尤其涉及一种基于PROV-DM模型的合规数据存证和溯源方法及系统。
背景技术
在数据要素流转过程中的各个节点,需要对每一次数据收集、共享动作进行存证,并允许用户在后续对其进行溯源或取证。
在进行数据溯源时,需要考虑两个方面:数据结构存储形式和存储介质。
数据结构存储形式可以选择扩展原有数据或以树形结构或DAG的形式存储元数据。如果涉及到跨主体跨机构且数据可能以批次流转,扩展原有数据可能需要进行较大的改动。
发明内容
本申请的目的在于克服现有技术中存在的问题,提供一种基于PROV-DM模型的合规数据存证和溯源方法及系统。
本申请提供一种基于PROV-DM模型的合规数据存证和溯源方法,包括:
通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;
根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;
使用图数据库或关系数据库,将所述有向无环图进行持久化存储;
根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
可选地,所述通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系,包括:
通过定义关系来描述实体、活动和代理之间的依赖关系,包括:已使用(Usage)、已产生(Generation)、已开始(Start)、已结束(End)、已失效(Invalidation)和已被告知(Communication)。
可选地,所述根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,包括:
确定需要溯源的数据对象;
通过查询获取目标数据的溯源路径和详细信息,包括数据的历史状态、修改记录、操作人员等信息。
将溯源路径和详细信息输出。
可选地,所述通过所述时间、实体、活动进行数据溯源查询,包括数据溯源查询公式:
trace(entity,activity,time)=query(entity,activity,time)
其中:entity:要溯源的实体;activity:与实体相关的活动;time:溯源的时间范围;query(entity,activity,time):查询函数,根据输入的实体、活动和时间范围,从持久化存储的有向无环图中检索相关数据的溯源路径和详细信息。
可选地,所述实体、活动和代理三个要素以及它们之间的关系,包括:
实体是指在数据存储和溯源过程中需要被记录和追踪的对象或数据;
活动是指对实体进行操作、处理或改变的过程或行为;
代理是指参与活动的实体,通常是指能够执行活动的人、组织或系统;
关系是指实体、活动和代理之间的连接和依赖关系。
本申请还提供一种基于PROV-DM模型的合规数据存证和溯源系统,包括:
定义模块,通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;
构建模块,根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;
存储模块,使用图数据库或关系数据库,将所述有向无环图进行持久化存储;
查询模块,根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
可选地,所述定义模块通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系,包括:
通过定义关系来描述实体、活动和代理之间的依赖关系,包括:已使用(Usage)、已产生(Generation)、已开始(Start)、已结束(End)、已失效(Invalidation)和已被告知(Communication)。
可选地,所述查询模块根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,包括:
确定需要溯源的数据对象;
通过查询获取目标数据的溯源路径和详细信息,包括数据的历史状态、修改记录、操作人员等信息。
将溯源路径和详细信息输出。
可选地,所述查询模块通过所述时间、实体、活动进行数据溯源查询,包括数据溯源查询公式:
trace(entity,activity,time)=query(entity,activity,time)
其中:entity:要溯源的实体;activity:与实体相关的活动;time:溯源的时间范围;query(entity,activity,time):查询函数,根据输入的实体、活动和时间范围,从持久化存储的有向无环图中检索相关数据的溯源路径和详细信息。
可选地,所述实体、活动和代理三个要素以及它们之间的关系,包括:
实体是指在数据存储和溯源过程中需要被记录和追踪的对象或数据;
活动是指对实体进行操作、处理或改变的过程或行为;
代理是指参与活动的实体,通常是指能够执行活动的人、组织或系统;
关系是指实体、活动和代理之间的连接和依赖关系。
本申请的优点和有益效果:
本申请提供一种基于PROV-DM模型的合规数据存证和溯源方法,包括:通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;使用图数据库或关系数据库,将所述有向无环图进行持久化存储;根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。本申请通过基于数据关系进行存储,在数据溯源时,不需要对数据结构进行改动即可进行数据溯源。
附图说明
图1是本申请中基于PROV-DM模型的合规数据存证和溯源示意图。
图2是本申请中实体、活动和代理这三个要素示意图。
图3是本申请中基于PROV-DM模型的合规数据存证和溯源装置示意图。
具体实施方式
下面结合附图和具体实施例对本申请作进一步说明,以使本领域的技术人员可以更好地理解本申请并能予以实施。
以下内容均是为了详细说明本申请要保护的技术方案所提供的具体实施过程的示例,但是本申请还可以采用不同于此的描述的其他方式实施,本领域技术人员可以在本申请构思的指引下,采用不同的技术手段实现本申请,因此本申请不受下面具体实施例的限制。
本申请提供一种基于PROV-DM模型的合规数据存证和溯源方法,包括:通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;使用图数据库或关系数据库,将所述有向无环图进行持久化存储;根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。本申请通过基于数据关系进行存储,在数据溯源时,不需要对数据结构进行改动即可进行数据溯源。
图1是本申请中基于PROV-DM模型的合规数据存证和溯源示意图。
请参照图1所示,S101通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系。
通过定义关系来描述实体、活动和代理之间的依赖关系,包括:已使用(Usage)、已产生(Generation)、已开始(Start)、已结束(End)、已失效(Invalidation)和已被告知(Communication)。
具体的,根据PROV-DM(ThePROVDataModel)模型,可以定义实体、活动和代理这三个要素,以及它们之间的关系,包括:
实体是指在数据流转过程中被创建、使用或影响的物理或逻辑对象。定义实体包括:
为每个实体分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定实体的特征和属性,以便在数据溯源过程中进行分析和比较。
活动是指在数据流转过程中执行的操作或事件。定义活动步骤包括:
为每个活动分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定活动的特征和属性,以便在数据溯源过程中进行分析和比较。
代理是指在数据流转过程中参与或影响数据处理的实体,可以是人、组织、系统或其他实体。定义代理包括:
为每个代理分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定代理的特征和属性,以便在数据溯源过程中进行分析和比较。
定义实体、活动和代理之间的关系:
在数据溯源过程中,实体、活动和代理之间存在多种关系,如生成(wasGeneratedBy)、使用(used)、控制(wasControlledBy)等。可以通过以下步骤来定义它们之间的关系:
根据具体的场景和需求,选择适当的关系类型来描述实体、活动和代理之间的关系。
确定参与关系的实体、活动和代理的标识符,并将它们与相应的关系类型关联起来。
本申请使用PROV-DM模型来定义实体、活动和代理这三个要素,并建立它们之间的关系。这将为数据溯源提供基础,以便在数据流转过程中进行追踪、分析和比较。
请参照图1所示,S102根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息。
记录实体是由哪个活动生成的。这个关系可以表示为:实体E1wasGeneratedBy活动A1。
记录实体在某个活动中被使用了。这个关系可以表示为:活动A1used实体E1。
记录一个实体是从另一个或多个实体派生而来的。这个关系可以表示为:实体E2wasDerivedFrom实体E1。
记录活动与某个代理之间的关联,表示活动由代理执行。这个关系可以表示为:活动A1wasAssociatedWith代理P1。
记录代理之间的层次关系,表示一个代理代表另一个代理参与活动。这个关系可以表示为:代理P2actedOnBehalfOf代理P1。
如图2所示,通过使用上述关系,建立有向无环图来记录实体、活动和代理之间的关系。这样的图可以帮助追踪数据的流动和处理过程,并提供溯源和取证的功能。其中,实体、活动和代理可以作为节点,而关系可以作为边。通过遵循PROV-DM模型的定义和规范,可以准确地记录实体的生成、使用、派生关系,以及活动的执行和代理的参与信息。
请参照图1所示,S103使用图数据库或关系数据库,将所述有向无环图进行持久化存储。
图数据库是一种专门用于存储和处理图数据的数据库。它使用图结构来表示实体、活动和代理之间的关系,并提供了高效的图查询和遍历功能。将有向无环图存储到图数据库中,可以使用节点和边的方式来表示实体、活动和代理,并使用关系类型来表示它们之间的关系。图数据库提供了灵活的数据模型和查询语言,可以方便地查询和分析图数据。
关系数据库是一种使用表和关系模型来存储数据的数据库。将有向无环图存储到关系数据库中,可以使用表来表示实体、活动和代理,并使用外键来表示它们之间的关系。可以创建多个表来表示不同类型的节点和边,例如一个表用于表示实体,另一个表用于表示活动,再一个表用于表示代理,通过在表中建立外键关联,可以建立实体、活动和代理之间的关系。
在将有向无环图存储到数据库中时,需要设计合适的数据模型和表结构来表示实体、活动和代理,并定义适当的关系类型和外键关联。同时,还需要选择合适的数据库管理系统(DBMS)来支持图数据库或关系数据库的存储和查询操作。通过将有向无环图持久化存储到数据库中,可以实现数据的长期保存和高效的查询分析,为数据溯源提供可靠的基础。
请参照图1所示,S104根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
确定需要溯源的数据对象;
通过查询获取目标数据的溯源路径和详细信息,包括数据的历史状态、修改记录、操作人员等信息。
在进行数据溯源查询之前,需要明确溯源的目标和需求。例如,可能需要查找某个特定时间段内某个实体的生成路径,或者查找某个活动所使用的所有实体。根据具体的目标和需求,可以确定查询的范围和条件。
根据所述时间、实体、活动等查询条件,可以使用查询语言或查询接口来执行数据溯源查询。查询语言可以是图查询语言(如Cypher、Gremlin)或关系数据库查询语言(如SQL),根据所选择的数据库类型来确定使用的查询语言。查询接口可以是数据库的API或图数据库的API,根据所选择的数据库类型来确定使用的查询接口。
对于某些经常被查询的数据,在查询之前进行预计算和聚合,生成更小、更易于查询的结果。这样,在查询时可以直接使用预计算的结果,而不需要进行复杂的计算。具体的,公式如下:
其中,entity_table表示包含实体历史数据的原始表,n表示该表中的行数,total_count[i]表示第i行数据的总次数或总数量。
通过所述公式表示对原始表进行预计算和聚合,计算每个实体在每个时间段内的总次数或总数量,并将结果存储在一个新的表中。在查询时,可以直接使用这个新表中的数据进行查询,而不需要再次计算。
进一步的,通过并行计算提高所述预计算和聚合的速度,公式如下:
在这个公式中,f表示预计算和聚合的函数,entity_table表示输入的实体数据表。g表示一个合并函数,它将每个子任务的计算结果进行合并。map函数将输入的实体数据表映射到多个计算节点或线程上进行并行计算。
进一步的使用n表示查询涉及的表的数量,m表示查询涉及的列的数量。可以使用j表示查询中的联接操作的次数。使用s表示查询中的筛选条件的数量。使用a表示查询中的聚合函数的数量。
基于这些因素,通过下面公式来评估查询的复杂性和计算量:
其中,n、m、j、s、a和O分别表示查询涉及的表和列的数量、查询中的联接操作数量、查询中的筛选条件数量、查询中的聚合函数数量和执行查询所需的操作数量。
根据所述公式可以更全面地评估查询的复杂性和计算量,包括查询涉及的数据结构、查询语句本身的复杂性和执行查询所需的操作数量等因素。
设置阈值,将所述C与阈值进行比对,当所述C大于阈值时,进行预计算和聚合后的查询,否则进行正常数据查询。如此可以进一步根据实际情况进行预计算和聚合的选择,当简单查询时不需要进行预计算,当复杂查询时才进行预计算,实现最优的查询策略。
根据查询条件,系统将返回与条件匹配的溯源路径和详细信息。溯源路径是指从起始点(如特定时间、实体、活动)到目标点(如生成的实体、使用的实体)的路径,可以是单条路径或多条路径。详细信息包括每个路径上的节点(实体、活动)和边(关系)的属性和关联信息。根据查询结果,可以了解数据的生成、使用和派生关系,以及活动的执行和代理的参与信息。
通过对查询结果的分析和解读,可以获取相关数据的溯源路径和详细信息,进一步了解数据的来源、处理过程和关联关系。这有助于追踪数据的流动和处理过程,提供溯源和取证的功能。
本申请还提供一种基于PROV-DM模型的合规数据存证和溯源系统,包括:定义模块、构建模块、存储模块和查询模块。
图3是本申请中基于PROV-DM模型的合规数据存证和溯源装置示意图。
请参照图3所示,定义模块301,通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系。
根据PROV-DM(ThePROVDataModel)模型,可以定义实体、活动和代理这三个要素,以及它们之间的关系。以下是定义实体和它们之间关系的步骤:
实体是指在数据流转过程中被创建、使用或影响的物理或逻辑对象。定义实体包括:
为每个实体分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定实体的特征和属性,以便在数据溯源过程中进行分析和比较。
活动是指在数据流转过程中执行的操作或事件。定义活动步骤包括:
为每个活动分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定活动的特征和属性,以便在数据溯源过程中进行分析和比较。
代理是指在数据流转过程中参与或影响数据处理的实体,可以是人、组织、系统或其他实体。定义代理包括:
为每个代理分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定代理的特征和属性,以便在数据溯源过程中进行分析和比较。
定义实体、活动和代理之间的关系:
在数据溯源过程中,实体、活动和代理之间存在多种关系,如生成(wasGeneratedBy)、使用(used)、控制(wasControlledBy)等。可以通过以下步骤来定义它们之间的关系:
根据具体的场景和需求,选择适当的关系类型来描述实体、活动和代理之间的关系。
确定参与关系的实体、活动和代理的标识符,并将它们与相应的关系类型关联起来。
本申请使用PROV-DM模型来定义实体、活动和代理这三个要素,并建立它们之间的关系。这将为数据溯源提供基础,以便在数据流转过程中进行追踪、分析和比较。
请参照图3所示,构建模块302,根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息。
记录实体是由哪个活动生成的。这个关系可以表示为:实体E1wasGeneratedBy活动A1。
记录实体在某个活动中被使用了。这个关系可以表示为:活动A1used实体E1。
记录一个实体是从另一个或多个实体派生而来的。这个关系可以表示为:实体E2wasDerivedFrom实体E1。
记录活动与某个代理之间的关联,表示活动由代理执行。这个关系可以表示为:活动A1wasAssociatedWith代理P1。
记录代理之间的层次关系,表示一个代理代表另一个代理参与活动。这个关系可以表示为:代理P2actedOnBehalfOf代理P1。
通过使用上述关系,建立有向无环图来记录实体、活动和代理之间的关系。这样的图可以帮助追踪数据的流动和处理过程,并提供溯源和取证的功能。其中,实体、活动和代理可以作为节点,而关系可以作为边。通过遵循PROV-DM模型的定义和规范,可以准确地记录实体的生成、使用、派生关系,以及活动的执行和代理的参与信息。
请参照图3所示,存储模块303,使用图数据库或关系数据库,将所述有向无环图进行持久化存储。
图数据库是一种专门用于存储和处理图数据的数据库。它使用图结构来表示实体、活动和代理之间的关系,并提供了高效的图查询和遍历功能。将有向无环图存储到图数据库中,可以使用节点和边的方式来表示实体、活动和代理,并使用关系类型来表示它们之间的关系。图数据库提供了灵活的数据模型和查询语言,可以方便地查询和分析图数据。
关系数据库是一种使用表和关系模型来存储数据的数据库。将有向无环图存储到关系数据库中,可以使用表来表示实体、活动和代理,并使用外键来表示它们之间的关系。可以创建多个表来表示不同类型的节点和边,例如一个表用于表示实体,另一个表用于表示活动,再一个表用于表示代理,通过在表中建立外键关联,可以建立实体、活动和代理之间的关系。
在将有向无环图存储到数据库中时,需要设计合适的数据模型和表结构来表示实体、活动和代理,并定义适当的关系类型和外键关联。同时,还需要选择合适的数据库管理系统(DBMS)来支持图数据库或关系数据库的存储和查询操作。通过将有向无环图持久化存储到数据库中,可以实现数据的长期保存和高效的查询分析,为数据溯源提供可靠的基础。
请参照图3所示,查询模块304,根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
在进行数据溯源查询之前,需要明确溯源的目标和需求。例如,可能需要查找某个特定时间段内某个实体的生成路径,或者查找某个活动所使用的所有实体。根据具体的目标和需求,可以确定查询的范围和条件。
根据所述时间、实体、活动等查询条件,可以使用查询语言或查询接口来执行数据溯源查询。查询语言可以是图查询语言(如Cypher、Gremlin)或关系数据库查询语言(如SQL),根据所选择的数据库类型来确定使用的查询语言。查询接口可以是数据库的API或图数据库的API,根据所选择的数据库类型来确定使用的查询接口。
对于某些经常被查询的数据,在查询之前进行预计算和聚合,生成更小、更易于查询的结果。这样,在查询时可以直接使用预计算的结果,而不需要进行复杂的计算。具体的,公式如下:
其中,entity_table表示包含实体历史数据的原始表,n表示该表中的行数,total_count[i]表示第i行数据的总次数或总数量。
通过所述公式表示对原始表进行预计算和聚合,计算每个实体在每个时间段内的总次数或总数量,并将结果存储在一个新的表中。在查询时,可以直接使用这个新表中的数据进行查询,而不需要再次计算。
进一步的,通过并行计算提高所述预计算和聚合的速度,公式如下:
在这个公式中,f表示预计算和聚合的函数,entity_table表示输入的实体数据表。g表示一个合并函数,它将每个子任务的计算结果进行合并。map函数将输入的实体数据表映射到多个计算节点或线程上进行并行计算。
进一步的使用n表示查询涉及的表的数量,m表示查询涉及的列的数量。可以使用j表示查询中的联接操作的次数。使用s表示查询中的筛选条件的数量。使用a表示查询中的聚合函数的数量。
基于这些因素,通过下面公式来评估查询的复杂性和计算量:
其中,n、m、j、s、a和O分别表示查询涉及的表和列的数量、查询中的联接操作数量、查询中的筛选条件数量、查询中的聚合函数数量和执行查询所需的操作数量。
根据所述公式可以更全面地评估查询的复杂性和计算量,包括查询涉及的数据结构、查询语句本身的复杂性和执行查询所需的操作数量等因素。
设置阈值,将所述C与阈值进行比对,当所述C大于阈值时,进行预计算和聚合后的查询,否则进行正常数据查询。如此可以进一步根据实际情况进行预计算和聚合的选择,当简单查询时不需要进行预计算,当复杂查询时才进行预计算,实现最优的查询策略。
根据查询条件,系统将返回与条件匹配的溯源路径和详细信息。溯源路径是指从起始点(如特定时间、实体、活动)到目标点(如生成的实体、使用的实体)的路径,可以是单条路径或多条路径。详细信息包括每个路径上的节点(实体、活动)和边(关系)的属性和关联信息。根据查询结果,可以了解数据的生成、使用和派生关系,以及活动的执行和代理的参与信息。
通过对查询结果的分析和解读,可以获取相关数据的溯源路径和详细信息,进一步了解数据的来源、处理过程和关联关系。这有助于追踪数据的流动和处理过程,提供溯源和取证的功能。

Claims (10)

1.一种基于PROV-DM模型的合规数据存证和溯源方法,其特征在于,包括:
通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;
根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;
使用图数据库或关系数据库,将所述有向无环图进行持久化存储;
根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
2.根据权利要求1所述基于PROV-DM模型的合规数据存证和溯源方法,其特征在于,所述通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系,包括:
通过定义关系来描述实体、活动和代理之间的依赖关系,包括:已使用、已产生、已开始、已结束、已失效和已被告知。
3.根据权利要求1所述基于PROV-DM模型的合规数据存证和溯源方法,其特征在于,所述根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,包括:
确定需要溯源的数据对象;
通过查询获取目标数据的溯源路径和详细信息,包括数据的历史状态、修改记录、操作人员的信息;
将溯源路径和详细信息输出。
4.根据权利要求1所述基于PROV-DM模型的合规数据存证和溯源方法,其特征在于,所述通过所述时间、实体、活动进行数据溯源查询,包括数据溯源查询公式:
trace(entity,activity,time)=query(entity,activity,time)
其中:entity:要溯源的实体;activity:与实体相关的活动;time:溯源的时间范围;query(entity,activity,time):查询函数,根据输入的实体、活动和时间范围,从持久化存储的有向无环图中检索相关数据的溯源路径和详细信息。
5.根据权利要求1所述基于PROV-DM模型的合规数据存证和溯源方法,其特征在于,所述实体、活动和代理三个要素以及它们之间的关系,包括:
实体是指在数据存储和溯源过程中需要被记录和追踪的对象或数据;
活动是指对实体进行操作、处理或改变的过程或行为;
代理是指参与活动的实体,通常是指能够执行活动的人、组织或系统;
关系是指实体、活动和代理之间的连接和依赖关系。
6.一种基于PROV-DM模型的合规数据存证和溯源系统,其特征在于,包括:
定义模块,通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;
构建模块,根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;
存储模块,使用图数据库或关系数据库,将所述有向无环图进行持久化存储;
查询模块,根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
7.根据权利要求6所述基于PROV-DM模型的合规数据存证和溯源系统,其特征在于,所述定义模块通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系,包括:
通过定义关系来描述实体、活动和代理之间的依赖关系,包括:已使用、已产生、已开始、已结束、已失效和已被告知。
8.根据权利要求6所述基于PROV-DM模型的合规数据存证和溯源系统,其特征在于,所述查询模块根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,包括:
确定需要溯源的数据对象;
通过查询获取目标数据的溯源路径和详细信息,包括数据的历史状态、修改记录、操作人员的信息;
将溯源路径和详细信息输出。
9.根据权利要求6所述基于PROV-DM模型的合规数据存证和溯源系统,其特征在于,所述查询模块通过所述时间、实体、活动进行数据溯源查询,包括数据溯源查询公式:
trace(entity,activity,time)=query(entity,activity,time)
其中:entity:要溯源的实体;activity:与实体相关的活动;time:溯源的时间范围;query(entity,activity,time):查询函数,根据输入的实体、活动和时间范围,从持久化存储的有向无环图中检索相关数据的溯源路径和详细信息。
10.根据权利要求6所述基于PROV-DM模型的合规数据存证和溯源系统,其特征在于,所述实体、活动和代理三个要素以及它们之间的关系,包括:
实体是指在数据存储和溯源过程中需要被记录和追踪的对象或数据;
活动是指对实体进行操作、处理或改变的过程或行为;
代理是指参与活动的实体,通常是指能够执行活动的人、组织或系统;
关系是指实体、活动和代理之间的连接和依赖关系。
CN202311292525.2A 2023-10-08 2023-10-08 一种基于prov-dm模型的合规数据存证和溯源方法及系统 Pending CN117235153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311292525.2A CN117235153A (zh) 2023-10-08 2023-10-08 一种基于prov-dm模型的合规数据存证和溯源方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311292525.2A CN117235153A (zh) 2023-10-08 2023-10-08 一种基于prov-dm模型的合规数据存证和溯源方法及系统

Publications (1)

Publication Number Publication Date
CN117235153A true CN117235153A (zh) 2023-12-15

Family

ID=89085948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311292525.2A Pending CN117235153A (zh) 2023-10-08 2023-10-08 一种基于prov-dm模型的合规数据存证和溯源方法及系统

Country Status (1)

Country Link
CN (1) CN117235153A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060235836A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Query conditions on related model entities
CN106709000A (zh) * 2016-12-22 2017-05-24 河海大学 一种基于PageRank和起源图抽象的关键视图发现方法
CN110704874A (zh) * 2019-09-27 2020-01-17 西北大学 一种基于数据溯源的隐私泄露防护方法
CN112395566A (zh) * 2020-12-08 2021-02-23 江西赣鄱云新型智慧城市技术研究有限公司 基于区块链的数据溯源系统
CN113569083A (zh) * 2021-06-17 2021-10-29 南京大学 基于数据溯源模型的智能音箱本地端数字取证系统及方法
CN114253995A (zh) * 2022-03-01 2022-03-29 深圳市明源云科技有限公司 数据溯源方法、装置、设备及计算机可读存储介质
CN116304220A (zh) * 2022-12-05 2023-06-23 东北大学 一种面向数据集成的多粒度溯源方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060235836A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Query conditions on related model entities
CN106709000A (zh) * 2016-12-22 2017-05-24 河海大学 一种基于PageRank和起源图抽象的关键视图发现方法
CN110704874A (zh) * 2019-09-27 2020-01-17 西北大学 一种基于数据溯源的隐私泄露防护方法
CN112395566A (zh) * 2020-12-08 2021-02-23 江西赣鄱云新型智慧城市技术研究有限公司 基于区块链的数据溯源系统
CN113569083A (zh) * 2021-06-17 2021-10-29 南京大学 基于数据溯源模型的智能音箱本地端数字取证系统及方法
CN114253995A (zh) * 2022-03-01 2022-03-29 深圳市明源云科技有限公司 数据溯源方法、装置、设备及计算机可读存储介质
CN116304220A (zh) * 2022-12-05 2023-06-23 东北大学 一种面向数据集成的多粒度溯源方法

Similar Documents

Publication Publication Date Title
US11971890B2 (en) Database management system for optimizing queries via multiple optimizers
US11163670B2 (en) Data records selection
Krishnan et al. Learning to optimize join queries with deep reinforcement learning
US20210286786A1 (en) Database performance tuning method, apparatus, and system, device, and storage medium
US20180004781A1 (en) Data lineage analysis
CN104137095B (zh) 用于演进分析的系统
US9785657B2 (en) Method for synthetic data generation for query workloads
Qin et al. PF-OLA: a high-performance framework for parallel online aggregation
WO2021012861A1 (zh) 数据查询耗时评估方法、装置、计算机设备和存储介质
CN107729510B (zh) 信息交互方法、信息交互终端及存储介质
US8548980B2 (en) Accelerating queries based on exact knowledge of specific rows satisfying local conditions
CN117235153A (zh) 一种基于prov-dm模型的合规数据存证和溯源方法及系统
Gombos et al. P-Spar (k) ql: SPARQL evaluation method on Spark GraphX with parallel query plan
Awada et al. Cost Estimation Across Heterogeneous SQL-Based Big Data Infrastructures in Teradata IntelliSphere.
US20220043821A1 (en) Method for performing multi-caching on data sources of same type and different types by using cluster-based processing system and device using the same
CN114328606A (zh) Sql执行效率的提高方法、设备及存储介质
Hüske Specification and optimization of analytical data flows
CN111723249A (zh) 一种实现数据处理的方法、装置、计算机存储介质及终端
Mihaylov et al. Scalable learning to troubleshoot query performance problems
Zhang et al. Scalable Online Interval Join on Modern Multicore Processors in OpenMLDB
Ito et al. Scardina: Scalable Join Cardinality Estimation by Multiple Density Estimators
EP4092543A1 (en) Index-based, adaptive join size estimation
Pandit et al. Accelerating big data analytics with collaborative planning in Teradata Aster 6
Werner et al. Managing Spatio-Temporal Data Streams on AUVs
Lee et al. Join processing with threshold-based filtering in MapReduce

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination