CN117235153A - 一种基于prov-dm模型的合规数据存证和溯源方法及系统 - Google Patents
一种基于prov-dm模型的合规数据存证和溯源方法及系统 Download PDFInfo
- Publication number
- CN117235153A CN117235153A CN202311292525.2A CN202311292525A CN117235153A CN 117235153 A CN117235153 A CN 117235153A CN 202311292525 A CN202311292525 A CN 202311292525A CN 117235153 A CN117235153 A CN 117235153A
- Authority
- CN
- China
- Prior art keywords
- tracing
- entity
- activity
- data
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000000694 effects Effects 0.000 claims abstract description 159
- 230000002045 lasting effect Effects 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 18
- 230000008520 organization Effects 0.000 claims description 6
- 230000002085 persistent effect Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 16
- 238000004220 aggregation Methods 0.000 description 10
- 230000002776 aggregation Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 4
- 102100038367 Gremlin-1 Human genes 0.000 description 2
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 description 2
- 125000002015 acyclic group Chemical group 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种基于PROV‑DM模型的合规数据存证和溯源方法,包括:通过PROV‑DM模型定义实体、活动和代理三个要素以及它们之间的关系;根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;使用图数据库或关系数据库,将所述有向无环图进行持久化存储;根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。本申请通过基于数据关系进行存储,在数据溯源时,不需要对数据结构进行改动即可进行数据溯源。
Description
技术领域
本申请涉及数据存储与溯源领域,尤其涉及一种基于PROV-DM模型的合规数据存证和溯源方法及系统。
背景技术
在数据要素流转过程中的各个节点,需要对每一次数据收集、共享动作进行存证,并允许用户在后续对其进行溯源或取证。
在进行数据溯源时,需要考虑两个方面:数据结构存储形式和存储介质。
数据结构存储形式可以选择扩展原有数据或以树形结构或DAG的形式存储元数据。如果涉及到跨主体跨机构且数据可能以批次流转,扩展原有数据可能需要进行较大的改动。
发明内容
本申请的目的在于克服现有技术中存在的问题,提供一种基于PROV-DM模型的合规数据存证和溯源方法及系统。
本申请提供一种基于PROV-DM模型的合规数据存证和溯源方法,包括:
通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;
根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;
使用图数据库或关系数据库,将所述有向无环图进行持久化存储;
根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
可选地,所述通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系,包括:
通过定义关系来描述实体、活动和代理之间的依赖关系,包括:已使用(Usage)、已产生(Generation)、已开始(Start)、已结束(End)、已失效(Invalidation)和已被告知(Communication)。
可选地,所述根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,包括:
确定需要溯源的数据对象;
通过查询获取目标数据的溯源路径和详细信息,包括数据的历史状态、修改记录、操作人员等信息。
将溯源路径和详细信息输出。
可选地,所述通过所述时间、实体、活动进行数据溯源查询,包括数据溯源查询公式:
trace(entity,activity,time)=query(entity,activity,time)
其中:entity:要溯源的实体;activity:与实体相关的活动;time:溯源的时间范围;query(entity,activity,time):查询函数,根据输入的实体、活动和时间范围,从持久化存储的有向无环图中检索相关数据的溯源路径和详细信息。
可选地,所述实体、活动和代理三个要素以及它们之间的关系,包括:
实体是指在数据存储和溯源过程中需要被记录和追踪的对象或数据;
活动是指对实体进行操作、处理或改变的过程或行为;
代理是指参与活动的实体,通常是指能够执行活动的人、组织或系统;
关系是指实体、活动和代理之间的连接和依赖关系。
本申请还提供一种基于PROV-DM模型的合规数据存证和溯源系统,包括:
定义模块,通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;
构建模块,根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;
存储模块,使用图数据库或关系数据库,将所述有向无环图进行持久化存储;
查询模块,根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
可选地,所述定义模块通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系,包括:
通过定义关系来描述实体、活动和代理之间的依赖关系,包括:已使用(Usage)、已产生(Generation)、已开始(Start)、已结束(End)、已失效(Invalidation)和已被告知(Communication)。
可选地,所述查询模块根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,包括:
确定需要溯源的数据对象;
通过查询获取目标数据的溯源路径和详细信息,包括数据的历史状态、修改记录、操作人员等信息。
将溯源路径和详细信息输出。
可选地,所述查询模块通过所述时间、实体、活动进行数据溯源查询,包括数据溯源查询公式:
trace(entity,activity,time)=query(entity,activity,time)
其中:entity:要溯源的实体;activity:与实体相关的活动;time:溯源的时间范围;query(entity,activity,time):查询函数,根据输入的实体、活动和时间范围,从持久化存储的有向无环图中检索相关数据的溯源路径和详细信息。
可选地,所述实体、活动和代理三个要素以及它们之间的关系,包括:
实体是指在数据存储和溯源过程中需要被记录和追踪的对象或数据;
活动是指对实体进行操作、处理或改变的过程或行为;
代理是指参与活动的实体,通常是指能够执行活动的人、组织或系统;
关系是指实体、活动和代理之间的连接和依赖关系。
本申请的优点和有益效果:
本申请提供一种基于PROV-DM模型的合规数据存证和溯源方法,包括:通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;使用图数据库或关系数据库,将所述有向无环图进行持久化存储;根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。本申请通过基于数据关系进行存储,在数据溯源时,不需要对数据结构进行改动即可进行数据溯源。
附图说明
图1是本申请中基于PROV-DM模型的合规数据存证和溯源示意图。
图2是本申请中实体、活动和代理这三个要素示意图。
图3是本申请中基于PROV-DM模型的合规数据存证和溯源装置示意图。
具体实施方式
下面结合附图和具体实施例对本申请作进一步说明,以使本领域的技术人员可以更好地理解本申请并能予以实施。
以下内容均是为了详细说明本申请要保护的技术方案所提供的具体实施过程的示例,但是本申请还可以采用不同于此的描述的其他方式实施,本领域技术人员可以在本申请构思的指引下,采用不同的技术手段实现本申请,因此本申请不受下面具体实施例的限制。
本申请提供一种基于PROV-DM模型的合规数据存证和溯源方法,包括:通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;使用图数据库或关系数据库,将所述有向无环图进行持久化存储;根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。本申请通过基于数据关系进行存储,在数据溯源时,不需要对数据结构进行改动即可进行数据溯源。
图1是本申请中基于PROV-DM模型的合规数据存证和溯源示意图。
请参照图1所示,S101通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系。
通过定义关系来描述实体、活动和代理之间的依赖关系,包括:已使用(Usage)、已产生(Generation)、已开始(Start)、已结束(End)、已失效(Invalidation)和已被告知(Communication)。
具体的,根据PROV-DM(ThePROVDataModel)模型,可以定义实体、活动和代理这三个要素,以及它们之间的关系,包括:
实体是指在数据流转过程中被创建、使用或影响的物理或逻辑对象。定义实体包括:
为每个实体分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定实体的特征和属性,以便在数据溯源过程中进行分析和比较。
活动是指在数据流转过程中执行的操作或事件。定义活动步骤包括:
为每个活动分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定活动的特征和属性,以便在数据溯源过程中进行分析和比较。
代理是指在数据流转过程中参与或影响数据处理的实体,可以是人、组织、系统或其他实体。定义代理包括:
为每个代理分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定代理的特征和属性,以便在数据溯源过程中进行分析和比较。
定义实体、活动和代理之间的关系:
在数据溯源过程中,实体、活动和代理之间存在多种关系,如生成(wasGeneratedBy)、使用(used)、控制(wasControlledBy)等。可以通过以下步骤来定义它们之间的关系:
根据具体的场景和需求,选择适当的关系类型来描述实体、活动和代理之间的关系。
确定参与关系的实体、活动和代理的标识符,并将它们与相应的关系类型关联起来。
本申请使用PROV-DM模型来定义实体、活动和代理这三个要素,并建立它们之间的关系。这将为数据溯源提供基础,以便在数据流转过程中进行追踪、分析和比较。
请参照图1所示,S102根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息。
记录实体是由哪个活动生成的。这个关系可以表示为:实体E1wasGeneratedBy活动A1。
记录实体在某个活动中被使用了。这个关系可以表示为:活动A1used实体E1。
记录一个实体是从另一个或多个实体派生而来的。这个关系可以表示为:实体E2wasDerivedFrom实体E1。
记录活动与某个代理之间的关联,表示活动由代理执行。这个关系可以表示为:活动A1wasAssociatedWith代理P1。
记录代理之间的层次关系,表示一个代理代表另一个代理参与活动。这个关系可以表示为:代理P2actedOnBehalfOf代理P1。
如图2所示,通过使用上述关系,建立有向无环图来记录实体、活动和代理之间的关系。这样的图可以帮助追踪数据的流动和处理过程,并提供溯源和取证的功能。其中,实体、活动和代理可以作为节点,而关系可以作为边。通过遵循PROV-DM模型的定义和规范,可以准确地记录实体的生成、使用、派生关系,以及活动的执行和代理的参与信息。
请参照图1所示,S103使用图数据库或关系数据库,将所述有向无环图进行持久化存储。
图数据库是一种专门用于存储和处理图数据的数据库。它使用图结构来表示实体、活动和代理之间的关系,并提供了高效的图查询和遍历功能。将有向无环图存储到图数据库中,可以使用节点和边的方式来表示实体、活动和代理,并使用关系类型来表示它们之间的关系。图数据库提供了灵活的数据模型和查询语言,可以方便地查询和分析图数据。
关系数据库是一种使用表和关系模型来存储数据的数据库。将有向无环图存储到关系数据库中,可以使用表来表示实体、活动和代理,并使用外键来表示它们之间的关系。可以创建多个表来表示不同类型的节点和边,例如一个表用于表示实体,另一个表用于表示活动,再一个表用于表示代理,通过在表中建立外键关联,可以建立实体、活动和代理之间的关系。
在将有向无环图存储到数据库中时,需要设计合适的数据模型和表结构来表示实体、活动和代理,并定义适当的关系类型和外键关联。同时,还需要选择合适的数据库管理系统(DBMS)来支持图数据库或关系数据库的存储和查询操作。通过将有向无环图持久化存储到数据库中,可以实现数据的长期保存和高效的查询分析,为数据溯源提供可靠的基础。
请参照图1所示,S104根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
确定需要溯源的数据对象;
通过查询获取目标数据的溯源路径和详细信息,包括数据的历史状态、修改记录、操作人员等信息。
在进行数据溯源查询之前,需要明确溯源的目标和需求。例如,可能需要查找某个特定时间段内某个实体的生成路径,或者查找某个活动所使用的所有实体。根据具体的目标和需求,可以确定查询的范围和条件。
根据所述时间、实体、活动等查询条件,可以使用查询语言或查询接口来执行数据溯源查询。查询语言可以是图查询语言(如Cypher、Gremlin)或关系数据库查询语言(如SQL),根据所选择的数据库类型来确定使用的查询语言。查询接口可以是数据库的API或图数据库的API,根据所选择的数据库类型来确定使用的查询接口。
对于某些经常被查询的数据,在查询之前进行预计算和聚合,生成更小、更易于查询的结果。这样,在查询时可以直接使用预计算的结果,而不需要进行复杂的计算。具体的,公式如下:
其中,entity_table表示包含实体历史数据的原始表,n表示该表中的行数,total_count[i]表示第i行数据的总次数或总数量。
通过所述公式表示对原始表进行预计算和聚合,计算每个实体在每个时间段内的总次数或总数量,并将结果存储在一个新的表中。在查询时,可以直接使用这个新表中的数据进行查询,而不需要再次计算。
进一步的,通过并行计算提高所述预计算和聚合的速度,公式如下:
在这个公式中,f表示预计算和聚合的函数,entity_table表示输入的实体数据表。g表示一个合并函数,它将每个子任务的计算结果进行合并。map函数将输入的实体数据表映射到多个计算节点或线程上进行并行计算。
进一步的使用n表示查询涉及的表的数量,m表示查询涉及的列的数量。可以使用j表示查询中的联接操作的次数。使用s表示查询中的筛选条件的数量。使用a表示查询中的聚合函数的数量。
基于这些因素,通过下面公式来评估查询的复杂性和计算量:
其中,n、m、j、s、a和O分别表示查询涉及的表和列的数量、查询中的联接操作数量、查询中的筛选条件数量、查询中的聚合函数数量和执行查询所需的操作数量。
根据所述公式可以更全面地评估查询的复杂性和计算量,包括查询涉及的数据结构、查询语句本身的复杂性和执行查询所需的操作数量等因素。
设置阈值,将所述C与阈值进行比对,当所述C大于阈值时,进行预计算和聚合后的查询,否则进行正常数据查询。如此可以进一步根据实际情况进行预计算和聚合的选择,当简单查询时不需要进行预计算,当复杂查询时才进行预计算,实现最优的查询策略。
根据查询条件,系统将返回与条件匹配的溯源路径和详细信息。溯源路径是指从起始点(如特定时间、实体、活动)到目标点(如生成的实体、使用的实体)的路径,可以是单条路径或多条路径。详细信息包括每个路径上的节点(实体、活动)和边(关系)的属性和关联信息。根据查询结果,可以了解数据的生成、使用和派生关系,以及活动的执行和代理的参与信息。
通过对查询结果的分析和解读,可以获取相关数据的溯源路径和详细信息,进一步了解数据的来源、处理过程和关联关系。这有助于追踪数据的流动和处理过程,提供溯源和取证的功能。
本申请还提供一种基于PROV-DM模型的合规数据存证和溯源系统,包括:定义模块、构建模块、存储模块和查询模块。
图3是本申请中基于PROV-DM模型的合规数据存证和溯源装置示意图。
请参照图3所示,定义模块301,通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系。
根据PROV-DM(ThePROVDataModel)模型,可以定义实体、活动和代理这三个要素,以及它们之间的关系。以下是定义实体和它们之间关系的步骤:
实体是指在数据流转过程中被创建、使用或影响的物理或逻辑对象。定义实体包括:
为每个实体分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定实体的特征和属性,以便在数据溯源过程中进行分析和比较。
活动是指在数据流转过程中执行的操作或事件。定义活动步骤包括:
为每个活动分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定活动的特征和属性,以便在数据溯源过程中进行分析和比较。
代理是指在数据流转过程中参与或影响数据处理的实体,可以是人、组织、系统或其他实体。定义代理包括:
为每个代理分配一个唯一的标识符,以便在数据溯源过程中进行识别和追踪。确定代理的特征和属性,以便在数据溯源过程中进行分析和比较。
定义实体、活动和代理之间的关系:
在数据溯源过程中,实体、活动和代理之间存在多种关系,如生成(wasGeneratedBy)、使用(used)、控制(wasControlledBy)等。可以通过以下步骤来定义它们之间的关系:
根据具体的场景和需求,选择适当的关系类型来描述实体、活动和代理之间的关系。
确定参与关系的实体、活动和代理的标识符,并将它们与相应的关系类型关联起来。
本申请使用PROV-DM模型来定义实体、活动和代理这三个要素,并建立它们之间的关系。这将为数据溯源提供基础,以便在数据流转过程中进行追踪、分析和比较。
请参照图3所示,构建模块302,根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息。
记录实体是由哪个活动生成的。这个关系可以表示为:实体E1wasGeneratedBy活动A1。
记录实体在某个活动中被使用了。这个关系可以表示为:活动A1used实体E1。
记录一个实体是从另一个或多个实体派生而来的。这个关系可以表示为:实体E2wasDerivedFrom实体E1。
记录活动与某个代理之间的关联,表示活动由代理执行。这个关系可以表示为:活动A1wasAssociatedWith代理P1。
记录代理之间的层次关系,表示一个代理代表另一个代理参与活动。这个关系可以表示为:代理P2actedOnBehalfOf代理P1。
通过使用上述关系,建立有向无环图来记录实体、活动和代理之间的关系。这样的图可以帮助追踪数据的流动和处理过程,并提供溯源和取证的功能。其中,实体、活动和代理可以作为节点,而关系可以作为边。通过遵循PROV-DM模型的定义和规范,可以准确地记录实体的生成、使用、派生关系,以及活动的执行和代理的参与信息。
请参照图3所示,存储模块303,使用图数据库或关系数据库,将所述有向无环图进行持久化存储。
图数据库是一种专门用于存储和处理图数据的数据库。它使用图结构来表示实体、活动和代理之间的关系,并提供了高效的图查询和遍历功能。将有向无环图存储到图数据库中,可以使用节点和边的方式来表示实体、活动和代理,并使用关系类型来表示它们之间的关系。图数据库提供了灵活的数据模型和查询语言,可以方便地查询和分析图数据。
关系数据库是一种使用表和关系模型来存储数据的数据库。将有向无环图存储到关系数据库中,可以使用表来表示实体、活动和代理,并使用外键来表示它们之间的关系。可以创建多个表来表示不同类型的节点和边,例如一个表用于表示实体,另一个表用于表示活动,再一个表用于表示代理,通过在表中建立外键关联,可以建立实体、活动和代理之间的关系。
在将有向无环图存储到数据库中时,需要设计合适的数据模型和表结构来表示实体、活动和代理,并定义适当的关系类型和外键关联。同时,还需要选择合适的数据库管理系统(DBMS)来支持图数据库或关系数据库的存储和查询操作。通过将有向无环图持久化存储到数据库中,可以实现数据的长期保存和高效的查询分析,为数据溯源提供可靠的基础。
请参照图3所示,查询模块304,根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
在进行数据溯源查询之前,需要明确溯源的目标和需求。例如,可能需要查找某个特定时间段内某个实体的生成路径,或者查找某个活动所使用的所有实体。根据具体的目标和需求,可以确定查询的范围和条件。
根据所述时间、实体、活动等查询条件,可以使用查询语言或查询接口来执行数据溯源查询。查询语言可以是图查询语言(如Cypher、Gremlin)或关系数据库查询语言(如SQL),根据所选择的数据库类型来确定使用的查询语言。查询接口可以是数据库的API或图数据库的API,根据所选择的数据库类型来确定使用的查询接口。
对于某些经常被查询的数据,在查询之前进行预计算和聚合,生成更小、更易于查询的结果。这样,在查询时可以直接使用预计算的结果,而不需要进行复杂的计算。具体的,公式如下:
其中,entity_table表示包含实体历史数据的原始表,n表示该表中的行数,total_count[i]表示第i行数据的总次数或总数量。
通过所述公式表示对原始表进行预计算和聚合,计算每个实体在每个时间段内的总次数或总数量,并将结果存储在一个新的表中。在查询时,可以直接使用这个新表中的数据进行查询,而不需要再次计算。
进一步的,通过并行计算提高所述预计算和聚合的速度,公式如下:
在这个公式中,f表示预计算和聚合的函数,entity_table表示输入的实体数据表。g表示一个合并函数,它将每个子任务的计算结果进行合并。map函数将输入的实体数据表映射到多个计算节点或线程上进行并行计算。
进一步的使用n表示查询涉及的表的数量,m表示查询涉及的列的数量。可以使用j表示查询中的联接操作的次数。使用s表示查询中的筛选条件的数量。使用a表示查询中的聚合函数的数量。
基于这些因素,通过下面公式来评估查询的复杂性和计算量:
其中,n、m、j、s、a和O分别表示查询涉及的表和列的数量、查询中的联接操作数量、查询中的筛选条件数量、查询中的聚合函数数量和执行查询所需的操作数量。
根据所述公式可以更全面地评估查询的复杂性和计算量,包括查询涉及的数据结构、查询语句本身的复杂性和执行查询所需的操作数量等因素。
设置阈值,将所述C与阈值进行比对,当所述C大于阈值时,进行预计算和聚合后的查询,否则进行正常数据查询。如此可以进一步根据实际情况进行预计算和聚合的选择,当简单查询时不需要进行预计算,当复杂查询时才进行预计算,实现最优的查询策略。
根据查询条件,系统将返回与条件匹配的溯源路径和详细信息。溯源路径是指从起始点(如特定时间、实体、活动)到目标点(如生成的实体、使用的实体)的路径,可以是单条路径或多条路径。详细信息包括每个路径上的节点(实体、活动)和边(关系)的属性和关联信息。根据查询结果,可以了解数据的生成、使用和派生关系,以及活动的执行和代理的参与信息。
通过对查询结果的分析和解读,可以获取相关数据的溯源路径和详细信息,进一步了解数据的来源、处理过程和关联关系。这有助于追踪数据的流动和处理过程,提供溯源和取证的功能。
Claims (10)
1.一种基于PROV-DM模型的合规数据存证和溯源方法,其特征在于,包括:
通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;
根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;
使用图数据库或关系数据库,将所述有向无环图进行持久化存储;
根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
2.根据权利要求1所述基于PROV-DM模型的合规数据存证和溯源方法,其特征在于,所述通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系,包括:
通过定义关系来描述实体、活动和代理之间的依赖关系,包括:已使用、已产生、已开始、已结束、已失效和已被告知。
3.根据权利要求1所述基于PROV-DM模型的合规数据存证和溯源方法,其特征在于,所述根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,包括:
确定需要溯源的数据对象;
通过查询获取目标数据的溯源路径和详细信息,包括数据的历史状态、修改记录、操作人员的信息;
将溯源路径和详细信息输出。
4.根据权利要求1所述基于PROV-DM模型的合规数据存证和溯源方法,其特征在于,所述通过所述时间、实体、活动进行数据溯源查询,包括数据溯源查询公式:
trace(entity,activity,time)=query(entity,activity,time)
其中:entity:要溯源的实体;activity:与实体相关的活动;time:溯源的时间范围;query(entity,activity,time):查询函数,根据输入的实体、活动和时间范围,从持久化存储的有向无环图中检索相关数据的溯源路径和详细信息。
5.根据权利要求1所述基于PROV-DM模型的合规数据存证和溯源方法,其特征在于,所述实体、活动和代理三个要素以及它们之间的关系,包括:
实体是指在数据存储和溯源过程中需要被记录和追踪的对象或数据;
活动是指对实体进行操作、处理或改变的过程或行为;
代理是指参与活动的实体,通常是指能够执行活动的人、组织或系统;
关系是指实体、活动和代理之间的连接和依赖关系。
6.一种基于PROV-DM模型的合规数据存证和溯源系统,其特征在于,包括:
定义模块,通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系;
构建模块,根据所述关系将所述实体、活动和代理进行关联,建立有向无环图,记录包括实体的生成、使用、派生关系,以及活动的执行、代理的参与信息;
存储模块,使用图数据库或关系数据库,将所述有向无环图进行持久化存储;
查询模块,根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,获取相关数据的溯源路径和详细信息。
7.根据权利要求6所述基于PROV-DM模型的合规数据存证和溯源系统,其特征在于,所述定义模块通过PROV-DM模型定义实体、活动和代理三个要素以及它们之间的关系,包括:
通过定义关系来描述实体、活动和代理之间的依赖关系,包括:已使用、已产生、已开始、已结束、已失效和已被告知。
8.根据权利要求6所述基于PROV-DM模型的合规数据存证和溯源系统,其特征在于,所述查询模块根据溯源目标和需求,通过所述时间、实体、活动进行数据溯源查询,包括:
确定需要溯源的数据对象;
通过查询获取目标数据的溯源路径和详细信息,包括数据的历史状态、修改记录、操作人员的信息;
将溯源路径和详细信息输出。
9.根据权利要求6所述基于PROV-DM模型的合规数据存证和溯源系统,其特征在于,所述查询模块通过所述时间、实体、活动进行数据溯源查询,包括数据溯源查询公式:
trace(entity,activity,time)=query(entity,activity,time)
其中:entity:要溯源的实体;activity:与实体相关的活动;time:溯源的时间范围;query(entity,activity,time):查询函数,根据输入的实体、活动和时间范围,从持久化存储的有向无环图中检索相关数据的溯源路径和详细信息。
10.根据权利要求6所述基于PROV-DM模型的合规数据存证和溯源系统,其特征在于,所述实体、活动和代理三个要素以及它们之间的关系,包括:
实体是指在数据存储和溯源过程中需要被记录和追踪的对象或数据;
活动是指对实体进行操作、处理或改变的过程或行为;
代理是指参与活动的实体,通常是指能够执行活动的人、组织或系统;
关系是指实体、活动和代理之间的连接和依赖关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311292525.2A CN117235153A (zh) | 2023-10-08 | 2023-10-08 | 一种基于prov-dm模型的合规数据存证和溯源方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311292525.2A CN117235153A (zh) | 2023-10-08 | 2023-10-08 | 一种基于prov-dm模型的合规数据存证和溯源方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117235153A true CN117235153A (zh) | 2023-12-15 |
Family
ID=89085948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311292525.2A Pending CN117235153A (zh) | 2023-10-08 | 2023-10-08 | 一种基于prov-dm模型的合规数据存证和溯源方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235153A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060235836A1 (en) * | 2005-04-14 | 2006-10-19 | International Business Machines Corporation | Query conditions on related model entities |
CN106709000A (zh) * | 2016-12-22 | 2017-05-24 | 河海大学 | 一种基于PageRank和起源图抽象的关键视图发现方法 |
CN110704874A (zh) * | 2019-09-27 | 2020-01-17 | 西北大学 | 一种基于数据溯源的隐私泄露防护方法 |
CN112395566A (zh) * | 2020-12-08 | 2021-02-23 | 江西赣鄱云新型智慧城市技术研究有限公司 | 基于区块链的数据溯源系统 |
CN113569083A (zh) * | 2021-06-17 | 2021-10-29 | 南京大学 | 基于数据溯源模型的智能音箱本地端数字取证系统及方法 |
CN114253995A (zh) * | 2022-03-01 | 2022-03-29 | 深圳市明源云科技有限公司 | 数据溯源方法、装置、设备及计算机可读存储介质 |
CN116304220A (zh) * | 2022-12-05 | 2023-06-23 | 东北大学 | 一种面向数据集成的多粒度溯源方法 |
-
2023
- 2023-10-08 CN CN202311292525.2A patent/CN117235153A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060235836A1 (en) * | 2005-04-14 | 2006-10-19 | International Business Machines Corporation | Query conditions on related model entities |
CN106709000A (zh) * | 2016-12-22 | 2017-05-24 | 河海大学 | 一种基于PageRank和起源图抽象的关键视图发现方法 |
CN110704874A (zh) * | 2019-09-27 | 2020-01-17 | 西北大学 | 一种基于数据溯源的隐私泄露防护方法 |
CN112395566A (zh) * | 2020-12-08 | 2021-02-23 | 江西赣鄱云新型智慧城市技术研究有限公司 | 基于区块链的数据溯源系统 |
CN113569083A (zh) * | 2021-06-17 | 2021-10-29 | 南京大学 | 基于数据溯源模型的智能音箱本地端数字取证系统及方法 |
CN114253995A (zh) * | 2022-03-01 | 2022-03-29 | 深圳市明源云科技有限公司 | 数据溯源方法、装置、设备及计算机可读存储介质 |
CN116304220A (zh) * | 2022-12-05 | 2023-06-23 | 东北大学 | 一种面向数据集成的多粒度溯源方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11971890B2 (en) | Database management system for optimizing queries via multiple optimizers | |
US11163670B2 (en) | Data records selection | |
Krishnan et al. | Learning to optimize join queries with deep reinforcement learning | |
US20210286786A1 (en) | Database performance tuning method, apparatus, and system, device, and storage medium | |
US20180004781A1 (en) | Data lineage analysis | |
CN104137095B (zh) | 用于演进分析的系统 | |
US9785657B2 (en) | Method for synthetic data generation for query workloads | |
Qin et al. | PF-OLA: a high-performance framework for parallel online aggregation | |
WO2021012861A1 (zh) | 数据查询耗时评估方法、装置、计算机设备和存储介质 | |
CN107729510B (zh) | 信息交互方法、信息交互终端及存储介质 | |
US8548980B2 (en) | Accelerating queries based on exact knowledge of specific rows satisfying local conditions | |
CN117235153A (zh) | 一种基于prov-dm模型的合规数据存证和溯源方法及系统 | |
Gombos et al. | P-Spar (k) ql: SPARQL evaluation method on Spark GraphX with parallel query plan | |
Awada et al. | Cost Estimation Across Heterogeneous SQL-Based Big Data Infrastructures in Teradata IntelliSphere. | |
US20220043821A1 (en) | Method for performing multi-caching on data sources of same type and different types by using cluster-based processing system and device using the same | |
CN114328606A (zh) | Sql执行效率的提高方法、设备及存储介质 | |
Hüske | Specification and optimization of analytical data flows | |
CN111723249A (zh) | 一种实现数据处理的方法、装置、计算机存储介质及终端 | |
Mihaylov et al. | Scalable learning to troubleshoot query performance problems | |
Zhang et al. | Scalable Online Interval Join on Modern Multicore Processors in OpenMLDB | |
Ito et al. | Scardina: Scalable Join Cardinality Estimation by Multiple Density Estimators | |
EP4092543A1 (en) | Index-based, adaptive join size estimation | |
Pandit et al. | Accelerating big data analytics with collaborative planning in Teradata Aster 6 | |
Werner et al. | Managing Spatio-Temporal Data Streams on AUVs | |
Lee et al. | Join processing with threshold-based filtering in MapReduce |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |